CN106023983A - 基于虚拟现实vr场景的多用户语音交互方法以及装置 - Google Patents

基于虚拟现实vr场景的多用户语音交互方法以及装置 Download PDF

Info

Publication number
CN106023983A
CN106023983A CN201610270381.4A CN201610270381A CN106023983A CN 106023983 A CN106023983 A CN 106023983A CN 201610270381 A CN201610270381 A CN 201610270381A CN 106023983 A CN106023983 A CN 106023983A
Authority
CN
China
Prior art keywords
user
voice
sound
source
vocal print
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610270381.4A
Other languages
English (en)
Other versions
CN106023983B (zh
Inventor
杨宗业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN201610270381.4A priority Critical patent/CN106023983B/zh
Publication of CN106023983A publication Critical patent/CN106023983A/zh
Application granted granted Critical
Publication of CN106023983B publication Critical patent/CN106023983B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L2013/021Overlap-add techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明公开了一种基于虚拟现实VR场景的多用户语音交互方法以及装置。其中方法包括:在多个用户处于虚拟现实VR场景的过程中,通过当前用户的移动终端的麦克风进行语音采集以获取周围环境的声音信号,其中,虚拟现实VR场景的实现方式是通过当前用户的移动终端配合VR眼镜以及头戴式耳机实现的;对声音信号进行降噪处理以获得说话用户的语音;获取VR场景的VR音源;将说话用户的语音与VR音源进行同步合成以生成合成语音,并控制当前用户的头戴式耳机输出合成语音。该方法通过当前用户移动终端的麦克风进行语音,并配合VR来实现多人场景下的交互需求,实现了VR体验下多用户之间的语音交流。

Description

基于虚拟现实VR场景的多用户语音交互方法以及装置
技术领域
本发明涉及通信技术领域,尤其涉及一种基于虚拟现实VR场景的多用户语音交互方法以及装置。
背景技术
随着通信技术以及计算机技术的快速发展,VR(Virtual Reality,虚拟现实)技术逐渐火爆。虚拟现实VR技术是一种可以创建和体验虚拟世界的计算机仿真系统,利用计算机生成一种模拟环境,也是一种多源信息融合的交互式的三维动态视景和实体行为的系统仿真,能够使用户沉浸到该环境中。目前,该VR技术被广泛应用于影视、虚拟现实游戏、绘画等场景下,最为便捷的实现方式是通过智能手机配合VR眼镜,再配上头戴式耳机,实现虚拟视听效果。这种体验方式发挥成本优势,提高个人的完全沉浸,然而,目前更多地仅限于单人的VR体验,在多人VR游戏、或多人VR会议等场景下的用户之间交互比较薄弱。因此,如何实现VR特定场景下多用户之间的交互体验已经成为亟待解决的问题。
发明内容
本发明的目的旨在至少在一定程度上解决上述的技术问题之一。
为此,本发明的第一个目的在于提出一种基于虚拟现实VR场景的多用户语音交互方法。该方法通过当前用户移动终端的麦克风进行语音,并配合VR来实现多人场景下的交互需求,实现了VR体验下多用户之间的语音交流。
本发明的第二个目的在于提出一种基于虚拟现实VR场景的多用户语音交互装置。
为达上述目的,本发明第一方面实施例的基于虚拟现实VR场景的多用户语音交互方法,包括:在多个用户处于虚拟现实VR场景的过程中,通过当前用户的移动终端的麦克风进行语音采集以获取周围环境的声音信号,其中,所述虚拟现实VR场景的实现方式是通过当前用户的移动终端配合VR眼镜以及头戴式耳机实现的;对所述声音信号进行降噪处理以获得说话用户的语音;获取所述VR场景的VR音源;将所述说话用户的语音与所述VR音源进行同步合成以生成合成语音,并控制所述当前用户的头戴式耳机输出所述合成语音。
根据本发明实施例的基于虚拟现实VR场景的多用户语音交互方法,在多个用户处于虚拟现实VR场景的过程中,通过当前用户的移动终端的麦克风进行语音采集以获取周围环境的声音信号,并对声音信号进行降噪处理以获得说话用户的语音,之后,获取VR场景的VR音源,然后,将说话用户的语音与VR音源进行同步合成以生成合成语音,并控制当前用户的头戴式耳机输出合成语音。即通过当前用户移动终端的麦克风进行语音,并配合VR来实现多人场景下的交互需求,实现VR体验下多用户之间的语音交流,提升了用户体验,并且,这种用户间的交互方式不需额外的设备支持。
其中,在本发明的一个实施例中,所述移动终端的麦克风为多个,在将所述说话用户的语音与所述VR音源进行合成以生成合成语音之前,所述方法还包括:通过所述移动终端的多个麦克风对同一音源进行语音采集,并根据每个麦克风采集到的信号强度信息和延时信息确定所述音源的位置信息;其中,根据所述音源的位置信息控制所述当前用户的头戴式耳机输出所述合成语音。
在本发明的一个实施例中,所述根据所述音源的位置信息控制所述当前用户的头戴式耳机输出所述合成语音,包括:根据所述音源的位置信息调整所述当前用户的头戴式耳机左右声道的声音信号大小,并控制所述当前用户的头戴式耳机依据调整后的声音信号大小对所述合成语音进行输出。
在本发明的一个实施例中,所述方法还包括:预先存储特定用户的声纹特征信息;获取所述说话用户的语音中的声纹特征信息,并判断所述说话用户的声纹特征信息是否与所述特定用户的声纹特征信息匹配;如果所述说话用户的声纹特征信息与所述特定用户的声纹特征信息匹配,则将所述说话用户的语音与所述VR音源进行同步合成以生成合成语音。
在本发明的一个实施例中,当所述说话用户的声纹特征信息与所述特定用户的声纹特征信息不匹配时,直接控制所述当前用户的头戴式耳机输出所述VR音源。
为达上述目的,本发明第二方面实施例的基于虚拟现实VR场景的多用户语音交互装置,包括:第一获取模块,用于在多个用户处于虚拟现实VR场景的过程中,通过当前用户的移动终端的麦克风进行语音采集以获取周围环境的声音信号,其中,所述虚拟现实VR场景的实现方式是通过当前用户的移动终端配合VR眼镜以及头戴式耳机实现的;降噪处理模块,用于对所述声音信号进行降噪处理以获得说话用户的语音;第二获取模块,用于获取所述VR场景的VR音源;合成模块,用于将所述说话用户的语音与所述VR音源进行同步合成以生成合成语音;控制模块,用于控制所述当前用户的头戴式耳机输出所述合成语音。
根据本发明实施例的基于虚拟现实VR场景的多用户语音交互装置,通过第一获取模块在多个用户处于虚拟现实VR场景的过程中,通过当前用户的移动终端的麦克风进行语音采集以获取周围环境的声音信号,降噪处理模块对声音信号进行降噪处理以获得说话用户的语音,第二获取模块获取VR场景的VR音源,合成模块将说话用户的语音与VR音源进行同步合成以生成合成语音,控制模块控制当前用户的头戴式耳机输出合成语音。即通过当前用户移动终端的麦克风进行语音,并配合VR来实现多人场景下的交互需求,实现VR体验下多用户之间的语音交流,并且,这种用户间的交互方式不需额外的设备支持。
其中,在本发明的一个实施例中,所述移动终端的麦克风为多个,所述装置还包括:确定模块,用于在所述合成模块将所述说话用户的语音与所述VR音源进行合成以生成合成语音之前,通过所述移动终端的多个麦克风对同一音源进行语音采集,并根据每个麦克风采集到的信号强度信息和延时信息确定所述音源的位置信息;其中,所述控制模块还用于根据所述音源的位置信息控制所述当前用户的头戴式耳机输出所述合成语音。
在本发明的一个实施例中,所述控制模块具体用于:根据所述音源的位置信息调整所述当前用户的头戴式耳机左右声道的声音信号大小,并控制所述当前用户的头戴式耳机依据调整后的声音信号大小对所述合成语音进行输出。
在本发明的一个实施例中,所述装置还包括:预存储模块,用于预先存储特定用户的声纹特征信息;第三获取模块,用于获取所述说话用户的语音中的声纹特征信息;判断模块,用于判断所述说话用户的声纹特征信息是否与所述特定用户的声纹特征信息匹配;其中,所述合成模块还用于在所述判断模块判断所述说话用户的声纹特征信息与所述特定用户的声纹特征信息匹配时,将所述说话用户的语音与所述VR音源进行同步合成以生成合成语音。
在本发明的一个实施例中,所述控制模块还用于在所述判断模块判断所述说话用户的声纹特征信息与所述特定用户的声纹特征信息不匹配时,直接控制所述当前用户的头戴式耳机输出所述VR音源。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明一个实施例的基于虚拟现实VR场景的多用户语音交互方法的流程图;
图2是根据本发明一个实施例的基于虚拟现实VR场景的多用户语音交互装置的结构框图;
图3是根据本发明另一个实施例的基于虚拟现实VR场景的多用户语音交互装置的结构框图;
图4是根据本发明又一个实施例的基于虚拟现实VR场景的多用户语音交互装置的结构框图。
附图标记:
第一获取模块10、降噪处理模块20、第二获取模块30、合成模块40、控制模块50、确定模块60、预存储模块70、第三获取模块80和判断模块90。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于虚拟现实VR场景的多用户语音交互方法以及装置。
图1是根据本发明一个实施例的基于虚拟现实VR场景的多用户语音交互方法的流程图。需要说明的是,本发明实施例的基于虚拟现实VR场景的多用户语音交互方法可应用于基于虚拟现实VR场景的多用户语音交互装置,该多用户语音交互装置可被配置于移动终端中。其中,该移动终端可以是手机、平板电脑、个人数字助理等具有各种操作系统的硬件设备,优选地,该移动终端可为智能手机。
如图1所示,该基于虚拟现实VR场景的多用户语音交互方法可以包括:
S101,在多个用户处于虚拟现实VR场景的过程中,通过当前用户的移动终端的麦克风进行语音采集以获取周围环境的声音信号,其中,虚拟现实VR场景的实现方式是通过当前用户的移动终端配合VR眼镜以及头戴式耳机实现的。
可以理解,本发明实施例的基于虚拟现实VR场景的多用户语音交互方法的应用场景为:多个用户处于虚拟现实VR场景下,该场景可不限于VR游戏场景、VR会议场景、VR影视场景、VR绘画场景等。其中,该虚拟现实VR场景的实现方式可以是通过移动终端配合VR眼影以及头戴式耳机,以实现虚拟视听效果。例如,用户将移动终端(优选为智能手机)放置VR眼镜上,并戴上已放置移动终端的VR眼镜和头戴式耳机,此时用户可通过VR眼镜和头戴式耳机进入虚拟现实VR场景中。需要说明的是,在本发明的实施例中,该头戴式耳机可以是三段式耳机。
在多个用户处于虚拟现实VR场景的过程中,可开启当前用户的移动终端的麦克风,通过该当前用户移动终端的麦克风进行语音采集(或拾取)附近环境的声音,获得周围环境的声音信号。例如,如果周围有用户说话,则可通过当前用户移动终端的麦克风将周围说话用户的声音进行拾取。
S102,对声音信号进行降噪处理以获得说话用户的语音。
可以理解,周围环境可能会存在环境噪音,因此,为了保证人声清晰度,在获得周围环境的声音信号之后,还可通过降噪算法对该声音信号进行降噪处理,以滤除该声音信号中的环境噪声,最终得到说话用户的语音。其中,上述降噪算法可理解为音频降噪算法,如采样除燥法、噪声门等,其中,采样除燥法可理解为对环境噪音的波形样本进行取样,然后对采集到的周围环境的声音信号的波形与采样噪音样本进行分析,自动去除声音信号中的噪音;上述噪声门则是设定一个电平的门限值,低于这个门限的信号电平全部过滤掉,高于门限值的信号电平全部通过。
S103,获取VR场景的VR音源。
例如,假设本发明实施例的VR场景是通过移动终端配合VR眼镜和头戴式耳机实现的,则VR场景中的VR音源可以是由移动终端发出的,如,用户通过将移动终端放置VR眼镜中,并佩戴VR眼镜和头戴式设备,当用户玩耍移动终端中的游戏应用时,可使得用户处于VR游戏场景中,此时移动终端的游戏应用中播出的音频即为VR音源。
S104,将说话用户的语音与VR音源进行同步合成以生成合成语音,并控制当前用户的头戴式耳机输出合成语音。
具体地,可将获取到的说话用户的语音和VR音源同步合成以生成合成语音,并可控制当前用户的头戴式耳机将该合成语音进行输出,使得当前用户通过头戴式耳机在听到VR场景中的VR音源的同时,还能够听到周围环境其他用户的说话声,实现了在VR场景下多个用户之间的交互体验。例如,当用户处于VR游戏场景中,此时移动终端的游戏应用中播出的游戏音频即为VR音频,在获得VR游戏场景的VR音频以及说话用户的语音之后,可将说话用户的语音与VR音频进行同步合成,使得用户在VR游戏场景中既能够听到游戏音频的同时,还能够听到其他说话用户的语音。
其中,在本发明的一个实施例中,移动终端的麦克风可为多个。在本发明的实施例中,在将说话用户的语音与VR音源进行合成以生成合成语音之前,该多用户语音交互方法还可包括:通过移动终端的多个麦克风对同一音源进行语音采集,并根据每个麦克风采集到的信号强度信息和延时信息确定音源的位置信息。其中,在本发明的实施例中,根据音源的位置信息控制当前用户的头戴式耳机输出合成语音。
在本发明的一个实施例中,根据音源的位置信息控制当前用户的头戴式耳机输出合成语音的具体实现过程可如下:根据音源的位置信息调整当前用户的头戴式耳机左右声道的声音信号大小,并控制当前用户的头戴式耳机依据调整后的声音信号大小对合成语音进行输出。
具体地,在将说话用户的语音与VR音源进行合成以生成合成语音之前,还可通过当前用户移动终端的多个麦克风同时对同一音源进行收音,根据每个麦克风拾取的信号强度和延时,可辨识出该音源的位置,并将说话用户的语音合入到VR场景时,可调整头戴式耳机左右声道的声音信号大小以还原该音源的位置,使得VR场景下多个用户之间的语音交互更加真实。
为了能够实现VR体验下当前用户与特定用户之间的交流,进一步地,在本发明的一个实施例中,该多用户语音交互方法还可包括:预先存储特定用户的声纹特征信息;获取说话用户的语音中的声纹特征信息,并判断说话用户的声纹特征信息是否与特定用户的声纹特征信息匹配;如果说话用户的声纹特征信息与特定用户的声纹特征信息匹配,则将说话用户的语音与VR音源进行同步合成以生成合成语音。需要说明的是,在本发明的实施例中,当说话用户的声纹特征信息与特定用户的声纹特征信息不匹配时,直接控制当前用户的头戴式耳机输出VR音源。
也就是说,可预先获取特定用户的语音,并从该语音中提取该特定用户的声纹特征信息,当多个用户处于VR场景下的过程中,在获取到说话用户的语音时,可判断该说话用户是否是特定用户,即可通过获取说话用户的语音中的声纹特征信息,并判断说话用户的声纹特征信息是否与特定用户的声纹特征信息匹配,如果匹配,则可判定该说话用户就是特定用户,此时可将说话用户的语音与VR音源进行同步合成以生成合成语音,并将该合成语音提供给当前用户;如果声纹特征不匹配,则可判定该说话用户不是特定用户,此时不将说话用户的语音与VR音源进行同步合成以生成合成语音,而是直接控制当前用户的头戴式耳机输出VR音源,即不将该说话用户的语音提供给当前用户。
根据本发明实施例的基于虚拟现实VR场景的多用户语音交互方法,在多个用户处于虚拟现实VR场景的过程中,通过当前用户的移动终端的麦克风进行语音采集以获取周围环境的声音信号,并对声音信号进行降噪处理以获得说话用户的语音,之后,获取VR场景的VR音源,然后,将说话用户的语音与VR音源进行同步合成以生成合成语音,并控制当前用户的头戴式耳机输出合成语音。即通过当前用户移动终端的麦克风进行语音,并配合VR来实现多人场景下的交互需求,实现VR体验下多用户之间的语音交流,并且,这种用户间的交互方式不需额外的设备支持。
为了实现上述实施例,本发明还提出了一种基于虚拟现实VR场景的多用户语音交互装置。
图2是根据本发明一个实施例的基于虚拟现实VR场景的多用户语音交互装置的结构框图。需要说明的是,本发明实施例的基于虚拟现实VR场景的多用户语音交互装置可被配置于移动终端中。其中,该移动终端可以是手机、平板电脑、个人数字助理等具有各种操作系统的硬件设备,优选地,该移动终端可为智能手机。
如图2所示,该基于虚拟现实VR场景的多用户语音交互装置可以包括:第一获取模块10、降噪处理模块20、第二获取模块30、合成模块40和控制模块50。
第一获取模块10可用于在多个用户处于虚拟现实VR场景的过程中,通过当前用户的移动终端的麦克风进行语音采集以获取周围环境的声音信号,其中,虚拟现实VR场景的实现方式是通过当前用户的移动终端配合VR眼镜以及头戴式耳机实现的。
可以理解,多个用户可处于虚拟现实VR场景下,该场景可不限于VR游戏场景、VR会议场景、VR影视场景、VR绘画场景等。其中,该虚拟现实VR场景的实现方式可以是通过移动终端配合VR眼影以及头戴式耳机,以实现虚拟视听效果。例如,用户将移动终端(优选为智能手机)放置VR眼镜上,并戴上已放置移动终端的VR眼镜和头戴式耳机,此时用户可通过VR眼镜和头戴式耳机进入虚拟现实VR场景中。需要说明的是,在本发明的实施例中,该头戴式耳机可以是三段式耳机。
第一获取模块10在多个用户处于虚拟现实VR场景的过程中,可开启当前用户的移动终端的麦克风,通过该当前用户移动终端的麦克风进行语音采集(或拾取)附近环境的声音,获得周围环境的声音信号。例如,如果周围有用户说话,则可通过当前用户移动终端的麦克风将周围说话用户的声音进行拾取。
降噪处理模块20可用于对声音信号进行降噪处理以获得说话用户的语音。可以理解,周围环境可能会存在环境噪音,因此,为了保证人声清晰度,在第一获取模块10获得周围环境的声音信号之后,降噪处理模块20还可通过降噪算法对该声音信号进行降噪处理,以滤除该声音信号中的环境噪声,最终得到说话用户的语音。其中,上述降噪算法可理解为音频降噪算法,如采样除燥法、噪声门等,其中,采样除燥法可理解为对环境噪音的波形样本进行取样,然后对采集到的周围环境的声音信号的波形与采样噪音样本进行分析,自动去除声音信号中的噪音;上述噪声门则是设定一个电平的门限值,低于这个门限的信号电平全部过滤掉,高于门限值的信号电平全部通过。
第二获取模块30可用于获取VR场景的VR音源。例如,假设本发明实施例的VR场景是通过移动终端配合VR眼镜和头戴式耳机实现的,则VR场景中的VR音源可以是由移动终端发出的,如,用户通过将移动终端放置VR眼镜中,并佩戴VR眼镜和头戴式设备,当用户玩耍移动终端中的游戏应用时,可使得用户处于VR游戏场景中,此时移动终端的游戏应用中播出的音频即为VR音源。由此,第二获取模块30可从移动终端的游戏应用中获取该VR音源。
合成模块40可用于将说话用户的语音与VR音源进行同步合成以生成合成语音。控制模块50可用于控制当前用户的头戴式耳机输出合成语音。
更具体地,合成模块40可将获取到的说话用户的语音和VR音源同步合成以生成合成语音,控制模块50可控制当前用户的头戴式耳机将该合成语音进行输出,使得当前用户通过头戴式耳机在听到VR场景中的VR音源的同时,还能够听到周围环境其他用户的说话声,实现了在VR场景下多个用户之间的交互体验。
其中,在本发明的一个实施例中,移动终端的麦克风可为多个。在本发明的实施例中,如图3所示,该多用户语音交互装置还可包括确定模块60,确定模块60可用于在合成模块40将说话用户的语音与VR音源进行合成以生成合成语音之前,通过移动终端的多个麦克风对同一音源进行语音采集,并根据每个麦克风采集到的信号强度信息和延时信息确定音源的位置信息。
其中,在本实施例中,控制模块50还用于根据音源的位置信息控制当前用户的头戴式耳机输出合成语音。具体而言,在本发明的一个实施例中,控制模块50根据音源的位置信息控制当前用户的头戴式耳机输出合成语音的具体实现过程可如下:根据音源的位置信息调整当前用户的头戴式耳机左右声道的声音信号大小,并控制当前用户的头戴式耳机依据调整后的声音信号大小对合成语音进行输出。
更具体地,在合成模块40将说话用户的语音与VR音源进行合成以生成合成语音之前,确定模块60还可通过当前用户移动终端的多个麦克风同时对同一音源进行收音,根据每个麦克风拾取的信号强度和延时,可辨识出该音源的位置,并合成模块40将说话用户的语音合入到VR场景时,控制模块50可调整头戴式耳机左右声道的声音信号大小以还原该音源的位置,使得VR场景下多个用户之间的语音交互更加真实。
为了能够实现VR体验下当前用户与特定用户之间的交流,进一步地,在本发明的一个实施例中,如图4所示,该多用户语音交互装置还可包括:预存储模块70、第三获取模块80和判断模块90。
其中,预存储模块70用于预先存储特定用户的声纹特征信息。第三获取模块80用于获取说话用户的语音中的声纹特征信息。判断模块90用于判断说话用户的声纹特征信息是否与特定用户的声纹特征信息匹配。其中,在本发明的实施例中,合成模块40还可用于在判断模块90判断说话用户的声纹特征信息与特定用户的声纹特征信息匹配时,将说话用户的语音与VR音源进行同步合成以生成合成语音。
在本发明的实施例中,控制模块50还可用于在判断模块90判断说话用户的声纹特征信息与特定用户的声纹特征信息不匹配时,直接控制当前用户的头戴式耳机输出VR音源。
也就是说,预存储模块70可预先获取特定用户的语音,并从该语音中提取该特定用户的声纹特征信息。当多个用户处于VR场景下的过程中,在获取到说话用户的语音时,可判断该说话用户是否是特定用户,即可通过第三获取模块80获取说话用户的语音中的声纹特征信息,判断模块90判断说话用户的声纹特征信息是否与特定用户的声纹特征信息匹配,如果匹配,则可判定该说话用户就是特定用户,此时合成模块40可将说话用户的语音与VR音源进行同步合成以生成合成语音,控制模块50将该合成语音提供给当前用户;如果声纹特征不匹配,则可判定该说话用户不是特定用户,此时不将说话用户的语音与VR音源进行同步合成以生成合成语音,而是控制模块50直接控制当前用户的头戴式耳机输出VR音源,即不将该说话用户的语音提供给当前用户。
根据本发明实施例的基于虚拟现实VR场景的多用户语音交互装置,通过第一获取模块在多个用户处于虚拟现实VR场景的过程中,通过当前用户的移动终端的麦克风进行语音采集以获取周围环境的声音信号,降噪处理模块对声音信号进行降噪处理以获得说话用户的语音,第二获取模块获取VR场景的VR音源,合成模块将说话用户的语音与VR音源进行同步合成以生成合成语音,控制模块控制当前用户的头戴式耳机输出合成语音。即通过当前用户移动终端的麦克风进行语音,并配合VR来实现多人场景下的交互需求,实现VR体验下多用户之间的语音交流,并且,这种用户间的交互方式不需额外的设备支持。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于虚拟现实VR场景的多用户语音交互方法,其特征在于,包括以下步骤:
在多个用户处于虚拟现实VR场景的过程中,通过当前用户的移动终端的麦克风进行语音采集以获取周围环境的声音信号,其中,所述虚拟现实VR场景的实现方式是通过当前用户的移动终端配合VR眼镜以及头戴式耳机实现的;
对所述声音信号进行降噪处理以获得说话用户的语音;
获取所述VR场景的VR音源;
将所述说话用户的语音与所述VR音源进行同步合成以生成合成语音,并控制所述当前用户的头戴式耳机输出所述合成语音。
2.如权利要求1所述的方法,其特征在于,其中,所述移动终端的麦克风为多个,在将所述说话用户的语音与所述VR音源进行合成以生成合成语音之前,还包括:
通过所述移动终端的多个麦克风对同一音源进行语音采集,并根据每个麦克风采集到的信号强度信息和延时信息确定所述音源的位置信息;其中,根据所述音源的位置信息控制所述当前用户的头戴式耳机输出所述合成语音。
3.如权利要求2所述的方法,其特征在于,所述根据所述音源的位置信息控制所述当前用户的头戴式耳机输出所述合成语音,包括:
根据所述音源的位置信息调整所述当前用户的头戴式耳机左右声道的声音信号大小,并控制所述当前用户的头戴式耳机依据调整后的声音信号大小对所述合成语音进行输出。
4.如权利要求1所述的方法,其特征在于,还包括:
预先存储特定用户的声纹特征信息;
获取所述说话用户的语音中的声纹特征信息,并判断所述说话用户的声纹特征信息是否与所述特定用户的声纹特征信息匹配;
如果所述说话用户的声纹特征信息与所述特定用户的声纹特征信息匹配,则将所述说话用户的语音与所述VR音源进行同步合成以生成合成语音。
5.如权利要求4所述的方法,其特征在于,当所述说话用户的声纹特征信息与所述特定用户的声纹特征信息不匹配时,直接控制所述当前用户的头戴式耳机输出所述VR音源。
6.一种基于虚拟现实VR场景的多用户语音交互装置,其特征在于,包括:
第一获取模块,用于在多个用户处于虚拟现实VR场景的过程中,通过当前用户的移动终端的麦克风进行语音采集以获取周围环境的声音信号,其中,所述虚拟现实VR场景的实现方式是通过当前用户的移动终端配合VR眼镜以及头戴式耳机实现的;
降噪处理模块,用于对所述声音信号进行降噪处理以获得说话用户的语音;
第二获取模块,用于获取所述VR场景的VR音源;
合成模块,用于将所述说话用户的语音与所述VR音源进行同步合成以生成合成语音;
控制模块,用于控制所述当前用户的头戴式耳机输出所述合成语音。
7.如权利要求6所述的装置,其特征在于,其中,所述移动终端的麦克风为多个,所述装置还包括:
确定模块,用于在所述合成模块将所述说话用户的语音与所述VR音源进行合成以生成合成语音之前,通过所述移动终端的多个麦克风对同一音源进行语音采集,并根据每个麦克风采集到的信号强度信息和延时信息确定所述音源的位置信息;
其中,所述控制模块还用于根据所述音源的位置信息控制所述当前用户的头戴式耳机输出所述合成语音。
8.如权利要求7所述的装置,其特征在于,所述控制模块具体用于:
根据所述音源的位置信息调整所述当前用户的头戴式耳机左右声道的声音信号大小,并控制所述当前用户的头戴式耳机依据调整后的声音信号大小对所述合成语音进行输出。
9.如权利要求6所述的装置,其特征在于,还包括:
预存储模块,用于预先存储特定用户的声纹特征信息;
第三获取模块,用于获取所述说话用户的语音中的声纹特征信息;
判断模块,用于判断所述说话用户的声纹特征信息是否与所述特定用户的声纹特征信息匹配;
其中,所述合成模块还用于在所述判断模块判断所述说话用户的声纹特征信息与所述特定用户的声纹特征信息匹配时,将所述说话用户的语音与所述VR音源进行同步合成以生成合成语音。
10.如权利要求9所述的装置,其特征在于,所述控制模块还用于在所述判断模块判断所述说话用户的声纹特征信息与所述特定用户的声纹特征信息不匹配时,直接控制所述当前用户的头戴式耳机输出所述VR音源。
CN201610270381.4A 2016-04-27 2016-04-27 基于虚拟现实vr场景的多用户语音交互方法以及装置 Active CN106023983B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610270381.4A CN106023983B (zh) 2016-04-27 2016-04-27 基于虚拟现实vr场景的多用户语音交互方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610270381.4A CN106023983B (zh) 2016-04-27 2016-04-27 基于虚拟现实vr场景的多用户语音交互方法以及装置

Publications (2)

Publication Number Publication Date
CN106023983A true CN106023983A (zh) 2016-10-12
CN106023983B CN106023983B (zh) 2019-11-05

Family

ID=57081070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610270381.4A Active CN106023983B (zh) 2016-04-27 2016-04-27 基于虚拟现实vr场景的多用户语音交互方法以及装置

Country Status (1)

Country Link
CN (1) CN106023983B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106485787A (zh) * 2016-10-21 2017-03-08 安徽协创物联网技术有限公司 一种基于互联网的多人联机型虚拟现实一体机
CN106681502A (zh) * 2016-12-14 2017-05-17 深圳市豆娱科技有限公司 一种交互式虚拟现实影院系统及交互方法
CN106782569A (zh) * 2016-12-06 2017-05-31 深圳增强现实技术有限公司 一种基于声纹注册的增强现实方法及装置
CN106919259A (zh) * 2017-03-06 2017-07-04 北京小米移动软件有限公司 基于vr设备的形象处理方法和装置
CN106980382A (zh) * 2017-03-31 2017-07-25 维沃移动通信有限公司 一种vr设备播放控制的方法、移动终端和vr设备
CN106993181A (zh) * 2016-11-02 2017-07-28 大辅科技(北京)有限公司 多vr/ar设备协同系统及协同方法
CN107168518A (zh) * 2017-04-05 2017-09-15 北京小鸟看看科技有限公司 一种用于头戴显示器的同步方法、装置及头戴显示器
CN107230476A (zh) * 2017-05-05 2017-10-03 众安信息技术服务有限公司 一种自然的人机语音交互方法和系统
CN107491169A (zh) * 2017-07-31 2017-12-19 合肥光照信息科技有限公司 一种vr信息采集存储系统及其方法
CN107998658A (zh) * 2017-12-01 2018-05-08 苏州蜗牛数字科技股份有限公司 Vr游戏中实现3d角色口型语音聊天系统及方法
CN108399008A (zh) * 2018-02-12 2018-08-14 张殿礼 一种虚拟场景与运动设备的同步方法
CN108704310A (zh) * 2018-05-17 2018-10-26 东莞市华睿电子科技有限公司 一种双vr设备参与虚拟游戏时的虚拟场景同步切换方法
CN109817196A (zh) * 2019-01-11 2019-05-28 安克创新科技股份有限公司 一种噪音消除方法、装置、系统、设备及存储介质
CN110121695A (zh) * 2016-12-30 2019-08-13 诺基亚技术有限公司 虚拟现实领域中的装置及相关联的方法
CN110362204A (zh) * 2019-07-11 2019-10-22 Oppo广东移动通信有限公司 信息提示方法、装置、存储介质及增强现实设备
CN110493215A (zh) * 2019-08-15 2019-11-22 苏州兆见智能科技有限公司 一种基于局域网的多人沉浸式空间交互系统
CN111093142A (zh) * 2019-12-24 2020-05-01 杭州当虹科技股份有限公司 一种基于vr多方向音源合成的实现方法
CN111885130A (zh) * 2020-07-10 2020-11-03 深圳市瑞立视多媒体科技有限公司 语音通信方法、装置、系统、设备及存储介质
CN112133286A (zh) * 2020-11-25 2020-12-25 宁波圻亿科技有限公司 一种ar眼镜移动自动控制方法及装置
CN112612445A (zh) * 2020-12-28 2021-04-06 维沃移动通信有限公司 音频播放方法和装置
CN113113005A (zh) * 2021-03-19 2021-07-13 大众问问(北京)信息科技有限公司 语音数据处理方法、装置、计算机设备和存储介质
CN113362816A (zh) * 2020-03-02 2021-09-07 Oppo广东移动通信有限公司 增强现实交互方法、装置、系统、存储介质与电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09126931A (ja) * 1995-10-10 1997-05-16 Ohmeda Inc 使い捨て差圧変換器
CN101022008A (zh) * 2006-10-11 2007-08-22 赵晓江 影视剧、娱乐节目计算机系统和卡拉ok系统
US20090055160A1 (en) * 2006-06-29 2009-02-26 International Business Machines Corporation Apparatus And Method For Integrated Phrase-Based And Free-Form Speech-To-Speech Translation
CN103546622A (zh) * 2012-07-12 2014-01-29 百度在线网络技术(北京)有限公司 基于声纹的识别登录控制方法、装置及系统
CN105227743A (zh) * 2015-08-25 2016-01-06 努比亚技术有限公司 一种录制方法、装置及移动终端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09126931A (ja) * 1995-10-10 1997-05-16 Ohmeda Inc 使い捨て差圧変換器
US20090055160A1 (en) * 2006-06-29 2009-02-26 International Business Machines Corporation Apparatus And Method For Integrated Phrase-Based And Free-Form Speech-To-Speech Translation
CN101022008A (zh) * 2006-10-11 2007-08-22 赵晓江 影视剧、娱乐节目计算机系统和卡拉ok系统
CN103546622A (zh) * 2012-07-12 2014-01-29 百度在线网络技术(北京)有限公司 基于声纹的识别登录控制方法、装置及系统
CN105227743A (zh) * 2015-08-25 2016-01-06 努比亚技术有限公司 一种录制方法、装置及移动终端

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106485787A (zh) * 2016-10-21 2017-03-08 安徽协创物联网技术有限公司 一种基于互联网的多人联机型虚拟现实一体机
CN109743621A (zh) * 2016-11-02 2019-05-10 大辅科技(北京)有限公司 多vr/ar设备协同系统及协同方法
CN106993181A (zh) * 2016-11-02 2017-07-28 大辅科技(北京)有限公司 多vr/ar设备协同系统及协同方法
CN106782569A (zh) * 2016-12-06 2017-05-31 深圳增强现实技术有限公司 一种基于声纹注册的增强现实方法及装置
CN106681502A (zh) * 2016-12-14 2017-05-17 深圳市豆娱科技有限公司 一种交互式虚拟现实影院系统及交互方法
CN110121695B (zh) * 2016-12-30 2022-05-27 诺基亚技术有限公司 虚拟现实领域中的装置及相关联的方法
CN110121695A (zh) * 2016-12-30 2019-08-13 诺基亚技术有限公司 虚拟现实领域中的装置及相关联的方法
CN106919259A (zh) * 2017-03-06 2017-07-04 北京小米移动软件有限公司 基于vr设备的形象处理方法和装置
CN106980382A (zh) * 2017-03-31 2017-07-25 维沃移动通信有限公司 一种vr设备播放控制的方法、移动终端和vr设备
CN107168518A (zh) * 2017-04-05 2017-09-15 北京小鸟看看科技有限公司 一种用于头戴显示器的同步方法、装置及头戴显示器
CN107230476A (zh) * 2017-05-05 2017-10-03 众安信息技术服务有限公司 一种自然的人机语音交互方法和系统
CN107491169A (zh) * 2017-07-31 2017-12-19 合肥光照信息科技有限公司 一种vr信息采集存储系统及其方法
CN107998658A (zh) * 2017-12-01 2018-05-08 苏州蜗牛数字科技股份有限公司 Vr游戏中实现3d角色口型语音聊天系统及方法
CN108399008A (zh) * 2018-02-12 2018-08-14 张殿礼 一种虚拟场景与运动设备的同步方法
CN108704310B (zh) * 2018-05-17 2021-05-14 长沙神漫文化科技有限公司 一种双vr设备参与虚拟游戏时的虚拟场景同步切换方法
CN108704310A (zh) * 2018-05-17 2018-10-26 东莞市华睿电子科技有限公司 一种双vr设备参与虚拟游戏时的虚拟场景同步切换方法
CN109817196B (zh) * 2019-01-11 2021-06-08 安克创新科技股份有限公司 一种噪音消除方法、装置、系统、设备及存储介质
CN109817196A (zh) * 2019-01-11 2019-05-28 安克创新科技股份有限公司 一种噪音消除方法、装置、系统、设备及存储介质
CN110362204A (zh) * 2019-07-11 2019-10-22 Oppo广东移动通信有限公司 信息提示方法、装置、存储介质及增强现实设备
CN110493215A (zh) * 2019-08-15 2019-11-22 苏州兆见智能科技有限公司 一种基于局域网的多人沉浸式空间交互系统
CN111093142A (zh) * 2019-12-24 2020-05-01 杭州当虹科技股份有限公司 一种基于vr多方向音源合成的实现方法
CN113362816A (zh) * 2020-03-02 2021-09-07 Oppo广东移动通信有限公司 增强现实交互方法、装置、系统、存储介质与电子设备
CN111885130A (zh) * 2020-07-10 2020-11-03 深圳市瑞立视多媒体科技有限公司 语音通信方法、装置、系统、设备及存储介质
CN112133286A (zh) * 2020-11-25 2020-12-25 宁波圻亿科技有限公司 一种ar眼镜移动自动控制方法及装置
CN112612445A (zh) * 2020-12-28 2021-04-06 维沃移动通信有限公司 音频播放方法和装置
CN113113005A (zh) * 2021-03-19 2021-07-13 大众问问(北京)信息科技有限公司 语音数据处理方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN106023983B (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN106023983A (zh) 基于虚拟现实vr场景的多用户语音交互方法以及装置
US9942673B2 (en) Method and arrangement for fitting a hearing system
EP3149969B1 (de) Ermittlung und nutzung hörraumoptimierter übertragungsfunktionen
Kollmeier et al. Functionality of hearing aids: State-of-the-art and future model-based solutions
CN102088648B (zh) 听力仪器和操作适于由用户佩戴的听力仪器的方法
CN102056036B (zh) 再现设备、头戴式耳机和再现方法
CN104321812B (zh) 在呼叫期间的三维声音压缩及空中发射
EP2870779B1 (en) Method and system for fitting hearing aids, for training individuals in hearing with hearing aids and/or for diagnostic hearing tests of individuals wearing hearing aids
US9398386B2 (en) Method for remote fitting of a hearing device
CN103081513B (zh) 听力装置的基于视觉的选配
CN105848078A (zh) 双耳听力系统
CN104967960A (zh) 语音数据处理方法、游戏直播中的语音数据处理方法和系统
CN109246515A (zh) 一种可提升个性化音质功能的智能耳机及方法
US20210409860A1 (en) Systems, apparatus, and methods for acoustic transparency
CN106792013A (zh) 一种用于电视节目声音互动的方法、电视
CN110198375A (zh) 录音方法、终端及计算机可读存储介质
CN206301081U (zh) 具有双麦克风的智能眼镜和智能交互系统
CN113709619A (zh) 音频处理方法、装置、用户终端及计算机可读介质
Mansour et al. Speech intelligibility in a realistic virtual sound environment
WO2015090182A1 (zh) 多信息同步编码学习装置及方法
KR20210008788A (ko) 전자 장치 및 그 제어 방법
CN102969003A (zh) 摄像声音提取方法及装置
CN213186477U (zh) 蓝牙耳机降噪系统
CN207020986U (zh) 一种双声道立体声录音设备
CN106507242A (zh) 一种音频装置及终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 523860 No. 18, Wu Sha Beach Road, Changan Town, Dongguan, Guangdong

Applicant after: OPPO Guangdong Mobile Communications Co., Ltd.

Address before: 523859 No. 18, Wu Sha Beach Road, Changan Town, Dongguan, Guangdong

Applicant before: Guangdong OPPO Mobile Communications Co., Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant