CN106023983A

CN106023983A - 基于虚拟现实vr场景的多用户语音交互方法以及装置

Info

Publication number: CN106023983A
Application number: CN201610270381.4A
Authority: CN
Inventors: 杨宗业
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2016-04-27
Filing date: 2016-04-27
Publication date: 2016-10-12
Anticipated expiration: 2036-04-27
Also published as: CN106023983B

Abstract

本发明公开了一种基于虚拟现实VR场景的多用户语音交互方法以及装置。其中方法包括：在多个用户处于虚拟现实VR场景的过程中，通过当前用户的移动终端的麦克风进行语音采集以获取周围环境的声音信号，其中，虚拟现实VR场景的实现方式是通过当前用户的移动终端配合VR眼镜以及头戴式耳机实现的；对声音信号进行降噪处理以获得说话用户的语音；获取VR场景的VR音源；将说话用户的语音与VR音源进行同步合成以生成合成语音，并控制当前用户的头戴式耳机输出合成语音。该方法通过当前用户移动终端的麦克风进行语音，并配合VR来实现多人场景下的交互需求，实现了VR体验下多用户之间的语音交流。

Description

基于虚拟现实VR场景的多用户语音交互方法以及装置

技术领域

本发明涉及通信技术领域，尤其涉及一种基于虚拟现实VR场景的多用户语音交互方法以及装置。

背景技术

随着通信技术以及计算机技术的快速发展，VR(Virtual Reality，虚拟现实)技术逐渐火爆。虚拟现实VR技术是一种可以创建和体验虚拟世界的计算机仿真系统，利用计算机生成一种模拟环境，也是一种多源信息融合的交互式的三维动态视景和实体行为的系统仿真，能够使用户沉浸到该环境中。目前，该VR技术被广泛应用于影视、虚拟现实游戏、绘画等场景下，最为便捷的实现方式是通过智能手机配合VR眼镜，再配上头戴式耳机，实现虚拟视听效果。这种体验方式发挥成本优势，提高个人的完全沉浸，然而，目前更多地仅限于单人的VR体验，在多人VR游戏、或多人VR会议等场景下的用户之间交互比较薄弱。因此，如何实现VR特定场景下多用户之间的交互体验已经成为亟待解决的问题。

发明内容

本发明的目的旨在至少在一定程度上解决上述的技术问题之一。

为此，本发明的第一个目的在于提出一种基于虚拟现实VR场景的多用户语音交互方法。该方法通过当前用户移动终端的麦克风进行语音，并配合VR来实现多人场景下的交互需求，实现了VR体验下多用户之间的语音交流。

本发明的第二个目的在于提出一种基于虚拟现实VR场景的多用户语音交互装置。

为达上述目的，本发明第一方面实施例的基于虚拟现实VR场景的多用户语音交互方法，包括：在多个用户处于虚拟现实VR场景的过程中，通过当前用户的移动终端的麦克风进行语音采集以获取周围环境的声音信号，其中，所述虚拟现实VR场景的实现方式是通过当前用户的移动终端配合VR眼镜以及头戴式耳机实现的；对所述声音信号进行降噪处理以获得说话用户的语音；获取所述VR场景的VR音源；将所述说话用户的语音与所述VR音源进行同步合成以生成合成语音，并控制所述当前用户的头戴式耳机输出所述合成语音。

根据本发明实施例的基于虚拟现实VR场景的多用户语音交互方法，在多个用户处于虚拟现实VR场景的过程中，通过当前用户的移动终端的麦克风进行语音采集以获取周围环境的声音信号，并对声音信号进行降噪处理以获得说话用户的语音，之后，获取VR场景的VR音源，然后，将说话用户的语音与VR音源进行同步合成以生成合成语音，并控制当前用户的头戴式耳机输出合成语音。即通过当前用户移动终端的麦克风进行语音，并配合VR来实现多人场景下的交互需求，实现VR体验下多用户之间的语音交流，提升了用户体验，并且，这种用户间的交互方式不需额外的设备支持。

其中，在本发明的一个实施例中，所述移动终端的麦克风为多个，在将所述说话用户的语音与所述VR音源进行合成以生成合成语音之前，所述方法还包括：通过所述移动终端的多个麦克风对同一音源进行语音采集，并根据每个麦克风采集到的信号强度信息和延时信息确定所述音源的位置信息；其中，根据所述音源的位置信息控制所述当前用户的头戴式耳机输出所述合成语音。

在本发明的一个实施例中，所述根据所述音源的位置信息控制所述当前用户的头戴式耳机输出所述合成语音，包括：根据所述音源的位置信息调整所述当前用户的头戴式耳机左右声道的声音信号大小，并控制所述当前用户的头戴式耳机依据调整后的声音信号大小对所述合成语音进行输出。

在本发明的一个实施例中，所述方法还包括：预先存储特定用户的声纹特征信息；获取所述说话用户的语音中的声纹特征信息，并判断所述说话用户的声纹特征信息是否与所述特定用户的声纹特征信息匹配；如果所述说话用户的声纹特征信息与所述特定用户的声纹特征信息匹配，则将所述说话用户的语音与所述VR音源进行同步合成以生成合成语音。

在本发明的一个实施例中，当所述说话用户的声纹特征信息与所述特定用户的声纹特征信息不匹配时，直接控制所述当前用户的头戴式耳机输出所述VR音源。

为达上述目的，本发明第二方面实施例的基于虚拟现实VR场景的多用户语音交互装置，包括：第一获取模块，用于在多个用户处于虚拟现实VR场景的过程中，通过当前用户的移动终端的麦克风进行语音采集以获取周围环境的声音信号，其中，所述虚拟现实VR场景的实现方式是通过当前用户的移动终端配合VR眼镜以及头戴式耳机实现的；降噪处理模块，用于对所述声音信号进行降噪处理以获得说话用户的语音；第二获取模块，用于获取所述VR场景的VR音源；合成模块，用于将所述说话用户的语音与所述VR音源进行同步合成以生成合成语音；控制模块，用于控制所述当前用户的头戴式耳机输出所述合成语音。

根据本发明实施例的基于虚拟现实VR场景的多用户语音交互装置，通过第一获取模块在多个用户处于虚拟现实VR场景的过程中，通过当前用户的移动终端的麦克风进行语音采集以获取周围环境的声音信号，降噪处理模块对声音信号进行降噪处理以获得说话用户的语音，第二获取模块获取VR场景的VR音源，合成模块将说话用户的语音与VR音源进行同步合成以生成合成语音，控制模块控制当前用户的头戴式耳机输出合成语音。即通过当前用户移动终端的麦克风进行语音，并配合VR来实现多人场景下的交互需求，实现VR体验下多用户之间的语音交流，并且，这种用户间的交互方式不需额外的设备支持。

其中，在本发明的一个实施例中，所述移动终端的麦克风为多个，所述装置还包括：确定模块，用于在所述合成模块将所述说话用户的语音与所述VR音源进行合成以生成合成语音之前，通过所述移动终端的多个麦克风对同一音源进行语音采集，并根据每个麦克风采集到的信号强度信息和延时信息确定所述音源的位置信息；其中，所述控制模块还用于根据所述音源的位置信息控制所述当前用户的头戴式耳机输出所述合成语音。

在本发明的一个实施例中，所述控制模块具体用于：根据所述音源的位置信息调整所述当前用户的头戴式耳机左右声道的声音信号大小，并控制所述当前用户的头戴式耳机依据调整后的声音信号大小对所述合成语音进行输出。

在本发明的一个实施例中，所述装置还包括：预存储模块，用于预先存储特定用户的声纹特征信息；第三获取模块，用于获取所述说话用户的语音中的声纹特征信息；判断模块，用于判断所述说话用户的声纹特征信息是否与所述特定用户的声纹特征信息匹配；其中，所述合成模块还用于在所述判断模块判断所述说话用户的声纹特征信息与所述特定用户的声纹特征信息匹配时，将所述说话用户的语音与所述VR音源进行同步合成以生成合成语音。

在本发明的一个实施例中，所述控制模块还用于在所述判断模块判断所述说话用户的声纹特征信息与所述特定用户的声纹特征信息不匹配时，直接控制所述当前用户的头戴式耳机输出所述VR音源。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明一个实施例的基于虚拟现实VR场景的多用户语音交互方法的流程图；

图2是根据本发明一个实施例的基于虚拟现实VR场景的多用户语音交互装置的结构框图；

图3是根据本发明另一个实施例的基于虚拟现实VR场景的多用户语音交互装置的结构框图；

图4是根据本发明又一个实施例的基于虚拟现实VR场景的多用户语音交互装置的结构框图。

附图标记：

第一获取模块10、降噪处理模块20、第二获取模块30、合成模块40、控制模块50、确定模块60、预存储模块70、第三获取模块80和判断模块90。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于虚拟现实VR场景的多用户语音交互方法以及装置。

图1是根据本发明一个实施例的基于虚拟现实VR场景的多用户语音交互方法的流程图。需要说明的是，本发明实施例的基于虚拟现实VR场景的多用户语音交互方法可应用于基于虚拟现实VR场景的多用户语音交互装置，该多用户语音交互装置可被配置于移动终端中。其中，该移动终端可以是手机、平板电脑、个人数字助理等具有各种操作系统的硬件设备，优选地，该移动终端可为智能手机。

如图1所示，该基于虚拟现实VR场景的多用户语音交互方法可以包括：

S101，在多个用户处于虚拟现实VR场景的过程中，通过当前用户的移动终端的麦克风进行语音采集以获取周围环境的声音信号，其中，虚拟现实VR场景的实现方式是通过当前用户的移动终端配合VR眼镜以及头戴式耳机实现的。

可以理解，本发明实施例的基于虚拟现实VR场景的多用户语音交互方法的应用场景为：多个用户处于虚拟现实VR场景下，该场景可不限于VR游戏场景、VR会议场景、VR影视场景、VR绘画场景等。其中，该虚拟现实VR场景的实现方式可以是通过移动终端配合VR眼影以及头戴式耳机，以实现虚拟视听效果。例如，用户将移动终端(优选为智能手机)放置VR眼镜上，并戴上已放置移动终端的VR眼镜和头戴式耳机，此时用户可通过VR眼镜和头戴式耳机进入虚拟现实VR场景中。需要说明的是，在本发明的实施例中，该头戴式耳机可以是三段式耳机。

在多个用户处于虚拟现实VR场景的过程中，可开启当前用户的移动终端的麦克风，通过该当前用户移动终端的麦克风进行语音采集(或拾取)附近环境的声音，获得周围环境的声音信号。例如，如果周围有用户说话，则可通过当前用户移动终端的麦克风将周围说话用户的声音进行拾取。

S102，对声音信号进行降噪处理以获得说话用户的语音。

可以理解，周围环境可能会存在环境噪音，因此，为了保证人声清晰度，在获得周围环境的声音信号之后，还可通过降噪算法对该声音信号进行降噪处理，以滤除该声音信号中的环境噪声，最终得到说话用户的语音。其中，上述降噪算法可理解为音频降噪算法，如采样除燥法、噪声门等，其中，采样除燥法可理解为对环境噪音的波形样本进行取样，然后对采集到的周围环境的声音信号的波形与采样噪音样本进行分析，自动去除声音信号中的噪音；上述噪声门则是设定一个电平的门限值，低于这个门限的信号电平全部过滤掉，高于门限值的信号电平全部通过。

S103，获取VR场景的VR音源。

例如，假设本发明实施例的VR场景是通过移动终端配合VR眼镜和头戴式耳机实现的，则VR场景中的VR音源可以是由移动终端发出的，如，用户通过将移动终端放置VR眼镜中，并佩戴VR眼镜和头戴式设备，当用户玩耍移动终端中的游戏应用时，可使得用户处于VR游戏场景中，此时移动终端的游戏应用中播出的音频即为VR音源。

S104，将说话用户的语音与VR音源进行同步合成以生成合成语音，并控制当前用户的头戴式耳机输出合成语音。

具体地，可将获取到的说话用户的语音和VR音源同步合成以生成合成语音，并可控制当前用户的头戴式耳机将该合成语音进行输出，使得当前用户通过头戴式耳机在听到VR场景中的VR音源的同时，还能够听到周围环境其他用户的说话声，实现了在VR场景下多个用户之间的交互体验。例如，当用户处于VR游戏场景中，此时移动终端的游戏应用中播出的游戏音频即为VR音频，在获得VR游戏场景的VR音频以及说话用户的语音之后，可将说话用户的语音与VR音频进行同步合成，使得用户在VR游戏场景中既能够听到游戏音频的同时，还能够听到其他说话用户的语音。

其中，在本发明的一个实施例中，移动终端的麦克风可为多个。在本发明的实施例中，在将说话用户的语音与VR音源进行合成以生成合成语音之前，该多用户语音交互方法还可包括：通过移动终端的多个麦克风对同一音源进行语音采集，并根据每个麦克风采集到的信号强度信息和延时信息确定音源的位置信息。其中，在本发明的实施例中，根据音源的位置信息控制当前用户的头戴式耳机输出合成语音。

在本发明的一个实施例中，根据音源的位置信息控制当前用户的头戴式耳机输出合成语音的具体实现过程可如下：根据音源的位置信息调整当前用户的头戴式耳机左右声道的声音信号大小，并控制当前用户的头戴式耳机依据调整后的声音信号大小对合成语音进行输出。

具体地，在将说话用户的语音与VR音源进行合成以生成合成语音之前，还可通过当前用户移动终端的多个麦克风同时对同一音源进行收音，根据每个麦克风拾取的信号强度和延时，可辨识出该音源的位置，并将说话用户的语音合入到VR场景时，可调整头戴式耳机左右声道的声音信号大小以还原该音源的位置，使得VR场景下多个用户之间的语音交互更加真实。

为了能够实现VR体验下当前用户与特定用户之间的交流，进一步地，在本发明的一个实施例中，该多用户语音交互方法还可包括：预先存储特定用户的声纹特征信息；获取说话用户的语音中的声纹特征信息，并判断说话用户的声纹特征信息是否与特定用户的声纹特征信息匹配；如果说话用户的声纹特征信息与特定用户的声纹特征信息匹配，则将说话用户的语音与VR音源进行同步合成以生成合成语音。需要说明的是，在本发明的实施例中，当说话用户的声纹特征信息与特定用户的声纹特征信息不匹配时，直接控制当前用户的头戴式耳机输出VR音源。

也就是说，可预先获取特定用户的语音，并从该语音中提取该特定用户的声纹特征信息，当多个用户处于VR场景下的过程中，在获取到说话用户的语音时，可判断该说话用户是否是特定用户，即可通过获取说话用户的语音中的声纹特征信息，并判断说话用户的声纹特征信息是否与特定用户的声纹特征信息匹配，如果匹配，则可判定该说话用户就是特定用户，此时可将说话用户的语音与VR音源进行同步合成以生成合成语音，并将该合成语音提供给当前用户；如果声纹特征不匹配，则可判定该说话用户不是特定用户，此时不将说话用户的语音与VR音源进行同步合成以生成合成语音，而是直接控制当前用户的头戴式耳机输出VR音源，即不将该说话用户的语音提供给当前用户。

根据本发明实施例的基于虚拟现实VR场景的多用户语音交互方法，在多个用户处于虚拟现实VR场景的过程中，通过当前用户的移动终端的麦克风进行语音采集以获取周围环境的声音信号，并对声音信号进行降噪处理以获得说话用户的语音，之后，获取VR场景的VR音源，然后，将说话用户的语音与VR音源进行同步合成以生成合成语音，并控制当前用户的头戴式耳机输出合成语音。即通过当前用户移动终端的麦克风进行语音，并配合VR来实现多人场景下的交互需求，实现VR体验下多用户之间的语音交流，并且，这种用户间的交互方式不需额外的设备支持。

为了实现上述实施例，本发明还提出了一种基于虚拟现实VR场景的多用户语音交互装置。

图2是根据本发明一个实施例的基于虚拟现实VR场景的多用户语音交互装置的结构框图。需要说明的是，本发明实施例的基于虚拟现实VR场景的多用户语音交互装置可被配置于移动终端中。其中，该移动终端可以是手机、平板电脑、个人数字助理等具有各种操作系统的硬件设备，优选地，该移动终端可为智能手机。

如图2所示，该基于虚拟现实VR场景的多用户语音交互装置可以包括：第一获取模块10、降噪处理模块20、第二获取模块30、合成模块40和控制模块50。

第一获取模块10可用于在多个用户处于虚拟现实VR场景的过程中，通过当前用户的移动终端的麦克风进行语音采集以获取周围环境的声音信号，其中，虚拟现实VR场景的实现方式是通过当前用户的移动终端配合VR眼镜以及头戴式耳机实现的。

可以理解，多个用户可处于虚拟现实VR场景下，该场景可不限于VR游戏场景、VR会议场景、VR影视场景、VR绘画场景等。其中，该虚拟现实VR场景的实现方式可以是通过移动终端配合VR眼影以及头戴式耳机，以实现虚拟视听效果。例如，用户将移动终端(优选为智能手机)放置VR眼镜上，并戴上已放置移动终端的VR眼镜和头戴式耳机，此时用户可通过VR眼镜和头戴式耳机进入虚拟现实VR场景中。需要说明的是，在本发明的实施例中，该头戴式耳机可以是三段式耳机。

第一获取模块10在多个用户处于虚拟现实VR场景的过程中，可开启当前用户的移动终端的麦克风，通过该当前用户移动终端的麦克风进行语音采集(或拾取)附近环境的声音，获得周围环境的声音信号。例如，如果周围有用户说话，则可通过当前用户移动终端的麦克风将周围说话用户的声音进行拾取。

降噪处理模块20可用于对声音信号进行降噪处理以获得说话用户的语音。可以理解，周围环境可能会存在环境噪音，因此，为了保证人声清晰度，在第一获取模块10获得周围环境的声音信号之后，降噪处理模块20还可通过降噪算法对该声音信号进行降噪处理，以滤除该声音信号中的环境噪声，最终得到说话用户的语音。其中，上述降噪算法可理解为音频降噪算法，如采样除燥法、噪声门等，其中，采样除燥法可理解为对环境噪音的波形样本进行取样，然后对采集到的周围环境的声音信号的波形与采样噪音样本进行分析，自动去除声音信号中的噪音；上述噪声门则是设定一个电平的门限值，低于这个门限的信号电平全部过滤掉，高于门限值的信号电平全部通过。

第二获取模块30可用于获取VR场景的VR音源。例如，假设本发明实施例的VR场景是通过移动终端配合VR眼镜和头戴式耳机实现的，则VR场景中的VR音源可以是由移动终端发出的，如，用户通过将移动终端放置VR眼镜中，并佩戴VR眼镜和头戴式设备，当用户玩耍移动终端中的游戏应用时，可使得用户处于VR游戏场景中，此时移动终端的游戏应用中播出的音频即为VR音源。由此，第二获取模块30可从移动终端的游戏应用中获取该VR音源。

合成模块40可用于将说话用户的语音与VR音源进行同步合成以生成合成语音。控制模块50可用于控制当前用户的头戴式耳机输出合成语音。

更具体地，合成模块40可将获取到的说话用户的语音和VR音源同步合成以生成合成语音，控制模块50可控制当前用户的头戴式耳机将该合成语音进行输出，使得当前用户通过头戴式耳机在听到VR场景中的VR音源的同时，还能够听到周围环境其他用户的说话声，实现了在VR场景下多个用户之间的交互体验。

其中，在本发明的一个实施例中，移动终端的麦克风可为多个。在本发明的实施例中，如图3所示，该多用户语音交互装置还可包括确定模块60，确定模块60可用于在合成模块40将说话用户的语音与VR音源进行合成以生成合成语音之前，通过移动终端的多个麦克风对同一音源进行语音采集，并根据每个麦克风采集到的信号强度信息和延时信息确定音源的位置信息。

其中，在本实施例中，控制模块50还用于根据音源的位置信息控制当前用户的头戴式耳机输出合成语音。具体而言，在本发明的一个实施例中，控制模块50根据音源的位置信息控制当前用户的头戴式耳机输出合成语音的具体实现过程可如下：根据音源的位置信息调整当前用户的头戴式耳机左右声道的声音信号大小，并控制当前用户的头戴式耳机依据调整后的声音信号大小对合成语音进行输出。

更具体地，在合成模块40将说话用户的语音与VR音源进行合成以生成合成语音之前，确定模块60还可通过当前用户移动终端的多个麦克风同时对同一音源进行收音，根据每个麦克风拾取的信号强度和延时，可辨识出该音源的位置，并合成模块40将说话用户的语音合入到VR场景时，控制模块50可调整头戴式耳机左右声道的声音信号大小以还原该音源的位置，使得VR场景下多个用户之间的语音交互更加真实。

为了能够实现VR体验下当前用户与特定用户之间的交流，进一步地，在本发明的一个实施例中，如图4所示，该多用户语音交互装置还可包括：预存储模块70、第三获取模块80和判断模块90。

其中，预存储模块70用于预先存储特定用户的声纹特征信息。第三获取模块80用于获取说话用户的语音中的声纹特征信息。判断模块90用于判断说话用户的声纹特征信息是否与特定用户的声纹特征信息匹配。其中，在本发明的实施例中，合成模块40还可用于在判断模块90判断说话用户的声纹特征信息与特定用户的声纹特征信息匹配时，将说话用户的语音与VR音源进行同步合成以生成合成语音。

在本发明的实施例中，控制模块50还可用于在判断模块90判断说话用户的声纹特征信息与特定用户的声纹特征信息不匹配时，直接控制当前用户的头戴式耳机输出VR音源。

也就是说，预存储模块70可预先获取特定用户的语音，并从该语音中提取该特定用户的声纹特征信息。当多个用户处于VR场景下的过程中，在获取到说话用户的语音时，可判断该说话用户是否是特定用户，即可通过第三获取模块80获取说话用户的语音中的声纹特征信息，判断模块90判断说话用户的声纹特征信息是否与特定用户的声纹特征信息匹配，如果匹配，则可判定该说话用户就是特定用户，此时合成模块40可将说话用户的语音与VR音源进行同步合成以生成合成语音，控制模块50将该合成语音提供给当前用户；如果声纹特征不匹配，则可判定该说话用户不是特定用户，此时不将说话用户的语音与VR音源进行同步合成以生成合成语音，而是控制模块50直接控制当前用户的头戴式耳机输出VR音源，即不将该说话用户的语音提供给当前用户。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于虚拟现实VR场景的多用户语音交互方法，其特征在于，包括以下步骤：

在多个用户处于虚拟现实VR场景的过程中，通过当前用户的移动终端的麦克风进行语音采集以获取周围环境的声音信号，其中，所述虚拟现实VR场景的实现方式是通过当前用户的移动终端配合VR眼镜以及头戴式耳机实现的；

对所述声音信号进行降噪处理以获得说话用户的语音；

获取所述VR场景的VR音源；

将所述说话用户的语音与所述VR音源进行同步合成以生成合成语音，并控制所述当前用户的头戴式耳机输出所述合成语音。

2.如权利要求1所述的方法，其特征在于，其中，所述移动终端的麦克风为多个，在将所述说话用户的语音与所述VR音源进行合成以生成合成语音之前，还包括：

通过所述移动终端的多个麦克风对同一音源进行语音采集，并根据每个麦克风采集到的信号强度信息和延时信息确定所述音源的位置信息；其中，根据所述音源的位置信息控制所述当前用户的头戴式耳机输出所述合成语音。

3.如权利要求2所述的方法，其特征在于，所述根据所述音源的位置信息控制所述当前用户的头戴式耳机输出所述合成语音，包括：

根据所述音源的位置信息调整所述当前用户的头戴式耳机左右声道的声音信号大小，并控制所述当前用户的头戴式耳机依据调整后的声音信号大小对所述合成语音进行输出。

4.如权利要求1所述的方法，其特征在于，还包括：

预先存储特定用户的声纹特征信息；

获取所述说话用户的语音中的声纹特征信息，并判断所述说话用户的声纹特征信息是否与所述特定用户的声纹特征信息匹配；

如果所述说话用户的声纹特征信息与所述特定用户的声纹特征信息匹配，则将所述说话用户的语音与所述VR音源进行同步合成以生成合成语音。

5.如权利要求4所述的方法，其特征在于，当所述说话用户的声纹特征信息与所述特定用户的声纹特征信息不匹配时，直接控制所述当前用户的头戴式耳机输出所述VR音源。

6.一种基于虚拟现实VR场景的多用户语音交互装置，其特征在于，包括：

第一获取模块，用于在多个用户处于虚拟现实VR场景的过程中，通过当前用户的移动终端的麦克风进行语音采集以获取周围环境的声音信号，其中，所述虚拟现实VR场景的实现方式是通过当前用户的移动终端配合VR眼镜以及头戴式耳机实现的；

降噪处理模块，用于对所述声音信号进行降噪处理以获得说话用户的语音；

第二获取模块，用于获取所述VR场景的VR音源；

合成模块，用于将所述说话用户的语音与所述VR音源进行同步合成以生成合成语音；

控制模块，用于控制所述当前用户的头戴式耳机输出所述合成语音。

7.如权利要求6所述的装置，其特征在于，其中，所述移动终端的麦克风为多个，所述装置还包括：

确定模块，用于在所述合成模块将所述说话用户的语音与所述VR音源进行合成以生成合成语音之前，通过所述移动终端的多个麦克风对同一音源进行语音采集，并根据每个麦克风采集到的信号强度信息和延时信息确定所述音源的位置信息；

其中，所述控制模块还用于根据所述音源的位置信息控制所述当前用户的头戴式耳机输出所述合成语音。

8.如权利要求7所述的装置，其特征在于，所述控制模块具体用于：

9.如权利要求6所述的装置，其特征在于，还包括：

预存储模块，用于预先存储特定用户的声纹特征信息；

第三获取模块，用于获取所述说话用户的语音中的声纹特征信息；

判断模块，用于判断所述说话用户的声纹特征信息是否与所述特定用户的声纹特征信息匹配；

其中，所述合成模块还用于在所述判断模块判断所述说话用户的声纹特征信息与所述特定用户的声纹特征信息匹配时，将所述说话用户的语音与所述VR音源进行同步合成以生成合成语音。

10.如权利要求9所述的装置，其特征在于，所述控制模块还用于在所述判断模块判断所述说话用户的声纹特征信息与所述特定用户的声纹特征信息不匹配时，直接控制所述当前用户的头戴式耳机输出所述VR音源。