CN110224904B

CN110224904B - 语音处理方法、装置、计算机可读存储介质和计算机设备

Info

Publication number: CN110224904B
Application number: CN201910491609.6A
Authority: CN
Inventors: 杨广煜
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2022-10-21
Anticipated expiration: 2039-06-06
Also published as: CN110224904A; CN115482806A

Abstract

本申请涉及一种语音处理方法、装置、计算机可读存储介质和计算机设备，所述方法包括：获取至少两个收音设备采集的第一语音信号，其中，至少两个收音设备采集的第一语音信号对应同一语音输入源；根据语音处理规则对第一语音信号进行处理，确定语音输入源信号以及对应的目标收音设备；获取目标收音设备对应的语音播报方式；根据语音输入源信号和语音播报方式处理得到对应的语音回复信息；向目标收音设备发送语音回复信息，以使目标收音设备以语音播报方式播放语音回复信息。本申请提供的方案可以增加设备的响应方式。

Description

语音处理方法、装置、计算机可读存储介质和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种语音处理方法、装置、计算机可读存储介质和计算机设备。

背景技术

随着计算机技术的发展，智能设备能与其他设备建立无线连接。同时，智能设备能将语音信息转化成文字信息，因此用户可通过语音控制智能设备，进而控制其他设备进行相应操作。然而，目前的语音处理方法，设备的响应方式较为单一。

发明内容

基于此，有必要针对设备的响应方式较为单一的技术问题，提供一种语音处理方法、装置、计算机可读存储介质和计算机设备。

一种语音处理方法，包括：

获取至少两个收音设备采集的第一语音信号，其中，至少两个收音设备采集的第一语音信号对应同一语音输入源；

根据语音处理规则对第一语音信号进行处理，确定语音输入源信号以及对应的目标收音设备；

获取目标收音设备对应的语音播报方式；

根据语音输入源信号和语音播报方式处理得到对应的语音回复信息；

向目标收音设备发送语音回复信息，以使目标收音设备以语音播报方式播放语音回复信息。

一种语音处理装置，包括：

获取模块，用于获取至少两个收音设备采集的第一语音信号，其中，至少两个收音设备采集的第一语音信号对应同一语音输入源；

第一处理模块，用于根据语音处理规则对第一语音信号进行处理，确定语音输入源信号以及对应的目标收音设备；

获取模块，还用于获取目标收音设备对应的语音播报方式；

第二处理模块，用于根据语音输入源信号和语音播报方式处理得到对应的语音回复信息；

发送模块，用于向目标收音设备发送语音回复信息，以使目标收音设备以语音播报方式播放语音回复信息。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

获取目标收音设备对应的语音播报方式；

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

获取目标收音设备对应的语音播报方式；

上述语音处理方法、装置、计算机可读存储介质和计算机设备，获取至少两个收音设备采集的第一语音信号，其中，至少两个收音设备采集的第一语音信号对应同一语音输入源，根据语音处理规则对第一语音信号进行处理，确定语音输入源信号以及对应的目标收音设备，语音输入的范围大，且能得到语音输入源对应的目标收音设备，实现距离较远时的语音信号传输；获取目标收音设备对应的语音播报方式，根据语音输入源信号和语音播报方式处理得到对应的语音回复信息，向目标收音设备发送语音回复信息，以使目标收音设备以语音播报方式播放语音回复信息，能使语音信号输入的范围更大，提高语音输入的便捷性，以对应的语音播报方式播放语音回复信息，能增加收音设备的响应方式，以及在目标收音设备对应的区域内均可以接收到语音回复信息。

附图说明

图1为一个实施例中语音处理方法的应用环境图；

图2为另一个实施例中语音处理方法的应用环境图；

图3为又一个实施例中语音处理方法的应用环境图；

图4为一个实施例中语音处理方法的流程示意图；

图5为一个实施例中确定语音输入源信号和目标收音设备的流程示意图；

图6为一个实施例中语音处理方法的时序图；

图7为一个实施例中语音处理装置的结构框图；

图8为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中语音处理方法的应用环境图。该语音处理方法应用于语音处理系统。该语音处理系统包括主控设备130和第一收音设备110、第二收音设备120…等不限于此。主控设备130分别和第一收音设备110、第二收音设备120通过网络连接。网络具体可以是无线通信网络，例如可以是蓝牙或无线局域网等。语音处理程序可以用于主控设备130。主控设备130是包含语音处理程序的终端，具体可以是台式终端、移动终端。其中，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种，台式终端具体可以是台式电脑、智能电视盒或数字视频变换盒(Set Top Box，STB)等。主控设备130中可搭载操作系统和应用程序等。第一收音设备110和第二收音设备120均包括能采集语音信号的硬件设备，具体可以是麦克风设备、终端设备、具有收音功能的电器等。

图2为另一个实施例中语音处理方法的应用环境图。其中，主控设备130分别和第一收音设备110、第二收音设备120通过网络连接，主控设备130与服务器140通过网络连接。其中，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

图3为又一个实施例中语音处理方法的应用环境图。其中主控设备130、第一收音设备、第二收音设备、第三收音设备、第四收音设备和第三收音设备可以在不同的位置，例如在一个房子里，主控设备130可位于客厅，第一收音设备110位于卧室1，第二收音设备120位于卧室2等。

在一个实施例中，如图4所示，提供了一种语音处理方法。本实施例主要以该方法应用于上述图1、图2或图3中的主控设备130来举例说明。参照图4，该语音处理方法具体包括如下步骤：

步骤402，获取至少两个收音设备采集的第一语音信号，其中，至少两个收音设备采集的第一语音信号对应同一语音输入源。

其中，第一语音信号可以是由物体振动产生的声波信号。同一语音输入源是指同一物体发出的声音，或者同一用户发出的声音。例如，用户在卧室1说话，卧室1对应收音设备110，由于卧室2与卧室1距离较近，故卧室2对应的收音设备120也可以获取到第一语音信号。

具体地，至少两个收音设备采集第一语音信号，并向主控设备发送该第一语音信号。主控设备获取至少两个收音设备采集的第一语音信号，其中，该第一语音信号对应同一语音输入源。

步骤404，根据语音处理规则对第一语音信号进行处理，确定语音输入源信号以及对应的目标收音设备。

其中，语音处理规则是用于处理第一语音信号的规则，具体可以是根据语音信号的强度、相位、能量、频谱、声压中的至少一种设立的规则。目标收音设备即为语音输入源信号对应的收音设备。例如，用户在卧室1对应的收音设备110说话，尽管卧室2对应的收音设备120能接收第一语音信号，但是语音处理程序得到的语音输入源信号对应的收音设备为收音设备110。

具体地，语音处理程序根据语音处理规则对第一语音信号进行处理，确定语音输入源信号以及对应的目标收音设备。

本实施例中，语音处理程序根据每个收音设备采集的第一语音信号的能量，确定能量最大的第一语音信号；将能量最大的第一语音信号作为语音输入源信号，能量最大的第一语音信号对应的收音设备为目标收音设备。

本实施例中，收音设备可用于视频拍摄。收音设备采集图像或视频。主控设备获取收音设备采集的图像或视频。当主控设备检测到收音设备采集的图像或视频中含有用户说话的图像或视频时，确定采集用户说话的图像或视频对应的收音设备为目标收音设备，目标收音设备对应的第一语音信号为语音输入源信号。

步骤406，获取目标收音设备对应的语音播报方式。

其中，语音播报方式是声音呈现方式。例如语音播报方式可以是不同音色播报、不同语调播报、不同语言播报等。语音播报方式具体可以是使用女声播报或者男声播报，或者使用粤语播报、四川话播报、河南话播报、英语播报、日语播报、俄语播报、西班牙语播报等，还可以使用特定人物声音播报例如使用小林的声音播报，还可以是相声腔调播报、舞台剧模式播报、京剧模式播报等等不限于此。每个收音设备对应一种语音播报方式。不同收音设备之间的语音播报方式可以相同，也可以不相同。收音设备与语音播报方式的对应关系可存储在主控设备。

具体地，语音处理程序根据目标收音设备的设备标识，获取与目标收音设备的设备标识相对应的语音播报方式标识对应的语音播报方式。其中，设备标识用于唯一地标记一个收音设备。即每个收音设备的设备标识不相同。设备标识由数字、字母、符号中的至少一种组成。例如设备标识为设备1、设备2…不限于此。语音播报方式标识用于唯一地标记一种语音播报方式。即每种语音播报方式的语音播报方式标识不相同。语音播报方式标识由数字、字母、符号中的至少一种组成。

步骤408，根据语音输入源信号和语音播报方式处理得到对应的语音回复信息。

其中，语音回复信息可以以音频的方式呈现。

具体地，语音处理程序根据语音输入源信号和语音播放方式从该语音播放方式对应的语音数据库中查找到对应的语音回复信息。

本实施例中，语音处理程序对语音输入源信号进行语义解析，得到对应的文字信息。语音处理程序根据该文字信息从语音播放方式对应的语音数据库中查找到对应的语音回复信息。例如，语音处理程序根据语音输入源信号解析出的文字信息为“金在元素周期表中的位置”。其中，该信息为常识性的信息。语音处理程序根据“金在元素周期表中的位置”从语音播放方式对应的语音数据库中查找到对应的语音回复信息为“金在元素周期表的位置为79位”。

本实施例中，语音处理程序对语音输入源信号进行语义解析，得到对应的文字信息。语音处理程序根据文字信息从数据库中查找对应的文字回复内容，将文字回复内容与语音播报方式结合，得到对应的语音回复信息。例如，语音处理程序确定了语音输入源信号以及获取了语音播报方式为“温柔女声”，根据语音输入源信号解析出的文字信息为“今天天气怎么样”。其中，该信息为实时信息。那么语音处理程序从数据库中查找到对应的文字回复内容为“今天天气晴朗”，根据“今天天气晴朗”从“温柔女声”对应的语音数据库中查找到对应的语音回复信息。

本实施例中，语音处理程序还可以获取环境语音强度，根据环境语音强度调整该语音回复信息的音量，其中，语音回复信息的音量与环境语音强度呈正相关。具体地，环境语音强度也可称为噪声。当环境语音强度增大时，语音回复信息的音量也相应增大；当环境语音强度减小时，语音回复信息的音量也相应减小。或者，每个环境语音强度区间对应一个语音回复信息的音量。例如，当环境语音强度为35-40dB(decibel，分贝)时，对应的音量级别为1级等不限于此。

本实施例中，当根据该语音输入源信号确定语音输入源信号为动物叫声时，根据该动物叫声查找得到对应的语音播报方式，根据该动物叫声以及对应的语音播报方式处理得到动物叫声对应的语音回复信息。例如，语音处理程序确定语音输入源信号对应的文字为“汪汪汪”，那么根据该动作叫声查找得到对应的语音播报方式为“狗叫声”，语音处理程序获取狗叫声对应的任意语音回复信息，向目标收音设备发送该“狗叫声”对应的语音回复信息。

步骤410，向目标收音设备发送语音回复信息，以使目标收音设备以语音播报方式播放语音回复信息。

具体地，语音处理程序通过2.4G网络向目标收音设备发送与该语音播报方式对应的语音回复信息，以使目标收音设备以该语音播报方式播放语音回复信息。例如，语音处理程序向目标收音设备发送与“温柔女声”对应的语音回复信息，则目标收音设备以“温柔女声”的方式播放语音回复信息。

上述语音处理方法，获取至少两个收音设备采集的第一语音信号，其中，至少两个收音设备采集的第一语音信号对应同一语音输入源，根据语音处理规则对第一语音信号进行处理，确定语音输入源信号以及对应的目标收音设备，语音输入的范围大，且能得到语音输入源对应的目标收音设备，实现距离较远时的语音信号传输；获取目标收音设备对应的语音播报方式，根据语音输入源信号和语音播报方式处理得到对应的语音回复信息，向目标收音设备发送语音回复信息，以使目标收音设备以语音播报方式播放语音回复信息，能使语音信号输入的范围更大，提高语音输入的便捷性，以对应的语音播报方式播放语音回复信息，能增加收音设备的响应方式，使收音设备的响应方式呈现多样化，满足个性化需求以及在目标收音设备对应的区域内均可以接收到语音回复信息。

在一个实施例中，根据语音处理规则对语音信号进行处理，确定语音输入源信号以及对应的目标收音设备，包括：获取至少两个收音设备中每个收音设备对应的第一语音信号的强度；当存在第一语音信号的强度大于或等于预设强度时，确定强度大于或等于预设强度的第一语音信号为语音输入源信号，以及强度大于或等于预设强度的第一语音信号对应的收音设备为目标收音设备。

其中，第一语音信号的强度也称声强。声强是指声波平均能流密度的大小。预设强度可以是语音处理程序中设定的强度阈值，并在主控设备中存储。

具体地，语音处理程序通过检测得到至少两个收音设备中每个收音设备对应的第一语音信号的强度。语音处理程序判断每个第一语音信号的强度是否大于预设强度。当至少两个第一语音信号中存在第一信号的强度大于或等于预设强度时，确定强度大于或等于预设强度的第一语音信号为语音输入源信号，以及强度大于或等于预设强度的第一语音信号对应的收音设备为目标收音设备。

本实施例中，当存在至少两个第一语音信号的强度大于或等于预设强度时，确定强度大于或等于预设强度的该至少两个第一语音信号为语音输入源信号，以及该强度大于或等于预设强度的至少两个第一语音信号对应的收音设备为目标收音设备。例如，收音设备1对应的第一语音信号1和收音设备2对应的第一语音信号2均大于或等于预设强度，那么将第一语音信号1和第一语音信号2均作为语音输入源信号，将收音设备1和收音设备2作为目标收音设备。那么，语音处理程序向收音设备1和收音设备2发送语音回复信息，收音设备1和收音设备2以各自对应的语音播报方式播放该语音回复信息。

上述语音处理方法，获取至少两个收音设备中每个收音设备对应的第一语音信号的强度，当存在第一语音信号的强度大于或等于预设强度时，确定强度大于或等于预设强度的第一语音信号为语音输入源信号，以及强度大于或等于预设强度的第一语音信号对应的收音设备作为目标收音设备，能够快速确定目标收音设备，提高语音处理效率。

在一个实施例中，当存在第一语音信号的强度大于或等于预设强度时，确定第一语音信号为语音输入源信号，第一语音信号对应的收音设备为目标收音设备，包括：当存在至少两个第一语音信号的强度大于或等于预设强度时，确定至少两个第一语音信号中强度最大的第一语音信号；将强度最大的第一语音信号作为语音输入源信号，以及强度最大的第一语音信号对应的收音设备为目标收音设备。

具体地，当存在至少两个第一语音信号的强度大于或等于预设强度时，语音处理程序确定至少两个第一语音信号中强度最大的第一语音信号。语音处理程序将强度最大的第一语音信号作为语音输入源信号，以及强度最大的第一语音信号对应的收音设备为目标收音设备。即，语音信号的强度越大，优先级越高。例如，收音设备1对应的第一语音信号1和收音设备2对应的第一语音信号2均大于或等于预设强度，那么将第一语音信号1的强度与第一语音信号2的强度做比对，得到第一语音信号1的强度大。将第一语音信号1作为语音输入源信号，将收音设备1作为目标收音设备。那么，语音处理程序向收音设备1发送语音回复信息，收音设备1以对应的语音播报方式播放该语音回复信息。

上述语音处理方法，当存在至少两个第一语音信号的强度大于或等于预设强度时，确定至少两个第一语音信号中强度最大的第一语音信号；将强度最大的第一语音信号作为语音输入源信号，以及强度最大的第一语音信号对应的收音设备为目标收音设备，能够快速确定目标收音设备，提高语音处理效率。

在一个实施例中，如图5所示，为一个实施例中确定语音输入源信号和目标收音设备的流程示意图，该语音处理方法还包括：

步骤502，当至少两个收音设备采集的第一语音信号的强度均小于预设强度时，将第一语音信号进行合并，抑制至少两个收音设备采集的第一语音信号中的噪声信号，得到语音输入源信号。

具体地，当语音处理程序检测到至少两个收音设备采集的第一语音信号的强度均小于预设强度时，可通过模拟波束形成器，将所有采集到的第一语音信号进行合并，通过LCMV(Linearly Constrained Minimum-variance，线性约束最小方差)算法或者MVDR(Minimum Variance Distortionless Response,最小方差无失真响应)算法增强部分第一语音信号，抑制至少两个收音设备采集的第一语音信号中的噪声信号，得到语音输入源信号。

LCMV算法是如果期望信号的到达角和带宽范围已知，那么可以先对阵列接收数据进行时延补偿，使阵列对期望信号的接收保持一致性，然后对阵列系数强加约束条件以自适应的使波束形成器输出能量最小，等效于使输出信号中非期望方向的噪声能量最小，从而达到增强期望方向信号的目的。

步骤504，确定第一语音信号中强度最大的第一语音信号。

具体地，语音处理程序根据所有第一语音信号的强度确定第一语音信号中强度最大的第一语音信号。

步骤506，将强度最大的第一语音信号对应的收音设备作为目标收音设备。

具体地，语音处理程序将强度最大的第一语音信号对应的收音设备作为目标收音设备。

上述语音处理方法，将第一语音信号合并，抑制噪声信号，能够得到更加精确的第一语音信号，将强度最大的第一语音信号对应的收音设备作为目标收音设备，能避免损失语音信号而导致的语音回复信息不准确，提高语音识别的准确性。

在一个实施例中，一种语音处理方法，包括：获取至少两个收音设备采集的第一语音信号，其中，至少两个收音设备采集的第一语音信号对应同一语音输入源；将第一语音信号进行合并，抑制至少两个收音设备采集的第一语音信号中的噪声信号，得到语音输入源信号；获取至少两个收音设备中每个收音设备对应的第一语音信号的强度；确定第一语音信号中强度最大的第一语音信号；将强度最大的第一语音信号对应的收音设备作为目标收音设备；获取目标收音设备对应的语音播报方式；根据语音输入源信号和语音播报方式处理得到对应的语音回复信息；向目标收音设备发送语音回复信息，以使目标收音设备以语音播报方式播放语音回复信息。上述语音处理方法，能以特定的语音播报方式播放语音回复信息，能避免损失语音信号而导致语音回复信息不准确，提高语音识别的准确性，同时提高语音处理效率。

在一个实施例中，根据语音输入源信号和语音播报方式处理得到对应的语音回复信息，包括：向服务器发送语音输入源信号以及目标收音设备对应的语音播报方式；接收服务器返回的语音回复信息，其中，语音回复信息是服务器根据语音输入源信号和语音播报方式处理得到的。

具体地，语音处理程序向服务器发送根据第一语音信号处理得到的语音输入源信号，以及目标收音设备对应的语音播报方式标识。服务器对语音输入源信号进行语义解析，得到对应的文字信息。服务器根据文字信息从数据库中查找对应的文字回复内容，将文字回复内容与语音播报方式结合，得到对应的语音回复信息。服务器向语音处理程序所在的主控设备发送该语音回复信息。语音处理程序接收服务器返回的语音回复信息。

上述语音处理方法，向服务器发送语音输入源信号以及目标收音设备对应的语音播报方式，接收服务器返回的语音回复信息，其中，语音回复信息是服务器根据语音输入源信号和语音播报方式处理得到的，使用服务器实现语音输入源信号和语音回复信息的转化，能提高语音处理的安全性。

在一个实施例中，该语音处理方法还包括：根据语音输入源信号解析得到控制指令；根据控制指令执行对应的操作。

其中，控制指令可用于控制主控设备，控制指令还可以用于控制与主控设备建立通信的其他设备。

具体地，语音处理程序根据语音输入源信号解析得到对应的文字信息，并将该文字信息转化成控制指令，根据控制指令对控制指令对应的设备执行对应的操作。例如，语音处理程序根据语音输入源信号解析出的文字信息为“我要开电视”，那么对应的控制指令为“开电视”，则语音处理程序可根据控制指令对电视执行开启的操作。

在一个实施例中，语音处理程序向服务器发送语音输入源信号以及目标收音设备对应的语音播报方式；语音处理程序接收服务器返回的语音回复信息以及控制指令，其中，控制指令是服务器解析该语音输入源信号得到的，语音回复信息是服务器根据语音输入源信号和语音播报方式处理得到的，语音处理程序根据控制指令执行对应的操作。其中，控制指令可以是与主控设备约定的协议，并且查找对应的内容，以约定的协议包向主控设备发送的。

上述语音处理方法，根据语音输入源信号解析得到控制指令，根据控制指令执行对应的操作，能够远程控制设备，使语音控制更加便捷。

在一个实施例中，控制指令还可以用于切换语音播报方式。具体地，当语音处理程序根据语音输入源信号解析得到切换到第一语音播报方式对应的控制指令时，根据该控制指令将目标收音设备对应的语音播报方式切换到第一语音播报方式。根据该语音输入源信号和第一语音播报方式处理得到对应的语音回复信息。

例如，语音处理程序根据语音输入源信号解析得到语音播报方式对应的控制指令为“切换到温柔女声”时，将目标收音设备对应的语音播报方式。

上述语音处理方法，根据第一语音播报方式对应的控制指令将目标收音设备对应的语音播报方式切换到第一语音播报方式，能够增加设备的响应方式，满足个性化需求。

在一个实施例中，在获取至少两个收音设备采集的第一语音信号之前，语音处理方法还包括：获取收音设备采集的第二语音信号；当检测到第二语音信号中存在唤醒词时，控制收音设备进行语音采集。

其中，唤醒词可用于唤醒主控设备和收音设备。每一个主控设备对应一个唤醒词。或者，同一品牌的主控设备对应的唤醒词相同。唤醒词可以是默认唤醒词，也可以是用户设定的唤醒词。例如，唤醒词可以为“你好，×××”、“早上好”等等。

具体地，语音处理程序获取收音设备采集的第二语音信号。当语音处理程序未检测到第二语音信号中存在唤醒词时，主控设备和收音设备保持原来的状态，不进行任何操作。当语音处理程序检测到第二语音信号中存在唤醒词时，控制收音设备进行语音采集状态，进行语音采集。

本实施例中，语音处理程序可获取至少两个收音设备采集的第二语音信号，当检测到至少两个收音设备采集的第二语音信号中存在唤醒词时，控制所有收音设备进行语音采集。

上述语音处理方法，获取收音设备采集的第二语音信号；当检测到第二语音信号中存在唤醒词时，控制收音设备进行语音采集，避免收音设备长期处于无意义的语音采集状态，也避免收音设备采集用户信息，节省收音设备和主控设备的功耗，提高信息安全性。

在一个实施例中，在获取至少两个收音设备采集的第一语音信号之前，或者在获取收音设备采集的第二语音信号之前，该语音处理方法还包括：获取已登录的用户账号发起的对至少两个收音设备的绑定指令；根据绑定指令确定用户账号与至少两个收音设备的设备标识之间的对应关系。

具体地，语音处理程序获取输入的用户账号和对应的密码，登录后搜索附近的收音设备或者获取已连接同一局域网的收音设备。语音处理程序获取已登录的用户账号发起的对至少两个收音设备的绑定指令，根据绑定指令绑定该用户账号与至少两个收音设备，确定用户账号与至少两个收音设备的设备标识之间的对应关系。

本实施例中，当场景中的主控设备被替换时，用户可通过用户账号和对应的密码登录新的主控设备，可得到用户账号与至少两个收音设备的设备标识之间的对应关系，而不需要重复绑定。

上述语音处理方法，获取已登录的用户账号发起的对至少两个收音设备的绑定指令；根据绑定指令确定用户账号与至少两个收音设备的设备标识之间的对应关系，能在更换主控设备时，不需要对收音设备重复绑定。

在一个实施例中，如图6所示，为一个实施例中语音处理方法的时序图。以该方法应用于图2所示的应用场景，其中服务器140包括后台服务器和AIlab(ArtificialIntelligence Laboratory，人工智能实验室)服务器，包括以下步骤：

步骤602，第一收音设备获取用户输入的第一语音信号。

步骤604，第二收音设备获取用户输入的第一语音信号。

步骤606，第一收音设备向主控设备发送第一语音信号。

步骤608，第二收音设备向主控设备发送第一语音信号。

步骤610，主控设备根据语音处理规则对第一语音信号进行处理，确定语音输入源信号以及目标收音设备。

其中，主控设备已确认第一收音设备为目标收音设备。

步骤612，主控设备获取目标收音设备对应的语音播报方式。

步骤614，主控设备向后台服务器发送语音输入源信号以及对应的语音播报方式。

步骤616，后台服务器向AILab服务器发送语音输入源信号。

步骤618，AILab服务器根据语音播报方式和语音输入源信号进行处理，得到对应的文字信息和语音回复信息。

具体地，AILab服务器根据语音输入源信号进行处理得到对应的文字信息。AILab服务器根据语音播报方式和语音输入源信号进行处理得到语音回复信息。

步骤620，AILab服务器向后台服务器发送文字信息和语音回复信息。

步骤622，后台服务器根据文字信息解析得到控制指令。

步骤624，后台服务器向主控设备发送语音回复信息和控制指令。

步骤626，主控设备向第一收音设备发送语音回复信息，并执行控制指令对应的操作。

步骤628，第一收音设备以该语音播报方式播放语音回复信息。

上述语音处理方法，能够以对应的语音播报方式播放语音回复信息，能增加收音设备的响应方式，使收音设备的响应方式呈现多样化，满足个性化需求以及在收音设备对应的区域内均可以接收到语音回复信息，根据语音回复信息解析得到控制指令，根据控制指令执行对应的操作，能够远程控制设备，使语音控制更加便捷。

在一个实施例中，一种语音处理方法，包括：

步骤(a1)，获取已登录的用户账号发起的对至少两个收音设备的绑定指令。

步骤(a2)，根据绑定指令确定用户账号与至少两个收音设备的设备标识之间的对应关系。

步骤(a3)，获取收音设备采集的第二语音信号。

步骤(a4)，当检测到第二语音信号中存在唤醒词时，控制收音设备进行语音采集。

步骤(a5)，获取至少两个收音设备采集的第一语音信号，其中，至少两个收音设备采集的第一语音信号对应同一语音输入源。

步骤(a6)，获取至少两个收音设备中每个收音设备对应的第一语音信号的强度。

步骤(a7)，当存在至少两个第一语音信号的强度大于或等于预设强度时，确定至少两个第一语音信号中强度最大的第一语音信号，将强度最大的第一语音信号作为语音输入源信号，以及强度最大的第一语音信号对应的收音设备作为目标收音设备。

步骤(a8)，当至少两个收音设备采集的第一语音信号的强度均小于预设强度时，将第一语音信号进行合并，抑制至少两个收音设备采集的第一语音信号中的噪声信号，得到语音输入源信号。

步骤(a9)，确定第一语音信号中强度最大的第一语音信号。

步骤(a10)，将强度最大的第一语音信号对应的收音设备作为目标收音设备。

步骤(a11)，获取目标收音设备对应的语音播报方式。

步骤(a12)，向服务器发送语音输入源信号以及目标收音设备对应的语音播报方式。

步骤(a13)，接收服务器返回的语音回复信息以及根据语音输入源信号解析得到的控制指令，其中，语音回复信息是服务器根据语音输入源信号和语音播报方式处理得到的。

步骤(a14)，根据控制指令执行对应的操作。

步骤(a15)，向目标收音设备发送语音回复信息，以使目标收音设备以语音播报方式播放语音回复信息。

上述语音处理方法，根据绑定指令确定用户账号与至少两个收音设备的设备标识之间的对应关系，能在更换主控设备时，不需要对收音设备重复绑定；

当检测到第二语音信号中存在唤醒词时，控制收音设备进行语音采集，避免收音设备长期处于无意义的语音采集状态，也避免收音设备采集用户信息，节省收音设备和主控设备的功耗，提高信息安全性；

当存在第一语音信号的强度大于或等于预设强度时，确定强度大于或等于预设强度的第一语音信号为语音输入源信号，以及强度大于或等于预设强度的第一语音信号对应的收音设备作为目标收音设备，能够快速确定目标收音设备，提高语音处理效率；

将第一语音信号合并，抑制噪声信号，能够得到更加精确的第一语音信号，将强度最大的第一语音信号对应的收音设备作为目标收音设备，能避免损失语音信号而导致语音回复信息不准确，提高语音识别的准确性；

使用服务器实现语音输入源信号和语音回复信息的转化，能提高语音处理的安全性；能以对应的语音播报方式播放语音回复信息，能增加收音设备的响应方式，使收音设备的响应方式呈现多样化，满足个性化需求以及在收音设备对应的区域内均可以接收到语音回复信息；

根据语音回复信息解析得到控制指令，根据控制指令执行对应的操作，能够远程控制设备，使语音控制更加便捷。

图4和图5为一个实施例中语音处理方法的流程示意图。应该理解的是，虽然图4和图5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图4和图5中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，图7为一个实施例中语音处理装置的结构框图，一种语音处理装置，包括获取模块702、第一处理模块704、第二处理模块706和发送模块708，其中：

获取模块702，用于获取至少两个收音设备采集的第一语音信号，其中，至少两个收音设备采集的第一语音信号对应同一语音输入源。

第一处理模块704，用于根据语音处理规则对第一语音信号进行处理，确定语音输入源信号以及对应的目标收音设备。

获取模块702，还用于获取目标收音设备对应的语音播报方式。

第二处理模块706，用于根据语音输入源信号和语音播报方式处理得到对应的语音回复信息。

发送模块708，用于向目标收音设备发送语音回复信息，以使目标收音设备以语音播报方式播放语音回复信息。

上述语音处理装置，获取至少两个收音设备采集的第一语音信号，其中，至少两个收音设备采集的第一语音信号对应同一语音输入源，根据语音处理规则对第一语音信号进行处理，确定语音输入源信号以及对应的目标收音设备，语音输入的范围大，且能得到语音输入源对应的目标收音设备，实现距离较远时的语音信号传输；获取目标收音设备对应的语音播报方式，根据语音输入源信号和语音播报方式处理得到对应的语音回复信息，向目标收音设备发送语音回复信息，以使目标收音设备以语音播报方式播放语音回复信息，能使语音信号输入的范围更大，提高语音输入的便捷性，以对应的语音播报方式播放语音回复信息，能增加收音设备的响应方式，使收音设备的响应方式呈现多样化，满足个性化需求以及在收音设备对应的区域内均可以接收到语音回复信息。

在一个实施例中，第一处理模块704用于获取至少两个收音设备中每个收音设备对应的第一语音信号的强度；当存在第一语音信号的强度大于或等于预设强度时，确定强度大于或等于预设强度的第一语音信号为语音输入源信号，以及强度大于或等于预设强度的第一语音信号对应的收音设备为目标收音设备。

上述语音处理装置，获取至少两个收音设备中每个收音设备对应的第一语音信号的强度，当存在第一语音信号的强度大于或等于预设强度时，确定强度大于或等于预设强度的第一语音信号为语音输入源信号，以及强度大于或等于预设强度的第一语音信号对应的收音设备作为目标收音设备，能够快速确定目标收音设备，提高语音处理效率。

在一个实施例中，第一处理模块704用于当存在至少两个第一语音信号的强度大于或等于预设强度时，确定至少两个第一语音信号中强度最大的第一语音信号；将强度最大的第一语音信号作为语音输入源信号，以及强度最大的第一语音信号对应的收音设备为目标收音设备。

上述语音处理装置，当存在至少两个第一语音信号的强度大于或等于预设强度时，确定至少两个第一语音信号中强度最大的第一语音信号；将强度最大的第一语音信号作为语音输入源信号，以及强度最大的第一语音信号对应的收音设备为目标收音设备，能够快速确定目标收音设备，提高语音处理效率。

在一个实施例中，第一处理模块704还用于当至少两个收音设备采集的第一语音信号的强度均小于预设强度时，将第一语音信号进行合并，抑制至少两个收音设备采集的第一语音信号中的噪声信号，得到语音输入源信号；确定第一语音信号中强度最大的第一语音信号；将强度最大的第一语音信号对应的收音设备作为目标收音设备。

上述语音处理装置，将第一语音信号合并，抑制噪声信号，能够得到更加精确的第一语音信号，将强度最大的第一语音信号对应的收音设备作为目标收音设备，能避免损失语音信号而导致的语音回复信息不准确，提高语音识别的准确性。

在一个实施例中，获取模块702用于获取至少两个收音设备采集的第一语音信号，其中，至少两个收音设备采集的第一语音信号对应同一语音输入源。

第一处理模块704用于将第一语音信号进行合并，抑制至少两个收音设备采集的第一语音信号中的噪声信号，得到语音输入源信号；获取至少两个收音设备中每个收音设备对应的第一语音信号的强度；确定第一语音信号中强度最大的第一语音信号；将强度最大的第一语音信号对应的收音设备作为目标收音设备。

获取模块702还用于获取目标收音设备对应的语音播报方式。

第二处理模块706用于根据语音输入源信号和语音播报方式处理得到对应的语音回复信息。

发送模块708用于向目标收音设备发送语音回复信息，以使目标收音设备以语音播报方式播放语音回复信息。

上述语音处理装置，能以特定的语音播报方式播放语音回复信息，能避免损失语音信号而导致语音回复信息不准确，提高语音识别的准确性，同时提高语音处理效率。

在一个实施例中，该语音处理装置还包括接收模块。发送模块708用于向服务器发送语音输入源信号以及目标收音设备对应的语音播报方式。接收模块用于接收服务器返回的语音回复信息，其中，语音回复信息是服务器根据语音输入源信号和语音播报方式处理得到的。

上述语音处理装置，向服务器发送语音输入源信号以及目标收音设备对应的语音播报方式，接收服务器返回的语音回复信息，其中，语音回复信息是服务器根据语音输入源信号和语音播报方式处理得到的，使用服务器实现语音输入源信号和语音回复信息的转化，能提高语音处理的安全性。

在一个实施例中，该语音处理装置还包括控制模块。第二处理模块706还用于根据语音输入源信号解析得到控制指令。控制模块用于根据控制指令执行对应的操作。

上述语音处理装置，根据语音输入源信号解析得到控制指令，根据控制指令执行对应的操作，能够远程控制设备，使语音控制更加便捷。

在一个实施例中，该语音处理装置还包括控制模块。控制模块用于获取收音设备采集的第二语音信号；当检测到第二语音信号中存在唤醒词时，控制收音设备进行语音采集。

上述语音处理装置，获取收音设备采集的第二语音信号；当检测到第二语音信号中存在唤醒词时，控制收音设备进行语音采集，避免收音设备长期处于无意义的语音采集状态，也避免收音设备采集用户信息，节省收音设备和主控设备的功耗，提高信息安全性。

在一个实施例中，该语音处理装置还包括绑定模块。绑定模块用于获取已登录的用户账号发起的对至少两个收音设备的绑定指令；根据绑定指令确定用户账号与至少两个收音设备的设备标识之间的对应关系。

上述语音处理装置，获取已登录的用户账号发起的对至少两个收音设备的绑定指令；根据绑定指令确定用户账号与至少两个收音设备的设备标识之间的对应关系，能在更换主控设备时，不需要对收音设备重复绑定。

图8示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1、图2或图3中的主控设备130。如图8所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现语音处理方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行语音处理方法。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的语音处理装置可以实现为一种计算机程序的形式，计算机程序可在如图8所示的计算机设备上运行。计算机设备的存储器中可存储组成该语音处理装置的各个程序模块，比如，图7所示的获取模块、第一处理模块、第二处理模块和发送模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的语音处理方法中的步骤。

例如，图8所示的计算机设备可以通过如图7所示的语音处理装置中的获取模块执行获取至少两个收音设备采集的第一语音信号，其中，至少两个收音设备采集的第一语音信号对应同一语音输入源。计算机设备可通过第一处理模块执行根据语音处理规则对第一语音信号进行处理，确定语音输入源信号以及对应的目标收音设备。计算机设备可通过第二处理模块执行根据语音输入源信号和语音播报方式处理得到对应的语音回复信息。计算机设备可通过发送模块执行向目标收音设备发送语音回复信息，以使目标收音设备以语音播报方式播放语音回复信息。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述语音处理方法的步骤。此处语音处理方法的步骤可以是上述各个实施例的语音处理方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述语音处理方法的步骤。此处语音处理方法的步骤可以是上述各个实施例的语音处理方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音处理方法，其特征在于，应用于主控设备，所述方法包括：

获取至少两个收音设备采集的第一语音信号，其中，所述至少两个收音设备采集的第一语音信号对应同一语音输入源；

当所述至少两个收音设备采集的第一语音信号的强度均小于预设强度时，将所述第一语音信号进行合并，抑制所述至少两个收音设备采集的第一语音信号中的噪声信号，得到语音输入源信号；

将强度最大的第一语音信号对应的收音设备作为目标收音设备；

根据所述目标收音设备的设备标识，获取与所述目标收音设备的设备标识对应的语音播报方式标识，确定所述语音播报方式标识所标识的语音播报方式；

根据所述语音输入源信号和所述语音播报方式处理得到对应的语音回复信息；根据环境语音强度确定所述语音回复信息的音量；

向所述目标收音设备发送所述语音回复信息，以使所述目标收音设备以所述语音播报方式、按照所述音量播放所述语音回复信息。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述至少两个收音设备中每个收音设备对应的第一语音信号的强度；

当存在第一语音信号的强度大于或等于预设强度时，确定强度大于或等于预设强度的第一语音信号为语音输入源信号，以及所述强度大于或等于预设强度的第一语音信号对应的收音设备为目标收音设备。

3.根据权利要求2所述的方法，其特征在于，所述当存在第一语音信号的强度大于或等于预设强度时，确定所述第一语音信号为语音输入源信号，所述第一语音信号对应的收音设备为目标收音设备，包括：

当存在至少两个第一语音信号的强度大于或等于预设强度时，确定所述至少两个第一语音信号中强度最大的第一语音信号，将所述强度最大的第一语音信号作为语音输入源信号，以及所述强度最大的第一语音信号对应的收音设备作为目标收音设备。

4.根据权利要求1所述的方法，其特征在于，所述将所述第一语音信号进行合并，抑制所述至少两个收音设备采集的第一语音信号中的噪声信号，得到语音输入源信号，包括：

通过模拟波束形成器，将所述第一语音信号进行合并；

对合并后的第一语音信号进行增强处理，抑制所述至少两个收音设备采集的第一语音信号中的噪声信号，得到语音输入源信号。

5.根据权利要求1所述的方法，其特征在于，所述根据所述语音输入源信号和所述语音播报方式处理得到对应的语音回复信息，包括：

向服务器发送所述语音输入源信号以及所述目标收音设备对应的语音播报方式；

接收所述服务器返回的语音回复信息，其中，所述语音回复信息是所述服务器根据所述语音输入源信号和所述语音播报方式处理得到的。

6.根据权利要求1、2、3或5所述的方法，其特征在于，所述方法还包括：

根据所述语音输入源信号解析得到控制指令；

根据所述控制指令执行对应的操作。

7.根据权利要求1、2、3或5所述的方法，其特征在于，在所述获取至少两个收音设备采集的第一语音信号之前，还包括：

获取收音设备采集的第二语音信号；

当检测到所述第二语音信号中存在唤醒词时，控制所述收音设备进行语音采集。

8.一种语音处理装置，其特征在于，应用于主控设备，所述装置包括：

获取模块，用于获取至少两个收音设备采集的第一语音信号，其中，所述至少两个收音设备采集的第一语音信号对应同一语音输入源；

第一处理模块，用于当所述至少两个收音设备采集的第一语音信号的强度均小于预设强度时，将所述第一语音信号进行合并，抑制所述至少两个收音设备采集的第一语音信号中的噪声信号，得到语音输入源信号；将强度最大的第一语音信号对应的收音设备作为目标收音设备；

所述获取模块，还用于根据所述目标收音设备的设备标识，获取与所述目标收音设备的设备标识对应的语音播报方式标识，确定所述语音播报方式标识所标识的语音播报方式；

第二处理模块，用于根据所述语音输入源信号和所述语音播报方式处理得到对应的语音回复信息；根据环境语音强度确定所述语音回复信息的音量；

发送模块，用于向所述目标收音设备发送所述语音回复信息，以使所述目标收音设备以所述语音播报方式、按照所述音量播放所述语音回复信息。

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。