CN107464564B

CN107464564B - 语音交互方法、装置及设备

Info

Publication number: CN107464564B
Application number: CN201710719307.0A
Authority: CN
Inventors: 王辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-08-21
Filing date: 2017-08-21
Publication date: 2023-05-26
Anticipated expiration: 2037-08-21
Also published as: CN107464564A

Abstract

本发明实施例公开了一种语音交互方法、装置及设备，属于语音处理领域。该方法包括：根据两个麦克风分别接收到的唤醒信号确定音源方位，唤醒信号是预先设置的用于唤醒语音交互设备进行工作的信号；根据音源方位，通过两个麦克风定向接收语音信号；对语音信号进行降噪处理，并以便通过识别模型对降噪处理后的语音信号进行语音识别和语义分析，并生成相应的交互数据；根据交互数据执行相应的交互操作。本发明实施例在确保语音识别准确率的前提下，降低了语音交互设备的成本；并降低了信号处理的难度和复杂度，进而提高语音交互的速率。

Description

语音交互方法、装置及设备

技术领域

本发明实施例涉及语音处理领域，特别涉及一种语音交互方法、装置及设备。

背景技术

随着语音识别技术的不断发展，越来越多的语音交互设备应运而生。通过与语音交互设备进行语音交互，人们可以指示语音交互设备完成诸如音乐播放、天气播报等操作。

实际使用过程中，用户通常在距离语音交互设备较远处发出语音指令，即用户与语音交互设备进行远场交互。为了提高远场交互时语音信号的接收质量，进而提高后续语音识别的准确度，语音交互设备上通常阵列设置有多个用于收音的麦克风。比如，语音交互设备的顶面被设计成平面，用于收音的多个麦克风即以环形阵列的方式设置在顶面。语音交互设备通过麦克风阵列接收到语音信号后，即对语音信号进行识别，从而根据识别结果与用户进行交互。

然而，在语音交互设备上阵列设置多个麦克风的成本较高，且语音交互设备同时对多路语音信号进行处理的难度及复杂度较高，导致语音交互存在滞后性。

发明内容

为了解决语音交互设备上阵列设置多个麦克风的成本较高，且语音交互设备同时对多路语音信号进行处理的难度及复杂度较高，导致语音交互存在滞后性。的问题，本发明实施例提供了一种语音交互方法、装置及设备。所述技术方案如下：

根据本发明实施例的第一方面，提供了一种语音交互方法，用于设置有两个麦克风的语音交互设备，该方法包括：

根据两个麦克风分别接收到的唤醒信号确定音源方位，唤醒信号是预先设置的用于唤醒语音交互设备进行工作的信号；

根据音源方位，通过两个麦克风定向接收语音信号；

对语音信号进行降噪处理，并以便通过识别模型对降噪处理后的语音信号进行语音识别和语义分析，并生成相应的交互数据；

根据交互数据执行相应的交互操作。

根据本发明实施例的第二方面，提供了一种语音交互装置，用于设置有两个麦克风的语音交互设备，该装置包括：

确定模块，用于根据两个麦克风分别接收到的唤醒信号确定音源方位，唤醒信号是预先设置的用于唤醒语音交互设备进行工作的信号；

第一收音模块，用于根据音源方位，通过两个麦克风定向接收语音信号；

第一处理模块，用于对语音信号进行降噪处理，以便通过识别模型对降噪处理后的语音信号进行语音识别和语义分析，并生成相应的交互数据；

交互模块，用于根据交互数据执行相应的交互操作。

根据本发明实施例的第三方面，提供了一种语音交互设备，该语音交互设备包括两个麦克风、扬声器、处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上述第一方面所述的语音交互方法

根据本发明实施例的第四方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如上述第一方面所述的语音交互方法。

本发明实施例中，语音交互设备根据两个麦克风接收到的唤醒信号确定音源方位，从而根据该音源方位定向接收两路语音信号，并通过识别模型对经过降噪处理的语音信号进行识别分析，进而根据得到的交互数据执行相应的交互操作；相较于相关技术中的麦克风阵列语音识别方案，本发明实施例采用双麦克风实现语音信号定向接收，并结合语音信号优化处理算法和识别模型进行语音识别分析，在确保语音识别准确率的前提下，降低了语音交互设备的成本；同时，语音交互设备仅需要对两路语音信号进行优化处理，降低了信号处理的难度和复杂度，进而提高语音交互的速率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明一个实施例提供的实施环境的示意图；

图2是相关技术中语音交互设备的结构示意图；

图3是本发明一个实施例提供的语音交互过程的实施示意图；

图4示出了本发明一个实施例提供的语音交互方法的流程图；

图5是图4所示语音交互方法所涉及的降噪处理过程的流程图；

图6示出了本发明另一个实施例提供的语音交互方法的流程图；

图7示出了本发明另一个实施例提供的语音交互方法的流程图；

图8是识别模型训练过程的方法流程图；

图9是识别模型训练过程的实施示意图；

图10示出了本发明一个实施例提供的语音交互装置的结构方框图；

图11示出了本发明一个实施例提供的语音交互设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

请参考图1，其示出了本发明一个实施例提供的实施环境的示意图，该实施环境中包括语音交互设备110和服务器120。

语音交互设备110是具有语音交互功能的电子设备，用于根据用户发出的自然语言指令进行交互，从而实现诸如播放音乐、播报天气。比如，该语音交互设备110是智能音箱，用户通过语音可以控制智能音箱播放音频、播报本地天气。

除了与用户进行语音交互外，语音交互设备110还具有根据用户语音指令控制智能家居设备的功能。在一种可能的实施方式中，该语音交互设备110还通过蓝牙或红外线与其他智能设备相连，用于根据用户语音控制智能设备执行相应操作。比如，语音交互设备110与智能家居设备(比如智能空调、智能风扇、智能门窗等等)相连，当接收到用户发出的语音指令时，即根据该语音指令控制相应的智能家居设备执行相应操作(比如开启智能空调、关闭智能风扇、关闭智能门窗等等)。

本发明实施例中，语音交互设备110上设备有两个用于采集语音信号的麦克风，根据两个麦克风接收到的语音信号，语音交互设备110能够定位音源方位，并定向接收后续来自该音源方位的语音信号。

语音交互设备110与服务器120之间通过有线或无线网路相连。

服务器120是一台服务器、若干台服务器构成的服务器集群或云计算中心。本发明实施例中，服务器120为语音交互设备110的后台服务器。

本发明实施例中，服务器120中构建有用于进行语音识别以及语义分析的识别模型，语音交互设备110将处理后的语音信号发送至服务器120后，服务器120即通过识别模型对语音信号进行语音识别及语义分析，并将生成的交互数据发送至语音交互设备110，以便语音交互设备110基于该交互数据执行相应的交互操作，可选的，该交互数据是根据语义分析结果生成的TTS(Text To Speech，文本到语音)数据、根据语音分析结果从互联网获取的音频数据或视频数据等等。

在一种可能的实施方案中，服务器120接收语音交互设备110上报、人工标注或长期录音数据中的坏案例(badcase)，并根据坏案例对已有的识别模型进行学习优化，从而提高识别模型的语音识别以及语义分析的准确性。

在其他可能的实施方式中，当语音交互设备110具备较强的数据处理能力时，语音交互设备110中构建有用于进行语音识别以及语义分析的识别模型，即语音交互设备110对接收到语音信号进行处理后，在本地进行语音识别以及语义分析，生成相应的交互数据，进而根据该交互数据执行相应的交互操作，而不再需要与服务器110进行数据交互。进一步的，语音交互设备110还能够根据交互错误信号生成相应的badcase信息，从而根据该badcase信息对识别模型进行训练，提高语义分析的准确性。本发明实施例并不对此进行限定。

可选地，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible MarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet ProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

为了方便描述，下述各个实施例仅以语音交互方法由语音交互设备与服务器交互执行为例进行示意性说明，并不对本发明构成限定。

相关技术中，语音交互设备通过阵列设置的多个麦克风进行远场收音。示意性的，如图2所示，语音交互设备20的顶面21被设置为平面，且顶面21上设置有7个麦克风211，7个麦克风211按照严格角度阵列排布。同时，为了减小扬声器22发声对麦克风211收音造成的干扰，扬声器22被设置在距离麦克风211较远处。语音交互设备20通过7个麦克风211收音后，需要同时对7路语音信号进行处理，进而对处理后的语音信号进行语音识别分析，最终根据分析结果执行相应操作。

采用图2所示的结构，麦克风阵列提高了语音交互设备的制造成本，且语音交互设备需要设置较大的尺寸(因为需要时麦克风与扬声器尽量远离)；同时，在麦克风数量较多的情况下，语音交互设备需要同时处理多路语音信号，对于语音交互设备的处理能力要求较高，在语音交互设备处理能力有限的情况下，直接影响语音交互的速率。

而本发明实施例中，如图3所示，语音交互设备31利用两个麦克风定向接收来自音源方位的语音信号后，利用语音信号处理组件对语音信号进行处理，并将处理后的语音信号发送至服务器32。服务器32接收到的语音信号后，即通过识别模型(包括声学模型、语言模型和发音字典)对语音信号进行语音识别，并进一步对语音识别结果进行语义分析，从而将根据语义分析结果生成的交互数据发送至语音交互设备31。语音交互设备31接收到交互数据后，即根据该交互数据通过发声组件控制扬声器进行语音交互。相较于利用麦克风阵列进行收音，本发明实施例中利用双麦克风进行定向收音，对收集到的语音信号进行优化处理，并借助服务器强大的运算能力，利用识别模型对优化后的语音信号进行识别分析，保证了语音识别的准确性，降低了语音交互设备的制造成本；进一步的，服务器能够通过人工智能和机器深度学习技术，对识别模型不断进行优化，逐步提升语音识别的准确性。同时，本发明实施例中，当语音交互设备31正在播放音频时，音频电路将当前播放音频的音频信号发送至语音信号处理组件，以便语音信号处理组件利用回音消除技术对麦克风接收到的语音信号进行处理，避免自身扬声器发声对麦克风收音造成的影响，因此在共振允许范围内，双麦克风和扬声器可以设置的尽可能近，从而减小了语音交互设备的尺寸。下面采用示意性的实施例进行说明。

请参考图4，其示出了本发明一个实施例提供的语音交互方法的流程图，本实施例以该语音交互方法用于图1所示的实施环境为例进行说明，该方法包括：

步骤401，语音交互设备根据两个麦克风分别接收到的唤醒信号确定音源方位。

其中，该唤醒信号是预先设置的用于唤醒语音交互设备进行工作的信号。

在一种可能的实施方式中，在待机状态下，语音交互设备的麦克风保持工作状态，当接收到外界语音信号时，即检测该外界语音信号是否为预先设置的唤醒信号。若外界语音信号为唤醒信号，语音交互设备即控制各个组件处于工作状态；若外界语音信号不是唤醒信号，语音交互设备即控制各个组件保持当前状态。

可选的，该唤醒信号为默认唤醒信号或由用户自定义。在一种可能的实施方式中，用于预先将唤醒信号(语音)录入语音交互设备中，且为了提高唤醒成功率，用户在位于语音交互设备不同方位、不同距离处多次录入唤醒信号。比如，用户分别在位于语音交互设备正前方2米，正前方5米，左前方2米，左前方5米，右前方2米，右前方5米，正后方2米，正后方5米，左后方2米，左后方5米，右后方2米，右后方5米处，录入唤醒语音“Hi，小Q！”。

根据唤醒信号控制各个组件处于工作状态后，语音交互设备进一步根据两个麦克风接收到的两路唤醒信号确定音源方位(即确定用户方位)。

在一种可能的实施方式中，根据同一音源发出的语音信号达到两个麦克风存在时间差这一特征，语音交互设备根据唤醒信号达到两个麦克风的时间差，采用基于TDOA(TimeDifference of Arrival，到达时间差)的音源定位算法确定音源方位。在其他可能的实施方式中，语音交互设备还可以采用基于可控波束成型或高分辨率频谱估计等音源定位算法确定音源方位。

步骤402，语音交互设备根据音源方位，通过两个麦克风定向接收语音信号。

为了提高语音信号的接收质量，方便后续进行语音信号处理，语音交互设备根据确定出的音源方位，通过两个麦克风对来自该音源方位的语音信号进行定向拾取。

在一种可能的实施方式中，语音交互设备确定出音源方位后，通过波束成型技术，利用两个麦克风定向接收来自该音源方位的语音信号；在另一种可能的实施方式中，该语音交互设备具备机械旋转结构，在确定出音源方位后，语音交互设备即通过机械旋转结构控制自身进行旋转，使得两个麦克风正对该音源方向进行语音信号拾取。

需要说明的是，当用户移动时，该音源方位也会随之发生移动，若仍旧根据先前确定出的音源方位进行语音信号拾取将影响收音质量，因此，为了提高音源方位的准确性，在一种可能的实施方式中，语音交互设备在唤醒状态下每隔预定时间间隔确定音源方位，并根据最近确定出的音源方位进行语音信号拾取。在其他可能的实施方式中，语音交互设备还可以通过人体追踪技术(比如图像追踪或红外追踪)实现语音信号定向拾取。

步骤403，语音交互设备对语音信号进行降噪处理，并将降噪处理后的语音信号发送至服务器。

可选的，当语音交互设备中构建有用于进行语音识别和语义分析的识别模型时，即在本地通过识别模型对降噪后的语音信号进行识别分析，从而生成相应的交互数据；当语音交互设备中未构建识别模型时，语音交互设备即将降噪处理后的语音信号发送至后台服务器，由后台服务器通过识别模型进行语音识别和语音分析，并向语音交互设备反馈生成的交互数据。本实施例以语音识别和语义分析由服务器执行为例进行说明。

在一种可能的实施方式中，语音交互设备通过麦克风定向接收语音信号时，根据预设规则对语音信号进行截取，从而获取到用户发出的完整语音。其中，该预设规则可以是检测到语音信号的中断时长是否达到预设阈值。比如，当检测到语音信号的中断时长达到0.75s时，语音交互设备确定用户停止说话，并截取当前时刻之前的语音信号。

由于收音环境中存在环境噪音，而该环境噪音会影响后续语音识别和语义分析的准确性，因此，语音交互设备进一步对接收到的两路语音信号进行降噪处理，并进一步将降噪处理后的语音信号发送至服务器。

在一种可能的实施方式中，如图5所示，语音交互设备对语音信号进行降噪处理包括如下步骤。

步骤403A，对各路语音信号进行分帧和预加重处理，并通过傅里叶变换将处理后的语音信号变换到频域。

语音交互设备对时域中的语音信号(带噪音)进行分帧，就是将语音信号以帧为单位等分为若干个语音信号单元，每个语音信号单元中包含相同个数的采样点。示意性的，当麦克风的采样频率为16KHz时，语音交互设备以32ms进行分帧，即各个语音信号单元中包含512个采样点。

由于语音信号中的在噪音在低频部分的能量较大，因此，语音交互设备通过高通滤波器(高频信号通过，低频信号滤除)对分帧后的语音信号进行滤波，从而衰减语音信号中的噪音部分，实现对语音信号的预加重处理。

由于分帧处理后，各个帧信号的边界不连续将导致频率泄露，造成严重的“块效应”，因此，为了避免频率泄露，语音交互设备进一步对分帧和预加重处理后的语音信号进行STFT(短时傅里叶变换)，将当前帧的语音信号从时域变换到频域。

步骤403B，将变换到频域的语音信号划分至不同频带。

进一步的，语音交互设备将变换到频域的语音信号划分至预先设置的若干个频带中，其中，不同的频带对应的起始频率以及截止频率不同。

示意性的，预设设置的频带的起始截止频率如表一所示。

表一

步骤403C，计算各个频带中当前帧的后验SNR，并根据前一帧的先验SNR估计值计算当前帧的先验SNR估计值。

进一步的，针对划分出的各个频带，语音交互设备计算各个频带中当前帧的后验SNR，并根据前一帧的先验SNR估计值，计算当前帧的先验SNR估计值。其中，SNR为语音信号中所需信号(即人声信号)与噪声的比值，SNR越高，表示当前帧的语音信号质量越高。其中，计算后验SNR以及先验SNR估计值的计算采用本领域常用手段，本发明实施例在此不再赘述。

步骤403D，根据当前帧的先验SNR估计值计算当前帧的衰减增益因子。

在一种可能的实施方式，基于上述步骤403C计算得到的先验SNR估计值，当频带的先验SNR估计值大于阈值(认为是纯人声信号)，语音交互设备采用频谱相减的方式计算得到衰减增益因子；当频带的先验SNR估计值小于阈值(认为是噪声信号)，语音交互设备采用预设计算公式(针对不同的频带)计算得到衰减增益因子。

步骤403E，根据衰减增益因子对语音信号进行降噪处理。

在一种可能的实施方式中，计算得到衰减增益因子后，语音交互设备将语音信号与衰减增益因子进行相乘，得到降噪处理(信噪比增强)后的语音信号。

需要说明的是，语音交互设备还可以采用其他降噪处理方法对语音信号进行降噪处理。

步骤404，服务器接收语音交互设备发送的降噪处理后的语音信号。

步骤405，服务器通过识别模型对降噪处理后的语音信号进行语音识别和语义分析，并生成相应的交互数据。

在一种可能的实施方式中，服务器中构建的识别模型中包括声学模型、语言模型和发音字典，其中，语言模型用于计算文字序列本身的概率，即计算一串字或词构成完成语句的概率，声学模型用于计算给定文字序列与语音信号的匹配程度，发音字典用于指示文字序列中各个字词的发音。可选的，该语言模型为n-gram模型，声学模型为隐马尔可夫模型。

可选的，服务器将降噪处理后的语音信号输入识别模型，获取识别模型输出的语音信号对应的文字序列，并进一步通过语义分析技术识别该文字序列所表达的含义，得到相应的语义分析结果，进而根据该语义分析结果生成相应的交互数据。在一种可能的实施方式中，当语义分析结果指示播放指定音视频内容时，服务器即下载相应的音视频数据，并将音视频数据确定为交互数据；当语义分析结果指示播报指定信息时，服务器将指定信息对应的TTS数据作为交互数据；当语义分析结果指示语音交互设备控制相连智能家居设备时，服务器将相应的控制指令确定为交互数据；当语义分析结果指示语音交互设备启用本地功能(例如广播收听功能)时，服务器将相应的功能启用指令作为交互数据。本发明实施例并不对交互数据的具体类型以及生成方式进行限定。

可选的，服务器中构建识别模型具备学习功能，后续使用过程中，通过人工智能和机器深度学习技术对该识别模型进行不断优化，进一步提高语音识别和语义分析的准确性。

相较于现有技术中，利用麦克风阵列接收语音信号，从而提高后续语音识别的准确度(通过纯硬件提高语音识别准确度)，本发明实施例中，采用硬件(双麦克风)结合软件算法，并借助机器深度学习能力提高语音识别的准确度，显著降低语音交互设备的制造成本。

步骤406，服务器向语音交互设备反馈交互数据。

相应的，服务器将生成的交互数据发送至语音交互设备，以便语音交互设备执行后续交互操作。

可选的，为了减轻服务器的处理压力，服务器将语义分析结果作为交互数据发送至语音交互设备，由语音交互设备根据该语义分析结果自行获取相应的音视频数据并进行播放，本发明实施例并不对此进行限定。

步骤407，语音交互设备接收服务器反馈的交互数据。

步骤408，语音交互设备根据交互数据执行相应的交互操作。

在一种可能的实施方式中，当接收到的交互数据中包含音视频数据时，语音交互设备即通过扬声器和/或图像显示组件(比如显示屏)进行音视频播放；当接收到的交互数据中包含控制指令时，语音交互设备即根据该控制指令控制相应的智能家居设备；当接收到的交互数据中包含功能启用指令时，语音交互设备即启用相应的本地功能。

示意性的，当接收到的交互数据中包含天气信息(服务器发送或通过互联网查找得到)对应的TTS数据时，语音交互设备即通过扬声器播报天气信息；当接收到的交互数据中包含歌曲的音频数据时，语音交互设备即根据音频数据，通过扬声器播放该歌曲；当接收到的交互数据中包含用于控制智能风扇开启的控制指令时，语音交互设备根据该控制指令，通过与智能风扇之间的连接控制其开启。

综上所述，本发明实施例中，语音交互设备根据两个麦克风接收到的唤醒信号确定音源方位，从而根据该音源方位定向接收两路语音信号，并通过识别模型对经过降噪处理的语音信号进行识别分析，进而根据得到的交互数据执行相应的交互操作；相较于相关技术中的麦克风阵列语音识别方案，本发明实施例采用双麦克风实现语音信号定向接收，并结合语音信号优化处理算法和识别模型进行语音识别分析，在确保语音识别准确率的前提下，降低了语音交互设备的成本；同时，语音交互设备仅需要对两路语音信号进行优化处理，降低了信号处理的难度和复杂度，进而提高语音交互的速率。

在一种实际应用场景下，用户发出语音指令的过程中，当语音交互设备正通过扬声器播放音频时，双麦克风拾取到的语音信号中会包含扬声器播放音频的回声，而语音信号中的回声将会对后续语音识别以及语义分析的准确性产生影响。为了避免自身扬声器发声对麦克风收音造成的影响，在一种可能的实施方式中，语音交互设备获取扬声器当前播放音频的音频信号，并利用该音频信号对麦克风拾取到的语音信号进行回声消除。可选的，在图4的基础上，如图6所示，上述步骤402之后，还包括如下步骤。

步骤409，语音交互设备获取扬声器当前播放音频的原始音频信号。

在一种可能的实施方式中，语音交互设备通过双麦克风拾取语音信号的同时，检测自身扬声器是否处于工作状态，若扬声器处于工作状态，即指示音频电路同步传输一路扬声器当前播放音频的原始音频信号至语音信号处理组件，相应的，语音信号处理组件获取该原始音频信号；若扬声器处于休眠状态，即直接通过上述步骤403进行语音信号降噪处理及发送。

步骤410，语音交互设备根据原始音频信号，对两路语音信号进行回音消除处理。

其中，回音消除处理用于消除语音信号中扬声器当前播放的音频。

语音交互设备根据该原始音频信号，通过回音消除算法分别对两路语音信号进行回音消除，可选的，该回音消除算法为NLMS(Normalized Least Mean Square，归一化最小均方)算法。

步骤403，语音交互设备对经过回音消除处理的两路语音信号进行降噪处理，并将经过回音消除以及降噪处理后的语音信号发送至服务器。

相应的，对语音信号进行回音消除处理后，语音交互设备进一步对回音消除处理后的两路语音信号进行降噪处理，最终将经过回音消除以及降噪处理的语音信号发送至服务器。其中，进行降噪处理的具体方式如上述步骤403A至403E，本实施例在此不再赘述。

需要说明的是，当语音交互设备中构建有用于进行语音识别和语义分析的识别模型时，即在本地通过识别模型对经过回音消除以及降噪后的语音信号进行识别分析，从而生成相应的交互数据，本发明实施例并不对此构成限定。

本发明实施例中，当扬声器处于工作状态时，语音交互设备根据扬声器当前播放音频的原始音频信号对麦克风采集的语音信号进行回音消除处理，从而避免扬声器回声对后续语音识别过程产生影响；通过引入回音消除机制，语音交互设备中，麦克风与扬声器之间的距离可以适当减小(在共振允许最小范围内)，从而减小语音交互设备的整体尺寸。

在多人聊天场景下，当聊天过程中某一用户向语音交互设备发出语音指令时，由于语音交互设备拾取到的语音信号中同时包含多路人声，服务器对该语音信号进行语音识别及语义分析时，无法分析出具体内容，导致语义分析失败(鸡尾酒会效应)，进而导致语音交互设备无法对语音指令进行响应。

为了避免这种情况，当接收到的交互数据指示语义分析失败时，语音交互设备进一步对语音信号中包含的人声信号的数量进行识别，并在识别出语音信号中包含多路人声信号时，确定当前为群聊场景，并指示用户在安静场景下发出语音指令。在图4的基础上，如图7所示，上述步骤408包括如下步骤。

步骤408A，若交互数据指示语义分析失败，语音交互设备则识别降噪处理后的语音信号中包含的人声信号的数量。

在一种可能的实施方式中，语音交互设备通过步骤403向服务器发送降噪处理后的语音信号时，在本地复制并存储一份语音信号。当接收到的交互数据指示语义分析失败(或在预定时长内未接收到交互数据)时，语音交互设备即启用识别线程识别降噪处理后语音信号中包含的人声信号的数量。可选的，语音交互设备采用BSS(Blind SourceSeparation，盲源分离)算法识别语音信号中人声信号的数量，具体包括如下步骤。

一、对降噪处理后的语音信号进行分段，得到语音片段。

在一种可能的实施方式中，语音交互设备根据预设处理周期，采用分帧的方式将降噪处理后的语音信号划分为若干语音片段，每个语音片段中包含的采样点数量相同。

示意性的，当预设处理周期为4000(即一个处理周期内处理4000个采样点)，且麦克风的采样频率为16000Hz(即麦克风每秒采样16000次)时，语音交互设备即每隔250ms划分一个语音片段。

二、获取语音片段中各个采样点的语音数据，语音数据中包含采样点的信号幅值。

对于划分得到的各个语音片段，语音交互设备获取语音片段中各个采样点的语音数据，其中，该语音数据中包含采样点的信号幅值。

示意性的，当每个语音片段中包含4000个采样点时，语音交互设备即获取4000个采样点的信号幅值。

三、对各个采样点的信号幅值进行矩阵化，得到语音片段的语音信号矩阵。

获取到采样点的信号幅值后，语音交互设备对各个信号幅值进行矩阵化处理，得到当前语音片段的语音信号矩阵。该语音信号矩阵的表达式如下：

其中，S₁和S₂为源信号，x₁和x₂分别为两个麦克风的观测信号，y₁和y₂是对S₁和S₂的估计，矩阵A为混合矩阵，矩阵W为分离矩阵。

四、计算语音信号矩阵的秩，并将语音信号矩阵的秩确定为语音片段中人声信号的数量。

进一步的，语音交互设备计算当前语音片段对应语音信号矩阵的秩，从而得到语音信号中混合的人声信号的数量，即确定出当前环境中说话用户的个数。

步骤408B，若降噪处理后的语音信号中包含的人声信号的数量大于阈值，语音交互设备则通过扬声器播放预设提示语音，预设提示语音用于指示用户重新发出语音指令。

当识别出语音信号中包含的人声信号的数量大于阈值(比如2)时，语音交互设备确定当前环境中存在多名用户同时说话，并通过扬声器播放预设提示语音，提示用户在安静场景下重新发出语音指令。

比如，识别出当前环境中存在多名用户同时说话时，语音交互设备通过扬声器播放提示语音“太多人说话小Q分不清了”，并重新进入语音信号拾取状态，进而通过麦克风重新拾取语音指令(重复执行步骤402至407)。

在其他可能的实施方式中，当降噪处理后的语音信号中包含的人声信号的数量大于阈值时，语音交互设备还可以通过闪烁指示灯、显示预定文字或图像等方式提示用户重新发出语音指令，本发明实施例并不对此进行限定。

不同于现有技术通过算法从语音信号中分离出不同用户的人声信号(算法复杂度及难度极高)，本发明实施例中，语音交互设备对麦克风接收到语音信号的强度矢量进行筛选，实现声音信号的动态分离，且只分析出同时说话的人声个数，而不识别具体内容；在确定出多人同时说话时，通过语音交互的方式提示用户重新发出语音指令，即能够解决多人同时说话场景下的语音识别问题，又降低了语音识别的复杂度。

在另一种可能的实施方式中，为了降低语音交互设备的处理压力，语音信号中人声信号数量的识别过程可以由服务器执行，即当交互数据指示语义分析失败，服务器识别降噪处理后的语音信号中包含的人声信号的数量，并在降噪处理后的语音信号中包含的人声信号的数量大于阈值时，向交互数据中添加预设标识，相应的，语义交互设备在识别出该预设标识时，通过扬声器播放预设提示语音指示用户重新发出语音指令。其中，服务器进行人声识别的具体方式如上述步骤408A所述，本实施例在此不再赘述。

为了进一步提高语音识别及语义分析的准确率，在一种可能的实施方式中，服务器根据人工标注或语音交互设备上报的错误识别案例对识别模型进行训练优化。示意性的，在图4的基础上，如图8所示，上述步骤408之后还包括如下步骤。

步骤411，语音交互设备获取交互错误信号，交互错误信号用于指示语音交互设备执行的交互操作与语音指令不匹配。

在一种可能的实施方式中，当语音交互设备执行的交互操作与用户发出的语音指令不匹配时，用户可以通过发出预定语音的方式向交互设备发送交互错误信号，指示语音交互设备上一次执行的交互操作发生错误(即执行的交互操作与语音指令不匹配)。其中，该预定语音是用户预先录入的错误上报语音。

比如，用户预先将错误上报语音“小Q你做错了”录入语音交互设备中，后续拾取到包含错误上报语音的语音信号时，语音交互设备即确定接收到交互错误信号。

在其他可能的实施方式中，语音交互设备还可以通过本体上设置的指定按键接收该交互错误信号，本发明实施例并不对此进行限定。

步骤412，语音交互设备根据交互错误信号生成badcase信息，badcase信息中包括上一次降噪处理后的语音信号。

在一种可能的实施方式中，语音交互设备将上一次降噪处理后的语音信号存储在本地(具有存储时限，比如30分钟)，当接收到交互错误信号时，语音交互设备即从本地获取存储的语音信号，并将语音信号作为badcase信息发送至服务器。

在其他可能的实施方式中，当语音交互设备中构建有用于进行语音识别和语义分析的识别模型时，语音交互设备根据生成的badcase信息，在本地对识别模型进行训练。本实施例仅以识别模型训练由服务器执行为例进行说明，但并不对此构成限定。

可选的，语音交互设备将接收到的交互数据作为badcase信息的一部分上传至服务器，以便服务器以及交互数据和语音信号进行错误分析。

步骤413，服务器接收语音交互设备发送的badcase信息。

步骤414，服务器根据badcase信息中包含的上一次降噪处理后的语音信号对识别模型进行训练。

在一种可能的实施方式中，服务器中构建的识别模型包括声音模型、语言模型和发音字典，服务器根据上一次降噪处理后的语音信号以及对应的语义分析结果错误分析，得到相应的错误原因；若错误原因为分词错误，服务器即根据badcase对语言模型进行训练优化；若错误原因为一词多音(多音词)，服务器即根据badcase对发音字典进行训练优化；若错误原因为语音文字匹配错误，服务器即根据badcase对声音模型进行训练优化。

在其他可能的实施方式中，服务器还可以通过获取长时间录音数据或人工标注的badcase对已有的识别模型进行训练优化，从而提高识别模型的语音识别准确率，本发明实施例并不对服务器获取badcase的具体方式进行限定。

示意性的，如图9所示，服务器通过获取长时间录音数据、用户上报数据(语音交互设备上报的badcase信息)以及人工标识数据进行badcase积累，从而利用badcase对声学模型、语言模型和发音字典(属于识别模型)进行训练优化，后续接收到语音交互设备发送的语音信号后，即利用训练优化后的声学模型、语言模型和发音字典进行语音识别和语义分析，最终得到语音信号对应的文本。

本发明实施例中，服务器根据语音交互设备上报的badcase信息对识别模型进行训练优化，进一步提高识别模型语音识别的准确性，提高后续语义识别结果的准确度。

需要说明的是，上述各个实施例中，以语音交互设备为执行主体的步骤可单独实现成为语音交互设备侧的语音交互方法，以服务器为执行主体的步骤可单独实现成为服务器侧的语音交互方法，本发明实施例在此不再赘述。

下述为本发明装置实施例，对于装置实施例中未详尽描述的细节，可以参考上述一一对应的方法实施例。

请参考图10，其示出了本发明一个实施例提供的语音交互装置的结构方框图。该语音交互装置通过硬件或者软硬件的结合实现成为图1中语音交互设备110的全部或者一部分。该装置包括：

确定模块1010，用于根据两个麦克风分别接收到的唤醒信号确定音源方位，所述唤醒信号是预先设置的用于唤醒所述语音交互设备进行工作的信号；

第一收音模块1020，用于根据所述音源方位，通过两个麦克风定向接收两路语音信号；

第一处理模块1030，用于对两路语音信号进行降噪处理，以便通过识别模型对降噪处理后的语音信号进行语音识别和语义分析，并生成相应的交互数据；

交互模块1040，用于根据所述交互数据执行相应的交互操作。

可选的，语音交互设备设置有扬声器，所述装置，还包括：

第一获取模块，用于获取扬声器当前播放音频的原始音频信号；

第二处理模块，用于根据所述原始音频信号，对所述两路语音信号进行回音消除处理，其中，回音消除处理用于消除语音信号中扬声器当前播放的音频；

所述第一处理模块，还用于对经过回音消除处理的语音信号进行降噪处理。

可选的，所述交互模块1040，包括：

第一交互单元，用于当所述交互数据指示语义分析成功时，根据所述交互数据执行所述交互操作；

第二交互单元，用于当所述交互数据指示语义分析失败时，识别降噪处理后的语音信号中包含的人声信号的数量；若降噪处理后的语音信号中包含的所述人声信号的数量大于阈值，则通过扬声器播放预设提示语音，所述预设提示语音用于指示用户重新发出语音指令。

可选的，所述第二交互单元，用于：

对降噪处理后的语音信号进行分段，得到语音片段；

获取所述语音片段中各个采样点的语音数据，所述语音数据中包含采样点的信号幅值；

对各个采样点的信号幅值进行矩阵化，得到所述语音片段的语音信号矩阵；

计算所述语音信号矩阵的秩，并将所述语音信号矩阵的秩确定为所述语音片段中所述人声信号的数量。

可选的，所述装置，还包括：

第二获取模块，用于接收交互错误信号，所述交互错误信号用于指示所述语音交互设备执行的交互操作与语音指令不匹配；

生成模块，用于根据所述交互错误信号生成坏案例badcase信息，所述坏案例信息中包括上一次降噪处理后的语音信号，所述坏案例信息用于对所述识别模型进行训练。

可选的，所述第一处理模块1030包括降噪单元，所述降噪单元用于：

对各路语音信号进行分帧和预加重处理，并通过傅里叶变换将处理后的语音信号变换到频域；

将变换到频域的语音信号划分至不同频带；

计算各个频带中当前帧的后验信噪比SNR，并根据前一帧的先验SNR估计值计算当前帧的先验SNR估计值；

根据当前帧的先验SNR估计值计算当前帧的衰减增益因子；

根据所述衰减增益因子对语音信号进行降噪处理。

请参考图11，其示出了本发明一个实施例提供的语音交互设备的结构示意图。该语音交互设备1100为图1中的语音交互设备110。具体来讲：

语音交互设备1100可以包括有一个或一个以上计算机可读存储介质的存储器1120、输入单元1130、显示单元1140、传感器1150、音频电路1160、近场通信模块1170、包括有一个或者一个以上处理核心的处理器1180、以及电源1190等部件。本领域技术人员可以理解，图11中示出的结构并不构成对语音交互设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

存储器1120可用于存储软件程序以及模块，处理器1180通过运行存储在存储器1120的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器1120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据语音交互设备1100的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器1120还可以包括存储器控制器，以提供处理器1180和输入单元1130对存储器1120的访问。

输入单元1130可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元1130可包括图像输入设备1131以及其他输入设备1132。图像输入设备1131可以是摄像头，也可以是光电扫描设备。除了图像输入设备1131，输入单元1130还可以包括其他输入设备1132。具体地，其他输入设备1132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1140可用于显示由用户输入的信息或提供给用户的信息以及语音交互设备1100的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元1140可包括显示面板1141，可选的，可以采用LCD(Liquid CrystalDisplay，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板1141。

语音交互设备1100还可包括至少一种传感器1150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1141的亮度，接近传感器可在语音交互设备1100移动到耳边时，关闭显示面板1141和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于语音交互设备1100还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1160、扬声器1161，传声器1162可提供用户与语音交互设备1100之间的音频接口。音频电路1160可将接收到的音频数据转换后的电信号，传输到扬声器1161，由扬声器1161转换为声音信号输出；另一方面，传声器1162将收集的声音信号转换为电信号，由音频电路1160接收后转换为音频数据，再将音频数据输出处理器1180处理后，经RF电路1110以发送给比如另一电子设备，或者将音频数据输出至存储器1120以便进一步处理。音频电路860还可能包括耳塞插孔，以提供外设耳机与语音交互设备1100的通信。

语音交互设备1100通过近场通信模块1170与外部设备建立近场通信连接，并通过该近场通信连接进行数据交互。本实施例中，该近场通信模块1170具体包括蓝牙模块和/或WiFi模块。

处理器1180是语音交互设备1100的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1120内的软件程序和/或模块，以及调用存储在存储器1120内的数据，执行语音交互设备1100的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1180可包括一个或多个处理核心；优选的，处理器1180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1180中。

语音交互设备1100还包括给各个部件供电的电源1190(比如电池)，优选的，电源可以通过电源管理系统与处理器1180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，语音交互设备1100还可以包括蓝牙模块等，在此不再赘述。

本发明实施例提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述各个实施例中语音交互设备侧的语音交互方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音交互方法，其特征在于，用于设置有两个麦克风的语音交互设备，所述方法包括：

根据两个麦克风分别接收到的唤醒信号确定音源方位，所述唤醒信号是预先设置的用于唤醒所述语音交互设备进行工作的信号；

根据所述音源方位，通过两个麦克风定向接收语音信号，其中，两个麦克风正对所述音源方位进行所述语音信号的拾取，所述语音交互设备通过机械旋转结构控制自身进行旋转以调整两个麦克风的正对方位；

对所述语音信号进行降噪处理，以便通过识别模型对降噪处理后的语音信号进行语音识别和语义分析，并生成相应的交互数据，所述识别模型包括声学模型、语言模型和发音字典，所述声学模型用于计算给定文字序列与语音信号的匹配程度，所述语言模型用于计算文字序列本身的概率，所述发音字典用于指示所述文字序列中各个字词的发音；

根据所述交互数据执行相应的交互操作；

获取交互错误信号，所述交互错误信号用于指示所述语音交互设备执行的交互操作与语音指令不匹配；

根据所述交互错误信号生成坏案例信息，所述坏案例信息中包括上一次降噪处理后的语音信号和交互数据，所述坏案例信息用于对所述识别模型进行训练，在错误原因为分词错误的情况下，所述坏案例信息用于对所述语言模型进行训练，在所述错误原因为一词多音的情况下，所述坏案例信息用于对所述发音字典进行训练，在所述错误原因为语音文字匹配错误的情况下，所述坏案例信息用于对所述声学模型进行训练优化，所述错误原因通过对所述上一次降噪处理后的语音信号以及对应的语义分析结果进行错误分析得到。

2.根据权利要求1所述的方法，其特征在于，所述语音交互设备设置有扬声器，所述通过两个麦克风定向接收语音信号之后，还包括：

获取所述扬声器当前播放音频的原始音频信号；

根据所述原始音频信号，对所述语音信号进行回音消除处理，其中，回音消除处理用于消除所述语音信号中所述扬声器当前播放的音频；

所述对语音信号进行降噪处理，包括：

对经过回音消除处理的语音信号进行降噪处理。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述交互数据执行相应的交互操作，包括：

若所述交互数据指示语义分析成功，则根据所述交互数据执行所述交互操作；

若所述交互数据指示语义分析失败，则识别降噪处理后的语音信号中包含的人声信号的数量；若降噪处理后的语音信号中包含的所述人声信号的数量大于阈值，则通过扬声器播放预设提示语音，所述预设提示语音用于指示用户重新发出语音指令。

4.根据权利要求3所述的方法，其特征在于，所述识别降噪处理后的语音信号中包含的人声信号的数量，包括：

对降噪处理后的语音信号进行分段，得到语音片段；

5.根据权利要求1或2所述的方法，其特征在于，所述对语音信号进行降噪处理，包括：

将变换到频域的语音信号划分至不同频带；

根据当前帧的先验SNR估计值计算当前帧的衰减增益因子；

根据所述衰减增益因子对语音信号进行降噪处理。

6.一种语音交互装置，其特征在于，用于设置有两个麦克风的语音交互设备，所述装置包括：

确定模块，用于根据两个麦克风分别接收到的唤醒信号确定音源方位，所述唤醒信号是预先设置的用于唤醒所述语音交互设备进行工作的信号；

收音模块，用于根据所述音源方位，通过两个麦克风定向接收语音信号，其中，两个麦克风正对所述音源方位进行所述语音信号的拾取，所述语音交互设备通过机械旋转结构控制自身进行旋转以调整两个麦克风的正对方位；

第一处理模块，用于对所述语音信号进行降噪处理，以便通过识别模型对降噪处理后的语音信号进行语音识别和语义分析，并生成相应的交互数据，所述识别模型包括声学模型、语言模型和发音字典，所述声学模型用于计算给定文字序列与语音信号的匹配程度，所述语言模型用于计算文字序列本身的概率，所述发音字典用于指示所述文字序列中各个字词的发音；

交互模块，用于根据所述交互数据执行相应的交互操作；

第二获取模块，用于获取交互错误信号，所述交互错误信号用于指示所述语音交互设备执行的交互操作与语音指令不匹配；

生成模块，用于根据所述交互错误信号生成坏案例信息，所述坏案例信息中包括上一次降噪处理后的语音信号和交互数据，所述坏案例信息用于对所述识别模型进行训练，在错误原因为分词错误的情况下，所述坏案例信息用于对所述语言模型进行训练，在所述错误原因为一词多音的情况下，所述坏案例信息用于对所述发音字典进行训练，在所述错误原因为语音文字匹配错误的情况下，所述坏案例信息用于对所述声学模型进行训练优化，所述错误原因通过对所述上一次降噪处理后的语音信号以及对应的语义分析结果进行错误分析得到。

7.根据权利要求6所述的装置，其特征在于，所述语音交互设备设置有扬声器，所述装置，还包括：

第一获取模块，用于获取所述扬声器当前播放音频的原始音频信号；

第二处理模块，用于根据所述原始音频信号，对所述语音信号进行回音消除处理，其中，回音消除处理用于消除所述语音信号中所述扬声器当前播放的音频；

8.根据权利要求6或7所述的装置，其特征在于，所述交互模块，包括：

9.根据权利要求8所述的装置，其特征在于，所述第二交互单元，用于：

对降噪处理后的语音信号进行分段，得到语音片段；

10.根据权利要求6或7所述的装置，其特征在于，所述第一处理模块包括降噪单元，所述降噪单元用于：

将变换到频域的语音信号划分至不同频带；

根据当前帧的先验SNR估计值计算当前帧的衰减增益因子；

根据所述衰减增益因子对语音信号进行降噪处理。

11.一种语音交互设备，其特征在于，所述语音交互设备包括两个麦克风、扬声器、处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至5任一所述的语音交互方法。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至5任一所述的语音交互方法。