CN104952450A

CN104952450A - 远场识别的处理方法和装置

Info

Publication number: CN104952450A
Application number: CN201510250527.4A
Authority: CN
Inventors: 魏建强; 崔玮玮
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-05-15
Filing date: 2015-05-15
Publication date: 2015-09-30
Anticipated expiration: 2035-05-15
Also published as: CN104952450B

Abstract

本发明提出一种远场识别的处理方法和装置，该远场识别的处理方法包括根据AEC模块采集的ATF，获取应用环境的ATF，所述AEC模块位于语音识别交互系统内，所述语音识别交互系统位于所述应用环境内；获取近场识别训练数据；根据所述应用环境的ATF和所述近场识别训练数据，得到对应所述应用环境的远场识别训练数据。该方法能够不需要用户额外参与，降低对用户的打扰，从而提升用户体验。

Description

远场识别的处理方法和装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种远场识别的处理方法和装置。

背景技术

远场识别技术,也即远距离识别技术，通常是为了解决说话人距离语音设备2米之外场景的语音识别请求。在远场识别时，会采用远场识别模型，远场识别模型是对远场识别训练数据进行训练后建立的。

现有技术中，在获取远场识别训练数据时，一种方法是直接录制方法，但是，这种方法效率以及数据覆盖率较差，并且无法利用已有的近场识别训练数据，为了解决直接录制方法的问题，还可以采用声学传递函数(Acoustic transfer function，ATF)估计方法。

ATF估计方法需要事先选择一些有代表性的应用环境，录制特定的参考信号，进而计算对应环境的ATF。为了提高远场识别模型的准确度，就需要尽可能多的获取不同应用环境的ATF，现有技术中通常需要用户配合，让用户在实际使用环境中播放特定信号以获取多样化的ATF估计。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种远场识别的处理方法，该方法可以不需要用户额外参与，降低对用户的打扰，从而提升用户体验。

本发明的另一个目的在于提出一种远场识别的处理装置。

为达到上述目的，本发明第一方面实施例提出的远场识别的处理方法，包括：根据AEC模块采集的ATF，获取应用环境的ATF，所述AEC模块位于语音识别交互系统内，所述语音识别交互系统位于所述应用环境内；获取近场识别训练数据；根据所述应用环境的ATF和所述近场识别训练数据，得到对应所述应用环境的远场识别训练数据。

本发明第一方面实施例提出的远场识别的处理方法，不需要额外的用户参与或播放特殊信号，整个工作完全基于AEC模块采集的ATF，可以不需要用户额外参与，降低对用户的打扰，从而提升用户体验。

为达到上述目的，本发明第二方面实施例提出的远场识别的处理装置，包括：第一获取模块，用于根据AEC模块采集的ATF，获取应用环境的ATF，所述AEC模块位于语音识别交互系统内，所述语音识别交互系统位于所述应用环境内；第二获取模块，用于获取近场识别训练数据；第三获取模块，用于根据所述应用环境的ATF和所述近场识别训练数据，得到对应所述应用环境的远场识别训练数据。

本发明第二方面实施例提出的远场识别的处理装置，不需要额外的用户参与或播放特殊信号，整个工作完全基于AEC模块采集的ATF，可以不需要用户额外参与，降低对用户的打扰，从而提升用户体验。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一实施例提出的远场识别的处理方法的流程示意图；

图2是本发明实施例中获取应用环境的ATF的流程示意图；

图3是本发明另一实施例提出的远场识别的处理方法的流程示意图；

图4是本发明另一实施例提出的远场识别的处理方法的流程示意图；

图5是本发明另一实施例提出的远场识别的处理装置的结构示意图；

图6是本发明另一实施例提出的远场识别的处理装置的结构示意图；

图7是本发明另一实施例提出的远场识别的处理装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本发明一实施例提出的远场识别的处理方法的流程示意图，该方法包括：

S11：根据AEC模块采集的ATF，获取应用环境的ATF，所述AEC模块位于语音识别交互系统内，所述语音识别交互系统位于所述应用环境内。

其中，为了消除干扰信号，语音识别交互系统中通常会包括声回波消除(Acoustic echocancellation，AEC)模块，AEC模块通常称为BargeIn功能模块。

干扰信号例如为语音识别交互系统产生的音乐，语音合成(text to speech，TTS)信号等。

语音识别交互系统包括：近场识别系统，远场识别系统等。

应用环境包括：家庭房间，会议室等。

以近场识别为例，在传统的系统中，近端用户都是在听到语音识别交互系统(简称为系统)的提示音，如“Beep”声后，才开将后续的近端语音送入识别器进行识别，这样近端语音是不会受到干扰信号的影响，从而影响语音识别性能。但是，如果在用户听到系统提示音之前就开始讲话了，那么系统提示音之前的近端语音就不会被识别系统所接受，这样就无法完整的识别用户的近端语音了。这种情况在实际系统中是经常会发生的，有些用户可能不等听到系统提示音就开始说话了。为了改善用户体验，对于具有BargeIn功能的系统，近端用户无需等听到系统提示音后才可以开始说话，这时由于识别接收到的是系统的干扰信号和近端语音混合在一起的声音，如果不做专门处理，识别系统也无法正确识别出近端语音的，因此，通过引入AEC技术来消除掉系统的干扰，这样就可以正确识别近端语音了，这极大的改善了语音交互系统的用户体验和可用性。AEC技术的核心思想是，在已知系统播放的干扰信号(比如，音乐和TTS信号等都是系统已知的)的情况下，AEC可以通过自适应滤波器追踪技术快速准确的学习从系统扬声器到麦克风的之间的ATF，进而通过将估计出的ATF和系统播放的干扰信号进行卷积来模拟出麦克风信号中的对应系统播放的干扰信号的成分，这样就可以很好的对其进行消除，从而只保留近端语音信号了。

因此，当语音识别交互系统中具有AEC模块(比如BargeIn功能模块)时，该AEC模块就可以获取到系统的扬声器到麦克风之间的ATF。进一步的，根据AEC模块采集的ATF可以获取到该AEC模块所在的应用环境的ATF。

其中，根据AEC模块采集的ATF获取应用环境的ATF时，可以是直接将AEC模块采集的ATF作为应用环境的ATF，或者，还可以是对AEC模块采集的多个ATF进行处理后获取。

可选的，参见图2，所述根据AEC模块采集的ATF，获取应用环境的ATF，包括：

S21：获取AEC模块采集的预设时间段内的多个ATF。

其中，基于AEC技术的BargeIn功能模块是一直在不停的实时追踪ATF，因此，可以获取多个ATF。

S22：获取每个ATF的质量值，将质量值最高的ATF确定为应用环境的ATF；或者，对所述多个ATF进行平滑处理，将平滑处理后的ATF确定为应用环境的ATF。

其中，可以根据AEC内部的一些准则获知估计出的ATF的质量高低，从而可以获取到质量最高的ATF。一些准则例如为自适应滤波器收敛标准，以消除干扰信号为例，假设指定如果消除量达到20dB的程度，认为自适应滤波器已经很好的逼近了实际房间环境，这时就认为此时的ATF估计可以被提取出来作为一次的采集样本。

另外，还可以对多个ATF进行平滑处理，平滑处理例如加权平均处理。

通过选择质量高的ATF或者对ATF进行平滑处理，可以提高ATF的质量，从而提高获取的远场识别训练数据的质量。

S12：获取近场识别训练数据。

其中，由于近场识别的使用非常广泛，已经积累了很多的近场识别训练数据。因此，可以使用已有的近场识别训练数据。

可选的，在使用时，可以是使用已有的所有近场识别训练数据。或者，也可以是从已有的所有近场识别训练数据中进行筛选，选择出部分近场识别训练数据。具体的筛选准则可以预先设置，例如，随机选择或者满足预设准则的最优化方式选择。

通过选择已有的所有数据或者选择部分数据，可以根据实际需求选择数据规模，满足不同的实际需求。

S13：根据所述应用环境的ATF和所述近场识别训练数据，得到对应所述应用环境的远场识别训练数据。

例如，可以根据该ATF对近场识别训练数据进行滤波运算，得到远场识别训练数据。

可选的，参见图3，所述根据所述应用环境的ATF和所述近场识别训练数据，得到对应所述应用环境的远场识别训练数据，包括：

S31：对所述应用环境的ATF和所述近场识别训练数据进行时域卷积运算或者频域相乘运算，得到对应所述应用环境的远场识别训练数据。

其中，ATF相当于滤波器函数，在滤波运算时可以将近场识别训练数据作为ATF的输入信号，输出信号就是远场识别训练数据。

在滤波时，可以采用时域滤波(时域卷积)或者频域滤波(频域相乘)。以时域滤波为例，远场识别训练数据y(t)可以表示为：

y(t)＝h(t)*x(t)，其中，h(t)是ATF函数，x(t)是近场识别训练数据，*表示卷积运算。

通过时域卷积运算或者频域相乘运算，可以实现不同方式的滤波。

在获取到远场识别训练数据后，另一实施例中，参见图4，该远场识别的处理方法还可以包括：

S14：根据所述远场识别训练数据，实时更新远场识别训练模型。

在获取到训练数据后，可以采用在线方式，实时更新训练模型。训练模型初始时可以采用已有的初始训练数据建立完成。

具体建立训练模块时，例如，首先进行特征提取，然后基于深度神经网络(Deep NeuralNetworks，DNN)模型进行识别模型的训练。

S15：根据实时更新后的远场识别训练模型进行远场识别。

在获取到远场识别训练模型后，可以基于该模型进行远场识别。

通过实时更新远场识别训练模型，可以逐渐提高识别性能和稳定性，提升用户体验。

本实施例中，不需要直接录制，因此，可以不需要花费大量的人力物力进行录制，从而提高效率，也避免对已有近场训练数据的浪费。本实施例中，不需要额外的用户参与或播放特殊信号，整个工作完全基于AEC模块采集的ATF，可以不需要用户额外参与，降低对用户的打扰，从而提升用户体验。本实施例有效地缓解了两种传统方法获得远场识别训练数据覆盖率和充分性不足的问题，随着使用范围的逐步扩大以及使用时长的逐步增加，整套系统和产品的远场识别性能会通过不断的在线学习和逐步迭代变得越来越好。

图5是本发明另一实施例提出的远场识别的处理装置的结构示意图，该装置50包括：

第一获取模块51，用于根据AEC模块采集的ATF，获取应用环境的ATF，所述AEC模块位于语音识别交互系统内，所述语音识别交互系统位于所述应用环境内；

语音识别交互系统包括：近场识别系统，远场识别系统等。

应用环境包括：家庭房间，会议室等。

可选的，参见图6，所述第一获取模块51包括：

第一单元511，用于获取AEC模块采集的预设时间段内的多个ATF；

第二单元512，用于获取每个ATF的质量值，将质量值最高的ATF确定为应用环境的ATF；或者，对所述多个ATF进行平滑处理，将平滑处理后的ATF确定为应用环境的ATF。

第二获取模块52，用于获取近场识别训练数据；

可选的，所述第二获取模块52具体用于：

获取已有的所有近场识别训练数据；或者，

从已有的所有近场识别训练数据中选择部分近场识别训练数据。具体的筛选准则可以预先设置，例如，随机选择或者满足预设准则的最优化方式选择。

第三获取模块53，用于根据所述应用环境的ATF和所述近场识别训练数据，得到对应所述应用环境的远场识别训练数据。

可选的，所述第三获取模块53具体用于：

对所述应用环境的ATF和所述近场识别训练数据进行时域卷积运算或者频域相乘运算，得到对应所述应用环境的远场识别训练数据。

另一实施例中，参见图7，该装置50还包括：

训练模块54，用于根据所述远场识别训练数据，实时更新远场识别训练模型；

识别模块55，用于根据实时更新后的远场识别训练模型进行远场识别。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种远场识别的处理方法，其特征在于，包括：

根据AEC模块采集的ATF，获取应用环境的ATF，所述AEC模块位于语音识别交互系统内，所述语音识别交互系统位于所述应用环境内；

获取近场识别训练数据；

根据所述应用环境的ATF和所述近场识别训练数据，得到对应所述应用环境的远场识别训练数据。

2.根据权利要求1所述的方法，其特征在于，所述根据所述应用环境的ATF和所述近场识别训练数据，得到对应所述应用环境的远场识别训练数据，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述根据AEC模块采集的ATF，获取应用环境的ATF，包括：

获取AEC模块采集的预设时间段内的多个ATF；

获取每个ATF的质量值，将质量值最高的ATF确定为应用环境的ATF；或者，对所述多个ATF进行平滑处理，将平滑处理后的ATF确定为应用环境的ATF。

4.根据权利要求1或2所述的方法，其特征在于，所述获取近场识别训练数据，包括：

获取已有的所有近场识别训练数据；或者，

从已有的所有近场识别训练数据中选择部分近场识别训练数据。

5.根据权利要求1或2所述的方法，其特征在于，还包括：

根据所述远场识别训练数据，实时更新远场识别训练模型；

根据实时更新后的远场识别训练模型进行远场识别。

6.一种远场识别的处理装置，其特征在于，包括：

第一获取模块，用于根据AEC模块采集的ATF，获取应用环境的ATF，所述AEC模块位于语音识别交互系统内，所述语音识别交互系统位于所述应用环境内；

第二获取模块，用于获取近场识别训练数据；

第三获取模块，用于根据所述应用环境的ATF和所述近场识别训练数据，得到对应所述应用环境的远场识别训练数据。

7.根据权利要求6所述的装置，其特征在于，所述第三获取模块具体用于：

8.根据权利要求6或7所述的装置，其特征在于，所述第一获取模块包括：

第一单元，用于获取AEC模块采集的预设时间段内的多个ATF；

第二单元，用于获取每个ATF的质量值，将质量值最高的ATF确定为应用环境的ATF；或者，对所述多个ATF进行平滑处理，将平滑处理后的ATF确定为应用环境的ATF。

9.根据权利要求6或7所述的装置，其特征在于，所述第二获取模块具体用于：

获取已有的所有近场识别训练数据；或者，

10.根据权利要求6或7所述的装置，其特征在于，还包括：

训练模块，用于根据所述远场识别训练数据，实时更新远场识别训练模型；

识别模块，用于根据实时更新后的远场识别训练模型进行远场识别。