CN111179909A

CN111179909A - 一种多麦远场语音唤醒方法及系统

Info

Publication number: CN111179909A
Application number: CN201911282202.9A
Authority: CN
Inventors: 贾小月; 贺东华; 胡君; 方标新; 刘丹
Original assignee: Aisino Corp
Current assignee: Aisino Corp
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2020-05-19
Anticipated expiration: 2039-12-13
Also published as: CN111179909B

Abstract

本发明公开了一种多麦远场语音唤醒方法及系统，所述方法包括：采集获得多麦远场数据；根据所述多麦远场数据通过预设规则提取获得多麦远场特征；将所述多麦远场特征输入至预先训练的远场声学模型中，获得对应每个音素的标签；将所述每个音素的标签通过加权自动状态机进行识别，通过识别后生成唤醒参数；将所述唤醒参数与预设的唤醒阈值进行对比，若超过所述唤醒阈值，则执行唤醒任务；所述方法及系统去除了传统的信号处理模块，又保证了唤醒能力的不下降，大大的减少了开发成本，减轻了语音控制智能硬件的造价成本，有利于语音控制智能硬件的发展。

Description

一种多麦远场语音唤醒方法及系统

技术领域

本发明涉及仿真控制领域，更具体地，涉及一种多麦远场语音唤醒方法及系统。

背景技术

智能硬件的潮流带动了远场唤醒的需求，比如百度音箱和小雅音箱，在与其交互时，用户都需要先说一个唤醒词唤醒它，比如小度小度，一般人们都是在远场使用它，即使用远场语音唤醒。远场语音唤醒有两条解决方案：第一个方案是训练近场唤醒声学模型，多麦语音信号经过传统的信号处理算法声源定位，语音增强去混响，成单路近场语音，进入近场唤醒声学模型，近场唤醒打分模块，判断是否唤醒。这种方案对定位算法算法和语音增强算法要求很高，唤醒片段一般很短，要依靠这么少的片段定位，并且做噪声估计，难度很大。第二个方案是训练单路远场唤醒声学模型，多麦语音信号取其中能量最大的一路，进入远场唤醒声学模型，远场唤醒模块打分，判断是否唤醒。这种方案想法非常简单，相当于损失多麦信息，把压力完全交给了声学模型，效果较差。

发明内容

为了解决背景技术存在的现有的远场语音唤醒算法要求高、实现难度大、效果差的问题，本发明提供了一种多麦远场语音唤醒方法及系统；所述方法及系统通过近场数据模拟仿真远场数据，通过近场数据训练获得音素标签，进而训练获得远场声学模型，通过远场声学模型实现远场语音唤醒；所述一种多麦远场语音唤醒方法包括：

采集获得多麦远场数据；

根据所述多麦远场数据通过预设规则提取获得多麦远场特征；

将所述多麦远场特征输入至预先训练的远场声学模型中，获得对应每个音素的标签；

将所述每个音素的标签通过加权自动状态机进行识别，通过识别后生成唤醒参数；

将所述唤醒参数与预设的唤醒阈值进行对比，若超过所述唤醒阈值，则执行唤醒任务。

进一步的，所述根据所述多麦远场数据通过预设规则提取获得多麦远场特征，包括：

将所述多麦远场数据中每个麦克风对应的远场音频数据通过其对应的预设的空间滤波器分别进行滤波，获得多路滤波音频；

对所述多路滤波音频进行特征提取，获得每路滤波音频对应的音频特征集合；所述音频特征集合包括按时刻排列的至少一个音频特征；

对所述每路滤波音频对应的音频特征集合中相同时刻的音频特征进行合并，获得一个目标音频特征集合。

进一步的，所述预先训练的远场声学模型的训练方法包括：

根据采集的近场数据仿真获得多麦远场数据；

对所述多麦远场数据进行特征提取，获得多麦远场特征；

根据采集的近场数据通过预设规则迭代训练获得近场声学训练模型，进而获得近场声学训练模型下的音频标签；所述近场声学训练模型下的音频标签与远程声学模型的音频标签相同；

根据所述多麦远场特征以及所述音频标签训练获得远场声学模型。

进一步的，所述根据采集的近场数据仿真获得多麦远场数据，包括：

采集获取近场数据；

在所述近场数据的声源及麦克风附近随机设置反射面，并确定所述反射面与所述声源及麦克风的相对位置；

根据反射面通过镜像法模拟远场声源到麦克风的远场数据；

所述远场数据的计算方式包括：

其中，i为不小于2的正整数，y_i为第i个麦克风对应的远场数据；h_i为第i个麦克风对应的卷积冲击响应；s为近场数据，n_i为第i个麦克风的噪声。

进一步的，对所述多麦远场数据进行特征提取获得多麦远场特征，包括：

通过预先设置的空间滤波器对所述对应每个麦克风的多麦远场数据进行空间滤波，获得多组滤波音频；

对所述每路滤波音频对应的音频特征集合中相同时刻的音频特征进行合并，获得一个目标音频特征集合，即为多麦远场特征。

进一步的，通过预先设置的空间滤波器对所述对应每个麦克风的多麦远场数据进行空间滤波，获得多组滤波音频，包括：

通过下述公式计算获得滤波音频：

其中，i为麦克风序号，且为不小于2的正整数；j为空间滤波器的序号，j为不小于2且不大于i的正整数；

y_i(f)为i个麦克风收集到的频域中的远场数据；w_ji为预先设定的j个空间滤波器、第i个麦克风的权重系数；Z_j(f)是经由第j个空间滤波器对该空间滤波器对应的麦克风收集到的频域中的远场数据进行滤波后得到的滤波音频。

进一步的，根据采集的近场数据通过预设规则迭代训练获得近场声学训练模型，包括：

将所述近场数据的音频分帧，根据梅尔倒谱系数提取特征；

将所述近场数据音频按字典展开成音素，并将所述展开后的音频按初始分割方式在时间上进行分割，并对分割后的每部分音频标记音素标签；

将对应的特征以及音素标签输入至时延神经网络tdnn训练获得初始模型；

根据维特比算法对所示初始模型进行强制对齐，获得新的分割方式对音频进行重新分割，获得新的音素标签；

根据新的音素标签以及对应的特征重新训练获得新的模型；

逐次迭代直到两轮分割的差别小于预设阈值时，停止进行新的训练；

取最新的训练模型作为近场声学训练模型。

所述一种多麦远场语音唤醒系统包括：

数据采集单元，所述数据采集单元用于采集获得多麦远场数据；

特征提取单元，所述特征提取单元用于根据所述多麦远场数据通过预设规则提取获得多麦远场特征；

标签获取单元，所述标签获取单元用于将所述多麦远场特征输入至预先训练的远场声学模型中，获得对应每个音素的标签；

唤醒参数生成单元，所述唤醒参数生成单元用于将所述每个音素的标签通过加权自动状态机进行识别，通过识别后生成唤醒参数；

唤醒识别单元，所述唤醒识别单元用于将所述唤醒参数与预设的唤醒阈值进行对比，若超过所述唤醒阈值，则执行唤醒任务。

进一步的，所述特征提取单元用于将所述多麦远场数据中每个麦克风对应的远场音频数据通过其对应的预设的空间滤波器分别进行滤波，获得多路滤波音频；

所述特征提取单元用于对所述多路滤波音频进行特征提取，获得每路滤波音频对应的音频特征集合；所述音频特征集合包括按时刻排列的至少一个音频特征；

所述特征提取单元用于对所述每路滤波音频对应的音频特征集合中相同时刻的音频特征进行合并，获得一个目标音频特征集合。

进一步的，所述系统包括远场声学模型训练单元；所述远场声学模型训练单元用于训练所述标签获取单元使用的所述远场声学模型；说是远场声学模型训练单元包括数据仿真模块、特征提取模块、近场模型训练模块以及远场模型生成模块；

所述数据仿真模块用于根据采集的近场数据仿真获得多麦远场数据；

所述特征提取模块用于对所述多麦远场数据进行特征提取，获得多麦远场特征；

所述近场模型训练模块用于根据采集的近场数据通过预设规则迭代训练获得近场声学训练模型，进而获得近场声学训练模型下的音频标签；所述近场声学训练模型下的音频标签与远程声学模型的音频标签相同；

所述远场模型生成模块用于根据所述多麦远场特征以及所述音频标签训练获得远场声学模型。

进一步的，所述数据仿真模块用于采集获取近场数据；

所述数据仿真模块用于在所述近场数据的声源及麦克风附近随机设置反射面，并确定所述反射面与所述声源及麦克风的相对位置；

所述数据仿真模块用于根据反射面通过镜像法模拟远场声源到麦克风的远场数据；

所述远场数据的计算方式包括：

进一步的，所述特征提取模块用于通过预先设置的空间滤波器对所述对应每个麦克风的多麦远场数据进行空间滤波，获得多组滤波音频；

所述特征提取模块用于对所述多路滤波音频进行特征提取，获得每路滤波音频对应的音频特征集合；所述音频特征集合包括按时刻排列的至少一个音频特征；

所述特征提取模块用于对所述每路滤波音频对应的音频特征集合中相同时刻的音频特征进行合并，获得一个目标音频特征集合，即为多麦远场特征。

进一步的，所述近场模型训练模块用于将所述近场数据的音频分帧，根据梅尔倒谱系数提取特征；

所述近场模型训练模块用于将所述近场数据音频按字典展开成音素，并将所述展开后的音频按初始分割方式在时间上进行分割，并对分割后的每部分音频标记音素标签；

所述近场模型训练模块用于将对应的特征以及音素标签输入至时延神经网络tdnn训练获得初始模型；

所述近场模型训练模块用于根据维特比算法对所示初始模型进行强制对齐，获得新的分割方式对音频进行重新分割，获得新的音素标签；

所述近场模型训练模块用于根据新的音素标签以及对应的特征重新训练获得新的模型；

取最新的训练模型作为近场声学训练模型。

本发明的有益效果为：本发明的技术方案，给出了一种多麦远场语音唤醒方法及系统；所述方法及系统通过近场数据模拟仿真远场数据，通过近场数据训练获得音素标签，进而训练获得远场声学模型，通过远场声学模型实现远场语音唤醒；所述方法及系统去除了传统的信号处理模块，又保证了唤醒能力的不下降，大大的减少了开发成本，减轻了语音控制智能硬件的造价成本，有利于语音控制智能硬件的发展。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为本发明具体实施方式的一种多麦远场语音唤醒方法的流程图；

图2为本发明具体实施方式的远场声学模型训练方法的流程图；

图3为本发明具体实施方式的一种多麦远场语音唤醒系统的结构图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

图1为本发明具体实施方式的一种多麦远场语音唤醒方法的流程图；如图1所示，所示方法包括：

步骤110，采集获得多麦远场数据；

本实施例中，是在多个麦克风采集下，对远场语音音频进行分析、识别并唤醒其他关联设备的一种方法；所述多麦远场数据，是指多组由不同麦克风采集的且声源距离麦克风距离较远的音频数据；常见的，例如智能音响识别用户声音并根据指令唤醒操作。

步骤120，根据所述多麦远场数据通过预设规则提取获得多麦远场特征；

步骤130，将所述多麦远场特征输入至预先训练的远场声学模型中，获得对应每个音素的标签；

本实施例中，使用的远场声学模型为预先训练获得的，所述远场声学模型预先训练的方法如图2所示，见后详述。

步骤140，将所述每个音素的标签通过加权自动状态机进行识别，通过识别后生成唤醒参数；

步骤150，将所述唤醒参数与预设的唤醒阈值进行对比，若超过所述唤醒阈值，则执行唤醒任务。

图2为本发明具体实施方式的远场声学模型训练方法的流程图；如图 2所示，所述方法包括：

步骤210，根据采集的近场数据仿真获得多麦远场数据；

本实施例中，通过近场仿真获得多麦远场数据的具体方法为：

采集获取近场数据；所述近场数据可选取适宜的开源数据，相较于远场数据更易获得。

根据反射面通过镜像法模拟远场声源到麦克风的远场数据；

例如近场数据中的声源和麦克风处于某一房间内，房间的四壁相较于声源和麦克风来说都属于反射面。通过声源直接传向麦克风的声音为直达声，通过反射面反射的声音为反射声，根据镜像法反射声所走过的路径，相当于在反射面的另一侧较远位置(声源较于反射面的对称点)的传来的远场音频数据，通过此原理，模拟声源到麦克风的远场数据。

所述远场数据的计算方式包括：

步骤220，对所述多麦远场数据进行特征提取，获得多麦远场特征；

具体的，特征提取的方法为：

通过下述公式计算获得滤波音频：

步骤230，根据采集的近场数据通过预设规则迭代训练获得近场声学训练模型，进而获得近场声学训练模型下的音频标签；所述近场声学训练模型下的音频标签与远程声学模型的音频标签相同；

具体的，近场声学训练模型的训练方法为：

将所述近场数据的音频分帧，根据梅尔倒谱系数提取特征；

以本实施例为例，所述的音频可以设置为25ms一帧；帧移10ms(即由15ms重叠)，梅尔倒谱系数设置为40维；

根据新的音素标签以及对应的特征重新训练获得新的模型；

取最新的训练模型作为近场声学训练模型。

步骤240，根据所述多麦远场特征以及所述音频标签训练获得远场声学模型。

获得的远场声学模型即可应用到如步骤130所述的方法中。

图3为本发明具体实施方式的一种多麦远场语音唤醒系统的结构图，如图3所示，所述系统包括：

数据采集单元310，所述数据采集单元310用于采集获得多麦远场数据；

特征提取单元320，所述特征提取单元320用于根据所述多麦远场数据通过预设规则提取获得多麦远场特征；

进一步的，所述特征提取单元320用于将所述多麦远场数据中每个麦克风对应的远场音频数据通过其对应的预设的空间滤波器分别进行滤波，获得多路滤波音频；

所述特征提取单元320用于对所述多路滤波音频进行特征提取，获得每路滤波音频对应的音频特征集合；所述音频特征集合包括按时刻排列的至少一个音频特征；

所述特征提取单元320用于对所述每路滤波音频对应的音频特征集合中相同时刻的音频特征进行合并，获得一个目标音频特征集合。

标签获取单元330，所述标签获取单元330用于将所述多麦远场特征输入至预先训练的远场声学模型中，获得对应每个音素的标签；

唤醒参数生成单元340，所述唤醒参数生成单元340用于将所述每个音素的标签通过加权自动状态机进行识别，通过识别后生成唤醒参数；

唤醒识别单元350，所述唤醒识别单元350用于将所述唤醒参数与预设的唤醒阈值进行对比，若超过所述唤醒阈值，则执行唤醒任务。

进一步的，所述系统包括远场声学模型训练单元360；所述远场声学模型训练单元360用于训练所述标签获取单元330使用的所述远场声学模型；说是远场声学模型训练单元360包括数据仿真模块、特征提取模块、近场模型训练模块以及远场模型生成模块；

进一步的，所述数据仿真模块用于采集获取近场数据；

所述远场数据的计算方式包括：

取最新的训练模型作为近场声学训练模型。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/ 或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。本说明书中涉及到的步骤编号仅用于区别各步骤，而并不用于限制各步骤之间的时间或逻辑的关系，除非文中有明确的限定，否则各个步骤之间的关系包括各种可能的情况。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。例如，在权利要求书中所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本公开的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者系统程序(例如，计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本公开进行说明而不是对本公开进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干系统的单元权利要求中，这些系统中的若干个可以是通过同一个硬件项来具体体现。

以上所述仅是本公开的具体实施方式，应当指出的是，对于本领域的普通技术人员来说，在不脱离本公开精神的前提下，可以作出若干改进、修改、和变形，这些改进、修改、和变形都应视为落在本申请的保护范围内。

Claims

1.一种多麦远场语音唤醒方法，其特征在于，所述方法包括：

采集获得多麦远场数据；

2.根据权利要求1所述的方法，其特征在于，所述根据所述多麦远场数据通过预设规则提取获得多麦远场特征，包括：

3.根据权利要求1所述的方法，其特征在于：所述预先训练的远场声学模型的训练方法包括：

根据采集的近场数据仿真获得多麦远场数据；

对所述多麦远场数据进行特征提取，获得多麦远场特征；

4.根据权利要求3所述的方法，其特征在于，所述根据采集的近场数据仿真获得多麦远场数据，包括：

采集获取近场数据；

根据反射面通过镜像法模拟远场声源到麦克风的远场数据；

所述远场数据的计算方式包括：

5.根据权利要求3所述的方法，其特征在于，对所述多麦远场数据进行特征提取获得多麦远场特征，包括：

6.根据权利要求5所述的方法，其特征在于，通过预先设置的空间滤波器对所述对应每个麦克风的多麦远场数据进行空间滤波，获得多组滤波音频，包括：

通过下述公式计算获得滤波音频：

7.根据权利要求3所述的方法，其特征在于，根据采集的近场数据通过预设规则迭代训练获得近场声学训练模型，包括：

将所述近场数据的音频分帧，根据梅尔倒谱系数提取特征；

根据新的音素标签以及对应的特征重新训练获得新的模型；

取最新的训练模型作为近场声学训练模型。

8.一种多麦远场语音唤醒系统，其特征在于，所述系统包括：

9.根据权利要求8所述的系统，其特征在于：

所述特征提取单元用于将所述多麦远场数据中每个麦克风对应的远场音频数据通过其对应的预设的空间滤波器分别进行滤波，获得多路滤波音频；

10.根据权利要求8所述的系统，其特征在于：所述系统包括远场声学模型训练单元；所述远场声学模型训练单元用于训练所述标签获取单元使用的所述远场声学模型；说是远场声学模型训练单元包括数据仿真模块、特征提取模块、近场模型训练模块以及远场模型生成模块；

11.根据权利要求10所述的系统，其特征在于：

所述数据仿真模块用于采集获取近场数据；

所述远场数据的计算方式包括：

12.根据权利要求10所述的系统，其特征在于：

所述特征提取模块用于通过预先设置的空间滤波器对所述对应每个麦克风的多麦远场数据进行空间滤波，获得多组滤波音频；

13.根据权利要求10所述的系统，其特征在于：

所述近场模型训练模块用于将所述近场数据的音频分帧，根据梅尔倒谱系数提取特征；

取最新的训练模型作为近场声学训练模型。