CN107195316A

CN107195316A - 用于远场语音识别的训练数据准备系统及方法

Info

Publication number: CN107195316A
Application number: CN201710292166.9A
Authority: CN
Inventors: 冯大航; 陈孝良; 陈日林; 朱振岭
Original assignee: BEIJING WISDOM TECHNOLOGY Co Ltd
Current assignee: BEIJING WISDOM TECHNOLOGY Co Ltd; Beijing SoundAI Technology Co Ltd
Priority date: 2017-04-28
Filing date: 2017-04-28
Publication date: 2017-09-22
Anticipated expiration: 2037-04-28
Also published as: CN107195316B

Abstract

本发明提供了一种用于远场语音识别的训练数据准备系统，包括：多个录音设备，分别用于录取音频信号；检测设备，用于检测第一音频信号和第二音频信号并确定各录音设备的录音开始时刻和结束时刻；以及，处理设备，用于处理所述开始时刻、结束时刻关系，确定各录音设备的采样率比值，进而根据一台录音设备的标注内容，生成其他录音设备的标注内容；其中，所述第一、二音频信号分别为在录音开始时、录音结束时录音设备录取的音频信号。本发明还提供了一种用于远场语音识别的训练数据准备方法。本发明实现了多台录音设备数据自动对齐，提高了远场录音设备标注精度，避免了重复标注，减少了人力成本，极大的提高了效率。

Description

用于远场语音识别的训练数据准备系统及方法

技术领域

本发明涉及语音识别技术领域，尤其涉及一种用于远场语音识别的训练数据准备系统及方法。

背景技术

近年来，基于深度神经元网络的语音识别技术已经越来越成熟，该技术需要利用大量的语音数据训练深度神经元网络从而获取声学模型。因此训练数据的好坏直接影响语音识别的准确率。伴随着各种智能设备的兴起，远场语音识别的需求也越来越强烈，为了提高远场语音识别准确率，需要利用远场语音来训练声学模型，因此远场语音识别数据的准备就变的非常重要。

在录取远场语音数据时，为了减少录制人工成本并且同时获得更多有效数据，一般在录取语音时，在说话人的周围不同距离处，放上多台录音设备，这样说话人只需要说一次，就可以获得各个距离处的多份数据。但在房间中，由于混响以及干扰噪声的存在，麦克风距离说话人越远，采集到语音数据的信噪比越低；并且多台设备的采样率会有微小差异，当录取时间较长时，各台录音设备收集到的数据是没办法对齐的，这就给后期的语音标注增加了很大的工作量及难度。

发明内容

(一)要解决的技术问题

鉴于上述技术问题，本发明提供了一种用于远场语音识别的训练数据准备系统及方法，实现了多台录音设备的数据自动对齐，只需对其中一台设备进行标注，其他设备就可以使用该标注文本，这样既可以提高远场录音设备标注的精度，同时也可以避免对多台设备的录音数据进行重复标注，减少了人力成本，极大的提高了效率。

(二)技术方案

根据本发明的一个方面，提供了一种用于远场语音识别的训练数据准备方法，包括：

多个录音设备，分别用于录取音频信号；

检测设备，用于检测各录音设备所录取的音频信号中的所述第一音频信号和第二音频信号并确定各录音设备的录音开始时刻和结束时刻；以及，

处理设备，用于处理所述开始时刻、结束时刻关系，确定各录音设备的采样率比值，进而根据一台录音设备的标注内容，生成其他录音设备的标注内容；其中，

所述第一音频信号为在录音开始时，录音设备接收并录取到的一音频信号，所述第二音频信号为在录音结束时，录音设备接收并录取到的一音频信号。

优选地，所述第一音频信号和第二音频信号为自相关性chirp信号、谐频信号或三角波信号。

步骤A、录音结束后，分别检测各录音设备所录的音频文件中的第一音频信号和第二音频信号来确定各录音设备的录音开始时刻和结束时刻；

步骤B、根据各录音设备所录的音频文件的开始时刻、结束时刻关系，确定各录音设备的采样率比值，进而根据其中一台录音设备的标注内容，生成所有录音设备的标注内容；其中，

优选地，所述第一音频信号和第二音频信号为具有自相关性的chirp信号、谐频信号或三角波信号。

优选地，所述第一音频信号和第二音频信号均为chirp信号，其满足以下表达式：

x(t)＝Acos(2π(f₀+kt)+φ₀)

式中，A表示chirp信号的幅度，f₀表示chirp信号的起始频率，k表示chirp信号的频率变化率，φ₀表示chirp信号的相位。

优选地，所述第一音频信号的参数满足：f₀为2000Hz，k为0.75；所述第二音频信号的参数满足：f₀为8000Hz，k为-0.75，以与所述第一音频信号进行区分。

优选地，通过匹配滤器方法分别检测各录音设备所录的音频文件中的第一音频信号和第二音频信号来确定各录音设备的录音开始时刻和结束时刻。

优选地，所述步骤A包括：

子步骤A1、对多个录音设备中的第1录音设备所录的音频文件，根据录音开始时的chirp信号构建匹配滤波器h_beg(t)＝x(T-t)，其中x(t)＝Acos(2π(f₀+kt)+φ₀)为chirp信号，T为chirp信号的时间长度；

子步骤A2、将所述第1录音设备所录的整个音频文件的音频信号y(t)和匹配滤波器h_beg(t)做卷积运算得到r(t)＝y(t)*h_beg(t)，其中*为卷积运算；

子步骤A3、卷积运算得到的r(t)信号的最大值对应该第1录音设备录音开始时chirp信号的位置，即录音的开始时刻，记为

子步骤A4、对所述第1录音设备所录的音频文件，根据录音结束时的chirp信号，重复上述步骤A1至A3，检测到第1录音设备录音结束时的chirp信号的位置，即录音的结束时刻，标记为

优选地，所述步骤A还包括：

子步骤A5、对K个录音设备中第2至第k录音设备所录的音频文件分别重复所述子步骤A1至A4，得到各第2至第k录音设备的音频文件的录音开始时刻和录音结束时刻其中k＝2,3,...,K，K为录音设备的总个数。

优选地，若所述多个录音设备中的第1录音设备在时刻T₁ ¹到时刻的录音内容已知，则在所述多个录音设备中的第k录音设备中，该已知录录音内容所对应的时刻为T₁ ^k到满足以下关系式：

(三)有益效果

从上述技术方案可以看出，本发明用于远场语音识别的训练数据准备系统及方法至少具有以下有益效果其中之一：

(1)用于远场语音识别的训练数据准备系统及方法，实现了将多台录音设备的自动数据对齐，只需对其中一台设备进行标注，其他设备就可以使用该标注文本，提高了远场录音设备标注的精度，同时也避免了对多台设备的录音数据进行重复标注，减少了人力成本，极大的提高了效率。

(2)用于远场语音识别的训练数据准备系统，利用检测设备确定录音开始时刻和结束时刻，利用处理设备处理时刻关系确定各录音设备的采样率比值，进而根据一台录音设备的标注内容，生成所有录音设备的标注内容，系统结构简单，实现方便。

附图说明

通过附图所示，本发明的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的装置。并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本发明的主旨。

图1为依据本发明实施例用于远场语音识别的训练数据准备方法流程图。

图2为依据本发明实施例录音设备录取的音频信号图。

图3为依据本发明实施例匹配滤波器信号图。

图4为依据本发明实施例滤波后的音频信号图。

图5为依据本发明实施例用于远场语音识别的训练数据准备系统录音场景示意图。

图6为依据本发明实施例录音设备1和录音设备2录取的音频信号图。

图7为依据本发明实施例录音设备1和录音设备2录取的信号语谱图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，在附图或说明书描述中，相似或相同的部分都使用相同的图号。附图中未绘示或描述的实现方式，为所属技术领域中普通技术人员所知的形式。另外，虽然本文可提供包含特定值的参数的示范，但应了解，参数无需确切等于相应的值，而是可在可接受的误差容限或设计约束内近似于相应的值。实施例中提到的方向用语，例如“上”、“下”、“前”、“后”、“左”、“右”等，仅是参考附图的方向。因此，使用的方向用语是用来说明并非用来限制本发明的保护范围。

本发明实施例提供了一种用于远场语音识别的训练数据准备方法，能够实现多台录音设备自动数据对齐，图1为依据本发明实施例用于远场语音识别的训练数据准备方法流程图。请参照图1，本发明实施例用于远场语音识别的训练数据准备方法，只需要对所述多台录音设备的其中一台设备进行标注，其他设备就可以使用该标注文本，这样既可以提高远场录音设备标注的精度，同时也可以避免对多台设备的录音数据进行重复标注。

本实施例用于远场语音识别的训练数据准备方法，包括：

具体的，在录音开始时，可通过发音设备发出第一音频信号；优选的，该第一音频信号具有较强的自相关性。

所述第一音频信号可为chirp信号、谐频信号及三角波信号，优选为chirp信号，其数学表达式为：

x(t)＝Acos(2π(f₀+kt)+φ₀)

其中，A表示chirp信号的幅度，f₀表示chirp信号的起始频率，k表示chirp信号的频率变化率，φ₀表示chirp信号的相位。

进一步的，针对语音识别应用的情况，一般信号的采样频率为16kHz，因此可以选取f₀为2000Hz，k为0.75，时间长度为500ms。

在录音结束时，可通过发音设备发出第二音频信号，该第二音频信号可为chirp信号、谐频信号及三角波信号，优选为chirp信号；

为了将该第二音频信号与录音开始时的chirp信号进行区分，可以将该第二音频信号的参数选为f₀为8000Hz，k为-0.75，时间长度为500ms，请参照图2所示。

录音结束后，通过匹配滤波器方法检测录音中的第一音频信号和第二音频信号来确定录音的开始时刻和结束时刻，请参照图3-4所示。

其中，具体检测方法如下：

A1、对多个录音设备中的第1录音设备所录的音频文件，根据录音开始时的chirp信号构建匹配滤波器h_beg(t)＝x(T-t)，其中x(t)＝Acos(2π(f₀+kt)+φ₀)为chirp信号，参数选取方法和录音开始时第一音频信号一样，T为chirp信号的时间长度，此处为500ms。

A2、将所述第1录音设备录取的整个音频文件的音频信号y(t)和匹配滤波器h_beg(t)做卷积运算得到r(t)＝y(t)*h_beg(t)，其中*为卷积运算。其中，所述整个音频文件的音频信号为录音开始时至录音结束时这段时间内的所有音频信号，包括录音开始时的第一音频信号、录音结束时的第二音频信号、及中间音频信号，该中间音频信号为所述第一音频信号和第二音频信号之间的音频信号。

A3、所述卷积运算得到的r(t)信号的最大值所对应该第1录音设备录音开始时chirp信号的位置，即录音的开始时刻，标记为具体结果如下图4所示，从图中可以看出卷积后的信号有一个明显的峰值，对应的时刻即为录音开始时chirp信号的位置

A4、对所述第1录音设备所录的音频文件，根据录音结束时的chirp信号，重复上述步骤A1至A3，检测到第1录音设备录音结束时的chirp信号的位置，即录音的结束时刻，标记为

A5、对K个录音设备中第2至第k录音设备所录的音频文件分别重复所述步骤A1至A4，得到各第2至第k录音设备的音频文件的录音开始时刻和录音结束时刻其中k＝2,3,...,K，K为录音设备的总个数。

上述训练数据准备方法及检测方法是以第一音频信号、第二音频信号均为chirp信号进行示例说明，但本领域技术人员应当可以理解的是，第一音频信号、第二音频信号并不限于chirp信号，还可以替换为谐频信号、三角波信号等其他自相关性较强的信号。

根据各录音设备所录取的音频文件的开始时刻、结束时刻关系，得到各录音设备的采样率比值，进而根据一台录音设备的标注内容，生成所有录音设备的标注内容。

具体的，若所述K个录音设备中的第1录音设备在时刻T₁ ¹到时刻的录音内容已知，则在所述K个录音设备中的第k录音设备中，该已知录录音内容所对应的时刻为T₁ ^k到满足以下关系式：

例如第1录音设备的标注内容已知，在时刻T₁ ¹到时刻说话内容为“我要听刘德华的歌”，则在第2录音设备中，该内容所对应的时刻为T₁ ²到计算如下

另外，本发明实施例还提供了一种用于远场语音识别的训练数据准备系统。本实施例用于远场语音识别的训练数据准备系统，包括：

多个录音设备，分别用于录取音频信号；

进一步的，该第一音频信号可由发音设备在录音开始时发出，该第二音频信号可由发音设备在录音结束时发出；更具体而言，所述第一音频信号和第二音频信号为具有自相关性的chirp信号、谐频信号或三角波信号。所述发音设备包括手机、音响等。

下面结合实例介绍采用本发明实施例提供的用于远场语音识别的训练数据准备系统及方法进行数据对齐的效果。

如图5所示，在一个录音房间中说话人在房间中心，录音设备1位于说话人0.1m处，录音设备2位于说话人2米处，通过上述方法对两端音频进行对齐，得到两台录音设备中的一段内容如图6-7所示，从图中可以看出，两段音频是完全对齐的。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于远场语音识别的训练数据准备系统，包括：

多个录音设备，分别用于录取音频信号；

2.根据权利要求1所述的用于远场语音识别的训练数据准备系统，其中，所述第一音频信号和第二音频信号为自相关性chirp信号、谐频信号或三角波信号。

3.一种用于远场语音识别的训练数据准备方法，包括：

4.根据权利要求3所述的用于远场语音识别的训练数据准备方法，其中，所述第一音频信号和第二音频信号为具有自相关性的chirp信号、谐频信号或三角波信号。

5.根据权利要求4所述的用于远场语音识别的训练数据准备方法，其中，所述第一音频信号和第二音频信号均为chirp信号，其满足以下表达式：

x(t)＝Acos(2π(f₀+kt)+φ₀)

6.根据权利要求5所述的用于远场语音识别的训练数据准备方法，其中，所述第一音频信号的参数满足：f₀为2000Hz，k为0.75；所述第二音频信号的参数满足：f₀为8000Hz，k为-0.75，以与所述第一音频信号进行区分。

7.根据权利要求3所述的用于远场语音识别的训练数据准备方法，其中，通过匹配滤器方法分别检测各录音设备所录的音频文件中的第一音频信号和第二音频信号来确定各录音设备的录音开始时刻和结束时刻。

8.根据权利要求7所述的用于远场语音识别的训练数据准备方法，其中，所述步骤A包括：

9.根据权利要求8所述的用于远场语音识别的训练数据准备方法，其中，所述步骤A还包括：

10.根据权利要求9所述的用于远场语音识别的训练数据准备方法，其中，若所述多个录音设备中的第1录音设备在时刻T₁ ¹到时刻的录音内容已知，则在所述多个录音设备中的第k录音设备中，该已知录录音内容所对应的时刻为T₁ ^k到满足以下关系式：

<mrow> <msubsup> <mi>T</mi> <mn>1</mn> <mi>k</mi> </msubsup> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>T</mi> <mrow> <mi>e</mi> <mi>n</mi> <mi>d</mi> </mrow> <mn>2</mn> </msubsup> <mo>-</mo> <msubsup> <mi>T</mi> <mrow> <mi>b</mi> <mi>e</mi> <mi>g</mi> </mrow> <mn>2</mn> </msubsup> </mrow> <mrow> <msubsup> <mi>T</mi> <mrow> <mi>e</mi> <mi>n</mi> <mi>d</mi> </mrow> <mn>1</mn> </msubsup> <mo>-</mo> <msubsup> <mi>T</mi> <mrow> <mi>b</mi> <mi>e</mi> <mi>g</mi> </mrow> <mn>1</mn> </msubsup> </mrow> </mfrac> <mo>*</mo> <msubsup> <mi>T</mi> <mn>1</mn> <mn>1</mn> </msubsup> <mo>,</mo> <msubsup> <mi>T</mi> <mn>2</mn> <mi>k</mi> </msubsup> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>T</mi> <mrow> <mi>e</mi> <mi>n</mi> <mi>d</mi> </mrow> <mn>2</mn> </msubsup> <mo>-</mo> <msubsup> <mi>T</mi> <mrow> <mi>b</mi> <mi>e</mi> <mi>g</mi> </mrow> <mn>2</mn> </msubsup> </mrow> <mrow> <msubsup> <mi>T</mi> <mrow> <mi>e</mi> <mi>n</mi> <mi>d</mi> </mrow> <mn>1</mn> </msubsup> <mo>-</mo> <msubsup> <mi>T</mi> <mrow> <mi>b</mi> <mi>e</mi> <mi>g</mi> </mrow> <mn>1</mn> </msubsup> </mrow> </mfrac> <mo>*</mo> <msubsup> <mi>T</mi> <mn>2</mn> <mn>1</mn> </msubsup> <mo>.</mo> </mrow> 2