CN109785856A

CN109785856A - 一种多通道远近场语料采集方法及装置

Info

Publication number: CN109785856A
Application number: CN201910156716.3A
Authority: CN
Inventors: 高亚龙; 丁伟
Original assignee: Shenzhen Wewins Wireless Communication Technology Co Ltd
Current assignee: Shenzhen Wewins Wireless Communication Technology Co Ltd
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2019-05-21

Abstract

本发明涉及语音识别技术领域，公开了一种多通道远近场语料采集方法及装置，该方法包括：获取外接采集设备的名称和编号，所述外接采集设备包括近场采集设备和远场采集设备；根据所述外接采集设备的数量设置录音线程参数；通过所有线程进行多通道采音，每个所述线程共享一个标志位，用于标识采音状态；保存多通道采音数据；能同时采集多通道近场和远场的语音数据，每个通道的数据同时且独立采集互不干扰，实现一次采集多类语料并完成实时自动审核标注，有效降低了人工和时间成本，提高了语料采集的准确性。

Description

一种多通道远近场语料采集方法及装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种多通道远近场语料采集方法及装置。

背景技术

语音数据采集是语音识别中至关重要的阶段，语音数据的质量和数量直接影响到语音识别模型的性能。目前的语料采集装置和方法都是基于单通道采集，要么只采集近场语料，要么只采集远场语料，一般只采集近场语料，然后后期需要人工对语料进行审核标注。这种方法有三点弊端：第一，单通道的采集装置和方法采集效率低下，在大规模的语料采集任务中，这种方法使人力和时间成本急剧上升；第二，只采集近场或者只采集远场语料，使得用于语音识别训练的样本数量少、样本种类单一，这种数据训练出的语音识别模型鲁棒性和泛化能力比较差；第三，使用目前的采集装置和方法采集语料后，后期需要花费大量的人工和时间去对语料进行审核标注，而且审核标注工作容易使人疲劳，审核标注出错几率高，样本的标注错误又不容易被发现。

发明内容

本发明的主要目的在于提出一种多通道远近场语料采集方法及装置，能同时采集多通道近场和远场的语音数据，每个通道的数据同时且独立采集互不干扰，实现一次采集多类语料并完成实时自动审核标注，有效降低了人工和时间成本，提高了语料采集的准确性。

为实现上述目的，本发明提供的一种多通道远近场语料采集方法，包括：

获取外接采集设备的名称和编号，所述外接采集设备包括近场采集设备和远场采集设备；

根据所述外接采集设备的数量设置录音线程参数；

通过所有线程进行多通道采音，每个所述线程共享一个标志位，用于标识采音状态；

保存多通道采音数据。

可选地，所述获取外接采集设备的名称和编号之前还包括：

加载预设的采集内容文件，调用第三方语音识别模型。

可选地，所述保存多通道采音数据之后还包括：

通过所述第三方语音识别模型对所述多通道采音数据进行解码，通过所述预设的采集内容审核所述解码结果。

可选地，所述保存多通道采音数据之后还包括：

对所述多通道采音数据进行声道分离。

可选地，所述获取外接采集设备的名称和编号之前还包括：

获取被采集者的身份信息，并将所述身份信息保存至所述多通道采音数据中。

作为本发明的另一方面，提供的一种多通道语料采集装置，包括：

获取模块，用于获取外接采集设备的名称和编号，所述外接采集设备包括近场采集设备和远场采集设备；

设置模块，用于根据所述外接采集设备的数量设置录音线程参数；

采音模块，用于通过所有线程进行多通道采音，每个所述线程共享一个标志位，用于标识采音状态；

保存模块，用于保存多通道采音数据。

可选地，还包括：

加载调用模块，用于加载预设的采集内容文件，调用第三方语音识别模型。

可选地，还包括：

声道分离模块，用于对所述多通道采音数据进行声道分离。

可选地，还包括：

解码审核模块，用于通过所述第三方语音识别模型对所述多通道采音数据进行解码，通过所述预设的采集内容审核所述解码结果。

可选地，还包括：

身份信息采集模块，用于获取被采集者的身份信息，并将所述身份信息保存至所述多通道采音数据中。

本发明提出的一种多通道远近场语料采集方法及装置，该方法包括：获取外接采集设备的名称和编号，所述外接采集设备包括近场采集设备和远场采集设备；根据所述外接采集设备的数量设置录音线程参数；通过所有线程进行多通道采音，每个所述线程共享一个标志位，用于标识采音状态；保存多通道采音数据；能同时采集多通道近场和远场的语音数据，每个通道的数据同时且独立采集互不干扰，实现一次采集多类语料并完成实时自动审核标注，有效降低了人工和时间成本，提高了语料采集的准确性。

附图说明

图1为本发明实施例一提供的一种多通道远近场语料采集方法的流程图；

图2为本发明实施例一提供的一种多通道远近场语料采集场景模拟图；

图3为本发明实施例一提供的另一种多通道远近场语料采集方法的流程图；

图4为本发明实施例一提供的再一种多通道远近场语料采集方法的流程图；

图5为本发明实施例一提供的再一种多通道远近场语料采集方法的流程图；

图6为本发明实施例一提供的再一种多通道远近场语料采集方法的流程图；

图7为本发明实施例二提供的一种多通道远近场语料采集装置的示范性结构框图；

图8为本发明实施例二提供的另一种多通道远近场语料采集装置的示范性结构框图；

图9为本发明实施例二提供的再一种多通道远近场语料采集装置的示范性结构框图；

图10为本发明实施例二提供的再一种多通道远近场语料采集装置的示范性结构框图；

图11为本发明实施例二提供的再一种多通道远近场语料采集装置的示范性结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身并没有特定的意义。因此，"模块"与"部件"可以混合地使用。

实施例一

如图1所示，在本实施例中，一种多通道远近场语料采集方法，包括：

S10、获取外接采集设备的名称和编号，所述外接采集设备包括近场采集设备和远场采集设备；

S20、根据所述外接采集设备的数量设置录音线程参数；

S30、通过所有线程进行多通道采音，每个所述线程共享一个标志位，用于标识采音状态；

S40、保存多通道采音数据。

在本实施例中，能同时采集多通道近场和远场的语音数据，每个通道的数据同时且独立采集互不干扰，实现一次采集多类语料并完成实时自动审核标注，有效降低了人工和时间成本，提高了语料采集的准确性。

在本实施例中，首先搜索现场的外接采集设备，并将外接采集设备的名称和编号记录到设备列表中，以确定外接采集设备的数量，在设备位置摆放上，近场采集设备放置于被采集者旁边，远场采集设备放置于3-5米处。如图2所示，为一多通道远近场语料采集场景模拟图。

如图3所示，在本实施例中，所述步骤S10之前还包括：

S01、加载预设的采集内容文件，调用第三方语音识别模型。

在本实施例中，定义每行是一句话，采集的时候每次读取一行，每行代表一个样本，代表一套采音流程。调用第三方语音识别模型接口，以做到上传音频后能迅速获取识别结果。

在本实施例中，根据外接采集设备的数量，决定开辟的录音线程数，每个线程对应一个设备，每个设备同时且独立采音，数据互不干扰，设置好采样率、采样比特以及缓冲区大小等参数。如果设备只能录一种场景的数据，那么声道数设置为1，如果能同时录两种场景的数据，那么声道数设置为2；假如接入三个设备(A、B、C)，A设备采集的是近场数据，B设备采集的是远场数据，C设备采集的是近场和远场的混合数据，这时我们需要开辟三个线程采集四个通道的数据。开启多通道采音模式后，每个线程共享一个标志位，用于标识采音状态，被采集者根据步骤S01里按行加载的文本，读出这行的内容。

在本实施例中，当读完这行的内容，被采集者发送采集结束的指令后，线程共享的标志位改变状态，音频流的读入操作结束。在每个设备采集的PCM裸流数据上加入WAV头部信息保存成相应的WAV文件。

如图4所示，在本实施例中，所述步骤S40之后还包括：

S50、对所述多通道采音数据进行声道分离。

在本实施例中，设备若采集的是近场和远场的混合数据，则需要做声道分离处理，确定哪一声道为近场哪一声道为远场，将混合数据剥离成两个通道存储数据。例如上述的C设备采集的数据就要做声道分离处理；若设备采集的是单独的近场或远场数据，则不做处理，A设备和B设备就不用做处理。

如图5所示，在本实施例中，所述保存多通道采音数据之后还包括：

S60、通过所述第三方语音识别模型对所述多通道采音数据进行解码，通过所述预设的采集内容审核所述解码结果。

在本实施例中，对采集到的多通道数据传入第三方语音识别模型做解码，将返回的解码结果与预设的采集内容做比较。假如此行文本为“智能管家”，语音识别的结果也为“智能管家”，证明此次采集的数据质量有保障，则按“智能管家”为标注保存，此次采集流程结束；若语音识别的结果为“职能管家”，则此次采集的数据质量是未知数，有可能是语音识别错误也有可能是被采集者的口音问题，所以从步骤3开始重新执行采集流程。若连续三次对比结果均不相同，那么以预设的采集内容文本加上一个特殊的字符为标注保存，对这种数据后期人工辅助审查。

如图6所示，在本实施例中，所述获取外接采集设备的名称和编号之前还包括：

S02、获取被采集者的身份信息，并将所述身份信息保存至所述多通道采音数据中。

其中，所述身份信息包括性别、年龄和口音等；经过以上步骤审查和标注后的数据，虽然出错的可能性极小，但是这种数据不一定是高质量的训练数据，比如有些数据音量过小。这时可以通过自动绘制每个通道采集的语音数据的波形图和播放该通道的音频来验证。视觉上近场数据的波形比较集中，远场数据的波形比较分散。波形越宽的响度越大。听觉上近场数据纯净噪音少，远场数据噪音强。

实施例二

如图7所示，在本实施例中，一种多通道语料采集装置，包括：

获取模块10，用于获取外接采集设备的名称和编号，所述外接采集设备包括近场采集设备和远场采集设备；

设置模块20，用于根据所述外接采集设备的数量设置录音线程参数；

采音模块30，用于通过所有线程进行多通道采音，每个所述线程共享一个标志位，用于标识采音状态；

保存模块40，用于保存多通道采音数据。

如图8所示，在本实施例中，还包括：

加载调用模块50，用于加载预设的采集内容文件，调用第三方语音识别模型。

如图9所示，在本实施例中，还包括：

声道分离模块60，用于对所述多通道采音数据进行声道分离。

如图10所示，在本实施例中，还包括：

解码审核模块70，用于通过所述第三方语音识别模型对所述多通道采音数据进行解码，通过所述预设的采集内容审核所述解码结果。

如图11所示，在本实施例中，还包括：

身份信息采集模块80，用于获取被采集者的身份信息，并将所述身份信息保存至所述多通道采音数据中。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种多通道远近场语料采集方法，其特征在于，包括：

根据所述外接采集设备的数量设置录音线程参数；

保存多通道采音数据。

2.根据权利要求1所述的一种多通道远近场语料采集方法，其特征在于，所述获取外接采集设备的名称和编号之前还包括：

加载预设的采集内容文件，调用第三方语音识别模型。

3.根据权利要求2所述的一种多通道远近场语料采集方法，其特征在于，所述保存多通道采音数据之后还包括：

4.根据权利要求1所述的一种多通道远近场语料采集方法，其特征在于，所述保存多通道采音数据之后还包括：

对所述多通道采音数据进行声道分离。

5.根据权利要求1所述的一种多通道远近场语料采集方法，其特征在于，所述获取外接采集设备的名称和编号之前还包括：

6.一种多通道语料采集装置，其特征在于，包括：

保存模块，用于保存多通道采音数据。

7.根据权利要求6所述的一种多通道语料采集装置，其特征在于，还包括：

8.根据权利要求7所述的一种多通道语料采集装置，其特征在于，还包括：

声道分离模块，用于对所述多通道采音数据进行声道分离。

9.根据权利要求6所述的一种多通道语料采集装置，其特征在于，还包括：

10.根据权利要求6所述的一种多通道语料采集装置，其特征在于，还包括：