CN111091812B

CN111091812B - 小语种语料的生成方法及系统

Info

Publication number: CN111091812B
Application number: CN201911171240.7A
Authority: CN
Inventors: 时猛
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2022-05-17
Anticipated expiration: 2039-11-26
Also published as: CN111091812A

Abstract

本发明实施例提供一种小语种语料的生成方法。该方法包括：从小语种视频中获取多条小语种音频段；将多条小语种音频段和对应的识别状态，存入分布式文件存储数据库；激活音频生产者和音频消费者，调用音频生产者，从分布式文件存储数据库中抽取预设数量的未识别的小语种音频段放入生产者队列；调用音频消费者分别从生产者队列获取小语种音频段，进行语音识别；将识别结果存入数据库中与对应的小语种音频段相关联；基于分布式文件存储的数据库中小语种音频段识别结果，生成带有标注的小语种语料。本发明实施例还提供一种小语种语料的生成系统。本发明实施例快速便捷的收集小语种语料，给识别模型提供小语种训练语料，保证对小语种的识别准确度。

Description

小语种语料的生成方法及系统

技术领域

本发明涉及智能语音领域，尤其涉及一种小语种语料的生成方法及系统。

背景技术

训练语音识别模型，需要一定量的语料数据。越多的语料数据，训练的语音识别模型的效果就会越好。常用的一些语言的语料数据相对的较为容易获得。例如，英语、汉语，这些常见语种的语言，有非常多的获取方式。然而，对于一些小语种的语言，获取起来相对较为困难，市面上并没有可以直接获取小语种语料的途径。为了获得小语种的语料，通常会利用开源机构开源的小语种语料，或者从专业的数据公司直接购买，又或者企业提供有关包含小语种的音频，寻找外包公司或者熟悉小语种人员，让其对音频进行标注。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

通过搜集开源数据的方法，主要缺陷就是受限于开源数据量少，无法满足需求或者无法找到某一小语种公开的开源语料，同时有的时候还会受限于国内网络而无法下载，更重要的是有的开源数据明确规定开源数据不得用于商用，只限于研究。

从专业数据公司购买数据最大的缺陷就是小语种成本太高，高昂的成本给企业造成了很大的经济负担。

寻找相关熟悉小语种人员进行标注，不仅时间成本高即进度慢，周期长，而且因为标注人员素质参差不齐，使得正确率也无法得到有效的保证，并且后期的质检的成本也很高

发明内容

为了至少解决现有技术中无法快速、高效、便捷的收集小语种语料的问题。

第一方面，本发明实施例提供一种小语种语料的生成方法，包括：

从小语种视频中获取多条小语种音频段；

将所述多条小语种音频段以及对应的识别状态，存入分布式文件存储数据库，其中，所述识别状态包括：已识别、未识别；

建立识别脚本，激活一个音频生产者以及多个音频消费者，在预设时间段内调用所述音频生产者，从所述分布式文件存储数据库中抽取预设数量的未识别的小语种音频段放入生产者队列；

调用所述多个音频消费者分别从所述生产者队列获取小语种音频段，进行小语种语音识别；

若所述音频消费者可以确定小语种音频段的识别结果，将所述识别结果存入分布式文件存储的数据库中与对应的小语种音频段相关联，更新识别状态；

基于分布式文件存储的数据库中小语种音频段识别结果，生成带有标注的小语种语料。

第二方面，本发明实施例提供一种小语种语料的生成系统，包括：

音频段获取程序模块，用于从小语种视频中获取多条小语种音频段；

数据存储程序模块，用于将所述多条小语种音频段以及对应的识别状态，存入分布式文件存储数据库，其中，所述识别状态包括：已识别、未识别；

脚本建立程序模块，用于建立识别脚本，激活一个音频生产者以及多个音频消费者，在预设时间段内调用所述音频生产者，从所述分布式文件存储数据库中抽取预设数量的未识别的小语种音频段放入生产者队列；

语音识别程序模块，用于调用所述多个音频消费者分别从所述生产者队列获取小语种音频段，进行小语种语音识别；

状态更新程序模块，用于若所述音频消费者可以确定小语种音频段的识别结果，将所述识别结果存入分布式文件存储的数据库中与对应的小语种音频段相关联，更新识别状态；

语料生成程序模块，用于基于分布式文件存储的数据库中小语种音频段识别结果，生成带有标注的小语种语料。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的小语种语料的生成方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的小语种语料的生成方法的步骤。

本发明实施例的有益效果在于：可以快速便捷的收集小语种语料，给企业内部的识别模型提供基本的小语种训练语料，从而使得企业可以在极短时间内拥有某一小语种的识别的能力，并且保证对这一小语种的识别准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种小语种语料的生成方法的流程图；

图2是本发明一实施例提供的一种小语种语料的生成系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种小语种语料的生成方法的流程图，包括如下步骤：

S11：从小语种视频中获取多条小语种音频段；

S12：将所述多条小语种音频段以及对应的识别状态，存入分布式文件存储数据库，其中，所述识别状态包括：已识别、未识别；

S13：建立识别脚本，激活一个音频生产者以及多个音频消费者，在预设时间段内调用所述音频生产者，从所述分布式文件存储数据库中抽取预设数量的未识别的小语种音频段放入生产者队列；

S14：调用所述多个音频消费者分别从所述生产者队列获取小语种音频段，进行小语种语音识别；

S15：若所述音频消费者可以确定小语种音频段的识别结果，将所述识别结果存入分布式文件存储的数据库中与对应的小语种音频段相关联，更新识别状态；

S16：基于分布式文件存储的数据库中小语种音频段识别结果，生成带有标注的小语种语料。

在本实施方式中，小语种语料难以获得，但是由于互联网的发展，拉进了全世界网络用户的距离，部分网络用户会制作视频vlog上传到网络中，供他人观看。这样，小语种视频的获取难度，相对于小语种语料的获取难度要简单很多。

对于步骤S11，先要获取这些小语种视频，可以人工收集，作为一种实施方式，所述小语种视频通过爬虫算法获取。通过爬虫算法，可以快速的获取大量的目标语言的小语种视频。节约人工成本。

在获得小语种视频后，从所述小语种视频中获取多条小语种音频片段。首先，从小语种视频中提取音频文件，在提取音频文件中，可以使用ffmpeg工具进行，也可以使用其他工具，在此不再赘述。提取出音频文件后，对所述音频文件进行语音活动检测，从而，提取出音频文件中的多条小语种音频段。

提取出音频段后，为了保障提取的小语种音频段更加精确。在检测出小语种音频段后，可以获取所述小语种音频段的多个子音频特征，根据多个子音频特征对所述音频文件进行进一步的语音活动检测，再次判断音频文件中是否还包含漏处理的小语种语音。可以在小语种视频提取出的音频文件，背景噪声较大，信噪比较低时，仍能够检测出是否存在小语种音频片段。

对于步骤S12，在获得多条小语种音频片段后，确定小语种音频片段的基本信息，例如，音频长度、等基本信息，然后，将各小语种音频片段对应的识别状态存入分布式文件存储数据库中，由于小语种语音片段在步骤S11中才获得，在存储的过程中，所有的小语种音频片段的识别状态都是未识别。而考虑到后续步骤中识别方法的特殊性，在此使用了分布式文件存储数据库。

对于步骤S13，建立识别脚本，用于对所述多条小语种音频片段进行识别。通过识别脚本激活一个音频生产者，以及多个音频消费者。其中，音频生产者负责在预设的时间内，从所述分布式文件存储数据库中抽取预设数量的未识别的小语种音频段放入生产者队列中，预设数量可以按照需求来进行自行调配。

对于步骤S14，音频消费者用于识别小语种音频片段，而多个音频消费者可以根据不同设备的性能，进行调整改进。多个音频消费者不直接接触分布式文件存储数据库，通过生产者队列来进行小语种音频段的获取。各音频消费者获取各自的小语种音频段，进行识别，提高了识别效率。

对于步骤S15，如果音频消费者可以识别出小语种音频段的语音，获得识别结果，那么就将识别结果也存入分布式文件存储的数据库中与小语种音频段进行关联，确定识别结果后，更新分布式文件存储的数据库中的识别状态，这样该条小语种音频段就不会再被放入生产者队列中，代表着确定了一条小语种文本。

对于步骤S16，在确定了多条小语种音频段的小语种文本后，启动生成标注文件的脚本来生成带有标注的小语种文本，从而可以生成带有标注的小语种语料。可以直接将这些小语种语料应用到语音识别模型的训练、或是其他训练中。

通过该实施方式可以看出，当有某一小语种的项目时，就可以快速便捷的收集小语种语料，给企业内部的识别模型提供基本的小语种训练语料，从而使得企业可以在极短时间内拥有某一小语种的识别的能力，并且保证对这一小语种的识别准确度。

作为一种实施方式，在本实施例中，所述识别状态还包括：识别失败；

所述方法还包括：若所述音频消费者无法确定小语种音频段的识别结果，记录无法识别的小语种的音频的识别失败次数，将所述无法识别的小语种音频段返回至所述生产者队列中，以供其他音频消费者进行识别；

若所述识别失败次数达到预设阈值时，将所述无法识别的小语种的音频进行反馈，更新识别状态。

在本实施方式中，由于小语种视频中的发音或者其他因素，提取的小语种音频段并不一定都会被识别出，有可能会识别失败。考虑到这种情况，当个别音频消费者无法确定小语种音频片段的识别结果，记录其识别失败的次数，将所述无法识别的小语种音频段返回到生产者队列中，从而让其他的音频消费者来进行识别。这样，单个音频消费者无法识别的小语种音频片段，让其他的音频消费者来进行识别，进一步的确保尽可能多的识别小语种音频片段的识别结果。

如果多个音频消费者都无法进行识别，使得失败次数达到了预设阈值时，将所述无法识别的小语种的音频进行反馈，通知用户这条音频无法识别，提醒用户自行处理，查询出无法识别的原因。还要更新分布式文件存储数据库中这条无法识别的小语种音频片段的识别状态，明确该音频片段无法识别。

通过该实施方式可以看出，当小语种音频片段无法识别时，让其他的音频消费者来进行识别，尽可能的确定更多的识别结果。

作为一种实施方式，在本实施例中，在所述基于分布式文件存储的数据库中小语种音频段识别结果，生成带有标注的小语种语料之前，所述方法还包括：

检测在所述预设时间段内，所述音频生产者是否将未识别的小语种音频段放入生产者队列；

当超过所述预设时间段，所述音频生产者没有将未识别的小语种音频段放入生产者队列时，基于分布式文件存储的数据库中小语种音频段的识别结果，生成带有标注的小语种语料。

在本实施方式中，在预设的时间段内进行检测，由于爬虫在不断的获取小语种视频，从小语种视频中不断获取多条小语种音频段存入分布式文件存储的数据库中，生产者不断的从分布式文件存储的数据库提取小语种音频段放入到生产者队列，在这个过程中，小语种音频片段的文本识别结果在不断的增加。

为了节约步骤，确保没有新的小语种音频片段的文本识别结果后，再进行带有标注的小语种语料的生成。避免了确定出一个识别结果，就进行语料生成，这样会造成资源浪费，提高小语种语料的生成效率。

如图2所示为本发明一实施例提供的一种小语种语料的生成系统的结构示意图，该系统可执行上述任意实施例所述的小语种语料的生成方法，并配置在终端中。

本实施例提供的一种小语种语料的生成系统包括：音频段获取程序模块11，数据存储程序模块12，脚本建立程序模块13，语音识别程序模块14，状态更新程序模块15和语料生成程序模块16。

其中，音频段获取程序模块11用于从小语种视频中获取多条小语种音频段；数据存储程序模块12用于将所述多条小语种音频段以及对应的识别状态，存入分布式文件存储数据库，其中，所述识别状态包括：已识别、未识别；脚本建立程序模块13用于建立识别脚本，激活一个音频生产者以及多个音频消费者，在预设时间段内调用所述音频生产者，从所述分布式文件存储数据库中抽取预设数量的未识别的小语种音频段放入生产者队列；语音识别程序模块14用于调用所述多个音频消费者分别从所述生产者队列获取小语种音频段，进行小语种语音识别；状态更新程序模块15用于若所述音频消费者可以确定小语种音频段的识别结果，将所述识别结果存入分布式文件存储的数据库中与对应的小语种音频段相关联，更新识别状态；语料生成程序模块16用于基于分布式文件存储的数据库中小语种音频段识别结果，生成带有标注的小语种语料。

进一步地，所述小语种视频通过爬虫算法获取。

进一步地，所述识别状态还包括：识别失败；

所述语音识别程序模块还用于：若所述音频消费者无法确定小语种音频段的识别结果，记录无法识别的小语种的音频的识别失败次数，将所述无法识别的小语种音频段返回至所述生产者队列中，以供其他音频消费者进行识别；

状态更新程序模块用于，若所述识别失败次数达到预设阈值时，将所述无法识别的小语种的音频进行反馈，更新识别状态。

进一步地，所述系统还包括：时间检测程序模块，用于：

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的小语种语料的生成方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

从小语种视频中获取多条小语种音频段；

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的小语种语料的生成方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的小语种语料的生成方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有音频处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种小语种语料的生成方法，包括：

从小语种视频中获取多条小语种音频段；

2.根据权利要求1所述的方法，其中，所述小语种视频通过爬虫算法获取。

3.根据权利要求1所述的方法，其中，所述识别状态还包括：识别失败；

4.根据权利要求1所述的方法，其中，在所述基于分布式文件存储的数据库中小语种音频段识别结果，生成带有标注的小语种语料之前，所述方法还包括：

5.一种小语种语料的生成系统，包括：

6.根据权利要求5所述的系统，其中，所述小语种视频通过爬虫算法获取。

7.根据权利要求5所述的系统，其中，所述识别状态还包括：识别失败；

8.根据权利要求5所述的系统，其中，所述系统还包括：时间检测程序模块，用于：

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。