CN110223675A

CN110223675A - 用于语音识别的训练文本数据的筛选方法及系统

Info

Publication number: CN110223675A
Application number: CN201910510814.2A
Authority: CN
Inventors: 陈明佳
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2019-09-10
Anticipated expiration: 2039-06-13
Also published as: CN110223675B

Abstract

本发明实施例提供一种用于语音识别的训练文本数据的筛选方法。该方法包括：对训练文本数据进行规范化处理，将规范化处理后的训练文本数据进行输入前预处理，包括：将规范化处理后的训练文本数据转换成适用数据筛选模型的输入信息，输入信息包括训练文本的语句对应的唯一数字编号；将转换后的输入信息导入多个神经网络筛选模型并列组合成的融合筛选模型，将融合筛选模型输出中达到预设正例概率得分阈值的文本语句筛选为用于语音识别的训练文本数据。本发明实施例还提供一种用于语音识别的训练文本数据的筛选系统。本发明实施例使其流程都是自动化可节省大量的人工成本，提高复用性，考虑到文本内容中的语言关系，提高训练文本数据的筛选效果。

Description

用于语音识别的训练文本数据的筛选方法及系统

技术领域

本发明涉及智能语音领域，尤其涉及一种用于语音识别的训练文本数据的筛选方法及系统。

背景技术

在训练语音识别模型中，为了训练的效果，往往需要海量的优质训练文本数据。而海量的优质训练文本数据往往难以获取，现有方案中，为了获取大量训练文本数据，通常基于简单的字符规则，通过简单粗糙的匹配完成，或者是先通过简单的规则匹配后，再使用人工检查的方式进行筛选。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

现有的语音识别的文本训练数据少量使用人工检查标注得到，多数还是使用简单粗糙的工具去处理得到，没有使用高效的自动化的方式去做。虽然人工标注的方法通常得到的数据质量都比较高，但一般情况下语音识别训练文本的数据量都非常大，少则MB(Megabyte，兆字节)(对应的文字量是上亿的级别)，多则TB(Terabyte，太字节或太拉字节)这样会带来大量的人力和物力的指出，此外人工标注还有很多主观因素的存在，也会而导致很多标注错误，导致部分数据质量有问题。

首先，通常识别的文本训练数据的量巨大，并且数据分布十分的多样，使用简单的规则的办法可能导致在某些固定范围或者领域的文本数据上有效，但是同样的方案迁移到其他的数据上，很多工作又需要重新处理。导致方案的可复用性极低，不易推广。

其次，一般的自动化的方案，不能有效的考虑到文本内容中的语义语言关系，筛选出的数据有效性并不高，然而文本是否合理或者通顺，最主要就是依赖于文本中语义语言关系来推断的。

此外，一般的自动化的方案采用规则筛选、规则过滤的办法，这一类方案通常规则增多后，很多规则就会相互矛盾或者冗余，同一条输入数据可能同时适用多条规则，此时如何选择真正适用的规则，又需要人工介入，或者提前设置一些规则的权重条件；再者就是在这一类方案中，通常对每一条输入数据，是无法提前预知这一条数据需要使用那一条规则或者哪些规则进行处理的，所以每一条数据多需要逐条经过规则的计算，这会导致这些方案很难做快速高效的大规模分布式处理数据。

发明内容

为了至少解决现有技术中现有的文本训练数据都是基于简单的字符规则粗糙匹配完成，或是简单的规则匹配再用人工检查的方式进行筛选的问题。

第一方面，本发明实施例提供一种用于语音识别的训练文本数据的筛选方法，包括：

对训练文本数据进行规范化处理，将规范化处理后的训练文本数据进行输入前预处理，所述输入前预处理至少包括：将规范化处理后的训练文本数据转换成适用数据筛选模型的输入信息，所述输入信息包括训练文本的语句对应的唯一数字编号；

将转换后的输入信息导入多个神经网络筛选模型并列组合成的融合筛选模型，将所述融合筛选模型输出中达到预设正例概率得分阈值的文本语句筛选为用于语音识别的训练文本数据。

第二方面，本发明实施例提供一种用于语音识别的训练文本数据的筛选系统，包括：

前预处理模块，用于对训练文本数据进行规范化处理，将规范化处理后的训练文本数据进行输入前预处理，所述输入前预处理至少包括：将规范化处理后的训练文本数据转换成适用数据筛选模型的输入信息，所述输入信息包括训练文本的语句对应的唯一数字编号；

训练文本筛选模块，用于将转换后的输入信息导入多个神经网络筛选模型并列组合成的融合筛选模型，将所述融合筛选模型输出中达到预设正例概率得分阈值的文本语句筛选为用于语音识别的训练文本数据。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于语音识别的训练文本数据的筛选方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的用于语音识别的训练文本数据的筛选方法的步骤。

本发明实施例的有益效果在于：对训练文本数据进行规范化处理，将其转换成使用数据筛选模型的输入信息，使其整个流程都是自动化可节省大量的人工成本，为企业减少大量的开支，同时提高了复用性。通过融合多种神经网络筛选模型，对多个维度进行筛选判断，有效的考虑到文本内容中的语言关系，提高了训练文本数据的筛选效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种用于语音识别的训练文本数据的筛选方法的流程图；

图2是本发明一实施例提供的一种用于语音识别的训练文本数据的筛选系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种用于语音识别的训练文本数据的筛选方法的流程图，包括如下步骤：

S11：对训练文本数据进行规范化处理，将规范化处理后的训练文本数据进行输入前预处理，所述输入前预处理至少包括：将规范化处理后的训练文本数据转换成适用数据筛选模型的输入信息，所述输入信息包括训练文本的语句对应的唯一数字编号；

S12：将转换后的输入信息导入多个神经网络筛选模型并列组合成的融合筛选模型，将所述融合筛选模型输出中达到预设正例概率得分阈值的文本语句筛选为用于语音识别的训练文本数据。

在本实施方案中，采取的是深度的文本语义表示加深度神经网络分类的办法。由于采用了深度学习的方法来表示文本的语义，这样就可以用非常简单高效的方案来获取文本中有效的语义信息，使得筛选的效果变得更准确。基于深度学习的方案，只需要考虑不同的输入信息和输出信息，可以共用同一个模型结构，然后在不同的领域或者场景下使用，这样模型就极具扩展性。基于深度学习的方案不论是模型训练，还是模型的正式运用都可以部署在分布式的计算机集群中，使得筛选的效率可以成成倍的增长。

对于步骤S11，对训练文本数据进行规范化处理，作为一种实施方式，所述规范化处理至少包括：文本格式处理和/或字符形式处理；所述文本格式处理包括：将非标准格式的训练文本数据，转换为每行一段话或每行一句话的文本形式，其中，所述非标准格式包括HTML、JSON；所述字符形式处理包括：将所述训练文本数据中的非法符号去除，其中，所述非法符号包括网页标签、表情符号。

例如，由于广泛获取训练文本数据，这样就会使得获取的训练文本数据比较杂乱。例如获取的HTML格式的数据如下：

-var articleTitles＝"机器学习之文本分类★_★(附带训练集+数据集+所有代码)"；-1.精确模式，试图将句子最精确的起开，适合文本分析。<br/>-2.全模式把句子中所有的可以成词的词语都扫描出来速度非常快但是不能解决歧义<br/>

这类训练文本语句通常都会带有类似的标记符号，在数据训练时，是需要将这类非法字符去除，将所述非法字符去除，并进行文本格式处理后可以得到：

"机器学习之文本分类(附带训练集+数据集+所有代码)"

1.精确模式，试图将句子最精确的起开，适合文本分析。

2.全模式把句子中所有的可以成词的词语都扫描出来速度非常快但是不能解决歧义。

进而将上述网页获取的数据进行文本格式处理以及字符形式处理。从而使得训练文本更加规范。提高训练文本数据的精准度。

在字符处理后，所述规范化处理还包括：断句处理；

所述断句处理包括：根据所述训练文本数据中的标点符号进行断句，当超过预设长度的训练文本中没有标点符号时，通过字符形式处理进行标点添加，对添加标点后的训练文本数据进行断句处理。

例如，上述句子中，“2.全模式把句子中所有的可以成词的词语都扫描出来速度非常快但是不能解决歧义”可以断为“2.全模式，把句子中所有的可以成词的词语都扫描出来，速度非常快，但是不能解决歧义。”

在规范化处理后，将这些训练文本数据进行数据转换，将其转换为适用数据筛选模型的输入信息，所述输入信息包括训练文本的语句对应的唯一数字编号，数据筛选模块的输入通常都是一个向量或者一个矩阵，因此不能将每句话中的语句直接作为输入，在特征转换模块中会将每个词唯一的对应到一个数字编号，这样每一句文本就会对应一个数字串，这个数字串组成的向量就会用作数据筛选模块的输入数据。

对于步骤S12，将转换后的输入信息导入多个神经网络筛选模型并列组合成的融合筛选模型，将所述融合筛选模型输出中达到预设正例概率得分阈值的文本语句筛选为用于语音识别的训练文本数据，其中，每次输入的一批数据都会同时被送入多个神经网络筛选模型，然后分别进行数据筛选的模型计算，分别得到数据对应的每一个分类结果的得分进行融合，将多组得分采取一定的融合方法，得到该次输入对应每个分类标签的一组得分，标签分为句子正例标签和负例标签。例如句子：“听欧股腿哦鱼咯”，正例标签的得分是0.1，负例标签的得分是0.9。例如：句子“太暗了把灯打开”正例标签得分是0.95，负例标签的得分是0.05。例如，预设正例概率得分阈值为0.5时，句子“太暗了把灯打开”筛选为用于语音识别的训练文本数据。

通过该实施方式可以看出，通过对训练文本数据进行规范化处理，将其转换成使用数据筛选模型的输入信息，使其整个流程都是自动化可节省大量的人工成本，为企业减少大量的开支，同时提高了复用性。通过融合多种神经网络筛选模型，对多个维度进行筛选判断，有效的考虑到文本内容中的语言关系，提高了训练文本数据的筛选效果。

作为一种实施方式，在本实施例中，所述输入前预处理至少包括：

将规范化处理后的训练文本数据进行分词，得到粒度均匀的词串组合；

将所述词串组合转换成适用数据筛选模型的输入信息，所述输入信息包括所述词串组合对应的唯一数字编号。

在本实施方式中，将规范化处理后的训练文本数据进行分词，例如“梵高笔下的向日葵很漂亮”，分词后得到粒度均匀的词串组合“梵高”“笔下”“的”“向日葵”“很漂亮”，这些词串组合转换成使用数据筛选模型的输入。例如，对应的唯一数字编号，例如，“梵高”对应的数字编号为：37954567646040612330(也可以是其他类型的数字编号，不限于此)，通常一个词会有一个数字对应，由这些数字组成数字串。

通过该实施方式可以看出，对训练文本数据进行分词，可以进一步提高数据的区分性，避免在后续的筛选过程中造成误分类。

作为一种实施方式，在本实施例中，所述方法还包括：

将规范化处理后的训练文本数据进行分词，得到粒度均匀的词串组合，确定所述词串组合的分词词性；

将所述词串组合以及对应的分词词性转换成适用数据筛选模型的输入信息，所述输入信息包括所述词串组合以及对应的分词词性进行组合，得到对应的唯一数字编号。

在本实施方式中，在确定词串组合外，还确定所述词串组合的分词词性，例如：形语素、形容词、副形词、名形词、区别词、连词等。再将词串组合与对应的分词词性进行转换成使用数据筛选模型的输入信息。

通过该实施方式可以看出，每一句训练文本是由词语的信息加上词语对应的词性信息组成的，由于词性信息的组合方式，很大程度上是可以反应一个句子的通顺程度的，因此将这一信息作为方案中的一个组成的成分是可以增加筛选模型的准确率。

作为一种实施方式，在本实施例中，所述将所述融合筛选模型输出中达到预设正例概率得分阈值的文本语句筛选为用于语音识别的训练文本数据包括：

分别获取每个神经网络筛选模型输出的正例概率得分，将所述各正例概率得分中最高得分达到预设正例概率得分阈值的文本语句筛选为用于语音识别的训练文本数据；或

分别获取每个神经网络筛选模型输出的正例概率得分，当所述各正例概率得分的加权均值的正例概率得分达到预设正例概率得分阈值时，将所述文本语句筛选为用于语音识别的训练文本数据。

在本实施方式中，可以分别获取每个神经网络输出的正例概率得分，将正例概率得分中最高的，达到预设整改率得分阈值的文本语句筛选为用于语音识别的训练文本数据，例如，句子“太暗了把灯打开”，第一神经网络输出的正例标签得分是0.95，第二神经网络输出的正例标签得分是0.75，那么，则按0.95的得分为基准，去跟预设的正例概率得分阈值进行比较。也可以进行加权均值，得到(0.95+0.75)/2得到0.85得分。

通过该实施方式可以看出，通过使用不同的得分确定方式，可以满足用户的需求。根据用户的需求，提供各不相同的融合方式。从而筛选出更加适用于用户需求的文本训练数据。

作为一种实施方式，在本实施例中，所述每一个神经网络筛选模型均具有第一全连接层和第二全连接层，其中，所述第一全连接层的维度大于所述第二全连接层，其中，在所述第二全连接层中使用dropout训练所述神经网络筛选模型，以预防过度拟合。

在本实施方式中，在筛选模型结构中每一个模型结构中都有两个全连接层，两个全连接层的维度大小是不一样，第一个全连接层的维度大，第二个全连接层的维度小，而且在第二个全连接层中使用了dropout的技术，这样的设计技术可以使其在训练筛选模型的时候模型不会过拟合。

通过该实施方式可以看出，可以使其模型在正式的使用过程中，该模型的泛化能力更强，具有更多的鲁棒性。

作为一种实施方式，在本实施例中，所述多个神经网络筛选模型至少包括两个神经网络筛选模型，包括：每一句话需要依次输入每一个词的长短期记忆网络筛选模型，以及允许一次输入完整一句话的完整词串的卷积神经网络筛选模型。

在本实施方式中，可以看出CNN(Convolutional Neural Network，卷积神经网络)筛选模型中，首先会将特征转换后的每一个词语转换为对应的词嵌套，然后将词嵌套的结果通过卷积神经网络的卷积计算后，通过最大池化层选取卷积后的主要特征，输入到连续的两层全连接层，最后通过分类层得到当前这句话对于每一个分类标签的概率得分。

LSTM(Long Short-Term Memory，长短期记忆网络)筛选模型中，主要的流程与CNN筛选模型相似，最大的差异体现在两点上，第一模型中最主要的模型结构就是长短时记忆网络层；第二LSTM筛选模型记忆网络中对于每一句话需要一次输入每一个词，但是CNN筛选模型允许一次输入完整的一句话的完整词串。因此通常情况下CNN筛选模型的计算速度会快于长短时记忆网络模型。

作为一种实施方式，在本实施例中，所述训练文本数据来自网页爬虫或人工上传的原始数据。

在本实施方式中，由于需要海量的数据进行筛选，而海量的数据从何处获得呢，如果仅由人工上传的话，人力成本较高，而通过网页爬虫自动获取最初级别的训练文本更加快捷。

通过该实施方式可以看出，在训练文本数据筛选全自动的基础上，将训练文本数据的来源也进行自动化。更大的幅度减轻了企业的开支。

整体上，在语音识别中文本训练数据的质量和数量会极大的影响语音识别的性能，通过自动化的方案挑选出大量的优质的训练数据可以用于语音识别模型的训练，从而大大的提升语音识别的性能；并且此方案是基于分类方法，类似的训练数据的筛选均可以使用该架构稍作改进即可以。比如图片数据、音频数据的筛选，均只需要将数据预处理模块、分词模块、特征提取模块以及筛选模型中的词嵌套层进行对应的改变及可以使用。

如图2所示为本发明一实施例提供的一种用于语音识别的训练文本数据的筛选系统的结构示意图，该系统可执行上述任意实施例所述的用于语音识别的训练文本数据的筛选方法，并配置在终端中。

本实施例提供的一种用于语音识别的训练文本数据的筛选系统包括：前预处理模块11和训练文本筛选模块12。

其中，前预处理模块11用于对训练文本数据进行规范化处理，将规范化处理后的训练文本数据进行输入前预处理，所述输入前预处理至少包括：将规范化处理后的训练文本数据转换成适用数据筛选模型的输入信息，所述输入信息包括训练文本的语句对应的唯一数字编号；训练文本筛选模块12用于将转换后的输入信息导入多个神经网络筛选模型并列组合成的融合筛选模型，将所述融合筛选模型输出中达到预设正例概率得分阈值的文本语句筛选为用于语音识别的训练文本数据。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于语音识别的训练文本数据的筛选方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的测试软件的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的用于语音识别的训练文本数据的筛选方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据测试软件的装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至测试软件的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于语音识别的训练文本数据的筛选方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于语音识别的训练文本数据的筛选方法，包括：

2.根据权利要求1所述的方法，其中，所述输入前预处理至少包括：

3.根据权利要求2所述的方法，其中，所述方法还包括：

4.根据权利要求1所述的方法，其中，所述将所述融合筛选模型输出中达到预设正例概率得分阈值的文本语句筛选为用于语音识别的训练文本数据包括：

5.根据权利要求1所述的方法，其中，所述每一个神经网络筛选模型均具有第一全连接层和第二全连接层，其中，所述第一全连接层的维度大于所述第二全连接层，其中，在所述第二全连接层中使用dropout训练所述神经网络筛选模型，以预防过度拟合。

6.根据权利要求1所述的方法，其中，所述规范化处理至少包括：文本格式处理和/或字符形式处理；

所述文本格式处理包括：将非标准格式的训练文本数据，转换为每行一段话或每行一句话的文本形式，其中，所述非标准格式包括HTML、JSON；

所述字符形式处理包括：将所述训练文本数据中的非法符号去除，其中，所述非法符号包括网页标签、表情符号。

7.根据权利要求6所述的方法，其中，在所述字符形式处理后，所述规范化处理还包括：断句处理；

8.根据权利要求1所述的方法，其中，所述多个神经网络筛选模型至少包括两个神经网络筛选模型，包括：每一句话需要依次输入每一个词的长短期记忆网络筛选模型，以及允许一次输入完整一句话的完整词串的卷积神经网络筛选模型。

9.根据权利要求1所述的方法，其中，所述训练文本数据来自网页爬虫或人工上传的原始数据。

10.一种用于语音识别的训练文本数据的筛选系统，包括：