CN111241813B

CN111241813B - 语料扩展方法、装置、设备及介质

Info

Publication number: CN111241813B
Application number: CN202010353893.3A
Authority: CN
Inventors: 周一竞; 燕鹏举
Original assignee: Tongdun Holdings Co Ltd
Current assignee: Hangzhou Bodun Xiyan Technology Co.,Ltd.
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2021-02-12
Anticipated expiration: 2040-04-29
Also published as: CN111241813A

Abstract

本发明公开了一种语料扩展方法，涉及机器学习技术领域，用于解决现有语料匮乏的情况，该方法包括以下步骤：S110、接收待分析文本及语料池数据，对所述待分析文本及所述语料池数据进行预处理；S120、将所述待分析文本分为种子文本和测试文本；S130、当所述种子文本数量大于预设数量时，通过困惑度ppl筛选出扩展语料；当所述种子文本数量小于或等于预设数量时，通过相似度距离筛选出扩展语料；S140、将所述扩展语料加入到所述种子文本，并执行S130‑S140步骤。本发明还公开了一种语料扩展装置、电子设备和计算机存储介质。本发明通过对语料进行筛选，并将筛选出的语料与种子文本合并，进而扩展种子文本的语料量。

Description

语料扩展方法、装置、设备及介质

技术领域

本发明涉及机器学习技术领域，尤其涉及一种语料扩展方法、装置、设备及介质。

背景技术

语言模型可以对一段文本的概率进行估计，对信息检索，机器翻译，语音识别等任务有着重要的作用。

在语音识别中的语言模型通常需要大量语料进行训练，语料量较少时，会造成训练结果不准确，语音识别准确率低，难以生成语言模型等问题；尤其是在一些特定场景下，往往难以获取大量语料。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种语料扩展方法，其通过将筛选出的语料与种子文本进行合并，进而形成新的种子文本，并循环滚动进行语料扩展，增加了种子文本的语料数量。

本发明的目的之一采用以下技术方案实现：

一种语料扩展方法，包括以下步骤：

S110、接收待分析文本及语料池数据，对所述待分析文本及所述语料池数据进行预处理；

S120、将所述待分析文本分为种子文本和测试文本；

S130、当所述种子文本数量大于预设数量时，使用所述种子文本生成语言模型，并计算所述语料池数据中语料文本在所述语言模型中的困惑度ppl，将困惑度ppl小于预设ppl阈值的语料文本作为扩展语料；当所述种子文本数量小于或等于预设数量时，计算所述语料池数据中语料文本与所述种子文本的相似度距离，将相似度距离小于预设相似度阈值的语料文本作为扩展语料；

S140、将所述扩展语料加入到所述种子文本，形成新种子文本，使用所述新种子文本执行S130-S140步骤，直到得到的扩展语料在所述测试文本上的WER不再减小，即停止扩展，并输出最终得到的扩展语料。

进一步地，所述预处理包括分词、文本清洗、标准化、特征提取。

进一步地，当所述种子文本数量大于预设数量时，使用所述种子文本生成语言模型，并计算所述语料池数据中语料文本在所述语言模型中的困惑度ppl，将困惑度ppl小于预设ppl阈值的语料文本作为扩展语料，包括以下步骤：

计算语料池数据中语料文本在所述语言模型中的困惑度ppl；

根据n组预设ppl值，从所述语料文本中筛选出n组困惑度ppl等于或小于所述预设ppl值的语料文本，其中，n大于等于2；

计算每组筛选出的所述语料文本在所述测试文本上的WER，将WER最小的一组语料对应的预设ppl值作为所述预设ppl阈值；

将根据所述预设ppl阈值筛选出的一组所述语料文本作为扩展语料。

进一步地，计算所述语料池数据中语料文本与所述种子文本的相似度距离，将相似度距离小于预设阈值的语料文本作为扩展语料，包括以下步骤：

提取所述种子文本和所述语料文本的关键词；

根据所述关键词形成的句子向量余弦距离判定相似度距离；

根据k组预设相似度，筛选出k组小于预设相似度的语料文本，其中k大于等于2；

计算筛选出的每组所述语料文本在所述测试文本上的WER，将WER最小的一组所述语料文本对应的预设相似度作为所述预设相似度阈值；

将根据所述预设相似度阈值筛选出的一组所述语料文本作为扩展语料。

进一步地，所述关键词的提取方法包括TFIDF、TextRank、topic相似度中的一种。

进一步地，将所述扩展语料加入到所述种子文本，形成新种子文本，包括以下步骤：

当语料池数据中的语料文本都经过筛选后，将所述扩展语料通过预设方法加入所述种子文本，形成新种子文本，所述预设方法包括语言模型的插值融合、文本融合后提取新的语言模型以及文本融合后提取新的关键词中的一种。

进一步地，使用所述新种子文本执行S130-S140步骤，直到得到的扩展语料在所述测试文本上的WER不再减小，即停止扩展，包括以下步骤：

计算所述扩展语料在所述测试文本的WER；

当所述扩展语料是通过预设ppl阈值筛选出的扩展语料时，比较所述WER与所述预设ppl阈值对应的WER；

当所述扩展语料是通过预设相似度阈值筛选出的扩展语料时，比较所述WER与所述预设相似度阈值对应的WER；

当所述WER小于所述预设ppl阈值或预设相似度阈值对应的WER时，执行S130-S140步骤；

否则，停止扩展语料。

本发明的目的之二在于提供一种语料扩展装置，其通过将筛选出的语料与种子文本进行合并，进而形成新的种子文本，并循环滚动进行语料扩展，增加了种子文本的语料数量。

本发明的目的之二采用以下技术方案实现：

一种语料扩展装置，其包括：

接收模块，用于接收待分析文本及语料池数据，对所述待分析文本及所述语料池数据进行预处理；并将所述待分析文本分为种子文本和测试文本；

计算模块，用于在所述种子文本数量大于预设数量时，使用所述种子文本生成语言模型，并计算所述语料池数据中语料文本在所述语言模型中的困惑度ppl，将困惑度ppl小于预设ppl阈值的语料文本作为扩展语料；在所述种子文本数量小于或等于预设数量时，计算所述语料池数据中语料文本与所述种子文本的相似度距离，将相似度距离小于预设相似度阈值的语料文本作为扩展语料；

输出模块，用于将所述扩展语料加入到所述种子文本，形成新种子文本，将所述新种子文本输入所述计算模块进行语料扩展，直到得到的扩展语料在所述测试文本上的WER不再减小，即停止扩展，并输出最终得到的扩展语料。

本发明的目的之三在于提供执行发明目的之一的电子设备，其包括处理器、存储介质以及计算机程序，所述计算机程序存储于存储介质中，所述计算机程序被处理器执行时实现上述的语料扩展方法。

本发明的目的之四在于提供存储发明目的之一的计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的语料扩展方法。

相比现有技术，本发明的有益效果在于：

本发明从种子文本出发，根据种子文本大小采用不同方法筛选出相似度高的语料，合并筛选出的语料与种子文本，并进行循环滚动的方式，不停更新种子文本，解决了语言模型训练时，语料量匮乏的问题。

附图说明

图1是实施例一的语料扩展方法的流程图；

图2是实施例一的困惑度计算方法的流程图；

图3是实施例一的相似度计算方法的流程图；

图4是实施例二的停止扩展语料方法的流程图；

图5是实施例三的语料扩展装置的结构框图；

图6是实施例四的电子设备的结构框图。

具体实施方式

以下将结合附图，对本发明进行更为详细的描述，需要说明的是，以下参照附图对本发明进行的描述仅是示意性的，而非限制性的。各个不同实施例之间可以进行相互组合，以构成未在以下描述中示出的其他实施例。

实施例一

实施例一提供了一种语料扩展方法，旨在通过将筛选出的语料加入到种子文本之中，进而提高种子文本的语料数量。

请参照图1所示，一种语料扩展方法，包括以下步骤：

S110中的待分析文本指的是实际应用中获取的语料数据，通常是特定场景下的语料文本数据，例如来自于网络及客服的对话文本；语料池数据是通过各种途径收集到的大量语料数据，例如网络爬取的语料数据。

S110中的预处理包括分词、文本清洗、标准化、特征提取；其中，分词可以通过使用分词工具实现，例如结巴分词、NLPIR等分词工具，本实施例不作具体限定；文本清洗指的是过滤掉文本中无用的部分，例如过滤掉标点、停用词等，此外，还包括数字归一化处理等；标准化会对文本进行标准化处理，例如将“cats”处理为“cat”；文本的特征提取可以通过TF-IDF、Word2Vec、CountVectorizer等方式实现。

S120、将所述待分析文本分为种子文本和测试文本；

上述种子文本和测试文本的具体比例本实施例不作具体限定，可以根据实际需求进行设置。

当种子文本数量较大时，就可以使用困惑度ppl进行语料的筛选；上述的预设数量及预设ppl阈值根据实际情况进行设定，本实施例不作具体限定。

预设ppl阈值在实际操作时，会存在难以确定的情况，因此，本实施例中还提供了一种确定预设ppl阈值的优选方案，具体地，请参照图2所示，当所述种子文本数量大于预设数量时，使用所述种子文本生成语言模型，并计算所述语料池数据中语料文本在所述语言模型中的困惑度ppl，将困惑度ppl小于预设ppl阈值的语料文本作为扩展语料，包括以下步骤：

S1301、计算语料池数据中语料文本在所述语言模型中的困惑度ppl；

上述的语言模型为通过种子文本生成的语言模型。

困惑度ppl（Perplexity）是一个用来衡量语言模型优劣的指标，主要是根据每个词来估计一句话出现的概率；在过滤语料文本时，可以计算每一个语料文本在语言模型中的困惑度ppl，因此，通过计算语料文本或语料关键词在种子文本上的困惑度ppl，就可以对语料文本和种子文本的相似度进行判断，困惑度ppl越小，则说明语料文本与语言模型中的文本（种子文本）更接近，相似度更高。

S1302、根据n组预设ppl值，从所述语料文本中筛选出n组困惑度ppl等于或小于所述预设ppl值的语料文本，其中，n大于等于2；

上述的n组预设ppl值为预设的多个ppl值，n组预设ppl值的具体取值可以根据实际情况进行设定。

S1303、计算每组筛选出的所述语料文本在所述测试文本上的WER，将WER最小的一组语料对应的预设ppl值作为所述预设ppl阈值；

WER即字错率，是语音识别领域的关键性评估指标，通常WER值越低表示效果越好，WER的计算公式为：WER = (S + D + I ) / N = (S + D + I ) / (S + D + C )，S为替换的字数，D为删除的字数，I为插入的字数，C为正确的字数，N 为替换的字数、删除的字数及正确字数的和，即 N=S+D+C。

本实施例中，通过WER就可以确定预设ppl阈值，筛选出与种子文本最接近的语料。

S1304、将根据所述预设ppl阈值筛选出的一组所述语料文本作为扩展语料。

通过上述的方法，就可以实现在多个预设ppl值中筛选出最优的一个预设ppl值作为预设ppl阈值。

当种子文本数量较小的时候，就难以用种子文本直接生成语言模型，因此无法用困惑度ppl进行语料筛选，本实施例中通过文本相似度判定的方法进行语料的筛选。

上述的文本相似度在本实施例中，通过关键词形成的句子向量余弦距离进行计算，预设相似度阈值可以根据实际情况进行设定。本实施例还提供一种预设相似度阈值的设定方法具体地，请参照图3所示，计算所述语料池数据中语料文本与所述种子文本的相似度距离，将相似度距离小于预设阈值的语料文本作为扩展语料，包括以下步骤：

S1311、提取所述种子文本和所述语料文本的关键词；

S1311中的关键词提取方法包括TFIDF、TextRank、topic相似度中的一种。

S1312、根据所述关键词形成的句子向量余弦距离判定相似度距离；

句子向量由关键词的词向量组成，关键词的句子向量可以通过one-hot编码、Word2Vec 、Glove等方法得到，本实施例不对此作具体限定。

句子向量余弦距离的计算公式为：

；

其中A和B分别表示种子文本的句子向量和语料文本的句子向量。

S1313、根据k组预设相似度，筛选出k组小于预设相似度的语料文本，其中k大于等于2；

S1313中的多组（k组）预设相似度为根据实际情况设定的多个阈值。

S1314、计算筛选出的每组所述语料文本在所述测试文本上的WER，将WER最小的一组所述语料文本对应的预设相似度作为所述预设相似度阈值；

本实施例中通过最小的WER来确定预设相似度阈值，相比于根据经验设定一个相似度阈值，通过上述的方法，不仅可以设定多个阈值，并且可以快速筛选出最优的阈值，以便于更好地对扩展语料进行筛选。

S1315、将根据所述预设相似度阈值筛选出的一组所述语料文本作为扩展语料。

S140中，将筛选出的扩展语料加入种子语料就可以扩大种子文本的语料量，后续继续用新的种子文本进行S130~S140的步骤，就可以实现循环滚动扩展语料，即使最初接收的种子文本语料匮乏，通过本方法也可以扩展种子文本中的语料量，提高语言模型训练的准确度。当WER与上一次扩展语料在测试文本上的WER相比不再减少时，便停止扩展语料，防止无限扩展语料。

实施例二

实施例二是在实施例一的基础上进行的，主要对种子文本的扩展更新过程进行了解释和说明。

在得到扩展语料后，本实施例还会对扩展语料进行进一步筛选，具体地，将所述扩展语料加入到所述种子文本，形成新种子文本，包括以下步骤：

通过上述的预设方法就可以实现对扩展语料的进一步删选；其中，模型插值融合指的是用新的种子文本生成语言模型，并与之前种子文本生成的语言模型进行模型的合并，语言模型的插值融合可以通过语言模型训练工具SRILM实现；文本融合指的是直接将新的种子文本与之前的种子文本进行融合，生成新的语言模型；也可以是文本融合后提取新的关键词，根据新的关键词进行语料的筛选。

本实施例还对停止更新种子文本，即停止扩展语料的一种优选实施方式的具体过程进行了解释和说明，具体地，请参照图4所示，使用所述新种子文本执行S130-S140步骤，直到得到的扩展语料在所述测试文本上的WER不再减小，即停止扩展，包括以下步骤：

S210、计算所述扩展语料在所述测试文本的WER；

S210中的扩展语料为实施例一中最终筛选出的扩展语料，S210中会对测试文本和扩展语料进行WER的计算，WER的具体计算过程请参照实施例一中的相关说明。

S220、当所述扩展语料是通过预设ppl阈值筛选出的扩展语料时，比较所述WER与所述预设ppl阈值对应的WER；

S230、当所述扩展语料是通过预设相似度阈值筛选出的扩展语料时，比较所述WER与所述预设相似度阈值对应的WER；

比较WER时，需要根据扩展语料的筛选方法确定与预设ppl阈值对应的WER还是预设相似度阈值对应的WER进行比较，扩展语料的筛选方法为实施例一中涉及的两种优选方法。

S240、当所述WER小于所述预设ppl阈值或预设相似度阈值对应的WER时，执行S130-S140步骤；

当WER小于前一次扩展语料对应的最小的WER值时，说明本次扩展语料有较好的识别效果，因此，继续筛选语料以便于找到更多的扩展语料。

S250、否则，停止扩展语料。

当WER值等于或大于预设ppl阈值或预设相似度阈值对应的WER值时，说明本次筛选出的扩展语料已经不具备较好的识别效果了，语料池中的相似度高语料已被筛选完，因此，需要停止扩展语料。

实施例三

实施例三公开了一种对应上述实施例的语料扩展方法对应的装置，为上述实施例的虚拟装置结构，请参照图5所示，包括：

接收模块310，用于接收待分析文本及语料池数据，对所述待分析文本及所述语料池数据进行预处理；并将所述待分析文本分为种子文本和测试文本；

计算模块320，用于在所述种子文本数量大于预设数量时，使用所述种子文本生成语言模型，并计算所述语料池数据中语料文本在所述语言模型中的困惑度ppl，将困惑度ppl小于最优ppl阈值的语料文本作为扩展语料；在所述种子文本数量小于或等于预设数量时，计算所述语料池数据中语料文本与所述种子文本的相似度距离，将相似度距离小于最优阈值的语料文本作为扩展语料；

输出模块330，用于将所述扩展语料加入到所述种子文本，形成新种子文本，将所述新种子文本输入所述计算模块进行语料扩展，直到得到的扩展语料在所述测试文本上的WER不再减小，即停止扩展，并输出最终得到的扩展语料。

实施例四

图6为本发明实施例四提供的一种电子设备的结构示意图，如图6所示，该电子设备包括处理器410、存储器420、输入装置430和输出装置440；计算机设备中处理器410的数量可以是一个或多个，图6中以一个处理器410为例；电子设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接，图6中以通过总线连接为例。

存储器420作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的语料扩展方法对应的程序指令/模块（例如，语料扩展方法装置中的接收模块310、计算模块320和输出模块330）。处理器410通过运行存储在存储器420中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述实施例一和实施例二的语料扩展方法。

存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器420可进一步包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的用户身份信息、待分析文本数据以及预料池数据等。输出装置440可包括显示屏等显示设备。

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质，该存储介质可用于计算机执行语料扩展方法，该方法包括：

S120、将所述待分析文本分为种子文本和测试文本；

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的基于语料扩展方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器（Read-Only Memory， ROM）、随机存取存储器（RandomAccess Memory， RAM）、闪存（FLASH）、硬盘或光盘等，包括若干指令用以使得一台电子设备（可以是手机，个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

值得注意的是，上述基于语料扩展方法装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种语料扩展方法，其特征在于，包括以下步骤：

S120、将所述待分析文本分为种子文本和测试文本；

S140、将所述扩展语料加入到所述种子文本，形成新种子文本，使用所述新种子文本执行S130-S140步骤，直到得到的扩展语料在所述测试文本上的WER不再减小，即停止扩展，并输出最终得到的扩展语料；其中，使用所述新种子文本执行S130-S140步骤，直到得到的扩展语料在所述测试文本上的WER不再减小，即停止扩展，包括以下步骤：

计算所述扩展语料在所述测试文本的WER；

否则，停止扩展语料。

2.如权利要求1所述的语料扩展方法，其特征在于，所述预处理包括分词、文本清洗、标准化、特征提取。

3.如权利要求1所述的语料扩展方法，其特征在于，当所述种子文本数量大于预设数量时，使用所述种子文本生成语言模型，并计算所述语料池数据中语料文本在所述语言模型中的困惑度ppl，将困惑度ppl小于预设ppl阈值的语料文本作为扩展语料，包括以下步骤：

计算语料池数据中语料文本在所述语言模型中的困惑度ppl；

4.如权利要求1所述的语料扩展方法，其特征在于，计算所述语料池数据中语料文本与所述种子文本的相似度距离，将相似度距离小于预设阈值的语料文本作为扩展语料，包括以下步骤：

提取所述种子文本和所述语料文本的关键词；

根据所述关键词形成的句子向量余弦距离判定相似度距离；

5.如权利要求4所述的语料扩展方法，其特征在于，所述关键词的提取方法包括TFIDF、TextRank、topic相似度中的一种。

6.如权利要求1所述的语料扩展方法，其特征在于，将所述扩展语料加入到所述种子文本，形成新种子文本，包括以下步骤：

7.一种语料扩展装置，其特征在于，其包括：

输出模块，用于将所述扩展语料加入到所述种子文本，形成新种子文本，将所述新种子文本输入所述计算模块进行语料扩展，直到得到的扩展语料在所述测试文本上的WER不再减小，即停止扩展，并输出最终得到的扩展语料；其中，将所述新种子文本输入所述计算模块进行语料扩展，直到得到的扩展语料在所述测试文本上的WER不再减小，即停止扩展，包括以下步骤：计算所述扩展语料在所述测试文本的WER；当所述扩展语料是通过预设ppl阈值筛选出的扩展语料时，比较所述WER与所述预设ppl阈值对应的WER；当所述扩展语料是通过预设相似度阈值筛选出的扩展语料时，比较所述WER与所述预设相似度阈值对应的WER；当所述WER小于所述预设ppl阈值或预设相似度阈值对应的WER时，使用所述扩展语料输入所述计算模块进行语料扩展；否则，停止扩展语料。

8.一种电子设备，其包括处理器、存储介质以及计算机程序，所述计算机程序存储于存储介质中，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6任一项所述的语料扩展方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6任一项所述的语料扩展方法。