CN113780418A

CN113780418A - 一种数据的筛选方法、系统、设备和存储介质

Info

Publication number: CN113780418A
Application number: CN202111064035.8A
Authority: CN
Inventors: 谭风云; 魏韬; 王少军; 马骏
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2021-12-10
Anticipated expiration: 2041-09-10

Abstract

本发明涉及人工智能技术领域，提供一种数据的筛选方法、系统、设备和存储介质，其方法包括：训练得到第一语言模型，计算第一语言模型的第一困惑度；根据所述第一困惑度将所述第一语言模型的第一训练集分类得到至少两个语句集合；根据所述语句集合进行分词训练得到至少两个第二语言模型；将至少两个所述第二语言模型进行组合得到第三语言模型，通过所述第三语言模型对目标语料进行筛选得到目标文本数据；方法能够减小无效训练数据量，减少了训练过程中产生的噪音；方法还提高模型识别结果的通畅性和准确率，可广泛应用于人工智能技术领域。

Description

一种数据的筛选方法、系统、设备和存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种数据的筛选方法、系统、设备和存储介质。

背景技术

在语音识别和机器翻译等时间序列任务中，语言模型的性能通常都受限于训练数据的数量和质量，并不能仅仅通过增加训练数据规模的方式，提高语言模型的性能，也需要训练数据与当前训练任务相匹配。因此，相关技术主要包括两种实现方案：一种实现方案，从大规模的训练数据中筛选出和当前时序任务相似的训练数据，对语言模型进行训练，以提高语言模型的性能；然而，受制于数据的质量，该方法很容易将噪声带入到筛选的数据中，造成噪声繁衍；另一种实现方案，通过设置阈值的方式对训练数据筛选，然而通过简单筛选后的训练数据对语言模型进行训练，在数据筛选的过程中，所筛选得到文本语句的通畅性以及可读性较差。

发明内容

本发明实施例的主要目的在于提出一种受噪声影响更小，筛选得到的内容可读性更高的数据的筛选方法，以及能够实现该方法系统、设备以及相应的存储介质。

为实现前述目的，本发明实施例提供了一种数据的筛选方法，所述方法包括：

训练得到第一语言模型，计算所述第一语言模型的第一困惑度，所述第一语言模型用于预测输入语料为文本语句的概率；

根据所述第一困惑度将所述第一语言模型的第一训练集分类得到至少两个语句集合；

根据所述语句集合进行分词训练得到至少两个个第二语言模型；

将至少两个所述第二语言模型进行组合得到第三语言模型，通过所述第三语言模型对目标语料进行筛选得到目标文本数据。

为实现前述目的，本发明实施例还提供了一种数据的筛选系统，所述筛选系统包括：

模型训练单元，用于训练得到第一语言模型，计算所述第一语言模型的第一困惑度；

模型优化单元，用于根据所述第一困惑度将所述第一语言模型的第一训练集分类得到至少两个语句集合；并根据所述语句集合进行分词训练得到至少两个第二语言模型；

数据筛选单元，用于将所述第二语言模型进行组合得到第三语言模型，通过所述第三语言模型对目标语料进行筛选得到目标文本数据。

为实现前述目的，本发明实施例还提供了一种数据的筛选设备，所述设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，所述程序被所述处理器执行时实现前述方法的步骤。

为实现上述目的，本发明提供了一种存储介质，用于计算机可读存储，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现前述方法的步骤。

本发明的优点和有益效果将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到：

本发明提出的一种数据的筛选方法、设备和存储介质，方法首先通过已有的训练文本语料，初步训练得到第一语言模型；然后通过第一语言模型从训练文本语料筛选得到完整的语句，并根据模型输出结果与第一语言模型的困惑度进行划分，以筛选困惑度较小，可读性更强的文本，减小无效训练数据量，不仅节省了训练资源，还减少了模型训练过程中产生的噪音，能够有效地减少噪声繁衍，并且通过困惑度的筛选，有利于提高模型识别结果的通畅性和可读性；此外，方法根据筛选得到困惑度较小，且性更强的文本重新训练得到至少两个第二语言模型，通过至少两个语言模型合并的方式得到最终的语言模型，提高了方法的预测能力，在数据筛选过程中准确率更高。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种数据的筛选方法的步骤流程图。

图2为本发明实施例提供的另一种数据的筛选方法的步骤流程图。

图3为本发明实施例提供的一种数据的筛选方系统结构示意图。

图4为本发明实施例提供的一种数据的筛选方设备结构示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特有的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

语言模型(Language Model，LM)是根据语言客观事实而进行的语言抽象数学建模，是一种对应关系。语言模型与语言客观事实之间的关系，如同数学上的抽象直线与具体直线之间的关系。在相关技术中，语言模型根据其功能的不同可以划分为：生成性模型、分析性模型以及辨识性模型。而具体在本申请的技术方案中，主要涉及的是辨识性模型，从语言元素的某一规则出发，通过有限步骤的运算，确定语言元素的排列是错误的、无序的元素序列还是一个合格的、符合阅读习惯的语句。

在相关技术中，可以从大规模的训练数据中筛选和当前时序任务相似的训练数据的角度提高语言模型的性能；例如，根据一次解码的结果从目标语言端语言模型的训练数据中筛选和当前任务相似的训练数据，但该方法受限于一次解码的质量，容易将噪声带入到筛选的数据中，造成噪声繁衍。或者，可以通过计算句子中每个词在相关域内交叉熵与在非完全域内交叉熵的差值是否小于某个阈值的方法，筛选语言模型训练数据；该方法虽然可以在一定程度减少训练数据量，但根据词的交叉熵的方式，并未参考句子中词的上下文依赖关系，筛选出来的句子通畅性较差，或者不符合阅读习惯。

基于前述对相关技术的数据的方案所存在的缺陷，本申请技术方案是根据句子的困惑度(perplexity，PPL)来筛选困惑度较小任务相关性更强的文本，减小无效训练数据量，节省了训练资源，且不会将噪声带入语言模型训练中，减少噪声繁衍现象。此外，方案通过句子的困惑度筛选文本句子，充分利用了中语句中词语的上下文依赖关系，更符合句子样本的真实语法，提升句子通畅性和合理性。另外，本申请还可结合多个语言模型进行插值，根据不同的插值比，设置不同的权重参数，进而提高了语言模型的预测能力，以及提升语音识别等时序任务的识别准确率。

如图1所示，本实施例提供了一种数据的筛选方法，该方法主要包括步骤S100-S400：

步骤S100：训练得到第一语言模型，计算第一语言模型的第一困惑度；

实施例步骤中的第一语言模型是指根据现有的或历史数据中的文本语料，初步训练得到的语言模型LM₀。具体在实施例中，首先将原始的业务数据进行汇集，将汇集后的业务数据进行必要的数据清洗，以去除空缺的数据记录以及明显不属于文本的数据记录；将清洗后的数的格式属性转换成统一的文本语料格式，以得到用于初步训练的第一训练集。在进行语言模型训练之前，实施例可以对训练集中的文本语料进行必要的预处理，去除文本预料中的标点符号、空格和特殊字符，再对文本语料进行分词，得到分完词的文本内容，即由若干个词汇所组成的语料，可以根据任意预设长度从语料中截取得到词汇的序列；将语料作为待训练模型的输入，训练得到第一个语言模型LM₀。

具体在实施例中，所采用的语言模型为3-gram语言模型，通过调用Srilm工具脚本和整理得到文本语料训练集，初步训练得到一个3-gram语言模型LM₀。

更为具体地，N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。

根据语言模型的定义，实施例中语言模型的预测结果是在输入的若干语料中筛选得到包含有若干词汇的序列；而实施例中预测结果为文本语句的概率是指包含有若干词汇的序列为合格的语句的概率，即序列中的词汇的排序符合正常的阅读习惯；困惑度是用来度量一个概率分布或概率模型预测样本的好坏程度，低困惑度的概率分布模型或概率模型能更好地预测样本；而在本实施例中，困惑度是衡量语言模型好坏的指标，即困惑度，该语言模型所筛选得到的语句通畅性更好，可读性更强。

具体地，实施例根据模型输出结果中的各个合格语句中每个词出现的概率来表示模型的困惑度，因此，困惑度也能够用于表征通过该语言模型筛选得到的语句中各个词语之间的关联关系或依赖关系。示例性地，在实施例某一训练阶段中，语言模型筛选得到的语句为“XXXX您欢迎”，其困惑度值为115；在另一训练阶段中，语言模型筛选得到的语句为“XXXX欢迎您”，其困惑度值为60，两相对比，后一阶段中的语言训练模型的语句更符合表达习惯，且日常应用场景也更多；通过困惑度值的比较，前一阶段的语言模型筛的困惑度更高，那么其能正确预测任务相关数据的能力相对更差。

步骤S200：根据第一困惑度将第一语言模型的第一训练集分类得到至少两个语句集合；

在实施例中，语句合集是指在语言模型LM₀训练的过程中或者训练完成后，通过语言模型LM₀对训练集中的语料进行筛选得到的满足预设的困惑度条件的语句的集合。

具体地，实施例中首先通过设置阈值的方式对语言模型所输出得到的结果进行筛选，即设置模型预测的某一段词汇序列为合格文本语句的概率需要满足预设的概率阈值，则实施例确认该段词汇序列为合格文本语句；其后，通过该合格文本语句的概率计算得到在该语言模型下的困惑度，并根据预设的困惑度阈值将该合格文本语句进行分类，根据不同困惑度的分类整合得到对应的语句集合。

示例性地，实施例中预先设定模型预测概率不小于85％的词汇序列为合格语句，以模型不同训练阶段输出得到两个合格语句为例，即两段预测概率均大于85％的词汇序列，分别为“请问您需要什么帮助”以及“请您问需要什么帮助”；实施例中预先设定了困惑度值为100，计算得到前一语句的困惑度值为56，计算得到后一语句的困惑度为124，则在语句集合的划分过程中，实施例将两段语句分别划分到两个不同的语句集合之中。

步骤S300：根据语句集合进行分词训练得到至少两个第二语言模型；

其中，第二语言模型是独立于初步训练的语言模型LM₀重新训练的语言模型LM₁；可以理解的是，实施例中第二语言模型的数量可以根据实际应用场景对于数据筛选精确度的不同需求进行设置；例如，在某个业务数据筛选的场景中，可以设置两个独立与第一语言模型LM₀的语言模型LM₁和LM₂。此外，在第二语言模型的训练过程中，相较于第一语言模型训练过程，对训练用的数据集或语料进行调整。

以金融领域的数据筛选任务为例，为了提高最终的语言模型对待筛选语料的包容度和模型的可操作性，实施例在第二语言模型LM₁的训练过程中，可以采用包含了寿险、产险、银行等多个业务的文本语料和相关数据的数据集或者数据库，并将步骤S200中得到的语句集合与该数据库或数据集进行整合形成新的训练语料，通过该训练语料训练得到第二语言模型LM₁。

步骤S400：将至少两个第二语言模型进行组合得到第三语言模型，通过第三语言模型对目标语料进行筛选得到目标文本数据；

在实施例中，第三语言模型是通过初步训练得到的语言模型LM₁和通过步骤S200-S300训练得到语言模型LM₂进行合并得到的语言模型，其中，合并方式包括但不限于通过计算各个模型之间的最优插值比，根据最优插值比进将前序步骤训练得到语言模型进行合并得到最终的语言模型。此外，实施例中前序步骤中训练得到第一语言模型和第二语言模型采用的是3-gram语言模型，则将若干个第二语言模型进行差值合并后所得到的模型为4-gram大语言模型。可以理解的是，实施例中在步骤S300的过程中，可以训练得到多个第二语言模型，例如，通过步骤S200中的困惑度划分得到两个困惑度取值范围的语句集合，并通过两个语句合集分别训练得到语言模型LM₁和语言模型LM₂，并且实施例还通过公开的语料库训练得到了另一个语言模型LM₃，采用Srilm工具的compute-best-mix命令，根据模型的困惑度值计算得到各个语言模型与步骤S100中训练集的相关度，进而得出各个模型的最优插值比，再通过Srilm工具的ngram命令将LM₁、LM₂以及LM₃以合适的比值进行插值，得到合并后的4-gram大语言模型；最终实施例通过构建的4-gram大语言模型，对目标数据集，即目标语料内容进行相关任务数据的筛选，得到目标文本数据，其中，由于实施例中所训练和构建得到的模型均为语言模型，则相应筛选得到的目标文本数据主要为文本语句或者词汇序列等。

在一些可选择的实施例中，方法在将文本语句整合得到语句集合之前，步骤S200根据第一困惑度将第一语言模型的第一训练集分类得到至少两个语句集合，其可以包括步骤S210-S220：

步骤S210：从训练集中提取得到若干语句片段，语句片段是由若干词语所组成的序列；

示例性地，实施例中的语言模型均采用3-gram语言模型，并且最终合并形成的模型为4-gram大语言模型；根据n-gram语言模型的性质，第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，模型所输出的概率就是各个词出现概率的乘积，这些概率值可以通过直接从语料中统计N个词同时出现的次数得到。所以，实施例中所采用3-gram语言模型或4-gram大语言模型，其输出的结果也反应了各个词汇在输入的语句片段或语料中的前后依赖关系，也使得最终通过4-gram大语言模型所筛选得到结果，能够一定程度上反映各个词汇之间的依赖关系，也使得筛选得到的(文本语句)结果通畅性更高。

步骤S220：根据链式规则对词语的相关性概率进行连乘，将得到的连乘结果作为语句片段的第一概率；并确定第一概率最小值的语句片段为文本语句。

示例性地，实施例中由m个词组成的词汇序列或者说一个文本语句S，且满足：

S＝w₁，w₂，...，w_N (1)

在表达式(1)中，N为正整数，用于表示句子长度，即该句中的词汇数量，w_i表示文本语句的各个词汇；模型最终输出其是否为初步合格的文本语句的概率P(S)，其满足：

P(S)＝P(w₁，w₂，...，w_N) (2)

而实施例中的链式规则，则是可以将表达式(2)分解形成若干概率的连乘，即：

在表达式(3)中P(w_i)表示第i个词的概率，P(w_i|w₁w₂...w_i-1)表示基于前i-1个词，计算得出第i个词的概率；根据链式规则所变换得到的表达式(3)可知，w_i的出现与前i-1个词相关，如w₂的出现受w₁影响，即在w₁的条件下出现w₂的概率；所以实施例中，通过3-gram语言模型预测是否为初步合格语句文本的概率会受上下文不同的词的影响，因此3-gram语言模型的输出结果，一定程度上也能够反应词语序列或语句文本中相邻词语之间的依赖关系。

此外，实施例中，语言模型所确定的初步合格语句文本的困惑度PPL(S)，其表达式为：

将表达式(4)进行整理得到：

在表达式(5)中，相对应地，S表示当前句子，N表示句长；可以理解的是，实施例中文所涉及的均为中文表达或中文语料，N表示句子中词的个数；结合表达式(4)和(5)，语言模型概率P(S)和困惑度PPL(S)的关系为：

由表达式(6)可以的得知，对于一个语言模型句子S的困惑度PPL(S)的值越小，P(S)越大，文本语句的概率P(S)与困惑度PPL(S)呈反相关关系；实施例在包含相同的词汇序列中选择困惑度值的最小值作为最终的合格文本语句。

在一些可选择的实施例中，一方面为了保证步骤S400合并得到的语言模型的筛选结果的准确性，另一方面还需要避免最终得到语言模型在筛选过程中出现过拟合的情况，以使语言模型的可用性更高，在步骤S200根据第一困惑度将第一语言模型的第一训练集分类得到至少两个语句集合的过程中，可以设置多个困惑度阈值，在构建了多种困惑度取值范围的语句集合作为训练集的同时，也去除了查考价值不高的语句文本。具体在方法的步骤S200中，还可以包括步骤S230或者S240：

步骤S230：确定第一困惑度小于第一预设值，将文本语句整合得到语句集合；

步骤S240：确定第一困惑度不小于第一预设值且小于第二预设值，将文本语句整合得到第二语句集合；

其中，第一预设值和第二预设值均为在语言模型训练之前设置的困惑度阈值，其可以作为语言模型输出的文本语句的困惑度值进行分类的依据。示例性地，实施例中预先设置的困惑度阈值分别为100和500，根据初步训练完成的语言模型对业务语料库的语料进行筛选，得到合格的文本语句的词汇序列，并进一步根据模型预测该词汇序列为文本语句的概率计算得到该文本语句的困惑度。根据预设的困惑度阈值(100和500)，从业务语料库中筛选PPL(困惑度)＜100的词汇序列或文本语句进行整合构建得到一个语句集合，记作Result1；将100≤PPL＜500的词汇序列或文本语句进行整合构建得到一个语句集合，记作Result2；所剩余的词汇序列的PPL≥500，其由于困惑度过大，其序列中的词汇的排序与正常的语言表达习惯差异较大而不具有参考价值，因此，实施中将不选择PPL≥500词汇序列或文本语句作为语言模型的训练数据。

在实施例中，需要选择至少两个语言模型进行合并得到最终的语言模型，则该方法在执行步骤S300的过程中，可以通过步骤S310-S320训练得到至少一个语言模型：

步骤S310：将语句集合中的文本语句进行复制，将复制得到的文本语句添加至第二训练集中，构建得到第一语料库；

步骤S320：对第一语料库中的语料进行分词训练得到第二语言模型；

示例性地，实施例在步骤S200中，预先设置的困惑度阈值为100，根据初步训练完成的语言模型对业务语料库的语料进行筛选，得到合格的文本语句的词汇序列，并进一步根据模型预测该词汇序列为文本语句的概率计算得到该文本语句的困惑度。根据预设的困惑度阈值(100)，从业务语料库中筛选PPL(困惑度)＜100的词汇序列(或文本语句)进行整合构建得到一个语句集合，记作Result1；将PPL≥100的词汇序列(或文本语句)进行整合构建得到一个语句集合，记作Result2。

然后，实施例将Result1复制若干遍追加到预先获取的业务语料库，即第二训练集中，对追加语句集合后的业务语料库，即第一语料库进行分词训练3-gram的LM₁；其中，将语句集合Result1进行复制的次数，可以根据具体应用场景的需求进行确定；通过复制困惑度低的文本语句构建的训练数据对语言模型进行训练，可以针对性地提高语言模型识别结果的精确性，并使得构建得到的语言模型输出的语句的表达更为顺畅，可读性更高。

应当理解的是，步骤S200根据困惑度阈值划分的得到另一个语句集合Result2，可以输入至一个待训练的3-gram语言模型，训练得到另一个语言模型LM₂，作为合并得到4-gram大语言模型的要素之一。实施例训练得到语言模型LM₂，在一定程度上也能够提高最终的语言模型的筛选结果的准确性。

除步骤S310-S330之外，该方法还可以通过步骤S340-S350训练得到至少一个语言模型：

步骤S340：获取公开语料内容，结合语句集合汇集形成第二语料库；

步骤S350：对第二语料库中的语料进行分词训练得到第二语言模型；

其中，区别于初步训练中所采用的训练集以及步骤S310-S330中的第一语料库，实施例重新构建一个新的语料库，即第二语料库，相较于训练集其可以包括更多任务相关领域的数据内容或语料文本等。

示例性地，实施例中所构建的第二语料库为140G的通用语料库，该语料库中的素材均为公开的语料内容，实施例可以通过获取相关领域的专业平台、网站以及软件上公开的数据内容，还可以通过爬虫工具从其他平台、网站以及软件爬取得到相关的语料内容，例如，可以从社交平台、百科词条、百博客文章、兴趣群组讨论以及相关新闻爬取语料形成140G通用语料库。进一步地，通过该140G通用语料库进行分词训练得到另一个语言模型LM₃，作为步骤S400中合并得到4-gram大语言模型的要素之一。实施例通过重新构建语料库并独立构建一个新的语言模型LM₃作为最终语言模型的组成要素，其从一定程度上提高了对需要进行筛选的目标语料目标的包容度，也能够有效地避免最终语言模型出现过拟合，导致筛选结果可用性不高的情况。

在一些可选择的实施例中，方法中步骤S400中将至少两个第二语言模型进行组合得到第三语言模型这一过程，还可以包括步骤S410-S420：

步骤S410：将语句集合输入到至少两个第二语言模型，生成至少两个第二困惑度；

在实施例中，第二困惑度是指区别于初步训练的语言模型LM₀所重新训练的第二语言模型的困惑度，即第二困惑度可以用于表征通过第二语言模型筛选得到的语句中各个词语之间的关联关系或依赖关系。

示例性地，以两个不同困惑度划分得到的语句集合为例，实施例通过两个语句集合分别训练得到两个不同的语言模型LM₁和LM₂，并计算得到LM₁的困惑度为40，计算得到LM₂的困惑度为60。根据困惑度的数值可以确定，语言模型LM₁所筛选得到语句文本的表达更加通顺，筛选效果要优于语言模型LM₂。

步骤S420：根据第二困惑度和第三困惑度的比值确定插值比，根据插值比，将至少两个第二语言模型进行合并得到第三语言模型；

示例性地，实施例将语言模型LM₁和LM₂进行和合并之前，通过Srilm的compute-best-mix脚本计算得到最优插值比，其脚本指令的输出如下：

compute-best-mix lambda＝″0.6，0.4″A_corpus.ppl B_corpus.ppl

即实施例中最终确定LM₁和LM₂的最优插值比0.6∶0.4；根据最优插值比进行合并后得到4-gram大语言模型。

需要说明的是，在实施例中，模型插值主要是根据插值比不同给各个语言模型里的多元词概率赋上不同的权重，比较常见的词，权重赋值高；因此，在实施例应用4-gram大语言模型进行任务相关的数据筛选过程中，会依据权重大小选择应输出的词，还可以应用到语音识别解码搜索等其他应用场景。

在一些可选择的实施例中，在训练得到第二语言模型之前，可以对输入模型的训练数据进行必要的分词处理，该分词处理的过程可以包括步骤S300a和步骤S300b：

步骤S300a：对语料进行清洗处理，删除语料中的标点符号、特殊符号以及空格；

步骤S300b：通过词典分词算法对清洗后的语料进行分词处理得到若干词语；

具体地，实施例中首先对对文本语料做清洗，去掉一些标点符号、空格和特殊符号，然后根据词典对语料文本中的句子进行分词；可以理解是该文本语料的来源可以是第一语料库或者第二语料库。

示例性地，以训练的语料中的某个文本片段为例，在分词处理之前，该文本片段为“您好，有什么可以帮您？”首先去掉文本片段中的逗号以及问号，然后通过加载的lexicon.txt的词典对所有的语料进行分词，对该文本片段分词得到的词汇包括“您好”、“有”、“什么”、“可以”、“帮”以及“您”；将包含了前述的词汇输入至语言模型，最终可以得到“有什么可以帮您”这一合格的语句文本。

结合附图1和附图2以具体的应用场景为例具体说明本申请技术方案的一种数据的筛选方法的实际应用。

以金融领域的数据筛选任务为例，待筛选的语料中包含了若干金融领域相关文本片段“第一季度净利润……同比增长……有所降低”，实施例首先将原始的金融业务数据进行汇集，将汇集后的业务数据进行必要的数据清洗，以去除空缺的数据记录以及明显不属于文本的数据记录；将清洗后的数的格式属性转换成统一的文本语料格式，以得到用于初步训练的训练集。在进行语言模型训练之前，实施例可以对训练集中的文本语料进行必要的预处理，去除文本预料中的标点符号、空格和特殊字符，再对文本语料进行分词，得到分完词的文本内容，即由若干个词汇所组成的语料，可以根据任意预设长度从预料中截取得到词汇的序列；将语料作为待训练模型的输入，调用Srilm工具脚本初步训练得到一个3-gram语言模型LM₀。

其次，实施例根据模型输出结果中的各个合格语句中每个词出现的概率来表示模型的困惑度，并通过设置阈值的方式对语言模型所输出得到的结果进行筛选，即设置模型预测的某一段词汇序列为合格文本语句的概率需要满足预设的概率阈值，则实施例确认该段词汇序列为合格文本语句；其后，通过该合格文本语句的概率计算得到在该语言模型下的困惑度，并根据预设的困惑度阈值将该合格文本语句进行分类，根据不同困惑度的分类整合得到两个语句集合。

为了提高最终的语言模型对待筛选语料的包容度和模型的可操作性，实施例在两个语句集合其一的LM₁的训练过程中，可以采用包含了寿险、产险、银行等多个业务的文本语料和相关数据的数据集或者数据库，并将第一个语句集合与该数据库或数据集进行整合形成新的训练语料，通过该训练语料训练得到语言模型LM₁。此外将另一语句集合输入至一个待训练的3-gram语言模型，训练得到另一个语言模型LM₂。

除语言模型LM₁和LM₂之外，实施例中还构建了140G的通用语料库，通过该140G通用语料库进行分词训练得到另一个语言模型LM₃。最后，实施例采用Srilm工具的compute-best-mix命令，根据模型的困惑度值计算得到各个语言模型与步骤S100中训练集的相关度，进而得出各个模型的最优插值比，再通过Srilm工具的ngram命令将LM₁、LM₂以及LM₃以合适的比值进行插值，得到合并后的4-gram大语言模型；最终实施例通过构建的4-gram大语言模型，对待筛选的目标数据或目标语料，并从其中精准快速的提取得到“第一季度净利润”、“同比增长”以及“有所降低”等语句片段。

本领域技术人员可以理解的是，本申请的实施例或者实施方式，可以扩充到如电商领域、教育领域等更多的应用场景中，在此不再一一赘述。

如图3所示，本发明实施例提供一种数据的筛选系统，该系统包括：

模型训练单元300，用于训练得到第一语言模型，计算第一语言模型的第一困惑度；

模型优化单元310，用于根据第一困惑度将第一语言模型的第一训练集分类得到至少两个语句集合；并根据语句集合进行分词训练得到至少两个第二语言模型；

数据筛选单元320，用于将至少两个第二语言模型进行组合得到第三语言模型，通过第三语言模型对目标语料进行筛选得到目标文本数据。

具体地，实施例系统首先通过模型训练单元，将待优化业务测试集整理成文本语料格式，预处理，去标点符号、空格和特殊字符，再根据词典进行分词，得到分完词的文本，作为输入文件，调用Srilm工具脚本训练一个3-gram的语言模型LM₀。然后构建一个业务语料库，该语料库可以包括寿险、产险、银行等多个业务的文本语料；再由语料处理单元计算业务大语料库中每个句子与语言模型LM₀的困惑度PPL；

系统中的模型优化单元利用LM₀的预测结果，在业务语料库中筛选ppl＜100的句子文本，记作Result1；同理，再筛选出ppl＜100的句子文本，记作Result2。然后，将得到的Result1复制若干遍追加到业务语料库中，对追加文本后的业务语料库进行分词训练3-gram的LM₁；利用140G通用语料库文本，分词训练通用语言模型作为LM₂；Result2进行分词处理，同样的使用Srilm工具训练一个3-gram的LM₃。

至此，实施例系统训练得到了三个语言模型LM₁、LM₂以及LM₃。将三个语言模型和待优化业务测试集作为输入，计算各个与待优化测试集中每个句子的PPL值，即使用Srilm工具的compute-best-mix命令，根据PPL值计算各个语言模型与整个测试集的相关度，进而得出各个模型的最优插值比。最后，使用Srilm工具的ngram命令，将LM₁、LM₂、LM₃以合适的比值进行插值，得到合并后的4-gram大语言模型。

实施例系统中的数据筛选单元通过构建的4-gram大语言模型，对目标数据集，即目标语料内容进行相关任务数据的筛选，得到目标文本数据。

如图4所示，本发明实施例提出一种数据的筛选设备400，该设备400包括存储器410、处理器420、存储在该存储器上并可在该处理器上运行的程序以及用于实现处理器410和存储器420之间的连接通信的数据总线430，该程序被该处理器执行时，以实现以下如图1所示的具体步骤：

步骤S100：获取训练文本语料形成训练集，通过训练集训练得到第一语言模型，计算第一语言模型的困惑度；

具体地，实施例设备首先将待优化业务测试集整理成文本语料格式，通过预处理去除标点符号、空格和特殊字符，再根据词典进行分词，得到分完词的文本，作为输入文件，调用Srilm工具脚本训练一个3-gram的语言模型LM₀。实施例设备根据业务语料库，计算业务大语料库中每个句子与语言模型LM₀的困惑度PPL；该语料库可以包括寿险、产险、银行等多个业务的文本语料。

具体地，利用LM₀的预测结果，在业务语料库中筛选PPL＜100的句子文本，记作Result1；同理，再筛选出PPL＜100的句子文本，记作Result2。

具体地，实施例设备将得到的Result1复制若干遍追加到业务语料库中，对追加文本后的业务语料库进行分词训练3-gram的语言模型LM₁；利用140G通用语料库文本，分词训练通用语言模型得到语言模型LM₂。

具体地，实施例将两个语言模型和待优化业务测试集作为输入，计算各个与待优化测试集中每个句子的PPL值，通过Srilm工具的compute-best-mix命令，根据PPL值计算各个语言模型与整个测试集的相关度，进而得出各个模型的最优插值比。最后，使用Srilm工具的ngram命令，将LM₁和LM₂以合适的比值进行插值，得到合并后的4-gram大语言模型。最终，实施例设备通过构建的4-gram大语言模型，对目标数据集，即目标语料内容进行相关任务数据的筛选，得到目标文本数据。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有一个或者多个程序，该一个或者多个程序可被一个或者多个处理器执行，以实现以下如图1所示的具体步骤：

S100：训练得到第一语言模型，计算第一语言模型的第一困惑度；

S200：根据第一困惑度将第一语言模型的第一训练集得到至少两个语句集合；

S300：根据语句集合进行分词训练得到至少两个第二语言模型；

S400：将至少两个第二语言模型进行组合得到第三语言模型，通过第三语言模型对目标语料进行筛选得到目标文本数据。

具体地，以某证券平台的某基金评论为例，待筛选的语料中包含了若干基金的评述性描述“坚持定投不动摇……涨幅较大”。实施例设备将待优化的测试集整理成文本语料格式，通过预处理去除标点符号、空格和特殊字符，再根据词典进行分词，得到分完词的文本，作为输入文件，调用Srilm工具脚本训练一个3-gram的语言模型LM₀。根据业务语料库，计算业务大语料库中每个句子与语言模型LM₀的困惑度PPL；该语料库可以包括寿险、产险、银行等多个业务的文本语料。再利用LM₀的预测结果，在业务语料库中筛选PPL＜100的句子文本，记作Result1；同理，再筛选出PPL＜100的句子文本，记作Result2。然后，实施例将得到的Result1复制若干遍追加到业务语料库中，对追加文本后的业务语料库进行分词训练3-gram的语言模型LM₁；利用140G通用语料库文本，分词训练通用语言模型得到语言模型LM₂。实施例将两个语言模型和待优化业务测试集作为输入，计算各个与待优化测试集中每个句子的PPL，通过Srilm工具的compute-best-mix命令，根据PPL值计算各个语言模型与整个测试集的相关度，进而得出各个模型的最优插值比。最后，使用Srilm工具的ngram命令，将LM₁和LM₂以合适的比值进行插值，得到合并后的4-gram大语言模型。最终，实施例设备通过构建的4-gram大语言模型，对目标数据集，即基金评论的语料内容中，筛选得到“坚持定投”、“涨幅较大”等关键性文本内容进行提取。

综上所述，本申请实施例提出的一种数据的筛选方法、计算机设备和存储介质，相较于现有的数据筛选技术方案，具有下述的优点或优势：

1)本申请技术方案通过语言模型从训练文本语料筛选得到完整的语句，并根据模型输出结果与语言模型的困惑度进行划分，以筛选困惑度较小，且任务相关性更强的文本，减小无效训练数据量，不仅节省了训练资源，还减少了模型训练过程中残障的噪音，能够有效地减少噪声繁衍。

2)本申请技术方案通过计算语句文本困惑度值，有效地反映了语句文本之间的依赖程度，有利于提高模型识别结果的通畅性和可读性。

3)本申请技术方案根据筛选得到困惑度较小，且任务相关性更强的文本重新训练得到新的语言模型，通过新的语言模型差值合并的方式得到最终的语言模型，提高了方法的预测能力，在任务相关数据筛选过程中准确率更高。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。而人工智能软件技术可以包括但不限于：计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在一些其他的可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

应当理解的是，除非另有相反说明，功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种数据的筛选方法，其特征在于，所述方法包括：

训练得到第一语言模型，计算所述第一语言模型的第一困惑度；

根据所述语句集合进行分词训练得到至少两个第二语言模型；

2.根据权利要求1所述的一种数据的筛选方法，其特征在于，所述将至少两个所述第二语言模型进行组合得到第三语言模型包括：

将所述语句集合输入到至少两个所述第二语言模型，生成至少两个所述第二语言模型的第二困惑度；

根据至少两个所述第二困惑度之间的比值确定插值比，根据所述插值比将至少两个所述第二语言模型进行合并得到所述第三语言模型。

3.根据权利要求1所述的一种数据的筛选方法，其特征在于，所述根据所述语句集合进行分词训练得到至少两个第二语言模型，包括：

将所述语句集合中的文本语句进行复制，将复制得到的所述文本语句添加至第二训练集中，构建得到第一语料库；

对所述第一语料库中的语料进行分词训练得到所述第二语言模型。

4.根据权利要求1所述的一种数据的筛选方法，其特征在于，所述根据所述语句集合进行分词训练得到至少两个第二语言模型，包括：

获取公开语料内容，结合所述语句集合汇集形成第二语料库；

对所述第二语料库中的语料进行分词训练得到所述第二语言模型。

5.根据权利要求1所述的一种数据的筛选方法，其特征在于，所述根据所述第一困惑度将所述第一语言模型的第一训练集分类得到至少两个语句集合，包括：

确定所述第一困惑度小于第一预设值，将所述文本语句整合得到第一语句集合；

或者，确定所述第一困惑度不小于所述第一预设值且小于第二预设值，将所述文本语句整合得到第二语句集合。

6.根据权利要求5所述的一种数据的筛选方法，其特征在于，在所述确定所述第一困惑度小于第一预设值，将所述文本语句整合得到第一语句集合这一步骤之前，包括：

从所述训练集中提取得到若干语句片段，所述语句片段是由若干词语所组成的序列；

根据链式规则将所述词语的相关性概率进行连乘，将连乘结果作为所述语句片段的第一概率；

确定第一概率最小值的所述语句片段为所述文本语句。

7.根据权利要求3或4所述的一种数据的筛选方法，其特征在于，进行所述分词训练之前，所述方法还包括：

对所述语料进行清洗处理，删除所述语料中的标点符号、特殊符号以及空格；

通过词典分词算法对清洗后的所述语料进行分词处理得到若干词语。

8.一种数据的筛选系统，其特征在于，包括：

模型训练单元，用于训练得到第一语言模型，计算所述第一语言模型的第一困惑度，所述第一语言模型用于预测输入语料为文本语句的概率；

数据筛选单元，用于将至少两个所述第二语言模型进行组合得到第三语言模型，通过所述第三语言模型对目标语料进行筛选得到目标文本数据。

9.一种数据的筛选设备，其特征在于，所述设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，所述程序被所述处理器执行时实现如权利要求1-7任一项所述的一种数据的筛选方法。

10.一种存储介质，用于计算机可读存储，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1至7中任一项所述的一种数据的筛选方法。