CN109948142B

CN109948142B - 语料选取处理方法、装置、设备及计算机可读存储介质

Info

Publication number: CN109948142B
Application number: CN201910072150.6A
Authority: CN
Inventors: 杨福星; 曹琼; 郝玉峰
Original assignee: Beijing Haitian Rui Sheng Polytron Technologies Inc
Current assignee: Beijing Haitian Rui Sheng Polytron Technologies Inc
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2020-01-14
Anticipated expiration: 2039-01-25
Also published as: CN109948142A

Abstract

本发明实施例提供一种语料选取处理方法、装置、设备及计算机可读存储介质。本发明实施例的方法，通过根据原始句长分布，从所述原始语料中选取满足句数要求和句长要求、且与所述原始句长分布相匹配的语料，作为初始句长分布模型，得到的初始句长分布模型的句长分布与原始句长分布一致或者非常接近；通过对所述初始句长分布模型进行修正处理，得到满足总字数要求、句数要求和句长要求的最终句长分布模型，使得得到的最终句长分布模型的句长分布接近原始句长分布，符合语料设计中对于句长分布的要求。

Description

语料选取处理方法、装置、设备及计算机可读存储介质

技术领域

本发明实施例涉及语料库筛选技术领域，尤其涉及一种语料选取处理方法、装置、设备及计算机可读存储介质。

背景技术

在语音合成、语音识别、自然语言处理等领域，均需要从语料库中选取大量的符合具体应用场景的语料，作为训练数据进行模型训练。目前的语料设计项目中，通常获取满足用户指定的句数和句长的要求的语料，在某些应用场景下用户还对选取语料的总字数有要求。例如，要求语料中每个句子的句长均控制在5-20内，句数为10000句，总字数为150000且总字数上下浮动不得超过3％，等等。

现有的语料选取方法，通过简单计算任意选取一组满足句长要求的不同句长的句子数量的组合，从语料库中选取符合要求的语料，例如：一种选取结果为：长度为5-10的句子每个取250句，长度为11-15的句子每个取500句，长度为16-20的句子每个取1200句，总句数为10000句，总字数为151750；或者另一种选取结果为：长度为15的句子取10000句；等等，多种选取结果均可以满足要求。

但是，现有的语料选取方法选取的语料中，存在句长分布与真实语料的句长分布相去甚远的情况，语料选取不符合语料设计对于句长分布的要求，最终会导致在应用于语音合成，语音识别和自然语言处理的结果精确度降低，效果不理想。

发明内容

本发明实施例提供一种语料选取处理方法、装置、设备及计算机可读存储介质，用以解决现有的语料选取方法选取的语料中，句长分布与真实语料的分句长分布相去甚远，语料选取不符合语料设计中对于句长分布的要求的问题。

本发明实施例的一个方面是提供一种语料选取处理方法，包括：

根据原始句长分布，从所述原始语料中选取满足句数要求和句长要求、且与所述原始句长分布相匹配的语料，作为初始句长分布模型；

对所述初始句长分布模型进行修正处理，得到满足总字数要求、句数要求和句长要求的最终句长分布模型。

本发明实施例的另一个方面是提供一种语料选取处理装置，包括：

初始选取模块，用于根据原始句长分布，从所述原始语料中选取满足句数要求和句长要求、且与所述原始句长分布相匹配的语料，作为初始句长分布模型；

修正模块，用于对所述初始句长分布模型进行修正处理，得到满足总字数要求、句数要求和句长要求的最终句长分布模型。

本发明实施例的另一个方面是提供语料选取处理设备，包括：

存储器，处理器，以及存储在所述存储器上并可在所述处理器上运行的计算机程序，

所述处理器运行所述计算机程序时实现上述所述的语料选取处理方法。

本发明实施例的另一个方面是提供一种计算机可读存储介质，存储有计算机程序，

所述计算机程序被处理器执行时实现上述所述的语料选取处理方法。

本发明实施例提供的语料选取处理方法、装置、设备及计算机可读存储介质，通过根据原始句长分布，从所述原始语料中选取满足句数要求和句长要求、且与所述原始句长分布相匹配的语料，作为初始句长分布模型，得到的初始句长分布模型的句长分布与原始句长分布一致或者非常接近；通过对所述初始句长分布模型进行修正处理，得到满足总字数要求、句数要求和句长要求的最终句长分布模型，使得得到的最终句长分布模型的句长分布接近原始句长分布，符合语料设计中对于句长分布的要求。

附图说明

图1为本发明实施例一提供的语料选取处理方法流程图；

图2为本发明实施例提供的语料句长分布示意图；

图3为本发明实施例二提供的语料选取处理方法流程图；

图4为本发明实施例提供的处理结果的示意图；

图5为本发明实施例三提供的语料选取处理装置的结构示意图；

图6为本发明实施例五提供的语料选取处理设备的结构示意图。

通过上述附图，已示出本发明明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明实施例构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明实施例的一些方面相一致的装置和方法的例子。

首先对本发明实施例所涉及的名词进行解释：

去尾法：也叫去尾原则，是去掉数字的小数部分、取其整数部分的数学取值方法，其取的值为近似值(比准确值小)。

此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。

下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

实施例一

图1为本发明实施例一提供的语料选取处理方法流程图；图2为本发明实施例提供的语料句长分布示意图。本发明实施例针对现有的语料选取方法选取的语料中，句长分布与真实语料的分句长分布相去甚远，语料选取不符合语料设计中对于句长分布的要求的问题，提供了语料选取处理方法。

本实施例中的方法应用于终端设备，该终端设备可以是智能手机、智能音箱等移动终端，也可以是服务器等，在其他实施例中，该方法还可应用于其他设备，本实施例以终端设备为例进行示意性说明。

如图1所示，该方法具体步骤如下：

步骤S101、根据原始句长分布，从原始语料中选取满足句数要求和句长要求、且与原始句长分布相匹配的语料，作为初始句长分布模型。

其中，句长分布指的是不同长度的句子的数量之间的比例，也就是说，句长分布近似是指不同长度的句子的数量之间的比例接近，而非是数量差值的接近。

本实施例中，原始句长分布可以是原始语料的句长分布，或者还可以由技术人员根据实际应用场景和经验指定的其他句长分布，本实施例此处不做具体限定。

如图2所示，表面看起来是原始分布(如图2中最上面的一条曲线所示)与目标分布2(如图2中中间的一条曲线所示)非常近似，目标分布2是以等差的关系来呈现不同句长分布之间的关系，但是实际上，以等差的方式来获取目标分布不能反映出在实际语料中不同句子的长度之间的联系，实际语料中不同句子的长度之间的联系应该是以等比的方式来呈现，也即是以各长度的句子的数量之间的比例来呈现。相对于目标分布2与原始分布的近似程度，图2中所示的目标分布1(如图2中最下面的一条曲线所示)与原始分布更加接近。

示例性地，可以采用句长分布的余弦相似度来评估不同语料的句长分布的近似程度。

具体的，计算两个句长分布的余弦相似度，可以采用如公式一实现：

其中，similarity表示两个句长分布的余弦相似度，A和B分别表示两个句长分布对应的向量，n是指向量A和向量B的长度，A_j和B_j分别表示A和B中的第j个数值。

本实施例中，根据原始句长分布，按照原始句长分布中各长度的句子所占的比例，从原始语料中选取满足句数要求和句长要求的语料，使得选取的语料中各目标长度的句子在选取的语料中的比例关系与对应长度的句子在原始句长分布中的比例关系匹配，从而使得选取的语料的句长分布与原始句长分布相匹配，将选取得到的满足句数要求和句长要求、且与原始句长分布相匹配的语料作为初始句长分布模型。这样，得到的初始句长分布模型的句长分布与原始句长分布一致或者非常接近。

步骤S102、对初始句长分布模型进行修正处理，得到满足总字数要求、句数要求和句长要求的最终句长分布模型。

从原始语料中选取得到初始句长分布模型，满足句数和句长要求，但是不一定满足总字数要求。该步骤中，对初始句长分布模型中部分目标句长的句子的进行增加或者减少，通过修正处理得到满足总字数要求、句数要求和句长要求的最终句长分布模型。其中，目标句长是指满足句长要求的句长。

本发明实施例通过根据原始句长分布，从原始语料中选取满足句数要求和句长要求、且与原始句长分布相匹配的语料，作为初始句长分布模型，得到的初始句长分布模型的句长分布与原始句长分布一致或者非常接近；通过对初始句长分布模型进行修正处理，得到满足总字数要求、句数要求和句长要求的最终句长分布模型，使得得到的最终句长分布模型的句长分布接近原始句长分布，符合语料设计中对于句长分布的要求。

实施例二

图3为本发明实施例二提供的语料选取处理方法流程图。在上述实施例一的基础上，本实施例中，原始句长分布可以是原始语料的句长分布，根据原始句长分布，从原始语料中选取满足句数要求和句长要求、且与原始句长分布相匹配的语料，作为初始句长分布模型，包括：获取目标句数与原始语料的句数的比例值；根据目标句数与原始语料的句数的比例值，计算每种目标句长的句子的数量；根据每种目标句长的句子的数量，从原始语料中选取语料，得到初始句长分布模型。

对初始句长分布模型进行修正处理，得到满足总字数要求、句数要求和句长要求的最终句长分布模型，包括：根据句长要求，确定各目标句长的中位数；若初始句长分布模型的总字数大于满足总字数要求的最大总字数，则增加初始句长分布模型中的短句子，并且减少初始句长分布模型中的长句子，得到最终句长分布模型；若初始句长分布模型的总字数小于满足总字数要求的最小总字数，则减少初始句长分布模型中的短句子，并且增加初始句长分布模型中的长句子，得到最终句长分布模型；其中，短句子是指将目标句长小于中位数的句子，长句子是指目标句长大于中位数的句子。

本实施例中，目标句长是指满足句长要求的句长。

如图2所示，该方法具体步骤如下：

步骤S201、获取目标句数与原始语料的句数的比例值。

具体的，首先采用公式

计算原始语料的总句数，其中，m表示原始语料中的最短的句长，N表示原始语料中的最长的句长，i可以在原始语料中的任意一种句长中取值，S_i表示原始语料中句长为i的句子的数量，m，N，k均为正整数。

目标句数与原始语料的句数的比例值r，可以采用如下公式二计算：

r＝c/C 公式二

其中，c表示根据句数要求确定的目标句数，C表示原始语料的总句数。

步骤S202、根据目标句数与原始语料的句数的比例值，计算每种目标句长的句子的数量。

该步骤具体可以采用如下步骤实现：

步骤一、根据以下公式三，计算每种目标句长的句子的数量：

其中，i为表示句长的正整数，s_i表示目标句长为i的句子的数量，S_i表示原始语料中句长为i的句子的数量，r表示目标句数与原始语料的句数的比例值。

该步骤中，由于句子的数量为正整数，因此，通过公式三，采用去尾法计算得到每种目标句长的句子的数量。

步骤二、计算每种目标句长的句子的数量的总和与目标句数的差值d。

具体可以采用如下公式四，计算差值d：

其中，c表示根据句数要求确定的目标句数，m表示原始语料中的最短的句长，N表示原始语料中的最长的句长，i可以在原始语料中的任意一种句长中取值。

步骤三、将所述差值d分配给预设数量的目标句长的句子。

具体的，首先确定计算每种目标句长的句子的数量时、所去掉的小数部分最大的d个目标句长。

具体的，根据步骤二中采用去尾法计算每种目标句长的句子的数量时所去掉的小数部分的数值的大小，选取出去掉的小数部分的值最大的d个目标句长。

然后，将所述差值d分配给预设数量的目标句长的句子。

其中，预设数量可以是d，或者预设数量还可以是小于d的正整数。例如，预设数量可以是d，可以将d个目标句长的句子的数量加1。

通过将d个目标句长的句子的数量加1，实现将每种目标句长的句子的数量的总和与目标句数的差值，均匀分配到对应的目标句长，以使个目标句长的句子的数量的总和与目标句数一致，得到初始句长分布模型中的各目标句长的句子的数量。

另外，预设数量还可以是小于d的正整数，将d分配给少于d个目标句长的句子。

步骤S203、根据每种目标句长的句子的数量，从原始语料中选取语料，得到初始句长分布模型。

通过上述步骤S201-S203得到的初始句长分布模型满足句数要求和句长要求，且初始句长分布模型的句长分布与原始句长分布一致或者非常接近。

步骤S204、计算初始句长分布模型的总字数。

步骤S205、判断初始句长分布模型的总字数是否满足总字数要求。

从原始语料中选取得到初始句长分布模型，满足句数和句长要求，但是不一定满足总字数要求。通过步骤S204-S205判断初始句长分布模型是否满足总字数要求。

若判断结果为初始句长分布模型的总字数满足总字数要求，则执行步骤S206，将初始句长分布模型作为最终句长分布模型。

若初始句长分布模型的总字数不满足总字数要求，则执行步骤S207-S209，对初始句长分布模型进行修正处理，得到满足总字数要求、句数要求和句长要求的最终句长分布模型。

本实施例中，总字数要求通常是一个范围，根据总字数要求可以确定满足总字数要求的最大总字数和最小总字数。

该步骤中，通过比较初始句长分布模型的总字数与满足总字数要求的最大总字数和最小总字数的大小，来判断初始句长分布模型的总字数满足总字数要求。

如果初始句长分布模型的总字数大于或者等于最小总字数，并且初始句长分布模型的总字数小于或者等于最大总字数，则确定初始句长分布模型的总字数满足总字数要求。

如果初始句长分布模型的总字数小于最小总字数，或者初始句长分布模型的总字数大于最大总字数，则确定初始句长分布模型的总字数不满足总字数要求。

步骤S206、若初始句长分布模型的总字数满足总字数要求，则将初始句长分布模型作为最终句长分布模型。

步骤S207、若初始句长分布模型的总字数大于满足总字数要求的最大总字数，则增加初始句长分布模型中的短句子，并且减少初始句长分布模型中的长句子，得到最终句长分布模型。

其中，短句子是指将目标句长小于各目标句长的中位数的句子，长句子是指目标句长大于中位数的句子。

例如，各目标句长包括：3,5,6,7,8,9；可以确定各目标句长的中位数为6.5，那么，短句子是指句长小于6.5的句子，长句子是指句长大于6.5的句子，也就是说句长为3、5或6的句子都是短句子，句长为7、8或9的句子都是长句子。

示例性地，该步骤具体可以采用如下方式实现：

若初始句长分布模型的总字数大于最大总字数，则对初始句长分布模型进行以下第一修正处理：

步骤1、将初始句长分布模型中的长句子减少第一增量值，并且将初始句长分布模型中的短句子增加第一增量值。

其中，第一增量值为正整数，第一增量值越小，对初始句长分布模型的修正效果越好，例如第一增量值为1。另外，可以由技术人员根据实际需要进行设定，本实施例此处不做具体限定。

例如，各目标句长包括：3,5,6,7,8,9；句长为3、5或6的句子都是短句子，句长为7、8或9的句子都是长句子。假设第一增量值为1，该步骤1中将初始句长分布模型中句长为3,5和6的句子各减少1个，并将初始句长分布模型中的句长为7,8和9的句子各增加1个。

步骤2、计算本次修正后的初始句长分布模型的总字数。

步骤3、若本次修正后的初始句长分布模型的总字数大于最大总字数，则跳转执行步骤1，再一次对本次修正后的初始句长分布模型执行第一修正处理。

如果经过这一次修正后的初始句长分布模型的总字数仍然大于最大总字数，那么跳转执行步骤1，继续对本次修正后的初始句长分布模型执行下一次第一修正处理。

步骤4、若本次修正后的初始句长分布模型的总字数小于或者等于最大总字数，则将本次修正前的初始句长分布模型作为第一修正模型，对第一修正模型进行第二修正处理，得到最终句长分布模型。

如果本次修正后的初始句长分布模型的总字数不大于最大总字数，那么，说明经过本次修正之前的初始句长分布模型为一个逼近满足总字数要求的句长分布模型，将初始句长分布模型回退到本次修正之前，将本次修正前的初始句长分布模型作为第一修正模型。后续不再对第一修正模型进行第一修正处理，而是通过更加精细地第二修正处理对第一修正模型进行修正，并得到最终句长分布模型。

可选的，对初始句长分布模型进行每一轮第一修正处理时，可以对第一增量值进行调整，第一增量值可以按照预设的第一调整规则进行调整，第一调整规则可以由技术人员根据实际应用场景和经验进行设定，本实施例此处不做具体限定。

示例性地，对第一修正模型进行第二修正处理，得到最终句长分布模型，可以采用如下方式实现：

步骤a1、按照句长由小到大的顺序将各目标句长进行排序，得到目标句长序列。

步骤a2、根据目标句长序列，将各目标句长进行配对，每个配对中包括在目标句长序列的中位数两侧的、且与中位数的位置距离一致的第一句长和第二句长，第一句长小于第二句长。

其中，第一句长为短句子，第二句长为长句子。

例如，目标句长序列为：3，5，6，8，9，12；那么，目标句长序列的中位数为7，那么经过该步骤a2可以得到以下配对：(3,12)，(5,9)，(6,8)。其中，(6,8)与中位数的位置距离最小，(3,12)与中位数的位置距离最大，按照与中位数的位置距离由小到大的顺序进行排序后为：(6,8)，(5,9)，(3,12)。

步骤a3、按照与中位数的位置距离由小到大的顺序，依次将每个配对作为目标配对，对目标配对进行以下第二修正处理：

步骤a4、将第一修正模型中目标配对的第一句长的句子增加第二增量值，并且将第一修正模型中目标配对的第二句长的句子减少第二增量值；

该步骤a4中，将目标配对中短句子增加第二增量值，长句子减少第二增量值，经过这一次修正后，第一修正模型中的总字数将减少。

步骤a5、判断本次修正后的第一修正模型的总字数是否满足总字数要求；

步骤a6、若本次修正后的第一修正模型的总字数满足总字数要求，则将本次修正后的第一修正模型作为最终句长分布模型；

步骤a7、若本次修正后的第一修正模型的总字数不满足总字数要求，则将下一个配对作为新的目标配对，对新的目标配对进行第二修正处理。

具体的，如果本次修正后的第一修正模型的总字数不满足总字数要求，需要进一步确定第一修正模型的总字数是否仍然大于最大总字数。

如果第一修正模型的总字数仍然大于最大总字数，那么，继续将下一个配对作为新的目标配对，对新的目标配对进行第二修正处理。

如果第一修正模型的总字数小于最小总字数，那么，说明通过当前目标配对的修正幅度太大，放弃本次修正，将第一修正模型回退到对当前目标配对的本次修正之前，并将当前目标配对以及排序在该目标配对之后的配对均剔除，跳转去执行步骤a3，继续对回退到对当前目标配对的本次修正之前的第一修正模型进行第二修正处理。

可选的，第一增量值和第二增量值均为正整数，第二增量值小于或者等于第一增量值。对第一修正模型进行每一轮第二修正处理时，可以对第二增量值进行调整，第二增量值可以按照预设的第二调整规则进行调整，第二调整规则可以由技术人员根据实际应用场景和经验进行设定，本实施例此处不做具体限定。

步骤S208、若初始句长分布模型的总字数小于满足总字数要求的最小总字数，则减少初始句长分布模型中的短句子，并且增加初始句长分布模型中的长句子，得到最终句长分布模型。

其中，短句子是指将目标句长小于中位数的句子，长句子是指目标句长大于中位数的句子。

示例性地，该步骤具体可以采用如下方式实现：

若初始句长分布模型的总字数小于最小总字数，则对初始句长分布模型进行以下第三修正处理：

步骤1)、将初始句长分布模型中的长句子增加第一增量值，并且将初始句长分布模型中的短句子减少第一增量值；

该步骤1)中的第一增量值与上述步骤1中的第一增量值一致，此处不再赘述。

步骤2)、计算本次修正后的初始句长分布模型的总字数；

步骤3)、若本次修正后的初始句长分布模型的总字数小于最小总字数，则跳转执行步骤1)，再一次对本次修正后的初始句长分布模型执行第三修正处理；

可选的，对初始句长分布模型进行每一轮第三修正处理时，可以对第一增量值进行调整，第一增量值可以按照预设的第一调整规则进行调整，第一调整规则可以由技术人员根据实际应用场景和经验进行设定，本实施例此处不做具体限定。

步骤4)、若本次修正后的初始句长分布模型的总字数大于或者等于最小总字数，则将本次修正前的初始句长分布模型作为第二修正模型，对第二修正模型进行第四修正处理，得到最终句长分布模型。

如果本次修正后的初始句长分布模型的总字数不小于最小总字数，那么，说明经过本次修正之前的初始句长分布模型为一个逼近满足总字数要求的句长分布模型，将初始句长分布模型回退到本次修正之前，将本次修正前的初始句长分布模型作为第二修正模型。后续不再对第二修正模型进行第三修正处理，而是通过更加精细地第四修正处理对第二修正模型进行修正，并得到最终句长分布模型。

例如，句数要求为总句数为1000，句长范围为5-12，总字数要求的总字数范围为9900-10100，满足总字数要求的最大总字数为10100，最小总字数为9900。得到初始句长分布模型后，计算得到的初始句长分布模型的总字数只有9799个字，显然该初始句长分布模型的总字数小于满足总字数要求的最小总字数，因此通过减少短句子的数量，并增加长句子的数量来获取一个逼近满足总字数要求的句长分布模型，如经过计算，修正后的句长分布模型的总字数为9887，如果再进行一次修正，则将满足要求，或者句长分布模型的总字数将超过最大总字数，那么对初始句长分布模型的第三修正处理到此结束。

示例性地，对第二修正模型进行第四修正处理，得到最终句长分布模型，可以采用如下方式实现：

步骤b1、按照句长由小到大的顺序将各目标句长进行排序，得到目标句长序列；

步骤b2、根据目标句长序列，将各目标句长进行配对，每个配对中包括在目标句长序列的中位数两侧的、且与中位数的位置距离一致的第一句长和第二句长，第一句长小于第二句长；

步骤b3、按照与中位数的位置距离由小到大的顺序，依次将每个配对作为目标配对，对目标配对进行以下第四修正处理：

步骤b4、将第二修正模型中目标配对的第一句长的句子减少一个，并且将第二修正模型中目标配对的第二句长的句子增加一个；

步骤b5、判断本次修正后的第二修正模型的总字数是否满足总字数要求；

步骤b6、若本次修正后的第二修正模型的总字数满足总字数要求，则将本次修正后的第二修正模型作为最终句长分布模型；

步骤b7、若本次修正后的第二修正模型的总字数不满足总字数要求，则将下一个配对作为新的目标配对，对新的目标配对进行第四修正处理。

具体的，如果本次修正后的第二修正模型的总字数不满足总字数要求，需要进一步确定第二修正模型的总字数是否仍然小于最小总字数。

如果第二修正模型的总字数仍然小于最小总字数，那么，继续将下一个配对作为新的目标配对，对新的目标配对进行第四修正处理。

如果第二修正模型的总字数大于最大总字数，那么，说明通过当前目标配对的修正幅度太大，放弃本次修正，将第二修正模型回退到对当前目标配对的本次修正之前，并将当前目标配对以及排序在该目标配对之后的配对均剔除，跳转去执行步骤b3，继续对回退到对当前目标配对的本次修正之前的第二修正模型进行第四修正处理。

可选的，第一增量值和第二增量值均为正整数，第二增量值小于或者等于第一增量值。对第二修正模型进行每一轮第四修正处理时，可以对第二增量值进行调整，第二增量值可以按照预设的第二调整规则进行调整，第二调整规则可以由技术人员根据实际应用场景和经验进行设定，本实施例此处不做具体限定。

例如，采用一个句长分布在5-12，共计5549句的原始语料库，从中抽取1000句，句长范围为5-12，总字数要求在9900-10100之间的句长分布模型。那么本实施例的处理结果如图4所示。

可选的，本实施例中，可以实时地计算初始句长分布模型、第一修正模型、第二修正模型，或者最终句长分布模型的句长分布，与原始语料的句长分布的相似度，以提供给相关技术人员作为参考数据。具体的，计算句长分布的相似度的方法可以采用步骤S101中，计算两个句长分布的余弦相似度的方法一致，本实施例此处不再赘述。

本发明实施例通过获取目标句数与原始语料的句数的比例值；根据目标句数与原始语料的句数的比例值，计算每种目标句长的句子的数量；根据每种目标句长的句子的数量，从原始语料中选取语料，得到初始句长分布模型，使得初始句长分布模型与原始语料的句长分布一致或者非常接近；进一步地，通过对初始句长分布模型进行多层次地精细地修正，使得得到的最终句长分布模型在满足句数要求、句长要求和总字数要求的同时，保证最终句长分布模型的句长分布更加接近原始语料的句长分布。

实施例三

图5为本发明实施例三提供的语料选取处理装置的结构示意图。本发明实施例提供的语料选取处理装置可以执行语料选取处理方法实施例提供的处理流程。如图5所示，该语料选取处理装置30包括：初始选取模块301和修正模块302。

具体地，初始选取模块301用于根据原始句长分布，从原始语料中选取满足句数要求和句长要求、且与原始句长分布相匹配的语料，作为初始句长分布模型。

修正模块302用于对初始句长分布模型进行修正处理，得到满足总字数要求、句数要求和句长要求的最终句长分布模型。

本发明实施例提供的装置可以具体用于执行上述实施例一所提供的方法实施例，具体功能此处不再赘述。

实施例四

在上述实施例三的基础上，本实施例中，初始选取模块还用于：获取目标句数与原始语料的句数的比例值；根据目标句数与原始语料的句数的比例值，计算每种目标句长的句子的数量；根据每种目标句长的句子的数量，从原始语料中选取语料，得到初始句长分布模型。

可选的，初始选取模块还用于：

根据以下公式，采用去尾法计算每种目标句长的句子的数量：其中，i为表示句长的正整数，s_i表示目标句长为i的句子的数量，S_i表示原始语料中句长为i的句子的数量，r表示比例值；计算每种目标句长的句子的数量的总和与目标句数的差值d；将所述差值d分配给预设数量的目标句长的句子。

可选的，修正模块还用于：

若初始句长分布模型的总字数大于满足总字数要求的最大总字数，则增加初始句长分布模型中的短句子，并且减少初始句长分布模型中的长句子，得到最终句长分布模型；若初始句长分布模型的总字数小于满足总字数要求的最小总字数，则减少初始句长分布模型中的短句子，并且增加初始句长分布模型中的长句子，得到最终句长分布模型；其中，短句子是指将目标句长小于各目标句长的中位数的句子，长句子是指目标句长大于中位数的句子。

可选的，修正模块还用于：

若初始句长分布模型的总字数大于最大总字数，则对初始句长分布模型进行以下第一修正处理：将初始句长分布模型中的长句子减少第一增量值，并且将初始句长分布模型中的短句子增加第一增量值；计算本次修正后的初始句长分布模型的总字数；若本次修正后的初始句长分布模型的总字数大于最大总字数，则再一次对本次修正后的初始句长分布模型执行第一修正处理；若本次修正后的初始句长分布模型的总字数小于或者等于最大总字数，则将本次修正前的初始句长分布模型作为第一修正模型，对第一修正模型进行第二修正处理，得到最终句长分布模型。

可选的，修正模块还用于：

按照句长由小到大的顺序将各目标句长进行排序，得到目标句长序列；根据目标句长序列，将各目标句长进行配对，每个配对中包括在目标句长序列的中位数两侧的、且与中位数的位置距离一致的第一句长和第二句长，第一句长小于第二句长；按照与中位数的位置距离由小到大的顺序，依次将每个配对作为目标配对，对目标配对进行以下第二修正处理：将第一修正模型中目标配对的第一句长的句子增加一个，并且将第一修正模型中目标配对的第二句长的句子减少一个；判断本次修正后的第一修正模型的总字数是否满足总字数要求；若本次修正后的第一修正模型的总字数满足总字数要求，则将本次修正后的第一修正模型作为最终句长分布模型；若本次修正后的第一修正模型的总字数不满足总字数要求，则将下一个配对作为新的目标配对，对新的目标配对进行第二修正处理。

可选的，修正模块还用于：

若初始句长分布模型的总字数小于最小总字数，则对初始句长分布模型进行以下第三修正处理：将初始句长分布模型中的长句子增加第一增量值，并且将初始句长分布模型中的短句子减少第一增量值；计算本次修正后的初始句长分布模型的总字数；若本次修正后的初始句长分布模型的总字数小于最小总字数，则再一次对本次修正后的初始句长分布模型执行第三修正处理；若本次修正后的初始句长分布模型的总字数大于或者等于最小总字数，则将本次修正前的初始句长分布模型作为第二修正模型，对第二修正模型进行第四修正处理，得到最终句长分布模型。

可选的，修正模块还用于：

按照句长由小到大的顺序将各目标句长进行排序，得到目标句长序列；根据目标句长序列，将各目标句长进行配对，每个配对中包括在目标句长序列的中位数两侧的、且与中位数的位置距离一致的第一句长和第二句长，第一句长小于第二句长；按照与中位数的位置距离由小到大的顺序，依次将每个配对作为目标配对，对目标配对进行以下第四修正处理：将第二修正模型中目标配对的第一句长的句子减少一个，并且将第二修正模型中目标配对的第二句长的句子增加一个；判断本次修正后的第二修正模型的总字数是否满足总字数要求；若本次修正后的第二修正模型的总字数满足总字数要求，则将本次修正后的第二修正模型作为最终句长分布模型；若本次修正后的第二修正模型的总字数不满足总字数要求，则将下一个配对作为新的目标配对，对新的目标配对进行第四修正处理。

可选的，修正模块还用于：

计算初始句长分布模型的总字数；判断初始句长分布模型的总字数是否满足总字数要求；若初始句长分布模型的总字数满足总字数要求，则将初始句长分布模型作为最终句长分布模型；若初始句长分布模型的总字数不满足总字数要求，则执行对初始句长分布模型进行修正处理，得到满足总字数要求、句数要求和句长要求的最终句长分布模型的步骤。

本发明实施例提供的装置可以具体用于执行上述实施例二所提供的方法实施例，具体功能此处不再赘述。

实施例五

图6为本发明实施例五提供的语料选取处理设备的结构示意图。如图6所示，该语料选取处理设备40包括：处理器401，存储器402，以及存储在存储器402上并可由处理器401执行的计算机程序。

处理器401在执行存储在存储器402上的计算机程序时实现上述任一方法实施例提供的语料选取处理方法。

另外，本发明实施例还提供一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述任一方法实施例提供的语料选取处理方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求书指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。

Claims

1.一种语料选取处理方法，其特征在于，包括：

根据原始句长分布，从原始语料中选取满足句数要求和句长要求、且与所述原始句长分布相匹配的语料，作为初始句长分布模型；

对所述初始句长分布模型进行修正处理，得到满足总字数要求、句数要求和句长要求的最终句长分布模型；

所述根据原始句长分布，从所述原始语料中选取满足句数要求和句长要求、且与所述原始句长分布相匹配的语料，作为初始句长分布模型，包括：

获取目标句数与所述原始语料的句数的比例值；

根据所述目标句数与所述原始语料的句数的比例值，计算每种目标句长的句子的数量；

根据每种目标句长的句子的数量，从所述原始语料中选取语料，得到所述初始句长分布模型。

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标句数与所述原始语料的句数的比例值，计算每种目标句长的句子的数量，包括：

根据以下公式，采用去尾法计算每种目标句长的句子的数量：

其中，i为表示句长的正整数，s_i表示目标句长为i的句子的数量，S_i表示原始语料中句长为i的句子的数量，r表示所述比例值；

计算所述每种目标句长的句子的数量的总和与所述目标句数的差值d；

将所述差值d分配给预设数量的目标句长的句子。

3.根据权利要求1所述的方法，其特征在于，所述对所述初始句长分布模型进行修正处理，得到满足总字数要求、句数要求和句长要求的最终句长分布模型，包括：

若所述初始句长分布模型的总字数大于满足所述总字数要求的最大总字数，则增加所述初始句长分布模型中的短句子，并且减少所述初始句长分布模型中的长句子，得到所述最终句长分布模型；

若所述初始句长分布模型的总字数小于满足所述总字数要求的最小总字数，则减少所述初始句长分布模型中的短句子，并且增加所述初始句长分布模型中的长句子，得到所述最终句长分布模型；

其中，所述短句子是指将目标句长小于各目标句长的中位数的句子，所述长句子是指目标句长大于所述中位数的句子。

4.根据权利要求3所述的方法，其特征在于，若所述初始句长分布模型的总字数大于满足所述总字数要求的最大总字数，则增加所述初始句长分布模型中的短句子，并且减少所述初始句长分布模型中的长句子，得到所述最终句长分布模型，包括：

若所述初始句长分布模型的总字数大于所述最大总字数，则对所述初始句长分布模型进行以下第一修正处理：

将所述初始句长分布模型中的长句子减少第一增量值，并且将所述初始句长分布模型中的短句子增加所述第一增量值；

计算本次修正后的初始句长分布模型的总字数；

若本次修正后的初始句长分布模型的总字数大于所述最大总字数，则再一次对本次修正后的初始句长分布模型执行所述第一修正处理；

若本次修正后的初始句长分布模型的总字数小于或者等于所述最大总字数，则将本次修正前的初始句长分布模型作为第一修正模型，对所述第一修正模型进行第二修正处理，得到所述最终句长分布模型。

5.根据权利要求4所述的方法，其特征在于，所述对所述第一修正模型进行第二修正处理，得到所述最终句长分布模型，包括：

按照句长由小到大的顺序将各所述目标句长进行排序，得到目标句长序列；

根据所述目标句长序列，将各所述目标句长进行配对，每个所述配对中包括在所述目标句长序列的中位数两侧的、且与所述中位数的位置距离一致的第一句长和第二句长，所述第一句长小于所述第二句长；

按照与所述中位数的位置距离由小到大的顺序，依次将每个所述配对作为目标配对，对所述目标配对进行以下第二修正处理：

将所述第一修正模型中所述目标配对的第一句长的句子增加一个，并且将所述第一修正模型中所述目标配对的第二句长的句子减少一个；

判断本次修正后的第一修正模型的总字数是否满足所述总字数要求；

若本次修正后的第一修正模型的总字数满足所述总字数要求，则将本次修正后的第一修正模型作为所述最终句长分布模型；

若本次修正后的第一修正模型的总字数不满足所述总字数要求，则将下一个配对作为新的目标配对，对所述新的目标配对进行所述第二修正处理。

6.根据权利要求3所述的方法，其特征在于，若所述初始句长分布模型的总字数小于满足所述总字数要求的最小总字数，则减少所述初始句长分布模型中的短句子，并且增加所述初始句长分布模型中的长句子，得到所述最终句长分布模型，包括：

若所述初始句长分布模型的总字数小于所述最小总字数，则对所述初始句长分布模型进行以下第三修正处理：

将所述初始句长分布模型中的长句子增加第一增量值，并且将所述初始句长分布模型中的短句子减少所述第一增量值；

计算本次修正后的初始句长分布模型的总字数；

若本次修正后的初始句长分布模型的总字数小于所述最小总字数，则再一次对本次修正后的初始句长分布模型执行所述第三修正处理；

若本次修正后的初始句长分布模型的总字数大于或者等于所述最小总字数，则将本次修正前的初始句长分布模型作为第二修正模型，对所述第二修正模型进行第四修正处理，得到所述最终句长分布模型。

7.根据权利要求6所述的方法，其特征在于，所述对所述第二修正模型进行第四修正处理，得到所述最终句长分布模型，包括：

按照与所述中位数的位置距离由小到大的顺序，依次将每个所述配对作为目标配对，对所述目标配对进行以下第四修正处理：

将所述第二修正模型中所述目标配对的第一句长的句子减少一个，并且将所述第二修正模型中所述目标配对的第二句长的句子增加一个；

判断本次修正后的第二修正模型的总字数是否满足所述总字数要求；

若本次修正后的第二修正模型的总字数满足所述总字数要求，则将本次修正后的第二修正模型作为所述最终句长分布模型；

若本次修正后的第二修正模型的总字数不满足所述总字数要求，则将下一个配对作为新的目标配对，对所述新的目标配对进行所述第四修正处理。

8.根据权利要求1或3所述的方法，其特征在于，所述对所述初始句长分布模型进行修正处理，得到满足总字数要求、句数要求和句长要求的最终句长分布模型之前，还包括：

计算所述初始句长分布模型的总字数；

判断所述初始句长分布模型的总字数是否满足所述总字数要求；

若所述初始句长分布模型的总字数满足所述总字数要求，则将所述初始句长分布模型作为所述最终句长分布模型；

若所述初始句长分布模型的总字数不满足所述总字数要求，则执行所述对所述初始句长分布模型进行修正处理，得到满足总字数要求、句数要求和句长要求的最终句长分布模型的步骤。

9.一种语料选取处理装置，其特征在于，包括：

初始选取模块，用于根据原始句长分布，从原始语料中选取满足句数要求和句长要求、且与所述原始句长分布相匹配的语料，作为初始句长分布模型；

修正模块，用于对所述初始句长分布模型进行修正处理，得到满足总字数要求、句数要求和句长要求的最终句长分布模型；

所述初始选取模块还用于：获取目标句数与所述原始语料的句数的比例值；根据所述目标句数与所述原始语料的句数的比例值，计算每种目标句长的句子的数量；根据每种目标句长的句子的数量，从所述原始语料中选取语料，得到所述初始句长分布模型。

10.一种语料选取处理设备，其特征在于，包括：

所述处理器运行所述计算机程序时实现如权利要求1-8中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，存储有计算机程序，

所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的方法。