CN109101581A

CN109101581A - 一种文本语料的筛选方法及装置

Info

Publication number: CN109101581A
Application number: CN201810804731.XA
Authority: CN
Inventors: 王晓斐; 钱云
Original assignee: Anhui Namoyun Technology Co Ltd
Current assignee: Anhui Namoyun Technology Co Ltd
Priority date: 2018-07-20
Filing date: 2018-07-20
Publication date: 2018-12-28

Abstract

本申请提供了一种文本语料的筛选方法及装置，获取文本组合，从作为文本组合的子集的第一筛选文本组合中删除不满足第一预设条件的文本组合，得到第二筛选文本组合，第一预设条件包括：每个音段特征的出现次数在第一预设范围内。基于第二筛选文本组合，筛选文本语料。可见，以文本组合为单位，将文本组合中的音段特征作为筛选条件筛选语料，以筛选出音段特征的数量合适的文本组合，从而能够得到高质量的文本语料。

Description

一种文本语料的筛选方法及装置

技术领域

本申请涉及语音合成技术领域，尤其涉及一种文本语料的筛选方法及装置。

背景技术

随着语音合成技术的发展，现阶段可以很方便地使用软件合成个性化的语音。音频语料库是语音合成的基础。

音频语料库的构建过程主要包括以下几个方面：首先获取文本语料(以文字形式呈现的语料)，再对相关人员郎读文本语料的声音进行采集，得到音频语料(以声音形式呈现的语料)，若干音频语料构成音频语料库。

可见文本语料的质量直接关系到音频语料的质量，从而直接影响语音合成的效果。因此，如何筛选出高质量的文本语料，以提高音频语料的质量，成为目前亟待解决的问题。

发明内容

申请人在研究的过程中发现，所谓高质量的文本语料，至少应该满足以下条件：音段特征的数量合适。

本申请提供了一种文本语料的筛选方法及装置，目的在于解决如何筛选出高质量的文本语料的问题。

为了实现上述目的，本申请提供了以下技术方案：

一种文本语料的筛选方法，包括：

获取文本组合，所述文本组合由文本单位组合形成，所述文本单位为文本资源中被划分为一个集合的文本；

从第一筛选文本组合中删除不满足第一预设条件的文本组合，得到第二筛选文本组合，所述第一筛选文本组合为所述文本组合的子集；所述第一预设条件包括：每个音段特征的出现次数在第一预设范围内；

基于所述第二筛选文本组合，筛选文本语料。

可选的，所述第一预设条件还包括：

总字数在第二预设范围内。

可选的，所述第一筛选文本组合的获取过程包括：

从所述文本组合中删除音段特征覆盖率小于第一阈值的文本组合，得到所述第一筛选文本组合。

可选的，所述基于所述第二筛选文本组合，筛选文本语料包括：

对所述第二筛选文本组合排序，获取文本组合序列，所述排序至少包括：按照所述第二筛选文本组合中音段特征的均衡性从优到劣的顺序，对所述第二筛选文本组合进行排序；

将所述文本组合序列中的前预设数量个文本组合，作为筛选出的文本语料。

可选的，所述排序还包括：

将第一文本组合序列中，不满足第二预设条件的文本组合的次序从第一次序调整为第二次序，所述第二次序在所述第一次序之后，得到第二文本组合序列，所述第一文本组合序列为按照所述第二筛选文本组合中音段特征的均衡性从优到劣的顺序，对所述第二筛选文本组合进行排序的结果，所述第二预设条件为：所述文本单位属于同一个分类，或者，所述文本单位的数量为1。

可选的，在所述获取文本组合之前，还包括：

从所述文本资源中选择满足目标人群的特征的文本单位，所述目标人群的特征包括年龄、性别和阅读的兴趣领域。

可选的，在所述获取文本组合之前，还包括：

通过遍历所述文本单位，删除每个文本单位中长度大于第二阈值的句子和/或长度大于第三阈值的词语。

可选的，在所述删除每个文本单位中长度大于第二阈值的句子和/或长度大于第三阈值的词语之后，还包括：

删除所述文本单位中不存在文本的页面；

所述不存在文本的页面为：页码不包括在目标编号中的页面，所述目标编号为未删除的文本的编号，所述文本的编号包括：文本所在的文本单位的编号、文本在所述文本单位中的页码和文本在所在页中的顺序编号。

可选的，在所述获取文本组合之前，还包括：

依据目标人群的性别属性，从所述文本单位中删除性别属性与所述目标人群的性别属性不相同的文本。

一种文本语料的筛选装置，包括：

获取模块，用于获取文本组合，所述文本组合由文本单位组合形成，所述文本单位为文本资源中被划分为一个集合的文本；

删除模块，用于从第一筛选文本组合中删除不满足第一预设条件的文本组合，得到第二筛选文本组合，所述第一筛选文本组合为所述文本组合的子集；所述第一预设条件包括：每个音段特征的出现次数在第一预设范围内；

筛选模块，用于基于所述第二筛选文本组合，筛选文本语料。

一种文本语料的筛选设备，包括：

存储器和处理器；

所述存储器用于存储一个或多个程序；

所述处理器用于执行所述一个或多个程序，以使得所述文本语料的筛选设备实现上述的文本语料的筛选方法。

一种计算机可读介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的文本语料的筛选方法。

本申请所述的文本语料的筛选方法及装置，获取文本组合，从作为文本组合的子集的第一筛选文本组合中删除不满足第一预设条件的文本组合，得到第二筛选文本组合，第一预设条件包括：每个音段特征的出现次数在第一预设范围内。基于所述第二筛选文本组合，筛选文本语料。可见，以文本组合为单位，将文本组合中的音段特征作为筛选条件筛选语料，以筛选出音段特征的数量合适的文本组合，从而能够得到高质量的文本语料。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种文本语料的筛选方法的流程图；

图2为本申请实施例公开的又一种文本语料的筛选方法的流程图；

图3为本申请实施例公开的使用文本语料收集音频语料的过程的流程图；

图4为本申请实施例公开的一种文本语料的筛选装置的结构示意图。

具体实施方式

本申请实施例公开的文本语料的筛选方法，目的在于选择高质量的文本语料。申请人在研究的过程中发现，高质量的文本语料至少应为音段特征的数量合适的文本语料(进一步的，音段特征覆盖均匀也可以作为高质量的文本语料的标志)。基于此，本实施例公开的文本语料的筛选方法，依据音段特征的出现次数(进一步的，还可依据音段特征的覆盖性)，对文本进行排序，以筛选出高质量的文本语料。

在本案的以下实施例中，音素是指，语音中的最小单位，依据音节里的发音动作来分析，一个动作构成一个音素，音素分为元音、辅音两大类。比如汉语音节ā(阿)只有一个音素，ài(爱)有两个音素。有时候，音素会被放在上下文中考虑，这样就形成了三元音素或者多元音素。

音节是指，语音中最自然的结构单位，确切地说，音节是音位组合构成的最小的语音结构单位。它的构成分头腹尾三部分，因而音节之间具有明显可感知的界限。在汉语中一般一个汉字的读音即为一个音节。普通话常用基本无调音节为400个，有调音节(不包括轻声)为1300多个。

音段特征为单个发音单元(例如音素和音节)，也可以为多个发音单元的组合。也就是说，音段特征可以为音素、音节、音素的组合以及音节的组合。对于一种语言，其中包括的所有音段特征已知或已预先设定。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例公开的一种文本语料的筛选方法，包括以下步骤：

S101：从文本资源中选择文本单位。

文本资源包括但不限于书本、绘本和视频(例如动画片)的台词。

本实施例中，文本单位可以为文本资源中已被划分为一个集合的文本，其中，集合可以包括但不限于一本书、一本绘本或者一部视频。举例说明，一本书中包括的所有文本，即为一个文本单位。在以下实施例中，将以此为文本单位的示例进行说明。

或者，文本单位也可以为预设长度的文本，包括但不限于一句话或几句话、或者若干词语等。

S102：将文本单位组合为文本组合。

文本组合中可以包括一个文本单位，也可能包括多个文本单位。例如，三本书组合形成的文本组合的数量为其中有仅包括一本书的文本组合，也有包括两本书或三本书的文本组合。

因为在一个文本单位内，有可能不能涵盖全部的音段特征，或者某个音段特征出现的次数较少，从而导致音频语料的音段特征覆盖不全，因此，将文本单位进行组合，可以提高文本中的音段特征覆盖率。

S103：从文本组合中删除音段特征覆盖率小于第一阈值th1的文本组合，得到第一筛选文本组合。

一个文本组合的音段特征覆盖率为：该文本组合中包括的全部音段特征的数量与预设的总的音段特征的数量的比值。其中，总的音段特征组合为，一种语言中所能涵盖的所有音段特征的总数量。

统计一个文本组合中包括的全部音段特征的数量的具体方式，可以参见现有技术，这里不再赘述。

S103的目的在于，对于文本组合进行初步筛选，减少后续筛选步骤的计算量。需要说明的是，S103为可选步骤，可以跳过。

S104：从第一筛选文本组合中删除不满足第一预设条件的文本组合，得到第二筛选文本组合。

具体的，第一预设条件包括：每个音段特征的出现次数在第一预设范围内。

第一预设范围的下限值为yTh_low，上限值为yTh_high。yTh_low和yTh_high可以依据经验设置，例如第一预设范围可以为[100,1000]。

可选的，第一预设条件还可以包括：总字数在第二预设范围内。

任意一个文本组合中的总字数为：该文本组合中所有的文本单位中的字数之和。

第二预设范围的下限值为wTh_low，上限值为wTh_high。wTh_low和yTh_high可以依据经验设置，例如第二预设范围可以为[1000,10000]。

因为字数过少或过多的文本语料不利于训练语音合成使用的语言模型，因此，删除总字数不在第二预设范围内的文本组合的目的在于，为后续进一步提高语音合成的效果奠定基础。

需要说明的是，在跳过S103的情况下，S104中从S102获取的文本组合中删除不满足预设条件的文本组合，得到第二筛选文本组合。

S105：按照音段特征的均衡性从优到劣的顺序，对第二筛选文本组合进行排序，得到第一文本组合序列。

音段特征的均衡性是指，不同的音段特征的数量之间的均衡性，不同的音段特征的数量越相近，均衡性越好，即音段特征覆盖越均衡。

本实施例中，可以使用不同的音段特征出现次数的方差作为均衡性衡量的指标，具体的，方差的计算公式为：

其中，s²为方差，n为音段特征数目，x_i为音段特征i出现的次数，为音段特征的平均出现次数。实际应用中为了作归一化比较，采用如下的公式：其中，s^,2为归一化后的方差，N为每个组合中音段特征出现总次数。

除了方差之外，标准差也可作为均衡性衡量的指标，这里不再赘述。

S106：将第一文本组合序列中的前L个文本组合，作为筛选出的最优文本语料。

L可以依据经验预先设置，例如L可以为5。

从图1所示的过程可以看出，删除每个音段特征出现次数不在第一预设范围的文本组合，以筛选出音段特征的数量合适的文本组合，并按照音段特征出现次数的方差从小到大的顺序，对文本组合进行排序，并将前L个文本组合作为最优文本组合，以筛选出音素覆盖的比例均衡的文本组合，因此能够得到高质量的文本语料。

相比于成人，儿童的理解能力和认知能力决定了儿童对文本语料的朗读效果不佳，即使采用系统领读、儿童跟读的形式，也会出现发音不准、不能流畅复述文本语料的内容等问题，使得收集到的音频语料质量较差，而无法用于语音合成。基于儿童的音频语料难以收集的问题，本申请在图1所示的方案的基础上，增加了针对儿童的特点的筛选条件，以得到适用于儿童的文本语料。

图2为本申请实施例公开的又一种文本语料的筛选方法，包括以下步骤：

S201：获取儿童的特征。

其中，儿童是指将要朗读文本语料，并被采集音频的儿童。

本实施例中，儿童的特征包括但不限于以下任意一项：年龄、性别、阅读的兴趣领域。具体的，可以通过互动形式获取儿童的特征。互动形式可以为直接询问儿童或者家长，也可以为通过互动界面(如包括选项的界面，儿童可在界面上选择选项)收集儿童的特征。或者，还可以收集并分析儿童日常的阅读习惯，得到儿童的特征。

S202：从文本资源中选择满足儿童的特征的文本单位。

具体的，可以预先按照基于儿童的特征所划分的分类，将文本资源中的文本单位划分为不同类型，其中，基于儿童的特征所划分的各个分类可以按需设置。例如，按照年龄划分，不同类型包括低幼读物、少儿读物和青少年读物。按照感兴趣领域下的子类：读物种类划分，不同类型包括文学类、科普类、卡通漫画类和古典读物类。按照感兴趣领域下的子类：题材划分，不同类型包括生活类、历史类、知识类、动物类和成语类。按照性别分类，不同类型包括男孩类和女孩类。

S203：对选定的文本单位进行编号。

本实施例中，对文本单位依次编号为并且，对每个文本单位中的文本进行编号，对文本编号的形式可以为：w_i,j,k，其中，i表示文本所在的文本单位的编号(中的任意一个)，j表示文本在文本单位中的页码，k表示文本在所在页中的顺序编号。

进行编号的文本的颗粒度为：以逗号或句号隔开的文本。当然，也可以选择其它标点符号。

可选的，除了上述顺序编号，可以为文本设置性别标识，具体的，首先确定文本的性别属性，再依据性别属性，为文本设置性别标识，例如性别属性为女，则为文本设置性别标识为1(0表示性别属性为男)。

确定文本的性别属性的具体方式为：通过检测语法规则获得文本单位中的目标文本，目标文本包括台词文本(如通过检测双引号获得)和/或角色的描述语(如通过检测冒号获得)，并比较目标文本与预先建立的性别属性描述文本库，如果目标文本中的词语命中性别属性描述文本库的词语，则依据命中的性别属性描述文本库的类型，确定目标文本的性别属性。

例如，预先建立的性别属性描述文本库包括：女性描述文本库和男性描述文本库。女性描述文本库中包括“她”、“女生”、“姐姐”和“女孩”等能够确定女性角色的词语，男性描述文本库中包括“他”、“先生”、“父亲”和“弟弟”等能够确定男性角色的词语，如果命中女性描述文本库中的词语，则文本的性别属性确定为女。

需要说明的是，如果无法命中性别属性描述文本库中的词语，则将文本的性别属性设置为男女皆宜。或者，不设置性别属性，表示没有性别属性的偏向，男女皆宜。

可选的，除了为文本设置编号外，还可以为文本单位中的图片设置编号，例如，图片的编号为p_j，j表示图片在文本单位中的页码。

S204：依据目标儿童(要朗读文本语料的儿童)的性别属性(即要录制语音语料的儿童是男孩还是女孩)，从文本单位中删除性别属性与目标儿童的性别属性不同的文本(如果要录制儿童语音语料的儿童是男孩，则删除具有女性属性的文本，否则，删除具有男性属性的文本)。

具体的，依据前述性别标识，确定各个文本的性别属性。

S205：通过遍历选定的文本单位，删除每个文本单位中长度大于第二阈值L_s(L_s为字数)的句子，以及长度大于第三阈值L_w(L_w为字数)的词语，得到预处理后的文本单位。

具体的，句子可以以逗号或句号划分得到，词语可以使用分词的方式得到。

因为长句或长词对于儿童的发音有较大的负面影响，因此，S204的目的在于，删除文本单位中的长句或长词，以便于儿童进行朗读。

需要说明的是，如果执行S204和S205后，文本单位中的某个页面上已不存在文本，无论该页面上有无图片，均删除该页面。具体的，可以依据上述文本编号中的页码，判断某个页面上是否存在文本。具体的，未删除的文本的编号中存在的页码表示的页面，为有文本的页面，如果一个页面的页码已不存在于未删除的文本的编号中，则说明该页面中已不存在文本。

S206：将预处理后的文本单位组合为文本组合。

S207：从文本组合中删除音段特征覆盖率小于第一阈值th1的文本组合，得到第一筛选文本组合。

S208：从第一筛选文本组合中删除不满足第一预设条件的文本组合，得到第二筛选文本组合。

S209：按照音段特征的均衡性从优到劣的顺序，对第二筛选文本组合进行排序，得到第一文本组合序列。

S207-S209与图1中所示的S103-S105相同，这里不再赘述。

S210：将第一文本组合序列中，不满足第二预设条件的文本组合的次序从第一次序调整为第二次序，得到第二文本组合序列，其中，第二次序在第一次序之后。

例如，文本组合1在第一文本组合序列中排在第三位，如果文本组合1不满足第二预设条件，则将文本组合1调整到第五位。

第二预设条件包括：文本组合中的文本单位属于同一个分类(可以采用预先基于儿童的特征所划分的分类)，或者，文本组合中的文本单位的数量为1。

因为属于同一个分类的文本单位，与分属于不同的分类的文本单位相比，内容的连续性更好，并且，一个文本单位的连续性优于多个文本单位的连续性，所以，满足第二预设条件的文本组合，具有更好的连续性。对于儿童而言，短时间内对于连续性较好的文本语料的接受能力更强，因此，S209的目的在于，使得文本语料更适用于儿童。

具体的，从第一次序调整为第二次序的具体情况可以包括但不限于：将次序调整到序列的末位、将第一次序往后调整预设数量个(例如一个)位次。

需要说明的是，上述步骤中，先按照音段特征的均衡性排序，再按照组合中文本单位的连续性对排序进行调整。除了上述的排序方式之外，也可以，综合考虑音段特征的均衡性和组合中文本单位的连续性，例如使用加权和计算综合分数的方式，对第二筛选文本组合进行排序。

S211：将第二文本组合序列中的前L个文本组合，作为筛选出的最优文本语料。

从图2所示的过程可以看出，除了基于每个音段特征出现次数和音段特征出现次数的方差筛选之外，还增加了基于儿童的特征选择文本单位、删除长句、长词和依据连续性排序这些有利于儿童朗读的筛选条件，使得筛选得到的文本语料不仅具有较高的质量，还适合儿童进行朗读。

需要说明的是，图2为针对儿童的文本语料筛选方法，除了儿童之外，本申请实施例所述的文本语料的筛选方法，还可以针对其他人群，如前所述，将要朗读文本语料的人群称为目标人群，获取针对目标人群的文本语料的过程与图2所示的过程类似，区别点主要在于(图2所示方法的变形)：

S201中，获取的是目标人群的特征，目标人群除了儿童之外，还可以包括老人、或者外国人等人群，以获得适用于目标人群的文本语料。S202中从文本资源中选择的是满足目标人群的特征的文本单位。S204中，依据的是目标人群的性别属性，从文本单位中删除性别属性与目标人群的性别属性不相同的文本。

在针对除儿童之外的其它人群的情况下，S205为可选步骤。

图3为使用文本语料收集音频语料的过程：

S301：使用前述文本语料筛选方法筛选得到文本语料。

具体的，如果要使得筛选出的文本语料对于目标人群更具针对性，可以使用图2所示的方法(或图2所示方法的变形方法)筛选得到文本语料、例如针对目标人群的特性，筛选文本单位、以及依据目标人群的性别属性，筛选文本等。

S302：以文本的编号为索引，在终端显示文本语料并提示目标人群朗读文本语料。

可选的，提示目标人群朗读文本语料的方式可以为：对于儿童之外的人群，可以使用着重显示的方式，将当前待读的文本与其它文本区别显示。对于儿童，可以领读显示的文本语料，以便于儿童跟读。

进一步的，以文本和图片的编号为索引，在显示文本语料的同时，显示与文本语料在同一个页面上的图片，以增强目标人群(尤其是儿童)的跟读兴趣和理解能力。

更进一步的，可以依据文本的性别标识，引导不同性别的目标人群分别进行跟读，例如，系统确定待领读的文本语料的性别标识为女，则通过语音引导女童跟读。

S303：在将目标人群的性别属性作为文本语料筛选依据的情况下，朗读与目标人群具有不同的性别属性的文本，作为目标人群朗读筛选出的文本语料的配合方。

例如，目标人群为女性，则朗读原始文本(假设筛选出的文本语料从原始文本中筛选出来)中的男性的语句，筛选出的文本语料为原始文本中的女性的语句(可能经过音段特征等筛选后，不是原始文本中全部的女性语句)，由目标人群朗读。

S304：采集目标人群的音频，依据音频检测算法检测音频合格的情况下，将采集的音频录入音频语料库，否则，可以引导目标人群重新跟读，直至文本语料被读完。

图4为本申请实施例公开的一种文本语料的筛选装置，包括：获取模块、删除模块和筛选模块。

其中，获取模块用于获取文本组合，所述文本组合由文本单位组合形成，所述文本单位为文本资源中被划分为一个集合的文本。删除模块用于从第一筛选文本组合中删除不满足第一预设条件的文本组合，得到第二筛选文本组合，所述第一筛选文本组合为所述文本组合的子集；所述第一预设条件包括：每个音段特征的出现次数在第一预设范围内。筛选模块用于基于所述第二筛选文本组合，筛选文本语料。

可选的，第一预设条件还包括：总字数在第二预设范围内。

可选的，获取模块还用于获取第一筛选文本组合，具体过程为：从所述文本组合中删除音段特征覆盖率小于第一阈值的文本组合，得到所述第一筛选文本组合。

可选的，筛选模块基于所述第二筛选文本组合，筛选文本语料的具体实现方式为：对所述第二筛选文本组合排序，获取文本组合序列，所述排序至少包括：按照所述第二筛选文本组合中音段特征的均衡性从优到劣的顺序，对所述第二筛选文本组合进行排序；并将所述文本组合序列中的前预设数量个文本组合，作为筛选出的文本语料。

进一步的，所述排序还包括：将第一文本组合序列中，不满足第二预设条件的文本组合的次序从第一次序调整为第二次序，所述第二次序在所述第一次序之后，得到第二文本组合序列，所述第一文本组合序列为按照所述第二筛选文本组合中音段特征的均衡性从优到劣的顺序，对所述第二筛选文本组合进行排序的结果，所述第二预设条件为：所述文本单位属于同一个分类，或者，所述文本单位的数量为1。

可选的，获取模块还用于在所述获取文本组合之前，从所述文本资源中选择满足目标人群的特征的文本单位，所述目标人群的特征包括年龄、性别和阅读的兴趣领域。

可选的，获取模块还用于在所述获取文本组合之前，通过遍历所述文本单位，删除每个文本单位中长度大于第二阈值的句子和/或长度大于第三阈值的词语。

可选的，获取模块还用于在所述删除每个文本单位中长度大于第二阈值的句子和/或长度大于第三阈值的词语之后，还包括：删除所述文本单位中不存在文本的页面；所述不存在文本的页面为：页码不包括在目标编号中的页面，所述目标编号为未删除的文本的编号，所述文本的编号包括：文本所在的文本单位的编号、文本在所述文本单位中的页码和文本在所在页中的顺序编号。

可选的，获取模块还用于在所述获取文本组合之前，依据目标人群的性别属性，筛选出性别属性与所述目标人群的性别属性相同的文本。

图4所示的文本语料的筛选装置，能够筛选出质量较高的文本语料，为后续获取高质量的语音语料奠定基础。

除此之外，本申请实施例还公开了一种文本语料的筛选设备以及计算机可读介质。

文本语料的筛选设备包括存储器和处理器，所述存储器用于存储一个或多个程序，所述处理器用于执行所述一个或多个程序，以使得所述文本语料的筛选设备实现前述的文本语料的筛选方法。

及计算机可读介质中存储有指令，当其在计算机上运行时，使得计算机执行前述的文本语料的筛选方法。

本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本语料的筛选方法，包括：

基于所述第二筛选文本组合，筛选文本语料。

2.根据权利要求1所述的方法，其特征在于，所述第一预设条件还包括：

总字数在第二预设范围内。

3.根据权利要求1所述的方法，其特征在于，所述第一筛选文本组合的获取过程包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述基于所述第二筛选文本组合，筛选文本语料包括：

5.根据权利要求4所述的方法，其特征在于，所述排序还包括：

6.根据权利要求1-3任一项所述的方法，其特征在于，在所述获取文本组合之前，还包括：

7.根据权利要求1-3任一项所述的方法，其特征在于，在所述获取文本组合之前，还包括：

8.根据权利要求7所述的方法，其特征在于，在所述删除每个文本单位中长度大于第二阈值的句子和/或长度大于第三阈值的词语之后，还包括：

删除所述文本单位中不存在文本的页面；

9.根据权利要求1-3任一项所述的方法，其特征在于，在所述获取文本组合之前，还包括：

10.一种文本语料的筛选装置，其特征在于，包括：

11.一种文本语料的筛选设备，其特征在于，包括：

存储器和处理器；

所述存储器用于存储一个或多个程序；

所述处理器用于执行所述一个或多个程序，以使得所述文本语料的筛选设备实现权利要求1-9中任一项所述的文本语料的筛选方法。

12.一种计算机可读介质，其特征在于，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行权利要求1-9中任一项所述的文本语料的筛选方法。