CN115048907A

CN115048907A - 文本数据质量确定的方法及装置

Info

Publication number: CN115048907A
Application number: CN202210612769.3A
Authority: CN
Inventors: 陈刚
Original assignee: Beijing Shenyan Technology Co ltd
Current assignee: Beijing Shenyan Technology Co ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-09-13
Anticipated expiration: 2042-05-31
Also published as: CN115048907B

Abstract

本申请提供一种文本数据质量确定的方法及装置，其中该方法包括：若确定文本数据的获取来源或对应的数据类型，不满足高质量预选规则，且文本数据的主体语言为简体中文，则确定文本数据进行第一字符预处理后的结果，作为第一文本数据；基于神经网络模型，确定第一文本数据对应的正向困惑度、反向困惑度和第一置信度；基于逻辑回归模型，确定第一文本数据对应的第二置信度；若第二置信度大于第一阈值，则确定第一文本数据属于高质量的文本数据。本申请通过对任意来源的文本数据进行第一字符预处理，对数据进行全面的清洗和过滤，提高文本数据质量，并可适用于大规模预训练模型，进而提高预训练模型的性能，具有良好的实用性。

Description

文本数据质量确定的方法及装置

技术领域

本申请涉及信息技术领域，尤其涉及一种文本数据质量确定的方法及装置。

背景技术

以基于Transformer的双向编码表示模型(Bidirectional EncoderRepresentation from Transformers，BERT)、生成式预训练模型(Generative Pre-Training 3，GPT-3)等为代表的大规模预训练模型在各项自然语言处理任务(包括文本理解和文本生成任务)中表现出优异的性能。这些预训练模型首先使用大量的文本数据进行自监督训练(训练任务主要为语言模型及掩码语言模型)学到较好的通用语言能力，然后再基于特定任务的有标注数据进行微调，通过迁移学习的范式适配到特定任务。

已有大量研究表明，预训练阶段使用的文本数据的规模及质量对预训练模型最终的性能有至关重要的影响。然而，现有的大规模预训练模型往往重视文本数据规模，但忽略了对文本数据做精细化预处理，导致模型训练时接收到的文本数据质量参差不齐，影响了最终的性能。而且由于训练语料大都来自互联网，其中往往会有不良文本数据，这些数据参与训练后还会使模型在部署于实际应用系统中也有异常的表现，例如生成不良文本内容。

中文经历了文字简化等变革，有很多字符已经过时乃至被废弃，并且互联网中同时存在多种类型的繁体和简体文本语料数据，上述文本数据的质量问题愈发突出，给中文大规模预训练模型的实际性能带来很大的负面影响。

因此，对于预训练模型训练所需的多个来源的海量文本数据，需要为此专门提出系统而全面的文本预处理方法，这样才能对文本数据进行充分的清洗和过滤，为大规模预训练模型提供高质量文本数据进行训练，最终实现较好的性能。

发明内容

针对现有技术存在的问题，本申请提供一种文本数据质量确定的方法及装置。

第一方面，本申请提供一种文本数据质量确定的方法，包括：

若确定文本数据的获取来源或对应的数据类型，不满足高质量预选规则，且所述文本数据的主体语言为简体中文，则确定所述文本数据进行第一字符预处理后的结果，作为第一文本数据；所述第一字符预处理用于对所述文本数据进行标准化和统一化处理；

基于神经网络模型，确定所述第一文本数据对应的正向困惑度、反向困惑度和第一置信度；所述正向困惑度是基于第一神经网络模型确定的，所述反向困惑度是基于第二神经网络模型确定的，所述第一置信度是基于第三神经网络模型确定的；

基于逻辑回归模型，以及所述正向困惑度、所述反向困惑度和所述第一置信度，确定所述第一文本数据对应的第二置信度；

若所述第二置信度大于第一阈值，则确定所述第一文本数据属于高质量的文本数据。

可选地，所述基于神经网络模型，确定所述第一文本数据对应的正向困惑度、反向困惑度和第一置信度之前，包括：

构建所述神经网络模型的训练数据集，所述训练数据集包括正例样本和负例样本，且所述正例样本为所述文本数据的获取来源或对应的数据类型满足高质量预选规则的所述文本数据，所述负例样本为包含大于预设数目个敏感字符的所述文本数据，所述敏感字符为第一敏感词表中的任一个；

基于所述正例样本，对Transformer解码器结构进行训练，得到第一神经网络模型；

基于所述负例样本，对所述Transformer解码器结构进行训练，得到第二神经网络模型；

基于所述正例样本和所述负例样本对应的掩码，确定BERT预训练模型的初始参数；

基于所述BERT预训练模型中新增的线性层，以及所述正例样本对应的二分类结果，以及所述负例样本的二分类结果，调整所述BERT预训练模型的第三模型参数，得到第三神经网络模型；

其中，所述Transformer解码器结构是基于神经网络模型构建的。

可选地，所述基于神经网络模型，确定所述第一文本数据对应的正向困惑度、反向困惑度和第一置信度之后，包括：

构建用于训练逻辑回归模型的第一数据集，所述第一数据集包括所述正向困惑度、所述反向困惑度和所述第一置信度；

将所述第一数据集作为输入，所述第一数据集中各元素对应的是正例样本还是负例样本作为输出，对所述逻辑回归模型进行训练，得到所述逻辑回归模型。

可选地，所述若确定文本数据的获取来源或对应的数据类型，不满足高质量预选规则，且所述文本数据的主体语言为简体中文，则确定所述文本数据进行第一字符预处理后的结果，作为第一文本数据之后，包括：

确定所述第一文本数据是否满足预设文本数据过滤规则；

若所述第一文本数据满足所述预设文本数据过滤规则，则滤除所述第一文本数据；

其中，所述预设文本数据过滤规则，包括：

所述第一文本数据包含的字符总数小于第二阈值；

所述第一文本数据中连续出现生僻字的数目超过第一数目；

所述第一文本数据中出现生僻字的数目的比例超过第一预设比例；

以单字符为单位，所述第一文本数据中单字符重复出现的第一次数和所述第一文本数据中包含所有字符的个数的比例超过第三阈值；

以两个字符为单位，所述第一文本数据中连续两字符重复出现的第二次数和所述第一文本数据中包含的所述两个字符为单位的个数的比例超过第四阈值；

以三个字符为单位，所述第一文本数据中连续三字符重复出现的第三次数和所述第一文本数据中包含的所述三个字符为单位的个数的比例超过第五阈值；

所述第一文本数据中存在的命名实体的字符或字符串占所述第一文本数据中包含的所有字符的个数的比例超过第六阈值。

可选地，所述若确定文本数据的获取来源或对应的数据类型，不满足高质量预选规则，且所述文本数据的主体语言为简体中文，则确定所述文本数据进行第一字符预处理后的结果，作为第一文本数据之前，包括：

基于文本数据的获取来源或所述文本数据的类型，确定所述文本数据是否属于高质量的文本数据；

若所述文本数据属于高质量的文本数据，则确定所述高质量的文本数据进行第一字符预处理后的结果，作为第二文本数据；

若所述文本数据不属于高质量的文本数据，则基于预设繁简中文判断规则以及OpenCC繁简转换表，确定所述文本数据的主体语言，所述主体语言包括简体中文和繁体中文。

可选地，所述确定所述文本数据进行第一字符预处理后的结果，包括：

基于Unicode编码表中指定字符集，确定所述第一文本数据或所述第二文本数据中字形相同字符的合并结果；

所述指定字符集包括所有表示相同语义的所有字符，且所述字符满足字形相同或相近。

可选地，所述确定所述文本数据进行第一字符预处理后的结果，还包括以下任意一项或多项：

基于Unicode编码表中不可见字符集，删除所述文本数据中的不可见字符；

基于规范化标点符号规则，确定所述文本数据中错误标点符号对应的正确的标点符号；

基于异体字总表，确定所述文本数据中存在的异体字对应的当前使用的汉字；

基于OpenCC的繁简转换表，将所述文本数据中的繁体中文字符转换为简体中文字符；

其中，所述异体字总表包括第一批异体字整理表、简化字总表和现代汉语通用字表。

第二方面，本申请还提供一种文本数据质量确定的装置，包括：

预处理模块，用于若确定文本数据的获取来源或对应的数据类型，不满足高质量预选规则，且所述文本数据的主体语言为简体中文，则确定所述文本数据进行第一字符预处理后的结果，作为第一文本数据；所述第一字符预处理用于对所述文本数据进行标准化和统一化处理；

确定模块，用于基于神经网络模型，确定所述第一文本数据对应的正向困惑度、反向困惑度和第一置信度；所述正向困惑度是基于第一神经网络模型确定的，所述反向困惑度是基于第二神经网络模型确定的，所述第一置信度是基于第三神经网络模型确定的；

分类模块，用于基于逻辑回归模型，以及所述正向困惑度、所述反向困惑度和所述第一置信度，确定所述第一文本数据对应的第二置信度；

判别模块，用于若所述第二置信度大于第一阈值，则确定所述第一文本数据属于高质量的文本数据。

第三方面，本申请还提供一种电子设备，包括处理器和存储有计算机程序的存储器，所述处理器执行所述程序时实现第一方面所述的文本数据质量确定的方法。

第四方面，本申请还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上所述第一方面所述的文本数据质量确定的方法。

本申请提供的文本数据质量确定的方法及装置，通过对任意来源的文本数据进行第一字符预处理，对数据进行全面的清洗和过滤，并结合神经网络模型，对文本数据进一步分析，确定其对应的数据质量，提高文本数据质量，并可适用于为大规模预训练模型提供质量较高的文本数据，进而提高预训练模型的性能，具有良好的实用性。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的文本数据质量确定的方法的流程示意图；

图2是本申请实施例提供的文本数据质量确定的方法的整体流程示意图；

图3是本申请实施例提供的文本数据质量确定的装置的结构示意图；

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

针对现有技术中存在的大规模预训练模型往往重视文本数据规模，但忽略了对文本数据做精细化预处理，导致模型训练时接收到的文本数据质量参差不齐，影响了最终的性能。而且由于训练语料大都来自互联网，其中往往会有不良文本数据，这些数据参与训练后还会使模型在部署于实际应用系统中也有异常的表现，例如生成不良文本内容。给中文大规模预训练模型的实际性能带来很大的负面影响等问题，提出了本申请的技术方案，主要解决如何对不同来源的海量文本数据进行系统而全面地清洗和过滤，进而让大规模预训练模型能够利用处理后的文本数据训练并达到较好的性能。

图1是本申请实施例提供的文本数据质量确定的方法的流程示意图，如图1所示，该方法包括：

步骤101、若确定文本数据的获取来源或对应的数据类型，不满足高质量预选规则，且所述文本数据的主体语言为简体中文，则确定所述文本数据进行第一字符预处理后的结果，作为第一文本数据；所述第一字符预处理用于对所述文本数据进行标准化和统一化处理；

具体地，文本数据的来源包括很多，比如政府网站、官方媒体、出版图书和社交媒体等。而通常从不同来源获取的文本数据，首先需要对其进行初步处理，比如确定从可信来源获取得到的文本数据作为高质量的文本数据，而可信来源可以包括政府网站，官方媒体等。或者确定文本数据对应的类型，若获取得到的文本数据是出版图书数据，新闻文本数据，则认为该文本数据是高质量的文本数据。相反，若文本数据是从社交媒体获取得到的，或者文本数据是存在较多乱码，则认为该文本数据是低质量的文本数据或待确定的文本数据，当然也可以对这些低质量的文本数据进一步处理，比如校正，删除，过滤等操作，得到满足高质量要求的文本数据。

在上述基于文本数据的获取来源或所述文本数据的类型，确定所述文本数据是否属于高质量的文本数据之后，需要进一步对所述文本数据进行处理。

在所述文本数据不属于高质量的文本数据的情况下，需要进一步对该文本数据进行处理，确定该文本数据中存在OpenCC繁简转换表中繁体中文的字符的个数，占该文本数据总字符的个数的比例，若该比例大于等于预设阈值A(比如10％)，则确定该文本数据的主体语言为繁体中文，而统计发现现有的很多文字数据中主体语言为繁体中文的部分，出现不良文本的概率较高，而且很多语法和简体中文文本数据存在较大差别，也会干扰模型的训练效果，因此，通常将这部分文本数据滤除，也就是删除或者不做进一步的处理。而当该文本数据中存在OpenCC繁简转换表中繁体中文的字符的个数，占该文本数据总字符的个数的比例，若该比例小于预设阈值(比如10％)，那么可能该文本数据是简体中文文本数据，具体需要进一步确定，确定的方式通过确定该文本数据中简体中文的字符的个数，占该文本数据总字符的个数的比例，若该比例大于等于预设阈值B(比如85％)，则确定该文本数据的主体语言是简体中文，并将该文本数据作为第一文本数据。若不满足大于等于预设阈值B的条件，则确定该文本数据属于其他类型，也不继续对其进行处理，可以删除或者滤除。

而在所述文本数据属于高质量的文本数据的情况下，对该高质量的文本数据进行第一字符预处理，将处理后的结果作为第二文本数据。

上述第一文本数据和第二文本数据，均可以通过第一字符预处理，优化该文本数据，进而得到更高质量的文本数据。

上述第一字符预处理包括确定Unicode编码表中所有字符的字形相同或相近，且表示相同语义字符集，作为指定字符集。比如0(加粗的0)对应的Unicode编码为1D7E2，而0(普通的，一般情况)对应的Unicode编码为0030。“了”对应的Unicode编码为F9BA，而“了”对应的Unicode编码为4E86。若这些表示相同语义的字符由于显示形式不同，和/或对应的字符集不同，都采用不同的Unicode编码，那么对应的词表将变得非常大，因此，本申请中基于Unicode编码表中指定字符集，确定所述第一文本数据或所述第二文本数据中字形相同字符的合并结果。

具体的，为了确定每个字符对应的字形相同的字符，首先在Unicode网站获取每个字符的图片，然后将这些图片进行二值化处理，得到图片的向量表示，采用K-means聚类算法对所有字符的图片向量进行聚类，一般而言，聚类为一类的向量，可判断其对应的字形相近。当然为了避免出现误判的情况，也可以增加人工观察确认的方式，确定哪些字符的字形相同或相近，进行合并。而且合并后的字符，通常采用最常用的字符编码形式。

通过上述步骤处理后，可以将这些字形相同的字符都合并成一个字符，进而减小词表。不但使得模型的训练和推理速度变快，也可以提升对应的性能。

此外，上述第一字符预处理还可以包括以下任意一项或多项：

具体地，不可见字符的删除，是指Unicode编码表中有大量控制字符、未定义字符等不可见字符，这些字符会因为种种原因出现在文本语料中，在预训练模型训练时被学习，影响模型的性能。通过将上述文本数据和Unicode编码表中不可见字符对应的编码进行逐一比对判定，确定上述文本数据中包括的不可见字符集合，然后将文本数据中的所有不可见字符删除。

规范化标点符号使用，主要是指大量文本数据，尤其是来自互联网的文本数据，其标点符号的使用往往不太规范和统一，这会在使用这些文本数据给预训练模型进行训练时带来麻烦，影响标点符号的向量表示学习效果，进而影响最终模型的效果。在这一步骤中，针对标点符号误用的两个常见问题进行处理，第一是将不应连续重复使用的标点按规则进行规范化处理(例如将多个感叹号“！”转换成一个感叹号“！”、将连续3个以上的句号“。。。”转换成省略号“……”)，第二是将错误使用的全半角标点符号进行修正：将中文字符环境的半角符号转为全角符号(包括“.”转成“。”、“？”转成“？”等)，将英文字符环境的全角符号转为半角符号(包括“()”转成“()”、“！”转成“！”等)。通过上述处理将文本数据中错误的标点符号纠正为正确的标点符号。

异体字转换，主要是将文本数据中包括的已经被弃用或者不再适用的字符替换成当前使用的字符。中文历史上存在大量的异体字，这些异体字目前已经废除，但是还可能出现在一些过去的互联网文本数据中，如果模型用到这些文本数据进行预训练时效果也会受到影响。根据官方公布的异体字相关文件，包括第一批异体字整理表、简化字总表和现代汉语通用字表，确定目前已经不再使用的异体字及其对应的当前使用的汉字，然后对文本数据进行处理，将异体字转化为当前使用的汉字。

繁简转换，主要是根据OpenCC繁简转换表，将文本数据中出现的繁体中文转换为简体中文。比如某个主体语言为简体中文的文本数据，其中也会因为输入失误等原因保留一定的繁体中文字符，可以通过OpenCC的繁简转换功能将文本数据中的繁体中文字符都转换为简体中文字符。

步骤102、基于神经网络模型，确定所述第一文本数据对应的正向困惑度、反向困惑度和第一置信度；所述正向困惑度是基于第一神经网络模型确定的，所述反向困惑度是基于第二神经网络模型确定的，所述第一置信度是基于第三神经网络模型确定的；

具体地，对文本数据执行了第一字符预处理后，针对之前判断为不属于高质量的文本数据的文本数据，还需要进一步的对其进行过滤处理，从而判断是否满足高质量文本数据的条件。

在经过上述第一字符预处理后，还可能存在大量广告、社交媒体不规范文本等内容，为了进一步将这些文本数据过滤，采用了一种基于集成神经网络模型的文本数据的质量判别方法，来判定每个文本数据是否质量是属于高质量还是低质量。

首先构建所述神经网络模型的训练数据集，所述训练数据集包括正例样本和负例样本，且所述正例样本为所述文本数据的获取来源或对应的数据类型满足高质量预选规则的所述文本数据，所述负例样本为包含大于预设数目个敏感字符的所述文本数据，所述敏感字符为第一敏感词表中的任一个；

具体地，在确定文本数据的获取来源或对应的数据类型之后，将判定为高质量的文本数据作为正例样本，借助于公开的敏感词表，遍历上述判定为不属于高质量的文本数据，也就是待确定的文本数据，若某个文本数据中包含一定数目个敏感词，则认为该文本数据为低质量文档，并将其作为负例样本。

基于上述正例样本，对基于神经网络模型构建的Transformer解码器结构进行训练，即在正例样本中使用语言模型任务来进行训练，在训练完成时，生成对应的第一模型参数，也就是得到了第一神经网络模型。这一模型主要用于记忆正例样本的语言特点。

同样的，基于上述负例样本，对同样基于神经网络模型构建的Transformer解码器结构进行训练，即在负例样本中使用语言模型任务训练，在训练完成时，生成对应的第二模型参数，也就是得到了第二神经网络模型。主要用于记忆负例样本的语言特点。

这样得到训练好的Transformer解码器结构后，任意输入的文本数据，利用上述第一神经网络模型，和第二神经网络模型，分别计算出一个困惑度(perplexity)分数，作为文本数据对应的正向困惑度，以及反向困惑度。也可以采用上述方法确定第一文本数据对应的正向困惑度，以及反向困惑度。

此外，在BERT预训练模型的隐状态层基础上接一线性层，采用上述正例样本和负例样本，对BERT预训练模型进行训练。首先在正例样本和负例样本上均进行掩码语言模型任务微调，相当于确定BERT预训练模型的初始参数，然后通过上述线性层，判别正例样本和负例样本的二分类任务来继续对该模型微调，并最终得到训练好的该模型，即第三神经网络模型。任意文本数据输入该第三神经网络模型，可得到对应的第一置信度。

步骤103、基于逻辑回归模型，以及所述正向困惑度、所述反向困惑度和所述第一置信度，确定所述第一文本数据对应的第二置信度；

具体地，在利用逻辑回归模型，确定第一文本数据对应的第二置信度之前，需要对该逻辑回归模型进行训练。

训练的样本主要包括将文本数据通过第一神经网络模型得到的正向困惑度、通过第二神经网络模型得到的反向困惑度、以及第三神经网络模型得到的第一置信度。将这些训练样本作为该逻辑回归模型的输入，同时确定该训练样本中每个元素，即正向困惑度、反向困惑度和第一置信度对应的是正例样本还是负例样本，将正例样本标记为1，负例样本标记为0，通过上述样本对逻辑回归模型进行训练，理想情况下，训练完成后，该逻辑回归模型输出的结果是第二置信度值，取值为0或1。而在实际应用中输出的结果为0至1之间的值，可理解的是实际值和理想值间可能存在偏差，但是该偏差是否可以接受，可以根据设定的阈值来判断。

若将上述文本数据输入训练好的逻辑回归模型，最终可以得到一个置信度得分。

步骤104、若所述置信度大于第一阈值，则确定所述第一文本数据属于高质量的文本数据。

具体地，如果该置信度得分大于第一阈值，则判断该文本数据属于高质量的文本数据，这个第一阈值可以根据实际需求设定，并动态调整，比如可以设置为0.5，通过判断输出结果是否大于0.5，若大于0.5，则认为该文本数据属于高质量的文本数据；若小于等于0.5，则认为该文本数据是低质量的文本数据，或者为待确定的文本数据，需要后续进一步处理后再确定。

本申请实施例提供的文本数据质量确定的方法，通过对任意来源的文本数据进行第一字符预处理，对数据进行全面的清洗和过滤，并结合神经网络模型，对文本数据进一步分析，确定其对应的数据质量，提高文本数据质量，并可适用于为大规模预训练模型提供质量较高的文本数据，进而提高预训练模型的性能，具有良好的实用性。

确定所述第一文本数据是否满足预设文本数据过滤规则；

其中，所述预设文本数据过滤规则，包括：

所述第一文本数据包含的字符总数小于第二阈值；

所述第一文本数据中连续出现生僻字的数目超过第一数目；

具体地，对第一文本数据进行第一字符预处理后，还可以通过以下规则对该第一文本数据进行过滤：

(1)确定第一本文数据中的字符数是否小于第一阈值，比如30。若某个文本数据中包含的字符数小于30，则滤除该文本数据，也就是不再处理该文本数据，也不将其作为训练样本；

(2)确定第一文本数据中连续出现生僻字的数目超过第一数目，该第一数目可以根据需求设定，比如2个或10个。

如果某个文本数据中连续出现两个生僻字或连续出现10个生僻字，则滤除该文本数据，也就是不再处理该文本数据，也不将其作为训练样本；

(3)第一文本数据中出现生僻字的数目的比例超过第一预设比例，该第一比例可以根据需求设定，和上述第一数目有相同的效果。

比如该第一比例为5％，如果某个文本数据中出现生僻字的个数占该文本数据总字符个数的比例超过5％，则滤除该文本数据，也就是不再处理该文本数据，也不将其作为训练样本；

(4)统计文档中重复出现的1-gram、2-gram和3-gram的数量

重复出现的1-gram的数量：统计单个文本数据中，以单字符为单位，统计任意一个单字符重复出现的次数，作为第一次数；再确定该第一次数和该文本数据中包含所有字符的个数M的比例A；若该比例值大于等于第三阈值，则滤除该文本数据，该第三阈值可以根据实际需求设定，也可以根据统计分析结果设定，比如设置为10％。假设第一文本数据为“我们是我们，你们是你们。”这句话一共有12个字符，因此有12个1-gram。频率最高的是“们”这个1-gram，出现了4次，4/12>10％，因此要滤除该第一文本数据。

重复出现的2-gram的数量：以两个字符为单位，统计该文本数据中连续两个字符重复出现的次数，作为第二次数；确定该文本数据中包含的以连续两个字符为单位的个数N，最后计算该第一次数和所述个数N的比例B；若该比例值大于等于第四阈值，则滤除该文本数据，该第四阈值可以根据实际需求设定，也可以根据统计分析结果设定，比如设置为5％。假设第一文本数据为“我们是我们，你们是你们。”这句话一共有12个字符，因此有11个2-gram。频率最高的是“我们”或“你们”这个2-gram，出现了2次，2/11>18％，因此要滤除该第一文本数据。

重复出现的3-gram的数量：以三个字符为单位，统计该文本数据中连续三个字符重复出现的次数，作为第三次数；确定该文本数据中包含的以连续三个字符为单位的个数P，最后计算该第一次数和所述个数P的比例C；若该比例值大于等于第五阈值，则滤除该文本数据，该第五阈值可以根据实际需求设定，也可以根据统计分析结果设定，比如设置为3％。假设第一文本数据为“我们是我们，你们是你们。”这句话一共有12个字符，因此有9个3-gram。频率最高的3-gram，出现了1次，1/9>3％，因此要滤除该第一文本数据。

且上述比例A、比例B和比例C对应的阈值通常是递减的。

(5)确定第一文本数据中存在的命名实体的字符或字符串占所述第一文本数据中包含的所有字符的个数的比例D；若该比例值大于等于第六阈值，则滤除该文本数据，该第六阈值可以根据实际需求设定，也可以根据统计分析结果设定，比如设置为30％；

借助命名实体识别工具标注文档中的所有命名实体，如果命名实体部分的字符数占比超过30％，则过滤该文档。所述命名实体通常包括人名，地名，机构名的专有名词等。

下面以具体例子对本申请实施例提供的文本数据质量确定的方法进行说明，图2是本申请实施例提供的文本数据质量确定的方法的整体流程示意图，如图2所示：

步骤201、获取原始本文数据：通过不同的数据来源，获取原始文本数据；

步骤202、数据质量判别：根据文本数据的获取来源及类型来实现对文本质量的初步判断，可信来源(例如政府网站爬取的数据)或可信文本数据类型(例如官方媒体的新闻文本数据、出版图书数据)的数据被判定为高质量文本数据，而其他数据(例如来自社交媒体的文本数据)被判定为待确定质量文本数据。对于高质量文本数据，仅需通过下面的步骤204进行处理，对于待确定质量文本数据，需要经过下面的所有步骤进行处理。

步骤203、语言判别：根据计算文档中不同类型字符集中的字符数比例来实现的，Unicode编码表中繁体中文中独有的字符的数量占全文字符数比例超过10％的文档被认为是繁体中文数据(其中繁体中文独有的字符来自于OpenCC繁简转换表中的繁体部分)，否则，如果文本数据中繁体中文占比小于10％，且Unicode编码表中简体中文独有的字符的数量占全文字符数比例超过85％的文档被认为是简体中文数据(其中简体中文独有的字符来自于OpenCC繁简转换表中的简体部分)，进入步骤204；而其他情况则判定一篇文档不为中文，进入步骤205。

步骤204、第一字符处理包括非中文字符处理和中文字符处理。

非中文字符处理包括：

1)不可见字符删除；

Unicode编码表中有大量控制字符、未定义字符等不可见字符，这些字符会因为种种原因出现在文本语料中，在预训练模型训练时被学习，影响模型的的性能。通过对Unicode编码表的所有字符进行逐一人工判定，确定不可见字符集合，然后将文本数据中的所有不可见字符删除。

2)规范化标点符号使用；

大量文本数据，尤其是来自互联网的文本数据，其标点符号的使用往往不太规范和统一，这会给预训练模型在使用这些文本数据进行训练时带来麻烦，影响标点符号的向量表示学习效果，进而影响最终模型的效果。

3)字形相同字符合并；

Unicode编码表中有若干字符字形相同或相近并且表示相同的语义，这些字符的存在可能会使得大规模预训练模型的词表变得非常大，不但使得模型的训练和推理速度变慢，也会影响性能。因此，可以将这些字形相同的字符都合并成一个字符，进而减小词表。

为了给每个字符找到字形相同的字符，首先在Unicode网站获取每个字符的图片，然后对图片进行二值化处理，得到图片的向量表示。接下来采用K-means聚类算法对所有字符的图片向量进行聚类，一般而言，聚类为一类的文本数据，可认为字形相近，以免存在失误，可通过人工观察的方式确认哪些字符的字形相同，并进行合并。

中文字符处理包括：

1)异体字转换；

中文历史上存在大量的异体字，这些异体字目前已经废除，但是还可能出现在一些过去的互联网文本数据中，如果模型用到这些数据预训练时效果也会受到影响。根据官方公布的异体字相关文件，包括《第一批异体字整理表》、《简化字总表》、《现代汉语通用字表》，确定目前已经不再使用的异体字及其对应的当前使用的汉字，然后对文本数据进行处理，将异体字转化为当前使用的汉字。

2)繁简转换；

主体语言为简体中文的文本数据中也会因为输入失误等原因保留一定的繁体中文字符，可以通过OpenCC的繁简转换功能将文本数据中的繁体中文字符都转换为简体中文字符。

在第一字符处理中包括的所有上述步骤之间的次序不做限定，可以任意互换次序。

步骤205、滤除文本数据；直接将文本数据删除，或不再做进一步的任何处理。

步骤206、文档过滤包括：

基于规则的过滤，主要通过以下方式对文本按照规则进行过滤：(1)长度，如果文档的字符数少于30，则过滤该文档；(2)借助生僻字字典，如果文档中连续出现两个生僻字或者生僻字的比例超过5％，则过滤该文档；(3)统计文档中重复出现的1-gram、2-gram和3-gram的数量，如果最高频的1-gram占比超过10％、最高频的2-gram占比超过5％和最高频的3-gram占比超过3％中任意一个或多个成立，则过滤该文档；(4)借助命名实体识别工具标注文档中的所有命名实体，如果命名实体部分的字符数占比超过30％，则过滤该文档。

基于神经网络模型的过滤，在经过上述基于规则的过滤后，还可能会有大量广告、社交媒体不规范文本等内容，为了进一步将这些文本数据过滤，采用了一种基于集成神经网络模型的文本数据的质量判别方法，来判定一篇文本数据是属于高质量还是低质量。

首先构造一个训练数据集。将步骤202判定为高质量的文本数据作为正例。为了构造负例，借助了公开的敏感词表——遍历步骤202判定为质量待定的文档，如果一篇文档包含两个以上的敏感词，就将其认为是低质量文档，即负例。

其次，训练了三个神经网络模型来作为特征抽取器。第一个神经网络模型基于Transformer解码器结构，在正例文本中使用语言模型任务来进行训练。这一模型主要用于记忆正例文本的语言特点。类似地，第二个神经网络模型同样基于Transformer解码器结构，在负例文本中使用语言模型任务训练，主要用于记忆负例文本的语言特点。第三个神经网络模型基于BERT预训练模型，首先在正例和负例文本上均进行掩码语言模型任务微调，然后在该模型的隐状态层基础上接一线性层，通过判别正例和负例的二分类任务来继续对该模型微调。这一模型主要用于识别正例和负例的差异性特征。

对于一个训练样例，使用上述第一和第二个模型分别计算出一个困惑度分数(perplexity)，同时使用上述第三个模型可以计算出一个取值为0～1之间的分数，将三个分数作为输入，1或0作为输出(正例为1，负例为0)，训练一个逻辑回归模型。

使用上述三个神经网络特征抽取器和逻辑回归分类模型来对质量待定的文档进行判定，最终可以得到一个置信度分数，如果分数>0.5，则认为质量过关可以保留，否则将过滤。

步骤207、确定通过上述第一字符处理，和文档过滤的文本数据为高质量文本数据。

图3是本申请实施例提供的文本数据质量确定的装置的结构示意图，如图3所示，该文本数据质量确定的装置包括：

预处理模块301，用于若确定文本数据的获取来源或对应的数据类型，不满足高质量预选规则，且所述文本数据的主体语言为简体中文，则确定所述文本数据进行第一字符预处理后的结果，作为第一文本数据；所述第一字符预处理用于对所述文本数据进行标准化和统一化处理；

确定模块302，用于基于神经网络模型，确定所述第一文本数据对应的正向困惑度、反向困惑度和第一置信度；所述正向困惑度是基于第一神经网络模型确定的，所述反向困惑度是基于第二神经网络模型确定的，所述第一置信度是基于第三神经网络模型确定的；

分类模块303，用于基于逻辑回归模型，以及所述正向困惑度、所述反向困惑度和所述第一置信度，确定所述第一文本数据对应的第二置信度；

判别模块304，用于若所述第二置信度大于第一阈值，则确定所述第一文本数据属于高质量的文本数据。

可选地，所述确定模块302在基于神经网络模型，确定所述第一文本数据对应的正向困惑度、反向困惑度和第一置信度之前，还用于：

可选地，所述确定模块302在基于神经网络模型，确定所述第一文本数据对应的正向困惑度、反向困惑度和第一置信度之后，还用于：

可选地，所述预处理模块301在确定文本数据的获取来源或对应的数据类型，不满足高质量预选规则，且所述文本数据的主体语言为简体中文的情况下，确定所述文本数据进行第一字符预处理后的结果，作为第一文本数据之后，还用于：

确定所述第一文本数据是否满足预设文本数据过滤规则；

其中，所述预设文本数据过滤规则，包括：

所述第一文本数据包含的字符总数小于第二阈值；

所述第一文本数据中连续出现生僻字的数目超过第一数目；

可选地，所述预处理模块301在确定文本数据的获取来源或对应的数据类型，不满足高质量预选规则，且所述文本数据的主体语言为简体中文的情况下，确定所述文本数据进行第一字符预处理后的结果，作为第一文本数据之前，还用于：

可选地，所述预处理模块301在确定所述文本数据进行第一字符预处理后的结果的过程中，具体用于：

在此需要说明的是，本申请实施例提供的文本数据质量确定的装置，能够实现上述文本数据质量确定的方法实施例所实现的所有方法，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同或相应的部分及有益效果进行具体赘述。

图4是本申请实施例提供的电子设备的结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行文本数据质量确定的方法，例如包括：

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在此需要说明的是，本申请实施例提供的上述电子设备，能够实现上述文本数据质量确定的方法实施例所实现的所有方法的步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

另一方面，本申请还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的文本数据质量确定的方法。

具体地，本申请实施例提供的上述计算机程序产品，能够实现上述各方法实施例所实现的所有方法，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种文本数据质量确定的方法，其特征在于，包括：

2.根据权利要求1所述的文本数据质量确定的方法，其特征在于，所述基于神经网络模型，确定所述第一文本数据对应的正向困惑度、反向困惑度和第一置信度之前，包括：

3.根据权利要求2所述的文本数据质量确定的方法，其特征在于，所述基于神经网络模型，确定所述第一文本数据对应的正向困惑度、反向困惑度和第一置信度之后，包括：

4.根据权利要求1所述的文本数据质量确定的方法，其特征在于，所述若确定文本数据的获取来源或对应的数据类型，不满足高质量预选规则，且所述文本数据的主体语言为简体中文，则确定所述文本数据进行第一字符预处理后的结果，作为第一文本数据之后，包括：

确定所述第一文本数据是否满足预设文本数据过滤规则；

其中，所述预设文本数据过滤规则，包括：

所述第一文本数据包含的字符总数小于第二阈值；

所述第一文本数据中连续出现生僻字的数目超过第一数目；

5.根据权利要求1所述的文本数据质量确定的方法，其特征在于，所述若确定文本数据的获取来源或对应的数据类型，不满足高质量预选规则，且所述文本数据的主体语言为简体中文，则确定所述文本数据进行第一字符预处理后的结果，作为第一文本数据之前，包括：

6.根据权利要求5所述的文本数据质量确定的方法，其特征在于，所述确定所述文本数据进行第一字符预处理后的结果，包括：

7.根据权利要求6所述的文本数据质量确定的方法，其特征在于，所述确定所述文本数据进行第一字符预处理后的结果，还包括以下任意一项或多项：

8.一种文本数据质量确定的装置，其特征在于，包括：

9.一种电子设备，包括处理器和存储有计算机程序的存储器，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的文本数据质量确定的方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的文本数据质量确定的方法。