CN112818110A

CN112818110A - 文本过滤方法、设备及计算机存储介质

Info

Publication number: CN112818110A
Application number: CN202011645385.9A
Authority: CN
Inventors: 程正涛; 张伟哲; 束建钢; 艾建文; 钟晓雄
Original assignee: Peng Cheng Laboratory
Current assignee: Peng Cheng Laboratory
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-18
Anticipated expiration: 2040-12-31
Also published as: CN112818110B

Abstract

本发明公开了一种文本过滤方法、设备及计算机存储介质，该方法包括以下步骤：基于语言模型获得文本流畅度；基于自定义构建的有效词词典，获得有效词率；当所述文本流畅度满足第一预设阈值且所述有效词率满足第二预设阈值，则对所述文本执行过滤操作；本发明解决人工筛选过滤文本耗时耗力、效率低、成本高且质量低的问题，提高语料库中语义级别，以及字符级别的文本筛选质量，从而提升训练模型和服务质量，降低计算开销。

Description

文本过滤方法、设备及计算机存储介质

技术领域

本发明涉及自然语言处理领域，尤其涉及一种文本过滤方法、设备及计算机存储介质。

背景技术

随着人工智能技术的飞速发展，人工智能安全的重要性愈发凸显，而在人工智能技术中，自然语言处理技术得到了极为广泛的应用。自然语言处理技术采用文本作为处理目标，为生产生活提供助力。而在大数据时代背景下，多源大数据非可信的环境下，低质量的文本数据给自然语言处理模型的训练和测试带来极大威胁。为应对低质量文本问题，各类文本过滤方案层出不穷。

目前文本过滤方法多基于专家制定的过滤规则，仅可对已知的文本质量问题进行有效过滤，无法应对层出不穷的新式文本质量问题。并且由于专家知识无法做到完全全面以及个人主观性问题，过滤规则往往无法全面过滤问题文本。

发明内容

有鉴于此，提供一种文本过滤方法，解决人工筛选、过滤文本耗时耗力、效率低、成本高且质量低的问题。

本申请实施例提供了一种文本过滤方法，所述方法包括：

基于语言模型获得文本流畅度；

基于自定义构建的有效词词典，获得有效词率；

当所述文本流畅度满足第一预设阈值且所述有效词率满足第二预设阈值，则对所述文本执行过滤操作。

在一实施例中，所述基于语言模型获得文本流畅度，包括：

基于字节对编码方法将文本令牌化，生成子词序列；

将所述子词序列中的子词依次使用标识符进行替换，生成样本矩阵；

基于所述样本矩阵，利用语言模型提取流畅度特征矩阵；

根据所述流畅度特征矩阵，获得文本的困惑度并计算获得文本流畅度。

在一实施例中，所述基于自定义构建的有效词词典，获得有效词率，包括：

利用分词工具对所述文本执行分词操作，生成分词结果。

基于自定义构建的有效词词典，计算所述文本中有效词数量与分词结果中分词总数量的比值；其中，有效词为所述有效词词典中包含的词。

在一实施例中，所述自定义构建的有效词词典的构建方法，包括：

对预设数量文本进行预处理，生成预处理结果；

对所述预处理结果进行分词操作，并进行词频统计，生成词频统计结果；

对所述词频统计结果按照从高到低的顺序排序，生成词频排序结果；

获得所述词频排序结果前预设数量个词，生成有效词词典。

在一实施例中，所述根据所述流畅度特征矩阵，获得所述文本的困惑度，包括：

获得所述样本矩阵中每个标识符位置上为原词的概率；其中，所述原词为标识符替换前的子词；

累乘所述文本中每个标识符位置上为原词的概率，获得所述文本存在的概率；

基于所述文本存在的概率，获得所述文本的困惑度。

在一实施例中，所述基于所述文本存在的概率，获得所述文本的困惑度，包括：

获得所述文本存在的概率的几何平均数的倒数，生成所述文本的困惑度。

在一实施例中，所述文本的困惑度的计算公式如下：

其中，P(S)＝P(w₁，w₂，...，w_n)＝P(w₁)P(w₂|w₁)...P(w_k|w₁，w₂，...，w_k-1)且W为所述子词。

在一实施例中，所述第一预设阈值包括语料库中所有文本的所述困惑度的中位数；所述第二预设阈值包括语料库中所有文本的所述有效词率的中位数。

为实现上述目的，还提供一种计算机存储介质，所述计算机存储介质上存储有文本过滤方法程序，所述文本过滤方法程序被处理器执行时实现上述任一所述的方法的步骤。

为实现上述目的，还提供一种文本过滤设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本过滤方法程序，所述处理器执行所述文本过滤方法程序时实现上述任一所述的方法的步骤。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：基于语言模型获得文本流畅度；本步骤是本发明进行文本过滤的必要条件之一，是执行文本过滤操作的基础。基于自定义构建的有效词词典，获得有效词率；本步骤是本发明进行文本过滤的另一个必要条件，也是执行文本过滤操作的基础。当所述文本流畅度满足第一预设阈值且所述有效词率满足第二预设阈值，则对所述文本执行过滤操作。本步骤中，文本流畅度和有效词率同时满足预设阈值可以保证文本质量。本发明解决人工筛选过滤文本耗时耗力、效率低、成本高且质量低的问题，提高语料库中语义级别，以及字符级别的文本筛选质量，从而提升训练模型和服务质量，降低计算开销。

附图说明

图1为本申请实施例中涉及的文本过滤方法的硬件架构示意图；

图2为本申请文本过滤方法的第一实施例的流程示意图；

图3为本申请文本过滤方法的第一实施例中步骤S110的具体实施步骤流程示意图；

图4为本申请文本过滤方法的样本矩阵生成过程的示意图；

图5为本申请文本过滤方法的第一实施例中步骤S120的具体实施步骤的流程示意图；

图6为本申请文本过滤方法步骤S122的具体实施步骤的流程示意图；

图7为本申请文本过滤方法有效词词典构建过程示意图；

图8为本申请文本过滤方法步骤S114的具体实施步骤的流程示意图；

图9为本申请文本过滤方法原词词汇概率提取过程示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：基于语言模型获得文本流畅度；基于自定义构建的有效词词典，获得有效词率；当所述文本流畅度满足第一预设阈值且所述有效词率满足第二预设阈值，则对所述文本执行过滤操作；本发明解决人工筛选过滤文本耗时耗力、效率低、成本高且质量低的问题，提高语料库中语义级别，以及字符级别的文本筛选质量，从而提升训练模型和服务质量，降低计算开销。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本申请涉及一种文本过滤设备010包括如图1所示：至少一个处理器012、存储器011。

处理器012可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器012中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器012可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器011，处理器012读取存储器011中的信息，结合其硬件完成上述方法的步骤。

可以理解，本发明实施例中的存储器011可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ReadOnly Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DRRAM)。本发明实施例描述的系统和方法的存储器011旨在包括但不限于这些和任意其它适合类型的存储器。

参照图2，图2为本申请文本过滤方法的第一实施例，所述方法包括：

步骤S110：基于语言模型获得文本流畅度。

本申请中的文本流畅度的计算采用语言模型结合困惑度作为流畅度评价标准，语言模型可以是N-gram语言模型、主题模型、神经网络模型及GPT(Generative Pre-Training)、BERT(Bidirectional Encoder Representations from Transformers)、XLnet等预训练语言模型，本申请采用BERT模型作为示例进行详细流程说明，但在本申请中的语言模型并不限定于上述的语言模型，可以是其他的语言模型。

BERT模型的目标是利用大规模无标注语料训练，获得文本的包含丰富语义信息的文本语义表示，然后将文本语义表示在特定NLP任务中作微调，最终应用于该NLP任务。

步骤S120：基于自定义构建的有效词词典，获得有效词率。

有效词词典用于有效词检测，由于句子中可能包含词的各种形式或组合形式以及新词，而目前的有效词检测模型多只能判断是否为正常单词，而无法完成组合词或新词的有效检测，所以本申请需要自行构建有效词典，以保证有效词词典的全面性。

有效词率可以是以文本分词结果作为输入，在预先构建的自定义有效词典中逐个查找词汇是否村子，统计在有效词词典中的词在所述文本分词结果总数量的占比。

步骤S130：当所述文本流畅度满足第一预设阈值且所述有效词率满足第二预设阈值，则对所述文本执行过滤操作。

在本申请中可以是所述文本流畅度低于第一预设阈值且有效词率低于第二预设阈值，也可以其他的满足条件，在此并不作限定。

在文本流畅度和有效词率双重过滤条件的保证下，文本质量得以提高。

上述实施例存在的有益效果：基于语言模型获得文本流畅度；本步骤是本发明进行文本过滤的必要条件之一，是执行文本过滤操作的基础。基于自定义构建的有效词词典，获得有效词率；本步骤是本发明进行文本过滤的另一个必要条件，也是执行文本过滤操作的基础。当所述文本流畅度满足第一预设阈值且所述有效词率满足第二预设阈值，则对所述文本执行过滤操作。本步骤中，文本流畅度和有效词率同时满足预设阈值可以保证文本质量。本发明解决人工筛选过滤文本耗时耗力、效率低、成本高且质量低的问题，提高语料库中语义级别，以及字符级别的文本筛选质量，从而提升训练模型和服务质量，降低计算开销。

参照图3，图3为本申请文本过滤方法的第一实施例中步骤S110的具体实施步骤，所述基于语言模型获得文本流畅度，包括：

步骤S111：基于字节对编码方法将文本令牌化，生成子词序列；

字节对编码方法可以是BPE(BPE-Byte Pair Encoder)方法，它是一种根据字节对进行编码的算法。主要目的是为了数据压缩，算法思想是字符串里频率最常见的一对字符被一个没有在这个字符中出现的字符代替的层层迭代过程。以英文为例，该算法会将训练语料以字符为单位进行拆分，按照字符对进行组合，并对所有组合的结果根据出现的频率进行排序，出现频次越高的排名越靠前，排在第一位的是出现频率最高的子词。

所述子词序列包含所有子词。

以英文文本为例，所述令牌化句子如图4所示。

步骤S112：将所述子词序列中的子词依次使用标识符进行替换，生成样本矩阵；

将所述子词序列中的子词使用“[MASK]”标识符进行替换，生成样本矩阵。

以英文文本为例，所述样本矩阵如图4所示。

步骤S113：基于所述样本矩阵，利用语言模型提取流畅度特征矩阵；

以所述样本矩阵作为输入，BERT(Bidirectional Encoder Representation fromTransformers)模型作为特征提取器，得到流畅度特征矩阵。流畅度特征矩阵中包含样本矩阵中每个“[MASK]”位置上为原词的概率，即代表语言模型根据上下文计算出此位置为原词的概率。

步骤S114：根据所述流畅度特征矩阵，获得文本的困惑度并计算获得文本流畅度。

在信息论中，困惑度(PPL-Perplexity)是一种评判概率模型或者概率分布预测的衡量指标。在自然语言处理领域可以在语言模型训练过程中作为语言模型损失函数或者使用一个训练完成的语言模型评价一个文本的质量的标准。

在上述实施例中，存在的有益效果：具体给出基于语言模型获得文本流畅度的实施步骤，保证文本流畅度的正确性，从而保证文本过滤的正确性，提高语料库中语义级别，以及字符级别的文本筛选质量。

参照图5，图5为本申请文本过滤方法的第一实施例中步骤S120的具体实施步骤，所述基于自定义构建的有效词词典，获得有效词率，包括：

步骤S121：利用分词工具对所述文本执行分词操作，生成分词结果。

所述分词工具可以为以下至少一种：HanLP、结巴分词、FudanNLP、LTP、THULAC、NLPIR、BosonNL、百度NLP、腾讯文智以及阿里云NLP。

在本申请中所述分词工具并不限定于上述分词工具。

步骤S122：基于自定义构建的有效词词典，计算所述文本中有效词数量与所述分词结果中分词总数量的比值；其中，有效词为所述有效词词典中包含的词。

在自定义构建的有效词词典中，对分词结果中词进行逐个匹配，统计分词结果中的有效词的数量，则通过计算所述文本中有效词数量与所述分词结果中分词总数量的比值，获得有效词率。

有效词率计算的算法伪代码如下：

在上述实施例中，存在的有益效果：具体给出基于自定义构建的有效词词典，获得有效词率的方法，保证有效词率的正确性，从而保证文本过滤的正确性，提高语料库中语义级别，以及字符级别的文本筛选质量。

参照图6，图6为本申请文本过滤方法步骤S122的具体实施步骤，所述自定义构建的有效词词典的构建方法，包括：

步骤S1221：对预设数量文本进行预处理，生成预处理结果；

预设数量文本可以是海量文本，在此并不作限定，可以包括任何有语义的文本。

对预设数量文本进行预处理，可以是对海量文本进行文本清洗，可以是对标点符号、特殊的表情符号、繁体字、停用词等的处理。但并不限定于上述文本清洗的事项。

步骤S1222：对所述预处理结果进行分词操作，并进行词频统计，生成词频统计结果；

对所述预处理结果进行分词操作的过程中使用分词工具，分词工具在此不再赘述。

所述词频统计可以是对预处理结果中的分词结果中词出现的频率进行统计。

步骤S1223：对所述词频统计结果按照从高到低的顺序排序，生成词频排序结果；

基于统计，相对出现频率高的词放入有效词典中。

步骤S1224：获得所述词频排序结果前预设数量个词，生成有效词词典。

所述预设数量在此不作限定，根据业务场景动态调整预设数量。

自定义构建的有效词词典的过程如图7所示。

在上述实施例中，存在的有益效果：给出自定义构建的有效词词典的构建方法的具体实施步骤，保证有效词词典构建的正确性，从而保证有效词率计算的正确性。

参照图8，图8为本申请文本过滤方法步骤S114的具体实施步骤，所述根据所述流畅度特征矩阵，获得所述文本的困惑度，包括：

步骤S1141：获得所述样本矩阵中每个标识符位置上为原词的概率；其中，所述原词为标识符替换前的子词；

步骤S1142：累乘所述文本中每个标识符位置上为原词的概率，获得所述文本存在的概率；

对于给定句子S＝w₁,w₂,…,w_n概率为：

P(S)＝P(w₁，w₂，...，w_n)＝P(w₁)P(w₂|w₁)...P(w_k|w₁，w₂，...，w_k-1)

即在给定上下文的情况下，语言模型在预测第k+1个词时，给出所有可能词的概率分布P(w_k+1|w₁w₂...w_kw_k+2...w_n)，当指定此位置为某单词时，即可得到指定单词在此位置的概率，由此，累乘文本中所有单词的概率即可获得完整文本存在的概率。

步骤S1143：基于所述文本存在的概率，获得所述文本的困惑度。

基于所述文本存在的概率，根据预设方法，获得所述文本的困惑度。其中，困惑度

以BERT模型为例，在输出的流畅度特征矩阵中可以得到输入句子中每个子词在句子中的概率。以数据预处理后的样本之一“[MASK],y‘all！how are you？”为例，数据预处理模块将“hello”替换为“[MASK]”输入到BERT语言模型模型中，输出中可以获取在已知上下文的条件下，“[MASK]”位置为“hello”的概率。同理，将样本矩阵输入BERT模型后得到的流畅度输出矩阵中可以获取例句中所有词的概率。如图9所示，根据流畅度特征矩阵，计算获得每个样本中[MASK]位置词的概率分布，从而获得原词的概率。

在上述实施例中，存在的有益效果：具体给出根据所述流畅度特征矩阵，获得所述文本的困惑度的实施步骤，保证获取的文本困惑度的正确性，从而保证文本流畅度计算的正确性以及文本过滤的正确性。

在其中一个实施例中，获得所述文本的困惑度，包括：

为体现困惑度概念以及消除句子长度对于概率的影响，求取倒数以体现困惑度，概率越大，句子的困惑度越小，句子更流畅合理。

在其中一个实施例中，所述文本的困惑度的计算公式如下：

求取文本存在概率的几何平均数，以消除句子长度对于困惑度的影响。

在其中一个实施例中，所述第一预设阈值包括语料库中所有文本的所述困惑度的中位数；所述第二预设阈值包括语料库中所有文本的所述有效词率的中位数。

第一预设阈值可以是是通过语言模型对于海量语料中的句子进行困惑度计算后统计得到的中位数；第二预设阈值可以是使用海量语料中的句子计算有效词率后统计得到的中位数。在利用本发明时，也可以按照业务场景自行设置合理阈值。

本申请还提供一种计算机存储介质，所述计算机存储介质上存储有文本过滤方法程序，所述文本过滤方法程序被处理器执行时实现上述任一所述的方法的步骤。

本申请还提供一种文本过滤设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本过滤方法程序，所述处理器执行所述文本过滤方法程序时实现上述任一所述的方法的步骤。

本申请应用广泛，在人工智能和大数据共享的时代背景下，数据共享和非可信多源数据的有效利用是一个互相矛盾但是切实存在的问题。多源大数据包含海量文本数据，人工筛选耗时耗力，效率低、成本高，但是直接应用将会给模型和应用场景带来极大的不确定性，并且由于大量不必要计算，浪费大量计算资源。因此，如果在数据利用之前，首先使用本发明对数据进行质量筛选，不仅可以在保证训练和测试数据质量的情况下，提升模型和服务质量，降低计算开销。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

应当注意的是，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种文本过滤方法，其特征在于，所述方法包括：

基于语言模型获得文本流畅度；

基于自定义构建的有效词词典，获得有效词率；

2.如权利要求1所述的文本过滤方法，其特征在于，所述基于语言模型获得文本流畅度，包括：

基于字节对编码方法将文本令牌化，生成子词序列；

基于所述样本矩阵，利用语言模型提取流畅度特征矩阵；

3.如权利要求1所述的文本过滤方法，其特征在于，所述基于自定义构建的有效词词典，获得有效词率，包括：

利用分词工具对文本执行分词操作，生成分词结果。

基于自定义构建的有效词词典，计算所述文本中有效词数量与所述分词结果中分词总数量的比值；其中，有效词为所述有效词词典中包含的词。

4.如权利要求3所述的文本过滤方法，其特征在于，所述自定义构建的有效词词典的构建方法，包括：

对预设数量文本进行预处理，生成预处理结果；

获得所述词频排序结果前预设数量个词，生成有效词词典。

5.如权利要求2所述的文本过滤方法，其特征在于，所述根据所述流畅度特征矩阵，获得所述文本的困惑度，包括：

基于所述文本存在的概率，获得所述文本的困惑度。

6.如权利要求5所述的文本过滤方法，其特征在于，所述基于所述文本存在的概率，获得所述文本的困惑度，包括：

7.如权利要求6所述的文本过滤方法，其特征在于，所述文本的困惑度的计算公式如下：

8.如权利要求1或7所述的文本过滤方法，其特征在于，所述第二预设阈值包括语料库中所有文本的所述有效词率的中位数；所述第一预设阈值包括语料库中所有文本的困惑度的中位数。

9.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有文本过滤方法程序，所述文本过滤方法程序被处理器执行时实现权利要求1-8任一所述的方法的步骤。

10.一种文本过滤设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本过滤方法程序，所述处理器执行所述文本过滤方法程序时实现权利要求1-8任一所述的方法的步骤。