CN115809662A

CN115809662A - 一种文本内容异常检测的方法、装置、设备及介质

Info

Publication number: CN115809662A
Application number: CN202310054923.4A
Authority: CN
Inventors: 李文举; 张博; 匡海泉; 支蕴倩
Original assignee: Beijing Deepctrl Co ltd
Current assignee: Beijing Deepctrl Co ltd
Priority date: 2023-02-03
Filing date: 2023-02-03
Publication date: 2023-03-17
Anticipated expiration: 2043-02-03
Also published as: CN115809662B

Abstract

本申请提供了一种文本内容异常检测的方法、装置、设备及介质，该方法包括：获取目标文本，并构造字典文件；从目标文本中确定待掩码字符并从多个目标类型中确定匹配每一个待掩码字符的特定目标类型；选取并使用目标替换字符替换该待掩码字符，得到训练数据；使用训练数据训练初始语言模型，得到文本内容异常检测模型；将待检测文本输入到文本内容异常检测模型中，得到还原文本；使用预设的目标违规词库对还原文本进行检测，确定异常内容。本申请使用了更加全面的替换字符，以使得到的文本内容异常检测模型更加符合实际应用场景，能够针对文本中的拼音相关内容进行处理，以使文本内容异常检测模型具有拼写纠错、拼音还原、无意义字符去除等功能。

Description

一种文本内容异常检测的方法、装置、设备及介质

技术领域

本申请涉及文本内容异常检测技术领域，具体而言，涉及一种文本内容异常检测的方法、装置、设备及介质。

背景技术

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。

文本内容安全审核是指运用自然语言处理技术，识别出文本中的违规违禁内容并进行适当处理。当前，广泛运用的内容安全审核技术是构建违规词库，收集各种类型的违禁词。通过检测待检测内容中是否有违禁词来判断内容是否违规。通过违规词库进行匹配的方法，恶意制造违规内容的人员可以通过拼音替换、拼音首字母替换、音近字替换、违禁词的字符之间插入无意义符号等方法对文本中的违禁词进行变形，从而绕过审核。

发明内容

有鉴于此，本申请的目的在于提供一种文本内容异常检测的方法、装置、设备及介质，使用了更加全面的替换字符，以使得到的文本内容异常检测模型更加符合实际应用场景，能够针对文本中的拼音相关内容进行处理，以使文本内容异常检测模型具有拼写纠错、拼音还原、无意义字符去除等功能。

第一方面，本申请实施例提供了一种文本内容异常检测的方法，所述方法包括：

获取设定领域的目标文本，并构造适用于所述目标文本的字典文件；其中，所述字典文件中包括多个目标类型的替换字符，所述目标类型至少包括拼音类型、拼音首字母类型和无意义字符类型；

从所述目标文本中确定待掩码字符并从所述多个目标类型中确定匹配每一个待掩码字符的特定目标类型；

针对每一个待掩码字符，从所述字典文件中包括的与该待掩码字符匹配的特定目标类型的替换字符中，选取该待掩码字符的目标替换字符，并使用所述目标替换字符替换该待掩码字符，得到训练数据；使用所述训练数据训练初始语言模型，得到训练好的文本内容异常检测模型；

获取待检测文本，并将所述待检测文本输入到所述文本内容异常检测模型中，得到所述待检测文本中、对应所述多个目标类型的目标字符被还原成目标字符的还原文本；

使用预设的目标违规词库对所述还原文本进行检测，确定所述还原文本中的异常内容。

在本申请一些技术方案中，上述从所述目标文本中确定待掩码字符，包括：

根据所述设定领域中多个目标类型的替换统计结果或者以随机分配方式，预先配置所述多个目标类型在所述目标文本中的第一替换比例；

根据所述多个目标类型在所述目标文本中的第一替换比例，从目标文本中确定待掩码字符以及每一个待掩码字符的特定目标类型。

在本申请一些技术方案中，上述根据所述多个目标类型在所述目标文本中的第一替换比例，从目标文本中确定待掩码字符以及每一个待掩码字符的特定目标类型，包括：

确定所述目标文本中待掩码字符的第二替换比例，并根据所述第二替换比例确定所述目标文本中待掩码字符的目标数量；

根据各个目标类型所述替换字符的第一替换比例以及所述目标文本中待掩码字符的目标数量，从目标文本中确定待掩码字符以及每一个待掩码字符的特定目标类型。

在本申请一些技术方案中，上述根据所述第二替换比例确定所述目标文本中待掩码字符的目标数量：

根据所述目标违规词库从所述目标文本中选出第一数量的第一字符；

若所述第一数量小于所述目标数量，根据所述目标文本中除所述第一字符以外的第二字符的向量和所述目标违规词库中违规词的向量的距离，从所述第二字符中选出第二数量的第三字符作为待掩码字符；所述第二数量为所述第一数量与所述目标数量的差值；

若所述第一数量大于等于所述目标数量，则从所述第一数量中选出所述目标数量的第一字符作为所述待掩码字符。

在本申请一些技术方案中，通过以下方式构建所述目标违规词库：

根据设置的违规类型，获取各个违规类型下的种子敏感词，并配置各个所述种子敏感词的违规权重；

根据所述种子敏感词与待选敏感词之间的相似度，从所述待选敏感词中选出初选敏感词，并确定所述初选敏感词的违规权重；

根据所述初选敏感词与待选敏感词之间的相似度，从所述待选敏感词中选出再选敏感词，并确定所述再选敏感词的违规权重；

通过筛选从所述初选敏感词和所述再选敏感词中确定出扩充敏感词和所述扩充敏感词对应的违规权重；

根据所述种子敏感词、所述种子敏感词的违规权重、所述扩充敏感词和所述扩充敏感词的违规权重构建所述目标违规词库。

在本申请一些技术方案中，通过以下方式确定所述初选敏感词和所述再选敏感词的违规权重；

根据所述种子敏感词与所述初选敏感词的余弦相似度和所述种子敏感词的违规权重，确定所述初选敏感词的违规权重；

根据所述初选敏感词与所述再选敏感词的余弦相似度和所述初选敏感词的违规权重，确定所述再选敏感词的违规权重。

在本申请一些技术方案中，使用预设的目标违规词库对所述目标待检测数据进行检测，确定所述目标待检测数据是否存在违规情况，包括：

通过所述目标违规词库包含的所述种子敏感词和所述扩充敏感词与所述目标待检测数据进行对比，确定所述目标待检测数据的违规分值；

根据所述目标待检测数据的违规分值和对应的违规阈值，确定所述目标待检测数据是否存在违规情况。

在本申请一些技术方案中，通过以下方式确定所述目标待检测数据的违规分值：

通过所述目标违规词库包含的所述种子敏感词和所述扩充敏感词与所述目标待检测数据进行对比，得到所述目标待检测数据中与所述种子敏感词或所述扩充敏感词相同的目标违规词；

若所述目标违规词为所述初始待检测数据包含的词，根据所述目标违规词的违规权重，计算所述目标待检测数据的违规分值；

若所述目标违规词为所述文本内容异常检测模型对所述初始待检测数据进行文本清洗后得到的，根据所述目标违规词的违规权重和对应的违规倍数，计算所述目标待检测数据的违规分值。

在本申请一些技术方案中，目标类型还至少包括以下之一：MASK、音近字和形近字；不同目标类型的所述替换字符能够使文本内容异常检测模型具有对应的数据还原能力。

第二方面，本申请实施例提供了一种文本内容异常检测的装置，所述装置包括：

构建模块，用于获取设定领域的目标文本，并构造适用于所述目标文本的字典文件；其中，所述字典文件中包括多个目标类型的替换字符，所述目标类型至少包括拼音类型、拼音首字母类型和无意义字符类型；

匹配模块，用于从所述目标文本中确定待掩码字符并从所述多个目标类型中确定匹配每一个待掩码字符的特定目标类型；

训练模块，用于针对每一个待掩码字符，从所述字典文件中包括的与该待掩码字符匹配的特定目标类型的替换字符中，选取该待掩码字符的目标替换字符，并使用所述目标替换字符替换该待掩码字符，得到训练数据；使用所述训练数据训练初始语言模型，得到训练好的文本内容异常检测模型；

检测模块，用于获取待检测文本，并将所述待检测文本输入到所述文本内容异常检测模型中，得到所述待检测文本中、对应所述多个目标类型的目标字符被还原成目标字符的还原文本；

检测模块，还用于使用预设的目标违规词库对所述还原文本进行检测，确定所述还原文本中的异常内容。

第三方面，本申请实施例提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的文本内容异常检测的方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述的文本内容异常检测的方法的步骤。

本申请的实施例提供的技术方案可以包括以下有益效果：

本申请方法包括获取设定领域的目标文本，并构造适用于所述目标文本的字典文件；其中，所述字典文件中包括多个目标类型的替换字符，所述目标类型至少包括拼音类型、拼音首字母类型和无意义字符类型；从所述目标文本中确定待掩码字符并从所述多个目标类型中确定匹配每一个待掩码字符的特定目标类型；针对每一个待掩码字符，从所述字典文件中包括的与该待掩码字符匹配的特定目标类型的替换字符中，选取该待掩码字符的目标替换字符，并使用所述目标替换字符替换该待掩码字符，得到训练数据；使用所述训练数据训练初始语言模型，得到训练好的文本内容异常检测模型；获取待检测文本，并将所述待检测文本输入到所述文本内容异常检测模型中，得到所述待检测文本中、对应所述多个目标类型的目标字符被还原成目标字符的还原文本；使用预设的目标违规词库对所述还原文本进行检测，确定所述还原文本中的异常内容。本申请使用了更加全面的替换字符，以使得到的文本内容异常检测模型更加符合实际应用场景，能够针对文本中的拼音相关内容进行处理，以使文本内容异常检测模型具有拼写纠错、拼音还原、无意义字符去除等功能。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种文本内容异常检测的方法的流程示意图；

图2示出了本申请实施例所提供的一种拼音及拼音首字母作为token示意图；

图3示出了本申请实施例所提供的一种实施例示意图；

图4示出了本申请实施例所提供的一种文本内容异常检测的装置示意图；

图5为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

随着深度学习的发展，自然语言处理领域的预训练语言模型技术逐渐成熟，预训练加微调成为解决自然语言问题的主流方式。现有的自然语言预训练技术，主流的是以BERT为代表的双向语言模型训练。该技术将文本中字词使用特殊的符号“[MASK]”替换，训练一个transformer模型，预测出被替换的字符。被替换的字符统一用“[MASK]”代替，该符号在实际应用的场景中并不存在，训练和使用具有不一致性。没有考虑中文文本中常见的用拼音或者拼音首字母代替汉字的现象。预训练中没有考虑下游任务，比如文本拼写纠错，不能在预训练中加入下游任务训练目标。

基于此，本申请实施例提供了一种文本内容异常检测的方法、装置、设备及介质，下面通过实施例进行描述。

图1示出了本申请实施例所提供的一种文本内容异常检测的方法的流程示意图，其中，该方法包括步骤S101-S105；具体的：

S101、获取设定领域的目标文本，并构造适用于所述目标文本的字典文件；其中，所述字典文件中包括多个目标类型的替换字符，所述目标类型至少包括拼音类型、拼音首字母类型和无意义字符类型；

S102、从所述目标文本中确定待掩码字符并从所述多个目标类型中确定匹配每一个待掩码字符的特定目标类型；

S103、针对每一个待掩码字符，从所述字典文件中包括的与该待掩码字符匹配的特定目标类型的替换字符中，选取该待掩码字符的目标替换字符，并使用所述目标替换字符替换该待掩码字符，得到训练数据；使用所述训练数据训练初始语言模型，得到训练好的文本内容异常检测模型；

S104、获取待检测文本，并将所述待检测文本输入到所述文本内容异常检测模型中，得到所述待检测文本中、对应所述多个目标类型的目标字符被还原成目标字符的还原文本；

S105、使用预设的目标违规词库对所述还原文本进行检测，确定所述还原文本中的异常内容。

本申请使用了更加全面的替换字符，以使得到的文本内容异常检测模型更加符合实际应用场景，能够针对文本中的拼音相关内容进行处理，以使文本内容异常检测模型具有拼写纠错、拼音还原、无意义字符去除等功能。

下面对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

本方案提出了一种新的预训练范式。在预训练中融合了拼音还原、文本清洗、无意义字符删除任务，使得预训练好的模型更加适合文本内容审核的需要。具体过程包含三个步骤。一是预训练基于transformer的语言模型；二是将待审核的文本内容进行token拆分，重点是分出内容中使用的拼音和拼音首字母，然后使用预训练好的语言模型对待审核的文本内容进行还原；三是对还原后的文本，使用构建的违规词库进行检测，如果命中词库中的违禁词，则说明文本内容违规。

S101、获取设定领域的目标文本，并构造适用于所述目标文本的字典文件；其中，所述字典文件中包括多个目标类型的替换字符，所述目标类型至少包括拼音类型、拼音首字母类型和无意义字符类型。

本申请需要构建该设定领域的训练字典，并获取所述设定领域的目标文本，本申请训练字典中包含有设定领域的替换字符。通过目标文本和替换字符得到训练数据。训练数据用于输入到初始语言模型中，对初始语言模型进行训练。替换字符用于对训练数据中的内容进行掩盖（替换）。本申请中的替换字符包括了MASK、无意义字符拼音、拼音首字母、音近字和形近字。上述各个类型的替换字符均能够作为单独的token记录到训练字典的文件中。在具体实施的时候，可以选择使用全部类型的替换字符，也可以选择部分替换字符进行使用。例如，如图2所示，将拼音、拼音首字母作为token。本申请中将DEL作为token的作用是为了标识文本中插入无意义字符，无意义字符指非汉字和拼音首字母的其他单个字符。具体的，训练数据来自互联网上清洗后的大量文本数据。以句为单位，数量级在5000万句。这些文本数据在输入模型前，会使用替换字符进行一定比例字符的替换或者插入，得到破坏后的数据。这些破坏后的数据是模型的输入数据，模型的输出是破坏前的数据。

S102、从所述目标文本中确定待掩码字符并从所述多个目标类型中确定匹配每一个待掩码字符的特定目标类型。

在对目标文本进行遮挡（替换）的时候，不同应用场景下的训练需求可能会存在一定的差异。由于训练需求的不同，导致训练过程中对于目标文本的遮挡过程可能也会存在区别。这里的区别主要体现在两方面，第一方面为在对目标文本进行遮挡的时候，选择遮挡目标文本中待掩码字符的数量不同，第二方面为在对目标文本进行遮挡的时候，使用的替换字符比例不同。

本申请实施例中，作为一可选实施例，本申请在对目标文本进行遮挡之前，对本申请中不同目标类型替换字符的第一替换比例进行了配置。在配置好了不同目标类型替换字符的第一替换比例之后，按照该配置的第一替换比例对目标文本进行遮挡。具体为：根据所述设定领域中多个目标类型的替换统计结果或者以随机分配方式，预先配置所述多个目标类型在所述目标文本中的第一替换比例；根据所述多个目标类型在所述目标文本中的第一替换比例，从目标文本中确定待掩码字符以及每一个待掩码字符的特定目标类型。

例如，训练数据为“中央网信办、国家网信办副主任盛荣华在国新办发布会上表示，这些年来，网信办坚持把依法治网摆在更加突出的位置，用法治思维和法治方式来不断提升管网治网的能力和水平。”在确定了训练数据之后，对各个类型替换字符的遮挡比例进行配置：以20%的概率将待掩码字符替换为[MASK]，以15%的概率将待掩码字符替换为拼音，以10%的概率将待掩码字符替换为拼音首字母，以15%的概率将待掩码字符替换为随机选择的音近字，以15%的概率将待掩码字符替换为随机选择的形近字，以15%的概率将待掩码字符保持不变，以10%的概率在待掩码字符后面插入一个无意义字符。之后，按照该遮挡比例使用各个类型的替换字符对训练数据进行遮挡，得到遮挡后的待输入训练数据。

本申请实施例中，作为一可选实施例，本申请在对训练数据进行遮挡之前，先设定了目标文本中待替换字符的第二替换比例，之后仅针对第二替换比例下的待替换字符进行遮挡。具体为，确定所述目标文本中待掩码字符的第二替换比例，并根据所述第二替换比例确定所述目标文本中待掩码字符的目标数量；根据各个目标类型所述替换字符的第一替换比例以及所述目标文本中待掩码字符的目标数量，从目标文本中确定待掩码字符以及每一个待掩码字符的特定目标类型。

例如，训练数据为“中央网信办、国家网信办副主任盛荣华在国新办发布会上表示，这些年来，网信办坚持把依法治网摆在更加突出的位置，用法治思维和法治方式来不断提升管网治网的能力和水平。”根据该训练数据的应用场景，将该训练数据中的15%字符作为待掩码字符，即确定出该训练数据中的11个字符（括号中的字符）作为待掩码字符：“中央（网）信办、国家网信办（副）主任盛荣华（在）国新办发（布）会上表示，这些年来，网信办坚（持）把依法（治）网摆在更（加）突出的位（置），用法治思维和法治方式来不（断）提升（管）网治网的能（力）和水平。”在确定了上述的待替换字符之后，使用替换字符对上述的代码数据进行遮挡即可得到遮挡后的待输入训练数据。

本申请实施例中，作为一可选实施例，本申请还可以先对目标先设定了目标文本中待替换字符的目标数量（第二替换比例），然后配置不同目标类型替换字符的第一替换比例，之后按照对应的替换比例，使用各个目标类型的替换字符，针对该目标数量下的待替换字符进行替换。具体为，根据所述设定领域中多个目标类型的替换统计结果或者以随机分配方式，预先配置所述多个目标类型在所述目标文本中的第一替换比例；根据所述多个目标类型在所述目标文本中的第一替换比例，从目标文本中确定待掩码字符以及每一个待掩码字符的特定目标类型。根据所述多个目标类型在所述目标文本中的第一替换比例，从目标文本中确定待掩码字符以及每一个待掩码字符的特定目标类型，包括：确定所述目标文本中待掩码字符的第二替换比例，并根据所述第二替换比例确定所述目标文本中待掩码字符的目标数量；根据各个目标类型所述替换字符的第一替换比例以及所述目标文本中待掩码字符的目标数量，从目标文本中确定待掩码字符以及每一个待掩码字符的特定目标类型。

例如，如图3所示，目标文本为“中央网信办、国家网信办副主任盛荣华在国新办发布会上表示，这些年来，网信办坚持把依法治网摆在更加突出的位置，用法治思维和法治方式来不断提升管网治网的能力和水平。”根据该训练数据的应用场景，将该训练数据中的15%字符作为待掩码字符，即确定出该训练数据中的11个字符作为待掩码字符：“中央网信办、国家网信办副主任盛荣华在国新办发布会上表示，这些年来，网信办坚持把依法治网摆在更加突出的位置，用法治思维和法治方式来不断提升管网治网的能力和水平。”对各个类型替换字符的遮挡比例进行配置：以20%的概率将待掩码字符替换为[MASK]，以15%的概率将待掩码字符替换为拼音，以10%的概率将待掩码字符替换为拼音首字母，以15%的概率将待掩码字符替换为随机选择的音近字，以15%的概率将待掩码字符替换为随机选择的形近字，以15%的概率将待掩码字符保持不变，以10%的概率在待掩码字符后面插入一个无意义字符。然后，按照上述遮挡比例，使用各个类型的替换字符对待掩码字符进行遮挡，得到的待输入训练数据为“中央[MASK]信办、国家网信办[MASK]主任盛荣华zai国新办发b会上表示，这些年来，网信办坚峙把依法制网摆在更咖突出的位置，用法治思维和法治方式来不duan提升筐网治网的能力@和水平”。

在具体实施时，从目标文本中构造出训练用的数据。构造步骤分为两步，一是选择待掩码字符；二是对待掩码字符进行加噪。在选择待掩码字符时，本申请实施例根据所述目标违规词库从所述目标文本中选出第一数量的第一字符；若所述第一数量小于所述目标数量，根据所述目标文本中除所述第一字符以外的第二字符的向量和所述目标违规词库中违规词的向量的距离，从所述第二字符中选出第二数量的第三字符作为待掩码字符；所述第二数量为所述第一数量与所述目标数量的差值；若所述第一数量大于等于所述目标数量，则从所述第一数量中选出所述目标数量的第一字符作为所述待掩码字符。

具体的，由于本方案的重点在于使用预训练后的模型对文本进行还原，进而通过违规词库进行文本内容审核。所以在选择待掩码字符时，将优先选择对判断文本类别比较关键的字符。这样在预训练阶段，模型就具备了潜在的文本内容审核能力。利用jieba分词工具对原始文本进行分词。依次判断各个词是否在构建的违规词库中，如果在，则将该词加入待掩码字符集中。如果没有词在构建的违规词库中或者收集到的待掩码字符占文本比例没有达到15%，则对文本中尚未加入待掩码字符的词进行排序，顺次加入待掩码字符中，直至比例达到15%。排序算法如下：假设违规词库中共有N个违规类别M个词。通过腾讯词向量获得M个词的词向量。对于腾讯词向量未收录的词，将其拆分为字，获得各个字的腾讯词向量后相加作为该词的词向量。使用同样的方式，获得文本中尚未加入待掩码字符的词的词向量。计算这些词的词向量和M个违规词的词向量的平均余弦距离，按照平均余弦距离从小到大的顺序对这些词进行排序。

作为本申请实施例中一种可选的实施例，通过以下方式构建所述目标违规词库：根据设置的违规类型，获取各个违规类型下的种子敏感词，并配置各个所述种子敏感词的违规权重；根据所述种子敏感词与待选敏感词之间的相似度，从所述待选敏感词中选出初选敏感词，并确定所述初选敏感词的违规权重；根据所述初选敏感词与待选敏感词之间的相似度，从所述待选敏感词中选出再选敏感词，并确定所述再选敏感词的违规权重；通过筛选从所述初选敏感词和所述再选敏感词中确定出扩充敏感词和所述扩充敏感词对应的违规权重；根据所述种子敏感词、所述种子敏感词的违规权重、所述扩充敏感词和所述扩充敏感词的违规权重构建所述目标违规词库。

通过以下方式确定所述初选敏感词和所述再选敏感词的违规权重；

根据所述种子敏感词与所述初选敏感词的余弦相似度和所述种子敏感词的违规权重，确定所述初选敏感词的违规权重；根据所述初选敏感词与所述再选敏感词的余弦相似度和所述初选敏感词的违规权重，确定所述再选敏感词的违规权重。

所述使用预设的目标违规词库对所述目标待检测数据进行检测，确定所述目标待检测数据是否存在违规情况，包括：通过所述目标违规词库包含的所述种子敏感词和所述扩充敏感词与所述目标待检测数据进行对比，确定所述目标待检测数据的违规分值；根据所述目标待检测数据的违规分值和对应的违规阈值，确定所述目标待检测数据是否存在违规情况。

通过以下方式确定所述目标待检测数据的违规分值：

通过所述目标违规词库包含的所述种子敏感词和所述扩充敏感词与所述目标待检测数据进行对比，得到所述目标待检测数据中与所述种子敏感词或所述扩充敏感词相同的目标违规词；若所述目标违规词为所述初始待检测数据包含的词，根据所述目标违规词的违规权重，计算所述目标待检测数据的违规分值；若所述目标违规词为所述文本内容异常检测模型对所述初始待检测数据进行文本清洗后得到的，根据所述目标违规词的违规权重和对应的违规倍数，计算所述目标待检测数据的违规分值。

违规词库的构建过程：先确定违规词库包含的违规类别。本方案中，有如下违规类别：涉政、低俗辱骂、诈骗。其次通过网络上开源的敏感词项目，获得种子敏感词。这些词每个词都赋予一个权重10。然后使用向量检索引擎加载腾讯开源的800万词向量。依次将种子敏感词输入向量检索引擎，对输入的每一个词，召回相似度最高的50个词。同样对召回的每一个词赋予一个权重w，w计算方式为：

w = sim*wo；

sim为该词和相应的种子词的余弦相似度，是一个0-1的实数。wo为召回该词的种子词的权重。

然后将这50个词再次输入向量检索引擎中，对每个词进一步召回30个词。使用同样的算法，对召回的词赋予相应的权重。最后，对于召回的词，人工进行审核，去除误召回的词，以此快速扩充违规词库。

如输入网站名称：亚博娱乐，可以召回如下相关词：鸭脖娱乐、yb娱乐、丫博娱乐。可以看出，通过词向量相似度召回技术，确实可以快速召回相关的违规词及其变种。

S103、针对每一个待掩码字符，从所述字典文件中包括的与该待掩码字符匹配的特定目标类型的替换字符中，选取该待掩码字符的目标替换字符，并使用所述目标替换字符替换该待掩码字符，得到训练数据；使用所述训练数据训练初始语言模型，得到训练好的文本内容异常检测模型。

在得到了待输入的训练数据之后，将训练数据输入到初始语言模型中，这里的初始语言模型与BERT具有相同的架构。初始语言模型在接收到待输入训练数据之后，依次经过InputEmbedding层、Transformer层、Linear层和Softmax层，通过初始语言模型中各个层实现对待输入训练数据中掩码的位置进行还原，得到该掩码初始语言模型输出的还原文本。在具体实施的时候，一般训练时长为3轮。

S104、获取待检测文本，并将所述待检测文本输入到所述文本内容异常检测模型中，得到所述待检测文本中、对应所述多个目标类型的目标字符被还原成目标字符的还原文本。

本申请实施例中，作为一可选实施例，在得到了文本内容异常检测模型之后，就可以将文本内容异常检测模型投入到正常的应用中。在应用文本内容异常检测模型的时候，先从训练时的设定领域中获取需要进行纠错的待处理数据，然后将该待处理数据输入到文本内容异常检测模型中，文本内容异常检测模型能够对待处理数据中的文本进行预测，通过预测能够实现对待处理数据中的文本进行纠错，即将待检测文本中、对应所述多个目标类型的目标字符被还原成目标字符的还原文本，得到文本内容异常检测模型输出的清洗后的还原文本。即本申请实施例中训练好的文本内容异常检测模型可以作为一种数据去噪手段，经过文本内容异常检测模型转化后的还原文本，可以进一步用于下游的文本分类、序列标注等任务中。

在进行文本内容审核时，首先使用预训练好的模型对文本进行还原。具体来讲，需要将原始的文本内容进行token划分。在划分的时候，单个的汉字和标点符号作为单独的token。

对于连续的字母片段，首先判断判断该字母片段是否是已知的英文单词，这是通过查询预先加载的英文词库来达成的。如果不是，则通过回溯算法尝试进行拼音划分。伪代码如下：

输入：t1 t2 t3...tn

输出：成功得到的拼音划分或者划分失败标志：

def pinyin_split(chars,res=[]):

如果字符序列已经为空:

返回结果 res；

for i inrange(2, chars+1):

if chars前i个字符是拼音：

将前i个字符加入到res中；

pinyin_split(chars[i:], res) # 对剩余的字符序列继续进行拼音划分；

Break。

如果chars起始字符序列无法找到完整的拼音但是第一个字符是拼音首字母：

将首字符加入到res中；

pinyin_split(chars[1:], res)# 对剩余的字符序列继续进行拼音划分；

如果以上都没有成功返回划分好的拼音序列，返回无法划分标志：SPLIT_FAILED；

对于拼音划分失败的情况，则将该连续的字母片段标记为一个单独的token

。

将完成token划分的token序列输入预训练好的transformer模型，得到模型预测的token序列，删除掉

token后，得到最终预测序列结果。

违规词检测过程：使用最终预测序列结果（还原文本），与违规词库对比进行违规词检测，如果命中，则输出相应的违规类别。

使用违规词库进行文本审核。首先使用预训练好的模型对待检测文本进行预测还原。检测还原后的文本中命中的违规词的类别和个数。将相应类别的违规词的权重相加。特别地，如果命中的违规词是模型还原后得到的，则将该词的权重乘以10再加到总分数上。

检测完成后，可以得到一个待检测文本是各个违规类别的得分。不同的类别设置不同的分数阈值，该阈值需要根据实际的测试数据来确定大小，通常可以设为10。当待检测文本在某个违规类别上的得分超过了相应的类别阈值时，则输出相应类别的违规预测。

传统的BERT仅是预测“[MASK]”字符对应的原字符。本方案对[MASK]字符、无意义字符、拼音、拼音首字母、音近字、形近字、保持不变字符对应的原字符均进行预测。这样做的优点在于：缓解了模型使用和训练不一致的问题。即在训练中模型不仅预测“[MASK]”字符，也预测被替换成其他形式的字符，其中包含了正常的文本字符融入了预测拼音或拼音首字母对应的字符任务，模型训练后具备一定的拼音还原能力，融入了音近形近错字的纠错任务，模型预训练后即具备一定的纠错能力。融入了无意义字符删除任务，模型预训练后具备识别无意义字符的能力。

图4示出了本申请实施例所提供的一种文本内容异常检测的装置的结构示意图，所述装置包括：

所述从所述目标文本中确定待掩码字符，包括：

所述根据所述多个目标类型在所述目标文本中的第一替换比例，从目标文本中确定待掩码字符以及每一个待掩码字符的特定目标类型，包括：

所述根据所述第二替换比例确定所述目标文本中待掩码字符的目标数量：

通过以下方式构建所述目标违规词库：

所述使用预设的目标违规词库对所述目标待检测数据进行检测，确定所述目标待检测数据是否存在违规情况，包括：

通过以下方式确定所述目标待检测数据的违规分值：

所述目标类型还至少包括以下之一：MASK、音近字和形近字；不同目标类型的所述替换字符能够使文本内容异常检测模型具有对应的数据还原能力。

如图5所示，本申请实施例提供了一种电子设备，用于执行本申请中的文本内容异常检测的方法，该设备包括存储器、处理器、总线及存储在该存储器上并可在该处理器上运行的计算机程序，其中，上述处理器执行上述计算机程序时实现上述的文本内容异常检测的方法的步骤。

具体地，上述存储器和处理器可以为通用的存储器和处理器，这里不做具体限定，当处理器运行存储器存储的计算机程序时，能够执行上述的文本内容异常检测的方法。

对应于本申请中的文本内容异常检测的方法，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述的文本内容异常检测的方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述的文本内容异常检测的方法。

在本申请所提供的实施例中，应该理解到，所揭露系统和方法，可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory， ROM）、随机存取存储器（Random Access Memory ，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种文本内容异常检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述从所述目标文本中确定待掩码字符，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述多个目标类型在所述目标文本中的第一替换比例，从目标文本中确定待掩码字符以及每一个待掩码字符的特定目标类型，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述第二替换比例确定所述目标文本中待掩码字符的目标数量：

5.根据权利要求1所述的方法，其特征在于，通过以下方式构建所述目标违规词库：

6.根据权利要求5所述的方法，其特征在于，通过以下方式确定所述初选敏感词和所述再选敏感词的违规权重；

7.根据权利要求6所述的方法，其特征在于，所述使用预设的目标违规词库对所述目标待检测数据进行检测，确定所述目标待检测数据是否存在违规情况，包括：

8.根据权利要求7所述的方法，其特征在于，通过以下方式确定所述目标待检测数据的违规分值：

9.根据权利要求1所述的方法，其特征在于，所述目标类型还至少包括以下之一：MASK、音近字和形近字；不同目标类型的所述替换字符能够使文本内容异常检测模型具有对应的数据还原能力。

10.一种文本内容异常检测的装置，其特征在于，所述装置包括：

11.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至9任一所述的文本内容异常检测的方法的步骤。

12.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至9任一所述的文本内容异常检测的方法的步骤。