CN115563288B

CN115563288B - 一种文本检测的方法、装置、电子设备及存储介质

Info

Publication number: CN115563288B
Application number: CN202211552882.3A
Authority: CN
Inventors: 李文举; 吴一超; 卞豪; 支蕴倩
Original assignee: Beijing Deepctrl Co ltd
Current assignee: Beijing Deepctrl Co ltd
Priority date: 2022-12-06
Filing date: 2022-12-06
Publication date: 2023-03-21
Anticipated expiration: 2042-12-06
Also published as: CN115563288A

Abstract

本申请提供了一种文本检测的方法、装置、电子设备及存储介质，该方法包括：针对待检测文本，分别将所述待检测文本输入到预设的有限状态自动机和文本分类模型，得到有限状态自动机输出所述待检测文本的第一预测值和文本分类模型输出所述待检测文本的第二预测值；响应针对检测偏好值的配置操作，确定与配置操作对应的检测偏好值；其中，不同的检测偏好值对应不同的检测策略；根据与所述检测偏好值对应的检测策略、所述第一预测值和所述第二预测值，确定所述待检测文本的检测结果。本申请方法结合了敏感词检测和文本分类，通过对二者的结果进行分析，确定出待检测文本的检测结果，提高了检测的准确性。

Description

一种文本检测的方法、装置、电子设备及存储介质

技术领域

本申请涉及文本检测技术领域，具体而言，涉及一种文本检测的方法、装置、电子设备及存储介质。

背景技术

随着信息技术的飞速发展，人们能够得到的文本内容也呈爆炸式的涌现。例如，各式各样的新闻推送、针对这些新闻内容的评论、弹幕等。随着这些文本内容的出现，文本内容安全也面临着巨大的挑战。按照相关法律法规对于文本内容进行审核，阻断违法违规信息的传播对于这些文本内容最主要的处理方式之一。

现有对于文本内容的审核方式的预先构建敏感词库，通过文本内容与敏感词库进行对比，判断出该文本内容中是否包含有敏感词，如果包含有敏感词则认为是违规信息。这种方式未能够考虑文本内容的具体语义信息，容易造成误判。

发明内容

有鉴于此，本申请的目的在于提供一种文本检测的方法、装置、电子设备及存储介质，结合了敏感词检测和文本分类，通过对二者的结果进行分析，确定出待检测文本的检测结果，提高了检测的准确性。

第一方面，本申请实施例提供了一种文本检测的方法，所述方法包括：

针对待检测文本，分别将所述待检测文本输入到预设的有限状态自动机和文本分类模型，得到有限状态自动机输出所述待检测文本的第一预测值和文本分类模型输出所述待检测文本的第二预测值；

响应针对检测偏好值的配置操作，确定与配置操作对应的检测偏好值；其中，不同的检测偏好值对应不同的检测策略；

根据与所述检测偏好值对应的检测策略、所述第一预测值和所述第二预测值，确定所述待检测文本的检测结果。

在本申请一些技术方案中，上述检测偏好值包括偏好准确率和偏好召回率；所述响应针对检测偏好值的配置操作，确定与配置操作对应的检测偏好值，包括：

响应针对偏好准确率和偏好召回率的选择操作，确定与选择操作对应的检测偏好值为偏好准确率或偏好召回率；其中，所述偏好准确率和所述偏好召回率对应不同的检测策略。

在本申请一些技术方案中，上述偏好准确率对应的所述检测策略包括第一阈值、第二阈值和公共阈值；

所述偏好召回率对应的所述检测策略包括公共阈值。

在本申请一些技术方案中，上述根据与所述检测偏好值对应的检测策略、所述第一预测值和所述第二预测值，确定所述待检测文本的检测结果，包括：

若所述检测偏好值为所述偏好准确率，在满足以下任一条件时，将所述待检测文本确定为异常文本；

所述第一预测值大于第一阈值；

所述第二预测值大于第二阈值；

所述第一预测值和所述第二预测值均大于公共阈值。

若所述检测偏好值为所述偏好召回率，且所述第一预测值大于公共阈值或者所述第二预测值大于公共阈值，将所述待检测文本确定为异常文本。

在本申请一些技术方案中，上述方法通过以下方式得到有限状态自动机：

获取敏感词，并为各个敏感词设置对应的权重；其中，权重表征该词汇的敏感程度；

根据所述敏感词和该敏感词对应的权重，构建所述有限状态自动机。

在本申请一些技术方案中，上述方法通过以下方式得到文本分类模型：

构建初始transformer模型，并对训练数据进行标注；

使用标注的所述训练数据对所述初始transformer模型进行训练，直至达到预设的精度，得到所述文本分类模型。

第二方面，本申请实施例提供了一种文本检测的装置，所述装置包括：

处理模块，用于针对待检测文本，分别将所述待检测文本输入到预设的有限状态自动机和文本分类模型，得到有限状态自动机输出所述待检测文本的第一预测值和文本分类模型输出所述待检测文本的第二预测值；

配置模块，用于响应针对检测偏好值的配置操作，确定与配置操作对应的检测偏好值；其中，不同的检测偏好值对应不同的检测策略；

检测模块，用于根据与所述检测偏好值对应的检测策略、所述第一预测值和所述第二预测值，确定所述待检测文本的检测结果。

第三方面，本申请实施例提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的文本检测的方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述的文本检测的方法的步骤。

本申请的实施例提供的技术方案可以包括以下有益效果：

本申请方法包括针对待检测文本，分别将所述待检测文本输入到预设的有限状态自动机和文本分类模型，得到有限状态自动机输出所述待检测文本的第一预测值和文本分类模型输出所述待检测文本的第二预测值；响应针对检测偏好值的配置操作，确定与配置操作对应的检测偏好值；其中，不同的检测偏好值对应不同的检测策略；根据与所述检测偏好值对应的检测策略、所述第一预测值和所述第二预测值，确定所述待检测文本的检测结果。本申请方法结合了敏感词检测和文本分类，通过对二者的结果进行分析，确定出待检测文本的检测结果，提高了检测的准确性。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种文本检测的方法的流程示意图；

图2示出了本申请实施例所提供的一种有限状态自动机示意图；

图3示出了本申请实施例所提供的一种实施例的示意图；

图4示出了本申请实施例所提供的一种文本检测的装置示意图；

图5为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

基于此，本申请实施例提供了一种文本检测的方法、装置、电子设备及存储介质，下面通过实施例进行描述。

图1示出了本申请实施例所提供的一种文本检测的方法的流程示意图，其中，该方法包括步骤S101-S103；具体的：

S101、针对待检测文本，分别将所述待检测文本输入到预设的有限状态自动机和文本分类模型，得到有限状态自动机输出所述待检测文本的第一预测值和文本分类模型输出所述待检测文本的第二预测值；

S102、响应针对检测偏好值的配置操作，确定与配置操作对应的检测偏好值；其中，不同的检测偏好值对应不同的检测策略；

S103、根据与所述检测偏好值对应的检测策略、所述第一预测值和所述第二预测值，确定所述待检测文本的检测结果。

本申请结合了敏感词检测和文本分类模型预测的方式对文本内容进行检测，并根据用户的检测偏好设置了不同的检测策略，能够得到更加准确的预测结果。

下面对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

S101、针对待检测文本，分别将所述待检测文本输入到预设的有限状态自动机和文本分类模型，得到有限状态自动机输出所述待检测文本的第一预测值和文本分类模型输出所述待检测文本的第二预测值。

本申请主要是对文本进行检测，确定出文本是否存在违规内容。这里的待检测文本包括网页文本、输入文本等以文字形式呈现的内容，或者其他形式转换的文本。本申请将需要进行检测的文本称为待检测文本。

在得到了待检测文本之后，本申请需要对该待检测文本进行检测。在对待检测文本进行检测的时候，传统的检测方式为将待检测文本与预先构建的敏感词库进行对比，确定该待检测文本中是否包含有敏感词。若待检测文本中包含有敏感词，则认为该待检测文本违规；若待检测文本中不包含有敏感词，则认为待检测文本正常。这种检测方式仅从字面进行对比识别，没考虑该待检测文本的实际含义，所以存在一定的误判。为了提高对待检测文本识别的准确率，本申请将敏感词检测和文本分类预测进行了结合。

本申请中在对待检测文本进行敏感词检测的时候，是基于有限状态自动机进行的。本申请将待检测文本输入到有限状态自动机中，能够得到有限状态自动机输出的关于待检测文本的第一预测值。其中，有限状态自动机拥有有限数量的状态，每个状态可以迁移到零个或多个状态，输入字串决定执行哪个状态的迁移，有限状态自动机可以表示为一个有向图。本申请中有限状态自动机的构成方式如下：获取待检测文本所在领域的敏感词；根据已有的业务经验，人工为每个敏感词赋予一个权重。该权重表征该敏感词违规的可能性，权重越高表示违规的可能性越大，反之则越小。例如，权重设置在1~10之间，权重1表示违规存疑，权重10表示肯定违规，其他权重违规可能性逐步递增。在确定了敏感词和各个敏感词对应的权重之后，使用敏感词和各个敏感词对应的权重构建有限状态自动机（deterministic finite automaton, DFA），如图2所示。图2中的字母A~F分别代表的是字。

在另一方面，本申请还构建了文本分类模型对待检测文本进行检测。这里的文本分类模型是由初始transformer模型训练得到的。初始transformer模型结构如图3所示，包括Softmax、Linear、Add&Norm、Feed Forward、Multi-Head Arrention等。在对transformer模型进行训练之前，先对训练数据进行了标注，使用标注好的训练数据对transformer模型进行训练，直至达到预设的精度，即可得到文本分类模型。文本分类模型的输入为一个长度不大于128的句子，输出是句子是否合规的概率。

具体的，本申请在得到了输入的待检测文本的时候，使用DFA检测待检测文本中包含的目标敏感词，并且将目标关键词对应的权重相加，得到待检测文本对应总的权重w。使用sigmoid函数将相加后总的权重归一化到0到1之间，得到分数（第一预测值）wscore，具体公式如下：

同时，还将待检测文本输入到文本分类模型中去预测待检测文本违规的概率值，得到文本分类模型输出的待检测文本的第二预测值。

S102、响应针对检测偏好值的配置操作，确定与配置操作对应的检测偏好值；其中，不同的检测偏好值对应不同的检测策略。

在得到了有限状态自由机输出的待检测文本的第一预测值和文本分类模型输出的待检测文本的第二预测值之后，本申请没有直接使用第一预测值和第二预测值对待检测文本进行预测，而是先确定出检测偏好值，之后再对待监测文本进行检测。

本申请中的检测偏好值是根据实际检测过程中的检测需求确定的。这里的检测偏好值包括了偏好准确率和偏好召回率。例如，在一些检测场景中对于文本的检测准确率较高的话，那么就将检测偏好值设置为偏好准确率，这样得到待检测文本的检测结果的准确率较高。在另外的一些场景中，需要检测出所有存在问题的话，那么就可以将检测偏好值设置为偏好召回率，这样得到待检测文本的检测结果中包含的违规信息较多。即本申请中不同的检测偏好值侧重的检测重点不同。也就是说，本申请中在得到了第一预测值和第二预测值之后，如果用户配置的检测偏好值不同的话，那么即使第一预测值和第二预测值相同，也可能得到待检测文本的检测结果存在差异。

进一步的，本申请中偏好准确率和偏好召回率对应有不同的检测策略，通过用户对偏好准确率和偏好召回率的选择操作，确定出与该选择操作对应的检测策略。本申请中不同的检测策略主要体现在对于第一预测值和第二预测值的筛选阈值上。也就是说，本申请中不同的检测策略中包含有不同的筛选阈值，通过不同筛选阈值对第一预测值和第二预测值进行筛选。具体的，所述偏好准确率对应的所述检测策略包括第一阈值、第二阈值和公共阈值；所述偏好召回率对应的所述检测策略包括公共阈值。DFA和文本分类模型，分别设置两个阈值t1和t2，t1为0.5到0.9之间，t2为0.5到1之间，公共阈值设置为0.5。这里的各个阈值是在考虑了具体业务场景之后进行设置的。例如，在有人工进行二次审核的时候，可以将第一阈值设置为0.5；如果没有人工进行二次审核的时候，可以将第一阈值设置为0.9。

当用户将检测偏好值配置为偏好准确率的时候，本申请使用第一预测值和第二预测值与偏好准确率对应的检测策略中的筛选阈值进行对比，进而能够确定出该待检测文本是否违规。在满足以下任一条件时，将所述待检测文本确定为异常文本；所述第一预测值大于第一阈值；所述第二预测值大于第二阈值；所述第一预测值和所述第二预测值均大于公共阈值。具体的对比过程为：将第一预测值与第一阈值进行对比，如果第一预测值大于第一阈值的话，则将待检测文本确定为异常文本（违规）；将第二预测值与第二阈值进行对比，如果第二预测值大于第二阈值的话，则将待检测文本确定为异常文本；将第一预测值和第二预测值均与公共阈值进行对比，若第一预测值和第二预测值均大于公共阈值的话，则将待检测文本确定为异常文本；除了上述情况外，均将待检测文本确定为正常文本（合规）。

当用户将检测偏好值设置为偏好召回率的时候，本申请使用第一预测值和第二预测值与偏好召回率对应的检测策略中的筛选阈值进行对比，进而能够确定出该待检测文本是否违规。与偏好召回率对应的检测策略中包含有公共阈值，使用第一预测值和第二预测值与公共阈值进行对比，确定出待检测文本的检测结果。具体的，第一预测值与公共阈值对比，如果第一预测值大于公共阈值的话，将待检测文本确定为异常文本；第二预测值与公共阈值对比，如果第二预测值大于公共阈值的话，将待检测文本确定为异常文本。除了上述的情况，将待检测文本确定为正常文本。

本申请实施例中，作为一可选实施例，如图3所示，在得到了DFA和文本分类模型之后，将二者部署为一个检测服务。对应DFA和文本分类模型，分别设置两个阈值t1和t2，t1为0.5到0.9之间，t2为0.5到1之间。同时设定一个检测偏好值p，common表示偏好高准确率，strict表示偏好高召回率。服务接收一个句子作为输入，使用DFA检测句子中包含的敏感词，并且将权重相加，得到总的权重w。使用sigmoid函数将相加后的权重归一化到0到1之间，得到分数wscore。将句子输入文本分类模型，获得文本分类模型预测的文本违规的概率值，mscore，其取值范围为0到1之间。如果wscore和mscore都大于0.5分，且偏好值p为common，则输出句子违规作为最终预测值。如果敏感词得分大于设定的阈值t1，且检测偏好值为common或者敏感词得分大于0.5且检测偏好值为strict，则输出句子违规作为最终预测值。如果文本分类模型得分大于设定的阈值t2，且检测偏好值为common或者文本分类模型得分大于0.5且检测偏好值为strict，则输出句子违规作为最终预测值。如果以上步骤均未输出最终结果，则输出句子合规作为最终预测值。

图4示出了本申请实施例所提供的一种文本检测的装置的结构示意图，所述装置包括：

所述检测偏好值包括偏好准确率和偏好召回率；所述响应针对检测偏好值的配置操作，确定与配置操作对应的检测偏好值，包括：

所述偏好准确率对应的所述检测策略包括第一阈值、第二阈值和公共阈值；

所述偏好召回率对应的所述检测策略包括公共阈值。

所述根据与所述检测偏好值对应的检测策略、所述第一预测值和所述第二预测值，确定所述待检测文本的检测结果，包括：

所述第一预测值大于第一阈值；

所述第二预测值大于第二阈值；

所述第一预测值和所述第二预测值均大于公共阈值。

通过以下方式得到有限状态自动机：

通过以下方式得到文本分类模型：

构建初始transformer模型，并对训练数据进行标注；

如图5所示，本申请实施例提供了一种电子设备，用于执行本申请中的文本检测的方法，该设备包括存储器、处理器、总线及存储在该存储器上并可在该处理器上运行的计算机程序，其中，上述处理器执行上述计算机程序时实现上述的文本检测的方法的步骤。

具体地，上述存储器和处理器可以为通用的存储器和处理器，这里不做具体限定，当处理器运行存储器存储的计算机程序时，能够执行上述的文本检测的方法。

对应于本申请中的文本检测的方法，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述的文本检测的方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述的文本检测的方法。

在本申请所提供的实施例中，应该理解到，所揭露系统和方法，可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory， ROM）、随机存取存储器（Random Access Memory ，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种文本检测的方法，其特征在于，所述方法包括：

响应针对检测偏好值的配置操作，确定与配置操作对应的检测偏好值；其中，不同的检测偏好值对应不同的检测策略；所述检测偏好值包括偏好准确率和偏好召回率，所述偏好准确率对应的所述检测策略包括第一阈值、第二阈值和公共阈值；所述偏好召回率对应的所述检测策略包括公共阈值；

根据与所述检测偏好值对应的检测策略、所述第一预测值和所述第二预测值，确定所述待检测文本的检测结果；

所述第一预测值大于第一阈值；

所述第二预测值大于第二阈值；

所述第一预测值和所述第二预测值均大于公共阈值；

2.根据权利要求1所述的方法，其特征在于，所述响应针对检测偏好值的配置操作，确定与配置操作对应的检测偏好值，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法通过以下方式得到有限状态自动机：

获取敏感词，并为各个敏感词设置对应的权重；其中，权重表征词汇的敏感程度；

4.根据权利要求1所述的方法，其特征在于，所述方法通过以下方式得到文本分类模型：

构建初始transformer模型，并对训练数据进行标注；

5.一种文本检测的装置，其特征在于，所述装置包括：

配置模块，用于响应针对检测偏好值的配置操作，确定与配置操作对应的检测偏好值；其中，不同的检测偏好值对应不同的检测策略；所述检测偏好值包括偏好准确率和偏好召回率，所述偏好准确率对应的所述检测策略包括第一阈值、第二阈值和公共阈值；所述偏好召回率对应的所述检测策略包括公共阈值；

检测模块，用于根据与所述检测偏好值对应的检测策略、所述第一预测值和所述第二预测值，确定所述待检测文本的检测结果；

检测模块，在用于所述根据与所述检测偏好值对应的检测策略、所述第一预测值和所述第二预测值，确定所述待检测文本的检测结果时，包括：

所述第一预测值大于第一阈值；

所述第二预测值大于第二阈值；

所述第一预测值和所述第二预测值均大于公共阈值；

6.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至4任一所述的文本检测的方法的步骤。

7.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至4任一所述的文本检测的方法的步骤。