CN116738988A

CN116738988A - 文本检测方法、计算机设备和存储介质

Info

Publication number: CN116738988A
Application number: CN202310598077.2A
Authority: CN
Inventors: 葛霖; 刘恩吏
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2023-05-24
Filing date: 2023-05-24
Publication date: 2023-09-12

Abstract

本申请涉及一种文本检测方法、计算机设备和存储介质。所述方法包括：对待检测文本与样本关键词进行匹配处理；样本关键词为样本异常文本中的异常词汇；在待检测文本与样本关键词匹配失败的情况下，对待检测文本与样本异常文本进行匹配处理；在待检测文本与样本异常文本匹配失败的情况下，获取待检测文本与预设异常类别之间的相关性信息；预设异常类别通过对样本异常文本进行分类得到；在相关性信息满足预设相关性条件的情况下，将待检测文本确定为异常文本。采用本方法，能够提高文本检测的准确率。

Description

文本检测方法、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种文本检测方法、计算机设备、存储介质和计算机程序产品。

背景技术

随着互联网技术的普及，越来越多的人开始通过互联网发布信息。但在这些信息中，存在很多异常内容或敏感内容，因此需要对互联网上的信息进行文本检测。

现有的文本检测技术，通常是对文本进行关键词匹配，若文本中包含有涉及关键词库的词汇，那么说明该文本涉及敏感内容，需要进行相应处理。然而，针对关键词特征不明显或者存在歧义的文本，基于关键词匹配的文本检测方法，容易导致文本检测的准确率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高准确率的文本检测方法、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种文本检测方法。所述方法包括：

对待检测文本与样本关键词进行匹配处理；所述样本关键词为样本异常文本中的异常词汇；

在所述待检测文本与所述样本关键词匹配失败的情况下，对所述待检测文本与所述样本异常文本进行匹配处理；

在所述待检测文本与所述样本异常文本匹配失败的情况下，获取所述待检测文本与预设异常类别之间的相关性信息；所述预设异常类别通过对所述样本异常文本进行分类得到；

在所述相关性信息满足预设相关性条件的情况下，将所述待检测文本确定为异常文本。

在其中一个实施例中，所述对所述待检测文本与所述样本异常文本进行匹配处理，包括：

获取所述待检测文本的目标文本特征向量；

根据所述待检测文本的目标文本特征向量，在所述样本异常文本中，查询与所述待检测文本相似的样本异常文本；

在所述样本异常文本中，未查询到与所述待检测文本相似的样本异常文本的情况下，确定所述待检测文本与所述样本异常文本匹配失败。

在其中一个实施例中，所述根据所述待检测文本的目标文本特征向量，在所述样本异常文本中，查询与所述待检测文本相似的样本异常文本，包括：

对所述待检测文本的目标文本特征向量进行划分，得到多个子特征向量；

从候选异常文本集中，确定各个子特征向量对应的异常文本集；所述候选异常文本集通过对所述样本异常文本进行聚类得到；

根据所述各个子特征向量对应的异常文本集，得到与所述待检测文本相似的样本异常文本。

在其中一个实施例中，所述获取所述待检测文本的目标文本特征向量，包括：

获取所述待检测文本的初始文本特征向量，对所述初始文本特征向量进行多次乱序处理；

获取每次乱序处理后的初始文本特征向量的最小哈希值；

根据所述待检测文本的各个最小哈希值，得到所述待检测文本的哈希签名向量；

对所述待检测文本的哈希签名向量进行哈希映射处理，得到所述待检测文本的目标文本特征向量。

在其中一个实施例中，所述对待检测文本与样本关键词进行匹配处理，包括：

在所述待检测文本对应的至少一个子字符串中，查询与所述样本关键词相同的子字符串；所述待检测文本对应的至少一个子字符串通过对所述待检测文本的字符串进行划分得到；

在所述待检测文本对应的至少一个子字符串中，不存在与所述样本关键词相同的子字符串的情况下，确定所述待检测文本与所述样本关键词匹配失败。

在其中一个实施例中，在所述待检测文本对应的至少一个子字符串中，查询与所述样本关键词相同的子字符串之后，还包括：

在所述待检测文本对应的至少一个子字符串中，存在与所述样本关键词相同的子字符串的情况下，确定所述待检测文本与所述样本关键词匹配成功，并将与所述子字符串相同的样本关键词确定为目标关键词；

根据所述目标关键词的类型，对所述待检测文本进行对应的异常文本处理。

在其中一个实施例中，在所述待检测文本与所述样本关键词匹配失败的情况下，对所述待检测文本与所述样本异常文本进行匹配处理之后，还包括：

在所述待检测文本与所述样本异常文本匹配失败的情况下，获取所述待检测文本与候选文本簇之间的相似度；所述候选文本簇通过对已检测文本进行聚类得到；

根据所述相似度，从所述候选文本簇中，确定出所述待检测文本的关联文本簇；

将所述待检测文本添加至所述关联文本簇中，得到目标文本簇；

在所述目标文本簇中，存在对应的文本类型为预设类型的文本的情况下，根据所述目标文本簇，更新所述样本异常文本对应的异常文本库，以及从所述目标文本簇中识别出异常关键词，根据所述异常关键词，更新所述样本关键词对应的关键词库。

在其中一个实施例中，在对待检测文本与样本关键词进行匹配处理之前，还包括：

从待检测图像中识别出目标文字区域；

对所述目标文字区域进行预处理；所述预处理至少包括组合处理与排序处理；

从预处理后的目标文字区域中，识别出所述待检测文本。

在其中一个实施例中，识别出所述待检测图像中包含文字的区域，作为初始文字区域；

确定所述初始文字区域的识别置信度；

将对应的识别置信度满足预设置信度阈值的初始文字区域，确定为所述目标文字区域。

第二方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第三方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第四方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述文本检测方法、计算机设备、存储介质和计算机程序产品，首先对待检测文本与样本关键词进行匹配处理；样本关键词为样本异常文本中的异常词汇；然后在待检测文本与样本关键词匹配失败的情况下，将待检测文本与样本异常文本进行匹配处理；接着又在待检测文本与样本异常文本匹配失败的情况下，获取待检测文本与预设异常类别之间的相关性信息；预设异常类别通过对样本异常文本进行分类得到；最后在相关性信息满足预设相关性条件的情况下，将待检测文本确定为异常文本。这样，通过关键词匹配，能够初步筛选出明显含有异常词汇的文本；接着又通过文本匹配，能够进一步筛选出含有异常内容的文本；最后再通过类别匹配，能够对关键词匹配与文本匹配均未匹配成功的文本再次进行检测，从而筛选出关键词特征不明显或内容特征不明显的文本。通过以上三种匹配方式的结合，能够将关键词异常、内容异常以及特征不明显的异常文本尽可能地识别出来，从而提高了文本检测的准确率。

附图说明

图1为一个实施例中文本检测方法的流程示意图；

图2为一个实施例中关键词树的示意图；

图3为一个实施例中更新异常文本库与关键词库的步骤的流程示意图；

图4为一个实施例中得到待检测文本的目标文本簇的步骤的流程示意图；

图5为一个实施例中待检测图像的示意图；

图6为另一个实施例中文本检测方法的流程示意图；

图7为一个实施例中含敏感文字的图片识别与拦截方法的流程示意图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一示例性实施例中，如图1所示，提供了一种文本检测方法，本实施例以该方法应用于服务器进行举例说明；可以理解的是，该方法也可以应用于终端，还可以应用于包括服务器和终端的系统，并通过服务器和终端之间的交互实现。其中，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现；终端可以但不限于是各种个人计算机、笔记本电脑、智能手机以及平板电脑等。本实施例中，该方法包括以下步骤：

步骤S102，对待检测文本与样本关键词进行匹配处理。

其中，样本关键词为样本异常文本中的异常词汇，例如集资。

其中，待检测文本与样本关键词的匹配为关键词匹配；关键词匹配的目的，是为了从待检测文本中筛选出包含有异常词汇的文本。

具体地，服务器对待检测文本与样本关键词进行关键词匹配处理，在待检测文本中不存在样本关键词的情况下，确定待检测文本与样本关键词匹配失败；在待检测文本中存在样本关键词的情况下，确定待检测文本与样本关键词匹配成功，并将待检测文本确定为异常文本，然后对待检测文本进行异常文本处理。

举例说明，关键词匹配算法可以采用如AC多模式匹配的字符串搜索算法，具体过程如下：

服务器首先根据样本关键词，构建关键词树；假设样本关键词为“他是谁”、“他不”、“他不喜欢”、“不喜喝水”，服务器构建得到如图2所示的关键词树，并在每一个样本关键词对应的路径中，将样本关键词的最后一个字符对应的节点，确定为该样本关键词的结束节点，例如在样本关键词“他不”中，节点④“不”为结束节点。同时服务器为每个节点构建跳转节点，具体地，跳转节点对应的路径上的字符串，为当前节点对应的路径上的字符串的最长后缀，例如，参考图2，对于节点④“不”而言，其对应的路径上的字符串为“他不”，对应的最长后缀为“不”，因此节点⑦“不”为节点④的跳转节点；再例如，对于节点⑤“喜”而言，其对应的路径上的字符串为“他不喜”，对应的最长后缀为“不喜”，因此节点⑧“喜”为节点⑤的跳转节点(节点⑧对应的路径上的字符串为“不喜”)；在关键词树中找不到最长后缀的节点的跳转节点设置为根节点。

假设待检测文本为“他不喜喝水”为例进行关键词匹配，服务器首先从根节点出发，在根节点的子节点中查找与字符“他”相同的节点，查找结果为节点①；接着服务器在节点①的子节点中查找与字符“不”相同的节点，查找结果为节点④，且节点④为样本关键词“他不”的结束节点，说明待检测文本中包含样本关键词“他不”，即待检测文本与样本关键词“他不”匹配成功；再接着服务器在节点④的子节点中查找与字符“喜”相同的节点，查找结果为节点⑤；接着服务器在节点⑤的子节点中查找与字符“喝”相同的节点，查找失败，因此服务器跳转到节点⑤的跳转节点——节点⑧，在节点⑧的子节点中查找与字符“喝”相同的节点，查找结果为节点⑨；接着服务器在节点⑨的子节点中查找与字符“水”相同的节点，查找结果为节点⑩，且节点⑩为样本关键词“不喜喝水”的结束节点，说明待检测文本中包含样本关键词“不喜喝水”，即待检测文本与样本关键词“不喜喝水”匹配成功，且此时已匹配到待检测文本的最后一个字符“水”，因此匹配结束。

能够理解的是，假设节点⑩不为字符“水”，即在节点⑨的子节点中查找不到与字符“水”相同的节点，且节点⑨的跳转节点为根节点时，服务器也会结束匹配。服务器通过上述过程，能够从待检测文本中筛选出包含有异常词汇的待检测文本并确定为异常文本，然后对这些确定为异常文本的待检测文本进行相对应的异常文本处理，比如直接拦截异常文本，防止异常文本在网页或应用程序上出现，还可以召回异常文本，通过人工审核判断文本能否发布。

步骤S104，在待检测文本与样本关键词匹配失败的情况下，将待检测文本与样本异常文本进行匹配处理。

其中，待检测文本与样本关键词的匹配为基于内容的文本匹配；文本匹配的目的，是为了筛选出虽然不包含异常词汇，但结合上下文，所涉及的内容为预设异常内容的文本。

其中，样本异常文本的内容为预设异常内容。

具体地，服务器在待检测文本与样本关键词匹配失败的情况下，对待检测文本与样本异常文本进行基于内容的文本匹配，从待检测文本中，筛选出内容上与样本异常文本相似的待检测文本并确定为异常文本，然后对待检测文本进行相对应的异常文本处理。

举例说明，假设通过待检测文本与样本异常文本的匹配处理，服务器能够确定待检测文本1与样本异常文本1、样本异常文本8以及样本异常文本29在内容上相似，那么说明待检测文本1与样本异常文本匹配成功，待检测文本1为异常文本，服务器需要对待检测文本1进行对应的异常文本处理。

步骤S106，在待检测文本与样本异常文本匹配失败的情况下，获取待检测文本与预设异常类别之间的相关性信息。

其中，预设异常类别是指用于进行NLP(Natural Language Processing，自然语言处理)分类的预设类别，预设异常类别通过对样本异常文本进行分类得到。

其中，获取待检测文本与预设异常类别之间的相关性信息的目的，是为了筛选出关键词特征不明显或内容特征不明显的文本。

其中，待检测文本与预设异常类别之间的相关性信息为待检测文本对于各个预设异常类别的识别概率，识别概率用于表征待检测文本属于某个预设异常类别的可能性。

具体地，服务器在待检测文本与样本异常文本匹配失败的情况下，通过NLP分类模型，确定待检测文本与各个预设异常类别之间的相关性信息。

步骤S108，在相关性信息满足预设相关性条件的情况下，将待检测文本确定为异常文本。

其中，预设相关性条件为关于识别概率的阈值条件，识别概率大于该阈值条件，则说明待检测文本命中了对应的预设异常类别。例如关于预设异常类别的预设相关性条件为0.75，待检测文本与预设异常类别A之间的识别概率为0.8，那么服务器可以确定，待检测文本命中了预设异常类别A，即待检测文本为异常文本。

具体地，服务器确定待检测文本与各个预设异常类别之间的相关性信息，并将相关性信息与对应的预设相关性条件进行对比，在相关性信息大于对应的预设相关性条件的情况下，说明待检测文本命中了对应的预设异常类别，因此将待检测文本确定为异常文本，并对待检测文本进行相对应的异常文本处理。

上述文本检测方法中，服务器首先对待检测文本与样本关键词进行匹配处理；样本关键词为样本异常文本中的异常词汇；然后在待检测文本与样本关键词匹配失败的情况下，将待检测文本与样本异常文本进行匹配处理；接着又在待检测文本与样本异常文本匹配失败的情况下，获取待检测文本与预设异常类别之间的相关性信息；预设异常类别通过对样本异常文本进行分类得到；最后在相关性信息满足预设相关性条件的情况下，将待检测文本确定为异常文本。这样，服务器通过关键词匹配，能够初步筛选出明显含有异常词汇的文本；接着又通过文本匹配，能够进一步筛选出含有异常内容的文本；最后再通过类别匹配，能够对关键词匹配与文本匹配均未匹配成功的文本再次进行检测，从而筛选出关键词特征不明显或内容特征不明显的文本。通过以上三种匹配方式的结合，能够将关键词异常、内容异常以及特征不明显的异常文本尽可能地识别出来，从而提高文本检测的准确率。此外，服务器按照关键词匹配、文本匹配、类别匹配的顺序逐步对待检测文本进行检测，能够按层次地缩小检测范围，减少文本检测过程中的数据处理量，还提高了文本检测的效率。

在一示例性实施例中，上述步骤S104，对待检测文本与样本异常文本进行匹配处理，具体包括如下内容：获取待检测文本的目标文本特征向量；根据待检测文本的目标文本特征向量，在样本异常文本中，查询与待检测文本相似的样本异常文本；在样本异常文本中，未查询到与待检测文本相似的样本异常文本的情况下，确定待检测文本与样本异常文本匹配失败。

其中，待检测文本的目标文本特征向量，通过对待检测文本的哈希签名向量进行哈希映射得到。

其中，与待检测文本相似的样本异常文本，通过对样本异常文本的聚类得到，例如通过对样本异常文本进行哈希分桶，可在若干个样本异常文本中查询出与待检测文本在内容上相似的样本异常文本；与待检测文本相似的样本异常文本之间内容相似。

具体地，服务器首先对待检测文本的哈希签名向量进行哈希映射，得到待检测文本的目标文本特征向量；然后基于目标文本特征向量，对待检测文本进行哈希分桶，在样本异常文本中，查询出与待检测文本在内容上相似的样本异常文本；若样本异常文本中不存在与待检测文本在内容上相似的样本异常文本，服务器则确定待检测文本与样本异常文本的文本匹配失败。

以minhash(最小哈希原理)+LSH(locality sensitivity Hashing，局部敏感性哈希算法)的聚类方法，对待检测文本与样本异常文本进行匹配处理为例进行说明，假设通过对样本异常文本的哈希分桶得到的多个候选异常文本集为{S1}、{S2}、{S3}、{S1，S2}、{S2，S3}以及{S1，S2，S3}；服务器通过对待检测文本Q1的目标文本特征向量的哈希分桶，得到的分桶结果如下：待检测文本Q1与样本异常文本S1、样本异常文本S2在一个桶里，待检测文本Q1与样本异常文本S2、样本异常文本S3在一个桶里，那么待检测文本Q1的相似文本集为{S1，S2}与{S2，S3}；若待检测文本Q1的相似文本集为空集，即在候选异常文本集中，不存在与待检测文本Q1对应的相似文本集，那么服务器确定待检测文本与样本异常文本的文本匹配失败。

本实施例中，服务器通过对待检测文本的哈希分桶，能够在样本异常文本中，查询出与待检测文本相似的样本异常文本，从而实现对待检测文本与样本异常文本的匹配处理，进而提高了文本检测的准确率。

在一示例性实施例中，上述根据待检测文本的目标文本特征向量，在样本异常文本中，查询与待检测文本相似的样本异常文本的步骤，具体包括以下内容：对待检测文本的目标文本特征向量进行划分，得到多个子特征向量；从候选异常文本集中，确定各个子特征向量对应的异常文本集；根据各个子特征向量对应的异常文本集，得到与待检测文本相似的样本异常文本。

其中，候选异常文本集通过对样本异常文本进行聚类得到，聚类可为哈希分桶。

具体地，服务器首先将待检测文本的目标文本特征向量划分为若干段，并分别对每一段的子特征向量进行哈希分桶，得到每一段的子特征向量对应的异常文本集，然后将每一段的子特征向量对应的异常文本集作为待检测文本对应的异常文本集，并将异常文本集中的样本异常文本，确认为与待检测文本相似的样本异常文本。

举例说明，假设服务器将待检测文本Q1的目标文本特征向量分为了3段，且每一段的分桶结果(即每一段的子特征向量对应的异常文本集)如下：在第1段上，待检测文本Q1与样本异常文本S1、S2在一个桶里；在第2段上，待检测文本Q1与样本异常文本S2、S3在一个桶里，在第3段上，待检测文本Q1单独在一个桶里；那么，待检测文本Q1每一段的子特征向量对应的异常文本集，即为{S1，S2}与{S2，S3}，进而得到与待检测文本对应的相似文本集{S1，S2}与{S2，S3}。

能够理解的是，在对样本异常文本进行哈希分桶时，与待检测文本的哈希分桶类似，也是将样本异常文本的目标文本特征向量分为若干段，并在相同的第k段上，对样本异常文本进行哈希分桶。

本实施例中，服务器通过对样本异常文本的分段哈希分桶，能够基于内容，在每一段上将样本异常文本进行聚类，得到多个候选异常文本集；然后又基于对待检测文本的分段哈希分桶，能够从候选异常文本集中，尽可能地确定出与待检测文本的每一段相似的样本异常文本，从而实现对待检测文本与样本异常文本的匹配处理，进而提高了文本检测的准确率。

在一示例性实施例中，上述获取待检测文本的目标文本特征向量的步骤，具体包括如下内容：获取待检测文本的初始文本特征向量，对初始文本特征向量进行多次乱序处理；获取每次乱序处理后的初始文本特征向量的最小哈希值；根据待检测文本的各个最小哈希值，得到待检测文本的哈希签名向量；对待检测文本的哈希签名向量进行哈希映射处理，得到待检测文本的目标文本特征向量。

其中，待检测文本的初始文本特征向量，用于表征待检测文本关于特征词汇的存在情况。

其中，用于对待检测文本的哈希签名向量进行哈希映射处理的哈希函数，需要满足如下条件：

其中，X、Y为高维空间中的任意两点；R₁、R₂分别为距离；p₁、p₂分别为概率值；即，用于进行哈希映射处理的哈希函数，应该使得两个距离相近的点(相似的哈希签名向量)哈希映射处理后的值相等的概率较大，且使得两个距离较远的点(不相似的哈希签名向量)哈希映射处理后的值相等的概率较小。

具体地，服务器首先获取待检测文本的初始文本特征向量，然后对初始文本特征向量进行多次乱序处理，并获取每次乱序处理后的初始文本特征向量的最小哈希值；然后服务器组合各个最小哈希值，得到待检测文本的哈希签名向量；最后服务器通过满足公式1的哈希函数，对待检测文本的哈希签名向量进行哈希映射处理，得到待检测文本的目标文本特征向量。

举例说明，假设现有三个待检测评论，分别为Q1{Word1，Word2，Word3，Word4}、Q2{Word2，Word3，Word4}与Q3，S3{Word1，Word4}，其中，Word1、Word2、Word3、Word4为特征词汇；那么，用如表1所示二进制的特征矩阵表示三个待检测评论的初始文本特征向量：

表1待检测评论的初始文本特征向量

	Q1	Q2	Q3
				Word1	1	0	1
Word2	1	1	0
				Word3	1	1	0
Word4	1	1	1

接着，服务器对初始文本特征向量进行多次随机乱序处理，对表1进行随机行打乱，得到如表2所示的第一次乱序处理后的初始文本特征向量：

表2第一次乱序处理后的初始文本特征向量

	Q1	Q2	Q3
				Word2	1	1	0
Word1	1	0	1
				Word4	1	1	1
Word3	1	1	0

根据表2，服务器记录各个待检测评论第一次乱序处理后的最小哈希值(即第一个1所在的行数)，例如hash(S1)＝0，hash(S2)＝0，hash(S3)＝1。

然后，服务器根据设定的哈希大小N，对三个待检测评论的初始文本特征向量反复进行乱序处理，直到乱序处理次数为N，得到三个待检测评论的多个最小哈希值，并根据多个最小哈希值确定对应的待检测评论的哈希签名向量，并通过满足公式1的哈希函数，对待检测文本的哈希签名向量进行哈希映射处理，得到待检测文本的目标文本特征向量。

本实施例中，服务器通过对待检测文本的初始特征向量的多次乱序处理，能够得到待检测文本的哈希签名向量，又通过满足要求的哈希函数，对哈希签名向量进行哈希映射处理，能够得到反映待检测文本的相似情况的目标文本特征向量，从而为后续待检测文本与样本异常文本的匹配提供了匹配基础。

在一示例性实施例中，上述步骤S102，对待检测文本与样本关键词进行匹配处理，具体包括以下内容：在待检测文本对应的至少一个子字符串中，查询与样本关键词相同的子字符串；在待检测文本对应的至少一个子字符串中，不存在与样本关键词相同的子字符串的情况下，确定待检测文本与样本关键词匹配失败。

其中，待检测文本对应的至少一个子字符串通过对待检测文本的字符串进行划分得到；假设待检测文本为{a，b，c，d}，那么对应的至少一个子字符串分别为{a，b，c，d}、{a，b，c}、{a，b}、{a}、{b，c，d}、{b，c}、{b}、{c，d}、{c}以及{d}。

具体地，服务器在待检测文本对应的至少一个子字符串中，查询与样本关键词相同的子字符串，并在待检测文本对应的至少一个子字符串中，不存在与样本关键词相同的子字符串的情况下，确定待检测文本与样本关键词匹配失败。

举例说明，假设待检测文本的字符串为{herase}，样本关键词为{ser}，那么明显地，服务器在待检测文本的字符串中查询不到与样本关键词相同的子字符串，说明待检测文本中不包含样本关键词，因此，服务器确定待检测文本与样本关键词匹配失败。

本实施例中，服务器通过在待检测文本的字符串中查询样本关键词对应的子字符串，能够实现对待检测文本与样本关键词的匹配，从而筛选出包含有异常词汇的文本。

在一示例性实施例中，在上述在待检测文本对应的至少一个子字符串中，查询与样本关键词相同的子字符串的步骤之后，还具体包括以下内容：在待检测文本对应的至少一个子字符串中，存在与样本关键词相同的子字符串的情况下，确定待检测文本与样本关键词匹配成功，并将与子字符串相同的样本关键词确定为目标关键词；根据目标关键词的类型，对待检测文本进行对应的异常文本处理。

其中，目标关键词的类型，至少包括违规关键词、敏感关键词和组合关键词；违规关键词是指，无论上下文语境如何，都不能出现的关键词；敏感关键词是指，容易存在歧义，但需要结合上下文语境来判断是否涉及异常内容的关键词；组合关键词是指，需要结合上下文语境来判断是否涉及异常内容，且词与词之间可能会存在其他语句的关键词，例如“二维码”和“观看”，再例如“粉丝”和“元”等。

其中，对应的异常文本处理至少包括拦截与召回审核，拦截是指直接将异常文本拦截下来，防止异常文本在网页或应用程序上出现；召回审核是指召回异常文本，通过人工审核判断文本能否发布。针对违规关键词，服务器采取拦截处理，针对敏感关键词和组合关键词，服务器采取召回审核处理。

具体地，如果服务器在待检测文本对应的至少一个子字符串中，查询到了与样本关键词相同的子字符串，那么服务器确定待检测文本与样本关键词匹配成功，并将查询到的样本关键词确定为目标关键词；接着，服务器确定目标关键词为违规关键词、敏感关键词与组合关键词中的哪一类关键词，并根据目标关键词的类型，对待检测文本采取对应的异常文本处理，例如，对违规关键词进行拦截，对敏感关键词与组合关键词进行召回审核。

举例说明，在异常文本处理过程中，违规关键词的处理优先级最高，其次是敏感关键词，最后是组合关键词；例如，以待检测文本{herase}为例，假设有违规关键词{erase}、敏感关键词{her}以及组合关键词{he，se}，那么服务器可以确定，在待检测文本匹配成功的目标关键词中，{erase}的处理优先级最高，因此按照对应于违规关键词的拦截处理对待检测文本进行异常文本处理。

本实施例中，服务器通过与待检测文本匹配成功的样本关键词的类型为依据，能够灵活地对待检测文本进行对应的异常文本处理，避免了传统关键词匹配导致的命中过多正常内容的问题，从而提高了文本检测的准确率。

如图3所示，在一示例性实施例中，上述步骤S104，在待检测文本与样本关键词匹配失败的情况下，对待检测文本与样本异常文本进行匹配处理之后，还具体包括以下步骤：

步骤S302，在待检测文本与样本异常文本匹配失败的情况下，获取待检测文本与候选文本簇之间的相似度。

步骤S304，根据相似度，从候选文本簇中，确定出待检测文本的关联文本簇。

步骤S306，将待检测文本添加至关联文本簇中，得到目标文本簇。

步骤S308，在目标文本簇中，存在对应的文本类型为预设类型的文本的情况下，根据目标文本簇，更新样本异常文本对应的异常文本库，以及从目标文本簇中识别出异常关键词，根据异常关键词，更新样本关键词对应的关键词库。

其中，候选文本簇通过对已检测文本进行聚类得到；已检测文本是指在待检测文本之前，已经完成关键词匹配与文本匹配，且进入聚类模型完成聚类的文本。

其中，文本类型为预设类型的文本为异常文本，即文本中涉及异常内容的文本。

具体地，服务器在待检测文本与样本异常文本匹配失败的情况下，还需要对待检测文本进行聚类处理，具体过程如下：服务器首先通过哈希分桶，得到与待检测文本相似的各个候选文本簇，组成待检测文本的候选文本簇集，然后获取待检测文本与候选文本簇集中的各个候选文本簇之间的相似度，候选文本簇集根据对已检测文本的聚类处理得到；然后，服务器从候选文本簇集中，识别出对应的相似度满足预设相似度要求的关联文本簇，例如对应的相似度最大的候选文本簇，或相似度满足一定阈值的候选文本簇；接着，服务器将待检测文本添加至关联文本簇中，得到目标文本簇；最后，在人工审核出目标文本簇中存在涉及异常内容的文本的情况下，服务器将目标文本簇添加至样本异常文本对应的异常文本库中，对异常文本库进行更新，以及从目标文本簇中识别出异常关键词，并将异常关键词添加至样本关键词对应的关键词库中，对样本关键词库进行更新。

能够理解的是，由于候选文本簇是通过对已检测文本进行聚类得到的，因此在第一条待检测文本进入文本聚类时，需要以第一条待检测文本为中心文本，建立一个新的候选文本簇；同理，当某条待检测文本没有任何相似的文本簇时，也需要以该条待检测文本为中心文本，建立一个新的候选文本簇。

举例说明，如图4所示，对与样本异常文本匹配失败的待检测文本进行聚类，得到待检测文本的目标文本簇的过程可以如下：当待检测文本进入聚类模型中时，服务器首先通过哈希分桶，获得与待检测文本相似的多个候选文本簇，组成待检测文本对应的候选文本簇集，例如待检测文本Q13对应的候选文本簇集为{{Q1，Q3}，{Q1，Q2}，{Q4，Q6}，{Q8，Q10，Q12}}；然后，服务器依次计算待检测文本与各个候选文本簇的中心文本之间的Jaccard(杰卡德系数)相似度，并根据Jaccard相似度从候选文本簇集中确定出待检测文本Q13最相似的候选文本簇(Jaccard相似度最大的相似度)，例如候选文本簇{Q8，Q10，Q12}；接着，服务器将待检测文本Q13加入到候选文本簇{Q8，Q10，Q12}中，得到目标文本簇。

本实施例中，服务器通过与样本异常文本匹配失败的待检测文本进行聚类，并基于人工对聚类得到的目标文本簇进行审核，能够将审核结果回流至异常文本库与关键词库中，从而丰富异常文本库与关键词库，使得之后的文本检测更加准确。

在一示例性实施例中，上述步骤S102，在对待检测文本与样本关键词进行匹配处理之前，还具体包括以下内容：从待检测图像中识别出目标文字区域；对目标文字区域进行预处理；预处理至少包括组合处理与排序处理；从预处理后的目标文字区域中，识别出待检测文本。

其中，待检测图像包括网页或应用程序上的评论图片、头像图片、作品图片、相册图片以及聊天图片等。

其中，组合处理与排序处理遵循的如下要求：(1)区分目标文字区域的方向(如竖排文字与横排文字)；(2)相邻的目标文字区域之间具有连接关系；(3)高度相近的目标文字区域之间具有连接关系；(4)待检测图像顶部与左部的目标文字区域排序在前。

具体地，服务器通过OCR(Optical Character Recognition，光学字符识别)算法，从待检测图像中识别出各个目标文字区域，并根据一定的要求，对各个目标文字区域进行组合处理与排序处理，得到预处理后的目标文字区域；然后，服务器从预处理后的目标文字区域中识别出待检测文本。

举例说明，如图5所示的待检测图像，服务器根据OCR算法，识别出的待检测文本为“难受想哭，需要听首愉快的歌来治愈一下”

本实施例中，服务器通过OCR算法，能够从待检测图像中识别出各个目标文字区域，又基于组合、排序处理，能够从目标文字区域中准确提取出待检测文本，从而为后续的文本检测提供了检测数据。

在一示例性实施例中，上述从待检测图像中识别出目标文字区域的步骤，具体包括以下内容：识别出待检测图像中包含文字的区域，作为初始文字区域；确定初始文字区域的识别置信度；将对应的识别置信度满足预设置信度阈值的初始文字区域，确定为目标文字区域。

其中，识别置信度是指，OCR算法能够准确识别出文字的置信度。

具体地，服务器首先通过OCR算法，首先识别出待检测图像中包含文字的区域，作为初始文字区域，然后通过OCR算法确定各个初始文字区域能够准确识别出文字的置信度；接着，服务器将对应的识别置信度大于预设置信度阈值的初始文字区域，确定为目标文字区域。

本实施例中，服务器通过识别置信度和预设置信度阈值，将一些识别准确度较低的文字(如模糊的文字、手写体、艺术字等)筛除掉，从而避免这些识别准确度较低的文字对后续文本检测的影响，进而提高了文本检测的准确率。

在一示例性实施例中，如图6所示，提供了另一种文本检测方法，以该方法应用于服务器为例进行说明，包括以下步骤：

步骤S601，识别出待检测图像中包含文字的区域，作为初始文字区域。

步骤S602，确定初始文字区域的识别置信度，将对应的识别置信度满足预设置信度阈值的初始文字区域，确定为目标文字区域。

步骤S603，对目标文字区域进行预处理，从预处理后的目标文字区域中，识别出待检测文本。

步骤S604，在待检测文本对应的至少一个子字符串中，查询与样本关键词相同的子字符串。

步骤S605，在待检测文本对应的至少一个子字符串中，不存在与样本关键词相同的子字符串的情况下，确定待检测文本与样本关键词匹配失败。

步骤S606，在待检测文本与样本关键词匹配失败的情况下，获取待检测文本的目标文本特征向量。

步骤S607，根据待检测文本的目标文本特征向量，在样本异常文本中，查询与待检测文本相似的样本异常文本。

步骤S608，在样本异常文本中，未查询到与待检测文本相似的样本异常文本的情况下，确定待检测文本与样本异常文本匹配失败。

步骤S609，在待检测文本与样本异常文本匹配失败的情况下，获取待检测文本与预设异常类别之间的相关性信息。

步骤S610，在相关性信息满足预设相关性条件的情况下，将待检测文本确定为异常文本。在步骤S604之后，还包括以下步骤：

步骤S611，在待检测文本对应的至少一个子字符串中，存在与样本关键词相同的子字符串的情况下，确定待检测文本与样本关键词匹配成功，将与子字符串相同的样本关键词确定为目标关键词。

步骤S612，确定目标关键词的类型，根据目标关键词的类型，对待检测文本进行对应的异常文本处理。

在步骤S607之后，还包括以下步骤：

步骤S613，在样本异常文本中，存在与待检测文本相似的样本异常文本的情况下，确定待检测文本与样本异常文本匹配成功，并将待检测文本确定为异常文本。

在步骤S609之后，还包括以下步骤：

步骤S614，在待检测文本与样本异常文本匹配失败的情况下，获取待检测文本与候选文本簇之间的相似度。

步骤S615，根据相似度，从候选文本簇中，确定出待检测文本的关联文本簇，并将待检测文本添加至关联文本簇中，得到目标文本簇。

步骤S616，在目标文本簇中，存在对应的文本类型为预设类型的文本的情况下，根据目标文本簇，更新样本异常文本对应的异常文本库，以及更新样本关键词对应的关键词库。

本实施例中，首先，服务器通过在待检测文本对应的字符串中查询样本关键对应的子字符串，能够实现对待检测文本与样本关键词的匹配，从而筛选出包含有异常词汇的文本，同时，服务器通过与待检测文本匹配成功的样本关键词的类型为依据，还能够灵活地对待检测文本进行对应的异常文本处理，避免了传统关键词匹配导致的命中过多正常内容的问题。接着，服务器通过对待检测文本的哈希分桶，能够从样本异常文本中，确定出与待检测文本对应的相似文本集，从而实现对待检测文本与样本异常文本的匹配处理。此外，服务器还通过与样本异常文本匹配失败的待检测文本进行聚类，并基于人工对聚类得到的目标文本簇进行审核，能够将审核结果回流至异常文本库与关键词库中，从而丰富异常文本库与关键词库，使得之后的文本检测更加准确。这样，服务器通过关键词匹配、文本匹配、类别匹配三种匹配方式的结合，能够将关键词异常、内容异常以及特征不明显的异常文本尽可能地识别出来，从而提高文本检测的准确率。还需要说明的是，服务器按照关键词匹配、文本匹配、类别匹配的顺序逐步对待检测文本进行检测，还能够按层次地缩小检测范围，减少文本检测过程中的数据处理量，还提高了文本检测的效率。

为了更清晰阐明本申请实施例提供的文本检测方法，以下以一个具体的实施例对该文本检测方法进行具体说明。如图7所示，在一示例性实施例中，本申请还提供了一种含敏感文字的图片识别与拦截方法，具体包括以下步骤：

步骤1：图像文字识别。

服务器基于OCR算法，从含文字的图片中识别出一个或多个含文字的文字区域；根据OCR识别结果，对文字区域进行组合、排序和筛选，得到待检测文本。

步骤2：基于关键词词库的关键词匹配。

服务器通过已经建立好的关键词词库，进行算法匹配，直接准确地筛选出包含词库内的关键词的文本，并根据命中的关键词的属性，选择自动拦截或召回审核。

步骤3：基于文本内容黑库的文本相似度匹配。

若关键词匹配未命中，则服务器通过文本相似度匹配算法检索文本内容黑库，匹配文本内容黑库中与待检测文本最相似的样本文本；如果相似度大于一定阈值，则可以判断命中，在命中的情况下，服务器选择自动拦截或召回审核。

步骤4：若文本相似度匹配未命中，则服务器对待检测文本进行基于内容的实时聚类，将内容相似或相同的文本聚成簇，每个文本簇都可以看作一种模版，其内容、顺序、长度具有高度的相似性。通过人工定时审核，可以提取出高频出现的关键词和模版，回流加入至关键词词库和文本内容黑库中。此外，聚集的异常文本也可以由人工批量处理掉。

步骤5：若文本相似度匹配未命中，则服务器对文本进行自然语言识别，通过多分类模型来判断文本属于哪种异常内容。需要注意的是，由于OCR识别出的文字存在个别错字、组合排版逻辑混乱、无关文字内容等问题，为了提升多分类模型的效果，需要针对这些特殊性进行针对性的预处理，例如数据增强。最后，服务器对通过多分类模型识别出来的异常文本进行对应的异常文本处理。其中，步骤4中发现的高频异常文本，也可以作为多分类模型的训练数据，提升多分类模型的识别效果。

本实施例中，服务器通过关键词匹配、文本相似度匹配、NLP多分类、文本内容聚类等多种技术的优劣互补，综合解决了图片中存在异常内容的问题；其中，利用关键词匹配技术，实现了针对无歧义关键词的高效识别；利用文本内容相似度匹配技术，实现了针对有歧义风险或无明显违规词的文本的准确识别，弥补了关键词匹配技术的局限性；同时，还利用了文本内容聚类技术的优点，弥补了关键词匹配技术与文本相似匹配技术的黑库注册痛点；此外，还基于聚类结果，优化了NLP多分类模型的训练数据，可以快速积累大量贴近业务场景的数据，提升NLP多分类模型在图片文本场景中的语义识别效果。基于以上过程的文本检测方法，在不同情况下解决了文本识别、文本检测、文本拦截的问题，提高了针对图片中的异常文字的识别效果。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一示例性实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储关键词库、异常文本库等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本检测方法。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一示例性实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一示例性实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一示例性实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种文本检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述待检测文本与所述样本异常文本进行匹配处理，包括：

获取所述待检测文本的目标文本特征向量；

3.根据权利要求2所述的方法，其特征在于，所述根据所述待检测文本的目标文本特征向量，在所述样本异常文本中，查询与所述待检测文本相似的样本异常文本，包括：

4.根据权利要求2所述的方法，其特征在于，所述获取所述待检测文本的目标文本特征向量，包括：

获取每次乱序处理后的初始文本特征向量的最小哈希值；

5.根据权利要求1所述的方法，其特征在于，所述对待检测文本与样本关键词进行匹配处理，包括：

6.根据权利要求5所述的方法，其特征在于，在所述待检测文本对应的至少一个子字符串中，查询与所述样本关键词相同的子字符串之后，还包括：

7.根据权利要求1所述的方法，其特征在于，在所述待检测文本与所述样本关键词匹配失败的情况下，对所述待检测文本与所述样本异常文本进行匹配处理之后，还包括：

8.根据权利要求1至7任一项所述的方法，其特征在于，在对待检测文本与样本关键词进行匹配处理之前，还包括：

从待检测图像中识别出目标文字区域；

从预处理后的目标文字区域中，识别出所述待检测文本。

9.根据权利要求8所述的方法，其特征在于，所述从待检测图像中识别出目标文字区域，包括：

识别出所述待检测图像中包含文字的区域，作为初始文字区域；

确定所述初始文字区域的识别置信度；

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。