CN117892724B

CN117892724B - 一种文本检测方法、装置、设备及存储介质

Info

Publication number: CN117892724B
Application number: CN202410295040.7A
Authority: CN
Inventors: 付虹升; 刘怀熠; 罗娟
Original assignee: Chengdu Seres Technology Co Ltd
Current assignee: Chengdu Seres Technology Co Ltd
Priority date: 2024-03-15
Filing date: 2024-03-15
Publication date: 2024-06-04
Anticipated expiration: 2044-03-15
Also published as: CN117892724A

Abstract

本申请公开了一种文本检测方法、装置、设备及存储介质，涉及计算机技术领域，该方法包括：获取第一文本以及对第一文本进行检测的检测需求；如果检测需求为同音字检测，将第一文本转换为拼音文本，将配置文件中的汉字敏感词库转换为拼音敏感词库，将拼音文本分别与拼音敏感词库和英文敏感词库进行匹配，得到拼音文本中的第一敏感词集合，第一敏感词集合中的敏感词包括英文；将第一敏感词集合转换为第二敏感词集合，第二敏感词集合中的敏感词包括英文和/或中文；利用汉字敏感词库和英文敏感词库，对第二敏感词集合进行筛选，得到第三敏感词集合，第三敏感词集合中的敏感词为第一文本中的敏感词，该方法能够提高文本检测的准确度。

Description

一种文本检测方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种文本检测方法、装置、设备及存储介质。

背景技术

文本检测是指对文本中的敏感词进行检测，敏感词通常是指违规内容或者是用户所指定的内容，通过对文本进行检测，能够及时发现文本中的敏感词，从而进行相应处理，例如，文本中的敏感词进行屏蔽。

目前文本检测的方案均是依赖模型，这需要进行大量的前期准备工作，并且训练过程耗时、耗资源，依赖模型对文本进行检测还会存在一定的漏检测的情况。

可见，上述针对文本进行检测的检测方式的准确度较差。

发明内容

本申请提供一种文本检测方法、装置、设备及存储介质，能够提高文本检测的准确度。

为达到上述目的，本申请采用如下技术方案：

第一方面，本申请提供了一种文本检测方法，所述方法包括：

获取第一文本，以及对所述第一文本进行检测的检测需求；

如果所述检测需求为同音字检测，将第一文本转换为拼音文本，将配置文件中的汉字敏感词库转换为拼音敏感词库，所述配置文件还包括英文敏感词库；

将所述拼音文本分别与所述拼音敏感词库和所述英文敏感词库进行匹配，得到所述拼音文本中的第一敏感词集合，所述第一敏感词集合中的敏感词包括英文；

将所述第一敏感词集合转换为第二敏感词集合，所述第二敏感词集合中的敏感词包括英文和/或中文；

利用所述汉字敏感词库和所述英文敏感词库，对所述第二敏感词集合进行筛选，得到第三敏感词集合，所述第三敏感词集合中的敏感词为所述第一文本中的敏感词。

在一些可能的实现方式中，所述第一敏感词集合包括第一子敏感词以及所述第一子敏感词在所述拼音文本中的第一位置信息，所述将所述第一敏感词集合转换为第二敏感词集合，包括：

根据所述第一子敏感词在所述拼音文本中的第一位置信息和所述拼音文本中拼音的参考位置信息，将所述第一敏感词集合转换为第二敏感词集合。

在一些可能的实现方式中，所述根据所述第一子敏感词在所述拼音文本中的第一位置信息和所述拼音文本中拼音的参考位置信息，将所述第一敏感词集合转换为第二敏感词集合，包括：

如果所述第一子敏感词在所述拼音文本中的第一位置信息和所述拼音文本中拼音的参考位置信息匹配，判断所述拼音文本中的参考位置信息对应的拼音在所述第一文本中是否为汉字；

如果所述拼音文本中的参考位置信息对应的拼音在所述第一文本中为汉字，将所述第一位置信息更新为第二位置信息，将所述第一子敏感词更新为第二子敏感词，所述第二位置信息为所述第二子敏感词在所述第一文本中的位置信息，所述第二子敏感词包括汉字；

根据所述第二子敏感词和所述第二位置信息，生成第二敏感词集合。

在一些可能的实现方式中，所述方法还包括：

如果所述拼音文本中的参考位置信息对应的拼音在所述第一文本中不是汉字，将所述第一子敏感词对应的第一位置信息更新为第三位置信息，将所述第一子敏感词作为第三子敏感词，所述第三位置信息为所述第三子敏感词在所述第一文本中的位置信息；

根据所述第三子敏感词和所述第三位置信息，生成第二敏感词集合。

在一些可能的实现方式中，所述方法还包括：

如果所述第一子敏感词在所述拼音文本中的第一位置信息和所述拼音文本中拼音的参考位置信息不匹配，将所述第一子敏感词的第一位置信息更新为第四位置信息，将所述第一子敏感词作为第四子敏感词，所述第四位置信息为所述第四子敏感词在所述第一文本中的位置信息；

根据所述第四子敏感词和第四位置信息，生成第二敏感词集合。

在一些可能的实现方式中，所述方法还包括：

对所述第一文本中所述第三敏感词集合内的敏感词进行屏蔽，得到第二文本；

展示所述第二文本；或者，

根据所述第三敏感词集合生成提示信息，所述提示信息用于提示所述第一文本中的敏感词。

在一些可能的实现方式中，所述配置文件还包括白名单；所述利用所述汉字敏感词库和所述英文敏感词库，对所述第二敏感词集合进行筛选，得到第三敏感词集合，包括：

利用所述汉字敏感词库、所述英文敏感词库以及所述白名单，对所述第二敏感词集合进行筛选，得到第三敏感词集合。

第二方面，本申请提供了一种文本检测装置，所述装置包括：

获取模块，用于获取第一文本，以及对所述第一文本进行检测的检测需求；

转换模块，用于如果所述检测需求为同音字检测，将第一文本转换为拼音文本，将配置文件中的汉字敏感词库转换为拼音敏感词库，所述配置文件还包括英文敏感词库；

匹配模块，用于将所述拼音文本分别与所述拼音敏感词库和所述英文敏感词库进行匹配，得到所述拼音文本中的第一敏感词集合，所述第一敏感词集合中的敏感词包括英文；

检测模块，用于将所述第一敏感词集合转换为第二敏感词集合，所述第二敏感词集合中的敏感词包括英文和/或中文；利用所述汉字敏感词库和所述英文敏感词库，对所述第二敏感词集合进行筛选，得到第三敏感词集合，所述第三敏感词集合中的敏感词为所述第一文本中的敏感词。

在一些可能的实现方式中，所述第一敏感词集合包括第一子敏感词以及所述第一子敏感词在所述拼音文本中的第一位置信息，所述检测模块，具体用于根据所述第一子敏感词在所述拼音文本中的第一位置信息和所述拼音文本中拼音的参考位置信息，将所述第一敏感词集合转换为第二敏感词集合。

在一些可能的实现方式中，所述检测模块，具体用于如果所述第一子敏感词在所述拼音文本中的第一位置信息和所述拼音文本中拼音的参考位置信息匹配，判断所述拼音文本中的参考位置信息对应的拼音在所述第一文本中是否为汉字；如果所述拼音文本中的参考位置信息对应的拼音在所述第一文本中为汉字，将所述第一位置信息更新为第二位置信息，将所述第一子敏感词更新为第二子敏感词，所述第二位置信息为所述第二子敏感词在所述第一文本中的位置信息，所述第二子敏感词包括汉字；根据所述第二子敏感词和所述第二位置信息，生成第二敏感词集合。

在一些可能的实现方式中，所述检测模块，还用于如果所述拼音文本中的参考位置信息对应的拼音在所述第一文本中不是汉字，将所述第一子敏感词对应的第一位置信息更新为第三位置信息，将所述第一子敏感词作为第三子敏感词，所述第三位置信息为所述第三子敏感词在所述第一文本中的位置信息；根据所述第三子敏感词和所述第三位置信息，生成第二敏感词集合。

在一些可能的实现方式中，所述检测模块，还用于如果所述第一子敏感词在所述拼音文本中的第一位置信息和所述拼音文本中拼音的参考位置信息不匹配，将所述第一子敏感词的第一位置信息更新为第四位置信息，将所述第一子敏感词作为第四子敏感词，所述第四位置信息为所述第四子敏感词在所述第一文本中的位置信息；根据所述第四子敏感词和第四位置信息，生成第二敏感词集合。

在一些可能的实现方式中，所述装置还包括展示模块；所述展示模块，用于对所述第一文本中所述第三敏感词集合内的敏感词进行屏蔽，得到第二文本；展示所述第二文本。

在一些可能的实现方式中，所述装置还包括提示模块；所述提示模块用于提示所述第一文本中的敏感词。

在一些可能的实现方式中，所述配置文件还包括白名单，所述检测模块，具体用于利用所述汉字敏感词库、所述英文敏感词库以及所述白名单，对所述第二敏感词集合进行筛选，得到第三敏感词集合。

第三方面，本申请提供了一种计算设备，包括存储器和处理器；

其中，在所述存储器中存储有一个或多个计算机程序，所述一个或多个计算机程序包括指令；当所述指令被所述处理器执行时，使得所述计算设备执行如第一方面中任一项所述的方法。

第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行如第一方面中任一项所述的方法。

由上述技术方案可知，本申请至少具有如下有益效果：

本申请提供了一种文本检测方法，该方法包括获取第一文本以及对该第一文本进行检测的检测需求，如果检测需求为同音字检测，将该第一文本转换为拼音文本，将配置文件中的汉字敏感词库转换为拼音敏感词库，配置文件还包括英文敏感词库，将拼音文本分别与拼音敏感词库和英文敏感词库进行匹配，得到拼音文本中的第一敏感词集合，该第一敏感词集合中的敏感词包括英文，然后将第一敏感词集合转换为第二敏感词集合，该第二敏感词集合中的敏感词包括英文和/或中文，最后利用汉字敏感词库和英文敏感词库，对第二敏感词集合进行筛选，从而得到第三敏感词集合，该第三敏感词集合中的敏感词为第一文本中的敏感词。该文本检测方法，与传统依赖模型的检测方法不同，无需进行模型训练，并且可以将第一文本中与黑名单进行的同音字检测，可以全面检测出第一文本中存在的敏感词，减少了漏检测的情况，提高了检测的准确度。

应当理解的是，本申请中对技术特征、技术方案、有益效果或类似语言的描述并不是暗示在任意的单个实施例中可以实现所有的特点和优点。相反，可以理解的是对于特征或有益效果的描述意味着在至少一个实施例中包括特定的技术特征、技术方案或有益效果。因此，本说明书中对于技术特征、技术方案或有益效果的描述并不一定是指相同的实施例。进而，还可以任何适当的方式组合本实施例中所描述的技术特征、技术方案和有益效果。本领域技术人员将会理解，无需特定实施例的一个或多个特定的技术特征、技术方案或有益效果即可实现实施例。在其他实施例中，还可在没有体现所有实施例的特定实施例中识别出额外的技术特征和有益效果。

附图说明

图1为本申请实施例提供的一种应用场景的示意图；

图2为本申请实施例提供的一种文本检测方法的流程图；

图3为本申请实施例提供的一种文本检测装置的示意图；

图4为本申请实施例提供的一种计算设备的示意图。

具体实施方式

本申请说明书和附图说明中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于限定特定顺序。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

为了下述各实施例的描述清楚简洁，首先给出相关技术的简要介绍：

文本检测是指对文本中的敏感词进行检测，目前的检测方法中，多依赖模型，这种情况下，需要提前进行大量的前期准备，以及模型训练，完成训练后的模型才有可能对文本进行精准的检测，不仅耗时、耗资源，而且训练后的模型还会存在检测不准确的情况。

有鉴于此，本申请实施例提供了一种文本检测方法，该方法可以由检测设备执行，该检测设备可以终端、也可以是服务器，终端包括但不限于智能手机、平板电脑、笔记本电脑、个人数字助理(personal digitalassistant，PDA)或者智能穿戴设备等。服务器可以是云服务器，例如是中心云计算集群中的中心服务器，或者是边缘云计算集群中的边缘服务器。当然，服务器也可以是本地数据中心中的服务器。本地数据中心是指用户直接控制的数据中心。具体地，该方法包括：

检测设备获取第一文本，以及获取对该第一文本进行检测的检测需求，如果该检测需求为同音字检测，则将第一文本转换为拼音文本，将配置文件中的汉字敏感词库转换为拼音敏感词库，配置文件还包括英文敏感词库，接下来，将拼音文本分别与拼音敏感词库和英文敏感词库进行匹配，从而得到拼音文本中的第一敏感词集合，该第一敏感词集合中的敏感词包括英文，然后将第一敏感词集合转换为第二敏感词集合，该第二敏感词集合中的敏感词包括英文和/或中文；最后，检测设备利用汉字敏感词库和英文敏感词库，对第二敏感词集合进行筛选，得到第三敏感词集合，该第三敏感词集合中的敏感词为第一文本中的敏感词。

该文本检测方法，与传统依赖模型的检测方法不同，无需进行模型训练，并且可以将第一文本中与黑名单进行的同音字检测，可以全面检测出第一文本中存在的敏感词，减少了漏检测的情况，提高了检测的准确度。

为了使得本申请的技术方案更加清楚、易于理解，下面结合附图对本申请实施例提供的文本检测方法的一种应用场景进行介绍。如图1所示，该图为本申请实施例提供的一种应用场景的示意图。

在该应用场景中，第一用户101与第二用户102可以进行网络聊天，第一用户101可以向第二用户102发送“汽车是一个出行的产品，汽车不好用”，如果“不好用”在黑名单中，检测设备可以对第一用户101所发送的文本进行检测，发现该文本中存在黑名单中的敏感词，此时可以对该文本中的敏感词即“不好用”进行屏蔽，例如，利用“***”代替“不好用”，从而第二用户102接收到的信息变为“汽车是一个出行的产品，汽车***”，从而实现对敏感词的屏蔽。

需要说明的是，上述应用场景仅仅是本申请实施例所提供的文本检测方法的众多应用场景之一，在另一些实施例中，该文本检测方法还可以应用于自然语言生成的监测场景，用于对模型输出的文本进行敏感词屏蔽，以对模型进行修正等。本申请不具体限定该文本检测方法的应用场景，具体的应用场景可以基于具体的业务需求而设计。

为了使得本申请的技术方案更加清楚、易于理解，下面以检测设备的角度，结合附图，对本申请的技术方案进行介绍，如图2所示，该图为本申请实施例提供的一种文本检测方法的流程图，该方法包括：

S201、检测设备获取第一文本，以及对该第一文本进行检测的检测需求。

第一文本是待检测的文本，在一些示例中，该第一文本可以是“美#丽，没力啊tian天，没梨按”，对第一文本进行检测的检测需求可以包括同音字检测和精确检测，其中，同音字检测是指如果待检测的文本中存在与黑名单中读音相同的内容，即认为是敏感词，精确检测是指如果待检测的文本中存在与黑名单中相同的内容，即认为是敏感词。

在一些实施例中，检测设备可以获取第一文本，也可以获取第一语音，然后对该第一语音进行识别，进而得到第一语音对应的第一文本。

S202、如果检测需求为同音字检测，检测设备将第一文本转换为拼音文本，将配置文件中的汉字敏感词库转换为拼音敏感词库。

配置文件用于记录英文敏感词库、汉字敏感词库、白名单和忽略字符名单等。其中，英文敏感词库中的敏感词可以是英文字母，例如“tian”，汉字敏感词库中的敏感词可以是汉字，例如“美丽”、“昂”和“按”。白名单中的内容不需要检验，例如“没梨”，忽略字符名单是指可以跳过检测的字符，忽略字符名单中的字符不需要参加敏感词的校验，例如“#”、“%”、“，”和“$”等。

需要说明的是，以上仅仅是对配置文件的示例性介绍。

延续上例，检测设备将第一文本转换为拼音文本可以是，检测设备先确定出第一文本中汉字，然后确定该汉字对应的拼音，进而形成拼音文本，示例性的，上述第一文本“美#丽，没力啊tian天，没梨按”对应的拼音文本为“mei#li，meiliatiantian，meilian”。在得到第一文本对应的拼音文本后，可以根据该拼音文本确定拼音的位置信息，该拼音的位置信息可以按照以下规则进行记录：当前拼音在第一文本中的开始位置_当前拼音在第一文本中的结束位置_当前字符的长度。

示例性的，上述第一文本对应的拼音的位置信息参见表1。

表1：

其中，“没”对应的拼音的位置信息为“4_4_3”，表示“没”在第一文本中的开始位置为4，结束位置为4，“没”的拼音长度为3。其中，第一个位置记为0。

由此，可以得到拼音的位置信息为['0_0_3', '1_1_1', '2_2_2', '3_3_1', '4_4_3', '5_5_2', '6_6_1', '7_10_4', '11_11_4', '12_12_1', '13_13_3', '14_14_2','15_15_2']。

在得到上述表1所示的信息后，可以进一步处理得到拼音的开始位置信息、拼音在第一文本中的长度信息以及拼音在第一文本中的开始位置信息。

其中，拼音的开始位置信息记为数组A，拼音在第一文本中的长度信息记为数组B，拼音在第一文本中的开始位置信息记为数组C。延续上例，拼音的开始位置信息A=[0, 3,4, 6, 7, 10, 12, 13, 17, 21, 22, 25, 27, 29]；拼音在第一文本中的长度信息B=[1,1, 1, 1, 1, 1, 1, 4, 1, 1, 1, 1, 1, 0]；拼音在第一文本中的开始位置信息C=[0, 1,2, 3, 4, 5, 6, 7, 11, 12, 13, 14, 15, 16, 16]。上述数组A和数组B中的最后一位为无效信息，数组C中的最后两位为无效信息。示例性的，数组A中的第三位（由左至右）“4”、数组B中的第三位“1”、数组C中的第三位“2”表示，“li”的开始位置为4，“丽”在第一文本中的长度为1，“丽”在第一文本中的开始位置为2。

类似地，检测设备也可以将配置文件中的汉字敏感词库转换为拼音敏感词库。示例性的，上述汉字敏感词库[“美丽”、“昂”、“按”]中的汉字对应的拼音分别为，将拼音组合，进而得到对应的拼音敏感词库[“meili”、“ang”、“an”]。

在一些示例中，可以将上述拼音敏感词库和英文敏感词库进行预处理得到同音字黑名单词典，该同音字黑名单词典可以按照键值对的方式，保存上述拼音敏感词库和英文敏感词库中的敏感词。例如，以敏感词的首字符为key，将所有相同首字符的敏感词保存在对应的value中，并且，各个value按照字符串的长度由大到小排序。由此可以得到上述同音字黑名单词典：{'m':[‘meili’],'a':['ang', 'an'],'t':['tian']}。其中，“m”、“a”和“t”为key，“m”的value为“meili”，“a”的value为“ang”和“an”，“t”的value为“tian”。

在另一些实施例中，如果检测需求为精确检测，则无需将第一文本转换为拼音文本，也无需将汉字敏感词库转换为拼音敏感词库，可以直接基于汉字敏感词库和英文敏感词库生成精确黑名单词典，示例性的，该精确黑名单词典可以是{“美”:[“美丽”], “昂”:[“昂”], “按”:[“按”], “t”:[“tian”]}。

S203、检测设备将拼音文本分别与拼音敏感词库和英文敏感词库进行匹配，得到该拼音文本中的第一敏感词集合，该第一敏感词集合中的敏感词包括英文。

在得到拼音文本后，检测设备可以将该拼音文本分别与拼音敏感词库和英文敏感词库进行匹配，从而得到该拼音文本中的第一敏感词集合。在另一些示例中，检测设备也可以将该拼音文本与上述同音字黑名单词典进行匹配，从而确定该拼音文本中的敏感词，进而组合得到第一敏感词集合。

需要说明的是，该第一敏感词集合中的敏感词包括英文，当然也可以包括上述不需要检测的符号，例如“#”。

在一些实施例中，该第一敏感词集合包括第一子敏感词以及第一子敏感词在拼音文本中的第一位置信息，第一子敏感词为第一敏感词集合中的敏感词。示例性的，第一敏感词集合也可以按照键值对的方式存储敏感词信息和位置信息，例如，key的规则可以是敏感词的起始位置索引_敏感词字符的长度，value则保存敏感词本身。

延续上例，第一敏感词集合可以是：{'0_6': 'mei#li', '7_5': 'meili', '13_4': 'tian', '15_2': 'an', '17_4': 'tian', '19_2': 'an', '22_5': 'meili', '27_2': 'an'}。其中，“'0_6': 'mei#li'”表示，敏感词“'mei#li'”的起始位置索引为0，字符长度为6；“'13_4': 'tian'”表示，敏感词“'tian'”的起始位置索引为13，字符长度为4。

下面以上述拼音文本为“mei#li，meiliatiantian，meilian”，同音字黑名单词典为{'m':[‘meili’],'a':['ang', 'an'],'t':['tian']}为例，介绍匹配过程。

在一些实施例中，检测设备先判断当前拼音文本中字符是否为上述同音字黑名单词典中的key值，如果是，则进入同音字黑名单词典的匹配。

需要说明的是，上述遍历过程是从拼音文本的首位开始直至末尾，即，从“mei#li…”开始，直至最后。可见，“m”、“a”和“t”都是音字黑名单词典中的key。分别获取各个key对应的value，其中，“m”对应的value为“meili”，“a”对应的value为“ang”和“an”，“t”对应的value为“tian”。

在得到各个key对应的value后，检测设备根据value遍历拼音文本。例如，检测设备在遍历“m”对应的value时，从拼音文本中首个“m”处开始遍历，即遍历“mei#li，meiliatiantian，meilian”，然后匹配到的“m”对应的敏感词，以及该敏感词在拼音文本中的位置；再例如，检测设备在遍历“a”对应的value是，从拼音文本中首个“a”处开始遍历，即遍历“atiantian，meilian”，然后记录“a”对应的敏感词，以及该敏感词在拼音文本中的位置。

检测设备在遍历过程中，先判断value值是否与剩余拼音文本中的字符相同（该过程需要忽略不需要参见敏感词校验的字符，例如“#”），如果存在相同字符，则对敏感词以及该敏感词的位置进行记录，如果不存在相同字符，则从value中的下一个继续判断。示例性的，以遍历“atiantian，meilian”为例，先判断“a”对应的value中的“ang”是否与拼音文本中的字符相同，可见不存在相同的字符，则再判断“a”对应的value中的“an”是否与拼音文本中的字符相同，可见，存在相同的字符，然后记录该敏感词以及敏感词对应的位置。

检测设备在判断“ang”是否与拼音文本中的字符相同过程中，需要一次判断“a”、“n”和“g”，是否依次在剩余拼音文本中存在。

在检测设备得到拼音文本中的敏感词以及敏感词的位置信息后，可以按照上述第一敏感词集合存储信息的规则，得到第一敏感词集合。

S204、检测设备将第一敏感词集合转换为第二敏感词集合，该第二敏感词集合中的敏感词包括英文和/或中文。

检测设备在得到第一敏感词集合之后，可以将该第一敏感词集合转换为第二敏感词集合，其中，第二敏感词集合中的敏感词包括英文和/或中文，当然，还可以包括上述不需要检测的符号。该第二敏感词集合中敏感词的存储方式与第一敏感词集合中敏感词的存储方式类似。

有上述步骤可知，第一敏感词集合包括第一子敏感词以及该第一子敏感词在拼音文本中的第一位置信息。检测设备可以根据该第一子敏感词在拼音文本中的第一位置信息和拼音文本中拼音的参考位置信息，将第一敏感词集合转换为第二敏感词集合。其中，该拼音文本中拼音的参考位置信息可以通过上述数组A来表征。

下面介绍检测设备如何将第一敏感词集合转换为第二敏感词集合。

如果第一子敏感词在拼音文本中的第一位置信息和拼音文本中拼音的参考位置信息匹配，检测设备判断拼音文本中的参考位置信息对应的拼音在第一文本中是否为汉字，如果拼音文本中的参考位置信息对应的拼音在第一文本中为汉字，将第一位置信息更新为第二位置信息，将第一子敏感词更新为第二子敏感词，该第二位置信息为第二子敏感词在第一文本中的位置信息，该第二子敏感词包括汉字，当然也可以包括可以不需要检测的字符，例如“#”。最后，检测设备再根据第二子敏感词和第二位置信息，生成第二敏感词集合。

在一些示例中，第一子敏感词可以是“mei#li”，第一位置信息为“0_6”，检测设备可以根据第一位置信息，判定第一子敏感词的起始位置索引是否在数组A中，如果在数组A中，则确定第一子敏感词在拼音文本中的第一位置信息和拼音文本中拼音的参考位置信息匹配，反之则不匹配。检测设备还可以根据第一位置信息，确定第一子敏感词的起始位置索引在数组A中的位置排序，将该位置排序确定为参考位置信息，例如，第一子敏感词的起始位置索引在数组A中的位置排序为第0个位置，将该第0个位置作为该参考位置信息，即该参考位置信息可以是第0个位置，然后在数组B中找到第0个位置对应的数值，如果该数值为1，则确定参考位置信息对应的拼音在第一文本中为汉字，否则，确定参考位置信息对应的拼音在第一文本中不是汉字。如果参考位置信息对应的拼音在第一文本中为汉字，接着将第一子敏感词更新为第二子敏感词，该第二子敏感词包括汉字，将第一位置信息更新为第二位置信息。例如，第二敏感词集合中的第二子敏感词为“美#丽”，第二子敏感词对应的第二位置信息为“0_2”，表示第二子敏感词的开始位置索引是0，结束位置索引是2。

需要说明的是，第二敏感词集合对应的key可以是“敏感词的起始位置索引_敏感词字符的长度”，还可以是“敏感词的起始位置索引_敏感词结束位置索引”。

在另一些实施例中，如果拼音文本中的参考位置信息对应的拼音在第一文本中不是汉字，检测设备将第一子敏感词对应的第一位置信息更新为第三位置信息，将第一子敏感词作为第三子敏感词，该第三位置信息为第三子敏感词在第一文本中的位置信息，然后根据第三子敏感词和第三位置信息，生成第二敏感词集合。

示例性的，第一子敏感词可以是“tian”，第一位置信息为“13_4”，检测设备可以根据第一位置信息，确定第一子敏感词的起始位置索引在数组A中的位置排序，将该位置排序确定为参考位置信息，例如该第一子敏感词的起始位置索引在数组A中的位置排序为第7个位置，将该第7个位置作为该参考位置信息，即该参考位置信息可以是第7个位置，然后在数组B中找到第7个位置对应的数值，即“4”，因此，确定参考位置信息对应的拼音在第一文本中不是汉字。检测设备将第一位置信息更新为第三位置信息，将第一子敏感词作为第三子敏感词。该第二敏感词集合中的第三子敏感词为“tian”，第三子敏感词对应的第三位置信息为“7_10”，表示第三子敏感词的开始位置索引是7，结束位置索引是10。

在另一些实施例中，如果第一子敏感词在拼音文本中的第一位置信息和拼音文本中拼音的参考位置信息不匹配，将第一子敏感词的第一位置信息更新为第四位置信息，将第一子敏感词作为第四子敏感词，该第四位置信息为第四子敏感词在第一文本中的位置信息，然后根据第四子敏感词和第四位置信息，生成第二敏感词集合。

示例性的，第一子敏感词可以是“an”，第一位置信息为“15_2”，可以第一子敏感词的起始位置索引不在数组A中，则表示第一子敏感词在拼音文本中的第一位置信息和拼音文本中拼音的参考位置信息不匹配。例如，第四子敏感词为“an”，第四位置信息为“9_10”，表示第四子敏感词的开始位置索引是9，结束位置索引是10。

需要说明的是，第二敏感词集合中可以包括上述3种类型的敏感词，即第二子敏感词、第三子敏感词和第四子敏感词。

在通过上述方式对第一敏感词集合进行处理后，即可得到第二敏感词集合，示例性的，第二敏感词集合可以是{'0_2': '美#丽', '4_5': '没力', '7_10': 'tian', '9_10': 'an', '11_11': '天', '13_14': '没梨', '15_15': '按'}。

S205、检测设备利用汉字敏感词和英文敏感词库，对第二敏感词集合进行筛选，得到第三敏感词集合，该第三敏感词集合中的敏感词为第一文本中的敏感词。

检测设备得到上述第二敏感词集合后，还需要对第二敏感词集合进行筛选，得到第三敏感词集合，该第三敏感词集合中的敏感词为第一文本中的敏感词。

在一些示例中，配置文件中还包括白名单，检测设备可以利用白名单、汉字敏感词库和英文敏感词库，对第二敏感词集合进行筛选。具体地：

从第二敏感词集合中去除白名单中的词组，然后从第二敏感词集合中选出汉字，在将选出的汉字转换为拼音，再与拼音敏感词库进行比对，去除不在拼音敏感词库中的拼音所对应的汉字，最后从第二敏感词集合中选出拼音，将该拼音与英文敏感词库进行比对，去除不在英文敏感词库中的拼音，最终，将第二敏感词集合中剩下的敏感词，作为第三敏感词集合。示例性的，第三敏感词集合可以是：{'0_2': '美#丽', '4_5': '没力', '7_10':'tian', '15_15': '按'}。

在一些实施例中，检测设备还可以对第一文本中第三敏感词集合内的敏感词进行屏蔽，得到第二文本，然后展示第二文本，示例性的，第二文本为“***，**啊****天，没梨*”。在另一些实施例中，检测设备还可以根据第三敏感词集合生成提示信息，该提示信息用于提示第一文本中的敏感词，例如对第一文本中的敏感词进行高亮显示等。

需要说明的是，如果检测需求为精确检测，则无需将第一文本转换为拼音文本，也无需将汉字敏感词库转为换拼音敏感词库，具体比对过程与同音字检测相类似，此处不再赘述。

基于上述内容描述，本申请实施例提供了一种文本检测方法，该方法包括获取第一文本以及对该第一文本进行检测的检测需求，如果检测需求为同音字检测，将该第一文本转换为拼音文本，将配置文件中的汉字敏感词库转换为拼音敏感词库，配置文件还包括英文敏感词库，将拼音文本分别与拼音敏感词库和英文敏感词库进行匹配，得到拼音文本中的第一敏感词集合，该第一敏感词集合中的敏感词包括英文，然后将第一敏感词集合转换为第二敏感词集合，该第二敏感词集合中的敏感词包括英文和/或中文，最后利用汉字敏感词库和英文敏感词库，对第二敏感词集合进行筛选，从而得到第三敏感词集合，该第三敏感词集合中的敏感词为第一文本中的敏感词。该文本检测方法，与传统依赖模型的检测方法不同，无需进行模型训练，并且可以将第一文本中与黑名单进行的同音字检测，可以全面检测出第一文本中存在的敏感词，减少了漏检测的情况，提高了检测的准确度。

上文结合图1至图2对本申请实施例提供的文本检测方法进行了详细介绍，下面将结合附图对本申请实施例提供的装置、设备进行介绍。

如图3所示，该图为本申请实施例提供的一种文本检测装置的示意图，该装置包括：

获取模块301，用于获取第一文本，以及对所述第一文本进行检测的检测需求；

转换模块302，用于如果所述检测需求为同音字检测，将第一文本转换为拼音文本，将配置文件中的汉字敏感词库转换为拼音敏感词库，所述配置文件还包括英文敏感词库；

匹配模块303，用于将所述拼音文本分别与所述拼音敏感词库和所述英文敏感词库进行匹配，得到所述拼音文本中的第一敏感词集合，所述第一敏感词集合中的敏感词包括英文；

检测模块304，用于将所述第一敏感词集合转换为第二敏感词集合，所述第二敏感词集合中的敏感词包括英文和/或中文；利用所述汉字敏感词库和所述英文敏感词库，对所述第二敏感词集合进行筛选，得到第三敏感词集合，所述第三敏感词集合中的敏感词为所述第一文本中的敏感词。

在一些可能的实现方式中，所述第一敏感词集合包括第一子敏感词以及所述第一子敏感词在所述拼音文本中的第一位置信息，所述检测模块304，具体用于根据所述第一子敏感词在所述拼音文本中的第一位置信息和所述拼音文本中拼音的参考位置信息，将所述第一敏感词集合转换为第二敏感词集合。

在一些可能的实现方式中，所述检测模块304，具体用于如果所述第一子敏感词在所述拼音文本中的第一位置信息和所述拼音文本中拼音的参考位置信息匹配，判断所述拼音文本中的参考位置信息对应的拼音在所述第一文本中是否为汉字；如果所述拼音文本中的参考位置信息对应的拼音在所述第一文本中为汉字，将所述第一位置信息更新为第二位置信息，将所述第一子敏感词更新为第二子敏感词，所述第二位置信息为所述第二子敏感词在所述第一文本中的位置信息，所述第二子敏感词包括汉字；根据所述第二子敏感词和所述第二位置信息，生成第二敏感词集合。

在一些可能的实现方式中，所述检测模块304，还用于如果所述拼音文本中的参考位置信息对应的拼音在所述第一文本中不是汉字，将所述第一子敏感词对应的第一位置信息更新为第三位置信息，将所述第一子敏感词作为第三子敏感词，所述第三位置信息为所述第三子敏感词在所述第一文本中的位置信息；根据所述第三子敏感词和所述第三位置信息，生成第二敏感词集合。

在一些可能的实现方式中，所述检测模块304，还用于如果所述第一子敏感词在所述拼音文本中的第一位置信息和所述拼音文本中拼音的参考位置信息不匹配，将所述第一子敏感词的第一位置信息更新为第四位置信息，将所述第一子敏感词作为第四子敏感词，所述第四位置信息为所述第四子敏感词在所述第一文本中的位置信息；根据所述第四子敏感词和第四位置信息，生成第二敏感词集合。

在一些可能的实现方式中，所述配置文件还包括白名单，所述检测模块304，具体用于利用所述汉字敏感词库、所述英文敏感词库以及所述白名单，对所述第二敏感词集合进行筛选，得到第三敏感词集合。

根据本申请实施例的文本检测装置可对应于执行本申请实施例中描述的方法，并且文本检测装置的各个模块/单元的上述其它操作和/或功能分别为了实现图2所示实施例中的各个方法的相应流程，为了简洁，在此不再赘述。

本申请实施例还提供了计算设备。如图4所示，该图为本申请实施例提供的一种计算设备的示意图，如图4所示，计算设备700包括总线701、处理器702、通信接口703和存储器704。处理器702、存储器704和通信接口703之间通过总线701通信。

总线701可以是外设部件互连标准（peripheral component interconnect，PCI）总线或扩展工业标准结构（extended industry standard architecture，EISA）总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

处理器702可以为中央处理器(central processing unit，CPU)、图形处理器（graphics processing unit，GPU）、微处理器（micro processor，MP）或者数字信号处理器（digital signal processor，DSP）等处理器中的任意一种或多种。

通信接口703用于和外部通信。例如，通信接口703可以用于获取第一文本，或者将第二文本发送给其他设备。

存储器704可以包括易失性存储器(volatile memory)，例如随机存取存储器(random access memory，RAM)。存储器704还可以包括非易失性存储器(non-volatilememory)，例如只读存储器(read-only memory，ROM)，快闪存储器，硬盘驱动器（hard diskdrive，HDD）或固态驱动器（solid state drive，SSD）。

存储器704中存储有可执行代码，处理器702执行该可执行代码以执行前述文本检测方法。

具体地，在实现图3所示实施例的情况下，且图3实施例中所描述的文本检测装置的各模块或单元为通过软件实现的情况下，执行图3中的各模块/单元功能所需的软件或程序代码可以部分或全部存储在存储器704中。处理器702执行存储器704中存储的各单元对应的程序代码，执行前述文本检测方法。

本申请实施例还提供了一种计算机可读存储介质。所述计算机可读存储介质可以是计算设备能够存储的任何可用介质或者是包含一个或多个可用介质的数据中心等数据存储设备。所述可用介质可以是磁性介质（例如软盘、硬盘、磁带）、光介质（例如DVD）、或者半导体介质（例如固态硬盘）等。该计算机可读存储介质包括指令，所述指令指示计算设备执行上述文本检测方法。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品包括一个或多个计算机指令。在计算设备上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。

所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机或数据中心进行传输。

所述计算机程序产品被计算机执行时，所述计算机执行前述文本检测方法的任一方法。该计算机程序产品可以为一个软件安装包，在需要使用前述文本检测方法的任一方法的情况下，可以下载该计算机程序产品并在计算机上执行该计算机程序产品。

上述各个附图对应的流程或结构的描述各有侧重，某个流程或结构中没有详述的部分，可以参见其他流程或结构的相关描述。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种文本检测方法，其特征在于，所述方法包括：

获取第一文本，以及对所述第一文本进行检测的检测需求；

利用所述汉字敏感词库和所述英文敏感词库，对所述第二敏感词集合进行筛选，得到第三敏感词集合，所述第三敏感词集合中的敏感词为所述第一文本中的敏感词；

所述第一敏感词集合包括第一子敏感词以及所述第一子敏感词在所述拼音文本中的第一位置信息，所述将所述第一敏感词集合转换为第二敏感词集合，包括：

根据所述第二子敏感词和所述第二位置信息，生成第二敏感词集合；

所述判断所述拼音文本中的参考位置信息对应的拼音在所述第一文本中是否为汉字，包括：

根据第一位置信息，确定第一子敏感词的起始位置索引在数组A中的位置排序，将所述位置排序确定为参考位置信息，如果数组B中参考位置信息对应的数值为1，则确定所述参考位置信息对应的拼音在第一文本中为汉字；

所述数组A用于记录拼音的开始位置信息，所述数组B用于记录拼音在第一文本中的长度信息。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

展示所述第二文本；或者，

5.根据权利要求1-4任一项所述的方法，其特征在于，所述配置文件还包括白名单；所述利用所述汉字敏感词库和所述英文敏感词库，对所述第二敏感词集合进行筛选，得到第三敏感词集合，包括：

6.一种文本检测装置，其特征在于，所述装置包括：

检测模块，用于将所述第一敏感词集合转换为第二敏感词集合，所述第二敏感词集合中的敏感词包括英文和/或中文；利用所述汉字敏感词库和所述英文敏感词库，对所述第二敏感词集合进行筛选，得到第三敏感词集合，所述第三敏感词集合中的敏感词为所述第一文本中的敏感词；

所述第一敏感词集合包括第一子敏感词以及所述第一子敏感词在所述拼音文本中的第一位置信息，

所述转换模块，具体用于如果所述第一子敏感词在所述拼音文本中的第一位置信息和所述拼音文本中拼音的参考位置信息匹配，判断所述拼音文本中的参考位置信息对应的拼音在所述第一文本中是否为汉字；如果所述拼音文本中的参考位置信息对应的拼音在所述第一文本中为汉字，将所述第一位置信息更新为第二位置信息，将所述第一子敏感词更新为第二子敏感词，所述第二位置信息为所述第二子敏感词在所述第一文本中的位置信息，所述第二子敏感词包括汉字；根据所述第二子敏感词和所述第二位置信息，生成第二敏感词集合；

所述转换模块，具体用于根据第一位置信息，确定第一子敏感词的起始位置索引在数组A中的位置排序，将所述位置排序确定为参考位置信息，如果数组B中参考位置信息对应的数值为1，则确定所述参考位置信息对应的拼音在第一文本中为汉字；所述数组A用于记录拼音的开始位置信息，所述数组B用于记录拼音在第一文本中的长度信息。

7.一种计算设备，其特征在于，包括存储器和处理器；

其中，在所述存储器中存储有一个或多个计算机程序，所述一个或多个计算机程序包括指令；当所述指令被所述处理器执行时，使得所述计算设备执行如权利要求1至5中任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行如权利要求1至5任一项所述的方法。