CN113822059A

CN113822059A - 中文敏感文本识别方法、装置、存储介质及设备

Info

Publication number: CN113822059A
Application number: CN202111110488.XA
Authority: CN
Inventors: 李勇涛; 王圳; 樊伟华; 杜晓祥
Original assignee: Beijing Yunshang Technology Co ltd
Current assignee: Beijing Yunshang Technology Co ltd
Priority date: 2021-09-18
Filing date: 2021-09-18
Publication date: 2021-12-21

Abstract

本发明公开一种中文敏感文本识别方法、装置、存储介质及设备，获取待识别的文本对象，对文本对象进行预处理，预处理后得到文本对象对应的文本拼音列表；将敏感词库中的敏感汉字转换为敏感拼音，生成敏感拼音对应的拼音Trie树；通过文本拼音列表在拼音Trie树上进行搜索，将文本拼音列表中被搜索到的文本拼音标记为敏感词，通过标记的敏感词进行上下文回溯得到文本对象中的敏感内容，对敏感内容中的敏感词进行消隐。本发明能够确保敏感词汇的全角度的覆盖，提高召回率，支持多音、同音、形近字、拆字的干扰召回，采用常用词回溯，避免发生误判。

Description

中文敏感文本识别方法、装置、存储介质及设备

技术领域

本发明涉及敏感文字处理技术领域，具体涉及一种中文敏感文本识别方法、装置、存储介质及设备。

背景技术

目前，在互联网场景中，基于合规或是实际业务需求的考虑，对用户发表内容的审核通常是必须的。相较于其他的载体如图像或音频，用户发表文本的成本通常较低，文本内容也更加容易出现敏感或是违规的内容，及时发现并对敏感内容进行屏蔽是保证互联网的纯净的基础。

现有技术中，对于敏感文本识别方案通常包括:敏感词匹配和整句的文本分类模型敏感词匹配，通常是预先定义一个词库，当待检测文本中出现了词库中的词时,认为文本是违规或是敏感的。但是，当敏感词出现一些变体，如中文中的同音字或是形近字时，需要添加大量的词汇来覆盖敏感词才能进行屏蔽，仅仅依靠词库匹配是很难完全覆盖的。亟需一种对敏感文字及同音字、形近字等变体精准识别的技术方案。

发明内容

为此，本发明提供一种中文敏感文本识别方法、装置、存储介质及设备，以解决现有敏感文字识别不精准，不能覆盖同音字、形近字、拆字等变体的问题。

为了实现上述目的，本发明提供如下技术方案：第一方面，提供一种中文敏感文本识别方法，包括以下步骤：

获取待识别的文本对象，对所述文本对象进行预处理，预处理后得到所述文本对象对应的文本拼音列表；

将敏感词库中的敏感汉字转换为敏感拼音，生成所述敏感拼音对应的拼音Trie树；

通过所述文本拼音列表在所述拼音Trie树上进行搜索，将文本拼音列表中被搜索到的文本拼音标记为敏感词，通过标记的敏感词进行上下文回溯得到所述文本对象中的敏感内容，对所述敏感内容中的敏感词进行消隐。

作为中文敏感文本识别方法的优选方案，对所述文本对象进行预处理的步骤包括：

利用语言模型得到所述文本对象的语种类型；

对所述文本对象中的无效干扰字符进行删除处理，并记录所述干扰字符的原始位置；

对所述文本对象中的汉字和拼音进行分割；

将所述文本对象中的汉字转换为拼音。

作为中文敏感文本识别方法的优选方案，对所述文本对象中的无效干扰字符进行删除处理的方式为：利用正则表达式匹配无效干扰字符，记录所述干扰字符的原始位置以恢复原始文本，删除干扰字符形成新的文本内容。

作为中文敏感文本识别方法的优选方案，对所述文本对象中的汉字和拼音进行分割的方式为：将汉字和字母之间用空格分割开，然后把连续的字母进行拼音识别并拆分成单个拼音。

作为中文敏感文本识别方法的优选方案，将所述文本对象中的汉字转换为拼音的方式为：

通过人工整理的形近字库找到所述文本对象中每个汉字的形近字，通过人工整理的拆字库找到由若干汉字组成的合成字，将汉字本身以及对应的形近字、合成字全部转换为拼音，得到所述文本对象中的一汉字对多拼音的文本拼音列表。

作为中文敏感文本识别方法的优选方案，生成所述敏感拼音对应的拼音Trie树的过程为：

把人工总结的敏感词通过汉字转拼音程序转换为一个汉字一个拼音的形式；

然后用拼音作为Trie树的节点，形成以最长敏感词拼音个数为深度，所有出现的不同拼音个数为宽度的Trie树，并且每个敏感词的最后一个拼音节点标识为尾结点。

作为中文敏感文本识别方法的优选方案，通过所述文本拼音列表在所述拼音Trie树上进行搜索的过程为：

把所述文本对象的文本拼音列表的拼音，按顺序从所述拼音Trie树的第一层节点开始搜索，并记录匹配成功的每一层节点，当匹配到的节点标识为尾节点时，将从第一层节点到尾节点的匹配路径作为敏感词，再通过人工积累的常用词对搜索到的不同敏感程度的敏感词做上下文回溯处理，最终得到所述文本对象的敏感内容，然后将所述敏感内容的敏感词进行消隐处理。

第二方面，本发明提供一种中文敏感文本识别装置，采用第一方面或其任意可能实现方式的中文敏感文本识别方法，包括：

文本识别预处理单元，用于获取待识别的文本对象，对所述文本对象进行预处理，预处理后得到所述文本对象对应的文本拼音列表；

敏感词拼音Trie树生成单元，用于将敏感词库中的敏感汉字转换为敏感拼音，生成所述敏感拼音对应的拼音Trie树；

文本敏感内容识别处理单元，用于通过所述文本拼音列表在所述拼音Trie树上进行搜索，将文本拼音列表中被搜索到的文本拼音标记为敏感词，通过标记的敏感词进行上下文回溯得到所述文本对象中的敏感内容，对所述敏感内容中的敏感词进行消隐。

第三方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质中存储有中文敏感文本识别方法的程序代码，所述程序代码包括用于执行第一方面或其任意可能实现方式的中文敏感文本识别方法的指令。

第四方面，本发明提供一种电子设备，所述电子设备包括处理器，所述处理器与存储介质耦合，当所述处理器执行存储介质中的指令时，使得所述电子设备执行第一方面或其任意可能实现方式的中文敏感文本识别方法。

本发明具有如下优点：获取待识别的文本对象，对文本对象进行预处理，预处理后得到文本对象对应的文本拼音列表；将敏感词库中的敏感汉字转换为敏感拼音，生成敏感拼音对应的拼音Trie树；通过文本拼音列表在拼音Trie树上进行搜索，将文本拼音列表中被搜索到的文本拼音标记为敏感词，通过标记的敏感词进行上下文回溯得到文本对象中的敏感内容，对敏感内容中的敏感词进行消隐。本发明能够确保敏感词汇的全角度的覆盖，提高召回率，支持多音、同音、形近字、拆字的干扰召回，采用常用词回溯，避免发生误判。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

图1为本发明实施例中提供的中文敏感文本识别方法流程示意图；

图2为本发明实施例中提供的中文敏感文本识别方法中文本对象预处理流程图；

图3为本发明实施例中提供的中文敏感文本识别装置示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参见图1，本发明实施例1提供一种中文敏感文本识别方法，包括以下步骤：

S1、获取待识别的文本对象，对所述文本对象进行预处理，预处理后得到所述文本对象对应的文本拼音列表；

S2、将敏感词库中的敏感汉字转换为敏感拼音，生成所述敏感拼音对应的拼音Trie树；

S3、通过所述文本拼音列表在所述拼音Trie树上进行搜索，将文本拼音列表中被搜索到的文本拼音标记为敏感词，通过标记的敏感词进行上下文回溯得到所述文本对象中的敏感内容，对所述敏感内容中的敏感词进行消隐。

具体的，Trie树又称单词查找树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计，排序和保存大量的字符串(但不仅限于字符串)，经常被搜索引擎系统用于文本词频统计，其利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，查询效率比哈希树高。

参见图2，本实施例中，步骤S1对所述文本对象进行预处理的步骤包括：

S11、利用语言模型得到所述文本对象的语种类型；

S12、对所述文本对象中的无效干扰字符进行删除处理，并记录所述干扰字符的原始位置；

S13、对所述文本对象中的汉字和拼音进行分割；

S14、将所述文本对象中的汉字转换为拼音。

本实施例中，对所述文本对象中的无效干扰字符进行删除处理的方式为：利用正则表达式匹配无效干扰字符，记录所述干扰字符的原始位置以恢复原始文本，删除干扰字符形成新的文本内容。

本实施例中，对所述文本对象中的汉字和拼音进行分割的方式为：将汉字和字母之间用空格分割开，然后把连续的字母进行拼音识别并拆分成单个拼音。

本实施例中，将所述文本对象中的汉字转换为拼音的方式为：

具体的，对待识别文本对象的预处理过程中，通过对文本对象做删除符号处理等一系列措施，然后通过语言模型得到相对应的语种。利用正则表达式匹配无效干扰字符，记录其原始位置用于恢复原始文本，然后删除干扰字符形成新的文本内容。对汉字和字母之间用空格分割开，然后把连续的字母通过拼音识别模块拆分成单个的拼音。通过人工整理的形近字库，找到每个汉字的形近字，通过人工整理的拆字库找到多个汉字的合成字，然后把每个汉字本身以及形近字，合成字全部转换为拼音，得到文本的一汉字对多拼音的文本拼音列表。

具体的，早期的自然语言处理主要是基于人工撰写的规则，不能覆盖各种语言现象。统计语言模型就是在这样的环境和背景下被提出来的，广泛应用于各种自然语言处理问题，如语音识别、机器翻译、分词、词性标注等。简单地说，语言模型就是用来计算一个句子的概率的模型，利用语言模型，可以确定哪个词序列的可能性更大，或者给定若干个词，可以预测下一个最可能出现的词语。N-gram语言模型最早期的应用是语音识别、机器翻译等问题。

现阶段，存在的LTP-哈工大语言技术平台，提供了一系列中文自然语言处理工具，用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。

本实施例中，步骤S2生成所述敏感拼音对应的拼音Trie树的过程为：

具体的，汉字转拼音本身属于现有技术，汉字转拼音可以通过一个二维坐标对每一个中文字进行定位，从而建立一个二维表来实现中文和拼音的对应关系。在二维表中，保存音节表的索引值，来对应一个音节组合，而不是直接把音节组合保存在二维数组中，这样可以有效减少内存消耗。

本实施例中，步骤S3通过所述文本拼音列表在所述拼音Trie树上进行搜索的过程为：

具体的，将所述敏感内容的敏感词进行消隐处理的方式可以为屏蔽替换，将敏感词替换为特定的符号比如“*”。

综上所述，本发明通过获取待识别的文本对象，对文本对象进行预处理，预处理后得到文本对象对应的文本拼音列表；将敏感词库中的敏感汉字转换为敏感拼音，生成敏感拼音对应的拼音Trie树；通过文本拼音列表在拼音Trie树上进行搜索，将文本拼音列表中被搜索到的文本拼音标记为敏感词，通过标记的敏感词进行上下文回溯得到文本对象中的敏感内容，对敏感内容中的敏感词进行消隐。本发明能够确保敏感词汇的全角度的覆盖，提高召回率，支持多音、同音、形近字、拆字的干扰召回，采用常用词回溯，避免发生误判。

实施例2

参见图3，本发明实施例2提供一种中文敏感文本识别装置，采用实施例1或其任意可能实现方式的中文敏感文本识别方法，包括：

文本识别预处理单元1，用于获取待识别的文本对象，对所述文本对象进行预处理，预处理后得到所述文本对象对应的文本拼音列表；

敏感词拼音Trie树生成单元2，用于将敏感词库中的敏感汉字转换为敏感拼音，生成所述敏感拼音对应的拼音Trie树；

文本敏感内容识别处理单元3，用于通过所述文本拼音列表在所述拼音Trie树上进行搜索，将文本拼音列表中被搜索到的文本拼音标记为敏感词，通过标记的敏感词进行上下文回溯得到所述文本对象中的敏感内容，对所述敏感内容中的敏感词进行消隐。

本实施例中，文本识别预处理单元1对所述文本对象进行预处理的步骤包括：

利用语言模型得到所述文本对象的语种类型；

对所述文本对象中的汉字和拼音进行分割；

将所述文本对象中的汉字转换为拼音。

本实施例中，文本识别预处理单元1对所述文本对象中的无效干扰字符进行删除处理的方式为：利用正则表达式匹配无效干扰字符，记录所述干扰字符的原始位置以恢复原始文本，删除干扰字符形成新的文本内容。

本实施例中，文本识别预处理单元1对所述文本对象中的汉字和拼音进行分割的方式为：将汉字和字母之间用空格分割开，然后把连续的字母进行拼音识别并拆分成单个拼音。

本实施例中，敏感词拼音Trie树生成单元2将所述文本对象中的汉字转换为拼音的方式为：

本实施例中，敏感词拼音Trie树生成单元2生成所述敏感拼音对应的拼音Trie树的过程为：

本实施例中，文本敏感内容识别处理单元3通过所述文本拼音列表在所述拼音Trie树上进行搜索的过程为：

需要说明的是，上述装置各模块/单元之间的信息交互、执行过程等内容，由于与本申请实施例1中的方法实施例基于同一构思，其带来的技术效果与本申请方法实施例相同，具体内容可参见本申请前述所示的方法实施例中的叙述，此处不再赘述。

实施例3

本发明实施例3提供一种计算机可读存储介质，所述计算机可读存储介质中存储有中文敏感文本识别方法的程序代码，所述程序代码包括用于执行实施例1或其任意可能实现方式的中文敏感文本识别方法的指令。

计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(SolidState Disk、SSD))等。

实施例4

本发明实施例4提供一种电子设备，所述电子设备包括处理器，所述处理器与存储介质耦合，当所述处理器执行存储介质中的指令时，使得所述电子设备执行实施例1或其任意可能实现方式的中文敏感文本识别方法。

具体的，处理器可以通过硬件来实现也可以通过软件来实现，当通过硬件实现时，该处理器可以是逻辑电路、集成电路等；当通过软件来实现时，该处理器可以是一个通用处理器，通过读取存储器中存储的软件代码来实现，该存储器可以集成在处理器中，可以位于所述处理器之外，独立存在。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.中文敏感文本识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的中文敏感文本识别方法，其特征在于，对所述文本对象进行预处理的步骤包括：

利用语言模型得到所述文本对象的语种类型；

对所述文本对象中的汉字和拼音进行分割；

将所述文本对象中的汉字转换为拼音。

3.根据权利要求2所述的中文敏感文本识别方法，其特征在于，对所述文本对象中的无效干扰字符进行删除处理的方式为：利用正则表达式匹配无效干扰字符，记录所述干扰字符的原始位置以恢复原始文本，删除干扰字符形成新的文本内容。

4.根据权利要求2所述的中文敏感文本识别方法，其特征在于，对所述文本对象中的汉字和拼音进行分割的方式为：将汉字和字母之间用空格分割开，然后把连续的字母进行拼音识别并拆分成单个拼音。

5.根据权利要求2所述的中文敏感文本识别方法，其特征在于，将所述文本对象中的汉字转换为拼音的方式为：

6.根据权利要求1所述的中文敏感文本识别方法，其特征在于，生成所述敏感拼音对应的拼音Trie树的过程为：

7.根据权利要求1所述的中文敏感文本识别方法，其特征在于，通过所述文本拼音列表在所述拼音Trie树上进行搜索的过程为：

8.中文敏感文本识别装置，采用权利要求1至7任一项所述的中文敏感文本识别方法，其特征在于，包括：

9.一种计算机可读存储介质，所述计算机可读存储介质中存储有中文敏感文本识别方法的程序代码，其特征在于，所述程序代码包括用于执行权利要求1至7任一项所述的中文敏感文本识别方法的指令。

10.一种电子设备，所述电子设备包括处理器，所述处理器与存储介质耦合，其特征在于，当所述处理器执行存储介质中的指令时，使得所述电子设备执行权利要求1至7任一项所述的中文敏感文本识别方法。