CN102253983A

CN102253983A - 一种汉语高危词识别方法和系统

Info

Publication number: CN102253983A
Application number: CN2011101765878A
Authority: CN
Inventors: 张雁飞
Original assignee: Beijing Feinno Communication Technology Co Ltd
Current assignee: Beijing Feinno Communication Technology Co Ltd
Priority date: 2011-06-28
Filing date: 2011-06-28
Publication date: 2011-11-23

Abstract

本发明公开了一种汉语高危词识别方法和系统。所述方法包括：建立第一列表和第二列表；第二列表中保存高危词的全拼音串；第一列表中保存高危词的首字拼音和词长信息之间的对应关系；然后对于汉语句子S逐字进行解析，对于S中的每个当前汉字：将该当前汉字转换成拼音，根据该拼音去查询第一列表，判断第一列表中是否存在同样的拼音，是则根据该存在的同样的拼音所对应的词长信息对S进行截取，得到C，将C转换成全拼音串后，查询第二列表，判断第二列表中是否存在C的全拼音串，是则确定S中存在高危词。本发明的技术方案能够从给定的句子中快速查找出高危词。

Description

一种汉语高危词识别方法和系统

技术领域

本发明涉及互联网技术领域，特别是涉及一种汉语高危词识别方法和系统。

背景技术

目前，随着互联网信息的爆炸式发展，需要对互联网应用中一些高危词(或又称为敏感词)进行过滤，并且需要对同音的高危词进行识别和过滤。

现有的同音高危词识别是采用“分词+拼音转换”的方法，但是这种方法中，分词大大降低了效率，容易造成短板效应，且很多分词器的效果并不好，容易产生噪声干扰。对于目前互联网中的高并发的海量数据还显得力不从心。

因此需要一种新的高危词识别方法，以提高效率。

发明内容

本发明提供了一种汉语高危词识别方法，该方法能够从给定的句子中快速查找出高危词。

本发明还提供了一种汉语高危词识别系统，该系统能够从给定的句子中快速查找出高危词。

为达到上述目的，本发明的技术方案是这样实现的：

本发明公开了一种汉语高危词识别方法，建立第一列表和第二列表；第二列表中保存了所搜集的所有高危词的全拼音串；第一列表中保存首字拼音和词长信息之间的对应关系，其中首字拼音是高危词的首字拼音，词长信息是读音与该首字拼音相同的各高危词的词长信息；则对于汉语句子S进行高危词识别的过程包括：

步骤一，将S的当前汉字转换成拼音；其中，初始时S的当前汉字为S中的从左边数第一个汉字，之后，每次向右前进一个汉字，作为S的当前汉字，直到S的最右边的汉字；

步骤二，根据步骤一中转换得到拼音去查询第一列表，判断第一列表中是否存在同样的拼音，是则执行步骤三，否则返回步骤一；

步骤三，根据该存在的同样的拼音所对应的词长信息对S进行截取，得到C；

步骤四，将C转换成全拼音串后，查询第二列表，判断第二列表中是否存在C的全拼音串，是则确定S中存在高危词，退出流程，否则，返回步骤一。

本发明还公开了一种汉语高危词识别系统，该系统包括：存储模块、识别模块、汉字转拼音模块，其中：

存储模块，用于保存第一列表和第二列表；第二列表中保存了所搜集的所有高危词的全拼音串；第一列表中保存首字拼音和词长信息之间的对应关系，其中首字拼音是高危词的首字拼音，词长信息是读音与该首字拼音相同的各高危词的词长信息；

汉字转拼音模块，用于将输入的一个以上的汉字转换成对应的全拼音串后输出；

识别模块，用于根据以下步骤对输入的汉语句子S进行高危词识别：

步骤一：将S的当前汉字发送给汉字转拼音模块，并接收汉字转拼音模块返回的拼音；其中，初始时S的当前汉字为S中的从左边数第一个汉字，之后，每次向右前进一个汉字，作为S的当前汉字，直到S的最右边的汉字；

步骤二，根据步骤一中得到拼音去查询第一列表，判断第一列表中是否存在同样的拼音，是则执行步骤三，否则返回步骤一；

步骤四，将C发送给汉字转拼音模块，并接收汉字转拼音模块返回的C的全拼音串后，查询第二列表，判断第二列表中是否存在C的全拼音串，是则确定S中存在高危词，退出流程，否则，返回步骤一。

由上述可见，本发明这种建立第一列表和第二列表；第二列表中保存了所搜集的所有高危词的全拼音串；第一列表中保存首字拼音和词长信息之间的对应关系，其中首字拼音是高危词的首字拼音，词长信息是读音与该首字拼音相同的各高危词的词长信息；然后对于汉语句子S逐字进行解析，对于S中的每个当前汉字：将该当前汉字转换成拼音，根据该拼音去查询第一列表，判断第一列表中是否存在同样的拼音，是则根据该存在的同样的拼音所对应的词长信息对S进行截取，得到C，将C转换成全拼音串后，查询第二列表，判断第二列表中是否存在C的全拼音串，是则确定S中存在高危词。这种技术方案能够从给定的句子中快速查找出高危词。

附图说明

图1是本发明实施例中的一种汉语高危词识别方法的流程图；

图2是本发明实施例中的一种汉语高危词识别系统的组成结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

图1是本发明实施例中的一种汉语高危词识别方法的流程图。如图1所示，该方法包括：

101，建立第一列表和第二列表；第二列表中保存了所搜集的所有高危词的全拼音串；第一列表中保存首字拼音和词长信息之间的对应关系，其中首字拼音是高危词的首字拼音，词长信息是读音与该首字拼音相同的各高危词的词长信息。

在第一列表中，当一个首字拼音所对应的词长信息为多个时，按从小到大的顺序保存该多个词长信息。具体可以以链表的方式保存该多个词长信息，且最小的词长信息保存在链首，以此类推，最大的词长信息保存在链尾。

在本发明的一个实施例中，第一列表以首字哈希的存储结构(key/value)表现，具体可以如表1所示：

key	value	备注
			char*	struct node_lens*	使用Hashtable存储
(首字汉语拼音)	(词语gb2312码长度)

表1

词长集合单元(node_lens)：

102，接收输入的汉语句子S。则对S进行高危词识别的过程如103～106所示。

在执行步骤103之前，还可以先对S进行去噪预处理，包括：去除标点符号、英文字母、中文符号和字母，中文全角转半角，繁体转简体。即经过去噪预处理后的S只包括简体的汉字。

103，将S的当前汉字转换成拼音；其中，初始时S的当前汉字为S中的从左边数第一个汉字，之后，每次向右前进一个汉字，作为S的当前汉字，直到S的最右边的汉字。

104，根据步骤103中转换得到拼音去查询第一列表。

105，判断第一列表中是否存在同样的拼音，是则执行步106，否则返回步骤103。

106，根据该存在的同样的拼音所对应的词长信息对S进行截取，得到C。

本步骤中，如果对应的词长信息为多个，则按照对应的多个词长信息的从小到大的顺序分别对S进行截取，得到多个C；对多个C分别执行步骤107-108所述的过程。

107，将C转换成全拼音串后，查询第二列表。

108，判断第二列表中是否存在C的全拼音串，是则确定S中存在高危词，退出流程，否则，返回步骤103。

下面给出一个具体的例子对图1所示的方案进行说明。

假设“法西斯”和“法国女人”都为高危词，且首字的拼音都为“fa”。则初始构建第一列表(即‘首字哈希+词长’列表)时，有高危词“法西斯”，总词长(gb2312码)为6字节(一个汉字两个字节)，则存储结构就是：key＝{“fa”}，value＝{6}；还有一个高危词“法国女人”，则此时的存储结构为：key＝{“fa”}，value＝{6，8}。

在本实施例中假设首字拼音为“fa”的高危词就有“法西斯”和“法国女人”两个，则对应的第一列表中内容如表2所示：

key	value	备注
			“fa”	6，8	使用Hashtable存储

表2

将“法西斯”和“法国女人”两个高危词的全拼音串保存到第二列表中，则第二列表中的相应内容如表3所示

faxisi
	faguonvren

表3

当输入的汉语句子S为“法国女人漂亮！”时，根据图1所述的高危词识别过程具体如下：

首先进行去噪预处理，去掉其中感叹号“！”后，S变为“法国女人漂亮”；

将S的当前汉字“法”转换成拼音“fa”，以“fa”为key在第一列表(表2)查找，找到“fa”对应的词长为6字节和8字节；先按照6字节对S进行截取，得到的C为“法国女”，转成全拼音串后为“faguonv”，根据“faguonv”去匹配第二列表，没有匹配项；然后按照8字节对S进行截取，得到的C为“法国女人”，转成全拼音串后为“faguonvren”，根据“faguonvren”去匹配第二列表，有匹配的项，则确定S中存在高危词，该高危词的读音为“法国女人”。

假设在前面的步骤中，没有匹配到以“fa”开头的高危词，则对S向右移动一个汉字，以“国”为S的当前汉字，重复执行上述流程，判断是否存在以“guo”开头的高危词，以此类推。

图2是本发明实施例中的一种汉语高危词识别系统的组成结构示意图。如图2所示，该系统包括：存储模块201、识别模块202、汉字转拼音模块203，其中：

存储模块201，用于保存第一列表和第二列表；第二列表中保存了所搜集的所有高危词的全拼音串；第一列表中保存首字拼音和词长信息之间的对应关系，其中首字拼音是高危词的首字拼音，词长信息是读音与该首字拼音相同的各高危词的词长信息；

汉字转拼音模块203，用于将输入的一个以上的汉字转换成对应的全拼音串后输出；

识别模块202，用于根据以下步骤对输入的汉语句子S进行高危词识别：

步骤一：将S的当前汉字发送给汉字转拼音模块203，并接收汉字转拼音模块203返回的拼音；其中，初始时S的当前汉字为S中的从左边数第一个汉字，之后，每次向右前进一个汉字，作为S的当前汉字，直到S的最右边的汉字；

步骤四，将C发送给汉字转拼音模块203，并接收汉字转拼音模块203返回的C的全拼音串后，查询第二列表，判断第二列表中是否存在C的全拼音串，是则确定S中存在高危词，退出流程，否则，返回步骤一。

在图2所示的汉语高危词识别系统中，所述识别模块202，在步骤一之前还用于对S进行去噪预处理，包括：去除标点符号、英文字母、中文符号和字母，中文全角转半角，繁体转简体。

在图2所示的汉语高危词识别系统中，在所述存储模块201中的第一列表中，当一个首字拼音所对应的词长信息为多个时，按从小到大的顺序保存该多个词长信息。

在图2所示的汉语高危词识别系统中，所述识别模块202，用于在所述步骤三中，按照对应的多个词长信息的从小到大的顺序分别对S进行截取，得到多个C，然后对多个C分别执行步骤四所述的查询第二列表的过程。

在图2所示的汉语高危词识别系统中，在所述存储模块201中的第一列表中，以链表的方式保存该多个词长信息，且最小的词长信息保存在链首，以此类推，最大的词长信息保存在链尾。

综上所述，本发明这种建立第一列表和第二列表；第二列表中保存了所搜集的所有高危词的全拼音串；第一列表中保存首字拼音和词长信息之间的对应关系，其中首字拼音是高危词的首字拼音，词长信息是读音与该首字拼音相同的各高危词的词长信息；然后对于汉语句子S逐字进行解析，对于S中的每个当前汉字：将该当前汉字转换成拼音，根据该拼音去查询第一列表，判断第一列表中是否存在同样的拼音，是则根据该存在的同样的拼音所对应的词长信息对S进行截取，得到C，将C转换成全拼音串后，查询第二列表，判断第二列表中是否存在C的全拼音串，是则确定S中存在高危词。这种技术方案能够从给定的句子中快速查找出高危词。

本发明的技术方案，由于抛开的分词的过程，因此能以接近O(1)的速度进行快速查找，非常适用于海量数据、并高发的情况下的高危词识别。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种汉语高危词识别方法，其特征在于，建立第一列表和第二列表；第二列表中保存了所搜集的所有高危词的全拼音串；第一列表中保存首字拼音和词长信息之间的对应关系，其中首字拼音是高危词的首字拼音，词长信息是读音与该首字拼音相同的各高危词的词长信息；则对于汉语句子S进行高危词识别的过程包括：

2.根据权利要求1所述的方法，其特征在于，所述对于汉语句子S进行高危词识别的过程，在步骤一之前进一步包括：

对S进行去噪预处理，包括：去除标点符号、英文字母、中文符号和字母，中文全角转半角，繁体转简体。

3.根据权利要求1所述的方法，其特征在于，所述第一列表中保存首字拼音和词长信息之间的对应关系包括：

在第一列表中，当一个首字拼音所对应的词长信息为多个时，按从小到大的顺序保存该多个词长信息。

4.根据权利要求3所述的方法，其特征在于，所述步骤三包括：

按照对应的多个词长信息的从小到大的顺序分别对S进行截取，得到多个C；

对多个C分别执行步骤四所述的过程。

5.根据权利要求3所述的方法，其特征在于，所述从小到大的顺序保存该多个词长信息包括：以链表的方式保存该多个词长信息，且最小的词长信息保存在链首，以此类推，最大的词长信息保存在链尾。

6.一种汉语高危词识别系统，其特征在于，该系统包括：存储模块、识别模块、汉字转拼音模块，其中：

7.根据权利要求6所述的汉语高危词识别系统，其特征在于，

所述识别模块，在步骤一之前还用于对S进行去噪预处理，包括：去除标点符号、英文字母、中文符号和字母，中文全角转半角，繁体转简体。

8.根据权利要求6所述的汉语高危词识别系统，其特征在于，

在所述存储模块中的第一列表中，当一个首字拼音所对应的词长信息为多个时，按从小到大的顺序保存该多个词长信息。

9.根据权利要求8所述的汉语高危词识别系统，其特征在于，

所述识别模块，用于在所述步骤三中，按照对应的多个词长信息的从小到大的顺序分别对S进行截取，得到多个C，然后对多个C分别执行步骤四所述的查询第二列表的过程。

10.根据权利要求8所述的汉语高危词识别系统，其特征在于，

在所述存储模块中的第一列表中，以链表的方式保存该多个词长信息，且最小的词长信息保存在链首，以此类推，最大的词长信息保存在链尾。