CN101697153A

CN101697153A - 一种非法词判定方法和非法词判定装置

Info

Publication number: CN101697153A
Application number: CN200910110288A
Authority: CN
Inventors: 王有为; 刘克鸿; 刘飞; 杨旗; 杨丰; 马慧; 蒋铮
Original assignee: Aspire Digital Technologies Shenzhen Co Ltd
Current assignee: Aspire Digital Technologies Shenzhen Co Ltd
Priority date: 2009-10-30
Filing date: 2009-10-30
Publication date: 2010-04-21

Abstract

本发明涉及关键词过滤技术，针对现有关键词过滤方法执行效率较低的缺陷，提供一种非法词判定方法和非法词判定装置。非法词判定方法用于确定输入的关键词是否非法，包括基于非法词列表对关键词进行分词操作，并基于分词操作的结果确定该关键词是否非法。本发明还提供了一种非法词判定装置。本发明提供的非法词判定方法和非法词判定装置通过对关键词进行分词操作来对关键词进行过滤。当关键词的分割结果显示该关键词不可分割时，说明该关键词非法。当关键词的分割结果显示该关键词可分割时，说明该关键词合法。凭借分词算法执行效率高的特点，本发明提供的技术方案可极大提高关键词过滤的效率。此外，本发明提供的技术方案原理简单，易于实现。

Description

一种非法词判定方法和非法词判定装置

技术领域

本发明涉及关键词过滤技术，更具体地说，涉及一种非法词判定方法和非法词判定装置。

背景技术

从手工检索到互联网搜索引擎，计算机网络的发展为检索方式带来了革命性的变化。无论是Google公司的股票市值还是微软Vista操作系统中无处不在的搜索栏，都无不说明，搜索时代正向我们走来。

作为互联网搜索引擎的一个重要部分，搜索数据库中存储了大量的数据记录，这其中既包括文字信息，也包括语音信息、视频信息等多媒体信息，借助高效的搜索算法和遍及全球的互联网络，互联网搜索引擎正在发展成为人类历史上最大的百科全书。

在带给人们极大方便的同时，互联网搜索引擎的搜索数据库中也存储了大量的不良信息，例如色情、暴力等信息。对于此类信息，现有技术采用关键词过滤的方式阻止此类信息被用户搜索到。而现有关键词过滤技术基本采用笨拙的字符串匹配方式来进行，这种方式效率较低，面对每日数千万次的搜索请求时常显得力不从心。

因此，需要一种关键词过滤方案，能够有效克服现有关键词过滤方法执行效率较低的缺陷。

发明内容

本发明要解决的技术问题在于，针对现有关键词过滤方法执行效率较低的缺陷，提供一种非法词判定方法和非法词判定装置。

本发明解决其技术问题所采用的技术方案是：

构造一种非法词判定方法，用于确定输入的关键词是否非法，包括基于非法词列表对所述关键词进行分词操作，并基于分词操作的结果确定该关键词是否非法。

在本发明提供的非法词判定方法中，所述依据分词操作的结果确定该关键词是否非法进一步包括，若依据分词操作的结果判定该关键词可分割，则确定该关键词合法。

在本发明提供的非法词判定方法中，所述依据分词操作的结果确定该关键词是否非法进一步包括，若依据分词操作的结果判定该关键词不可分割，则确定该关键词非法。

在本发明提供的非法词判定方法中，所述分词操作为下列分词操作之中的至少一种：

基于字符串匹配的分词操作；

基于理解的分词操作；

基于统计的分词操作。

本发明还提供了一种非法词判定装置，用于确定输入的关键词是否非法，包括：

分词模块，用于基于非法词列表对所述关键词进行分词操作；

判断模块，与分词模块通信连接，用于基于分词操作的结果确定该关键词是否非法。

在本发明提供的非法词判定装置中，所述判断模块用于在依据分词操作的结果判定该关键词可分割时确定该关键词合法。

在本发明提供的非法词判定装置中，所述判断模块用于在依据分词操作的结果判定该关键词不可分割时确定该关键词非法。

在本发明提供的非法词判定装置中，所述分词操作为下列分词操作之中的至少一种：

基于字符串匹配的分词操作；

基于理解的分词操作；

基于统计的分词操作。

实施本发明的技术方案，具有以下有益效果：本发明提供的非法词判定方法和非法词判定装置通过对关键词进行分词操作来对关键词进行过滤。当关键词的分割结果显示该关键词不可分割时，说明该关键词非法。当关键词的分割结果显示该关键词可分割时，说明该关键词合法。凭借分词算法执行效率高的特点，本发明提供的技术方案可极大提高关键词过滤的效率。此外，本发明提供的技术方案原理简单，易于实现。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是依据本发明一较佳实施例的非法词判定方法的流程图；

图2是依据本发明一较佳实施例的非法词判定装置的逻辑结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供的非法词判定方法和非法词判定装置通过对关键词进行分词操作来对关键词进行过滤。当关键词的分割结果显示该关键词不可分割时，说明该关键词非法。当关键词的分割结果显示该关键词可分割时，说明该关键词合法。凭借分词算法执行效率高的特点，本发明提供的技术方案可极大提高关键词过滤的效率。此外，本发明提供的技术方案原理简单，易于实现。

图1是依据本发明一较佳实施例的非法词判定方法100的流程图。本发明提供的非法词判定方法100用于确定输入的关键词是否非法，如图1所示，方法100开始于步骤102。

随后，在下一步骤104，接收输入的关键词。

随后，在下一步骤106，基于非法词列表对输入的关键词进行分词操作。

在具体实现过程中，非法词列表中列有预先设置的多个非法词。

此外，在具体实现过程中，上述分词操作可为下列分词操作之中的至少一种：

基于字符串匹配的分词操作；

基于理解的分词操作；

基于统计的分词操作。

随后，在下一步骤108，判断该关键词是否可分割，若是，则转到步骤112，否则转到步骤110。

如上文所述，若在步骤108中判断该关键词可分割，则转到步骤112，认定该关键词合法，然后转到步骤114。

依据分词操作的原理，在基于非法词列表对该关键词进行分词操作后，若该关键词未包含在非法词表中，则分词操作会将关键词分割为一个一个的单个字符(例如但不限于汉字)。由此可知，当关键词可分割为一个一个的单个字符时，说明该关键词不包含在非法词表中，由此可断定该关键词合法。

如上文所述，若在步骤108中判断该关键词不可分割，则转到步骤110，认定该关键词非法，然后转到步骤114。

依据分词操作的原理，在基于非法词列表对该关键词进行分词操作后，若该关键词包含在非法词表中，则该关键词不可分割。由此可知，当关键词不可分割时，说明该关键词包含在非法词表中，由此可断定该关键词非法。

最后，方法100结束于步骤114。

本发明还提供了一种非法词判定装置，下面就结合图2对其进行描述。

图2是依据本发明一较佳实施例的非法词判定装置200的逻辑结构示意图。如图2所示，非法词判定装置200包括分词模块202和判断模块204。

分词模块202用于基于非法词列表对所述关键词进行分词操作。

基于字符串匹配的分词操作；

基于理解的分词操作；

基于统计的分词操作。

判断模块204与分词模块202通信连接，用于基于分词操作的结果确定该关键词是否非法。

具体说来，判断模块204用于在依据分词操作的结果判定该关键词可分割时确定该关键词合法，而在依据分词操作的结果判定该关键词不可分割时确定该关键词非法。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种非法词判定方法，用于确定输入的关键词是否非法，其特征在于，包括基于非法词列表对所述关键词进行分词操作，并基于分词操作的结果确定该关键词是否非法。

2.根据权利要求1所述的非法词判定方法，其特征在于，所述依据分词操作的结果确定该关键词是否非法进一步包括，若依据分词操作的结果判定该关键词可分割，则确定该关键词合法。

3.根据权利要求1或2所述的非法词判定方法，其特征在于，所述依据分词操作的结果确定该关键词是否非法进一步包括，若依据分词操作的结果判定该关键词不可分割，则确定该关键词非法。

4.根据权利要求1所述的非法词判定方法，其特征在于，所述分词操作为下列分词操作之中的至少一种：

基于字符串匹配的分词操作；

基于理解的分词操作；

基于统计的分词操作。

5.一种非法词判定装置，用于确定输入的关键词是否非法，其特征在于，包括：

6.根据权利要求5所述的非法词判定装置，其特征在于，所述判断模块用于在依据分词操作的结果判定该关键词可分割时确定该关键词合法。

7.根据权利要求5或6所述的非法词判定装置，其特征在于，所述判断模块用于在依据分词操作的结果判定该关键词不可分割时确定该关键词非法。

8.根据权利要求5所述的非法词判定装置，其特征在于，所述分词操作为下列分词操作之中的至少一种：

基于字符串匹配的分词操作；

基于理解的分词操作；

基于统计的分词操作。