CN1185595C

CN1185595C - 主题词抗干扰提取方法

Info

Publication number: CN1185595C
Application number: CNB011311738A
Authority: CN
Inventors: 肖航; 高建忠; 王江; 诸光; 王楠; 何燕
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2001-09-05
Filing date: 2001-09-05
Publication date: 2005-01-19
Anticipated expiration: 2021-09-05
Also published as: CN1403965A

Abstract

一种主题词抗干扰提取方法，在被检查的文本中查找指定的字符，检查指定字符的顺序是否符合预先设定的主题词中字符的排列顺序；判断字符之间的距离，若该距离小于设定的干扰距离，则该字符串为待选被干扰的主题词；在文本中检查该待选被干扰的主题词出现的频度大于设定的阈值后，该待选被干扰的主题词设为过滤器的关键词；上述的方法，大大提高了过滤器主题词提取的抗干扰能力，使过滤器具有智能识别能力，保障了信息传递和管理的要求。

Description

主题词抗干扰提取方法

技术领域：

本发明涉及一种过滤方法，尤其是一种过滤器中的主题词抗干扰提取方法，属于计算机技术领域。

背景技术：

随着网络技术的发展，人们可以通过网络传递、获取大量的信息；但是，一些不受欢迎的信息内容，或者违反法律和社会道德伦理的内容也借助网络侵害着人们的正常生活。有关部门利用一些关键词过滤的技术来为了防止这种现象的蔓延和发生。但是，一些不受欢迎的网络信息为了能够通过关键词过滤器，有意在一些重要的词的写法上加入干扰信息，例如“婚外情”被写成“婚#外#情”或“逃税技巧”写成“逃之税技巧”，使关键词过滤器失效。从而通过过滤器，到达接收者信箱。

发明内容：

本发明的目的在于提供一种主题词抗干扰提取方法，它具有抗干扰的识别能力，能够对被干扰的主题词信息进行识别，将识别后的干扰信息设置为关键词，使过滤器具有较强的抗干扰过滤能力。

本发明的内容是这样实现的：

一种主题词抗干扰提取方法，它包括如下步骤：

步骤1：在被检查的文本中查找指定的字符，检查指定字符的顺序是否符合预先设定的主题词中字符的排列顺序，也就是查找指定的字符串；

步骤2：判断字符之间的距离，若该距离小于设定的干扰距离，则该字符串为待选被干扰的主题词；

步骤3：在文本中检查该待选被干扰的主题词出现的频度大于设定的阈值后，将该待选被干扰的主题词设置为过滤器的关键词。

它还包括指定的字符之间是否有中文标点符号，若不包含中文标点符号，则该字符串为被干扰的主题词，设置为过滤器的关键词。

所述的步骤1可直接为在两个相邻的中文标点符号之间查找指定的字符串。

待选被干扰主题词的出现频度为一种以上不同形式的干扰主题词出现频度的总和。

依据上述的方法，大大提高了过滤器主题词提取的抗干扰能力，使过滤器具有了一定的智能识别能力，保障了信息传递和管理的要求。

附图说明：

图1为本发明的流程图。

具体实施方式：

所谓主题词，是指对特定文本内容具有意义和类型上的重要性的词。主题词集大于或等于关键词集，经过抗干扰过滤得到的主题词可用于关键词过滤器或其他基于主题词的处理方法。

特定类型文本的主题词集可以人工指定也可以自动获取，其获取方法与本专利无关。

参见图1，本发明的主题词抗干扰提取方法为：

设某一主题词W＝a₁ a₂…a_n，其中a₁…a_n为主题词中的顺序排列的字符。在扫描文本S时，如果发现：

a₁∈S，a₂∈S，…a_n∈S，且满足

a₁＜a₂＜…＜a_n，

a₁和a_n之间的字符数小于抗干扰距离D，

a₁和a_n之间不包含标点符号

则认为a₁和a_n之间是一个被干扰的主题词。每发现一个这样的词串，记该词侯选频度F′(W)++。如果F′(W)达到某一预定阈值F₀，则认为文本中所有这些被干扰的词串为主题词W，并在计算相应主题词信息时增加F′(W)的影响。

其中“＜”表示顺序优先关系(不一定相邻)。

内容过滤器设定的抗干扰距离D＝5，干扰词频度阈值F₀＝3。

某文本i中存在主题词S，

S＝a1 a2 a3 a4 a5，

经初步分析，在文本i的两个邻近的标点符号之间发现字符串S’

S’＝a1×a2×a3 a4×a5

其中，x是除标点符号外的任意字符，

根据抗干扰规则考查字符串S’和S的关系，

存在a₁＜a₂＜a3＜a₄＜a5，

a1和a5之间的字符数为3，小于抗干扰距离D＝5，

a1和a5之间不包括标点符号

则，条件成立，所以，有S’＝S成立，S’被认为是文本i的一个候选主题词。接着，若在文本中发现3处以上S’以及干扰字符x位置发生变化的S’的变形，则有S‘为S的干扰词。也就是，干扰词S的频度F＇(S)≥阈值F₀成立，故经过主题词抗干扰处理，S’被认为与文本i的主题词S一致，在内容过滤器中作为一个主题词处理。

Claims

1、一种主题词抗干扰提取方法，其特征在于：它包括如下步骤：

2、根据权利要求1所述的主题词抗干扰提取方法，其特征在于：它还包括指定的字符之间是否有中文标点符号，若不包含中文标点符号，则该字符串为被干扰的主题词，设置为过滤器的关键词。

3、根据权利要求1所述的主题词抗干扰提取方法，其特征在于：所述的步骤1可直接为在两个相邻的标点符号之间查找指定的字符串。

4、根据权利要求1所述的主题词抗干扰提取方法，其特征在于：待选被干扰主题词的出现频度为一种以上不同形式的干扰主题词出现频度的总和。