CN1185595C - 主题词抗干扰提取方法 - Google Patents

主题词抗干扰提取方法 Download PDF

Info

Publication number
CN1185595C
CN1185595C CNB011311738A CN01131173A CN1185595C CN 1185595 C CN1185595 C CN 1185595C CN B011311738 A CNB011311738 A CN B011311738A CN 01131173 A CN01131173 A CN 01131173A CN 1185595 C CN1185595 C CN 1185595C
Authority
CN
China
Prior art keywords
interference
descriptor
theme word
character
jamproof
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB011311738A
Other languages
English (en)
Other versions
CN1403965A (zh
Inventor
肖航
高建忠
王江
诸光
王楠
何燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CNB011311738A priority Critical patent/CN1185595C/zh
Publication of CN1403965A publication Critical patent/CN1403965A/zh
Application granted granted Critical
Publication of CN1185595C publication Critical patent/CN1185595C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种主题词抗干扰提取方法,在被检查的文本中查找指定的字符,检查指定字符的顺序是否符合预先设定的主题词中字符的排列顺序;判断字符之间的距离,若该距离小于设定的干扰距离,则该字符串为待选被干扰的主题词;在文本中检查该待选被干扰的主题词出现的频度大于设定的阈值后,该待选被干扰的主题词设为过滤器的关键词;上述的方法,大大提高了过滤器主题词提取的抗干扰能力,使过滤器具有智能识别能力,保障了信息传递和管理的要求。

Description

主题词抗干扰提取方法
技术领域
本发明涉及一种过滤方法,尤其是一种过滤器中的主题词抗干扰提取方法,属于计算机技术领域。
背景技术
随着网络技术的发展,人们可以通过网络传递、获取大量的信息;但是,一些不受欢迎的信息内容,或者违反法律和社会道德伦理的内容也借助网络侵害着人们的正常生活。有关部门利用一些关键词过滤的技术来为了防止这种现象的蔓延和发生。但是,一些不受欢迎的网络信息为了能够通过关键词过滤器,有意在一些重要的词的写法上加入干扰信息,例如“婚外情”被写成“婚#外#情”或“逃税技巧”写成“逃之税技巧”,使关键词过滤器失效。从而通过过滤器,到达接收者信箱。
发明内容
本发明的目的在于提供一种主题词抗干扰提取方法,它具有抗干扰的识别能力,能够对被干扰的主题词信息进行识别,将识别后的干扰信息设置为关键词,使过滤器具有较强的抗干扰过滤能力。
本发明的内容是这样实现的:
一种主题词抗干扰提取方法,它包括如下步骤:
步骤1:在被检查的文本中查找指定的字符,检查指定字符的顺序是否符合预先设定的主题词中字符的排列顺序,也就是查找指定的字符串;
步骤2:判断字符之间的距离,若该距离小于设定的干扰距离,则该字符串为待选被干扰的主题词;
步骤3:在文本中检查该待选被干扰的主题词出现的频度大于设定的阈值后,将该待选被干扰的主题词设置为过滤器的关键词。
它还包括指定的字符之间是否有中文标点符号,若不包含中文标点符号,则该字符串为被干扰的主题词,设置为过滤器的关键词。
所述的步骤1可直接为在两个相邻的中文标点符号之间查找指定的字符串。
待选被干扰主题词的出现频度为一种以上不同形式的干扰主题词出现频度的总和。
依据上述的方法,大大提高了过滤器主题词提取的抗干扰能力,使过滤器具有了一定的智能识别能力,保障了信息传递和管理的要求。
附图说明
图1为本发明的流程图。
具体实施方式
所谓主题词,是指对特定文本内容具有意义和类型上的重要性的词。主题词集大于或等于关键词集,经过抗干扰过滤得到的主题词可用于关键词过滤器或其他基于主题词的处理方法。
特定类型文本的主题词集可以人工指定也可以自动获取,其获取方法与本专利无关。
参见图1,本发明的主题词抗干扰提取方法为:
设某一主题词W=a1 a2…an,其中a1…an为主题词中的顺序排列的字符。在扫描文本S时,如果发现:
a1∈S,a2∈S,…an∈S,且满足
a1<a2<…<an
a1和an之间的字符数小于抗干扰距离D,
a1和an之间不包含标点符号
则认为a1和an之间是一个被干扰的主题词。每发现一个这样的词串,记该词侯选频度F′(W)++。如果F′(W)达到某一预定阈值F0,则认为文本中所有这些被干扰的词串为主题词W,并在计算相应主题词信息时增加F′(W)的影响。
其中“<”表示顺序优先关系(不一定相邻)。
内容过滤器设定的抗干扰距离D=5,干扰词频度阈值F0=3。
某文本i中存在主题词S,
S=a1 a2 a3 a4 a5,
经初步分析,在文本i的两个邻近的标点符号之间发现字符串S’
S’=a1×a2×a3 a4×a5
其中,x是除标点符号外的任意字符,
根据抗干扰规则考查字符串S’和S的关系,
存在a1<a2<a3<a4<a5,
a1和a5之间的字符数为3,小于抗干扰距离D=5,
a1和a5之间不包括标点符号
则,条件成立,所以,有S’=S成立,S’被认为是文本i的一个候选主题词。接着,若在文本中发现3处以上S’以及干扰字符x位置发生变化的S’的变形,则有S‘为S的干扰词。也就是,干扰词S的频度F'(S)≥阈值F0成立,故经过主题词抗干扰处理,S’被认为与文本i的主题词S一致,在内容过滤器中作为一个主题词处理。

Claims (4)

1、一种主题词抗干扰提取方法,其特征在于:它包括如下步骤:
步骤1:在被检查的文本中查找指定的字符,检查指定字符的顺序是否符合预先设定的主题词中字符的排列顺序,也就是查找指定的字符串;
步骤2:判断字符之间的距离,若该距离小于设定的干扰距离,则该字符串为待选被干扰的主题词;
步骤3:在文本中检查该待选被干扰的主题词出现的频度大于设定的阈值后,将该待选被干扰的主题词设置为过滤器的关键词。
2、根据权利要求1所述的主题词抗干扰提取方法,其特征在于:它还包括指定的字符之间是否有中文标点符号,若不包含中文标点符号,则该字符串为被干扰的主题词,设置为过滤器的关键词。
3、根据权利要求1所述的主题词抗干扰提取方法,其特征在于:所述的步骤1可直接为在两个相邻的标点符号之间查找指定的字符串。
4、根据权利要求1所述的主题词抗干扰提取方法,其特征在于:待选被干扰主题词的出现频度为一种以上不同形式的干扰主题词出现频度的总和。
CNB011311738A 2001-09-05 2001-09-05 主题词抗干扰提取方法 Expired - Fee Related CN1185595C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB011311738A CN1185595C (zh) 2001-09-05 2001-09-05 主题词抗干扰提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB011311738A CN1185595C (zh) 2001-09-05 2001-09-05 主题词抗干扰提取方法

Publications (2)

Publication Number Publication Date
CN1403965A CN1403965A (zh) 2003-03-19
CN1185595C true CN1185595C (zh) 2005-01-19

Family

ID=4670418

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB011311738A Expired - Fee Related CN1185595C (zh) 2001-09-05 2001-09-05 主题词抗干扰提取方法

Country Status (1)

Country Link
CN (1) CN1185595C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008046338A1 (fr) * 2006-10-18 2008-04-24 Alibaba Group Holding Limited Procédé et système de détermination d'informations indésirables

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4825669B2 (ja) * 2003-07-30 2011-11-30 グーグル・インク 文書の意味を決定して文書とコンテンツを一致させる方法及びシステム
CN1615899B (zh) * 2003-11-13 2010-05-05 中国人民解放军军事医学科学院毒物药物研究所 葛根素口服制剂
CN102110103B (zh) * 2009-12-25 2014-04-09 北京大学 获取预定义字符数据的方法和装置
CN101950306B (zh) * 2010-09-29 2013-06-26 北京新媒传信科技有限公司 新词发现中的字符串过滤方法
CN102779176A (zh) 2012-06-27 2012-11-14 北京奇虎科技有限公司 关键词过滤系统及方法
CN104375984A (zh) * 2014-11-21 2015-02-25 无锡科思电子科技有限公司 一种检测网络上传文件中敏感轨迹的方法
CN105718463A (zh) * 2014-12-02 2016-06-29 杭州迪普科技有限公司 关键字模糊匹配方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008046338A1 (fr) * 2006-10-18 2008-04-24 Alibaba Group Holding Limited Procédé et système de détermination d'informations indésirables

Also Published As

Publication number Publication date
CN1403965A (zh) 2003-03-19

Similar Documents

Publication Publication Date Title
JP4436909B2 (ja) 名前をハイパーリンクするためのシステム、方法、及びソフトウェア
US8099415B2 (en) Method and apparatus for assessing similarity between online job listings
US8041730B1 (en) Using geographic data to identify correlated geographic synonyms
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
US8037086B1 (en) Identifying common co-occurring elements in lists
US7783476B2 (en) Word extraction method and system for use in word-breaking using statistical information
US7464090B2 (en) Object categorization for information extraction
US8095547B2 (en) Method and apparatus for detecting spam user created content
US20190147010A1 (en) System and method for block segmenting, identifying and indexing visual elements, and searching documents
AU2005322850C1 (en) Local item extraction
US10423649B2 (en) Natural question generation from query data using natural language processing system
US20080195378A1 (en) Question and Answer Data Editing Device, Question and Answer Data Editing Method and Question Answer Data Editing Program
US20110238694A1 (en) System and Method for Matching Entities
US8122022B1 (en) Abbreviation detection for common synonym generation
CN101452470A (zh) 摘要式网络搜索引擎系统及其搜索方法与应用
Chen et al. Template detection for large scale search engines
CN109299235B (zh) 知识库搜索方法、装置及计算机可读存储介质
CN101079031A (zh) 一种网页主题提取系统和方法
CN1185595C (zh) 主题词抗干扰提取方法
US8798988B1 (en) Identifying related terms in different languages
CN110728453A (zh) 一种基于大数据的政策自动匹配分析系统及方法
CN106815253B (zh) 一种基于混合数据类型数据的挖掘方法
CN110674313A (zh) 一种基于用户日志动态更新知识图谱的方法
CN110580301A (zh) 一种高效商标检索方法、系统及平台
CN108897739B (zh) 一种智能化的应用流量识别特征自动挖掘方法与系统

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20050119

Termination date: 20200905

CF01 Termination of patent right due to non-payment of annual fee