CN1185595C - 主题词抗干扰提取方法 - Google Patents
主题词抗干扰提取方法 Download PDFInfo
- Publication number
- CN1185595C CN1185595C CNB011311738A CN01131173A CN1185595C CN 1185595 C CN1185595 C CN 1185595C CN B011311738 A CNB011311738 A CN B011311738A CN 01131173 A CN01131173 A CN 01131173A CN 1185595 C CN1185595 C CN 1185595C
- Authority
- CN
- China
- Prior art keywords
- interference
- descriptor
- theme word
- character
- jamproof
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
一种主题词抗干扰提取方法,在被检查的文本中查找指定的字符,检查指定字符的顺序是否符合预先设定的主题词中字符的排列顺序;判断字符之间的距离,若该距离小于设定的干扰距离,则该字符串为待选被干扰的主题词;在文本中检查该待选被干扰的主题词出现的频度大于设定的阈值后,该待选被干扰的主题词设为过滤器的关键词;上述的方法,大大提高了过滤器主题词提取的抗干扰能力,使过滤器具有智能识别能力,保障了信息传递和管理的要求。
Description
技术领域:
本发明涉及一种过滤方法,尤其是一种过滤器中的主题词抗干扰提取方法,属于计算机技术领域。
背景技术:
随着网络技术的发展,人们可以通过网络传递、获取大量的信息;但是,一些不受欢迎的信息内容,或者违反法律和社会道德伦理的内容也借助网络侵害着人们的正常生活。有关部门利用一些关键词过滤的技术来为了防止这种现象的蔓延和发生。但是,一些不受欢迎的网络信息为了能够通过关键词过滤器,有意在一些重要的词的写法上加入干扰信息,例如“婚外情”被写成“婚#外#情”或“逃税技巧”写成“逃之税技巧”,使关键词过滤器失效。从而通过过滤器,到达接收者信箱。
发明内容:
本发明的目的在于提供一种主题词抗干扰提取方法,它具有抗干扰的识别能力,能够对被干扰的主题词信息进行识别,将识别后的干扰信息设置为关键词,使过滤器具有较强的抗干扰过滤能力。
本发明的内容是这样实现的:
一种主题词抗干扰提取方法,它包括如下步骤:
步骤1:在被检查的文本中查找指定的字符,检查指定字符的顺序是否符合预先设定的主题词中字符的排列顺序,也就是查找指定的字符串;
步骤2:判断字符之间的距离,若该距离小于设定的干扰距离,则该字符串为待选被干扰的主题词;
步骤3:在文本中检查该待选被干扰的主题词出现的频度大于设定的阈值后,将该待选被干扰的主题词设置为过滤器的关键词。
它还包括指定的字符之间是否有中文标点符号,若不包含中文标点符号,则该字符串为被干扰的主题词,设置为过滤器的关键词。
所述的步骤1可直接为在两个相邻的中文标点符号之间查找指定的字符串。
待选被干扰主题词的出现频度为一种以上不同形式的干扰主题词出现频度的总和。
依据上述的方法,大大提高了过滤器主题词提取的抗干扰能力,使过滤器具有了一定的智能识别能力,保障了信息传递和管理的要求。
附图说明:
图1为本发明的流程图。
具体实施方式:
所谓主题词,是指对特定文本内容具有意义和类型上的重要性的词。主题词集大于或等于关键词集,经过抗干扰过滤得到的主题词可用于关键词过滤器或其他基于主题词的处理方法。
特定类型文本的主题词集可以人工指定也可以自动获取,其获取方法与本专利无关。
参见图1,本发明的主题词抗干扰提取方法为:
设某一主题词W=a1 a2…an,其中a1…an为主题词中的顺序排列的字符。在扫描文本S时,如果发现:
a1∈S,a2∈S,…an∈S,且满足
a1<a2<…<an,
a1和an之间的字符数小于抗干扰距离D,
a1和an之间不包含标点符号
则认为a1和an之间是一个被干扰的主题词。每发现一个这样的词串,记该词侯选频度F′(W)++。如果F′(W)达到某一预定阈值F0,则认为文本中所有这些被干扰的词串为主题词W,并在计算相应主题词信息时增加F′(W)的影响。
其中“<”表示顺序优先关系(不一定相邻)。
内容过滤器设定的抗干扰距离D=5,干扰词频度阈值F0=3。
某文本i中存在主题词S,
S=a1 a2 a3 a4 a5,
经初步分析,在文本i的两个邻近的标点符号之间发现字符串S’
S’=a1×a2×a3 a4×a5
其中,x是除标点符号外的任意字符,
根据抗干扰规则考查字符串S’和S的关系,
存在a1<a2<a3<a4<a5,
a1和a5之间的字符数为3,小于抗干扰距离D=5,
a1和a5之间不包括标点符号
则,条件成立,所以,有S’=S成立,S’被认为是文本i的一个候选主题词。接着,若在文本中发现3处以上S’以及干扰字符x位置发生变化的S’的变形,则有S‘为S的干扰词。也就是,干扰词S的频度F'(S)≥阈值F0成立,故经过主题词抗干扰处理,S’被认为与文本i的主题词S一致,在内容过滤器中作为一个主题词处理。
Claims (4)
1、一种主题词抗干扰提取方法,其特征在于:它包括如下步骤:
步骤1:在被检查的文本中查找指定的字符,检查指定字符的顺序是否符合预先设定的主题词中字符的排列顺序,也就是查找指定的字符串;
步骤2:判断字符之间的距离,若该距离小于设定的干扰距离,则该字符串为待选被干扰的主题词;
步骤3:在文本中检查该待选被干扰的主题词出现的频度大于设定的阈值后,将该待选被干扰的主题词设置为过滤器的关键词。
2、根据权利要求1所述的主题词抗干扰提取方法,其特征在于:它还包括指定的字符之间是否有中文标点符号,若不包含中文标点符号,则该字符串为被干扰的主题词,设置为过滤器的关键词。
3、根据权利要求1所述的主题词抗干扰提取方法,其特征在于:所述的步骤1可直接为在两个相邻的标点符号之间查找指定的字符串。
4、根据权利要求1所述的主题词抗干扰提取方法,其特征在于:待选被干扰主题词的出现频度为一种以上不同形式的干扰主题词出现频度的总和。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB011311738A CN1185595C (zh) | 2001-09-05 | 2001-09-05 | 主题词抗干扰提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB011311738A CN1185595C (zh) | 2001-09-05 | 2001-09-05 | 主题词抗干扰提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1403965A CN1403965A (zh) | 2003-03-19 |
CN1185595C true CN1185595C (zh) | 2005-01-19 |
Family
ID=4670418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB011311738A Expired - Fee Related CN1185595C (zh) | 2001-09-05 | 2001-09-05 | 主题词抗干扰提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1185595C (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008046338A1 (fr) * | 2006-10-18 | 2008-04-24 | Alibaba Group Holding Limited | Procédé et système de détermination d'informations indésirables |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4825669B2 (ja) * | 2003-07-30 | 2011-11-30 | グーグル・インク | 文書の意味を決定して文書とコンテンツを一致させる方法及びシステム |
CN1615899B (zh) * | 2003-11-13 | 2010-05-05 | 中国人民解放军军事医学科学院毒物药物研究所 | 葛根素口服制剂 |
CN102110103B (zh) * | 2009-12-25 | 2014-04-09 | 北京大学 | 获取预定义字符数据的方法和装置 |
CN101950306B (zh) * | 2010-09-29 | 2013-06-26 | 北京新媒传信科技有限公司 | 新词发现中的字符串过滤方法 |
CN102779176A (zh) | 2012-06-27 | 2012-11-14 | 北京奇虎科技有限公司 | 关键词过滤系统及方法 |
CN104375984A (zh) * | 2014-11-21 | 2015-02-25 | 无锡科思电子科技有限公司 | 一种检测网络上传文件中敏感轨迹的方法 |
CN105718463A (zh) * | 2014-12-02 | 2016-06-29 | 杭州迪普科技有限公司 | 关键字模糊匹配方法及装置 |
-
2001
- 2001-09-05 CN CNB011311738A patent/CN1185595C/zh not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008046338A1 (fr) * | 2006-10-18 | 2008-04-24 | Alibaba Group Holding Limited | Procédé et système de détermination d'informations indésirables |
Also Published As
Publication number | Publication date |
---|---|
CN1403965A (zh) | 2003-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4436909B2 (ja) | 名前をハイパーリンクするためのシステム、方法、及びソフトウェア | |
US8099415B2 (en) | Method and apparatus for assessing similarity between online job listings | |
US8041730B1 (en) | Using geographic data to identify correlated geographic synonyms | |
CN107229668B (zh) | 一种基于关键词匹配的正文抽取方法 | |
US8037086B1 (en) | Identifying common co-occurring elements in lists | |
US7783476B2 (en) | Word extraction method and system for use in word-breaking using statistical information | |
US7464090B2 (en) | Object categorization for information extraction | |
US8095547B2 (en) | Method and apparatus for detecting spam user created content | |
US20190147010A1 (en) | System and method for block segmenting, identifying and indexing visual elements, and searching documents | |
AU2005322850C1 (en) | Local item extraction | |
US10423649B2 (en) | Natural question generation from query data using natural language processing system | |
US20080195378A1 (en) | Question and Answer Data Editing Device, Question and Answer Data Editing Method and Question Answer Data Editing Program | |
US20110238694A1 (en) | System and Method for Matching Entities | |
US8122022B1 (en) | Abbreviation detection for common synonym generation | |
CN101452470A (zh) | 摘要式网络搜索引擎系统及其搜索方法与应用 | |
Chen et al. | Template detection for large scale search engines | |
CN109299235B (zh) | 知识库搜索方法、装置及计算机可读存储介质 | |
CN101079031A (zh) | 一种网页主题提取系统和方法 | |
CN1185595C (zh) | 主题词抗干扰提取方法 | |
US8798988B1 (en) | Identifying related terms in different languages | |
CN110728453A (zh) | 一种基于大数据的政策自动匹配分析系统及方法 | |
CN106815253B (zh) | 一种基于混合数据类型数据的挖掘方法 | |
CN110674313A (zh) | 一种基于用户日志动态更新知识图谱的方法 | |
CN110580301A (zh) | 一种高效商标检索方法、系统及平台 | |
CN108897739B (zh) | 一种智能化的应用流量识别特征自动挖掘方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20050119 Termination date: 20200905 |
|
CF01 | Termination of patent right due to non-payment of annual fee |