CN1403965A - 主题词抗干扰提取方法 - Google Patents

主题词抗干扰提取方法 Download PDF

Info

Publication number
CN1403965A
CN1403965A CN 01131173 CN01131173A CN1403965A CN 1403965 A CN1403965 A CN 1403965A CN 01131173 CN01131173 CN 01131173 CN 01131173 A CN01131173 A CN 01131173A CN 1403965 A CN1403965 A CN 1403965A
Authority
CN
China
Prior art keywords
descriptor
theme word
jamproof
character
extracting method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 01131173
Other languages
English (en)
Other versions
CN1185595C (zh
Inventor
肖航
高建忠
王江
诸光
王楠
何燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CNB011311738A priority Critical patent/CN1185595C/zh
Publication of CN1403965A publication Critical patent/CN1403965A/zh
Application granted granted Critical
Publication of CN1185595C publication Critical patent/CN1185595C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Character Discrimination (AREA)

Abstract

一种主题词抗干扰提取方法,在被检查的文本中查找指定的字符,检查指定字符的顺序是否符合预先设定的主题词中字符的排列顺序;判断字符之间的干扰距离,距离小于干扰距离,则该字符串为待选被干扰的主题词;在文本中检查该待选被干扰的主题词出现的频度大于设定的阈值后,该待选被干扰的主题词设为过滤器的关键词;上述的方法,大大提高了过滤器主题词提取的抗干扰能力,使过滤器具有智能识别能力,保障了信息传递和管理的要求。

Description

主题词抗干扰提取方法
技术领域
本发明涉及一种过滤方法,尤其是一种过滤器中的主题词抗干扰提取方法,属于计算机技术领域。
背景技术
随着网络技术的发展,人们可以通过网络传递、获取大量的信息;但是,一些不受欢迎的信息内容,或者违反法律和社会道德伦理的内容也借助网络侵害着人们的正常生活。有关部门利用一些关键词过滤的技术来为了防止这种现象的蔓延和发生。但是,一些不受欢迎的网络信息为了能够通过关键词过滤器,有意在一些重要的词的写法上加入干扰信息,例如“法轮功”被写成“法#轮#功”或“江泽民”写成“江泽之民”,使关键词过滤器失效。从而通过过滤器,到达接收者信箱。
发明内容
本发明的目的在于提供一种主题词抗干扰提取方法,它具有抗干扰的识别能力,能够对被干扰的主题词信息进行识别,将识别后的干扰信息设置为关键词,使过滤器具有较强的抗干扰过滤能力。
本发明的内容是这样实现的:
一种主题词抗干扰提取方法,它包括如下步骤:
步骤1:在被检查的文本中查找指定的字符,检查指定字符的顺序是否符合预先设定的主题词中字符的排列顺序,也就是查找指定的字符串;
步骤2:判断字符之间的干扰距离,距离小于干扰距离,则该字符串为待选被干扰的主题词;
步骤3:在文本中检查该待选被干扰的主题词出现的频度大于设定的阈值后,将该待选被干扰的主题词设置为过滤器的关键词。
它还包括指定的字符之间是否有中文标点符号,若不包含中文标点符号,则该字符串为被干扰的主题词,设置为过滤器的关键词。
所述的步骤1可直接为在两个相邻的中文标点符号之间查找指定的字符串。
所述的待选被干扰的主题词出现频度可为一种以上不同形式的干扰主题词的总和。
依据上述的方法,大大提高了过滤器主题词提取的抗干扰能力,使过滤器具有了一定的智能识别能力,保障了信息传递和管理的要求。
附图说明
图1为本发明的流程图。
具体实施方式
所谓主题词,是指对特定文本内容具有意义和类型上的重要性的词。主题词集大于或等于关键词集,经过抗干扰过滤得到的主题词可用于关键词过滤器或其他基于主题词的处理方法。
特定类型文本的主题词集可以人工指定也可以自动获取,其获取方法与本专利无关。
参见图1,本发明的主题词抗干扰提取方法为:
设某一主题词W=a1a2…an,其中a1…an为主题词中的顺序排列的字符。在扫描文本S时,如果发现:
a1∈S,a2∈S,…an∈S,且满足
a1<a2<…<an
a1和an之间的字符数小于抗干扰距离D,
a1和an之间不包含标点符号
则认为a1和an之间是一个被干扰的主题词。每发现一个这样的词串,记该词侯选频度F′(W)++。如果F′(W)达到某一预定阈值F0,则认为文本中所有这些被干扰的词串为主题词W,并在计算相应主题词信息时增加F′(W)的影响。
其中“<”表示顺序优先关系(不一定相邻)。
内容过滤器设定的抗干扰距离D=5,干扰词频度阈值F0=3。
某文本i中存在主题词S,
S=a1a2a3a4a5,
经初步分析,在文本i的两个邻近的标点符号之间发现字符串S’
S’=a1xa2xa3a4xa5
其中,x是除标点符号外的任意字符,
根据抗干扰规则考查字符串S’和S的关系,
存在a1<a2<a3<a4<a5,
a1和a5之间的字符数为3,小于抗干扰距离D=5,
a1和a5之间不包括标点符号
则,条件成立,所以,有S’=S成立,S’被认为是文本i的一个候选主题词。接着,若在文本中发现3处以上S’以及干扰字符x位置发生变化的S’的变形,则有S‘为S的干扰词。也就是,干扰词S的频度F′(S)≥阈值F0成立,故经过主题词抗干扰处理,S’被认为与文本i的主题词S一致,在内容过滤器中作为一个主题词处理。

Claims (4)

1、一种主题词抗干扰提取方法,其特征在于:它包括如下步骤:
步骤1:在被检查的文本中查找指定的字符,检查指定字符的顺序是否符合预先设定的主题词中字符的排列顺序,也就是查找指定的字符串;
步骤2:判断字符之间的干扰距离,距离小于干扰距离,则该字符串为待选被干扰的主题词;
步骤3:在文本中检查该待选被干扰的主题词出现的频度大于设定的阈值后,将该待选被干扰的主题词设置为过滤器的关键词。
2、根据权利要求1所述的主题词抗干扰提取方法,其特征在于:它还包括指定的字符之间是否有中文标点符号,若不包含中文标点符号,则该字符串为被干扰的主题词,设置为过滤器的关键词。
3、根据权利要求1所述的主题词抗干扰提取方法,其特征在于:所述的步骤1可直接为在两个相邻的标点符号之间查找指定的字符串。
4、根据权利要求1所述的主题词抗干扰提取方法,其特征在于:所述的待选被干扰的主题词出现频度可为一种以上不同形式的干扰主题词的总和。
CNB011311738A 2001-09-05 2001-09-05 主题词抗干扰提取方法 Expired - Fee Related CN1185595C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB011311738A CN1185595C (zh) 2001-09-05 2001-09-05 主题词抗干扰提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB011311738A CN1185595C (zh) 2001-09-05 2001-09-05 主题词抗干扰提取方法

Publications (2)

Publication Number Publication Date
CN1403965A true CN1403965A (zh) 2003-03-19
CN1185595C CN1185595C (zh) 2005-01-19

Family

ID=4670418

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB011311738A Expired - Fee Related CN1185595C (zh) 2001-09-05 2001-09-05 主题词抗干扰提取方法

Country Status (1)

Country Link
CN (1) CN1185595C (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1615899B (zh) * 2003-11-13 2010-05-05 中国人民解放军军事医学科学院毒物药物研究所 葛根素口服制剂
CN101166159B (zh) * 2006-10-18 2010-07-28 阿里巴巴集团控股有限公司 一种确定垃圾信息的方法及系统
CN101950306A (zh) * 2010-09-29 2011-01-19 北京新媒传信科技有限公司 新词发现中的字符串过滤方法
CN102779176A (zh) * 2012-06-27 2012-11-14 北京奇虎科技有限公司 关键词过滤系统及方法
CN101482881B (zh) * 2003-07-30 2013-12-11 Google公司 用于确定文档的含义以使文档与内容匹配的方法和系统
CN102110103B (zh) * 2009-12-25 2014-04-09 北京大学 获取预定义字符数据的方法和装置
CN104375984A (zh) * 2014-11-21 2015-02-25 无锡科思电子科技有限公司 一种检测网络上传文件中敏感轨迹的方法
CN105718463A (zh) * 2014-12-02 2016-06-29 杭州迪普科技有限公司 关键字模糊匹配方法及装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101482881B (zh) * 2003-07-30 2013-12-11 Google公司 用于确定文档的含义以使文档与内容匹配的方法和系统
CN1615899B (zh) * 2003-11-13 2010-05-05 中国人民解放军军事医学科学院毒物药物研究所 葛根素口服制剂
CN101166159B (zh) * 2006-10-18 2010-07-28 阿里巴巴集团控股有限公司 一种确定垃圾信息的方法及系统
US8234291B2 (en) 2006-10-18 2012-07-31 Alibaba Group Holding Limited Method and system for determining junk information
CN102110103B (zh) * 2009-12-25 2014-04-09 北京大学 获取预定义字符数据的方法和装置
CN101950306A (zh) * 2010-09-29 2011-01-19 北京新媒传信科技有限公司 新词发现中的字符串过滤方法
CN102779176A (zh) * 2012-06-27 2012-11-14 北京奇虎科技有限公司 关键词过滤系统及方法
WO2014000519A1 (zh) * 2012-06-27 2014-01-03 北京奇虎科技有限公司 关键词过滤系统及方法
US10114889B2 (en) 2012-06-27 2018-10-30 Beijing Qihoo Technology Company Limited System and method for filtering keywords
CN104375984A (zh) * 2014-11-21 2015-02-25 无锡科思电子科技有限公司 一种检测网络上传文件中敏感轨迹的方法
CN105718463A (zh) * 2014-12-02 2016-06-29 杭州迪普科技有限公司 关键字模糊匹配方法及装置

Also Published As

Publication number Publication date
CN1185595C (zh) 2005-01-19

Similar Documents

Publication Publication Date Title
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
US7962510B2 (en) Using content analysis to detect spam web pages
US6826576B2 (en) Very-large-scale automatic categorizer for web content
US8098939B2 (en) Adversarial approach for identifying inappropriate text content in images
CN107566391B (zh) 域识别加主题识别构建机器学习模型检测网页暗链的方法
US20080131006A1 (en) Pure adversarial approach for identifying text content in images
US7464090B2 (en) Object categorization for information extraction
US20070294252A1 (en) Identifying a web page as belonging to a blog
US20060206306A1 (en) Text mining apparatus and associated methods
CN109657738A (zh) 字符识别方法、装置、设备及存储介质
US7590608B2 (en) Electronic mail data cleaning
CN101079031A (zh) 一种网页主题提取系统和方法
CN109918556B (zh) 一种综合微博用户社交关系和文本特征抑郁情绪识别方法
JP2009140469A (ja) 自動推論検出によるインバウンド・コンテンツのフィルタリング
CN110728453B (zh) 一种基于大数据的政策自动匹配分析系统
CN111078979A (zh) 一种基于ocr和文本处理技术识别网贷网站的方法及系统
CN113076735A (zh) 目标信息的获取方法、装置和服务器
CN113010637A (zh) 一种文本审核方法及装置
CN1403965A (zh) 主题词抗干扰提取方法
CN106383862A (zh) 一种违规短信检测方法及系统
CN115618014A (zh) 一种应用大数据技术的标准文献分析管理系统及方法
CN110147839A (zh) 基于XGBoost的算法生成域名检测模型的方法
CN108897739B (zh) 一种智能化的应用流量识别特征自动挖掘方法与系统
CN113177164B (zh) 基于大数据的多平台协同新媒体内容监控管理系统
CN113159363B (zh) 一种基于历史新闻报道的事件趋势预测方法

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20050119

Termination date: 20200905

CF01 Termination of patent right due to non-payment of annual fee