CN1403965A - 主题词抗干扰提取方法 - Google Patents
主题词抗干扰提取方法 Download PDFInfo
- Publication number
- CN1403965A CN1403965A CN 01131173 CN01131173A CN1403965A CN 1403965 A CN1403965 A CN 1403965A CN 01131173 CN01131173 CN 01131173 CN 01131173 A CN01131173 A CN 01131173A CN 1403965 A CN1403965 A CN 1403965A
- Authority
- CN
- China
- Prior art keywords
- descriptor
- theme word
- jamproof
- character
- extracting method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
- Character Discrimination (AREA)
Abstract
一种主题词抗干扰提取方法,在被检查的文本中查找指定的字符,检查指定字符的顺序是否符合预先设定的主题词中字符的排列顺序;判断字符之间的干扰距离,距离小于干扰距离,则该字符串为待选被干扰的主题词;在文本中检查该待选被干扰的主题词出现的频度大于设定的阈值后,该待选被干扰的主题词设为过滤器的关键词;上述的方法,大大提高了过滤器主题词提取的抗干扰能力,使过滤器具有智能识别能力,保障了信息传递和管理的要求。
Description
技术领域:
本发明涉及一种过滤方法,尤其是一种过滤器中的主题词抗干扰提取方法,属于计算机技术领域。
背景技术:
随着网络技术的发展,人们可以通过网络传递、获取大量的信息;但是,一些不受欢迎的信息内容,或者违反法律和社会道德伦理的内容也借助网络侵害着人们的正常生活。有关部门利用一些关键词过滤的技术来为了防止这种现象的蔓延和发生。但是,一些不受欢迎的网络信息为了能够通过关键词过滤器,有意在一些重要的词的写法上加入干扰信息,例如“法轮功”被写成“法#轮#功”或“江泽民”写成“江泽之民”,使关键词过滤器失效。从而通过过滤器,到达接收者信箱。
发明内容:
本发明的目的在于提供一种主题词抗干扰提取方法,它具有抗干扰的识别能力,能够对被干扰的主题词信息进行识别,将识别后的干扰信息设置为关键词,使过滤器具有较强的抗干扰过滤能力。
本发明的内容是这样实现的:
一种主题词抗干扰提取方法,它包括如下步骤:
步骤1:在被检查的文本中查找指定的字符,检查指定字符的顺序是否符合预先设定的主题词中字符的排列顺序,也就是查找指定的字符串;
步骤2:判断字符之间的干扰距离,距离小于干扰距离,则该字符串为待选被干扰的主题词;
步骤3:在文本中检查该待选被干扰的主题词出现的频度大于设定的阈值后,将该待选被干扰的主题词设置为过滤器的关键词。
它还包括指定的字符之间是否有中文标点符号,若不包含中文标点符号,则该字符串为被干扰的主题词,设置为过滤器的关键词。
所述的步骤1可直接为在两个相邻的中文标点符号之间查找指定的字符串。
所述的待选被干扰的主题词出现频度可为一种以上不同形式的干扰主题词的总和。
依据上述的方法,大大提高了过滤器主题词提取的抗干扰能力,使过滤器具有了一定的智能识别能力,保障了信息传递和管理的要求。
附图说明:
图1为本发明的流程图。
具体实施方式:
所谓主题词,是指对特定文本内容具有意义和类型上的重要性的词。主题词集大于或等于关键词集,经过抗干扰过滤得到的主题词可用于关键词过滤器或其他基于主题词的处理方法。
特定类型文本的主题词集可以人工指定也可以自动获取,其获取方法与本专利无关。
参见图1,本发明的主题词抗干扰提取方法为:
设某一主题词W=a1a2…an,其中a1…an为主题词中的顺序排列的字符。在扫描文本S时,如果发现:
a1∈S,a2∈S,…an∈S,且满足
a1<a2<…<an,
a1和an之间的字符数小于抗干扰距离D,
a1和an之间不包含标点符号
则认为a1和an之间是一个被干扰的主题词。每发现一个这样的词串,记该词侯选频度F′(W)++。如果F′(W)达到某一预定阈值F0,则认为文本中所有这些被干扰的词串为主题词W,并在计算相应主题词信息时增加F′(W)的影响。
其中“<”表示顺序优先关系(不一定相邻)。
内容过滤器设定的抗干扰距离D=5,干扰词频度阈值F0=3。
某文本i中存在主题词S,
S=a1a2a3a4a5,
经初步分析,在文本i的两个邻近的标点符号之间发现字符串S’
S’=a1xa2xa3a4xa5
其中,x是除标点符号外的任意字符,
根据抗干扰规则考查字符串S’和S的关系,
存在a1<a2<a3<a4<a5,
a1和a5之间的字符数为3,小于抗干扰距离D=5,
a1和a5之间不包括标点符号
则,条件成立,所以,有S’=S成立,S’被认为是文本i的一个候选主题词。接着,若在文本中发现3处以上S’以及干扰字符x位置发生变化的S’的变形,则有S‘为S的干扰词。也就是,干扰词S的频度F′(S)≥阈值F0成立,故经过主题词抗干扰处理,S’被认为与文本i的主题词S一致,在内容过滤器中作为一个主题词处理。
Claims (4)
1、一种主题词抗干扰提取方法,其特征在于:它包括如下步骤:
步骤1:在被检查的文本中查找指定的字符,检查指定字符的顺序是否符合预先设定的主题词中字符的排列顺序,也就是查找指定的字符串;
步骤2:判断字符之间的干扰距离,距离小于干扰距离,则该字符串为待选被干扰的主题词;
步骤3:在文本中检查该待选被干扰的主题词出现的频度大于设定的阈值后,将该待选被干扰的主题词设置为过滤器的关键词。
2、根据权利要求1所述的主题词抗干扰提取方法,其特征在于:它还包括指定的字符之间是否有中文标点符号,若不包含中文标点符号,则该字符串为被干扰的主题词,设置为过滤器的关键词。
3、根据权利要求1所述的主题词抗干扰提取方法,其特征在于:所述的步骤1可直接为在两个相邻的标点符号之间查找指定的字符串。
4、根据权利要求1所述的主题词抗干扰提取方法,其特征在于:所述的待选被干扰的主题词出现频度可为一种以上不同形式的干扰主题词的总和。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB011311738A CN1185595C (zh) | 2001-09-05 | 2001-09-05 | 主题词抗干扰提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB011311738A CN1185595C (zh) | 2001-09-05 | 2001-09-05 | 主题词抗干扰提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1403965A true CN1403965A (zh) | 2003-03-19 |
CN1185595C CN1185595C (zh) | 2005-01-19 |
Family
ID=4670418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB011311738A Expired - Fee Related CN1185595C (zh) | 2001-09-05 | 2001-09-05 | 主题词抗干扰提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1185595C (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1615899B (zh) * | 2003-11-13 | 2010-05-05 | 中国人民解放军军事医学科学院毒物药物研究所 | 葛根素口服制剂 |
CN101166159B (zh) * | 2006-10-18 | 2010-07-28 | 阿里巴巴集团控股有限公司 | 一种确定垃圾信息的方法及系统 |
CN101950306A (zh) * | 2010-09-29 | 2011-01-19 | 北京新媒传信科技有限公司 | 新词发现中的字符串过滤方法 |
CN102779176A (zh) * | 2012-06-27 | 2012-11-14 | 北京奇虎科技有限公司 | 关键词过滤系统及方法 |
CN101482881B (zh) * | 2003-07-30 | 2013-12-11 | Google公司 | 用于确定文档的含义以使文档与内容匹配的方法和系统 |
CN102110103B (zh) * | 2009-12-25 | 2014-04-09 | 北京大学 | 获取预定义字符数据的方法和装置 |
CN104375984A (zh) * | 2014-11-21 | 2015-02-25 | 无锡科思电子科技有限公司 | 一种检测网络上传文件中敏感轨迹的方法 |
CN105718463A (zh) * | 2014-12-02 | 2016-06-29 | 杭州迪普科技有限公司 | 关键字模糊匹配方法及装置 |
-
2001
- 2001-09-05 CN CNB011311738A patent/CN1185595C/zh not_active Expired - Fee Related
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101482881B (zh) * | 2003-07-30 | 2013-12-11 | Google公司 | 用于确定文档的含义以使文档与内容匹配的方法和系统 |
CN1615899B (zh) * | 2003-11-13 | 2010-05-05 | 中国人民解放军军事医学科学院毒物药物研究所 | 葛根素口服制剂 |
CN101166159B (zh) * | 2006-10-18 | 2010-07-28 | 阿里巴巴集团控股有限公司 | 一种确定垃圾信息的方法及系统 |
US8234291B2 (en) | 2006-10-18 | 2012-07-31 | Alibaba Group Holding Limited | Method and system for determining junk information |
CN102110103B (zh) * | 2009-12-25 | 2014-04-09 | 北京大学 | 获取预定义字符数据的方法和装置 |
CN101950306A (zh) * | 2010-09-29 | 2011-01-19 | 北京新媒传信科技有限公司 | 新词发现中的字符串过滤方法 |
CN102779176A (zh) * | 2012-06-27 | 2012-11-14 | 北京奇虎科技有限公司 | 关键词过滤系统及方法 |
WO2014000519A1 (zh) * | 2012-06-27 | 2014-01-03 | 北京奇虎科技有限公司 | 关键词过滤系统及方法 |
US10114889B2 (en) | 2012-06-27 | 2018-10-30 | Beijing Qihoo Technology Company Limited | System and method for filtering keywords |
CN104375984A (zh) * | 2014-11-21 | 2015-02-25 | 无锡科思电子科技有限公司 | 一种检测网络上传文件中敏感轨迹的方法 |
CN105718463A (zh) * | 2014-12-02 | 2016-06-29 | 杭州迪普科技有限公司 | 关键字模糊匹配方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN1185595C (zh) | 2005-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107229668B (zh) | 一种基于关键词匹配的正文抽取方法 | |
US7962510B2 (en) | Using content analysis to detect spam web pages | |
US6826576B2 (en) | Very-large-scale automatic categorizer for web content | |
US8098939B2 (en) | Adversarial approach for identifying inappropriate text content in images | |
CN107566391B (zh) | 域识别加主题识别构建机器学习模型检测网页暗链的方法 | |
US20080131006A1 (en) | Pure adversarial approach for identifying text content in images | |
US7464090B2 (en) | Object categorization for information extraction | |
US20070294252A1 (en) | Identifying a web page as belonging to a blog | |
US20060206306A1 (en) | Text mining apparatus and associated methods | |
CN109657738A (zh) | 字符识别方法、装置、设备及存储介质 | |
US7590608B2 (en) | Electronic mail data cleaning | |
CN101079031A (zh) | 一种网页主题提取系统和方法 | |
CN109918556B (zh) | 一种综合微博用户社交关系和文本特征抑郁情绪识别方法 | |
JP2009140469A (ja) | 自動推論検出によるインバウンド・コンテンツのフィルタリング | |
CN110728453B (zh) | 一种基于大数据的政策自动匹配分析系统 | |
CN111078979A (zh) | 一种基于ocr和文本处理技术识别网贷网站的方法及系统 | |
CN113076735A (zh) | 目标信息的获取方法、装置和服务器 | |
CN113010637A (zh) | 一种文本审核方法及装置 | |
CN1403965A (zh) | 主题词抗干扰提取方法 | |
CN106383862A (zh) | 一种违规短信检测方法及系统 | |
CN115618014A (zh) | 一种应用大数据技术的标准文献分析管理系统及方法 | |
CN110147839A (zh) | 基于XGBoost的算法生成域名检测模型的方法 | |
CN108897739B (zh) | 一种智能化的应用流量识别特征自动挖掘方法与系统 | |
CN113177164B (zh) | 基于大数据的多平台协同新媒体内容监控管理系统 | |
CN113159363B (zh) | 一种基于历史新闻报道的事件趋势预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20050119 Termination date: 20200905 |
|
CF01 | Termination of patent right due to non-payment of annual fee |