CN104850609B - 一种针对跳字类关键词的过滤方法 - Google Patents

一种针对跳字类关键词的过滤方法 Download PDF

Info

Publication number
CN104850609B
CN104850609B CN201510231694.4A CN201510231694A CN104850609B CN 104850609 B CN104850609 B CN 104850609B CN 201510231694 A CN201510231694 A CN 201510231694A CN 104850609 B CN104850609 B CN 104850609B
Authority
CN
China
Prior art keywords
matching field
document
matching
lexical item
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510231694.4A
Other languages
English (en)
Other versions
CN104850609A (zh
Inventor
蒋大可
何俊
莫燕峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HUBEI JINCHU NETWORK TECHNOLOGY CO., LTD.
Original Assignee
HUBEI JINCHU NETWORK TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HUBEI JINCHU NETWORK TECHNOLOGY Co Ltd filed Critical HUBEI JINCHU NETWORK TECHNOLOGY Co Ltd
Priority to CN201510231694.4A priority Critical patent/CN104850609B/zh
Publication of CN104850609A publication Critical patent/CN104850609A/zh
Application granted granted Critical
Publication of CN104850609B publication Critical patent/CN104850609B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

一种文字处理方法,特别是一种针对跳字类关键词的过滤方法,采用本方法对信息进行检测可以识别跳字类关键词,并将敏感、违规的词项存储下来供用户选择不同的方式将其处理。

Description

一种针对跳字类关键词的过滤方法
技术领域
本发明涉及一种文字处理方法,特别是一种针对跳字类关键词的过滤方法。
背景技术
目前网络作为传播信息的主要工具,不仅提供了人们所需要的资源,还充斥着大量的垃圾信息,特别是一些论坛上,充斥着大量的垃圾信息,为了防止这些垃圾信息通过用户发帖的方式进行传播,实现网络信息安全,最有效的解决方法就是对这些内容信息进行关键词过滤,但用户如果在写关键词的时候中间穿插一些别的词汇而达到规避过滤的目的,现有技术就很难将其识别。
发明目的
本发明的目的在于提供一种针对跳字类关键词的过滤方法,采用本方法对信息进行检测可以识别跳字类关键词,并将敏感、违规的词项存储下来供用户选择不同的方式将其处理。
实现本发明目的的技术方案是:一种针对跳字类关键词的过滤方法,其特征在于:包括以下步骤:
1.1.对文本进行预处理,去除HTML标签、换行符、表情标签,得到预处理文本;
1.2.从预处理文本的起点取出不超过词典最大长度的汉字串作为匹配字段;
1.3.在词典中查找该匹配字段,如果找到该匹配字段,则切分出一条词,设长度为n,并后移n个字作为下一次分词的起点;
1.4.返回步骤1.2;
1.5.若未找到该匹配字段,则去除匹配字段的最后一个字,作为新的匹配字段,并转到步骤1.3;
1.6.当预处理文本中的所有汉字串被处理完毕,得出第一匹配结果;
1.7.将预处理文本从其尾部取出不超过词典最大长度的汉字串作为匹配字段;
1.8.在词典中查找该匹配字段,如果找到该匹配字段,则切分出一条词,设长度为n,并前移n个字作为下一次分词的起点;
1.9.返回步骤1.7;
1.10.若未找到该匹配字段,则去除匹配字段的第一个字,作为新的匹配字段,并转到步骤1.8;
1.11.当预处理文本中的所有汉字串被再次处理完毕,得出第二匹配结果,取第一匹配结果与第二匹配结果的并集;
1.12.计算并集中各个词项 t的权重值,公式如下:
其中,词频TF是指词项在一篇文档中出现的次数,定义为,表示词项t在文 档d中出现的次数;逆文档率IDF是指词项出现在所有文档中的次数的倒数,定义为,其中D表示文档集合的大小,DF(t)表示文档集合中包含词项t的文档 的数目;
1.13.所有词项的权重计算出来之后按照权重从小到大依次排列,选出50~100个高频词项用来表示文档;
1.14.从以往处理过的文本中提取跳字类型的关键词,形成特征词典;
1.15.将特征词典中的跳字类型的关键词通过正则表达式表达;
1.16.用正则表达式与步骤1.13选出的50~100个高频词项进行匹配;
1.17.若匹配成功则将其存储;
1.18.对存储词项选择相应的处理方式,如提示、删除或锁定。
而且步骤1.15中所述的正则表达式如下:
A{B}C,X{Y}Z对应的正则表达式为((A.{0,B}C)|(X.{0,Y}Z))。
本发明的优点在于: 采用本方法对信息进行检测可以识别跳字类关键词,并将敏感、违规的词项存储下来供用户选择不同的方式将其处理。
附图说明
图1是本方法的逻辑步骤图。
具体实施方式
参见图1,以下将结合实施例对本发明做进一步说明。
一种文字处理方法,特别是一种针对跳字类关键词的过滤方法,其特征在于:包括以下步骤:
1.1.对文本进行预处理,去除HTML标签、换行符、表情标签,得到预处理文本;
1.2.从预处理文本的起点取出不超过词典最大长度的汉字串作为匹配字段;
1.3.在词典中查找该匹配字段,如果找到该匹配字段,则切分出一条词,设长度为n,并后移n个字作为下一次分词的起点;
1.4.返回步骤1.2;
1.5.若未找到该匹配字段,则去除匹配字段的最后一个字,作为新的匹配字段,并转到步骤1.3;
1.6.当预处理文本中的所有汉字串被处理完毕,得出第一匹配结果;
1.7.将预处理文本从其尾部取出不超过词典最大长度的汉字串作为匹配字段;
1.8.在词典中查找该匹配字段,如果找到该匹配字段,则切分出一条词,设长度为n,并前移n个字作为下一次分词的起点;
1.9.返回步骤1.7;
1.10.若未找到该匹配字段,则去除匹配字段的第一个字,作为新的匹配字段,并转到步骤1.8;
1.11.当预处理文本中的所有汉字串被再次处理完毕,得出第二匹配结果,取第一匹配结果与第二匹配结果的并集;
1.12.计算并集中各个词项 t的权重值,公式如下:
其中,词频TF是指词项在一篇文档中出现的次数,定义为,表示词项t在文 档d中出现的次数;逆文档率IDF是指词项出现在所有文档中的次数的倒数,定义为,其中D表示文档集合的大小,DF(t)表示文档集合中包含词项t的文档 的数目;
1.13.所有词项的权重计算出来之后按照权重从小到大依次排列,选出50~100个高频词项用来表示文档;
1.14.从以往处理过的文本中提取跳字类型的关键词,形成特征词典;
1.15.将特征词典中的跳字类型的关键词通过正则表达式表达;
1.16.用正则表达式与步骤1.13选出的50~100个高频词项进行匹配;
1.17.若匹配成功则将其存储;
1.18.对存储词项选择相应的处理方式,如提示、删除或锁定。
而且步骤1.15中所述的正则表达式如下:
A{B}C,X{Y}Z对应的正则表达式为((A.{0,B}C)|(X.{0,Y}Z))。
特征词典中的特征词是根据需要,从经过处理的文本中按不同需求提取的,比如哪些词通常容易以哪种方式出现,是不是跳字等。用户也可自定义设置关键字对信息进行检索,设置某个关键词的时候要同时设置关键词要按照哪些规则进行检索,跳字规则的关键词在表示的时候就要用一定的符号表示,如代{2}办,就是一个跳字规则的关键词,在检索的时候是可以检索到代办中间跳0到2个字符的词项,数字可以自行设定。

Claims (2)

1.一种针对跳字类关键词的过滤方法,其特征在于:包括以下步骤:
1.1.对文本进行预处理,去除HTML标签、换行符、表情标签,得到预处理文本;
1.2.从预处理文本的起点取出不超过词典最大长度的汉字串作为匹配字段;
1.3.在词典中查找该匹配字段,如果找到该匹配字段,则切分出一条词,设长度为n,并后移n个字作为下一次分词的起点;
1.4.返回步骤1.2;
1.5.若未找到该匹配字段,则去除匹配字段的最后一个字,作为新的匹配字段,并转到步骤1.3;
1.6.当预处理文本中的所有汉字串被处理完毕,得出第一匹配结果;
1.7.将预处理文本从其尾部取出不超过词典最大长度的汉字串作为匹配字段;
1.8.在词典中查找该匹配字段,如果找到该匹配字段,则切分出一条词,设长度为n,并前移n个字作为下一次分词的起点;
1.9.返回步骤1.7;
1.10.若未找到该匹配字段,则去除匹配字段的第一个字,作为新的匹配字段,并转到步骤1.8;
1.11.当预处理文本中的所有汉字串被再次处理完毕,得出第二匹配结果,取第一匹配结果与第二匹配结果的并集;
1.12.计算并集中各个词项 t的权重值,公式如下:
其中,词频TF是指词项在一篇文档中出现的次数,定义为,表示词项t在文档d中出现的次数;逆文档率IDF是指词项出现在所有文档中的次数的倒数,定义为,其中D表示文档集合的大小,DF(t)表示文档集合中包含词项t的文档的数目;
1.13.所有词项的权重计算出来之后按照权重从小到大依次排列,选出50~100个高频词项用来表示文档;
1.14.从以往处理过的文本中提取跳字类型的关键词,形成特征词典;
1.15.将特征词典中的跳字类型的关键词通过正则表达式表达;
1.16.用正则表达式与步骤1.13选出的50~100个高频词项进行匹配;
1.17.若匹配成功则将其存储;
1.18.对存储词项选择相应的处理方式,如提示、删除或锁定。
2.根据权利要求1所述的一种针对跳字类关键词的过滤方法,其特征在于:步骤1.15中所述的正则表达式如下:
A{B}C,X{Y}Z对应的正则表达式为((A.{0,B}C)|(X.{0,Y}Z))。
CN201510231694.4A 2015-05-08 2015-05-08 一种针对跳字类关键词的过滤方法 Active CN104850609B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510231694.4A CN104850609B (zh) 2015-05-08 2015-05-08 一种针对跳字类关键词的过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510231694.4A CN104850609B (zh) 2015-05-08 2015-05-08 一种针对跳字类关键词的过滤方法

Publications (2)

Publication Number Publication Date
CN104850609A CN104850609A (zh) 2015-08-19
CN104850609B true CN104850609B (zh) 2019-04-23

Family

ID=53850254

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510231694.4A Active CN104850609B (zh) 2015-05-08 2015-05-08 一种针对跳字类关键词的过滤方法

Country Status (1)

Country Link
CN (1) CN104850609B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284441B (zh) * 2018-09-18 2020-12-04 中国人民解放军战略支援部队信息工程大学 动态自适应网络敏感信息检测方法及装置
CN111597471A (zh) * 2020-05-22 2020-08-28 北京字节跳动网络技术有限公司 一种展示位置的确定方法、装置、电子设备及存储介质
CN114398578A (zh) * 2021-12-23 2022-04-26 网易有道信息技术(北京)有限公司 用于对html字符串进行预处理的方法及其相关产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334773A (zh) * 2007-06-28 2008-12-31 联想(北京)有限公司 一种过滤搜索引擎查询结果的方法
CN101950302A (zh) * 2010-09-29 2011-01-19 李晓耕 基于移动设备的海量音乐库管理方法
CN104572977A (zh) * 2014-12-31 2015-04-29 北京农业信息技术研究中心 一种农产品质量安全事件在线检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7353165B2 (en) * 2002-06-28 2008-04-01 Microsoft Corporation Example based machine translation system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334773A (zh) * 2007-06-28 2008-12-31 联想(北京)有限公司 一种过滤搜索引擎查询结果的方法
CN101950302A (zh) * 2010-09-29 2011-01-19 李晓耕 基于移动设备的海量音乐库管理方法
CN104572977A (zh) * 2014-12-31 2015-04-29 北京农业信息技术研究中心 一种农产品质量安全事件在线检测方法

Also Published As

Publication number Publication date
CN104850609A (zh) 2015-08-19

Similar Documents

Publication Publication Date Title
Kannan et al. Preprocessing techniques for text mining
CN108052500B (zh) 一种基于语义分析的文本关键信息提取方法及装置
CN104268175B (zh) 一种数据搜索的装置及其方法
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
CN103699567B (zh) 一种基于标题指纹与正文指纹实现相同新闻聚类的方法
US9754023B2 (en) Stochastic document clustering using rare features
Man Feature extension for short text categorization using frequent term sets
CN103605691A (zh) 用于处理社交网络中发布内容的装置和方法
CN109299235A (zh) 知识库搜索方法、装置及计算机可读存储介质
CN112650910B (zh) 确定网站更新信息的方法、装置、设备和存储介质
Bahassine et al. Arabic text classification using new stemmer for feature selection and decision trees
CN106569989A (zh) 一种用于短文本的去重方法及装置
CN104850609B (zh) 一种针对跳字类关键词的过滤方法
Dadachev et al. On the helmholtz principle for data mining
CN104866547B (zh) 一种针对组合字类关键词的过滤方法
Bohne et al. Efficient keyword extraction for meaningful document perception
Al-Lahham et al. Conditional arabic light stemmer: condlight.
CN105653553B (zh) 词权重生成方法和装置
CN113806483A (zh) 数据处理方法、装置、电子设备及计算机程序产品
CN105574004B (zh) 一种网页去重方法和设备
Bahassine et al. New stemming for Arabic text classification using feature selection and decision trees
Kulkarni et al. Knowledge discovery in text mining using association rule extraction
US11494555B2 (en) Identifying section headings in a document
CN102737017B (zh) 一种提取页面主题的方法和装置
CN113792546A (zh) 语料库的构建方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160811

Address after: 430000 Chutian media building, No. 181, East Lake Road, Wuchang District, Hubei, Wuhan

Applicant after: HUBEI JINCHU NETWORK TECHNOLOGY CO., LTD.

Address before: 430077 third floor, Chutian culture creative industry building, East Lake New Technology Development Zone, Hubei, Wuhan

Applicant before: Hubei optical valley is medium limited company all over the world

GR01 Patent grant
GR01 Patent grant