CN103678602B - 一种含敏感度计算的网页过滤方法 - Google Patents

一种含敏感度计算的网页过滤方法 Download PDF

Info

Publication number
CN103678602B
CN103678602B CN201310685717.XA CN201310685717A CN103678602B CN 103678602 B CN103678602 B CN 103678602B CN 201310685717 A CN201310685717 A CN 201310685717A CN 103678602 B CN103678602 B CN 103678602B
Authority
CN
China
Prior art keywords
page
word
corpus
sensitivity
sensitive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310685717.XA
Other languages
English (en)
Other versions
CN103678602A (zh
Inventor
张晶
刘志
陈沫良
严涵
沈江炎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201310685717.XA priority Critical patent/CN103678602B/zh
Publication of CN103678602A publication Critical patent/CN103678602A/zh
Application granted granted Critical
Publication of CN103678602B publication Critical patent/CN103678602B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种含敏感度计算的网页过滤方法,属于信息过滤技术领域。本发明通包括步骤:S1,实验语料库收集;S2,语料库的构建及敏感信息语料库的构建;S3,页面信息预处理;S4,页面词语总数统计及敏感词语总数统计;S5,页面敏感度的判断。本发明采用含页面敏感度计算的搜索结果中有效地剔除了敏感信息,且根据当前页面的链接计算该链接所含信息的敏感度,从而可以深度挖掘敏感信息并予以避免;通过阈值的控制以及敏感度的计算可有效地将不同暴力指数的暴力游戏页面显示出来,从而可以有效地控制不同级别或年龄段人群的需求。

Description

一种含敏感度计算的网页过滤方法
技术领域
本发明涉及一种含敏感度计算的网页过滤方法,属于信息过滤技术领域。
背景技术
敏感信息过滤是当前自然语言处理研究中的热点问题之一,如何判断一个文本或网页信息中是否含有敏感性信息问题,是当前搜索引擎以及社交网络研究的关键问题。目前网络环境中充斥着大量违背伦理道德、社会安定等信息。
为了净化网络环境,已经出现了很多敏感性词汇过滤的方法。通常在敏感信息过滤中,敏感词库的收集、敏感词过滤的方法、对应语料库和敏感词库的组织结构以及敏感词的匹配策略均是敏感信息过滤的重要组成部分,其直接影响敏感信息过滤的准确率和效率。通常人们为了避免敏感词过滤而主观地加上一些如"$、&、*"等一些特殊字符。一般的敏感信息过滤算法遇到这种情况则无法判断该词是否为敏感词、从而可通过人为干预避开过滤算法的作用。普通的敏感信息过滤策略通过捕获页面信息中的敏感词,只要含有敏感词汇均不予以显现。从安全控制级别以及信息需要的角度来看,这种策略不能灵活地修改控制力度。
发明内容
本发明提供了一种含敏感度计算的网页过滤方法,以用于解决普通的过滤算法不能灵活地修改控制力度的问题。
本发明的技术方案是:一种含敏感度计算的网页过滤方法,所述网页过滤方法的具体步骤如下:
A、实验语料库收集:收集敏感词作为敏感词语料库;收集敏感词及非敏感词作为语料库,将敏感词语料库添加到语料库中形成新的语料库;
B、新的语料库的构建及敏感词语料库的构建:根据新的语料库及敏感词语料库规模的不同分别以不同的组织结构存放在内存里:其敏感词语料库规模较小,采用List结构;新的语料库规模较大,采用Trie树结构;
C、页面信息预处理:首先对页面信息进行URL链接提取,用以获取二级页面信息,将当前页面和二级页面信息进行无效词语及符号删除;
D、页面词语总数统计及敏感词语总数统计:
将页面信息的分词结果与新的语料库一一比对,把匹配到的词语及该词语出现的总次数以{key1:value1,key2:value2,...}结构存放在Python的Dictionary中,然后将Dictionary结构转换成[[w1,v1],[w2,v2],...]形式的逆序嵌套List;通过计算List中嵌套List的value之和便可统计出页面所有词语出现的总次数T a
将页面信息的分词结果与敏感词语料库一一比对,把匹配到的敏感词语及该词语出现的总次数以{key1:value1,key2:value2,...}结构存放在Python的Dictionary中,然后将Dictionary结构转换成[[w1,v1],[w2,v2],...]形式的逆序嵌套List;通过计算List中嵌套List的value之和便可统计出页面所有敏感词语出现的总次数T s
E、页面敏感度的判断:根据页面所有词语出现的总次数T a 和所有敏感词语出现的总次数T s ,计算敏感度S = arcsin(T s /T a ),并将S 与阈值V s 进行比较:
如果V s S ,则说明页面信息敏感度没有超过阈值,显示页面信息;
如果V s S ,则说明页面信息敏感度超过了阈值,不显示页面信息。
所述无效词语及符号包括语气助词以及数字。
所述阈值V s 的取值范围为0-1。
本发明的有益效果是:采用含页面敏感度计算的搜索结果中有效地剔除了敏感词,且根据当前页面的链接计算该链接所含信息的敏感度,从而可以深度挖掘敏感词并予以避免;通过阈值的控制以及敏感度的计算可有效地将不同暴力指数的暴力游戏页面显示出来,从而可以有效地控制不同级别或年龄段人群的需求。
附图说明
图1为本发明的流程图。
具体实施方式
实施例1:如图1所示,一种含敏感度计算的网页过滤方法,所述网页过滤方法的具体步骤如下:
A、实验语料库收集:收集敏感词作为敏感词语料库;收集敏感词及非敏感词作为语料库,将敏感词语料库添加到语料库中形成新的语料库;
B、新的语料库的构建及敏感词语料库的构建:根据新的语料库及敏感词语料库规模的不同分别以不同的组织结构存放在内存里:其敏感词语料库规模较小,采用List结构;新的语料库规模较大,采用Trie树结构;
C、页面信息预处理:首先对页面信息进行URL链接提取,用以获取二级页面信息,将当前页面和二级页面信息进行无效词语及符号删除;
D、页面词语总数统计及敏感词语总数统计:
将页面信息的分词结果与新的语料库一一比对,把匹配到的词语及该词语出现的总次数以{key1:value1,key2:value2,...}结构存放在Python的Dictionary中,然后将Dictionary结构转换成[[w1,v1],[w2,v2],...]形式的逆序嵌套List;通过计算List中嵌套List的value之和便可统计出页面所有词语出现的总次数T a
将页面信息的分词结果与敏感词语料库一一比对,把匹配到的敏感词语及该词语出现的总次数以{key1:value1,key2:value2,...}结构存放在Python的Dictionary中,然后将Dictionary结构转换成[[w1,v1],[w2,v2],...]形式的逆序嵌套List;通过计算List中嵌套List的value之和便可统计出页面所有敏感词语出现的总次数T s
E、页面敏感度的判断:根据页面所有词语出现的总次数T a 和所有敏感词语出现的总次数T s ,计算敏感度S = arcsin(T s /T a ),并将S 与阈值V s 进行比较:
如果V s S ,则说明页面信息敏感度没有超过阈值,显示页面信息;
如果V s S ,则说明页面信息敏感度超过了阈值,不显示页面信息。
所述无效词语及符号包括语气助词以及数字。
所述阈值V s 的取值范围为0-1。
实施例2:如图1所示,一种含敏感度计算的网页过滤方法,所述网页过滤方法的具体步骤如下:
A、实验语料库收集:收集敏感词作为敏感词语料库;收集敏感词及非敏感词作为语料库,将敏感词语料库添加到语料库中形成新的语料库;
B、新的语料库的构建及敏感词语料库的构建:根据新的语料库及敏感词语料库规模的不同分别以不同的组织结构存放在内存里:其敏感词语料库规模较小,采用List结构;新的语料库规模较大,采用Trie树结构;
C、页面信息预处理:首先对页面信息进行URL链接提取,用以获取二级页面信息,将当前页面和二级页面信息进行无效词语及符号删除;
D、页面词语总数统计及敏感词语总数统计:
将页面信息的分词结果与新的语料库一一比对,把匹配到的词语及该词语出现的总次数以{key1:value1,key2:value2,...}结构存放在Python的Dictionary中,然后将Dictionary结构转换成[[w1,v1],[w2,v2],...]形式的逆序嵌套List;通过计算List中嵌套List的value之和便可统计出页面所有词语出现的总次数T a
将页面信息的分词结果与敏感词语料库一一比对,把匹配到的敏感词语及该词语出现的总次数以{key1:value1,key2:value2,...}结构存放在Python的Dictionary中,然后将Dictionary结构转换成[[w1,v1],[w2,v2],...]形式的逆序嵌套List;通过计算List中嵌套List的value之和便可统计出页面所有敏感词语出现的总次数T s
E、页面敏感度的判断:根据页面所有词语出现的总次数T a 和所有敏感词语出现的总次数T s ,计算敏感度S = arcsin(T s /T a ),并将S 与阈值V s 进行比较:
如果V s S ,则说明页面信息敏感度没有超过阈值,显示页面信息;
如果V s S ,则说明页面信息敏感度超过了阈值,不显示页面信息。
所述无效词语及符号包括语气助词以及数字。
所述阈值V s 的取值范围为0-1。
所述方法的具体实施步骤为:
步骤s1:实验语料库收集。
实验训练语料库来源于两部分:第一部分是1998年人民日报的切分预料(约19980122个汉字,含重复字,其中包含环境、人文、交通、社会、经济、体育、艺术、政治、犯罪、外交、生活等多个方面的信息)作为语料库;第二部分是通过爬取和暴力、反动、色情、恐怖、赌博、教唆犯罪等相关的页面信息(一共爬取了100000个页面)作为敏感词语料库;将得到的敏感词语料库添加到语料库中,以形成新的语料库。
步骤s2:新的语料库(上述新的语料库)的构建及敏感词语料库的构建。
新的语料库的构建结构取决于训练得到的字典规模。
Trie树结构的数据结构可有效减少分词处理词语匹配时对整个新的语料库的扫描。它首先对词语首字匹配,若匹配到对应的字则将首字设为root进行下一个字的匹配,若首字不匹配则说明以该字为首的词语也不可能匹配,从而可以大大减少匹配词语时的时间消耗。Trie树搜索算法在最坏情况下的时间复杂度为O(level),level是Trie树的层数。
敏感词语料库的构建。敏感词语料库与前面的新的语料库主要的不同之处在于它的规模较新的语料库要小很多,其属于前面的新的语料库的一部分,但不含词频。主要是用于分词后敏感词的提取,以获取页面中的敏感词。敏感词语料库采用Python List结构存储在内存中,主要是因为Python的List结构提供了不同的数据类型支持以及丰富的API,且在数据规模较小的情况下,判断List中是否含有某一元素效率极高。
步骤s3:页面信息预处理。利用Python开源组件BeautifulSoup中的prettify函数来格式化页面信息,通过在页面信息中查找标签'<a>'开头的语句定位url链接所处的位置,然后通过获取以'<a>'开始的信息中'href'后面的链接来获取当前页面信息中的所有url链接。根据当前页面URL链接获取该些链接所指页面信息。除掉获取到的页面信息中无用的词语(如:啊、的、得、呢等)及阿拉伯数字(0-9)。
步骤s4:页面词语总数统计及敏感词语总数统计(包括当前页面及二级页面信息)。通过Trie树查找算法将页面中的信息分词后,存储在Python Dictionary结构中,其Dictionary中元素的组织结构为:{key:value, ... },采用以页面信息中的词语为key,词语出现的次数为value,根据Dictionary的特点(key值不能为重复值这一特性),对于重复的key,通过对Dictionary中key的value值加1来统计词语出现的次数。判断某一敏感词是否重复出现来统计该敏感词出现的词频:
设某敏感词为K1,第一次出现K1时,其保存的数据结构为{K1:1},若下一个敏感词仍为K1时,Dictionary的结构为{K1:2}即将value增加1,否则保存为{K2:1},依次类推。为了方便计算词语的总次数,将Dictionary中的{key1:value1,key2:value2,...}结构转换为逆序嵌套List,即为[[w1,v1],[w2,v2],...]结构,采用经过由Dictionary转换而来的List存储格式可以极大地减少空间的浪费,可方便地统计某敏感词出现的次数,且提高了数据的聚合性。
步骤s5:页面敏感度的判断。
通过上述步骤将获取到的所有敏感词语出现的总次数T s 以及所有词语出现的总次数T a 求反正弦arcsin(T s /T a ),并将其值与阈值V s 进行比较。
if arcsin(T s /T a ) < V s :
htm = html.get('title') + " " + html.get('rel') //显示页面标题以及url链接
elif arcsin(T s /T a ) >= V s :
htm = null //不显示任何消息
表1 暴力游戏领域页面敏感度计算实验结果
通过以上的实验和实例数据分析,阈值为0即没有任何的敏感度过滤处理时搜索结果中含有近93%的超过未成年人可接受的信息暴力信息,而符合未成年人的游戏信息显示的较少,且在阈值控制级别不同的情况下搜索到的含暴力信息的数据量也相对有所不同,实验表明通过控制不同级别的阈值控制可以有效地控制搜索结果中的敏感词量。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (3)

1.一种含敏感度计算的网页过滤方法,其特征在于:所述网页过滤方法的具体步骤如下:
A、实验语料库收集:收集敏感词作为敏感词语料库;收集敏感词及非敏感词作为语料库,将敏感词语料库添加到语料库中形成新的语料库;
B、新的语料库的构建及敏感词语料库的构建:根据新的语料库及敏感词语料库规模的不同分别以不同的组织结构存放在内存里:其敏感词语料库规模较小,采用List结构;新的语料库规模较大,采用Trie树结构;
C、页面信息预处理:首先对页面信息进行URL链接提取,用以获取二级页面信息,将当前页面和二级页面信息进行无效词语及符号删除;
D、页面词语总数统计及敏感词语总数统计:
将页面信息的分词结果与新的语料库一一比对,把匹配到的词语及该词语出现的总次数以{key1:value1,key2:value2,...}结构存放在Python的Dictionary中,然后将Dictionary结构转换成[[w1,v1],[w2,v2],...]形式的逆序嵌套List;通过计算List中嵌套List的value之和便可统计出页面所有词语出现的总次数T a
将页面信息的分词结果与敏感词语料库一一比对,把匹配到的敏感词语及该词语出现的总次数以{key1:value1,key2:value2,...}结构存放在Python的Dictionary中,然后将Dictionary结构转换成[[w1,v1],[w2,v2],...]形式的逆序嵌套List;通过计算List中嵌套List的value之和便可统计出页面所有敏感词语出现的总次数T s
E、页面敏感度的判断:根据页面所有词语出现的总次数T a 和所有敏感词语出现的总次数T s ,计算敏感度S = arcsin(T s /T a ),并将S 与阈值V s 进行比较:
如果V s S ,则说明页面信息敏感度没有超过阈值,显示页面信息;
如果V s S ,则说明页面信息敏感度超过了阈值,不显示页面信息。
2.根据权利要求1所述的含敏感度计算的网页过滤方法,其特征在于:所述无效词语及符号包括语气助词以及数字。
3.根据权利要求1或2所述的含敏感度计算的网页过滤方法,其特征在于:所述阈值V s 的取值范围为0-1。
CN201310685717.XA 2013-12-16 2013-12-16 一种含敏感度计算的网页过滤方法 Active CN103678602B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310685717.XA CN103678602B (zh) 2013-12-16 2013-12-16 一种含敏感度计算的网页过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310685717.XA CN103678602B (zh) 2013-12-16 2013-12-16 一种含敏感度计算的网页过滤方法

Publications (2)

Publication Number Publication Date
CN103678602A CN103678602A (zh) 2014-03-26
CN103678602B true CN103678602B (zh) 2017-02-01

Family

ID=50316147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310685717.XA Active CN103678602B (zh) 2013-12-16 2013-12-16 一种含敏感度计算的网页过滤方法

Country Status (1)

Country Link
CN (1) CN103678602B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331414A (zh) * 2014-09-28 2015-02-04 北京云巢动脉科技有限公司 基于数据块的敏感数据过滤的方法和系统
CN104504091A (zh) * 2014-12-26 2015-04-08 新疆卡尔罗媒体科技有限公司 维吾尔语敏感词过滤系统
CN104933443A (zh) * 2015-06-26 2015-09-23 北京途美科技有限公司 一种敏感数据自动识别与分类的方法
CN105243135B (zh) * 2015-09-30 2019-09-20 百度在线网络技术(北京)有限公司 展现搜索结果的方法及装置
CN106504102A (zh) * 2016-10-20 2017-03-15 宁波江东大金佰汇信息技术有限公司 一种基于计算机大数据的社交网络中优质节点探测系统
CN111107380B (zh) * 2018-10-10 2023-08-15 北京默契破冰科技有限公司 一种用于管理音频数据的方法、设备和计算机存储介质
CN110457918B (zh) * 2019-01-09 2022-09-09 腾讯科技(深圳)有限公司 滤除区块链数据中非法内容的方法、装置、节点和介质
CN111782986A (zh) * 2019-05-17 2020-10-16 北京京东尚科信息技术有限公司 一种监控基于短链接进行访问的方法和装置
CN113378172B (zh) * 2020-02-25 2023-12-29 奇安信科技集团股份有限公司 用于识别敏感网页的方法、装置、计算机系统和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040215511A1 (en) * 2003-04-28 2004-10-28 International Business Machines Corporation System and method for filtering non-invasive data collection
CN101470728A (zh) * 2007-12-25 2009-07-01 北京大学 一种中文新闻网页正文的自动抽取方法及装置
CN101510195A (zh) * 2008-02-15 2009-08-19 刘峰 基于爬虫技术的网站安全防护与测试诊断系统构造方法
CN102880636A (zh) * 2012-08-03 2013-01-16 深圳证券信息有限公司 不良信息检测方法及服务端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040215511A1 (en) * 2003-04-28 2004-10-28 International Business Machines Corporation System and method for filtering non-invasive data collection
CN101470728A (zh) * 2007-12-25 2009-07-01 北京大学 一种中文新闻网页正文的自动抽取方法及装置
CN101510195A (zh) * 2008-02-15 2009-08-19 刘峰 基于爬虫技术的网站安全防护与测试诊断系统构造方法
CN102880636A (zh) * 2012-08-03 2013-01-16 深圳证券信息有限公司 不良信息检测方法及服务端

Also Published As

Publication number Publication date
CN103678602A (zh) 2014-03-26

Similar Documents

Publication Publication Date Title
CN103678602B (zh) 一种含敏感度计算的网页过滤方法
CN103605665B (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN103914494B (zh) 一种微博用户身份识别方法及系统
Cimiano et al. Learning concept hierarchies from text with a guided agglomerative clustering algorithm
CN102750316B (zh) 基于语义共现模型的概念关系标签抽取方法
CN103853738B (zh) 一种网页信息相关地域的识别方法
CN105243129A (zh) 商品属性特征词聚类方法
CN106445998A (zh) 一种基于敏感词的文本内容审核方法及系统
CN103927397B (zh) 一种基于区块树的Web页面链接块的识别方法
CN106484664A (zh) 一种短文本间相似度计算方法
CN103246644B (zh) 一种网络舆情信息处理方法和装置
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
CN103942340A (zh) 一种基于文本挖掘的微博用户兴趣识别方法
CN110020189A (zh) 一种基于中文相似性计算的文章推荐方法
CN104298714B (zh) 一种基于异常处理的海量文本自动标注方法
CN102254014A (zh) 一种网页特征自适应的信息抽取方法
CN104035972B (zh) 一种基于微博的知识推荐方法与系统
CN106126619A (zh) 一种基于视频内容的视频检索方法及系统
CN105787121B (zh) 一种基于多故事线的微博事件摘要提取方法
CN103226578A (zh) 面向医学领域的网站识别和网页细分类的方法
CN103678275A (zh) 一种基于主客观语义的双层次文本相似度计算方法
CN102750390A (zh) 新闻网页要素自动提取方法
CN109376352A (zh) 一种基于word2vec和语义相似度的专利文本建模方法
CN112559684A (zh) 一种关键词提取及信息检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant