CN103841076A - 一种色情网页监控方法 - Google Patents
一种色情网页监控方法 Download PDFInfo
- Publication number
- CN103841076A CN103841076A CN201210471171.3A CN201210471171A CN103841076A CN 103841076 A CN103841076 A CN 103841076A CN 201210471171 A CN201210471171 A CN 201210471171A CN 103841076 A CN103841076 A CN 103841076A
- Authority
- CN
- China
- Prior art keywords
- webpage
- pornographic
- probability
- mobile terminal
- hash table
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明公开一种色情网页监控方法,包括:从色情网页集和非色情网页集中标记串,统计标记串出现频率;计算出网页内容中包括一个标记串时该网页为色情网页的概率;移动终端发出网页访问请求时,移动终端分析对应的待访问网页内容,利用所述标记串出现频率,计算出当前待访问网页为色情网页的概率;当该待访问网页为色情网页的概率大于预定的阈值时,所述移动终端判定该待访问网页为色情网页,并限制该待访问网页的显示。相对与在移动终端本地执行绝对匹配的监控方法,本发明无需频繁的更新移动终端本地的数据库,可以由移动终端利用自身的运算能力对请求访问的网页进行全面和及时的监控,能够限制通过移动终端浏览色情网页。
Description
技术领域
本申请涉及对移动互联网浏览监控的技术领域,特别是涉及一种应用于移动互联网上的色情网页监控方法。
背景技术
众所周知,互联网是信息通信技术高速发展的结晶,它给我们的生活带来了质的飞跃,给我们的生活带来了不可磨灭的影响。尤其近些年来,随着智能手机和平板电脑的快速普及,人们能够随时随地的通过移动互联网获取信息,但是不正确的使用也会带来不良的影响。目前移动互联网上出现了很多色情网站,对广大青少年身心健康造成了很大影响。并且由于移动终端的可随身携带性,其难以像传统的计算机终端一样进行有效的监控管理,因此目前迫切需求一种能够全面对移动互联网上的色情网页监控的方案。
为了解决上述移动互联网领域存在的问题,现有技术中开发出了一些移动终端监控系统,其技术实现原理通常如下:移动终端从监控服务提供商处下载并安装一个客户端监控软件,当移动终端访问网页内容时,所述客户端监控软件将预先提取该网页内容,利用哈希方法或者摘要等方法计算网页内容得到一个预定的单向散列函数。然后将该单向散列函数计算的散列值与预先计算好的散列值进行比较,如果两者相匹配,则判定该网页具有色情内容,进而禁止显示这个色情网页,从而阻断色情信息的传播与访问。如果不匹配,则所述客户端正常显示该网页。
通过对上述现有技术的研究,发明人发现其至少存在如下问题:首先,移动终端监控软件的文本数据库中,被禁止或限制访问的色情网页对应的散列数据库只能被动的由监控服务开发商提供更新,而色情网页几乎每分每秒都有更新,这种近乎绝对匹配的方法在很大程度上难以准确过滤移动互联网上新出现的色情信息;其次,这些方法都不具备学习的功能,没法面对层出不穷的色情信息。因此移动终端无法及时的做到百分百的隔离这些色情网页,使该移动终端的监控软件无法对最新出现的色情网页实现监控功能,进而给使用者带来负面的身心健康影响。
发明内容
为解决上述技术问题,本申请实施例提供一种色情网页监控方法,以在通过移动终端访问互联网时及时和全面的对色情网页进行监控。
本申请实施例提供的技术方案如下:
一种色情网页监控方法,包括:
云端服务器从预先建立的色情网页集和非色情网页集中分别提取多个字符串作为标记串,并统计每一个标记串出现的频率;
所述云端服务器计算出网页内容中包括一个标记串时该网页为色情网页的概率,得到记录有每一个标记串及其对应的概率之间映射关系的哈希表;
所述云端服务器将该哈希表下发到移动终端;
当所述移动终端发出网页访问请求时,所述移动终端获取该网页访问请求对应的待访问网页内容;
所述移动终端自所述待访问网页内容中提取多个标记串,并根据所述哈希表计算该待访问网页为色情网页的概率;
当该待访问网页为色情网页的概率大于一个预先设定的阈值时,所述移动终端判定该待访问网页为色情网页,并限制该待访问网页在所述移动终端中的显示。
较佳的,所述计算出网页内容中包括一个标记串时该网页为色情网页的概率,包括:
设定一个色情网页哈希表,其中存储有每一个标记串在色情网页哈希表出现的概率,并设定一个非色情网页哈希表,其中存储有每一个标记串在非色情网页哈希表出现的概率;
分别查询一个标识串在色情网页哈希表和非色情网页哈希表出现的概率,并根据计算结果得到网页内容中包括该标记串时该网页为色情网页的概率。
较佳的,所述根据所述哈希表计算该待访问网页为色情网页的概率,包括:
获取自所述待访问网页内容中提取的每一个标记串在所述哈希表中对应的概率;
根据所获取到的多个概率计算得到该待访问网页中同时包括所述多个标记串时为色情网页的概率。
较佳的,所述的色情网页监控方法还包括:
预先设定多个不同等级的阈值,每一不同等级分别对应一个监控策略;
判断所述待访问网页为色情网页的概率与每一个所述不同等级的阈值的大小关系,并由移动终端执行对应的监控策略。
较佳的,所述的色情网页监控方法还包括:
所述云端服务器实时收集移动互联网上新出现的色情网页和非色情网页,并更新色情网页集和非色情网页集;
该云端服务器根据更新后的色情网页集和非色情网页集,更新记录有标记串及其对应的网页为色情网页的概率之间映射关系的哈希表,并将该哈希表更新到所述移动终端。
由以上本申请实施例提供的技术方案可见,相对与现有技术中在移动终端本地执行近乎绝对匹配的监控方法,本申请无需频繁的更新移动终端本地的数据库,可以由移动终端利用自身的运算能力对请求访问的网页进行全面和及时的监控,能够较好的限制通过移动终端浏览色情网页,达到保护使用者身心健康的目的。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一提供的色情网页监控方法的流程示意图;
图2为本申请实施例二提供的计算网页内容中包括一个标记串时该网页为色情网页的概率的方法流程示意图;
图3为本申请实施例二提供的计算待访问网页为色情网页的概率的方法流程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
实施例一:
本实施例提供了一种色情网页监控方法,用于及时和全面的对移动互联网上的色情网页进行监控,参见图1所示的方法流程示意图,该方法包括以下步骤:
步骤S101,云端服务器从预先建立的色情网页集和非色情网页集中分别提取多个字符串作为标记串,并统计每一个标记串出现的频率。通过云端服务器预先搜集大量的色情网站和非色情网站,并建立其中网页对应的索引,从其中具有代表性的网页内容或所有网页内容中提取预先设定的色情信息字符串作为标记串。此外,云端服务器还可以实时的搜集移动互联网上新出现的各种网站,并及时更新所述色情网页集和非色情网页集。
步骤S102,所述云端服务器计算出网页内容中包括一个标记串时该网页为色情网页的概率,得到记录有每一个标记串及其对应的概率之间映射关系的哈希表。本步骤中,根据色情网页集和非色情网页集的更新和算法的调整,所述哈希表中的值也可以更新,以达到判定最新出现的色情网页的目的。
步骤S103,所述云端服务器将该哈希表下发到移动终端。监控服务开发商可以针对不用的用户或者不同的终端平台开发对应的监控软件APP,并交由用户安装使用,通过运行该APP,移动终端接收云端服务器下发的所述哈希表,并执行对应的监控策略。
步骤S104,当所述移动终端发出网页访问请求时,所述移动终端获取该网页访问请求对应的待访问网页内容。
本申请的应用环境中需要设置移动终端连接到网页服务器上,移动终端发出的网页访问请求中包括一个待访问网址。该移动终端根据待访问网址自对应的网页服务器中获取对应的待访问网页内容。
步骤S105,所述移动终端自所述待访问网页内容中提取多个标记串,并根据所述哈希表计算该待访问网页为色情网页的概率。本步骤中,提取标记串的方式与步骤S101中一致。
步骤S106,当该待访问网页为色情网页的概率大于一个预先设定的阈值时,所述移动终端判定该待访问网页为色情网页,并限制该待访问网页在所述移动终端中的显示。同时当该待访问网页为色情网页的概率小于该预先设定的阈值时,所述移动终端判定该待访问网页为非色情网页,并允许该待访问网页在该移动终端上的正常显示。
此外,还可以预先设定多个不同等级的阈值,每一不同等级分别对应一个监控策略;由该移动终端判断所述待访问网页为色情网页的概率与每一个所述不同等级的阈值的大小关系,并执行对应的监控策略。例如,针对不通年龄端的移动终端用户,其对应需要禁止访问的色情网页的等级可以不同,根据不同的等级,所述移动终端执行不同的监控策略。
相对与现有技术中在移动终端本地执行近乎绝对匹配的监控方法,本实施例提供的上述方法,无需频繁的更新移动终端本地的数据库,可以由移动终端利用自身的运算能力对请求访问的网页进行全面和及时的监控,能够较好的限制通过移动终端浏览色情网页,达到保护使用者身心健康的目的。
进一步的,为了更好的实现对新出现的色情网页的监控,本实施例所述的方法还可以包括:
所述云端服务器实时收集移动互联网上新出现的色情网页和非色情网页,并更新色情网页集和非色情网页集;
所述云端服务器根据更新后的色情网页集和非色情网页集,更新记录有标记串及其对应的网页为色情网页的概率之间映射关系的哈希表,并将该哈希表更新到所述移动终端。
通过上述更新操作,云端服务器可以根据新搜集的色情网页信息和非色情网页信息进行动态的学习和调整,能够实现对移动互联网层出不穷的新的色情网页的监控。
实施例二:
本实施例在实施例一的基础上提供了:计算出网页内容中包括一个标记串时该网页为色情网页的概率、以及移动终端如何根据所述哈希表计算该待访问网页为色情网页的概率的算法的实例。
首先参见图2的流程示意图,本实施例中可以采用如下步骤计算出网页内容中包括一个标记串时该网页为色情网页的概率,包括:
步骤S201,设定一个色情网页哈希表,其中存储有每一个标记串在色情网页哈希表出现的概率,并设定一个非色情网页哈希表,其中存储有每一个标记串在非色情网页哈希表出现的概率。
具体的,hashtable_good为对应非色情网页集的非色情网页哈希表,hashtable_bad为对应色情网页集的色情网页哈希表。哈希表中存储标记串到标识串频率的映射关系。计算出每个哈希表中每一个标识串出现的概率P=(某个标识串出现的频率)/(对应哈希表的长度)。
步骤S202,分别查询一个标识串在色情网页哈希表和非色情网页哈希表出现的概率,并根据计算结果得到网页内容中包括该标记串时该网页为色情网页的概率。
结合步骤S201中的运算,设定A事件代表当前待访问的网页为色情网页,t1,t2…….tn代表标识串,则P(A|ti)表示在网页出现标识串ti时,该网页为色情网页的概率。
设定Pg(ti)=(ti在hashtable_good中的值),Pb(ti)=(ti在hashtable_bad中的值),则P(A|ti)= Pb(ti)/[Pg(ti)+ Pb(ti)]。
之后,建立一个用于存储标识串ti到P(A|ti)的映射关系的哈希表hashtable_probability。至此,云端服务器对色情网页集和非色情网页集的预先学习过程结束。通过使用标识串ti查询哈希表hashtable_probability,即可以判定一个待访问网页为色情网页的可能性。
在上述方案的基础上,本实施例采用如下方式计算该待访问网页为色情网页的概率,具体包括以下步骤:
步骤S301,移动终端获取自所述待访问网页内容中提取的每一个标记串在所述哈希表中对应的概率。假设由该待访问网页内容中共得到N个标识串(t1,t2…….tn),则hashtable_probability中对应的概率值为P1,P2,…… PN。
步骤S302,根据所获取到的多个概率计算得到该待访问网页中同时包括所述多个标记串时为色情网页的概率。
设定P(A|t1,t2,……tn)表示在该待访问网页中同时出现多个标识串(t1,t2…….tn)时,该待访问网页为色情网页的概率。
则由复合概率公式可得:
P(A|t1,t2…….tn)=(P1*P2*……PN) / [P1*P2*……PN+(1-P1)*(1-P2)*……(1-PN)]。
当该待访问网页的P(A| t1,t2…….tn)超过预定阈值时,所述移动终端就可以判断当前待访问网页为色情网页。
当然在实施例一公开方案的基础上,本领域技术人员也可以采用其它类同算法实现同样的目的,本申请请求保护的范围不以上述算法为限制。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (5)
1.一种色情网页监控方法,其特征在于,包括:
云端服务器从预先建立的色情网页集和非色情网页集中分别提取多个字符串作为标记串,并统计每一个标记串出现的频率;
所述云端服务器计算出网页内容中包括一个标记串时该网页为色情网页的概率,得到记录有每一个标记串及其对应的概率之间映射关系的哈希表;
所述云端服务器将该哈希表下发到移动终端;
当所述移动终端发出网页访问请求时,所述移动终端获取该网页访问请求对应的待访问网页内容;
所述移动终端自所述待访问网页内容中提取多个标记串,并根据所述哈希表计算该待访问网页为色情网页的概率;
当该待访问网页为色情网页的概率大于一个预先设定的阈值时,所述移动终端判定该待访问网页为色情网页,并限制该待访问网页在所述移动终端中的显示。
2.根据权利要求1所述的色情网页监控方法,其特征在于,所述计算出网页内容中包括一个标记串时该网页为色情网页的概率,包括:
设定一个色情网页哈希表,其中存储有每一个标记串在色情网页哈希表出现的概率,并设定一个非色情网页哈希表,其中存储有每一个标记串在非色情网页哈希表出现的概率;
分别查询一个标识串在色情网页哈希表和非色情网页哈希表出现的概率,并根据计算结果得到网页内容中包括该标记串时该网页为色情网页的概率。
3.根据权利要求2所述的色情网页监控方法,其特征在于,所述根据所述哈希表计算该待访问网页为色情网页的概率,包括:
获取自所述待访问网页内容中提取的每一个标记串在所述哈希表中对应的概率;
根据所获取到的多个概率计算得到该待访问网页中同时包括所述多个标记串时为色情网页的概率。
4.根据权利要求1所述的色情网页监控方法,其特征在于,还包括:
预先设定多个不同等级的阈值,每一不同等级分别对应一个监控策略;
判断所述待访问网页为色情网页的概率与每一个所述不同等级的阈值的大小关系,并由移动终端执行对应的监控策略。
5.根据权利要求1所述的色情网页监控方法,其特征在于,还包括:
所述云端服务器实时收集移动互联网上新出现的色情网页和非色情网页,并更新色情网页集和非色情网页集;
该云端服务器根据更新后的色情网页集和非色情网页集,更新记录有标记串及其对应的网页为色情网页的概率之间映射关系的哈希表,并将该哈希表更新到所述移动终端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210471171.3A CN103841076A (zh) | 2012-11-20 | 2012-11-20 | 一种色情网页监控方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210471171.3A CN103841076A (zh) | 2012-11-20 | 2012-11-20 | 一种色情网页监控方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103841076A true CN103841076A (zh) | 2014-06-04 |
Family
ID=50804212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210471171.3A Pending CN103841076A (zh) | 2012-11-20 | 2012-11-20 | 一种色情网页监控方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103841076A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001089145A2 (en) * | 2000-05-15 | 2001-11-22 | Telefonaktiebolaget Lm Ericsson (Publ) | Method of monitoring calls in an internet protocol (ip)-based network |
CN1761206A (zh) * | 2005-11-18 | 2006-04-19 | 郑州金惠计算机系统工程有限公司 | 网络色情图像和不良信息检测多功能管理系统 |
CN1950812A (zh) * | 2004-11-05 | 2007-04-18 | 芝兰之交软件有限公司 | 色情内容拦截方法 |
CN102170640A (zh) * | 2011-06-01 | 2011-08-31 | 南通海韵信息技术服务有限公司 | 基于模式库的智能手机端不良内容网站鉴别方法 |
CN102663093A (zh) * | 2012-04-10 | 2012-09-12 | 中国科学院计算机网络信息中心 | 不良网站检测方法及设备 |
-
2012
- 2012-11-20 CN CN201210471171.3A patent/CN103841076A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001089145A2 (en) * | 2000-05-15 | 2001-11-22 | Telefonaktiebolaget Lm Ericsson (Publ) | Method of monitoring calls in an internet protocol (ip)-based network |
CN1950812A (zh) * | 2004-11-05 | 2007-04-18 | 芝兰之交软件有限公司 | 色情内容拦截方法 |
CN1761206A (zh) * | 2005-11-18 | 2006-04-19 | 郑州金惠计算机系统工程有限公司 | 网络色情图像和不良信息检测多功能管理系统 |
CN102170640A (zh) * | 2011-06-01 | 2011-08-31 | 南通海韵信息技术服务有限公司 | 基于模式库的智能手机端不良内容网站鉴别方法 |
CN102663093A (zh) * | 2012-04-10 | 2012-09-12 | 中国科学院计算机网络信息中心 | 不良网站检测方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102663062B (zh) | 一种处理搜索结果中无效链接的方法及装置 | |
Soltani et al. | Flash cookies and privacy | |
US8578010B2 (en) | Methods and system for tracking web page analytics | |
CN101334792B (zh) | 一种个性化服务推荐系统和方法 | |
US20110191664A1 (en) | Systems for and methods for detecting url web tracking and consumer opt-out cookies | |
CN102176722B (zh) | 基于前置网关的页面防篡改方法和系统 | |
US20110208850A1 (en) | Systems for and methods of web privacy protection | |
US20100083163A1 (en) | Methods and Systems for Optimizing Webpage Content Based on a Screen Orientation of a Device | |
US20120095834A1 (en) | Systems and methods for using a behavior history of a user to augment content of a webpage | |
US20120054440A1 (en) | Systems and methods for providing a hierarchy of cache layers of different types for intext advertising | |
CN102368245A (zh) | 相关网站的确定和显示 | |
US20170228296A1 (en) | Hierarchical system manager rollback | |
JP2013539112A5 (zh) | ||
WO2007011672A3 (en) | System, program product, and methods for managing contract procurement | |
CN102195971A (zh) | 网站访问控制方法 | |
US20170024776A1 (en) | Externality-based advertisement bid and budget allocation adjustment | |
CN104246808A (zh) | 客户端安全评分 | |
EP3033697A1 (en) | System, method and device for scoring browsing sessions | |
CN101557427A (zh) | 提供分流信息、实现客户端分流的方法、系统及服务器 | |
US20140278926A1 (en) | System and method for attribution of mobile advertisements related to mobile applications | |
CN103718171A (zh) | 以用户历史优化web爬取 | |
US20140278927A1 (en) | System and method for attribution of mobile advertisements related to mobile applications | |
WO2011112964A3 (en) | System and method for providing information as a service via web services | |
CN103532918A (zh) | 基于移动互联网和云计算的移动终端监控方法和系统 | |
Lien | A note on the relationship between the variability of the hedge ratio and hedging performance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140604 |