CN103902557A - 一种色情信息源的定位方法和系统 - Google Patents
一种色情信息源的定位方法和系统 Download PDFInfo
- Publication number
- CN103902557A CN103902557A CN201210574358.6A CN201210574358A CN103902557A CN 103902557 A CN103902557 A CN 103902557A CN 201210574358 A CN201210574358 A CN 201210574358A CN 103902557 A CN103902557 A CN 103902557A
- Authority
- CN
- China
- Prior art keywords
- page
- pornographic
- content
- website
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Computer And Data Communications (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种色情信息源的定位方法和系统,该方法包括分析网站结构、网站页面内容结构和页面链接信息,并对分析结果根据预设判决规则进行判断,获得色情网站页面地址清单。本发明的技术方案由于采用色情网页本身的页面信息特征参数和色情信息消费行为特征,可以主动过滤定位高概率的色情信息源,并且因为不涉及任何图像内容的计算和复杂的模型,所以计算资源要求很低,每一次分析耗时很小,速度更快。
Description
技术领域
本发明涉及信息安全技术领域,尤其涉及一种色情信息源的定位方法和系统。
背景技术
移动数据网络上传送的业务数据中,充斥大量色情、暴力和反动的信息。现在检视网络色情信息的方法主要依靠人工进行,这个过程主要为:人工查看(可以是随机的、偶然的,也可以是有目的的、主动的),人工举报,配置网络访问禁止。这个过程中,其主要的检测手段都是以人工为主,所以检测效率低下,可能存在大量的盲区。
随着技术的发展,特别是图像分析技术的发展,出现了一些利用自动图像内容分析技术进行色情图像识别的方案。这种方案把色情图像依据不同类型进行分别的建模,然后从网络上捕获数据流,分析这些数据中存在的图像信息,如果符合模型,则标记其为色情信息,然后依据解析出来的源地址,进行人工查看,从而确定是否是一个色情图像源。
在这种方案中,因为单纯的图像分析技术还不能很确定每一次判断为色情信息的图像到底是否有色情信息,所以需要人工对每一个检视出来的可能的色情源进行确认。
当前方案存在下面明显缺陷:
1、检查是被动的,系统分析的数据对象都是基于客户业务中的数据流,也就是说,这个检查过程不能在用户浏览色情信息之前就检查到色情信息,属于完全被动的检查;
2、运行效率低下,成本高昂,因为采用建模匹配的图像分析技术,而这一技术本身要求很高的计算能力,特别是如果要分析全网的情况,其耗用的计算资源更是海量,部署成本高昂。
发明内容
为了解决现有技术中存在的被动检查色情信息,且效率低下的技术问题,本发明提出一种色情信息源定位的方法和系统,能够主动定位高概率的色情信息源,并且速度快,资源消耗小。
本发明一方面提供了一种色情信息源的定位方法,其特征在于,分析网站结构、网站页面内容结构和页面链接信息,并对分析结果根据预设判决规则进行判断,获得色情网站页面地址清单。
本发明另一方面提供了一种色情信息源的定位系统,包括网站结构分析模块、网站页面内容结构分析模块、页面链接信息分析模块和第一判断模块,其中,
网站结构分析模块用于分析网站结构;
网站页面内容结构分析模块用于分析网站页面内容结构;
页面链接信息分析模块用于分析页面链接信息;
第一判断模块用于对分析结果根据预设判决规则进行判断,获得色情网站页面地址清单。
本发明的技术方案由于采用色情网页本身的页面信息特征参数和色情信息消费行为特征,可以主动过滤定位高概率的色情信息源,并且因为不涉及任何图像内容的计算和复杂的模型,所以计算资源要求很低,每一次分析耗时很小,速度更快。
附图说明
图1是本发明实施例中色情信息源定位的流程图。
图2是本发明实施例中色情信息源定位系统结构示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行详细描述。
图1是本发明实施例中色情信息源定位的流程图。如图1所示,该色情信息源定位流程包括以下步骤:
步骤101、主动扫描网络网站资源,分析网站结构,包括分析网站页面级数和每一级的页面数量。
步骤102、分析网站页面内容结构。
进一步包括以下步骤:
将网站页面内容进行分类,例如文字、图像、链接和视频片段,并分析不同类别内容的项目数量和比率;
分析每一级页面包含的不同类别内容的单项最大、最小和平均数据量;
依据所述每一级页面包含的不同类别内容的单项平均数据量,进行100等分,设置尺寸粒度,分析每一级页面包含的不同类别内容的单项数据量在不同尺寸粒度的概率分布。
步骤103、分析页面链接信息,即分析一个页面下所有第一级的下层链接页面本身与链接入口的关系。
进一步包括以下步骤:
分析作为链接入口的文字、图片和图标的分布;
分析作为链接入口的文字、图片或图标的数目占本类项的页面总数目的比率。
步骤104、对上述三步骤的分析结果根据预设判决规则进行判断,获得初步的可疑色情网站页面地址清单。
该预设判决规则包括:
对网站页面内容结构的分析结果满足以下要求:
页面的所有非边沿区域的图片长宽解析度超过X%聚焦于不多于n粒度的范围,并且,
页面的所有非边沿区域的图片尺寸超过Y%聚焦于不多于m粒度的范围,并且,
对页面链接信息的分析结果满足以下要求:
图片作为入口的比率大于Z%,并且下级页面的对网站页面内容结构的分析结果满足上述要求,即:
页面的所有非边沿区域的图片长宽解析度超过X%聚焦于不多于n粒度的范围,并且,
页面的所有非边沿区域的图片尺寸超过Y%聚焦于不多于m粒度的范围。
这里的X、Y、Z、n、m都是可以调节的参数,依据对系统的要求的敏感度设置。
步骤105、获得初步的可疑色情网站页面地址清单,分析色情网站页面地址清单中页面数据的用户消费行为特征信息,分析页面数据流量特征,进一步包括以下步骤:
提取和计算交互类指令频次;
提取和计算视频类数据传送频次。
步骤106、分析单次消费。
进一步包括以下步骤:
提取和计算页面停留时间;
提取和计算合计下载时间。
步骤107、基于分析色情网站页面地址清单中页面数据的用户消费行为特征信息,进一步判断色情网站页面地址清单。
判断的依据是可疑的色情网站页面地址清单中的页面同时满足以下条件:
视频类数据传送频次与交互类指令频次的比值大于A,并且,
合计下载时间与页面停留时间的比值小于B,且大于C。
这里的A、B、C都是可以调节的参数,依据对系统的要求的敏感度设置。
为了实现上述流程,本发明实施例还提供了一种色情信息源定位系统。图2是本发明实施例中色情信息源定位系统结构示意图。如图2所示,该定位系统包括网站结构分析模块201、网站页面内容结构分析模块202、页面链接信息分析模块203、第一判断模块204、页面数据流量特征分析模块205、单次消费分析模块206和第二判断模块207。
其中,网站结构分析模块用于分析网站结构。
网站页面内容结构分析模块用于分析网站页面内容结构。
页面链接信息分析模块用于分析页面链接信息。
第一判断模块用于对分析结果根据预设判决规则进行判断,获得色情网站页面地址清单。
页面数据流量特征分析模块用于分析色情网站页面地址清单的页面数据流量特征。
单次消费分析模块用于分析色情网站页面地址清单的单次消费。
第二判断模块用于根据页面数据流量特征分析模块和单次消费分析模块的分析结果,进一步判断色情网站页面地址清单。
通过这两轮的分析和判断,获得的就是高概率的色情网页地址信息了,由于采用色情网页本身的页面信息特征参数和色情信息消费行为特征,可以主动过滤定位高概率的色情信息源,并且因为不涉及任何图像内容的计算和复杂的模型,所以计算资源要求很低,每一次分析耗时很小,速度更快,同时可以充分利用现有的网络监测系统资源进行分析判断,部署迅速。
应说明的是:以上实施例仅用以说明本发明而非限制,本发明也并不仅限于上述举例,一切不脱离本发明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权利要求范围中。
Claims (13)
1.一种色情信息源的定位方法,其特征在于,分析网站结构、网站页面内容结构和页面链接信息,并对分析结果根据预设判决规则进行判断,获得色情网站页面地址清单。
2.根据权利要求1所述的一种色情信息源的定位方法,其特征在于,还包括以下步骤:
采集所述色情网站页面地址清单中页面数据的用户消费行为特征信息,进行分析,进一步判断色情网站页面地址清单。
3.根据权利要求1所述的一种色情信息源的定位方法,其特征在于,所述分析网站结构进一步包括分析网站页面级数和每一级的页面数量。
4.根据权利要求3所述的一种色情信息源的定位方法,其特征在于,所述分析网站页面内容结构进一步包括以下步骤:
将网站页面内容进行分类,并分析不同类别内容的项目数量和比率;
分析每一级页面包含的不同类别内容的单项最大、最小和平均数据量;
依据所述每一级页面包含的不同类别内容的单项平均数据量,进行等分,设置尺寸粒度,分析每一级页面包含的不同类别内容的单项数据量在不同尺寸粒度的概率分布。
5.根据权利要求4所述的一种色情信息源的定位方法,其特征在于,将网站页面内容分为文字、图像、链接和视频片段。
6.根据权利要求5所述的一种色情信息源的定位方法,其特征在于,
所述分析页面链接信息是分析一个页面下所有第一级的下层链接页面本身与链接入口的关系,进一步包括以下步骤:
分析作为链接入口的文字、图片和图标的分布;
分析作为链接入口的文字、图片或图标的数目占本类项的页面总数目的比率。
7.根据权利要求6所述的一种色情信息源的定位方法,其特征在于,所述预设判决规则包括:
对网站页面内容结构的分析结果满足以下要求:
页面的所有非边沿区域的图片长宽解析度超过第一预设比例聚焦于不多于第一预设值粒度的范围,并且,
页面的所有非边沿区域的图片尺寸超过第二预设比例聚焦于不多于第二预设值粒度的范围,并且,
对页面链接信息的分析结果满足以下要求:
图片作为入口的比率大于第三预设比例,并且下级页面的对网站页面内容结构的分析结果满足以下要求:
页面的所有非边沿区域的图片长宽解析度超过第一预设比例聚焦于不多于第一预设值粒度的范围,并且,
页面的所有非边沿区域的图片尺寸超过第二预设比例聚焦于不多于第二预设值粒度的范围。
8.根据权利要求2所述的一种色情信息源的定位方法,其特征在于,分析所述色情网站页面地址清单中页面数据的用户消费行为特征信息,进一步包括分析页面数据流量特征和分析单次消费。
9.根据权利要求8所述的一种色情信息源的定位方法,其特征在于,所述分析页面数据流量特征,进一步包括以下步骤:
提取和计算交互类指令频次;
提取和计算视频类数据传送频次。
10.根据权利要求9所述的一种色情信息源的定位方法,其特征在于,所述分析单次消费,进一步包括以下步骤:
提取和计算页面停留时间;
提取和计算合计下载时间。
11.根据权利要求10所述的一种色情信息源的定位方法,其特征在于,
所述进一步判断色情网站页面地址清单,是所述色情网站页面地址清单中的页面同时满足以下条件:
视频类数据传送频次与交互类指令频次的比值大于第三预设值,并且,
合计下载时间与页面停留时间的比值小于第四预设值,且大于第五预设值。
12.一种色情信息源的定位系统,包括网站结构分析模块、网站页面内容结构分析模块、页面链接信息分析模块和第一判断模块,其中,
网站结构分析模块用于分析网站结构;
网站页面内容结构分析模块用于分析网站页面内容结构;
页面链接信息分析模块用于分析页面链接信息;
第一判断模块用于对分析结果根据预设判决规则进行判断,获得色情网站页面地址清单。
13.根据权利要求12所述的一种色情信息源的定位系统,其特征在于,还包括页面数据流量特征分析模块、单次消费分析模块和第二判断模块,其中,
页面数据流量特征分析模块用于分析色情网站页面地址清单的页面数据流量特征;
单次消费分析模块用于分析色情网站页面地址清单的单次消费;
第二判断模块用于根据页面数据流量特征分析模块和单次消费分析模块的分析结果,进一步判断色情网站页面地址清单。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210574358.6A CN103902557B (zh) | 2012-12-26 | 2012-12-26 | 一种色情信息源的定位方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210574358.6A CN103902557B (zh) | 2012-12-26 | 2012-12-26 | 一种色情信息源的定位方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103902557A true CN103902557A (zh) | 2014-07-02 |
CN103902557B CN103902557B (zh) | 2018-01-30 |
Family
ID=50993886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210574358.6A Active CN103902557B (zh) | 2012-12-26 | 2012-12-26 | 一种色情信息源的定位方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103902557B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105574191A (zh) * | 2015-12-26 | 2016-05-11 | 中国人民解放军信息工程大学 | 在线社会网络多源点信息溯源系统及其方法 |
CN106250837A (zh) * | 2016-07-27 | 2016-12-21 | 腾讯科技(深圳)有限公司 | 一种视频的识别方法、装置和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020156902A1 (en) * | 2001-04-13 | 2002-10-24 | Crandall John Christopher | Language and culture interface protocol |
CN101692639A (zh) * | 2009-09-15 | 2010-04-07 | 西安交通大学 | 一种基于url的不良网页识别方法 |
CN102332028A (zh) * | 2011-10-15 | 2012-01-25 | 西安交通大学 | 一种面向网页的不良Web内容识别方法 |
-
2012
- 2012-12-26 CN CN201210574358.6A patent/CN103902557B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020156902A1 (en) * | 2001-04-13 | 2002-10-24 | Crandall John Christopher | Language and culture interface protocol |
CN101692639A (zh) * | 2009-09-15 | 2010-04-07 | 西安交通大学 | 一种基于url的不良网页识别方法 |
CN102332028A (zh) * | 2011-10-15 | 2012-01-25 | 西安交通大学 | 一种面向网页的不良Web内容识别方法 |
Non-Patent Citations (1)
Title |
---|
姚婷等: "低频查询的用户行为分析和类别研究", 《计算机研究与发展》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105574191A (zh) * | 2015-12-26 | 2016-05-11 | 中国人民解放军信息工程大学 | 在线社会网络多源点信息溯源系统及其方法 |
CN105574191B (zh) * | 2015-12-26 | 2018-10-23 | 中国人民解放军信息工程大学 | 在线社会网络多源点信息溯源系统及其方法 |
CN106250837A (zh) * | 2016-07-27 | 2016-12-21 | 腾讯科技(深圳)有限公司 | 一种视频的识别方法、装置和系统 |
CN106250837B (zh) * | 2016-07-27 | 2019-06-18 | 腾讯科技(深圳)有限公司 | 一种视频的识别方法、装置和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103902557B (zh) | 2018-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6592474B2 (ja) | アプリケーションごとのリソース使用情報の提供 | |
CN107168854B (zh) | 互联网广告异常点击检测方法、装置、设备及可读存储介质 | |
Anbaroğlu et al. | Non-recurrent traffic congestion detection on heterogeneous urban road networks | |
CN107958456A (zh) | 点胶检测方法、装置及电子设备 | |
CN104185840A (zh) | 持续部署流水线测试的优先化 | |
JP5725866B2 (ja) | 物理的空間においてワイヤレスメッシュネットワークの設計および組織を視覚化するシステム | |
CN102739663A (zh) | 网页检测方法与扫描引擎 | |
CN110363427A (zh) | 模型质量评估方法和装置 | |
CN112087445A (zh) | 一种融合业务安全的电力物联网安全脆弱性评估方法 | |
CN106920022B (zh) | 卷烟工业控制系统的安全脆弱性评估方法、系统及设备 | |
US10291492B2 (en) | Systems and methods for discovering sources of online content | |
CN113569162A (zh) | 数据处理方法、装置、设备及存储介质 | |
Yuqing | A Hybrid Convolutional Neural Network and Relief‐F Algorithm for Fault Power Line Recognition in Internet of Things‐Based Smart Grids | |
CN103902557A (zh) | 一种色情信息源的定位方法和系统 | |
CN113495825A (zh) | 线路告警的处理方法、装置、电子设备及可读存储介质 | |
CN116822804A (zh) | 一种数字化资产管理分析方法、装置及介质 | |
US9008104B2 (en) | Methods and apparatus for detecting and filtering forced traffic data from network data | |
CN108075918A (zh) | 互联网业务变更检测方法及系统 | |
CN112506063B (zh) | 数据分析方法、系统、电子设备和存储介质 | |
Mi et al. | A framework for intersection traffic safety screening with the implementation of complex network theory | |
Najafian et al. | Signature-based method and stream data mining technique performance evaluation for security and intrusion detection in advanced metering infrastructures (ami) | |
CN112559278B (zh) | 操作数据的获取方法和装置 | |
CN109067726A (zh) | 建站系统识别方法、装置、电子设备及存储介质 | |
US20160210123A1 (en) | Simplified creation of an application in a selected stream processing platform | |
CN109446287A (zh) | 一种地图加载、渲染方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |