CN103902557B - 一种色情信息源的定位方法和系统 - Google Patents
一种色情信息源的定位方法和系统 Download PDFInfo
- Publication number
- CN103902557B CN103902557B CN201210574358.6A CN201210574358A CN103902557B CN 103902557 B CN103902557 B CN 103902557B CN 201210574358 A CN201210574358 A CN 201210574358A CN 103902557 B CN103902557 B CN 103902557B
- Authority
- CN
- China
- Prior art keywords
- page
- pornography
- analysis
- website
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Computer And Data Communications (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种色情信息源的定位方法和系统,该方法包括分析网站结构、网站页面内容结构和页面链接信息,并对分析结果根据预设判决规则进行判断,获得色情网站页面地址清单。本发明的技术方案由于采用色情网页本身的页面信息特征参数和色情信息消费行为特征,可以主动过滤定位高概率的色情信息源,并且因为不涉及任何图像内容的计算和复杂的模型,所以计算资源要求很低,每一次分析耗时很小,速度更快。
Description
技术领域
本发明涉及信息安全技术领域,尤其涉及一种色情信息源的定位方法和系统。
背景技术
移动数据网络上传送的业务数据中,充斥大量色情、暴力和反动的信息。现在检视网络色情信息的方法主要依靠人工进行,这个过程主要为:人工查看(可以是随机的、偶然的,也可以是有目的的、主动的),人工举报,配置网络访问禁止。这个过程中,其主要的检测手段都是以人工为主,所以检测效率低下,可能存在大量的盲区。
随着技术的发展,特别是图像分析技术的发展,出现了一些利用自动图像内容分析技术进行色情图像识别的方案。这种方案把色情图像依据不同类型进行分别的建模,然后从网络上捕获数据流,分析这些数据中存在的图像信息,如果符合模型,则标记其为色情信息,然后依据解析出来的源地址,进行人工查看,从而确定是否是一个色情图像源。
在这种方案中,因为单纯的图像分析技术还不能很确定每一次判断为色情信息的图像到底是否有色情信息,所以需要人工对每一个检视出来的可能的色情源进行确认。
当前方案存在下面明显缺陷:
1、检查是被动的,系统分析的数据对象都是基于客户业务中的数据流,也就是说,这个检查过程不能在用户浏览色情信息之前就检查到色情信息,属于完全被动的检查;
2、运行效率低下,成本高昂,因为采用建模匹配的图像分析技术,而这一技术本身要求很高的计算能力,特别是如果要分析全网的情况,其耗用的计算资源更是海量,部署成本高昂。
发明内容
为了解决现有技术中存在的被动检查色情信息,且效率低下的技术问题,本发明提出一种色情信息源定位的方法和系统,能够主动定位高概率的色情信息源,并且速度快,资源消耗小。
本发明一方面提供了一种色情信息源的定位方法,其特征在于,分析网站结构、网站页面内容结构和页面链接信息,并对分析结果根据预设判决规则进行判断,获得色情网站页面地址清单。
本发明另一方面提供了一种色情信息源的定位系统,包括网站结构分析模块、网站页面内容结构分析模块、页面链接信息分析模块和第一判断模块,其中,
网站结构分析模块用于分析网站结构;
网站页面内容结构分析模块用于分析网站页面内容结构;
页面链接信息分析模块用于分析页面链接信息;
第一判断模块用于对分析结果根据预设判决规则进行判断,获得色情网站页面地址清单。
本发明的技术方案由于采用色情网页本身的页面信息特征参数和色情信息消费行为特征,可以主动过滤定位高概率的色情信息源,并且因为不涉及任何图像内容的计算和复杂的模型,所以计算资源要求很低,每一次分析耗时很小,速度更快。
附图说明
图1是本发明实施例中色情信息源定位的流程图。
图2是本发明实施例中色情信息源定位系统结构示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行详细描述。
图1是本发明实施例中色情信息源定位的流程图。如图1所示,该色情信息源定位流程包括以下步骤:
步骤101、主动扫描网络网站资源,分析网站结构,包括分析网站页面级数和每一级的页面数量。
步骤102、分析网站页面内容结构。
进一步包括以下步骤:
将网站页面内容进行分类,例如文字、图像、链接和视频片段,并分析不同类别内容的项目数量和比率;
分析每一级页面包含的不同类别内容的单项最大、最小和平均数据量;
依据所述每一级页面包含的不同类别内容的单项平均数据量,进行100等分,设置尺寸粒度,分析每一级页面包含的不同类别内容的单项数据量在不同尺寸粒度的概率分布。
步骤103、分析页面链接信息,即分析一个页面下所有第一级的下层链接页面本身与链接入口的关系。
进一步包括以下步骤:
分析作为链接入口的文字、图片和图标的分布;
分析作为链接入口的文字、图片或图标的数目占本类项的页面总数目的比率。
步骤104、对上述三步骤的分析结果根据预设判决规则进行判断,获得初步的可疑色情网站页面地址清单。
该预设判决规则包括:
对网站页面内容结构的分析结果满足以下要求:
页面的所有非边沿区域的图片长宽解析度超过X%聚焦于不多于n粒度的范围,并且,
页面的所有非边沿区域的图片尺寸超过Y%聚焦于不多于m粒度的范围,并且,
对页面链接信息的分析结果满足以下要求:
图片作为入口的比率大于Z%,并且下级页面的对网站页面内容结构的分析结果满足上述要求,即:
页面的所有非边沿区域的图片长宽解析度超过X%聚焦于不多于n粒度的范围,并且,
页面的所有非边沿区域的图片尺寸超过Y%聚焦于不多于m粒度的范围。
这里的X、Y、Z、n、m都是可以调节的参数,依据对系统的要求的敏感度设置。
步骤105、获得初步的可疑色情网站页面地址清单,分析色情网站页面地址清单中页面数据的用户消费行为特征信息,分析页面数据流量特征,进一步包括以下步骤:
提取和计算交互类指令频次;
提取和计算视频类数据传送频次。
步骤106、分析单次消费。
进一步包括以下步骤:
提取和计算页面停留时间;
提取和计算合计下载时间。
步骤107、基于分析色情网站页面地址清单中页面数据的用户消费行为特征信息,进一步判断色情网站页面地址清单。
判断的依据是可疑的色情网站页面地址清单中的页面同时满足以下条件:
视频类数据传送频次与交互类指令频次的比值大于A,并且,
合计下载时间与页面停留时间的比值小于B,且大于C。
这里的A、B、C都是可以调节的参数,依据对系统的要求的敏感度设置。
为了实现上述流程,本发明实施例还提供了一种色情信息源定位系统。图2是本发明实施例中色情信息源定位系统结构示意图。如图2所示,该定位系统包括网站结构分析模块201、网站页面内容结构分析模块202、页面链接信息分析模块203、第一判断模块204、页面数据流量特征分析模块205、单次消费分析模块206和第二判断模块207。
其中,网站结构分析模块用于分析网站结构。
网站页面内容结构分析模块用于分析网站页面内容结构。
页面链接信息分析模块用于分析页面链接信息。
第一判断模块用于对分析结果根据预设判决规则进行判断,获得色情网站页面地址清单。
页面数据流量特征分析模块用于分析色情网站页面地址清单的页面数据流量特征。
单次消费分析模块用于分析色情网站页面地址清单的单次消费。
第二判断模块用于根据页面数据流量特征分析模块和单次消费分析模块的分析结果,进一步判断色情网站页面地址清单。
通过这两轮的分析和判断,获得的就是高概率的色情网页地址信息了,由于采用色情网页本身的页面信息特征参数和色情信息消费行为特征,可以主动过滤定位高概率的色情信息源,并且因为不涉及任何图像内容的计算和复杂的模型,所以计算资源要求很低,每一次分析耗时很小,速度更快,同时可以充分利用现有的网络监测系统资源进行分析判断,部署迅速。
应说明的是:以上实施例仅用以说明本发明而非限制,本发明也并不仅限于上述举例,一切不脱离本发明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权利要求范围中。
Claims (11)
1.一种色情信息源的定位方法,其特征在于,分析网站结构、网站页面内容结构和页面链接信息,并对分析结果根据预设判决规则进行判断,获得色情网站页面地址清单;
所述分析网站结构进一步包括分析网站页面级数和每一级的页面数量;
所述预设判决规则包括:
对网站页面内容结构的分析结果满足以下要求:
页面的所有非边沿区域的图片长宽解析度超过第一预设比例聚焦于不多于第一预设值粒度的范围,并且,
页面的所有非边沿区域的图片尺寸超过第二预设比例聚焦于不多于第二预设值粒度的范围,并且,
对页面链接信息的分析结果满足以下要求:
图片作为入口的比率大于第三预设比例,并且下级页面的对网站页面内容结构的分析结果满足以下要求:
页面的所有非边沿区域的图片长宽解析度超过第一预设比例聚焦于不多于第一预设值粒度的范围,并且,
页面的所有非边沿区域的图片尺寸超过第二预设比例聚焦于不多于第二预设值粒度的范围。
2.根据权利要求1所述的一种色情信息源的定位方法,其特征在于,还包括以下步骤:
采集所述色情网站页面地址清单中页面数据的用户消费行为特征信息,进行分析,进一步判断色情网站页面地址清单。
3.根据权利要求1所述的一种色情信息源的定位方法,其特征在于,所述分析网站页面内容结构进一步包括以下步骤:
将网站页面内容进行分类,并分析不同类别内容的项目数量和比率;
分析每一级页面包含的不同类别内容的单项最大、最小和平均数据量;
依据所述每一级页面包含的不同类别内容的单项平均数据量,进行等分,设置尺寸粒度,分析每一级页面包含的不同类别内容的单项数据量在不同尺寸粒度的概率分布。
4.根据权利要求3所述的一种色情信息源的定位方法,其特征在于,将网站页面内容分为文字、图像、链接和视频片段。
5.根据权利要求4所述的一种色情信息源的定位方法,其特征在于,
所述分析页面链接信息是分析一个页面下所有第一级的下层链接页面本身与链接入口的关系,进一步包括以下步骤:
分析作为链接入口的文字、图片和图标的分布;
分析作为链接入口的文字、图片或图标的数目占本类项的页面总数目的比率。
6.根据权利要求2所述的一种色情信息源的定位方法,其特征在于,分析所述色情网站页面地址清单中页面数据的用户消费行为特征信息,进一步包括分析页面数据流量特征和分析单次消费。
7.根据权利要求6所述的一种色情信息源的定位方法,其特征在于,所述分析页面数据流量特征,进一步包括以下步骤:
提取和计算交互类指令频次;
提取和计算视频类数据传送频次。
8.根据权利要求7所述的一种色情信息源的定位方法,其特征在于,所述分析单次消费,进一步包括以下步骤:
提取和计算页面停留时间;
提取和计算合计下载时间。
9.根据权利要求8所述的一种色情信息源的定位方法,其特征在于,
所述进一步判断色情网站页面地址清单,是所述色情网站页面地址清单中的页面同时满足以下条件:
视频类数据传送频次与交互类指令频次的比值大于第三预设值,并且,
合计下载时间与页面停留时间的比值小于第四预设值,且大于第五预设值。
10.一种色情信息源的定位系统,包括网站结构分析模块、网站页面内容结构分析模块、页面链接信息分析模块和第一判断模块,其中,
网站结构分析模块用于分析网站结构;
网站页面内容结构分析模块用于分析网站页面内容结构;
页面链接信息分析模块用于分析页面链接信息;
第一判断模块用于对分析结果根据预设判决规则进行判断,获得色情网站页面地址清单;
所述网站结构分析模块具体用于分析网站页面级数和每一级的页面数量;
所述预设判决规则包括:
对网站页面内容结构的分析结果满足以下要求:
页面的所有非边沿区域的图片长宽解析度超过第一预设比例聚焦于不多于第一预设值粒度的范围,并且,
页面的所有非边沿区域的图片尺寸超过第二预设比例聚焦于不多于第二预设值粒度的范围,并且,
对页面链接信息的分析结果满足以下要求:
图片作为入口的比率大于第三预设比例,并且下级页面的对网站页面内容结构的分析结果满足以下要求:
页面的所有非边沿区域的图片长宽解析度超过第一预设比例聚焦于不多于第一预设值粒度的范围,并且,
页面的所有非边沿区域的图片尺寸超过第二预设比例聚焦于不多于第二预设值粒度的范围。
11.根据权利要求10所述的一种色情信息源的定位系统,其特征在于,还包括页面数据流量特征分析模块、单次消费分析模块和第二判断模块,其中,
页面数据流量特征分析模块用于分析色情网站页面地址清单的页面数据流量特征;
单次消费分析模块用于分析色情网站页面地址清单的单次消费;
第二判断模块用于根据页面数据流量特征分析模块和单次消费分析模块的分析结果,进一步判断色情网站页面地址清单。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210574358.6A CN103902557B (zh) | 2012-12-26 | 2012-12-26 | 一种色情信息源的定位方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210574358.6A CN103902557B (zh) | 2012-12-26 | 2012-12-26 | 一种色情信息源的定位方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103902557A CN103902557A (zh) | 2014-07-02 |
CN103902557B true CN103902557B (zh) | 2018-01-30 |
Family
ID=50993886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210574358.6A Active CN103902557B (zh) | 2012-12-26 | 2012-12-26 | 一种色情信息源的定位方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103902557B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105574191B (zh) * | 2015-12-26 | 2018-10-23 | 中国人民解放军信息工程大学 | 在线社会网络多源点信息溯源系统及其方法 |
CN106250837B (zh) * | 2016-07-27 | 2019-06-18 | 腾讯科技(深圳)有限公司 | 一种视频的识别方法、装置和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101692639A (zh) * | 2009-09-15 | 2010-04-07 | 西安交通大学 | 一种基于url的不良网页识别方法 |
CN102332028A (zh) * | 2011-10-15 | 2012-01-25 | 西安交通大学 | 一种面向网页的不良Web内容识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020156902A1 (en) * | 2001-04-13 | 2002-10-24 | Crandall John Christopher | Language and culture interface protocol |
-
2012
- 2012-12-26 CN CN201210574358.6A patent/CN103902557B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101692639A (zh) * | 2009-09-15 | 2010-04-07 | 西安交通大学 | 一种基于url的不良网页识别方法 |
CN102332028A (zh) * | 2011-10-15 | 2012-01-25 | 西安交通大学 | 一种面向网页的不良Web内容识别方法 |
Non-Patent Citations (1)
Title |
---|
低频查询的用户行为分析和类别研究;姚婷等;《计算机研究与发展》;20121130;第49卷(第11期);第2.1小节 * |
Also Published As
Publication number | Publication date |
---|---|
CN103902557A (zh) | 2014-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Deep learning‐based safety helmet detection in engineering management based on convolutional neural networks | |
CN107358146B (zh) | 视频处理方法、装置及存储介质 | |
CN104615760B (zh) | 钓鱼网站识别方法和系统 | |
CN104767757B (zh) | 基于web业务的多维度安全监测方法和系统 | |
CN104601573B (zh) | 一种Android平台URL访问结果验证方法及装置 | |
CN105893253A (zh) | 应用软件测试方法、测试装置及测试设备 | |
CN105975980A (zh) | 监控图像标注质量的方法和装置 | |
CN110866820A (zh) | 银行业务实时监测系统及方法、设备、存储介质 | |
CN110910343A (zh) | 路面裂缝检测的方法、装置及计算机设备 | |
CN107958456A (zh) | 点胶检测方法、装置及电子设备 | |
CN101359329A (zh) | 基于浏览器的过滤色情软件插件 | |
CN102902960B (zh) | 基于高斯建模与目标轮廓的遗留物检测方法 | |
CN113642474A (zh) | 一种基于yolov5的危险区域人员监控方法 | |
CN103176984A (zh) | 一种用户生成内容中欺骗性垃圾意见检测方法 | |
CN103902557B (zh) | 一种色情信息源的定位方法和系统 | |
CN105159806A (zh) | 终端兼容性检测系统及其工作方法 | |
CN115205780A (zh) | 一种工地违规的监控方法、系统、介质及电子设备 | |
CN106920022A (zh) | 卷烟工业控制系统的安全脆弱性评估方法、系统及设备 | |
CN103605670B (zh) | 一种用于确定网络资源点的抓取频率的方法和装置 | |
CN116977904A (zh) | 一种基于YOLOv5的快速识别大场景多人工衣检测方法 | |
CN108075918A (zh) | 互联网业务变更检测方法及系统 | |
CN114610844A (zh) | 一种敏感信息检测方法、装置、存储介质及终端 | |
CN112115043B (zh) | 一种基于图像的端上智能化页面质量巡检方法 | |
CN107231268A (zh) | 测试网站性能的方法和装置 | |
CN107889058A (zh) | 监测方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |