CN103473299A

CN103473299A - 一种网站不良似然度获取方法和装置

Info

Publication number: CN103473299A
Application number: CN2013104043726A
Authority: CN
Inventors: 宋同珍
Original assignee: Beijing Ruian Technology Co Ltd
Current assignee: Beijing Ruian Technology Co Ltd
Priority date: 2013-09-06
Filing date: 2013-09-06
Publication date: 2013-12-25
Anticipated expiration: 2033-09-06
Also published as: CN103473299B

Abstract

本发明公开了一种网站不良似然度获取方法和装置，该方法包括：统计网站疑似不良文本的数目；统计网站疑似不良图片的数目；统计网站疑似不良视频的数目；根据疑似不良文本的数目、疑似不良图片的数目和疑似不良视频的数目获取网站的不良似然度。本发明通过对网站的文本、图片和视频内容进行分析，通过各种内容的疑似不良数目判断网站的不良似然度，判断过程快速准确，提供了对网络环境的全面检测。

Description

一种网站不良似然度获取方法和装置

技术领域

本发明涉及互联网不良信息识别领域，尤其涉及一种网站不良似然度获取方法和装置。

背景技术

当今社会科学技术日新月异，随着我国国民经济的不断发展，人民生活水平的不断提高，互联网已经深入家庭。如今，互联网已经改变和影响了每一个人的生活，在充分体验互联网络为生活、工作带来方便、效率的同时，网络不良信息也在危害着广大青少年尤其是未成年的青少年的身心健康。目前最容易接触到网络不良信息的是手机，现在青少年近九成拥有移动手机，据不完全统计，全国拥有1.5亿19岁以下的青少年手机用户，据调查显示，80%青少年浏览过黄色、暴力和血腥等不良信息。因此，如何发现和遏制网络不良信息，保证青少年的身心健康，已经成为眼下亟待解决的问题。

发明内容

本发明提供了一种对网站的文本、图片和视频内容进行分析统计，获取网站的不良似然度的方法和装置。

为实现上述方法和装置，本发明采用以下技术方案：

一方面采用一种网站不良似然度获取方法，包括：

统计网站疑似不良文本的数目；

统计网站疑似不良图片的数目；

统计网站疑似不良视频的数目；

根据疑似不良文本的数目、疑似不良图片的数目和疑似不良视频的数目获取网站的不良似然度。

其中，所述统计网站疑似不良文本的数目，包括：

用预设的不良关键字字库与网站中的每个文本文件的文字进行匹配；

统计每个文本文件中不良关键字匹配个数和总次数；

当文本文件中的不良关键字匹配个数和次数均达到阈值时，将该文本文件标记为疑似不良文本，统计网站中的疑似不良文本的数目。

其中，所述统计网站疑似不良图片的数目，包括：

提取网站中每张图片的肤色、纹理和姿态参数；

根据图片的肤色、纹理和姿态参数对图片进行不良疑似度打分；

当图片的分数在预设范围内时，将该图片标记为疑似不良图片，统计网站中的疑似不良图片数目。

其中，所述统计网站疑似不良视频的数目，包括：

从网站的每个视频中抽取关键帧；

提取每个关键帧的肤色、纹理和姿态参数；

根据关键帧的肤色、纹理和姿态参数对关键帧进行不良疑似度打分；

当关键帧的分数在预设范围内时，将该关键帧标记为疑似不良帧；

当视频的疑似不良帧占视频关键帧的比例达到预设的阈值时，将该视频标记为疑似不良视频，统计网站疑似不良视频的数目。

其中，所述根据疑似不良文本的数目、疑似不良图片的数目和疑似不良视频的数目获取网站的不良似然度，具体为：

根据疑似不良文本、疑似不良图片和疑似不良视频的数目，预设的权重，预设的置信度获取网站的不良似然度；所述不良似然度的获取方法为：

S＝α×Z₁×S₁+β×Z₂×S₂+γ×Z₃×S₃

其中，S表示网站的不良似然度值；α表示文本的权重；Z₁表示文本的置信度；S₁表示疑似不良文本的数量；β表示图片的权重；Z₂表示图片的置信度；S₂表示疑似不良图片的数量；γ表示视频的权重；Z₃表示视频的置信度；S₃表示疑似不良视频的数量；α+β+γ＝1。

另一方面采用一种网站不良似然度获取装置，包括：

第一统计单元，用于统计网站疑似不良文本的数目；

第二统计单元，用于统计网站疑似不良图片的数目；

第三统计单元，用于统计网站疑似不良视频的数目；

似然度计算单元，用于根据疑似不良文本的数目、疑似不良图片的数目和疑似不良视频的数目获取网站的不良似然度。

其中，所述第一统计单元包括：

关键字匹配模块，用于用预设的不良关键字字库与网站中的每个文本文件的文字进行匹配；

数目统计模块，用于统计每个文本文件中不良关键字匹配个数和总次数；

文本计数模块，用于当文本文件中的不良关键字匹配个数和次数均达到阈值时，将该文本文件标记为疑似不良文本，统计网站中的疑似不良文本的数目。

其中，所述第二统计单元包括：

图片参数提取模块，用于提取网站中每张图片的肤色、纹理和姿态参数；

图片打分模块，用于根据图片的肤色、纹理和姿态参数对图片进行不良疑似度打分；

图片计数模块，用于当图片的分数在预设范围内时，将该图片标记为疑似不良图片，统计网站中的疑似不良图片数目。

其中，所述第三统计单元包括：

关键帧抽取模块，用于从网站的每个视频中抽取关键帧；

帧参数提取模块，用于提取每个关键帧的肤色、纹理和姿态参数；

关键帧打分模块，用于根据关键帧的肤色、纹理和姿态参数对关键帧进行不良疑似度打分；

关键帧标记模块，用于当关键帧的分数在预设范围内时，将该关键帧标记为疑似不良帧；

视频计数模块，用于当视频的疑似不良帧占视频关键帧的比例达到预设的阈值时，将该视频标记为疑似不良视频，统计网站疑似不良视频的数目。

其中，所述似然度计算单元具体用于：

S＝α×Z₁×S₁+β×Z₂×S₂+γ×Z₃×S₃

本发明的有益效果为：本发明对网站的文本、图片和视频内容进行分析，通过各种内容的疑似不良数目判断网站的不良似然度，判断过程快速准确，提供了对网络环境的全面检测。

附图说明

图1是本发明一种网站不良似然度获取方法的第一实施例流程图；

图2是本发明一种网站不良似然度获取方法的第二实施例流程图；

图3是本发明一种网站不良似然度获取方法的对十个网站获取的不良似然度统计图；

图4是本发明一种网站不良似然度获取装置的结构方框图；

图5是本发明一种网站不良似然度获取装置的第一统计单元的结构方框图；

图6是本发明一种网站不良似然度获取装置的第二统计单元的结构方框图；

图7是本发明一种网站不良似然度获取装置的第三统计单元的结构方框图。

具体实施方式

下面结合图1至图7并通过具体实施方式来进一步说明本发明的技术方案。

图1是本发明一种网站不良似然度获取方法的第一实施例流程图，如图所示，该方法包括：

步骤110：统计网站疑似不良文本的数目；

步骤120：统计网站疑似不良图片的数目；

步骤130：统计网站疑似不良视频的数目；

上述三个步骤的执行过程并无特定的先后顺序，可同时统计，可交错统计，亦可按上述步骤描述的先后顺序依次统计。步骤140：根据疑似不良文本的数目、疑似不良图片的数目和疑似不良视频的数目获取网站的不良似然度。

本发明对网站的文本、图片和视频内容进行分析，通过各种内容的疑似不良数目判断网站的不良似然度，判断过程快速准确，提供了对网络环境的全面检测。

图2是本发明一种网站不良似然度获取方法的第二实施例流程图，如图所示，该方法包括：

步骤201：用预设的不良关键字字库与网站中的每个文本文件的文字进行匹配。

步骤202：统计每个文本文件中不良关键字匹配个数和次数。

步骤203：当文本文件中的不良关键字匹配个数和次数均达到阈值时，将该文本文件标记为疑似不良文本，统计网站中的疑似不良文本的数目。

步骤204：提取网站中每张图片的肤色、纹理和姿态参数。

步骤205：根据图片的肤色、纹理和姿态参数对图片进行不良疑似度打分。

步骤206：当图片的分数在预设范围内时，将该图片标记为疑似不良图片，统计网站中的疑似不良图片数目。

步骤207：从网站的每个视频中抽取关键帧。

步骤208：提取每个关键帧的肤色、纹理和姿态参数。

步骤209：根据关键帧的肤色、纹理和姿态参数对关键帧进行不良疑似度打分。

步骤210：当关键帧的分数在预设范围内时，将该关键帧标记为疑似不良帧。

步骤211：当视频的疑似不良帧占视频关键帧的比例达到预设的阈值时，将该视频标记为疑似不良视频，统计网站疑似不良视频的数目。

步骤212：根据疑似不良文本、疑似不良图片和疑似不良视频的数目、预设的权重、预设的置信度获取网站的不良似然度；所述不良似然度的获取方法为：

S＝α×Z₁×S₁+β×Z₂×S₂+γ×Z₃×S₃

为了进一步对本实施例进行说明，就实际的网站不良似然度获取过程中进行详细阐述。文本的权重设置为0.6，文本的置信度设置为0.6，文本文件中的不良关键字匹配中标个数和次数地阈值分别为3个和5次；图片的权重设置为0.2，图片的置信度设置为0.25；视频的权重设置为0.2，视频的置信度设置为0.6，视频的疑似不良帧占视频关键帧的比例的阈值为0.35。根据不良似然度的获取方法：S＝α×Z₁×S₁+β×Z₂×S₂+γ×Z₃×S₃，疑似不良内容越多，网站的不良似然度越高，如图3所示是对10个网站进行统计分析后得到的不良似然度的统计图。从图3中可以看出，编号为1的网站的不良似然度最高，为626.21，相对应的，其为不良信息网站的可能性最高，需要对其进行重点监测，如果监测结果显示其确实为不良信息网站，则依法进行后续处理，以维护网络环境的健康安全。

图4是本发明一种网站不良似然度获取装置400的结构方框图，如图所示，该装置包括：

第一统计单元410，用于统计网站疑似不良文本的数目；

第二统计单元420，用于统计网站疑似不良图片的数目；

第三统计单元430，用于统计网站疑似不良视频的数目；

似然度计算单元440，用于根据疑似不良文本的数目、疑似不良图片的数目和疑似不良视频的数目获取网站的不良似然度。

进一步地，如图5所示，所述第一统计单元410包括：

关键字匹配模块411，用于用预设的不良关键字字库与网站中的每个文本文件的文字进行匹配；

数目统计模块412，用于统计每个文本文件中不良关键字匹配个数和次数；

文本计数模块413，用于当文本文件中的不良关键字匹配个数和次数均达到阈值时，将该文本文件标记为疑似不良文本，统计网站中的疑似不良文本的数目。

进一步地，如图6所示，所述第二统计单元420包括：

图片参数提取模块421，用于提取网站中每张图片的肤色、纹理和姿态参数；

图片打分模块422，用于根据图片的肤色、纹理和姿态参数对图片进行不良疑似度打分；

图片计数模块423，用于当图片的分数在预设范围内时，将该图片标记为疑似不良图片，统计网站中的疑似不良图片数目。

进一步地，如图7所示，所述第三统计单元430包括：

关键帧抽取模块431，用于从网站的每个视频中抽取关键帧；

帧参数提取模块432，用于提取每个关键帧的肤色、纹理和姿态参数；

关键帧打分模块433，用于根据关键帧的肤色、纹理和姿态参数对关键帧进行不良疑似度打分；

关键帧标记模块434，用于当关键帧的分数在预设范围内时，将该关键帧标记为疑似不良帧；

视频计数模块435，用于当视频的疑似不良帧占视频关键帧的比例达到预设的阈值时，将该视频标记为疑似不良视频，统计网站疑似不良视频的数目。

具体地，所述似然度计算单元用于：

根据疑似不良文本、疑似不良图片和疑似不良视频的数目、预设的权重、预设的置信度获取网站的不良似然度；所述不良似然度的获取方法为：

S＝α×Z₁×S₁+β×Z₂×S₂+γ×Z₃×S₃

通过上述单元和模块的配合工作，对网站的文本、图片和视频内容进行分析，通过各种内容的疑似不良数目判断网站的不良似然度，判断过程快速准确，提供了对网络环境的全面检测。

以上结合具体实施例描述了本发明的技术原理。这些描述只是为了解释本发明的原理，而不能以任何方式解释为对本发明保护范围的限制。基于此处的解释，本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式，这些方式都将落入本发明的保护范围之内。

Claims

1.一种网站不良似然度获取方法，其特征在于，包括：

统计网站疑似不良文本的数目；

统计网站疑似不良图片的数目；

统计网站疑似不良视频的数目；

2.根据权利要求1所述的一种网站不良似然度获取方法，其特征在于，所述统计网站疑似不良文本的数目，包括：

统计每个文本文件中不良关键字匹配个数和总次数；

3.根据权利要求1所述的一种网站不良似然度获取方法，其特征在于，所述统计网站疑似不良图片的数目，包括：

提取网站中每张图片的肤色、纹理和姿态参数；

4.根据权利要求1所述的一种网站不良似然度获取方法，其特征在于，所述统计网站疑似不良视频的数目，包括：

从网站的每个视频中抽取关键帧；

提取每个关键帧的肤色、纹理和姿态参数；

5.根据权利要求1所述的一种网站不良似然度获取方法，其特征在于，所述根据疑似不良文本的数目、疑似不良图片的数目和疑似不良视频的数目获取网站的不良似然度，具体为：

S＝α×Z₁×S₁+β×Z₂×S₂+γ×Z₃×S₃

6.一种网站不良似然度获取装置，其特征在于，包括：

第一统计单元，用于统计网站疑似不良文本的数目；

第二统计单元，用于统计网站疑似不良图片的数目；

第三统计单元，用于统计网站疑似不良视频的数目；

7.根据权利要求6所述的一种网站不良似然度获取装置，其特征在于，所述第一统计单元包括：

8.根据权利要求6所述的一种网站不良似然度获取装置，其特征在于，所述第二统计单元包括：

9.根据权利要求6所述的一种网站不良似然度获取装置，其特征在于，所述第三统计单元包括：

关键帧抽取模块，用于从网站的每个视频中抽取关键帧；

10.根据权利要求6所述的一种网站不良似然度获取装置，其特征在于，所述似然度计算单元具体用于：

S＝α×Z₁×S₁+β×Z₂×S₂+γ×Z₃×S₃