CN110019892A

CN110019892A - 一种基于用户id识别有害图片的方法及其系统

Info

Publication number: CN110019892A
Application number: CN201711499887.3A
Authority: CN
Inventors: 蔡昭权; 胡松; 胡辉; 蔡映雪; 陈伽; 黄翰; 梁椅辉; 罗伟; 黄思博
Original assignee: Huizhou University
Current assignee: Huizhou University
Priority date: 2017-12-30
Filing date: 2017-12-30
Publication date: 2019-07-16
Anticipated expiration: 2037-12-30
Also published as: CN110019892B; WO2019127660A1

Abstract

一种识别有害图片的方法及其系统，其方法包括：当判断出网页的页面元素包括图片的URL路径时，识别所述网页的页面内容中记载的用户ID，依据图片的URL路径获取所述URL中包含的域名或所述URL指向的IP地址，并且基于所述用户ID、IP地址和域名的相关查询输出第一权重因子、第二权重因子；并且，进一步获取所述图片，并在图片的压缩域中提取直流系数，以便对图片进行部分解压后识别所述图片，并根据识别图片的结果输出第三权重因子；综合第一权重因子和第二权重因子以及第三权重因子，对所述图片是否属于有害图片进行识别。本公开能够结合大数据所打造的数据库，用尽量少的图像处理手段，利用多种模式提供一种识别有害图片的方案。

Description

一种基于用户ID识别有害图片的方法及其系统

技术领域

本公开属于信息安全领域，例如涉及一种识别有害图片的方法及其系统。

背景技术

在信息社会，到处充斥信息流，包括但不限于文本、视频、音频、图片等。其中，与视频相比，图片文件既包括一定的视觉信息又对存储空间和带宽要求相对较低，随着移动互联网的普及，网络上充斥大量有害图片内容，由于视觉直观性、冲击性等特点，其危害性更加甚于有害文本和有害音频等，因此对这些有害图片进行识别，进而进行过滤、删除、消除危害，是十分必要的。

对于网络有害图片的识别，现在的技术主要有可以分为两大类，一种是传统方法，主要通过各种分类器。另一种是深度学习的方法，特别是卷积神经网络的应用。然而以上两类方法在在识别效率上都有所不足。

在大数据和人工智能发展的情形下，如何高效的识别有害图片，就成为一个需要考虑的问题。

发明内容

本公开提供了一种识别有害图片的方法，包括：

步骤a),当判断出网页的页面元素包括图片的URL路径时，识别所述网页的页面内容中记载的用户ID，在第一数据库中查询是否存在所述ID，并根据ID的查询结果输出第一权重因子；

步骤b)，依据图片的URL路径获取所述URL中包含的域名或所述URL指向的IP地址，基于所述URL中包含的域名，在第二数据库中进行whois查询，和/或基于所述URL指向的IP地址，在第二数据库中查询是否存在所述URL中包含的IP地址或同一网段IP地址，并根据whois查询结果和/或IP地址的查询结果，输出与图片的URL路径相关的第二权重因子；

步骤c)，根据所述图片的URL路径获取所述图片，并在图片的压缩域中提取直流系数，以便对图片进行部分解压后识别所述图片，并根据识别图片的结果输出第三权重因子；

步骤d)，综合第一权重因子和第二权重因子以及第三权重因子，对所述图片是否属于有害图片进行识别。

此外，本公开还揭示了一种识别有害图片的系统，包括：

第一权重因子生成模块,用于：当判断出网页的页面元素包括图片的URL路径时，识别所述网页的页面内容中记载的用户ID，在第一数据库中查询是否存在所述ID，并根据ID的查询结果输出第一权重因子；

第二权重因子生成模块，用于：依据图片的URL路径获取所述 URL中包含的域名或所述URL指向的IP地址，基于所述URL中包含的域名，在第二数据库中进行whois查询，和/或基于所述URL指向的IP地址，在第二数据库中查询是否存在所述URL中包含的IP地址或同一网段IP地址，并根据whois查询结果和/或IP地址的查询结果，输出与图片的URL路径相关的第二权重因子；

第三权重因子生成模块，用于：根据所述图片的URL路径获取所述图片，并在图片的压缩域中提取直流系数，以便对图片进行部分解压后识别所述图片，并根据识别图片的结果输出第三权重因子；

识别模块，用于综合第一权重因子和第二权重因子以及第三权重因子，对所述图片是否属于有害图片进行识别。

通过所述方法及其系统，本公开能够结合大数据所打造的数据库，用尽量少的图像处理手段，提供一种较为高效的识别有害图片的方案。

附图说明

图1是本公开中一个实施例所述方法的示意图；

图2是本公开中一个实施例所述系统的示意图。

具体实施方式

为了使本领域技术人员理解本公开所披露的技术方案，下面将结合实施例及有关附图，对各个实施例的技术方案进行描述，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。本公开所采用的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，“包括”和“具有”以及它们的任何变形，意图在于覆盖且不排他的包含。例如包含了一系列步骤或单元的过程、或方法、或系统、或产品或设备没有限定于已列出的步骤或单元，而是可选的还包括没有列出的步骤或单元，或可选的还包括对于这些过程、方法、系统、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本公开的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其他实施例互斥的独立的或备选的实施例。本领域技术人员可以理解的是，本文所描述的实施例可以与其他实施例相结合。

参见图1，图1是本公开中一个实施例提供的一种识别有害图片的方法的流程示意图。如图所示，所述方法包括：

步骤S100,当判断出网页的页面元素包括图片的URL路径时，识别所述网页的页面内容中记载的用户ID，在第一数据库中查询是否存在所述ID，并根据ID的查询结果输出第一权重因子；

能够理解，第一数据库维护已知的、发布过有害图片的用户ID 清单。

这是因为，有害图片一般会形成一些粘性用户，这些用户有一部分会参与传播有害图片且大部分的ID是相对固定，甚至相当部分用户的ID在不同的网站或论坛都是相同的ID。

例如，识别到的用户ID叫“tudou”的情形下：

如果第一数据库中记载有名为“tudou”的用户ID，那么第一权重因子可以示例性为1.0；

如果数据库中记载的ID有“tudou1”、“tudou2”、“tudou*”、或者近似的ID，那么“tudou”则被轻度怀疑为相同用户的备用ID，第一权重因子可以示例性为0.3；

如果数据库中记载ID没有“tudou”或相近似的ID，那么第一权重因子可以示例性为0；

步骤S200，依据图片的URL路径获取所述URL中包含的域名或所述URL指向的IP地址，基于所述URL中包含的域名，在第二数据库中进行whois查询，和/或基于所述URL指向的IP地址，在第二数据库中查询是否存在所述URL中包含的IP地址或同一网段IP地址，并根据whois查询结果和/或IP地址的查询结果，输出与图片的URL 路径相关的第二权重因子；

能够理解，第二数据库维护已知的、发布过有害图片的域名清单和/或已知的发布有害图片的网站的IP地址、IP地址段清单。

Whois查询是为了考察域名注册人与有害图片的关联情况。第二数据库可以维护如下信息：域名、互联网上大量发布有害图片的域名注册人的信息以及对应的有害图片的标识。

例如，域名是www.a.com的情形下：

如果第二数据库中记载有该域名地址、相应有害图片的标识及其 whois信息，那么第二权重因子可以示例性为1.0；

如果第二数据库中没有记载上述域名www.a.com的任何有害图片的标识，但是能够查询到该域名的域名注册人，以及该域名的域名注册人注册的其他网站的域名，且第二数据库包括所述其他网站在互联网上大量发布有害图片的标识，那么即使第二数据库中没有记载上述域名www.a.com的任何有害图片的标识，www.a.com该域名对应的网站依然被高度怀疑为有害图片的来源，所述第二权重因子可以示例性为0.9；

如果第二数据库中没有记载上述域名www.a.com的任何有害图片的标识，但是能够查询到该域名的域名注册人，以及该域名的域名注册人注册的其他网站的域名，然而第二数据库并不包括任何关于所述其他网站发布有害图片的标识，所述第二权重因子可以示例性为0；

容易理解，如果第二数据库中没有记载上述域名www.a.com的任何有害图片的标识，也查询不到该域名的域名注册人注册的其他网站的域名，那么所述第二权重因子也可以示例性为0。

示例性的，还可以依据图片的URL路径获取所述URL指向的IP 地址，进行IP地址/IP地址段查询，来输出第二权重因子，

例如，IP地址是192.168.10.3的情形下：

如果第二数据库中记载有该IP地址，那么第二权重因子可以示例性为1.0；

如果第二数据库中记载的IP地址只有192.168.10.4，那么 192.168.10.3则被轻度怀疑为该图片所属网站的备用地址或者新近更换的地址，第二权重因子可以示例性为0.6；

如果第二数据库中记载的IP地址有192.168.10.4以及 192.168.10.5，甚至记载了192.168.10.X网段的所有IP地址，那么 192.168.10.3则被高度怀疑为该图片所属网站的备用地址或者新近更换的地址，第二权重因子可以示例性为0.9；

如果数据库中记载的IP地址中包括多个192.168.X.X网段，而没有192.168.10.X网段，那么192.168.10.3则被谨慎怀疑为有害图片所属网站的地址，第二权重因子可以示例性为0.4。

特别的，上述步骤还存在综合考虑IP清单和域名清单的情形，即通过图片URL的IP查询和域名whois查询来共同确定第二权重因子的情形。

假设图片URL的IP查询因子为i，域名whois查询因子为j，第二权重因子为y，其中0≤i≤1，0≤j≤1，0≤y≤1，可以根据如下公式确定第二权重因子：

y＝m×i+n×j，其中，m+n＝1，m、n则分别表示IP查询因子和域名whois查询因子的权重。

例如，m＝n＝1/2；

更例如，m、n不相等，具体可以根据各个查询因子的权重以及确定第二权重因子的实际情况而调整。

能够理解，y越接近1，第二权重因子就越重，相关图片属于有害图片的几率越大。

以上计算y的公式属于线性公式，然而实际应用时，也可能采用非线性公式。

进一步的，无论是线性公式还是非线性公式，均可以考虑通过训练或拟合来确定相关公式及其参数。

步骤S300，根据所述图片的URL路径获取所述图片，并在图片的压缩域中提取直流系数，以便对图片进行部分解压后识别所述图片，并根据识别图片的结果输出第三权重因子；

该步骤S300是通过图片的识别结果来输出第三权重因子。如果检测到常规有害图片或其他不健康内容等，则第三权重因子会有所体现。能够理解，常规有害图片或其他不健康内容出现的次数满足相应的阈值条件时，第三权重因子可能是1.0，也可能是0.8或0.4，视具体阈值条件而定。

另外，需要强调的是，为了降低本实施例所需的计算资源和时间成本，对图片进行识别时，是先从图片的压缩域中提取直流系数，以便对图片进行部分解压即可用于图像识别。由于发明人利用：图像信息的大部分集中于直流系数及其附近的低频频谱这一特性，所以通过直流系数可以对图片进行部分解压，利用部分解压的图像信息来进行图像识别，而不利用完整的图片中的所有信息，从而降低了工作量。典型的，符合JPEG编码标准的图片文件均可以这样处理。

能够理解，本领域中对图片的有害信息识别的技术手段都能够用于本公开所述的图片。所述步骤S300，既可以结合传统的方法进行图像的处理，也可以使用结合深度学习模型进行图像的处理，进而对有害图片进行识别。

更特别的，在一种情形下，所述步骤S300中对图片进行部分解压后识别所述图片，具体包括：

对图片进行部分解压后，将所述图片与第三方图像数据库中维护的、已知有害的图片进行特征比较，以便识别所述图片，且当识别为有害时，进一步将所述图片更新到所述第三方图像数据库；其中，所述第三方图像数据库中通过爬行已知有害网站的图片而预先建立。

步骤S400，综合第一权重因子和第二权重因子以及第三权重因子，对所述图片是否属于有害图片进行识别。

示例性的，设第一权重因子为x，第二权重因子为y，第三权重因子为z，其中0≤x≤1，0≤y≤1，0≤z≤1，可以根据如下公式综合上述权重因子计算图片的有害系数W：

W＝a×x+b×y+c×z，其中，a+b+c＝1，a、b、c则分别表示各个权重因子的权重。

例如，a＝b＝c＝1/3；

更例如，a、b、c不相等，具体可以根据各个权重因子以及识别有害内容的实际情况而调整。

能够理解，W越接近1，相关图片属于有害图片的几率越大。

以上计算W的公式属于线性公式，然而实际应用时，也可能采用非线性公式。

综上，对于上述实施例，仅仅步骤S300进行了图像处理，而其余步骤则是另辟蹊径，利用了相关查询、获得相关的权重因子。步骤 S400则综合(也可称为融合)多个权重因子进行有害图片的识别。本领域技术人员均知晓，具体的图像处理、识别相对消耗时间成本，而查询则相对而言更加节省时间成本。显而易见，上述实施例提出了一种富有效率的识别有害图片的方法。另外，上述实施例显然能够进一步结合大数据和/或人工智能来建立、更新所述第一数据库、第二数据库以及其他数据库。

在另一个实施例中，所述第二数据库为第三方数据库。

例如，进行whois查询的众多网站、以及第三方维护的有害图片的网站列表方面的数据库、或者记录了有害图片的网站的IP地址、 IP地址段列表方面的数据库。

在另一个实施例中，对于识别为有害图片的网址(例如论坛或网页)，收集所述网址上记载的所述有害图片的发表者的IP地址信息并更新第一数据库。这是因为，有害图片一般会形成一些粘性用户，这些用户有一部分会参与传播有害图片且大部分的IP地址是相对固定，如果相关网址自身记载了所述有害图片的发表者的IP地址信息，本公开则通过收集其IP地址信息来更新前述第一数据库。

在另一个实施例中，步骤S200还包括：

进一步的，在第三方域名安全列表中查询所述域名的安全性以便输出安全因子，并通过所述安全因子对所述与域名相关的第二权重因子进行修正。

例如virustotal.com这一第三方域名安全筛查网站。能够理解，如果第三方信息中认为相关域名包含病毒或木马，则应当提高第二权重因子，根源在于相关网站更加不安全。

能够理解，所述实施例是侧重于从网络安全角度修正第二权重因子，防止用户遭受其他损失。这是因为，网络安全事关用户的隐私和财产权，如果有害图片的相关网站存在网络安全隐患，那么除了有害图片的危害之外还对用户带来隐私泄露或财产损失的危害。

在另一个实施例中，步骤S300还包括如下：

步骤c1)：在所述网页中爬行音频；

步骤c2)：识别音频中是否包括有害内容，如果有，则修正第三权重因子。

对于该实施例而言，如果识别到音频中包括所述有害内容，这说明相关网站具备威胁性，则修正第三权重因子，例如增大第三权重因子。

如前文所述，如果结合大数据技术，本公开能够富有成效的结合多个维度、多种模式，结合IP信息、域名信息、图像信息、音频信息来快速的识别有害图片。

更进一步的，上述实施例可以在路由器一侧、或者网络提供商一侧实施，提前过滤相关图片。

与方法相对应的，参见图2，本公开在另一个实施例中揭示了一种识别有害图片的系统，包括：

与前文各个方法的实施例所类似的，

优选的，所述第二数据库为第三方数据库。

更优选的，第二权重因子生成模块还包括：

修正单元，用于：进一步的，在第三方域名安全列表中查询所述域名的安全性以便输出安全因子，并通过所述安全因子对所述与域名相关的第二权重因子进行修正。

更优选的，所述第三权重因子生成模块，还用于：对图片进行部分解压后，将所述图片与第三方图像数据库中维护的、已知有害的图片进行特征比较，以便识别所述图片，且当识别为有害时，进一步将所述图片更新到所述第三方图像数据库；其中，所述第三方图像数据库中通过爬行已知有害网站的图片而预先建立。

更优选的，所述第三权重因子生成模块中还通过如下单元修正第三权重因子：

音频爬行单元，用于在所述网页中爬行音频；

音频识别单元，用于识别音频中是否包括有害内容，如果有，则修正第三权重因子。

本公开在另一个实施例中揭示了一种识别有害图片的系统，包括：

处理器及存储器，所述存储器中存储有可执行指令，所述处理器执行这些指令以执行以下操作：

本公开在另一个实施例中还揭示了一种计算机存储介质，存储有可执行指令，所述指令用于执行如下识别有害图片的方法：

对于上述系统，其可以包括：至少一个处理器(例如CPU)，至少一个传感器(例如加速度计、陀螺仪、GPS模块或其他定位模块)，至少一个存储器，至少一个通信总线，其中，通信总线用于实现各个组件之间的连接通信。所述设备还可以包括至少一个接收器，至少一个发送器，其中，接收器和发送器可以是有线发送端口，也可以是无线设备(例如包括天线装置)，用于与其他节点设备进行信令或数据的传输。所述存储器可以是高速RAM存储器，也可以是非不稳定的存储器(Non-volatile memory)，例如至少一个磁盘存储器。存储器可选的可以是至少一个位于远离前述处理器的存储装置。存储器中存储一组程序代码，且所述处理器可通过通信总线，调用存储器中存储的代码以执行相关的功能。

本公开的实施例还提供一种计算机存储介质，其中，该计算机存储介质可存储程序，该程序执行时包括上述方法实施例中记载的任何一种识别有害图片的方法的部分或全部步骤。

本公开的实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本公开的实施例系统中的模块和单元可以根据实际需要进行合并、划分和删减。需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作、模块、单元并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本公开所提供的几个实施例中，应该理解到，所揭露的系统，可通过其它的方式实现。例如，以上所描述的实施例仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，各单元或组件相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，既可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，本公开的各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为智能手机、个人数字助理、可穿戴设备、笔记本电脑、平板电脑)执行本公开的各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(R0M，Read-0nly Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开的各实施例技术方案的范围。

Claims

1.一种识别有害图片的方法，包括：

步骤a)，当判断出网页的页面元素包括图片的URL路径时，识别所述网页的页面内容中记载的用户ID，在第一数据库中查询是否存在所述ID，并根据ID的查询结果输出第一权重因子；

2.根据权利要求1所述的方法，其中，优选的，所述第二数据库为第三方数据库。

3.根据权利要求1所述的方法，其中，步骤b)还包括：

进一步的，在第三方域名安全列表中查询所述域名的安全性以便输出安全因子，并通过所述安全因子对所述第二权重因子进行修正。

4.根据权利要求1所述的方法，其中，步骤c)中对图片进行部分解压后识别所述图片，具体包括：

5.根据权利要求1所述的方法，其中，步骤c)还包括如下：

步骤c1)：在所述网页中爬行音频；

6.一种识别有害图片的系统，包括：

第一权重因子生成模块，用于：当判断出网页的页面元素包括图片的URL路径时，识别所述网页的页面内容中记载的用户ID，在第一数据库中查询是否存在所述ID，并根据ID的查询结果输出第一权重因子；

第二权重因子生成模块，用于：依据图片的URL路径获取所述URL中包含的域名或所述URL指向的IP地址，基于所述URL中包含的域名，在第二数据库中进行whois查询，和/或基于所述URL指向的IP地址，在第二数据库中查询是否存在所述URL中包含的IP地址或同一网段IP地址，并根据whois查询结果和/或IP地址的查询结果，输出与图片的URL路径相关的第二权重因子；

7.根据权利要求6所述的系统，其中，优选的，所述第二数据库为第三方数据库。

8.根据权利要求6所述的系统，其中，第二权重因子生成模块还包括：

修正单元，用于：进一步的，在第三方域名安全列表中查询所述域名的安全性以便输出安全因子，并通过所述安全因子对所述第二权重因子进行修正。

9.根据权利要求6所述的系统，其中，所述第三权重因子生成模块，还用于：对图片进行部分解压后，将所述图片与第三方图像数据库中维护的、已知有害的图片进行特征比较，以便识别所述图片，且当识别为有害时，进一步将所述图片更新到所述第三方图像数据库；其中，所述第三方图像数据库中通过爬行已知有害网站的图片而预先建立。

10.根据权利要求6所述的系统，其中，所述第三权重因子生成模块中还通过如下单元修正第三权重因子：

音频爬行单元，用于在所述网页中爬行音频；