CN112990792A - 一种侵权风险自动化检测方法、装置和电子设备 - Google Patents

一种侵权风险自动化检测方法、装置和电子设备 Download PDF

Info

Publication number
CN112990792A
CN112990792A CN202110508305.3A CN202110508305A CN112990792A CN 112990792 A CN112990792 A CN 112990792A CN 202110508305 A CN202110508305 A CN 202110508305A CN 112990792 A CN112990792 A CN 112990792A
Authority
CN
China
Prior art keywords
risk
infringement
value
image
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110508305.3A
Other languages
English (en)
Other versions
CN112990792B (zh
Inventor
董龙飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianji Youmeng (Zhuhai) Technology Co.,Ltd.
Original Assignee
Beijing Zhiyuan Artificial Intelligence Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhiyuan Artificial Intelligence Research Institute filed Critical Beijing Zhiyuan Artificial Intelligence Research Institute
Priority to CN202110508305.3A priority Critical patent/CN112990792B/zh
Publication of CN112990792A publication Critical patent/CN112990792A/zh
Application granted granted Critical
Publication of CN112990792B publication Critical patent/CN112990792B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种侵权风险自动化检测方法,包括:采集多个类型的风险数据;基于所采集的多个类型风险数据分别进行侵权风险计算,得到多个风险值;以及利用侵权风险等级评定算法,基于多个风险值计算得到侵权风险等级。还公开了相应的装置、电子设备及计算机可读存储介质,检测方法高度自动化,对存在逃逸现象的侵权风险有较高的检出率;整个侵权风险等级评定方法具有高度可解释性。同时,图上的微粒度侵权实例检索模块中,通过候选区域识别和图搜图的向量检索方式结合实现目标检测的功能,使得该模块可以在不更新候选区域识别模型的情况下可以适配识别海量品牌LOGO的业务需求;通过加入扰动因子和权重系数,提高了评定方法的鲁棒性和精确性。

Description

一种侵权风险自动化检测方法、装置和电子设备
技术领域
本发明涉及信息处理技术领域,尤其涉及一种侵权风险自动化检测方法、装置和电子设备。
背景技术
企业品牌保护是企业发展核心战略之一,原因在于企业品牌形象的非授权冒用和滥用会严重损害企业形象进而导致不可估量的经济损失。因此在品牌建设发展的过程中,各个企业通过严厉打击假冒,侵权等行为对商标,知识产权成果进行保护来预防和化解危机以保护品牌权益不受侵犯。
构建侵权风险自动化检测方法,对企业数字风险防护具有重要的现实意义,可以缩短发现风险到处置风险的时长,降低侵权风险可能带来的经济损失。
然而目前还没有一套高效且检测精度较高的侵权风险自动化检测方法、装置和电子设备,发现风险的过程具有随机性,对于企业的防护不够全面和完整,检测具有随机性,自动化程度不高。
发明内容
为了解决现有技术中存在的问题,本发明提供了如下技术方案。
本发明一方面提供了一种侵权风险自动化检测方法,包括:
采集多个类型的风险数据;
基于所采集的多个类型风险数据分别进行侵权风险计算,得到多个风险值;以及
利用侵权风险等级评定算法,基于所述多个风险值计算得到侵权风险等级。
进一步地,所述风险数据包括:网页的页面截图信息、网页内的图片信息和/或通过采集所述网页的源代码和结构化信息获得的所述风险数据的上下文信息,其中所述网页的页面截图信息和所述网页内的图片信息为图像类数据。
进一步地,所述结构化信息包括域名。
进一步地,所述基于所采集的风险数据进行侵权风险计算,包括域名相似度计算、页面相似度计算、登录组件检测、PassiveDNS信息查询、对抗攻击图像检测和图上微粒度实例检索中的一种或多种,其中:
所述域名相似度计算包括通过向量检索计算所述网页的所述域名和品牌基础信息库中的域名的相似度数值作为第一风险值,若所述第一风险值等于或大于第一阈值,且二者不存在关联关系,则存在疑似侵权风险,若所述第一风险值小于第一阈值或二者存在关联关系,则不存在疑似侵权风险,通过所述网页的所述域名和所述品牌基础数据库中的域名信息确定所述域名相似度计算中的所述关联关系;
所述页面相似度计算包括通过向量检索计算所述网页的所述页面截图信息和品牌基础信息库中品牌图像信息的相似度数值作为第二风险值,若所述第二风险值大于或等于第二阈值,且二者不存在关联关系,则存在疑似侵权风险,若所述第二风险值小于第二阈值或二者存在关联关系,则不存在疑似侵权风险,通过所述网页的所述页面截图信息和所述品牌基础数据库中的图像信息确定所述页面相似度计算中的所述关联关系;
所述登录组件检测包括通过所述网页的源代码检测所述网页中是否包含登录组件,若所述第二风险值大于或等于第二阈值,所述网页的所述页面截图与所述品牌基础信息库中品牌图像信息不存在关联关系并且所述网页包含登陆组件,则存在疑似侵权风险并进入钓鱼仿冒检测流程,若不包含登录组件,则不存在疑似侵权风险;
所述PassiveDNS信息查询包括对于DNS首次解析时间距今的时间间隔小于第一预定值的网站查询对应域名的PassiveDNS信息,将域名的首次解析时间与当前时间进行比对获得时间跨度,对于不同的所述时间跨度赋予不同等级的疑似风险值;
所述对抗攻击图像检测包括检测所述图像类数据是否为对抗攻击图像,如果是则存在疑似侵权风险,否则无风险;同时基于Pixel Denoising将所述图像类数据去噪后,通过向量检索计算所述图像类数据和品牌基础信息库中的品牌关联图像的相似度数值作为第三风险值,若所述第三风险值大于或等于第三阈值,且二者不存在关联关系,则存在疑似侵权风险,若所述第三风险值小于第三阈值或二者存在关联关系,则不存在疑似侵权风险,通过所述图像类数据和所述品牌基础数据库中的品牌关联图像的比较确定所述对抗攻击图像检测中的所述关联关系;以及
所述图上微粒度实例检索包括构建优化后的pipeline图上微粒度实例检索模型,将可疑网站的截图经过处理后输入所述模型中获得经过处理后由网页截图分割出的侵权实体图像,通过向量检索计算所述处理后的所述侵权实体图像和所述品牌基础信息库中的所述品牌图像信息的相似度数值作为第四风险值,若所述第四风险值大于或等于第四阈值,且二者不存在关联关系,则存在疑似侵权风险,若所述第四风险值小于第四阈值或二者存在关联关系,则不存在疑似侵权风险,通过所述处理后的所述侵权实体图像和所述品牌基础信息库中的所述品牌图像信息的比较确定所述图上微粒度实例检测中的所述关联关系。
进一步地,所述图上微粒度实例检索包括:
图像分割预处理,包括输入可疑网站的截图,将所述截图切分为顶部、尾部和中下部;
识别候选区域,包括基于神经网络模型识别候选区域并基于所述向量检索进行所述候选区域的图像分类;
将所述候选区域的识别与所述候选区域的图像分类进行组合,形成优化后的所述图上微粒度实例检索的模型;
裁剪和修饰所述候选区域,将基于所述神经网络模型标注的框内图片进行剪切,将剪切后的所述图片缩放成标准大小;
比对图像相似性,通过向量检索计算所述处理后的所述侵权实体图像和所述品牌基础信息库中的所述品牌图像信息的相似度数值作为第四风险值,若所述第四风险值大于或等于第四阈值,且二者不存在关联关系,则存在疑似侵权风险,若所述第四风险值小于第四阈值,则不存在疑似侵权风险。
进一步地,所述神经网络模型包括样本训练阶段,所述样本训练阶段采用数据增强方法提高所述神经网络模型的精度并提高样本数量,所述数据增强方法包括对所述图片随机旋转、翻转、裁剪,随机设置所述图片的亮度和对比度以及对所述图片进行数据标准化设置。
进一步地,所述侵权风险等级评定算法如下所示:
Figure 422660DEST_PATH_IMAGE001
侵权风险等级分为10个等级,1表示最高风险等级,10表示最低的风险等级,其中
Figure 632056DEST_PATH_IMAGE002
表示第
Figure 302071DEST_PATH_IMAGE003
个影响因素对应的风险值,
Figure 541292DEST_PATH_IMAGE004
表示第
Figure 525428DEST_PATH_IMAGE005
个因素在侵权风险等级评定体系中的权重,通过层次分析法得出,
Figure 41860DEST_PATH_IMAGE006
为增加评定方法稳定性的扰动因子,
Figure 882777DEST_PATH_IMAGE007
为所述扰动因子对应的权重,影响因素的权重。
本发明的第二方面,提供一种侵权风险自动化检测装置,包括:
采集模块,用于采集风险数据;
计算模块,用于基于所采集的风险数据进行侵权风险计算;以及
评定模块,用于基于侵权风险等级评定算法评定侵权风险等级。
本发明的第三方面提供一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如第一方面所述的方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如第一方面所述的方法。
本发明提供侵权风险自动化检测方法、装置和电子设备,包含风险信息采集部分,侵权风险计算部分和侵权风险等级评定部分,具有如下有益效果:
1)检测方法高度自动化,对存在逃逸现象的侵权风险有较高的检出率。
2)侵权风险计算模块的检测结果作为侵权风险等级评定的影响因素,使得整个侵权风险等级评定方法具有高度可解释性。同时,图上的微粒度侵权实例检索模块中,通过候选区域识别和图搜图的向量检索方式结合实现目标检测的功能,使得该模块可以在不更新候选区域识别模型的情况下可以适配识别海量品牌LOGO的业务需求。
3)侵权风险等级评定方法,通过加入扰动因子和权重系数,提高了评定方法的鲁棒性和精确性。
附图说明
图1为本发明所述侵权风险自动化检测方法的优选实施例的流程图。
图2为本发明提供的侵权风险自动化检测方法对应的三个部分的流程框架图。
图3为本发明提供的图上的微粒度优选实施例检索流程示意图。
图4为本发明提供的优选实施例中苏州银行网站截图及数据增强图。其中图4(a)为原图,图4(b)为原图反转后的图像,图4(c)为原图改变亮度与对比度的图像,图4(d)为原图进行缩放和对比度调节后的图片。
图5为本发明提供的侵权风险自动化检测装置的优选实施例的结构示意图。
图6为本发明提供的电子设备一种实施例的结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。存储器可用于存储指令、程序、代码、代码集或指令。
显示屏用于显示各个应用程序的用户界面。
除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
实施例一
如图1所示,本发明实施例提供了一种侵权风险自动化检测方法,包括:
S101,采集多个类型的风险数据;
S102,基于所采集的多个类型风险数据分别进行侵权风险计算,得到多个风险值;以及
S103,利用侵权风险等级评定算法,基于多个风险值计算得到侵权风险等级。
如图2所示,步骤S101对应图1中的风险数据采集部分。步骤S102对应图2中的侵权风险计算部分。步骤S103对应图2中的侵权风险等级评定部分。
对于风险数据采集部分,本实施例中,风险数据包括:网页的页面截图信息、网页内的图片信息和/或通过采集网页的源代码和结构化信息获得的风险数据的上下文信息,其中网页的页面截图信息和网页内的图片信息为图像类数据。基于用户可见内容检测的思路,通过页面截图信息和网页图片地采集为多模态侵权风险计算部分提供图像类数据。为提高侵权风险计算的精度,风险数据采集部分还通过网页源代码和结构化信息地采集为侵权风险计算提供丰富的上下文数据。其中采集信息示例如下:
(1)页面截图信息采集:整个网页的截图,当网页像素长度超过一定阈值时进行截断,并返回页面像素未超过阈值的信息。
(2)网页图片信息采集:网页中的图片,标签页的icon等图像类信息。
(3)网页源代码信息采集:网页源代码,包含异步加载的js代码。
(4)结构化信息采集:域名,及待检测域名的数据来源等信息。
进一步地,基于所采集的风险数据进行侵权风险计算,包括域名相似度计算、页面相似度计算、登录组件检测、PassiveDNS信息查询、对抗攻击图像检测和图上微粒度实例检索中的一种或多种,其中:
域名相似度计算包括通过向量检索计算网页的域名和品牌基础信息库中的域名的相似度数值作为第一风险值,若第一风险值等于或大于第一阈值,且二者不存在关联关系,则存在疑似侵权风险,若第一风险值小于第一阈值或二者存在关联关系,则不存在疑似侵权风险。其中,关联关系的判定可以在计算第一风险值之前、之后或者并行地进行,所述关联关系包括网页的域名对应的机构主体和品牌基础信息库中的域名对应的机构主体之间的关联关系,例如授权关系、股权关系等;
页面相似度计算包括通过向量检索计算网页的页面截图信息和品牌基础信息库中品牌图像信息的相似度数值作为第二风险值,若第二风险值大于或等于第二阈值,且二者不存在关联关系,则存在疑似侵权风险,若第二风险值小于第二阈值或二者存在关联关系,则不存在疑似侵权风险,其中,关联关系的判定可以在计算第二风险值之前、之后或者并行地进行,所述关联关系包括网页的页面截图信息对应的机构主体和品牌基础信息库中的品牌图像信息对应的机构主体之间的关联关系,例如授权关系、股权关系等;
登录组件检测包括通过网页的源代码检测网页中是否包含登录组件,根据业务需求,若页面相似且含登录组件,则存在疑似侵权风险并进入钓鱼仿冒检测流程,若不包含登录组件,则不存在疑似侵权风险。
通过长时间的分析,发现多数恶意网站的DNS首次解析时间距今的时间间隔较短。PassiveDNS信息查询包括对于网站对应域名的DNS首次解析时间的PassiveDNS信息,将域名的首次解析时间与当前时间进行比对获得时间跨度,对于不同的时间跨度赋予不同等级的疑似风险值;本实施例中,如表1所示,将时间跨度分为四个等级,并给定不同等级的疑似风险值:
Figure 484660DEST_PATH_IMAGE008
经过长时间的侵权风险分析发现,部分存在侵权风险的页面为了逃避图像检测,使用的侵权图像为加入了噪声的对抗攻击图像。因此,若图像为对抗攻击图像则大概率存在侵权风险。同时基于Pixel Denoising将图像去噪后,通过向量检索引擎查询是否和品牌向量信息库中的品牌关联图像相似。对抗攻击图像检测包括检测图像类数据是否为对抗攻击图像,如果是则存在疑似侵权风险,否则无风险;同时基于Pixel Denoising将图像类数据去噪后,通过向量检索计算图像类数据和品牌基础信息库中的品牌关联图像的相似度数值作为第三风险值,若第三风险值大于或等于第三阈值,且二者不存在关联关系,则存在疑似侵权风险,若第三风险值小于第三阈值或二者存在关联关系,则不存在疑似侵权风险,其中,关联关系的判定可以在计算第三风险值之前、之后或者并行地进行,所述关联关系包括图像对应的机构主体和品牌基础信息库中的品牌关联图像对应的机构主体之间的关联关系,例如授权关系、股权关系等;以及
基于安全分析人员的经验,发现有部分侵权风险网页会将图像信息隐藏在源代码中,进行信息逃逸,即图像可在页面显示,但在网络交互的媒体资源中不存在。为了解决这类问题,进行图上的微粒度实例检索。图上微粒度实例检索包括构建优化后的pipeline图上微粒度实例检索模型,将可疑网站的截图经过处理后输入模型中获得经过处理后的侵权实体图像(针对本实施例,即在网页截图中经过模型计算,分割出侵权实体所在区域的图像,如网页截图中品牌logo所在的那一部分图像区域),通过向量检索计算处理后的侵权实体图像和品牌基础信息库中的品牌图像信息(如品牌LOGO等图像信息)的相似度数值作为第四风险值,若第四风险值大于或等于第四阈值,且二者不存在关联关系,则存在疑似侵权风险,若第四风险值小于第四阈值或二者存在关联关系,则不存在疑似侵权风险,其中,关联关系的判定可以在计算第四风险值之前、之后或者并行地进行,所述关联关系包括可疑网站截图对应的机构主体和品牌基础信息库中的网站截图对应的机构主体之间的关联关系,例如授权关系、股权关系等。根据业务数据分析,企业LOGO的滥用在侵权类风险中占较大比重。因此,基于YOLO v3目标检测模型实现优选区域识别,基于图像向量检索引擎实现候选区域分类,两部分组成优化后的pipeline图上微粒度实例检索模型。输入可疑网站的截图,进行图像分割预处理,然后利用YOLO v3模型对该截图进行目标检测,预测出该网站截图中的企业LOGO的位置,再将YOLO v3标注的框内图片进行剪切。将剪切后图片缩放成标准大小,通过向量检索引擎查询品牌基础信息库中是否有相似图片。若待检测图片和某品牌的关联图像相似且无关联关系,那么可以判定存在侵权行为。图上的微粒度实例检索流程如图3所示,图上微粒度实例检索包括:
图像分割预处理,包括输入可疑网站的截图,将截图切分为顶部、尾部和中下部;
识别候选区域,包括基于神经网络模型识别候选区域并基于向量检索进行候选区域的图像分类;
将候选区域的识别与候选区域的图像分类进行组合,形成优化后的图上微粒度实例检索的模型;
裁剪和修饰候选区域,将基于神经网络模型标注的框内图片进行剪切,将剪切后的图片缩放成标准大小;
比对图像相似性,通过向量检索计算处理后可疑网站截图和品牌基础信息库中的网站截图的相似度数值作为第四风险值,若第四风险值大于或等于第四阈值,且二者不存在关联关系,则存在疑似侵权风险,若第四风险值小于第四阈值,则不存在疑似侵权风险。
神经网络模型包括样本训练阶段,样本训练阶段采用数据增强方法提高神经网络模型的精度并提高样本数量,数据增强方法包括对图片随机旋转、翻转、裁剪,随机设置图片的亮度和对比度以及对图片进行数据标准化设置。
如图4所示,以苏州银行截图为例:数据为网站的首页截图,图中包含LOGO品牌标识。利用数据增强 (Data Augmentation) 的方法扩大样本容量,使原来的一张图片可以变为多张图片,对于提高模型的准确率和提升模型的泛化能力非常有帮助。具体操作有对图片进行随机的旋转、翻转、裁剪、随机设置图片的亮度和对比度以及对数据进行标准化(数据的均值为0,方差为1)等。
图上的微粒度实例检索流程细节如下:
步骤一:图像分割
基于对风险数据的统计分析,发现在整个网页的截图中,LOGO常出现在截图顶部和尾部。因此按照一定比例,对网页截图进行预处理,切分为三个部分,顶部,尾部和中下部,减少冗余计算。
步骤二:基于YOLO v3的候选区域识别
为解决业务扩张下,频繁新增大量待保护的企业LOGO图片这一场景下,网页截图上LOGO的目标检测问题,将YOLO v3模型作为候选区域识别模型,通过图像向量实现候选区域的图像分类。
YOLO是一种端到端的目标检测模型。为实现候选区域识别,将YOLO v3中的类别分为两类,分别为含LOGO和其它。通过将候选区域识别定义为端到端的YOLO v3模型上的一分类问题,实现高效的候选区域识别。
引入attention机制:
Attention机制其实就是一系列注意力分配系数,也就是一系列权重参数,针对实际的业务场景,本发明经过大量的数据标注实验,发现大部分logo位置主要存在左上角以及底部,所以可以加重左上角和底部来重点进行attention。在YOLO v3的基础上,在最后一层卷积的基础上改进,加入attention层,使得左上角和底部的权重增加,让模型在训练的过程中更加关注左上角和底部,从而使得YOLO v3在进行候选框的提取模块中得到更加准确的框,使得在后续的图像分类取得更好的效果。
步骤三:候选区域裁剪
将识别出的候选区域通过坐标进行图像裁剪,并生成灰度图。然后把原图和灰度图同时送入图像相似性比对模块。因为客户在提供授权函等信息时,有时提供的企业关联的品牌LOGO等信息为扫描件,因此为提升图像相似性比对的精度,需要原图和对应的灰度图。
步骤四:图像相似性比对
图像的相似性比对在海量数据下,可以通过向量搜索引擎转化为图搜图的形式,提高吞吐。首先将图片基于CNN提取特征,然后经过L2归一化和全连接层提取特征向量。进而使用IVF(Inverted File,倒排文件) 索引进行向量搜索,获取该LOGO的品牌信息。
向量检索部分,为了提高向量检索的效率需要对库中大量的品牌LOGO进行聚类,构建索引。
构建IVF_FLAT索引:IVF(Inverted File,倒排文件)是一种基于量化的索引类型。它通过聚类方法把空间里的点划分成 nlist 个单元。查询时先把目标向量与所有单元的中心做距离比较,选出 nprobe 个最近单元。然后比较这些被选中单元里的所有向量,得到最终的结果。
IVF_FLAT 是最基础的 IVF 索引,存储在各个单元中的数据编码与原始数据一致,且检索速度快,召回率高。
进行向量检索,在库中查询和当前待检测LOGO图像相似的图像,获取LOGO信息。
步骤五:侵权风险判定
通过将图像相似性比对获取的品牌基础信息库中的品牌信息,与网页的企业主体之间是否存在授权关系进行侵权风险判定。
进一步地,侵权风险等级评定算法如下所示:
Figure 584072DEST_PATH_IMAGE001
侵权风险等级分为10个等级,1表示最高风险等级,10表示最低的风险等级,其中
Figure 955010DEST_PATH_IMAGE002
表示第
Figure 232408DEST_PATH_IMAGE009
个影响因素对应的风险值,
Figure 806740DEST_PATH_IMAGE004
表示第
Figure 460575DEST_PATH_IMAGE010
个因素在侵权风险等级评定体系中的权重,通过层次分析法得出,
Figure 686020DEST_PATH_IMAGE006
为增加评定方法稳定性的扰动因子,
Figure 868740DEST_PATH_IMAGE007
为所述扰动因子对应的权重,影响因素的权重。
影响因素的权重通过层次分析法得出,同时为了侵权风险等级评定方法最终输出为整数,对计算结果进行上取整。影响因素,即侵权风险计算中的模块,包括如下:
域名相似检测:待检测网页域名和品牌基础信息库中的某个域名相似,且二者的企业主体无关联关系;
页面相似检测:待检测网页的页面截图和品牌基础信息库中某个品牌网站页面相似,且二者的企业主体无关联关系;
PassiveDNS 疑似风险:通过长期的分析,发现侵权风险中,多数页面域名的首次解析时间距今时间较短,因此把通过PassiveDNS查询到的待检测页面域名的首次解析时间距今的时间间隔作为一个风险评定影响因素;
对抗图像检测:通常情况下,对抗攻击图像常用于逃逸检测。因此对于采集到的待检测网页中的图像信息进行检测,若该图像为对抗攻击图像,那么存在一定概率的侵权风险;
页内图像风险检测:将待检测网页中的图像,通过向量检索引擎与品牌基础信息库中某品牌的LOGO等关联图像信息进行相似性比对。若存在相似图像,且二者的企业主体无关联关系,则大概率存在侵权风险;
图上的微粒度侵权实体检测:在长期的研究中发现,部分存在侵权风险的页面中将图片隐藏在源代码中,在网络交互的媒体资源中不可见,但最终呈现给用户的页面中存在该图片。为了解决该问题,提高侵权风险检测的精度和侵权风险等级评价的准确性,将整个网页截图进行图上的微粒度侵权实体检测,细节请参考侵权风险检测部分。将图上的微粒度侵权实体检测结果作为侵权风险等级评定的一个影响因素可以提高评定方法对于特殊情况的适配性,提高侵权风险等级评定的鲁棒性和精确性。
实施例二
参考图5,本发明提供一种侵权风险自动化检测装置,包括:
采集模块201,用于采集风险数据;
计算模块202,用于基于所采集的风险数据进行侵权风险计算;以及
评定模块203,用于基于侵权风险等级评定算法评定侵权风险等级。
该装置可通过上述实施例一提供的侵权风险自动化检测方法实现,具体的实现方法可参见实施例一中的描述,在此不再赘述。
本发明还提供了一种存储器,存储有多条指令,所述指令用于实现如实施例一所述的方法。
如图6所示,本发明还提供了一种电子设备,包括处理器301和与所述处理器301连接的存储器302,所述存储器302存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如实施例一所述的方法。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种侵权风险自动化检测方法,其特征在于,包括:
采集多个类型的风险数据;
基于所采集的多个类型风险数据分别进行侵权风险计算,得到多个风险值;以及
利用侵权风险等级评定算法,基于所述多个风险值计算得到侵权风险等级。
2.根据权利要求1所述的方法,其特征在于,所述风险数据包括:网页的页面截图信息、网页内的图片信息和/或通过采集所述网页的源代码和结构化信息获得的所述风险数据的上下文信息,其中所述网页的页面截图信息和所述网页内的图片信息为图像类数据。
3.根据权利要求2所述的方法,其特征在于,所述结构化信息包括域名。
4.根据权利要求3所述的方法,其特征在于,所述基于所采集的风险数据进行侵权风险计算,包括域名相似度计算、页面相似度计算、登录组件检测、PassiveDNS信息查询、对抗攻击图像检测和图上微粒度实例检索中的一种或多种,其中:
所述域名相似度计算包括通过向量检索计算所述网页的所述域名和品牌基础信息库中的域名的相似度数值作为第一风险值,若所述第一风险值等于或大于第一阈值,且二者不存在关联关系,则存在疑似侵权风险,若所述第一风险值小于第一阈值或二者存在关联关系,则不存在疑似侵权风险,通过所述网页的所述域名和所述品牌基础数据库中的域名信息确定所述域名相似度计算中的所述关联关系;
所述页面相似度计算包括通过向量检索计算所述网页的所述页面截图信息和品牌基础信息库中品牌图像信息的相似度数值作为第二风险值,若所述第二风险值大于或等于第二阈值,且二者不存在关联关系,则存在疑似侵权风险,若所述第二风险值小于第二阈值或二者存在关联关系,则不存在疑似侵权风险,通过所述网页的所述页面截图信息和所述品牌基础数据库中的图像信息确定所述页面相似度计算中的所述关联关系;
所述登录组件检测包括通过所述网页的源代码检测所述网页中是否包含登录组件,若所述第二风险值大于或等于第二阈值,所述网页的所述页面截图与所述品牌基础信息库中品牌图像信息不存在关联关系并且所述网页中包含登陆组件,则存在疑似侵权风险并进入钓鱼仿冒检测流程,若不包含登录组件,则不存在疑似侵权风险;
所述PassiveDNS信息查询包括对于DNS首次解析时间距今的时间间隔小于第一预定值的网站查询对应域名的PassiveDNS信息,将域名的首次解析时间与当前时间进行比对获得时间跨度,对于不同的所述时间跨度赋予不同等级的疑似风险值;
所述对抗攻击图像检测包括检测所述图像类数据是否为对抗攻击图像,如果是则存在疑似侵权风险,否则无风险;同时基于Pixel Denoising将所述图像类数据去噪后,通过向量检索计算所述图像类数据和品牌基础信息库中的品牌关联图像的相似度数值作为第三风险值,若所述第三风险值大于或等于第三阈值,且二者不存在关联关系,则存在疑似侵权风险,若所述第三风险值小于第三阈值或二者存在关联关系,则不存在疑似侵权风险,通过所述图像类数据和所述品牌基础数据库中的品牌关联图像的比较确定所述对抗攻击图像检测中的所述关联关系;以及
所述图上微粒度实例检索包括构建优化后的pipeline图上微粒度实例检索模型,将可疑网站的截图经过处理后输入所述模型中获得由网页截图分割出的侵权实体图像,通过向量检索计算所述处理后的所述侵权实体图像和所述品牌基础信息库中的品牌图像信息的相似度数值作为第四风险值,若所述第四风险值大于或等于第四阈值,且二者不存在关联关系,则存在疑似侵权风险,若所述第四风险值小于第四阈值或二者存在关联关系,则不存在疑似侵权风险,通过所述处理后的所述侵权实体图像和所述品牌基础信息库中的所述品牌图像信息的比较确定所述图上微粒度实例检测中的所述关联关系。
5.根据权利要求4所述的方法,其特征在于,所述图上微粒度实例检索包括:
图像分割预处理,包括输入可疑网站的截图,将所述截图切分为顶部、尾部和中下部;
识别候选区域,包括基于神经网络模型识别候选区域并基于所述向量检索进行所述候选区域的图像分类;
将所述候选区域的识别与所述候选区域的图像分类进行组合,形成优化后的所述图上微粒度实例检索的模型;
裁剪和修饰所述候选区域,将基于所述神经网络模型标注的框内图片进行剪切,将剪切后的所述图片缩放成标准大小;
比对图像相似性,通过向量检索计算所述处理后由网页截图分割出的侵权实体图像和所述品牌基础信息库中的品牌图像信息的相似度数值作为第四风险值,若所述第四风险值大于或等于第四阈值,且二者不存在关联关系,则存在疑似侵权风险,若所述第四风险值小于第四阈值,则不存在疑似侵权风险。
6.根据权利要求5所述的方法,其特征在于,所述神经网络模型包括样本训练阶段,所述样本训练阶段采用数据增强方法提高所述神经网络模型的精度并提高样本数量,所述数据增强方法包括对所述图片随机旋转、翻转、裁剪,随机设置所述图片的亮度和对比度以及对所述图片进行数据标准化设置。
7.根据权利要求1所述的方法,其特征在于,所述侵权风险等级评定算法如下所示:
Figure 987537DEST_PATH_IMAGE001
侵权风险等级分为10个等级,1表示最高风险等级,10表示最低的风险等级,其中
Figure 315750DEST_PATH_IMAGE002
表示第
Figure 705012DEST_PATH_IMAGE003
个影响因素对应的风险值,
Figure 409663DEST_PATH_IMAGE004
表示第
Figure 951503DEST_PATH_IMAGE003
个因素在侵权风险等级评定体系中的权重,通过层次分析法得出,
Figure 450617DEST_PATH_IMAGE005
为增加评定方法稳定性的扰动因子,
Figure 828640DEST_PATH_IMAGE006
为所述扰动因子对应的权重,影响因素的权重。
8.一种侵权风险自动化检测装置,其特征在于,包括:
采集模块,用于采集风险数据;
计算模块,用于基于所采集的风险数据进行侵权风险计算;以及
评定模块,用于基于侵权风险等级评定算法评定侵权风险等级。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如权利要求1-7任一所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如权利要求1至7任一所述的方法。
CN202110508305.3A 2021-05-11 2021-05-11 一种侵权风险自动化检测方法、装置和电子设备 Active CN112990792B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110508305.3A CN112990792B (zh) 2021-05-11 2021-05-11 一种侵权风险自动化检测方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110508305.3A CN112990792B (zh) 2021-05-11 2021-05-11 一种侵权风险自动化检测方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN112990792A true CN112990792A (zh) 2021-06-18
CN112990792B CN112990792B (zh) 2021-08-31

Family

ID=76337417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110508305.3A Active CN112990792B (zh) 2021-05-11 2021-05-11 一种侵权风险自动化检测方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN112990792B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780827A (zh) * 2021-09-14 2021-12-10 北京沃东天骏信息技术有限公司 一种物品筛选方法、装置、电子设备及计算机可读介质
CN114782711A (zh) * 2022-06-20 2022-07-22 四川航天职业技术学院(四川航天高级技工学校) 一种基于图像识别的智能化风险检测方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077396A (zh) * 2014-07-01 2014-10-01 清华大学深圳研究生院 一种钓鱼网站检测方法及装置
CN105141598A (zh) * 2015-08-14 2015-12-09 中国传媒大学 基于恶意域名检测的apt攻击检测方法及装置
CN105324786A (zh) * 2013-04-11 2016-02-10 布兰德席德有限公司 对品牌名称和域名进行保护的设备、系统以及方法
CN105897714A (zh) * 2016-04-11 2016-08-24 天津大学 基于dns流量特征的僵尸网络检测方法
CN107403251A (zh) * 2016-05-20 2017-11-28 阿里巴巴集团控股有限公司 风险检测方法及装置
CN109831465A (zh) * 2019-04-12 2019-05-31 重庆天蓬网络有限公司 一种基于大数据日志分析的网站入侵检测方法
CN110175276A (zh) * 2019-04-15 2019-08-27 平安科技(深圳)有限公司 侵权信息获取方法、装置、计算机设备及存储介质
CN110175940A (zh) * 2019-04-15 2019-08-27 平安科技(深圳)有限公司 维权任务提示方法、装置、计算机设备及存储介质
CN111639706A (zh) * 2020-05-29 2020-09-08 深圳壹账通智能科技有限公司 基于图像集的个人风险画像生成方法及相关设备
CN112132368A (zh) * 2019-06-06 2020-12-25 阿里巴巴集团控股有限公司 信息处理方法以及装置、计算设备、存储介质
CN112417381A (zh) * 2020-12-11 2021-02-26 中国搜索信息科技股份有限公司 应用于图像版权保护的快速定位侵权图像的方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105324786A (zh) * 2013-04-11 2016-02-10 布兰德席德有限公司 对品牌名称和域名进行保护的设备、系统以及方法
CN104077396A (zh) * 2014-07-01 2014-10-01 清华大学深圳研究生院 一种钓鱼网站检测方法及装置
CN105141598A (zh) * 2015-08-14 2015-12-09 中国传媒大学 基于恶意域名检测的apt攻击检测方法及装置
CN105897714A (zh) * 2016-04-11 2016-08-24 天津大学 基于dns流量特征的僵尸网络检测方法
CN107403251A (zh) * 2016-05-20 2017-11-28 阿里巴巴集团控股有限公司 风险检测方法及装置
CN109831465A (zh) * 2019-04-12 2019-05-31 重庆天蓬网络有限公司 一种基于大数据日志分析的网站入侵检测方法
CN110175276A (zh) * 2019-04-15 2019-08-27 平安科技(深圳)有限公司 侵权信息获取方法、装置、计算机设备及存储介质
CN110175940A (zh) * 2019-04-15 2019-08-27 平安科技(深圳)有限公司 维权任务提示方法、装置、计算机设备及存储介质
CN112132368A (zh) * 2019-06-06 2020-12-25 阿里巴巴集团控股有限公司 信息处理方法以及装置、计算设备、存储介质
CN111639706A (zh) * 2020-05-29 2020-09-08 深圳壹账通智能科技有限公司 基于图像集的个人风险画像生成方法及相关设备
CN112417381A (zh) * 2020-12-11 2021-02-26 中国搜索信息科技股份有限公司 应用于图像版权保护的快速定位侵权图像的方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SHENGLI ZHOU等: "Monitoring and Early Warning of New Cyber-Telecom Crime Platform Based on BERT Migration Learning", 《中国通信》 *
包瑞: "搜索引擎的侵权风险分析", 《图书与情报》 *
谭光林: ""反钓鱼系统的研究与设计"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780827A (zh) * 2021-09-14 2021-12-10 北京沃东天骏信息技术有限公司 一种物品筛选方法、装置、电子设备及计算机可读介质
CN114782711A (zh) * 2022-06-20 2022-07-22 四川航天职业技术学院(四川航天高级技工学校) 一种基于图像识别的智能化风险检测方法及系统

Also Published As

Publication number Publication date
CN112990792B (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
CN112347244B (zh) 基于混合特征分析的涉黄、涉赌网站检测方法
CN107038173B (zh) 应用查询方法和装置、相似应用检测方法和装置
CN112990792B (zh) 一种侵权风险自动化检测方法、装置和电子设备
CN110602045B (zh) 一种基于特征融合和机器学习的恶意网页识别方法
CN109447080B (zh) 一种字符识别方法及装置
CN114169381A (zh) 图像标注方法、装置、终端设备及存储介质
CN106202349B (zh) 网页分类字典生成方法及装置
CN106611148B (zh) 基于图像的离线公式识别方法和装置
CN111125443A (zh) 一种基于自动去重的试题题库在线更新方法
CN112445926A (zh) 一种图像检索方法以及装置
CN114581928A (zh) 一种表格识别方法及系统
CN113076961A (zh) 一种图像特征库更新方法、图像检测方法和装置
CN112101024A (zh) 基于app信息的目标对象识别系统
CN112183093A (zh) 一种企业舆情分析方法、装置、设备及可读存储介质
CN116524520A (zh) 文本的识别方法及装置、存储介质和电子设备
Zhang et al. A YOLOv3‐Based Industrial Instrument Classification and Reading Recognition Method
CN110851826B (zh) 一种篡改页面的检测方法、装置、设备及可读存储介质
CN113536017A (zh) 一种图像检索方法和系统
CN108920700B (zh) 一种虚假图片识别方法及装置
CN112434700A (zh) 车牌识别方法、装置、设备及存储介质
CN110826488A (zh) 一种针对电子文档的图像识别方法、装置及存储设备
CN115171048B (zh) 基于图像识别的资产分类方法、系统、终端及存储介质
CN112187768B (zh) 不良信息网站的检测方法、装置、设备及可读存储介质
CN117058432B (zh) 图像查重方法、装置、电子设备及可读存储介质
Zhang et al. From Pixels to Region: A Salient Region Detection Algorithm for Location‐Quantification Image

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210924

Address after: B201d-1, 3rd floor, building 8, yard 1, Zhongguancun East Road, Haidian District, Beijing 100083

Patentee after: Beijing innovation Zhiyuan Technology Co.,Ltd.

Address before: B201d-1, 3rd floor, building 8, yard 1, Zhongguancun East Road, Haidian District, Beijing 100083

Patentee before: Beijing Zhiyuan Artificial Intelligence Research Institute

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220413

Address after: Room 266, floor 2, building 1, No. 16, Shangdi Fifth Street, Haidian District, Beijing 100085

Patentee after: Beijing Tianji Youmeng Information Technology Co.,Ltd.

Address before: B201d-1, 3rd floor, building 8, yard 1, Zhongguancun East Road, Haidian District, Beijing 100083

Patentee before: Beijing innovation Zhiyuan Technology Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221227

Address after: 519,060 Room 1903-231, Unit 1, Regenerative Times Building, No. 55, Pingbei Second Road, Xiangzhou District, Zhuhai City, Guangdong Province (centralized office area)

Patentee after: Tianji Youmeng (Zhuhai) Technology Co.,Ltd.

Address before: Room 266, floor 2, building 1, No. 16, Shangdi Fifth Street, Haidian District, Beijing 100085

Patentee before: Beijing Tianji Youmeng Information Technology Co.,Ltd.

TR01 Transfer of patent right