CN117763510A - 网页识别方法、装置、设备、介质及程序产品 - Google Patents

网页识别方法、装置、设备、介质及程序产品 Download PDF

Info

Publication number
CN117763510A
CN117763510A CN202410011278.2A CN202410011278A CN117763510A CN 117763510 A CN117763510 A CN 117763510A CN 202410011278 A CN202410011278 A CN 202410011278A CN 117763510 A CN117763510 A CN 117763510A
Authority
CN
China
Prior art keywords
webpage
web page
information
multimedia
meta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410011278.2A
Other languages
English (en)
Inventor
罗达志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202410011278.2A priority Critical patent/CN117763510A/zh
Publication of CN117763510A publication Critical patent/CN117763510A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种网页识别方法、装置、设备、介质及程序产品,涉及计算机技术领域。该方法包括:基于网页链接获取第一网页对应的第一元信息,基于资源链接获取第一多媒体内容对应的第二元信息;将第一元信息和第二元信息与第一多媒体平台对应的预设元信息进行匹配,基于匹配结果获取对第一网页的识别结果。本申请提供的网页识别方法仅需要对网页、多媒体内容以及多媒体平台对应的链接的归属对象信息进行分析,相较于相关技术中对具体的多媒体内容进行分析,大大减少了对计算机设备的算力、存储等资源开销,且由于归属对象信息较为简单,减少了侵权判断的难度,从而提高了对网页侵权行为的识别效率。本申请应用于云技术、人工智能等各种场景。

Description

网页识别方法、装置、设备、介质及程序产品
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种网页识别方法、装置、设备、介质及程序产品。
背景技术
随着多媒体和网络技术的发展,一些网页通过侵权他人创作的作品来提供盗版作品以吸引用户,从中获取收益,给原创者带来了巨大的损失。因此,识别这些存在侵权行为的网页对原创者来说具有较大的意义。
相关技术中,以作品实现为视频为例进行说明,识别存在侵权行为的网页需要首先从大量的网页中筛选得到视频网页,然后采集视频网页中包含的网页视频,并将该网页视频与正版视频进行视频内容比对,得到网页视频与正版视频的视频内容相似度,基于该相似度判断该视频网页是否存在侵权行为。
然而,上述相关技术中由于涉及视频内容比对,导致计算机设备的算力、存储等资源开销巨大,且难度较高,从而对网页侵权行为的识别效率较低。
发明内容
本申请实施例提供了一种网页识别方法、装置、设备、介质及程序产品,能够提高对网页侵权行为的识别效率,所述技术方案如下:
一方面,提供了一种网页识别方法,所述方法包括:
获取第一网页对应的网页链接,所述第一网页中包括第一多媒体内容;
基于所述网页链接获取所述第一多媒体内容对应的资源链接,所述资源链接用于指示存储所述第一多媒体内容的网络节点;
基于所述网页链接获取所述第一网页对应的第一元信息,基于所述资源链接获取所述第一多媒体内容对应的第二元信息,所述第一元信息用于指示所述网页链接的归属对象信息,所述第二元信息用于指示所述资源链接的归属对象信息;
将所述第一元信息和所述第二元信息与第一多媒体平台对应的预设元信息进行匹配,基于匹配结果获取对所述第一网页的识别结果,所述预设元信息用于指示所述第一多媒体平台对应的归属对象信息,所述识别结果用于指示所述第一多媒体平台对所述第一网页播放所述第一多媒体内容的授权情况。
另一方面,提供了一种网页识别装置,所述装置包括:
链接获取模块,用于获取第一网页对应的网页链接,所述第一网页中包括第一多媒体内容;
所述链接获取模块,还用于基于所述网页链接获取所述第一多媒体内容对应的资源链接,所述资源链接用于指示存储所述第一多媒体内容的网络节点;
信息获取模块,用于基于所述网页链接获取所述第一网页对应的第一元信息,基于所述资源链接获取所述第一多媒体内容对应的第二元信息,所述第一元信息用于指示所述网页链接的归属对象信息,所述第二元信息用于指示所述资源链接的归属对象信息;
网页识别模块,用于将所述第一元信息和所述第二元信息与第一多媒体平台对应的预设元信息进行匹配,基于匹配结果获取对所述第一网页的识别结果,所述预设元信息用于指示所述第一多媒体平台对应的归属对象信息,所述识别结果用于指示所述第一多媒体平台对所述第一网页播放所述第一多媒体内容的授权情况。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述任一所述网页识别方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述任一所述的网页识别方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一所述的网页识别方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过第一网页的网页链接获取第一网页中包含的多媒体内容的资源链接,然后将网页链接的归属对象信息和资源链接的归属对象信息与第一多媒体平台的归属对象信息进行匹配,根据匹配结果确定第一多媒体平台是否授权第一网页播放第一多媒体内容,即对于第一多媒体平台来说第一网页是否存在侵权行为。本申请提供的网页识别方法仅需要对网页、多媒体内容以及多媒体平台对应的链接的归属对象信息进行分析,相较于相关技术中对具体的多媒体内容进行分析,大大减少了对计算机设备的算力、存储等资源开销,且由于归属对象信息较为简单,减少了侵权判断的难度,从而提高了对网页侵权行为的识别效率。另外,由于本申请从链接的角度进行侵权判断,避免了对具体的多媒体内容进行分析导致的误判问题(例如:将两个不同但背景相同的图片确定为相同的图片),提高了对网页侵权行为的识别准确度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的实施环境的示意图;
图2是本申请一个示例性实施例提供的网页识别方法的流程图;
图3是本申请另一个示例性实施例提供的网页识别方法的流程图;
图4是本申请一个示例性实施例提供的视频网页识别模型的结构示意图;
图5是本申请一个示例性实施例提供的标注数据的流程图;
图6是本申请又一个示例性实施例提供的网页识别方法的流程图;
图7是本申请一个示例性实施例提供的视频侵权检测方案的闭环架构设计图;
图8是本申请一个示例性实施例提供的视频侵权检测方案的整体流程图;
图9是本申请一个示例性实施例提供的网页识别装置的结构框图;
图10是本申请另一个示例性实施例提供的网页识别装置的结构框图;
图11是本申请一个示例性实施例提供的计算机设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中术语“第一”、“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。
首先,针对本申请实施例中涉及的名词进行简单介绍。
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
内容分发网络(Content Delivery Network,CDN):CDN是指一组分布在各个地区的服务器,这些服务器存储了源站中保存的多媒体数据的副本。用户在请求这些多媒体数据时,可以从离用户最近的CDN节点服务器获取资源,从而提高了用户对于多媒体数据的访问速度。
内容侵权:指的是在未取得内容(例如:视频、音频、图像等)权利方允许的前提下,对内容进行搬运播放等侵权情形。
随着多媒体和网络技术的发展,一些网页通过侵权他人创作的作品来提供盗版作品以吸引用户,从中获取收益。这些网页给原创者带来了巨大的损失。因此,识别这些存在侵权行为的网页对原创者来说具有较大的意义。
相关技术中,以作品实现为视频为例进行说明,识别存在侵权行为的网页需要首先从大量的网页中筛选得到视频网页,然后采集视频网页中包含的网页视频,并将该网页视频与正版视频进行视频内容比对,得到网页视频与正版视频的视频内容相似度,基于该相似度判断该视频网页是否存在侵权行为。然而,上述相关技术中由于涉及视频内容比对,导致计算机设备的算力、存储等资源开销巨大,且难度较高,从而对网页侵权行为的识别效率较低。
考虑到现今大部分互联网上的多媒体平台都采用了CDN作为分布式存储和播放方案,本申请从链接的角度出发,提供了一种网页识别方法,通过第一网页的网页链接获取第一网页中包含的多媒体内容的资源链接,然后将网页链接的归属对象信息和资源链接的归属对象信息与第一多媒体平台的归属对象信息进行匹配,根据匹配结果确定第一多媒体平台是否授权第一网页播放第一多媒体内容,即对于第一多媒体平台来说第一网页是否存在侵权行为。
本申请提供的网页识别方法仅需要对网页、多媒体内容以及多媒体平台对应的链接的归属对象信息进行分析,相较于相关技术中对具体的多媒体内容进行分析,大大减少了对计算机设备的算力、存储等资源开销,且由于归属对象信息较为简单,减少了侵权判断的难度,从而提高了对网页侵权行为的识别效率。另外,由于本申请从链接的角度进行侵权判断,避免了对具体的多媒体内容进行分析导致的误判问题,提高了对网页侵权行为的识别准确度。
其次,对本申请实施例中涉及的实施环境进行说明,本申请实施例提供的网页识别方法可以由终端单独执行实现,也可以由服务器执行实现,或者由终端和服务器通过数据交互实现,本申请实施例对此不加以限定。可选地,以终端和服务器交互执行网页识别方法为例进行说明。
示意性的,请参考图1,该实施环境中涉及终端110、服务器120,终端110和服务器120之间通过通信网络130连接。可选地,通信网络130可以是有线网络,也可以是无线网络,本申请实施例对此不进行限定。
在一些实施例中,终端110中安装有具有网页识别功能的应用,该应用可以是版权管理平台、多媒体内容侵权检测平台、音乐播放平台、视频播放平台等,本申请实施例对此不进行限定。
可选地,终端110中待识别的网页包括第一网页,则服务器120从终端110中获取包含第一多媒体内容的第一网页对应的网页链接,例如:第一网页的统一资源定位符(Uniform Resource Locator,URL)。
可选地,服务器120基于第一网页的网页链接获取第一网页中包含的第一多媒体内容的资源链接,示意性的,服务器120中内置有自动化的测试工具,该测试工具能够控制浏览器执行一些测试操作,如:控制浏览器通过第一网页的网页链接打开第一网页的页面,然后在该页面上找到第一多媒体内容的播放按钮,控制浏览器播放该第一多媒体内容,从而服务器120能够在第一多媒体内容的播放过程中获取第一多媒体内容相关的网络数据包,并从中获取第一多媒体内容的资源链接,该资源链接用于指示存储第一多媒体内容的网络节点。
服务器120获取第一网页的网页链接和第一多媒体内容的资源链接后,会获取网页链接对应的第一元信息和资源链接对应的第二元信息,然后,服务器120将第一元信息和第二元信息与第一多媒体平台对应的预设元信息进行匹配,并基于匹配结果获取对第一网页的识别结果,即第一多媒体平台对第一网页播放第一多媒体内容的授权情况。其中,元信息指示链接或者平台的归属对象信息,例如:WHOIS备案信息、ICP备案信息等。
可选地,服务器120获取第一网页的识别结果之后,将该识别结果通过通信网络130发送至终端110,从而终端110能够获取该第一网页的识别结果,例如:第一网页是否存在侵权行为。
值得注意的是,上述终端110包括但不限于手机、平板电脑、便携式膝上笔记本电脑、智能语音交互设备、智能家电、车载终端等移动终端,也可以实现为台式电脑等;服务器120能够是独立的物理服务器,也能够是多个物理服务器构成的服务器集群或者分布式系统,还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器。
其中,云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模型应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网页、图片类网页和更多的门户网页。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。可选地,服务器120还可以实现为区块链系统中的节点。
需要进行说明的是,本申请在收集用户的相关数据(例如:网页链接、资源链接、网络数据包等)之前以及在收集用户的相关数据的过程中,都可以显示提示界面、弹窗或输出语音提示信息,该提示界面、弹窗或语音提示信息用于提示用户当前正在搜集其相关数据,使得本申请仅仅在获取到用户对该提示界面或者弹窗发出的确认操作后,才开始执行获取用户相关数据的相关步骤,否则(即未获取到用户对该提示界面或者弹窗发出的确认操作时),结束获取用户相关数据的相关步骤,即不获取用户的相关数据。换句话说,本申请所采集的所有用户数据都是在用户同意并授权的情况下进行采集的,且相关用户数据的收集、使用和处理需要遵守相关法律法规和标准。
结合上述介绍,图2是本申请实施例提供的一种网页识别方法的流程图,以该方法应用于如图1所示的服务器中为例进行说明,该方法如下步骤210至步骤240。
步骤210,获取第一网页对应的网页链接。
其中,第一网页中包括第一多媒体内容。
可选地,第一多媒体内容的内容类型包括视频、音频、图像、文本等类型中的至少一种。本申请实施例对此不进行限定。
示意性的,上述第一网页为待进行侵权行为识别的网页,对第一网页进行侵权行为识别即识别指定多媒体平台是否授权第一网页播放该第一多媒体内容,若该第一多媒体内容属于指定多媒体平台且指定多媒体平台没有授权第一网页播放第一多媒体内容,则对于指定多媒体平台来说第一网页存在侵权行为。
可选地,网页是指HTML(Hyper Text Markup Language,超文本标记语言)格式的文件,链接是指统一资源定位符(Uniform Resource Locator,URL),URL用于指示资源的存储地址,通过URL可以定位到互联网上的任意资源,如:视频、音频、图像、文件等。那么,获取第一网页对应的网页链接,即获取第一网页对应的第一URL,第一URL用于指示代表第一网页的HTML格式的文件的存储地址。
可选地,第一网页的网页链接为存储在本地的数据。示意性的,服务器中保存网页数据库,该网页数据库中存储有多个网页的URL,服务器从该网页数据库中获取第一网页的第一URL;或者,第一网页的网页链接为从终端获取的数据。示意性的,终端将待识别的第一网页的第一URL发送至服务器。
需要进行说明的是,本申请中,每次输入服务器中进行处理的网页数量可以是多个,即第一网页泛指输入服务器中的一个或者多个网页,本实施例中仅以第一网页为例进行说明。
步骤220,基于网页链接获取第一多媒体内容对应的资源链接。
其中,资源链接用于指示存储第一多媒体内容的网络节点。
可选地,获取第一多媒体内容对应的资源链接即获取第一多媒体内容对应的第二URL。
示意性的,第一网页对应有网页服务器,该网页服务器即为存储有代表第一网页的HTML格式的文件的网络节点,用户在浏览器中输入第一网页的第一URL后,用户终端会发送请求至网页服务器,网页服务器接收到请求后,会将其中存储的第一网页对应的HTML格式的文件发送至用户终端,从而用户终端的浏览器界面会显示第一网页的网页页面。
其中,第一网页对应的HTML格式的文件中通常不会直接包含第一多媒体内容的播放数据,例如:视频的播放数据,而是包含指向第一多媒体内容的第二URL,当用户终端接收到在第一网页上播放第一多媒体内容的请求时,会发送数据请求至该第二URL链接指示的网络节点,该网络节点接收到该数据请求后,会将该第一多媒体内容的播放数据发送至用户终端,从而用户终端上显示的第一网页会开始播放该第一多媒体内容。
可选地,上述第二URL指示的网络节点,即资源链接指示的网络节点是第一网页对应的网页服务器;或者,资源链接指示的网络节点不是第一网页对应的网页服务器。
其中,针对资源链接指示的网络节点不是第一网页对应的网页服务器的情况,需要进行说明的是,由于互联网上的一些大的多媒体平台都采用了CDN作为分布式存储和播放方案,一些网页会通过非法手段获取这些多媒体平台的CDN对应的资源链接,通过这些资源链接网页可直接从CDN中的节点上获取相关的多媒体内容,也就是说,资源链接指示的网络节点不是第一网页本身对应的网页服务器,则该资源链接指示的网络节点可能是第一网页侵权的CDN节点。
在一些实施例中,第一多媒体内容的资源链接会直接显示在第一网页对应的HTML格式的文件中,则可以通过获取第一网页对应的HTML格式的文件以获取第一多媒体内容的资源链接。
可选地,基于网页链接获取第一网页对应的HTML格式的文件;从第一网页对应的HTML格式的文件中获取第一多媒体内容的资源链接。示意性的,服务器中内置有自动化的测试工具,该测试工具能够控制浏览器执行一些测试操作,如:控制浏览器通过第一网页的网页链接打开第一网页的页面,然后通过浏览器提供的查看页面源代码的功能获取第一网页的HTML代码,并从该HTML代码中提取第一多媒体内容的资源链接。
在另一些实施例中,第一多媒体内容的资源链接不会直接显示在第一网页对应的HTML格式的文件中,则可以通过播放第一多媒体内容,获取第一多媒体内容的网络数据包以获取第一多媒体内容的资源链接。
可选地,基于网页链接,获取第一多媒体内容的网络数据包,网络数据包用于传输第一多媒体内容的播放数据,网络数据包中包括第一多媒体内容对应的资源链接;从网络数据包中提取第一多媒体内容对应的资源链接。
可选地,基于网页链接,在第一网页中播放第一多媒体内容;在播放第一多媒体内容的过程中,获取第一多媒体内容的网络数据包。
示意性的,通过服务器内置的自动化的测试工具控制浏览器通过第一网页的网页链接打开第一网页的页面,然后在该页面上找到第一多媒体内容的播放按钮,控制浏览器播放该第一多媒体内容,从而服务器能够在第一多媒体内容的播放过程中获取第一多媒体内容的网络数据包,并从中获取第一多媒体内容的资源链接。
需要进行说明的是,本申请实施例在获取第一多媒体内容的网络数据包之前已获取第一多媒体内容的提供方(或指权利方)的充分授权,即本申请所获取的网络数据包是在第一多媒体内容的提供方同意并授权的情况下进行获取的,且网络数据包的收集、使用和处理遵守相关法律法规和标准。
本实施例,通过对第一多媒体内容进行模拟播放的形式获取第一多媒体内容的资源链接,获取链接的方式较为简便,无需获取完整的第一多媒体内容,减少对计算机设备的存储和算力资源的浪费,从而提高了对网页进行侵权判断的效率。
步骤230,基于网页链接获取第一网页对应的第一元信息,基于资源链接获取第一多媒体内容对应的第二元信息。
其中,第一元信息用于指示网页链接的归属对象信息,第二元信息用于指示资源链接的归属对象信息。
示意性的,元信息通常是指一个网络链接难以掩饰的真实信息,如指示归属对象的信息,其中,归属对象通常是指资源(如第一网页、第一多媒体内容等)所属的组织、机构或者个人等。针对网页链接或者资源链接,可通过多种方式确定其对应的归属对象,也就是说,网页链接或者资源链接对应有多种元信息。可选地,第一元信息或者第二元信息包括以下信息类型中的至少一种:
1、WHOIS备案信息。
WHOIS备案信息用于记录链接对应的域名、域名注册人、域名注册日期、域名到期日期等,其中,域名注册人是指域名的所有者或注册者,可用于表示链接(即网页链接或者资源链接)的归属对象。
2、IPC备案信息。
IPC备案信息用于记录链接对应的主办者进行备案登记时所提交的单位名称、单位性质、网站名称、网站首页网址、域名等,其中,单位名称指示的单位可用于表示链接的归属对象。
3、SSL证书信息。
SSL证书用于在互联网上建立安全可靠的通信连接。SSL证书信息通常包含颁发者、所有者和使用者等信息,其中,所有者是指拥有或控制该证书的对象,可表示链接的归属对象。
需要进行说明的是,上述对元信息的信息类型的举例仅为示意性的说明,第一元信息或者第二元信息可以实现为以上元信息中的一种或者多种,并且第一元信息和第二元信息的信息类型可以相同或者不同,本申请实施例对此不进行限定。
步骤240,将第一元信息和第二元信息与第一多媒体平台对应的预设元信息进行匹配,基于匹配结果获取对第一网页的识别结果。
其中,预设元信息用于指示第一多媒体平台对应的归属对象信息,识别结果用于指示第一多媒体平台对第一网页播放第一多媒体内容的授权情况。
可选地,第一多媒体平台中包含的多媒体内容的内容类型包括视频、音频、图像、文本等中的至少一种,本申请实施例对此不进行限定。
示意性的,第一多媒体平台可实现为播放多媒体内容的网站、应用程序等,例如:视频播放网站、视频播放应用程序、音乐播放网站、音乐播放应用程序等。
可选地,预设元信息包括第一多媒体平台的归属对象信息。示意性的,第一多媒体平台对应的归属对象信息为预先获取的第一多媒体平台所属的组织、机构或者个人等信息。
或者,预设元信息还包括第一多媒体平台对应的对象授权范围内的对象信息,对象授权范围包括第一多媒体平台的归属对象。示意性的,第一多媒体平台对应的归属对象信息为预先获取的第一多媒体平台对应的网页白名单中的组织、机构或者个人等信息,其中,网页白名单中包括第一多媒体平台的授权网页,授权网页是指具有对第一多媒体平台中的媒体内容的播放权限的网页。
或者,预设元信息还包括第一多媒体平台对应的平台范围内的归属对象信息,平台范围中包括包含第一多媒体平台在内的多个多媒体平台,多个多媒体平台共享对多媒体内容的所有权。示意性的,第一多媒体平台对应的归属对象信息为预先获取的第一多媒体平台对应的平台白名单中的组织、机构或者个人等信息,其中,平台白名单中包括包含第一多媒体平台在内的多个平台,这多个平台共享对多个平台中的任意多媒体内容的所有权。
可选地,对第一网页的识别结果包括以下情况中的至少一种:
情况一:在第一元信息指示的归属对象信息与第一多媒体平台对应的归属对象信息不匹配,且第二元信息指示的归属对象信息与第一多媒体平台对应的归属对象信息匹配的情况下,获取对第一网页的第一识别结果。
其中,第一识别结果用于指示第一多媒体平台未授权第一网页播放第一多媒体内容。
可选地,第一元信息指示的归属对象信息与第一多媒体平台对应的归属对象信息不匹配是指第一元信息指示的归属对象与第一多媒体平台的归属对象不同;或者,是指第一元信息指示的归属对象不属于第一多媒体平台对应的对象授权范围内的对象。反之,第一元信息指示的归属对象信息与第一多媒体平台对应的归属对象信息匹配是指第一元信息指示的归属对象与第一多媒体平台的归属对象相同;或者,是指第一元信息指示的归属对象属于第一多媒体平台对应的对象授权范围内的对象。
可选地,第二元信息指示的归属对象信息与第一多媒体平台对应的归属对象信息匹配是指第二元信息指示的归属对象与第一多媒体平台的归属对象相同;或者,是指第二元信息指示的归属对象属于第一多媒体平台对应的平台范围内。反之,第二元信息指示的归属对象信息与第一多媒体平台对应的归属对象信息不匹配是指第二元信息指示的归属对象与第一多媒体平台的归属对象不同;或者,是指第二元信息指示的归属对象不属于第一多媒体平台对应的平台范围内。
示意性的,以WHOIS备案信息为例进行说明,第一多媒体平台的归属对象为用户A,根据第一网页的网页链接查询到的WHOIS注册人为用户B,根据第一多媒体内容的资源链接查询到的WHOIS注册人为用户C。若用户B不是用户A或者用户B不属于第一多媒体平台的网页白名单中的用户,则表示第一网页不是第一多媒体平台的授权网页,此时,若用户C是用户A或者用户C属于第一多媒体平台的平台白名单中的用户,表示第一多媒体内容属于第一多媒体平台,则表示第一网页在未经第一多媒体平台授权的情况下搬运播放了第一多媒体内容,也即第一网页存在侵权行为。
在一些实施例中,将第一元信息与预设元信息进行匹配;在第一元信息指示的归属对象信息与第一多媒体平台对应的归属对象信息不匹配的情况下,将第二元信息与预设元信息进行匹配;在第二元信息指示的归属对象信息与第一多媒体平台对应的归属对象信息匹配的情况下,获取对第一网页的第一识别结果。
可选地,在第一元信息指示的归属对象不属于对象授权范围的情况下,将第二元信息与预设元信息进行匹配;在第二元信息指示的归属对象属于平台范围内的情况下,获取对第一网页的第一识别结果。
本实施例中,进行元信息匹配时,首先匹配第一元信息和预设元信息,然后匹配第二元信息和预设元信息,即先对第一网页的授权情况进行判定,识别该第一网页是否属于第一多媒体平台的授权网页,避免在第一网页属于授权网页的情况下对第一多媒体内容继续进行分析造成的资源浪费。在对第一网页对应的多个多媒体内容的进行侵权判定的场景下,首先确定第一网页的授权情况,若第一网页为第一多媒体平台的授权网页,则无需逐个对多个多媒体内容进行分析,大大提高了对网页进行侵权识别的效率。
在另一些实施例中,将第二元信息与预设元信息进行匹配;在第二元信息指示的归属对象信息与第一多媒体平台对应的归属对象信息匹配的情况下,将第一元信息与预设元信息进行匹配;在第一元信息指示的归属对象信息与第一多媒体平台对应的归属对象信息不匹配的情况下,获取对第一网页的第一识别结果。
可选地,在第二元信息指示的归属对象属于平台范围内的情况下,将第一元信息与预设元信息进行匹配;在第一元信息指示的归属对象不属于对象授权范围的情况下,获取第一识别结果。
本实施例中,进行元信息匹配时,首先匹配第二元信息和预设元信息,然后匹配第一元信息和预设元信息。即先确定第一多媒体内容是否属于第一多媒体平台,避免在第一多媒体内容不属于第一多媒体平台的情况下,对第一网页进行侵权判定造成的资源浪费。在对第一多媒体内容对应的多个网页进行侵权判定的场景下,首先确定第一多媒体内容的归属情况,若第一多媒体内容不属于第一多媒体平台,则无需再对多个网页的侵权情况进行分析,大大提高了对网页进行侵权识别的效率。
情况二:在第二元信息指示的归属对象信息与第一多媒体平台对应的归属对象信息不匹配的情况下,获取对第一网页的第二识别结果。
其中,第二识别结果用于指示第一多媒体内容不属于第一多媒体平台。
可选地,将第一元信息与预设元信息进行匹配;在第一元信息指示的归属对象信息与第一多媒体平台对应的归属对象信息不匹配的情况下,将第二元信息与预设元信息进行匹配;在第二元信息指示的归属对象信息与第一多媒体平台对应的归属对象信息不匹配的情况下,获取对第一网页的第二识别结果。
可选地,在第一元信息指示的归属对象不属于对象授权范围的情况下,将第二元信息与预设元信息进行匹配。示意性的,本申请提供的网页识别方法通过判断网页是否属于多媒体平台对应的授权对象范围判断该网页是否为授权网页,增加了进行侵权判定的场景,例如:适用于平台具有网页白名单的场景。
可选地,在第二元信息指示的归属对象不属于平台范围内的情况下,获取第二识别结果。示意性的,本申请提供的网页识别方法通过判断第一多媒体内容的归属对象是否属于多媒体平台对应的平台范围,增加了进行侵权判定的场景,例如:公司A下面包括多个子公司,公司A和多个子公司之间共享对多媒体内容的所有权,那么,当某个平台侵权了公司A下面的子公司的多媒体内容时,本申请提供的方法也能进行侵权判定,提高了在对网页进行侵权判定时的覆盖率和覆盖深度。
示意性的,进行元信息匹配时,首先匹配第一元信息和预设元信息,然后匹配第二元信息和预设元信息。承接上述举例,判断用户B不是用户A或者用户B不属于第一多媒体平台的网页白名单中的用户之后,判断用户C不是用户A或者用户C不属于第一多媒体平台的平台白名单中的用户,表示第一多媒体内容不属于第一多媒体平台,即对于第一多媒体平台来说,第一网页不存在侵权行为。
或者,将第二元信息与预设元信息进行匹配;在第二元信息指示的归属对象信息与第一多媒体平台对应的归属对象信息不匹配的情况下,获取对第一网页的第二识别结果。
可选地,在第二元信息指示的归属对象不属于平台范围内的情况下,获取第二识别结果。
示意性的,进行元信息匹配时,首先匹配第二元信息和预设元信息,然后匹配第一元信息和预设元信息。承接上述举例,即直接判断用户C不是用户A或者用户C不属于第一多媒体平台的平台白名单中的用户。
情况三:在第一元信息指示的归属对象信息与第一多媒体平台对应的归属对象信息匹配的情况下,获取对第一网页的第三识别结果。
其中,第三识别结果用于指示第一网页具有对第一多媒体平台中的多媒体内容的播放权限。
可选地,将第一元信息与预设元信息进行匹配;在第一元信息指示的归属对象信息与第一多媒体平台对应的归属对象信息匹配的情况下,获取对第一网页的第三识别结果。
可选地,在第一元信息指示的归属对象属于对象授权范围的情况下,获取第三识别结果。
示意性的,进行元信息匹配时,首先匹配第一元信息和预设元信息,然后匹配第二元信息和预设元信息。承接上述举例,判断用户B是用户A或者用户B属于第一多媒体平台的网页白名单中的用户,表示第一网页是第一多媒体平台的授权网页,即对于第一多媒体平台来说,第一网页不存在侵权行为。
或者,将第二元信息与预设元信息进行匹配;在第二元信息指示的归属对象信息与第一多媒体平台对应的归属对象信息匹配的情况下,将第一元信息与预设元信息进行匹配;在第一元信息指示的归属对象信息与第一多媒体平台对应的归属对象信息匹配的情况下,获取对第一网页的第三识别结果。
可选地,在第二元信息指示的归属对象不属于平台范围内的情况下,将第一元信息与预设元信息进行匹配;在第一元信息指示的归属对象属于对象授权范围的情况下,获取第三识别结果。
示意性的,进行元信息匹配时,首先匹配第二元信息和预设元信息,然后匹配第一元信息和预设元信息。承接上述举例,判断用户C是用户A或者用户C属于第一多媒体平台的平台白名单中的用户之后,判断用户B是用户A或者用户B属于第一多媒体平台的网页白名单中的用户。
需要进行说明的是,上述对识别结果的情况说明仅为示意性的举例,本申请实施例对此不进行限定。
在一些实施例中,若确定第一网页存在侵权行为,则需要对第一网页进行标记输出。可选地,基于第一识别结果获取对第一网页的输出结果,其中,输出结果中包括第一网页的网页链接、第一多媒体内容的资源链接和第一多媒体平台的归属对象名称。示意性的,第一网页的输出结果的输出格式为[第一网页的URL、第一多媒体内容的URL、第一多媒体平台的归属对象名称]。
综上所述,本申请实施例提供的网页识别方法,通过第一网页的网页链接获取第一网页中包含的多媒体内容的资源链接,然后将网页链接的归属对象信息和资源链接的归属对象信息与第一多媒体平台的归属对象信息进行匹配,根据匹配结果确定第一多媒体平台是否授权第一网页播放第一多媒体内容,即对于第一多媒体平台来说第一网页是否存在侵权行为。本申请提供的网页识别方法仅需要对网页、多媒体内容以及多媒体平台对应的链接的归属对象信息进行分析,相较于相关技术中对具体的多媒体内容进行分析,大大减少了对计算机设备的算力、存储等资源开销,且由于归属对象信息较为简单,减少了侵权判断的难度,从而提高了对网页侵权行为的识别效率。另外,由于本申请从链接的角度进行侵权判断,避免了对具体的多媒体内容进行分析导致的误判问题,提高了对网页侵权行为的识别准确度。
在一些实施例中,针对输入的网页,在对该网页进行识别之前,需要判断该网页的网页类型是否与预设多媒体内容类型匹配,若符合类型匹配条件即确定该网页为待识别的第一网页。示意性的,如图3所示,上述图2所示出的实施例还可实现为如下步骤310至步骤370。
步骤310,获取候选网页对应的网页信息。
其中,网页信息用于指示与候选网页相关联的文本数据。
可选地,候选网页中包含的多媒体内容的内容类型包括视频、音频、图像、文本等中的至少一种,本申请实施例对此不进行限定。
可选地,网页信息包括候选网页的网页内容、候选网页的网页标题、候选网页的网页链接等中的至少一种,其中,网页内容用于指示候选网页的网页页面中包含的页面文本。
可选地,对第一网页的网页页面进行文本识别,得到候选网页的网页内容。示意性的,对第一网页的网页页面进行光学字符识别(Optical Character Recognition,OCR)后,提取该网页页面中包含的文本数据作为候选网页的网页内容。或者,对第一网页对应的HTML文件进行文本提取,得到候选网页的网页内容。示意性的,提取HTML文件的HTML代码中位于<body>标签内的页面文本(即会显示在网页页面的文本),将该文本内容作为候选网页的网页内容。
可选地,对第一网页的网页页面进行文本识别,得到候选网页的网页标题。示意性的,对第一网页的网页页面进行光学字符识别后,提取该网页页面中包含的标题数据作为候选网页的网页内容。或者,对第一网页对应的HTML文件进行文本提取,得到候选网页的网页标题。示意性的,提取HTML文件的HTML代码中位于<title>标签内的页面标题,将该页面标题作为候选网页的网页内容。
可选地,获取候选网页的网页链接即获取候选网页对应的候选URL。
步骤320,提取网页信息对应的文本特征表示。
可选地,通过类型识别模型对网页信息进行特征提取,得到网页信息对应的文本特征表示,类型识别模型用于识别候选网页的网页类型。
示意性的,类型识别模型包括基于卷积神经网络(Convolutional NeuralNetwork、CNN)的模型、基于变压器的双向编码器表示(Bidirectional EncoderRepresentations from Transformers,BERT)模型、基于循环神经网络(Recurrent NeuralNetwork,RNN)的模型等中的至少一种,本申请实施例对此不加以限定。
上述候选网页的网页类型用于指示候选网页中的主体多媒体内容的内容类型。示意性的,对于候选网页来说,若网页的主体内容是围绕视频播放而呈现的网页,则候选网页属于视频类型网页;若网页的主体内容是围绕音频播放而呈现的网页,则候选网页属于音频类型网页。
可选地,以网页信息包括候选网页的网页内容、候选网页的网页标题、候选网页的网页链接为例进行说明。
在一些实施例中,提取网页内容对应的第一文本特征表示;提取网页标题对应的第二文本特征;提取网页链接对应的第三文本特征表示;将第一文本特征表示、第二文本特征表示以及第三文本特征表示作为网页信息对应的文本特征表示。示意性的,通过类型识别模型分别对候选网页的网页内容、候选网页的网页标题、候选网页的网页链接进行特征提取,得到第一文本特征表示、第二文本特征表示以及第三文本特征表示。
在另一些实施例中,提取网页内容对应的第一文本特征表示;提取网页标题对应的第二文本特征;提取网页链接对应的第三文本特征表示;将第一文本特征表示、第二文本特征表示以及第三文本特征表示进行特征融合处理,得到融合特征表示作为网页信息对应的文本特征表示。示意性的,通过类型识别模型分别对候选网页的网页内容、候选网页的网页标题、候选网页的网页链接进行特征提取,得到第一文本特征表示、第二文本特征表示以及第三文本特征表示;通过类型识别模型对第一文本特征表示、第二文本特征表示以及第三文本特征表示进行特征融合,得到融合特征表示。
可选地,进行特征融合的方法包括如下至少一种:
1、基于注意力机制融合多个文本特征表示;
2、通过特征相加的方法融合多个文本特征表示;
3、通过特征向量相连接的方法融合多个文本特征表示。
需要进行说明的是,上述对多个文本特征表示进行特征融合的方法仅为示意性的举例,本申请实施例对特征融合的方法不加以限定。
示意性的,以基于注意力机制融合多个文本特征表示为例进行说明,该步骤包括:基于注意力机制计算得到第一文本特征表示、第二文本特征表示以及第三文本特征表示分别对应的注意力权重;基于第一文本特征表示、第二文本特征表示以及第三文本特征表示分别对应的注意力权重,对第一文本特征表示、第二文本特征表示以及第三文本特征表示进行加权融合,得到融合特征表示。
步骤330,基于文本特征表示对候选网页进行类型识别,得到候选网页的网页类型。
可选地,通过类型识别模型对文本特征表示进行类型预测,得到候选网页的网页类型。
在一些实施例中,该类型识别模型属于二分类的模型,即判断候选网页的网页类型是否为目标网页类型,该目标网页类型是指与预设多媒体内容类型符合类型匹配条件的网页类型。
示意性的,通过类型识别模型对文本特征表示进行类型预测,得到候选网页的网页类型属于目标网页类型的置信度;响应于置信度大于或者等于预设置信度,确定候选网页的网页类型为目标网页类型。
其中,在将第一文本特征表示、第二文本特征表示以及第三文本特征表示作为网页信息对应的文本特征表示的情况下,基于第一文本特征表示、第二文本特征表示以及第三文本特征表示分别进行类型预测,得到第一置信度、第二置信度和第三置信度;对第一置信度、第二置信度和第三置信度进行加权融合,得到融合后的置信度作为候选网页对应的置信度。
在另一些实施例中,该类型识别模型属于多分类的模型,即判断候选网页的网页类型属于多个预设类型中的哪一个类型。
示意性的,通过类型识别模型对文本特征表示进行类型预测,得到多个预设类型分别对应的置信度;将多个预设类型分别对应的置信度中置信度最高的预设类型作为候选网页的网页类型。
其中,在将第一文本特征表示、第二文本特征表示以及第三文本特征表示作为网页信息对应的文本特征表示的情况下,基于第一文本特征表示、第二文本特征表示以及第三文本特征表示分别进行类型预测,得到多个预设类型中每个预设类型对应的第一置信度、第二置信度和第三置信度;对第一置信度、第二置信度和第三置信度进行加权融合,得到融合后的置信度作为预设类型对应的置信度。
示意性的,以类型识别模型实现为二分类模型,目标网页类型实现为视频类型为例进行说明,请参考图4,其示出了一个视频网页识别模型的结构示意图,如图4所示,视频网页识别模型的输入数据包括:网页URL、网页标题、网页内容,该视频网页识别模型用于预测输入的单条网页中的文本内容的类型,并识别其是否为视频类型网页。
将网页URL、网页标题、网页内容输入视频网页识别模型后,通过嵌入层提取网页URL、网页标题、网页内容分别对应的字向量或者词向量。如图4所示,提取网页URL(410)对应的网页URL字母向量embedding(411);网页标题(420)对应的网页标题字向量(421)、网页标题词向量(422);网页内容(430)对应的网页内容字向量(431)、网页内容词向量(432)。其中,嵌入层包括基于Word2Vec的网络、基于词袋模型的网络等中的至少一种。
然后,将各字向量或者词向量分别输入至卷积层进行处理,对处理后的字向量或者词向量进行池化。如图4所示,将网页URL字母向量(411)输入卷积层CNN_1,并将卷积层CNN_1的输出特征输入池化层1进行池化处理得到特征表示1,即上述第三特征表示;将网页标题字向量(421)、网页标题词向量(422)输入卷积层CNN_2,并将卷积层CNN_2的输出特征输入池化层2进行池化处理得到特征表示2,即上述第二特征表示;将网页内容字向量(431)、网页内容词向量(432)输入卷积层CNN_3,并将卷积层CNN_3的输出特征输入池化层3进行池化处理得到特征表示3,即上述第一特征表示。
最后,将特征表示1、特征表示2和特征表示3输入注意力层进行融合,得到融合特征表示,将该融合特征表示输入前向网络层进行类型预测,输出预测结果440,该预测结果440即为视频网页识别结果,结果的格式为置信度向量。
示意性的,本实施例中,视频网页识别模型的输入输出可实现为如下格式:
输入:
URL=‘www.bofangvideo.com/video_id=12345678’
Title=‘播放《某某传奇》’
Body=‘当前播放位置首页科幻片《某某传奇》HD某某传奇1.0类型:科幻地区:地区A年份:2008主演:……’
输出:
置信度:[0.98 0.02]
上述置信度代表属于视频类型网页的置信度为0.98,不属于视频类型网页的置信度为0.02。可选地,若预设置信度为0.8,则表示上述输入的数据对应的网页属于视频类型网页。
在一些实施例中,通过类型识别模型对候选网页的网页信息进行分析预测之前,还需要对类型识别模型进行训练。
可选地,获取样本网页的网页信息,该网页信息用于指示与样本网页相关联的文本数据,该样本网页标注有参考网页类型;通过候选类型识别模型提取网页信息对应的样本文本特征表示;通过候选类型识别模型对样本文本特征表示进行类型预测,得到样本网页对应的预测网页类型;基于参考网页类型和预测网页类型之间的差异对候选类型识别模型进行训练,得到类型识别模型,该类型识别模型用于识别输入网页的网页类型。
可选地,样本网页的网页信息包括样本网页的网页内容、样本网页的网页标题、样本网页的网页链接等中的至少一种,其中,样本网页的网页内容是指样本网页的网页页面中包含的文本内容。
可选地,本申请实施例中,基于参考网页类型和预测网页类型之间的差异,确定类型损失;基于类型损失对候选类型识别模型进行训练,得到类型识别模型。其中,类型损失对应的损失函数可实现为交叉熵损失函数、L1损失函数、L2损失函数等中的至少一种,本申请实施例对此不进行限定。
示意性的,以交叉熵损失函数为例进行说明,计算类型损失的交叉熵损失函数Hθ(y)的计算公式如下公式一所示:
其中是pθ(xi)是预测结果,θ是模型参数,yi是独热格式的真实标签,i代表数据下标,m代表当前批次数据数量,训练过程以降低损失函数计算的损失值为目标。
本实施例中,在构建训练数据集(即样本网页的网页信息和样本网页标注的参考网页类型)时,可采用软去重策略对高度相似的网页进行去重处理,从而提高对样本网页的标注效率。
可选地,获取n个候选网页分别对应的网页信息,n为大于1的整数;提取n个候选网页分别对应的候选文本特征表示;基于n个候选文本特征表示,确定n个候选网页之间的相似度;基于n个候选网页之间的相似度,对n个候选网页进行去重处理,得到n个候选网页中的m个样本网页,m≤n,m为正整数;对m个样本网页进行标注,得到m个样本网页分别对应的参考网页类型。
示意性的,假设包括候选网页1、候选网页2和候选网页3,它们两两之间的相似度从小到大的排序为:候选网页1-候选网页2、候选网页1-候选网页3、候选网页2-候选网页3,则保留候选网页1、候选网页2,对候选网页1、候选网页2进行标注。
在一些实施例中,上述候选文本特征表示可实现为候选网页对应的哈希值。则可通过最小哈希(minhash)算法+局部敏感哈希(Locality Sensitive Hashing,LSH)算法实现上述软去重策略。示意性的,请参考图5,其示出了一种标注数据的流程图,如图5所示,对n个候选网页501进行智能软去重502,其中,智能软去重502包括两个部分:
第一、分词构建词频矩阵。
可选地,对n个候选网页分别对应的网页信息进行分词处理,得到n个候选网页对应的词频矩阵。
其中,词频矩阵的列表示n个网页信息,词频矩阵的行表示p个分词,构成词频矩阵的元素表示词频。其中,p个分词是指n个网页信息对应的全体分词,词频表示分词在网页信息中的出现频率(或者次数),例如:词频矩阵的第j行第i列的元素表示第j个分词在第i个网页信息指示的文本中的出现频率(或者次数),其中,i≤n且i为正整数,j≤p且j为正整数。
第二、minhash-LSH流式去重策略。
可选地,基于最小哈希算法对词频矩阵进行哈希值计算,得到n个候选网页分别对应的哈希值。
示意性的,上述最小哈希算法是一种常用的近似集合匹配算法。它通过随机哈希函数对集合中的元素进行映射来减小计算量。具体来说,最小哈希算法将集合中的元素随机打乱顺序后,计算每个元素的哈希值,然后选取其中最小的哈希值作为该元素的签名。
例如:假设有两个集合A和B,它们的元素分别为:A={a,b,c}、B={b,c,d};使用最小哈希算法对这两个集合生成签名,假设签名长度为3,即对每个元素生成3个哈希值(采用不同的哈希函数生成不同的哈希值),选取其中最小的值作为签名。得到的签名分别为:sig(A)=[2,1,3]、sig(B)=[1,1,2]。本实施例中,可以将词频矩阵中的列(即网页信息)看成集合,将构成词频矩阵的元素(即词频)看成集合中的元素;最后得到集合的签名即为候选网页的哈希值,也即候选网页的候选文本特征表示。
可选地,依次遍历n个候选网页分别对应的哈希值,通过局部敏感哈希算法对n个候选网页分别对应的哈希值进行相似度搜索,基于搜索结果对n个候选网页进行去重处理,得到n个候选网页中的m个样本网页。
示意性的,上述LSH算法用于在大规模数据集中寻找相似项,通过LSH算法对可以将n个候选网页分别对应的哈希值进行分桶,其中,相同或者高度相似的候选网页的哈希值被划分在一个哈希桶中,对于该哈希桶中的哈希值对应的候选网页,基于编辑距离(EditDistance)二次计算该哈希桶中的哈希值对应的候选网页之间的相似度,若其中候选网页1和候选网页2之间的相似度大于或者等于相似度阈值,则候选网页1和候选网页2不参与后续的人工标注,若候选网页1和候选网页2小于相似度阈值,则将候选网页1和候选网页2确定为样本网页,并且将n个候选网页中未进行二次相似度计算的候选网页也确定为样本网页,从而完成对n个候选网页的去重处理。
可选地,在得到m个样本网页,将m个样本网页存入待标记数据集中,人工标注对待标记数据集中的样本进行标记,即人工标注样本网页503,将标记结果连同样本网页的网页信息一同存入数据库中。
步骤340,在候选网页的网页类型与预设多媒体内容类型符合类型匹配条件的情况下,确定候选网页为第一网页。
其中,第一网页中包括第一多媒体内容,第一多媒体内容属于预设多媒体内容类型。
可选地,候选网页的网页类型与预设多媒体内容类型符合类型匹配条件是指候选网页的网页类型属于目标网页类型。
示意性的,若第一多媒体内容对应的内容类型为视频类型,则目标网页类型为视频类型;若第一多媒体内容对应的内容类型为音频类型,则目标网页类型为音频类型;若第一多媒体内容对应的内容类型为图像类型,则目标网页类型为图像类型等。
步骤350,基于第一网页对应的网页链接获取第一多媒体内容对应的资源链接。
其中,资源链接用于指示存储第一多媒体内容的网络节点。
在一些实施例中,若上述网页信息中包含候选网页的网页链接,即包含第一网页的网页链接,则直接基于第一网页对应的网页链接获取第一多媒体内容对应的资源链接。在另一些实施例中,若上述网页信息中不包含候选网页的网页链接,即不包含第一网页的网页链接,则基于第一网页对应的网页链接获取第一多媒体内容对应的资源链接之前,获取第一网页对应的网页链接。
步骤360,基于网页链接获取第一网页对应的第一元信息,基于资源链接获取第一多媒体内容对应的第二元信息。
其中,第一元信息用于指示网页链接的归属对象信息,第二元信息用于指示资源链接的归属对象信息。示意性的,元信息通常是指一个网络链接难以掩饰的真实信息,如指示归属对象的信息,其中,归属对象通常是指资源(如第一网页、第一多媒体内容等)所属的组织、机构或者个人等。
步骤370,将第一元信息和第二元信息与第一多媒体平台对应的预设元信息进行匹配,基于匹配结果获取对第一网页的识别结果。
其中,预设元信息用于指示第一多媒体平台对应的归属对象信息,识别结果用于指示第一多媒体平台对第一网页播放第一多媒体内容的授权情况。
示意性的,以WHOIS备案信息为例进行说明,第一多媒体平台的归属对象为用户A,根据第一网页的网页链接查询到的WHOIS注册人为用户B,根据第一多媒体内容的资源链接查询到的WHOIS注册人为用户C。若用户B不是用户A或者用户B不属于第一多媒体平台的网页白名单中的用户,则表示第一网页不是第一多媒体平台的授权网页,此时,若用户C是用户A或者用户C属于第一多媒体平台的平台白名单中的用户,表示第一多媒体内容属于第一多媒体平台,则表示第一网页在未经第一多媒体平台授权的情况下搬运播放了第一多媒体内容,也即第一网页存在侵权行为。
综上所述,本申请实施例提供的网页识别方法,通过第一网页的网页链接获取第一网页中包含的多媒体内容的资源链接,然后将网页链接的归属对象信息和资源链接的归属对象信息与第一多媒体平台的归属对象信息进行匹配,根据匹配结果确定第一多媒体平台是否授权第一网页播放第一多媒体内容,即对于第一多媒体平台来说第一网页是否存在侵权行为。本申请提供的网页识别方法仅需要对网页、多媒体内容以及多媒体平台对应的链接的归属对象信息进行分析,相较于相关技术中对具体的多媒体内容进行分析,大大减少了对计算机设备的算力、存储等资源开销,且由于归属对象信息较为简单,减少了侵权判断的难度,从而提高了对网页侵权行为的识别效率。另外,由于本申请从链接的角度进行侵权判断,避免了对具体的多媒体内容进行分析导致的误判问题,提高了对网页侵权行为的识别准确度。
本申请提供的方法,能够对候选网页的网页信息,例如:URL、标题、正文等进行分析和特征提取,从而识别该网页是否为指定类型的第一网页,降低了后续需要处理的网页数据,提高了对网页进行侵权识别的效率。
本申请提供的方法,针对网页信息中的网页URL、网页标题、网页内容等,分别构造多个特征提取网络,独立提取特征后进行联合预测,提高了对于网页的类型识别的准确率。
在一些实施例中,针对输入的网页,在对该网页进行识别之前,可以对该网页进行初步的侵权判断,即判断该网页存在侵权行为的可能性,当该可能性较大时,确定该网页为第一网页。示意性的,如图6所示,上述图2或者图3所示出的实施例还可实现为如下步骤610至步骤660。
步骤610,获取候选网页对应的网页信息。
其中,网页信息用于指示与候选网页相关联的文本数据。
可选地,候选网页中包含的多媒体内容的内容类型包括视频、音频、图像、文本等中的至少一种,本申请实施例对此不进行限定。
可选地,网页信息包括候选网页的网页内容、候选网页的网页标题、候选网页的网页链接等中的至少一种,其中,候选网页的网页内容是指候选网页的网页页面中包含的文本内容。
需要进行说明的时,关于获取网络信息的具体说明可参考步骤310,此处不再赘述。
步骤620,基于网页信息获取候选网页对应的置信度。
其中,置信度用于指示候选网页属于第一多媒体平台未授权的网页的可能性。
可选地,确定候选网页对应的置信度的方法包括以下方法中的至少一种:
方法一:基于第一多媒体平台的平台关键词进行确定。
可选地,获取第一多媒体平台的平台关键词;将平台关键词与网页信息进行匹配,基于匹配结果确定候选网页对应的置信度。
其中,平台关键词包括第一多媒体平台的平台名称、第一多媒体平台中目标多媒体内容的内容名称中的至少一个,目标多媒体内容是指第一多媒体平台中指定类型的多媒体内容。
可选地,指定类型的多媒体内容可实现为仅在第一多媒体平台播出的多媒体内容。
示意性的,以第一多媒体平台实现为视频平台为例进行说明,收集具有CDN播放能力的大视频平台,将这些视频平台的名称作为关键词,构造成为大视频平台词典,此外,还对关键词进行一些对抗性变化,如:平台a->pingtaia等,变化后的关键词同样加入到大视频平台词典中。利用大视频平台词典,对网页内容进行匹配,若有成功匹配其中任意一个关键词的,则该网页的置信度+20。
或者,收集这些视频平台的独播视频,并且将独播视频的名词构造成为独播视频词典,此外,也对这里面的独播视频名称进行一些对抗性变化,变化后的关键词同样加入到独播视频词典。利用独播视频词典,对网页内容进行匹配,若有成功匹配其中任意一个关键词的,则该网页的置信度+30。
方法二:基于第一网页对应的超文本标记语言进行确定。
对预设网页对应的超文本标记语言进行格式分析,得到预设网页对应的超文本标记语言的格式特征,预设网页中包括通过目标链接获取的多媒体内容,目标链接是预设网页在未经授权的情况下引用的目标节点提供的链接;将格式特征与候选网页对应的超文本标记语言进行匹配,基于匹配结果确定候选网页对应的置信度。
示意性的,预设网页可实现为包括存在CDN引链的网页,CDN引链指的是CDN权利所有者的CDN链接(例如:多媒体内容对应的资源链接等),被外部非法引用并在其他网页中进行播放或者展示的一种情形。
示意性的,通过对CDN引链网页(即预设网页)进行HTML格式分析,可以得到CDN引链网页具有的一些特殊的特征,如:特殊的video播放的HTML组件等,将这些HTML的组件记录为关键词策略,形成CDN引链网页HTML策略词典;利用CDN引链网页HTML策略词典,对网页的HTML进行匹配,若有成功匹配其中任意一个关键词策略的,则该网页的置信度+30。
在一些实施例中,对于候选网页,首先进行网页类型的判断,在确定候选网页的网页类型与第一多媒体内容的内容类型匹配后,基于网页信息获取候选网页对应的置信度。
可选地,提取网页信息对应的文本特征表示;基于文本特征表示对候选网页进行类型识别,得到候选网页的网页类型,网页类型用于指示候选网页中的主体多媒体内容的内容类型;在网页类型与第一多媒体内容对应的内容类型匹配的情况下,基于网页信息获取候选网页对应的置信度。
步骤630,在候选网页对应的置信度符合预设分数要求的情况下,确定候选网页为第一网页。
可选地,第一网页中包含第一多媒体内容。
可选地,响应于候选网页对应的置信度大于或者额等于预设置信度分数,确定候选网页对应的置信度符合预设分数要求。示意性的,若某个网页的置信度>=50的,判断为可疑网页,即将该网页确定为第一网页。
步骤640,基于网页链接获取第一多媒体内容对应的资源链接。
其中,资源链接用于指示存储第一多媒体内容的网络节点。
在一些实施例中,若上述网页信息中包含候选网页的网页链接,即包含第一网页的网页链接,则直接基于第一网页对应的网页链接获取第一多媒体内容对应的资源链接。在另一些实施例中,若上述网页信息中不包含候选网页的网页链接,即不包含第一网页的网页链接,则基于第一网页对应的网页链接获取第一多媒体内容对应的资源链接之前,获取第一网页对应的网页链接。
步骤650,基于网页链接获取第一网页对应的第一元信息,基于资源链接获取第一多媒体内容对应的第二元信息。
其中,第一元信息用于指示网页链接的归属对象信息,第二元信息用于指示资源链接的归属对象信息。示意性的,元信息通常是指一个网络链接难以掩饰的真实信息,如指示归属对象的信息,其中,归属对象通常是指资源(如第一网页、第一多媒体内容等)所属的组织、机构或者个人等。
步骤660,将第一元信息和第二元信息与第一多媒体平台对应的预设元信息进行匹配,基于匹配结果获取对第一网页的识别结果。
其中,预设元信息用于指示第一多媒体平台对应的归属对象信息,识别结果用于指示第一多媒体平台对第一网页播放第一多媒体内容的授权情况。
综上所述,本申请实施例提供的网页识别方法,通过第一网页的网页链接获取第一网页中包含的多媒体内容的资源链接,然后将网页链接的归属对象信息和资源链接的归属对象信息与第一多媒体平台的归属对象信息进行匹配,根据匹配结果确定第一多媒体平台是否授权第一网页播放第一多媒体内容,即对于第一多媒体平台来说第一网页是否存在侵权行为。本申请提供的网页识别方法仅需要对网页、多媒体内容以及多媒体平台对应的链接的归属对象信息进行分析,相较于相关技术中对具体的多媒体内容进行分析,大大减少了对计算机设备的算力、存储等资源开销,且由于归属对象信息较为简单,减少了侵权判断的难度,从而提高了对网页侵权行为的识别效率。另外,由于本申请从链接的角度进行侵权判断,避免了对具体的多媒体内容进行分析导致的误判问题,提高了对网页侵权行为的识别准确度。
本申请提供的方法,能够对候选网页的网页信息进行置信度(或指可疑度)分析,从而对网页进行初步的侵权判断,进一步降低了后续需要处理的网页数据,提高了对网页进行侵权识别的效率。
本申请提供的方法,基于第一多媒体平台的平台关键词确定置信度,从平台呈现的内容的角度置信度分析,提高了确定的置信度的准确性。
本申请提供的方法,第一多媒体平台的平台关键词包括平台名称、平台中包括的指定类型的多媒体内容的内容名称等,平台关键词与平台之间的关联程度较高,进一步提高了确定的置信度的准确性。
本申请提供的方法,基于预设网页(例如:涉及CDN引链情形)的超文本标记语言的格式特征确定置信度,从网页的源代码出发,挖掘预设网页之间的共性特征,提高了确定的置信度的准确性。
示意性的,本申请提供的网页识别方法可应用于侵权检测场景、版权管理场景等,本申请实施例对此不进行限定。下面,以网页识别方法应用于视频侵权检测场景为例进行说明。
视频侵权是互联网中常见的侵权行为,由于涉及内容比对,其计算、存储开销巨大,并且难度高;此外,现如今各大互联网视频平台都采用了CDN作为分布式存储和播放方案,该方案存在的缺点是容易被黑灰产所利用,黑灰产直接将正版视频平台的CDN引流到自己的盗版视频网站中,形成流量和内容的双重侵权;因此本申请提出了一种基于反CDN引链的视频侵权检测方案,来解决以上问题。
对视频网页的提取,是本方案的重要步骤之一。视频网页是互联网网页中的一种,其具有语义复杂、内容多样化、范围无限、具有一定对抗性的特点。因此采用普通的关键词匹配模型,势必无法以足够的精度、召回率从互联网中检出视频网页。此外,视频网页的数量巨大,为了提升后续流程效率,还需要针对业务进行数据精选,排除侵权概率低的数据,本方案将尝试利用深度学习方案以及针对业务设计的策略模型克服以上的难点。
在获得可疑视频网页以及每个网页所涉及的CDN后,还需要验证该网页中的CDN是否为存在视频侵权行为。其中,若对CDN的内容进行采集并于正版内容进行比对,其带宽、存储、计算开销较高。考虑到网页以及CDN的元信息,如ICP备案、WHOIS备案等是难以掩饰的真实信息,本方案采用以上网页链接和CDN链接的元信息,设计智能策略进行研判,从而将CDN引链情况下的视频侵权违规线索给挖掘出来。
针对本申请提出的基于反CDN引链的视频侵权检测方案,首先对方案的整体架构设计进行说明,请参考图7,其示出了本申请实施例提供的视频侵权检测方案的闭环架构设计图。
图7展示了本申请提出的基于反CDN引链的视频侵权检测方案的闭环架构设计,如图7所示,本申请提出的基于反CDN引链的视频侵权检测方案的闭环架构设计具有实现/运行成本低,识别召回率/精度高,线上效能优秀的优点。用于解决相关技术中视频内容侵权比对成本高、难度大、侵权行为广泛但在小视频网站上的检测覆盖率不足等技术问题。
本方案设计了串行执行的面向涉及CDN引链的视频网页识别模块710、基于网页与CDN元信息研判的视频侵权行为检测模块720,并将以上模块形成端到端的全流程,输入网页URL、网页标题和网页内容,输出识别结果,即所挖掘得到的小视频网站URL以及被其所侵权的正版方。
在模块实现框架中:模块710包含基于深度学习的视频网页识别模型、基于专家策略的CDN引链网页筛选模型,模块720包含基于网页与CDN的元信息研判视频侵权行为检测模型等。
在流程上,方案通过视频网页识别模型,从纷繁复杂的互联网网页中,识别提取出视频类型的网页;然后,利用专家策略模型,从以上视频网页中预先筛选出可疑CDN引链网页,这些数据会被输入到下一个环节中做侵权研判;而后,对以上网页进行模拟动态播放并获取其CDN链接,关联获取该网页以及CDN的元信息如WHOIS备案、ICP备案等信息,基于以上信息进行侵权判断,输出侵权的小视频网站URL以及被其所侵权的正版方。
以下参考图8对各个模块进行详细阐述,图8示出了本申请提供的视频侵权检测方案的整体流程图。
一、整体架构的输入与输出说明。
系统,即视频侵权检测系统的输入是不限范围的互联网网页800及其网页文本内容,包括网页URL、网页标题和网页内容,在实际应用中,系统是定期运行的,每次的输入包含亿量级的网页,此处以单个网页为例进行说明展示。
系统的输出是以各个受到视频侵权的客户/潜在客户为单位的,以及侵犯了这些客户权益的视频侵权链接,以及对应的视频CDN链接,其中一个客户可能对应多个视频侵权链接。示意性的,请参考表1,其示出了一种系统输出:客户-侵权链接关联信息表。
表1
二、面向涉及CDN引链的视频网页识别模块。
该模块负责对纷繁复杂的输入的所有互联网网页进行分析,并快速、极高覆盖率地获得判断网页是否属于视频网页,并且基于专家策略模型对这些网页进行二次过滤,从而获得涉及CDN引链的视频网页,即可疑网页。
1、视频网页识别模型810。
视频网页识别模型的输入为网页URL、网页标题和网页内容,以文本格式输入,输入数量不定,可假设为N。模型输出代表视频网页识别结果,结果的格式为置信度向量。
视频网页识别模型结构设计的说明可参考图4相关的说明内容,此处不再赘述。视频网页识别模型用于预测输入的单条网页中的文本内容的类型,并识别其是否为视频类型网页。图4即为本方案设计的分类模型,以CNN模型作为基础构型,针对网页内容中的网页URL、网页标题、网页内容等,分别构造多个特征提取网络,独立提取特征后进行联合预测和梯度回传训练。其中,选择以上特征的原因是,视频播放类的URL其本身具有一些较为明显的特征和格式,网页的title则一般能表明该网页的大体内容,而网页body则是对网页内容的实际展示。所以以上三种特征的粒度从粗往细,层层递进,通过对他们进行分别编码和融合识别,能获得效果良好的识别模型。其中字母向量、字向量、词向量,均由目前成熟的字词向量训练方式,在互联网网页数据上训练获得,这种方式获得的字词向量对任务具有更好的适配性。在分类节点方面,本方案模型的结尾,设定了一个二分类Sigmoid函数,用于输出是否为视频播放网页的置信度。
视频网页识别模型训练方案的说明可参考图5相关的说明内容,其中,深度学习模型需要有标签数据指导训练才能获得效果,因此人工标注工作是无可避免的。然而在标注过程中,会有部分网页的内容高度类似,对这些网页重复标记并不能给模型训练提供太多新的信息,因此高度相似网页的重复标记是冗余操作,会降低标注的效率;基于此问题,本方案提出了一种基于minhash+LSH的软去重方案,具体如下:
首先对网页文本进行分词,而后构建词频矩阵,接着基于minhash算法将所有待标记网页文本计算出hash值,该hash值将作为每个网页的文本特征;接着构建LSH池;将数据以流式进入到LSH中,如果存在相似样本,则将样本提取出来。并基于编辑距离进行二次计算相似度,确定为高度相似样本的,则只存入LSH中;如果没有从LSH中提取得到相似样本或者二次计算相似度低于阈值,则将该样本存入待标签数据集中,并存入LSH;循环执行该过程直到数据遍历完成,待标签数据集中的即为较不相似的样本,具有更大的标记价值;人工对待标签数据集中的样本进行标记,将标记结果连同数据本身存入数据库,该数据库即为训练数据对应的数据库。
如图8所示,当输入的单条网页是视频播放网页时,将单条网页输入涉及CDN引链网页筛选模型820,若输入的单条网页不是视频播放网页时,则跳过该网页。
2、涉及CDN引链网页筛选模型820。
通过以上视频网页识别模型,可从海量的网页中自动识别出视频播放网页。然而,视频播放网页的数据量巨大,会对后续的流程造成大量的机器资源开销,甚至导致流程时间过长而失去实用意义。因此,从海量的视频播放网页中,筛选出较为可疑的,即涉及CDN引链的网页,则对后续的流程运行速度、机器开销等大有裨益。
本方案提出了可疑度(即上述置信度)的概念,并且对于每个网页,该值初始设定为0,并制定了如下的几种专家策略进行打分:
(1)大视频平台关键词
收集具有CDN播放能力的大视频平台,将这些视频平台的名称作为关键词,构造成为大视频平台词典,此外,还对关键词进行一些对抗性变化,变化后的关键词同样加入到大视频平台词典中;利用大视频平台的关键词词典,对网页内容进行匹配,若有成功匹配其中任意一个关键词的,则该网页的可疑度+20。
(2)独家视频关键词
对于具有CDN播放能力的大视频平台,收集这些视频平台的独播视频,并且将独播视频的名词构造成为独播视频词典,此外,也对这里面的独播视频名称进行一些对抗性变化(如上文所述,此处不赘述);利用独播视频词典,对网页内容进行匹配,若有成功匹配其中任意一个关键词的,则该网页的可疑度+30。
(3)网页原信息中的tag
通过对盗播网页的HTML格式分析,可以得到CDN引链网页具有的一些特殊的特征,如特殊的video播放的HTML组件等,将这些HTML的组件记录为关键词策略,形成盗播网页HTML策略词典;利用盗播网页HTML策略词典,对网页的HTML进行匹配,若有成功匹配其中任意一个关键词策略的,则该网页的可疑度+30。
对于视频网页识别模型所识别出的每一个网页,利用专家策略,对网页进行打分,可疑度>=50的,判断为可疑网页,存储起来并作为下一个流程的输入。如图8所示,当输入的视频播放网页是可疑网页时,将网页输入基于网页与CDN元信息研判的视频侵权行为检测模块830,若输入的网页不是可疑网页时,则跳过该网页。
三、基于网页与CDN元信息研判的视频侵权行为检测模块830。
该模块将基于互联网动态采集,对上述环节获得的可疑网页进行CDN链接的动态提取,而后基于CDN链接与可疑网页的元信息等进行研判,进行判断其是否存在视频侵权行为。
1、CDN链接动态采集。
即基于网页动态播放提取CDN链接。
示意性的,用动态模拟的方式打开可疑网页,接着在网页中寻找获得点击播放按钮,模拟点击播放;接着程序查看网络数据包,并在其中找到index.m3u8数据包;下载得到index.m3u8文件,其中存储了这个视频分割出来的n个小视频片段所代表的URL;对以上的URL进行采集,可选地,采集n个小视频片段的最中间那个URL作为CDN样本。
2、网页与CDN链接的元信息获取,并进行视频侵权行为研判。
即基于网页链接与CDN链接的元信息判断是否存在视频侵权行为。
网页是否涉及视频侵权,需要判断该网页的元信息与CDN的元信息匹配情况;而这些元信息特征则包括ICP备案、WHOIS备案等,这些信息可以通过互联网的相关接口进行获取,通过网络相关接口获取的元信息原始数据可实现为如下形式:
(1)ICP备案信息
网站域名:wanzhanA.com
单位名称:公司A
单位性质:企业
网站名称:网站A
网站备案号:AAAAA号-1
审核时间:0000-00-00 00:00:00
网站地址:www.wanzhanA.com
(2)WHOIS备案信息
网站域名:wanzhanA.com
创建时间:0000-00-00 00:00:00
注册时间:0000-00-00 00:00:00
更新时间:0000-00-00 00:00:00
过期时间:0000-00-00 00:00:00
注册人:公司A
邮箱:wangzhanA@mmm.com
其中,各个元信息列出如下表2所示:
表2
得到上述元信息后,具体的视频侵权行为研判方式如下:
对网页的元信息进行判断,与大视频平台白名单进行比对,如果不在白名单中,则视为小视频网站;对于属于小视频网站的网页,检查其中所包含的CDN链接的元信息。
如图8所示,如果这些CDN链接的元信息是属于大平台的,则可以视为CDN引链形式下的视频侵权,即判定输入的可疑网页存在侵权行为;对以上视频侵权的小网站网页URL、引链的CDN的URL、CDN的元信息中所对应的大平台,整理作为一条线索,并存储起来;循环以上过程,将所有的可疑网页进行研判,形成线索库,最终得到的数据输出格式为:[小视频网站URL、引链的CDN的URL、被侵权的大平台]。
若如果这些CDN链接的元信息不属于大平台,即判定输入的可疑网页不存在侵权行为,则跳过该网页。
综上,本申请提出的基于反CDN引链的视频侵权检测的全流程方案设计,包含一个面向涉及CDN引链的视频网页识别模块、一个基于网页与CDN元信息研判的视频侵权行为检测模型,并将以上模块形成端到端的全流程,对于输入的任意网页,方案最终输出该网页中是否存在视频侵权行为,以及盗取的视频所涉及的侵权平台;该方案设计从CDN引链这个角度出发来实现一种视频侵权检测能力,依靠基于深度学习的视频网页识别模块过滤得到大量的视频网页,接着利用专家策略从中二次过滤出高可疑的网页,通过以上的原网页和CDN链接等元信息,最终判断是否存在视频侵权行为。这套方案设计角度新颖、准确率高、由于无需对视频内容进行侵权判断从而成本低廉,为客户带来更多安全保护,具有广阔的应用前景。
本方案提出了一个基于深度学习的针对互联网中扫码验真网页的检出方案,该方案基于视频网页的特性,定制化设计了一种深度学习文本识别模型,对网页中的URL、标题、正文等信息进行分析和特征提取,并融合识别该网页是否为视频网页。在模型实现过程中,为了提升效率,本方案还基于大规模去重技术来提高人工标记速度。以上多种设计契合任务特性,能够以较低的训练成本获得效果良好的模型,并利用模型从纷繁复杂的互联网数据中挖掘出各式各样的视频网页。此外,为了进一步降低后续需处理的网页数量,本方案还设计了一个专家规则模型,用于对网页内容进行检测,以判断其视频侵权的可疑程度,从而将不可疑网页排除,提高了后续流程的执行效率。
本方案提出了一个基于CDN元信息研判的CDN引链行为检测模型,该模块利用网页元信息如网页ICP备案、WHOIS备案等信息,结合以上步骤挖掘出来的CDN元信息如CDN的ICP备案、WHOIS备案等,进行综合研判,判断该网页中的CDN是否非法引用了大视频平台的CDN。通过以上策略模型,可以识别出大量的CDN引链以及视频侵权的网页以及被其所侵权的正版方,具有极高的精度、召回率。这些假货线索,一方面可以提供给对应的企业进行维权操作,保护了其流量安全和内容安全,另一方面也可以提供给相关部门进行系统性的监管行动。
本申请目前主要可应用到互联网视频版权监测业务中。在该业务中,每日检出的数据会被传送到客户的系统中,并分发侵权视频数据给对应的发布主,由发布主确定是否需要进行维权。此外,本申请所发现的数据,可能包括多个互联网视频企业,这些发现的数据,可以作为与这些企业进行合作的基础,具有公益意义。此外,除了互联网短视频侵权监测,本申请还可能发现其他媒体形式的侵权情况,如图片侵权、音频侵权等,可以复用该方案中的技术来快速实现。
示意性的,请参考图9,其示出了本申请一个示例性的实施例提供的网页识别装置的结构框图,该装置包括如下模块:
链接获取模块910,用于获取第一网页对应的网页链接,所述第一网页中包括第一多媒体内容;
所述链接获取模块910,还用于基于所述网页链接获取所述第一多媒体内容对应的资源链接,所述资源链接用于指示存储所述第一多媒体内容的网络节点;
信息获取模块920,用于基于所述网页链接获取所述第一网页对应的第一元信息,基于所述资源链接获取所述第一多媒体内容对应的第二元信息,所述第一元信息用于指示所述网页链接的归属对象信息,所述第二元信息用于指示所述资源链接的归属对象信息;
网页识别模块930,用于将所述第一元信息和所述第二元信息与第一多媒体平台对应的预设元信息进行匹配,基于匹配结果获取对所述第一网页的识别结果,所述预设元信息用于指示所述第一多媒体平台对应的归属对象信息,所述识别结果用于指示所述第一多媒体平台对所述第一网页播放所述第一多媒体内容的授权情况。
在一些实施例中,请参考图10,所述网页识别模块930,包括:
匹配单元931,用于将所述第一元信息与所述预设元信息进行匹配;
所述匹配单元931,用于在所述第一元信息指示的归属对象信息与所述第一多媒体平台对应的归属对象信息不匹配的情况下,将所述第二元信息与所述预设元信息进行匹配;
识别单元932,用于在所述第二元信息指示的归属对象信息与所述第一多媒体平台对应的归属对象信息匹配的情况下,获取对所述第一网页的第一识别结果,所述第一识别结果用于指示第一多媒体平台未授权第一网页播放第一多媒体内容。
在一些实施例中,所述预设元信息还包括所述第一多媒体平台对应的对象授权范围内的对象信息,所述对象授权范围包括所述第一多媒体平台的归属对象;所述匹配单元931,用于在所述第一元信息指示的归属对象不属于所述对象授权范围的情况下,将所述第二元信息与所述预设元信息进行匹配。
在一些实施例中,所述预设元信息还包括所述第一多媒体平台对应的平台范围内的归属对象信息,所述平台范围中包括包含所述第一多媒体平台在内的多个多媒体平台,所述多个多媒体平台共享对多媒体内容的所有权;所述匹配单元931,用于在所述第二元信息指示的归属对象属于所述平台范围内的情况下,获取对所述第一网页的第一识别结果。
在一些实施例中,所述装置还包括:
数据确定模块940,用于获取候选网页对应的网页信息,所述网页信息用于指示与所述候选网页相关联的文本数据;提取所述网页信息对应的文本特征表示;基于所述文本特征表示对所述候选网页进行类型识别,得到所述候选网页的网页类型,所述网页类型用于指示所述候选网页中的主体多媒体内容的内容类型;在所述网页类型与预设多媒体内容类型符合类型匹配条件的情况下,确定所述候选网页为所述第一网页,所述第一网页中的第一多媒体内容属于所述预设多媒体内容类型。
在一些实施例中,所述网页信息包括网页链接、网页标题以及网页内容,所述网页内容用于指示所述候选网页的网页页面中包含的页面文本;所述数据确定模块940,用于提取所述网页内容对应的第一文本特征表示、提取所述网页标题对应的第二文本特征以及提取所述网页链接对应的第三文本特征表示;将所述第一文本特征表示、所述第二文本特征表示以及所述第三文本特征表示进行特征融合处理,得到融合特征表示作为所述文本特征表示。
在一些实施例中,所述数据确定模块940,用于在所述网页类型与所述预设多媒体内容类型符合所述类型匹配条件的情况下,基于所述网页信息获取所述候选网页对应的置信度,所述置信度用于指示所述候选网页属于所述第一多媒体平台未授权的网页的可能性;在所述置信度符合预设分数要求的情况下,确定所述候选网页为所述第一网页。
在一些实施例中,所述数据确定模块940,用于获取所述第一多媒体平台的平台关键词;将所述平台关键词与所述网页信息进行匹配,基于匹配结果确定所述候选网页对应的置信度。
在一些实施例中,所述平台关键词包括所述第一多媒体平台的平台名称、所述第一多媒体平台中目标多媒体内容的内容名称中的至少一个,所述目标多媒体内容是指所述第一多媒体平台中指定类型的多媒体内容。
在一些实施例中,所述数据确定模块940,用于对预设网页对应的超文本标记语言进行格式分析,得到所述预设网页对应的超文本标记语言的格式特征,所述预设网页中包括通过目标链接获取的多媒体内容,所述目标链接是所述预设网页在未经授权的情况下引用的目标节点提供的链接;将所述格式特征与所述候选网页对应的超文本标记语言进行匹配,基于匹配结果确定所述候选网页对应的置信度。
在一些实施例中,所述链接获取模块910,还用于基于所述网页链接,获取所述第一多媒体内容的网络数据包,所述网络数据包用于传输所述第一多媒体内容的播放数据,所述网络数据包中包括所述第一多媒体内容对应的资源链接;从所述网络数据包中提取所述第一多媒体内容对应的资源链接。
综上所述,本申请实施例提供的网页识别装置,通过第一网页的网页链接获取第一网页中包含的多媒体内容的资源链接,然后将网页链接的归属对象信息和资源链接的归属对象信息与第一多媒体平台的归属对象信息进行匹配,根据匹配结果确定第一多媒体平台是否授权第一网页播放第一多媒体内容,即对于第一多媒体平台来说第一网页是否存在侵权行为。本申请提供的网页识别方法仅需要对网页、多媒体内容以及多媒体平台对应的链接的归属对象信息进行分析,相较于相关技术中对具体的多媒体内容进行分析,大大减少了对计算机设备的算力、存储等资源开销,且由于归属对象信息较为简单,减少了侵权判断的难度,从而提高了对网页侵权行为的识别效率。另外,由于本申请从链接的角度进行侵权判断,避免了对具体的多媒体内容进行分析导致的误判问题,提高了对网页侵权行为的识别准确度。
需要说明的是:上述实施例提供的网页识别装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的网页识别装置和网页识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图11示出了本申请一个示例性实施例提供的计算机设备1100的结构框图。该计算机设备1100可以是:智能手机、平板电脑、动态影像专家压缩标准音频层面3播放器(MovingPicture Experts Group Audio Layer III,MP3)、动态影像专家压缩标准音频层面4(Moving Picture Experts Group Audio Layer IV,MP4)播放器、笔记本电脑或台式电脑。计算机设备1100还可能被称为用户设备、便携式计算机设备、膝上型计算机设备、台式计算机设备等其他名称。
通常,计算机设备1100包括有:处理器1101和存储器1102。
处理器1101可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1101可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器(CentralProcessing Unit,CPU);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1101可以在集成有图像处理器(Graphics Processing Unit,GPU),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1101还可以包括人工智能(Artificial Intelligence,AI)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1102可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1102中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1101所执行以实现本申请中方法实施例提供的网页识别方法。
示意性的,计算机设备1100还包括其他组件,本领域技术人员可以理解,图11中示出的结构并不构成对计算机设备1100的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入计算机设备中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述实施例中任一所述的网页识别方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种网页识别方法,其特征在于,所述方法包括:
获取第一网页对应的网页链接,所述第一网页中包括第一多媒体内容;
基于所述网页链接获取所述第一多媒体内容对应的资源链接,所述资源链接用于指示存储所述第一多媒体内容的网络节点;
基于所述网页链接获取所述第一网页对应的第一元信息,基于所述资源链接获取所述第一多媒体内容对应的第二元信息,所述第一元信息用于指示所述网页链接的归属对象信息,所述第二元信息用于指示所述资源链接的归属对象信息;
将所述第一元信息和所述第二元信息与第一多媒体平台对应的预设元信息进行匹配,基于匹配结果获取对所述第一网页的识别结果,所述预设元信息用于指示所述第一多媒体平台对应的归属对象信息,所述识别结果用于指示所述第一多媒体平台对所述第一网页播放所述第一多媒体内容的授权情况。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一元信息和所述第二元信息与第一多媒体平台对应的预设元信息进行匹配,基于匹配结果获取对所述第一网页的识别结果,包括:
将所述第一元信息与所述预设元信息进行匹配;
在所述第一元信息指示的归属对象信息与所述第一多媒体平台对应的归属对象信息不匹配的情况下,将所述第二元信息与所述预设元信息进行匹配;
在所述第二元信息指示的归属对象信息与所述第一多媒体平台对应的归属对象信息匹配的情况下,获取对所述第一网页的第一识别结果,所述第一识别结果用于指示第一多媒体平台未授权第一网页播放第一多媒体内容。
3.根据权利要求2所述的方法,其特征在于,所述预设元信息还包括所述第一多媒体平台对应的对象授权范围内的对象信息,所述对象授权范围包括所述第一多媒体平台的归属对象;
所述在所述第一元信息指示的归属对象信息与所述第一多媒体平台对应的归属对象信息不匹配的情况下,将所述第二元信息与所述预设元信息进行匹配,包括:
在所述第一元信息指示的归属对象不属于所述对象授权范围的情况下,将所述第二元信息与所述预设元信息进行匹配。
4.根据权利要求2所述的方法,其特征在于,所述预设元信息还包括所述第一多媒体平台对应的平台范围内的归属对象信息,所述平台范围中包括包含所述第一多媒体平台在内的多个多媒体平台,所述多个多媒体平台共享对多媒体内容的所有权;
所述在所述第二元信息指示的归属对象信息与所述第一多媒体平台对应的归属对象信息匹配的情况下,获取对所述第一网页的第一识别结果,包括:
在所述第二元信息指示的归属对象属于所述平台范围内的情况下,获取对所述第一网页的第一识别结果。
5.根据权利要求1至4任一所述的方法,其特征在于,所述方法还包括:
获取候选网页对应的网页信息,所述网页信息用于指示与所述候选网页相关联的文本数据;
提取所述网页信息对应的文本特征表示;
基于所述文本特征表示对所述候选网页进行类型识别,得到所述候选网页的网页类型,所述网页类型用于指示所述候选网页中的主体多媒体内容的内容类型;
在所述网页类型与预设多媒体内容类型符合类型匹配条件的情况下,确定所述候选网页为所述第一网页,所述第一网页中的第一多媒体内容属于所述预设多媒体内容类型。
6.根据权利要求5所述的方法,其特征在于,所述网页信息包括网页链接、网页标题以及网页内容,所述网页内容用于指示所述候选网页的网页页面中包含的页面文本;
所述提取所述网页信息对应的文本特征表示,包括:
提取所述网页内容对应的第一文本特征表示、提取所述网页标题对应的第二文本特征以及提取所述网页链接对应的第三文本特征表示;
将所述第一文本特征表示、所述第二文本特征表示以及所述第三文本特征表示进行特征融合处理,得到融合特征表示作为所述文本特征表示。
7.根据权利要求5所述的方法,其特征在于,所述在所述网页类型与预设多媒体内容类型符合类型匹配条件的情况下,确定所述候选网页为所述第一网页,包括:
在所述网页类型与所述预设多媒体内容类型符合所述类型匹配条件的情况下,基于所述网页信息获取所述候选网页对应的置信度,所述置信度用于指示所述候选网页属于所述第一多媒体平台未授权的网页的可能性;
在所述置信度符合预设分数要求的情况下,确定所述候选网页为所述第一网页。
8.根据权利要求7所述的方法,其特征在于,所述基于所述网页信息获取所述候选网页对应的置信度,包括:
获取所述第一多媒体平台的平台关键词;
将所述平台关键词与所述网页信息进行匹配,基于匹配结果确定所述候选网页对应的置信度。
9.根据权利要求8所述的方法,其特征在于,所述平台关键词包括所述第一多媒体平台的平台名称、所述第一多媒体平台中目标多媒体内容的内容名称中的至少一个,所述目标多媒体内容是指所述第一多媒体平台中指定类型的多媒体内容。
10.根据权利要求7所述的方法,其特征在于,所述基于所述网页信息获取所述候选网页对应的置信度,包括:
对预设网页对应的超文本标记语言进行格式分析,得到所述预设网页对应的超文本标记语言的格式特征,所述预设网页中包括通过目标链接获取的多媒体内容,所述目标链接是所述预设网页在未经授权的情况下引用的目标节点提供的链接;
将所述格式特征与所述候选网页对应的超文本标记语言进行匹配,基于匹配结果确定所述候选网页对应的置信度。
11.根据权利要求1至4任一所述的方法,其特征在于,所述基于所述网页链接获取所述第一多媒体内容对应的资源链接,包括:
基于所述网页链接,获取所述第一多媒体内容的网络数据包,所述网络数据包用于传输所述第一多媒体内容的播放数据,所述网络数据包中包括所述第一多媒体内容对应的资源链接;
从所述网络数据包中提取所述第一多媒体内容对应的资源链接。
12.一种网页识别装置,其特征在于,所述装置包括:
链接获取模块,用于获取第一网页对应的网页链接,所述第一网页中包括第一多媒体内容;
所述链接获取模块,还用于基于所述网页链接获取所述第一多媒体内容对应的资源链接,所述资源链接用于指示存储所述第一多媒体内容的网络节点;
信息获取模块,用于基于所述网页链接获取所述第一网页对应的第一元信息,基于所述资源链接获取所述第一多媒体内容对应的第二元信息,所述第一元信息用于指示所述网页链接的归属对象信息,所述第二元信息用于指示所述资源链接的归属对象信息;
网页识别模块,用于将所述第一元信息和所述第二元信息与第一多媒体平台对应的预设元信息进行匹配,基于匹配结果获取对所述第一网页的识别结果,所述预设元信息用于指示所述第一多媒体平台对应的归属对象信息,所述识别结果用于指示所述第一多媒体平台对所述第一网页播放所述第一多媒体内容的授权情况。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一段程序,所述至少一段程序由所述处理器加载并执行以实现如权利要求1至11任一所述的网页识别方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一段程序,所述至少一段程序由处理器加载并执行以实现如权利要求1至11任一所述的网页识别方法。
15.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1至11任一所述的网页识别方法。
CN202410011278.2A 2024-01-04 2024-01-04 网页识别方法、装置、设备、介质及程序产品 Pending CN117763510A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410011278.2A CN117763510A (zh) 2024-01-04 2024-01-04 网页识别方法、装置、设备、介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410011278.2A CN117763510A (zh) 2024-01-04 2024-01-04 网页识别方法、装置、设备、介质及程序产品

Publications (1)

Publication Number Publication Date
CN117763510A true CN117763510A (zh) 2024-03-26

Family

ID=90319996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410011278.2A Pending CN117763510A (zh) 2024-01-04 2024-01-04 网页识别方法、装置、设备、介质及程序产品

Country Status (1)

Country Link
CN (1) CN117763510A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118331502A (zh) * 2024-05-10 2024-07-12 联泰集群(北京)科技有限责任公司 一种云资源管理方法、装置及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118331502A (zh) * 2024-05-10 2024-07-12 联泰集群(北京)科技有限责任公司 一种云资源管理方法、装置及电子设备

Similar Documents

Publication Publication Date Title
Cao et al. Exploring the role of visual content in fake news detection
Yuan et al. Video summarization by learning deep side semantic embedding
Varshney et al. A unified approach for detection of Clickbait videos on YouTube using cognitive evidences
Pasquini et al. Media forensics on social media platforms: a survey
US10318543B1 (en) Obtaining and enhancing metadata for content items
US11681765B2 (en) System and method for integrating content into webpages
CN104838413A (zh) 基于用户提交来调整内容递送
CN112699295A (zh) 一种网页内容推荐方法、装置和计算机可读存储介质
CN112231563A (zh) 一种内容推荐方法、装置及存储介质
CN117763510A (zh) 网页识别方法、装置、设备、介质及程序产品
CN117216362A (zh) 内容推荐方法、装置、设备、介质和程序产品
Li et al. Semantic‐enhanced multimodal fusion network for fake news detection
Bai et al. A rumor detection model incorporating propagation path contextual semantics and user information
US11907705B1 (en) Systems and methods for generating dynamically updated metadata using real-time artificial intelligence models
Kumari et al. Emotion aided multi-task framework for video embedded misinformation detection
KR101908665B1 (ko) 기계학습을 활용한 osp 사이트 생애주기 감지 인공지능 시스템
KR102381181B1 (ko) 인공지능을 활용한 디지털 정보 추적 분석 시스템 및 방법
KR20240013640A (ko) 유해 url 탐지 방법
CN114357301B (zh) 数据处理方法、设备及可读存储介质
CN116628232A (zh) 标签确定方法、装置、设备、存储介质及产品
TW201824113A (zh) 社群資料分析系統及其新興主題預測方法
Do et al. Some research issues of harmful and violent content filtering for social networks in the context of large-scale and streaming data with Apache Spark
Xu et al. The study of content security for mobile internet
CN114765702B (zh) 视频的处理方法、装置及计算机可读存储介质
Yan et al. Detecting internet-scale surveillance devices using RTSP recessive features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication