CN113163234A

CN113163234A - 一种基于第三方服务的盗版视频网站检测方法及系统

Info

Publication number: CN113163234A
Application number: CN202110360151.8A
Authority: CN
Inventors: 尹姜谊; 张世俊; 李钊; 杨嵘; 张成伟; 张中一; 何正杰; 王晨旭
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2021-07-23
Anticipated expiration: 2041-04-02
Also published as: CN113163234B

Abstract

本发明公开了一种基于第三方服务的盗版视频网站检测方法及系统。本方法为：1)域名检测模块提取网站的域名及其第三方服务域名信息，然后基于域名信息检测该网站为盗版的概率P₁；2)元数据检测模块提取该网站相关第三方服务的统计信息，然后基于所述统计信息判断该网站为盗版的概率P₂；3)融合检测模块基于概率P₁、P₂确定该网站是否为盗版视频网站。本发明基于快速建站系统通常会使用相同或相似的第三方服务的特点，设计一种基于网站第三方服务信息的方法来高效灵活的检测出盗版视频网站。

Description

一种基于第三方服务的盗版视频网站检测方法及系统

技术领域

本发明设计了一种基于网站使用第三方服务信息的盗版视频网站检测方法，属于网络安全领域。

背景技术

随着互联网技术的发展，网络视频盗版形势日趋复杂。盗版视频网站的运营方或自己架设服务端，或租用他人的服务器接口，搭建网站并提供盗版影视内容的在线播放或下载服务，并通过网站的在线广告分成获利。而用户可以通过网页嵌入的播放器播放、下载网站上传的盗版视频文件来观看免费视频。快速建站系统使得小型网站的搭建过程十分迅速与便捷，大大降低了盗版视频网站运营方的违法成本，也使得小型盗版网络视频网站疯狂增长。基于快速建站系统，盗版视频网站可以灵活的应对执法部门的监管，如何有效检测盗版视频网站成为一个技术难题。

目前，针对网站检测的方法主要分为三类，即基于网页内容的检测方法、基于URL和域名信息的检测方法、基于网站关系的检测方法。基于网页内容的检测主要是利用网页的HTML文本、纯文本、图片等进行检测，其准确性较高，但是需要获取网页全部的信息耗时较长，基于URL和域名信息的检测主要是利用URL和域名中的字符信息、单词信息等进检测，其速度较快，但是不能深入分析。基于网站关系的检测方法主要是利用域名之间的依赖关系进行检测，但是其需要大量的标注数据，在真实环境中不能有效部署。

发明内容

为了解决无法有效监测盗版视频网站的问题，本发明提供了一种基于第三方服务信息的盗版视频网站检测方法。本发明基于快速建站系统通常会使用相同或相似的第三方服务的特点，设计一种基于网站第三方服务信息的方法来高效灵活的的检测出盗版视频网站。

本发明的主要内容为1)域名检测方法；2)元数据检测方法。

基于第三方服务信息的盗版视频网站检测方法的核心是利用网站域名及其第三方服务的域名信息，以及网站及其第三方服务的元数据信息构建融合检测方法。基于此，该方法的设计主要包含以下几个方面：

1)域名检测方法的设计依据：网站域名包含一定的潜在信息，相似网站会使用相同或相似的第三方服务，组合网站域名及其使用的第三方服务域名可以有效的代表网站的所属类别。

2)元数据检测方法的设计依据：不同类型的网站在第三方服务资源的使用上存在不同，提取每个网站相应的依赖资源统计信息可以提高网站检测的效果。

本发明的技术方案为：

一种基于第三方服务的盗版视频网站检测方法，其步骤包括：

1)域名检测模块提取网站的域名及其第三方服务域名信息，然后基于域名信息检测该网站为盗版的概率P₁；

2)元数据检测模块提取该网站相关第三方服务的统计信息，然后基于所述统计信息判断该网站为盗版的概率P₂；

3)融合检测模块基于概率P₁、P₂确定该网站是否为盗版视频网站。

进一步的，步骤1)中，基于域名信息检测网站为盗版的概率P₁的方法为：

11)提取网站的域名及其第三方服务域名信息；

12)将网站域名及其第三方服务域名分别转换为字符级嵌入向量Cc、域名级嵌入向量Cd；

13)将字符级嵌入向量Cc及域名级嵌入向量Cd分别输入CNN-BiLSTM模型进行学习，得到向量Lc、Ld；其中通过CNN学习获取每个字符之间的关系、使用BiLSTM学习获取域名之间的语义信息；

14)对CNN-BiLSTM模型学习后所得的向量Lc、Ld进行拼接，得到向量L；

15)利用注意力机制学习拼接后的向量L，并利用ReLu激活函数计算得到向量A；

16)输出层利用Sigmoid激活函数计算向量A的类别概率，输出网站为盗版视频网站的概率P₁。

进一步的，根据该网站向第三方服务发送的网络请求获取所述第三方服务域名信息。

进一步的，所述第三方服务域名信息包括顶级域名级、二级域名和三级域名。

进一步的，得到所述字符级嵌入向量Cc的方法为：

211)将由字符串构成的域名分割成单个字符；

212)构造字符索引字典，为每个字符创建一个数字索引；

213)将域名转化为索引构成的特征向量P＝{i₁,i₂,…,i_N}，其中i_N为域名中第N个字符的索引；

214)将特征向量P转化为N*K维的嵌入向量，其中N为域名的字符个数，K为每个字符嵌入向量的长度；

215)将网站域名及其第三方服务域名的嵌入向量进行拼接，得到M*N*K维的向量Cc；其中M为网站域名及其第三方服务域名的数量。

进一步的，得到所述域名级嵌入向量Cd的方法为：

221)将由字符串构成的域名分割成单个字符；

222)构造字符索引字典，为每个字符创建一个数字索引；

223)将域名转化为索引构成的特征向量P＝{i₁,i₂,…,i_N}，其中i_N为域名中第N个字符的索引；

224)将特征向量P转化为N*K维的嵌入向量，其中N为域名的字符个数，K为每个字符嵌入向量的长度；

225)将每个域名的N*K维嵌入向量压缩为1*K维嵌入向量；

226)将各域名压缩后的1*K维嵌入向量进行拼接，形成M*K维的域名级嵌入向量Cd，其中M为网站域名及其第三方服务域名的数量。

进一步的，步骤2)中，基于元数据检测网站为盗版的概率P₂的方法为：

21)提取网站及其第三方服务对应的元数据信息；

22)从元数据中提取网站及其第三方服务相关资源的统计信息，并基于所述统计信息形成特征向量W；

23)构建随机森林模型，对特征向量W进行检测，输出网站为盗版视频网站的概率P₂。

进一步的，所述统计信息包括第三方服务域名的数量、第三方服务去重后域名的数量、第三方服务域名平均长度、第三方服务请求URL的数量、第三方服务请求去重后URL的数量、第三方服务请求URL的平均长度、第三方服务请求为图片资源的数量、第三方服务请求为脚本资源的数量、第三方服务请求为媒体资源的数量、第三方服务请求为字体资源的数量、第三方服务请求为样式资源的数量、第三方服务请求为主框架资源的数量和第三方服务请求为子框架资源的数量。

进一步的，所述融合检测模块基于公式

P₁＝[n,1-n]、P₂＝[m,1-m]计算网站为盗版视频网站的概率；其中，C为该网站是否为盗版视频网站的最终概率，

为标准化计算函数，n为域名检测模块输出该网站为正常网站的概率，m为元数据检测模块输出该网站为正常网站的概率，w₁、w₂为设定的权重。

一种基于第三方服务的盗版视频网站检测系统，其特征在于，包括域名检测模块、元数据检测模块、融合检测模块；其中

域名检测模块，用于提取网站的域名及其第三方服务域名信息，然后基于域名信息检测该网站为盗版的概率P₁；

元数据检测模块，用于提取该网站相关第三方服务的统计信息，然后基于所述统计信息判断该网站为盗版的概率P₂；

融合检测模块，用于基于概率P₁、P₂确定该网站是否为盗版视频网站。

与现有技术相比，本发明的积极效果为：

1、域名检测模块中，因为盗版视频网站会使用相同或者相似的第三方域名，将网站域名及其第三方服务域名的特征向量拼接后利用上述模型进行检测的结果优于仅使用单个网站域名进行检测的结果。

2、元数据检测模块中，盗版视频网站请求的第三方服务更倾向于图片资源等，利用随机森林分类器可以比较有效的检测出盗版视频网站。

3、融合模块对两个模块的结果进行综合判断使本发明更具有鲁棒性。

通过对比分析，其中对比仅采用单出网站域名作为特征的检测手段，在真实世界构造的数据集下进行测试，采用本发明基于第三方服务的盗版音视频检测方法的平均检测性能可提高10至15个百分点。

附图说明

图1为本发明系统结构图。

图2为域名结构示意图。

图3为域名检测流程图。

具体实施方式

下面结合附图对本发明的优选实例进行详细阐述。

本发明的总体框架如图1所示，主要包括域名检测模块、元数据检测模块、融合检测模块三部分，运行步骤如下：

1)本发明以浏览器插件的形式部署在客户端主机，当浏览器访问网站时，本发明的域名检测模块会提取网站域名及其第三方服务域名信息，从浏览器访问网站时，从所访问网站的URL中提取顶级域名级、二级域名、三级域名等信息如图2所示(即网站的第三方服务域名信息)；然后利用基于第三方服务改进的CNN+BiLSTM+Attention算法输出该网站为盗版的概率；

2)元数据检测模块会提取网站相关第三方服务的统计信息，利用随机森林算法输出该网站为盗版的概率；

3)融合检测模块针对上述两个模块的输出，综合计算，最终输出该网站是否为盗版。

下面，就运行步骤做详细地论述。

域名检测模块

本模块的核心为基于提取的网站域名及其第三方服务的域名信息进行检测，输出网站为盗版视频网站的概率，具体工作内容如下，流程如图3所示：

1)提取网站域名及其第三方服务的域名；在浏览器中访问网站时，从URL输入到页面渲染完成，每个网站都会发送很多网络请求向第三方服务来获取所需要的资源，以Chrome浏览器为例，利用浏览器提供的API可以捕获这些请求，如表1所示，从这些请求的URL中可以利用图2的方法提取出相应的第三方服务域名信息。

2)将网站域名及其第三方服务域名分别转换为字符级嵌入向量以及域名级嵌入向量。

将网站域名及其第三方服务域名分别转化为N*K维字符级量然后拼接得到字符级嵌入向量：

1、将域名由字符串分割成单个字符，如"18ys.com"分割成："1","8","y","s",".","c","o","m"。

2、构造字符索引字典，为每个字符创建一个数字索引，如’a’对应索引为0，’b’对应索引为1。

3、将域名转化为索引构成的特征向量P＝{i₁,i₂,…,i_N}，其中i_n为域名中第n个字符的索引。

4、利用现有的词嵌入工具如word2vec将特征向量P转化为N*K维的嵌入向量，其中N为域名的字符个数，K每个字符嵌入向量的长度。K指每个字符转换为嵌入向量的长度，其为训练参数，在训练嵌入向量时可以指定，根据训练的最优结果选择相应的K。嵌入向量中，每个字符对应一个1*K维的嵌入向量，即使用1*K维的嵌入向量表示每个字符的潜在语义信息。得到每个字符的1*K维嵌入向量后，每个域名N个字符可以拼接成N*K维嵌入向量。

5、将网站域名的嵌入向量及第三方服务域名的嵌入向量拼接，拼接成MN*K维的向量Cc，其中M为网站域名及其第三方服务域名的数量。

将网站域名及其第三方服务域名分别转化为N*K维域名级向量然后拼接得到域名级嵌入向量：

1、与字符级嵌入向量步骤1，2，3，4相同得到每个网站域名及其第三方服务域名的嵌入向量，共M个N*K维的嵌入向量。

2、将上述步骤1中获得的每个N*K维嵌入向量压缩为1*K维嵌入向量Z，公式如下所示。其中将N*K维嵌入向量中的每个1*K维向量ei相加得到1*K维向量(e_i为N*K维嵌入向量的第i个1*K维向量)，将得到的1*K维向量经过标准化函数

计算后得到压缩后的1*K维嵌入向量Z。

3、将上述M个N*K维的嵌入向量压缩成M个1*K维嵌入向量Z，然后拼接形成M*K维的向量Cd，公式如下所示，其中M为网站域名及其第三方服务域名的数量。

表1为API捕获的请求信息

3)针对2)中获得的字符级嵌入向量Cc及域名级嵌入向量Cd，分别利用CNN-BiLSTM模型进行学习。如图3，字符级CNN-BiLSTM，针对字符级嵌入向量Cc，利用CNN-BiLSTM模型进行学习并获取学习后的向量Lc；如图,3，域名级CNN-BiLSTM针对域名级嵌入向量Cd，利用CNN-BiLSTM模型进行学习并获取学习后的向量Ld。CNN擅长局部特征的学习，可以更好的获取每个字符之间的关系；使用BiLSTM代替传统的RNN和LSTM，在面对拼接过后的特征向量可以充分获取域名之间的语义信息。CNN-BiLSTM模型有效解决了局部特征与上下文语义的特征提取之间的联系，可以提高准确率。

4)拼接经过字符级CNN-BiLSTM及域名级CNN-BiLSTM模型学习后的Lc、Ld向量，得到拼接后的向量L。

5)利用注意力机制学习拼接后的L向量，并利用ReLu激活函数计算得到向量A。ReLu函数用于计算隐藏层的输出。注意力机制是模仿人类注意力而提出的一种解决问题的办法，其可以避免在长距离学习上丢失重点，本发明利用注意力机制可以学习到对检测模型更加重要的字符以及域名。

6)输出层将经过注意力机制学习后的向量A，利用Sigmoid激活函数计算类别概率，Sigmoid函数用于计算输出网站为盗版视频网站的概率P₁。

元数据检测模块

本模块的核心为提取网站及其第三方服务相关资源的统计信息，输出网站为盗版视频网站的概率，具体工作内容如下：

1)提取网站及其第三方服务对应的URL、域名、资源类型等元数据信息。以Chrome浏览器为例，利用浏览器提供的API可以捕获网络请求，从这些请求中可以提取相应的元数据信。

2)从元数据中提取网站及其第三方服务相关资源的统计信息见表2，如域名数量、URL数量、不同类型资源的数量等，形成特征向量W。

3)构建随机森林模型，对特征向量W进行检测，输出网站为盗版视频网站的概率P₂。

表2为元数据检测模块特征

第三方服务域名的数量
	第三方服务去重后域名的数量
第三方服务域名平均长度
	第三方服务请求URL的数量
第三方服务请求去重后URL的数量
	第三方服务请求URL的平均长度
第三方服务请求为图片资源的数量
	第三方服务请求为脚本资源的数量
第三方服务请求为媒体资源的数量
	第三方服务请求为字体资源的数量
第三方服务请求为样式资源的数量
	第三方服务请求为主框架资源的数量
第三方服务请求为子框架资源的数量

融合检测模块

本模块是基于域名检测模块以及元数据检测模块的输出，对两个模块的输出结果分配不同的权重，然后计算网站为盗版视频网站的概率，输出最终结果，公式如下所示，C为最终结果，

为标准化计算函数，使概率计算结果在[0,1]区间内，P₁为域名检测模块输出概率，其中n为域名检测模块输出该网站为正常网站的概率，1-n为域名检测模块输出该网站为盗版视频网站的概率，P₂为元数据检测模块输出概率，其中m为元数据检测模块输出该网站为正常网站的概率，1-m为元数据检测模块输出该网站为盗版视频网站的概率，w₁，w₂为两个模块对应的权重大小。

P₁＝[n,1-n]

P₂＝[m,1-m]。

以上所述仅是本发明的一种优选方案，应当指出，对于本技术领域的普通人员来说，在不脱离本发明的原理前提下，还可以做出若干修饰和润色，在不脱离本发明的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例和附图所公开的内容，本发明的保护范围以权利要求书界定的范围为准。

Claims

1.一种基于第三方服务的盗版视频网站检测方法，其步骤包括：

2.如权利要求1所述的方法，其特征在于，步骤1)中，基于域名信息检测网站为盗版的概率P₁的方法为：

11)提取网站的域名及其第三方服务域名信息；

3.如权利要求2所述的方法，其特征在于，根据该网站向第三方服务发送的网络请求获取所述第三方服务域名信息。

4.如权利要求1或2或3所述的方法，其特征在于，所述第三方服务域名信息包括顶级域名级、二级域名和三级域名。

5.如权利要求2所述的方法，其特征在于，得到所述字符级嵌入向量Cc的方法为：

211)将由字符串构成的域名分割成单个字符；

212)构造字符索引字典，为每个字符创建一个数字索引；

6.如权利要求2所述的方法，其特征在于，得到所述域名级嵌入向量Cd的方法为：

221)将由字符串构成的域名分割成单个字符；

222)构造字符索引字典，为每个字符创建一个数字索引；

225)将每个域名的N*K维嵌入向量压缩为1*K维嵌入向量；

7.如权利要求1或2或3所述的方法，其特征在于，步骤2)中，基于元数据检测网站为盗版的概率P₂的方法为：

21)提取网站及其第三方服务对应的元数据信息；

8.如权利要求7所述的方法，其特征在于，所述统计信息包括第三方服务域名的数量、第三方服务去重后域名的数量、第三方服务域名平均长度、第三方服务请求URL的数量、第三方服务请求去重后URL的数量、第三方服务请求URL的平均长度、第三方服务请求为图片资源的数量、第三方服务请求为脚本资源的数量、第三方服务请求为媒体资源的数量、第三方服务请求为字体资源的数量、第三方服务请求为样式资源的数量、第三方服务请求为主框架资源的数量和第三方服务请求为子框架资源的数量。

9.如权利要求1所述的方法，其特征在于，所述融合检测模块基于公式

10.一种基于第三方服务的盗版视频网站检测系统，其特征在于，包括域名检测模块、元数据检测模块、融合检测模块；其中