CN113163234A - 一种基于第三方服务的盗版视频网站检测方法及系统 - Google Patents

一种基于第三方服务的盗版视频网站检测方法及系统 Download PDF

Info

Publication number
CN113163234A
CN113163234A CN202110360151.8A CN202110360151A CN113163234A CN 113163234 A CN113163234 A CN 113163234A CN 202110360151 A CN202110360151 A CN 202110360151A CN 113163234 A CN113163234 A CN 113163234A
Authority
CN
China
Prior art keywords
website
domain name
party service
vector
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110360151.8A
Other languages
English (en)
Other versions
CN113163234B (zh
Inventor
尹姜谊
张世俊
李钊
杨嵘
张成伟
张中一
何正杰
王晨旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN202110360151.8A priority Critical patent/CN113163234B/zh
Publication of CN113163234A publication Critical patent/CN113163234A/zh
Application granted granted Critical
Publication of CN113163234B publication Critical patent/CN113163234B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/24Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Environmental & Geological Engineering (AREA)
  • Multimedia (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于第三方服务的盗版视频网站检测方法及系统。本方法为:1)域名检测模块提取网站的域名及其第三方服务域名信息,然后基于域名信息检测该网站为盗版的概率P1;2)元数据检测模块提取该网站相关第三方服务的统计信息,然后基于所述统计信息判断该网站为盗版的概率P2;3)融合检测模块基于概率P1、P2确定该网站是否为盗版视频网站。本发明基于快速建站系统通常会使用相同或相似的第三方服务的特点,设计一种基于网站第三方服务信息的方法来高效灵活的检测出盗版视频网站。

Description

一种基于第三方服务的盗版视频网站检测方法及系统
技术领域
本发明设计了一种基于网站使用第三方服务信息的盗版视频网站检测方法,属于网络安全领域。
背景技术
随着互联网技术的发展,网络视频盗版形势日趋复杂。盗版视频网站的运营方或自己架设服务端,或租用他人的服务器接口,搭建网站并提供盗版影视内容的在线播放或下载服务,并通过网站的在线广告分成获利。而用户可以通过网页嵌入的播放器播放、下载网站上传的盗版视频文件来观看免费视频。快速建站系统使得小型网站的搭建过程十分迅速与便捷,大大降低了盗版视频网站运营方的违法成本,也使得小型盗版网络视频网站疯狂增长。基于快速建站系统,盗版视频网站可以灵活的应对执法部门的监管,如何有效检测盗版视频网站成为一个技术难题。
目前,针对网站检测的方法主要分为三类,即基于网页内容的检测方法、基于URL和域名信息的检测方法、基于网站关系的检测方法。基于网页内容的检测主要是利用网页的HTML文本、纯文本、图片等进行检测,其准确性较高,但是需要获取网页全部的信息耗时较长,基于URL和域名信息的检测主要是利用URL和域名中的字符信息、单词信息等进检测,其速度较快,但是不能深入分析。基于网站关系的检测方法主要是利用域名之间的依赖关系进行检测,但是其需要大量的标注数据,在真实环境中不能有效部署。
发明内容
为了解决无法有效监测盗版视频网站的问题,本发明提供了一种基于第三方服务信息的盗版视频网站检测方法。本发明基于快速建站系统通常会使用相同或相似的第三方服务的特点,设计一种基于网站第三方服务信息的方法来高效灵活的的检测出盗版视频网站。
本发明的主要内容为1)域名检测方法;2)元数据检测方法。
基于第三方服务信息的盗版视频网站检测方法的核心是利用网站域名及其第三方服务的域名信息,以及网站及其第三方服务的元数据信息构建融合检测方法。基于此,该方法的设计主要包含以下几个方面:
1)域名检测方法的设计依据:网站域名包含一定的潜在信息,相似网站会使用相同或相似的第三方服务,组合网站域名及其使用的第三方服务域名可以有效的代表网站的所属类别。
2)元数据检测方法的设计依据:不同类型的网站在第三方服务资源的使用上存在不同,提取每个网站相应的依赖资源统计信息可以提高网站检测的效果。
本发明的技术方案为:
一种基于第三方服务的盗版视频网站检测方法,其步骤包括:
1)域名检测模块提取网站的域名及其第三方服务域名信息,然后基于域名信息检测该网站为盗版的概率P1
2)元数据检测模块提取该网站相关第三方服务的统计信息,然后基于所述统计信息判断该网站为盗版的概率P2
3)融合检测模块基于概率P1、P2确定该网站是否为盗版视频网站。
进一步的,步骤1)中,基于域名信息检测网站为盗版的概率P1的方法为:
11)提取网站的域名及其第三方服务域名信息;
12)将网站域名及其第三方服务域名分别转换为字符级嵌入向量Cc、域名级嵌入向量Cd;
13)将字符级嵌入向量Cc及域名级嵌入向量Cd分别输入CNN-BiLSTM模型进行学习,得到向量Lc、Ld;其中通过CNN学习获取每个字符之间的关系、使用BiLSTM学习获取域名之间的语义信息;
14)对CNN-BiLSTM模型学习后所得的向量Lc、Ld进行拼接,得到向量L;
15)利用注意力机制学习拼接后的向量L,并利用ReLu激活函数计算得到向量A;
16)输出层利用Sigmoid激活函数计算向量A的类别概率,输出网站为盗版视频网站的概率P1
进一步的,根据该网站向第三方服务发送的网络请求获取所述第三方服务域名信息。
进一步的,所述第三方服务域名信息包括顶级域名级、二级域名和三级域名。
进一步的,得到所述字符级嵌入向量Cc的方法为:
211)将由字符串构成的域名分割成单个字符;
212)构造字符索引字典,为每个字符创建一个数字索引;
213)将域名转化为索引构成的特征向量P={i1,i2,…,iN},其中iN为域名中第N个字符的索引;
214)将特征向量P转化为N*K维的嵌入向量,其中N为域名的字符个数,K为每个字符嵌入向量的长度;
215)将网站域名及其第三方服务域名的嵌入向量进行拼接,得到M*N*K维的向量Cc;其中M为网站域名及其第三方服务域名的数量。
进一步的,得到所述域名级嵌入向量Cd的方法为:
221)将由字符串构成的域名分割成单个字符;
222)构造字符索引字典,为每个字符创建一个数字索引;
223)将域名转化为索引构成的特征向量P={i1,i2,…,iN},其中iN为域名中第N个字符的索引;
224)将特征向量P转化为N*K维的嵌入向量,其中N为域名的字符个数,K为每个字符嵌入向量的长度;
225)将每个域名的N*K维嵌入向量压缩为1*K维嵌入向量;
226)将各域名压缩后的1*K维嵌入向量进行拼接,形成M*K维的域名级嵌入向量Cd,其中M为网站域名及其第三方服务域名的数量。
进一步的,步骤2)中,基于元数据检测网站为盗版的概率P2的方法为:
21)提取网站及其第三方服务对应的元数据信息;
22)从元数据中提取网站及其第三方服务相关资源的统计信息,并基于所述统计信息形成特征向量W;
23)构建随机森林模型,对特征向量W进行检测,输出网站为盗版视频网站的概率P2
进一步的,所述统计信息包括第三方服务域名的数量、第三方服务去重后域名的数量、第三方服务域名平均长度、第三方服务请求URL的数量、第三方服务请求去重后URL的数量、第三方服务请求URL的平均长度、第三方服务请求为图片资源的数量、第三方服务请求为脚本资源的数量、第三方服务请求为媒体资源的数量、第三方服务请求为字体资源的数量、第三方服务请求为样式资源的数量、第三方服务请求为主框架资源的数量和第三方服务请求为子框架资源的数量。
进一步的,所述融合检测模块基于公式
Figure BDA0003005222090000031
P1=[n,1-n]、P2=[m,1-m]计算网站为盗版视频网站的概率;其中,C为该网站是否为盗版视频网站的最终概率,
Figure BDA0003005222090000032
为标准化计算函数,n为域名检测模块输出该网站为正常网站的概率,m为元数据检测模块输出该网站为正常网站的概率,w1、w2为设定的权重。
一种基于第三方服务的盗版视频网站检测系统,其特征在于,包括域名检测模块、元数据检测模块、融合检测模块;其中
域名检测模块,用于提取网站的域名及其第三方服务域名信息,然后基于域名信息检测该网站为盗版的概率P1
元数据检测模块,用于提取该网站相关第三方服务的统计信息,然后基于所述统计信息判断该网站为盗版的概率P2
融合检测模块,用于基于概率P1、P2确定该网站是否为盗版视频网站。
与现有技术相比,本发明的积极效果为:
1、域名检测模块中,因为盗版视频网站会使用相同或者相似的第三方域名,将网站域名及其第三方服务域名的特征向量拼接后利用上述模型进行检测的结果优于仅使用单个网站域名进行检测的结果。
2、元数据检测模块中,盗版视频网站请求的第三方服务更倾向于图片资源等,利用随机森林分类器可以比较有效的检测出盗版视频网站。
3、融合模块对两个模块的结果进行综合判断使本发明更具有鲁棒性。
通过对比分析,其中对比仅采用单出网站域名作为特征的检测手段,在真实世界构造的数据集下进行测试,采用本发明基于第三方服务的盗版音视频检测方法的平均检测性能可提高10至15个百分点。
附图说明
图1为本发明系统结构图。
图2为域名结构示意图。
图3为域名检测流程图。
具体实施方式
下面结合附图对本发明的优选实例进行详细阐述。
本发明的总体框架如图1所示,主要包括域名检测模块、元数据检测模块、融合检测模块三部分,运行步骤如下:
1)本发明以浏览器插件的形式部署在客户端主机,当浏览器访问网站时,本发明的域名检测模块会提取网站域名及其第三方服务域名信息,从浏览器访问网站时,从所访问网站的URL中提取顶级域名级、二级域名、三级域名等信息如图2所示(即网站的第三方服务域名信息);然后利用基于第三方服务改进的CNN+BiLSTM+Attention算法输出该网站为盗版的概率;
2)元数据检测模块会提取网站相关第三方服务的统计信息,利用随机森林算法输出该网站为盗版的概率;
3)融合检测模块针对上述两个模块的输出,综合计算,最终输出该网站是否为盗版。
下面,就运行步骤做详细地论述。
域名检测模块
本模块的核心为基于提取的网站域名及其第三方服务的域名信息进行检测,输出网站为盗版视频网站的概率,具体工作内容如下,流程如图3所示:
1)提取网站域名及其第三方服务的域名;在浏览器中访问网站时,从URL输入到页面渲染完成,每个网站都会发送很多网络请求向第三方服务来获取所需要的资源,以Chrome浏览器为例,利用浏览器提供的API可以捕获这些请求,如表1所示,从这些请求的URL中可以利用图2的方法提取出相应的第三方服务域名信息。
2)将网站域名及其第三方服务域名分别转换为字符级嵌入向量以及域名级嵌入向量。
将网站域名及其第三方服务域名分别转化为N*K维字符级量然后拼接得到字符级嵌入向量:
1、将域名由字符串分割成单个字符,如"18ys.com"分割成:"1","8","y","s",".","c","o","m"。
2、构造字符索引字典,为每个字符创建一个数字索引,如’a’对应索引为0,’b’对应索引为1。
3、将域名转化为索引构成的特征向量P={i1,i2,…,iN},其中in为域名中第n个字符的索引。
4、利用现有的词嵌入工具如word2vec将特征向量P转化为N*K维的嵌入向量,其中N为域名的字符个数,K每个字符嵌入向量的长度。K指每个字符转换为嵌入向量的长度,其为训练参数,在训练嵌入向量时可以指定,根据训练的最优结果选择相应的K。嵌入向量中,每个字符对应一个1*K维的嵌入向量,即使用1*K维的嵌入向量表示每个字符的潜在语义信息。得到每个字符的1*K维嵌入向量后,每个域名N个字符可以拼接成N*K维嵌入向量。
5、将网站域名的嵌入向量及第三方服务域名的嵌入向量拼接,拼接成MN*K维的向量Cc,其中M为网站域名及其第三方服务域名的数量。
将网站域名及其第三方服务域名分别转化为N*K维域名级向量然后拼接得到域名级嵌入向量:
1、与字符级嵌入向量步骤1,2,3,4相同得到每个网站域名及其第三方服务域名的嵌入向量,共M个N*K维的嵌入向量。
2、将上述步骤1中获得的每个N*K维嵌入向量压缩为1*K维嵌入向量Z,公式如下所示。其中将N*K维嵌入向量中的每个1*K维向量ei相加得到1*K维向量(ei为N*K维嵌入向量的第i个1*K维向量),将得到的1*K维向量经过标准化函数
Figure BDA0003005222090000052
计算后得到压缩后的1*K维嵌入向量Z。
Figure BDA0003005222090000051
3、将上述M个N*K维的嵌入向量压缩成M个1*K维嵌入向量Z,然后拼接形成M*K维的向量Cd,公式如下所示,其中M为网站域名及其第三方服务域名的数量。
Figure BDA0003005222090000061
表1为API捕获的请求信息
Figure BDA0003005222090000062
3)针对2)中获得的字符级嵌入向量Cc及域名级嵌入向量Cd,分别利用CNN-BiLSTM模型进行学习。如图3,字符级CNN-BiLSTM,针对字符级嵌入向量Cc,利用CNN-BiLSTM模型进行学习并获取学习后的向量Lc;如图,3,域名级CNN-BiLSTM针对域名级嵌入向量Cd,利用CNN-BiLSTM模型进行学习并获取学习后的向量Ld。CNN擅长局部特征的学习,可以更好的获取每个字符之间的关系;使用BiLSTM代替传统的RNN和LSTM,在面对拼接过后的特征向量可以充分获取域名之间的语义信息。CNN-BiLSTM模型有效解决了局部特征与上下文语义的特征提取之间的联系,可以提高准确率。
4)拼接经过字符级CNN-BiLSTM及域名级CNN-BiLSTM模型学习后的Lc、Ld向量,得到拼接后的向量L。
5)利用注意力机制学习拼接后的L向量,并利用ReLu激活函数计算得到向量A。ReLu函数用于计算隐藏层的输出。注意力机制是模仿人类注意力而提出的一种解决问题的办法,其可以避免在长距离学习上丢失重点,本发明利用注意力机制可以学习到对检测模型更加重要的字符以及域名。
6)输出层将经过注意力机制学习后的向量A,利用Sigmoid激活函数计算类别概率,Sigmoid函数用于计算输出网站为盗版视频网站的概率P1
元数据检测模块
本模块的核心为提取网站及其第三方服务相关资源的统计信息,输出网站为盗版视频网站的概率,具体工作内容如下:
1)提取网站及其第三方服务对应的URL、域名、资源类型等元数据信息。以Chrome浏览器为例,利用浏览器提供的API可以捕获网络请求,从这些请求中可以提取相应的元数据信。
2)从元数据中提取网站及其第三方服务相关资源的统计信息见表2,如域名数量、URL数量、不同类型资源的数量等,形成特征向量W。
3)构建随机森林模型,对特征向量W进行检测,输出网站为盗版视频网站的概率P2
表2为元数据检测模块特征
第三方服务域名的数量
第三方服务去重后域名的数量
第三方服务域名平均长度
第三方服务请求URL的数量
第三方服务请求去重后URL的数量
第三方服务请求URL的平均长度
第三方服务请求为图片资源的数量
第三方服务请求为脚本资源的数量
第三方服务请求为媒体资源的数量
第三方服务请求为字体资源的数量
第三方服务请求为样式资源的数量
第三方服务请求为主框架资源的数量
第三方服务请求为子框架资源的数量
融合检测模块
本模块是基于域名检测模块以及元数据检测模块的输出,对两个模块的输出结果分配不同的权重,然后计算网站为盗版视频网站的概率,输出最终结果,公式如下所示,C为最终结果,
Figure BDA0003005222090000071
为标准化计算函数,使概率计算结果在[0,1]区间内,P1为域名检测模块输出概率,其中n为域名检测模块输出该网站为正常网站的概率,1-n为域名检测模块输出该网站为盗版视频网站的概率,P2为元数据检测模块输出概率,其中m为元数据检测模块输出该网站为正常网站的概率,1-m为元数据检测模块输出该网站为盗版视频网站的概率,w1,w2为两个模块对应的权重大小。
Figure BDA0003005222090000072
P1=[n,1-n]
P2=[m,1-m]。
以上所述仅是本发明的一种优选方案,应当指出,对于本技术领域的普通人员来说,在不脱离本发明的原理前提下,还可以做出若干修饰和润色,在不脱离本发明的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例和附图所公开的内容,本发明的保护范围以权利要求书界定的范围为准。

Claims (10)

1.一种基于第三方服务的盗版视频网站检测方法,其步骤包括:
1)域名检测模块提取网站的域名及其第三方服务域名信息,然后基于域名信息检测该网站为盗版的概率P1
2)元数据检测模块提取该网站相关第三方服务的统计信息,然后基于所述统计信息判断该网站为盗版的概率P2
3)融合检测模块基于概率P1、P2确定该网站是否为盗版视频网站。
2.如权利要求1所述的方法,其特征在于,步骤1)中,基于域名信息检测网站为盗版的概率P1的方法为:
11)提取网站的域名及其第三方服务域名信息;
12)将网站域名及其第三方服务域名分别转换为字符级嵌入向量Cc、域名级嵌入向量Cd;
13)将字符级嵌入向量Cc及域名级嵌入向量Cd分别输入CNN-BiLSTM模型进行学习,得到向量Lc、Ld;其中通过CNN学习获取每个字符之间的关系、使用BiLSTM学习获取域名之间的语义信息;
14)对CNN-BiLSTM模型学习后所得的向量Lc、Ld进行拼接,得到向量L;
15)利用注意力机制学习拼接后的向量L,并利用ReLu激活函数计算得到向量A;
16)输出层利用Sigmoid激活函数计算向量A的类别概率,输出网站为盗版视频网站的概率P1
3.如权利要求2所述的方法,其特征在于,根据该网站向第三方服务发送的网络请求获取所述第三方服务域名信息。
4.如权利要求1或2或3所述的方法,其特征在于,所述第三方服务域名信息包括顶级域名级、二级域名和三级域名。
5.如权利要求2所述的方法,其特征在于,得到所述字符级嵌入向量Cc的方法为:
211)将由字符串构成的域名分割成单个字符;
212)构造字符索引字典,为每个字符创建一个数字索引;
213)将域名转化为索引构成的特征向量P={i1,i2,…,iN},其中iN为域名中第N个字符的索引;
214)将特征向量P转化为N*K维的嵌入向量,其中N为域名的字符个数,K为每个字符嵌入向量的长度;
215)将网站域名及其第三方服务域名的嵌入向量进行拼接,得到M*N*K维的向量Cc;其中M为网站域名及其第三方服务域名的数量。
6.如权利要求2所述的方法,其特征在于,得到所述域名级嵌入向量Cd的方法为:
221)将由字符串构成的域名分割成单个字符;
222)构造字符索引字典,为每个字符创建一个数字索引;
223)将域名转化为索引构成的特征向量P={i1,i2,…,iN},其中iN为域名中第N个字符的索引;
224)将特征向量P转化为N*K维的嵌入向量,其中N为域名的字符个数,K为每个字符嵌入向量的长度;
225)将每个域名的N*K维嵌入向量压缩为1*K维嵌入向量;
226)将各域名压缩后的1*K维嵌入向量进行拼接,形成M*K维的域名级嵌入向量Cd,其中M为网站域名及其第三方服务域名的数量。
7.如权利要求1或2或3所述的方法,其特征在于,步骤2)中,基于元数据检测网站为盗版的概率P2的方法为:
21)提取网站及其第三方服务对应的元数据信息;
22)从元数据中提取网站及其第三方服务相关资源的统计信息,并基于所述统计信息形成特征向量W;
23)构建随机森林模型,对特征向量W进行检测,输出网站为盗版视频网站的概率P2
8.如权利要求7所述的方法,其特征在于,所述统计信息包括第三方服务域名的数量、第三方服务去重后域名的数量、第三方服务域名平均长度、第三方服务请求URL的数量、第三方服务请求去重后URL的数量、第三方服务请求URL的平均长度、第三方服务请求为图片资源的数量、第三方服务请求为脚本资源的数量、第三方服务请求为媒体资源的数量、第三方服务请求为字体资源的数量、第三方服务请求为样式资源的数量、第三方服务请求为主框架资源的数量和第三方服务请求为子框架资源的数量。
9.如权利要求1所述的方法,其特征在于,所述融合检测模块基于公式
Figure FDA0003005222080000021
P1=[n,1-n]、P2=[m,1-m]计算网站为盗版视频网站的概率;其中,C为该网站是否为盗版视频网站的最终概率,
Figure FDA0003005222080000022
为标准化计算函数,n为域名检测模块输出该网站为正常网站的概率,m为元数据检测模块输出该网站为正常网站的概率,w1、w2为设定的权重。
10.一种基于第三方服务的盗版视频网站检测系统,其特征在于,包括域名检测模块、元数据检测模块、融合检测模块;其中
域名检测模块,用于提取网站的域名及其第三方服务域名信息,然后基于域名信息检测该网站为盗版的概率P1
元数据检测模块,用于提取该网站相关第三方服务的统计信息,然后基于所述统计信息判断该网站为盗版的概率P2
融合检测模块,用于基于概率P1、P2确定该网站是否为盗版视频网站。
CN202110360151.8A 2021-04-02 2021-04-02 一种基于第三方服务的盗版视频网站检测方法及系统 Active CN113163234B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110360151.8A CN113163234B (zh) 2021-04-02 2021-04-02 一种基于第三方服务的盗版视频网站检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110360151.8A CN113163234B (zh) 2021-04-02 2021-04-02 一种基于第三方服务的盗版视频网站检测方法及系统

Publications (2)

Publication Number Publication Date
CN113163234A true CN113163234A (zh) 2021-07-23
CN113163234B CN113163234B (zh) 2022-10-14

Family

ID=76886293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110360151.8A Active CN113163234B (zh) 2021-04-02 2021-04-02 一种基于第三方服务的盗版视频网站检测方法及系统

Country Status (1)

Country Link
CN (1) CN113163234B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114638296A (zh) * 2022-03-10 2022-06-17 马上消费金融股份有限公司 网页分类方法及装置
CN115086054A (zh) * 2022-06-23 2022-09-20 北京金睛云华科技有限公司 基于自注意力生成对抗网络的恶意域名检测方法和装置
CN114638296B (zh) * 2022-03-10 2024-07-16 马上消费金融股份有限公司 网页分类方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102932348A (zh) * 2012-10-30 2013-02-13 常州大学 一种钓鱼网站的实时检测方法及系统
CN103428186A (zh) * 2012-05-24 2013-12-04 中国移动通信集团公司 一种检测钓鱼网站的方法及装置
CN104954372A (zh) * 2015-06-12 2015-09-30 中国科学院信息工程研究所 一种钓鱼网站的取证与验证方法及系统
CN106776946A (zh) * 2016-12-02 2017-05-31 重庆大学 一种欺诈网站的检测方法
CN107800686A (zh) * 2017-09-25 2018-03-13 中国互联网络信息中心 一种钓鱼网站识别方法和装置
CN109347786A (zh) * 2018-08-14 2019-02-15 国家计算机网络与信息安全管理中心 钓鱼网站检测方法
US20210051174A1 (en) * 2019-08-16 2021-02-18 International Business Machines Corporation Combo-squatting domain linkage

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103428186A (zh) * 2012-05-24 2013-12-04 中国移动通信集团公司 一种检测钓鱼网站的方法及装置
CN102932348A (zh) * 2012-10-30 2013-02-13 常州大学 一种钓鱼网站的实时检测方法及系统
CN104954372A (zh) * 2015-06-12 2015-09-30 中国科学院信息工程研究所 一种钓鱼网站的取证与验证方法及系统
CN106776946A (zh) * 2016-12-02 2017-05-31 重庆大学 一种欺诈网站的检测方法
CN107800686A (zh) * 2017-09-25 2018-03-13 中国互联网络信息中心 一种钓鱼网站识别方法和装置
CN109347786A (zh) * 2018-08-14 2019-02-15 国家计算机网络与信息安全管理中心 钓鱼网站检测方法
US20210051174A1 (en) * 2019-08-16 2021-02-18 International Business Machines Corporation Combo-squatting domain linkage

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭晓霞;王磊;席岩;王晓艳;汪瑛;: "《基于网络的视频内容检索与盗版追踪溯源研究》", 《广播与电视技术》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114638296A (zh) * 2022-03-10 2022-06-17 马上消费金融股份有限公司 网页分类方法及装置
CN114638296B (zh) * 2022-03-10 2024-07-16 马上消费金融股份有限公司 网页分类方法及装置
CN115086054A (zh) * 2022-06-23 2022-09-20 北京金睛云华科技有限公司 基于自注意力生成对抗网络的恶意域名检测方法和装置

Also Published As

Publication number Publication date
CN113163234B (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
CN112749608B (zh) 视频审核方法、装置、计算机设备和存储介质
CN110119765B (zh) 一种基于Seq2seq框架的关键词提取方法
CN108804495B (zh) 一种基于增强语义的自动文本摘要方法
CN103268339B (zh) 微博消息中命名实体识别方法及系统
CN112541476B (zh) 一种基于语义特征提取的恶意网页识别方法
KR102324048B1 (ko) 커뮤니티 질의 응답 데이터의 검증 방법, 장치, 컴퓨터 기기 및 저장 매체
CN109918621B (zh) 基于数字指纹和语义特征的新闻文本侵权检测方法与装置
CN111061861B (zh) 一种基于XLNet的文本摘要自动生成方法
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN108460019A (zh) 一种基于注意力机制的新兴热点话题检测系统
CN110287314B (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN110807324A (zh) 一种基于IDCNN-crf与知识图谱的影视实体识别方法
CN103729474A (zh) 用于识别论坛用户马甲账号的方法和系统
CN109299277A (zh) 舆情分析方法、服务器及计算机可读存储介质
CN108038173A (zh) 一种网页分类方法、系统及一种网页分类设备
CN110956021A (zh) 一种原创文章的生成方法、装置、系统及服务器
CN113163234B (zh) 一种基于第三方服务的盗版视频网站检测方法及系统
CN112966103B (zh) 一种基于多任务学习的混合注意力机制文本标题匹配方法
CN113111645B (zh) 一种媒体文本相似性检测方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN110019814B (zh) 一种基于数据挖掘与深度学习的新闻信息聚合方法
CN108595453B (zh) Url标识映射获取方法及装置
CN116579348A (zh) 基于不确定语义融合的虚假新闻检测方法及系统
CN113657116B (zh) 基于视觉语义关系的社交媒体流行度预测方法及装置
CN113449517B (zh) 基于bert门控多窗口注意力网络模型的实体关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant