CN109993036A - 一种基于用户id识别有害视频的方法及其系统 - Google Patents
一种基于用户id识别有害视频的方法及其系统 Download PDFInfo
- Publication number
- CN109993036A CN109993036A CN201711500071.8A CN201711500071A CN109993036A CN 109993036 A CN109993036 A CN 109993036A CN 201711500071 A CN201711500071 A CN 201711500071A CN 109993036 A CN109993036 A CN 109993036A
- Authority
- CN
- China
- Prior art keywords
- video
- weight factor
- url
- image file
- address
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000006837 decompression Effects 0.000 claims abstract description 11
- 230000006835 compression Effects 0.000 claims abstract description 10
- 238000007906 compression Methods 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000700605 Viruses Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/24—Systems for the transmission of television signals using pulse code modulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Information Transfer Between Computers (AREA)
Abstract
一种识别有害视频的方法及其系统,其方法包括:当判断出网页的页面元素包含视频的URL路径时,获取所述网页的页面内容中记载的用户ID,依据视频的URL路径获取所述URL中包含的域名或所述URL指向的IP地址,并且基于所述用户ID、IP地址和域名的相关查询输出第一权重因子、第二权重因子;并且,进一步获取视频中的多个帧画面的图像文件,并在图像文件的压缩域中提取直流系数,以便对图像文件进行部分解压后识别所述图像文件,并根据识别图像文件的结果输出第三权重因子;综合第一权重因子和第二权重因子以及第三权重因子,对所述视频是否属于有害视频进行识别。
Description
技术领域
本公开属于信息安全领域,例如涉及一种识别有害视频的方法及其系统。
背景技术
在信息社会,到处充斥信息流,包括但不限于文本、视频、音频、图片等。其中,视频文件往往包括听觉信息和视觉信息,表达能力更加全面。然而,随着移动互联网的普及,网络上充斥大量有害视频内容,由于视觉直观性、冲击性等特点,其危害性更加甚于有害文本、有害图片和有害音频等,因此对这些有害视频进行识别,进而进行过滤、删除、消除危害,是十分必要的。
对于网络有害视频的识别,现在的技术主要有可以分为两大类,一种是传统方法,其中又包括两类:(1)基于单模态特征的识别方法。这类方法主要是提取视频的视觉特征,根据这些特征来构造分类器。例如在暴力视频识别上,常见的特征有视频运动矢量、颜色、纹理以及形状等。(2)基于多模态特征融合的识别方法,这类方法主要是提取视频的多个模态的特征,将其融合以构造分类器。例如在暴力视频识别上,除了视频特征外,很多方法还提取音频特征,包括短时能量,突发声音等。有些方法还考虑了网络视频周围的文本,从这些文本中继续提取一些特征用于融合识别。另一种是深度学习的方法:(1)CNN 利用卷积神经网络对资料库中的敏感有害图像进行识别处理,得到有害敏感视频的内部特征,利用学习到的有害视频框架判断得到的视频帧中是否有有害信息。(2)RNN循环神经网络,直接将资料库中的视频序列输入循环神经网络中识别有害视频信息,学习到有害视频的框架,利用学习到的有害视频框架判断识别新的视频是否为有害视频。 (3)CNN+RNN,利用CNN学习视频中图像帧中的空间域信息,利用 RNN识别视频序列中的时间域信息,最后将两者结合进行识别判断,利用学习到的框架对视频进行识别。
现有的图像处理手段主要有下面两种方法:传统方法和深度学习方法。其中传统方法中经典的方法词包模型,该模型由四个部分组成: (1)底层的特征提取阶段(2)特征编码(3)特征汇聚(4)使用合适的分类器进行分类。深度学习模型是另一种图像处理的模型,主要有自编码器,受限波尔兹曼机,深度信念网络,卷积神经网络,循环神经网络等。随着计算机硬件的不断进步,数据库的完善,使用传统的方法运算过程相比于深度学习来说较为简单,深度学习方法能够学习到更有意义的数据,并根据任务不断进行参数调整,所以对于图像处理方面,深度学习模型有更强大的特征表达能力。
现有的识别方法在在识别效率上都有所不足,在大数据和人工智能发展的情形下,如何高效的识别有害视频,就成为一个需要考虑的问题。
发明内容
本公开提供了一种识别有害视频的方法,包括:
步骤a),当判断出网页的页面元素包括视频的URL路径时,识别所述网页的页面内容中记载的用户ID,在第一数据库中查询是否存在所述ID,并根据ID的查询结果输出第一权重因子;
步骤b),依据视频的URL路径获取所述URL中包含的域名或所述URL指向的IP地址,基于所述URL中包含的域名,在第二数据库中进行whois查询,和/或基于所述URL指向的IP地址,在第二数据库中查询是否存在所述URL中包含的IP地址或同一网段IP地址,并根据whois查询结果和/或IP地址的查询结果,输出与视频的URL路径相关的第二权重因子;
步骤c),针对所述视频的URL路径指向的视频,获取该视频中的多个帧画面的图像文件,并在图像文件的压缩域中提取直流系数,以便对图像文件进行部分解压后识别所述图像文件,并根据识别图像文件的结果输出第三权重因子;
步骤d),综合第一权重因子和第二权重因子以及第三权重因子,对所述视频是否属于有害视频进行识别。
此外,本公开还揭示了一种识别有害视频的系统,包括:
第一权重因子生成模块,用于:当判断出网页的页面元素包括视频的URL路径时,识别所述网页的页面内容中记载的用户ID,在第一数据库中查询是否存在所述ID,并根据ID的查询结果输出第一权重因子;
第二权重因子生成模块,用于:依据视频的URL路径获取所述 URL中包含的域名或所述URL指向的IP地址,基于所述URL中包含的域名,在第二数据库中进行whois查询,和/或基于所述URL指向的IP地址,在第二数据库中查询是否存在所述URL中包含的IP地址或同一网段IP地址,并根据whois查询结果和/或IP地址的查询结果,输出与视频的URL路径相关的第二权重因子;
第三权重因子生成模块,用于:针对所述视频的URL路径指向的视频,获取该视频中的多个帧画面的图像文件,并在图像文件的压缩域中提取直流系数,以便对图像文件进行部分解压后识别所述图像文件,并根据识别图像文件的结果输出第三权重因子;
识别模块,用于综合第一权重因子和第二权重因子以及第三权重因子,对所述视频是否属于有害视频进行识别。
通过所述方法及其系统,本公开能够结合大数据所打造的数据库,以及尽量少的图像处理手段,从而较为高效的提供一种识别有害视频的方案。
附图说明
图1是本公开中一个实施例所述方法的示意图;
图2是本公开中一个实施例所述系统的示意图。
具体实施方式
为了使本领域技术人员理解本公开所披露的技术方案,下面将结合实施例及有关附图,对各个实施例的技术方案进行描述,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。本公开所采用的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,“包括”和“具有”以及它们的任何变形,意图在于覆盖且不排他的包含。例如包含了一系列步骤或单元的过程、或方法、或系统、或产品或设备没有限定于已列出的步骤或单元,而是可选的还包括没有列出的步骤或单元,或可选的还包括对于这些过程、方法、系统、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本公开的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其他实施例互斥的独立的或备选的实施例。本领域技术人员可以理解的是,本文所描述的实施例可以与其他实施例相结合。
参见图1,图1是本公开中一个实施例提供的一种识别有害视频的方法的流程示意图。如图所示,所述方法包括:
步骤S100,当判断出网页的页面元素包括视频的URL路径时,识别所述网页的页面内容中记载的用户ID,在第一数据库中查询是否存在所述ID,并根据ID的查询结果输出第一权重因子;
能够理解,第一数据库维护已知的、发布过有害视频的用户ID 清单。
这是因为,有害视频一般会形成一些粘性用户,这些用户有一部分会参与传播有害视频且大部分的ID是相对固定,甚至相当部分用户的ID在不同的网站或论坛都是相同或相近的ID。
例如,识别到的用户ID叫“tudou”的情形下:
如果第一数据库中记载有名为“tudou”的用户ID,那么第一权重因子可以示例性为1.0;
如果数据库中记载的ID有“tudou1”、“tudou2”、“tudou*”、或者近似的ID,那么“tudou”则被轻度怀疑为相同用户的备用ID,第一权重因子可以示例性为0.3;
如果数据库中记载ID没有“tudou”或相近似的ID,那么第一权重因子可以示例性为0。
步骤S200,依据视频的URL路径获取所述URL中包含的域名或所述URL指向的IP地址,基于所述URL中包含的域名,在第二数据库中进行whois查询,和/或基于所述URL指向的IP地址,在第二数据库中查询是否存在所述URL中包含的IP地址或同一网段IP地址,并根据whois查询结果和/或IP地址的查询结果,输出与视频的URL 路径相关的第二权重因子;
能够理解,第二数据库维护已知的、发布过有害视频的域名清单,和/或已知的发布有害视频的网站的IP地址、IP地址段清单。
Whois查询是为了考察域名注册人与有害视频的关联情况。第二数据库可以维护如下信息:域名、互联网上大量发布有害视频的域名注册人的信息以及对应的有害视频的标识。
例如,域名是www.a.com的情形下:
如果第二数据库中记载有该域名地址、相应有害视频的标识及其 whois信息,那么第二权重因子可以示例性为1.0;
如果第二数据库中没有记载上述域名www.a.com的任何有害视频的标识,但是能够查询到该域名的域名注册人,以及该域名的域名注册人注册的其他网站的域名,且第二数据库包括所述其他网站在互联网上大量发布有害视频的标识,那么即使第二数据库中没有记载上述域名www.a.com的任何有害视频的标识,www.a.com该域名对应的网站依然被高度怀疑为有害视频的来源,所述第二权重因子可以示例性为0.9;
如果第二数据库中没有记载上述域名www.a.com的任何有害视频的标识,但是能够查询到该域名的域名注册人,以及该域名的域名注册人注册的其他网站的域名,然而第二数据库并不包括任何关于所述其他网站发布有害视频的标识,所述第二权重因子可以示例性为0;
容易理解,如果第二数据库中没有记载上述域名www.a.com的任何有害视频的标识,也查询不到该域名的域名注册人注册的其他网站的域名,那么所述第二权重因子也可以示例性为0。
示例性的,还可以依据视频的URL路径获取所述URL指向的IP 地址,进行IP地址/IP地址段查询,来输出第二权重因子,
例如,IP地址是192.168.10.3的情形下:
如果第二数据库中记载有该IP地址,那么第二权重因子可以示例性为1.0;
如果第二数据库中记载的IP地址只有192.168.10.4,那么 192.168.10.3则被中度怀疑为该视频所属网站的备用地址或者新近更换的地址,第二权重因子可以示例性为0.6;
如果第二数据库中记载的IP地址有192.168.10.4以及 192.168.10.5,甚至记载了192.168.10.X网段的所有IP地址,那么 192.168.10.3则被高度怀疑为该视频所属网站的备用地址或者新近更换的地址,第二权重因子可以示例性为0.9;
如果数据库中记载的IP地址中包括多个192.168.X.X网段,而没有192.168.10.X网段,那么192.168.10.3则被谨慎怀疑为有害视频属网站的地址,第二权重因子可以示例性为0.4。
特别的,上述步骤还存在综合考虑IP清单和域名清单的情形,即通过视频URL的IP查询和域名whois查询来共同确定第二权重因子的情形。
假设视频URL的IP查询因子为i,域名whois查询因子为j,第二权重因子为y,其中0≤i≤1,0≤j≤1,0≤y≤1,可以根据如下公式确定第二权重因子:
y=m×i+n×j,其中,m+n=1,m、n则分别表示IP查询因子和域名whois查询因子的权重。
例如,m=n=1/2;
更例如,m、n不相等,具体可以根据各个查询因子的权重以及确定第二权重因子的实际情况而调整。
能够理解,y越接近1,第二权重因子就越重,相关视频属于有害视频的几率越大。
以上计算y的公式属于线性公式,然而实际应用时,也可能采用非线性公式。
进一步的,无论是线性公式还是非线性公式,均可以考虑通过训练或拟合来确定相关公式及其参数。
步骤S300,针对所述视频的URL路径指向的视频,获取该视频中的多个帧画面的图像文件,并在图像文件的压缩域中提取直流系数,以便对图像文件进行部分解压后识别所述图像文件,并根据识别图像文件的结果输出第三权重因子;
该步骤S300是基于视频来获取图像文件,并通过图像文件的识别结果来输出第三权重因子。如果检测到有害视频或其他不健康内容等,则第三权重因子会有所体现。能够理解,有害视频或其他不健康内容出现的次数满足相应的阈值条件时,第三权重因子可能是1.0,也可能是0.8或0.4,视具体阈值条件而定。
另外,需要强调的是,为了降低本实施例所需的计算资源和时间成本,对图像文件进行识别时,是先从图像文件的压缩域中提取直流系数,以便对图像文件进行部分解压即可用于图像识别。由于发明人利用:图像信息的大部分集中于直流系数及其附近的低频频谱这一特性,所以通过直流系数可以对图像文件进行部分解压,利用部分解压的图像信息来进行图像识别,而不利用完整的图像文件中的所有信息,从而降低了工作量。典型的,符合JPEG编码标准的图像文件均可以这样处理。
能够理解,本领域中对图像文件的有害信息识别的技术手段都能够用于本公开所述的视频文件中的图像文件。所述步骤S300,既可以结合传统的方法进行图像的处理,也可以使用结合深度学习模型进行图像的处理,进而对有害视频进行识别。
更特别的,在一种情形下,所述步骤S300中对图像文件进行部分解压后识别所述图像文件,具体包括:对图像文件进行部分解压后,将所述图像文件与第三方图像数据库中维护的、已知有害的图像文件进行特征比较,以便识别所述图像文件。当识别为有害时,将所述图像文件更新到所述第三方图像数据库。其中,所述第三方图像数据库中通过爬行已知有害网站的图像文件而预先建立。
步骤S400,综合第一权重因子和第二权重因子以及第三权重因子,对所述视频是否属于有害视频进行识别。
示例性的,设第一权重因子为x,第二权重因子为y,第三权重因子为z,其中0≤x≤1,0≤y≤1,0≤z≤1,可以根据如下公式综合上述权重因子计算视频的有害系数W:
W=a×x+b×y+c×z,其中,a+b+c=1,a、b、c则分别表示各个权重因子的权重。
例如,a=b=c=1/3;
更例如,a、b、c不相等,具体可以根据各个权重因子以及识别有害内容的实际情况而调整。
能够理解,W越接近1,相关视频属于有害视频的几率越大。
以上计算W的公式属于线性公式,然而实际应用时,也可能采用非线性公式。
进一步的,无论是线性公式还是非线性公式,均可以考虑通过训练或拟合来确定相关公式及其参数。
综上,对于上述实施例,仅仅步骤S300进行了图像处理,而其余步骤则是另辟蹊径,利用了相关查询、获得相关的权重因子。步骤 S400则综合(也可称为融合)多个权重因子进行有害视频的识别。本领域技术人员均知晓,针对视频的每一帧图像进行处理、识别是非常消耗时间成本的,而查询则相对而言更加节省时间成本。显而易见,上述实施例提出了一种富有效率的识别有害视频的方法。另外,上述实施例显然能够进一步结合大数据和/或人工智能来建立、更新所述第一数据库、第二数据库以及其他数据库。
在另一个实施例中,所述第二数据库为第三方数据库。
例如,进行whois查询的众多网站、以及第三方维护的有害视频的网站列表方面的数据库、或者发布了有害视频的网站的IP地址、 IP地址段列表方面的数据库。
在另一个实施例中,对于识别后确定为有害视频的,针对其来源的网址(例如论坛或网页),收集所述网址上记载的所述有害视频的发布者的ID信息并更新第一数据库。这是因为,有害视频一般会形成一些粘性用户,这些用户有一部分会参与传播有害视频且大部分的 ID会相对固定,如果相关网址自身记载了所述有害视频的发布者的 ID信息,本公开则通过收集其ID信息来更新前述第一数据库。
在另一个实施例中,步骤S200还包括:
进一步的,在第三方域名安全列表中查询所述域名的安全性以便输出安全因子,并通过所述安全因子对所述与域名相关的第二权重因子进行修正。
例如virustotal.com这一第三方域名安全筛查网站。能够理解,如果第三方信息中认为相关域名包含病毒或木马,则应当提高第二权重因子,根源在于相关网站更加不安全。
能够理解,所述实施例是侧重于从网络安全角度修正第二权重因子,防止用户遭受其他损失。这是因为,网络安全事关用户的隐私和财产权,如果有害视频的相关网站存在网络安全隐患,那么除了有害视频的危害之外还对用户带来隐私泄露或财产损失的危害。
在另一个实施例中,步骤S300中的获取视频中的多个帧画面的图像文件,是通过随机方式获取的。
对该实施例而言,其意味着随机选取视频中的画面,例如从视频的前面1/3播放时间段选取一帧或多帧画面的图像文件,从中间1/3 播放时间段以及末尾1/3播放时间段也分别选取一帧或多帧画面的图像文件。通常情况下,识别视频都是基于关键帧提取来做的,关键帧提取相对随机方式耗时一些,因此所述实施例通过随机方式选取一帧或多帧,特别是多帧画面,能够显著节省时间。随机方式获取多帧画面的图像文件,不仅显著节省时间,而且一定程度保证了处理的结果相对可信。
在另一个实施例中,步骤S300中的获取视频中的多个帧画面的图像文件,还包括如下:
步骤c1):提取视频中的音频;
步骤c2):识别音频中是否包括有害内容,如果有,则根据音频的起止时间获取所述起止时间内的多个帧画面的图像文件。
对于该实施例而言,如果识别到音频中包括所述有害内容,则定位其时间,从音频的起止时间为依据,获取起止时间内多个帧画面的图像文件。这样能够更加针对性的找到相关有害的画面。
如前文所述,如果结合大数据技术,本公开能够富有成效的结合多个维度、多种模式,结合用户ID信息、IP信息、域名信息、图像信息、音频信息来快速的识别有害视频。
更进一步的,上述实施例可以在路由器一侧、或者网络提供商一侧实施,提前过滤相关视频。
与方法相对应的,参见图2,本公开在另一个实施例中揭示了一种识别有害视频的系统,包括:
第一权重因子生成模块,用于:当判断出网页的页面元素包括视频的URL路径时,识别所述网页的页面内容中记载的用户ID,在第一数据库中查询是否存在所述ID,并根据ID的查询结果输出第一权重因子;
第二权重因子生成模块,用于:依据视频的URL路径获取所述 URL中包含的域名或所述URL指向的IP地址,基于所述URL中包含的域名,在第二数据库中进行whois查询,和/或基于所述URL指向的IP地址,在第二数据库中查询是否存在所述URL中包含的IP地址或同一网段IP地址,并根据whois查询结果和/或IP地址的查询结果,输出与视频的URL路径相关的第二权重因子;
第三权重因子生成模块,用于:针对所述视频的URL路径指向的视频,获取该视频中的多个帧画面的图像文件,并在图像文件的压缩域中提取直流系数,以便对图像文件进行部分解压后识别所述图像文件,并根据识别图像文件的结果输出第三权重因子;
识别模块,用于综合第一权重因子和第二权重因子以及第三权重因子,对所述视频是否属于有害视频进行识别。
与前文各个方法的实施例所类似的,
优选的,所述第二数据库为第三方数据库。
更优选的,第二权重因子生成模块还包括:
修正单元,用于:进一步的,在第三方域名安全列表中查询所述域名的安全性以便输出安全因子,并通过所述安全因子对所述与域名相关的第二权重因子进行修正。
更优选的,所述第三权重因子生成模块中所述的获取视频中的多个帧画面的图像文件,是通过随机方式获取的。
更优选的,所述第三权重因子生成模块中还通过如下单元实现获取视频中的多个帧画面的图像文件:
音频提取单元,用于提取视频中的音频;
音频识别单元,用于识别音频中是否包括有害内容,如果有,则根据音频的起止时间获取所述起止时间内的多个帧画面的图像文件。
本公开在另一个实施例中揭示了一种识别有害视频的系统,包括:
处理器及存储器,所述存储器中存储有可执行指令,所述处理器执行这些指令以执行以下操作:
步骤a),当判断出网页的页面元素包括视频的URL路径时,识别所述网页的页面内容中记载的用户ID,在第一数据库中查询是否存在所述ID,并根据ID的查询结果输出第一权重因子;
步骤b),依据视频的URL路径获取所述URL中包含的域名或所述URL指向的IP地址,基于所述URL中包含的域名,在第二数据库中进行whois查询,和/或基于所述URL指向的IP地址,在第二数据库中查询是否存在所述URL中包含的IP地址或同一网段IP地址,并根据whois查询结果和/或IP地址的查询结果,输出与视频的URL路径相关的第二权重因子;
步骤c),针对所述视频的URL路径指向的视频,获取该视频中的多个帧画面的图像文件,并在图像文件的压缩域中提取直流系数,以便对图像文件进行部分解压后识别所述图像文件,并根据识别图像文件的结果输出第三权重因子;
步骤d),综合第一权重因子和第二权重因子以及第三权重因子,对所述视频是否属于有害视频进行识别。
本公开在另一个实施例中还揭示了一种计算机存储介质,存储有可执行指令,所述指令用于执行如下识别有害视频的方法:
步骤a),当判断出网页的页面元素包括视频的URL路径时,识别所述网页的页面内容中记载的用户ID,在第一数据库中查询是否存在所述ID,并根据ID的查询结果输出第一权重因子;
步骤b),依据视频的URL路径获取所述URL中包含的域名或所述URL指向的IP地址,基于所述URL中包含的域名,在第二数据库中进行whois查询,和/或基于所述URL指向的IP地址,在第二数据库中查询是否存在所述URL中包含的IP地址或同一网段IP地址,并根据whois查询结果和/或IP地址的查询结果,输出与视频的URL路径相关的第二权重因子;
步骤c),针对所述视频的URL路径指向的视频,获取该视频中的多个帧画面的图像文件,并在图像文件的压缩域中提取直流系数,以便对图像文件进行部分解压后识别所述图像文件,并根据识别图像文件的结果输出第三权重因子;
步骤d),综合第一权重因子和第二权重因子以及第三权重因子,对所述视频是否属于有害视频进行识别。
对于上述系统,其可以包括:至少一个处理器(例如CPU),至少一个传感器(例如加速度计、陀螺仪、GPS模块或其他定位模块),至少一个存储器,至少一个通信总线,其中,通信总线用于实现各个组件之间的连接通信。所述设备还可以包括至少一个接收器,至少一个发送器,其中,接收器和发送器可以是有线发送端口,也可以是无线设备(例如包括天线装置),用于与其他节点设备进行信令或数据的传输。所述存储器可以是高速RAM存储器,也可以是非不稳定的存储器(Non-volatile memory),例如至少一个磁盘存储器。存储器可选的可以是至少一个位于远离前述处理器的存储装置。存储器中存储一组程序代码,且所述处理器可通过通信总线,调用存储器中存储的代码以执行相关的功能。
本公开的实施例还提供一种计算机存储介质,其中,该计算机存储介质可存储程序,该程序执行时包括上述方法实施例中记载的任何一种识别有害视频的方法的部分或全部步骤。
本公开的实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本公开的实施例系统中的模块和单元可以根据实际需要进行合并、划分和删减。需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作、模块、单元并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本公开所提供的几个实施例中,应该理解到,所揭露的系统,可通过其它的方式实现。例如,以上所描述的实施例仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,各单元或组件相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,本公开的各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为智能手机、个人数字助理、可穿戴设备、笔记本电脑、平板电脑)执行本公开的各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(R0M,Read-0nly Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开的各实施例技术方案的范围。
Claims (10)
1.一种识别有害视频的方法,包括:
步骤a),当判断出网页的页面元素包括视频的URL路径时,识别所述网页的页面内容中记载的用户ID,在第一数据库中查询是否存在所述ID,并根据ID的查询结果输出第一权重因子;
步骤b),依据视频的URL路径获取所述URL中包含的域名或所述URL指向的IP地址,基于所述URL中包含的域名,在第二数据库中进行whois查询,和/或基于所述URL指向的IP地址,在第二数据库中查询是否存在所述URL中包含的IP地址或同一网段IP地址,并根据whois查询结果和/或IP地址的查询结果,输出与视频的URL路径相关的第二权重因子;
步骤c),针对所述视频的URL路径指向的视频,获取该视频中的多个帧画面的图像文件,并在图像文件的压缩域中提取直流系数,以便对图像文件进行部分解压后识别所述图像文件,并根据识别图像文件的结果输出第三权重因子;
步骤d),综合第一权重因子和第二权重因子以及第三权重因子,对所述视频是否属于有害视频进行识别。
2.根据权利要求1所述的方法,其中,优选的,所述第二数据库为第三方数据库。
3.根据权利要求1所述的方法,其中,步骤b)还包括:
进一步的,在第三方域名安全列表中查询所述域名的安全性以便输出安全因子,并通过所述安全因子对所述第二权重因子进行修正。
4.根据权利要求1所述的方法,其中,步骤c)中的获取视频中的多个帧画面的图像文件,是通过随机方式获取的。
5.根据权利要求1所述的方法,其中,步骤c)中的获取视频中的多个帧画面的图像文件,还包括如下:
步骤c1):提取视频中的音频;
步骤c2):识别音频中是否包括有害内容,如果有,则根据音频的起止时间获取所述起止时间内的多个帧画面的图像文件。
6.一种识别有害视频的系统,包括:
第一权重因子生成模块,用于:当判断出网页的页面元素包括视频的URL路径时,识别所述网页的页面内容中记载的用户ID,在第一数据库中查询是否存在所述ID,并根据ID的查询结果输出第一权重因子;
第二权重因子生成模块,用于:依据视频的URL路径获取所述URL中包含的域名或所述URL指向的IP地址,基于所述URL中包含的域名,在第二数据库中进行whois查询,和/或基于所述URL指向的IP地址,在第二数据库中查询是否存在所述URL中包含的IP地址或同一网段IP地址,并根据whois查询结果和/或IP地址的查询结果,输出与视频的URL路径相关的第二权重因子;
第三权重因子生成模块,用于:针对所述视频的URL路径指向的视频,获取该视频中的多个帧画面的图像文件,并在图像文件的压缩域中提取直流系数,以便对图像文件进行部分解压后识别所述图像文件,并根据识别图像文件的结果输出第三权重因子;
识别模块,用于综合第一权重因子和第二权重因子以及第三权重因子,对所述视频是否属于有害视频进行识别。
7.根据权利要求6所述的系统,其中,优选的,所述第二数据库为第三方数据库。
8.根据权利要求6所述的系统,其中,第二权重因子生成模块还包括:
修正单元,用于:进一步的,在第三方域名安全列表中查询所述域名的安全性以便输出安全因子,并通过所述安全因子对所述第二权重因子进行修正。
9.根据权利要求6所述的系统,其中,所述第三权重因子生成模块中所述的获取视频中的多个帧画面的图像文件,是通过随机方式获取的。
10.根据权利要求6所述的系统,其中,所述第三权重因子生成模块中还通过如下单元实现获取视频中的多个帧画面的图像文件:
音频提取单元,用于提取视频中的音频;
音频识别单元,用于识别音频中是否包括有害内容,如果有,则根据音频的起止时间获取所述起止时间内的多个帧画面的图像文件。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711500071.8A CN109993036A (zh) | 2017-12-30 | 2017-12-30 | 一种基于用户id识别有害视频的方法及其系统 |
PCT/CN2018/072243 WO2019127659A1 (zh) | 2017-12-30 | 2018-01-11 | 一种基于用户id识别有害视频的方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711500071.8A CN109993036A (zh) | 2017-12-30 | 2017-12-30 | 一种基于用户id识别有害视频的方法及其系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109993036A true CN109993036A (zh) | 2019-07-09 |
Family
ID=67064962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711500071.8A Pending CN109993036A (zh) | 2017-12-30 | 2017-12-30 | 一种基于用户id识别有害视频的方法及其系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109993036A (zh) |
WO (1) | WO2019127659A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989950A (zh) * | 2021-02-11 | 2021-06-18 | 温州大学 | 一种面向多模态特征语义关联特征的暴力视频识别系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1968408A (zh) * | 2006-04-30 | 2007-05-23 | 华为技术有限公司 | 一种视频码流过滤方法和过滤节点 |
KR101027617B1 (ko) * | 2009-05-20 | 2011-04-11 | 주식회사 엔에스에이치씨 | 유해물 차단 서비스 시스템 및 방법 |
CN104615760A (zh) * | 2015-02-13 | 2015-05-13 | 北京瑞星信息技术有限公司 | 钓鱼网站识别方法和系统 |
CN106055574A (zh) * | 2016-05-19 | 2016-10-26 | 微梦创科网络科技(中国)有限公司 | 一种识别非法统一资源标识符url的方法与装置 |
CN106354800A (zh) * | 2016-08-26 | 2017-01-25 | 中国互联网络信息中心 | 一种基于多维度特征的不良网站检测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100362805C (zh) * | 2005-11-18 | 2008-01-16 | 郑州金惠计算机系统工程有限公司 | 网络色情图像和不良信息检测多功能管理系统 |
CN102880613A (zh) * | 2011-07-14 | 2013-01-16 | 腾讯科技(深圳)有限公司 | 色情图片的识别方法及其设备 |
US20140196144A1 (en) * | 2013-01-04 | 2014-07-10 | Jason Aaron Trost | Method and Apparatus for Detecting Malicious Websites |
-
2017
- 2017-12-30 CN CN201711500071.8A patent/CN109993036A/zh active Pending
-
2018
- 2018-01-11 WO PCT/CN2018/072243 patent/WO2019127659A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1968408A (zh) * | 2006-04-30 | 2007-05-23 | 华为技术有限公司 | 一种视频码流过滤方法和过滤节点 |
KR101027617B1 (ko) * | 2009-05-20 | 2011-04-11 | 주식회사 엔에스에이치씨 | 유해물 차단 서비스 시스템 및 방법 |
CN104615760A (zh) * | 2015-02-13 | 2015-05-13 | 北京瑞星信息技术有限公司 | 钓鱼网站识别方法和系统 |
CN106055574A (zh) * | 2016-05-19 | 2016-10-26 | 微梦创科网络科技(中国)有限公司 | 一种识别非法统一资源标识符url的方法与装置 |
CN106354800A (zh) * | 2016-08-26 | 2017-01-25 | 中国互联网络信息中心 | 一种基于多维度特征的不良网站检测方法 |
Non-Patent Citations (1)
Title |
---|
杨辉等: "压缩域DCT系数对图像视频检索影响的研究", 《南京邮电学院学报》 * |
Also Published As
Publication number | Publication date |
---|---|
WO2019127659A1 (zh) | 2019-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020122B (zh) | 一种视频推荐方法、系统及计算机可读存储介质 | |
CN110162621B (zh) | 分类模型训练方法、异常评论检测方法、装置及设备 | |
CN108509775A (zh) | 一种基于机器学习的恶意png图像识别方法 | |
CN104579773B (zh) | 域名系统分析方法及装置 | |
Liu et al. | An efficient multistage phishing website detection model based on the CASE feature framework: Aiming at the real web environment | |
CN107341399A (zh) | 评估代码文件安全性的方法及装置 | |
Chen et al. | Ai@ ntiphish—machine learning mechanisms for cyber-phishing attack | |
CN105095721A (zh) | 指纹认证显示装置及认证显示方法 | |
Yin et al. | Defense against adversarial attacks by low‐level image transformations | |
Vanitha et al. | Malicious-URL detection using logistic regression technique | |
CN115757991A (zh) | 一种网页识别方法、装置、电子设备和存储介质 | |
CN110020256A (zh) | 基于用户id和片尾内容的识别有害视频的方法及系统 | |
CN110019892A (zh) | 一种基于用户id识别有害图片的方法及其系统 | |
CN109993036A (zh) | 一种基于用户id识别有害视频的方法及其系统 | |
CN117221135A (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN110019946A (zh) | 一种识别有害视频的方法及其系统 | |
CN110020254A (zh) | 基于用户ip和视频拷贝的识别有害视频的方法及系统 | |
CN110020252A (zh) | 基于片尾内容的识别有害视频的方法及其系统 | |
CN110020251A (zh) | 基于用户ip和片尾内容的识别有害视频的方法及系统 | |
CN110020255A (zh) | 一种基于用户ip识别有害视频的方法及其系统 | |
CN109271706A (zh) | 发型生成方法及装置 | |
CN205427857U (zh) | 基于多生物特征结合设备指纹的身份识别系统 | |
CN110020257A (zh) | 基于用户id和视频拷贝的识别有害视频的方法及系统 | |
CN110020259A (zh) | 一种基于用户ip识别有害图片的方法及其系统 | |
CN110109952A (zh) | 一种识别有害图片的方法及其系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190709 |
|
RJ01 | Rejection of invention patent application after publication |