CN103838835A - 一种网络敏感视频检测方法 - Google Patents

一种网络敏感视频检测方法 Download PDF

Info

Publication number
CN103838835A
CN103838835A CN201410064902.1A CN201410064902A CN103838835A CN 103838835 A CN103838835 A CN 103838835A CN 201410064902 A CN201410064902 A CN 201410064902A CN 103838835 A CN103838835 A CN 103838835A
Authority
CN
China
Prior art keywords
video
internet video
cluster
video sample
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410064902.1A
Other languages
English (en)
Other versions
CN103838835B (zh
Inventor
胡卫明
周锋
吴偶
祝守宇
陶志忻
潘永存
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201410064902.1A priority Critical patent/CN103838835B/zh
Publication of CN103838835A publication Critical patent/CN103838835A/zh
Application granted granted Critical
Publication of CN103838835B publication Critical patent/CN103838835B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种新的网络敏感视频检测方法,该方法包括:收集网络视频并提取其周边的文本,然后提取出网络视频中的视频特征和文本特征,视频特征包含音频特征和视觉特征,视频特征以及文本特征构成网络视频的特征集合;依次人工标定视频是敏感的还是不敏感的;通过考虑视音频特征的质量因子并利用提取的特征集计算出词汇之间的内容丰富相似度,加上之前提取的文本特征一起构建分类器核,利用上面得到的分类器核,通过改进的支持向量机算法来训练网络敏感视频分类器,最后分类的时候仅提取测试样本的文本特征作为预测输入数据。本发明可以应用在互联网中的有害视频过滤中,可以有效的维护计算机网络的内容健康和安全。

Description

一种网络敏感视频检测方法
技术领域
本发明属于模式识别技术领域,尤其是一种新的网络敏感视频的检测方法。
背景技术
随着时代的发展,信息也随之爆炸。现在网络的出现为人们获取信息提供了极其便利的条件,但是任何事情都具有两面性,网络时代为我们提供方便的同时也带来了很多负面的影响,比如说网络上充斥着大量的色情、恐怖以及暴力等敏感视频,色情和恐怖视频大家都知道对于人们的健康有着恶劣的影响,现在已有很多方法对其进行检测和制止;但是人们忽略了暴力视频对于人们尤其是孩子心理健康的危害,现有的方法很少对暴力视频进行检测,即使存在也由于诸多原因并没有用于实际中间。
早在上个世纪就有人对于暴力对人们尤其是孩子的健康的影响做过研究。随着现在的视频分享网站的崛起,这个研究日趋重要起来。2006年国外最大的视频网站“YouTube”被Google以16.5亿美元收购,这一年被称为网络视频元年。此外,国内也出现了大量的诸如优酷土豆等等视频分享网站。这些视频分享网站允许用户将自己的视频上传分享给他人,于是有越来越多的用户热衷于将视频分享到网上,致使网络视频以井喷式增长,由于用户的素质良莠不齐势必会导致大多数色情暴力等不利于人们健康的视频也会被分享,而且数目之大令人无法想象。因此,需要对这些视频进行有效的识别,并根据识别的结果对视频进行监管。
对于网络敏感视频的检测,现有的技术可以大致分为三类:(1)基于文本的识别方法。这种方法就是提取网络视频周边文本的特征,根据这些文本特征来构造分类器。例如在暴力视频识别上,常提取的文本特征有视频的标题标签以及用户的评价等等。(2)基于视觉特征的识别方法。这种方法通过提取网络视频的视觉特征来构造分类器。一般提取的视觉特征分为视频特征和音频特征;在暴力视频的识别上,一般提取的视频特征有视频运动的矢量、颜色、纹理、血色等等;一般提取的音频特征有过零率、短时能量、梅尔倒谱系数等等。(3)基于信息融合的识别方法,这类方法将网络视频中的文本特征和视觉特征融合起来构造分类器。大量实验数据表明基于文本的分类器效率高速度快,然而网络视频中的文本特征具有稀疏性并不能很好的表示视频的内容;基于视觉内容的分类器能够很好地进行视频的分类,然而它的缺点在于很耗时,效率不是很高;在信息融合的领域大家有个共识就是多模态的分类结果通常来说会比单模态的识别效果好,实验数据也证明了这个观点,就是基于文本和视觉信息融合的分类器比之前的基于文本的和基于视觉的分类效果都好。众所周知,提取一个网络视频的文本特征效率很高,耗时很少,无论最后对于分类的效果贡献多少,实际上对于最终的分类效率并没有太大的影响,然而提取视频的视觉信息需要花费的时间相对来说却是非常之大的,实际之中视频分享网站中的视频质量良莠不齐,不能够保证任何一个视频中视频特征和音频特征的质量都非常的好,人们希望提取到的任何视觉特征对于最后的分类都是有帮助的,因此就有必要对于网络视频的视觉特征进行评估,评估它的质量如何,从而就有必要引入质量因子,来保证分类结果的可靠性,以实现更加合理的识别功能。
发明内容
本发明的主要目的是提供一种新的网络敏感视频检测方法,其主要的核心思想是在训练的时候考虑训练样本的视频特征和文本特征,通过计算出词对之间的内容丰富相似度构成一个语义分类核,使得最后在测试样本的时候并不需要耗费大量的时间去抽取样本的视频特征。该方法融合了网络视频中的文本特征和视频特征,通过考虑视频特征的质量来达到较好的分类效果。
为达到上述目的,本发明提出的一种网络敏感视频检测方法包括以下步骤:
步骤101:收集网络视频以及每个网络视频周围的文本以构成网络视频样本集;
步骤102:提取所述网络视频样本集中每个视频样本对应的文本特征,以及视频样本中的视频特征,也就是视觉特征和音频特征,所有视频样本的特征构成了网络视频的特征集;
步骤103:利用人工对所述网络视频样本集中的每一个网络视频样本进行识别和分类,即人为地标定每一个网络视频样本是敏感的还是不敏感的;
步骤104:通过计算所述网络视频样本集中每一个网络视频样本的视频比特率和音频比特率来提取得到视觉质量因子与音频的质量因子,并利用基于相似度的聚类方法对所述网络视频样本集进行聚类,得到C个聚类团以及视频聚类关系矩阵VS;
步骤105:利用所述视频聚类关系矩阵VS计算出C个聚类团中所有词对的内容丰富语义相似度矩阵,通过所述内容丰富语义相似度矩阵计算得到每个聚类团的内容丰富语义相似度分类器;
步骤106:将测试样本文本特征输入到所述步骤105得到的分类器中,每一个分类器将会返回一个数值来预测该测试样本可能所属的类别,最后通过计算哪一个分类器所返回的数值最高,来确定该测试样本的类型。
从上述技术方案可以看出,本发明具有以下有益效果:
1、本发明提供了一种新的网络敏感视频检测方法,能够根据网络视频样本本身的特点来分析所提取特征的质量,并且在训练的时候考虑到网络视频的视频特征提取的耗时性,于是在训练的时候通过计算词之间的内容丰富的相似度并加入网络视频的文本特征构造出一个内容丰富的语义核,这样可以在测试样本的时候仅需要提取样本视频的文本特征就可以进行分类,这样大大减少了分类所需要的时间。引入质量因子的原因是因为现在网络视频的质量良莠不齐,有的网络视频的视频很清晰可是音频质量很差,而有的网络视频的音频质量很好可是视频质量很差,这样在引入质量因子之后就可以根据实际情况,确定视频和音频对于最后分类所做的贡献比例,而且还可以为构建内容丰富的语义核做出贡献。目前所有的基于多模特征的融合均没有考虑网络视频的特征的质量因子,也没有考虑到在实际分类中所耗费的时间这一问题。然而在实际应用中,耗时性和准确性却是不能不考虑的因素,尤其是针对网络视频处理这种对时效性要求比较高的场合。而本发明通过考虑视觉特征中视频特征和音频特征的质量因子以及训练时候构造了文本之间的内容丰富相似度的语义核,由此构造出来的分类器比现有方法所构造出的分类器,更加符合网络视频的特点。
2、本发明提出的改进的支持向量机的算法能够很好的将网络视频的三类特征各自的优点充分利用起来,从而克服了内容特征提取的耗时性,并通过支持向量机算法在内容丰富的核空间里进行聚类,使得训练出来的分类器能够在识别网络视频样本时,更加准确以及更加省时,更具有合理性。
附图说明
图1是本发明提供的网络敏感视频检测方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明的执行环境采用一台具有3.4G赫兹中央处理器和4G字节内存的酷睿双核计算机,实现了本发明一种考虑特征质量因子的网络敏感视频检测方法,当然还可以采用其他的执行环境,在此不再赘述。
图1为本发明提供的一种网络敏感视频检测方法的流程图,如图1所示,所述方法包括以下步骤:
步骤101:利用计算机等设备收集网络视频以及每个网络视频周围的文本以构成网络视频样本集;
步骤102:提取所述网络视频样本集中每个视频样本对应的文本特征,以及视频样本中的视频特征,也就是视觉特征和音频特征,所有视频样本的特征构成了网络视频的特征集;
该步骤中,具体选取的特征根据敏感视频的具体类型来选取,在此以暴力视频来简单的介绍应该提取的视音频特征。
在本发明一实施例中,对于视觉特征,主要提取的是与暴力相关的视觉特征,例如枪火、血腥等颜色,强烈的镜头变换、快速晃动等运动矢量等等;
对于音频特征,主要提取的是与暴力相关的音频特征,例如短时能量,过零率,梅尔倒谱系数等;
对于文本特征,主要提取的是常规的文本特征,如文档频率,信息增益以及互信息等。
步骤103:利用人工对所述网络视频样本集中的每一个网络视频样本进行识别和分类,即人为地标定每一个网络视频样本是敏感的还是不敏感的;
步骤104:通过计算所述网络视频样本集中每一个网络视频样本的视频比特率和音频比特率来提取得到视觉质量因子与音频的质量因子,并利用基于相似度的聚类方法对所述网络视频样本集进行聚类,得到C个聚类团以及视频聚类关系矩阵VS;
其中,视频聚类关系矩阵VS的计算方法如下,如果视频i在聚类团Cj中,则VSij=1,反之VSij=0。
对所述网络视频样本集中的每个网络视频样本的视觉质量因子的计算具体包括以下步骤:
步骤1041,计算所述网络视频样本集中每一个网络视频样本的视频比特率,得到具有最大视频比特率的网络视频样本;
步骤1042,将其他所有的网络视频样本的视频比特率除以所述最大视频比特率,得到与网络视频样本相应的视觉质量因子,所述质量因子的值介于0和1之间。
对所述网络视频样本集中的每个网络视频样本的音频质量因子的计算具体包括以下步骤:
步骤1043,计算所述网络视频样本集中每一个网络视频样本的音频比特率,得到具有最大音频比特率的网络视频样本;
步骤1044,将其他所有的网络视频样本的音频比特率除以所述最大音频比特率,得到与网络视频样本相应的音频质量因子,所述音频质量因子的值介于0和1之间。
在本发明一实施例中,所述步骤104采用如下所述的聚类方法:
(1)假设现在一共收集的网络视频样本的总个数为D,也就是说现在有D个聚类团,每个聚类团中仅含有一个网络视频样本;
(2)用sim(Xi,Xj)表示任意两个聚类团之间的相似度,其中,Xi,Xj表示D个聚类团中的任意两个聚类团,i,j<D,由此得到一个对角矩阵,称这个对角矩阵为相似矩阵S(0)
S(0)=(sim(0)(Xi,Xj))(D×D)
其中,上标0表示表示第一次聚类。
(3)合并相似度最大的两个聚类团为一个新聚类团,这样得到的聚类团记为第D+1个聚类团,因此现在得到D-1个聚类团;
(4)计算新聚类团与剩下各聚类团之间的相似度,得到降一阶的新的相似度矩阵S(1)
S(1)=(sim(1)(Xi,Xj))(D-1)×(D-1)
(5)这样循环下去最终得到C个聚类团,至此网络视频样本集的聚类结束。
其中,在聚类的过程中,根据待聚类对象的不同特点来计算它们之间的相似度,具体为:
(1)待聚类对象为两个样本;
用向量Xip=(aqip,aip,vqip,vip),Xjk=(aqjk,ajk,vqjk,vjk)表示两个网络视频样本的质量因子、视觉特征和音频特征,其中,aqip表示网络视频样本Xip的音频质量因子,aqjk表示网络视频样本Xjk的音频质量因子,vqip表示网络视频样本Xip的视频质量因子,vqjk表示网络视频样本Xjk的视频质量因子,aip表示网络视频样本Xip的音频特征,ajk表示网络视频样本Xjk的音频特征,vip表示网络视频样本Xip的视觉特征,vjk表示网络视频样本Xjk的视觉特征,则Xip与Xjk之间的相似度定义为:
sim ( X ip , X jk ) = ex p - [ aq ip &times; aq jk aq ip &times; aq jk + vq ip + vq jk | | a ip - a jk | | 2 + vq ip &times; vq jk aq ip &times; aq jk + vq ip + vq jk | | v ip - v jk | | 2 ] ;
(2)如果待聚类对象为样本与聚类团;
用X=(aq,a,vq,v)和cluster(j)=(Xj1,Xj2,…,Xjm)分别表示某聚类团中的一个网络视频样本以及包含m个网络视频样本的聚类团,则X与cluster(j)的相似度定义为:
sim(X,cluster(j))=Max(sim(X,Xjk))(k=1,2,…,m);
(3)如果待聚类对象为两个聚类团;
用cluster(i)=(Xi1,Xi2,…,Xin)和cluster(j)=(Xj1,Xj2,…,Xjm)分别表示具有n个和m个网络视频样本的两个聚类团,则这两个聚类团之间的相似度为:
sim(cluster(i),cluster(j))=Max(sim(Xip,Xjk))(p=1,2,…,n,k=1,2,…,m);
对两个词之间的语义相似度及其相应的语义相似度核的计算如下:利用词网或者同现的方法计算出两个词之间的语义相似度,语义相似度的核即K=X×P×PT×XT,其中,X是词与视频文本的关系矩阵,P是由词与词之间的相似度所组成的相似度矩阵。
步骤105:利用所述视频聚类关系矩阵VS计算出C个聚类团中所有词对的内容丰富语义相似度矩阵,通过所述内容丰富语义相似度矩阵计算得到每个聚类团的内容丰富语义相似度分类器;
网络词汇之间的内容丰富语义相似度的计算如下:
首先可以列出一个向量,这个向量的内容是每个词汇在一个视频中出现的频率:W=<tfw,1,tfw,2,...,tfw,|D|>,其中tfw,1表示词w在第i个文本中出现的概率,|D|表示文本个数;
根据上述的内容就可以得到词在聚类团中出现的频率Wc,Wc=W×VS,其中Wc=<tfwc,1,tfwc,2,...,tfwc,k>,tfwc,k表示词w在聚类团中出现的频率。
可以利用VS矩阵来计算所有词对之间的内容丰富的语义相似度,详细的过程是这样的:给定一个词在文本中出现频率的矩阵X和视频聚类关系矩阵VS,通过Y=XT×VS可以得到词出现在聚类团中的矩阵Y。把矩阵Y的每一行的向量y规格化后得到
Figure BDA0000469633900000071
这样就得到了向量
Figure BDA0000469633900000072
也就得到了内容丰富相似度矩阵
Figure BDA0000469633900000073
内容丰富语义相似度分类器核的构造方法如下:
K=X×CES×XT
其中,X为一个词在文本中出现频率的矩阵,Xij表示词i在文本j中出现的频率。这样每个聚类团的分类器的语义核就构造出来了。
对于每一个聚类团,通过一对多的支持向量机方法并利用内容丰富的语义核来构建得到分类器,至此每个聚类团的分类器就构造出来了。
步骤106:将测试样本文本特征输入到所述步骤105得到的分类器中,每一个分类器将会返回一个数值来预测该测试样本可能所属的类别,最后通过计算哪一个分类器所返回的数值最高,来确定该测试样本的类型。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种网络敏感视频检测方法,其特征在于,该方法包括以下步骤:
步骤101:收集网络视频以及每个网络视频周围的文本以构成网络视频样本集;
步骤102:提取所述网络视频样本集中每个视频样本对应的文本特征,以及视频样本中的视频特征,也就是视觉特征和音频特征,所有视频样本的特征构成了网络视频的特征集;
步骤103:利用人工对所述网络视频样本集中的每一个网络视频样本进行识别和分类,即人为地标定每一个网络视频样本是敏感的还是不敏感的;
步骤104:通过计算所述网络视频样本集中每一个网络视频样本的视频比特率和音频比特率来提取得到视觉质量因子与音频的质量因子,并利用基于相似度的聚类方法对所述网络视频样本集进行聚类,得到C个聚类团以及视频聚类关系矩阵VS;
步骤105:利用所述视频聚类关系矩阵VS计算出C个聚类团中所有词对的内容丰富语义相似度矩阵,通过所述内容丰富语义相似度矩阵计算得到每个聚类团的内容丰富语义相似度分类器;
步骤106:将测试样本文本特征输入到所述步骤105得到的分类器中,每一个分类器将会返回一个数值来预测该测试样本可能所属的类别,最后通过计算哪一个分类器所返回的数值最高,来确定该测试样本的类型。
2.根据权利要求1所述的方法,其特征在于,所述步骤102中提取的特征取决于敏感视频的类型。
3.根据权利要求1所述的方法,其特征在于,所述步骤104中,所述视频聚类关系矩阵VS的计算方法如下:如果视频i在聚类团Cj中,则VSij=1,反之VSij=0。
4.根据权利要求1所述的方法,其特征在于,所述步骤104中,对所述网络视频样本集中的每个网络视频样本的视觉质量因子的计算包括以下步骤:
步骤1041,计算所述网络视频样本集中每一个网络视频样本的视频比特率,得到具有最大视频比特率的网络视频样本;
步骤1042,将其他所有的网络视频样本的视频比特率除以所述最大视频比特率,得到与网络视频样本相应的视觉质量因子,所述质量因子的值介于0和1之间。
5.根据权利要求1所述的方法,其特征在于,所述步骤104中,对所述网络视频样本集中的每个网络视频样本的音频质量因子的计算包括以下步骤:
步骤1043,计算所述网络视频样本集中每一个网络视频样本的音频比特率,得到具有最大音频比特率的网络视频样本;
步骤1044,将其他所有的网络视频样本的音频比特率除以所述最大音频比特率,得到与网络视频样本相应的音频质量因子,所述音频质量因子的值介于0和1之间。
6.根据权利要求1所述的方法,其特征在于,所述步骤104采用的聚类方法为:
(1)假设现在一共收集的网络视频样本的总个数为D,也就是说有D个聚类团,每个聚类团中仅含有一个网络视频样本;
(2)用sim(Xi,Xj)表示任意两个聚类团之间的相似度,其中,Xi,Xj表示D个聚类团中的任意两个聚类团,i,j<D,由此得到一个对角矩阵,称之为相似矩阵S(0)
S(0)=(sim(0)(Xi,Xj))(D×D)
其中,上标0表示表示第一次聚类;
(3)合并相似度最大的两个聚类团为一个新聚类团,这样得到的聚类团记为第D+1个聚类团,现在得到D-1个聚类团;
(4)计算新聚类团与剩下各聚类团之间的相似度,得到降一阶的新的相似度矩阵S(1)
S(1)=(sim(1)(Xi,Xj))(D-1)×(D-1)
(5)循环下去最终得到C个聚类团,至此网络视频样本集的聚类结束。
7.根据权利要求1所述的方法,其特征在于,在所述步骤104利用基于相似度的聚类方法得到C个聚类团的过程中,根据待聚类对象的不同特点来计算它们之间的相似度,具体为:
(1)如果待聚类对象为两个样本,则使用下式来计算它们之间的相似度:
sim ( X ip , X jk ) = ex p - [ aq ip &times; aq jk aq ip &times; aq jk + vq ip + vq jk | | a ip - a jk | | 2 + vq ip &times; vq jk aq ip &times; aq jk + vq ip + vq jk | | v ip - v jk | | 2 ] ,
其中,向量Xip=(aqip,aip,vqip,vip),Xjk=(aqjk,ajk,vqjk,vjk)表示两个网络视频样本的质量因子、视觉特征和音频特征,aqip表示网络视频样本Xip的音频质量因子,aqjk表示网络视频样本Xjk的音频质量因子,vqip表示网络视频样本Xip的视频质量因子,vqjk表示网络视频样本Xjk的视频质量因子,aip表示网络视频样本Xip的音频特征,ajk表示网络视频样本Xjk的音频特征,vip表示网络视频样本Xip的视觉特征,vjk表示网络视频样本Xjk的视觉特征;
(2)如果待聚类对象为样本与聚类团,则使用下式来计算它们之间的相似度:
sim(X,cluster(j))=Max(sim(X,Xjk))(k=1,2,…,m),
其中,X=(aq,a,vq,v)和cluster(j)=(Xj1,Xj2,…,Xjm)分别表示某聚类团中的一个网络视频样本以及包含m个网络视频样本的聚类团;
(3)如果待聚类对象为两个聚类团,则使用下式来计算它们之间的相似度:
sim(cluster(i),cluster(j))=Max(sim(Xip,Xjk))(p=1,2,…,n,k=1,2,…,m)其中,cluster(i)=(Xi1,Xi2,…,Xin)和cluster(j)=(Xj1,Xj2,…,Xjm)分别表示具有n个和m个网络视频样本的两个聚类团。
8.根据权利要求1所述的方法,其特征在于,所述步骤105中,利用VS矩阵来计算所有词对之间的内容丰富的语义相似度:给定一个词在文本中出现频率的矩阵X和视频聚类关系矩阵VS,通过Y=XT×VS得到词出现在聚类团中的矩阵Y,把矩阵Y的每一行的向量y规格化后得到
Figure FDA0000469633890000032
这样就得到了向量
Figure FDA0000469633890000033
和内容丰富相似度矩阵
Figure FDA0000469633890000034
9.根据权利要求1所述的方法,其特征在于,所述步骤105中,内容丰富语义相似度分类器核利用下式计算:
K=X×CES×XT
其中,X为一个词在文本中出现频率的矩阵,CES为内容丰富相似度矩阵。
CN201410064902.1A 2014-02-25 2014-02-25 一种网络敏感视频检测方法 Active CN103838835B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410064902.1A CN103838835B (zh) 2014-02-25 2014-02-25 一种网络敏感视频检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410064902.1A CN103838835B (zh) 2014-02-25 2014-02-25 一种网络敏感视频检测方法

Publications (2)

Publication Number Publication Date
CN103838835A true CN103838835A (zh) 2014-06-04
CN103838835B CN103838835B (zh) 2017-11-21

Family

ID=50802332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410064902.1A Active CN103838835B (zh) 2014-02-25 2014-02-25 一种网络敏感视频检测方法

Country Status (1)

Country Link
CN (1) CN103838835B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104410905A (zh) * 2014-09-10 2015-03-11 中国人民解放军信息工程大学 一种ip视频实时监控方法与系统
CN104486649A (zh) * 2014-12-18 2015-04-01 北京百度网讯科技有限公司 视频内容评级方法及装置
CN104657468A (zh) * 2015-02-12 2015-05-27 中国科学院自动化研究所 基于图像与文本的视频的快速分类方法
CN106294783A (zh) * 2016-08-12 2017-01-04 乐视控股(北京)有限公司 一种视频推荐方法及装置
CN107239560A (zh) * 2017-06-12 2017-10-10 浙江大学 一种基于深度学习的文本蕴含关系识别方法
CN108241856A (zh) * 2018-01-12 2018-07-03 新华智云科技有限公司 资讯信息生成方法及设备
CN108288045A (zh) * 2018-01-31 2018-07-17 天讯瑞达通信技术有限公司 一种移动视频直播/监控视频采集源特征分类方法
CN109446990A (zh) * 2018-10-30 2019-03-08 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN109561322A (zh) * 2018-12-27 2019-04-02 广州市百果园信息技术有限公司 一种视频审核的方法、装置、设备和存储介质
WO2019127657A1 (zh) * 2017-12-30 2019-07-04 惠州学院 基于内容的视频拷贝的识别有害视频的方法及其系统
CN111385659A (zh) * 2018-12-29 2020-07-07 广州市百果园信息技术有限公司 一种视频推荐方法、装置、设备及存储介质
CN111930992A (zh) * 2020-08-14 2020-11-13 腾讯科技(深圳)有限公司 神经网络训练方法、装置及电子设备
CN116208824A (zh) * 2023-02-07 2023-06-02 腾讯音乐娱乐科技(深圳)有限公司 标题生成方法、计算机设备、存储介质和计算机程序产品

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992578B (zh) * 2017-12-06 2019-11-22 山西睿信智达传媒科技股份有限公司 敏感视频源的数据库自动检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4239108B2 (ja) * 2006-10-24 2009-03-18 ソニー株式会社 内容文字情報取得方法、内容文字情報取得プログラム、内容文字情報取得装置及び映像コンテンツ記録装置
CN102331989A (zh) * 2010-07-12 2012-01-25 张艳红 基于内容排序的图像、视频搜索引擎
CN102436483A (zh) * 2011-10-31 2012-05-02 北京交通大学 一种基于显式共享子空间的视频广告检测方法
CN103336832A (zh) * 2013-07-10 2013-10-02 中国科学院自动化研究所 基于质量元数据的视频分类器构造方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4239108B2 (ja) * 2006-10-24 2009-03-18 ソニー株式会社 内容文字情報取得方法、内容文字情報取得プログラム、内容文字情報取得装置及び映像コンテンツ記録装置
CN102331989A (zh) * 2010-07-12 2012-01-25 张艳红 基于内容排序的图像、视频搜索引擎
CN102436483A (zh) * 2011-10-31 2012-05-02 北京交通大学 一种基于显式共享子空间的视频广告检测方法
CN103336832A (zh) * 2013-07-10 2013-10-02 中国科学院自动化研究所 基于质量元数据的视频分类器构造方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104410905A (zh) * 2014-09-10 2015-03-11 中国人民解放军信息工程大学 一种ip视频实时监控方法与系统
CN104410905B (zh) * 2014-09-10 2018-10-09 中国人民解放军信息工程大学 一种ip视频实时监控方法与系统
CN104486649A (zh) * 2014-12-18 2015-04-01 北京百度网讯科技有限公司 视频内容评级方法及装置
CN104486649B (zh) * 2014-12-18 2018-05-04 北京百度网讯科技有限公司 视频内容评级方法及装置
CN104657468B (zh) * 2015-02-12 2018-07-31 中国科学院自动化研究所 基于图像与文本的视频的快速分类方法
CN104657468A (zh) * 2015-02-12 2015-05-27 中国科学院自动化研究所 基于图像与文本的视频的快速分类方法
CN106294783A (zh) * 2016-08-12 2017-01-04 乐视控股(北京)有限公司 一种视频推荐方法及装置
CN107239560A (zh) * 2017-06-12 2017-10-10 浙江大学 一种基于深度学习的文本蕴含关系识别方法
CN107239560B (zh) * 2017-06-12 2020-07-03 浙江大学 一种基于深度学习的文本蕴含关系识别方法
WO2019127657A1 (zh) * 2017-12-30 2019-07-04 惠州学院 基于内容的视频拷贝的识别有害视频的方法及其系统
CN108241856A (zh) * 2018-01-12 2018-07-03 新华智云科技有限公司 资讯信息生成方法及设备
CN108288045A (zh) * 2018-01-31 2018-07-17 天讯瑞达通信技术有限公司 一种移动视频直播/监控视频采集源特征分类方法
CN108288045B (zh) * 2018-01-31 2020-11-24 天讯瑞达通信技术有限公司 一种移动视频直播/监控视频采集源特征分类方法
CN109446990A (zh) * 2018-10-30 2019-03-08 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN109561322A (zh) * 2018-12-27 2019-04-02 广州市百果园信息技术有限公司 一种视频审核的方法、装置、设备和存储介质
CN109561322B (zh) * 2018-12-27 2021-06-15 广州市百果园信息技术有限公司 一种视频审核的方法、装置、设备和存储介质
CN111385659A (zh) * 2018-12-29 2020-07-07 广州市百果园信息技术有限公司 一种视频推荐方法、装置、设备及存储介质
CN111930992A (zh) * 2020-08-14 2020-11-13 腾讯科技(深圳)有限公司 神经网络训练方法、装置及电子设备
CN116208824A (zh) * 2023-02-07 2023-06-02 腾讯音乐娱乐科技(深圳)有限公司 标题生成方法、计算机设备、存储介质和计算机程序产品

Also Published As

Publication number Publication date
CN103838835B (zh) 2017-11-21

Similar Documents

Publication Publication Date Title
CN103838835B (zh) 一种网络敏感视频检测方法
Nguyen et al. Damage assessment from social media imagery data during disasters
US10977447B2 (en) Method and device for identifying a user interest, and computer-readable storage medium
CN106407484B (zh) 一种基于弹幕语义关联的视频标签提取方法
CN108777674B (zh) 一种基于多特征融合的钓鱼网站检测方法
CN104239436B (zh) 一种基于文本分类和聚类分析的网络热点事件发现方法
CN102929873A (zh) 一种基于情境搜索提取搜索价值词的方法及装置
US10489447B2 (en) Method and apparatus for using business-aware latent topics for image captioning in social media
Suresh An unsupervised fuzzy clustering method for twitter sentiment analysis
CN105930411A (zh) 一种分类器训练方法、分类器和情感分类系统
Siddiquie et al. Exploiting multimodal affect and semantics to identify politically persuasive web videos
CN103577755A (zh) 一种基于支持向量机的恶意脚本静态检测方法
US20170192959A1 (en) Apparatus and method for extracting topics
CN110830489B (zh) 基于内容抽象表示的对抗式欺诈网站检测方法及系统
CN109165529B (zh) 一种暗链篡改检测方法、装置和计算机可读存储介质
CN112559747B (zh) 事件分类处理方法、装置、电子设备和存储介质
CN103902619A (zh) 一种网络舆情监控方法及系统
CN110705292B (zh) 一种基于知识库和深度学习的实体名称提取方法
Bhattacharjee et al. Term specific tf-idf boosting for detection of rumours in social networks
Alsaedi et al. Sensing real-world events using Arabic Twitter posts
Yang et al. News topic detection based on capsule semantic graph
Wu et al. Reducing noisy labels in weakly labeled data for visual sentiment analysis
Bai et al. News classifications with labeled LDA
CN106991171A (zh) 基于智慧校园信息服务平台的话题发现方法
Majdabadi et al. Twitter trend extraction: a graph-based approach for tweet and hashtag ranking, utilizing no-hashtag tweets

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant