CN101316327B - 一种多模态融合的采访镜头检测方法 - Google Patents

一种多模态融合的采访镜头检测方法 Download PDF

Info

Publication number
CN101316327B
CN101316327B CN200710099725A CN200710099725A CN101316327B CN 101316327 B CN101316327 B CN 101316327B CN 200710099725 A CN200710099725 A CN 200710099725A CN 200710099725 A CN200710099725 A CN 200710099725A CN 101316327 B CN101316327 B CN 101316327B
Authority
CN
China
Prior art keywords
camera lens
ratio
people
interview
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200710099725A
Other languages
English (en)
Other versions
CN101316327A (zh
Inventor
刘安安
李锦涛
张勇东
唐胜
宋砚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan Lianzhou Electronic Technology Co Ltd
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN200710099725A priority Critical patent/CN101316327B/zh
Publication of CN101316327A publication Critical patent/CN101316327A/zh
Application granted granted Critical
Publication of CN101316327B publication Critical patent/CN101316327B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Studio Devices (AREA)

Abstract

本发明公开了一种多模态融合的采访镜头检测方法,包括:输入未编辑的原始视频,对视频进行预处理,得到原始视频的视频流和音频流,以及视频流中的镜头、各个镜头的关键帧;根据视频预处理操作所得到的音频流建立人声模型,并依赖所建立的人声模型判断镜头是否为包含人声的镜头;根据视频预处理操作所得到的视频流建立人脸模型,并依赖人脸模型判断镜头是否为包含人脸的镜头;融合人声检测结果和人脸检测结果,如果一个镜头中同时包含人声和人脸信息,则镜头为采访镜头。本发明的优点是通过融合视频和音频信息,建立通用的基于镜头的采访检测模型,并实现了对未经编辑的原始视频的概念检测和标注。

Description

一种多模态融合的采访镜头检测方法
技术领域
本发明涉及视频编辑领域,特别涉及一种多模态融合的采访镜头检测方法。
背景技术
在电影、新闻等视频编辑领域中,大量的未经编辑的原始素材被用于视频制作。这些原始素材包括以下三个主要特征:
1、包含大量的静止场景和冗余片段;
2、原始素材的音频通常伴有噪声,并且很难通过自动语音识别技术实现音频到文本的转化;
3、.对于原始素材的文本介绍很少,很难通过文本信息实现视频内容分析。
因此,对未经人工编辑的原始视频的分析不同于现有对已编辑视频(如:电影,新闻,体育视频等)的研究,是个具有挑战性的新兴的研究领域。
通常,新闻视频原始素材包含采访镜头、人物活动镜头、自然风光镜头和一些冗余镜头。对于新闻视频制作而言,采访镜头最为重要。采访镜头通常记录的是记者和被采访人的对话或者被采访人的自述,一般具有人脸和人声信息。目前现有的人物识别方法多数是通过建立特定说话人模型进行人物检测,例如通过混合高斯模型(GMM)建立新闻主播模型,在参考文献1《Aaron E.Rosenberg,IvanMagrin-Chagnolleau,S.Parthasarathy et al,“Speaker Detection in Broadcast SpeechDatabases”,Proceeding of ICSLP’98,Sydney,Australia》中就有对如何利用混合高斯模型建立新闻主播模型的详细说明。但是对于未经编辑的原始视频而言,被采访者的多样性导致现有依靠特定说话人模型的方法不具有更广的通用性。
此外,现有视频分析方法多依据特定视频类型本身的特征,如电影分析可以依据电影编辑手法,体育视频分析可以依据体育视频拍摄规则等,而新闻原始素材没有特定的规律可遵循,这给原始新闻的视频分析带来很大困难。
发明内容
本发明的目的是克服现有的人物识别方法在检测未经编辑的新闻视频时,需要依赖特定说话人模型,通用性低的缺陷,从而提供一种融合视频和音频信息,具有较大通用性的采访镜头检测方法。
为了实现上述目的,本发明提供了一种多模态融合的采访镜头检测方法,按照以下步骤顺序执行:
步骤10)、输入未编辑的原始视频,对视频进行预处理,得到原始视频的视频流和音频流,以及视频流中的镜头、各个镜头的关键帧;
步骤20)、根据所述的音频流建立人声模型,并依赖所述的人声模型判断镜头是否为包含人声的镜头;
步骤30)、根据所述的视频流建立人脸模型,并依赖所述的人脸模型判断镜头是否为包含人脸的镜头;
步骤40)、根据步骤20)的人声检测结果和步骤30)的人脸检测结果建立采访模型,并在所述的采访模型中融合人声检测结果和人脸检测结果,根据融合的结果判断镜头是否为采访镜头,如果一个镜头中同时包含人声和人脸信息,则所述镜头为采访镜头。
上述技术方案中,在所述的步骤10)中,所述对输入的原始视频的预处理具体包括以下步骤:
步骤11)、将输入视频分为视频流和音频流;
步骤12)、对所述视频流进行镜头边界检测和关键帧提取。
上述技术方案中,在所述的步骤20)中,所述人声模型的建立具体包括以下步骤:
步骤21)、从音频流中提取基于帧的短时音频特征;
步骤22)、根据音频内容,将各音频短时帧对应的音频特征标注为人声类或非人声类,建立训练数据集和测试数据集,并将未编辑原始视频中的音频流数据添加到所述训练数据集或测试数据集;
步骤23)、通过支持向量机分类器和所述训练数据集建立人声模型;
步骤24)、通过有限状态机对所述测试数据集中音频短时帧的分类结果做平滑,得到音频短时帧类型的检测结果;
步骤25)、根据所述检测结果,计算一个镜头中人声类型的音频短时帧占总帧数的比例,并判断所得到的比例是否大于第三阈值,如果大于,则所在镜头为包含人声的镜头。
在所述的步骤21)中,所述的短时音频特征为短时音频能量、短时过零率、美尔倒谱系数、子带能量和子带能量比。
在所述的步骤25)中,所述的第三阈值为0.7。
上述技术方案中,所述的步骤30)具体包括以下步骤:
步骤31)、建立人脸模型,对所述步骤10)所得到的各镜头关键帧是否包含人脸概念进行判断,并记录包含人脸概念的关键帧;
步骤32)、计算一个镜头中包含人脸概念的关键帧占该镜头中总关键帧的比例;
步骤33)、根据所述比例,判断镜头是否为包含人脸的镜头。
在所述的步骤31)中,通过AAM(Active Appearance Models,主动外观模型)方法建立人脸模型。
在所述的步骤32)中,对所得到的比例进行优化,所述优化的具体实现如下:
步骤32-1)、计算用于表示关键帧重要性的聚合度因子,并将该因子与所述步骤32)中所得到的比例相乘,得到一个新的比例,用第三比例Ratio3表示;其中,所述聚合度因子表示一个关键帧对关键帧所在镜头的表征能力;
步骤32-2)、计算用于表示镜头重要性的时间因子,并将该因子与所述步骤32)中所得到的比例相乘,得到又一个新的比例,用第四比例Ratio4表示;所述时间因子表示镜头长度占整个视频长度的比例。
在所述的步骤32-1)中,在计算所述聚合度因子时,将镜头的总帧数除以镜头的关键帧数。
在所述的步骤32-2)中,在计算所述时间因子时,将镜头的时间除以镜头所在原始视频的时间。
在所述的步骤33)中,用Ratio2表示步骤32)所得到的比例,则判断镜头是否为包含人脸概念的镜头的具体操作如下:
如果Ratio2>Th4,则决策值DV1=1,否则DV1=0;
如果Ratio3>Th5,则决策值DV2=1,否则DV2=0;
如果Ratio4>Th6,则决策值DV3=1,否则DV3=0;
如果DV1||DV2||DV3=1,则该镜头包含人脸信息,否则不包含人脸信息;
其中,“||”表示“或”操作,第四阈值Th4为0.2,第五阈值Th5为0.3,第六阈值Th6为0.3。
本发明的优点是通过融合视频和音频信息,建立通用的基于镜头的采访检测模型,并实现了对未经编辑的原始视频的概念检测和标注。
附图说明
图1为本发明的多模态融合的采访镜头检测方法的流程图;
图2为有限状态机状态转移图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细描述:
如图1所示,本发明的多模态融合的采访镜头检测方法具体包括以下步骤:
步骤10、输入未编辑的原始视频,对视频进行预处理,所述的预处理操作得到原始视频的视频流和音频流,以及视频流中的镜头、各个镜头的关键帧。所述的预处理操作具体包括以下步骤:
步骤11、将输入视频分为视频流和音频流;
步骤12、对所得到的视频流进行镜头边界检测和关键帧提取。在本申请中,所提到的镜头是内容相似、时间连续的一系列帧,对视频流做镜头边界检测就是要将不同内容的视频帧分割开来。而关键帧则是最能体现镜头特征的帧,在一个镜头中,可以有一个以上的关键帧。
对镜头边界的检测和关键帧的提取属于成熟的现有技术,在参考文献2《Yueting Zhuang,Yong Rui,Thomas S.Huang et al.Adaptive key frameextraction using unsupervised clustering.Image Processing,ICIP 1998》中有详细的描述。
步骤20、根据视频预处理操作所得到的音频流建立人声模型,并依赖所建立的人声模型判断镜头是否为包含人声的镜头。人声模型的建立具体包括以下步骤:
步骤21、从音频流中提取基于帧的短时音频特征。这些短时音频特征具体包括短时音频能量、短时过零率、美尔倒谱系数、子带能量和子带能量比。其中,短时音频能量是指每个音频短时帧所有样点的能量总和;短时过零率是指每个音频短时帧中语音信号波形穿过零电平的次数;美尔倒谱系数用来表征语音信号,其中的低频系数表征激励信号(或基音频率),高频系数表征共振信号;子带能量是指每个音频短时帧信号频域上某一子带的能量;子带能量比是指每个音频短时帧信号频域上某一子带的能量占所有子带能量和的比例。上述说明中所提到的音频短时帧是指将时域上连续的若干个离散的频采样点作为一个音频处理的基元。
对上述短时音频特征的提取属于成熟的现有技术,在参考文献3《Bai Liang,HuYaali,Lao Songyang,et al.Feature analysis and extraction for audio automaticclassification.Proc.of IEEE International Conference on System,Man and Cybernetics,2005》中有详细的记载。
步骤22、根据音频内容,将各音频短时帧对应的音频特征向量标注为人声类或非人声类,建立训练数据集和测试数据集,并将未编辑原始视频中的音频流数据添加到训练数据集或测试数据集;训练数据集中的数据只要随机选取音频流数据的一部分即可,其余音频流数据在测试数据集中,训练数据集和测试数据集之间没有交集。
步骤23、通过支持向量机分类器和步骤22得到的训练数据集建立人声模型;
步骤24、通过步骤23得到的人声模型检测步骤22得到的测试数据集中音频短时帧的类型,并通过有限状态机对分类结果做平滑。在本步骤中,所述的音频短时帧的类型是指该音频短时帧为人声还是非人声。在本步骤中所采用的有限状态机定义如下:
A=(Q,∑,σ,q0,F)
Figure G2007100997250D00051
Q : S 1 : Speech , S 3 : Transition _ SpeechToNonspeech , S 2 : Non - Speech , S 4 : Transition _ NomspeechToSpeech
q0 and F:{I1:Speech,I2:Non-Speech}
其中,Q表示有限状态机的状态集,σ表示状态转换集,∑表示状态转移条件,q0表示初始状态,F表示终止状态。Label表示音频短时帧分类结果,P(ratio|S3)andP(ratio|S4)表示分别在状态3和状态4下一个镜头中人声类的短时帧占总帧数的概率,counter表示计数器,Th1和Th2表示由音频分类实验确定的阈值。具体状态转移图请参考图2。
步骤25、计算一个镜头中人声类型的音频短时帧占总帧数的比例Ratio,判断所得到的比例是否大于指定的阈值Th3,如果Ratio>Th3,则该镜头为包含人声概念的镜头。其中,Th3由音频分类实验确定,在本实施例中可以取0.7。
步骤30、根据视频预处理得到的视频流建立人脸模型,并依赖人脸模型判断镜头是否包含人脸。本步骤的具体实现步骤如下:
步骤31、建立人脸模型,根据人脸模型检测步骤10所得到的各镜头关键帧是否包含人脸概念,记录包含人脸概念的关键帧。建立人脸模型可采用现有的成熟技术,在本实施例中,可采用AAM方法建立人脸模型。该方法在参考文献4《ZhaoMing,Chen Chun,Li S Z,et al.Subspace analysis and optimization for AAM based facealignment[A].In Proc.of Sixth IEEE International Conference on Automatic Face andGesture Recognition[C].Seoul,South Korea,2004.290-295.》中有详细说明。
步骤32、计算包含人脸概念的关键帧占总关键帧的比例Ratio2,并优化该比例。在优化时可采用以下方法:
步骤32-1、计算聚合度因子(CD):CD表示了一个关键帧对该镜头的表征能力,表征了每个关键帧的重要性,其计算公式如下:
CD = Total _ frame _ Number Keyframe _ Number
由该公式可知,在计算聚合度因子时,是将镜头的总帧数除以镜头的关键帧数。求得聚合度因子后,可通过该因子优化Ratio2
Ratio3=Ratio2*CD
步骤32-2、计算时间因子(TF):TF表示镜头长度占整个视频长度的比例,表征了镜头的重要性,其计算公式如下:
TF = Shot _ time Video _ time
求得时间因子后,通过该因子优化Ratio2
Ratio4=Ratio2*TF
步骤33、通过Ratio2,Ratio3,Ratio4判断镜头是否包含人脸概念:
如果Ratio2>Th4,则决策值DV1=1,否则DV1=0;
如果Ratio3>Th5,则决策值DV2=1,否则DV2=0;
如果Ratio4>Th6,则决策值DV3=1,否则DV3=0;
如果DV1||DV2||DV3=1,则该镜头包含人脸信息,否则不包含人脸信息。
其中,“||”表示“或”操作,阈值Th4,Th5,Th6由实验决定,在本实施例中,Th4=0.2,Th5=0.3,Th6=0.3。
在本实施例的步骤32和步骤33中,对包含人脸概念的关键帧占总关键帧的比例做了优化,并根据优化前后的比例判断镜头是否包含人脸,但在其他的实施例中,也可以不对包含人脸概念的关键帧占总关键帧的比例做优化,直接使用该比例判断镜头是否包含人脸。
步骤40、根据步骤20的人声检测结果和步骤30的人脸检测结果建立采访模型,在该采访模型中融合人声检测结果和人脸检测结果,并按照融合的结果实现采访镜头的检测。在融合时,如果一个镜头中同时包含人声和人脸信息,则该镜头为采访镜头。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (11)

1.一种多模态融合的采访镜头检测方法,按照以下步骤顺序执行:
步骤10)、输入未编辑的原始视频,对视频进行预处理,得到原始视频的视频流和音频流,以及视频流中的镜头、各个镜头的关键帧;
步骤20)、根据所述的音频流建立人声模型,并依赖所述的人声模型判断镜头是否为包含人声的镜头;
步骤30)、根据所述的视频流建立人脸模型,并依赖所述的人脸模型判断镜头是否为包含人脸的镜头;
步骤40)、根据步骤20)的人声检测结果和步骤30)的人脸检测结果建立采访模型,并在所述的采访模型中融合人声检测结果和人脸检测结果,根据融合的结果判断镜头是否为采访镜头,如果一个镜头中同时包含人声和人脸信息,则所述镜头为采访镜头。
2.根据权利要求1所述的多模态融合的采访镜头检测方法,其特征在于,在所述的步骤10)中,所述对输入的原始视频的预处理具体包括以下步骤:
步骤11)、将输入视频分为视频流和音频流;
步骤12)、对所述视频流进行镜头边界检测和关键帧提取。
3.根据权利要求1所述的多模态融合的采访镜头检测方法,其特征在于,在所述的步骤20)中,所述人声模型的建立具体包括以下步骤:
步骤21)、从音频流中提取基于帧的短时音频特征;
步骤22)、根据音频内容,将各音频短时帧对应的音频特征标注为人声类或非人声类,建立训练数据集和测试数据集,并将未编辑原始视频中的音频流数据添加到所述训练数据集或测试数据集;
步骤23)、通过支持向量机分类器和所述训练数据集建立人声模型;
步骤24)、通过有限状态机对所述测试数据集中音频短时帧的分类结果做平滑,得到音频短时帧类型的检测结果;
步骤25)、根据所述检测结果,计算一个镜头中人声类型的音频短时帧占总帧数的比例,并判断所得到的比例是否大于第三阈值,如果大于,则所在镜头为包含人声的镜头。
4.根据权利要求3所述的多模态融合的采访镜头检测方法,其特征在于,在所述的步骤21)中,所述的短时音频特征为短时音频能量、短时过零率、美尔倒谱系数、子带能量和子带能量比。
5.根据权利要求3所述的多模态融合的采访镜头检测方法,其特征在于,在所述的步骤25)中,所述的第三阈值为0.7。
6.根据权利要求1所述的多模态融合的采访镜头检测方法,其特征在于,所述的步骤30)具体包括以下步骤:
步骤31)、建立人脸模型,对所述步骤10)所得到的各镜头关键帧是否包含人脸概念进行判断,并记录包含人脸概念的关键帧;
步骤32)、计算一个镜头中包含人脸概念的关键帧占该镜头中总关键帧的比例;
步骤33)、根据所述比例,判断镜头是否为包含人脸的镜头。
7.根据权利要求6所述的多模态融合的采访镜头检测方法,其特征在于,在所述的步骤31)中,通过AAM方法建立人脸模型。
8.根据权利要求6所述的多模态融合的采访镜头检测方法,其特征在于,在所述的步骤32)中,对所得到的比例进行优化,所述优化的具体实现如下:
步骤32-1)、计算用于表示关键帧重要性的聚合度因子,并将该因子与所述步骤32)中所得到的比例相乘,得到一个新的比例,用第三比例Ratio3表示;其中,所述聚合度因子表示一个关键帧对关键帧所在镜头的表征能力;
步骤32-2)、计算用于表示镜头重要性的时间因子,并将该因子与所述步骤32)中所得到的比例相乘,得到又一个新的比例,用第四比例Ratio4表示;所述时间因子表示镜头长度占整个视频长度的比例。
9.根据权利要求8所述的多模态融合的采访镜头检测方法,其特征在于,在所述的步骤32-1)中,在计算所述聚合度因子时,将镜头的总帧数除以镜头的关键帧数。
10.根据权利要求8所述的多模态融合的采访镜头检测方法,其特征在于,在所述的步骤32-2)中,在计算所述时间因子时,将镜头的时间除以镜头所在原始视频的时间。
11.根据权利要求8所述的多模态融合的采访镜头检测方法,其特征在于,在所述的步骤33)中,用Ratio2表示步骤32)所得到的比例,则判断镜头是否为包含人脸概念的镜头的具体操作如下:
如果Ratio2>Th4,则决策值DV1=1,否则DV1=0;
如果Ratio3>Th5,则决策值DV2=1,否则DV2=0;
如果Ratio4>Th6,则决策值DV3=1,否则DV3=0;
如果DV1‖DV2‖DV3=1,则该镜头包含人脸信息,否则不包含人脸信息;
其中,“‖”表示“或”操作,第四阈值Th4为0.2,第五阈值Th5为0.3,第六阈值Th6为0.3。
CN200710099725A 2007-05-29 2007-05-29 一种多模态融合的采访镜头检测方法 Expired - Fee Related CN101316327B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200710099725A CN101316327B (zh) 2007-05-29 2007-05-29 一种多模态融合的采访镜头检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200710099725A CN101316327B (zh) 2007-05-29 2007-05-29 一种多模态融合的采访镜头检测方法

Publications (2)

Publication Number Publication Date
CN101316327A CN101316327A (zh) 2008-12-03
CN101316327B true CN101316327B (zh) 2010-05-26

Family

ID=40107148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200710099725A Expired - Fee Related CN101316327B (zh) 2007-05-29 2007-05-29 一种多模态融合的采访镜头检测方法

Country Status (1)

Country Link
CN (1) CN101316327B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101834982A (zh) * 2010-05-28 2010-09-15 上海交通大学 基于多模态的暴力视频分层筛选方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617263A (zh) * 2013-11-29 2014-03-05 安徽大学 一种基于多模态特征的电视广告片花自动检测方法
WO2017008217A1 (zh) * 2015-07-10 2017-01-19 张阳 网球比赛中图像的处理方法及系统
CN107767880B (zh) * 2016-08-16 2021-04-16 杭州萤石网络有限公司 一种语音检测方法、摄像机和智能家居看护系统
CN108710918B (zh) * 2018-05-23 2021-05-25 北京奇艺世纪科技有限公司 一种直播视频的多模态信息的融合方法和装置
CN109257622A (zh) * 2018-11-01 2019-01-22 广州市百果园信息技术有限公司 一种音视频处理方法、装置、设备及介质
CN111240540B (zh) * 2019-12-27 2023-11-10 咪咕视讯科技有限公司 视频调整方法、具有柔性屏的终端及存储介质
CN115695852B (zh) * 2022-12-30 2023-03-28 成都华栖云科技有限公司 一种基于多模态信息融合的视频镜头自动挑选组合方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040122675A1 (en) * 2002-12-19 2004-06-24 Nefian Ara Victor Visual feature extraction procedure useful for audiovisual continuous speech recognition
US20060227237A1 (en) * 2005-03-31 2006-10-12 International Business Machines Corporation Video surveillance system and method with combined video and audio recognition

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040122675A1 (en) * 2002-12-19 2004-06-24 Nefian Ara Victor Visual feature extraction procedure useful for audiovisual continuous speech recognition
US20060227237A1 (en) * 2005-03-31 2006-10-12 International Business Machines Corporation Video surveillance system and method with combined video and audio recognition

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101834982A (zh) * 2010-05-28 2010-09-15 上海交通大学 基于多模态的暴力视频分层筛选方法
CN101834982B (zh) * 2010-05-28 2012-04-25 上海交通大学 基于多模态的暴力视频分层筛选方法

Also Published As

Publication number Publication date
CN101316327A (zh) 2008-12-03

Similar Documents

Publication Publication Date Title
CN101316327B (zh) 一种多模态融合的采访镜头检测方法
Chung et al. Spot the conversation: speaker diarisation in the wild
CN108564942B (zh) 一种基于敏感度可调的语音情感识别方法及系统
Cai et al. Highlight sound effects detection in audio stream
US11776267B2 (en) Intelligent cataloging method for all-media news based on multi-modal information fusion understanding
Theodorou et al. An overview of automatic audio segmentation
Chou et al. Robust singing detection in speech/music discriminator design
Meinedo et al. Audio segmentation, classification and clustering in a broadcast news task
US8775174B2 (en) Method for indexing multimedia information
CN100559879C (zh) 一种基于故事情节发展模型分析的电影动作场景检测方法
Zhang et al. Detecting sound events in basketball video archive
Sun et al. Progressive multi-target network based speech enhancement with snr-preselection for robust speaker diarization
WO2004008458A2 (en) Method for segmenting a compressed video
Chaisorn et al. A Two-Level Multi-Modal Approach for Story Segmentation of Large News Video Corpus.
Wang et al. A hybrid approach to news video classification multimodal features
Barnard et al. Multi-modal audio-visual event recognition for football analysis
Iurgel et al. New approaches to audio-visual segmentation of TV news for automatic topic retrieval
Huang et al. Inferring the structure of a tennis game using audio information
Kolekar et al. A hierarchical framework for generic sports video classification
Ma et al. A detection-based approach to broadcast news video story segmentation
Zhang et al. Ball hit detection in table tennis games based on audio analysis
Delphine Model-free anchor speaker turn detection for automatic chapter generation in broadcast news
Chaloupka A prototype of audio-visual broadcast transcription system
Chaisorn et al. Two-level multi-modal framework for news story segmentation of large video corpus
Hu et al. Detecting highlighted video clips through emotion-enhanced audio-visual cues

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: DONGGUAN LIANZHOU ELECTRONIC TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: INSTITUTE OF COMPUTING TECHNOLOGY, CHINESE ACADEMY OF SCIENCES

Effective date: 20130125

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100080 HAIDIAN, BEIJING TO: 523000 DONGGUAN, GUANGDONG PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20130125

Address after: 523000 Yuquan Industrial Zone, Fenggang Town, Guangdong, Dongguan

Patentee after: Dongguan Lianzhou Electronic Technology Co., Ltd.

Address before: 100080 Haidian District, Zhongguancun Academy of Sciences, South Road, No. 6, No.

Patentee before: Institute of Computing Technology, Chinese Academy of Sciences

C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100526

Termination date: 20140529