CN104463139A - 一种音频情感驱动下的体育视频精彩事件检测方法 - Google Patents

一种音频情感驱动下的体育视频精彩事件检测方法 Download PDF

Info

Publication number
CN104463139A
CN104463139A CN201410806622.3A CN201410806622A CN104463139A CN 104463139 A CN104463139 A CN 104463139A CN 201410806622 A CN201410806622 A CN 201410806622A CN 104463139 A CN104463139 A CN 104463139A
Authority
CN
China
Prior art keywords
audio
emotion
video
emotional semantic
types
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410806622.3A
Other languages
English (en)
Other versions
CN104463139B (zh
Inventor
余春艳
翁子林
苏晨涵
陈昭炯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201410806622.3A priority Critical patent/CN104463139B/zh
Publication of CN104463139A publication Critical patent/CN104463139A/zh
Application granted granted Critical
Publication of CN104463139B publication Critical patent/CN104463139B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Psychiatry (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Software Systems (AREA)
  • Television Signal Processing For Recording (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明涉及一种音频情感的驱动下的体育视频精彩事件检测方法。本发明方法充分利用视频文件中的音频信息,首先利用两阶段的音频情感感知技术感知出音频中的高层情感语义;在第一阶段中构建了基于分层二叉树支持向量机的音频分类器,从底层音频特征中识别出中层情感类型;第二阶段中利用音频情感映射技术从中层音频类型中映射得到高层情感语义类型,得到高层情感语义后顺利挖掘到音频流中的高层情感语义波动序列;最终在音频情感波动序列的基础上结合静音以及激动情感语义定位出精彩事件。本发明的方法简单,利用音频情感从语义上驱动体育视频精彩事件的检测,所提取的体育视频精彩事件对于用户而言更加精彩更加有效。

Description

一种音频情感驱动下的体育视频精彩事件检测方法
技术领域
本发明涉及视频图像处理领域,特别是一种音频情感驱动下的体育视频精彩事件提取方法。
背景技术
体育视频是众多视频类型中非常重要的一种,深受许多视频观众尤其是体育视频爱好者的喜爱。随着高清数字电视的不断普及与推广,每天不同的电视频道都播着大量的体育视频节目。对于体育视频爱好者而言,把如此多的体育视频节目都完整浏览一遍是不现实的。在这种情况下,视频精彩事件提取方法能够有效地筛选出视频中的精彩片段,为用户节省大量的宝贵时间。因此,开发出一种有效的视频精彩片段提取方法是十分有必要的。
视频精彩片段提取技术能够帮助用户快速获取冗长的视频中关键的片段,是视频检索与视频摘要的重要技术支撑。由于视频精彩片段是面向用户的,因此如何充分考虑用户情感变化以及视频多媒体文件中的情感语义变化情况,从情感语义上更好地驱动视频精彩片段提取成为目前研究的重要问题之一。
视频多媒体文件一般包含视觉模态数据和伴生的听觉模态数据。视觉模态中的镜头缩放、镜头变换、运动物体等以及听觉模态中的背景音乐、对话独白、鼓掌呐喊等都向视频观看者传达着不同类型不同程度的情感语义信息。因此,两种模态数据都可以用来感知情感语义。
目前,已经有较多技术对视觉模态数据的情感语义进行感知,其目标主要是通过分析颜色、特定物体等底层视觉模态信息最终提取出情感语义。例如中国专利CN1991864A所公开的基于球门的足球视频精彩事件检测方法中将球门的出现看做关键语义事件的开始,从而定位出精彩事件。又如,文献“Edwards J, Jackson H J, Pattison P E. Emotion recognition via facial expression and affective prosody in schizophrenia: a methodological review[J]. Clinical psychology review, 2002, 22(6): 789-832.”对视频中人脸部不同位置的肌肉块进行分析,得到当前的表情所属的类别,进而分析出当前人物的心情以及事件的紧张程度。然而,底层视觉特征与高层情感之间并非强耦合关系,本质上两者之间存在语义鸿沟。所以,到目前为止,仅依赖底层视觉特征挖掘情感语义信息仍然是一个非常困难的问题。
听觉模态数据同样蕴含着丰富的情感语义。一方面,听觉模态中情感语义可以表征视频中事件的精彩程度,类似激动等类型的高层情感,通常伴随着视频精彩片段而出现。在体育视频中,比赛现场的观众以及解说员的反应往往跟着比赛中事件的发展而不断变化。精彩事件发生,他们往往较激动,表现为观众的欢呼声、鼓掌声以及解说员的激动解说,而在正常事件中他们则表现较为平静。另一方面,与视觉模态数据相比,听觉模态数据的底层物理特征与高层情感语义间的耦合关系比较紧密。例如,体育视频中观众的欢呼声一般具有较高的短时能量和较低的过零率,而欢呼声代表着观众处于较为激动的状态。这种相对紧密的耦合关系在一定程度上有助于缩小语义鸿沟。由此可见,音频情感语义可以有效地辅助体育视频精彩片段的提取。
发明内容
本发明的目的在于提供一种音频情感驱动下的体育视频精彩事件检测方法,使得在音频情感语义指导下所提取的体育视频精彩片段更加有效更符合用户的需要。
为实现上述目的,本发明的技术方案是:一种音频情感驱动下的体育视频精彩事件检测方法,包括如下步骤:
步骤S1:提取出源视频文件的音轨并将音轨分割成等长的基本单元;
步骤S2:基于两阶段的音频情感感知技术感知出基本单元的中层音频类型以及高层情感语义类型,得到各基本单元的音频情感感知结果,并运用基于规则的平滑技术进行平滑处理,得到音频高层情感语义波动序列;
步骤S3:在音频高层情感语义波动序列的基础上利用视频精彩事件定位算法定位出视频精彩事件。
在本发明的实施例中,步骤S1中,所述的基本单元的长度均为1s。
在本发明的实施例中,步骤S1中,所述的音轨统一格式化为wav格式、单声道,采样频率为22.05khz。
在本发明的实施例中,步骤S2中,所述的两阶段的音频情感感知技术按照以下方案实现:
步骤S21:提取并分析音频基本单元的底层音频特征,其中,底层音频特征包括:过零率、短时平均能量、频谱流量、音调、Mel频率倒谱系数、静音比例、低频能量比、高过量比率、带宽;
步骤S22:基于分层二叉树支持向量机构建一个音频分类器,利用该分类器从底层音频特征中识别出中层音频类型,其中,中层音频类型包括:欢呼声、鼓掌声、精彩解说声、其他语音、静音及其他共计六种类型;
步骤S23:通过语义映射技术将中层音频情感类型映射为高层情感语义类型,从而感知出底层音频特征中蕴含的高层情感语义类型,其中,高层情感语义类型包括:激动、平缓共计两种类型。
在本发明的实施例中,所述步骤S22中,所述的基于分层二叉树支持向量机的音频分类器的构建按照以下方案实现:构建一棵最优完全偏二叉树识别出欢呼声、鼓掌声、精彩解说声、其他语音、静音及其他这六种中层音频类型,且所述完全偏二叉树的构建过程中取中层音频类型作为叶子结点;
在本发明的实施例中,所述的完全偏二叉树构建过程中每一层叶子结点的确定按以下方案实现:
步骤S221:设M代表中层音频类型集合,即M={欢呼声,鼓掌声,精彩解说声,其他语音,静音,其他};对于M中的任一类Mk,计算Mk与其他剩余类Mj之间的欧式距离                                                ,此时,Mk是正类,Mj是负类;可表示为:,其中,dkj表示Mk与Mj之间的欧式距离,用Mk与Mj之间的中心距离表示;
步骤S222:计算负类中所有不同类之间的平均欧式距离,也即:
步骤S223:取上述两个距离之和作为Mk类的排斥距离D,即;计算M中每个类的排斥距离,取排斥距离最大的类作为当前层的叶子结点,并且将该类从M中剔除。
在本发明的实施例中,步骤S3中,所述的视频精彩事件定位算法按照以下方案实现:
步骤S31:根据步骤S2所述的音频高层情感语义波动序列,找到其中所有包含激动类型的情感语义音频段,并将其设为Hi
步骤S32:确定视频精彩事件起始点:首先,确定Hi相邻的且在时间上早于它的静音类型的情感语义音频段,并将其设为Silei;取Silei的右边界所对应的音频帧索引,根据音视频同步技术计算得到对应的视频帧索引,并设为Fi;最后,用Fi所在的视频镜头的左边界作为视频精彩事件起始点;
步骤S33:确定视频精彩片段结束点:首先,取Hi的右边界所对应的音频帧索引,根据音视频同步技术计算得到对应的视频帧索引并将其作为视频精彩事件结束点。
相较于现有技术,本发明具有以下有益效果:本发明提出了一种音频情感驱动下的体育视频精彩事件检测方法,从音频情感语义变化的角度考虑,利用两阶段的音频情感感知技术从音频信息中挖掘出能反映视频观看者情绪起伏的情感语义信息,并结合静音以及激动的高层情感语义有效定位出体育视频的精彩事件,所提取的精彩事件对用户来说是有效的。
附图说明
图1为本发明为本发明的音频情感驱动下的体育视频精彩事件提取方法的结构框图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明提出了一种音频情感驱动下的体育视频精彩事件检测方法,包括如下步骤:
步骤S1:提取出源视频文件的音轨并将音轨分割成等长的基本单元;
步骤S2:基于两阶段的音频情感感知技术感知出基本单元的中层音频类型以及高层情感语义类型,得到各基本单元的音频情感感知结果,并运用基于规则的平滑技术进行平滑处理,得到音频高层情感语义波动序列;
步骤S3:在音频高层情感语义波动序列的基础上利用视频精彩事件定位算法定位出视频精彩事件。
以下为本发明的具体实施例。
请参照图1,本发明从视频的伴生音频数据出发,提取音频流的底层物理特征,充分挖掘其中的音频情感语义信息,为伴生音频流建立音频情感语义分割序列;进一步地,以音频情感语义分割序列为语义支撑,辅以精彩片段起止定位策略和音视频同步修订,完成体育视频精彩片段提取,具体如下:
步骤1:音频初分割。为感知音频情感语义进而获取音频情感语义感知序列,首先提取源视频文件的伴生音频数据,并按照一定的时长要求将其分割为若干等长且长度为1秒的音频基本单元(Basic Segment, BS)。在本实施例中BS时长设定为1秒,且音频数据统一格式化为wav格式、单声道,采样频率为22.05khz。
步骤2:音频情感感知。利用两阶段的音频情感感知技术感知出BS的高层情感语义。第一阶段采用基于分层二叉树SVM (Binary Tree SVM, BT-SVM)的音频分类器,根据底层音频特征完成中层音频类型分类识别。中层音频类型包括:“欢呼声”、“鼓掌声”、“精彩解说声”、“其他语音”、“静音”、“其他”共计六种类型。其中的音频分类器本质上是一棵寻优后的完全偏二叉树,以上六种中层音频类型作为其叶子节点,各层的类别的最优分布寻优过程按照以下方案确定:(1)让M代表中层音频类型集合,即M={欢呼声,鼓掌声,精彩解说声,其他语音,静音,其他}。对于M中的任一类Mk,计算Mk与其他剩余类之间的欧式距离。此时,Mk是正类,其余类Mj是负类。可表示为:,其中dkj表示Mk与Mj之间的欧式距离,用Mk与Mj之间的中心距离表示;(2)计算负类Mj中所有不同类之间的平均欧式距离,也即:;(3)取上述两个距离之和作为Mk类的排斥距离D,即。计算M中每个类的排斥距离,取排斥距离最大的类作为当前层的叶子结点,并且将该类从M中剔除。第二阶段通过语义映射技术将中层音频类型映射为高层情感语义。高层语义包括“激动”语义以及“平缓”语义。其中将“欢呼声”、“鼓掌声”、“精彩解说声”、这三种中层音频类型映射为“激动”的高层情感语义;将“其他解说”、“静音”、“其他”这三种中层音频类型映射为“平缓”的高清情感语义。
在BS的高层语义识别结果的基础上需要接着进行基本单元的合并与平滑。将所有BS对应的高层情感语义串接得到伴生音频流的情感语义序列,该语义序列需要进一步的平滑处理,首先遍历语义序列并将情感语义序列中相邻且高层情感语义相同的BS合并,并对连续的三个高层情感语义类型进行平滑处理。假设a(n)、a(n+1)、a(n+2)是三个连续的BS所对应的高层情感语义类型,则有以下规则:规则1:if {a(n) == C && a(n+1) != C && a(n+2) == C}  then a(n+1) = C;规则2:if {a(n+1) == C && a(n) != C && a(n+2) != C}  then a(n) = a(n+1) = C。
步骤3:根据音频情感语义波动序列定位体育视频精彩事件,具体实现如下:(1)在音频高层情感语义波动序列,找到所有“激动”情感语义音频段(设为Hi);(2)确定视频精彩事件起始点,首先确定Hi相邻的在时间上早于它的“静音”音频段(设为Silei),取Silei的右边界所对应的音频帧索引,根据音视频同步技术计算得到对应的视频帧索引(设为Fi)。最后用Fi所在的视频镜头的左边界作为视频精彩事件起始点;(3)确定视频精彩片段结束点,首先取Hi的右边界所对应的音频帧索引,根据音视频同步技术计算得到对应的视频帧索引并将其作为视频精彩事件结束点。根据起始点以及结束点即可得到所有的体育视频精彩事件。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (7)

1.一种音频情感驱动下的体育视频精彩事件检测方法,其特征在于:包括如下步骤,
步骤S1:提取出源视频文件的音轨并将音轨分割成等长的基本单元;
步骤S2:基于两阶段的音频情感感知技术感知出基本单元的中层音频类型以及高层情感语义类型,得到音频情感感知结果,并运用基于规则的平滑技术进行平滑处理,得到音频高层情感语义波动序列;
步骤S3:在音频高层情感语义波动序列的基础上利用视频精彩事件定位算法定位出视频精彩事件。
2.根据权利要求1所述的一种音频情感驱动下的体育视频精彩事件检测方法,其特征在于:步骤S1中,所述的基本单元的长度均为1s。
3.根据权利要求1所述的一种音频情感驱动下的体育视频精彩事件检测方法,其特征在于:步骤S1中,所述的音轨统一格式化为wav格式、单声道且采样频率为22.05kHz。
4.根据权利要求1所述的一种音频情感驱动下的体育视频精彩事件检测方法,其特征在于:步骤S2中,所述的两阶段的音频情感感知技术按照以下方案实现:
步骤S21:提取并分析音频基本单元的底层音频特征,其中,底层音频特征包括:过零率、短时平均能量、频谱流量、音调、Mel频率倒谱系数、静音比例、低频能量比、高过量比率、带宽;
步骤S22:基于分层二叉树支持向量机构建一个音频分类器,利用该分类器从底层音频特征中识别出中层音频类型,其中,中层音频类型包括:欢呼声、鼓掌声、精彩解说声、其他语音、静音及其他共计六种类型;
步骤S23:通过语义映射技术将中层音频情感类型映射为高层情感语义类型,从而感知出底层音频特征中蕴含的高层情感语义类型,其中,高层情感语义类型包括:激动、平缓共计两种类型。
5.根据权利要求4所述的一种音频情感驱动下的体育视频精彩事件检测方法,其特征在于:步骤S22中,所述的基于分层二叉树支持向量机的音频分类器的构建按照以下方案实现:构建一棵最优完全偏二叉树识别出欢呼声、鼓掌声、精彩解说声、其他语音、静音及其他这六种中层音频类型,且所述完全偏二叉树的构建过程中取中层音频类型作为叶子结点。
6.根据权利要求5所述的一种音频情感驱动下的体育视频精彩事件检测方法,其特征在于:所述的完全偏二叉树构建过程中每一层叶子结点的确定按以下方案实现:
步骤S221:设M代表中层音频类型集合,即M={欢呼声,鼓掌声,精彩解说声,其他语音,静音,其他};对于M中的任一类Mk,计算Mk与其他剩余类Mj之间的欧式距离                                                ,此时,Mk是正类,Mj是负类;可表示为:,其中,dkj表示Mk与Mj之间的欧式距离,用Mk与Mj之间的中心距离表示;
步骤S222:计算负类中所有不同类之间的平均欧式距离,也即:
步骤S223:取上述两个距离之和作为Mk类的排斥距离D,即;计算M中每个类的排斥距离,取排斥距离最大的类作为当前层的叶子结点,并且将该类从M中剔除。
7.根据权利要求4所述的一种音频情感驱动下的体育视频精彩事件检测方法,其特征在于:步骤S3中,所述的视频精彩事件定位算法按照以下方案实现:
步骤S31:根据步骤S3所述的音频高层情感语义波动序列,找到其中所有包含激动类型的情感语义音频段,并将其设为Hi
步骤S31:确定视频精彩事件起始点:首先,确定Hi相邻的且在时间上早于它的静音类型的情感语义音频段,并将其设为Silei;取Silei的右边界所对应的音频帧索引,根据音视频同步技术计算得到对应的视频帧索引,并设为Fi;最后,用Fi所在的视频镜头的左边界作为视频精彩事件起始点;
步骤S33:确定视频精彩片段结束点:首先,取Hi的右边界所对应的音频帧索引,根据音视频同步技术计算得到对应的视频帧索引并将其作为视频精彩事件结束点。
CN201410806622.3A 2014-12-23 2014-12-23 一种音频情感驱动下的体育视频精彩事件提取方法 Expired - Fee Related CN104463139B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410806622.3A CN104463139B (zh) 2014-12-23 2014-12-23 一种音频情感驱动下的体育视频精彩事件提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410806622.3A CN104463139B (zh) 2014-12-23 2014-12-23 一种音频情感驱动下的体育视频精彩事件提取方法

Publications (2)

Publication Number Publication Date
CN104463139A true CN104463139A (zh) 2015-03-25
CN104463139B CN104463139B (zh) 2017-09-15

Family

ID=52909155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410806622.3A Expired - Fee Related CN104463139B (zh) 2014-12-23 2014-12-23 一种音频情感驱动下的体育视频精彩事件提取方法

Country Status (1)

Country Link
CN (1) CN104463139B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247919A (zh) * 2017-04-28 2017-10-13 深圳大学 一种视频情感内容的获取方法及系统
CN108307250A (zh) * 2018-01-23 2018-07-20 浙江大华技术股份有限公司 一种生成视频摘要的方法及装置
CN110110626A (zh) * 2019-04-24 2019-08-09 北京奇艺世纪科技有限公司 一种视频情感类别识别方法、装置及电子设备
CN110381336A (zh) * 2019-07-24 2019-10-25 广州飞达音响股份有限公司 基于5.1声道的视频片段情感判定方法、装置和计算机设备
CN110880330A (zh) * 2019-10-28 2020-03-13 维沃移动通信有限公司 音频转换方法及终端设备
CN111400511A (zh) * 2020-03-12 2020-07-10 北京奇艺世纪科技有限公司 一种多媒体资源的截取方法和装置
CN111901627A (zh) * 2020-05-28 2020-11-06 北京大米科技有限公司 视频处理方法、装置、存储介质及电子设备
CN112753227A (zh) * 2018-06-05 2021-05-04 图兹公司 用于在体育事件电视节目中检测人群噪声的发生的音频处理
CN113347491A (zh) * 2021-05-24 2021-09-03 北京格灵深瞳信息技术股份有限公司 一种视频剪辑方法、装置、电子设备和计算机存储介质
CN113823323A (zh) * 2021-09-30 2021-12-21 深圳万兴软件有限公司 一种基于卷积神经网络的音频处理方法、装置及相关设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8166109B2 (en) * 2007-06-21 2012-04-24 Cisco Technology, Inc. Linking recognized emotions to non-visual representations
CN103823461A (zh) * 2014-02-28 2014-05-28 南京工业大学 一种可在线故障诊断的工业循环水浓缩倍数采集系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8166109B2 (en) * 2007-06-21 2012-04-24 Cisco Technology, Inc. Linking recognized emotions to non-visual representations
CN103823461A (zh) * 2014-02-28 2014-05-28 南京工业大学 一种可在线故障诊断的工业循环水浓缩倍数采集系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YING LI等: "SVM-based audio classification for instructional video analysis", 《IEEE》 *
卜庆凯等: "一种新的视频兴奋内容建模和视频摘要提取方法", 《信号处理》 *
翁子林: "一种音频情感区间划分方法", 《电脑知识与技术》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247919A (zh) * 2017-04-28 2017-10-13 深圳大学 一种视频情感内容的获取方法及系统
US11270737B2 (en) 2018-01-23 2022-03-08 Zhejiang Dahua Technology Co., Ltd. Systems and methods for editing a video
CN108307250A (zh) * 2018-01-23 2018-07-20 浙江大华技术股份有限公司 一种生成视频摘要的方法及装置
CN112753227A (zh) * 2018-06-05 2021-05-04 图兹公司 用于在体育事件电视节目中检测人群噪声的发生的音频处理
CN110110626A (zh) * 2019-04-24 2019-08-09 北京奇艺世纪科技有限公司 一种视频情感类别识别方法、装置及电子设备
CN110381336A (zh) * 2019-07-24 2019-10-25 广州飞达音响股份有限公司 基于5.1声道的视频片段情感判定方法、装置和计算机设备
CN110381336B (zh) * 2019-07-24 2021-07-16 广州飞达音响股份有限公司 基于5.1声道的视频片段情感判定方法、装置和计算机设备
CN110880330A (zh) * 2019-10-28 2020-03-13 维沃移动通信有限公司 音频转换方法及终端设备
CN111400511A (zh) * 2020-03-12 2020-07-10 北京奇艺世纪科技有限公司 一种多媒体资源的截取方法和装置
CN111901627A (zh) * 2020-05-28 2020-11-06 北京大米科技有限公司 视频处理方法、装置、存储介质及电子设备
CN113347491A (zh) * 2021-05-24 2021-09-03 北京格灵深瞳信息技术股份有限公司 一种视频剪辑方法、装置、电子设备和计算机存储介质
CN113823323A (zh) * 2021-09-30 2021-12-21 深圳万兴软件有限公司 一种基于卷积神经网络的音频处理方法、装置及相关设备
CN113823323B (zh) * 2021-09-30 2023-12-12 深圳万兴软件有限公司 一种基于卷积神经网络的音频处理方法、装置及相关设备

Also Published As

Publication number Publication date
CN104463139B (zh) 2017-09-15

Similar Documents

Publication Publication Date Title
CN104463139A (zh) 一种音频情感驱动下的体育视频精彩事件检测方法
US20230199264A1 (en) Automated voice translation dubbing for prerecorded video
Chung et al. Spot the conversation: speaker diarisation in the wild
US10497382B2 (en) Associating faces with voices for speaker diarization within videos
Nagrani et al. From benedict cumberbatch to sherlock holmes: Character identification in tv series without a script
EP2641401B1 (en) Method and system for video summarization
Jiang et al. Automatic consumer video summarization by audio and visual analysis
Hua et al. AVE: automated home video editing
US11057457B2 (en) Television key phrase detection
CN103646094A (zh) 实现视听类产品内容摘要自动提取生成的系统及方法
Kuo et al. Background music recommendation for video based on multimodal latent semantic analysis
CN110442747A (zh) 一种基于关键词的视频摘要生成方法
JP2005532763A (ja) 圧縮ビデオをセグメント化する方法
Ionescu et al. Content-based video description for automatic video genre categorization
Liu et al. Fusing audio vocabulary with visual features for pornographic video detection
Guo et al. Who produced this video, amateur or professional?
Favre et al. PERCOLI: A Person Identification System for the 2013 REPERE Challenge.
Bechet et al. Multimodal understanding for person recognition in video broadcasts
JP2007060606A (ja) ビデオの自動構造抽出・提供方式からなるコンピュータプログラム
Shao et al. Automatically generating summaries for musical video
Lin et al. Semantic based background music recommendation for home videos
Darji et al. A review of video classification techniques
Roininen et al. Modeling the timing of cuts in automatic editing of concert videos
Doudpota et al. Mining movies for song sequences with video based music genre identification system
CN104159152A (zh) 一种针对影视视频的时间轴自动产生方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170915

Termination date: 20201223

CF01 Termination of patent right due to non-payment of annual fee