CN109344780A - 一种基于声音和视觉的多模态视频场景分割方法 - Google Patents
一种基于声音和视觉的多模态视频场景分割方法 Download PDFInfo
- Publication number
- CN109344780A CN109344780A CN201811182971.7A CN201811182971A CN109344780A CN 109344780 A CN109344780 A CN 109344780A CN 201811182971 A CN201811182971 A CN 201811182971A CN 109344780 A CN109344780 A CN 109344780A
- Authority
- CN
- China
- Prior art keywords
- sound
- camera lens
- vision
- scene
- obtains
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000011218 segmentation Effects 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 17
- 230000000007 visual effect Effects 0.000 claims description 14
- 230000008859 change Effects 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000000342 Monte Carlo simulation Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000001537 neural effect Effects 0.000 claims description 2
- 230000003287 optical effect Effects 0.000 claims description 2
- 238000011002 quantification Methods 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 claims description 2
- 238000010183 spectrum analysis Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims 1
- 230000007812 deficiency Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000007630 basic procedure Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于声音和视觉的多模态视频场景分割方法,方法包括以下步骤:步骤S1:对输入视频进行镜头分割,得到各镜头片段;步骤S2:在分割得到的各镜头片段上进行视觉和声音特征提取,得到镜头对应的视觉和声音特征向量;步骤S3:根据视觉和声音特征,将相邻的属于相同语义的镜头合并入同一场景,得到新的场景时间边界。
Description
技术领域
本发明涉及一种视频场景分割方法,尤其涉及一种基于声音和视觉的多模态视频场景分割方法。
背景技术
时间维度上的视频分割是视频结构分析的基础步骤和重要环节。其目的是将原始视频按照其内容结构分段,将包含相同相近内容的部分分到相同片段内,而将不同内容的部分分割开。视频内容结构按照语义层级的高低可分为镜头和场景。镜头是摄像机一次连续拍摄到的视频片段。在一个镜头内图像的变换原因通常为摄像机和物体对象的运动以及光源的变化,是一个渐变而非突变过程。场景是由若干个在语义上相关的连续镜头组成的能够表达共同语义内容的视频片段。场景分割的目标是要找到场景的时间边界,将视频按语义分割为多个场景片段。
现有的视频场景分割方法多主要利用视觉特征信息,通过分析视频各帧图像之间的联系进行,往往忽视声音作为视频内容的重要部分,同样为场景分割提供了大量有用信息。目前尚缺乏一种有效的将声音信息与视觉信息有效结合的多模态联合建模方法,提高场景分割的准确率。
发明内容
本发明的目的是联合利用声音和视觉特征对视频场景进行建模,寻找视频场景的时间边界,对视频按场景语义进行分割。其核心是设计一种声音视觉多模态特征融合框架,使各模态之间互为补充,弥补单一特征模态的不足。
为了实现以上目的,本发明提供的一种基于声音和视觉的多模态视频场景分割方法,分为以下步骤:
步骤S1:对输入视频进行镜头分割,得到各镜头片段;
步骤S2:在分割得到的各镜头片段上进行视觉和声音特征提取,得到镜头对应的视觉和声音特征向量;
步骤S3:根据视觉和声音特征,将相邻的属于相同语义的镜头合并入同一场景,得到新的场景时间边界。
其中,视频镜头分割采用跟踪流与全局图像颜色分布综合特征来判断镜头切换点。
其中,分割得到的各镜头片段上的视觉特征采用镜头内提取的图像关键帧的场景特征来表示,该场景特征可通过将图像关键帧输入预训练的场景分类卷积神经网络获得。
其中,分割得到的各镜头片段上的声音特征采用镜头内各声音关键帧对应的特征描述来表示,该特征可通过将声音关键帧对应的频谱图输入到预训练的声音分类卷积神经网络获得。
其中,相同语义镜头合并的标准由一个似然概率函数给出,该函数的输入为一组镜头合并后的场景分割边界,输出为该组场景分割边界的似然概率,通过求取极大似然概率对应的场景分割边界值来得到最优的场景分割边界。
本发明的优点和技术效果:从具体实施例可以看出本发明的优点和技术效果,充分利用视频中包含的声音和视觉信息,通过概率模型将其有效地组合,建立联合模型,弥补单一模态特征各自的不足,达到提升场景分割准确率的效果。
附图说明
图1本发明基于声音和视觉的多模态视频场景分割的基本流程。
图2通过镜头合并生成场景分割边界示意图。
具体实施方式
下面结合附图详细说明技术方案中所涉及的各个细节问题。应该指出的是,所描述的实施例旨在便于对本发明的理解,而对其不起任何限定作用。
本发明的实施流程如图1所示:
本发明实施例,首先,利用跟踪流与全局图像颜色分布连续性综合特征来确定镜头时间边界,将视频分割为由镜头组成的片段。跟踪流连续性是指视频中出现的物体或区域在单一镜头内的运动具有连续性,而在镜头边界处会发生突变的性质。
本发明实施例中通过计算视频中各相邻帧间的光流场,获得相邻帧之间的运动量,来表示跟踪流的连续性。跟踪流的连续性反映的局部运动信息,是判断镜头切换的重要依据。当相邻帧之间的运动量大于阈值时可判断为在该时间点发生镜头切换。
全局图像颜色分布连续性是指相邻图像帧的颜色分布在单一镜头内具有连续性,而在镜头边界处会发生突变的性质。本发明实施例中通过计算视频中各相邻帧间的颜色直方图分布向量,来表示全局图像颜色分布连续性。全局图像颜色分布连续性反映全局运动信息,也是判断镜头切换的重要依据。当相邻帧直接的全局图像颜色直方图分布向量差大于阈值时可判断为在该时间点发生镜头切换。
在分割好的镜头内进行特征提取包括声音和视觉两个模态的特征提取。
本发明实施例中视觉特征提取采用以下方法:将镜头按2.56秒等间隔采样,获得采样帧,输入卷积神经网络1和卷积神经网络2中,其中卷积神经网络1为用Imagenet数据集预训练的50层Resnet网络,卷积神经网络2为用Places365数据集预训练的50层Resnet网络,均提取1000维pool5层输出作为特征向量,连接合并卷积神经网络1和卷积神经网络2的输出特征向量形成2000维的特征向量,经PCA主元分析法降维到512维并归一化后,作为该采样帧的视觉模态最终特征向量。
本发明实施例中声音特征提取采用以下方法:以20毫秒为间隔对音频进行等间隔采样,对每个采样点进行频谱分析,频谱量化为128个频段,每128个采样点为一采样组,每个采样组时长为0.02秒*128=2.56秒,构成128*128维的频谱响应图,作为卷积神经网络的输入,该卷积神经网络包括4个卷积层和一个全连接层,预先用10个类别,每类100段30秒时长的不同场景风格音乐类型的音频训练得到,推理时以全连接层的输出1024为特征向量,经PCA主元分析法降维到512维并归一化后,作为该采样组声音模态特征向量。
如图2所示,视频结构可表示为镜头集合s={s1,s2,...,sN}和场景集合S={S1,S2,...,SM}。场景分割的似然函数表示为其中
用于描述镜头si与镜头si+1被划分为同一场景或不同场景各自的概率值,wd=e-d为权重,越靠近镜头边界的采样点的权重越高,经过声音和视觉特征提取,任一镜头si对应一组采样点声音特征
为视觉特征为γ为可调超参数,控制声音特征和视觉特征的作用权重。
计算L(S)取得最大值时的场景分割S,根据镜头集合s的规模、精度速度要求不同,可以选择多种计算方式,包括穷举法、贪婪搜索法、马尔科夫链蒙特卡洛法等。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (8)
1.一种基于声音和视觉的多模态视频场景分割方法,其特征在于:。
包括以下步骤:
步骤S1:对输入视频进行镜头分割,得到各镜头片段
步骤S2:在分割得到的各镜头片段上进行视觉和声音特征提取,得到镜头对应的视觉和声音特征向量;
步骤S3:根据视觉和声音特征,将相邻的属于相同语义的镜头合并入同一场景,得到新的场景时间边界。
2.如权利要求1所述的基于声音和视觉的多模态视频场景分割方法,其特征在于:输入视频镜头分割采用跟踪流与全局图像颜色分布连续性来判断镜头切换时间点。
3.如权利要求2所述的基于声音和视觉的多模态视频场景分割方法,其特征在于:声音特征采用将等长间隔音频频谱图输入经预训练的卷积神经网络得到的特征层输出,并经过降维处理后得到的特征向量,视觉特征采用将等长间隔采样得到的采样帧输入经预训练的两个不同卷积神经网络得到的特征层输出,并经过包括连接合并、降维归一化等变换在内的处理后得到的特征向量。
4.如权利要求3所述的基于声音和视觉的多模态视频场景分割方法,其特征在于:建立基于采用点视频和音频特征的联合似然函数,对任一场景分割给出似然度描述,并通过求取似然函数最大取值时输入的场景分割获得最优的场景分割结果。
5.如权利要求1所述的基于声音和视觉的多模态视频场景分割方法,其特征在于:步骤S1,利用跟踪流与全局图像颜色分布连续性综合特征来确定镜头时间边界,将视频分割为由镜头组成的片段。
6.根据权利要求2所述的基于声音和视觉的多模态视频场景分割方法,其特征在于:通过计算视频中各相邻帧间的光流场,获得相邻帧之间的运动量,来表示跟踪流的连续性,当相邻帧之间的运动量大于阈值时可判断为在该时间点发生镜头切换;通过计算视频中各相邻帧间的颜色直方图分布向量,来表示全局图像颜色分布连续性,当相邻帧直接的全局图像颜色直方图分布向量差大于阈值时可判断为在该时间点发生镜头切换。
7.根据权利要求3所述的基于声音和视觉的多模态视频场景分割方法,其特征在于:视觉特征提取采用以下方法:将镜头按2.56秒等间隔采样,获得采样帧,输入卷积神经网络1和卷积神经网络2中,其中卷积神经网络1为用Imagenet数据集预训练的50层Resnet网络,卷积神经网络2为用Places365数据集预训练的50层Resnet网络,均提取1000维pool5层输出作为特征向量,连接合并卷积神经网络1和卷积神经网络2的输出特征向量形成2000维的特征向量,经PCA主元分析法降维到512维并归一化后,作为该采样帧的视觉模态最终特征向量;
声音特征提取采用以下方法:以20毫秒为间隔对音频进行等间隔采样,对每个采样点进行频谱分析,频谱量化为128个频段,每128个采样点为一采样组,每个采样组时长为0.02秒*128=2.56秒,构成128*128维的频谱响应图,作为卷积神经网络的输入,该卷积神经网络包括4个卷积层和一个全连接层,预先用10个类别,每类100段30秒时长的不同场景风格音乐类型的音频训练得到,推理时以全连接层的输出1024为特征向量,经PCA主元分析法降维到512维并归一化后,作为该采样组声音模态特征向量。
8.根据权利要求4所述的基于声音和视觉的多模态视频场景分割方法,其特征在于:视频结构表示为镜头集合s={s1,s2,...,sN}和场景集合S={S1,S2,...,SM}。场景分割的似然函数表示为
其中,
用于描述镜头Si与镜头Si+1被划分为同一场景或不同场景各自的概率值,wd=e-d为权重,越靠近镜头边界的采样点的权重越高,经过声音和视觉特征提取,任一镜头Si对应一组采样点声音特征视觉特征为为可调超参数,控制声音特征和视觉特征的作用权重;
计算L(S)取得最大值时的场景分割S,根据镜头集合s的规模、精度速度要求不同,选择计算方式包括穷举法、贪婪搜索法、马尔科夫链蒙特卡洛法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811182971.7A CN109344780A (zh) | 2018-10-11 | 2018-10-11 | 一种基于声音和视觉的多模态视频场景分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811182971.7A CN109344780A (zh) | 2018-10-11 | 2018-10-11 | 一种基于声音和视觉的多模态视频场景分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109344780A true CN109344780A (zh) | 2019-02-15 |
Family
ID=65309458
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811182971.7A Pending CN109344780A (zh) | 2018-10-11 | 2018-10-11 | 一种基于声音和视觉的多模态视频场景分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109344780A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097026A (zh) * | 2019-05-13 | 2019-08-06 | 北京邮电大学 | 一种基于多维要素视频分割的段落关联规则评判方法 |
CN110197135A (zh) * | 2019-05-13 | 2019-09-03 | 北京邮电大学 | 一种基于多维分割的视频结构化方法 |
CN110213670A (zh) * | 2019-05-31 | 2019-09-06 | 北京奇艺世纪科技有限公司 | 视频处理方法、装置、电子设备及存储介质 |
CN110324726A (zh) * | 2019-05-29 | 2019-10-11 | 北京奇艺世纪科技有限公司 | 模型生成、视频处理方法、装置、电子设备及存储介质 |
CN110619284A (zh) * | 2019-08-28 | 2019-12-27 | 腾讯科技(深圳)有限公司 | 一种视频场景划分方法、装置、设备及介质 |
CN110717470A (zh) * | 2019-10-16 | 2020-01-21 | 上海极链网络科技有限公司 | 一种场景识别方法、装置、计算机设备和存储介质 |
CN112183334A (zh) * | 2020-09-28 | 2021-01-05 | 南京大学 | 一种基于多模态特征融合的视频深度关系分析方法 |
CN112804578A (zh) * | 2021-01-28 | 2021-05-14 | 广州虎牙科技有限公司 | 氛围特效生成方法、装置、电子设备和存储介质 |
CN112863538A (zh) * | 2021-02-24 | 2021-05-28 | 复旦大学 | 一种基于视听网络的多模态语音分离方法及装置 |
CN113014831A (zh) * | 2021-03-05 | 2021-06-22 | 上海明略人工智能(集团)有限公司 | 用于对体育视频进行场景获取的方法及装置、设备 |
CN113810765A (zh) * | 2021-09-17 | 2021-12-17 | 北京百度网讯科技有限公司 | 视频处理方法、装置、设备和介质 |
CN114127847A (zh) * | 2019-07-30 | 2022-03-01 | 国际商业机器公司 | 来自视频的同步声音生成 |
CN114222159A (zh) * | 2021-12-01 | 2022-03-22 | 北京奇艺世纪科技有限公司 | 一种视频场景变化点确定和视频片段生成方法及系统 |
CN114697763A (zh) * | 2022-04-07 | 2022-07-01 | 脸萌有限公司 | 一种视频处理方法、装置、电子设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103426176A (zh) * | 2013-08-27 | 2013-12-04 | 重庆邮电大学 | 基于改进直方图和聚类算法的视频镜头检测方法 |
CN104394422A (zh) * | 2014-11-12 | 2015-03-04 | 华为软件技术有限公司 | 一种视频分割点获取方法及装置 |
CN106534951A (zh) * | 2016-11-30 | 2017-03-22 | 北京小米移动软件有限公司 | 视频分割方法和装置 |
US20170083770A1 (en) * | 2014-12-19 | 2017-03-23 | Amazon Technologies, Inc. | Video segmentation techniques |
CN107590442A (zh) * | 2017-08-22 | 2018-01-16 | 华中科技大学 | 一种基于卷积神经网络的视频语义场景分割方法 |
-
2018
- 2018-10-11 CN CN201811182971.7A patent/CN109344780A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103426176A (zh) * | 2013-08-27 | 2013-12-04 | 重庆邮电大学 | 基于改进直方图和聚类算法的视频镜头检测方法 |
CN104394422A (zh) * | 2014-11-12 | 2015-03-04 | 华为软件技术有限公司 | 一种视频分割点获取方法及装置 |
US20170083770A1 (en) * | 2014-12-19 | 2017-03-23 | Amazon Technologies, Inc. | Video segmentation techniques |
CN106534951A (zh) * | 2016-11-30 | 2017-03-22 | 北京小米移动软件有限公司 | 视频分割方法和装置 |
CN107590442A (zh) * | 2017-08-22 | 2018-01-16 | 华中科技大学 | 一种基于卷积神经网络的视频语义场景分割方法 |
Non-Patent Citations (3)
Title |
---|
(以)LIOR ROKACH著: "《模式分类的集成方法》", 30 November 2015, 北京:国防工业出版社 * |
吴韶波 等: "《数字音视频技术及应用》", 31 March 2016, 哈尔滨:哈尔滨工业大学出版社 * |
金凯: "视频场景分割算法的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110197135A (zh) * | 2019-05-13 | 2019-09-03 | 北京邮电大学 | 一种基于多维分割的视频结构化方法 |
CN110097026A (zh) * | 2019-05-13 | 2019-08-06 | 北京邮电大学 | 一种基于多维要素视频分割的段落关联规则评判方法 |
CN110197135B (zh) * | 2019-05-13 | 2021-01-08 | 北京邮电大学 | 一种基于多维分割的视频结构化方法 |
CN110324726A (zh) * | 2019-05-29 | 2019-10-11 | 北京奇艺世纪科技有限公司 | 模型生成、视频处理方法、装置、电子设备及存储介质 |
CN110324726B (zh) * | 2019-05-29 | 2022-02-18 | 北京奇艺世纪科技有限公司 | 模型生成、视频处理方法、装置、电子设备及存储介质 |
CN110213670B (zh) * | 2019-05-31 | 2022-01-07 | 北京奇艺世纪科技有限公司 | 视频处理方法、装置、电子设备及存储介质 |
CN110213670A (zh) * | 2019-05-31 | 2019-09-06 | 北京奇艺世纪科技有限公司 | 视频处理方法、装置、电子设备及存储介质 |
CN114127847A (zh) * | 2019-07-30 | 2022-03-01 | 国际商业机器公司 | 来自视频的同步声音生成 |
CN110619284A (zh) * | 2019-08-28 | 2019-12-27 | 腾讯科技(深圳)有限公司 | 一种视频场景划分方法、装置、设备及介质 |
CN110619284B (zh) * | 2019-08-28 | 2023-09-05 | 腾讯科技(深圳)有限公司 | 一种视频场景划分方法、装置、设备及介质 |
CN110717470A (zh) * | 2019-10-16 | 2020-01-21 | 上海极链网络科技有限公司 | 一种场景识别方法、装置、计算机设备和存储介质 |
CN110717470B (zh) * | 2019-10-16 | 2023-09-26 | 山东瑞瀚网络科技有限公司 | 一种场景识别方法、装置、计算机设备和存储介质 |
CN112183334A (zh) * | 2020-09-28 | 2021-01-05 | 南京大学 | 一种基于多模态特征融合的视频深度关系分析方法 |
CN112183334B (zh) * | 2020-09-28 | 2024-03-22 | 南京大学 | 一种基于多模态特征融合的视频深度关系分析方法 |
CN112804578A (zh) * | 2021-01-28 | 2021-05-14 | 广州虎牙科技有限公司 | 氛围特效生成方法、装置、电子设备和存储介质 |
CN112863538B (zh) * | 2021-02-24 | 2022-06-14 | 复旦大学 | 一种基于视听网络的多模态语音分离方法及装置 |
CN112863538A (zh) * | 2021-02-24 | 2021-05-28 | 复旦大学 | 一种基于视听网络的多模态语音分离方法及装置 |
CN113014831A (zh) * | 2021-03-05 | 2021-06-22 | 上海明略人工智能(集团)有限公司 | 用于对体育视频进行场景获取的方法及装置、设备 |
CN113014831B (zh) * | 2021-03-05 | 2024-03-12 | 上海明略人工智能(集团)有限公司 | 用于对体育视频进行场景获取的方法及装置、设备 |
CN113810765A (zh) * | 2021-09-17 | 2021-12-17 | 北京百度网讯科技有限公司 | 视频处理方法、装置、设备和介质 |
CN113810765B (zh) * | 2021-09-17 | 2023-08-29 | 北京百度网讯科技有限公司 | 视频处理方法、装置、设备和介质 |
CN114222159A (zh) * | 2021-12-01 | 2022-03-22 | 北京奇艺世纪科技有限公司 | 一种视频场景变化点确定和视频片段生成方法及系统 |
CN114697763A (zh) * | 2022-04-07 | 2022-07-01 | 脸萌有限公司 | 一种视频处理方法、装置、电子设备及介质 |
US11699463B1 (en) | 2022-04-07 | 2023-07-11 | Lemon Inc. | Video processing method, electronic device, and non-transitory computer-readable storage medium |
CN114697763B (zh) * | 2022-04-07 | 2023-11-21 | 脸萌有限公司 | 一种视频处理方法、装置、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109344780A (zh) | 一种基于声音和视觉的多模态视频场景分割方法 | |
Huang et al. | A novel key-frames selection framework for comprehensive video summarization | |
CN111428088B (zh) | 视频分类方法、装置及服务器 | |
CN108986186B (zh) | 文字转化视频的方法和系统 | |
Wang et al. | Sports highlight detection from keyword sequences using HMM | |
CN114694076A (zh) | 基于多任务学习与层叠跨模态融合的多模态情感分析方法 | |
CN112183334B (zh) | 一种基于多模态特征融合的视频深度关系分析方法 | |
Truong et al. | Scene extraction in motion pictures | |
US20080193016A1 (en) | Automatic Video Event Detection and Indexing | |
Sreeja et al. | Towards genre-specific frameworks for video summarisation: A survey | |
JP2003177778A (ja) | 音声抄録抽出方法、音声データ抄録抽出システム、音声抄録抽出システム、プログラム、及び、音声抄録選択方法 | |
Brown et al. | Playing a part: Speaker verification at the movies | |
CN113591530A (zh) | 一种视频检测方法、装置、电子设备和存储介质 | |
CN110851621A (zh) | 基于知识图谱预测视频精彩级别的方法、装置及存储介质 | |
Liu et al. | Gaze-assisted multi-stream deep neural network for action recognition | |
CN113936236A (zh) | 一种基于多模态特征的视频实体关系及交互识别方法 | |
US11238289B1 (en) | Automatic lie detection method and apparatus for interactive scenarios, device and medium | |
CN113298015B (zh) | 基于图卷积网络的视频人物社交关系图生成方法 | |
Papalampidi et al. | Film trailer generation via task decomposition | |
Wu et al. | Analysing cinematography with embedded constrained patterns | |
Gong et al. | Classification of tennis video types based on machine learning technology | |
CN116612542A (zh) | 基于多模态生物特征一致性的音视频人物识别方法及系统 | |
CN114677765A (zh) | 一种交互式视频动作综合识别评价系统与方法 | |
Yang et al. | Multimodal short video rumor detection system based on contrastive learning | |
Hou et al. | End-to-end bloody video recognition by audio-visual feature fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190215 |