CN104469487B - 一种场景切换点的检测方法及装置 - Google Patents

一种场景切换点的检测方法及装置 Download PDF

Info

Publication number
CN104469487B
CN104469487B CN201410845412.5A CN201410845412A CN104469487B CN 104469487 B CN104469487 B CN 104469487B CN 201410845412 A CN201410845412 A CN 201410845412A CN 104469487 B CN104469487 B CN 104469487B
Authority
CN
China
Prior art keywords
audio
scene
video
voice
switching position
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410845412.5A
Other languages
English (en)
Other versions
CN104469487A (zh
Inventor
吴凯凯
卢学裕
付鹏
白雪
吴鑫
姚键
潘柏宇
卢述奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Youku Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Youku Network Technology Beijing Co Ltd filed Critical Youku Network Technology Beijing Co Ltd
Priority to CN201410845412.5A priority Critical patent/CN104469487B/zh
Publication of CN104469487A publication Critical patent/CN104469487A/zh
Application granted granted Critical
Publication of CN104469487B publication Critical patent/CN104469487B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44012Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving rendering scenes according to scene graphs, e.g. MPEG-4 scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip

Abstract

本发明提供一种场景切换点的检测方法及装置,包括:获取第一视频;提取所述第一视频中音频数据作为第一音频数据;根据所述第一音频数据确定场景的切换位置。通过使用以上方法,可以根据视频中的具体音频信息来判断视频中场景的切换,避免了现有技术中依赖人工进行标注的复杂工作,提高了视频处理的工作效率。

Description

一种场景切换点的检测方法及装置
技术领域
本发明涉及数字多媒体技术领域,特别是一种场景切换点的检测方法及装置。
背景技术
随着数字多媒体技术的快速发展,越来越多的多媒体技术应用到人们的工作和生活中。
在视频编辑领域,经常会接触到“关键帧”的概念,我们可以使用相关算法或工具处理得到某一视频中存在的所有关键帧。例如,在某个电视剧中,从5分30秒开始至10分15秒是一个在咖啡厅会谈的场景;而在10分16秒至12分30秒时是在汽车中对话的场景。因此,在10分16秒里包含一个关键帧,而此处正好是一个场景开始的位置。并且在该时间点后续的对话中,可能会频繁的切换镜头角度,导致相关的算法或工具判断出很多的关键帧,但这些关键帧都不是场景正确的结束位置。
由于在实际中一个场景会有很多个镜头切换,因此仅通过关键帧数据是无法比较准确的定位一个较完整的场景的开始或结束位置。现有的视频场景的标注方法是由人工浏览影片的方式确定不同场景的开始或结束位置。这对编辑人员的经验以及工作强度要求较高,且处理效率很低。
因此,如何提供一种可以对场景切换点进行自动检测的方法和装置是本发明需要解决的问题。
发明内容
针对现有技术的缺陷,本发明提供了一种场景切换点的检测方法及装置,解决了现有技术中依赖人工操作的问题,同时可以更加精确的判断出场景切换的位置点。
一种场景切换点的检测方法,包括:
获取第一视频;
提取所述第一视频中音频数据作为第一音频数据;
根据所述第一音频数据确定场景的切换位置。
优选地,所述提取所述第一视频中音频数据作为第一音频数据,具体为:
提取所述第一视频中的人声音频作为所述第一音频数据。
优选地,所述提取所述第一视频中音频数据作为第一音频数据,具体为:
提取所述第一视频中的背景音频作为所述第一音频数据。
优选地,所述根据所述第一音频数据确定场景的切换位置,具体为:
检测第一音频数据中的声波变化特征;
根据所述声波变化特征确定场景的切换位置。
在根据所述第一音频数据确定场景的切换位置之后,还包括:
获取预判位置信息;
根据所述预判位置信息修正所述场景的切换位置。
一种场景切换点的检测装置,包括:视频获取单元、第一音频提取单元和切换位置确定单元;
所述视频获取单元,用于获取第一视频;
所述第一音频提取单元,用于提取所述第一视频中音频数据作为第一音频数据;
所述切换位置确定单元,用于根据所述第一音频数据确定场景的切换位置。
优选地,所述第一音频提取单元,包括:人声音频提取子单元;
所述人声音频提取子单元,用于提取所述第一视频中的人声音频作为所述第一音频数据。
优选地,所述第一音频提取单元,包括:背景音频提取子单元;
所述背景音频提取子单元,用于提取所述第一视频中的背景音频作为所述第一音频数据。
优选地,所述切换位置确定单元,包括:声音检测子单元和特征判定子单元;
所述声音检测子单元,用于检测第一音频数据中的声波变化特征;
所述特征判定子单元,用于根据所述声波变化特征确定场景的切换位置。
优选地,还包括:预判信息修正单元;
所述预判信息修正单元,用于获取预判位置信息,根据所述预判位置信息修正所述场景的切换位置。
本发明的有益效果是:
在本实施例中,首先获取第一视频,之后提取所述第一视频中音频数据作为第一音频数据,最后根据所述第一音频数据确定场景的切换位置。通过使用以上方法,可以根据视频中的具体音频信息来判断视频中场景的切换,避免了现有技术中依赖人工进行标注的复杂工作,提高了视频处理的工作效率。
附图说明
图1是本发明提供的一种场景切换点的检测方法第一实施例的流程图;
图2是本发明提供的一种场景切换点的检测方法第二实施例的流程图;
图3是本发明提供的一种场景切换点的检测方法第三实施例的流程图;
图4是本发明提供的一种场景切换点的检测装置第一实施例的原理框图;
图5是本发明提供的一种场景切换点的检测装置第二实施例的原理框图;
图6是本发明提供的一种场景切换点的检测装置第三实施例的原理框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明,使本发明的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按比例绘制附图,重点在于示出本发明的主旨。
参见图1,该图为本发明提供的一种场景切换点的检测方法第一实施例的流程图。
本实施例中,包括:
S101: 获取第一视频。
S102: 提取所述第一视频中音频数据作为第一音频数据。
S103: 根据所述第一音频数据确定场景的切换位置。
在本实施例中,首先获取到需要进行场景切换点校验的第一视频数据。例如某一个电影或电视剧视频。
在视频的每一个场景中,一般都会对应有某一场景的声音特征。例如,在咖啡厅中会谈,背景声音一般为较为舒缓的音乐声音,而如果在菜市场中的场景,则背景声音一般为较为嘈杂的声音。
因此,在得到第一视频后,提取出第一视频中的音频数据(如视频的中音频波型图),作为第一音频数据。
之后对第一音频数据进行分析,例如根据第一音频数据中的波型图判断对话或背景音的中断或起伏,从而判断出否存在场景上的切换,进而确定视频中的场景切换位置。
在本实施例中,首先获取第一视频,之后提取所述第一视频中音频数据作为第一音频数据,最后根据所述第一音频数据确定场景的切换位置。通过使用以上方法,可以根据视频中的具体音频信息来判断视频中场景的切换,避免了现有技术中依赖人工进行标注的复杂工作,提高了视频处理的工作效率。
参见图2,该图为本发明提供的一种场景切换点的检测方法第一实施例的流程图。
本实施例中的步骤S201与本发明提供的一种场景切换点的检测方法第一实施例中的步骤S101相同,在此不再重复进行介绍。
在本实施例中,所述提取所述第一视频中音频数据作为第一音频数据,具体为:
S202: 提取所述第一视频中的人声音频或背景音频作为所述第一音频数据。
由于在第一视频的音频数据中包括有多种声音,因此可以使用其中不同声音作为判断场景切换的条件。其中,优选地可以使用音频数据中的人声对话音频或背景音频进行。
如果使用人声对话音频作为判断条件,则需要首先获取出第一视频的音频,之后对其中属于人声波段的声音进行加强,而对其它波段(如背景音等)进行抑制,从而突出人声音频。
如果使用背景音频作为判断条件,则在获取到第一视频的音频后,对处于人声波段的声音进行抑制或去除,而只保留有非人声波段的声音(在一般情况下,该波段声音大部分为背景声音)。
在本实施例中,在得到上述的第一音频后,还需要使用该音频确定视频中场景切换的具体位置。
具体地,
S203: 检测第一音频数据中的声波变化特征。
S204: 根据所述声波变化特征确定场景的切换位置。
以人声音频作为判断条件为例:每个人的声音都有自己的特点,因此在一个对话场景中对话双方的音频声波是相同或相近似的。而此时如果切换到另外的一个场景,对话的双方很可能发生了变化,则音频声波的较之前的声波特征肯定会发生变化。根据该变化进而确定出视频中的场景发生了变化。
而以背景音频作为判断条件时,由于在某一个场景中一般都会伴有相同或相近似的声音。如在咖啡厅会伴有持续优雅的歌曲,而在菜市场中都会一直伴有嘈杂的背景音。因此,如果背景音频发生了变化,则可以判断为场景进行了切换,发生变化的位置即场景切换的位置。
另外,如果只是单纯使用人声音频或背景音频进行判断可能还存在一定的误判的情况。为了能够更加准确的判断出场景的切换变化,还可以同时对第一视频中的人声音频和背景音频进行判断,这样可以大幅提高场景切换位置判断的准确性。例如,如果只是人声音频上的变化而背景音频没有变化,则判断可能是在同一场景上出现了新的谈话对象,但剧情的场景没有变化;而如果在视频中的某一个时间位置上人声和背景音都发生了变化,则可以认为场景发生了变化。
通过使用以上方法,可以结合第一视频中的音频内容对场景切换进行准确判断,从而减少了人工对视频进行场景切换标注的工作,提高了对视频处理的工作效率。
参见图3,该图为本发明提供的一种场景切换点的检测方法第三实施例的流程图。
本实施例中的步骤S301-S303与本发明提供的一种场景切换点的检测方法第一实施例中的步骤S101-S103相同,在此不再重复进行介绍。
在本实施例中,在根据所述第一音频数据确定场景的切换位置之后,还包括:
S304: 获取预判位置信息;
S305: 根据所述预判位置信息修正所述场景的切换位置。
在本实施例中,为了更加准确的得到场景切换的位置,还可以进一步结合关键帧的方式来修正得到的场景切换点位置。
具体的,在确定场景的切换位置之后,再进一步获取到已经在第一视频中标注出的预判位置信息。这些预判位置信息是由人工、算法或其它工具根据视频图像判断出的场景切换时间点信息。
例如,在第一视频中标注出在第5分30秒位置、10分15秒位置、12分钟30秒位置存在多个场景切换。
此时,可以将通过音频确认得到的场景切换位置与标注的预判位置信息进行比较。如果两者时间相同,则认为该位置点即为场景切换位置。如果不相同,则以预判位置信息中的时间点作为第一视频中的场景切换位置。
如,根据音频数据确定在第5分30秒时存在场景切换点,经与预判位置信息相比较,在预判位置信息中也存在第5分30秒的场景切换点,则认为该位置确为场景切换的位置点。若根据音频数据确定在第5分31秒时存在场景切换点,而在预判位置信息中的切换位置点为第5分30秒,则以第5分30秒为准作为场景的切换位置。
通过使用以上方法,可以结合预判位置信息来更加准确地修正的场景切换位置,从而为后续的视频处理工作提供准确的信息。
另外,结合本发明提供的一种场景切换点的检测方法,还可以提供一种场景切换点的检测装置,具体如下:
参见图4,该图为本发明提供的一种场景切换点的检测装置第一实施例的原理框图。
在本实施例中,包括:视频获取单元10、第一音频提取单元20和切换位置确定单元30;
所述视频获取单元10,用于获取第一视频。
所述第一音频提取单元20,用于提取所述第一视频中音频数据作为第一音频数据。
所述切换位置确定单元30,用于根据所述第一音频数据确定场景的切换位置。
在本实施例中,视频获取单元10首先获取到需要进行场景切换点校验的第一视频数据。例如某一个电影或电视剧视频。
在视频的每一个场景中,一般都会对应有某一场景的声音特征。例如,在咖啡厅中会谈,背景声音一般为较为舒缓的音乐声音,而如果在菜市场中的场景,则背景声音一般为较为嘈杂的声音。
因此,在得到第一视频后,第一音频提取单元20提取出第一视频中的音频数据(如视频的中音频波型图),作为第一音频数据。
之后切换位置确定单元30对第一音频数据进行分析,例如根据第一音频数据中的波型图判断对话或背景音的中断或起伏,从而判断出否存在场景上的切换,进而确定视频中的场景切换位置。
在本实施例中,包括:视频获取单元、第一音频提取单元和切换位置确定单元。其中,视频获取单元用于获取第一视频。第一音频提取单元用于提取第一视频中音频数据作为第一音频数据。切换位置确定单元用于根据第一音频数据确定场景的切换位置。通过使用以上装置,可以根据视频中的具体音频信息来判断视频中场景的切换,避免了现有技术中依赖人工进行标注的复杂工作,提高了视频处理的工作效率。
参见图5,该图为本发明提供的一种场景切换点的检测装置第二实施例的原理框图。
由于在第一视频的音频数据中包括有多种声音,因此可以使用其中不同声音作为判断场景切换的条件。其中,优选地可以使用音频数据中的人声对话音频或背景音频进行。因此,在第一音频提取单元20中,可以包括:人声音频提取子单元201,或者包括:背景音频提取子单元202。
所述人声音频提取子单元201,用于提取所述第一视频中的人声音频作为所述第一音频数据。
所述背景音频提取子单元202,用于提取所述第一视频中的背景音频作为所述第一音频数据。
如果由人声音频提取子单元201使用人声对话音频作为判断条件,则需要首先获取出第一视频的音频,之后对其中属于人声波段的声音进行加强,而对其它波段(如背景音等)进行抑制,从而突出人声音频。
如果由背景音频提取子单元202使用背景音频作为判断条件,则在获取到第一视频的音频后,对处于人声波段的声音进行抑制或去除,而只保留有非人声波段的声音(在一般情况下,该波段声音大部分为背景声音)。
在本实施例中,在得到上述的第一音频后,还需要使用该音频确定视频中场景切换的具体位置。
具体地,在所述切换位置确定单元30中,包括有:声音检测子单元301和特征判定子单元302。
所述声音检测子单元301,用于检测第一音频数据中的声波变化特征。
所述特征判定子单元302,用于根据所述声波变化特征确定场景的切换位置。
以人声音频作为判断条件为例:每个人的声音都有自己的特点,因此在一个对话场景中对话双方的音频声波是相同或相近似的。而此时如果切换到另外的一个场景,对话的双方很可能发生了变化,则声音检测子单元301检测到音频声波的较之前的声波特征发生变化。根据该变化特征判定子单元302进而确定出视频中的场景发生了变化。
而以背景音频作为判断条件时,由于在某一个场景中一般都会伴有相同或相近似的声音。如在咖啡厅会伴有持续优雅的歌曲,而在菜市场中都会一直伴有嘈杂的背景音。因此,如果声音检测子单元301检测到背景音频发生了变化,则特征判定子单元302可以判断为场景进行了切换,发生变化的位置即场景切换的位置。
另外,如果只是单纯使用人声音频或背景音频进行判断可能还存在一定的误判的情况。为了能够更加准确的判断出场景的切换变化,还可以同时使用人声音频提取子单元201和背景音频提取子单元202进行判断,这样可以大幅提高场景切换位置判断的准确性。例如,如果只是人声音频上的变化而背景音频没有变化,则判断可能是在同一场景上出现了新的谈话对象,但剧情的场景没有变化;而如果在视频中的某一个时间位置上人声和背景音都发生了变化,则可以认为场景发生了变化。
通过使用以上装置,可以结合第一视频中的音频内容对场景切换进行准确判断,从而减少了人工对视频进行场景切换标注的工作,提高了对视频处理的工作效率。
参见图6,该图为本发明提供的一种场景切换点的检测装置第三实施例的原理框图。
在本实施例中,还包括:预判信息修正单元40;
所述预判信息修正单元40,用于获取预判位置信息,根据所述预判位置信息修正所述场景的切换位置。。
在本实施例中,为了更加准确的得到场景切换的位置,还可以进一步结合关键帧的方式来修正得到的场景切换点位置。
具体的,在确定场景的切换位置之后,使用预判信息修正单元40进一步获取到已经在第一视频中标注出的预判位置信息。这些预判位置信息是由人工、算法或其它工具根据视频图像判断出的关键帧场景切换信息。
例如,预判位置信息在第一视频中标注出在第5分30秒位置、10分15秒位置、12分钟30秒位置存在多个场景切换。
此时,预判信息修正单元40将通过音频确认得到的场景切换位置与标注的预判位置信息进行比较。如果两者时间相同,则认为该位置点即为场景切换位置。如果不相同,则以预判位置信息中的时间点作为第一视频中的场景切换位置。
如,根据音频数据确定在第5分30秒时存在场景切换点,经与预判位置信息相比较,在预判位置信息中也存在第5分30秒的场景切换点,则认为该位置确为场景切换的位置点。若根据音频数据确定在第5分31秒时存在场景切换点,而在预判位置信息中的切换位置点为第5分30秒,则以第5分30秒为准作为场景的切换位置。
通过使用以上装置,可以结合预判位置信息来更加准确地修正的场景切换位置,从而为后续的视频处理工作提供准确的信息。
在以上的描述中阐述了很多具体细节以便于充分理解本发明。但是以上描述仅是本发明的较佳实施例而已,本发明能够以很多不同于在此描述的其它方式来实施,因此本发明不受上面公开的具体实施的限制。同时任何熟悉本领域技术人员在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (4)

1.一种场景切换点的检测方法,其特征在于,包括:
获取第一视频;
提取所述第一视频中的音频数据作为第一音频数据;以及
根据所述第一音频数据确定场景的切换位置;
其中,所述提取所述第一视频中的音频数据作为第一音频数据,具体为:
提取所述第一视频中的人声音频,对人声音频波段进行加强,并对其他波段进行抑制,并且,提取所述第一视频中的背景音频,对人声音频波段进行抑制或去除,从而将提取出的人声音频和背景音频作为所述第一音频数据;
其中,所述根据所述第一音频数据确定场景的切换位置,具体为:
检测所述人声音频的中的声波变化特征;
检测所述背景音频中的声波变化特征;以及
根据所述人声音频中的声波变化特征以及所述背景音频中的声波变化特征确定场景的切换位置,在所述第一视频中的一个时间位置上的所述人声音频和所述背景音频都发生了变化的情况下,将该一个时间位置确定为场景的切换位置。
2.根据权利要求1所述的方法,其特征在于,在根据所述第一音频数据确定场景的切换位置之后,还包括:
获取预判位置信息;
根据所述预判位置信息修正所述场景的切换位置。
3.一种场景切换点的检测装置,其特征在于,包括:视频获取单元、第一音频提取单元和切换位置确定单元;
其中,所述视频获取单元,用于获取第一视频;
所述第一音频提取单元,用于提取所述第一视频中的音频数据作为第一音频数据;
所述切换位置确定单元,用于根据所述第一音频数据确定场景的切换位置;
其中,所述第一音频提取单元提取所述第一视频中的人声音频和背景音频作为所述第一音频数据,其包括:人声音频提取子单元和背景音频提取子单元;
所述人声音频提取子单元,用于提取所述第一视频中的人声音频,对人声音频波段进行加强,并对其他波段进行抑制;
所述背景音频提取子单元,用于提取所述第一视频中的背景音频,对人声音频波段进行抑制或去除;
其中,所述切换位置确定单元,包括:声音检测子单元和特征判定子单元;
所述声音检测子单元,用于检测所述人声音频中的声波变化特征,以及检测所述背景音频中的声波变化特征;
所述特征判定子单元,用于根据所述人声音频中的声波变化特征以及所述背景音频中的声波变化特征确定场景的切换位置,在所述第一视频中的一个时间位置上的所述人声音频和所述背景音频都发生了变化的情况下,将该一个时间位置确定为场景的切换位置。
4.根据权利要求3所述的装置,其特征在于,还包括:预判信息修正单元;
所述预判信息修正单元,用于获取预判位置信息,根据所述预判位置信息修正所述场景的切换位置。
CN201410845412.5A 2014-12-31 2014-12-31 一种场景切换点的检测方法及装置 Active CN104469487B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410845412.5A CN104469487B (zh) 2014-12-31 2014-12-31 一种场景切换点的检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410845412.5A CN104469487B (zh) 2014-12-31 2014-12-31 一种场景切换点的检测方法及装置

Publications (2)

Publication Number Publication Date
CN104469487A CN104469487A (zh) 2015-03-25
CN104469487B true CN104469487B (zh) 2019-02-12

Family

ID=52914738

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410845412.5A Active CN104469487B (zh) 2014-12-31 2014-12-31 一种场景切换点的检测方法及装置

Country Status (1)

Country Link
CN (1) CN104469487B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105142017B (zh) * 2015-08-12 2019-01-22 北京金山安全软件有限公司 一种图片视频播放时的图片切换方法及图片切换装置
CN106534964B (zh) * 2016-11-23 2020-02-14 广东小天才科技有限公司 一种语速调节方法和装置
CN107948729B (zh) * 2017-12-13 2020-03-27 Oppo广东移动通信有限公司 富媒体处理方法、装置、存储介质和电子设备
CN108495184B (zh) * 2018-02-06 2021-08-20 北京奇虎科技有限公司 一种为视频添加弹幕的方法和装置
CN110381336B (zh) * 2019-07-24 2021-07-16 广州飞达音响股份有限公司 基于5.1声道的视频片段情感判定方法、装置和计算机设备
CN114257864B (zh) * 2022-02-24 2023-02-03 易方信息科技股份有限公司 一种基于HLS格式视频源场景下播放器的seek方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1716415A (zh) * 2004-06-30 2006-01-04 深圳市朗科科技有限公司 数字视频播放装置及其节目回退的方法
US20130251343A1 (en) * 2012-03-25 2013-09-26 Chun-Ming Lai Method for performing fluent playback control in response to decoding status, and associated apparatus
CN103488529A (zh) * 2013-09-06 2014-01-01 上海骋娱传媒技术有限公司 一种用于视频资源访问控制的方法与设备
CN103534755A (zh) * 2012-04-20 2014-01-22 松下电器产业株式会社 声音处理装置、声音处理方法、程序及集成电路

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1716415A (zh) * 2004-06-30 2006-01-04 深圳市朗科科技有限公司 数字视频播放装置及其节目回退的方法
US20130251343A1 (en) * 2012-03-25 2013-09-26 Chun-Ming Lai Method for performing fluent playback control in response to decoding status, and associated apparatus
CN103534755A (zh) * 2012-04-20 2014-01-22 松下电器产业株式会社 声音处理装置、声音处理方法、程序及集成电路
CN103488529A (zh) * 2013-09-06 2014-01-01 上海骋娱传媒技术有限公司 一种用于视频资源访问控制的方法与设备

Also Published As

Publication number Publication date
CN104469487A (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
CN104469487B (zh) 一种场景切换点的检测方法及装置
CN109729420B (zh) 图片处理方法及装置、移动终端及计算机可读存储介质
CN109819313B (zh) 视频处理方法、装置及存储介质
US9595259B2 (en) Sound source-separating device and sound source-separating method
CN109905764B (zh) 一种视频中目标人物语音截取方法及装置
CN103460128B (zh) 借助智能电话和音频水印的多种语言同步电影配音
EP2998960B1 (en) Method and device for video browsing
WO2006022394A3 (en) Method for identifying highlight segments in a video including a sequence of frames
WO2017161741A1 (zh) 聋哑人进行信息交流的方法、装置及智能终端
CN105161093A (zh) 一种判断说话人数目的方法及系统
US20150310863A1 (en) Method and apparatus for speaker diarization
US11211073B2 (en) Display control of different verbatim text of vocal deliverance of performer-of-interest in a live event
WO2011121479A1 (en) Method and apparatus for object identification within a media file using device identification
CN107025913A (zh) 一种录音方法及终端
KR101666521B1 (ko) 입력 신호의 피치 주기 검출 방법 및 그 장치
CN104320670A (zh) 一种网络视频的摘要信息提取方法及系统
CN109644192A (zh) 具有语音检测周期持续时间补偿的音频传送
US20150049247A1 (en) Method and apparatus for using face detection information to improve speaker segmentation
CN105895080A (zh) 语音识别模型训练方法、说话人类型识别方法及装置
MX2016005795A (es) Metodo, aparato y dispositivo de terminal de reproduccion de musica basados en album de fotos de caras.
US9799376B2 (en) Method and device for video browsing based on keyframe
CN104091596A (zh) 一种乐曲识别方法、系统和装置
JP2014176033A (ja) 通信システム、通信方法およびプログラム
CN107181986A (zh) 视频与字幕的匹配方法和装置
CN109117622A (zh) 一种基于音频指纹的身份认证方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100080 A 5 C, block A, China International Steel Plaza, 8 Haidian Avenue, Haidian District, Beijing.

Applicant after: Youku network technology (Beijing) Co., Ltd.

Address before: 100080 A 5 C, block A, China International Steel Plaza, 8 Haidian Avenue, Haidian District, Beijing.

Applicant before: 1Verge Inc.

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200708

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee before: Youku network technology (Beijing) Co.,Ltd.