CN111954064B - 音视频同步方法和装置 - Google Patents
音视频同步方法和装置 Download PDFInfo
- Publication number
- CN111954064B CN111954064B CN202010895576.4A CN202010895576A CN111954064B CN 111954064 B CN111954064 B CN 111954064B CN 202010895576 A CN202010895576 A CN 202010895576A CN 111954064 B CN111954064 B CN 111954064B
- Authority
- CN
- China
- Prior art keywords
- video
- audio
- pts
- semantic
- video frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000005070 sampling Methods 0.000 claims abstract description 8
- 238000004458 analytical method Methods 0.000 claims description 32
- 239000013598 vector Substances 0.000 claims description 17
- 238000013145 classification model Methods 0.000 claims description 6
- 238000001094 photothermal spectroscopy Methods 0.000 description 76
- 230000001360 synchronised effect Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 4
- 238000010411 cooking Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/242—Synchronization processes, e.g. processing of PCR [Program Clock References]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/251—Learning process for intelligent management, e.g. learning user preferences for recommending movies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8547—Content authoring involving timestamps for synchronizing content
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/04—Synchronising
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本申请公开了一种音视频同步方法和装置,其中方法包括:对于视频中的每个视频帧,确定该视频帧对应的语义;对于所述视频中的每个音频段,确定该音频段对应的语义;其中,一个音频段的时长和一个视频帧对应的采样时长相同;对于所述视频中具有相同语义的每对音频段和视频帧,判断该对音频段和视频帧是否具有相同的显示时间戳PTS,如果不相同,则采用预设的PTS调整方式,使得该对音频段和视频帧具有相同的PTS。采用本发明,可以有效解决音视频不同步问题。
Description
技术领域
本发明涉及计算机应用技术,特别是涉及一种音视频同步方法和装置。
背景技术
在视频播放领域,音频和视频的同步播放是保障用户观看体验的关键技术之一。
目前的音视频同步方案中,通常是根据视频帧和音频帧的显示时间戳进行音视频的同步,将具有相同显示时间戳(PTS)的视频和音频关联在一起播放,以达到同步的目的。
发明人在实现本发明的过程中,在上述现有方案实际使用过程中仍然存在音频和视频不同步的问题,通过对现有方案认真研究分析后发现具体原因如下:
上述现有方案是依据视频帧和音频帧的PTS是否相同,来触发同步操作的执行,即当视频帧(或音频帧)没有关联到具有相同PTS的对应帧时,才会设法确保它们对应具有相同PTS的音频帧(或视频帧),以实现视频帧和音频帧的同步播放。
而在实际应用中,在某些场景下会存在:视频本身就有声音和画面不同步的问题,即具有相同PTS的视频帧和音频帧本身在内容上就是不同步的。例如,当视频采集设备和音频采集设备相距较远时,会由于各自参考的系统时间不一致而导致:本应同步播放的视频帧和音频帧具有不同的显示时间戳,相应的,具有相同显示时间戳的视频帧和音频帧实际上是不应同步播放的,从而出现了上述视频本身的声音和画面不同步问题。比如,当电视台实时转播外国电台的实况节目时,此时如果只需要外国电台的画面,同步播放的声音是本台主持人的声音,此时就可能会存在待播放视频本身的声音和画面不同步问题。
再如另外一种视频录制场景,该场景下视频录制设备在录制视频时需要同时执行其他视频处理操作(如画面美化),这样就会使得视频采集时延相比于音频采集时延大很多,此时,也会容易出现上述视频本身的声音和画面不同步问题。
上述问题存在时,同时播放的声音和画面虽然在实际内容方面是错位的,但是由于具有相同的显示时间戳,使得上述现有方案,会将这种情况视频为正常的同步,因此,采用上述现有方法无法检测出上述音视频不同步问题的存在,进而也无法解决该问题。
发明内容
有鉴于此,本发明的主要目的在于提供一种音视频同步方法和装置,可以有效解决音视频不同步的问题。
为了达到上述目的,本发明提出的技术方案为:
一种音视频同步方法,包括:
对于视频中的每个视频帧,确定该视频帧对应的语义;对于所述视频中的每个音频段,确定该音频段对应的语义;其中,一个音频段的时长和一个视频帧对应的采样时长相同;
对于所述视频中具有相同语义的每对音频段和视频帧,判断该对音频段和视频帧是否具有相同的显示时间戳PTS,如果不相同,则采用预设的PTS调整方式,使得该对音频段和视频帧具有相同的PTS。
较佳的,所述对于视频中的每个视频帧,确定该视频帧对应的语义包括:
对于视频中的每个视频帧,采用预设的视频分类模型,确定该视频帧对应的视频类型;所述视频类型包括适用于唇语识别的视频和适用于画面整体识别的视频;
如果所确定的视频类型为适用于唇语识别的视频,则采用预设的唇语识别网络模型,生成所述视频帧的语义文本信息;如果所确定的视频类型为适用于画面整体识别的视频,则采用预设的视频分析网络模型,生成所述视频帧的语义文本信息;
将所述语义文本信息转化为相应的语义向量。
较佳地,所述对于视频中的每个音频段,确定该音频段对应的语义包括:
对于视频中的每个音频段,采用预设的音频语义分析网络模型,生成该音频段的语义文本信息,并将所生成的语义文本信息转化为相应的语义向量。
较佳地,所述方法进一步包括:确定所述视频中具有相同语义的每对音频段和视频帧,具体包括:
对于每个所述音频段Mi,根据该音频段Mi的语义,从所述视频中查找与该音频段Mi语义匹配的一个视频帧,如果查找成功,则确定该音频段Mi与所查找到的视频段具有相同语义。
较佳地,所述从所述视频中查找与该音频段Mi语义相匹配的一个视频帧包括:
在所述视频中的预设视频帧范围内,查找与该音频段Mi语义匹配的一个视频帧;所述视频帧范围为PTS大于等于PTSi-△t且小于等于PTSi+△t的所有视频帧,△t为预设的范围调整参数,所述PTSi为该音频段Mi的PTS。
一种音视频同步装置,包括:
语义分析模块,用于对于视频中的每个视频帧,确定该视频帧对应的语义;对于所述视频中的每个音频段,确定该音频段对应的语义;其中,一个音频段的时长和一个视频帧对应的采样时长相同;
同步模块,用于对于所述视频中具有相同语义的每对音频段和视频帧,判断该对音频段和视频帧是否具有相同的显示时间戳PTS,如果不相同,则采用预设的PTS调整方式,使得该对音频段和视频帧具有相同的PTS。
较佳地,语义分析模块,具体用于对于视频中的每个视频帧,确定该视频帧对应的语义,包括:
对于视频中的每个视频帧,采用预设的视频分类模型,确定该视频帧对应的视频类型;所述视频类型包括适用于唇语识别的视频和适用于画面整体识别的视频;
如果所确定的视频类型为适用于唇语识别的视频,则采用预设的唇语识别网络模型,生成所述视频帧的语义文本信息;如果所确定的视频类型为适用于画面整体识别的视频,则采用预设的视频分析网络模型,生成所述视频帧的语义文本信息;
将所述语义文本信息转化为相应的语义向量。
较佳地,所述语义分析模块,具体用于对于视频中的每个音频段,确定该音频段对应的语义,具体包括:
对于视频中的每个音频段,采用预设的音频语义分析网络模型,生成该音频段的语义文本信息,并将所生成的语义文本信息转化为相应的语义向量。
较佳地,所述同步模块,进一步用于确定所述视频中具有相同语义的每对音频段和视频帧,具体包括:
对于每个所述音频段Mi,根据该音频段Mi的语义,从所述视频中查找与该音频段Mi语义匹配的一个视频帧,如果查找成功,则确定该音频段Mi与所查找到的视频段具有相同语义。
较佳地,所述同步模块,具体用于从所述视频中查找与该音频段Mi语义相匹配的一个视频帧,包括:
在所述视频中的预设视频帧范围内,查找与该音频段Mi语义匹配的一个视频帧;所述视频帧范围为PTS大于等于PTSi-△t且小于等于PTSi+△t的所有视频帧,△t为预设的范围调整参数,所述PTSi为该音频段Mi的PTS。
本申请还公开了一种音视频同步装置,包括:
语义分析模块,用于对于视频中的每个视频帧,确定该视频帧对应的语义;对于所述视频中的每个音频段,确定该音频段对应的语义;其中,一个音频段的时长和一个视频帧对应的采样时长相同;
同步模块,用于对于所述视频中具有相同语义的每对音频段和视频帧,判断该对音频段和视频帧是否具有相同的显示时间戳PTS,如果不相同,则采用预设的PTS调整方式,使得该对音频段和视频帧具有相同的PTS。
较佳的,所述语义分析模块,具体用于对于视频中的每个视频帧,采用预设的视频语义分析网络模型,生成该视频帧的语义文本信息,并将所生成的语义文本信息转化为相应的语义向量;对于视频中的每个音频段,采用预设的音频语义分析网络模型,生成该音频段的语义文本信息,并将所生成的语义文本信息转化为相应的语义向量。
较佳的,所述同步模块,进一步用于确定所述视频中具有相同语义的每对音频段和视频帧,具体包括:对于每个所述音频段Mi,根据该音频段Mi的语义,从所述视频中查找与该音频段Mi语义匹配的一个视频帧,如果查找成功,则确定该音频段Mi与所查找到的视频段具有相同语义。
较佳的,所述同步模块,具体用于从所述视频中查找与该音频段Mi语义相匹配的一个视频帧,包括:在所述视频中的预设视频帧范围内,查找与该音频段Mi语义匹配的一个视频帧;所述视频帧范围为PTS大于等于PTSi-△t且小于等于PTSi+△t的所有视频帧,△t为预设的范围调整参数,所述PTSi为该音频段Mi的PTS。
本申请还公开了一种音视频同步设备,包括处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如上所述的音视频同步方法。
本申请还公开了一种计算机可读存储介质,其中存储有计算机可读指令,该计算机可读指令用于执行如上所述的音视频同步方法。
由上述技术方案可见,本发明提出的音视频同步方法,不再简单地基于音频和视频的PTS不同而触发PTS的调整,而是:通过对视频中音频和视频的语义进行分析,并检查具有相同语义的音频和视频帧是否具有相同的PTS,如果PTS不同,则触发相应的调整,以确保相同语义的音频和视频帧具有相同的PTS。如此,即可确保同时播放的音频和视频帧具有相同语义,从而可以有效确保音视频播放的同步,尤其是可以有效解决由于原始视频中音视频本身不同步而导致的视频播放时音视频不同步问题。
附图说明
图1为本发明实施例的音视频同步方法流程示意图;
图2为本发明实施例的音视频同步装置结构示意图;
图3为本发明实施例应用于视频会议场景的示意图;
图4为本发明实施例应用于烹饪教学视频配音场景的示意图;
图5为根据本发明的音视频同步设备结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。
图1为本发明实施例的音视频同步方法流程示意图,如图1所示,该实施例实现的音视频同步方法主要包括:
步骤101、对于视频中的每个视频帧,确定该视频帧对应的语义;对于所述视频中的每个音频段,确定该音频段对应的语义。其中,一个音频段的时长和一个视频帧对应的采样时长相同。
本步骤,用于对视频中的每个视频帧和每个音频段,分析出它们各自的语义,以便后续同步步骤中基于它们的语义,检查出视频中本身存在的音视频问题,即语义相同但PTS不同的视频帧和音频段的组合。
较佳的,为了提高对视频帧的语义分析准确性,在进行语义分析时可以区分不同的视频类型,采用与视频所属类型相匹配的语义分析方式,来获取视频帧的语义,具体可以采用下述方法实现这一效果:
步骤x1、对于视频中的每个视频帧,采用预设的视频分类模型,确定该视频帧对应的视频类型;所述视频类型包括适用于唇语识别的视频和适用于画面整体识别的视频。
这里,考虑到视频画面的复杂性,将视频帧划分为两类,一类是适用于唇语识别的视频,另一类是适用于画面整体识别的视频,以确保对每个视频帧都可以采用更准确、快速的方式进行语义分析。
所述视频分类模型可以预先由本领域技术人员基于机器学习模型训练得到,例如,可以是视觉几何组(VGG)卷积神经网络模型,但不限于此。
步骤x2、如果所确定的视频类型为适用于唇语识别的视频,则采用预设的唇语识别网络模型,生成所述视频帧的语义文本信息;如果所确定的视频类型为适用于画面整体识别的视频,则采用预设的视频分析网络模型,生成所述视频帧的语义文本信息。
本步骤中,对于不同类型的视频帧,将采用不同的语义分析方式,以提高语义分析的准确度。
所述唇语识别网络模型,可以预先由本领域技术人员基于机器学习模型训练得到,具体可以为视听语音识别(Audio-visual recognition,AVR)模型,但不限于此。
所述视频分析网络模型可以预先由本领域技术人员基于机器学习模型训练得到,例如,可以是视频捕获模型(Video Capture),也可以是长短期记忆模型(LSTM),但不限于此。
步骤x3、将所述语义文本信息转化为相应的语义向量。
这里,为了便于在后续步骤中更方便、准确地对音频段和视频帧的语义相同与否进行比较,需要将语义文本信息转化为语义向量。这样,在后续进行语义比较时,直接进行向量的匹配性比较即可。
较佳地,步骤101中可以采用下述方法,基于人工智能,来确定视频中每个音频段对应的语义:
对于视频中的每个音频段,采用预设的音频语义分析网络模型,生成该音频段的语义文本信息,并将所生成的语义文本信息转化为相应的语义向量。
上述方法中将语义文本信息转化为相应的语义向量的具体方法,为本领域技术人员所掌握,在此不再赘述。
步骤102、对于所述视频中具有相同语义的每对音频段和视频帧,判断该对音频段和视频帧是否具有相同的显示时间戳(PTS),如果不相同,则采用预设的PTS调整方式,使得该对音频段和视频帧具有相同的PTS。
这里需要说明的是,当一对音频段和视频帧具有相同语义但PTS不同时,说明从内容表现的层面,这对音频段和视频帧应当是同步播放的,但是,由于PTS不同而使得当视频播放时,它们是无法同步播放的。为此,本步骤中,通过基于音频段和视频帧的语义,从视频中筛选出具有相同语义但PTS不同的音频段和视频帧,并调整它们的PTS,以确保它们具有相同的PTS,如此,通过以语义相同但PTS不同作为触发进行PTS调整的时机,即可确保它们能够同步播放,从而可以有效解决视频本身音视频不同步而导致的播放异常问题,进而可以大幅度提升视频播放效果。
在实际应用中,具体的PTS调整方式可采用现有方法实现,例如,可以以音频的PTS为基准,调整对应视频的PTS;或者,以视频的PTS为基准调整对应音频的PTS;或者,以外部时钟为基准,调整音频和视频的PTS。本领域技术人员可以根据实际需要选择合适的调整方式,使得具有相同语义的每对音频段和视频帧也具有相同的PTS。
较佳的,为了提高用户观看视频的连贯性,可以以音频为基准,确定每个音频段对应的具有相同语义的视频帧,从而可以获得视频中具有相同语义且一一对应的音频段和视频帧,具体采用下述方法实现:
对于每个所述音频段Mi,根据该音频段Mi的语义,从所述视频中查找与该音频段Mi语义匹配的一个视频帧,如果查找成功,则确定该音频段Mi与所查找到的视频段具有相同语义。
在实际应用中,上述方法中具体可以采用现有的匹配方法,如Word Mover’sDistance、欧氏距离等方法进行上述匹配,但不限于此。
较佳的,为了提高上述方法中相同语义的视频帧效率,可以限定仅在音频段对应的PTS附近的视频帧范围内,从所述视频中查找与所述音频段Mi语义相匹配的一个视频帧,具体方法如下:
在所述视频中的预设视频帧范围内,查找与该音频段Mi语义匹配的一个视频帧;所述视频帧范围为PTS大于等于PTSi-△t且小于等于PTSi+△t的所有视频帧,即所具有的PTS在[PTSi-△t,PTSi+△t]范围内的所有视频帧。
其中,所述PTSi为该音频段Mi的PTS。
所述△t为预设的范围调整参数,△t≥0,△t越大可选择的视频帧范围越大,△t越小,查找的效率越高,具体可由本领域技术人员根据实际需要结合上述规律设置合适取值,在此不再赘述。
与上述方法实施例相对应,本申请还公开了一种音视频同步装置实施例,如图2所示,包括:
语义分析模块201,用于对于视频中的每个视频帧,确定该视频帧对应的语义;对于所述视频中的每个音频段,确定该音频段对应的语义;其中,一个音频段的时长和一个视频帧对应的采样时长相同;
同步模块202,用于对于所述视频中具有相同语义的每对音频段和视频帧,判断该对音频段和视频帧是否具有相同的显示时间戳PTS,如果不相同,则采用预设的PTS调整方式,使得该对音频段和视频帧具有相同的PTS。
较佳的,所述语义分析模块201,具体用于对于视频中的每个视频帧,采用预设的视频语义分析网络模型,生成该视频帧的语义文本信息,并将所生成的语义文本信息转化为相应的语义向量;对于视频中的每个音频段,采用预设的音频语义分析网络模型,生成该音频段的语义文本信息,并将所生成的语义文本信息转化为相应的语义向量。
较佳的,所述同步模块202,进一步用于确定所述视频中具有相同语义的每对音频段和视频帧,具体包括:对于每个所述音频段Mi,根据该音频段Mi的语义,从所述视频中查找与该音频段Mi语义匹配的一个视频帧,如果查找成功,则确定该音频段Mi与所查找到的视频段具有相同语义。
较佳的,所述同步模块202,具体用于从所述视频中查找与该音频段Mi语义相匹配的一个视频帧,包括:在所述视频中的预设视频帧范围内,查找与该音频段Mi语义匹配的一个视频帧;所述视频帧范围为PTS大于等于PTSi-△t且小于等于PTSi+△t的所有视频帧,△t为预设的范围调整参数,所述PTSi为该音频段Mi的PTS。
通过上述技术方案可以看出,采用上述实施例可以有效确保音视频的同步播放。在实际应用中,上述技术方案可以应用于对实时录制视频的同步处理,也可以应用于对已录制完成视频的同步处理,既可以应用于视频录制端在对所采集的音频和视频进行编码前,进行音视频同步处理,以节省客户端的同步处理开销,也可以应用于视频播放端在对视频进行播放前,进行音视频同步处理,如此,可以同时解决网络传输所致的音、视频不同步问题,具体地本领域技术人员可以根据实际需要选择具体安装运行上述技术方案的实体。下面结合图3和图4的两种具体应用场景,对上述实施例的应用作进一步说明。
图3给出了本发明实施例应用于视频会议场景的示意图。如图3所示,在视频会议场景下,视频会议APP会检查所获取的音、视频中是否存在语义相同但PTS不同的音、视频组合,并对检查到的音、视频组合的PTS进行调整(为了保证语音的连贯性,可以采用以音频的PTS为基准调整对应视频的PTS的调整方式),之后再对同步处理后的音视频进行编码。
图4给出了本发明实施例应用于烹饪教学视频配音场景的示意图。如图4所示,在该场景下,在给视频配音时,对于需要播放的原始烹饪教学视频和给视频配的音频(中文音频),需要先查找出语义相同的音频和视频具有不同PTS的情况,并对它们的PTS进行调整(为了保证画面的连贯性,可以采用以视频的PTS为基准调整对应音频的PTS的调整方式),之后再输出同步处理后的音视频,从而获得配音和视频画面同步的新视频文件。
图5为根据本发明的音视频同步设备结构图。
如图5所示,该音视频同步设备包括:处理器501和存储器502;其中存储器502中存储有可被处理器501执行的应用程序,用于使得处理器501执行如上任一项所述的音视频同步方法方法。
其中,存储器502具体可以实施为电可擦可编程只读存储器(EEPROM)、快闪存储器(Flash memory)、可编程程序只读存储器(PROM)等多种存储介质。处理器501可以实施为包括一或多个中央处理器或一或多个现场可编程门阵列,其中现场可编程门阵列集成一或多个中央处理器核。具体地,中央处理器或中央处理器核可以实施为CPU或MCU。
需要说明的是,上述各流程和各结构图中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分,实际实现时,一个模块可以分由多个模块实现,多个模块的功能也可以由同一个模块实现,这些模块可以位于同一个设备中,也可以位于不同的设备中。
各实施方式中的硬件模块可以以机械方式或电子方式实现。例如,一个硬件模块可以包括专门设计的永久性电路或逻辑器件(如专用处理器,如FPGA或ASIC)用于完成特定的操作。硬件模块也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。至于具体采用机械方式,或是采用专用的永久性电路,或是采用临时配置的电路(如由软件进行配置)来实现硬件模块,可以根据成本和时间上的考虑来决定。
本发明还提供了一种机器可读的存储介质,存储用于使一机器执行如本申请所述方法的指令。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施方式的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。此外,还可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作。还可以将从存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施方式中任一实施方式的功能。
用于提供程序代码的存储介质实施方式包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机或云上下载程序代码。
在本文中,“示意性”表示“充当实例、例子或说明”,不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。为使图面简洁,各图中的只示意性地表示出了与本发明相关部分,而并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”并不表示将本发明相关部分的数量限制为“仅此一个”,并且“一个”不表示排除本发明相关部分的数量“多于一个”的情形。在本文中,“上”、“下”、“前”、“后”、“左”、“右”、“内”、“外”等仅用于表示相关部分之间的相对位置关系,而非限定这些相关部分的绝对位置。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种音视频同步方法,其特征在于,包括:
对于视频中的每个视频帧,确定该视频帧对应的语义;对于所述视频中的每个音频段,确定该音频段对应的语义;其中,一个音频段的时长和一个视频帧对应的采样时长相同;
对于所述视频中具有相同语义的每对音频段和视频帧,判断该对音频段和视频帧是否具有相同的显示时间戳PTS,如果不相同,则采用预设的PTS调整方式,使得该对音频段和视频帧具有相同的PTS;
所述对于视频中的每个视频帧,确定该视频帧对应的语义包括:
对于视频中的每个视频帧,采用预设的视频分类模型,确定该视频帧对应的视频类型;所述视频类型包括适用于唇语识别的视频和适用于画面整体识别的视频;
如果所确定的视频类型为适用于唇语识别的视频,则采用预设的唇语识别网络模型,生成所述视频帧的语义文本信息;如果所确定的视频类型为适用于画面整体识别的视频,则采用预设的视频分析网络模型,生成所述视频帧的语义文本信息;
将所述语义文本信息转化为相应的语义向量。
2.根据权利要求1所述的方法,其特征在于,所述对于视频中的每个音频段,确定该音频段对应的语义包括:
对于视频中的每个音频段,采用预设的音频语义分析网络模型,生成该音频段的语义文本信息,并将所生成的语义文本信息转化为相应的语义向量。
3.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:确定所述视频中具有相同语义的每对音频段和视频帧,具体包括:
对于每个所述音频段Mi,根据该音频段Mi的语义,从所述视频中查找与该音频段Mi语义匹配的一个视频帧,如果查找成功,则确定该音频段Mi与所查找到的视频段具有相同语义。
4.根据权利要求3所述的方法,其特征在于,所述从所述视频中查找与该音频段Mi语义相匹配的一个视频帧包括:
在所述视频中的预设视频帧范围内,查找与该音频段Mi语义匹配的一个视频帧;所述视频帧范围为PTS大于等于PTSi-△t且小于等于PTSi+△t的所有视频帧,△t为预设的范围调整参数,所述PTSi为该音频段Mi的PTS。
5.一种音视频同步装置,其特征在于,包括:
语义分析模块,用于对于视频中的每个视频帧,确定该视频帧对应的语义;对于所述视频中的每个音频段,确定该音频段对应的语义;其中,一个音频段的时长和一个视频帧对应的采样时长相同;
同步模块,用于对于所述视频中具有相同语义的每对音频段和视频帧,判断该对音频段和视频帧是否具有相同的显示时间戳PTS,如果不相同,则采用预设的PTS调整方式,使得该对音频段和视频帧具有相同的PTS;
所述语义分析模块,具体用于对于视频中的每个视频帧,确定该视频帧对应的语义,包括:
对于视频中的每个视频帧,采用预设的视频分类模型,确定该视频帧对应的视频类型;所述视频类型包括适用于唇语识别的视频和适用于画面整体识别的视频;
如果所确定的视频类型为适用于唇语识别的视频,则采用预设的唇语识别网络模型,生成所述视频帧的语义文本信息;如果所确定的视频类型为适用于画面整体识别的视频,则采用预设的视频分析网络模型,生成所述视频帧的语义文本信息;
将所述语义文本信息转化为相应的语义向量。
6.根据权利要求5所述的装置,其特征在于,
所述语义分析模块,具体用于对于视频中的每个音频段,确定该音频段对应的语义,具体包括:
对于视频中的每个音频段,采用预设的音频语义分析网络模型,生成该音频段的语义文本信息,并将所生成的语义文本信息转化为相应的语义向量。
7.根据权利要求5所述的装置,其特征在于,所述同步模块,进一步用于确定所述视频中具有相同语义的每对音频段和视频帧,具体包括:
对于每个所述音频段Mi,根据该音频段Mi的语义,从所述视频中查找与该音频段Mi语义匹配的一个视频帧,如果查找成功,则确定该音频段Mi与所查找到的视频段具有相同语义。
8.根据权利要求7所述的装置,其特征在于,所述同步模块,具体用于从所述视频中查找与该音频段Mi语义相匹配的一个视频帧,包括:
在所述视频中的预设视频帧范围内,查找与该音频段Mi语义匹配的一个视频帧;所述视频帧范围为PTS大于等于PTSi-△t且小于等于PTSi+△t的所有视频帧,△t为预设的范围调整参数,所述PTSi为该音频段Mi的PTS。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010895576.4A CN111954064B (zh) | 2020-08-31 | 2020-08-31 | 音视频同步方法和装置 |
PCT/KR2021/004444 WO2022045516A1 (en) | 2020-08-31 | 2021-04-08 | Audio and video synchronization method and device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010895576.4A CN111954064B (zh) | 2020-08-31 | 2020-08-31 | 音视频同步方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111954064A CN111954064A (zh) | 2020-11-17 |
CN111954064B true CN111954064B (zh) | 2022-11-04 |
Family
ID=73368164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010895576.4A Active CN111954064B (zh) | 2020-08-31 | 2020-08-31 | 音视频同步方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111954064B (zh) |
WO (1) | WO2022045516A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112714348A (zh) * | 2020-12-28 | 2021-04-27 | 深圳市亿联智能有限公司 | 智能音视频同步方法 |
CN115474083B (zh) * | 2022-11-02 | 2023-03-14 | 灵长智能科技(杭州)有限公司 | 一种多路音视频同步直播方法和系统 |
CN118158464B (zh) * | 2024-04-10 | 2024-08-09 | 腾讯科技(深圳)有限公司 | 视频数据处理方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5430485A (en) * | 1993-09-30 | 1995-07-04 | Thomson Consumer Electronics, Inc. | Audio/video synchronization in a digital transmission system |
CN106067989A (zh) * | 2016-04-28 | 2016-11-02 | 江苏大学 | 一种人像语音视频同步校准装置及方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5771075A (en) * | 1994-12-08 | 1998-06-23 | Lg Electronics Inc. | Audio/video synchronizer |
US7133535B2 (en) * | 2002-12-21 | 2006-11-07 | Microsoft Corp. | System and method for real time lip synchronization |
US20160134785A1 (en) * | 2014-11-10 | 2016-05-12 | Echostar Technologies L.L.C. | Video and audio processing based multimedia synchronization system and method of creating the same |
-
2020
- 2020-08-31 CN CN202010895576.4A patent/CN111954064B/zh active Active
-
2021
- 2021-04-08 WO PCT/KR2021/004444 patent/WO2022045516A1/en active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5430485A (en) * | 1993-09-30 | 1995-07-04 | Thomson Consumer Electronics, Inc. | Audio/video synchronization in a digital transmission system |
CN106067989A (zh) * | 2016-04-28 | 2016-11-02 | 江苏大学 | 一种人像语音视频同步校准装置及方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2022045516A1 (en) | 2022-03-03 |
CN111954064A (zh) | 2020-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111954064B (zh) | 音视频同步方法和装置 | |
US11463779B2 (en) | Video stream processing method and apparatus, computer device, and storage medium | |
US7913155B2 (en) | Synchronizing method and system | |
KR102043088B1 (ko) | 멀티미디어 스트림들의 동기화 | |
JP2007533189A (ja) | ビデオ・オーディオ同期 | |
US11871084B2 (en) | Systems and methods for displaying subjects of a video portion of content | |
CN113035199B (zh) | 音频处理方法、装置、设备及可读存储介质 | |
KR20180119101A (ko) | 방송자막 제작 시스템 및 방법 | |
EP4322029A1 (en) | Method and apparatus for generating video corpus, and related device | |
CN110933485A (zh) | 一种视频字幕生成方法、系统、装置和存储介质 | |
CN112714348A (zh) | 智能音视频同步方法 | |
EP3839953A1 (en) | Automatic caption synchronization and positioning | |
Tapu et al. | DEEP-HEAR: A multimodal subtitle positioning system dedicated to deaf and hearing-impaired people | |
Yang et al. | An automated analysis and indexing framework for lecture video portal | |
KR101618777B1 (ko) | 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법 | |
CN106162222B (zh) | 一种视频镜头切分的方法及装置 | |
EP4345814A1 (en) | Video-generation system | |
CN116708055B (zh) | 智能多媒体视听图像处理方法、系统及存储介质 | |
CN117319765A (zh) | 视频处理方法、装置、计算设备及计算机存储介质 | |
CN116781856A (zh) | 基于深度学习的视听转换控制方法、系统及存储介质 | |
CN113033357B (zh) | 基于口型特征的字幕调整方法以及装置 | |
US20230362451A1 (en) | Generation of closed captions based on various visual and non-visual elements in content | |
KR20220040045A (ko) | 자막 동기화를 제공하는 영상 재생 장치 및 그 동작 방법 | |
CN114842858A (zh) | 一种音频处理方法、装置、电子设备及存储介质 | |
US11099811B2 (en) | Systems and methods for displaying subjects of an audio portion of content and displaying autocomplete suggestions for a search related to a subject of the audio portion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |