CN112714348A - 智能音视频同步方法 - Google Patents
智能音视频同步方法 Download PDFInfo
- Publication number
- CN112714348A CN112714348A CN202011581013.4A CN202011581013A CN112714348A CN 112714348 A CN112714348 A CN 112714348A CN 202011581013 A CN202011581013 A CN 202011581013A CN 112714348 A CN112714348 A CN 112714348A
- Authority
- CN
- China
- Prior art keywords
- video
- audio
- synchronization method
- pronunciation
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000013135 deep learning Methods 0.000 claims abstract description 6
- 230000001360 synchronised effect Effects 0.000 abstract description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8547—Content authoring involving timestamps for synchronizing content
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computer Security & Cryptography (AREA)
- Electrically Operated Instructional Devices (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
本发明涉及一种智能音视频同步方法,包括以下步骤:S1、确定语言类型;S2、提取视频文件中的对话场景,形成一个视频数据段;S3、从视频数据段的视频图像中定位出唇部;S4、提取唇部特征,使用所选择的语言的口型数据库训练出的模型,完成口型识别,识别出发音;S5、对识别出的发音进行语音识别,形成发音内容,记录为字幕数据A;S6、将字幕数据A与视频数据段的音频文件对比,分析出与字幕数据A的偏移时间;S7、根据偏移时间,将音频文件与字幕数据A同步。利用深度学习技术实现音视频的同步,以达到一个精准、高效、节省人力物力成本的解决方法,通过人物口型来识别人物说话内容,有了深度学习技术,人物口型识别率大大提高,利于音视频同步。
Description
技术领域
本发明涉及多媒体领域,更具体地说,涉及一种智能音视频同步方法。
背景技术
随着互联网多媒体技术的发展,音视频技术的应用场景越来越多,电影,直播,短视频等都有用到音视频技术。比如在观看电影时,有一个场景就是音视频的同步技术,比如一个电影,可能有几种语言的配音,而这些配音往往是后期配上去的,这样就存在一个问题,就是音视频的同步,很多时候都是人工来通过调整音频偏移时间来与视频画面同步。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述音视频不同步缺陷,提供一种智能音视频同步方法。
本发明解决其技术问题所采用的技术方案是:构造一种智能音视频同步方法,包括以下步骤:
S1、确定语言类型;
S2、提取视频文件中的对话场景,形成一个视频数据段;
S3、从所述视频数据段的视频图像中定位出唇部;
S4、提取唇部特征,使用所选择的语言的口型数据库训练出的模型,完成口型识别,识别出发音;
S5、对识别出的发音进行语音识别,形成发音内容,记录为字幕数据A;
S6、将所述字幕数据A与所述视频数据段的音频文件对比,分析出与字幕数据A的偏移时间;
S7、根据所述偏移时间,将所述音频文件与所述字幕数据A同步。
优选地,所述步骤S1中,语言类型为用户选择;或,语言类型为通过识别视频文件中的音频文件确定。
优选地,所述步骤S3中,先从所述视频数据段的视频图像中识别出人脸,再从所述人脸上的唇部特征及像素特征定位出唇部。
优选地,所述步骤S3中,利用机器视觉技术识别。
优选地,所述步骤S4中,利用深度学习的方法提取唇部特征。
优选地,所述步骤S4中,识别出的发音包括元音、辅音。
优选地,所述步骤S5中,对形成的发音内容打上时间戳后,再记录为字幕数据A。
优选地,所述步骤S7中,在同步时,以所述字幕数据A为参考。
优选地,所述步骤S6中,分析音频文件,生成与所述音频文件对应的字幕数据B,将字幕数据A与字幕数据B对比,分析出与字幕数据A的偏移时间。
优选地,利用语音识别技术,分析音频文件。
实施本发明的智能音视频同步方法,具有以下有益效果:利用深度学习技术实现音视频的同步,以达到一个精准、高效、节省人力物力成本的解决方法,通过人物口型来识别人物说话内容,有了深度学习技术,人物口型识别率大大提高,从而为音视频同步的实现提供了现实基础。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例中的智能音视频同步方法的流程示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
如图1所示,本发明一个优选实施例中的智能音视频同步方法包括以下步骤:
S1、确定语言类型;
S2、提取视频文件中的对话场景,形成一个视频数据段;
S3、从视频数据段的视频图像中定位出唇部;
S4、提取唇部特征,使用所选择的语言的口型数据库训练出的模型,完成口型识别,识别出发音;
S5、对识别出的发音进行语音识别,形成发音内容,记录为字幕数据A;
S6、将字幕数据A与视频数据段的音频文件对比,分析出与字幕数据A的偏移时间;
S7、根据偏移时间,将音频文件与字幕数据A同步。
利用深度学习技术实现音视频的同步,以达到一个精准、高效、节省人力物力成本的解决方法,通过人物口型来识别人物说话内容,有了深度学习技术,人物口型识别率大大提高,从而为音视频同步的实现提供了现实基础。
优选地,步骤S1中,语言类型为用户选择,在其他实施例中,也可通过识别视频文件中的音频文件确定语言类型确定。
在一些实施例中,步骤S3中,先从视频数据段的视频图像中识别出人脸,再从人脸上的唇部特征及像素特征定位出唇部。
优选地,步骤S3中,利用机器视觉技术识别。
在一些实施例中,步骤S4中,利用深度学习的方法提取唇部特征。进一步地,步骤S4中,识别出的发音包括元音、辅音。
在一些实施例中,步骤S5中,对形成的发音内容打上时间戳后,再记录为字幕数据A。
在一些实施例中,步骤S6中,分析音频文件,生成与音频文件对应的字幕数据B,将字幕数据A与字幕数据B对比,分析出与字幕数据A的偏移时间。
优选地,步骤S7中,在同步时,以字幕数据A为参考。字幕数据A对应的是口型,让观众看到的和听到的都与口型能对上。
可以理解地,上述各技术特征可以任意组合使用而不受限制。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种智能音视频同步方法,其特征在于,包括以下步骤:
S1、确定语言类型;
S2、提取视频文件中的对话场景,形成一个视频数据段;
S3、从所述视频数据段的视频图像中定位出唇部;
S4、提取唇部特征,使用所选择的语言的口型数据库训练出的模型,完成口型识别,识别出发音;
S5、对识别出的发音进行语音识别,形成发音内容,记录为字幕数据A;
S6、将所述字幕数据A与所述视频数据段的音频文件对比,分析出与字幕数据A的偏移时间;
S7、根据所述偏移时间,将所述音频文件与所述字幕数据A同步。
2.根据权利要求1所述的智能音视频同步方法,其特征在于,所述步骤S1中,语言类型为用户选择;或,语言类型为通过识别视频文件中的音频文件确定。
3.根据权利要求1所述的智能音视频同步方法,其特征在于,所述步骤S3中,先从所述视频数据段的视频图像中识别出人脸,再从所述人脸上的唇部特征及像素特征定位出唇部。
4.根据权利要求3所述的智能音视频同步方法,其特征在于,所述步骤S3中,利用机器视觉技术识别。
5.根据权利要求1所述的智能音视频同步方法,其特征在于,所述步骤S4中,利用深度学习的方法提取唇部特征。
6.根据权利要求1所述的智能音视频同步方法,其特征在于,所述步骤S4中,识别出的发音包括元音、辅音。
7.根据权利要求1所述的智能音视频同步方法,其特征在于,所述步骤S5中,对形成的发音内容打上时间戳后,再记录为字幕数据A。
8.根据权利要求1所述的智能音视频同步方法,其特征在于,所述步骤S7中,在同步时,以所述字幕数据A为参考。
9.根据权利要求1、7、8任一项所述的智能音视频同步方法,其特征在于,所述步骤S6中,分析音频文件,生成与所述音频文件对应的字幕数据B,将字幕数据A与字幕数据B对比,分析出与字幕数据A的偏移时间。
10.根据权利要求9所述的智能音视频同步方法,其特征在于,利用语音识别技术,分析音频文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011581013.4A CN112714348A (zh) | 2020-12-28 | 2020-12-28 | 智能音视频同步方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011581013.4A CN112714348A (zh) | 2020-12-28 | 2020-12-28 | 智能音视频同步方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112714348A true CN112714348A (zh) | 2021-04-27 |
Family
ID=75545818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011581013.4A Pending CN112714348A (zh) | 2020-12-28 | 2020-12-28 | 智能音视频同步方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112714348A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113490058A (zh) * | 2021-08-20 | 2021-10-08 | 云知声(上海)智能科技有限公司 | 一种应用于影视后期的智能字幕匹配系统 |
CN117641019A (zh) * | 2023-12-01 | 2024-03-01 | 广州一千零一动漫有限公司 | 基于动画视频的音效匹配核验方法及系统 |
US20240089554A1 (en) * | 2022-09-14 | 2024-03-14 | Dish Network L.L.C. | Methods and systems for managing caption information |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017054488A1 (zh) * | 2015-09-29 | 2017-04-06 | 深圳Tcl新技术有限公司 | 电视播放控制方法、服务器及电视播放控制系统 |
CN106653050A (zh) * | 2017-02-08 | 2017-05-10 | 康梅 | 一种动画口型与语音实时匹配的方法 |
CN110210310A (zh) * | 2019-04-30 | 2019-09-06 | 北京搜狗科技发展有限公司 | 一种视频处理方法、装置和用于视频处理的装置 |
CN111954064A (zh) * | 2020-08-31 | 2020-11-17 | 三星电子(中国)研发中心 | 音视频同步方法和装置 |
CN111988654A (zh) * | 2020-08-31 | 2020-11-24 | 维沃移动通信有限公司 | 视频数据对齐方法、装置和电子设备 |
-
2020
- 2020-12-28 CN CN202011581013.4A patent/CN112714348A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017054488A1 (zh) * | 2015-09-29 | 2017-04-06 | 深圳Tcl新技术有限公司 | 电视播放控制方法、服务器及电视播放控制系统 |
CN106653050A (zh) * | 2017-02-08 | 2017-05-10 | 康梅 | 一种动画口型与语音实时匹配的方法 |
CN110210310A (zh) * | 2019-04-30 | 2019-09-06 | 北京搜狗科技发展有限公司 | 一种视频处理方法、装置和用于视频处理的装置 |
CN111954064A (zh) * | 2020-08-31 | 2020-11-17 | 三星电子(中国)研发中心 | 音视频同步方法和装置 |
CN111988654A (zh) * | 2020-08-31 | 2020-11-24 | 维沃移动通信有限公司 | 视频数据对齐方法、装置和电子设备 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113490058A (zh) * | 2021-08-20 | 2021-10-08 | 云知声(上海)智能科技有限公司 | 一种应用于影视后期的智能字幕匹配系统 |
US20240089554A1 (en) * | 2022-09-14 | 2024-03-14 | Dish Network L.L.C. | Methods and systems for managing caption information |
CN117641019A (zh) * | 2023-12-01 | 2024-03-01 | 广州一千零一动漫有限公司 | 基于动画视频的音效匹配核验方法及系统 |
CN117641019B (zh) * | 2023-12-01 | 2024-05-24 | 广州一千零一动漫有限公司 | 基于动画视频的音效匹配核验方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hong et al. | Dynamic captioning: video accessibility enhancement for hearing impairment | |
CN112714348A (zh) | 智能音视频同步方法 | |
US10304458B1 (en) | Systems and methods for transcribing videos using speaker identification | |
CN108419141B (zh) | 一种字幕位置调整的方法、装置、存储介质及电子设备 | |
Hong et al. | Video accessibility enhancement for hearing-impaired users | |
US11057457B2 (en) | Television key phrase detection | |
US20190069045A1 (en) | Automatic generation of descriptive video service tracks | |
US20160042766A1 (en) | Custom video content | |
CN112565885B (zh) | 一种视频分割方法、系统、设备及存储介质 | |
CN111639233A (zh) | 学习视频字幕添加方法、装置、终端设备和存储介质 | |
CN105898556A (zh) | 一种外挂字幕的自动同步方法及装置 | |
US7149686B1 (en) | System and method for eliminating synchronization errors in electronic audiovisual transmissions and presentations | |
CN111954064B (zh) | 音视频同步方法和装置 | |
EP3839953A1 (en) | Automatic caption synchronization and positioning | |
CN117596433B (zh) | 一种基于时间轴微调的国际中文教学视听课件编辑系统 | |
Tapu et al. | DEEP-HEAR: A multimodal subtitle positioning system dedicated to deaf and hearing-impaired people | |
CN115460462A (zh) | 一种粤语新闻视频中自动裁剪含主播的视听数据集的方法 | |
US9020817B2 (en) | Using speech to text for detecting commercials and aligning edited episodes with transcripts | |
CN117319765A (zh) | 视频处理方法、装置、计算设备及计算机存储介质 | |
Tapu et al. | Dynamic subtitles: A multimodal video accessibility enhancement dedicated to deaf and hearing impaired users | |
KR20150096204A (ko) | 멀티미디어 분류, 분석, 그리고 태깅을 위한 대본과 영상 동기화 장치 및 방법 | |
CN116017088A (zh) | 视频字幕处理方法、装置、电子设备和存储介质 | |
CN113033357B (zh) | 基于口型特征的字幕调整方法以及装置 | |
US11948555B2 (en) | Method and system for content internationalization and localization | |
Kunka et al. | Multimodal English corpus for automatic speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210427 |
|
RJ01 | Rejection of invention patent application after publication |