CN112714348A - 智能音视频同步方法 - Google Patents

智能音视频同步方法 Download PDF

Info

Publication number
CN112714348A
CN112714348A CN202011581013.4A CN202011581013A CN112714348A CN 112714348 A CN112714348 A CN 112714348A CN 202011581013 A CN202011581013 A CN 202011581013A CN 112714348 A CN112714348 A CN 112714348A
Authority
CN
China
Prior art keywords
video
audio
synchronization method
pronunciation
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011581013.4A
Other languages
English (en)
Inventor
段雄波
任亮
郭俊峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Elink Smart Co Ltd
Original Assignee
Shenzhen Elink Smart Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Elink Smart Co Ltd filed Critical Shenzhen Elink Smart Co Ltd
Priority to CN202011581013.4A priority Critical patent/CN112714348A/zh
Publication of CN112714348A publication Critical patent/CN112714348A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Security & Cryptography (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明涉及一种智能音视频同步方法,包括以下步骤:S1、确定语言类型;S2、提取视频文件中的对话场景,形成一个视频数据段;S3、从视频数据段的视频图像中定位出唇部;S4、提取唇部特征,使用所选择的语言的口型数据库训练出的模型,完成口型识别,识别出发音;S5、对识别出的发音进行语音识别,形成发音内容,记录为字幕数据A;S6、将字幕数据A与视频数据段的音频文件对比,分析出与字幕数据A的偏移时间;S7、根据偏移时间,将音频文件与字幕数据A同步。利用深度学习技术实现音视频的同步,以达到一个精准、高效、节省人力物力成本的解决方法,通过人物口型来识别人物说话内容,有了深度学习技术,人物口型识别率大大提高,利于音视频同步。

Description

智能音视频同步方法
技术领域
本发明涉及多媒体领域,更具体地说,涉及一种智能音视频同步方法。
背景技术
随着互联网多媒体技术的发展,音视频技术的应用场景越来越多,电影,直播,短视频等都有用到音视频技术。比如在观看电影时,有一个场景就是音视频的同步技术,比如一个电影,可能有几种语言的配音,而这些配音往往是后期配上去的,这样就存在一个问题,就是音视频的同步,很多时候都是人工来通过调整音频偏移时间来与视频画面同步。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述音视频不同步缺陷,提供一种智能音视频同步方法。
本发明解决其技术问题所采用的技术方案是:构造一种智能音视频同步方法,包括以下步骤:
S1、确定语言类型;
S2、提取视频文件中的对话场景,形成一个视频数据段;
S3、从所述视频数据段的视频图像中定位出唇部;
S4、提取唇部特征,使用所选择的语言的口型数据库训练出的模型,完成口型识别,识别出发音;
S5、对识别出的发音进行语音识别,形成发音内容,记录为字幕数据A;
S6、将所述字幕数据A与所述视频数据段的音频文件对比,分析出与字幕数据A的偏移时间;
S7、根据所述偏移时间,将所述音频文件与所述字幕数据A同步。
优选地,所述步骤S1中,语言类型为用户选择;或,语言类型为通过识别视频文件中的音频文件确定。
优选地,所述步骤S3中,先从所述视频数据段的视频图像中识别出人脸,再从所述人脸上的唇部特征及像素特征定位出唇部。
优选地,所述步骤S3中,利用机器视觉技术识别。
优选地,所述步骤S4中,利用深度学习的方法提取唇部特征。
优选地,所述步骤S4中,识别出的发音包括元音、辅音。
优选地,所述步骤S5中,对形成的发音内容打上时间戳后,再记录为字幕数据A。
优选地,所述步骤S7中,在同步时,以所述字幕数据A为参考。
优选地,所述步骤S6中,分析音频文件,生成与所述音频文件对应的字幕数据B,将字幕数据A与字幕数据B对比,分析出与字幕数据A的偏移时间。
优选地,利用语音识别技术,分析音频文件。
实施本发明的智能音视频同步方法,具有以下有益效果:利用深度学习技术实现音视频的同步,以达到一个精准、高效、节省人力物力成本的解决方法,通过人物口型来识别人物说话内容,有了深度学习技术,人物口型识别率大大提高,从而为音视频同步的实现提供了现实基础。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例中的智能音视频同步方法的流程示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
如图1所示,本发明一个优选实施例中的智能音视频同步方法包括以下步骤:
S1、确定语言类型;
S2、提取视频文件中的对话场景,形成一个视频数据段;
S3、从视频数据段的视频图像中定位出唇部;
S4、提取唇部特征,使用所选择的语言的口型数据库训练出的模型,完成口型识别,识别出发音;
S5、对识别出的发音进行语音识别,形成发音内容,记录为字幕数据A;
S6、将字幕数据A与视频数据段的音频文件对比,分析出与字幕数据A的偏移时间;
S7、根据偏移时间,将音频文件与字幕数据A同步。
利用深度学习技术实现音视频的同步,以达到一个精准、高效、节省人力物力成本的解决方法,通过人物口型来识别人物说话内容,有了深度学习技术,人物口型识别率大大提高,从而为音视频同步的实现提供了现实基础。
优选地,步骤S1中,语言类型为用户选择,在其他实施例中,也可通过识别视频文件中的音频文件确定语言类型确定。
在一些实施例中,步骤S3中,先从视频数据段的视频图像中识别出人脸,再从人脸上的唇部特征及像素特征定位出唇部。
优选地,步骤S3中,利用机器视觉技术识别。
在一些实施例中,步骤S4中,利用深度学习的方法提取唇部特征。进一步地,步骤S4中,识别出的发音包括元音、辅音。
在一些实施例中,步骤S5中,对形成的发音内容打上时间戳后,再记录为字幕数据A。
在一些实施例中,步骤S6中,分析音频文件,生成与音频文件对应的字幕数据B,将字幕数据A与字幕数据B对比,分析出与字幕数据A的偏移时间。
优选地,步骤S7中,在同步时,以字幕数据A为参考。字幕数据A对应的是口型,让观众看到的和听到的都与口型能对上。
可以理解地,上述各技术特征可以任意组合使用而不受限制。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种智能音视频同步方法,其特征在于,包括以下步骤:
S1、确定语言类型;
S2、提取视频文件中的对话场景,形成一个视频数据段;
S3、从所述视频数据段的视频图像中定位出唇部;
S4、提取唇部特征,使用所选择的语言的口型数据库训练出的模型,完成口型识别,识别出发音;
S5、对识别出的发音进行语音识别,形成发音内容,记录为字幕数据A;
S6、将所述字幕数据A与所述视频数据段的音频文件对比,分析出与字幕数据A的偏移时间;
S7、根据所述偏移时间,将所述音频文件与所述字幕数据A同步。
2.根据权利要求1所述的智能音视频同步方法,其特征在于,所述步骤S1中,语言类型为用户选择;或,语言类型为通过识别视频文件中的音频文件确定。
3.根据权利要求1所述的智能音视频同步方法,其特征在于,所述步骤S3中,先从所述视频数据段的视频图像中识别出人脸,再从所述人脸上的唇部特征及像素特征定位出唇部。
4.根据权利要求3所述的智能音视频同步方法,其特征在于,所述步骤S3中,利用机器视觉技术识别。
5.根据权利要求1所述的智能音视频同步方法,其特征在于,所述步骤S4中,利用深度学习的方法提取唇部特征。
6.根据权利要求1所述的智能音视频同步方法,其特征在于,所述步骤S4中,识别出的发音包括元音、辅音。
7.根据权利要求1所述的智能音视频同步方法,其特征在于,所述步骤S5中,对形成的发音内容打上时间戳后,再记录为字幕数据A。
8.根据权利要求1所述的智能音视频同步方法,其特征在于,所述步骤S7中,在同步时,以所述字幕数据A为参考。
9.根据权利要求1、7、8任一项所述的智能音视频同步方法,其特征在于,所述步骤S6中,分析音频文件,生成与所述音频文件对应的字幕数据B,将字幕数据A与字幕数据B对比,分析出与字幕数据A的偏移时间。
10.根据权利要求9所述的智能音视频同步方法,其特征在于,利用语音识别技术,分析音频文件。
CN202011581013.4A 2020-12-28 2020-12-28 智能音视频同步方法 Pending CN112714348A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011581013.4A CN112714348A (zh) 2020-12-28 2020-12-28 智能音视频同步方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011581013.4A CN112714348A (zh) 2020-12-28 2020-12-28 智能音视频同步方法

Publications (1)

Publication Number Publication Date
CN112714348A true CN112714348A (zh) 2021-04-27

Family

ID=75545818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011581013.4A Pending CN112714348A (zh) 2020-12-28 2020-12-28 智能音视频同步方法

Country Status (1)

Country Link
CN (1) CN112714348A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113490058A (zh) * 2021-08-20 2021-10-08 云知声(上海)智能科技有限公司 一种应用于影视后期的智能字幕匹配系统
CN117641019A (zh) * 2023-12-01 2024-03-01 广州一千零一动漫有限公司 基于动画视频的音效匹配核验方法及系统
US20240089554A1 (en) * 2022-09-14 2024-03-14 Dish Network L.L.C. Methods and systems for managing caption information

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017054488A1 (zh) * 2015-09-29 2017-04-06 深圳Tcl新技术有限公司 电视播放控制方法、服务器及电视播放控制系统
CN106653050A (zh) * 2017-02-08 2017-05-10 康梅 一种动画口型与语音实时匹配的方法
CN110210310A (zh) * 2019-04-30 2019-09-06 北京搜狗科技发展有限公司 一种视频处理方法、装置和用于视频处理的装置
CN111954064A (zh) * 2020-08-31 2020-11-17 三星电子(中国)研发中心 音视频同步方法和装置
CN111988654A (zh) * 2020-08-31 2020-11-24 维沃移动通信有限公司 视频数据对齐方法、装置和电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017054488A1 (zh) * 2015-09-29 2017-04-06 深圳Tcl新技术有限公司 电视播放控制方法、服务器及电视播放控制系统
CN106653050A (zh) * 2017-02-08 2017-05-10 康梅 一种动画口型与语音实时匹配的方法
CN110210310A (zh) * 2019-04-30 2019-09-06 北京搜狗科技发展有限公司 一种视频处理方法、装置和用于视频处理的装置
CN111954064A (zh) * 2020-08-31 2020-11-17 三星电子(中国)研发中心 音视频同步方法和装置
CN111988654A (zh) * 2020-08-31 2020-11-24 维沃移动通信有限公司 视频数据对齐方法、装置和电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113490058A (zh) * 2021-08-20 2021-10-08 云知声(上海)智能科技有限公司 一种应用于影视后期的智能字幕匹配系统
US20240089554A1 (en) * 2022-09-14 2024-03-14 Dish Network L.L.C. Methods and systems for managing caption information
CN117641019A (zh) * 2023-12-01 2024-03-01 广州一千零一动漫有限公司 基于动画视频的音效匹配核验方法及系统
CN117641019B (zh) * 2023-12-01 2024-05-24 广州一千零一动漫有限公司 基于动画视频的音效匹配核验方法及系统

Similar Documents

Publication Publication Date Title
Hong et al. Dynamic captioning: video accessibility enhancement for hearing impairment
CN112714348A (zh) 智能音视频同步方法
US10304458B1 (en) Systems and methods for transcribing videos using speaker identification
CN108419141B (zh) 一种字幕位置调整的方法、装置、存储介质及电子设备
Hong et al. Video accessibility enhancement for hearing-impaired users
US11057457B2 (en) Television key phrase detection
US20190069045A1 (en) Automatic generation of descriptive video service tracks
US20160042766A1 (en) Custom video content
CN112565885B (zh) 一种视频分割方法、系统、设备及存储介质
CN111639233A (zh) 学习视频字幕添加方法、装置、终端设备和存储介质
CN105898556A (zh) 一种外挂字幕的自动同步方法及装置
US7149686B1 (en) System and method for eliminating synchronization errors in electronic audiovisual transmissions and presentations
CN111954064B (zh) 音视频同步方法和装置
EP3839953A1 (en) Automatic caption synchronization and positioning
CN117596433B (zh) 一种基于时间轴微调的国际中文教学视听课件编辑系统
Tapu et al. DEEP-HEAR: A multimodal subtitle positioning system dedicated to deaf and hearing-impaired people
CN115460462A (zh) 一种粤语新闻视频中自动裁剪含主播的视听数据集的方法
US9020817B2 (en) Using speech to text for detecting commercials and aligning edited episodes with transcripts
CN117319765A (zh) 视频处理方法、装置、计算设备及计算机存储介质
Tapu et al. Dynamic subtitles: A multimodal video accessibility enhancement dedicated to deaf and hearing impaired users
KR20150096204A (ko) 멀티미디어 분류, 분석, 그리고 태깅을 위한 대본과 영상 동기화 장치 및 방법
CN116017088A (zh) 视频字幕处理方法、装置、电子设备和存储介质
CN113033357B (zh) 基于口型特征的字幕调整方法以及装置
US11948555B2 (en) Method and system for content internationalization and localization
Kunka et al. Multimodal English corpus for automatic speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210427

RJ01 Rejection of invention patent application after publication