CN109951652A - 一种人像语音视频同步校准装置及系统 - Google Patents

一种人像语音视频同步校准装置及系统 Download PDF

Info

Publication number
CN109951652A
CN109951652A CN201910211521.4A CN201910211521A CN109951652A CN 109951652 A CN109951652 A CN 109951652A CN 201910211521 A CN201910211521 A CN 201910211521A CN 109951652 A CN109951652 A CN 109951652A
Authority
CN
China
Prior art keywords
unit
data
video
voice
mood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910211521.4A
Other languages
English (en)
Inventor
陈欣洁
李训祺
肖成美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Science And Plastic Mdt Infotech Ltd
Original Assignee
Hefei Science And Plastic Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Science And Plastic Mdt Infotech Ltd filed Critical Hefei Science And Plastic Mdt Infotech Ltd
Priority to CN201910211521.4A priority Critical patent/CN109951652A/zh
Publication of CN109951652A publication Critical patent/CN109951652A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Studio Circuits (AREA)

Abstract

本发明属于多媒体信息处理技术领域,具体的说是一种人像语音视频同步校准装置及系统,包括口型识别模块、纠错模块、情绪渲染模块、背景音效模块、统计评价模块和综合分析模块;其特征在于:所述口型识别模块包括视频采集单元、视频分析单元、语音采集单元、语音分析单元、口型对比单元和匹配录入单元;所述视频采集单元用于采集获取视频图像;所述视频分析单元用于对采集到的视频进行分析;所述语音采集单元用于采集获取配音数据;所述语音分析单元用于对采集到的配音信息进行分析;所述口型对比单元用于对比视频中的口型与语音是否一致;本发明主要用于解决现有语音视频同步校准系统无法实现系统自我调整,同时也无法对配音进行修改的问题。

Description

一种人像语音视频同步校准装置及系统
技术领域
本发明属于多媒体信息处理技术领域,具体的说是一种人像语音视频同步校准装置及系统。
背景技术
随着多媒体和互联网的普及和发展,人像语音视频应用在各个领域中,如谈话类娱乐节目,网络主播节目,大规模开放的在线课程等。人像语音视频使用的语音信息和视频信息一般采用不同硬件分别录制,然后经过计算机进行综合处理合成一个可以直接播放的语音视频文件,必要时通常还会加入字幕。在录制过程中由于硬件或者网络出现问题,会导致语音信息和视频信息不同步。传统的语音视频同步校准一般采用人工逐帧播放语音视频文件,发现误差时,人为进行校准的方法,需要耗费很多工作量,且传统的语音视频同步校准难以实现对视频内的背景音进行处理,亦由人为把控或制造,同样也无法对配音文件进行修改,通常情况下修改配音文件即代表重新录制,极为浪费时间浪费人力物力。
发明内容
为了弥补现有技术的不足,本发明提出的一种人像语音视频同步校准装置及系统。本发明主要用于解决现有语音视频同步校准系统无法实现系统自我调整,同时也无法对配音进行修改的问题。
本发明解决其技术问题所采用的技术方案是:本发明所述的一种人像语音视频同步校准装置及系统,其特征在于:包括口型识别模块、纠错模块、情绪渲染模块、背景音效模块、统计评价模块和综合分析模块;所述口型识别模块用于识别视频口型;所述纠错模块用于找出字幕文件中的错别字;所述情绪渲染模块用于对对口型识别模块中的视频文件和语音文件进行对比,将情绪表达不到位的地方进行情绪渲染;所述背景音效模块用于对口型识别模块中的视频文件进行分析后添加背景音效;所述统计评价模块用于对纠错模块和背景音效模块中产生的情绪渲染数量、质量和错别字数据进行记录并评价;所述综合分析模块用于将统计评价模块评价后的配音文件进行综合分析并进行排名;所述口型识别模块包括视频采集单元、视频分析单元、语音采集单元、语音分析单元、口型对比单元和匹配录入单元;所述视频采集单元用于采集获取视频图像,并将采集到的数据发送给视频分析单元;所述视频分析单元用于对采集到的视频进行分析,并将数据发送给口型对比单元;所述语音采集单元用于采集获取配音数据,并将数据发送给语音分析单元;所述语音分析单元用于对采集到的配音信息进行分析,且将分析后的数据发送到口型对比单元内;所述口型对比单元用于对比视频中的口型与语音是否一致,如果匹配准确,即将数据传输给匹配录入单元;所述匹配录入单元用于将配音与视频匹配后进行结合录入;当需要对视频文件和配音文件进行校准时,视频采集单元将视频文件进行采集,并将采集到的数据发送给视频分析单元,视频分析单元对数据进行分析,并将数据发送给口型对比单元,同时语音采集单元对配音数据进行采集,并将数据发送给语音分析单元,语音分析单元将分析后的数据发送到口型对比单元内,口型对比单元通过将视频文件进行口型匹配与语音文件进行对比,查看语音文件与视频文件是否准确匹配,如果匹配准确,即将数据传输给匹配录入单元,匹配录入单元将数据存储进数据库中,通过设置口型识别模块可以实现系统自身对视频与配音的匹配进行自动匹配,并就嵌合度进行检查,准确查看是否存在录入不合理的情况,对比现有的人工录入,无疑大大提高了录入的准确性。
优选的,所述纠错模块包括字幕匹配单元、字幕分析单元、核对单元和标记单元;所述字幕分析单元用于对字幕信息进行分析,并将分析转码后的字幕文件数据发送给字幕匹配单元;所述字幕匹配单元用于将字幕信息匹配录入视频中,录入完毕后将完成信号发送给核对单元;所述核对单元用于对比字幕信息与视频中的口型是否一致,如果发现错别字,将信号发送给标记单元;所述标记单元用于标记字幕中出现错误的地方;当视频文件和配音文件结合完毕,通过字幕分析单元即可对字幕信息进行分析转码,并将分析转码后的字幕文件数据发送给字幕匹配单元,字幕匹配单元将接收到的数据与视频文件和语音文件进行匹配后录入其中,当字幕匹配单元匹配完毕,将完成信号发送给核对单元,核对单元立刻开始将语音文件和字幕文件进行分析,查看字幕中是否存在错别字,如果发现错别字,将信号发送给标记单元,标记单元即对错误处进行标记,通过设置核对单元和标记单元即可对字幕文件进行查看,查看其中是否存在错别字,还可以进行实时记录标记,使后续工作的人可以直观的查看到错误点,方便进行修改。
优选的,所述情绪渲染模块包括面部分析单元、情绪匹配单元、语音拆解单元、对比单元和渲染单元;所述面部分析单元包括面部采集组件、肌肉捕捉组件和表情分析组件;所述面部采集组件用于对视频中的脸部进行识别采集,并将识别信号发送给肌肉捕捉组件;所述肌肉捕捉组件用于捕捉视频中脸部肌肉的动作,并将数据发送给表情分析单元;所述表情分析组件用于分析视频中脸部的表情情况,并将数据发送给情绪匹配单元;所述语音拆解单元用于对配音的数据进行拆解,并将拆解后的数据发送给情绪匹配单元;所述情绪匹配单元用于匹配视频中人脸所表现出的情绪,并将人脸情绪和语音情绪数据发送给对比单元;所述对比单元用于将视频中脸部表现出的情绪与语音情绪进行对比,如果发现存在差异或语音情绪表现不到位,则将需要优化情绪的信号发送给渲染单元;所述渲染单元包括音轨转化组件、音色调整组件和调试对比组件;所述音轨转化组件用于将配音数据转化成音轨数据,并通过调试对比组件反复调整其声道和音域,当调整完毕后,将数据发送给音色调整组件;所述音色调整组件用于将音轨数据进行调整从而改变音色;所述调试对比组件用于将调整后的音色数据与视频中脸部情绪进行对比;当视频文件、配音文件和字幕文件结合完毕,面部分析单元内的面部采集组件开始对视频文件内的人脸进行识别采集,并将识别信号发送给肌肉捕捉组件,肌肉捕捉组件通过对脸部肌肉的变动情况进行监控得出肌肉运动数据,并将数据发送给情绪匹配单元,情绪匹配单元通过对数据进行分析后匹配得出人脸反应的实时情绪,同时语音拆解单元开始对配音文件进行拆解,并将拆解后的数据发送给情绪分析单元,情绪匹配单元通过对音色进行分析后得出语音所反映的实时情绪,并将人脸情绪和语音情绪数据发送给对比单元,对比单元通过将人脸情绪和语音情绪进行对比,查看是否存在差异,如果发现存在差异或语音情绪表现不到位,则将需要优化情绪的信号发送给渲染单元,渲染单元内的音轨转化组件将接收到的语音文件转化为音轨文件,并通过调试对比组件反复调整其声道和音域,当调整完毕后,将数据发送给音色调整组件,音色调整组件对接收到的语音文件进行音色调整,直至满足视频文件的情绪要求,通过设置情绪渲染模块可以随时掌控视频文件与语音文件在情绪上是否吻合,如果发生不吻合的情况,可以自动对情绪进行匹配修改,大大节省了人力物力,避免了因情绪表达不到位造成配音人员需要重新录制,也大大的浪费了时间。
优选的,所述背景音效模块包括背景捕捉单元、情景分析单元、数据匹配单元、音效添加单元和混音单元;所述背景捕捉单元用于捕捉视频中的背景部分数据,并将捕捉数据发送给情景分析单元;所述情景分析单元用于对背景捕捉单元捕捉到的数据进行分析得出该背景需要什么样的音效,并将数据发送给数据匹配单元;所述数据匹配单元用于将该背景匹配找到合适的背景音效,并将其发送给音效添加单元;所述音效添加单元用于将匹配到的音效数据添加进视频中,并将完成信号发送给混音单元;所述混音单元用于将人声配音与背景音效进行结合;当语音文件情绪渲染完成后,背景捕捉单元开始对视频文件内的背景进行捕捉提取,并将捕捉数据发送给情景分析单元,情景分析单元即开始对数据进行分析得出背景的环境信息、声音信息和亮光信息,并将数据发送给数据匹配单元,数据匹配单元通过与大数据库进行匹配找出匹配适合当前背景的背景音,并将其发送给音效添加单元,音效添加单元将找出的适配背景音添加进视频文件中,并将完成信号发送给混音单元,混音单元将背景音与配音相结合使其相互完美配合,通过设置背景音效模块可以根据场景不同自动匹配出合适的背景音,不需要通过人为后续添加,大大提高了配音效率,同时还可以节约配音成本。
优选的,所述统计评价模块包括错字统计单元、渲染数量统计单元、渲染质量统计单元、数据分析单元和评价单元;所述错字统计单元用于将字幕数据中出现的错别字进行统计,将统计数据发送给数据分析单元;所述渲染数量用于对配音数据中的情绪渲染数量进行统计,将统计数据发送给数据分析单元;所述渲染质量统计单元用于统计配音数据中的情绪渲染质量,并将数据发送给数据分析单元;所述数据分析单元用于对错字统计单元、渲染数量统计单元和渲染质量统计单元统计出的数据进行分析,将分析总结后的数据发送给评价单元;所述评价单元用于对配音数据和字幕数据进行评价;在视频文件、配音文件和字幕文件在匹配的过程中,错字统计单元会对字幕文件中的错别字数量进行统计,将统计数据发送给数据分析单元,渲染数量统计单元会配音文件中的情绪渲染数量进行统计,将统计数据发送给数据分析单元,而渲染质量统计单元会对情绪渲染的质量进行判定并统计,并将数据发送给数据分析单元,数据分析单元将接收到的数据进行分析总结后,将分析总结后的数据发送给评价单元,评价单元根据数据分析单元分析后的数据对字幕文件、配音文件进行评价,通过设置统计评价模块可以在语音视频进行校准的过程中对字幕中的错别字找出并标记,同时也可以将后期渲染的情绪进行数量和质量的统计,并对其进行分析评价,可以有效记录字幕中的出错率,还可以有效记录配音人员的配音水平,以及情绪表达是否到位,方便进行提高。
优选的,所述综合分析模块包括数据提取单元、分类单元、排名单元和数据归纳单元;所述数据提取单元与统计评价单元中的渲染质量统计单元相连接,用于通过渲染质量统计单元提取统计数据,并将配音数据发送给分类单元;所述分类单元用于将提取到的配音数据按照情绪类别进行分类,并将分类的数据发送给排名单元;所述排名单元用于根据配音数据的质量进行排名,接着将排名数据发送给数据归纳单元;所述数据归纳单元用于将排名后的数据进行归纳存储;当统计评价模块中的评价单元对数据进行评价完成后,数据提取单元对其评价的配音数据进行提取,并将配音数据发送给分类单元,分类单元将接收到的配音数据进行情绪划分,并将分类的数据发送给排名单元,排名单元针对不同情绪领域进行配音的优劣划分,并进行排名,接着将排名数据发送给数据归纳单元进行归纳存储,通过设置综合分析模块可以实现对配音文件进行记录,并针对配音情绪将配音人员进行分类划分,将不同情绪领域的人员按照优秀程度进行排名,当下次需要不同情绪领域的配音时,及可参照排名表进行选择,极大的提高了配音效率。
本发明的有益效果如下:
1.本发明通过设置口型识别模块可以实现系统自身对视频与配音的匹配进行自动匹配,并就嵌合度进行检查,准确查看是否存在录入不合理的情况,对比现有的人工录入,无疑大大提高了录入的准确性。
2.本发明通过设置核对单元和标记单元即可对字幕文件进行查看,查看其中是否存在错别字,还可以进行实时记录标记,使后续工作的人可以直观的查看到错误点,方便进行修改。
3.本发明通过设置综合分析模块可以实现对配音文件进行记录,并针对配音情绪将配音人员进行分类划分,将不同情绪领域的人员按照优秀程度进行排名,当下次需要不同情绪领域的配音时,及可参照排名表进行选择,极大的提高了配音效率。
附图说明
图1是本发明整体的结构框图;
图2是本发明图中情绪渲染模块的结构框图;
具体实施方式
使用图1-图2对本发明一实施方式的一种人像语音视频同步校准装置及系统进行如下说明。
如图1所示,本发明所述的一种人像语音视频同步校准装置及系统,其特征在于:包括口型识别模块、纠错模块、情绪渲染模块、背景音效模块、统计评价模块和综合分析模块;所述口型识别模块用于识别视频口型;所述纠错模块用于找出字幕文件中的错别字;所述情绪渲染模块用于对对口型识别模块中的视频文件和语音文件进行对比,将情绪表达不到位的地方进行情绪渲染;所述背景音效模块用于对口型识别模块中的视频文件进行分析后添加背景音效;所述统计评价模块用于对纠错模块和背景音效模块中产生的情绪渲染数量、质量和错别字数据进行记录并评价;所述综合分析模块用于将统计评价模块评价后的配音文件进行综合分析并进行排名;所述口型识别模块包括视频采集单元、视频分析单元、语音采集单元、语音分析单元、口型对比单元和匹配录入单元;所述视频采集单元用于采集获取视频图像,并将采集到的数据发送给视频分析单元;所述视频分析单元用于对采集到的视频进行分析,并将数据发送给口型对比单元;所述语音采集单元用于采集获取配音数据,并将数据发送给语音分析单元;所述语音分析单元用于对采集到的配音信息进行分析,且将分析后的数据发送到口型对比单元内;所述口型对比单元用于对比视频中的口型与语音是否一致,如果匹配准确,即将数据传输给匹配录入单元;所述匹配录入单元用于将配音与视频匹配后进行结合录入;当需要对视频文件和配音文件进行校准时,视频采集单元将视频文件进行采集,并将采集到的数据发送给视频分析单元,视频分析单元对数据进行分析,并将数据发送给口型对比单元,同时语音采集单元对配音数据进行采集,并将数据发送给语音分析单元,语音分析单元将分析后的数据发送到口型对比单元内,口型对比单元通过将视频文件进行口型匹配与语音文件进行对比,查看语音文件与视频文件是否准确匹配,如果匹配准确,即将数据传输给匹配录入单元,匹配录入单元将数据存储进数据库中,通过设置口型识别模块可以实现系统自身对视频与配音的匹配进行自动匹配,并就嵌合度进行检查,准确查看是否存在录入不合理的情况,对比现有的人工录入,无疑大大提高了录入的准确性。
如图1所示,所述纠错模块包括字幕匹配单元、字幕分析单元、核对单元和标记单元;所述字幕分析单元用于对字幕信息进行分析,并将分析转码后的字幕文件数据发送给字幕匹配单元;所述字幕匹配单元用于将字幕信息匹配录入视频中,录入完毕后将完成信号发送给核对单元;所述核对单元用于对比字幕信息与视频中的口型是否一致,如果发现错别字,将信号发送给标记单元;所述标记单元用于标记字幕中出现错误的地方;当视频文件和配音文件结合完毕,通过字幕分析单元即可对字幕信息进行分析转码,并将分析转码后的字幕文件数据发送给字幕匹配单元,字幕匹配单元将接收到的数据与视频文件和语音文件进行匹配后录入其中,当字幕匹配单元匹配完毕,将完成信号发送给核对单元,核对单元立刻开始将语音文件和字幕文件进行分析,查看字幕中是否存在错别字,如果发现错别字,将信号发送给标记单元,标记单元即对错误处进行标记,通过设置核对单元和标记单元即可对字幕文件进行查看,查看其中是否存在错别字,还可以进行实时记录标记,使后续工作的人可以直观的查看到错误点,方便进行修改。
如图2所示,所述情绪渲染模块包括面部分析单元、情绪匹配单元、语音拆解单元、对比单元和渲染单元;所述面部分析单元包括面部采集组件、肌肉捕捉组件和表情分析组件;所述面部采集组件用于对视频中的脸部进行识别采集,并将识别信号发送给肌肉捕捉组件;所述肌肉捕捉组件用于捕捉视频中脸部肌肉的动作,并将数据发送给表情分析单元;所述表情分析组件用于分析视频中脸部的表情情况,并将数据发送给情绪匹配单元;所述语音拆解单元用于对配音的数据进行拆解,并将拆解后的数据发送给情绪匹配单元;所述情绪匹配单元用于匹配视频中人脸所表现出的情绪,并将人脸情绪和语音情绪数据发送给对比单元;所述对比单元用于将视频中脸部表现出的情绪与语音情绪进行对比,如果发现存在差异或语音情绪表现不到位,则将需要优化情绪的信号发送给渲染单元;所述渲染单元包括音轨转化组件、音色调整组件和调试对比组件;所述音轨转化组件用于将配音数据转化成音轨数据,并通过调试对比组件反复调整其声道和音域,当调整完毕后,将数据发送给音色调整组件;所述音色调整组件用于将音轨数据进行调整从而改变音色;所述调试对比组件用于将调整后的音色数据与视频中脸部情绪进行对比;当视频文件、配音文件和字幕文件结合完毕,面部分析单元内的面部采集组件开始对视频文件内的人脸进行识别采集,并将识别信号发送给肌肉捕捉组件,肌肉捕捉组件通过对脸部肌肉的变动情况进行监控得出肌肉运动数据,并将数据发送给情绪匹配单元,情绪匹配单元通过对数据进行分析后匹配得出人脸反应的实时情绪,同时语音拆解单元开始对配音文件进行拆解,并将拆解后的数据发送给情绪分析单元,情绪匹配单元通过对音色进行分析后得出语音所反映的实时情绪,并将人脸情绪和语音情绪数据发送给对比单元,对比单元通过将人脸情绪和语音情绪进行对比,查看是否存在差异,如果发现存在差异或语音情绪表现不到位,则将需要优化情绪的信号发送给渲染单元,渲染单元内的音轨转化组件将接收到的语音文件转化为音轨文件,并通过调试对比组件反复调整其声道和音域,当调整完毕后,将数据发送给音色调整组件,音色调整组件对接收到的语音文件进行音色调整,直至满足视频文件的情绪要求,通过设置情绪渲染模块可以随时掌控视频文件与语音文件在情绪上是否吻合,如果发生不吻合的情况,可以自动对情绪进行匹配修改,大大节省了人力物力,避免了因情绪表达不到位造成配音人员需要重新录制,也大大的浪费了时间。
如图1所示,所述背景音效模块包括背景捕捉单元、情景分析单元、数据匹配单元、音效添加单元和混音单元;所述背景捕捉单元用于捕捉视频中的背景部分数据,并将捕捉数据发送给情景分析单元;所述情景分析单元用于对背景捕捉单元捕捉到的数据进行分析得出该背景需要什么样的音效,并将数据发送给数据匹配单元;所述数据匹配单元用于将该背景匹配找到合适的背景音效,并将其发送给音效添加单元;所述音效添加单元用于将匹配到的音效数据添加进视频中,并将完成信号发送给混音单元;所述混音单元用于将人声配音与背景音效进行结合;当语音文件情绪渲染完成后,背景捕捉单元开始对视频文件内的背景进行捕捉提取,并将捕捉数据发送给情景分析单元,情景分析单元即开始对数据进行分析得出背景的环境信息、声音信息和亮光信息,并将数据发送给数据匹配单元,数据匹配单元通过与大数据库进行匹配找出匹配适合当前背景的背景音,并将其发送给音效添加单元,音效添加单元将找出的适配背景音添加进视频文件中,并将完成信号发送给混音单元,混音单元将背景音与配音相结合使其相互完美配合,通过设置背景音效模块可以根据场景不同自动匹配出合适的背景音,不需要通过人为后续添加,大大提高了配音效率,同时还可以节约配音成本。
如图1所示,所述统计评价模块包括错字统计单元、渲染数量统计单元、渲染质量统计单元、数据分析单元和评价单元;所述错字统计单元用于将字幕数据中出现的错别字进行统计,将统计数据发送给数据分析单元;所述渲染数量用于对配音数据中的情绪渲染数量进行统计,将统计数据发送给数据分析单元;所述渲染质量统计单元用于统计配音数据中的情绪渲染质量,并将数据发送给数据分析单元;所述数据分析单元用于对错字统计单元、渲染数量统计单元和渲染质量统计单元统计出的数据进行分析,将分析总结后的数据发送给评价单元;所述评价单元用于对配音数据和字幕数据进行评价;在视频文件、配音文件和字幕文件在匹配的过程中,错字统计单元会对字幕文件中的错别字数量进行统计,将统计数据发送给数据分析单元,渲染数量统计单元会配音文件中的情绪渲染数量进行统计,将统计数据发送给数据分析单元,而渲染质量统计单元会对情绪渲染的质量进行判定并统计,并将数据发送给数据分析单元,数据分析单元将接收到的数据进行分析总结后,将分析总结后的数据发送给评价单元,评价单元根据数据分析单元分析后的数据对字幕文件、配音文件进行评价,通过设置统计评价模块可以在语音视频进行校准的过程中对字幕中的错别字找出并标记,同时也可以将后期渲染的情绪进行数量和质量的统计,并对其进行分析评价,可以有效记录字幕中的出错率,还可以有效记录配音人员的配音水平,以及情绪表达是否到位,方便进行提高。
如图1所示,所述综合分析模块包括数据提取单元、分类单元、排名单元和数据归纳单元;所述数据提取单元与统计评价单元中的渲染质量统计单元相连接,用于通过渲染质量统计单元提取统计数据,并将配音数据发送给分类单元;所述分类单元用于将提取到的配音数据按照情绪类别进行分类,并将分类的数据发送给排名单元;所述排名单元用于根据配音数据的质量进行排名,接着将排名数据发送给数据归纳单元;所述数据归纳单元用于将排名后的数据进行归纳存储;当统计评价模块中的评价单元对数据进行评价完成后,数据提取单元对其评价的配音数据进行提取,并将配音数据发送给分类单元,分类单元将接收到的配音数据进行情绪划分,并将分类的数据发送给排名单元,排名单元针对不同情绪领域进行配音的优劣划分,并进行排名,接着将排名数据发送给数据归纳单元进行归纳存储,通过设置综合分析模块可以实现对配音文件进行记录,并针对配音情绪将配音人员进行分类划分,将不同情绪领域的人员按照优秀程度进行排名,当下次需要不同情绪领域的配音时,及可参照排名表进行选择,极大的提高了配音效率。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (6)

1.一种人像语音视频同步校准装置及系统,其特征在于:包括口型识别模块、纠错模块、情绪渲染模块、背景音效模块、统计评价模块和综合分析模块;所述口型识别模块用于识别视频口型;所述纠错模块用于找出字幕文件中的错别字;所述情绪渲染模块用于对对口型识别模块中的视频文件和语音文件进行对比,将情绪表达不到位的地方进行情绪渲染;所述背景音效模块用于对口型识别模块中的视频文件进行分析后添加背景音效;所述统计评价模块用于对纠错模块和背景音效模块中产生的情绪渲染数量、质量和错别字数据进行记录并评价;所述综合分析模块用于将统计评价模块评价后的配音文件进行综合分析并进行排名;所述口型识别模块包括视频采集单元、视频分析单元、语音采集单元、语音分析单元、口型对比单元和匹配录入单元;所述视频采集单元用于采集获取视频图像,并将采集到的数据发送给视频分析单元;所述视频分析单元用于对采集到的视频进行分析,并将数据发送给口型对比单元;所述语音采集单元用于采集获取配音数据,并将数据发送给语音分析单元;所述语音分析单元用于对采集到的配音信息进行分析,且将分析后的数据发送到口型对比单元内;所述口型对比单元用于对比视频中的口型与语音是否一致,如果匹配准确,即将数据传输给匹配录入单元;所述匹配录入单元用于将配音与视频匹配后进行结合录入。
2.根据权利要求1所述的一种人像语音视频同步校准装置及系统,其特征在于:所述纠错模块包括字幕匹配单元、字幕分析单元、核对单元和标记单元;所述字幕分析单元用于对字幕信息进行分析,并将分析转码后的字幕文件数据发送给字幕匹配单元;所述字幕匹配单元用于将字幕信息匹配录入视频中,录入完毕后将完成信号发送给核对单元;所述核对单元用于对比字幕信息与视频中的口型是否一致,如果发现错别字,将信号发送给标记单元;所述标记单元用于标记字幕中出现错误的地方。
3.根据权利要求1所述的一种人像语音视频同步校准装置及系统,其特征在于:所述情绪渲染模块包括面部分析单元、情绪匹配单元、语音拆解单元、对比单元和渲染单元;所述面部分析单元包括面部采集组件、肌肉捕捉组件和表情分析组件;所述面部采集组件用于对视频中的脸部进行识别采集,并将识别信号发送给肌肉捕捉组件;所述肌肉捕捉组件用于捕捉视频中脸部肌肉的动作,并将数据发送给表情分析单元;所述表情分析组件用于分析视频中脸部的表情情况,并将数据发送给情绪匹配单元;所述语音拆解单元用于对配音的数据进行拆解,并将拆解后的数据发送给情绪匹配单元;所述情绪匹配单元用于匹配视频中人脸所表现出的情绪,并将人脸情绪和语音情绪数据发送给对比单元;所述对比单元用于将视频中脸部表现出的情绪与语音情绪进行对比,如果发现存在差异或语音情绪表现不到位,则将需要优化情绪的信号发送给渲染单元;所述渲染单元包括音轨转化组件、音色调整组件和调试对比组件;所述音轨转化组件用于将配音数据转化成音轨数据,并通过调试对比组件反复调整其声道和音域,当调整完毕后,将数据发送给音色调整组件;所述音色调整组件用于将音轨数据进行调整从而改变音色;所述调试对比组件用于将调整后的音色数据与视频中脸部情绪进行对比。
4.根据权利要求1所述的一种人像语音视频同步校准装置及系统,其特征在于:所述背景音效模块包括背景捕捉单元、情景分析单元、数据匹配单元、音效添加单元和混音单元;所述背景捕捉单元用于捕捉视频中的背景部分数据,并将捕捉数据发送给情景分析单元;所述情景分析单元用于对背景捕捉单元捕捉到的数据进行分析得出该背景需要什么样的音效,并将数据发送给数据匹配单元;所述数据匹配单元用于将该背景匹配找到合适的背景音效,并将其发送给音效添加单元;所述音效添加单元用于将匹配到的音效数据添加进视频中,并将完成信号发送给混音单元;所述混音单元用于将人声配音与背景音效进行结合。
5.根据权利要求1所述的一种人像语音视频同步校准装置及系统,其特征在于:所述统计评价模块包括错字统计单元、渲染数量统计单元、渲染质量统计单元、数据分析单元和评价单元;所述错字统计单元用于将字幕数据中出现的错别字进行统计,将统计数据发送给数据分析单元;所述渲染数量用于对配音数据中的情绪渲染数量进行统计,将统计数据发送给数据分析单元;所述渲染质量统计单元用于统计配音数据中的情绪渲染质量,并将数据发送给数据分析单元;所述数据分析单元用于对错字统计单元、渲染数量统计单元和渲染质量统计单元统计出的数据进行分析,将分析总结后的数据发送给评价单元;所述评价单元用于对配音数据和字幕数据进行评价。
6.根据权利要求1所述的一种人像语音视频同步校准装置及系统,其特征在于:所述综合分析模块包括数据提取单元、分类单元、排名单元和数据归纳单元;所述数据提取单元与统计评价单元中的渲染质量统计单元相连接,用于通过渲染质量统计单元提取统计数据,并将配音数据发送给分类单元;所述分类单元用于将提取到的配音数据按照情绪类别进行分类,并将分类的数据发送给排名单元;所述排名单元用于根据配音数据的质量进行排名,接着将排名数据发送给数据归纳单元;所述数据归纳单元用于将排名后的数据进行归纳存储。
CN201910211521.4A 2019-03-20 2019-03-20 一种人像语音视频同步校准装置及系统 Pending CN109951652A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910211521.4A CN109951652A (zh) 2019-03-20 2019-03-20 一种人像语音视频同步校准装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910211521.4A CN109951652A (zh) 2019-03-20 2019-03-20 一种人像语音视频同步校准装置及系统

Publications (1)

Publication Number Publication Date
CN109951652A true CN109951652A (zh) 2019-06-28

Family

ID=67011142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910211521.4A Pending CN109951652A (zh) 2019-03-20 2019-03-20 一种人像语音视频同步校准装置及系统

Country Status (1)

Country Link
CN (1) CN109951652A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110691204A (zh) * 2019-09-09 2020-01-14 苏州臻迪智能科技有限公司 一种音视频处理方法、装置、电子设备及存储介质
CN111988654A (zh) * 2020-08-31 2020-11-24 维沃移动通信有限公司 视频数据对齐方法、装置和电子设备
CN112422999A (zh) * 2020-10-27 2021-02-26 腾讯科技(深圳)有限公司 直播内容处理方法及计算机设备
CN113033357A (zh) * 2021-03-11 2021-06-25 深圳市鹰硕技术有限公司 基于口型特征的字幕调整方法以及装置
CN113573143A (zh) * 2021-07-21 2021-10-29 维沃移动通信有限公司 音频播放方法和电子设备
CN114549711A (zh) * 2022-04-27 2022-05-27 广州公评科技有限公司 一种基于表情肌定位的视频智能渲染方法和系统
CN114786033A (zh) * 2022-06-23 2022-07-22 中译文娱科技(青岛)有限公司 一种基于人工智能的视听数据智能分析管理系统
CN114866791A (zh) * 2022-03-31 2022-08-05 北京达佳互联信息技术有限公司 音效切换方法、装置、电子设备及存储介质
CN115086691A (zh) * 2021-03-16 2022-09-20 北京有竹居网络技术有限公司 字幕优化方法、装置、电子设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004208083A (ja) * 2002-12-25 2004-07-22 Meiwa Yo テレビ広告の内容を制作すると共に、広告をテレビ番組に挿入するための装置及び方法
CN104410748A (zh) * 2014-10-17 2015-03-11 广东小天才科技有限公司 一种根据移动终端位置添加背景音效的方法及移动终端
CN106067989A (zh) * 2016-04-28 2016-11-02 江苏大学 一种人像语音视频同步校准装置及方法
CN106464939A (zh) * 2016-07-28 2017-02-22 北京小米移动软件有限公司 播放音效的方法及装置
CN106973333A (zh) * 2017-03-27 2017-07-21 山东浪潮商用系统有限公司 基于比较的视频字幕错别字词纠错的方法及装置
CN107293286A (zh) * 2017-05-27 2017-10-24 华南理工大学 一种基于网络配音游戏的语音样本收集方法
CN107484016A (zh) * 2017-09-05 2017-12-15 深圳Tcl新技术有限公司 视频的配音切换方法、电视机及计算机可读存储介质
CN108427916A (zh) * 2018-02-11 2018-08-21 上海复旦通讯股份有限公司 一种用于客服坐席情绪的监控系统及监控方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004208083A (ja) * 2002-12-25 2004-07-22 Meiwa Yo テレビ広告の内容を制作すると共に、広告をテレビ番組に挿入するための装置及び方法
CN104410748A (zh) * 2014-10-17 2015-03-11 广东小天才科技有限公司 一种根据移动终端位置添加背景音效的方法及移动终端
CN106067989A (zh) * 2016-04-28 2016-11-02 江苏大学 一种人像语音视频同步校准装置及方法
CN106464939A (zh) * 2016-07-28 2017-02-22 北京小米移动软件有限公司 播放音效的方法及装置
CN106973333A (zh) * 2017-03-27 2017-07-21 山东浪潮商用系统有限公司 基于比较的视频字幕错别字词纠错的方法及装置
CN107293286A (zh) * 2017-05-27 2017-10-24 华南理工大学 一种基于网络配音游戏的语音样本收集方法
CN107484016A (zh) * 2017-09-05 2017-12-15 深圳Tcl新技术有限公司 视频的配音切换方法、电视机及计算机可读存储介质
CN108427916A (zh) * 2018-02-11 2018-08-21 上海复旦通讯股份有限公司 一种用于客服坐席情绪的监控系统及监控方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110691204A (zh) * 2019-09-09 2020-01-14 苏州臻迪智能科技有限公司 一种音视频处理方法、装置、电子设备及存储介质
CN111988654A (zh) * 2020-08-31 2020-11-24 维沃移动通信有限公司 视频数据对齐方法、装置和电子设备
CN112422999A (zh) * 2020-10-27 2021-02-26 腾讯科技(深圳)有限公司 直播内容处理方法及计算机设备
CN113033357A (zh) * 2021-03-11 2021-06-25 深圳市鹰硕技术有限公司 基于口型特征的字幕调整方法以及装置
CN113033357B (zh) * 2021-03-11 2024-02-20 深圳市鹰硕技术有限公司 基于口型特征的字幕调整方法以及装置
CN115086691A (zh) * 2021-03-16 2022-09-20 北京有竹居网络技术有限公司 字幕优化方法、装置、电子设备和存储介质
CN113573143A (zh) * 2021-07-21 2021-10-29 维沃移动通信有限公司 音频播放方法和电子设备
CN113573143B (zh) * 2021-07-21 2023-09-19 维沃移动通信有限公司 音频播放方法和电子设备
CN114866791A (zh) * 2022-03-31 2022-08-05 北京达佳互联信息技术有限公司 音效切换方法、装置、电子设备及存储介质
CN114549711A (zh) * 2022-04-27 2022-05-27 广州公评科技有限公司 一种基于表情肌定位的视频智能渲染方法和系统
CN114786033A (zh) * 2022-06-23 2022-07-22 中译文娱科技(青岛)有限公司 一种基于人工智能的视听数据智能分析管理系统
CN114786033B (zh) * 2022-06-23 2022-10-21 中译文娱科技(青岛)有限公司 一种基于人工智能的视听数据智能分析管理系统

Similar Documents

Publication Publication Date Title
CN109951652A (zh) 一种人像语音视频同步校准装置及系统
Rohrbach et al. A dataset for movie description
Yang et al. LRW-1000: A naturally-distributed large-scale benchmark for lip reading in the wild
Czyzewski et al. An audio-visual corpus for multimodal automatic speech recognition
CN103426438B (zh) 婴儿哭声分析方法及系统
CN107529068A (zh) 视频内容鉴别方法及系统
WO2007073347A1 (en) Annotation of video footage and personalised video generation
CN104065928B (zh) 一种行为模式统计装置与方法
CN110533288A (zh) 业务办理流程检测方法、装置、计算机设备和存储介质
CN112259104B (zh) 一种声纹识别模型的训练装置
CN101199207A (zh) 用于独立于说话者特征测量音频视频同步的方法、系统和程序产品
JP2001092974A (ja) 話者認識方法及びその実行装置並びに音声発生確認方法及び装置
KR20100107036A (ko) 웃음 탐지기 및 미디어 프리젠테이션에 대한 감정 반응을 추적하기 위한 시스템 및 방법
CN103856689A (zh) 面向新闻视频的人物对话字幕提取方法
CN105869658B (zh) 一种采用非线性特征的语音端点检测方法
CN110309799A (zh) 基于摄像头的说话判断方法
Biel et al. Vlogcast yourself: Nonverbal behavior and attention in social media
WO2021196390A1 (zh) 声纹数据生成方法、装置、计算机装置及存储介质
US20070153125A1 (en) Method, system, and program product for measuring audio video synchronization
CN106205610B (zh) 一种语音信息识别方法和设备
CN111010484A (zh) 一种通话录音自动质检方法
DE60318450T2 (de) Vorrichtung und Verfahren zur Segmentation von Audiodaten in Metamustern
CN114120969A (zh) 智能终端的语音识别功能测试方法、系统、电子设备
CN113920560A (zh) 多模态说话人身份识别方法、装置和设备
Liu et al. MSDWild: Multi-modal Speaker Diarization Dataset in the Wild.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination