CN112562719A - 合成语音与原始视频匹配方法、系统、装置及存储介质 - Google Patents

合成语音与原始视频匹配方法、系统、装置及存储介质 Download PDF

Info

Publication number
CN112562719A
CN112562719A CN202011373933.7A CN202011373933A CN112562719A CN 112562719 A CN112562719 A CN 112562719A CN 202011373933 A CN202011373933 A CN 202011373933A CN 112562719 A CN112562719 A CN 112562719A
Authority
CN
China
Prior art keywords
video
length
speed change
original video
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011373933.7A
Other languages
English (en)
Other versions
CN112562719B (zh
Inventor
李嘉雄
王伦基
叶俊杰
李�权
成秋喜
胡玉针
朱杰
黄桂芳
韩蓝青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CYAGEN BIOSCIENCES (GUANGZHOU) Inc
Research Institute Of Tsinghua Pearl River Delta
Original Assignee
CYAGEN BIOSCIENCES (GUANGZHOU) Inc
Research Institute Of Tsinghua Pearl River Delta
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CYAGEN BIOSCIENCES (GUANGZHOU) Inc, Research Institute Of Tsinghua Pearl River Delta filed Critical CYAGEN BIOSCIENCES (GUANGZHOU) Inc
Priority to CN202011373933.7A priority Critical patent/CN112562719B/zh
Publication of CN112562719A publication Critical patent/CN112562719A/zh
Application granted granted Critical
Publication of CN112562719B publication Critical patent/CN112562719B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4398Processing of audio elementary streams involving reformatting operations of audio signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440281Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the temporal resolution, e.g. by frame skipping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Studio Circuits (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明公开了一种合成语音与原始视频匹配方法、系统、装置及存储介质,其中所述方法包括:获取原始视频的第一长度;获取合成语音的第二长度;根据所述第一长度与所述第二长度的长度差异,对所述原始视频和/或所述合成语音进行变速处理。本申请使得变速处理后的视频与语音的长度一致,提高用户的观感体验。本申请可广泛应用于视频处理领域。

Description

合成语音与原始视频匹配方法、系统、装置及存储介质
技术领域
本申请涉及视频处理领域,尤其涉及一种合成语音与原始视频匹配方法、系统、装置及存储介质。
背景技术
随着互联网的不断发展,人们对信息获取的速度、广度及深度要求越来越高也越来越直观,通信行业经历了语音时代、数据时代,现正以极快的步伐迈入视频时代,视频已成为信息传递的主要新载体,也逐渐成为大众群体获取及分享信息的主流方式。相较于文字、语音等形式,以视频为主的信息传递介质和功能载体可以为人们带来更多的便利,因此“视联网”已成为当今互联网的发展趋势。
但由于目前不同民族、国家、地域的语言文化存在较大差异,也无法做到全球语言统一,因此从不同国家产出的音视频文件必然是跨语种的,这使得信息在交流中遇到较大障碍,信息传递的流畅性与实时性也大打折扣。为此,相关技术提出一种视频翻译方法,将说话人的语言翻译为指定语言并配合生成同步的唇形,让视频中的说话人看起来像是在使用指定语言在说话,提高用户的观感体验。而实现该视频翻译方法的过程中,需要对说话人的原始视频进行文本翻译,再合成音频,由于不同语种的文本存在不一致的现象,因此合成音频与原始视频会出现长度不匹配的情况,影响视频的观感。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请提出一种合成语音与原始视频匹配方法、系统、装置及存储介质,能够匹配视频翻译过程中合成音频与原始视频的长度。
第一方面,本申请一些实施例提供了一种合成语音与原始视频匹配方法,包括:获取原始视频的第一长度;获取合成语音的第二长度;根据所述第一长度与所述第二长度的长度差异,对所述原始视频和/或所述合成语音进行变速处理。得到长度匹配的原始视频和合成语音。
在一些实施例中,所述第一长度为第一时间长度,所述第二长度为第二时间长度,所述长度差异为所述第一时间长度与所述第一时间长度的比值,所述根据所述长度差异,对所述原始视频和/或所述合成语音进行变速处理,包括:当所述长度差异在预设的第一阈值区间内,根据第一视频变速参数对所述原始视频作第一减速处理,并根据第一语音变速参数对所述合成语音作第一加速处理;当所述长度差异在预设的第二阈值区间内,根据第二语音变速参数对所述合成语音作第一变速处理;当所述长度差异在预设的第三阈值区间内,根据第二视频变速参数对所述原始视频作第二加速处理,并根据第三语音变速参数对所述合成语音作第二减速处理。
在一些实施例中,所述方法还包括所述原始视频作局部变速处理的步骤,该步骤具体包括:确定所述原始视频中任意一帧中的若干人体关键点;根据当前帧的所述人体关键点与第一视频帧的所述人体关键点之间的欧式距离以及所述原始视频的时间序列,确定所述原始视频中人体动作幅度与所述时间序列的关系;其中,第一视频帧是所述原始视频中与当前帧间隔预设帧数的视频帧;根据所述原始视频中人体动作幅度与所述时间序列的关系,确定若干局部变速区间;根据所述长度差异,在所述局部变速区间,对所述原始视频作局部变速处理。
在一些实施例中,所述根据所述长度差异,在所述局部变速区间,对所述原始视频作局部变速处理,包括:确定视频变速上限参数和视频变速下限参数;在若干所述局部变速区间,根据所述长度差异、所述视频变速上限参数以及所述视频变速下限参数对所述原始视频作局部变速处理。
在一些实施例中,所述在若干所述局部变速区间,根据所述长度差异、所述视频变速上限参数以及所述视频变速下限参数对所述原始视频作局部变速处理,包括:当所述长度差异在预设的第一阈值区间内,且所述第一视频变速参数大于所述视频变速上限参数,根据所述视频变速上限参数,对所述原始视频作第一减速处理。
在一些实施例中,所述在若干所述局部变速区间,根据所述长度差异、所述视频变速上限参数以及所述视频变速下限参数对所述原始视频作局部变速处理,还包括:当所述长度差异在预设的第三阈值区间内,且所述第二视频变速参数小于所述视频变速下限参数,根据所述视频变速下限参数,对所述原始视频作第二加速处理。
在一些实施例中,所述第一视频变速参数、所述第二语音变速参数以及所述第二视频变速参数的确定过程具体为:根据预设的所述第一语音变速参数,以及所述长度差异,确定所述第一视频变速参数;根据所述长度差异,确定所述第二语音变速参数;根据预设的所述第三语音变速参数,以及所述长度差异,确定所述第二视频变速参数。
第三方面,本申请一些实施例还提供了一种合成语音与原始视频匹配系统,包括:获取模块,用于获取视频长度和语音长度;比较模块,用于确定视频时长和语音时长的长度差异;变速模块,用于根据所述视频时长和语音时长的长度差异,对所述视频以及所述语音作变速处理。
第二方面,本申请一些实施例还提供了一种装置,包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如第一方面所述的合成语音与原始视频匹配方法。
第三方面,本申请一些实施例还提供了一种存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由所述处理器执行时用于实现如第一方面所述的合成语音与原始视频匹配方法。
本申请实施例的有益效果如下:获取原始视频的时长与合成音频的时长,并获取原始视频的时长与合成音频的时长的长度差异,根据长度差异的结果,分别对原始视频以及合成语音作变速处理,使得变速处理后的视频与语音的长度一致,提高用户的观感体验。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1是本申请一些实施例提供的合成语音与原始视频匹配的方法流程图;
图2是本申请一些实施例提供的长度差异在第一阈值区间内的视频及语音变化示意图;
图3是本申请一些实施例提供的长度差异在第二阈值区间内的视频及语音变化示意图;
图4是本申请另一些实施例提供的长度差异在第二阈值区间内的视频及语音变化示意图;
图5是本申请一些实施例提供的长度差异在第三阈值区间内的视频及语音变化示意图;
图6为本申请一些实施例提出的对视频局部变速的方法流程图;
图7为本申请一些实施例提供的人体动作幅度与时间序列的关系的第一示意图;
图8为本申请一些实施例提供的人体动作幅度与时间序列的关系的第二示意图;
图9为本申请一些实施例提供的人体动作幅度与时间序列的关系的第三示意图;
图10为本申请一些实施例提供的合成语音与原始视频匹配系统的结构示意图;
图11为本申请一些实施例提供的一种装置的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在系统示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于系统中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
下面结合附图,对本申请实施例作进一步阐述。
参考图1,图1是本申请一些实施例提供的合成语音与原始视频匹配的方法,该方法包括但不限于步骤S100至步骤S120。
步骤S100,获取原始视频的第一长度。
具体地,第一长度为时间长度,获取原始视频的时间长度。
步骤S110,获取合成语音的第二长度。
具体地,第二长度为时间长度,获取合成音频的时间长度。
步骤S120,根据第一长度与第二长度的长度差异,对原始视频和/或合成语音进行变速处理,得到长度匹配的原始视频和合成语音。
具体地,根据第一长度与第二长度的长度差异,对原始视频和合成视频都进行变速处理,或者只对原始视频和合成视频中的一个进行变速处理。
需要说明的是,本申请一些实施例中采用的视频变速方法为利用多媒体处理工具FFMPEG(Fast Forward Mpeg)来改变原始视频的PTS(Presentation Time Stamp,显示时间戳),来进行固定帧率变速。具体的视频变速过程为现有技术,在此不再赘述。
需要说明的是,本申请一些实施例中采用的语音变速方法为利用LSEE-MSTFTM算法(The Least-Square Error Estimation From the Modified Short-Time FourierTransform Magnitude),对声音频谱进行差值或抽取,实现各频率分量的拓展或压缩。该算法是基于短时傅里叶变换来实现的,利用最小均方误差原则,寻找一个时域信号的短时傅里叶变换幅度谱逼近理想变速信号的频谱。该迭代算法通过在每次迭代中减小了估计信号的短时傅里叶变换幅度与修正短时傅里叶变换幅度之间的均方误差,且修正短时傅里叶变换幅度的时间尺度变化不影响光谱特性,因此可以实现语音的变速不变调。适用于本申请实施例的语言变速要求。
在本申请一些实施例中,优先对合成语音作变速处理,合成语音的第二长度变化区间一般控制在±5%,以保证说话人在一定的语速范围内说话。
长度差异可以为第一长度与第二长度的差值,也可以为第一长度与第二长度的比值。当长度差异为第一长度与第二长度的差值,原始视频的第一长度变化区间一般控制在±25%;当长度差异为第一长度与第二长度的比值,原始视频的第一长度变化区间一般控制在±20%,而且当长度差异为第一长度与第二长度的差值时,需要设定较多条件去确定同时适用于第一长度和第二长度的变速参数;而当长度差异为第一长度与第二长度的比值时,可以较为方便地确定变速参数。因此在本申请以下实施例中,以长度差异为第一长度与第二长度的比值为例子,阐述合成语音与原始视频匹配的方法。
参考图2,图2是本申请一些实施例提供的长度差异在第一阈值区间内的视频及语音变化。假设第一阈值区间为[0.75,0.95],原始视频的第一长度LV为8秒,合成语音的第二长度LA为10秒,则第一长度与第二长度的比值LV/LA为0.8,位于第一阈值区间[0.75,0.95]以内,因此根据第一视频变速参数,对原始视频作第一减速处理,并根据第一语音变速参数对合成语音作第一加速处理。假设第一语音加速参数为0.95,则第一视频变速参数可以确定为0.95*LA/LV。第一减速处理后,原始视频的第一长度LV变为9.5秒;第一加速处理后,合成语音的第二长度LA变为9.5秒,得到长度匹配的原始视频和合成语音。
参考图3,图3是本申请一些实施例提供的长度差异在第二阈值区间内的视频及语音变化,假设第二阈值区间为[0.95,1.05],原始视频的第一长度LV为10秒,合成语音的第二长度LA为9.6秒,则第一长度与第二长度的比值LV/LA约为1.04,位于第二阈值区间[0.95,1.05]以内,第一长度大于第二长度,则对合成语音进行减速处理,第二语音变速参数为LV/LA。第一变速处理后,合成语音的第二长度LA变为10秒,与原始视频的长度相匹配。
参考图4,图4是本申请另一些实施例提供的长度差异在第二阈值区间内的视频及语音变化,同理,假设第二阈值区间为[0.95,1.05],当原始视频的第一长度LV为10秒,合成语音的第二长度LA为10.05秒,则第一长度与第二长度的比值LV/LA约为0.99,位于第二阈值区间[0.95,1.05]以内,第一长度小于第二长度,则对合成语音进行加速处理,第二语音变速参数为LV/LA。第一变速处理后,合成语音的第二长度LA变为10秒,与原始视频的长度相匹配。
参考图5,图5是本申请一些实施例提供的长度差异在第三阈值区间内的视频及语音变化,假设第三阈值区间为[1.05,1.25],原始视频的第一长度LV为12秒,合成语音的第二长度LA为10秒,则第一长度与第二长度的比值LV/LA为1.2,位于第一阈值区间[1.05,1.25]以内,因此根据第二视频变速参数,对原始视频作第二加速处理,并根据第三语音变速参数对合成语音作第二减速处理。假设第三语音变速参数为1.05,则第一视频参数可以确定为1.05*LA/LV。第二加速处理后,原始视频的第一长度LV变为10.5秒;第二减速处理后,合成语音的第二长度LA变为10.5秒,得到长度匹配的原始视频和合成语音。
当长度差异在预设的第一阈值区间、第二阈值区间以及第三阈值区间以外,原始视频和合成语音的长度匹配的效果比较差。假设第一阈值区间为[0.75,0.95],第二阈值区间为[0.95,1.05],第三阈值区间为[1.05,1.25],当第一长度与第二长度的比值LV/LA小于0.75或者大于1.25,则修改合成语音,具体可以修改合成语音的文本,或者是将若干合成语音拼接并重新剪辑,生成新的合成语音,再根据图1中的步骤S100至步骤S120完成原始视频和合成语音的长度匹配。
通过步骤S100到步骤S120,获取原始视频的第一时长和合成语音的第二时长,通过取差值或者取比值来确定第一时长和第二时长的长度差异。设定第一阈值区间、第二阈值区间和第三阈值区间,当长度差异位于上述三个阈值区间内,分别对原始视频或合成语音作变速处理,令变速处理后的原始视频和变速处理后的合成语音长度匹配,提高用户的观感体验。另外,当长度差异位于上述三个阈值区间之外,则说明原始视频和合成语音的长度差异过大,无法通过视频变速和语音变速进行较好的匹配,可以修改合成语音的文本,或者是将若干合成语音拼接并重新剪辑,生成新的合成语音,再重新确定长度差异并进行变速处理。
由于原始视频中会存在人物的人体动作,在变速处理中可能会对原始视频一些动作幅度比较大的人体动作进行加速或减速,例如抬手、甩头、踢腿。如果变速的参数比值大小不考虑这些动作的话,可能导致变速处理后,视频中看到的人体动作变得很缓慢,或者是人体动作变得很快,例如左手飞快抬起或放下,与实际生活中的动作相比不够自然,严重影响变速后视频的观感。
因此,在一些实施例中,本申请提出的合成语音与原始视频匹配方法对原始视频作局部变速处理的步骤,参考图6,图6为本申请一些实施例提出的对视频局部变速的方法,该方法包括但不限于步骤S600至步骤S630。
步骤S600,确定原始视频中任意一帧中的若干人体关键点。
具体地,在本申请一些实施例中,使用OpenPose的人体姿势识别技术,标记出原始视频中每一帧出现人物的15个人体关键点,这些人体关键点分别对应人体上有一定自由度的关节,例如手肘关节、膝盖关节,通过这些人体关键点可以识别人体的动作幅度。
步骤S610,根据当前帧的人体关键点与第一视频帧的人体关键点之间的欧氏距离以及原始视频的时间序列,确定原始视频中人体动作幅度与时间序列的关系。
欧氏距离(euclidean metric,也称为欧几里得度量)指在m维空间中两个点之间的真实距离,在二维和三维空间中的欧氏距离就是两点之间的实际距离。具体地,假设当前帧为第1帧,预设帧数为4帧,则第5帧为第一视频帧,计算第1帧的人体关键点与第5帧的对应人体关键点的欧氏距离,例如计算第1帧标记左手手肘关节的人体关键点与第5帧标记左手手肘关节的人体关键点之间的欧氏距离。根据当前帧的人体关键点与第一视频帧的人体关键点之间的欧式距离,以及原始视频的时间序列,可以确定原始视频中人体动作幅度与时间序列的关系。
参考图7,图7为本申请一些实施例提供的人体动作幅度与时间序列的关系的第一示意图。图7中横轴为原始视频的帧序列,纵轴为当前帧与第一视频帧之间的欧氏距离,需要说明的是,纵轴表示的欧氏距离已做归一化处理。在本申请一些实施例中,当纵轴表示的欧氏距离超过预设的数值,则判断在该帧中人体动作的幅度大,人体幅度较大的帧区间作为局部变速区间。
参照图8,图8为本申请一些实施例提供的人体动作幅度与时间序列的关系的第二示意图。以预设数值为0.25为例,图8中横线为区分线,区分线上方表示欧氏距离大于0.25,区分线下方表示欧氏距离小于0.25。图8中B点为曲线与区分线的第一个交点,则判断B点的前一个拐点A点为第一局部变速区间的开始点。在本申请实施例中,结束拐点是曲线由凹变凸的点。而本申请实施例中确定局部变速区间结束点的方法是:若当前结束拐点的下一个拐点低于区分线,在本段例子中则是当前结束拐点的下一个拐点的值小于0.25,则当前结束拐点为局部变速区间的结束点。参照图8,C点为第一局部变速区间的第一个结束拐点,D点为C点以后的下一个拐点,由于D点的值大于0.25,则C点并不是第一局部变速区间的结束点。E点为曲线与区分线的另一个交点,F点为E点以后的结束拐点,G点为F点以后的下一个拐点,由于G点的值小于0.25,则判断F点为第一局部变速区间的结束点。则A点对应的视频帧为第一局部变速区间的起始帧,F点对应的视频帧为第一局部变速区间的结束帧,由A点和F点可以确定第一局部变速区间,原始视频中的其他局部变速区间也可以通过本段阐述的方法一一确定。通过本段中阐述的确定局部变速区间的方法,可以恰当划分原始视频,使原始视频不会被分成太多局部变速区间,保证了整个原始视频里每一个局部变速区间的流畅性和观看性。参照图9,图9为本申请一些实施例提供的人体动作幅度与时间序列的关系的第三示意图,图9中用方框框住的部分为三个局部变速区间,均可以使用本申请实施例中阐述的确定局部变速区间的方法确定。
步骤S620,根据原始视频中人体动作幅度与时间序列的关系,确定若干局部变速区间。
根据原始视频中人体动作幅度与时间序列的关系,可以确定在原始视频中人体动作幅度较大的区间,将这些区间定为局部变速区间。
步骤S630,在局部变速区间,对原始视频作局部变速处理。
具体地,在原始视频的局部变速区间,对原始视频作局部变速处理;而在原始视频中除了局部变速区间以外的区间,根据原始视频和合成语音的长度差异,对原始视频和合成语音作如图1中步骤S120的变速处理。
在一些实施例中,对于原始视频的局部变速区间,设定一个视频变速上限参数和一个视频变速下限参数。假设在局部变速区间,原始视频的视频变速范围为±15%,则视频变速上限参数为1.15,视频变速下限参数为0.85。在局部变速区间对原始视频进行变速处理时,需要考虑原始视频和合成语音的长度差异,以及视频变速上限参数和视频变速下限参数。具体地,设定原始视频和合成语音的长度差异为第一长度和第二长度的比值,当第一长度和第二长度的比值LV/LA在预设的第一阈值区间[0.75,0.95]内,则第一视频变速参数为0.95*LA/LV,比较第一视频变速参数与视频变速上限参数,当0.95*LA/LV>1.15,即第一视频变速参数大于视频变速上限参数,则根据视频变速上限参数对局部变速区间进行第一减速处理;当0.95*LA/LV≤1.15,即第一视频变速参数小于或等于视频变速上限参数,则根据第一视频变速参数对局部变速区间进行第一减速处理。
同理可得,在一些实施例中,当第一长度和第二长度的比值LV/LA在预设的第三阈值区间[1.05,1.25]内,则第二视频变速参数为1.05*LA/LV,比较第二视频变速参数与视频变速下限参数,当1.05*LA/LV<0.85,即第二视频变速参数小于视频变速上限参数,则根据视频变速下限参数对局部变速区间进行第二减速处理;当1.05*LA/LV≥0.85,即第二视频变速参数大于或等于视频变速下限参数,则根据第二视频变速参数对局部变速区间进行第二减速处理。
通过步骤S600至步骤S630,确定原始视频中任意一帧中的若干人体关键点,并确定当前帧的人体关键点与第一视频帧的人体关键点之间的欧氏距离,从而确定原始视频中人体幅度较大的区间,将这些区间定义为局部变速区间。在局部变速区间,根据第一视频变速参数与视频变速上限参数的大小,对局部变速区间进行第一减速处理;或者根据第二视频变速参数与视频变速下限参数的大小,对局部变速区间进行第二减速处理。对原始视频中人体动作幅度较大的区间进行局部变速处理,可以有效改善变速处理后人体动作变化过快或过慢的情况,使变速处理后的视频中的人体动作流畅自然,提高用户的观感体验。
通过图1和图6中的方法步骤,本申请实施例根据原始视频和合成语音的长度差异,分别对原始视频和合成语音进行变速处理,对于原始视频中人体动作幅度较大的区间,进行局部变速处理,令变速处理后的原始视频和变速处理后的合成语音长度匹配,且有效改善变速处理后人体动作变化过快或过慢的情况,使变速处理后的视频中的人体动作流畅自然,提高用户的观感体验。
参照图10,图10为本申请一些实施例提供的合成语音与原始视频匹配系统1000,该系统1000包括获取模块1010、比较模块1020及变速模块1030。利用获取模块1010获取视频长度和语音长度,利用比较模块1020确定视频时长和语音时长的长度差异,并利用变速模块1030用于根据视频时长和语音时长的长度差异,对视频以及语音作变速处理,令变速处理后的原始视频和变速处理后的合成语音长度匹配,提高用户的观感体验。
参考图11,图11为本申请一些实施例提供的一种装置1100,该装置1100包括至少一个处理器1110,还包括至少一个存储器1120,用于存储至少一个程序;图11中以一个处理器1110及一个存储器1120为例。
处理器1110和存储器1120可以通过总线或者其他方式连接,图11中以通过总线连接为例。
存储器1120作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器1120可以包括高速随机存取存储器1120,还可以包括非暂态存储器1120,例如至少一个磁盘存储器件、闪存器件或其他非暂态固态存储器件。在一些实施方式中,存储器1120可选包括相对于处理器1110远程设置的存储器1120,这些远程存储器1120可以通过网络连接至该装置1100。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请的另一个实施例还提供了一种装置1100,该装置1100可用于执行如上任意实施例中的控制方法,例如,执行以上描述的图1中的方法步骤S100至S120。
以上所描述的装置800实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本申请实施例还公开了一种计算机存储介质,其中存储有处理器1110可执行的程序,其特征在于,处理器1110可执行的程序在由处理器1110执行时用于实现本申请提出的合成语音与原始视频匹配方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种合成语音与原始视频匹配方法,其特征在于,包括:
获取原始视频的第一长度;
获取合成语音的第二长度;
根据所述第一长度与所述第二长度的长度差异,对所述原始视频和/或所述合成语音进行变速处理,得到长度匹配的原始视频和合成语音。
2.根据权利要求1所述的合成语音与原始视频匹配方法,其特征在于,所述第一长度为第一时间长度,所述第二长度为第二时间长度,所述长度差异为所述第一时间长度与所述第一时间长度的比值,所述根据所述长度差异,对所述原始视频和/或所述合成语音进行变速处理,包括:
当所述长度差异在预设的第一阈值区间内,根据第一视频变速参数对所述原始视频作第一减速处理,并根据第一语音变速参数对所述合成语音作第一加速处理;
当所述长度差异在预设的第二阈值区间内,根据第二语音变速参数对所述合成语音作第一变速处理;
当所述长度差异在预设的第三阈值区间内,根据第二视频变速参数对所述原始视频作第二加速处理,并根据第三语音变速参数对所述合成语音作第二减速处理。
3.根据权利要求2所述的合成语音与原始视频匹配方法,其特征在于,所述方法还包括所述原始视频作局部变速处理的步骤,该步骤具体包括:
确定所述原始视频中任意一帧中的若干人体关键点;
根据当前帧的所述人体关键点与第一视频帧的所述人体关键点之间的欧式距离以及所述原始视频的时间序列,确定所述原始视频中人体动作幅度与所述时间序列的关系;其中,第一视频帧是所述原始视频中与当前帧间隔预设帧数的视频帧;
根据所述原始视频中人体动作幅度与所述时间序列的关系,确定若干局部变速区间;
根据所述长度差异,在所述局部变速区间对所述原始视频作局部变速处理。
4.根据权利要求3所述的合成语音与原始视频匹配方法,其特征在于,所述根据所述长度差异,在所述局部变速区间,对所述原始视频作局部变速处理,包括:
确定视频变速上限参数和视频变速下限参数;
在若干所述局部变速区间,根据所述长度差异、所述视频变速上限参数以及所述视频变速下限参数对所述原始视频作局部变速处理。
5.根据权利要求4所述的合成语音与原始视频匹配方法,其特征在于,所述在若干所述局部变速区间,根据所述长度差异、所述视频变速上限参数以及所述视频变速下限参数对所述原始视频作局部变速处理,包括:
当所述长度差异在预设的第一阈值区间内,且所述第一视频变速参数大于所述视频变速上限参数,根据所述视频变速上限参数对所述原始视频作第一减速处理。
6.根据权利要求4所述的合成语音与原始视频匹配方法,其特征在于,所述在若干所述局部变速区间,根据所述长度差异、所述视频变速上限参数以及所述视频变速下限参数对所述原始视频作局部变速处理,还包括:
当所述长度差异在预设的第三阈值区间内,且所述第二视频变速参数小于所述视频变速下限参数,根据所述视频变速下限参数对所述原始视频作第二加速处理。
7.根据权利要求2所述的合成语音与原始视频匹配方法,其特征在于,所述第一视频变速参数、所述第二语音变速参数以及所述第二视频变速参数的确定过程具体为:
根据预设的所述第一语音变速参数以及所述长度差异,确定所述第一视频变速参数;
根据所述长度差异,确定所述第二语音变速参数;
根据预设的所述第三语音变速参数以及所述长度差异,确定所述第二视频变速参数。
8.一种合成语音与原始视频匹配系统,其特征在于,包括:
获取模块,用于获取视频长度和语音长度;
比较模块,用于确定视频时长和语音时长的长度差异;
变速模块,用于根据所述视频时长和语音时长的长度差异,对所述视频以及所述语音作变速处理。
9.一种装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-7中任一项所述的合成语音与原始视频匹配方法。
10.一种计算机存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由所述处理器执行时用于实现如权利要求1-7任一项所述的合成语音与原始视频匹配方法。
CN202011373933.7A 2020-11-30 2020-11-30 合成语音与原始视频匹配方法、系统、装置及存储介质 Active CN112562719B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011373933.7A CN112562719B (zh) 2020-11-30 2020-11-30 合成语音与原始视频匹配方法、系统、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011373933.7A CN112562719B (zh) 2020-11-30 2020-11-30 合成语音与原始视频匹配方法、系统、装置及存储介质

Publications (2)

Publication Number Publication Date
CN112562719A true CN112562719A (zh) 2021-03-26
CN112562719B CN112562719B (zh) 2024-03-19

Family

ID=75045398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011373933.7A Active CN112562719B (zh) 2020-11-30 2020-11-30 合成语音与原始视频匹配方法、系统、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112562719B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113721704A (zh) * 2021-08-30 2021-11-30 成都华栖云科技有限公司 一种视频流的同声传译系统及其实现方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10164417A (ja) * 1996-12-03 1998-06-19 Canon Inc 撮像装置、その制御方法、記憶媒体、及びレンズ制御装置
JP2001224002A (ja) * 2000-02-08 2001-08-17 Atr Interpreting Telecommunications Res Lab 音声・映像同期方法および音声・映像処理プログラムを記録したコンピュータ読み取り可能な記録媒体
CN1446350A (zh) * 2000-08-10 2003-10-01 汤姆森许可公司 用于实现音频速度转换的系统和方法
KR20080089721A (ko) * 2007-04-02 2008-10-08 주식회사 대우일렉트로닉스 오디오/비디오 동기화 방법
JP2008288934A (ja) * 2007-05-18 2008-11-27 Panasonic Corp 動画撮影装置および動画再生装置
US20100238262A1 (en) * 2009-03-23 2010-09-23 Kurtz Andrew F Automated videography systems
CN107484009A (zh) * 2017-09-12 2017-12-15 上海脉淼信息科技有限公司 一种适用于网络直播的流媒体播放方法和装置
CN109963184A (zh) * 2017-12-14 2019-07-02 阿里巴巴集团控股有限公司 一种音视频网络播放的方法、装置以及电子设备
CN111758264A (zh) * 2018-02-26 2020-10-09 谷歌有限责任公司 预先录制的视频的自动语音翻译配音

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10164417A (ja) * 1996-12-03 1998-06-19 Canon Inc 撮像装置、その制御方法、記憶媒体、及びレンズ制御装置
JP2001224002A (ja) * 2000-02-08 2001-08-17 Atr Interpreting Telecommunications Res Lab 音声・映像同期方法および音声・映像処理プログラムを記録したコンピュータ読み取り可能な記録媒体
CN1446350A (zh) * 2000-08-10 2003-10-01 汤姆森许可公司 用于实现音频速度转换的系统和方法
KR20080089721A (ko) * 2007-04-02 2008-10-08 주식회사 대우일렉트로닉스 오디오/비디오 동기화 방법
JP2008288934A (ja) * 2007-05-18 2008-11-27 Panasonic Corp 動画撮影装置および動画再生装置
US20100238262A1 (en) * 2009-03-23 2010-09-23 Kurtz Andrew F Automated videography systems
CN107484009A (zh) * 2017-09-12 2017-12-15 上海脉淼信息科技有限公司 一种适用于网络直播的流媒体播放方法和装置
CN109963184A (zh) * 2017-12-14 2019-07-02 阿里巴巴集团控股有限公司 一种音视频网络播放的方法、装置以及电子设备
CN111758264A (zh) * 2018-02-26 2020-10-09 谷歌有限责任公司 预先录制的视频的自动语音翻译配音

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PRZEMYSLAW ROKITA: "Compositing computer graphics and real world video sequences", 《COMPUTER NETWORKS AND ISDN SYSTEMS》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113721704A (zh) * 2021-08-30 2021-11-30 成都华栖云科技有限公司 一种视频流的同声传译系统及其实现方法

Also Published As

Publication number Publication date
CN112562719B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
WO2022052481A1 (zh) 基于人工智能的vr互动方法、装置、计算机设备及介质
CN109168067B (zh) 视频时序矫正方法、矫正终端及计算机可读存储介质
US20210319809A1 (en) Method, system, medium, and smart device for cutting video using video content
CN110689902B (zh) 基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质
CN104252861B (zh) 视频语音转换方法、装置和服务器
US10217260B1 (en) Real-time lip synchronization animation
CN110675886B (zh) 音频信号处理方法、装置、电子设备及存储介质
CN109005419B (zh) 一种语音信息的处理方法及客户端
CN111050023A (zh) 视频检测方法、装置、终端设备及存储介质
JP6711044B2 (ja) 画像処理装置、表示装置、アニメーション生成方法及びプログラム
EP2960904B1 (en) Method and apparatus for synchronizing audio and video signals
CN113823323B (zh) 一种基于卷积神经网络的音频处理方法、装置及相关设备
CN112399247A (zh) 一种音频处理方法、音频处理设备及可读存储介质
CN109413475A (zh) 一种视频中字幕的调整方法、装置和服务器
CN112562719A (zh) 合成语音与原始视频匹配方法、系统、装置及存储介质
RU2721180C1 (ru) Способ генерации анимационной модели головы по речевому сигналу и электронное вычислительное устройство, реализующее его
CN108847246A (zh) 一种动画制作方法、装置、终端及可读介质
JP7421869B2 (ja) 情報処理プログラム、情報処理装置、情報処理方法及び学習済モデル生成方法
KR20120126412A (ko) 3차원 재구성을 이용한 디지털 만화 콘텐츠 생성 방법
WO2019218773A1 (zh) 语音的合成方法及装置、存储介质、电子装置
CN112423019B (zh) 调整音频播放速度的方法、装置、电子设备及存储介质
CN116828129B (zh) 一种超清2d数字人生成方法及系统
JP2019097016A (ja) コーパス生成装置、コーパス生成方法、およびプログラム
CN116912375A (zh) 面部动画生成方法、装置、电子设备及存储介质
EP3113180B1 (en) Method for performing audio inpainting on a speech signal and apparatus for performing audio inpainting on a speech signal

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant