CN109168067A

CN109168067A - 视频时序矫正方法、矫正终端及计算机可读存储介质

Info

Publication number: CN109168067A
Application number: CN201811304919.4A
Authority: CN
Inventors: 彭湃
Original assignee: Shenzhen TCL New Technology Co Ltd
Current assignee: Shenzhen TCL New Technology Co Ltd
Priority date: 2018-11-02
Filing date: 2018-11-02
Publication date: 2019-01-08
Anticipated expiration: 2038-11-02
Also published as: CN109168067B

Abstract

本发明公开了一种视频时序矫正方法，提取待矫正视频中的音频数据，识别出音频数据中人物声音对应的语音文本；从预先建立的文本口型数据库中，获取语音文本对应的文本口型波形；记录人物声音播放的语音时间区段，根据语音时间区段和文本口型波形生成语音口型波形；提取待矫正视频中的视频数据，获取视频数据中人物画面对应的画面口型波形；比较语音口型波形和画面口型波形的相似性，根据比较结果矫正视频中语音和画面时序。本发明还公开了一种终端、计算机可读存储介质。实现了在播放视频时，自动检测音视频播放是否一致，在检测到不一致时，自动完成音视频播放时序矫正，提高音视频同步播放的矫正效率。

Description

视频时序矫正方法、矫正终端及计算机可读存储介质

技术领域

本发明属于音视频处理技术领域，尤其涉及一种视频时序矫正方法、矫正终端及计算机可读存储介质。

背景技术

播放视频文件时，由于音频视频时间戳不一致，或者当前视频播放器无法兼容视频文件中的音频数据和视频数据等原因，会出现音频相对视频播放较快，或者较慢的情况，导致播放的视频声音与视频画面不一致。现有解决方案是，通过矫正音视频帧的时间戳，或者在播放时，用户手动设置延时或者提前播放音频的方式来调节音频播放时间，但是当音视频帧的时间戳不正确时，便无法进行矫正；通过用户手动调节音频播放时间的效率低，矫正困难。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种视屏时序矫正方法，旨在解决当视频中音视频帧的时间戳不正确时，便无法进行矫正视屏时序，通过用户手动调节音频播放时间效率低的技术问题。

为了实现上述目的，本发发明提供一种视屏时序矫正方法，所述视屏时序矫正方法包括以下步骤：

提取待矫正视频中的音频数据，识别出所述音频数据中人物声音对应的语音文本；

从预先建立的文本口型数据库中，获取所述语音文本对应的文本口型波形；

记录所述人物声音播放的语音时间区段，根据所述语音时间区段和所述文本口型波形生成语音口型波形；

提取待矫正视频中的视频数据，获取所述视频数据中人物画面对应的画面口型波形；

比较所述语音口型波形和所述画面口型波形的相似性，根据比较结果矫正视频中语音和画面时序。

可选地，所述预先建立文本口型数据库的步骤包括：

检测人类朗读预设语言文本时，嘴唇张开值变化的波形曲线，并记录朗读预设语言文本的发音时间区段；

以所述嘴唇张开值大小为竖轴，以所述发音时间区段为横轴，生成预设语言文本的文本口型标准波形；

保存各所述文本口型标准波形，建立文本口型数据库。

可选地，所述提取待矫正视频中的音频数据，识别出所述音频数据中人物声音对应的语音文本的步骤包括：

当获取到视频播放指令时，将所述播放指令指定的视频标记为待矫正视频；

获取所述待矫正视频中的音频数据，根据预设人类声音频率提取出所述音频数据中的人物声音；

识别所述人物声音，将所述人物声音转化为对应的语音文本。

可选地，所述从预先建立的文本口型数据库中，获取所述语音文本对应的文本口型波形的步骤包括：

将所述语音文本划分为若干文本段，从所述文本口型数据库中逐一检索所述文本段对应的若干文本口型标准波形；

按照所述语音文本的连贯序列，将所述若干文本口型标准波形组合为当前语音文本对应的文本口型波形。

可选地，所述记录所述人物声音播放的语音时间区段，根据所述语音时间区段和所述文本口型波形生成语音口型波形的步骤包括：

记录所述音频数据中人物声音输出的语音时间区段；

将所述文本口型波形横轴发音时间区段同步至所述语音时间区段，以生成语音口型波形。

可选地，所述提取待矫正视频中的视频数据，获取所述视频数据中人物画面对应的画面口型波形的步骤包括：

当获取到视频播放指令时，获取所述待矫正视频中的视频数据；

检测到所述视频数据中输出人物画面时，记录所述人物画面中人物的嘴唇张开值变化的波形曲线；

记录所述人物画面连续输出的画面时间区段，以所述嘴唇张开值大小为竖轴，以所述画面时间区段为横轴，生成画面口型波形。

可选地，所述检测到所述视频数据中输出人物画面时，记录所述人物画面中人物的嘴唇张开值变化的波形曲线的步骤包括：

当检测到所述视频数据输出含有人物图像的画面时，提取所述人物图像的嘴唇中间部位；

记录所述视频数据中输出的连续人物画面中，所述嘴唇中间部位的张开值；

根据输出所述连续人物画面的先后顺序，将所述张开值连接成波形曲线。

可选地，所述比较所述语音口型波形和所述画面口型波形的相似性，根据比较结果矫正视频中语音和画面时序的步骤包括：

计算待矫正视频当前播放时间区段所述语音口型波形与所述画面口型波形的相似性差值；

当所述相似性差值超过预设相似性误差允许范围时，自动移动所述语音口型波形或者画面口型波形的语音时间区段或者画面时间区段；

当检测到移动后的最新相似性差值大于所述移动前的相似性差值时，反向移动所述语音时间区段或者画面时间区段。

此外，为实现上述目的，本发明还提供一种视频时序矫正终端，所述视频时序矫正终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频时序矫正程序，所述视频时序矫正程序被所述处理器执行时实现如上所述的视频时序矫正方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有视频时序矫正程序，所述视频时序矫正程序被处理器执行时实现如上所述的视频时序矫正方法的步骤。

本发明实施例提出的一种视频时序矫正方法、矫正终端及计算机可读存储介质，通过提取待矫正视频中的音频数据，识别出所述音频数据中人物声音对应的语音文本；从预先建立的文本口型数据库中，获取所述语音文本对应的文本口型波形；记录所述人物声音播放的语音时间区段，根据所述语音时间区段和所述文本口型波形生成语音口型波形；提取待矫正视频中的视频数据，获取所述视频数据中人物画面对应的画面口型波形；比较所述语音口型波形和所述画面口型波形的相似性，根据比较结果矫正视频中语音和画面时序。

通过识别视频文件中播放音频数据对应的文本，从预先录制的文本口型数据库中获取文本口型波形，并根据语音播放的速度调整文本口型波形得到语音口型波形，通过检测视频播放的连续含有人物画面中人物嘴唇部位张开值变化的波形曲线，根据画面播放的顺序和时间得出画面口型波形；当检测到语音口型波形和画面口型波形相似性差值大于允许范围时，自动移动音频数据或者视频数据的输出时间区段，实现了在播放视频时，自动检测音频和视频播放是否一致，并在检测到两者不一致时，自动矫正视频或者音频播放时序，提高音频和视频同步播放的矫正效率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的矫正终端结构示意图；

图2为本发明视频时序矫正方法第一实施例的流程示意图；

图3为图2中步骤S20的细化流程示意图；

图4为本发明实施例口型波形的示意图；

图5为本发明视频时序矫正方法第二实施例的流程示意图；

图6为本发明视频时序矫正方法第三实施例的步骤S40的细化流程示意图。

图7为本发明视频时序矫正方法第四实施例的步骤S50的细化流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：提取待矫正视频中的音频数据，识别出所述音频数据中人物声音对应的语音文本；从预先建立的文本口型数据库中，获取所述语音文本对应的文本口型波形；记录所述人物声音播放的语音时间区段，根据所述语音时间区段和所述文本口型波形生成语音口型波形；提取待矫正视频中的视频数据，获取所述视频数据中人物画面对应的画面口型波形；比较所述语音口型波形和所述画面口型波形的相似性，根据比较结果矫正视频中语音和画面时序。

由于现有技术中，通过矫正音视频帧的时间戳，或者在播放时，通过用户手动设置延时或者提前播放音频的方式来调节音频播放时间，但是当音视频帧的时间戳不正确时，便无法进行矫正；通过用户手动调节音频播放时间的效率低，矫正困难。

本发明提供一种解决方案，解决当视频中音视频帧的时间戳不正确时，便无法进行矫正视屏时序，通过用户手动调节音频播放时间效率低的技术问题；实现了在视频播放时，自动检测音频和视频播放是否一致，并在检测到不一致时，自动完成视频或者音频播放时序同步矫正，提高视频或者音频同步播放矫正效率。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的显示终端结构示意图。

本发明实施例显示终端可以是电视，也可以是PC、智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面3)播放器、便携计算机等具有显示功能的显示终端设备。

如图1所示，该显示终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的显示终端结构并不构成对显示终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及视频时序矫正程序。

在图1所示的显示终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的视频时序矫正程序，并执行以下操作：

进一步地，所述预先建立文本口型数据库的步骤包括：

保存各所述文本口型标准波形，建立文本口型数据库。

进一步地，所述提取待矫正视频中的音频数据，识别出所述音频数据中人物声音对应的语音文本的步骤包括：

进一步地，所述从预先建立的文本口型数据库中，获取所述语音文本对应的文本口型波形的步骤包括：

进一步地，所述记录所述人物声音播放的语音时间区段，根据所述语音时间区段和所述文本口型波形生成语音口型波形的步骤包括：

记录所述音频数据中人物声音输出的语音时间区段；

进一步地，所述提取待矫正视频中的视频数据，获取所述视频数据中人物画面对应的画面口型波形的步骤包括：

记录所述连续画面输出的画面时间区段，以所述嘴唇张开值大小为竖轴，以所述画面时间区段为横轴，生成画面口型波形。

进一步地，所述检测到所述视频数据中输出人物画面时，记录所述人物画面中人物的嘴唇张开值变化的波形曲线的步骤包括：

根据输出所述连续人物画面的先后顺序，将张开值连接成波形曲线。

进一步地，所述比较所述语音口型波形和所述画面口型波形的相似性，根据比较结果矫正视频中语音和画面时序的步骤包括：

基于上述硬件结构，提出本发明方法实施例。

参照图2，在本发明视频时序矫正方法第一实施例中，所述视频时序矫正方法包括：

步骤S10，提取待矫正视频中的音频数据，识别出所述音频数据中人物声音对应的语音文本；

在开始播放视频时，将所播放的视频标记为待矫正视频，获取待矫正视频中的音频数据，并将获取到的音频数据中人物说话的语音内容，转换为对应的语音文本。

具体地，例如，当检测到播放视频指令时，将播放视频指令指向的视频标记为待矫正视频，提取出待矫正视频中的音频数据；基于语音识别技术，识别出音频数据中人物声音对应的语音内容，将语音内容转换为对应的语音文本。

步骤S20，从预先建立的文本口型数据库中，获取所述语音文本对应的文本口型波形；

从预先创建的文本口型数据库中，根据从待矫正视频的音频数据中识别人物声音转换出的语音文本，检索出语音文本对应的文本口型波形。

具体地，例如，根据待矫正视频的音频数据中人物声音转换出的语音文本在文本口型数据库中，逐一检索语音文本的相同文本，并提取相同文本对应的文本口型标准波形，以获取语音文本的文本口型波形。

需要说明的是，上述文本口型数据库为预先通过记录人类朗读不同文本时，口型变化的标准波形，即以朗读文本时嘴唇张开值标准大小为竖轴，以朗读文本的标准时间长度为横轴构建的标准波形，建立的文本口型数据库；文本口型数据库包含有人类朗读不同语言文本对应的文本口型标准波形。

步骤S30，记录所述人物声音播放的语音时间区段，根据所述语音时间区段和所述文本口型波形生成语音口型波形；

将待矫正视频的音频数据中，播放人物声音的时间区段标记为语音时间区段，根据语音时间区段的长度，调整人物语音文本对应的文本口型波形，以生成音频数据中人物声音的语音口型波形。

具体地，例如，检测待矫正视频的音频数据中开始输出人物声音的时间点，和结束输出连续人物声音的时间点，记录输出连续人物声音的时间区段长度；根据时间区段的长度，调整在时间区段内输出的人物语音文本对应的文本口型波形的横轴长度，以生成音频数据中人物声音的语音口型波形。

步骤S40，提取待矫正视频中的视频数据，获取所述视频数据中人物画面对应的画面口型波形；

在开始播放待矫正视频时，获取待矫正视频中的视频数据，当视频数据中输出含有人物画面时，根据含有人物画面输出的先后顺序和含有人物画面输出的时间长度，记录人物画面中人物口型变化的波形曲线，并生成视频数据中人物画面对应的画面口型波形。

具体地，例如，当检测到播放视频指令时，提取出标记的待矫正视频中的视频频数据；当检测到视频数据中输出连续的含有人物画面时，基于面部特征检测技术，检测含有人物画面中人物嘴唇张开值大小随含有人物画面输出的先后顺序变化的波形曲线，并记录含有人物画面输出的时间区段长度，根据含有人物画面输出的时间区段长度，生成当前连续人物画面中人物的口型变化对应的画面口型波形，即以含有人物画面中人物嘴唇张开值为竖轴，以含有人物画面连续输出的时间区段长度为横轴，生成连续输出的含有人物画面的画面口型波形。

步骤S50，比较所述语音口型波形和所述画面口型波形的相似性，根据比较结果矫正视频中语音和画面时序；

计算待矫正视频播放当前时间区段内人物语音文本的语音口型波形和人物画面的画面口型波形的相似性差值，当语音口型波形和画面口型波形的相似性差值超过预定误差允许范围时，则调整语音口型波形或者调整画面口型波形，以矫正视频中语音和画面的播放时序。

具体地，例如，计算待矫正视频当前播放时间区段对应的音频数据中输出的语音文本对应语音口型波形，和视频数据中输出的含有人物画面对应画面口型波形的相似性差值；将语音口型波形定义为SA，语音口型波形可以表示为SAt＝sa(t)，将画面口型波形定义为SV，画面口型波形可以表示为SVt＝sv(t)，则待矫正视频当前播放时间区段T内，SA与SV的相似性采用以下公式计算：

其中，m-i＝n-k＝T，开始比较时，使i＝j,m＝n；

当D为0时，表示语音口型波形和画面口型波形完全相同，此时的ta起始值Ti所对应的音频帧，和tv起始值tj对应的视频帧为完全匹配的位置，即人物语音和视频画面时序一致，不需要矫正；当D超过误差允许范围时，在视频播放时间轴上左右移动音频数据的播放时间，例如，使公式中sa(ta)从Ti开始到Tm不变的情况下，向右移动视频口型波形，使sv(tv)从Tj+1开始到Tn+1，直到D在误差允许范围内或者为0，则完成视频播放的语音和画面时序矫正。

需要说明的是，上述误差允许范围为基于检测结果与标准值之间的误差预先设定的误差允许范围。

在本实施例中，通过提取待矫正视频中的音频数据，识别出所述音频数据中人物声音对应的语音文本；从预先建立的文本口型数据库中，获取所述语音文本对应的文本口型波形；记录所述人物声音播放的语音时间区段，根据所述语音时间区段和所述文本口型波形生成语音口型波形；提取待矫正视频中的视频数据，获取所述视频数据中人物画面对应的画面口型波形；比较所述语音口型波形和所述画面口型波形的相似性，根据比较结果矫正视频中语音和画面时序。通过识别视频文件中播放音频数据对应的文本，从预先录制的文本口型数据库中获取文本口型波形，并根据语音播放的速度调整文本口型波形得到语音口型波形，通过检测视频播放的连续画面中人物嘴唇部位张开值变化的波形曲线，根据画面播放的顺序和时间得出画面口型波形；当检测到语音口型波形和画面口型波形相似性差值大于误差允许范围时，无论音视频帧时间戳是否正确，自动移动音频数据或者视频数据的输出时间区段，实现了在视频播放时，自动检测音频或者视频播放是否一致，并在检测到不一致时，自动移动音频数据或者视频数据的输出时间区段，以完成视频或者音频播放时序同步矫正，提高了视频或者音频同步播放矫正效率。

进一步地，参照图3，步骤S20所述预先建立文本口型数据库的步骤包括：

步骤S21，检测人类朗读预设语言文本时，嘴唇张开值变化的波形曲线，并记录朗读预设语言文本的发音时间区段；

在人类朗诵不同语言文本时，检测上下嘴唇之间的距离随朗读语言文本的过程变化的标准波形曲线，并记录人类开始朗读语言文本到朗读语言文本完毕时的发音时间区段长度。

具体地，例如，基于人脸面部特征检测技术，检测人类朗读语言文本时，上下嘴唇的中间部位两个检测点之间的距离随朗读语言文本过程变化的波形曲线，以“mm”为单位，检测到人类朗读语言文本“口型”时，上下嘴唇的中间部位两个检测点之间的距离变化为：0-3.0-3.7-4.3-4.6-4.8-5.1-5.4-5.7-4.9-4.0-4.9-6.2-5.7-4.6-4.0-3.7-3.5-2.3-1.6-0；则按照朗读过程连接距离值形成距离变化的标准波形曲线，并以“ms”为单位，记录人类从开始朗读语言文本“口型”到朗读完毕的标准时间长度为800ms。

需要说明的是，上述数值均为多次实验数值的平均数值。

步骤S22，以所述嘴唇张开值大小为竖轴，以所述发音时间区段为横轴，生成预设语言文本的文本口型标准波形；

将人类朗读语言文本时，上下嘴唇之间的距离值作为竖轴，开始朗读语言文本到朗读语言文本完毕时的发音时间区段长度为横轴，构建语言文本的文本口型标准波形。

具体地，例如图4所示，将人类朗读语言文本“口型”时，上下嘴唇的中间部位两个检测点之间的标准距离值作为竖轴，将人类从开始朗读语言文本“口型”到朗读完毕的标准时间800ms时间区段长度作为横轴，将朗读语言文本“口型”的变化过程：0-3.0-3.7-4.3-4.6-4.8-5.1-5.4-5.7-4.9-4.0-4.9-6.2-5.7-4.6-4.0-3.7-3.5-2.3-1.6-0构建成如图4所示的文本口型标准波形。

步骤S23，保存各所述文本口型标准波形，建立文本口型数据库；

逐一记录并保存不同语言的全部语言文本对应的文本口型标准波形，建立文本口型数据库。

在本实施例中，通过检测人类朗读预设语言文本时，嘴唇张开值变化的波形曲线，并记录朗读预设语言文本的发音时间区段；以所述嘴唇张开值大小为竖轴，以所述发音时间区段为横轴，生成预设语言文本的文本口型标准波形；保存各所述文本口型标准波形，建立文本口型数据库。基于面部特征检测技术，检测人类朗读不同语言的文本时，嘴唇张开值的变化波形曲线，即上下嘴唇之间的距离值随朗读发音过程变化的波形曲线，并以上下嘴唇距离值为竖轴，朗读发音时间区段长度为横轴，创建语言文本的文本口型标准波形，记录保存各文本口型标准波形，以创建文本口型数据库，实现了将各语音文本转化为对应的文本口型波形，并逐一记录建立数据库，便于音频数据中的人物语音文本通检索数据库得到对应的文本口型波形。

参照图5，在本发明视频时序矫正方法第二实施例中，基于上述图2所示的实施例，所述提取待矫正视频中的音频数据，识别出所述音频数据中人物声音对应的语音文本；所述从预先建立的文本口型数据库中，获取所述语音文本对应的文本口型波形；和所述记录所述人物声音播放的语音时间区段，根据所述语音时间区段和所述文本口型波形生成语音口型波形的步骤包括：

步骤Y1，当获取到视频播放指令时，将所述播放指令指定的视频标记为待矫正视频；

当检测到用户通过触发的视频播放指令时，检测视频播放指令指定的视频，并将指令指定的视频标记为待矫正视频。

具体地，例如，当检测到用户通过点击操作触发的视频播放指令时，检测播放指令指向的视频文件，赋予指定的视频“待矫正”标记，将所播放视频标记为待矫正视频。

步骤Y2，获取所述待矫正视频中的音频数据，根据预设人类声音频率提取出所述音频数据中的人物声音；

从待矫正视频中提取出视频的音频数据，根据人类声音的频率特点，采用滤波的方式，过滤掉音频数据中的其他声音，从而从音频数据中提取出人物声音。

具体地，例如，人类发出的声音频率范围为80Hz～3400Hz，则从待矫正视频中提取出视频的音频数据中，过滤掉频率低于80Hz和高于3400Hz的其他声音，提取出声音频率在80Hz～3400Hz范围内人物声音。

步骤Y3，识别所述人物声音，将所述人物声音转化为对应的语音文本；

基于语音识别技术，识别音频数据中人物说话声音对应的语音内容，将人物语音内容转换为对应的语音文本。

步骤Y4，将所述语音文本划分为若干文本段，从所述文本口型数据库中逐一检索所述文本段对应的若干文本口型标准波形；

将基于语音识别技术得到的音频数据中人物声音的语音文本，按照所属语言种类划分为独立的文本段，根据独立的文本段从文本口型数据库中检索出与独立文本段相同文本的文本口型标准波形。

具体地，例如，通过语音识别技术，识别音频数据中的人物声音并转换得到的人物语音文本为“讲话时口型会发生变化”，判断语音文本“讲话时口型会发生变化”所属语言种类为“中文”，则按照中文的语言特性，可以将语音文本“讲话时口型会发生变化”划分为独立文本段：“讲话时”、“口型”、“会”、“发生”和“变化”；在预先建立的文本口型数据库中的中文语言文本区域内，逐一检索独立文本段：“讲话时”、“口型”、“会”、“发生”和“变化”对应的文本口型标准波形。

步骤Y5；按照所述语音文本的连贯序列，将所述若干文本口型标准波形组合为当前语音文本对应的文本口型波形；

根据通过语音识别技术识别音频数据中的人物声音得到的人物语音文本的原文本连贯序列，将从文本口型数据库中检索得出的各独立文本段对应的文本口型标准波形，按照原文本连贯序列组合形成语音文本的文本口型波形。

具体地，例如，从文本口型数据库中中，逐一检索独立文本段：“讲话时”、“口型”、“会”、“发生”和“变化”得到的对应文本口型标准波形，按照通过语音识别技术识别音频数据中的人物声音得到的人物语音文本的原文本连贯序列“讲话时口型会发生变化”，将各独立文本段对应的文本口型标准波形前后组合，形成语音文本“讲话时口型会发生变化”对应的文本口型波形。

步骤Y6，记录所述音频数据中人物声音输出的语音时间区段；

将待矫正视频的音频数据中，输出人物声音的时间区段标记为语音时间区段，并记录语音时间区段的长度。

具体地，例如，检测音频数据中开始输出人物声音的时间点，和结束输出当前连续人物声音的时间点，记录输出连续人物声音的时间区段长度。

步骤Y7，将所述文本口型波形横轴发音时间区段同步至所述语音时间区段，生成语音口型波形。

根据语音时间区段的长度，调整人物语音文本对应的文本口型波形横轴的发音时间区段，生成音频数据中人物声音的语音口型波形。

具体地，例如，将在语音时间区段内输出的人物语音文本对应的文本口型波形的横轴发音时间区段，收缩或者延长至音频数据中输出人物声音的语音时间区段长度，以生成音频数据中人物声音的语音口型波形。

在本实施例中，通过当获取到视频播放指令时，将所述播放指令指定的视频标记为待矫正视频；获取所述待矫正视频中的音频数据，根据预设人类声音频率提取出所述音频数据中的人物声音；识别所述人物声音，将所述人物声音转化为对应的语音文本；将所述语音文本划分为若干文本段，从所述文本口型数据库中逐一检索所述文本段对应的若干文本口型标准波形；按照所述语音文本的连贯序列，将所述若干文本口型标准波形组合为当前语音文本对应的文本口型波形；记录所述音频数据中人物声音输出的语音时间区段；将所述文本口型波形横轴发音时间区段同步至所述语音时间区段，生成语音口型波形。

实现了在检测到播放视频指令时，将播放视频指令指向的视频标记为待矫正视频，并提取出待矫正视频中的音频数据，基于语音识别技术，识别出音频数据中人物说话声音对应的语音内容，将语音内容转换为对应的语音文本，从预先创建的文本口型数据库中，根据语音文本原有的连贯序列，检索出语音文本对应的文本口型波形，将待矫正视频的音频数据中，输出人物声音的时间区段标记为语音时间区段，将人物语音文本对应的文本口型波形的横轴发音时间区段长度调整为语音时间区段的长度，从而生成音频数据中人物声音的语音口型波形，便于语音口型波形与视频数据中画面口型波形的相似性比较，以提高视频语音和画面时序的矫正效率。

参照图6，在本发明视频时序矫正方法第三实施例中，基于上述图2所示的实施例，所述提取待矫正视频中的视频数据，获取所述视频数据中人物画面对应的画面口型波形的步骤包括：

步骤S41，当获取到视频播放指令时，获取所述待矫正视频中的视频数据；

当检测到用户触发的播放视频指令时，从标记的待矫正视频中提取出视频数据；

具体地，例如，当检测到用户通过点击操作触发的视频播放指令时，从含有“待矫正”标记的视频中提取出视频数据。

步骤S42，检测到所述视频数据中输出人物画面时，记录所述人物画面中人物的嘴唇张开值变化的波形曲线；

当检测到待矫正视频的视频数据中输出连续含有人物画面时，记录人物画面中人物口型，随含有人物画面连续输出的先后顺序变化的波形曲线。

具体地，例如，当检测到视频数据中连续输出含有人物的画面时，基于面部特征检测技术，检测含有人物画面中随人物画面连续输出的先后顺序，人物嘴唇张开值变化的波形曲线。

进一步地，步骤S42，检测到所述视频数据中输出人物画面时，记录所述人物画面中人物的嘴唇张开值变化的波形曲线的步骤包括：

步骤a，当检测到所述视频数据输出含有人物图像的画面时，提取所述人物图像的嘴唇中间部位；

基于面部特征检测技术，在检测到视频数据中开始输出含有人物画面时，检测人物画面中的人物嘴部特征，并锁定上下嘴唇中间部位。

步骤b，记录所述视频数据中输出的连续人物画面中，所述嘴唇中间部位的张开值；

当输出的含有人物画面时，检测人物上下嘴唇中间两个检测点之间的距离，记录连续输出的含有人物画面中，人物上下嘴唇中间两个检测点之间的距离值。

在另一个实施例中，步骤b还包括：

当输出的含有人物画面时，检测人物上下嘴唇的多个对应的监测点之间的平均距离值，并记录连续输出的含有人物画面中，人物上下嘴唇的多个检测点之间的平均距离值。

步骤c，根据输出所述连续人物画面的先后顺序，将张开值连接成波形曲线；

按照视频数据中输出连续含有人物画面的先后顺序，将含有人物画面中，人物上下嘴唇中间两个检测点之间的距离值前后连接形成距离变化的标准波形曲线。

具体地，例如，基于面部特征检测技术，检测到视频数据中输出连续的含有人物画面时，检测到含有人物画面中人物上下嘴唇中间部位两个监测点之间距离值，随含有人物画面输出的先后顺序的变化过程为：0-3.0-3.7-4.3-4.6-4.8-5.1-5.4-5.7-4.9-4.0-4.9-6.2-5.7-4.6-4.0-3.7-3.5-2.3-1.6-0，则按照含有人物画面输出的先后顺序前后连接各个距离值形成波形曲线。

需要说明的是，上述数值均为多次实验值的平均数值。

步骤S43，记录所述人物画面连续输出的画面时间区段，以所述嘴唇张开值大小为竖轴，以所述画面时间区段为横轴，生成画面口型波形；

记录视频数据中连续输出含有人物画面的时间区段长度，以人物嘴唇张开值为竖轴，含有人物画面连续输出的时间区段长度为横轴，记录连续输出的含有人物画面的画面口型波形。

具体地，例如，当检测到开始输出含有人物画面的视频帧时，开始计时，直到当前含有人物画面的视频帧连续输出完毕时，结束计时，以获得视频数据中连续输出含有人物画面的时间区段长度，例如获得视频数据中连续输出含有人物画面的时间区段长度为800ms，则以检测到的含有人物画面中人物上下嘴唇中间部位两个监测点之间距离值作为竖轴，连续输出含有人物画面的800ms时间区段长度作为横轴，将连续输出的含有人物画面的人物上下嘴唇中间部位距离值变化过程：0-3.0-3.7-4.3-4.6-4.8-5.1-5.4-5.7-4.9-4.0-4.9-6.2-5.7-4.6-4.0-3.7-3.5-2.3-1.6-0构建成当前连续输出人物画面的画面口型波形。

在本实施例中，通过当获取到视频播放指令时，获取所述待矫正视频中的视频数据；检测到所述视频数据中输出人物画面时，记录所述人物画面中人物的嘴唇张开值变化的波形曲线；记录所述连续画面输出的画面时间区段，以所述嘴唇张开值大小为竖轴，以所述画面时间区段为横轴，生成画面口型波形。实现了在开始播放待矫正视频时，获取待矫正视频中的视频数据，当视频数据中输出含有人物的画面时，根据含有人物画面输出的先后顺序和含有人物画面输出的时间长度，记录人物画面中人物口型变化的波形曲线，从而生成视频数据中人物画面对应的画面口型波形，便于语音口型波形与画面口型波形的相似性比较，提高了视频语音和画面时序的矫正效率。

参照图7，在本发明视频时序矫正方法第四实施例中，基于上述图2所述的实施例，所述比较所述语音口型波形和所述画面口型波形的相似性，根据比较结果矫正视频中语音和画面时序步骤包括：

步骤S51，计算待矫正视频当前播放时间区段所述语音口型波形与所述画面口型波形的相似性差值；

计算待矫正视频播放当前时间区段内人物语音文本的语音口型波形和人物画面的画面口型波形的相似性差值。

具体地，例如，将记录音频数据中输出连续人物语音时间区段对应的语音口型波形，和记录视频数据中输出连续含有人物画面的时间区段对应的画面口型波形进行波形相似性差值计算，可以将语音口型波形定义为SA，语音口型波形可以表示为SAt＝sa(t)，将画面口型波形定义为SV，画面口型波形可以表示为SVt＝sv(t)，则相同时间区段T内，SA与SV的相似性采用以下公式计算：

其中，m-i＝n-k＝T，开始比较时，使i＝j,m＝n。

步骤S52，当所述相似性差值超过预设相似性误差允许范围时，自动移动所述语音口型波形或者画面口型波形的语音时间区段或者画面时间区段；

当语音口型波形和画面口型波形的相似性差值超过预定误差允许范围时，则自动移动语音口型波形的横轴语音时间区段或者移动画面口型波形的横轴画面时间区段。

具体地，例如，当通过上述公式计算得出的D超过误差允许范围时，在视频播放时间轴上左右移动语音口型波形横轴的语音时间区段，例如，使公式中sa(ta)从Ti开始到Tm不变的情况下，向右移动视频口型波形，使sv(tv)从Tj+1开始到Tn+1，从而移动音频数据的播放时间，当检测到D在误差允许范围内或者为0时，此时的ta起始值Ti所对应的音频帧，和tv起始值tj对应的视频帧为完全匹配的位置，即语音口型波形和画面口型波形相同，则停止移动语音口型波形横轴的语音时间区段。

步骤S53，当检测到移动后的最新相似性差值大于所述移动前的相似性差值时，反向移动所述语音时间区段或者画面时间区段；

在移动语音口型波形的横轴语音时间区段或者移动画面口型波形的横轴画面时间区段后，通过计算得到的语音口型波形和画面口型波形的相似性最新差值大于移动前的相似性差值时，反向移动语音口型波形的横轴语音时间区段或者移动画面口型波形的横轴画面时间区段。

具体的，例如，当检测到在向左移动语音口型波形横轴的语音时间区段后，通过上述公式计算得到的最新D值大于移动前计算得出的D值时，反向向右移动语音口型波形横轴的语音时间区段，直到检测到D在误差允许范围内或者为0时，停止移动语音口型波形横轴的语音时间区段。

在本实施例中，通过计算待矫正视频当前播放时间区段所述语音口型波形与所述画面口型波形的相似性差值；当所述相似性差值超过预设相似性误差允许范围时，自动移动所述语音口型波形或者画面口型波形的语音时间区段或者画面时间区段；当检测到移动后的最新相似性差值大于所述移动前的相似性差值时，反向移动所述语音时间区段或者画面时间区段。实现了计算视频播放当前时间区段内人物语音文本的语音口型波形和人物画面的画面口型波形的相似性差值，当语音口型波形和画面口型波形的相似性差值超过预定误差允许范围时，自动移动语音口型波形或者调整画面口型波形的输出时间区段，从而调整音频或者视频的输出时间，以矫正视频或者音频播放时序，并且不基于音视频帧时间戳，自动完成视频播放时序一致性检测，并在检测到时序不一致时，自动完成视频播放时序矫正，提高了视频或者音频同步播放矫正效率。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有视频时序矫正程序，所述视频时序矫正程序被处理器执行时实现如上所述的视频时序矫正方法的步骤。

本发明计算机可读存储介质具体实施方式可以参照上述视频时序矫正方法各实施例，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台显示终端设备(可以是电视，手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种视频时序矫正方法，其特征在于，所述视频播放自动矫正方法包括：

提取所述待矫正视频中的视频数据，获取所述视频数据中人物画面对应的画面口型波形；

2.如权利要求1所述的视频时序矫正方法，其特征在于，所述预先建立文本口型数据库的步骤包括：

保存各所述文本口型标准波形，建立文本口型数据库。

3.如权利要求1所述的视频时序矫正方法，其特征在于，所述提取待矫正视频中的音频数据，识别出所述音频数据中人物声音对应的语音文本的步骤包括：

4.如权利要求2或3所述的视频时序矫正方法，其特征在于，所述从预先建立的文本口型数据库中，获取所述语音文本对应的文本口型波形的步骤包括：

5.如权利要求4所述的视频时序矫正方法，其特征在于，所述记录所述人物声音播放的语音时间区段，根据所述语音时间区段和所述文本口型波形生成语音口型波形的步骤包括：

记录所述音频数据中人物声音输出的语音时间区段；

将所述文本口型波形横轴发音时间区段同步至所述语音时间区段，生成语音口型波形。

6.如权利要求1所述的视频时序矫正方法，其特征在于，所述提取待矫正视频中的视频数据，获取所述视频数据中人物画面对应的画面口型波形的步骤包括：

7.如权利要求6所述的视频时序矫正方法，其特征在于，所述检测到所述视频数据中输出人物画面时，记录所述人物画面中人物的嘴唇张开值变化的波形曲线的步骤包括：

8.如权利要求1所述的视频时序矫正方法，其特征在于，所述比较所述语音口型波形和所述画面口型波形的相似性，根据比较结果矫正视频中语音和画面时序的步骤包括：

9.一种视频时序矫正终端，所述视频时序矫正终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频时序矫正程序，所述视频时序矫正程序被所述处理器执行时实现如权利要求1至8中任一项所述的视频时序矫正方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有视频时序矫正程序，所述视频时序矫正程序被处理器执行时实现如权利要求1至8中任一项所述的视频时序矫正方法的步骤。