CN105100647A

CN105100647A - 一种校正字幕的方法及终端

Info

Publication number: CN105100647A
Application number: CN201510463923.5A
Authority: CN
Inventors: 钟香玲; 黄金武; 李秀莉
Original assignee: Shenzhen Jinli Communication Equipment Co Ltd
Current assignee: Shenzhen Jinli Communication Equipment Co Ltd
Priority date: 2015-07-31
Filing date: 2015-07-31
Publication date: 2015-11-25

Abstract

本发明实施例公开了一种校正字幕的方法，包括：获取目标视频所包含的视频画面，其中所述视频画面中包含人脸图像；对所述人脸图像进行嘴唇特征识别，确定所述嘴唇特征对应的说话内容；查找所述说话内容对应的目标字幕；确定所述说话内容在所述目标视频中的目标时间；根据所述目标时间，调整所述目标字幕的时间。采用本发明，可自动调整目标字幕的时间，提高字幕和视频时间的一致性。

Description

一种校正字幕的方法及终端

技术领域

本发明涉及电子技术领域，尤其涉及一种校正字幕的方法及终端。

背景技术

随着终端的使用日益广泛，用户可以利用终端实现各种功能，例如利用终端观看视频，为了让用户更加确切地知道视频中人物的说话内容，通常会在视频中配备字幕，但是字幕的时间与用户说话的时间往往不一致，例如，视频画面已经显示到下一条字幕了，但是用户还在说上一条字幕的内容，这样造成说话内容与字幕内容错乱，用户体验差。

发明内容

本发明实施例提供一种校正字幕的方法，可自动调整目标字幕的时间，提高字幕和视频时间的一致性。

本发明实施例提供了一种校正字幕的方法，其可包括：

获取目标视频所包含的视频画面，其中所述视频画面中包含人脸图像；

对所述人脸图像进行嘴唇特征识别，确定所述嘴唇特征对应的说话内容；

查找所述说话内容对应的目标字幕；

确定所述说话内容在所述目标视频中的目标时间；

根据所述目标时间，调整所述目标字幕的时间。

本发明实施例提供了一种终端，其可包括：

获取单元，用于获取目标视频所包含的视频画面，其中所述视频画面中包含人脸图像；

识别单元，用于对所述人脸图像进行嘴唇特征识别，确定所述嘴唇特征对应的说话内容；

查找单元，用于查找所述说话内容对应的目标字幕；

第一确定单元，用于确定所述说话内容在所述目标视频中的目标时间；

第一调整单元，用于根据所述目标时间，调整所述目标字幕的时间。

本发明实施例，获取目标视频所包含的视频画面，该视频画面中包含人脸图像，对人脸图像进行嘴唇特征识别，并确定嘴唇特征对应的说话内容，查找与说话内容对应的目标字幕，确定说话内容在目标视频中的目标时间，根据目标时间，调整目标字幕的时间，可自动调整目标字幕的时间，提高字幕和视频时间的一致性。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的校正字幕方法的第一实施例流程示意图；

图2是本发明实施例提供的校正字幕方法的第二实施例流程示意图；

图3是本发明实施例提供的终端的第一实施例结构示意图；

图4是本发明实施例提供的第一调整单元的结构示意图；

图5是本发明实施例提供的识别单元的结构示意图；

图6是本发明实施例提供的终端的第二实施例结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

具体实现中，本发明实施例中描述的终端可包括：手机、平板电脑或者MP4等，上述终端仅是举例，而非穷举，包含但不限于上述终端。

下面将结合图1至图6对本发明实施例提供的校正字幕的方法及终端进行具体描述。

请参照图1，是本发明实施例提供的校正字幕的方法的第一实施例流程示意图。本实施例中所描述的校正字幕的方法，包括步骤：

S100，获取目标视频所包含的视频画面，其中所述视频画面中包含人脸图像；

具体实施例中，目标视频为待播放的且具有字幕的视频文件，目标视频中包含多帧视频画面，多帧视频画面通过帧间隔进行播放形成目标视频，每一帧视频画面中包括一种视频场景，通常相邻帧的视频画面之间的视频场景相差很小，在视频画面的视频场景中可能包含人脸图像，人脸图像即是具体包含人脸识别信息的图像。

本发明实施例中通过人脸识别技术获取包含人脸图像的视频画面。人脸识别技术即是通过图片获取人脸识别信息的方法，可选的，获取人脸识别信息的方法可以包括基于人脸特征点的识别算法、基于模板的识别算法和利用神经网络进行识别的算法中的一种或多种，人脸识别信息可以包括五官特征信息、面部曲线信息等。

本发明实施例中，获取目标视频所包含的视频画面时，可以是视频解码单元实时对目标视频进行解码形成目标视频流，并根据对目标视频中的内容描述信息获取目标视频流中的视频画面，其中内容描述信息包括但不限于目标视频中视频画面的帧数以及帧间隔。

S101，对所述人脸图像进行嘴唇特征识别，确定所述嘴唇特征对应的说话内容；

具体实施例中，视频画面中包含人脸图像，通过对图像进行解析，提取图像中的人脸特征，其中人脸特征中包含嘴唇特征。将视频画面中的嘴唇特征和数据库中存储的特征进行比对，其中数据库中包含了各个发音对应的嘴型特征，通过匹配确定人脸图像中的嘴唇特征对应的说话内容，即是视频画面中该人脸对应的人物所说的说话内容。说话内容可以是一句话，也可以是几个字，具体的存在形式不作限定。

可选的，对人脸图像进行嘴唇特征识别时，定位人脸图像中的嘴唇区域，可以利用肤色模型和人脸的几何特征检测人脸并采用多级结构的算法检测嘴唇，对嘴唇轮廓进行提取，并对嘴唇进行唇动跟踪，根据嘴唇特征中的口型特征进行唇语识别，从而确定嘴唇特征对应的说话内容。

可选的，对视频画面进行嘴唇特征识别的识别方式可以是，通过预设口型库进行匹配识别，将预设口型库中与视频画面的嘴唇特征匹配嘴唇特征所对应的说话内容确定为视频画面的嘴唇特征所对应的说话内容。

S102，查找所述说话内容对应的目标字幕；

具体实施例中，目标视频中本身配备了字幕，当确定了嘴唇特征对应的说话内容后，可以生成与说话内容对应的文字或者语音，将生成的文字或者语音与目标视频中的字幕或者该字幕对应的语音进行比对，从而从目标视频中查找与说话内容对应的目标字幕，需要说明的是，在进行比对时，需要文字与文字比对，语音与语音比对。在进行比对时，若说话内容对应的文字与目标视频中某一段字幕之间相似度大于或者等于预设阈值，或者说话内容对应的语音与目标视频中某一段字幕对应的语音之间相似度大于或者等于预设阈值，则将该段字幕作为与说话内容对应的目标字幕，预设阈值可以根据经验所确定，例如，可以是90％。

S103，确定所述说话内容在所述目标视频中的目标时间；

具体实施例中，在确定目标视频中嘴唇特征对应的说话内容后，需要进一步确定说话内容在目标视频中的目标时间，目标时间即是说话内容在目标视频整个播放时间长度中的时间点，具体的确定方式可以是根据该嘴唇特征所在视频画面的时间所确定，视频画面的时间即是该视频画面在目标视频中的播放时间，例如某一个视频画面在目标视频中的播放时间为九分四十三秒，则该视频画面中嘴唇特征对应的说话内容在目标视频中的目标时间为九分四十三秒。

S104，根据所述目标时间，调整所述目标字幕的时间。

具体实施例中，根据说话内容在目标视频中的目标时间，调整目标视频中目标字幕的时间，目标字幕的时间即是目标字幕在目标视频中的显示时间，调整目标字幕的时间后，即可实现嘴唇特征与字幕之间时间上的对应，不会给观看者造成混乱的感觉。

可选的，根据目标时间调整目标字幕的时间的调整方式可以有以下两种可选的实施方式：

在第一种可选的实施方式中，调整步骤可以包括以下步骤S10-S11；

S10，判断所述目标时间是否与所述目标字幕的时间一致；

具体实施例中，根据说话内容在目标视频中的目标时间调整目标字幕的时间时，首先判断目标时间是否与目标字幕的时间一致，目标字幕的时间即是目标字幕在目标视频中的时间。

S11，若不一致，则将所述目标字幕的时间与所述目标时间调整为一致。

具体实施例中，若说话内容的目标时间与目标字幕的时间不一致，则需要将目标字幕的时间与目标时间调整为一致，具体的调整方式可以是将目标字幕前移或者后移。例如说话内容的目标时间为九分四十三秒，目标字幕的时间为九分四十四秒，则需要将目标字幕前移一秒，以实现目标字幕的时间与说话内容的目标时间一致。

在第二种可选的实施方式中，调整步骤可以包括以下步骤S12；

S12，将所述目标时间设定为所述目标字幕的时间。

具体实施例中，在根据目标时间调整目标字幕的时间时，将所确定的说话内容的目标时间直接确定为目标字幕的时间，例如，目标时间在目标视频中为九分四十秒，则直接将九分四十秒设定为与说话内容对应的目标字幕的时间。

请参照图2，是本发明实施例提供的校正字幕的方法的第二实施例流程示意图。本实施例中所描述的校正字幕的方法，包括步骤：

S200，获取目标视频所包含的视频画面，其中所述视频画面中包含人脸特征；

本发明实施例步骤S200，请参照图1的实施例步骤S100，在此不再赘述。

S201，将所述视频画面中的目标嘴唇特征与预设口型库中的嘴唇特征进行匹配；

具体实施例中，视频画面中包含人脸特征，进一步对视频画面中人脸的目标嘴唇特征与预设口型库中的嘴唇特征进行匹配，具体的匹配方式可以是将目标嘴唇特征的嘴型与预设口型库中的嘴型进行匹配。需要说明的是，预设口型库中包括多种嘴唇特征以及与各种嘴唇特征对应的说话内容。

S202，将所述预设口型库中与所述目标嘴唇特征匹配的嘴唇特征所对应的说话内容确定为所述目标嘴唇特征对应的说话内容。

具体实施例中，将预设口型库中与目标嘴唇特征匹配的嘴唇特征所对应的说话内容确定为目标嘴唇特征对应的说话内容，通过嘴唇特征的匹配可以预测视频画面中人物的说话内容。

S203，查找所述说话内容对应的目标字幕；

S204，确定所述说话内容在所述目标视频中的目标时间；

S205，根据所述目标时间，调整所述目标字幕的时间。

本发明实施例步骤S203-S205请参照图1的实施例步骤S102-S104，在此不再赘述。

请参照图3，为本发明实施例提供的终端的第一实施例结构示意图。本发明实施例的终端包括：

获取单元100，用于获取目标视频所包含的视频画面，其中所述视频画面中包含人脸图像；

识别单元101，用于对所述人脸图像进行嘴唇特征识别，确定所述嘴唇特征对应的说话内容；

具体实施例中，视频画面中包含人脸图像，识别单元101通过对图像进行解析，提取图像中的人脸特征，其中人脸特征中包含嘴唇特征。将视频画面中的嘴唇特征和数据库中存储的特征进行比对，其中数据库中包含了各个发音对应的嘴型特征，通过匹配确定人脸图像中的嘴唇特征对应的说话内容，即是视频画面中该人脸对应的人物所说的说话内容。说话内容可以是一句话，也可以是几个字，具体的存在形式不作限定。

可选的，如图5所示，识别单元101可以包括匹配单元1010和第二确定单元1011；

匹配单元1010，用于将所述视频画面中的目标嘴唇特征与预设口型库中的嘴唇特征进行匹配；

具体实施例中，视频画面中包含人脸特征，进一步匹配单元1010对视频画面中人脸的目标嘴唇特征与预设口型库中的嘴唇特征进行匹配，具体的匹配方式可以是将目标嘴唇特征的嘴型与预设口型库中的嘴型进行匹配。需要说明的是，预设口型库中包括多种嘴唇特征以及与各种嘴唇特征对应的说话内容。

第二确定单元1011，用于将所述预设口型库中与所述目标嘴唇特征匹配的嘴唇特征所对应的说话内容确定为所述目标嘴唇特征对应的说话内容。

具体实施例中，第二确定单元1011将预设口型库中与目标嘴唇特征匹配的嘴唇特征所对应的说话内容确定为目标嘴唇特征对应的说话内容，通过嘴唇特征的匹配可以预测视频画面中人物的说话内容。

查找单元102，用于查找所述说话内容对应的目标字幕；

具体实施例中，目标视频中本身配备了字幕，当确定了嘴唇特征对应的说话内容后，可以生成与说话内容对应的文字或者语音，查找单元102将生成的文字或者语音与目标视频中的字幕或者该字幕对应的语音进行比对，从而从目标视频中查找与说话内容对应的目标字幕，需要说明的是，在进行比对时，需要文字与文字比对，语音与语音比对。在进行比对时，若说话内容对应的文字与目标视频中某一段字幕之间相似度大于或者等于预设阈值，或者说话内容对应的语音与目标视频中某一段字幕对应的语音之间相似度大于或者等于预设阈值，则将该段字幕作为与说话内容对应的目标字幕，预设阈值可以根据经验所确定，例如，可以是90％。

第一确定单元103，用于确定所述说话内容在所述目标视频中的目标时间；

具体实施例中，在确定目标视频中嘴唇特征对应的说话内容后，第一确定单元103需要进一步确定说话内容在目标视频中的目标时间，目标时间即是说话内容在目标视频整个播放时间长度中的时间点，具体的确定方式可以是根据该嘴唇特征所在视频画面的时间所确定，视频画面的时间即是该视频画面在目标视频中的播放时间，例如某一个视频画面在目标视频中的播放时间为九分四十三秒，则该视频画面中嘴唇特征对应的说话内容在目标视频中的目标时间为九分四十三秒。

第一调整单元104，用于根据所述目标时间，调整所述目标字幕的时间。

具体实施例中，第一调整单元104根据说话内容在目标视频中的目标时间，调整目标视频中目标字幕的时间，目标字幕的时间即是目标字幕在目标视频中的显示时间，调整目标字幕的时间后，即可实现嘴唇特征与字幕之间时间上的对应，不会给观看者造成混乱的感觉。

可选的，第一调整单元104可以有以下两种可选的实施方式；

在第一种可选的实施方式中，如图4所示，第一调整单元104包括判断单元1040和第二调整单元1041；

判断单元1040，用于判断所述目标时间是否与所述目标字幕的时间一致；

具体实施例中，根据说话内容在目标视频中的目标时间调整目标字幕的时间时，判断单元1040首先判断目标时间是否与目标字幕的时间一致，目标字幕的时间即是目标字幕在目标视频中的时间。

第二调整单元1041，用于若所述目标时间与所述目标字幕的时间不一致，则将所述目标字幕的时间与所述目标时间调整为一致。

具体实施例中，若说话内容的目标时间与目标字幕的时间不一致，则需要将目标字幕的时间与目标时间调整为一致，具体的调整方式可以是第二调整单元1041将目标字幕前移或者后移。例如说话内容的目标时间为九分四十三秒，目标字幕的时间为九分四十四秒，则需要将目标字幕前移一秒，以实现目标字幕的时间与说话内容的目标时间一致。

在第二种可选的实施方式中，所述第一调整单元104具体用于将所述目标时间设定为所述目标字幕的时间。

具体实施例中，在根据目标时间调整目标字幕的时间时，第一调整单元104将所确定的说话内容的目标时间直接确定为目标字幕的时间，例如，目标时间在目标视频中为九分四十秒，则直接将九分四十秒设定为与说话内容对应的目标字幕的时间。

请参照图6，是本发明实施例提供的终端的第二实施例结构示意图。本实施例中所描述的终端包括：至少一个输入设备1000；至少一个输出设备2000；至少一个处理器3000，例如CPU；和存储器4000，上述输入设备1000、输出设备2000、处理器3000和存储器4000通过总线5000连接。

其中，上述输入设备1000具体可为终端的用户接口，例如鼠标，键盘，用于调整目标视频中目标字幕的时间。

上述输出设备2000具体可为终端的显示屏，用于输出视频画面。

上述存储器4000可以是高速RAM存储器，也可为非不稳定的存储器(non-volatilememory)，例如磁盘存储器。上述存储器4000用于存储一组程序代码，上述输入设备1000、输出设备2000和处理器3000用于调用存储器4000中存储的程序代码，执行如下操作：

上述输出设备2000，用于获取目标视频所包含的视频画面，其中所述视频画面中包含人脸图像；

上述处理器3000，用于对所述人脸图像进行嘴唇特征识别，确定所述嘴唇特征对应的说话内容；

上述处理器3000还用于查找所述说话内容对应的目标字幕；

上述处理器3000还用于确定所述说话内容在所述目标视频中的目标时间；

上述处理器3000还用于根据所述目标时间，调整所述目标字幕的时间。

上述与所述说话内容对应的目标字幕为：

所述目标视频中与所述说话内容之间相似度大于或者等于预设阈值的字幕。

上述处理器3000还用于判断所述目标时间是否与所述目标字幕的时间一致；

上述处理器3000还用于若不一致，则将所述目标字幕的时间与所述目标时间调整为一致。

上述处理器3000还用于将所述目标时间设定为所述目标字幕的时间。

上述处理器3000还用于将所述视频画面中的目标嘴唇特征与预设口型库中的嘴唇特征进行匹配；

上述处理器3000还用于将所述预设口型库中与所述目标嘴唇特征匹配的嘴唇特征所对应的说话内容确定为所述目标嘴唇特征对应的说话内容。

具体实现中，本发明实施例中所描述的输入设备1000、输出设备2000和处理器3000可执行本发明实施例提供的校正字幕的方法的第一实施例、第二实施例中所描述的实现方式，也可执行本发明实施例提供的终端中所描述的终端的实现方式，在此不再赘述。

本发明所有实施例中的单元，可以通过通用集成电路，例如CPU(CentralProcessingUnit，中央处理器)，或通过ASIC(ApplicationSpecificIntegratedCircuit，专用集成电路)来实现。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种校正字幕的方法，其特征在于，包括：

查找所述说话内容对应的目标字幕；

确定所述说话内容在所述目标视频中的目标时间；

根据所述目标时间，调整所述目标字幕的时间。

2.如权利要求1所述的方法，其特征在于，所述与所述说话内容对应的目标字幕为：

3.如权利要求2所述的方法，其特征在于，所述根据所述目标时间，调整所述目标字幕的时间，包括：

判断所述目标时间是否与所述目标字幕的时间一致；

若不一致，则将所述目标字幕的时间与所述目标时间调整为一致。

4.如权利要求2所述的方法，其特征在于，所述根据所述目标时间，调整所述目标字幕的时间，包括：

将所述目标时间设定为所述目标字幕的时间。

5.如权利要求1所述的方法，其特征在于，所述对所述人脸图像进行嘴唇特征识别，确定所述嘴唇特征对应的说话内容，包括：

将所述人脸图像中的目标嘴唇特征与预设口型库中的嘴唇特征进行匹配；

将所述预设口型库中与所述目标嘴唇特征匹配的嘴唇特征所对应的说话内容确定为所述目标嘴唇特征对应的说话内容。

6.一种终端，其特征在于，包括：

查找单元，用于查找所述说话内容对应的目标字幕；

7.如权利要求6所述的终端，其特征在于，所述与所述说话内容对应的目标字幕为：

8.如权利要求7所述的终端，其特征在于，所述第一调整单元包括：

判断单元，用于判断所述目标时间是否与所述目标字幕的时间一致；

第二调整单元，用于若所述目标时间与所述目标字幕的时间不一致，则将所述目标字幕的时间与所述目标时间调整为一致。

9.如权利要求7所述的终端，其特征在于，所述第一调整单元具体用于将所述目标时间设定为所述目标字幕的时间。

10.如权利要求6所述的终端，其特征在于，所述识别单元包括：

匹配单元，用于将所述人脸图像中的目标嘴唇特征与预设口型库中的嘴唇特征进行匹配；

第二确定单元，用于将所述预设口型库中与所述目标嘴唇特征匹配的嘴唇特征所对应的说话内容确定为所述目标嘴唇特征对应的说话内容。