CN107241616B

CN107241616B - 视频台词提取方法、装置及存储介质

Info

Publication number: CN107241616B
Application number: CN201710431004.9A
Authority: CN
Inventors: 陈姿
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-06-09
Filing date: 2017-06-09
Publication date: 2018-10-26
Anticipated expiration: 2037-06-09
Also published as: CN107241616A

Abstract

本申请公开了一种视频台词提取方法，包括：接收客户端发送的台词获取请求，该台词获取请求中包括视频的标识、视频中一个或多个角色的对白时间段及角色标识；获得音频数据；根据所述一个或多个角色的对白时间段，从所述音频数据中获取每个角色的训练语音样本并将其与对应角色的角色标识相关联；从所述音频数据中提取按时间排序的多个语音数据，确定每个语音数据对应的训练语音样本；及将该语音数据转换为台词文本，将所述台词文本与所述语音数据对应的训练语音样本关联的角色标识相关联；及将每一个语音数据对应的台词文本及其关联的角色标识按照所述语音数据的排序保存在台词文件中，将所述台词文件发送给所述客户端。本申请还提供了相应的装置及存储介质。

Description

视频台词提取方法、装置及存储介质

技术领域

本申请涉及通信技术领域，尤其涉及一种视频台词提取方法、装置及存储介质。

背景技术

随着移动互联网的迅速发展，视频播放应用变得越来越多样化。用户在有了更多选择的同时，对视频播放应用的功能要求也越来越多。视频中的一些台词更值得用户去回味，当用户观看电视剧或者小品等语言类节目时，用户想要获得该视频或者音频的台词时，这个时候没有别的方法只能通过手动抄写的方式来获取台词，台词获取效率低，用户体验度不高。

发明内容

本申请实例提供了一种视频台词提取方法，包括：

接收客户端发送的针对当前播放的视频的台词获取请求，该台词获取请求中包括所述视频的标识、所述视频中一个或多个角色的对白时间段及角色标识；

从所述视频的标识对应的视频数据流中获得音频数据；

根据所述一个或多个角色的对白时间段，从所述音频数据中获取每个角色的训练语音样本并将其与对应角色的角色标识相关联；

从所述音频数据中提取按时间排序的多个语音数据，对于每一个语音数据执行如下操作：

从每个角色的训练语音样本中确定该语音数据对应的训练语音样本；及

将该语音数据转换为台词文本，将所述台词文本与所述语音数据对应的训练语音样本关联的角色标识相关联；及

将每一个语音数据对应的台词文本及其关联的角色标识按照所述语音数据的排序保存在台词文件中，将所述台词文件发送给所述客户端。

本申请实例还提供了一种视频台词提取方法，包括：

响应于当前播放的视频的台词获取操作，确定所述视频中一个或多个角色的对白时间段及角色标识；

向服务器发送台词获取请求，该台词获取请求中包括所述视频的标识、所述确定的所述视频中一个或多个角色的对白时间段及角色标识，以使服务器根据所述视频的标识获取音频数据，根据所述一个或多个角色的对白时间段从所述音频数据中获取每个角色的训练语音样本，从所述音频数据中提取按时间排序的多个语音数据，根据所述每个角色的训练语音样本确定所述多个语音数据中每个语音数据对应的角色标识；将每一个语音数据转换为台词文本，将每一个语音数据对应的台词文本及其对应的角色标识按照所述语音数据的排序保存在台词文件中；

接收服务器发送的台词文件。

本申请实例还提供了一种视频台词提取装置，包括：

请求接收单元，用于接收客户端发送的针对当前播放的视频的台词获取请求，该台词获取请求中包括所述视频的标识、所述视频中一个或多个角色的对白时间段及角色标识；

音频数据获取单元，用于从所述视频的标识对应的视频数据流中获得音频数据；

训练语音样本获取单元，用于根据所述一个或多个角色的对白时间段，从所述音频数据中获取每个角色的训练语音样本并将其与对应角色的角色标识相关联；

台词文本获取单元，用于从所述音频数据中提取按时间排序的多个语音数据，对于每一个语音数据执行如下操作：从每个角色的训练语音样本中确定该语音数据对应的训练语音样本；及将该语音数据转换为台词文本，将所述台词文本与所述语音数据对应的训练语音样本关联的角色标识相关联；

台词文件获取单元，用于将每一个语音数据对应的台词文本及其关联的角色标识按照所述语音数据的排序保存在台词文件中，将所述台词文件发送给所述客户端。

本申请实例还提供一种视频台词提取装置，包括：

角色参数获取单元，用于响应于当前播放的视频的台词获取操作，确定所述视频中一个或多个角色的对白时间段及角色标识；

请求发送单元，用于向服务器发送台词获取请求，该台词获取请求中包括所述视频的标识、所述确定的所述视频中一个或多个角色的对白时间段及角色标识，以使服务器根据所述视频的标识获取音频数据，根据所述一个或多个角色的对白时间段从所述音频数据中获取每个角色的训练语音样本，从所述音频数据中提取按时间排序的多个语音数据，根据所述每个角色的训练语音样本确定所述多个语音数据中每个语音数据对应的角色标识；将每一个语音数据转换为台词文本，将每一个语音数据对应的台词文本及其对应的角色标识按照所述语音数据的排序保存在台词文件中；

接收单元，用于接收服务器发送的台词文件。

本申请实例还提供了一种计算机可读存储介质，存储有计算机可读指令，可以使至少一个处理器执行如上述所述的方法。

采用本申请提供的上述方案，能够自动提取视频台词。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是是本申请实例涉及的系统构架图；

图2是本申请一实例视频台词提取方法的流程图；

图3是本申请一实例客户端展示视频节目图；

图4A是本申请一实例操作界面示意图；

图4B是本申请一实例操作界面中展示结束控件及取消控件的示意图；

图4C是本申请一实例操作界面中展示输入文本框控件的示意图；

图4D是本申请一实例采集多个角色的时段及标识的示意图；

图5是本申请另一实例视频台词提取方法的流程图；

图6是本申请一实例提取视频台词的详细流程图；

图7是本申请一实例视频台词提取装置的结构示意图；

图8是本申请另一实例视频台词提取装置的结构示意图；以及

图9为本申请实例中的计算设备组成结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供一种视频台词提取方法，该方法所应用的系统架构，如图1所示，该系统架构包括：客户端101、视频服务器103，客户端101与视频服务器103通过互联网102进行连接。该客户端101可以为手机、电脑、PDA等终端设备上的APP，也可以浏览器客户端。用户可以在客户端101上进行视频的观看，视频服务器103用于向客户端提供视频数据。用户在客户端101上观看视频时，通过对台词控件的操作自动获取台词。客户端101响应于用户的操作，向视频服务器103发送台词获取请求，视频服务器103获取对应视频的台词，并将获取的台词发送给客户端101。在客户端上当前播放的视频的台词以台词文件的形式返回给客户端，如txt文件格式，用户将台词文件包括在本地，也可以将台词文件打印，以方便用户编排与所述视频相关的演出时使用。例如，用户获取郭德纲与于谦的一段相声视频的台词，方便用户在编排郭德纲和于谦相声节目时使用。

本申请提供了一种视频台词提取方法，应用于视频服务器103，如图2所示，主要包括以下步骤：

步骤201：接收客户端发送的针对当前播放的视频的台词获取请求，该台词获取请求中包括所述视频的标识、所述视频中一个或多个角色的对白时间段及角色标识。

所述终端为视频的终端用户客户端，该客户端可以为视频APP，也可以是浏览器客户端，如图3所示，当用户在视频APP或浏览器客户端上观看视频时，用户点击台词获取控件301时，弹出如图4A所示的操作界面。该操作界面可以位于视频画面的下方，也可以覆盖部分视频画面。当视频播放至一角色的对白时，用户想要获取与该角色对应的台词时，点击图4A中的添加控件401，客户端获取用户点击控件401时视频的播放时间点t1，如当视频播放至图3所示的画面时，用户点击控件401，此时客户端获取此时视频播放的时间t1为1分31秒。用户点击控件401后，展示结束控件402及取消控件403，同时也可以在展示操作界面时同时展示操作界面中的添加控件401、结束控件402及取消控件403。在视频中的所述角色的对白时间内，用户点击控件402，客户端获取此时视频播放的时间点t2，用户点击控件401及控件402的时间点都在所述视频的所述角色的对白时间内，从而后续根据时间点t1及t2，能够在视频对应的视频数据中获得t1-t2时间段内所述角色的训练语音样本。所述角色可以为综艺节目、影视剧集、动画片、游戏视频等中的人物、动物、物品、虚拟形象等。当用户不想采用上述时间段内所述角色的对白语音作为训练语音样本时，可通过点击控件403进行取消。用户点击控件402后，展示输入框404，同时也可以在展示操作界面时同时展示输入框404，用户通过对输入框404的操作，输入上述时间段内视频中的对白角色的角色标识，例如输入所述角色的名字。当用户不想保存采集的视频的上述时间点t1及t2时，通过点击控件405操作。用户通过点击完成控件406，完成所述角色的时间段的采集及角色标识的输入，客户端向视频服务器发送台词获取请求。用户可以通过上述方式采集视频中多个角色的对白时间段以及输入对应的角色的角色标识，如图4D所示，用户点击完成控件406后，客户端向视频服务器发送视频台词获取请求。该视频台词获取请求中包括所述视频的标识、客户端采集的视频中多个角色的对白时间段及对应的角色的角色标识。视频服务器用于获取该视频中上述多个角色的台词，发送给客户端。

步骤202：从所述视频的标识对应的视频数据流中获得音频数据。

视频播放时，服务器将视频数据以视频数据流的形式发送给客户端，该视频数据流包括视频流及音频流。服务器根据视频的标识查找到对应的视频数据流，在视频数据流中提取音频流，即提取音频数据，该音频流与视频的播放时间点一一对应。根据视频的播放时间点能够查找到对应的音频数据。

步骤203：根据所述一个或多个角色的对白时间段，从所述音频数据中获取每个角色的训练语音样本并将其与对应角色的角色标识相关联。

根据步骤202中获取的音频数据，同时根据台词获取请求中多个角色的对白时间段，在所述音频数据中截取每个角色的在对白时间段内的音频数据，作为该角色的训练语音样本。同时将确定的每个角色的训练语音样本与对应的角色的角色标识相关联。

步骤204：从所述音频数据中提取按时间排序的多个语音数据，对于每一个语音数据执行如下操作：从每个角色的训练语音样本中确定该语音数据对应的训练语音样本；及将该语音数据转换为台词文本，将所述台词文本与所述语音数据对应的训练语音样本关联的角色标识相关联。

在视频播放时，音频流与视频播放的时间点一一对应，视频播放的前一句语音对白与后一句语音对白之间具有一定时间间隔，根据该时间间隔，在所述音频流中提取按时间排序的多个语音数据。根据该语音数据及每一个角色的训练语音样本，确定该语音数据对应的训练语音样本，进而根据与训练语音样本关联的角色标识确定该语音数据对应的角色标识，具体地，根据每一个角色的训练语音样本，计算所述语音数据与每一个训练语音样本的匹配度，根据匹配度确定语音数据与哪一个训练语音样本相对应，进而根据与训练语音样本关联的角色标识确定与所述语音数据关联的角色标识。用户采集视频中角色的对白时间段时，有可能只采集视频中主要角色的对白时间段，即只提取主要角色的台词，这样服务器也只有主要角色的训练语音样本，因而存在一个语音数据与任何一个训练语音样本都不匹配的情况，在这个情况下，丢弃该语音数据。视频服务器根据语音转换文字工具将所述语音数据转换为台词文本，并将得到的台词文本与确定的该台词文本对应的角色的标识相关联。所述角色的标识，可以为，如人物的画像、名字等。

步骤205：将每一个语音数据对应的台词文本及其关联的角色标识按照所述语音数据的排序保存在台词文件中，将所述台词文件发送给所述客户端。

一个语音数据对应视频的音频数据中的一句台词对白，将确定的语音数据的台词文本及其关联的角色标识按照所述语音数据的时间排序保存在台词文件中，例如保存在一个txt文件中，将该台词文件发送给客户端。例如，该txt文件中角色的台词可以如下所示：

于谦：您原谅真不认识；

郭德纲：您不看报纸啊。

采用本申请提供的视频台词提取方法，根据客户端发送的视频中不同角色在视频中的一段对白时间段，在对应视频的音频流中提取不同角色的训练语音样本，根据每一个角色的训练语音样本，确定视频的音频数据中的每一句台词对应的角色标识，将每一句语音台词转换为台词文本，并将台词文本与其对应的角色标识相关联，将台词文本及对应的角色标识按照语音数据的顺序保存中台词文件中，将台词文件发送给客户端。从而实现自动提取视频的台词，避免人工提取台词的效率低等问题。

在一些实例中，在上述步骤204中，在执行所述从每个角色的训练语音样本中确定该语音数据对应的训练语音样本时，包括以下步骤：

步骤S301：根据所述每个角色的训练语音样本，确定每个角色的语音识别模型。

本申请提出的视频台词提取方法，主要是通过声纹识别过程识别不同角色的声音，主要的过程包括训练过程和识别过程。训练过程是通过步骤203中得到的每个角色的训练语音样本训练得到每个角色的语音识别模型，具体为得到每个角色语音识别模型的模型参数。识别过程是根据得到的每个角色的语音识别模型，将步骤202中得到的音频数据的每一句台词语音与每一个角色的语音识别模型进行匹配，确定所述台词语音属于哪个角色的对白。该步骤为根据每个角色的训练语音样本得到该角色的语音识别模型。

步骤S302：根据所述语音数据及每一个角色的语音识别模型，确定该语音数据对应的训练语音样本。

对于在步骤204中得到语音数据，将语音数据与每一个角色的语音识别模型进行匹配，具体地，提取语音数据的语音特征参数，计算语音数据的语音特征参数与语音识别模型的模型参数的失真距离，将失真距离最小的语音识别模型对应的训练语音样本确定为所述语音数据对应的训练语音样本，进而根据与该训练语音样本相关联的角色标识确定与所述语音数据相对应的角色标识。

在一些实例中，在上述步骤S301中，在执行所述根据所述每个角色的训练语音样本，确定每个角色的语音识别模型时，包括以下步骤：

步骤S401：根据每个角色的训练语音样本，确定训练语音样本的训练语音特征参数。

首先要对训练语音样本进行预处理，如预加重和分帧、加窗等处理过程。将含噪声的训练语音样本信号通过去噪处理，得到干净的语音信号后，通过预加重技术滤除低频干扰，尤其是50Hz或60Hz的频率干扰，提升训练语音样本的高频部分。语音信号是一种非平稳的时变信号，但在一个很短的时间内可以认为是稳定的，分帧指把短时平稳的语音段划分为一帧，此时的一帧语音信号即为从一个固定特性的持续语音中截取的，对该帧语音信号的处理就相当于对固定特性的持续语音进行处理。为了使帧与帧之间保存平稳过渡，确保语音信号的连续性，采用交叠分帧的方法对训练语音样本进行分帧处理，具体地，可以选取汉明窗作为窗函数，对训练语音样本信号进行处理。

对训练语音样本信号进行预处理后，提取训练语音样本信号的特征参数，特征参数提取的任务就是提取训练语音样本信号中表征人的基本特征。选取的特征必须能够有效第区分不同的说话人，且对同一说话人的变化保持相对稳定。语音特征参数包括线性预测倒谱系数(LPCC)、LSP线谱对以及MFCC参数等。以MFCC参数为例，对预处理后的训练语音信号的每帧序列经过离散FFT变换、MEL滤波器处理、对数计算以及离散余弦变换后，得到MFCC参数，将得到的MFCC参数作为训练语音样本的特征参数。

步骤S402：根据所述训练语音特征参数，确定每个角色的语音识别模型的模型参数，从而获得语音识别模型。

将在步骤S401中得到训练语音样本的特征参数首先进行降维处理，然后利用得到的降维处理后的参数，针对该训练语音对应的角色建立特征矢量集，采用码本设计LBG算法得到所述训练语音对应的角色的语音识别模型的模型参数并保存，以便在说话角色识别时用来与语音数据进行匹配。

在一些实例中，所述每一个角色的语音识别模型包括模型特征参数。在上述步骤204中，在执行所述根据所述语音数据及每一个角色的语音识别模型，确定该语音数据对应的训练语音样本时，包括以下步骤：

步骤S501：根据所述语音数据，确定语音数据特征参数。

根据排序中的每一条语音数据，提取该语音数据的特征参数，提取语音数据的特征参数的方式与上述步骤S401中提取训练语音的特征参数的方式相同，在此不再赘述。

步骤S502：计算所述语音数据特征参数与每一个角色的语音识别模型的模型特征参数之间的失真距离；将失真距离最小的语音识别模型对应的训练语音样本确定为所述语音数据对应的训练语音样本。

建立并训练得到每个角色的语音识别模型，语音识别模型中的模型参数表征了说话人的个性特征。在语音识别阶段：提取经过预处理和降噪处理的语音数据的语音数据特征参数，将提取的语音数据特征参数与系统训练时产生的每个角色的语音识别模型的模型参数进行相似度匹配，利用失真距离计算语音数据与语音识别模型的匹配距离，针对失真距离最小的语音识别模型进行语音数据的角色确认。具体地，根据与语音识别模型相对应的训练语音样本，确定与语音数据对应的训练语音样本，进而根据与训练语音样本相关联的角色标识，确定与语音数据相对应的角色标识。

在一些实例中，在上述步骤204中，在执行所述将所述台词文本与所述语音数据对应的训练语音样本关联的角色标识相关联包括：将所述台词文本对应的训练语音样本关联的角色标识添加到所述台词文本中。

将所述台词文本对应的角色标识添加到所述台词文本中。可以将角色标识添加到对应台词文本的前端或者后端，例如，当角色标识添加到对应台词文本的前端时，形成如下示例所示的台词形式：“于谦：您原谅真不认识”的台词文本形式。

其中，在上述步骤205中，在执行所述将每一个语音数据对应的台词文本及其关联的角色标识按照所述语音数据的排序保存在台词文件中包括：将包含其所对应的角色的角色标识的每一个语音数据对应的台词文本按所述排序保存在所述台词文件中。

将包含角色标识的台词文本按照语音数据的排序保存在台词文件中，该台词文件可以为txt文件，该台词文件中的台词的形式可以如下所示：

于谦：您原谅真不认识；

郭德纲：您不看报纸啊；

于谦：………·

郭德纲：………·

………·。

本申请还提供一种视频台词提取方法，应用于客户端101，如图5所示，包括以下步骤：

步骤501：响应于当前播放的视频的台词获取操作，确定所述视频中一个或多个角色的对白时间段及角色标识。

如图3所示，当用户在视频APP或浏览器客户端上观看视频时，用户点击台词获取控件301时，弹出如图4A所示的操作界面，该操作界面可以位于视频画面的下方，也可以覆盖部分视频画面。如图4A-4D，用户通过对操作界面中的添加控件401、结束控件402的操作，获得视频中一角色的对白时间段，用户通过对输入框404的操作，输入所述角色的标识。该角色可以为综艺节目、影视剧集、动画片、游戏视频等中的人物、动物、物品、虚拟形象等。

步骤502：向服务器发送台词获取请求，该台词获取请求中包括所述视频的标识、所述确定的所述视频中一个或多个角色的对白时间段及角色标识，以使服务器根据所述视频的标识获取音频数据，根据所述一个或多个角色的对白时间段从所述音频数据中获取每个角色的训练语音样本，从所述音频数据中提取按时间排序的多个语音数据，根据所述每个角色的训练语音样本确定所述多个语音数据中每个语音数据对应的角色标识；将每一个语音数据转换为台词文本，将每一个语音数据对应的台词文本及其对应的角色标识按照所述语音数据的排序保存在台词文件中。

客户端向视频服务器发送视频台词获取请求。该视频台词获取请求中包括所述视频的标识、客户端采集的视频中多个角色的对白时间段及对应的角色的标识。视频播放时，服务器将视频数据以视频数据流的形式发送给客户端，该视频数据流包括视频流及音频流。服务器根据视频的标识查找到对应的视频数据流，在视频数据流中提取音频流，即提取音频数据，该音频流与视频的播放时间点一一对应。根据视频的播放时间点能够查找到对应的音频流，即能够查找到对应的音频数据。根据获取的音频数据，同时根据台词获取请求中多个角色的对白时间段，在所述音频数据中截取每个角色的在对白时间段内的语音片段，作为该角色的训练语音样本，将训练语音样本与角色标识相关联。在视频播放时，音频流与视频播放的时间点一一对应，视频播放的前一句语音对白与后一句语音对白之间具有一定时间间隔，根据该时间间隔，在所述音频流中提取按时间排序的多个语音数据。根据该语音数据及每一个角色的训练语音样本，确定该语音数据对应的训练语音样本，进而根据与训练语音样本相关联的角色标识确定与训练语音数据对应的角色标识。具体地，根据每一个角色的训练语音样本，计算语音数据与每一个角色的匹配度，根据匹配度确定语音数据与哪一个角色标识相对应。用户采集视频中角色的对白时间段时，有可能只采集视频中主要角色的对白时间段，即只提取主要角色的台词，这样服务器也只有主要角色的训练语音样本，因而存在一个语音数据与任何一个训练语音样本都不匹配的情况，在这个情况下，丢弃该语音数据。视频服务器根据语音转换文字工具将所述语音数据转换为台词文本，并将得到的台词文本与确定的该台词文本对应的角色标识相关联。所述角色的标识，可以为，如人物的画像、名字等。

步骤503：接收服务器发送的台词文件。

一个语音数据对应视频的音频数据中的一句台词对白，将确定的语音数据的台词文本及其关联的角色标识按照所述语音数据的时间排序保存在台词文件中，例如保存在一个txt文件中，将该台词文件发送给客户端。例如，该txt文件中角色的台词可以入下所示：

于谦：您原谅真不认识；

郭德纲：您不看报纸啊；

于谦：………·

郭德纲：………·

………·。

在一些实例中，在上述步骤501中，在执行所述响应于当前播放的视频的台词获取操作，确定所述视频中一个或多个角色的对白时间段及角色标识，向服务器发送台词获取请求时，包括以下步骤：

步骤S1：响应于对台词获取控件的操作，展示操作界面。

如图3所示，当用户在视频APP或浏览器客户端上观看视频时，用户点击台词获取控件301时，弹出如图4A所示的操作界面。

步骤S2：响应于对所述操作界面的第一操作，获得所述视频的第一时间点。

当视频播放至一角色的对白时，用户想要获取与该角色对应的台词时，点击图4A中的添加控件401，客户端获取用户点击控件401时视频的播放时间点t1，如当视频播放至图3所示的画面时，用户点击控件401，此时客户端获取此时视频播放的时间t1为1分31秒。用户点击控件401后，展示结束控件402及取消控件403，同时也可以在展示操作界面时展示结束控件402及取消控件403。

步骤S3：响应于对所述操作界面的第二操作，获得所述视频的第二时间点，根据所述第一时间点及第二时间点获得所述角色的对白时间段。

在视频中的所述角色的对白时间内，用户点击控件402，客户端获取此时视频播放的时间点t2，用户点击控件401及控件402的时间点都在所述视频的所述角色的对白时间内，从而后续根据时间点t1及t2，能够在视频对应的音频数据中获得t1-t2时间段内所述角色的训练语音样本。当用户不想采用上述时间段内所示角色的对白语音作为训练语音样本时，可通过点击控件403进行取消。

步骤S4：响应于对所述操作界面的第三操作，获得所述角色的角色标识。

用户点击控件402后，展示输入框404，同时也可以在展示所述操作界面的同时展示该操作界面中的输入框控件404，用户通过对输入框404的操作，输入上述时间段内视频中的对白角色的标识，例如输入所述角色的名字。当用户不想保存采集的视频的上述时间点t1及t2时，通过点击控件405操作。

步骤S5：响应于对所述操作界面的第四操作，向服务器发送台词获取请求。

用户通过点击完成控件406，完成所述一个或多个角色的时间段的采集及角色标识的输入，客户端向视频服务器发送台词获取请求。用户可以通过上述方式采集视频中多个角色的对白时间段以及输入对应的角色的标识，在图4D中，用户点击完成控件406后，客户端向视频服务器发送视频台词获取请求。

本申请提供的视频台词提取方法的详细流程如图6所示，包括以下步骤：

步骤601：用户观看视频时，通过点击台词获取控件，弹出操作界面，用户通过对操作界面中的添加控件401及结束控件402的操作获得视频中一角色的对白时间段，通过对输入框控件404的操作获得所述角色的标识。

步骤602：用户通过操作完成控件406触发台词获取请求。

步骤603：视频APP或者浏览器客户端向视频服务器发送台词获取请求，请求中包括视频的标识，上述获取的视频中一个或多个角色的对白时间段及角色标识。

604：视频服务器根据视频的标识获得视频的音频数据；根据每个角色的对白时间段在音频数据中截取每个角色的训练语音样本。

605：视频服务器根据每个角色的训练语音样本得到每个角色的语音识别模型，具体地，根据训练语音样本确定训练语音样本的特征参数，根据确定的特征参数计算语音识别模型的模型参数，获得语音识别模型。

606：根据音频数据中一句台词与另一句台词之间的时间间隔，在音频数据中截取按时间排序的语音数据。

607：将语音数据与每一个角色的语音识别模型进行匹配，确定每一个语音数据对应的角色标识。具体地，根据语音数据得到语音数据的特征参数，计算语音数据的特征参数与语音识别模型的模型参数的失真距离，根据失真距离最小的语音识别模型确定语音数据对应的角色标识。

608：将语音数据转换为台词文本，在台词文本上添加与其对应的角色的角色标识，将台词文本及对应的角色标识按照语音数据的顺序保存中台词文件中。

步骤609：将获得的视频的台词文件发送给客户端。该台词文件可以为txt文件，用户可以点击查看，也可以保存、打印。

本申请还提供一种视频台词提取装置700，应用于视频服务器103，如图7所示，包括：

请求接收单元701，用于接收客户端发送的针对当前播放的视频的台词获取请求，该台词获取请求中包括所述视频的标识、所述视频中一个或多个角色的对白时间段及角色标识；

音频数据获取单元702，用于从所述视频的标识对应的视频数据流中获得音频数据；

训练语音样本获取单元703，用于根据所述一个或多个角色的对白时间段，从所述音频数据中获取每个角色的训练语音样本并将其与对应角色的角色标识相关联；

台词文本获取单元704，用于从所述音频数据中提取按时间排序的多个语音数据，对于每一个语音数据执行如下操作：从每个角色的训练语音样本中确定该语音数据对应的训练语音样本；及将该语音数据转换为台词文本，将所述台词文本与所述语音数据对应的训练语音样本关联的角色标识相关联；

台词文件获取单元705，用于将每一个语音数据对应的台词文本及其关联的角色标识按照所述语音数据的排序保存在台词文件中，将所述台词文件发送给所述客户端。

采用本申请提供的视频台词提取装置，根据客户端发送的视频中不同角色在视频中的一段对白时间段，在对应视频的音频流中提取不同角色的训练语音样本，根据每一个角色的训练语音样本，确定视频的音频数据中的每一句台词对应的角色标识，将每一句语音台词转换为台词文本，并将台词文本与其对应的角色标识相关联，将台词文本及对应的角色标识按照语音数据的顺序保存中台词文件中，将台词文件发送给客户端。从而实现自动提取视频的台词，避免人工提取台词的效率低等问题。

在一些实例中，所述台词文本获取单元704，用于：

根据所述每个角色的训练语音样本，确定每个角色的语音识别模型；

根据所述语音数据及每一个角色的语音识别模型，确定该语音数据对应的训练语音样本。

在一些实例中，所述每一个角色的语音识别模型包括模型特征参数；其中，所述台词文本获取单元704，用于：

根据所述语音数据，确定语音数据特征参数；

计算所述语音数据特征参数与每一个角色的语音识别模型的模型特征参数之间的失真距离；

将失真距离最小的语音识别模型对应的训练语音样本确定为所述语音数据对应的训练语音样本。

在一些实例中，所述台词文本获取单元704，用于：

根据每个角色的训练语音样本，确定训练语音样本的训练语音特征参数；

根据所述训练语音特征参数，确定每个角色的语音识别模型的模型参数，从而获得语音识别模型。

在一些实例中，所述台词文本获取单元704，用于：

将所述台词文本对应的训练语音样本关联的角色标识添加到所述台词文本中；

其中，所述台词文件获取单元，用于：将包含其所对应的角色的角色标识的每一个语音数据对应的台词文本按所述排序保存在所述台词文件中。

本申请还提供一种视频台词提取装置800，应用于客户端101，如图8所示，包括：

角色参数获取单元801，用于响应于当前播放的视频的台词获取操作，确定所述视频中一个或多个角色的对白时间段及角色标识；

请求发送单元802，用于向服务器发送台词获取请求，该台词获取请求中包括所述视频的标识、所述确定的所述视频中一个或多个角色的对白时间段及角色标识，以使服务器根据所述视频的标识获取音频数据，根据所述一个或多个角色的对白时间段从所述音频数据中获取每个角色的训练语音样本，从所述音频数据中提取按时间排序的多个语音数据，根据所述每个角色的训练语音样本确定所述多个语音数据中每个语音数据对应的角色标识；将每一个语音数据转换为台词文本，将每一个语音数据对应的台词文本及其对应的角色标识按照所述语音数据的排序保存在台词文件中；

接收单元803，用于接收服务器发送的台词文件。

在一些实例中，所述角色参数获取单元801，用于：

响应于对台词获取控件的操作，展示操作界面；

响应于对所述操作界面的第一操作，获得所述视频的第一时间点；

响应于对所述操作界面的第二操作，获得所述视频的第二时间点，根据所述第一时间点及第二时间点获得所述角色的对白时间段；

响应于对所述操作界面的第三操作，获得所述角色的角色标识；

所述请求发送单元，用于响应于对所述操作界面的第四操作，向服务器发送台词获取请求。

本申请还提出了一种计算机可读存储介质，存储有计算机可读指令，可以使至少一个处理器执行如上述所述的方法。

图9示出了视频台词提取装置700及视频台词提取装置800所在的计算设备的组成结构图。如图9所示，该计算设备包括一个或者多个处理器(CPU)902、通信模块904、存储器906、用户接口910，以及用于互联这些组件的通信总线908。

处理器902可通过通信模块904接收和发送数据以实现网络通信和/或本地通信。

用户接口910包括一个或多个输出设备912，其包括一个或多个扬声器和/或一个或多个可视化显示器。用户接口910也包括一个或多个输入设备914，其包括诸如，键盘，鼠标，声音命令输入单元或扩音器，触屏显示器，触敏输入板，姿势捕获摄像机或其他输入按钮或控件等。

存储器906可以是高速随机存取存储器，诸如DRAM、SRAM、DDR RAM、或其他随机存取固态存储设备；或者非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备，或其他非易失性固态存储设备。

存储器906存储处理器902可执行的指令集，包括：

操作系统916，包括用于处理各种基本系统服务和用于执行硬件相关任务的程序；

应用918，包括用于视频台词提取的各种应用程序，这种应用程序能够实现上述各实例中的处理流程，比如可以包括视频台词提取装置700或视频台词提取装置800中的部分或全部单元或者模块。视频台词提取装置700或视频台词提取装置800中的各单元中的至少一个单元可以存储有机器可执行指令。处理器902通过执行存储器906中各单元中至少一个单元中的机器可执行指令，进而能够实现上述各单元或模块中的至少一个模块的功能。

需要说明的是，上述各流程和各结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分，实际实现时，一个模块可以分由多个模块实现，多个模块的功能也可以由同一个模块实现，这些模块可以位于同一个设备中，也可以位于不同的设备中。

各实施例中的硬件模块可以以硬件方式或硬件平台加软件的方式实现。上述软件包括机器可读指令，存储在非易失性存储介质中。因此，各实施例也可以体现为软件产品。

各例中，硬件可以由专门的硬件或执行机器可读指令的硬件实现。例如，硬件可以为专门设计的永久性电路或逻辑器件(如专用处理器，如FPGA或ASIC)用于完成特定的操作。硬件也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。

另外，本申请的每个实例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然，数据处理程序构成了本申请。此外，通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此，这样的存储介质也构成了本申请，本申请还提供了一种非易失性存储介质，其中存储有数据处理程序，这种数据处理程序可用于执行本申请上述方法实例中的任何一种实例。

图9模块对应的机器可读指令可以使计算机上操作的操作系统等来完成这里描述的部分或者全部操作。非易失性计算机可读存储介质可以是插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器。安装在扩展板或者扩展单元上的CPU等可以根据指令执行部分和全部实际操作。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种视频台词提取方法，其特征在于，包括：

从所述视频的标识对应的视频数据流中获得音频数据；

2.根据权利要求1所述的方法，其中，所述从每个角色的训练语音样本中确定该语音数据对应的训练语音样本包括：

3.根据权利要求2所述的方法，其中，所述每一个角色的语音识别模型包括模型特征参数；

其中，所述根据所述语音数据及每一个角色的语音识别模型，确定该语音数据对应的训练语音样本包括：

根据所述语音数据，确定语音数据特征参数；

4.根据权利要求2所述的方法，其中，所述根据所述每个角色的训练语音样本，确定每个角色的语音识别模型包括：

5.根据权利要求1所述的方法，其中，所述将所述台词文本与所述语音数据对应的训练语音样本关联的角色标识相关联包括：

其中，所述将每一个语音数据对应的台词文本及其关联的角色标识按照所述语音数据的排序保存在台词文件中包括：将包含其所对应的角色的角色标识的每一个语音数据对应的台词文本按所述排序保存在所述台词文件中。

6.一种视频台词提取方法，其特征在于，包括：

向服务器发送台词获取请求，该台词获取请求中包括所述视频的标识、所述确定的所述视频中一个或多个角色的对白时间段及角色标识，以使服务器根据所述视频的标识获取音频数据，根据所述一个或多个角色的对白时间段从所述音频数据中获取每个角色的训练语音样本，并将其与对应角色的角色标识相关联，从所述音频数据中提取按时间排序的多个语音数据，根据所述每个角色的训练语音样本，从每个角色的训练语音样本中确定各语音数据对应的训练语音样本，根据与训练语音样本关联的角色标识确定所述多个语音数据中每个语音数据对应的角色标识；将每一个语音数据转换为台词文本，将每一个语音数据对应的台词文本及其对应的角色标识按照所述语音数据的排序保存在台词文件中；

接收服务器发送的台词文件。

7.根据权利要求6所述的方法，其中，所述响应于当前播放的视频的台词获取操作，确定所述视频中一个或多个角色的对白时间段及角色标识，向服务器发送台词获取请求包括：

响应于对台词获取控件的操作，展示操作界面；

响应于对所述操作界面的第四操作，向服务器发送台词获取请求。

8.一种视频台词提取装置，其特征在于，包括：

9.根据权利要求8所述的装置，其中，所述台词文本获取单元，用于：

10.根据权利要求9所述的装置，其中，所述每一个角色的语音识别模型包括模型特征参数；其中，所述台词文本获取单元，用于：

根据所述语音数据，确定语音数据特征参数；

11.根据权利要求9所述的装置，其中，所述台词文本获取单元，用于：

12.根据权利要求8所述的装置，其中，所述台词文本获取单元，用于：

13.一种视频台词提取装置，其特征在于，包括：

请求发送单元，用于向服务器发送台词获取请求，该台词获取请求中包括所述视频的标识、所述确定的所述视频中一个或多个角色的对白时间段及角色标识，以使服务器根据所述视频的标识获取音频数据，根据所述一个或多个角色的对白时间段从所述音频数据中获取每个角色的训练语音样本，并将其与对应角色的角色标识相关联，从所述音频数据中提取按时间排序的多个语音数据，根据所述每个角色的训练语音样本，从每个角色的训练语音样本中确定各语音数据对应的训练语音样本，根据与训练语音样本关联的角色标识确定所述多个语音数据中每个语音数据对应的角色标识；将每一个语音数据转换为台词文本，将每一个语音数据对应的台词文本及其对应的角色标识按照所述语音数据的排序保存在台词文件中；

接收单元，用于接收服务器发送的台词文件。

14.根据权利要求13所述的装置，其中，所述角色参数获取单元，用于：

响应于对台词获取控件的操作，展示操作界面；

15.一种计算机可读存储介质，存储有计算机可读指令，可以使至少一个处理器执行如权利要求1-7任一项所述的方法。