CN105244022B

CN105244022B - 音视频字幕生成方法及装置

Info

Publication number: CN105244022B
Application number: CN201510629172.XA
Authority: CN
Inventors: 周明; 江源; 王影; 胡国平; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2015-09-28
Filing date: 2015-09-28
Publication date: 2019-10-18
Anticipated expiration: 2035-09-28
Also published as: CN105244022A

Abstract

本发明公开了一种音视频字幕生成方法及装置，该方法包括：接收待生成字幕的语音数据及文本数据；根据发音人韵律对所述语音数据进行切分，得到符合说话人习惯的各语音数据段；根据所述语音数据段对所述文本数据进行切分，得到与所述语音数据段对应的文本数据段；根据各语音数据段的时间信息获取与所述语音数据段对应的文本数据段的开始时间和结束时间。本发明可以简单高效地实现文本数据的显示与语音数据的同步，使生成的字幕更完整。

Description

音视频字幕生成方法及装置

技术领域

本发明涉及语音处理技术领域，具体涉及一种音视频字幕生成方法及装置。

背景技术

随着移动互联网的发展和智能终端的普及，人们对物质文化的需求越来越多样性，如人们的阅读习惯正从纸质书籍向数字化媒体转移，出现了与书籍相关的音视频，人们可以通过听有声读物的音频或看相关视频来达到阅读的目的。字幕的出现，使音视频以一种更加直观可靠的方式帮助人们了解音视频的内容，越来越多的用户习惯了添加字幕的音视频文件，然而由于字幕的制作较复杂，尤其是使用大段的语音数据与大段的文本数据来生成字幕，甚至无法生成，从而造成如有声小说类音视频经常没有字幕，用户只能依靠听到的内容进行理解，用户体验效果较差。

现有的音视频字幕的生成方法一般直接将大段的语音数据与大段的文本数据通过动态规划的方法进行同步后，根据同步结果将文本数据显示给用户。这种方法直接使用大段的语音数据及大段文本数据进行动态规划，由于动态规划方法需要根据文本和语音长度构建搜索空间，查找最优路径，根据最优路径对语音数据和文本数据进行同步；如果文本数据与语音数据的长度较长时，很难查找到最优路径，查找效率越低，并且查找过程对硬件的要求也较高，很难达到实用效果。

发明内容

本发明提供一种音视频字幕生成方法及装置，以简单高效地实现文本数据的显示与语音数据的同步，使生成的字幕更完整。

为此，本发明提供如下技术方案：

一种音视频字幕生成方法，包括：

接收待生成字幕的语音数据及文本数据；

根据发音人韵律对所述语音数据进行切分，得到符合说话人习惯的各语音数据段；

根据所述语音数据段对所述文本数据进行切分，得到与所述语音数据段对应的文本数据段；

根据各语音数据段的时间信息获取与所述语音数据段对应的文本数据段的开始时间和结束时间。

优选地，所述根据所述语音数据段对所述文本数据进行切分，得到与所述语音数据段对应的文本数据段包括：

对各语音数据段进行语音识别，得到与各语音数据段对应的识别文本段，并依序形成识别文本段序列；

滤除所述文本数据中的特殊字符及标点，得到过滤后文本数据，并在所述过滤后文本数据中对应标点的位置设置标记点；

采用锚点匹配方法依次匹配所述识别文本段序列中各识别文本段与所述过滤后文本数据，以确定所述过滤后文本数据中的锚点位置；

根据确定的锚点位置对所述文本数据进行切分，得到与所述语音数据段对应的文本数据段。

优选地，所述采用锚点匹配方法依次匹配所述识别文本段序列中各识别文本段与所述过滤后文本数据包括：

从所述过滤后文本数据的起始位置开始设置锚点，并获取当前识别文本段；

匹配过程：依次截取锚点位置至锚点位置后的标记点之间的文本作为待匹配文本段，如果当前标记点不是过滤后文本数据的结束位置，则计算待匹配文本段与当前识别文本段的匹配度，直至所述匹配度大于设定阈值后，将所述待匹配文本段对应的标记点作为新的锚点，并获取下一个识别文本段作为当前识别文本段，继续执行所述匹配过程。

优选地，所述方法还包括：

对各文本数据段与其对应的语音数据段进行精确同步；

根据精确同步结果，得到各文本数据段中的各字和/或词的时间信息。

优选地，所述对各文本数据段与其对应的语音数据段进行精确同步包括：

对各文本数据段进行分词及字音转换，得到所述文本数据段的发音符号序列；

将所述文本数据段的发音符号序列转换为语法单元序列；

将所述语法单元序列转换为上下文标注序列；

提取各文本数据段对应的语音数据段的频谱特征；

利用所述上下文标注序列及所述频谱特征对所述文本数据段与对应的语音数据段进行精确同步。

优选地，所述利用所述上下文标注序列及所述频谱特征对所述文本数据段与对应的语音数据段进行精确同步包括：

获取所述上下文标注序列与每帧语音数据的声学特征之间的最优路径；

根据所述最优路径将所述上下文标注序列与每帧语音数据进行对齐。

一种音视频字幕生成装置，包括：

接收模块，用于接收待生成字幕的语音数据及文本数据；

语音数据切分模块，用于根据发音人韵律对所述语音数据进行切分，得到符合说话人习惯的各语音数据段；

文本数据切分模块，用于根据所述语音数据段对所述文本数据进行切分，得到与所述语音数据段对应的文本数据段；

第一时间信息获取模块，用于根据各语音数据段的时间信息获取与所述语音数据段对应的文本数据段的开始时间和结束时间。

优选地，所述文本数据切分模块包括：

语音识别单元，用于对各语音数据段进行语音识别，得到与各语音数据段对应的识别文本段，并依序形成识别文本段序列；

过滤单元，用于滤除所述文本数据中的特殊字符及标点，得到过滤后文本数据，并在所述过滤后文本数据中对应标点的位置设置标记点；

匹配单元，用于采用锚点匹配方法依次匹配所述识别文本段序列中各识别文本段与所述过滤后文本数据，以确定所述过滤后文本数据中的锚点位置；

切分单元，用于根据确定的锚点位置对所述文本数据进行切分，得到与所述语音数据段对应的文本数据段。

优选地，所述匹配单元，具体用于从所述过滤后文本数据的起始位置开始设置锚点，并获取当前识别文本段，执行匹配过程：依次截取锚点位置至锚点位置后的标记点之间的文本作为待匹配文本段，如果当前标记点不是过滤后文本数据的结束位置，则计算待匹配文本段与当前识别文本段的匹配度，直至所述匹配度大于设定阈值后，将所述待匹配文本段对应的标记点作为新的锚点，并获取下一个识别文本段作为当前识别文本段，继续执行所述匹配过程。

优选地，所述装置还包括：

精确同步模块，用于对各文本数据段与其对应的语音数据段进行精确同步；

第二时间信息获取模块，用于根据所述精确同步模块的精确同步结果，得到各文本数据段中的各字和/或词的时间信息。

优选地，所述精确同步模块包括：

分词单元，用于对各文本数据段进行分词，得到分词序列；

字音转换单元，用于对所述分词序列进行字音转换，得到所述文本数据段的发音符号序列；

语法单元序列生成单元，用于将所述文本数据段的发音符号序列转换为语法单元序列；

上下文标注序列生成单元，用于将所述语法单元序列转换为上下文标注序列；

特征提取单元，用于提取各文本数据段对应的语音数据段的频谱特征；

精确同步单元，用于利用所述上下文标注序列及所述频谱特征对所述文本数据段与对应的语音数据段进行精确同步。

优选地，所述精确同步单元包括：

最优路径获取子单元，用于获取所述上下文标注序列与每帧语音数据的声学特征之间的最优路径；

对齐子单元，用于根据所述最优路径将所述上下文标注序列与每帧语音数据进行对齐。

本发明实施例提供的音视频字幕生成方法及装置，结合发音韵律对待生成字幕的大段语音数据进行切分，得到多个语音数据段，然后根据各语音数据段对待生成字幕的文本数据进行切分，得到与所述语音数据段对应的文本数据段。由于切分得到的语音数据段更符合发音人的断句习惯，从而可以使各文本数据段语义更完整，在字幕显示时，更容易让人理解，而且有效提高了同步效率，降低了硬件要求。

进一步地，本发明实施例以文本数据段为单位进行文本数据段与语音数据段的精确同步，得到各文本数据段中的各字和/或词的时间信息，从而使字幕与语音的同步更精确。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例音视频字幕生成方法的一种流程图；

图2是本发明实施例中采用锚点匹配方法对识别文本段与过滤后文本数据进行匹配的流程图；

图3是本发明实施例中对各文本数据段与其对应的语音数据段进行精确同步的流程图；

图4是本发明实施例音视频字幕生成装置的一种结构示意图；

图5是本发明实施例中文本数据切分模块的一种结构示意图；

图6是本发明实施例音视频字幕生成装置的另一种结构示意图；

图7是本发明实施例中精确同步模块的一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

如图1所示，是本发明实施例音视频字幕生成方法的一种流程图，包括以下步骤：

步骤101，接收待生成字幕的语音数据及文本数据。

所述语音数据一般为大段语音数据且时长较长，所述文本数据一般为未切分的大段文本数据。如有声小说的语音数据和文本数据，一般都较长。

步骤102，根据发音人韵律对所述语音数据进行切分，得到符合说话人习惯的各语音数据段。

根据发音人的韵律对语音数据进行切分，主要表现在语音数据中静寂段的分布，所述静寂段在语音数据中主要表现为无声的语音段。根据静寂段对语音数据进行切分时，需要考虑切分后语音数据段语义的完整性；如果语音数据含多个静寂段，需要在语义完整的静寂段处切分。

例如：语音数据“这时候，(sil#1)即使曾经统领数十万大军(sil#2)征战疆场的将军，(sil#3)也会由于激动和恐惧(sil#4)而双腿战栗。(sil#5)”，其中(sil#)表示该处是静寂段，数字为静寂段编号。考虑到语义的完整性，不应该在(sil#2)和(sil#4)处切分语音数据。

为了描述方便，将(sil#2)和(sil#4)称为韵律短语停顿；(sil#1)、(sil#3)和(sil#5)称为语调短语停顿。所述韵律短语停顿是指发生在句子内部的停顿，它通常预示说话时的间歇或过渡；而语调短语停顿是发生在句子之间的停顿，它预示了一个完整语义段的结束。这两类停顿具有不同的声学表现形式，如语调短语停顿的时长一般要大于韵律短语停顿的时长；语调短语停顿边界处的基频重置程度要大于韵律短语停顿边界处的基频重置程度，所述基频重置程度表示不同音节之间的基频差异。如上例中，(sil#3)处前后音节的基频重置程度，即“军”和“也”的基频差异，大于(sil#2)处前后音节的基频重置程度，即“军”和“征”的基频差异。这是由于在韵律短语停顿处语义未完整，边界前后要保持音势相连；而在语调短语停顿处由于语义完整，则无需保持音势相连。

因此，在本发明实施例中，可以根据韵律短语停顿和语调短语停顿在声学上的不同表现，预先收集发音人语音数据，提取相应声学特征，构建韵律切分模型，所述声学特征如停顿时长、边界前后的基频重置值等；然后利用所述韵律切分模型对接收语音数据静寂段类型进行预测，根据预测结果对语音数据进行切分。为了保证切分后的语音数据段语义的完整性，在本发明实施例中，仅在语调短语停顿处对语音数据进行切分，得到与发音人韵律相关的语音数据段。

步骤103，根据所述语音数据段对所述文本数据进行切分，得到与所述语音数据段对应的文本数据段。具体过程如下：

a)对各语音数据段进行语音识别，得到与各语音数据段对应的识别文本段，并依序形成识别文本段序列。

对各语音数据段的语音识别可采用现有技术，在此不再详细描述。

b)滤除所述文本数据中的特殊字符及标点，得到过滤后文本数据，并在所述过滤后文本数据中对应标点的位置设置标记点。

也就是说，对所述文本数据过滤后得到纯文本数据。如文本数据为“最后，轰隆一声，黑色魔墙龟裂，而后炸开。伴着血雨，它彻底解体，被击毁了。”，过滤掉特殊字符及标点符号后的纯文本为“最后#轰隆一声#黑色魔墙龟裂#而后炸开#伴着血雨#它彻底解体#被击毁了#”。其中，“#”表示标记点符号，当然在实际应用中不限于该符号，也可使用其它符号标记。另外，也可将标记点信息存储在其它文件中，在这种情况下，还需要记录各标记点在过滤后文本中的位置。

c)采用锚点匹配方法依次匹配所述识别文本段序列中各识别文本段与所述过滤后文本数据，以确定所述过滤后文本数据中的锚点位置。

所述锚点匹配方法，即在文本匹配时，设置锚点，计算匹配文本的匹配度，当匹配度大于匹配度阈值时，重新设置锚点进行文本匹配，所述匹配度如可以使用匹配文本的最小编辑距离来表示。

具体到本发明实施例，首先从所述过滤后文本数据的起始位置开始设置锚点，并获取当前识别文本段，然后执行匹配过程：依次截取锚点位置至锚点位置后的标记点之间的文本作为待匹配数据段，如果当前标记点不是过滤后文本数据的结束位置，则计算待匹配文本段与当前识别文本段的匹配度，直至所述匹配度大于设定阈值后，将所述待匹配文本段对应的标记点作为新的锚点，继续所述匹配过程。详细的匹配过程还将在后面结合附图做进一步说明。

d)根据确定的锚点位置对所述文本数据进行切分，得到与所述语音数据段对应的文本数据段。

由于每个人说话韵律不同，如有的人语速较快，有的人语速较慢；因此，在字幕生成时，根据发音人韵律对语音数据及文本数据进行同步，即根据说话人的断句习惯对语音数据进行分句，并将文本数据与分句后的语音数据段进行同步，从而可以得到符合说话人习惯的语音数据段及与其同步的文本数据段。

步骤104，根据各语音数据段的时间信息获取与所述语音数据段对应的文本数据段的开始时间和结束时间。

也就是说，得到各文本数据段在语音数据上的开始时间与结束时间。

具体地，可以根据语音数据与文本数据的同步结果，生成时间标签文件。所述时间标签文件如：

[Begin time]文本段1[End time]

[Begin time]文本段2[End time]

……

这样，在进行字幕显示时，可以根据时间标签文件，实现待生成字幕的文本数据与语音数据的同步显示。

如图2所示，是本发明实施例中采用锚点匹配方法对识别文本段与过滤后文本数据进行匹配的流程图，包括以下步骤：

步骤201，在过滤后文本数据的起始位置设置锚点。

步骤202，截取锚点位置与锚点位置后的首个标记点之间的文本，作为待匹配文本段。

步骤203，判断当前标记点是否为过滤后文本数据的结束位置；如果是，执行步骤208；否则，执行步骤204。

步骤204，计算待匹配文本段与当前识别文本段的匹配度。

所述匹配度用来衡量两段文本之间的相似程度，匹配度越大，两段文本越相似，匹配度的计算主要基于两段文本之间的最小编辑距离计算得到，如式(1)所示：

其中，MDeg(A,B)为文本A与文本B的匹配度，Edit(A,B)为文本A与文本B之间的最小编辑距离，即将文本A转换成文本B需要的最小编辑操作次数，所述编辑操作为删除、替换和插入。MaxL(A,B)为文本A和文本B的最大长度。

如文本A为“在位于世界东方庞大的大清帝国里”，文本B为“在位于世界东方的庞大的中华帝国里”，将待匹配文本A转换为待匹配文本B需要的编辑操作为1次插入操作，即“东方”后插入“的”，2次替换操作，即“大”替换为“中”，“清”替换为“华”，即可将文本A转换成与文本B相同的文本，将文本A转换成文本B共经过了3次操作，因此，文本A与文本B的匹配度根据式(1)计算得到：按照百分制的方式可以写为81.25％。

步骤205，判断当前识别文本段与待匹配文本段的匹配度是否大于预先设定的匹配度阈值；如果是，执行步骤206；否则，执行步骤207。

步骤206，在过滤后文本数据中找到当前标记点，在当前标记点处设置新的锚点，将下一段识别文本段作为当前识别文本段，然后执行步骤202。

步骤207，找到过滤后文本数据中当前标记点的下一个标记点，截取锚点位置到下一个标记点之间的文本作为待匹配文本段，然后执行步骤203。

步骤208，结束匹配过程。

例如：当前识别文本段为“多德福和他的翻译看见一片结了薄冰的水面”，过滤后文本数据为“懵懵懂懂的多德福和他的翻译#看见了一片已经结了薄冰的水面#穿过一条跨越水面的小石桥#多德福知道自己已经到达那个叫做南海瀛台的小岛了#孤独的小宫殿就在岛上#”，其中“#”为标记点，具体匹配过程如下：

1)将过滤后文本数据的起始点设置为锚点；

2)截取锚点位置到第一个标记点的文本“懵懵懂懂的多德福和他的翻译”作为待匹配文本段；

3)根据式(1)计算识别文本段与待匹配文本段之间的匹配度，得到匹配度为15％，当前标记点不是过滤后文本数据的结束位置，并且匹配度小于预先设定的阈值，如70％；

4)找到过滤后文本数据中当前标记点的下一个标记点，截取锚点位置到下一个标记点之间的纯文本“懵懵懂懂的多德福和他的翻译看见了一片已经结了薄冰的水面”，作为待匹配文本段；

5)根据式(1)计算小段识别文本与待匹配文本之间的匹配度，得到匹配度为74.1％，当前标记点不是过滤后文本数据的结束位置，并且匹配度大于预先设定的阈值；

6)在过滤后文本数据中找到当前标记点，在当前标记点处设置新的锚点，将下一段识别文本作为当前识别文本段；然后按照上述方式计算识别文本段与待匹配文本段之间的匹配度。依此类推，直到匹配至过滤后文本数据中的最的一个标记点。

可见，本发明实施例提供的音视频字幕生成方法，结合发音韵律对待生成字幕的大段语音数据进行切分，得到多个语音数据段，然后根据各语音数据段对待生成字幕的文本数据进行切分，得到与所述语音数据段对应的文本数据段。由于切分得到的语音数据段更符合发音人的断句习惯，从而可以使各文本数据段语义更完整，在字幕显示时，更容易让人理解，而且有效提高了同步效率，降低了硬件要求。

进一步地，为了得到更精确的时间信息，在本发明方法另一实施例中，还可将得到的各文本数据段与对应的语音数据段进行精确同步，根据精确同步结果，得到更精确的时间信息，如各文本数据段中的各字和/或词的时间信息。

如图3所示，是本发明实施例中对各文本数据段与其对应的语音数据段进行精确同步的流程图，包括以下步骤：

步骤301，对各文本数据段进行分词及字音转换，得到所述文本数据段的发音符号序列。

具体的分词方法可采用现有技术，如基于条件随机场的方法对文本数据段进行分词，得到分词结果。

所述字音转换是指将文本转换为对应的发音符号序列。对文本进行字音转换时，可以通过查字典或预先训练韵律模型的方法，得到各文本数据段的发音符号序列。

如文本数据段为“黑色魔墙龟裂”，分词结果为：黑色魔墙龟裂；进行字音转换后得到发音符号序列为：hei1se4mo2qiang2jun1lie4。其中，字符表示文本的发音符号，数字表示声调，如使用0～9表示声调，0调表示一般的必读轻声词，如：的、呢、啊等；1～4调分别对应于中文中的阴、阳、上、去声；6～9调表示轻读词，它是由对1～4调的弱读而得到。

步骤302，将所述文本数据段的发音符号序列转换为语法单元序列。

所述语法单元为建模使用的最小单位，如音素或音节等。将步骤301得到的发音符号序列以语法单元为单位进行转换，得到各文本数据段的语法单元序列。具体转换方式可以采用现有技术，比如根据一些预设的规则进行转换。

如发音符号序列为：hei1se4mo2qiang2jun1lie4；

以音素为单位，转换为语法单元序列为：xx-h-ei-s-e-m-o-q-iang-j-vn-l-ie-xx。

步骤303，将所述语法单元序列转换为上下文标注序列。

所述上下文标注序列为当前语法单元及其前后多个语法单元序列组成的序列，如triphone序列为当前语法单元序列及其前后一个语法单元组成的序列。具体转换方式可以采用现有技术，比如根据一些预设的规则进行转换。

如语法单元序列xx-h-ei-s-e-m-o-q-iang-j-vn-l-ie-xx；

转换为上下文标注的triphone序列为：xx-h+ei，h-ei+s，ei-s+e，s-e+m，e-m+o，m-o+q，o-q+iang，q-iang+j，iang-j+vn，j-vn+l，vn-l+ie，l-ie+xx；

其中，“-”表示前一个语法单元，“+”表示后一个语法单元。

步骤304，提取各文本数据段对应的语音数据段的频谱特征。

所述频谱特征如MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)特征，该特征可以将语音数据的特性在梅尔域中表现出来，是一种符合人耳听觉的频域特征；当然也可以提取其它频谱特征，如LSP(LinearSpectrumPairs，线性频谱对)特征。

步骤305，利用所述上下文标注序列及所述频谱特征对所述文本数据段与对应的语音数据段进行精确同步。

比如，可以采用动态规划方法等，获取所述上下文标注序列与每帧语音数据的声学特征之间的最优路径，然后根据所述最优路径将所述上下文标注序列与每帧语音数据进行对齐，从而实现文本数据段与语音数据的精确同步。具体对齐过程可采用现有技术，在此不再详细描述。

本发明实施例提供的音视频字幕生成方法，不仅可以使各文本数据段语义更完整，在字幕显示时，更容易让人理解。而且，通过进一步以文本数据段为单位进行文本数据段与语音数据段的精确同步，得到各文本数据段中的各字和/或词的时间信息，从而使字幕与语音的同步更精确。相应地，本发明实施例还提供一种音视频字幕生成装置，如图4所示，是该装置的一种结构示意图。

在该实施例中，所述装置包括：

接收模块41，用于接收待生成字幕的语音数据及文本数据；

语音数据切分模块42，用于根据发音人韵律对所述语音数据进行切分，得到符合说话人习惯的各语音数据段；

文本数据切分模块43，用于根据所述语音数据段对所述文本数据进行切分，得到与所述语音数据段对应的文本数据段；

第一时间信息获取模块44，用于根据各语音数据段的时间信息获取与所述语音数据段对应的文本数据段的开始时间和结束时间。

所述文本数据切分模块的一种具体结构如图5所示，包括以下各单元：

语音识别单元S51，用于对各语音数据段进行语音识别，得到与各语音数据段对应的识别文本段，并依序形成识别文本段序列；

过滤单元S52，用于滤除所述文本数据中的特殊字符及标点，得到过滤后文本数据，并在所述过滤后文本数据中对应标点的位置设置标记点；

匹配单元S53，用于采用锚点匹配方法依次匹配所述识别文本段序列中各识别文本段与所述过滤后文本数据，以确定所述过滤后文本数据中的锚点位置；

切分单元S54，用于根据确定的锚点位置对所述文本数据进行切分，得到与所述语音数据段对应的文本数据段。

上述匹配单元S53具体可以从所述过滤后文本数据的起始位置开始设置锚点，并获取当前识别文本段，执行匹配过程：依次截取锚点位置至锚点位置后的标记点之间的文本作为待匹配文本段，如果当前标记点不是过滤后文本数据的结束位置，则计算待匹配文本段与当前识别文本段的匹配度，直至所述匹配度大于设定阈值后，将所述待匹配文本段对应的标记点作为新的锚点，并获取下一个识别文本段作为当前识别文本段，继续执行所述匹配过程。锚点匹配的详细过程可参见前面本发明方法实施例中的描述，在此不再赘述。

可见，本发明实施例提供的音视频字幕生成装置，结合发音韵律对待生成字幕的大段语音数据进行切分，得到多个语音数据段，然后根据各语音数据段对待生成字幕的文本数据进行切分，得到与所述语音数据段对应的文本数据段。由于切分得到的语音数据段更符合发音人的断句习惯，从而可以使各文本数据段语义更完整，在字幕显示时，更容易让人理解，而且有效提高了同步效率，降低了硬件要求。

进一步地，为了得到更精确的时间信息，如图6所示，在本发明装置另一实施例中，还包括：

精确同步模块45，用于对各文本数据段与其对应的语音数据段进行精确同步；

第二时间信息获取模块46，用于根据所述精确同步模块的精确同步结果，得到各文本数据段中的各字和/或词的时间信息。

上述精确同步模块45对各文本数据段与其对应的语音数据段进行精确同步，该模块的一种具体结构如图7所示，包括：

分词单元S71，用于对各文本数据段进行分词，得到分词序列；

字音转换单元S72，用于对所述分词序列进行字音转换，得到所述文本数据段的发音符号序列；

语法单元序列生成单元S73，用于将所述文本数据段的发音符号序列转换为语法单元序列；

上下文标注序列生成单元S74，用于将所述语法单元序列转换为上下文标注序列；

特征提取单元S75，用于提取各文本数据段对应的语音数据段的频谱特征；

精确同步单元S76，用于利用所述上下文标注序列及所述频谱特征对所述文本数据段与对应的语音数据段进行精确同步。

上述各种不同序列的转换过程可参见前面本发明方法实施例中的描述，在此不再赘述。

精确同步单元S76可以通过获取上下文标注序列与每帧语音数据的声学特征之间的最优路径，然后根据所述最优路径将所述上下文标注序列与每帧语音数据进行对齐，从而实现文本数据段与语音数据的精确同步。相应地，精确同步单元S76的一种具体结构可以包括：

可见，本发明实施例提供的音视频字幕生成装置，不仅可以使各文本数据段语义更完整，在字幕显示时，更容易让人理解。而且，通过进一步以文本数据段为单位进行文本数据段与语音数据段的精确同步，得到各文本数据段中的各字和/或词的时间信息，从而使字幕与语音的同步更精确。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及装置；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音视频字幕生成方法，其特征在于，包括：

接收待生成字幕的语音数据及文本数据；

根据发音人韵律对所述语音数据进行切分，得到符合说话人习惯的各语音数据段；所述根据发音人韵律对所述语音数据进行切分，包括：基于语音停顿的声学表现形式，对所述语音数据的静寂段进行分类，并根据分类结果对所述语音数据进行切分；

2.根据权利要求1所述的方法，其特征在于，所述根据所述语音数据段对所述文本数据进行切分，得到与所述语音数据段对应的文本数据段包括：

3.根据权利要求2所述的方法，其特征在于，所述采用锚点匹配方法依次匹配所述识别文本段序列中各识别文本段与所述过滤后文本数据包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：

对各文本数据段与其对应的语音数据段进行精确同步；

5.根据权利要求4所述的方法，其特征在于，所述对各文本数据段与其对应的语音数据段进行精确同步包括：

将所述文本数据段的发音符号序列转换为语法单元序列；

将所述语法单元序列转换为上下文标注序列；

提取各文本数据段对应的语音数据段的频谱特征；

6.根据权利要求5所述的方法，其特征在于，所述利用所述上下文标注序列及所述频谱特征对所述文本数据段与对应的语音数据段进行精确同步包括：

7.一种音视频字幕生成装置，其特征在于，包括：

接收模块，用于接收待生成字幕的语音数据及文本数据；

语音数据切分模块，用于根据发音人韵律对所述语音数据进行切分，得到符合说话人习惯的各语音数据段；所述根据发音人韵律对所述语音数据进行切分，包括：基于语音停顿的声学表现形式，对所述语音数据的静寂段进行分类，并根据分类结果对所述语音数据进行切分；

8.根据权利要求7所述的装置，其特征在于，所述文本数据切分模块包括：

9.根据权利要求8所述的装置，其特征在于，

所述匹配单元，具体用于从所述过滤后文本数据的起始位置开始设置锚点，并获取当前识别文本段，执行匹配过程：依次截取锚点位置至锚点位置后的标记点之间的文本作为待匹配文本段，如果当前标记点不是过滤后文本数据的结束位置，则计算待匹配文本段与当前识别文本段的匹配度，直至所述匹配度大于设定阈值后，将所述待匹配文本段对应的标记点作为新的锚点，并获取下一个识别文本段作为当前识别文本段，继续执行所述匹配过程。

10.根据权利要求7至9任一项所述的装置，其特征在于，所述装置还包括：

11.根据权利要求10所述的装置，其特征在于，所述精确同步模块包括：

分词单元，用于对各文本数据段进行分词，得到分词序列；

12.根据权利要求11所述的装置，其特征在于，所述精确同步单元包括：