CN105244022B - 音视频字幕生成方法及装置 - Google Patents
音视频字幕生成方法及装置 Download PDFInfo
- Publication number
- CN105244022B CN105244022B CN201510629172.XA CN201510629172A CN105244022B CN 105244022 B CN105244022 B CN 105244022B CN 201510629172 A CN201510629172 A CN 201510629172A CN 105244022 B CN105244022 B CN 105244022B
- Authority
- CN
- China
- Prior art keywords
- text
- voice data
- text data
- section
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Studio Circuits (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种音视频字幕生成方法及装置,该方法包括:接收待生成字幕的语音数据及文本数据;根据发音人韵律对所述语音数据进行切分,得到符合说话人习惯的各语音数据段;根据所述语音数据段对所述文本数据进行切分,得到与所述语音数据段对应的文本数据段;根据各语音数据段的时间信息获取与所述语音数据段对应的文本数据段的开始时间和结束时间。本发明可以简单高效地实现文本数据的显示与语音数据的同步,使生成的字幕更完整。
Description
技术领域
本发明涉及语音处理技术领域,具体涉及一种音视频字幕生成方法及装置。
背景技术
随着移动互联网的发展和智能终端的普及,人们对物质文化的需求越来越多样性,如人们的阅读习惯正从纸质书籍向数字化媒体转移,出现了与书籍相关的音视频,人们可以通过听有声读物的音频或看相关视频来达到阅读的目的。字幕的出现,使音视频以一种更加直观可靠的方式帮助人们了解音视频的内容,越来越多的用户习惯了添加字幕的音视频文件,然而由于字幕的制作较复杂,尤其是使用大段的语音数据与大段的文本数据来生成字幕,甚至无法生成,从而造成如有声小说类音视频经常没有字幕,用户只能依靠听到的内容进行理解,用户体验效果较差。
现有的音视频字幕的生成方法一般直接将大段的语音数据与大段的文本数据通过动态规划的方法进行同步后,根据同步结果将文本数据显示给用户。这种方法直接使用大段的语音数据及大段文本数据进行动态规划,由于动态规划方法需要根据文本和语音长度构建搜索空间,查找最优路径,根据最优路径对语音数据和文本数据进行同步;如果文本数据与语音数据的长度较长时,很难查找到最优路径,查找效率越低,并且查找过程对硬件的要求也较高,很难达到实用效果。
发明内容
本发明提供一种音视频字幕生成方法及装置,以简单高效地实现文本数据的显示与语音数据的同步,使生成的字幕更完整。
为此,本发明提供如下技术方案:
一种音视频字幕生成方法,包括:
接收待生成字幕的语音数据及文本数据;
根据发音人韵律对所述语音数据进行切分,得到符合说话人习惯的各语音数据段;
根据所述语音数据段对所述文本数据进行切分,得到与所述语音数据段对应的文本数据段;
根据各语音数据段的时间信息获取与所述语音数据段对应的文本数据段的开始时间和结束时间。
优选地,所述根据所述语音数据段对所述文本数据进行切分,得到与所述语音数据段对应的文本数据段包括:
对各语音数据段进行语音识别,得到与各语音数据段对应的识别文本段,并依序形成识别文本段序列;
滤除所述文本数据中的特殊字符及标点,得到过滤后文本数据,并在所述过滤后文本数据中对应标点的位置设置标记点;
采用锚点匹配方法依次匹配所述识别文本段序列中各识别文本段与所述过滤后文本数据,以确定所述过滤后文本数据中的锚点位置;
根据确定的锚点位置对所述文本数据进行切分,得到与所述语音数据段对应的文本数据段。
优选地,所述采用锚点匹配方法依次匹配所述识别文本段序列中各识别文本段与所述过滤后文本数据包括:
从所述过滤后文本数据的起始位置开始设置锚点,并获取当前识别文本段;
匹配过程:依次截取锚点位置至锚点位置后的标记点之间的文本作为待匹配文本段,如果当前标记点不是过滤后文本数据的结束位置,则计算待匹配文本段与当前识别文本段的匹配度,直至所述匹配度大于设定阈值后,将所述待匹配文本段对应的标记点作为新的锚点,并获取下一个识别文本段作为当前识别文本段,继续执行所述匹配过程。
优选地,所述方法还包括:
对各文本数据段与其对应的语音数据段进行精确同步;
根据精确同步结果,得到各文本数据段中的各字和/或词的时间信息。
优选地,所述对各文本数据段与其对应的语音数据段进行精确同步包括:
对各文本数据段进行分词及字音转换,得到所述文本数据段的发音符号序列;
将所述文本数据段的发音符号序列转换为语法单元序列;
将所述语法单元序列转换为上下文标注序列;
提取各文本数据段对应的语音数据段的频谱特征;
利用所述上下文标注序列及所述频谱特征对所述文本数据段与对应的语音数据段进行精确同步。
优选地,所述利用所述上下文标注序列及所述频谱特征对所述文本数据段与对应的语音数据段进行精确同步包括:
获取所述上下文标注序列与每帧语音数据的声学特征之间的最优路径;
根据所述最优路径将所述上下文标注序列与每帧语音数据进行对齐。
一种音视频字幕生成装置,包括:
接收模块,用于接收待生成字幕的语音数据及文本数据;
语音数据切分模块,用于根据发音人韵律对所述语音数据进行切分,得到符合说话人习惯的各语音数据段;
文本数据切分模块,用于根据所述语音数据段对所述文本数据进行切分,得到与所述语音数据段对应的文本数据段;
第一时间信息获取模块,用于根据各语音数据段的时间信息获取与所述语音数据段对应的文本数据段的开始时间和结束时间。
优选地,所述文本数据切分模块包括:
语音识别单元,用于对各语音数据段进行语音识别,得到与各语音数据段对应的识别文本段,并依序形成识别文本段序列;
过滤单元,用于滤除所述文本数据中的特殊字符及标点,得到过滤后文本数据,并在所述过滤后文本数据中对应标点的位置设置标记点;
匹配单元,用于采用锚点匹配方法依次匹配所述识别文本段序列中各识别文本段与所述过滤后文本数据,以确定所述过滤后文本数据中的锚点位置;
切分单元,用于根据确定的锚点位置对所述文本数据进行切分,得到与所述语音数据段对应的文本数据段。
优选地,所述匹配单元,具体用于从所述过滤后文本数据的起始位置开始设置锚点,并获取当前识别文本段,执行匹配过程:依次截取锚点位置至锚点位置后的标记点之间的文本作为待匹配文本段,如果当前标记点不是过滤后文本数据的结束位置,则计算待匹配文本段与当前识别文本段的匹配度,直至所述匹配度大于设定阈值后,将所述待匹配文本段对应的标记点作为新的锚点,并获取下一个识别文本段作为当前识别文本段,继续执行所述匹配过程。
优选地,所述装置还包括:
精确同步模块,用于对各文本数据段与其对应的语音数据段进行精确同步;
第二时间信息获取模块,用于根据所述精确同步模块的精确同步结果,得到各文本数据段中的各字和/或词的时间信息。
优选地,所述精确同步模块包括:
分词单元,用于对各文本数据段进行分词,得到分词序列;
字音转换单元,用于对所述分词序列进行字音转换,得到所述文本数据段的发音符号序列;
语法单元序列生成单元,用于将所述文本数据段的发音符号序列转换为语法单元序列;
上下文标注序列生成单元,用于将所述语法单元序列转换为上下文标注序列;
特征提取单元,用于提取各文本数据段对应的语音数据段的频谱特征;
精确同步单元,用于利用所述上下文标注序列及所述频谱特征对所述文本数据段与对应的语音数据段进行精确同步。
优选地,所述精确同步单元包括:
最优路径获取子单元,用于获取所述上下文标注序列与每帧语音数据的声学特征之间的最优路径;
对齐子单元,用于根据所述最优路径将所述上下文标注序列与每帧语音数据进行对齐。
本发明实施例提供的音视频字幕生成方法及装置,结合发音韵律对待生成字幕的大段语音数据进行切分,得到多个语音数据段,然后根据各语音数据段对待生成字幕的文本数据进行切分,得到与所述语音数据段对应的文本数据段。由于切分得到的语音数据段更符合发音人的断句习惯,从而可以使各文本数据段语义更完整,在字幕显示时,更容易让人理解,而且有效提高了同步效率,降低了硬件要求。
进一步地,本发明实施例以文本数据段为单位进行文本数据段与语音数据段的精确同步,得到各文本数据段中的各字和/或词的时间信息,从而使字幕与语音的同步更精确。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例音视频字幕生成方法的一种流程图;
图2是本发明实施例中采用锚点匹配方法对识别文本段与过滤后文本数据进行匹配的流程图;
图3是本发明实施例中对各文本数据段与其对应的语音数据段进行精确同步的流程图;
图4是本发明实施例音视频字幕生成装置的一种结构示意图;
图5是本发明实施例中文本数据切分模块的一种结构示意图;
图6是本发明实施例音视频字幕生成装置的另一种结构示意图;
图7是本发明实施例中精确同步模块的一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
如图1所示,是本发明实施例音视频字幕生成方法的一种流程图,包括以下步骤:
步骤101,接收待生成字幕的语音数据及文本数据。
所述语音数据一般为大段语音数据且时长较长,所述文本数据一般为未切分的大段文本数据。如有声小说的语音数据和文本数据,一般都较长。
步骤102,根据发音人韵律对所述语音数据进行切分,得到符合说话人习惯的各语音数据段。
根据发音人的韵律对语音数据进行切分,主要表现在语音数据中静寂段的分布,所述静寂段在语音数据中主要表现为无声的语音段。根据静寂段对语音数据进行切分时,需要考虑切分后语音数据段语义的完整性;如果语音数据含多个静寂段,需要在语义完整的静寂段处切分。
例如:语音数据“这时候,(sil#1)即使曾经统领数十万大军(sil#2)征战疆场的将军,(sil#3)也会由于激动和恐惧(sil#4)而双腿战栗。(sil#5)”,其中(sil#)表示该处是静寂段,数字为静寂段编号。考虑到语义的完整性,不应该在(sil#2)和(sil#4)处切分语音数据。
为了描述方便,将(sil#2)和(sil#4)称为韵律短语停顿;(sil#1)、(sil#3)和(sil#5)称为语调短语停顿。所述韵律短语停顿是指发生在句子内部的停顿,它通常预示说话时的间歇或过渡;而语调短语停顿是发生在句子之间的停顿,它预示了一个完整语义段的结束。这两类停顿具有不同的声学表现形式,如语调短语停顿的时长一般要大于韵律短语停顿的时长;语调短语停顿边界处的基频重置程度要大于韵律短语停顿边界处的基频重置程度,所述基频重置程度表示不同音节之间的基频差异。如上例中,(sil#3)处前后音节的基频重置程度,即“军”和“也”的基频差异,大于(sil#2)处前后音节的基频重置程度,即“军”和“征”的基频差异。这是由于在韵律短语停顿处语义未完整,边界前后要保持音势相连;而在语调短语停顿处由于语义完整,则无需保持音势相连。
因此,在本发明实施例中,可以根据韵律短语停顿和语调短语停顿在声学上的不同表现,预先收集发音人语音数据,提取相应声学特征,构建韵律切分模型,所述声学特征如停顿时长、边界前后的基频重置值等;然后利用所述韵律切分模型对接收语音数据静寂段类型进行预测,根据预测结果对语音数据进行切分。为了保证切分后的语音数据段语义的完整性,在本发明实施例中,仅在语调短语停顿处对语音数据进行切分,得到与发音人韵律相关的语音数据段。
步骤103,根据所述语音数据段对所述文本数据进行切分,得到与所述语音数据段对应的文本数据段。具体过程如下:
a)对各语音数据段进行语音识别,得到与各语音数据段对应的识别文本段,并依序形成识别文本段序列。
对各语音数据段的语音识别可采用现有技术,在此不再详细描述。
b)滤除所述文本数据中的特殊字符及标点,得到过滤后文本数据,并在所述过滤后文本数据中对应标点的位置设置标记点。
也就是说,对所述文本数据过滤后得到纯文本数据。如文本数据为“最后,轰隆一声,黑色魔墙龟裂,而后炸开。伴着血雨,它彻底解体,被击毁了。”,过滤掉特殊字符及标点符号后的纯文本为“最后#轰隆一声#黑色魔墙龟裂#而后炸开#伴着血雨#它彻底解体#被击毁了#”。其中,“#”表示标记点符号,当然在实际应用中不限于该符号,也可使用其它符号标记。另外,也可将标记点信息存储在其它文件中,在这种情况下,还需要记录各标记点在过滤后文本中的位置。
c)采用锚点匹配方法依次匹配所述识别文本段序列中各识别文本段与所述过滤后文本数据,以确定所述过滤后文本数据中的锚点位置。
所述锚点匹配方法,即在文本匹配时,设置锚点,计算匹配文本的匹配度,当匹配度大于匹配度阈值时,重新设置锚点进行文本匹配,所述匹配度如可以使用匹配文本的最小编辑距离来表示。
具体到本发明实施例,首先从所述过滤后文本数据的起始位置开始设置锚点,并获取当前识别文本段,然后执行匹配过程:依次截取锚点位置至锚点位置后的标记点之间的文本作为待匹配数据段,如果当前标记点不是过滤后文本数据的结束位置,则计算待匹配文本段与当前识别文本段的匹配度,直至所述匹配度大于设定阈值后,将所述待匹配文本段对应的标记点作为新的锚点,继续所述匹配过程。详细的匹配过程还将在后面结合附图做进一步说明。
d)根据确定的锚点位置对所述文本数据进行切分,得到与所述语音数据段对应的文本数据段。
由于每个人说话韵律不同,如有的人语速较快,有的人语速较慢;因此,在字幕生成时,根据发音人韵律对语音数据及文本数据进行同步,即根据说话人的断句习惯对语音数据进行分句,并将文本数据与分句后的语音数据段进行同步,从而可以得到符合说话人习惯的语音数据段及与其同步的文本数据段。
步骤104,根据各语音数据段的时间信息获取与所述语音数据段对应的文本数据段的开始时间和结束时间。
也就是说,得到各文本数据段在语音数据上的开始时间与结束时间。
具体地,可以根据语音数据与文本数据的同步结果,生成时间标签文件。所述时间标签文件如:
[Begin time]文本段1[End time]
[Begin time]文本段2[End time]
……
这样,在进行字幕显示时,可以根据时间标签文件,实现待生成字幕的文本数据与语音数据的同步显示。
如图2所示,是本发明实施例中采用锚点匹配方法对识别文本段与过滤后文本数据进行匹配的流程图,包括以下步骤:
步骤201,在过滤后文本数据的起始位置设置锚点。
步骤202,截取锚点位置与锚点位置后的首个标记点之间的文本,作为待匹配文本段。
步骤203,判断当前标记点是否为过滤后文本数据的结束位置;如果是,执行步骤208;否则,执行步骤204。
步骤204,计算待匹配文本段与当前识别文本段的匹配度。
所述匹配度用来衡量两段文本之间的相似程度,匹配度越大,两段文本越相似,匹配度的计算主要基于两段文本之间的最小编辑距离计算得到,如式(1)所示:
其中,MDeg(A,B)为文本A与文本B的匹配度,Edit(A,B)为文本A与文本B之间的最小编辑距离,即将文本A转换成文本B需要的最小编辑操作次数,所述编辑操作为删除、替换和插入。MaxL(A,B)为文本A和文本B的最大长度。
如文本A为“在位于世界东方庞大的大清帝国里”,文本B为“在位于世界东方的庞大的中华帝国里”,将待匹配文本A转换为待匹配文本B需要的编辑操作为1次插入操作,即“东方”后插入“的”,2次替换操作,即“大”替换为“中”,“清”替换为“华”,即可将文本A转换成与文本B相同的文本,将文本A转换成文本B共经过了3次操作,因此,文本A与文本B的匹配度根据式(1)计算得到:按照百分制的方式可以写为81.25%。
步骤205,判断当前识别文本段与待匹配文本段的匹配度是否大于预先设定的匹配度阈值;如果是,执行步骤206;否则,执行步骤207。
步骤206,在过滤后文本数据中找到当前标记点,在当前标记点处设置新的锚点,将下一段识别文本段作为当前识别文本段,然后执行步骤202。
步骤207,找到过滤后文本数据中当前标记点的下一个标记点,截取锚点位置到下一个标记点之间的文本作为待匹配文本段,然后执行步骤203。
步骤208,结束匹配过程。
例如:当前识别文本段为“多德福和他的翻译看见一片结了薄冰的水面”,过滤后文本数据为“懵懵懂懂的多德福和他的翻译#看见了一片已经结了薄冰的水面#穿过一条跨越水面的小石桥#多德福知道自己已经到达那个叫做南海瀛台的小岛了#孤独的小宫殿就在岛上#”,其中“#”为标记点,具体匹配过程如下:
1)将过滤后文本数据的起始点设置为锚点;
2)截取锚点位置到第一个标记点的文本“懵懵懂懂的多德福和他的翻译”作为待匹配文本段;
3)根据式(1)计算识别文本段与待匹配文本段之间的匹配度,得到匹配度为15%,当前标记点不是过滤后文本数据的结束位置,并且匹配度小于预先设定的阈值,如70%;
4)找到过滤后文本数据中当前标记点的下一个标记点,截取锚点位置到下一个标记点之间的纯文本“懵懵懂懂的多德福和他的翻译看见了一片已经结了薄冰的水面”,作为待匹配文本段;
5)根据式(1)计算小段识别文本与待匹配文本之间的匹配度,得到匹配度为74.1%,当前标记点不是过滤后文本数据的结束位置,并且匹配度大于预先设定的阈值;
6)在过滤后文本数据中找到当前标记点,在当前标记点处设置新的锚点,将下一段识别文本作为当前识别文本段;然后按照上述方式计算识别文本段与待匹配文本段之间的匹配度。依此类推,直到匹配至过滤后文本数据中的最的一个标记点。
可见,本发明实施例提供的音视频字幕生成方法,结合发音韵律对待生成字幕的大段语音数据进行切分,得到多个语音数据段,然后根据各语音数据段对待生成字幕的文本数据进行切分,得到与所述语音数据段对应的文本数据段。由于切分得到的语音数据段更符合发音人的断句习惯,从而可以使各文本数据段语义更完整,在字幕显示时,更容易让人理解,而且有效提高了同步效率,降低了硬件要求。
进一步地,为了得到更精确的时间信息,在本发明方法另一实施例中,还可将得到的各文本数据段与对应的语音数据段进行精确同步,根据精确同步结果,得到更精确的时间信息,如各文本数据段中的各字和/或词的时间信息。
如图3所示,是本发明实施例中对各文本数据段与其对应的语音数据段进行精确同步的流程图,包括以下步骤:
步骤301,对各文本数据段进行分词及字音转换,得到所述文本数据段的发音符号序列。
具体的分词方法可采用现有技术,如基于条件随机场的方法对文本数据段进行分词,得到分词结果。
所述字音转换是指将文本转换为对应的发音符号序列。对文本进行字音转换时,可以通过查字典或预先训练韵律模型的方法,得到各文本数据段的发音符号序列。
如文本数据段为“黑色魔墙龟裂”,分词结果为:黑色魔墙龟裂;进行字音转换后得到发音符号序列为:hei1se4mo2qiang2jun1lie4。其中,字符表示文本的发音符号,数字表示声调,如使用0~9表示声调,0调表示一般的必读轻声词,如:的、呢、啊等;1~4调分别对应于中文中的阴、阳、上、去声;6~9调表示轻读词,它是由对1~4调的弱读而得到。
步骤302,将所述文本数据段的发音符号序列转换为语法单元序列。
所述语法单元为建模使用的最小单位,如音素或音节等。将步骤301得到的发音符号序列以语法单元为单位进行转换,得到各文本数据段的语法单元序列。具体转换方式可以采用现有技术,比如根据一些预设的规则进行转换。
如发音符号序列为:hei1se4mo2qiang2jun1lie4;
以音素为单位,转换为语法单元序列为:xx-h-ei-s-e-m-o-q-iang-j-vn-l-ie-xx。
步骤303,将所述语法单元序列转换为上下文标注序列。
所述上下文标注序列为当前语法单元及其前后多个语法单元序列组成的序列,如triphone序列为当前语法单元序列及其前后一个语法单元组成的序列。具体转换方式可以采用现有技术,比如根据一些预设的规则进行转换。
如语法单元序列xx-h-ei-s-e-m-o-q-iang-j-vn-l-ie-xx;
转换为上下文标注的triphone序列为:xx-h+ei,h-ei+s,ei-s+e,s-e+m,e-m+o,m-o+q,o-q+iang,q-iang+j,iang-j+vn,j-vn+l,vn-l+ie,l-ie+xx;
其中,“-”表示前一个语法单元,“+”表示后一个语法单元。
步骤304,提取各文本数据段对应的语音数据段的频谱特征。
所述频谱特征如MFCC(Mel Frequency Cepstrum Coefficient,梅尔频率倒谱系数)特征,该特征可以将语音数据的特性在梅尔域中表现出来,是一种符合人耳听觉的频域特征;当然也可以提取其它频谱特征,如LSP(LinearSpectrumPairs,线性频谱对)特征。
步骤305,利用所述上下文标注序列及所述频谱特征对所述文本数据段与对应的语音数据段进行精确同步。
比如,可以采用动态规划方法等,获取所述上下文标注序列与每帧语音数据的声学特征之间的最优路径,然后根据所述最优路径将所述上下文标注序列与每帧语音数据进行对齐,从而实现文本数据段与语音数据的精确同步。具体对齐过程可采用现有技术,在此不再详细描述。
本发明实施例提供的音视频字幕生成方法,不仅可以使各文本数据段语义更完整,在字幕显示时,更容易让人理解。而且,通过进一步以文本数据段为单位进行文本数据段与语音数据段的精确同步,得到各文本数据段中的各字和/或词的时间信息,从而使字幕与语音的同步更精确。相应地,本发明实施例还提供一种音视频字幕生成装置,如图4所示,是该装置的一种结构示意图。
在该实施例中,所述装置包括:
接收模块41,用于接收待生成字幕的语音数据及文本数据;
语音数据切分模块42,用于根据发音人韵律对所述语音数据进行切分,得到符合说话人习惯的各语音数据段;
文本数据切分模块43,用于根据所述语音数据段对所述文本数据进行切分,得到与所述语音数据段对应的文本数据段;
第一时间信息获取模块44,用于根据各语音数据段的时间信息获取与所述语音数据段对应的文本数据段的开始时间和结束时间。
所述文本数据切分模块的一种具体结构如图5所示,包括以下各单元:
语音识别单元S51,用于对各语音数据段进行语音识别,得到与各语音数据段对应的识别文本段,并依序形成识别文本段序列;
过滤单元S52,用于滤除所述文本数据中的特殊字符及标点,得到过滤后文本数据,并在所述过滤后文本数据中对应标点的位置设置标记点;
匹配单元S53,用于采用锚点匹配方法依次匹配所述识别文本段序列中各识别文本段与所述过滤后文本数据,以确定所述过滤后文本数据中的锚点位置;
切分单元S54,用于根据确定的锚点位置对所述文本数据进行切分,得到与所述语音数据段对应的文本数据段。
上述匹配单元S53具体可以从所述过滤后文本数据的起始位置开始设置锚点,并获取当前识别文本段,执行匹配过程:依次截取锚点位置至锚点位置后的标记点之间的文本作为待匹配文本段,如果当前标记点不是过滤后文本数据的结束位置,则计算待匹配文本段与当前识别文本段的匹配度,直至所述匹配度大于设定阈值后,将所述待匹配文本段对应的标记点作为新的锚点,并获取下一个识别文本段作为当前识别文本段,继续执行所述匹配过程。锚点匹配的详细过程可参见前面本发明方法实施例中的描述,在此不再赘述。
可见,本发明实施例提供的音视频字幕生成装置,结合发音韵律对待生成字幕的大段语音数据进行切分,得到多个语音数据段,然后根据各语音数据段对待生成字幕的文本数据进行切分,得到与所述语音数据段对应的文本数据段。由于切分得到的语音数据段更符合发音人的断句习惯,从而可以使各文本数据段语义更完整,在字幕显示时,更容易让人理解,而且有效提高了同步效率,降低了硬件要求。
进一步地,为了得到更精确的时间信息,如图6所示,在本发明装置另一实施例中,还包括:
精确同步模块45,用于对各文本数据段与其对应的语音数据段进行精确同步;
第二时间信息获取模块46,用于根据所述精确同步模块的精确同步结果,得到各文本数据段中的各字和/或词的时间信息。
上述精确同步模块45对各文本数据段与其对应的语音数据段进行精确同步,该模块的一种具体结构如图7所示,包括:
分词单元S71,用于对各文本数据段进行分词,得到分词序列;
字音转换单元S72,用于对所述分词序列进行字音转换,得到所述文本数据段的发音符号序列;
语法单元序列生成单元S73,用于将所述文本数据段的发音符号序列转换为语法单元序列;
上下文标注序列生成单元S74,用于将所述语法单元序列转换为上下文标注序列;
特征提取单元S75,用于提取各文本数据段对应的语音数据段的频谱特征;
精确同步单元S76,用于利用所述上下文标注序列及所述频谱特征对所述文本数据段与对应的语音数据段进行精确同步。
上述各种不同序列的转换过程可参见前面本发明方法实施例中的描述,在此不再赘述。
精确同步单元S76可以通过获取上下文标注序列与每帧语音数据的声学特征之间的最优路径,然后根据所述最优路径将所述上下文标注序列与每帧语音数据进行对齐,从而实现文本数据段与语音数据的精确同步。相应地,精确同步单元S76的一种具体结构可以包括:
最优路径获取子单元,用于获取所述上下文标注序列与每帧语音数据的声学特征之间的最优路径;
对齐子单元,用于根据所述最优路径将所述上下文标注序列与每帧语音数据进行对齐。
可见,本发明实施例提供的音视频字幕生成装置,不仅可以使各文本数据段语义更完整,在字幕显示时,更容易让人理解。而且,通过进一步以文本数据段为单位进行文本数据段与语音数据段的精确同步,得到各文本数据段中的各字和/或词的时间信息,从而使字幕与语音的同步更精确。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及装置;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (12)
1.一种音视频字幕生成方法,其特征在于,包括:
接收待生成字幕的语音数据及文本数据;
根据发音人韵律对所述语音数据进行切分,得到符合说话人习惯的各语音数据段;所述根据发音人韵律对所述语音数据进行切分,包括:基于语音停顿的声学表现形式,对所述语音数据的静寂段进行分类,并根据分类结果对所述语音数据进行切分;
根据所述语音数据段对所述文本数据进行切分,得到与所述语音数据段对应的文本数据段;
根据各语音数据段的时间信息获取与所述语音数据段对应的文本数据段的开始时间和结束时间。
2.根据权利要求1所述的方法,其特征在于,所述根据所述语音数据段对所述文本数据进行切分,得到与所述语音数据段对应的文本数据段包括:
对各语音数据段进行语音识别,得到与各语音数据段对应的识别文本段,并依序形成识别文本段序列;
滤除所述文本数据中的特殊字符及标点,得到过滤后文本数据,并在所述过滤后文本数据中对应标点的位置设置标记点;
采用锚点匹配方法依次匹配所述识别文本段序列中各识别文本段与所述过滤后文本数据,以确定所述过滤后文本数据中的锚点位置;
根据确定的锚点位置对所述文本数据进行切分,得到与所述语音数据段对应的文本数据段。
3.根据权利要求2所述的方法,其特征在于,所述采用锚点匹配方法依次匹配所述识别文本段序列中各识别文本段与所述过滤后文本数据包括:
从所述过滤后文本数据的起始位置开始设置锚点,并获取当前识别文本段;
匹配过程:依次截取锚点位置至锚点位置后的标记点之间的文本作为待匹配文本段,如果当前标记点不是过滤后文本数据的结束位置,则计算待匹配文本段与当前识别文本段的匹配度,直至所述匹配度大于设定阈值后,将所述待匹配文本段对应的标记点作为新的锚点,并获取下一个识别文本段作为当前识别文本段,继续执行所述匹配过程。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:
对各文本数据段与其对应的语音数据段进行精确同步;
根据精确同步结果,得到各文本数据段中的各字和/或词的时间信息。
5.根据权利要求4所述的方法,其特征在于,所述对各文本数据段与其对应的语音数据段进行精确同步包括:
对各文本数据段进行分词及字音转换,得到所述文本数据段的发音符号序列;
将所述文本数据段的发音符号序列转换为语法单元序列;
将所述语法单元序列转换为上下文标注序列;
提取各文本数据段对应的语音数据段的频谱特征;
利用所述上下文标注序列及所述频谱特征对所述文本数据段与对应的语音数据段进行精确同步。
6.根据权利要求5所述的方法,其特征在于,所述利用所述上下文标注序列及所述频谱特征对所述文本数据段与对应的语音数据段进行精确同步包括:
获取所述上下文标注序列与每帧语音数据的声学特征之间的最优路径;
根据所述最优路径将所述上下文标注序列与每帧语音数据进行对齐。
7.一种音视频字幕生成装置,其特征在于,包括:
接收模块,用于接收待生成字幕的语音数据及文本数据;
语音数据切分模块,用于根据发音人韵律对所述语音数据进行切分,得到符合说话人习惯的各语音数据段;所述根据发音人韵律对所述语音数据进行切分,包括:基于语音停顿的声学表现形式,对所述语音数据的静寂段进行分类,并根据分类结果对所述语音数据进行切分;
文本数据切分模块,用于根据所述语音数据段对所述文本数据进行切分,得到与所述语音数据段对应的文本数据段;
第一时间信息获取模块,用于根据各语音数据段的时间信息获取与所述语音数据段对应的文本数据段的开始时间和结束时间。
8.根据权利要求7所述的装置,其特征在于,所述文本数据切分模块包括:
语音识别单元,用于对各语音数据段进行语音识别,得到与各语音数据段对应的识别文本段,并依序形成识别文本段序列;
过滤单元,用于滤除所述文本数据中的特殊字符及标点,得到过滤后文本数据,并在所述过滤后文本数据中对应标点的位置设置标记点;
匹配单元,用于采用锚点匹配方法依次匹配所述识别文本段序列中各识别文本段与所述过滤后文本数据,以确定所述过滤后文本数据中的锚点位置;
切分单元,用于根据确定的锚点位置对所述文本数据进行切分,得到与所述语音数据段对应的文本数据段。
9.根据权利要求8所述的装置,其特征在于,
所述匹配单元,具体用于从所述过滤后文本数据的起始位置开始设置锚点,并获取当前识别文本段,执行匹配过程:依次截取锚点位置至锚点位置后的标记点之间的文本作为待匹配文本段,如果当前标记点不是过滤后文本数据的结束位置,则计算待匹配文本段与当前识别文本段的匹配度,直至所述匹配度大于设定阈值后,将所述待匹配文本段对应的标记点作为新的锚点,并获取下一个识别文本段作为当前识别文本段,继续执行所述匹配过程。
10.根据权利要求7至9任一项所述的装置,其特征在于,所述装置还包括:
精确同步模块,用于对各文本数据段与其对应的语音数据段进行精确同步;
第二时间信息获取模块,用于根据所述精确同步模块的精确同步结果,得到各文本数据段中的各字和/或词的时间信息。
11.根据权利要求10所述的装置,其特征在于,所述精确同步模块包括:
分词单元,用于对各文本数据段进行分词,得到分词序列;
字音转换单元,用于对所述分词序列进行字音转换,得到所述文本数据段的发音符号序列;
语法单元序列生成单元,用于将所述文本数据段的发音符号序列转换为语法单元序列;
上下文标注序列生成单元,用于将所述语法单元序列转换为上下文标注序列;
特征提取单元,用于提取各文本数据段对应的语音数据段的频谱特征;
精确同步单元,用于利用所述上下文标注序列及所述频谱特征对所述文本数据段与对应的语音数据段进行精确同步。
12.根据权利要求11所述的装置,其特征在于,所述精确同步单元包括:
最优路径获取子单元,用于获取所述上下文标注序列与每帧语音数据的声学特征之间的最优路径;
对齐子单元,用于根据所述最优路径将所述上下文标注序列与每帧语音数据进行对齐。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510629172.XA CN105244022B (zh) | 2015-09-28 | 2015-09-28 | 音视频字幕生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510629172.XA CN105244022B (zh) | 2015-09-28 | 2015-09-28 | 音视频字幕生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105244022A CN105244022A (zh) | 2016-01-13 |
CN105244022B true CN105244022B (zh) | 2019-10-18 |
Family
ID=55041644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510629172.XA Active CN105244022B (zh) | 2015-09-28 | 2015-09-28 | 音视频字幕生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105244022B (zh) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105845126A (zh) * | 2016-05-23 | 2016-08-10 | 渤海大学 | 一种英语有声影像资料自动加注英语字幕的方法 |
CN107562760B (zh) * | 2016-06-30 | 2020-11-17 | 科大讯飞股份有限公司 | 一种语音数据处理方法及装置 |
CN106331893B (zh) * | 2016-08-31 | 2019-09-03 | 科大讯飞股份有限公司 | 实时字幕显示方法及系统 |
CN106486125A (zh) * | 2016-09-29 | 2017-03-08 | 安徽声讯信息技术有限公司 | 一种基于语音识别技术的同声传译系统 |
CN107220228B (zh) * | 2017-06-13 | 2019-08-16 | 深圳市鹰硕技术有限公司 | 一种教学录播数据修正装置 |
CN107247706B (zh) * | 2017-06-16 | 2021-06-25 | 中国电子技术标准化研究院 | 文本断句模型建立方法、断句方法、装置及计算机设备 |
CN107704447A (zh) * | 2017-08-23 | 2018-02-16 | 海信集团有限公司 | 一种中文分词方法、中文分词装置和终端 |
CN108536654B (zh) * | 2018-04-13 | 2022-05-17 | 科大讯飞股份有限公司 | 识别文本展示方法及装置 |
CN109145149B (zh) * | 2018-08-16 | 2021-05-04 | 科大讯飞股份有限公司 | 一种信息对齐方法、装置、设备及可读存储介质 |
CN109379641B (zh) * | 2018-11-14 | 2022-06-03 | 腾讯科技(深圳)有限公司 | 一种字幕生成方法和装置 |
CN109830229A (zh) * | 2018-12-11 | 2019-05-31 | 平安科技(深圳)有限公司 | 音频语料智能清洗方法、装置、存储介质和计算机设备 |
CN109743613B (zh) * | 2018-12-29 | 2022-01-18 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种字幕处理方法、装置、终端及存储介质 |
CN109754809B (zh) * | 2019-01-29 | 2021-02-09 | 北京猎户星空科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN110264997A (zh) * | 2019-05-30 | 2019-09-20 | 北京百度网讯科技有限公司 | 语音断句的方法、装置和存储介质 |
CN110675896B (zh) * | 2019-09-30 | 2021-10-22 | 北京字节跳动网络技术有限公司 | 用于音频的文字时间对齐方法、装置、介质及电子设备 |
CN110798733A (zh) * | 2019-10-30 | 2020-02-14 | 中央电视台 | 一种字幕生成方法、装置及计算机存储介质、电子设备 |
CN111079424A (zh) * | 2019-11-15 | 2020-04-28 | 泰康保险集团股份有限公司 | 一种信息审核方法和装置 |
CN111091834B (zh) * | 2019-12-23 | 2022-09-06 | 科大讯飞股份有限公司 | 文本与音频对齐方法及相关产品 |
CN114386406B (zh) * | 2020-10-16 | 2024-04-09 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置、计算机设备及存储介质 |
CN112652329B (zh) * | 2020-11-10 | 2022-03-18 | 北京字跳网络技术有限公司 | 文本重对齐方法、装置、电子设备和存储介质 |
CN112686018A (zh) * | 2020-12-23 | 2021-04-20 | 科大讯飞股份有限公司 | 一种文本分割方法、装置、设备及存储介质 |
CN112887779B (zh) * | 2021-01-20 | 2022-11-18 | 杭州小众圈科技有限公司 | 基于语音节奏进行自动滚动字幕的方法、系统及装置 |
CN115906781B (zh) * | 2022-12-15 | 2023-11-24 | 广州文石信息科技有限公司 | 音频识别加锚点方法、装置、设备及可读存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1870728A (zh) * | 2005-05-23 | 2006-11-29 | 北京大学 | 自动加配字幕的方法和系统 |
JP2007256714A (ja) * | 2006-03-24 | 2007-10-04 | Internatl Business Mach Corp <Ibm> | 字幕修正装置 |
CN101505397A (zh) * | 2009-02-20 | 2009-08-12 | 深圳华为通信技术有限公司 | 一种语音和视频字幕同步呈现的方法及系统 |
CN101894547A (zh) * | 2010-06-30 | 2010-11-24 | 北京捷通华声语音技术有限公司 | 一种语音合成方法和系统 |
CN101996631A (zh) * | 2009-08-28 | 2011-03-30 | 国际商业机器公司 | 用于对齐文本的方法和装置 |
CN102801925A (zh) * | 2012-08-08 | 2012-11-28 | 无锡天脉聚源传媒科技有限公司 | 一种字幕加配的方法及装置 |
CN103559214A (zh) * | 2013-10-11 | 2014-02-05 | 中国农业大学 | 视频自动生成方法及装置 |
CN103561217A (zh) * | 2013-10-14 | 2014-02-05 | 深圳创维数字技术股份有限公司 | 一种生成字幕的方法及终端 |
CN104900233A (zh) * | 2015-05-12 | 2015-09-09 | 深圳市东方泰明科技有限公司 | 一种声音与文本全自动匹配对齐的方法 |
-
2015
- 2015-09-28 CN CN201510629172.XA patent/CN105244022B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1870728A (zh) * | 2005-05-23 | 2006-11-29 | 北京大学 | 自动加配字幕的方法和系统 |
JP2007256714A (ja) * | 2006-03-24 | 2007-10-04 | Internatl Business Mach Corp <Ibm> | 字幕修正装置 |
CN101505397A (zh) * | 2009-02-20 | 2009-08-12 | 深圳华为通信技术有限公司 | 一种语音和视频字幕同步呈现的方法及系统 |
CN101996631A (zh) * | 2009-08-28 | 2011-03-30 | 国际商业机器公司 | 用于对齐文本的方法和装置 |
CN101894547A (zh) * | 2010-06-30 | 2010-11-24 | 北京捷通华声语音技术有限公司 | 一种语音合成方法和系统 |
CN102801925A (zh) * | 2012-08-08 | 2012-11-28 | 无锡天脉聚源传媒科技有限公司 | 一种字幕加配的方法及装置 |
CN103559214A (zh) * | 2013-10-11 | 2014-02-05 | 中国农业大学 | 视频自动生成方法及装置 |
CN103561217A (zh) * | 2013-10-14 | 2014-02-05 | 深圳创维数字技术股份有限公司 | 一种生成字幕的方法及终端 |
CN104900233A (zh) * | 2015-05-12 | 2015-09-09 | 深圳市东方泰明科技有限公司 | 一种声音与文本全自动匹配对齐的方法 |
Non-Patent Citations (2)
Title |
---|
《全自动中文新闻字幕生成系统的设计与实现》;郑李磊等;《电子学报》;20110331;第39卷(第3A期);第69-74页 * |
《双语语料库段落重组对齐方法研究》;李维刚等;《全国第七届计算语言学联合学术会议》;20030831;第332-338页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105244022A (zh) | 2016-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105244022B (zh) | 音视频字幕生成方法及装置 | |
CN108447486B (zh) | 一种语音翻译方法及装置 | |
CN102779508B (zh) | 语音库生成设备及其方法、语音合成系统及其方法 | |
US20160365087A1 (en) | High end speech synthesis | |
CN106710585B (zh) | 语音交互过程中的多音字播报方法及系统 | |
CN104899192B (zh) | 用于自动通译的设备和方法 | |
CN106205601B (zh) | 确定文本语音单元的方法及系统 | |
CN108305611A (zh) | 文本转语音的方法、装置、存储介质和计算机设备 | |
Van Bael et al. | Automatic phonetic transcription of large speech corpora | |
Masmoudi et al. | Phonetic tool for the Tunisian Arabic | |
Henrichsen et al. | Predicting the attitude flow in dialogue based on multi-modal speech cues | |
Rasipuram et al. | Grapheme and multilingual posterior features for under-resourced speech recognition: a study on scottish gaelic | |
KR101920653B1 (ko) | 비교음 생성을 통한 어학학습방법 및 어학학습프로그램 | |
CN109859746A (zh) | 一种基于tts的语音识别语料库生成方法及系统 | |
Magdum et al. | Methodology for designing and creating Hindi speech corpus | |
Wang et al. | Cloud-based automatic speech recognition systems for southeast asian languages | |
Hwang et al. | Korean speech recognition using phonemics for lip-sync animation | |
Aunkaew et al. | Development of a corpus for southern thai dialect speech recognition: Design and text preparation | |
Bruce et al. | Modelling of Swedish text and discourse intonation in a speech synthesis framework | |
KR20130067854A (ko) | 코퍼스 기반 언어모델 변별학습 방법 및 그 장치 | |
Mortensen et al. | Tusom2021: A phonetically transcribed speech dataset from an endangered language for universal phone recognition experiments | |
Al Hanai et al. | Lexical modeling for Arabic ASR: a systematic approach. | |
Bansal et al. | Development of Text and Speech Corpus for Designing the Multilingual Recognition System | |
Campr et al. | Automatic fingersign to speech translator | |
Polyákova et al. | Introducing nativization to spanish TTS systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |