CN103680499A

CN103680499A - 基于语音和字幕同步的高精度识别方法及系统

Info

Publication number: CN103680499A
Application number: CN201310632270.XA
Authority: CN
Inventors: 陈见耸; 徐波
Original assignee: BEIJING PATTEK Co Ltd
Current assignee: BEIJING PATTEK Co Ltd
Priority date: 2013-11-29
Filing date: 2013-11-29
Publication date: 2014-03-26
Anticipated expiration: 2033-11-29
Also published as: CN103680499B

Abstract

本发明公开了一种基于语音和字幕同步的高精度识别方法，包括步骤：S1、进行自动语音识别，获取语音识别的前M条优选识别路径，以及每条优选识别路径对应的识别结果；S2、进行字幕识别，获取字幕识别的前L条优选识别路径，以及每条优选路径对应的识别结果；S3、将所述的语音识别的前M条优选识别路径和所述的字幕识别的前L条优选识别路径合并为候选序列集合；S4、对所述候选序列集合中的每个候选字集，根据投票得分规则选择得分最高的字作为该节点对应的字，得到融合的识别结果。本发明使用了融合两种识别方法，利用两种不同信号源的信息可以达到更高精度的识别结果，使用了字出现的频率信息以及字的置信度信息，使得结果选择更加可靠。

Description

基于语音和字幕同步的高精度识别方法及系统

技术领域

本发明涉及模式识别技术领域，特别涉及一种基于语音和字幕同步的高精度识别方法及系统。

背景技术

随着互联网和数字多媒体内容的发展，数字视频尤其是广播电视视频传播迅速，如何对广播电视视频进行快速有效的检索具有重要的应用价值。想达到对广播电视视频的内容进行检索的需求，需要对广播电视的内容进行识别，比如语音识别为文本，字幕识别文本，然后利用文本进行检索，这其中语音识别和字幕识别起到重要的作用。

然而单独的语音识别方法受到方言、口语等因素的影响，目前无法达到高准确率的水平；单独的字幕识别方法受到复杂背景、多样的字体形态的影响，目前也无法达到高准确率的水平。由于语音识别的结果和字幕识别的结果来源于不同信源的信号，因此这两种识别方法得到的结果具有很好的互补性和差异性，很自然的可以将两种识别方法的结果融合起来。目前文献中几乎没有融合语音识别和字幕识别结果的识别方法。唯一检索到的相关的一篇是《Improved parcel sorting bycombining automatic speech and character recognition》，该文章仅仅采用了简单的规则将两种识别结果融合起来。

发明内容

（一）要解决的技术问题

本发明所要解决的技术问题是：如何提供一种基于语音和字幕同步的高精度识别方法，以提高同时具有语音和字幕的视频的识别精度。

（二）技术方案

为解决上述问题，本发明提供一种基于语音和字幕同步的高精度识别方法，包括步骤：S1、进行自动语音识别，获取语音识别的前M条优选识别路径，以及每条优选识别路径对应的识别结果；其中，M取值1,2，…N;

S2、进行字幕识别，获取字幕识别的前L条优选识别路径，以及每条优选路径对应的识别结果；其中，L取值1,2，…N;

S3、将所述的语音识别的前M条优选识别路径和所述的字幕识别的前L条优选识别路径合并为新的候选序列集合；

S4、对所述候选序列集合中的每个候选字集，根据投票得分规则选择得分最高的字作为该节点对应的字，得到融合的识别结果。

优选地，所述步骤S3具体包括：

S31、选择任一条语音识别的优选路径或字幕识别的优选路径作为候选序列集合的初始路径；

S32、根据最小编辑距离准则，将其他优选路径中的一条优选路径与该候选序列集合中的初始路径对齐，得到该条优选路径上的字与初始路径上的字的对齐关系；

S33、根据对齐关系和合并规则，将该条优选路径与候选序列集合中的初始路径进行合并，得到初始候选序列集合；

S34、将步骤S33中得到的初始候选序列集合作为下一次与其他优选路径进行对齐的新的初始路径，重复步骤S32和S33；

S35、直至将所有的优选路径与上一次的初始路径合并后，形成候选序列集合。

优选地，所述投票得分规则为：

Score(w)=α(N(w,i)/N_i)+(1-α)C(w,i)

其中w表示一个独立的字，N(w,i)表示w在候选序列集合的某个候选字集i上出现的次数，N_i表示候选字集i上出现的所有字的次数，C(w,i)表示w由所述的进行自动语音识别或字幕识别给出的w的平均置信度，α表示调整两种权重的比例的参数。

优选地，对其关系包括：删除项、正确项、替换项和插入项。

本发明还提供一种基于语音和字幕同步的高精度识别系统，包括：第一模块，用于进行自动语音识别，获取语音识别的前M条优选识别路径，以及每条优选识别路径对应的识别结果；其中，M取值1,2，…N;

第二模块，用于进行字幕识别，获取字幕识别的前L条优选识别路径，以及每条优选路径对应的识别结果；其中，L取值1,2，…N;

第三模块，用于将所述的语音识别的前M条优选识别路径和所述的字幕识别的前L条优选识别路径合并为新的候选序列集合；第四模块，用于对所述候选序列集合中的每个候选字集，根据投票得分规则选择得分最高的字作为该节点对应的字，得到融合的识别结果。

优选地，所述第三模块包括：

第一子模块，用于选择任一条语音识别的优选路径或字幕识别的优选路径作为候选序列集合的初始路径；

第二子模块，用于根据最小编辑距离准则，将其他优选路径中的一条优选路径与该候选序列集合中的初始路径对齐，得到该条优选路径上的字与初始路径上的字的对齐关系；

第三子模块，用于根据对齐关系和合并规则，将该条优选路径与候选序列集合中的初始路径进行合并，得到初始候选序列集合；

第四子模块，用于将第三子模块得到的初始候选序列集合作为下一次与其他优选路径进行对齐的新的初始路径，重复第二子模块和第三子模块的动作；

第五子模块，用于直至将所有的优选路径与上一次的初始路径合并后，形成候选序列集合。

优选地，其中所述的投票得分规则为：

Score(w)=α(N(w,i)/N_i)+(1-α)C(w,i)

优选地，对齐关系包括：删除项、正确项、替换项和插入项。

（三）有益效果

本发明实施例提供一种基于语音和字幕同步的高精度识别方法及系统，从语音识别方法和字幕识别方法的结果入手，将两种识别结果融合为候选序列集合，并从候选序列集合中的每个节点中选出最优的结果。该方法使用了融合了两种识别方法，利用了两种不同信号源的信息可以达到更高精度的识别结果。在最优结果选择时，同时使用了字出现的频率信息以及字的置信度信息，使得结果选择更加可靠。

附图说明

图1为依照本发明实施例的基于语音和字幕同步的高精度识别方法的流程示意图；

图2为依照本发明实施例的构建候选序列集合的流程示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

图1是根据本发明优选实施例的基于语音和字幕同步的高精度识别方法，下面结合图1详细说明本发明的方法。对于任意一次新闻节目条目分割处理而言，都是基于执行步骤S1-S3而完成。

步骤S1，利用自动语音识别方法，得到语音识别的前M条优选识别路径，以及每条优选识别路径对应的识别结果。其中，M取值为1，2，3…N。现有的语音识别方法在识别时大都采用基于隐马尔可夫模型的方法，通过对模型采用维特比解码得到识别的路径。通常情况下，取最优的识别路径即作为识别结果。而本实施例中选择选取路径得分最高的前M条优选识别路径，作为融合的最优路径。

此外，系统还可输出识别结果中每个字的识别置信度。

步骤S2，利用字幕识别方法，得到语音识别的前L条优选识别路径，以及每条优选识别路径对应的识别结果。其中，L取值为1、2、3…N；现有的字幕识别方法在识别时也大都采用基于隐马尔可夫模型的方法，通过对模型采用维特比解码得到识别的路径。通常情况下，取最优的识别路径即作为识别结果。本文选选取路径得分最高的前N条优选识别路径，作为融合的最优路径。

此外，系统还可输出识别结果中每个字的识别置信度。

本实施例中，M的取值可以与L的取值相同，也可以不同。

步骤S3，将所述的语音识别的前M条优选识别路径和所述的字幕识别的前L条优选识别路径合并为候选序列集合，其具体步骤如下：

步骤S31，选择任一条语音识别的优选路径或字幕识别的优选路径作为候选序列集合的初始路径。如图2所示，共有三条优选路径Seq1，Seq2和Seq3，我们选择Seq1作为候选序列集合的初始路径Seq-base。

步骤S32，根据最小编辑距离准则，将其他优选路径中的一条优选路径与该候选序列集合中的初始路径对齐，得到该条优选路径上的字与初始路径上的字的对齐关系。

如图2所示，将Seq-base和Seq2根据最小编辑距离准则对齐，对比Seq-base和Seq2，其对齐关系是：a是删除项，b、d是正确项，c和z是替换项，e是插入项。

步骤S33，根据对齐关系和合并规则，将该条优选路径与候选序列集合中的初始路径进行合并，得到初始候选序列集合。合并规则为：

正确项，直接将该字加入到候选序列图中相应的弧中，如图2中b和d所示。

替换项，直接将替换的字加入到候选序列图中相应的弧中，如图2中z所示。

删除项，在候选序列图中加入一个空的字转移弧，用符号“～”表示，如图2所示，在Seq-base中a所对应的的位置添加弧“～”。

插入项，在候选序列图中插入一个转移项，如图2中e所在的位置所示。

步骤S34、将步骤S33中得到的初始候选序列集合作为下一次与其他优选路径进行对齐的新的初始路径，重复步骤S32和S33；

步骤S35、直至将所有的优选路径与上一次的初始路径合并后，形成候选序列集合。

步骤S4，对所述的候选序列集合中的每个候选字集，根据投票得分规则选择得分最高的字作该为节点对应的字，最终得到融合的识别结果。其中所述的投票得分规则为：

Score(w)=α(N(w,i)/N_i)+(1-α)C(w,i) （1）

其中w表示一个独立的字，N(w,i)表示w在候选序列集合的某个节点i上出现的次数，N_i表示节点i上出现的所有字的次数，C(w,i)表示w由所述的自动语音识别方法或字幕识别方法给出的w的平均置信度，α是由实验确定的参数，用来调整两种权重的比例。在候选序列集合中空弧“～”的置信度用Conf（～）表示。α和Conf（～）是两个参数，由训练数据训练得到。其中，具体步骤为：

S41，将带标注的数据分成两份，优选的比例为1:1，其中一份作为训练数据集，另一份作为测试数据集。

S42，在训练数据集上调整α和Conf（～），优选的采用格型搜索，使最终的字错误率（Word Error Rate，WER）最小，得到最优的α和Conf（～）的参数分别为opt（α）和opt（Conf（～））。

S43，在测试数据集上将opt（α）和opt（Conf（～））带入公式（1）中，在每个候选字集上，根据公式（1）计算该候选字集上每个独立不同的字的得分，选择得分最大的字作为该候选字集的输出的结果。

本发明的有益效果在于：从语音识别方法和字幕识别方法的结果入手，将两种识别结果融合为候选序列集合，并从候选序列集合中的每个节点中选出最优的结果。该方法使用了融合了两种识别方法，利用了两种不同信号源的信息可以达到更高精度的识别结果。在最优结果选择时，同时使用了字出现的频率信息以及字的置信度信息，使得结果选择更加可靠。

通过结合附图对本发明具体实施例的描述，本发明的其它方面及特征对本领域的技术人员而言是显而易见的。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本发明的保护范围。

Claims

1.一种基于语音和字幕同步的高精度识别方法，其特征在于，包括步骤：

S1、进行自动语音识别，获取语音识别的前M条优选识别路径，以及每条优选识别路径对应的识别结果；其中，M取值1,2，…N;

S3、将所述的语音识别的前M条优选识别路径和所述的字幕识别的前L条优选识别路径合并为候选序列集合；

2.根据权利要求1所述的方法，其中所述步骤S3具体包括：

3.根据权利要求1或2所述的方法，所述步骤S4中，所述投票得分规则为：

Score(w)=α(N(w,i)/N_i)+(1-α)C(w,i)

4.根据权利要求2所述的方法，所述对齐关系包括：删除项、正确项、替换项和插入项。

5.一种基于语音和字幕同步的高精度识别系统，其特征在于，包括：

第一模块，用于进行自动语音识别，获取语音识别的前M条优选识别路径，以及每条优选识别路径对应的识别结果；其中，M取值1,2，…N;

第三模块，用于将所述的语音识别的前M条优选识别路径和所述的字幕识别的前L条优选识别路径合并为新的候选序列集合；

第四模块，用于对所述候选序列集合中的每个候选字集，根据投票得分规则选择得分最高的字作为该节点对应的字，得到融合的识别结果。

6.根据权利要求5所述的系统，其中，所述第三模块包括：

7.根据权利要求5或6所述的系统，其中所述的投票得分规则为：

Score(w)=α(N(w,i)/N_i)+(1-α)C(w,i)

8.根据权利要求6所述的方法，所述对齐关系包括：删除项、正确项、替换项和插入项。