CN103680499A - 基于语音和字幕同步的高精度识别方法及系统 - Google Patents

基于语音和字幕同步的高精度识别方法及系统 Download PDF

Info

Publication number
CN103680499A
CN103680499A CN201310632270.XA CN201310632270A CN103680499A CN 103680499 A CN103680499 A CN 103680499A CN 201310632270 A CN201310632270 A CN 201310632270A CN 103680499 A CN103680499 A CN 103680499A
Authority
CN
China
Prior art keywords
path
recognition
collection
word
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310632270.XA
Other languages
English (en)
Other versions
CN103680499B (zh
Inventor
陈见耸
徐波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING PATTEK Co Ltd
Original Assignee
BEIJING PATTEK Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING PATTEK Co Ltd filed Critical BEIJING PATTEK Co Ltd
Priority to CN201310632270.XA priority Critical patent/CN103680499B/zh
Publication of CN103680499A publication Critical patent/CN103680499A/zh
Application granted granted Critical
Publication of CN103680499B publication Critical patent/CN103680499B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于语音和字幕同步的高精度识别方法,包括步骤:S1、进行自动语音识别,获取语音识别的前M条优选识别路径,以及每条优选识别路径对应的识别结果;S2、进行字幕识别,获取字幕识别的前L条优选识别路径,以及每条优选路径对应的识别结果;S3、将所述的语音识别的前M条优选识别路径和所述的字幕识别的前L条优选识别路径合并为候选序列集合;S4、对所述候选序列集合中的每个候选字集,根据投票得分规则选择得分最高的字作为该节点对应的字,得到融合的识别结果。本发明使用了融合两种识别方法,利用两种不同信号源的信息可以达到更高精度的识别结果,使用了字出现的频率信息以及字的置信度信息,使得结果选择更加可靠。

Description

基于语音和字幕同步的高精度识别方法及系统
技术领域
本发明涉及模式识别技术领域,特别涉及一种基于语音和字幕同步的高精度识别方法及系统。
背景技术
随着互联网和数字多媒体内容的发展,数字视频尤其是广播电视视频传播迅速,如何对广播电视视频进行快速有效的检索具有重要的应用价值。想达到对广播电视视频的内容进行检索的需求,需要对广播电视的内容进行识别,比如语音识别为文本,字幕识别文本,然后利用文本进行检索,这其中语音识别和字幕识别起到重要的作用。
然而单独的语音识别方法受到方言、口语等因素的影响,目前无法达到高准确率的水平;单独的字幕识别方法受到复杂背景、多样的字体形态的影响,目前也无法达到高准确率的水平。由于语音识别的结果和字幕识别的结果来源于不同信源的信号,因此这两种识别方法得到的结果具有很好的互补性和差异性,很自然的可以将两种识别方法的结果融合起来。目前文献中几乎没有融合语音识别和字幕识别结果的识别方法。唯一检索到的相关的一篇是《Improved parcel sorting bycombining automatic speech and character recognition》,该文章仅仅采用了简单的规则将两种识别结果融合起来。
发明内容
(一)要解决的技术问题
本发明所要解决的技术问题是:如何提供一种基于语音和字幕同步的高精度识别方法,以提高同时具有语音和字幕的视频的识别精度。
(二)技术方案
为解决上述问题,本发明提供一种基于语音和字幕同步的高精度识别方法,包括步骤:S1、进行自动语音识别,获取语音识别的前M条优选识别路径,以及每条优选识别路径对应的识别结果;其中,M取值1,2,…N;
S2、进行字幕识别,获取字幕识别的前L条优选识别路径,以及每条优选路径对应的识别结果;其中,L取值1,2,…N;
S3、将所述的语音识别的前M条优选识别路径和所述的字幕识别的前L条优选识别路径合并为新的候选序列集合;
S4、对所述候选序列集合中的每个候选字集,根据投票得分规则选择得分最高的字作为该节点对应的字,得到融合的识别结果。
优选地,所述步骤S3具体包括:
S31、选择任一条语音识别的优选路径或字幕识别的优选路径作为候选序列集合的初始路径;
S32、根据最小编辑距离准则,将其他优选路径中的一条优选路径与该候选序列集合中的初始路径对齐,得到该条优选路径上的字与初始路径上的字的对齐关系;
S33、根据对齐关系和合并规则,将该条优选路径与候选序列集合中的初始路径进行合并,得到初始候选序列集合;
S34、将步骤S33中得到的初始候选序列集合作为下一次与其他优选路径进行对齐的新的初始路径,重复步骤S32和S33;
S35、直至将所有的优选路径与上一次的初始路径合并后,形成候选序列集合。
优选地,所述投票得分规则为:
Score(w)=α(N(w,i)/Ni)+(1-α)C(w,i)
其中w表示一个独立的字,N(w,i)表示w在候选序列集合的某个候选字集i上出现的次数,Ni表示候选字集i上出现的所有字的次数,C(w,i)表示w由所述的进行自动语音识别或字幕识别给出的w的平均置信度,α表示调整两种权重的比例的参数。
优选地,对其关系包括:删除项、正确项、替换项和插入项。
本发明还提供一种基于语音和字幕同步的高精度识别系统,包括:第一模块,用于进行自动语音识别,获取语音识别的前M条优选识别路径,以及每条优选识别路径对应的识别结果;其中,M取值1,2,…N;
第二模块,用于进行字幕识别,获取字幕识别的前L条优选识别路径,以及每条优选路径对应的识别结果;其中,L取值1,2,…N;
第三模块,用于将所述的语音识别的前M条优选识别路径和所述的字幕识别的前L条优选识别路径合并为新的候选序列集合;第四模块,用于对所述候选序列集合中的每个候选字集,根据投票得分规则选择得分最高的字作为该节点对应的字,得到融合的识别结果。
优选地,所述第三模块包括:
第一子模块,用于选择任一条语音识别的优选路径或字幕识别的优选路径作为候选序列集合的初始路径;
第二子模块,用于根据最小编辑距离准则,将其他优选路径中的一条优选路径与该候选序列集合中的初始路径对齐,得到该条优选路径上的字与初始路径上的字的对齐关系;
第三子模块,用于根据对齐关系和合并规则,将该条优选路径与候选序列集合中的初始路径进行合并,得到初始候选序列集合;
第四子模块,用于将第三子模块得到的初始候选序列集合作为下一次与其他优选路径进行对齐的新的初始路径,重复第二子模块和第三子模块的动作;
第五子模块,用于直至将所有的优选路径与上一次的初始路径合并后,形成候选序列集合。
优选地,其中所述的投票得分规则为:
Score(w)=α(N(w,i)/Ni)+(1-α)C(w,i)
其中w表示一个独立的字,N(w,i)表示w在候选序列集合的某个候选字集i上出现的次数,Ni表示候选字集i上出现的所有字的次数,C(w,i)表示w由所述的进行自动语音识别或字幕识别给出的w的平均置信度,α表示调整两种权重的比例的参数。
优选地,对齐关系包括:删除项、正确项、替换项和插入项。
(三)有益效果
本发明实施例提供一种基于语音和字幕同步的高精度识别方法及系统,从语音识别方法和字幕识别方法的结果入手,将两种识别结果融合为候选序列集合,并从候选序列集合中的每个节点中选出最优的结果。该方法使用了融合了两种识别方法,利用了两种不同信号源的信息可以达到更高精度的识别结果。在最优结果选择时,同时使用了字出现的频率信息以及字的置信度信息,使得结果选择更加可靠。
附图说明
图1为依照本发明实施例的基于语音和字幕同步的高精度识别方法的流程示意图;
图2为依照本发明实施例的构建候选序列集合的流程示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1是根据本发明优选实施例的基于语音和字幕同步的高精度识别方法,下面结合图1详细说明本发明的方法。对于任意一次新闻节目条目分割处理而言,都是基于执行步骤S1-S3而完成。
步骤S1,利用自动语音识别方法,得到语音识别的前M条优选识别路径,以及每条优选识别路径对应的识别结果。其中,M取值为1,2,3…N。现有的语音识别方法在识别时大都采用基于隐马尔可夫模型的方法,通过对模型采用维特比解码得到识别的路径。通常情况下,取最优的识别路径即作为识别结果。而本实施例中选择选取路径得分最高的前M条优选识别路径,作为融合的最优路径。
此外,系统还可输出识别结果中每个字的识别置信度。
步骤S2,利用字幕识别方法,得到语音识别的前L条优选识别路径,以及每条优选识别路径对应的识别结果。其中,L取值为1、2、3…N;现有的字幕识别方法在识别时也大都采用基于隐马尔可夫模型的方法,通过对模型采用维特比解码得到识别的路径。通常情况下,取最优的识别路径即作为识别结果。本文选选取路径得分最高的前N条优选识别路径,作为融合的最优路径。
此外,系统还可输出识别结果中每个字的识别置信度。
本实施例中,M的取值可以与L的取值相同,也可以不同。
步骤S3,将所述的语音识别的前M条优选识别路径和所述的字幕识别的前L条优选识别路径合并为候选序列集合,其具体步骤如下:
步骤S31,选择任一条语音识别的优选路径或字幕识别的优选路径作为候选序列集合的初始路径。如图2所示,共有三条优选路径Seq1,Seq2和Seq3,我们选择Seq1作为候选序列集合的初始路径Seq-base。
步骤S32,根据最小编辑距离准则,将其他优选路径中的一条优选路径与该候选序列集合中的初始路径对齐,得到该条优选路径上的字与初始路径上的字的对齐关系。
如图2所示,将Seq-base和Seq2根据最小编辑距离准则对齐,对比Seq-base和Seq2,其对齐关系是:a是删除项,b、d是正确项,c和z是替换项,e是插入项。
步骤S33,根据对齐关系和合并规则,将该条优选路径与候选序列集合中的初始路径进行合并,得到初始候选序列集合。合并规则为:
正确项,直接将该字加入到候选序列图中相应的弧中,如图2中b和d所示。
替换项,直接将替换的字加入到候选序列图中相应的弧中,如图2中z所示。
删除项,在候选序列图中加入一个空的字转移弧,用符号“~”表示,如图2所示,在Seq-base中a所对应的的位置添加弧“~”。
插入项,在候选序列图中插入一个转移项,如图2中e所在的位置所示。
步骤S34、将步骤S33中得到的初始候选序列集合作为下一次与其他优选路径进行对齐的新的初始路径,重复步骤S32和S33;
步骤S35、直至将所有的优选路径与上一次的初始路径合并后,形成候选序列集合。
步骤S4,对所述的候选序列集合中的每个候选字集,根据投票得分规则选择得分最高的字作该为节点对应的字,最终得到融合的识别结果。其中所述的投票得分规则为:
Score(w)=α(N(w,i)/Ni)+(1-α)C(w,i)  (1)
其中w表示一个独立的字,N(w,i)表示w在候选序列集合的某个节点i上出现的次数,Ni表示节点i上出现的所有字的次数,C(w,i)表示w由所述的自动语音识别方法或字幕识别方法给出的w的平均置信度,α是由实验确定的参数,用来调整两种权重的比例。在候选序列集合中空弧“~”的置信度用Conf(~)表示。α和Conf(~)是两个参数,由训练数据训练得到。其中,具体步骤为:
S41,将带标注的数据分成两份,优选的比例为1:1,其中一份作为训练数据集,另一份作为测试数据集。
S42,在训练数据集上调整α和Conf(~),优选的采用格型搜索,使最终的字错误率(Word Error Rate,WER)最小,得到最优的α和Conf(~)的参数分别为opt(α)和opt(Conf(~))。
S43,在测试数据集上将opt(α)和opt(Conf(~))带入公式(1)中,在每个候选字集上,根据公式(1)计算该候选字集上每个独立不同的字的得分,选择得分最大的字作为该候选字集的输出的结果。
本发明的有益效果在于:从语音识别方法和字幕识别方法的结果入手,将两种识别结果融合为候选序列集合,并从候选序列集合中的每个节点中选出最优的结果。该方法使用了融合了两种识别方法,利用了两种不同信号源的信息可以达到更高精度的识别结果。在最优结果选择时,同时使用了字出现的频率信息以及字的置信度信息,使得结果选择更加可靠。
通过结合附图对本发明具体实施例的描述,本发明的其它方面及特征对本领域的技术人员而言是显而易见的。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。

Claims (8)

1.一种基于语音和字幕同步的高精度识别方法,其特征在于,包括步骤:
S1、进行自动语音识别,获取语音识别的前M条优选识别路径,以及每条优选识别路径对应的识别结果;其中,M取值1,2,…N;
S2、进行字幕识别,获取字幕识别的前L条优选识别路径,以及每条优选路径对应的识别结果;其中,L取值1,2,…N;
S3、将所述的语音识别的前M条优选识别路径和所述的字幕识别的前L条优选识别路径合并为候选序列集合;
S4、对所述候选序列集合中的每个候选字集,根据投票得分规则选择得分最高的字作为该节点对应的字,得到融合的识别结果。
2.根据权利要求1所述的方法,其中所述步骤S3具体包括:
S31、选择任一条语音识别的优选路径或字幕识别的优选路径作为候选序列集合的初始路径;
S32、根据最小编辑距离准则,将其他优选路径中的一条优选路径与该候选序列集合中的初始路径对齐,得到该条优选路径上的字与初始路径上的字的对齐关系;
S33、根据对齐关系和合并规则,将该条优选路径与候选序列集合中的初始路径进行合并,得到初始候选序列集合;
S34、将步骤S33中得到的初始候选序列集合作为下一次与其他优选路径进行对齐的新的初始路径,重复步骤S32和S33;
S35、直至将所有的优选路径与上一次的初始路径合并后,形成候选序列集合。
3.根据权利要求1或2所述的方法,所述步骤S4中,所述投票得分规则为:
Score(w)=α(N(w,i)/Ni)+(1-α)C(w,i)
其中w表示一个独立的字,N(w,i)表示w在候选序列集合的某个候选字集i上出现的次数,Ni表示候选字集i上出现的所有字的次数,C(w,i)表示w由所述的进行自动语音识别或字幕识别给出的w的平均置信度,α表示调整两种权重的比例的参数。
4.根据权利要求2所述的方法,所述对齐关系包括:删除项、正确项、替换项和插入项。
5.一种基于语音和字幕同步的高精度识别系统,其特征在于,包括:
第一模块,用于进行自动语音识别,获取语音识别的前M条优选识别路径,以及每条优选识别路径对应的识别结果;其中,M取值1,2,…N;
第二模块,用于进行字幕识别,获取字幕识别的前L条优选识别路径,以及每条优选路径对应的识别结果;其中,L取值1,2,…N;
第三模块,用于将所述的语音识别的前M条优选识别路径和所述的字幕识别的前L条优选识别路径合并为新的候选序列集合;
第四模块,用于对所述候选序列集合中的每个候选字集,根据投票得分规则选择得分最高的字作为该节点对应的字,得到融合的识别结果。
6.根据权利要求5所述的系统,其中,所述第三模块包括:
第一子模块,用于选择任一条语音识别的优选路径或字幕识别的优选路径作为候选序列集合的初始路径;
第二子模块,用于根据最小编辑距离准则,将其他优选路径中的一条优选路径与该候选序列集合中的初始路径对齐,得到该条优选路径上的字与初始路径上的字的对齐关系;
第三子模块,用于根据对齐关系和合并规则,将该条优选路径与候选序列集合中的初始路径进行合并,得到初始候选序列集合;
第四子模块,用于将第三子模块得到的初始候选序列集合作为下一次与其他优选路径进行对齐的新的初始路径,重复第二子模块和第三子模块的动作;
第五子模块,用于直至将所有的优选路径与上一次的初始路径合并后,形成候选序列集合。
7.根据权利要求5或6所述的系统,其中所述的投票得分规则为:
Score(w)=α(N(w,i)/Ni)+(1-α)C(w,i)
其中w表示一个独立的字,N(w,i)表示w在候选序列集合的某个候选字集i上出现的次数,Ni表示候选字集i上出现的所有字的次数,C(w,i)表示w由所述的进行自动语音识别或字幕识别给出的w的平均置信度,α表示调整两种权重的比例的参数。
8.根据权利要求6所述的方法,所述对齐关系包括:删除项、正确项、替换项和插入项。
CN201310632270.XA 2013-11-29 2013-11-29 基于语音和字幕同步的高精度识别方法及系统 Active CN103680499B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310632270.XA CN103680499B (zh) 2013-11-29 2013-11-29 基于语音和字幕同步的高精度识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310632270.XA CN103680499B (zh) 2013-11-29 2013-11-29 基于语音和字幕同步的高精度识别方法及系统

Publications (2)

Publication Number Publication Date
CN103680499A true CN103680499A (zh) 2014-03-26
CN103680499B CN103680499B (zh) 2016-05-18

Family

ID=50317853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310632270.XA Active CN103680499B (zh) 2013-11-29 2013-11-29 基于语音和字幕同步的高精度识别方法及系统

Country Status (1)

Country Link
CN (1) CN103680499B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103996021A (zh) * 2014-05-08 2014-08-20 华东师范大学 一种多字符识别结果的融合方法
CN106486119A (zh) * 2016-10-20 2017-03-08 海信集团有限公司 一种识别语音信息的方法和装置
CN108091334A (zh) * 2016-11-17 2018-05-29 株式会社东芝 识别装置、识别方法以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009088990A (ja) * 2007-09-28 2009-04-23 Sanyo Electric Co Ltd 受信装置、テレビジョン放送再生方法およびテレビジョン放送再生プログラム
CN101505397A (zh) * 2009-02-20 2009-08-12 深圳华为通信技术有限公司 一种语音和视频字幕同步呈现的方法及系统
CN101753915A (zh) * 2008-12-04 2010-06-23 索尼株式会社 数据处理设备、数据处理方法及程序
CN103327397A (zh) * 2012-03-22 2013-09-25 联想(北京)有限公司 一种媒体文件的字幕同步显示方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009088990A (ja) * 2007-09-28 2009-04-23 Sanyo Electric Co Ltd 受信装置、テレビジョン放送再生方法およびテレビジョン放送再生プログラム
CN101753915A (zh) * 2008-12-04 2010-06-23 索尼株式会社 数据处理设备、数据处理方法及程序
CN101505397A (zh) * 2009-02-20 2009-08-12 深圳华为通信技术有限公司 一种语音和视频字幕同步呈现的方法及系统
CN103327397A (zh) * 2012-03-22 2013-09-25 联想(北京)有限公司 一种媒体文件的字幕同步显示方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103996021A (zh) * 2014-05-08 2014-08-20 华东师范大学 一种多字符识别结果的融合方法
CN106486119A (zh) * 2016-10-20 2017-03-08 海信集团有限公司 一种识别语音信息的方法和装置
CN106486119B (zh) * 2016-10-20 2019-09-20 海信集团有限公司 一种识别语音信息的方法和装置
CN108091334A (zh) * 2016-11-17 2018-05-29 株式会社东芝 识别装置、识别方法以及存储介质

Also Published As

Publication number Publication date
CN103680499B (zh) 2016-05-18

Similar Documents

Publication Publication Date Title
CN106448675B (zh) 识别文本修正方法及系统
CN106534548B (zh) 语音纠错方法和装置
US20220383853A1 (en) Speech recognition error correction method, related devices, and readable storage medium
CN107305541B (zh) 语音识别文本分段方法及装置
CN103730115B (zh) 一种语音中检测关键词的方法和装置
CN102682763B (zh) 修正语音输入文本中命名实体词汇的方法、装置及终端
CN102393850B (zh) 一种汉字字形认知相似度确定方法
CN110060687A (zh) 一种语音信息转换、信息生成方法及装置
WO2009084554A1 (ja) テキスト分割装置とテキスト分割方法およびプログラム
CN104142915A (zh) 一种添加标点的方法和系统
CN102867512A (zh) 自然语音识别方法和装置
CN102867511A (zh) 自然语音识别方法和装置
CN101604520A (zh) 基于统计模型和语法规则的口语语音识别方法
CN102280104B (zh) 一种基于智能标引的文件语音化处理方法和系统
JP2011002656A (ja) 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム
CN103942223A (zh) 一种对语言模型进行在线纠错的方法及系统
Levin et al. Automated closed captioning for Russian live broadcasting
CN106816151A (zh) 一种字幕对准方法及装置
US20150371627A1 (en) Voice dialog system using humorous speech and method thereof
CN103680499A (zh) 基于语音和字幕同步的高精度识别方法及系统
CN115034218A (zh) 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法
CN112447172B (zh) 一种语音识别文本的质量提升方法和装置
CN111985234A (zh) 语音文本纠错方法
CN117235232A (zh) 开放式问答及多模态大模型的训练方法、装置及相关设备
JP6406988B2 (ja) 音声認識誤り修正装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C53 Correction of patent of invention or patent application
CB03 Change of inventor or designer information

Inventor after: Jiang Hongchen

Inventor before: Chen Jiansong

Inventor before: Xu Bo

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: CHEN JIANSONG XU BO TO: JIANG HONGCHEN

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant