CN103680499B - 基于语音和字幕同步的高精度识别方法及系统 - Google Patents
基于语音和字幕同步的高精度识别方法及系统 Download PDFInfo
- Publication number
- CN103680499B CN103680499B CN201310632270.XA CN201310632270A CN103680499B CN 103680499 B CN103680499 B CN 103680499B CN 201310632270 A CN201310632270 A CN 201310632270A CN 103680499 B CN103680499 B CN 103680499B
- Authority
- CN
- China
- Prior art keywords
- path
- recognition
- collection
- word
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Character Discrimination (AREA)
Abstract
本发明公开了一种基于语音和字幕同步的高精度识别方法,包括步骤:S1、进行自动语音识别,获取语音识别的前M条优选识别路径,以及每条优选识别路径对应的识别结果;S2、进行字幕识别,获取字幕识别的前L条优选识别路径,以及每条优选路径对应的识别结果;S3、将所述的语音识别的前M条优选识别路径和所述的字幕识别的前L条优选识别路径合并为候选序列集合;S4、对所述候选序列集合中的每个候选字集,根据投票得分规则选择得分最高的字作为该节点对应的字,得到融合的识别结果。本发明使用了融合两种识别方法,利用两种不同信号源的信息可以达到更高精度的识别结果,使用了字出现的频率信息以及字的置信度信息,使得结果选择更加可靠。
Description
技术领域
本发明涉及模式识别技术领域,特别涉及一种基于语音和字幕同步的高精度识别方法及系统。
背景技术
随着互联网和数字多媒体内容的发展,数字视频尤其是广播电视视频传播迅速,如何对广播电视视频进行快速有效的检索具有重要的应用价值。想达到对广播电视视频的内容进行检索的需求,需要对广播电视的内容进行识别,比如语音识别为文本,字幕识别文本,然后利用文本进行检索,这其中语音识别和字幕识别起到重要的作用。
然而单独的语音识别方法受到方言、口语等因素的影响,目前无法达到高准确率的水平;单独的字幕识别方法受到复杂背景、多样的字体形态的影响,目前也无法达到高准确率的水平。由于语音识别的结果和字幕识别的结果来源于不同信源的信号,因此这两种识别方法得到的结果具有很好的互补性和差异性,很自然的可以将两种识别方法的结果融合起来。目前文献中几乎没有融合语音识别和字幕识别结果的识别方法。唯一检索到的相关的一篇是《Improvedparcelsortingbycombiningautomaticspeechandcharacterrecognition》,该文章仅仅采用了简单的规则将两种识别结果融合起来。
发明内容
(一)要解决的技术问题
本发明所要解决的技术问题是:如何提供一种基于语音和字幕同步的高精度识别方法,以提高同时具有语音和字幕的视频的识别精度。
(二)技术方案
为解决上述问题,本发明提供一种基于语音和字幕同步的高精度识别方法,包括步骤:S1、进行自动语音识别,获取语音识别的前M条优选识别路径,以及每条优选识别路径对应的识别结果;其中,M取值1,2,…N;
S2、进行字幕识别,获取字幕识别的前L条优选识别路径,以及每条优选路径对应的识别结果;其中,L取值1,2,…N;
S3、将所述的语音识别的前M条优选识别路径和所述的字幕识别的前L条优选识别路径合并为新的候选序列集合;
S4、对所述候选序列集合中的每个候选字集,根据投票得分规则选择得分最高的字作为该节点对应的字,得到融合的识别结果。
优选地,所述步骤S3具体包括:
S31、选择任一条语音识别的优选路径或字幕识别的优选路径作为候选序列集合的初始路径;
S32、根据最小编辑距离准则,将其他优选路径中的一条优选路径与该候选序列集合中的初始路径对齐,得到该条优选路径上的字与初始路径上的字的对齐关系;
S33、根据对齐关系和合并规则,将该条优选路径与候选序列集合中的初始路径进行合并,得到初始候选序列集合;
S34、将步骤S33中得到的初始候选序列集合作为下一次与其他优选路径进行对齐的新的初始路径,重复步骤S32和S33;
S35、直至将所有的优选路径与上一次的初始路径合并后,形成候选序列集合。
优选地,所述投票得分规则为:
Score(w)=α(N(w,i)/Ni)+(1-α)C(w,i)
其中w表示一个独立的字,N(w,i)表示w在候选序列集合的某个候选字集i上出现的次数,Ni表示候选字集i上出现的所有字的次数,C(w,i)表示w由所述的进行自动语音识别或字幕识别给出的w的平均置信度,α表示调整两种权重的比例的参数。
优选地,对其关系包括:删除项、正确项、替换项和插入项。
本发明还提供一种基于语音和字幕同步的高精度识别系统,包括:第一模块,用于进行自动语音识别,获取语音识别的前M条优选识别路径,以及每条优选识别路径对应的识别结果;其中,M取值1,2,…N;
第二模块,用于进行字幕识别,获取字幕识别的前L条优选识别路径,以及每条优选路径对应的识别结果;其中,L取值1,2,…N;
第三模块,用于将所述的语音识别的前M条优选识别路径和所述的字幕识别的前L条优选识别路径合并为新的候选序列集合;第四模块,用于对所述候选序列集合中的每个候选字集,根据投票得分规则选择得分最高的字作为该节点对应的字,得到融合的识别结果。
优选地,所述第三模块包括:
第一子模块,用于选择任一条语音识别的优选路径或字幕识别的优选路径作为候选序列集合的初始路径;
第二子模块,用于根据最小编辑距离准则,将其他优选路径中的一条优选路径与该候选序列集合中的初始路径对齐,得到该条优选路径上的字与初始路径上的字的对齐关系;
第三子模块,用于根据对齐关系和合并规则,将该条优选路径与候选序列集合中的初始路径进行合并,得到初始候选序列集合;
第四子模块,用于将第三子模块得到的初始候选序列集合作为下一次与其他优选路径进行对齐的新的初始路径,重复第二子模块和第三子模块的动作;
第五子模块,用于直至将所有的优选路径与上一次的初始路径合并后,形成候选序列集合。
优选地,其中所述的投票得分规则为:
Score(w)=α(N(w,i)/Ni)+(1-α)C(w,i)
其中w表示一个独立的字,N(w,i)表示w在候选序列集合的某个候选字集i上出现的次数,Ni表示候选字集i上出现的所有字的次数,C(w,i)表示w由所述的进行自动语音识别或字幕识别给出的w的平均置信度,α表示调整两种权重的比例的参数。
优选地,对齐关系包括:删除项、正确项、替换项和插入项。
(三)有益效果
本发明实施例提供一种基于语音和字幕同步的高精度识别方法及系统,从语音识别方法和字幕识别方法的结果入手,将两种识别结果融合为候选序列集合,并从候选序列集合中的每个节点中选出最优的结果。该方法使用了融合了两种识别方法,利用了两种不同信号源的信息可以达到更高精度的识别结果。在最优结果选择时,同时使用了字出现的频率信息以及字的置信度信息,使得结果选择更加可靠。
附图说明
图1为依照本发明实施例的基于语音和字幕同步的高精度识别方法的流程示意图;
图2为依照本发明实施例的构建候选序列集合的流程示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1是根据本发明优选实施例的基于语音和字幕同步的高精度识别方法,下面结合图1详细说明本发明的方法。对于任意一次新闻节目条目分割处理而言,都是基于执行步骤S1-S3而完成。
步骤S1,利用自动语音识别方法,得到语音识别的前M条优选识别路径,以及每条优选识别路径对应的识别结果。其中,M取值为1,2,3…N。现有的语音识别方法在识别时大都采用基于隐马尔可夫模型的方法,通过对模型采用维特比解码得到识别的路径。通常情况下,取最优的识别路径即作为识别结果。而本实施例中选择选取路径得分最高的前M条优选识别路径,作为融合的最优路径。
此外,系统还可输出识别结果中每个字的识别置信度。
步骤S2,利用字幕识别方法,得到语音识别的前L条优选识别路径,以及每条优选识别路径对应的识别结果。其中,L取值为1、2、3…N;现有的字幕识别方法在识别时也大都采用基于隐马尔可夫模型的方法,通过对模型采用维特比解码得到识别的路径。通常情况下,取最优的识别路径即作为识别结果。本文选选取路径得分最高的前N条优选识别路径,作为融合的最优路径。
此外,系统还可输出识别结果中每个字的识别置信度。
本实施例中,M的取值可以与L的取值相同,也可以不同。
步骤S3,将所述的语音识别的前M条优选识别路径和所述的字幕识别的前L条优选识别路径合并为候选序列集合,其具体步骤如下:
步骤S31,选择任一条语音识别的优选路径或字幕识别的优选路径作为候选序列集合的初始路径。如图2所示,共有三条优选路径Seq1,Seq2和Seq3,我们选择Seq1作为候选序列集合的初始路径Seq-base。
步骤S32,根据最小编辑距离准则,将其他优选路径中的一条优选路径与该候选序列集合中的初始路径对齐,得到该条优选路径上的字与初始路径上的字的对齐关系。
如图2所示,将Seq-base和Seq2根据最小编辑距离准则对齐,对比Seq-base和Seq2,其对齐关系是:a是删除项,b、d是正确项,c和z是替换项,e是插入项。
步骤S33,根据对齐关系和合并规则,将该条优选路径与候选序列集合中的初始路径进行合并,得到初始候选序列集合。合并规则为:
正确项,直接将该字加入到候选序列图中相应的弧中,如图2中b和d所示。
替换项,直接将替换的字加入到候选序列图中相应的弧中,如图2中z所示。
删除项,在候选序列图中加入一个空的字转移弧,用符号“~”表示,如图2所示,在Seq-base中a所对应的的位置添加弧“~”。
插入项,在候选序列图中插入一个转移项,如图2中e所在的位置所示。
步骤S34、将步骤S33中得到的初始候选序列集合作为下一次与其他优选路径进行对齐的新的初始路径,重复步骤S32和S33;
步骤S35、直至将所有的优选路径与上一次的初始路径合并后,形成候选序列集合。
步骤S4,对所述的候选序列集合中的每个候选字集,根据投票得分规则选择得分最高的字作该为节点对应的字,最终得到融合的识别结果。其中所述的投票得分规则为:
Score(w)=α(N(w,i)/Ni)+(1-α)C(w,i)(1)
其中w表示一个独立的字,N(w,i)表示w在候选序列集合的某个节点i上出现的次数,Ni表示节点i上出现的所有字的次数,C(w,i)表示w由所述的自动语音识别方法或字幕识别方法给出的w的平均置信度,α是由实验确定的参数,用来调整两种权重的比例。在候选序列集合中空弧“~”的置信度用Conf(~)表示。α和Conf(~)是两个参数,由训练数据训练得到。其中,具体步骤为:
S41,将带标注的数据分成两份,优选的比例为1:1,其中一份作为训练数据集,另一份作为测试数据集。
S42,在训练数据集上调整α和Conf(~),优选的采用格型搜索,使最终的字错误率(WordErrorRate,WER)最小,得到最优的α和Conf(~)的参数分别为opt(α)和opt(Conf(~))。
S43,在测试数据集上将opt(α)和opt(Conf(~))带入公式(1)中,在每个候选字集上,根据公式(1)计算该候选字集上每个独立不同的字的得分,选择得分最大的字作为该候选字集的输出的结果。
本发明的有益效果在于:从语音识别方法和字幕识别方法的结果入手,将两种识别结果融合为候选序列集合,并从候选序列集合中的每个节点中选出最优的结果。该方法使用了融合了两种识别方法,利用了两种不同信号源的信息可以达到更高精度的识别结果。在最优结果选择时,同时使用了字出现的频率信息以及字的置信度信息,使得结果选择更加可靠。
通过结合附图对本发明具体实施例的描述,本发明的其它方面及特征对本领域的技术人员而言是显而易见的。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。
Claims (8)
1.一种基于语音和字幕同步的高精度识别方法,其特征在于,包括步骤:
S1、进行自动语音识别,获取语音识别的前M条优选识别路径,以及每条优选识别路径对应的识别结果;其中,M取值1,2,…N;
S2、进行字幕识别,获取字幕识别的前L条优选识别路径,以及每条优选路径对应的识别结果;其中,L取值1,2,…N;
S3、将所述的语音识别的前M条优选识别路径和所述的字幕识别的前L条优选识别路径合并为候选序列集合;
S4、对所述候选序列集合中的每个候选字集,根据投票得分规则选择得分最高的字作为该候选字集对应的字,得到融合的识别结果。
2.根据权利要求1所述的方法,其中所述步骤S3具体包括:
S31、选择任一条语音识别的优选路径或字幕识别的优选路径作为候选序列集合的初始路径;
S32、根据最小编辑距离准则,将其他优选路径中的一条优选路径与该候选序列集合中的初始路径对齐,得到该条优选路径上的字与初始路径上的字的对齐关系;
S33、根据对齐关系和合并规则,将该条优选路径与候选序列集合中的初始路径进行合并,得到初始候选序列集合;
S34、将步骤S33中得到的初始候选序列集合作为下一次与其他优选路径进行对齐的新的初始路径,重复步骤S32和S33;
S35、直至将所有的优选路径与上一次的初始路径合并后,形成候选序列集合。
3.根据权利要求1或2所述的方法,所述步骤S4中,所述投票得分规则为:
Score(w)=α(N(w,i)/Ni)+(1-α)C(w,i)
其中w表示一个独立的字,N(w,i)表示w在候选序列集合的某个候选字集i上出现的次数,Ni表示候选字集i上出现的所有字的次数,C(w,i)表示w由所述的进行自动语音识别或字幕识别给出的w的平均置信度,α表示调整两种权重的比例的参数。
4.根据权利要求2所述的方法,所述对齐关系包括:删除项、正确项、替换项和插入项。
5.一种基于语音和字幕同步的高精度识别系统,其特征在于,包括:
第一模块,用于进行自动语音识别,获取语音识别的前M条优选识别路径,以及每条优选识别路径对应的识别结果;其中,M取值1,2,…N;
第二模块,用于进行字幕识别,获取字幕识别的前L条优选识别路径,以及每条优选路径对应的识别结果;其中,L取值1,2,…N;
第三模块,用于将所述的语音识别的前M条优选识别路径和所述的字幕识别的前L条优选识别路径合并为新的候选序列集合;
第四模块,用于对所述候选序列集合中的每个候选字集,根据投票得分规则选择得分最高的字作为该候选字集对应的字,得到融合的识别结果。
6.根据权利要求5所述的系统,其中,所述第三模块包括:
第一子模块,用于选择任一条语音识别的优选路径或字幕识别的优选路径作为候选序列集合的初始路径;
第二子模块,用于根据最小编辑距离准则,将其他优选路径中的一条优选路径与该候选序列集合中的初始路径对齐,得到该条优选路径上的字与初始路径上的字的对齐关系;
第三子模块,用于根据对齐关系和合并规则,将该条优选路径与候选序列集合中的初始路径进行合并,得到初始候选序列集合;
第四子模块,用于将第三子模块得到的初始候选序列集合作为下一次与其他优选路径进行对齐的新的初始路径,重复第二子模块和第三子模块的动作;
第五子模块,用于直至将所有的优选路径与上一次的初始路径合并后,形成候选序列集合。
7.根据权利要求5或6所述的系统,其中所述的投票得分规则为:
Score(w)=α(N(w,i)/Ni)+(1-α)C(w,i)
其中w表示一个独立的字,N(w,i)表示w在候选序列集合的某个候选字集i上出现的次数,Ni表示候选字集i上出现的所有字的次数,C(w,i)表示w由所述的进行自动语音识别或字幕识别给出的w的平均置信度,α表示调整两种权重的比例的参数。
8.根据权利要求6所述的系统,所述对齐关系包括:删除项、正确项、替换项和插入项。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310632270.XA CN103680499B (zh) | 2013-11-29 | 2013-11-29 | 基于语音和字幕同步的高精度识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310632270.XA CN103680499B (zh) | 2013-11-29 | 2013-11-29 | 基于语音和字幕同步的高精度识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103680499A CN103680499A (zh) | 2014-03-26 |
CN103680499B true CN103680499B (zh) | 2016-05-18 |
Family
ID=50317853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310632270.XA Active CN103680499B (zh) | 2013-11-29 | 2013-11-29 | 基于语音和字幕同步的高精度识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103680499B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103996021A (zh) * | 2014-05-08 | 2014-08-20 | 华东师范大学 | 一种多字符识别结果的融合方法 |
CN106486119B (zh) * | 2016-10-20 | 2019-09-20 | 海信集团有限公司 | 一种识别语音信息的方法和装置 |
JP6618884B2 (ja) * | 2016-11-17 | 2019-12-11 | 株式会社東芝 | 認識装置、認識方法およびプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101505397A (zh) * | 2009-02-20 | 2009-08-12 | 深圳华为通信技术有限公司 | 一种语音和视频字幕同步呈现的方法及系统 |
CN101753915A (zh) * | 2008-12-04 | 2010-06-23 | 索尼株式会社 | 数据处理设备、数据处理方法及程序 |
CN103327397A (zh) * | 2012-03-22 | 2013-09-25 | 联想(北京)有限公司 | 一种媒体文件的字幕同步显示方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009088990A (ja) * | 2007-09-28 | 2009-04-23 | Sanyo Electric Co Ltd | 受信装置、テレビジョン放送再生方法およびテレビジョン放送再生プログラム |
-
2013
- 2013-11-29 CN CN201310632270.XA patent/CN103680499B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101753915A (zh) * | 2008-12-04 | 2010-06-23 | 索尼株式会社 | 数据处理设备、数据处理方法及程序 |
CN101505397A (zh) * | 2009-02-20 | 2009-08-12 | 深圳华为通信技术有限公司 | 一种语音和视频字幕同步呈现的方法及系统 |
CN103327397A (zh) * | 2012-03-22 | 2013-09-25 | 联想(北京)有限公司 | 一种媒体文件的字幕同步显示方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103680499A (zh) | 2014-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106384593B (zh) | 一种语音信息转换、信息生成方法及装置 | |
US20180307667A1 (en) | Travel guide generating method and system | |
CN103730115B (zh) | 一种语音中检测关键词的方法和装置 | |
CN110956959A (zh) | 语音识别纠错方法、相关设备及可读存储介质 | |
CN109346064B (zh) | 用于端到端语音识别模型的训练方法及系统 | |
CN102393850B (zh) | 一种汉字字形认知相似度确定方法 | |
CN111462553B (zh) | 一种基于视频配音和纠音训练的语言学习方法及系统 | |
CN109949799B (zh) | 一种语义解析方法及系统 | |
Peyser et al. | Improving performance of end-to-end ASR on numeric sequences | |
CN111626049B (zh) | 多媒体信息的标题修正方法、装置、电子设备及存储介质 | |
CN103680499B (zh) | 基于语音和字幕同步的高精度识别方法及系统 | |
CN103778131B (zh) | 字幕查询方法、查询装置、视频播放器及字幕查询服务器 | |
CN102280104B (zh) | 一种基于智能标引的文件语音化处理方法和系统 | |
CN105574173A (zh) | 基于语音识别的商品搜索方法及商品搜索装置 | |
CN109410913A (zh) | 一种语音合成方法、装置、设备及存储介质 | |
CN109785832A (zh) | 一种适用于重口音的老人机顶盒智能语音识别方法 | |
Levin et al. | Automated closed captioning for Russian live broadcasting | |
CN107656921A (zh) | 一种基于深度学习的短文本依存分析方法 | |
CN105243053B (zh) | 提取文档关键句的方法及装置 | |
CN106297765A (zh) | 语音合成方法及系统 | |
CN106155998B (zh) | 一种数据处理方法及装置 | |
CN111177296A (zh) | 信息推荐方法、装置、电子设备及计算机存储介质 | |
CN109190116B (zh) | 语义解析方法、系统、电子设备及存储介质 | |
CN112259081B (zh) | 语音的处理方法和装置 | |
CN111966839B (zh) | 数据处理方法、装置、电子设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C53 | Correction of patent for invention or patent application | ||
CB03 | Change of inventor or designer information |
Inventor after: Jiang Hongchen Inventor before: Chen Jiansong Inventor before: Xu Bo |
|
COR | Change of bibliographic data |
Free format text: CORRECT: INVENTOR; FROM: CHEN JIANSONG XU BO TO: JIANG HONGCHEN |
|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |