CN106448675B

CN106448675B - 识别文本修正方法及系统

Info

Publication number: CN106448675B
Application number: CN201610921381.6A
Authority: CN
Inventors: 高建清; 王智国; 胡国平; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2016-10-21
Filing date: 2016-10-21
Publication date: 2020-05-01
Anticipated expiration: 2036-10-21
Also published as: CN106448675A

Abstract

本发明公开了一种识别文本修正方法及系统，该方法包括：实时接收用户语音数据；对所述语音数据进行语音识别，得到初始识别文本；对所述语音数据进行延时播放，并显示延时后的语音数据对应的初始识别文本，以使用户根据延时后的语音数据对所述初始识别文本进行修正，并将来不及修正的错误识别文本标记为待修正识别文本；根据修正后识别文本及其对应的语音数据对待修正识别文本进行修正。利用本发明，可以减少用户修正识别文本的工作量，提高识别文本修正的准确度及效率。

Description

识别文本修正方法及系统

技术领域

本发明涉及自然语言处理领域，具体涉及一种识别文本修正方法及系统。

背景技术

目前在企事业单位、政府部门及教育行业，每年有数以万计场次的会议、采访或演讲等，在人民法院与检察院每年有大量的庭审和审讯，这些场景都需要由秘书、记者、书记员或检察官进行会议纪要的整理和现场情况的记录。随着语音识别技术的不断发展，语音识别的准确度早已达到实用水平，越来越多的会议等语音数据使用语音识别技术将现场语音数据转成文本数据，并在识别文本的基础上整理相应的会议纪要或现场情况的记录。这些场景在将语音数据转成文本时，需要较高的识别准确度，甚至不允许出现任何错误，如将重要会议的语音数据转成文本后形成会议纪要，目前，现有的语音识别技术还不能达到。因此，需要用户对识别文本进行修正，以保证识别文本的准确性。

现有的对识别文本进行修正的方法在对语音数据进行实时语音识别时，将语音识别得到的识别文本直接发给用户，用户在该识别文本上直接修正；当所有语音数据识别结束后，用户再重新检查是否有未修正的识别文本，如果有，则修正所述未修正的识别文本。所述方法在用户接收到识别文本时，用户听到的语音数据为当前识别文本对应语音数据后面的语音数据，即用户在进行识别文本修正时，接收到的识别文本与听到的语音数据不一致，因为即使是实时语音识别，也要在获取到用户语音数据后，进行端点检测，以端点检测为单元输出识别文本，从而使得到的识别文本存在一定的延时。因此，用户只能依靠对之前语音数据内容的记忆对识别文本进行修正，同时用户听到的语音数据与识别文本不对应，也对用户修正识别文本造成了干扰，不仅增加了用户修改的难度，也降低了识别文本修正的准确度。此外，当所有语音数据识别结束后，由于经常存在用户没来及修正的识别文本，需要对识别文本进行重新检查，修正没来得及修正的识别文本，以保证识别文本的准确度，然而在实时语音识别时，用户已经对识别文本进行了部分修正，从而导致语音数据与识别文本的不对应，这样用户在对识别文本进行检查时，需要重新听语音数据对识别文本进行检查，对未修正的错误识别文本进行修正，大大降低了识别文本修正的效率。

发明内容

本发明实施例提供一种识别文本修正方法及系统，以减少用户修正识别文本的工作量，提高识别文本修正的准确度及效率。

为此，本发明提供如下技术方案：

一种识别文本修正方法，包括：

实时接收用户语音数据；

对所述语音数据进行语音识别，得到初始识别文本；

对所述语音数据进行延时播放，并显示延时后的语音数据对应的初始识别文本，以使用户根据延时后的语音数据对所述初始识别文本进行修正，并将来不及修正的错误识别文本标记为待修正识别文本；

根据修正后识别文本及其对应的语音数据对待修正识别文本进行修正。

优选地，所述将来不及修正的错误识别文本标记为待修正识别文本包括：

将来不及修正的错误识别文本标记为设定颜色、或设定字体、或高亮色；或者

在来不及修正的错误识别文本处插入提示标记；或者

在来不及修正的错误识别文本下方添加下划线或波纹线。

优选地，所述根据修正后识别文本及其对应的语音数据对待修正识别文本进行修正包括：

根据修正后识别文本对原语言模型进行优化，得到优化后的语言模型；

确定待修正识别文本所在句子对应的语音数据；

使用优化后的语言模型对待修正识别文本所在句子对应的语音数据进行二次语音识别，得到识别结果；

将所述识别结果替代所述待修正识别文本所在句子。

优选地，所述根据修正后识别文本对语言模型进行优化，得到优化后的语言模型包括：

提取修正后识别文本中的关键词，得到关键词列表；

根据所述关键词列表搜索语料库，得到与所述关键词相关的文本语料；

利用修正后识别文本及所述文本语料对原语言模型进行优化，得到优化后的语言模型。

优选地，所述提取修正后识别文本中的关键词，得到关键词列表包括：

根据修正后识别文本的语义提取关键词，并将提取得到的关键词添加到关键词列表；和/或

通过动态规划方法将修正后识别文本与修正前识别文本进行对齐，然后找到修正后的词，将修正后的词作为关键词添加到关键词列表。

优选地，所述利用修正后识别文本及所述文本语料对原语言模型进行优化，得到优化后的语言模型包括：

利用修正后识别文本及所述文本语料训练得到新的语言模型；

将所述新的语言模型与所述原语言模型进行融合，得到优化后的语言模型。

优选地，所述确定待修正识别文本所在句子对应的语音数据包括：

根据所述初始识别文本定位待修正识别文本所在句子对应的语音数据；或者

将修正后识别文本与所述语音数据进行对齐后，定位待修正识别文本所在句子对应的语音数据。

优选地，所述方法还包括：

将所述识别结果展现给用户；

在感知到用户点击所述识别结果的操作后，播放所述识别结果对应的语音数据，以使用户对所述识别结果进行修正。

优选地，所述播放所述识别结果对应的语音数据包括：

根据设定的播放速度播放所述识别结果对应的语音数据。

优选地，所述方法还包括：

由用户设定所述播放速度；

根据所述识别结果的置信度设定所述播放速度。

一种识别文本修正系统，包括：

语音接收模块，用于实时接收用户语音数据；

语音识别模块，用于对所述语音数据进行语音识别，得到初始识别文本；

播放模块，用于对所述语音数据进行延时播放；

显示模块，用于在所述播放模块对所述语音数据进行延时播放的同时，显示延时后的语音数据对应的初始识别文本，以使用户根据延时后的语音数据对所述初始识别文本进行修正，并将来不及修正的错误识别文本标记为待修正识别文本；

修正模块，用于根据修正后识别文本及其对应的语音数据对待修正识别文本进行修正。

优选地，所述修正模块包括：

语言模型优化模块，用于根据修正后识别文本对原语言模型进行优化，得到优化后的语言模型；

定位模块，用于确定待修正识别文本所在句子对应的语音数据；

二次识别模块，用于使用优化后的语言模型对待修正识别文本所在句子对应的语音数据进行二次语音识别，得到识别结果；

替代处理模块，用于将所述识别结果替代所述待修正识别文本所在句子。

优选地，所述语言模型优化模块包括：

关键词提取单元，用于提取修正后识别文本中的关键词，得到关键词列表；

语料获取单元，用于根据所述关键词列表搜索语料库，得到与所述关键词相关的文本语料；

优化单元，用于利用修正后识别文本及所述文本语料对原语言模型进行优化，得到优化后的语言模型。

优选地，所述关键词提取单元，具体用于根据修正后识别文本的语义提取关键词，并将提取得到的关键词添加到关键词列表；和/或通过动态规划方法将修正后识别文本与修正前识别文本进行对齐，然后找到修正后的词，将修正后的词作为关键词添加到关键词列表。

优选地，所述优化单元包括：

模型训练子单元，用于利用修正后识别文本及所述文本语料训练得到新的语言模型；

融合子单元，用于将所述新的语言模型与所述原语言模型进行融合，得到优化后的语言模型。

优选地，所述定位模块，具体用于根据所述初始识别文本定位待修正识别文本所在句子对应的语音数据；或者将修正后识别文本与所述语音数据进行对齐后，定位待修正识别文本所在句子对应的语音数据。

优选地，所述显示模块，还用于将所述二次识别模块得到的所述识别结果展现给用户；

相应地，所述播放模块，还用于在感知到用户点击所述识别结果的操作后，播放所述识别结果对应的语音数据，以使用户对所述识别结果进行修正。

优选地，所述播放模块根据设定的播放速度播放所述识别结果对应的语音数据。

本发明实施例提供的识别文本修正方法及系统，对语音识别得到的初始识别文本分两个阶段进行修正，即实时阶段和离线阶段。在实时阶段对初始识别文本进行修正时，通过将语音数据延时播放的方式保证用户听到的语音数据与显示的初始识别文本的一致性，大大提高了用户修正识别文本的准确度；在离线阶段，通过自动定位待修正识别文本所在句子对应的语音数据，对待修正识别文本进行自动修正，从而可以在保证识别文本准确度的同时，大大减少用户修正识别文本的工作量，提高用户修正识别文本的效率。

进一步地，还可将自动修正后的文本展现给用户，以使用户对其中的错误文本做进一步的修正。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例识别文本修正方法的流程图；

图2是本发明实施例中获取优化后的语言模型的流程图；

图3是本发明实施例识别文本修正系统的一种结构示意图；

图4是本发明实施例中修正模块的一种具体结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

本发明实施例提供的识别文本修正方法及系统，用于对语音数据识别为文本后，对识别错误的文本进行修正，所述修正主要分两个阶段，即实时阶段和离线阶段；所述实时阶段即对语音数据进行语音识别时，用户根据识别文本直接修正识别错误的文本；所述离线阶段主要针对用户在实时阶段来不及修正的识别文本，根据实时阶段修正后的识别文本及其对应的语音数据对待修正识别文本进行自动修正。进一步地，还可以将自动修正后的错误识别文本交由用户来修正。

如图1所示，是本发明实施例识别文本修正方法的流程图，包括以下步骤：

步骤101，实时接收用户语音数据。

所述用户语音数据可以为会议、采访、演讲、庭审等应用场景的现场录音。

步骤102，对所述语音数据进行语音识别，得到初始识别文本。

所述语音识别可以采用现有的一些语音识别方法及系统，得到所述初始识别文本。

步骤103，对所述语音数据进行延时播放，并显示延时后的语音数据对应的初始识别文本，以使用户根据延时后的语音数据对所述初始识别文本进行修正，并将来不及修正的错误识别文本标记为待修正识别文本。

对接收的语音数据进行延时播放，是指将实时接收的语音数据进行延时播放给用户，用户听到语音数据与现场实时播放的语音数据不同步，如将接收的语音数据延时10s后，再播放给用户，从而使延时后的语音数据得到对应的初始识别文本。这样，将延时后的语音数据及对应的初始识别文本同时展示给用户，保证用户在修正初始识别文本时，听到的语音数据与待修正的初始识别文本同步。

用户在对所述初始识别文本进行修正时，由于听到的语音数据与识别文本同步，从而避免了现有技术中用户在听实时语音数据时，对之前播放的语音数据的识别文本进行修正的情况。

在用户对所述初始文本进行修正时，可能还会遗留有来不及修正的错误识别文本，对于这些来不及修正的错误识别文本，可以由用户对其进行标记，比如，将来不及修正的错误识别文本标记为设定颜色、或设定字体、或高亮色等；或者在来不及修正的错误识别文本处插入提示标记(比如设置特定的快捷键，在未修正的错误识别文本处插入未修正标记)；或者在来不及修正的错误识别文本下方添加下划线或波纹线等，以将其区别于已修正识别文本。

步骤104，根据修正后识别文本及其对应的语音数据对待修正识别文本进行修正。

具体地，对待修正识别文本进行修正时，可以先根据修正后识别文本对原语言模型进行优化，得到优化后的语言模型，所述原语言模型是指对接收的用户语音数据进行语音识别得到初始识别文本这一识别过程中所使用的语言模型；然后再根据初始识别文本确定待修正识别文本所在句子对应的语音数据，利用优化后的语言模型对该语音数据进行二次语音识别，得到该语音数据更准确的识别结果；最后，将所述识别结果替代所述待修正识别文本所在句子。由于利用了优化后的语言模型对待修正识别文本所在句子对应的语音数据进行语音识别，因此相对于用原语言模型得到的待修正识别文本所在句子对应的初始识别文本，其具有更高的准确度。

需要说明的是，上面所述的二次语音识别是相对于对接收的用户语音数据直接进行语音识别，得到初始识别文本这一过程而言的，这两次语音识别过程不同的是，采用的语言模型不同，而且第二次语音识别只针对接收的用户语音数据中的一部分，即用户对初始识别文本中来不及修正的错误识别文本所在句子对应的语音数据。

由此可见，本发明实施例的识别文本修正方法，通过对接收的用户语音数据进行语音识别得到的初始识别文本进行两个阶段的修正，即实时阶段的用户人工修正、以及离线阶段的自动修正，有效地提高了识别文本修正的效率，降低了人工修正的工作量。而且，在人工修正阶段，通过将语音数据延时播放的方式保证用户听到的语音数据与显示的初始识别文本的一致性，大大提高了用户修正识别文本的准确度。

如图2所示，是本发明实施例中获取优化后的语言模型的流程图，包括以下步骤：

步骤201，提取修正后识别文本中的关键词，得到关键词列表。

在实际应用中，修正后识别文本中的关键词的提取可以根据修正后识别文本的语义和/或修正结果提取，也就是说，可以使用其中任意一种提取方法提取，将提取得到的关键词添加到关键词列表，也可以同时使用两种提取方法提取，即将两种不同方法提取得到的关键词的并集作为最终的关键词列表。当然也可以采用其它方法提取关键词，对此本发明实施例不做限定。

下面针对上述两种提取方法分别进行详细说明。

(1)基于修正后识别文本的语义提取关键词

具体提取时，先分别提取出识别文本中的高频词集合和有重要语义的词集合，再提取两个词集合的交集中包含的词作为关键词。

所述高频词提取时，可以通过计算识别文本中每个词的TF_IDF(Term Frequency–Inverse Document Frequency，词频-逆向文件频率)值，对所述TF_IDF值进行排序，选择TF_IDF值较高的多个词作为高频词集合，所述TF_IDF值的计算方法与现有技术相同，在此不再详述。

所述有重要语义的词提取时，可通过计算识别文本中每个词的TextRank得分，所述TextRank得分描述每个词在识别文本中的重要度，从语义的角度考虑识别文本中各词之间的语义关系。具体计算时，可以通过构建词图的方法，将修正后识别文本中每个词作为词图中的每个节点，计算识别文本中每两个词之间的相似度，将相似度大于阈值的两个词之间使用一条边连接，所述相似度为边的权重，通过计算每个节点的链入边数，计算每个节点的重要度，将所述节点的重要度作为每个词的重要度，即TextRank得分。根据所述TextRank得分对每个词进行排序，选择所述TextRank得分排序靠前的多个词作为有重要语义词集合。所述TextRank值的计算方法与现有技术相同，在此不再详述。

在得到高频词集合和有重要语义词集合后，取所述高频词集合和有重要语义词集合的交集包含的词作为关键词列表。

(2)基于初始识别文本的修正结果提取关键词

具体地，可以直接将被用户修正后的词作为关键词，具体提取时，可以通过动态规划方法将修正前后的识别文本进行对齐后，找到被修改的识别文本及修改前的识别文本，将修后的识别文本中的词直接作为关键词，加入关键词列表中。

步骤202，根据所述关键词列表搜索语料库，得到与所述关键词相关的文本语料。

所述语料库可以通过离线方法预先构建，语料库中包含多个领域的文本数据，具体包含哪些领域的文本数据可以根据应用需求确定，直接根据所述关键词列表进行搜索，可以得到相应文本语料。

当然也可以预先构建多个语料库，每个语料库仅包含一个领域的文本数据，在搜索语料库时，可以根据语音数据所属的领域直接搜索对应领域的语料库，得到相应文本语料。

当然，也可以从搜索得到的文本语料中选择与所述关键词相关性较高的文本语料。所述相关性较高的文本语料指从搜索得到的文本语料中挑选出排序靠前的多条文本语料，即TopN条文本语料，N的取值可以根据应用需求确定。

步骤203，利用修正后识别文本及所述文本语料对原语言模型进行优化，得到优化后的语言模型。

具体地，可以直接使用修正后识别文本及搜索得到的文本语料训练新的语言模型，将所述新的语言模型与原语言模型进行融合后，得到优化后的语言模型。具体的融合方法本发明实施例不做限定，比如可以使用插值的方法将新的语言模型与原语言模型进行插值后得到优化后的语言模型，当然也可以采用其它融合方式，同样可以使得到的优化后的语言模型更适应于接收的用户语音数据，从而在后续利用该优化后的语言模型重新对待修正识别文本所在句子对应的语音数据进行再次识别时，能够得到比用原语言模型对其进行识别更准确的识别结果。

在确定待修正识别文本所在句子对应的语音数据时，可以根据初始识别文本定位待修正识别文本所在句子对应的语音数据，也可以通过对齐方式，即将修正后识别文本与所述语音数据进行对齐后，定位待修正识别文本所在句子对应的语音数据，下面对这两种定位方式进行详细说明。

(1)根据初始识别文本定位待修正识别文本所在句子对应的语音数据

具体地，可以通过倒排索引的方法先确定待修正识别文本在初始识别文本中的位置。

所述索引库构建时，以词作为索引，索引项中包含每个词在初始识别文本中的位置，如每个词为初始识别文本中第多少个词等。索引库的具体构建方法与现有技术相同，在此不再详述。

在利用索引库进行搜索时，先使用待修正识别文本中每个词搜索每个索引项，进行精确匹配，得到每个词的多个候选索引项；再使用待修正识别文本中每个词的上下文词对所述候选索引项进行筛选，筛选时，使用每个词的上下文词分别与每个候选索引项对应的词的上下文词进行模糊匹配，选择相似度最高的候选索引项作为待修正识别文本中每个词的索引项，根据所述索引项可以直接确定待修正识别文本中每个词在初始识别文本中的位置，进而确定待修正识别文本所在句子。由于初始识别文本未经过用户修正，与语音数据是完全对齐的，从而得到待修正识别文本所在句子对应的语音数据。

(2)直接将修正后识别文本与语音数据进行对齐后，定位待修正识别文本所在句子对应的语音数据

所述修正后识别文本是指用户对初始识别文本进行部分修正后的识别文本，具体对齐时，可以直接使用动态规划方法对所述修正后识别文本与语音数据进行强制对齐，具体过程与现有技术相同，在此不再详述，从而找到待修正识别文本所在句子对应的语音数据。

前面提到，在利用优化后的语言模型重新对待修正识别文本所在句子对应的语音数据进行再次识别，得到新的识别结果后，可以将该识别结果替代初始识别文本中所述待修正识别文本所在的句子，这样即可得到最终的识别文本，即人工修正加自动修正后的文本。

需要说明的是，在本发明方法另一实施例中，还可以将该新的识别结果展现给用户，以使用户对该识别结果中的错误文本进行修正。比如，在感知到用户点击所述识别结果的操作后，播放所述识别结果对应的语音数据，以使用户对所述识别结果进行修正。另外，需要说明的是，在展现所述识别结果时，可以单独展现该识别结果，也可以将该识别结果替代所述待修正识别文本所在句子后的整个识别文本，即将该识别结果放入整个识别文本中展现给用户，当然，在整个识别文本展示中，为了便于用户的修改操作，可以将其中的所述识别结果进行特殊标记，比如使用不同于其它识别文本的字体或颜色显示等，这样，用户可以根据该特殊标记很容易找到这些识别结果，以决定是否对其进行修正。

另外，为了进一步方便用户对所述识别结果的修正，在播放所述识别结果对应的语音数据时，可以由用户来控制语音数据的播放速度，比如可以由用户根据自己的修改速度预先设定自动播放速度，如设定为正常播放速度的0.8倍、1倍、、1.2倍、1.5倍等，如果用户设定的速度低于正常播放速度，可以在播放完当前识别结果对应的语音数据后，暂停播放下一段语音数据，直到用户修改当前识别结果完成后，再继续播放下一段语音数据。

当然，如果用户未设定语音数据的播放速度，系统也可以根据识别结果的置信度自动调节相应语音数据的播放速度，如果识别结果的置信度较高，说明识别结果的错误较少，播放速度可以略微提高一些；如果识别结果的置信度较低，说明识别结果的错误可能较多，对相应的语音数据的播放速度可以自动调低。所述识别结果的置信度可以在对语音数据进行语音识别时，基于词后验概率的方法得到，对此不再详细说明。

经过上述对二次识别结果的再次人工修正，进一步保证了修正后文本的正确率。

本发明实施例提供的识别文本修正方法，对语音识别得到的初始识别文本分两个阶段进行修正，即实时阶段和离线阶段。在实时阶段对初始识别文本进行修正时，通过将语音数据延时播放的方式保证用户听到的语音数据与显示的初始识别文本的一致性，大大提高了用户修正识别文本的准确度；在离线阶段，通过自动定位待修正识别文本所在句子对应的语音数据，对待修正识别文本进行自动修正，从而可以在保证识别文本准确度的同时，大大减少用户修正识别文本的工作量，提高用户修正识别文本的效率。进一步地，还可将自动修正后的文本展现给用户，以使用户对其中的错误文本做进一步的修正。

相应地，本发明实施例还提供一种识别文本修正系统，如图3所示，是该系统的一种结构示意图。

在该实施例中，所述系统包括：

语音接收模块301，用于实时接收用户语音数据；

语音识别模块302，用于对所述语音数据进行语音识别，得到初始识别文本；

延时模块303，用于对所述语音数据进行延时；

播放模块304，用于对所述延时模块延时后的语音数据进行播放；

显示模块305，用于在所述播放模块对所述语音数据进行延时播放的同时，显示延时后的语音数据对应的初始识别文本，以使用户根据延时后的语音数据对所述初始识别文本进行修正，并将来不及修正的错误识别文本标记为待修正识别文本；

修正模块306，用于根据修正后识别文本及其对应的语音数据对待修正识别文本进行修正。

上述修正模块306具体可以根据修正后识别文本对原语言模型进行优化，得到优化后的语言模型，然后利用优化后的语言模型对待修正识别文本所在句子对应的语音数据进行二次语音识别，得到识别结果，并将所述识别结果替代所述待修正识别文本所在句子，从而得到在用户修正后的基础上系统对用户来不及修正的错误识别文本自动修正后的识别文本。

所述修正模块306的一种具体结构如图4所示，包括以下各模块：

语言模型优化模块361，用于根据修正后识别文本对原语言模型进行优化，得到优化后的语言模型；

定位模块362，用于确定待修正识别文本所在句子对应的语音数据；

二次识别模块363，用于使用优化后的语言模型对待修正识别文本所在句子对应的语音数据进行二次语音识别，得到识别结果；

替代处理模块364，用于将所述识别结果替代所述待修正识别文本所在句子。

上述语言模型优化模块361可以包括以下各单元：

其中，所述关键词提取单元具体可以根据修正后识别文本的语义提取关键词，并将提取得到的关键词添加到关键词列表；和/或通过动态规划方法将修正后识别文本与修正前识别文本进行对齐，然后找到修正后的词，将修正后的词作为关键词添加到关键词列表。这两种不同提取方式在前面已有详细说明，在此不再赘述。

其中，所述优化单元可以直接使用修正后识别文本及搜索得到的文本语料训练新的语言模型，将所述新的语言模型与原语言模型进行融合后，得到优化后的语言模型，比如由模型训练子单元利用修正后识别文本及所述文本语料训练得到新的语言模型，由融合子单元将所述新的语言模型与所述原语言模型进行融合，得到优化后的语言模型。其中，语言模型的训练方式及融合方式本发明实施例不做限定。不论采用哪种训练及融合方式，由于新的语言模型是直接使用修正后识别文本及搜索得到的文本语料训练得到的，因此优化后的语言模型可以更好地适应于修正后的识别文本，提高识别文本的准确度。

上述定位模块362具体可以根据所述初始识别文本定位待修正识别文本所在句子对应的语音数据；或者将修正后识别文本与所述语音数据进行对齐后，定位待修正识别文本所在句子对应的语音数据。这两种不同的定位方式在前面已有详细说明，在此不再赘述。

需要说明的是，在本发明系统另一实施例中，显示模块305还可以将所述二次识别模块363得到的新的识别结果展现给用户，以使用户对该识别结果中的错误文本进行修正。比如，所述播放模块304在感知到用户点击所述识别结果的操作后，播放所述识别结果对应的语音数据，以使用户对所述识别结果进行修正。

需要说明的是，所述显示模块305在展现所述识别结果时，可以单独展现该识别结果，也可以将该识别结果替代所述待修正识别文本所在句子后的整个识别文本，即将该识别结果放入整个识别文本中展现给用户，当然，在整个识别文本展示中，为了便于用户的修改操作，可以将其中的所述识别结果进行特殊标记，比如使用不同于其它识别文本的字体或颜色显示等，这样，用户可以该特殊标记很容易找到这些识别结果，以决定是否对其进行修正。

另外，需要说明的是，所述播放模块304在播放所述识别结果对应的语音数据时，还可以根据设定的播放速度进行播放。所述设定的播放速度可以由用户根据需要来设定，比如所述系统向用户提供相应的设定接口，由用户输入设定的播放速度，或者所述系统向用户提供速度选项，比如，快、中、慢等，由用户根据需要选择。所述设定的播放速度也可以由系统根据所述识别结果的置信度自动调节，所述识别结果的置信度可以在对语音数据进行语音识别时，基于词后验概率的方法得到，对此不再详细说明。

本发明实施例提供的识别文本修正系统，对语音识别得到的初始识别文本分两个阶段进行修正，即实时阶段和离线阶段。在实时阶段对初始识别文本进行修正时，通过将语音数据延时播放的方式保证用户听到的语音数据与显示的初始识别文本的一致性，大大提高了用户修正识别文本的准确度；在离线阶段对，通过自动定位待修正识别文本所在句子对应的语音数据，对待修正识别文本进行自动修正，从而可以在保证识别文本准确度的同时，大大减少用户修正识别文本的工作量，提高用户修正识别文本的效率。进一步地，还可将自动修正后的文本展现给用户，以使用户对其中的错误文本做进一步的修正。

本发明实施例提供的识别文本修正方法及系统，可以用于会议语音数据、采访语音数据、演讲语音数据等需要尽快得到识别文本的情况，对实时语音识别得到的识别文本进行修正，以快速、高效地保证得到的识别文本准确性更高。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及系统；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种识别文本修正方法，其特征在于，包括：

实时接收用户语音数据；

对所述语音数据进行实时语音识别，得到初始识别文本；

在实时修正阶段，对所述语音数据进行延时播放，并显示延时后的语音数据对应的初始识别文本，以使用户根据延时后的语音数据对所述初始识别文本进行修正，并将来不及修正的错误识别文本标记为待修正识别文本；

2.根据权利要求1所述的方法，其特征在于，所述将来不及修正的错误识别文本标记为待修正识别文本包括：

在来不及修正的错误识别文本处插入提示标记；或者

在来不及修正的错误识别文本下方添加下划线或波纹线。

3.根据权利要求1所述的方法，其特征在于，所述根据修正后识别文本及其对应的语音数据对待修正识别文本进行修正包括：

确定待修正识别文本所在句子对应的语音数据；

将所述识别结果替代所述待修正识别文本所在句子。

4.根据权利要求3所述的方法，其特征在于，所述根据修正后识别文本对语言模型进行优化，得到优化后的语言模型包括：

提取修正后识别文本中的关键词，得到关键词列表；

5.根据权利要求4所述的方法，其特征在于，所述提取修正后识别文本中的关键词，得到关键词列表包括：

6.根据权利要求4所述的方法，其特征在于，所述利用修正后识别文本及所述文本语料对原语言模型进行优化，得到优化后的语言模型包括：

7.根据权利要求3所述的方法，其特征在于，所述确定待修正识别文本所在句子对应的语音数据包括：

8.根据权利要求3-7任一项所述的方法，其特征在于，所述方法还包括：

将所述识别结果展现给用户；

9.根据权利要求8所述的方法，其特征在于，所述播放所述识别结果对应的语音数据包括：

根据设定的播放速度播放所述识别结果对应的语音数据。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

由用户设定所述播放速度；

根据所述识别结果的置信度设定所述播放速度。

11.一种识别文本修正系统，其特征在于，包括：

语音接收模块，用于实时接收用户语音数据；

语音识别模块，用于对所述语音数据进行实时语音识别，得到初始识别文本；

播放模块，用于在实时修正阶段，对所述语音数据进行延时播放；

12.根据权利要求11所述的系统，其特征在于，所述修正模块包括：

13.根据权利要求12所述的系统，其特征在于，所述语言模型优化模块包括：

14.根据权利要求13所述的系统，其特征在于，

所述关键词提取单元，具体用于根据修正后识别文本的语义提取关键词，并将提取得到的关键词添加到关键词列表；和/或通过动态规划方法将修正后识别文本与修正前识别文本进行对齐，然后找到修正后的词，将修正后的词作为关键词添加到关键词列表。

15.根据权利要求13所述的系统，其特征在于，所述优化单元包括：

16.根据权利要求12所述的系统，其特征在于，

所述定位模块，具体用于根据所述初始识别文本定位待修正识别文本所在句子对应的语音数据；或者将修正后识别文本与所述语音数据进行对齐后，定位待修正识别文本所在句子对应的语音数据。

17.根据权利要求12-16任一项所述的系统，其特征在于，

所述显示模块，还用于将所述二次识别模块得到的所述识别结果展现给用户；

所述播放模块，还用于在感知到用户点击所述识别结果的操作后，播放所述识别结果对应的语音数据，以使用户对所述识别结果进行修正。

18.根据权利要求17所述的系统，其特征在于，所述播放模块根据设定的播放速度播放所述识别结果对应的语音数据。