CN107977356A

CN107977356A - 识别文本纠错方法及装置

Info

Publication number: CN107977356A
Application number: CN201711167434.0A
Authority: CN
Inventors: 赵彬; 刘俊华; 魏思; 胡国平
Original assignee: Xinjiang Iflytek Information Technology Co ltd
Current assignee: Xinjiang Shenggu Rongchuang Digital Industry Development Co ltd
Priority date: 2017-11-21
Filing date: 2017-11-21
Publication date: 2018-05-01
Anticipated expiration: 2037-11-21
Also published as: CN107977356B

Abstract

本发明提供一种识别文本纠错方法及装置，属于语言处理技术领域。该方法包括：确定识别文本中每一识别错误的错误分词对应的纠错词；将每一纠错词替换识别文本中对应的错误分词，以得到识别文本对应的纠错候选文本；确定每一纠错候选文本对应的纠错置信度，并将纠错置信度大于第一预设阈值的纠错候选文本作为纠错后的识别文本。本发明通过确定每一纠错候选文本对应的纠错置信度，并将纠错置信度大于第一预设阈值的纠错候选文本作为纠错后的识别文本。由于在通过语音识别得到识别文本后，可选取可信程度较高的纠错候选文本作为纠错后的识别文本，以实现对识别文本进行纠错，从而提高了后续翻译的准确性。

Description

识别文本纠错方法及装置

技术领域

本发明实施例涉及语言处理技术领域，更具体地，涉及一种识别文本纠错方法及装置。

背景技术

目前，语言沟通成为不同种族群体在相互交流时所面临的一个重要课题。传统的翻译方式通常是采用人工陪同口译、交替口译以及同声传译等，以解决语言沟通障碍问题，但受限于人力不足以及成本限制，无法满足普通人进行沟通交流的需求。而语音翻译技术的发展对传统翻译方式做出了有益补充，为普通人日常沟通交流提供了另一条途径，并在成本及时效性等方面更具优势。语音翻译包括语音识别、机器翻译和语音合成这三个步骤，由于在语音识别环节中引入的错误，会直接影响后续翻译准确度，从而如何对识别文本进行纠错是提升翻译准确度的关键。

发明内容

为了解决上述问题，本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的识别文本纠错方法及装置。

根据本发明实施例的第一方面，提供了一种识别文本纠错方法，该方法包括：

确定识别文本中每一识别错误的错误分词对应的纠错词，每一错误分词对应至少一个纠错词；

将每一纠错词替换识别文本中对应的错误分词，以得到识别文本对应的纠错候选文本，识别文本对应至少一个纠错候选文本；

确定每一纠错候选文本对应的纠错置信度，并将纠错置信度大于第一预设阈值的纠错候选文本作为纠错后的识别文本，每一纠错候选文本对应的纠错置信度用于表示每一纠错候选文本作为纠错后的识别文本的可信程度。

本发明实施例提供的方法，通过确定识别文本中每一识别错误的错误分词对应的纠错词，将每一纠错词替换识别文本中对应的错误分词，以得到识别文本对应的纠错候选文本。确定每一纠错候选文本对应的纠错置信度，并将纠错置信度大于第一预设阈值的纠错候选文本作为纠错后的识别文本。由于在通过语音识别得到识别文本后，可选取可信程度较高的纠错候选文本作为纠错后的识别文本，以实现对识别文本进行纠错，从而提高了后续翻译的准确性。

结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，确定识别文本中每一识别错误的错误分词对应的纠错词之前，还包括：

确定识别文本中每一分词的识别置信度，并将识别置信度小于第二预设阈值的分词作为错误分词；

或者，确定识别文本经过翻译后得到的目标语言文本中每一目标分词的翻译准确度，并将翻译准确度小于第三预设阈值的目标分词在识别文本中对应的分词作为错误分词，每一目标分词的翻译准确度用于表示每一目标分词作为翻译结果的可信程度。

结合第一方面的第一种可能的实现方式，在第三种可能的实现方式中，确定识别文本中每一识别错误的错误分词对应的纠错词，包括：

对于识别文本中任一错误分词，确定任一错误分词对应的易混淆词，确定任一错误分词对应的每一易混淆词的易混淆度，任一错误分词对应至少一个易混淆词；

基于任一错误分词对应易混淆词的易混淆度，按照预设规则对任一错误分词对应的易混淆词进行选取，将选取结果作为任一错误分词对应的纠错词。

结合第一方面的第三种可能的实现方式，在第四种可能的实现方式中，确定任一错误分词对应的每一易混淆词的易混淆度，包括：

对于任一错误分词对应的任一易混淆词，将任一错误分词与任一易混淆词之间的发音相似度以及任一易混淆词被识别错误的概率进行融合，得到任一易混淆词的易混淆度。

结合第一方面的第三种可能的实现方式，在第五种可能的实现方式中，基于任一错误分词对应易混淆词的易混淆度，按照预设规则对任一错误分词对应的易混淆词进行选取，将选取结果作为任一错误分词对应的纠错词，包括：

按照从大到小的次序对任一错误分词对应易混淆词的易混淆度进行排序，选取前N个易混淆度对应的易混淆词作为任一错误分词对应的纠错词，N为大于等于1的整数；

或者，确定任一错误分词对应的易混淆词中易混淆度大于第四预设阈值的易混淆词，并作为任一错误分词对应的纠错词。

结合第一方面的第三种可能的实现方式，在第六种可能的实现方式中，确定每一纠错候选文本对应的纠错置信度，包括：

根据每一纠错候选文本中每一纠错词对应的易混淆度，确定每一纠错候选文本对应的易混淆分值；

将每一纠错候选文本对应的易混淆分值、翻译置信分值以及语言模型分值进行融合，得到每一纠错候选文本对应的纠错置信度；

其中，每一纠错候选文本对应的翻译置信分值用于表示每一纠错候选文本经过翻译后的目标语言文本作为翻译结果的可信程度。

结合第一方面的第六种可能的实现方式，在第七种可能的实现方式中，将每一纠错候选文本对应的易混淆分值、翻译置信分值以及语言模型分值进行融合，得到每一纠错候选文本对应的纠错置信度之前，还包括：

获取每一纠错候选文本经过翻译后的目标语言文本；

根据每一纠错候选文本对应的目标语言文本中每一目标分词的翻译准确度，以及每一纠错候选文本对应的目标语言文本中目标分词的数量，确定每一纠错候选文本对应的翻译置信分值，每一目标分词的翻译准确度用于表示每一目标分词作为翻译结果的可信程度。

根据本发明实施例的第二方面，提供了一种识别文本纠错装置，该装置包括：

第一确定模块，用于确定识别文本中每一识别错误的错误分词对应的纠错词，每一错误分词对应至少一个纠错词；

替换模块，用于将每一纠错词替换识别文本中对应的错误分词，以得到识别文本对应的纠错候选文本，识别文本对应至少一个纠错候选文本；

第二确定模块，用于确定每一纠错候选文本对应的纠错置信度，并将纠错置信度大于第一预设阈值的纠错候选文本作为纠错后的识别文本，每一纠错候选文本对应的纠错置信度用于表示每一纠错候选文本作为纠错后的识别文本的可信程度。

根据本发明实施例的第三方面，提供了一种识别文本纠错设备，包括：

至少一个处理器；以及

与处理器通信连接的至少一个存储器，其中：

存储器存储有可被处理器执行的程序指令，处理器调用程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的识别文本纠错方法。

根据本发明的第四方面，提供了一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的识别文本纠错方法。

应当理解的是，以上的一般描述和后文的细节描述是示例性和解释性的，并不能限制本发明实施例。

附图说明

图1为本发明实施例的一种识别文本纠错方法的流程示意图；

图2为本发明实施例的一种识别文本纠错方法的流程示意图；

图3为本发明实施例的一种识别文本纠错方法的流程示意图；

图4为本发明实施例的一种识别文本纠错装置的框图；

图5为本发明实施例的一种识别文本纠错设备的框图。

具体实施方式

下面结合附图和实施例，对本发明实施例的具体实施方式作进一步详细描述。以下实施例用于说明本发明实施例，但不用来限制本发明实施例的范围。

随着信息化时代的高速发展，跨语种交流障碍已经成为不同种族群体共同面对的问题，翻译服务是解决语言交流障碍的主要手段之一。传统翻译服务行业受限于人力和成本难以普及。新兴的语音翻译技术在成本和时效性上弥补了传统翻译服务行业的不足，并为普通人日常交流提供了新的途径。

语音翻译是指将源语言的语音信号自动翻译成目标语言的语音信号的过程，一般包括语音识别、机器翻译和语音合成三个主要组成部分。首先，语音识别系统进行源语言语音识别，将源语言语音信号转化成源语言文字；其次，机器翻译系统将源语言文字翻译成目标语言文字；最后，通过语音合成系统将目标语言文字合成为目标语言的语音信号。

语音翻译的每个组成部分目前都还无法达到理想水平，各个环节的错误都可能会导致语音翻译系统的翻译结果出错，特别是语音识别环节的错误会对语音翻译的后续工作造成障碍，进而影响整个语音翻译系统的性能。因此，语音识别结果的纠错是语音翻译过程中的一项重要工作，纠错可以对语音识别的常见错误进行纠正，从而提高机器翻译的准确性。

基于上述需求，本发明实施例提供了一种识别文本纠错方法。参见图1，该方法包括：101、确定识别文本中每一识别错误的错误分词对应的纠错词，每一错误分词对应至少一个纠错词；102、将每一纠错词替换识别文本中对应的错误分词，以得到识别文本对应的纠错候选文本，识别文本对应至少一个纠错候选文本；103、确定每一纠错候选文本对应的纠错置信度，并将纠错置信度大于第一预设阈值的纠错候选文本作为纠错后的识别文本，每一纠错候选文本对应的纠错置信度用于表示每一纠错候选文本作为纠错后的识别文本的可信程度。

在上述步骤101中，纠错词主要用于纠正识别文本中的错误分词。例如，若识别文本为“这里的空际好新鲜”。在上述识别文本中，错误分词为“空际”，对应的纠错词为“空气”。通过纠错词“空气”，可以将上述识别文本纠正为“这里的空气好新鲜”。

需要说明的是，识别文本中的错误分词可能不止一个。另外，由于在确定错误分词对应的纠错词时，可能有多种选择，从而每一错误分词对应的纠错词也可能不止一个。例如，识别文本为“以历史人物为圆形”。在上述识别文本中，错误分词为“圆形”，对应的纠错词可以为“原形”，还可以为“原型”。再例如，错误分词“际”对应的纠错词可以为“季”、“气”以及“细”。

在确定每一错误分词对应的纠错词后，可将每一纠错词替换识别文本中对应的错误分词，以得到识别文本对应的纠错候选文本。需要说明的是，由于识别文本中可能不止一个错误分词，且每一错误分词对应的纠错词也可能不止一个，从而得到的纠错候选文本也可能不止一个。例如，若识别文本中有2个错误分词，第1个错误分词对应的纠错词有2个，第二个错误分词对应的纠错词有3个，则该识别文本对应的纠错候选文本的数量为2×3＝6个。最后，确定每一纠错候选文本对应的纠错置信度，并可将纠错置信度大于第一预设阈值的纠错候选文本作为纠错后的识别文本，从而对识别文本进行纠错。

基于上述实施例的内容，在确定识别文本中每一识别错误的错误分词对应的纠错词之前，还可确定识别文本中识别错误的错误分词。相应地，作为一种可选实施例，本发明实施例还提供了一种确定识别文本中错误分词的方法，包括但不限于如下两种方式：

第一种确定错误分词的方式：确定识别文本中每一分词的识别置信度，并将识别置信度小于第二预设阈值的分词作为错误分词。

本发明实施例不对确定识别文本中每一分词的识别置信度的方式作具体限定，包括但不限于：获取识别文本中每一分词的后验概率，并作为每一分词的识别置信度；或者，将识别文本中每一分词的声学分值、语言模型分值、后验概率及持续时长输入至识别置信度计算模型，输出每一分词的识别置信度。

其中，上述第一种获取识别置信度的方式可通过如下公式表示：

C_rec(x_i)＝P_s(x_i)

在上述公式中，C_rec(x_i)表示第i个分词的识别置信度，P_s(x_i)表示第i个分词的后验概率。

在上述第二种获取识别置信度的方式中，可先预先收集大量训练语音信号进行语音识别，得到相应的训练识别文本。确定每一训练识别文本中每一分词是否识别正确，并同时对每一分词进行标注，如识别正确的分词可标注为1，识别错误的分词可标注为0。将训练识别文本中每一分词的声学分值、语言模型分值、后验概率及持续时长输入至识别置信度计算模型，根据每一分词的标注结果对识别置信度计算模型的参数进行更新，直至前一次更新过程与后一次更新过程之间模型参数的变化量小于预设变化阈值。此时，更新结束并可得到识别置信度计算模型，以用于后续计算识别置信度。

第二种确定错误分词的方式：确定识别文本经过翻译后得到的目标语言文本中每一目标分词的翻译准确度，并将翻译准确度小于第三预设阈值的目标分词在识别文本中对应的分词作为错误分词，每一目标分词的翻译准确度用于表示每一目标分词作为翻译结果的可信程度。

在将识别文本翻译成目标语言文本时，可通过翻译编解码循环神经网络进行翻译。其中，翻译编解码循环神经网络可包含编码模块(Encode)、注意力计算模块(Attention)及解码模块(Decode)。翻译编解码循环神经网络除了可以为基于循环神经网络(Recurrent Neural Networks，RNN)以及Attention机制的翻译编解码循环神经网络之外，还可以为基于门控循环单元(Gated Recurrent Unit，GRU)的翻译编解码循环神经网络，或者基于长短期记忆网络(Long Short Term Memory，LSTM)的翻译编解码循环神经网络，本发明实施例不对翻译编解码循环神经网络的类型作具体限定。

识别文本x＝(x₁,x₂,x₃,...,x_m)为翻译编解码循环神经网络的输入量，y＝(y₁,y₂,y₃,...,y_n)为翻译编解码循环神经网络的输出量。识别文本和目标语言文本的长度分别是m和n，X_i表示第i个分词，y_j表示第j个目标分词。

编码模块用于获取每一分词在识别文本中的编码特征。相应地，作为一种可选实施例，本发明实施例还提供了一种获取每一分词在识别文本中的编码特征的方法，包括但不限于：通过翻译编解码循环神经网络获取每一分词的词向量对应的前向编码特征及反向编码特征，将每一分词对应的前向编码特征与反向编码特征进行拼接，得到每一分词在识别文本中的编码特征。

对于第i个分词，在执行上述过程之前，可先获取第i个分词的词向量e_i。其中，向量化方法可采用word2vec，本发明实施例对此不作具体限定。在获取第i个分词的词向量之后，基于该词向量通过前向编码循环神经网络得到第i个分词看到历史词汇信息下的前向编码特征f_i，基于该词向量通过反向编码循环神经网络得到第i个分词看到未来词汇信息下的反向编码特征b_i。将第i个分词对应的前向编码特征与反向编码特征进行拼接，得到第i个分词在识别文本中的编码特征h_i。

在获取每一分词在识别文本中的编码特征后，注意力计算模块可基于翻译编解码循环神经网络中解码层的输出特征及每一分词在识别文本中的编码特征，获取每一分词的翻译贡献度。其中，获取识别文本中每一分词的翻译贡献度可参考如下公式计算：

在上述公式中，α_ji表示在翻译得到第j个目标分词时第i个分词所起到的贡献程度，也即翻译贡献度，a(h_i,s_j-1)是依赖于编码模块第i个分词的编码特征h_i和解码模块上一时刻解码循环神经网络的输出特征s_j-1的函数。其中，该函数可以有多种实现方式，如前馈神经网络函数，本发明实施例对此不作具体限定。

对于第j个目标分词，解码模块用于基于识别文本中每一分词的编码结果和注意力计算模块的输出结果，通过解码循环神经网络中解码层生成目标语言文本中第j个目标分词的输出特征s_j，并可得到翻译后的第j个目标分词的翻译准确度为P(y_i)。

在确定目标语言文本中每一目标分词的翻译准确度后，可将翻译准确度小于第三预设阈值的目标分词在识别文本中对应的分词作为错误分词。

本发明实施例提供的方法，通过将识别文本中识别置信度小于第二预设阈值的分词作为错误分词。或者，通过确定目标语言文本中每一目标分词的翻译准确度，并将翻译准确度小于第三预设阈值的目标分词在识别文本中对应的分词作为错误分词。由于可通过识别置信度确定错误分词或者通过翻译准确度反向确定错误分词，从而可准确地定位识别文本中识别错误的错误分词，并为后续对识别文本进行纠错提供了依据。

基于上述实施例的内容，本发明实施例还提供了一种确定识别文本中每一识别错误的错误分词对应的纠错词的方法。参见图2，该方法包括：1011、对于识别文本中任一错误分词，确定任一错误分词对应的易混淆词，确定任一错误分词对应的每一易混淆词的易混淆度，任一错误分词对应至少一个易混淆词；1012、基于任一错误分词对应易混淆词的易混淆度，按照预设规则对任一错误分词对应的易混淆词进行选取，将选取结果作为任一错误分词对应的纠错词。

在上述步骤1011中，可预先收集每一分词对应的易混淆词。例如，可收集读起来易混淆的词，“不齿”及“不耻”，“预订”及“预定”等。对于识别文本中任一错误分词，可基于上述预先收集的数据，确定该错误分词对应的易混淆词。每一易混淆词的易混淆度用于表示每一易混淆词与该错误分词之间相互混淆的容易程度，每一易混淆词的易混淆度可通过预先根据实际场景人工设置，也可以基于发音相似程度等因素确定，本发明实施例对此不作具体限定。

对于任一错误分词，在确定该错误分词对应的易混淆词，以及该错误分词对应的每一易混淆词的易混淆度后，可基于每一易混淆词的易混淆度对易混淆词进行选取，从而将选取结果作为该错误分词对应的纠错词。需要说明的是，识别文本中每一错误分词均可以通过上述方式确定易混淆词以及易混淆度。

本发明实施例提供的方法，对于识别文本中任一错误分词，通过确定该错误分词对应的易混淆词，确定该错误分词对应的每一易混淆词的易混淆度。基于该错误分词对应易混淆词的易混淆度，按照预设规则对该错误分词对应的易混淆词进行选取，将选取结果作为该错误分词对应的纠错词。由于可将易混淆词作为识别文本中错误分词的纠错词，并可确定易混淆词的易混淆度，从而为后续对识别文本进行纠错提供了依据。

基于上述实施例的内容，考虑到易混淆词与错误分词之间的发音相似度、以及易混淆词本身被识别错误的可能性，可作为确定易混淆度的依据，从而作为一种可选实施例，本发明实施例还提供了一种确定易混淆词的易混淆度的方法，包括但不限于：对于任一错误分词对应的任一易混淆词，将任一错误分词与任一易混淆词之间的发音相似度以及任一易混淆词被识别错误的概率进行融合，得到任一易混淆词的易混淆度。

其中，融合的方式可以为加权求和或非线性融合等方式，本发明实施例对此不作具体限定。当采用加权求和的方式时，上述融合过程可通过如下公式计算：

在上述公式中，X_i表示第i个错误分词，表示第i个错误分词对应的易混淆词。表示第i个错误分词与第i个错误分词对应的易混淆词之间的发音相似度，表示第i个错误分词对应的易混淆词被识别错误的概率。w1及w2分别表示相应的权重，C_rule(x^k)表示第i个错误分词对应的易混淆词的易混淆度。

需要说明的是，在实际实施场景中，可预先收集每一分词对应的易混淆词，并按照上述融合方式确定每一易混淆词的易混淆度。在确定每一分词对应的易混淆词以及每一分词对应易混淆词的易混淆度后，可按照表格的形式，将每一分词、每一分词对应的易混淆词以及每一分词对应易混淆词的易混淆度对应存储，从而可构建得到易混淆词表。相应地，上述实施例在确定错误分词对应的易混淆词，以及该错误分词对应的每一易混淆词的易混淆度时，可通过查找易混淆词表的方式确定，本发明实施例对此不作具体限定。

本发明实施例提供的方法，对于任一错误分词对应的任一易混淆词，通过将任一错误分词与任一易混淆词之间的发音相似度以及任一易混淆词被识别错误的概率进行融合，得到任一易混淆词的易混淆度，从而为后续从易混淆词中选取纠错词提供了依据。

基于上述实施例的内容，作为一种可选实施例，本发明实施例还提供了一种从易混淆词中选取该错误分词对应的纠错词的方法，包括但不限于：按照从大到小的次序对任一错误分词对应易混淆词的易混淆度进行排序，选取前N个易混淆度对应的易混淆词作为任一错误分词对应的纠错词，N为大于等于1的整数；

其中，在确定错误分词对应的纠错词后，每一纠错词同样存在对应的易混淆度。

本发明实施例提供的方法，通过基于易混淆词的易混淆度对易混淆词进行筛选，筛选出容易与错误分词混淆的易混淆词并作为该错误分词的纠错词，从而为后续对识别文本进行纠错提供了依据。

基于上述实施例的内容，在确定每一错误分词对应的纠错词后，可将纠错词替换识别文本中对应的错误分词，以得到识别文本对应的纠错候选文本。例如，以识别文本为“这里的空际好新鲜”为例。若错误分词为“际”，而纠错词分别为“季”、“气”以及“细”，将纠错词替换错误分词可得到相应的纠错候选文本，分别为：

纠错候选文本1：这里的空季好新鲜；

纠错候选文本2：这里的空气好新鲜；

纠错候选文本3：这里的空细好新鲜。

由于纠错词的易混淆度越高，则说明该纠错词越有可能是识别文本中错误分词的位置上本应正确识别的词，从而纠错词的易混淆度可以反映纠错候选文本作为纠错后的识别文本的可信程度。基于上述说明，作为一种可选实施例，本发明实施例还提供了一种确定纠错候选文本对应的纠错置信度的方法。参见图3，该方法包括：1031、根据每一纠错候选文本中每一纠错词对应的易混淆度，确定每一纠错候选文本对应的易混淆分值；1032、将每一纠错候选文本对应的易混淆分值、翻译置信分值以及语言模型分值进行融合，得到每一纠错候选文本对应的纠错置信度；其中，每一纠错候选文本对应的翻译置信分值用于表示每一纠错候选文本经过翻译后的目标语言文本作为翻译结果的可信程度。

在上述步骤1031中，对于任一纠错候选文本，可根据该纠错候选文本中每一纠错词的易混淆度以及该纠错候选文本中所有纠错词的数量，确定该纠错候选文本对应的易混淆分值。具体地，可按照该纠错候选文本中所有纠错词的数量，对该纠错候选文本中每一纠错词的易混淆度取平均值，并将得到的平均值作为该纠错候选文本对应的易混淆分值。

在得到该纠错候选文本对应的易混淆分值后，可将该纠错候选文本对应的易混淆分值、翻译置信分值以及语言模型分值进行融合，以得到该纠错候选文本对应的纠错置信度。其中，融合方式可以为加权求和，还可以为非线性融合等方式，本发明实施例对此不作具体限定。当采用加权求和的方式时，上述融合过程可通过如下公式计算：

C(x^k)＝w_ruleC_rule(x^k)+w_lmC_lm(x^k)+w_tC_t(x^k)

在上述公式中，X^k表示识别文本对应的第k个纠错候选文本。C_rule(x^k)表示第k个纠错候选文本对应的易混淆分值，C_lm(x^k)表示第k个纠错候选文本对应的语言模型分值，C_t(x^k)表示第k个纠错候选文本对应的翻译置信分值。C(x^k)为第k个纠错候选文本，w_rule、w_lm以及w_t分别依次为易混淆分值、语言模型分值以及翻译置信分值对应的权重。

本发明实施例提供的方法，通过根据每一纠错候选文本中每一纠错词对应的易混淆度，确定每一纠错候选文本对应的易混淆分值。将每一纠错候选文本对应的易混淆分值、翻译置信分值以及语言模型分值进行融合，得到每一纠错候选文本对应的纠错置信度。由于可结合纠错候选文本对应的翻译置信分值、易混淆分值以及语言模型分值，确定纠错候选文本作为正确识别文本的可信程度，从而可充分利用翻译前后源语言和目标语言之间的强相关约束信息，并为后续筛选出可信程度较高的纠错候选文本提供了依据。

基于上述实施例的内容，在得到每一纠错候选文本对应的纠错置信度之前，还可先确定每一纠错候选文本对应的翻译置信分值。相应地，作为一种可选实施例，本发明实施例还提供了一种确定每一纠错候选文本对应的翻译置信分值的方法，包括但不限于：获取每一纠错候选文本经过翻译后的目标语言文本；根据每一纠错候选文本对应的目标语言文本中每一目标分词的翻译准确度，以及每一纠错候选文本对应的目标语言文本中目标分词的数量，确定每一纠错候选文本对应的翻译置信分值，每一目标分词的翻译准确度用于表示每一目标分词作为翻译结果的可信程度。

在上述过程中，对于任一纠错候选文本，可按照该纠错候选文本中目标分词的数量，对该纠错候选文本中每一目标分词的翻译准确度取平均值，并将得到的平均值作为该纠错候选文本对应的翻译置信分值。具体计算过程可参考如下公式：

在上述公式中，X^k表示识别文本对应的第k个纠错候选文本，C_t(x^k)表示第k个纠错候选文本对应的翻译置信分值。y_j表示第k个纠错候选文本中第j个目标分词，P(y_i)表示第k个纠错候选文本中第j个目标分词的翻译准确度，n_k表示第k个纠错候选文本中目标分词的数量。

其次，通过将识别文本中识别置信度小于第二预设阈值的分词作为错误分词。或者，通过确定目标语言文本中每一目标分词的翻译准确度，并将翻译准确度小于第三预设阈值的目标分词在识别文本中对应的分词作为错误分词。由于可通过识别置信度确定错误分词或者通过翻译准确度反向确定错误分词，从而可准确地定位识别文本中识别错误的错误分词，并为后续对识别文本进行纠错提供了依据。

从次，通过确定该错误分词对应的易混淆词，确定该错误分词对应的每一易混淆词的易混淆度。基于该错误分词对应易混淆词的易混淆度，按照预设规则对该错误分词对应的易混淆词进行选取，将选取结果作为该错误分词对应的纠错词。由于可将易混淆词作为识别文本中错误分词的纠错词，并可确定易混淆词的易混淆度，从而为后续对识别文本进行纠错提供了依据。

再次，对于任一错误分词对应的任一易混淆词，通过将该错误分词与该易混淆词之间的发音相似度以及该易混淆词被识别错误的概率进行融合，得到该易混淆词的易混淆度，从而为后续从易混淆词中选取纠错词提供了依据。

另外，通过基于易混淆词的易混淆度对易混淆词进行筛选，筛选出容易与错误分词混淆的易混淆词并作为该错误分词的纠错词，从而为后续对识别文本进行纠错提供了依据。

最后，通过根据每一纠错候选文本中每一纠错词对应的易混淆度，确定每一纠错候选文本对应的易混淆分值。将每一纠错候选文本对应的易混淆分值、翻译置信分值以及语言模型分值进行融合，得到每一纠错候选文本对应的纠错置信度。由于可结合纠错候选文本对应的翻译置信分值、易混淆分值以及语言模型分值，确定纠错候选文本作为正确识别文本的可信程度，从而可充分利用翻译前后源语言和目标语言之间的强相关约束信息，并为后续筛选出可信程度较高的纠错候选文本提供了依据。

需要说明的是，上述所有可选实施例，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

基于上述实施例的内容，本发明实施例提供了一种识别文本纠错装置，该识别文本纠错装置用于执行上述方法实施例中的识别文本纠错方法。参见图4，该装置包括：

第一确定模块401，用于确定识别文本中每一识别错误的错误分词对应的纠错词，每一错误分词对应至少一个纠错词；

替换模块402，用于将每一纠错词替换识别文本中对应的错误分词，以得到识别文本对应的纠错候选文本，识别文本对应至少一个纠错候选文本；

第二确定模块403，用于确定每一纠错候选文本对应的纠错置信度，并将纠错置信度大于第一预设阈值的纠错候选文本作为纠错后的识别文本，每一纠错候选文本对应的纠错置信度用于表示每一纠错候选文本作为纠错后的识别文本的可信程度。

作为一种可选实施例，该装置还包括：

第三确定模块，用于确定识别文本中每一分词的识别置信度，并将识别置信度小于第二预设阈值的分词作为错误分词；或者，

第四确定模块，用于确定识别文本经过翻译后得到的目标语言文本中每一目标分词的翻译准确度，并将翻译准确度小于第三预设阈值的目标分词在识别文本中对应的分词作为错误分词，每一目标分词的翻译准确度用于表示每一目标分词作为翻译结果的可信程度。

作为一种可选实施例，第一确定模块401，包括：

确定单元，用于对于识别文本中任一错误分词，确定任一错误分词对应的易混淆词，确定任一错误分词对应的每一易混淆词的易混淆度，任一错误分词对应至少一个易混淆词；

选取单元，用于基于任一错误分词对应易混淆词的易混淆度，按照预设规则对任一错误分词对应的易混淆词进行选取，将选取结果作为任一错误分词对应的纠错词。

作为一种可选实施例，确定单元，用于对于任一错误分词对应的任一易混淆词，将任一错误分词与任一易混淆词之间的发音相似度以及任一易混淆词被识别错误的概率进行融合，得到任一易混淆词的易混淆度。

作为一种可选实施例，选取单元，用于按照从大到小的次序对任一错误分词对应易混淆词的易混淆度进行排序，选取前N个易混淆度对应的易混淆词作为任一错误分词对应的纠错词，N为大于等于1的整数；或者，确定任一错误分词对应的易混淆词中易混淆度大于第四预设阈值的易混淆词，并作为任一错误分词对应的纠错词。

作为一种可选实施例，第二确定模块403，用于根据每一纠错候选文本中每一纠错词对应的易混淆度，确定每一纠错候选文本对应的易混淆分值；将每一纠错候选文本对应的易混淆分值、翻译置信分值以及语言模型分值进行融合，得到每一纠错候选文本对应的纠错置信度；其中，每一纠错候选文本对应的翻译置信分值用于表示每一纠错候选文本经过翻译后的目标语言文本作为翻译结果的可信程度。

作为一种可选实施例，第二确定模块403，还获取每一纠错候选文本经过翻译后的目标语言文本；根据每一纠错候选文本对应的目标语言文本中每一目标分词的翻译准确度，以及每一纠错候选文本对应的目标语言文本中目标分词的数量，确定每一纠错候选文本对应的翻译置信分值，每一目标分词的翻译准确度用于表示每一目标分词作为翻译结果的可信程度。

本发明实施例提供的装置，通过确定识别文本中每一识别错误的错误分词对应的纠错词，将每一纠错词替换识别文本中对应的错误分词，以得到识别文本对应的纠错候选文本。确定每一纠错候选文本对应的纠错置信度，并将纠错置信度大于第一预设阈值的纠错候选文本作为纠错后的识别文本。由于在通过语音识别得到识别文本后，可选取可信程度较高的纠错候选文本作为纠错后的识别文本，以实现对识别文本进行纠错，从而提高了后续翻译的准确性。

本发明实施例提供了一种识别文本纠错设备。参见图5，该设备包括：处理器(processor)501、存储器(memory)502和总线503；

其中，处理器501及存储器502分别通过总线503完成相互间的通信；

处理器501用于调用存储器502中的程序指令，以执行上述实施例所提供的识别文本纠错方法，例如包括：确定识别文本中每一识别错误的错误分词对应的纠错词，每一错误分词对应至少一个纠错词；将每一纠错词替换识别文本中对应的错误分词，以得到识别文本对应的纠错候选文本，识别文本对应至少一个纠错候选文本；确定每一纠错候选文本对应的纠错置信度，并将纠错置信度大于第一预设阈值的纠错候选文本作为纠错后的识别文本，每一纠错候选文本对应的纠错置信度用于表示每一纠错候选文本作为纠错后的识别文本的可信程度。

本发明实施例提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令使计算机执行上述实施例所提供的识别文本纠错方法，例如包括：确定识别文本中每一识别错误的错误分词对应的纠错词，每一错误分词对应至少一个纠错词；将每一纠错词替换识别文本中对应的错误分词，以得到识别文本对应的纠错候选文本，识别文本对应至少一个纠错候选文本；确定每一纠错候选文本对应的纠错置信度，并将纠错置信度大于第一预设阈值的纠错候选文本作为纠错后的识别文本，每一纠错候选文本对应的纠错置信度用于表示每一纠错候选文本作为纠错后的识别文本的可信程度。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的识别文本纠错设备等实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分方法。

最后，本申请的方法仅为较佳的实施方案，并非用于限定本发明实施例的保护范围。凡在本发明实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种识别文本纠错方法，其特征在于，包括：

将每一纠错词替换所述识别文本中对应的错误分词，以得到所述识别文本对应的纠错候选文本，所述识别文本对应至少一个纠错候选文本；

2.根据权利要求1所述的方法，其特征在于，所述确定识别文本中每一识别错误的错误分词对应的纠错词之前，还包括：

确定所述识别文本中每一分词的识别置信度，并将识别置信度小于第二预设阈值的分词作为错误分词；或者，

确定所述识别文本经过翻译后得到的目标语言文本中每一目标分词的翻译准确度，并将翻译准确度小于第三预设阈值的目标分词在所述识别文本中对应的分词作为错误分词，每一目标分词的翻译准确度用于表示每一目标分词作为翻译结果的可信程度。

3.根据权利要求1所述的方法，其特征在于，所述确定所述识别文本中每一识别错误的错误分词对应的纠错词，包括：

对于所述识别文本中任一错误分词，确定所述任一错误分词对应的易混淆词，确定所述任一错误分词对应的每一易混淆词的易混淆度，所述任一错误分词对应至少一个易混淆词；

基于所述任一错误分词对应易混淆词的易混淆度，按照预设规则对所述任一错误分词对应的易混淆词进行选取，将选取结果作为所述任一错误分词对应的纠错词。

4.根据权利要求3所述的方法，其特征在于，所述确定所述任一错误分词对应的每一易混淆词的易混淆度，包括：

对于所述任一错误分词对应的任一易混淆词，将所述任一错误分词与所述任一易混淆词之间的发音相似度以及所述任一易混淆词被识别错误的概率进行融合，得到所述任一易混淆词的易混淆度。

5.根据权利要求3所述的方法，其特征在于，所述基于所述任一错误分词对应易混淆词的易混淆度，按照预设规则对所述任一错误分词对应的易混淆词进行选取，将选取结果作为所述任一错误分词对应的纠错词，包括：

按照从大到小的次序对所述任一错误分词对应易混淆词的易混淆度进行排序，选取前N个易混淆度对应的易混淆词作为所述任一错误分词对应的纠错词，N为大于等于1的整数；

或者，确定所述任一错误分词对应的易混淆词中易混淆度大于第四预设阈值的易混淆词，并作为所述任一错误分词对应的纠错词。

6.根据权利要求3所述的方法，其特征在于，所述确定每一纠错候选文本对应的纠错置信度，包括：

7.根据权利要求6所述的方法，其特征在于，所述将每一纠错候选文本对应的易混淆分值、翻译置信分值以及语言模型分值进行融合，得到每一纠错候选文本对应的纠错置信度之前，还包括：

获取每一纠错候选文本经过翻译后的目标语言文本；

8.一种识别文本纠错装置，其特征在于，包括：

替换模块，用于将每一纠错词替换所述识别文本中对应的错误分词，以得到所述识别文本对应的纠错候选文本，所述识别文本对应至少一个纠错候选文本；

9.一种识别文本纠错设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。