CN114495910A

CN114495910A - 文本纠错方法、系统、设备及存储介质

Info

Publication number: CN114495910A
Application number: CN202210360845.6A
Authority: CN
Inventors: 吕召彪; 许程冲; 李剑锋; 肖清; 周丽萍
Original assignee: China Unicom Guangdong Industrial Internet Co Ltd
Current assignee: China Unicom Guangdong Industrial Internet Co Ltd
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2022-05-13
Anticipated expiration: 2042-04-07
Also published as: CN114495910B; WO2023193542A1

Abstract

本发明提供文本纠错方法、系统、设备及存储介质，包括：将经过自动语音识别的文本切分为短句；将短句输入已训练的纠错模型，包括音素提取器、音素特征编码器、语言特征编码器、特征合并模块和解码器，在训练时同步更新参数；音素提取器获取音素信息，音素特征编码器将其转化为音素特征；语言特征编码器得到语言特征；特征合并模块合并音素特征和语言特征得到合并特征，解码器对其解码以对其纠错；确定同一短句的第一困惑度和第二困惑度；通过比较两者确定短句的正确文本；将所有短句的正确文本按顺序合并为正确文本。将对文本的各层级处理集成在纠错模型中，使各层级的参数在训练时同步更新，上层结构的误差在下游训练中得到修正，避免误差积累。

Description

文本纠错方法、系统、设备及存储介质

技术领域

本发明涉及文本纠错领域，更具体地，涉及文本纠错方法、系统、设备及存储介质。

背景技术

自动语音识别（Automatic Speech Recognition，ASR）是自然语言处理中智能语音的一项基础任务，该技术能够广泛应用于智能客服、智能外呼等场景。在自动语音识别任务中，经常出现语音识别结果不够准确的情况，例如识别得到的文本出现错字、多字、少字等错误，因此，对于下游的自然语言处理业务而言，自动语音识别结果的纠错也是一项关键的任务。而现有的文本纠错方案一般采用管道式处理，即分为三个顺序步骤：错误检测、候选召回、候选排序。错误检测是指检测定位文本中出现错误的点位，候选召回是指召回错误点位的正确候选词，候选排序是指需通过排序算法对召回的候选词进行打分排序，选择分数最高/顺序最前的一项与错误点位的词/字进行替换。现有的方案中会通过三个独立的模型分别实现三个步骤，但管道式处理的方式必然导致下游模型会强依赖上游模型的结果，则当某一模型出现误差时，该误差会在下游模型中不断累积，从而使最终结果出现较大误差。假设每个模型的模型准确率为

，最终的纠错准确率为

，如果

准确率都是90%，最终的准确率只有73%。

发明内容

本发明旨在克服上述现有技术的至少一种缺陷，提供文本纠错方法、系统、设备及存储介质，用于解决传统的文本纠错方案中容易出现误差累积，从而导致最终结果出现较大误差的问题。

本发明采用的技术方案包括：

第一方面，本发明提供一种文本纠错方法，包括：将经过自动语音识别得到的文本切分为若干个短句；对于每一个所述短句执行以下操作：将所述短句输入已训练的纠错模型，所述纠错模型包括音素提取器、音素特征编码器、语言特征编码器、特征合并模块以及解码器；所述音素提取器、音素特征编码器、语言特征编码器、特征合并模块以及解码器在通过将文本样本输入所述纠错模型进行训练的过程中同步更新参数；所述音素提取器获取所述短句的音素信息；所述音素特征编码器通过编码将所述音素信息转化为音素特征；所述语言特征编码器通过编码得到所述短句的语言特征；所述特征合并模块合并所述音素特征和所述语言特征得到合并特征；所述解码器通过对所述合并特征进行解码以对所述短句进行纠错，并得到纠错后的短句；确定纠错后的短句的文本困惑度作为第一困惑度；确定纠错前的短句的文本困惑度作为第二困惑度；通过比较同一短句的第一困惑度和第二困惑度确定以所述纠错前的短句或纠错后的短句作为对应短句的正确文本；将所有所述短句的正确文本按顺序合并为正确文本。

第二方面，本发明提供一种文本纠错系统，包括：文本预处理模块、纠错模型、判别模型和文本合并模块；所述文本预处理模块用于将经过自动语音识别得到的文本切分为若干个短句，并将若干个短句输入已训练的纠错模型；所述纠错模型包括音素提取器、音素特征编码器、语言特征编码器、特征合并模块和解码器；所述音素提取器、音素特征编码器、语言特征编码器、特征合并模块以及解码器在通过将文本样本输入所述纠错模型进行训练的过程中同步更新参数；所述音素提取器用于获取每一个所述短句的音素信息，并将每一个短句的音素信息输入所述音素特征编码器，还用于将每一个短句直接输入所述语言特征编码器以及所述判别模型；所述音素特征编码器用于通过编码将每一个短句的音素信息转化为对应短句的音素特征；所述语言特征编码器用于通过编码得到每一个短句的语言特征；所述特征合并模块用于合并同一短句的音素特征和语言特征得到对应短句的合并特征，并将每一个短句的合并特征输入所述解码器；所述解码器用于对每一个短句的合并特征进行解码以对对应短句进行纠错，得到纠错后的短句，还用于将每一个纠错后的短句输入所述判别模型；所述判别模型用于确定每一个纠错前的短句的文本困惑度作为对应短句的第一困惑度，并确定每一个纠错后的短句的文本困惑度作为对应短句的第二困惑度；还用于通过比较同一短句的第一困惑度和第二困惑度，确定以所述纠错前的短句或纠错后的短句作为对应短句的正确文本；所述文本合并模块用于将所有所述短句的正确文本按顺序合并为正确文本。

第三方面，本发明提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的文本纠错方法。同时提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的文本纠错方法。

与现有技术相比，本发明的有益效果为：

本发明提供的文本纠错方法通过将音素提取、音素编码、语言编码、特征融合以及解码的功能模块集成在一个纠错模型，在训练该模型时，模型各个层级的参数能够同步更新，使上层结构的误差在下游训练中得到修正，解决了多层级结构对短句处理过程中误差积累的问题。同时，本发明提供的方法还包括对纠错前的短句和纠错后的短句的文本困惑度进行比较，用于应对由于纠错模型本身的出错而导致纠错后的短句语句极不通顺的情况，基于文本困惑度的比较能够更精确地选择更通顺和合理的文本作为最终的正确文本，避免误判的情况发生。

附图说明

图1为实施例1的纠错方法步骤S110~S150的流程示意图。

图2为实施例1的纠错模型的纠错过程示意图。

图3为实施例1的纠错方法中包含具体步骤S141~S143的步骤S110~S150的流程示意图。

图4为实施例2的纠错方法步骤S210~S250的流程示意图。

图5为实施例2的预处理步骤T210~T245的流程示意图。

图6为实施例2的纠错模型的纠错过程以及判别模型的困惑度确定过程示意图。

图7为实施例3的文本纠错系统的处理过程示意图。

图8为实施例3的文本预处理系统的模块组成示意图。

具体实施方式

本发明附图仅用于示例性说明，不能理解为对本发明的限制。为了更好说明以下实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

实施例1

本实施例提供一种文本纠错方法，提出采用已训练的端对端纠错模型进行文本纠错，该端对端纠错模型以编码器-解码器的结构构建，在训练过程中同步更新各层级相关参数，从而消除了编码器和解码器之间的误差积累，保证了文本纠错的准确性。

如图1所示，该方法包括以下步骤：

S110、将经过自动语音识别得到的文本切分为若干个短句；

在优选的实施方式中，在将文本切分为若干个短句后，对每个短句按照原本在文本中的排列顺序进行编号，以便在后续步骤中将处理后的短句进行重新合并。

S120、将每一个短句输入已训练的纠错模型，纠错模型对短句纠错完成后输出纠错后的短句；

如图2所示，在本步骤中，该纠错模型包括音素提取器11、音素特征编码器12、语言特征编码器13、特征合并模块14以及解码器15。通过将预先准备好的文本样本输入该纠错模型以对该模型进行训练，文本样本为用于训练纠错模型的语言材料。

纠错模型处于各个层级的音素提取器11、音素特征编码器12、语言特征编码器13、特征合并模块14以及解码器15均在训练过程中同步更新参数，直至纠错模型训练完成。该参数是指各个层级的参数，具体是指在各个层级在实现自身功能时需要结合的影响因子或权重，用于影响对应层级所输出的结果。

如图2所示，在将每一个短句输入已训练的纠错模型后，每一个短句均首先输入音素提取器11以及语言特征编码器13，最后由解码器15输出纠错结果。该纠错模型对每一个短句的处理过程为：

音素提取器11获取每一个短句的音素信息，并将每一个短句的音素信息输入音素特征编码器12。

在此过程中，音素信息是指能够表示短句发音的信息，例如可以是该短句的拼音、音标等任何适用于表示该短句发音的发音符号。

音素特征编码器12在接收到短句的音素信息后，通过编码将每一个短句的音素信息转化为音素特征，将音素特征输入特征合并模块14。

在此过程中，通过编码得到的音素特征为能够表示短句发音的向量特征，在具体的实施方式中，音素特征编码器12为神经网络编码器模型，可以采用多层Transformer编码器（Transformer是指网络结构完全由注意力机制组成）、循环神经网络等实现。

同时，语言特征编码器13通过编码得到每一个短句的语言特征，将语言特征输入特征合并模块14。

在此过程中，通过编码得到的语言特征为能够表示该短句文本语言内容的向量特征。在具体的实施方式中，语言特征编码器13可采用BERT（Bidirectional EncoderRepresentation from Transformers，双向Transformer编码器）预训练语言模型实现。

特征合并模块14在接收到短句的音素特征和语言特征后，合并同一短句的音素特征和语言特征，得到对应短句的合并特征，并将短句的合并特征输入解码器15。

在此过程中，特征合并模块14具体是使用向量拼接的方式合并同一短句的音素特征和语言特征。

解码器15在接收到短句的合并特征后，通过对短句的合并特征进行解码以对该短句进行纠错，并得到纠错后的短句，并将该纠错后的短句输出。

在具体的实施方式中，解码器15由一个全连接层和非线性变换层实现，在具体的实施方式中，解码器15也可以替换为Transformer解码器等神经网络解码器模型。

S130、确定纠错后的短句的文本困惑度作为第一困惑度；确定纠错前的短句的文本困惑度作为第二困惑度；

在本步骤中，纠错前的短句是指在没有将短句输入纠错模型前的句子。文本困惑度是指文本的通顺程度和合理程度，一般用于评价用于处理文本的语言模型，如文本困惑度越高，表示处理后的文本越不通顺且不合理，反之困惑度越低，表示文本越通顺且合理。在本步骤中可以是将纠错前的短句和纠错后的短句输入同一语言模型中，并计算两个文本的文本困惑度，在语言模型相同的情况下，文本困惑度就能够用于评价输入文本本身的通顺和合理程度，即本步骤所确定的第一困惑度和第二困惑度都分别可用于评价纠错后的短句和纠错前的短句的通顺和合理程度。

S140、通过比较同一短句的第一困惑度和第二困惑度确定以纠错前的短句或纠错后的短句作为对应短句的正确文本；

在本步骤中，通过比较同一短句的第一困惑度和第二困惑度可确定纠错后的短句与纠错前的短句之间的通顺和合理程度的差异，从而确定应该以纠错前的短句或纠错后的短句作为对应短句的正确文本。

在本实施例中，如以提高短句的通顺和合理程度作为整个方法的目的，则应将文本困惑度更低的短句作为正确文本，基于此，如图3所示，步骤S140包括以下步骤：

S141、判断同一短句的第一困惑度是否小于或等于第二困惑度；如是，执行步骤S142；如否，执行步骤S143；

S142、以纠错后的短句作为对应短句的正确文本，执行步骤S144；

S143、以纠错前的短句作为对应短句的正确文本，执行步骤S144；

S144、判断是否所有短句都判断完成，如否，继续执行步骤S141对未进行判断的短句进行判断，如是，执行步骤S150；

S150、将所有短句的正确文本按顺序合并为正确文本。

在本步骤中，切分得到的短句在原文本中有自身的顺序，按照短句在原文本中的顺序将对应短句的正确文本合并为原文本的正确文本，如切分后的短句已经有预先分配的编号，则可以按照预先分配的编号对短句的正确文本进行排序，从而合并得到原文本的正确文本，即为最终结果。

本实施例提供的文本纠错方法采用已训练的端对端纠错模型进行文本纠错，训练端对端纠错模型时，模型的各个层级的相关参数都会同步更新，上层结构出现的误差会在下游训练中得到修正，因此不存在误差积累的问题，且在输入纠错模型之前的文本处理仅为切分短句，而对短句的音素提取、音素编码、语言编码、特征合并以及解码过程都被囊括在纠错模型中，保证了对短句的各个处理过程能够在端对端模型的训练过程中得到修正和优化，确保了在使用训练好的纠错模型对短句进行纠错时的准确性。其次，纠错模型的特征合并模块通过融合短句的语言特征和音素特征，使解码器能够兼顾短句的语义特征和发音特征的纠错。最后，本实施例提供的方法还进一步比较了经纠错模型纠错前短句和纠错后短句的文本困惑度，选择困惑度较低的短句作为该短句的正确文本，有效避免出现误纠情况。

实施例2

基于与实施例1相同的构思，本实施例提供一种更优选的文本纠错方法，如图4所示，该方法包括以下步骤：

S210、将经过自动语音识别得到的文本切分为若干个短句S_o；

S220、将每一个短句S_o输入已训练的纠错模型，纠错模型对短句纠错完成后输出纠错后的短句S_c；

在本步骤中，已训练的纠错模型是利用将预先准备好的文本样本作为输入训练得到的。预先准备好的文本样本需要经过预处理后再输入纠错模型。如图5所示，预处理包括有：

T210、截取每个文本样本中的若干个候选词；

在本步骤执行之前，应先统计文本样本中每个字的出现频率以及邻接字频率字典。邻接字频率字典指由每个字的邻接字出现的频率构成。在本步骤中，截取每个文本的若干个候选词，具体可以通过设置最大词长M和最小词长N，以滑动窗口的方式从文本样本中截取长度为N到M的若干个候选词。

T220、确定每个候选词的出现频率以及邻接字频率字典；

T230、确定每个候选词的左/右邻接字信息熵以及内部字凝聚度；

在本步骤中，候选词的左/右邻接字信息熵是指候选词在文本中按顺序排列在左边/右边的邻接字的信息熵。具体地，候选词的左/右邻接字信息熵可通过以下算式计算得到：

其中，k表示候选词的左/右邻接字的集合，p(x)表示该字的概率，可根据预先统计的邻接字频率字典确定。

候选词的内部字凝聚度是指候选词中字与字之间的紧密程度。具体地，候选词的内部字凝聚度可以通过以下算式计算得到：

其中，p(x_i,j)表示候选词内部

到

片段的概率，可根据预先统计得到的每个候选词的出现概率确定。

T240、根据所有候选词的左右邻接字信息熵、内部字凝聚度以及词频确定所有热词；

在本步骤中，根据候选词的邻接字的信息以及候选词自身的信息确定候选词是否属于热词，构造候选词词典，用以后续进一步对文本样本进行处理。

具体地，可预先设定信息熵阈值H和凝聚度阈值S，用以筛选属于热词的候选词的初步筛选标准，并以候选词的词频对所有候选词进行排序，作为二次筛选，结合初步筛选和二次筛选最后确定所有热词。基于此，步骤T230具体包括以下步骤：

T241、判断候选词的左/右邻接字信息熵是否大于或等于信息熵阈值H，且同一候选词的内部字凝聚度是否大于或等于凝聚度阈值S，如是，执行步骤T242；如否，执行步骤T243；

T242、将该候选词确定为热词，执行步骤T243。

在本步骤中，具体可以将所有已确定为热词的候选词构建第一词表。

T243、判断是否所有候选词都进行完成判断，如是，执行步骤T244，如否，继续执行步骤T241未进行判断的候选词进行判断，直至所有候选词判断完成，执行步骤T244；

T244、引入公开词表，根据公开词表中的词的词频对其进行排序，确定排序前n的词；在所有已确定的热词中剔除排序为前n的词；

在本步骤中，可以以公开词表中排序前n的词构建第二词表，并在第一词表中剔除第二词表中的词语，以已剔除的剩余热词构建第三词表。

构建第三词表能够应用于后续步骤中对文本样本的内容进行增强，以提升纠错模型对第三词表的热词的纠错能力。

T245、随机删除、替换和/或重复文本样本的内容，并将文本样本中的热词进行随机替换后，得到预处理后的文本样本。

在本步骤中，对文本样本的内容进行进一步处理，包括以一定的概率删除、替换和/或重复文本样本的内容，同时，将文本样本中的热词进行随机替换，有助于纠错模型识别各种类型的文本，提高纠错模型的泛化能力。

删除、替换、重复文本样本内容，以及对热词进行随机替换的4个操作可以根据实际情况选择执行。

具体地，随机删除的过程为：文本样本中的每个字，以一定的概率p₁随机删除，删除的字数不超过总句长的30%，该比例可以根据实际情况而定；随机替换的过程为：文本样本中的每个字，以一定的概率p₂随机替换成谐音字或近音字，替换的字数不超过总句长的30%，该比例可以根据实际情况而定；随机重复的过程为：文本样本中的每个字，以一定的概率p₃随机重复并插入当前位置，重复的字数不超过总句长的30%，该比例可以根据实际情况而定。最后在将文本样本中的热词进行随机替换时，先对文本样本与已剔除的剩余热词（第三词表）进行比对，当检测到文本样本有对应热词时，以比p₁、p₂、p₃都高的概率p₄随机将其替换成谐音词或近音词。

基于经过上述预处理后的文本样本作为训练、测试、验证集，对纠错模型进行训练，最后得到已训练的纠错模型。在具体的实施方式中，纠错模型在训练过程中可以使用每个字符的交叉熵作为损失函数，以Adam（Adaptive Momentum Estimation）优化算法作为训练优化器。

如图5所示，纠错模型包括音素提取器11、音素特征编码器12、语言特征编码器13、特征合并模块14以及解码器15。各个层级的模块/模型均在训练过程中同步更新参数，直至纠错模型训练完成。

在将每一个短句S_o输入已训练的纠错模型后，每一个短句S_o均首先输入音素提取器11以及语言特征编码器13，最后由解码器15输出纠错结果。该纠错模型对每一个短句S_o的处理过程为：

音素提取器11获取每一个短句S_o的音素信息，并将每一个短句S_o的音素信息输入音素特征编码器12。

在本实施例中，音素信息具体是指每一个短句S_o中每个字的拼音声母信息和拼音声母信息，例如短句S_o为“你好”，则该短句的拼音为“ni hao”，拼音声母部分的信息为“nh”，拼音韵母部分的信息为“iao”。

音素特征编码器12在接收到短句S_o的拼音声母信息和拼音韵母信息后，通过编码将每一个短句S_o的拼音声母信息转化为第一音素特征，将拼音韵母信息转化为第二音素特征，将第一音素特征和第二音素特征输入特征合并模块14。

同时，语言特征编码器13通过编码得到每一个短句S_o的语言特征，将语言特征输入特征合并模块14。

特征合并模块14在接收到短句S_o的第一音素特征、第二音素特征和语言特征后，利用向量拼接的方式合并同一短句S_o的第一音素特征、第二音素特征和语言特征，得到对应短句S_o的合并特征，并将短句S_o的合并特征输入解码器15。

解码器15在接收到短句S_o的合并特征后，通过对短句S_o的合并特征进行解码以对该短句S_o进行纠错，并得到纠错后的短句S_c，如图5所示，解码器15将纠错后的短句S_c分别输出至判别模型的第一语言模型26和第二语言模型27。

S230、根据第一语言模型26输出的纠错后的短句S_c的文本困惑度指标，以及第二语言模型27输出同一纠错后的语句S_c的文本困惑度指标，确定同一纠错后的短句S_c的文本困惑度，作为对应短句S_o的第一困惑P_c；根据第一语言模型26输出的短句S_o的文本困惑度指标，以及第二语言模型27输出同一纠错前的语句S_o的文本困惑度指标，确定同一纠错前的短句S_o的文本困惑度，作为对应短句S_o的第二困惑度P_o；

第一语言模型26和第二语言模型27分别以不同来源的语料数据作为基础语料，且以文本困惑度作为评价指标。在具体的实施过程中，第一语言模型26为以通用场景语料作为基础数据的语言模型，具体可以引入开源语料THUCNews作为第一语言模型26的基础语料。第二语言模型27为以行业场景语料作为基础数据的语言模型，可通过收集行业数据得到。

在优选的实施方式中，两个以不同语言为基础语料的语言模型均为双向N元语言模型。

N元语言模型基于N-Gram算法，N-Gram算法基于以下假设：文本中的第i个字/词只与前面i-1个字/词相关，而与其他字/词无关。N-Gram算法的实现思路为：使用一个大小为N的滑动窗口遍历文本，获得一个片段序列，其中每个片段的大小为N；统计这些长度为N的片段里字/词的条件概率，得到最终的语言模型为N元语言模型。在本实施例中，N可取3。

双向N元语言模型由一层逆向的N-Gram结构和一层正向的N-Gram结构相加得到，用于捕获短句中的双向文本信息。双向N元语言模型可以以下列式子表示：

其中，

为文本概率，

为文本中词

的正向概率，

为词

的逆向概率。

该双向N元语言模型采用文本困惑度作为评价指标，可以以下列式子表示：

其中，P为文本困惑度。

经解码器15输出的纠错后的短句S_c都会被输入至第一语言模型26以及第二语言模型27中进行处理，针对每一个纠错后的短句S_c，第一语言模型26和第二语言模型27会分别输出一个文本困惑度指标，分别是P₁(S_c)和P₂(S_c)，则对应短句的第一困惑度可以通过下列式子计算得到：

其中，

和

为预先设定的拟合参数。

针对每一个纠错前的短句S_o，第一语言模型26和第二语言模型27也会分别输出一个文本困惑度指标，分别是P₁(S_o)和P₂(S_o)，则对应短句的第二困惑度可以通过下列式子计算得到：

其中，

和

为预先设定的拟合参数。

S241、判断同一短句S_o的第一困惑度P_c是否小于或等于第二困惑度P_o；如是，执行步骤S242；如否，执行步骤S243；

S242、以纠错后的短句S_c作为对应短句S_o的正确文本，执行步骤S244；

S243、以纠错前的短句S_o作为对应短句S_o的正确文本，执行步骤S244；

S244、判断是否所有短句S_o都判断完成，如否，则重复执行步骤S241对未进行判断的短句S_o进行判断，如是，则执行步骤S250。

S250、将所有短句的正确文本按顺序合并为正确文本T_c。

本实施例提供的文本纠错方法采用已训练的端对端纠错模型进行文本纠错，在训练之前，通过在文本样本中进行热词挖掘以及文本增强以对其进行预处理，大大提升了纠错模型应对各种类型的文本的纠错能力。其次，采用双向N元语言模型有利于捕获短句的双向文本信息，从而得到更加精准的困惑度指标，且用于计算困惑度指标的有两个语言模型，且两个语言模型以不同来源的语料数据作为基础语料，并由其计算得到困惑度指标，根据两个语言模型输出的困惑度指标确定每个短句的第一困惑度和第二困惑度，结合两个语言模型的结果进行计算有利于提高第一困惑度和第二困惑度的准确性和可信性。

本实施例提供的文本纠错方法与实施例1基于同一构思，因此与实施例1出现相同的步骤以及名词，其定义、解释、具体/优选的实施方式，以及所带来的有益效果均可参考实施例1中的说明，在本实施例中不再赘述。

实施例3

基于与实施例1、2相同的构思，本实施例提供一种文本纠错系统，如图7所示，包括：文本预处理模块31、纠错模型32、判别模型33和文本合并模块34。

文本预处理模块31用于将经过自动语音识别得到的文本切分为若干个短句，并将若干个短句输入已训练的纠错模型32。

纠错模型32包括音素提取器11、音素特征编码器12、语言特征编码器13、特征合并模块14和解码器15。

其中，纠错模型32为已训练好的模型，该模型是通过将预先准备好的文本样本作为输入训练得到的。在纠错模型32训练过程中，音素提取器11、音素特征编码器12、语言特征编码器13、特征合并模块14以及解码器15同步更新各自的参数。

在优选的实施方式中，预先准备好的文本样本需要经过预处理后再输入纠错模型。如图8所示，可采用文本预处理系统对文本样本进行预处理，该文本预处理系统包括：热词挖掘模块35和文本增强模块36。

热词挖掘模块35，具体包括：

候选词确定模块351，用于通过设置最大词长M和最小词长N，以滑动窗口的方式从文本样本中截取长度为N到M的若干个候选词。

候选词频率确定模块352，用于确定每个候选词的出现频率以及邻接字频率字典。

候选词信息熵及凝聚度确定模块353，用于确定每个候选词的左/右邻接字信息熵以及内部字凝聚度。具体地，候选词的左/右邻接字信息熵可通过以下算式计算得到：

。

候选词的内部字凝聚度可以通过以下算式计算得到：

第一词表构建模块354，用于判断候选词的左/右邻接字信息熵是否大于或等于信息熵阈值H，且同一候选词的内部字凝聚度是否大于或等于凝聚度阈值S，如是，将该候选词确定为热词，继续对未进行判断的候选词进行判断；如否，继续对未进行判断的候选词进行判断，直至所有候选词判断完成，并将所有已确定为热词的候选词构建第一词表。

第二词表构建模块355，用于引入公开词表，根据公开词表中的词的词频对其进行排序，确定排序前n的词；在所有已确定的热词中剔除排序为前n的词，以公开词表中排序前n的词构建第二词表。

第三词表构建模块356，用于在第一词表中剔除第二词表中的词语，以已剔除的剩余热词构建第三词表。

文本增强模块36，具体包括：

随机删除模块361，用于将文本样本中的每个字，以一定的概率p₁随机删除，删除的字数不超过总句长的30%，该比例可以根据实际情况而定。

随机替换模块362，用于将文本样本中的每个字，以一定的概率p₂随机替换成谐音字或近音字，替换的字数不超过总句长的30%，该比例可以根据实际情况而定。

随机重复模块363，用于将文本样本中的每个字，以一定的概率p₃随机重复并插入当前位置，重复的字数不超过总句长的30%，该比例可以根据实际情况而定。

热词替换模块364，用于根据第三词表构建模块356构建的第三词表对文本样本中的词进行比对，当检测到文本样本有对应热词时，以比p₁、p₂、p₃都高的概率p₄随机将其替换成谐音词或近音词。

基于经过上述预处理后的文本样本作为训练、测试、验证集，对纠错模型进行训练，最后得到已训练的纠错模型32。

在已训练的纠错模型32中，当文本预处理模块31将切分好的短句输入纠错模型32时，首先由音素提取器11对该短句进行处理：

音素提取器11用于获取每一个短句的音素信息，并将每一个短句的音素信息输入音素特征编码器12，还用于将每一个短句直接输入语言特征编码器13以及判别模型33。

具体地，音素提取器11用于获取每一个短句的拼音声母信息以及拼音韵母信息，并将每一个短句的拼音声母信息以及拼音韵母信息输入音素特征编码器12。

音素特征编码器12用于通过编码将每一个短句的音素信息转化为对应短句的音素特征。

具体地，音素特征编码器12用于通过编码将每一个短句的拼音声母信息转化为第一音素特征，以及将拼音韵母信息转化为第二音素特征，将第一音素特征和第二音素特征输入特征合并模块14。

语言特征编码器13用于通过编码得到每一个短句的语言特征。

特征合并模块14用于合并同一短句的第一音素特征、第二音素特征和语言特征得到对应短句的合并特征，并将每一个短句的合并特征输入解码器15。

解码器15用于对每一个短句的合并特征进行解码以对对应短句进行纠错，得到纠错后的短句，还用于将每一个纠错后的短句输入判别模型33。

判别模型33具体包括：第一语言模型26、第二语言模型27、文本困惑度确定模块333以及困惑度比较模块334。

两个语言模型以不同来源的语料数据作为基础语料。在具体的实施方式中，第一语言模型26以通用场景语料作为基础数据，第二语言模型27以行业场景语料作为基础数据。

第一语言模型26用于输出纠错前的短句以及纠错后的短句的文本困惑度指标。

第二语言模型27用于输出纠错前的短句以及纠错后的短句的文本困惑度指标。

其中，纠错前的短句由文本预处理模块31输入，纠错后的短句由解码器15输入。

具体地，第一语言模型26和第二语言模型27均为双向N元语言模型，双向N元语言模型可以以下列式子表示：

其中，

为文本概率，

为文本中词

的正向概率，

为词

的逆向概率。

其中，P为文本困惑度。

文本困惑度确定模块333用于根据第一语言模型26以及第二语言模型27对于同一个纠错后的短句输出的文本困惑度指标，确定同一个纠错后的短句对应的短句的第一困惑度，并根据第一语言模型26以及第二语言模型27对于同一个纠错前的短句输出的文本困惑度指标，确定同一个纠错前的短句对应的短句的第二困惑度。

具体地，短句的第一困惑度可以通过下列式子计算得到：

其中，P₁(S_c)为第一语言模型26输出对应同一短句的纠错后的短句的文本困惑度指标，P₂(S_c)为第二语言模型27输出对应同一短句的纠错后的短句的文本困惑度指标。

和

为预先设定的拟合参数。

短句的第二困惑度可以通过下列式子计算得到：

其中，其中，P₁(S_o)为第一语言模型26输出对应同一短句的纠错前的短句的文本困惑度指标，P₂(S_c)为第二语言模型27输出对应同一短句的纠错前的短句的文本困惑度指标。

和

为预先设定的拟合参数。

困惑度比较模块334用于通过判断对应同一短句的第一困惑度是否小于或等于第二困惑度，如是，则确定以纠错后的短句作为对应短句的正确文本，如否，则确定以纠错前的短句作为对应短句的正确文本。

文本合并模块34用于将所有短句的正确文本按顺序合并为正确文本。

本实施例提供的文本纠错系统与实施例1、2基于同一构思，因此与实施例1、2出现相同的步骤以及名词，其定义、解释、具体/优选的实施方式，以及所带来的有益效果均可参考实施例1、2中的说明，在本实施例中不再赘述。

实施例4

基于与实施例1、2相同的构思，本实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现实施例1或2提供的文本纠错方法。

本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现实施例1或2提供的文本纠错方法。

显然，本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例，而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种文本纠错方法，其特征在于，包括：

将经过自动语音识别得到的文本切分为若干个短句；

对于每一个所述短句执行以下操作：

将所述短句输入已训练的纠错模型，所述纠错模型包括音素提取器、音素特征编码器、语言特征编码器、特征合并模块以及解码器；所述音素提取器、音素特征编码器、语言特征编码器、特征合并模块以及解码器在通过将文本样本输入所述纠错模型进行训练的过程中同步更新参数；

所述音素提取器获取所述短句的音素信息；

所述音素特征编码器通过编码将所述音素信息转化为音素特征；

所述语言特征编码器通过编码得到所述短句的语言特征；

所述特征合并模块合并所述音素特征和所述语言特征得到合并特征；

所述解码器通过对所述合并特征进行解码以对所述短句进行纠错，并得到纠错后的短句；

确定纠错后的短句的文本困惑度作为第一困惑度；

确定纠错前的短句的文本困惑度作为第二困惑度；

通过比较同一短句的第一困惑度和第二困惑度确定以所述纠错前的短句或纠错后的短句作为对应短句的正确文本；

将所有所述短句的正确文本按顺序合并为正确文本。

2.根据权利要求1所述的文本纠错方法，其特征在于，

确定纠错后的短句的文本困惑度作为第一困惑度，具体包括：

将纠错后的短句分别输入两个基于不同语料训练的语言模型，以使两个所述语言模型分别输出纠错后的短句的文本困惑度指标，根据两个所述语言模型输出的文本困惑度指标得到纠错后的短句的文本困惑度作为第一困惑度；

确定纠错前的短句的文本困惑度作为第二困惑度，具体包括：

将纠错前的短句分别输入所述两个基于不同语料训练的语言模型，以使两个所述语言模型分别输出纠错前的短句的文本困惑度指标，根据两个所述语言模型输出的文本困惑度指标得到纠错前的短句的文本困惑度作为第二困惑度；

所述语言模型以所述文本困惑度作为评价指标。

3.根据权利要求2所述的文本纠错方法，其特征在于，

所述两个基于不同语料训练的语言模型均为双向N元语言模型；

所述双向N元语言模型由一层逆向的N-Gram结构和一层正向的N-Gram结构相加得到，所述N为正整数。

4.根据权利要求1~3任一项所述的文本纠错方法，其特征在于，

通过比较所述第一困惑度和第二困惑度确定以所述纠错后的短句或纠错前的短句作为所述短句的正确文本，具体包括：

判断所述第一困惑度是否小于或等于所述第二困惑度，如是，则以纠错后的短句作为所述短句的正确文本；如否，则以纠错前的短句作为所述短句的正确文本。

5.根据权利要求1~3任一项所述的文本纠错方法，其特征在于，

所述音素信息包括拼音声母信息和拼音韵母信息；

所述音素特征包括第一音素特征和第二音素特征；

获取所述短句的音素信息，并通过音素编码将所述音素信息转化为音素特征，具体包括：获取所述短句的拼音声母信息和拼音韵母信息，通过音素编码将所述拼音声母信息转化为第一音素特征，并将拼音韵母信息转化为第二音素特征；

合并所述音素特征和所述语言特征得到合并特征，具体包括：合并所述第一音素特征、所述第二音素特征以及所述语言特征得到合并特征。

6.根据权利要求1~3任一项所述的文本纠错方法，其特征在于，

所述文本样本采用以下操作进行预处理：

截取每个所述文本样本中的若干个候选词；

确定每个所述候选词的左右邻接字信息熵以及内部字凝聚度；根据所有所述候选词的左右邻接字信息熵、内部字凝聚度确定所有热词；

随机删除、替换和/或重复所述文本样本的内容，并将所述文本样本中的热词进行随机替换后，得到预处理后的文本样本。

7.一种文本纠错系统，其特征在于，包括：文本预处理模块、纠错模型、判别模型和文本合并模块；

所述文本预处理模块用于将经过自动语音识别得到的文本切分为若干个短句，并将若干个短句输入已训练的纠错模型；

所述纠错模型包括音素提取器、音素特征编码器、语言特征编码器、特征合并模块和解码器；

所述音素提取器、音素特征编码器、语言特征编码器、特征合并模块以及解码器在通过将文本样本输入所述纠错模型进行训练的过程中同步更新参数；

所述音素提取器用于获取每一个所述短句的音素信息，并将每一个短句的音素信息输入所述音素特征编码器，还用于将每一个短句直接输入所述语言特征编码器以及所述判别模型；

所述音素特征编码器用于通过编码将每一个短句的音素信息转化为对应短句的音素特征；

所述语言特征编码器用于通过编码得到每一个短句的语言特征；

所述特征合并模块用于合并同一短句的音素特征和语言特征得到对应短句的合并特征，并将每一个短句的合并特征输入所述解码器；

所述解码器用于对每一个短句的合并特征进行解码以对对应短句进行纠错，得到纠错后的短句，还用于将每一个纠错后的短句输入所述判别模型；

所述判别模型用于确定每一个纠错后的短句的文本困惑度作为对应短句的第一困惑度，并确定每一个纠错前的短句的文本困惑度作为对应短句的第二困惑度；还用于通过比较同一短句的第一困惑度和第二困惑度，确定以所述纠错前的短句或纠错后的短句作为对应短句的正确文本；

所述文本合并模块用于将所有所述短句的正确文本按顺序合并为正确文本。

8.根据权利要求7所述的文本纠错系统，其特征在于，

所述判别模型包括两个基于不同语料训练的语言模型、第一困惑度确定模块、第二困惑度确定模块以及正确文本确定模块；

所述语言模型以所述文本困惑度作为评价指标；

所述语言模型用于确定所述解码器输入的每一个纠错后的短句的文本困惑度指标，以及所述文本处理模块输入的每一个纠错前的短句的文本困惑度指标；

所述第一困惑度确定模块用于根据两个所述语言模型输出的每一个纠错后的短句的文本困惑度指标，得到每一个纠错后的短句的文本困惑度，作为对应短句的第一困惑度；

所述第二困惑度确定模块用于根据两个所述语言模型输出的每一个纠错前的短句的文本困惑度指标，得到每一个纠错前的短句的文本困惑度，作为对应短句的第二困惑度；

所述正确文本确定模块用于比较同一短句的第一困惑度和第二困惑度，确定以所述纠错前的短句或纠错后的短句作为对应短句的正确文本。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1~6任一项所述的文本纠错方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1~6任一项所述的文本纠错方法。