CN114333838A

CN114333838A - 语音识别文本的修正方法及系统

Info

Publication number: CN114333838A
Application number: CN202210009893.0A
Authority: CN
Inventors: 谢畅
Original assignee: Shanghai Hode Information Technology Co Ltd
Current assignee: Shanghai Hode Information Technology Co Ltd
Priority date: 2022-01-06
Filing date: 2022-01-06
Publication date: 2022-04-12

Abstract

本申请实施例公开了一种语音识别文本的修正方法，所述方法包括：获取第一语音识别文本，所述第一语音识别文本基于语音识别得到；修正所述第一语音识别文本中的部分字词，得到第二语音识别文本；删除所述第二语音识别文本中的冗余信息，得到第三语音识别文本；及基于语法语义修正和语言风格修正，将所述第三语音识别文本转换为目标语音识别文本。在本申请实施例中，通过上述环环相扣的纠错、去冗余、语义修正和书面转换，高效且大幅度提高语音识别的准确率，将语音转换为准确平滑的书面文本，提升语音识别的用户体验。

Description

语音识别文本的修正方法及系统

技术领域

本申请涉及人工智能领域，尤其涉及一种语音识别文本的修正方法、系统、计算机设备和计算机可读存储介质。

背景技术

随着语音识别文本的自动修正技术不断发展，语音识别已经用于人们生活、工作、学习的各个场景中。语音识别技术可以通过隐马尔可夫-高斯混合模型(GMM-HMM)、端到端的深度模型等实现。但是，由于语音识别的流程较长，输入源不可控，基于现有的语音识别技术得到的信息可能存在不同程度的错误，导致使用者无法理解语音识别的结果或由于识别结果中错误过多而无法直接使用识别结果。

发明内容

本申请实施例的目的是提供一种语音识别文本的修正方法、系统、计算机设备及计算机可读存储介质，用于解决上述问题。

本申请实施例的一个方面提供了一种语音识别文本的修正方法，所述方法包括：

获取第一语音识别文本，所述第一语音识别文本基于语音识别得到；

修正所述第一语音识别文本中的部分字词，得到第二语音识别文本；

删除所述第二语音识别文本中的冗余信息，得到第三语音识别文本；及

基于语法语义修正和语言风格修正，将所述第三语音识别文本转换为目标语音识别文本。

可选的，所述修正所述第一语音识别文本中的部分字词，得到第二语音识别文本，包括：

对所述第一语音识别文本中的各个字符进行编码，得到第一编码序列；

对所述第一语音识别文本中的各个字符的拼音进行编码，得到第二编码序列；

根据所述第一编码序列和第二编码序列，生成目标编码序列；及

将所述目标编码序列输入到纠错模型，通过所述纠错模块输出所述第二语音识别文本；其中，所述纠错模型为训练好的基于字符和拼音进行句子纠错的模型。

可选的，还包括：

确定目标语言模型，所述目标语音模型用于预测上下文信息以及发音与文本的关联；

确定多个样本句子；

执行第一修改操作：以预设数量比例以及预设修改规则，修改各个样本句子中的部分拼音；

执行第二修改操作：用与各个被修改的拼音同音的字替换原来的字；

执行第三修改操作：以预设数量比例从各个样本句子中挑选出部分字，将被挑选出的各个字替换为与之同音的其他字，其中，被挑选出的各个字未被修改拼音；

基于所述第一修改操作、第二修改操作和/或第三修改操作，得到多个修改后的样本句子；

根据所述多个修改后的样本句子和所述多个样本句子训练所述目标语言模型，得到所述纠错模型；

其中，所述多个修改后的样本句子为训练样本，所述多个样本句子为参照样本。

可选的，还包括训练所述目标语言模型：

对多个样本句子对应的拼音进行编码，以得到多个样本句子编码；每个样本句子对应一个样本句子编码，样本句子编码中的各个token对应相应样本句子中的字符；

将每个样本句子编码的部分token替换为遮盖符；

根据携带有遮盖符的各个样本句子编码，训练BERT模型，以得到所述目标语言模型。

可选的，所述删除所述第二语音识别文本中的冗余信息，得到第三语音识别文本，包括：

确定所述第二语音识别文本中的单字重复或多字重复；

确定所述单字重复或多字重复在所述第二语音识别文本中的文本位置；

将所述第二语音识别文本的编码序列和所述文本位置输入到重复判别模型中，通过所述重复判别模型确定是否对所述重复字词执行删除操作；其中，所述重复判别模型是预先训练好的并根据上下文本信息和位置信息判别重复字词的模型。

根据预设规则，确定所述第二语音识别文本中的候选语气词；

确定所述候选语气词在所述第二语音识别文本中的文本位置；及

将所述第二语音识别文本的编码序列和所述文本位置输入到语气词判别模型中，通过所述语气词判别模型确定是否对所述语气词执行删除操作；其中，所述语气词判别模型是预先训练好的并根据上下文本信息和位置信息判别语气词的模型。

确定所述第二语音识别文本中的高频词，所述高频词的出现次数大于预设阈值；

确定所述高频词在所述第二语音识别文本中的文本位置；

将所述第二语音识别文本的编码序列和所述文本位置输入到口头禅判别模型中，通过所述口头禅判别模型确定所述高频词是否为口头禅；其中，所述口头禅判别模型是预先训练好的并根据上下文本信息和位置信息判别口头禅的模型；及

在所述高频词被判定为所述口头禅的情形下，对所述高频词执行删除操作。

可选的，所述基于语法语义修正和语言风格修正，将所述第三语音识别文本转换为目标语音识别文本，包括：

通过训练好的语法语义修正模型修正所述第三语音识别文本，得到第四语音识别文本；

根据映射表，将所述第四语音识别文本中的口语表述替换为书面语表述，得到所述目标语音识别文本；所述映射表用于表示口语表述和书面语表述之间的对应关系。

可选的，还包括：

获取多个训练语料，各训练语料均包括语法错误；

获取多个参考语料，参考语料为相应训练语料被语法修正后的语料；

根据所述多个训练语料和所述多个参考语料进行模型训练，以得到语法语义修正模型。

本申请实施例的一个方面又提供了一种语音识别文本的修正系统，所述系统包括：

获取模块，用于获取第一语音识别文本，所述第一语音识别文本基于语音识别得到；

第一修正模块，用于修正所述第一语音识别文本中的部分字词，得到第二语音识别文本；

删除模块，用于删除所述第二语音识别文本中的冗余信息，得到第三语音识别文本；及

第二修正模块，用于基于语法语义修正和语言风格修正，将所述第三语音识别文本转换为目标语音识别文本。

本申请实施例的一个方面又提供了一种计算机设备，所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时用于实现如上述语音识别文本的修正方法的步骤。

本申请实施例的一个方面又提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行如上述语音识别文本的修正方法的步骤。

本申请实施例提供的语音识别文本的修正方法、系统、设备及计算机可读存储介质，包括如下优点：

首先，修正发音人或语音识别过程中产生的错误信息，如发音错误、错别字等。

其次，在已经修正错误信息的基础上，删除口头禅、结巴、无意义语气词等冗余信息。

最后，在已经修正错误信息和删除冗余信息的基础上，将发音人表述的信息(第三语音识别文本)进行整合，转化为语义准确且符合书面语表述的目标语音识别文本。

因此，通过上述环环相扣的纠错、去冗余、语义修正和书面转换，高效且大幅度提高语音识别的准确率，将语音转换为准确平滑的书面文本，提升语音识别的用户体验。

由机器自动修正，生成高可用性的文本。对于用户来说，其不需手动纠正，体验好。

附图说明

图1示意性示出了根据本申请实施例的语音识别文本的修正方法的应用环境图；

图2示意性示出了根据本申请实施例一的语音识别文本的修正方法的流程图；

图3为图2中步骤S202的子步骤流程图；

图4为使用纠错模型的数据流向图；

图5为句子的编码示意图；

图6为纠错模型的训练流程图；

图7为训练纠错模型的数据流向图；

图8为目标语言模型的训练流程图；

图9为从第二语音识别文本转化为第三语音识别文本的流程示意图；

图10为图2中步骤S204的子步骤流程图；

图11为图2中步骤S204的子步骤流程图；

图12为图2中步骤S204的子步骤流程图；

图13为图2中步骤S206的子步骤流程图；

图14为语法语义修正模型的训练流程图；

图15为训练和使用语法语义修正模型的数据流向图；

图16示意性示出了根据本申请实施例二的语音识别文本的修正系统的框图；及

图17示意性示出了根据本申请实施例三的计算机设备的硬件架构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请实施例中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

在本申请的描述中，需要理解的是，步骤前的数字标号并不标识执行步骤的前后顺序，仅用于方便描述本申请及区别每一步骤，因此不能理解为对本申请的限制。

随着语音识别文本的自动修正技术不断发展，现阶段，语音识别已经用于人们生活、工作、学习的各个场景中，包括不限于翻译、同声传译、语音助手、智能客服等等。语音识别技术可以基于隐马尔可夫-高斯混合模型(GMM-HMM)到端到端(End-to-End)的深度模型实现。但是基于上述模型实现的语音识别技术，具有以下缺陷：

(1)由于语音识别的流程较长，输入源不可控，语音识别得到的信息可能存在不同程度的错误，导致使用者无法理解语音识别的结果或由于识别结果中错误过多而无法直接使用识别结果。

(2)语音与文本属于信息的不同载体，从语音到文本的转换过程除了包括上述信息损失外，还包含载体本身风格导致的差异，总体而言，语音信息包含的噪声(无效信息)更多，常用于非正式场合的信息记录，如聊天中的语音信息；而文本更加正式、书面，能够精准表述信息，可以用于正式场合的信息记录，如合同、法律条文等。

(3)在很多场合，语音转文本并不是单纯地将语音识别为对应的文字，而是需要将语音转化为正式、书面的信息表述，如警方录口供、外交会议中的同声传译等场景。

因此，现有的语音识别技术准确度低、效率低下、不能智能转换文本样式等问题。

举例而言：

(1)受发音人发音个体差异、表述差异、录制音频质量、语音识别模型能力等因素影响，语音识别的结果会有不同程度的错误。这些错误有可能是发音人产生的语法错误、读音错误，也可能是识别过程中产生的误识别。

(2)语音识别的结果偏口语化，其中可能含有发音人因结巴、口头禅而产生的无效信息。

举例：a.老师讲课时经常夹杂”这个”、”那个”、”就是说”等无实际语义的口头禅；

b.发音人由于情绪、思维或其他原因导致的表述不流畅，如结巴：“这这这这可怎么办”；

c.无意义的语气词，如那么，呃，就这样吧(语音识别结果)->那么就这样吧；

(3)发音人在说话过程中可能存在不符合书面语表述的语句，以及可能在说话过程中进行了语义层级的修正，这些因素导致语音转为文本后，需再次进行信息整合，才能形成书面语表述。

举例：a.语音信息：我上周买了去北京，不，去上海的机票；

实际信息：发音人上周买了去上海的机票；

b.口语->书面语表述：犄角旮旯->角落；

有鉴于此，本申请提供了文本分析方案，用于解决上文提出的一个或多个问题，诸如：

(1)修正发音人或语音识别过程中产生的信息错误，包括发音错误、错别字、语法错误等；

(2)消去发音人可能存在的口头禅、结巴、无意义语气词等；

(3)将发音人表述的信息进行整合，转化为准确、书面的表述。

以下为本申请的术语解释：

自然语言处理(NLP，Neuro-Linguistic Programming)：是分析人类语言的人工智能。工作原理如下：接收自然语言，这种语言是通过人类的自然使用演变而来的；转译自然语言，通常是通过基于概率的算法；分析自然语言并输出结果。

语言模型(Language Model)，根据语言客观事实而进行的语言抽象数学建模，是一种对应关系。语言模型与语言客观事实之间的关系，如同数学上的抽象直线与具体直线之间的关系。

词嵌入(Word Embedding)，是一种将文本中的词转换成数字向量的方法，为了使用标准机器学习算法来对它们进行分析，则需要把这些被转换成向量以数字形式作为输入。

自动语音识别技术(Automatic Speech Recognition，ASR)，自动语音识别技是一种将人的语音转换为文本的技术。

文本顺滑(Disfluency Detection)，通过算法自动删除自动语音识别(ASR)结果中的不顺滑的词，从而得到更自然和通顺的句子。

卷积神经网络(Convolution Neural Network，CNN)，是一类包含卷积计算且具有深度结构的前馈神经网络。

长短期记忆网络(Long-Short Term Memory，LSTM)，为一种循环神经网络，是为了解决一般的循环神经网络存在的长期依赖问题而专门设计出来的网络结构。

循环神经网络(Recurrent Neural Network，RNN)，一类以序列数据为输入，在序列的演进方向进行递归且所有节点按链式连接的神经网络结构。

条件随机场(Conditional Random Field，CRF)，一种判别式概率模型，无向图模型，是随机场的一种，常用于序列标注/分类问题，例如命名实体识别等。

语法纠错(Grammar Correction)，识别文本中出现语法问题的位置，并加以修正。

编码器(Encoder)，将输入信息按照一定规则转译为另一种形式或格式的模块。

解码器(Decoder)，将编码后的数据还原为信息的模块。

注意力(Attention)，一种用于深度神经网络的机制，通过该机制能给不同的特征赋予不同的权重，从而在学习过程中更关注关键特征，忽略次要特征，提升模型效果。

变换器(Transformer)，深度学习模型结构，由编码器和解码器组成，通过多头注意力机制、跨层连接等方式，解决训练过程中的梯度消失及长程依赖问题，用于自然语言处理任务中。

变换器双向编码表示(Bidirectional Encoder Representations fromTransformers，BERT)，一种双向语言表示模型，取变换器的编码器部分，并用大量语料，通过掩码语言模型(Masked Language Model，MLM)与下一句预测(Next SentencePrediction，NSP)两个任务进行预训练，获得语言模型。该模型可用于自然语言处理任务。

图1示意性示出了根据本申请实施例的语音识别文本的修正方法的环境示意图。

计算机设备2可以被配置接收语音信息。计算机设备2可以包括具有语音交互功能的任何类型的设备，如：智能手机、平板设备、膝上型计算机、智能手表、智能眼镜、虚拟现实、游戏设备、机顶盒、车载终端、智能电视、会议终端、录音笔等，也可以是后台服务器。

计算机设备2，可以运行Windows系统、安卓(AndroidTM)系统或iOS系统等操作系统。另外，用户还可以根据需要安装各种应用程序、程序组件。基于上述程序或程序组件，可以实现各类功能，如语音识别、语音翻译、语音记录等。

下文，本申请将提供一种语音识别文本的修正方法、系统、计算机设备和计算机可读存储介质。

实施例一

图2示意性示出了根据本申请实施例一的语音识别文本的修正方法的流程图。如图2所示，该语音识别文本的修正方法可以包括步骤S200～S206，其中：

步骤S200，获取第一语音识别文本，所述第一语音识别文本基于语音识别得到。

所述第一语音识别文本：可以指对话、文章、评论等各种信息。

所述第一语音识别文本为基于语音识别技术对用户语音识别后的结果。

语音识别(Speech Recognition)也称为自动语音识别(Automatic SpeechRecognition，ASR)、计算机语音识别或语音转文本，它是一种将人类语音处理为文本的功能。

在本实施例中，第一语音识别文本可以是基于各种应用场景下的语音识别结果。例如：(1)汽车场景：用于用户语音导航和搜索。(2)智能终端场景：基于用户语音生成的文本指令，使用该文本指令来访问虚拟助手以及执行语音搜索等任务。(3)医疗保健场景：通过听写应用程序捕获和记录的患者诊断和治疗记录。(4)销售场景：协助呼叫中心转录客户与销售代理之间的海量电话，并进行简单解答。或通过网页与客户交谈，回答常见查询并解决基本请求。当然，还可以是各种其他应用场景下的语音识别结果，如同声传译、翻译、字幕生成。

步骤S202，修正所述第一语音识别文本中的部分字词，得到第二语音识别文本。

发明人了解到，由于语音识别的流程较长，输入源不可控，基于语音识别得到的第一语音识别文本的内容常常会存在不同程度的错误，导致第一语音识别文本有较多错误，从而会影响使用者对文本内容的有效理解，甚至直接理解错误。

例如，所述第一语音识别文本中很可能出现字词错误，为此需要进行部分字词的修正。

作为示例，为提高识别文本中的错误字词的准确性，并将错误字词替换为正确字词。

如图3和4所示，所述步骤S202可以包括步骤S300-S306。步骤S300，对所述第一语音识别文本中的各个字符进行编码，得到第一编码序列；步骤S302，对所述第一语音识别文本中的各个字符的拼音进行编码，得到第二编码序列；步骤S304，根据所述第一编码序列和第二编码序列，生成目标编码序列；及步骤S306，将所述目标编码序列输入到纠错模型，通过所述纠错模块输出所述第二语音识别文本；其中，所述纠错模型为训练好的基于字符和拼音进行句子纠错的模型。

可以各种编码方式，如BERT编码、one-hot编码等。

如图5所示，以“你惊天真好看”为例：

对应的第一编码序列为：c0c1’c2c3c4c5；

对应的第二编码序列为：p0p1’p2p3p4p5；

“你”对应“c0”，“惊”对应“c1’”，“天”对应“c2”，“真”对应“c3”，“好”对应“c4”，“看”对应“c5”；

“ni3”对应“p0”，“jing1”对应“p1’”，“tian1”对应“p2”，“zhen1”对应“p3”，“hao3”对应“p4”，“kan4”对应“p5”；

拼音后面紧跟的数字表示声调，如“ni3”中的“3”表示第三声。

合并后得到的目标编码序列为：c0c1’c2c3c4c5[cls]p0p1’p2p3p4p5[cls][pad]…[pad]；

[cls]为隔开符，[pad]用于补全空白。如，句子的标准编码序列长度为512个字节。若“c0c1’c2c3c4c5[cls]p0p1’p2p3p4p5”的长度低于512个字节，则在后面补齐以统一输入格式。

上述目标编码序列输入所述纠错模块后，可以得到纠错后的句子“你今天真好看”。

上述纠错模型，结合字符编码、拼音、上下文综合进行句子纠正，提高纠正准确性。原理如下：

错别字、词的成因有如下几种：第一：同音别字：发音相同，字不同，如天鹅-天蛾，这种情况需要根据上下文判断。第二：发音错误：发音人的发音不标准，如平舌音翘舌音混淆、鼻音边音、声调混淆等导致识别错误，此种情况发音人的发音与正确发音不同，但接近，因此同时结合字符编码、拼音、上下文综合进行句子纠正提高纠正准确性，即所述纠错模型准确性高。需要说明的是，在得到第一语音识别文本后的阶段，通过对字、次的修改，可以提高文本正确，也为后续其他修正阶段提供较为准确的文本，协助后续修改步骤的纠正效率。

作为示例，为提高所述纠错模型的效率和准确性，如图6所示，所述纠错模型的训练步骤如下：步骤S600，确定目标语言模型，所述目标语音模型用于预测上下文信息以及发音与文本的关联；步骤S602，确定多个样本句子；步骤S604，执行第一修改操作：以预设数量比例以及预设修改规则，修改各个样本句子中的部分拼音；步骤S606，执行第二修改操作：用与各个被修改的拼音同音的字替换原来的字；步骤S608，执行第三修改操作：以预设数量比例从各个样本句子中挑选出部分字，将被挑选出的各个字替换为与之同音的其他字，其中，被挑选出的各个字未被修改拼音；步骤S610，基于所述第一修改操作、第二修改操作和/或第三修改操作，得到多个修改后的样本句子；步骤S612，根据所述多个修改后的样本句子和所述多个样本句子训练所述目标语言模型，得到所述纠错模型；其中，所述多个修改后的样本句子为训练样本，所述多个样本句子为参照样本。

举例而言：

(1)获取每个样本句子的编码序列(512个字节长度)。

具体如下：将样本句子用BERT进行编码，样本句子中的每个字符均用一个token(符号)表示，然后用[SEP]token结尾，余下用[PAD]token补全至最大长度(512)。

(2)修改每个样本句子的部分字符的拼音，得到各样本句子及修改后的拼音的编码序列。具体如下：

随机将样本句子中的部分拼音修改为相近的其它拼音，如改变声调、声母、韵母等。需要说明是，每个样本句子中，被修改拼音的字符可以占据预设比例(如10％)。

将样本句子及修改后的拼音用BERT进行编码，样本句子中的每个字符均用一个token(符号)表示，接着用[CLS]token隔开，将每个字符对应的拼音用一个token表示，然后用[SEP]token结尾，余下用[PAD]token补全至最大长度(512)。

(3)根据步骤(2)修改后的拼音，替换样本句子中的字符。具体如下：

对于已修改的拼音，在对应的字符处，随机选取与修改后拼音发音相同的字符，替换原字符。

例如：

样本句子：“你今天正好看”，对应的拼音为“ni3”、“jin1”、“tian1”、“zhen1”、“hao3”、“kan4”。

经过步骤(2)，将“天”对应的拼音“tian1”修改为“tian3”。

在本步骤(3)中，可以随机选取拼音为“tian3”的其他字符(例如，“腆”)。然后，用于字符“腆”替换原字符“天”。因此，修改后的样本句子为：你今腆真好看。

对修改后的样本句子及其拼音进行编码。例如：

对“你今腆真好看”以及各字符对应的拼音“ni3”、“jin1”、“tian3”、“zhen1”、“hao3”、“kan4”进行编码。

(4)对于未修改拼音的部分字符，另选取10％的字符，用相同发音的字符代替原字符。

例如：

经过步骤(2)，将“天”对应的拼音“tian1”修改为“tian3”。

字符“天”拼音已经被修改。

因此，在本步骤(4)中，随机从字符“天”之外的其他字符“你”、“今”、“真”、“好”、“看”中挑选。

若字符“看”被选中，则根据字符“看”的拼音随机选取同音字符，如字符“瞰”。然后用字符“瞰”替换原字符“看”。因此，修改后的样本句子为：你今天真好瞰。

结合步骤(2)和(4)，修改后的样本句子及其拼音进行编码。例如：

对“你今天真好瞰”以及各字符对应的拼音“ni3”、“jin1”、“tian1”、“zhen1”、“hao3”、“kan4”进行编码。

结合步骤(2)(3)和(4)，修改后的样本句子及其拼音进行编码。例如：

对“你今腆真好瞰”以及各字符对应的拼音“ni3”、“jin1”、“tian3”、“zhen1”、“hao3”、“kan4”进行编码。

(5)如图7所述，将步骤(1)的样本句子的编码序列作为监督信息，将步骤(2)-(4)的修改后的样本句子以其拼音的编码序列作为训练样本，进行模型训练，训练样本为带有错误信息的句子。该实施例可以结合语言模型，训练纠错模型。

作为示例，为提高所述目标语言模型的上下文预测准确性，从而提高所述纠错模型的准确性，如图8所示，所述目标语言模型的训练步骤如下：步骤S800，对多个样本句子对应的拼音进行编码，以得到多个样本句子编码；每个样本句子对应一个样本句子编码，样本句子编码中的各个token对应相应样本句子中的字符；步骤S802，将每个样本句子编码的部分token替换为遮盖符；步骤S804，根据携带有遮盖符的各个样本句子编码，训练BERT模型，以得到所述目标语言模型。

举例来说：

(1)将样本句子及样本句子对应的拼音用BERT进行编码，样本句子中的每个字符均用一个token(符号)表示，接着用[CLS]token隔开，将每个字符对应的拼音用一个token表示，然后用[SEP]token结尾，余下用[PAD]token补全至最大长度(512)。

这些样本句子，可以利用维基百科、汉语词典、网页爬虫等方式获取规模约10GB的中文语料，语料内容为句子的集合，其中每个样本句子包含发音标注(拼音)。

(2)随机将编码中的token替换为[MASK]，每个样本句子选取20％的token替换成[MASK]；

(3)如图7所述，用BERT对步骤(2)中形成的训练样本进行训练，其监督信息为编码后但未进行替换操作的样本句子，即步骤(1)的结果。该步骤的训练目标是让模型通过部分信息来预测没有进行遮挡的信息。此步骤的作用是通过机器学习学到中文的上下文分布，即语言模型。同时，让发音信息与文本信息相结合。

步骤S204，删除所述第二语音识别文本中的冗余信息，得到第三语音识别文本。

在通过步骤S202消除无效信息(即错误字、词)后，得到的第一语音识别文本。但仍然可能有以下问题：1.结巴、不流畅的部分，多为单字或几个字的重复；2.无意义的语气词；3.全局口头禅。分别对这三种情况进行过滤，并判断是否删除。

举例来说：

a.发音人由于情绪、思维或其他原因导致的表述不流畅，如“这这这这可怎么办”。“这这这这”可能是由于结巴等因素导致的单字重复，其中3个“这”需删除。

b.无意义的语气词，如：“那么，呃，就这样吧”，“呃”属于无意义的语气词。

c.老师讲课时经常夹杂”这个”、”那个”、”就是说”等无实际语义的口头禅。

对于情况1：通过正则表述式找到单字重复或多字重复的位置，并判别是否删除。具体如下：

作为示例，如图9和图10所示，所述步骤S204可以包括：步骤S1000，确定所述第二语音识别文本中的单字重复或多字重复；步骤S1002，确定所述单字重复或多字重复在所述第二语音识别文本中的文本位置；步骤S1004，将所述第二语音识别文本的编码序列和所述文本位置输入到重复判别模型中，通过所述重复判别模型确定是否对所述重复字词执行删除操作；其中，所述重复判别模型是预先训练好的并根据上下文本信息和位置信息判别重复字词的模型。在本实施例中，基于全文内容和重复字、词在全文中的位置可以准确地判定重复字、词是否为有效信息，或是由于发声人紧张或结巴等导致的无效信息。

对于情况2：通过语气词标找出语气词的位置，并判别是否删除。具体如下：

作为示例，如图9和图11所示，所述步骤S204可以包括：步骤S1100，根据预设规则，确定所述第二语音识别文本中的候选语气词；步骤S1102，确定所述候选语气词在所述第二语音识别文本中的文本位置；及步骤S1104，将所述第二语音识别文本的编码序列和所述文本位置输入到语气词判别模型中，通过所述语气词判别模型确定是否对所述语气词执行删除操作；其中，所述语气词判别模型是预先训练好的并根据上下文本信息和位置信息判别语气词的模型。在本实施例中，基于全文内容和候选语气词在全文中的位置可以准确地判定是否为语气词。若确定候选语气词为无意义的语气词，则执行删除操作。

对于情况3：对全局文本进行词频统计，找出高频词，并判别是否删除。具体如下：

作为示例，如图9和图12所示，所述步骤S204可以包括：步骤S1200，确定所述第二语音识别文本中的高频词，所述高频词的出现次数大于预设阈值；步骤S1202，确定所述高频词在所述第二语音识别文本中的文本位置；步骤S1204，将所述第二语音识别文本的编码序列和所述文本位置输入到口头禅判别模型中，通过所述口头禅判别模型确定所述高频词是否为口头禅；其中，所述口头禅判别模型是预先训练好的并根据上下文本信息和位置信息判别口头禅的模型；及步骤S1206，在所述高频词被判定为所述口头禅的情形下，对所述高频词执行删除操作。在本实施例中，基于全文内容和高频词在全文中的位置可以准确地判定高频词是否为口头禅。若确定是口头禅，则执行删除操作。

重复判别模型、语气词判别模型、口头禅判别模型可以是基于全连接结构的分类模型。

步骤S206，基于语法语义修正和语言风格修正，将所述第三语音识别文本转换为目标语音识别文本。

所述语言风格，可以分为口语表述、书面语表述。

所述书面语表述，还可以进一步分为法律书面语表述、技术文档书面语表述等。

在通过步骤S202和S204消除无效信息和冗余信息后，得到的第三语音识别文本。该第三语音识别文本已经有一定程度的准确性，但仍有如下问题：发音人在说话过程中可能存在不符合书面语表述的语句，可能在说话过程中进行了语义层级的修正。这些因素导致语音转为文本后，需再次进行信息处理，才能准确的书面语表述。

举例而言：

a.“我上周买了去北京，不，去上海的机票”。实际信息：“我上周买了去上海的机票”。

b.口语->书面语表述：“犄角旮旯”转换为“角落”。

作为示例，如图13所示，所述步骤S206可以包括步骤S1300～S1302。步骤S1300，通过训练好的语法语义修正模型修正所述第三语音识别文本，得到第四语音识别文本；步骤S1302，根据映射表，将所述第四语音识别文本中的口语表述替换为书面语表述，得到所述目标语音识别文本；所述映射表用于表示口语表述和书面语表述之间的对应关系。在本实施例中，通过语法语义修正模型和映射表，有效地进行了语法修正、发音人的语义订正，以及口语信息书面化。

口语信息书面化：

预先建立口语-书面语映射词表，以迭代的方式添加口语表述及对应的书面语表述。

目标语音识别文本的转化过程如下：(1)将第三语音识别文本作为语法语义修正模型的输入，得到修正后的输出。(2)对修正后的输出，查找口语-书面语映射表，将修正后输出中的口语表述替换为对应的书面语表述，得到目标语音识别文本。

作为示例，为提高所述语法语义修正模型的准确性，如图14所示，所述语法语义修正模型的训练步骤可以通过步骤S1400～S1404实现。其中：步骤S1400，获取多个训练语料，各训练语料均包括语法错误；步骤S1402，获取多个参考语料，参考语料为相应训练语料被语法修正后的语料；步骤S1404，根据所述多个训练语料和所述多个参考语料进行模型训练，以得到语法语义修正模型。

举例而言，如图15所示：

(1)训练语料获取：可以来自埋点信息、开源语料等。

(2)修正其中存在的语法与语义错误，得到修正后的参考语料。

(3)利用LaserTagger模型等，用训练语料及参考语料训练得到语法语义修正模型。

(4)基于语法语义修正模型和映射表，将第三语音识别文本转化为目标语音识别文本。

本申请实施例提供的语音识别文本的修正方法，具有如下优点：

因此，通过上述环环相扣的纠错、去冗余、语义修正和书面转换，高效且大幅度提高语音识别的句准率，将语音转换为准确平滑的书面文本，提升语音识别的用户体验。

需要说明的是，本实施例尤其适用于正式场合的信息记录。例如，合同、法律条文、录口供、外交会议中的同声传译。将语音转化为正式、书面的信息表述。

实施例二

图16示意性示出了根据本申请实施例二的语音识别文本的修正系统的框图。该语音识别文本的修正系统可以被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本申请实施例。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，以下描述将具体介绍本实施例中各程序模块的功能。

如图16所示，该语音识别文本的修正系统1600可以包括获取模块1610、第一修正模块1620、删除模块1630和第二修正模块1640，其中：

获取模块1610，用于获取第一语音识别文本，所述第一语音识别文本基于语音识别得到；

第一修正模块1620，用于修正所述第一语音识别文本中的部分字词，得到第二语音识别文本；

删除模块1630，用于删除所述第二语音识别文本中的冗余信息，得到第三语音识别文本；及

第二修正模块1640，用于基于语法语义修正和语言风格修正，将所述第三语音识别文本转换为目标语音识别文本。。

在示例性的实施例中，所述第一修正模块1620，还用于：

在示例性的实施例中，所述系统还包括纠错模型训练模块，用于：

确定多个样本句子；

在示例性的实施例中，所述系统还包括语言模型训练模块，用于：

将每个样本句子编码的部分token替换为遮盖符；

在示例性的实施例中，所述删除模块1630，还用于：

确定所述第二语音识别文本中的单字重复或多字重复；

在示例性的实施例中，所述删除模块1630，还用于：

确定所述高频词在所述第二语音识别文本中的文本位置；

在示例性的实施例中，所述第二修正模块1640，还用于：

在示例性的实施例中，所述系统还包括语法语义修正训练模块，用于：

获取多个训练语料，各训练语料均包括语法错误；

实施例三

图17示意性示出了根据本申请实施例三的适于实现语音识别文本的修正方法的计算机设备2的硬件架构示意图。本实施例中，计算机设备2是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。例如，智能手机、平板设备、膝上型计算机、智能手表、智能眼镜、虚拟现实、游戏设备、机顶盒、车载终端、智能电视、会议终端、录音笔等后台服务器等。如图17所示，计算机设备2至少包括但不限于：可通过系统总线相互通信链接存储器10010、处理器10020、网络接口10030。其中：

存储器10010至少包括一种类型的计算机可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器10010可以是计算机设备2的内部存储模块，例如该计算机设备2的硬盘或内存。在另一些实施例中，存储器10010也可以是计算机设备2的外部存储设备，例如该计算机设备2上配备的插接式硬盘，智能存储卡(Smart Media Card，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(FlashCard)等。当然，存储器10010还可以既包括计算机设备2的内部存储模块也包括其外部存储设备。本实施例中，存储器10010通常用于存储安装于计算机设备2的操作系统和各类应用软件，例如语音识别文本的修正方法的程序代码等。此外，存储器10010还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器10020在一些实施例中可以是中央处理器(Central Processing Unit，简称为CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器10020通常用于控制计算机设备2的总体操作，例如执行与计算机设备2进行数据交互或者通信相关的控制和处理等。本实施例中，处理器10020用于运行存储器10010中存储的程序代码或者处理数据。

网络接口10030可包括无线网络接口或有线网络接口，该网络接口10030通常用于在计算机设备2与其他计算机设备之间建立通信链接。例如，网络接口10030用于通过网络将计算机设备2与外部终端相连，在计算机设备2与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，简称为GSM)、宽带码分多址(Wideband CodeDivision Multiple Access，简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图17仅示出了具有部件10010-10030的计算机设备，但是应该理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器10010中的语音识别文本的修正方法还可以被分割为一个或者多个程序模块，并由一个或多个处理器(本实施例为处理器10020)所执行，以完成本申请实施例。

实施例四

本申请还提供一种计算机可读存储介质，计算机可读存储介质其上存储有计算机程序，计算机程序被处理器执行时实现实施例中的语音识别文本的修正方法的步骤。

本实施例中，计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，计算机可读存储介质可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，计算机可读存储介质也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(Flash Card)等。当然，计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，计算机可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件，例如实施例中语音识别文本的修正方法的程序代码等。此外，计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。

显然，本领域的技术人员应该明白，上述的本申请实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请实施例不限制于任何特定的硬件和软件结合。

需要说明的是，以上仅为本申请的优选实施例，并非因此限制本申请的专利保护范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音识别文本的修正方法，其特征在于，所述方法包括：

2.根据权利要求1所述的语音识别文本的修正方法，其特征在于，所述修正所述第一语音识别文本中的部分字词，得到第二语音识别文本，包括：

3.根据权利要求2所述的语音识别文本的修正方法，其特征在于，还包括：

确定多个样本句子；

4.根据权利要求3所述的语音识别文本的修正方法，其特征在于，还包括训练所述目标语言模型：

将每个样本句子编码的部分token替换为遮盖符；

5.根据权利要求1所述的语音识别文本的修正方法，其特征在于，所述删除所述第二语音识别文本中的冗余信息，得到第三语音识别文本，包括：

确定所述第二语音识别文本中的单字重复或多字重复；

6.根据权利要求1所述的语音识别文本的修正方法，其特征在于，所述删除所述第二语音识别文本中的冗余信息，得到第三语音识别文本，包括：

7.根据权利要求1所述的语音识别文本的修正方法，其特征在于，所述删除所述第二语音识别文本中的冗余信息，得到第三语音识别文本，包括：

确定所述高频词在所述第二语音识别文本中的文本位置；

8.根据权利要求1所述的语音识别文本的修正方法，其特征在于，所述基于语法语义修正和语言风格修正，将所述第三语音识别文本转换为目标语音识别文本，包括：

9.根据权利要求8所述的语音识别文本的修正方法，其特征在于，还包括：

获取多个训练语料，各训练语料均包括语法错误；

10.一种语音识别文本的修正系统，其特征在于，所述系统包括：

11.一种计算机设备，所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时用于实现权利要求1至9中任意一项所述的语音识别文本的修正方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行权利要求1至9中任意一项所述的语音识别文本的修正方法的步骤。