CN109710929A

CN109710929A - 一种语音识别文本的校正方法、装置、计算机设备和存储介质

Info

Publication number: CN109710929A
Application number: CN201811549312.2A
Authority: CN
Inventors: 曾晶; 邓理平; 陈桓; 张良杰
Original assignee: Kingdee Software China Co Ltd
Current assignee: Kingdee Software China Co Ltd
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2019-05-03

Abstract

本申请涉及一种语音识别文本的校正方法、装置、计算机设备和存储介质。方法包括：获取经语音识别得到的识别文本中各个词的拼音；基于语料库和所述各个词的拼音中声音单元的模糊音确定候选文本；所述声音单元包括声母、韵母和整体认读音节中的至少一种；根据所述识别文本和所述候选文本间的词数差、拼音总字母数和词总数，确定所述候选文本对应的编辑距离；按照所述编辑距离从所述候选文本中筛选出校正文本。采用本方法提出的编辑距离方法来筛选候选文本的校正文本，在识别文本较长时，可有效的校正语音识别文本，提高校正的准确率。

Description

一种语音识别文本的校正方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种语音识别文本的校正方法、装置、计算机设备和存储介质。

背景技术

随着互联网的发展，语音识别技术已经得到越来越广泛的应用。语音识别技术是机器通过识别和理解将输入的语音信号转变成相应的文本，实现人与机器的交流互动。

目前，大部分语音识别技术采用人工智能方法来自动识别语音，然而该语音识别技术的准确率容易受到环境、人的发音等因素的影响，准确率低。

发明内容

基于此，有必要针对上述技术问题，提供一种语音识别文本的校正方法、装置、计算机设备和存储介质。

一种语音识别文本的校正方法，所述方法包括：

获取经语音识别得到的识别文本中各个词的拼音；

基于语料库和所述各个词的拼音中声音单元的模糊音确定候选文本；所述声音单元包括声母、韵母和整体认读音节中的至少一种；

根据所述识别文本和所述候选文本间的词数差、拼音总字母数和词总数，确定所述候选文本对应的编辑距离；

按照所述编辑距离从所述候选文本中筛选出校正文本。

在其中一个实施例中，所述获取经语音识别得到的识别文本中各个词的拼音包括：

获取经语音识别得到的识别文本；

对所述识别文本进行分词，获得词序列；

从所述词序列中删除属于停用词表的词，得到经过预处理的识别文本；

确定经过预处理的识别文本中各个词的拼音。

在其中一个实施例中，所述基于语料库和所述各个词的拼音中声音单元的模糊音确定候选文本，包括：

将所述各个词的拼音中的声音单元替换为相应的模糊音，得到候选词拼音；

基于所述候选词拼音按照倒排索引在语料库中查询相应候选词所在语句；

从查询到的所述语句中，按照所述识别文本和所述语句间的编辑距离，筛选出候选文本。

在其中一个实施例中，所述语料库的生成步骤包括：

获取初始语料库；

提取所述初始语料库中语句的关键词；

将所述语句中的所述关键词替换为所述关键词的同义词，得到扩充语句；

在所述初始语料库中添加所述扩充语句，得到语料库。

在其中一个实施例中，所述方法还包括：

通过词向量模型，确定所述关键词的词向量和候选词的词向量；

根据所述关键词的词向量和所述候选词的词向量确定所述关键词和候选词的相似度；

根据所述相似度确定所述关键词的同义词。在其中一个实施例中，所述候选文本对应的编辑距离与所述词数差的绝对值正相关，且与所述拼音总字母数正向关，且与所述词总数负相关。

在其中一个实施例中，所述候选文本对应的编辑距离，是所述词数差的绝对值乘以所述拼音总字母数并除以所述词总数所得的值。

一种语音识别文本的校正装置，所述装置包括：

拼音获取模块，用于获取经语音识别得到的识别文本中各个词的拼音；

候选文本确定模块，用于基于语料库和所述各个词的拼音中声音单元的模糊音确定候选文本；所述声音单元包括声母、韵母和整体认读音节中的至少一种；

编辑距离计算模块，用于根据所述识别文本和所述候选文本间的词数差、拼音总字母数和词总数，确定所述候选文本对应的编辑距离；

校正文本筛选模块，用于按照所述编辑距离从所述候选文本中筛选出校正文本。

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述语音识别文本的校正方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现语音识别文本的校正方法的步骤。

上述语音识别文本的校正方法、装置、计算机设备和存储介质，在获得经语音识别得到的识别文本中各个词的拼音后，利用语料库和拼音中声音单元的模糊音确定可能的候选文本，该候选文本是识别文本中相应词发音接近且符合语义规则的词。进而，采用新的编辑距离计算方式来计算各候选文本对应的编辑距离，更能反映识别文本和候选文本间在词结构和拼音结构上的差异程度。基于该编辑距离来对候选文本进行筛选，就能够获得符合语义规则、更符合说话人意愿的校正文本，提高了校正文本的准确率。

附图说明

图1为一个实施例中语音识别文本的校正方法的应用场景图；

图2为一个实施例中语音识别文本的校正方法的流程示意图；

图3为一个实施例中基于语料库和各个词的拼音中声音单元的模糊音确定候选文本的步骤的流程示意图；

图4为另一个实施例中语音识别文本的校正方法的流程示意图；

图5为一个实施例中语音识别文本的校正装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的语音识别文本的校正方法，可以应用于如图1所示的应用环境中。参照图1，该语音识别文本的校正方法应用于校正系统。该校正系统包括终端102和服务器104。其中，终端102与服务器104通过网络连接。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种语音识别文本的校正方法，该方法可应用于上述系统中的终端，也可以应用于服务器，本实施例主要以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，获取经语音识别得到的识别文本中各个词的拼音。

具体地，终端采集用户说话产生的语音，可将该语音发送到服务器，服务器对该语音进行语音识别获得识别文本，并获取该识别文本中各个词的拼音。其中，语音识别的过程和获取到拼音并基于拼音进行校正的过程可由不同服务器执行。终端也可以直接对采集得到的语音进行语音识别，得到识别文本，并将识别文本发送到服务器，服务器获取该识别文本中各个词的拼音。词之间的拼音可通过分隔符进行区分。

服务器进行语音识别时，可利用预先训练好的语音识别模型对语音进行自动识别，识别过程中，可对语音进行端点检测以去除多余的静音和非说话声，再进行降噪后，进而提取语音特征，然后利用训练好的声学模型和语言模型对语音特征进行识别，得到识别文本。此外，可基于语音特征进行自学习，以对声学模型和语言模型进行更新，从而进一步提高语音识别的准确率。

举例说明：假设经过语音识别得到的识别文本是“改斗一哈吧是吗”，再对该识别文本进行分词得到三个词“改斗/一哈吧/是吗”，然后将上述三个词转化为拼音，并采用分隔符分隔拼音，得到“gai dou/yi ha ba/shi ma”。其中分隔符可以是“-”或“/”等预先约定的符号。

步骤S204，基于语料库和各个词的拼音中声音单元的模糊音确定候选文本；声音单元包括声母、韵母和整体认读音节中的至少一种。

具体地，服务器根据各个词的拼音中声音单元的模糊音从语料库中筛选候选文本，该候选文本是识别文本中相应词发音接近且符合语义规则的词，是从语料库中筛选出的一个或多个文本。

其中，某声音单元的模糊音，可以是与该声音单元发音接近的声音单元，或者是与该声音单元对应相同或相近语义的声音单元。模糊音可以是由于相同语义在不同方言中发音不同而产生。各个词的拼音由一个或多个声音单元组成，声音单元包括声母、韵母和整体认读音节中的至少一种。

步骤S206，根据识别文本和候选文本间的词数差、拼音总字母数和词总数，确定候选文本对应的编辑距离。

具体地，服务器对候选文本进行分词处理，得到候选文本的各个词并将各个词转化为拼音。进一步，服务器采用新的编辑距离计算方式，根据识别文本和候选文本间的词数差、拼音总字母数和词总数，计算得到候选文本对应的编辑距离。编辑距离与相似度成负相关，编辑距离越小，识别文本与候选文本的相似度越大。

其中，此处的编辑距离表示的是两个字符串之间的差异程度，编辑距离越大表示字符串之间差异越大，编辑距离越小表示字符串之间差异越小。此处的编辑距离与传统的编辑距离(Levenshtein，莱文斯坦)距离不同。

其中，词数差是指两个文本中的词数量的差值。拼音总字母数是指构成一个文本的所有拼音的字母总数。词总数是指构成一个文本中所有词的数量。例如，经分词后的识别文本为：“改斗/一哈吧/是吗”，对应的拼音“gai dou/yi ha ba/shi ma”；经分词后的候选文本为：“解读/一下/吧”，对应的拼音“jiedu/yixia/ba”；则，识别文本与候选文本之间的词数差为0，识别文本的拼音总字母数为17、词总数为3。其中分隔符不计算在内。

步骤S208，按照编辑距离从候选文本中筛选出校正文本。

具体地，服务器采用新的编辑距离计算方式，得到识别文本与候选文本中各个文本对应的编辑距离，依据编辑距离与相似度的关系，选取候选文本中最小编辑距离对应的文本作为识别文本的校正文本。

在本实施例中，在获得经语音识别得到的识别文本中各个词的拼音后，利用语料库和拼音中声音单元的模糊音确定可能的候选文本，该候选文本是识别文本中相应词发音接近且符合语义规则的词。进而，采用新的编辑距离计算方式来计算各候选文本对应的编辑距离，更能反映识别文本和候选文本间在词结构和拼音结构上的差异程度。基于该编辑距离来对候选文本进行筛选，就能够获得符合语义规则、更符合说话人意愿的校正文本，提高了校正文本的准确率。在一个实施例中，获取经语音识别得到的识别文本中各个词的拼音，包括以下步骤：获取经语音识别得到的识别文本；对识别文本进行分词，获得词序列；从词序列中删除属于停用词表的词，得到经过预处理的识别文本；确定经过预处理的识别文本中各个词的拼音。

具体地，服务器获取经语音识别得到的识别文本，针对识别文本进行分词处理，得到识别文本对应的词序列。其中识别文本可以有多个文本。从计算机设备中利用预先构建的分词词库，对识别文本中的各个文本进行分词处理。通过构建特定语音识别环境下的停用词表，删除经过分词处理后的识别文本中属于停用词表的词或字，得到预处理后的识别文本。将经过预处理后的识别文本转换为各个词的拼音，并使用分隔符分隔各个词的拼音，避免引起各个词的拼音混淆，更加准确的表达识别文本中各个词的拼音。其中，分隔符可以是“-”或“/”。

可选地，构建分词词库时可以通过《新华词典》或者其他类似的出版书籍为基础而建立的词库，也可以根据语音识别的场景构建不同方言的分词词库。已构建的分词词库可存储在数据库或发送至云端。

可选地，分词工具可以是HanLP(汉语言处理包)、Stanford NLP(斯坦福大学的自然语言小组开源的通过Java实现的自然语言工具包)或Ansj(中文分词包)。

其中，分词是指将字序列切分成一个一个单独的词，即将连续的字序列按照一定的规范重新组合成词序列的过程。可选地，分词方法可以是基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

其中，停用词是指在自然语言处理任务中需要被过滤的不具有处理价值的词或字。在信息检索中，采用停用词可节省存储空间和提高搜索效率，在提取关键字时可以节省存储空间和提高效率。停用词包括英文字符、数字、数学字符、标点符号及使用频率较高的单汉字等。停用词可分为两类：(1)使用范围广，使用频繁的单词。比如英文的“I”、“is”或“what”，中文的“我”或“就”。(2)出现频率高，但实际意义不大的词。主要包括语气助词、副词、介词和连词中的一种或多种，如“的”、“在”、“和”或“接着”。

在本实施例中，通过预先构建的分词词库对识别文本进行分词处理，获得词序列，即得到识别文本的各个词；进一步，对获得的词序列进行停用词处理，过滤掉不具有处理价值的词或字，从而起到简化识别文本，节省存储空间以及提高搜索效了的作用。在一个实施例中，如图3所示，基于语料库和各个词的拼音中声音单元的模糊音确定候选文本，包括以下步骤：

步骤S302，将各个词的拼音中的声音单元替换为相应的模糊音，得到候选词拼音。

具体地，服务器获取识别文本中各个词的拼音，该拼音由一至多个声音单元构成，利用模糊音表对各个词的拼音中所有声音单元进行查询，得到存在模糊音的声音单元，建立存在模糊音和声音单元的映射关系。若存在，则将该声音单元替换为相应的模糊音，得到候选词拼音；否则，不进行替换操作。

可选地，利用模糊音表对各个词的拼音中所有声音单元进行查询的步骤具体可以包括：模糊音的查询可以利用模糊音表对各个词的拼音中所有声音单元进行查询，得到存在模糊音的声音单元。或者，也可以利用模糊音表对各个词的拼音中的声音单元依次进行模糊音查询，若存在，则输出该声音单元对应的模糊音，并对下一个声音单元进行模糊音查询；若不存在，对下一个声音单元进行模糊音查询；直至查询完各个词的拼音的所有声音单元。例如，经分词后的识别文本为：“改斗/一哈吧/是吗”，对应的拼音“gai dou/yi ha ba/shi ma”，利用模糊音表查询该拼音的声音单元的模糊音，得到模糊音和声音单元的映射关系对：(g->j，ai->ie)，(ou->u)，(h->x，a->ia)。

可选地，将该声音单元替换为相应的模糊音，得到候选词拼音的步骤具体可以包括：针对声音单元存在N对模糊音的情况，每次替换声音单元的K(K<N)对模糊音，得到对应的候选拼音，其中候选拼音包括一个或多个以上。例如，存在三对模糊音，替换其中一对模糊音(g->j，ai->ie)后，得到候选拼音“gei”。

可选地，在确定声音单元的模糊音之前，可首先要构建模糊音表，通过在模糊音表中查找识别文本中各个词的拼音的声音单元是否有对应的模糊音。模糊音表的构建可根据语音识别场景的不同而不同，对已构建的模糊音表可存储在数据库中，以供服务器进行对识别文本的校正。

可选地，模糊音表的构建方法包括：根据方言口音中易混淆的声音单元配对来构建模糊音表。例如，声音单元配对如下所示：

声母(zh，z)(ch，c)(sh，s)(h，f)(r，l)；

韵母(ang，an)(eng，en)(ing，in)(iang，ian)(uang，uan)(ian，ie)；

复合(fa，hua)(fan，huan)(fang，huang)(fei，hui)(fen，hun)(feng，hong)(fo，huo)(fu，hu)。

步骤S304，基于候选词拼音按照倒排索引在语料库中查询相应候选词所在语句。

具体地，服务器根据得到的候选词拼音按照倒排索引在语料库中查找对应的候选词所在的语句，其中，候选拼音可以对应多个候选词，候选词可以对应多个语句。

可选地，在查询候选词所在语句之前，预先构建拼音与语句之间的索引，该索引可以是倒排索引。倒排索引的构建方法包括：创建以拼音为key的索引，以语料库作为value的文档数据进行倒排索引，并将索引存储在数据库中。数据库中存储有模糊音集、语料库以及索引。

步骤S306，从查询到的语句中，按照识别文本和语句间的编辑距离，筛选出候选文本。

具体地，服务器查询到所有语句后，采用编辑距离算法计算识别文本与各个语句间的编辑距离，选取编辑距离符合阈值的语句作为候选文本。例如，假设阈值为10，表明编辑距离在10以内的语句符合要求；服务器查询到m个语句，采用Levenshtein距离算法计算识别文本与m个语句的编辑距离，其中编辑距离在10以内的语句有n(n<m)个，即获得的n个语句为候选文本。

可选地，编辑距离算法可以是Levenshtein距离算法，包括将一个字符替换成另一个字符、插入一个字符、删除一个字符等操作。例如有两个字符串：S1＝“eeba”，S2＝“abac”，具体步骤有：(1)将S1中的第一个e变成a；(2)删除S1中的第二个e；(3)在S1中最后添加一个c。通过上述编辑距离算法计算S1和S2的编辑距离为3。

在本实施例中，通过替换声音单元中的模糊音得到候选词拼音，从而得到各个词发音接的拼音；基于候选词拼音按照倒排索引在语料库中查询相应候选词所在语句，通过倒排索引查找相应候选词所在语句，可以快速的执行基于距离的搜索，更快的得到候选拼音相应候选词所在的语句。在一个实施例中，语料库的生成步骤包括：获取初始语料库；提取初始语料库中语句的关键词；将语句中的关键词替换为关键词的同义词，得到扩充语句；在初始语料库中添加扩充语句，得到语料库。

其中，初始语料库是由多个语句组成的集合，相对扩充语句后的语料库，初始语料库是未进行扩充语句的语料库。关键词是指组成一个语句的核心组件，可表达语句的近似意义。

具体地，服务器获取多个语句，将多个语句组成集合得到初始语料库，并将初始语料库存储在数据库中。根据获取的初始语料库，采用关键词提取技术对初始语料库中的语句提取关键词；将提取出的关键词输入到已训练好的词向量模型中，生成关键词的同义词，并将该语句中的关键词替换成其同义词，得到扩充语句；将得到的扩充语句添加到初始语料库中，得到更新后的语料库。

可选地，关键词提取技术包括依存句法分析方法(Dependency Parsing，DP)，短语句法分析方法或语义提取方法。本方案采用DP方法对语料库中的语句提取关键词，通过分析语句的句法结构来识别句子的语法成分，如“主-谓-宾”和“定-状-补”，同时识别语法组件之间的关系。

在本实施例中，由于语音识别在不同应用场景下获取的语料有限，难以收集到足够的相关校正语料的问题，通过本实施例提供的方法有效的克服该问题。在一个实施例中，获取关键词的同义词方法步骤还包括：通过词向量模型，确定所述关键词的词向量和候选词的词向量；根据所述关键词的词向量和所述候选词的词向量确定所述关键词和候选词的相似度；根据所述相似度确定所述关键词的同义词。

具体地，在词向量模型训练阶段，利用大量公开的语料库来训练词向量模型，生成已训练的词向量模型。在应用阶段，将提取的初始语料库中语句的关键词输入到已训练的词向量模型中，得到该关键词的词向量和候选词的词向量；计算关键词的词向量和候选词的词向量间的余弦值，该余弦值表征了上述关键词和候选词的相似度，且余弦值与相似度成正相关；进一步，选取余弦值最小的候选词作为该关键词的同义词，也可以选取低于阈值范围的余弦值对应的候选词作为该关键词的同义词。

其中，余弦值是指两个词向量夹角的余弦，表征了两个词之间的语义相似性。余弦值越小，说明两个词在语义上越相似。

其中，词向量模型可以是Word2Vec中的CBOW模型、Skip-gram模型。

在本实施例中，通过词向量模型获取关键词的词向量和候选词的词向量，计算关键词的词向量和候选词的词向量间的余弦值，根据计算得到的余弦值确定该关键词的同义词。，该方法通过神经网络模型对关键词进行训练，得到更全面的关键词的词向量，以此获取更准确的同义词，提高了后续识别文本的校正率提高了。在一个实施例中，还包括：候选文本对应的编辑距离与词数差的绝对值正相关，且与拼音总字母数正相关，且与词总数负相关。

其中，正相关是指两个变量变化方向相同，一个变量由大到小变化时，对应的另一个变量亦由大到小变化。编辑距离随着词数差的绝对值的增长而增长，或者随着词数差的绝对值的下降而下降。负相关与正相关相反，指两个变量变动的方向相反。

可选地，当词数差是正数时，候选文本对应的编辑距离与词数差正相关；当词数差是负数时，候选文本对应的编辑距离与词数差负相关。

在本实施例中，对候选文本的编辑距离与词数差、拼音总字母数、词总数之间的相关性进行了说明。揭示了词数差的绝对值与编辑距离成正相关，且与拼音总字母数成正相关，且与词总数成负相关。在一个实施例中，还包括：候选文本对应的编辑距离，是词数差的绝对值乘以拼音总字母数并除以词总数所得的值。

具体地，假设候选文本为t_i,0<i≤n，识别文本为t₀，lr是编辑距离，则候选文本对应的编辑距离计算公式如公式(1)所示：

其中，len(t₀)表示t₀的词数，abs(len(t₀)-len(t_i))表示t₀与t₀的词数差的绝对值；len_p(x)表示x的拼音字母数，表示t₀的拼音字母数，表示t₀与t_i的拼音总字母数；(len(t₀)+len(t_i))表示t₀与t_i的词总数。

下面，通过一个例子来了解本实施例提出的新的编辑距离计算方法，参考示意图4。

(1)经语音识别得到的识别文本为：“改斗一哈吧是吗”；

(2)对识别文本进行分词和停用词处理，得到对应的三个词，并用分隔符隔开，得到：“改斗/一哈吧/是吗”；

(3)将上述预处理后的文本转化为相应的拼音，并用分隔符隔开，得到：“gai dou/yi ha ba/shi ma”；

(4)根据上述获得的各个词的拼音的声音单元，基于预先构建的模糊音表替换该声音单元的模糊音，经查询，上述拼音的声音单元需要替换的模糊音是：“(g->j，ai->ie)，(ou->u)，(h->x，a->ia)”；假设得到的候选词拼音有“geidu，yixia”(在此不一一罗列)；

(5)根据候选词拼音按照倒排索引在语料库中查询相应候选词所在的语句，经查询，对应候选词拼音为“geidu”的语句有：1、解读一下吧；2、解读一下好不吧；3、解读一下好不好要好；4、解读一下子好不好要好；

(6)采用Levenshtein编辑距离算法计算上述4个语句的编辑距离，符合编辑距离阈值的语句只有前3个语句，即得到候选文本：1、解读一下吧；2、解读一下好不吧；3、解读一下好不好要好；

(7)对上述获得的3个语句进行预处理，并转化为相应的拼音，得到如下语句和拼音：

1、解读/一下/吧——jiedu/yixia/ba

2、解读/一下/好/不/吧——jiedu/yixia/hao/bu/ba

3、解读/一下/好/不好/要好——jiedu/yixia/hao/buhao/ba

(8)利用本实施例提出的公式计算识别文本与候选文本的编辑距离：

第1个编辑距离：0；

第2个编辑距离：(5-3)*(12+17)/8＝7.25；

第3个编辑距离：(5-3)*(12+20)/8＝8；

(9)选取最小编辑距离对应的语句作为校正文本，即校正文本为：解读一下吧。

本实施例中，通过引入词数、拼音单词数来计算识别文本与候选文本的编辑距离，可有效的解决在语句较长的情况下，更好的提高编辑距离的计算精度和降低计算量。

应该理解的是，虽然图1-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-4的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种语音识别文本的校正装置400，包括：拼音获取模块402、候选文本确定模块404、编辑距离计算模块406和校正文本筛选模块408。

拼音获取模块402，用于获取经语音识别得到的识别文本中各个词的拼音。

候选文本确定模块404，用于基于语料库和各个词的拼音中声音单元的模糊音确定候选文本；声音单元包括声母、韵母和整体认读音节中的至少一种。

编辑距离计算模块406，用于根据识别文本和候选文本间的词数差、拼音总字母数和词总数，确定候选文本对应的编辑距离。

校正文本筛选模块408，用于按照编辑距离从候选文本中筛选出校正文本。

在一个实施例中，上述拼音获取模块包括：文本获取单元、文本分词单元、删除单元和拼音获取单元。文本获取单元，用于获取经语音识别得到的识别文本；文本分词单元，用于对识别文本进行分词，获得词序列；删除单元，用于从词序列中删除属于停用词表的词，得到经过预处理的识别文本；拼音获取单元，用于确定经过预处理的识别文本中各个词的拼音。

在一个实施例中，上述候选文本确定模块包括：模糊音替换单元、查询单元和筛选单元。模糊音替换单元，用于将各个词的拼音中的声音单元替换为相应的模糊音，得到候选词拼音；查询单元，用于基于候选词拼音按照倒排索引在语料库中查询相应候选词所在语句；筛选单元，用于从查询到的语句中，按照识别文本和语句间的编辑距离，筛选出候选文本。

在一个实施例中，语料库生成单元包括：数据获取单元、关键词提取单元、同义词替换单元和语料库更新单元。数据获取单元，用于获取初始语料库；关键词提取单元，用于提取初始语料库中语句的关键词；同义词替换单元，用于将语句中的关键词替换为关键词的同义词，得到扩充语句；语料库更新单元，用于在初始语料库中添加扩充语句，得到语料库。

在一个实施例中，同义词获取单元包括：词向量单元、计算单元和同义词确定单元。词向量单元，用于通过词向量模型，确定关键词的词向量和候选词的词向量；计算单元，根据所述关键词的词向量和所述候选词的词向量确定所述关键词和候选词的相似度；同义词确定单元，用于根据所述相似度确定所述关键词的同义词。

在一个实施例中，候选文本对应的编辑距离与词数差的绝对值正相关，且与拼音总字母数正向关，且与词总数负相关。

在一个实施例中，候选文本对应的编辑距离，是词数差的绝对值乘以拼音总字母数并除以词总数所得的值。

在本实施例中，在获得经语音识别得到的识别文本中各个词的拼音后，利用语料库和拼音中声音单元的模糊音确定可能的候选文本，该候选文本是识别文本中相应词发音接近且符合语义规则的词。进而，采用新的编辑距离计算方式来计算各候选文本对应的编辑距离，更能反映识别文本和候选文本间在词结构和拼音结构上的差异程度。基于该编辑距离来对候选文本进行筛选，就能够获得符合语义规则、更符合说话人意愿的校正文本，提高了校正文本的准确率。

关于语音识别文本的校正装置的具体限定可以参见上文中对于语音识别文本的校正方法的限定，在此不再赘述。上述语音识别文本的校正装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语料库和模糊音集数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别文本的校正方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取经语音识别得到的识别文本中各个词的拼音；基于语料库和各个词的拼音中声音单元的模糊音确定候选文本；声音单元包括声母、韵母和整体认读音节中的至少一种；根据识别文本和候选文本间的词数差、拼音总字母数和词总数，确定候选文本对应的编辑距离；按照编辑距离从候选文本中筛选出校正文本。

在一个实施例中，该处理器执行计算机程序时，还实现获取经语音识别得到的识别文本中各个词的拼音，还实现以下步骤：获取经语音识别得到的识别文本；对识别文本进行分词，获得词序列；从词序列中删除属于停用词表的词，得到经过预处理的识别文本；确定经过预处理的识别文本中各个词的拼音。

在一个实施例中，该处理器执行计算机程序时还实现以下步骤：将各个词的拼音中的声音单元替换为相应的模糊音，得到候选词拼音；基于候选词拼音按照倒排索引在语料库中查询相应候选词所在语句；从查询到的语句中，按照识别文本和语句间的编辑距离，筛选出候选文本。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取初始语料库；提取初始语料库中语句的关键词；将语句中的关键词替换为关键词的同义词，得到扩充语句；在初始语料库中添加扩充语句，得到语料库。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：通过词向量模型，确定所述关键词的词向量和候选词的词向量；根据所述关键词的词向量和所述候选词的词向量确定所述关键词和候选词的相似度；根据所述相似度确定所述关键词的同义词。在一个实施例中，处理器执行计算机程序时还实现以下步骤：候选文本对应的编辑距离与词数差的绝对值正相关，且与拼音总字母数正向关，且与词总数负相关。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：候选文本对应的编辑距离，是词数差的绝对值乘以拼音总字母数并除以词总数所得的值。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取经语音识别得到的识别文本中各个词的拼音；基于语料库和各个词的拼音中声音单元的模糊音确定候选文本；声音单元包括声母、韵母和整体认读音节中的至少一种；根据识别文本和候选文本间的词数差、拼音总字母数和词总数，确定候选文本对应的编辑距离；按照编辑距离从候选文本中筛选出校正文本。

在一个实施例中，该计算机程序被处理器执行时还实现以下步骤：将各个词的拼音中的声音单元替换为相应的模糊音，得到候选词拼音；基于候选词拼音按照倒排索引在语料库中查询相应候选词所在语句；从查询到的语句中，按照识别文本和语句间的编辑距离，筛选出候选文本。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取初始语料库；提取初始语料库中语句的关键词；将语句中的关键词替换为关键词的同义词，得到扩充语句；在初始语料库中添加扩充语句，得到语料库。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：通过词向量模型，确定所述关键词的词向量和候选词的词向量；根据所述关键词的词向量和所述候选词的词向量确定所述关键词和候选词的相似度；根据所述相似度确定所述关键词的同义词。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：候选文本对应的编辑距离与词数差的绝对值正相关，且与拼音总字母数正向关，且与词总数负相关。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：候选文本对应的编辑距离，是词数差的绝对值乘以拼音总字母数并除以词总数所得的值。在一个实施例中，候选文本对应的编辑距离与词数差的绝对值正相关，且与拼音总字母数正向关，且与词总数负相关。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音识别文本的校正方法，所述方法包括：

获取经语音识别得到的识别文本中各个词的拼音；

按照所述编辑距离从所述候选文本中筛选出校正文本。

2.根据权利要求1所述的方法，其特征在于，所述获取经语音识别得到的识别文本中各个词的拼音包括：

获取经语音识别得到的识别文本；

对所述识别文本进行分词，获得词序列；

确定经过预处理的识别文本中各个词的拼音。

3.根据权利要求1所述的方法，其特征在于，所述基于语料库和所述各个词的拼音中声音单元的模糊音确定候选文本，包括：

4.根据权利要求3所述的方法，其特征在于，所述语料库的生成步骤包括：

获取初始语料库；

提取所述初始语料库中语句的关键词；

在所述初始语料库中添加所述扩充语句，得到语料库。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

根据所述相似度确定所述关键词的同义词。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述候选文本对应的编辑距离与所述词数差的绝对值正相关，且与所述拼音总字母数正向关，且与所述词总数负相关。

7.根据权利要求6所述的方法，其特征在于，所述候选文本对应的编辑距离，是所述词数差的绝对值乘以所述拼音总字母数并除以所述词总数所得的值。

8.一种语音识别文本的校正装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。