CN108804414A

CN108804414A - 文本修正方法、装置、智能设备及可读存储介质

Info

Publication number: CN108804414A
Application number: CN201810420439.8A
Authority: CN
Inventors: 谢韬; 顾鹏程
Original assignee: Ecovacs Commercial Robotics Co Ltd
Current assignee: Ecovacs Commercial Robotics Co Ltd
Priority date: 2018-05-04
Filing date: 2018-05-04
Publication date: 2018-11-13

Abstract

本申请提供一种文本修正方法、装置、智能设备及可读存储介质，所述方法包括：获取输入语音的原始文本，以及所述原始文本的分词结果；将所述分词结果中的一个或多个分词与预设关键词库中关键词进行相似度比对，确定满足相似度条件的目标关键词；通过所述目标关键词修正对应的分词，得到修正文本。本申请通过关键词库对原始文本中的词进行修正，由于关键词库中的每个关键词具有一定的语义，从而能够将文本中识别错误的关键词修正为正确的具有一定语义的词，进而可以提高文本可靠性，降低文本的误判率。

Description

文本修正方法、装置、智能设备及可读存储介质

技术领域

本申请涉及语音处理技术领域，尤其涉及一种文本修正方法、装置、智能设备及可读存储介质。

背景技术

在智能人机交互系统(例如机器人语音对话系统)中，由于语音识别技术自身存在的问题以及周围环境等因素的影响，系统将用户输入的语音识别成文本后，通常会出现识别错误(例如，构词错误、语义错误等)的问题。在人机对话过程中，文本中的关键词对句子的含义起决定性作用，尤其在垂直领域场景(例如，银行、政府、商场等)中，文本中的关键词的正确识别决定了机器人的业务处理能力。

在相关技术中，在将语音识别成文本后，通常是采用N元模型去修正文本中的错字错词。然而，这种修正方法并没有考虑词的语义，导致修正后的文本的误判率比较高。

发明内容

有鉴于此，本申请提供一种文本修正方法、装置、智能设备及可读存储介质，以解决现有技术中由于没有考虑词的语义，导致修正后的文本的误判率高的问题。

根据本申请实施例的第一方面，提供一种文本修正方法，所述方法包括：

获取输入语音的原始文本，以及所述原始文本的分词结果；

将所述分词结果中的一个或多个分词与预设关键词库中关键词进行相似度比对，确定满足相似度条件的目标关键词；

通过所述目标关键词修正对应的分词，得到修正文本。

根据本申请实施例的第二方面，提供一种文本修正装置，所述装置包括：

获取单元，用于获取输入语音的原始文本，以及所述原始文本的分词结果；

比对单元，用于将所述分词结果中的一个或多个分词与预设关键词库中关键词进行相似度比对，确定满足相似度条件的目标关键词；

修正单元，用于通过所述目标关键词修正对应的分词，得到修正文本。

根据本申请实施例的第三方面，提供一种智能设备，所述设备包括：

语音采集模块，用于采集输入语音；

存储器，用于存储文本修正的控制逻辑对应的机器可读指令；

处理器，用于读取所述存储器上的所述机器可读指令，并执行所述指令以实现如下操作：

获取输入语音的原始文本，以及所述原始文本的分词结果；

通过所述目标关键词修正对应的分词，得到修正文本。

根据本申请实施例的第四方面，提供一种可读存储介质，所述可读存储介质内存储有若干计算机指令，所述计算机指令被执行时进行如下处理：

获取输入语音的原始文本，以及所述原始文本的分词结果；

通过所述目标关键词修正对应的分词，得到修正文本。

应用本申请实施例，在获取到输入语音的原始文本以及原始文本的分词结果之后，可以将分词结果中的一个或多个分词与预设关键词库中关键词进行相似度比对，并确定满足相似度条件的目标关键词，然后通过目标关键词修正对应的分词，以得到修正文本。基于上述描述可知，本申请通过关键词库对原始文本中的词进行修正，由于关键词库中的每个关键词具有一定的语义，从而能够将文本中识别错误的关键词修正为正确的具有一定语义的词，进而可以提高文本可靠性，降低文本的误判率。

附图说明

图1为本申请根据一示例性实施例示出的一种文本修正场景示意图；

图2A为本申请根据一示例性实施例示出的一种文本修正方法的实施例流程图；

图2B为本申请根据图2A所示实施例示出的一种分词结果示意图；

图3为本申请根据一示例性实施例示出的另一种文本修正方法的实施例流程图；

图4为本申请根据一示例性实施例示出的又一种文本修正方法的实施例流程图；

图5A为本申请根据一示例性实施例示出的再一种文本修正方法的实施例流程图；

图5B为本申请根据图5A所示实施例示出的一种依存句法树示意图；

图6为本申请根据一示例性实施例示出的一种智能设备的硬件结构图；

图7为本申请根据一示例性实施例示出的一种文本修正装置的实施例结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在智能人机交互系统，(例如机器人语音对话系统)中，由于语音识别技术自身存在的问题以及周围环境等因素的影响，语音对话系统在将用户输入的语音识别成文本后，通常会出现识别错误的词。而在人机对话过程中，文本中的关键词对句子的语义起决定性作用，尤其在垂直领域场景(例如，银行、政府、商场等)中，文本中关键词的正确识别决定了机器人准确处理业务的能力，因此如何将文本中识别错误的关键词修正为正确的具有一定语义的词，是提高机器人处理业务能力的关键所在。

传统的文本修正方式只是采用N元模型去修正文本中的错字错词，并未考虑词的语义，导致文本的误判率比较高。

基于此，图1为本申请根据一示例性实施例示出的一种文本修正场景示意图，图1中的智能设备(例如智能机器人)采集到用户的输入语音后，可以识别输入语音，以获得原始文本，然后再对原始文本进行分词处理，得到分词结果，并通过预先构建的关键词库修正文本中的分词，得到修正文本。由于关键词库中的关键词可以基于预设的目标场景(例如各种垂直领域场景)构建，即关键词库中涵盖了该目标场景所涉及的关键词，且每个关键词均具有一定语义，从而能够将文本中识别错误的关键词修正为正确的具有一定语义的词，进而智能设备可以从修正文本中提取到准确的关键词，并根据该关键词执行相应的业务处理，降低文本的误判率。

例如，目标场景为银行场景，用户输入“我想办理取款业务”语音后，智能设备识别该语音后，得到“我想办理去看业务”的原始文本，通过关键词库对原始文本修正后，得到“我想办理取款业务”的修正文本，从而智能设备可以从修正文本中提取到“取款”的关键词，进而可以输出“存折取款or银行卡取款”的提示信息。

需要说明的是，关键词库既可以设置在智能设备本地，也可以独立于智能设备，单独设置在服务器中，以用于维护该关键词库，在使用时，该智能设备可以通过联网访问该关键词库，对于关键词库的设置方式本申请实施例不进行限定。

下面以具体实施例对本申请的技术方案进行详细阐述。

图2A为本申请根据一示例性实施例示出的一种文本修正方法的实施例流程图，该文本修正方法可以应用在目标场景的智能设备上，如图2A所示，该文本修正方法包括如下步骤：

步骤201：获取输入语音的原始文本以及所述原始文本的分词结果。

在一实施例中，智能设备可以先采集用户的输入语音，并对输入语音进行识别，以获得原始文本，然后再对原始文本进行分词处理，进而得到包含多个分词的分词结果。

其中，分词处理可以是对原始文本进行分词(词与词之间用空格分隔)和词性标注，本领域技术人员可以理解的是，对文本的分词处理可以通过相关技术(例如条件随机场、神经网络等)实现，本申请对分词处理的方法不进行限制。

在一示例性场景中，图2B为本申请根据图2A所示实施例示出的一种分词结果示意图，如图2B所示，对“我在家喜欢锻炼”的句子进行分词处理后，得到的分词为：“我在家喜欢锻炼”，每个分词的词性标注结果为：“我”对应的词性是代词(PN)，“在”对应的词性是介词(P)，“家”对应的词性是名词(NN)，“喜欢”对应的词性是动词(VV)，“锻炼”对应的词性是动词(VV)。

步骤202：将分词结果中的一个或多个分词与预设关键词库中关键词进行相似度比对，并确定满足相似度条件的目标关键词。

其中，预设关键词库中涵盖了目标场景所涉及的关键词，且每个关键词均具有一定的语义，通常智能设备根据关键词的语义可以进行相应的业务处理。本领域技术人员可以理解的是，目标场景可以是银行场景，也可以是政府场景，本申请对目标场景不进行限制。

在一个例子中，将分词结果中的一个或多个分词与关键词库中的关键词进行相似度比对，可以得到每个分词与关键词库中的每个关键词的相似度，即每个分词与相似度是一对多的关系，在通过相似度条件筛选后，可以得到一个或多个目标关键词。

步骤203：通过所述目标关键词修正对应的分词，得到修正文本。

对于上述步骤202和步骤203的可选实现方式，可以参见下述图4所示实施例的描述，在此暂不详述。

本实施例中，在获取到输入语音的原始文本以及原始文本的分词结果之后，可以将分词结果中的一个或多个分词与预设关键词库中关键词进行相似度比对，并确定满足相似度条件的目标关键词，然后通过目标关键词修正对应的分词，以得到修正文本。基于上述描述可知，本申请通过关键词库对原始文本中的词进行修正，由于关键词库中的每个关键词具有一定的语义，从而能够将文本中识别错误的关键词修正为正确的具有一定语义的词，进而可以提高文本可靠性，降低文本的误判率。

图3为本申请根据一示例性实施例示出的另一种文本修正方法的实施例流程图，基于上述图2A所示实施例的基础上，本实施例以如何构建关键词库为例进行示例性说明，如图3所示，构建关键词库的流程可以包括：

步骤301：确定目标场景的关键词。

在一实施例中，关键词的确定可以根据目标场景的实际业务需求确定，确定方式可以采用人工筛选方式，也可以采用设备智能分析确定方式，对于关键词的确定方式本申请实施例不进行限定。例如，目标场景为银行场景中，关键词可以有“取款”、“存款”、“信用卡还款”等。

步骤302：遍历目标场景的语料，提取确定的关键词和关键词的组合词。

在一实施例中，目标场景的语料的收集方式可以采用人工收集，也可以通过相关采集工具(例如爬虫工具)收集，本申请实施例对语料的收集方式不进行限定。智能设备利用关键词，遍历查询收集到的语料，以提取查询到的关键词，以及该关键词的组合词。

其中，所述关键词的组合词可以包括：该关键词与其前词的组合词、该关键词与其后词的组合词、该关键词与其前词以及后词的组合词。例如，查询到的关键词为“取款”，该关键词与其前词的组合词有“办理取款”、“要取款”、“想取款”，该关键词与其前词的组合词有“取款业务”、“取款那”、“取款呀”，该关键词与其前词以及后词的组合词有“办理取款业务”、“要取款呀”、“想取款那”。

步骤303：将提取的关键词和提取的组合词转换为拼音，并将提取的关键词、关键词的单词拼音以及关键词的组合词的拼音保存到关键词库中。

在一实施例中，由于对于一些发音相似的字或词，智能设备容易识别错误，因此可以将提取的关键词和提取的组合词均转换为拼音，从而后续可以直接利用拼音计算相似度，以提高正确修正率。关键词的组合词的拼音可以包括：该关键词与其前词的组合词的拼音、该关键词与其后词的组合词的拼音、该关键词与其前词及后词的组合词的拼音。如表1所示，为一种示例性的银行场景关键词库。

表1

至此，完成图3所示流程，通过图3所示流程，最终实现关键词库的构建。

图4为本申请根据一示例性实施例示出的又一种文本修正方法的实施例流程图，基于上述图2A和图3所示实施例的基础上，本实施例以如何将分词结果中的一个或多个分词与预设关键词库中的关键词进行相似度比对，确定满足相似度条件的目标关键词，以及如何通过目标关键词修正对应的分词为例进行示例性说明，如图4所示，该文本修正方法包括如下步骤：

步骤401：获取输入语音的原始文本，以及所述原始文本的分词结果。

针对步骤401的相关描述可以参见上述步骤201的描述，在此不再赘述。

步骤402：将分词结果中的每个分词转换为分词拼音。

在一示例性场景中，假设用户的输入语音为“我想办理取款业务”，智能设备识别得到的原始文本为“我想办理去看业务”，进行分词处理，得到的分词为“我/想/办理/去/看/业务”，转换为分词拼音后，得到“wo/xiang/banli/qu/kan/yewu”。

步骤403：针对每个分词，分别计算该分词的分词拼音、该分词的组合词的拼音与预设关键词库中关键词的单词拼音的相似度。

在一实施例中，该分词的组合词可以包括：分词与其前词的组合词、分词与其后词的组合词。

由于对于一些发音相似的字或词，智能设备容易识别错误，如上述步骤402所示的例子中，“款”和“看”的发音相似，但语义相差很大；因此可以利用拼音计算相似度，以提高正确修正率。又由于有些具有语义的词由于识别错误，在进行分词时，可能被划分为多个其他语义的词，如上述步骤402所示的例子中的“取款”被识别为“去看”，进行分词处理后，将“去看”划分为两个分词“去/看”；因此在与关键词库中关键词进行相似度比对时，可以对每个分词、每个分词与其前词的组合词、每个分词与其后词的组合词三种情况，与关键词库中关键词进行比对，以提高文本中关键词的匹配率。

步骤404：将满足相似度条件的关键词确定为目标关键词，将与目标关键词对应的分词或组合词确定为可修正词。

在一实施例中，相似度条件可以是相似度最高且超过预设的相似度阈值，也可以仅是超过预设的相似度阈值。

本领域技术人员可以理解的是，通过相似度比对，可以获得一组或多组目标关键词与可修正词。其中，计算相似度可以通过相关技术实现，例如相似度计算可以采用编辑距离、汉明距离、欧式距离、余弦相似度等算法，本申请实施例对计算相似度的算法不进行限制。

步骤405：针对每个目标关键词，将该目标关键词的单词拼音与对应的可修正词的拼音进行模糊音匹配，若匹配成功，则执行步骤406，否则执行步骤407。

在一实施例中，在得到一组或多组目标关键词和可修正词后，可以进一步利用模糊音匹配排除一些不符合匹配条件的目标关键词和可修正词，以提高文本的可靠性。

其中，模糊音匹配可以是韵母匹配，也可以是声母匹配，或者也可以是韵母匹配和声母匹配结合。例如，声母匹配有：l与n匹配、f与h匹配、zh与z匹配、ch与c匹配、sh与s匹配等，韵母匹配有：ang与an匹配、eng与eg匹配、ing与in匹配等。

步骤406：将原始文本中的可修正词修正为该目标关键词。

在一实施例中，如果目标关键词的单词拼音与对应的可修正词的拼音的模糊音匹配，表示确定的可修正词与目标关键词的发音也很相似，所以可以将原始文本中的可修正词修正为该目标关键词。

针对上述步骤403至步骤406的过程，并基于上述步骤402所述场景的基础上，再结合上述表1所示的关键词库，假设相似度阈值为0.8，遍历“wo/xiang/banli/qu/kan/yewu”中的每个分词，最终针对分词“去”的分词拼音“qu”、该分词与其前词的组合词的拼音“banliqu”，该分词与其后词的组合词的拼音“qukan”，可以计算得到“qu”、“banliqu”、“qukan”与关键词的单词拼音“qukuan”的相似度分别为0.3、0.2、0.9，其中，“qukan”与“qukuan”之间的相似度最高(0.9)，并大于相似度阈值0.8，同时，“qukan”与“qukuan”之间也符合模糊音匹配条件，从而，可以将“qukan”修正为“qukuan”。

步骤407：丢弃该目标关键词和对应的可修正词。

在一实施例中，如果目标关键词的单词拼音与对应的可修正词的拼音的模糊音不匹配，表示确定的可修正词与目标关键词的发音不相似，确定的可修正词很可能不正确，所以可以不用目标关键词修正该可修正词，将该目标关键词和对应的可修正词丢弃即可。

在一实施例中，在得到修正文本之后，为了进一步提高文本的可靠性，还可以对修正文本进行二次修正，即获取修正文本中的修正后的分词，并计算该分词的组合词的拼音，与对应的目标关键词的组合词的拼音的相似度，若相似度超过相似度阈值，则将该分的词的组合词修正为目标关键词的组合词。

其中，该分词的组合词可以包括：该分词与其前词的组合词，或该分词与其后词的组合词，或该分词与其前词以及后词的组合词；所述目标关键词的组合词可以包括：该目标关键词与其前词的组合词，或该目标关键词与其后词的组合词，或该目标关键词与其前词以及后词的组合词。进行相似度计算时，该分词与其前词的组合词与目标关键词与其前词的组合词对应计算；该分词与其后词的组合词与目标关键词与其后词的组合词对应计算；该分词与其前词以及后词的组合词与目标关键词与其前词以及后词的组合词对应计算。

本实施例中，针对分词结果中的每个分词，分别计算该分词的分词拼音、该分词的组合词的拼音，与预设关键词库中关键词的单词拼音的相似度，并将满足相似度条件的关键词和对应的分词或组合词作为目标关键词和可修正词，然后再针对每个目标关键词，将该目标关键词的单词拼音与对应的可修正词的拼音进行模糊音匹配，若匹配成功，则将原始文本中的可修正词修正为该目标关键词。基于上述描述可知，通过计算拼音相似度，可以避免发音相似的错字错词无法得到修正的问题，提高正确修正率；对于每个分词、通过将该分词和该分词的组合词，与关键词库中的关键词进行相似度比对，可以提高文本中关键词的匹配率；在对文本进行修正时，通过利用模糊音匹配排除一些不符合匹配条件的目标关键词和可修正词，可以提高文本的可靠性。

图5A为本申请根据一示例性实施例示出的又一种文本修正方法的实施例流程图，基于上述图2A所示实施例的基础上，本实施例以在得到修正文本后，如何对原始文本和修正文本进行可靠性验证为例进行示例性说明，如图5A所示，该文本修正方法可以进一步包括如下步骤：

步骤501：利用预先训练的可靠性模型，分别计算原始文本与修正文本的可靠性。

在一实施例中，计算的文本的可靠性指的是句子出现的可能性大小，即句子出现的概率。该预先训练的可靠性模型可以是依存句法模型，也可以是N-gram模型，、也可以是依存句法模型与N-gram模型的结合。

下面分别对这两种模型进行介绍：

第一种模型：依存句法模型

依存句法模型的原理是根据输入的句子的分词结果(包含分词和分词的词性)，分析句子中词与词之间的依存关系，识别句子中的“主谓宾”、“定状补”等语法成分，并对分析得到的每个依存关系进行标注，输出最大概率的依存句法树，最终由最大概率的依存句法树得到句子可靠性得分。可靠性得分可以取依存句法树中所有依存关系概率的最小值，或者平均值，或者去除最大值与最小值后取平均值等。

在一示例性场景中，图5B为本申请根据图5A所示实施例示出的一种依存句法树示意图，分词为：“我在家喜欢锻炼”，每个分词的词性为：“我”是代词(PN)，“在”是介词(P)，“家”是名词(NN)，“喜欢”是动词(VV)，“锻炼”是动词(VV)。其中，“我”和“喜欢”构成主谓关系，“在”和“家”构成介词宾语，“喜欢”和“锻炼”构成动宾关系。取其中所有依存关系概率的最小值0.909，作为可靠性得分。

本领域技术人员可以理解的是，训练依存句法模型的方式可以采用条件随机场、神经网络(例如卷积神经网络、循环神经网络等)的序列标注等。

第二种模型：N-gram模型

N-gram模型(即N元模型)的是根据前面n-1个词来预测第n个词的统计语言模型，常用的是二元模型(bi-gram)和三元模型(tri-gram)。下面以二元模型为例进行介绍：

二元模型的计算公式P(S)＝P(w₁，w₂，w₃…w_n)＝P(w₁)P(w₂|w₁)P(w₃|w₁，w₂)…P(w_n|w₁，w₂…w_n-1)＝P(w₁)P(w₂|w₁)P(w₃|w₂)…P(w_n|w_n-1)

其中，w₁，w₂，w₃…w_n表示n个词，P(w_i|w_i-1)表示已知词w_i-1的前提下词w_i出现的概率，P(w_i|w_i-1)＝C(w_i-1，w_i)/C(w_i-1)，i＝1,2……n，C(w_i-1，w_i)表示词序列w_i-1，w_i在语料库中出现的次数，C(w_i-1)表示词w_i-1在语料库中出现的次数。

本领域技术人员可以理解的是，训练N-gram模型的方式可以通过相关语言模型训练工具(例如SRILM工具)来生成模型。

需要说明的是，还可以通过计算句子的困惑度来衡量句子的可靠性。句子困惑度的计算公式如下：

ppl＝10^{-{logP(S)}/{Word}}

其中，P(S)表示利用N-gram模型计算得到的句子出现的概率，Word表示句子中包含的分词数量。

步骤502：将可靠性高的文本确定为目标文本。

本实施例中，在得到修正文本后，可以通过利用预先训练得到的可靠性模型，计算原始文本与修正文本的可靠性，并将可靠性高的文本确定为目标文本。这种计算文本可靠性的方式进一步考虑了整个句子的语义，可以进一步降低文本的误判率。

与前述文本修正方法的实施例相对应，本申请还提供了文本修正装置的实施例。

本申请文本修正装置的实施例可以应用在智能设备上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图6所示，为本申请根据一实施例性实施例示出的一种智能设备的硬件结构图，除了图6所示的处理器、用于采集输入语音的语音采集模块、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的设备通常根据该设备的实际功能，还可以包括其他硬件，对此不再赘述。

图7为本申请根据一示例性实施例示出的一种文本修正装置的实施例结构图，该文本修正装置可以应用在智能设备上，如图7所示，该文本修正装置包括：

获取单元710，用于获取输入语音的原始文本，以及所述原始文本的分词结果；

比对单元720，用于将所述分词结果中的一个或多个分词与预设关键词库中关键词进行相似度比对，确定满足相似度条件的目标关键词；

修正单元730，用于通过所述目标关键词修正对应的分词，得到修正文本。

在一可选的实现方式中，所述预设关键词库中包含多个关键词和每个关键词的单词拼音；

所述比对单元720，具体用于将所述分词结果中的每个分词转换为分词拼音；针对每个分词，分别计算该分词的分词拼音、该分词的组合词的拼音与所述关键词库中关键词的单词拼音的相似度；将满足相似度条件的关键词确定为目标关键词，将与所述目标关键词对应的分词或组合词确定为可修正词；其中，该分词的组合词包括：该分词与其前词的组合词、该分词与其后词的组合词。

在一可选的实现方式中，所述修正单元730，具体用于针对每个目标关键词，将该目标关键词的单词拼音与对应的可修正词的拼音进行模糊音匹配；若匹配成功，则将所述原始文本中的所述可修正词修正为所述目标关键词。

在一可选的实现方式中，所述预设关键词库中还包含每个关键词的组合词的拼音；

所述装置还包括(图7中未示出)：

二次修正单元，具体用于在所述修正单元730通过所述目标关键词修正对应的分词，得到修正文本之后，获取所述修正文本中的修正后的分词；计算所述分词的组合词的拼音，与对应的目标关键词的组合词的拼音的相似度；若所述相似度超过相似度阈值，则将所述分词的组合词修正为所述目标关键词的组合词；

其中，所述分词的组合词包括：该分词与其前词的组合词，或该分词与其后词的组合词，或该分词与其前词以及后词的组合词；所述目标关键词的组合词包括：目标关键词与其前词的组合词，或目标关键词与其后词的组合词，或目标关键词与其前词以及后词的组合词。

在一可选的实现方式中，所述装置还包括(图7中未示出)：

构建关键词库单元，具体用于确定目标场景的关键词；遍历所述目标场景的语料，提取所述关键词和所述关键词的组合词；将提取的关键词和提取的组合词转换为拼音，并将提取的关键词、关键词的单词拼音以及关键词的组合词的拼音保存到关键词库中；

其中，所述关键词的组合词的拼音包括至少一种下述拼音：该关键词与其前词的组合词的拼音、该关键词与其后词的组合词的拼音、该关键词与其前词及后词的组合词的拼音。

在一可选的实现方式中，所述装置还包括(图7中未示出)：

可靠性验证单元，具体用于在所述修正单元730通过所述目标关键词修正对应的分词之后，利用预先训练的可靠性模型，分别计算所述原始文本与所述修正文本的可靠性；将可靠性高的文本确定为目标文本。

在一可选的实现方式中，所述预先训练的可靠性模型包括至少一种下述模型：依存句法模型，N-gram模型。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种文本修正方法，其特征在于，所述方法包括：

获取输入语音的原始文本，以及所述原始文本的分词结果；

通过所述目标关键词修正对应的分词，得到修正文本。

2.根据权利要求1所述的方法，其特征在于，所述预设关键词库中包含多个关键词和每个关键词的单词拼音；

所述将所述分词结果中的一个或多个分词与预设关键词库中关键词进行相似度比对，确定满足相似度条件的目标关键词，包括：

将所述分词结果中的每个分词转换为分词拼音；

针对每个分词，分别计算该分词的分词拼音、该分词的组合词的拼音与所述关键词库中关键词的单词拼音的相似度；

将满足相似度条件的关键词确定为目标关键词，将与所述目标关键词对应的分词或组合词确定为可修正词；

其中，该分词的组合词包括：该分词与其前词的组合词、该分词与其后词的组合词。

3.根据权利要求2所述的方法，其特征在于，所述通过所述目标关键词修正对应的分词，包括：

针对每个目标关键词，将该目标关键词的单词拼音与对应的可修正词的拼音进行模糊音匹配；

若匹配成功，则将所述原始文本中的所述可修正词修正为所述目标关键词。

4.根据权利要求2所述的方法，其特征在于，所述预设关键词库中还包含每个关键词的组合词的拼音；

所述通过所述目标关键词修正对应的分词，得到修正文本之后，所述方法还包括：

获取所述修正文本中的修正后的分词；

计算所述分词的组合词的拼音，与对应的目标关键词的组合词的拼音的相似度；

若所述相似度超过相似度阈值，则将所述分词的组合词修正为所述目标关键词的组合词；

其中，所述分词的组合词包括：该分词与其前词的组合词，或该分词与其后词的组合词，或该分词与其前词以及后词的组合词；

所述目标关键词的组合词包括：目标关键词与其前词的组合词，或目标关键词与其后词的组合词，或目标关键词与其前词以及后词的组合词。

5.根据权利要求1-4任一所述的方法，其特征在于，所述方法还包括，采用如下方式构建所述预设关键词库：

确定目标场景的关键词；

遍历所述目标场景的语料，提取所述关键词和所述关键词的组合词；

将提取的关键词和提取的组合词转换为拼音，并将提取的关键词、关键词的单词拼音以及关键词的组合词的拼音保存到关键词库中；

6.根据权利要求1所述的方法，其特征在于，通过所述目标关键词修正对应的分词之后，所述方法还包括：

利用预先训练的可靠性模型，分别计算所述原始文本与所述修正文本的可靠性；

将可靠性高的文本确定为目标文本。

7.根据权利要求6所述的方法，其特征在于，所述预先训练的可靠性模型包括至少一种下述模型：依存句法模型，N-gram模型。

8.一种文本修正装置，其特征在于，所述装置包括：

9.一种智能设备，其特征在于，所述设备包括：

语音采集模块，用于采集输入语音；

获取输入语音的原始文本，以及所述原始文本的分词结果；

通过所述目标关键词修正对应的分词，得到修正文本。

10.一种可读存储介质，其特征在于，所述可读存储介质内存储有若干计算机指令，所述计算机指令被执行时进行如下处理：

获取输入语音的原始文本，以及所述原始文本的分词结果；

通过所述目标关键词修正对应的分词，得到修正文本。