CN111782896A

CN111782896A - 语音识别后文本处理方法、装置和终端

Info

Publication number: CN111782896A
Application number: CN202010636442.0A
Authority: CN
Inventors: 黎宁; 张俊; 沈怡; 花曼; 况鹏; 刘光煕
Original assignee: Shenzhen Yige Technology Co ltd
Current assignee: Shenzhen Yige Technology Co ltd
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2020-10-16
Anticipated expiration: 2040-07-03
Also published as: CN111782896B

Abstract

本发明实施例提供一种语音识别后文本处理方法、装置和终端，该方法包括：获取用户输入语音的文本字符串，并利用N元语言模型进行候选子串提取，将得到的候选子串合并为序列，将该序列与文本字符串进行相似度匹配以得到字符相似度分值，并基于主题语料库获取与该序列匹配的最相似文本及最大子语义相似度，利用该序列与最相似文本进行N元相似度估计，进而计算得到语义相似度分值，最后利用字符相似度分值和语义相似度分值来计算语音识别置信度。通过本发明的技术方案可以解决语音识别解码器的信息获取难的问题，还利用语法、语义及语用等高层信息来输出置信度，可有效避免错误的语义理解而引发错误的反馈到用户端等问题。

Description

语音识别后文本处理方法、装置和终端

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别后文本处理方法、装置和终端。

背景技术

自动语音识别(ASR)在安静环境下语音识别准确率接近97％，但是在电话通话场景下，由于环境噪声、信道噪声等噪声问题，口语对话语音的形式多样性，例如方言，口语助词、迟疑、重复与停顿造成的语音不流畅，多说话人重叠，以及句子边界定义模糊等，导致实际环境中语音识别的正确率一直不尽如人意，识别率甚至可能不到50％，如果电话机器人在收到非预期输入时也根据最大似然的识别结果将文本送给后续的自然语言理解并做出交互动作，会导致语音交互流程不可控，严重影响交互体验。因此，语音识别后文本处理主要目的是去除没有语义意义的音频片段，节省后端处理的计算资源，提高整个对话系统的交互鲁棒性，提升用户使用体验，避免错误的语义理解引发错误的反馈到用户端。

目前，语音识别后文本处理主要是从语音识别置信度估计出发，利用解码器的信息来输出置信度，对ASR识别结果的可信度进行度量。然而，对于第三方调用语音识别的电话机器人厂商，获取解码器的信息往往比较困难，并且仅利用解码信息指导对识别结果的评价还会丢失语法、语义及语用等高层信息。

发明内容

有鉴于此，本发明的目的是为了克服现有技术中的不足，提供一种语音识别后文本处理方法、装置和终端。

本发明的一实施例提供一种语音识别后文本处理方法，包括：

接收用户输入的语音，通过语音识别生成所述语音的文本字符串；

利用N元语言模型对所述文本字符串进行候选子串提取，将提取到的所述候选子串合并以构成一序列；

将所述序列与所述文本字符串进行字符相似度匹配，得到字符相似度分值；

从主题语料库中提取与所述序列匹配时子语义相似度分值最大的一文本作为最相似文本，对所述序列与所述最相似文本进行N元相似度计算以得到对应的N元相似度分值，基于所述子语义相似度分值和所述对应的N元相似度分值计算语义相似度分值；

根据所述字符相似度分值和所述语义相似度分值计算语音识别置信度，以用于根据所述语音识别置信度执行相应的操作。

在一些实施例中，所述N元语言模型包括基于词粒度产生的多个n元短语所构成的Ngram元组数据集，其中，所述多个n元短语包括1元短语、2元短语、3元短语和4元短语，所述利用N元语言模型对所述文本字符串进行候选子串提取包括：

对所述文本字符串进行分词，得到包含若干分词词组的一词列表；

根据各个所述分词词组在所述词列表中的位置次序生成多个k元短语候选，其中，所述多个k元短语候选包括1元短语候选、2元短语候选、3元短语候选和4元短语候选，每一所述k元短语候选设有对应的起止位置索引；

将每一所述k元短语候选与所述Ngram元组数据集进行匹配，得到匹配成功的若干k元短语以作为所述语音的关键短语；

根据所述关键短语的所述起止位置索引进行去重处理，将去重后得到的各关键短语作为对应的候选子串。

在一些实施例中，所述Ngram元组数据集还包括基于字粒度产生的多个m元短语，其中，所述多个m元短语包括2元短语、3元短语和4元短语，所述方法在生成多个k元短语候选之后，还包括：

对所述文本字符串进行字符分割，得到包含若干字符的一字符列表；

根据各所述字符在所述字符列表中的位置次序生成多个s元短语候选，其中，所述多个s元短语候选包括2元短语候选、3元短语候选和4元短语候选，每一所述s元短语候选设有对应的起止位置索引；

将与所述多个k元短语候选不同且对应的所述起止位置索引也不同的各s元短语候选作为短语候选补充，以用于与所述Ngram元组数据集进行匹配。

在一些实施例中，所述将所述序列与所述文本字符串进行字符相似度匹配，得到字符相似度分值包括：

根据所述序列与所述文本字符串各自的字符个数计算字符相似度分值；

若所述字符相似度分值为Score1，len()表示字符个数，则有：

在一些实施例中，所述对所述序列与所述最相似文本进行N元相似度计算以得到对应的N元相似度分值包括：

根据所述序列和所述最相似文本各自的字符集合按照第一相似度公式计算所述序列和所述最相似文本的1元相似度分值；

根据所述序列和所述最相似文本各自的2元集合按照第二相似度公式计算所述序列和所述最相似文本的2元相似度分值。

在一些实施例中，所述基于所述子语义相似度分值和所述对应的N元相似度分值计算语义相似度分值包括：

计算所述子语义相似度分值、所述1元相似度分值和所述2元相似度分值这三者的分值总和以及平均分值；

计算所述这三者中大于所述平均分值的个数，以及大于所述平均分值的累加分值；

若所述个数等于1，则所述语义相似度分值等于所述分值总和与所述累加分值之差的二分之一，否则，所述语义相似度分值等于所述累加分值的二分之一。

在一些实施例中，所述语音识别置信度的计算按照如下公式计算得到：

Score＝alpha*Score1+(1-alpha)*Score2；

其中，Score为语音识别置信度；alpha为预设值；Score1和Score2分别为所述字符相似度分值和所述语义相似度分值。

本发明的一实施例还提供一种语音识别后文本处理装置，包括：

文本字符串获取模块，用于接收用户输入的语音，通过语音识别生成所述语音的文本字符串；

序列提取模块，用于利用N元语言模型对所述文本字符串进行候选子串提取，将提取到的所述候选子串合并以构成一序列；

字符相似度分值计算模块，用于将所述序列与所述文本字符串进行字符相似度匹配，得到字符相似度分值；

语义相似度分值计算模块，用于从主题语料库中提取与所述序列匹配时子语义相似度分值最大的一文本作为最相似文本，对所述序列与所述最相似文本进行N元相似度计算以得到对应的N元相似度分值，基于所述子语义相似度分值和所述对应的N元相似度分值计算语义相似度分值；

置信度计算模块，用于根据所述字符相似度分值和所述语义相似度分值计算语音识别置信度，以用于根据所述语音识别置信度执行相应的操作。

本发明的一实施例还提供一种终端，所述终端包括处理器和存储器，所述存储器存储有计算机程序，所述处理器用于执行所述计算机程序以实施上述的语音识别后文本处理方法。

本发明的一实施例还提供一种可读存储介质，其存储有计算机程序，所述计算机程序被执行时，实施上述的语音识别后文本处理方法。

本发明的实施例具有如下优点：

本发明实施例的语音识别后文本处理方法通过利用N元语言模型对用户输入的语音的文本字符串进行候选子串提取，进而将得到的候选子串合并为序列，将该序列与文本字符串进行相似度匹配以得到字符相似度分值，并基于主题语料库获取与该序列匹配的最相似文本及最大子语义相似度，利用该序列与最相似文本进行N元相似度估计，进而计算得到语义相似度分值，最后利用字符相似度分值和语义相似度分值来计算语音识别置信度。利用本发明的技术方案可以解决获取第三方语音识别的解码器信息获取困难的问题，还利用符合当前使用场景构建的N元语言模型和主题语料库等，即利用语法、语义及语用等高层信息来输出语音识别置信度，可以很好地解决因错误的语义理解而引发错误的反馈到用户端的难题，提高了用户体验等。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例的语音识别后文本处理方法的流程示意图；

图2示出了本发明实施例的语音识别后文本处理方法的基于词粒度的短语候选进行子串提取流程示意图；

图3示出了本发明实施例的语音识别后文本处理方法的基于字粒度进行候选补充的流程示意图；

图4示出了本发明实施例的语音识别后文本处理方法的语义相似度分值获取的流程示意图；

图5示出了本发明实施例的语音识别后文本处理方法的一种应用架构示意图；

图6示出了本发明实施例的语音识别后文本处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下文中，可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合，并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。

此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本发明的各种实施例中被清楚地限定。

实施例1

请参照图1，本实施提出一种语音识别后文本处理方法，该方法可用于各种与用户进行语音交互的终端，如智能电话机器人等。

示范性地，如图1所示，本实施例的语音识别后文本处理方法包括：

步骤S10，接收用户输入的语音，通过语音识别生成所述语音的文本字符串。

示范性地，用户可通过与终端进行对话的方式来执行相应操作。通常地，在终端接收到用户输入的语音后，将使用语音识别功能生成该语音对应的文本字符串。可以理解的是，若用户在输入语音时，周边环境比较复杂，如存在环境噪声或多人说话重叠等，则终端同样可能会接收到并转化为相应的文本信息，进而导致该语音识别后的文本存在较大的噪音。

为此，本实施例的方法将对该语音识别后文本作进一步处理，通过计算输出更准确的语音识别置信度，进而根据该语音识别置信度来决定终端的下一步操作。其中，上述的语音识别是一种比较成熟的技术，故在此并不作详细描述，具体可参见相关文献。

步骤S20，利用N元语言模型对所述文本字符串进行候选子串提取，将提取到的候选子串合并以构成一序列。

上述步骤S20，主要是利用N元语言模型(也称N-gram模型)来对该文本字符串进行子串提取来得到多个候选子串，其中，这些候选子串往往代表该语音中相对稳定的关键信息片段，进而将多个候选子串合并为一个序列以作进一步处理。

其中，N-gram模型是一种统计语言模型，本实施例中，该N-gram模型中包括预先构建的N-gram元组数据集，该N-gram元组数据集主要由大量的N-gram短语构成，例如，可从特定对话节点下的语音识别结果中获取符合当前使用场景的正确的字符串片段，并对这些符合语用的字符串片段基于相应的粒度来生成对应的N-gram短语，以便后续利用该N-gram短语来进行短语匹配，进而进行子串提取等。

通常地，文本是由词构成的，故可基于词粒度来生成上述的N-gram短语，例如，可生成1元(Uni-gram)、2元(Bi-gram)、3元(Tri-gram)、4元(Four-gram)和/或5元(Five-gram)等短语，具体的元组数据可根据实际应用场景来确定。当然，该N-gram短语也可以基于其他粒度来生成，在此并不作限定。

在一些实施方式中，如图2所示，上述步骤S20中的候选子串的提取过程主要包括：

步骤S210，对所述文本字符串进行分词，得到包含若干分词词组的一词列表。

示范性地，通过对该文本字符串进行分词，即基于词粒度进行字符串划分，从而得到一个词列表(word_list)。在该词列表中，将包括若干个被划分出来的词组，其中，每一个词组将分配有各自对应的起止位置索引。例如，该word_list的存储形式可为：{[word₁start₁_indexend₁_index]，[word₂start₂_indexend₂_index]，…，[word_nstart_n_indexend_n_index]}，其中，n为词组个数。可以理解，通过该起止位置索引可以知晓当前词组位于该文本字符串中的具体位置，即从第几个字符开始到第几个字符结束。当然，被划分的各个词组也可以采用其他的存储形式，在此并不作限定。

步骤S220，根据各个所述分词词组在所述词列表中的位置次序生成多个k元(k-gram)短语候选。

示范性地，根据N-gram模型的统计规则，利用得到的这些词组分别生成不同元的短语候选，其中，每一k元短语候选设有对应的起止位置索引。例如，可将产生的这些短语候选构建一个候选字典NgramDict，从而方便查询、调用等。

在一种实施方式中，所述多个k元短语候选可包括1元(Uni-gram)短语候选、2元(Bi-gram)短语候选、3元(Tri-gram)短语候选和4元(Four-gram)短语候选。当然，在其他可能的实施方式中，该多个k元短语候选还可以仅包括上述四种中的任意两种或三种组合，或者还可以包括5元(Five-gram)短语候选等，在此不作具体限定。

例如，若一词列表中包括{“查”，“快递”，“到”，“哪里”，“我”}，其中，各词组在该词列表中具有对应的位置次序，如“查”位于该词列表的第1位，“快递”位于第2位等等，而且每一词组具有各自的起止位置索引，如“快递”在文本字符串“查快递到哪里我”中是从第2位开始到第3位结束等。以Uni-gram短语候选为例，此时即指每一个词组本身；以Bi-gram短语候选为例，则可生成{“查快递”，“快递到”，“到哪里”}等等。

可以理解，由于每一词组具有各自的起止位置索引，故生成的这些k元短语候选同样有各自对应的起止位置索引，并且是由组合得到的词组的起止位置索引合并生成的。例如，上述的“查快递”的起止位置索引可记为“012”，即从第1位开始到第3位结束。

步骤S230，将每一k元短语候选与所述Ngram元组数据集进行匹配，得到匹配成功的若干k元短语以作为所述语音的关键短语。

示范性地，可将基于步骤S220生成的所有k元短语候选，与预先得到的Ngram元组数据集进行字符匹配，并将匹配成功的那些k元短语以作为该用户输入的语音的关键短语。

步骤S240，根据所述关键短语的所述起止位置索引进行去重处理，将去重后得到的各关键短语作为对应的候选子串。

进一步地，考虑到这些匹配成功的k元短语之间可能存在一些重复的短语，由于每个k元短语有对应的起止位置索引，故可对这些关键短语的起止位置索引进行去重处理，这样可以在尽量保留关键信息的同时，减少候选子串的数量，减少计算量及资源的占用等等。

示范性地，可将所有关键短语的起止位置索引进行去重排序，如从小到大等，这样对于一些如各起止位置索引之间具有包含关系的多个短语，则可保留其中的具有最长的连续数字片段(即起止位置索引是连续的)所对应的短语，从而将其作为上述的候选子串。可以理解，所述的每一候选子串中的字符串是连续的。例如，某一关键短语的起止位置索引为“012”，另一关键短语的起止位置索引为“12”或“01”，则去掉起止位置索引为“12”或“01”的关键短语，并将保留的起止位置索引为“012”的关键短语作为一个候选子串。

此外，考虑到词是由字符组成，该语音识别后文本处理方法还包括，利用字粒度对该文本字符串进行字符分割并获取不同元的s元短语，通过将与基于词粒度得到的N元短语不相同的s元短语作为对词粒度的短语候选的补充，可以提高后续语音置信度计算的精确度等。

在一些实施例中，如图3所示，该语音识别后文本处理方法还包括：

步骤S250，对所述文本字符串进行字符分割，得到包含若干字符的一字符列表。

示范性地，通过对该文本字符串进行字符分割，即基于词粒度进行字符串划分，从而得到一个字符列表(character_list)。在该字符列表中，将包括若干个被划分出来的字符，其中，每一个字符将分配有各自对应的起止位置索引。例如，该character_list的存储形式可为：{[character₁start₁_indexend₁_index]，[character₂start₂_indexend₂_index]，…，[character_mstart_m_indexend_m_index]}，其中，m为总字符个数。可以理解，通过该起止位置索引可以知晓当前字符位于该文本字符串中的具体位置。当然，各字符也可以采用其他的存储形式，在此并不作限定。

步骤S260，根据各字符在所述字符列表中的位置次序生成多个s元短语候选，其中，每一s元短语候选设有对应的起止位置索引。

示范性地，利用这些字符可分别生成不同元的短语候选。在一种实施方式中，所述多个s元短语候选包括2元短语候选、3元短语候选和4元短语候选。当然，在其他可能的实施方式中，该多个s元短语候选还可以仅包括上述三种中的任意一种或两种组合，或者还可以其他元短语候选等，在此不作具体限定。可以理解，这里的s元短语中的s与上述k元短语中的k是为了区别基于不同粒度而产生的短语，这两者中的短语均称为N-gram短语。

步骤S270，将与所述k元短语候选不同且起止位置索引也不同的各s元短语候选作为短语候选补充，以用于与所述Ngram元组数据集进行匹配。

考虑到基于字粒度而生成的s元短语候选部分可能会与上述的基于词粒度而生成的k元短语候选相同且起止位置索引也相同，故对生成的这些s元短语候选进行短语候选去重，即仅将上述多个k元短语中不存在的短语候选作为补充，以用于和上述的所有k元短语候选一起与Ngram元组数据集进行匹配。示范性地，可根据每个s元短语候选的字符片段以及起止位置索引来判断是否与上述的多个k元短语候选相同，若不同，则作为候选补充，可放入上述的候选字典NgramDict中。

步骤S30，将所述序列与所述文本字符串进行字符相似度匹配，得到字符相似度分值。

本实施例中，该字符相似度分值能够用于反映该序列存在的数据噪音情况。通常地，该字符相似度分值越大，则表示数据噪音越少，即该序列能够较大程度地代表该用户输入的语音的识别结果；反之，则表示数据噪音越大，即该序列不能替代上述语音的识别结果。

在一种实施方式中，可根据该序列与该文本字符串各自的字符个数来计算字符相似度分值。由于该序列是由上述的所有候选子串合并得到的，若从序列集合的角度来说，该序列也可称为最长公共子序列(LCS)。例如，若该字符相似度分值记为Score₁，len()表示字符个数，具体为用于计算字符串长度的函数，示范性地，可采用如下公式计算得到：

步骤S40，从主题语料库中提取与所述序列匹配时子语义相似度分值最大的一文本作为最相似文本，对所述序列与所述最相似文本进行N元相似度计算以得到对应的N元相似度分值，基于所述子语义相似度分值和所述对应的N元相似度分值计算语义相似度分值。

上述的该主题语料库可预先构建得到，其构建方式并不作限定，具体可根据实际需求来确定。应当注意的是，该主题语料库是针对符合用户需求的使用场景的语料库，例如，若该终端为用于自动快递查询的电话机器人，则该主题语料库应当包括的是与快递查询这一主题的相关语料。

在一种实施方式中，可通过对符合当前使用场景的历史语料进行语音识别，并对得到的语音识别数据进行人工标注以获取识别正确的字符串片段，从而利用这些字符串片段来构建得到该主题语料库。或者，在另一种实施方式中，可对上述的历史语料采用上述步骤S20的方法进行多个子序列提取，然后对这些子序列进行频次统计，在去重后再依据频次大小进行降序排列以得到不同的字符串，最后进行人工标注后用于构建该主题语料库。

对于上述步骤S40，在提取该最相似文本时，示范性地，可先利用如Gensim等开源库工具对上述的主题语料库进行主题模型训练，从而得到对应的语义模型。然后，利用该语义模型从该主题语料库检索出与该序列的语义最接近的文本，即子语义相似度分值(记为Score₂₁)最大时所对应的文本，并将其作为该最相似文本。

可以理解，Gensim是一个用于主题建模、文档索引和大型语料库相似检索的Python库，其包括Word2Vec、FastText、潜在语义分析等多种算法，可计算到该序列与各文本之间的子语义相似度分值，进而根据最大的子语义相似度分值即可确定该最相似文本。可以理解，上述的子语义相似度分值可采用通用的语义相似度即可计算得到，这里主要是为了与后文提及的语义相似度分值进行区分。

在一些实施例中，上述步骤S40中的“对所述序列与所述最相似文本进行N元相似度计算以得到对应的N元相似度分值”包括：1元相似度分值和2元相似度分值的计算。

示范性地，根据所述序列和所述最相似文本各自的字符集合按照第一相似度公式计算所述序列和所述最相似文本的Uni-gram(1元)相似度分值。例如，可提取出该序列的字符集合set₁，以及该最相似文本的字符集合set₂，然后利用第一相似度公式来求解该Uni-gram相似度分值Score₂₂。例如，该第一相似度公式可为杰卡德(Jaccard)公式，即有：

其中，当集合set₁，set₂均为空时，J(set₁,set₂)定义为1。应当理解的是，该第一相似度公式还可以采用如余弦相似度等其他相似度计算公式。

示范性地，根据所述序列和所述最相似文本各自的Bi-gram(2元)集合按照第二相似度公式计算所述序列和所述最相似文本的2元相似度分值。例如，可基于上述的N元语言模型提取出该序列的Bi-gram集合List_gram₁，以及该最相似文本的Bi-gram集合List_gram₂，然后利用第二相似度公式求解得到该Bi-gram相似度分值Score₂₃。例如，可依据Bi-gram相似度公式计算，其中，len()表示集合中的元素个数，即有：

通过计算上述三种不同的相似度分值可进一步计算得到语义相似度分值，在一种实施方式中，如图4所示，对于上述步骤S40中的“基于所述子语义相似度分值和所述对应的N元相似度分值计算语义相似度分值”包括：

步骤S410，计算所述子语义相似度分值、所述1元相似度分值和所述2元相似度分值这三者的分值总和以及平均分值。

示范性地，若分值总和及平均分值分别记为Score_sum和Score_mean，则有：

Score_sum＝Score₂₁+Score₂₂+Score₂₃；

步骤S420，计算所述这三者中大于所述平均分值的个数，以及大于所述平均分值的累加分值；

示范性地，计算这三个分值中大于平均分值Score_mean的个数cnt，并将大于平均分值Score_mean的所有分值进行累加，得到该累加分值Score_upmean。例如，若子语义相似度分值Score₂₁和2元相似度分值Score₂₃均大于平均分值Score_mean，则将这两个分值相加来得到该累加分值Score_upmean。

步骤S430，判断所述个数是否等于1。

若个数cnt等于1，则执行步骤S440，否则执行步骤S450。

步骤S440，所述语义相似度分值等于所述分值总和与所述累加分值之差的二分之一。

步骤S450，所述语义相似度分值等于所述累加分值的二分之一。

示范性地，该语义相似度分值Score₂满足：

步骤S50，根据所述字符相似度分值和所述语义相似度分值计算语音识别置信度，以用于根据所述语音识别置信度执行相应的操作。

本实施例中，将利用字符相似度分值和语义相似度分值来共同计算该语音识别置信度，示范性地，语音识别置信度Score可按照如下公式计算得到，其中，alpha为一个预设值：

Score＝alpha*Score₁+(1-alpha)*Score₂。

可以理解，终端将根据计算到的语音识别置信度执行相应的预设操作，例如，若该语音识别置信度大于一预设阈值，则将该序列直接作为识别结果发送给后续的自然语言理解模块，并做出交互动作以反馈到用户端等。

由于该语音识别置信度基于序列与文本字符串得到的字符相似度分值Score₁作为加权因子计算得到，若分值Score₁较大，则说明数据噪音小，那么就可以将这个序列替代上述的文本字符串这一识别结果；反之，分值Score₁较小，则说明数据噪音大，那么就不能将该序列替代识别结果。

例如，如图5所示，利用一个用于快递查询的智能机器人来举例来说明该语音识别后文本处理方法的主要过程：

当获取用户输入的一段语音，并通过语音识别将得到一个文本字符串“快件查询，借借钱过几天，嗯，谢谢，不需要360我快件查询”，于是，通过利用N元语言模型对该文本字符串进行候选子串提取，如图5所示，将得到的各候选子串合并以得到一序列“快件查询几天我快件查询”。其中，该N元语言模型包括由许多不同元的N元短语所构成的N-gram元组数据集。可以理解，由于该文本字符串中存在如“借借钱过几天，嗯，谢谢，不需要360”等环境噪音，通过该N元语言模型可以去掉一些不符合当前语用的信息，并提取出符合快递查询这一语境的关键信息。然后，利用识别的文本字符串(即原始文本)与该序列计算字符相似度分值，以及利用该序列与主题语料库计算语义相似度分值，其中，该主题语料库是关于快递查询这一主题的语料库，其包括许多符合当前语义的字符串片段，最后利用这两种相似度分值进行加权计算以输出语音识别置信度，于是该智能机器人将根据该置信度进行相应的操作。

本发明实施例的语音识别后文本处理方法利用N元语言模型进行子串抽取来得到语音识别文本中相对稳定的关键片段，可以尽可能地去除没有语义意义的片段，节省了后端处理的计算资源；进而将多个子串合并为序列与语音识别文本进行相似度匹配，并基于主题语料库获取最相似文本，然后基于最相似文本与该序列进行多个N元相似度估计，最后利用这些相似度来加权计算输出语音识别置信度，由于去除了没有语义意义的片段，此时的置信度将更加准确等。此外，该方法在文本处理过程中考虑了语法、语义及语用等高层信息，提高了整个对话的交互鲁棒性，可有效避免因错误的语义理解引发错误的反馈到用户端的现象，提升了用户体验等等。

实施例2

请参照图6，本发明实施例提出一种语音识别后文本处理装置1，可用于与用户语音交互的终端，如智能机器人等。示范性地，该语音识别后文本处理装置1包括：

文本字符串获取模块10用于接收用户输入的语音，通过语音识别生成所述语音的文本字符串；

序列提取模块20用于利用N元语言模型对所述文本字符串进行候选子串提取，将提取到的所述候选子串合并以构成一序列；

字符相似度分值计算模块30用于将所述序列与所述文本字符串进行字符相似度匹配，得到字符相似度分值；

语义相似度分值计算模块40用于从主题语料库中提取与所述序列匹配时子语义相似度分值最大的一文本作为最相似文本，对所述序列与所述最相似文本进行N元相似度计算以得到对应的N元相似度分值，基于所述子语义相似度分值和所述对应的N元相似度分值计算语义相似度分值；

置信度计算模块50用于根据所述字符相似度分值和所述语义相似度分值计算语音识别置信度，以用于根据所述语音识别置信度执行相应的操作。

可以理解，上述的语音识别后文本处理装置对应于上述实施例1的方法，实施例1的方法的任意可选项也适用于本实施例，故在此不再详述。

本发明还提供了一种终端，该终端能够与用户进行语音交互，可以是面对面的语音交互，也可以是通过如电话等即时通讯设备进行语音交互。该移动终端包括存储器和处理器，存储器可用于存储计算机程序，处理器通过运行所述计算机程序，从而使移动终端执行上述语音识别后文本处理方法或者上述语音识别后文本处理装置1中的各个模块的功能。示范性地，该终端可为应用于不同领域的电话机器人等。

存储器可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据移动终端的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明还提供了一种可读存储介质，用于储存上述终端中使用的所述计算机程序。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或更多个模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种语音识别后文本处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述N元语言模型包括基于词粒度产生的多个n元短语所构成的Ngram元组数据集，其中，所述多个n元短语包括1元短语、2元短语、3元短语和4元短语，所述利用N元语言模型对所述文本字符串进行候选子串提取包括：

3.根据权利要求2所述的方法，其特征在于，所述Ngram元组数据集还包括基于字粒度产生的多个m元短语，其中，所述多个m元短语包括2元短语、3元短语和4元短语，所述方法在生成多个k元短语候选之后，还包括：

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述将所述序列与所述文本字符串进行字符相似度匹配，得到字符相似度分值包括：

若所述字符相似度分值为Score1，len()表示字符个数，则有：

5.根据权利要求2或3所述的方法，其特征在于，所述对所述序列与所述最相似文本进行N元相似度计算以得到对应的N元相似度分值包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述子语义相似度分值和所述对应的N元相似度分值计算语义相似度分值包括：

7.根据权利要求6所述的方法，其特征在于，所述语音识别置信度的计算按照如下公式计算得到：

Score＝alpha*Score1+(1-alpha)*Score2；

8.一种语音识别后文本处理装置，其特征在于，包括：

9.一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器存储有计算机程序，所述处理器用于执行所述计算机程序以实施权利要求1-7中任一项所述的语音识别后文本处理方法。

10.根据权利要求9所述的终端，其特征在于，所述终端为智能机器人。