CN114694643A

CN114694643A - 一种基于融合相似度计算的语音指令映射方法及系统

Info

Publication number: CN114694643A
Application number: CN202210278882.2A
Authority: CN
Inventors: 赵崟江; 姜卫平; 李国华; 郭忠武; 殷松迁; 张家斌; 韩煜
Original assignee: Beijing Bohui Data Technology Co ltd
Current assignee: Beijing Bohui Data Technology Co ltd
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2022-07-01

Abstract

本发明公开了一种基于融合相似度计算的语音指令映射方法及系统，通过语音识别、拼音校检、关键词提取、融合相似度计算等手段，大大提升了语音指令映射准确率，用户表达更灵活，且支持以高性能部署端侧设备，具有较好的应用优越性。将用户的口语化表达，精准地映射到标准指令，使用户不拘泥于标准指令表达，控制设备更加智能与人性化。同时该算法具有较高的效率，在端侧设备上能够以较低延迟匹配最佳指令。此外，该算法通用性较强，智能交互语音产品中均可使用。

Description

一种基于融合相似度计算的语音指令映射方法及系统

技术领域

本发明涉及语音识别技术领域，具体涉及一种基于融合相似度计算的语音指令映射方法及系统。

背景技术

语音指令识别就是通过语音识别引擎将用户指令语音转化成文字，进一步映射为标准指令，继而控制目标设备执行相关指令，其应用场景如语音助手、智能音箱等。目前市面上大部分语音指令识别产品会支持一个标准的指令集，指令较为简单，并且它们要求用户准确无误地表达标准指令，才能被引擎正确识别，否则就会造成识别失败或误识别。由此可见，智能设备执行指令必须满足两个条件：(1)用户准确表达标准指令；(2)语音识别准确率较高。

为提升用户体验，支持口语化表达及降低对语音识别引擎的要求，需要将语音识别结果文字与标准指令进行映射，即文本相似度匹配，也就是将语音识别出的文字和标准指令集中的指令逐个比较，选择相似度最高的指令作为结果指令，通用做法一般有：(1)传统方法：通过统计词频、句法分析等手段得到文本的向量化表示，然后计算相似度，得到相似度最高的文本；(2)深度学习方法：通过神经网络模型将文本转化成向量(如Word2vec和Bert)，然后通过计算向量距离，得到相似度最高的文本。这两种方法虽然能够部分解决指令映射问题，但是映射结果往往不尽人意，口语表达和标准指令容易出现映射错误，用户体验较差。传统方法往往只考虑词频等特征，语义过于稀疏；而深度学习方法虽然能够表达丰富语义，但也受限于语音识别引擎结果，如果识别成同音字，也会影响文本相似度匹配结果，且语音指令往往比较简短，甚至有时不包含主语，给文本相似度匹配带来困难。

发明内容

为此，本发明提供一种基于融合相似度计算的语音指令映射方法及系统，以解决现有语音指令映射方法存在的映射准确率低、用户体验不佳的问题。

为了实现上述目的，本发明提供如下技术方案：

根据本发明实施例的第一方面，提出了一种基于融合相似度计算的语音指令映射方法，所述方法包括：

获取用户输入的语音指令信息并通过语音识别转换为文本信息；

对所述文本信息进行去助词和拼音校验处理；

对处理后的文本信息进行关键词提取并计算权重；

将文本信息和标准指令集中的每个标准指令进行文本相似度计算，所述相似度采用最小编辑距离和语义向量距离的线性加权融合计算得到的融合相似度；

将得到的最高相似度值与预设阈值进行比较，若超过预设阈值，则将最高相似度对应的标准指令作为目标设备执行指令。

进一步地，去助词处理，具体包括：

通过依存句法分析将识别结果中对指令映射过程无用的助词去掉。

进一步地，拼音校验处理，具体包括：

将标准指令集的所有标准指令生成拼音指令集；

将去助词处理后的文本句子转换成拼音表示；

基于所述拼音指令集对得到的拼音表示的文本句子进行校验，将文本中被识别为标准指令中某个字的同音字校验为正确结果，并将文本中缺失的字进行补全处理。

进一步地，对处理后的文本信息进行关键词提取并计算权重，具体包括：

对TF-IDF算法进行改进，计算文本中词汇的词频-逆文档频率，计算公式为：

TF-IDFw’＝[log₁₀(1+TF_w)]^1/θ*(IDF_w)²；

其中，TF-IDFw’为词频-逆文档频率，TF_w为词频，IDF_w为逆文档频率，参数θ结合短文本实验进行确定。

进一步地，融合相似度的计算，具体包括：

F_sim＝αED_sim+(1-α)BERT_sim

其中，F_sim为融合相似度，ED_sim为基于最小编辑距离的相似度，BERT_sim为基于语义向量距离的相似度，α为加权系数。

进一步地，基于最小编辑距离的相似度计算，具体包括：

其中，S1,S2为两个待比较的字符串文本，ED_sim(S1,S2)为两个文本的相似度，d_[s1,s2]为整数形式的两个文本的最小编辑距离，L_max为两个句子的最长文本长度。

进一步地，基于语义向量距离的相似度计算，具体包括：

基于BERT预训练模型将提取到的关键词语转化成词向量，然后将每个词向量与计算得到的权重TF-IDFw’进行加权求和得到文本信息的句向量，最后使用余弦相似度方法进行相似度计算：

其中θ为两个句向量的夹角，x_i，y_i分别表示n维的文本信息的句向量和标准指令的句向量在某一个维度i的分量数值。

根据本发明实施例的第二方面，提出了一种基于融合相似度计算的语音指令映射系统，所述系统包括：

语音识别模块，用于获取用户输入的语音指令信息并通过语音识别转换为文本信息；

文本处理模块，用于对所述文本信息进行去助词和拼音校验处理；

关键词提取模块，用于对处理后的文本信息进行关键词提取并计算权重；

融合相似度计算模块，用于将文本信息和标准指令集中的每个标准指令进行文本相似度计算，所述相似度采用最小编辑距离和语义向量距离的线性加权融合计算得到的融合相似度；

阈值判断模块，用于将得到的最高相似度值与预设阈值进行比较，若超过预设阈值，则将最高相似度对应的标准指令作为目标设备执行指令。

本发明具有如下优点：

本发明提出了一种基于融合相似度计算的语音指令映射方法及系统，通过语音识别、拼音校检、关键词提取、融合相似度计算等手段，大大提升了语音指令映射准确率，用户表达更灵活，且支持以高性能部署端侧设备，具有较好的应用优越性。将用户的口语化表达，精准地映射到标准指令，使用户不拘泥于标准指令表达，控制设备更加智能与人性化。同时该算法具有较高的效率，在端侧设备上能够以较低延迟匹配最佳指令。此外，该算法通用性较强，智能交互语音产品中均可使用。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例1提供的一种基于融合相似度计算的语音指令映射方法的流程示意图；

图2为本发明实施例1提供的一种基于融合相似度计算的语音指令映射方法的执行流程示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1和图2所示，本实施例提出了一种基于融合相似度计算的语音指令映射方法，该方法包括：

S100、获取用户输入的语音指令信息并通过语音识别转换为文本信息。

一、语音输入：

通过麦克风等音频设备，用户表达自己的口语指令，如“请帮我把空调打开”。

二、语音识别：

将用户语音通过语音识别引擎转换成文字，若识别引擎识别效果较好，会精准识别出语音中的每一个字(如“请帮我把空调打开”)，如果识别引擎识别效果欠佳，可能会产生如下错误：

识别结果出现同音字，如“请帮我把空调大开”。

识别结果会出现缺字情况，如“请帮我把空调开”。

这两种情况出现概率较高，尤其是第一种情况。

语音识别结果不准确会影响相似度计算的准确率，因此需要进行去助词和拼音校检。

S200、对文本信息进行去助词和拼音校验处理。

三、去助词：

通过依存句法分析将识别结果中对指令映射过程无用的助词去掉，如“请、把”等助词。

四、拼音校检：

首先，将标准指令集的所有指令生成一个拼音指令集，如“打开空调”—>“dakaikongtiao”；然后，将去除助词以后的句子进行拼音表示，如：

①帮我空调打开—>“bang wo kong tiao dakai”

②帮我空调大开—>“bang wo kong tiao dakai”

③帮我空调开—>“bang wo kong tiao kai”

通过以上操作可以看到：

语音识别结果可能把标准指令中的某些字识别成同音字。通过拼音进行校检，可以把同音字校检成正确的结果，如②中“大开”便可以纠正成“打开”。

语音识别结果可能会发生缺字情况。如③中，语音识别结果将“打开”识别成了“开”、或者“打”字。因为标准指令集中，指令较为固定、简单，这里我们制定相关规则，如果出现缺字情况，就进行相应的补全，即“开”或者“打”补全为“打开”。

S300、对处理后的文本信息进行关键词提取并计算权重。

五、关键词提取(改进TF-IDF)：

在拼音校检的基础上使用TF-IDF(Term Frequency–Inverse DocumentFrequency)进行关键词提取，即寻找一句中最重要的词汇，并计算相应的权重。TF-IDF称为词频-逆文档频率。

TFw：词频，表示该词在文本中出现的频率。

IDFw：逆文档频率，一般定义为由总文章数目除以包含该词文章的数目，然后取对数得到。若句子中词没有重复的，则权重相同。

本实施例中，包含该词语w的文章总数为用户输入的短句数，若用户输入的句子为单句，则包含该词语w的文章总数为1，语料库中的文章总数为每个字或词语在句子中出现的频次。

最后，

TF-IDFw＝TFw*IDFw 公式(3)

在TF-IDF的计算中，字词的重要性随着它在特定文章中出现的次数成正比增加，但同时会随着它在语料库不同文章中出现的频率成反比下降。通过TF-IDF计算，可以得到每个字或词在句中的权重，算法倾向于过滤掉常见词语，保留重要词语。

本发明所涉及的语音指令一般为短文本。由于短文本的数据稀疏性，导致TF-IDF对权重的区分度严重不足，因此本发明提出了TF-IDF的改进算法。

(1)针对原算法中的TFw计算公式，修改如下：

TF_w′＝[log₁₀(1+TF_w)]^1/θ 公式(4)

与原TFw相比，本发明针对短文本字数少、词频低，难以从词频信息判断词的重要性的特点，对原TFw进行log₁₀对数及1/θ幂次方处理，降低TFw的权重。式中参数θ，可结合短文本实验确定，针对空调指令映射场景，θ＝3效果最佳。

(2)针对原算法中的IDFw计算公式，修改如下：

IDF_w′＝(IDF_w)² 公式(5)

与原IDFw相比，对原IDFw进行平方处理，加大IDFw的权重，其目的在于降低高频且无意义词汇对结果的影响。

综上，改进后的权重计算公式为：

TF-IDFw’＝TFw’*IDFw’＝[log₁₀(1+TF_w)]^1/θ*(IDF_w)² 公式(6)

S400、将文本信息和标准指令集中的每个标准指令进行文本相似度计算，相似度采用最小编辑距离和语义向量距离的线性加权融合计算得到的融合相似度。

六、最小编辑距离计算：

最小编辑距离(EditDistance)是文本相似度计算的一种算法，主要用于比较两个文本的相似度，其核心思想为一个文本通过插入、删除、替换等单个字符操作转变成另一个文本所需要的最小操作数量。而指令具有句子简短的特点，相似文本之间会有较多的共有词，因此适合通过编辑距离计算相似度。最小编辑距离最终结果为整数的形式，为了便于比较，本发明采用比值的形式对结果进行改进变换，如：

其中，S1,S2为两个待比较的字符串文本，ED_sim(S1,S2)为两个文本的相似度，d_[s1,s2]为两个文本的最小编辑距离(整数形式)，L_max为两个句子的最长文本长度。

七、语义向量距离计算：

语义向量化是从深度学习的语义特征角度考虑，通过事先训练好的模型将文本转换成向量，用于文本相似度计算。

本发明基于BERT(全称Bidirectional-Encoder-Representation-from-Transformers)预训练模型将词语转化成词向量，然后将每个词向量与改进的TF-IDF权重进行加权求和得到输入文本的句向量，最后使用余弦相似度的方法进行相似度计算，即

其中x_i，y_i分别表示输入文本的句向量和标准指令的句向量在某一个维度i的分量数值。

八、融合相似度匹配

最小编辑距离方法基于短文本、词量少以及共有词的角度出发，计算文本相似度；语义向量距离方法基于深层次语义特征层面，将文本向量化，进而计算相似度。本发明综合上述两种方法，采用线性加权融合方式计算文本相似度，可有效提升计算准确度。具体公式如下：

F_sim＝αED_sim+(1-α)BERT_sim 公式(9)

实践中，可通过实验调节α因子，来使F_sim相似度结果最佳。针对指令识别场景，由于文本较短、且容易出现共有词，所以应该削弱ED_sim对最终结果的影响。如：对于空调指令映射场景，α取值0.32，效果最佳。

S500、将得到的最高相似度值与预设阈值进行比较，若超过预设阈值，则将最高相似度对应的标准指令作为目标设备执行指令。

九、阈值判断：

根据计算出的最佳相似度分数F_sim与系统预先设定的阈值(0.8)作比较，如果最佳匹配分数小于阈值，认为系统没有找到对应的标准指令，需要重新输入语音指令；否则，将相似度最高的标准指令作为目标设备执行指令。

本发明基于语义相似度的语音指令识别算法，通过语音识别、拼音校检、关键词提取、融合相似度计算等手段，将用户的口语化表达，精准地映射到标准指令，使用户不拘泥于标准指令表达，控制设备更加智能与人性化。同时该算法具有较高的效率，在端侧设备上能够以较低延迟匹配最佳指令。此外，该算法通用性较强，智能交互语音产品中均可使用。

通过在安卓智能中控语音助手产品中得到成功应用。用户通过语音说出想让设备执行的指令，产品对用户语音进行识别，并映射成标准指令，驱动设备执行。该产品中，语音识别可靠、指令映射准确、用户响应及时，取得了很好的实施效果和用户认可度。

本发明与现有同类技术的比较：

实施例2

与上述实施例1相对应的，本实施例提出了一种基于融合相似度计算的语音指令映射系统，所述系统包括：

本发明实施例提供的一种基于融合相似度计算的语音指令映射系统中各部件所执行的功能均已在上述实施例1中做了详细介绍，因此这里不做过多赘述。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于融合相似度计算的语音指令映射方法，其特征在于，所述方法包括：

对所述文本信息进行去助词和拼音校验处理；

对处理后的文本信息进行关键词提取并计算权重；

2.根据权利要求1所述的一种基于融合相似度计算的语音指令映射方法，其特征在于，去助词处理，具体包括：

3.根据权利要求1所述的一种基于融合相似度计算的语音指令映射方法，其特征在于，拼音校验处理，具体包括：

将标准指令集的所有标准指令生成拼音指令集；

将去助词处理后的文本句子转换成拼音表示；

4.根据权利要求1所述的一种基于融合相似度计算的语音指令映射方法，其特征在于，对处理后的文本信息进行关键词提取并计算权重，具体包括：

TF-IDFw’＝[log₁₀(1+TF_w)]^1/θ*(IDF_w)²；

5.根据权利要求1所述的一种基于融合相似度计算的语音指令映射方法，其特征在于，融合相似度的计算，具体包括：

F_sim＝αED_sim+(1-α)BERT_sim

6.根据权利要求5所述的一种基于融合相似度计算的语音指令映射方法，其特征在于，基于最小编辑距离的相似度计算，具体包括：

7.根据权利要求5所述的一种基于融合相似度计算的语音指令映射方法，其特征在于，基于语义向量距离的相似度计算，具体包括：

8.一种基于融合相似度计算的语音指令映射系统，其特征在于，所述系统包括：