CN109461446B

CN109461446B - 一种识别用户目标请求的方法、装置、系统及存储介质

Info

Publication number: CN109461446B
Application number: CN201811584393.XA
Authority: CN
Inventors: 许文卿; 张瀚; 林士翔
Original assignee: Mobvoi Information Technology Co Ltd
Current assignee: Volkswagen China Investment Co Ltd; Mobvoi Innovation Technology Co Ltd
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2019-10-01
Anticipated expiration: 2038-12-24
Also published as: CN109461446A

Abstract

本发明实施例涉及语音处理技术领域，具体公开了一种识别用户目标请求的方法、装置、系统及存储介质，该方法包括：接收智能语音交互设备传输的声音信号；将其分别输入至预建立的声音分类器、语音识别处理模型以及解码器语言模型，获取声音置信度、语言置信度以及文本信息；将文本信息输入至文本分类器模型中，获取文本置信度；将声音置信度、语言置信度以及文本置信度进行融合处理，获取目标请求置信度；根据目标请求置信度，确定声音信号是否为用户目标请求。通过上述方式，不会对用户造成不必要的困扰，大大提升用户体验度。

Description

一种识别用户目标请求的方法、装置、系统及存储介质

技术领域

本发明实施例涉及语音处理技术领域，具体涉及一种识别用户目标请求的方法、装置、系统及存储介质。

背景技术

现有的智能语音交互设备其原理是通过实时监听外界的声音信号。一旦监听到声音信号中包含唤醒词，就会被唤醒。采集外界的声音信号。在采集到外界的声音信号后，将声音信号传输至服务器，由服务器进行语音识别处理，获取文本信息。然后将文本信息匹配唤醒词汇，一旦存在就执行相应的语音指令。并将执行结果反馈至语音交互设备，通过语音交互设备以语音的形式播报给用户。

虽然，通常用户只需要通过语音输入，就可以得到服务器反馈的响应信息，操作简单方便。但是，传统技术中服务器并不能区分哪一句语音是用户的目标请求，哪些是外界环境中发出的声音，例如电视机中正在说话，或者外界噪音等，都有可能被误识别，然后作为用户的目标请求进行执行。这种情况下，用户会在毫无准备的情况下收到智能语音设备发出的反馈语音，容易让人遭受惊吓，若是用户正处于休息状态，则这种情况更加严重，这会用户将会造成很大的困扰。

那么，如何才能避免服务器接收到“误唤醒”声音后做出反馈响应，进而避免给用户带来的不必要困扰，成为本申请所要解决的技术问题。

发明内容

为此，本发明实施例提供一种识别用户目标请求的方法、装置、系统及存储介质，以解决现有技术中由于服务器接收到“误唤醒”的声音后做出反馈响应，而给用户带来不必要困扰的问题。

为了实现上述目的，本发明的实施方式提供如下技术方案：

在本发明的实施方式的第一方面中，提供了一种识别用户目标请求的方法，包括：接收智能语音交互设备传输的声音信号；

将声音信号分别输入至预建立的声音分类器、语音识别处理模型以及解码器语言模型中，获取经过声音分类器对声音信号进行处理后生成的声音置信度；获取经过解码器语言模型对声音信号进行处理后生成的语言置信度；以及获取语音识别处理模型对声音信号进行处理后生成的文本信息；

将文本信息输入至文本分类器模型中，获取经过文本分类器对文本信息进行分类后生成的文本置信度；

将声音置信度、语言置信度以及文本置信度进行融合处理，获取目标请求置信度；

根据目标请求置信度，确定声音信号是否为用户目标请求。

在本发明的一个实施例中，声音分类器对声音信号进行处理，具体包括：

利用长短期记忆(Long Short-Term Memory，简称LSTM)循环神经网络对声音信号进行处理，获取预设数量的隐藏向量；

将预设数量的隐藏向量代入至sigmoid函数中，得到声音置信度，声音置信度大于或者等于0，且小于或者等于1。

在本发明的另一实施例中，解码器语言模型对声音信号进行处理，具体包括：

在预建立的搜索空间中，通过维特比搜索方法获取与声音信号对应的最佳词串以及语言置信度，语言置信度为最佳词串中所有词汇的置信度乘积，搜索空间由声学模型、声学上下文、发音词典以及语言模型中的知识源构成。

在本发明的又一个实施例中，文本分类器对文本信息进行分类，具体包括：

将文本信息进行分词处理，获取至少两个文本分词；

将至少两个文本分词转换为词向量后，作为卷积神经网络算法的输入，经过卷积神经网络算法的处理后，获取文本置信度。

在本发明的再一个实施例中，将声音置信度、语言置信度以及文本置信度进行融合处理，获取目标请求置信度，具体包括：

将声音置信度、语言置信度以及文本置信度构成一维向量后输入至逻辑回归模型，获取目标请求置信度。

在本发明的再一个实施例中，根据目标请求置信度，确定声音信号是否为用户目标请求，具体包括：

将目标请求置信度与预设置信度阈值进行比较；

当目标请求置信度大于或者等于预设置信度阈值时，确定声音信号为用户目标请求；否则，确定声音信号为非用户目标请求。

在本发明的实施方式的第二方面中，提供了一种识别用户目标请求的装置，包括：接收单元，用于接收智能语音交互设备传输的声音信号；

处理单元，用于将声音信号分别输入至预建立的声音分类器、语音识别处理模型以及解码器语言模型中，获取经过声音分类器对声音信号进行处理后生成的声音置信度；获取经过解码器语言模型对声音信号进行处理后生成的语言置信度；以及获取语音识别处理模型对声音信号进行处理后生成的文本信息；

判定单元，用于根据目标请求置信度，确定声音信号是否为用户目标请求。

利用LSTM循环神经网络对声音信号进行处理，获取预设数量的隐藏向量；

将文本信息进行分词处理，获取至少两个文本分词；

在本发明的再一个实施例中，处理单元具体用于：

在本发明的再一个实施例中，判定单元具体用于：

将目标请求置信度与预设置信度阈值进行比较；

在本发明的实施方式的第三方面中，提供了一种识别用户目标请求的系统，包括：语音接收器、存储器以及处理器；

语音接收器，用于接收智能语音交互设备传输的声音信号；

存储器，用于存储一个或多个程序指令；一个或多个程序指令被处理器运行，用以执行如上所述的一种识别用户目标请求的方法中任一方法步骤。

在本发明的实施方式的第四方面中，提供了一种计算机存储介质，计算机存储介质中包含一个或多个程序指令，一个或多个程序指令用于被一种识别用户目标请求的系统执行如上一种识别用户目标请求的方法中的任一方法步骤。

根据本发明的实施方式，具有如下优点：当接收到智能语音设备传输的声音信号后，服务器并非像传统技术那样执行语音识别后直接匹配唤醒词。一旦匹配到唤醒词就将声音信号作为目标请求，执行与之对应的操作，并将操作结果反馈至智能语音交互设备。而是对声音信号进行一系列的处理，包括利用声音分类器对声音信号进行处理获取声音置信度，用以判定声音信号是否属于人类发出的声音，或者是外界环境中的声音。利用解码器语言模型对声音信号进行处理，获取语音置信度，用以确定即使是人类发出的声音，那么是否是系统可以识别的语言。防止并非是预设定的语言，造成文本匹配时出现识别错误而导致的误唤醒情况。通过语音识别处理模型对声音信号进行处理后，再经过文本分类器进行分类处理获取文本置信度，进一步确定文本内容的准确性。

将声音置信度、语言置信度以及文本置信度进行融合处理，获取目标请求置信度，综合置信度必然是更准确的存在。因此，可以根据目标请求置信度，来确定声音信号是否为用户目标请求。通过该种方式，可以大大提升服务器对声音信号识别的准确度，尽量避免“误识别”情况的发生。如果服务器确定声音信号为非用户目标请求，则可以不执行声音信号对应的操作，即不做任何处理。或者，向语音交互设备反馈一个空响应。如此一来，不会让语音交互设备在用户不知情的情况下发出“奇怪声音”而使用户被“吓到”，更不会在用户休息时发出奇怪声音打扰到用户的休息，大大提升用户体验度。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明提供的一实施例提供的一种识别用户目标请求方法的流程示意图；

图2为本发明提供的LSTM循环神经网络的工作原理简易示意图；

图3为本发明提供的另一实施例提供的一种识别用户目标请求装置结构示意图；

图4为本发明提供的另一实施例提供的一种识别用户目标请求系统结构示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例1提供了一种识别用户目标请求的方法，具体如图1所示，该方法包括：

步骤110，接收智能语音交互设备传输的声音信号。

具体的，智能语音交互设备会实时监听外界的声音信号。一旦监听到携带有“唤醒词”的声音后，开启语音采集功能，采集外界发出的声音信号，并将声音信号传输至服务器。

而服务器则用于接收智能语音交互设备传输的声音信号。

步骤120，将声音信号分别输入至预建立的声音分类器、语音识别处理模型以及解码器语言模型中。

具体的，声音分类器、语音识别处理模型以及解码器语音模型都是执行本申请方案之前就已经建立好的最优训练模型。其建立时的原理与机器学习模型建立最优模型的原理相似，均是采集样本数据对分类器或者模型进行训练，然后不断调整模型中的参数，从而达到最优输出效果。而输出最优效果的模型作为最优训练模型。不过是模型中的训练样本依据不同情况而不同。例如，声音分类器中包含的是声音样本，包括不同人发出的声音、电视机等硬件设备发出的声音、外界环境中的鸟叫声、嘈杂声、爆炸声等等。而解码器语言模型中输入的样本数据可以从如下四种知识源中获取：声学模型、声学上下文、发音词典和语言模型等构成的搜索空间。其语言解码器模型即是通过维特比搜索方法，在如上介绍的搜索空间中进行搜索获取最佳词串，以及最佳词串概率的模型。具体的将在下文中做介绍在本实施例中的应用。

语音识别处理模型实际利用常规的语音识别处理技术进行语音识别，获取文本信息的模型。这里不做过多介绍，那么语音识别处理模型中的样本数据同样是大量的声音数据。

通过上述模型的处理后，可以获取经过声音分类器对声音信号进行处理后生成的声音置信度；获取经过解码器语言模型对声音信号进行处理后生成的语言置信度；以及获取语音识别处理模型对声音信号进行处理后生成的文本信息。

其中，声音分类器对声音信号进行处理，具体包括：

具体如图2所示，图2示出了LSTM循环神经网络的工作原理简易示意图，首先对声音信号进行预处理，获取预设数量的声音序列Xi，i初始取值为1，且依次递增，该部分为已经成熟的现有技术，这里不做过多赘述。

然后将声音序列Xi输入至LSTM循环神经网络的预设数量的处理单元A中，A的数量与声音序列的数量相同。前一个声音序列Xi-1经过处理单元A处理后，其输出结果为隐藏向量h_i-1，隐藏向量h_i-1不仅仅作为输出，还需要作为下一个处理单元A的另一路输入参数(一类参数为Xi)。以此类推，直至所有预设数量的处理单元均输出结果后，将所有的输出结果h₀～hi共同输入至sigmoid函数中，得到0～1之间的数值，即为声音置信度。声音序列在处理单元A中的处理过程为现有技术，这里不做过多赘述。

而解码器语言模型对声音序列进行处理，获取声音序列Xi。可以包括利用维特比(Viterbi)搜索空间中所有的词汇，获取与声音序列对应的最佳词串[W_i ^N]^opt＝[W₁,W₂，…W_N]_opt,其中，最佳词串中的每一个词汇都将符合如下条件：

(W_i)^opt＝atgmaxp(W_i|Xi) (公式1)

即，与每个声音序列对应的词汇的置信度在搜索空间所有与声音序列对应的候选词汇中都是最大的。而最佳词串中所有词汇对应的置信度之积，则为最终的语言置信度。

步骤130，将文本信息输入至文本分类器模型中，获取经过文本分类器对文本信息进行分类后生成的文本置信度。

具体的，首先将文本信息进行分词处理，获取至少两个文本分词。然后利用词向量word2vec的方法将至少两个分词分别转换为词向量。将这些词向量作为卷积神经网络的输入，在卷积神经网络中进行卷积计算处理后，得到文本置信度。在卷积神经网络中进行卷积计算处理后，得到文本置信度具体工作原理为现有技术，这里不做过多解释。

步骤140，将声音置信度、语言置信度以及文本置信度进行融合处理，获取目标请求置信度。

具体的，将声音置信度、语言置信度以及文本置信度拼接成一个一维向量后输入至逻辑回归模型中，得到目标请求置信度。

具体公式为：

其中，x为由声音置信度、语言置信度以及文本置信度拼接成的一维向量，f(x)为目标请求置信度，f(x)为0到1之间的数值。

步骤150，根据目标请求置信度，确定声音信号是否为用户目标请求。

具体的，将目标请求置信度和预设置信度阈值进行比较，若目标请求置信度大于或者等于预设置信度阈值时，确定声音信号为用户目标请求；否则，确定声音信号为非用户目标请求。其中，预设置信度阈值由工作人员根据经验设置。

服务器判定声音信号确实为用户目标请求的话，则根据目标请求执行相应的操作。否则反馈智能语音交互设备一个空的响应，或者不做任何处理。

本发明实施例提供的一种识别用户目标请求的方法，当接收到智能语音设备传输的声音信号后，服务器并非像传统技术那样执行语音识别后直接匹配唤醒词。一旦匹配到唤醒词就将声音信号作为目标请求，执行与之对应的操作，并将操作结果反馈至智能语音交互设备。而是对声音信号进行一系列的处理，包括利用声音分类器对声音信号进行处理获取声音置信度，用以判定声音信号是否属于人类发出的声音，或者是外界环境中的声音。利用解码器语言模型对声音信号进行处理，获取语音置信度，用以确定即使是人类发出的声音，那么是否是系统可以识别的语言。防止并非是预设定的语言，造成文本匹配时出现识别错误而导致的误唤醒情况。通过语音识别处理模型对声音信号进行处理后，再经过文本分类器进行分类处理获取文本置信度，进一步确定文本内容的准确性。

与上述实施例1对应的，本发明实施例2还提供了一种识别用户目标请求的装置，具体如图3所示，该装置包括：接收单元301、处理单元302以及判定单元303。

接收单元301，用于接收智能语音交互设备传输的声音信号；

处理单元302，用于将声音信号分别输入至预建立的声音分类器、语音识别处理模型以及解码器语言模型中，获取经过声音分类器对声音信号进行处理后生成的声音置信度；获取经过解码器语言模型对声音信号进行处理后生成的语言置信度；以及获取语音识别处理模型对声音信号进行处理后生成的文本信息；

判定单元303，用于根据目标请求置信度，确定声音信号是否为用户目标请求。

可选的，声音分类器对声音信号进行处理，具体包括：

可选的，解码器语言模型对声音信号进行处理，具体包括：

可选的，文本分类器对文本信息进行分类，具体包括：

将文本信息进行分词处理，获取至少两个文本分词；

将至少两个文本分词转换为词向量后，作为卷积神经网络算法的输入，经过神经网络算法的处理后，获取文本置信度。

可选的，处理单元302具体用于：将声音置信度、语言置信度以及文本置信度构成一维向量后输入至逻辑回归模型，获取目标请求置信度。

可选的，判定单元303具体用于：将目标请求置信度与预设置信度阈值进行比较；

本发明实施例提供的一种识别用户目标请求的装置中各部件所执行的功能均已在上述实施例一种识别用户目标请求的方法中做了详细介绍，因此这里不做过多赘述。

本发明实施例提供的一种识别用户目标请求的装置，当接收到智能语音设备传输的声音信号后，服务器并非像传统技术那样执行语音识别后直接匹配唤醒词。一旦匹配到唤醒词就将声音信号作为目标请求，执行与之对应的操作，并将操作结果反馈至智能语音交互设备。而是对声音信号进行一系列的处理，包括利用声音分类器对声音信号进行处理获取声音置信度，用以判定声音信号是否属于人类发出的声音，或者是外界环境中的声音。利用解码器语言模型对声音信号进行处理，获取语音置信度，用以确定即使是人类发出的声音，那么是否是系统可以识别的语言。防止并非是预设定的语言，造成文本匹配时出现识别错误而导致的误唤醒情况。通过语音识别处理模型对声音信号进行处理后，再经过文本分类器进行分类处理获取文本置信度，进一步确定文本内容的准确性。

与上述实施例相对应的，本发明实施例4还提供了一种识别用户目标请求的系统，具体如图4所示，该系统包括：语音接收器401、处理器402以及存储器403。

语音接收器401，用于接收智能语音交互设备传输的声音信号；

存储器403，用于存储一个或多个程序指令；一个或多个程序指令被处理器402运行，用以执行如前述实施例所述的一种识别用户目标请求的方法中任一的方法步骤。

本发明实施例提供的一种识别用户目标请求的系统中各部件所执行的功能均已在上述实施例一种识别用户目标请求的方法中做了详细介绍，因此这里不做过多赘述。

本发明实施例提供的一种识别用户目标请求的系统，当接收到智能语音设备传输的声音信号后，服务器并非像传统技术那样执行语音识别后直接匹配唤醒词。一旦匹配到唤醒词就将声音信号作为目标请求，执行与之对应的操作，并将操作结果反馈至智能语音交互设备。而是对声音信号进行一系列的处理，包括利用声音分类器对声音信号进行处理获取声音置信度，用以判定声音信号是否属于人类发出的声音，或者是外界环境中的声音。利用解码器语言模型对声音信号进行处理，获取语音置信度，用以确定即使是人类发出的声音，那么是否是系统可以识别的语言。防止并非是预设定的语言，造成文本匹配时出现识别错误而导致的误唤醒情况。通过语音识别处理模型对声音信号进行处理后，再经过文本分类器进行分类处理获取文本置信度，进一步确定文本内容的准确性。

与上述实施例相对应的，本发明实施例还提供了一种计算机存储介质，该计算机存储介质中包含一个或多个程序指令。其中，一个或多个程序指令用于被一种识别用户目标请求的系统执行如上所介绍的一种识别用户目标请求的方法。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种识别用户目标请求的方法，其特征在于，所述方法包括：

接收智能语音交互设备传输的声音信号；

将所述声音信号分别输入至预建立的声音分类器、语音识别处理模型以及解码器语言模型中，获取经过所述声音分类器对所述声音信号进行处理后生成的声音置信度；获取经过所述解码器语言模型对所述声音信号进行处理后生成的语言置信度；以及获取语音识别处理模型对所述声音信号进行处理后生成的文本信息；

将所述文本信息输入至文本分类器模型中，获取经过所述文本分类器对所述文本信息进行分类后生成的文本置信度；

将所述声音置信度、语言置信度以及文本置信度进行融合处理，获取目标请求置信度；

根据所述目标请求置信度，确定所述声音信号是否为用户目标请求；

其中，所述解码器语言模型对所述声音信号进行处理，具体包括：在预建立的搜索空间中，通过维特比搜索方法获取与所述声音信号对应的最佳词串以及语言置信度，所述语言置信度为所述最佳词串中所有词汇的置信度乘积，所述搜索空间由声学模型、声学上下文、发音词典以及语言模型中的知识源构成。

2.根据权利要求1所述的方法，其特征在于，所述声音分类器对所述声音信号进行处理，具体包括：

利用LSTM循环神经网络对所述声音信号进行处理，获取预设数量的隐藏向量；

将所述预设数量的隐藏向量代入至sigmoid函数中，得到声音置信度，所述声音置信度大于或者等于0，且小于或者等于1。

3.根据权利要求1所述的方法，其特征在于，所述文本分类器对所述文本信息进行分类，具体包括：

将所述文本信息进行分词处理，获取至少两个文本分词；

将所述至少两个文本分词转换为词向量后，作为卷积神经网络算法的输入，经过所述卷积神经网络算法的处理后，获取文本置信度。

4.根据权利要求1所述的方法，其特征在于，所述将所述声音置信度、语言置信度以及文本置信度进行融合处理，获取目标请求置信度，具体包括：

将所述声音置信度、语言置信度以及文本置信度构成一维向量后输入至逻辑回归模型，获取目标请求置信度。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述根据所述目标请求置信度，确定所述声音信号是否为用户目标请求，具体包括：

将所述目标请求置信度与预设置信度阈值进行比较；

当所述目标请求置信度大于或者等于预设置信度阈值时，确定所述声音信号为用户目标请求；否则，确定所述声音信号为非用户目标请求。

6.一种识别用户目标请求的装置，其特征在于，所述装置包括：

接收单元，用于接收智能语音交互设备传输的声音信号；

处理单元，用于将所述声音信号分别输入至预建立的声音分类器、语音识别处理模型以及解码器语言模型中，获取经过所述声音分类器对所述声音信号进行处理后生成的声音置信度；获取经过所述解码器语言模型对所述声音信号进行处理后生成的语言置信度；以及获取语音识别处理模型对所述声音信号进行处理后生成的文本信息，其中，所述解码器语言模型对所述声音信号进行处理，具体包括：在预建立的搜索空间中，通过维特比搜索方法获取与所述声音信号对应的最佳词串以及语言置信度，所述语言置信度为所述最佳词串中所有词汇的置信度乘积，所述搜索空间由声学模型、声学上下文、发音词典以及语言模型中的知识源构成；

判定单元，用于根据所述目标请求置信度，确定所述声音信号是否为用户目标请求。

7.根据权利要求6所述的装置，其特征在于，所述判定单元具体用于：

8.一种识别用户目标请求的系统，其特征在于，所述系统包括：语音接收器、存储器以及处理器；

所述语音接收器，用于接收智能语音交互设备传输的声音信号；

所述存储器，用于存储一个或多个程序指令；所述一个或多个程序指令被所述处理器运行，用以执行如权利要求1-5任一项所述的方法。

9.一种计算机存储介质，其特征在于，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被一种识别用户目标请求的系统执行如权利要求1-5任一项所述的方法。