CN112489644A

CN112489644A - 用于电子设备的语音识别方法及装置

Info

Publication number: CN112489644A
Application number: CN202011215812.XA
Authority: CN
Inventors: 徐苏琴; 杨建军; 李斌
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2021-03-12
Anticipated expiration: 2040-11-04
Also published as: CN112489644B

Abstract

提供一种用于电子设备的语音识别方法及装置。该用于电子设备的语音识别方法包括：接收用户输入的语音信号并预测用户意图；计算预测出的用户意图和接收的语音信号之间的相似性；当相似性大于预设阈值时，根据预测出的用户意图控制电子设备执行操作，从而在不需要网络的情况下进行语音识别，并且提高了语音识别的速度以及准确率。

Description

用于电子设备的语音识别方法及装置

技术领域

本公开涉及语音识别技术领域。更具体地，本公开涉及一种用于电子设备的语音识别方法及装置。

背景技术

现有语音识别技术，先把语音上传到语音识别云中，识别之后再把结果反馈给智能设备，识别时间长，影响用户体验，并且需要连接网络。

发明内容

本公开的示例性实施例在于提供一种用于电子设备的语音识别方法及装置，以在不需要网络的情况下进行语音识别，并且提高语音识别的速度以及准确率。

根据本公开的示例性实施例，提供一种用于电子设备的语音识别方法，所述语音识别方法包括：接收用户输入的语音信号并预测用户意图；计算预测出的用户意图和接收的语音信号之间的相似性；并且当相似性大于预设阈值时，根据预测出的用户意图控制电子设备执行操作。

可选地，所述语音识别方法还可包括：当相似性小于预设阈值时，基于预测出的用户意图对接收的语音信号进行语音识别以得到语音识别结果，或者将预测出的用户意图和接收的语音信号输入到语音识别云，并从语音识别云接收语音识别结果；并且根据语音识别结果控制电子设备执行操作。

可选地，预测用户意图的步骤包括：通过意图预测模型基于电子设备的当前使用情况和用户习惯来预测用户意图，其中，意图预测模型是使用随机森林算法生成的，或者意图预测模型是使用随机森林算法对意图预测模型进行迁移学习得到的扩充后的意图预测模型。

可选地，计算预测出的用户意图和接收的语音信号之间的相似性的步骤可包括：通过伪双胞胎网络计算预测出的用户意图和接收的语音信号之间的相似性。

可选地，计算预测出的用户意图和接收的语音信号之间的相似性的步骤可包括：提取预测出的用户意图的第一特征向量，并且提取接收的语音信号的第二特征向量；计算第一特征向量和第二特征向量的差；并且基于第一特征向量和第二特征向量的差计算预测出的用户意图和接收的语音信号之间的相似性。

可选地，用户意图包括以下至少一项：用户期望打开的应用、用户期望执行的操作。

根据本公开的示例性实施例，提供一种用于电子设备的语音识别装置，包括：语音接收单元，被配置为接收用户输入的语音信号；意图预测单元，被配置为预测用户意图；相似性计算单元，被配置为计算预测出的用户意图和接收的语音信号之间的相似性；和操作执行单元，被配置为当相似性大于预设阈值时，根据预测出的用户意图控制电子设备执行操作。

可选地，所述语音识别装置还可包括辅助执行单元，被配置为：当相似性小于预设阈值时，基于预测出的用户意图对接收的语音信号进行语音识别以得到语音识别结果，或者将预测出的用户意图和接收的语音信号输入到语音识别云，并从语音识别云接收语音识别结果；并且根据语音识别结果控制电子设备执行操作。

可选地，意图预测单元可被配置为：通过意图预测模型基于电子设备的当前使用情况和用户习惯来预测用户意图，其中，意图预测模型是使用随机森林算法生成的，或者意图预测模型是使用随机森林算法对意图预测模型进行迁移学习得到的扩充后的意图预测模型。

可选地，相似性计算单元可被配置为：通过伪双胞胎网络计算预测出的用户意图和接收的语音信号之间的相似性。

可选地，相似性计算单元可被配置为：提取预测出的用户意图的第一特征向量，并且提取接收的语音信号的第二特征向量；计算第一特征向量和第二特征向量的差；并且基于第一特征向量和第二特征向量的差计算预测出的用户意图和接收的语音信号之间的相似性。

根据本公开的示例性实施例，提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被处理器执行时，实现根据本公开的示例性实施例的用于电子设备的语音识别方法。

根据本公开的示例性实施例，提供一种计算装置，包括：处理器；存储器，存储有计算机程序，当所述计算机程序被处理器执行时，实现根据本公开的示例性实施例的用于电子设备的语音识别方法。

根据本公开的示例性实施例的用于电子设备的语音识别方法及装置，通过接收用户输入的语音信号并预测用户意图，计算预测出的用户意图和接收的语音信号之间的相似性，并且当相似性大于预设阈值时，根据预测出的用户意图控制电子设备执行操作，从而在不需要网络的情况下进行语音识别，并且提高了语音识别的速度以及准确率。

将在接下来的描述中部分阐述本公开总体构思另外的方面和/或优点，还有一部分通过描述将是清楚的，或者可以经过本公开总体构思的实施而得知。

附图说明

通过下面结合示例性地示出实施例的附图进行的描述，本公开的示例性实施例的上述和其他目的和特点将会变得更加清楚，其中：

图1示出根据本公开的示例性实施例的用于电子设备的语音识别方法的流程图；

图2示出使用随机森林算法生成意图预测模型的示图；

图3示出使用随机森林算法对已有意图预测模型进行迁移学习的示图；

图4示出根据本公开的示例性实施例的用于电子设备的语音识别装置的框图；和

图5示出根据本公开的示例性实施例的计算装置的示意图。

具体实施方式

现将详细参照本公开的示例性实施例，所述实施例的示例在附图中示出，其中，相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例，以便解释本公开。

图1示出根据本公开的示例性实施例的用于电子设备的语音识别方法的流程图。图1中的语音识别方法可适用于可接收语音输入的电子设备，例如，但不限于，手机、计算机、学习机、游戏机、智能家居、物联网设备等。电子设备可通过例如语音助手来接收语音。

参照图1，在步骤S101，接收用户输入的语音信号并预测用户意图。

具体来说，可在检测到用户输入语音时，接收用户输入的语音信号并预测用户意图。如果用户通过例如语音助手输入语音，则说明用户需要通过语音输入控制信号来控制电子设备。此时，可接收用户输入的语音信号并预测用户意图，以通过预测得知用户期望做什么。还可在响应于检测到预设的需要预测用户意图的情况时，预测用户意图并接收用户输入的语音信号。预设的需要预测用户意图的情况可以是例如，但不限于，用户输入语音、用户进入某个具体应用、用户解锁屏幕、用户点击或者滑动按键。例如，如果预测到用户的意图是想打开音乐播放器，那么此时用户对语音助手输入的语音的意思就类似于打开音乐播放器。

在本公开的示例性实施例中，可首先接收用户输入的语音信号，然后预测用户意图；也可首先预测用户意图，然后接收用户输入的语音信号；也可在接收用户输入的语音信号的同时预测用户意图，本公开对此不进行限制。

在本公开的示例性实施例中，用户意图可包括但不限于以下至少一项：用户期望打开的应用、用户期望执行的操作。

在本公开的示例性实施例中，在预测用户意图时，可通过意图预测模型基于电子设备的当前使用情况和用户习惯来预测用户意图。这里，电子设备的当前使用情况可包括当前运行的应用、上一次打开的应用、电子设备的运行模式，用户习惯可包括用户在过去使用电子设备时在各种情况下将打开的应用或者执行的操作等。

在本公开的示例性实施例中，意图预测模型可以是使用随机森林算法生成的，或者意图预测模型可以是使用随机森林算法对意图预测模型进行迁移学习得到的扩充后的意图预测模型。这里，随机森林算法是利用多颗树对样本进行训练并预测的一种分类器。

具体来说，在使用电子设备进行语音识别之前，可首先检测电子设备是否存在意图预测模型，如果电子设备上没有意图预测模型，则使用随机森林算法生成意图预测模型，如果电子设备上已有意图预测模型，则使用随机森林算法对已有意图预测模型进行迁移学习，从而实现对已有意图预测模型的意图扩充。

例如，图2示出使用随机森林算法生成意图预测模型的示图。如图2所示，可基于训练样本集D和预设的特征使用随机森林算法去训练模型，预设的特征可以为：当天是周几、当前时间、当前位置、上一个被打开的应用等。可以用x_a＝{D₁,D₂,D₃,D₄}来表示特征向量。

例如，图3示出使用随机森林算法对已有意图预测模型进行迁移学习的示图。迁移学习就是对原始的训练数据进行有选择的使用，有的训练数据的权重大点，有的训练数据的权重小点。

当用户遇到相似的情况，但是场景不同时，例如，用智能手机Dex连接智能电视或者进入某个具体的应用程序，意图预测模型就不能很好的去预测用户意图。此时，可使用随机森林算法的迁移学习功能去扩展意图预测模型以增加一个设备场景的特征，之前那种情况就可以用“home”表示，用“Dex”连接之后，就是用“Dex”来表示，并且可用x_t＝{D₀，D₁,D₂,D₃,D₄}来标识特征向量。当用户进入某个具体应用时，也会预测意图序列。

例如，当用户用智能手机的Dex连接智能电视后，预设的特征可如表1所示：

表1

设备场景	当天是周几	当前时间	当前位置	上一个被打开的应用
					Dex	周二	20:00	新罗酒店	PPT

具体来说，当用户使用智能手机的Dex连接智能电视时，预测出的意图序列可以是：打开PPT，0.99；打开excel，0.90；打开word，0.80；打开游戏，0.60；打开图库，0.50。也就是说，用户使用智能手机的Dex连接智能电视之后，打开PPT的概率为0.99，打开excel的概率为0.90，打开word的概率为0.80，打开游戏的概率为0.60，打开图库的概率为0.50。

在步骤S102，计算预测出的用户意图和接收的语音信号之间的相似性。

在本公开的示例性实施例中，在计算预测出的用户意图和接收的语音信号之间的相似性时，可通过伪双胞胎网络计算预测出的用户意图和接收的语音信号之间的相似性。

在本公开的示例性实施例中，在计算预测出的用户意图和接收的语音信号之间的相似性时，可首先提取预测出的用户意图的第一特征向量，并且提取接收的语音信号的第二特征向量，然后计算第一特征向量和第二特征向量的差，并且基于第一特征向量和第二特征向量的差计算预测出的用户意图和接收的语音信号之间的相似性。

在步骤S103，当相似性大于预设阈值时，根据预测出的用户意图控制电子设备执行操作。

在本公开的示例性实施例中，当相似性小于预设阈值时，基于预测出的用户意图对接收的语音信号进行语音识别以得到语音识别结果，或者将预测出的用户意图和接收的语音信号输入到语音识别云，并从语音识别云接收语音识别结果，根据语音识别结果控制电子设备执行操作。

具体来说，如果相似性大于预设阈值(例如，0.7)，则说明预测出的用户意图和用户的语音信号基本一致，所以不需要将语音信号传递到云端进行语音识别，此时电子设备可仅根据预测出的用户意图进行相应的操作，从而在不需要网络或者网络通信的情况下实现语音识别，并且提高语音识别处理速度和正确率；如果相似性小于预设阈值(例如，0.7)，则说明预测出的用户意图和用户的语音信号差别大，所以需要将意图预测模型生成的用户意图(例如，意图序列)以及语音信号(或者语音信号)一起输入到语音识别云上，根据用户意图(例如，意图序列)来缩小语音识别过程中的模式匹配，缩短了语音识别的时间，从而提高语音识别处理速度和正确率。

在一个示例中，如果当用户正在开车时接收到电话，则预测出的意图序列可以是：发送消息(我正在开车，稍后联系)，0.99；挂断电话，0.80；接听电话，0.40；设置静音，0.15；等。也就是说，如果当用户正在开车时接收到电话，则发送消息(我正在开车，稍后联系)的概率为0.99，挂断电话的概率为0.80，接听电话的概率为0.40，设置为静音模式的概率为0.15。如果此时接收到用户输入的语音信号(发送消息“我正在开车，稍后联系”)，则将意图序列和语音信号输入到伪双胞胎网络以在意图序列中查找“发送消息”的可能性，由于“发送消息”的概率(可能性)是0.99，大于预设阈值T₁，也就是说，相似性大于预设阈值，因此智能手机将执行发送消息(我正在开车，稍后联系)的信号。此种情况下，智能手机可以在没有连接网络的情况下执行语音信号，并且提高了执行的速度。

在另一示例中，当用户第一次使用智能手机连接智能电视时，预测出的意图序列可以是：打开游戏，0.60；打开PPT，0.50；打开excel，0.45；打开word，0.45；打开图库，0.40；等。也就是说，用户使用智能手机的Dex连接智能电视之后，打开游戏的概率为0.60，打开PPT的概率为0.5，打开excel的概率为0.45，打开word的概率为0.45，打开图库的概率为0.40。如果此时接收到用户输入的语音信号(打开游戏)，则将意图序列和语音信号输入到伪双胞胎网络以在意图序列中查找“打开游戏”的可能性，由于意图预测“打开游戏”的概率(可能性)是0.60，小于预设阈值，也就是说，相似性小于预设阈值，因此，将意图序列和语音信号输入到语音识别云。这个意图序列会帮助语音识别云更快的获得语音识别结果，然后，将语音识别结果反馈给智能手机，以使得智能手机执行反馈指令。

此外，根据本公开的示例性实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被执行时，实现根据本公开的示例性实施例的用于电子设备的语音识别方法。

在本公开的示例性实施例中，所述计算机可读存储介质可承载有一个或者多个程序，当所述计算机程序被执行时可实现以下步骤：接收用户输入的语音信号并预测用户意图；计算预测出的用户意图和接收的语音信号之间的相似性；当相似性大于预设阈值时，根据预测出的用户意图控制电子设备执行操作。

计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中，计算机可读存储介质可以是任何包含或存储计算机程序的有形介质，该计算机程序可以被指令执行系统、装置或者器件使用或者与其结合使用。计算机可读存储介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。计算机可读存储介质可以包含在任意装置中；也可以单独存在，而未装配入该装置中。

以上已经结合图1至图3对根据本公开的示例性实施例的用于电子设备的语音识别方法进行了描述。在下文中，将参照图4对根据本公开的示例性实施例的用于电子设备的语音识别装置及其单元进行描述。

图4示出根据本公开的示例性实施例的用于电子设备的语音识别装置的框图。

参照图4，用于电子设备的语音识别装置包括语音接收单元41、意图预测单元42、相似性计算单元43和操作执行单元44。

语音接收单元41被配置为接收用户输入的语音信号。

意图预测单元42被配置为预测用户意图。

在本公开的示例性实施例中，意图预测单元42可被配置为：通过意图预测模型基于电子设备的当前使用情况和用户习惯来预测用户意图。这里，意图预测模型是使用随机森林算法生成的，或者意图预测模型是使用随机森林算法对意图预测模型进行迁移学习得到的扩充后的意图预测模型。

在本公开的示例性实施例中，用户意图包括以下至少一项：用户期望打开的应用、用户期望执行的操作。

相似性计算单元43被配置为计算预测出的用户意图和接收的语音信号之间的相似性。

在本公开的示例性实施例中，相似性计算单元43可被配置为：通过伪双胞胎网络计算预测出的用户意图和接收的语音信号之间的相似性。

在本公开的示例性实施例中，相似性计算单元43可被配置为：提取预测出的用户意图的第一特征向量，并且提取接收的语音信号的第二特征向量；计算第一特征向量和第二特征向量的差；并且基于第一特征向量和第二特征向量的差计算预测出的用户意图和接收的语音信号之间的相似性。

操作执行单元44被配置为当相似性大于预设阈值时，根据预测出的用户意图执行操作。

在本公开的示例性实施例中，所述装置还可包括辅助执行单元(未示出)，被配置为：当相似性小于预设阈值时，基于预测出的用户意图对接收的语音信号进行语音识别以得到语音识别结果，或者将预测出的用户意图和接收的语音信号输入到语音识别云，并从语音识别云接收语音识别结果；并且根据语音识别结果控制电子设备执行操作。

以上已经结合图4对根据本公开的示例性实施例的用于电子设备的语音识别装置进行了描述。接下来，结合图5对根据本公开的示例性实施例的计算装置进行描述。

图5示出根据本公开的示例性实施例的计算装置的示意图。

参照图5，根据本公开的示例性实施例的计算装置5，包括存储器51和处理器52，所述存储器51上存储有计算机程序，当所述计算机程序被处理器52执行时，实现根据本公开的示例性实施例的用于电子设备的语音识别方法。

在本公开的示例性实施例中，当所述计算机程序被处理器52执行时，可实现以下步骤：接收用户输入的语音信号并预测用户意图；计算预测出的用户意图和接收的语音信号之间的相似性；当相似性大于预设阈值时，根据预测出的用户意图控制电子设备执行操作。

本公开实施例中的计算装置可以包括但不限于诸如移动电话、笔记本电脑、PDA(个人数字助理)、PAD(平板电脑)、台式计算机、学习机、游戏机、智能家居、物联网设备等的装置。图5示出的计算装置仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

以上已参照图1至图5描述了根据本公开的示例性实施例的用于电子设备的语音识别方法及装置。然而，应该理解的是：图4中所示的用于电子设备的语音识别装置及其单元可分别被配置为执行特定功能的软件、硬件、固件或上述项的任意组合，图5中所示的计算装置并不限于包括以上示出的组件，而是可根据需要增加或删除一些组件，并且以上组件也可被组合。

尽管已经参照其示例性实施例具体显示和描述了本公开，但是本领域的技术人员应该理解，在不脱离权利要求所限定的本公开的精神和范围的情况下，可以对其进行形式和细节上的各种改变。

Claims

1.一种用于电子设备的语音识别方法，所述语音识别方法包括：

接收用户输入的语音信号并预测用户意图；

计算预测出的用户意图和接收的语音信号之间的相似性；并且

当相似性大于预设阈值时，根据预测出的用户意图控制电子设备执行操作。

2.根据权利要求1所述的语音识别方法，还包括：

当相似性小于预设阈值时，基于预测出的用户意图对接收的语音信号进行语音识别以得到语音识别结果，或者将预测出的用户意图和接收的语音信号输入到语音识别云，并从语音识别云接收语音识别结果；并且

根据语音识别结果控制电子设备执行操作。

3.根据权利要求1所述的语音识别方法，其中，预测用户意图的步骤包括：通过意图预测模型基于电子设备的当前使用情况和用户习惯来预测用户意图，

其中，意图预测模型是使用随机森林算法生成的，或者意图预测模型是使用随机森林算法对意图预测模型进行迁移学习得到的扩充后的意图预测模型。

4.根据权利要求3所述的语音识别方法，其中，计算预测出的用户意图和接收的语音信号之间的相似性的步骤包括：

通过伪双胞胎网络计算预测出的用户意图和接收的语音信号之间的相似性。

5.根据权利要求3所述的语音识别方法，其中，计算预测出的用户意图和接收的语音信号之间的相似性的步骤包括：

提取预测出的用户意图的第一特征向量，并且提取接收的语音信号的第二特征向量；

计算第一特征向量和第二特征向量的差；并且

基于第一特征向量和第二特征向量的差计算预测出的用户意图和接收的语音信号之间的相似性。

6.根据权利要求1-5中任一项所述的语音识别方法，其中，用户意图包括以下至少一项：用户期望打开的应用、用户期望执行的操作。

7.一种用于电子设备的语音识别装置，包括：

语音接收单元，被配置为接收用户输入的语音信号；

意图预测单元，被配置为预测用户意图；

相似性计算单元，被配置为计算预测出的用户意图和接收的语音信号之间的相似性；和

操作执行单元，被配置为当相似性大于预设阈值时，根据预测出的用户意图控制电子设备执行操作。

8.根据权利要求7所述的语音识别装置，还包括辅助执行单元，被配置为：

根据语音识别结果控制电子设备执行操作。

9.根据权利要求7所述的语音识别装置，其中，意图预测单元被配置为：通过意图预测模型基于电子设备的当前使用情况和用户习惯来预测用户意图，

10.根据权利要求9所述的语音识别装置，其中，相似性计算单元被配置为：

11.根据权利要求9所述的语音识别装置，其中，相似性计算单元被配置为：

计算第一特征向量和第二特征向量的差；并且

12.根据权利要求7-11中任一项所述的语音识别装置，其中，用户意图包括以下至少一项：用户期望打开的应用、用户期望执行的操作。

13.一种存储有计算机程序的计算机可读存储介质，其中，当所述计算机程序被处理器执行时，实现权利要求1至6中任一项所述的用于电子设备的语音识别方法。

14.一种计算装置，包括：

处理器；

存储器，存储有计算机程序，当所述计算机程序被处理器执行时，实现权利要求1至6中任一项所述的用于电子设备的语音识别方法。