CN110277091A

CN110277091A - 智能家具的语音识别方法及相关产品

Info

Publication number: CN110277091A
Application number: CN201910373219.9A
Authority: CN
Inventors: 周小莲; 唐文姬; 陈景
Original assignee: Emomo Technology Co Ltd
Current assignee: Emomo Technology Co Ltd
Priority date: 2019-05-06
Filing date: 2019-05-06
Publication date: 2019-09-24
Anticipated expiration: 2039-05-06
Also published as: CN110277091B

Abstract

本申请提供了一种智能家具的语音识别方法及相关产品，所述方法包括如下步骤：智能家具采集第一图片和第一语音；智能家具对第一图片进行人脸识别确定第一图片的第一身份，提取第一身份的历史语音隐层结果；智能家具将该第一语音输入到循环神经网络计算得到该第一语音的含义，所述循环神经网络的第一个隐层的输入为历史语音隐层结果。本申请提供的技术方案具有识别精度高的优点。

Description

智能家具的语音识别方法及相关产品

技术领域

本申请涉及人工智能领域，具体涉及一种智能家具的语音识别方法及相关产品。

背景技术

现有技术中，人工智能已经应用到很多领域，例如语音识别等等。人工智能中神经网络目前的潜力最大，大部分的研究人员均将研发的反向投入到该领域。

对于神经网络中，现有的人工智能在进行语音识别时无法考虑历史的识别参数，这样影响识别的准确性，由于在智能家具领域，影响用户体验度。

申请内容

本申请实施例提供了一种智能家具的语音识别方法及相关产品，提高了识别的准确性，提高了用户体验度。

第一方面，本申请实施例提供一种智能家具的语音识别方法，所述方法包括如下步骤：

智能家具采集第一图片和第一语音；

智能家具对第一图片进行人脸识别确定第一图片的第一身份，提取第一身份的历史语音隐层结果；

智能家具将该第一语音输入到循环神经网络计算得到该第一语音的含义，所述循环神经网络的第一个隐层的输入为历史语音隐层结果

第二方面，提供一种智能家具，所述智能家具包括：处理器、存储器、麦克风、摄像头；

所述摄像头，用于采集第一图片，

所述麦克风，用于采集第一语音；

所述处理器，用于对第一图片进行人脸识别确定第一图片的第一身份，提取第一身份的历史语音隐层结果；将该第一语音输入到循环神经网络计算得到该第一语音的含义，所述循环神经网络的第一个隐层的输入为历史语音隐层结果。

第三方面，提供一种计算机可读存储介质，其存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行第一方面提供的所述的方法。

第四方面，提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行第一方面提供的方法。

实施本申请实施例，具有如下有益效果：

可以看出，本申请提供的技术方案确定第一图片以及第一语音之后，首先通过对第一图片的人脸识别确定第一图片的第一身份，然后提取第一身份的历史语音隐层结果，然后依据历史语音隐层结果以及第一语音输入到循环神经网络计算得到第一语音的含义，此方法充分考虑了历史语音的识别结果，这样使得循环神经网络在第一隐层计算时即能够得到比较准确的历史数据，因此其具有语音识别准确度高的优点。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种智能家具的结构示意图。

图2是本申请实施例公开的一种智能家具的语音识别方法的流程示意图。

图3是本申请循环神经网络的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

参阅图1，图1为一种智能家具的示意图，如图1所示，该智能家具可以为智能衣柜、智能沙发等等，图1以智能衣柜为例，该智能衣柜配置有智能设备，该智能设备可以包括：处理器、存储器、麦克风、摄像头10和显示屏等等。该处理器与智能衣柜的其他电气设备连接，其他电气设备可以对智能衣柜的状态进行改变。其他电气设备例如：紫外线灯、电机等等，本申请并不限制上述其他电气设备的具体表现形式。对于不同的智能家具，上述其他电气设备也可以不同，例如智能沙发，上述其他电气设备可以为音箱、电灯或按摩器等等设备。

参阅图2，图2提供了一种智能家具的语音识别方法，该方法由如图1所示的智能家具实现，该方法如图2所示，包括如下步骤：

步骤S201、智能家具采集第一图片和第一语音；

步骤S202、智能家具对第一图片进行人脸识别确定第一图片的第一身份，提取第一身份的历史语音隐层结果；

上述人脸识别的算法可以采用现有的人脸识别算法，例如百度人脸识别算法、华为人脸识别算法等等，类似手机的人脸识别算法的嵌入。

步骤S203、智能家具将该第一语音输入到循环神经网络计算得到该第一语音的含义，所述循环神经网络的第一个隐层的输入为历史语音隐层结果。

本申请提供的技术方案确定第一图片以及第一语音之后，首先通过对第一图片的人脸识别确定第一图片的第一身份，然后提取第一身份的历史语音隐层结果，然后依据历史语音隐层结果以及第一语音输入到循环神经网络计算得到第一语音的含义，此方法充分考虑了历史语音的识别结果，这样使得循环神经网络在第一隐层计算时即能够得到比较准确的历史数据，因此其具有语音识别准确度高的优点。得到语音含义以后，处理器可以生成与该语音含义匹配的控制命令来控制其他电气设备。

循环神经网络为语音翻译常用的神经网络模型，对于循环神经网络，其结构如图3所示，其包含输入层、隐层、输出层，其中隐层的输出结构作为下一时刻的隐层的一个输入数据。

如图3所示，例如t时刻隐层的输出结果为下一时刻t+1隐层的输出。

如图3所示，其中W表示权值，X_t-1表示t-1时刻的输入层的输入数据，X_t表示t时刻的输入层的输入数据，S_t-1表示t-1时刻的隐层的输出结果，O_t-1表示t-1时刻的输出层的输出结果；

以t时刻为例：

S_t＝X_t×W+S_t-1×W

O_t＝f(S_t)

其中f表示激活函数，该激活函数包括但不限于：sigmoid函数、tanh函数等等。

当然在实际应用中，还可以使用其他的激活函数。

对于t-1时刻，在现有的循环神经网络中，如t-1时刻是第1时刻，那么其对应的第一隐层S_t-1＝0，即没有对应的输出，此种情况会影响循环神经网络的计算精度。对于其他场景，由于其进行语言识别的人数太多，如果保留历史语音隐层结果，即历史循环神经网络的最后一个隐层的输出结果S_max’会非常多，并且由于使用频率也不多，因此保存也没有任何的意义，但是对于智能家具的使用者大部分情况为固定的人群(例如家庭成员)，其数量不多，并且对应的输出结果S_max’并不会太多，并且由于重复性强，因此记录历史语音隐层结果会具有一定的意义。

上述智能家具将该第一语音输入到循环神经网络计算得到该第一语音的含义具体可以包括：

获取循环神经网络输入层t时刻的输入数据X_t、权值W，如t＝0，获取最后一个隐层的输出结果S_max’，依据输出结果S_max’、输入数据X_t、权值W计算得到t时刻的输出结果O_t以及t＝0时刻的隐层输出结果S₀，将S₀作为t+1隐层的输入数据，依据S₀、输入数据X_t+1、权值W计算得到t+1时刻的输出结果O_t+1以及t+1时刻的隐层输出结果S_t+1；依次执行t+1时刻之后的运算直至得到循环神经网络的输出结果O_max以及S_max，依据输出结果O_max得到该第一语音的含义(确定含义的方式可以采用现有的循环神经网络的确定方式，例如谷歌的循环神经网络运算系统，本申请仅仅对循环神经网络的计算过程进行处理，对计算得到的结果如何得到语意并无改进)。

依据输出结果S_max’、输入数据X_t、权值W计算得到t时刻的输出结果O_t以及t＝0时刻的隐层输出结果S₀具体可以包括：

S₀＝X_t×W+S’_max×W

O_t＝f(S₀)

依次执行t+1时刻之后的运算直至得到循环神经网络的输出结果O_max以及S_max的实现方法可以参见t时刻到t+1时刻的执行方式，仅仅是输入数据以及隐层输出结果依据时刻进行变换。

例如，如计算的时刻为t+x，x为大于等于2的整数，则：

S_t+x＝X_t+x×W+S_t+x-1×W

O_t＝f(S_t+x)

可选的，依据输出结果S_max’、输入数据X_t、权值W计算得到t时刻的输出结果O_t以及t＝0时刻的隐层输出结果S₀具体可以包括：

S₀＝X_t×W+k*S’_max×W

O_t＝f(S₀)

上述k可以为调整系数，该k的取值为【0，1】；

上述k可以为用户自行设定，当然为了更好的实现隐层输出结果，上述k可以依据输入数据X_t与输出结果S_max’之间的比较结果来调整。

上述k的具体调整方式可以为：

获取输入数据X_t所有元素值的绝对值的平均值α，获取输出结果S_max’所有元素的绝对值，提取输出结果S_max’所有元素的绝对值中大于α的元素值的数量β，依据β所处的区间确定该k的取值。

根据不同的区间依据区间与k的取值列表来确定k的取值。

设定k的取值的策略的目的为，对于循环神经网络的运算，其主要的计算结果还是需要由输入数据来决定，对于历史数据，如果历史数据的对计算结果占用的比例过高，那么历史数据与权值计算以后必然对该输出结果产生影响，而对于计算结果影响比较大的为元素值的绝对值比较大的那部分元素值，因此如果S_max’较大的数量β越大，那么k的取值就需要越小，反之，如果S_max’较大的数量β越小，那么k的取值就需要越大。

本申请还提供一种智能家具，所述智能家具包括：处理器、存储器、麦克风、摄像头；

所述摄像头，用于采集第一图片，

所述麦克风，用于采集第一语音；

可选的，处理器，具体用于获取循环神经网络输入层t时刻的输入数据X_t、权值W，如t＝0，获取最后一个隐层的输出结果S_max’，依据输出结果S_max’、输入数据X_t、权值W计算得到t时刻的输出结果O_t以及t＝0时刻的隐层输出结果S₀，将S₀作为t+1隐层的输入数据，依据S₀、输入数据X_t+1、权值W计算得到t+1时刻的输出结果O_t+1以及t+1时刻的隐层输出结果S_t+1；依次执行t+1时刻之后的运算直至得到循环神经网络的输出结果O_max以及S_max，依据输出结果O_max得到该第一语音的含义。

上述具体的计算方法可以由处理器完成，该具体计算方法可以参见如图2所示的方法实施例的描述，这里不再赘述。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任何一种智能家具的语音识别方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种智能家具的语音识别方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种智能家具的语音识别方法，其特征在于，所述方法包括如下步骤：

智能家具采集第一图片和第一语音；

智能家具将该第一语音输入到循环神经网络计算得到该第一语音的含义，所述循环神经网络的第一个隐层的输入为历史语音隐层结果。

2.根据权利要求1所述的方法，其特征在于，所述智能家具将该第一语音输入到循环神经网络计算得到该第一语音的含义具体包括：

获取循环神经网络输入层t时刻的输入数据X_t、权值W，如t＝0，获取最后一个隐层的输出结果S_max’，依据输出结果S_max’、输入数据X_t、权值W计算得到t时刻的输出结果O_t以及t＝0时刻的隐层输出结果S₀，将S₀作为t+1隐层的输入数据，依据S₀、输入数据X_t+1、权值W计算得到t+1时刻的输出结果O_t+1以及t+1时刻的隐层输出结果S_t+1；依次执行t+1时刻之后的运算直至得到循环神经网络的输出结果O_max以及S_max，依据输出结果O_max得到该第一语音的含义。

3.根据权利要求2所述的方法，其特征在于，依据输出结果S_max’、输入数据X_t、权值W计算得到t时刻的输出结果O_t以及t＝0时刻的隐层输出结果S₀具体包括：

S₀＝X_t×W+S’_max×W

O_t＝f(S₀)

其中，f为激活函数。

4.根据权利要求1所述的方法，其特征在于，所述依据输出结果S_max’、输入数据X_t、权值W计算得到t时刻的输出结果O_t以及t＝0时刻的隐层输出结果S₀具体包括：

S₀＝X_t×W+k*S’_max×W

O_t＝f(S₀)

其中，f为激活函数，k为调整系数。

5.根据权利要求4所述的方法，其特征在于，所述k的调整方式具体包括：

6.一种智能家具，其特征在于，所述智能家具包括：处理器、存储器、麦克风、摄像头；

所述摄像头，用于采集第一图片，

所述麦克风，用于采集第一语音；

7.根据权利要求6所述的智能家具，其特征在于，

所述处理器，具体用于获取循环神经网络输入层t时刻的输入数据X_t、权值W，如t＝0，获取最后一个隐层的输出结果S_max’，依据输出结果S_max’、输入数据X_t、权值W计算得到t时刻的输出结果O_t以及t＝0时刻的隐层输出结果S₀，将S₀作为t+1隐层的输入数据，依据S₀、输入数据X_t+1、权值W计算得到t+1时刻的输出结果O_t+1以及t+1时刻的隐层输出结果S_t+1；依次执行t+1时刻之后的运算直至得到循环神经网络的输出结果O_max以及S_max，依据输出结果O_max得到该第一语音的含义。

8.根据权利要求7所述的智能家居，其特征在于，

所述处理器，具体用于依据下述公式计算得到t时刻的输出结果O_t以及隐层输出结果S₀；

S₀＝X_t×W+S’_max×W

O_t＝f(S₀)

其中，f为激活函数。

9.根据权利要求7所述的方法，其特征在于，

S₀＝X_t×W+k*S’_max×W

O_t＝f(S₀)

其中，f为激活函数，k为调整系数；所述k的调整方式具体包括：

10.一种计算机可读存储介质，其特征在于，其存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1-5任意一项所述的方法。