CN105308679A

CN105308679A - 用于识别与语音命令相关联的位置以控制家用电器的方法和系统

Info

Publication number: CN105308679A
Application number: CN201380076839.7A
Authority: CN
Inventors: 章志刚; 张岩峰; 许军
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2013-05-28
Filing date: 2013-05-28
Publication date: 2016-02-03
Also published as: EP3005346A4; EP3005346A1; KR20160014625A; JP2016524724A; WO2014190496A1; US20160125880A1

Abstract

本发明涉及一种用于在家庭环境中用语音命令来控制位于指定房间中的家用电器的方法。所述方法包括以下步骤：接收由用户进行的语音命令；记录所接收的语音命令；采样所记录的语音命令，以及从所记录的语音命令中提取特征；通过将语音命令的提取的特征与特征参考进行比较来确定房间标签，其中房间标签与特征参考相关联；将房间标签指定给语音命令；以及根据所述语音命令来控制位于指定房间中的家用电器。

Description

用于识别与语音命令相关联的位置以控制家用电器的方法和系统

技术领域

本发明涉及一种用于在家庭环境中识别与语音命令相关联的位置以控制家用电器的方法和系统。更具体地，本发明涉及一种用于使用机器学习方法来识别用户在何处发出语音命令并且然后对与用户在同一房间中的家用电器执行语音命令的动作的方法和系统。

背景技术

如今通过移动电话上的语音命令进行的个人助理应用越来越受欢迎。这种类型的应用使用自然语言处理来回答问题、提出建议、以及通过将请求委托给目的地电视机或STB(机顶盒)来对诸如电视机之类的家用电器执行动作。

然而，在具有一个以上电视机的典型家庭环境中，如果应用仅识别出用户向移动电话说出“打开电视”，那么在没有与说出语音命令的地点相关的适当位置信息的情况下决定应当打开哪个电视机是很含糊的。因此，基于用户命令的背景来确定将要控制哪个电视机的附加方法是必要的。

在本申请中提出的解决方案解决了在家庭环境中存在多个电视机时当前技术的通过语音命令进行的个人助理应用无法正确地识别需要控制哪个电视机的难题。

通过提出利用所记录的“打开电视”语音命令提取特征并且通过用分类方法分析该特征来识别说出“打开电视”的语音命令的地点的方法，所提出的方法能够找到与语音命令相关联的位置并且然后打开同一房间中的电视。

家用电器包括多个电视机、空调设备、照明设备等。

作为相关技术，US20100332668A1公开了一种用于检测电子装置之间的接近度的方法和系统。

发明内容

根据本发明的一方面，提供了一种用于在家庭环境中用语音命令来控制位于指定房间中的家用电器的方法，该方法包括以下步骤：接收由用户进行的语音命令；记录所接收的语音命令；采样所记录的语音命令，以及从所记录的语音命令中提取特征；通过将语音命令的提取的特征与特征参考进行比较来确定房间标签，其中房间标签与特征参考相关联；将房间标签指定给语音命令；以及根据所述语音命令来控制位于指定房间中的家用电器。

根据本发明的另一方面，提供了一种用于在家庭环境中用语音命令来控制位于指定房间中的家用电器的系统，该系统包括：接收器，用于接收由用户进行的语音命令；记录器，用于记录所接收的语音命令；以及控制器，其被配置为：采样所记录的语音命令，以及从所记录的语音命令中提取特征；通过将语音命令的提取的特征与特征参考进行比较来确定房间标签，其中房间标签与特征参考相关联；将房间标签指定给语音命令；以及根据语音命令来控制位于指定房间中的家用电器。

附图说明

根据结合附图的以下描述，本发明的这些和其它方面、特征和优点将变得显而易见，附图中：

图1示出了根据本发明的实施例的在家庭环境中的不同房间中存在一个以上电视机的示例性情况；

图2示出了说明根据本发明的实施例的分类方法的示例性流程图；以及

图3示出了说明根据本发明的实施例的系统的示例性框图。

具体实施方式

在以下描述中，将描述本发明的实施例的各个方面。为了解释的目的，阐述了具体配置和细节，以便提供彻底的理解。然而，对于本领域技术人员而言还将显而易见的是，可以在没有在此呈现的具体细节的情况下实现本发明。

图1示出了在家庭环境101中的不同房间103、105、107、109中存在一个以上电视机111、113、115、117的情况。在家庭环境101下，如果用户119向移动电话121仅指示“打开电视”，则移动电话上基于语音命令系统的个人助理应用不可能确定需要控制哪个电视机。

为了解决该问题，本发明在用户指示“打开电视”的语音命令时考虑周边声学(surroundingacoustic)，并且将语音命令与诸如语音特征和命令时间之类的其周边之间的现有相关性应用到语音命令理解中，以便用机器学习方法识别指示语音命令的地点并且然后打开同一房间中的电视。

在本发明中，个人助理应用包括语音分类系统，该语音分类系统结合了三个处理阶段：1.语音记录，2.特征提取和3.分类。已经使用了包括诸如过零率(zero-crossingrate)、信号带宽、频谱质心和信号能量之类的低级别参数的各种信号特征。从自动语音识别器继承的另一组所使用的特征是规定的梅尔倒频谱系数(MFCC：mel-frequencycepstralcoefficients)。这意味着语音分类模块将结合具有节奏和音高内容的表示的标准特征。

1.语音记录

每次用户指示“打开电视”的语音命令时，个人助理应用记录该语音命令，并且然后向特征分析模块提供所记录的音频以便进一步处理。

2.特征分析

为了得到高精度的位置分类，根据本发明的系统以8KHz采样率来采样所记录的音频，并且然后例如按一秒钟窗将它划分成段。然后，在该系统的算法中将该一秒钟音频段看作基本分类单元，并且将该一秒钟音频段进一步分割成四十个25ms不重叠的帧。基于一秒钟音频段中的这四十个帧来提取每个特征。然后，系统选择能够识别由不同房间中的不同环境对所记录的音频所产生的效果的好特征。

将要提取和分析的若干基本特征包括：音频平均值，其衡量音频段矢量的平均值；音频传播，其衡量所记录的音频段频谱的传播；过零率比例，其对音频段波形的符号改变的次数进行计数；短时能量比例，其通过使用均方根的计算来描述音频段的短时能量。此外，提出为所记录的语音命令也选择两个更高级的特征：MFCC和混响效果系数。

MFCC(梅尔倒频谱系数)用极少的系数来表示频谱的形状。倒频谱被定义为频谱的对数的傅立叶变换。梅尔倒频谱是在梅尔频带上计算的频谱，而不是傅立叶频谱。可以根据以下步骤来计算MFCC：

1.对音频信号进行傅里叶变换；

2.将上面所获得的频谱的功率映射到梅尔刻度(scale)上；

3.在每个梅尔频率处求功率的对数；

4.对一列梅尔对数功率进行离散余弦变换；

5.将所得到的频谱的幅度作为MFCC。

同时，不同房间对所记录的语音命令产生不同的混响效果。取决于在具有不同大小和环境设置的不同房间中每个新音节有多远才被浸没(submerge)到混响噪声中，所记录的音频具有变化的听觉感知。提出根据以下步骤从音频记录中提取混响特征：

1.执行短时傅立叶变换以将音频信号变换成2D时频表示，在该2D时频表示中混响特征在时间维度上显现为频谱特征的模糊；

2.通过将表示2D时频性质的图像变换到可以执行有效边缘检测和表征的小波域来定量地估计混响的量；

3.以这种方式提取所得到的混响时间的定量估计与物理测量强相关，并且被看作混响效果系数。

此外，还可以考虑与所记录的语音命令相关联的其它非语音特征。当存在用户趋向于在不同日子的同一时间在特定房间中观看电视的模式时，所述其它非语音特征例如包括记录语音命令时的时间。

3.分类

得到在上述步骤中提取的特征之后，提出使用多类分类器来识别在哪个房间中记录了音频剪辑。这意味着，当用户向移动电话说出“打开电视”的语音命令时，移动电话上的个人助理软件可以通过分析与所记录的音频相关的特征来成功地识别出在哪个房间(例如，房间1、房间2或房间3)给出语音命令，并且然后打开相关联的房间中的电视。

提出使用k最近邻方案作为本发明中的学习算法。形式上，在给定一组输入特征X的情况下，系统需要预测输出变量Y。在我们的设定中，如果记录的语音命令与房间1相关联，则Y是1，如果记录的语音命令与房间2相关联，则Y是2，等等，而X是从记录的语音命令中提取的特征值的矢量。

用于参考的训练样本是多维特征空间中的语音特征矢量，每个用于参考的训练样本具有房间1、房间2和房间3的类标签。处理的训练阶段仅由存储特征矢量以及用于参考的训练样本的类标签组成。将训练样本用作参考以便对输入的语音命令进行分类。训练阶段可以被设定为预定时段。或者，可以在训练阶段之后累积参考。在参考表中，特征与房间标签相关。

在分类阶段，通过将在k最近邻训练参考之中最频繁的房间标签指定给所记录的语音命令的特征来对记录的语音命令进行分类。因此，可以从分类结果中得到在其中记录音频流的房间。然后，可以通过移动电话上的嵌入式红外通信器件来打开对应房间中的电视。

此外，还可以在本发明所公开的思想中采用包括决策树和概率图形模型的其它分类策略。

在图2中示出了说明整个语音命令记录、特征提取和分类过程的图。

图2示出了说明根据本发明的实施例的分类方法的示例性流程图201。

首先，用户在诸如移动电话的移动装置上指示诸如“打开电视”的语音命令。

在步骤205，系统记录该语音命令。

在步骤207，系统对所记录的语音命令进行采样和特征提取。

在步骤209，系统基于语音特征矢量以及诸如记录时间之类的其它特征来根据L最近邻类算法将房间标签指定给该语音命令。包含特征和相关房间标签的参考表被用于此例程。

在步骤211，系统控制与该语音命令的房间标签对应的房间中的电视。

图3示出了根据本发明的实施例的系统301的示例性框图。系统301可以是移动电话、计算机系统、平板、便携式游戏机、智能电话等。系统301包括CPU(中央处理单元)303、麦克风309、存储装置305、显示器311和红外通信器件313。如图3所示，可以将诸如RAM(随机存取存储器)之类的存储器307连接到CPU303。

存储装置305被配置为存储软件程序和数据，以便CPU303来驱动和操作如上面所解释的过程。

麦克风309被配置为检测用户的命令语音。

显示器311被配置为向系统301的用户可视地呈现文本、图像、视频和其它任何内容。

红外通信器件313被配置为基于语音命令的房间标签将命令发送到任何家用电器。可以用其它通信器件来代替红外通信器件。可替换地，通信器件可以将命令发送到控制所有家用电器的中央系统。

系统可以指示任何家用电器，诸如电视机、空调设备、照明设备，等等。

基于本文的教导，相关领域的普通技术人员可以很容易地确定本原理的这些和其它特征和优点。应当理解的是，可以以各种形式的硬件、软件、固件、专用处理器或其组合来实现本原理的教导。

最优选地，可以将本原理的教导实现为硬件和软件的组合。而且，可以将软件实现为在程序存储单元上有形地体现的应用程序。可以将应用程序上载到包括任何适当架构的机器，并且由所述机器执行应用程序。优选地，在具有诸如一个或多个中央处理单元(“CPU”)、随机存取存储器(“RAM”)和输入/输出(“I/O”)接口之类的硬件的计算机平台上实现所述机器。计算机平台还可以包括操作系统和微指令代码。在此所描述的各种过程和功能可以是可以由CPU执行的微指令代码的一部分或应用程序的一部分或其任何组合。此外，可以将诸如附加数据存储单元之类的各种其它外围单元连接到计算机平台。

应当进一步理解的是，由于优选地以软件实现附图中所描述的一些组成系统组件和方法，因此取决于编程本原理的方式，系统组件或过程功能块之间的实际连接可能会不同。在此给出了教导，相关领域的普通技术人员将能够设想本原理的这些和类似的实现或配置。

虽然在此已经参考附图描述了说明性实施例，但应当理解的是，本原理不限制于这些精确的实施例，并且可以由相关领域的普通技术人员在不脱离本原理的范围和精神的情况下在其中进行各种改变和修改。意图将所有这些改变和修改包括在如在所附权利要求中所阐述的本原理的范围内。

Claims

1.一种用于在家庭环境中用语音命令来控制位于指定房间中的家用电器的方法，所述方法包括以下步骤：

接收由用户进行的语音命令；

记录所接收的语音命令；

采样所记录的语音命令，以及从所记录的语音命令中提取特征；

通过将语音命令的提取的特征与特征参考进行比较来确定房间标签，其中所述房间标签与所述特征参考相关联；

将所述房间标签指定给所述语音命令；以及

根据所述语音命令来控制位于指定房间中的家用电器。

2.如权利要求1所述的方法，基于K最近邻算法来执行确定房间标签的步骤。

3.如权利要求1或2所述的方法，其中，所述特征包括语音特征和非语音特征。

4.如权利要求3所述的方法，其中，语音特征是MFCC(梅尔倒频谱系数)和混响效果系数，并且非语音特征是记录所述语音命令时的时间。

5.一种用于在家庭环境中用语音命令来控制位于指定房间中的家用电器的系统，所述系统包括：

接收器，用于接收由用户进行的语音命令；

记录器，用于记录所接收的语音命令；以及

控制器，其被配置为：

将所述房间标签指定给所述语音命令；以及

根据所述语音命令来控制位于指定房间中的家用电器。

6.如权利要求5所述的系统，其中，所述控制器基于K最近邻算法来确定所述房间标签。

7.如权利要求5或6所述的系统，其中，所述特征包括语音特征和非语音特征。

8.如权利要求7所述的系统，其中，语音特征是MFCC(梅尔倒频谱系数)和混响效果系数，并且非语音特征是记录所述语音命令时的时间。