CN104795067B

CN104795067B - 语音交互方法及装置

Info

Publication number: CN104795067B
Application number: CN201410026212.7A
Authority: CN
Inventors: 金洪波; 江焯林
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-01-20
Filing date: 2014-01-20
Publication date: 2019-08-06
Anticipated expiration: 2034-01-20
Also published as: US9583101B2; US20200058301A1; US20170263251A1; US20180247650A1; CN104795067A; US20150206533A1; CN110459214A; US11380316B2; US9990924B2; US10468025B2; CN110459214B

Abstract

本发明公开了一种语音交互方法及装置，属于语音处理技术领域。方法包括：获取用户的语音数据；对语音数据进行用户属性识别，得到第一用户属性识别结果；对语音数据进行内容识别，得到语音数据的内容识别结果；至少根据第一用户属性识别结果及内容识别结果执行相应操作，以响应语音数据。本发明在获取到语音数据后，分别对该语音数据进行用户属性识别及内容识别，得到第一用户属性识别结果及内容识别结果，且至少根据第一用户属性识别结果及内容识别结果执行相应操作，即便针对同一内容识别结果，由于不同用户的用户属性可能不同，所以执行的响应操作也可能不同，从而使得同一语音对应多种响应形式，丰富了语音响应方式，提高了语音响应的灵活性。

Description

语音交互方法及装置

技术领域

本发明涉及语音处理技术领域，特别涉及一种语音交互方法及装置。

背景技术

随着信息技术的不断发展，用户交互技术得到了广泛的应用。而语音交互作为继键盘交互、鼠标交互及触摸屏交互后的新一代用户交互模式，以其方便快捷的特点，逐渐被广大用户认可且有被大规模推广的潜在前景。比如，智能移动终端上与语音相关的应用越来越多，而智能电视厂商也通过引用语音交互技术替换掉传统的手持遥控器。

现有技术中语音交互基于语音识别技术，也即，语音交互系统在接收到一段语音后，首先对语音数据进行内容识别，得到内容识别结果，并根据该内容识别结果获知用户意图。之后，语音交互系统根据用户意图进行与该语音相对应的操作，或向终端用户返回与该语音相对应的信息。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

由于现有技术中当语音内容一致时，语音交互系统执行的操作或返回的结果均一致，所以对语音内容的响应形式较为单一，灵活性不高。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种语音交互方法及装置。所述技术方案如下：

第一方面，提供了一种语音交互方法，所述方法包括：

获取用户的语音数据；

对所述语音数据进行用户属性识别，得到第一用户属性识别结果；

对所述语音数据进行内容识别，得到所述语音数据的内容识别结果；

至少根据所述第一用户属性识别结果及所述内容识别结果执行相应操作，以响应所述语音数据。

在第一方面的第一种可能的实现方式中，所述方法还包括：

采集用户图像；

当检测所述用户图像中的人数为预设值时，执行所述对所述语音数据进行用户属性识别的步骤。

结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述当检测所述用户图像中的人数为预设值之后，所述方法还包括:

提取所述用户图像中的人脸数据；

对所述人脸数据进行人脸识别，得到第二用户属性识别结果。

结合第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，所述至少根据所述第一用户属性识别结果及所述内容识别结果执行相应操作，包括：

将所述第一用户属性识别结果及所述第二用户属性识别结果进行加权，得到最终用户属性识别结果；

根据所述最终用户属性识别结果及所述内容识别结果执行相应操作。

结合第一方面的第三种可能的实现方式，在第一方面的第四种可能的实现方式中，所述根据所述最终用户属性识别结果及所述内容识别结果执行相应操作，包括：

确定所述最终用户属性识别结果对应的词汇内容；

根据所述最终用户属性识别结果对应的词汇内容和所述内容识别结果执行相应操作。

结合第一方面的第四种可能的实现方式，在第一方面的第五种可能的实现方式中，所述确定所述最终用户属性识别结果对应的词汇内容之前，所述方法还包括：

预先设置用户属性，所述用户属性至少包括性别属性及年龄属性；

预先设置所述性别属性对应的多个词汇及所述年龄属性对应的多个词汇，并将所述对应关系进行存储；

所述确定所述最终用户属性识别结果对应的词汇内容，包括：

在预先设置的所述性别属性与词汇的对应关系及所述年龄属性与词汇的对应关系中，查询所述最终用户识别结果对应的词汇，并将查找到的词汇作为所述最终用户属性识别结果对应的词汇内容。

结合第一方面，在第一方面的第六种可能的实现方式中，所述对所述语音数据进行用户属性识别，得到所述语音数据的第一用户属性识别结果之前，所述方法还包括：

预先设置频谱特征与用户属性识别结果的对应关系，所述用户属性识别结果至少包括性别属性识别结果及年龄属性识别结果；

所述对所述语音数据进行用户属性识别，得到所述语音数据的第一用户属性识别结果包括：

对所述语音数据进行频域变换处理，得到所述语音数据的频谱特征；

在预先设置的各个频谱特征与用户属性识别结果的对应关系中，查询所述语音数据的频谱特征对应的用户属性识别结果，将查找到的用户属性识别结果作为所述语音数据的第一用户属性识别结果。

第二方面，提供了一种语音交互装置，所述装置包括：

获取模块，用于获取用户的语音数据；

用户属性识别模块，用于对所述语音数据进行用户属性识别，得到第一用户属性识别结果；

内容识别模块，用于对所述语音数据进行内容识别，得到所述语音数据的内容识别结果；

执行模块，用于至少根据所述第一用户属性识别结果及所述内容识别结果执行相应操作，以响应所述语音数据。

在第二方面的第一种可能的实现方式中，所述装置还包括：

采集模块，用于采集用户图像；

所述用户属性识别模块，用于当检测所述用户图像中的人数为预设值时，执行所述对所述语音数据进行用户属性识别的步骤。

结合第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述装置还包括:

提取模块，用于提取所述用户图像中的人脸数据；

人脸识别模块，用于对所述人脸数据进行人脸识别，得到第二用户属性识别结果。

结合第二方面的第二种可能的实现方式，在第二方面的第三种可能的实现方式中，所述执行模块，包括：

加权单元，用于将所述第一用户属性识别结果及所述第二用户属性识别结果进行加权，得到最终用户属性识别结果；

执行单元，用于根据所述最终用户属性识别结果及所述内容识别结果执行相应操作。

结合第二方面的第三种可能的实现方式，在第二方面的第四种可能的实现方式中，所述执行单元，包括：

确定子单元，用于确定所述最终用户属性识别结果对应的词汇内容；

执行子单元，用于根据所述最终用户属性识别结果对应的词汇内容和所述内容识别结果执行相应操作。

结合第二方面的第四种可能的实现方式，在第二方面的第五种可能的实现方式中，所述装置还包括：

用户属性设置模块，用于预先设置用户属性，所述用户属性至少包括性别属性及年龄属性；

词汇对应关系设置模块，用于预先设置所述性别属性对应的多个词汇及所述年龄属性对应的多个词汇，并将所述对应关系进行存储；

所述确定子单元，用于在预先设置的所述性别属性与词汇的对应关系及所述年龄属性与词汇的对应关系中，查询所述最终用户识别结果对应的词汇，并将查找到的词汇作为所述最终用户属性识别结果对应的词汇内容。

结合第二方面，在第二方面的第六种可能的实现方式中，所述装置还包括：

频谱特征设置模块，用于预先设置频谱特征与用户属性识别结果的对应关系，所述用户属性识别结果至少包括性别属性识别结果及年龄属性识别结果；

所述用户属性识别模块，用于对所述语音数据进行频域变换处理，得到所述语音数据的频谱特征；在预先设置的各个频谱特征与用户属性识别结果的对应关系中，查询所述语音数据的频谱特征对应的用户属性识别结果，将查找到的用户属性识别结果作为所述语音数据的第一用户属性识别结果。

本发明实施例提供的技术方案带来的有益效果是：

在获取到用户的语音数据后，分别对该语音数据进行用户属性识别及内容识别，得到语音数据的第一用户属性识别结果及内容识别结果，且至少根据第一用户属性识别结果及内容识别结果执行相应操作，由于对语音数据进行属性识别，所以即便针对同一内容识别结果，由于不同用户的用户属性可能不同，所以执行的响应操作或返回的结果也可能存在不同，从而使得同一语音对应多种响应形式，不但丰富了语音响应方式，提高了语音响应的灵活程度，而且语音响应结果更加满足用户需求。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种语音交互的方法流程图；

图2是本发明实施例二提供的一种语音交互系统的系统架构图；

图3是本发明实施例二提供的一种用户属性识别模块的内部结构示意图；

图4是本发明实施例二提供的一种语音交互的方法流程图；

图5是本发明实施例三提供的一种语音交互装置的结构示意图；

图6是本发明实施例四提供的一种语音交互设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

本发明实施例提供了一种语音交互方法，参见图1，本实施例提供的方法流程包括：

101、获取用户的语音数据。

102、对语音数据进行用户属性识别，得到第一用户属性识别结果。

103、对语音数据进行内容识别，得到语音数据的内容识别结果。

104、至少根据第一用户属性识别结果及内容识别结果执行相应操作，以响应语音数据。

本实施例提供的方法，在获取到用户的语音数据后，分别对该语音数据进行用户属性识别及内容识别，得到语音数据的第一用户属性识别结果及内容识别结果，且至少根据第一用户属性识别结果及内容识别结果执行相应操作，由于对语音数据进行属性识别，所以即便针对同一内容识别结果，由于不同用户的用户属性可能不同，所以执行的响应操作也可能不同，从而使得同一语音对应多种响应形式，不但丰富了语音响应方式，提高了语音响应的灵活程度，而且语音响应结果更加满足用户需求。

可选地，该方法还包括：

采集用户图像；

当检测用户图像中的人数为预设值时，执行对语音数据进行用户属性识别的步骤。

可选地，当检测用户图像中的人数为预设值之后，该方法还包括:

提取用户图像中的人脸数据；

对人脸数据进行人脸识别，得到第二用户属性识别结果。

可选地，至少根据第一用户属性识别结果及内容识别结果执行相应操作，包括：

将第一用户属性识别结果及第二用户属性识别结果进行加权，得到最终用户属性识别结果；

根据最终用户属性识别结果及内容识别结果执行相应操作。

可选地，根据最终用户属性识别结果及内容识别结果执行相应操作，包括：

确定最终用户属性识别结果对应的词汇内容；

根据最终用户属性识别结果对应的词汇内容和内容识别结果执行相应操作。

可选地，确定最终用户属性识别结果对应的词汇内容之前，该方法还包括：

预先设置用户属性，用户属性至少包括性别属性及年龄属性；

预先设置性别属性对应的多个词汇及年龄属性对应的多个词汇，并将对应关系进行存储；

确定最终用户属性识别结果对应的词汇内容，包括：

在预先设置的性别属性与词汇的对应关系及年龄属性与词汇的对应关系中，查询最终用户识别结果对应的词汇，并将查找到的词汇作为最终用户属性识别结果对应的词汇内容。

可选地，对语音数据进行用户属性识别，得到语音数据的第一用户属性识别结果之前，该方法还包括：

预先设置频谱特征与用户属性识别结果的对应关系，用户属性识别结果至少包括性别属性识别结果及年龄属性识别结果；

对语音数据进行用户属性识别，得到语音数据的第一用户属性识别结果包括：

对语音数据进行频域变换处理，得到语音数据的频谱特征；

在预先设置的各个频谱特征与用户属性识别结果的对应关系中，查询语音数据的频谱特征对应的用户属性识别结果，将查找到的用户属性识别结果作为语音数据的第一用户属性识别结果。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

实施例二

本发明实施例提供了一种语音交互方法，现结合上述实施例一及图2所示的语音交互系统对本发明实施例提供的语音交互方法进行详细地解释说明。在图2中，语音交互系统共分为五个部分，分别为图像检测模块、用户属性识别模块、人脸识别模块、语音内容识别模块及语音应用模块。其中，图像检测模块用于对采集到的用户图像中的人数进行检测；用户属性识别模块用于对用户语音进行用户属性识别；人脸识别模块用于当图像检测模块检测出用户图像中的人数为预设值时，对用户图像中的人脸数据进行识别；语音内容识别模块用于对语音数据进行内容识别；语音应用模块用于获取用户的语音数据，并根据用户属性识别模块输出的识别结果、人脸识别模块输出的识别结果及语音内容识别模块输出的识别结果执行相应操作。图3为用户属性识别模块的内部结构图。在图3中，用户属性识别模块一共包括4部分，分别为学习单元、用户属性模型、预测单元及用户属性规则库。其中，学习单元用于收集语音样本，在训练阶段根据收集的语音样本使用机器学习或统计学习的方法得到用户属性模型。用户属性模型既可是机器学习模型，也可是基于规则的统计模型；用户属性模型至少包括性别模型及年龄模型；性别模型中记录了语音数据的频谱特征与性别的对应关系；年龄模型中记录了语音数据的频谱特征与年龄的对应关系。预测单元用于在实际使用阶段根据用户属性模型对当前输入的语音数据进行识别，得到用户属性识别结果；用户属性规则库通过使用离线统计或使用主题模型建立，存储了用户属性与词汇的对应关系，用于输出用户属性识别结果对应词汇内容。

参见图4，本实施例提供的方法流程包括：

401、预先设置用户属性，用户属性至少包括性别属性及年龄属性。

其中，用户属性用来表征用户身份，除包括性别属性及年龄属性外，还可包括职业属性、种族属性等等，本实施例对用户属性包括的内容不进行具体限定。本实施例仅以用户属性包括性别属性及年龄属性为例进行举例说明。

402、预先设置性别属性对应的多个词汇及年龄属性对应的多个词汇，并将对应关系进行存储。

针对性别属性来说，由于受男女的喜好差异及生理差异等因素影响，男性、女性事物喜好的方向一般不同。比如对于观看体育类节目而言，女性可能更偏爱于体操、花样滑冰这样较文艺的体育节目；而男性可能更偏爱于篮球、足球这样较激烈的体育节目。所以在设置性别属性对应的多个词汇时，针对男性、女性分别进行设置。比如，针对女性而言，其对应的多个词汇可设置为化妆品、宝宝喂养、体操、低风险、时尚、烹饪等等；针对男性而言，其对应的多个词汇可设置为体育、手表、科技、足球、高风险、教育、健身等等。在设置好性别属性对应的多个词汇后，可将性别属性与词汇的对应关系存储在如图3所示的用户属性规则库中。

针对年龄属性来说，由于受年龄差异影响，青年人、成年人、老年人对事物喜好的方向一般不同。比如老年人可能更关注于养生、医疗、太极等等方面，而青年人及成年人可能更关注于时尚、旅游、美食等方面。所以在设置年龄属性对应的多个词汇时，针对不同年龄段分别进行设置。比如，针对老年人而言，其对应的多个词汇可设置为养老、休闲、健康、医疗、时事、太极拳、门球等等；针对成年人而言，其对应的多个词汇可设置为时尚、美食、游戏、冒险、工作、投资等等；针对青年人而言，其对应的多个词汇可设置为教育、学习、课外活动、假期、考试等等。在设置好年龄属性对应的多个词汇后，可将年龄属性与词汇的对应关系存储在如图3所示的用户属性规则库中。

403、预先设置频谱特征与用户属性识别结果的对应关系，用户属性识别结果至少包括性别属性识别结果及年龄属性识别结果。

在本实施例中，设置频谱特征与用户属性识别结果的过程，也即性别模型及年龄模型的建立过程。针对性别而言，男性的基音频率大都在100赫兹至200赫兹之间，而女性的基音频率大都在200赫兹至350赫兹之间，由于男性和女性的基因频率存在明显差异，所以可通过频谱特征中的基音频率来区分语音数据输入用户的性别。针对年龄而言，老年人说话的语速通常较青年人及成年人来说较慢，反应在频谱特征上，老年人的语音数据对应的波形较密。因此，根据频率波形的疏密程度可对语音数据的输入用户的年龄进行区分。

在本实施例中，建立性别模型及年龄模型时，可采取机器学习或统计学习的方式。也即，可预先采集大规模的语音样本。对每个语音样本进行频域变换后，分析各个语音样本的频谱特征，根据每个语音样本提供者的性别及年龄等属性信息对频率特征进行归纳总结，得到频谱特征与性别属性、频谱特征与年龄属性的对应关系。

此外，若用户属性中还包括职业属性及种族属性等其他属性，则均可通过上述建立性别模型及年龄模型的方式，对应建立职业模型及种族模型等其他模型。在对预先采集的大规模语音样本进行处理时，可同时分析各个语音样本的电信号波形及频谱特征，以根据电信号波形及频谱特征对每个语音样本提供者的职业及种族等属性信息进行归纳总结，从而得到职业模型及种族模型。

需要说明的是，在执行本实施例提供的方法时，上述步骤401至步骤403无需每次均执行。仅在初次执行本实施例提供的方式时执行即可。在通过上述步骤401至403建立用户属性模型及用户属性规则库后，便可通过下述步骤404至步骤408执行语音交互过程。

404、获取用户的语音数据，对语音数据进行内容识别，得到语音数据的内容识别结果。

在获取用户的语音数据时，可检测用户语音的起始端点和终止端点；获取起始端点和终止端点之间的语音数据，并将获取到的语音数据作为用户的语音数据。以检测到用户语音的起始端点为10:00:00，终止端点为10:00:05为例，则将10:00:00与10:00:05之间的时长为5秒的语音数据作为用户的语音数据。

此外，对用户的语音数据进行内容识别时，可采取下述方式：采用背景声学模型及前景声学模型对用户的语音数据进行识别。其中，背景声学模型采用基于LVCSR(LargeVocabulary Continuous Speech Recognition，大词汇量连续语音识别)的Mono-phone(单音素)技术、前景声学模型采用LVCSR的Tri-phone(三音素)技术通过解码网络在语音识别服务器上提前构建声学资源，该声学资源中包括各种声音特征矢量与其对应的命令字符的对应关系表。当对用户的语音数据进行识别时，先对用户的语音数据进行频谱变换，得到对应的声学特征矢量，并在提前构建的声学资源中查找该声学特征矢量对应的命令字符，而该命令字符即为得到的语音数据的内容识别结果。

当然，除上述对第一语音进行识别的方式外，还可以采用其他识别方式，本实施例对此不作具体限定。

405、采集用户图像，当检测用户图像中的人数为预设值时，对语音数据进行用户属性识别，得到第一用户属性识别结果。

其中，采集用户图像时，可仅通过终端摄像头采集一帧图像。在本实施例中，预设值的大小设置为1。也即，在进行基于用户图像的人数检测时，如果检测到人数大于1，则认为当前为公共场所，不进行语音数据的用户属性识别；比如，智能电视通过摄像头检测到当前为一家三口在观看电视，则此时不进行语音数据的用户属性识别；如果检测到人数为1(也可为0，光线较暗摄像头捕获不到图像)，则默认为私有场景，即用户单独在操作终端设备，比如用户操作智能移动终端的场景，此时进行语音数据的用户属性识别。

在对语音数据进行用户属性识别时，可采取如下识别方式：对语音数据进行频域变换处理，得到语音数据的频谱特征；在预先设置的各个频谱特征与用户属性识别结果的对应关系中，查询该语音数据的频谱特征对应的用户属性识别结果，将查找到的用户属性识别结果作为语音数据的第一用户属性识别结果。该第一用户属性识别结果中包括第一性别属性识别结果和第一年龄属性识别结果。比如，语音数据的频谱特征的基音频率为185赫兹，则由于该值位于男性的基因频率100赫兹至200赫兹范围内，所以该语音数据的输入用户为男性，即第一用户属性识别结果为男性；且若该语音数据的频谱波形的疏密程度与老年人的语音数据的频谱波形的疏密程度相对应，则得到的第一年龄识别结果为老年人。

当然，除上述对语音数据进行用户属性识别的方式外，还可采取其他识别方式，本实施例对此不作具体限定。

可选地，在执行本步骤时也可不采集用户图像及对用户图像中的人数进行检测，而直接对语音数据进行用户属性识别。也即，对语音数据进行用户属性识别的过程可不受用户图像中人数的限制。无论用户图像中的人数为多少个，均对语音数据进行用户属性识别。若不对用户图像进行采集，则在执行本实施例时可直接跳过下述步骤406及步骤407而直接执行下述步骤408。

406、提取用户图像中的人脸数据，对人脸数据进行人脸识别，得到第二用户属性识别结果。

在本实施例中，当用户图像中的人数为1时，为了使得图3中的语音应用模块获得更加精确的识别结果，以根据精确地识别结果执行相应操作，还将提取用户图像中的人脸数据，并对人脸数据进行人脸识别。在对人脸数据进行识别之前，也可采取机器学习或统计学习的方式。也即，可预先采集大规模的人脸样本。对每个人脸样本进行肌肤纹理、面型结构等人脸特征分析，根据每个人脸样本提供者的性别及年龄等属性信息对肌肤纹理、面型结构等人脸特征进行归纳总结，得到肌肤纹理、面型结构等人脸特征与性别属性的对应关系，肌肤纹理、面型结构等人脸特征与年龄属性的对应关系。从而在提取到人脸数据后，根据上述对应关系便可得到该人脸数据对应的第二性别属性识别结果及第二年龄属性识别结果。

407、将第一用户属性识别结果及第二用户属性识别结果进行加权，得到最终用户属性识别结果。

其中，在将第一用户属性识别结果及第二用户属性识别结果进行加权之前，还需设置第一用户属性识别结果对应的权重及第二用户属性识别结果对应的权重。在设置权重时，通常第一用户属性识别结果对应的权重大于及第二用户属性识别结果对应的权重，比如，第一用户属性识别结果对应的权重为0.6，第二用户属性识别结果对应的权重为0.4。当然，第一用户属性识别结果的权重也可小于第二用户属性识别结果的权重，本实施例对此不作具体限定，权重的设置可视具体情况而定，本实施例仅给出一种可能的设置方式。

由于第一用户属性识别结果中包括第一性别属性识别结果及第一年龄属性识别结果，第二用户属性识别结果中包括第二性别属性识别结果及第二年龄属性识别结果，所以在将第一用户属性识别结果及第二用户属性识别结果进行加权时，将第一性别属性识别结果及第二性别属性识别结果进行加权求和，得到最终性别属性识别结果；将第一年龄属性识别结果及第二年龄属性识别结果进行加权求和，得到最终年龄属性识别结果。而最终性别属性识别结果和最终年龄属性识别结果便构成最终用户属性识别结果。

408、根据最终用户属性识别结果及内容识别结果执行相应操作。

在本实施例中，根据最终用户属性识别结果及内容识别结果执行相应操作，可通过以下方式实现：确定最终用户属性识别结果对应的词汇内容；根据最终用户属性识别结果对应的词汇内容和内容识别结果执行相应操作。

为了能够使得图3中的语音应用模块精准地执行与用户意图相匹配的操作，图3中的用户属性识别模块还将确定最终用户属性识别结果对应的词汇内容，并将词汇内容直接传输给语音应用模块，而语音应用模块将直接根据最终用户属性识别结果对应的词汇内容和内容识别结果执行相应操作。其中，确定最终用户属性识别结果对应的词汇内容，具体可通过以下方式实现：在预先设置的性别属性与词汇的对应关系及年龄属性与词汇的对应关系中，查询最终用户识别结果对应的词汇，并将查找到的词汇作为最终用户属性识别结果对应的词汇内容。

下面通过几个具体的例子对根据最终用户属性识别结果对应的词汇内容和内容识别结果执行相应操作进行具体地解释说明。

针对智能电视机而言，若用户输入的语音数据为“我想看体育节目”，则若用户属性识别模块确定当前语音对应的最终用户属性识别结果为老年女性，则将根据用户属性规则库确定老年女性对应的词汇内容，由步骤402可知老年女性对应的词汇内容可为烹饪、养老、休闲、健康、医疗、时事、太极拳、门球等等，则语音应用模块在综合上述词汇内容及语音内容识别结果“我想看体育节目”后，将当前播放频道切换至正在播放太极拳或门球等适合老年人观看的节目频道。

针对智能移动终端而言，若用户输入的语音数据为“推荐一些宝宝相关的书籍”，则若用户属性识别模块确定当前语音对应的最终用户属性识别结果为成年女性，则将根据用户属性规则库确定成年女性对应的词汇内容，由步骤402可知成年女性对应的词汇内容可为化妆品、宝宝喂养、体操、低风险、时尚、烹饪、美食等等，则语音应用模块在综合上述词汇内容及语音内容识别结果“推荐一些宝宝相关的书籍”后，将搜索一些有关宝宝抚育喂养的书籍，并将得到的搜索结果反馈至智能移动终端的显示界面，以供终端用户进行参考。

可选地，如果用户属性中还可包含职业属性等其他属性，则若用户输入的语音数据为“推荐一些理财产品”，则当用户属性识别模块确定最终用户属性识别结果为白领IT男性时，语音应用模块便会搜索一些较高风险的银行理财产品，并将得到搜索结果推荐给用户；若当用户属性识别模块确定最终用户属性识别结果为家庭主妇时，则搜索一些风险相对较低保本型的理财产品，并将搜索结果推荐给用户。

此外，若检测出用户图像中存在的人数大于1时，可跳过步骤405至步骤407，而直接执行步骤408。此时，最终用户属性识别结果为空，语音应用模块仅根据语音数据的内容识别结果执行相应操作。也就是说，当检测出用户图像中存在的人数大于1时，用户属性识别模块及人脸识别模块不做识别处理。

需要说明的是，在执行本实施例提供的方法时，上述步骤401至步骤408中语音应用模块在获取到用户的语音数据后，直接对语音数据进行透传处理，没有作任何预处理，由语音识别模块及用户属性识别模块对该语音数据进行预处理。可选地，在语音应用模块获取到用户的语音数据后，还可由语音应用模块对该语音数据进行预处理，并将进行预处理后的语音数据发送给语音内容识别模块及用户属性识别模块。具体采用何种语音数据处理方式，本实施例对此不作具体限定。

本实施例提供的方法，在获取到用户的语音数据后，分别对该语音数据进行用户属性识别及内容识别，得到语音数据的第一用户属性识别结果及内容识别结果，且至少根据第一用户属性识别结果及内容识别结果执行相应操作，由于对语音数据进行属性识别，所以即便针对同一内容识别结果，由于不同用户的用户属性可能不同，所以执行的响应操作或返回的结果也可能存在不同。比如，若男性用户和女性用户输入的语音数据均为“我想看体育节目”，采用本实施例提供的方法，对于女性用户而言，可能会切换到正在播放花样滑冰或体操等适合女性用户观看的频道；对于男性用户而言，可能会切换到正在播放足球或篮球等适合男性用户观看的频道。从而使得同一语音对应多种响应形式，不但丰富了语音响应方式，提高了语音响应的灵活程度，而且语音响应结果更加满足用户需求。

实施例三

本发明实施例提供了一种语音交互装置，用户执行上述实施例一或实施例二所示的方法。参见图5，该装置包括：获取模块501、用户属性识别模块502、内容识别模块503、执行模块504。

其中，获取模块501，用于获取用户的语音数据；用户属性识别模块502与获取模块501连接，用于对语音数据进行用户属性识别，得到第一用户属性识别结果；内容识别模块503与用户属性识别模块502连接，用于对语音数据进行内容识别，得到语音数据的内容识别结果；执行模块504与内容识别模块503连接，用于至少根据第一用户属性识别结果及内容识别结果执行相应操作，以响应语音数据。

可选地，该装置还包括：

采集模块，用于采集用户图像；

用户属性识别模块，用于当检测用户图像中的人数为预设值时，执行对语音数据进行用户属性识别的步骤。

可选地，该装置还包括:

提取模块，用于提取用户图像中的人脸数据；

人脸识别模块，用于对人脸数据进行人脸识别，得到第二用户属性识别结果。

可选地，执行模块，包括：

加权单元，用于将第一用户属性识别结果及第二用户属性识别结果进行加权，得到最终用户属性识别结果；

执行单元，用于根据最终用户属性识别结果及内容识别结果执行相应操作。

可选地，执行单元，包括：

确定子单元，用于确定最终用户属性识别结果对应的词汇内容；

执行子单元，用于根据最终用户属性识别结果对应的词汇内容和内容识别结果执行相应操作。

可选地，该装置还包括：

用户属性设置模块，用于预先设置用户属性，用户属性至少包括性别属性及年龄属性；

词汇对应关系设置模块，用于预先设置性别属性对应的多个词汇及年龄属性对应的多个词汇，并将对应关系进行存储；

确定子单元，用于在预先设置的性别属性与词汇的对应关系及年龄属性与词汇的对应关系中，查询最终用户识别结果对应的词汇，并将查找到的词汇作为最终用户属性识别结果对应的词汇内容。

可选地，该装置还包括：

频谱特征设置模块，用于预先设置频谱特征与用户属性识别结果的对应关系，用户属性识别结果至少包括性别属性识别结果及年龄属性识别结果；

用户属性识别模块，用于对语音数据进行频域变换处理，得到语音数据的频谱特征；在预先设置的各个频谱特征与用户属性识别结果的对应关系中，查询语音数据的频谱特征对应的用户属性识别结果，将查找到的用户属性识别结果作为语音数据的第一用户属性识别结果。

综上所述，本发明实施例提供的装置，在获取到用户的语音数据后，分别对该语音数据进行用户属性识别及内容识别，得到语音数据的第一用户属性识别结果及内容识别结果，且至少根据第一用户属性识别结果及内容识别结果执行相应操作，由于对语音数据进行属性识别，所以即便针对同一内容识别结果，由于不同用户的用户属性可能不同，所以执行的响应操作或返回的结果也可能存在不同，从而使得同一语音对应多种响应形式，不但丰富了语音响应方式，提高了语音响应的灵活程度，而且语音响应结果更加满足用户需求。

实施例四

本发明提供了一种语音交互设备的结构示意图，参见图6，该设备包括至少一个处理器601，例如CPU，至少一个网络接口604或者其他用户接口603，存储器605，和至少一个通信总线602。通信总线602用于实现这些装置之间的连接通信。用户接口603可以是显示器，键盘或者点击设备。存储器605可能包含高速Ram存储器，也可能还包括非易失性存储器(non-volat i le memory)，例如至少一个磁盘存储器。

处理器601用于执行存储器605存放的程序，以实现如下方法：

获取用户的语音数据；对所述语音数据进行用户属性识别，得到第一用户属性识别结果；对所述语音数据进行内容识别，得到所述语音数据的内容识别结果；至少根据所述第一用户属性识别结果及所述内容识别结果执行相应操作，以响应所述语音数据。

进一步地，处理器601，具体用于采集用户图像；当检测所述用户图像中的人数为预设值时，执行所述对所述语音数据进行用户属性识别的步骤。

进一步地，处理器601，具体用于提取所述用户图像中的人脸数据；对所述人脸数据进行人脸识别，得到第二用户属性识别结果。

进一步地，处理器601，具体用于将所述第一用户属性识别结果及所述第二用户属性识别结果进行加权，得到最终用户属性识别结果；根据所述最终用户属性识别结果及所述内容识别结果执行相应操作。

进一步地，处理器601，具体用于预先设置用户属性，所述用户属性至少包括性别属性及年龄属性；预先设置所述性别属性对应的多个词汇及所述年龄属性对应的多个词汇，并将所述对应关系进行存储；所述确定所述最终用户属性识别结果对应的词汇内容，包括：在预先设置的所述性别属性与词汇的对应关系及所述年龄属性与词汇的对应关系中，查询所述最终用户识别结果对应的词汇，并将查找到的词汇作为所述最终用户属性识别结果对应的词汇内容。

进一步地，处理器601，具体用于预先设置频谱特征与用户属性识别结果的对应关系，所述用户属性识别结果至少包括性别属性识别结果及年龄属性识别结果；所述对所述语音数据进行用户属性识别，得到所述语音数据的第一用户属性识别结果包括：对所述语音数据进行频域变换处理，得到所述语音数据的频谱特征；在预先设置的各个频谱特征与用户属性识别结果的对应关系中，查询所述语音数据的频谱特征对应的用户属性识别结果，将查找到的用户属性识别结果作为所述语音数据的第一用户属性识别结果。

本实施例提供的设备，在获取到用户的语音数据后，分别对该语音数据进行用户属性识别及内容识别，得到语音数据的第一用户属性识别结果及内容识别结果，且至少根据第一用户属性识别结果及内容识别结果执行相应操作，由于对语音数据进行属性识别，所以即便针对同一内容识别结果，由于不同用户的用户属性可能不同，所以执行的响应操作或返回的结果也可能存在不同，从而使得同一语音对应多种响应形式，不但丰富了语音响应方式，提高了语音响应的灵活程度，而且语音响应结果更加满足用户需求。

需要说明的是：上述实施例提供的语音交互装置在进行语音交互时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音交互装置与语音交互方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音交互方法，其特征在于，所述方法包括：

获取用户的语音数据；

根据所述语音数据的频谱特征，从预先设置各个频谱特征与用户属性识别结果的对应关系中确定第一用户属性识别结果；

采集用户图像，根据对所述用户图像中的人脸数据的识别，得到第二用户属性识别结果；

在预先设置的性别属性与所述性别属性对应的词汇的对应关系及年龄属性与所述年龄属性对应的词汇的对应关系中，查询所述最终用户属性识别结果对应的词汇，并将查找到的词汇作为所述最终用户属性识别结果对应的词汇内容；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当检测所述用户图像中的人数为预设值时，执行所述确定第一用户属性识别结果的步骤。

3.根据权利要求1所述的方法，其特征在于，所述根据对所述用户图像中的人脸数据的识别，得到第二用户属性识别结果，包括:

提取所述用户图像中的人脸数据；

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

预先设置用户属性，所述用户属性至少包括所述性别属性及所述年龄属性；

预先设置所述性别属性对应的多个词汇及所述年龄属性对应的多个词汇，并将所述对应关系进行存储。

5.根据权利要求1所述的方法，其特征在于，所述根据所述语音数据的频谱特征，从预先设置各个频谱特征与用户属性识别结果的对应关系中确定第一用户属性识别结果之前，所述方法还包括：

所述根据所述语音数据的频谱特征，从预先设置各个频谱特征与用户属性识别结果的对应关系中确定第一用户属性识别结果，包括：

6.一种语音交互装置，其特征在于，所述装置包括：

获取模块，用于获取用户的语音数据；

用户属性识别模块，用于根据所述语音数据的频谱特征，从预先设置各个频谱特征与用户属性识别结果的对应关系中确定第一用户属性识别结果；

采集模块，用于采集用户图像；

人脸识别模块，用于根据对所述用户图像中的人脸数据的识别，得到第二用户属性识别结果；

执行模块，包括：加权单元和执行单元；

所述加权单元，用于将所述第一用户属性识别结果及所述第二用户属性识别结果进行加权，得到最终用户属性识别结果；

所述执行单元，包括：

确定子单元，用于在预先设置的性别属性与所述性别属性对应的词汇的对应关系及年龄属性与所述年龄属性对应的词汇的对应关系中，查询所述最终用户属性识别结果对应的词汇，并将查找到的词汇作为所述最终用户属性识别结果对应的词汇内容；

7.根据权利要求6所述的装置，其特征在于，所述用户属性识别模块，用于当检测所述用户图像中的人数为预设值时，执行所述确定第一用户属性识别结果的步骤。

8.根据权利要求6所述的装置，其特征在于，所述装置还包括:

提取模块，用于提取所述用户图像中的人脸数据；

所述人脸识别模块，用于对所述人脸数据进行人脸识别，得到第二用户属性识别结果。

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

用户属性设置模块，用于预先设置用户属性，所述用户属性至少包括所述性别属性及所述年龄属性；

词汇对应关系设置模块，用于预先设置所述性别属性对应的多个词汇及所述年龄属性对应的多个词汇，并将所述对应关系进行存储。

10.根据权利要求6所述的装置，其特征在于，所述装置还包括：