CN106682090B

CN106682090B - 主动交互实现装置、方法及智能语音交互设备

Info

Publication number: CN106682090B
Application number: CN201611070706.0A
Authority: CN
Inventors: 何嘉; 朱频频
Original assignee: Shanghai Xiaoi Robot Technology Co Ltd
Current assignee: Shanghai Xiaoi Robot Technology Co Ltd
Priority date: 2016-11-29
Filing date: 2016-11-29
Publication date: 2020-05-15
Anticipated expiration: 2036-11-29
Also published as: CN106682090A

Abstract

本发明公开了一种主动交互实现装置、方法及智能语音交互设备，所述装置包括：数据采集模块，用于采集用于用户身份和情绪识别的数据、环境数据和智能语音交互设备的工作数据；身份和情绪识别模块，用于对用户身份和情绪进行识别，得到用户身份和情绪识别结果；大数据引擎模块，用于根据采集和识别得到的数据，得到用户、智能语音交互设备及环境的状态信息，并将其输入到预先建立的与识别出的用户身份匹配的用户行为习惯模型中，以对用户的状态和/或行为进行预判，并根据预判结果，主动向用户提供与预判结果相匹配的服务。本发明可以按需且主动地为用户提供内容服务和/或设备控制服务，使得设备与人的交互过程更为智能与人性化。

Description

主动交互实现装置、方法及智能语音交互设备

技术领域

本发明涉及智能交互技术领域，尤其涉及一种主动交互实现装置、方法及智能语音交互设备。

背景技术

现阶段由于语音技术的发展，智能语音交互设备越来越多，语音交互成为一种非常重要的人机交互途径，尤其是近些年语音助手的普及，从手机到智能家居再到汽车，都可以进行语音的交互以及服务的获取。但是这些语音的交互以及服务的获取是需要人为发布指令或是用户主动触发的。也就是说，现阶段的智能语音交互设备只能被动的为用户提供服务，无法对用户的行为进行预判，从而实现服务的主动推荐。

发明内容

本发明提供一种主动交互实现装置、方法及智能语音交互设备，用以解决现有技术中的智能语音交互设备无法实现主动推荐服务，影响使用效率的问题。

依据本发明的一个方面，提供一种主动交互实现装置，应用于智能语音交互设备，所述装置包括：数据采集模块、身份和情绪识别模块、以及大数据引擎模块；

所述数据采集模块，用于采集用于用户身份和情绪识别的数据、环境数据和智能语音交互设备的工作数据；

所述身份和情绪识别模块，用于根据所述数据采集模块采集的用于用户身份和情绪识别的数据，对用户身份和情绪进行识别，得到用户身份和情绪识别结果；

所述大数据引擎模块，用于根据所述数据采集模块实时采集的数据以及所述身份和情绪识别模块实时识别的所述用户身份和情绪识别结果，得到用户、智能语音交互设备及环境的状态信息，并将其输入到预先建立的与识别出的用户身份匹配的用户行为习惯模型中，以对用户的状态和/或行为进行预判，并根据预判结果，主动向用户提供与预判结果相匹配的服务。

可选地，所述大数据引擎模块，具体用于确定与所述预判结果相匹配的服务，向用户发出是否需要所述服务的询问，并在确定出用户需要时，向用户提供所述服务。

可选地，向用户提供的与预判结果相匹配的服务，包括：内容服务和/或设备状态控制服务；所述设备状态控制服务包括：控制所述智能语音交互设备和/或与所述智能语音交互设备连接的设备到目标状态。

可选地，所述大数据引擎模块，具体用于调用内容服务接口传输控制指令，以实现对所述内容服务的控制与调用；和/或，调用设备控制接口传输控制指令，以实现将所述智能语音交互设备和/或与所述智能语音交互设备连接的设备控制到目标状态。

可选地，所述装置还包括：

用户模型模块，用于根据所述数据采集模块的历史采集数据、所述用户身份和情绪识别结果以及所述智能语音交互设备的历史语音交互数据，按用户构建用户行为习惯模型。

可选地，所述用户模型模块，包括：数据解析单元和学习训练单元：

所述数据解析单元，用于在所述历史采集数据、所述用户身份和情绪识别结果以及历史语音交互数据中，解析出用户的偏好数据；

所述学习训练单元，用于将所述用户偏好数据添加到为该用户预先建立的用户本体模型中，进行用户行为习惯的学习和训练，形成用户行为习惯模型。

可选地，所述用于用户身份和情绪识别的数据，包括：用户的图像数据和/或语音数据；

所述身份和情绪识别模块，具体包括：身份识别子模块和情绪识别子模块；

所述身份识别子模块，用于当接收到图像数据或者语音数据时，根据接收到的所述图像数据或者语音数据，对用户的身份进行识别；当接收到图像数据和语音数据时，分别根据所述图像数据和语音数据，对用户的身份进行识别，得到两种数据类型下的两个初始的身份识别结果，并基于得到的两个初始的身份识别结果，按照设定的身份判定策略，进行身份判定，得到最终的用户身份识别结果；

所述情绪识别子模块，用于当接收到图像数据或者语音数据时，根据接收到的所述图像数据或者语音数据，对用户的情绪进行识别；当接收到图像数据和语音数据时，分别根据所述图像数据和语音数据，对用户的情绪进行识别，得到两种数据类型下的两个初始的情绪识别结果，并基于得到的两个初始的情绪识别结果，按照设定的情绪判定策略，进行情绪判定，得到最终的用户情绪识别结果。

可选地，所述身份识别子模块，用于在得到两种数据类型下的两个初始的身份识别结果时，提取出每个身份识别结果中识别出的用户及识别出该用户的置信度信息，当两个身份识别结果中识别出的用户相同且置信度分别大于等于设定的对应数据类型的第一身份置信度阈值时，以共同识别出的用户作为最终的用户身份识别结果；当两个身份识别结果中有一个身份识别结果中识别出的用户的置信度大于等于设定的对应数据类型的第二身份置信度阈值时，以用户的置信度大于等于第二置信度身份阈值对应的用户，作为最终的用户身份识别结果，其中，同一数据类型下的第一身份置信度阈值小于第二身份置信度阈值。

可选地，所述情绪识别子模块，用于在得到两种数据类型下的两个初始的情绪识别结果时，提取出每个情绪识别结果中识别出的情绪类型及识别出该情绪类型的置信度信息，当两个情绪识别结果中识别出的情绪类型相同且置信度分别大于等于设定的对应数据类型的第一情绪置信度阈值时，以共同识别出的情绪类型作为最终的情绪识别结果；当两个情绪识别结果中有一个情绪识别结果中识别出的情绪类型的置信度大于设定的对应数据类型的第二情绪阈值时，以情绪类型的置信度大于第二情绪阈值的情绪类型，作为最终的情绪识别结果；其中，同一数据类型下的第一情绪置信度阈值小于第二情绪置信度阈值。

可选地，所述情绪识别子模块，还用于确定用户情绪识别结果中情绪类型的置信度，根据预设的情绪类型的置信度与情绪类型级别的对应关系，得到识别出的用户的情绪级别，并将其输出到所述大数据引擎模块；

所述大数据引擎模块，具体用于根据所述数据采集模块实时采集的数据、所述身份和情绪识别模块实时识别的所述用户身份和情绪识别结果、以及识别出的情绪级别，得到用户、智能语音交互设备及环境的状态信息。

依据本发明的另一个方面，还提供一种智能语音交互设备，包括本发明所述的主动交互实现装置。

依据本发明的第三个方面，还提供一种主动交互实现方法，应用于智能语音交互设备，所述方法包括：

采集用于用户身份和情绪识别的数据、环境数据和智能语音交互设备的工作数据；

根据采集的用于用户身份和情绪识别的数据，对用户身份和情绪进行识别，得到用户身份和情绪识别结果；

根据实时采集的各数据以及实时识别的所述用户身份和情绪识别结果，得到用户、智能语音交互设备及环境的状态信息，并将其输入到预先建立的与识别出的用户身份匹配的用户行为习惯模型中，以对用户的状态和/或行为进行预判，并根据预判结果，主动向用户提供与预判结果相匹配的服务。

可选地，所述根据预判结果，主动向用户提供与预判结果相匹配的服务，具体包括：确定与所述预判结果相匹配的服务，向用户发出是否需要所述服务的询问，并在确定出用户需要时，向用户提供所述服务。

可选地，所述主动向用户提供与预判结果相匹配的服务，包括：调用内容服务接口传输控制指令，以实现对所述内容服务的控制与调用；和/或，调用设备控制接口传输控制指令，以实现将所述智能语音交互设备和/或与所述智能语音交互设备连接的设备控制到目标状态。

可选地，所述方法还包括：

根据历史采集数据、用户身份和情绪识别结果以及所述智能语音交互设备的历史语音交互数据，按用户构建用户行为习惯模型。其中，按用户构建用户行为习惯模型，是指以用户为单位构建各用户的用户行为习惯模型。

可选地，所述根据历史采集数据、用户身份和情绪识别结果以及所述智能语音交互设备的历史语音交互数据，按用户构建用户行为习惯模型，包括：

在所述历史采集数据、所述用户身份和情绪识别结果以及历史语音交互数据中，解析出用户的偏好数据；

将所述用户偏好数据添加到为该用户预先建立的用户本体模型中，进行用户行为习惯的学习和训练，形成用户行为习惯模型。

根据采集的用于用户身份和情绪识别的数据，对用户身份和情绪进行识别，得到用户身份和情绪识别结果，包括：

当采集到图像数据或者语音数据时，根据采集的所述图像数据或者语音数据，对用户的身份进行识别；当采集到图像数据和语音数据时，分别根据所述图像数据和语音数据，对用户的身份进行识别，得到两种数据类型下的两个初始的身份识别结果，并基于得到的两个初始的身份识别结果，按照设定的身份判定策略，进行身份判定，得到最终的用户身份识别结果；

以及当采集到图像数据或者语音数据时，根据采集的所述图像数据或者语音数据，对用户的情绪进行识别；当采集到图像数据和语音数据时，分别根据所述图像数据和语音数据，对用户的情绪进行识别，得到两种数据类型下的两个初始的情绪识别结果，并基于得到的两个初始的情绪识别结果，按照设定的情绪判定策略，进行情绪判定，得到最终的用户情绪识别结果。

可选地，所述基于得到的两个初始的身份识别结果，按照设定的身份判定策略，进行身份判定，得到最终的用户身份识别结果，包括：提取出每个身份识别结果中识别出的用户及识别出该用户的置信度信息，当两个身份识别结果中识别出的用户相同且置信度分别大于等于设定的对应数据类型的第一身份置信度阈值时，以共同识别出的用户作为最终的用户身份识别结果；当两个身份识别结果中有一个身份识别结果中识别出的用户的置信度大于等于设定的对应数据类型的第二身份置信度阈值时，以用户的置信度大于等于第二置信度身份阈值对应的用户，作为最终的用户身份识别结果，其中，同一数据类型下的第一身份置信度阈值小于第二身份置信度阈值。

可选地，所述基于得到的两个初始的情绪识别结果，按照设定的情绪判定策略，进行情绪判定，得到最终的用户情绪识别结果，包括：提取出每个情绪识别结果中识别出的情绪类型及识别出该情绪类型的置信度信息，当两个情绪识别结果中识别出的情绪类型相同且置信度分别大于等于设定的对应数据类型的第一情绪置信度阈值时，以共同识别出的情绪类型作为最终的情绪识别结果；当两个情绪识别结果中有一个情绪识别结果中识别出的情绪类型的置信度大于设定的对应数据类型的第二情绪阈值时，以情绪类型的置信度大于第二情绪阈值的情绪类型，作为最终的情绪识别结果；其中，同一数据类型下的第一情绪置信度阈值小于第二情绪置信度阈值。

可选地，在得到最终的情绪识别结果后，还包括：确定用户情绪识别结果中情绪类型的置信度，根据预设的情绪类型的置信度与情绪类型级别的对应关系，得到识别出的用户的情绪级别；

最终识别出的所述情绪识别结果包括：情绪类型及情绪级别。

本发明有益效果如下：

本发明实施例所述装置、方法及智能语音交互设备，可通过当前用户行为习惯模型，根据用户情绪识别结果、当前的设备状态以及环境信息等数据对用户的行为和/或状态进行预判，并可根据预判结果，主动为用户提供精准的内容服务和/或设备控制服务，使得设备更加了解用户的需求，实现了设备与用户交互过程智能化与人性化方面质的飞越，极大的提升了用户的使用效率。

且本发明实施例所述装置和方法将用户情绪作为用户状态的判定条件之一，在某些场合下，例如开车时，情绪的好坏关乎着生命财产安全，而本发明实施例可对用户的情绪状态进行实时判断，并可根据情绪状态提供针对性的服务，例如在用户为愤怒时，可以通过内容服务进行情绪引导，避免了恶性事件的发生，具有较高的社会意义。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明第一实施例提供的一种主动交互实现装置的结构框图；

图2为本发明第一实施例中用户行为习惯模型构建流程图；

图3为本发明第一实施例中主动交互实现装置实现指令交互的示意图；

图4为本发明第三实施例提供的一种主动交互实现方法的流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了解决现有技术中，智能语音交互设备只能被动的为用户提供服务，无法对用户的行为进行预判从而实现服务的主动推荐问题，本发明实施例提供一种主动交互实现装置、方法及智能语音交互设备，旨在主动且准确地为用户提供更加人性化的服务。下面通过几个具体实施例，对本发明的实施过程进行详细说明。

在本发明的第一实施例中，提供一种主动交互实现装置，应用于智能语音交互设备，如图1所示，所述装置包括：数据采集模块110、身份和情绪识别模块120、以及大数据引擎模块130；

数据采集模块110，用于采集用于用户身份和情绪识别的数据、环境数据和智能语音交互设备的工作数据；

身份和情绪识别模块120，用于根据数据采集模块110采集的用于用户身份和情绪识别的数据，对用户身份和情绪进行识别，得到用户身份和情绪识别结果；

大数据引擎模块130，用于根据数据采集模块110实时采集的数据以及所述身份和情绪识别模块120实时识别的所述用户身份和情绪识别结果，得到用户、智能语音交互设备及环境的状态信息，并将其输入到预先建立的与识别出的用户身份匹配的用户行为习惯模型中，以对用户的状态和/或行为进行预判，并根据预判结果，主动向用户提供与预判结果相匹配的服务。

基于上述结构框架及实施原理，下面给出在上述结构下的几个具体及优选实施方式，用以细化和优化本发明所述装置的功能，以使本发明方案的实施更方便，准确。具体涉及如下内容：

本发明实施例中，所述智能语音交互设备可以但不限于为：汽车、音箱、玩偶、个人电脑、智能手机、家具中控、无人机、电视机、车载中控、机器人等设备。

进一步地，本发明实施例中，所述的情绪识别结果包括：识别出的情绪类型及识别出该情绪类型的置信度。所述的身份识别结果包括：识别出的用户及识别出该用户的置信度。其中，情绪类型包括但不限于为：高兴、伤心、愤怒、厌烦、疲劳、激动和正常等。

进一步地，本发明实施例中，采集的用于用户身份和情绪识别的数据类型包括图像数据及语音数据。当然，本发明并不仅限于采用这两种类型的数据进行身份和情绪识别，针对不同的智能语音交互设备类型，可用于身份识别的数据还可以为指纹数据等，可用于情绪识别的数据还可以为车辆的行驶数据等(仅针对智能语音交互设备为汽车的情况)。

本实施例中，可以采集单一类型的数据进行身份和情绪识别，但更为优选地，采用多种类型的数据进行身份和情绪识别，从而根据不同类型数据得到的识别结果进行身份和情绪的综合判定。本实施例通过综合判定方式可以提高识别准度度以及环境适应性。

在本发明的一个具体实施例中，采集的用于用户身份和情绪识别的数据包括：用户的图像数据和语音数据。

具体地，本实施例中，数据采集模块110通过摄像头采集驾驶员的图像数据以及通过麦克风采集驾驶员的声音数据。在本发明的一个具体实施例中，身份和情绪识别模块120，根据用户的图像数据对用户的身份和情绪进行识别，具体包括：身份和情绪识别模块120在先需要进行人脸的离线训练，所述离线训练使用人脸的数据库训练人脸的检测器、同时在人脸上标定标记点，根据所述人脸标记点训练标记点拟合器，并且，通过人脸标记点和情绪、身份的关系训练情绪身份分类器；当进行人脸的在线运行时(即需要根据图像数据进行情绪和身份识别时)，通过人脸检测器在图像数据中检测人脸，然后通过标记点拟合器拟合人脸上的标记点，情绪身份分类器根据人脸标记点判断当前用户的身份和情绪，最后给出对应的分类置信度。可选地，本发明实施例中，还对所述图像数据进行用户的动作识别，并在根据人脸标记点进行情绪识别时，可以结合动作识别结果，进行综合识别判断，得到基于图像数据的最终情绪识别结果。

本实施例中，基于图像的身份识别的置信度为情绪身份分类器将获取的面部图像中的人脸标记点与在先训练的已知身份的人脸标记点进行匹配的匹配度，当匹配度(即置信度)达到一定的阈值，判定为识别出用户身份，例如，若匹配度为85％(置信度)以上的检测结果为用户A，则认为“此用户为用户A”。

本实施例中，基于图像的情绪识别的置信度为情绪身份分类器根据获取的面部图像中的人脸标记点而得到的用户面部表情与在先情绪训练得到的用户在不同情绪类型下的面部表情模型进行匹配的匹配度，当匹配度(即置信度)达到一定的阈值，判定为识别出用户的情绪类型，例如，若匹配的结果为90％(置信度)以上的检测结果为“愉悦”，则认为“此用户为愉悦”。

在本发明的一个具体实施例中，身份和情绪识别模块120，根据用户的声音数据对用户的身份和情绪进行识别，具体包括：身份和情绪识别模块120在先需要进行人声的离线训练，所述人声的离线训练，使用语音数据库训练人声检测器，同时训练语音特征向量提取模型用于从人声中提取特征向量的声音，采用已标定好的语音特征向量与身份、情绪的训练集训练身份和情绪分类器。当进行人声的在线运行时(即需要根据语音数据进行情绪和身份识别时)，通过人声检测器在输入的声音流中检测人声数据，并从人声数据中提取语音特征向量，最后使用情绪和身份分类器从语音特征向量分辨当前用户的身份和情绪，并给出识别的置信度。可选地，本发明实施例中，还对所述语音数据中的语义进行识别。当根据语音特征向量进行情绪识别时，可以结合语义识别结果，进行综合识别判断，得到基于语音数据的最终识别结果。

本实施例中，基于语音的身份识别的置信度为身份和情绪分类器将获取的语音数据中的语音特征向量与在先已训练好的已知用户的语音向量模型进行匹配的匹配度，当匹配度大于设定的阈值时，判定出用户的身份，例如，若匹配的结果为85％(置信度)以上的检测结果为用户A，则认为“此用户为用户A”；

本实施例中，基于语音的情绪识别的置信度为身份和情绪分类器将获取的语音数据中的语音特征向量与在先已训练好的用户在不同情绪类型下的语音向量模型进行匹配的匹配度，当匹配度大于设定的阈值时，判定出用户的情绪，例如，若匹配的结果为80％(置信度)以上的检测结果为“愉悦”，则认为“此用户为愉悦”。

进一步的，本发明实施例中，为了根据不同数据类型得到的识别结果进行用户的身份和情绪判定，要预先按照数据类型，进行身份置信度阈值和情绪置信度阈值的设定。具体的，设定与图像数据类型相对应的第一身份置信度阈值和第一情绪置信度阈值、以及设定与语音数据类型相对应的第一身份置信度阈值和第一情绪置信度阈值。其中，不同数据类型下的置信度阈值可以相同，也可以不同，具体值可根据需求灵活设定。

对此，本发明实施例中，身份和情绪识别模块120在得到两种数据类型下的两个初始的身份识别结果时，可以根据两个识别结果进行身份的综合判定，具体判定方式包括：

提取出每个身份识别结果中识别出的用户及识别出该用户的置信度信息；

检测是否两个身份识别结果中识别出的用户相同且置信度分别大于等于设定的对应数据类型的第一身份置信度阈值，并在是的情况下，以共同识别出的用户作为最终的用户身份识别结果；

进一步地，考虑到有些情况下，基于某种数据类型的识别置信度很高，具有很高的可信性，此时，可以直接利用置信度很高的数据类型对应的识别结果作为最终的识别结果，具体实现时，检测两个身份识别结果中是否有一个身份识别结果中识别出的用户的置信度大于等于设定的对应数据类型的第二身份置信度阈值时，以用户的置信度大于等于第二置信度身份阈值对应的用户，作为最终的用户身份识别结果。其中，同一数据类型下的第一身份置信度阈值小于第二身份置信度阈值。

进一步地，本发明实施例中，身份和情绪识别模块120在得到两种数据类型下的两个初始的情绪识别结果时，可以根据两个识别结果进行情绪的综合判定，具体判定方式包括：

提取出每个情绪识别结果中识别出的情绪类型及识别出该情绪类型的置信度信息；

检测是否两个情绪识别结果中识别出的情绪类型相同且置信度分别大于等于设定的对应数据类型的第一情绪置信度阈值，并在是的情况下，以共同识别出的情绪类型作为最终的情绪识别结果。

进一步地，考虑到有些情况下，基于某种数据类型的识别置信度很高，具有很高的可信性，此时，可以直接利用置信度很高的数据类型对应的识别结果作为最终的识别结果，具体实现时，检测两个情绪识别结果中是否有一个情绪识别结果中识别出的情绪类型的置信度大于设定的对应数据类型的第二情绪阈值时，以情绪类型的置信度大于第二情绪阈值的情绪类型，作为最终的情绪识别结果。其中，同一数据类型下的第一情绪置信度阈值小于第二情绪置信度阈值。

进一步地，本发明实施例中，身份和情绪识别模块120还用于在确定用户情绪识别结果中情绪类型的置信度，根据预设的情绪类型的置信度与情绪类型级别的对应关系，得到识别出的用户的情绪级别，并将其输出到所述大数据引擎模块130；大数据引擎模块130根据所述数据采集模块实时采集的数据、所述身份和情绪识别模块实时识别的所述用户身份和情绪识别结果、以及识别出的情绪级别，得到用户、智能语音交互设备及环境的状态信息。

进一步地，本发明实施例中，大数据引擎模块130在进行用户的行为和/或状态预判时，要利用用户行为习惯模型，这里的用户行为习惯模型可以由其他设备提供，也可以由本发明实施例所述装置自己构建生成。当由本发明所述装置构建生成时，所述装置还包括用户模型模块140，用于根据所述数据采集模块110的历史采集数据、所述用户身份和情绪识别结果以及智能语音交互设备的历史语音交互数据，按用户构建用户行为习惯模型。所述用户模型模块140可以集成在大数据引擎模块130中，也可以独立于大数据引擎模块进行单独部署。其中，按用户构建用户行为习惯模型，是指以用户为单位构建各用户的用户行为习惯模型。

在一个具体实施例中，用户模型模块140，包括：数据解析单元和学习训练单元，其中：

数据解析单元，用于在历史采集数据、所述用户身份和情绪识别结果以及历史语音交互数据中，解析出用户的偏好数据；

学习训练单元，用于将所述用户偏好数据添加到为该用户预先建立的用户本体模型中，进行用户行为习惯的学习和训练，形成用户行为习惯模型。

为了更好的说明用户行为习惯模型的建立过程，下面结合附图2对模型建立过程进行说明。

本发明实施例提供了一种用户行为习惯模型构建方法，用户行为习惯模型的构建过程如图2所示，包括：

首先，用户模型模块同步获取数据采集模块110的历史采集数据、身份和情绪识别模块的身份和情绪识别结果、以及智能语音交互设备的语音交互引擎的历史语音交互数据。

其中，数据采集模块110的历史采集数据包括了环境数据和智能语音交互设备的工作数据。智能语音交互设备的工作数据包括但不仅限于：设备信息、设备被调用的时间段、设备被调用时设备的状态、设备工作后用户环境的物理环境数据、被调用的服务的数据，以及设备的运动路径以及所在位置数据等。其中，被调用的服务的数据包括但不仅限于为服务被调用的时长、时间段、种类、频次等。本实施例中，采集的环境数据包括但不限于：用户所处环境中的温度、湿度、光线强度等，其中环境有家具中的环境、汽车中的环境等。

所述身份和情绪识别模块的身份和情绪识别结果包括但不仅限于：识别出的用户、该用户的情绪种类、情绪发生时的时间点以及持续时间、以及情绪发生所对应的情绪置信度等。

所述语音交互引擎的历史语音交互数据包括但不仅限于：一定时间段的语音交户数量(频次)、语音交互的时长、语音交互的类型、同类型语音交互的频次、语音交互触发以及结束的时间点。

其次，用户模型模块根据获取的各数据，解析出用户的偏好数据；具体的，根据历史工作数据解析出的用户偏好数据为用户设备控制以及服务调用的偏好数据；根据所述身份和情绪识别结果解析出的用户偏好数据为用户情绪偏好数据；根据语音交互引擎的历史语音交互数据解析出的用户偏好数据为语音交互偏好数据。

例如，根据获取的数据，得到一定时间段内，如6个月内，用户都在什么地点什么时间点做使用了设备的什么功能与服务，功能使用的时长，频次，从而根据功能使用时长，频次，时间点，归整出用户喜欢使用什么功能与服务，使用的频率、时长以及时间点，以及归整出用户不喜欢使用什么样的功能与服务；

根据获取的用户各个情绪状态的出现的时间点、时长、置信度、出现的情绪种类以及在各种情绪状态下对应实时的天气、空气质量、设备状态的数据，归整出用户情绪常态是什么，什么极端情绪出现最多，什么样的天气是什么心情，什么样的温度是什么心情，一般什么时间点容易有什么心情，一周中星期几容易有什么心情。

根据获取的目的地的行程与搜索的记录以及一年内的语音交互记录，归整出用户一个月内、一周内以及三个月内的用户搜索频次排序目的地与始发地以及路径排序，并根据语音交互数据归整出用户语音交互的频次、类型、服务需求、时间点、时间长度等。

第三，用户模型模块将所述用户偏好数据添加到预先建立的用户本体模型中，形成用户行为习惯模型。用户本体模型为标准化的数据模型框架，在实例化之前，用户本体模型不具有实际意义。用户行为习惯模型用于记录用户对其所述用户环境中服务与设备的使用偏好、语音交互的偏好、情绪状态的偏好。用户行为习惯模型记录的数据都是针对同一个用户的。

进一步地，本发明实施例中，大数据推荐引擎模块130通过将用户、智能语音交互设备及环境的状态信息输入到与识别出的用户身份匹配的用户行为习惯模型中，可以对用户的状态和/或行为进行预判，并确定与所述预判结果相匹配的服务，并向智能语音交互设备的语音交互引擎发出控制指令，以控制语音交互引擎向用户发出是否需要所述服务的询问，并在确定出用户需要时，向用户提供所述服务。此处的语音交互可不需要用户主动触发，而是由大数据引擎模块根据当前的用户状态、环境状态以及设备状态的信息主动触发，由语音交互引擎执行。

在本发明的一个具体实施例中，向用户提供的与预判结果相匹配的服务，包括：内容服务和/或设备状态控制服务；所述设备状态控制服务包括：控制所述智能语音交互设备和/或与所述智能语音交互设备连接的设备到目标状态。

具体的，如图3所示，大数据引擎模块130调用内容服务接口传输控制指令，以实现对所述内容服务的控制与调用；和/或，调用设备控制接口传输控制指令，以实现将所述智能语音交互设备和/或与所述智能语音交互设备连接的设备控制到目标状态。即，设备控制接口用以传输上述大数据引擎的指令，实现对智能语音交互设备的主动控制，以及对与智能语音交互设备相连接的设备的控制。内容服务接口用以传输上述大数据引擎的指令，实现对内容服务的控制与调用，实现智能语音交互设备的内容服务的主动提供。

其中，设备的控制功能包括但不仅限于音量加减、屏幕亮度加减、音乐控制、灯光控制；调用的内容服务包括但不仅限于：音乐、天气查询、网络电台、故事、新闻、空气质量查询、餐饮服务、快递服务、导航、视频节目、支付服务社交服务等。

下面通过几个具体应用案例对主动提供服务的过程进行说明。

案例一：

用户偏好数据为每天下午18:00-20:30(服务调用时段)，喜欢语音指令(语音指令触发时间点与种类)播放广播(服务种类)，则用户模型模块检测到用户的偏好数据后，记录下，形成用户行为习惯模型。当用户下次在下午18:00-20:30进入车内时，设备则会主动播报语音：“先生，需要为您打开动感101广播吗？”

案列二：

若智能语音交互设备为汽车，且用户每周五上午都会导航去地点A，则用户模型模块检测到用户的偏好数据后，记录下，形成用户行为习惯模型。在周五上午用户进入汽车后，设备会主动语音播报：“黄先生，今天是去地点A吗，需不需要为您导航啊？”进入汽车后目的地的主动询问，随机触发，并不是每次都会有设备的主动询问。

案例三：

用户经常使用智能语音交互设备搜索附近的美食，且搜索频率最高的是四川菜馆，判断出用户的偏好数据是喜欢吃四川菜，用户模型模块根据偏好数据构建用户行为习惯模型，当用户再次搜索附件的餐馆时，则主动推荐四川菜。若根据用户模型模块构建的用户行为习惯模型判断出用户喜欢吃四川菜也可能对山东菜感兴趣，为做到更人性化，则推荐山东菜系，比如用户搜索四川菜时，设备主动播报：“黄先生，您已经吃了好多次四川菜了，要不尝试一下山东菜怎么样”。

案例四：

用户与智能语音交互设备的语音对话可以进行一轮或是多轮。具体的，在进行每轮对话中，可以通过对用户回答进行语音识别得到文本数据，再对文本数据进行语义识别且结合上下文语义，匹配相应的语义模板(如扩展问)进而得到用户的语义意图(如对应标准问)，再结合用户行为习惯模型，通过大数据引擎分析得到的对应的内容服务接口传输控制指令，以实现对所述内容服务的控制与调用。其中，标准问为用来表示某个语义意图的文字，主要目标是表达清晰，便于维护。如“彩铃的资费”就是表达清晰的标准问描述。扩展问，用来表示某个语义意图的语义表达式和自然语句集合，语义表达式主要由词、词类以及他们的“或”关系构成，其核心依赖于“词类”，词类简单的理解，即为一组有共性的词，这些词在语义上可以相似也可以不相似，这些词也可以被标注为重要或不重要。语义表达式与用户问句关系与传统的模板匹配有了很大的不同，在传统模板匹配中，模板和用户问句只是匹配与未匹配的关系，而语义表达式与用户问句之间关系是通过量化的值(相似度)来表示，同时这个量化的值与相似问句和用户问句之间的相似度是可以互相比较的。

例如：

若智能语音交互设备为汽车。比如用户已经一个月没有刷过车了，并且最近一直没有降雨，则汽车会主动询问用户：“黄先生，您今天是不是该刷车了？”

用户：“好的啊，那哪里有洗车的地方”

汽车：“附件10公里有8家洗车店”(屏幕显示)

用户：“那你推荐一家吧”

汽车：“您是要什么价位的呢”

用户：“50元以内都可以的，最好离我公司近点”

汽车“在您公司附件找到一家价格35元的洗车店，需要为您导航吗？”

用户：“好的，导航”

汽车：“导航已开始，目的地……”。

案例五：

大数据引擎模块判断今天会下雨，当用户出门的时候，智能语音交互设备采集到用户的状态为出门状态，并根据采集的环境信息，为用户推送相应的提醒服务，例如，会自动语音播报：“今天会下雨哦，您最好带上伞，以免被淋成落汤鸡”。

综上可知，本发明实施例所述装置，通过历史大数据，构建用户行为习惯模型，并可根据用户行为习惯模型预判用户的需求，进而可以按需且主动地为用户提供内容服务和/或设备控制服务，使得设备与人的交互过程更为智能与人性化，极大的提升了用户的使用体验。

在本发明的第二实施例中提供一种主动交互实现方法，应用于智能语音交互设备，如图4所示，所述方法包括：

步骤S401，采集用于用户身份和情绪识别的数据、环境数据和智能语音交互设备的工作数据；

步骤S402，根据采集的用于用户身份和情绪识别的数据，对用户身份和情绪进行识别，得到用户身份和情绪识别结果；

步骤S403，根据实时采集的各数据以及实时识别的所述用户身份和情绪识别结果，得到用户、智能语音交互设备及环境的状态信息，并将其输入到预先建立的与识别出的用户身份匹配的用户行为习惯模型中，以对用户的状态和/或行为进行预判，并根据预判结果，主动向用户提供与预判结果相匹配的服务。

基于上述原理阐述，下面给出几个具体及优选实施方式，用以细化和优化本发明所述方法的功能，以使本发明方案的实施更方便，准确。需要说明的是，在不冲突的情况下，如下特征可以互相任意组合。

进一步地，本发明实施例中，所述用于用户身份和情绪识别的数据，包括：用户的图像数据和/或语音数据；在该实施例下，根据采集的用于用户身份和情绪识别的数据，对用户身份和情绪进行识别，得到用户身份和情绪识别结果，包括：

在本发明的一个具体实施例中，根据用户的图像数据对用户的身份和情绪进行识别，具体包括：在先需要进行人脸的离线训练，所述离线训练使用人脸的数据库训练人脸的检测器、同时在人脸上标定标记点，根据所述人脸标记点训练标记点拟合器，并且，通过人脸标记点和情绪、身份的关系训练情绪身份分类器；当进行人脸的在线运行时(即需要根据图像数据进行情绪和身份识别时)，通过人脸检测器在图像数据中检测人脸，然后通过标记点拟合器拟合人脸上的标记点，情绪身份分类器根据人脸标记点判断当前用户的身份和情绪，最后给出对应的分类置信度。可选地，本发明实施例中，还对所述图像数据进行用户的动作识别，并在根据人脸标记点进行情绪识别时，可以结合动作识别结果，进行综合识别判断，得到基于图像数据的最终情绪识别结果。

在本发明的一个具体实施例中，根据用户的声音数据对用户的身份和情绪进行识别，具体包括：在先需要进行人声的离线训练，所述人声的离线训练，使用语音数据库训练人声检测器，同时训练语音特征向量提取模型用于从人声中提取特征向量的声音，采用已标定好的语音特征向量与身份、情绪的训练集训练身份和情绪分类器。当进行人声的在线运行时(即需要根据语音数据进行情绪和身份识别时)，通过人声检测器在输入的声音流中检测人声数据，并从人声数据中提取语音特征向量，最后使用情绪和身份分类器从语音特征向量分辨当前用户的身份和情绪，并给出识别的置信度。可选地，本发明实施例中，还对所述语音数据中的语义进行识别。当根据语音特征向量进行情绪识别时，可以结合语义识别结果，进行综合识别判断，得到基于语音数据的最终识别结果。

对此，本发明实施例中，在得到两种数据类型下的两个初始的身份识别结果时，可以根据两个识别结果进行身份的综合判定，具体判定方式包括：

提取出每个身份识别结果中识别出的用户及识别出该用户的置信度信息，当两个身份识别结果中识别出的用户相同且置信度分别大于等于设定的对应数据类型的第一身份置信度阈值时，以共同识别出的用户作为最终的用户身份识别结果；

进一步地，考虑到有些情况下，基于某种数据类型的识别置信度很高，具有很高的可信性，此时，可以直接利用置信度很高的数据类型对应的识别结果作为最终的识别结果，具体实现时，检测两个身份识别结果中是否有一个身份识别结果中识别出的用户的置信度大于等于设定的对应数据类型的第二身份置信度阈值，以用户的置信度大于等于第二置信度身份阈值对应的用户，作为最终的用户身份识别结果，其中，同一数据类型下的第一身份置信度阈值小于第二身份置信度阈值。

进一步地，本发明实施例中，基于得到的两个初始的情绪识别结果，按照设定的情绪判定策略，进行情绪判定，得到最终的用户情绪识别结果，包括：

提取出每个情绪识别结果中识别出的情绪类型及识别出该情绪类型的置信度信息，检测是否两个情绪识别结果中识别出的情绪类型相同且置信度分别大于等于设定的对应数据类型的第一情绪置信度阈值，并在是的情况下，以共同识别出的情绪类型作为最终的情绪识别结果。

进一步地，考虑到有些情况下，基于某种数据类型的识别置信度很高，具有很高的可信性，此时，可以直接利用置信度很高的数据类型对应的识别结果作为最终的识别结果，具体实现时，检测两个情绪识别结果中是否有一个情绪识别结果中识别出的情绪类型的置信度大于设定的对应数据类型的第二情绪阈值时，以情绪类型的置信度大于第二情绪阈值的情绪类型，作为最终的情绪识别结果；其中，同一数据类型下的第一情绪置信度阈值小于第二情绪置信度阈值。

可选地，本发明实施例中，在得到最终的情绪识别结果后，还包括：确定用户情绪识别结果中情绪类型的置信度，根据预设的情绪类型的置信度与情绪类型级别的对应关系，得到识别出的用户的情绪级别。此时，最终识别出的所述情绪识别结果包括：情绪类型及情绪级别。

进一步地，本发明实施例中，根据预判结果，主动向用户提供与预判结果相匹配的服务，具体包括：确定与所述预判结果相匹配的服务，向用户发出是否需要所述服务的询问，并在确定出用户需要时，向用户提供所述服务。

进一步地，本发明实施例中，向用户提供的与预判结果相匹配的服务，包括：内容服务和/或设备状态控制服务；所述设备状态控制服务包括：控制所述智能语音交互设备和/或与所述智能语音交互设备连接的设备到目标状态。具体的，调用内容服务接口传输控制指令，以实现对所述内容服务的控制与调用；和/或，调用设备控制接口传输控制指令，以实现将所述智能语音交互设备和/或与所述智能语音交互设备连接的设备控制到目标状态。

进一步地，本发明实施例所述方法还包括：根据历史采集数据、用户身份和情绪识别结果以及所述智能语音交互设备的历史语音交互数据，按用户构建用户行为习惯模型。在一个具体实施例中，模型构建过程具体包括：在所述历史采集数据、所述用户身份和情绪识别结果以及历史语音交互数据中，解析出用户的偏好数据；将所述用户偏好数据添加到为该用户预先建立的用户本体模型中，进行用户行为习惯的学习和训练，形成用户行为习惯模型。本发明实施例中，模型的具体构建过程，可参见图2部分的描述。

综上可知，本发明实施例所述方法，通过历史大数据，构建用户行为习惯模型，并可根据用户行为习惯模型预判用户的需求，进而可以按需且主动地为用户提供内容服务和/或设备控制服务，使得设备与人的交互过程更为智能与人性化，极大的提升了用户的使用体验。

在本发明的第三实施例中提供一种智能语音交互设备，该智能语音交互设备包括第一实施例所述的主动交互实现装置。由于在第一实施例中已经对主动交互实现装置的结构、功能进行了详细阐述，在此不再赘述。

由于本实施例所述智能语音交互设备包括第一实施例所述的装置，所以也能达到第一实施例所述装置所能得到的技术效果，所以关于本实施例所述设备能够达到的技术效果在此也不再赘述。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是其与其他实施例的不同之处。尤其对于方法实施例而言，由于其基本相似与装置实施例，所以，描述的比较简单，相关之处参见装置实施例的部分说明即可。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

总之，以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种主动交互实现装置，应用于智能语音交互设备，其特征在于，包括：数据采集模块、身份和情绪识别模块、以及大数据引擎模块；

所述大数据引擎模块，用于根据所述数据采集模块实时采集的数据以及所述身份和情绪识别模块实时识别的所述用户身份和情绪识别结果，得到用户、智能语音交互设备及环境的状态信息，并将其输入到预先建立的与识别出的用户身份匹配的用户行为习惯模型中，以对用户的状态和/或行为进行预判，并根据预判结果，主动向用户提供与预判结果相匹配的服务；

所述智能语音交互设备的工作数据包括但不限于：设备信息、设备被调用的时间段、设备被调用时设备的状态、设备工作后用户环境的物理环境数据、被调用的服务的数据，设备的运动路径以及设备所在位置数据；

所述环境数据包括但不限于：用户所处环境中的温度、湿度、光线强度。

2.如权利要求1所述的装置，其特征在于，所述大数据引擎模块，具体用于确定与所述预判结果相匹配的服务，向用户发出是否需要所述服务的询问，并在确定出用户需要时，向用户提供所述服务。

3.如权利要求1或2所述的装置，其特征在于，向用户提供的与预判结果相匹配的服务，包括：内容服务和/或设备状态控制服务；所述设备状态控制服务包括：控制所述智能语音交互设备和/或与所述智能语音交互设备连接的设备到目标状态。

4.如权利要求3所述的装置，其特征在于，所述大数据引擎模块，具体用于调用内容服务接口传输控制指令，以实现对所述内容服务的控制与调用；和/ 或，调用设备控制接口传输控制指令，以实现将所述智能语音交互设备和/或与所述智能语音交互设备连接的设备控制到目标状态。

5.如权利要求1所述的装置，其特征在于，还包括：

6.如权利要求5所述的装置，其特征在于，所述用户模型模块，包括：数据解析单元和学习训练单元：

7.如权利要求1所述的装置，其特征在于，所述用于用户身份和情绪识别的数据，包括：用户的图像数据和/或语音数据；

8.如权利要求7所述的装置，其特征在于，

所述身份识别子模块，用于在得到两种数据类型下的两个初始的身份识别结果时，提取出每个身份识别结果中识别出的用户及识别出该用户的置信度信息，当两个身份识别结果中识别出的用户相同且置信度分别大于等于设定的对应数据类型的第一身份置信度阈值时，以共同识别出的用户作为最终的用户身份识别结果；当两个身份识别结果中有一个身份识别结果中识别出的用户的置信度大于等于设定的对应数据类型的第二身份置信度阈值时，以用户的置信度大于等于第二置信度身份阈值对应的用户，作为最终的用户身份识别结果，其中，同一数据类型下的第一身份置信度阈值小于第二身份置信度阈值。

9.如权利要求7所述的装置，其特征在于，所述情绪识别子模块，用于在得到两种数据类型下的两个初始的情绪识别结果时，提取出每个情绪识别结果中识别出的情绪类型及识别出该情绪类型的置信度信息，当两个情绪识别结果中识别出的情绪类型相同且置信度分别大于等于设定的对应数据类型的第一情绪置信度阈值时，以共同识别出的情绪类型作为最终的情绪识别结果；当两个情绪识别结果中有一个情绪识别结果中识别出的情绪类型的置信度大于设定的对应数据类型的第二情绪阈值时，以情绪类型的置信度大于第二情绪阈值的情绪类型，作为最终的情绪识别结果；其中，同一数据类型下的第一情绪置信度阈值小于第二情绪置信度阈值。

10.如权利要求9所述的装置，其特征在于，所述情绪识别子模块，还用于确定用户情绪识别结果中情绪类型的置信度，根据预设的情绪类型的置信度与情绪类型级别的对应关系，得到识别出的用户的情绪级别，并将其输出到所述大数据引擎模块。

11.一种智能语音交互设备，其特征在于，包括权利要求 1-10中任一项所述的主动交互实现装置。

12.一种主动交互实现方法，应用于智能语音交互设备，其特征在于，包括：

根据实时采集的各数据以及实时识别的所述用户身份和情绪识别结果，得到用户、智能语音交互设备及环境的状态信息，并将其输入到预先建立的与识别出的用户身份匹配的用户行为习惯模型中，以对用户的状态和/或行为进行预判，并根据预判结果，主动向用户提供与预判结果相匹配的服务；

13.如权利要求12所述的方法，其特征在于，所述根据预判结果，主动向用户提供与预判结果相匹配的服务，具体包括：确定与所述预判结果相匹配的服务，向用户发出是否需要所述服务的询问，并在确定出用户需要时，向用户提供所述服务。

14.如权利要求12或13所述的方法，其特征在于，向用户提供的与预判结果相匹配的服务，包括：内容服务和/或设备状态控制服务；所述设备状态控制服务包括：控制所述智能语音交互设备和/或与所述智能语音交互设备连接的设备到目标状态。

15.如权利要求14所述的方法，其特征在于，所述主动向用户提供与预判结果相匹配的服务，包括：调用内容服务接口传输控制指令，以实现对所述内容服务的控制与调用；和/或，调用设备控制接口传输控制指令，以实现将所述智能语音交互设备和/或与所述智能语音交互设备连接的设备控制到目标状态。

16.如权利要求12所述的方法，其特征在于，还包括：

根据历史采集数据、用户身份和情绪识别结果以及所述智能语音交互设备的历史语音交互数据，按用户构建用户行为习惯模型。

17.如权利要求16所述的方法，其特征在于，所述根据历史采集数据、用户身份和情绪识别结果以及所述智能语音交互设备的历史语音交互数据，按用户构建用户行为习惯模型，包括：

18.如权利要求12所述的方法，其特征在于，所述用于用户身份和情绪识别的数据，包括：用户的图像数据和/或语音数据；

19.如权利要求18所述的方法，其特征在于，所述基于得到的两个初始的身份识别结果，按照设定的身份判定策略，进行身份判定，得到最终的用户身份识别结果，包括：提取出每个身份识别结果中识别出的用户及识别出该用户的置信度信息，当两个身份识别结果中识别出的用户相同且置信度分别大于等于设定的对应数据类型的第一身份置信度阈值时，以共同识别出的用户作为最终的用户身份识别结果；当两个身份识别结果中有一个身份识别结果中识别出的用户的置信度大于等于设定的对应数据类型的第二身份置信度阈值时，以用户的置信度大于等于第二置信度身份阈值对应的用户，作为最终的用户身份识别结果，其中，同一数据类型下的第一身份置信度阈值小于第二身份置信度阈值。

20.如权利要求18所述的方法，其特征在于，所述基于得到的两个初始的情绪识别结果，按照设定的情绪判定策略，进行情绪判定，得到最终的用户情绪识别结果，包括：提取出每个情绪识别结果中识别出的情绪类型及识别出该情绪类型的置信度信息，当两个情绪识别结果中识别出的情绪类型相同且置信度分别大于等于设定的对应数据类型的第一情绪置信度阈值时，以共同识别出的情绪类型作为最终的情绪识别结果；当两个情绪识别结果中有一个情绪识别结果中识别出的情绪类型的置信度大于设定的对应数据类型的第二情绪阈值时，以情绪类型的置信度大于第二情绪阈值的情绪类型，作为最终的情绪识别结果；其中，同一数据类型下的第一情绪置信度阈值小于第二情绪置信度阈值。

21.如权利要求20所述的方法，其特征在于，在得到最终的情绪识别结果后，还包括：确定用户情绪识别结果中情绪类型的置信度，根据预设的情绪类型的置信度与情绪类型级别的对应关系，得到识别出的用户的情绪级别；