CN112733763A

CN112733763A - 人机语音交互的实现方法及装置、电子设备、存储介质

Info

Publication number: CN112733763A
Application number: CN202110055877.0A
Authority: CN
Inventors: 孙鹏; 李骊
Original assignee: Beijing HJIMI Technology Co Ltd
Current assignee: Beijing HJIMI Technology Co Ltd
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2021-04-30
Anticipated expiration: 2041-01-15
Also published as: CN112733763B

Abstract

本申请公开了一种人机语音交互的实现方法及装置、电子设备、存储介质，其中，所述方法包括：采集目标用户的彩色图像以及深度图像；从所述彩色图像中提取出所述目标用户的人脸关键信息，以及从所述深度图像中提取出所述目标用户的身体姿态信息；基于所述目标用户的人脸关键信息以及所述目标用户的身体姿态信息，识别所述目标用户是否处于任意一个目标状态；其中，所述目标状态包括目标情绪状态以及极端行为状态；所述目标情绪状态指代指定的不良情绪状态；若识别出所述目标用户处于任意一个目标状态，则启动语音对话模式，并向指定联系人发送提示信息。从而在用户出现不良情绪或者做出极端行为时，及时地自动与用户进行语音交互。

Description

人机语音交互的实现方法及装置、电子设备、存储介质

技术领域

本申请涉及语音交互技术领域，特别涉及一种人机语音交互的实现方法及装置、电子设备、存储介质。

背景技术

抑郁症是全球四大疾病之一，据统计全球目前有超过3亿人患有抑郁症，每年都有出现许多抑郁症患者自残、或者自杀的事件。

对于抑郁症患者，需要经常有人与其进行沟通，特别在出现情绪低落或者抑郁时，与他人进行沟通，能有效地避免患者做出自残等极端行为。但是，有患者出现抑郁的时间点不一定，而大部分情况下又无法保证有人在身边，并且患者也相对排斥与他人沟通。所以，相对较好的方式，则是与设备进行语音交互。

但是，现今的设备的语音交互方式，主要都是针对使用设备的逻辑实现的语音交互，并且都需要人为主动先发起唤醒词进行唤醒后，才能语音交互，而抑郁症患者情绪较差时，不可能主动发起唤醒词进行语音交互，所以现有人机语音交互方式并不能很好的适用于抑郁症患者。

发明内容

基于上述现有技术的不足，本申请提供了一种人机语音交互的实现方法及装置、电子设备、存储介质，以解决现有的方式需要人为主动唤醒，不适用于抑郁症患者的问题。

为了实现上述目的，本申请提供了以下技术方案：

本申请第一方面提供了一种人机语音交互的实现方法，包括：

采集目标用户的彩色图像以及深度图像；

从所述彩色图像中提取出所述目标用户的人脸关键信息，以及从所述深度图像中提取出所述目标用户的身体姿态信息；

基于所述目标用户的人脸关键信息以及所述目标用户的身体姿态信息，识别所述目标用户是否处于任意一个目标状态；其中，所述目标状态包括目标情绪状态以及极端行为状态；所述目标情绪状态指代指定的不良情绪状态；

若识别出所述目标用户处于任意一个目标状态，则启动语音对话模式，并向指定联系人发送提示信息。

可选地，在上述的人机语音交互的实现方法中，所述基于所述目标用户的人脸关键信息以及所述目标用户的身体姿态信息，识别所述目标用户是否处于任意一个目标状态，包括：

基于所述目标用户的人脸关键信息，识别所述目标用户是否处于所述目标情绪状态，以及基于所述目标用户的身体姿态信息，识别所述目标用户是否处于所述极端行为状态。

可选地，在上述的人机语音交互的实现方法中，所述基于所述目标用户的人脸关键信息，识别所述目标用户是否处于所述目标情绪状态，包括：

将所述目标用户的人脸关键信息输入第一神经网络模型中进行计算，得到第一数值；其中，若所述第一数值大于第一预设阈值，则识别出所述目标用户处于所述目标情绪状态；所述第一神经网络模型预先通过在各个指定的不同情绪状态下采集到的人脸关键信息训练得到。

可选地，在上述的人机语音交互的实现方法中，基于所述目标用户的身体姿态信息，识别所述目标用户是否处于所述极端行为状态，包括：

将所述目标用户的身体姿态信息输入第二神经网络模型中进行计算，得到第二数值；其中，若所述第二数值大于第二预设阈值，则识别出所述目标用户处于所述极端行为状态；所述第二神经网络模型预先通过在多个极端行为对应的身体姿态信息训练得到。

可选地，在上述的人机语音交互的实现方法中，所述启动语音对话模式，包括：

输出与所述目标用户所处的目标状态对应的，且在本次对话模式下未输出过的对话语音；

监测在预设时间段内是否接收到所述目标用户的语音；

若在预设时间间隔段内接收到所述目标用户的语音，则输出与所述目标用户的语音对应的，且在本次对话模式下未输出过的对话语音，并返回执行所述监测在预设时间段内是否接收到所述目标用户的语音；

若在预设时间间隔段内未接收到所述目标用户的语音，则返回执行所述输出与所述目标用户所处的目标状态对应的，且在本次对话模式下未输出过的对话语音。

本申请第二方面提供了一种人机语音交互的实现装置，包括：

采集单元，用于采集目标用户的彩色图像以及深度图像；

提取单元，用于从所述彩色图像中提取出所述目标用户的人脸关键信息，以及从所述深度图像中提取出所述目标用户的身体姿态信息；

识别单元，用于基于所述目标用户的人脸关键信息以及所述目标用户的身体姿态信息，识别所述目标用户是否处于任意一个目标状态；其中，所述目标状态包括目标情绪状态以及极端行为状态；所述目标情绪状态指代指定的不良情绪状态；

语音单元，用于在所述识别单元识别出所述目标用户处于任意一个目标状态时，启动语音对话模式，并向指定联系人发送提示信息。

可选地，在上述的人机语音交互的实现装置中，所述识别单元，包括：

识别子单元，用于基于所述目标用户的人脸关键信息，识别所述目标用户是否处于所述目标情绪状态，以及基于所述目标用户的身体姿态信息，识别所述目标用户是否处于所述极端行为状态。

可选地，在上述的人机语音交互的实现装置中，所述识别子单元执行所述基于所述目标用户的人脸关键信息，识别所述目标用户是否处于所述目标情绪状态时，用于：

可选地，在上述的人机语音交互的实现装置中，所述识别子单元执行所述基于所述目标用户的身体姿态信息，识别所述目标用户是否处于所述极端行为状态时，用于：

可选地，在上述的人机语音交互的实现装置中，所述语音单元，包括：

提示单元，用于向指定联系人发送提示信息；

第一语音输出单元，用于输出与所述目标用户所处的目标状态对应的，且在本次对话模式下未输出过的对话语音；

监测单元，用于监测在预设时间段内是否接收到所述目标用户的语音；

第二语音输出单元，用于在所述监测单元监测到在预设时间间隔段内接收到所述目标用户的语音时，输出与所述目标用户的语音对应的，且在本次对话模式下未输出过的对话语音，并返回所述监测单元执行所述监测在预设时间段内是否接收到所述目标用户的语音；

返回单元，用于在所述监测单元监测到在预设时间间隔段内未接收到所述目标用户的语音时，则返回第一语音输出单元执行所述输出与所述目标用户所处的目标状态对应的，且在本次对话模式下未输出过的对话语音。

本申请第三方面提供了一种电子设备，包括：

存储器和处理器；

其中，所述存储器用于存储程序；

所述处理器用于执行所述程序，所述程序被执行时，具体用于实现如上述任意一项所述的人机语音交互的实现方法。

本申请第四方面提供了一种计算机存储介质，其特征在于，用于存储计算机程序，所述计算机程序被执行时，用于实现如上述任意一项所述的人机语音交互的实现方法。

本申请提供的一种人际语音交互的实现方法，通过采集目标用户的彩色图像以及深度图像，然后从彩色图像中提取出目标用户的人脸关键信息，以及从深度图像中提取出目标用户的身体姿态信息，进而可以基于目标用户的人脸关键信息以及目标用户的身体姿态信息，识别目标用户是否处于任意一个目标状态，其中，目标状态包括目标情绪状态以及极端行为状态，目标情绪状态指代指定的不良情绪状态；在识别出目标用户处于任意一个目标状态时，则自动启动语音对话模式，与目标用户间语音交互，并向指定联系人发送提示信息，从而可以在用户出现不良情绪或者做出极端行为时，可以及时地自动与用户进行语音交互，不需要用户进行唤醒，非常适用于抑郁症患者。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种人机语音交互的实现方法的流程图；

图2为本申请实施例提供的一种启动语音模式的流程图；

图3为本申请另一实施例提供的另一种人机语音交互的实现方法的流程图；

图4为本申请另一实施例提供的一种人机语音交互的实现装置的结构示意图；

图5为本申请另一实施例提供的一种语音单元的结构示意图；

图6为本申请另一实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本申请实施例提供了一种人机语音交互的实现方法，如图1所示，具体包括以下步骤：

S101、采集目标用户的彩色图像以及深度图像。

其中，彩色图像即为普通摄像机所拍摄的图像，图像中的每个像素值都分成红色、绿色、蓝色三个基色分量，并且每个通道取值范围0～255。深度图像也被称为距离影像，是指将从图像采集器到场景中各点的距离作为像素值的图像，它直接反映了景物可见表面的几何形状。

具体的，可以通过摄像机采集目标用户的彩色图像以及深度图像。需要说明的是，由于需要从彩色图像中提取目标用户的人脸关键信息，所以采集的彩色图像主要采集的是目标用户的人脸图像。而由于需要从深度图像中提取出目标用户的身体姿态信息，所以采集的深度图像为目标用户的全身图像。

S102、从彩色图像中提取出目标用户的人脸关键信息，以及从深度图像中提取出目标用户的身体姿态信息。

具体的，从彩色图像中检测并提取出目标用户的人脸图像，具体可以通过训练级联分类器对彩色图像中的每一块进行分类，如果某一矩形区域通过了级联分类器，则被判别为人脸图像。然后，从目标用户的人脸图像中提取出人脸关键信息。其中，提取的人脸关键信息为指定的人脸信息，具体可以几何特征，例如：眼睛、鼻子和嘴等面部特征之间的几何关系，如他们之间的距离、面积和角度等。当然，提取的人脸关键信息也可以是表征特征，具体可以通过现有的算法，基于图像的灰度进行提取。当然，提取的人脸关键信息也可以同时包括几何特征和表征特征。

同理，从深度图像中提取出目标用户的身体姿态信息，但不需要先识别出人脸图像。

S103、基于目标用户的人脸关键信息以及目标用户的身体姿态信息，识别目标用户是否处于任意一个目标状态，目标状态包括目标情绪状态以及极端行为状态。

其中，目标情绪状态指代指定的不良情绪状态，具体可以包括情绪低落、抑郁等不良情绪下的状态。极端行为状态则表征目标用户在进行极端行为，例如自残或自杀等极端行为。

需要说明的是，本申请实施例中，基于目标用户的人脸关键信息，识别目标用户是否处于目标情绪状态，而基于目标用户的身体姿态信息，识别目标用户是否处于极端行为状态。

可选地，可以是将提取到的目标用户的人脸关键信息以及身体姿态信息，分别与对应的预选构建的特征库中的特征进行对比，识别目标用户是否处于目标情绪状态，以及是否处于极端行为状态。当然，也可以分别通过相应的训练好的神经网络模型，对目标用户的人脸关键信息以及身体姿态信息进行计算，识别目标用户是否处于目标情绪状态以及识别目标用户是否处于极端行为状态。

S104、判断是否识别出目标用户处于任意一个目标状态。

其中，若识别出目标用户处于任意一个目标状态，则执行步骤S105。

S105、启动语音对话模式，并向指定联系人发送提示信息。

具体的，启动语音对话模式，主动向目标用户发起对话，向目标用户输出安抚性、开导性等语音，从而与目标用户进行沟通，并且及时向指定联系人发送提示信息，提醒联系人做出相关处理。

可选地，本申请另一实施例中，步骤S105中的启动语音对话模式的一种实施方式，具体如图2所示，包括以下步骤：

S201、输出与目标用户所处的目标状态对应的，且在本次对话模式下未输出过的对话语音。

可选地，若目标用户同时处于两个目标状态下，在输出的对话语音可以同时考虑两个目标状态，即输出的对话语音同时与两个目标状态对应。当然，也可以仅针对其中一个目标状态，例如可以仅针对极端行为状态，因为极端行为状态相比目标情绪状态，造成的后果通常更加的严重。

需要说明的是，输出与目标用户所处的目标状态对应的对话语音，能更好地让目标用户参与到对话中，更好地安抚目标用户的情绪。

S202、监测在预设时间段内是否接收到目标用户的语音。

其中，若在预设时间间隔段内接收到目标用户的语音，则执行步骤S203与目标用户进行沟通。若在预设时间间隔段内未接收到目标用户的语音，说明目标用户未能及时参与到对话中，所以需要再次尝试让用户进行人机语音交互，因此此时返回步骤S201。

S203、输出与目标用户的语音对应的，且在本次对话模式下未输出过的对话语音。

具体的，对当前接收到的目标用户的语音进行分析，构建出与目标用户的语音对应的对话语音并输出，从而与目标用户进行相互地沟通。

其中，在执行步骤S203后，则并返回步骤S202。

本申请实施例提供的一种人际语音交互的实现方法，通过采集目标用户的彩色图像以及深度图像，然后从彩色图像中提取出目标用户的人脸关键信息，以及从深度图像中提取出所述目标用户的身体姿态信息，进而可以基于目标用户的人脸关键信息以及目标用户的身体姿态信息，识别目标用户是否处于任意一个目标状态，其中，目标状态包括目标情绪状态以及极端行为状态，目标情绪状态指代指定的不良情绪状态；在识别出目标用户处于任意一个目标状态时，则自动启动语音对话模式，与目标用户间语音交互，并向指定联系人发送提示信息，从而可以在用户出现不良情绪或者做出极端行为时，可以及时地自动与用户进行语音交互，不需要用户进行唤醒，非常适用于抑郁症患者。

本申请另一实施例提供了另一种人机语音交互的实现方法，如图3所示，具体包括以下步骤：

S301、采集目标用户的彩色图像以及深度图像。

需要说明的是，步骤S301的具体工作过程可相应地参考步骤S101的具体实施过程，此处不再赘述。

S302、从彩色图像中提取出目标用户的人脸关键信息，以及从深度图像中提取出目标用户的身体姿态信息。

需要说明的是，步骤S302的具体工作过程可相应地参考步骤S102的具体实施过程，此处不再赘述。

S303、基于目标用户的人脸关键信息，识别目标用户是否处于目标情绪状态，得到第一识别结果。

具体的，在本申请实施例中，将目标用户的人脸关键信息输入第一神经网络模型中进行计算，得到第一数值。若第一数值大于第一预设阈值，则生成目标用户处于目标情绪状态的第一识别结果。

其中，第一神经网络模型预先通过在各个指定的不同情绪状态下采集到的人脸关键信息训练得到。

S304、基于目标用户的身体姿态信息，识别目标用户是否处于极端行为状态，得到第二识别结果。

具体的，将目标用户的身体姿态信息输入第二神经网络模型中进行计算，得到第二数值。若第二数值大于第二预设阈值，则生成目标用户处于极端行为状态的第二识别结果。

其中，第二神经网络模型预先通过在多个极端行为对应的身体姿态信息训练得到。

需要说明的是，步骤S303和步骤S304是两个独立的步骤，所以本申请中这两个步骤的执行顺序仅是其中一种可选的方式。

S305、基于第一识别结果和第二识别结果，判断是否识别出目标用户处于任意一个目标状态。

其中，若识别出目标用户处于任意一个目标状态，则执行步骤S306。

S306、输出与目标用户所处的目标状态对应的，且在本次对话模式下未输出过的对话语音。

需要说明的是，步骤S306的具体实施过程可相应地步骤S201的具体实施过程，此处不再赘述。

S307、监测在预设时间段内是否接收到目标用户的语音。

其中，若在预设时间间隔段内接收到目标用户的语音，则执行步骤S308。若在预设时间间隔段内未接收到所述目标用户的语音，则返回执行步骤S306。

S308、输出与目标用户的语音对应的，且在本次对话模式下未输出过的对话语音。

需要说明的是，在执行步骤S308后，返回执行步骤S307。

可选地，可以是在接收到用户触发的终止指令时，则关闭对话模式。

本申请另一实施例提供了一种人机语音交互的实现装置，如图4所示，包括以下单元：

采集单元401，用于采集目标用户的彩色图像以及深度图像。

提取单元402，用于从所述彩色图像中提取出所述目标用户的人脸关键信息，以及从所述深度图像中提取出所述目标用户的身体姿态信息。

识别单元403，用于基于所述目标用户的人脸关键信息以及所述目标用户的身体姿态信息，识别所述目标用户是否处于任意一个目标状态。

其中，所述目标状态包括目标情绪状态以及极端行为状态；所述目标情绪状态指代指定的不良情绪状态。

语音单元404，用于在所述识别单元识别403出所述目标用户处于任意一个目标状态时，启动语音对话模式，并向指定联系人发送提示信息。

可选地，在本申请另一实施例提供的人机语音交互的实现装置中，识别单元，包括：

可选地，本申请另一实施例提供的人机语音交互的实现装置中的识别子单元执行所述基于所述目标用户的人脸关键信息，识别所述目标用户是否处于所述目标情绪状态时，用于：

将所述目标用户的人脸关键信息输入第一神经网络模型中进行计算，得到第一数值。

其中，若所述第一数值大于第一预设阈值，则识别出所述目标用户处于所述目标情绪状态。所述第一神经网络模型预先通过在各个指定的不同情绪状态下采集到的人脸关键信息训练得到。

可选地，本申请另一实施例提供的人机语音交互的实现装置中的识别子单元执行所述基于所述目标用户的身体姿态信息，识别所述目标用户是否处于所述极端行为状态时，用于：

将所述目标用户的身体姿态信息输入第二神经网络模型中进行计算，得到第二数值。

其中，若所述第二数值大于第二预设阈值，则识别出所述目标用户处于所述极端行为状态。所述第二神经网络模型预先通过在多个极端行为对应的身体姿态信息训练得到。

可选地，本申请另一实施例提供的人机语音交互的实现装置中的语音单元，如图5所示，包括以下单元：

提示单元501，用于向指定联系人发送提示信息。

第一语音输出单元502，用于输出与所述目标用户所处的目标状态对应的，且在本次对话模式下未输出过的对话语音。

监测单元503，用于监测在预设时间段内是否接收到所述目标用户的语音。

第二语音输出单元504，用于在所述监测单元503监测到在预设时间间隔段内接收到所述目标用户的语音时，输出与所述目标用户的语音对应的，且在本次对话模式下未输出过的对话语音，并返回所述监测单元执行所述监测在预设时间段内是否接收到所述目标用户的语音；

返回单元505，用于在所述监测单元503监测到在预设时间间隔段内未接收到所述目标用户的语音时，则返回第一语音输出单元执行所述输出与所述目标用户所处的目标状态对应的，且在本次对话模式下未输出过的对话语音。

本申请另一实施例提供了一种电子设备，如图6所示，包括：

存储器601和处理器602。

其中，存储器601用于存储程序，处理器602用于执行存储器601存储的所述程序，并且该程序被执行时，具体用于实现如上述任意一个实施例提供的人机语音交互的实现方法。

本申请另一实施例提供了一种计算机存储介质，用于存储计算机程序，该计算机程序被执行时，用于实现如上述任意一个实施例提供的人机语音交互的实现方法。

计算机存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种人机语音交互的实现方法，其特征在于，包括：

采集目标用户的彩色图像以及深度图像；

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标用户的人脸关键信息以及所述目标用户的身体姿态信息，识别所述目标用户是否处于任意一个目标状态，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述目标用户的人脸关键信息，识别所述目标用户是否处于所述目标情绪状态，包括：

4.根据权利要求2所述的方法，其特征在于，基于所述目标用户的身体姿态信息，识别所述目标用户是否处于所述极端行为状态，包括：

5.根据权利要求1所述的方法，其特征在于，所述启动语音对话模式，包括：

监测在预设时间段内是否接收到所述目标用户的语音；

6.一种人机语音交互的实现装置，其特征在于，包括：

采集单元，用于采集目标用户的彩色图像以及深度图像；

7.根据权利要求6所述的装置，其特征在于，所述识别单元，包括：

8.根据权利要求6所述的装置，其特征在于，所述语音单元，包括：

提示单元，用于向指定联系人发送提示信息；

9.一种电子设备，其特征在于，包括：

存储器和处理器；

其中，所述存储器用于存储程序；

所述处理器用于执行所述程序，所述程序被执行时，具体用于实现如权利要求1至5任意一项所述的人机语音交互的实现方法。

10.一种计算机存储介质，其特征在于，用于存储计算机程序，所述计算机程序被执行时，用于实现如权利要求1至5任意一项所述的人机语音交互的实现方法。