CN112733763A - 人机语音交互的实现方法及装置、电子设备、存储介质 - Google Patents

人机语音交互的实现方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN112733763A
CN112733763A CN202110055877.0A CN202110055877A CN112733763A CN 112733763 A CN112733763 A CN 112733763A CN 202110055877 A CN202110055877 A CN 202110055877A CN 112733763 A CN112733763 A CN 112733763A
Authority
CN
China
Prior art keywords
target user
target
voice
state
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110055877.0A
Other languages
English (en)
Other versions
CN112733763B (zh
Inventor
孙鹏
李骊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing HJIMI Technology Co Ltd
Original Assignee
Beijing HJIMI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing HJIMI Technology Co Ltd filed Critical Beijing HJIMI Technology Co Ltd
Priority to CN202110055877.0A priority Critical patent/CN112733763B/zh
Publication of CN112733763A publication Critical patent/CN112733763A/zh
Application granted granted Critical
Publication of CN112733763B publication Critical patent/CN112733763B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/70Multimodal biometrics, e.g. combining information from different biometric modalities
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61MDEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
    • A61M21/00Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis
    • A61M21/02Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis for inducing sleep or relaxation, e.g. by direct nerve stimulation, hypnosis, analgesia
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • G16H40/67ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for remote operation
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61MDEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
    • A61M21/00Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis
    • A61M2021/0005Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis by the use of a particular sense, or stimulus
    • A61M2021/0027Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis by the use of a particular sense, or stimulus by the hearing sense

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Anesthesiology (AREA)
  • Veterinary Medicine (AREA)
  • Animal Behavior & Ethology (AREA)
  • Acoustics & Sound (AREA)
  • Psychology (AREA)
  • Multimedia (AREA)
  • Hematology (AREA)
  • Pain & Pain Management (AREA)
  • Human Computer Interaction (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种人机语音交互的实现方法及装置、电子设备、存储介质,其中,所述方法包括:采集目标用户的彩色图像以及深度图像;从所述彩色图像中提取出所述目标用户的人脸关键信息,以及从所述深度图像中提取出所述目标用户的身体姿态信息;基于所述目标用户的人脸关键信息以及所述目标用户的身体姿态信息,识别所述目标用户是否处于任意一个目标状态;其中,所述目标状态包括目标情绪状态以及极端行为状态;所述目标情绪状态指代指定的不良情绪状态;若识别出所述目标用户处于任意一个目标状态,则启动语音对话模式,并向指定联系人发送提示信息。从而在用户出现不良情绪或者做出极端行为时,及时地自动与用户进行语音交互。

Description

人机语音交互的实现方法及装置、电子设备、存储介质
技术领域
本申请涉及语音交互技术领域,特别涉及一种人机语音交互的实现方法及装置、电子设备、存储介质。
背景技术
抑郁症是全球四大疾病之一,据统计全球目前有超过3亿人患有抑郁症,每年都有出现许多抑郁症患者自残、或者自杀的事件。
对于抑郁症患者,需要经常有人与其进行沟通,特别在出现情绪低落或者抑郁时,与他人进行沟通,能有效地避免患者做出自残等极端行为。但是,有患者出现抑郁的时间点不一定,而大部分情况下又无法保证有人在身边,并且患者也相对排斥与他人沟通。所以,相对较好的方式,则是与设备进行语音交互。
但是,现今的设备的语音交互方式,主要都是针对使用设备的逻辑实现的语音交互,并且都需要人为主动先发起唤醒词进行唤醒后,才能语音交互,而抑郁症患者情绪较差时,不可能主动发起唤醒词进行语音交互,所以现有人机语音交互方式并不能很好的适用于抑郁症患者。
发明内容
基于上述现有技术的不足,本申请提供了一种人机语音交互的实现方法及装置、电子设备、存储介质,以解决现有的方式需要人为主动唤醒,不适用于抑郁症患者的问题。
为了实现上述目的,本申请提供了以下技术方案:
本申请第一方面提供了一种人机语音交互的实现方法,包括:
采集目标用户的彩色图像以及深度图像;
从所述彩色图像中提取出所述目标用户的人脸关键信息,以及从所述深度图像中提取出所述目标用户的身体姿态信息;
基于所述目标用户的人脸关键信息以及所述目标用户的身体姿态信息,识别所述目标用户是否处于任意一个目标状态;其中,所述目标状态包括目标情绪状态以及极端行为状态;所述目标情绪状态指代指定的不良情绪状态;
若识别出所述目标用户处于任意一个目标状态,则启动语音对话模式,并向指定联系人发送提示信息。
可选地,在上述的人机语音交互的实现方法中,所述基于所述目标用户的人脸关键信息以及所述目标用户的身体姿态信息,识别所述目标用户是否处于任意一个目标状态,包括:
基于所述目标用户的人脸关键信息,识别所述目标用户是否处于所述目标情绪状态,以及基于所述目标用户的身体姿态信息,识别所述目标用户是否处于所述极端行为状态。
可选地,在上述的人机语音交互的实现方法中,所述基于所述目标用户的人脸关键信息,识别所述目标用户是否处于所述目标情绪状态,包括:
将所述目标用户的人脸关键信息输入第一神经网络模型中进行计算,得到第一数值;其中,若所述第一数值大于第一预设阈值,则识别出所述目标用户处于所述目标情绪状态;所述第一神经网络模型预先通过在各个指定的不同情绪状态下采集到的人脸关键信息训练得到。
可选地,在上述的人机语音交互的实现方法中,基于所述目标用户的身体姿态信息,识别所述目标用户是否处于所述极端行为状态,包括:
将所述目标用户的身体姿态信息输入第二神经网络模型中进行计算,得到第二数值;其中,若所述第二数值大于第二预设阈值,则识别出所述目标用户处于所述极端行为状态;所述第二神经网络模型预先通过在多个极端行为对应的身体姿态信息训练得到。
可选地,在上述的人机语音交互的实现方法中,所述启动语音对话模式,包括:
输出与所述目标用户所处的目标状态对应的,且在本次对话模式下未输出过的对话语音;
监测在预设时间段内是否接收到所述目标用户的语音;
若在预设时间间隔段内接收到所述目标用户的语音,则输出与所述目标用户的语音对应的,且在本次对话模式下未输出过的对话语音,并返回执行所述监测在预设时间段内是否接收到所述目标用户的语音;
若在预设时间间隔段内未接收到所述目标用户的语音,则返回执行所述输出与所述目标用户所处的目标状态对应的,且在本次对话模式下未输出过的对话语音。
本申请第二方面提供了一种人机语音交互的实现装置,包括:
采集单元,用于采集目标用户的彩色图像以及深度图像;
提取单元,用于从所述彩色图像中提取出所述目标用户的人脸关键信息,以及从所述深度图像中提取出所述目标用户的身体姿态信息;
识别单元,用于基于所述目标用户的人脸关键信息以及所述目标用户的身体姿态信息,识别所述目标用户是否处于任意一个目标状态;其中,所述目标状态包括目标情绪状态以及极端行为状态;所述目标情绪状态指代指定的不良情绪状态;
语音单元,用于在所述识别单元识别出所述目标用户处于任意一个目标状态时,启动语音对话模式,并向指定联系人发送提示信息。
可选地,在上述的人机语音交互的实现装置中,所述识别单元,包括:
识别子单元,用于基于所述目标用户的人脸关键信息,识别所述目标用户是否处于所述目标情绪状态,以及基于所述目标用户的身体姿态信息,识别所述目标用户是否处于所述极端行为状态。
可选地,在上述的人机语音交互的实现装置中,所述识别子单元执行所述基于所述目标用户的人脸关键信息,识别所述目标用户是否处于所述目标情绪状态时,用于:
将所述目标用户的人脸关键信息输入第一神经网络模型中进行计算,得到第一数值;其中,若所述第一数值大于第一预设阈值,则识别出所述目标用户处于所述目标情绪状态;所述第一神经网络模型预先通过在各个指定的不同情绪状态下采集到的人脸关键信息训练得到。
可选地,在上述的人机语音交互的实现装置中,所述识别子单元执行所述基于所述目标用户的身体姿态信息,识别所述目标用户是否处于所述极端行为状态时,用于:
将所述目标用户的身体姿态信息输入第二神经网络模型中进行计算,得到第二数值;其中,若所述第二数值大于第二预设阈值,则识别出所述目标用户处于所述极端行为状态;所述第二神经网络模型预先通过在多个极端行为对应的身体姿态信息训练得到。
可选地,在上述的人机语音交互的实现装置中,所述语音单元,包括:
提示单元,用于向指定联系人发送提示信息;
第一语音输出单元,用于输出与所述目标用户所处的目标状态对应的,且在本次对话模式下未输出过的对话语音;
监测单元,用于监测在预设时间段内是否接收到所述目标用户的语音;
第二语音输出单元,用于在所述监测单元监测到在预设时间间隔段内接收到所述目标用户的语音时,输出与所述目标用户的语音对应的,且在本次对话模式下未输出过的对话语音,并返回所述监测单元执行所述监测在预设时间段内是否接收到所述目标用户的语音;
返回单元,用于在所述监测单元监测到在预设时间间隔段内未接收到所述目标用户的语音时,则返回第一语音输出单元执行所述输出与所述目标用户所处的目标状态对应的,且在本次对话模式下未输出过的对话语音。
本申请第三方面提供了一种电子设备,包括:
存储器和处理器;
其中,所述存储器用于存储程序;
所述处理器用于执行所述程序,所述程序被执行时,具体用于实现如上述任意一项所述的人机语音交互的实现方法。
本申请第四方面提供了一种计算机存储介质,其特征在于,用于存储计算机程序,所述计算机程序被执行时,用于实现如上述任意一项所述的人机语音交互的实现方法。
本申请提供的一种人际语音交互的实现方法,通过采集目标用户的彩色图像以及深度图像,然后从彩色图像中提取出目标用户的人脸关键信息,以及从深度图像中提取出目标用户的身体姿态信息,进而可以基于目标用户的人脸关键信息以及目标用户的身体姿态信息,识别目标用户是否处于任意一个目标状态,其中,目标状态包括目标情绪状态以及极端行为状态,目标情绪状态指代指定的不良情绪状态;在识别出目标用户处于任意一个目标状态时,则自动启动语音对话模式,与目标用户间语音交互,并向指定联系人发送提示信息,从而可以在用户出现不良情绪或者做出极端行为时,可以及时地自动与用户进行语音交互,不需要用户进行唤醒,非常适用于抑郁症患者。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种人机语音交互的实现方法的流程图;
图2为本申请实施例提供的一种启动语音模式的流程图;
图3为本申请另一实施例提供的另一种人机语音交互的实现方法的流程图;
图4为本申请另一实施例提供的一种人机语音交互的实现装置的结构示意图;
图5为本申请另一实施例提供的一种语音单元的结构示意图;
图6为本申请另一实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本申请实施例提供了一种人机语音交互的实现方法,如图1所示,具体包括以下步骤:
S101、采集目标用户的彩色图像以及深度图像。
其中,彩色图像即为普通摄像机所拍摄的图像,图像中的每个像素值都分成红色、绿色、蓝色三个基色分量,并且每个通道取值范围0~255。深度图像也被称为距离影像,是指将从图像采集器到场景中各点的距离作为像素值的图像,它直接反映了景物可见表面的几何形状。
具体的,可以通过摄像机采集目标用户的彩色图像以及深度图像。需要说明的是,由于需要从彩色图像中提取目标用户的人脸关键信息,所以采集的彩色图像主要采集的是目标用户的人脸图像。而由于需要从深度图像中提取出目标用户的身体姿态信息,所以采集的深度图像为目标用户的全身图像。
S102、从彩色图像中提取出目标用户的人脸关键信息,以及从深度图像中提取出目标用户的身体姿态信息。
具体的,从彩色图像中检测并提取出目标用户的人脸图像,具体可以通过训练级联分类器对彩色图像中的每一块进行分类,如果某一矩形区域通过了级联分类器,则被判别为人脸图像。然后,从目标用户的人脸图像中提取出人脸关键信息。其中,提取的人脸关键信息为指定的人脸信息,具体可以几何特征,例如:眼睛、鼻子和嘴等面部特征之间的几何关系,如他们之间的距离、面积和角度等。当然,提取的人脸关键信息也可以是表征特征,具体可以通过现有的算法,基于图像的灰度进行提取。当然,提取的人脸关键信息也可以同时包括几何特征和表征特征。
同理,从深度图像中提取出目标用户的身体姿态信息,但不需要先识别出人脸图像。
S103、基于目标用户的人脸关键信息以及目标用户的身体姿态信息,识别目标用户是否处于任意一个目标状态,目标状态包括目标情绪状态以及极端行为状态。
其中,目标情绪状态指代指定的不良情绪状态,具体可以包括情绪低落、抑郁等不良情绪下的状态。极端行为状态则表征目标用户在进行极端行为,例如自残或自杀等极端行为。
需要说明的是,本申请实施例中,基于目标用户的人脸关键信息,识别目标用户是否处于目标情绪状态,而基于目标用户的身体姿态信息,识别目标用户是否处于极端行为状态。
可选地,可以是将提取到的目标用户的人脸关键信息以及身体姿态信息,分别与对应的预选构建的特征库中的特征进行对比,识别目标用户是否处于目标情绪状态,以及是否处于极端行为状态。当然,也可以分别通过相应的训练好的神经网络模型,对目标用户的人脸关键信息以及身体姿态信息进行计算,识别目标用户是否处于目标情绪状态以及识别目标用户是否处于极端行为状态。
S104、判断是否识别出目标用户处于任意一个目标状态。
其中,若识别出目标用户处于任意一个目标状态,则执行步骤S105。
S105、启动语音对话模式,并向指定联系人发送提示信息。
具体的,启动语音对话模式,主动向目标用户发起对话,向目标用户输出安抚性、开导性等语音,从而与目标用户进行沟通,并且及时向指定联系人发送提示信息,提醒联系人做出相关处理。
可选地,本申请另一实施例中,步骤S105中的启动语音对话模式的一种实施方式,具体如图2所示,包括以下步骤:
S201、输出与目标用户所处的目标状态对应的,且在本次对话模式下未输出过的对话语音。
可选地,若目标用户同时处于两个目标状态下,在输出的对话语音可以同时考虑两个目标状态,即输出的对话语音同时与两个目标状态对应。当然,也可以仅针对其中一个目标状态,例如可以仅针对极端行为状态,因为极端行为状态相比目标情绪状态,造成的后果通常更加的严重。
需要说明的是,输出与目标用户所处的目标状态对应的对话语音,能更好地让目标用户参与到对话中,更好地安抚目标用户的情绪。
S202、监测在预设时间段内是否接收到目标用户的语音。
其中,若在预设时间间隔段内接收到目标用户的语音,则执行步骤S203与目标用户进行沟通。若在预设时间间隔段内未接收到目标用户的语音,说明目标用户未能及时参与到对话中,所以需要再次尝试让用户进行人机语音交互,因此此时返回步骤S201。
S203、输出与目标用户的语音对应的,且在本次对话模式下未输出过的对话语音。
具体的,对当前接收到的目标用户的语音进行分析,构建出与目标用户的语音对应的对话语音并输出,从而与目标用户进行相互地沟通。
其中,在执行步骤S203后,则并返回步骤S202。
本申请实施例提供的一种人际语音交互的实现方法,通过采集目标用户的彩色图像以及深度图像,然后从彩色图像中提取出目标用户的人脸关键信息,以及从深度图像中提取出所述目标用户的身体姿态信息,进而可以基于目标用户的人脸关键信息以及目标用户的身体姿态信息,识别目标用户是否处于任意一个目标状态,其中,目标状态包括目标情绪状态以及极端行为状态,目标情绪状态指代指定的不良情绪状态;在识别出目标用户处于任意一个目标状态时,则自动启动语音对话模式,与目标用户间语音交互,并向指定联系人发送提示信息,从而可以在用户出现不良情绪或者做出极端行为时,可以及时地自动与用户进行语音交互,不需要用户进行唤醒,非常适用于抑郁症患者。
本申请另一实施例提供了另一种人机语音交互的实现方法,如图3所示,具体包括以下步骤:
S301、采集目标用户的彩色图像以及深度图像。
需要说明的是,步骤S301的具体工作过程可相应地参考步骤S101的具体实施过程,此处不再赘述。
S302、从彩色图像中提取出目标用户的人脸关键信息,以及从深度图像中提取出目标用户的身体姿态信息。
需要说明的是,步骤S302的具体工作过程可相应地参考步骤S102的具体实施过程,此处不再赘述。
S303、基于目标用户的人脸关键信息,识别目标用户是否处于目标情绪状态,得到第一识别结果。
具体的,在本申请实施例中,将目标用户的人脸关键信息输入第一神经网络模型中进行计算,得到第一数值。若第一数值大于第一预设阈值,则生成目标用户处于目标情绪状态的第一识别结果。
其中,第一神经网络模型预先通过在各个指定的不同情绪状态下采集到的人脸关键信息训练得到。
S304、基于目标用户的身体姿态信息,识别目标用户是否处于极端行为状态,得到第二识别结果。
具体的,将目标用户的身体姿态信息输入第二神经网络模型中进行计算,得到第二数值。若第二数值大于第二预设阈值,则生成目标用户处于极端行为状态的第二识别结果。
其中,第二神经网络模型预先通过在多个极端行为对应的身体姿态信息训练得到。
需要说明的是,步骤S303和步骤S304是两个独立的步骤,所以本申请中这两个步骤的执行顺序仅是其中一种可选的方式。
S305、基于第一识别结果和第二识别结果,判断是否识别出目标用户处于任意一个目标状态。
其中,若识别出目标用户处于任意一个目标状态,则执行步骤S306。
S306、输出与目标用户所处的目标状态对应的,且在本次对话模式下未输出过的对话语音。
需要说明的是,步骤S306的具体实施过程可相应地步骤S201的具体实施过程,此处不再赘述。
S307、监测在预设时间段内是否接收到目标用户的语音。
其中,若在预设时间间隔段内接收到目标用户的语音,则执行步骤S308。若在预设时间间隔段内未接收到所述目标用户的语音,则返回执行步骤S306。
S308、输出与目标用户的语音对应的,且在本次对话模式下未输出过的对话语音。
需要说明的是,在执行步骤S308后,返回执行步骤S307。
可选地,可以是在接收到用户触发的终止指令时,则关闭对话模式。
本申请另一实施例提供了一种人机语音交互的实现装置,如图4所示,包括以下单元:
采集单元401,用于采集目标用户的彩色图像以及深度图像。
提取单元402,用于从所述彩色图像中提取出所述目标用户的人脸关键信息,以及从所述深度图像中提取出所述目标用户的身体姿态信息。
识别单元403,用于基于所述目标用户的人脸关键信息以及所述目标用户的身体姿态信息,识别所述目标用户是否处于任意一个目标状态。
其中,所述目标状态包括目标情绪状态以及极端行为状态;所述目标情绪状态指代指定的不良情绪状态。
语音单元404,用于在所述识别单元识别403出所述目标用户处于任意一个目标状态时,启动语音对话模式,并向指定联系人发送提示信息。
可选地,在本申请另一实施例提供的人机语音交互的实现装置中,识别单元,包括:
识别子单元,用于基于所述目标用户的人脸关键信息,识别所述目标用户是否处于所述目标情绪状态,以及基于所述目标用户的身体姿态信息,识别所述目标用户是否处于所述极端行为状态。
可选地,本申请另一实施例提供的人机语音交互的实现装置中的识别子单元执行所述基于所述目标用户的人脸关键信息,识别所述目标用户是否处于所述目标情绪状态时,用于:
将所述目标用户的人脸关键信息输入第一神经网络模型中进行计算,得到第一数值。
其中,若所述第一数值大于第一预设阈值,则识别出所述目标用户处于所述目标情绪状态。所述第一神经网络模型预先通过在各个指定的不同情绪状态下采集到的人脸关键信息训练得到。
可选地,本申请另一实施例提供的人机语音交互的实现装置中的识别子单元执行所述基于所述目标用户的身体姿态信息,识别所述目标用户是否处于所述极端行为状态时,用于:
将所述目标用户的身体姿态信息输入第二神经网络模型中进行计算,得到第二数值。
其中,若所述第二数值大于第二预设阈值,则识别出所述目标用户处于所述极端行为状态。所述第二神经网络模型预先通过在多个极端行为对应的身体姿态信息训练得到。
可选地,本申请另一实施例提供的人机语音交互的实现装置中的语音单元,如图5所示,包括以下单元:
提示单元501,用于向指定联系人发送提示信息。
第一语音输出单元502,用于输出与所述目标用户所处的目标状态对应的,且在本次对话模式下未输出过的对话语音。
监测单元503,用于监测在预设时间段内是否接收到所述目标用户的语音。
第二语音输出单元504,用于在所述监测单元503监测到在预设时间间隔段内接收到所述目标用户的语音时,输出与所述目标用户的语音对应的,且在本次对话模式下未输出过的对话语音,并返回所述监测单元执行所述监测在预设时间段内是否接收到所述目标用户的语音;
返回单元505,用于在所述监测单元503监测到在预设时间间隔段内未接收到所述目标用户的语音时,则返回第一语音输出单元执行所述输出与所述目标用户所处的目标状态对应的,且在本次对话模式下未输出过的对话语音。
本申请另一实施例提供了一种电子设备,如图6所示,包括:
存储器601和处理器602。
其中,存储器601用于存储程序,处理器602用于执行存储器601存储的所述程序,并且该程序被执行时,具体用于实现如上述任意一个实施例提供的人机语音交互的实现方法。
本申请另一实施例提供了一种计算机存储介质,用于存储计算机程序,该计算机程序被执行时,用于实现如上述任意一个实施例提供的人机语音交互的实现方法。
计算机存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种人机语音交互的实现方法,其特征在于,包括:
采集目标用户的彩色图像以及深度图像;
从所述彩色图像中提取出所述目标用户的人脸关键信息,以及从所述深度图像中提取出所述目标用户的身体姿态信息;
基于所述目标用户的人脸关键信息以及所述目标用户的身体姿态信息,识别所述目标用户是否处于任意一个目标状态;其中,所述目标状态包括目标情绪状态以及极端行为状态;所述目标情绪状态指代指定的不良情绪状态;
若识别出所述目标用户处于任意一个目标状态,则启动语音对话模式,并向指定联系人发送提示信息。
2.根据权利要求1所述的方法,其特征在于,所述基于所述目标用户的人脸关键信息以及所述目标用户的身体姿态信息,识别所述目标用户是否处于任意一个目标状态,包括:
基于所述目标用户的人脸关键信息,识别所述目标用户是否处于所述目标情绪状态,以及基于所述目标用户的身体姿态信息,识别所述目标用户是否处于所述极端行为状态。
3.根据权利要求2所述的方法,其特征在于,所述基于所述目标用户的人脸关键信息,识别所述目标用户是否处于所述目标情绪状态,包括:
将所述目标用户的人脸关键信息输入第一神经网络模型中进行计算,得到第一数值;其中,若所述第一数值大于第一预设阈值,则识别出所述目标用户处于所述目标情绪状态;所述第一神经网络模型预先通过在各个指定的不同情绪状态下采集到的人脸关键信息训练得到。
4.根据权利要求2所述的方法,其特征在于,基于所述目标用户的身体姿态信息,识别所述目标用户是否处于所述极端行为状态,包括:
将所述目标用户的身体姿态信息输入第二神经网络模型中进行计算,得到第二数值;其中,若所述第二数值大于第二预设阈值,则识别出所述目标用户处于所述极端行为状态;所述第二神经网络模型预先通过在多个极端行为对应的身体姿态信息训练得到。
5.根据权利要求1所述的方法,其特征在于,所述启动语音对话模式,包括:
输出与所述目标用户所处的目标状态对应的,且在本次对话模式下未输出过的对话语音;
监测在预设时间段内是否接收到所述目标用户的语音;
若在预设时间间隔段内接收到所述目标用户的语音,则输出与所述目标用户的语音对应的,且在本次对话模式下未输出过的对话语音,并返回执行所述监测在预设时间段内是否接收到所述目标用户的语音;
若在预设时间间隔段内未接收到所述目标用户的语音,则返回执行所述输出与所述目标用户所处的目标状态对应的,且在本次对话模式下未输出过的对话语音。
6.一种人机语音交互的实现装置,其特征在于,包括:
采集单元,用于采集目标用户的彩色图像以及深度图像;
提取单元,用于从所述彩色图像中提取出所述目标用户的人脸关键信息,以及从所述深度图像中提取出所述目标用户的身体姿态信息;
识别单元,用于基于所述目标用户的人脸关键信息以及所述目标用户的身体姿态信息,识别所述目标用户是否处于任意一个目标状态;其中,所述目标状态包括目标情绪状态以及极端行为状态;所述目标情绪状态指代指定的不良情绪状态;
语音单元,用于在所述识别单元识别出所述目标用户处于任意一个目标状态时,启动语音对话模式,并向指定联系人发送提示信息。
7.根据权利要求6所述的装置,其特征在于,所述识别单元,包括:
识别子单元,用于基于所述目标用户的人脸关键信息,识别所述目标用户是否处于所述目标情绪状态,以及基于所述目标用户的身体姿态信息,识别所述目标用户是否处于所述极端行为状态。
8.根据权利要求6所述的装置,其特征在于,所述语音单元,包括:
提示单元,用于向指定联系人发送提示信息;
第一语音输出单元,用于输出与所述目标用户所处的目标状态对应的,且在本次对话模式下未输出过的对话语音;
监测单元,用于监测在预设时间段内是否接收到所述目标用户的语音;
第二语音输出单元,用于在所述监测单元监测到在预设时间间隔段内接收到所述目标用户的语音时,输出与所述目标用户的语音对应的,且在本次对话模式下未输出过的对话语音,并返回所述监测单元执行所述监测在预设时间段内是否接收到所述目标用户的语音;
返回单元,用于在所述监测单元监测到在预设时间间隔段内未接收到所述目标用户的语音时,则返回第一语音输出单元执行所述输出与所述目标用户所处的目标状态对应的,且在本次对话模式下未输出过的对话语音。
9.一种电子设备,其特征在于,包括:
存储器和处理器;
其中,所述存储器用于存储程序;
所述处理器用于执行所述程序,所述程序被执行时,具体用于实现如权利要求1至5任意一项所述的人机语音交互的实现方法。
10.一种计算机存储介质,其特征在于,用于存储计算机程序,所述计算机程序被执行时,用于实现如权利要求1至5任意一项所述的人机语音交互的实现方法。
CN202110055877.0A 2021-01-15 2021-01-15 人机语音交互的实现方法及装置、电子设备、存储介质 Active CN112733763B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110055877.0A CN112733763B (zh) 2021-01-15 2021-01-15 人机语音交互的实现方法及装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110055877.0A CN112733763B (zh) 2021-01-15 2021-01-15 人机语音交互的实现方法及装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN112733763A true CN112733763A (zh) 2021-04-30
CN112733763B CN112733763B (zh) 2023-12-05

Family

ID=75593361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110055877.0A Active CN112733763B (zh) 2021-01-15 2021-01-15 人机语音交互的实现方法及装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN112733763B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112951216A (zh) * 2021-05-11 2021-06-11 宁波均联智行科技股份有限公司 一种车载语音处理方法及车载信息娱乐系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105549841A (zh) * 2015-12-02 2016-05-04 小天才科技有限公司 一种语音交互方法、装置及设备
US20160270656A1 (en) * 2015-03-16 2016-09-22 Magic Leap, Inc. Methods and systems for diagnosing and treating health ailments
US20180039745A1 (en) * 2016-08-02 2018-02-08 Atlas5D, Inc. Systems and methods to identify persons and/or identify and quantify pain, fatigue, mood, and intent with protection of privacy
CN108074336A (zh) * 2017-11-29 2018-05-25 重庆邮电大学 一种智能语音交互的人脸识别情绪小面机器人
US10058290B1 (en) * 2013-06-21 2018-08-28 Fitbit, Inc. Monitoring device with voice interaction
CN108549720A (zh) * 2018-04-24 2018-09-18 京东方科技集团股份有限公司 一种基于情绪识别的安抚方法、装置及设备、存储介质
CN108875464A (zh) * 2017-05-16 2018-11-23 南京农业大学 一种基于三维人脸情绪识别的灯光音乐控制系统及控制方法
CN109635616A (zh) * 2017-10-09 2019-04-16 阿里巴巴集团控股有限公司 互动方法和设备
US20200016745A1 (en) * 2017-03-24 2020-01-16 Huawei Technologies Co., Ltd. Data Processing Method for Care-Giving Robot and Apparatus
JP2020120908A (ja) * 2019-01-30 2020-08-13 パナソニックIpマネジメント株式会社 精神状態推定システム、精神状態推定方法、及び、プログラム
CN111883127A (zh) * 2020-07-29 2020-11-03 百度在线网络技术(北京)有限公司 用于处理语音的方法和装置
CN112069484A (zh) * 2020-11-10 2020-12-11 中国科学院自动化研究所 基于多模态交互式的信息采集方法及系统
CN112133407A (zh) * 2020-09-22 2020-12-25 田文洪 一种基于语音与表情的快速智能情绪测评分析方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10058290B1 (en) * 2013-06-21 2018-08-28 Fitbit, Inc. Monitoring device with voice interaction
US20160270656A1 (en) * 2015-03-16 2016-09-22 Magic Leap, Inc. Methods and systems for diagnosing and treating health ailments
CN105549841A (zh) * 2015-12-02 2016-05-04 小天才科技有限公司 一种语音交互方法、装置及设备
US20180039745A1 (en) * 2016-08-02 2018-02-08 Atlas5D, Inc. Systems and methods to identify persons and/or identify and quantify pain, fatigue, mood, and intent with protection of privacy
US20200016745A1 (en) * 2017-03-24 2020-01-16 Huawei Technologies Co., Ltd. Data Processing Method for Care-Giving Robot and Apparatus
CN108875464A (zh) * 2017-05-16 2018-11-23 南京农业大学 一种基于三维人脸情绪识别的灯光音乐控制系统及控制方法
CN109635616A (zh) * 2017-10-09 2019-04-16 阿里巴巴集团控股有限公司 互动方法和设备
CN108074336A (zh) * 2017-11-29 2018-05-25 重庆邮电大学 一种智能语音交互的人脸识别情绪小面机器人
CN108549720A (zh) * 2018-04-24 2018-09-18 京东方科技集团股份有限公司 一种基于情绪识别的安抚方法、装置及设备、存储介质
JP2020120908A (ja) * 2019-01-30 2020-08-13 パナソニックIpマネジメント株式会社 精神状態推定システム、精神状態推定方法、及び、プログラム
CN111883127A (zh) * 2020-07-29 2020-11-03 百度在线网络技术(北京)有限公司 用于处理语音的方法和装置
CN112133407A (zh) * 2020-09-22 2020-12-25 田文洪 一种基于语音与表情的快速智能情绪测评分析方法
CN112069484A (zh) * 2020-11-10 2020-12-11 中国科学院自动化研究所 基于多模态交互式的信息采集方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
颜洪;刘佳慧;覃京燕;: "人工智能语境下的情感交互设计", 包装工程, no. 06, pages 26 - 32 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112951216A (zh) * 2021-05-11 2021-06-11 宁波均联智行科技股份有限公司 一种车载语音处理方法及车载信息娱乐系统

Also Published As

Publication number Publication date
CN112733763B (zh) 2023-12-05

Similar Documents

Publication Publication Date Title
CN107818798B (zh) 客服服务质量评价方法、装置、设备及存储介质
US20200228648A1 (en) Method and apparatus for detecting abnormality of caller
CN106658129B (zh) 基于情绪的终端控制方法、装置及终端
CN110085225B (zh) 语音交互方法、装置、智能机器人及计算机可读存储介质
EP3617946B1 (en) Context acquisition method and device based on voice interaction
US10262655B2 (en) Augmentation of key phrase user recognition
US8861779B2 (en) Methods for electronically analysing a dialogue and corresponding systems
CN111508474A (zh) 一种语音打断方法、电子设备及存储装置
CN110909218A (zh) 问答场景中的信息提示方法和系统
CN111370004A (zh) 人机交互方法、语音处理方法及设备
CN112733763A (zh) 人机语音交互的实现方法及装置、电子设备、存储介质
JP2018171683A (ja) ロボットの制御プログラム、ロボット装置、及びロボットの制御方法
CN109961152B (zh) 虚拟偶像的个性化互动方法、系统、终端设备及存储介质
CN110599751A (zh) 一种危险报警方法、装置、计算机设备及存储介质
JP2020126195A (ja) 音声対話装置、音声対話装置の制御装置及び制御プログラム
EP3793275B1 (en) Location reminder method and apparatus, storage medium, and electronic device
CN116630101A (zh) 一种基于大数据的教育教学辅助系统
US11436860B2 (en) Method, device, and non-transitory computer-readable storage medium for fingerprint authentication
CN109379499A (zh) 一种语音呼叫方法及装置
CN115050081B (zh) 表情样本生成方法、表情识别方法、装置及终端设备
US20230208966A1 (en) Determination method, information processing apparatus, and computer-readable recording medium storing determination program
CN110880081A (zh) 基于语音识别的员工管理方法、装置、计算机设备和介质
EP4093005A1 (en) System method and apparatus for combining words and behaviors
CN113580166A (zh) 一种拟人化机器人的交互方法、装置、设备及存储介质
CN112163467B (zh) 情绪分析方法、装置、电子设备及机器可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant