CN110874137A - 一种交互方法以及装置 - Google Patents

一种交互方法以及装置 Download PDF

Info

Publication number
CN110874137A
CN110874137A CN201811617775.8A CN201811617775A CN110874137A CN 110874137 A CN110874137 A CN 110874137A CN 201811617775 A CN201811617775 A CN 201811617775A CN 110874137 A CN110874137 A CN 110874137A
Authority
CN
China
Prior art keywords
interactive
interaction
information
voice
response information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811617775.8A
Other languages
English (en)
Other versions
CN110874137B (zh
Inventor
侯飞跃
傅业焘
冒晶
朱建科
刘扬
杨名远
刘柳
马金
高洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of CN110874137A publication Critical patent/CN110874137A/zh
Application granted granted Critical
Publication of CN110874137B publication Critical patent/CN110874137B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请公开了一种交互方法以及装置,该方法包括如下步骤:通过对象特征识别,在属于特定类别的潜在交互对象中确定第一交互对象;通过预设的虚拟形象向第一交互对象输出交互启动信息;获取来自第一交互对象的交互输入信息;对交互输入信息进行处理,获取用于向第一交互对象反馈的交互响应信息;交互响应信息包括语音响应信息和与语音响应信息具有同步性的、以虚拟形象为主体的虚拟影像;输出语音响应信息以及与语音响应信息具有同步性的、以虚拟形象为主体的虚拟影像。该方法通过预设的虚拟形象与交互对象进行交互,使得交互过程更加生动,能够实现逼真、流畅、拟人的交互效果,有效提高用户的交互体验。

Description

一种交互方法以及装置
本申请要求于2018年8月31日提交中国专利局、申请号为201811011067.X、发明名称为“一种交互方法以及装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及交互技术领域,具体涉及一种交互方法。本申请同时涉及一种交互装置、一种电子设备以及一种计算机可读取存储介质。
背景技术
人机交互(Human-Computer Interaction,HCI)指的是人与计算机之间使用某种对话语言、以一定的交互方式、为完成确定任务而产生的信息交换过程。随着计算机技术的发展和人工智能技术的进步,智能化人机交互方式已成为现阶段人机交互的主流,例如通过智能化交互应用Apple Siri、Google Assistant等实现的人机交互。
然而,现阶段的智能化人机交互方式存在以下不足:
通过智能化交互应用Apple Siri、Google Assistant等实现的人机交互方式为语音交互,交互方式单一,交互状态固定,无法模拟真实环境下的人与人之间的交互状态,用户的交互体验差。
发明内容
本申请提供一种交互方法,以解决现有的智能化人机交互方式存在的交互方式单一、交互状态固定、用户的交互体验差的问题。本申请另外提供一种交互装置、一种电子设备以及一种计算机可读取存储介质。
本申请提供一种交互方法,该方法包括:
通过对象特征识别,在属于特定类别的潜在交互对象中确定第一交互对象;
通过预设的虚拟形象向所述第一交互对象输出交互启动信息;
获取来自所述第一交互对象的交互输入信息;
对所述交互输入信息进行处理,获取用于向所述第一交互对象反馈的交互响应信息;所述交互响应信息包括语音响应信息和与所述语音响应信息具有同步性的、以所述虚拟形象为主体的虚拟影像;
输出所述语音响应信息以及与所述语音响应信息具有同步性的、以所述虚拟形象为主体的虚拟影像。
可选的,在所述通过对象特征识别,在属于特定类别的潜在交互对象中确定第一交互对象的步骤之前,还包括:检测获得预定范围内的所述属于特定类别的潜在交互对象;
所述通过对象特征识别,在属于特定类别的潜在交互对象中确定第一交互对象,包括:对所述预定范围内的所述属于特定类别的潜在交互对象进行对象特征识别;当所述预定范围内的所述属于特定类别的潜在交互对象中存在符合预定状态的对象特征时,确定具有所述预定状态的对象特征的潜在交互对象为所述第一交互对象。
可选的,所述特定类别的潜在交互对象是指自然人;所述虚拟形象是指交互界面中所展示的虚拟人。
可选的,所述检测获得预定范围内的所述属于特定类别的潜在交互对象,包括如下中的至少一种:
通过红外检测方法检测获得预定范围内的自然人;
通过摄像头检测获得预定范围内的自然人;
通过语音检测获得预定范围内的自然人。
可选的,所述预定状态的对象特征中,所述预定状态包括:
人脸的正面朝向所述交互界面中所展示的虚拟人。
可选的,所述来自所述第一交互对象的交互输入信息包括所述第一交互对象的语音信息和所述第一交互对象的面部表情信息,所述对所述交互输入信息进行处理,获取用于向所述第一交互对象反馈的交互响应信息,包括:
对所述语音信息进行语音识别,获得所述交互输入信息包含的文本信息;
根据所述语音信息以及所述面部表情信息中的至少一种,确定所述第一交互对象的情绪状态;
根据所述文本信息以及所述第一交互对象的情绪状态,为所述第一交互对象匹配交互响应信息。
可选的,所述根据所述语音信息以及所述面部表情信息中的至少一种,确定所述第一交互对象的情绪状态,包括:
基于所述语音信息的音调,按照语音情绪识别方法进行情绪识别,获得所述第一交互对象的情绪状态。
可选的,所述根据所述语音信息以及所述面部表情信息中的至少一种,确定所述第一交互对象的情绪状态,包括:
基于所述面部表情信息,按照面部情绪识别方法进行情绪识别,获得所述第一交互对象的情绪状态。
可选的,所述根据所述语音信息以及所述面部表情信息中的至少一种,确定所述第一交互对象的情绪状态,包括:
基于所述语音信息的语调,按照语音情绪识别方法进行情绪识别,获得所述第一交互对象的语音情绪数据;
基于所述面部表情信息,按照面部情绪识别方法进行情绪识别,获得所述第一交互对象的面部情绪数据;
按照预定的语音情绪数据以及面部情绪数据在情绪识别中所占比重,对所述第一交互对象的语音情绪数据以及面部情绪数据进行加权计算,获得所述第一交互对象的情绪状态。
可选的,所述根据所述文本信息以及所述第一交互对象的情绪状态,为所述第一交互对象匹配交互响应信息,包括:
根据所述文本信息和所述第一交互对象的情绪状态,确定所述第一交互对象的意图;
根据所述第一交互对象的意图,为所述第一交互对象匹配与所述第一交互对象的意图相对应的交互响应信息。
可选的,所述根据所述文本信息以及所述第一交互对象的情绪状态,为所述第一交互对象匹配交互响应信息,包括:
根据所述文本信息,获得与所述文本信息相匹配的至少一个文本响应信息;
根据所述第一交互对象的情绪状态对所述至少一个文本响应信息进行核对优化,获得最优文本响应信息;
对所述最优文本响应信息进行语音合成处理,获取针对所述第一交互对象的语音响应信息;
通过基于语音信息的人脸生成技术,生成与所述语音响应信息具有同步性的、以所述虚拟人为主体的虚拟人视频。
可选的,所述根据所述第一交互对象的情绪状态对所述至少一个文本响应信息进行核对优化,获得最优文本响应信息,包括:
根据预定的情绪状态的问答匹配关系以及第一交互对象的情绪状态,为所述第一交互对象匹配对应的响应情绪状态;
从所述至少一个文本响应信息中获得与所述响应情绪状态相匹配的最优文本响应信息。
可选的,还包括:
根据所述响应情绪状态对应的语音信息,对所述第一交互对象的语音响应信息进行优化调整;
根据所述响应情绪状态对应的面部表情信息,对所述与所述语音响应信息具有同步性的、以所述虚拟人为主体的虚拟人视频进行调整。
可选的,所述获取来自所述第一交互对象的交互输入信息,包括:
通过中远场拾音或近场拾音的方式获得所述第一交互对象的语音信息;
对所述第一交互对象进行面部表情捕捉,获得所述第一交互对象的面部表情信息。
可选的,还包括:
对所述第一交互对象的交互输入信息进行声纹识别。
可选的,在检测获得预定范围内的所述属于特定类别的潜在交互对象之前,还包括:
通过所述交互界面输出无交互空闲状态下的音视频。
可选的,在检测获得预定范围内的所述属于特定类别的潜在交互对象之后,还包括:
唤醒摄像头对所述预定范围内的自然人进行人脸识别。
可选的,所述在属于特定类别的潜在交互对象中确定第一交互对象之后,还包括:
唤醒所述交互界面中所展示的虚拟人。
可选的,所述通过交互界面中所展示的虚拟形象向所述第一交互对象输出交互启动信息,包括:
指示交互界面中所展示的虚拟人向所述第一交互对象打招呼。
可选的,在指示交互界面中所展示的虚拟人向所述第一交互对象打招呼之后,还包括:
指示所述交互界面中所展示的虚拟人进入等待获取来自所述第一交互对象的交互输入信息的静置态。
可选的,在指示交互界面中所展示的虚拟人向所述第一交互对象打招呼之后,还包括:检测是否有来自所述第一交互对象的交互输入信息。
可选的,还包括:
如果检测到来自所述第一交互对象的交互输入信息,则指示所述虚拟人进入接收所述交互输入信息的倾听态。
可选的,在指示所述虚拟人进入接收所述交互输入信息的倾听态之前或之后,还包括:
指示所述虚拟人做出与所述倾听态相匹配的姿态动作。
可选的,在所述通过所述交互界面输出所述语音响应信息以及与所述语音响应信息同步输出的、以所述虚拟形象为主体的虚拟形象视频之后,还包括:
检测是否有来自所述第一交互对象的下一步交互输入信息,并且指示所述交互界面中所展示的虚拟人进入等待获取来自所述第一交互对象的下一步交互输入信息的静置态。
可选的,还包括:
如果等待获取来自所述第一交互对象的下一步交互输入信息的时间超过预设时间,则指示交互界面中所展示的虚拟人处于无交互的空闲状态。
可选的,还包括:如果存在以下中的至少一种,则指示所述交互界面中所展示的虚拟人处于无交互的空闲状态:
获取来自所述第一交互对象的结束交互信息;
在所述预定范围内无法检测到所述第一交互对象;
无法检测到所述第一交互对象的符合预定状态的人脸。
本申请还提供一种交互装置,包括:
第一交互对象确定单元,用于通过对象特征识别,在属于特定类别的潜在交互对象中确定第一交互对象;
交互启动信息输出单元,用于通过预设的虚拟形象向所述第一交互对象输出交互启动信息;
交互输入信息获取单元,用于获取来自所述第一交互对象的交互输入信息;
交互响应信息获取单元,用于对所述交互输入信息进行处理,获取用于向所述第一交互对象反馈的交互响应信息;所述交互响应信息包括语音响应信息和与所述语音响应信息具有同步性的、以所述虚拟形象为主体的虚拟影像;
信息输出单元,用于输出所述语音响应信息以及与所述语音响应信息具有同步性的、以所述虚拟形象为主体的虚拟影像。
本申请还提供一种电子设备,包括:
处理器;
存储器,用于存储交互程序,所述程序在被所述处理器读取执行时,执行如下操作:
通过对象特征识别,在属于特定类别的潜在交互对象中确定第一交互对象;
通过预设的虚拟形象向所述第一交互对象输出交互启动信息;
获取来自所述第一交互对象的交互输入信息;
对所述交互输入信息进行处理,获取用于向所述第一交互对象反馈的交互响应信息;所述交互响应信息包括语音响应信息和与所述语音响应信息具有同步性的、以所述虚拟形象为主体的虚拟影像;
输出所述语音响应信息以及与所述语音响应信息具有同步性的、以所述虚拟形象为主体的虚拟影像。
本申请还提供一种计算机可读取存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
通过对象特征识别,在属于特定类别的潜在交互对象中确定第一交互对象;
通过预设的虚拟形象向所述第一交互对象输出交互启动信息;
获取来自所述第一交互对象的交互输入信息;
对所述交互输入信息进行处理,获取用于向所述第一交互对象反馈的交互响应信息;所述交互响应信息包括语音响应信息和与所述语音响应信息具有同步性的、以所述虚拟形象为主体的虚拟影像;
输出所述语音响应信息以及与所述语音响应信息具有同步性的、以所述虚拟形象为主体的虚拟影像。
与现有技术相比,本申请具有以下优点:
本申请提供的交互方法,通过对象特征识别,在属于特定类别的潜在交互对象中确定第一交互对象;通过预设的虚拟形象向第一交互对象输出交互启动信息;获取来自第一交互对象的交互输入信息;对交互输入信息进行处理,获取用于向第一交互对象反馈的交互响应信息;交互响应信息包括语音响应信息和与语音响应信息具有同步性的、以虚拟形象为主体的虚拟影像;输出语音响应信息以及与语音响应信息具有同步性的、以虚拟形象为主体的虚拟影像。该方法通过使用预设的虚拟形象与交互对象进行互动,使得交互过程更加生动,能够实现逼真、流畅、拟人的交互效果,有效提高用户的交互体验。
附图说明
图1是本申请第一实施例提供的方法流程图;
图2是本申请第一实施例提供的对交互输入信息进行处理的流程图;
图3是本申请第二实施例提供的装置单元框图;
图4是本申请第三实施例提供的电子设备示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
针对智能交互场景,为了提高用户的交互体验,本申请提供了一种交互方法、与该方法相对应的交互装置、电子设备以及计算机可读取存储介质以下提供实施例对方法、装置、电子设备以及计算机可读取存储介质进行详细说明。
本申请第一实施例提供一种交互方法,该方法的应用主体可以为用于控制智能交互设备与用户进行交互操作的交互服务器,例如,该交互服务器可控制交互界面中所展示的虚拟人与用户进行交互操作。图1为本申请第一实施例提供的交互方法流程图,以下结合图1对本实施例提供的方法进行详细描述。以下描述所涉及的实施例是用来解释说明方法原理,不是实际使用的限定。
如图1所示,本实施例提供的交互方法包括如下步骤:
S101,通过对象特征识别,在属于特定类别的潜在交互对象中确定第一交互对象。
本步骤用于确定第一交互对象,具体为通过对象特征识别的方法在属于特定类别的潜在交互对象中确定第一交互对象。
属于特定类别的潜在交互对象指的是能够参与交互操作的主体,例如通过交互界面或其它交互途径与交互服务器进行交互操作的自然人或机器人。第一交互对象指的是满足交互条件的自然人或机器人,例如置于交互界面前端或做出启动交互的动作的机器人。对象特征指的是上述特定类别的潜在交互对象所具有的能够被识别的特征,例如自然人的姿态、人脸、语音等信息。
在本实施例中,在确定第一交互对象之前,需检测获得预定范围内的属于特定类别的潜在交互对象,上述在属于特定类别的潜在交互对象中确定第一交互对象的过程可以为:对预定范围内的属于特定类别的潜在交互对象进行对象特征识别;当预定范围内的属于特定类别的潜在交互对象中存在符合预定状态的对象特征时,确定具有预定状态的对象特征的潜在交互对象为第一交互对象。
在本实施例中,上述属于特定类别的潜在交互对象指的是自然人,第一交互对象为自然人,上述对象特征为自然人的人脸,上述对象特征识别指的是针对自然人的人脸识别。
上述检测获得预定范围内的属于特定类别的潜在交互对象可通过红外线检测方法检测获得预定范围内的自然人,如果通过红外线检测出预定范围内存在自然人,则从预定范围内的自然人中确定出进行交互的第一交互对象,或者通过摄像头检测获得预定范围内的自然人,或者通过语音检测获得预定范围内的自然人。预定范围指的是与交互界面或者识别设备(如摄像头)等特定目标处于可被识别的角度范围和距离范围。
上述预定状态可以是自然人的面部的正面朝向预设的虚拟形象,该虚拟形象可以为虚拟人、数字人、卡通人物、素描或简笔画人物、表情包以及二次元等所有的2D或3D虚拟形象。
本实施例中,上述确定第一交互对象的过程可以为:对与交互界面处于预定的角度范围和距离范围内的自然人进行人脸识别,如果识别出与交互界面处于可被识别的角度范围和距离范围的自然人中存在面部的正面朝向交互界面中所展示的虚拟形象的自然人时,将该自然人作为第一交互对象。
在本实施例中,该虚拟形象为虚拟人,虚拟人为一种系统应用程序或者可执行文件,指的是可显示于交互界面的指定区域、具备显著人物特征的外观、可配置社会属性、人格属性、人物技能等的虚拟形象。
在本实施例中,在通过红外线检测方法检测获得与交互界面处于可被识别的角度范围和距离范围的自然人之前,还可通过交互界面输出预先准备的无交互空闲状态下的音视频,例如广告信息。在通过红外线检测方法检测获得与交互界面处于可被识别的角度范围和距离范围的自然人之后,即可唤醒摄像头对预定范围内的自然人进行人脸识别。并且,在确定第一交互对象之后,可唤醒上述虚拟人,使虚拟人被展示于交互界面中的指定区域,且使该虚拟人处于等待交互的状态。
需要说明的是,上述对象特征还可以为自然语音或者人体姿态,例如对象特征可以为自然人发出的唤醒词,例如“俪知”,本实施例的实施主体通过接收以及识别该唤醒词即可确定发出该唤醒词的自然人为第一交互对象。
还可通过声纹识别或姿态识别的方式识别出自然人的身份,确定具有指定身份的自然人为第一交互对象,例如,通过摄像头进行人脸检测和识别的方式确定出具有“主人”身份的自然人,或者通过声纹识别的方式判别出具有“主人”身份的自然人,将该具有“主人”身份的自然人作为第一交互对象。
上述确定第一交互对象的过程还可以为:在通过摄像头检测、红外检测或语音检测等方式检测到有自然人存在时,则无条件地将该自然人作为第一交互对象,并开始后续操作。
上述确定第一交互对象的过程还可以为:在通过红外检测的方式检测到有多个自然人存在时,通过声源定位技术确定出发出语音的自然人,然后通过摄像头对上述发出语音的自然人进行人脸检测和识别、或者通过摄像头对上述发出语音的自然人进行嘴部动作检测和识别,以此确定第一交互对象。
S102,通过预设的虚拟形象向第一交互对象输出交互启动信息。
在上述步骤确定第一交互对象之后,本步骤用于通过预设的虚拟形象向第一交互对象输出交互启动信息,具体可通过交互界面中的指定区域所展示的虚拟人向该第一交互对象输出交互启动信息,或者通过全息投影技术所产生的三维立体投影虚拟人向该第一交互对象输出交互启动信息。
在本实施例中,通过交互界面中所展示的虚拟人向第一交互对象输出交互启动信息的方式可以为指示交互界面中所展示的虚拟人向第一交互对象打招呼,例如指示虚拟人做出眨眼、点头、摆手以及弯腰等动作,以此通知第一交互对象开始进行交互。
在向第一用户打完招呼后,可指示该虚拟人进入等待获取来自第一交互对象的交互输入信息的静置态,并且检测是否有来自第一交互对象的交互输入信息。
S103,获取来自第一交互对象的交互输入信息。
在上述步骤通过预设的虚拟形象向第一交互对象输出交互启动信息之后,本步骤用于获取来自第一交互对象的交互输入信息,来自第一交互对象的交互输入信息包括第一交互对象的语音信息和第一交互对象的面部表情信息。
需要说明的是,上述检测到来自第一交互对象的交互输入信息之后,则指示虚拟人进入接收交互输入信息的倾听态,并且在指示虚拟人进入接收交互输入信息的倾听态之前或之后,还可指示虚拟人做出与倾听态相匹配的姿态动作,例如眨眼或点头,以此向第一交互对象表明其正在倾听第一交互对象说话。
在本实施例中,还可对第一交互对象的交互输入信息的语音信息进行声纹识别,以此识别当前发出语音信息的对象,可以分析以及学习该对象的发音特征。通过声纹识别,在收听第一交互对象说话时可锁定当前第一交互对象,并且可据此设置打断模式和不可打断模式,例如,对当前语音进行声纹识别以及分析后,可打断当前语音,进而转到接收新的语音信息。声纹识别是生物识别技术的一种,也称为说话人识别,是一种通过声音判别说话人身份的技术。声纹是用电声学仪器显示的携带言语信息的声波频谱,由于每个人的发音器官均有其独特性,任何两个人的声波频谱都有差异,因此,可通过声纹识别技术进行说话人辨认和说话人确认。声纹识别的过程主要包括语音信号处理、声纹特征提取、声纹建模、声纹比对、判别决策等。
在本实施例中,获取来自第一交互对象的交互输入信息的方式为:通过中远场拾音或近场拾音的方式获得第一交互对象的语音信息,并且对第一交互对象进行面部表情捕捉,获得第一交互对象的面部表情信息。近场拾音采用的是单麦克风,可在20cm内的近距离、低噪声的情况下拾取符合语音识别需求的声音,中远场拾音指的是麦克风阵列通过声源定位、波束形成、噪声抑制、回声消除等中远场算法,有效拾取40cm外的符合语音识别需求的声音,从而保证具体场景中语音的识别率。对第一交互对象进行面部表情捕捉指的是通过摄像头对第一交互对象的面部图像进行采集,以此捕捉第一交互对象的面部表情。
S104,对交互输入信息进行处理,获取用于向第一交互对象反馈的交互响应信息。
在上述步骤获得第一交互对象的交互输入信息之后,本步骤用于对该交互输入信息进行处理,获取用于向第一交互对象反馈的、针对交互输入信息的交互响应信息。交互响应信息包括语音响应信息和与语音响应信息具有同步性的、以上述虚拟形象为主体的虚拟影像。
在本实施例中,对交互输入信息进行处理的过程如图2所示,包括如下步骤:
S1041,对交互输入信息的语音信息进行语音识别,获得交互输入信息包含的文本信息。
本步骤采用语音识别技术对交互输入信息的语音信息进行语音识别,以此获得交互输入信息包含的文本信息。语音识别技术也被称为自动语音识别(Automatic SpeechRecognition,ASR),其目标是通过计算机的识别和理解,将人的语音转换成文本或命令。
S1042,根据语音信息以及面部表情信息中的至少一种,确定第一交互对象的情绪状态。
该步骤可通过以下三种情形实现:
情形一、基于语音信息的语调,按照语音情绪识别方法进行情绪识别,获得第一交互对象的情绪状态。语音情绪识别方法是根据不同情绪状态下人的语言表达方式的不同来实现的,如心情愉悦时语调比较欢快,烦躁时语调比较沉闷,不同的语调对应不同的情绪维度,通过计算当前语调所对应的情绪维度的置信度来确定当前语调更接近哪种情绪。
情形二、基于面部表情信息,按照面部情绪识别方法进行情绪识别,获得第一交互对象的情绪状态。面部表情识别采用图像识别的方法来实现,是根据表情与情绪间的对应关系来识别不同的情绪,在特定情绪状态下人们会产生特定的面部肌肉运动和表情模式,如心情愉悦时嘴角上翘,眼部会出现环形褶皱,愤怒时会皱眉,睁大眼睛等。不同的面部表情对应不同的情绪维度,通过计算人脸的面部表情所对应的情绪维度的置信度来确定当前面部表情更接近哪种情绪。
情形三、基于语音信息的音调,按照语音情绪识别方法进行情绪识别,获得第一交互对象的语音情绪数据;基于面部表情,按照面部情绪识别方法进行情绪识别,获得第一交互对象的面部情绪数据;按照预定的语音情绪数据以及面部情绪数据在情绪识别中所占比重,对第一交互对象的语音情绪数据以及面部情绪数据进行加权计算,获得第一交互对象的情绪状态。例如,当通过语音情绪识别方法识别出的语音情绪数据为愤怒,通过面部情绪识别方法识别出的面部情绪数据为哀伤,则通过对该语音情绪数据和面部情绪数据进行加权计算,获得介于愤怒与哀伤之间的情绪状态。
S1043,根据文本信息以及第一交互对象的情绪状态,为第一交互对象匹配交互响应信息。
本步骤用于根据上述获得的信息为第一交互对象匹配响应信息,在本实施例中,本步骤可通过以下两种方式实现:
方式一、根据文本信息和第一交互对象的情绪状态,确定第一交互对象的意图,具体为:通过自然语言理解技术确定该文本信息的含义,通过将该文本信息的含义与第一交互对象的情绪状态相结合,确定出第一交互对象的意图;根据所述第一交互对象的意图,为第一交互对象匹配出与第一交互对象的意图相对应的交互响应信息,具体可通过预定的意图-响应信息的对应关系为第一交互对象匹配出与第一交互对象的意图相对应的交互响应信息,此处的意图-响应信息的对应关系指的是综合了文本信息与情绪状态的对应关系,每一种意图均预先对应有结合了文本信息与情绪状态的响应信息;也可通过其它方式获得交互响应信息,例如通过将上述文本信息输入预先训练的问题-答案模型进行机器学习后输出对应的交互响应信息。
方式二、通过自然语言理解技术确该述文本信息的含义后,根据该文本信息的含义,获得与该文本信息相匹配的至少一个文本响应信息,可通过预定的文本信息的问答匹配关系为第一交互对象的文本信息匹配对应的至少一个文本响应信息,或者通过将上述文本信息输入预先训练的问题-答案模型进行机器学习后输出对应的交互响应信息;根据第一交互对象的情绪状态对上述至少一个文本响应信息进行核对优化,获得最优文本响应信息。通过预定的文本信息的问答匹配关系为第一交互对象的文本信息匹配对应的至少一个文本响应信息的过程具体为:根据预定的情绪状态的问答匹配关系以及第一交互对象的情绪状态,为第一交互对象匹配对应的响应情绪状态,从上述至少一个文本响应信息中获得与响应情绪状态相匹配的最优文本响应信息。例如,第一交互对象的情绪状态为急躁,则其对应的响应情绪状态即可以为促使第一交互对象冷静下来的温和、耐心、热情、诚恳、友善、体贴等情绪状态,从上述至少一个文本响应信息中筛选出语义与该响应情绪状态最为贴切的文本响应信息作为向第一交互对象反馈的文本响应信息。
在上述获得与响应情绪状态相匹配的最优文本响应信息之后,还需对该最优文本响应信息进行语音合成处理,获取针对第一交互对象的语音响应信息。语音合成技术又称文语转换(Text to Speech,TTS)技术,能将任意文字信息实时转化为标准流畅的语音信息,语音合成的过程主要包括:(1)文本规整、词的切分、语法分析、语义分析,并且给出发音提示;(2)韵律处理,为合成语音规划出音段特征,如音高、音长和音强等,使合成语音能正确表达语意,听起来更加自然;(3)声学处理:根据(1)和(2)的处理结果的要求输出语音,完成语音合成。
需要说明的是,除了上述对该最优文本响应信息进行语音合成处理而获得语音信息之外,还可将预先录制的原声信息作为交互响应信息,该原声信息根据业务场景和业务内容进行预先录制,其可与上述交互输入信息的文本信息以及第一交互对象的情绪状态相对应。
语音响应信息还可以为对上述合成的语音响应信息或者原声信息进行变声处理后所获得的语音信息。
在经上述方式获得语音响应信息之后,需根据合成的语音响应信息或者预先录制的原声信息或者基于该两种语音信息中的一种进行变声处理后的语音响应信息,通过基于语音信息的人脸生成技术,生成与上述语音响应信息具有同步性的、以虚拟人为主体的虚拟影像。
在本实施例中,还可以根据响应情绪状态,对上述针对第一交互对象的语音响应信息进行优化调整,例如当前的响应情绪状态为极其兴奋,则将上述语音响应信息的音调在原有基础上进行调整,最终调整为与极其兴奋的情绪状态相符合的音调。
同样的,可根据响应情绪状态,对与语音响应信息具有同步性的、以虚拟人为主体的虚拟人视频进行调整。
S105,输出语音响应信息以及与语音响应信息同步输出的、以虚拟形象为主体的虚拟影像。
在上述步骤获得针对第一交互对象的语音响应信息以及与语音响应信息同步输出的、以虚拟形象为主体的虚拟影像之后,本步骤用于输出上述语音响应信息以及虚拟影像。
上述虚拟影像可以为通过交互界面输出的、以虚拟形象为主体的虚拟形象视频,也可以为通过全息投影技术所产生的三维立体影像。
需要说明的是,在输出上述语音响应信息以及虚拟影像之后,还可检测是否有来自第一交互对象的下一步交互输入信息,并且指示交互界面中所展示的虚拟人或者通过全息投影技术所产生的三维立体投影虚拟人等虚拟形象进入等待获取来自第一交互对象的下一步交互输入信息的静置态。
如果等待获取来自第一交互对象的下一步交互输入信息的时间超过预设时间,则指示上述虚拟形象处于无交互的空闲状态。
并且,当获取来自第一交互对象的结束交互信息,指示上述虚拟形象处于无交互的空闲状态;或者在预定范围内无法检测到第一交互对象时,指示上述虚拟形象处于无交互的空闲状态;或者在无法检测到第一交互对象的符合预定状态的人脸时,指示上述虚拟形象处于无交互的空闲状态。
本实施例提供的交互方法,在第一交互对象的确定、交互启动信息的输出、交互输入信息的获取、交互响应信息的生成以及输出等所有环节中,交互界面中所展示的虚拟人或者通过全息投影技术所产生的三维立体投影虚拟人等虚拟形象以直接参与或间接参与的方式与交互对象进行互动,并且采用自动语音识别、情绪识别、自然语言理解、语音合成、基于语音信息的人脸生成等技术,使得交互界面中的虚拟人与交互对象之间的交互过程更加生动,能够实现逼真、流畅、拟人的交互效果,有效提高用户的交互体验。
上述第一实施例提供了一种交互方法,与之相对应的,本申请第二实施例还提供了一种交互装置,由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关的技术特征的细节部分请参见上述提供的方法实施例的对应说明即可,下述对装置实施例的描述仅仅是示意性的。
请参考图3理解该实施例,图3为本实施例提供的装置的单元框图,如图3所示,本实施例提供的装置包括:
第一交互对象确定单元201,用于通过对象特征识别,在属于特定类别的潜在交互对象中确定第一交互对象;
交互启动信息输出单元202,用于通过预设的虚拟形象向第一交互对象输出交互启动信息;
交互输入信息获取单元203,用于获取来自第一交互对象的交互输入信息;
交互响应信息获取单元204,用于对交互输入信息进行处理,获取用于向第一交互对象反馈的交互响应信息;交互响应信息包括语音响应信息和与语音响应信息具有同步性的、以虚拟形象为主体的虚拟影像;
信息输出单元205,用于输出语音响应信息以及与语音响应信息具有同步性的、以虚拟形象为主体的虚拟影像。
本装置还包括:检测单元,用于检测获得预定范围内的属于特定类别的潜在交互对象;
第一交互对象确定单元201具体用于:对预定范围内的属于特定类别的潜在交互对象进行对象特征识别;当预定范围内的属于特定类别的潜在交互对象中存在符合预定状态的对象特征时,确定具有预定状态的对象特征的潜在交互对象为第一交互对象。
上述特定类别的潜在交互对象是指自然人;虚拟形象是指交互界面中所展示的虚拟人。
检测单元具体用于:通过红外检测方法检测获得预定范围内的自然人;或者通过摄像头检测获得预定范围内的自然人;或者通过语音检测获得预定范围内的自然人。
上述预定状态的对象特征中,预定状态是指人脸的正面朝向交互界面中所展示的虚拟人。
上述来自第一交互对象的交互输入信息包括第一交互对象的语音信息和第一交互对象的面部表情信息,交互响应信息获取单元204包括:
文本信息获得子单元,用于对语音信息进行语音识别,获得交互输入信息包含的文本信息;
情绪状态确定子单元,用于根据语音信息以及面部表情信息中的至少一种,确定第一交互对象的情绪状态;
交互响应信息匹配子单元,用于根据文本信息以及第一交互对象的情绪状态,为第一交互对象匹配交互响应信息。
情绪状态确定子单元具体用于:基于语音信息的音调,按照语音情绪识别方法进行情绪识别,获得第一交互对象的情绪状态。或者,基于面部表情信息,按照面部情绪识别方法进行情绪识别,获得第一交互对象的情绪状态。或者,基于语音信息的语调,按照语音情绪识别方法进行情绪识别,获得第一交互对象的语音情绪数据;基于面部表情信息,按照面部情绪识别方法进行情绪识别,获得第一交互对象的面部情绪数据;按照预定的语音情绪数据以及面部情绪数据在情绪识别中所占比重,对第一交互对象的语音情绪数据以及面部情绪数据进行加权计算,获得第一交互对象的情绪状态。
交互响应信息匹配子单元具体用于:根据文本信息和第一交互对象的情绪状态,确定第一交互对象的意图;根据第一交互对象的意图,为第一交互对象匹配与第一交互对象的意图相对应的交互响应信息。或者,文本信息,获得与文本信息相匹配的至少一个文本响应信息;根据第一交互对象的情绪状态对至少一个文本响应信息进行核对优化,获得最优文本响应信息;对最优文本响应信息进行语音合成处理,获取针对第一交互对象的语音响应信息;通过基于语音信息的人脸生成技术,生成与语音响应信息具有同步性的、以虚拟人为主体的虚拟人视频。
上述根据第一交互对象的情绪状态对至少一个文本响应信息进行核对优化,指的是:根据预定的情绪状态的问答匹配关系以及第一交互对象的情绪状态,为第一交互对象匹配对应的响应情绪状态;从至少一个文本响应信息中获得与响应情绪状态相匹配的最优文本响应信息。
该装置还包括:语音响应信息优化调整子单元,用于根据响应情绪状态对应的语音信息,对第一交互对象的语音响应信息进行优化调整;
该装置还包括:虚拟人视频调整子单元,用于根据响应情绪状态对应的面部表情信息,对与语音响应信息具有同步性的、以虚拟人为主体的虚拟人视频进行调整。
交互输入信息获取单元203具体用于:通过远场拾音或近场拾音的方式获得第一交互对象的语音信息;对第一交互对象进行面部表情捕捉,获得第一交互对象的面部表情信息。
该装置还包括声纹识别子单元:用于对第一交互对象的交互输入信息进行声纹识别。
该装置还包括无交互空闲状态下的音视频输出单元,用于通过交互界面输出无交互空闲状态下的音视频。
该装置还包括人脸识别子单元,用于唤醒摄像头对预定范围内的自然人进行人脸识别。
该装置还包括虚拟人唤醒单元,用于唤醒交互界面中所展示的虚拟人。
该装置还包括打招呼单元,用于指示交互界面中所展示的虚拟人向第一交互对象打招呼。
该装置还包括指示进入静置态单元,用于指示交互界面中所展示的虚拟人进入等待获取来自第一交互对象的交互输入信息的静置态。
该装置还包括交互输入信息检测单元,用于检测是否有来自第一交互对象的交互输入信息。
该装置还包括指示虚拟人进入倾听态单元,用于当检测到来自第一交互对象的交互输入信息时,指示虚拟人进入接收交互输入信息的倾听态。
该装置还包括指示虚拟人做出姿态动作单元,用于在指示虚拟人进入接收交互输入信息的倾听态之前或之后,指示虚拟人做出与倾听态相匹配的姿态动作。
该装置还包括下一步交互输入信息检测单元,用于检测是否有来自第一交互对象的下一步交互输入信息,并且指示交互界面中所展示的虚拟人进入等待获取来自第一交互对象的下一步交互输入信息的静置态。
该装置还包括指示虚拟人进入空闲状态单元,用于当等待获取来自第一交互对象的下一步交互输入信息的时间超过预设时间时,指示交互界面中所展示的虚拟人处于无交互的空闲状态。
该装置还包括指示虚拟人进入空闲状态单元,用于当存在以下中的至少一种时,指示交互界面中所展示的虚拟人处于无交互的空闲状态:获取来自第一交互对象的结束交互信息;在预定范围内无法检测到第一交互对象;无法检测到第一交互对象的符合预定状态的人脸。
在上述的实施例中,提供了一种交互方法以及一种交互装置,此外,本申请第三实施例还提供一种电子设备,该电子设备实施例如下:
请参考图4理解本实施例,图4为本实施例提供的电子设备的示意图。
如图4所示,电子设备包括:处理器301;存储器302;
存储器302,用于存储交互程序,程序在被处理器读取执行时,执行如下操作:
通过对象特征识别,在属于特定类别的潜在交互对象中确定第一交互对象;
通过预设的虚拟形象向第一交互对象输出交互启动信息;
获取来自第一交互对象的交互输入信息;
对交互输入信息进行处理,获取用于向第一交互对象反馈的交互响应信息;交互响应信息包括语音响应信息和与语音响应信息具有同步性的、以虚拟形象为主体的虚拟影像;
输出语音响应信息以及与语音响应信息具有同步性的、以虚拟形象为主体的虚拟影像。
可选的,在通过对象特征识别,在属于特定类别的潜在交互对象中确定第一交互对象的步骤之前,还包括:检测获得预定范围内的属于特定类别的潜在交互对象;
通过对象特征识别,在属于特定类别的潜在交互对象中确定第一交互对象,包括:对预定范围内的属于特定类别的潜在交互对象进行对象特征识别;当预定范围内的属于特定类别的潜在交互对象中存在符合预定状态的对象特征时,确定具有预定状态的对象特征的潜在交互对象为第一交互对象。
可选的,特定类别的潜在交互对象是指自然人;虚拟形象是指交互界面中所展示的虚拟人。
可选的,检测获得预定范围内的属于特定类别的潜在交互对象,包括如下中的至少一种:
通过红外检测方法检测获得预定范围内的自然人;
通过摄像头检测获得预定范围内的自然人;
通过语音检测获得预定范围内的自然人。
可选的,预定状态的对象特征中,预定状态包括:
人脸的正面朝向交互界面中所展示的虚拟人。
可选的,来自第一交互对象的交互输入信息包括第一交互对象的语音信息和第一交互对象的面部表情信息,对交互输入信息进行处理,获取用于向第一交互对象反馈的交互响应信息,包括:
对语音信息进行语音识别,获得交互输入信息包含的文本信息;
根据语音信息以及面部表情信息中的至少一种,确定第一交互对象的情绪状态;
根据文本信息以及第一交互对象的情绪状态,为第一交互对象匹配交互响应信息。
可选的,根据语音信息以及面部表情信息中的至少一种,确定第一交互对象的情绪状态,包括:
基于语音信息的音调,按照语音情绪识别方法进行情绪识别,获得第一交互对象的情绪状态。
可选的,根据语音信息以及面部表情信息中的至少一种,确定第一交互对象的情绪状态,包括:
基于面部表情信息,按照面部情绪识别方法进行情绪识别,获得第一交互对象的情绪状态。
可选的,根据语音信息以及面部表情信息中的至少一种,确定第一交互对象的情绪状态,包括:
基于语音信息的语调,按照语音情绪识别方法进行情绪识别,获得第一交互对象的语音情绪数据;
基于面部表情信息,按照面部情绪识别方法进行情绪识别,获得第一交互对象的面部情绪数据;
按照预定的语音情绪数据以及面部情绪数据在情绪识别中所占比重,对第一交互对象的语音情绪数据以及面部情绪数据进行加权计算,获得第一交互对象的情绪状态。
可选的,根据文本信息以及第一交互对象的情绪状态,为第一交互对象匹配交互响应信息,包括:
根据文本信息和第一交互对象的情绪状态,确定第一交互对象的意图;
根据第一交互对象的意图,为第一交互对象匹配与第一交互对象的意图相对应的交互响应信息。
可选的,根据文本信息以及第一交互对象的情绪状态,为第一交互对象匹配交互响应信息,包括:
根据文本信息,获得与文本信息相匹配的至少一个文本响应信息;
根据第一交互对象的情绪状态对至少一个文本响应信息进行核对优化,获得最优文本响应信息;
对最优文本响应信息进行语音合成处理,获取针对第一交互对象的语音响应信息;
通过基于语音信息的人脸生成技术,生成与语音响应信息具有同步性的、以虚拟人为主体的虚拟人视频。
可选的,根据第一交互对象的情绪状态对至少一个文本响应信息进行核对优化,获得最优文本响应信息,包括:
根据预定的情绪状态的问答匹配关系以及第一交互对象的情绪状态,为第一交互对象匹配对应的响应情绪状态;
从至少一个文本响应信息中获得与响应情绪状态相匹配的最优文本响应信息。
可选的,还包括:
根据响应情绪状态对应的语音信息,对第一交互对象的语音响应信息进行优化调整;
根据响应情绪状态对应的面部表情信息,对与语音响应信息具有同步性的、以虚拟人为主体的虚拟人视频进行调整。
可选的,获取来自第一交互对象的交互输入信息,包括:
通过中远场拾音或近场拾音的方式获得第一交互对象的语音信息;
对第一交互对象进行面部表情捕捉,获得第一交互对象的面部表情信息。
可选的,还包括:
对第一交互对象的交互输入信息进行声纹识别。
可选的,在检测获得预定范围内的属于特定类别的潜在交互对象之前,还包括:
通过交互界面输出无交互空闲状态下的音视频。
可选的,在检测获得预定范围内的属于特定类别的潜在交互对象之后,还包括:
唤醒摄像头对预定范围内的自然人进行人脸识别。
可选的,在属于特定类别的潜在交互对象中确定第一交互对象之后,还包括:
唤醒交互界面中所展示的虚拟人。
可选的,通过交互界面中所展示的虚拟形象向第一交互对象输出交互启动信息,包括:
指示交互界面中所展示的虚拟人向第一交互对象打招呼。
可选的,在指示交互界面中所展示的虚拟人向第一交互对象打招呼之后,还包括:
指示交互界面中所展示的虚拟人进入等待获取来自第一交互对象的交互输入信息的静置态。
可选的,在指示交互界面中所展示的虚拟人向第一交互对象打招呼之后,还包括:检测是否有来自第一交互对象的交互输入信息。
可选的,还包括:
如果检测到来自第一交互对象的交互输入信息,则指示虚拟人进入接收交互输入信息的倾听态。
可选的,在指示虚拟人进入接收交互输入信息的倾听态之前或之后,还包括:
指示虚拟人做出与倾听态相匹配的姿态动作。
可选的,在通过交互界面输出语音响应信息以及与语音响应信息同步输出的、以虚拟形象为主体的虚拟形象视频之后,还包括:
检测是否有来自第一交互对象的下一步交互输入信息,并且指示交互界面中所展示的虚拟人进入等待获取来自第一交互对象的下一步交互输入信息的静置态。
可选的,还包括:
如果等待获取来自第一交互对象的下一步交互输入信息的时间超过预设时间,则指示交互界面中所展示的虚拟人处于无交互的空闲状态。
可选的,还包括:如果存在以下中的至少一种,则指示交互界面中所展示的虚拟人处于无交互的空闲状态:
获取来自第一交互对象的结束交互信息;
在预定范围内无法检测到第一交互对象;
无法检测到第一交互对象的符合预定状态的人脸。
在上述的实施例中,提供了一种交互方法、一种交互装置以及一种电子设备,此外,本申请第四实施例还提供了一种用于交互的计算机可读取存储介质。本申请提供的计算机可读取存储介质实施例描述得比较简单,相关部分请参见上述方法实施例的对应说明即可,下述描述的实施例仅仅是示意性的。
本实施例提供一种计算机可读取存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
通过对象特征识别,在属于特定类别的潜在交互对象中确定第一交互对象;
通过预设的虚拟形象向第一交互对象输出交互启动信息;
获取来自第一交互对象的交互输入信息;
对交互输入信息进行处理,获取用于向第一交互对象反馈的交互响应信息;交互响应信息包括语音响应信息和与语音响应信息具有同步性的、以虚拟形象为主体的虚拟影像;
输出语音响应信息以及与语音响应信息具有同步性的、以虚拟形象为主体的虚拟影像。
可选的,在通过对象特征识别,在属于特定类别的潜在交互对象中确定第一交互对象的步骤之前,还包括:检测获得预定范围内的属于特定类别的潜在交互对象;
通过对象特征识别,在属于特定类别的潜在交互对象中确定第一交互对象,包括:对预定范围内的属于特定类别的潜在交互对象进行对象特征识别;当预定范围内的属于特定类别的潜在交互对象中存在符合预定状态的对象特征时,确定具有预定状态的对象特征的潜在交互对象为第一交互对象。
可选的,特定类别的潜在交互对象是指自然人;虚拟形象是指交互界面中所展示的虚拟人。
可选的,检测获得预定范围内的属于特定类别的潜在交互对象,包括如下中的至少一种:
通过红外检测方法检测获得预定范围内的自然人;
通过摄像头检测获得预定范围内的自然人;
通过语音检测获得预定范围内的自然人。
可选的,预定状态的对象特征中,预定状态包括:
人脸的正面朝向交互界面中所展示的虚拟人。
可选的,来自第一交互对象的交互输入信息包括第一交互对象的语音信息和第一交互对象的面部表情信息,对交互输入信息进行处理,获取用于向第一交互对象反馈的交互响应信息,包括:
对语音信息进行语音识别,获得交互输入信息包含的文本信息;
根据语音信息以及面部表情信息中的至少一种,确定第一交互对象的情绪状态;
根据文本信息以及第一交互对象的情绪状态,为第一交互对象匹配交互响应信息。
可选的,根据语音信息以及面部表情信息中的至少一种,确定第一交互对象的情绪状态,包括:
基于语音信息的音调,按照语音情绪识别方法进行情绪识别,获得第一交互对象的情绪状态。
可选的,根据语音信息以及面部表情信息中的至少一种,确定第一交互对象的情绪状态,包括:
基于面部表情信息,按照面部情绪识别方法进行情绪识别,获得第一交互对象的情绪状态。
可选的,根据语音信息以及面部表情信息中的至少一种,确定第一交互对象的情绪状态,包括:
基于语音信息的语调,按照语音情绪识别方法进行情绪识别,获得第一交互对象的语音情绪数据;
基于面部表情信息,按照面部情绪识别方法进行情绪识别,获得第一交互对象的面部情绪数据;
按照预定的语音情绪数据以及面部情绪数据在情绪识别中所占比重,对第一交互对象的语音情绪数据以及面部情绪数据进行加权计算,获得第一交互对象的情绪状态。
可选的,根据文本信息以及第一交互对象的情绪状态,为第一交互对象匹配交互响应信息,包括:
根据文本信息和第一交互对象的情绪状态,确定第一交互对象的意图;
根据第一交互对象的意图,为第一交互对象匹配与第一交互对象的意图相对应的交互响应信息。
可选的,根据文本信息以及第一交互对象的情绪状态,为第一交互对象匹配交互响应信息,包括:
根据文本信息,获得与文本信息相匹配的至少一个文本响应信息;
根据第一交互对象的情绪状态对至少一个文本响应信息进行核对优化,获得最优文本响应信息;
对最优文本响应信息进行语音合成处理,获取针对第一交互对象的语音响应信息;
通过基于语音信息的人脸生成技术,生成与语音响应信息具有同步性的、以虚拟人为主体的虚拟人视频。
可选的,根据第一交互对象的情绪状态对至少一个文本响应信息进行核对优化,获得最优文本响应信息,包括:
根据预定的情绪状态的问答匹配关系以及第一交互对象的情绪状态,为第一交互对象匹配对应的响应情绪状态;
从至少一个文本响应信息中获得与响应情绪状态相匹配的最优文本响应信息。
可选的,还包括:
根据响应情绪状态对应的语音信息,对第一交互对象的语音响应信息进行优化调整;
根据响应情绪状态对应的面部表情信息,对与语音响应信息具有同步性的、以虚拟人为主体的虚拟人视频进行调整。
可选的,获取来自第一交互对象的交互输入信息,包括:
通过中远场拾音或近场拾音的方式获得第一交互对象的语音信息;
对第一交互对象进行面部表情捕捉,获得第一交互对象的面部表情信息。
可选的,还包括:
对第一交互对象的交互输入信息进行声纹识别。
可选的,在检测获得预定范围内的属于特定类别的潜在交互对象之前,还包括:
通过交互界面输出无交互空闲状态下的音视频。
可选的,在检测获得预定范围内的属于特定类别的潜在交互对象之后,还包括:
唤醒摄像头对预定范围内的自然人进行人脸识别。
可选的,在属于特定类别的潜在交互对象中确定第一交互对象之后,还包括:
唤醒交互界面中所展示的虚拟人。
可选的,通过交互界面中所展示的虚拟形象向第一交互对象输出交互启动信息,包括:
指示交互界面中所展示的虚拟人向第一交互对象打招呼。
可选的,在指示交互界面中所展示的虚拟人向第一交互对象打招呼之后,还包括:
指示交互界面中所展示的虚拟人进入等待获取来自第一交互对象的交互输入信息的静置态。
可选的,在指示交互界面中所展示的虚拟人向第一交互对象打招呼之后,还包括:检测是否有来自第一交互对象的交互输入信息。
可选的,还包括:
如果检测到来自第一交互对象的交互输入信息,则指示虚拟人进入接收交互输入信息的倾听态。
可选的,在指示虚拟人进入接收交互输入信息的倾听态之前或之后,还包括:
指示虚拟人做出与倾听态相匹配的姿态动作。
可选的,在通过交互界面输出语音响应信息以及与语音响应信息同步输出的、以虚拟形象为主体的虚拟形象视频之后,还包括:
检测是否有来自第一交互对象的下一步交互输入信息,并且指示交互界面中所展示的虚拟人进入等待获取来自第一交互对象的下一步交互输入信息的静置态。
可选的,还包括:
如果等待获取来自第一交互对象的下一步交互输入信息的时间超过预设时间,则指示交互界面中所展示的虚拟人处于无交互的空闲状态。
可选的,还包括:如果存在以下中的至少一种,则指示交互界面中所展示的虚拟人处于无交互的空闲状态:
获取来自第一交互对象的结束交互信息;
在预定范围内无法检测到第一交互对象;
无法检测到第一交互对象的符合预定状态的人脸。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

Claims (29)

1.一种交互方法,其特征在于,包括:
通过对象特征识别,在属于特定类别的潜在交互对象中确定第一交互对象;
通过预设的虚拟形象向所述第一交互对象输出交互启动信息;
获取来自所述第一交互对象的交互输入信息;
对所述交互输入信息进行处理,获取用于向所述第一交互对象反馈的交互响应信息;所述交互响应信息包括语音响应信息和与所述语音响应信息具有同步性的、以所述虚拟形象为主体的虚拟影像;
输出所述语音响应信息以及与所述语音响应信息具有同步性的、以所述虚拟形象为主体的虚拟影像。
2.根据权利要求1所述的方法,其特征在于,在所述通过对象特征识别,在属于特定类别的潜在交互对象中确定第一交互对象的步骤之前,还包括:
检测获得预定范围内的所述属于特定类别的潜在交互对象;
所述通过对象特征识别,在属于特定类别的潜在交互对象中确定第一交互对象,包括:
对所述预定范围内的所述属于特定类别的潜在交互对象进行对象特征识别;
当所述预定范围内的所述属于特定类别的潜在交互对象中存在符合预定状态的对象特征时,确定具有所述预定状态的对象特征的潜在交互对象为所述第一交互对象。
3.根据权利要求1-2任意一项所述的交互方法,其特征在于,所述特定类别的潜在交互对象是指自然人;所述虚拟形象是指交互界面中所展示的虚拟人。
4.根据权利要求3所述的方法,其特征在于,所述检测获得预定范围内的所述属于特定类别的潜在交互对象,包括如下中的至少一种:
通过红外检测方法检测获得预定范围内的自然人;
通过摄像头检测获得预定范围内的自然人;
通过语音检测获得预定范围内的自然人。
5.根据权利要求3所述的方法,其特征在于,所述预定状态的对象特征中,所述预定状态包括:
人脸的正面朝向所述交互界面中所展示的虚拟人。
6.根据权利要求3所述的方法,其特征在于,所述来自所述第一交互对象的交互输入信息包括所述第一交互对象的语音信息和所述第一交互对象的面部表情信息,所述对所述交互输入信息进行处理,获取用于向所述第一交互对象反馈的交互响应信息,包括:
对所述语音信息进行语音识别,获得所述交互输入信息包含的文本信息;
根据所述语音信息以及所述面部表情信息中的至少一种,确定所述第一交互对象的情绪状态;
根据所述文本信息以及所述第一交互对象的情绪状态,为所述第一交互对象匹配交互响应信息。
7.根据权利要求6所述的方法,其特征在于,所述根据所述语音信息以及所述面部表情信息中的至少一种,确定所述第一交互对象的情绪状态,包括:
基于所述语音信息的音调,按照语音情绪识别方法进行情绪识别,获得所述第一交互对象的情绪状态。
8.根据权利要求6所述的方法,其特征在于,所述根据所述语音信息以及所述面部表情信息中的至少一种,确定所述第一交互对象的情绪状态,包括:
基于所述面部表情信息,按照面部情绪识别方法进行情绪识别,获得所述第一交互对象的情绪状态。
9.根据权利要求6所述的方法,其特征在于,所述根据所述语音信息以及所述面部表情信息中的至少一种,确定所述第一交互对象的情绪状态,包括:
基于所述语音信息的语调,按照语音情绪识别方法进行情绪识别,获得所述第一交互对象的语音情绪数据;
基于所述面部表情信息,按照面部情绪识别方法进行情绪识别,获得所述第一交互对象的面部情绪数据;
按照预定的语音情绪数据以及面部情绪数据在情绪识别中所占比重,对所述第一交互对象的语音情绪数据以及面部情绪数据进行加权计算,获得所述第一交互对象的情绪状态。
10.根据权利要求6所述的方法,其特征在于,所述根据所述文本信息以及所述第一交互对象的情绪状态,为所述第一交互对象匹配交互响应信息,包括:
根据所述文本信息和所述第一交互对象的情绪状态,确定所述第一交互对象的意图;
根据所述第一交互对象的意图,为所述第一交互对象匹配与所述第一交互对象的意图相对应的交互响应信息。
11.根据权利要求6所述的方法,其特征在于,所述根据所述文本信息以及所述第一交互对象的情绪状态,为所述第一交互对象匹配交互响应信息,包括:
根据所述文本信息,获得与所述文本信息相匹配的至少一个文本响应信息;
根据所述第一交互对象的情绪状态对所述至少一个文本响应信息进行核对优化,获得最优文本响应信息;
对所述最优文本响应信息进行语音合成处理,获取针对所述第一交互对象的语音响应信息;
通过基于语音信息的人脸生成技术,生成与所述语音响应信息具有同步性的、以所述虚拟人为主体的虚拟人视频。
12.根据权利要求11所述的方法,其特征在于,所述根据所述第一交互对象的情绪状态对所述至少一个文本响应信息进行核对优化,获得最优文本响应信息,包括:
根据预定的情绪状态的问答匹配关系以及第一交互对象的情绪状态,为所述第一交互对象匹配对应的响应情绪状态;
从所述至少一个文本响应信息中获得与所述响应情绪状态相匹配的最优文本响应信息。
13.根据权利要求11所述的方法,其特征在于,还包括:
根据所述响应情绪状态对应的语音信息,对所述第一交互对象的语音响应信息进行优化调整;
根据所述响应情绪状态对应的面部表情信息,对所述与所述语音响应信息具有同步性的、以所述虚拟人为主体的虚拟人视频进行调整。
14.根据权利要求3所述的方法,其特征在于,所述获取来自所述第一交互对象的交互输入信息,包括:
通过中远场拾音或近场拾音的方式获得所述第一交互对象的语音信息;
对所述第一交互对象进行面部表情捕捉,获得所述第一交互对象的面部表情信息。
15.根据权利要求3所述的方法,其特征在于,还包括:
对所述第一交互对象的交互输入信息进行声纹识别。
16.根据权利要求3所述的方法,其特征在于,在检测获得预定范围内的所述属于特定类别的潜在交互对象之前,还包括:
通过所述交互界面输出无交互空闲状态下的音视频。
17.根据权利要求3所述的方法,其特征在于,在检测获得预定范围内的所述属于特定类别的潜在交互对象之后,还包括:
唤醒摄像头对所述预定范围内的自然人进行人脸识别。
18.根据权利要求3所述的方法,其特征在于,所述在属于特定类别的潜在交互对象中确定第一交互对象之后,还包括:
唤醒所述交互界面中所展示的虚拟人。
19.根据权利要求3所述的方法,其特征在于,所述通过交互界面中所展示的虚拟形象向所述第一交互对象输出交互启动信息,包括:
指示交互界面中所展示的虚拟人向所述第一交互对象打招呼。
20.根据权利要求19所述的方法,其特征在于,在指示交互界面中所展示的虚拟人向所述第一交互对象打招呼之后,还包括:
指示所述交互界面中所展示的虚拟人进入等待获取来自所述第一交互对象的交互输入信息的静置态。
21.根据权利要求19所述的方法,其特征在于,在指示交互界面中所展示的虚拟人向所述第一交互对象打招呼之后,还包括:检测是否有来自所述第一交互对象的交互输入信息。
22.根据权利要求21所述的方法,其特征在于,还包括:
如果检测到来自所述第一交互对象的交互输入信息,则指示所述虚拟人进入接收所述交互输入信息的倾听态。
23.根据权利要求22所述的方法,其特征在于,在指示所述虚拟人进入接收所述交互输入信息的倾听态之前或之后,还包括:
指示所述虚拟人做出与所述倾听态相匹配的姿态动作。
24.根据权利要求3所述的方法,其特征在于,在所述通过所述交互界面输出所述语音响应信息以及与所述语音响应信息同步输出的、以所述虚拟形象为主体的虚拟形象视频之后,还包括:
检测是否有来自所述第一交互对象的下一步交互输入信息,并且指示所述交互界面中所展示的虚拟人进入等待获取来自所述第一交互对象的下一步交互输入信息的静置态。
25.根据权利要求24所述的方法,其特征在于,还包括:
如果等待获取来自所述第一交互对象的下一步交互输入信息的时间超过预设时间,则指示交互界面中所展示的虚拟人处于无交互的空闲状态。
26.根据权利要求3所述的方法,其特征在于,还包括:如果存在以下中的至少一种,则指示所述交互界面中所展示的虚拟人处于无交互的空闲状态:
获取来自所述第一交互对象的结束交互信息;
在所述预定范围内无法检测到所述第一交互对象;
无法检测到所述第一交互对象的符合预定状态的人脸。
27.一种交互装置,其特征在于,包括:
第一交互对象确定单元,用于通过对象特征识别,在属于特定类别的潜在交互对象中确定第一交互对象;
交互启动信息输出单元,用于通过预设的虚拟形象向所述第一交互对象输出交互启动信息;
交互输入信息获取单元,用于获取来自所述第一交互对象的交互输入信息;
交互响应信息获取单元,用于对所述交互输入信息进行处理,获取用于向所述第一交互对象反馈的交互响应信息;所述交互响应信息包括语音响应信息和与所述语音响应信息具有同步性的、以所述虚拟形象为主体的虚拟影像;
信息输出单元,用于输出所述语音响应信息以及与所述语音响应信息具有同步性的、以所述虚拟形象为主体的虚拟影像。
28.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储交互程序,所述程序在被所述处理器读取执行时,执行如下操作:
通过对象特征识别,在属于特定类别的潜在交互对象中确定第一交互对象;
通过预设的虚拟形象向所述第一交互对象输出交互启动信息;
获取来自所述第一交互对象的交互输入信息;
对所述交互输入信息进行处理,获取用于向所述第一交互对象反馈的交互响应信息;所述交互响应信息包括语音响应信息和与所述语音响应信息具有同步性的、以所述虚拟形象为主体的虚拟影像;
输出所述语音响应信息以及与所述语音响应信息具有同步性的、以所述虚拟形象为主体的虚拟影像。
29.一种计算机可读取存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现以下步骤:
通过对象特征识别,在属于特定类别的潜在交互对象中确定第一交互对象;
通过预设的虚拟形象向所述第一交互对象输出交互启动信息;
获取来自所述第一交互对象的交互输入信息;
对所述交互输入信息进行处理,获取用于向所述第一交互对象反馈的交互响应信息;所述交互响应信息包括语音响应信息和与所述语音响应信息具有同步性的、以所述虚拟形象为主体的虚拟影像;
输出所述语音响应信息以及与所述语音响应信息具有同步性的、以所述虚拟形象为主体的虚拟影像。
CN201811617775.8A 2018-08-31 2018-12-28 一种交互方法以及装置 Active CN110874137B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811011067 2018-08-31
CN201811011067X 2018-08-31

Publications (2)

Publication Number Publication Date
CN110874137A true CN110874137A (zh) 2020-03-10
CN110874137B CN110874137B (zh) 2023-06-13

Family

ID=69717067

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811617775.8A Active CN110874137B (zh) 2018-08-31 2018-12-28 一种交互方法以及装置

Country Status (1)

Country Link
CN (1) CN110874137B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488090A (zh) * 2020-04-13 2020-08-04 北京市商汤科技开发有限公司 交互方法、装置、交互系统、电子设备及存储介质
CN111783928A (zh) * 2020-06-29 2020-10-16 北京市商汤科技开发有限公司 动物互动方法、装置、设备和介质
CN111862279A (zh) * 2020-07-23 2020-10-30 中国工商银行股份有限公司 交互处理方法和装置
CN113244621A (zh) * 2021-05-07 2021-08-13 网易(杭州)网络有限公司 一种游戏中的信息处理方法、装置、电子设备及存储介质
WO2021189967A1 (zh) * 2020-03-25 2021-09-30 北京百度网讯科技有限公司 人机交互的控制方法、装置和系统、电子设备
CN113569031A (zh) * 2021-07-30 2021-10-29 北京达佳互联信息技术有限公司 一种信息交互方法、装置、电子设备及存储介质
CN113760100A (zh) * 2021-09-22 2021-12-07 入微智能科技(南京)有限公司 一种带有虚拟形象生成、显示和控制功能的人机交互设备
CN115101048A (zh) * 2022-08-24 2022-09-23 深圳市人马互动科技有限公司 科普信息交互方法、装置、系统、交互设备和存储介质
WO2024140194A1 (zh) * 2022-12-29 2024-07-04 北京字跳网络技术有限公司 基于虚拟形象的交互方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013027893A1 (ko) * 2011-08-22 2013-02-28 Kang Jun-Kyu 통신단말장치의 감정 컨텐츠 서비스 장치 및 방법, 이를 위한 감정 인지 장치 및 방법, 이를 이용한 감정 컨텐츠를 생성하고 정합하는 장치 및 방법
CN107808191A (zh) * 2017-09-13 2018-03-16 北京光年无限科技有限公司 虚拟人多模态交互的输出方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013027893A1 (ko) * 2011-08-22 2013-02-28 Kang Jun-Kyu 통신단말장치의 감정 컨텐츠 서비스 장치 및 방법, 이를 위한 감정 인지 장치 및 방법, 이를 이용한 감정 컨텐츠를 생성하고 정합하는 장치 및 방법
CN107808191A (zh) * 2017-09-13 2018-03-16 北京光年无限科技有限公司 虚拟人多模态交互的输出方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KRISHNA C BHAVARAJU: "Interactive Virtual Reality Simulation for Nanoparticle Manipulation and Nanoassembly using Optical Tweezers" *
李真;王志良;张雪元;李庆恩;: "具有情感和语音交互能力的虚拟人系统" *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021189967A1 (zh) * 2020-03-25 2021-09-30 北京百度网讯科技有限公司 人机交互的控制方法、装置和系统、电子设备
CN111488090A (zh) * 2020-04-13 2020-08-04 北京市商汤科技开发有限公司 交互方法、装置、交互系统、电子设备及存储介质
CN111783928A (zh) * 2020-06-29 2020-10-16 北京市商汤科技开发有限公司 动物互动方法、装置、设备和介质
CN111862279A (zh) * 2020-07-23 2020-10-30 中国工商银行股份有限公司 交互处理方法和装置
CN113244621A (zh) * 2021-05-07 2021-08-13 网易(杭州)网络有限公司 一种游戏中的信息处理方法、装置、电子设备及存储介质
CN113244621B (zh) * 2021-05-07 2024-05-28 网易(杭州)网络有限公司 一种游戏中的信息处理方法、装置、电子设备及存储介质
CN113569031A (zh) * 2021-07-30 2021-10-29 北京达佳互联信息技术有限公司 一种信息交互方法、装置、电子设备及存储介质
CN113760100A (zh) * 2021-09-22 2021-12-07 入微智能科技(南京)有限公司 一种带有虚拟形象生成、显示和控制功能的人机交互设备
CN113760100B (zh) * 2021-09-22 2024-02-02 入微智能科技(南京)有限公司 一种带有虚拟形象生成、显示和控制功能的人机交互设备
CN115101048A (zh) * 2022-08-24 2022-09-23 深圳市人马互动科技有限公司 科普信息交互方法、装置、系统、交互设备和存储介质
CN115101048B (zh) * 2022-08-24 2022-11-11 深圳市人马互动科技有限公司 科普信息交互方法、装置、系统、交互设备和存储介质
WO2024140194A1 (zh) * 2022-12-29 2024-07-04 北京字跳网络技术有限公司 基于虚拟形象的交互方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110874137B (zh) 2023-06-13

Similar Documents

Publication Publication Date Title
CN110874137B (zh) 一种交互方法以及装置
CN113454708A (zh) 语言学风格匹配代理
US20200335128A1 (en) Identifying input for speech recognition engine
US11854550B2 (en) Determining input for speech processing engine
US6925438B2 (en) Method and apparatus for providing an animated display with translated speech
WO2020006935A1 (zh) 动物声纹特征提取方法、装置及计算机可读存储介质
US7844467B1 (en) System and method of providing conversational visual prosody for talking heads
US5884267A (en) Automated speech alignment for image synthesis
CN104538043A (zh) 一种通话中实时情感提示装置
WO2021196645A1 (zh) 交互对象的驱动方法、装置、设备以及存储介质
JP7568851B2 (ja) 通話およびオーディオメッセージからのその他の話者の音声フィルタリング
CN114121006A (zh) 虚拟角色的形象输出方法、装置、设备以及存储介质
CN110794964A (zh) 虚拟机器人的交互方法、装置、电子设备及存储介质
WO2023246163A1 (zh) 一种虚拟数字人驱动方法、装置、设备和介质
CN118591823A (zh) 提供交互式化身服务的方法和设备
CN117836823A (zh) 对检测到的无声语音的破译
Sodoyer et al. A study of lip movements during spontaneous dialog and its application to voice activity detection
CN117275485B (zh) 一种音视频的生成方法、装置、设备及存储介质
JP7400364B2 (ja) 音声認識システム及び情報処理方法
US20240265606A1 (en) Method and apparatus for generating mouth shape by using deep learning network
JP2021117371A (ja) 情報処理装置、情報処理方法および情報処理プログラム
CN111429882A (zh) 播放语音的方法、装置及电子设备
JP7347511B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP2023117068A (ja) 音声認識装置、音声認識方法、音声認識プログラム、音声認識システム
Verma et al. Animating expressive faces across languages

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant