CN114093352A - 交互方法、装置、电子设备及存储介质 - Google Patents

交互方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114093352A
CN114093352A CN202111187783.5A CN202111187783A CN114093352A CN 114093352 A CN114093352 A CN 114093352A CN 202111187783 A CN202111187783 A CN 202111187783A CN 114093352 A CN114093352 A CN 114093352A
Authority
CN
China
Prior art keywords
image
determining
time period
audio
interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111187783.5A
Other languages
English (en)
Inventor
李良斌
陈孝良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN202111187783.5A priority Critical patent/CN114093352A/zh
Publication of CN114093352A publication Critical patent/CN114093352A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请提供了一种交互方法、装置、电子设备及存储介质,属于人工智能技术领域。方法包括:基于采集到的音频,确定包含人声的音频片段对应的第一时间段;基于采集到的多个图像,确定包含表情的图像序列对应的第二时间段以及包含动作的图像序列对应的第三时间段中的至少一项;将所确定的多个时间段的并集,确定为交互时间段;获取与交互时间段内的音频片段和图像序列匹配的第一回复语句,输出第一回复语句。本申请通过确定人声出现的时间段以及表情或动作出现的时间段,将所确定的多个时间段的并集确定为交互时间段,结合该交互时间段内的音频和图像这两种模态的数据,更加准确地理解用户意图,输出更符合用户需求的回复语句,提高了回复的准确性。

Description

交互方法、装置、电子设备及存储介质
技术领域
本申请涉及人工智能技术领域,特别涉及一种交互方法、装置、电子设备及存储介质。
背景技术
随着人工智能技术的不断发展,机器人的智能化程度也越来越高。机器人能够与人类交互,为人类提供智能化的服务。例如,机器人布置在商场、车站、医院、业务办理大厅等场所,提供客流引导、问题解答、智能分诊等服务。通常,机器人采集用户发出的语音,基于采集到的语音,进行回复,回复的准确性较低。
发明内容
本申请实施例提供了一种交互方法、装置、电子设备及存储介质,能够提高回复的准确性。所述技术方案如下:
根据本申请实施例的一方面,提供了一种交互方法,所述方法包括:
基于采集到的音频,确定包含人声的音频片段对应的第一时间段;
基于采集到的多个图像,确定包含表情的图像序列对应的第二时间段以及包含动作的图像序列对应的第三时间段中的至少一项;
将所确定的多个时间段的并集,确定为交互时间段;
获取与所述交互时间段内的音频片段和图像序列匹配的第一回复语句,输出所述第一回复语句。
在一种可能的实现方式中,所述获取与所述交互时间段内的音频片段和图像序列匹配的第一回复语句,包括:
获取所述交互时间段内的音频片段的语音识别结果,确定与所述语音识别结果匹配的多个候选语句;
获取所述交互时间段内的图像序列的图像识别结果,确定每个所述候选语句与所述图像识别结果之间的匹配度,所述图像识别结果包括表情识别结果和动作识别结果中的至少一项;
将匹配度最大的候选语句确定为所述第一回复语句。
在一种可能的实现方式中,所述基于采集到的多个图像,确定包含表情的图像序列对应的第二时间段,包括:
在检测到两个相邻的图像包含的表情不一致的情况下,将所述两个相邻的图像中的第二个图像的采集时刻,确定为所述第二时间段的起始时刻;
在确定所述起始时刻之后,检测到另外两个相邻的图像包含的表情不一致的情况下,将所述另外两个相邻的图像中的第一个图像的采集时刻,确定为所述第二时间段的结束时刻。
在一种可能的实现方式中,所述基于采集到的多个图像,确定包含表情的图像序列对应的第二时间段以及包含动作的图像序列对应的第三时间段中的至少一项之前,所述方法还包括:
在采集到的图像不包括人体区域,且从采集到的音频中检测到唤醒词的情况下,获取包含所述唤醒词的音频片段对应的第一声源位置;
调整图像采集范围,使调整后的所述图像采集范围包括所述第一声源位置;
在调整后的所述图像采集范围内采集图像。
在一种可能的实现方式中,所述基于采集到的音频,确定包含人声的音频片段对应的第一时间段之前,所述方法还包括:
从采集到的图像中确定人脸区域,基于所述人脸区域中的眼部区域,确定注视方向;
确定对应的注视方向为第一方向的第一图像,所述第一方向与所述第一图像的垂直方向之间的夹角在目标夹角范围内;
确定连续采集到的第一数量的图像中的第一图像的数量,得到第二数量;
在所述第二数量与所述第一数量的比值大于第一阈值的情况下,确定识别到交互意图;
所述基于采集到的音频,确定包含人声的音频片段对应的第一时间段,包括:
在识别到所述交互意图的情况下,基于采集到的音频,确定包含人声的音频片段对应的第一时间段。
在一种可能的实现方式中,所述基于采集到的音频,确定包含人声的音频片段对应的第一时间段之前,所述方法还包括:
从采集到的图像中确定人脸区域,基于所述人脸区域进行表情分类,得到表情分类结果;
确定对应的表情分类结果为目标分类结果的第二图像,所述目标分类结果用于表示人脸区域包括具有交互意图的表情;
确定连续采集到的第三数量的图像中的第二图像的数量,得到第四数量;
在所述第四数量与所述第三数量的比值大于第二阈值的情况下,确定识别到交互意图;
所述基于采集到的音频,确定包含人声的音频片段对应的第一时间段,包括:
在识别到所述交互意图的情况下,基于采集到的音频,确定包含人声的音频片段对应的第一时间段。
在一种可能的实现方式中,所述方法还包括:
在识别到所述交互意图的情况下,获取与所述交互意图对应的第二回复语句,输出所述第二回复语句。
在一种可能的实现方式中,所述获取与所述交互意图对应的第二回复语句,包括:
基于采集到的图像中的人脸区域,确定属性信息;
将所述属性信息与用于生成所述第二回复语句的语句模板进行组合,得到所述第二回复语句,或者,将所述属性信息对应的称呼词与所述语句模板进行组合,得到所述第二回复语句。
在一种可能的实现方式中,所述从采集到的图像中确定人脸区域之前,所述方法还包括:
基于采集到的多个图像的采集先后顺序,以及所述多个图像中的人体区域,确定所述人体区域的移动方向;
所述从采集到的图像中确定人脸区域,包括:
在所述移动方向为逐渐接近本端设备的方向的情况下,从采集到的图像中确定人脸区域。
在一种可能的实现方式中,所述从采集到的图像中确定人脸区域,包括:
从采集到的图像中,确定人脸区域的位置;
在聚焦的位置与所述人脸区域的位置不一致的情况下,对所述人脸区域的位置进行聚焦,采集图像,执行所述从采集到的图像中确定人脸区域的步骤。
在一种可能的实现方式中,所述基于采集到的音频,确定包含人声的音频片段对应的第一时间段之前,所述方法还包括:
从采集到的图像中确定嘴部区域;
在音频增强范围不包括所述嘴部区域的情况下,调整所述音频增强范围,使调整后的所述音频增强范围包括所述嘴部区域。
在一种可能的实现方式中,所述方法还包括:
在采集到的图像不包括人体区域,且从采集到的音频中检测到脚步声的情况下,确定所述脚步声的第二声源位置;
调整图像采集范围,使调整后的所述图像采集范围包括所述第二声源位置;
在调整后的所述图像采集范围内采集图像。
根据本申请实施例的另一方面,提供了一种交互装置,所述装置包括:
音频处理模块,用于基于采集到的音频,确定包含人声的音频片段对应的第一时间段;
图像处理模块,用于基于采集到的多个图像,确定包含表情的图像序列对应的第二时间段以及包含动作的图像序列对应的第三时间段中的至少一项;
交互时间段确定模块,用于将所确定的多个时间段的并集,确定为交互时间段;
第一回复语句获取模块,用于获取与所述交互时间段内的音频片段和图像序列匹配的第一回复语句;
第一回复语句输出模块,用于输出所述第一回复语句。
在一种可能的实现方式中,所述第一回复语句获取模块,用于:
获取所述交互时间段内的音频片段的语音识别结果,确定与所述语音识别结果匹配的多个候选语句;
获取所述交互时间段内的图像序列的图像识别结果,确定每个所述候选语句与所述图像识别结果之间的匹配度,所述图像识别结果包括表情识别结果和动作识别结果中的至少一项;
将匹配度最大的候选语句确定为所述第一回复语句。
在一种可能的实现方式中,所述图像处理模块,用于:
在检测到两个相邻的图像包含的表情不一致的情况下,将所述两个相邻的图像中的第二个图像的采集时刻,确定为所述第二时间段的起始时刻;
在确定所述起始时刻之后,检测到另外两个相邻的图像包含的表情不一致的情况下,将所述另外两个相邻的图像中的第一个图像的采集时刻,确定为所述第二时间段的结束时刻。
在一种可能的实现方式中,所述装置还包括:
第一声源位置获取模块,用于在采集到的图像不包括人体区域,且从采集到的音频中检测到唤醒词的情况下,获取包含所述唤醒词的音频片段对应的第一声源位置;
第一范围调整模块,用于调整图像采集范围,使调整后的所述图像采集范围包括所述第一声源位置;
第一图像采集模块,用于在调整后的所述图像采集范围内采集图像。
在一种可能的实现方式中,所述装置还包括:
人脸区域确定模块,用于从采集到的图像中确定人脸区域;
注视方向确定模块,用于基于所述人脸区域中的眼部区域,确定注视方向;
第一图像确定模块,用于确定对应的注视方向为第一方向的第一图像,所述第一方向与所述第一图像的垂直方向之间的夹角在目标夹角范围内;
第一图像数量确定模块,用于确定连续采集到的第一数量的图像中的第一图像的数量,得到第二数量;
第一交互意图识别模块,用于在所述第二数量与所述第一数量的比值大于第一阈值的情况下,确定识别到交互意图;
所述音频处理模块,用于在识别到所述交互意图的情况下,基于采集到的音频,确定包含人声的音频片段对应的第一时间段。
在一种可能的实现方式中,所述装置还包括:
人脸区域确定模块,用于从采集到的图像中确定人脸区域;
表情分类模块,用于基于所述人脸区域进行表情分类,得到表情分类结果;
第二图像确定模块,用于确定对应的表情分类结果为目标分类结果的第二图像,所述目标分类结果用于表示人脸区域包括具有交互意图的表情;
第二图像数量确定模块,用于确定连续采集到的第三数量的图像中的第二图像的数量,得到第四数量;
第二交互意图识别模块,用于在所述第四数量与所述第三数量的比值大于第二阈值的情况下,确定识别到交互意图;
所述音频处理模块,用于在识别到所述交互意图的情况下,基于采集到的音频,确定包含人声的音频片段对应的第一时间段。
在一种可能的实现方式中,所述装置还包括:
第二回复语句获取模块,用于在识别到所述交互意图的情况下,获取与所述交互意图对应的第二回复语句;
第二回复语句输出模块,用于输出所述第二回复语句。
在一种可能的实现方式中,所述第二回复语句获取模块,用于:
基于采集到的图像中的人脸区域,确定属性信息;
将所述属性信息与用于生成所述第二回复语句的语句模板进行组合,得到所述第二回复语句,或者,将所述属性信息对应的称呼词与所述语句模板进行组合,得到所述第二回复语句。
在一种可能的实现方式中,所述装置还包括:
移动方向确定模块,用于基于采集到的多个图像的采集先后顺序,以及所述多个图像中的人体区域,确定所述人体区域的移动方向;
所述人脸区域确定模块,用于在所述移动方向为逐渐接近本端设备的方向的情况下,从采集到的图像中确定人脸区域。
在一种可能的实现方式中,所述人脸区域确定模块,用于:
从采集到的图像中,确定人脸区域的位置;
在聚焦的位置与所述人脸区域的位置不一致的情况下,对所述人脸区域的位置进行聚焦,采集图像,从采集到的图像中确定人脸区域。
在一种可能的实现方式中,所述装置还包括:
嘴部区域确定模块,用于从采集到的图像中确定嘴部区域;
第二范围调整模块,用于在音频增强范围不包括所述嘴部区域的情况下,调整所述音频增强范围,使调整后的所述音频增强范围包括所述嘴部区域。
在一种可能的实现方式中,所述装置还包括:
第二声源位置获取模块,用于在采集到的图像不包括人体区域,且从采集到的音频中检测到脚步声的情况下,确定所述脚步声的第二声源位置;
第三范围调整模块,用于调整图像采集范围,使调整后的所述图像采集范围包括所述第二声源位置;
第二图像采集模块,用于在调整后的所述图像采集范围内采集图像。
根据本申请实施例的另一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现上述任一种可能的实现方式中所述的交互方法。
根据本申请实施例的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现上述任一种可能的实现方式中所述的交互方法。
根据本申请实施例的另一方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序由处理器执行以实现上述任一种可能的实现方式中所述的交互方法。
本申请实施例提供的技术方案,基于采集到的音频,确定人声出现的时间段,并基于采集到的多个图像,确定表情或动作出现的时间段,将所确定的多个时间段的并集确定为交互时间段,该交互时间段内的音频和图像较为完整的包含了用户本次交互的语言表达以及表情或动作等外在表现,结合该交互时间段内的音频和图像这两种模态的数据,能够更加准确地理解用户意图,输出更符合用户真实需求的回复语句,提高了回复的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种实施环境的示意图;
图2是本申请实施例提供的一种交互方法的流程图;
图3是本申请实施例提供的一种交互方法的流程图;
图4是本申请实施例提供的一种交互方法的流程图;
图5是本申请实施例提供的一种交互方法的流程图;
图6是本申请实施例提供的一种交互装置的框图;
图7是本申请实施例提供的一种电子设备的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们的任意变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
图1是本申请实施例提供的一种实施环境的示意图。参见图1,该实施环境包括电子设备101和服务器102。
电子设备101是一种自动化的智能机器,具有感知能力、决策能力、行动能力和交互能力。在不同的应用场景中,电子设备101会被赋予不同的功能。在本申请实施例中,电子设备101具有与人类交互的功能。可选地,电子设备101为机器人。例如,电子设备为迎宾机器人、问答机器人、交互机器人、服务机器人、讲解机器人、导览机器人、接待机器人或者教育机器人等。
电子设备101与服务器102通过有线或无线通信方式进行直接或间接的连接。电子设备101的数据采集能力和数据处理能力与服务器102的云端存储能力和大数据处理能力相互配合,实现与人类的交互。可选地,服务器102是一台服务器;或者,是由若干台服务器组成的服务器集群;或者是一个云计算服务中心,本申请实施例对此不做限制。
上述实施环境是以电子设备和服务器相互配合,实现与人类的交互为例进行说明的,在一些实施例中,实施环境包括电子设备,不包括服务器,电子设备依靠自身的数据采集能力和数据处理能力,实现与人类的交互。
图2是本申请实施例提供的一种交互方法的流程图。下面结合图2,对该交互方法进行简要说明,参见图2,该交互方法由电子设备执行,包括以下步骤:
201、电子设备基于采集到的音频,确定包含人声的音频片段对应的第一时间段。
电子设备随着时间推进,持续采集音频,并从采集到音频中检测人声;将采集到的音频中开始出现人声的时刻,确定为第一时间段的起始时刻,该起始时刻也即是包含人声的音频片段的起始时刻;将采集到的音频中人声结束的时刻,确定为第一时间段的结束时刻,该结束时刻也即是包含人声的音频片段的结束时刻。
202、电子设备基于采集到的多个图像,确定包含表情的图像序列对应的第二时间段以及包含动作的图像序列对应的第三时间段中的至少一项。
电子设备按照周期采集图像,得到按照采集时刻的先后顺序排列的多个图像。表情是人脸在一段时间内持续表现出的状态。在一些实施例中,电子设备连续采集到的多个图像包含一种表情,这多个图像构成包含该种表情的图像序列,该图像序列中的第一个图像的采集时刻即为第二时间段的起始时刻,该图像序列中的最后一个图像的采集时刻即为第二时间段的结束时刻。
动作是人体在一段时间内的运动状态。在一些实施例中,电子设备连续采集到的多个图像包含一种动作,这多个图像构成包含该种动作的图像序列,该图像序列中的第一个图像的采集时刻即为第三时间段的起始时刻,该图像序列中的最后一个图像的采集时刻即为第三时间段的结束时刻。
在一些实施例中,电子设备基于采集到的多个图像,确定第二时间段。在一些实施例中,电子设备基于采集到的多个图像,确定第三时间段。在一些实施例中,电子设备基于采集到的多个图像,确定第二时间段和第三时间段。
可选地,电子设备并行执行步骤201和步骤202;或者,电子设备先执行步骤201,再执行步骤202;或者,电子设备先执行步骤202,再执行步骤201,本申请实施例对步骤201和步骤202的执行顺序不做限制。
203、电子设备将所确定的多个时间段的并集,确定为交互时间段。
电子设备将所确定的多个时间段的并集,确定为交互时间段,也即是,将该多个时间段的起始时刻中的最小值,确定为交互时间段的起始时刻,将该多个时间段的结束时刻中的最大值,确定为交互时间段的结束时刻。
在一些实施例中,电子设备确定的时间段包括第一时间段和第二时间段,电子设备将第一时间段和第二时间段的并集,确定为交互时间段。
在一些实施例中,电子设备确定的时间段包括第一时间段和第三时间段,电子设备将第一时间段和第三时间段的并集,确定为交互时间段。
在一些实施例中,电子设备确定的时间段包括第一时间段、第二时间段和第三时间段,电子设备将第一时间段、第二时间段和第三时间段的并集,确定为交互时间段。
204、电子设备获取与交互时间段内的音频片段和图像序列匹配的第一回复语句,输出第一回复语句。
交互时间段内的音频片段表示用户通过语言表达的意图,交互时间段内的图像序列表示用户通过表情或动作表现的意图,电子设备基于交互时间段内的音频片段和图像序列,从音频和图像两个方面,理解用户的意图,输出相应的回复语句。
本申请实施例提供的技术方案,基于采集到的音频,确定人声出现的时间段,并基于采集到的多个图像,确定表情或动作出现的时间段,将所确定的多个时间段的并集确定为交互时间段,该交互时间段内的音频和图像较为完整的包含了用户本次交互的语言表达以及表情或动作等外在表现,结合该交互时间段内的音频和图像这两种模态的数据,能够更加准确地理解用户意图,输出更符合用户真实需求的回复语句,提高了回复的准确性。
上述实施例对交互方法进行了简要说明,下面结合图3,对该交互方法进行详细说明,图3是本申请实施例提供的一种交互方法的流程图。参见图3,该交互方法包括以下步骤:
301、电子设备采集音频。
在一些实施例中,电子设备包括一个麦克风,电子设备调用该麦克风,采集音频。
在一些实施例中,电子设备包括由多个麦克风组成的麦克风阵列,电子设备调用该麦克风阵列,采集音频。其中,麦克风阵列中的多个麦克风分别部署在电子设备的不同位置,麦克风阵列包括的麦克风的数量以及各个麦克风的位置均可灵活设置。例如,麦克风阵列包括4个麦克风,这4个麦克风分别部署在电子设备的前、后、左、右4个位置。再如,麦克风阵列包括6个麦克风,这6个麦克风分别部署在电子设备的12点方向、2点方向、4点方向、6点方向、8点方向和10点方向。
302、电子设备从采集到的音频中检测脚步声。
在一些实施例中,电子设备调用脚步声检测模型,从采集到的音频中检测脚步声,得到脚步声检测结果。脚步声检测结果为第一检测结果或第二检测结果,第一检测结果表示该音频包含脚步声,第二检测结果表示该音频不包含脚步声。
其中,脚步声检测模型具有识别音频是否包含脚步声的能力,脚步声检测模型的输入为音频,输出为第一检测结果或第二检测结果。脚步声检测模型是基于多个第一样本音频和多个第二样本音频训练得到的。第一样本音频为包含脚本声的音频,且第一样本音频对应有第一标注信息,第一标注信息表示包含脚步声。第二样本音频为不包含脚步声的音频,且第二样本音频对应有第二标注信息,第二标注信息表示不包含脚步声。
脚步声检测模型的训练过程包括:每次获取一个样本音频,调用脚步声检测模型,从该样本音频中检测脚步声,得到脚步声检测结果;基于该脚步声检测结果与该样本音频对应的标注信息之间的差异,更新脚步声检测模型的参数,以减小脚步声检测结果与样本音频对应的标注信息之间的差异。可选地,若连续n次出现样本音频的脚步声检测结果与该样本音频对应的标注信息一致的情况,则停止训练,得到训练完成的脚步声检测模型,n为正整数,n可灵活配置,例如,n为5或者10等。可选地,脚步声检测模型由电子设备训练,或者,脚步声检测模型由服务器训练,电子设备从服务器获取训练完成的脚步声检测模型。
303、电子设备从采集到的音频中检测唤醒词。
唤醒词是用于唤醒电子设备的词语,唤醒词用于指示电子设备开始与用户交互。电子设备对采集到的音频进行语音识别,得到语音识别结果,从该语音识别结果中检测唤醒词。其中,电子设备基于ASR(Automatic Speech Recognition,自动语音识别)技术,对采集到的音频进行语音识别。
在一些实施例中,用户说出唤醒词,以唤醒电子设备,电子设备采集到的音频中存在包含唤醒词的音频片段,相应的,电子设备从采集到的音频中,能够检测到唤醒词。
在一些实施例中,用户未说出唤醒词,电子设备采集到的音频中不存在包含唤醒词的音频片段,相应的,电子设备从采集到的音频中,检测不到唤醒词。
可选地,电子设备并行执行步骤302和步骤303;或者,电子设备先执行步骤302,再执行步骤303;或者,电子设备先执行步骤303,再执行步骤302,本申请实施例对步骤302和步骤303的执行顺序不做限制。
304、电子设备采集图像。
在一些实施例中,电子设备包括一个第一摄像头,电子设备调用该第一摄像头,按照周期采集图像。该第一摄像头在电子设备中的位置可灵活设置。在一些实施例中,电子设备为立式机器人,该第一摄像头的位置与电子设备的底部之间的高度差为第一距离,第一距离可灵活设置为小于电子设备的高度的数值,例如,电子设备的高度为160厘米,电子设备的底部与地面接触,第一距离为130厘米或者155厘米等。
在一些实施例中,电子设备包括第二摄像头和第三摄像头,第二摄像头用于采集主体为人体的图像,第三摄像头用于采集主体为人脸的图像。第二摄像头和第三摄像头在电子设备中的位置可灵活设置。在一些实施例中,电子设备为立式机器人,第二摄像头的位置与电子设备的底部之间的高度差为第二距离,第三摄像头的位置与电子设备的底部之间的高度差为第三距离,第二距离和第三距离可灵活设置为小于电子设备的高度的数值。
在一些实施例中,为了调用第二摄像头采集到主体为人体的图像,调用第三摄像头采集到主体为人脸的图像,第二距离和第三距离根据电子设备服务的用户群体的平均高度设置。例如,第二距离与该用户群体的腰部的平均高度相同,第三距离与该用户群体的眼部的平均高度相同。
在一些实施例中,电子设备同时调用第一摄像头和第二摄像头,按照周期采集图像。在一些实施例中,电子设备调用第一摄像头,按照周期采集图像;若基于采集到的多个图像中的人体区域,确定人体区域的移动方向为逐渐接近电子设备的方向,则开始调用第二摄像头,按照周期采集图像。这样,在用户接近电子设备,与电子设备交互的可能性较大的情况下,才调用第二摄像头采集图像,能够提高拍摄资源的利用率。
可选地,为了使采集到的图像尽可能的包括完整的人体区域,第一摄像头或第二摄像头设置为广角摄像头。可选地,为了更准确地基于采集到的图像确定人体与电子设备的距离,第一摄像头或第二摄像头设置为双目摄像头。另外,电子设备采集图像的周期可灵活设置,例如,该周期为30毫秒、50毫秒或者100毫秒等,本申请实施例对此不做限制。
305、电子设备从采集到的图像中检测人体区域。
电子设备对采集到的图像进行行人检测,得到该图像中的人体区域,也即是确定该图像中的人体所在的区域。
在一些实施例中,有用户进入电子设备的图像采集范围,电子设备采集到的图像中包括行人,相应的,电子设备从采集到的图像中能够检测到人体区域,电子设备采集到的图像包括人体区域。
在一些实施例中,没有用户进入电子设备的图像采集范围,电子设备采集到的图像中不包括行人,相应的,电子设备从采集到的图像中也检测不到人体区域,电子设备采集到的图像不包括人体区域。
可选地,步骤301至步骤303与步骤304至步骤305并行执行;或者,电子设备先执行步骤301至步骤303,再执行步骤304至步骤305;或者,电子设备先执行步骤304至步骤305,再执行步骤301至步骤303,本申请实施例对步骤301至步骤303与步骤304至步骤305的执行顺序不做限制。
306、电子设备在采集到的图像包括人体区域,且从采集到的音频中未检测到唤醒词的情况下,基于采集到的多个图像的采集先后顺序,以及该多个图像中的人体区域,确定人体区域的移动方向。
采集到的图像包括人体区域,表示有用户进入电子设备的图像采集范围,但未检测到唤醒词,表示该用户未通过唤醒词唤醒电子设备,因此,基于采集到的图像,确定该用户是否存在交互意图,以在用户未说出唤醒词的情况下,也能够及时识别到用户的交互意图。其中,交互意图是指与电子设备进行交互的意图。
在一些实施例中,电子设备先基于采集到的多个图像的采集先后顺序,以及该多个图像中的人体区域,确定人体区域的移动方向。若该移动方向为逐渐接近本端设备的方向,则表示用户正在朝着本端设备前进,是可能存在交互意图的用户;若该移动方向不是逐渐接近本端设备的方向,则表示用户未朝着本端设备前进,不是可能存在交互意图的用户。其中,本端设备也即是上述电子设备。
在一些实施例中,电子设备的摄像头朝同一方向采集多个图像,场景中静止的元素在多个图像中的位置是相同的,因此,可以参照静止的元素所在的位置,确定人体区域的移动方向。
例如,电子设备为立式机器人,场景中静止的元素包括地面,电子设备的底部与地面接触,电子设备采集图像,图像的底部中心点表示地面上距离电子设备最近的位置。而人体区域的底部中心点表示人体在地面上的位置,图像的底部中心点与人体区域的底部中心点之间的距离,能够表示人体与电子设备之间的距离远近程度,基于多个图像对应的距离远近程度,能够确定人体区域的移动方向。相应的,上述基于采集到的多个图像的采集先后顺序,以及该多个图像中的人体区域,确定人体区域的移动方向的步骤包括:电子设备确定每个图像的底部中心点与该图像中的人体区域的底部中心点之间的距离;若该多个图像对应的距离,按照该多个图像的采集先后顺序逐渐减小,则确定人体区域的移动方向为逐渐接近本端设备的方向;若该多个图像对应的距离,未按照该多个图像的采集先后顺序逐渐减小,则确定人体区域的移动方向不是逐渐接近本端设备的方向。
在一些实施例中,电子设备调用双目摄像头采集图像,能够基于双目摄像头测距技术,确定图像中的人体区域与电子设备之间的距离,相应的,电子设备基于采集到的多个图像的采集先后顺序,以及该多个图像中的人体区域,确定人体区域的移动方向的步骤包括:基于双目摄像头测距技术,确定图像中的人体区域与电子设备之间的距离;若多个图像对应的距离,按照该多个图像的采集先后顺序逐渐减小,则确定人体区域的移动方向为逐渐接近本端设备的方向;若该多个图像对应的距离,未按照该多个图像的采集先后顺序逐渐减小,则确定人体区域的移动方向不是逐渐接近本端设备的方向。
307、电子设备在人体区域的移动方向为逐渐接近本端设备的方向的情况下,从采集到的图像中确定人脸区域。
在一些实施例中,人体区域的移动方向为逐渐接近本端设备的方向,表示该人体区域对应的用户可能存在交互意图,电子设备还进一步从采集到的图像中确定人脸区域,以基于人脸区域,确定用户是否存在交互意图。其中,电子设备对采集到的图像进行人脸检测,得到图像中的人脸区域。
在一些实施例中,电子设备包括一个第一摄像头,电子设备调用第一摄像头采集图像,相应的,从第一摄像头采集到的图像中确定人脸区域。
在一些实施例中,电子设备包括第二摄像头和第三摄像头,电子设备调用第二摄像头采集图像,在基于第二摄像头采集到的多个图像中的人体区域,确定人体区域的移动方向为逐渐接近电子设备的方向的情况下,调用第三摄像头采集图像,从第三摄像头采集到的图像中确定人脸区域。
在一些实施例中,电子设备从采集到的图像中确定人脸区域之前,还调整摄像头聚焦的位置,使摄像头聚焦到人脸所在的位置,以采集到清晰度更高的人脸图像。也即是,电子设备在从采集到的图像中确定人脸区域之前,还执行以下步骤:从采集到的图像中,确定人脸区域的位置;在聚焦的位置与人脸区域的位置不一致的情况下,对人脸区域的位置进行聚焦,采集图像。进而从采集到的图像中,确定人脸区域,此处采集到的图像是指以聚焦的位置为人脸区域的位置为前提而采集的图像。需要说明的是,若聚焦的位置与人脸区域的位置一致,则不调整摄像头聚焦的位置。上述摄像头为第一摄像头或第三摄像头,在此不做限制。
在一些实施例中,电子设备在人体区域的移动方向不是逐渐接近本端设备的方向的情况下,不继续执行从采集到的图像中确定人脸区域以及基于人脸区域进行后续处理的步骤。
308、电子设备基于人脸区域,识别交互意图。
在一些实施例中,若电子设备识别到用户长时间注视电子设备,则确定识别到交互意图。相应的,电子设备基于人脸区域,识别交互意图的过程包括以下步骤30801至步骤30802:
30801、电子设备基于人脸区域中的眼部区域,确定注视方向;确定对应的注视方向为第一方向的第一图像,第一方向与第一图像的垂直方向之间的夹角在目标夹角范围内。
需要说明的是,若用户平行注视电子设备的摄像头,则注视方向为采集到的图像的垂直方向;若用户注视电子设备的不同位置,或者,从不同角度注视电子设备,则注视方向会与采集到的图像的垂直方向存在较小的偏差,那么,注视方向与图像的垂直方向之间的夹角在目标夹角范围内,就表示在该图像中用户注视的对象为电子设备。其中,目标夹角范围可灵活设置,例如,目标夹角范围为5度、10度或者15度等,本申请实施例对此不做限制。相应的,第一图像是指眼部区域的注视方向与图像的垂直方向之间的夹角在目标夹角范围内的图像,也即是表示用户正在注视电子设备的图像。
30802、电子设备确定连续采集到的第一数量的图像中第一图像的数量,得到第二数量;在第二数量与第一数量的比值大于第一阈值的情况下,确定识别到交互意图。
在一些实施例中,电子设备连续采集到第一数量的图像,若该第一数量的图像中的第一图像所占的比例大于第一阈值,则表示用户长时间注视电子设备,确定识别到交互意图。其中,第一数量和第一阈值均可灵活配置,例如,第一数量为10或者20等,第一阈值为0.7或者0.8等,本申请实施例对此不做限制。
在一些实施例中,若连续采集到的多个图像均为第一图像,也表示用户长时间注视电子设备,具有交互意图,相应的,上述步骤30802能够替换为以下步骤:电子设备在连续采集到的第五数量的图像均为第一图像的情况下,确定识别到交互意图。第五数量可灵活配置,例如,第五数量为7或8等,本申请实施例对此不做限制。
在一些实施例中,若电子设备识别到用户露出期望打招呼的表情,则确定识别到交互意图。相应的,电子设备基于人脸区域,识别交互意图的过程包括以下步骤30811至步骤30813:
30811、电子设备基于人脸区域进行表情分类,得到表情分类结果。
其中,表情分类结果为第一分类结果或第二分类结果,第一分类结果表示人脸区域包括具有交互意图的表情,第二分类结果表示人脸区域不包括具有交互意图的表情。
在一些实施例中,电子设备调用表情分类模型,基于人脸区域进行表情分类,得到表情分类结果。其中,表情分类模型用于识别人脸区域是否包括具有交互意图的表情,表情分类模型的输入为人脸区域,输出为第一分类结果或第二分类结果。表情分类模型是基于多个第一样本图像和多个第二样本图像训练得到的。第一样本图像包括具有交互意图的表情,且第一样本图像对应有第三标注信息,第三标注信息表示该第一样本图像包括具有交互意图的表情。第二样本图像为不包括具有交互意图的表情的图像,且第二样本图像对应有第四标注信息,第四标注信息表示该第二样本图像不包括具有交互意图的表情。
表情分类模型的训练过程包括:每次获取一个样本图像,调用表情分类模型,基于该样本图像进行表情分类,得到表情分类结果;基于该表情分类结果与该样本图像对应的标注信息之间的差异,更新表情分类模型的参数,以减小表情分类结果与样本图像对应的标注信息之间的差异。可选地,若连续m次出现样本图像的表情分类结果与该样本图像对应的标注信息一致的情况,则停止训练,得到训练完成的表情分类模型,m为正整数,m可灵活配置,例如,m为5或者10等。可选地,表情分类模型由电子设备训练,或者,表情分类模型由服务器训练,电子设备从服务器获取训练完成的表情分类模型。
30812、电子设备确定对应的表情分类结果为目标分类结果的第二图像。
目标分类结果用于表示人脸区域包括具有交互意图的表情,目标分类结果也即是第一分类结果。第二图像是指包括具有交互意图的表情的图像,也即是表示用户露出期望打招呼的表情的图像。
30813、电子设备确定连续采集到的第三数量的图像中的第二图像的数量,得到第四数量;在第四数量与第三数量的比值大于第二阈值的情况下,确定识别到交互意图。
在一些实施例中,电子设备连续采集到第三数量的图像,若该第三数量的图像中的第二图像所占的比例大于第二阈值,则表示用户露出了期望交互的表情,确定识别到交互意图。其中,第三数量和第二阈值均可灵活配置,例如,第三数量为10或者20等,第二阈值为0.7或者0.8等,本申请实施例对此不做限制。
在一些实施例中,若连续采集到的多个图像均为第二图像,也表示用户露出了期望交互的表情,具有交互意图,相应的,上述步骤30813能够替换为以下步骤:电子设备在连续采集到的第六数量的图像均为第一图像的情况下,确定识别到交互意图。第六数量可灵活配置,例如,第六数量为7或8等,本申请实施例对此不做限制。
在上述实施例中,电子设备先执行步骤306,确定人体区域的移动方向,再执行步骤307,在人体区域的移动方向为逐渐接近本端设备的方向的情况下,从采集到的图像中确定人脸区域,再执行步骤308,基于人脸区域识别交互意图。
在另一些实施例中,电子设备不执行判断人体区域的移动方向是否为逐渐接近本端设备的方向的步骤,直接基于人脸区域识别交互意图,也即是,上述步骤306至步骤308替换为以下步骤:电子设备在采集到的图像包括人体区域,且从采集到的音频中未检测到唤醒词的情况下,从采集到的图像中确定人脸区域,基于人脸区域,识别交互意图。
在另一些实施例中,电子设备在人体区域的移动方向为逐渐接近本端设备的方向的情况下,就认为用户具有交互意图,不执行基于人脸区域识别交互意图的步骤,也即是,上述步骤306至步骤308替换为以下步骤:在采集到的图像包括人体区域,且从采集到的音频中未检测到唤醒词的情况下,基于采集到的多个图像的采集先后顺序,以及该多个图像中的人体区域,确定人体区域的移动方向;电子设备在人体区域的移动方向为逐渐接近本端设备的方向的情况下,确定识别到交互意图。
需要说明的是,若电子设备在基于采集到的图像识别交互意图的过程中,从采集到的音频中检测到唤醒词,则不再继续执行识别交互意图的步骤,立即执行基于采集到的图像和音频与用户交互的步骤。
309、电子设备在识别到交互意图的情况下,获取与交互意图对应的第二回复语句,输出第二回复语句。
第二回复语句是针对用户的交互意图做出反馈的回复语句,也即是向用户问好的语句。可选地,电子设备以语音的形式输出第二回复语句;或者,电子设备以文字的形式在电子设备的显示屏上显示第二回复语句;或者,电子设备在以语音的形式输出第二回复语句的同时,以文字的形式显示第二回复语句,本申请实施例对此不做限制。
在一些实施例中,电子设备基于采集到的图像中的人脸区域,确定属性信息;基于该属性信息和用于生成第二回复语句的语句模板,生成第二回复语句。其中,属性信息为交互意图所属的用户的属性信息。
在一些实施例中,属性信息包括姓名,电子设备基于采集到的图像中的人脸区域,确定属性信息的步骤包括:电子设备从人脸数据库中确定与该人脸区域匹配的目标人脸图像,获取目标人脸图像对应的属性信息。人脸数据库中对应存储了已注册用户的姓名和该已注册用户的人脸图像,电子设备从人脸数据库中确定与人脸区域匹配的目标人脸图像后,即可从人脸数据库中获取该目标人脸图像对应的姓名。其中,目标人脸图像与人脸区域匹配是指目标人脸图像与该人脸区域的相似度大于相似度阈值,相似度阈值可灵活配置,例如,相似度阈值为0.95或者0.97等。
在一些实施例中,人脸数据库存储在服务器中,确定目标人脸图像以及获取目标人脸图像对应的姓名的步骤由服务器执行。相应的,基于采集到的图像中的人脸区域,确定属性信息的步骤的过程包括:电子设备向服务器发送人脸识别请求,该人脸识别请求携带该人脸区域,用于请求获取该人脸区域对应的姓名;服务器基于该人脸识别请求携带的人脸区域,从人脸数据库中确定与该人脸区域匹配的目标人脸图像,获取该目标人脸图像对应的姓名;向电子设备返回该姓名;电子设备接收到该姓名。
在获取到该人脸区域对应的姓名后,电子设备将该姓名与语句模板进行组合,得到第二回复语句。例如,语句模板为“你好,XXX”,人脸区域对应的姓名为小明,则第二回复语句为“你好,小明”。
在一些实施例中,电子设备基于用户的年龄、性别等属性,确定对应的称呼词,将称呼词与语句模板进行组合,得到第二回复语句。属性信息包括年龄和性别中的至少一种。在属性信息包括年龄的情况下,电子设备对人脸区域进行年龄识别,得到该人脸区域对应的年龄。在属性信息包括性别的情况下,电子设备对人脸区域进行性别识别,得到该人脸区域对应的性别。
在一些实施例中,电子设备基于人脸区域对应的年龄,确定对应的称呼词。也即是,电子设备在人脸区域对应的年龄小于年龄阈值的情况下,确定称呼词为第一称呼词;在人脸区域对应的年龄不小于该年龄阈值的情况下,确定称呼词为第二称呼词。年龄阈值、第一称呼词和第二称呼词均可灵活配置,例如,年龄阈值为18,第一称呼词为小朋友,第二称呼词为大朋友。
在一些实施例中,电子设备基于人脸区域对应的性别,确定对应的称呼词。也即是,电子设备在人脸区域对应的性别为男的情况下,确定称呼词为第三称呼词;在人脸区域对应的性别为女的情况下,确定称呼词为第四称呼词。第三称呼词和第四称呼词均可灵活配置,例如,第三称呼词为先生,第四称呼词为女士。
在一些实施例中,电子设备基于人脸区域对应的年龄和性别,确定对应的称呼词。例如,电子设备在人脸区域对应的年龄小于年龄阈值的情况下,确定称呼词为第一称呼词;在人脸区域对应的年龄不小于该年龄阈值,且该人脸区域对应的性别为男的情况下,确定称呼词为第三称呼词;在人脸区域对应的年龄不小于该年龄阈值,且该人脸区域对应的性别为女的情况下,确定称呼词为第四称呼词。
在确定称呼词后,电子设备将该称呼词与语句模板进行组合,得到第二回复语句。例如,语句模板为“你好,XXX”,人脸区域对应的称呼词为先生,则第二回复语句为“你好,先生”。
310、电子设备在识别到交互意图的情况下,基于采集到的音频,确定包含人声的音频片段对应的第一时间段。
在一些实施例中,电子设备基于VAD(Voice Activity Detection,语音端点检测)技术,确定人声的起始时刻和人声的结束时刻。该起始时刻与该结束时刻之间的时间段即为第一时间段。
311、电子设备在识别到交互意图的情况下,基于采集到的多个图像,确定包含表情的图像序列对应的第二时间段以及包含动作的图像序列对应的第三时间段。
在一些实施例中,电子设备基于相邻两个图像之间的表情变化情况,确定第二时间段。相应的,电子设备基于采集到的多个图像,确定包含表情的图像序列对应的第二时间段的步骤包括:在检测到两个相邻的图像包含的表情不一致的情况下,将该两个相邻的图像中的第二个图像的采集时刻,确定为第二时间段的起始时刻;在确定起始时刻之后,检测到另外两个相邻的图像包含的表情不一致的情况下,将该另外两个相邻的图像中的第一个图像的采集时刻,确定为第二时间段的结束时刻。
其中,电子设备对采集到的每个图像进行表情识别,得到每个图像包含的表情。图像包含的表情为中性、高兴、生气、吃惊、恐惧、厌恶或者悲伤。在一个示例中,电子设备采集图像;检测到第一个采集到的图像包含的表情为中性,检测到第二个采集到的图像包含的表情为高兴,将第二个采集到的图像的采集时刻,确定为第二时间段的起始时刻;检测到第三个至第十个采集到的图像包含的表情均为高兴,检测到第十一个采集到的图像包含的表情为中性,将第十个采集到的图像的采集时刻,确定为第二时间段的结束时刻。
在一些实施例中,电子设备基于相邻两个图像之间的动作变化情况,确定第三时间段。也即是,电子设备基于采集到的多个图像,确定包含动作的图像序列对应的第三时间段的步骤包括:在检测到两个相邻的图像包含的动作不一致的情况下,将该两个相邻的图像中的第二个图像的采集时刻,确定为第三时间段的起始时刻;在确定起始时刻之后,检测到另外两个相邻的图像包含的动作不一致的情况下,将该另外两个相邻的图像中的第一个图像的采集时刻,确定为第三时间段的结束时刻。其中,动作是指人体的肢体动作。例如,动作为转身离开或者招手等。电子设备对采集到的每个图像进行动作识别,得到每个图像包含的动作。
可选地,电子设备并行执行步骤309、步骤310和步骤311;或者,电子设备按照任意顺序执行步骤309、步骤310和步骤311,本申请实施例对步骤309、步骤310和步骤311的执行顺序不做限制。
在一些实施例中,电子设备调用麦克风阵列采集音频,并且,能够基于波束成形技术,在某一方向上形成一个波束,增强传输方向在该波束内的音频信号,抑制传输方向在该波束外的音频信号。其中,该波束也即是音频增强范围,该音频增强范围能够基于波束成形技术进行调整。为了有效增强用户发出的音频信号,该音频增强范围应包括用户的嘴部,因此,电子设备在采集到图像后,还从采集到的图像中确定嘴部区域,基于嘴部区域调整音频增强范围。
可选地,电子设备基于嘴部区域调整音频增强范围的步骤包括:电子设备在音频增强范围不包括嘴部区域的情况下,调整音频增强范围,使调整后的音频增强范围包括嘴部区域;或者,为了提高对用户发出的音频信号的信号增强程度,电子设备在音频增强范围的中心与嘴部区域的中心未对准的情况下,调整音频增强范围,使调整后的音频增强范围的中心与嘴部区域的中心对准。
312、电子设备将所确定的多个时间段的并集,确定为交互时间段。
本步骤与步骤203同理,在此不再赘述。
313、电子设备获取与交互时间段内的音频片段和图像序列匹配的第一回复语句,输出第一回复语句。
可选地,电子设备以语音的形式输出第一回复语句;或者,电子设备以文字的形式显示第一回复语句;或者,电子设备在以语音的形式输出第一回复语句的同时,以文字的形式显示第一回复语句,本申请实施例对此不做限制。
在一些实施例中,电子设备获取与交互时间段内的音频片段和图像序列匹配的第一回复语句的过程包括以下步骤3131至步骤3133:
3131、电子设备获取交互时间段内的音频片段的语音识别结果,确定与语音识别结果匹配的多个候选语句。
其中,交互时间段内的音频片段是指包含人声的音频片段。电子设备对音频片段进行语音识别,得到语音识别结果;基于语义理解和知识图谱等技术,确定与语音识别结果匹配的多个候选语句。
3132、电子设备获取交互时间段内的图像序列的图像识别结果,确定每个候选语句与图像识别结果之间的匹配度,图像识别结果包括表情识别结果和动作识别结果中的至少一项。
其中,交互时间段内的图像序列包括第一图像序列和第二图像序列中的至少一种。第一图像序列是指包含一种表情的图像序列,相应的,第一图像序列的图像识别结果为表情识别结果,该表情识别结果是对第一图像序列中的任一图像进行表情识别,得到的表情。第二图像序列是指包含一种动作的图像序列,相应的,第二图像序列的图像识别结果为动作识别结果,该动作识别结果是对第二图像序列中的任一图像进行动作识别,得到的动作。
在一些实施例中,电子设备调用匹配度判别模型,确定候选语句与图像识别结果之间的匹配度。匹配度判别模型的输入为候选语句和图像识别结果,输出为匹配度。
匹配度判别模型基于多组训练样本训练得到。一组训练样本包括一个语句和一个图像识别结果,且该组训练样本对应有该组训练样本中的语句与该组训练样本中的图像识别结果之间的标注匹配度。匹配度判别模型的训练过程包括:每次获取一组训练样本,调用匹配度判别模型,确定该组训练样本中的语句与该组训练样本中的图像识别结果之间的预测匹配度;基于预测匹配度与该组训练样本对应的标注匹配度之间的差异,更新匹配度判别模型的参数,以减小预测匹配度与训练样本对应的标注匹配度之间的差异。可选地,若连续k次出现预测匹配度与标注匹配度之间的差异小于差异阈值的情况,则停止训练,得到训练完成的匹配度判别模型,k为正整数,k可灵活配置,例如,k为5或者10等。可选地,匹配度判别模型由电子设备训练,或者,匹配度判别模型由服务器训练,电子设备从服务器获取训练完成的匹配度判别模型。
3133、电子设备将匹配度最大的候选语句确定为第一回复语句。
在上述实施例中,将所确定的多个时间段的并集确定为交互时间段,以及,确定与交互时间段内的音频片段和图像序列匹配的第一回复语句的步骤由电子设备执行。
在另一些实施例中,将多个时间段的并集确定为交互时间段,确定与交互时间段内的音频片段和图像序列匹配度的第一回复语句的步骤由服务器执行。电子设备获取与交互时间段内的音频片段和图像序列匹配的第一回复语句的过程包括:电子设备在检测到人声的起始时刻时,向服务器发送该起始时刻以及该起始时刻的音频,并在检测到该起始时刻后,向服务器发送采集时刻在该起始时刻之后的音频;电子设备在检测到表情的起始时刻时,向服务器发送该起始时刻以及采集时刻为该起始时刻的图像,并在检测到该起始时刻后,向服务器发送采集时刻在该起始时刻之后的图像的表情识别结果;电子设备在检测到动作的起始时刻时,向服务器发送该起始时刻以及采集时刻为该起始时刻的图像,并在检测到该起始时刻后,向服务器发送采集时刻在该起始时刻之后的图像的动作识别结果;电子设备在检测到人声的结束时刻时,向服务器发送该结束时刻;电子设备在检测到表情的结束时刻时,向服务器发送该结束时刻;电子设备在检测到动作的结束时刻时,向服务器发送该结束时刻;服务器接收人声的起始时刻、表情的起始时刻、动作的起始时刻、人声的结束时刻、表情的结束时刻和动作的结束时刻;将接收到的多个起始时刻中的最小值确定为交互时间段的起始时刻,将接收到的与该多个起始时刻分别对应的多个结束时刻中的最大值,确定为该交互时间段的结束时刻;确定与该交互时间段内的音频的语音识别结果以及该交互时间段内的图像的表情识别结果和动作识别结果匹配的第一回复语句;向电子设备发送该第一回复语句;电子设备接收到该第一回复语句。
需要说明的是,服务器等待接收最后一个结束时刻,在接收到最后一个结束时刻后,确定交互时间段。例如,服务器在接收到人声的起始时刻、表情的起始时刻和表情的结束时刻后,继续等待接收人声的结束时刻,在接收到人声的结束时刻后,确定交互时间段。
本申请实施例提供的技术方案,基于采集到的音频,确定人声出现的时间段,并基于采集到的多个图像,确定表情或动作出现的时间段,将所确定的多个时间段的并集确定为交互时间段,该交互时间段内的音频和图像较为完整的包含了用户本次交互的语言表达以及表情或动作等外在表现,结合该交互时间段内的音频和图像这两种模态的数据,能够更加准确地理解用户意图,输出更符合用户真实需求的回复语句,提高了回复的准确性,进而能够减少用户重复表达交互需求的次数,提高人机交互效率,提升用户的交互体验。
并且,结合一整个交互时间段内的语音识别结果、表情识别结果和动作识别结果,进行综合判决回复,能够进一步输出更符合用户真实需求的回复语句,提高回复的准确性。
并且,通过确定人声出现的时间段以及表情或动作出现的时间段,基于所确定的多个时间段的并集内的有效信息进行回复,提高了确定回复语句的效率。
并且,在用户长时间注视电子设备或露出期望交互的表情时,能够及时准确地识别到用户的交互意图,即使用户不说出唤醒词,也能够通过图像识别到用户的交互意图,并及时与用户交互,减少了用户所需执行的唤醒操作,提高了人机交互效率,提升了用户的交互体验。
并且,在识别到交互意图后,及时输出第二回复语句,向用户问好,便于用户知晓已启动交互流程,无需执行唤醒操作,提高了人机交互效率,提升了用户的交互体验。
并且,基于采集到的图像中的人脸区域,识别用户的属性信息,输出相应的第二回复语句,实现了更人性化地回复,提升了用户的交互体验。
并且,在检测到用户接近本端设备的情况下,才继续执行识别交互意图的步骤,省去了对未接近本端设备的、具有交互意图的可能性很小的用户的识别,提高了交互意图的识别效率,并节省了计算资源。
并且,在基于人脸区域识别交互意图之前,还调整聚焦的位置,使聚焦的位置对准人脸,提高了人脸区域的清晰度,进而能够提高识别交互意图的准确性。
并且,通过从图像中确定嘴部区域,使音频增强范围对准嘴部区域,有效增强了用户发出的音频信号,在此基础上,能够提高语音识别的准确性。音频和图像这两种模态的数据相互配合并相互影响,实现了交互流程的优化,提升了交互效果。
在上述实施例中,电子设备是基于采集到的图像,识别到交互意图,进而与用户交互的。在一些实施例中,电子设备在被唤醒词唤醒后,与用户交互。下面结合图4,对由唤醒词唤醒的交互流程进行说明,图4是本申请实施例提供的一种交互方法的流程图。参见图4,该交互方法包括以下步骤:
401、电子设备采集音频。
402、电子设备从采集到的音频中检测脚步声。
403、电子设备从采集到的音频中检测唤醒词。
404、电子设备采集图像。
405、电子设备从采集到的图像中检测人体区域。
步骤401至步骤405与步骤301至步骤305同理,在此不再赘述。
406、电子设备在采集到的图像不包括人体区域,且从采集到的音频中检测到唤醒词的情况下,获取第二回复语句,输出第二回复语句。
电子设备获取第二回复语句,输出第二回复语句的过程与步骤309中获取第二回复语句,输出第二回复语句的过程同理,在此不再赘述。
407、电子设备在采集到的图像不包括人体区域,且从采集到的音频中检测到唤醒词的情况下,采集音频,基于采集到的音频,确定包含人声的音频片段对应的第一时间段。
电子设备基于采集到的音频,确定包含人声的音频片段对应的第一时间段的过程与步骤310中基于采集到的音频,确定包含人声的音频片段对应的第一时间段的过程同理,在此不再赘述。
408、电子设备在采集到的图像不包括人体区域,且从采集到的音频中检测到唤醒词的情况下,获取包含唤醒词的音频片段对应的第一声源位置。
采集到的图像不包括人体区域,且从采集到的音频中检测到唤醒词,表示用户未进入电子设备的图像采集范围,但通过唤醒词唤醒电子设备。例如,用户从电子设备的后方接近电子设备时,说出唤醒词,相应的,电子设备采集到的图像不包括人体区域,采集到的音频包含唤醒词。
为了能够采集到输出唤醒词的用户的图像,结合图像与该用户交互,电子设备还获取包含唤醒词的音频片段对应的第一声源位置,以调整图像采集范围,使图像采集范围包括该第一声源位置。第一声源位置是指发出包含唤醒词的音频片段的位置。可选地,电子设备基于DOA(Direction Of Arrival,波达方向)估计的方法,确定包含唤醒词的音频片段对应的第一声源位置。
409、电子设备调整图像采集范围,使调整后的图像采集范围包括第一声源位置。
可选地,电子设备通过调转电子设备的机身的方向,带动摄像头的方向发生变化,从而实现图像采集范围的调整;或者,电子设备通过转动摄像头,调整图像采集范围,本申请实施例对此不做限制。
在一些实施例中,为了使发出唤醒词的用户位于图像中心,电子设备调整图像采集范围,使图像采集范围的中心与第一声源位置一致。
410、电子设备在调整后的图像采集范围内采集图像。
在一些实施例中,电子设备在调整图像采集范围后,还调整聚焦的位置,使聚焦的位置对准人脸。相应的,上述步骤408包括:电子设备在调整后的图像采集范围内采集图像,从采集到的图像中,确定人脸区域的位置;在聚焦的位置与人脸区域的位置不一致的情况下,对人脸区域的位置进行聚焦,采集图像。
在一些实施例中,电子设备在调整图像采集范围后,还调整聚焦的位置,使聚焦的位置对准人体区域。相应的,上述步骤408包括:电子设备在调整后的图像采集范围内采集图像,从采集到的图像中,确定人体区域的位置;在聚焦的位置与人体区域的位置不一致的情况下,对人体区域的位置进行聚焦,采集图像。
上述步骤是以采集到的图像不包括人体区域为例进行说明的。在一些实施例中,用户进入电子设备的图像采集范围后,说出唤醒词,相应的,电子设备采集到的图像包括人体区域,且采集到的音频中包含唤醒词。可选地,电子设备在采集到的图像包括人脸区域,且采集到的音频中包含唤醒词的情况下,不执行确定第一声源位置,调整图像采集范围,使图像采集范围包括第一声源位置的步骤;或者,电子设备在采集到的图像包括人脸区域,且采集到的音频中包含唤醒词的情况下,获取包含唤醒词的音频片段对应的第一声源位置;在图像采集范围的中心与第一声源位置不一致的情况下,调整图像采集范围,使图像采集范围的中心与第一声源位置一致。
411、电子设备基于采集到的多个图像,确定包含表情的图像序列对应的第二时间段以及包含动作的图像序列对应的第三时间段。
412、电子设备将所确定的多个时间段的并集,确定为交互时间段。
413、电子设备获取与交互时间段内的音频片段和图像序列匹配的第一回复语句,输出第一回复语句。
步骤411至步骤413与步骤311至步骤313同理,在此不再赘述。
上述技术方案,在用户通过唤醒词唤醒电子设备时,自动基于唤醒词对应的声源位置,调整图像采集范围,使图像采集范围包括该用户,进而结合采集到的该用户的图像和音频,与该用户进行交互,不仅提高了交互过程的流畅性,还更加准确地理解了用户意图,输出了更符合用户真实需求的回复语句,提高了回复的准确性。
在上述实施例中,电子设备基于采集到的图像识别到交互意图后与用户交互,或者,电子设备被唤醒词唤醒后与用户交互。但在一些实施例中,用户在接近电子设备的过程中,既未进入电子设备的图像采集范围,也未说出唤醒词,为了更早地识别到用户的交互意图,电子设备还基于检测到的脚步声,调整图像采集范围,在调整后的图像采集范围内采集图像,以基于采集到的图像,及时识别到用户的交互意图。下面结合图5,对结合脚步声的交互流程进行说明,图5是本申请实施例提供的一种交互方法的流程图。参见图5,该交互方法包括以下步骤:
501、电子设备采集音频。
502、电子设备从采集到的音频中检测脚步声。
503、电子设备从采集到的音频中检测唤醒词。
504、电子设备采集图像。
505、电子设备从采集到的图像中检测人体区域。
步骤501至步骤505与步骤301至步骤305同理,在此不再赘述。
506、电子设备在采集到的图像不包括人体区域、从采集到的音频中未检测到唤醒词,且从采集到的音频中检测到脚步声的情况下,确定脚步声的第二声源位置。
例如,用户从电子设备后方接近电子设备,且未说出唤醒词时,电子设备采集到的图像不包括人体区域,且采集到的音频中包括脚步声,不包括唤醒词。
其中,第二声源位置是指发出脚步声的位置。可选地,电子设备基于DOA估计的方法,确定脚步声的第二声源位置。
507、电子设备调整图像采集范围,使调整后的图像采集范围包括第二声源位置。
在一些实施例中,为了使发出脚步声的用户位于图像中心,电子设备调整图像采集范围,使图像采集范围的中心与第二声源位置一致。
508、电子设备在调整后的图像采集范围内采集图像。
在一些实施例中,电子设备在调整图像采集范围后,还调整聚焦的位置,使聚焦的位置对准人脸。相应的,上述步骤508包括:电子设备在调整后的图像采集范围内采集图像,从采集到的图像中,确定人脸区域的位置;在聚焦的位置与人脸区域的位置不一致的情况下,对人脸区域的位置进行聚焦,采集图像。
在一些实施例中,电子设备在调整图像采集范围后,还调整聚焦的位置,使聚焦的位置对准人体区域。相应的,上述步骤508包括:电子设备在调整后的图像采集范围内采集图像,从采集到的图像中,确定人体区域的位置;在聚焦的位置与人体区域的位置不一致的情况下,对人体区域的位置进行聚焦,采集图像。
509、电子设备基于采集到的图像,识别交互意图。
在一些实施例中,步骤509与步骤306至步骤308同理。
在一些实施例中,步骤509包括:确定脚步声在多个时刻的声源位置;若该多个时刻的声源位置与电子设备之间的距离,按照时间先后顺序逐渐减小,则从采集到的图像中确定人脸区域,基于人脸区域识别交互意图。
在一些实施例中,步骤509包括:从采集到的图像中确定人脸区域,基于人脸区域,识别交互意图。
510、电子设备在识别到交互意图的情况下,获取与交互意图对应的第二回复语句,输出第二回复语句。
511、电子设备在识别到交互意图的情况下,基于采集到的音频,确定包含人声的音频片段对应的第一时间段。
512、电子设备在识别到交互意图的情况下,基于采集到的多个图像,确定包含表情的图像序列对应的第二时间段以及包含动作的图像序列对应的第三时间段。
513、电子设备将所确定的多个时间段的并集,确定为交互时间段。
514、电子设备获取与交互时间段内的音频片段和图像序列匹配的第一回复语句,输出第一回复语句。
步骤510至步骤514与步骤309至步骤313同理,在此不再赘述。
上述技术方案,在用户未通过唤醒词唤醒电子设备,且未进入电子设备的图像采集范围的情况下,也能够识别到用户的脚步声,基于脚步声的声源位置,调整图像采集范围,进而基于采集到的图像和音频,及早发现用户的交互意图,及时与用户进行交互,不仅减少了用户所需执行的交互操作,提高了人机交互效率,还提高了交互过程的流畅性,更加准确地理解了用户意图,输出了更符合用户真实需求的回复语句,提高了回复的准确性。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
图6是本申请实施例提供的一种交互装置的框图。参见图6,该装置包括:
音频处理模块601,用于基于采集到的音频,确定包含人声的音频片段对应的第一时间段;
图像处理模块602,用于基于采集到的多个图像,确定包含表情的图像序列对应的第二时间段以及包含动作的图像序列对应的第三时间段中的至少一项;
交互时间段确定模块603,用于将所确定的多个时间段的并集,确定为交互时间段;
第一回复语句获取模块604,用于获取与该交互时间段内的音频片段和图像序列匹配的第一回复语句;
第一回复语句输出模块605,用于输出该第一回复语句。
本申请实施例提供的交互装置,基于采集到的音频,确定人声出现的时间段,并基于采集到的多个图像,确定表情或动作出现的时间段,将所确定的多个时间段的并集确定为交互时间段,该交互时间段内的音频和图像较为完整的包含了用户本次交互的语言表达以及表情或动作等外在表现,结合该交互时间段内的音频和图像这两种模态的数据,能够更加准确地理解用户意图,输出更符合用户真实需求的回复语句,提高了回复的准确性。
在一种可能的实现方式中,该第一回复语句获取模块604,用于:
获取该交互时间段内的音频片段的语音识别结果,确定与该语音识别结果匹配的多个候选语句;
获取该交互时间段内的图像序列的图像识别结果,确定每个该候选语句与该图像识别结果之间的匹配度,该图像识别结果包括表情识别结果和动作识别结果中的至少一项;
将匹配度最大的候选语句确定为该第一回复语句。
在一种可能的实现方式中,该图像处理模块602,用于:
在检测到两个相邻的图像包含的表情不一致的情况下,将该两个相邻的图像中的第二个图像的采集时刻,确定为该第二时间段的起始时刻;
在确定该起始时刻之后,检测到另外两个相邻的图像包含的表情不一致的情况下,将该另外两个相邻的图像中的第一个图像的采集时刻,确定为该第二时间段的结束时刻。
在一种可能的实现方式中,该装置还包括:
第一声源位置获取模块,用于在采集到的图像不包括人体区域,且从采集到的音频中检测到唤醒词的情况下,获取包含该唤醒词的音频片段对应的第一声源位置;
第一范围调整模块,用于调整图像采集范围,使调整后的该图像采集范围包括该第一声源位置;
第一图像采集模块,用于在调整后的该图像采集范围内采集图像。
在一种可能的实现方式中,该装置还包括:
人脸区域确定模块,用于从采集到的图像中确定人脸区域;
注视方向确定模块,用于基于该人脸区域中的眼部区域,确定注视方向;
第一图像确定模块,用于确定对应的注视方向为第一方向的第一图像,该第一方向与该第一图像的垂直方向之间的夹角在目标夹角范围内;
第一图像数量确定模块,用于确定连续采集到的第一数量的图像中的第一图像的数量,得到第二数量;
第一交互意图识别模块,用于在该第二数量与该第一数量的比值大于第一阈值的情况下,确定识别到交互意图;
该音频处理模块601,用于在识别到该交互意图的情况下,基于采集到的音频,确定包含人声的音频片段对应的第一时间段。
在一种可能的实现方式中,该装置还包括:
人脸区域确定模块,用于从采集到的图像中确定人脸区域;
表情分类模块,用于基于该人脸区域进行表情分类,得到表情分类结果;
第二图像确定模块,用于确定对应的表情分类结果为目标分类结果的第二图像,该目标分类结果用于表示人脸区域包括具有交互意图的表情;
第二图像数量确定模块,用于确定连续采集到的第三数量的图像中的第二图像的数量,得到第四数量;
第二交互意图识别模块,用于在该第四数量与该第三数量的比值大于第二阈值的情况下,确定识别到交互意图;
该音频处理模块601,用于在识别到该交互意图的情况下,基于采集到的音频,确定包含人声的音频片段对应的第一时间段。
在一种可能的实现方式中,该装置还包括:
第二回复语句获取模块,用于在识别到该交互意图的情况下,获取与该交互意图对应的第二回复语句;
第二回复语句输出模块,用于输出该第二回复语句。
在一种可能的实现方式中,该第二回复语句获取模块,用于:
基于采集到的图像中的人脸区域,确定属性信息;
将该属性信息与用于生成该第二回复语句的语句模板进行组合,得到该第二回复语句,或者,将该属性信息对应的称呼词与该语句模板进行组合,得到该第二回复语句。
在一种可能的实现方式中,该装置还包括:
移动方向确定模块,用于基于采集到的多个图像的采集先后顺序,以及该多个图像中的人体区域,确定该人体区域的移动方向;
该人脸区域确定模块,用于在该移动方向为逐渐接近本端设备的方向的情况下,从采集到的图像中确定人脸区域。
在一种可能的实现方式中,该人脸区域确定模块,用于:
从采集到的图像中,确定人脸区域的位置;
在聚焦的位置与该人脸区域的位置不一致的情况下,对该人脸区域的位置进行聚焦,采集图像,从采集到的图像中确定人脸区域。
在一种可能的实现方式中,该装置还包括:
嘴部区域确定模块,用于从采集到的图像中确定嘴部区域;
第二范围调整模块,用于在音频增强范围不包括该嘴部区域的情况下,调整该音频增强范围,使调整后的该音频增强范围包括该嘴部区域。
在一种可能的实现方式中,该装置还包括:
第二声源位置获取模块,用于在采集到的图像不包括人体区域,且从采集到的音频中检测到脚步声的情况下,确定该脚步声的第二声源位置;
第三范围调整模块,用于调整图像采集范围,使调整后的该图像采集范围包括该第二声源位置;
第二图像采集模块,用于在调整后的该图像采集范围内采集图像。
需要说明的是:上述实施例提供的交互装置在进行交互时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将交互装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的交互装置与交互方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图7是本申请提供的一种电子设备700的框图。该电子设备700为机器人。可选地,该电子设备的形态与人类的形态类似。
通常,电子设备700包括有:处理器701和存储器702。
处理器701可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。在一些实施例中,处理器701可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器701还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器702可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。在一些实施例中,存储器702中的非暂态的计算机可读存储介质用于存储至少一条程序代码,该至少一条程序代码用于被处理器701所执行以实现本申请中方法实施例提供的交互方法。
在一些实施例中,电子设备700还可选包括有:外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地,外围设备包括:射频电路704、显示屏705、摄像头组件706、音频电路707和电源708中的至少一种。
外围设备接口703可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。
射频电路704用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。
显示屏705用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时,显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时,显示屏705还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。
摄像头组件706用于采集图像或视频。可选地,摄像头组件706包括一个摄像头;或者,摄像头组件706包括多个摄像头,多个摄像头分别位于电子设备700的不同位置。
音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器701进行处理,或者输入至射频电路704以实现语音通信。可选地,麦克风的数量为一个;或者,麦克风的数量为多个,该多个麦克风分别设置在电子设备700的不同部位,构成麦克风阵列。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。
电源708用于为电子设备700中的各个组件进行供电。电源708可以是交流电、直流电、一次性电池或可充电电池。
在一些实施例中,电子设备700还包括接近传感器709,也称距离传感器,通常设置在电子设备700的前面板。接近传感器709用于采集用户与电子设备700的正面之间的距离。
本领域技术人员可以理解,图7中示出的结构并不构成对电子设备700的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条程序代码,上述至少一条程序代码可由电子设备中的处理器执行以完成上述实施例中的交互方法。例如,计算机可读存储介质可以是ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory,只读光盘)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,上述计算机程序可由电子设备中的处理器执行以完成上述实施例中的交互方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上该仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种交互方法,其特征在于,所述方法包括:
基于采集到的音频,确定包含人声的音频片段对应的第一时间段;
基于采集到的多个图像,确定包含表情的图像序列对应的第二时间段以及包含动作的图像序列对应的第三时间段中的至少一项;
将所确定的多个时间段的并集,确定为交互时间段;
获取与所述交互时间段内的音频片段和图像序列匹配的第一回复语句,输出所述第一回复语句。
2.根据权利要求1所述的方法,其特征在于,所述获取与所述交互时间段内的音频片段和图像序列匹配的第一回复语句,包括:
获取所述交互时间段内的音频片段的语音识别结果,确定与所述语音识别结果匹配的多个候选语句;
获取所述交互时间段内的图像序列的图像识别结果,确定每个所述候选语句与所述图像识别结果之间的匹配度,所述图像识别结果包括表情识别结果和动作识别结果中的至少一项;
将匹配度最大的候选语句确定为所述第一回复语句。
3.根据权利要求1所述的方法,其特征在于,所述基于采集到的多个图像,确定包含表情的图像序列对应的第二时间段,包括:
在检测到两个相邻的图像包含的表情不一致的情况下,将所述两个相邻的图像中的第二个图像的采集时刻,确定为所述第二时间段的起始时刻;
在确定所述起始时刻之后,检测到另外两个相邻的图像包含的表情不一致的情况下,将所述另外两个相邻的图像中的第一个图像的采集时刻,确定为所述第二时间段的结束时刻。
4.根据权利要求1所述的方法,其特征在于,所述基于采集到的多个图像,确定包含表情的图像序列对应的第二时间段以及包含动作的图像序列对应的第三时间段中的至少一项之前,所述方法还包括:
在采集到的图像不包括人体区域,且从采集到的音频中检测到唤醒词的情况下,获取包含所述唤醒词的音频片段对应的第一声源位置;
调整图像采集范围,使调整后的所述图像采集范围包括所述第一声源位置;
在调整后的所述图像采集范围内采集图像。
5.根据权利要求1所述的方法,其特征在于,所述基于采集到的音频,确定包含人声的音频片段对应的第一时间段之前,所述方法还包括:
从采集到的图像中确定人脸区域,基于所述人脸区域中的眼部区域,确定注视方向;
确定对应的注视方向为第一方向的第一图像,所述第一方向与所述第一图像的垂直方向之间的夹角在目标夹角范围内;
确定连续采集到的第一数量的图像中的第一图像的数量,得到第二数量;
在所述第二数量与所述第一数量的比值大于第一阈值的情况下,确定识别到交互意图;
所述基于采集到的音频,确定包含人声的音频片段对应的第一时间段,包括:
在识别到所述交互意图的情况下,基于采集到的音频,确定包含人声的音频片段对应的第一时间段。
6.根据权利要求1所述的方法,其特征在于,所述基于采集到的音频,确定包含人声的音频片段对应的第一时间段之前,所述方法还包括:
从采集到的图像中确定人脸区域,基于所述人脸区域进行表情分类,得到表情分类结果;
确定对应的表情分类结果为目标分类结果的第二图像,所述目标分类结果用于表示人脸区域包括具有交互意图的表情;
确定连续采集到的第三数量的图像中的第二图像的数量,得到第四数量;
在所述第四数量与所述第三数量的比值大于第二阈值的情况下,确定识别到交互意图;
所述基于采集到的音频,确定包含人声的音频片段对应的第一时间段,包括:
在识别到所述交互意图的情况下,基于采集到的音频,确定包含人声的音频片段对应的第一时间段。
7.根据权利要求5或6所述的方法,其特征在于,所述方法还包括:
在识别到所述交互意图的情况下,获取与所述交互意图对应的第二回复语句,输出所述第二回复语句。
8.根据权利要求7所述的方法,其特征在于,所述获取与所述交互意图对应的第二回复语句,包括:
基于采集到的图像中的人脸区域,确定属性信息;
将所述属性信息与用于生成所述第二回复语句的语句模板进行组合,得到所述第二回复语句,或者,将所述属性信息对应的称呼词与所述语句模板进行组合,得到所述第二回复语句。
9.根据权利要求5或6所述的方法,其特征在于,所述从采集到的图像中确定人脸区域之前,所述方法还包括:
基于采集到的多个图像的采集先后顺序,以及所述多个图像中的人体区域,确定所述人体区域的移动方向;
所述从采集到的图像中确定人脸区域,包括:
在所述移动方向为逐渐接近本端设备的方向的情况下,从采集到的图像中确定人脸区域。
10.根据权利要求5或6所述的方法,其特征在于,所述从采集到的图像中确定人脸区域,包括:
从采集到的图像中,确定人脸区域的位置;
在聚焦的位置与所述人脸区域的位置不一致的情况下,对所述人脸区域的位置进行聚焦,采集图像,执行所述从采集到的图像中确定人脸区域的步骤。
11.根据权利要求1-6任一项所述的方法,其特征在于,所述基于采集到的音频,确定包含人声的音频片段对应的第一时间段之前,所述方法还包括:
从采集到的图像中确定嘴部区域;
在音频增强范围不包括所述嘴部区域的情况下,调整所述音频增强范围,使调整后的所述音频增强范围包括所述嘴部区域。
12.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
在采集到的图像不包括人体区域,且从采集到的音频中检测到脚步声的情况下,确定所述脚步声的第二声源位置;
调整图像采集范围,使调整后的所述图像采集范围包括所述第二声源位置;
在调整后的所述图像采集范围内采集图像。
13.一种交互装置,其特征在于,所述装置包括:
音频处理模块,用于基于采集到的音频,确定包含人声的音频片段对应的第一时间段;
图像处理模块,用于基于采集到的多个图像,确定包含表情的图像序列对应的第二时间段以及包含动作的图像序列对应的第三时间段中的至少一项;
交互时间段确定模块,用于将所确定的多个时间段的并集,确定为交互时间段;
语句获取模块,用于获取与所述交互时间段内的音频片段和图像序列匹配的第一回复语句;
语句输出模块,用于输出所述第一回复语句。
14.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现如权利要求1-12任一项所述的交互方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如权利要求1-12任一项所述的交互方法。
CN202111187783.5A 2021-10-12 2021-10-12 交互方法、装置、电子设备及存储介质 Pending CN114093352A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111187783.5A CN114093352A (zh) 2021-10-12 2021-10-12 交互方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111187783.5A CN114093352A (zh) 2021-10-12 2021-10-12 交互方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114093352A true CN114093352A (zh) 2022-02-25

Family

ID=80296790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111187783.5A Pending CN114093352A (zh) 2021-10-12 2021-10-12 交互方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114093352A (zh)

Similar Documents

Publication Publication Date Title
WO2020221072A1 (zh) 一种语义解析方法及服务器
US12039995B2 (en) Audio signal processing method and apparatus, electronic device, and storage medium
CN110519636B (zh) 语音信息播放方法、装置、计算机设备及存储介质
CN112331193B (zh) 语音交互方法及相关装置
EP4191579A1 (en) Electronic device and speech recognition method therefor, and medium
CN110780741B (zh) 模型训练方法、应用运行方法、装置、介质及电子设备
US11636852B2 (en) Human-computer interaction method and electronic device
CN111739517B (zh) 语音识别方法、装置、计算机设备及介质
CN112739507B (zh) 一种交互沟通实现方法、设备和存储介质
CN115620728B (zh) 音频处理方法、装置、存储介质及智能眼镜
CN110825164A (zh) 基于儿童专用穿戴智能设备的交互方法及系统
CN115620727B (zh) 音频处理方法、装置、存储介质及智能眼镜
WO2022227507A1 (zh) 唤醒程度识别模型训练方法及语音唤醒程度获取方法
CN111968641B (zh) 语音助手唤醒控制方法及装置、存储介质和电子设备
CN115497500B (zh) 音频处理方法、装置、存储介质及智能眼镜
CN113703585A (zh) 交互方法、装置、电子设备及存储介质
CN114333774B (zh) 语音识别方法、装置、计算机设备及存储介质
CN113763925B (zh) 语音识别方法、装置、计算机设备及存储介质
CN115130456A (zh) 语句解析、匹配模型的训练方法、装置、设备及存储介质
CN111191018A (zh) 对话系统的应答方法和装置、电子设备、智能设备
CN108388399B (zh) 虚拟偶像的状态管理方法及系统
CN113205569B (zh) 图像绘制方法及装置、计算机可读介质和电子设备
CN114065168A (zh) 信息处理方法、智能终端及存储介质
CN111985252B (zh) 对话翻译方法及装置、存储介质和电子设备
CN113299309A (zh) 语音翻译方法及装置、计算机可读介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination