CN116028006A

CN116028006A - 交互方法、装置、电子设备和存储介质

Info

Publication number: CN116028006A
Application number: CN202211534714.1A
Authority: CN
Inventors: 刘庆升; 唐锐; 王晓斐; 朱翠玲; 姜文杨
Original assignee: Anhui Toycloud Technology Co Ltd
Current assignee: Anhui Toycloud Technology Co Ltd
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-04-28

Abstract

本发明涉及人机交互技术领域，提供一种交互方法、装置、电子设备和存储介质，其中方法包括：在进入当前次交互模式后，实时采集用户语音；基于所述用户语音对应用户相对本端设备的位姿信息、所述用户语音的交互关联信息，以及所述本端设备的交互模式记录中的至少一种，确定是否回应所述用户语音；在确定回应所述用户语音的情况下，基于所述用户语音进行交互。本发明提供的方法、装置、电子设备和存储介质，在当前次交互模式下，实时采集用户语音，为一次唤醒多次交互提供条件。在实现一次唤醒多次交互的场景下，避免了本端设备误应答非交互语音的问题，使得人机交互能够像与人沟通一样流畅和自然，提高了人机交互的便利性。

Description

交互方法、装置、电子设备和存储介质

技术领域

本发明涉及人机交互技术领域，尤其涉及一种交互方法、装置、电子设备和存储介质。

背景技术

现有的机器人在与人交互过程中，用户每次交互都需要加唤醒词，才能让机器人识别是在与自己交互，例如，用户在使用阿尔法蛋大蛋机器人，每次沟通都要加含有“蛋蛋你好”的前置唤醒词，然后才会进行后续的交互。

但是对于用户来说，用户不能像与人沟通一样，连贯和自然地与机器交互，人机交互的繁琐操作，使得用户体验感降低。

发明内容

本发明提供一种交互方法、装置、电子设备和存储介质，用以解决用户每次交互都需要加唤醒词，才能唤醒机器进行交互，操作繁琐的问题。

本发明提供一种交互方法，包括：

在进入当前次交互模式后，实时采集用户语音；

基于所述用户语音对应用户相对本端设备的位姿信息、所述用户语音的交互关联信息，以及所述本端设备的交互模式记录中的至少一种，确定是否回应所述用户语音；

在确定回应所述用户语音的情况下，基于所述用户语音进行交互。

根据本发明提供的一种交互方法，所述交互关联信息的确定步骤包括：

对所述用户语音进行语音转写，得到转写文本；

基于所述转写文本与所述本端设备的唤醒词之间的第一相关性，和/或，所述转写文本与所述当前次交互模式下的历史会话文本之间的第二相关性，确定所述交互关联信息。

根据本发明提供的一种交互方法，所述转写文本与所述本端设备的唤醒词之间的第一相关性的确定步骤包括：

提取所述转写文本中的关键词；

基于所述关键词与所述唤醒词中的各唤醒分词之间的相关性，确定所述第一相关性。

根据本发明提供的一种交互方法，所述转写文本与所述当前次交互模式下的历史会话文本之间的第二相关性的确定步骤包括：

基于所述历史会话文本，进行会话预测，得到预设会话文本；

基于所述预设会话文本与所述转写文本之间的相关性，确定所述第二相关性。

根据本发明提供的一种交互方法，所述位姿信息的确定步骤包括：

对所述用户语音对应的用户进行距离检测和/或朝向检测；

基于检测所得的所述用户语音对应的用户与所述本端设备之间的距离，和/或所述用户语音对应的用户相对于所述本端设备的朝向，确定所述位姿信息。

根据本发明提供的一种交互方法，所述交互模式记录的确定步骤包括：

基于所述本端设备当前次开机后执行交互模式的次数，以及所述当前次交互模式在当前次开机后的交互序号，确定所述交互模式记录。

根据本发明提供的一种交互方法，在所述实时采集用户语音，之前还包括：

在采集到携带所述本端设备的唤醒词的唤醒语音的情况下，进入所述当前次交互模式；

在进入所述当前次交互模式之后，还包括：

在预设时长内未采集到待回应的用户语音的情况下，退出所述当前次交互模式。

本发明还提供一种交互装置，包括：

采集单元，用于在进入当前次交互模式后，实时采集用户语音；

分析单元，用于基于所述用户语音对应用户相对本端设备的位姿信息、所述用户语音的交互关联信息，以及所述本端设备的交互模式记录中的至少一种，确定是否回应所述用户语音；

交互单元，用于在确定回应所述用户语音的情况下，基于所述用户语音进行交互。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述交互方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述交互方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述交互方法。

本发明提供的一种交互方法、装置、电子设备和存储介质，通过在当前次交互模式下，实时采集用户语音，为一次唤醒多次交互提供条件。在此基础上，基于用户语音对应用户相对本端设备的位姿信息、用户语音的交互关联信息，以及本端设备的交互模式记录中的至少一种，确定是否回应所述用户语音，由此区分交互模式下采集得到的用户语音是否为交互语音，进而实现人机交互。在实现一次唤醒多次交互的场景下，避免了本端设备误应答非交互语音的问题，使得人机交互能够像与人沟通一样流畅和自然，提高了人机交互的便利性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的交互方法的流程示意图之一；

图2是本发明提供的确定第一相关性的流程示意图；

图3是本发明提供的确定第二相关性的流程示意图；

图4是本发明提供的确定位姿信息的流程示意图；

图5是本发明提供的交互方法的流程示意图之二；

图6是本发明提供的交互装置的结构示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有的人机交互过程中，用户每次交互都需要加唤醒词，才能唤醒机器进行交互，如此一来，用户不能像与人沟通一样连贯和自然地与机器交互，使得用户体验感降低。

针对上述问题，本发明提供一种交互方法，以实现在首次交互唤

醒机器之后，然后在一定条件下，后续交互内容无需涉及唤醒词，即5像人与人之间交互一样便利、自然。图1是本发明提供的交互方法的流程示意图之一，如图1所示，该方法可以应用于包括交互机器人在内的各种智能终端，此处记为本端设备，该方法包括：

步骤110，在进入当前次交互模式后，实时采集用户语音；

此处，当前次交互模式，指的是用户通过唤醒词唤醒本端设备后0所进入的交互模式。可以理解的是，一次交互模式对应一个完整的对

话流程。即，在本端设备被唤醒，并完成用户唤醒本端设备时所口述的指令之后，本端设备依然处于当前次交互模式中，并持续性地进行用户语音的实时采集。由此，避免交互尚未结束，本端设备即自动退

出交互模式，用户需要再次进行通过唤醒词唤醒本端设备的问题，从5而为交互模式下的一次唤醒后，可以进行多次交互，提供条件支持。

步骤120，基于所述用户语音对应用户相对本端设备的位姿信息、所述用户语音的交互关联信息，以及所述本端设备的交互模式记录中的至少一种，确定是否回应所述用户语音；

具体地，在当前次交互模式下采集所得的用户语音，有可能是用0户为继续与本端设备进行交互所口述的语音，也有可能是用户与其他

人员交互的语音。由此，在采集得到用户语音之后，需要判断该用户语音是否为当前次交互模式下的用于和本端设备交互的语音。即，判断本端设备是否需要针对该用户语音进行回应。

为了判断该用户语音是否为当前次交互模式下的用于和本端设5备交互的语音，可以结合用户语音所对应用户相对本端设备的位姿信

息、用户语音的交互关联信息，以及本端设备的交互模式记录中的至少一种实现。具体在应用两种或者两种以上进行判断时，可以对各自所得的判断结果进行加权，或者应用各自所得的判断结果进行投票，本发明实施例对此不作具体限定。

此处，用户语音所对应用户，可以是对用户语音进行声纹识别所得的说话人。

用户相对本端设备的位姿信息，指的是用户相对于本端设备的位置和姿态信息。位姿信息具体可以是用户与本端设备之间的距离，也可以是用户是否面向本端设备。可以理解的是，将用户距离本端设备较近的情况与用户距离本端设备较远的情况相比，距离较近时采集所得的用户语音有更大概率是用户口述的用于人机交互的语音；将用户面向本端设备和用户背对本端设备的情况相比，面向本端设备时采集所得的用户语音有更大概率是用户口述的用于人机交互的语音。由此，可将用户相对本端设备的位姿信息，作为判断本端设备是否需要针对用户语音进行回应的依据。

用户语音的交互关联信息，指的是反映用户语音所涵盖的内容与人机交互之间关联的信息。比如，交互关联信息可以是用户语音的转写文本中的内容与唤醒词的关联，也可以是用户语音的转写文本与历史会话文本之间的关联信息。可以理解的是，采集的用户语音中出现包含唤醒词或者与唤醒词相关的信息时，类似人与人之间交流对话中称呼对方的名字或者昵称一样。由此推断，采集所得的用户语音是否是用户口述的用于人机交互的语音；采集的用户语音的转述文本与历史会话文本有语义或者逻辑上的关联，类似人与人之间交流时存在上下文的联系。由此推断，采集所得的用户语音是否是用户口述的用于人机交互的语音。

本端设备的交互模式记录，指的是本端设备在执行人机交互过程中的历史记录。此处的交互模式记录，具体可以是记录进入交互模式的次数和当前次交互具体是第几次交互，或者记录用户之前的交互形式等信息。可以理解的是，首次人机交互一般需要多个轮次的交互方才能够完成，所以，根据进入交互模式的次数和当前次交互具体是第几次交互，确定当前次交互是否是首次交互。当前次交互是首次交互与非首次进行交互的情况相比，当前次交互是首次交互时采集的用户语音更大概率是用户口述的用于人机交互的语音；当本端设备记录用户之前的交互形式等信息，比如，用户常用的提问语气、提问词等反映用户进行人机交互的普适性的或者个性化的习惯信息。比如，个性化的习惯信息，可以是用户每次与本端设备交互时，语音信息都会包含口头语“我有个问题”。可以理解的是，采集的用户语音包含用户对本端设备提问的个性化习惯信息时，由此推断采集的用户语音更大概率是用户口述的用于人机交互的语音。

步骤130，在确定回应所述用户语音的情况下，基于所述用户语音进行交互。

具体地，在完成是否回应用户语音的判断之后，即可基于判断结果执行后续操作。在确定回应用户语音的情况下，本端设备根据用户语音，以语音、视频，或者二者结合的方式来回应用户语音，或者可以确定用户语音所对应的指令，并执行指令操作。比如，在当前次交互模式中，用户距离本端设备一米并面向本端设备，询问本端设备“今天天气如何”，本端设备在确定需要回应用户语音后，回复用户“今天天气为多云”。又比如，用户面向本端设备，对本端设备发出“蛋蛋，请立即关机”的指令，本端设备在确定需要回应用户语音后，本端设备执行关机操作。

本发明实施例提供的方法，在当前次交互模式下，实时采集用户语音，为一次唤醒多次交互提供条件。在此基础上，基于用户语音对应用户相对本端设备的位姿信息、用户语音的交互关联信息，以及本端设备的交互模式记录中的至少一种，确定是否回应所述用户语音，由此区分交互模式下采集得到的用户语音是否为交互语音，进而实现人机交互。在实现一次唤醒多次交互的场景下，避免了本端设备误应答非交互语音的问题，使得人机交互能够像与人沟通一样流畅和自然，提高了人机交互的便利性。

基于上述实施例，步骤120中，所述交互关联信息的确定步骤包括：

对所述用户语音进行语音转写，得到转写文本；

具体地，唤醒词是预先设定好的用于实现语音唤醒的分词，比如唤醒词可以是“蛋蛋你好”。在本端设备识别到唤醒词后，本端设备被唤醒进入到交互模式。一般不同的本端设备可以对应相同或者不同的唤醒词。

考虑到人机交互中，用户语音可能会携带与唤醒词类似或者相关的分词，作为本端设备的简称或者昵称，以指代交互中的本端设备。因此，可以基于用户语音的转写文本与唤醒词之间的相关性，判断是否需要针对用户语音进行回应。此处，将转写文本与唤醒词之间的相关性，记为第一相关性。通过确定转写本与唤醒词之间的第一相关性，判断交互关联信息，使得用户在人机交互中，应用唤醒词的昵称或者与唤醒词相关的分词，也可以被本端设备识别到，使得本端设备的交互方法更加灵活。

另外，考虑到实际交互中，会话前后存在语义上，和/或逻辑上的关联。因此，可以基于用户语音的转写文本与当前次交互模式下的历史会话文本的在语义上的相关性，和/或逻辑上的相关性，来确定转写文本与历史会话文本之间的相关性。此处，将转写文本与历史会话文本之间的相关性，记为第二相关性。所述当前次交互模式下的历史会话文本，指的是在进入此次交互模式后，进行人机交互的用户语音和本端设备语音所对应的会话文本。通过用户语音的转写文本与历史会话文本之间的语义上的相关性，和/或逻辑上的相关性，使得本端设备可以通过一次唤醒多次交互，让用户与本端设备的交流更加顺畅。

在得到用户语音的转写文本与历史会话文本之间的第一相关性、第二相关性之后，即可由此确定其交互关联信息。此处交互关联信息可以是第一相关性和/或第二相关性本身，也可以是融合第一相关性、第二相关性所得的总的相关性，本发明实施例对此不作具体限定。

基于上述任一实施例，图2是本发明提供的确定第一相关性的流程示意图，如图2所示，所述转写文本与所述本端设备的唤醒词之间的第一相关性的确定步骤包括：

步骤210，提取所述转写文本中的关键词；

步骤220，基于所述关键词与所述唤醒词中的各唤醒分词之间的相关性，确定所述第一相关性。

考虑到转写文本可能比较长，如果将逐个分词进行与唤醒词之间的相关性分析，需要耗费的计算资源较多。本发明实施例中，在进行相关性分析之前，先提取转写文本的关键词，再基于关键词进行与唤醒词的相关性分析。可以减少本端设备内部程序的计算量，使本端设备能够快速响应。

具体在进行相关性分析时，可以计算关键词与唤醒词中的各唤醒分词之间的相关性。此处的唤醒分词，指的是预先设定好的唤醒词中的分词，例如唤醒词是“蛋蛋你好”，则唤醒分词可以是“蛋蛋”、“你好”。关键词与唤醒词中的各唤醒分词之间的相关性，可以是根据关键词的语义编码和唤醒词的各唤醒分词的语义编码之间的相似度来判断，此处的相似度可以通过余弦相似度算法计算得出。当相似度越高，即关键词与唤醒分词之间的相关性越大，第一相关性越大。或者，通过判断关键词和唤醒词的各唤醒分词之间是否存在相同的分词，存在相同的分词越多，第一相关性越大。

基于上述任一实施例，图3是本发明提供的确定第二相关性的流程示意图，如图3所示，所述转写文本与所述当前次交互模式下的历史会话文本之间的第二相关性的确定步骤包括：

步骤310，基于所述历史会话文本，进行会话预测，得到预设会5话文本；

具体地，此处的预设会话文本，指的是根据历史会话文本的语义和/或逻辑，进行推测用户后续可能会沟通的内容，得到的文本。比如，历史会话文本是“今天天气怎么样”，预设会话文本可以是“今

天温度多少度”、“今天出门该穿什么衣服”、“明天天气怎么样”等。0此处，会话预测可以通过预先训练的会话预测模型实现。此处的会话预测模型可以是在语言模型的基础上训练得到，会话预测模型可以是以预先收集的会话文本中的前几句话的文本作为训练样本，以会话文本中针对前几句话的回复的文本为训练标签，进行有监督学习得到的。

5步骤320，基于所述预设会话文本与所述转写文本之间的相关性，

确定所述第二相关性。

具体地，预设会话文本与所述转写文本之间的相关性，此处的相关性可以是通过句子的语义编码之间的相似度确定，相似度可以通过

余弦相似度算法计算得出，当相似度越高，即彼此的相关性越大，即0第二相关性越大。

基于上述任一实施例，图4是本发明提供的确定位姿信息的流程示意图。如图4所示，所述位姿信息的确定步骤包括：

步骤410，对所述用户语音对应的用户进行距离检测和/或朝向检测；

5此处，所述距离检测，即检测本端设备与用户语音所对应用户之

间的距离。距离检测可以通过超声波定位实现，例如通常是接收自身发射的超声波反射信号，根据超声波发出及回波接收时间差及传播速度，计算出本端设备与用户之间的距离；距离检测也可以通过视觉定位实现，例如对本端设备周边的环境进行图像采集，并从采集到的图像中识别出用户，从而根据用户在图像中的大小计算出本端设备与用户之间的距离；距离检测还可以通过声源定位实现，即，可以通过对用户语音进行声源定位，确定本端设备与用户之间的距离。此处对执行距离检测的技术不做具体限定。

另外，朝向检测，具体可以通过人脸检测实现，例如可以进行图像采集，通过采集到的图像中是否可以检测到用户的人脸，判断用户是否朝向本端设备；也可以通过视线追踪实现，通过采集到的图像来追踪用户的视线方向，从而判断用户是否朝向本端设备。

步骤420，基于检测所得的用户语音对应的用户与所述本端设备之间的距离，和/或用户语音对应的用户相对于本端设备的朝向，确定所述位姿信息。

在得到用户与本端设备之间的距离，和/或用户语音对应的用户相对于所述本端设备的朝向之后，即可据此确定位姿信息。具体确定位姿信息的方式，可以通过提前预设的规则，来确定用户的位姿信息。例如可以将距离或者朝向直接作为位姿信息，又或者，将距离和朝向进行综合判断，由此得到位姿信息。基于位姿信息，确定当前用户交互关联信息，使得本端设备确定交互关联信息的考虑范围更加广泛，本端设备提供的交互更加自然。

基于上述任一实施例，所述交互模式记录的确定步骤包括：

具体地，考虑到通用性的交互习惯，本端设备开机之后的首次人机交互，通常需要多个轮次的交互方才能够完成首次人机交互，因此可以从进入交互模式的次数，生成交互模式记录。

此处进入交互模式的次数，是每次开机之后分别累计的，每次开机后的情况互不影响；当前次交互模式在当前次开机后的交互序号，是用于反映在此次开机后，当前次交互具体是第几次进入交互模式。基于此两者，即可判断当前次交互，是第几次进行交互，是否为首次人机交互，并将是否为首次记入交互模式记录，以便于在进行是否回应所述用户语音判断。可以理解的是，一般需要多个轮次的交互方才能够完成首次人机交互，所以，当基于交互模式记录确定为首次进入人机交互时，能够推断到采集的用户语音更大概率是用户口述的用于人机交互的语音。

基于上述任一实施例，在所述实时采集用户语音之前，该方法还包括：

在进入所述当前次交互模式之后，该方法还包括：

具体地，考虑到在实际人机交互中，可能存在用户中断交互的情况。由此，在本端设备进入交互模式后，在预设时长内未采集到待回应的用户语音的情况下，本端设备可以退出当前次交互模式。此处，预设时长，指的是本端设备在单次交互模式下的时间长度。即，本端设备在当前次进入交互模式下，从上次交互完成作为起始，持续未采集到需要进行回应的用户语音情况下，到本端设备退出当前次交互模式的时间长度。通常来讲，人与人之间的简单沟通在10分钟左右，且为了高效利用本端设备的能源，所以预设时长可以设置在10～15分钟左右。通过在预设时长内未采集到待回应的用户语音的情况下，退出所述当前次交互模式，使得本端设备的能源能够更大限度的被有效利用，也提高了本端设备的灵活性。

本发明实施例提供的方法，为当前次交互模式的进入和退出设置条件，由此在保证能够实现如同与人沟通一样连续、自然的人机交互的同时，也能避免过度消耗本端设备的能源。

基于上述任一实施例，图5为本发明提供的交互方法的流程示意图之二，如图5所示，交互方法，可以包括以下步骤：

步骤510，进入当前次交互模式，实时采集用户语音。

在当前次交互模式下采集所得的用户语音，有可能是用户为继续与本端设备进行交互所口述的语音，也有可能是用户与其他人员交互的语音。所以，需要对采集到的用户语音进行判断是否是用户需要本端设备回应的语音。

步骤520，基于所述用户语音对应用户相对本端设备的位姿信息、所述用户语音的交互关联信息，以及所述本端设备的交互模式记录中的至少一种，确定是否回应所述用户语音，如果回应则执行步骤530，否则执行步骤540。

步骤530，在确定回应所述用户语音的情况下，基于所述用户语音进行交互。

步骤540，在确定不回应所述用户语音的情况下，进一步判断在当前次交互模式下等待交互的时长是否超过预设时长，如果超过则执行步骤550，否则返回步骤510继续采集用户语音；

步骤550，在确定超过预设时长的情况下，即在预设时长内未采集到待回应的用户语音的情况下，退出所述当前次交互模式。

基于上述任一实施例，图6是本发明提供的交互装置的结构示意图，如图6所示，该装置包括：

采集单元610，用于在进入当前次交互模式后，实时采集用户语音；

分析单元620，用于基于所述用户语音对应用户相对本端设备的位姿信息、所述用户语音的交互关联信息，以及所述本端设备的交互模式记录中的至少一种，确定是否回应所述用户语音；

交互单元630，用于在确定回应所述用户语音的情况下，基于所述用户语音进行交互。

本发明实施例提供的装置，在当前次交互模式下，实时采集用户语音，为一次唤醒多次交互提供条件。在此基础上，基于用户语音对应用户相对本端设备的位姿信息、用户语音的交互关联信息，以及本端设备的交互模式记录中的至少一种，确定是否回应所述用户语音，由此区分交互模式下采集得到的用户语音是否为交互语音，进而实现人机交互。在实现一次唤醒多次交互的场景下，避免了本端设备误应答非交互语音的问题，使得人机交互能够像与人沟通一样流畅和自然，提高了人机交互的便利性。

基于上述任一实施例，分析单元还用于：

对所述用户语音进行语音转写，得到转写文本；

基于上述任一实施例，分析单元还用于：

提取所述转写文本中的关键词；

基于上述任一实施例，分析单元还用于：

对所述用户语音对应的用户进行距离检测和/或朝向检测；

基于上述任一实施例，分析单元还用于：

基于上述任一实施例，采集单元还用于：

在进入所述当前次交互模式之后，还包括：

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行交互方法，该方法包括：在进入当前次交互模式后，实时采集用户语音；基于所述用户语音对应用户相对本端设备的位姿信息、所述用户语音的交互关联信息，以及所述本端设备的交互模式记录中的至少一种，确定是否回应所述用户语音；在确定回应所述用户语音的情况下，基于所述用户语音进行交互。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的交互方法，该方法包括：在进入当前次交互模式后，实时采集用户语音；基于所述用户语音对应用户相对本端设备的位姿信息、所述用户语音的交互关联信息，以及所述本端设备的交互模式记录中的至少一种，确定是否回应所述用户语音；在确定回应所述用户语音的情况下，基于所述用户语音进行交互。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的交互方法，该方法包括：在进入当前次交互模式后，实时采集用户语音；基于所述用户语音对应用户相对本端设备的位姿信息、所述用户语音的交互关联信息，以及所述本端设备的交互模式记录中的至少一种，确定是否回应所述用户语音；在确定回应所述用户语音的情况下，基于所述用户语音进行交互。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，

服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所5述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技

术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修0改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种交互方法，其特征在于，包括：

在进入当前次交互模式后，实时采集用户语音；

2.根据权利要求1所述的交互方法，其特征在于，所述交互关联信息的确定步骤包括：

对所述用户语音进行语音转写，得到转写文本；

3.根据权利要求2所述的交互方法，其特征在于，所述转写文本与所述本端设备的唤醒词之间的第一相关性的确定步骤包括：

提取所述转写文本中的关键词；

4.根据权利要求2所述的交互方法，其特征在于，所述转写文本与所述当前次交互模式下的历史会话文本之间的第二相关性的确定步骤包括：

5.根据权利要求1所述的交互方法，其特征在于，所述位姿信息的确定步骤包括：

对所述用户语音对应的用户进行距离检测和/或朝向检测；

6.根据权利要求1所述的交互方法，其特征在于，所述交互模式记录的确定步骤包括：

7.根据权利要求1至6中任一项所述的交互方法，其特征在于，在所述实时采集用户语音，之前还包括：

在进入所述当前次交互模式之后，还包括：

8.一种交互装置，其特征在于，包括：

9.一种电子设备，包括麦克风、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，

所述麦克风用于在进入当前次交互模式后，实时采集用户语音；

所述处理器执行所述程序，以实现基于所述用户语音对应用户相对本端设备的位姿信息、所述用户语音的交互关联信息，以及所述本端设备的交互模式记录中的至少一种，确定是否回应所述用户语音；并在确定回应所述用户语音的情况下，基于所述用户语音进行交互。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述交互方法。