CN116225233A

CN116225233A - 人机交互方法、装置、计算机可读存储介质及电子设备

Info

Publication number: CN116225233A
Application number: CN202310296836.XA
Authority: CN
Inventors: 宫一尘; 王子扬
Original assignee: Beijing Horizon Information Technology Co Ltd
Current assignee: Beijing Horizon Information Technology Co Ltd
Priority date: 2023-03-23
Filing date: 2023-03-23
Publication date: 2023-06-06

Abstract

本公开实施例公开了一种人机交互方法、装置、计算机可读存储介质及电子设备，其中，该方法包括：响应于接收到目标交互信息，对目标交互信息进行语义识别，得到目标语义信息；响应于目标语义信息不完整，确定语义状态记录库中是否存在缓存的待组合语义信息；若存在待组合语义信息，基于目标语义信息和待组合语义信息，生成完整语义信息；基于目标语义信息，在语义状态记录库中更新待组合语义信息；基于完整语义信息，确定目标被控对象和对目标被控对象进行控制的控制方式，并生成控制方式对应的控制指令。本公开实施例可以有效利用不同交互方式获得的语义信息生成完整的语义信息，从而更准确地判断用户真实的控制意图，还可以提高交互的便利性。

Description

人机交互方法、装置、计算机可读存储介质及电子设备

技术领域

本公开涉及计算机技术领域，尤其是一种人机交互方法、装置、计算机可读存储介质及电子设备。

背景技术

随着人工智能技术的发展，人机交互的应用场景越来越多。用户可以通过语音、手势、眼神等多种方式与设备进行交互。例如，如用户在车辆内，可以通过语音来控制车窗、空调等设备，从而可以解放双手，避免交通隐患；在车辆停止的时候，可以通过手势、眼神等各种方式体验座舱内的智能设备的很多功能。

多模态交互方案，是指将语音、手势等多种人机交互方式相结合来控制设备执行相应的操作。目前的多模态交互方案，通常是一次性地采集语音、手势等多种类型的交互信息，对这些交互信息进行融合，利用融合后获得的信息进行识别，从而提高识别准确性。但实际的应用场景中，用户发出的交互信息往往不完整，若在多模态交互中使用了不完整的交互信息，会造成设备对用户的意图识别错误。

发明内容

为了解决上述技术问题，本公开的实施例提供了一种人机交互方法、装置、计算机可读存储介质及电子设备。

本公开的实施例提供了一种人机交互方法，该方法包括：响应于接收到目标用户按照第一交互方式与目标设备交互时采集的目标交互信息，对目标交互信息进行语义识别，得到目标语义信息；确定目标语义信息的完整性；响应于目标语义信息不完整，确定预设的语义状态记录库中是否存在缓存的待组合语义信息，其中，待组合语义信息是在目标交互阶段内，目标用户按照至少一种第二交互方式与目标设备交互得到的语义信息；响应于语义状态记录库中存在待组合语义信息，基于目标语义信息和待组合语义信息，生成完整语义信息；基于目标语义信息，在语义状态记录库中更新待组合语义信息；基于完整语义信息，确定目标被控对象和对目标被控对象进行控制的控制方式，并生成控制方式对应的控制指令。

根据本公开实施例的另一个方面，提供了一种人机交互装置，该装置包括：识别模块，用于响应于接收到目标用户按照第一交互方式与目标设备交互时采集的目标交互信息，对目标交互信息进行语义识别，得到目标语义信息；第一确定模块，用于确定目标语义信息的完整性；第二确定模块，用于响应于目标语义信息不完整，确定预设的语义状态记录库中是否存在缓存的待组合语义信息，其中，待组合语义信息是在目标交互阶段内，目标用户按照至少一种第二交互方式与目标设备交互得到的语义信息；第一生成模块，用于响应于语义状态记录库中存在待组合语义信息，基于目标语义信息和待组合语义信息，生成完整语义信息；第一更新模块，用于基于目标语义信息，在语义状态记录库中更新待组合语义信息；第二生成模块，用于基于完整语义信息，确定目标被控对象和对目标被控对象进行控制的控制方式，并生成控制方式对应的控制指令。

根据本公开实施例的另一个方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序用于被处理器执行以实现执行上述人机交互方法。

根据本公开实施例的另一个方面，提供了一种电子设备，电子设备包括：处理器；用于存储处理器可执行指令的存储器；处理器，用于从存储器中读取可执行指令，并执行指令以实现上述人机交互方法。

基于本公开上述实施例提供的人机交互方法、装置、计算机可读存储介质及电子设备，首先对通过第一交互方式交互时采集的目标交互信息进行语义识别，得到目标语义信息，并确定目标语义信息的完整性，若目标语义信息不完整，从语义状态记录库中获取目标交互阶段内缓存的按照第二交互方式交互时得到的待组合语义信息，然后基于目标语义信息和待组合语义信息，生成完整语义信息，并在语义状态记录库中更新待组合语义信息，最后基于完整语义信息生成对目标被控对象进行控制的目标指令信息。本公开实施例实现了在利用一种交互方式识别到的目标语义信息不完整时，获取通过其他交互方式预先缓存的待组合语义信息，进而生成完整语义信息，相比于一次性地对多模态交互信息融合并识别的方法，本公开实施例可以在多轮交互的过程中，有效利用当前时刻之前通过其他交互方式已经获得的语义信息来对当前识别的不完整的语义信息进行补充，得到表示用户真实意图的完整语义信息，从而更准确地判断用户真实的控制意图。此外，通过缓存预先通过各种识别方式获得的语义信息，可以使用户在多轮交互过程中，使用各种交互方式相结合与目标设备进行交互，极大提高了交互的便利性。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤；

图1是本公开所适用的系统图；

图2是本公开一示例性实施例提供的人机交互方法的流程示意图；

图3是本公开另一示例性实施例提供的人机交互方法的流程示意图；

图4是本公开另一示例性实施例提供的人机交互方法的流程示意图；

图5是本公开另一示例性实施例提供的人机交互方法的流程示意图；

图6是本公开另一示例性实施例提供的人机交互方法的流程示意图；

图7是本公开另一示例性实施例提供的人机交互方法的流程示意图；

图8是本公开另一示例性实施例提供的人机交互方法的流程示意图；

图9是本公开一示例性实施例提供的人机交互装置的结构示意图；

图10是本公开另一示例性实施例提供的人机交互装置的结构示意图；

图11是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

为了解释本公开，下面将参考附图详细地描述本公开的示例实施例，显然，所描述的实施例仅是本公开的一部分实施例，而不是全部实施例，应理解，本公开不受示例性实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

申请概述

目前的多模态人机交互方法，无保证被识别的交互信息的完整性，容易导致交互时识别错误。未解决该问题，本公开实施例提供了一种人机交互方法，该方法可以应用到多轮交互的场景，当通过一种交互方式获得交互信息并对该交互信息识别得到目标语义信息后，若确定目标语义信息不完整，则获取多轮交互过程中缓存的待组合语义信息，将目标语义信息和待组合语义信息组合成完整语义信息进行识别，从而准确地对目标被控对象进行控制。

示例性系统

图1示出了可以应用本公开的实施例的人机交互方法或人机交互装置的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101，网络102、服务器103和目标设备104。网络102用于在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101通过网络102与服务器103交互，以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用，例如语音识别应用、图像识别应用等。

终端设备101可以是各种电子设备，包括但不限于诸如车载终端、移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。

目标设备104可以是各种类型的电子设备，例如车辆、智能家电、工业设备等，目标设备104包含多种被控对象，例如，当目标设备104是车辆时，被控对象可以包括车载播放器、车载空调、车窗、座椅等。需要说明的是，终端设备101可以设置在目标设备104中，例如，目标设备104为车辆，终端设备101可以是车载终端。终端设备101还可以设置在目标设备104外，例如，目标设备104为智能家电，终端设备101可以是手机，手机可以与智能家电保持通信连接，并对智能家电进行控制。

服务器103可以是提供各种服务的服务器，例如对终端设备101或目标设备104上传的用户语音、用户图像等进行识别的后台服务器。后台服务器可以对接收到的交互信息进行识别，得到语义信息，并基于语义信息生成用于对目标被控对象进行控制的目标指令信息，后台服务器可以进一步将目标指令信息反馈给终端设备101或目标设备104。

需要说明的是，本公开的实施例所提供的人机交互方法可以由服务器103执行，也可以由终端设备101或目标设备104执行，相应地，人机交互装置可以设置于服务器103中，也可以设置于终端设备101或目标设备104中。

应该理解，图1中的终端设备101、网络102、服务器103、目标设备104的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备101、网络102、服务器103、目标设备104。例如，在交互信息不需要从远程获取的情况下，上述系统架构可以不包括网络102，只包括终端设备101或目标设备104。

示例性方法

图2是本公开一示例性实施例提供的人机交互方法的流程示意图。本实施例可应用在电子设备(如图1所示的终端设备101或服务器103或目标设备104)上，如图2所示，该方法包括如下步骤：

步骤201，响应于接收到目标用户按照第一交互方式与目标设备交互时采集的目标交互信息，对目标交互信息进行语义识别，得到目标语义信息。

在本实施例中，电子设备可以响应于接收到目标用户按照第一交互方式与目标设备(即图1所示的目标设备104)交互时采集的目标交互信息，对目标交互信息进行语义识别，得到目标语义信息。其中，第一交互方式可以是语音交互方式、手势交互方式、视线交互方式等方式中的任一种，相应的，目标交互信息可以是语音信号、手势图像、眼部图像等类型的信息中的任一种，对目标交互信息进行语义识别采用的方法可以是语音识别、手势识别、视线识别等方法中的任一种。

通常，目标语义信息可以是文本信息，用来表示目标用户与目标设备交互时表达的语义。

作为示例，当用户通过语音与目标设备进行人机交互时，可以采用ASR(AutomaticSpeechRecognition，自动语音识别)技术进行语音识别，得到目标语义信息。

步骤202，确定目标语义信息的完整性。

在本实施例中，电子设备可以对目标语义信息进行语义完整性分析，以确定目标语义信息的完整性。其中，对目标语义信息进行语义完整性分析可以采用语义完整性分析模型实现。例如，基于TCN(Temporal Convolutional Network，时间卷积网络)建立的语义完整性分析模型。

通常，完整的语义信息可以包括目标被控对象信息和目标指令信息，若目标语义信息不同时包含被控对象信息和目标指令信息，则判定目标语义信息不完整。

作为示例，第一交互方式为语音交互方式，即目标用户通过语音与目标设备进行人机交互，若识别出的目标语义信息为“空调温度高”，由于该信息只包含目标被控对象信息“空调”，根据“温度高”无法确定如何对空调进行控制，即目标语义信息不包含目标指令信息，则确定目标语义信息不完整。

步骤203，响应于目标语义信息不完整，确定预设的语义状态记录库中是否存在缓存的待组合语义信息。

在本实施例中，电子设备可以响应于目标语义信息不完整，确定预设的语义状态记录库中是否存在缓存的待组合语义信息。其中，待组合语义信息是在目标交互阶段内，目标用户按照至少一种第二交互方式与目标设备交互得到的语义信息。

具体地，目标交互阶段可以是由一次多轮交互组成的阶段。通常，一次多轮交互是指目标设备从交互休眠状态进入交互唤醒状态的时刻开始，至目标设备再次进入交互休眠状态所经历的阶段，在该阶段内，目标用户可以与目标设备进行多轮交互。

第二交互方式可以是与第一交互方式不同的交互方式，第二交互方式的种类可以为至少一种。例如，第一交互方式为语音交互方式，则第二交互方式可以包括但不限于以下至少一种：手势交互方式、视线交互方式等。

上述语义状态记录库可以设置在电子设备本地，也可以设置在远程设备中。通常，语义状态记录库中缓存的待组合语义信息，是上述目标交互阶段内缓存的语义信息，即多轮交互过程中的任一轮交互，均可以使用缓存中的待组合语义信息。

步骤204，响应于语义状态记录库中存在待组合语义信息，基于目标语义信息和待组合语义信息，生成完整语义信息。

在本实施例中，电子设备可以响应于语义状态记录库中存在待组合语义信息，基于目标语义信息和待组合语义信息，生成完整语义信息。

具体地，可以从目标语义信息中提取目标被控对象信息和/或目标指令信息，将提取的目标被控对象信息和/或目标指令信息与待组合语义信息组合，生成包含目标被控对象信息和目标指令信息的完整语义信息。

作为示例，若识别出的不完整的目标语义信息为“空调温度高”，该信息只包含目标被控对象信息“空调”，不包含目标指令信息。此时，若语义状态记录库中包含预先通过手势识别得到的待组合信息“升高一度”(例如目标用户手势为伸出一根手指并向上指)，则可以从语义状态记录库中提取该待组合信息，从而组合成完整语义信息“空调温度升高一度”。

再例如，若识别出的不完整的目标语义信息为“打开”，该信息只包含目标指令信息，不包含目标被控对象信息，即电子设备无法确定打开何种被控对象，此时，若语义状态记录库中包含预先通过视线识别得到的待组合信息“左侧车窗”，则可以从语义状态记录库中提取该待组合信息，从而组合成完整语义信息“打开左侧车窗”。

可选的，若上述语义状态记录库中存在多条目标被控对象信息或多条目标指令信息，则可以将最近一次缓存的目标被控对象信息或目标指令信息确定为待组合信息，从而使目标被控对象信息或目标指令信息更明确。

步骤205，基于目标语义信息，在语义状态记录库中更新待组合语义信息。

在本实施例中，电子设备可以基于目标语义信息，在语义状态记录库中更新待组合语义信息。

具体地，电子设备可以将目标语义信息包括的目标被控对象信息和/或目标指令信息作为待组合信息直接存储到语义状态记录库中；或者，电子设备可以用目标语义信息包括的目标被控对象信息替换语义状态记录库中已存在的目标被控对象信息，或用目标语义信息包括的目标指令信息替换语义状态记录库中已存在的目标指令信息。

步骤206，基于完整语义信息，确定目标被控对象和对目标被控对象进行控制的控制方式，并生成控制方式对应的控制指令。

在本实施例中，电子设备可以基于完整语义信息，确定目标被控对象和对目标被控对象进行控制的控制方式，并生成控制方式对应的控制指令。

具体地，完整语义信息包括目标被控对象信息和目标指令信息，根据目标被控对象信息，可以确定目标被控对象，根据目标指令信息，可以确定对目标被控对象进行控制的控制方式。例如，目标被控对象信息为“空调”，目标指令信息为“升高一度”，则可以生成使空调升高一度的控制指令。

本公开的上述实施例提供的方法，首先对通过第一交互方式交互时采集的目标交互信息进行语义识别，得到目标语义信息，并确定目标语义信息的完整性，若目标语义信息不完整，从语义状态记录库中获取目标交互阶段内缓存的按照第二交互方式交互时得到的待组合语义信息，然后基于目标语义信息和待组合语义信息，生成完整语义信息，并在语义状态记录库中更新待组合语义信息，最后基于完整语义信息生成对目标被控对象进行控制的目标指令信息。本公开实施例实现了在利用一种交互方式识别到的目标语义信息不完整时，获取通过其他交互方式预先缓存的待组合语义信息，进而生成完整语义信息，相比于一次性地对多模态交互信息融合并识别的方法，本公开实施例可以在多轮交互的过程中，有效利用当前时刻之前通过其他交互方式已经获得的语义信息来对当前识别的不完整的语义信息进行补充，得到表示用户真实意图的完整语义信息，从而更准确地判断用户真实的控制意图。此外，通过缓存预先通过各种识别方式获得的语义信息，可以使用户在多轮交互过程中，使用各种交互方式相结合与目标设备进行交互，极大提高了交互的便利性。

在一些可选的实现方式中，如图3所示，在步骤202之后，该方法还包括：

步骤207，响应于确定目标语义信息完整，基于目标语义信息，生成目标语义信息对应的控制指令。

当确定目标语义信息完整时，即可以从目标语义信息中提取出目标被控对象和目标指令信息，从而可以按照如上述步骤206描述的方法，生成用于对目标被控对象进行控制的控制指令。

步骤208，基于目标语义信息，在语义状态记录库中更新待组合语义信息。

具体地，电子设备可以将目标语义信息包括的目标被控对象信息和目标指令信息作为待组合信息直接存储到语义状态记录库中；或者，电子设备可以用目标语义信息包括的目标被控对象信息替换语义状态记录库中已存在的目标被控对象信息，以及用目标语义信息包括的目标指令信息替换语义状态记录库中已存在的目标指令信息。

本实施例实现了在确定目标语义信息完整时，直接生成用于对目标被控对象进行控制的控制指令，并基于完整的目标语义信息，更新语义状态记录库中的待组合语义信息，从而实现对目标被控对象的快速控制，并为下一轮交互提供语义补充，提高多模态多轮交互的效率。

在一些可选的实现方式中，在步骤203之后，该方法还包括：

响应于确定语义状态记录库中不存在待组合语义信息，基于目标语义信息，生成待组合语义信息，并将待组合语义信息存入语义状态记录库中。

具体地，若当前的交互处于上述目标交互阶段(即多轮交互)中的第一轮交互，则语义状态记录库中不存在缓存的待组合语义信息，此时，可以将目标语义信息作为待组合信息存入语义状态记录库中，或者将目标语义信息中包括的目标被控对象信息和/或目标指令信息作为待组合语义信息存入语义状态记录库中。

本实施例实现了在目标交互阶段中的第一轮交互时，生成待组合语义信息并存入语义状态记录库中，为后续的交互提供语义完整性支持，使目标交互阶段内尽快得到完整语义信息，提高交互的效率。

在一些可选的实现方式中，如图4所示，步骤201包括：

步骤2011，响应于触发与目标设备在目标交互阶段下进行第一轮次交互的交互启动信号，接收采集自目标用户的第一交互信息。

其中，交互启动信号即每一轮次的交互开始时指示电子设备开始接收交互信息的信号，例如，交互启动信号可以是特定的语音信号、手势信号等，交互启动信号也可以是电子设备实时监控到目标用户发出任意的语音信号、手势信号等类型的信号时，自动触发的信号。

步骤2012，响应于确定第一交互信息的类型为语音交互信息，将第一交互信息确定为目标交互信息。

即，在目标交互阶段的第一轮交互中，只对语音交互信息进行识别，若采集到其他类型的交互信息，则丢弃其他类型的交互信息。

本实施例实现了多轮交互的第一轮交互，使用语音交互方式进行交互，由于语音交互方式相比与手势交互、视线交互等方式，表达目标用户的真实意图的准确性更高，因此，第一轮交互使用语音交互方式可以提高多模态多轮交互的准确性，降低误识别的风险。

在一些可选的实现方式中，如图5所示，步骤201包括：

步骤2013，响应于触发与目标设备在目标交互阶段下进行非第一轮次交互的交互启动信号，接收与目标用户按照预设的至少一种交互方式中的任一交互方式进行交互时采集的第二交互信息。

步骤2014，基于第二交互信息，生成目标交互信息；

即，从目标交互阶段的第二轮交互开始，可以在当前轮次的交互中，将任意类型的交互信息作为待进行识别的目标交互信息。例如，第一轮交互采用语音交互方式，第二轮交互以及后续的交互，可以使用语音交互方式，采集语音信号作为目标交互信息；或采用手势交互方式，采集手势图像作为目标交互信息；或采用视线交互方式，采集眼部图像作为目标交互信息。

步骤2015，按照目标交互信息对应的语义识别方式对目标交互信息进行语义识别，得到目标语义信息。

作为示例，若目标交互信息为手势图像，则可以按照手势识别方法，对手势图像进行识别，得到表示目标用户的手势意图的目标语义信息；若目标交互信息为眼部图像，则可以按照视线识别方法，对眼部图像进行视线识别，得到表示目标用户的视线意图的目标语义信息。

本实施例实现了从多轮交互的第二轮交互开始，使用任意类型的交互方式进行交互，可以避免第一轮交互使用过多类型的语音交互方式造成的误识别风险，从第二轮交互开始有效提高多模态交互的准确性和效率。

在一些可选的实现方式中，如图6所示，步骤2015包括：

步骤20151，响应于确定目标交互信息是利用至少一种交互方式中的视线交互方式得到的视线交互信息，按照视线识别方式，对视线交互信息进行识别，确定目标被控对象信息，并将目标被控对象信息确定为目标语义信息。

其中，视线交互信息可以是目标用户的眼部图像，视线识别方式即对眼部图像进行视线识别的方式。视线识别结果通常包括目标用户的目标视线角度，电子设备可以根据预先设置的视线角度与被控对象信息的对应关系，确定识别到的目标视线角度对应的目标被控对象信息。然后，电子设备可以将目标被控对象信息确定为目标语义信息。即只识别视线交互信息对应的目标被控对象信息，不对视线交互信息进行指令信息识别。

步骤20152，响应于确定目标交互信息是利用至少一种交互方式中的非视线交互方式得到的交互信息，按照目标交互信息对应的语义识别方式对目标交互信息进行语义识别，得到目标被控对象信息和/或目标指令信息，并将目标被控对象信息和/或目标指令信息确定为目标语义信息。

即，在目标交互信息不是视线交互信息时，可以既对目标交互信息进行被控对象识别，又对目标交互信息进行指令信息识别，从而得到目标被控对象信息和/或目标指令信息。

本实施例通过从目标交互阶段的第二轮交互开始，只对视线交互信息进行被控对象识别，不进行指令信息识别，从而有效规避了视线信息表达的指令信息的不确定性高的缺点，有助于提高多模态多轮交互的准确性。

在一些可选的实现方式中，如图7所示，该方法还包括：

步骤701，响应于触发用于使目标设备进入交互休眠状态的休眠信号，控制目标设备进入交互休眠状态，退出目标交互阶段。

作为示例，休眠信号可以是目标用户发出的，例如，当识别到目标用户发出指示目标设备进入交互休眠状态的语音信号(例如语音“再见”)，或发出指示目标设备进入交互休眠状态的手势信号(例如摆手的手势)，控制目标设备进入交互休眠状态。休眠信号也可以是自动生成的，例如，当预设时长内未触发新一轮的交互启动信号，则生成休眠信号，目标设备进入交互休眠状态。在交互休眠状态下，目标设备停止与目标用户的人机交互，不再受上述至少一种交互方式控制。

步骤702，将语义状态记录库中的待组合语义信息删除。

本实施例实现了在目标设备进入交互休眠状态时，及时将语义状态记录库中的待组合语义信息删除，避免下次进入唤醒状态及与目标用户进行多轮交互时，语义状态记录库中的待组合语义信息对交互造成的干扰，提高了多模态多轮交互的准确性，并节约了用于存储待组合语义信息的存储器的存储资源。

在一些可选的实现方式中，如图8所示，步骤205包括：

步骤2051，从目标语义信息中提取目标被控对象信息和/或目标指令信息。

其中，目标被控对象信息表示目标被控对象，作为示例，当上述目标设备是车辆时，目标被控对象可以是车辆上的空调、多媒体设备、车窗、仪表盘、座椅等。目标指令信息是表示对目标被控对象所进行的控制方式的信息，例如，表示对空调的温度进行调整的信息，对车窗的打开或关闭状态进行调整的信息等。

可选的，目标语义信息可以是文本信息，则目标被控对象信息和目标指令信息可以是从该文本中提取的文字、词语或短语等。

步骤2052，利用目标被控对象信息和/或目标指令信息，更新待组合语义信息包括的待组合被控对象信息和/或待组合指令信息。

具体地，电子设备可以将目标被控对象信息作为待组合被控对象信息，和/或，将目标指令信息作为待组合指令信息直接存储到语义状态记录库中；或者，电子设备可以用目标被控对象信息替换语义状态记录库中已存在的待组合被控对象信息，和/或，用目标指令信息替换语义状态记录库中已存在的待组合指令信息。

本实施例通过利用目标语义信息中的目标被控对象信息和/或目标指令信息，更新待组合语义信息包括的待组合被控对象信息和/或待组合指令信息，实现了使语义状态记录库分别存储待组合被控对象信息和待组合指令信息，从而更有针对性地更新语义状态记录库中的待组合语义信息，并且有助于在生成完整语义信息时，有针对性地从语义状态记录库提取当前缺少的语义信息，从而提高了人机交互的效率。

示例性装置

图9是本公开一示例性实施例提供的人机交互装置的结构示意图。本实施例可应用在电子设备上，如图9所示，人机交互装置包括：识别模块901，用于响应于接收到目标用户按照第一交互方式与目标设备交互时采集的目标交互信息，对目标交互信息进行语义识别，得到目标语义信息；第一确定模块902，用于确定目标语义信息的完整性；第二确定模块903，用于响应于目标语义信息不完整，确定预设的语义状态记录库中是否存在缓存的待组合语义信息，其中，待组合语义信息是在目标交互阶段内，目标用户按照至少一种第二交互方式与目标设备交互得到的语义信息；第一生成模块904，用于响应于语义状态记录库中存在待组合语义信息，基于目标语义信息和待组合语义信息，生成完整语义信息；第一更新模块905，用于基于目标语义信息，在语义状态记录库中更新待组合语义信息；第二生成模块906，用于基于完整语义信息，确定目标被控对象和对目标被控对象进行控制的控制方式，并生成控制方式对应的控制指令。

在本实施例中，识别模块901可以响应于接收到目标用户按照第一交互方式与目标设备(即图1所示的目标设备104)交互时采集的目标交互信息，对目标交互信息进行语义识别，得到目标语义信息。其中，第一交互方式可以是语音交互方式、手势交互方式、视线交互方式等方式中的任一种，相应的，目标交互信息可以是语音信号、手势图像、眼部图像等类型的信息中的任一种，对目标交互信息进行语义识别采用的方法可以是语音识别、手势识别、视线识别等方法中的任一种。

在本实施例中，第一确定模块902可以对目标语义信息进行语义完整性分析，以确定目标语义信息的完整性。其中，对目标语义信息进行语义完整性分析可以采用语义完整性分析模型实现。例如，基于TCN(Temporal Convolutional Network，时间卷积网络)建立的语义完整性分析模型。

在本实施例中，第二确定模块903可以响应于目标语义信息不完整，确定预设的语义状态记录库中是否存在缓存的待组合语义信息。其中，待组合语义信息是在目标交互阶段内，目标用户按照至少一种第二交互方式与目标设备交互得到的语义信息。

在本实施例中，第一生成模块904可以响应于语义状态记录库中存在待组合语义信息，基于目标语义信息和待组合语义信息，生成完整语义信息。

在本实施例中，第一更新模块905可以基于目标语义信息，在语义状态记录库中更新待组合语义信息。

具体地，第一更新模块905可以将目标语义信息包括的目标被控对象信息和/或目标指令信息作为待组合信息直接存储到语义状态记录库中；或者，第一更新模块905可以用目标语义信息包括的目标被控对象信息替换语义状态记录库中已存在的目标被控对象信息，或用目标语义信息包括的目标指令信息替换语义状态记录库中已存在的目标指令信息。

在本实施例中，第二生成模块906可以基于完整语义信息，确定目标被控对象和对目标被控对象进行控制的控制方式，并生成控制方式对应的控制指令。

参照图10，图10是本公开另一示例性实施例提供的人机交互装置的结构示意图。

在一些可选的实现方式中，该装置还包括：第三生成模块907，用于响应于确定目标语义信息完整，基于目标语义信息，生成目标语义信息对应的控制指令；第二更新模块908，用于基于目标语义信息，在语义状态记录库中更新待组合语义信息。

在一些可选的实现方式中，该装置还包括：第四生成模块909，用于响应于确定语义状态记录库中不存在待组合语义信息，基于目标语义信息，生成待组合语义信息，并将待组合语义信息存入语义状态记录库中。

在一些可选的实现方式中，识别模块901包括：第一接收单元9011，用于响应于触发与目标设备在目标交互阶段下进行第一轮次交互的交互启动信号，接收采集自目标用户的第一交互信息；第一确定单元9012，用于响应于确定第一交互信息的类型为语音交互信息，将第一交互信息确定为目标交互信息。

在一些可选的实现方式中，识别模块901包括：第二接收单元9013，用于响应于触发与目标设备在目标交互阶段下进行非第一轮次交互的交互启动信号，接收与目标用户按照预设的至少一种交互方式中的任一交互方式进行交互时采集的第二交互信息；生成单元9014，用于基于第二交互信息，生成目标交互信息；识别单元9015，用于按照目标交互信息对应的语义识别方式对目标交互信息进行语义识别，得到目标语义信息。

在一些可选的实现方式中，识别单元9015包括：第一识别子单元90151，用于响应于确定目标交互信息是利用至少一种交互方式中的视线交互方式得到的视线交互信息，按照视线识别方式，对视线交互信息进行识别，确定目标被控对象信息，并将目标被控对象信息确定为目标语义信息；第二识别子单元90152，用于响应于确定目标交互信息是利用至少一种交互方式中的非视线交互方式得到的交互信息，按照目标交互信息对应的语义识别方式对目标交互信息进行语义识别，得到目标被控对象信息和/或目标指令信息，并将目标被控对象信息和/或目标指令信息确定为目标语义信息。

在一些可选的实现方式中，该装置还包括：休眠模块910，用于响应于触发用于使目标设备进入交互休眠状态的休眠信号，控制目标设备进入交互休眠状态，退出目标交互阶段；删除模块911，用于将语义状态记录库中的待组合语义信息删除。

在一些可选的实现方式中，第一更新模块905包括：提取单元9051，用于从目标语义信息中提取目标被控对象信息和/或目标指令信息；更新单元9052，用于利用目标被控对象信息和/或目标指令信息，更新待组合语义信息包括的待组合被控对象信息和/或待组合指令信息。

本公开上述实施例提供的人机交互装置，首先对通过第一交互方式交互时采集的目标交互信息进行语义识别，得到目标语义信息，并确定目标语义信息的完整性，若目标语义信息不完整，从语义状态记录库中获取目标交互阶段内缓存的按照第二交互方式交互时得到的待组合语义信息，然后基于目标语义信息和待组合语义信息，生成完整语义信息，并在语义状态记录库中更新待组合语义信息，最后基于完整语义信息生成对目标被控对象进行控制的目标指令信息。本公开实施例实现了在利用一种交互方式识别到的目标语义信息不完整时，获取通过其他交互方式预先缓存的待组合语义信息，进而生成完整语义信息，相比于一次性地对多模态交互信息融合并识别的方法，本公开实施例可以在多轮交互的过程中，有效利用当前时刻之前通过其他交互方式已经获得的语义信息来对当前识别的不完整的语义信息进行补充，得到表示用户真实意图的完整语义信息，从而更准确地判断用户真实的控制意图。此外，通过缓存预先通过各种识别方式获得的语义信息，可以使用户在多轮交互过程中，使用各种交互方式相结合与目标设备进行交互，极大提高了交互的便利性。

示例性电子设备

下面，参考图11来描述根据本公开实施例的电子设备。该电子设备可以是如图1所示的终端设备101、服务器103和目标设备104中的任一个或两者、或与它们独立的单机设备，该单机设备可以与终端设备101和服务器103进行通信，以从它们接收所采集到的输入信号。

图11示出了根据本公开实施例的电子设备的框图。

如图11所示，电子设备1100包括一个或多个处理器1101和存储器1102。

处理器1101可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备1100中的其他组件以执行期望的功能。

存储器1102可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器1101可以运行程序指令，以实现上文的本公开的各个实施例的人机交互方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如待组合语义信息等各种内容。

在一个示例中，电子设备1100还可以包括：输入装置1103和输出装置1104，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是终端设备101或服务器103时，该输入装置1103可以是相机、麦克风、鼠标、键盘等设备，用于输入图像、语音信号等类型的交互信息等。在该电子设备是单机设备时，该输入装置1103可以是通信网络连接器，用于从终端设备101、服务器103或目标设备104接收所输入的图像、语音信号等类型的交互信息等。

该输出装置1104可以向外部输出各种信息，包括控制指令。该输出装置1104可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出装置等等。

当然，为了简化，图11中仅示出了该电子设备1100中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备1100还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的人机交互方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的人机交互方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本领域的技术人员可以对本公开进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本公开权利要求及其等同技术的范围之内，则本公开也意图包含这些改动和变型在内。

Claims

1.一种人机交互方法，包括：

响应于接收到目标用户按照第一交互方式与目标设备交互时采集的目标交互信息，对所述目标交互信息进行语义识别，得到目标语义信息；

确定所述目标语义信息的完整性；

响应于所述目标语义信息不完整，确定预设的语义状态记录库中是否存在缓存的待组合语义信息，其中，所述待组合语义信息是在目标交互阶段内，所述目标用户按照至少一种第二交互方式与所述目标设备交互得到的语义信息；

响应于所述语义状态记录库中存在所述待组合语义信息，基于所述目标语义信息和所述待组合语义信息，生成完整语义信息；

基于所述目标语义信息，在所述语义状态记录库中更新所述待组合语义信息；

基于所述完整语义信息，确定目标被控对象和对所述目标被控对象进行控制的控制方式，并生成所述控制方式对应的控制指令。

2.根据权利要求1所述的方法，在所述确定所述目标语义信息的完整性之后，还包括：

响应于确定所述目标语义信息完整，基于所述目标语义信息，生成所述目标语义信息对应的控制指令；

基于所述目标语义信息，在所述语义状态记录库中更新所述待组合语义信息。

3.根据权利要求1所述的方法，其中，在所述确定预设的语义状态记录库中是否存在缓存的待组合语义信息之后，所述方法还包括：

响应于确定所述语义状态记录库中不存在所述待组合语义信息，基于所述目标语义信息，生成待组合语义信息，并将所述待组合语义信息存入所述语义状态记录库中。

4.根据权利要求1所述的方法，其中，所述响应于接收到目标用户按照第一交互方式与目标设备交互时采集的目标交互信息，包括：

响应于触发与所述目标设备在所述目标交互阶段下进行第一轮次交互的交互启动信号，接收采集自所述目标用户的第一交互信息；

响应于确定所述第一交互信息的类型为语音交互信息，将所述第一交互信息确定为所述目标交互信息。

5.根据权利要求1所述的方法，其中，所述响应于接收到目标用户按照第一交互方式与目标设备交互时采集的目标交互信息，包括：

响应于触发与所述目标设备在所述目标交互阶段下进行非第一轮次交互的交互启动信号，接收与所述目标用户按照预设的至少一种交互方式中的任一交互方式进行交互时采集的第二交互信息；

基于所述第二交互信息，生成所述目标交互信息；

按照所述目标交互信息对应的语义识别方式对所述目标交互信息进行语义识别，得到所述目标语义信息。

6.根据权利要求5所述的方法，其中，所述按照所述目标交互信息对应的语义识别方式对所述目标交互信息进行语义识别，得到所述目标语义信息，包括：

响应于确定所述目标交互信息是利用所述至少一种交互方式中的视线交互方式得到的视线交互信息，按照视线识别方式，对所述视线交互信息进行识别，确定目标被控对象信息，并将所述目标被控对象信息确定为所述目标语义信息；

响应于确定所述目标交互信息是利用所述至少一种交互方式中的非视线交互方式得到的交互信息，按照所述目标交互信息对应的语义识别方式对所述目标交互信息进行语义识别，得到目标被控对象信息和/或目标指令信息，并将所述目标被控对象信息和/或所述目标指令信息确定为所述目标语义信息。

7.根据权利要求1所述的方法，其中，所述方法还包括：

响应于触发用于使所述目标设备进入交互休眠状态的休眠信号，控制所述目标设备进入交互休眠状态，退出所述目标交互阶段；

将所述语义状态记录库中的待组合语义信息删除。

8.根据权利要求1-7任一项所述的方法，其中，所述基于所述目标语义信息，在所述语义状态记录库中更新所述待组合语义信息，包括：

从所述目标语义信息中提取目标被控对象信息和/或目标指令信息；

利用所述目标被控对象信息和/或所述目标指令信息，更新所述待组合语义信息包括的待组合被控对象信息和/或待组合指令信息。

9.一种人机交互装置，包括：

识别模块，用于响应于接收到目标用户按照第一交互方式与目标设备交互时采集的目标交互信息，对所述目标交互信息进行语义识别，得到目标语义信息；

第一确定模块，用于确定所述目标语义信息的完整性；

第二确定模块，用于响应于所述目标语义信息不完整，确定预设的语义状态记录库中是否存在缓存的待组合语义信息，其中，所述待组合语义信息是在目标交互阶段内，所述目标用户按照至少一种第二交互方式与所述目标设备交互得到的语义信息；

第一生成模块，用于响应于所述语义状态记录库中存在所述待组合语义信息，基于所述目标语义信息和所述待组合语义信息，生成完整语义信息；

第一更新模块，用于基于所述目标语义信息，在所述语义状态记录库中更新所述待组合语义信息；

第二生成模块，用于基于所述完整语义信息，确定目标被控对象和对所述目标被控对象进行控制的控制方式，并生成所述控制方式对应的控制指令。

10.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于被处理器执行以实现上述权利要求1-8任一所述的方法。

11.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-8任一所述的方法。