CN117056473A

CN117056473A - 一种设备控制方法、装置、设备及介质

Info

Publication number: CN117056473A
Application number: CN202310898191.7A
Authority: CN
Inventors: 王定; 华克儒; 刘琛; 林斯越; 黄孝江; 牟小峰
Original assignee: Midea Group Co Ltd; Midea Group Shanghai Co Ltd
Current assignee: Midea Group Co Ltd; Midea Group Shanghai Co Ltd
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2023-11-14

Abstract

本公开实施例涉及一种设备控制方法、装置、设备及介质，其中该方法包括：构建初始设备控制数据库；对初始设备控制数据库进行数据校验，得到目标设备控制数据库；获取当前输入信息，将当前输入信息在目标设备控制数据库中进行匹配，基于匹配成功的目标输入信息所对应的第一设备控制任务控制目标设备。上述方案中，针对构建的初始设备控制数据库可以增加数据校验的过程，避免模型造成的错误，得到准确性更高的目标设备控制数据库，进而在后续匹配过程中提升了匹配的命中率和准确性，从整体上提升了后续对用户的语音信息理解的准确性，有效提升设备控制的准确性。

Description

一种设备控制方法、装置、设备及介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种设备控制方法、装置、设备及介质。

背景技术

随着自然语言技术的发展，设备的控制越来越智能化和人性化，例如对家电设备的控制越来越智能。

设备控制一般是通过训练深度学习模型实现，但是这种方式数据计算量大并且复杂度较高，导致成本较高以及响应速度较慢。为了解决上述问题，相关技术中可以构建信息库，在该信息库中检索失败时才通过模型实现。但是这种方式存在信息库准确性较低的缺陷，导致设备控制的精确性较低。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种设备控制方法、装置、设备及介质。

本公开实施例提供了一种设备控制方法，所述方法包括：

构建初始设备控制数据库；

对所述初始设备控制数据库进行数据校验，得到目标设备控制数据库；

获取当前输入信息；

将所述当前输入信息在所述目标设备控制数据库中进行匹配，基于匹配成功的目标输入信息所对应的第一设备控制任务控制所述目标设备。

本公开实施例还提供了一种设备控制装置，所述装置包括：

构建模块，用于构建初始设备控制数据库；

校验模块，用于对所述初始设备控制数据库进行数据校验，得到目标设备控制数据库；

获取模块，用于获取当前输入信息；

控制模块，用于将所述当前输入信息在所述目标设备控制数据库中进行匹配，基于匹配成功的目标输入信息所对应的第一设备控制任务控制所述目标设备。

本公开实施例还提供了一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现如本公开实施例提供的设备控制方法。

本公开实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行如本公开实施例提供的设备控制方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：本公开实施例提供的设备控制方案，构建初始设备控制数据库；对初始设备控制数据库进行数据校验，得到目标设备控制数据库；获取当前输入信息，将当前输入信息在目标设备控制数据库中进行匹配，基于匹配成功的目标输入信息所对应的第一设备控制任务控制目标设备。上述方案中，针对构建的初始设备控制数据库可以增加数据校验的过程，避免模型造成的错误，得到准确性更高的目标设备控制数据库，进而在后续匹配过程中提升了匹配的命中率和准确性，从整体上提升了后续对用户的语音信息理解的准确性，有效提升设备控制的准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种设备控制方法的流程示意图；

图2为本公开实施例提供的一种对话图的示意图；

图3为本公开实施例提供的一种设备控制的示意图；

图4为本公开实施例提供的另一种设备控制的示意图；

图5为本公开实施例提供的一种多轮控制的示意图；

图6为本公开实施例提供的一种设备控制装置的结构示意图；

图7为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

为了解决相关技术中设备控制存在的准确性低的问题，本公开实施例提供了一种设备控制方法，下面结合具体的实施例对该方法进行介绍。

图1为本公开实施例提供的一种设备控制方法的流程示意图，该方法可以由设备控制装置执行，其中该装置可以采用软件和/或硬件实现，一般可集成在电子设备中。如图1所示，该方法包括：

步骤101、构建初始设备控制数据库。

其中，初始设备控制数据库可以是本公开实施例新增的一个存储了多个初始对话控制信息的数据库，可以理解为未经过数据校验的一个准确性可能不高的设备控制数据库，该初始设备控制数据库中可以包括多个初始对话控制信息，每个初始对话控制信息可以包括初始输入信息以及对应的设备控制任务。

输入信息可以是用于确定后续设备控制任务的输入信息，可以是多个维度信息的集合，初始设备控制数据库中的输入信息称为初始输入信息。设备控制任务可以是执行设备控制的具体任务信息，具体可以将该设备控制任务发送给目标设备生成电控指令控制目标设备执行具体操作。

在一些实施例中，构建初始设备控制数据库，可以包括：获取多个历史对话控制信息，其中，每个历史对话控制信息包括历史输入信息以及对应的设备控制任务；基于多个历史对话控制信息构建设备控制数据库。可选的，基于多个历史对话控制信息构建设备控制数据库，包括：基于设备使用时间和/或信息数量对多个历史对话控制信息进行过滤，得到多个初始对话控制信息；将多个初始对话控制信息存储在数据库中，得到初始设备控制数据库。

其中，历史对话控制信息可以是实际用户或测试用户在历史时间产生的大量的对设备控制时对应的历史输入信息和设备控制任务的信息，是实际场景下控制信息，具体数量不限，历史输入信息与上述当前输入信息的数据结构相同。

具体地，设备控制装置可以获取从日志数据中获取多个历史对话控制信息，之后可以基于设备使用时间和/或信息数量对多个历史对话控制信息进行过滤得到多个初始对话控制信息，并存储在数据库中即可得到初始设备控制数据库。可选的，该初始设备控制数据库可以采用对话图(Conversation Graph)的方式存储，具体可以基于各初始对话控制信息中的设备控制任务构建多个节点，并基于各初始对话控制信息中的初始输入信息构建各节点之间的有向边，初始设备控制数据库对应的对话图可以包括多个节点和有向边，每个节点表示一个初始对话控制信息中的设备控制任务，每个有向边存储一个初始对话控制信息中的初始输入信息，表示节点的指向方向。可选的，每个初始对话控制信息中还可以包括输入信息对应的回复信息，每个节点除了上述设备控制任务，还可以包括该回复信息。

可选的，基于设备使用时间和/或信息数量对多个历史对话控制信息进行过滤，包括：将多个历史对话控制信息中信息数量小于数量阈值并且设备控制任务对应的电控指令不属于预设指令的历史对话控制信息删除；和/或，将多个历史对话控制信息中时间点在设备使用时间范围外的历史对话控制信息删除。

设备使用时间可以是设备的具体使用时间，例如制冷空调的使用时间为夏季，取暖器的使用时间可以为冬季。信息数量可以是相同历史对话控制信息的总数量，数量阈值可以是为信息数量设置的一个最小值。电控指令可以是将设备控制任务输入电控平台得到的一个二进制的指令，该电控指令可以看作是控制设备的指令。预设指令可以是为设备设置的能够实现功能对应的指令，不同设备对应的预设指令可以不同。

具体地，设备控制装置在对多个历史对话控制信息进行过滤时，可以确定多个历史对话控制信息中各历史对话控制信息的信息数量，并确定其中信息数量小时数量阈值的历史对话控制信息，针对这些历史对话控制信息将设备控制任务输入电控平台得到电控指令，并判断每个电控指令是否属于预设指令，若属于，则说明历史对话控制信息可能频率低但是典型，例如空调的自清洁，可以保留；若不属于，则说明这个历史对话控制信息出现次数较少并且不属于典型，将该历史对话控制信息删除；和/或，还可以判断每个历史对话控制信息中的时间点是否在设备使用时间范围外，若一个历史对话控制信息的时间点在设备使用时间范围外，则可以将其删除。上述对历史对话控制信息过滤的策略仅为示例，还可以通过其他适用的方式实现。

上述方案中，在构建初始设备控制数据库时，可以按照一定的过滤策略对历史对话控制信息进行过滤或筛选后再创建数据库，有助于提升初始设备控制数据库在后续使用时的匹配命中率，进而提升了设备控制的效率。

步骤102、对初始设备控制数据库进行数据校验，得到目标设备控制数据库。

其中，目标设备控制数据库可以是本公开实施例在缓存中新增的一个存储了多个标准对话控制信息的数据库，每个标准对话控制信息包括一个标准输入信息以及对应的设备控制任务，也即该目标设备控制数据库中存储了多个标准输入信息和多个设备控制任务之间的一一映射关系。标准输入信息与上述当前输入信息的数据结构相同，设备控制任务可以是执行目标设备控制的具体任务信息，具体可以将该设备控制任务发送给目标设备生成电控指令控制目标设备执行具体操作。目标设备控制数据库可以存储在缓存空间中，能够降低调用大模型带来的资源、成本消耗，提升响应效率。

其中，数据校验可以是用于对初始设备控制数据库中的各初始对话控制信息验证其正确性的操作，本公开实施例中通过增加该数据校验的过程，避免模型造成的错误，得到准确性更高的目标设备控制数据库。

在一些实施例中，对初始设备控制数据库进行数据校验，得到目标设备控制数据库，可以包括：提取初始设备控制数据库中初始输入信息相同的至少两个初始对话控制信息，组合得到待校验集合；将待校验集合中至少两个设备控制任务输入电控平台中，得到至少两个电控指令；将待校验集合中电控指令相同的至少两个初始对话控制信息进行合并处理，并将电控指令不同的初始对话控制信息发送至校验平台校验，得到目标设备控制数据库。

其中，待校验集合可以是从多个初始对话控制信息中提取的需要进行校验的至少两个初始对话控制信息的集合，待校验集合的数量可以为一个或多个，每个待校验集合对应一个相同的初始输入信息，不同待校验集合的初始输入信息不同。

具体地，设备控制装置在构建初始设备控制数据库之后，可以判断各初始对话控制信息的初始输入信息是否相同，将初始输入信息相同的初始对话控制信息提取出来并组合得到一个待校验集合；针对各待校验集合，可以将其中包括的至少两个初始对话控制信息的设备控制任务输入电控平台中，生成对应的至少两个电控指令；之后针对每个待校验集合，将其中电控指令相同的至少两个初始对话控制信息进行合并处理，并且将其中电控指令与其他初始对话控制信息均不同的初始对话控制信息发送至校验平台，以使校验人员进行校验，校验后返回至初始设备控制数据库中，每个待校验集合处理完成之后将处理完的初始设备控制数据库确定为目标设备控制数据库，目标设备控制数据库中包括多个标准对话控制信息的数据库，每个标准对话控制信息包括一个标准输入信息以及对应的设备控制任务。

示例性的，假设一个待校验集合中包括三个初始对话控制信息，将三个设备控制任务输入电控平台得到的电控指令分别为1、1和2，将电控指令均为1的两个初始对话控制信息合并，并将电控指令为2的初始对话控制信息发送至校验平台进行校验。

由于，初始设备控制数据库可以采用对话图的方式存储，生成的目标设备控制数据库也可以采用对话图的方式存储，对话图的结构为树状结构。目标设备控制数据库对应的对话图包括多个节点和有向边，每个节点表示一个标准对话控制信息中的设备控制任务，每个有向边存储一个标准对话控制信息中的标准输入信息，表示节点的指向方向。

示例性的，图2为本公开实施例提供的一种对话图的示意图，如图2所示，图中展示了目标设备控制数据库中针对目标设备为空调的对话图，该对话图的根节点为空调，包括5个节点和5个有向边，除了根节点之外，每个节点表示一个标准对话控制信息中的设备控制任务，每个有向边存储一个标准对话控制信息中的标准输入信息，图中箭头表示节点的指向方向，例如根节点指向三个节点，第一个节点和第二个节点的设备控制任务相同，但有向边的标准输入信息不同，第三个节点的标准输入信息与设备控制任务均与其他两个节点不同，第二节点还指向两个节点。图中的对话图仅为示例，而非限定。

上述方案中通过对话图的方式存储目标设备控制数据库，可以更好地适应系统基于对话上下文的理解和决策需求，此外，设备控制装置还可以自动将未命中(也即匹配失败)的输入信息结合频率和LLM自洽技术(self-consistency technique)，将高频且任务一致性较高的对话控制信息加入目标设备控制数据库中，并进行缓存。

可选的，本公开实施例的设备控制方法还可以包括：基于缓存淘汰算法对目标设备控制数据库进行数据淘汰，缓存淘汰算法可以包括最近最少使用(Least RecentlyUsed，LRU)算法、最近最不常用(Least Frequently Used，LFU)算法和自适应替换缓存(Adaptive Replacement Cache)算法等，具体不限。通过缓存淘汰算法保证数据的时效性、趋势性和动态命中率，并且进一步降低了系统的维护成本。

步骤103、获取当前输入信息。

输入信息可以是用于确定后续设备控制任务的信息，可以是多个维度信息的集合，当前输入信息可以是基于当前的目标语音信息确定的输入信息。

本公开实施例中，设备控制装置可以获取用户输入的语音信息、文本信息或混合信息等，基于这些信息确定当前输入信息，以语音信息为例，具体可以获取目标语音信息，并基于所述目标语音信息确定当前输入信息。

其中，目标语音信息可以是用户当前需要控制一个设备时发出的语音音频，可以通过语音采集设备采集得到，并且控制的具体设备不限，例如可以为空调、电视等，本公开实施例以对单个家电设备的控制为例。

本公开实施例中当前输入信息可以包括目标文本以及目标设备的设备信息，目标文本可以是对目标语音信息进行语音识别得到的文本；目标设备可以是根据目标语音信息确定的当前需要控制的设备；设备信息可以包括内部信息和外部信息两种，内部信息可以是目标设备的状态、功能参数等信息，例如当目标设备为空调，内部信息可以包括开关状态信息、目标温度、风量等，外部信息可以是目标设备所在的环境信息，例如可以包括温度、湿度、天气、光纤强度、二氧化碳浓度等。

在一些实施例中，基于目标语音信息确定当前输入信息，可以包括：将目标语音信息转换为目标文本，并确定目标文本对应的目标设备；获取目标设备的设备信息，并将目标文本、目标设备的设备信息组合确定为当前输入信息。

设备控制装置在获取目标语音信息之后，可以通过语音识别将目标语音信息转化为目标文本，例如可以采用自动语音识别(Automatic Speech Recognition，ASR)技术进行识别；并根据目标文本确定当前需要控制的目标设备，之后可以获取目标设备的内部信息以及外部信息，并将上述目标文本、内部信息以及外部信息的集合确定为当前输入信息。例如，当目标文本为“打开空调”，目标设备的内部信息可以包括空调开关状态关机，目标温度25，风量中，模式制冷，外部信息可以包括温度30。

在一些实施例中，获取目标设备的设备信息，可以包括：调取目标设备的内部信息；根据目标设备的设备类型、目标设备所在的地理位置、关联设备的传感器和/或用户设置，获取目标设备的外部信息。

设备控制装置在获取目标设备的设备信息时，针对其中的内部信息，可以发送调取指令给目标设备以使目标设备返回内部信息；针对其中的外部信息，可以根据目标设备的设备类型获取对应的外部信息，不同设备类型可以对应不同的外部信息，例如当目标设备为空调，外部信息为温度，当目标设备为智能窗帘，外部信息可以为光线强度；还可以根据通过目标设备所在的地理位置从互联网上获取外部信息；还可以通过目标设备的关联设备的传感器获取外部信息，关联设备可以为与目标设备的地理位置相同的其他设备，具体数量不限；还可以获取用户设备的该目标设备的外部信息。

上述方案中，目标设备的内部信息可以通过调取得到，外部信息的获取可以采用多种方式实现，提升了信息获取的效率和可靠性，有助于提升后续家电控制的准确性。

步骤104、将当前输入信息在目标设备控制数据库中进行匹配，得到匹配结果。

在一些实施例中，将当前输入信息在预设的设备控制数据库中进行匹配，得到匹配结果，具体可以包括：将当前输入信息与目标设备控制数据库中包括的多个标准对话控制信息的标准输入信息逐一进行语义匹配，确定匹配度；若存在匹配度大于匹配度阈值的标准输入信息，则确定匹配结果为匹配成功，并将标准该输入信息确定为匹配成功的目标输入信息；否则，确定匹配结果为匹配失败。

匹配度阈值可以是为语义匹配的匹配度设备的一个最小阈值，具体可以根据实际情况设置，本公开实施例中该匹配度阈值可以设置的较大，当匹配度大于匹配度阈值时可以看作完全匹配。

设备控制装置在确定当前输入信息之后，可以将该当前输入信息与目标设备控制数据库中的每个标准对话控制信息的标准输入信息进行语义匹配并确定匹配度，之后可以判断每个匹配度是否大于匹配度阈值，若存在一个标准输入信息与该当前输入信息的匹配度大于匹配度阈值，则确定匹配结果为匹配成功，并将该标准输入信息确定为匹配成功的目标输入信息；若每个匹配度均小于匹配度阈值，则可以确定匹配结果为匹配失败。

上述方案中，当存在至少两个标准输入信息与该当前输入信息的匹配度大于匹配度阈值，则可以将匹配度最高的标准输入信息确定为匹配成功的目标输入信息，或者将该至少两个标准输入信息反馈给用户，以将用户选择的标准输入信息确定为匹配成功的目标输入信息，或者将被其他用户选择数量最多的标准输入信息确定为匹配成功的目标输入信息。

步骤105、判断匹配结果是否为匹配成功，若是，则执行步骤106；否则，执行步骤107。

步骤106、基于匹配成功的目标输入信息所对应的第一设备控制任务控制目标设备。

第一设备控制任务可以是根据目标设备控制数据确定的目标输入信息对应的设备控制任务。

设备控制装置确定匹配结果为匹配成功之后，可以获取匹配成功的目标输入信息对应的第一设备控制任务，并将该第一设备控制任务发送给目标设备，以控制目标设备执行相关操作。例如当目标语音信息的目标文本为“打开空调”，第一设备控制任务可以为打开空调的指令，将该第一设备控制任务发送给空调以打开空调。

可选的，目标设备控制数据库中每个标准对话控制信息中针对每个输入信息还可以存储对应的回复信息，该回复信息可以根据输入信息和设备控制任务的执行结果来生成。确定第一设备控制任务之后，还可以获取匹配成功的目标输入信息对应的第一回复信息，并将该第一回复信息发送至目标设备，以使目标设备将第一回复信息反馈给用户，具体可以通过屏幕显示该第一回复信息或将该第一回复信息进行语音合成并播放。

步骤107、将当前输入信息输入设备控制模型中生成第二设备控制任务，并基于第二设备控制任务控制目标设备。

其中，设备控制模型可以是预先训练的或者通用的用于实时对当前输入信息进行分析和计算生成对应的设备控制任务的模型，该设备控制模型可以为深度学习模型，例如LLM。第二设备控制任务可以是根据设备控制模型确定的当前输入信息对应的设备控制任务。

设备控制装置确定匹配结果为匹配失败之后，说明此时需要实时生成对应的设备控制任务，可以将该当前输入信息输入设备控制模型中进行实时分析，得到对应的第二设备控制任务，并将该第二设备控制任务发送给目标设备，以控制目标设备执行相关操作。可选的，设备控制装置还可以根据输入信息和第二设备控制任务的执行结果来生成对应的第二回复信息，并将该第二回复信息发送至目标设备，以使目标设备将第一回复信息反馈给用户，具体可以通过屏幕显示该第一回复信息或将该第一回复信息进行语音合成并播放。

本公开实施例提供的设备控制方案，构建初始设备控制数据库；对初始设备控制数据库进行数据校验，得到目标设备控制数据库；获取当前输入信息，将当前输入信息在目标设备控制数据库中进行匹配，基于匹配成功的目标输入信息所对应的第一设备控制任务控制目标设备。上述方案中，针对构建的初始设备控制数据库可以增加数据校验的过程，避免模型造成的错误，得到准确性更高的目标设备控制数据库，进而在后续匹配过程中提升了匹配的命中率和准确性，从整体上提升了后续对用户的语音信息理解的准确性，有效提升设备控制的准确性。

相关技术中，通常是通过训练深度学习模型实现设备控制，例如由于大型语言模型Large Language Model，LLM)，可以理解和生成自然语言文本，并在许多应用场景中表现出良好的效果，可以用该模型进行设备控制。但是这种方式存在如下缺陷：1、响应速度慢，LLM是一种基于神经网络的深度学习模型，其参数量巨大和计算复杂度非常高，在处理设备控制请求时，需要对输入文本进行处理和解码，这会导致处理速度相对较慢，往往需要数秒的时间才能完成，因此当需要实时互动时，这种延迟可能会让用户感到不满；2、成本较高，由于LLM的计算复杂度高，运行这样的模型需要较高的计算资源，如果调用外部第三方提供的服务，随着控制数量的增多，调用服务的费用特别大，因此在许多应用场景中，这可能导致能耗和费用非常高；3、控制时大多考虑的影响因素较少，导致控制的准确性较低。综上，相关技术中设备的控制难以在成本、响应速度和控制准确性上均实现较好的效果。

本公开实施例提供的设备控制方案，在上述目标设备控制数据库的基础上，获取当前输入信息，其中，当前输入信息包括目标语音信息对应的目标文本、目标语音信息所对应目标设备的设备信息，设备信息包括内部信息和外部信息；将当前输入信息在预设的目标设备控制数据库中进行匹配，得到匹配结果；若匹配结果为匹配成功，则基于匹配成功的目标输入信息所对应的第一设备控制任务控制目标设备；若匹配结果为匹配失败，将当前输入信息输入设备控制模型中生成第二设备控制任务，并基于第二设备控制任务控制目标设备。采用上述技术方案，通过构建目标设备控制数据库，在获取语音信息并确定对应得当前输入信息之后，可以先在该目标设备控制数据库中匹配当前输入信息对应的目标输入信息以及设备控制任务，当匹配失败时再将当前输入信息输入设备控制模型中实时生成设备控制任务，避免重复语音对应的设备控制任务的重复计算，极大降低计算成本，提升响应速度，并且在输入信息中增加了设备内部信息和外部信息，增加设备控制时考虑的影响因素，能够更加精确地理解用户意图，进而提升后续设备控制的准确性。

目标设备控制数据库也可以采用对话图的方式存储，目标设备控制数据库对应的对话图包括多个节点和有向边，每个节点表示一个标准对话控制信息中的设备控制任务，每个有向边存储一个标准对话控制信息中的标准输入信息，表示节点的指向方向。

在一些实施例中，设备控制方法还可以包括：获取第一语音信息，并基于第一语音信息确定对应的第一输入信息；将第一输入信息在目标设备控制数据库对应的对话图中从根节点开始与各有向边进行匹配，确定匹配成功的有向边所对应节点为第一节点，并基于第一节点的设备控制任务控制目标设备；获取第二语音信息，并基于第二语音信息确定对应的第二输入信息；将第二输入信息在在目标设备控制数据库对应的对话图中从第一节点开始与各有向边进行匹配，确定匹配成功的有向边所对应节点为第二节点，并基于第二节点的设备控制任务控制目标设备。

第一语音信息可以为连续语音信息中的第一个，第二语音信息可以为连续语音信息中在第一语音信息之后的语音信息，可以理解的是，第二语音信息之后还可以继续输入语音信息，具体数量不限，也即连续语音信息中可以包括多个语音信息。

设备控制装置可以获取第一语音信息，并按照上述实施例的方式确定对应的第一输入信息，之后在目标设备控制数据库对应的对话图中从根节点开始将第一输入信息与各有向边存储的标准输入信息进行匹配，确定匹配成功的有向边指向的节点为第一节点，并基于该第一节点的设备控制任务控制目标设备；之后可以获取第二语音信息，采用与上述第一语音信息的方式确定对应的第二节点，不同的是在对话图中匹配时从第一节点开始进行匹配，基于第二节点的设备控制任务控制目标设备。后续还可以继续获取语音信息，继续对目标控制进行控制，实现对目标设备的连续控制。通过对话图的方式存储目标设备控制数据库，在对设备控制时可以基于该对话图的结构快速实现对设备的连续控制，提升设备控制的效率。

示例性的，图3为本公开实施例提供的一种设备控制的示意图，如图3所示，图中展示了设备控制的具体过程，包括：当一个新的目标语音信息进入系统，获取目标语音信息和设备信息生成当前输入信息，首先将当前输入信息在目标设备控制数据库中进行匹配，若匹配成功，则可以提取匹配成功的目标输入信息对应的设备控制任务作为第一设备控制任务，通过该第一设备控制任务控制目标设备执行对应的操作；若匹配失败，则将该当前输入信息输入设备控制模型中进行处理生成第二设备控制任务，通过该第二设备控制任务控制目标设备执行对应的操作。

示例性的，图4为本公开实施例提供的另一种设备控制的示意图，如图4所示，图中展示了本公开实施例的设备控制装置在进行设备控制时各模块间的数据流转过程。设备控制装置可以包括图中的语义表示生成模块(Embedding Generator)、数据库管理模块(Cache Manager)、语义匹配模块(Semantic Match)、任务执行模块(Task Executor)、任务规划模块(LLM planner)。

语义表示模块用于计算用户的输入信息的语义表示向量，输入为包括输入文本和设备信息，输出为对应语义表示向量，输入文本来自于用户的文本输入或者将用户的语音信息经过语音技术转换后的文本。

数据库管理模块中包括数据库(Cache)和向量数据库(vector DB)，这两个数据库组合即为上述目标设备控制数据库，向量数据库中存储多个输入信息的语义表示向量(Embedding)，数据库中存储每个输入信息对应的设备控制任务的任务信息，可以通过json格式存储，并且该数据库例如可以采用sql数据库，每个输入信息的语义表示向量与一个设备控制任务的任务信息相对应。数据库管理模块可以对向量数据库和数据库进行维护和更新，针对匹配失败后实时生成的设备控制任务和输入信息更新到数据库和向量数据。

语义匹配模块用于计算输入信息对应的语义表示向量与向量数据库中各语义表示向量之间的匹配度，当存在一个匹配度大于匹配度阈值，则匹配成功，否则，匹配失败。

任务规划模块用于根据当前的输入信息生成由子任务序列组成的高级(high-level)设备控制任务，并通过检索(retrieval)机制获取知识库中的低级(low-level)设备控制任务，也即通过设备控制模型生成输入信息对应的设备控制任务，设备控制任务包括高级设备控制任务和低级设备控制任务。该模块包括设备控制模型，该设备控制模型可以由提示(prompt)生成器、高级任务规划模块(High-level LLM Planner)以及低级任务规划模块(Low-level task planner)组成。提示生成器根据输入信息生成prompt提示，生产的提示包含四个部分：任务及目标描述、上下文学习示例(in-context learning examples)、设备信息中的内部信息和外部信息、当前状态信息(包括输入信息中的文本、可用设备、动作信息以及设备控制任务的执行状态信息)。其中上下文学习示例、可用设备及动作信息分别通过检索机制从缓存库或预先构建的知识库检索得到。设备信息中的内部信息、外部信息以及设备控制任务的执行状态信息则通过用户与环境的交互和其他感应器获得。

任务执行模块用于根据上述在目标设备控制数据库中匹配或通过设备控制模型得到的设备控制任务，调用对应任务执行机制，实现设备控制任务。

此外，设备控制装置还可以包括回复生成模块(Response Generator)，该回复生成模块用于根据输入信息和设备控制任务的任务执行结果生成用户回复，返回给用户或语音模块进行语音合成与播报。

具体过程可以包括：图中的输入信息包括来自于用户的文本输入或者将用户的语音信息经过语音技术转换后的文本，以及需要控制设备的设备信息；输入信息经由语义表示生成模块生成对应的语义向量表示；之后将语义向量表示发送至数据库管理模块，与数据库管理模块中的向量数据库中当前节点下所有指向其他节点的输入信息通过语义匹配模块进行语义匹配，若匹配成功则直接将成功节点(也即匹配成功的目标输入信息)作为新的对话状态，并将该状态下的设备控制任务(也即匹配成功的目标输入信息对应的目标设备控制任务)作为任务执行模块的输入传入；否则，则将输入信息输入任务规划模块进行任务规划，得到对应的设备控制任务。任务规划模块的输出为任务执行模块可执行的任务表示，也即设备控制任务。由任务执行模块完成任务执行，也即基于设备控制任务控制目标设备执行相关操作，返回执行状态信息。之后可以将任务执行状态信息输入回复生成模块生成回复信息，并将该回复信息返回给用户，完成与用户的对话交互，并且同时更新到数据库管理模块的数据库实现数据的自动或半自动更新。

本公开实施例的设备控制方法可以覆盖对设备的单轮和多轮的控制场景，示例性的，图5为本公开实施例提供的一种多轮控制的示意图，如图5所示，图中以目标设备为空调为例，展示了用户的多轮控制的语音信息所对应的文本，图中箭头方向表示控制顺序，按照控制顺序依次为：屋里太热了、风调大些、左右扫风、调到新风模式；屋里太热了、温度调到25度、还是太热、温度调低些；屋里太热了、温度调到25度、温度调高些，仅为示例。

接下来通过一个具体的示例对上述目标设备控制数据库的构建过程进行进一步说明。对话图的结构为树状结构称为缓存树，该缓存树有一个根(root)节点，从根节点出来多个有向边，每条有向边存储个标准对话控制信息中的标准输入信息，表示节点的指向方向，并且每条有向边指向一个节点，该节点可以表示具体的设备控制任务，或者该节点可以表示具体的设备控制任务或应该回复用户的回复信息。

假设历史对话控制信息来自测试用户，目标设备为一个家电设备，可以创建一个模拟的家居环境，让大量的测试用户模式对该家电设备进行控制，系统自动地记录并创建目标设备控制数据库的对话图。具体过程包括：a)、在后台创建一个空的缓存树，该缓存树用于存储测试用户说的话及LLM对这些话的设备控制任务，并且可以设置该家电设备的设备信息，包括内部信息和外部信息。b)、当测试用户通过语音与该家电设备进行交互时，可以利用ASR将语音转录成文本，然后将该文本及上述设备信息转变成一段文本(也即输入信息)后，发送给LLM进行处理生成对应的设备控制任务。并将输入信息{1.文本、2.内部信息、3.外部信息}及设备控制任务记录在缓存树中，并且记录该输入信息以及设备控制任务的具体信息数量。

比如，初始状态下，缓存树仅有一个根节点，当测试用户说“好热啊”，系统会将{query："好热啊"，设备信息：[关机，目标温度：25，风量：中，模式：送风]}转换成纯文本的一段描述，比如“你是一个智能设备控制机器人。当前空调处于关机状态，设置的目标温度为25度，风量为中，模式为送风，现在用户说‘好热啊’请问你应该如何操作空调，并且回复用户什么话。按照action:{control:"打开空调"，response:"已为您打开空调"}的格式严格输出。”，然后把这段描述确定为输入信息输入给LLM。LLM会读入这段话，然后输出“action:{control:["打开空调",“模式调为制冷”]，response:"已为您打开空调，并调到制冷模式"}”，其中“action:{control:["打开空调",“模式调为制冷”]”为设备控制任务，“response:"已为您打开空调，并调到制冷模式"}”为回复信息。于是缓存树会记录上述信息，增加一个有向边和节点。如果测试用户接着说“风再大点”，则缓存树会继续增加一个有向边和该有向边指向的节点。如果在另外一个对话里，测试用户说的是“好热啊”和“风大点”，并且在说完“好热啊”之后，LLM的输出果依然是“action:{control:["打开空调",“模式调为制冷”]，response:"已为您打开空调，并调到制冷模式"}”，那么缓存树会继续增加一个有向边和该有向边指向的节点。如果在另外一个对话里，测试用户说的是“好热啊”和“风大点”，并且在说完“好热啊”之后，LLM的输出结果与以前的结果有不同，比如变成了“action:{control:["启动空调",“模式调为制冷”]，response:"已为您打开空调，并调到制冷模式"}”，那么缓存树继续增加一个有向边和该有向边指向的节点。

需要注意的是，由于家居场景下存在一定的噪音以及人说话时不一定标准，对家电设备说两次“好热啊”，ASR转录的文本可能是不一样的，比如其中一次可能会是“好热啊啊”。因此，在缓存树中可能看到大量的如下情况出现(即“好热啊”“好热啊啊”“嗯好热啊”等语义相同但是由于口语表达的随意性及噪音干扰造成转录成很多种不同的文本。在缓存树中保留这些不同的ASR转录的文本，因为在真实环境中也会发生同样情况。

c)、过滤阶段。具体过程可以包括：删除信息数量低于某个阈值(比如n＝10)的节点及对应的有向边(指向其及从其出发的边)，如果信息数量发生次数低于预先设定的阈值，并且该节点对应的设备控制任务的电控指令不属于预设指令，那么可以删除该节点；如果某个节点信息数量低于预先设定的阈值，但该节点对应的设备控制任务的电控指令属于预设指令，这说明该节点往往对应那种家电设备拥有但用户使用频率很低的功能，比如，对空调说“自清洁”，它会产生自清洁电控指令，但用户可能一年只说一次，对此种节点给予保留。和/或，将节点对应的时间点在当前家电设备的设备使用时间范围外的节点和对应的有向边删除，例如无制热功能的空调的设备使用时间为6-8月，冷暖两用空调的设备使用时间为6-8月及11-3月。

d)在利用模拟环境构建缓存树的同时，选取部分真实用户(比如0.1％的真实用户)在某些特定时间段(比如对无制热功能的某种空调单品，我们可以只选择6-8月；而对冷暖两用空调，我们可以选择6-8月及11-3月)接入LLM，在后台记录用户真实的{1.query文字2.设备内部信息3.外部信息}，以及LLM的处理结果。

当缓存树初步建立后，比如缓存树里的节点数量达到一个预设的阈值，该阈值例如为10000，将此时的缓存树称为初始设备控制数据库，进入到校验阶段，校验结束后得到的缓存树称为目标设备控制数据库。校验过程可以包括：对每一个节点，序检查是否有多条有向边对应完全相同的输入信息，如果有，检查这些有向边指向的节点里的设备控制任务在设备上产生的电控指令是否完全相同；如果有不同的电控命令，则意味着LLM的输出大概率有错误，因此输出警告，需要人工进行审核，删除掉错误的LLM输出所对应的节点；如果所有电控命令都完全相同，则意味着LLM的输出大概率是正确且多样的。对这种情况，将这些节点进行合并，并且将信息数量进行累加。利用人工对所有节点，所有边进行二次校验及修正。

当建立好上述缓存树后，其实际使用过程如下：1.当用户说第一句话时，系统后台将该句话通过转录为文本，并且从后台系统中查询出该设备所有的内部信息以及可获得的外部信息，组合得到当前输入信息。2.将当前输入信息与从根节点出发的每条有向边进行匹配，确定匹配度大于匹配度阈值的有向边，匹配度阈值可以设置的较大，此时认为当前输入信息与该有向边完全匹配。下面通过举例，对“完全匹配”的含义进行说明：a)用户说“打开空调”，内部信息为[空调开关状态：关机，目标温度：25，风量：中，模式：制冷]，外部信息：None。目前在缓存树进行匹配时发现用户语音对应的文本与这条边上文本完全相同，这条边上内部信息包括设备开关机状态，其值为“关机”，内部信息完全匹配。由于缓存树中没有再要求其他信息，因此忽略后台系统提供的其他内部信息，匹配过程结束，结论是“完全匹配”。

3.如果当前输入信息与某条有向边完全匹配，则系统直接执行该条边所指节点对应的设备控制任务。当用户说第二句话时，回到第一步并顺序执行后面的每一步，唯一的变化是不再从根节点出发，而是从当前节点出发与各候选节点的有向边进行匹配，候选节点为当前节点的所有指向节点，也即当前节点作为头节点的由有向边相连的所有尾节点。4.如果没有任何有向边与当前输入信息完全匹配，则将该当前输入信息发送给LLM进行处理。从此之后，当用户说第n句话时，也全部交给LLM进行处理，不再进行在缓存树中进行匹配。

本公开实施例的设备控制方式可以提供一种基于缓存库中设备控制数据库的单轮/多轮对话控制方案，具有以下优点：利用缓存机制将高频对话历史(包含单轮请求，或多轮对话)和典型的对话需求存储在设备控制数据库中并通过对话图缓存，可以在实时运行时基于缓存库先匹配判断是否命中，可以避免典型对话的重复计算，在获得基于大模型的对话能力提升的同时，降低运行成本和提高效应效率，并且大大降低实时设备控制模型的调用次数，从而降低调用和计算成本；通过在缓存中匹配的方式可以直接获取到对应的结果，大大减省了中间计算过程，提高了请求性能；通过缓存机制对高频对话场景进行分流，可以大大降低系统的可用性和扩展性，在降低对于高资源消耗的服务依赖的同时，可以很大程度上保证系统的运行能力；自动化的缓存机制，配合缓存淘汰算法，可以在保证缓存命中率的同时，大大降低缓存数据的维护成本；基于LLM少样本决策能力的体验提升，大语言模型强大的语言理解能力、通识能力、泛化能力、上下文学习能力和涌现的思维链推理能力，使得其相较于传统的基于中间任务分解的管道式模型系统，在一定程度上减少了管道系统的误差传递，从而具有更好的基于少样本(few-shot)的理解和规划(Plan)能力，特别是在具身化(embodiment)的人工智能系统中，即需要与真实物理环境进行实体交互的家居控制系统中，LLM能够在一定程度上提供基于少量示例和动态环境的对于用户指令的高阶规划能力，对于无法缓存的长尾需求，可以提供更好的用户体验。

图6为本公开实施例提供的一种设备控制装置的结构示意图，该装置可由软件和/或硬件实现，一般可集成在电子设备中。如图6所示，该装置包括：

构建模块601，用于构建初始设备控制数据库；

校验模块602，用于对所述初始设备控制数据库进行数据校验，得到目标设备控制数据库；

获取模块603，用于获取当前输入信息；

控制模块604，用于将所述当前输入信息在所述目标设备控制数据库中进行匹配，基于匹配成功的目标输入信息所对应的第一设备控制任务控制所述目标设备。

可选的，获取模块603用于：

获取目标语音信息，并基于所述目标语音信息确定当前输入信息。

可选的，所述初始设备控制数据库中包括多个初始对话控制信息，校验模块602用于：

提取所述初始设备控制数据中初始输入信息相同的至少两个初始对话控制信息，组合得到待校验集合，其中，每个所述初始对话控制信息包括初始输入信息以及对应的设备控制任务；

将所述待校验集合中至少两个设备控制任务输入电控平台中，得到至少两个电控指令；

将所述待校验集合中电控指令相同的至少两个初始对话控制信息进行合并处理，并将电控指令不同的初始对话控制信息发送至校验平台校验，得到所述目标设备控制数据库。

可选的，构建模块601包括：

历史单元，用于获取多个历史对话控制信息，其中，每个所述历史对话控制信息包括历史控制信息以及对应的设备控制任务；

构建单元，用于基于所述多个历史对话控制信息构建所述初始设备控制数据库。

可选的，构建单元包括：

过滤子单元，用于基于设备使用时间和/或信息数量对所述多个历史对话控制信息进行过滤，得到多个标准对话控制信息；

存储子单元，用于将多个所述标准对话控制信息存储在数据库中，得到所述初始设备控制数据库。

可选的，过滤子单元用于：

将所述多个历史对话控制信息中信息数量小于数量阈值并且设备控制任务对应的电控指令不属于预设指令的历史对话控制信息删除；

和/或，将所述多个历史对话控制信息中时间点在所述设备使用时间范围外的历史对话控制信息删除。

可选的，所述目标设备控制数据库采用对话图的方式存储，所述目标设备控制数据库对应的对话图包括多个节点和有向边，每个节点表示一个所述标准对话控制信息中的设备控制任务，每个有向边存储一个所述标准对话控制信息中的标准控制输入信息，表示节点的指向方向。

可选的，所述装置还包括连续控制模块，用于：

获取第一语音信息，并基于所述第一语音信息确定对应的第一输入信息；

将所述第一输入信息在所述目标设备控制数据库对应的对话图中从根节点开始与各有向边进行匹配，确定匹配成功的有向边所对应节点为第一节点，并基于所述第一节点的设备控制任务控制所述目标设备；

获取第二语音信息，并基于所述第二语音信息确定对应的第二输入信息；

将所述第二输入信息在在所述目标设备控制数据库对应的对话图中从所述第一节点开始与各有向边进行匹配，确定匹配成功的有向边所对应节点为第二节点，并基于所述第二节点的设备控制任务控制所述目标设备。

可选的，所述目标设备控制数据库存储在缓存空间中。

可选的，所述当前输入信息包括所述目标语音信息对应的目标文本、所述目标语音信息所对应目标设备的设备信息，所述设备信息包括内部信息和外部信息。

本公开实施例所提供的设备控制装置可执行本公开任意实施例所提供的设备控制方法，具备执行方法相应的功能模块和有益效果。

图7为本公开实施例提供的一种电子设备的结构示意图。如图7所示，电子设备700包括一个或多个处理器701和存储器702。

处理器701可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备700中的其他组件以执行期望的功能。

存储器702可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器701可以运行所述程序指令，以实现上文所述的本公开的实施例的设备控制方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备700还可以包括：输入装置703和输出装置704，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

此外，该输入装置703还可以包括例如键盘、鼠标等等。

该输出装置704可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置704可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图7中仅示出了该电子设备700中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备700还可以包括任何其他适当的组件。

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的设备控制方法。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的设备控制方法。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种设备控制方法，其特征在于，包括：

构建初始设备控制数据库；

获取当前输入信息；

2.根据权利要求1所述的方法，其特征在于，所述获取当前输入信息，包括：

3.根据权利要求1-2中任一所述的方法，其特征在于，所述初始设备控制数据库中包括多个初始对话控制信息，对所述初始设备控制数据库进行数据校验，得到目标设备控制数据库，包括：

4.根据权利要求1-3中任一所述的方法，其特征在于，所述构建初始设备控制数据库，包括：

获取多个历史对话控制信息，其中，每个所述历史对话控制信息包括历史控制信息以及对应的设备控制任务；

基于所述多个历史对话控制信息构建所述初始设备控制数据库。

5.根据权利要求4所述的方法，其特征在于，基于所述多个历史对话控制信息构建所述初始设备控制数据库，包括：

基于设备使用时间和/或信息数量对所述多个历史对话控制信息进行过滤，得到多个标准对话控制信息；

将多个所述标准对话控制信息存储在数据库中，得到所述初始设备控制数据库。

6.根据权利要求5所述的方法，其特征在于，基于设备使用时间和/或信息数量对所述多个历史对话控制信息进行过滤，包括：

7.根据权利要求1-6中任一所述的方法，其特征在于，所述目标设备控制数据库采用对话图的方式存储，所述目标设备控制数据库对应的对话图包括多个节点和有向边，每个节点表示一个标准对话控制信息中的设备控制任务，每个有向边存储一个所述标准对话控制信息中的标准控制输入信息，表示节点的指向方向。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

9.根据权利要求1-8中任一所述的方法，其特征在于，所述目标设备控制数据库存储在缓存空间中。

10.根据权利要求1-9中任一所述的方法，其特征在于，所述当前输入信息包括所述目标语音信息对应的目标文本、所述目标语音信息所对应目标设备的设备信息，所述设备信息包括内部信息和外部信息。

11.一种设备控制装置，其特征在于，包括：

构建模块，用于构建初始设备控制数据库；

获取模块，用于获取当前输入信息；

12.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-10中任一所述的设备控制方法。

13.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-10中任一所述的设备控制方法。