CN117891922A - 一种人机交互方法、系统、电子设备及存储介质 - Google Patents

一种人机交互方法、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN117891922A
CN117891922A CN202410081984.4A CN202410081984A CN117891922A CN 117891922 A CN117891922 A CN 117891922A CN 202410081984 A CN202410081984 A CN 202410081984A CN 117891922 A CN117891922 A CN 117891922A
Authority
CN
China
Prior art keywords
task
interaction
processing result
language model
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410081984.4A
Other languages
English (en)
Inventor
夏中天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Goertek Techology Co Ltd
Original Assignee
Goertek Techology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Goertek Techology Co Ltd filed Critical Goertek Techology Co Ltd
Priority to CN202410081984.4A priority Critical patent/CN117891922A/zh
Publication of CN117891922A publication Critical patent/CN117891922A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Stored Programmes (AREA)

Abstract

本申请公开了一种人机交互方法、系统、电子设备及存储介质,所属的技术领域为人工智能技术。所述人机交互方法包括:接收交互任务,并确定交互任务的任务类型;若任务类型为应用控制类任务,则获取工具集;其中,工具集包括本地应用程序和/或第三方API的接口描述和示例;将应用控制类任务和工具集上传至大语言模型,以使大语言模型基于工具集生成用于处理交互任务的功能调用信息;接收大语言模型返回的功能调用信息,并利用功能调用信息控制对应的本地应用程序和/或第三方API对交互任务进行处理,以便生成交互任务的处理结果;向用户输出交互任务的处理结果。本申请能够提高设备对交互任务的处理能力,改善人机交互效果。

Description

一种人机交互方法、系统、电子设备及存储介质
技术领域
本申请涉及人工智能技术领域,特别涉及一种人机交互方法、系统、电子设备及存储介质。
背景技术
智能手机、平板电脑、智能穿戴设备等设备中已经广泛集成智能助手能力;智能助手是一种人工智能技术驱动的智能工具,它可以帮助用户完成各种任务,如搜索信息、回答问题、提供建议、进行语音交互等。
相关技术中,智能助手基于传统的自然语言处理技术(NLP)实现,自然语言处理技术对语言语义的理解十分有限,导致人机交互效果较差。
因此,如何提高设备对交互任务的处理能力,改善人机交互效果是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种人机交互方法、一种人机交互系统、一种电子设备及一种存储介质,能够提高设备对交互任务的处理能力,改善人机交互效果。
为解决上述技术问题,本申请提供一种人机交互方法,该人机交互方法包括:
接收交互任务,并确定所述交互任务的任务类型;
若所述任务类型为应用控制类任务,则获取工具集;其中,所述工具集包括本地应用程序和/或第三方API的接口描述和示例;
将所述应用控制类任务和所述工具集上传至大语言模型,以使所述大语言模型基于所述工具集生成用于处理所述交互任务的功能调用信息;
接收所述大语言模型返回的所述功能调用信息,并利用所述功能调用信息控制对应的本地应用程序和/或第三方API对所述交互任务进行处理,以便生成所述交互任务的处理结果;
向用户输出所述交互任务的处理结果。
可选的,利用所述功能调用信息控制对应的本地应用程序和/或第三方API对所述交互任务进行处理,包括:
解析所述功能调用信息得到控制对象和功能调用代码;其中,所述控制对象包括本地应用程序和/或第三方API;
通过运行所述功能调用代码调用所述控制对象的功能,以便对所述交互任务进行处理。
可选的,若所述控制对象为目标本地应用程序和目标第三方API,则通过运行所述功能调用代码调用所述控制对象的功能,包括:
根据所述功能调用代码确定功能调用顺序,并对所述功能调用代码进行代码划分,得到所述目标本地应用程序对应的第一功能调用代码,以及所述目标第三方API对应的第二功能调用代码;
若所述功能调用顺序为第一顺序,则通过运行所述第一功能调用代码调用所述目标本地应用程序的功能得到第一处理结果,将所述第一处理结果的全部内容或部分内容输入所述目标第三方API,并通过运行所述第二功能调用代码调用所述目标第三方API的功能得到第二处理结果;
若所述功能调用顺序为第二顺序,则通过运行所述第二功能调用代码调用所述目标第三方API的功能得到第三处理结果,将所述第三处理结果的全部内容或部分内容输入所述目标本地应用程序,并通过运行所述第一功能调用代码调用所述目标本地应用程序的功能得到第四处理结果。
可选的,生成所述交互任务的处理结果,包括:
若所述功能调用顺序为所述第一顺序、且所述第一处理结果的全部内容未输入所述目标第三方API,则将所述第一处理结果中未输入所述目标第三方API的内容和所述第二处理结果设置为所述交互任务的处理结果;
若所述功能调用顺序为所述第二顺序、且所述第三处理结果的全部内容未输入所述目标本地应用程序,则将所述第三处理结果中未输入所述目标本地应用程序的内容和所述第四处理结果设置为所述交互任务的处理结果。
可选的,所述向用户输出所述交互任务的处理结果,包括:
将所述交互任务的处理结果上传至所述大语言模型,以便所述大语言模型返回所述交互任务的处理结果生成评价信息;
向用户输出所述评价信息和所述交互任务的处理结果。
可选的,在将所述应用控制类任务和所述工具集上传至大语言模型之前,还包括:
获取人机交互历史记录,并将所述人机交互历史记录标注为交互背景信息上传至所述大语言模型。
可选的,在确定所述交互任务的任务类型之后,还包括:
若所述任务类型为对话任务,则解析所述交互任务得到用户问题,并利用所述大语言模型生成所述用户问题的回复信息;
若所述任务类型为创作任务,则解析所述交互任务得到创作提示信息,并利用所述大语言模型生成所述创作提示信息对应的创作结果;
若所述任务类型为环境感知任务,则解析所述交互任务得到环境信息,并利用所述大语言模型生成所述环境信息对应的环境感知结果;
若所述任务类型为用户感知任务,则解析所述交互任务得到用户信息,并利用所述大语言模型生成所述用户信息对应的用户状态感知结果;
若所述任务类型为推理任务,则解析所述交互任务得到待推理信息,并利用所述大语言模型生成所述待推理信息对应的推理结果。
本申请还提供了一种人机交互系统,该系统包括:
任务接收模块,用于接收交互任务,并确定所述交互任务的任务类型;
工具集获取模块,用于若所述任务类型为应用控制类任务,则获取工具集;其中,所述工具集包括本地应用程序和/或第三方API的接口描述和示例;
信息上传模块,用于将所述应用控制类任务和所述工具集上传至大语言模型,以使所述大语言模型基于所述工具集生成用于处理所述交互任务的功能调用信息;
任务处理模块,用于接收所述大语言模型返回的所述功能调用信息,并利用所述功能调用信息控制对应的本地应用程序和/或第三方API对所述交互任务进行处理,以便生成所述交互任务的处理结果;
结果输出模块,用于向用户输出所述交互任务的处理结果。
本申请还提供了一种存储介质,其上存储有计算机程序,所述计算机程序执行时实现上述人机交互方法执行的步骤。
本申请还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现上述人机交互方法执行的步骤。
本申请提供了一种人机交互方法,包括:接收交互任务,并确定所述交互任务的任务类型;若所述任务类型为应用控制类任务,则获取工具集;其中,所述工具集包括本地应用程序和/或第三方API的接口描述和示例;将所述应用控制类任务和所述工具集上传至大语言模型,以使所述大语言模型基于所述工具集生成用于处理所述交互任务的功能调用信息;接收所述大语言模型返回的所述功能调用信息,并利用所述功能调用信息控制对应的本地应用程序和/或第三方API对所述交互任务进行处理,以便生成所述交互任务的处理结果;向用户输出所述交互任务的处理结果。
本申请在确定交互任务后,若交互任务的任务类型为应用控制类任务,则将交互任务和工具集上传至大语言模型。工具集包括本地应用程序和/或第三方API的接口描述和示例,大语言模型根据工具集理解如何与本地应用程序和/或第三方API进行交互并调用相应功能,在此基础上大语言模型可以基于工具集生成用于处理所述交互任务的功能调用信息。在得到功能调用信息后,本申请可以利用功能调用信息控制对应的本地应用程序和/或第三方API对所述交互任务进行处理。本申请基于大语言模型和工具集实现了对人机交互,能够提高设备对交互任务的处理能力,改善人机交互效果。本申请同时还提供了一种人机交互系统、一种存储介质和一种电子设备,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的一种人机交互方法的流程图;
图2为本申请实施例所提供的一种基于人工智能大语言模型的人机交互原理示意图;
图3为本申请实施例所提供的一种人机交互系统的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面请参见图1,图1为本申请实施例所提供的一种人机交互方法的流程图。
具体步骤可以包括:
S101:接收交互任务,并确定所述交互任务的任务类型;
其中,本实施例可以应用于智能手机、平板电脑、智能穿戴设备等具备智能助手(即AI客户端)的电子设备。在本步骤之前存在获取输入信息的操作,上述输入信息包括:用户输入的信息、其他电子设备输入的信息和传感器采集的信息中的任一项或任几项的组合。在得到上述输入信息后,可以利用电子设备的处理器对输入信息进行计算(如,环境建模,实现追踪,手势追踪,语音识别,同时定位与地图构建SLAM等),也可以将上述输入信息传输至其他设备进行上述计算,本申请可以根据输入信息的计算结果结合用户需求(如,制图需求、购物需求、搜索需求、建模需求)生成交互任务,并将交互任务作为智能助手的输入。
在接收到交互任务后,可以确定交互任务的任务类型。交互任务的任务类型包括:对话任务、创作任务、感知任务(环境感知任务和用户感知任务)、推理任务和应用控制类任务。应用控制类任务为需要对其他应用程序进行控制的任务。
S102:若所述任务类型为应用控制类任务,则获取工具集;
其中,本步骤建立在任务类型为应用控制类任务的基础上,即处理应用控制类任务时需要调用本地应用程序和/或在线应用程序。本步骤获取工具集,上述工具集中包括本地应用程序和/或第三方API的接口描述和示例;接口描述通常包括接口的输入参数、输出结果、请求方法、请求地址等信息,示例包括本地应用程序和/或第三方API的功能进行调用的参考举例,接口描述和示例可以使大语言模型了解如何正确地调用本地应用程序和/或第三方API。上述大语言模型指以Transformer架构为基础的生成式AI模型,具有上亿级别的参数量。
S103:将所述应用控制类任务和所述工具集上传至大语言模型,以使所述大语言模型基于所述工具集生成用于处理所述交互任务的功能调用信息;
其中,工具集中的接口描述和示例可以帮助大语言模型理解如何与本地应用程序和/或第三方API进行交互,以及如何调用其功能。通过分析工具集中的接口描述和示例,大语言模型可以学习到如何根据任务需求调用相应的功能。这有助于它理解功能调用的逻辑和流程,从而更好地生成功能调用代码。工具集中还可以包含本地应用程序和/或第三方API的数据结构和格式信息,这些信息可以帮助大语言模型理解数据的结构和格式,从而更好地处理和解析交互任务中的数据。可见,大语言模型可以从工具集中学习到与本地应用程序和/或第三方API的逻辑、数据结构和格式、错误处理等方面的知识,从而更好地生成功能调用代码,提高交互任务的执行效率和准确性。
在将应用控制类任务和工具集上传至大语言模型后,大语言模型可以根据工具集中的接口描述和示例生成用于处理交互任务的功能调用信息,大语言模型还可以将功能调用信息返回至电子设备。通过上述方式,可以利用大语言模型强大的学习和推理能力,快速生成功能调用信息,提高交互任务的执行效率和准确性。同时,大语言模型还可以根据工具集中的接口描述和示例,自动处理异常情况和错误,确保处理交互任务过程的稳定性和可靠性。
上述大语言模型可以为在线模型,本实施例可以将应用控制类任务和所述工具集上传至大语言模型所处的线上平台,以便大语言模型基于所述工具集生成用于处理所述交互任务的功能调用信息。
S104:接收所述大语言模型返回的所述功能调用信息,并利用所述功能调用信息控制对应的本地应用程序和/或第三方API对所述交互任务进行处理,以便生成所述交互任务的处理结果;
在接收到大语言模型返回的所述功能调用信息后,可以利用功能调用信息来控制对应的本地应用程序和/或第三方API。这本地应用程序和/或第三方API会根据功能调用信息执行相应的操作,从而处理交互任务。通过上述方式,可以实现对交互任务的自动化处理,提高处理效率和准确性。同时,由于大语言模型生成的信息基于工具集的接口描述和示例得到,因此可以确保对本地应用程序和/或第三方API控制的正确性和稳定性。本实施例可以根据本地应用程序和/或第三方API返回的结果生成交互任务的处理结果。
S105:向用户输出所述交互任务的处理结果。
其中,本实施例可以通过图像、视频、音频、文本等形式向用户输出所述交互任务的处理结果。
本实施例在确定交互任务后,若交互任务的任务类型为应用控制类任务,则将交互任务和工具集上传至大语言模型。工具集包括本地应用程序和/或第三方API的接口描述和示例,大语言模型根据工具集理解如何与本地应用程序和/或第三方API进行交互并调用相应功能,在此基础上大语言模型可以基于工具集生成用于处理所述交互任务的功能调用信息。在得到功能调用信息后,本实施例可以利用功能调用信息控制对应的本地应用程序和/或第三方API对所述交互任务进行处理。本实施例基于大语言模型和工具集实现了对人机交互,能够提高设备对交互任务的处理能力,改善人机交互效果。
作为对于图1对应实施例的进一步介绍,可以通过以下方式控制对应的本地应用程序和/或第三方API对所述交互任务进行处理:解析所述功能调用信息得到控制对象和功能调用代码;其中,所述控制对象包括本地应用程序和/或第三方API;通过运行所述功能调用代码调用所述控制对象的功能,以便对所述交互任务进行处理。
若控制对象为第三方API,则可以通过运行所述功能调用代码调用第三方API的功能,以便对所述交互任务进行处理。
若控制对象为面向大语言模型的本地应用程序,则可以通过运行所述功能调用代码调用本地应用程序的功能,以便对所述交互任务进行处理。
若控制对象为非面向大语言模型的本地应用程序,则可以通过运行所述功能调用代码得到启动应用的指令Intent,进而利用上述指令Intent调用本地应用程序的功能,以便对所述交互任务进行处理。
若所述控制对象为目标本地应用程序和目标第三方API,则通过运行所述功能调用代码先后调用目标本地应用程序和目标第三方API实现对交互任务的处理,具体过程如下:
根据所述功能调用代码确定功能调用顺序,并对所述功能调用代码进行代码划分,得到所述目标本地应用程序对应的第一功能调用代码,以及所述目标第三方API对应的第二功能调用代码。上述功能调用顺序包括第一顺序和第二顺序,第一顺序为先执行目标本地应用程序再执行目标第三方API,第二顺序为先执行目标第三方API再执行目标本地应用程序。
若所述功能调用顺序为第一顺序,则通过运行所述第一功能调用代码调用所述目标本地应用程序的功能得到第一处理结果,将所述第一处理结果的全部内容或部分内容输入所述目标第三方API,并通过运行所述第二功能调用代码调用所述目标第三方API的功能得到第二处理结果。
若所述功能调用顺序为第二顺序,则通过运行所述第二功能调用代码调用所述目标第三方API的功能得到第三处理结果,将所述第三处理结果的全部内容或部分内容输入所述目标本地应用程序,并通过运行所述第一功能调用代码调用所述目标本地应用程序的功能得到第四处理结果。
进一步的,本实施例可以通过以下方式生成所述交互任务的处理结果:
若所述功能调用顺序为所述第一顺序、且所述第一处理结果的全部内容未输入所述目标第三方API,则将所述第一处理结果中未输入所述目标第三方API的内容和所述第二处理结果设置为所述交互任务的处理结果。
若所述功能调用顺序为所述第一顺序、且所述第一处理结果的全部内容均输入所述目标第三方API,则将述第二处理结果设置为所述交互任务的处理结果。
若所述功能调用顺序为所述第二顺序、且所述第三处理结果的全部内容未输入所述目标本地应用程序,则将所述第三处理结果中未输入所述目标本地应用程序的内容和所述第四处理结果设置为所述交互任务的处理结果。
若所述功能调用顺序为所述第二顺序、且所述第三处理结果的全部内容均输入所述目标本地应用程序,则将第四处理结果设置为所述交互任务的处理结果。
作为对于图1对应实施例的进一步介绍,可以通过以下方式向用户输出所述交互任务的处理结果:将所述交互任务的处理结果上传至所述大语言模型,以便所述大语言模型返回所述交互任务的处理结果生成评价信息;向用户输出所述评价信息和所述交互任务的处理结果。
具体的,当交互任务被处理后会生成相应的处理结果,本实施例将上述处理结果上传到大语言模型中。大语言模型会根据处理结果生成一个评价信息,这个评价信息是对处理结果的评估和反馈。本实施例将评价信息和交互任务的处理结果输出给用户。用户可以通过查看评价信息和处理结果,了解交互任务的处理情况和结果,从而做出相应的决策或采取进一步的行动。通过上述方式可以帮助用户更好地了解交互任务的处理情况,同时也可以帮助大语言模型不断学习和改进,提高处理效率和准确性。
作为对于图1对应实施例的进一步介绍,在将所述应用控制类任务和所述工具集上传至大语言模型之前,还可以获取人机交互历史记录,并将所述人机交互历史记录标注为交互背景信息上传至所述大语言模型,以便大语言模型基于交互背景信息对交互任务进行理解。
作为对于图1对应实施例的进一步介绍,在确定所述交互任务的任务类型之后,对不同任务类型的交互任务的处理过程如下:
若所述任务类型为对话任务,则解析所述交互任务得到用户问题,并利用所述大语言模型生成所述用户问题的回复信息;
若所述任务类型为创作任务,则解析所述交互任务得到创作提示信息,并利用所述大语言模型生成所述创作提示信息对应的创作结果;
若所述任务类型为环境感知任务,则解析所述交互任务得到环境信息,并利用所述大语言模型生成所述环境信息对应的环境感知结果;
若所述任务类型为用户感知任务,则解析所述交互任务得到用户信息,并利用所述大语言模型生成所述用户信息对应的用户状态感知结果;
若所述任务类型为推理任务,则解析所述交互任务得到待推理信息,并利用所述大语言模型生成所述待推理信息对应的推理结果。
下面通过在实际应用中基于人工智能大语言模型的智能穿戴设备上的智能助手说明上述实施例描述的流程,该智能助手所运行的系统可以包括IOS系统、安卓系统、Linux系统等。
虚拟现实设备、增强现实设备、混合现实设备、智能耳机、智能戒指、智能手环等智能穿戴设备上已经广泛集成智能助手能力,但现阶段的智能助手由于基于传统的自然语言处理技术(NLP)对语言语义的理解十分有限,并且与智能穿戴设备适配性差,与期望目标相差甚远,具体体现在以下几点:
(1)控制能力有限:现有的智能助手只能识别预先已经确定语义的部分词语、短语和句子,但由于语言的表达具有多样性,用户很多表达同样意图的对话无法被传统NLP模型所理解,例如:只支持特定的类别的24个动词作为指令,包括执行、运转、查看、开始、创建、搜索等,自然无法覆盖用户更多的指令需求,比如:创作、绘制、渲染、展示、呈现等。
(2)智能化程度不够:传统的NLP模型智能理解简单的语义信息,只能完成简单的对话,无法像大语言模型一样具有人类的语言理解、处理和创作能力。
(3)对智能穿戴设备的适配程度低:智能助手的输入输出仍主要靠手机,个别一体式的智能穿戴设备虽具有一定程度的适配,但智能助手并不能呈现沉浸感高的信息,例如:空间中智能的生成物体,对场景的高度理解并解读等。
针对上述相关技术中存在的技术问题,本实施例提供一种基于大语言模型驱动的人机交互方案,大语言模型具备接近人类以及部分专业领域超越人类的理解能力、推理能力和创作能力,大语言模型能够给予开发者和用户详细的提示和操作系统权限。本实施例将大语言模型与智能穿戴设备适配,利用人工智能大语言模型来代替传统自然语言处理模型,来弥补其智能化程度不够的缺陷。
请参见图2,图2为本申请实施例所提供的一种基于人工智能大语言模型的人机交互原理示意图。第三方API包括AI服务、开发者服务、地图服务、在线搜索、购物、日常消费、企业API,本地应用程序包括面向大语言模型的应用程序(包括智慧地图、智慧社交、游戏助手、智慧客服、学习助手)和非面向大语言模型的应用程序(包括地图、即时通讯、购物、消费和办公)。本地应用程序可以与大语言模型驱动的智能助手进行交互(如生成代码函数调用、部分数据返回给大语言模型处理并输出)。大语言模型驱动的智能助手包括大语言模型、历史学习模块、工具集和扩展模块。智能穿戴设备的系统输出包括虚拟信息、文本、图像、视频和音频,智能穿戴设备的处理器可以接收用户输入、其他设备的输入和传感器的输入。I、G、J、K表示信息传输线路。
智能穿戴设备通过一系列传感器接受外界环境和用户的作用,输入信息包括但不限于:用户输入的信息(如语音、触摸、视觉、手势、眼部、人脸等信息)、其他设备(手机、指环、手表、耳机等)输入的信息;传感器(如惯性运动单元,接近光传感器,环境光传感器,RGB摄像头,红外摄像头,深度传感器,压力传感器,PPG传感器等)采集的信息,本实施例可以将输入信息并转换成数字信号进入处理器进行计算(如SLAM、环境建模、实现追踪、手势追踪、语音识别等)并将计算结果输出到大语言模型驱动的智能助手中。上述传感器可以为智能穿戴设备上的传感器。
智能助手为大语言模型驱动的智能助手,智能助手可以支持多种功能,例如可以包括如下功能:
(1)智能对话功能,用于实现接近甚至超越真人的语言理解和对话。
(2)智能创作功能,用于根据输入提示创作音、视、图、文、模型、表格、文档、代码等信息。
(3)智能感知功能,用于通过接收分析传感器数据,增强用户对环境和自身信息(如环境中物体、情绪、注意力、自身健康状态等)的感知和理解,并将感知的信息(虚实融合信息,环境理解信息,健康状态分析等)呈现给用户。
(4)智能推理功能,用于对事物做出逻辑判断,辅助用户进行决策。
(5)智能应用控制功能,用于根据用户指令和有权限控制的工具,智能调用应用程序达成用户所期望的目标。
智能助手包括如下几个部分:大语言模型、工具集、历史学习模块和扩展模块。
大语言模型为线上服务,通过连接外部模型服务商的API,将接收到的交互任务发送给在线模型,并等待返回模型输出结果。大语言模型具有强大的语义理解能力,可以理解自然语言中所蕴含的背景,逻辑,意图等信息。故可以通过向模型描述所要完成的事务,提供其所需的工具(如本地应用程序或第三方API),从而使其进行聊天、创作、程序控制等工作。在进行智能控制功能时,大语言模型会从工具集中选择其需要的工具。
工具集包含全部可调用的外部接口信息(如第三方API、应用开放的API;操作系统的软件调用指令Intent),外部接口信息包括每个接口的详细描述和示例,供大模型去理解接口的功能以及自动生成相应代码与接口通信从而得到期望结果(如导航路线信息),供后续使用。
历史学习模块用于储存之前智慧助手所处理的历史记录。待调用大语言模型时,该历史记录可作为背景信息提示(Prompt)给大语言模型,提升其对用户操作的理解和学习,以及其决策能力。此外,历史记录还可以作为嵌入信息(Embedding)存入数据库进行复用,也可以作为训练数据为大模型进行微调(Fine-tune)从而将对用户的理解集成在大语言模型的知识库中。
扩展模块能够优化智慧助手的功能,比如权限控制,场景快捷定义等。
上述工具集、历史学习模块和扩展模块之间可以传输用户的指令和工具,供开发者高效优化。
当大语言模型确定用户意图(即任务类型)后,若需要借助外部功能完成工作,大语言模型会通过以下三种途径处理交互任务:
(1)通过第三方API处理交互任务:大语言模型理解第三方API的接口描述和示例后生成代码调用所需功能,获取第三方API返回的处理结果。第三方API返回的处理结果中一部分信息可以按照路线K直接输出给用户(例如图片生成结果、在线搜索结果、企业API的智能客服回复结果等);第三方API返回的处理结果中的其余部分信息可以通过线路G(生成代码和函数调用)将生成代码和函数调用输出给本地应用程序中的接口,并且本地应用程序的处理结果的全部或部分内容返回到大语言模型中进一步理解。例如:第三方API返回第三方网站的三维模型,通过线路G输入到本地应用程序中,并在本地将虚拟物体合成,渲染并定位在空间中,通过线路I将部分数据返回给大预言模型处理,大语言模型可以预览最终效果并给出评价等信息并通过线路K输出。本地应用程序也可以将处理结果(如,虚拟信息、文本、图像、视频、音频)直接使用线路J经过操作系统统一的输出架构实现系统输出,即显示到用户界面。
(2)通过直接调用面向大语言模型的应用程序所开放的功能处理交互任务,推理过程与第三方API的推理过程相同,以使大语言模型理解其所需要的工具和使用方法,并通过线路J和线路I+K(先返回大语言模型进一步处理再输出)过程输出。面向大语言模型的应用程序可以包括智慧地图、智慧社交、游戏助手、智慧客服和学习助手等。
(3)通过调用系统唤醒其他应用程序(即,非面向大语言模型的应用程序)的指令Intent(如函数调用)处理交互任务,输入相应参数来控制非面向大模型设计的传统的移动应用(如地图、即时通讯、购物、消费、办公等应用程序),并通过线路J和线路I+K(先返回大语言模型进一步处理再输出)过程输出。
上述方案提供了操作系统级别的智能助手,提供给用户感官增强,信息处理,分析解决问题,应用控制的实用价值,以及娱乐,陪伴等精神价值,大幅提升使用体验。相对于传统智能助手,智能穿戴设备上的基于大语言模型的智能助手可以实现接近真人级别的对话交流,提高对话效率,更好地满足用户情感需求。智能助手可以对几乎任何形式任何内容(大模型训练语料中包含即可)的自然语言指令的理解和处理,自动完成用户期望的工作。本实施例实现了智能助手对智能穿戴设备的高度集成适配,充分利用设备传感数据和外界服务能力,通过智慧助手深入理解和处理将内容输出到人机交互界面,大幅提高智能戴设备的使用效率和沉浸感。本实施例提供了强大的创作能力,根据用户期望所生成音频、视频、图片、文字、模型、表格、文档、代码,甚至进行环境重建。本实施例具备强大的扩展能力,可以高效连接更多第三方服务,例如生成式AI,感知AI,定位服务,支付服务等。本实施例可以大幅提升开发效率,减少成本:开发者通过自然语言即可编程扩展,而非传统通过编程语言,可节省时间和人力。
请参见图3,图3为本申请实施例所提供的一种人机交互系统的结构示意图,该系统可以包括:
任务接收模块301,用于接收交互任务,并确定所述交互任务的任务类型;
工具集获取模块302,用于若所述任务类型为应用控制类任务,则获取工具集;其中,所述工具集包括本地应用程序和/或第三方API的接口描述和示例;
信息上传模块303,用于将所述应用控制类任务和所述工具集上传至大语言模型,以使所述大语言模型基于所述工具集生成用于处理所述交互任务的功能调用信息;
任务处理模块304,用于接收所述大语言模型返回的所述功能调用信息,并利用所述功能调用信息控制对应的本地应用程序和/或第三方API对所述交互任务进行处理,以便生成所述交互任务的处理结果;
结果输出模块305,用于向用户输出所述交互任务的处理结果。
本实施例在确定交互任务后,若交互任务的任务类型为应用控制类任务,则将交互任务和工具集上传至大语言模型。工具集包括本地应用程序和/或第三方API的接口描述和示例,大语言模型根据工具集理解如何与本地应用程序和/或第三方API进行交互并调用相应功能,在此基础上大语言模型可以基于工具集生成用于处理所述交互任务的功能调用信息。在得到功能调用信息后,本实施例可以利用功能调用信息控制对应的本地应用程序和/或第三方API对所述交互任务进行处理。本实施例基于大语言模型和工具集实现了对人机交互,能够提高设备对交互任务的处理能力,改善人机交互效果。
进一步的,任务处理模块304利用所述功能调用信息控制对应的本地应用程序和/或第三方API对所述交互任务进行处理的过程包括:解析所述功能调用信息得到控制对象和功能调用代码;其中,所述控制对象包括本地应用程序和/或第三方API;通过运行所述功能调用代码调用所述控制对象的功能,以便对所述交互任务进行处理。
进一步的,若所述控制对象为目标本地应用程序和目标第三方API,则任务处理模块304通过运行所述功能调用代码调用所述控制对象的功能的过程包括:根据所述功能调用代码确定功能调用顺序,并对所述功能调用代码进行代码划分,得到所述目标本地应用程序对应的第一功能调用代码,以及所述目标第三方API对应的第二功能调用代码;若所述功能调用顺序为第一顺序,则通过运行所述第一功能调用代码调用所述目标本地应用程序的功能得到第一处理结果,将所述第一处理结果的全部内容或部分内容输入所述目标第三方API,并通过运行所述第二功能调用代码调用所述目标第三方API的功能得到第二处理结果;若所述功能调用顺序为第二顺序,则通过运行所述第二功能调用代码调用所述目标第三方API的功能得到第三处理结果,将所述第三处理结果的全部内容或部分内容输入所述目标本地应用程序,并通过运行所述第一功能调用代码调用所述目标本地应用程序的功能得到第四处理结果。
进一步的,任务处理模块304生成所述交互任务的处理结果的过程包括:若所述功能调用顺序为所述第一顺序、且所述第一处理结果的全部内容未输入所述目标第三方API,则将所述第一处理结果中未输入所述目标第三方API的内容和所述第二处理结果设置为所述交互任务的处理结果;若所述功能调用顺序为所述第二顺序、且所述第三处理结果的全部内容未输入所述目标本地应用程序,则将所述第三处理结果中未输入所述目标本地应用程序的内容和所述第四处理结果设置为所述交互任务的处理结果。
进一步的,结果输出模块305向用户输出所述交互任务的处理结果的过程包括:将所述交互任务的处理结果上传至所述大语言模型,以便所述大语言模型返回所述交互任务的处理结果生成评价信息;向用户输出所述评价信息和所述交互任务的处理结果。
进一步的,还包括:
历史上传模块,用于在将所述应用控制类任务和所述工具集上传至大语言模型之前,获取人机交互历史记录,并将所述人机交互历史记录标注为交互背景信息上传至所述大语言模型。
进一步的,还包括:
对话模块,用于若所述任务类型为对话任务,则解析所述交互任务得到用户问题,并利用所述大语言模型生成所述用户问题的回复信息;
创作模块,用于若所述任务类型为创作任务,则解析所述交互任务得到创作提示信息,并利用所述大语言模型生成所述创作提示信息对应的创作结果;
环境感知模块,用于若所述任务类型为环境感知任务,则解析所述交互任务得到环境信息,并利用所述大语言模型生成所述环境信息对应的环境感知结果;
用户感知模块,用于若所述任务类型为用户感知任务,则解析所述交互任务得到用户信息,并利用所述大语言模型生成所述用户信息对应的用户状态感知结果;
推理模块,用于若所述任务类型为推理任务,则解析所述交互任务得到待推理信息,并利用所述大语言模型生成所述待推理信息对应的推理结果。
由于系统部分的实施例与方法部分的实施例相互对应,因此系统部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本申请还提供了一种存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请还提供了一种电子设备,可以包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口,电源等组件。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种人机交互方法,其特征在于,包括:
接收交互任务,并确定所述交互任务的任务类型;
若所述任务类型为应用控制类任务,则获取工具集;其中,所述工具集包括本地应用程序和/或第三方API的接口描述和示例;
将所述应用控制类任务和所述工具集上传至大语言模型,以使所述大语言模型基于所述工具集生成用于处理所述交互任务的功能调用信息;
接收所述大语言模型返回的所述功能调用信息,并利用所述功能调用信息控制对应的本地应用程序和/或第三方API对所述交互任务进行处理,以便生成所述交互任务的处理结果;
向用户输出所述交互任务的处理结果。
2.根据权利要求1所述人机交互方法,其特征在于,利用所述功能调用信息控制对应的本地应用程序和/或第三方API对所述交互任务进行处理,包括:
解析所述功能调用信息得到控制对象和功能调用代码;其中,所述控制对象包括本地应用程序和/或第三方API;
通过运行所述功能调用代码调用所述控制对象的功能,以便对所述交互任务进行处理。
3.根据权利要求2所述人机交互方法,其特征在于,若所述控制对象为目标本地应用程序和目标第三方API,则通过运行所述功能调用代码调用所述控制对象的功能,包括:
根据所述功能调用代码确定功能调用顺序,并对所述功能调用代码进行代码划分,得到所述目标本地应用程序对应的第一功能调用代码,以及所述目标第三方API对应的第二功能调用代码;
若所述功能调用顺序为第一顺序,则通过运行所述第一功能调用代码调用所述目标本地应用程序的功能得到第一处理结果,将所述第一处理结果的全部内容或部分内容输入所述目标第三方API,并通过运行所述第二功能调用代码调用所述目标第三方API的功能得到第二处理结果;
若所述功能调用顺序为第二顺序,则通过运行所述第二功能调用代码调用所述目标第三方API的功能得到第三处理结果,将所述第三处理结果的全部内容或部分内容输入所述目标本地应用程序,并通过运行所述第一功能调用代码调用所述目标本地应用程序的功能得到第四处理结果。
4.根据权利要求3所述人机交互方法,其特征在于,生成所述交互任务的处理结果,包括:
若所述功能调用顺序为所述第一顺序、且所述第一处理结果的全部内容未输入所述目标第三方API,则将所述第一处理结果中未输入所述目标第三方API的内容和所述第二处理结果设置为所述交互任务的处理结果;
若所述功能调用顺序为所述第二顺序、且所述第三处理结果的全部内容未输入所述目标本地应用程序,则将所述第三处理结果中未输入所述目标本地应用程序的内容和所述第四处理结果设置为所述交互任务的处理结果。
5.根据权利要求1所述人机交互方法,其特征在于,所述向用户输出所述交互任务的处理结果,包括:
将所述交互任务的处理结果上传至所述大语言模型,以便所述大语言模型返回所述交互任务的处理结果生成评价信息;
向用户输出所述评价信息和所述交互任务的处理结果。
6.根据权利要求1所述人机交互方法,其特征在于,在将所述应用控制类任务和所述工具集上传至大语言模型之前,还包括:
获取人机交互历史记录,并将所述人机交互历史记录标注为交互背景信息上传至所述大语言模型。
7.根据权利要求1所述人机交互方法,其特征在于,在确定所述交互任务的任务类型之后,还包括:
若所述任务类型为对话任务,则解析所述交互任务得到用户问题,并利用所述大语言模型生成所述用户问题的回复信息;
若所述任务类型为创作任务,则解析所述交互任务得到创作提示信息,并利用所述大语言模型生成所述创作提示信息对应的创作结果;
若所述任务类型为环境感知任务,则解析所述交互任务得到环境信息,并利用所述大语言模型生成所述环境信息对应的环境感知结果;
若所述任务类型为用户感知任务,则解析所述交互任务得到用户信息,并利用所述大语言模型生成所述用户信息对应的用户状态感知结果;
若所述任务类型为推理任务,则解析所述交互任务得到待推理信息,并利用所述大语言模型生成所述待推理信息对应的推理结果。
8.一种人机交互系统,其特征在于,包括:
任务接收模块,用于接收交互任务,并确定所述交互任务的任务类型;
工具集获取模块,用于若所述任务类型为应用控制类任务,则获取工具集;其中,所述工具集包括本地应用程序和/或第三方API的接口描述和示例;
信息上传模块,用于将所述应用控制类任务和所述工具集上传至大语言模型,以使所述大语言模型基于所述工具集生成用于处理所述交互任务的功能调用信息;
任务处理模块,用于接收所述大语言模型返回的所述功能调用信息,并利用所述功能调用信息控制对应的本地应用程序和/或第三方API对所述交互任务进行处理,以便生成所述交互任务的处理结果;
结果输出模块,用于向用户输出所述交互任务的处理结果。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如权利要求1至7任一项所述人机交互方法的步骤。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如权利要求1至7任一项所述人机交互方法的步骤。
CN202410081984.4A 2024-01-19 2024-01-19 一种人机交互方法、系统、电子设备及存储介质 Pending CN117891922A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410081984.4A CN117891922A (zh) 2024-01-19 2024-01-19 一种人机交互方法、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410081984.4A CN117891922A (zh) 2024-01-19 2024-01-19 一种人机交互方法、系统、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN117891922A true CN117891922A (zh) 2024-04-16

Family

ID=90650857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410081984.4A Pending CN117891922A (zh) 2024-01-19 2024-01-19 一种人机交互方法、系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117891922A (zh)

Similar Documents

Publication Publication Date Title
US11900017B2 (en) Optimizing display engagement in action automation
KR102625761B1 (ko) 사용자 프로그래머블 자동화 어시스턴트
US11735182B2 (en) Multi-modal interaction between users, automated assistants, and other computing services
US20170277993A1 (en) Virtual assistant escalation
CN101495965B (zh) 语义富对象的动态用户体验
JP2019533248A (ja) バーチャルアシスタントのパーソナライズ
US20190340200A1 (en) Multi-modal interaction between users, automated assistants, and other computing services
US20130031476A1 (en) Voice activated virtual assistant
US11200893B2 (en) Multi-modal interaction between users, automated assistants, and other computing services
CN115952272B (zh) 一种生成对话信息的方法、装置、设备及可读存储介质
EP4204945A2 (en) Digital assistant control of applications
CN109948151A (zh) 构建语音助手的方法
WO2022005660A1 (en) Leveraging dialogue history in updated dialogue
KR20220155601A (ko) 검출된 객체들에 대한 증강 현실 콘텐츠의 음성 기반 선택
CN113703585A (zh) 交互方法、装置、电子设备及存储介质
Inupakutika et al. Integration of NLP and Speech-to-text Applications with Chatbots
CN117648422A (zh) 问答提示系统、问答提示、库构建、模型训练方法和装置
CN117494814A (zh) 提示词全生命周期管理方法、系统、电子设备、存储介质
CN117520498A (zh) 基于虚拟数字人交互处理方法、系统、终端、设备及介质
CN117891922A (zh) 一种人机交互方法、系统、电子设备及存储介质
Bellal et al. Integrating Mobile Multimodal Interactions based on Programming By Demonstration​
Skorikov et al. Voice-controlled intelligent personal assistant
CN112328751A (zh) 用于处理文本的方法和装置
CN116561286B (zh) 一种对话方法及装置
CN114008590B (zh) 使用执行块提供辅助用户界面

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination