CN117850924B

CN117850924B - 基于大模型的问答会话数据调用处理方法、设备和介质

Info

Publication number: CN117850924B
Application number: CN202410264809.9A
Authority: CN
Inventors: 胡红亮; 郭传斌; 孟禹光; 郭成凯; 杨万波; 聂雯莹
Original assignee: Beijing Guoke Zhongan Technology Co ltd
Current assignee: Beijing Guoke Zhongan Technology Co ltd
Priority date: 2024-03-08
Filing date: 2024-03-08
Publication date: 2024-05-14
Anticipated expiration: 2044-03-08
Also published as: CN117850924A

Abstract

本发明公开了基于大模型的问答会话数据调用处理方法、设备和介质。本发明方法包括获取数据源的预定义；判断回答问题是否需要调用数据源的数据；如果需要，则提示大模型根据数据源的预定义生成工作流，然后按照工作流完成数据调用处理，最后生成答案。本发明的方法利用大模型实现了对组织私有数据的整合和利用，能够对私有数据的全面理解和学习，实现了高效、智能、精准和自动化的数据分析与回答生成，显著提升了组织私有数据库数据的可用性和访问性，同时也大幅降低了对专业人员依赖，减少了人力物力成本，提高了数据应用的时效性和准确性，能为组织提供及时、准确的决策支持。

Description

基于大模型的问答会话数据调用处理方法、设备和介质

技术领域

本发明属于人工智能技术领域。具体地，涉及一种基于大模型的问答会话数据调用处理方法、电子设备和计算机可读存储介质。

背景技术

在当今高度信息化的社会，企业、社会团体、研究机构、政府部门等组织在日常工作中产生了大量与生存和发展密切相关的数据。尤其在大数据时代背景下，随着信息技术的飞速发展，组织收集和存储的数据量呈指数级增长。这些数据涉及面广，蕴含着专业知识、运营数据、市场趋势等信息，具有巨大的技术、经济和管理等方面的研究价值。

但是，为确保信息安全和业务连续，组织通常将这些数据存储于私有网络和服务器中，由专业人员管理和访问。由于专业人才和技术资源的稀缺，使组织，特别是中小型组织，想要细粒度利用其私有数据资源时面临着人力和物力的巨大挑战。

发明内容

有鉴于此，本发明的目的在于突破人力物力限制，在确保私有数据隐私和安全的前提下细粒度利用私有数据资源，提高私有数据资源应用的时效性和准确性，以解决上述背景技术中存在的问题。

为实现上述目的，第一方面，本发明提供了一种基于大模型的问答会话数据调用处理方法，包括：

确定问答会话的数据源，并获取数据源的预定义；

大模型接收输入的自然语言问题，判断回答所述自然语言问题是否需要调用数据源的数据；

如果需要调用数据源的数据，则提示大模型根据数据源的预定义，生成从数据源调用处理数据的工作流；

按照大模型生成的工作流，完成数据调用处理；

根据数据调用处理结果，大模型生成回答输入的自然语言问题的答案。

第二方面，本发明提供了一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有能被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行所述的基于大模型的问答会话数据调用处理方法。

第三方面，本发明提供了一种计算机可读存储介质，存储有计算机程序，其中，所述计算机程序被处理器执行时实现所述的基于大模型的问答会话数据调用处理方法。

本发明和现有技术相比具有以下有益效果：

本发明的方法利用大模型技术实现了对组织私有数据的整合和利用，能够对私有数据的全面理解和学习，实现了高效、智能、精准和自动化的数据分析与回答生成，在确保私有数据的隐私和安全性的基础上，显著提升了企业私有数据库数据的可用性和访问性，同时也大幅降低了对专业人员依赖，减少了人力物力成本，提高了数据应用的时效性和准确性，能为组织提供了及时、准确的决策支持。

附图说明

图1为本发明于一实施例中的基于大模型的问答会话数据调用处理方法的流程图。

图2为本发明于一实施例中的大模型训练方法的流程图。

图3为本发明于一实施例中的电子设备组成原理图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

针对现有组织在细粒度利用其私有数据资源时所面临着人力和物力的巨大挑战，本发明提供了一种基于大模型的问答会话数据调用处理方法，包括：

确定问答会话的数据源，并获取数据源的预定义；

按照大模型生成的工作流，完成数据调用处理；

本发明一些实施例中，所述数据源的预定义是根据数据源的数据而预定义的数据类、数据查询逻辑任务和数据源API。

其中，数据类是单个数据源中具有相同属性的一个或多个数据字段的集合，数据查询逻辑任务是对一个数据类进行查询的逻辑任务，数据源API是对应于数据源的应用程序接口；数据类、数据查询任务和数据源API全部或部分采用自然语言定义并具有大模型能理解的含义。

本发明一些实施例中，提示大模型根据数据源的预定义，生成从数据源调用处理数据的工作流，包括：

采用所述数据类、数据查询逻辑任务，针对输入的自然语言问题及其问题关键特征生成解答输入的自然语言问题的逻辑任务流；问题关键特征指的是实体名称、时间和地点；

确定工作流数据字段集合；其中，工作流数据字段集合至少包括逻辑任务流中每一步数据调用处理逻辑任务对应的数据字段，逻辑任务流中每一步数据调用处理逻辑任务对应的数据字段是该步对应的数据查询逻辑任务查询的数据类中的所有数据字段；

采用所述的预定义数据源API、所述大模型生成的逻辑任务流和工作流数据字段集合，生成对应的数据源API工作流，作为从所述数据源调取数据的工作流。

本发明一些实施例中，工作流数据字段集合还包括从逻辑任务流需调用的每个数据源的全部数据字段中选择的、与自然语言问题相似度大于相似度阈值的数据字段；相似度阈值根据经验值设定。

本发明一些实施例中，所述大模型采用如下训练方法得到：

确定问答会话时所需的数据源，对数据源进行预定义，包括数据类、数据查询逻辑任务和数据源API；

生成用于对大模型训练的自然语言问题，并且从得到的自然语言问题提取对应的问题关键特征；问题关键特征指的是实体名称、时间和地点；

遍历生成的所有自然语言问题，基于预定义的数据类、数据查询逻辑任务和数据源API，分别生成与每个自然语言问题的解答相对应的逻辑任务流、工作流数据字段集合和数据源API工作流；

将数据类、数据查询逻辑任务和数据源API作为大模型训练的预定义输入数据，将自然语言问题及其对应的问题关键特征、工作流数据字段集合作为大模型训练的问题相关输入数据，将解答对应自然语言问题的逻辑任务流和数据源API工作流作为模型训练的答案输出数据，由预定义输入数据、问题输入数据和答案输出数据组成大模型训练数据集对大模型进行训练，训练大模型自动生成解答自然语言问题的逻辑任务流和数据源API工作流，其中，数据源API工作流是与逻辑任务流对应的、对自然语言问题进行解答的数据源API执行代码。

本发明一些实施例，在所述训练方法中，生成用于对大模型提问的自然语言问题时，先生成基础问题，然后基于基础问题生成其一个或多个衍生问题，基础问题与其衍生问题在内容上实质相同但具有不同表述方式。

本发明一些实施例中，在所述训练方法中，生成的逻辑任务流是按照解答自然语言问题的业务逻辑通过撰写获得的并且是由一个或多个数据调用处理逻辑任务组成的任务流，每个数据调用处理逻辑任务对应一个预定义的数据查询逻辑任务，该预定义的数据查询逻辑任务是根据解答自然语言问题的业务逻辑从预定义的数据查询逻辑任务中选择的，数据调用处理逻辑任务采用所选的预定义数据查询逻辑任务查询数据类数据，并对查询到的数据类数据进行数据处理；所述数据处理是数据源API支持的数据处理。

工作流数据字段集合至少包括逻辑任务流中每一步数据调用处理逻辑任务对应的数据字段，逻辑任务流中每一步数据调用处理逻辑任务对应的数据字段是该步对应的数据查询逻辑任务查询的数据类中的所有数据字段。

生成的数据源API工作流是通过撰写获得的与逻辑任务流对应的、对自然语言问题进行解答的数据源API执行代码，逻辑任务流中的每个数据调用处理逻辑任务对应一段数据源API执行代码，每段数据源API执行代码按照对应的数据调用处理逻辑任务的任务内容，从工作流数据字段集合中选取数据字段进行查询，并对查询到的数据进行数据处理，数据源API执行代码根据数据源API的预定义进行编写。

本发明一些实施例中，所述数据源的数量是一个或者多个，所述数据源的类型是多种，包括结构化数据库和非结构化数据库。

实施例1

本实施例用于详细说明本发明的基于大模型的问答会话数据调用处理方法。如图1所示，本实施例中的基于大模型的问答会话数据调用处理方法，包括：

S100，确定问答会话的数据源，并获取数据源的预定义；所述数据源的预定义是根据数据源的数据而预定义的数据类、数据查询逻辑任务和数据源API。

优选地，数据类定义至少包括数据类名称和数据字段描述，数据类名称和数据字段描述的定义采用自然语言定义并且具有自然语言含义，数据类名用于唯一确定数据类，数据字段描述采用自然语言唯一确定的数据字段名称进行列举。

数据查询逻辑任务是对一个数据类进行查询的逻辑任务，是后续生成数据调用处理逻辑任务的基础任务，数据查询逻辑任务的定义至少包括查询任务名称和查询任务描述，查询任务名称和查询任务描述采用自然语言定义并且具有自然语言含义，查询任务名称用于唯一确定数据查询逻辑任务，查询任务描述用于定义数据查询逻辑任务的任务内容，优选地，任务名称是作为查询对象的数据类的数据类名称。

数据源API是对应于数据源的应用程序接口，数据源API的定义至少包括API功能说明、变量、API名称和输入参数，API功能说明用于描述数据源API的功能，采用自然语言并且具有自然语言含义，变量用于存储执行数据源API的结果，API名称用于唯一确定数据源API，输入参数是使用时输入数据源API的参数。数据源API的定义是根据对应的数据源应用程序接口执行代码的区分来定义的，每个数据源API对应一种实际程序执行代码。

本发明采用数据类来表征单个数据源中具有相同属性的一个或多个数据字段的集合，一方面，对数据源进行了降维有利于大模型准确理解数据源中的数据内容，进而大模型能准确完成对数据源中数据的调用处理；另一方面，明确了大模型问答会话中进行数据调用处理的数据源并且限定了数据范围，使大模型深入理解数据源，提高了大模型训练阶段的训练效率和应用阶段的调用处理速度，从而为提高大模型问答会话中数据调用处理的准确性和效率打下坚实的基础。

本发明通过预定义数据查询逻辑任务，一方面限定了大模型选择数据源及其数据查询逻辑任务的范围，另一方面降低大模型理解自然语言问题和数据查询逻辑任务之间关系的难度，从而在大模型生成逻辑任务流时，提高准确性和效率。

本发明通过预定义数据源API，一方面限定了大模型选择数据源API的范围，另一方面降低大模型理解逻辑任务流中的任务和数据源API之间关系的难度，在大模型生成数据调用处理API工作流时，提高准确性和效率。

有必要说明的是，本发明的数据源可以是单一数据源，也可以是多个同类数据源，例如多个SQL数据库，还可以是多个异类数据源，例如，一个SQL数据库和一个ES数据库。特别是对于数据源数量为多个、类型为多种的情况，本发明方法对每个数据源分别进行预定义，使本发明方法不受数据源数量和类型的限制，也不需要数据源之间必须存在关联关系，只需数据源能够通过对应的API进行调用处理。此外，数据字段的边界不需要极度明确，同一个数据字段可以同时属于不同数据类，即数据类与数据字段的关系可以是一对多的关系，还可以是多对多的关系。

下面具体对本实施例的预定义进行说明。预定义数据类具体地定义如下所示：

数据库A数据类预定义：

企业所获荣誉、获奖名称、上市企业标识、上市板块、股票代码归类为企业经营信息；

技术产品代码、技术产品名称、最初成果年份、最新成果年份描述归类为企业的产品技术信息；

企业名称、企业ID、企业成立日期、企业标识归类为企业注册信息；

（省略之后预定义）

本实施例中，定义数据查询逻辑任务的具体方式采用“[查询任务名称]：查询任务描述”的格式，其中，查询任务名称采用作为查询对象的数据类名称，直接从查询任务名称能获知数据查询逻辑任务与数据类的对应关系，具体地例如：

数据库A数据查询逻辑任务预定义：

[企业注册信息]:查询企业注册信息；

[企业经营信息]:查询企业经营信息；

[企业产品技术信息]:查询企业产品技术信息；

[企业专利申请信息]:查询专利申请信息；

（省略之后预定义）

本实施例中，预定义数据源API具体如下：

SQL数据库A的API接口定义：A=SQL_Search1(sql1)

（省略之后预定义）

其中，“SQL数据库A的API接口定义”是API功能说明，SQL_Search1表示API名称，sql1是输入参数，对于SQL数据库，输入参数是放入SQL语法的语句，A表示变量，用于存储执行SQL_Search1（sql1）的结果。

S200，大模型接收输入的自然语言问题，判断回答所述自然语言问题是否需要调用数据源的数据。

本实施例中，具体地，接收输入的自然语言问题，判断S100中确定的数据源是否包含了回答输入的自然语言问题的数据，如果包含，则从输入的自然语言问题中提取对应的问题关键特征；如果不包含，则按照不调用数据的问答会话进行回答；其中，问题关键特征指的是实体名称、时间和地点。

自然语言问题是否能够通过调用数据源的数据进行回答，通过预训练的深度学习文本分类模型判断，深度学习文本采用标注数据进行预训练，深度学习文本分类模型可以采用卷积神经网络（CNN）、循环神经网络（RNN）、Transformer模型等，本发明对此并不作限定。

S300，如果需要调用数据源的数据，则提示大模型根据数据源的预定义，生成从数据源调用处理数据的工作流。

本实施例中，提示大模型根据数据源的预定义，生成从数据源调用处理数据的工作流，包括：

提示（prompt）所述大模型，采用所述数据类、数据查询逻辑任务，针对输入的自然语言问题及其问题关键特征生成解答输入的自然语言问题的逻辑任务流；其中，逻辑任务流是按照解答自然语言问题的业务逻辑生成的一个或多个数据调用处理逻辑任务组成的任务流；

提示所述大模型，采用所述的预定义数据源API、所述大模型生成的逻辑任务流和工作流数据字段集合，生成对应的数据源API工作流，作为从所述数据源调取数据的工作流。

本实施例中，大模型生成的数据调用处理逻辑任务包括调用处理任务名称和调用处理任务描述，调用处理任务名称和调用处理任务描述采用自然语言定义并且具有自然语言含义，调用处理任务名称用于唯一确定数据调用处理逻辑任务。优选的，调用处理任务名称采用其对应的数据查询逻辑任务的查询任务名称，直接从调用处理任务名称能获知数据调用处理逻辑任务与数据查询逻辑任务的对应关系；调用处理任务描述用于定义数据调用处理逻辑任务的任务内容，即采用预定义数据查询逻辑任务查询数据类数据并对查询到的数据类数据进行数据处理的具体内容，所述数据处理是对应的数据源API支持的数据处理，例如，对数据的筛选、比较、排序、求和、求平均值、求最大值、计数等等，数据源API支持的数据处理根据数据源API的API功能说明得到。

本实施例中，优选的，工作流数据字段集合还包括从逻辑任务流需调用的每个数据源的全部数据字段中选择的、与自然语言问题相似度大于相似度阈值的数据字段，补充解答自然语言问题的数据字段，弥补数据段降维后可能引起的误差。相似度阈值根据经验值设定，并且可以在应用训练时调整，可以设定为50%-80%中的任意值，例如50%、55%、67%等。

本实施例中，自然语言问题与数据字段的相似度是采用自然语言问题的向量编码和数据字段的向量编码计算的余弦相似度。本发明一些实施例中，向量编码的计算采用sentence-transformer技术，使用M3E模型，M3E是一个开源的中文嵌入模型，将一段文本输入，即可得到它的向量编码。

S400，按照大模型生成的工作流，完成数据调用处理；

S500，根据数据调用处理结果，大模型生成回答输入的自然语言问题的答案。

具体地，对输入的自然语言问题进行回答，一种方式是大模型自己组织语言根据数据源API工作流执行后得到的结果进行回答，另一种方式通过提示大模型回答格式的方式，由大模型组织语言进行回答。以本实施例中得到数据源API工作流为例，后一种回答方式如下所示：

Prompt Q0:

回答<自然语言问题X>，请采用如下格式：

<对自然语言问题X的回答>={"首次获取技术专利的时间":A["最初成果年份"],"最近一次获取技术专利的时间":A["最新成果年份"]}

其中，从上述示例可知，通过提示大模型，对自然语言问题的回答会更加规范。

本发明的一些实施例中，大模型是ChatGPT、PaLM2等进行问答会话的大模型，可根据实际需求选取。

本实施例中，训练所述大模型的方法如图2所示，包括：

S10，确定问答会话时所需的数据源，对数据源进行预定义，包括数据类、数据查询逻辑任务和数据源API；训练所采用的数据源的预定义与应用大模型时的相同，准确性和效率会更高；

S20，生成用于对大模型提问的自然语言问题，并且从得到的自然语言问题提取对应的问题关键特征；其中，自然语言问题的边界是其答案所要求的数据在数据源能够提供的数据范围内，可以生成后人为判断，也可以生成后通过预训练的深度学习文本分类模型判断；生成用于对大模型提问的自然语言问题时，先生成基础问题，然后基于基础问题生成其一个或多个衍生问题，基础问题与其衍生问题在内容上实质相同但具有不同表述方式；问题关键特征指的是实体名称、时间和地点。

本发明一些实施例中，生成自然语言问题的衍生问题的具体方式是：基于自然语言语法规则撰写自然语言问题模板，然后列举自然语言问题中实体名称、时间和地点，最后进行实体名称、时间和地点的排列组合得到一个自然语言问题的多种表述方式。

自然语言问题模版的示例如下：

[请问?]<公司>~[firsttime]以及~[lasttime]~[is_what?]

~[firsttime]

\t首次获取技术专利的时间

\t最初成果时间

\t最初成果

\t最初获取技术专利时间

~[lasttime]

\t最近一次获取技术专利的时间

\t最新获取技术专利的时间

\t最新成果时间

\t最新成果

~[is_what]

\t是什么

\t是什么时候

\t是什么时间

上述自然语言问题模板的规则包括：

规则1：列举基础问题的句式。

规则2：切分基础问题句式的语气词、名词等可变词汇，将其用占位符替代，如例子中的~[firsttime]、~[lasttime]和~[is_what]。

规则3：对规则2中的占位符，写出这个占位符代表的关键词有哪些不同的表述方式。例如，可见，~[is_what]是占位符，他在这个问法中的表示方式可以是：是什么、是什么时候、是什么时间。

可见，在上述示例中占位符选的越多，占位符的表述方式写的越多，生成的同一个基础问题的表述方式数量也越多。

需要说明的是，上文中提到实体名称，指的是人名、地名、机构名等专有名词。在信息处理或搜索引擎优化等领域，实体名称用于标识特定的对象，帮助系统理解和处理信息。实体名称通常是具体的、无歧义的，能够独立地代表一个特定的对象或概念。例如，"苹果"可以是一种水果，也可以是一家公司的名称。但当我们说"苹果公司"或"iPhone"（这是苹果公司的产品）时，就已经明确地指出了实体是什么，它们分别代表了具体的一个公司和一个产品。这就是实体名称的作用。

S30，遍历生成的所有自然语言问题，基于预定义数据类、数据查询逻辑任务和数据源API，分别生成与每个自然语言问题的解答相对应的逻辑任务流、工作流数据字段集合和数据源API工作流；优选地，基础问题和其衍生问题可以使用相同的对应的一套逻辑任务流、工作流数据字段集合和数据源API工作流。

其中，第一，生成的逻辑任务流是按照解答自然语言问题的业务逻辑通过撰写而获得的并且是由一个或多个数据调用处理逻辑任务组成的任务流，每个数据调用处理逻辑任务对应一个预定义的数据查询逻辑任务，该预定义的数据查询逻辑任务是根据解答自然语言问题的业务逻辑从预定义的数据查询逻辑任务中选择的，数据调用处理逻辑任务采用所选的预定义数据查询逻辑任务查询数据类数据，并对查询到的数据类数据进行数据处理，例如，筛选、比较、排序、求和、求平均值、求最大值、计数等等数据源API支持的数据处理，数据源API支持的数据处理根据数据源API的API功能说明得到。

本实施例的大模型训练阶段和应用阶段一样，数据调用处理逻辑任务包括调用处理任务名称和调用处理任务描述，调用处理任务名称和调用处理任务描述采用自然语言定义并且具有自然语言含义，调用处理任务名称用于唯一确定数据调用处理逻辑任务。同样优选的，调用处理任务名称采用其对应的数据查询逻辑任务的查询任务名称，直接从调用处理任务名称能获知数据调用处理逻辑任务与数据查询逻辑任务的对应关系；调用处理任务描述用于定义数据调用处理逻辑任务的任务内容，即采用预定义数据查询逻辑任务查询数据类数据并对查询到的数据类数据进行数据处理的具体内容，所述数据处理是对应的数据源API支持的数据处理。

第二，工作流数据字段集合至少包括逻辑任务流中每一步数据调用处理逻辑任务对应的数据字段，逻辑任务流中每一步数据调用处理逻辑任务对应的数据字段是该步对应的数据查询逻辑任务查询的数据类中的所有数据字段；优选地，工作流数据字段集合还包括从逻辑任务流需调用的每个数据源的全部数据字段中选择的、与自然语言问题相似度大于相似度阈值的数据字段；相似度阈值根据经验值设定。

本实施例的训练方法中，逻辑任务流中每一步数据调用处理逻辑任务对应的数据字段是根据该步数据调用处理逻辑任务对应的数据类的预定义以及要解答的自然语言问题直接撰写。

本发明另一些实施例中，自然语言问题与数据字段的相似度是采用自然语言问题的向量编码和数据字段的向量编码计算的余弦相似度。向量编码的计算可采用sentence-transformer技术，使用M3E模型，M3E是一个开源的中文嵌入模型，将一段文本输入，即可得到它的向量编码。

第三，生成的数据源API工作流是与逻辑任务流对应的、对自然语言问题进行解答的数据源API执行代码，逻辑任务流中的每个数据调用处理逻辑任务对应一段数据源API执行代码，每段数据源API执行代码按照对应的数据调用处理逻辑任务的任务内容，从工作流数据字段集合中选取数据字段进行查询，并对查询到的数据进行数据处理，数据源API执行代码根据数据源API的预定义进行编写。

本发明基于预定义的数据类、数据查询逻辑任务和数据源API，分别撰写与每个自然语言问题的解答相对应的逻辑任务流、工作流数据字段集合和数据源API工作流用于大模型的训练，保证大模型解答自然语言问题和生成执行代码的准确性和有效性。优选的，撰写逻辑任务流和数据源API工作流采用python代码语法，训练出的大模型能更准确有效的生成逻辑任务流和数据源API工作流。

例如，本实施例中，对于问题“请问A公司首次获取技术专利的时间以及最近一次获取技术专利的时间是什么”生成的逻辑任务流、工作流数据字段集合、和API工作流的示例如下：

task1={"企业产品技术信息":"查询A公司的最初成果年份和最新成果年份"}

task1对应的数据字段：{技术产品代码、技术产品名称、最初成果年份、最新成果年份}

<自然语言问题X>的相关数据字段：{企业名称、企业ID、企业成立日期、企业标识、最初成果年份、最新成果年份}

A=SQL_Search1(sql1="select 最初成果年份,最新成果年份 from 数据源Awhere 企业名称=A公司")

S40,将数据类、数据查询逻辑任务、数据源API作为大模型训练的预定义输入数据，将自然语言问题及其对应的问题关键特征、工作流数据字段集合作为大模型训练的问题输入数据，将解答对应自然语言问题的逻辑任务流和数据源API工作流作为大模型训练的答案输出数据，由预定义输入数据、问题输入数据和答案输出数据组成大模型训练数据集对大模型进行训练，训练大模型生成解答自然语言问题的逻辑任务流和数据源API工作流，其中，数据源API工作流是与逻辑任务流对应的、对自然语言问题进行解答的数据源API执行代码。

本发明通过训练训练大模型生成解答自然语言问题的逻辑任务流和数据源API工作流，使被训练的大模型具有问答会话中数据调用处理能力。

本实施例中的训练阶段，训练大模型生成解答自然语言问题的逻辑任务流和数据源API工作流可以采用并行方式生成，即采用所述数据类、数据查询逻辑任务，针对输入的自然语言问题及其问题关键特征生成解答输入的自然语言问题的逻辑任务流，同时，采用所述的预定义数据源API、逻辑任务流和工作流数据字段集合，生成对应的数据源API工作流。本发明另一些实施例中，大模型生成解答自然语言问题的逻辑任务流和数据源API工作流是先后生成的，即步骤一根据采用所述数据类、数据查询逻辑任务，针对输入的自然语言问题及其问题关键特征生成解答输入的自然语言问题的逻辑任务流确定工作流数据字段集合，步骤二，采用所述的预定义数据源API、逻辑任务流和工作流数据字段集合，生成对应的数据源API工作流。前者节省训练时间、效率高。

本实施例中，分步骤训练大模型的训练数据示例如下所示：

你是一个智能AI助手，可以查询数据源<SQL数据库A>和<SQL数据库B>，请根据数据源预定义的数据类、数据查询逻辑任务和数据源API选择最合适的任务，并以任务序号={数据调用处理任务名称:数据调用处理任务描述}的格式生成回答<自然语言问题X>相应的逻辑任务流，

预定义的数据类：

<SQL数据库A>:技术产品代码、技术产品名称、最初成果年份、最新成果年份描述归类为企业的产品技术信息；

（省略之后预定义）

<SQL数据库B>：

企业名称、企业ID、企业成立日期、瞪羚企业标识归类为企业注册信息；

（省略之后预定义）

预定义数据查询逻辑任务：

<SQL数据库A>

[企业产品技术信息]:查询企业产品技术信息；

（省略之后预定义）

<SQL数据库B>

[企业注册信息]:查询企业注册信息；

[企业经营信息]:查询企业经营信息；

（省略之后预定义）

预定义数据源API：

SQL数据库A的API接口：A=SQL_Search1(sql1),A是变量，SQL_Search1是API名称，输入参数是SQL语句sql1，

SQL数据库B的API接口：B=SQL_Search2(sql2),B是变量，SQL_Search2是API名称，输入参数是SQL语句sql2，

（省略之后预定义）

<自然语言问题X>:请问A公司首次获取技术专利的时间以及最近一次获取技术专利的时间是什么？

<逻辑任务流>:

task1={<SQL数据库A>"企业产品技术信息":"查询A公司的最初成果年份和最新成果年份"}

你是一个智能AI助手，你可以从<工作流数据字段集合>选择数据字段，使用对应预定义数据源API-SQL_Search1，并根据<自然语言问题X>和解答该问题的<逻辑任务流>生成解答<自然语言问题X>的数据源API工作流，其中

<自然语言问题X>:请问A公司首次获取技术专利的时间以及最近一次获取技术专利的时间是什么

<逻辑任务流>:

<工作流数据字段集合>:

回答Prompt Q2:

<工作流>:

A= SQL_Search(sql1="select 最初成果年份,最新成果年份 from 数据源Awhere 企业名称=A公司")

从上述示例可知，本实施例中，优选地，数据查询逻辑任务的查询任务名称及其对应的数据调用处理任务的调用处理任务名称都采用作为它们操作对象的数据类名称。

上述示例仅仅是示意性的说明本发明的发明构思，而不是对本发明的发明构思进行限定。本领域技术人员根据本发明的发明构思还能构造其他方式的训练数据对大模型进行训练以便调用数据源数据对其他特定的自然语言问题进行解答。

此外，在训练过程中，如果训练不能收敛，可调整训练数据后重新进行训练以便训练出符合要求的大模型。在应用过程中，如果采用了新的数据源，或者大模型输出的结果有错误和偏差，也可以调整训练数据重新训练大模型。调整训练数据包括调整预定义数据类、数据查询逻辑任务和数据源API，以及调整自然语言问题及解答自然语言问题的逻辑任务流和数据源API工作流。本发明可以通过判断逻辑任务流是否正确合理判断对应数据源API工作流是否正确合理，从而便于对训练数据进行调整，也便于应用阶段对回答进行溯源，及时发现问题并调整。

本发明方法不受自然语言语种的限制，能够对各类自然语言生成正确、可靠的数据调用处理API工作流，并能实现对复杂的多个数据源同时进行查询，生成的数据调用处理API工作流不同于现有技术中简单SQL语句，而是能够满足多样化数据处理调用需求的多步骤数据调用处理API工作流。

实施例2

本发明于一实施例中提供了一种电子设备，如图3所示，所述电子设备包括至少一个处理器，以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述基于大模型的问答会话数据调用处理方法。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以通过接口将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的。接口在总线和收发机之间提供接口，例如通信接口、用户接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

实施例3

本发明于一实施例中提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述基于大模型的问答会话数据调用处理方法。

本领域技术人员通过上述说明可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备（可以是单片机，芯片等）或处理器（processor）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括但不限于U盘、移动硬盘、磁性存储器、光学存储器等各种可以存储程序代码的介质。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种基于大模型的问答会话数据调用处理方法，其特征在于包括：

确定问答会话的数据源，并获取数据源的预定义；

按照大模型生成的工作流，完成数据调用处理；

根据数据调用处理结果，大模型生成回答输入的自然语言问题的答案；

所述数据源的预定义是根据数据源的数据而预定义的数据类、数据查询逻辑任务和数据源API；其中，数据类是单个数据源中具有相同属性的一个或多个数据字段的集合，数据查询逻辑任务是对一个数据类进行查询的逻辑任务，数据源API是对应于数据源的应用程序接口；数据类、数据查询任务和数据源API全部或部分采用自然语言定义并具有大模型能理解的含义；

提示大模型根据数据源的预定义，生成从数据源调用处理数据的工作流，包括：

2.如权利要求1所述的基于大模型的问答会话数据调用处理方法，其中，

工作流数据字段集合还包括从逻辑任务流需调用的每个数据源的全部数据字段中选择的、与自然语言问题相似度大于相似度阈值的数据字段；相似度阈值根据经验值设定。

3.如权利要求1所述的基于大模型的问答会话数据调用处理方法，其中，所述大模型采用如下训练方法得到：

生成用于对大模型训练的自然语言问题，并且从得到的自然语言问题提取对应的问题关键特征；

将数据类、数据查询逻辑任务、数据源API和作为大模型训练的预定义输入数据，将自然语言问题及其对应的问题关键特征、工作流数据字段集合作为大模型训练的问题相关输入数据，将解答对应自然语言问题的逻辑任务流和数据源API工作流作为大模型训练的答案输出数据，由预定义输入数据、问题相关输入数据和答案输出数据组成大模型训练数据集对大模型进行训练，训练大模型自动生成解答自然语言问题的逻辑任务流和数据源API工作流，其中，数据源API工作流是与逻辑任务流对应的、对自然语言问题进行解答的数据源API执行代码。

4.如权利要求3所述的基于大模型的问答会话数据调用处理方法，其中，在所述训练方法中，

生成用于对大模型提问的自然语言问题时，先生成基础问题，然后基于基础问题生成其一个或多个衍生问题，基础问题与其衍生问题在内容上实质相同但具有不同表述方式。

5.如权利要求3所述的基于大模型的问答会话数据调用处理方法，其中，在所述训练方法中，

生成的逻辑任务流是按照解答自然语言问题的业务逻辑通过撰写获得的并且是由一个或多个数据调用处理逻辑任务组成的任务流，每个数据调用处理逻辑任务对应一个预定义的数据查询逻辑任务，该预定义的数据查询逻辑任务是根据解答自然语言问题的业务逻辑从预定义的数据查询逻辑任务中选择的，数据调用处理逻辑任务采用所选的预定义数据查询逻辑任务查询数据类数据，并对查询到的数据类数据进行数据处理；所述数据处理是数据源API支持的数据处理；

工作流数据字段集合至少包括逻辑任务流中每一步数据调用处理逻辑任务对应的数据字段，逻辑任务流中每一步数据调用处理逻辑任务对应的数据字段是该步对应的数据查询逻辑任务查询的数据类中的所有数据字段；

6.如权利要求1-5任一项所述的基于大模型的问答会话数据调用处理方法，其中，所述数据源的数量是多个，所述数据源的类型是多种。

7.一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有能被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-6中任一项所述的基于大模型的问答会话数据调用处理方法。

8.一种计算机可读存储介质，存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的基于大模型的问答会话数据调用处理方法。