CN117112767A

CN117112767A - 问答结果生成方法和商业查询大模型训练方法、及装置

Info

Publication number: CN117112767A
Application number: CN202311219873.7A
Authority: CN
Inventors: 唐虎; 王云龙; 张博; 程思; 唐扬; 鲍立胜
Original assignee: Beijing Jindi Technology Co Ltd
Current assignee: Beijing Jindi Technology Co Ltd
Priority date: 2023-09-20
Filing date: 2023-09-20
Publication date: 2023-11-24

Abstract

本发明公开了一种问答结果生成方法和商业查询大模型训练方法、及装置。该方法包括：用户输入第一商业查询信息，获取查询时间；提取查询时间之前预设时间段内预设数量的历史问答信息；对第一商业查询信息进行实体识别得到对应的实体识别结果；若实体识别结果中包括实体名称和实体身份标识，将第一商业查询信息、实体识别结果和历史问答信息输入商业查询大模型确定主实体并在确定主实体对应的场景意图标签为商业数据查询场景意图标签时生成调用链；根据调用链从预设商业查询数据库中提取目标数据；利用商业查询大模型对目标数据进行分析处理，生成问答结果并显示。本发明的方法及装置能够精准地解析出用户的真实意图，并快速、准确地返回问答结果。

Description

问答结果生成方法和商业查询大模型训练方法、及装置

技术领域

本发明涉及人工智能技术领域，具体地，涉及一种问答结果生成方法和商业查询大模型训练方法、及装置。

背景技术

企业需要搜集和分析商业信息，为企业在法务、财务、业务等方面提供建议和决策，但聘请可靠的高级人才搜集和分析商业信息，会给企业带来高成本投入。通常，企业需要以低成本获取可靠、可信的商业助理服务。人工智能(英文全称：ArtificialIntelligence，英文简称：AI)商业助理是满足企业主此类需求的可行途径，通过对话交互提供信息获取能力。

随着人工智能技术的迅速发展，利用大模型实现AI商业助理已经成为商业界的一项重要技术探索。AI商业助理是一种能够通过自然语言处理、机器学习、大模型技术，为用户提供商业建议、信息查询和问题解答等服务的智能助理。

自然语言处理(英文全称：Natural Language Processing，英文简称：NLP)技术的不断进步为AI商业助理的实现提供了基础；大规模数据集和预训练模型的出现为实现AI商业助理提供了强大的支持。通过在大规模的文本数据集上进行预训练，可以得到具备丰富语言知识的模型。这些预训练模型能够学习到词汇、语法、语义和推理等多种语言特征，使其具备更好的语义理解和表达能力。预训练模型如GPT系列已经在自然语言处理任务中取得了巨大成功，可以被用作构建AI商业助理的基础。

AI商业助理的成功实现还需要将领域知识融入模型中。领域知识包括特定行业或领域的专业术语、业务流程、常见问题等信息。通过将领域知识与大模型结合，可以提高助理在特定领域内的问题解答和商业建议的准确性和可靠性。这可以通过人工标注的数据集、领域专家的知识和领域特定的语义解析技术来实现。

但是，现有技术中缺少一种能够精准地解析出用户的真实意图，并快速、准确地返回问答结果的问答结果生成方法和商业查询大模型训练方法、及装置。

发明内容

本发明的目的是提供一种问答结果生成方法和商业查询大模型训练方法、及装置，以解决相关技术中存在的上述问题。

根据本发明的第一方面，提供了一种问答结果生成方法，该方法包括：

用户输入第一商业查询信息，获取第一商业查询信息的查询时间；

提取查询时间之前预设时间段内预设数量的历史问答信息；其中，历史问答信息包括历史商业查询信息和历史问答结果；

对第一商业查询信息进行实体识别，得到对应的实体识别结果；

若实体识别结果中包括至少一对实体名称和实体身份标识，将第一商业查询信息、实体识别结果和历史问答信息输入预先训练的商业查询大模型进行分析处理，确定第一商业查询信息中的主实体，并在确定主实体对应的场景意图标签为商业数据查询场景意图标签时，生成包括商业数据查询场景意图标签的调用链；

根据调用链，从预设商业查询数据库中提取目标数据；

利用商业查询大模型对目标数据进行分析处理，生成第一商业查询信息的问答结果并进行显示。

可选地，该方法还包括：

若实体识别结果中不包括任意一对实体名称和实体身份标识，对第一商业查询信息进行意图识别，得到意图识别结果，其中，意图识别结果包括策略身份标识或者应用身份标识；

根据意图识别结果，生成第一商业查询信息的问答结果并进行显示。

可选地，该方法还包括：

构建标注数据集，其中，标注数据集包括第二商业查询信息、与第二商业查询信息对应的场景意图标签、与场景意图标签对应的数据库表和调用链返回结果；

将第二商业查询信息、场景意图标签、数据库表和调用链返回结果输入商业查询大模型中进行数据微调训练，得到一级训练结果和经过一级训练的商业查询大模型；

将一级训练结果输入经过一级训练的商业查询大模型进行奖励训练，得到二级训练结果和经过二级训练的商业查询大模型；

将二级训练结果输入经过二级训练的商业查询大模型进行校准训练，得到训练完成的商业查询大模型。

可选地，该方法还包括：

在确定主实体对应的场景意图标签为商业查询应用场景意图标签时，以商业查询应用场景意图标签作为索引标识，从预设应用数据库的数据库表中查找到对应的应用程序接口身份标识；

根据应用程序接口身份标识，查询到对应的应用跳转链接，并将应用跳转链接作为第一商业查询信息的问答结果进行显示。

可选地，根据调用链，从预设商业查询数据库中提取目标数据，包括：

获取调用链中的数据执行逻辑和商业数据查询场景意图标签；

基于数据执行逻辑中的执行规则，以商业数据查询场景意图标签作为索引标识，从预设商业查询数据库的数据库表中查找到对应的应用程序接口；

调用应用程序接口，得到对应的目标数据。

根据本发明的第二方面，提供了一种商业查询大模型训练方法，该方法包括：

根据本发明的第三方面，提供了一种问答结果生成装置，该装置包括：中央控制模块、实体识别模块和商业查询大模型；其中，

中央控制模块，用于用户输入第一商业查询信息，获取第一商业查询信息的查询时间，并提取查询时间之前预设时间段内预设数量的历史问答信息，其中，历史问答信息包括历史商业查询信息和历史问答结果；接收商业查询大模型发送的调用链，根据调用链，从预设商业查询数据库中提取目标数据；以及，接收商业查询大模型发送的第一商业查询信息的问答结果并进行显示；

实体识别模块，用于接收中央控制模块发送的第一商业查询信息，对第一商业查询信息进行实体识别，得到对应的实体识别结果，并将实体识别结果发送至中央控制模块；

商业查询大模块，用于接收中央控制模块发送的第一商业查询信息、实体识别结果和历史问答信息，若实体识别结果中包括至少一对实体名称和实体身份标识，将第一商业查询信息、实体识别结果和历史问答信息输入预先训练的商业查询大模型进行分析处理，确定第一商业查询信息中的主实体，并在确定主实体对应的场景意图标签为商业数据查询场景意图标签时，生成包括商业数据查询场景意图标签的调用链；以及，接收中央控制模块发送的目标数据，利用商业查询大模型对目标数据进行分析处理，生成商业查询信息的问答结果。

可选地，商业查询大模型还用于：若实体识别结果中不包括任意一对实体名称和实体身份标识，对第一商业查询信息进行意图识别，得到意图识别结果，其中，意图识别结果包括策略身份标识或者应用身份标识；以及，根据意图识别结果，生成第一商业查询信息的问答结果并进行显示。

可选地，商业查询大模型还用于：构建标注数据集，其中，标注数据集包括第二商业查询信息、与第二商业查询信息对应的场景意图标签、与场景意图标签对应的数据库表和调用链返回结果；将第二商业查询信息、场景意图标签、数据库表和调用链返回结果输入商业查询大模型中进行数据微调训练，得到一级训练结果和经过一级训练的商业查询大模型；将一级训练结果输入经过一级训练的商业查询大模型进行奖励训练，得到二级训练结果和经过二级训练的商业查询大模型；以及，将二级训练结果输入经过二级训练的商业查询大模型进行校准训练，得到训练完成的商业查询大模型。

可选地，中央控制模块还用于：接收商业查询大模型发送的商业查询应用场景意图标签，以商业查询应用场景意图标签作为索引标识，从预设应用数据库的数据库表中查找到对应的应用程序接口身份标识；以及，根据应用程序接口身份标识，查询到对应的应用跳转链接，并将应用跳转链接作为第一商业查询信息的问答结果进行显示。

可选地，中央控制模块进一步包括：信息获取模块、数据提取模块和显示模块；其中，

信息获取模块，用于用户输入第一商业查询信息，获取第一商业查询信息的查询时间，并提取查询时间之前预设时间段内预设数量的历史问答信息，其中，历史问答信息包括历史商业查询信息和历史问答结果；

数据提取模块，用于接收商业查询大模型发送的调用链，获取调用链中的数据执行逻辑和商业数据查询场景意图标签；基于数据执行逻辑中的执行规则，以商业数据查询场景意图标签作为索引标识，从预设商业查询数据库的数据库表中查找到对应的应用程序接口；以及，调用应用程序接口，得到对应的目标数据；

显示模块，用于接收商业查询大模型发送的第一商业查询信息的问答结果并进行显示。

根据本发明的第四方面，提供了一种商业查询大模型训练装置，该装置包括：数据构建模块、微调训练模块、奖励训练模块和校准训练模块；其中，

数据构建模块，用于构建标注数据集，其中，标注数据集包括第二商业查询信息、与第二商业查询信息对应的场景意图标签、与场景意图标签对应的数据库表和调用链返回结果；

微调训练模块，用于将第二商业查询信息、场景意图标签、数据库表和调用链返回结果输入商业查询大模型中进行数据微调训练，得到一级训练结果和经过一级训练的商业查询大模型；

奖励训练模块，用于将一级训练结果输入经过一级训练的商业查询大模型进行奖励训练，得到二级训练结果和经过二级训练的商业查询大模型；

校准训练模块，用于将二级训练结果输入经过二级训练的商业查询大模型进行校准训练，得到训练完成的商业查询大模型。

根据本发明的第五方面，提供了一种电子设备，该电子设备包括：

存储器，其上存储有计算机程序；

处理器，用于执行存储器中的所述计算机程序，以实现上述方法的步骤。

根据本发明的第六方面，提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述方法的步骤。

本发明提供的问答结果生成方法和商业查询大模型训练方法、及装置，具有如下有益效果：

(1)利用场景意图标签等对商业查询大模型进行标签化训练，为后续商业查询大模型的调用减少压力和资源消耗，并且保证了输出结果的可靠性和一致性；

(2)利用商业查询大模型中的自然语言理解能力、思维链推理能力，精准地解析出用户的真实意图，并快速、准确地返回问答结果；

(3)采用人工智能与用户进行交互问答，缩短了用户搜集和分析商业查询信息的路径。

本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1为本发明提供的问答结果生成方法的一流程示意图；

图2为本发明提供的问答交互界面的一示意图；

图3为本发明提供的问答结果生成方法的另一流程示意图；

图4为本发明提供的问答结果生成方法的又一流程示意图；

图5为本发明提供的商业查询大模型训练方法的一流程示意图；

图6为本发明提供的问答结果生成装置的一模块结构示意图；

图7为本发明提供的商业查询大模型训练装置的一模块结构示意图；

图8为本发明实施例提供的电子设备的结构示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

需要说明的是，在本发明中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序；术语“S101”、“S102”、“S201”、“S202”等用于区别步骤，而不必理解为按照特定的顺序或先后次序执行方法步骤；下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。另外，本发明中的多个包括两个及两个以上，有特殊说明除外。

示例性方法

图1为本发明提供的问答结果生成方法的一流程示意图，如图1所示，该方法可应用于电子设备，其包括：

步骤S101：用户输入第一商业查询信息，获取第一商业查询信息的查询时间；

在本发明中，用户可以通过交互界面输入任意的信息作为第一商业查询信息，此处不做限定。其中，若用户输入的第一商业查询信息中包括至少一个实体，则该第一商业查询信息被归类为商业查询信息；若用户输入的第一商业查询信息中不包括任何实体，则该第一商业查询信息被归类为非商业查询信息。需要说明的是，本发明中的实体是指企业和个人。

在一种可选实施方式中，在用户输入第一商业查询信息后，可通过查询代码日志中的查询时间标签对应的值来获取到用户输入的第一商业查询信息的查询时间。当然，对于获取第一商业查询信息的查询时间的方法，本领域技术人员可以根据实际需要灵活选择现有技术中的获取方法，此处不做限定。

步骤S102：提取查询时间之前预设时间段内预设数量的历史问答信息；其中，历史问答信息包括历史商业查询信息和历史问答结果；

可选地，预设时间段为4小时、8小时、12小时、24小时等，而预设数量为4条、6条、10条等，本领域技术人员可以根据实际需要灵活设定预设时间段和预设数量，此处不做限定。

具体地，如图2所示，用户在2023.08.21-17:00(即2023年8月21日17:00)输入了一条内容为“AA公司有行政处罚信息吗”的第一商业查询信息，因此，第一商业查询信息的查询时间为2023年8月21日17:00；若预设时间段为4小时且预设数量为4条，则以该查询时间为起点向前4小时内有2条历史问答信息，分别为：用户在2023.08.21-14:00(即2023年8月21日14:00)输入的一条内容为“AA公司的实际控制人是谁”的历史商业查询信息和电子设备(系统或装置)在2023.08.21-14:02(即2023年8月21日14:02)回答的一条内容为“BB是AA公司的实际控制人”的历史问答结果。

应当理解的是，若查询时间之前预设时间段内的历史问答信息的数量小于或者等于预设数量，则提取查询时间之前预设时间段内的全部历史问答信息；若查询时间之前预设时间段内的历史问答信息的数量大于预设数量，则提取预设数量的历史问答信息。

步骤S103：对第一商业查询信息进行实体识别，得到对应的实体识别结果；

在一种可选实施方式中，步骤S103中的实体识别方法采用RoBERTa模型结合CRF模型实现。其中，RoBERTa模型是BERT模型的改进版，英文名称：A Robustly OptimizedBERT，用于处理序列文本，并将序列文本映射为语义特征/表征；CRF模型(即条件随机场模型)，用于处理语义特征，计算实体标签。应当理解的是，本发明采用的实体识别方法可以为现有技术中的实体识别方法，本领域技术人员可以根据实际需要灵活选择，此处不做限定。

在本发明中，实体识别结果有两种：第一种，实体识别结果包括至少一对实体名称和实体身份标识(即实体id)，此种实体识别结果对应的第一商业查询信息被归类为商业查询信息；第二种，实体识别结果不包括任意一对实体名称和实体身份标识，此种实体识别结果对应的第一商业查询信息被归类为非商业查询信息。

举例地，若用户输入的第一商业查询信息为“天眼查的股东都有谁？”，按照步骤S103对第一商业查询信息“AAA公司的股东都有谁？”进行实体识别，得到的实体识别结果为“{实体名称：AAA科技有限公司，实体id：2318455639}。此种实体识别结果由于包括一对实体名称和实体身份标识，因此，其被归类为商业查询信息。

继续上述举例，若用户输入的第一商业查询信息为“天空好蓝”，按照步骤S103对第一商业查询信息“天空好蓝”进行实体识别，由于得到的实体识别结果中不包括任意一对实体名称和实体身份标识，因此，此种实体识别结果对应的第一商业查询信息被归类为非商业查询信息。

参照图3，由于实体识别结果有两种，因此，对于不同的实体识别结果，本发明采取不同的方法进行后续的分析处理，具体如步骤S104和步骤S104’。

步骤S104：若实体识别结果中包括至少一对实体名称和实体身份标识，将第一商业查询信息、实体识别结果和历史问答信息输入预先训练的商业查询大模型进行分析处理，确定第一商业查询信息中的主实体，并在确定主实体对应的场景意图标签为商业数据查询场景意图标签时，生成包括商业数据查询场景意图标签的调用链；

其中，调用链可包括：商业数据查询场景意图标签和数据执行逻辑。调用链结构、数据执行逻辑结构以及生成的调用链的输出结果结构可至少包括如表1、表2和表3所示的各项内容：

表1：调用链结构

表2：数据执行逻辑结构

表3：生成的调用链的输出结果结构

应当理解的是，用户输入的第一商业查询信息中实体数量可以为一个，也可以为多个。当用户输入的第一商业查询信息中的实体数量为一个时，经实体识别后，实体识别结果中包括一对实体名称和实体身份标识，此时，一对实体名称和实体身份标识都会输入商业查询大模型中，商业查询大模型直接将其作为主实体，进一步作为后续问答结果的输出依据；当用户输入的第一商业查询信息中的实体数量为多个时，经实体识别后，实体识别结果中包括多对实体名称和实体身份标识，此时，多对实体名称和实体身份标识都会输入商业查询大模型中，商业查询大模型会根据预先训练的学习能力，从多个实体中确定一个主实体作为后续问答结果的输出依据。

本发明的商业查询大模型的训练方法具体包括以下四个步骤：

步骤一：构建标注数据集，其中，标注数据集包括第二商业查询信息、与第二商业查询信息对应的场景意图标签、与场景意图标签对应的数据库表和调用链返回结果；

在本发明中，第二商业查询信息为预先采集的用户输入过的查询信息，如采集用户在商业信息查询平台输入过的搜索文本作为第二商业查询信息。

在本发明中，场景意图标签是对商业查询数据分类的高度抽象和概括，即场景意图标签是对第二商业查询信息分类的高度抽象和概括。对于场景意图标签，其为通过人工预先对第二商业查询信息进行解析而获得的，当然，本领域技术人员也可以根据实际需要灵活选择现有技术中的其他方法获得，此处不做限定。另外，与场景意图标签对应的数据库表也是由人工预先定义好的。

其中，场景意图标签包括四级场景意图标签，分别为一级维度身份标识、二级维度身份标识、字段名标识和字段参数标识。以对“天眼查的股东都有谁？”进行标注，得到的场景意图标签为：股权资本结构-股东信息-直接股东信息-工商登记股东，该场景意图标签对应的数据库表为资本库.投资信息。

在本发明中，调用链返回结果为通过人工编写的预先定义的流程或规则，利用其生成对应的操作步骤或函数调用序列。其中，调用链返回结果中包括有场景意图标签。

步骤二：将第二商业查询信息、场景意图标签、数据库表和调用链返回结果输入商业查询大模型中进行数据微调训练，得到一级训练结果和经过一级训练的商业查询大模型；

使用标注数据集对商业查询大模型进行微调训练，学习用户想要的包括有场景意图标签的调用链。该步骤不需要太多的微调数据，不需要穷举所有问题，因为大模型有足够强大的泛化能力，需要做的就是用少量的标记数据集，规范模型的数据，从而达到从第二商业查询信息中提取出包括有场景意图标签的调用链的目的。该步骤可以采用RLHF模型来实现。

步骤三：将一级训练结果输入经过一级训练的商业查询大模型进行奖励训练，得到二级训练结果和经过二级训练的商业查询大模型；

该步骤是将一级训练结果与预先存储的场景意图标签和调用链返回结果等进行比较，并将对比一致的结果作为二级训练结果输出。该步骤能够对商业查询大模型的输出结果(二级训练结果)进行标记纠正，作为奖励信号，商业查询大模型使用纠正后的数据训练一个Reward Model，目标是与场景意图标签和调用链返回结构对齐，以达到准确输出的目的。

步骤四：将二级训练结果输入经过二级训练的商业查询大模型进行校准训练，得到训练完成的商业查询大模型。

将二级训练结果输入给步骤三中的Reward Model进行打分，使用强化学习技术调整商业查询大模型的参数，以保证商业查询大模型的输出的准确性。

步骤S104’：若实体识别结果中不包括任意一对实体名称和实体身份标识，对第一商业查询信息进行意图识别，得到意图识别结果，其中，意图识别结果包括策略身份标识或者应用身份标识；根据意图识别结果，生成第一商业查询信息的问答结果并进行显示。

本发明所采用的实体识别方法是在现有技术的基础上，进一步引入了一个意图识别层。也就是说，本发明的实体识别方法为双层实体识别结构，分别为实体识别层和意图识别层，这种双层识别结构能够有效地对第一商业查询信息进行分类，从而根据不同的分类结果(商业查询信息或非商业查询信息)，对第一商业查询信息采取不同的分析处理方法，以为用户快速、准确地提供问答结果。

举例地，用户输入的第一商业查询信息为“小红，你好”，由于经过实体识别发现其不包括任何实体，故将其输出至意图识别层进行识别，但经识别发现其也不存在对应的应用身份标识，因此，会将其判定为问候用语，并查找对应的策略身份标识，从而输入问答结果，如回复用户“你好，您可以对某些公司的资本相关问题进行提问，天眼妹可以为您解答”。同理，若存在对应的应用身份标识，则将用户引导至应用身份标识对应的页面，如公司PK页面。

可选地，步骤S104还包括：

在本发明中，中央控制模块(也称为中控平台或中央控制平台)预先存储有场景意图标签、应用身份标识和跳转链接，且三者具有对应关系。在中央控制模块接收到商业查询大模型发送的商业查询应用场景意图标签后，首先以商业查询应用场景意图标签作为索引标识，从预设应用数据库的数据库表中查找到对应的应用程序接口身份标识；最后根据应用程序接口身份标识，查询到对应的应用跳转链接，并将应用跳转链接作为第一商业查询信息的问答结果进行显示。

其中，跳转链接可以为商业信息查询平台对应的任一页面对应的链接，如可以为商业信息查询平台的搜索主页面对应的链接、公司PK页面对应的链接等，此处不做限定。

步骤S105：根据调用链，从预设商业查询数据库中提取目标数据；

可选地，如图4所示，步骤S105具体包括：

步骤S1051：获取调用链中的数据执行逻辑和商业数据查询场景意图标签；

在本发明中，数据执行逻辑是指从预设商业查询数据库的数据表中提取数据的具体规则。

步骤S1052：基于数据执行逻辑中的执行规则，以商业数据查询场景意图标签作为索引标识，从预设商业查询数据库的数据库表中查找到对应的应用程序接口；

步骤S1053：调用应用程序接口，得到对应的目标数据。

在本发明中，中央控制模块预先存储有场景意图标签、应用程序接口(API)和预设商业查询数据库，且三者具有对应关系。在中央控制模块接收到商业查询大模型发送的调用链后，首先会对调用链进行解析，得到数据执行逻辑和商业数据查询场景意图标签；然后基于数据执行逻辑中的执行规则，以商业数据查询场景意图标签作为索引标识，从预设商业查询数据库的数据库表中查找到对应的应用程序接口；最后调用应用程序接口，得到对应的目标数据。

步骤S106：利用商业查询大模型对目标数据进行分析处理，生成第一商业查询信息的问答结果并进行显示。

需要说明的是，步骤S106中采用的商业查询大模型与步骤S104中采用的商业查询大模型为同一个商业查询大模型，对步骤S106中采用的商业查询大模型的描述均可参照对步骤S104中采用的商业查询大模型的描述，此处不再赘述。

在本发明中，商业查询大模型预先存储有商业数据查询场景意图标签和预设商业查询数据库的数据库表，以及商业查询应用场景意图标签和应用身份标识。

本发明提供的问答结果生成方法，利用场景意图标签等对商业查询大模型进行标签化训练，为后续商业查询大模型的调用减少压力和资源消耗，并且保证了输出结果的可靠性和一致性；并且其利用商业查询大模型中的自然语言理解能力、思维链推理能力，精准地解析出用户的真实意图，并快速、准确地返回问答结果；此外，其采用人工智能(英文全称Artificial Intelligence，英文简称AI)与用户进行交互问答，缩短了用户搜集和分析商业查询信息的路径。

图5为本发明提供的商业查询大模型训练方法的一流程示意图，如图5所示，该方法可应用于电子设备，其包括：

步骤S201：构建标注数据集，其中，标注数据集包括第二商业查询信息、与第二商业查询信息对应的场景意图标签、与场景意图标签对应的数据库表和调用链返回结果；

步骤S202：将第二商业查询信息、场景意图标签、数据库表和调用链返回结果输入商业查询大模型中进行数据微调训练，得到一级训练结果和经过一级训练的商业查询大模型；

步骤S203：将一级训练结果输入经过一级训练的商业查询大模型进行奖励训练，得到二级训练结果和经过二级训练的商业查询大模型；

步骤S204：将二级训练结果输入经过二级训练的商业查询大模型进行校准训练，得到训练完成的商业查询大模型。

本发明提供的商业查询大模型训练方法，利用场景意图标签等对商业查询大模型进行标签化训练，为后续商业查询大模型的调用减少压力和资源消耗，并且保证了输出结果的可靠性和一致性；并且其利用商业查询大模型中的自然语言理解能力、思维链推理能力，精准地解析出用户的真实意图，并快速、准确地返回问答结果。

示例性装置

图6为本发明提供的问答结果生成装置的一模块结构示意图，如图6所示，该装置包括：中央控制模块301、实体识别模块302和商业查询大模型303；其中，

中央控制模块301，用于用户输入第一商业查询信息，获取第一商业查询信息的查询时间，并提取查询时间之前预设时间段内预设数量的历史问答信息，其中，历史问答信息包括历史商业查询信息和历史问答结果；接收商业查询大模型303发送的调用链，根据调用链，从预设商业查询数据库中提取目标数据；以及，接收商业查询大模型303发送的第一商业查询信息的问答结果并进行显示；

实体识别模块302，用于接收中央控制模块301发送的第一商业查询信息，对第一商业查询信息进行实体识别，得到对应的实体识别结果，并将实体识别结果发送至中央控制模块301；

商业查询大模块302，用于接收中央控制模块301发送的第一商业查询信息、实体识别结果和历史问答信息，若实体识别结果中包括至少一对实体名称和实体身份标识，将第一商业查询信息、实体识别结果和历史问答信息输入预先训练的商业查询大模型303进行分析处理，确定第一商业查询信息中的主实体，并在确定主实体对应的场景意图标签为商业数据查询场景意图标签时，生成包括商业数据查询场景意图标签的调用链；以及，接收中央控制模块301发送的目标数据，利用商业查询大模型303对目标数据进行分析处理，生成商业查询信息的问答结果。

可选地，商业查询大模型303还用于：若实体识别结果中不包括任意一对实体名称和实体身份标识，对第一商业查询信息进行意图识别，得到意图识别结果，其中，意图识别结果包括策略身份标识或者应用身份标识；以及，根据意图识别结果，生成第一商业查询信息的问答结果并进行显示。

可选地，商业查询大模型303还用于：构建标注数据集，其中，标注数据集包括第二商业查询信息、与第二商业查询信息对应的场景意图标签、与场景意图标签对应的数据库表和调用链返回结果；将第二商业查询信息、场景意图标签、数据库表和调用链返回结果输入商业查询大模型中进行数据微调训练，得到一级训练结果和经过一级训练的商业查询大模型；将一级训练结果输入经过一级训练的商业查询大模型进行奖励训练，得到二级训练结果和经过二级训练的商业查询大模型；以及，将二级训练结果输入经过二级训练的商业查询大模型进行校准训练，得到训练完成的商业查询大模型。

可选地，中央控制模块301还用于：接收商业查询大模型303发送的商业查询应用场景意图标签，以商业查询应用场景意图标签作为索引标识，从预设应用数据库的数据库表中查找到对应的应用程序接口身份标识；以及，根据应用程序接口身份标识，查询到对应的应用跳转链接，并将应用跳转链接作为第一商业查询信息的问答结果进行显示。

可选地，中央控制模块301进一步包括：信息获取模块(图中未示出)、数据提取模块(图中未示出)和显示模块(图中未示出)；其中，

需要说明的是，图6所示的问答结果生成装置与本发明中的问答结果生成方法相对应，对于其的描述均可参照对于本发明中的问答结果生成方法的描述，此处不再赘述。

本发明提供的问答结果生成装置，利用场景意图标签等对商业查询大模型进行标签化训练，为后续商业查询大模型的调用减少压力和资源消耗，并且保证了输出结果的可靠性和一致性；并且其利用商业查询大模型中的自然语言理解能力、思维链推理能力，精准地解析出用户的真实意图，并快速、准确地返回问答结果；此外，其采用人工智能(英文全称Artificial Intelligence，英文简称AI)与用户进行交互问答，缩短了用户搜集和分析商业查询信息的路径。

图7为本发明提供的商业查询大模型训练装置的一模块结构示意图，如图7所示，该装置包括：数据构建模块401、微调训练模块402、奖励训练模块403和校准训练模块404；其中，

数据构建模块401，用于构建标注数据集，其中，标注数据集包括第二商业查询信息、与第二商业查询信息对应的场景意图标签、与场景意图标签对应的数据库表和调用链返回结果；

微调训练模块402，用于将第二商业查询信息、场景意图标签、数据库表和调用链返回结果输入商业查询大模型中进行数据微调训练，得到一级训练结果和经过一级训练的商业查询大模型；

奖励训练模块403，用于将一级训练结果输入经过一级训练的商业查询大模型进行奖励训练，得到二级训练结果和经过二级训练的商业查询大模型；

校准训练模块404，用于将二级训练结果输入经过二级训练的商业查询大模型进行校准训练，得到训练完成的商业查询大模型。

需要说明的是，图7所示的商业查询大模型训练装置与本发明中的商业查询大模型训练方法相对应，对于其的描述均可参照对于本发明中的商业查询大模型训练方法的描述，此处不再赘述。

本发明提供的商业查询大模型训练装置，利用场景意图标签等对商业查询大模型进行标签化训练，为后续商业查询大模型的调用减少压力和资源消耗，并且保证了输出结果的可靠性和一致性；并且其利用商业查询大模型中的自然语言理解能力、思维链推理能力，精准地解析出用户的真实意图，并快速、准确地返回问答结果。

示例性电子设备

图8为本发明实施例提供的电子设备的结构示意图。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。如图8所示，电子设备50包括一个或多个处理器51和存储器52。

处理器51可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器52可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器51可以运行所述程序指令，以实现上文所述的本公开的各个实施例的软件程序的问答结果生成方法以及/或者其他期望的功能。在一个示例中，电子设备还可以包括：输入装置53和输出装置54，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

此外，该输入装置53还可以包括例如键盘、鼠标等等。

该输出装置54可以向外部输出各种信息。该输出设备54可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图8中仅示出了该电子设备中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备还可以包括任何其他适当的组件。

示例性计算机程序产品和存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的问答结果生成方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的问答结果生成方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种问答结果生成方法，其特征在于，所述方法包括：

用户输入第一商业查询信息，获取所述第一商业查询信息的查询时间；

提取所述查询时间之前预设时间段内预设数量的历史问答信息；其中，所述历史问答信息包括历史商业查询信息和历史问答结果；

对所述第一商业查询信息进行实体识别，得到对应的实体识别结果；

若所述实体识别结果中包括至少一对实体名称和实体身份标识，将所述第一商业查询信息、所述实体识别结果和所述历史问答信息输入预先训练的商业查询大模型进行分析处理，确定所述第一商业查询信息中的主实体，并在确定所述主实体对应的场景意图标签为商业数据查询场景意图标签时，生成包括所述商业数据查询场景意图标签的调用链；

根据所述调用链，从预设商业查询数据库中提取目标数据；

利用所述商业查询大模型对所述目标数据进行分析处理，生成所述第一商业查询信息的问答结果并进行显示。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若所述实体识别结果中不包括任意一对实体名称和实体身份标识，对所述第一商业查询信息进行意图识别，得到意图识别结果，其中，所述意图识别结果包括策略身份标识或者应用身份标识；

根据所述意图识别结果，生成所述第一商业查询信息的问答结果并进行显示。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

构建标注数据集，其中，所述标注数据集包括第二商业查询信息、与所述第二商业查询信息对应的场景意图标签、与所述场景意图标签对应的数据库表和调用链返回结果；

将所述第二商业查询信息、所述场景意图标签、所述数据库表和所述调用链返回结果输入商业查询大模型中进行数据微调训练，得到一级训练结果和经过一级训练的商业查询大模型；

将所述一级训练结果输入所述经过一级训练的商业查询大模型进行奖励训练，得到二级训练结果和经过二级训练的商业查询大模型；

将所述二级训练结果输入所述经过二级训练的商业查询大模型进行校准训练，得到训练完成的商业查询大模型。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在确定所述主实体对应的场景意图标签为商业查询应用场景意图标签时，以所述商业查询应用场景意图标签作为索引标识，从预设应用数据库的数据库表中查找到对应的应用程序接口身份标识；

根据所述应用程序接口身份标识，查询到对应的应用跳转链接，并将所述应用跳转链接作为所述第一商业查询信息的问答结果进行显示。

5.根据权利要求1所述的方法，其特征在于，所述根据所述调用链，从预设商业查询数据库中提取目标数据，包括：

获取所述调用链中的数据执行逻辑和所述商业数据查询场景意图标签；

基于所述数据执行逻辑中的执行规则，以所述商业数据查询场景意图标签作为索引标识，从预设商业查询数据库的数据库表中查找到对应的应用程序接口；

调用所述应用程序接口，得到对应的目标数据。

6.一种商业查询大模型训练方法，其特征在于，所述方法包括：

7.一种问答结果生成装置，其特征在于，所述装置包括：中央控制模块、实体识别模块和商业查询大模型；其中，

所述中央控制模块，用于用户输入第一商业查询信息，获取所述第一商业查询信息的查询时间，并提取所述查询时间之前预设时间段内预设数量的历史问答信息，其中，所述历史问答信息包括历史商业查询信息和历史问答结果；接收所述商业查询大模型发送的调用链，根据所述调用链，从预设商业查询数据库中提取目标数据；以及，接收所述商业查询大模型发送的所述第一商业查询信息的问答结果并进行显示；

所述实体识别模块，用于接收所述中央控制模块发送的所述第一商业查询信息，对所述第一商业查询信息进行实体识别，得到对应的实体识别结果，并将所述实体识别结果发送至所述中央控制模块；

所述商业查询大模块，用于接收所述中央控制模块发送的所述第一商业查询信息、所述实体识别结果和所述历史问答信息，若所述实体识别结果中包括至少一对实体名称和实体身份标识，将所述第一商业查询信息、所述实体识别结果和所述历史问答信息输入预先训练的所述商业查询大模型进行分析处理，确定所述第一商业查询信息中的主实体，并在确定所述主实体对应的场景意图标签为商业数据查询场景意图标签时，生成包括所述商业数据查询场景意图标签的调用链；以及，接收所述中央控制模块发送的所述目标数据，利用所述商业查询大模型对所述目标数据进行分析处理，生成所述商业查询信息的问答结果。

8.根据权利要求1所述的装置，其特征在于，所述商业查询大模型还用于：若所述实体识别结果中不包括任意一对实体名称和实体身份标识，对所述第一商业查询信息进行意图识别，得到意图识别结果，其中，所述意图识别结果包括策略身份标识或者应用身份标识；以及，根据所述意图识别结果，生成所述第一商业查询信息的问答结果并进行显示。

9.根据权利要求1所述的装置，其特征在于，所述商业查询大模型还用于：构建标注数据集，其中，所述标注数据集包括第二商业查询信息、与所述第二商业查询信息对应的场景意图标签、与所述场景意图标签对应的数据库表和调用链返回结果；将所述第二商业查询信息、所述场景意图标签、所述数据库表和所述调用链返回结果输入商业查询大模型中进行数据微调训练，得到一级训练结果和经过一级训练的商业查询大模型；将所述一级训练结果输入所述经过一级训练的商业查询大模型进行奖励训练，得到二级训练结果和经过二级训练的商业查询大模型；以及，将所述二级训练结果输入所述经过二级训练的商业查询大模型进行校准训练，得到训练完成的商业查询大模型。

10.根据权利要求1所述的装置，其特征在于，所述中央控制模块还用于：接收所述商业查询大模型发送的商业查询应用场景意图标签，以所述商业查询应用场景意图标签作为索引标识，从预设应用数据库的数据库表中查找到对应的应用程序接口身份标识；以及，根据所述应用程序接口身份标识，查询到对应的应用跳转链接，并将所述应用跳转链接作为所述第一商业查询信息的问答结果进行显示。

11.根据权利要求1所述的装置，其特征在于，所述中央控制模块进一步包括：信息获取模块、数据提取模块和显示模块；其中，

所述信息获取模块，用于用户输入第一商业查询信息，获取所述第一商业查询信息的查询时间，并提取所述查询时间之前预设时间段内预设数量的历史问答信息，其中，所述历史问答信息包括历史商业查询信息和历史问答结果；

所述数据提取模块，用于接收所述商业查询大模型发送的所述调用链，获取所述调用链中的数据执行逻辑和所述商业数据查询场景意图标签；基于所述数据执行逻辑中的执行规则，以所述商业数据查询场景意图标签作为索引标识，从预设商业查询数据库的数据库表中查找到对应的应用程序接口；以及，调用所述应用程序接口，得到对应的目标数据；

所述显示模块，用于接收所述商业查询大模型发送的所述第一商业查询信息的问答结果并进行显示。

12.一种商业查询大模型训练装置，其特征在于，所述装置包括：数据构建模块、微调训练模块、奖励训练模块和校准训练模块；其中，

所述数据构建模块，用于构建标注数据集，其中，所述标注数据集包括第二商业查询信息、与所述第二商业查询信息对应的场景意图标签、与所述场景意图标签对应的数据库表和调用链返回结果；

所述微调训练模块，用于将所述第二商业查询信息、所述场景意图标签、所述数据库表和所述调用链返回结果输入商业查询大模型中进行数据微调训练，得到一级训练结果和经过一级训练的商业查询大模型；

所述奖励训练模块，用于将所述一级训练结果输入所述经过一级训练的商业查询大模型进行奖励训练，得到二级训练结果和经过二级训练的商业查询大模型；

所述校准训练模块，用于将所述二级训练结果输入所述经过二级训练的商业查询大模型进行校准训练，得到训练完成的商业查询大模型。

13.一种电子设备，其特征在于，该电子设备包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-6中任一项所述方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。