CN116644167A

CN116644167A - 目标答案的生成方法和装置、存储介质及电子装置

Info

Publication number: CN116644167A
Application number: CN202310629162.0A
Authority: CN
Inventors: 李颢宇
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-05-30
Filing date: 2023-05-30
Publication date: 2023-08-25

Abstract

本申请公开了一种目标答案的生成方法和装置、存储介质及电子装置。涉及金融科技领域，该方法包括：将输入初始问答模型的参考问题信息和初始问答模型依据参考问题信息输出的参考答案信息输入至目标评分模型，得到目标评分模型输出的参考问答参数；依据参考问答参数对初始问答模型的模型参数进行调整，得到目标问答模型，其中，目标问答模型用于对输入的第二问题信息输出对应的第二答案信息，并且第二答案信息与第二问题信息的匹配程度大于目标匹配程度；在接收到目标场景中的目标问题信息的情况下，使用目标问答模型生成目标问题信息对应的目标答案信息。通过本申请，解决了相关技术中，生成的目标答案与对应的问题的匹配度较低等问题。

Description

目标答案的生成方法和装置、存储介质及电子装置

技术领域

本申请涉及金融科技领域，具体而言，涉及一种目标答案的生成方法和装置、存储介质及电子装置。

背景技术

近年来，随着计算机技术的迅速发展，越来越多的企业选择在业务系统或是内部办公系统中引入更多自动化的流程，如智能客服机器人、技术答疑机器人等等，用于减少人力开销以及提高生产力。

目前，主流的问答机器人还在使用较为传统的方法，如构建知识库进行对特定问题进行查询，或是按照预先设定的人工规则进行回答。但生成的答案则较为固定。现有的问答机器人方法对于一些提前设计好的问题效果尚可，但对于用户提出的预想外的问题往往难以给出有效的回答。

针对相关技术中生成的目标答案与对应的问题的匹配度较低等问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种目标答案的生成方法和装置、存储介质及电子装置，以解决相关技术中生成的目标答案与对应的问题的匹配度较低等问题。

为了实现上述目的，根据本申请的一个方面，提供了一种目标答案的生成方法。

该方法包括：

将输入初始问答模型的参考问题信息和所述初始问答模型依据所述参考问题信息输出的参考答案信息输入至目标评分模型，得到所述目标评分模型输出的参考问答参数，其中，所述参考问答参数用于指示所述参考问题信息和所述参考答案信息的匹配程度，所述参考问题信息用于指示在目标场景中采集到的问题，所述目标评分模型为采用标注了第一问答参数的N条问答对训练得到的，N为大于或者等于2的正整数，每条所述问答对为所述目标场景中采集到的具有对应关系的第一问题信息和第一答案信息；

依据所述参考问答参数对所述初始问答模型的模型参数进行调整，得到目标问答模型，其中，所述目标问答模型用于对输入的第二问题信息输出对应的第二答案信息，并且所述第二答案信息与所述第二问题信息的匹配程度大于目标匹配程度；

在接收到所述目标场景中的目标问题信息的情况下，使用所述目标问答模型生成所述目标问题信息对应的目标答案信息。

可选的，将输入初始问答模型的参考问题信息和所述初始问答模型依据所述参考问题信息输出的参考答案信息输入至目标评分模型，得到所述目标评分模型输出的参考问答参数，包括：

将所述参考问题信息和所述参考答案信息拼接为一个所述问答对；

将所述问答对输入至所述目标评分模型，得到所述目标评分模型输出的问答参数作为所述参考问答参数。

可选的，在所述将所述问答对输入至所述目标评分模型，得到所述目标评分模型输出的问答参数作为所述参考问答参数之前，所述方法还包括：

获取所述目标场景对应的候选参数组集合，其中，所述候选参数组集合包括T个候选参数组，T为大于或者等于2的正整数，每个所述候选参数组包括具有对应关系的候选问题信息集合、候选答案信息集合和候选问答参数集合，所述候选问题信息集合中的候选问题信息用于表征所述目标场景中的一个候选问题，所述候选答案信息集合中的候选答案信息用于表征所述候选问题的候选答案，所述候选问答参数集合中的候选问答参数用于表征所述候选答案与所述候选问题的匹配程度；不同所述候选参数组中所述候选问题信息集合包括的候选问题信息用于表述不同类的问题，同一所述候选参数组中所述候选问题信息集合包括的候选问题信息用于表述同一类的问题；

根据所述候选参数组集合生成标注了所述第一问答参数的N条所述问答对；

使用标注了所述第一问答参数的N条所述问答对对初始评分模型进行训练，得到目标评分模型。

可选的，所述根据所述候选参数组集合生成标注了所述第一问答参数的N条所述问答对，包括：

将所述候选参数组集合中处于同一所述候选参数组的所述候选问题信息，所述候选答案信息和所述候选问答参数进行自由组合，得到N个组合，其中，每个组合包括的1个所述候选问题信息，1个所述候选答案信息和1个所述候选问答参数；

将N个组合中同一组合中的所述候选问题信息作为所述第一问题信息，所述候选答案信息作为对应的所述第一答案信息，所述候选问答参数作为所述第一问答参数，得到标注了所述第一问答参数的N条所述问答对。

可选的，所述获取所述目标场景对应的候选参数组集合，包括：

从所述目标场景中采集M张目标工单，其中，M为大于或者等于2的正整数，所述目标工单用于记录所述目标场景中具有对应关系的问题、答案和问答参数；

根据M张所述目标工单生成所述目标场景对应的候选参数组集合。

可选的，所述根据M张所述目标工单生成所述目标场景对应的候选参数组集合，包括：

提取M张所述目标工单中每张所述目标工单记录的具有对应关系的问题文本、答案文本和评分文本，其中，所述问题文本用于记载所述目标场景中的一个问题，所述答案文本用于记载对应的所述问题的答案，所述评分文本用于指示所述答案与所述问题的匹配程度；

从每张所述目标工单记录的所述问题文本中提取所述候选问题信息，从每张所述目标工单记录的所述答案文本中提取所述候选答案信息，从每张所述目标工单记录的所述评分文本中提取所述候选问答参数，得到M组具有对应关系的所述候选问题信息，所述候选答案信息和所述候选问答参数；

对M组具有对应关系的所述候选问题信息，所述候选答案信息和所述候选问答参数中的M个所述候选问题信息聚类为R个所述候选问题信息集合，其中，每个所述候选问题信息集合中的所述候选问题信息用于表述同一类问题；

获取每个所述候选问题信息集合中每个所述候选问题信息对应的所述候选答案信息和候选问答参数，得到每个所述候选问题信息集合对应的所述候选答案信息集合和所述候选问答参数集合；

将具有对应关系的一组所述候选问题信息集合、所述候选答案信息集合和所述候选问答参数集合确定为一个所述候选参数组，得到所述候选参数组集合，其中，R为大于或者等于T的正整数。

可选的，所述使用标注了所述第一问答参数的N条所述问答对对初始评分模型进行训练，得到目标评分模型，包括：

通过以下步骤使用标注了所述第一问答参数的第i条所述问答对对待训练评分模型进行第p轮训练，其中，p为大于或等于1的正整数：

通过第p-1轮训练得到的待训练评分模型输出所述第i条所述问答对的问答参数结果，其中，在p等于1时，所述第p-1轮训练得到的待训练评分模型是未经过训练的所述初始评分模型；

比对第i条所述问答对标注的所述第一问答参数和问答参数结果，得到所述待训练评分模型对应的目标损失函数的取值；

在所述目标损失函数的取值不满足预设收敛条件的情况下，对所述第p-1轮训练得到的待训练评分模型中的评分参数进行调整，以获得第p轮训练得到的待训练评分模型；

在所述目标损失函数的取值满足所述预设收敛条件的情况下，结束训练。

为了实现上述目的，根据本申请的另一方面，提供了一种目标答案的生成装置。

该装置包括：

输出模块，用于将输入初始问答模型的参考问题信息和所述初始问答模型依据所述参考问题信息输出的参考答案信息输入至目标评分模型，得到所述目标评分模型输出的参考问答参数，其中，所述参考问答参数用于指示所述参考问题信息和所述参考答案信息的匹配程度，所述参考问题信息用于指示在目标场景中采集到的问题，所述目标评分模型为采用标注了第一问答参数的N条问答对训练得到的，N为大于或者等于2的正整数，每条所述问答对为所述目标场景中采集到的具有对应关系的第一问题信息和第一答案信息；

调整模块，用于依据所述参考问答参数对所述初始问答模型的模型参数进行调整，得到目标问答模型，其中，所述目标问答模型用于对输入的第二问题信息输出对应的第二答案信息，并且所述第二答案信息与所述第二问题信息的匹配程度大于目标匹配程度；

生成模块，用于在接收到所述目标场景中的目标问题信息的情况下，使用所述目标问答模型生成所述目标问题信息对应的目标答案信息。

通过本申请，采用以下方式：在接收到目标场景中的目标问题信息的情况下，使用目标问答模型生成目标问题信息对应的目标答案信息，其中，目标评分模型参与目标问答模型的训练过程，在初始问答模型的训练过程中，将输入初始问答模型的参考问题信息和初始问答模型依据参考问题信息输出的参考答案信息输入至目标评分模型，得到目标评分模型输出的参考问答参数，并依据参考问答参数对初始问答模型的模型参数进行调整，得到目标问答模型，由于目标评分模型为采用标注了第一问答参数的N条问答对训练得到的，N为大于或者等于2的正整数，每条问答对为目标场景中采集到的具有对应关系的第一问题信息和第一答案信息，因此，目标评分模型可以确定输入初始问答模型的参考问题信息和初始问答模型依据参考问题信息输出的参考答案信息之间的匹配程度，即参考问答参数，依据参考问答参数调整初始问答模型得到的目标问答模型，可以确保依据目标问题信息生成的目标答案信息与目标问题信息的匹配程度大于目标匹配程度，解决了相关技术中生成的目标答案与对应的问题的匹配度较低等问题。进而达到了提高生成的目标答案与对应的问题的匹配度的技术效果。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例提供的目标答案的生成方法的流程图；

图2是根据本申请实施例提供的目标问答模型的生成方法的流程图；

图3是根据本申请实施例提供的企业场景的基础数据采集的示意图；

图4是根据本申请实施例提供的参考问答参数的生成示意图；

图5是根据本申请实施例提供的问答对的生成示意图；

图6是根据本申请实施例提供的工单流程的示意图；

图7是根据本申请实施例提供的目标工单生成候选问题信息，候选答案信息和候选问答参数的示意图；

图8是根据本申请实施例提供的候选问题信息集合，候选答案信息集合和候选问答参数集合生成的示意图；

图9是根据本申请实施例的目标答案的生成装置的示意图；

图10是根据本申请实施例的电子设备的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，以下对本申请实施例涉及的部分名词或术语进行说明：

大语言模型：Large Language Model(LLM)，指网络参数数量极大的、用于自然语言处理领域的神经网络模型。

Embedding：词嵌入，指将原始的词语表示转化为向量表示的形式。具体的embedding方式有很多类，本专利中的embedding为泛指，无需特定某一种方法。

SIF加权平均词向量：这个方法是在通过将句子中的词语通过embedding转为词向量后，计算整个句子的向量表示的方法。通过该方法可以将不定长的句子转化为等长的向量表示形式。

KNN聚类：一种无监督的聚类方式，可以将特征相近的数据归纳为一类。

下面结合优选的实施步骤对本发明进行说明，图1是根据本申请实施例提供的目标答案的生成方法的流程图，如图1所示，该方法包括如下步骤：

步骤S101，将输入初始问答模型的参考问题信息和所述初始问答模型依据所述参考问题信息输出的参考答案信息输入至目标评分模型，得到所述目标评分模型输出的参考问答参数，其中，所述参考问答参数用于指示所述参考问题信息和所述参考答案信息的匹配程度，所述参考问题信息用于指示在目标场景中采集到的问题，所述目标评分模型为采用标注了第一问答参数的N条问答对训练得到的，N为大于或者等于2的正整数，每条所述问答对为所述目标场景中采集到的具有对应关系的第一问题信息和第一答案信息；

步骤S102，依据所述参考问答参数对所述初始问答模型的模型参数进行调整，得到目标问答模型，其中，所述目标问答模型用于对输入的第二问题信息输出对应的第二答案信息，并且所述第二答案信息与所述第二问题信息的匹配程度大于目标匹配程度；

步骤S103，在接收到所述目标场景中的目标问题信息的情况下，使用所述目标问答模型生成所述目标问题信息对应的目标答案信息。

通过上述方式，在接收到目标场景中的目标问题信息的情况下，使用目标问答模型生成目标问题信息对应的目标答案信息，其中，目标评分模型参与目标问答模型的训练过程，在初始问答模型的训练过程中，将输入初始问答模型的参考问题信息和初始问答模型依据参考问题信息输出的参考答案信息输入至目标评分模型，得到目标评分模型输出的参考问答参数，并依据参考问答参数对初始问答模型的模型参数进行调整，得到目标问答模型，由于目标评分模型为采用标注了第一问答参数的N条问答对训练得到的，N为大于或者等于2的正整数，每条问答对为目标场景中采集到的具有对应关系的第一问题信息和第一答案信息，因此，目标评分模型可以确定输入初始问答模型的参考问题信息和初始问答模型依据参考问题信息输出的参考答案信息之间的匹配程度，即参考问答参数，依据参考问答参数调整初始问答模型得到的目标问答模型，可以确保依据目标问题信息生成的目标答案信息与目标问题信息的匹配程度大于目标匹配程度，解决了相关技术中生成的目标答案与对应的问题的匹配度较低等问题。进而达到了提高生成的目标答案与对应的问题的匹配度的技术效果。

在上述步骤S101提供的技术方案中，目标问答模型可以应用于目标场景中的各种终端设备，可以但不限于包括客服机器人、技术答疑机器人等等，用于减少人力开销以及提高生产力。

可选地，在本实施例中，目标问答模型可以但不限于为大语言模型，其中，大语言模型为拥有生成能力的大语言模型，无需特定某具体模型，目标问答模型拥有较强的生成、创造能力，能够根据具体问题生成相应的答案而非固定的模板、套路式的回答。

可选地，在本实施例中，区别于普通的大语言模型，本申请中的目标问答模型不仅可以胜任一些通用任务，如文章理解，代码生成等较为通用的场景，更重要的，可以在某一特定的目标场景下，投入实际应用，其中，目标场景可以但不限于包括企业场景，教学场景和购物场景等等任何存在特定技术或者需求的场景中，比如，企业场景中，通常由于企业的业务不同，企业所涉及的技术也存在较大差异，因此普通的大语言模型，不具备企业特定业务领域的知识，无法对上述专业度较高的企业场景中出现的问题进行回答，因此普通的大语言模型难以投入实际应用。

可选地，在本实施例中，之所以区别于普通的大语言模型，本申请中的目标问答模型可以在某一特定的目标场景下，投入实际应用，是因为本申请中的目标问答模型是通过如下流程训练得到的，可以但不限于以目标场景为企业场景为例，对目标问答模型的生成方法进行说明，图2是根据本申请实施例提供的目标问答模型的生成方法的流程图，如图2所示，包括如下步骤：

1)企业场景的基础数据采集；

2)大语言模型(对应上述初始问答模型)的初步调优；

3)回答质量评分模型(对应上述目标评分模型)训练数据采集，使用训练数据采集训练回答质量评分模型；

4)回答质量评分模型的训练以及大语言模型最终调优。

其中，图3是根据本申请实施例提供的企业场景的基础数据采集的示意图，如图3所示，收集企业场景需要机器人(可以理解为目标问答模型，或者上述目标问答模型部署的一个终端)支持的相关领域(可以理解为每个企业场景中对应的技术领域，比如金融型企业对应的金融技术，IT(Information Technology，信息技术)企业对应的计算机技术)的企业文档，并以段落为单位进行拆分。在这一步中不以句子为单位而是以段落为单位的原因在于大语言模型相比传统NLP(Natural Language Processing，自然语言处理)模型能够更好地捕捉上下文中的逻辑关系，而且在面对企业实际应用的复杂场景时，也需要模型能够从更多文本信息中抽取知识的能力。在拆分为段落后，令段落为P，段落分词后的长度为L，随机将段落中的N个词语替换为空白字符，N可以取15％*L(向上取整)，令替换后的段落为P'，则(P，P')为一组训练数据。比如，原始段落：“该业务面向的群体为一般客户”，随机将段落中的N个词语替换为空白字符(即对原始段落进行蒙版)，得到替换后的段落：“该业务面向的群体为XXXX”，每个段落可以随机抽样出多组训练数据，具体数值可根据总文档的文本量进行调整。随后用采集的数据以预测空白字符出单词的形式对大语言模型进行初次训练，这一步训练的方式是使得大语言模型能初步具有企业场景相关领域的基础知识，此时训练好的大语言模型对应本申请中的初始问答模型，经过最终调优的大语言模型对应本申请中的目标问答模型。

在一个示例性实施例中，可以但不限于通过以下方式将输入初始问答模型的参考问题信息和所述初始问答模型依据所述参考问题信息输出的参考答案信息输入至目标评分模型，得到所述目标评分模型输出的参考问答参数：将所述参考问题信息和所述参考答案信息拼接为一个所述问答对；将所述问答对输入至所述目标评分模型，得到所述目标评分模型输出的问答参数作为所述参考问答参数。

可选地，在本实施例中，参考答案信息和参考问题信息的表现形式可以为向量形式，比如，参考答案信息可以为答案向量参考问题信息可以为问题向量/>问答对可以为答案向量/>和问题向量/>拼接之后的向量。

可选地，在本实施例中，图4是根据本申请实施例提供的参考问答参数的生成示意图，如图4所示，将问题向量(对应上述参考问题信息)，输入至初次调优后的大语言模型(对应上述初始问答模型，或者待训练的问答模型)，得到大语言模型输出的答案向量/>(对应上述参考答案信息)，之后，将问题向量/>和答案向量/>拼接为问答对，并将问答对resize(调整)成resnet(残差神经网络)的输入形状，输出为1分类，将问答对输入至目标评分模型，得到目标评分模型输出概率的label(标签)为对应问题-答案对(问答对)的对应分数s(对应上述参考问答参数)，由于在整个过程中，所有过程都是可导的，因此可以直接用反向传播进行端到端的训练，即可以依据当前的参考问答参数调整当前的大语言模型的模型参数，上述目标评分模型可以但不限于为ResNet-128分类模型。

在一个示例性实施例中，在所述将所述问答对输入至所述目标评分模型，得到所述目标评分模型输出的问答参数作为所述参考问答参数之前，可以但不限于还包括以下方式：获取所述目标场景对应的候选参数组集合，其中，所述候选参数组集合包括T个候选参数组，T为大于或者等于2的正整数，每个所述候选参数组包括具有对应关系的候选问题信息集合、候选答案信息集合和候选问答参数集合，所述候选问题信息集合中的候选问题信息用于表征所述目标场景中的一个候选问题，所述候选答案信息集合中的候选答案信息用于表征所述候选问题的候选答案，所述候选问答参数集合中的候选问答参数用于表征所述候选答案与所述候选问题的匹配程度；不同所述候选参数组中所述候选问题信息集合包括的候选问题信息用于表述不同类的问题，同一所述候选参数组中所述候选问题信息集合包括的候选问题信息用于表述同一类的问题；根据所述候选参数组集合生成标注了所述第一问答参数的N条所述问答对；使用标注了所述第一问答参数的N条所述问答对对初始评分模型进行训练，得到目标评分模型。

可选地，在本实施例中，上述已经说明参考答案信息和参考问题信息的表现形式可以为向量形式，比如，参考答案信息可以为答案向量参考问题信息可以为问题向量/>问答对可以为答案向量/>和问题向量/>拼接之后的向量。同样的，本申请中问题信息(比如，候选问题信息，第一问题信息，第二问题信息等等)，答案信息(比如，候选答案信息，第一答案信息，第二答案信息等等)均可以通过向量形式表达，以下分别对候选参数组集合，候选参数组，候选问题信息集合和候选答案信息集合的可能的表现形式进行说明：

候选问题信息集合：其中，候选问题信息集合包括的m个候选问题信息/>用于表述同一类的问题；

候选答案信息集合：其中，候选答案信息集合包括的m个候选答案信息/>用于表述上述同一类的问题对应的答案；

候选问答参数集合：(s₁,s₂,…,s_m)；

候选参数组：(s₁,s₂,…,s_m)，其中，m为该小类问题的总数目，t表示该类问题的序号，可以理解为，比如，企业场景中存在100类问题，那么候选参数组集合可以包括100个候选参数组，每组对应一类问题。在t为95的情况下，候选参数组中的/>均可以用于表述该第95类问题，而/>均可以用于回答该第95类问题，并且匹配程度大于目标匹配程度。

在一个示例性实施例中，可以但不限于通过以下方式根据所述候选参数组集合生成标注了所述第一问答参数的N条所述问答对：将所述候选参数组集合中处于同一所述候选参数组的所述候选问题信息，所述候选答案信息和所述候选问答参数进行自由组合，得到N个组合，其中，每个组合包括的1个所述候选问题信息，1个所述候选答案信息和1个所述候选问答参数；将N个组合中同一组合中的所述候选问题信息作为所述第一问题信息，所述候选答案信息作为对应的所述第一答案信息，所述候选问答参数作为所述第一问答参数，得到标注了所述第一问答参数的N条所述问答对。

可选地，在本实施例中，以候选参数组为：(s₁,s₂,…,s₄)对标注了所述第一问答参数的N条所述问答对的生成过程进行说明，图5是根据本申请实施例提供的问答对的生成示意图，如图5所示，/>和/>每个元素都可以组成一个问答对，排列组合共16个问答对，然后随机从(s₁,s₂,…,s₄)中获取一个候选问答参数作为第一问答参数标注问答对，得到标注了所述第一问答参数的16个问答对。

在一个示例性实施例中，可以但不限于通过以下方式获取所述目标场景对应的候选参数组集合：从所述目标场景中采集M张目标工单，其中，M为大于或者等于2的正整数，所述目标工单用于记录所述目标场景中具有对应关系的问题、答案和问答参数；根据M张所述目标工单生成所述目标场景对应的候选参数组集合。

需要说明的是，虽然现有的问答机器人(可以理解为目标问答模型，或者上述目标问答模型部署的一个终端)对于一些提前设计好的问题效果尚可，但对于用户提出的预想外的问题往往难以给出有效的回答，尤其是对于客户在原有回答上的进一步的提问，问答机器人不具有语境理解的能力，因此无法生成客户想要的答案。另一方面，普通的大语言模型由于缺少相应场景下的数据(对应上述标注了第一问答参数的16个问答对)，训练出的模型(问答模型)通常难以投入实际应用，因为大语言模型对于训练数据的质量和数量要求较高，如果通过人工手动收集、标注的方法收集数据耗时耗力，且数据质量也可能受到标注人员主观影响，导致模型训练效果不理想，但如果不对大语言模型进行训练，通用模型不具备企业特定业务领域的知识，无法提供有效的帮助。为了解决上述目标问答模型和目标评分模型的训练过程中样本难以获取的问题，本申请提出了一种自动生成大量高质量标注训练数据的方法，使得训练出的机器人(部署了目标问答模型)能够在企业的特定场景(对应上述目标场景)下也能给出让用户满意的答案。

可选地，在本实施例中，企业环境中，一个完整的工单流程应该包括：问题提出，问题回答以及反馈评分三个部分，因此执行完毕任务的工单(对应所述目标工单)应当记录了工单流程中的问题，回答和评分。

可选地，在本实施例中，上述目标工单还可以为企业环境内部的类似系统产生训练数据，记录有对应关系的问题、答案和问答参数即可。

在一个示例性实施例中，可以但不限于通过以下方式根据M张所述目标工单生成所述目标场景对应的候选参数组集合：提取M张所述目标工单中每张所述目标工单记录的具有对应关系的问题文本、答案文本和评分文本，其中，所述问题文本用于记载所述目标场景中的一个问题，所述答案文本用于记载对应的所述问题的答案，所述评分文本用于指示所述答案与所述问题的匹配程度；从每张所述目标工单记录的所述问题文本中提取所述候选问题信息，从每张所述目标工单记录的所述答案文本中提取所述候选答案信息，从每张所述目标工单记录的所述评分文本中提取所述候选问答参数，得到M组具有对应关系的所述候选问题信息，所述候选答案信息和所述候选问答参数；对M组具有对应关系的所述候选问题信息，所述候选答案信息和所述候选问答参数中的M个所述候选问题信息聚类为R个所述候选问题信息集合，其中，每个所述候选问题信息集合中的所述候选问题信息用于表述同一类问题；获取每个所述候选问题信息集合中每个所述候选问题信息对应的所述候选答案信息和候选问答参数，得到每个所述候选问题信息集合对应的所述候选答案信息集合和所述候选问答参数集合；将具有对应关系的一组所述候选问题信息集合、所述候选答案信息集合和所述候选问答参数集合确定为一个所述候选参数组，得到所述候选参数组集合，其中，R为大于或者等于T的正整数。

可选地，在本实施例中，上述提到本申请提出了一种通过企业内部的工单或类似系统产生训练数据以自动生成大量高质量标注训练数据(对应标注了问答参数的N条所述问答对)的方法，以下对训练数据的生成过程进行说明：

一个完整的工单流程应该包括：问题提出，问题回答以及反馈评分三个部分，图6是根据本申请实施例提供的工单流程的示意图，如图6所示，询问者使用目标场景中的系统发起携带了“问题文本”的初始工单，对相关问题进行提问，在回答者(可能为该目标场景中的技术人员)接收到初始工单之后对“问题文本”对应的问题进行回答，并编辑“答案文本”，之后，将携带了“问题文本”和“答案文本”的参考工单返回至询问者，询问者对“答案文本”进行评价，得到携带了“问题文本”，“答案文本”和“评分文本”的目标工单。

图7是根据本申请实施例提供的目标工单生成候选问题信息，候选答案信息和候选问答参数的示意图，如图7所示，将提出问题的问题文本以及回答问题的答案文本都通过embedding加SIF加权平均词向量的方式转化为向量表示形式，评分文本则归一化到(0，1)的取值范围，得到目标工单的候选问题信息候选答案信息/>和候选问答参数(s)。

图8是根据本申请实施例提供的候选问题信息集合，候选答案信息集合和候选问答参数集合生成的示意图，如图8所示，每个目标工单均对应一组(q,a,s)，则所有工单构成的问题向量集表示为对应的答案集和分数集为/>(s₁,s₂,…,s_n)，然后使用KNN聚类算法，将问题向量集聚类为不同问题的小类，比如聚类时使用余弦相似度来计算不同问题向量之间的相似程度。聚类后，得到的每一个小类的问题、答案与分数集，比如(s₁,s₂,…,s_m)，具有对应关系的候选问题信息集合候选答案信息集合/>和候选问答参数集合(s₁,s₂,…,s_m)的可以理解为一个候选参数组。其中m为该小类问题的总数目，t表示该类问题的序号。因为对于同一类问题的不同回答应当不受问题的具体形式影响，即在一个小类中，不同问题向量下的同一答案应该有相同的分数，因此由一个小类中，可以组合出m ²对(q,a,s)的训练数据总和。设t的总数量为T，将70％T作为训练集用于训练回答质量评分模型(即上述目标评分模型)，剩余30％作为后续训练大语言模型的训练数据，得到目标问答模型。其中，剩余30％作为后续训练大语言模型的训练数据，得到目标问答模型的过程中，只有问题的句向量q(即，参考答案信息)作为大语言模型的训练输入，在大语言模型输出答案向量a(即参考答案信息)后，将q和a进行拼接并resize后，作为质量评分模型(即目标问答模型)的输入，得到最后的得分(即参考问答参数)。由于在整个过程中，所有过程都是可导的，因此可以直接用反向传播对大语言模型进行端到端的训练。

在一个示例性实施例中，可以但不限于通过以下方式使用标注了所述第一问答参数的N条所述问答对对初始评分模型进行训练，得到目标评分模型：通过以下步骤使用标注了所述第一问答参数的第i条所述问答对对待训练评分模型进行第p轮训练，其中，p为大于或等于1的正整数：通过第p-1轮训练得到的待训练评分模型输出所述第i条所述问答对的问答参数结果，其中，在p等于1时，所述第p-1轮训练得到的待训练评分模型是未经过训练的所述初始评分模型；比对第i条所述问答对标注的所述第一问答参数和问答参数结果，得到所述待训练评分模型对应的目标损失函数的取值；在所述目标损失函数的取值不满足预设收敛条件的情况下，对所述第p-1轮训练得到的待训练评分模型中的评分参数进行调整，以获得第p轮训练得到的待训练评分模型；在所述目标损失函数的取值满足所述预设收敛条件的情况下，结束训练。

可选地，在本实施例中，比对第i条所述问答对标注的所述第一问答参数和问答参数结果，得到所述待训练评分模型对应的目标损失函数的取值，可以但不限于依据第一问答参数和问答参数结果的差值作为目标损失函数的取值。

可选地，在本实施例中，问答参数结果为所述待训练评分模型依据输入的问答对输出的问答参数，在问答对对应的问答参数结果与第一问答参数之间的差距小于目标差距的情况下，可以视为待训练评分模型的目标损失函数收敛。

在上述步骤S102提供的技术方案中，目标问答模型可以对同一个第二问题信息输出更加灵活的第二答案信息，即第二答案信息不是固定模板的答案信息，并且第二答案信息与所述第二问题信息的匹配程度大于目标匹配程度。

在上述步骤S103提供的技术方案中，目标问题信息为目标场景中采集到的任意用于表征询问问题的信息，即目标场景中采集到待回答的问题(可以但不限于采用语音，文本和图片等等形式)，对问题进行处理，得到目标问题信息，然后将目标问题信息输入至目标问答模型，得到目标问题信息对应的目标答案信息，然后对目标答案信息进行解码和转换等等操作，输出并展示该待回答的问题的答案。

需要说明的是，本申请提出的目标答案的生成方法可以训练得到准确回答各类企业专业领域问题的问答机器人，且无需额外人力财力采购标注数据，使用企业现有资料即可进行训练。该方法得到的机器人可以极大减少企业内的客服人力，企业无论在对公或是内部业务上都能使用机器人取代人工或是传统机器人提升生产力。

本申请中的大语言模型、模型对应的训练方法以及embedding方式没有硬限制，大语言模型只要符合网络参数量级足够大、有文本生成能力的特点，embedding方式能够将中文词句转为词向量表示形式均可。回答质量评分模型的打分模型本文中使用的是基础的ResNet-128网络，也可以替换为其它种类的预测模型。

本申请提出了一种目标答案的生成方法，通过该方法训练得到的问答机器人相比原有的传统问答机器人不再受限制于既定规则，而能够学习企业专业领域的相关知识并给出类似于人工客服回答的能力。

本申请提出了一种目标答案的生成方法，通过该方式产生的数据有近似于人类标注的质量，无需额外耗费人力财力进行数据采集以及标注。使用回答质量评分模型对大语言模型进行二次调优，将训练好的回答质量评分模型连接在大语言模型的末端，通过对大语言模型生成的结果进行打分并将分数进行反向传播进行端到端式的训练。

本申请实施例提供的目标答案的生成方法，通过在接收到目标场景中的目标问题信息的情况下，使用目标问答模型生成目标问题信息对应的目标答案信息，其中，目标评分模型参与目标问答模型的训练过程，在初始问答模型的训练过程中，将输入初始问答模型的参考问题信息和初始问答模型依据参考问题信息输出的参考答案信息输入至目标评分模型，得到目标评分模型输出的参考问答参数，并依据参考问答参数对初始问答模型的模型参数进行调整，得到目标问答模型，由于目标评分模型为采用标注了第一问答参数的N条问答对训练得到的，N为大于或者等于2的正整数，每条问答对为目标场景中采集到的具有对应关系的第一问题信息和第一答案信息，因此，目标评分模型可以确定输入初始问答模型的参考问题信息和初始问答模型依据参考问题信息输出的参考答案信息之间的匹配程度，即参考问答参数，依据参考问答参数调整初始问答模型得到的目标问答模型，可以确保依据目标问题信息生成的目标答案信息与目标问题信息的匹配程度大于目标匹配程度，解决了相关技术中生成的目标答案与对应的问题的匹配度较低等问题。进而达到了提高生成的目标答案与对应的问题的匹配度的技术效果。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例还提供了一种目标答案的生成装置，需要说明的是，本申请实施例的目标答案的生成装置可以用于执行本申请实施例所提供的用于目标答案的生成方法。以下对本申请实施例提供的目标答案的生成装置进行介绍。

图9是根据本申请实施例的目标答案的生成装置的示意图。如图9所示，该装置包括：

输出模块902，用于将输入初始问答模型的参考问题信息和所述初始问答模型依据所述参考问题信息输出的参考答案信息输入至目标评分模型，得到所述目标评分模型输出的参考问答参数，其中，所述参考问答参数用于指示所述参考问题信息和所述参考答案信息的匹配程度，所述参考问题信息用于指示在目标场景中采集到的问题，所述目标评分模型为采用标注了第一问答参数的N条问答对训练得到的，N为大于或者等于2的正整数，每条所述问答对为所述目标场景中采集到的具有对应关系的第一问题信息和第一答案信息；

调整模块904，用于依据所述参考问答参数对所述初始问答模型的模型参数进行调整，得到目标问答模型，其中，所述目标问答模型用于对输入的第二问题信息输出对应的第二答案信息，并且所述第二答案信息与所述第二问题信息的匹配程度大于目标匹配程度；

生成模块906，用于在接收到所述目标场景中的目标问题信息的情况下，使用所述目标问答模型生成所述目标问题信息对应的目标答案信息。

本申请实施例提供的目标答案的生成装置，通过在接收到目标场景中的目标问题信息的情况下，使用目标问答模型生成目标问题信息对应的目标答案信息，其中，目标评分模型参与目标问答模型的训练过程，在初始问答模型的训练过程中，将输入初始问答模型的参考问题信息和初始问答模型依据参考问题信息输出的参考答案信息输入至目标评分模型，得到目标评分模型输出的参考问答参数，并依据参考问答参数对初始问答模型的模型参数进行调整，得到目标问答模型，由于目标评分模型为采用标注了第一问答参数的N条问答对训练得到的，N为大于或者等于2的正整数，每条问答对为目标场景中采集到的具有对应关系的第一问题信息和第一答案信息，因此，目标评分模型可以确定输入初始问答模型的参考问题信息和初始问答模型依据参考问题信息输出的参考答案信息之间的匹配程度，即参考问答参数，依据参考问答参数调整初始问答模型得到的目标问答模型，可以确保依据目标问题信息生成的目标答案信息与目标问题信息的匹配程度大于目标匹配程度，解决了相关技术中生成的目标答案与对应的问题的匹配度较低等问题。进而达到了提高生成的目标答案与对应的问题的匹配度的技术效果。

可选地，在本申请实施例提供的目标答案的生成装置中，输出模块，包括：

拼接单元，用于将所述参考问题信息和所述参考答案信息拼接为一个所述问答对；

输入单元，用于将所述问答对输入至所述目标评分模型，得到所述目标评分模型输出的问答参数作为所述参考问答参数。

可选地，在本申请实施例提供的目标答案的生成装置中，所述装置还包括：

获取模块，用于在所述将所述问答对输入至所述目标评分模型，得到所述目标评分模型输出的问答参数作为所述参考问答参数之前，获取所述目标场景对应的候选参数组集合，其中，所述候选参数组集合包括T个候选参数组，T为大于或者等于2的正整数，每个所述候选参数组包括具有对应关系的候选问题信息集合、候选答案信息集合和候选问答参数集合，所述候选问题信息集合中的候选问题信息用于表征所述目标场景中的一个候选问题，所述候选答案信息集合中的候选答案信息用于表征所述候选问题的候选答案，所述候选问答参数集合中的候选问答参数用于表征所述候选答案与所述候选问题的匹配程度；不同所述候选参数组中所述候选问题信息集合包括的候选问题信息用于表述不同类的问题，同一所述候选参数组中所述候选问题信息集合包括的候选问题信息用于表述同一类的问题；

生成标注模块，用于根据所述候选参数组集合生成标注了所述第一问答参数的N条所述问答对；

训练模块，用于使用标注了所述第一问答参数的N条所述问答对对初始评分模型进行训练，得到目标评分模型。

可选地，在本申请实施例提供的目标答案的生成装置中，所述生成标注模块，包括：

组合单元，用于将所述候选参数组集合中处于同一所述候选参数组的所述候选问题信息，所述候选答案信息和所述候选问答参数进行自由组合，得到N个组合，其中，每个组合包括的1个所述候选问题信息，1个所述候选答案信息和1个所述候选问答参数；

第一生成单元，用于将N个组合中同一组合中的所述候选问题信息作为所述第一问题信息，所述候选答案信息作为对应的所述第一答案信息，所述候选问答参数作为所述第一问答参数，得到标注了所述第一问答参数的N条所述问答对。

可选地，在本申请实施例提供的目标答案的生成装置中，所述获取模块，包括：

采集单元，用于从所述目标场景中采集M张目标工单，其中，M为大于或者等于2的正整数，所述目标工单用于记录所述目标场景中具有对应关系的问题、答案和问答参数；

第二生成单元，用于根据M张所述目标工单生成所述目标场景对应的候选参数组集合。

可选地，在本申请实施例提供的目标答案的生成装置中，所述第二生成单元，还用于：

可选地，在本申请实施例提供的目标答案的生成装置中，所述训练模块，包括：

训练单元，用于通过以下步骤使用标注了所述第一问答参数的第i条所述问答对对待训练评分模型进行第p轮训练，其中，p为大于或等于1的正整数：

所述目标答案的生成装置包括处理器和存储器，上述模块和单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来提高生成的目标答案与对应的问题的匹配度。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现所述目标答案的生成方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述目标答案的生成方法。

图10是根据本申请实施例的电子设备的示意图，如图10所示，本发明实施例提供了一种电子设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：

可选的，上述处理器执行程序时还可以实现以下步骤：

在所述将所述问答对输入至所述目标评分模型，得到所述目标评分模型输出的问答参数作为所述参考问答参数之前，获取所述目标场景对应的候选参数组集合，其中，所述候选参数组集合包括T个候选参数组，T为大于或者等于2的正整数，每个所述候选参数组包括具有对应关系的候选问题信息集合、候选答案信息集合和候选问答参数集合，所述候选问题信息集合中的候选问题信息用于表征所述目标场景中的一个候选问题，所述候选答案信息集合中的候选答案信息用于表征所述候选问题的候选答案，所述候选问答参数集合中的候选问答参数用于表征所述候选答案与所述候选问题的匹配程度；不同所述候选参数组中所述候选问题信息集合包括的候选问题信息用于表述不同类的问题，同一所述候选参数组中所述候选问题信息集合包括的候选问题信息用于表述同一类的问题；

可选的，上述处理器执行程序时还可以实现以下步骤：

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

可选的，上述计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种目标答案的生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，将输入初始问答模型的参考问题信息和所述初始问答模型依据所述参考问题信息输出的参考答案信息输入至目标评分模型，得到所述目标评分模型输出的参考问答参数，包括：

3.根据权利要求2所述的方法，其特征在于，在所述将所述问答对输入至所述目标评分模型，得到所述目标评分模型输出的问答参数作为所述参考问答参数之前，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述候选参数组集合生成标注了所述第一问答参数的N条所述问答对，包括：

5.根据权利要求3所述的方法，其特征在于，所述获取所述目标场景对应的候选参数组集合，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据M张所述目标工单生成所述目标场景对应的候选参数组集合，包括：

7.根据权利要求3所述的方法，其特征在于，所述使用标注了所述第一问答参数的N条所述问答对对初始评分模型进行训练，得到目标评分模型，包括：

8.一种目标答案的生成装置，其特征在于，包括：

9.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行权利要求1至7中任一项所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行权利要求1至7中任一项所述的方法。