CN117592567A

CN117592567A - 药品问答模型训练方法、装置、电子设备和存储介质

Info

Publication number: CN117592567A
Application number: CN202311558439.1A
Authority: CN
Inventors: 谢方敏; 周峰; 郭陟; 利锦轩
Original assignee: Guangzhou Fangzhou Information Technology Co ltd
Current assignee: Guangzhou Fangzhou Information Technology Co ltd
Priority date: 2023-11-21
Filing date: 2023-11-21
Publication date: 2024-02-23
Anticipated expiration: 2043-11-21
Also published as: CN117592567B

Abstract

本发明公开了一种药品问答模型训练方法、装置、电子设备和存储介质，包括：获取药品问答类的多个训练组，训练组包括提问信息、第一回答信息和问答指令，在同一训练组中，问答指令表示提问信息和第一回答信息的映射关系；针对每个训练组，将提问信息和问答指令作为输入数据；将输入数据输入到初始的药品问答模型中，得到第二回答信息；根据输入数据、第二回答信息以及训练组中的第一回答信息调整药品问答模型的参数，以得到训练好的药品问答模型。结合问答指令共同训练药品问答模型，可以加强药品问答模型根据提问信息输出对应映射关系的提问信息的能力，减少训练数据的数量，在提高编写训练组的编写效率的同时降低了人工成本。

Description

药品问答模型训练方法、装置、电子设备和存储介质

技术领域

本发明涉及药品问答模型训练技术领域，尤其涉及一种药品问答模型训练方法、装置、电子设备和存储介质。

背景技术

智能问答机器人的应用是企业节省人力成本和提高效率的重要手段之一，可以帮助企业提高客户服务的效率和质量，降低企业的成本，提升企业的竞争力。因此，智能问答机器人逐渐被应用于医疗界，即药品问答机器人，药品问答机器人基于医学大语言模型，通过知识强化训练和真实数据的训练，以灵活、智能的交互方式为医务(或医药)人员和患者提供服务。

药品问答机器人的核心即药品问答模型，为了达到教会模型回答医药垂直领域的问题的目的，通常需要人工精心编写各式各样人们在药品问答对话中可能询问的问题以及答案，将编写的内容作为药品问答模型的训练数据。然而，这种训练模式下非常对训练数据的数量要求较高，训练数据较少时，则会影响药品问答模型回答问题的准确性。若要提高药品问答模型回答提问信息的准确性，就要编写大量的训练数据，但这样效率较低且人工成本较高。

发明内容

本发明提供了一种药品问答模型训练方法，以解决药品问答模型训练的问题。

第一方面，本发明提供了一种药品问答模型训练方法，包括：

获取药品问答类的多个训练组，所述训练组包括提问信息、第一回答信息和问答指令，在同一所述训练组中，所述问答指令表示所述提问信息和所述第一回答信息的映射关系；

针对每个所述训练组，将所述提问信息和所述问答指令作为输入数据；

将所述输入数据输入到初始的药品问答模型中，得到第二回答信息；

根据所述输入数据、所述第二回答信息以及所述训练组中的所述第一回答信息调整所述药品问答模型的参数，以得到训练好的所述药品问答模型。

第二方面，本发明提供了一种药品问答模型训练装置，包括：

获取训练组模块，用于获取药品问答类的多个训练组，所述训练组包括提问信息、第一回答信息和问答指令，在同一所述训练组中，所述问答指令表示所述提问信息和所述第一回答信息的映射关系；

获取输入模块，用于针对每个所述训练组，将所述提问信息和所述问答指令作为输入数据；

获取模型回答模块，用于将所述输入数据输入到初始的药品问答模型中，得到第二回答信息；

调整参数模块，用于根据所述输入数据、所述第二回答信息以及所述训练组中的所述第一回答信息调整所述药品问答模型的参数，以得到训练好的所述药品问答模型。

第三方面，本发明提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明第一方面所述的药品问答模型训练方法。

第四方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明第一方面所述的药品问答模型训练方法。

本发明实施例提供了一种药品问答模型训练方法，先获取药品问答类的多个训练组，训练组包括提问信息、第一回答信息和问答指令，在同一训练组中，问答指令表示提问信息和第一回答信息的映射关系；针对每个训练组，将提问信息和问答指令作为输入数据；将输入数据输入到初始的药品问答模型中，得到第二回答信息；根据输入数据、第二回答信息以及训练组中的第一回答信息调整药品问答模型的参数，以得到训练好的药品问答模型。问答指令表示提问信息和第一回答信息的映射关系，那么药品问答模型可以基于问答指令对提问信息进行回答，得到第二回答信息，并基于输入信息、第一回答信息、第二回答信息进行参数调整，在这个过程中，药品问答模型能够学习到输出的回答信息和输入的提问信息之间的映射关系，那么训练好的药品问答模型则能够根据输入的提问信息来输出对应的回答信息，结合问答指令共同训练药品问答模型，可以加强药品问答模型根据提问信息输出对应映射关系的提问信息的能力，即提高了药品问答模型回答问题的准确性，在提高准确性的基础上，则可以减少训练数据的数量，即减少训练组的数量，在提高编写训练组的编写效率的同时降低了人工成本。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种药品问答模型训练方法的流程图；

图2是本发明实施例二提供的一种药品问答模型训练方法的流程图；

图3是本发明实施例三提供的一种药品问答模型训练装置的结构示意图；

图4是本发明实施例四提供的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

实施例一

图1为本发明实施例一提供的一种药品问答模型训练方法的流程图，本实施例可适用于药品问答模型训练的情况，该方法可以由药品问答模型训练装置来执行，该药品问答模型训练装置可以采用硬件和/或软件的形式实现，该药品问答模型训练装置可配置于电子设备中。如图1所示，该药品问答模型训练方法包括：

S101、获取药品问答类的多个训练组。

药品问答是指利用人工智能技术和自然语言处理技术，针对用户提出的关于疾病、药品等问题进行回答的应用，可以回答关于疾病的症状、诊断、治疗、预防，药品的用途、副作用、使用方法、禁忌等相关问题，帮助用户更好地了解疾病信息和药品信息并获得相应的建议和指导。药品问答系统通常基于大量的医学知识和数据进行训练，以便向用户提供准确可靠的疾病和药品的咨询和建议。

训练组包括提问信息、第一回答信息和问答指令，在同一训练组中，问答指令表示提问信息和第一回答信息的映射关系。训练数据中至少需要提问信息和第一回答信息，问答指令可以为空。例如，当询问常识信息，不需要提供具体的上下文信息时，问答指令可以为空。例如，当训练数据为“感冒的症状是什么”时，问答指令字段为“<无输入>”。

对于生成的训练组中的训练数据，提问信息为涉及到疾病的症状、治疗方法、预防措施等方面的问题或询问，第一回答问题为预先设置好的针对提问信息和问答指令的回答，问答指令为一种场景的设定，依据中文的句号、问号或感叹号对问答指令进行划分，不依据语句所含的字符数量。场景可以为具体的环境或角色等，设置问答指令的目的是为了帮助模型带入场景理解问题。对于训练数据的要求包括：

1.在单个问答指令中不重复使用动词，最大化问答指令的多样性。

2.多样化问答指令的语气，如将问答指令与祈使句结合。

3.问答指令包括多种类型，如头脑风暴(brainstorming)，开放式问答(open QA)，封闭式问答(closed QA)，重写(rewrite)，提取(extract)，生成(generation)，分类(classification)，聊天(chat)和总结(summarization)等。

4.问答指令语言为中文，内容为1到2个语句，允许使用祈使句或问句。

5.当问答指令需要提供一些文本素材时，为问答指令生成输入。输入包括为问答指令提供的具体示例，涉及现实数据，不包括简单的占位符和音频、图片、视频或链接等非文本素材。例如：当问答指令需要提供一些文本素材时，输入文本素材样例，当问答指令字段需要提供音频、图片、视频或链接时，则不满足输入要求。

示例1：问答指令为“当患者问你这个问题的时候，你该如何回答”。

提问信息为“我的爷爷，最近不舒服，经过仔细检查结果是多发性硬化症，请问有什么治疗方法吗”。

第一回答问题为“多发性硬化症要确保适当卧床歇息,防止过度疲劳,增加传染,努力争取最大限度的恢复从最初或继续恶化的疾病,动用可能会康复措施(如拉带、滑索、等)尽可能延后疾病的卧床休息时间,细心护理,动用压力床垫,硅胶床垫和其他特殊仪器,以防褥疮在卧床歇息”。

示例2：问答指令为“请根据病情描述，给出最合理的建议”。

提问信息为“我家小孩刚出生十多天，有点发烧，很害怕是肺炎，我和老婆都很着急，请问新生儿肺炎病症是什么”。

第一回答问题为“你好。新生儿肺炎的症状与大龄婴儿非常不同，尤其是出生在两周内的婴儿。新生儿肺炎通常很少出现婴儿肺炎的典型症状，如发烧、咳嗽和咳痰。因此，你需要仔细观察你的宝宝。如果他出现以下症状，你应该更加警惕，考虑是否有新生儿肺炎的可能性:拒绝喝牛奶或容易呛到牛奶精神不佳，嗜睡，口吐白沫体温过低或无升高”。

S102、针对每个训练组，将提问信息和问答指令作为输入数据。

针对每个训练组，数据集中的每个训练组都包含提问信息、问答指令和第一回答信息，将每个训练组中的提问信息和问答指令组合起来构建输入数据，当问答指令为空时，只根据提问信息构建输入数据，将每个训练组中的第一回答信息作为标签，用来验证模型输出结果的准确性。

S103、将输入数据输入到初始的药品问答模型中，得到第二回答信息。

药品问答模型采用端到端的模式，输入提问信息和问答指令，输出第二回答信息。即，将构建的输入数据输入到未训练的初始的药品问答模型中，通过初始的药品问答模型获得第二回答信息。

S104、根据输入数据、第二回答信息以及训练组中的第一回答信息调整药品问答模型的参数，以得到训练好的药品问答模型。

将训练后药品问答模型输出的第二回答信息和训练组中作为标签的第一回答信息，带入药品问答模型训练后的损失函数，根据损失函数对药品问答模型的参数进行更新，使得药品问答模型逐渐学习到输入数据和第一回答信息之间的映射关系，最终得到训练好的药品问答模型，能够根据输入数据生成接近第一回答信息的第二回答信息。

在药品问答模型训练过程中，采用残差连接和均方层归一化，以防止梯度消失或梯度爆炸。在药品问答模型更新参数时，通过初始参数减去经过学习率缩小后的梯度，梯度是指函数在某一点处的变化率或斜率，在多元函数中，梯度是一个向量，表示函数在每个自变量方向上的偏导数，学习率是一种控制模型参数更新步幅的超参数，在机器学习和深度学习中，学习率决定了每次迭代中模型参数更新的幅度大小。激活函数向神经网络中引入非线性因素，通过激活函数神经网络就可以拟合各种曲线。梯度在由输出层到输入层反向传播时为激活函数的输出累乘的形式，当激活函数的输出过小时，经过累乘会造成梯度消失，当激活函数的输出过大时，经过累乘会造成梯度爆炸。

残差连接将药品问答模型浅层的输出做恒等映射输入到深层，在更新梯度时在深层存在由浅层输出的映射，梯度包含1和更新梯度相加的部分，因为1的存在，深层的梯度可以直接传递到浅层，有效防止梯度消失的情况。均方层归一化在残差连接前对参数归一化，有一部分参数直接与残差连接后的参数相加，可以防止梯度爆炸或消失。

在药品问答模型训练过程中，采用快速移动门线性单元(Swish Gated LinearUnits，SwiGLU)作为激活函数，以替代线性整流函数(Rectified Linear Unit，ReLU)作为激活函数，使得方向传播更新梯度时更加平滑，提高模型训练稳定性，提高模型性能。线性整流函数线性整流单元为t＝max(0，x)。快速移动门线性单元为：

SwiGLU(x,W,V,b,c,β)＝Swish_β(xW+b)⊙(xV+c)

Swish_β(x)＝xσ(βx)

其中，x为输入，y为输出，W,V为不同的权重，b,c为不同的偏置，β为超参数。

示例性的，根据输入数据、第二回答信息以及训练组中的第一回答信息调整药品问答模型的参数，以得到训练好的药品问答模型，包括：将输入数据、第一回答信息组成第一对比信息，以及将输入数据、第二回答信息组成第二对比信息；将第一对比信息输入预设的综合打分模型，以得到预设类型的问答特征对应的第一子分数，问答特征的类型的数量为多个；将第二对比信息输入预设的综合打分模型，以得到预设类型的问答特征对应的第二子分数；通过对比第一子分数第二子分数来确定药品问答模型是否合格；若是，确定药品问答模型训练完成；若否，基于第一子分数第二子分数调整药品问答模型的参数，并返回针对每个训练组，将提问信息和问答指令作为输入数据的步骤。

在机器学习的上下文中，超参数是在开始学习过程之前设置值的参数，而不是通过训练得到的参数数据。通常情况下，需要对超参数进行优化，给学习机选择一组最优超参数，以提高学习的性能和效果。

实施例二

图2为本发明实施例二提供的一种药品问答模型训练方法的流程图，本发明实施例在上述实施例一的基础上进行优化，如图2所示，该药品问答模型训练方法包括：

S201、获取药品问答类的多个训练组。

训练组包括提问信息、第一回答信息和问答指令，在同一训练组中，问答指令表示提问信息和第一回答信息的映射关系。

S202、采用非线性的插值算法扩展训练组中数据的文本长度。

将输入数据输入到模型中经过编码获得输入向量，输入向量包括嵌入编码(embedding encoding)和位置编码(positional encoding)。嵌入编码将输入数据的语句中的单词转换为词向量，词向量为多维矩阵，可以通过查表或训练神经网络等方式获得词向量。位置编码的作用为让输入向量携带位置信息，保持输入数据中的单词语序，使药品问答模型能够找出位置特点。

在进行位置编码时药品问答模型选用神经正切核旋转位置编码(neural tangentkernel-Rotary Position Embedding，NTK-RoPE)。

位置编码能够使模型找出位置特点，将位置编码分为绝对位置编码和相对位置编码，绝对位置编码只关注单个位置信息且不具备向外推广的性能，语句输入的长度受到制约，当输入语句的长度大于训练时的语句长度，超出训练语句长度部分的输入语句的位置编码无法表示。相对位置编码中的旋转位置编码(Rotary Position Embedding，RoPE)以复数的指数形式为启发，对向量作旋转变换来编码位置信息扩展位置。

由绝对位置编码转换为相对位置编码的过程如下：例如嵌入编码后的x_m向量位于m处，嵌入编码后的x_n向量位于n处：

<f(x_m,m),f(x_n，n)>＝g(x_m，x_n，m-n)

g(x_m，x_n,m-n)＝Re[x_mx_n*e^i(m-n)θ]

其中，f为绝对位置编码，g计算输入向量之间的相关性，m-n为向量x_m，x_n之间的相对位置。根据欧拉公式可以得到f(x_m,m)的矩阵形式：

将旋转位置编码由二维扩展到d维：

其中，α为常数。为提高药品问答模型在不同输入语句长度情况下的推理能力，在旋转位置编码的基础上进行改良，选用神经正切核旋转位置编码，将旋转位置编码利用线性插值扩展样本长度的方法改进为非线性插值扩展样本长度，使得向量空间有更加均匀的位置变化，更加容易扩展位置。

在旋转位置编码使用内插时，即对目标位置等比例放缩到模型支持的位置处，位置m等比例缩放λ倍，对应向量的第i个分量是周期变大，分辨率变低，相邻位置差异变小。将第i个分量替换为/>d作为维度为超参数，一般取值为大于50。在i较小时/>接近于1，对应向量近似于/>低维部分分辨率得到保持。在i较大时/>接近于/>对应向量近似于/>高维部分接近于内插算法。

示例性的，假设训练语句长度为2k，在训练后的药品问答模型输入的语句长度大于2k时，绝对位置编码方式无法实现药品问答模型对大于2k部分的语句的绝对位置编码，在旋转位置编码使用内插时通过压缩样本间的距离实现相对编码。例如：假设输入语句“感冒是一种常见疾病”的绝对位置编码是感(1)冒(2)是(3)常(4)见(5)疾(6)病(7)，占用了7个样本长度，为了扩展样本长度限制，在旋转位置编码使用内插后，相对位置编码为感(0.5)冒(1.0)是(1.5)常(2.0)见(2.5)疾(3.0)病(3.5)，只占用3.5个样本长度。

旋转位置编码使用内插算法会破坏绝对位置编码时空间的分布，导致位置编码的分布更加密集，药品问答模型难以区分先后顺序、位置大小等问题，在语句长度较小的情况下影响明显。当使用神经正切核旋转位置编码时，可以在输入文本长度不超过训练的文本长度时接近绝对位置编码，保证分辨率和相邻位置的差异。

S203、针对每个训练组，将提问信息和问答指令作为输入数据。

S204、将输入数据输入到初始的药品问答模型中，得到第二回答信息。

S205、将输入数据、第一回答信息组成第一对比信息，以及将输入数据、第二回答信息组成第二对比信息。

输入数据在问答指令不为空时，包含提问信息和问答指令，在问答指令为空时，输入数据中只包含提问信息。将输入数据、第一回答信息组成第一对比信息，意味着将提供的输入数据和预先设置好的针对提问信息和问答指令的第一回答信息结合在一起。将输入数据、第二回答信息组成第二对比信息，意味着将输入数据和药品问答模型给出的第二回答信息结合在一起。将不同的回答信息结合输入数据进行对比，帮助衡量药品问答模型针对提问信息和问答指令的第二回答信息和第一回答信息之间的差别，有助于判断药品问答模型回答的准确性。

S206、将第一对比信息输入预设的综合打分模型，以得到预设类型的问答特征对应的第一子分数。

将第一对比信息输入预设的综合打分模型，意味着将输入数据和预先设置好的针对提问信息和问答指令的第一回答信息传递给预设好的打分模型进行评估。打分模型考虑不同类型的问答特征，用于判断回答的质量，问答特征的类型的数量为多个，包括准确性、指令服从性、信息覆盖率、可读性、无害性，在打分时至少包括全部类型的问答特征中的至少2种，当问答指令为空时，不存在指令服从性。

综合打分模型选取快速聊天模型(FastChat)，来对输入的第一对比信息进行分析和评估。FastChat是用于训练、部署和评估基于大型语言模型的聊天机器人的开放平台。

通过综合打分模型对第一对比信息进行评估后，针对特定类型的问答特征，获得了一个针对该特征的分数。这个分数可以反映回答在特定方面的表现，比如是否准确、清晰、相关等。

S207、将第二对比信息输入预设的综合打分模型，以得到预设类型的问答特征对应的第二子分数。

将第二对比信息输入预设的综合打分模型，意味着将输入数据和通过药品问答模型回答的第二回答信息传递给预设好的打分模型进行评估。

通过综合打分模型，可以更客观地评价回答的质量，同时也为后续的决策提供参考，有助于系统化地对不同类型的问答特征进行评估，从而更好地衡量第一回答信息和第二回答信息之间的差距。

S208、通过对比第一子分数第二子分数来确定药品问答模型是否合格。

针对每个类型的问答特征，分别对第一对比信息进行评分获得第一子分数，和对第二对比信息进行评分获得第二子分数，并将第一子分数和第二子分数进行对比，对比过程可以帮助判断药品问答模型在每个方面的表现是否达到了一定的标准或要求。

如果第一子分数和第二子分数的差距在预设阈值范围内，认为药品问答模型在所比较类型的问答特征下是合格的。反之，如果第一子分数和第二子分数的差距在预设阈值范围外，认为药品问答模型在这个所比较类型的问答特征下是不合格的，需要对药品问答模型的参数进行进一步调整。

在一个可选的实施例中，通过对比第一子分数和第二子分数来确定药品问答模型是否合格，包括：针对每个类型的问答特征，计算第一子分数与第二子分数的子分数差值。判断是否存在子分数差值大于预设的第一阈值。若是，确定药品问答模型不合格。若否，确定药品问答模型合格。

将不同类型的问答特征结合，即，将不同类型的问答特征下的第一子分数乘以各自预设的权重后相加，获得将不同类型的问答特征结合的第一总分数。同理，将不同类型的问答特征下的第二子分数乘以各自预设的权重后相加，获得将不同类型的问答特征结合的第二总分数。获得第一总分数和第二总分数的过程可以表示为：

s1＝w1x1+w2x2+w3x3+w4x4+w5x5

s2＝w1y1+w2y2+w3y3+w4y4+w5y5

其中，x1，x2，x3，x4，x5分别为针对准确性、指令服从性、信息覆盖率、可读性、无害性的第一子分数，y1，y2，y3，y4，y5分别为针对准确性、指令服从性、信息覆盖率、可读性、无害性的第二子分数，w1,w2，w3，w4，w5分别为针对准确性、指令服从性、信息覆盖率、可读性、无害性的权重，w1>w2>w3>w4>w5，s1为第一总分数，s2为第二总分数，当问答指令为空时，在计算总分数时结合的问答特征中不包含指令服从性。

如果第一总分数和第二总分数的差距在预设阈值范围内，认为药品问答模型在不同类型的问答特征结合上的表现是合格的。反之，如果第一总分数和第二总分数的差距在预设阈值范围外，认为药品问答模型是不合格的，需要对药品问答模型的参数进行进一步调整。

在一个可选的实施例中，通过对比第一子分数第二子分数来确定药品问答模型是否合格，包括：基于第一子分数和预设的特征权重计算第一子分数的第一总分数。基于第二子分数和预设的特征权重计算第二子分数的第二总分数。计算第一总分数与第二总分数的总分数差值。判断总分数差值是否小于预设的第二阈值。若是，确定药品问答模型合格。若否，确定药品问答模型不合格。

在每个类型的问答特征下比较第一子分数和第二子分数后，将不同类型的问答特征结合，对比第一总分数和第二总分数分数。如果在当前类型的问答特征下第一子分数和第二子分数的差距在预设阈值范围内，认为药品问答模型在当前类型的问答特征下是合格的，继续比较下一类型的问答特征下第一子分数和第二子分数的差距，若所有类型的问答特征下第一子分数和第二子分数的差距都在预设阈值范围内，继续比较第一总分数和第二总分数的差距。如果第一子分数和第二子分数的差距在预设阈值范围外，认为药品问答模型在所比较类型的问答特征下是不合格的，需要对药品问答模型的参数进行进一步调整。如果第一总分数和第二总分数的差距在预设阈值范围内，认为药品问答模型在不同类型的问答特征结合上的表现是合格的。反之，如果第一总分数和第二总分数的差距在预设阈值范围外，认为药品问答模型是不合格的，需要对药品问答模型的参数进行进一步调整。

在一个可选的实施例中，通过对比第一子分数第二子分数来确定药品问答模型是否合格，包括：针对每个类型的问答特征，计算第一子分数与第二子分数的子分数差值。判断是否存在子分数差值大于预设的第一阈值。若存在子分数差值大于预设的第一阈值，确定药品问答模型不合格。若不存在子分数差值大于预设的第一阈值，基于第一子分数和预设的特征权重计算第一子分数的第一总分数。基于第二子分数和预设的特征权重计算第二子分数的第二总分数。计算第一总分数与第二总分数的总分数差值。判断总分数差值是否小于预设的第二阈值。若是，确定药品问答模型合格。若否，确定药品问答模型不合格。

通过对比分数来确定模型是否合格，可以提供一个客观的评估方法，帮助决策者判断模型在药品相关问答方面的质量。这种方法有助于确保模型满足预期的要求，同时也为后续的应用和改进提供了指导。

S209、若是，确定药品问答模型训练完成。

当对第一对比信息和对第二对比信息打分获得打分的分数，在选择比较的问答特征下打分的分数之间的差距在预设阈值内，药品问答模型在选择比较的问答特征下是合格的，针对选择比较的问答特征，药品问答模型训练完成。

S210、若否，基于第一子分数第二子分数调整药品问答模型的参数，并返回针对每个训练组，将提问信息和训练指令作为输入数据的步骤。

当对第一对比信息和对第二对比信息打分获得打分的分数，在选择比较的问答特征下打分的分数之间的差距在预设阈值外，药品问答模型在选择比较的问答特征下是不合格的，针对选择比较的问答特征，对药品问答模型继续训练对药品问答模型的参数进行调整，并再次进行打分，直至当对第一对比信息和对第二对比信息打分的分数在选择比较的问答特征下分数之间的差距在预设阈值内完成训练。

本发明实施例二提供的一种药品问答模型训练方法，为了扩展样本长度限制，使用神经正切核旋转位置编码，在扩展样本长度限制的同时可以在输入文本长度不超过训练的文本长度时接近绝对位置编码，保证分辨率和相邻位置的差异。将不同的回答信息结合输入数据进行对比，帮助衡量药品问答模型针对提问信息和问答指令的第二回答信息和先设置好的针对提问信息和问答指令的第一回答信息之间的差别，有助于判断药品问答模型回答的准确性。通过综合打分模型，可以更客观地评价回答的质量，同时也为后续的决策提供参考，有助于系统化地对不同类型的问答特征进行评估，从而更好地衡量第一回答信息和第二回答信息之间的差距。通过对比分数来确定模型是否合格，可以提供一个客观的评估方法，帮助决策者判断模型在药品相关问答方面的质量，有助于确保模型满足预期的要求，同时也为后续的应用和改进提供了指导。

实施例三

图3为本发明实施例三提供的一种药品问答模型训练装置的结构示意图。如图3所示，该药品问答模型训练装置包括：

获取训练组模块301，用于获取药品问答类的多个训练组，所述训练组包括提问信息、第一回答信息和问答指令，在同一所述训练组中，所述问答指令表示所述提问信息和所述第一回答信息的映射关系；

获取输入模块302，用于针对每个所述训练组，将所述提问信息和所述问答指令作为输入数据；

获取模型回答模块303，用于将所述输入数据输入到初始的药品问答模型中，得到第二回答信息；

调整参数模块304，用于根据所述输入数据、所述第二回答信息以及所述训练组中的所述第一回答信息调整所述药品问答模型的参数，以得到训练好的所述药品问答模型。

在本发明的一个实施例中，所述调整参数模块304包括：

组成对比信息模块，用于将所述输入数据、所述第一回答信息组成第一对比信息，以及将所述输入数据、所述第二回答信息组成第二对比信息；

第一打分模块，用于将所述第一对比信息输入预设的综合打分模型，以得到预设类型的问答特征对应的第一子分数，所述问答特征的类型的数量为多个；

第二打分模块，用于将所述第二对比信息输入预设的综合打分模型，以得到预设类型的问答特征对应的第二子分数；

分数对比模块，通过对比所述第一子分数所述第二子分数来确定所述药品问答模型是否合格；若是，则执行训练完成模块，若否，则执行继续训练模块；

训练完成模块，用于确定所述药品问答模型训练完成；

继续训练模块，用于基于所述第一子分数所述第二子分数调整所述药品问答模型的参数，并返回执行获取输入模块302。

在本发明的一个实施例中，子分数对比模块包括：

子差值计算模块，用于针对每个类型的所述问答特征，计算所述第一子分数与所述第二子分数的子分数差值；

子差值判断模块，用于判断是否存在所述子分数差值大于预设的第一阈值；若是执行确定不合格模块，若否执行确定合格模块；

确定不合格模块，确定所述药品问答模型不合格；

确定合格模块，确定所述药品问答模型合格。

在本发明的一个实施例中，子分数对比模块还包括：

第一计算模块，用于基于所述第一子分数和预设的特征权重计算所述第一子分数的第一总分数；

第二计算模块，用于基于所述第二子分数和预设的特征权重计算所述第二子分数的第二总分数；

总差值计算模块，用于计算所述第一总分数与所述第二总分数的总分数差值；

总差值判断模块，用于判断所述总分数差值是否小于预设的第二阈值；若是执行确定合格模块，若否执行确定不合格模块；

确定合格模块，用于确定所述药品问答模型合格；

确定不合格模块，用于确定所述药品问答模型不合格。

在本发明的一个实施例中，子分数对比模块还包括：

第一综合判断模块，用于判断是否存在所述子分数差值大于预设的第一阈值；若是，则执行确定不合格模块，若否，则执行第一计算模块和第二计算模块；

确定不合格模块，用于确定所述药品问答模型不合格；

第二综合判断模块，用于判断所述总分数差值是否小于预设的第二阈值；若是，执行确定合格模块，若否，执行确定不合格模块；

确定合格模块，用于确定所述药品问答模型合格；

确定不合格模块，用于确定所述药品问答模型不合格。

在本发明的一个实施例中，在所述获取输入模块302之前，还包括：

扩展文本长度模块，用于采用非线性的插值算法扩展所述训练组中数据的文本长度。

在本发明的一个实施例中，还包括：

问答特征说明模块，用于说明所述问答特征包括准确性、指令服从性、信息覆盖率、可读性、无害性中的至少2种。

本发明实施例所提供的药品问答模型训练装置可执行本发明任意实施例所提供的药品问答模型训练方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4示出了可以用来实施本发明的实施例的电子设备40的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图4所示，电子设备40包括至少一个处理器41，以及与至少一个处理器41通信连接的存储器，如只读存储器(ROM)42、随机访问存储器(RAM)43等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器41可以根据存储在只读存储器(ROM)42中的计算机程序或者从存储单元48加载到随机访问存储器(RAM)43中的计算机程序，来执行各种适当的动作和处理。在RAM 43中，还可存储电子设备40操作所需的各种程序和数据。处理器41、ROM 42以及RAM 43通过总线44彼此相连。输入/输出(I/O)接口45也连接至总线44。

电子设备40中的多个部件连接至I/O接口45，包括：输入单元46，例如键盘、鼠标等；输出单元47，例如各种类型的显示器、扬声器等；存储单元48，例如磁盘、光盘等；以及通信单元49，例如网卡、调制解调器、无线通信收发机等。通信单元49允许电子设备40通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器41可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器41的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器41执行上文所描述的各个方法和处理，例如药品问答模型训练方法。

在一些实施例中，药品问答模型训练方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元48。在一些实施例中，计算机程序的部分或者全部可以经由ROM 42和/或通信单元49而被载入和/或安装到电子设备40上。当计算机程序加载到RAM 43并由处理器41执行时，可以执行上文描述的药品问答模型训练方法的一个或多个步骤。备选地，在其他实施例中，处理器41可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行药品问答模型训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种药品问答模型训练方法，其特征在于，包括：

2.如权利要求1所述的药品问答模型训练方法，其特征在于，在针对每个所述训练组，将所述提问信息和所述问答指令作为输入数据之前，还包括：

采用非线性的插值算法扩展所述训练组中数据的文本长度。

3.如权利要求1所述的药品问答模型训练方法，其特征在于，根据所述输入数据、所述第二回答信息以及所述训练组中的所述第一回答信息调整所述药品问答模型的参数，以得到训练好的所述药品问答模型，包括：

将所述输入数据、所述第一回答信息组成第一对比信息，以及将所述输入数据、所述第二回答信息组成第二对比信息；

将所述第一对比信息输入预设的综合打分模型，以得到预设类型的问答特征对应的第一子分数，所述问答特征的类型的数量为多个；

将所述第二对比信息输入预设的综合打分模型，以得到预设类型的问答特征对应的第二子分数；

通过对比所述第一子分数所述第二子分数来确定所述药品问答模型是否合格；

若是，确定所述药品问答模型训练完成；

若否，基于所述第一子分数所述第二子分数调整所述药品问答模型的参数，并返回针对每个所述训练组，将所述提问信息和所述问答指令作为输入数据的步骤。

4.如权利要求3所述的药品问答模型训练方法，其特征在于，通过对比所述第一子分数所述第二子分数来确定所述药品问答模型是否合格，包括：

针对每个类型的所述问答特征，计算所述第一子分数与所述第二子分数的子分数差值；

判断是否存在所述子分数差值大于预设的第一阈值；

若是，确定所述药品问答模型不合格；

若否，确定所述药品问答模型合格。

5.如权利要求3所述的药品问答模型训练方法，其特征在于，通过对比所述第一子分数所述第二子分数来确定所述药品问答模型是否合格，包括：

基于所述第一子分数和预设的特征权重计算所述第一子分数的第一总分数；

基于所述第二子分数和预设的特征权重计算所述第二子分数的第二总分数；

计算所述第一总分数与所述第二总分数的总分数差值；

判断所述总分数差值是否小于预设的第二阈值；

若是，确定所述药品问答模型合格；

若否，确定所述药品问答模型不合格。

6.如权利要求3所述的药品问答模型训练方法，其特征在于，通过对比所述第一子分数所述第二子分数来确定所述药品问答模型是否合格，包括：

判断是否存在所述子分数差值大于预设的第一阈值；

若存在所述子分数差值大于预设的第一阈值，确定所述药品问答模型不合格；

若不存在所述子分数差值大于预设的第一阈值，基于所述第一子分数和预设的特征权重计算所述第一子分数的第一总分数；基于所述第二子分数和预设的特征权重计算所述第二子分数的第二总分数；

计算所述第一总分数与所述第二总分数的总分数差值；

判断所述总分数差值是否小于预设的第二阈值；

若是，确定所述药品问答模型合格；

若否，确定所述药品问答模型不合格。

7.如权利要求1-6任一项所述的药品问答模型训练方法，其特征在于，所述问答特征包括准确性、指令服从性、信息覆盖率、可读性、无害性中的至少2种。

8.一种药品问答模型训练装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的药品问答模型训练方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的药品问答模型训练方法。