CN117556232A

CN117556232A - 评分模型训练方法、药品问答方法及相关装置

Info

Publication number: CN117556232A
Application number: CN202311643001.3A
Authority: CN
Inventors: 谢方敏; 周峰; 郭陟; 利锦轩
Original assignee: Guangzhou Fangzhou Information Technology Co ltd
Current assignee: Guangzhou Fangzhou Information Technology Co ltd
Priority date: 2023-11-30
Filing date: 2023-11-30
Publication date: 2024-02-13
Anticipated expiration: 2043-11-30

Abstract

本发明公开了一种评分模型训练方法、药品问答方法及相关装置，包括：获取多个训练组，每个训练组包括药品问答机器人对同一问题输出的多个回答信息，回答信息标注有表示优先级的序号，针对每个训练组，通过评分模型输出每个回答信息的分数，分别将不同的两个回答信息配对为数据组，针对每个数据组，计算优先级高的回答信息与优先级低的回答信息的分数差值，计算所有数据组对应的分数差值的总和值，在使得总和值最大化的基础上调节评分模型的参数。对回答信息标注表示优先级序号，简化处理方式，减少了数据处理时间，最大化拉开优先级高与优先级低的回答信息分数差值，评分模型对网络输出“更敏感”，提高了药品机器人回答问题的准确性。

Description

评分模型训练方法、药品问答方法及相关装置

技术领域

本发明涉及药品信息问答技术领域，尤其涉及一种评分模型训练方法、药品问答方法及相关装置。

背景技术

智能问答机器人的应用是企业节省人力成本和提高效率的重要手段之一，可以帮助企业提高客户服务的效率和质量，降低企业的成本，提升企业的竞争力。因此，智能问答机器人逐渐被应用于医疗界，即药品问答机器人，药品问答机器人基于医学大语言模型，通过知识强化训练和真实数据的训练，以灵活、智能的交互方式为医务(或医药)人员和患者提供服务。

为了能够量化评价药品问答机器人的回答质量，设计一种评分机制，防止机器人在训练数据中过度拟合，提高其泛化能力，同时对机器人的训练进行监控、更新和管理，以保持其性能和稳定。

当前主要是采用人工打分的方式，对药品问答机器人输出的回答内容进行打分，由于不同的人对于问答机器人生成的句子的打分标准不同，奖励模型很难训练出一套通用的回答问题的标准。例如：同样的一句话，“雨天对风湿病人的身体不好”，有的标注人员会更侧重这句话的语义表达明确，给了5分，有的标注人员更侧重句子严谨程度，给了3分，那么奖励模型在训练的时候就很难学习到这句话究竟是“好”还是“不好”，则会影响药品问答机器人的训练效果。

发明内容

本发明提供了一种评分模型训练方法，以解决因采用人工打分时因打分标准不同而影响药品问答机器人的训练效果的问题。

第一方面，本发明提供了一种评分模型训练方法，所述评分模型用于对药品问答机器人输出的回答信息进行评分，包括：

获取多个训练组，每个所述训练组包括药品问答机器人对同一问题输出的多个所述回答信息，所述回答信息标注有表示优先级的序号；

针对每个所述训练组，通过所述评分模型输出每个所述回答信息的分数；

分别将不同的两个所述回答信息配对为数据组；

针对每个所述数据组，计算优先级高的所述回答信息与优先级低的所述回答信息的分数差值；

计算所有所述数据组对应的分数差值的总和值；

在使得所述总和值最大化的基础上调节所述评分模型的参数。

第二方面，本发明提供了一种药品问答方法，包括：

加载如第一方面所述的评分模型训练方法训练的评分模型；

依据所述评分模型训练药品问答机器人，以使所述药品问答机器人的回答信息的评分趋向预设的分数阈值；

若完成训练，则向客户端发布所述药品问答机器人；

接收所述客户端向所述药品问答机器人发送的、与药品相关的提问信息；

将所述提问信息输入所述药品问答机器人中、以在所述药品机器人的输出层对所述提问信息输出回答信息；

将所述回答信息发送至所述客户端。

第三方面，本发明提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明第一方面所述的评分模型训练方法，和/或，如第二方面所述的药品问答方法。

第四方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明第一方面所述的评分模型训练方法，和/或，如第二方面所述的药品问答方法。

本发明实施例提供了一种评分模型训练方法，评分模型用于对药品问答机器人输出的回答信息进行评分，包括：获取多个训练组，每个训练组包括药品问答机器人对同一问题输出的多个回答信息，回答信息标注有表示优先级的序号；针对每个训练组，通过评分模型输出每个回答信息的分数；分别将不同的两个回答信息配对为数据组；针对每个数据组，计算优先级高的回答信息与优先级低的回答信息的分数差值，计算所有数据组对应的分数差值的总和值；在使得总和值最大化的基础上调节评分模型的参数。

第一，通过对回答信息标注表示优先级序号的方式，在对回答信息进行标注时，无需对回答信息精准打分，简化了回答信息的处理方式，减少了数据处理的时间，提高了模型训练的效率；

第二，分数差值为优先级高的回答信息与优先级低的回答信息的分数差值，使得所有的分数差值的总和值最大，即使得优先级高的回答信息的分数更高，优先级低的回答信息的分数更低，可以最大化拉开优先级较高的回答的信息和优先级较低的回答信息之间的分数差距。使得评分模型对网络输出“更敏感”，更有利于药品问答机器人对输出的回答信息进行优劣分类，提高药品机器人回答问题的准确性，解决了因采用人工打分时因打分标准不同而影响药品问答机器人的训练效果的问题。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种评分模型训练方法的流程图；

图2是本发明实施例二提供的一种评分模型训练方法的流程图；

图3是本发明实施例三提供的一种药品问答方法的流程图；

图4是本发明实施例四提供的一种评分模型训练装置的结构示意图；

图5是本发明实施例五提供的一种药品问答机器人的结构示意图；

图6是本发明实施例六提供的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

实施例一

图1为本发明实施例一提供的一种评分模型训练方法的流程图，本实施例可适用于评分模型训练的情况，该方法可以由评分模型训练装置来执行，该评分模型训练装置可以采用硬件和/或软件的形式实现，该评分模型训练装置可配置于电子设备中。如图1所示，该评分模型训练方法包括：

S101、获取多个训练组，每个训练组包括药品问答机器人对同一问题输出的多个回答信息，回答信息标注有表示优先级的序号。

构建训练数据集，收集与药品相关的数据，包括药品名称、用途、剂量、不良反应等信息，还可以包括药品说明书、医学文献、问答社区等，本实施例对此不进行限制，对收集到的药品数据进行预处理，包括文本清洗、去除噪声、标记化等，在预处理时，应注意标准化药品名称和描述，以确保药品问答机器人能够正确理解和回答问题。

构建多个训练组对药品问答评分模型进行训练，对于每个训练组中，从问题库中选择问题，药品问答机器人对同一问题输出多个回答信息，标注人员对输出的多个回答信息进行相对排序，其中，回答信息是指药品问答机器人根据用户提出的问题进行回答并提供相应的信息，在对回答信息的标注过程中，标注人员对多个回答信息进行相对排序，将绝对分数转换成相对排序可以简化评估过程，相对排序只需要比较每个回答信息之间的相对关系，而不需要对每个项目进行具体的量化评分，降低了受到主观因素的影响。

示例性的，药品机器人对“请介绍布洛芬这种药品”输出的两个回答信息包括：

A.布洛芬是一种非甾体抗炎药，常用于缓解疼痛、退烧和减轻炎症；

B.布洛芬是通过抑制体内的炎症反应和疼痛传导来发挥作用。

人工打分，需打出精确的分数，较难操作，也费时，不同的标注人员对这两个回答给出的得分可能不同，例如，标注人员对X回答打分是80分，对B回答打分是60分，而标注人员对Y回答打分是85分，对B回答打分是55分。但是如果给这两句话进行排序，就能得到第一句优于第二句的结果，即A回答信息优于B回答信息，A回答标注序号为1，B回答标注序号为2，那么标注人员的标注结果则是一致的，并且对几个句子进行排序的操作难度较小，速度较快，有利于提高数据处理效率。

S102、针对每个训练组，通过评分模型输出每个回答信息的分数。

在每个训练组中，采用当前评分模型所配置的模型参数，输入到评分模型中，对多个回答信息进行打分，输出每个回答信息对应的分数值，其中，分数值是一个衡量提问信息与回答信息之间匹配程度的指标，得分越高表明答案越相关或合适，反映了回答信息的优先级与回答信息的内容的关联性，评分模型在学会这种关联性的情况下，根据提问信息给不同的回答信息打分。r_θ(x,y_w)表示为评分模型输出每个回答信息的分数函数，其中，x表示输入语句，y_w表示与输入语句x对应的回答信息的得分。

S103、分别将不同的两个回答信息配对为数据组。

对药品问答机器人对同一问题输出的回答信息进行两两配对，获得多个回答信息数据组，其中，数据组是由回答信息组成的集合，每个数据组中包含了两个不同的回答信息，提供了对多个数据点进行集合操作和整体分析的能力。

示例性的，药品问答机器人对同一问题输出了四个回答信息，分别为x₁、x₂、x₃和x₄，分别将不同的两个回答信息配对为数据组可获得六个数据组，分别为(x₁,x₂)、(x₁,x₃)、(x₁,x₄)、(x₂,x₃)、(x₂,x₄)和(x₃,x₄)。

S104、针对每个数据组，计算优先级高的回答信息与优先级低的回答信息的分数差值。

对每一个已经配对好的数据组进行分数差值的计算，在每个数据组中，包括优先级高的回答信息与优先级低的回答信息，将优先级高的回答信息的分数减去优先级低的回答信息的分数，即为分数差值。

在一个可选的实施例中，优先级与排列顺序成反比，排列顺序越靠前(即序号越小)，则回答信息的优先级越高，将优先级高的回答信息与优先级低的回答信息做差即可得到该数据组的分数差值。

在另一个可选的实施例中，优先级与排列顺序成正比，排列顺序越后前(即序号越大)，则回答信息的优先级越高，将优先级高的回答信息与优先级低的回答信息做差即可得到该数据组的分数差值。

示例性的，优先级与排列顺序成反比，在数据组(x₁,x₂)中，优先级高的回答信息x₁的分数为r₁，优先级低的回答信息x₂的分数为r₂，它们的分数差值为r₁-r₂。

S105、计算所有数据组对应的分数差值的总和值。

具体的，可以将所有数据组的分数差值进行求和，得到所有数据组分数差值的总和值。示例性的，存在6个数据组，分别为(x₁,x₂)、(x₁,x₃)、(x₁,x₄)、(x₂,x₃)、(x₂,x₄)和(x₃,x₄)，其对应的分数差值的总和值的计算过程如下：

(r₁-r₂)+(r₁-r₃)+(r₁-r₄)+(r₂-r₃)+(r₂-4 r₄)+(r₃-r₄)

＝3r₁+r₂-r₃-3r₄

即该6个数据组对应的分数差值的总和值为3r₁+r₂-r₃-3r₄。

可选的，可以根据数据组的数量来推导总和值的表达式。直接采用总和值的表达式来计算总和值，可以节约计算资源，提高计算速度。

在一个可选的实施例中，在计算所有数据组对应的分数差值的总和值之前，需要对每个数据组的分数差值进行归一化处理，将分数差值归一化，归一化公式为：

σ(z)＝1/(1+e^-z)

其中，z为归一化前的分数差值，σ(z)为归一化后的分数差值，将每两项的差通过sigmoid函数，将分数差值放缩到0到1之间。

通过归一化处理，可以将分数差值设置为同一标准体系下的数值，便于数据对比。

S106、在使得总和值最大化的基础上调节评分模型的参数。

评分模型的训练目的是使得总和值最大化，总和值为分数差值的和值，即使得各个分数差值最大化，在使得总和值最大化的基础上调节评分模型的参数，可扩大优先等级高的回答信息的分数和优先等级低的回答信息的分数之间的差距。

在模型训练时，可以预先设置训练条件，作为停止训练评分模型的条件，例如，迭代的次数达到某个阈值，损失值小于某个阈值，损失值在多次迭代训练中变化的幅度小于某个阈值，等等，在每轮迭代训练中，判断是否满足训练条件，如果满足训练条件，则可以认为评分模型完成训练。

实施例二

图2为本发明实施例二提供的一种评分模型训练方法的流程图，本发明实施例在上述实施例一的基础上进行优化，如图2所示，该评分模型训练方法包括：

S201、获取多个训练组，每个训练组包括药品问答机器人对同一问题输出的多个回答信息，回答信息标注有表示优先级的序号。

S202、针对每个训练组，通过评分模型输出每个回答信息的分数。

S201-S202分别与实施例一中的S101-S102相似，具体可以参考S101-S102的相关描述。

S203、对不同优先级的回答信息赋予不同的分数权重，分数权重与优先级成反比。

即优先级较高的回答信息，其分数权重就较小，优先级较低的回答信息，其分数权重就较大。分数权重反映了回答信息的分数之间的比例关系。

在一个可选实施例中，分数权重与优先级成反比，分数权重的计算公式可以表示为：

其中，i表示回答信息的序号，K表示回答信息的个数。

示例性的，总共输出了四个回答信息，则K＝4回答信息的优先级从高到低排序为1-4，序号1-4的回答信息的分数权重依次为λ₁＝1/4，λ₂＝1/3，λ₃＝1/2，λ₄＝1。即，即优先级越高，其分数权重就越小，优先级越低，其分数权重就越大。

S204、针对每个回答信息，将回答信息当前的分数与对应的分数权重的乘积作为新的分数。

示例性的，回答信息A当前的分数为x_A，分数权重为λ_A，那么新的分数为W_A·λ_B。回答信息B当前的分数为λ_B，分数权重为W_B，那么新的分数为W_B·λ_B。

S205、分别将不同的两个回答信息配对为数据组。

具体包括：将回答信息的序号放入序号池中；将序号池中当前序号最小的回答信息作为第一方信息；遍历其他序号的回答信息，将未与第一方信息配对的回答信息作为第二方信息；分别将每个第二方信息与第一方信息配对为数据组；将第一方信息的序号从序号池中移出，判断序号池中是否存在序号；若是，返回将序号池中当前序号最小的回答信息作为第一方信息的步骤；若否，确定回答信息配对完成。

先建立序号池，将回答信息的序号放入该序号池中，则初始的序号池是所有回答信息的序号的集合。包含了药品问答机器人对同一问题输出的多个回答信息的序号，每完成一轮配对，就将第一方信息的序号从序号池中移出，直到序号池中没有序号，则确定回答信息配对完成。

S206、针对每个数据组，计算优先级高的回答信息与优先级低的回答信息的分数差值。

回答信息的优先级与回答信息的序号大小与成反比，即序号越小优先级越高，例如，回答信息按照优先级从高到低为x₁、x₂、x₃、x₄，(更新后的)分数依次为λ₁r₁、λ₂r₂、λ₃r₃、λ₄r₄，共可配对为6个数据组，分别为(x₁,x₂)、(x₁,x₃)、(x₁,x₄)、(x₂,x₃)、(x₂,x₄)和(x₃,x₄)，在(x₁,x₂)数据组中的分数差值为(λ₁r₁-λ₂r₂)，在(x₁,x₃)数据组中的分数差值为(λ₁r₁-λ₃r₃)，在(x₁,x₄)数据组中的分数差值为(λ₁r₁-λ₄r₄)，在(x₂,x₃)数据组中的分数差值为(λ₂r₂-λ₃r₃)，在(x₂,x₄)数据组中的分数差值为(λ₂r₂-λ₄r₄)，在(x₃,x₄)数据组中的分数差值为(λ₃r₃-λ₄r₄)。

S205-S206分别与实施例一中的S103-S104相似，具体可以参考S103-S104的相关描述。

S207、计算所有数据组对应的分数差值的总和值。

示例性的，如S206中示例的6个数据组，所有数据组对应的分数差值总和值的计算过程如下：

(λ₁r₁-λ₂r₂)+(λ₁r₁-λ₃r₃)+(λ₁r₁-λ₄r₄)+(λ₂r₂-λ₃r₃)+(λ₂r₂-λ₄r₄)

+(λ₃r₃-λ₄r₄)＝3λ₁r₁+λ₂r₂-λ₃r₃-3λ₄r₄

即该6个数据组对应的分数差值的总和值为3λ₁r₁+λ₂r₂-λ₃r₃-3λ₄r₄

S208、在使得总和值最大化的基础上调节评分模型的参数。

由于本实施例是在使得总和值最大化的基础上调节评分模型的参数总和值，那么，在优先级较高的回答信息的分数权重较小的情况下，要想使得总和值最大化，便需要使得优先级较高的回答信息的分数最大化，以此方式来训练评分模型，使得优先级较高的回答信息的分数更高，且优先级较高的回答信息的分数更低，进一步拉开了优先级较高的回答信息与优先级较低的回答信息之间的分数差距，则在采用评分模型对药品问答机器人进行训练时，能明显地提高药品问答机器人输出优先级较高、质量较好的回答信息的能力，也能加快药品问答机器人的模型的训练速度。

在一个可选的实施例中，在使得总和值最大化的基础上调节评分模型的参数，包括：将总和值代入预设的损失函数中，得到损失值，总和值的大小与损失值成反比，损失值的大小与模型的训练效果成反比；判断损失值是否小于预设的损失阈值；若是，停止训练，得到训练好的评分模型；若否，基于损失值调节评分模型的参数，返回针对每个训练组，通过评分模型输出每个回答信息的分数的步骤。

为训练评分模型预先设置一个损失阈值，其中，损失阈值是在训练模型时事先设定的一个数值，用于判断模型的训练效果是否达到预期要求，训练模型可能需要耗费大量的时间和计算资源，通过设置损失阈值，当模型的损失值达到或低于阈值时，可以提前终止训练，也可以监测模型训练的进展和收敛情况，评估模型在训练数据上的性能。当损失值小于预设的损失阈值时，即当模型的损失函数的值低于或等于该阈值时，可以认为模型已经取得了较好的拟合效果，可以停止训练，得到训练好的评分模型。当损失值大于预设的损失阈值时，表明模型在当前训练阶段的拟合效果还不够理想，调节评分模型的参数，对评分模型继续迭代训练。

可选的，回答信息的优先级与回答信息的序号大小与成反比，损失函数为：

loss＝-log{∑_i,j[λ_ir_i(x,y_i)-λ_jr_j(x,y_j)]}；

其中，loss为损失值，λ_i、λ_j分别为序号i、j的回答信息的分数权重，i＜j，1≤i＜j≤k，k为回答信息的个数，r_i(x,y_i)为针对输入语句x的回答信息y_i的分数，r_j(x,y_j)为针对输入语句x的回答信息y_j的分数。

本实施例对不同优先级的回答信息赋予不同的分数权重，分数权重与优先级成反比，针对每个回答信息，将回答信息当前的分数与对应的分数权重的乘积作为新的分数，对优先级更高的回答信息赋予更小的权重，总和值是优先级高的回答信息与优先级高的回答信息的分数差值，又在使得总和值最大化的基础上调节评分模型的参数，要使得总和值最大化，即需使得优先级高的回答信息的分数较高，优先级低的回答信息的分数较低。又通过对优先级更高的回答信息赋予更小的权重，那么要想总和值最大化，需要进一步提高优先级高的回答信息的分数，进一步降低优先级低的回答信息的分数，扩大了优先级高的回答信息与优先级低的回答信息之间的分数差距，有利于药品问答模型的训练，得到能够输出优先级高、质量好的回答信息的药品问答机器人。

实施例三

图3为本发明实施例三提供的一种药品问答方法的流程图，本实施例可适用于对与药品相关的问题进行回答的情况，该方法可以由药品问答机器人来执行，该药品问答机器人可以采用硬件和/或软件的形式实现，该药品问答机器人可配置于电子设备中。如图3所示，该评分模型训练方法包括：

S301、加载评分模型训练方法训练的评分模型。

在模型训练设备上，加载采用实施例一或实施例二中任一项评分模型训练方法训练好的评分模型，在加载评分模型时，你需要确保使用的深度学习框架和库与目标设备兼容，并具备相应的硬件和软件要求，其中，模型训练设备为模型训练提供大量的计算能力和存储资源，用于执行训练算法、处理大量数据和优化模型参数，模型训练设备可以为个人电脑、服务器、移动设备和云平台等，本实施例对此不进行限制。

S302、依据评分模型训练药品问答机器人，以使药品问答机器人的回答信息的评分趋向预设的分数阈值。

利用评分模型对药品问答机器人输出的回答信息进行评分，不断迭代训练，对药品问答机器人的参数进行调整，使得药品问答机器人的回答信息的评分趋向预先设置的分数阈值。

在本发明的一个实施例中，S302可以包括如下步骤：

步骤1、将多个与药品相关的提问信息输入药品问答机器人，以在药品机器人的输出层对提问信息输出回答信息。

从问题库中选择多个与药品相关的问题，药品问答机器人接收多个与药品相关的提问信息作为输入，对文本进行预处理，包括分词、去除停用词、标点符号等，从处理后的文本中提取特征，如关键词、实体等，利用内部的知识库或数据库，根据提问信息中的特征匹配和检索相关的药品信息，根据匹配和检索得到的药品信息，机器人会生成相应的回答信息。

步骤2、采用评分模型对输出的回答信息进行评分，得到目标分数。

将药品问答机器人对提问信息输出的回答信息作为评分模型的输入，对回答信息进行评分，获得多个提问信息的目标分数，其中，目标分数反映了对输出回答信息的评估结果，目标分数可以用来衡量回答的质量和准确性，提供了一个客观的指标来评估回答的好坏。

步骤3、计算大于预设的分数阈值的目标分数的比例，得到合格比例。

在多个提问信息中，将满足大于预设的分数阈值的目标分数的个数作为分子，将提问信息的个数作为分母，计算目标分数合格比例，其中，合格比例是指在评分模型中，得到高于某个设定阈值的输出回答的比例，可以用来衡量评分模型对回答质量的准确性和可靠性。

步骤4、判断合格比例是否达到预设的比例阈值。

若是，执行步骤5，若否执行步骤6。

如果实际的合格比例高于或等于预设的比例阈值，则可以认为合格比例达到了预设的要求，反之，则未达到预设的要求，可能需要进一步优化评分模型或调整标准来提高合格比例，合格比例越高，表示评分模型对回答的准确性和质量的判断越准确。

步骤5、确定药品问答机器人训练完成。

如果药品问答机器人的合格比例达到了预设的比例阈值，可以认为药品问答机器人的训练完成，训练完成的药品问答机器人可以快速、准确地回答用户的问题，避免了人工客服因个体差异或知识水平不一致而导致的回答不确定性。

步骤6、基于目标分数、合格比例对药品问答机器人的参数进行调整，并返回将多个与药品相关的提问信息输入药品问答机器人，以在药品机器人的输出层对提问信息输出回答信息的步骤。

当合格比例小于预设的比例阈值时，表明药品问答机器人在当前训练阶段的拟合效果还不够理想，需要基于目标分数、合格比例对药品问答机器人的参数进行调整，对药品问答机器人继续迭代训练。

S303、若完成训练，则向客户端发布药品问答机器人。

如果药品问答机器人的合格比例达到了预设的比例阈值，完成训练，则向客户端发送该药品问答机器人，用于提供用户关于药品的信息和咨询，用户可以通过客户端与药品问答机器人进行交互，提出关于药品的问题，如药品的使用方法、剂量、不良反应、禁忌症等，然后获取机器人给出的回答和建议。

S304、接收客户端向药品问答机器人发送的、与药品相关的提问信息。

药品问答机器人需要通过应用程序编程接口(Application ProgrammingInterface，API)接口或其他通信协议，接收客户端用户发送的与药品相关的提问信息，当客户端用户向药品问答机器人发送提问信息时，服务器端的AP I接口将会收到一个超文本传输协议(Hypertext Transfer Protocol，HTTP)请求。

S305、将提问信息输入药品问答机器人中、以在药品机器人的输出层对提问信息输出回答信息。

将提问信息作为药品问答机器人的输入，经过药品机器人对输入数据进行处理，从而得到药品机器人的输出结果，即药品机器人的输出层对提问信息输出回答信息。

S306、将回答信息发送至客户端。

将生成的回答信息进行格式化，确保其符合通信协议的要求，并便于客户端进行处理和显示，使用合适的通信协议，将格式化后的回答信息发送至客户端，客户端接收到来自服务器端的回答信息后，进行解析并展示给用户，在发送回答信息至客户端的过程中，要确保信息的安全性和完整性，避免信息被篡改或泄漏。同时，也需要考虑网络通信的稳定性和效率，以便提供良好的用户体验。

本发明实施例的药品问答机器人结合评分模型训练得到，可以最大化拉开优先级较高的回答的信息和优先级较低的回答信息之间的分数差距。使得评分模型对网络输出“更敏感”，更有利于药品问答机器人对输出的回答信息进行优劣分类，提高药品机器人回答问题的准确性，解决了因采用人工打分时因打分标准不同而影响药品问答机器人的训练效果的问题。

实施例四

图4为本发明实施例四提供的一种评分模型训练装置的结构示意图。如图4所示，该评分模型训练装置包括：

训练组获取模块401，用于获取多个训练组，每个所述训练组包括药品问答机器人对同一问题输出的多个所述回答信息，所述回答信息标注有表示优先级的序号；

分数输出模块402，用于针对每个所述训练组，通过所述评分模型输出每个所述回答信息的分数；

数据组配对模块403，用于分别将不同的两个所述回答信息配对为数据组；

分数差值计算模块404，用于针对每个所述数据组，计算优先级高的所述回答信息与优先级低的所述回答信息的分数差值；

总和值计算模块405，用于计算所有所述数据组对应的分数差值的总和值；

参数调节模块406，用于在使得所述总和值最大化的基础上调节所述评分模型的参数。

在本发明的一个实施例中，所述数据组配对模块403包括：

序号放入子模块，用于将所述回答信息的序号放入序号池中；

第一方信息子模块，用于将所述序号池中当前序号最小的所述回答信息作为第一方信息；

第二方信息子模块，用于遍历其他序号的所述回答信息，将未与所述第一方信息配对的所述回答信息作为第二方信息；

数据组信息配对子模块，用于分别将每个所述第二方信息与所述第一方信息配对为数据组；

序号移出子模块，用于将所述第一方信息的序号从所述序号池中移出，判断所述序号池中是否存在序号；

返回子模块，用于若序号池中存在序号，返回将所述序号池中当前序号最小的所述回答信息作为第一方信息的步骤；

信息配对完成子模块，用于若序号池中不存在序号，确定所述回答信息配对完成。

在本发明的一个实施例中，所述评分模型训练装置还包括：

分数权重赋予模块，用于对不同优先级的所述回答信息赋予不同的分数权重，所述分数权重与所述优先级成反比；

分数更新模块，用于针对每个所述回答信息，将所述回答信息当前的分数与对应的分数权重的乘积作为新的分数。

在本发明的一个实施例中，所述参数调节模块406包括：

损失值获取子模块，用于将所述总和值代入预设的损失函数中，得到损失值，所述总和值的大小与所述损失值成反比，所述损失值的大小与模型的训练效果成反比；

损失值判断子模块，用于判断所述损失值是否小于预设的损失阈值；

模型停止训练子模块，用于若损失值小于预设的损失阈值，停止训练，得到训练好的所述评分模型；

模型参数调节子模块，用于若损失大于或等于预设的损失阈值，基于所述损失值调节所述评分模型的参数，返回执行分数输出模块402的内容。

在本发明的一个实施例中，所述回答信息的优先级与所述回答信息的序号大小与成反比，所述损失函数为：

loss＝-log{∑_i,j[λ_ir_i(x,y_i)-λ_jr_j(x,y_j)]}；

在本发明的一个实施例中，所述评分模型训练装置还包括：

分数差值归一化模块，用于将所述分数差值归一化，归一化公式为：

σ(z)＝1/(1+e^-z)

其中，z为归一化前的分数差值，σ(z)为归一化后的分数差值。

本发明实施例所提供的评分模型训练装置可执行本发明任意实施例所提供的评分模型训练方法，具备执行方法相应的功能模块和有益效果。

实施例五

图5为本发明实施例五提供的一种药品问答机器人的结构示意图。如图5所示，该药品问答机器人包括：

评分模型加载模块501，用于加载实施例一或实施例二的评分模型训练方法训练的评分模型；

机器人训练模块502，用于依据所述评分模型训练药品问答机器人，以使所述药品问答机器人的回答信息的评分趋向预设的分数阈值；

机器人发布模块503，用于若完成训练，则向客户端发布所述药品问答机器人；

提问信息接收模块504，用于接收所述客户端向所述药品问答机器人发送的、与药品相关的提问信息；

回答信息输出模块505，用于将所述提问信息输入所述药品问答机器人中、以在所述药品机器人的输出层对所述提问信息输出回答信息；

回答信息发送模块506，用于将所述回答信息发送至所述客户端。

在本发明的一个实施例中，所述机器人训练模块502包括：

提问信息输入子模块，用于将多个与药品相关的提问信息输入所述药品问答机器人，以在所述药品机器人的输出层对所述提问信息输出回答信息；

回答信息评分子模块，用于采用所述评分模型对输出的回答信息进行评分，得到目标分数；

目标分数计算子模块，用于计算大于预设的分数阈值的所述目标分数的比例，得到合格比例；

比例阈值判断子模块，用于判断所述合格比例是否达到预设的比例阈值；

机器人训练完成子模块，用于若合格比例达到预设的比例阈值，则确定所述药品问答机器人训练完成；

机器人参数调整子模块，用于若合格比例未达到预设的比例阈值，则基于所述目标分数、所述合格比例对所述药品问答机器人的参数进行调整，并返回执行提问信息输入子模块的内容。

本发明实施例所提供的药品问答机器人可执行本发明任意实施例所提供的药品问答方法，具备执行方法相应的功能模块和有益效果。

实施例六

图6示出了可以用来实施本发明的实施例的电子设备40的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图6所示，电子设备40包括至少一个处理器41，以及与至少一个处理器41通信连接的存储器，如只读存储器(ROM)42、随机访问存储器(RAM)43等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器41可以根据存储在只读存储器(ROM)42中的计算机程序或者从存储单元48加载到随机访问存储器(RAM)43中的计算机程序，来执行各种适当的动作和处理。在RAM 43中，还可存储电子设备40操作所需的各种程序和数据。处理器41、ROM 42以及RAM 43通过总线44彼此相连。输入/输出(I/O)接口45也连接至总线44。

电子设备40中的多个部件连接至I/O接口45，包括：输入单元46，例如键盘、鼠标等；输出单元47，例如各种类型的显示器、扬声器等；存储单元48，例如磁盘、光盘等；以及通信单元49，例如网卡、调制解调器、无线通信收发机等。通信单元49允许电子设备40通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器41可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器41的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器41执行上文所描述的各个方法和处理，例如评分模型训练方法，和/或，药品问答方法。

在一些实施例中，评分模型训练方法，和/或，药品问答方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元48。在一些实施例中，计算机程序的部分或者全部可以经由ROM 42和/或通信单元49而被载入和/或安装到电子设备40上。当计算机程序加载到RAM 43并由处理器41执行时，可以执行上文描述的评分模型训练方法，和/或，药品问答方法的一个或多个步骤。备选地，在其他实施例中，处理器41可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行评分模型训练方法，和/或，药品问答方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种评分模型训练方法，其特征在于，所述评分模型用于对药品问答机器人输出的回答信息进行评分，包括：

分别将不同的两个所述回答信息配对为数据组；

计算所有所述数据组对应的分数差值的总和值；

2.如权利要求1所述的评分模型训练方法，其特征在于，分别将不同的两个所述回答信息配对为数据组，包括：

将所述回答信息的序号放入序号池中；

将所述序号池中当前序号最小的所述回答信息作为第一方信息；

遍历其他序号的所述回答信息，将未与所述第一方信息配对的所述回答信息作为第二方信息；

分别将每个所述第二方信息与所述第一方信息配对为数据组；

将所述第一方信息的序号从所述序号池中移出，判断所述序号池中是否存在序号；

若是，返回将所述序号池中当前序号最小的所述回答信息作为第一方信息的步骤；

若否，确定所述回答信息配对完成。

3.如权利要求1所述的评分模型训练方法，其特征在于，在所述针对每个所述训练组，通过所述评分模型输出每个所述回答信息的分数之后，还包括：

对不同优先级的所述回答信息赋予不同的分数权重，所述分数权重与所述优先级成反比；

针对每个所述回答信息，将所述回答信息当前的分数与对应的分数权重的乘积作为新的分数。

4.如权利要求1所述的评分模型训练方法，其特征在于，所述在使得所述总和值最大化的基础上调节所述评分模型的参数，包括：

将所述总和值代入预设的损失函数中，得到损失值，所述总和值的大小与所述损失值成反比；

判断所述损失值是否小于预设的损失阈值；

若是，停止训练，得到训练好的所述评分模型；

若否，基于所述损失值调节所述评分模型的参数，返回针对每个所述训练组，通过所述评分模型输出每个所述回答信息的分数的步骤。

5.如权利要求4所述的评分模型训练方法，其特征在于，所述回答信息的优先级与所述回答信息的序号大小与成反比，所述损失函数为：

loss＝-log{∑_i,j[λ_ir_i(x,y_i)-λ_jr_j(x,y_j)]}；

6.如权利要求1-5任一项所述的评分模型训练方法，其特征在于，在所述计算所有数据组对应的分数差值的总和值之前，还包括：

将所述分数差值归一化；

归一化公式为：σ(z)＝1/(1+e^-z)；

7.一种药品问答方法，其特征在于，包括：

加载权利要求1-6中任一项所述的评分模型训练方法训练的评分模型；

若完成训练，则向客户端发布所述药品问答机器人；

将所述回答信息发送至所述客户端。

8.如权利要求7所述的药品问答方法，其特征在于，所述依据所述评分模型训练药品问答机器人，以使所述药品问答机器人的回答信息的评分趋向预设的分数阈值，包括：

将多个与药品相关的提问信息输入所述药品问答机器人，以在所述药品机器人的输出层对所述提问信息输出回答信息；

采用所述评分模型对输出的回答信息进行评分，得到目标分数；

计算大于预设的分数阈值的所述目标分数的比例，得到合格比例；

判断所述合格比例是否达到预设的比例阈值；

若是，则确定所述药品问答机器人训练完成；

若否，则基于所述目标分数、所述合格比例对所述药品问答机器人的参数进行调整，并返回将多个与药品相关的提问信息输入所述药品问答机器人，以在所述药品机器人的输出层对所述提问信息输出回答信息的步骤。

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的评分模型训练方法，和/或，如权利要求7-8中任一项所述的药品问答方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-6中任一项所述的评分模型训练方法，和/或，如权利要求7-8中任一项所述的药品问答方法。