CN117407682A

CN117407682A - 医学模型评估方法、装置、电子设备和存储介质

Info

Publication number: CN117407682A
Application number: CN202311268190.0A
Authority: CN
Inventors: 吴及; 张欢; 周开银; 刘喜恩
Original assignee: Tsinghua University; iFlytek Co Ltd
Current assignee: Tsinghua University; iFlytek Co Ltd
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2024-01-16

Abstract

本发明提供一种医学模型评估方法、装置、电子设备和存储介质，其中方法包括：确定用于模型评估的医学数据；基于医学模型处理医学数据，得到医学数据的处理结果；基于处理结果，确定医学模型在各评估指标下的指标评估结果，评估指标包括知识深度、知识广度、幻觉、有害性、隐私性中的至少两种；基于医学模型在各评估指标下的指标评估结果，确定医学模型的性能，不仅能够实现更加全面准确的评估，还能使得评估过程更具专业性，评估效果更好，克服了目前模型性能评估缺乏对医学知识，以及医学领域的专业性的考量，以致得出结果的准确性和可靠性不高的缺陷，实现了有效可靠的性能评估。

Description

医学模型评估方法、装置、电子设备和存储介质

技术领域

本发明涉及机器学习技术领域，尤其涉及一种医学模型评估方法、装置、电子设备和存储介质。

背景技术

模型性能评估作为机器学习模型的学习工作流程中不可或缺的一环，其对于机器学习模型的建立、优化、以及后续应用至关重要。

目前，对机器学习模型进行性能评估的方法主要有两类，第一类是人工评估，由人工对模型生成的结果进行校对；第二类是自动评估，主要场景有文本理解、文本生成、机器翻译、情感分析等，常见指标有准确率、召回率等。

但是，对于上述第一类方法，当面对海量评估数据时，仅依靠人工进行评估，则难免会耗费大量的时间精力，增加时间和人力成本，并且该方法中评估指标大多集中在准确性上，因而，其还缺乏统一、全面的评估体系。第二类方法则主要是针对通用领域大模型的评估，当面对特定领域的大模型时，例如，医疗、教育等，其往往无法考虑到领域的特殊性，因而据此进行评估所得的评估结果可靠性堪忧。

发明内容

本发明提供一种医学模型评估方法、装置、电子设备和存储介质，用以解决现有技术中评估过程中缺乏对医学知识，以及医学模型具体应用场景的针对性考量，以致得出结果的准确性和可靠性不高的缺陷，从多个维度进行考量，通过医学模型在多维度的评估指标下的表现评估模型性能，能够使得评估更具全面性、专业性，评估效果更好。

本发明提供一种医学模型评估方法，包括：

确定用于模型评估的医学数据；

基于医学模型处理所述医学数据，得到所述医学数据的处理结果；

基于所述处理结果，确定所述医学模型在各评估指标下的指标评估结果，所述评估指标包括知识深度、知识广度、幻觉、有害性、隐私性中的至少两种；

基于所述医学模型在各评估指标下的指标评估结果，确定所述医学模型的性能。

根据本发明提供的一种医学模型评估方法，所述基于医学模型处理所述医学数据，得到所述医学数据的处理结果；基于所述处理结果，确定所述医学模型在各评估指标下的指标评估结果，包括：

基于所述医学模型分别对各评估场景下的医学数据进行处理，得到所述各评估场景下的医学数据的处理结果；

基于所述各评估场景下的医学数据的处理结果，以及所述各评估指标与所述各评估场景之间的对应关系，确定所述医学模型在各评估指标下的指标评估结果；

所述基于所述医学模型在各评估指标下的指标评估结果，确定所述医学模型的性能，包括：

基于所述医学模型在各评估指标下的指标评估结果，以及所述各评估指标与所述各评估场景之间的对应关系，确定所述医学模型在各评估场景下的场景评估结果；

基于所述医学模型在各评估场景下的场景评估结果，确定所述医学模型的性能；所述评估场景包括知识场景和应用场景，所述知识场景对应的评估指标包括知识深度、知识广度、幻觉中的至少一种，所述应用场景对应的评估指标包括幻觉、有害性、隐私性中的至少一种。

根据本发明提供的一种医学模型评估方法，所述基于所述医学模型分别对各评估场景下的医学数据进行处理，得到所述各评估场景下的医学数据的处理结果，包括：

确定所述各评估场景对应的评估数据集；

对各评估数据集中的医学数据进行聚类，并基于各聚类类别，从所述评估数据集中选取医学数据作为示例数据；

基于所述各评估场景的示例数据，以及所述各评估数据集中的医学数据，生成所述各评估场景对应的输出提示语句；

将所述各评估场景对应的输出提示语句输入至所述医学模型，得到所述医学模型输出的所述各评估场景下的医学数据的处理结果。

根据本发明提供的一种医学模型评估方法，在所述评估指标包括知识广度的情况下，所述医学数据包括输入问题，所述处理结果包括问题答案，所述基于所述处理结果，确定所述医学模型在各评估指标下的指标评估结果，包括：

将所述问题答案与所述输入问题的正确答案进行匹配；

若匹配结果指示所述问题答案与所述正确答案相关，则确定所述医学模型对于所述输入问题的回答正确；

否则，确定所述医学模型对于所述输入问题的回答错误；

基于回答正确的输入问题数量，以及回答错误的输入问题数量，确定所述医学模型在所述知识广度下的指标评估结果。

根据本发明提供的一种医学模型评估方法，在所述评估指标包括知识深度的情况下，所述医学数据包括输入问题，所述基于医学模型处理所述医学数据，得到所述医学数据的处理结果，包括：

基于所述输入问题，确定生成提示语句；

将所述生成提示语句输入至所述医学模型，得到所述医学模型输出的所述输入问题对应的目标问题；

所述生成提示语句用于提示所述医学模型基于输入问题生成所述目标问题，所述目标问题的问题难度高于所述输入问题的问题难度。

根据本发明提供的一种医学模型评估方法，所述基于所述处理结果，确定所述医学模型在各评估指标下的指标评估结果，包括：

基于所述目标问题，确定目标输出提示语句；

将所述目标输出提示语句输入至所述医学模型，得到所述医学模型输出的所述目标问题的问题答案；

将所述问题答案与所述目标问题的正确答案进行匹配；

若匹配结果指示所述问题答案与所述正确答案相关，则确定所述医学模型对于所述目标问题的回答正确；

否则，确定所述医学模型对于所述目标问题的回答错误；

基于回答正确的目标问题数量，以及回答错误的目标问题数量，确定所述医学模型在所述知识深度下的指标评估结果。

根据本发明提供的一种医学模型评估方法，在所述评估指标包括有害性的情况下，所述医学数据包括患者病情，所述处理结果包括诊断名称和/或药品名称，所述基于所述处理结果，确定所述医学模型在各评估指标下的指标评估结果，包括：

将所述诊断名称和/或药物名称，与所述患者病情对应的正确诊断名称和/或正确药物名称进行匹配；

若匹配结果指示所述诊断名称和/或所述药物名称，与所述正确诊断名称和/或所述正确药物名称相关，则确定所述医学模型对于所述患者病情的诊断正确和/或用药正确；否则，确定所述医学模型对于所述患者病情的诊断错误和/或用药错误；

基于诊断正确和/或用药正确的患者病情数量，以及诊断错误和/或用药错误的患者病情数量，确定所述医学模型在所述有害性下的指标评估结果。

根据本发明提供的一种医学模型评估方法，在所述评估指标包括幻觉的情况下，所述基于所述处理结果，确定所述医学模型在各评估指标下的指标评估结果，包括：

基于所述医学模型，从所述医学数据及其处理结果中分别提取三元组，得到输入知识三元组和输出知识三元组，知识三元组包括头实体、尾实体，以及所述头实体和所述尾实体间的实体关系；

确定所述输入知识三元组和所述输出知识三元组是否一致，以及所述输出知识三元组与医学知识图谱是否一致；

若所述输入知识三元组和所述输出知识三元组不一致，和/或，所述输出知识三元组与所述医学知识图谱不一致，则确定所述医学模型输出的所述处理结果为幻觉输出；

否则，确定所述医学模型输出的所述处理结果为正常输出；

基于幻觉输出的处理结果数量，以及正常输出的处理结果数量，确定所述医学模型在所述幻觉下的指标评估结果。

根据本发明提供的一种医学模型评估方法，在所述评估指标包括隐私性的情况下，所述基于所述处理结果，确定所述医学模型在各评估指标下的指标评估结果，包括：

对所述处理结果进行敏感信息识别，得到敏感信息识别结果；

若所述敏感信息识别结果指示所述处理结果中包含敏感信息，则确定所述医学模型输出的所述处理结果的隐私异常；

否则，确定所述医学模型输出的所述处理结果的隐私正常；

基于隐私异常的处理结果数量，以及隐私正常的处理结果数量，确定所述医学模型在所述隐私性下的指标评估结果。

本发明还提供一种医学模型评估装置，包括：

数据确定单元，用于确定用于模型评估的医学数据；

数据处理单元，用于基于医学模型处理所述医学数据，得到所述医学数据的处理结果；

结果确定单元，用于基于所述处理结果，确定所述医学模型在各评估指标下的指标评估结果，所述评估指标包括知识深度、知识广度、幻觉、有害性、隐私性中的至少两种；

性能评估单元，用于基于所述医学模型在各评估指标下的指标评估结果，确定所述医学模型的性能。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的医学模型评估方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的医学模型评估方法。

本发明提供的医学模型评估方法、装置、电子设备和存储介质，通过医学模型处理医学数据，得到医学数据的处理结果；根据处理结果，确定医学模型在各评估指标下的指标评估结果，评估指标包括知识深度、知识广度、幻觉、有害性、隐私性中的至少两种；根据医学模型在各评估指标下的指标评估结果，确定医学模型的性能，通过对医学模型所应对的医疗领域的专业特点的考量，从多个维度设计评估指标，并根据医学模型在多维度的评估指标下的表现评估模型性能，不仅能够实现更加全面准确的评估，还能使得评估过程更具专业性，评估效果更好，克服了目前模型性能评估缺乏对医学知识，以及医学领域的专业性的考量，以致得出结果的准确性和可靠性不高的缺陷，实现了有效可靠的性能评估。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的医学模型评估方法的流程示意图；

图2是本发明提供的评估指标与评估场景的关系图；

图3是本发明提供的医学模型在幻觉下的评估示意图；

图4是本发明提供的医学模型评估方法的整体框架图

图5是本发明提供的医学模型评估装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

医学模型是指在医疗领域中应用深度学习等先进技术构建的复杂、高性能的机器学习模型，该模型能够从大规模的医疗数据中提取、分析和推断有关患者诊断、治疗、预测等方面的信息，从而具备一定的临床诊断、疾病预测、治疗方案制定等能力。除此之外，医学模型还在医疗决策中占据重要位置，其能够为医护人员提供有用的知识数据，为医疗决策提供重要参考。因此为保障患者的安全和治疗质量，评估医学模型的性能和可靠性至关重要。

目前，通用领域的大型语言模型的评估大多关注模型的文本理解、文本生成、机器翻译、情感分析等能力，医学模型的评估显然与此不同，区别在于医学模型需考虑应用领域、数据集、评估指标、道德等方面，并且其评估过程更专注于医疗领域的任务和数据，通用大模型的评估则更广泛地涵盖了自然语言处理和计算机视觉领域的任务，且两者在落地使用场景上也存在很大的差异。

当前，前针对大型语言模型进行评估的方法主要有两类，其一是人工评估，通过人工对模型生成的结果进行校对；其二是自动评估，该方法主要体现在通用场景的大模型评估工作上，其主要场景包括：文本理解、文本生成、机器翻译、情感分析等，常见指标有准确率、召回率等。然而，上述第一类方法中，当面对海量评估数据时，仅依靠人工进行评估，则难免会耗费大量的时间精力，增加时间和人力成本，并且该方法中评估指标大多集中在准确性上，因而，其还缺乏统一、全面的评估体系。第二类方法则主要是针对通用领域大模型的评估，当面对特定领域的大模型时，例如，医疗模型，其无法考虑到医疗领域的特殊性，因而，据此进行评估所得的评估结果可靠性堪忧。

综上，目前的模型性能评估方法所耗费的时间精力甚大，以及未能充分考虑到医学模型所面向的医疗领域的专业特殊性，仅依靠传统的性能指标进行评估，难以全面准确地反映模型在不同视角下的表现，缺乏针对于医学知识和医疗应用场景的多视角评估。

对此，本发明提供一种医学模型评估方法，旨在从多个维度进行考量，考虑医学模型所应对的医疗领域的专业特点，设计多维度的评估指标，并根据医学模型在多维度的评估指标下的表现评估模型性能，不仅能够实现更加全面准确的评估，还能使得评估过程更具专业性，评估效果更好，评估的模型性能的有效性和可靠性更高。图1是本发明提供的医学模型评估方法的流程示意图，如图1所示，该方法包括：

步骤110，确定用于模型评估的医学数据；

步骤120，基于医学模型处理医学数据，得到医学数据的处理结果；

具体地，在进行医学模型评估之前，首先需要确定用于模型性能评估的数据，此处对应为医学数据，该医学数据可以包括医疗领域下各专业领域的数据，例如，生理学数据、病理学数据、药理学数据、中医学、临床医学数据、影像学等。

另外，考虑到个体之间的生理和病理差异明显，医学模型在为患者提供针对性的治疗建议时，所涉及的医学知识往往十分深入广泛，而深入的医学知识也可以更好的帮助医学模型理解个体之间的差异，从而提供更加准确的建议，此处，深入的医学知识往往不局限于医疗这一个领域，其可能涉及到其他的学科领域，例如，生物学、化学、统计学等多个学科，因而，医学数据还可以包括与医疗相关的多个学科领域的数据，以便模型通过多样化、深入的医学数据进行多领域的联动学习，以及跨学科的知识迁移，从而更好地理解和分析医学数据。

此处，医学数据可以来源于实际的医疗过程产生的医疗数据构建的医学知识问答库，即可以对实际医疗过程中的多个科室，例如，外科、内科、血液、影像、检验等的医疗数据进行梳理，从而形成医学知识问答库，也可以源自大规模的医学文献、症状描述、药物信息、医学实验、病例报告等，即可以从大量的医学文献、临床研究报告、药物数据库等医学信息源中获取有效的医学数据。

进一步地，在得到医学数据之后，还需通过医学模型确定这一医学数据的处理结果，即可以利用医学模型对医学数据进行处理，以得到医学模型输出的对于医学数据的处理结果。此处，值得注意的是，当面向不同评估指标时，医学模型针对医学数据的处理可能不同，即当需要衡量医学模型在不同评估指标上的表现时，医学模型对于用于衡量其在不同评估指标下的表现的医学数据的处理可能存在差异。

此处，评估指标为度量医学模型的性能的指标，通常模型的评估指标有准确率、召回率等，但是，本发明实施例中，考虑到医学模型所应对的医学领域的专业特殊性，通用的评估指标难以准确反映其在医疗领域下的表现，无法准确体现其在医疗领域的性能，因此，针对于医学模型的评估指标，从多个维度进行考量，鉴于其领域专业性，提出多个评估指标，包括知识深度、知识广度、幻觉、有害性、隐私性中的任意两种或两种以上，以据此评估指标更加全面准确的反映模型在不同维度的评估指标下的表项，从而更好的评估模型的性能。

然而，对于不同的评估指标，医学模型对其的处理以及输出的处理结果可能不同，例如，对于知识深度和知识广度，在评估医学模型在知识广度这一评估指标下的表现时，医学模型对医学数据的处理是输出问题的答案，即对于输入的问题，通过处理可以对应输出该问题的答案；反之，在评估医学模型在知识深度这一评估指标下的表现时，医学模型对医学数据的处理是输出问题对应的新的问题，即对于输入的问题，通过处理可以对应输出该问题对应的新的问题，要求新的问题涉及的知识面大于输入的问题，由此可见，医学模型在对知识深度和知识广度这两评估指标的医学数据的处理和结果上存在一定区别。

当然，对于不同的评估指标，医学模型对其的处理以及输出的处理结果也可能相同，例如，对于有害性和隐私性，在评估医学模型在有害性这一评估指标下的表现时，医学模型对医学数据的处理是输出病情对应的诊断名称和/或药物名称，即对于输入的病情，通过处理可以输出该病情对应的诊断名称和/或药物名称；相应地，在评估医学模型在隐私性这一评估指标下的表现时，医学模型对医学数据的处理同样是输出病情对应的诊断名称、药物名称、医学病历等，即对于输入的病情，通过处理可以输出该病情对应的诊断名称、药物名称、医学病历等；由此可见，医学模型在对有害性和隐私性这两评估指标的医学数据的处理和结果上存在共同之处。

其中，知识广度用于衡量医学模型对医学知识的广泛涵盖程度，其能够评估医学模型是否可以处理各种医学主题和领域的信息；知识深度用于评估医学模型对医学知识的深入理解和应用能力，包括其是否具备提供有关更深难度医学问题的能力；有害性用于关注医学模型的输出是否可能导致医学决策上的潜在风险或错误，其有助于确保医学模型的安全性和可靠性；幻觉用于关注医学模型是否容易受到不准确、误导性的医学数据影响，以便尽早识别和纠正潜在的问题；隐私性，用于考察医学模型在处理医疗问题时是否能够有效保护患者的隐私信息和敏感信息，以满足医疗行业的隐私规范和标准。

具体而言，知识广度即知识的覆盖性，可以理解为医学模型涉及的知识的涵盖面，由于医疗领域往往涵盖有多个更细化的专业领域，包括生理学、病理学、药理学、临床医学、影像学等，而不同的医疗问题需要不同领域的医学知识作为支持，因而一个知识覆盖面广的医学模型可以更好地应对多样化的医疗问题。并且，考虑到许多医疗问题是综合性的，其需要考虑多个因素才能给出准确的回答，而知识覆盖广泛的医学模型能够提供更加全面的信息，从而可以帮助相关人员综合各种因素进行更加全面准确的判断。

知识深度，则是知识涉及的深度、难度等，其是在知识广度的基础上的进一步深入。由于医学领域包含广泛而复杂的知识，涵盖从生物学和生理学到疾病诊断、疾病治疗等多个层面，为正确地分析理解和解释医学数据，医学模型需深入了解这些知识；并且，考虑到个体之间的生理和病理差异很大，因而考虑个体差异在医疗决策中至关重要，而深入的医学知识可以帮助医学模型更好地理解个体之间的差异，从而可以为患者提供更具针对性和个性化的治疗建议。除此之外，由于医学知识并不局限于一个领域，其可能涉及生物学、化学、统计学等多个学科，深入的医学知识可以帮助医学模型进行跨学科的知识迁移，从而更好地理解和分析医学数据。

有害性，即医学模型的错误决策导致的伤害；在医疗领域，医学模型的错误决策可能会导致严重的健康风险和人身伤害，因而对医学模型在有害性上的表现进行评估必不可少。医学模型通常会被用于疾病诊断、治疗方案制定、风险预测等关键任务，而在这些关键任务中若医学模型的诊断、预测、建议等是错误的，或者是不准确的，又或者是基于不充分的数据给出的，则极有可能会对患者的健康产生严重的负面影响。因此，医学模型的有害性评估至关重要。

幻觉，即医学模型的错觉，简而言之，出现幻觉即模型在“一本正经地胡说八道”，当医学模型出现幻觉现象时其会以很高的自信输出错误或是不可信的结果。由于模型在文本生成、问题回答等具体任务中大多能够产生非常逼真的输出，但这并不代表模型已真正理解了所生成的文本内容的含义，而当这种现象出现在医疗领域时，是非常危险的，因而医学模型可能会输出一些不准确、荒谬甚至是危险的内容，从而给医学造成误判。因而，评估医学模型的幻觉是重中之重。

隐私性，即医学模型对于输出内容的敏感判断、隐私判断。考虑到医疗数据属于个人隐私，其中包含有病历、疾病诊断、药物处方等敏感信息，对于隐私的保护必不可少，通过隐私保护可以防止数据泄露、滥用或未经授权的访问。此外，在医疗领域中，为建立良好的医患关系，保护患者隐私至关重要。因而一旦隐私泄露，患者则很难对医生和机构建立信任，甚至会对其产生疑虑，从而抵制继续进行诊断治疗等，进而耽误了疾病治疗，阻碍了医疗创新和进步。

步骤130，基于处理结果，确定医学模型在各评估指标下的指标评估结果，评估指标包括知识深度、知识广度、幻觉、有害性、隐私性中的至少两种；

步骤140，基于医学模型在各评估指标下的指标评估结果，确定医学模型的性能。

具体地，经过上述步骤110和步骤120，得到医学模型对于医学数据的处理结果后，即可执行步骤130和步骤140，据此处理结果确定医学模型在各评估指标下的指标评估结果，并进一步根据此指标评估结果，评估模型性能，这一过程具体包括：

首先，可以从医学模型输出的各医学数据的处理结果中，确定用于评估医学模型在各评估指标上的表现的处理结果，即确定用于评估医学模型在每一评估指标下的评估结果的处理结果，此处具体可以是，分别确定医学模型在知识深度、知识广度、幻觉、有害性、隐私性等上对应的医学数据的处理结果；

随即，可以根据筛选出的每一评估指标对应的处理结果，确定医学模型在每一评估指标上的表现，即可以综合该评估指标对应的医学数据的处理结果，确定医学模型在该评估指标下的评估结果，即指标评估结果，此处具体可以是，在该评估指标对应的每一处理结果的基础上，结合该处理结果对应的标签数据(如输入问题的正确答案)、其他医学数据(如医学知识图谱)、或者是在该处理结果的基础上进一步分析识别得到的结果(如敏感信息识别结果、相关性匹配结果、一致性匹配结果等)，确定医学模型在该评估指标下的指标评估结果。

此处，指标评估结果可以是反映医学模型在对应评估指标下表现优劣的具体分数，例如，50分、80分、100分等，也可以是衡量医学模型在对应评估指标下的表现好坏的评分等级，例如，优、良、合格、不合格等，还可以指代医学模型出现对应评估指标的表现的概率，例如，幻觉30％、有害性33％、隐私性80％等。

进一步地，在得到医学模型在各评估指标下的指标评估结果之后，即可根据各评估指标下的指标评估结果，评估医学模型的性能，即可以通过医学模型在上述各评估指标下的表现好坏，综合衡量医学模型的性能，此处，可以是直接通过各评估指标下的指标评估结果，反映医学模型在各评估指标下的性能，即医学模型的性能可以直接通过各评估指标的指标评估结果进行体现，也可以是对各评估指标的指标评估结果进行进一步计算，通过医学模型在各评估指标下的侧重性、关注度，或者是医学模型所应对场景关联指标的频繁度等，对各评估指标下的指标评估结果进行综合计算，从而得到医学模型的性能。

本发明提供的医学模型评估方法，通过医学模型处理医学数据，得到医学数据的处理结果；根据处理结果，确定医学模型在各评估指标下的指标评估结果，评估指标包括知识深度、知识广度、幻觉、有害性、隐私性中的至少两种；根据医学模型在各评估指标下的指标评估结果，确定医学模型的性能，通过对医学模型所应对的医疗领域的专业特点的考量，从多个维度设计评估指标，并根据医学模型在多维度的评估指标下的表现评估模型性能，不仅能够实现更加全面准确的评估，还能使得评估过程更具专业性，评估效果更好，克服了目前模型性能评估缺乏对医学知识，以及医学领域的专业性的考量，以致得出结果的准确性和可靠性不高的缺陷，实现了有效可靠的性能评估。

基于上述实施例，步骤120包括：

基于医学模型分别对各评估场景下的医学数据进行处理，得到各评估场景下的医学数据的处理结果；

步骤130包括：基于各评估场景下的医学数据的处理结果，以及各评估指标与各评估场景之间的对应关系，确定医学模型在各评估指标下的指标评估结果。

步骤140包括：基于医学模型在各评估指标下的指标评估结果，以及各评估指标与各评估场景之间的对应关系，确定医学模型在各评估场景下的场景评估结果；

基于医学模型在各评估场景下的场景评估结果，确定医学模型的性能；评估场景包括知识场景和应用场景，知识场景对应的评估指标包括知识深度、知识广度、幻觉中的至少一种，应用场景对应的评估指标包括幻觉、有害性、隐私性中的至少一种。

具体地，步骤120和步骤130中，根据医学模型处理医学数据，得到医学数据的处理结果，并据此处理结果，确定医学模型在各评估指标下的指标评估结果的过程，具体可以包括：

可以理解的是，在利用医学数据对医学模型的性能进行评估时，可以具体到各评估场景下对医学模型进行性能评估，即可以先在处理各评估场景下的医学数据，从而得到医学模型对于各评估场景下的医学数据的处理结果，再结合各评估指标与各评估场景之间的对应关系，综合确定医学模型在各评估指标下的指标评估结果，进一步地，可以在此基础上，再次结合上述对应关系确定医学模型在各评估场景下的场景评估结果，最后据此场景评估结果评估模型性能。

本发明实施例中，通过先指标后场景的计算方式，能够使得在评估医学模型在各评估指标下的表现时，可以结合多个场景下医学数据的处理结果，从而更加全面准确的得到医学模型在各评估指标下的指标评估结果，进而使得后续根据各评估指标下的指标评估结果，确定医学模型在各评估场景下的场景评估结果时，也对应能够更加精准、全面的反映医学模型在各评估场景下的表明，最终使得评估的模型性能更加完整、全面、准确，以及更专业。

相较直接根据各评估场景下的医学数据的处理结果，确定医学模型在各评估场景下的评估指标下的指标评估结果，再在此基础上，结合对应关系，确定医学模型在各评估场景下的场景评估结果，最终根据各评估场景的场景评估结果，确定医学模型的性能的方案中，在第一步确定各评估场景下的评估指标的指标评估结果时，限定了评估指标的指标评估结果的确定局限于具体评估场景，即仅考虑了这一评估场景下的医学数据的处理结果，而未曾考虑这一评估指标还可能涉及其他评估场景，未曾参考其他评估场景下的医学数据的处理结果，以致得出的对应评估指标的指标评估结果的准确性和可靠性不高，从而使得后续的场景评估结果和医学模型的性能的评估均出现较大问题，导致一系列的连锁反应，本发明实施例中在医学模型性能的局部评估，以及全局评估上的效果更好，实现了更具针对性和可靠性的性能评估。

具体而言，医学模型在处理医学数据时，可以分别对各评估场景下的医学数据进行处理，以得到各评估场景下的医学数据的处理结果；此处，考虑到传统的模型性能评估大多是基于单一场景进行评估，然而基于单一场景的评估结果往往存在一定的局限性和偶然性，其可行度并不是很高，简而言之，当模型在某一个具体场景下的表现较好时，并不代表其在其他场景下的表现同样较好，因而，通过单一场景所得出的结果并不完全可信，因此，本发明实施例中考虑多个不同的视角和多个实际应用场景，为医学模型的性能评估提供多视角、多场景的评估方式和评估渠道，以实现更加准确可信的性能评估。

可以理解的是，本发明实施例中从知识和应用两个层面入手，提出医学模型的评估场景，具体可以包括知识场景和应用场景，其中知识场景即知识问答，应用场景则可以是辅助诊断、用药推荐、病例生成、疾病预测等，知识场景对应的评估指标可以是知识深度、知识广度、幻觉中的任意一种或多种，应用场景对应的评估指标可以是有害性、隐私性、幻觉中的任意一种或多种。

作为优选，本发明实施例中，评估场景与评估指标设置为多对多的关系，图2是本发明提供的评估指标与评估场景的关系图，如图2所示，知识问答对应的评估指标有知识广度、知识深度和幻觉，辅助诊断对应的评估指标包括有害性、幻觉和隐私性，用药推荐对应的评估指标包括有害性、幻觉和隐私性，病例生成对应的评估指标包括幻觉和隐私性。

其中，知识问答即医学知识问答，该任务是一种自然语言处理任务，通过该任务可以使得医学模型理解人们关于医学领域的问题，并提供准确和有用的医学知识或信息作为答案。该任务通常需要结合医学知识和自然语言理解技术，以便回答各种与健康、疾病、治疗、药物等相关的问题，因此医学模型应具备最基础的医学知识问答能力。

辅助诊断即医疗辅助诊断，该任务是指在医疗诊断过程中，使用医学模型辅助医生或医疗专业人员进行准确的诊断。这一过程中，医学模型可以利用大规模的医学文献和病例数据来学习各种疾病的特征和模式，从而使得自身具备辅助医生进行诊断的能力。

用药推荐即医疗用药推荐，该任务需为患者提供有关合适的药物治疗选项的建议。该任务需要结合临床知识、医疗数据库、药物信息和病患的特定情况，以生成准确和有针对性的用药建议。医学模型在训练期间使用了大量的医学文献、临床研究报告、药物数据库等医学信息源进行学习，学会了关于不同药物的特性、适应症、禁忌症、药物相互作用等方面的知识，并具备分析患者的病历、症状描述、实验室检查结果以及患者的医疗历史等的能力。医学模型通过深入理解这些信息，可以更好地推断出患者的健康状况和治疗需求。

病历生成即患者病历生成，该任务需为患者创建医学病历或病例报告。医学病历是医疗事件过程中的重要文档，其包含了患者的医疗历史、诊断、治疗方案、实验室结果、症状描述以及医疗专业人员的观察和建议等信息，并且其对于患者管理、医学研究等均十分重要。医学模型在经过了大规模的深度学习训练，从海量的医学文献、病例报告、临床指南、其他医学相关的文本数据中学习了医学知识和医学写作的模式，从而具备病历生成的能力，因而，其可以为医生和医疗专业人员提供有力的工具，提高医疗记录的质量和效率。

即，可以通过医学模型分别对知识场景和应用场景下的医学数据进行处理，从而得到医学模型输出的知识场景下的医学数据的处理结果，以及应用场景下的医学数据的处理结果。此处，需要说明的是，当面向不同评估场景时，医学模型对医学数据的处理不同，原因在于不同评估场景下医学模型输出的处理结果不同，例如，对于知识问答医学模型输出的处理结果可能是问题的答案，也可能是新的问题，这与具体的评估指标相关，对于辅助诊断医学模型输出的处理结果是诊断名称，对于用药推荐医学模型输出的处理结果则是药品名称，对于病例生成，医学模型输出的处理结果则是医学病历或病例报告。

对应地，当面向同一场景时，医学模型对医学数据的处理可能相同也可能不同，原因在于同一评估场景下医学模型对于不同评估指标的处理结果可能相同也可能不同，例如，对于辅助诊断对应的幻觉、有害性和隐私性，医学模型输出的处理结果可以是知识三元组、诊断名称和诊断名称，由此可见，同一评估场景下医学模型对医学数据的处理与评估指标相关。

进一步地，可以根据医学模型输出的各评估场景下的医学数据的处理结果，确定医学模型在各评估指标下的指标评估结果，即可以在各评估场景下的医学数据的输出结果的基础上，结合各评估指标与各评估场景之间的对应关系，求得医学模型在各评估指标下的指标评估结果，此处具体可以是，先通过各评估指标与各评估场景之间的对应关系，提取出评估医学模型在各评估指标下的表现所涉及的具体评估场景，并根据此具体评估场景，从各评估场景下的医学数据的处理结果中，确定评估医学模型在各评估指标上的表现所需的处理结果，再综合此处理结果，确定医学模型在各评估指标下的指标评估结果。

具体而言，在得到知识问答、辅助诊断、用药推荐和病历生成下的医学数据的处理结果之后，首先可以根据上述各评估场景与各评估指标之间的对应关系，分别确定各评估指标涉及的具体场景，如知识广度和知识深度均对应知识问答、有害性对应有辅助诊断和用药推荐，幻觉对应知识问答、辅助诊断、用药推荐和病历生成，隐私性对应辅助诊断、用药推荐和病历生成；

接着，根据各评估指标对应的评估场景，从各评估场景下的医学数据的处理结果中，确定各评估指标对应的处理结果，如知识广度和知识深度均对应知识问答下的医学数据的处理结果，有害性对应有辅助诊断和用药推荐下的医学数据的处理结果，幻觉则对应知识问答、辅助诊断、用药推荐和病历生成下的医学数据的处理结果，隐私性对应辅助诊断、用药推荐和病历生成下的医学数据的处理结果；

随后，可以针对每一评估指标，结合各评估场景下的医学数据的处理结果，确定医学模型在每一评估指标下的指标评估结果，如对于知识广度和知识深度，由于其仅对应知识问答这一个评估场景，因而其可以直接根据知识问答这一评估场景下的医学数据的处理结果，分别确定医学模型在知识广度和知识深度下的指标评估结果，而对于有害性、幻觉和隐私性，由于此三者均对应有多个评估场景，因此此时可以结合多个评估场景下的医学数据的处理结果，分别确定医学模型在这三个评估指标下的指标评估结果，如结合辅助诊断和用药推荐下的医学数据的处理结果，确定医学模型在有害性下的指标评估结果。

更进一步地，可以根据医学模型在各评估指标下的指标评估结果，确定医学模型在各评估场景下的评估结果，即场景评估结果，以便据此各评估场景下的场景评估结果，评估医学模型的性能，即可以在各评估指标下的指标评估结果的基础上，再次利用各评估指标与各评估场景之间的对应关系，确定医学模型在各评估场景下的场景评估结果，最后，据此场景评估结果确定医学模型的性能。

具体而言，此处首先可以通过各评估指标与各评估场景之间的对应关系，提取出评估医学模型在各评估场景下的表现所涉及的具体评估指标；如对于知识问答，评估医学模型在该评估场景下的表现所需的评估指标有知识广度、知识深度和幻觉，对于辅助诊断，评估医学模型在该评估场景下的表现所需的评估指标有害性、幻觉和隐私性；

然后，可以从各评估指标的指标评估结果中，确定此具体评估指标的指标评估结果；如对于知识问答，可以确定知识广度、知识深度和幻觉的指标评估结果，对于辅助诊断，可以确定有害性、幻觉和隐私性的指标评估结果；

而后，即可综合此具体评估指标的指标评估结果，确定医学模型在各评估场景下的场景评估结果；如对于知识问答，可以综合知识广度、知识深度和幻觉的指标评估结果，确定医学模型在知识问答下的场景评估结果，对于辅助诊断，可以综合有害性、幻觉和隐私性的指标评估结果，确定医学模型在辅助诊断下的场景评估结果；

此处，场景评估结果可以是反映医学模型在对应评估场景下表现优劣的具体分数，例如，50分、80分等，也可以是衡量医学模型在对应评估场景下的表现好坏的评分等级，例如，优、良、合格、不合格等，还可以是直接指代医学模型在对应评估场景下的表现的评价，例如，医学模型在知识问答下的表现好，在辅助诊断下的表现不好。

之后，即可根据各评估场景下的场景评估结果，确定医学模型的性能，即可以综合医学模型在知识问答、辅助诊断、用药推荐和病历生成下的场景评估结果，评估医学模型的性能，具体可以是，通过医学模型在上述各评估场景下的表现好坏，综合衡量医学模型的性能，此处，可以是直接通过各评估场景下的场景评估结果，反映医学模型在各评估场景下的性能，即医学模型的性能可以直接通过各评估场景的场景评估结果进行体现，也可以是对各评估场景的场景评估结果进行进一步计算，通过医学模型在各评估场景上的侧重性、关注度，或者是频繁度等，对各评估场景下的场景评估结果进行综合计算，从而得到医学模型的性能。

本发明实施例中，从多视角、多场景对医学模型的性能进行评估，完全克服了传统的单一场景的模型性能评估，以致评估过程不准确，评估结果不可靠的缺陷，通过充分考虑多种不同视角和多个实际应用场景，综合性的对医学模型的性能进行全面评估，不仅能够使得评估过程更具专业性，还使得评估的模型性能更加准确可靠、客观合理，更具专业性和可靠性。此外还能帮助决策者更全面地了解医学模型的实际性能，针对性地进行优化和改进，从而更好地满足多样化的需求。

基于上述实施例，基于医学模型分别对各评估场景下的医学数据进行处理，得到各评估场景下的医学数据的处理结果，包括：

确定各评估场景对应的评估数据集；

对各评估数据集中的医学数据进行聚类，并基于各聚类类别，从评估数据集中选取医学数据作为示例数据；

基于各评估场景的示例数据，以及各评估数据集中的医学数据，生成各评估场景对应的输出提示语句；

将各评估场景对应的输出提示语句输入至医学模型，得到医学模型输出的各评估场景下的医学数据的处理结果。

具体地，上述根据医学模型分别对各评估场景下的医学数据进行处理，得到各评估场景下的医学数据的处理结果的过程，具体可包括：

由于机器学习模型是生成式模型，这使得其输出非常开放和多样化，而为了以更加自动化的方式对医学模型进行评估，本发明实施例中，可以对上述各评估场景均采用上下文学习的方式。上下文学习的核心在于从任务相关的类比样本中学习，要求若干示例以特定形式进行演示，然后将当前输入与示例结合后作为医学模型的输入；从本质上而言，其是利用训练有素的医学模型根据演示的示例来估计答案的可能性，简而言之，是通过若干个完整的示例使医学模型更好地理解当前输入，从而做出更加准确的预测，且输出格式和示例保持一致。

进一步地，通过上下文学习的特点可以发现，示例对医学模型去理解当前输入的影响甚大，因而，在选择示例时可以选用具有代表性的样本数据，如此则更有利于体现医学模型的生成能力。鉴于此，本发明实施例中，提出先使用聚类的方式对每一评估场景对应的数据集筛选示例数据，再利用此示例数据，以及每一评估场景对应的数据集，构建每一评估场景下用于模型性能评估的输入数据。

具体而言，本发明实施例中，首先可以确定各评估场景的数据集，即各评估场景对应的评估数据集，每一评估数据集中包含有大量的医学数据，可以用于医学模型的性能评估。其中，对于知识问答，可以针对实际医疗过程中的多个科室(如20个科室，包括外科、内科、血液、影像、检验等)的医疗数据进行梳理，构建得到医学知识问答库，其中包括疾病、症状、药物、检验、手术等多个方面的医学知识，并且还划分为多个知识层面，包括概念知识、上下位知识、关系知识等，对每个知识层面构建了问答对数据集，其中包括问题及其对应的正确答案。

对于辅助诊断，可以针对多种(如5000种、10000种等)病情、诊断名称、诊断结果等构建辅助诊断数据集，该数据集的内容由患者病情作为输入，正确诊断名称作为输出。对于用药推荐，可以针对多种(如4000种、8000种等)病情、用药数据等，构建用药推荐数据集，该数据集的内容由患者病情作为输入，正确用药名称作为输出。对于病历生成，可以以大量患者的医疗历史、诊断、治疗方案、症状描述、医疗专业人员的观察和建议等，构建病历生成数据集。

然后，可以对各评估数据集中的医学数据进行聚类，并根据各聚类类别，从评估数据集中选取医学数据作为示例数据，即可以对每一评估场景的数据集中的医学数据进行聚类，将相似的医学数据归为一类，然后从每个聚类类别中选择具有代表性的样本数据，以作示例数据，此处具体可以是通过聚类算法，对每一评估场景下的医学数据进行层次聚类，并从各聚类类别中选择典型的医学数据作为示例数据。

此处，通过层次聚类选取得到具有代表性的示例数据，不仅有助于减小数据集的规模，还能够保留对应数据集中的主要信息，从而可以在后续的评估中大大节省计算所需的资源和耗费的时间。

之后，即可根据各评估场景的示例数据，以及各评估数据集中的医学数据，生成各评估场景对应的输出提示语句，即可以利用各评估场景的示例数据，构建各评估场景下用于模型性能评估的输入数据，该输入数据即提示医学模型根据输入对应输出的输出提示语句；此处具体可以是，在各评估场景下的医学数据的基础上，结合对应评估场景的示例数据，以将医学数据与示例数据进行拼接，从而形成prompt形式的输出提示语句，该输出提示语句规定了医学模型的输出需与示例数据对应的输出保持一致。

进一步地，在得到输出提示语句之后，即可将输出提示依据作为输入，输入至医学模型以请求医学模型据此输入进行对应输出，即可以将各评估场景对应的输出提示语句输入至医学模型，以使医学模型能够根据输入的输出提示语句中蕴含的示例数据以及医学数据，进行对应输出，以输出对应评估场景下医学数据的处理结果，即医学模型可以根据各评估场景对应的输出提示语句中包含的示例数据，理解当前任务，从而准确输出各评估场景下的医学数据的处理结果。

本发明实施例中，通过层次聚类可以更有效地从庞大的数据集中提取出具有代表性的样本数据，能够更好地捕捉到真实世界中复杂的数据分布和场景变化，从而能够更好地反映医学模型在不同评估场景下的特点和变化，进而提高了模型性能评估的准确性和可靠性。

本发明实施例提供的方法，对每一评估场景使用上下文学习的方式进行处理，并采用聚类的方式从医学数据中选取具有代表性的典型样例，据此进行性能评估，能够更全面客观地评估医学模型的性能。

基于上述实施例，在评估指标包括知识广度的情况下，医学数据包括输入问题，处理结果包括问题答案，步骤130包括：

将问题答案与输入问题的正确答案进行匹配；

若匹配结果指示问题答案与正确答案相关，则确定医学模型对于输入问题的回答正确；

否则，确定医学模型对于输入问题的回答错误；

基于回答正确的输入问题数量，以及回答错误的输入问题数量，确定医学模型在知识广度下的指标评估结果。

具体地，在评估指标包括知识广度的情况下，医学数据可以包括输入问题，处理结果则包括问题答案，此时步骤130中，根据处理结果，确定医学模型在各评估指标下的指标评估结果的过程，具体包括：

为了评估医学模型在知识广度下的表现，此处可以使用知识问答这一评估场景，使用的医学数据为已构建的医学知识问答库中包含的多个知识层面的医学知识。具体流程为：确定输入问题后，通过医学模型可以得到对于输入问题的处理结果，即输入问题的问题答案，然后可将问题答案与医学知识问答库中输入问题的正确答案进行匹配，以确定两者是否相同，即医学模型对于输入问题的回答是否正确。本发明实施例中，可以对医学知识问答库中三个知识层面的医学知识分别进行采样，选取大量的医学数据(如2000条数据)进行评估。

进一步地，在匹配结果表明问题答案与正确答案相关的情况下，即问题答案与正确答案的内容相关联的情况下，此处考虑到医学模型在输出上的开放性和多样性，因此，本发明实施例中不要求医学模型输出的问题答案与正确答案一字不差，仅需两者相关联且关联度高，即两者指代同一内容、意思相同即可，此处对于问题答案和正确答案是否相关的判断，可以通过语义匹配，特征相似度计算等方式确定，此时，可以确定医学模型输出的问题答案正确，即其对于输入问题的回答正确。

而对应地，在匹配结果表明问题答案与正确答案无关或者关联度低的情况下，即问题答案与正确答案的内容不相关联的情况下，此时，可以确定医学模型输出的问题答案错误，即对于输入问题的回答错误。

在这之后，即可进行据此结果进行医学模型的性能评估，即可以根据回答正确的输入问题数量，以及回答错误的输入问题数量，确定医学模型在知识广度下的指标评估结果。此处，具体的计算公式为：

基于上述实施例，在评估指标包括知识深度的情况下，医学数据包括输入问题，步骤120包括：

基于输入问题，确定生成提示语句；

将生成提示语句输入至医学模型，得到医学模型输出的输入问题对应的目标问题；

生成提示语句用于提示医学模型基于输入问题生成目标问题，目标问题的问题难度高于输入问题的问题难度。

具体地，在评估指标包括知识深度的情况下，医学数据包括输入问题，此时步骤120中，根据医学模型处理医学数据，得到医学数据的处理结果的过程，具体可以包括：

知识深度是在知识广度基础上的进一步深入，其能测试医学模型是否能处理复杂的医学问题，以及在面对缺乏足够信息的情况下是否能够提供有价值、有意义的回答。

基于此，本发明实施例中同样使用知识问答这一评估场景，并提供自动化的评估流程，首先可以分别对知识广度的三个知识层面构建指令模板，通过该指令模板引导医学模型生成更深难度的问题；即，可以根据医学知识问答库中三个知识层面的医学问题，构建生成提示语句，即基于输入问题，生成提示医学模型根据当前的输入问题，输出更深难度问题的生成提示语句，例如，其可以是“能否针对如输入问题‘XXXX’设计更深难度的问题？”。

随即，可以将生成提示语句输入至医学模型中以请求医学模型据此输入进行对应输出，得到医学模型输出的输入问题对应的目标问题；即将生成提示语句输入至医学模型，以使医学模型能够根据输入的生成提示语句中蕴含的输入问题以及提示信息，进行对应输出，以输出输入问题对应的处理结果，即较之输入问题难度更大、涉及知识面更广、更深的目标问题。此处，基于生成提示语句的提示，医学模型输出的目标问题的问题难度需高于输入问题的问题难度。

基于上述实施例，步骤130包括：

基于目标问题，确定目标输出提示语句；

将目标输出提示语句输入至医学模型，得到医学模型输出的目标问题的问题答案；

将问题答案与目标问题的正确答案进行匹配；

若匹配结果指示问题答案与正确答案相关，则确定医学模型对于目标问题的回答正确；

否则，确定医学模型对于目标问题的回答错误；

基于回答正确的目标问题数量，以及回答错误的目标问题数量，确定医学模型在知识深度下的指标评估结果。

具体地，在上述基础上，医学模型在生成提示语句的引导下生成了较之输入问题难度更大的目标问题后，即可将目标问题作为输入，以请求医学模型输出目标问题对应的问题答案。

可以理解的是，首先可以根据目标问题，生成输出提示语句，以提示医学模型对输入的目标问题进行理解并回答，对应输出目标问题的问题答案，为区别于前述输出提示语句，此处对应于目标问题可以将其称之为目标输出提示语句；接着，可以将目标输出提示语句作为输入，输入至医学模型以请求医学模型据此输入进行对应输出，即可以将目标输出提示语句输入至医学模型，以使医学模型能够根据输入的目标输出提示语句中蕴含的目标问题以及提示信息，进行对应输出，以输出目标问题的问题答案。

对上述过程重复执行多次，即通过多次(如三次、五次等)从输入问题到构建指令模板，到输出目标问题及其问题答案的迭代，可以得到医学模型输出的多个目标问题及其对目标问题的回答。

随后，即可目标问题的问题答案与目标问题的正确答案进行匹配，以确定两者是否相同，即通过答案匹配确定医学模型对于目标问题的回答是否正确。此处，目标问题的正确答案可以通过人为确定，也可以从医学知识问答库中查找确定，或者从其他医疗文献中检索确定，本发明实施例对此不做具体限定。本发明实施例中，可以对医学知识问答库中三个知识层面的医学知识分别进行采样，选取大量的医学数据(如2000条数据)进行评估。

进一步地，在匹配结果表明问题答案与正确答案相关的情况下，即问题答案与正确答案的内容相关联的情况下，此处考虑到医学模型在输出上的开放性和多样性，因此，本发明实施例中同样不要求医学模型输出的问题答案与正确答案一字不差，仅需两者相关联且关联度高，即两者指代同一内容，意思相同即可，此处对于问题答案和正确答案是否相关的判断，可以通过语义匹配，特征相似度计算等方式确定，此时，可以确定医学模型输出的问题答案正确，即其对于目标问题的回答正确。

而对应地，在匹配结果表明问题答案与正确答案无关或者关联度低的情况下，即问题答案与正确答案的内容不相关联的情况下，此时，可以确定医学模型输出的问题答案错误，即对于目标问题的回答错误。

在这之后，即可进行据此结果进行医学模型的性能评估，即可以根据回答正确的目标问题数量，以及回答错误的目标问题数量，确定医学模型在知识深度下的指标评估结果。此处，具体的计算公式为：

基于上述实施例，在评估指标包括有害性的情况下，医学数据包括患者病情，处理结果包括诊断名称和/或药品名称，步骤130包括：

将诊断名称和/或药物名称，与患者病情对应的正确诊断名称和/或正确药物名称进行匹配；

若匹配结果指示诊断名称和/或药物名称与正确诊断名称和/或正确药物名称相关，则确定医学模型对于患者病情的诊断正确和/或用药正确；否则，确定医学模型对于患者病情的诊断错误和/或用药错误；

基于诊断正确和/或用药正确的患者病情数量，以及诊断错误和/或用药错误的患者病情数量，确定医学模型在有害性下的指标评估结果。

具体地，在评估指标包括有害性的情况下，医学数据可以包括患者病情，由于有害性这一评估指标对应的评估场景有辅助诊断和/或用药推荐，因此，处理结果可包括诊断名称和/或用药名称，此时步骤130中，根据处理结果，确定医学模型在各评估指标下的指标评估结果的过程，具体包括：

为了评估医学模型在有害性下的表现，此处可以使用辅助诊断和/或用药推荐的评估场景。具体评估流程为：对于辅助诊断，输入为患者病情，通过医学模型可以得到患者病情的处理结果，即患者病情对应的诊断名称；对于用药推荐，输入为患者病情，通过医学模型可以得到患者病情的处理结果，即患者病情对应的用药名称；然后，可以将医学模型输出的诊断名称与辅助诊断数据集中患者病情对应的正确诊断名称进行匹配，和/或，将医学模型输出的用药名称与用药推荐数据集中患者病情对应的正确用药名称进行匹配，以确定两者是否相同，即医学模型对于输入的患者病情的诊断和/或用药是否正确。

进一步地，在匹配结果表明诊断名称与正确诊断名称相关的情况下，即诊断与正确诊断的内容相关联的情况下，此处考虑到医学模型在输出上的开放性和多样性，因此，本发明实施例中不要求医学模型输出的诊断名称与正确诊断名称一模一样，仅需两者相关联且关联度高，即两者指代同一内容、意思相同即可，此处对于问题答案和正确答案是否相关的判断，可以通过语义匹配，特征相似度计算等方式确定，此时，可以确定医学模型输出的诊断名称正确，即其对于输入的患者病情的诊断正确。

相应地，在匹配结果表明用药名称与正确用药名称相关的情况下，即用药与正确用药相关联的情况下，此时，可以确定医学模型输出的用药名称正确，即其对于输入的患者病情的用药正确。此处对于用药名称和正确用药名称相关的判断，以及对于两者在容错性上的考量，与辅助诊断基本一致，此处不再赘述。

对应地，在匹配结果表明诊断名称与正确诊断名称无关或者关联度低，和/或，用药名称与正确用药名称无关或者关联度低的情况下，即诊断名称和/或药物名称与正确诊断名称和/或正确药物名称不相关联的情况下，此时，可以确定医学模型输出的诊断名称和/或药物名称错误，即其对于输入的患者病情的诊断和/或用药错误。

在这之后，即可进行据此结果进行医学模型的性能评估，即可以根据正确的患者病情数量，以及错误的患者病情数量，确定医学模型在有害性下的指标评估结果。其中，正确的患者病情数量包括诊断正确和/或用药正确的患者病情数量，错误的患者病情数量包括诊断错误和/或用药错误的患者病情数量。此处，具体的计算公式为：

基于上述实施例，在评估指标包括幻觉的情况下，步骤130包括：

基于医学模型，从医学数据及其处理结果中分别提取三元组，得到输入知识三元组和输出知识三元组，知识三元组包括头实体、尾实体，以及头实体和尾实体间的实体关系；

确定输入知识三元组和输出知识三元组是否一致，以及输出知识三元组与医学知识图谱是否一致；

若输入知识三元组和输出知识三元组不一致，和/或，输出知识三元组与医学知识图谱不一致，则确定医学模型输出的处理结果为幻觉输出；否则，确定医学模型输出的处理结果为正常输出；

基于幻觉输出的处理结果数量，以及正常输出的处理结果数量，确定医学模型在幻觉下的指标评估结果。

具体地，在评估指标包括幻觉的情况下，步骤130中根据处理结果，确定医学模型在各评估指标下的指标评估结果的过程，具体包括：

图3是本发明提供的医学模型在幻觉下的评估示意图，如图3所示，为了评估医学模型下幻觉下的表现，此处可以使用知识问答、辅助诊断、用药推荐和病历生成中的至少一种评估场景。医学模型的幻觉可以分为两种，内部幻觉和外部幻觉，其中内部幻觉是医学模型的输出和输入不一致，外部幻觉则是医学模型的输出与真实知识不一致。

对此，本发明实施例中，可以设置知识匹配策略，首先使用医学模型从输入和输出中分别抽取蕴含的知识，形成知识三元组；即可以利用医学模型，从医学数据及其处理结果中分别进行实体及其实体关系的提取，以得到知识三元组，即输入的医学知识对应的输入知识三元组，以及输出的处理结果对应的输出知识三元组，此处的知识三元组中包含有头实体、尾实体，以及头实体和尾实体间的实体关系。

此处，值得注意的是，从输入和输出中分别提取出的知识三元组可能均不止一个，其可能是多个，这与输入和输出的具体内容相关。

接着，需要确定输入知识三元组和输出知识三元组是否一致，以及输出知识三元组与医学知识图谱是否一致，即可以计算两类知识三元组之间的一致性，以及输出知识三元组与预先构建的医学知识图谱之间的一致性；此处，对于知识三元组之间的一致性判断可以通过向量间的计算方式确定，对应地，对于输出知识三元组与医学知识图谱之间的一致性同样可以通过向量间的对比计算得到，原因在于，医学知识图谱可以视为众多的知识三元组，其中包含有多个实体，以及各实体间的实体关系。此处医学知识图谱是通过大量的医学知识预先构建得到的，可以用于评估医学模型在幻觉下的表现。

进一步地，在输入知识三元组和输出知识三元组不一致，和/或，输出知识三元组与医学知识图谱不一致的情况下，即输入知识三元组和输出知识三元组不同，和/或，输出知识三元组在医学知识图谱中不存在对应的知识三元组的情况下，可以确定此时医学模型产生了幻觉，即医学模型输出的处理结果是错误的，为幻觉输出。

而对应地，在输入知识三元组和输出知识三元组一致，且输出知识三元组与医学知识图谱一致的情况下，即输入知识三元组和输出知识三元组相同，且输出知识三元组在医学知识图谱中存在对应的知识三元组的情况下，可以确定医学模型并未出现幻觉，即此时医学模型输出的处理结果是正常的，为正常输出。

在这之后，即可进行据此结果进行医学模型的性能评估，即可以根据幻觉输出的处理结果数量，以及正常输出的处理结果数量，确定医学模型在幻觉下的指标评估结果。此处，具体的计算公式为：

基于上述实施例，在评估指标包括隐私性的情况下，步骤130包括：

对处理结果进行敏感信息识别，得到敏感信息识别结果；

若敏感信息识别结果指示处理结果中包含敏感信息，则确定医学模型输出的处理结果的隐私异常；

否则，确定医学模型输出的处理结果的隐私正常；

基于隐私异常的处理结果数量，以及隐私正常的处理结果数量，确定医学模型在隐私性下的指标评估结果。

具体地，在评估指标包括隐私性的情况下，步骤130中，根据处理结果，确定医学模型在各评估指标下的指标评估结果的过程，包括：

为了评估医学模型在隐私性下的表现，此处可以使用辅助诊断、用药审核和病历生成中的至少一种评估场景，以检验医学模型的输出中是否包含患者的敏感信息。考虑到敏感信息通常是通用领域的信息元素，因而，在得到医学模型的处理结果后，可以对其进行敏感信息识别，以确认其中是否包含敏感信息，从而得到敏感信息识别结果。

此处，敏感信息识别过程可以通过敏感信息识别模型实现，即可以预先训练得到一个敏感信息识别模型，再将医学模型输出的处理结果输入至敏感信息识别模型中，以通过模型对其进行敏感信息识别，从而得到模型输出的敏感信息识别结果。此处，敏感信息识别模型的训练过程包括：首先收集包含文本和相关命名实体标记的大规模语料库，这些语料库包括新闻文章、维基百科、社交媒体帖子等通用领域的文本；接着，确定语料库中文本的敏感信息标签，包括人名、地名、电话、医院名称、身份证号码等；之后，即可据此大规模预料及其敏感信息标签，训练初始识别模型，以得到训练完成的敏感信息识别模型；此处的初始识别模型可以是基于transformer的实体识别模型。

进一步地，在敏感信息识别结果表明医学模型输出的处理结果中包含敏感信息的情况下，即通过敏感信息识别确认处理结果中包含上述至少一种或一条敏感信息的情况下，可以确定医学模型出现了隐私侵害的问题，即医学模型的输出侵害了隐私，此时可以得出医学模型的输出为异常输出的结论，即医学模型输出的处理结果的隐私异常。

而对应地，在敏感信息识别结果表明医学模型输出的处理结果中不包含敏感信息的情况下，即通过敏感信息识别确认处理结果中不包含上述任意一种或一条敏感信息的情况下，可以确定医学模型未出现隐私侵害的问题，即医学模型的输出未曾侵害隐私，此时可以确定医学模型的输出为正常输出，即医学模型输出的处理结果的隐私正常。

在这之后，即可进行据此结果进行医学模型的性能评估，即可以根据隐私异常的处理结果数量，以及隐私正常的处理结果数量，确定医学模型在隐私性下的指标评估结果。此处，具体的计算公式为：

基于上述实施例，图4是本发明提供的医学模型评估方法的整体框架图，如图4所示，为了确保医学模型在临床实践中的有效性和可靠性，本发明实施例中提出一种多视角、多场景的医学模型评估方法，具体为：首先以知识场景和应用场景为核心，设计评估指标体系，包括知识深度、知识广度、幻觉、有害性和隐私性；然后针对评估指标体系设计多视角的评估场景，即知识场景和应用场景；其中知识场景即知识问答，应用场景包括辅助诊断、用药推荐和病历生成，之后，结合上下文学习和层次聚类的方式评估医学模型的整体性能。

本发明实施例提供的方法，可以全面评估医学模型在医疗文本理解和生成方面的能力，并且设计了实验，通过收集医疗领域的文本数据，并基于上下文学习的方法对医学模型进行评估，得出的实验结果表明了该评估方法能够全面、准确且客观地评估医学模型的性能，为医疗模型应用提供了有力的支持。

下面对本发明提供的医学模型评估装置进行描述，下文描述的医学模型评估装置与上文描述的医学模型评估方法可相互对应参照。

图5是本发明提供的医学模型评估装置的结构示意图，如图5所示，该装置包括：

数据确定单元510，用于确定用于模型评估的医学数据；

数据处理单元520，用于基于医学模型处理所述医学数据，得到所述医学数据的处理结果；

结果确定单元530，用于基于所述处理结果，确定所述医学模型在各评估指标下的指标评估结果，所述评估指标包括知识深度、知识广度、幻觉、有害性、隐私性中的至少两种；

性能评估单元540，用于基于所述医学模型在各评估指标下的指标评估结果，确定所述医学模型的性能。

本发明提供的医学模型评估装置，通过医学模型处理医学数据，得到医学数据的处理结果；根据处理结果，确定医学模型在各评估指标下的指标评估结果，评估指标包括知识深度、知识广度、幻觉、有害性、隐私性中的至少两种；根据医学模型在各评估指标下的指标评估结果，确定医学模型的性能，通过对医学模型所应对的医疗领域的专业特点的考量，从多个维度设计评估指标，并根据医学模型在多维度的评估指标下的表现评估模型性能，不仅能够实现更加全面准确的评估，还能使得评估过程更具专业性，评估效果更好，克服了目前模型性能评估缺乏对医学知识，以及医学领域的专业性的考量，以致得出结果的准确性和可靠性不高的缺陷，实现了有效可靠的性能评估。

基于上述实施例，数据处理单元520用于：

结果确定单元530用于：

性能评估单元540用于：

基于上述实施例，数据处理单元520用于：

确定所述各评估场景对应的评估数据集；

基于上述实施例，在所述评估指标包括知识广度的情况下，所述医学数据包括输入问题，所述处理结果包括问题答案，结果确定单元530用于：

将所述问题答案与所述输入问题的正确答案进行匹配；

否则，确定所述医学模型对于所述输入问题的回答错误；

基于上述实施例，在所述评估指标包括知识深度的情况下，所述医学数据包括输入问题，数据处理单元520用于：

基于所述输入问题，确定生成提示语句；

基于上述实施例，结果确定单元530用于：

基于所述目标问题，确定目标输出提示语句；

将所述问题答案与所述目标问题的正确答案进行匹配；

否则，确定所述医学模型对于所述目标问题的回答错误；

基于上述实施例，在所述评估指标包括有害性的情况下，所述医学数据包括患者病情，所述处理结果包括诊断名称和/或药品名称，结果确定单元530用于：

基于上述实施例，在所述评估指标包括幻觉的情况下，结果确定单元530用于：

否则，确定所述医学模型输出的所述处理结果为正常输出；

基于上述实施例，在所述评估指标包括隐私性的情况下，结果确定单元530用于：

否则，确定所述医学模型输出的所述处理结果的隐私正常；

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行医学模型评估方法，该方法包括：确定用于模型评估的医学数据；基于医学模型处理所述医学数据，得到所述医学数据的处理结果；基于所述处理结果，确定所述医学模型在各评估指标下的指标评估结果，所述评估指标包括知识深度、知识广度、幻觉、有害性、隐私性中的至少两种；基于所述医学模型在各评估指标下的指标评估结果，确定所述医学模型的性能。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的医学模型评估方法，该方法包括：确定用于模型评估的医学数据；基于医学模型处理所述医学数据，得到所述医学数据的处理结果；基于所述处理结果，确定所述医学模型在各评估指标下的指标评估结果，所述评估指标包括知识深度、知识广度、幻觉、有害性、隐私性中的至少两种；基于所述医学模型在各评估指标下的指标评估结果，确定所述医学模型的性能。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法所提供的医学模型评估方法，该方法包括：确定用于模型评估的医学数据；基于医学模型处理所述医学数据，得到所述医学数据的处理结果；基于所述处理结果，确定所述医学模型在各评估指标下的指标评估结果，所述评估指标包括知识深度、知识广度、幻觉、有害性、隐私性中的至少两种；基于所述医学模型在各评估指标下的指标评估结果，确定所述医学模型的性能。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种医学模型评估方法，其特征在于，包括：

确定用于模型评估的医学数据；

2.根据权利要求1所述的医学模型评估方法，其特征在于，所述基于医学模型处理所述医学数据，得到所述医学数据的处理结果；基于所述处理结果，确定所述医学模型在各评估指标下的指标评估结果，包括：

3.根据权利要求2所述的模型评估方法，其特征在于，所述基于所述医学模型分别对各评估场景下的医学数据进行处理，得到所述各评估场景下的医学数据的处理结果，包括：

确定所述各评估场景对应的评估数据集；

4.根据权利要求1至3中任一项所述的模型评估方法，其特征在于，在所述评估指标包括知识广度的情况下，所述医学数据包括输入问题，所述处理结果包括问题答案，所述基于所述处理结果，确定所述医学模型在各评估指标下的指标评估结果，包括：

将所述问题答案与所述输入问题的正确答案进行匹配；

否则，确定所述医学模型对于所述输入问题的回答错误；

5.根据权利要求1至3中任一项所述的模型评估方法，其特征在于，在所述评估指标包括知识深度的情况下，所述医学数据包括输入问题，所述基于医学模型处理所述医学数据，得到所述医学数据的处理结果，包括：

基于所述输入问题，确定生成提示语句；

6.根据权利要求5所述的模型评估方法，其特征在于，所述基于所述处理结果，确定所述医学模型在各评估指标下的指标评估结果，包括：

基于所述目标问题，确定目标输出提示语句；

将所述问题答案与所述目标问题的正确答案进行匹配；

否则，确定所述医学模型对于所述目标问题的回答错误；

7.根据权利要求1至3中任一项所述的模型评估方法，其特征在于，在所述评估指标包括有害性的情况下，所述医学数据包括患者病情，所述处理结果包括诊断名称和/或药品名称，所述基于所述处理结果，确定所述医学模型在各评估指标下的指标评估结果，包括：

8.根据权利要求1至3中任一项所述的模型评估方法，其特征在于，在所述评估指标包括幻觉的情况下，所述基于所述处理结果，确定所述医学模型在各评估指标下的指标评估结果，包括：

否则，确定所述医学模型输出的所述处理结果为正常输出；

9.根据权利要求1至3中任一项所述的模型评估方法，其特征在于，在所述评估指标包括隐私性的情况下，所述基于所述处理结果，确定所述医学模型在各评估指标下的指标评估结果，包括：

否则，确定所述医学模型输出的所述处理结果的隐私正常；

10.一种医学模型评估装置，其特征在于，包括：

数据确定单元，用于确定用于模型评估的医学数据；

11.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至9任一项所述的医学模型评估方法。

12.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的医学模型评估方法。