CN117932042A

CN117932042A - 作为医生代理的大语言模型的评测方法和装置

Info

Publication number: CN117932042A
Application number: CN202410329782.7A
Authority: CN
Inventors: 杨晓燕; 刘磊
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2024-03-21
Filing date: 2024-03-21
Publication date: 2024-04-26

Abstract

本说明书实施例提供一种作为医生代理的大语言模型的评测方法和装置，方法包括：从预先构建的标准化患者信息中，获取患者代理的初始化患者问询语句；将所述初始化患者问询语句输入所述大语言模型，得到医生代理的反问问题；从所述反问问题抽取表征临床医学中的项目名称的键信息；根据所述键信息，从所述标准化患者信息中检索对应的值信息；当检索到值信息时，将所述值信息作为患者代理对所述反问问题的回答，再次输入所述大语言模型，以实现多轮对话；确定所述多轮对话对应于各评测指标的指标分数，所述指标分数用于衡量所述大语言模型在临床诊疗方面的能力。能够实现准确的自动化评测。

Description

作为医生代理的大语言模型的评测方法和装置

技术领域

本说明书一个或多个实施例涉及计算机领域，尤其涉及作为医生代理的大语言模型的评测方法和装置。

背景技术

GPT模型等一系列大语言模型（large language model，LLM）的迅猛发展，为众多垂直领域带来了新的发展机遇和挑战。在医学领域，利用大语言模型具有的强大的文本理解生成能力，可以将大语言模型作为医生代理，通过医疗多轮问诊任务实现其与患者之间的多轮对话，通过多轮对话收集患者信息，并为患者提供精准、便捷的诊断和治疗建议。其中，患者信息属于隐私数据，需要保护隐私数据不会泄露。

大语言模型在提高医疗诊断的临床效率方面正受到越来越多的关注，为确保作为医生代理的大语言模型在临床应用中安全可靠，需要全面评测大语言模型在医疗多轮问诊任务上的性能表现。然而，目前的评测方法严重依赖人工参与，难以实现准确的自动化评测。

发明内容

本说明书一个或多个实施例描述了一种作为医生代理的大语言模型的评测方法和装置，能够实现准确的自动化评测。

第一方面，提供了一种作为医生代理的大语言模型的评测方法，方法包括：

从预先构建的标准化患者信息中，获取患者代理的初始化患者问询语句；

将所述初始化患者问询语句输入所述大语言模型，得到医生代理的反问问题；

从所述反问问题抽取表征临床医学中的项目名称的键信息；

根据所述键信息，从所述标准化患者信息中检索对应的值信息；

当检索到值信息时，将所述值信息作为患者代理对所述反问问题的回答，再次输入所述大语言模型，以实现多轮对话；

确定所述多轮对话对应于各评测指标的指标分数，所述指标分数用于衡量所述大语言模型在临床诊疗方面的能力。

在一种可能的实施方式中，所述从所述反问问题抽取表征临床医学中的项目名称的键信息，包括：

将所述反问问题输入作为患者代理的抽取模型，得到所述键信息；其中，所述抽取模型基于反问问题和键信息构成的训练样本进行微调。

进一步地，所述训练样本通过将所述标准化患者信息包含的键信息输入生成模型而得到。

在一种可能的实施方式中，所述方法还包括：

当未检索到值信息时，结束所述多轮对话。

在一种可能的实施方式中，所述键信息和对应的值信息包括如下至少一种：

症状名称和对应的症状描述；

检验项目和对应的报告；

检查项目和对应的报告。

在一种可能的实施方式中，所述评测指标包括：

用于考察医生代理从患者代理获取客观证据的能力的第一类指标；

所述第一类指标包括反问信息量和反问逻辑性中的至少一种；

所述反问信息量通过是否检索到所述值信息确定相应的指标分数；

所述反问逻辑性通过比对所述反问问题与所述标准化患者信息中包括的医学规则和逻辑顺序确定相应的指标分数。

在一种可能的实施方式中，所述多轮对话中包括医生代理的诊断结果；所述评测指标包括：

用于考察医生代理推理出诊断结果的能力的第二类指标；

所述第二类指标包括诊断准确度、诊断信息量中的至少一种；

所述诊断准确度通过所述诊断结果是否与所述标准化患者信息中包括的标准诊断结果相一致而确定；

所述诊断信息量通过所述诊断结果与所述标准诊断结果的关键词匹配数目而确定。

在一种可能的实施方式中，所述多轮对话中包括医生代理的治疗方案；所述评测指标包括：

用于考察医生代理给出治疗方案的能力的第三类指标；

所述第三类指标包括治疗方案准确度、治疗信息量中的至少一种；

所述治疗方案准确度通过所述治疗方案是否与所述标准化患者信息中包括的标准治疗方案相一致而确定；

所述治疗信息量通过所述治疗方案与所述标准治疗方案的关键词匹配数目而确定。

进一步地，所述评测指标还包括询证能力，其通过所述反问问题是否涵盖所述标准化患者信息中包括的各个键信息而确定。

在一种可能的实施方式中，所述评测指标包括：

用于考察医生代理全面的对患者情况进行了解的能力的第四类指标，其通过检索到的值信息的数量而确定。

在一种可能的实施方式中，所述评测指标包括：

用于考察医生代理通过合适的对话轮数在多轮对话中做出诊断结果的能力的第五类指标，其通过所述多轮对话的对话轮数是否超过所述标准化患者信息包括的标准轮数而确定。

在一种可能的实施方式中，所述方法还包括：

至少根据是否检索到值信息，确定所述大语言模型是否存在幻觉问题。

进一步地，所述确定所述大语言模型是否存在幻觉问题，包括：

当未检索到值信息时，确定所述大语言模型存在幻觉问题；或者，

当所述多轮对话中医生代理给出的诊断结果，与所述标准化患者信息中包括的标准诊断结果，二者不一致时，确定所述大语言模型存在幻觉问题。

第二方面，提供了一种作为医生代理的大语言模型的评测装置，所述装置包括

获取单元，用于从预先构建的标准化患者信息中，获取患者代理的初始化患者问询语句；

输入单元，用于将所述获取单元获取的初始化患者问询语句输入所述大语言模型，得到医生代理的反问问题；

抽取单元，用于从所述输入单元得到的反问问题抽取表征临床医学中的项目名称的键信息；

检索单元，用于根据所述抽取单元得到的键信息，从所述标准化患者信息中检索对应的值信息；

所述输入单元，还用于当所述检索单元检索到值信息时，将所述值信息作为患者代理对所述反问问题的回答，再次输入所述大语言模型，以实现多轮对话；

评分单元，用于确定所述多轮对话对应于各评测指标的指标分数，所述指标分数用于衡量所述大语言模型在临床诊疗方面的能力。

第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

第四方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

通过本说明书实施例提供的方法和装置，首先从预先构建的标准化患者信息中，获取患者代理的初始化患者问询语句；然后将所述初始化患者问询语句输入所述大语言模型，得到医生代理的反问问题；接着从所述反问问题抽取表征临床医学中的项目名称的键信息；再根据所述键信息，从所述标准化患者信息中检索对应的值信息；当检索到值信息时，将所述值信息作为患者代理对所述反问问题的回答，再次输入所述大语言模型，以实现多轮对话；最后确定所述多轮对话对应于各评测指标的指标分数，所述指标分数用于衡量所述大语言模型在临床诊疗方面的能力。由上可见，本说明书实施例，预先构建了标准化患者信息，基于该标准化患者信息，得到患者代理的初始化患者问询语句，以及患者代理针对医生代理的反问问题的回答，其中，上述回答通过从标准化患者信息中检索的方式获取，能够更好的模拟标准化患者的行为和反应，此外，预先设定各评测指标，使得评测更为客观，从而能够实现准确的自动化评测。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的实施场景示意图；

图2为本说明书披露的另一个实施例的实施场景示意图；

图3示出根据一个实施例的作为医生代理的大语言模型的评测方法流程图；

图4示出根据一个实施例的作为医生代理的大语言模型的评测装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及作为医生代理的大语言模型的评测，主要介绍评测的基本框架。参照图1，为了便于评测作为医生代理的大语言模型的性能，可以由医生代理执行多轮问诊任务。多轮问诊：是指在临床实践中，医生与患者进行多次交流的过程，以此收集病史、评估症状、了解患者的感受和需求，进而制定或调整治疗计划。这种方式可以用于确诊某些疾病、监测患者的治疗反应以及处理复杂的医疗状况。本说明书实施例，采用患者代理来替代和模拟真实的患者。首先构建患者代理，然后由患者代理与医生代理进行交互式对话，以实现多轮对话，最后根据产生的多轮对话信息计算各评测指标的指标分数。其中，患者代理的构建，以及评测指标的计算方式，均对准确的自动化评测有着重要的影响。

在交互式对话过程中，可以首先由患者代理发出初始化患者问询语句，例如，该问询语句为“医生，我最近头痛，怎么办呀”；然后由医生代理提出反问问题，例如，“B超做过了吗”；接着患者代理做出对该反问问题的回答，例如，“没有”，或者，“B超报告内容是……”；后续医生代理根据该回答可以进一步提出反问问题，或者，做出诊断结果和/或治疗方案，或者，结束该多轮对话。

若患者代理做出对该反问问题的回答为“B超报告内容是……”，则多轮对话可以收集到所需要的患者信息，从而准确衡量医生代理在诊疗方面的能力。若患者代理做出对该反问问题的回答为“没有”，则多轮对话无法收集到所需要的患者信息，其是由于患者代理的构造不合理所导致的，难以准确衡量医生代理在诊疗方面的能力。本说明书实施例，通过预先构建标准化患者信息，并由患者代理基于该标准化患者信息做出问询和针对医生代理的回答，可以避免患者代理的构造不合理。

本说明书实施例，构造患者代理不在于模仿普通患者，而是致力于模仿标准化患者，从而对医生代理实现准确的自动化评测。

标准化患者（standardized patients，SPs）：是一种教育工具，用于医学和其他健康专业领域的教学与评估。标准化患者通常是经过特别训练的人员，他们按照特定的指导案例扮演真实患者的角色，以便学生可以在安全的环境中练习临床技能，如病史采集、体格检查、沟通技巧和其他诊疗技能。

标准化患者的主要目的包括：提供实践机会，使学生能够在模拟环境中练习和提高临床技能，而不是在真实患者身上进行尝试。教育反馈，SPs可以根据他们的观察和经验为学生提供即时的、有建设性的反馈，帮助学生改进技能。评估工具，在考试中，标准化患者可以提供一致的、可复制的评估环境，用于评价学生的临床能力，上述考试可以为临床技能考试。研究，在医学研究中，标准化患者可以用来研究医生的诊疗行为，医患沟通方式等。

使用标准化患者带来了很多好处，它可以帮助未来的医疗工作者更好地准备面对真实的临床情境，同时提高他们对患者关怀的理解和技能。

此外，以往针对作为医生代理的大语言模型的评测主要依赖于专家人工评估，本说明书实施例，通过建立统一的评测指标，使得评测指标标准化，使得评测更为客观。

需要说明的是，医生代理可以基于各种自动化实现方式，可以但不限于采用大语言模型，本说明书实施例，仅以大语言模型作为医生代理的一种典型的实施方式。

图2为本说明书披露的另一个实施例的实施场景示意图。该实施场景涉及作为医生代理的大语言模型的评测，主要介绍标准化患者信息的构建。参照图2，根据真实临床场景中的临床实践路径，医学专家需要重新组织临床病历，以制定虚拟但完整的标准化患者信息，标准化患者信息也可以称为标准化病人信息。举例来说，在真实临床场景中，患者首先发出问询“医生，我最近头痛，怎么办呀”，接下来医生会针对该问询提出反问问题，患者针对该反问问题进行回答，从而形成多轮对话。在多轮对话过程中，患者向医生表达了其主要诉求，医生在标准化临床流程中，分阶段确定初诊结果、确诊结果和治疗建议，形成患者病历，基于临床规则和医学规范，可以基于大规模病历的虚拟患者构建标准化患者信息，可以理解的是，标准化患者信息并不对应于一个真实患者，是通过统计建模和医生改写形成的。

本说明书实施例，对应于确定初诊结果的阶段，依靠的是医生的临床经验，即医学信息；对应于确定确诊结果的阶段，依靠的是医生的临床询证，即检查检验；对应于确定治疗建议的阶段，依靠的是医生的临床建议，即医学手段。其中，首先获取患者的基本信息，依次确定其基本症状和关键症状，得到初诊结果；然后获取患者的症状、检查检验结果（简称检查检验）和病史，确定关键结果，得到确诊结果；最后获取患者的症状、初诊结果、检查检验结果、病史和确诊结果，确定治疗方案，得到治疗建议。

标准化患者信息中可以包括三类信息，第一类信息为基于统计的基础信息，如高发病率年龄段；第二类信息为基于完整的临床流程的信息，如从问诊到检查检验到诊断治疗的流程；第三类信息为基于完备的检查检验的信息，如单病例覆盖疾病相关的全部的关键检查检验报告。下面的表一给出了标准化患者信息的简化示例。

表一：标准化患者信息

由表一可见，该标准化患者信息中涵盖的内容是很全面的，其中不仅包含了患者初始的问题，还包含了一系列的症状、检查、检验，基于该标准化患者信息构造的患者代理能够避免信息缺失，并且，该标准化患者信息中还包含了顺序、轮次、结果等内容，有利于利用其对医生代理的临床诊断能力进行评测。

本说明书实施例，可以预先设定若干评测指标，用于评测医生代理的各项能力，例如，是否收集完整的患者症状，是否收集完整的临床检查，是否收集完整的临床检验，是否给出确诊结果和治疗建议等。

图3示出根据一个实施例的作为医生代理的大语言模型的评测方法流程图，该方法可以基于图1或图2所示的实施场景。如图3所示，该实施例中作为医生代理的大语言模型的评测方法包括以下步骤：步骤31，从预先构建的标准化患者信息中，获取患者代理的初始化患者问询语句；步骤32，将所述初始化患者问询语句输入所述大语言模型，得到医生代理的反问问题；步骤33，从所述反问问题抽取表征临床医学中的项目名称的键信息；步骤34，根据所述键信息，从所述标准化患者信息中检索对应的值信息；步骤35，当检索到值信息时，将所述值信息作为患者代理对所述反问问题的回答，再次输入所述大语言模型，以实现多轮对话；步骤36，确定所述多轮对话对应于各评测指标的指标分数，所述指标分数用于衡量所述大语言模型在临床诊疗方面的能力。下面描述以上各个步骤的具体执行方式。

首先在步骤31，从预先构建的标准化患者信息中，获取患者代理的初始化患者问询语句。可以理解的是，标准化患者信息可以视为标准化患者的结构化病历，可以预先构建多份标准化患者信息，每份标准化患者信息具有其疾病类型，例如，一份标准化患者信息具有的疾病类型为冠心病，另一份标准化患者信息具有的疾病类型为前列腺癌。疾病类型可以对应于表一中的结果类别下的诊断项目的内容，初始化患者问询语句可以对应于表一中的问题类别下的主要意图项目的内容。

本说明书实施例，当有多份标准化患者信息时，可以从多份标准化患者信息中随机选取一份标准化患者信息，获取其中的问题类别下的主要意图项目的内容，将其作为患者代理的初始化患者问询语句；或者，当有多份标准化患者信息时，可以根据指定的疾病类型从多份标准化患者信息中选取具有该疾病类型的一份标准化患者信息，获取其中的问题类别下的主要意图项目的内容，将其作为患者代理的初始化患者问询语句。

然后在步骤32，将所述初始化患者问询语句输入所述大语言模型，得到医生代理的反问问题。可以理解的是，大语言模型具有强大的文本理解生成能力，可以对初始化患者问询语句进行文本理解，并生成医生代理的反问问题。

举例来说，初始化患者问询语句为“我最近尿频，应该怎么办？”，反问问题为“你有哪些明显的症状？”。

本说明书实施例，着重于对医生代理的性能进行评测，对于大语言模型的模型结构和训练方式不做具体限定。

接着在步骤33，从所述反问问题抽取表征临床医学中的项目名称的键信息。可以理解的是，上述键信息可以表征临床医学中的任意一种项目名称，在一份标准化患者信息中可能具有该项目，也可能不具有该项目。

本说明书实施例，从所述反问问题抽取的键信息可以为一个，也可以为多个，例如，抽取的键信息为心电图，也可以为尿液分析和血常规。

在一个示例中，所述从所述反问问题抽取表征临床医学中的项目名称的键信息，包括：

其中，上述生成模型可以但不限于采用GPT模型。

再在步骤34，根据所述键信息，从所述标准化患者信息中检索对应的值信息。可以理解的是，先根据所述键信息，从所述标准化患者信息中检索对应的项目，再查找该项目对应的内容即为值信息。

本说明书实施例，标准化患者信息中项目属于某一类别，从而可以采用二级检索的方式检索对应的项目。

举例来说，键信息为心电图，其类别为检查，先从标准化信息中检索检查类别，再在检查类别下检索心电图项目。

接着在步骤35，当检索到值信息时，将所述值信息作为患者代理对所述反问问题的回答，再次输入所述大语言模型，以实现多轮对话。可以理解的是，针对患者代理的回答，医生代理可以进一步提出反问问题，或者，做出诊断结果和提供治疗方案。

在一个示例中，所述方法还包括：

当未检索到值信息时，结束所述多轮对话。

可以理解的是，在一份标准化患者信息中，通常并不包括所有的临床医学中的项目，如果医生代理的反问问题不恰当，则提取到的键信息不在标准化患者信息中，从而检索不到对应的值信息，患者代理可以拒绝回答该反问问题。

在一个示例中，所述键信息和对应的值信息包括如下至少一种：

症状名称和对应的症状描述；

检验项目和对应的报告；

检查项目和对应的报告。

最后在步骤36，确定所述多轮对话对应于各评测指标的指标分数，所述指标分数用于衡量所述大语言模型在临床诊疗方面的能力。可以理解的是，可以预先设定多项评测指标，不同项的评测指标用于衡量医生代理不同的能力。

在一个示例中，所述评测指标包括：

该示例中，第一类指标为反问相关的指标，具体地，可以考察医生代理从患者对于症状或体检报告等进行进一步更系统的检查，获取更多客观证据的能力。下面的表二给出了第一类指标的指标描述和计算方式的示例。

表二：第一类指标的指标描述和计算方式

在一个示例中，所述多轮对话中包括医生代理的诊断结果；所述评测指标包括：

用于考察医生代理推理出诊断结果的能力的第二类指标；

进一步地，第二类指标还包括临床询证能力，其通过所述反问问题是否涵盖所述标准化患者信息中包括的各个键信息而确定。

该示例中，第二类指标为诊断相关的指标，具体地，可以考察医生代理根据客观证据推理出患者最终诊断的能力，其中诊断应为重要核心诊断，尽可能为病因诊断或病理解剖诊断，具体到分期、分型、严重程度或范围大小，最终诊断作为1级标注。下面的表三给出了第二类指标的指标描述和计算方式的示例。

表三：第二类指标的指标描述和计算方式

在一个示例中，所述多轮对话中包括医生代理的治疗方案；所述评测指标包括：

用于考察医生代理给出治疗方案的能力的第三类指标；

进一步地，第三类指标还包括临床询证能力，其通过所述反问问题是否涵盖所述标准化患者信息中包括的各个键信息而确定。

该示例中，第三类指标为治疗相关的指标，具体地，可以考察医生代理根据诊断和患者治疗意愿，给出诊疗方案的能力（最终诊断作为1级标注），其中包括诊疗方案的适应症、禁忌症等判断，还包括药物治疗的药物选择、用法用量提示，以及手术治疗的术前必要检查的异常判断和注意事项。下面的表四给出了第三类指标的指标描述和计算方式的示例。

表四：第三类指标的指标描述和计算方式

在一个示例中，所述评测指标包括：

该示例中，不考虑医生问询的轮数，如果医生问询比较多，即便轮数较多，也不算错，全面了解是正确的。

在一个示例中，所述评测指标包括：

该示例中，考虑医生问询的轮数，如果医生问询的轮数大于预设阈值，则在初始分数基础上减去一定的分数。

在一个示例中，所述方法还包括：

该示例，用于检测医生代理的反问问题是否与患者的初始化患者问询语句相关，如果不相关，则存在幻觉问题，属于逻辑幻觉。

本说明书实施例，还可以通过检测多轮对话中医生代理是否存在医学事实性错误，从而确定是否存在逻辑幻觉。

该示例中，当未检索到值信息时，说明医生代理的反问问题不在标准化信息内，可能是大语言模型的理解能力不足或者推理能力不足；当所述多轮对话中医生代理给出的诊断结果，与所述标准化患者信息中包括的标准诊断结果，二者不一致时，可能是大语言模型的推理能力不足。这两种情况均属于对话上下文一致性幻觉。

本说明书实施例，还可以通过检测多轮对话中医生代理是否存在遗忘，重复反问，从而确定是否存在对话上下文一致性幻觉。

通过本说明书实施例提供的方法，首先从预先构建的标准化患者信息中，获取患者代理的初始化患者问询语句；然后将所述初始化患者问询语句输入所述大语言模型，得到医生代理的反问问题；接着从所述反问问题抽取表征临床医学中的项目名称的键信息；再根据所述键信息，从所述标准化患者信息中检索对应的值信息；当检索到值信息时，将所述值信息作为患者代理对所述反问问题的回答，再次输入所述大语言模型，以实现多轮对话；最后确定所述多轮对话对应于各评测指标的指标分数，所述指标分数用于衡量所述大语言模型在临床诊疗方面的能力。由上可见，本说明书实施例，预先构建了标准化患者信息，基于该标准化患者信息，得到患者代理的初始化患者问询语句，以及患者代理针对医生代理的反问问题的回答，其中，上述回答通过从标准化患者信息中检索的方式获取，能够更好的模拟标准化患者的行为和反应，此外，预先设定各评测指标，使得评测更为客观，从而能够实现准确的自动化评测。

根据另一方面的实施例，还提供一种作为医生代理的大语言模型的评测装置，该装置用于执行本说明书实施例提供的方法。图4示出根据一个实施例的作为医生代理的大语言模型的评测装置的示意性框图。如图4所示，该装置400包括：

获取单元41，用于从预先构建的标准化患者信息中，获取患者代理的初始化患者问询语句；

输入单元42，用于将所述获取单元41获取的初始化患者问询语句输入所述大语言模型，得到医生代理的反问问题；

抽取单元43，用于从所述输入单元41得到的反问问题抽取表征临床医学中的项目名称的键信息；

检索单元44，用于根据所述抽取单元43得到的键信息，从所述标准化患者信息中检索对应的值信息；

所述输入单元42，还用于当所述检索单元44检索到值信息时，将所述值信息作为患者代理对所述反问问题的回答，再次输入所述大语言模型，以实现多轮对话；

评分单元45，用于确定所述多轮对话对应于各评测指标的指标分数，所述指标分数用于衡量所述大语言模型在临床诊疗方面的能力。

可选地，作为一个实施例，所述抽取单元43，具体用于将所述反问问题输入作为患者代理的抽取模型，得到所述键信息；其中，所述抽取模型基于反问问题和键信息构成的训练样本进行微调。

可选地，作为一个实施例，所述装置还包括：

结束单元，用于当检索单元44未检索到值信息时，结束所述多轮对话。

可选地，作为一个实施例，所述键信息和对应的值信息包括如下至少一种：

症状名称和对应的症状描述；

检验项目和对应的报告；

检查项目和对应的报告。

可选地，作为一个实施例，所述评测指标包括：

可选地，作为一个实施例，所述多轮对话中包括医生代理的诊断结果；所述评测指标包括：

用于考察医生代理推理出诊断结果的能力的第二类指标；

可选地，作为一个实施例，所述多轮对话中包括医生代理的治疗方案；所述评测指标包括：

用于考察医生代理给出治疗方案的能力的第三类指标；

可选地，作为一个实施例，所述评测指标包括：

可选地，作为一个实施例，所述装置还包括：

幻觉确定单元，用于至少根据检索单元44是否检索到值信息，确定所述大语言模型是否存在幻觉问题。

进一步地，所述幻觉确定单元，具体用于：

通过本说明书实施例提供的方法和装置，首先获取单元41从预先构建的标准化患者信息中，获取患者代理的初始化患者问询语句；然后输入单元42将所述初始化患者问询语句输入所述大语言模型，得到医生代理的反问问题；接着抽取单元43从所述反问问题抽取表征临床医学中的项目名称的键信息；再由检索单元44根据所述键信息，从所述标准化患者信息中检索对应的值信息；当检索到值信息时，输入单元42将所述值信息作为患者代理对所述反问问题的回答，再次输入所述大语言模型，以实现多轮对话；最后评分单元45确定所述多轮对话对应于各评测指标的指标分数，所述指标分数用于衡量所述大语言模型在临床诊疗方面的能力。由上可见，本说明书实施例，预先构建了标准化患者信息，基于该标准化患者信息，得到患者代理的初始化患者问询语句，以及患者代理针对医生代理的反问问题的回答，其中，上述回答通过从标准化患者信息中检索的方式获取，能够更好的模拟标准化患者的行为和反应，此外，预先设定各评测指标，使得评测更为客观，从而能够实现准确的自动化评测。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图3所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图3所描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种作为医生代理的大语言模型的评测方法，所述方法包括：

从所述反问问题抽取表征临床医学中的项目名称的键信息；

2.如权利要求1所述的方法，其中，所述从所述反问问题抽取表征临床医学中的项目名称的键信息，包括：

3.如权利要求2所述的方法，其中，所述训练样本通过将所述标准化患者信息包含的键信息输入生成模型而得到。

4.如权利要求1所述的方法，其中，所述方法还包括：

当未检索到值信息时，结束所述多轮对话。

5.如权利要求1所述的方法，其中，所述键信息和对应的值信息包括如下至少一种：

症状名称和对应的症状描述；

检验项目和对应的报告；

检查项目和对应的报告。

6.如权利要求1所述的方法，其中，所述评测指标包括：

7.如权利要求1所述的方法，其中，所述多轮对话中包括医生代理的诊断结果；所述评测指标包括：

用于考察医生代理推理出诊断结果的能力的第二类指标；

8.如权利要求1所述的方法，其中，所述多轮对话中包括医生代理的治疗方案；所述评测指标包括：

用于考察医生代理给出治疗方案的能力的第三类指标；

9.如权利要求7或8所述的方法，其中，所述评测指标还包括询证能力，其通过所述反问问题是否涵盖所述标准化患者信息中包括的各个键信息而确定。

10.如权利要求1所述的方法，其中，所述评测指标包括：

11.如权利要求1所述的方法，其中，所述评测指标包括：

12.如权利要求1所述的方法，其中，所述方法还包括：

13.如权利要求12所述的方法，其中，所述确定所述大语言模型是否存在幻觉问题，包括：

14.一种作为医生代理的大语言模型的评测装置，所述装置包括

15.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-13中任一项的所述的方法。

16.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-13中任一项的所述的方法。