CN118246435A

CN118246435A - 一种应用于呼吸科领域的大型语言模型的评估方法和装置

Info

Publication number: CN118246435A
Application number: CN202410350347.2A
Authority: CN
Inventors: 陈阵; 吴锦林; 刘宏斌; 赵浩瀚
Original assignee: Artificial Intelligence And Robotics Innovation Center Hong Kong Institute Of Innovation Chinese Academy Of Sciences Ltd
Current assignee: Artificial Intelligence And Robotics Innovation Center Hong Kong Institute Of Innovation Chinese Academy Of Sciences Ltd
Priority date: 2024-03-26
Filing date: 2024-03-26
Publication date: 2024-06-25

Abstract

本发明提供一种应用于呼吸科领域的大型语言模型的评估方法和装置，其中方法包括：获取评估试题集，评估试题集包括呼吸科领域下的多个试题；基于大型语言模型，解答评估试题集中的各个试题，得到各个试题的试题答案；基于各个试题答案进行模型性能评估，得到大型语言模型在呼吸科领域的性能，克服了传统方案中通用的模型性能评估方法未能考虑到领域特殊性，以致在特定领域上评估结果的准确性、可靠性和实用性欠佳的缺陷，利用大型语言模型对呼吸科领域下的多个试题进行解答，并通过试题答案进行性能评估，不仅能够聚焦于呼吸科领域，实现准确可靠的性能评估，还能使评估过程更为专业，从而可以为后续大型语言模型在呼吸科领域的安全应用提供依据。

Description

一种应用于呼吸科领域的大型语言模型的评估方法和装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种应用于呼吸科领域的大型语言模型的评估方法和装置。

背景技术

随着人工智能的飞速发展，在自然语言处理领域，大型语言模型已表现出了卓越的能力和广泛的应用价值。其能够理解和生成人类的语言，从而可以在多个领域发挥重要作用。特别是在呼吸科领域，利用大型语言模型可以实现辅助诊断、治疗计划制定和医疗知识的普及。

但是，在应用大型语言模型实现各项功能时，由于模型的性能决定了其在对应领域的表现，因此，其性能的评估至关重要。然而，当下的模型性能评估方法主要是在一般性能指标上进行评估，例如，评估处理速度、响应时间、语言生成流畅性等，即多聚焦于模型的一般性能，而忽略了其在特定领域的应用，并且，往往也无法考虑到领域的特殊性，因而，特定领域上模型的评估结果的可靠性和全面性堪忧。

发明内容

本发明提供一种应用于呼吸科领域的大型语言模型的评估方法和装置，用以解决现有技术中通用的模型性能评估方法难以应用于特定领域，未能考虑到领域特殊性，以致评估准确性、可靠性和实用性欠佳的缺陷，能够聚焦于特定领域，评估模型在特定领域的应用效果。

本发明提供一种应用于呼吸科领域的大型语言模型的评估方法，包括：

获取评估试题集，所述评估试题集包括呼吸科领域下的多个试题；

基于大型语言模型，解答所述评估试题集中的各个试题，得到所述各个试题的试题答案；

基于各个试题答案进行模型性能评估，得到所述大型语言模型在所述呼吸科领域的性能。

根据本发明提供的一种应用于呼吸科领域的大型语言模型的评估方法，所述基于大型语言模型，解答所述评估试题集中的各个试题，得到所述各个试题的试题答案，包括：

基于所述呼吸科领域下的亚专科领域，确定所述呼吸科领域下的多个目标专科领域；

基于各目标专科领域，对所述评估试题集中的各个试题进行分类，得到所述各目标专科领域下的试题；

基于所述大型语言模型，分别解答所述各目标专科领域下的试题，得到所述各目标专科领域下试题的试题答案。

根据本发明提供的一种应用于呼吸科领域的大型语言模型的评估方法，所述基于所述大型语言模型，分别解答所述各目标专科领域下的试题，得到所述各目标专科领域下试题的试题答案，包括：

确定所述各目标专科领域下试题的题干文本；

基于各题干文本，确定对应的生成提示语句；

基于各生成提示语句，应用所述大型语言模型，分别进行试题解答，得到所述各目标专科领域下试题的试题答案；

其中，所述生成提示语句用于提示所述大型语言模型基于试题的题干文本解答所述试题，并生成对应的试题答案。

根据本发明提供的一种应用于呼吸科领域的大型语言模型的评估方法，所述评估试题集中试题的题型包括选择题和问答题；任一试题对应的生成提示语句基于如下步骤确定：

在任一目标专科领域下任一试题的题型为选择题的情况下，确定所述任一试题的试题选项，并基于所述任一试题的题干文本和试题选项，确定所述任一试题对应的生成提示语句；

在任一目标专科领域下任一试题的题型为问答题的情况下，基于所述任一试题的题干文本，确定所述任一试题对应的生成提示语句。

根据本发明提供的一种应用于呼吸科领域的大型语言模型的评估方法，任一试题的试题答案基于如下步骤确定：

在任一目标专科领域下任一试题的题型为选择题的情况下，基于所述任一试题对应的生成提示语句，应用所述大型语言模型，进行试题解答，得到所述任一试题对应于试题选项的概率分布；

基于所述任一试题对应的概率分布，以及所述任一试题的试题题型，确定所述任一目标专科领域下所述任一试题的试题答案。

根据本发明提供的一种应用于呼吸科领域的大型语言模型的评估方法，基于各个试题答案进行模型性能评估，得到所述大型语言模型在所述呼吸科领域的性能，包括：

在任一试题的题型为选择题的情况下，基于所述任一试题的试题答案和标准答案，确定所述大型语言模型对所述任一试题的答题结果，并基于所述任一试题及其答题结果，确定所述大型语言模型对所述任一试题的答题情况；

在任一试题的题型为问答题的情况下，获取医学专家评估的所述任一试题的试题答案所表征的所述任一试题的答题情况，所述答题情况包括所述大型语言模型在各评估指标下的评估结果，所述评估指标包括答题准确度、答题全面性、答题实用性、答题专业性以及答题有益性中的至少两种；

基于所述各个试题的答题情况进行模型性能评估，得到所述大型语言模型在所述呼吸科领域的性能。

根据本发明提供的一种应用于呼吸科领域的大型语言模型的评估方法，基于所述大型语言模型，分别解答所述各目标专科领域下的试题，得到所述各目标专科领域下试题的试题答案，之后还包括：

分别对所述各目标专科领域下试题的答题情况进行展示，所述答题情况基于对应目标专科领域下试题的试题答案确定；

所述答题情况包括所述大型语言模型在各评估指标下的评估结果，所述评估指标包括答题准确度、答题全面性、答题实用性、答题专业性以及答题有益性中的至少两种。

本发明还提供一种应用于呼吸科领域的大型语言模型的评估装置，包括：

获取单元，用于获取评估试题集，所述评估试题集包括呼吸科领域下的多个试题；

答题单元，用于基于大型语言模型，解答所述评估试题集中的各个试题，得到所述各个试题的试题答案；

评估单元，用于基于各个试题答案进行模型性能评估，得到所述大型语言模型在所述呼吸科领域的性能。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的应用于呼吸科领域的大型语言模型的评估方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的应用于呼吸科领域的大型语言模型的评估方法。

本发明提供的应用于呼吸科领域的大型语言模型的评估方法和装置，通过大型语言模型，解答评估试题集中的各个试题，得到各个试题的试题答案；基于各个试题答案进行模型性能评估，得到大型语言模型在呼吸科领域的性能，克服了传统方案中通用的模型性能评估方法未能考虑到领域特殊性，以致在特定领域上评估结果的准确性、可靠性和实用性欠佳的缺陷，利用大型语言模型对特定的呼吸科领域下的多个试题进行解答，并通过试题答案进行性能评估，不仅能够聚焦于呼吸科领域，实现准确可靠的性能评估，还能使得评估过程更为专业，从而可以为后续大型语言模型在呼吸科领域的安全应用提供依据。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的应用于呼吸科领域的大型语言模型的评估方法的流程示意图；

图2是本发明提供的应用于呼吸科领域的大型语言模型的评估方法的总体流程图；

图3是本发明提供的应用于呼吸科领域的大型语言模型的评估装置的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着人工智能的飞速发展，大型语言模型已能够理解和生成人类的语言，从而可以在多个领域，例如，医疗、教育、导航等中发挥重要作用。特别是在呼吸科领域，大型语言模型可通过分析医疗文献、临床报告，以及与患者互动来实现辅助诊断、治疗计划制定和医疗知识的普及。

但是，目前的大型语言模型在面向通用领域时，其表现极佳，例如处理速度快、响应及时、语言生成流畅等，然而，在面向特定领域时，由于对特定领域的知识缺乏理解和鉴别能力，因此，其在处理特定领域的专业知识时，往往存在不足，特别是医疗领域中的呼吸科领域上大型语言模型的表现仍不如人意。

对此，本发明提供一种专用于评估大型语言模型在呼吸科领域上的表现的方法，即应用于呼吸科领域的大型语言模型的评估方法，该方法专注于评估模型在处理呼吸科相关知识时的专业性、准确性、全面性、可靠性、实用性、有益性等，以据此确定模型在呼吸科领域上的性能，并为大型语言模型在呼吸科领域的安全和高效应用提供支撑。

图1是本发明提供的应用于呼吸科领域的大型语言模型的评估方法的流程示意图，如图1所示，该方法包括：

步骤110，获取评估试题集，评估试题集包括呼吸科领域下的多个试题；

步骤120，基于大型语言模型，解答评估试题集中的各个试题，得到各个试题的试题答案；

步骤130，基于各个试题答案进行模型性能评估，得到大型语言模型在呼吸科领域的性能。

具体地，在进行模型性能评估之前，首先需要确定用于模型性能评估的数据，由于本发明实施例中着眼于大型语言模型在呼吸科领域上的表现，以为其后续的应用保驾护航，因此，此处的数据为医学领域下呼吸科领域的数据。进一步地，考虑到大模型语言模型具有良好的交互能力，可快速进行知识问答，因此，本发明实施例中可选择通过知识问答的方式实现对大型语言模型在呼吸科领域上的性能评估。

即，此处用于模型性能评估的数据可以是呼吸科领域对应的知识，而为更快、更便捷的获知模型对于呼吸科领域下知识的理解、分析、甄别等能力，本发明实施例中，可以进一步的将此知识转换为问题，通过对问题的回答来判断模型在呼吸科领域上的表现，从而分析出模型在此领域上的性能，进而可以为模型的应用提供数据支撑。

具体而言，此处可以是获取用于模型性能评估的评估试题集，该评估试题集中包含呼吸科领域下的多个试题，此多个试题可以通过预先收集的呼吸科领域对应的知识进行制定或者生成得到。例如，可以收集呼吸科领域的期刊、论文、专家指南、临床报告等，据此人为制定呼吸科领域的试题，或者通过大型语言模型直接生成试题，本发明实施例对此不做具体限定。当然，也可以直接收集呼吸科领域下各种考试、培训、教程等中的试题，通过筛选、修改等制作出用于模型性能评估的呼吸科领域下的试题。

进一步地，在得到评估试题集之后，即可应用大型语言模型对此评估试题集中的各个试题进行处理，以通过大型语言模型的处理得到各个试题对应的试题答案，即可以将评估试题集中的各个试题视作大型语言模型交互过程中知识问答时的“问”，通过“问”的输入，以请求大型语言模型对应输出“答”，从而实现完整的知识问答，并可以在此问答过程中得到模型预测的答案。

具体而言，此处是利用大型语言模型进行试题解答，以得到模型预测的各个试题的试题答案，即，可以将评估试题集中的各个试题作为输入，输入至大型语言模型中，以使大型语言模型对输入的试题进行理解、分析、对比/综合判断等，以得到输入的试题的答案，即试题答案，而经过多次的试题解答/知识问答即可得到评估试题集中各个试题的试题答案。此处，值得注意的是，当面对题型不同的试题时，大型语言模型对试题的处理过程可能不同，例如，对于选择题和问答题，大型语言模型的推理和分析的过程存在区别。

而在通过大型语言模型解答各个试题，并得到各个试题的试题答案后，本发明实施例中，即可据此试题答案评估大型语言模型在呼吸科领域上的表现，从而确定出大型语言模型应用于呼吸科领域时的性能。即，可以根据评估试题集中各个试题的试题答案，对大型语言模型进行性能评估，以通过此试题答案所反映的大型语言模型对呼吸科领域下多个试题的答题情况，评判其对呼吸科领域相关知识的理解、分析和鉴别能力，从而确定出其在呼吸科领域的性能。

具体而言，此处可以是在评估试题集中各个试题的试题答案的基础上，结合预设的标准答案、医学专家对试题答案的评估等，综合确定大型语言模型在呼吸科领域下的多个试题上的表现，例如，答题正确率、完整度、用语专业性、回答实用性、有益性等，通过此多个层面、多个角度上的表现，可以较为准确的判定大型语言模型对呼吸科领域知识的处理能力，由此即可确定大型语言模型在其上的性能。

本发明提供的应用于呼吸科领域的大型语言模型的评估方法，通过大型语言模型，解答评估试题集中的各个试题，得到各个试题的试题答案；基于各个试题答案进行模型性能评估，得到大型语言模型在呼吸科领域的性能，克服了传统方案中通用的模型性能评估方法未能考虑到领域特殊性，以致在特定领域上评估结果的准确性、可靠性和实用性欠佳的缺陷，利用大型语言模型对特定的呼吸科领域下的多个试题进行解答，并通过试题答案进行性能评估，不仅能够聚焦于呼吸科领域，实现准确可靠的性能评估，还能使得评估过程更为专业，从而可以为后续大型语言模型在呼吸科领域的安全应用提供依据。

基于上述实施例，步骤120包括：

基于呼吸科领域下的亚专科领域，确定呼吸科领域下的多个目标专科领域；

基于各目标专科领域，对评估试题集中的各个试题进行分类，得到各目标专科领域下的试题；

基于大型语言模型，分别解答各目标专科领域下的试题，得到各目标专科领域下试题的试题答案。

具体地，步骤120中，应用大型语言模型，解答评估试题集中的各个试题，以得到各个试题的试题答案的过程，具体可以包括：

考虑到呼吸科领域下还下辖有多个其他的医学专科，而模型具体在应用时，通常也是针对于具体的领域去进行部署应用，因此，本发明实施例中，在面向呼吸科领域进行模型性能评估时，可以具体到其下的各医学专科，分别针对于各医学专科进行评估，如此不仅可以实现整个呼吸科领域下模型的性能评估，还能针对于具体的专科进行评估，从多个维度实现了应用于呼吸科领域的大型语言模型的性能评估。

基于此，本发明实施例中，在应用模型进行试题解答时，首先可以对评估试题集中的多个试题进行分类，按照呼吸科领域下的各个专科，分类出其所对应的试题，由此即可得到各个医学专科所对应的试题。又考虑到并非所有的医学专科均存在借助模型进行辅助诊断、治疗方案制定等的需求，因此，本发明实施例中，在确定医学专科时，还可以进行进一步地筛选，以从呼吸科领域下的亚专科领域，例如，胸部解剖与胸部影像学、呼吸病病理与心肺病理生理、呼吸疾病的诊断、治疗与药物知识、呼吸介入护理与麻醉、呼吸介入诊断、呼吸介入治疗与临床决策等中，筛选得到多个亚专科，作为目标专科领域，此部分目标专科领域即此次需进行模型性能评估的领域。

而在得到呼吸科领域下的多个目标专科领域之后，本发明实施例中，即可照此领域进行试题分类，以得到各个目标专科领域对应的试题，即，可以根据各目标专科领域，对评估试题集中的各个试题进行分类，以将所有试题按照其对应的具体专科领域分为多个类，每一类对应一个目标专科领域，由此即可得到各目标专科领域下的试题。

之后，即可应用大型语言模型，对各目标专科领域下的试题进行试题解答，以得到各目标专科领域下试题的试题答案。即，利用大型语言模型分别解答各目标专科领域下的试题，从而得到各目标专科领域下试题的试题答案。此处具体是将各目标专科领域下的试题作为输入，输入至大型语言模型中，以使大型语言模型对输入的试题进行理解、分析、对比/综合判断等，以得到各目标专科领域下试题的试题答案。此处，值得注意的是，面对不同的目标专科领域，大型语言模型对试题的处理可能存在一定区别，例如，对治疗与药物知识，模型侧重于分析药物与诊治方案之间的合理性，对于胸部解剖与胸部影像学模型则着重理解输入问题的含义。

进一步地，在得到各目标专科领域下试题的试题答案后，还可以据此试题答案，分析大型语言模型在各目标专科领域上的表现，从而可以确定出大型语言模型在呼吸科领域下的各目标专科领域上的性能。更进一步地，可以结合评估得到的大型语言模型在各目标专科领域上的性能，综合衡量得到大型语言模型在呼吸科领域上的性能。

基于上述实施例，基于大型语言模型，分别解答各目标专科领域下的试题，得到各目标专科领域下试题的试题答案，包括：

确定各目标专科领域下试题的题干文本；

基于各题干文本，确定对应的生成提示语句；

基于各生成提示语句，应用大型语言模型，分别进行试题解答，得到各目标专科领域下试题的试题答案；

其中，生成提示语句用于提示大型语言模型基于试题的题干文本解答试题，并生成对应的试题答案。

具体地，上述根据大型语言模型，分别解答各目标专科领域下的试题，得到各目标专科领域下试题的试题答案的过程，具体可包括：

可以理解的是，在确定了各目标专科领域下的试题之后，应用大型语言模型进行试题解答时，以得到其答案时，由于大型语言模型训练时学习了大量的样本，以及样本的语言规范，因此，其对于输入信息有着较为严格的要求，要求输入试题需符合其所能接收理解的语言形式、规范等，如此才能正确地理解输入试题，并给出其对应的试题答案。因此，本发明实施例中，在将各目标专科领域下的试题输入至大型语言模型，以进行试题解答之前，还需要将其形成模型可理解的形式，例如，可以对其进行语言规范化、扩写、突出关键点等，以形成大型语言模型可理解的语句，以据此提示大型语言模型进行试题解答，并输出对应的答案，以便后续能够据此进行模型性能评估。

基于此，本发明实施例中，在进行试题解答时，首先需要确定各目标专科领域下试题的题目信息，即试题的题干文本，接着可以根据这一题干文本，确定生成提示语句。此处，具体可以是对题干文本进行处理，以生成用于提示大型语言模型进行试题解答，并得到对应的试题答案的提示语句，即生成提示语句。此处的生成提示语句实质上是携带有题干文本的一种数据，例如，可以是prompt，其为大型语言模型可接收并理解的数据，据此可以提示大型语言模型进行试题解答，从而可以得到模型输出的试题答案。

此处，生成提示语句可以是“根据[XXXXX(题干文本)]生成试题答案”，也可以是“根据[XXXXX(题干文本)]生成试题答案，‘答案字号’，‘答案字体’”，还可以是其他能够为大型语言模型接收并理解的形式，本发明实施例对此不做具体限定。其中，[]内是试题解答的关键信息，‘’内是具体要求，可以包括试题解答要求、对输出的试题答案的字体、字号等的要求。

随后，即可基于各生成提示语句，应用大型语言模型进行试题解答，以得到各目标专科领域下试题的试题答案；即，可以将各目标专科领域下各试题对应的生成提示语句输入到大型语言模型中，以使大型语言模型根据生成提示语句所携带的题干文本，或者携带的题干文本、试题解答要求以及所要求的字体字号等，自动进行试题解答，并输出对应的试题答案，由此即可得到呼吸科领域下各目标专科领域下试题的试题答案。

基于上述实施例，评估试题集中试题的题型包括选择题和问答题；

任一试题对应的生成提示语句基于如下步骤确定：

在任一目标专科领域下任一试题的题型为选择题的情况下，确定该试题的试题选项，并基于该试题的题干文本和试题选项，确定该试题对应的生成提示语句；

在任一目标专科领域下任一试题的题型为问答题的情况下，基于该试题的题干文本，确定该试题对应的生成提示语句。

具体地，本发明实施例中，在构建评估试题集时，对于所收集或者所制定的试题，类型和领域十分的多样和广泛，如此可以尽可能的保证在对模型进行性能评估时，评估所用的数据的涉及面的广泛化，以及涉及的数据的类型的多样化，避免偶然性。

具体到本发明实施例中，评估试题集中的试题的题型有选择题和问答题，对于此两种题型，本发明实施例中在基于题干文本，确定对应的生成提示文本时，存在一定的区别。

详尽地，对于题型为选择题的试题，即，若任一目标专科领域下任一试题的题型为选择题，则除题干文本之外，本发明实施例中还需要确定该试题的试题选项，即确定此选择题的各个选项，然后即可依据题干文本，以及试题选项，生成该试题对应的生成提示语句。即，可以对题干文本和试题选项进行处理，以生成用于提示大型语言模型进行试题解答，并输出试题答案的语句，即生成提示语句。

此处，生成提示语句可以是“根据[XXXXX(题干文本)，XXXXX(试题选项)]生成试题答案”，也可以是“根据[XXXXX(题干文本)，XXXXX(试题选项)]生成试题答案，‘答案字号’，‘答案字体’”，还可以是其他能够为大型语言模型接收并理解的形式，本发明实施例对此不做具体限定。其中，[]内是为试题解答所依据的关键信息，‘’内是具体要求，可以包括试题解答要求、对输出的试题答案的字体、字号等的要求。

进一步地，由于选择题还包括单选题和多选题，若该试题的题型为多选题，则除上述题干文本和试题选项之外，在确定生成提示语句时，还需考虑试题的题型，即可以在题干文本、试题选项的基础上，结合试题题型，确定该试题的生成提示语句。

而对应地，当任一目标专科领域下任一试题的题型为问答题时，由于问答题的题目通常仅包括题干，因此，此时可以直接根据该试题的题干文本，确定该试题对应的生成提示语句。即，可以对题干文本进行处理，以生成用于提示大型语言模型进行试题解答，并输出试题答案的语句，即题型为问答题的试题对应的生成提示语句。

基于上述实施例，任一试题的试题答案基于如下步骤确定：

在任一目标专科领域下任一试题的题型为选择题的情况下，基于该试题对应的生成提示语句，应用大型语言模型进行试题解答，得到该试题对应于试题选项的概率分布；

基于该试题对应的概率分布，以及该试题的试题题型，确定该目标专科领域下该试题的试题答案。

具体地，任一试题的试题答案的确定过程，具体可以包括：

当任一试题为选择题时，即在任一目标专科领域下任一试题的题型为选择题的情况下，可以将该试题对应的生成提示语句输入至大型语言模型中，以使大型语言模型根据生成提示语句的提示，输出对应的试题答案。即，将该试题对应的生成提示语句输入至大型语言模型中进行推理，对于选择题大型语言模型仅推理一次，并输出试题对应于各个选项的概率，即该试题对应于试题选项的概率分布。

例如，对于题型为选择题的试题A，其有四个试题选项，分别为“甲”、“乙”、“丙”和“丁”，通过大型语言模型进行试题解答后，模型会输出对试题A的概率分布，其中包含有上述四个对应的概率，此概率表示试题A的试题答案为对应的试题选项的可能性，概率越大，则可能性越高；反之，概率越低则为其对应的试题选项的可能性越低。

而值得注意的是，模型实际在进行试题解答时，所输出的通常是各试题选项的logits，在获取到各试题选项的logits，还需进行归一化处理，如此才能得到概率总和为1的概率分布。

进一步地，在得到概率分布之后，即可将依据此概率分布，确定该试题的试题答案，具体可以是，以概率分布为基准，根据该试题的试题题型，如为单选题或者多选题，从概率分布中确定对应的试题答案。当为单选题时，选取概率最大的试题选项作为该试题的试题答案；当为多选题时，则按照概率从大到小的顺序选取若干个选项作为试题对应的试题答案。

而对应地，对于题型为问答题的试题，将其对应的输出提示语句输入至大型语言模型之后，在大型语言模型中通过多次的推理，可以得到完整的试题答案。即，问答题的推理一直进行到大型语言模型完成完整的自回归输出，可直接通过大型语言模型得到试题答案。

基于上述实施例，步骤130包括：

在任一试题的题型为选择题的情况下，基于该试题的试题答案和标准答案，确定大型语言模型对该试题的答题结果，并基于该试题及其答题结果，确定大型语言模型对该试题的答题情况；

在任一试题的题型为问答题的情况下，获取医学专家评估的该试题的试题答案所表征的该试题的答题情况，答题情况包括大型语言模型在各评估指标下的评估结果，评估指标包括答题准确度、答题全面性、答题实用性、答题专业性以及答题有益性中的至少两种；

基于各个试题的答题情况进行模型性能评估，得到大型语言模型在呼吸科领域的性能。

具体地，步骤130中，根据各个试题答案进行模型性能评估，得到大型语言模型在呼吸科领域的性能的过程，具体可以包括：

当任一试题的题型为选择题时，对于该试题可以将其试题答案与标准答案进行比对，以确定大型语言模型对该试题的答题结果，即，大型语言模型对于该道试题是否回答正确。

进一步地，在得到答题结果之后，即可根据此答题结果以及该试题具体的试题信息，例如，试题对应的知识深度、知识广度等，综合考虑大型语言模型在该道试题上的答题情况。

此处的答题情况包括大型语言模型在多个评估指标下的评估结果，而评估指标则为答题准确度、答题全面性、答题实用性、答题专业性以及答题有益性中的任意两种或多种。

此处，通过多个评估指标的评估结果可以更加全面准确的反映模型在不同方面的表现，从而更加准确的评估模型的性能，进而可以保证评估的结果的可靠性和准确性。

而对应地，当任一试题的题型为问答题时，对于该道试题，可以将其试题答案发送至医学专家，以获取医学专家对此试题答案的评估，通过此评估即可确定大型语言模型对该道试题的答题情况，即，可以获取医学专家评估的该道试题的试题答案所表征的答题情况。此处的答题情况中同样包括大型语言模型在多个评估指标下的评估结果。

其中，评估结果可以是反映大型语言模型在对应评估指标下表现优劣的具体分数，例如，50分、80分、100分等，也可以是衡量大型语言模型在对应评估指标下的表现好坏的评分等级，例如，优、良、合格、不合格等，本发明实施例对此不做具体限定。

进一步地，在得到各试题的答题情况之后，本发明实施例中，即可综合评估试题集中各试题的答题情况，确定大型语言模型在呼吸科领域上的性能。即，可以结合各个试题的答题情况中大型语言模型在各评估指标上的评估结果，衡量大型语言模型在呼吸科领域上的性能。

基于上述实施例，基于大型语言模型，分别解答各目标专科领域下的试题，得到各目标专科领域下试题的试题答案，之后还包括：

分别对各目标专科领域下试题的答题情况进行展示，答题情况基于对应目标专科领域下试题的试题答案确定；

答题情况包括大型语言模型在各评估指标下的评估结果，评估指标包括答题准确度、答题全面性、答题实用性、答题专业性以及答题有益性中的至少两种。

具体地，上述在通过大型语言模型进行试题解答，得到各目标专科领域下试题的试题答案之后，还可以按照此目标专科领域，对大型语言模型对各试题的答题情况进行展示。即，分别展示每一个目标专科领域下大型语言模型对其下试题的答题情况，实现多维度的结果展示，以便于测评人员能够及时知晓模型在各目标专科领域上的表现，从而为后续的加强训练、应用等提供依据。

其中，各目标专科领域下试题的答题情况可以通过对应试题的试题答案确定，具体过程上文已详细描述，此处不再赘述。并且，此处试题的答题情况同样为大型语言模型在各评估指标下的评估结果，评估指标也同样包括答题准确度、答题全面性、答题实用性、答题专业性以及答题有益性中的任意两种或多种。

图2是本发明提供的应用于呼吸科领域的大型语言模型的评估方法的总体流程图，如图2所示，该方法包括：

首先，获取评估试题集，评估试题集包括呼吸科领域下的多个试题；

随即，基于大型语言模型，解答评估试题集中的各个试题，得到各个试题的试题答案；

随后，基于各个试题答案进行模型性能评估，得到大型语言模型在呼吸科领域的性能。

其中，基于大型语言模型，解答评估试题集中的各个试题，得到各个试题的试题答案，包括：基于呼吸科领域下的亚专科领域，确定呼吸科领域下的多个目标专科领域；基于各目标专科领域，对评估试题集中的各个试题进行分类，得到各目标专科领域下的试题；基于大型语言模型，分别解答各目标专科领域下的试题，得到各目标专科领域下试题的试题答案。

进一步地，基于大型语言模型，分别解答各目标专科领域下的试题，得到各目标专科领域下试题的试题答案，包括：确定各目标专科领域下试题的题干文本；基于各题干文本，确定对应的生成提示语句；基于各生成提示语句，应用大型语言模型，分别进行试题解答，得到各目标专科领域下试题的试题答案；其中，生成提示语句用于提示大型语言模型基于试题的题干文本解答试题，并生成对应的试题答案。

其中，评估试题集中试题的题型包括选择题和问答题；任一试题对应的生成提示语句基于如下步骤确定：在任一目标专科领域下任一试题的题型为选择题的情况下，确定该试题的试题选项，并基于该试题的题干文本和试题选项，确定该试题对应的生成提示语句；在任一目标专科领域下任一试题的题型为问答题的情况下，基于该试题的题干文本，确定该试题对应的生成提示语句。

此处，任一试题的试题答案基于如下步骤确定：在任一目标专科领域下任一试题的题型为选择题的情况下，基于该试题对应的生成提示语句，应用大型语言模型进行试题解答，得到该试题对应于试题选项的概率分布；基于该试题对应的概率分布，以及该试题的试题题型，确定该目标专科领域下该试题的试题答案。

其中，基于各个试题答案进行模型性能评估，得到大型语言模型在呼吸科领域的性能，包括：在任一试题的题型为选择题的情况下，基于该试题的试题答案和标准答案，确定大型语言模型对该试题的答题结果，并基于该试题及其答题结果，确定大型语言模型对该试题的答题情况；在任一试题的题型为问答题的情况下，获取医学专家评估的该试题的试题答案所表征的该试题的答题情况，答题情况包括大型语言模型在各评估指标下的评估结果，评估指标包括答题准确度、答题全面性、答题实用性、答题专业性以及答题有益性中的至少两种；基于各个试题的答题情况进行模型性能评估，得到大型语言模型在呼吸科领域的性能。

基于大型语言模型，分别解答各目标专科领域下的试题，得到各目标专科领域下试题的试题答案，之后还包括：分别对各目标专科领域下试题的答题情况进行展示，答题情况基于对应目标专科领域下试题的试题答案确定；答题情况包括大型语言模型在各评估指标下的评估结果，评估指标包括答题准确度、答题全面性、答题实用性、答题专业性以及答题有益性中的至少两种。

本发明实施例提供的方法，通过大型语言模型，解答评估试题集中的各个试题，得到各个试题的试题答案；基于各个试题答案进行模型性能评估，得到大型语言模型在呼吸科领域的性能，克服了传统方案中通用的模型性能评估方法未能考虑到领域特殊性，以致在特定领域上评估结果的准确性、可靠性和实用性欠佳的缺陷，利用大型语言模型对特定的呼吸科领域下的多个试题进行解答，并通过试题答案进行性能评估，不仅能够聚焦于呼吸科领域，实现准确可靠的性能评估，还能使得评估过程更为专业，从而可以为后续大型语言模型在呼吸科领域的安全应用提供依据。

下面对本发明提供的应用于呼吸科领域的大型语言模型的评估装置进行描述，下文描述的应用于呼吸科领域的大型语言模型的评估装置与上文描述的应用于呼吸科领域的大型语言模型的评估方法可相互对应参照。

图3是本发明提供的应用于呼吸科领域的大型语言模型的评估装置的结构示意图，如图3所示，该装置包括：

获取单元310，用于获取评估试题集，所述评估试题集包括呼吸科领域下的多个试题；

答题单元320，用于基于大型语言模型，解答所述评估试题集中的各个试题，得到所述各个试题的试题答案；

评估单元330，用于基于各个试题答案进行模型性能评估，得到所述大型语言模型在所述呼吸科领域的性能。

本发明提供的应用于呼吸科领域的大型语言模型的评估装置，通过大型语言模型，解答评估试题集中的各个试题，得到各个试题的试题答案；基于各个试题答案进行模型性能评估，得到大型语言模型在呼吸科领域的性能，克服了传统方案中通用的模型性能评估方法未能考虑到领域特殊性，以致在特定领域上评估结果的准确性、可靠性和实用性欠佳的缺陷，利用大型语言模型对特定的呼吸科领域下的多个试题进行解答，并通过试题答案进行性能评估，不仅能够聚焦于呼吸科领域，实现准确可靠的性能评估，还能使得评估过程更为专业，从而可以为后续大型语言模型在呼吸科领域的安全应用提供依据。

基于上述实施例，答题单元320用于：

确定所述各目标专科领域下试题的题干文本；

基于各题干文本，确定对应的生成提示语句；

基于上述实施例，任一试题对应的生成提示语句基于如下步骤确定：

在任一目标专科领域下任一试题的题型为选择题的情况下，确定所述任一试题的试题选项，并基于该试题的题干文本和试题选项，确定该试题对应的生成提示语句；

基于上述实施例，任一试题的试题答案基于如下步骤确定：

在任一目标专科领域下任一试题的题型为选择题的情况下，基于该试题对应的生成提示语句，应用所述大型语言模型，进行试题解答，得到该试题对应于试题选项的概率分布；

基于上述实施例，评估单元330用于：

在任一试题的题型为选择题的情况下，基于该试题的试题答案和标准答案，确定所述大型语言模型对该试题的答题结果，并基于该试题及其答题结果，确定所述大型语言模型对该试题的答题情况；

在任一试题的题型为问答题的情况下，获取医学专家评估的该试题的试题答案所表征的该试题的答题情况，所述答题情况包括所述大型语言模型在各评估指标下的评估结果，所述评估指标包括答题准确度、答题全面性、答题实用性、答题专业性以及答题有益性中的至少两种；

基于上述实施例，该装置还包括展示单元，用于：

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行应用于呼吸科领域的大型语言模型的评估方法，该方法包括：获取评估试题集，所述评估试题集包括呼吸科领域下的多个试题；基于大型语言模型，解答所述评估试题集中的各个试题，得到所述各个试题的试题答案；基于各个试题答案进行模型性能评估，得到所述大型语言模型在所述呼吸科领域的性能。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的应用于呼吸科领域的大型语言模型的评估方法，该方法包括：获取评估试题集，所述评估试题集包括呼吸科领域下的多个试题；基于大型语言模型，解答所述评估试题集中的各个试题，得到所述各个试题的试题答案；基于各个试题答案进行模型性能评估，得到所述大型语言模型在所述呼吸科领域的性能。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法所提供的应用于呼吸科领域的大型语言模型的评估方法，该方法包括：获取评估试题集，所述评估试题集包括呼吸科领域下的多个试题；基于大型语言模型，解答所述评估试题集中的各个试题，得到所述各个试题的试题答案；基于各个试题答案进行模型性能评估，得到所述大型语言模型在所述呼吸科领域的性能。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种应用于呼吸科领域的大型语言模型的评估方法，其特征在于，包括：

2.根据权利要求1所述的应用于呼吸科领域的大型语言模型的评估方法，其特征在于，所述基于大型语言模型，解答所述评估试题集中的各个试题，得到所述各个试题的试题答案，包括：

3.根据权利要求2所述的应用于呼吸科领域的大型语言模型的评估方法，其特征在于，所述基于所述大型语言模型，分别解答所述各目标专科领域下的试题，得到所述各目标专科领域下试题的试题答案，包括：

确定所述各目标专科领域下试题的题干文本；

基于各题干文本，确定对应的生成提示语句；

4.根据权利要求3所述的应用于呼吸科领域的大型语言模型的评估方法，其特征在于，所述评估试题集中试题的题型包括选择题和问答题；任一试题对应的生成提示语句基于如下步骤确定：

5.根据权利要求3所述的应用于呼吸科领域的大型语言模型的评估方法，其特征在于，任一试题的试题答案基于如下步骤确定：

6.根据权利要求1至3中任一项所述的应用于呼吸科领域的大型语言模型的评估方法，其特征在于，所述基于各个试题答案进行模型性能评估，得到所述大型语言模型在所述呼吸科领域的性能，包括：

7.根据权利要求2或5所述的应用于呼吸科领域的大型语言模型的评估方法，其特征在于，所述基于所述大型语言模型，分别解答所述各目标专科领域下的试题，得到所述各目标专科领域下试题的试题答案，之后还包括：

8.一种应用于呼吸科领域的大型语言模型的评估装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述的应用于呼吸科领域的大型语言模型的评估方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的应用于呼吸科领域的大型语言模型的评估方法。