CN115295134A

CN115295134A - 医学模型评价方法、装置和电子设备

Info

Publication number: CN115295134A
Application number: CN202211207117.8A
Authority: CN
Inventors: 尹芳; 马杰; 王萌; 郭鹏; 王伟
Original assignee: North Health Medical Big Data Technology Co ltd
Current assignee: North Health Medical Big Data Technology Co ltd
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2022-11-04
Anticipated expiration: 2042-09-30
Also published as: CN115295134B

Abstract

本发明提供一种医学模型评价方法、装置和电子设备，涉及数据处理技术领域，该医学模型评价方法包括：获取至少一个医学文本标注数据集，并对至少一个医学文本标注数据集进行特征分析，得到特征信息；获取待训练医学模型，并基于至少一个医学文本标注数据集对待训练医学模型进行训练，得到目标医学模型；获取医学文本测试数据集，并基于医学文本测试数据集对目标医学模型进行测试，得到目标医学模型的评价指标；基于特征信息和评价指标生成医学模型评价报告，并输出医学模型评价报告。本发明提供的技术方案可以对医学模型进行影响医学模型性能的分析和评价，有助于提升医学模型的性能。

Description

医学模型评价方法、装置和电子设备

技术领域

本发明涉及数据处理技术领域，尤其涉及一种医学模型评价方法、装置和电子设备。

背景技术

人工智能技术的发展推动了医疗领域智能化程度的提升，相继出现了各种类型的医学模型。例如，可以对电子病例文本进行深度学习训练，利用训练得到的模型可以进行医学实体识别、医学实体关系确定等数据处理，能够应用到表单回填等医学场景。因此，医学模型的性能决定着数据处理结果的可靠性，如何对医学模型进行分析和评价对不断提升医学模型的性能具有重要的意义，是亟待解决的技术问题。

发明内容

本发明提供一种医学模型评价方法、装置和电子设备，以对医学模型进行影响医学模型性能的分析和评价。

本发明提供一种医学模型评价方法，包括：

获取至少一个医学文本标注数据集，并对所述至少一个医学文本标注数据集进行特征分析，得到特征信息；

获取待训练医学模型，并基于所述至少一个医学文本标注数据集对所述待训练医学模型进行训练，得到目标医学模型；

获取医学文本测试数据集，并基于所述医学文本测试数据集对所述目标医学模型进行测试，得到所述目标医学模型的评价指标；

基于所述特征信息和所述评价指标生成医学模型评价报告，并输出所述医学模型评价报告。

根据本发明提供的一种医学模型评价方法，所述基于所述特征信息和所述评价指标生成医学模型评价报告包括：

确定目标评价指标对应的医学文本标注数据集，得到第一数据集；其中，所述目标评价指标为所述评价指标中同一类型评价指标中的最大指标和/或最小指标；

获取所述第一数据集对应的特征信息，得到第一特征信息；

将所述第一特征信息与第二特征信息进行比对分析，得到第一比对结果信息；其中，所述第二特征信息为所述目标医学模型对应的医学文本标注数据集中，除去所述第一数据集外的其余数据集各自对应的特征信息；

基于所述第一比对结果信息绘制评价结果图表，生成医学模型评价报告。

根据本发明提供的一种医学模型评价方法，还包括：

确定所述目标评价指标对应的目标医学模型，得到第一医学模型；

获取训练得到的各所述目标医学模型的结构信息，并将所述第一医学模型的结构信息与第二医学模型的结构信息进行比对分析，得到第二比对结果信息；其中，所述第二医学模型为训练得到的所述目标医学模型中，除去所述第二医学模型外的其余目标医学模型；

所述基于所述第一比对结果信息绘制评价结果图表，生成医学模型评价报告，包括：

基于所述第一比对结果信息和所述第二比对结果信息绘制评价结果图表，生成医学模型评价报告。

根据本发明提供的一种医学模型评价方法，所述获取待训练医学模型，并基于所述至少一个医学文本标注数据集对所述待训练医学模型进行训练，得到目标医学模型，包括：

从所述至少一个医学文本标注数据集中确定一个目标医学文本标注数据集；

获取多个不同的第一待训练医学模型，并利用所述目标医学文本标注数据集对每个所述第一待训练医学模型分别进行训练，得到多个第一目标医学模型；

其中，所述目标医学模型包括所述多个第一目标医学模型。

根据本发明提供的一种医学模型评价方法，所述医学文本标注数据集为多个不同的医学文本标注数据集，所述方法还包括：

获取一个第二待训练医学模型；

利用每个所述医学文本标注数据集分别对所述第二待训练医学模型进行训练，得到每个所述医学文本标注数据集对应的第二目标医学模型；

其中，所述目标医学模型包括所述第二目标医学模型。

根据本发明提供的一种医学模型评价方法，还包括：

获取多个具有相同功能的第三待训练医学模型；

利用所述至少一个医学文本标注数据集分别对每个所述第三待训练医学模型进行训练，得到多个第三医学模型；

将所述多个第三医学模型缩放至同一参数量，得到多个第三目标医学模型；

其中，所述目标医学模型包括所述多个第三目标医学模型。

根据本发明提供的一种医学模型评价方法，还包括：

获取至少一个第四待训练医学模型；

利用所述至少一个医学文本标注数据集分别对每个所述第四待训练医学模型进行训练，得到多个第四医学模型；

对所述多个第四医学模型进行组合处理，得到第四目标医学模型；

其中，所述目标医学模型包括所述第四目标医学模型和所述多个第四医学模型。

根据本发明提供的一种医学模型评价方法，所述对所述至少一个医学文本标注数据集进行特征分析，得到特征信息，包括：

对所述至少一个医学文本标注数据集进行数据集自身的特征分析，得到第三特征信息；

和/或，对所述至少一个医学文本标注数据集进行数据集之间的比对分析，得到第四特征信息；

所述特征信息包括所述第三特征信息和/或所述第四特征信息。

根据本发明提供的一种医学模型评价方法，所述对所述至少一个医学文本标注数据集进行数据集自身的特征分析，得到第三特征信息，包括：

对每个所述医学文本标注数据集分别进行目标分析，得到每个所述医学文本标注数据集对应的第三特征信息；其中，所述目标分析包括医学实体特征分析、语句分析、实体统计、实体关系统计、句子特征分析和特征相关测度分析中的至少之一。

根据本发明提供的一种医学模型评价方法，所述对所述至少一个医学文本标注数据集进行数据集之间的比对分析，得到第四特征信息，包括：

计算所述至少一个医学文本标注数据集之间的相似度；

计算每个医学文本标注数据集的特征值，并对所述特征值进行比较，得到比较结果；

将所述相似度和所述比较结果确定为所述第四特征信息。

本发明还提供一种医学模型评价装置，包括：

获取模块，用于获取至少一个医学文本标注数据集；

分析模块，用于对所述至少一个医学文本标注数据集进行特征分析，得到特征信息；

训练模块，用于获取待训练医学模型，并基于所述至少一个医学文本标注数据集对所述待训练医学模型进行训练，得到目标医学模型；

测试模块，用于获取医学文本测试数据集，并基于所述医学文本测试数据集对所述目标医学模型进行测试，得到所述目标医学模型的评价指标；

生成模块，用于基于所述特征信息和所述评价指标生成医学模型评价报告；

输出模块，用于输出所述医学模型评价报告。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述医学模型评价方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述医学模型评价方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述医学模型评价方法。

本发明提供的医学模型评价方法、装置和电子设备，可以对获取的至少一个医学文本标注数据集进行特征分析，获得医学文本标注数据集的特征信息，通过该特征信息表征各医学文本标注数据集的特点；同时，可以基于该至少一个医学文本标注数据集对获取的待训练医学模型进行训练，得到目标医学模型，并基于获取的医学文本测试数据集对该目标医学模型进行测试，可以得到目标医学模型的评价指标，通过该评价指标可以表征目标医学模型的优劣程度；进而基于得到的特征信息和评价指标生成医学模型评价报告并输出，该评价报告中包含了模型训练时所使用的医学文本标注数据集的特征信息和对应训练出的目标医学模型的优劣程度，能够反映出不同医学文本标注数据集特点对所训练出的医学模型的影响，从而实现了对医学模型进行影响医学模型性能的分析和评价，有助于提升医学模型的性能。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的医学模型评价方法的流程示意图；

图2是本发明实施例中医学文本标注数据集的内容信息示意图；

图3是本发明实施例中基于特征信息和评价指标生成医学模型评价报告的方法的流程示意图；

图4是本发明实施例中医学模型评价报告的内容展示效果示意图之一；

图5是本发明实施例中对多个医学模型进行组合处理的原理示意图；

图6是本发明实施例中医学模型评价报告的内容展示效果示意图之二；

图7是本发明实施例提供的医学模型评价装置的结构示意图；

图8是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。

随着人工智能技术在医疗行业的发展，越来越多的研究者通过对医学数据进行标注之后进行医学模型的训练，利用训练得到的医学模型解决医学领域的许多问题。例如，可以利用电子病历中的文本数据对医学模型进行训练，训练后的医学模型可以用于自动识别医学实体和医学关系等，可应用于将患者主诉等文本进行表单回填等医学场景中。这些都对医学模型的训练提出了需求。

在训练与医学文本相关的医学模型时，用于模型训练的已标注医学文本数据集往往影响着模型的训练过程及最终的训练效果，因此，对标注的医学文本数据集及训练得到的医学模型进行评价及解析，是判断医学模型好坏的重要问题。同时，在选用预训练医学模型进行迁移学习时，对所要选择的预训练医学模型进行不同维度上的判断和评估，有助于选择出较优的预训练医学模型，提升迁移学习所得模型的性能。因此，如何对医学模型进行影响模型效果、模型共同优点、模型共同劣势等的分析和评价，有助于进一步提升医学模型的效果。

基于此，本发明实施例提供了一种医学模型评价方法，可以获取至少一个医学文本标注数据集，并对该至少一个医学文本标注数据集进行特征分析，得到特征信息；获取待训练医学模型，并基于至少一个医学文本标注数据集对待训练医学模型进行训练，得到目标医学模型；获取医学文本测试数据集，并基于医学文本测试数据集对目标医学模型进行测试，得到目标医学模型的评价指标；然后基于特征信息和评价指标生成医学模型评价报告并输出。

下面结合图1-图6对本发明的医学模型评价方法进行描述。该医学模型评价方法可以应用于服务器、手机、电脑等电子设备，也可以应用于设置在服务器、手机、电脑等电子设备中的医学模型评价装置中，该医学模型评价装置可以通过软件、硬件或两者的结合来实现。下面以医学模型评价方法应用于电子设备为例进行说明。

图1示例性示出了本发明实施例提供的医学模型评价方法的流程示意图，参照图1所示，该医学模型评价方法可以包括如下的步骤110~步骤140。

步骤110：获取至少一个医学文本标注数据集，并对该至少一个医学文本标注数据集进行特征分析，得到特征信息。

医学文本比如可以是电子病历、检验检查报告等，可以对大量医学文本进行标注，比如可以进行医学实体、医学实体关系等的标注，得到医学文本标注数据集。示例性的，一个医学文本标注数据集中可以包括一个或多个标注后的医学文本。

电子设备可以获取至少一个医学文本标注数据集，并对该至少一个医学文本标注数据集进行特征分析，提取每个医学文本标注数据集中医学文本的特征信息，通过该特征信息可以从数据集内部对医学文本标注数据集进行分析，提取出各医学文本标注数据集自身的特点。或者，可以对各医学文本标注数据集进行比对分析，得到医学文本标注数据集之间的关联特征和区别特征等，比如相似度、特征比较结果等特征信息，通过该特征信息可以从数据集外部对医学文本标注数据集进行分析，表征出数据集之间的特征信息。

一种示例实施例中，对至少一个医学文本标注数据集进行特征分析，得到特征信息，可以包括：对至少一个医学文本标注数据集进行数据集自身的特征分析，得到第三特征信息；和/或，对至少一个医学文本标注数据集进行数据集之间的比对分析，得到第四特征信息。其中，特征信息包括该第三特征信息和/或该第四特征信息。

示例性的，对至少一个医学文本标注数据集进行数据集自身的特征分析，得到第三特征信息，可以包括：对每个医学文本标注数据集分别进行目标分析，得到每个医学文本标注数据集对应的第三特征信息；其中，目标分析可以包括医学实体特征分析、语句分析、实体统计、实体关系统计、句子特征分析和特征相关测度分析中的至少之一，但不限于此。

其中，医学实体特征分析比如可以包括医学实体个数、医学实体密度、医学实体间是否为长环关系、医学实体间是否为回环关系、医学关系个数、医学关系密度和医学关系之间的距离等分析项中的至少一个，但不限于此。语句分析比如可以包括术语比例、词汇丰富度等其中的至少一项，但不限于此。实体统计比如可以包括医学实体文字覆盖率、医学实体密度、医学实体标签频次、医学实体文本长度、医学实体词频统计和同词异标等统计项中的至少一个，但不限于此。实体关系统计比如可以包括实体关系的频数和密度、关联标签分布、实体关系首尾标签类别统计、实体关系首尾比例等其中的至少一项，但不限于此。句子特征分析比如可以包括数据偏见分析、文本总长度、段落个数、否定句占比、疑问句占比和句子重复率等其中的至少一项，但不限于此。特征相关测度分析用于分析医学文本标注数据集内部特征之间的相互影响程度。其中，句子特征分析和特征相关测度分析可以对医学文本标注数据集进行细粒度的分析。

其中，医学实体密度是指医学实体的文字数与医学文本中总文字数的比值。医学关系密度是指医学实体个数除以医学文本的总文字数。回环关系是指医学实体A指向医学实体B，医学实体B又指向医学实体A。长环关系是多个医学实体回环，比如医学实体A指向医学实体B，医学实体B指向医学实体C，医学实体C又指向医学实体D，医学实体D又指向医学实体A。医学实体文字覆盖率是指标注出的实体文字个数与医学文本中总文字数的比值。

医学关系之间的距离是指医学实体之间的文字距离，例如，图2示例性示出了医学文本标注数据集的内容信息示意图，参照图2所示，文本内容上方的“段落名”、“解剖结构”、“临床表现”、“时间”等为文本的标签。其中，医学实体“腰部”与“疼痛”之间间隔了3个文字，则两者之间的距离为3。实体关系可以包括并列关系、因果关系等，比如图2中“腰部”和“右大腿”均是解剖结构，两者标记为并列关系。

数据偏见分析比如可以是对年龄、性别、情绪等数据的分析，获得数据偏向某个年龄或年龄段的程度、偏向男性或女性的程度、偏向某种情绪的程度等。示例性的，以性别偏见分析为例，假设男性字典Dm=[m₁，m₂，m₃，…m_n]，女性字典Df=[f₁，f₂，f₃，…f_n]。假设获取的一个医学文本标注数据集为Ds=[s₁，s₂，s₃，…，s_N]，该数据集Ds中包括N个样本文本，则数据集Ds的性别偏差bias可通过公式bias=Lm/Lf计算得到，其中，Lm=Nm/N，Lf=Nf/N。其中，Lm表示数据集Ds偏向男性的程度，Lf表示数据集Ds偏向女性的程度，Nm表示数据集Ds中出现在字典Dm中的单词数，Nf表示数据集Ds中出现在字典Df中的单词数，N表示数据集Ds的样本数量。通过性别偏差bias可以反映出医学文本标注数据集Ds的性别偏见。

特征相关测度分析可以分析医学文本标注数据集内部特征之间的相互影响。例如，对于获取的一个医学文本标注数据集，其中包含有多个电子病历文本，这些电子病历文本中包含i个句子，这i个句子长度的序列可以表示为L=[h1，h2，h3，…，hi]，医学文本类型序列可以表示为D=[d1，d2，d3，…，dj]，共包含j个类型。则电子病历文本中句子长度与医学文本类型之间的相关测度可以通过如下的公式（1）进行计算，该公式（1）可以表示为：

其中，h_a和d_b分别表示第a个句子和第b个类别的电子病历文本的句子长度；Ci表示相关测度，用以表征相关度的测量指数；p(h_a，d_b)表示利用贝叶斯分类网络计算的矩阵概率，p(h_a)表示利用贝叶斯分类网络计算的h_a的概率，p(d_b)表示利用贝叶斯分类网络计算的d_b的概率。通过Ci可分析医学文本标注数据集内部特征之间的相互影响，可以对影响医学模型效果的因素做出医学文本标注数据集侧的解释。

其中，医学文本类型可以包括一诉五史、检验、检查等类型。

示例性的，电子设备还可以对医学文本标注数据集和医学文本测试数据集进行比对分析，计算医学文本测试数据集句子中没有出现在医学文本标注数据集中的医学实体的比例，将该比例作为影响医学模型评价指标的一个因素。

具体的，假设医学文本测试数据集句子中出现的医学实体的集合为Te=[e₁，e₂，e₃，…e_m]，医学文本标注数据集句子中出现的医学实体的集合为Tr=[r₁，r₂，r₃，…r_n]，则医学文本测试数据集句子中没有出现在医学文本标注数据集中的医学实体的比例R可以通过如下的公式（2）进行计算，该公式（2）可以表示为：

R=（m-Te∩Tr）/n；

其中，m为医学文本测试数据集中医学实体的数量，n为医学文本标注数据集中医学实体的数量，Te∩Tr表示对Te和Tr求交集。

通过对医学文本标注数据集进行数据集自身的特征分析，可以获取到医学文本标注数据集的特点，进而可以利用医学模型在不同特点数据集的不同表现来评价数据集对医学模型的影响，比如在句子长度不同、实体长度不同、实体密度不同、实体位置不同、实体关系位置不同、标签密度不同、数字或文字不同等其中至少一个不同数据集特点下的不同表现。

示例性的，对至少一个医学文本标注数据集进行数据集之间的比对分析，得到第四特征信息，可以包括：计算至少一个医学文本标注数据集之间的相似度；计算每个医学文本标注数据集的特征值，并对特征值进行比较，得到比较结果；将相似度和比较结果确定为第四特征信息。这样，可以分析得到医学文本标注数据集的外部表征特征。

在相似度计算中，例如，第一医学文本标注数据集中包括电子病历1，第二医学文本标注数据集中包括电子病历2，可以分别对电子病历1和电子病历2进行分词处理，得到各自对应的字符串数组，字符串数组中可以包括比如“右大腿”、“疼痛”、“2小时”等医学实体分词。接着对这两个数组进行词袋模型统计，得到每个分词在电子病历文本中出现的次数向量，即可得到两个电子病历文本各自的文本向量。具体的，电子病历文本中出现频率越高的词项，越能用来描述该电子病历文本，因此，可以统计每个词项在每个电子病历文本中出现的次数，得到词项频率，基于该词项频率可以获得电子病历文本中每个词的权重，这样可以将电子病历文本转换为词和权重的集合，构成词袋。将词在每个电子病历文本中出现的次数保存在向量中，即可得到各电子病历文本的文本向量。

然后，可以对得到的两个文本向量进行余弦相似度计算，将得到的余弦相似度作为电子病历1和电子病历2的相似度。具体的，电子病历文本在同一向量空间的表示称为向量空间模型（Vector Space Model，VSM），利用VSM可以进行文本检索、文本聚类、文本分类等。电子病历文本在VSM中用向量表示，可以利用向量的差值计算两个电子病历文本的相似度。假设电子病历1和电子病历2的文本向量分别为

和

，则可以通过如下的公式（3）计算电子病历1和电子病历2的相似度，该公式（3）可以表示为：

其中，

表示相似度，

表示

和

的内积，

表示

和

的欧几里得长度之积。

如果两个相似的文本的长度不同，其文本向量的差值会较大，通过公式（3）计算得到的是余弦相似度，将该余弦相似度作为电子病历1和电子病历2的相似度，可以去除文本长度的影响。

示例性的，对于每个医学文本标注数据集，可以获取数据集中每个医学文本的量化特征，比如文本长度、医学实体长度等，然后计算每种类型量化特征在文本级别的平均值，即用每种类型量化特征的总值除以该数据集中医学文本的个数，可以将获得的平均值作为该医学文本标注数据集的特征值，比如可以得到医学文本平均长度、医学实体平均长度等特征值。这样，可以将数据集内部单个医学文本的文本级特征转换为数据集级别上的特征。进一步，可以对特征值进行比较，获得比较结果，将该比较结果作为第四特征信息中的一种。

通过对医学文本标注数据集进行数据集之间的特征比对分析，可以获取到各医学文本标注数据集之间的关联关系和区别特征等，进而可以利用医学模型在不同特点医学文本标注数据集的不同表现来评价数据集特点对医学模型的影响。

步骤120：获取待训练医学模型，并基于至少一个医学文本标注数据集对待训练医学模型进行训练，得到目标医学模型。

待训练医学模型可以是为实现目标医学功能新创建的初始神经网络模型，也可以是迁移学习时选用的预训练神经网络模型，本发明实施例对此不做特殊限定。

步骤130：获取医学文本测试数据集，并基于医学文本测试数据集对目标医学模型进行测试，得到目标医学模型的评价指标。

医学文本测试数据集是未参与待训练医学模型训练的医学文本标注数据集。评价指标可以包括准确率、精确率、召回率、F1值、混淆矩阵、接受者操作特性曲线（ReceiverOperating Characteristic Curve，ROC曲线）和ROC曲线下与坐标轴围成的面积（AreaUnder Curve，AUC）、预测错医学实体的分布、错识别的医学实体的内容、预测错的语句的特点等指标中的至少一个，但不限于此。其中，语句的特点比如可以包括语句长度和语法结构等其中的至少一个，但不限于此。

在一种示例实施例中，可以基于多个不同的医学文本标注数据集分别对一个待训练医学模型进行训练，得到多个目标医学模型，然后利用医学文本测试数据集对各目标医学模型进行测试，得到各目标医学模型的评价指标。这样，可以通过待训练医学模型在不同数据集的不同表现，依据评价指标对各目标医学模型进行评价，可以对目标医学模型进行内在性能的评价。示例性的，可以根据医学文本标注数据集的特征信息从提供的多个医学文本标注数据集中选择出多个具有不同特征的医学文本标注数据集对待训练医学模型进行训练，比如可以选择句子长度不同、医学实体长度不同、医学实体密度不同、医学实体位置不同、医学实体关系位置不同、标签密度不同、标签类型不同、标签关联度不同、医学实体类型不同等其中至少一种不同特点的多个医学文本标注数据集。其中的医学实体类型比如可以包括数字、文字、中文或英文等。

在一种示例实施例中，可以利用同一个医学文本标注数据集对多个不同的待训练医学模型进行训练，得到多个目标医学模型，然后利用医学文本测试数据集对各目标医学模型进行测试，得到各目标医学模型的评价指标。这样可以在同一数据集特点下对不同的医学模型进行评价，分析数据集特点对不同医学模型的影响，便于多个医学模型之间的评价。

在一种示例实施例中，可以利用至少一个不同的医学文本标注数据集分别对多个具有相同功能的待训练医学模型分别进行训练，得到多个目标医学模型，然后利用医学文本测试数据集对各目标医学模型进行测试，得到各目标医学模型的评价指标。这样，可以对医学模型进行模型自身特性和数据集特点等多方面影响因素的分析。其中，多个具有相同功能的待训练医学模型可以是实现同一功能的多个结构不同和/或参数不同的医学模型，或者可以是对一个初始待训练医学模型进行模型参数和/或模型结构的多次调整后得到的多个待训练医学模型。

在一种示例实施例中，可以对利用至少一个医学文本标注数据集分别对至少一个待训练医学模型进行训练后得到的医学模型进行组合处理，得到至少一种组合模型，然后可以利用医学文本测试数据集对各组合模型和训练得到的各医学模型进行测试，得到各模型的评价指标。这样，可以对组合后的组合模型与组合前的单一模型的效果进行比较分析，也可以对不同组合方式得到的组合模型的效果进行比较分析。

在一种示例实施例中，在利用医学文本测试数据集对各目标医学模型进行测试时，可以利用同一个医学文本测试数据集对各目标医学模型进行测试，可以避免测试数据集不同而对模型评价结果的影响。示例性的，还可以为该医学文本测试数据集设置注释信息，该注释信息比如可以包括相关代码的注释和函数定义的注释，比如可以包括参数名称、函数名称和测试用例等。

步骤140：基于特征信息和评价指标生成医学模型评价报告，并输出医学模型评价报告。

目标医学模型的评价指标可以表征目标医学模型的优劣程度，医学文本标注数据集的特征信息可以表征该医学文本标注数据集的特点，每个训练得到目标医学模型有其对应的医学文本标注数据集，由此可以获得目标医学模型的评价指标与特征信息的对应关系，基于该对应关系可以生成医学模型评价报告并输出。该评价报告中包含了模型训练时所使用的医学文本标注数据集的特征信息和对应训练出的目标医学模型的优劣程度，能够反映出不同医学文本标注数据集特点对所训练出的医学模型的影响，从数据集角度获得影响医学模型性能的因素，可以指导医学模型的优化方向，有助于提升医学模型的性能。其中，评价指标与特征信息的对应关系可以是多个目标医学模型的同一个评价指标与同一种类特征信息的对应关系，比如医学实体个数、医学实体密度或医学关系个数等一种特征信息与准确率的对应关系。示例性的，医学模型评价报告中可以以曲线图、雷达图、表格、柱状图等图表形式直观地反映目标医学模型的评价指标与特征信息的对应关系。

本发明实施例提供的医学模型评价方法，可以对获取的至少一个医学文本标注数据集进行特征分析，获得医学文本标注数据集的特征信息，通过该特征信息表征各医学文本标注数据集的特点；同时，可以基于该至少一个医学文本标注数据集对获取的待训练医学模型进行训练，得到目标医学模型，并基于获取的医学文本测试数据集对该目标医学模型进行测试，可以得到目标医学模型的评价指标，通过该评价指标可以表征目标医学模型的优劣程度；进而基于得到的特征信息和评价指标生成医学模型评价报告并输出，该评价报告中包含了模型训练时所使用的医学文本标注数据集的特征信息和对应训练出的目标医学模型的优劣程度，能够反映出不同医学文本标注数据集特点对所训练出的医学模型的影响，从而实现了对医学模型进行影响医学模型性能的分析和评价，有助于提升医学模型的性能。

基于图1对应实施例的医学模型评价方法，在一种示例实施例中，图3示例性示出了本发明实施例中基于特征信息和评价指标生成医学模型评价报告的方法的流程示意图，参照图3所示，该方法可以包括如下的步骤310~步骤340。

步骤310：确定目标评价指标对应的医学文本标注数据集，得到第一数据集。

其中，目标评价指标为评价指标中同一类型评价指标中的最大指标和最小指标中的至少之一。

例如，用3个不同的医学文本标注数据集对一个待训练医学模型分别进行训练，得到3个目标医学模型，然后用医学文本测试数据集分别对这3个目标医学模型进行测试，得到每个目标医学模型对应的评价指标，比如评价指标中包括准确率和精确率两种类型。可以确定这3个目标医学模型的评价指标中的最大准确率和最大精确率，可以将该最大准确率和最大精确率确定为目标评价指标。然后可以根据该最大准确率对应的目标医学模型确定对应的医学文本标注数据集，比如为数据集1，根据该最大精确率对应的目标医学模型确定对应的医学文本标注数据集，比如为数据集2，则可以将数据集1和数据集2分别确定为第一数据集。

步骤320：获取第一数据集对应的特征信息，得到第一特征信息。

步骤330：将第一特征信息与第二特征信息进行比对分析，得到第一比对结果信息。

其中，第二特征信息为目标医学模型对应的医学文本标注数据集中，除去第一数据集外的其余数据集各自对应的特征信息。

例如，如步骤310的示例，可以将3个医学文本标注数据集中除去数据集1的剩余2个数据集的特征信息确定为最大准确率对应的目标医学模型的第二特征信息；可以将3个医学文本标注数据集中除去数据集2的剩余2个数据集的特征信息确定为最大精确率对应的目标医学模型的第二特征信息。

步骤340：基于第一比对结果信息绘制评价结果图表，生成医学模型评价报告。

如步骤330的示例，通过第一比对结果信息可以反映出数据集1与其他2个数据集的特征信息的区别，比如医学实体位置不同、句子长度不同、标签类型不同等，且第一比对结果信息中可以包括区别特征的量化值。示例性的，可以为特征信息中每一种特征设置差异阈值，当比对的差异值大于该差异阈值时表征两个数据集中该特征不同。

示例性的，可以以图表的形式将数据集1与其他2个数据集的区别特征进行对比展示，并给出每个数据集对应的目标医学模型的评价指标。通过该图表可以对医学文本标注数据集影响医学模型效果的因素进行量化，比如最大准确率对应的数据集1与其他2个数据集的医学实体长度不同而其他特征相同，则可以确定医学文本标注数据集的医学实体长度会影响医学模型的准确率，而且可以通过图表确定医学实体长度较长还是较短时准确率高。以此可以调整训练模型时的医学文本标注数据集，提升训练出的医学模型的效果。

基于图3对应实施例的方法，在一种示例实施例中，基于特征信息和评价指标生成医学模型评价报告的方法还可以包括：确定目标评价指标对应的目标医学模型，得到第一医学模型；获取训练得到的各目标医学模型的结构信息，并将第一医学模型的结构信息与第二医学模型的结构信息进行比对分析，得到第二比对结果信息；其中，第二医学模型为训练得到的目标医学模型中，除去第二医学模型外的其余目标医学模型。其中的结构信息比如可以包括层数、模型参数种类等。相应的，基于第一比对结果信息绘制评价结果图表，生成医学模型评价报告，可以包括：基于第一比对结果信息和第二比对结果信息绘制评价结果图表，生成医学模型评价报告。

这样，通过对各目标医学模型的结构信息进行比对分析，可以获得医学模型结构对医学模型性能的影响。

基于图1对应实施例的医学模型评价方法，在一种示例实施例中，获取待训练医学模型，并基于至少一个医学文本标注数据集对待训练医学模型进行训练，得到目标医学模型，可以包括：从至少一个医学文本标注数据集中确定一个目标医学文本标注数据集；获取多个不同的第一待训练医学模型，并利用目标医学文本标注数据集对每个第一待训练医学模型分别进行训练，得到多个第一目标医学模型；其中，目标医学模型包括该多个第一目标医学模型。

其中，从至少一个医学文本标注数据集中确定一个目标医学文本标注数据集可以是从至少一个医学文本标注数据集中随机选取一个医学文本标注数据集作为目标医学文本标注数据集；或者，也可以根据该至少一个医学文本标注数据集的特征信息，从该至少一个医学文本标注数据集中确定一个医学文本标注数据集作为目标医学文本标注数据集，比如可以将特征信息种类最多的数据集作为目标医学文本标注数据集，比如可以将特征信息中目标特征的量值最大或最小的数据集作为目标医学文本标注数据集等。

这样，可以在同一数据集特点下对不同的医学模型进行评价，分析数据集特点对不同医学模型的影响，可以获得不同医学模型的共同优点、不同医学模型的共同劣势等，便于多个医学模型之间的评价。而且，基于评价结果，可以从中选择出较优的医学模型，提升医学模型的性能。

基于图1对应实施例的医学模型评价方法，在一种示例实施例中，医学文本标注数据集可以是多个不同的医学文本标注数据集；相应的，获取待训练医学模型，并基于至少一个医学文本标注数据集对待训练医学模型进行训练，得到目标医学模型，可以包括：获取一个第二待训练医学模型；利用每个医学文本标注数据集分别对第二待训练医学模型进行训练，得到每个医学文本标注数据集对应的第二目标医学模型；其中，目标医学模型包括该第二目标医学模型。

这样，利用医学文本测试数据集对每个目标医学模型进行测试后，能够获得每个医学文本标注数据集的特征信息与对应的目标医学模型的评价指标的对应关系，进而基于该对应关系可以分析不同特点的医学文本标注数据集对医学模型的影响，分析不同医学模型的共同优点、共同劣势等，获得医学文本标注数据集对医学模型的性能造成影响的量化因素，根据该量化因素可以指导医学模型训练时医学文本标注数据集的优化，有助于进一步提升医学模型的效果。

示例性的，对第二待训练医学模型进行训练的医学文本标注数据集可以是基于特征信息确定出的多个不同的目标医学文本标注数据集，比如可以根据目标特征从特征信息中选择多个特征信息量化值不同的目标特征信息，将该目标特征信息对应的医学文本标注数据集确定为目标医学文本标注数据集。然后利用医学文本测试数据集对训练得到的多个第二目标医学模型进行测试，得到每个第二目标医学模型对应的评价指标。最后可以绘制出特征信息量化值与评价指标的关系图。其中的目标特征可以是特征信息中的一种特征。

例如，以目标特征是医学实体个数、评价指标是准确率为例，图4示例性示出了医学模型评价报告的内容展示效果示意图之一，该医学模型评价报告可以直观地反映出医学实体个数对医学模型效果的影响。参照图4，利用医学实体个数不同的多个目标医学文本标注数据集分别对同一个待训练医学模型进行训练后，得到的目标医学模型中，医学实体个数越多，目标医学模型的准确率越高。

基于图1对应实施例的医学模型评价方法，在一种示例实施例中，获取待训练医学模型并基于至少一个医学文本标注数据集对待训练医学模型进行训练，得到目标医学模型，可以包括：获取多个具有相同功能的第三待训练医学模型；利用至少一个医学文本标注数据集分别对每个第三待训练医学模型进行训练，得到多个第三医学模型；将多个第三医学模型缩放至同一参数量，得到多个第三目标医学模型；其中，目标医学模型包括该多个第三目标医学模型。其中，可以采用模型蒸馏、量化、剪枝等方法对医学模型进行缩放。

这样，利用医学文本测试数据集对每个目标医学模型进行测试后，能够获得具有相同功能、但结构或参数种类不同的目标医学模型在相同或不同医学文本标注数据集特点下的性能，通过对这些目标医学模型进行多维度的比较，比如在相同或不同特征信息下的比较、预测错医学实体的分布的比较、识别错的医学实体的内容的比较、判断错的句子的特点的比较等，可以分析出医学模型结构或参数种类不同时对医学模型性能的影响因素，也可以分析评价出各医学模型的共同优点和共同劣势等，为医学模型的进一步优化提供指导信息。

而且，可以分别训练不同参数量的医学模型，通过将多个不同参数量的医学模型缩放至同一参数量，在同一参数量下进行影响医学模型性能的分析和评价，可以减少探究模型大小缩放对多个医学模型进行多维度比较的影响。通过模型缩放可以在同一参数量下进行多个医学模型的公平比较，同时可以缩短医学模型评价的时间。

基于图1对应实施例的医学模型评价方法，在一种示例实施例中，获取待训练医学模型，并基于至少一个医学文本标注数据集对待训练医学模型进行训练，得到目标医学模型，可以包括：获取至少一个第四待训练医学模型；利用至少一个医学文本标注数据集分别对每个第四待训练医学模型进行训练，得到多个第四医学模型；对多个第四医学模型进行组合处理，得到第四目标医学模型；其中，目标医学模型包括第四目标医学模型和多个第四医学模型。其中，第四目标医学模型包括至少一个组合模型。

这样，通过对多个医学模型进行组合处理，可以得到至少一个组合模型，然后可以利用医学文本测试数据集对各组合模型和训练得到的各医学模型进行测试，得到各模型的评价指标。这样，可以对组合后的组合模型与组合前的单一医学模型的效果进行比较分析，也可以对不同组合方式得到的组合模型的效果进行比较分析，能够获得组合对医学模型性能的影响，而且可以根据不同组合方式下组合模型的评价指标以及组合前各医学模型的评价指标选择出较优的医学模型，有助于提升医学模型的性能。

示例性的，图5示例性示出了本发明实施例中对多个医学模型进行组合处理的原理示意图，参照图5，比如有4个医学模型，分别记为医学模型g1、医学模型g2、医学模型g3和医学模型g4，在组合处理过程中，可以先对医学模型g1和医学模型g2进行权重的平均处理，得到第一组合模型；进一步可以将第一组合模型与医学模型g3和医学模型g4进行累加，得到第二组合模型，这样可以将4个医学模型组合为一个组合模型。其中，医学模型g1和医学模型g2中可以包括相同的网络层，对医学模型g1和医学模型g2进行权重的平均处理可以是对相同的网络层的权重取平均值，将相同的网络层合并为一个网络层，并用对应的平均值作为该合并后的网络层的权重，对于不同的网络层，可以去除或分别保留。对医学模型进行累加可以是保留每个医学模型的所有网络层，对于相同的网络层，可以对其权重进行组合计算，比如求平均值、归一化、求方差等。示例性的，对医学模型g1和医学模型g2进行权重的平均处理也可以是对其中指定的网络层的权重取平均值，其余的网络层保留或去除。

需要说明的是，图5仅为对多个医学模型进行组合处理的一种示例性说明，并不用于限制本发明的精神，医学模型的组合也可以是其他的方式，比如可以是对多个医学模型同时进行权重的平均处理，得到最终的组合模型，可以是对多个医学模型依次进行两两组合，得到最终的组合模型等。

例如，有4个医学模型，可以将模型1与模型2进行组合，再将组合的模型与模型3进行组合，继续将组合的模型与模型4进行组合。在模型组合过程中，可以分别得到多个组合模型：“模型1+模型2”、“模型1+模型2+模型3”和“模型1+模型2+模型3+模型4”。可以分别记为组合模型1、组合模型2和组合模型3，进而可以分别对不同的组合模型及组合前的模型1进行比对，评价模型组合对模型效果的影响，可参考图6。图6示例性示出了医学模型评价报告的内容展示效果示意图之二，该医学模型评价报告以评价指标是F1值为例进行说明，可以直观地反映出模型组合对医学模型效果的影响，据此可以选择出较优的组合模型和组合模式，有助于提升医学模型的性能。

下面对本发明提供的医学模型评价装置进行描述，下文描述的医学模型评价装置与上文描述的医学模型评价方法可相互对应参照。

图7示例性示出了本发明实施例提供的医学模型评价装置的结构示意图，参照图7所示，医学模型评价装置700可以包括：获取模块710，用于获取至少一个医学文本标注数据集；分析模块720，用于对至少一个医学文本标注数据集进行特征分析，得到特征信息；训练模块730，用于获取待训练医学模型，并基于至少一个医学文本标注数据集对待训练医学模型进行训练，得到目标医学模型；测试模块740，用于获取医学文本测试数据集，并基于医学文本测试数据集对目标医学模型进行测试，得到目标医学模型的评价指标；生成模块750，用于基于特征信息和评价指标生成医学模型评价报告；输出模块760，用于输出医学模型评价报告。

一种示例实施例中，生成模块750可以包括：第一确定单元，用于确定目标评价指标对应的医学文本标注数据集，得到第一数据集；其中，目标评价指标为评价指标中同一类型评价指标中的最大指标和/或最小指标；第一获取单元，用于获取第一数据集对应的特征信息，得到第一特征信息；第一分析单元，用于将第一特征信息与第二特征信息进行比对分析，得到第一比对结果信息；其中，第二特征信息为目标医学模型对应的医学文本标注数据集中，除去第一数据集外的其余数据集各自对应的特征信息；生成单元，用于基于第一比对结果信息绘制评价结果图表，生成医学模型评价报告。

一种示例实施例中，生成模块750还可以包括：第二确定单元，用于确定目标评价指标对应的目标医学模型，得到第一医学模型；第二分析单元，用于获取训练得到的各目标医学模型的结构信息，并将第一医学模型的结构信息与第二医学模型的结构信息进行比对分析，得到第二比对结果信息；其中，第二医学模型为训练得到的目标医学模型中，除去第二医学模型外的其余目标医学模型；生成单元可以具体用于基于第一比对结果信息和第二比对结果信息绘制评价结果图表，生成医学模型评价报告。

一种示例实施例中，训练模块730可以包括：第三确定单元，用于从至少一个医学文本标注数据集中确定一个目标医学文本标注数据集；第一训练单元，用于获取多个不同的第一待训练医学模型，并利用目标医学文本标注数据集对每个第一待训练医学模型分别进行训练，得到多个第一目标医学模型；其中，目标医学模型包括多个第一目标医学模型。

一种示例实施例中，训练模块730还可以包括：第二获取单元，用于获取一个第二待训练医学模型；第二训练单元，用于利用每个医学文本标注数据集分别对第二待训练医学模型进行训练，得到每个医学文本标注数据集对应的第二目标医学模型；其中，目标医学模型包括第二目标医学模型。

一种示例实施例中，训练模块730还可以包括：第三获取单元，用于获取多个具有相同功能的第三待训练医学模型；第三训练单元，用于利用至少一个医学文本标注数据集分别对每个第三待训练医学模型进行训练，得到多个第三医学模型；缩放单元，用于将多个第三医学模型缩放至同一参数量，得到多个第三目标医学模型；其中，目标医学模型包括多个第三目标医学模型。

一种示例实施例中，训练模块730还可以包括：第四获取单元，用于获取至少一个第四待训练医学模型；第四训练单元，用于利用至少一个医学文本标注数据集分别对每个第四待训练医学模型进行训练，得到多个第四医学模型；组合单元，用于对多个第四医学模型进行组合处理，得到第四目标医学模型；其中，目标医学模型包括第四目标医学模型和多个第四医学模型。

一种示例实施例中，分析模块720可以包括：第三分析单元，用于对至少一个医学文本标注数据集进行数据集自身的特征分析，得到第三特征信息；和/或，第四分析单元，用于对至少一个医学文本标注数据集进行数据集之间的比对分析，得到第四特征信息；

其中，特征信息包括第三特征信息和/或第四特征信息。

一种示例实施例中，第三分析单元可以具体用于：对每个医学文本标注数据集分别进行目标分析，得到每个医学文本标注数据集对应的第三特征信息；其中，目标分析包括医学实体特征分析、语句分析、实体统计、实体关系统计、句子特征分析和特征相关测度分析中的至少之一。

一种示例实施例中，第四分析单元可以具体用于：计算至少一个医学文本标注数据集之间的相似度；计算每个医学文本标注数据集的特征值，并对特征值进行比较，得到比较结果；将相似度和比较结果确定为第四特征信息。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器（processor）810、通信接口（Communication Interface）820、存储器（memory）830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行上述各方法实施例提供的医学模型评价方法，该方法比如可以包括：获取至少一个医学文本标注数据集，并对至少一个医学文本标注数据集进行特征分析，得到特征信息；获取待训练医学模型，并基于至少一个医学文本标注数据集对待训练医学模型进行训练，得到目标医学模型；获取医学文本测试数据集，并基于医学文本测试数据集对目标医学模型进行测试，得到目标医学模型的评价指标；基于特征信息和评价指标生成医学模型评价报告，并输出医学模型评价报告。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法实施例所提供的医学模型评价方法，该方法比如可以包括：获取至少一个医学文本标注数据集，并对至少一个医学文本标注数据集进行特征分析，得到特征信息；获取待训练医学模型，并基于至少一个医学文本标注数据集对待训练医学模型进行训练，得到目标医学模型；获取医学文本测试数据集，并基于医学文本测试数据集对目标医学模型进行测试，得到目标医学模型的评价指标；基于特征信息和评价指标生成医学模型评价报告，并输出医学模型评价报告。

又一方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法实施例所提供的医学模型评价方法，该方法比如可以包括：获取至少一个医学文本标注数据集，并对至少一个医学文本标注数据集进行特征分析，得到特征信息；获取待训练医学模型，并基于至少一个医学文本标注数据集对待训练医学模型进行训练，得到目标医学模型；获取医学文本测试数据集，并基于医学文本测试数据集对目标医学模型进行测试，得到目标医学模型的评价指标；基于特征信息和评价指标生成医学模型评价报告，并输出医学模型评价报告。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种医学模型评价方法，其特征在于，包括：

2.根据权利要求1所述的医学模型评价方法，其特征在于，所述基于所述特征信息和所述评价指标生成医学模型评价报告包括：

获取所述第一数据集对应的特征信息，得到第一特征信息；

3.根据权利要求2所述的医学模型评价方法，其特征在于，还包括：

4.根据权利要求1所述的医学模型评价方法，其特征在于，所述获取待训练医学模型，并基于所述至少一个医学文本标注数据集对所述待训练医学模型进行训练，得到目标医学模型，包括：

其中，所述目标医学模型包括所述多个第一目标医学模型。

5.根据权利要求1至4任一项所述的医学模型评价方法，其特征在于，所述医学文本标注数据集为多个不同的医学文本标注数据集，所述方法还包括：

获取一个第二待训练医学模型；

其中，所述目标医学模型包括所述第二目标医学模型。

6.根据权利要求1至4任一项所述的医学模型评价方法，其特征在于，还包括：

获取多个具有相同功能的第三待训练医学模型；

其中，所述目标医学模型包括所述多个第三目标医学模型。

7.根据权利要求1至4任一项所述的医学模型评价方法，其特征在于，还包括：

获取至少一个第四待训练医学模型；

8.根据权利要求1至4任一项所述的医学模型评价方法，其特征在于，所述对所述至少一个医学文本标注数据集进行特征分析，得到特征信息，包括：

9.根据权利要求8所述的医学模型评价方法，其特征在于，所述对所述至少一个医学文本标注数据集进行数据集自身的特征分析，得到第三特征信息，包括：

10.根据权利要求8所述的医学模型评价方法，其特征在于，所述对所述至少一个医学文本标注数据集进行数据集之间的比对分析，得到第四特征信息，包括：

计算所述至少一个医学文本标注数据集之间的相似度；

将所述相似度和所述比较结果确定为所述第四特征信息。

11.一种医学模型评价装置，其特征在于，包括：

获取模块，用于获取至少一个医学文本标注数据集；

输出模块，用于输出所述医学模型评价报告。

12.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至10任一项所述医学模型评价方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至10任一项所述医学模型评价方法。