CN112700880A

CN112700880A - 优化方法、训练方法、模型、处理装置及存储介质

Info

Publication number: CN112700880A
Application number: CN202011627961.7A
Authority: CN
Inventors: 郑永升; 周世正; 梁平
Original assignee: Hangzhou Yitu Medical Technology Co ltd
Current assignee: Hangzhou Yitu Medical Technology Co ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-23
Anticipated expiration: 2040-12-31
Also published as: CN112700880B

Abstract

本公开涉及用于优化训练模型数据集的方法、用于训练模型的方法、模型、处理装置及计算机可读存储介质，方法包括：将第一标注医学数据和第二标注医学数据分别输入算法分类模型，分别得到第一推论结果和第二推论结果；基于所述第一推论结果和/或第二推论结果，得到优化后的训练模型数据集或者重新构建用于训练模型的训练数据集；其中：所述第一标注医学数据的第一标注结果从标准医学信息表获得；所述第二标注医学数据的第二标注结果基于原文与标准医学信息表中标准词的文本相似度选取，且第二标注结果与第一标注结果存在区别。通过本公开的各实施例能够通过迭代训练算法模型来优化医学数据的标注准确度，解决标注不一致的问题。

Description

优化方法、训练方法、模型、处理装置及存储介质

技术领域

本公开涉及医学数据智能处理技术领域，具体涉及一种用于优化训练模型数据集的方法、用于训练模型的方法、模型、处理装置及计算机可读存储介质。

背景技术

现有技术中需要基于标注的医学数据进行相应的模型训练，从而进行各种数据处理和分析。在疑难的标注场景中，由于标注人员的水平不一或粗心，可能出现一些标注错误，虽然基于标注人员的水平整体较高的假设，标注错误的占比理论上相对较少，但仍存在一些标注不一致的情况。

发明内容

本公开意图提供一种用于优化训练模型数据集的方法、用于训练模型的方法、模型、处理装置及计算机可读存储介质，能够通过迭代训练算法模型来优化医学数据的标注准确度，解决标注不一致的问题。

根据本公开的方案之一，提供一种用于优化训练模型数据集的方法，包括：

将第一标注医学数据和第二标注医学数据分别输入算法分类模型，分别得到第一推论结果和第二推论结果；

基于所述第一推论结果和/或第二推论结果，得到优化后的训练模型数据集；

其中：

所述第一标注医学数据的第一标注结果从标准医学信息表获得；

所述第二标注医学数据的第二标注结果基于原文与标准医学信息表中标准词的文本相似度选取，且第二标注结果与第一标注结果存在区别。

在一些实施例中，其中，基于原文与标准医学信息表中标准词的文本相似度选取，包括：

基于原文和标准词所包含交集和并集的字数确定文本相似度。

在一些实施例中，其中，所述将第一标注医学数据和第二标注医学数据分别输入算法分类模型，分别得到第一推论结果和第二推论结果，包括：基于所述算法分类模型，通过分类算法得到量化第一推论结果的第一infer分数值，以及得到量化第二推论结果的第二infer分数值；

其中：

基于所述第一推论结果，得到优化后的训练模型数据集，包括：

在所述第一infer分数值小于最小阈值的情况下，舍弃该第一infer分数值对应的第一标注医学数据；

基于所述舍弃，得到优化后的训练模型数据集；

基于所述第二推论结果，得到优化后的训练模型数据集，包括：

在所述第二infer分数值大于最大阈值的情况下，将该第二infer分数值对应的第二标注医学数据作为正例；

基于该正例，得到优化后的训练模型数据集。

根据本公开的方案之一，提供一种用于训练模型的方法，包括：

基于所述第一推论结果和/或第二推论结果，重新构建用于训练模型的训练数据集；

其中：

基于所述第一推论结果，重新构建用于训练模型的训练数据集，包括：

基于所述舍弃，重新构建训练数据集，通过重新训练得到优化后的模型；

基于所述第二推论结果，重新构建用于训练模型的训练数据集，包括方式一和/或方式二，

方式一包括：

基于该正例，重新构建训练数据集，通过重新训练得到优化后的模型；

方式二包括：

在所述第二infer分数值处于预设数值区间的情况下，将该第二infer分数值对应的第二标注医学数据作为负例；

基于该负例，重新构建训练数据集，通过重新训练得到优化后的模型。

在一些实施例中，其中，还包括：

基于重新构建的训练数据集，对模型进行迭代训练。

根据本公开的方案之一，提供基于上述的方法训练得到的模型。

根据本公开的方案之一，提供处理装置，包括：

标注数据生成模块，其配置为用于生成第一标注医学数据和第二标注医学数据，所述第一标注医学数据的第一标注结果从标准医学信息表获得，所述第二标注医学数据的第二标注结果基于原文与标准医学信息表中标准词的文本相似度选取，且第二标注结果与第一标注结果存在区别；

推论模块，其配置为用于将第一标注医学数据和第二标注医学数据分别输入算法分类模型，分别得到第一推论结果和第二推论结果；

生成模块，其配置为用于基于所述第一推论结果和/或第二推论结果，得到优化后的训练模型数据集；或者用于基于所述第一推论结果和/或第二推论结果，重新构建用于训练模型的训练数据集。

根据本公开的方案之一，提供计算机可读存储介质，其上存储有计算机可执行指令，所述计算机可执行指令由处理器执行时，实现：

根据上述的用于优化训练模型数据集的方法；或者

根据上述的用于训练模型的方法。

本公开的各种实施例的用于优化训练模型数据集的方法、用于训练模型的方法、模型、处理装置及计算机可读存储介质，至少将第一标注医学数据和第二标注医学数据分别输入算法分类模型，分别得到第一推论结果和第二推论结果；基于所述第一推论结果和/或第二推论结果，得到优化后的训练模型数据集；其中：所述第一标注医学数据的第一标注结果从标准医学信息表获得；所述第二标注医学数据的第二标注结果基于原文与标准医学信息表中标准词的文本相似度选取，且第二标注结果与第一标注结果存在区别，从而通过第一标注医学数据和第二标注医学数据结合算法模型推论结果，一方面可以优化标注数据集，另一方面也可以重新构建训练数据集，重新训练来优化算法模型。本公开可以利用ICD标准表的编码关系，用算法模型来代替标注人员修复，解决了标注不一致的问题，优化一次数据集和算法模型能得到1-2％的性能提升，且通过抽样分析，算法修复正确率有90％以上，从而提升医学研究、医疗诊治的精确性和效率。

应当理解，前面的大体描述以及后续的详细描述只是示例性的和说明性的，并非对所要求保护的本公开的限制。

附图说明

在未必按照比例绘制的附图中，不同视图中相似的附图标记可以表示相似的构件。具有字母后缀的相似附图标记或具有不同字母后缀的相似附图标记可以表示相似构件的不同实例。附图通常作为示例而非限制地图示各种实施例，并且与说明书和权利要求书一起用于解释所公开的实施例。

图1示出本公开实施例涉及的用于优化训练模型数据集的方法的一种流程图；

图2示出本公开实施例涉及的用于训练模型的方法的一种流程图；

图3示出本公开实施例涉及的处理装置的架构图；

图4示出本公开实施例涉及的一种优化数据集以及优化训练模型的示意图。

具体实施方式

为了使得本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。

为了保持本公开实施例的以下说明清楚且简明，本公开省略了已知功能和已知部件的详细说明。

本公开涉及关于医学数据深度学习模型下的训练以及处理，用于医学信息以及医学术语概念的精准表征，需要基于标注的医学数据进行相应的医学数据训练，从而进行各种数据处理和分析。在疑难的标注场景中，由于标注人员的水平不一或粗心，可能出现一些标注错误，虽然基于标注人员的水平整体较高的假设，标注错误的占比理论上相对较少，但仍存在一些标注不一致的情况。例如针对相似的若干条数据，如果按照标准应该是相同的标注结果，但其中有个别数据的标注结果跟其他的结果不同且是错误的，当然这种错误所占比例在实际中可能不会很高。由于标注数据量大，且人工标注的粗心问题难以规避，除非投入大量的人力去修改标注错误，标注不一致的问题很难用少量的人力成本去修复。需要考虑借助对算法模型的优化训练，来生成更具有学习价值的训练数据来优化算法模型，来代替标注人员修复，从而至少解决标注不一致的问题。

作为方案之一，如图1所示，结合图4，本公开的实施例提供了一种医学数据的训练方法，包括：

S101：将第一标注医学数据和第二标注医学数据分别输入算法分类模型，分别得到第一推论结果和第二推论结果；

S102：基于所述第一推论结果和/或第二推论结果，得到优化后的训练模型数据集。

本公开的发明构思之一，旨在主要通过第一标注医学数据和第二标注医学数据结合算法模型推论结果，可以优化标注数据集。

本公开各实施例中的医学数据，其所属的数据源并不需要特别加以限定，可以是历史数据，也可以是当前实时的数据。从数据格式上，可以是病历文本数据、视频数据、音频数据等等，只要能够通过识别手段，例如文本识别(例如，NLP识别，OCR识别等方式)识别其中能够包含的医学信息，语音识别、视频图像识别等方式识别其中记载的诊断内容、手术内容等一些医学信息，抑或是通过字符拆分、词句拆分等方式识别的医学信息内容等。可以参考于ICD标准表，例如ICD10表、ICD-9-CM-3表等标准医学信息表。本公开各实施例的标注医学数据，来自于通过标注后的医学数据，包含有表征原始医学信息的原始信息，例如病历原文等。具体应用场景中，本公开的原始医学数据也可以是包含于病历、诊断书，其中包含有多个或者多种诊断信息、手术信息，可以用于人工、机器等通过标注或者解析方式进行相关医学信息的判读。

在一些实施例中，本公开可以通过人工对医学数据标注实现，也可以通过具备相应判读能力的机器识别进行标注实现。具体的，本公开的第一标注医学数据可以由专业人工、医学专家进行标注，形成第一标注结果，第一标注结果可以从ICD10或者ICD-9-CM-3中直接获得。每条数据可以参照“原文，ICD编码|ICD标准名称”这样的格式处理为二元组，例如专家针对原始数据包含记录内容“胸腔镜辅助小切口右肺上叶癌根治术”，将其标注上ICD-9-CM-3标准信息表中的标准词“32.4100|胸腔镜下肺叶切除术”作为第一标注结果，从而通过原文“胸腔镜辅助小切口右肺上叶癌根治术”和第一标注结果“32.4100|胸腔镜下肺叶切除术”构建第一标注医学数据，表现为“胸腔镜辅助小切口右肺上叶癌根治术，32.4100|胸腔镜下肺叶切除术”这样格式的二元组。

本公开各实施例的第二标注医学数据的第二标注结果基于原文与标准医学信息表中标准词的文本相似度选取，且第二标注结果与第一标注结果存在区别。

具体的，本实施例中第一标注医学数据可以来自于专业人工标注，例如原文结合人工标注结果，通过人工标注“(原文：A1)；(原文：A2)；(原文：A3)”标注有标准词A1,A2,A3这一类第一标注结果(本文可称之为A类标准词)。本实施例中第二标注医学数据可以通过机器标注，基于原文与标准医学信息表中标准词的文本相似度选取，通过文本匹配，匹配到一些标准词“(原文：B1)；(原文：B2)”这一类第二标注结果(本文可称之为B类标准词)。A类标准词和B类标准词可能完全相同，部分相同或完全不同，其中在第一标注结果和第二标注结果中都出现过的标准词，并非本公开主要关注的处理对象。针对在第二标注结果中出现，但是没有在第一标注结果中出现的标准词，是本公开涉及的用于优化训练模型数据集的方法主要关注的处理对象。在本公开各实施例中，可以通过文本识别、词汇匹配等方式，判断前文中所述的B类标准词是否出现在A类标准词中，出现过的标注结果，不作为本公开的处理方法处理对象。例如，通过人工标注的标注结果为“(原文：A1)；(原文：A2)；(原文：A3)”，当判断出通过文本匹配机器标注的标注结果为“(原文：A2)；(原文：A3)；(原文：A4)”，在这种情况下“(原文：A4)”就可以视为根据原文匹配到相似的标准词，且不再标注结果中，即：第二标注结果与第一标注结果存在区别。

结合前述内容，标注不一致的问题占比不高，极端点就是一个例子有100条数据，其中99条都是标注正确的，只有1条数据标注错误。实际在调节算法模型输出精度是，算法模型训练过程中能消化掉一定的数据错误，例如针对1％的错误能够忽略，学习到99％标注正确的数据中的规律，且算法对每个例子的分类会有一个置信度分数输出，代表算法对这个预测结果的把握。

在一些实施例中，本公开的基于原文与标准医学信息表中标准词的文本相似度选取，包括：

具体的，本实施例中匹配度的确定方式，可以基于原文和标准词各自所包含的字数进行计算，例如通过两者之间交集的字数以及两者并集的字数来计算匹配度，或者称为两者的相似度。举例来说，原文为“双侧甲状腺部分切除”，标准词为“甲状腺切开探查术”，两者的交集是“甲状腺切”，其字数是4个字，两者的并集为两个字符串的长度求和减去交集字数：9+8-4＝13，因此这一两两组合对的相似度为“4/13”。

在一些实施例中，本公开的所述将第一标注医学数据和第二标注医学数据分别输入算法分类模型，分别得到第一推论结果和第二推论结果，包括：

基于所述算法分类模型，通过分类算法得到量化第一推论结果的第一infer分数值，以及得到量化第二推论结果的第二infer分数值。

针对标注不一致的问题，尽管标注不一致的数据中，错误占比相对较少，但还是会影响模型学习，模型“原文，标准词”的标签是正例还是负例的模糊情况，会无法精准处理，如果不一致的问题严重，模型对这种数据的infer分数通常在0.5左右。模型infer分数高，对应错误占比很低的情况，大概率是标注结果有遗漏；模型infer分数很低，即模型认为这段原文中不包含对应标准词，如果标注结果中存在该标准词，大概率是标注错误。

本实施例中通过算法模型分别对第一标注医学数据和第二标注医学数据进行处理，借助两者各自的生成逻辑和标注信息源，得到相应的infer分数来量化处理结果。

在一些实施例中，基于所述第一推论结果，得到优化后的训练模型数据集，包括：

基于所述舍弃，得到优化后的训练模型数据集。

具体的，来自于第一标注医学数据的第一infer分数值，很大程度上能够体现出原始标注的标注结果。如果第一标注医学数据为

“胸腔镜辅助小切口右肺上叶癌根治术，XXXX|XXXXXX”，其中“XXXX|XXXXXX”与原文信息差别非常大，导致第一infer分数值很低，低于最小阈值，例如低于0.01，本公开即可认为第一标注医学数据中标注结果存在错误，将该标注数据从标注结果删除，优化标注数据集。

进一步的，在一些实施例中，当第一infer分数值不低于最小阈值，那么本公开即可认为第一标注医学数据可以保持在训练集中的状态，如果原来不在训练集中不将其增加，如果原来在训练集中也不将其删除。

在一些实施例中，本公开的基于所述第二推论结果，得到优化后的训练模型数据集，包括：

基于该正例，得到优化后的训练模型数据集。

具体的，如果第二标注医学数据为

“胸腔镜辅助小切口右肺上叶癌根治术，XXXX|XXXXXX”，其中“XXXX|XXXXXX”作为第二标注结果与原文匹配的文本相似度很高，导致第一infer分数值很高，大于最大阈值，例如大于0.9，本公开即可认为第二标注医学数据中标注结果需要作为正例加入标注结果，以此来优化标注数据集。

进一步的，在一些实施例中，当第二infer分数值不高于最大阈值且也不在中间水平，那么本公开即可认为第二标注医学数据可以保持在训练集中的状态，如果原来不在训练集中不将其增加，如果原来在训练集中也不将其删除。

作为本公开的方案之一，如图2所示，结合图4所示，本公开还提供了一种用于训练模型的方法，包括：

S201：将第一标注医学数据和第二标注医学数据分别输入算法分类模型，分别得到第一推论结果和第二推论结果；

S202：基于所述第一推论结果和/或第二推论结果，重新构建用于训练模型的训练数据集。

其中：

在本公开的用于训练模型的方法中，关于第一标注医学数据和第二标注医学数据，可以结合前文内容参考理解。

本公开的发明构思之一，旨在主要通过第一标注医学数据和第二标注医学数据结合算法模型推论结果，可以重新构建训练数据集，重新训练来优化算法模型。

在一些实施例中，本公开的用于训练模型的方法，基于原文与标准医学信息表中标准词的文本相似度选取，包括：

在一些实施例中，本公开的所述将第一标注医学数据和第二标注医学数据分别输入算法分类模型，分别得到第一推论结果和第二推论结果，包括：基于所述算法分类模型，通过分类算法得到量化第一推论结果的第一infer分数值，以及得到量化第二推论结果的第二infer分数值。

具体的，本公开的基于所述第一推论结果，重新构建用于训练模型的训练数据集，包括：

基于所述舍弃，重新构建训练数据集，通过重新训练得到优化后的模型。

“胸腔镜辅助小切口右肺上叶癌根治术，XXXX|XXXXXX”，其中“XXXX|XXXXXX”与原文信息差别非常大，导致第一infer分数值很低，低于最小阈值，例如低于0.01，本公开即可认为第一标注医学数据中标注结果存在错误，将该标注数据从标注结果删除，从而根据第一infer分数值来重新构建剔除错误标注结果的训练数据集，重新训练模型。

在一些实施例中，本公开的基于所述第二推论结果，重新构建用于训练模型的训练数据集，包括方式一和/或方式二。

方式一包括：

基于该正例，重新构建训练数据集，通过重新训练得到优化后的模型。

具体的，如果第二标注医学数据为

“胸腔镜辅助小切口右肺上叶癌根治术，XXXX|XXXXXX”，其中“XXXX|XXXXXX”作为第二标注结果与原文匹配的文本相似度很高，导致第一infer分数值很高，大于最大阈值，例如大于0.9，本公开即可认为第二标注医学数据中标注结果需要作为正例加入标注结果，从而根据第二infer分数值来重新构建增加正例的训练数据集，重新训练模型。

方式二包括：

具体的，如果第二标注医学数据为

“胸腔镜辅助小切口右肺上叶癌根治术，XXXX|XXXXXX”，其中“XXXX|XXXXXX”作为第二标注结果与原文匹配的文本相似度中等，导致第一infer分数值处于中间水平，例如处于某一个预设数值区间中，本公开即认为第二标注医学数据的标注结果属于前述“infer分数为0.5”的情形，难以区分标注结果的结论，本公开即可认为第二标注医学数据中标注结果需要作为负例加入标注结果，从而根据第二infer分数值来重新构建增加负例的训练数据集，重新训练模型。

在一些实施例中，本公开的还可以包括：基于所述用于重新训练的医学数据，进行迭代训练。本公开的方法整个流程可以进行多次循环迭代，进一步提高标注结果的一致性，同时提高算法模型的性能。

作为本公开的方案之一，本公开还提供一种基于上述的用于训练模型的方法训练得到的模型。

作为本公开的方案之一，如图3，结合图4所示，本公开还提供了一种处理装置，可以执行用于优化训练模型数据集的方法，包括：

生成模块，其配置为用于基于所述第一推论结果和/或第二推论结果，得到优化后的训练模型数据集。

结合前述示例，本公开的标注数据生成模块，进一步配置为用于：

在一些实施例中，本公开的推论模块，进一步配置为用于：

基于所述算法分类模型，通过分类算法得到量化第一推论结果的第一infer分数值，以及得到量化第二推论结果的第二infer分数值；

其中：

基于所述舍弃，得到优化后的训练模型数据集；

基于该正例，得到优化后的训练模型数据集。

作为本公开的方案之一，如图3，结合图4所示，本公开还提供了一种处理装置，可以执行用于训练模型的方法，包括：

生成模块，其配置为用于基于所述第一推论结果和/或第二推论结果，重新构建用于训练模型的训练数据集。

在一些实施例中，本公开的推论模块，进一步配置为用于：

其中：

方式一包括：

方式二包括：

具体来说，本公开的发明构思之一，旨在至少将第一标注医学数据和第二标注医学数据分别输入算法分类模型，分别得到第一推论结果和第二推论结果；基于所述第一推论结果和/或第二推论结果，得到优化后的训练模型数据集；其中：所述第一标注医学数据的第一标注结果从标准医学信息表获得；所述第二标注医学数据的第二标注结果基于原文与标准医学信息表中标准词的文本相似度选取，且第二标注结果与第一标注结果存在区别，从而通过第一标注医学数据和第二标注医学数据结合算法模型推论结果，一方面可以优化标注数据集，另一方面也可以重新构建训练数据集，重新训练来优化算法模型。本公开可以利用ICD标准表的编码关系，用算法模型来代替标注人员修复，解决了标注不一致的问题，优化一次数据集和算法模型能得到1-2％的性能提升，且通过抽样分析，算法修复正确率有90％以上，从而提升医学研究、医疗诊治的精确性和效率。

作为本公开的方案之一，本公开还提供了一种计算机可读存储介质，其上存储有计算机可执行指令，所述计算机可执行指令由处理器执行时，主要实现根据上述的用于优化训练模型数据集的方法，至少包括：

其中：

作为本公开的方案之一，本公开还提供了一种计算机可读存储介质，其上存储有计算机可执行指令，所述计算机可执行指令由处理器执行时，主要实现一种用于训练模型的方法，至少包括：

其中：

在一些实施例中，执行算机可执行指令处理器可以是包括一个以上通用处理设备的处理设备，诸如微处理器、中央处理单元(CPU)、图形处理单元(GPU)等。更具体地，该处理器可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、运行其他指令集的处理器或运行指令集的组合的处理器。该处理器还可以是一个以上专用处理设备，诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、片上系统(SoC)等。

在一些实施例中，计算机可读存储介质可以为存储器，诸如只读存储器(ROM)、随机存取存储器(RAM)、相变随机存取存储器(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、电可擦除可编程只读存储器(EEPROM)、其他类型的随机存取存储器(RAM)、闪存盘或其他形式的闪存、缓存、寄存器、静态存储器、光盘只读存储器(CD-ROM)、数字通用光盘(DVD)或其他光学存储器、盒式磁带或其他磁存储设备，或被用于储存能够被计算机设备访问的信息或指令的任何其他可能的非暂时性的介质等。

在一些实施例中，计算机可执行指令可以实现为多个程序模块，多个程序模块共同实现根据本公开中任何一项所述的医学影像的显示方法。

本公开描述了各种操作或功能，其可以实现为软件代码或指令或者定义为软件代码或指令。显示单元可以实现为在存储器上存储的软件代码或指令模块，其由处理器执行时可以实现相应的步骤和方法。

这样的内容可以是可以直接执行(“对象”或“可执行”形式)的源代码或差分代码(“delta”或“patch”代码)。这里描述的实施例的软件实现可以通过其上存储有代码或指令的制品提供，或者通过操作通信接口以通过通信接口发送数据的方法提供。机器或计算机可读存储介质可以使机器执行所描述的功能或操作，并且包括以可由机器(例如，计算显示设备、电子系统等)访问的形式存储信息的任何机制，例如可记录/不可记录介质(例如，只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质、闪存显示设备等)。通信接口包括与硬连线、无线、光学等介质中的任何一种接口以与其他显示设备通信的任何机制，例如存储器总线接口、处理器总线接口、因特网连接、磁盘控制器等。通信接口可以通过提供配置参数和/或发送信号来配置以准备通信接口，以提供描述软件内容的数据信号。可以通过向通信接口发送一个或多个命令或信号来访问通信接口。

本公开的实施例的计算机可执行指令可以组织成一个或多个计算机可执行组件或模块。可以用这类组件或模块的任何数量和组合来实现本公开的各方面。例如，本公开的各方面不限于附图中示出的和本文描述的特定的计算机可执行指令或特定组件或模块。其他实施例可以包括具有比本文所示出和描述的更多或更少功能的不同的计算机可执行指令或组件。

以上描述旨在是说明性的而不是限制性的。例如，上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外，在上述具体实施方式中，各种特征可以被分组在一起以简单化本公开。这不应解释为一种不要求保护的公开的特征对于任一权利要求是必要的意图。相反，本公开的主题可以少于特定的公开的实施例的全部特征。从而，以下权利要求书作为示例或实施例在此并入具体实施方式中，其中每个权利要求独立地作为单独的实施例，并且考虑这些实施例可以以各种组合或排列彼此组合。本公开的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。

以上实施例仅为本公开的示例性实施例，不用于限制本公开，本公开的保护范围由权利要求书限定。本领域技术人员可以在本公开的实质和保护范围内，对本公开做出各种修改或等同替换，这种修改或等同替换也应视为落在本公开的保护范围内。

Claims

1.用于优化训练模型数据集的方法，包括：

其中：

2.根据权利要求1所述的方法，其中，基于原文与标准医学信息表中标准词的文本相似度选取，包括：

3.根据权利要求1所述的方法，其中，所述将第一标注医学数据和第二标注医学数据分别输入算法分类模型，分别得到第一推论结果和第二推论结果，包括：基于所述算法分类模型，通过分类算法得到量化第一推论结果的第一infer分数值，以及得到量化第二推论结果的第二infer分数值；

其中：

基于所述舍弃，得到优化后的训练模型数据集；

基于该正例，得到优化后的训练模型数据集。

4.用于训练模型的方法，包括：

其中：

5.根据权利要求4所述的方法，基于原文与标准医学信息表中标准词的文本相似度选取，包括：

6.根据权利要求5所述的方法，其中，所述将第一标注医学数据和第二标注医学数据分别输入算法分类模型，分别得到第一推论结果和第二推论结果，包括：基于所述算法分类模型，通过分类算法得到量化第一推论结果的第一infer分数值，以及得到量化第二推论结果的第二infer分数值；

其中：

方式一包括：

方式二包括：

7.根据权利要求4所述的方法，其中，还包括：

基于重新构建的训练数据集，对模型进行迭代训练。

8.基于权利要求4至7任一项所述的方法训练得到的模型。

9.处理装置，包括：

10.一种计算机可读存储介质，其上存储有计算机可执行指令，所述计算机可执行指令由处理器执行时，实现：

根据权利要求1至3任一项所述的用于优化训练模型数据集的方法；或者

根据权利要求4至7任一项所述的用于训练模型的方法。