CN112735545A

CN112735545A - 自训练方法、模型、处理方法、装置及存储介质

Info

Publication number: CN112735545A
Application number: CN202011627993.7A
Authority: CN
Inventors: 郑永升; 梁平; 姜轩
Original assignee: Hangzhou Yitu Medical Technology Co ltd
Current assignee: Hangzhou Yitu Medical Technology Co ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-30

Abstract

本公开涉及排序模型的自训练方法、排序模型、医疗文本的处理方法、医疗文本的处理装置及计算机可读存储介质，方法包括获取具有排序标注的文本；提取文本中的医学特征信息；基于从文本中获取的手术信息，获取表征手术的属性信息；将医学特征信息和属性信息与排序标注构建关联关系，以能够基于关联关系将包含医学特征信息和属性信息的待排序文本中的手术项按排序标注的方式排序；或包括：获取包含手术项的文本；提取医学特征信息；基于从该文本中获取的手术信息，获取属性信息；根据医学特征信息和属性信息，按照所述关联关系对该文本的手术项排序。通过本公开的各实施例能够准确高效地标准化处理完整的医疗文本，整理出有序的手术信息。

Description

自训练方法、模型、处理方法、装置及存储介质

技术领域

本公开涉及医疗文本智能处理技术领域，具体涉及一种排序模型的自训练方法、排序模型、医疗文本的处理方法、医疗文本的处理装置及计算机可读存储介质。

背景技术

在针对医疗文本处理过程中，对涉及到手术信息的整理，手术的编码的顺序是有要求的，尤其是第一手术信息的确定，直接关系到DRG分组的结果。一般临床医生在书写手术的时候是没注意手术顺序的，或者手术编码的顺序是错误的。

发明内容

本公开意图提供一种排序模型的自训练方法、排序模型、医疗文本的处理方法、医疗文本的处理装置及计算机可读存储介质，能够准确高效地标准化处理完整的医疗文本，整理出有序的手术信息。

根据本公开的方案之一，提供一种排序模型的自训练方法，包括：

获取具有排序标注的文本；

提取文本中的医学特征信息；

基于从文本中获取的手术信息，获取表征手术的属性信息；

将所述医学特征信息和属性信息与排序标注构建关联关系，以能够基于所述关联关系将包含所述医学特征信息和属性信息的待排序文本中的手术项按所述排序标注的方式排序。

在一些实施例中，其中，所述提取文本中的医学特征信息，包括：

基于文本中以下至少一项信息，提取文本中的医学特征信息：

诊断信息、检查信息、检验信息、病程信息、用药信息、医疗器械信息。

在一些实施例中，其中，所述基于从文本中获取的手术信息，获取表征手术的属性信息，包括：

从文本中提取包含手术编码的手术名称；

对照手术属性信息表，获取所述属性信息；

其中：

所述手术属性表包括：

标准手术名称、标准手术编码，以及与这些标准手术名称和标准手术编码对应的属性信息。

在一些实施例中，其中，所述属性信息，包括以下至少一项：

手术类型信息；

手术等级信息；

手术费用信息。

在一些实施例中，其中，所述从文本中提取包含手术编码的手术名称，包括：

将原始手术信息与标准手术信息表的标准词匹配，获得匹配关系；

基于匹配关系，筛选出分别包含原始手术信息和标准词的待处理手术信息；

通过分类算法，对所述待处理手术信息进行归一化处理，得到编码后的手术名称。

在一些实施例中，还包括：

基于海量获取的具有排序标注的文本，迭代进行训练。

根据本公开的方案之一，提供一种排序模型，其特征在于，所述排序模型根据如上述的方法训练得到。

根据本公开的方案之一，提供基于如上述的排序模型的医疗文本的处理方法，包括：

获取包含手术项的文本；

提取该文本中的医学特征信息；

基于从该文本中获取的手术信息，获取表征手术的属性信息；

根据所述医学特征信息和属性信息，按照所述关联关系对该文本的手术项排序。

根据本公开的方案之一，提供基于如上述的排序模型的医疗文本的处理装置，包括：

文本输入模块，其配置为用于获取包含手术项的文本；

提取模块，其配置为用于提取该文本中的医学特征信息；

获取模块，其配置为用于基于从该文本中获取的手术信息，获取表征手术的属性信息；

排序模块，其配置为用于根据所述医学特征信息和属性信息，按照所述关联对该文本的手术项排序。

根据本公开的方案之一，提供计算机可读存储介质，其上存储有计算机可执行指令，所述计算机可执行指令由处理器执行时，实现：

根据上述的排序模型的自训练方法；或者

根据上述的医疗文本的处理方法。

本公开的各种实施例的排序模型的自训练方法、排序模型、医疗文本的处理方法、医疗文本的处理装置及计算机可读存储介质，通过获取具有排序标注的文本；提取文本中的医学特征信息；基于从文本中获取的手术信息，获取表征手术的属性信息；将所述医学特征信息和属性信息与排序标注构建关联，以能够将包含所述医学特征信息和属性信息的文本中的手术项按所述排序标注的方式排序；以及在上述训练方法基础上，获取包含手术项的文本；提取该文本中的医学特征信息；基于从该文本中获取的手术信息，获取表征手术的属性信息；根据所述医学特征信息和属性信息，按照所述关联对该文本的手术项排序，从而能够在提取医疗文本中的多个手术信息的基础上，对完整医疗文本进行处理，结合从医疗文本中提取的医学特征信息得到有序的手术信息。本公开通过上述处理方法，不仅仅实现把临床医生写出来的临床诊断和手术名称编码到标准的术语上，针对临床医生写的手术名称不够详细，以及文本中没有手术顺序的，或者手术编码的顺序是错误的，还能够智能地结合病历文书进行细化和完善，结合从医疗文本中提取的医学特征信息输出有序的主要手术，完整、准确、高效地表达各种医学信息，从而提升医学研究、医疗诊治的精确性和效率。

应当理解，前面的大体描述以及后续的详细描述只是示例性的和说明性的，并非对所要求保护的本公开的限制。

附图说明

在未必按照比例绘制的附图中，不同视图中相似的附图标记可以表示相似的构件。具有字母后缀的相似附图标记或具有不同字母后缀的相似附图标记可以表示相似构件的不同实例。附图通常作为示例而非限制地图示各种实施例，并且与说明书和权利要求书一起用于解释所公开的实施例。

图1示出本公开实施例涉及的排序模型的自训练方法的一种流程图；

图2示出本公开实施例涉及的医疗文本的处理方法的一种流程图；

图3示出本公开实施例涉及的医疗文本的处理装置的一种架构图；

图4示出本公开各种实施例涉及的手术属性信息表。

具体实施方式

为了使得本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。

为了保持本公开实施例的以下说明清楚且简明，本公开省略了已知功能和已知部件的详细说明。

本公开涉及医疗文本的处理，用于针对医学信息的解析，以及手术信息的排序整理。在针对医疗文本处理过程中，对涉及到手术信息的整理，手术的编码的顺序是有要求的，尤其是第一手术信息的确定，直接关系到DRG分组的结果。一般临床医生在书写手术的时候是没注意手术顺序的，或者手术编码的顺序是错误的。需要考虑针对临床医生写的手术名称不够详细，以及数据中没有手术顺序的，或者手术编码的顺序是错误的各种情形，按自学习得到的规律进行排序。

作为方案之一，如图1所示，结合图4，本公开的实施例提供了一种排序模型的自训练方法，包括：

S101：获取具有排序标注的文本；

S102：提取文本中的医学特征信息；

S103：基于从文本中获取的手术信息，获取表征手术的属性信息；

S104：将所述医学特征信息和属性信息与排序标注构建关联关系，以能够基于所述关联关系将包含所述医学特征信息和属性信息的待排序文本中的手术项按所述排序标注的方式排序。

本公开的发明构思之一，旨在能够通过自训练方法训练排序模型，通过大量的训练掌握排序的能力，自学习到不同的病历下的排序顺序。

本公开各实施例可以应用于医疗文本的数据处理场景下，医疗文本中包含手术项，记载了手术名称等手术信息。

在一些实施例中，排序标注的过程可以由专业人工，例如医生解析病历以后，针对病历做手术排序标注，例如对病历中手术项内容做出具有顺序特征的标注“A1，A2，A3……”。优选的，为了实现大量的自训练样本，可以针对海量病历文本做出大量的具有排序标注的训练样本。

标注的依据并不限于特定的规则、因素，这是由于如果基于特定规则、特定排序因素会出现一些问题，导致出现规则没办法处理或者处理结果不正确的情况。例如，针对同一个手术，基于某些现有技术中的特定规则的排序过程，往往针对手术项会定义一个固定不变的手术费用，但是实际上一些手术因为手术过程中耗材数量不同价格会有非常大的变化，比如冠脉支架置入术的手续费就和支架的数量有关。针对不同大类的手术排序上，基于现有技术中的特定规则进行排序，有可能会得到比较满意的排序结果，比如心脏相关的手术和骨折的手术两者属于不同大类，在排序过程中是可以比较容易区分的。往往不容易区分的是都是同一类的细分手术项，比如都是治疗心梗的手术，就会需要考虑很多因素。

在此基础上，本公开的排序模型的自训练方法中，专业人工通过阅读原始病历，标注该病历对应的手术顺序，会根据主要诊断、用药情况、器械消耗等情况综合判断来进行标注。例如，针对A手术和B手术，患者入院的主要诊断是与A手术相关的病因，那么在本实施例的排序标注中，就将A手术标注在B手术之前。又如，针对A手术和B手术，消耗的器械是与A手术相关的，那么在本实施例的排序标注中，就将A手术标注在B手术之前。再如，针对A手术和B手术，主要的手术费用是与A手术相关的，那么在本实施例的排序标注中，就将A手术标注在B手术之前。以上所举实例，旨在说明本公开并非关注以特定规则、特定因素进行相应的排序，并没有绝对意义上的优先考虑因素，而是通过大量的训练集，通过排序模型的自训练来学习并摸索到满足本公开发明构思的排序规律。

在一些实施例中，本公开的所述提取文本中的医学特征信息，包括：

具体的，本公开各实施例旨在把各个维度的特征组合在一起，作为包括但不限于以深度神经网络模型在内构造的模型的输入。这些特征可以包括对病历文本中的诊疗经过、病程等内容进行特征提取获得相应的医学特征信息。例如，提取病历文本中疾病、病变部位、血压、检查项目、检验项目等在内的医学特征信息。

举例来说，可以借助文本识别模块，对病历文本中的医学信息进行识别、提取，例如提取到：

“疾病1：心绞痛，疾病2：高血压，疾病3：糖尿病；。。。；

病变部位1：心脏，病变部位2：肺；。。。；

血压：XX；体温：XXX；

检查项目1：心脏彩超；检查项目2：胸部CT。。。。；

检验项目1：ATL；检验项目2：白细胞计数。。。。；

住院天数：15；

药物1：XXX；药物2：XXXX；。。。。；

器械1：冠脉支架；器械2：XXX；。。。；

器械1梳理：2；器械2数量：1；。。。。；”

在一些实施例中，本公开的所述基于从文本中获取的手术信息，获取表征手术的属性信息，包括：

从文本中提取包含手术编码的手术名称；

对照手术属性信息表，获取所述属性信息；

其中：

所述手术属性表包括：

具体的，本实施例中标准手术信息、标准编码，可以采用ICD9-CM-3标准信息表中的标准词。每一条标准手术名称、标准手术编码都配置有相应的属性信息。

在一些实施例中，本公开的所述属性信息，包括以下至少一项：

手术类型信息；

手术等级信息；

手术费用信息。

具体的，以手术类型信息可以包括介入治疗、治疗性操作、诊断性操等这一类能够表征手术项所属类型的信息。手术类型可以分为“手术、介入治疗、诊断性操作”，可以结合临床操作经验和医学知识，以“介入治疗、治疗性操作、诊断性操作”为代表，构建手术属性表中的手术类型信息。

手术等级可以采用统一制定的四级手术分类标准，以“1、2、3、4”来量化手术等级，从而作为手术等级信息。

手术费用可以根据涉及到收费项目的每个手术进行归一编码，通过相应的费用金额作为手术费用信息。

结合前述内容以及排序标注示例，经过上述步骤，排序模型通过自训练就学习到了相关排序指示，在获取到了针对病历的医学特征信息、手术费用信息、手术类型信息、手术等级信息的前提下，进一步，根据模型通过自训练学习到的排序标注，例如前述“A1，A2，A3”的排序标注，在医疗文本存在相关医学特征信息、手术费用信息、手术登记信息、手术等级信息的情况下手术顺序的排序是A1，A2，A3。

本公开的手术信息编码的提取和解析过程，可以通过人工实现，也可以通过AI智能处理。

在一些实施例中，本公开的所述从文本中提取包含手术编码的手术名称，包括：

在一些实施例中，本公开的所述获得匹配关系，包括：将所述原始手术信息与标准手术信息表的每个标准词两两组合，分别计算匹配度；

所述基于匹配关系，筛选出分别包含原始手术信息和标准词的待处理手术信息，包括：在匹配度满足预设条件的情况下，将所述原始手术信息与标准手术信息表的标准词作为待处理手术信息。

具体的，本实施例的标准手术信息表可以通过ICD-9-CM-3标准表得到，通过ICD-9-CM-3标准表能够详细标定手术信息以及给出了相应的手术编码。

针对原始手术信息，和ICD-9-CM-3标准表中标准医学信息，或者称为标准词进行两两组合。例如，本实施例中的输入为手术医疗文本，其中原文中记录手术信息为

“手术名称：冠脉造影+PCI术

手术经过：术区常规消毒，铺无菌洞巾，右桡动脉穿刺成功，造影示：左主干正常，前降支7-8段80﹪狭窄，回旋支11段80﹪狭窄，右冠2-3段40﹪狭窄，PDA开口70﹪狭窄。PCI术：更换AL1guiding6F至左冠口，送BMW导丝至前降支远端，另一BMW至D2远端，送Tazuna2.0×15mm球囊于7-8段病变处以12-13atm扩张7-8秒，后于该处植入Firenbird3.0×20mm支架以14atm扩张8秒释放，3.5×18mm支架于7段12atm8秒释放，3.0×10mm后扩球囊扩张支架18atm7-8秒，BMW导丝至回旋支远端2.0×15mm球囊扩张回旋支病变16atm8秒，3.5×15mm支架于回旋支病变12atm8秒释放，重复造影示支架扩张良好，无残余狭窄，血流TIMI3级，撤除导管及鞘管，局部压迫止血，术毕”，

本实施例的标准手术信息表包括多行数据条目，包含主要编码、附加编码、手术名称、类别等信息。将上述输入的文本原文与标准手术信息表中的每条标准词两两组合，形成格式为“原文，标准词”的数据条目。例如形成

“1.(原文，非-药物洗脱冠状动脉支架置入)

2.(原文，冠状动脉药物涂层支架置入术)

3.(原文，药物洗脱冠状动脉支架置入)

……”这样的信息对(pair对)。

由于手术经过信息通过文本描述，其本身就是手术名称的细化内容，两者存在对应关系。基于这种对应关系，每个组合后的pair对就可以作为本实施例的一条训练数据。

对每一个这样形式的pair对组合计算匹配度，对匹配度低于预先设定阈值的组合，将其舍弃，不作为数据归一化对象。对匹配度满足预先设定阈值的组合，将其作为待选的归一化对象。

具体的，本实施例中匹配度的确定方式，可以基于原文和标准词各自所包含的字数进行计算，例如通过两者之间交集的字数以及两者并集的字数来计算匹配度，或者称为两者的相似度。以简单的文字数量举例说明，原文中包含“双侧甲状腺部分切除”，经过两两组合后的一个标准词为“甲状腺切开探查术”，两者的交集是“甲状腺切”，其字数是4个字，两者的并集为两个字符串的长度求和减去交集字数：9+8-4＝13，因此这一两两组合对的相似度为“4/13”。本实施例可以针对长文本手术经过，例如上千字的手术描述文字进行相似度判断。

在一些实施例中，本公开的所述通过分类算法，对所述待处理手术信息进行归一化处理，包括：

将所述待处理手术信息输入神经网络分类模型；

分析待处理手术信息中原始手术信息和标准词是否对应；

根据分析结果，将对应的原始手术信息和标准词进行归一化处理；

输出用于生成目标医疗文本的与原始手术信息对应的标准手术信息。

具体的，继续结合上述示例说明，假设以上述pair对作为待处理手术信息，本实施例可以将

“1.(原文，非-药物洗脱冠状动脉支架置入)

2.(原文，冠状动脉药物涂层支架置入术)

3.(原文，药物洗脱冠状动脉支架置入)

”

……

输入神经网络分类模型。本公开可以构建适配的神经网络分类模型，同时适应性的配置相应的架构以及神经元个数等方式，对待处理手术信息进行解析以及归一化处理。

例如，对其中每一组信息进行分类，判断来自于医疗文本的手术信息和从标准信息表中筛选出来的标准词是否具有相关或者相近的医学概念，例如两者是否存在包含关系。如果神经网络分类模型认为两者属于存在包含关系的情形，则神经网络分类模型输出相应的结果，例如输出“1”以表征肯定结论。如果神经网络分类模型认为两者不属于存在包含关系的情形，则神经网络分类模型输出相应的结果，例如输出“0”以表征否定结论。

为了优化神经网络分类模型的性能，在本公开的多种实施例中，可以通过优选预训练模型这一环节增加神经网络分类模型的性能。具体的，可以采集大规模的医疗预料数据，数据来源以手术信息为目标，包括但不限于：各医疗结构的医疗文本、各医学研究机构的医疗文本、各医疗信息系统中医疗数据、各种语言的医学教科书、医典、医疗论文、线上数据库中医疗数据、百科库、网站网页数据、论坛数据等。本公开的实施例中，可以构建预训练模型对采集的大规模医疗预料数据进行预训练，从而让模型从大规模的数据中学习各种医学知识，在此基础上能够应用到具体的任务重提升本公开的神经网络模型的性能。预训练模型包括但是不限于：BERT模型、XLNET模型、roBERTa等模型。

基于上述本实施例的神经网络分类模型，针对前述输入神经网络分类模型的“1.(原文，非-药物洗脱冠状动脉支架置入)

2.(原文，冠状动脉药物涂层支架置入术)

3.(原文，药物洗脱冠状动脉支架置入)

……”，可以输出与原文对应的标准手术信息。由于本公开能够借助ICD-9-CM-3表，这些标准手术信息可以包括标准手术名称，标准手术名称编码等信息，例如输出：

“1.36.0700|药物洗脱冠状动脉支架置入

2.00.6600×004|经皮冠状动脉球囊扩张成形术

3.00.4700|置入三根血管的支架

4.88.5700|其他和未特指的冠状动脉造影术”

直观地能够理解，通过本实施例神经网络分类模型输出的上述结果，就能够得到本次手术的准确信息描述，包含了关于是什么类型的支架，实际植入了几根支架，以及患者还做了经皮冠状动脉球囊扩张成形术等这些详细内容。

在一些实施例中，本公开的所述神经网络分类模型，基于预训练得到，所述预训练的方式，包括：

采集包含原始手术信息的医疗文本；

提取原始手术信息中的手术名称信息和手术经过信息；

将所述手术经过信息与手术名称库中的标准词组合，所述手术名称库基于所述手术名称信息构建，包含原始手术信息的原始手术名称和标准手术名称；

将组合后的所述手术经过信息与手术名称库中的标准词，作为训练数据训练预训练模型；

基于所述预训练模型得到所述神经网络分类模型。

具体的，本公开的实施例可以基于满足训练的足够数据量，例如一次或多次批量性、批次性或者是海量的采集包含原始手术信息的医疗文本，来构建以及迭代训练本公开所涉及的训练模型。

在一些实施方案中，本公开的所述手术名称库的构建方式，包括：

将所述手术名称信息输入编码手术名称的神经网络模型，以从手术名称信息中提取标准的手术名称编码；

基于所述手术名称信息和标准的手术名称编码，构建包含原始手术名称和编码后的标准手术名称的手术名称库。

具体的，以手术名称为“冠脉造影+PCI术”，可以优选地通过编码手术名称的神经网络模型，从医疗文本中的手术名称文本中提取ICD标准的手术名称编码，结合手术名称“冠脉造影+PCI术”，根据原始手术名称文本编码的结果

“1.其他和未特指的冠状动脉造影术

2.非-药物洗脱冠状动脉支架置入”

构建本实施例的手术名称库，其中包含原始手术名称，以及编码后的标准手术名称。

本实施例的神经网络分类模型则可以使用任何其他的分类模型，包括但不限于：CNN、LSTM、transformer等模型。在一些实施例中基于预训练模型finetune，模型收敛更快，性能有2％的提升。

在一些实施例中，本公开的所述标准手术信息表的构建方式，包括：基于对ICD标准表的标注构建，标注的结果包括根据手术名称和经过编码的结果。结合前述内容，本实施例可以基于标注结果构建标准信息表，包含主要编码、附加编码、手术名称、类别等信息。

在一些方面，本公开各实施例针对病历首页信息中针对手术内容描述的手术信息，可以在基于深度学习训练的分句模型处理的情况下，以标准医学信息为指引，能够从M个原始手术信息中解析出N个第一手术信息。本公开更关注于针对原始医疗文本包含多个原始医学信息的情况，即至少针对M≥2的场景，从M个原始医学信息中解析出N个第一手术信息，解析出来的第一手术信息的数量N，从理论上可以等于M，可以小于M，当然在一些方面可以大于M，只要符合医学概念以及临床诊断意义即可。

在一些实施例中，本公开的所述深度学习训练的分句模型的构建方式，包括：

提取医疗文本；

对这些医疗文本分别进行分句，得到包含原始文本和分句后文本的二元组；

迭代训练模型。

具体的，本实施例的医疗文本以记录手术内容、手术名称等针对手术操作的手术数据为例，手术数据无法通过规则方式完成分句，只存在特定场景下适用的规则，而场景的区分需要医学判断。因此，本实施例中可以采用分句模型进行分句操作。分句模型可以基于深度学习训练构建，具体可以通过由专业人工以手术金标准为基础标注一批数据，将原始的包含手术名称的数据进行分句，得到数据二元组实例，二元组可以包括原始文本和分句后文本，例如形成“原始文本，一段或多段分句后的文本”数据格式的二元组。基于满足训练的足够数据量，例如一次或多次批量性、批次性或者是海量标注的二元组，即可训练本实施例的分句模型。

在一些实施例中，本公开的所述对这些医疗文本进行分句，包括：

根据医疗文本所包含的特定标识进行分句。

针对输入为“手术名称：双侧甲状腺部分切除+左上甲状旁腺腺瘤切除+右乳腺体区段切除”，在标注分句过程中，认为这一段手术数据中，以“+”号作为这一段手术数据中的特定标识对手术信息进行了分隔，其中体现出来的手术信息有“手术名称：双侧甲状腺部分切除、左上甲状旁腺腺瘤切除、右乳腺体区段切除”。在这段输入的手术数据中，没有需要跨加号“+”延续的信息，从医学诊断角度分析，每个加号前后都是独立、完整的手术名称，可以通过分句缩短句子的长度。因此，分句结果可以认为是分成三个分句对象“双侧甲状腺部分切除”、“左上甲状旁腺腺瘤切除”、“右乳腺体区段切除”。

解析医疗文本包含的医学信息；

根据医学信息的语义，确定出存在关联关系的医学信息；

基于存在关联关系的医学信息，确定分句对象。

具体的，由于手术数据录入或者记载过程中会出现习惯性书写或者简写的情况，导致数据中包含的手术信息前后存在关联，但是从字面上又显现为存在分隔形式，由此难以判断其中包含的准确手术信息。本实施例通过解析出医学信息中各部分的医学信息的语义，提取这些医学信息在医学概念上的表征内容，根据所有表征内容判断其中是否存在关联关系，例如手术信息1和手术信息2是否存在相互包含的关系，又如手术信息1至手术信息n之间是否存在共用信息，再如手术信息1至手术信息x之间是否存在相悖信息等。

举例来说，输入的医疗文本包括“腹腔镜下全子宫+双侧附件切除术”，如果采用规则分句，那么其中包含了“+”这一标识，则通过分句解析出的分句结果即为“腹腔镜下全子宫”和“双侧附件切除术”。结合医学概念，可以确定的是“腹腔镜下全子宫”这一手术信息只能够表述“腹腔镜和部位”，而无法明确具体的术式。另外，“双侧附件切除术”这一手术信息则缺失了手术操作信息，比如“腹腔镜”这一信息。在这种情况下，如果按特征标识以分隔形式来分句，虽然输入的医疗文本“腹腔镜下全子宫+双侧附件切除术”中完整地包含了各种手术能够涉及到的信息，但按照规则分句的分句结果是错误的，会使得最终手术标准名称转换错误，无法准确、详尽并且智能地表达手术过程的准确信息，也就无法符合实际的语义。如果采用本实施例的分句模型，针对“腹腔镜下全子宫+双侧附件切除术”按实际语义进行分句，分句模型在训练阶段学习到了相关知识，在此就能够判断这里的“+”并不是分句标志，从而不会按照“+”分句。

又比如，输入的医疗文本包含“VATS右肺上叶切除+右肺中叶和右肺下叶楔形切除+胸膜粘连烙断术+胸导管结扎术”，分句模型在训练阶段学习到了相关知识，在此就能够判断句首的“VATS”胸腔镜这一信息需要向后延续，在此就能够判断这里的“+”并不是分句标志，从而不会按照“+”分句。

作为优选的方案，本公开的所述根据所述第一手术信息与标准医学信息的匹配结果，得到第二医疗文本，包括：将每个第一手术信息与每个标准医学信息两两组合；分别计算匹配度，匹配度的确定方式，可以基于分句和标准词各自所包含的字数进行计算，例如通过两者之间交集的字数以及两者并集的字数来计算匹配度，或者称为两者的相似度。

在此基础上，构建出例如“1.(双侧甲状腺部分切除,甲状腺切开探查术)/2.(双侧甲状腺部分切除,单侧甲状腺部分切除术/3.(双侧甲状腺部分切除,双侧甲状腺部分切除术)/4.(双侧甲状腺部分切除术,甲状腺大部切除术)/5.……”的数据，本公开的解析所述这些数据，通过归一化处理得到关于手术信息的标准化信息，具体为通过神经网络分类模型实现，包括：

解析所述第二医疗文本包含的每一组第一手术信息与标准医学信息；

基于神经网络分析每一组第一手术信息与标准医学信息是否对应；

输出分析结果，将对应的第一手术信息与标准医学信息作为归一化结果。

具体的，继续结合上述示例，本公开可以构建神经网络分类模型，配置相应的架构以及神经元个数等方式，对第二医疗文本进行解析以及归一化处理。针对例如形式为“1.(双侧甲状腺部分切除,甲状腺切开探查术)/2.(双侧甲状腺部分切除,单侧甲状腺部分切除术/3.(双侧甲状腺部分切除,双侧甲状腺部分切除术)/4.(双侧甲状腺部分切除术,甲状腺大部切除术)/5.……”的第二医疗文本，对其中每一组信息进行分类，判断来自于原始的第一医疗文本和从标准信息表中筛选出来的标准词是否具有相关或者相近的医学概念，例如两者是否存在包含关系。如果神经网络分类模型认为两者属于存在包含关系的情形，则神经网络分类模型输出相应的结果，例如输出“1”以表征肯定结论。如果神经网络分类模型认为两者不属于存在包含关系的情形，则神经网络分类模型输出相应的结果，例如输出“0”以表征否定结论。

在本公开的多种实施例中，可以通过优选预训练模型这一环节增加神经网络分类模型的性能。具体的，可以采集大规模的医疗预料数据，数据来源包括但不限于：各医疗结构的病历数据、各医学研究机构的医疗文本、各医疗信息系统中医疗数据、各种语言的医学教科书、医典、医疗论文、线上数据库中医疗数据、百科库、网站网页数据、论坛数据等。本公开的实施例中，可以构建预训练模型对采集的大规模医疗预料数据进行预训练，从而让模型从大规模的数据中学习各种医学知识，在此基础上能够应用到具体的任务重提升本公开的神经网络模型的性能。预训练模型包括但是不限于：BERT模型、XLNET模型、roBERTa等模型。

再具体到本公开各实施例的神经网络分类模型，结合前述内容实现完成最终的分类，判断原始医疗文本和待选标准词是不是表征同一个医学信息概念，例如手术信息之间是否存在重叠描述、相悖描述、缺失描述等。如果采用本公开实施例的预训练模型，那么本实施例中的神经网络分类模型基本上和预训练模型可以是一致的，需要用预训练的模型来初始化本实施例的神经网络分类模型。如果在不采用预训练模型的情况下，本实施例的神经网络分类模型则可以使用任何其他的分类模型，包括但不限于：CNN、LSTM、transformer等模型。

进一步的，本公开的所述输出分析结果，将对应的第一手术信息与标准医学信息作为归一化结果，包括：以标准医学信息的格式，表征第一手术信息；输出本公开各实施例的手术编码。

具体的，继续结合上述内容，在本实施例的神经网络分类模型输出相应的结果基础上，针对输出结果为肯定结论的组合，本实施例可以提取ICD-9-CM-3标准表中的手术名称以及手术编码，对原始输入的手术数据进行统一化表达处理。针对上述原始输入的“双侧甲状腺部分切除”、“左上甲状旁腺腺瘤切除”、“右乳腺体区段切除”，本实施例从ICD-9-CM-3标准表中提取“手术编码手术名称”对这些信息分别进行更新，表现为输出目标医疗文本：

“1.06.3900×012|双侧甲状腺部分切除术

2.06.8903|甲状旁腺病损切除术

3.85.2100×019|乳房腺体区段切除术”

对照于原始输入的手术数据，可以看到，通过本实施例输出的目标医疗文本，完整、详细地依照统一化表达方式，得到了本公开病历首页信息中手术信息的编码。

在一些实施例中，本公开的自训练方法，还包括：基于海量获取的具有排序标注的文本，迭代进行训练。本实施例通过重复上述过程，模型就会学习了不同的病历下的排序顺序，这个过程没有规则，是模型通过大量的训练掌握排序的能力的过程。

作为本公开的方案之一，本公开还提供了一种排序模型，所述排序模型根据如上述的各实施例中的自训练方法训练得到。

作为本公开的方案之一，如图2所示，结合图4，本公开还提供了一种基于如上述的排序模型的医疗文本的处理方法，包括：

S201：获取包含手术项的文本；

S202：提取该文本中的医学特征信息；

S203：基于从该文本中获取的手术信息，获取表征手术的属性信息；

S204：根据所述医学特征信息和属性信息，按照所述关联关系对该文本的手术项排序。

具体的，结合前述示例，本实施例中获取包含手术项的文本，通过提取该文本中的医学特征信息，基于从该文本中获取的手术信息，获取表征手术的，包括手术等级信息、手术费用信息、手术类型信息在内的属性信息，以如下为例说明

“(手术等级：1级；手术类型：治疗性操作；手术费用：2000；

疾病1：心绞痛，疾病2：高血压，疾病3：糖尿病；。。。；

病变部位1：心脏，病变部位2：肺；。。。；

血压：XX；体温：XXX；

检查项目1：心脏彩超；检查项目2：胸部CT。。。。；

检验项目1：ATL；检验项目2：白细胞计数。。。。；

住院天数：15；

药物1：XXX；药物2：XXXX；。。。。；

器械1：冠脉支架；器械2：XXX；。。。；

器械1梳理：2；器械2数量：1；。。。。；)”

通过本实施例的处理方法，结合排序模型自训练学习到的关联知识，就可以针对上述手术项，按照排序模型在自训练过程学习到的排序标注的内容排序，并输出相应排序后的手术项。

本实施例旨在基于重复上述自训练学习过程的排序模型，学习到了不同的病历下的排序顺序，这是模型通过大量的训练掌握排序的能力的过程。那么在处理医疗本文的过程中，针对输入的待排序病历，模型就自动提取待排序病历的特征、手术费用信息、手术类型信息、手术等级信息，结合学习到的排序标注，得到排序后的文本。

作为本公开的方案之一，如图3所示，结合图4，本公开还提供了一种基于如上述的排序模型的医疗文本的处理装置，包括：

文本输入模块，其配置为用于获取包含手术项的文本；

提取模块，其配置为用于提取该文本中的医学特征信息；

排序模块，其配置为用于根据所述医学特征信息和属性信息，按照所述关联关系对该文本的手术项排序。

结合前文所述示例：

在一些实施例中，本公开的获取单元，可以为输入设备、屏幕截取装置、文本识别装置等，旨在实现能够获取包含有手术信息的医疗文本，可以包括病历数据，所述病历数据包含：病历文本信息；和/或病历首页信息。

在一些实施例中，本公开的提取模块，可以进一步配置为：基于文本中以下至少一项信息，提取文本中的医学特征信息：

在一些实施例中，本公开的获取模块，可以进一步配置为：

从文本中提取包含手术编码的手术名称；

对照手术属性信息表，获取所述属性信息；

其中：

所述手术属性表包括：

进一步的，所述所述从文本中提取包含手术编码的手术名称，包括：

具体来说，本公开的发明构思之一，旨在通过获取具有排序标注的文本；提取文本中的医学特征信息；基于从文本中获取的手术信息，获取表征手术的属性信息；将所述医学特征信息和属性信息与排序标注构建关联，以能够将包含所述医学特征信息和属性信息的文本中的手术项按所述排序标注的方式排序；以及在上述训练方法基础上，获取包含手术项的文本；提取该文本中的医学特征信息；基于从该文本中获取的手术信息，获取表征手术的属性信息；根据所述医学特征信息和属性信息，按照所述关联对该文本的手术项排序，从而能够在提取医疗文本中的多个手术信息的基础上，对完整医疗文本进行处理，结合从医疗文本中提取的医学特征信息得到有序的手术信息。本公开通过上述处理方法，不仅仅实现把临床医生写出来的临床诊断和手术名称编码到标准的术语上，针对临床医生写的手术名称不够详细，以及文本中没有手术顺序的，或者手术编码的顺序是错误的，还能够智能地结合病历文书进行细化和完善，结合从医疗文本中提取的医学特征信息输出有序的主要手术，完整、准确、高效地表达各种医学信息，从而提升医学研究、医疗诊治的精确性和效率。

作为本公开的方案之一，本公开还提供了一种计算机可读存储介质，其上存储有计算机可执行指令，所述计算机可执行指令由处理器执行时，主要实现根据上述的排序模型的自训练方法，至少包括：

获取具有排序标注的文本；

提取文本中的医学特征信息；

基于从文本中获取的手术信息，获取表征手术的属性信息；

将所述医学特征信息和属性信息与排序标注构建关联，以能够将包含所述医学特征信息和属性信息的文本中的手术项按所述排序标注的方式排序。

作为本公开的方案之一，本公开还提供了一种计算机可读存储介质，其上存储有计算机可执行指令，所述计算机可执行指令由处理器执行时，主要实现根据上述的医疗文本的处理方法，至少包括：

获取包含手术项的文本；

提取该文本中的医学特征信息；

根据所述医学特征信息和属性信息，按照所述关联对该文本的手术项排序。

在一些实施例中，执行算机可执行指令处理器可以是包括一个以上通用处理设备的处理设备，诸如微处理器、中央处理单元(CPU)、图形处理单元(GPU)等。更具体地，该处理器可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、运行其他指令集的处理器或运行指令集的组合的处理器。该处理器还可以是一个以上专用处理设备，诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、片上系统(SoC)等。

在一些实施例中，计算机可读存储介质可以为存储器，诸如只读存储器(ROM)、随机存取存储器(RAM)、相变随机存取存储器(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、电可擦除可编程只读存储器(EEPROM)、其他类型的随机存取存储器(RAM)、闪存盘或其他形式的闪存、缓存、寄存器、静态存储器、光盘只读存储器(CD-ROM)、数字通用光盘(DVD)或其他光学存储器、盒式磁带或其他磁存储设备，或被用于储存能够被计算机设备访问的信息或指令的任何其他可能的非暂时性的介质等。

在一些实施例中，计算机可执行指令可以实现为多个程序模块，多个程序模块共同实现根据本公开中任何一项所述的医学影像的显示方法。

本公开描述了各种操作或功能，其可以实现为软件代码或指令或者定义为软件代码或指令。显示单元可以实现为在存储器上存储的软件代码或指令模块，其由处理器执行时可以实现相应的步骤和方法。

这样的内容可以是可以直接执行(“对象”或“可执行”形式)的源代码或差分代码(“delta”或“patch”代码)。这里描述的实施例的软件实现可以通过其上存储有代码或指令的制品提供，或者通过操作通信接口以通过通信接口发送数据的方法提供。机器或计算机可读存储介质可以使机器执行所描述的功能或操作，并且包括以可由机器(例如，计算显示设备、电子系统等)访问的形式存储信息的任何机制，例如可记录/不可记录介质(例如，只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质、闪存显示设备等)。通信接口包括与硬连线、无线、光学等介质中的任何一种接口以与其他显示设备通信的任何机制，例如存储器总线接口、处理器总线接口、因特网连接、磁盘控制器等。通信接口可以通过提供配置参数和/或发送信号来配置以准备通信接口，以提供描述软件内容的数据信号。可以通过向通信接口发送一个或多个命令或信号来访问通信接口。

本公开的实施例的计算机可执行指令可以组织成一个或多个计算机可执行组件或模块。可以用这类组件或模块的任何数量和组合来实现本公开的各方面。例如，本公开的各方面不限于附图中示出的和本文描述的特定的计算机可执行指令或特定组件或模块。其他实施例可以包括具有比本文所示出和描述的更多或更少功能的不同的计算机可执行指令或组件。

以上描述旨在是说明性的而不是限制性的。例如，上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外，在上述具体实施方式中，各种特征可以被分组在一起以简单化本公开。这不应解释为一种不要求保护的公开的特征对于任一权利要求是必要的意图。相反，本公开的主题可以少于特定的公开的实施例的全部特征。从而，以下权利要求书作为示例或实施例在此并入具体实施方式中，其中每个权利要求独立地作为单独的实施例，并且考虑这些实施例可以以各种组合或排列彼此组合。本公开的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。

以上实施例仅为本公开的示例性实施例，不用于限制本公开，本公开的保护范围由权利要求书限定。本领域技术人员可以在本公开的实质和保护范围内，对本公开做出各种修改或等同替换，这种修改或等同替换也应视为落在本公开的保护范围内。

Claims

1.排序模型的自训练方法，包括：

获取具有排序标注的文本；

提取文本中的医学特征信息；

基于从文本中获取的手术信息，获取表征手术的属性信息；

2.根据权利要求1所述的方法，其中，所述提取文本中的医学特征信息，包括：

3.根据权利要求2所述的方法，其中，所述基于从文本中获取的手术信息，获取表征手术的属性信息，包括：

从文本中提取包含手术编码的手术名称；

对照手术属性信息表，获取所述属性信息；

其中：

所述手术属性表包括：

4.根据权利要求3所述的方法，其中，所述属性信息，包括以下至少一项：

手术类型信息；

手术等级信息；

手术费用信息。

5.根据权利要求3所述的方法，其中，所述从文本中提取包含手术编码的手术名称，包括：

6.根据权利要求1至5中任一项所述的方法，还包括：

基于海量获取的具有排序标注的文本，迭代进行训练。

7.排序模型，其特征在于，所述排序模型根据如权利要求1至6中任一项所述的方法训练得到。

8.基于如权利要求7所述的排序模型的医疗文本的处理方法，包括：

获取包含手术项的文本；

提取该文本中的医学特征信息；

9.基于如权利要求7所述的排序模型的医疗文本的处理装置，包括：

文本输入模块，其配置为用于获取包含手术项的文本；

提取模块，其配置为用于提取该文本中的医学特征信息；

10.一种计算机可读存储介质，其上存储有计算机可执行指令，所述计算机可执行指令由处理器执行时，实现：

根据权利要求1至6任一项所述的排序模型的自训练方法；或者

根据权利要求8所述的医疗文本的处理方法。