CN112927806B - 病历结构化网络跨疾病迁移训练方法、装置、介质及设备 - Google Patents

病历结构化网络跨疾病迁移训练方法、装置、介质及设备 Download PDF

Info

Publication number
CN112927806B
CN112927806B CN201911235743.6A CN201911235743A CN112927806B CN 112927806 B CN112927806 B CN 112927806B CN 201911235743 A CN201911235743 A CN 201911235743A CN 112927806 B CN112927806 B CN 112927806B
Authority
CN
China
Prior art keywords
medical record
disease
text sequence
entity
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911235743.6A
Other languages
English (en)
Other versions
CN112927806A (zh
Inventor
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Golden Panda Ltd
Original Assignee
Golden Panda Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Golden Panda Ltd filed Critical Golden Panda Ltd
Priority to CN201911235743.6A priority Critical patent/CN112927806B/zh
Publication of CN112927806A publication Critical patent/CN112927806A/zh
Application granted granted Critical
Publication of CN112927806B publication Critical patent/CN112927806B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本公开提供了一种病历结构化网络跨疾病迁移训练方法、装置、存储介质及电子设备,该方法包括:获取第一疾病的病历数据,其中,所述第一疾病的病历数据包括所述第一疾病的病历文本序列及其各个元素的标准标签,所述标准标签包括实体标签和非实体标签;获得所述非实体标签对应的所述第一疾病的病历文本序列中的各个元素;确定所述非实体标签对应的所述第一疾病的病历文本序列中的各个元素的标签排列集,其中所述标签排列集中包括至少一个所述非实体标签对应的所述第一疾病的病历文本序列中的各个元素的标签排列;根据所述第一疾病的病历文本序列、所述实体标签和所述标签排列集训练病历结构化网络,获得目标病历结构化网络,实现新旧疾病迁移学习。

Description

病历结构化网络跨疾病迁移训练方法、装置、介质及设备
技术领域
本公开涉及病历数据处理领域,具体而言,涉及一种病历结构化网络跨疾病迁移训练方法、装置、计算机可读存储介质及电子设备。
背景技术
在临床疾病研究和药物研发中,从非结构化的原始病历文本中抽取病人的关键信息,以结构化字段的形式输出为临床试验观察表具有极其重要的作用。将从非结构化的原始病历文本中抽取关键信息,然后以表格状组织形式输出病历文本的过程称为病历结构化。病历文本中的关键信息主要为实体,如疾病指标、检测手段等等。在相关技术中,通常采用基于词典和规则方法进行病历结构化,涉及到实体识别、实体归类、关系识别等一系列信息抽取技术。
在对具有部分相同指标的新旧疾病文本进行结构化时,可利用已有疾病大量的标注数据辅助新疾病的结构化。但跨疾病结构化时由于不同疾病的领域知识和文本表述方式具有一定差异,需要进行迁移学习。所谓迁移学习即为将一个领域学习到的知识/模型应用到其他领域的过程。例如将乳腺癌病历文本已有的大量的标注数据、模型和知识,需要通过迁移策略才能应用到肺癌病历文本的结构化中。而相关技术中基于词典和规则的结构化方法,由于已有疾病和新疾病的词典和规则不同,无法直接进行迁移学习。
另一些相关技术中采用标签映射(Label Mapping)方法进行迁移学习,即在新旧标签集具有差异的情况下基于已有数据直接学习标签映射矩阵,但该迁移学习方法忽略了新旧数据的领域相似性,特别是在医疗领域,在不同疾病文本之间的迁移学习时,忽略不同疾病之间的相似性则降低了迁移学习的效率。
如上所述,如何利用已有疾病大量的标注数据辅助新疾病的结构化以及利用疾病之间的相似性提高迁移学习的效率成为亟待解决的问题。
在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开实施例提供一种病历结构化网络跨疾病迁移训练方法、装置、计算机可读存储介质及电子设备,能够利用已有疾病大量的标注数据辅助新疾病的结构化以及利用疾病之间的相似性提高迁移学习的效率。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一方面,提供一种病历结构化网络跨疾病迁移训练方法,包括:获取第一疾病的病历数据,其中,所述第一疾病的病历数据包括所述第一疾病的病历文本序列及其各个元素的标准标签,所述标准标签包括实体标签和非实体标签;获得所述非实体标签对应的所述第一疾病的病历文本序列中的各个元素;确定所述非实体标签对应的所述第一疾病的病历文本序列中的各个元素的标签排列集,其中所述标签排列集中包括至少一个所述非实体标签对应的所述第一疾病的病历文本序列中的各个元素的标签排列;根据所述第一疾病的病历文本序列、所述实体标签和所述标签排列集训练病历结构化网络,获得目标病历结构化网络。
根据本公开的一实施例,所述方法还包括:通过所述目标病历结构化网络对第二疾病的病历文本序列进行处理,获得所述第二疾病的病历文本序列的标签;根据所述第二疾病的病历文本序列的标签获得所述第二疾病的病历文本序列的结构化结果。
根据本公开的一实施例,所述通过所述目标病历结构化网络根据第二疾病的病历文本序列获得第二疾病的病历文本序列的标签,包括:将所述第二疾病的病历文本序列输入所述目标病历结构化网络;所述目标病历结构化网络基于似然估计函数输出所述第二疾病的病历文本序列的标签;其中,所述似然估计函数表示为
Figure BDA0002304824040000031
其中,
Figure BDA0002304824040000032
用于表示所述第二疾病的病历文本序列;
Figure BDA0002304824040000033
用于表示所述第二疾病的病历文本序列的标签,
Figure BDA0002304824040000034
用于表示将
Figure BDA0002304824040000035
输入所述目标病历结构化网络后,输出为
Figure BDA0002304824040000036
的概率。
根据本公开的一实施例,根据所述第一疾病的病历文本序列、所述实体标签和所述标签排列集训练病历结构化网络,包括:基于优化函数并根据所述第一疾病的病历文本序列、所述实体标签和所述标签排列集更新所述病历结构化网络的参数;其中,所述优化函数表示为:
Figure BDA0002304824040000037
其中,
Figure BDA0002304824040000038
用于表示所述第一疾病的病历文本序列;
Figure BDA0002304824040000039
用于表示所述至少一个所述非实体标签对应的所述第一疾病的病历文本序列中的各个元素的标签排列,s用于表示所述标签排列集;
Figure BDA00023048240400000310
用于表示所述实体标签的排列,
Figure BDA00023048240400000311
用于表示将
Figure BDA00023048240400000312
输入所述病历结构化网络中,输出为
Figure BDA00023048240400000313
Figure BDA00023048240400000314
的组合的概率。
根据本公开的一实施例,在所述获取第一疾病的病历数据之前,还包括:获取所述第一疾病的初始病历数据,其中,所述初始病历数据包括所述第一疾病的病历文本序列和所述第一疾病的病历文本序列中各个元素的初始标准标签,所述初始标准标签包括初始实体标签和初始非实体标签;将所述初始非实体标签对应的所述第一疾病的病历文本序列中的至少一个元素重新标注为实体,获得所述第一疾病的病历数据,其中,所述实体标签的个数大于初始实体标签的个数。
根据本公开的一实施例,所述将所述初始非实体标签对应的所述第一疾病的病历文本序列中的至少一个元素重新标注为实体,包括:基于词典和规则将所述初始非实体标签对应的所述第一疾病的病历文本序列中的至少一个元素重新标注为实体。
根据本公开的一实施例,所述将所述初始非实体标签对应的所述第一疾病的病历文本序列中的至少一个元素重新标注为实体,包括:通过标注模型将所述初始非实体标签对应的所述第一疾病的病历文本序列中的至少一个元素重新标注为实体。
根据本公开的再一方面,提供一种病历结构化网络跨疾病迁移训练装置,包括:数据获取模块,用于获取第一疾病的病历数据,其中,所述第一疾病的病历数据包括所述第一疾病的病历文本序列及其各个元素的标准标签,所述标准标签包括实体标签和非实体标签;元素获取模块,用于获得所述非实体标签对应的所述第一疾病的病历文本序列中的各个元素;标签排列模块,用于确定所述非实体标签对应的所述第一疾病的病历文本序列中的各个元素的标签排列集,其中所述标签排列集中包括至少一个所述非实体标签对应的所述第一疾病的病历文本序列中的各个元素的标签排列;网络训练模块,用于根据所述第一疾病的病历文本序列、所述实体标签和所述标签排列集训练病历结构化网络,获得目标病历结构化网络。
根据本公开的再一方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种病历结构化网络跨疾病迁移训练方法。
根据本公开的再一方面,提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任一种病历结构化网络跨疾病迁移训练方法。
根据本公开某些实施例提供的方法,通过获得第一疾病的病历数据中标注非实体标签的病历文本元素后,确定标注非实体标签的病历文本元素的可能的标签排列组成的标签排列集,再根据病历文本序列、实体标签和标签排列集训练病历结构化网络而获得目标病历结构化网络,从而可实现利用已有疾病的标注数据训练新疾病的病历结构化网络,辅助新疾病的结构化迁移学习。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。
图1是根据一示例性实施例示出的一种病历结构化网络跨疾病迁移训练方法的流程图。
图2是根据一示例性实施例示出的另一种结构化病历数据的跨疾病迁移方法的流程图。
图3是根据一示例性实施例示出的再一种病历结构化网络跨疾病迁移训练方法的流程图。
图4是根据一示例性实施例示出的一种病历结构化网络跨疾病迁移训练装置的框图。
图5是根据一示例性实施例示出的一种的病历结构化网络跨疾病迁移训练设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施例使得本公开将更加全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。符号“/”一般表示前后关联对象是一种“或”的关系。
在本公开中,除非另有明确的规定和限定,“连接”等术语应做广义理解,例如,可以是电连接或可以互相通讯;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本公开中的具体含义。
如上所述,因相关技术中基于词典和规则的结构化方法,由于已有疾病和新疾病的词典和规则不同,无法直接进行迁移学习。因此,本公开提供了一种病历结构化网络跨疾病迁移训练方法,通过获得第一疾病的病历数据中标注非实体标签的病历文本元素后,确定标注非实体标签的病历文本元素的可能的标签排列组成的标签排列集,再根据病历文本序列、实体标签和标签排列集训练病历结构化网络而获得目标病历结构化网络,从而可实现利用已有疾病的标注数据训练新疾病的病历结构化网络,辅助新疾病的结构化迁移学习。
图1是根据一示例性实施例示出的一种病历结构化网络跨疾病迁移训练方法的流程图。如图1所示的方法例如可以应用于病历结构化网络跨疾病迁移训练系统的服务器端,也可以应用于系统的终端设备。
参考图1,本公开实施例提供的方法10可以包括以下步骤。
在步骤S102中,获取第一疾病的病历数据,其中,第一疾病的病历数据包括第一疾病的病历文本序列及其各个元素的标准标签,标准标签包括实体标签和非实体标签。
具体地,第一疾病为已有大量病历文本及标注的旧疾病,例如,对于旧疾病为乳腺癌的病历数据,病历文本序列
Figure BDA0002304824040000061
及标准标签序列
Figure BDA0002304824040000062
为:
Figure BDA0002304824040000063
Figure BDA0002304824040000071
在标签序列中,B表示一个实体的起始位置,I表示实体的非起始位置,O表示非实体。由于在乳腺癌疾病中不关注EGFR指标,因此将EGFR及其值标注为非实体标签。
在步骤S104中,获得非实体标签对应的第一疾病的病历文本序列中的各个元素。
具体地,例如,乳腺癌病历文本序列中标注为非实体的元素包括(,),。,E,F,G,R,(,+,),等等。
在步骤S106中,确定非实体标签对应的第一疾病的病历文本序列中的各个元素的标签排列集,其中标签排列集中包括至少一个非实体标签对应的第一疾病的病历文本序列中的各个元素的标签排列。
具体地,为了根据第一疾病已标注的数据迁移到第二疾病的病历结构化网络的训练中,获得第一疾病的标签为非实体的元素的所有可能的实体与非实体标签的组合,即在迁移过程中增加了适用于第二疾病的标签序列。例如,一个可选的非实体标签对应的第一疾病的病历文本序列
Figure BDA0002304824040000081
中的各个元素的标签排列
Figure BDA0002304824040000082
为:
Figure BDA0002304824040000083
虽然在乳腺癌疾病中不关注EGFR指标,若第二疾病即新疾病为肺癌时,肺癌则需关注EGFR指标,因此在迁移过程中增加了适用于第二疾病的文本-标签数据。
在步骤S108中,根据第一疾病的病历文本序列、实体标签和标签排列集训练病历结构化网络,获得目标病历结构化网络。
具体地,例如,病历结构化网络可采用双向长短期记忆网络与条件随机场算法模型。
可选地,基于优化函数并根据第一疾病的病历文本序列、实体标签和标签排列集更新病历结构化网络的参数,其中,优化函数与双向长短期记忆网络与条件随机场算法模型相连接,优化函数采用最大似然估计方法,可以表示为:
Figure BDA0002304824040000084
其中,
Figure BDA0002304824040000085
用于表示第一疾病的病历文本序列;
Figure BDA0002304824040000086
用于表示至少一个非实体标签对应的第一疾病的病历文本序列中的各个元素的标签排列,s用于表示标签排列集;
Figure BDA0002304824040000091
用于表示实体标签的排列,
Figure BDA0002304824040000092
用于表示将
Figure BDA0002304824040000093
输入病历结构化网络中,输出为
Figure BDA0002304824040000094
Figure BDA0002304824040000095
的组合的概率。
在一些实施例中,例如,将乳腺癌病历文本标注迁移到肺癌的学习中,一个可选的病历文本序列
Figure BDA0002304824040000096
与其对应的
Figure BDA0002304824040000097
组合为:
Figure BDA0002304824040000098
采用上述方法考虑到了第一疾病数据中标签为非实体O的文本元素在第二疾病中的可能标注为B或I的实体标签,在优化函数中放开对标签为非实体O的文本元素的标准标签需为O的限制,允许该元素的标签取O或者所有未在第一疾病中出现标注为B或I的实体标签,解决由于已有疾病和新疾病的词典和规则不同而无法直接进行迁移学习问题。
本领域技术人员可根据需要选择病历结构化网络的模型和优化函数的具体形式,本公开不做限制。
根据本公开实施例提供的病历结构化网络跨疾病迁移训练方法,通过考虑到第一疾病数据中标签为非实体O的文本元素在第二疾病中的可能标注为B或I的实体标签,在训练第二疾病的病历结构化网络时,病历结构化网络优化函数中放开对标签为非实体O的文本元素的标准标签需为O的限制,允许该元素的标签取O或者所有未在第一疾病中出现标注为B或I的实体标签,解决由于已有疾病和新疾病的词典和规则不同而无法直接进行迁移学习问题,从而可实现利用已有疾病的标注数据训练新疾病的病历结构化网络,辅助新疾病的结构化迁移学习。
图2是根据一示例性实施例示出的一种结构化病历数据的跨疾病迁移方法的流程图。如图2所示的方法例如可以应用于结构化病历数据的跨疾病迁移系统的服务器端,也可以应用于系统的终端设备。
参考图2,本公开实施例提供的方法20可以包括以下步骤。
在步骤S202中,获取第一疾病的病历数据,其中,第一疾病的病历数据包括第一疾病的病历文本序列及其各个元素的标准标签,标准标签包括实体标签和非实体标签。
在步骤S204中,获得非实体标签对应的第一疾病的病历文本序列中的各个元素。
在步骤S206中,确定非实体标签对应的第一疾病的病历文本序列中的各个元素的标签排列集,其中标签排列集中包括至少一个非实体标签对应的第一疾病的病历文本序列中的各个元素的标签排列。
在步骤S208中,根据第一疾病的病历文本序列、实体标签和标签排列集训练病历结构化网络,获得目标病历结构化网络。
上述步骤S202-S208的一些实施例已于步骤S102-S108中进行详述,此处不再赘述。
在步骤S210中,通过目标病历结构化网络对第二疾病的病历文本序列进行处理,获得第二疾病的病历文本序列的标签。
在一些实施例中,将第二疾病的病历文本序列输入目标病历结构化网络;目标病历结构化网络基于似然估计函数输出第二疾病的病历文本序列的标签。
其中,似然估计函数可以表示为
Figure BDA0002304824040000111
其中,
Figure BDA0002304824040000112
用于表示第二疾病的病历文本序列;
Figure BDA0002304824040000113
用于表示第二疾病的病历文本序列的标签,
Figure BDA0002304824040000114
用于表示将
Figure BDA0002304824040000115
输入目标病历结构化网络后,输出为
Figure BDA0002304824040000116
的概率,即输入
Figure BDA0002304824040000117
时选取使
Figure BDA0002304824040000118
值最大的
Figure BDA0002304824040000119
作为第二疾病的病历文本序列的标签序列。
在步骤S212中,根据第二疾病的病历文本序列的标签获得第二疾病的病历文本序列的结构化结果。具体地,从获得的第二疾病的病历文本序列的标签序列中可解码出实体并直接产生结构化结果,例如:从肺癌的病历文本序列的标签序列中解码出检测方式(免疫组化),ER(雌激素受体,英文为Estrogen Receptor)-名称(ER-A),ER-值(90%+),EGFR(表皮生长因子受体,英文为Epidermal Growth Factor Receptor)名称(EGFR),EGFR值(+)在已将指标的归一名称和值显式地编码到类别标签中的情况下,可由解码出的数据直接对应得出结构化结果:{名称:ER,值:90%+,检测方式:免疫组化,名称:EGFR,值:+},
根据本公开实施例提供的结构化病历数据的跨疾病迁移方法,通过考虑到第一疾病数据中标签为非实体O的文本元素在第二疾病中的可能标注为B或I的实体标签,在训练第二疾病的病历结构化网络时,病历结构化网络优化函数中放开对标签为非实体O的文本元素的标准标签需为O的限制,允许该元素的标签取O或者所有未在第一疾病中出现标注为B或I的实体标签,然后通过第二疾病的病历结构化网络得到第二疾病的病历文本序列的标签,并将标签序列中解码得到的数据直接转化为第二疾病的病历文本的结构化结果,解决由于已有疾病和新疾病的词典和规则不同而无法直接进行迁移学习问题,从而可实现利用已有疾病的标注数据训练新疾病的病历结构化网络,辅助新疾病的结构化迁移学习。
图3是根据一示例性实施例示出的一种病历结构化网络跨疾病迁移训练方法的流程图。如图3所示的方法例如可以应用于病历结构化网络跨疾病迁移训练系统的服务器端,也可以应用于系统的终端设备。
参考图3,本公开实施例提供的方法30可以包括以下步骤。
在步骤S302中,获取第一疾病的初始病历数据,其中,初始病历数据包括第一疾病的病历文本序列和第一疾病的病历文本序列中各个元素的初始标准标签,初始标准标签包括初始实体标签和初始非实体标签。
在步骤S304中,将初始非实体标签对应的第一疾病的病历文本序列中的至少一个元素重新标注为实体,获得第一疾病的病历数据,其中,实体标签的个数大于初始实体标签的个数。可选地,可采用基于词典和规则的方法或通过标注模型的方法将初始非实体标签对应的第一疾病的病历文本序列中的至少一个元素重新标注为实体。
在一些实施例中,可利用疾病的先验知识,将新旧疾病的指标的多种写法、关注情况不同的指标整理成词典、规则或训练出仅包括相关指标标签的弱标注模型,例如如乳腺癌和肺癌的ER-A指标、EGFR指标等等,使用词典和规则方法或弱标注模型将第一疾病的原始标签数据进行更新,将第一疾病的一些非实体标签更新为实体标签,增加数据对第二疾病的相关度,提高训练第二疾病的病历结构化网络的效率。
在步骤S306中,获取第一疾病的病历数据,其中,第一疾病的病历数据包括第一疾病的病历文本序列及其各个元素的标准标签,标准标签包括实体标签和非实体标签。
在步骤S308中,获得非实体标签对应的第一疾病的病历文本序列中的各个元素。
在步骤S310中,确定非实体标签对应的第一疾病的病历文本序列中的各个元素的标签排列集,其中标签排列集中包括至少一个非实体标签对应的第一疾病的病历文本序列中的各个元素的标签排列。
在步骤S312中,根据第一疾病的病历文本序列、实体标签和标签排列集训练病历结构化网络,获得目标病历结构化网络。
上述步骤S306-S312的一些实施例已于步骤S102-S108中进行详述,此处不再赘述。
利用目标病历结构化网络对第二疾病病历文本进行标注的一些实施例已于步骤S210-S212中进行详述,此处不再赘述。
根据本公开实施例提供的病历结构化网络跨疾病迁移训练方法,通过基于第一疾病与第二疾病的先验知识对第一疾病的数据弱标注增加实体标签后,然后在训练第二疾病的病历结构化网络时,病历结构化网络优化函数中放开对标签为非实体O的文本元素的标准标签需为O的限制,允许该元素的标签取O或者所有未在第一疾病中出现标注为B或I的实体标签,最后通过第二疾病的病历结构化网络得到第二疾病的病历文本序列的标签,并将标签序列中解码得到的数据直接转化为第二疾病的病历文本的结构化结果,解决忽略不同疾病之间的相似性而降低迁移学习效率的问题,从而可实现利用已有疾病的标注数据训练新疾病的病历结构化网络,高效率辅助新疾病的结构化迁移学习。
图4是根据一示例性实施方式示出的一种病历结构化网络跨疾病迁移训练装置的框图。
参考图4,本公开实施例提供的装置40可以包括:数据获取模块402、元素获取模块404、标签排列模块406以及网络训练模块408。
数据获取模块402可以用于获取第一疾病的病历数据,其中,第一疾病的病历数据包括第一疾病的病历文本序列及其各个元素的标准标签,标准标签包括实体标签和非实体标签。
元素获取模块404可以用于获得非实体标签对应的第一疾病的病历文本序列中的各个元素。
标签排列模块406可以用于确定非实体标签对应的第一疾病的病历文本序列中的各个元素的标签排列集,其中标签排列集中包括至少一个非实体标签对应的第一疾病的病历文本序列中的各个元素的标签排列。
网络训练模块408可以用于根据第一疾病的病历文本序列、实体标签和标签排列集训练病历结构化网络,获得目标病历结构化网络。
图5是根据一示例性实施方式示出的一种的病历结构化网络跨疾病迁移训练设备的结构示意图。
需要说明的是,图5示出的设备仅以计算机系统为示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图5所示,设备500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有设备500操作所需的各种程序和数据。CPU501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本公开的系统中限定的上述功能。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括数据获取模块、元素获取模块、标签排列模块以及网络训练模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,数据获取模块块还可以被描述为“从所连接的服务器端获取数据的模块”。
作为另一方面,本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个计算机程序程序,当上述一个或者多个计算机程序程序被处理器执行时,实现上述实施例中的任一病历结构化网络跨疾病迁移训练方法
以上具体地示出和描述了本公开的示例性实施例。应可理解的是,本公开不限于这里描述的详细结构、设置方式或实现方法;相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims (7)

1.一种病历结构化网络跨疾病迁移训练方法,其特征在于,包括:
获取第一疾病的病历数据,其中,所述第一疾病的病历数据包括所述第一疾病的病历文本序列及其各个元素的标准标签,所述标准标签包括实体标签和非实体标签;
获得所述非实体标签对应的所述第一疾病的病历文本序列中的各个元素;
确定所述非实体标签对应的所述第一疾病的病历文本序列中的各个元素的标签排列集,其中所述标签排列集中包括至少一个所述非实体标签对应的所述第一疾病的病历文本序列中的各个元素的标签排列;
根据所述第一疾病的病历文本序列、所述实体标签和所述标签排列集训练病历结构化网络,获得目标病历结构化网络;
通过所述目标病历结构化网络对第二疾病的病历文本序列进行处理,获得所述第二疾病的病历文本序列的标签;
根据所述第二疾病的病历文本序列的标签获得所述第二疾病的病历文本序列的结构化结果;
根据所述第一疾病的病历文本序列、所述实体标签和所述标签排列集训练病历结构化网络,包括:
基于优化函数并根据所述第一疾病的病历文本序列、所述实体标签和所述标签排列集更新所述病历结构化网络的参数;
其中,所述优化函数表示为:
Figure FDA0003863563130000011
其中,
Figure FDA0003863563130000012
用于表示所述第一疾病的病历文本序列;
Figure FDA0003863563130000013
用于表示所述至少一个所述非实体标签对应的所述第一疾病的病历文本序列中的各个元素的标签排列,s用于表示所述标签排列集;
Figure FDA0003863563130000014
用于表示所述实体标签的排列,
Figure FDA0003863563130000015
用于表示将
Figure FDA0003863563130000016
输入所述病历结构化网络中,输出为
Figure FDA0003863563130000017
Figure FDA0003863563130000018
的组合的概率;
所述通过所述目标病历结构化网络根据第二疾病的病历文本序列获得第二疾病的病历文本序列的标签,包括:
将所述第二疾病的病历文本序列输入所述目标病历结构化网络;
在所述获取第一疾病的病历数据之前,还包括:
获取所述第一疾病的初始病历数据,其中,所述初始病历数据包括所述第一疾病的病历文本序列和所述第一疾病的病历文本序列中各个元素的初始标准标签,所述初始标准标签包括初始实体标签和初始非实体标签;
将所述初始非实体标签对应的所述第一疾病的病历文本序列中的至少一个元素重新标注为实体,获得所述第一疾病的病历数据,其中,所述实体标签的个数大于初始实体标签的个数。
2.根据权利要求1所述的方法,其特征在于,所述通过所述目标病历结构化网络根据第二疾病的病历文本序列获得第二疾病的病历文本序列的标签,还包括:
所述目标病历结构化网络基于似然估计函数输出所述第二疾病的病历文本序列的标签;
其中,所述似然估计函数表示为
Figure FDA0003863563130000021
其中,
Figure FDA0003863563130000022
用于表示所述第二疾病的病历文本序列;
Figure FDA0003863563130000023
用于表示所述第二疾病的病历文本序列的标签,
Figure FDA0003863563130000024
用于表示将
Figure FDA0003863563130000025
输入所述目标病历结构化网络后,输出为
Figure FDA0003863563130000026
的概率。
3.根据权利要求1或2所述的方法,其特征在于,所述将所述初始非实体标签对应的所述第一疾病的病历文本序列中的至少一个元素重新标注为实体,包括:
基于词典和规则将所述初始非实体标签对应的所述第一疾病的病历文本序列中的至少一个元素重新标注为实体。
4.根据权利要求1或2所述的方法,其特征在于,所述将所述初始非实体标签对应的所述第一疾病的病历文本序列中的至少一个元素重新标注为实体,包括:
通过标注模型将所述初始非实体标签对应的所述第一疾病的病历文本序列中的至少一个元素重新标注为实体。
5.一种病历结构化网络跨疾病迁移训练装置,其特征在于,包括:
数据获取模块,用于获取第一疾病的病历数据,其中,所述第一疾病的病历数据包括所述第一疾病的病历文本序列及其各个元素的标准标签,所述标准标签包括实体标签和非实体标签;
所述数据获取模块,还用于获取所述第一疾病的初始病历数据,其中,所述初始病历数据包括所述第一疾病的病历文本序列和所述第一疾病的病历文本序列中各个元素的初始标准标签,所述初始标准标签包括初始实体标签和初始非实体标签;
元素获取模块,用于获得所述非实体标签对应的所述第一疾病的病历文本序列中的各个元素;
标签排列模块,用于确定所述非实体标签对应的所述第一疾病的病历文本序列中的各个元素的标签排列集,其中所述标签排列集中包括至少一个所述非实体标签对应的所述第一疾病的病历文本序列中的各个元素的标签排列;
所述标签排列模块,还用于将所述初始非实体标签对应的所述第一疾病的病历文本序列中的至少一个元素重新标注为实体,获得所述第一疾病的病历数据,其中,所述实体标签的个数大于初始实体标签的个数;
网络训练模块,用于根据所述第一疾病的病历文本序列、所述实体标签和所述标签排列集训练病历结构化网络,获得目标病历结构化网络,所述目标病历结构化网络用于对第二疾病的病历文本序列进行处理,获得所述第二疾病的病历文本序列的标签,以根据所述第二疾病的病历文本序列的标签获得所述第二疾病的病历文本序列的结构化结果;
所述网络训练模块,还用于基于优化函数并根据所述第一疾病的病历文本序列、所述实体标签和所述标签排列集更新所述病历结构化网络的参数;其中,所述优化函数表示为:
Figure FDA0003863563130000031
其中,
Figure FDA0003863563130000032
用于表示所述第一疾病的病历文本序列;
Figure FDA0003863563130000033
用于表示所述至少一个所述非实体标签对应的所述第一疾病的病历文本序列中的各个元素的标签排列,s用于表示所述标签排列集;
Figure FDA0003863563130000041
用于表示所述实体标签的排列,
Figure FDA0003863563130000042
用于表示将
Figure FDA0003863563130000043
输入所述病历结构化网络中,输出为
Figure FDA0003863563130000044
Figure FDA0003863563130000045
的组合的概率;
所述网络训练模块,还用于将所述第二疾病的病历文本序列输入所述目标病历结构化网络。
6.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的病历结构化网络跨疾病迁移训练方法。
7.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一项所述的病历结构化网络跨疾病迁移训练方法。
CN201911235743.6A 2019-12-05 2019-12-05 病历结构化网络跨疾病迁移训练方法、装置、介质及设备 Active CN112927806B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911235743.6A CN112927806B (zh) 2019-12-05 2019-12-05 病历结构化网络跨疾病迁移训练方法、装置、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911235743.6A CN112927806B (zh) 2019-12-05 2019-12-05 病历结构化网络跨疾病迁移训练方法、装置、介质及设备

Publications (2)

Publication Number Publication Date
CN112927806A CN112927806A (zh) 2021-06-08
CN112927806B true CN112927806B (zh) 2022-11-25

Family

ID=76162203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911235743.6A Active CN112927806B (zh) 2019-12-05 2019-12-05 病历结构化网络跨疾病迁移训练方法、装置、介质及设备

Country Status (1)

Country Link
CN (1) CN112927806B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649434A (zh) * 2016-09-06 2017-05-10 北京蓝色光标品牌管理顾问股份有限公司 一种跨领域知识迁移的标签嵌入方法和装置
CN109002436A (zh) * 2018-07-12 2018-12-14 上海金仕达卫宁软件科技有限公司 基于长短期记忆网络的医疗文本术语自动识别方法及系统
CN109871538A (zh) * 2019-02-18 2019-06-11 华南理工大学 一种中文电子病历命名实体识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10839947B2 (en) * 2016-01-06 2020-11-17 International Business Machines Corporation Clinically relevant medical concept clustering
WO2018203147A2 (en) * 2017-04-23 2018-11-08 Voicebox Technologies Corporation Multi-lingual semantic parser based on transferred learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649434A (zh) * 2016-09-06 2017-05-10 北京蓝色光标品牌管理顾问股份有限公司 一种跨领域知识迁移的标签嵌入方法和装置
CN109002436A (zh) * 2018-07-12 2018-12-14 上海金仕达卫宁软件科技有限公司 基于长短期记忆网络的医疗文本术语自动识别方法及系统
CN109871538A (zh) * 2019-02-18 2019-06-11 华南理工大学 一种中文电子病历命名实体识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于多特征融合的中文电子病历命名实体识别;张祥伟等;《软件导刊》;20170228;第16卷(第02期);第128-131页 *
肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法;陈美杉 等;《数据分析与知识发现》;20191022;第1-16页 *

Also Published As

Publication number Publication date
CN112927806A (zh) 2021-06-08

Similar Documents

Publication Publication Date Title
US11501182B2 (en) Method and apparatus for generating model
CN107644011B (zh) 用于细粒度医疗实体提取的系统和方法
CN107833603B (zh) 电子病历文档分类方法、装置、电子设备及存储介质
CN112256828B (zh) 医学实体关系抽取方法、装置、计算机设备及可读存储介质
CN109522552B (zh) 一种医疗信息的归一化方法、装置、介质及电子设备
CN111259112B (zh) 医疗事实的验证方法和装置
CN110162786B (zh) 构建配置文件以及抽取结构化信息的方法、装置
CN109299467B (zh) 医学文本识别方法及装置、语句识别模型训练方法及装置
CN112307337B (zh) 基于标签知识图谱的关联推荐方法、装置及计算机设备
CN111415747A (zh) 电子病历的构建方法及装置
CN115798661A (zh) 临床医学领域的知识挖掘方法和装置
CN112131351A (zh) 一种基于多答案损失函数的片段信息抽取模型训练方法
CN114020874A (zh) 一种病历检索系统、方法、设备和计算机可读存储介质
CN111666405B (zh) 用于识别文本蕴含关系的方法和装置
CN112927806B (zh) 病历结构化网络跨疾病迁移训练方法、装置、介质及设备
CN115374788B (zh) 农业病虫害文本命名实体的方法及装置
CN116737924A (zh) 一种医疗文本数据处理方法及装置
CN114064938B (zh) 医学文献的关系抽取方法、装置、电子设备及存储介质
CN111507109A (zh) 电子病历的命名实体识别方法及装置
CN113111660A (zh) 数据处理方法、装置、设备和存储介质
CN112989032A (zh) 实体关系分类方法、装置、介质及电子设备
CN112925876B (zh) 跨场地迁移的结构化病历的处理方法、装置、介质及设备
CN114398492B (zh) 一种在数字领域的知识图谱构建方法、终端及介质
CN117852637B (zh) 一种基于定义的学科概念知识体系自动构建方法与系统
EP4297039A1 (en) Data processing method, device and storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant