CN115171835B - 病例结构化模型训练方法、装置和病例结构化方法 - Google Patents

病例结构化模型训练方法、装置和病例结构化方法 Download PDF

Info

Publication number
CN115171835B
CN115171835B CN202211069279.XA CN202211069279A CN115171835B CN 115171835 B CN115171835 B CN 115171835B CN 202211069279 A CN202211069279 A CN 202211069279A CN 115171835 B CN115171835 B CN 115171835B
Authority
CN
China
Prior art keywords
case
training
text
medical
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211069279.XA
Other languages
English (en)
Other versions
CN115171835A (zh
Inventor
安波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhiyuan Artificial Intelligence Research Institute
Original Assignee
Beijing Zhiyuan Artificial Intelligence Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhiyuan Artificial Intelligence Research Institute filed Critical Beijing Zhiyuan Artificial Intelligence Research Institute
Priority to CN202211069279.XA priority Critical patent/CN115171835B/zh
Publication of CN115171835A publication Critical patent/CN115171835A/zh
Application granted granted Critical
Publication of CN115171835B publication Critical patent/CN115171835B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了病例结构化模型训练方法、装置和病例结构化方法,属于精准医疗技术领域。模型训练方法包括:获取已标注标签的病例文本训练数据,其中,所述标签包括各个医疗事件分别对应的医疗事件类型,以及,获取各个所述医疗事件类型各自对应的医疗事件模板;根据所述病例文本训练数据和各个所述医疗事件模板训练Bart预训练语言模型,以得到用于输出病例文本所属的医疗事件类型及病例结构化数据的病例结构化模型。实现了端到端的事件抽取病例结构化。通过采用统一的框架实现不同类型的医疗事件的抽取,满足了病例文本中蕴含的丰富类型医疗事件的建模与抽取。还能够共享不同类型的事件之间的共性,以实现迁移学习,降低对标注数据的依赖。

Description

病例结构化模型训练方法、装置和病例结构化方法
技术领域
本发明涉及精准医疗技术领域,尤其涉及病例结构化模型训练方法、装置和病例结构化方法。
背景技术
病例结构化是将无结构的病例文本数据转化为便于人与机器理解与处理的结构化数据。对于临床辅助决策、门诊分类、药品研发、智慧医疗与健康等领域具有重要价值。医疗事件信息抽取是病例结构化的核心,将分散在病例文本中的医疗事件信息以结构化、时间线的方式进行提取与展示是病例结构化的重要工作。
目前,病例结构化的方法以命名实体识别(NER)为核心,基于识别出的实体进行组合实现结构化。这种方式存在两个比较显著的缺陷:(1)病例中涉及大量不同类型的事件,如主诉事件、住院事件、手术事件、用药事件等,不同类型的事件需要设计不同类型的组合算法,需要大量的医学专家知识和算法实现;(2)不同类型的事件结构知识无法实现迁移学习:将不同类型的事件分开处理,模型无法共享不同事件类型的知识信息,导致所需要的标注数据也更多。
发明内容
为了解决现有技术中存在的问题,本发明提供了如下技术方案。
本发明第一方面提供了一种病例结构化模型的训练方法,包括:
获取已标注标签的病例文本训练数据,其中,所述标签包括各个医疗事件分别对应的医疗事件类型,以及,获取各个所述医疗事件类型各自对应的医疗事件模板;
根据所述病例文本训练数据和各个所述医疗事件模板训练Bart预训练语言模型,以得到用于输出病例文本所属的医疗事件类型及病例结构化数据的病例结构化模型。
优选地,所述根据所述病例文本训练数据和各个所述医疗事件模板训练Bart预训练语言模型,包括:
将所述病例文本训练数据和各个所述医疗事件模板输入预设的Bart预训练语言模型,以使该Bart预训练语言模型依次进行元素识别和元素组合,以在所述病例文本训练数据中抽取各个类型的医疗事件并将所述医疗事件转化为序列模式数据,而后将所述序列模式数据进行结构化转化,得到对应的病例结构化数据。
优选地,所述获取已标注标签的病例文本训练数据,包括:从接收到的病例文本中提取文本块,和/或,根据选择的医疗事件类型,并基于该医疗事件类型的医疗事件模板,利用词典和规则生成病例文本并从病例文本中提取文本块;
对所述文本块进行医疗事件类型的标注,以得到对应的病例文本训练数据。
优选地,所述从病例文本中提取文本块包括:
基于MedBert+BiLSTM+CRF模型从所述病例文本中提取得到文本块。
优选地,在所述从接收到的病例文本中提取文本块之前,还包括:
接收病例文本,和/或,接收病例文本图片并对该病例文本图片进行文本识别,得到对应的病例文本。
优选地,各个所述医疗事件类型包括:就诊事件、主诉事件、现病史事件、既往史事件、个人史事件、婚姻史事件、生育史事件、月经史事件、家族史事件和过敏史事件中的任意组合。
优选地,所述的病例结构化模型的训练方法还包括:
基于待应用所述病例结构化模型的目标医院对应的医疗术语别名训练数据,采用Bert+ESIM模型对所述病例结构化数据进行医疗术语归一化训练。
优选地,所述的病例结构化模型的训练方法还包括:
对所述病例结构化数据进行可视化校验,并将校验结果作为所述病例结构化模型下一轮训练的训练数据。
本发明第二方面提供了一种病例结构化方法,包括:
获取病例文本;
将所述病例文本输入到病例结构化模型中,以使该病例结构化模型输出所述病例文本所属的医疗事件类型及病例结构化数据;
所述病例结构化模型预先基于第一方面所述的病例结构化模型的训练方法训练得到。
本发明第三方面提供了一种病例结构化模型的训练装置,包括:
训练数据获取模块,用于获取已标注标签的病例文本训练数据,其中,所述标签包括各个医疗事件分别对应的医疗事件类型,以及,获取各个所述事件类型各自对应的医疗事件模板;
模型训练模块,用于根据所述病例文本训练数据和各个所述医疗事件模板训练Bart预训练语言模型,以得到用于输出病例文本所属的医疗事件类型及病例结构化数据的病例结构化模型。
本发明第四方面提供了一种存储器,存储有多条指令,所述指令用于实现如第一方面所述的病例结构化模型的训练方法,或者,实现如第二方面所述的病例结构化方法。
本发明第五方面提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如第一方面所述的病例结构化模型的训练方法,或者,执行如第二方面所述的病例结构化方法。
本发明的有益效果是:本发明提供的病例结构化模型训练方法、装置和病例结构化方法。其是基于端到端事件的抽取病例结构化方法,在医疗事件模板的指导下从病例文本中进行多种类型医疗事件抽取。该方法能够根据不同病例数据灵活地进行事件模板的设计,避免了新的医疗事件类型抽取所需要的大规模数据标注与模型训练。通过采用统一的框架实现不同类型的医疗事件的抽取,如手术事件、住院事件等,很好地满足了病例文本中蕴含的丰富类型医疗事件的建模与抽取,也很好地满足了应用场景的实际需求。采用本发明的方法还能够共享不同类型的事件之间的共性,以实现迁移学习,降低对标注数据的依赖。因此,本发明可以很好地解决医疗病例结构化中多类型事件抽取的核心挑战。
附图说明
图1为本发明所述病例结构化模型的训练方法流程示意图;
图2为本发明所述MedBert+BiLSTM+CRF模型的架构示意图;
图3为本发明所述病例结构化模型的训练方法流程示意图;
图4为本发明所述医疗事件序列化和结构化流程示意图;
图5为本发明所述病例结构化模型的训练装置功能模块示意图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。存储器可用于存储指令、程序、代码、代码集或指令。
显示屏用于显示各个应用程序的用户界面。
除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
实施例一
如图1所示,本发明实施例提供了一种病例结构化模型的训练方法,包括:
S101,获取已标注标签的病例文本训练数据,其中,所述标签包括各个医疗事件分别对应的医疗事件类型,以及,获取各个所述医疗事件类型各自对应的医疗事件模板;
S102,根据所述病例文本训练数据和各个所述医疗事件模板训练Bart预训练语言模型,以得到用于输出病例文本所属的医疗事件类型及病例结构化数据的病例结构化模型。
可以理解的是,所述病例结构化模型是指经模型训练后的Bart预训练语言模型,即在根据所述病例文本训练数据和各个所述医疗事件模板训练Bart预训练语言模型之后,能够使得该Bart预训练语言模型输出病例文本所属的医疗事件类型及病例结构化数据,进而成为一种病例结构化模型。
在S101中,训练数据为已标注标签的病例文本,可以按照如下两种方式之一或者组合获得该训练数据:
一种方式是根据已有的病例文本获得,具体为:接收病例文本;从接收到的病例文本中提取文本块,对所述文本块进行医疗事件类型的标注,以得到对应的病例文本训练数据。在一份病例中,可能包括多个模块,比如包括就诊信息、主诉、现病史、既往史、个人史、婚育史、家族史等模块。不同的模块对应不同的医疗事件,因此,在一份病例中,可能包括多种类型的医疗事件,比如就诊事件、主诉事件、现病史事件、既往史事件、个人史事件、婚姻史事件、生育史事件、月经史事件、家族史事件和过敏史事件中的任意组合。在获取训练数据时,将病例文本中的文本块提取出来后,根据各文本块对应的医疗事件类型对其进行标注。对于包括多个文本块的病例文本,对应包括多个标注有医疗事件类型的文本块。在使用该病例文本对模型进行训练时,该包括多个标注有医疗事件类型的文本块的病例文本作为一个训练样本数据同时输入到模型中。虽然各医疗事件的类型不同,但是各类型的医疗事件中可能包括相同的元素,因此,在模型训练过程中,不同类型医疗事件之间可以共享相同元素,以实现迁移学习,从而降低了对标注数据的依赖。
在本发明的一个优选实施例中,在所述从接收到的病例文本中提取文本块之前,还可以包括:接收病例文本,和/或,接收病例文本图片并对该病例文本图片进行文本识别,得到对应的病例文本。如果病例文本为纯文本形式,则可以直接提取文本块;如果病例文本为图片格式,则可以对图片进行文本识别,得到对应的病例文本后再从中提取文本块。
在实际应用过程中,纯文本形式的电子病例较难获得,大部分情况是相关工作人员事先利用拍摄设备将病例文本实物拍摄成图片,并输入病例文本图片。因此,大部分情况可以获得病例文本图片。因此,本发明中,为了进一步提升应用范围,既能够支持病例文本,又能够支持病例文本图片,利用文字识别系统将病例文本图片转换为病例文本。具体地,本发明中基于CRNN实现文字识别。通过采集真实的病例文本图片和大规模自动合成相结合的方式,构建一个大规模的病例文本图片文字识别数据集,基于该数据集训练模型,得到一个在医疗领域具有较好识别能力的CRNN模型。
另一种方式是通过生成病例文本获得训练数据,具体为:首先选择医疗事件类型,然后根据选择的医疗事件类型,并基于该医疗事件类型的医疗事件模板,利用词典和规则生成病例文本并从病例文本中提取文本块;最后对所述文本块进行医疗事件类型的标注,以得到对应的病例文本训练数据。作为一个实施例比如,选择主诉事件,然后基于主诉事件模板从身体部位词典、症状词典、程度词典、时间词典中随机挑选“背部”、“疼痛”、“轻微”、“2天”作为主诉事件的元素词,利用规则生成主诉事件文本“患者背部轻微疼痛,持续2天”。其中规则是根据事件所包含的元素类型随机的在词表中选择术语,组成事件以及对应的文本信息。按照这种方式,可生成大规模的不同类型的医疗事件,以形成大规模的病例文本,并根据医疗事件的类型对病例文本中的各医疗事件进行标注,已得到对应的病例文本训练数据。
在本发明的一个优选实施例中,可以基于MedBert+BiLSTM+CRF模型从所述病例文本中提取得到文本块。
其中,MedBert+BiLSTM+CRF模型的架构可如图2所示。图2中,MedBert为在医疗数据上训练的大规模预训练语言模型;BiLSTM为双向长短时记忆网络,主要用于建模序列中词的上下文信息,得到上下文相关的词汇表示;CRF为条件随机场,主要用于序列标注任务,可以很好地建模序列之间的关系,比如M标签之前应该是M或者B标签;Labels是每个字符对应的标签,其中“-”之前的为序列标签,B为一个词汇的开头、M为词汇的中间的字、E为词汇结尾的字,O为单独的字,“-”后面的为词汇类型标签,如“zhusu”对应的类型为主诉。
另外,在步骤S101中,各个医疗事件类型都有对应的医疗事件模板,在医疗事件模板中包括了该类事件的事件元素,作为一个实施例比如主诉事件的事件元素可如下表所示。
Figure 768261DEST_PATH_IMAGE001
在步骤S102中,根据所述病例文本训练数据和各个所述医疗事件模板训练Bart预训练语言模型,以使该Bart预训练语言模型用于输出病例文本所属的医疗事件类型及病例结构化数据。即将所述病例文本训练数据和各个所述医疗事件模板输入预设的Bart预训练语言模型,以使该Bart预训练语言模型依次进行元素识别和元素组合,以在所述病例文本训练数据中抽取各个类型的医疗事件并将所述医疗事件转化为序列模式数据,而后将所述序列模式数据进行结构化转化,得到对应的病例结构化数据。
其中,每个病例文本训练数据可能包括多种标注有类型的医疗事件,Bart预训练语言模型对训练数据中的各类医疗事件进行元素识别,其中不同类型的事件可以共享很多元素信息,如住院事件、主诉事件、手术事件通常可以共享一部分元素,如时间、医院、疾病、症状等。本发明通过共享元素识别的标注数据和能力,以降低对标注数据的规模依赖。元素识别后,基于各类医疗事件模板对识别的元素进行组合,生成对应的各类医疗事件,实现对各类型医疗事件的抽取。采用该方法,可以使得元素识别和元素组合两部分的信息相互增强,以达到最优的抽取效果。抽取到医疗事件后,将其先转化为序列模式数据,而后将所述序列模式数据进行结构化转化,得到对应的病例结构化数据。其过程可如图3所示。图3中,“事件Schema”可理解为事件模板。模型训练的整体数据流为:输入文本数据,输出为序列化的事件表示,然后通过一个后结构化模块,转化为结构化的表示形式。通过将事件文本数据转化为序列模式数据,形成序列到序列的生成任务,降低了模型学习的难度。本发明实施例中,序列模式数据与事件文本数据之间可以通过规则直接进行转化。将事件文本“主诉:背部轻微疼痛,持续2天”直接转化为序列模式数据{"主诉":{"症状":"疼痛","部位":"背部","程度":"轻微","持续时间":"2天"}},这种方式可以将事件抽取人为的转化为文本到文本的生成模型。图3中,事件分类采用Transformer+TextCNN的模型实现,其中Transformer使用的是MedBart的编码器得到的字符的表示,将该表示作为TextCNN的输入,进行多分类。事件模板表示是通过学习到的模板的表示,是将结构化的模板转化为序列形式,并学习其整体表示,并用该表示指导事件的生成。
通过执行上述步骤S101和S102,完成了对病例结构化模型的训练,使其能够实现从病例中抽取医疗事件。但是不同医院、医生对相同疾病的描述可能不同。例如“1型糖尿病”和“胰岛素依赖型糖尿病”是对相同疾病的不同描述。为了能够更好地服务于后续的模型应用,本发明提供的模型训练方法通过术语归一化模型实现医疗术语的归一。即本发明提供的病例结构化模型的训练方法,还包括:基于待应用所述病例结构化模型的目标医院对应的医疗术语别名训练数据,采用Bert+ESIM模型对所述病例结构化数据进行医疗术语归一化训练。
在本发明的一个优选实施例中,病例结构化模型的训练方法还包括:对所述病例结构化数据进行可视化校验,并将校验结果作为所述病例结构化模型下一轮训练的训练数据。以使得病例结构化模型通过数据积累不断进行演化升级。
实施例二
如图4所示,本发明实施例提供了一种病例结构化方法,包括:
S401,获取病例文本;
S402,将所述病例文本输入到病例结构化模型中,以使该病例结构化模型输出所述病例文本所属的医疗事件类型及病例结构化数据;
所述病例结构化模型预先基于实施例一所述的病例结构化模型的训练方法训练得到。在此不再赘述。
采用本发明提供的方法,可以使用相同的端到端的模型实现对病例中不同类型事件的抽取,并且通过不同事件之间相同元素数据的共享实现模型的内部迁移,进而减少对数据的依赖,详细描述如下:
(1)模型统一:通过一个端到端的模型实现不同类型事件的抽取,并且通过将事件转化为文本的方式,实现标注数据格式的统一化,避免了不同事件类型的异构性;
(2)知识迁移:不同类型事件中包含大量相同元素,通过建模为文本到文本的生成任务,可以打破由于异构导致的知识共享困难的问题,能够更好地实现相同元素信息在不同事件之间的共享;
(3)采用端到端的方式进行事件生成,避免人工设计规则的方式进行事件抽取;
(4)多模态支持:支持文本和图片两种异构数据的病例数据;
(5)支持多种编码:通过术语归一化模块可以实现对非标准术语名到标注术语名的转化,并且可以通过标注术语名称直接映射到ICD-10、Omaha等术语编码体系中。
实施例三
如图5所示,本发明还包括和前述实施例一所述方法流程完全对应一致的功能模块架构,即本发明实施例还提供了一种病例结构化模型的训练装置,包括:
训练数据获取模块501,用于获取已标注标签的病例文本训练数据,其中,所述标签包括各个医疗事件分别对应的医疗事件类型,以及,获取各个所述事件类型各自对应的医疗事件模板;
模型训练模块502,用于根据所述病例文本训练数据和各个所述医疗事件模板训练Bart预训练语言模型,以得到用于输出病例文本所属的医疗事件类型及病例结构化数据的病例结构化模型。
该装置可通过上述实施例一提供的病例结构化模型的训练方法实现,具体的实现方法可参见实施例一中的描述,在此不再赘述。
本发明还提供了一种存储器,存储有多条指令,所述指令用于实现实施例一所述的病例结构化模型的训练方法,或者,实现实施例二所述的病例结构化方法。
本发明还提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如实施例一所述的病例结构化模型的训练方法,或者,执行如实施例二所述的病例结构化方法。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种病例结构化模型的训练方法,其特征在于,包括:
获取已标注标签的病例文本训练数据,其中,所述标签包括各个医疗事件分别对应的医疗事件类型,以及,获取各个所述医疗事件类型各自对应的医疗事件模板;
根据所述病例文本训练数据和各个所述医疗事件模板训练Bart预训练语言模型,以得到用于输出病例文本所属的医疗事件类型及病例结构化数据的病例结构化模型,包括:
将所述病例文本训练数据和各个所述医疗事件模板输入预设的Bart预训练语言模型,以使该Bart预训练语言模型依次进行元素识别和元素组合,以在所述病例文本训练数据中抽取各个类型的医疗事件并将所述医疗事件转化为序列模式数据,而后将所述序列模式数据进行结构化转化,得到对应的病例结构化数据;
所述获取已标注标签的病例文本训练数据,包括:从接收到的病例文本中提取文本块,和/或,根据选择的医疗事件类型,并基于该医疗事件类型的医疗事件模板,利用词典和规则生成病例文本并从病例文本中提取文本块;
对所述文本块进行医疗事件类型的标注,以得到对应的病例文本训练数据;各个所述医疗事件类型包括:就诊事件、主诉事件、现病史事件、既往史事件、个人史事件、婚姻史事件、生育史事件、月经史事件、家族史事件和过敏史事件中的任意组合。
2.如权利要求1所述的病例结构化模型的训练方法,其特征在于,所述从病例文本中提取文本块包括:
基于MedBert+BiLSTM+CRF模型从所述病例文本中提取得到文本块。
3.如权利要求1所述的病例结构化模型的训练方法,其特征在于,在所述从接收到的病例文本中提取文本块之前,还包括:
接收病例文本,和/或,接收病例文本图片并对该病例文本图片进行文本识别,得到对应的病例文本。
4.如权利要求1至3任一项所述的病例结构化模型的训练方法,其特征在于,还包括:
基于待应用所述病例结构化模型的目标医院对应的医疗术语别名训练数据,采用Bert+ESIM模型对所述病例结构化数据进行医疗术语归一化训练。
5.如权利要求1至3任一项所述的病例结构化模型的训练方法,其特征在于,还包括:
对所述病例结构化数据进行可视化校验,并将校验结果作为所述病例结构化模型下一轮训练的训练数据。
6.一种病例结构化方法,其特征在于,包括:
获取病例文本;
将所述病例文本输入到病例结构化模型中,以使该病例结构化模型输出所述病例文本所属的医疗事件类型及病例结构化数据;
所述病例结构化模型预先基于权利要求1-5任一项所述的病例结构化模型的训练方法训练得到。
7.一种病例结构化模型的训练装置,其特征在于,包括:
训练数据获取模块,用于获取已标注标签的病例文本训练数据,其中,所述标签包括各个医疗事件分别对应的医疗事件类型,以及,获取各个所述事件类型各自对应的医疗事件模板;所述获取已标注标签的病例文本训练数据,包括:从接收到的病例文本中提取文本块,和/或,根据选择的医疗事件类型,并基于该医疗事件类型的医疗事件模板,利用词典和规则生成病例文本并从病例文本中提取文本块;
对所述文本块进行医疗事件类型的标注,以得到对应的病例文本训练数据;各个所述医疗事件类型包括:就诊事件、主诉事件、现病史事件、既往史事件、个人史事件、婚姻史事件、生育史事件、月经史事件、家族史事件和过敏史事件中的任意组合;
模型训练模块,用于根据所述病例文本训练数据和各个所述医疗事件模板训练Bart预训练语言模型,以得到用于输出病例文本所属的医疗事件类型及病例结构化数据的病例结构化模型,包括:
将所述病例文本训练数据和各个所述医疗事件模板输入预设的Bart预训练语言模型,以使该Bart预训练语言模型依次进行元素识别和元素组合,以在所述病例文本训练数据中抽取各个类型的医疗事件并将所述医疗事件转化为序列模式数据,而后将所述序列模式数据进行结构化转化,得到对应的病例结构化数据。
8.一种存储器,其特征在于,存储有多条指令,所述指令用于实现如权利要求1-5任一项所述的病例结构化模型的训练方法,或者,实现如权利要求6所述的病例结构化方法。
9.一种电子设备,其特征在于,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如权利要求1-5任一项所述的病例结构化模型的训练方法,或者,执行如权利要求6所述的病例结构化方法。
CN202211069279.XA 2022-09-02 2022-09-02 病例结构化模型训练方法、装置和病例结构化方法 Active CN115171835B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211069279.XA CN115171835B (zh) 2022-09-02 2022-09-02 病例结构化模型训练方法、装置和病例结构化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211069279.XA CN115171835B (zh) 2022-09-02 2022-09-02 病例结构化模型训练方法、装置和病例结构化方法

Publications (2)

Publication Number Publication Date
CN115171835A CN115171835A (zh) 2022-10-11
CN115171835B true CN115171835B (zh) 2022-12-23

Family

ID=83481007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211069279.XA Active CN115171835B (zh) 2022-09-02 2022-09-02 病例结构化模型训练方法、装置和病例结构化方法

Country Status (1)

Country Link
CN (1) CN115171835B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705293A (zh) * 2019-08-23 2020-01-17 中国科学院苏州生物医学工程技术研究所 基于预训练语言模型的电子病历文本命名实体识别方法
CN113724819A (zh) * 2021-08-31 2021-11-30 平安国际智慧城市科技股份有限公司 医疗命名实体识别模型的训练方法、装置、设备及介质
CN114530223A (zh) * 2022-01-18 2022-05-24 华南理工大学 一种基于nlp的心血管疾病病历结构化系统
CN114582448A (zh) * 2022-01-05 2022-06-03 大连理工大学 基于预训练语言模型的疫情病例信息抽取框架构建方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111048167B (zh) * 2019-10-31 2023-08-18 中电药明数据科技(成都)有限公司 一种层级式病例结构化方法及系统
CN113051905A (zh) * 2019-12-28 2021-06-29 中移(成都)信息通信科技有限公司 训练医疗命名实体识别模型及医疗命名实体识别的方法
US20210357702A1 (en) * 2020-05-13 2021-11-18 Trupanion, Inc. Systems and methods for state identification and classification of text data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705293A (zh) * 2019-08-23 2020-01-17 中国科学院苏州生物医学工程技术研究所 基于预训练语言模型的电子病历文本命名实体识别方法
CN113724819A (zh) * 2021-08-31 2021-11-30 平安国际智慧城市科技股份有限公司 医疗命名实体识别模型的训练方法、装置、设备及介质
CN114582448A (zh) * 2022-01-05 2022-06-03 大连理工大学 基于预训练语言模型的疫情病例信息抽取框架构建方法
CN114530223A (zh) * 2022-01-18 2022-05-24 华南理工大学 一种基于nlp的心血管疾病病历结构化系统

Also Published As

Publication number Publication date
CN115171835A (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
CN107247868B (zh) 一种人工智能辅助问诊系统
CN110069631B (zh) 一种文本处理方法、装置以及相关设备
CN106407666A (zh) 一种电子病历信息的生成方法、装置及系统
JP2022500713A (ja) 機械支援対話システム、ならびに病状問診装置およびその方法
CN109065183B (zh) 问诊对话模板生成及问诊数据获取方法、装置
CN114579723A (zh) 问诊方法和装置、电子设备及存储介质
EP4170670A1 (en) Medical data processing method and system
CN116386800B (zh) 基于预训练语言模型的医疗病历数据分割方法和系统
CN113704428A (zh) 智能问诊方法、装置、电子设备及存储介质
CN111599433B (zh) 一种药材的辅助开方方法、装置、存储介质及终端
CN113903422A (zh) 医疗影像诊断报告实体提取方法、装置及设备
RU2699607C2 (ru) Повышение эффективности и уменьшение частоты последующих лучевых исследований путем прогнозирования основания для следующего исследования
CN112949308A (zh) 基于功能结构的中文电子病历命名实体识别方法及系统
CN110088748B (zh) 问题生成方法和装置、问诊系统、计算机可读存储介质
CN116578704A (zh) 文本情感分类方法、装置、设备及计算机可读介质
CN113657086A (zh) 词语处理方法、装置、设备及存储介质
CN115171835B (zh) 病例结构化模型训练方法、装置和病例结构化方法
CN117292783A (zh) 医学影像报告生成系统
CN116861875A (zh) 基于人工智能的文本处理方法、装置、设备及存储介质
CN116702776A (zh) 基于跨中西医的多任务语义划分方法、装置、设备及介质
CN115659987A (zh) 基于双通道的多模态命名实体识别方法、装置以及设备
CN114913995A (zh) 自助就诊方法、装置、设备及存储介质
CN113553840A (zh) 一种文本信息处理方法、装置、设备及存储介质
CN112086155A (zh) 一种基于语音录入的诊疗信息结构化收集方法
CN114334049A (zh) 一种电子病历结构化处理方法和装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant