CN114464281A - 电子病历文本事件抽取方法、装置、电子设备及存储介质 - Google Patents

电子病历文本事件抽取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114464281A
CN114464281A CN202111580066.9A CN202111580066A CN114464281A CN 114464281 A CN114464281 A CN 114464281A CN 202111580066 A CN202111580066 A CN 202111580066A CN 114464281 A CN114464281 A CN 114464281A
Authority
CN
China
Prior art keywords
sentence
events
vector
text
electronic medical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111580066.9A
Other languages
English (en)
Inventor
周玉
薛晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongkefan Language Technology Co ltd
Original Assignee
Beijing Zhongkefan Language Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongkefan Language Technology Co ltd filed Critical Beijing Zhongkefan Language Technology Co ltd
Priority to CN202111580066.9A priority Critical patent/CN114464281A/zh
Publication of CN114464281A publication Critical patent/CN114464281A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本公开提供了一种电子病历文本事件抽取方法,包括:基于病历文本标点符号对段落分句;对句子列表中的各个句子逐句进行分词;通过训练好的词向量将句子的各个分词向量化;获取各个句子经过双向长短期记忆神经网络的向量表示;计算句子中各个词的权重,所有词向量进行加权和作为特征向量;通过各个句子的特征向量计算各个句子包含事件个数;以及获取句子级事件总数。本公开还提供了一种电子病历文本事件抽取装置、电子设备以及可读存储介质。

Description

电子病历文本事件抽取方法、装置、电子设备及存储介质
技术领域
本公开涉及一种电子病历文本事件抽取方法、装置、电子设备以及可读存储介质。
背景技术
医师通过浏览患者的电子病历可以获取患者的病史资料。所获取的资料对了解疾病的发生、发展,诊治经过,既往健康状况和曾患疾病的情况,对诊断具有极其重要的意义,也为随后对患者进行的体格检查和各种诊断性检查的安排提供了最重要的基本资料。在电子病历文本中,快速、直观展现患者发病以来诊治经过及结果,将大大提高医生的工作效率,为医疗过程提供临床依据。
由于电子病历记录患者疾病的发生、演变、诊疗等方面的详细情况,是按照时间顺序书写。因此,传统的电子病历文本事件抽取以规则及模板方法为主。但这种方法的缺点在于无法判断句子描述的是一次新就诊事件还是前文提到过的就诊事件。如下例,“患者于1992年开始出现活动或轻度体力劳动后胸闷、气短、干咳等症状,休息后可缓解,未予特殊治疗,1993年症状加重,心脏超声发现二尖瓣狭窄伴关闭不全,于1994年在***医院行二尖瓣置换术,更换为机械瓣,术后长期服用华法林抗凝治疗(欠规律),无明显活动后胸闷、气短症状,其后患者间断出现心悸、胸闷不适,多次入住当地医院治疗。”简单地统计上述描述中出现的“时间”或“医院”实体显然不可行。原因在于,虽然出现“1992年”,但“1992年”并无就诊事件;“1993年”未提及医院,但根据描述可以判断患者进行就诊。这种情况下,基于规则和模板的方法很难准确抽取就诊事件。
发明内容
为了解决上述技术问题中的至少一个,本公开提供了一种电子病历文本事件抽取方法、装置、电子设备及可读存储介质。
根据本公开的一个方面,提供一种电子病历文本事件抽取方法,包括:
基于病历文本标点符号对段落分句,生成k个句子列表S=[S1,S2,S3,……,Sk];
对句子列表中的各个句子逐句进行分词,第k个句子Sk的分词列表为Sk=[C1,C2,C3,……,Cm];
通过训练好的词向量将句子的各个分词向量化,第k个句子Sk的分词列表向量化表示为Sk=[e1,e2,e3,……,em];
获取各个句子经过双向长短期记忆神经网络的向量表示,第k个句子Sk经过双向长短期记忆神经网络获取的向量集合为H=[h1,h2,h3,……,hm];
计算句子中各个词的权重,所有词向量进行加权和作为特征向量h*,h*=tanh(γ),其中,γ=HαT,α=softmax(ωTM),ωT表示需要学习的参数,ω的维度是dw*1,α的维度为1*m,M=tanh(H),M的维度是dw*m,dw表示向量的维度,m为第k个句子的分词数;
通过各个句子的特征向量h*计算各个句子包含事件个数n,获得各句子级事件数量数组N=[n1,n2,n3,……,nq],其中,nq是第q句预测的事件数量;以及,
获取句子级事件总数
Figure BDA0003426729160000021
根据本公开至少一个实施方式提供的电子病历文本事件抽取方法,所述训练好的词向量的获取方法为:通过对电子病历文本进行分词,进而对分词进行训练获得。
根据本公开至少一个实施方式提供的电子病历文本事件抽取方法,所述hm通过双向长短期记忆神经网络对句子的词向量em训练获得,词向量em经过双向长短期记忆神经网络正向输出为
Figure BDA0003426729160000031
反向输出为
Figure BDA0003426729160000032
则第m个词经过双向长短期记忆网络后得到的向量为
Figure BDA0003426729160000033
其中
Figure BDA0003426729160000034
表示将向量元素对应相加。
根据本公开至少一个实施方式提供的电子病历文本事件抽取方法,通过各个句子的特征向量h*计算各个句子包含事件个数n,包括:通过softmax函数计算,取包含事件个数n(10≥n≥0)的最大概率作为各个句子包含的事件个数n。
根据本公开至少一个实施方式提供的电子病历文本事件抽取方法,还包括:
在段落开头和段落结尾处分别加入划分标记<delimiter>;
基于所述句子级事件数量数组N对电子病历语句进行划分,扫描数组N,当ni≠0且i>1时,在此句开始前加入划分标记<delimiter>,当ni=0且i>1时,不做处理,继续扫描下一句,直到完成扫描;以及,
基于划分标记<delimiter>获取各个事件对应的描述语句段落。
根据本公开至少一个实施方式提供的电子病历文本事件抽取方法,还包括:通过划分标记<delimiter>之间的文本长度验证段落划分的有效性。
根据本公开至少一个实施方式提供的电子病历文本事件抽取方法,通过划分标记<delimiter>之间的文本长度验证段落划分的有效性,包括:当两个划分标记<delimiter>之间的文本长度L小于阈值Lmin时,将<delimiter>之间的文本作为待合并句子,
如果待合并句子是段落首句,将待合并句子后的划分标记<delimiter>去除,使当前描述句与后一描述句合并,同时段落事件总数量Na=Na-1;
如果待合并句子是段落尾句,将待合并句子前的划分标记<delimiter>去除,使当前描述句与前一描述句合并,同时段落事件总数量Na=Na-1;以及,
如果待合并句子位于段落中间,使用命名实体识别模型识别出待合并句子前一句的最后一个实体Ea,识别出待合并句子的第一个实体Eb、最后一个实体Ec,待合并句子后一句的第一个实体Ed,计算Ea、Eb的关联系数,记为<Ea,Eb>,计算Ec、Ed的关联系数<Ec,Ed>,若<Ea,Eb>≥<Ec,Ed>,将待合并句子前的划分标记<delimiter>去除,使当前描述句与前一描述句合并,同时段落事件总数量Na=Na-1,若<Ea,Eb><<Ec,Ed>,将待合并句子后的划分标记<delimiter>去除,使当前描述句与后一描述句合并,同时段落事件总数量Na=Na-1。
根据本公开至少一个实施方式提供的电子病历文本事件抽取方法,所述关联系数通过实体关联系数矩阵获得,所述实体关联系数矩阵定义为由m种实体排列成一个m行、m列的阵列
Figure BDA0003426729160000041
称为一个m行m列矩阵,其中aij为实体i与实体j的关联系数。
根据本公开的又一个方面,提供一种电子病历文本事件抽取装置,包括:
分句模块,所述分句模块基于病历文本标点符号对段落分句,生成k个句子列表S=[S1,S2,S3,……,Sk];
分词模块,所述分词模块对句子列表中的各个句子逐句进行分词,第k个句子Sk的分词列表为Sk=[C1,C2,C3,……,Cm];
向量化模块,所述向量化模块通过训练好的词向量将句子的各个分词向量化,第k个句子Sk的分词列表向量化表示为Sk=[e1,e2,e3,……,em];
经神经网络的向量表示获取模块,所述经神经网络的向量表示获取模块获取各个句子经过双向长短期记忆神经网络的向量表示,第k个句子Sk经过双向长短期记忆神经网络获取的向量集合为H=[h1,h2,h3,……,hm];
特征向量获取模块,所述特征向量获取模块计算句子中各个词的权重,所有词向量进行加权和作为特征向量h*,h*=tanh(γ),其中,γ=HαT,α=softmax(ωTM),ωT表示需要学习的参数,ω的维度是dw*1,α的维度为1*m,M=tanh(H),M的维度是dw*m,dw表示向量的维度,m为第k个句子的分词数;
事件数获取模块,所述事件数获取模块通过各个句子的特征向量h*计算各个句子包含事件个数n,获得各句子级事件数量数组N=[n1,n2,n3,……,nq],其中,nq是第q句预测的事件数量;以及,
事件总数获取模块,获取句子级事件总数
Figure BDA0003426729160000051
根据本公开至少一个实施方式提供的电子病历文本事件抽取装置,所述训练好的词向量的获取方法为:通过对电子病历文本进行分词,进而对分词进行训练获得。
根据本公开至少一个实施方式提供的电子病历文本事件抽取装置,所述hm通过双向长短期记忆神经网络对句子的词向量em训练获得,词向量em经过双向长短期记忆神经网络正向输出为
Figure BDA0003426729160000052
反向输出为
Figure BDA0003426729160000053
则第m个词经过双向长短期记忆网络后得到的向量为
Figure BDA0003426729160000054
其中
Figure BDA0003426729160000055
表示将向量元素对应相加。
根据本公开至少一个实施方式提供的电子病历文本事件抽取装置,通过各个句子的特征向量h*计算各个句子包含事件个数n,包括:通过softmax函数计算,取包含事件个数n(10≥n≥0)的最大概率作为各个句子包含的事件个数n。
根据本公开至少一个实施方式提供的电子病历文本事件抽取装置,还包括事件描述生成模块,所述事件描述生成模块:
在段落开头和段落结尾处分别加入划分标记<delimiter>;
基于所述句子级事件数量数组N对电子病历语句进行划分,扫描数组N,当ni≠0且i>1时,在此句开始前加入划分标记<delimiter>,当ni=0且i>1时,不做处理,继续扫描下一句,直到完成扫描;以及,
基于划分标记<delimiter>获取各个事件对应的描述语句段落。
根据本公开至少一个实施方式提供的电子病历文本事件抽取装置,还包括段落划分有效性验证模块,所述段落划分有效性验证模块通过划分标记<delimiter>之间的文本长度验证段落划分的有效性。
根据本公开至少一个实施方式提供的电子病历文本事件抽取装置,通过划分标记<delimiter>之间的文本长度验证段落划分的有效性,包括:当两个划分标记<delimiter>之间的文本长度L小于阈值Lmin时,将<delimiter>之间的文本作为待合并句子,
如果待合并句子是段落首句,将待合并句子后的划分标记<delimiter>去除,使当前描述句与后一描述句合并,同时段落事件总数量Na=Na-1;
如果待合并句子是段落尾句,将待合并句子前的划分标记<delimiter>去除,使当前描述句与前一描述句合并,同时段落事件总数量Na=Na-1;以及,
如果待合并句子位于段落中间,使用命名实体识别模型识别出待合并句子前一句的最后一个实体Ea,识别出待合并句子的第一个实体Eb、最后一个实体Ec,待合并句子后一句的第一个实体Ed,计算Ea、Eb的关联系数,记为<Ea,Eb>,计算Ec、Ed的关联系数<Ec,Ed>,若<Ea,Eb>≥<Ec,Ed>,将待合并句子前的划分标记<delimiter>去除,使当前描述句与前一描述句合并,同时段落事件总数量Na=Na-1,若<Ea,Eb><<Ec,Ed>,将待合并句子后的划分标记<delimiter>去除,使当前描述句与后一描述句合并,同时段落事件总数量Na=Na-1。
根据本公开至少一个实施方式提供的电子病历文本事件抽取装置,所述关联系数通过实体关联系数矩阵获得,所述实体关联系数矩阵定义为由m种实体排列成一个m行、m列的阵列
Figure BDA0003426729160000061
称为一个m行m列矩阵,其中aij为实体i与实体j的关联系数。
根据本公开的又一个方面,提供一种电子设备,包括:
存储器,所述存储器存储执行指令;以及,
处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行上述任一项所述的方法。
根据本公开的又一个方面,提供一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述任一项所述的方法。
附图说明
附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
图1是根据本公开的一个实施方式的电子病历文本事件抽取方法流程示意图。
图2是根据本公开的又一个实施方式的电子病历文本事件抽取方法流程示意图。
图3是根据本公开的又一个实施方式的电子病历文本事件抽取方法流程示意图。
图4是根据本公开的一个实施方式的电子病历文本事件抽取装置结构示意图。
图5是根据本公开的又一个实施方式的电子病历文本事件抽取装置结构示意图。
图6是根据本公开的又一个实施方式的电子病历文本事件抽取装置结构示意图。
附图标记说明
1000,1001,1003 电子病历文本事件抽取装置
1002 分句模块
1004 分词模块
1006 向量化模块
1008 经神经网络的向量表示获取模块
1010 特征向量获取模块
1012 事件数获取模块
1014 事件总数获取模块
1016 事件描述生成模块
1018 段落划分有效性验证模块
1100 总线
1200 处理器
1300 存储器
1400 其他电路。
具体实施方式
下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。
除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此,除非另有说明,否则在不脱离本公开的技术构思的情况下,各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。
在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此,除非说明,否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外,在附图中,为了清楚和/或描述性的目的,可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时,可以以不同于所描述的顺序来执行具体的工艺顺序。例如,可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外,同样的附图标记表示同样的部件。
当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时,该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件,或者可以存在中间部件。然而,当部件被称作“直接在”另一部件“上“、“直接连接到”或“直接结合到”另一部件时,不存在中间部件。为此,术语“连接”可以指物理连接、电气连接等,并且具有或不具有中间部件。
本文使用的术语是为了描述具体实施例的目的,而不意图是限制性的。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外,当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时,说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是,如这里使用的,术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语,如此,它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。
图1是根据本公开的一个实施方式的电子病历文本事件抽取方法流程示意图。
如图1所示,电子病历文本事件抽取方法S100,包括:
S102:基于病历文本标点符号对段落分句,生成k个句子列表S=[S1,S2,S3,……,Sk];
S104:对句子列表中的各个句子逐句进行分词,第k个句子Sk的分词列表为Sk=[C1,C2,C3,……,Cm];
S106:通过训练好的词向量将句子的各个分词向量化,第k个句子Sk的分词列表向量化表示为Sk=[e1,e2,e3,……,em];
S108:获取各个句子经过双向长短期记忆神经网络的向量表示,第k个句子Sk经过双向长短期记忆神经网络获取的向量集合为H=[h1,h2,h3,……,hm];
S110:计算句子中各个词的权重,所有词向量进行加权和作为特征向量h*,h*=tanh(γ),其中,γ=HαT,α=softmax(ωTM),ωT表示需要学习的参数,ω的维度是dw*1,α的维度为1*m,M=tanh(H),M的维度是dw*m,dw表示向量的维度,m为第k个句子的分词数;
S112:通过各个句子的特征向量h*计算各个句子包含事件个数n,获得各句子级事件数量数组N=[n1,n2,n3,……,nq],其中,nq是第q句预测的事件数量;以及,
S114:获取句子级事件总数
Figure BDA0003426729160000101
其中,训练好的词向量的获取方法为:通过对电子病历文本进行分词,进而对分词进行训练获得。
其中,hm通过双向长短期记忆神经网络对句子的词向量em训练获得,词向量em经过双向长短期记忆神经网络正向输出为
Figure BDA0003426729160000102
反向输出为
Figure BDA0003426729160000103
则第m个词经过双向长短期记忆网络后得到的向量为
Figure BDA0003426729160000104
其中
Figure BDA0003426729160000105
表示将向量元素对应相加。
其中,通过各个句子的特征向量h*计算各个句子包含事件个数n,包括:通过softmax函数计算,取包含事件个数n(10≥n≥0)的最大概率作为各个句子包含的事件个数n。
图2是根据本公开的又一实施方式的电子病历文本事件抽取方法流程示意图。
如图2所示,电子病历文本事件抽取方法S101,还包括:
S116:对电子病历划分语句段落,生成事件对应的描述。具体地,在段落开头和段落结尾处分别加入划分标记<delimiter>;
基于句子级事件数量数组N对电子病历语句进行划分,扫描数组N,当ni≠0且i>1时,在此句开始前加入划分标记<delimiter>,当ni=0且i>1时,不做处理,继续扫描下一句,直到完成扫描;以及,
基于划分标记<delimiter>获取各个事件对应的描述语句段落。
图3是根据本公开的又一实施方式的电子病历文本事件抽取方法流程示意图。
如图3所示,电子病历文本事件抽取方法S103,还包括:
S118:通过划分标记<delimiter>之间的文本长度验证段落划分的有效性。
其中,通过划分标记<delimiter>之间的文本长度验证段落划分的有效性,包括:当两个划分标记<delimiter>之间的文本长度L小于阈值Lmin时,将<delimiter>之间的文本作为待合并句子,
如果待合并句子是段落首句,将待合并句子后的划分标记<delimiter>去除,使当前描述句与后一描述句合并,同时段落事件总数量Na=Na-1;
如果待合并句子是段落尾句,将待合并句子前的划分标记<delimiter>去除,使当前描述句与前一描述句合并,同时段落事件总数量Na=Na-1;以及,
如果待合并句子位于段落中间,使用命名实体识别模型识别出待合并句子前一句的最后一个实体Ea,识别出待合并句子的第一个实体Eb、最后一个实体Ec,待合并句子后一句的第一个实体Ed,计算Ea、Eb的关联系数,记为<Ea,Eb>,计算Ec、Ed的关联系数<Ec,Ed>,若<Ea,Eb>≥<Ec,Ed>,将待合并句子前的划分标记<delimiter>去除,使当前描述句与前一描述句合并,同时段落事件总数量Na=Na-1,若<Ea,Eb><<Ec,Ed>,将待合并句子后的划分标记<delimiter>去除,使当前描述句与后一描述句合并,同时段落事件总数量Na=Na-1。
其中,关联系数通过实体关联系数矩阵获得,实体关联系数矩阵定义为由m种实体排列成一个m行、m列的阵列
Figure BDA0003426729160000111
称为一个m行m列矩阵,其中aij为实体i与实体j的关联系数,实体包括null。
本发明将电子病历文本事件抽取问题转换为分类问题解决,获得段落句子数量及划分标识位置,并利用实体识别模型识别出句子中的医疗实体,计算句子之间的关联系数,从而获得更准确的句子划分,提高了电子病历文本中事件抽取的准确性。
图4是根据本公开的一个实施方式的电子病历文本事件抽取装置结构示意图。
如图4所示,电子病历文本事件抽取装置1000包括:
分句模块1002,分句模块1002基于病历文本标点符号对段落分句,生成k个句子列表S=[S1,S2,S3,……,Sk];
分词模块1004,分词模块1004对句子列表中的各个句子逐句进行分词,第k个句子Sk的分词列表为Sk=[C1,C2,C3,……,Cm];
向量化模块1006,向量化模块1006通过训练好的词向量将句子的各个分词向量化,第k个句子Sk的分词列表向量化表示为Sk=[e1,e2,e3,……,em];
经神经网络的向量表示获取模块1008,经神经网络的向量表示获取模块1008获取各个句子经过双向长短期记忆神经网络的向量表示,第k个句子Sk经过双向长短期记忆神经网络获取的向量集合为H=[h1,h2,h3,……,hm];
特征向量获取模块1010,特征向量获取模块1010计算句子中各个词的权重,所有词向量进行加权和作为特征向量h*,h*=tanh(γ),其中,γ=HαT,α=softmax(ωTM),ωT表示需要学习的参数,ω的维度是dw*1,α的维度为1*m,M=tanh(H),M的维度是dw*m,dw表示向量的维度,m为第k个句子的分词数;
事件数获取模块1012,事件数获取模块1012通过各个句子的特征向量h*计算各个句子包含事件个数n,获得各句子级事件数量数组N=[n1,n2,n3,……,nq],其中,nq是第q句预测的事件数量;以及,
事件总数获取模块1014,获取句子级事件总数
Figure BDA0003426729160000121
其中,训练好的词向量的获取方法为:通过对电子病历文本进行分词,进而对分词进行训练获得。
其中,hm通过双向长短期记忆神经网络对句子的词向量em训练获得,词向量em经过双向长短期记忆神经网络正向输出为
Figure BDA0003426729160000122
反向输出为
Figure BDA0003426729160000123
则第m个词经过双向长短期记忆网络后得到的向量为
Figure BDA0003426729160000124
其中
Figure BDA0003426729160000125
表示将向量元素对应相加。
其中,通过各个句子的特征向量h*计算各个句子包含事件个数n,包括:通过softmax函数计算,取包含事件个数n(10≥n≥0)的最大概率作为各个句子包含的事件个数n。
图5是根据本公开的实施方式的电子病历文本事件抽取装置结构示意图。
如图5所示,电子病历文本事件抽取装置1001,还包括事件描述生成模块1016,事件描述生成模块1016:
在段落开头和段落结尾处分别加入划分标记<delimiter>;
基于句子级事件数量数组N对电子病历语句进行划分,扫描数组N,当ni≠0且i>1时,在此句开始前加入划分标记<delimiter>,当ni=0且i>1时,不做处理,继续扫描下一句,直到完成扫描;以及,
基于划分标记<delimiter>获取各个事件对应的描述语句段落。
图6是根据本公开的实施方式的电子病历文本事件抽取装置结构示意图。
如图6所示,电子病历文本事件抽取装置1003,还包括段落划分有效性验证模块1018,段落划分有效性验证模块1018通过划分标记<delimiter>之间的文本长度验证段落划分的有效性。
其中,通过划分标记<delimiter>之间的文本长度验证段落划分的有效性,包括:当两个划分标记<delimiter>之间的文本长度L小于阈值Lmin时,将<delimiter>之间的文本作为待合并句子,如果待合并句子是段落首句,将待合并句子后的划分标记<delimiter>去除,使当前描述句与后一描述句合并,同时段落事件总数量Na=Na-1;
如果待合并句子是段落尾句,将待合并句子前的划分标记<delimiter>去除,使当前描述句与前一描述句合并,同时段落事件总数量Na=Na-1;以及,
如果待合并句子位于段落中间,使用命名实体识别模型识别出待合并句子前一句的最后一个实体Ea,识别出待合并句子的第一个实体Eb、最后一个实体Ec,待合并句子后一句的第一个实体Ed,计算Ea、Eb的关联系数,记为<Ea,Eb>,计算Ec、Ed的关联系数<Ec,Ed>,若<Ea,Eb>≥<Ec,Ed>,将待合并句子前的划分标记<delimiter>去除,使当前描述句与前一描述句合并,同时段落事件总数量Na=Na-1,若<Ea,Eb><<Ec,Ed>,将待合并句子后的划分标记<delimiter>去除,使当前描述句与后一描述句合并,同时段落事件总数量Na=Na-1。
其中,关联系数通过实体关联系数矩阵获得,实体关联系数矩阵定义为由m种实体排列成一个m行、m列的阵列
Figure BDA0003426729160000141
称为一个m行m列矩阵,其中aij为实体i与实体j的关联系数,实体包括null。
根据本公开的又一个方面,提供一种电子设备,包括:
存储器,存储器存储执行指令;以及,
处理器,处理器执行存储器存储的执行指令,使得处理器执行上述任一项方法。
根据本公开的又一个方面,提供一种可读存储介质,可读存储介质中存储有执行指令,执行指令被处理器执行时用于实现上述任一项方法。
图4至6示出了采用处理系统的硬件实现方式的装置示例图。
该装置可以包括执行上述流程图中各个或几个步骤的相应模块。因此,可以由相应模块执行上述流程图中的每个步骤或几个步骤,并且该装置可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。
该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器,这取决于硬件的特定应用和总体设计约束。总线1100将包括一个或多个处理器1200、存储器1300和/或硬件模块的各种电路连接到一起。总线1100还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其它电路1400连接。
总线1100可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,Peripheral Component)总线或扩展工业标准体系结构(EISA,Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,该图中仅用一条连接线表示,但并不表示仅有一根总线或一种类型的总线。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如,本公开中的方法实施方式可以被实现为软件程序,其被有形地包含于机器可读介质,例如存储器。在一些实施方式中,软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时,可以执行上文描述的方法中的一个或多个步骤。备选地,在其他实施方式中,处理器可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述方法之一。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,可以具体实现在任何可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
就本说明书而言,“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在存储器中。
应当理解,本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种可读存储介质中,该程序在执行时,包括方法实施方式的步骤之一或其组合。
此外,在本公开各个实施方式中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个可读存储介质中。存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中,对上述术语的示意性表述不必须的是相同的实施方式/方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。

Claims (10)

1.一种电子病历文本事件抽取方法,其特征在于,包括:
基于病历文本标点符号对段落分句,生成k个句子列表S=[S1,S2,S3,……,Sk];
对句子列表中的各个句子逐句进行分词,第k个句子Sk的分词列表为Sk=[C1,C2,C3,……,Cm];
通过训练好的词向量将句子的各个分词向量化,第k个句子Sk的分词列表向量化表示为Sk=[e1,e2,e3,……,em];
获取各个句子经过双向长短期记忆神经网络的向量表示,第k个句子Sk经过双向长短期记忆神经网络获取的向量集合为H=[h1,h2,h3,……,hm];
计算句子中各个词的权重,所有词向量进行加权和作为特征向量h*,h*=tanh(γ),其中,γ=HαT,α=softmax(ωTM),ωT表示需要学习的参数,ω的维度是dw*1,α的维度为1*m,M=tanh(H),M的维度是dw*m,dw表示向量的维度,m为第k个句子的分词数;
通过各个句子的特征向量h*计算各个句子包含事件个数n,获得各句子级事件数量数组N=[n1,n2,n3,……,nq],其中,nq是第q句预测的事件数量;以及
获取句子级事件总数
Figure FDA0003426729150000011
2.根据权利要求1所述的电子病历文本事件抽取方法,其特征在于,所述训练好的词向量的获取方法为:通过对电子病历文本进行分词,进而对分词进行训练获得。
3.根据权利要求1所述的电子病历文本事件抽取方法,其特征在于,所述hm通过双向长短期记忆神经网络对句子的词向量em训练获得,词向量em经过双向长短期记忆神经网络正向输出为
Figure FDA0003426729150000012
反向输出为
Figure FDA0003426729150000013
则第m个词经过双向长短期记忆网络后得到的向量为
Figure FDA0003426729150000021
其中
Figure FDA0003426729150000022
表示将向量元素对应相加。
4.根据权利要求1所述的电子病历文本事件抽取方法,其特征在于,通过各个句子的特征向量h*计算各个句子包含事件个数n,包括:通过softmax函数计算,取包含事件个数n(10≥n≥0)的最大概率作为各个句子包含的事件个数n。
5.根据权利要求1所述的电子病历文本事件抽取方法,其特征在于,还包括:
在段落开头和段落结尾处分别加入划分标记;
基于所述句子级事件数量数组N对电子病历语句进行划分,扫描数组N,当ni≠0且i>1时,在此句开始前加入划分标记,当ni=0且i>1时,不做处理,继续扫描下一句,直到完成扫描;以及
基于划分标记获取各个事件对应的描述语句段落。
6.根据权利要求5所述的电子病历文本事件抽取方法,其特征在于,还包括:通过划分标记之间的文本长度验证段落划分的有效性。
7.根据权利要求6所述的电子病历文本事件抽取方法,其特征在于,通过划分标记之间的文本长度验证段落划分的有效性,包括:当两个划分标记之间的文本长度L小于阈值Lmin时,将之间的文本作为待合并句子,
如果待合并句子是段落首句,将待合并句子后的划分标记去除,使当前描述句与后一描述句合并,同时段落事件总数量Na=Na-1;
如果待合并句子是段落尾句,将待合并句子前的划分标记去除,使当前描述句与前一描述句合并,同时段落事件总数量Na=Na-1;以及
如果待合并句子位于段落中间,使用命名实体识别模型识别出待合并句子前一句的最后一个实体Ea,识别出待合并句子的第一个实体Eb、最后一个实体Ec,待合并句子后一句的第一个实体Ed,计算Ea、Eb的关联系数,记为<Ea,Eb>,计算Ec、Ed的关联系数<Ec,Ed>,若<Ea,Eb>≥<Ec,Ed>,将待合并句子前的划分标记去除,使当前描述句与前一描述句合并,同时段落事件总数量Na=Na-1,若<Ea,Eb><<Ec,Ed>,将待合并句子后的划分标记去除,使当前描述句与后一描述句合并,同时段落事件总数量Na=Na-1。
8.一种电子病历文本事件抽取装置,其特征在于,包括:
分句模块,所述分句模块基于病历文本标点符号对段落分句,生成k个句子列表S=[S1,S2,S3,……,Sk];
分词模块,所述分词模块对句子列表中的各个句子逐句进行分词,第k个句子Sk的分词列表为Sk=[C1,C2,C3,……,Cm];
向量化模块,所述向量化模块通过训练好的词向量将句子的各个分词向量化,第k个句子Sk的分词列表向量化表示为Sk=[e1,e2,e3,……,em];
经神经网络的向量表示获取模块,所述经神经网络的向量表示获取模块获取各个句子经过双向长短期记忆神经网络的向量表示,第k个句子Sk经过双向长短期记忆神经网络获取的向量集合为H=[h1,h2,h3,……,hm];
特征向量获取模块,所述特征向量获取模块计算句子中各个词的权重,所有词向量进行加权和作为特征向量h*,h*=tanh(γ),其中,γ=HαT,α=softmax(ωTM),ωT表示需要学习的参数,ω的维度是dw*1,α的维度为1*m,M=tanh(H),M的维度是dw*m,dw表示向量的维度,m为第k个句子的分词数;
事件数获取模块,所述事件数获取模块通过各个句子的特征向量h*计算各个句子包含事件个数n,获得各句子级事件数量数组N=[n1,n2,n3,……,nq],其中,nq是第q句预测的事件数量;以及
事件总数获取模块,获取句子级事件总数
Figure FDA0003426729150000041
9.一种电子设备,其特征在于,包括:
存储器,所述存储器存储执行指令;以及
处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行如权利要求1至7中任一项所述的方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现如权利要求1至7中任一项所述的方法。
CN202111580066.9A 2021-12-22 2021-12-22 电子病历文本事件抽取方法、装置、电子设备及存储介质 Pending CN114464281A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111580066.9A CN114464281A (zh) 2021-12-22 2021-12-22 电子病历文本事件抽取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111580066.9A CN114464281A (zh) 2021-12-22 2021-12-22 电子病历文本事件抽取方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114464281A true CN114464281A (zh) 2022-05-10

Family

ID=81405102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111580066.9A Pending CN114464281A (zh) 2021-12-22 2021-12-22 电子病历文本事件抽取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114464281A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115269795A (zh) * 2022-07-20 2022-11-01 北京新纽科技有限公司 一种电子病历的分段方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115269795A (zh) * 2022-07-20 2022-11-01 北京新纽科技有限公司 一种电子病历的分段方法

Similar Documents

Publication Publication Date Title
CN109741806B (zh) 一种医学影像诊断报告辅助生成方法及其装置
CN110069779B (zh) 医疗文本的症状实体识别方法及相关装置
JP6692488B2 (ja) ニューロンネットワークをトレーニングする方法及び能動学習システム
CN106874643B (zh) 基于词向量自动构建知识库实现辅助诊疗的方法和系统
US20240029866A1 (en) Image-driven brain atlas construction method, device and storage medium
US20200105414A1 (en) Information processing apparatus, information processing system, information processing method, and non-transitory computer-readable storage medium
CN111192660B (zh) 一种影像报告分析方法、设备及计算机存储介质
CN113077875B (zh) Ct影像的处理方法及装置
CN111292814A (zh) 一种医疗数据标准化的方法及装置
Chan et al. Quasi-conformal statistical shape analysis of hippocampal surfaces for Alzheimer׳ s disease analysis
US20220375576A1 (en) Apparatus and method for diagnosing a medical condition from a medical image
CN114464281A (zh) 电子病历文本事件抽取方法、装置、电子设备及存储介质
CN114041800B (zh) 心电信号实时分类方法、装置及可读存储介质
CN115206478A (zh) 医学报告生成方法以及装置、电子设备、可读存储介质
Ghafoor COVID-19 pneumonia level detection using deep learning algorithm
CN117352164A (zh) 基于人工智能的多模态肿瘤检测诊断平台及其处理方法
CN115862897A (zh) 一种基于临床数据的症候群监测方法及系统
CN115938593A (zh) 病历信息的处理方法、装置、设备及计算机可读存储介质
CN116050691A (zh) 医疗影像报告评估方法、装置、电子设备及存储介质
Carrillo-de-Gea et al. Detection of normality/pathology on chest radiographs using LBP
US7379576B2 (en) Method and system for patient identification in 3D digital medical images
CN115089112A (zh) 卒中后认知障碍风险评估模型建立方法、装置及电子设备
Rifa'i et al. Analysis for diagnosis of pneumonia symptoms using chest X-Ray based on Resnet-50 models with different epoch
CN113554640A (zh) Ai模型的训练方法、使用方法、计算机设备及存储介质
CN113903433A (zh) 一种图像处理方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination