CN113095074A - 中文电子病历的分词方法及系统 - Google Patents

中文电子病历的分词方法及系统 Download PDF

Info

Publication number
CN113095074A
CN113095074A CN202110303360.9A CN202110303360A CN113095074A CN 113095074 A CN113095074 A CN 113095074A CN 202110303360 A CN202110303360 A CN 202110303360A CN 113095074 A CN113095074 A CN 113095074A
Authority
CN
China
Prior art keywords
electronic medical
medical record
word segmentation
chinese electronic
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110303360.9A
Other languages
English (en)
Inventor
杜金莲
密伟
苏航
金雪云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202110303360.9A priority Critical patent/CN113095074A/zh
Publication of CN113095074A publication Critical patent/CN113095074A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/70Smart grids as climate change mitigation technology in the energy generation sector
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了中文电子病历的分词方法及系统,该方法的主体为基于GNN‑BiLSTM‑CRF的中文电子病历分词模型,包含步骤如下:数据集的构建及数据的处理。将来源于合作医院的中文电子病历数据进行人工标注,完成中文电子病历分词数据集的构建。将构建好的数据集中的数据转为CoNLL格式。训练中文电子病历分词模型。本发明提出的中文电子病历模型充分利用GNN及LSTM的优势,通过图结构和链结构交互捕获医疗术语构词规律等局部特征和上下文序列信息及长期特征,提高分词的质量。通过图神经网络高效将领域词典融入到分词模型中,通过其学习术语构词规律扩展了词典的应用价值,降低了模型对数据集的依赖同时缓解了医学术语繁多且与日俱增而导致的分词问题。

Description

中文电子病历的分词方法及系统
技术领域
本发明属于自然语言处理领域,是一种基于深度学习的中文电子病历的分词方法及其所构建的系统;具体为使用基于GNN-BiLSTM-CRF的模型对中文电子病历进行分词。
背景技术
电子病历文本分词的任务是医学自然语言处理的重要组成部分,是构建临床辅助诊疗和个人健康信息管理知识图谱等目标的首要步骤,具有重要的应用价值,分词效果的好坏影响知识图谱的质量并最终影响数据的价值发挥。
对中文分词方法的研究已经从二十世纪八十年代持续至今,大致有三类方法:基于词典的匹配法、基于统计学和语言模型的统计分词方法和基于神经网络的深度学习方法。
基于词典匹配法最早于1986年由刘源等人提出,后续又发展出根据大小和方向等多种匹配方法。词典匹配分词速度快,针对性强,无需训练,但是过于依赖词典,且难以消除歧义,对未登录词的识别处理效果也较差。目前已经很少单独用于分词,一般用作模型的一部分来提高分词效果。
基于统计学和语言模型的分词方法较多,Sproat等人在二十世纪九十年代提出的互信息模型,Xue等人在2003年率先使用最大熵模型,Peng等人在2004年提出的条件随机场模型等。该类方法已经在分词方面已经取得了不错的效果,但是较为依赖特征工程,特征定义的好坏直接影响分词的结果。
自2013年Zheng等人将神经网络应用于中文文本分词后,许多学者就开始了基于深度学习的中文分词方法研究。Chen等人在2015年使用RNN的变种LSTM来解决中文分词问题,通过模型的记忆单元学习文本信息的长期依赖。Huang等人将神经网络和统计模型进行结合,提出了BI-LSTM-CRF模型。这些深度学习模型在分词中取得了不错的效果,但是缺点在于对数据集依赖较大,同时不同领域之间的适应性较弱。
目前通用领域的中文分词技术已经日趋成熟,分词结果可以达到极高的标准,比如jieba、pkuseg等分词工具在通用领域开源数据集上的准确率和召回率已经能达到百分之九十以上。但是处理电子病历等特殊的专业领域时,由于存在大量专业术语且新术语与日俱增,以及文本风格特殊等因素的存在,这些基于通用领域数据集训练出来的分词工具会导致许多错误的切分。
许多学者针对中文电子病历分词的问题也进行了研究,取得了一定的成果。如张立邦使用基于半监督学习的方式进行中文电子病历分词,先用领域词典对电子病历进行切分,后引入概率模型估计词的出现概率,最后利用信息熵将未登录词识别转化为最优化问题,利用动态规划算法求解,有效的改良了传统无监督分词方法在处理电子病历时良度失效的问题。Xia通过词典来生成中文临床的部分标记数据,然后和标注数据一起训练半监督条件随机场模型,来解决注释数据稀缺影响模型质量问题。Junjie Xing通过自适应多任务迁移学习的多任务学习框架,建议最小化源和目标域之间隐藏表示的分布距离,彼此适应并获得领域不变特征,通过这种迁移学习的思想来提高分词效果,有效的改善了模型对注释数据严重依赖的问题。
这些研究虽然取得了不错的效果,但是这些模型一般对词典的利用程度极其有限,对数据集依赖较高,而电子病历同时还存在领域隐私性和专业性强导致标注数据集成本较高的问题。领域词典相比于标注数据集成本更低,医学术语的构词方式一般有其规律可循。因此如果能通过领域词典来高效学习这些构词规律等知识,将有利于识别生词,降低对数据集的依赖。
发明内容
本发明基于以上分析,结合中文电子病历语料结构风格及医疗领域术语特点,提出了一种基于GNN-BiLSTM-CRF的中文电子病历分词模型,通过学习领域词典知识、挖掘文本信息特征来解决电子病历分词中的问题,提高分词的质量。并基于该模型构建中文电子病历分词系统,便于使用。
本发明主要包含两个部分:
中文电子病历的分词方法,该方法的主体为基于GNN-BiLSTM-CRF的中文电子病历分词模型,包含步骤如下:
步骤1,数据集的构建及数据的处理。
将来源于合作医院的中文电子病历数据进行人工标注,完成中文电子病历分词数据集的构建。将构建好的数据集中的数据转为CoNLL格式。
步骤2,训练中文电子病历分词模型。
步骤2.1,提取步骤1中处理完毕后的部分数据,生成训练集,将训练集和词典输入到嵌入单元中,使用Word2vec进行嵌入将字和词转化为对应的向量输入到模型的下一层图神经网络GNN单元进行计算。
步骤2.2,通过嵌入后的字和词的向量来构建图,其中字作为图中的节点,词作为图中的边,然后通过基于多头注意力机制和门控机制的迭代聚合更新这种信息传递机制来学习医学领域术语构词规律等局部特征。每次迭代中图的节点特征和边的特征都会得到更新,将其最后一次迭代后的图中每个节点的特征向量输入到模型的下一层。
步骤2.3,将图中的每个节点特征输入到双向长短期记忆网络LSTM单元中,以对每个字的上下文信息进行建模捕获序列信息和远程依赖特征来挖掘中文电子病历语料文本信息特征。
步骤2.4,对LSTM的输出使用条件随机场CRF单元来联合解码预测最佳标签序列,最终输出模型对每个字的预测标签。
步骤2.5,使用负对数似然函数作为损失函数来评价模型的预测值和真实值的差异程度,通过最小化损失函数来进行训练,得到中文电子病历分词模型。
基于该模型构建了基于B/S架构的中文电子病历分词在线图形化系统,该系统的主要功能模块如下:
前端界面模块,可以通过浏览器访问本系统的前端界面;通过界面中对应的输入文本框或上传文件功能将原始的中文电子病历的数据进行输入。通过界面中的分词功能将输入数据传递到系统的数据处理模块进行分词预处理。在界面中显示分词后的结果并提供下载功能。
数据处理模块,将前端输入的数据转成符合中文电子病历分词模块所需的输入的CoNLL格式,输入到中文电子病历分词模块。按照中文电子病历分词模块输出的每个字的预测标签对原始输入的中文电子病历文本进行分词,并将分词结果返回到前端界面。
中文电子病历分词模块,将数据处理模块处理后的数据输入到训练好的中文电子病历分词模型中,并依次通过其中的嵌入单元、图神经网络单元、双向长短期记忆网络单元、条件随机场单元进行运算,最终输出每个字的预测标签,然后将结果返回到数据处理模块。
本发明具有以下优点:
1、本发明提出的中文电子病历模型充分利用GNN及LSTM的优势,通过图结构和链结构交互捕获医疗术语构词规律等局部特征和上下文序列信息及长期特征,提高分词的质量。
2、通过图神经网络高效将领域词典融入到分词模型中,通过其学习术语构词规律扩展了词典的应用价值,降低了模型对数据集的依赖同时缓解了医学术语繁多且与日俱增而导致的分词问题。
3、使用注意力机制和门控机制来帮助模型过滤噪音,提升模型在中文电子病历分词中的表现。
4、使用训练好的模型构建系统,后续面临中文电子病历分词任务时,可以直接使用该系统将待处理的电子病历数据输入系统,即可得到分词后的结果。
附图说明
图1为基于GNN-BiLSTM-CRF的中文电子病历分词模型的结构示意图
图2为系统功能模块示意图
图3为系统的流程示意图
图4为模型中图的构建部分的示例图
具体实施方式
以下将结合附图所示的具体实施方式对本发明进行详细描述。
本发明中的中文电子病历分词模型结构示意图如图1所示,具体实施步骤如下:
(1)数据集的构建及数据的处理
本研究中的数据集主要来源于合作医院,为了确保数据集的有效性,其标注规则是在北京大学计算语言学研究所创建的中文分词标准的基础之上,考虑后续构建知识图谱等结构化需求,经过数据挖掘专业人士与医院业内专家前后五个版本的修订,最终用于电子病历的标注工作。标注工作均由领域内专业人士完成,在标注前根据制定好的标注规则对标注人员进行培训学习。标注之后进行反复交叉验证,来解决注释者的分歧问题。标注流程参考Cohen等人的观点。
原始的中文电子病历数据分词在模型中其实是进行字级别的序列标注,本发明使用BMES序列标注方法,基本原理是文本中的每一个字都用“B”、“M”、“E”、“S”四个字母中的一个字母标注。其中“B”代表词的开始位置(begin),“M”代表词的中间位置(middle),“E”代表词的结尾部分(end),“S”代表单字组成词(single),这种标注方式下,从“B”到“E”表示一个词,“S”表示一个词,这样通过对每个字进行标注,便可以将文本进行分词,文本分词方法研究的目标就是寻找最优的标注序列,因此数据在输入到模型之前需要将其转化为符合的输入格式,本模型使用CoNLL格式,每个字及其标记为一行,中间使用制表符分割,句子用空行分隔。
(2)模型的构建
模型结构如图1所示,自底向上依次为:
a)嵌入层将待分词的文本映射成向量的形式来输入到模型中,使用Word2vec进行字嵌入和词嵌入,并进行微调。
b)GNN层首先进行图的构建,然后使用迭代的聚合和更新来进行特征信息的提取和传递,最终的节点特征信息输出到下一层模型。
·图的构建
文本中的每个字对应于图中的每个节点,图中的边代表词典与文本相匹配的词,即文本中存在的词典中的词。如输入文本“硝酸甘油”,词典中与之匹配的有“硝酸”、“甘油”、“硝酸甘油”三个词,则基于此词典构建的图如图4所示。
其中图的四个节点:c1对应“硝”,c2对应“酸”,c3对应“甘”,c4对应“油”;图中的边:e1,2对应“硝酸”,e1,4对应“硝酸甘油”,e3,4对应“甘油”。
·图神经网络的聚合
图神经网络聚合运算使用多头注意力机制,其中节点特征集合
Figure BDA0002987170940000051
和边特征集合
Figure BDA0002987170940000052
eij为所有词典和文本相匹配的词即图中的所有边。
每个节点co聚合计算时经过以下三步:
第一步先确定节点co需要聚合的特征信息
Figure BDA0002987170940000053
节点聚合时为每个节点聚合其边特征
Figure BDA0002987170940000054
和对应相连节点的特征
Figure BDA0002987170940000055
通过词和词首词尾的特征提取可以有效习得词的边界信息。
Figure BDA0002987170940000061
计算如公式(1)所示:
Figure BDA0002987170940000062
其中:“[||]”代表拼接操作,
Figure BDA0002987170940000063
拼接后特征维度为2F;r∈No,No代表所有与co有边连接的节点下标集合,“|”代表或,即同时考虑co作为词首和词尾两种情况。
第二步计算节点特征
Figure BDA0002987170940000064
与聚合特征
Figure BDA0002987170940000065
的注意力系数αro
Figure BDA0002987170940000066
其中:Wc和Wg均为可训练的权重矩阵,其中
Figure BDA0002987170940000067
Figure BDA0002987170940000068
将特征进行线性变换;
Figure BDA0002987170940000069
Wo为可训练的权重矩阵,
Figure BDA00029871709400000610
Figure BDA00029871709400000611
LR代表对使用LeakyReLU函数进行非线性激活;
第三步使用多头机制来计算聚合后的特征
Figure BDA00029871709400000612
Figure BDA00029871709400000613
其中:K为多头注意力机制的头数;
Figure BDA00029871709400000614
代表第k个注意力机制计算的归一化后的节点特征与对应聚合特征的注意力系数;Wk为可训练权重矩阵;对所有头进行加权平均,得到最终的输出特征
Figure BDA00029871709400000615
节点聚合的最终输出特征集合为
Figure BDA00029871709400000616
边eij聚合也经过三步:
第一步先确定边eij需要聚合的特征信息
Figure BDA00029871709400000617
边聚合时为每条边聚合该边上的所有节点的特征信息,v∈Nij,Nij代表从节点i到节点j的所有节点的下标集合。
第二部计算边特征
Figure BDA00029871709400000618
与聚合特征
Figure BDA00029871709400000619
的注意力系数αiv
Figure BDA00029871709400000620
其中:We和Wv均为可训练的权重矩阵,其中We,
Figure BDA00029871709400000621
Wi为可训练的权重矩阵,
Figure BDA0002987170940000071
第三步使用多头机制来计算聚合后的特征
Figure BDA0002987170940000072
Figure BDA0002987170940000073
其中:K为多头注意力机制的头数;
Figure BDA0002987170940000074
代表第k个注意力机制计算的归一化后的边特征与对应聚合特征的注意力系数;We为可训练权重矩阵。
边聚合的最终输出特征集合为
Figure BDA0002987170940000075
·图神经网络的更新
模型使用门控机制将聚合得到的特征有控制的流向节点和边,从而其学习聚合得到的局部特征信息。下面分别对节点更新和边更新进行介绍。
节点更新:
输入t时刻节点特征集合
Figure BDA0002987170940000076
和节点聚合的特征集合
Figure BDA0002987170940000077
输出t+1时刻
Figure BDA0002987170940000078
Figure BDA0002987170940000079
Figure BDA00029871709400000710
Figure BDA00029871709400000711
Figure BDA00029871709400000712
Figure BDA00029871709400000713
其中W、V均为可训练的参数矩阵,b为可训练参数向量;⊙是Hadamard Product,矩阵中对应的元素相乘,要求两个相乘矩阵是同型的;σ为激活函数sigmoid;Softmax对两个门控进行归一化;tanh为激活函数,进行非线性变化;
Figure BDA00029871709400000714
为节点o在t+1轮迭代中的节点特征。
首先计算两个门控
Figure BDA00029871709400000715
Figure BDA00029871709400000716
以及待学习的特征信息
Figure BDA00029871709400000717
均由节点特征
Figure BDA00029871709400000718
和聚合特征
Figure BDA00029871709400000719
计算得出。然后用
Figure BDA00029871709400000720
来控制遗忘特征
Figure BDA00029871709400000721
中的部分信息,用
Figure BDA00029871709400000722
控制学习特征
Figure BDA00029871709400000723
中的部分信息。最终输出下一轮的节点特征
Figure BDA00029871709400000724
边更新:
输入t时刻边特征集合
Figure BDA0002987170940000081
和边聚合得到的特征集合
Figure BDA0002987170940000082
Figure BDA0002987170940000083
输出t+1时刻边特征集合
Figure BDA0002987170940000084
Figure BDA0002987170940000085
Figure BDA0002987170940000086
Figure BDA0002987170940000087
Figure BDA0002987170940000088
Figure BDA0002987170940000089
其中W、V为可训练的参数矩阵,b为可训练参数向量;⊙、σ、Softmax、tanh同节点更新;
Figure BDA00029871709400000810
为边eij在t+1轮迭代中的边特征。
首先计算两个门控
Figure BDA00029871709400000811
Figure BDA00029871709400000812
以及待传递的特征信息
Figure BDA00029871709400000813
Figure BDA00029871709400000814
通过边特征
Figure BDA00029871709400000815
和聚合特征
Figure BDA00029871709400000816
计算得来。然后用
Figure BDA00029871709400000817
控制特征
Figure BDA00029871709400000818
Figure BDA00029871709400000819
控制特征
Figure BDA00029871709400000820
最终输出下一轮的边特征
Figure BDA00029871709400000821
整个图神经网络每轮迭代,都经过一次完整的节点、边聚合,以及节点、边更新。经过m轮迭代,最终输出的节点特征集合
Figure BDA00029871709400000822
作为图神经网络的输出。
c)LSTM层使用双向LSTM分别捕获过去和将来的信息,将两个结果进行连接作为最终输出。其输入来自于图神经网络的输出,其具体计算过程如下:
首先计算三个门控
Figure BDA00029871709400000823
以及待传递的特征信息
Figure BDA00029871709400000824
均由
Figure BDA00029871709400000825
和输出
Figure BDA00029871709400000826
计算得出。
Figure BDA00029871709400000827
Figure BDA00029871709400000828
Figure BDA00029871709400000829
Figure BDA0002987170940000091
其中W、V为可训练的参数矩阵,b为可训练参数向量。
门控
Figure BDA0002987170940000092
用来控制遗忘前一单元传递过来的记忆特征
Figure BDA0002987170940000093
中的部分信息,门控
Figure BDA0002987170940000094
用来控制学习特征
Figure BDA0002987170940000095
中的部分信息,生成当前单元记忆特征
Figure BDA0002987170940000096
并将其传递到后一单元,如公式(9)所示:
Figure BDA0002987170940000097
Figure BDA0002987170940000098
使用tanh函数进行非线性激活后,通过门控
Figure BDA0002987170940000099
遗忘其中部分信息,得到当前单元的输出
Figure BDA00029871709400000910
并将其传递到后一单元,如公式(10)所示:
Figure BDA00029871709400000911
LSTM中的ht用于获得距离当前节点较近的节点传递过来的特征信息,Ct则用于记录远程的序列信息,一近一远高效捕获上下文的序列信息和远程依赖。
d)CRF层通过CRF对整句文本的标签序列进行建模,根据对应的观测序列来预测对应的状态序列,标签序列y的得分s(y|x)计算如下:
Figure BDA00029871709400000912
其中:T是编码层输出进行线性变换后得到的矩阵,其中的矩阵元素
Figure BDA00029871709400000913
代表当前字xi对应标签为yi时的分数。Z代表转移矩阵,通过训练进行学习。其中的矩阵元素
Figure BDA00029871709400000914
代表从前一标签yi-1转移到当前标签yi的分数。
计算所有可能的标签序列的分数后使用softmax函数进行归一化,得到标签序列y的条件概率P(y|x):
Figure BDA00029871709400000915
其中:Y(x)代表所有可能的标签序列。
(3)模型的训练
将预测结果与真实情况进行比较,使用负对数似然函数作为损失函数,如公式(13)所示:
Figure BDA0002987170940000101
通过最小化损失函数,进行训练。
在预测过程中,寻找具有最高条件概率的标签序列y*
Figure BDA0002987170940000102
使用维特比算法进行求解。y*即模型最终预测输出的标签序列。
(4)模型分词实验效果
a)实验条件
Windows 10,Python,Pytorch框架,GeForce GTX 2080Ti显卡。
b)实验参数
实验中字嵌入和词嵌入的维度均设置为50,GNN聚合过程中的多头注意力的头数和维度大小都设置为10,GNN的迭代次数为2,LSTM层的维度设置为128,batchsize大小设置为8,学习率设置为2e-4,使用adam优化算法,为了减少过拟合,使用dropout随机失活,嵌入层比率0.5,聚合层比率0.2,LSTM层比率0.2。
c)性能比较
使用目前最主流的分词工具jieba、pkuseg作为对比,其中pkuseg支持加载预训练好的分词模型,数据集属于医疗领域,所以使用时pkuseg均加载medicine领域模型。由于两种分词工具均支持加载词典,于是使用这两项分词工具设置四组对比试验。
同时使用目前最主流的序列标注模型BI-LSTM-CRF以及Xing等人提出的针对中文医疗文本分词的最新技术模型AMTTL作为基线模型。
使用本专利构建的中文电子病历分词数据集EMRs进行实验,结果见表1,可以看出本方法优于以往效果最好的电子病历分词模型和最主流的分词工具。
表1 EMRs数据集的主要实验结果
Figure BDA0002987170940000103
Figure BDA0002987170940000111
为了更好的验证模型的有效性,将本方法运用于xing等人在论文中公开的来自Good Doctor Online这一中国医学咨询论坛的数据集Forum中,可以看出,在两个数据集中,本专利模型效果均优于其他分词模型及分词工具。
表2 Forum数据集的主要实验结果
Figure BDA0002987170940000112
本发明的中文电子病历分词系统的流程图如图3所示,该系统的构建使用Java、SpringBoot、Bootstrap、python、pytorch等语言框架,基于B/S架构,即浏览器/服务器端,浏览器端是使用系统的接口,通过浏览器的界面可以对服务器端传输数据或提出请求,并对服务器端返回的结果进行处理并展示。服务器端用来进行数据的处理,并将结果返回,使用B/S架构可以让系统具有更好的通用性,对环境依赖小,便于使用,系统的主要步骤如下:
(1)在浏览器中,可以通过界面中的输入文本框或上传文件的功能将原始电子病历数据输入,对服务器提出请求,将输入的数据进行分词处理。
(2)服务器端将从浏览器中传输过来的输入数据转成符合模型输入的CoNLL格式(BMES标注)的数据。
(3)将格式转换好的数据输入到训练好的模型中,通过维特比算法来预测其最优的标注序列。
(4)按照模型输出的最优标注序列将文本进行分词
(5)服务器端返回分词后的电子病历数据,将其显示在浏览器的输出文本框中且可以导出下载
综上所述,本发明提出了一种用于中文电子病历分词的模型及系统,模型通过融合使用了基于注意力机制、门控机制的图神经网络(GNN)、长短期记忆网络(LSTM)和条件随机场(CRF)来充分发挥不同网络的优势,有效地解决了中文电子病历分词的问题,并通过实验验证了模型具有较高的精度。通过将训练好的模型封装为BS架构的系统,可以更加方便高效的用于中文电子病历分词任务,只需要使用浏览器输入数据即可进行分词操作,便于使用。

Claims (2)

1.中文电子病历的分词方法,其特征在于:该方法的主体为基于GNN-BiLSTM-CRF的中文电子病历分词模型,包含步骤如下:
步骤1,数据集的构建及数据的处理;
将来源于合作医院的中文电子病历数据进行人工标注,完成中文电子病历分词数据集的构建;将构建好的数据集中的数据转为CoNLL格式;
步骤2,训练中文电子病历分词模型;
步骤2.1,提取步骤1中处理完毕后的部分数据,生成训练集,将训练集和词典输入到嵌入单元中,使用Word2vec进行嵌入将字和词转化为对应的向量输入到模型的下一层图神经网络GNN单元进行计算;
步骤2.2,通过嵌入后的字和词的向量来构建图,其中字作为图中的节点,词作为图中的边,然后通过基于多头注意力机制和门控机制的迭代聚合更新这种信息传递机制来学习医学领域术语构词规律等局部特征;每次迭代中图的节点特征和边的特征都会得到更新,将其最后一次迭代后的图中每个节点的特征向量输入到模型的下一层;
步骤2.3,将图中的每个节点特征输入到双向长短期记忆网络LSTM单元中,以对每个字的上下文信息进行建模捕获序列信息和远程依赖特征来挖掘中文电子病历语料文本信息特征;
步骤2.4,对LSTM的输出使用条件随机场CRF单元来联合解码预测最佳标签序列,最终输出模型对每个字的预测标签;
步骤2.5,使用负对数似然函数作为损失函数来评价模型的预测值和真实值的差异程度,通过最小化损失函数来进行训练,得到中文电子病历分词模型。
2.利用权利要求1所述方法设计的中文电子病历的分词系统,其特征在于:基于该模型构建了基于B/S架构的中文电子病历分词在线图形化系统,该系统的主要功能模块如下:
前端界面模块,可以通过浏览器访问本系统的前端界面;通过界面中对应的输入文本框或上传文件功能将原始的中文电子病历的数据进行输入;通过界面中的分词功能将输入数据传递到系统的数据处理模块进行分词预处理;在界面中显示分词后的结果并提供下载功能;
数据处理模块,将前端输入的数据转成符合中文电子病历分词模块所需的输入的CoNLL格式,输入到中文电子病历分词模块;按照中文电子病历分词模块输出的每个字的预测标签对原始输入的中文电子病历文本进行分词,并将分词结果返回到前端界面;
中文电子病历分词模块,将数据处理模块处理后的数据输入到训练好的中文电子病历分词模型中,并依次通过其中的嵌入单元、图神经网络单元、双向长短期记忆网络单元、条件随机场单元进行运算,最终输出每个字的预测标签,然后将结果返回到数据处理模块。
CN202110303360.9A 2021-03-22 2021-03-22 中文电子病历的分词方法及系统 Pending CN113095074A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110303360.9A CN113095074A (zh) 2021-03-22 2021-03-22 中文电子病历的分词方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110303360.9A CN113095074A (zh) 2021-03-22 2021-03-22 中文电子病历的分词方法及系统

Publications (1)

Publication Number Publication Date
CN113095074A true CN113095074A (zh) 2021-07-09

Family

ID=76669396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110303360.9A Pending CN113095074A (zh) 2021-03-22 2021-03-22 中文电子病历的分词方法及系统

Country Status (1)

Country Link
CN (1) CN113095074A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535904A (zh) * 2021-07-23 2021-10-22 重庆邮电大学 一种基于图神经网络的方面级情感分析方法
CN114429129A (zh) * 2021-12-22 2022-05-03 南京信息工程大学 一种文献挖掘与材料性质预测方法
CN114818717A (zh) * 2022-05-25 2022-07-29 华侨大学 融合词汇和句法信息的中文命名实体识别方法及系统
WO2023000728A1 (zh) * 2021-07-23 2023-01-26 华为云计算技术有限公司 一种分词方法及其相关设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977205A (zh) * 2019-03-08 2019-07-05 中南大学 一种计算机自主学习源代码的方法
CN110277165A (zh) * 2019-06-27 2019-09-24 清华大学 基于图神经网络的辅助诊断方法、装置、设备及存储介质
CN110688855A (zh) * 2019-09-29 2020-01-14 山东师范大学 基于机器学习的中文医疗实体识别方法及系统
CN111967266A (zh) * 2020-09-09 2020-11-20 中国人民解放军国防科技大学 中文命名实体识别模型及其构建方法和应用
CN112489740A (zh) * 2020-12-17 2021-03-12 北京惠及智医科技有限公司 病历检测方法及相关模型的训练方法和相关设备、装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977205A (zh) * 2019-03-08 2019-07-05 中南大学 一种计算机自主学习源代码的方法
CN110277165A (zh) * 2019-06-27 2019-09-24 清华大学 基于图神经网络的辅助诊断方法、装置、设备及存储介质
CN110688855A (zh) * 2019-09-29 2020-01-14 山东师范大学 基于机器学习的中文医疗实体识别方法及系统
CN111967266A (zh) * 2020-09-09 2020-11-20 中国人民解放军国防科技大学 中文命名实体识别模型及其构建方法和应用
CN112489740A (zh) * 2020-12-17 2021-03-12 北京惠及智医科技有限公司 病历检测方法及相关模型的训练方法和相关设备、装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535904A (zh) * 2021-07-23 2021-10-22 重庆邮电大学 一种基于图神经网络的方面级情感分析方法
WO2023000728A1 (zh) * 2021-07-23 2023-01-26 华为云计算技术有限公司 一种分词方法及其相关设备
CN114429129A (zh) * 2021-12-22 2022-05-03 南京信息工程大学 一种文献挖掘与材料性质预测方法
CN114818717A (zh) * 2022-05-25 2022-07-29 华侨大学 融合词汇和句法信息的中文命名实体识别方法及系统

Similar Documents

Publication Publication Date Title
CN110210037B (zh) 面向循证医学领域的类别检测方法
CN113095074A (zh) 中文电子病历的分词方法及系统
CN111858944B (zh) 一种基于注意力机制的实体方面级情感分析方法
CN107562792A (zh) 一种基于深度学习的问答匹配方法
CN110196980B (zh) 一种基于卷积网络在中文分词任务上的领域迁移
CN109614471B (zh) 一种基于生成式对抗网络的开放式问题自动生成方法
CN110609897A (zh) 一种融合全局和局部特征的多类别中文文本分类方法
CN113609859A (zh) 一种基于预训练模型的特种设备中文命名实体识别方法
CN110287323B (zh) 一种面向目标的情感分类方法
CN111243699A (zh) 基于字词信息融合的中文电子病历实体抽取方法
CN106569998A (zh) 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN105938485A (zh) 一种基于卷积循环混合模型的图像描述方法
CN114943230B (zh) 一种融合常识知识的中文特定领域实体链接方法
CN111914556B (zh) 基于情感语义转移图谱的情感引导方法及系统
CN113435211B (zh) 一种结合外部知识的文本隐式情感分析方法
CN112420191A (zh) 一种中医辅助决策系统及方法
CN112417884A (zh) 一种基于知识增强和知识迁移的句子语义相关度判断方法
CN113641809B (zh) 一种基于XLNet模型与知识图谱的智能问答方法
CN114417851B (zh) 一种基于关键词加权信息的情感分析方法
CN109033073B (zh) 基于词汇依存三元组的文本蕴含识别方法及装置
CN110188200A (zh) 一种使用社交上下文特征的深度微博情感分析方法
CN114781382A (zh) 基于rwlstm模型融合的医疗命名实体识别系统及方法
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
CN115017279A (zh) 基于文本语义匹配的Stack Overflow相关问答检索方法
CN112989803B (zh) 一种基于主题向量学习的实体链接预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination