CN113095074A - 中文电子病历的分词方法及系统 - Google Patents
中文电子病历的分词方法及系统 Download PDFInfo
- Publication number
- CN113095074A CN113095074A CN202110303360.9A CN202110303360A CN113095074A CN 113095074 A CN113095074 A CN 113095074A CN 202110303360 A CN202110303360 A CN 202110303360A CN 113095074 A CN113095074 A CN 113095074A
- Authority
- CN
- China
- Prior art keywords
- electronic medical
- medical record
- word segmentation
- chinese electronic
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 91
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000013528 artificial neural network Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000010276 construction Methods 0.000 claims abstract description 9
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 21
- 230000007246 mechanism Effects 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 13
- 238000002372 labelling Methods 0.000 claims description 12
- 230000002776 aggregation Effects 0.000 claims description 10
- 238000004220 aggregation Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 4
- 230000008901 benefit Effects 0.000 abstract description 4
- 230000007774 longterm Effects 0.000 abstract description 3
- 239000011159 matrix material Substances 0.000 description 11
- 230000000694 effects Effects 0.000 description 9
- 238000011160 research Methods 0.000 description 7
- 238000006116 polymerization reaction Methods 0.000 description 6
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 5
- SNIOPGDIGTZGOP-UHFFFAOYSA-N Nitroglycerin Chemical compound [O-][N+](=O)OCC(O[N+]([O-])=O)CO[N+]([O-])=O SNIOPGDIGTZGOP-UHFFFAOYSA-N 0.000 description 4
- 239000000006 Nitroglycerin Substances 0.000 description 4
- 230000004913 activation Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 229960003711 glyceryl trinitrate Drugs 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 108091005515 EGF module-containing mucin-like hormone receptors Proteins 0.000 description 2
- GRYLNZFGIOXLOG-UHFFFAOYSA-N Nitric acid Chemical compound O[N+]([O-])=O GRYLNZFGIOXLOG-UHFFFAOYSA-N 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 2
- 238000002079 electron magnetic resonance spectroscopy Methods 0.000 description 2
- 235000011187 glycerol Nutrition 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 229910017604 nitric acid Inorganic materials 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 101100136092 Drosophila melanogaster peng gene Proteins 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- FGIUAXJPYTZDNR-UHFFFAOYSA-N potassium nitrate Chemical compound [K+].[O-][N+]([O-])=O FGIUAXJPYTZDNR-UHFFFAOYSA-N 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 101150049349 setA gene Proteins 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E40/00—Technologies for an efficient electrical power generation, transmission or distribution
- Y02E40/70—Smart grids as climate change mitigation technology in the energy generation sector
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了中文电子病历的分词方法及系统,该方法的主体为基于GNN‑BiLSTM‑CRF的中文电子病历分词模型,包含步骤如下:数据集的构建及数据的处理。将来源于合作医院的中文电子病历数据进行人工标注,完成中文电子病历分词数据集的构建。将构建好的数据集中的数据转为CoNLL格式。训练中文电子病历分词模型。本发明提出的中文电子病历模型充分利用GNN及LSTM的优势,通过图结构和链结构交互捕获医疗术语构词规律等局部特征和上下文序列信息及长期特征,提高分词的质量。通过图神经网络高效将领域词典融入到分词模型中,通过其学习术语构词规律扩展了词典的应用价值,降低了模型对数据集的依赖同时缓解了医学术语繁多且与日俱增而导致的分词问题。
Description
技术领域
本发明属于自然语言处理领域,是一种基于深度学习的中文电子病历的分词方法及其所构建的系统;具体为使用基于GNN-BiLSTM-CRF的模型对中文电子病历进行分词。
背景技术
电子病历文本分词的任务是医学自然语言处理的重要组成部分,是构建临床辅助诊疗和个人健康信息管理知识图谱等目标的首要步骤,具有重要的应用价值,分词效果的好坏影响知识图谱的质量并最终影响数据的价值发挥。
对中文分词方法的研究已经从二十世纪八十年代持续至今,大致有三类方法:基于词典的匹配法、基于统计学和语言模型的统计分词方法和基于神经网络的深度学习方法。
基于词典匹配法最早于1986年由刘源等人提出,后续又发展出根据大小和方向等多种匹配方法。词典匹配分词速度快,针对性强,无需训练,但是过于依赖词典,且难以消除歧义,对未登录词的识别处理效果也较差。目前已经很少单独用于分词,一般用作模型的一部分来提高分词效果。
基于统计学和语言模型的分词方法较多,Sproat等人在二十世纪九十年代提出的互信息模型,Xue等人在2003年率先使用最大熵模型,Peng等人在2004年提出的条件随机场模型等。该类方法已经在分词方面已经取得了不错的效果,但是较为依赖特征工程,特征定义的好坏直接影响分词的结果。
自2013年Zheng等人将神经网络应用于中文文本分词后,许多学者就开始了基于深度学习的中文分词方法研究。Chen等人在2015年使用RNN的变种LSTM来解决中文分词问题,通过模型的记忆单元学习文本信息的长期依赖。Huang等人将神经网络和统计模型进行结合,提出了BI-LSTM-CRF模型。这些深度学习模型在分词中取得了不错的效果,但是缺点在于对数据集依赖较大,同时不同领域之间的适应性较弱。
目前通用领域的中文分词技术已经日趋成熟,分词结果可以达到极高的标准,比如jieba、pkuseg等分词工具在通用领域开源数据集上的准确率和召回率已经能达到百分之九十以上。但是处理电子病历等特殊的专业领域时,由于存在大量专业术语且新术语与日俱增,以及文本风格特殊等因素的存在,这些基于通用领域数据集训练出来的分词工具会导致许多错误的切分。
许多学者针对中文电子病历分词的问题也进行了研究,取得了一定的成果。如张立邦使用基于半监督学习的方式进行中文电子病历分词,先用领域词典对电子病历进行切分,后引入概率模型估计词的出现概率,最后利用信息熵将未登录词识别转化为最优化问题,利用动态规划算法求解,有效的改良了传统无监督分词方法在处理电子病历时良度失效的问题。Xia通过词典来生成中文临床的部分标记数据,然后和标注数据一起训练半监督条件随机场模型,来解决注释数据稀缺影响模型质量问题。Junjie Xing通过自适应多任务迁移学习的多任务学习框架,建议最小化源和目标域之间隐藏表示的分布距离,彼此适应并获得领域不变特征,通过这种迁移学习的思想来提高分词效果,有效的改善了模型对注释数据严重依赖的问题。
这些研究虽然取得了不错的效果,但是这些模型一般对词典的利用程度极其有限,对数据集依赖较高,而电子病历同时还存在领域隐私性和专业性强导致标注数据集成本较高的问题。领域词典相比于标注数据集成本更低,医学术语的构词方式一般有其规律可循。因此如果能通过领域词典来高效学习这些构词规律等知识,将有利于识别生词,降低对数据集的依赖。
发明内容
本发明基于以上分析,结合中文电子病历语料结构风格及医疗领域术语特点,提出了一种基于GNN-BiLSTM-CRF的中文电子病历分词模型,通过学习领域词典知识、挖掘文本信息特征来解决电子病历分词中的问题,提高分词的质量。并基于该模型构建中文电子病历分词系统,便于使用。
本发明主要包含两个部分:
中文电子病历的分词方法,该方法的主体为基于GNN-BiLSTM-CRF的中文电子病历分词模型,包含步骤如下:
步骤1,数据集的构建及数据的处理。
将来源于合作医院的中文电子病历数据进行人工标注,完成中文电子病历分词数据集的构建。将构建好的数据集中的数据转为CoNLL格式。
步骤2,训练中文电子病历分词模型。
步骤2.1,提取步骤1中处理完毕后的部分数据,生成训练集,将训练集和词典输入到嵌入单元中,使用Word2vec进行嵌入将字和词转化为对应的向量输入到模型的下一层图神经网络GNN单元进行计算。
步骤2.2,通过嵌入后的字和词的向量来构建图,其中字作为图中的节点,词作为图中的边,然后通过基于多头注意力机制和门控机制的迭代聚合更新这种信息传递机制来学习医学领域术语构词规律等局部特征。每次迭代中图的节点特征和边的特征都会得到更新,将其最后一次迭代后的图中每个节点的特征向量输入到模型的下一层。
步骤2.3,将图中的每个节点特征输入到双向长短期记忆网络LSTM单元中,以对每个字的上下文信息进行建模捕获序列信息和远程依赖特征来挖掘中文电子病历语料文本信息特征。
步骤2.4,对LSTM的输出使用条件随机场CRF单元来联合解码预测最佳标签序列,最终输出模型对每个字的预测标签。
步骤2.5,使用负对数似然函数作为损失函数来评价模型的预测值和真实值的差异程度,通过最小化损失函数来进行训练,得到中文电子病历分词模型。
基于该模型构建了基于B/S架构的中文电子病历分词在线图形化系统,该系统的主要功能模块如下:
前端界面模块,可以通过浏览器访问本系统的前端界面;通过界面中对应的输入文本框或上传文件功能将原始的中文电子病历的数据进行输入。通过界面中的分词功能将输入数据传递到系统的数据处理模块进行分词预处理。在界面中显示分词后的结果并提供下载功能。
数据处理模块,将前端输入的数据转成符合中文电子病历分词模块所需的输入的CoNLL格式,输入到中文电子病历分词模块。按照中文电子病历分词模块输出的每个字的预测标签对原始输入的中文电子病历文本进行分词,并将分词结果返回到前端界面。
中文电子病历分词模块,将数据处理模块处理后的数据输入到训练好的中文电子病历分词模型中,并依次通过其中的嵌入单元、图神经网络单元、双向长短期记忆网络单元、条件随机场单元进行运算,最终输出每个字的预测标签,然后将结果返回到数据处理模块。
本发明具有以下优点:
1、本发明提出的中文电子病历模型充分利用GNN及LSTM的优势,通过图结构和链结构交互捕获医疗术语构词规律等局部特征和上下文序列信息及长期特征,提高分词的质量。
2、通过图神经网络高效将领域词典融入到分词模型中,通过其学习术语构词规律扩展了词典的应用价值,降低了模型对数据集的依赖同时缓解了医学术语繁多且与日俱增而导致的分词问题。
3、使用注意力机制和门控机制来帮助模型过滤噪音,提升模型在中文电子病历分词中的表现。
4、使用训练好的模型构建系统,后续面临中文电子病历分词任务时,可以直接使用该系统将待处理的电子病历数据输入系统,即可得到分词后的结果。
附图说明
图1为基于GNN-BiLSTM-CRF的中文电子病历分词模型的结构示意图
图2为系统功能模块示意图
图3为系统的流程示意图
图4为模型中图的构建部分的示例图
具体实施方式
以下将结合附图所示的具体实施方式对本发明进行详细描述。
本发明中的中文电子病历分词模型结构示意图如图1所示,具体实施步骤如下:
(1)数据集的构建及数据的处理
本研究中的数据集主要来源于合作医院,为了确保数据集的有效性,其标注规则是在北京大学计算语言学研究所创建的中文分词标准的基础之上,考虑后续构建知识图谱等结构化需求,经过数据挖掘专业人士与医院业内专家前后五个版本的修订,最终用于电子病历的标注工作。标注工作均由领域内专业人士完成,在标注前根据制定好的标注规则对标注人员进行培训学习。标注之后进行反复交叉验证,来解决注释者的分歧问题。标注流程参考Cohen等人的观点。
原始的中文电子病历数据分词在模型中其实是进行字级别的序列标注,本发明使用BMES序列标注方法,基本原理是文本中的每一个字都用“B”、“M”、“E”、“S”四个字母中的一个字母标注。其中“B”代表词的开始位置(begin),“M”代表词的中间位置(middle),“E”代表词的结尾部分(end),“S”代表单字组成词(single),这种标注方式下,从“B”到“E”表示一个词,“S”表示一个词,这样通过对每个字进行标注,便可以将文本进行分词,文本分词方法研究的目标就是寻找最优的标注序列,因此数据在输入到模型之前需要将其转化为符合的输入格式,本模型使用CoNLL格式,每个字及其标记为一行,中间使用制表符分割,句子用空行分隔。
(2)模型的构建
模型结构如图1所示,自底向上依次为:
a)嵌入层将待分词的文本映射成向量的形式来输入到模型中,使用Word2vec进行字嵌入和词嵌入,并进行微调。
b)GNN层首先进行图的构建,然后使用迭代的聚合和更新来进行特征信息的提取和传递,最终的节点特征信息输出到下一层模型。
·图的构建
文本中的每个字对应于图中的每个节点,图中的边代表词典与文本相匹配的词,即文本中存在的词典中的词。如输入文本“硝酸甘油”,词典中与之匹配的有“硝酸”、“甘油”、“硝酸甘油”三个词,则基于此词典构建的图如图4所示。
其中图的四个节点:c1对应“硝”,c2对应“酸”,c3对应“甘”,c4对应“油”;图中的边:e1,2对应“硝酸”,e1,4对应“硝酸甘油”,e3,4对应“甘油”。
·图神经网络的聚合
每个节点co聚合计算时经过以下三步:
边eij聚合也经过三步:
·图神经网络的更新
模型使用门控机制将聚合得到的特征有控制的流向节点和边,从而其学习聚合得到的局部特征信息。下面分别对节点更新和边更新进行介绍。
节点更新:
其中W、V均为可训练的参数矩阵,b为可训练参数向量;⊙是Hadamard Product,矩阵中对应的元素相乘,要求两个相乘矩阵是同型的;σ为激活函数sigmoid;Softmax对两个门控进行归一化;tanh为激活函数,进行非线性变化;为节点o在t+1轮迭代中的节点特征。
边更新:
c)LSTM层使用双向LSTM分别捕获过去和将来的信息,将两个结果进行连接作为最终输出。其输入来自于图神经网络的输出,其具体计算过程如下:
其中W、V为可训练的参数矩阵,b为可训练参数向量。
并将其传递到后一单元,如公式(9)所示:
LSTM中的ht用于获得距离当前节点较近的节点传递过来的特征信息,Ct则用于记录远程的序列信息,一近一远高效捕获上下文的序列信息和远程依赖。
d)CRF层通过CRF对整句文本的标签序列进行建模,根据对应的观测序列来预测对应的状态序列,标签序列y的得分s(y|x)计算如下:
计算所有可能的标签序列的分数后使用softmax函数进行归一化,得到标签序列y的条件概率P(y|x):
其中:Y(x)代表所有可能的标签序列。
(3)模型的训练
将预测结果与真实情况进行比较,使用负对数似然函数作为损失函数,如公式(13)所示:
通过最小化损失函数,进行训练。
在预测过程中,寻找具有最高条件概率的标签序列y*:
使用维特比算法进行求解。y*即模型最终预测输出的标签序列。
(4)模型分词实验效果
a)实验条件
Windows 10,Python,Pytorch框架,GeForce GTX 2080Ti显卡。
b)实验参数
实验中字嵌入和词嵌入的维度均设置为50,GNN聚合过程中的多头注意力的头数和维度大小都设置为10,GNN的迭代次数为2,LSTM层的维度设置为128,batchsize大小设置为8,学习率设置为2e-4,使用adam优化算法,为了减少过拟合,使用dropout随机失活,嵌入层比率0.5,聚合层比率0.2,LSTM层比率0.2。
c)性能比较
使用目前最主流的分词工具jieba、pkuseg作为对比,其中pkuseg支持加载预训练好的分词模型,数据集属于医疗领域,所以使用时pkuseg均加载medicine领域模型。由于两种分词工具均支持加载词典,于是使用这两项分词工具设置四组对比试验。
同时使用目前最主流的序列标注模型BI-LSTM-CRF以及Xing等人提出的针对中文医疗文本分词的最新技术模型AMTTL作为基线模型。
使用本专利构建的中文电子病历分词数据集EMRs进行实验,结果见表1,可以看出本方法优于以往效果最好的电子病历分词模型和最主流的分词工具。
表1 EMRs数据集的主要实验结果
为了更好的验证模型的有效性,将本方法运用于xing等人在论文中公开的来自Good Doctor Online这一中国医学咨询论坛的数据集Forum中,可以看出,在两个数据集中,本专利模型效果均优于其他分词模型及分词工具。
表2 Forum数据集的主要实验结果
本发明的中文电子病历分词系统的流程图如图3所示,该系统的构建使用Java、SpringBoot、Bootstrap、python、pytorch等语言框架,基于B/S架构,即浏览器/服务器端,浏览器端是使用系统的接口,通过浏览器的界面可以对服务器端传输数据或提出请求,并对服务器端返回的结果进行处理并展示。服务器端用来进行数据的处理,并将结果返回,使用B/S架构可以让系统具有更好的通用性,对环境依赖小,便于使用,系统的主要步骤如下:
(1)在浏览器中,可以通过界面中的输入文本框或上传文件的功能将原始电子病历数据输入,对服务器提出请求,将输入的数据进行分词处理。
(2)服务器端将从浏览器中传输过来的输入数据转成符合模型输入的CoNLL格式(BMES标注)的数据。
(3)将格式转换好的数据输入到训练好的模型中,通过维特比算法来预测其最优的标注序列。
(4)按照模型输出的最优标注序列将文本进行分词
(5)服务器端返回分词后的电子病历数据,将其显示在浏览器的输出文本框中且可以导出下载
综上所述,本发明提出了一种用于中文电子病历分词的模型及系统,模型通过融合使用了基于注意力机制、门控机制的图神经网络(GNN)、长短期记忆网络(LSTM)和条件随机场(CRF)来充分发挥不同网络的优势,有效地解决了中文电子病历分词的问题,并通过实验验证了模型具有较高的精度。通过将训练好的模型封装为BS架构的系统,可以更加方便高效的用于中文电子病历分词任务,只需要使用浏览器输入数据即可进行分词操作,便于使用。
Claims (2)
1.中文电子病历的分词方法,其特征在于:该方法的主体为基于GNN-BiLSTM-CRF的中文电子病历分词模型,包含步骤如下:
步骤1,数据集的构建及数据的处理;
将来源于合作医院的中文电子病历数据进行人工标注,完成中文电子病历分词数据集的构建;将构建好的数据集中的数据转为CoNLL格式;
步骤2,训练中文电子病历分词模型;
步骤2.1,提取步骤1中处理完毕后的部分数据,生成训练集,将训练集和词典输入到嵌入单元中,使用Word2vec进行嵌入将字和词转化为对应的向量输入到模型的下一层图神经网络GNN单元进行计算;
步骤2.2,通过嵌入后的字和词的向量来构建图,其中字作为图中的节点,词作为图中的边,然后通过基于多头注意力机制和门控机制的迭代聚合更新这种信息传递机制来学习医学领域术语构词规律等局部特征;每次迭代中图的节点特征和边的特征都会得到更新,将其最后一次迭代后的图中每个节点的特征向量输入到模型的下一层;
步骤2.3,将图中的每个节点特征输入到双向长短期记忆网络LSTM单元中,以对每个字的上下文信息进行建模捕获序列信息和远程依赖特征来挖掘中文电子病历语料文本信息特征;
步骤2.4,对LSTM的输出使用条件随机场CRF单元来联合解码预测最佳标签序列,最终输出模型对每个字的预测标签;
步骤2.5,使用负对数似然函数作为损失函数来评价模型的预测值和真实值的差异程度,通过最小化损失函数来进行训练,得到中文电子病历分词模型。
2.利用权利要求1所述方法设计的中文电子病历的分词系统,其特征在于:基于该模型构建了基于B/S架构的中文电子病历分词在线图形化系统,该系统的主要功能模块如下:
前端界面模块,可以通过浏览器访问本系统的前端界面;通过界面中对应的输入文本框或上传文件功能将原始的中文电子病历的数据进行输入;通过界面中的分词功能将输入数据传递到系统的数据处理模块进行分词预处理;在界面中显示分词后的结果并提供下载功能;
数据处理模块,将前端输入的数据转成符合中文电子病历分词模块所需的输入的CoNLL格式,输入到中文电子病历分词模块;按照中文电子病历分词模块输出的每个字的预测标签对原始输入的中文电子病历文本进行分词,并将分词结果返回到前端界面;
中文电子病历分词模块,将数据处理模块处理后的数据输入到训练好的中文电子病历分词模型中,并依次通过其中的嵌入单元、图神经网络单元、双向长短期记忆网络单元、条件随机场单元进行运算,最终输出每个字的预测标签,然后将结果返回到数据处理模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110303360.9A CN113095074A (zh) | 2021-03-22 | 2021-03-22 | 中文电子病历的分词方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110303360.9A CN113095074A (zh) | 2021-03-22 | 2021-03-22 | 中文电子病历的分词方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113095074A true CN113095074A (zh) | 2021-07-09 |
Family
ID=76669396
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110303360.9A Pending CN113095074A (zh) | 2021-03-22 | 2021-03-22 | 中文电子病历的分词方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113095074A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113535904A (zh) * | 2021-07-23 | 2021-10-22 | 重庆邮电大学 | 一种基于图神经网络的方面级情感分析方法 |
CN114429129A (zh) * | 2021-12-22 | 2022-05-03 | 南京信息工程大学 | 一种文献挖掘与材料性质预测方法 |
CN114818717A (zh) * | 2022-05-25 | 2022-07-29 | 华侨大学 | 融合词汇和句法信息的中文命名实体识别方法及系统 |
WO2023000728A1 (zh) * | 2021-07-23 | 2023-01-26 | 华为云计算技术有限公司 | 一种分词方法及其相关设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977205A (zh) * | 2019-03-08 | 2019-07-05 | 中南大学 | 一种计算机自主学习源代码的方法 |
CN110277165A (zh) * | 2019-06-27 | 2019-09-24 | 清华大学 | 基于图神经网络的辅助诊断方法、装置、设备及存储介质 |
CN110688855A (zh) * | 2019-09-29 | 2020-01-14 | 山东师范大学 | 基于机器学习的中文医疗实体识别方法及系统 |
CN111967266A (zh) * | 2020-09-09 | 2020-11-20 | 中国人民解放军国防科技大学 | 中文命名实体识别模型及其构建方法和应用 |
CN112489740A (zh) * | 2020-12-17 | 2021-03-12 | 北京惠及智医科技有限公司 | 病历检测方法及相关模型的训练方法和相关设备、装置 |
-
2021
- 2021-03-22 CN CN202110303360.9A patent/CN113095074A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977205A (zh) * | 2019-03-08 | 2019-07-05 | 中南大学 | 一种计算机自主学习源代码的方法 |
CN110277165A (zh) * | 2019-06-27 | 2019-09-24 | 清华大学 | 基于图神经网络的辅助诊断方法、装置、设备及存储介质 |
CN110688855A (zh) * | 2019-09-29 | 2020-01-14 | 山东师范大学 | 基于机器学习的中文医疗实体识别方法及系统 |
CN111967266A (zh) * | 2020-09-09 | 2020-11-20 | 中国人民解放军国防科技大学 | 中文命名实体识别模型及其构建方法和应用 |
CN112489740A (zh) * | 2020-12-17 | 2021-03-12 | 北京惠及智医科技有限公司 | 病历检测方法及相关模型的训练方法和相关设备、装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113535904A (zh) * | 2021-07-23 | 2021-10-22 | 重庆邮电大学 | 一种基于图神经网络的方面级情感分析方法 |
WO2023000728A1 (zh) * | 2021-07-23 | 2023-01-26 | 华为云计算技术有限公司 | 一种分词方法及其相关设备 |
CN114429129A (zh) * | 2021-12-22 | 2022-05-03 | 南京信息工程大学 | 一种文献挖掘与材料性质预测方法 |
CN114818717A (zh) * | 2022-05-25 | 2022-07-29 | 华侨大学 | 融合词汇和句法信息的中文命名实体识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110210037B (zh) | 面向循证医学领域的类别检测方法 | |
CN113095074A (zh) | 中文电子病历的分词方法及系统 | |
CN111858944B (zh) | 一种基于注意力机制的实体方面级情感分析方法 | |
CN107562792A (zh) | 一种基于深度学习的问答匹配方法 | |
CN110196980B (zh) | 一种基于卷积网络在中文分词任务上的领域迁移 | |
CN109614471B (zh) | 一种基于生成式对抗网络的开放式问题自动生成方法 | |
CN110609897A (zh) | 一种融合全局和局部特征的多类别中文文本分类方法 | |
CN113609859A (zh) | 一种基于预训练模型的特种设备中文命名实体识别方法 | |
CN110287323B (zh) | 一种面向目标的情感分类方法 | |
CN111243699A (zh) | 基于字词信息融合的中文电子病历实体抽取方法 | |
CN106569998A (zh) | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 | |
CN105938485A (zh) | 一种基于卷积循环混合模型的图像描述方法 | |
CN114943230B (zh) | 一种融合常识知识的中文特定领域实体链接方法 | |
CN111914556B (zh) | 基于情感语义转移图谱的情感引导方法及系统 | |
CN113435211B (zh) | 一种结合外部知识的文本隐式情感分析方法 | |
CN112420191A (zh) | 一种中医辅助决策系统及方法 | |
CN112417884A (zh) | 一种基于知识增强和知识迁移的句子语义相关度判断方法 | |
CN113641809B (zh) | 一种基于XLNet模型与知识图谱的智能问答方法 | |
CN114417851B (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN109033073B (zh) | 基于词汇依存三元组的文本蕴含识别方法及装置 | |
CN110188200A (zh) | 一种使用社交上下文特征的深度微博情感分析方法 | |
CN114781382A (zh) | 基于rwlstm模型融合的医疗命名实体识别系统及方法 | |
CN115169349A (zh) | 基于albert的中文电子简历命名实体识别方法 | |
CN115017279A (zh) | 基于文本语义匹配的Stack Overflow相关问答检索方法 | |
CN112989803B (zh) | 一种基于主题向量学习的实体链接预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |