CN105159917A - 一种电子病历的非结构化信息转化为结构化的泛化方法 - Google Patents

一种电子病历的非结构化信息转化为结构化的泛化方法 Download PDF

Info

Publication number
CN105159917A
CN105159917A CN201510429975.0A CN201510429975A CN105159917A CN 105159917 A CN105159917 A CN 105159917A CN 201510429975 A CN201510429975 A CN 201510429975A CN 105159917 A CN105159917 A CN 105159917A
Authority
CN
China
Prior art keywords
pattern
clause
information
sample
extensive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510429975.0A
Other languages
English (en)
Other versions
CN105159917B (zh
Inventor
夏小玲
张盈利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Donghua University
Original Assignee
Donghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Donghua University filed Critical Donghua University
Priority to CN201510429975.0A priority Critical patent/CN105159917B/zh
Publication of CN105159917A publication Critical patent/CN105159917A/zh
Application granted granted Critical
Publication of CN105159917B publication Critical patent/CN105159917B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Abstract

本发明涉及一种电子病历的非结构化信息转化为结构化的泛化方法,包括以下步骤:采用样本学习的方法构建初始候选模式库;根据电子病历信息构建关于标本名的医疗词库;根据医疗词库中标本名,把电子病历语句切分成多个子句,其中,每个子句只包含一个标本的信息;采用分词提取工具对子句进行分词,生成子句序列;依据已经构建的初始候选模式库,从所述子句序列中提取新模式;将多个模式泛化成一个模式;根据得到的模式对文本信息进行信息抽取。本发明可以获得更快速、精确的抽取结果。

Description

一种电子病历的非结构化信息转化为结构化的泛化方法
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种电子病历的非结构化信息转化为结构化的泛化方法。
背景技术
随着信息时代数据量的爆炸式增长,临床医疗数据也展现出其容量大、增速快、形式多样和潜在价值高的特点。而在临床医疗领域,以自然语言文本形式存在的非结构化数据占有重要地位。由于自然语言文本没有一个相对统一的结构,文档格式没有具体的限制,书写比较随意,因此对非结构化医疗数据的结构化信息提取变得十分困难,目前针对文本信息抽取常用的方法,主要是基于规则的抽取模型和基于统计的抽取模型两种。
基于统计的抽取模型的特点是信息抽取精度高,但是对于概率模型发训练过程复杂度高,耗时久。而基于规则的抽取模型的特点是抽取过程简单,但抽取结构过分依赖于规则制定或学习的成果。且这两种方法都是针对所有领域的文本信息,而没有考虑到医疗数据的特点,因此这两种方法很难获得快速精确的抽取结果。如何根据电子病历的特点进行信息抽取,特别是对抽取过程的优化,成为医疗数据分析过程中迫切需要解决的问题。
发明内容
本发明所要解决的技术问题是提供一种电子病历的非结构化信息转化为结构化的泛化方法,以获得更快速、精确的抽取结果。
本发明解决其技术问题所采用的技术方案是:提供一种电子病历的非结构化信息转化为结构化的泛化方法,包括以下步骤:
(1)采用样本学习的方法构建初始候选模式库;
(2)根据电子病历信息构建关于标本名的医疗词库;
(3)根据医疗词库中标本名,把电子病历语句切分成多个子句,其中,每个子句只包含一个标本的信息;
(4)采用分词提取工具对子句进行分词,生成子句序列;
(5)依据已经构建的初始候选模式库,从所述子句序列中提取新模式;
(6)将多个模式泛化成一个模式;
(7)根据得到的模式对文本信息进行信息抽取。
所述步骤(5)为:根据子句中的标本名,从初始候选模式库中选择标本名相同的模式,分别计算每一个模式与子句的相似度,取相似度最大值为CMax,对应模式为Pk,若CMax大于设定阈值,且标本名相同,则新模式为Pk;若标本名不同,则根据子句标本名构建与Pk同构的模式;若CMax小于设定阈值,则采用学习方法构建新模式。
所述步骤(5)和步骤(6)之间还包括进行模式优化的步骤,即若从所述步骤(5)产生的新模式来自初始候选模式库,则依据新模式提取子句信息,并与原子句序列比较提取出新模式未提取的词,依据该词在新模式中增加标本属性,标本属性序列与子句序列对应相同,从而优化新模式。
所述步骤(6)具体包括以下子步骤:
(61)对于模式X,把与其相似度大于泛化门限值的模式分为两类,一类是与模式X的标本名属于同一类的模式集P,一类是与模式X的标本名不属于同一类的模式集Q;
(62)对于模式集P中任意模式Y,若Xi=Yi(i=1,2,...,n),则把Xi放入泛化后模式C,若Xi!=Yi,则把Xi|Yi放入模式C,其中Xi和Yi分别是模式X和模式Y的指标;若P为空,则C=X;
(63)对于泛化后模式C,对于模式集Q中任意模式Z,把Ck|Zk放入模式D,其中Ck和Zk分别是模式C和模式Z的标本名;若Ci=Zi(i=1,2,...,n),则把Ci放入泛化后模式D;若Ci!=Zi,则把Ci|Zi放入模式D,其中Ci和Zi分别是模式C和模式Z的指标。
有益效果
由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:本发明根据电子病历文本信息的典型特征,在生成新模式的基础上,经过多次泛化有效的缩小了模式库,使电子病历信息抽取更快速、更精确。
附图说明
图1是本发明的流程图;
图2是步骤3电子病理文本切分成子句流程图;
图3是步骤7模式泛化流程图;
图4是步骤7泛化模式示意图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明提供了一种电子病历的非结构化信息转化为结构化的泛化方法,如图1所示,包括以下步骤:
步骤1、采用样本学习的方法构建初始候选模式库。如:标本名,指标1:[指标值1],指标2:[指标值2]...,指标n:[指标值n],特性:[特性值]。其中,标本是指病种,比如肿块、胆囊等;指标是指标本的大小、颜色、质地、周径、长度等有特定描述形式的属性;属性是指对标本没有特定描述形式的属性,且一个模式只设一个属性;
步骤2、根据电子病历信息手动构建关于标本名的医疗词库;
步骤3、根据医疗词库中的标本名,把电子病历语句切分成多个子句,一个子句只包含一个标本的信息,具体步骤见图2所示;
步骤4、采用分词提取工具jcseg对子句进行分词,生成子句序列;
步骤5、依据已经构建的初始候选模式库,从所述子句序列中提取新模式。具体为:根据子句中的标本名,从初始模式库中选择标本名相同的模式,分别计算每一个模式与子句的相似度,取相似度最大值为CMax,对应模式为Pk,若CMax大于设定阈值,且标本名相同,则新模式为Pk;若标本名不同,则根据子句标本名构建与Pk同构的模式;若CMax小于设定阈值,则采用学习方法构建新模式。
步骤6、若从步骤5产生的新模式来自初始模式库,则依据新模式提取子句信息,并与原子句序列比较提取出新模式未提取的词,依据该词在新模式中增加标本属性,标本属性序列与子句序列对应相同,从而优化新模式,具体如下:
1)假设当前子句语句序列为WR=(r1,r2,r3,...rn);
2)根据新模式抽取子句信息,生成词序列WS=(s1,s2,s3,...sj);
3)若i<j,则转到4),否者转到6);
4)若ri=si,则信息抽取成功,i=i+1;转到3);若ri!=si,转到5);
5)则在新模式中构建新指标,放在指标i之前,且ri=r(i+1),转到3);
6)模式优化完成。
步骤7、模式泛化,即多个模式泛化成一个模式,如图3所示,具体包括:
7.1)对于优化后的模式X,把与其相似度大于泛化门限值CG的模式分为两类,一类是与模式X的标本名属于同一类的模式集P,一类是与模式X的标本名不属于同一类的模式集Q;
7.2)对于模式集P中任意模式Y,若Xi=Yi(i=1,2,...,n),则把Xi放入泛化后模式C,若Xi!=Yi,则把Xi|Yi放入模式C,其中Xi和Yi分别是模式X和模式Y的指标,如图4所示;若P为空,则C=X;
7.3)对于泛化后模式C,对于模式集Q中任意模式Z,把Ck|Zk放入模式D,其中Ck和Zk分别是模式C和模式Z的标本名;若Ci=Zi(i=1,2,...,n),则把Ci放入泛化后模式D;若Ci!=Zi,则把Ci|Zi放入模式D,其中Ci和Zi分别是模式C和模式Z的指标。
步骤8、根据模式,对文本信息进行信息抽取。

Claims (4)

1.一种电子病历的非结构化信息转化为结构化的泛化方法,其特征在于,包括以下步骤:
(1)采用样本学习的方法构建初始候选模式库;
(2)根据电子病历信息构建关于标本名的医疗词库;
(3)根据医疗词库中标本名,把电子病历语句切分成多个子句,其中,每个子句只包含一个标本的信息;
(4)采用分词提取工具对子句进行分词,生成子句序列;
(5)依据已经构建的初始候选模式库,从所述子句序列中提取新模式;
(6)将多个模式泛化成一个模式;
(7)根据得到的模式对文本信息进行信息抽取。
2.根据权利要求1所述的电子病历的非结构化信息转化为结构化的泛化方法,其特征在于,所述步骤(5)为:根据子句中的标本名,从初始候选模式库中选择标本名相同的模式,分别计算每一个模式与子句的相似度,取相似度最大值为CMax,对应模式为Pk,若CMax大于设定阈值,且标本名相同,则新模式为Pk;若标本名不同,则根据子句标本名构建与Pk同构的模式;若CMax小于设定阈值,则采用学习方法构建新模式。
3.根据权利要求1所述的电子病历的非结构化信息转化为结构化的泛化方法,其特征在于,所述步骤(5)和步骤(6)之间还包括进行模式优化的步骤,即若从所述步骤(5)产生的新模式来自初始候选模式库,则依据新模式提取子句信息,并与原子句序列比较提取出新模式未提取的词,依据该词在新模式中增加标本属性,标本属性序列与子句序列对应相同,从而优化新模式。
4.根据权利要求1所述的电子病历的非结构化信息转化为结构化的泛化方法,其特征在于,所述步骤(6)具体包括以下子步骤:
(61)对于模式X,把与其相似度大于泛化门限值的模式分为两类,一类是与模式X的标本名属于同一类的模式集P,一类是与模式X的标本名不属于同一类的模式集Q;
(62)对于模式集P中任意模式Y,若Xi=Yi(i=1,2,...,n),则把Xi放入泛化后模式C,若Xi!=Yi,则把Xi|Yi放入模式C,其中Xi和Yi分别是模式X和模式Y的指标;若P为空,则C=X;
(63)对于泛化后模式C,对于模式集Q中任意模式Z,把Ck|Zk放入模式D,其中Ck和Zk分别是模式C和模式Z的标本名;若Ci=Zi(i=1,2,...,n),则把Ci放入泛化后模式D;若Ci!=Zi,则把Ci|Zi放入模式D,其中Ci和Zi分别是模式C和模式Z的指标。
CN201510429975.0A 2015-07-21 2015-07-21 一种电子病历的非结构化信息转化为结构化的泛化方法 Expired - Fee Related CN105159917B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510429975.0A CN105159917B (zh) 2015-07-21 2015-07-21 一种电子病历的非结构化信息转化为结构化的泛化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510429975.0A CN105159917B (zh) 2015-07-21 2015-07-21 一种电子病历的非结构化信息转化为结构化的泛化方法

Publications (2)

Publication Number Publication Date
CN105159917A true CN105159917A (zh) 2015-12-16
CN105159917B CN105159917B (zh) 2018-08-03

Family

ID=54800774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510429975.0A Expired - Fee Related CN105159917B (zh) 2015-07-21 2015-07-21 一种电子病历的非结构化信息转化为结构化的泛化方法

Country Status (1)

Country Link
CN (1) CN105159917B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678107A (zh) * 2016-04-15 2016-06-15 江苏曼荼罗软件股份有限公司 一种电子病历后结构化知识发现方法和装置
CN106095913A (zh) * 2016-06-08 2016-11-09 广州同构医疗科技有限公司 一种电子病历文本结构化方法
CN106897568A (zh) * 2017-02-28 2017-06-27 北京大数医达科技有限公司 病历结构化的处理方法和装置
CN107578798A (zh) * 2017-10-26 2018-01-12 北京康夫子科技有限公司 电子病历的处理方法及系统
CN113420562A (zh) * 2021-05-10 2021-09-21 河南大学 医疗文本中抽取疾病及其对应的化验指标实体词的方法及系统及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109887562B (zh) * 2019-02-20 2021-10-29 广州天鹏计算机科技有限公司 电子病历的相似度确定方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393545A (zh) * 2008-11-06 2009-03-25 新百丽鞋业(深圳)有限公司 一种利用关联模型实现自动摘要的方法
CN103792474A (zh) * 2012-11-02 2014-05-14 全亿大科技(佛山)有限公司 发光二极管检测量具
CN104182535A (zh) * 2014-08-29 2014-12-03 苏州大学 一种人物关系抽取方法和装置
US20150046190A1 (en) * 2013-08-12 2015-02-12 Ironwood Medical Information Technologies, LLC Medical data system and method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393545A (zh) * 2008-11-06 2009-03-25 新百丽鞋业(深圳)有限公司 一种利用关联模型实现自动摘要的方法
CN103792474A (zh) * 2012-11-02 2014-05-14 全亿大科技(佛山)有限公司 发光二极管检测量具
US20150046190A1 (en) * 2013-08-12 2015-02-12 Ironwood Medical Information Technologies, LLC Medical data system and method
CN104182535A (zh) * 2014-08-29 2014-12-03 苏州大学 一种人物关系抽取方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
孔晓风 等: "基于自然语言处理技术的消化科内窥镜检查报告的结构化", 《中国医疗器械杂志》 *
梁帅: "病历文本数据的结构化处理系统研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
邵堃 等: "基于模式匹配的结构化信息抽取", 《模式识别与人工智能》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678107A (zh) * 2016-04-15 2016-06-15 江苏曼荼罗软件股份有限公司 一种电子病历后结构化知识发现方法和装置
CN106095913A (zh) * 2016-06-08 2016-11-09 广州同构医疗科技有限公司 一种电子病历文本结构化方法
CN106897568A (zh) * 2017-02-28 2017-06-27 北京大数医达科技有限公司 病历结构化的处理方法和装置
CN107578798A (zh) * 2017-10-26 2018-01-12 北京康夫子科技有限公司 电子病历的处理方法及系统
CN107578798B (zh) * 2017-10-26 2022-06-17 北京康夫子健康技术有限公司 电子病历的处理方法及系统
CN113420562A (zh) * 2021-05-10 2021-09-21 河南大学 医疗文本中抽取疾病及其对应的化验指标实体词的方法及系统及装置

Also Published As

Publication number Publication date
CN105159917B (zh) 2018-08-03

Similar Documents

Publication Publication Date Title
CN113254599B (zh) 一种基于半监督学习的多标签微博文本分类方法
CN105159917A (zh) 一种电子病历的非结构化信息转化为结构化的泛化方法
CN111090736B (zh) 问答模型的训练方法、问答方法、装置及计算机存储介质
CN107463553A (zh) 针对初等数学题目的文本语义抽取、表示与建模方法和系统
CN106844346A (zh) 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN109918672B (zh) 一种基于树结构的甲状腺超声报告的结构化处理方法
CN110598219A (zh) 一种面向豆瓣网电影评论的情感分析方法
CN110188359B (zh) 一种文本实体抽取方法
CN107832458A (zh) 一种字符级的基于嵌套深度网络的文本分类方法
CN108733647B (zh) 一种基于高斯分布的词向量生成方法
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
CN111143571B (zh) 实体标注模型的训练方法、实体标注方法以及装置
CN105446955A (zh) 一种自适应的分词方法
CN106980620A (zh) 一种对中文字串进行匹配的方法及装置
CN107943786A (zh) 一种中文命名实体识别方法及系统
CN110705272A (zh) 一种面向汽车发动机故障诊断的命名实体识别方法
CN105512110A (zh) 一种基于模糊匹配与统计的错字词知识库构建方法
CN110826298A (zh) 一种智能辅助定密系统中使用的语句编码方法
CN107832307B (zh) 基于无向图与单层神经网络的中文分词方法
CN107463624B (zh) 一种基于社交媒体数据进行城市兴趣域识别的方法及系统
CN111914555B (zh) 基于Transformer结构的自动化关系抽取系统
CN114782965A (zh) 基于布局关联性的视觉富文档信息抽取方法、系统及介质
CN103177125B (zh) 一种快速的短文本双聚类方法
CN115203429B (zh) 一种用于构建审计领域本体框架的知识图谱自动扩充方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180803

Termination date: 20210721

CF01 Termination of patent right due to non-payment of annual fee