CN107341264A - 一种支持自定义实体的电子病历检索系统及方法 - Google Patents
一种支持自定义实体的电子病历检索系统及方法 Download PDFInfo
- Publication number
- CN107341264A CN107341264A CN201710588437.5A CN201710588437A CN107341264A CN 107341264 A CN107341264 A CN 107341264A CN 201710588437 A CN201710588437 A CN 201710588437A CN 107341264 A CN107341264 A CN 107341264A
- Authority
- CN
- China
- Prior art keywords
- text
- information
- speech tagging
- structured
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000036541 health Effects 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 239000002131 composite material Substances 0.000 claims abstract description 19
- 239000000284 extract Substances 0.000 claims abstract description 19
- 229920000642 polymer Polymers 0.000 claims abstract description 19
- 239000007787 solid Substances 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims description 40
- 206010028980 Neoplasm Diseases 0.000 claims description 14
- 238000004140 cleaning Methods 0.000 claims description 11
- 201000010099 disease Diseases 0.000 claims description 9
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 5
- 239000000463 material Substances 0.000 claims description 2
- 230000008569 process Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000003484 anatomy Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2423—Interactive query statement specification based on a database schema
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供一种支持自定义实体的电子病历检索系统及方法,包括电子病历文本预处理单元,用于对电子病历进行预处理抽取出部分结构化信息并获得正文内容集;自定义实体识别单元,用于自定义实体名和通用词性标注标准,并获得词性标注数据集;实体合并提取单元,用于定义病历复合实体的构建规则,提取词性标注数据的多种诊疗信息,并与结构化信息合并构成多元信息。本发明的方法通过自定义实体名和通用词性标注标准对正文内容进行标注,获得分词数据集和词性标注数据集,并从词性标注数据集中提取重要诊疗信息与结构化信息合并形成多元信息,将该多元信息用于检索系统中,可方便医生更快速的查询既往病历并了解患者病情。
Description
技术领域
本发明属于电子病历文本处理技术领域,具体涉及一种支持自定义实体的电子病历检索系统及方法。
背景技术
目前,用于医学领域的检索大都为图像检索,许多图像搜索方法在除医学以外的领域使用与图像相关的索引术语,而不是单独的图像数据,后一种类型的图像搜索是基于语义的。然而医学图像中还含有丰富多样的信息内容及其对解剖结构的隐含知识,用于检索的数据的类可以扩展到包括非图像数据,如实验报告、生理测量,等等。这种特定领域的数据很大程度上取决于放射科医师的观察。目前用于表示这些观察/解释的方法是非结构化的自由文本报告。
非影像临床资料储存在电子病历系统中。这样的数据,当关联到图像时,可以用来将图像存档计通信系统数据与相应的电子病历相关联。发展至今,信息抽取技术已有较为成熟的发展,但由于没有严格的控制术语的执行,也没有统一的病历书写规范,医学电子病历术语以及其表达形式多且复杂,基于这些报告的内容抽取与搜索是有限的。因此需要有效的方法将电子病历中的重要信息抽取出来,用来注释和标注图像数据。
发明内容
本发明提供一种支持自定义实体的电子病历检索系统及方法,提取非结构化的病历文本内容中的重要信息形成部分结构化数据,方便医生更快速的查询既往病历并了解患者病情。
本发明提供一种支持自定义实体的电子病历检索系统,包括:
电子病历文本预处理单元,用于将同一个患者电子病历系统中的文本内容提取出来合并成一个非结构化文本,并对该非结构化文本进行数据清洗以提取出部分结构化信息并获得正文内容集;
自定义实体识别单元,用于自定义实体名和通用词性标注标准,并对正文内容集的部分内容进行标注获得训练语料,根据训练语料构建分词模型得到分词数据集,根据训练语料和分词后的数据集构建词性标注模型并得到词性标注数据集;
实体合并提取单元,用于选取一组诊疗信息,根据诊疗信息定义病历复合实体的构建规则,提取词性标注数据的诊断信息的内容,并与电子病历文本预处理单元中抽取的结构化信息合并构成多元信息;
文本摘要检索单元,用于将多元信息构成患者的文本摘要,创建多个索引用于分类别、分科室存放患者的文本摘要,检索时返回文本摘要以供查看。
在本发明的支持自定义实体的电子病历检索系统中,所述电子病历文本预处理单元包括:
文本内容提取器,用于从患者电子病历系统中抽取出文本内容,并将同一个患者的多个文本内容合并成一个非结构化文本,多个患者的非结构化文本构成非结构化文本集;
文本数据清洗器,用于利用正则表达式和停用词词典将非结构化文本中的乱码和不需要的符号、文字清洗去除;
结构化数据提取器,用于将清洗后的非结构化文本的一部分内容结构化,抽取出多个患者的就诊时间、病历号、性别以及正文内容构成结构化信息,多个患者的正文内容构成正文内容集。
在本发明的支持自定义实体的电子病历检索系统中,所述自定义实体识别单元包括:
实体名自定义器,用于自定义病历实体名、制定肿瘤领域特定实体名以及自定义通用词性标注标准;
自定义分词器,用于从正文内容集中提取部分正文内容,根据自定义实体名和通用词性标注标准进行分词和词性标注,获得训练语料;根据训练语料构建分词模型并对正文内容集进行分词得到分词数据集;
自定义词性标注器,用于根据训练语料和HMM模型构建词性标注模型,将分词数据集输入到词性标注模型,通过viterbi算法得到词性标注数据集。
在本发明的支持自定义实体的电子病历检索系统中,所述实体合并提取单元包括:
实体规则自定义器,用于选取一组诊疗信息,并根据诊疗信息定义病历复合实体的构建规则;
复合实体合并提取器,用于提取词性标注数据集中每个词性标注数据的诊疗信息,将诊疗信息与结构化信息合并构成多元信息,多个患者的多元信息构成多元信息组。
在本发明的支持自定义实体的电子病历检索系统中,所述文本摘要检索单元包括:
文本摘要生成器,用于将多元信息构成患者的文本摘要;
搜索引擎,采用基于向量的索引结构,创建多个索引用于分类别、分科室存放患者的文本摘要,索相关词时,返回病历号并根据病历号从数据库中抽取文本摘要。
本发明还提供一种支持自定义实体的电子病历检索方法,包括如下步骤:
步骤1:将患者电子病历系统中的文本内容提取出来合并成非结构化文本,并对非结构化文本进行数据清洗以抽取部分结构化信息和正文内容集;
步骤2:自定义实体名和通用词性标注标准,并对正文内容集的部分内容进行标注获得训练语料,根据训练语料构建分词模型得到分词数据集,根据训练语料和分词后的数据集构建词性标注模型并得到词性标注数据集;
步骤3:选取一组诊疗信息,根据诊疗信息定义病历复合实体的构建规则,提取词性标注数据的诊疗信息,并与结构化信息合并构成多元信息;
步骤4:将多元信息构成患者的文本摘要,创建多个索引用于分类别、分科室存放患者的文本摘要,检索时返回文本摘要以供查看。
在本发明的支持自定义实体的电子病历检索方法中,所述步骤1包括:
步骤1.1:从患者电子病历系统中抽取出文本内容,并将同一个患者的多个文本内容合并成一个非结构化文本,多个患者的非结构化文本构成非结构化文本集;
步骤1.2:利用正则表达式和停用词词典将非结构化文本中的乱码和不需要的符号、文字清洗去除;
步骤1.3:将清洗后的非结构化文本的一部分内容结构化,抽取出多个患者的就诊时间、病历号、性别以及正文内容构成结构化信息,多个患者的正文内容构成正文内容集。
在本发明的支持自定义实体的电子病历检索方法中,所述步骤2包括:
步骤2.1:自定义病历实体名、制定肿瘤领域特定实体名以及自定义通用词性标注标准;
步骤2.2:从正文内容集中提取部分正文内容,根据自定义实体名和通用词性标注标准进行分词和词性标注,获得训练语料;根据训练语料构建分词模型并对正文内容集进行分词得到分词数据集;
步骤2.3:根据训练语料和HMM模型构建词性标注模型,将分词数据集输入到词性标注模型,通过viterbi算法得到词性标注数据集。
在本发明的支持自定义实体的电子病历检索方法中,所述步骤3包括:
步骤3.1:选取一组诊疗信息,根据诊疗信息定义病历复合实体的构建规则;
步骤3.2:提取词性标注数据集中每个词性标注数据的诊疗信息,并与结构化信息合并构成多元信息,多个患者的多元信息构成多元信息组。
在本发明的支持自定义实体的电子病历检索方法中,所述步骤4包括:
步骤4.1:将多元信息构成患者的文本摘要;
步骤4.2:采用基于向量的索引结构,创建多个索引用于分类别、分科室存放患者的文本摘要,索相关词时,返回病历号并根据病历号从数据库中抽取文本摘要。
本发明的方法将患者电子病历中的文本内容提取出来合并成非结构化文本,并对非结构化文本进行数据清洗以获得结构化信息和正文内容集;通过自定义实体名和通用词性标注标准对正文内容进行标注,获得分词数据集和词性标注数据集,并从词性标注数据集中提取重要信息与结构化信息合并形成多元信息,将该多元信息作为文章摘要用于检索系统中,可方便医生更快速的查询既往病历并了解患者病情。
附图说明
图1为本发明的支持自定义实体的电子病历检索系统的结构框图;
图2为本发明的支持自定义实体的电子病历检索方法的流程图;
图3为本发明的支持自定义实体的电子病历检索方法的分词过程流程图;
图4为本发明的支持自定义实体的电子病历检索方法的词性标注过程流程图。
具体实施方式
下面结合附图对本发明具体实施方式加以详细的说明。
如图1所示为本发明的支持自定义实体的电子病历检索系统的结构框图,文本检索的系统包括电子病历文本预处理单元1、自定义实体识别单元2、实体合并提取单元3以及文本摘要检索单元4。
电子病历文本预处理单元1用于将患者电子病历系统中的文本内容提取出来合并成非结构化文本,并对非结构化文本进行数据清洗以获得结构化信息和正文内容集。自定义实体识别单元2用于自定义实体名和通用词性标注标准,并对正文内容集的部分内容进行标注获得训练语料,根据训练语料构建分词模型得到分词数据集,根据训练语料和分词后的数据集构建词性标注模型并得到词性标注数据集。实体合并提取单元3用于选取一组诊疗信息,根据诊疗信息定义病历复合实体的构建规则,提取词性标注数据的诊疗信息内容,并与结构化信息合并构成多元信息。文本摘要检索单元4用于将多元信息构成患者的文本摘要,创建多个索引用于分类别、分科室存放患者的文本摘要,检索时返回文本摘要以供查看。
电子病历文本预处理单元1包括:文本内容提取器11、文本数据清洗器12以及结构化数据提取器13。文本内容提取器11用于从患者电子病历系统中抽取出文本内容,并将同一个患者的多个文本内容合并成一个非结构化文本,多个患者的非结构化文本构成非结构化文本集。文本数据清洗器12用于利用正则表达式和停用词词典将非结构化文本中的乱码和不需要的符号、文字清洗去除。结构化数据提取器13用于将清洗后的非结构化文本的一部分内容结构化,例如抽取出多个患者的就诊时间Ti、病历号Ni、性别Gi以及正文内容Ii构成结构化信息Si=(Ti,Ni,Gi,Ii),i=1,2,…,n,其中n表示患者数量,多个患者的正文内容构成正文内容集I=(I1,I2,…,In)。
自定义实体识别单元2包括:实体名自定义器21、自定义分词器22以及自定义词性标注器23。实体名自定义器21用于自定义病历实体名、制定肿瘤领域特定实体名以及自定义通用词性标注标准。本实施例中,根据对病历文本的研究自定义了20种病历实体名,同时针对肿瘤领域,制定了16种肿瘤领域特定实体名,以及18种通用词性标注标准,具体定义如表1所示。
自定义分词器22用于从正文内容集I=(I1,I2,…,In)中提取部分正文内容,根据表1中定义的自定义实体名和通用词性标注标准对部分正文内容进行分词和词性标注,获得训练语料;采用线性条件随机场算法根据训练语料构建分词模型,根据分词模型对正文内容集进行分词得到分词数据集P=(P1,P2,…,Pn)。
自定义词性标注器23用于根据训练语料和HMM模型构建词性标注模型,将分词数据集输入到词性标注模型,通过viterbi算法得到词性标注数据集Z=(Z1,Z2,…,Zn)。表1为自定义实体名和通用词性标注标准表格。
实体合并提取单元3包括:实体规则自定义器31和复合实体合并提取器32。实体规则自定义器31用于选取一组诊疗信息,并根据诊疗信息定义病历复合实体的构建规则。具体实施时,提取5大方面的诊疗信息,包括确诊疾病(标注为TDD)、患病部位(标注为Bp)、治疗方案(标注为Tl)、肿瘤临床TNM分期(标注为TNM)、肿瘤临床分级(标注为Cs),定义23条的病历复合实体的构建规则,如表2所示。
复合实体合并提取器32用于提取词性标注数据集Z=(Z1,Z2,…,Zn)中每个词性标注数据Zi的5大方面的信息内容Fi=(TDDi,Bpi,Tli,TNMi,Csi),并与结构化信息Si=(Ti,Ni,Gi,Ii)合并构成多元信息Wi=(TDDi,Bpi,Tli,TNMi,Csi,Ti,Ni.Gi,Ii),多个患者的多元信息构成多元信息组。表2病历复合实体的构建规则。
文本摘要检索单元4包括:文本摘要生成器41和搜索引擎42。文本摘要生成器41用于将多元信息Wi=(TDDi,Bpi,Tli,TNMi,Csi,Ti,Ni.Gi,Ii)构成患者的文本摘要。搜索引擎42采用基于向量的索引结构,创建多个索引用于分类别、分科室存放患者的文本摘要。用户进行搜索时输入待搜索内容,搜索引擎返回患者的文本摘要以供查看。
如图2所示为本发明的支持自定义实体的电子病历检索方法的流程图。本发明的文本检索的方法包括以下步骤:
步骤1:电子病历文本预处理,将患者电子病历系统中的文本内容提取出来合并成非结构化文本,并对非结构化文本进行数据清洗以抽取部分结构化信息Si=(Ti,Ni,Gi,Ii),i=1,2,…,n并获得正文内容集I=(I1,I2,…,In);
步骤2:自定义实体名和通用词性标注标准,并对正文内容集的部分内容进行标注获得训练语料,根据训练语料构建分词模型得到分词数据集,根据训练语料和分词后的数据集构建词性标注模型并得到词性标注数据集;
步骤3:基于自定规则的实体合并提取,选取一组诊疗信息,根据诊疗信息定义病历复合实体的构建规则,提取词性标注数据的诊疗信息,并与结构化信息合并构成多元信息;
步骤4:文本摘要检索,将多元信息构成患者的文本摘要,创建多个索引用于分类别、分科室存放患者的文本摘要。用户进行搜索时输入待搜索内容,搜索引擎返回患者的文本摘要以供查看。
步骤1具体包括:
步骤1.1:文本内容提取,从患者电子病历系统中抽取出文本内容,并将同一个患者的多个文本内容合并成一个非结构化文本,多个患者的非结构化文本构成非结构化文本集;
步骤1.2:文本数据清洗,利用正则表达式和停用词词典将非结构化文本中的乱码和不需要的符号、文字清洗去除;
步骤1.3:结构化数据提取,将清洗后的非结构化文本的一部分内容结构化,抽取出多个患者的就诊时间Ti、病历号Ni、性别Gi以及正文内容Ii构成结构化信息Si=(Ti,Ni,Gi,Ii),i=1,2,…,n,多个患者的结构化信息Si=(Ti,Ni,Gi,Ii),i=1,2,…,n构成结构化信息矩阵S=(S1,S2,…,Sn),多个患者的正文内容构成正文内容集I=(I1,I2,…,In)。
步骤2具体包括:
步骤2.1:实体名自定义,自定义病历实体名、制定肿瘤领域特定实体名以及自定义通用词性标注标准;
具体实施时,自定义了20种病历实体名,同时针对肿瘤领域,制定了16种肿瘤领域特定实体名,以及18种通用词性标注标准。如表1所示。
步骤2.2:自定义分词,从正文内容集中提取部分正文内容,根据自定义实体名和通用词性标注标准进行分词和词性标注,获得训练语料;根据训练语料构建分词模型并对正文内容集进行分词得到分词数据集;
分词过程如图3的分词流程图所示,具体包括:
步骤2.2.1:从正文内容集I=(I1,I2,…,In)中提取部分正文内容以一定格式进行分词与词性标注作为训练语料D;
步骤2.2.2:将训练语料D处理成CRF训练需要的格式,根据训练语料D得到BMES形式文档train.txt。构建CRF特征模板pattern.txt。采用CRF算法得到分词模型;构建分词模型的详细流程如图3所示。
步骤2.2.3:根据构建好的分词模型,对正文内容集I=(I1,I2,…,In)分词得到分词数据集P=(P1,P2,…,Pn)。
步骤2.3:自定义词性标注,根据训练语料构建词性标注模型,将分词数据集输入到词性标注模型,通过viterbi算法得到词性标注数据集。
词性标注过程如图4的词性标注流程图所示,具体包括:
步骤2.3.1:根据训练语料D,得到HMM模型,H=(π,A,B),其中π是初始状态分布矩阵,π=(P0,P1,…,P44),是各个词性在一句话的第一个词出现的概率;
A是转移概率矩阵,xij表示一种词性状态转化为另一种词性状态的概率;
B是发射概率矩阵,t是词的数量,yij是在给定一个词性的情况下,为第j个词的概率;
步骤2.3.2:分词数据集P=(P1,P2,…,Pn)作为输入,载入模型H=(π,A,B),由viterbi算法得到词性标注数据集Z=(Z1,Z2,…,Zn)。
步骤3包括:
步骤3.1:实体规则自定义,选取一组诊疗信息,并根据诊疗信息定义病历复合实体的构建规则;
具体实施时,选取5大方面的诊疗信息,包括确诊疾病(标注为TDD)、患病部位(标注为Bp)、治疗方案(标注为Tl)、肿瘤临床TNM分期(标注为TNM)、肿瘤临床分级(标注为Cs),定义23条的病历复合实体的构建规则,如表2所示。
步骤3.2:提取词性标注数据集Z=(Z1,Z2,…,Zn)中每个词性标注数据Zi的5大方面的信息内容Fi=(TDDi,Bpi,Tli,TNMi,Csi),并与结构化信息Si=(Ti,Ni,Gi,Ii)合并构成多元信息Wi=(TDDi,Bpi,Tli,TNMi,Csi,Ti,Ni.Gi,Ii),多个患者的多元信息构成多元信息组。
步骤4包括:
步骤4.1:文本摘要生成,将多元信息Wi=(TDDi,Bpi,Tli,TNMi,Csi,Ti,Ni.Gi,Ii)构成患者的文本摘要;
步骤4.2:构建搜索引擎,采用基于向量的索引结构,创建多个索引用于分类别、分科室存放患者的文本摘要。
具体实施时,在搜索引擎的基础上创建多个索引,同一个科室的病历放入一个索引中,供以用户选择要搜索的范围。检索相关词时,对病历全文进行搜索,返回病历号Ni,根据病历号Ni从数据库中抽取出所得的文本摘要,即为每一个患者为多元信息Wi=(TDDi,Bpi,Tli,TNMi,Csi,Ti,Ni.Gi,Ii)。
本发明的系统和方法将患者电子病历中的文本内容提取出来合并成非结构化文本,并对非结构化文本进行数据清洗以获得结构化信息和正文内容集;通过自定义实体名和通用词性标注标准对正文内容进行标注,获得词性标注数据集,并从词性标注数据集中提取重要信息与结构化信息合并形成多元信息,将该多元信息作为文章摘要用于检索系统中,医生在搜索关键词后,先返回文章摘要供医生查看,可方便医生更快速的查询既往病历并了解患者病情。
以上所述是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种支持自定义实体的电子病历检索系统,其特征在于,包括:
电子病历文本预处理单元,用于将同一个患者电子病历系统中的文本内容提取出来合并成一个非结构化文本,并对该非结构化文本进行数据清洗以提取出部分结构化信息并获得正文内容集;
自定义实体识别单元,用于自定义实体名和通用词性标注标准,并对正文内容集的部分内容进行标注获得训练语料,根据训练语料构建分词模型得到分词数据集,根据训练语料和分词后的数据集构建词性标注模型并得到词性标注数据集;
实体合并提取单元,用于选取一组诊疗信息,根据诊疗信息定义病历复合实体的构建规则,提取词性标注数据的诊断信息的内容,并与电子病历文本预处理单元中抽取的结构化信息合并构成多元信息;
文本摘要检索单元,用于将多元信息构成患者的文本摘要,创建多个索引用于分类别、分科室存放患者的文本摘要,检索时返回文本摘要以供查看。
2.如权利要求1所述的支持自定义实体的电子病历检索系统,其特征在于,所述电子病历文本预处理单元包括:
文本内容提取器,用于从患者电子病历系统中抽取出文本内容,并将同一个患者的多个文本内容合并成一个非结构化文本,多个患者的非结构化文本构成非结构化文本集;
文本数据清洗器,用于利用正则表达式和停用词词典将非结构化文本中的乱码和不需要的符号、文字清洗去除;
结构化数据提取器,用于将清洗后的非结构化文本的一部分内容结构化,抽取出多个患者的就诊时间、病历号、性别以及正文内容构成结构化信息,多个患者的正文内容构成正文内容集。
3.如权利要求1所述的支持自定义实体的电子病历检索系统,其特征在于,所述自定义实体识别单元包括:
实体名自定义器,用于自定义病历实体名、制定肿瘤领域特定实体名以及自定义通用词性标注标准;
自定义分词器,用于从正文内容集中提取部分正文内容,根据自定义实体名和通用词性标注标准进行分词和词性标注,获得训练语料;根据训练语料构建分词模型并对正文内容集进行分词得到分词数据集;
自定义词性标注器,用于根据训练语料和HMM模型构建词性标注模型,将分词数据集输入到词性标注模型,通过viterbi算法得到词性标注数据集。
4.如权利要求1所述的支持自定义实体的电子病历检索系统,其特征在于,所述实体合并提取单元包括:
实体规则自定义器,用于选取一组诊疗信息,并根据诊疗信息定义病历复合实体的构建规则;
复合实体合并提取器,用于提取词性标注数据集中每个词性标注数据的诊疗信息,将诊疗信息与结构化信息合并构成多元信息,多个患者的多元信息构成多元信息组。
5.如权利要求1所述的支持自定义实体的电子病历检索系统,其特征在于,所述文本摘要检索单元包括:
文本摘要生成器,用于将多元信息构成患者的文本摘要;
搜索引擎,采用基于向量的索引结构,创建多个索引用于分类别、分科室存放患者的文本摘要,索相关词时,返回病历号并根据病历号从数据库中抽取文本摘要。
6.一种支持自定义实体的电子病历检索方法,其特征在于,包括如下步骤:
步骤1:将患者电子病历系统中的文本内容提取出来合并成非结构化文本,并对非结构化文本进行数据清洗以抽取部分结构化信息和正文内容集;
步骤2:自定义实体名和通用词性标注标准,并对正文内容集的部分内容进行标注获得训练语料,根据训练语料构建分词模型得到分词数据集,根据训练语料和分词后的数据集构建词性标注模型并得到词性标注数据集;
步骤3:选取一组诊疗信息,根据诊疗信息定义病历复合实体的构建规则,提取词性标注数据的诊疗信息,并与结构化信息合并构成多元信息;
步骤4:将多元信息构成患者的文本摘要,创建多个索引用于分类别、分科室存放患者的文本摘要,检索时返回文本摘要以供查看。
7.如权利要求6所述的支持自定义实体的电子病历检索方法,其特征在于,所述步骤1包括:
步骤1.1:从患者电子病历系统中抽取出文本内容,并将同一个患者的多个文本内容合并成一个非结构化文本,多个患者的非结构化文本构成非结构化文本集;
步骤1.2:利用正则表达式和停用词词典将非结构化文本中的乱码和不需要的符号、文字清洗去除;
步骤1.3:将清洗后的非结构化文本的一部分内容结构化,抽取出多个患者的就诊时间、病历号、性别以及正文内容构成结构化信息,多个患者的正文内容构成正文内容集。
8.如权利要求6所述的支持自定义实体的电子病历检索方法,其特征在于,所述步骤2包括:
步骤2.1:自定义病历实体名、制定肿瘤领域特定实体名以及自定义通用词性标注标准;
步骤2.2:从正文内容集中提取部分正文内容,根据自定义实体名和通用词性标注标准进行分词和词性标注,获得训练语料;根据训练语料构建分词模型并对正文内容集进行分词得到分词数据集;
步骤2.3:根据训练语料和HMM模型构建词性标注模型,将分词数据集输入到词性标注模型,通过viterbi算法得到词性标注数据集。
9.如权利要求6所述的支持自定义实体的电子病历检索方法,其特征在于,所述步骤3包括:
步骤3.1:选取一组诊疗信息,根据诊疗信息定义病历复合实体的构建规则;
步骤3.2:提取词性标注数据集中每个词性标注数据的诊疗信息,并与结构化信息合并构成多元信息,多个患者的多元信息构成多元信息组。
10.如权利要求6所述的支持自定义实体的电子病历检索方法,其特征在于,所述步骤4包括:
步骤4.1:将多元信息构成患者的文本摘要;
步骤4.2:采用基于向量的索引结构,创建多个索引用于分类别、分科室存放患者的文本摘要,索相关词时,返回病历号并根据病历号从数据库中抽取文本摘要。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710588437.5A CN107341264B (zh) | 2017-07-19 | 2017-07-19 | 一种支持自定义实体的电子病历检索系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710588437.5A CN107341264B (zh) | 2017-07-19 | 2017-07-19 | 一种支持自定义实体的电子病历检索系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107341264A true CN107341264A (zh) | 2017-11-10 |
CN107341264B CN107341264B (zh) | 2020-09-25 |
Family
ID=60219227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710588437.5A Expired - Fee Related CN107341264B (zh) | 2017-07-19 | 2017-07-19 | 一种支持自定义实体的电子病历检索系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107341264B (zh) |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818169A (zh) * | 2017-11-13 | 2018-03-20 | 医渡云(北京)技术有限公司 | 电子病历检索方法及装置、电子病历存储方法及装置 |
CN107908768A (zh) * | 2017-09-30 | 2018-04-13 | 北京颐圣智能科技有限公司 | 电子病历处理的方法、装置、计算机设备及存储介质 |
CN108831559A (zh) * | 2018-06-20 | 2018-11-16 | 清华大学 | 一种中文电子病历文本分析方法与系统 |
CN108984690A (zh) * | 2018-07-04 | 2018-12-11 | 莫毓昌 | 一种基于自然语言处理框架的电子病历信息抽取系统 |
CN109509557A (zh) * | 2018-11-16 | 2019-03-22 | 郑州大学第附属医院 | 一种基于大数据平台的中文电子病历信息抽取预处理方法 |
CN109522740A (zh) * | 2018-10-16 | 2019-03-26 | 易保互联医疗信息科技(北京)有限公司 | 健康数据的去隐私化处理方法及系统 |
CN109584983A (zh) * | 2018-12-07 | 2019-04-05 | 广东省人民医院(广东省医学科学院) | 一种应用于医学的数据处理方法 |
CN109684356A (zh) * | 2018-11-28 | 2019-04-26 | 心医国际数字医疗系统(大连)有限公司 | 基于否定检出的病历检索方法及系统 |
CN109710670A (zh) * | 2018-12-11 | 2019-05-03 | 河南通域医疗科技有限公司 | 一种将病历文本从自然语言转换为结构化元数据的方法 |
CN110364234A (zh) * | 2019-06-26 | 2019-10-22 | 浙江大学 | 电子病历智能存储分析检索系统及方法 |
CN110517788A (zh) * | 2019-08-30 | 2019-11-29 | 山东健康医疗大数据有限公司 | 一种中文电子病历信息抽取的方法 |
CN111063446A (zh) * | 2019-12-17 | 2020-04-24 | 医渡云(北京)技术有限公司 | 用于标准化医疗文本数据的方法、装置、设备及存储介质 |
CN111091914A (zh) * | 2018-10-23 | 2020-05-01 | 百度在线网络技术(北京)有限公司 | 基于病历的癌症分型分期方法及其装置 |
CN111128329A (zh) * | 2019-11-22 | 2020-05-08 | 泰康保险集团股份有限公司 | 个性化健康摘要的动态生成方法、装置、介质及电子设备 |
CN111180076A (zh) * | 2018-11-13 | 2020-05-19 | 零氪科技(北京)有限公司 | 一种基于多层语义分析的医疗信息提取方法 |
CN111949692A (zh) * | 2020-07-30 | 2020-11-17 | 合肥森亿智能科技有限公司 | 基于dto的自定义指标配置方法、系统、设备和介质 |
CN111967261A (zh) * | 2020-10-20 | 2020-11-20 | 平安科技(深圳)有限公司 | 癌症分期信息处理方法、装置及存储介质 |
CN112017786A (zh) * | 2020-07-02 | 2020-12-01 | 厦门市妇幼保健院(厦门市计划生育服务中心) | 基于es的自定义分词器 |
CN112464668A (zh) * | 2020-11-26 | 2021-03-09 | 南京数脉动力信息技术有限公司 | 一种提取智能家居行业动态信息的方法和系统 |
CN112687385A (zh) * | 2019-10-18 | 2021-04-20 | 医渡云(北京)技术有限公司 | 一种疾病分期识别方法以及装置 |
CN112948471A (zh) * | 2019-11-26 | 2021-06-11 | 广州知汇云科技有限公司 | 一种临床医疗文本后结构化处理平台和方法 |
CN113421632A (zh) * | 2021-07-09 | 2021-09-21 | 中国人民大学 | 一种基于时间序列的心理疾病类型诊断系统 |
CN113823371A (zh) * | 2021-09-18 | 2021-12-21 | 上海保链科技有限公司 | 医疗数据结构化处理方法、装置及设备 |
US20230153545A1 (en) * | 2021-11-15 | 2023-05-18 | Misoinfo Tech. | Method for creating rules used to structure unstructured data |
CN117493642A (zh) * | 2023-11-28 | 2024-02-02 | 西康软件有限责任公司 | 相似电子病历检索方法、装置、终端及存储介质 |
KR102686793B1 (ko) * | 2023-09-12 | 2024-07-22 | 주식회사 에비드넷 | 인공지능을 활용한 비정형 데이터의 정형화 방법 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110093448A1 (en) * | 2008-06-20 | 2011-04-21 | Koninklijke Philips Electronics N.V. | System method and computer program product for pedigree analysis |
CN102779149A (zh) * | 2011-05-10 | 2012-11-14 | 索尼公司 | 信息处理装置,信息处理方法,程序和信息处理系统 |
CN105389470A (zh) * | 2015-11-18 | 2016-03-09 | 福建工程学院 | 一种中医针灸领域实体关系自动抽取的实现方法 |
CN106095913A (zh) * | 2016-06-08 | 2016-11-09 | 广州同构医疗科技有限公司 | 一种电子病历文本结构化方法 |
CN106815293A (zh) * | 2016-12-08 | 2017-06-09 | 中国电子科技集团公司第三十二研究所 | 一种面向情报分析的构建知识图谱的系统及方法 |
CN106934220A (zh) * | 2017-02-24 | 2017-07-07 | 黑龙江特士信息技术有限公司 | 面向多数据源的疾病类实体识别方法及装置 |
-
2017
- 2017-07-19 CN CN201710588437.5A patent/CN107341264B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110093448A1 (en) * | 2008-06-20 | 2011-04-21 | Koninklijke Philips Electronics N.V. | System method and computer program product for pedigree analysis |
CN102779149A (zh) * | 2011-05-10 | 2012-11-14 | 索尼公司 | 信息处理装置,信息处理方法,程序和信息处理系统 |
CN105389470A (zh) * | 2015-11-18 | 2016-03-09 | 福建工程学院 | 一种中医针灸领域实体关系自动抽取的实现方法 |
CN106095913A (zh) * | 2016-06-08 | 2016-11-09 | 广州同构医疗科技有限公司 | 一种电子病历文本结构化方法 |
CN106815293A (zh) * | 2016-12-08 | 2017-06-09 | 中国电子科技集团公司第三十二研究所 | 一种面向情报分析的构建知识图谱的系统及方法 |
CN106934220A (zh) * | 2017-02-24 | 2017-07-07 | 黑龙江特士信息技术有限公司 | 面向多数据源的疾病类实体识别方法及装置 |
Non-Patent Citations (2)
Title |
---|
王军: "《电子病案信息检索现状和设想》", 《中国病案》 * |
赵芳芳: "《面向中文电子病历的词性标注技术研究》", 《中国优秀硕士学位论文 信息科技辑》 * |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908768A (zh) * | 2017-09-30 | 2018-04-13 | 北京颐圣智能科技有限公司 | 电子病历处理的方法、装置、计算机设备及存储介质 |
CN107818169A (zh) * | 2017-11-13 | 2018-03-20 | 医渡云(北京)技术有限公司 | 电子病历检索方法及装置、电子病历存储方法及装置 |
CN108831559B (zh) * | 2018-06-20 | 2021-01-15 | 清华大学 | 一种中文电子病历文本分析方法与系统 |
CN108831559A (zh) * | 2018-06-20 | 2018-11-16 | 清华大学 | 一种中文电子病历文本分析方法与系统 |
CN108984690A (zh) * | 2018-07-04 | 2018-12-11 | 莫毓昌 | 一种基于自然语言处理框架的电子病历信息抽取系统 |
CN109522740A (zh) * | 2018-10-16 | 2019-03-26 | 易保互联医疗信息科技(北京)有限公司 | 健康数据的去隐私化处理方法及系统 |
CN109522740B (zh) * | 2018-10-16 | 2021-04-20 | 易保互联医疗信息科技(北京)有限公司 | 健康数据的去隐私化处理方法及系统 |
CN111091914B (zh) * | 2018-10-23 | 2023-11-21 | 百度在线网络技术(北京)有限公司 | 基于病历的癌症分型分期方法及其装置 |
CN111091914A (zh) * | 2018-10-23 | 2020-05-01 | 百度在线网络技术(北京)有限公司 | 基于病历的癌症分型分期方法及其装置 |
CN111180076A (zh) * | 2018-11-13 | 2020-05-19 | 零氪科技(北京)有限公司 | 一种基于多层语义分析的医疗信息提取方法 |
CN111180076B (zh) * | 2018-11-13 | 2023-09-05 | 零氪科技(北京)有限公司 | 一种基于多层语义分析的医疗信息提取方法 |
CN109509557B (zh) * | 2018-11-16 | 2021-07-27 | 郑州大学第一附属医院 | 一种基于大数据平台的中文电子病历信息抽取预处理方法 |
CN109509557A (zh) * | 2018-11-16 | 2019-03-22 | 郑州大学第附属医院 | 一种基于大数据平台的中文电子病历信息抽取预处理方法 |
CN109684356A (zh) * | 2018-11-28 | 2019-04-26 | 心医国际数字医疗系统(大连)有限公司 | 基于否定检出的病历检索方法及系统 |
CN109584983A (zh) * | 2018-12-07 | 2019-04-05 | 广东省人民医院(广东省医学科学院) | 一种应用于医学的数据处理方法 |
CN109710670B (zh) * | 2018-12-11 | 2020-04-28 | 萱闱(河南)生命科学研究院有限公司 | 一种将病历文本从自然语言转换为结构化元数据的方法 |
CN109710670A (zh) * | 2018-12-11 | 2019-05-03 | 河南通域医疗科技有限公司 | 一种将病历文本从自然语言转换为结构化元数据的方法 |
CN110364234A (zh) * | 2019-06-26 | 2019-10-22 | 浙江大学 | 电子病历智能存储分析检索系统及方法 |
CN110364234B (zh) * | 2019-06-26 | 2022-02-18 | 浙江大学 | 电子病历智能存储分析检索系统及方法 |
CN110517788A (zh) * | 2019-08-30 | 2019-11-29 | 山东健康医疗大数据有限公司 | 一种中文电子病历信息抽取的方法 |
CN112687385A (zh) * | 2019-10-18 | 2021-04-20 | 医渡云(北京)技术有限公司 | 一种疾病分期识别方法以及装置 |
CN111128329A (zh) * | 2019-11-22 | 2020-05-08 | 泰康保险集团股份有限公司 | 个性化健康摘要的动态生成方法、装置、介质及电子设备 |
CN111128329B (zh) * | 2019-11-22 | 2023-03-17 | 泰康保险集团股份有限公司 | 个性化健康摘要的动态生成方法、装置、介质及电子设备 |
CN112948471A (zh) * | 2019-11-26 | 2021-06-11 | 广州知汇云科技有限公司 | 一种临床医疗文本后结构化处理平台和方法 |
CN111063446A (zh) * | 2019-12-17 | 2020-04-24 | 医渡云(北京)技术有限公司 | 用于标准化医疗文本数据的方法、装置、设备及存储介质 |
CN112017786A (zh) * | 2020-07-02 | 2020-12-01 | 厦门市妇幼保健院(厦门市计划生育服务中心) | 基于es的自定义分词器 |
CN111949692A (zh) * | 2020-07-30 | 2020-11-17 | 合肥森亿智能科技有限公司 | 基于dto的自定义指标配置方法、系统、设备和介质 |
CN111967261B (zh) * | 2020-10-20 | 2021-02-12 | 平安科技(深圳)有限公司 | 癌症分期信息处理方法、装置及存储介质 |
CN111967261A (zh) * | 2020-10-20 | 2020-11-20 | 平安科技(深圳)有限公司 | 癌症分期信息处理方法、装置及存储介质 |
CN112464668A (zh) * | 2020-11-26 | 2021-03-09 | 南京数脉动力信息技术有限公司 | 一种提取智能家居行业动态信息的方法和系统 |
CN113421632A (zh) * | 2021-07-09 | 2021-09-21 | 中国人民大学 | 一种基于时间序列的心理疾病类型诊断系统 |
CN113823371A (zh) * | 2021-09-18 | 2021-12-21 | 上海保链科技有限公司 | 医疗数据结构化处理方法、装置及设备 |
US20230153545A1 (en) * | 2021-11-15 | 2023-05-18 | Misoinfo Tech. | Method for creating rules used to structure unstructured data |
KR102686793B1 (ko) * | 2023-09-12 | 2024-07-22 | 주식회사 에비드넷 | 인공지능을 활용한 비정형 데이터의 정형화 방법 |
CN117493642A (zh) * | 2023-11-28 | 2024-02-02 | 西康软件有限责任公司 | 相似电子病历检索方法、装置、终端及存储介质 |
CN117493642B (zh) * | 2023-11-28 | 2024-06-07 | 西康软件有限责任公司 | 相似电子病历检索方法、装置、终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107341264B (zh) | 2020-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107341264A (zh) | 一种支持自定义实体的电子病历检索系统及方法 | |
CN108628824A (zh) | 一种基于中文电子病历的实体识别方法 | |
CN105404632B (zh) | 基于深度神经网络对生物医学文本序列化标注的系统和方法 | |
CN111222340B (zh) | 基于多标准主动学习的乳腺电子病历实体识别系统 | |
CN104268160B (zh) | 一种基于领域词典和语义角色的评价对象抽取方法 | |
CN107785075A (zh) | 基于文本病历的小儿发热疾病深度学习辅助诊断系统 | |
CN112667799B (zh) | 一种基于语言模型和实体匹配的医疗问答系统构建方法 | |
KR101061391B1 (ko) | 동사기반패턴을 이용한 대용량 문헌정보 내에서의 기술용어간 관계추출 시스템 | |
CN109545373A (zh) | 一种人体疾病症状特征自动抽取方法、系统及设备 | |
CN111538845A (zh) | 一种构建肾病专科医学知识图谱的方法、模型及系统 | |
CN106909783A (zh) | 一种基于时间线的病历文本医学知识发现方法 | |
CN105389470A (zh) | 一种中医针灸领域实体关系自动抽取的实现方法 | |
CN109918672A (zh) | 一种基于树结构的甲状腺超声报告的结构化处理方法 | |
CN112466462B (zh) | 一种基于图深度学习的emr信息关联及演化方法 | |
CN106777996A (zh) | 一种基于Solr的体检数据搜索系统 | |
CN108334501B (zh) | 基于机器学习的电子文档分析系统及方法 | |
CN113435200A (zh) | 实体识别模型训练、电子病历处理方法、系统及设备 | |
Ke et al. | Medical entity recognition and knowledge map relationship analysis of Chinese EMRs based on improved BiLSTM-CRF | |
CN114420233A (zh) | 一种中文电子病历后结构化信息的抽取方法 | |
CN112347257A (zh) | 一种患者症状口语化标准化方法和装置 | |
CN113643825B (zh) | 基于临床关键特征信息的医疗案例知识库构建方法和系统 | |
CN113343680B (zh) | 一种基于多类型病历文本的结构化信息提取方法 | |
CN111460173A (zh) | 一种甲状腺癌的疾病本体模型的构建方法 | |
CN112765353B (zh) | 一种基于科研文本的生物医学学科分类方法及装置 | |
Wang et al. | Research on named entity recognition of doctor-patient question answering community based on bilstm-crf model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200925 |