CN111191668B - 一种在病历文本中识别出疾病内容的方法 - Google Patents
一种在病历文本中识别出疾病内容的方法 Download PDFInfo
- Publication number
- CN111191668B CN111191668B CN201811360982.XA CN201811360982A CN111191668B CN 111191668 B CN111191668 B CN 111191668B CN 201811360982 A CN201811360982 A CN 201811360982A CN 111191668 B CN111191668 B CN 111191668B
- Authority
- CN
- China
- Prior art keywords
- medical record
- text
- disease
- content
- different types
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供了一种在病历文本中识别出疾病内容的方法,包括步骤:A、将病历文本拆分成不同类型;B、针对所述不同类型文本内容分别进行特征向量提取;C、依据所提取的特征向量进行疾病确认。由上,区别于现有技术,本方法尊重了病历内容的差异化,通过对病历本文内容的拆分,确定出多个类型。对每个类型分别进行特征向量提取,并基于所提取的特征向量进行疾病确认,提高了疾病确认的准确性。
Description
技术领域
本发明涉及电子文档处理技术领域,特别是一种在病历文本中识别出疾病内容的方法。
背景技术
医疗行业信息化程度高,但存在大量非结构化数据,严重影响临床医疗数据的质量,导致医疗数据的利用率并不高。由此产生的需求是:医疗数据的结构化势在必行。但是由于不同的疾病存在着明显区别,所以病历的结构化方式也有很大差异,采用通用结构化方式就会造成大量的结构冗余,不能满足不同疾病的个性化特点。
发明内容
本发明的主要目的在于提供一种在病历文本中识别出疾病内容的方法,包括步骤:
A、将病历文本拆分成不同类型;
B、针对所述不同类型文本内容分别进行特征向量提取;
C、依据所提取的特征向量进行疾病确认。
由上,区别于现有技术,本方法尊重了病历内容的差异化,通过对病历本文内容的拆分,确定出多个类型。对每个类型分别进行特征向量提取,并基于所提取的特征向量进行疾病确认,提高了疾病确认的准确性。
其中,在步骤A前,还包括对所述病历本文内容进行内容清洗,去除无效内容的步骤。
由上,由于病历中包含的文字信息多种多样,例如患者名字、医院名称等等,上述文字信息在疾病识别时被视为的无效信息。因此在将上述无效信息进行清洗后可以缩减后续的文字处理量。
其中,所述不同类型包括但不限于以下几类:出院诊断、病理诊断、出院小结和病理描述。
由上,通过将病历内容的采取差异化区分,从而克服了现有技术中通用结构化方式进行处理的弊端。
其中,所述步骤B包括以下子步骤:
B1:分别将所述不同类型文本内容转换成one-hot向量矩阵;
B2:分别对所述不同类型文本内容的one-hot向量矩阵进行卷积运算,提取特征向量;
B3:将所述不同类型文本内容的的特征向量进行组合。
由上,将文字采用one-hot向量矩阵进行归一化处理,进而提取特征以便于后续的疾病确认。
其中,在所述步骤B1后还包括对所述one-hot向量矩阵进行降维处理的步骤;
所述步骤B2中,对降维处理后的one-hot向量矩阵进行卷积运算,提取特征向量。
由上,由于针对实际病历每个词的one-hot向量长度约为6000字符,因此通过降维处理从而降低后续的运算量。
其中,所述步骤B2包括:
B21:采用不同窗口大小的卷积核对所述降维处理后的one-hot向量进行卷积运算;
B22:对所述步骤B21输出的特征向量进行池化处理;
B23:将步骤B22处理后的各特征向量进行组合。
由上,采用不同窗口大小的多个卷积核进行卷积运算的目的在于提取更准确的特征向量。若只有单个卷积核进行特征向量的提取显然特征提取是不充分的,因此可以添加多个卷积核以学习多种特征。
其中,步骤B21包括:采用计算式计算,式中convi表示第i个卷积核的卷积向量、bias表示偏移量、Cout表示卷积核的个数、Wi表示第i个卷积核的参数,inputk表示第k个感受感受野(窗口)内的降维处理后的one-hot向量矩阵。
由上,实现卷积的运算。
其中,步骤B22包括:
将所述卷积运算结果分成至少两段,保留每段的最大特征值作为池化处理的保留值。
由上,分段的目的在于在计算量和准确度之间取得平衡。若不分段则有可能造成准确度较差,分段过多则造成计算量过大。
其中,步骤C包括:
C1:预先采用步骤A、B所述方法对历史病历本文内容进行处理;
C2:将步骤C1的处理结果与疾病类型映射以建立疾病确认模型;
C3:针对新病历数据,将其特征向量代入步骤C2所述疾病确认模型以实现疾病确认。
由上,通过学习建立疾病确认模型,从而实现对于疾病的确认。且随着疾病确认样本的增加,对于疾病确认模型的准确性会逐渐增高。
附图说明
图1为在病历文本中识别出疾病内容的方法的流程图;
图2为以框图形式展示的在病历文本中识别出疾病内容的方法的流程示意图;
图3为对文本内容进行特征向量提取和合并的原理示意图。
具体实施方式
下面参见图1~图3对本发明所述的在病历文本中识别出疾病内容的方法进行详细说明。
如图1所示,该方法包括以下步骤:
S100:对病历文本信息进行预处理,并拆分为不同类型。
由于病历中包含的文字信息多种多样,例如患者名字、医院名称等等,上述文字信息在本实施例中视为的无效信息。因此在本步骤需要将上述无效信息进行清洗,以缩减后续的文字处理量。
其次,结合图2所示,所述预处理后还包括将病历的剩余信息依照“出院诊断”,“病理诊断”,“出院小结”和“病理描述”四项内容进行划分,划分出四大类。而实际疾病确认过程中,还可分为更多类型,不难理解,分类越细化,后期疾病确认约准确。
上述划分可依据不同内容出现在病历的不同位置,亦或依据关键词归类等方式。总之上述分类采用现有技术实现,在此不进行赘述。
S200:分别对不同类型的文本内容进行特征向量提取和合并。
在本步骤中,对四种类型的文本内容的处理原理都相同,故以“出院诊断”为例进行介绍,其他类型不再赘述。
本步骤包括以下子步骤:
S201:对“出院诊断”的文本进行向量化处理,将原始文本转换成one-hot向量矩阵。
首先收集历史病历库中关于“出院诊断”的不同字符,以构建字典。例如历史病历库中“出院诊断”的字符包括“肝硬化”、“肝炎”、“肝癌”,将所有出现的字符组成以长度为L的全零向量0,0,0,该全零向量的每一维都对应于某一字符。
当识别出当前“出院诊断”包含“肝癌”的字符时,则one-hot向量为0,0,1。而当识别出当前“出院诊断”包含“肝硬化”的字符时,则one-hot向量为1,0,0。
在实际转换时,针对实际病历每个词的one-hot向量长度约为6000字符。而基于“出院诊断”中的字数,便将“出院诊断”的文本转换成了one-hot向量矩阵。
S202:对所述one-hot向量矩阵进行降维处理。
由步骤S201所转换的one-hot向量以矩阵形式表示“出院诊断”中的文本。例如“出院诊断”中的文本有50个字,则one-hot向量为50*6000的矩阵。
首先需对该矩阵进行降维处理,例如降维为50*200或者50*300的矩阵,从而降低后续的运算量。具体降维处理采用词向量映射原理,即将50*6000的one-hot向量与6000*200或6000*300的词向量矩阵相乘,从而得到降维后的50*200或者50*300的矩阵,记为input。
S203:对降维处理后的one-hot向量矩阵进行卷积运算,提取特征向量。
分别采用不同窗口大小的卷积核对所述降维后的one-hot向量矩阵进行卷积运算,运算式为:式中convi表示第i个卷积核的卷积向量、bias表示偏移量、Cout表示卷积核的个数、Wi表示第i个卷积核的参数,inputk表示第k个感受野(窗口)内的input。
采用不同窗口大小的多个卷积核进行卷积运算的目的在于提取更准确的特征向量。若只有单个卷积核进行特征向量的提取显然对于特征提取是不充分的,因此可以添加多个卷积核,比如3个卷积核,可以学习3种特征。
如图3所示为采用3个不同窗口大小的卷积核进行卷积运算的示意图。针对各(3个)卷积特征向量进行池化(pooling)。本实施例采用Max-Pooling,即只取其中最大值(对应图3中所示的Max)作为池化层的保留值,其它值全部抛弃,最大值代表只保留这些特征中最强的,而抛弃其它弱的此类特征。
较佳的,在本实施例中,将各卷积特征向量分为多段,对每段进行Max-Pooling。将各卷积特征向量分为多段的原因在于可以减少运算量。若50*300的矩阵,不分段的话需要同时对300个通道进行池化,虽然准确度有了保障,但计算量过于庞大。而若将300个通道视为1个整体进行Max Pooling,虽然计算量减少,而准确度欠妥。基于此,本实施例将各卷积特征向量分为3段。从而在计算量和准确度之间取得平衡。
不难理解,本步骤也可直接接于步骤S201后,即对降维处理前的one-hot向量矩阵进行卷积运算,本步骤的计算原理相同。
S204:将步骤S203所输出的对各卷积核池化后的特征向量进行组合。
S205:将不同类型的文本内容的特征向量进行组合。
S300:基于步骤S200的输出进行疾病类型区分。
本实施例中,采用Soft-max分类器进行疾病类型区分。不难理解,在进行疾病类型区分前,还包括Soft-max分类器进行学习的步骤。即采用上述步骤S100、S200的方案对历史数据进行特征向量的提取,再根据实际疾病类型的结果建立与前述历史数据特征向量的关联以建立模型。
由此在后续疾病类型区分时,接收步骤S200所输出的新病例的特征向量,以根据新病历输出的特征向量,即可进行疾病类型区分。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种在病历文本中识别出疾病内容的方法,其特征在于,包括步骤:
A、将病历文本拆分成不同类型;
B、针对所述不同类型文本内容分别进行特征向量提取;
C、依据所提取的特征向量进行疾病确认;
所述步骤B包括以下子步骤:
B1:分别将所述不同类型文本内容转换成one-hot向量矩阵;
B2:分别对所述不同类型文本内容的one-hot向量矩阵进行卷积运算,提取特征向量;
B3:将所述不同类型文本内容的特征向量进行组合;
在所述步骤B1后还包括对所述one-hot向量矩阵进行降维处理的步骤;
所述步骤B2中,对降维处理后的one-hot向量矩阵进行卷积运算,提取特征向量;
所述步骤B2包括:
B21:采用不同窗口大小的卷积核对所述降维处理后的one-hot向量进行卷积运算;
B22:对所述步骤B21输出的特征向量进行池化处理;
B23:将步骤B22处理后的各特征向量进行组合;
步骤B21包括:采用计算式计算,式中convi表示第i个卷积核的卷积向量、bias表示偏移量、Cout表示卷积核的个数、Wi表示第i个卷积核的参数,inputk表示第k个感受野(窗口)内的降维处理后的one-hot向量矩阵;
步骤B22包括:
将所述卷积运算结果分成至少两段,保留每段的最大特征值作为池化处理的保留值。
2.根据权利要求1所述的方法,其特征在于,在步骤A前,还包括对所述病历本文内容进行内容清洗,去除无效内容的步骤。
3.根据权利要求1或2所述的方法,其特征在于,所述不同类型包括但不限于以下几类:出院诊断、病理诊断、出院小结和病理描述。
4.根据权利要求1所述的方法,其特征在于,步骤C包括:
C1:预先采用步骤A、B所述方法对历史病历本文内容进行处理;
C2:将步骤C1的处理结果与疾病类型映射以建立疾病确认模型;
C3:针对新病历数据,将其特征向量代入步骤C2所述疾病确认模型以实现疾病确认。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811360982.XA CN111191668B (zh) | 2018-11-15 | 2018-11-15 | 一种在病历文本中识别出疾病内容的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811360982.XA CN111191668B (zh) | 2018-11-15 | 2018-11-15 | 一种在病历文本中识别出疾病内容的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111191668A CN111191668A (zh) | 2020-05-22 |
CN111191668B true CN111191668B (zh) | 2023-04-28 |
Family
ID=70707555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811360982.XA Active CN111191668B (zh) | 2018-11-15 | 2018-11-15 | 一种在病历文本中识别出疾病内容的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111191668B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111739600A (zh) * | 2020-06-22 | 2020-10-02 | 平安医疗健康管理股份有限公司 | 信息处理方法、装置、计算机设备及可读存储介质 |
CN112016279B (zh) * | 2020-09-04 | 2023-11-14 | 平安科技(深圳)有限公司 | 电子病历结构化方法、装置、计算机设备和存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5712922A (en) * | 1992-04-14 | 1998-01-27 | Eastman Kodak Company | Neural network optical character recognition system and method for classifying characters in a moving web |
CN106446526A (zh) * | 2016-08-31 | 2017-02-22 | 北京千安哲信息技术有限公司 | 电子病历实体关系抽取方法及装置 |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN106845411A (zh) * | 2017-01-19 | 2017-06-13 | 清华大学 | 一种基于深度学习和概率图模型的视频描述生成方法 |
CN106980858A (zh) * | 2017-02-28 | 2017-07-25 | 中国科学院信息工程研究所 | 一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法 |
CN107577662A (zh) * | 2017-08-08 | 2018-01-12 | 上海交通大学 | 面向中文文本的语义理解系统及方法 |
CN107908768A (zh) * | 2017-09-30 | 2018-04-13 | 北京颐圣智能科技有限公司 | 电子病历处理的方法、装置、计算机设备及存储介质 |
CN108022012A (zh) * | 2017-12-01 | 2018-05-11 | 兰州大学 | 基于深度学习的车辆位置预测方法 |
CN108108354A (zh) * | 2017-06-18 | 2018-06-01 | 北京理工大学 | 一种基于深度学习的微博用户性别预测方法 |
CN108182279A (zh) * | 2018-01-26 | 2018-06-19 | 有米科技股份有限公司 | 基于文本特征的对象分类方法、装置和计算机设备 |
CN108304814A (zh) * | 2018-02-08 | 2018-07-20 | 海南云江科技有限公司 | 一种文字类型检测模型的构建方法和计算设备 |
CN108564940A (zh) * | 2018-03-20 | 2018-09-21 | 平安科技(深圳)有限公司 | 语音识别方法、服务器及计算机可读存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10089717B2 (en) * | 2016-04-05 | 2018-10-02 | Flipboard, Inc. | Image scaling using a convolutional neural network |
US11205103B2 (en) * | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
GB2568083B (en) * | 2017-11-03 | 2021-06-02 | Imagination Tech Ltd | Histogram-based per-layer data format selection for hardware implementation of deep neutral network |
-
2018
- 2018-11-15 CN CN201811360982.XA patent/CN111191668B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5712922A (en) * | 1992-04-14 | 1998-01-27 | Eastman Kodak Company | Neural network optical character recognition system and method for classifying characters in a moving web |
CN106446526A (zh) * | 2016-08-31 | 2017-02-22 | 北京千安哲信息技术有限公司 | 电子病历实体关系抽取方法及装置 |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN106845411A (zh) * | 2017-01-19 | 2017-06-13 | 清华大学 | 一种基于深度学习和概率图模型的视频描述生成方法 |
CN106980858A (zh) * | 2017-02-28 | 2017-07-25 | 中国科学院信息工程研究所 | 一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法 |
CN108108354A (zh) * | 2017-06-18 | 2018-06-01 | 北京理工大学 | 一种基于深度学习的微博用户性别预测方法 |
CN107577662A (zh) * | 2017-08-08 | 2018-01-12 | 上海交通大学 | 面向中文文本的语义理解系统及方法 |
CN107908768A (zh) * | 2017-09-30 | 2018-04-13 | 北京颐圣智能科技有限公司 | 电子病历处理的方法、装置、计算机设备及存储介质 |
CN108022012A (zh) * | 2017-12-01 | 2018-05-11 | 兰州大学 | 基于深度学习的车辆位置预测方法 |
CN108182279A (zh) * | 2018-01-26 | 2018-06-19 | 有米科技股份有限公司 | 基于文本特征的对象分类方法、装置和计算机设备 |
CN108304814A (zh) * | 2018-02-08 | 2018-07-20 | 海南云江科技有限公司 | 一种文字类型检测模型的构建方法和计算设备 |
CN108564940A (zh) * | 2018-03-20 | 2018-09-21 | 平安科技(深圳)有限公司 | 语音识别方法、服务器及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
李泽原 ; 孙晓刚 ; 林云 ; .基于卷积神经网络和核相关滤波的物体跟踪算法.计算机应用.(第S2期),第112-116页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111191668A (zh) | 2020-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4311552B2 (ja) | ドキュメントの自動分離 | |
JP2022137166A (ja) | 生体粒子の分類のシステム及び方法 | |
WO2021051598A1 (zh) | 文本情感分析模型训练方法、装置、设备及可读存储介质 | |
CN110097096B (zh) | 一种基于tf-idf矩阵和胶囊网络的文本分类方法 | |
CN111191668B (zh) | 一种在病历文本中识别出疾病内容的方法 | |
CN111882560A (zh) | 一种基于加权全卷积神经网络的肺实质ct图像分割方法 | |
WO2020253506A1 (zh) | 合同内容的提取方法及装置、计算机设备、存储介质 | |
CN112560993A (zh) | 数据筛选方法、装置、电子设备及存储介质 | |
CN115601602A (zh) | 癌症组织病理图像分类方法、系统、介质、设备及终端 | |
CN108921172B (zh) | 基于支持向量机的图像处理装置及方法 | |
CN110019711A (zh) | 一种对医学文本数据结构化处理的控制方法及装置 | |
CN111126162A (zh) | 一种识别图像中炎症细胞的方法、装置及存储介质 | |
CN115393293A (zh) | 基于UNet网络与分水岭算法的电镜红细胞分割与定位方法 | |
CN114358001A (zh) | 诊断结果的标准化方法及其相关装置、设备和存储介质 | |
CN115294075A (zh) | 一种基于注意力机制的octa图像视网膜血管分割方法 | |
CN110136113B (zh) | 一种基于卷积神经网络的阴道病理图像分类方法 | |
CN115545041A (zh) | 一种增强医疗语句语义向量表示的模型构造方法及系统 | |
CN109740669B (zh) | 一种基于深度特征聚合的乳腺癌病理图像分类方法 | |
CN112990270B (zh) | 一种传统特征与深度特征的自动融合方法 | |
CN111191033A (zh) | 一种基于分类效用的开集分类方法 | |
CN114140437A (zh) | 一种基于深度学习的眼底硬渗出物分割方法 | |
CN110363240B (zh) | 一种医学影像分类方法与系统 | |
CN111159370A (zh) | 一种短会话新问题生成方法、存储介质和人机交互装置 | |
CN108733733B (zh) | 基于机器学习的生物医学文本分类方法、系统和存储介质 | |
CN115810106A (zh) | 一种复杂环境下茶叶嫩梢品级精准识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |