CN113808742A - 一种基于文本特征降维的lstm注意力机制疾病预测方法 - Google Patents
一种基于文本特征降维的lstm注意力机制疾病预测方法 Download PDFInfo
- Publication number
- CN113808742A CN113808742A CN202110915825.6A CN202110915825A CN113808742A CN 113808742 A CN113808742 A CN 113808742A CN 202110915825 A CN202110915825 A CN 202110915825A CN 113808742 A CN113808742 A CN 113808742A
- Authority
- CN
- China
- Prior art keywords
- word
- data
- text
- attention mechanism
- lstm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 21
- 238000000034 method Methods 0.000 title claims abstract description 19
- 230000009467 reduction Effects 0.000 title claims abstract description 16
- 201000010099 disease Diseases 0.000 title claims abstract description 12
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 12
- 238000005516 engineering process Methods 0.000 title description 4
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims abstract description 4
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000011946 reduction process Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 5
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 208000004998 Abdominal Pain Diseases 0.000 description 1
- 208000002881 Colic Diseases 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 206010000059 abdominal discomfort Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002496 gastric effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Epidemiology (AREA)
- Biophysics (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于文本特征降维的LSTM注意力机制疾病预测方法,包括以下步骤:(1)数据预处理;(2)结合电子病历文本特点,形成词特征加权计算方法;(3)利用数据降维提取数据集关键信息;(4)将非结构化的文本数据转化为计算机能识别的结构化数据;(5)LSTM注意力机制模型训练。该基于文本特征降维的LSTM注意力机制疾病预测方法将LDA模型引入LSTM注意力机制中,通过LDA模型实现电子病历文本关键信息的提取,降低数据冗余,进而提升LSTM注意力机制模型的性能。
Description
技术领域
本发明涉及电子病历文本分类领域,具体为一种基于文本特征降维的LSTM注意力机制疾病预测方法。
背景技术
随着人工智能技术与大数据技术的发展与应用、各组织机构对医疗健康信息数据的愈发重视,近年来国内外的医疗机构在医疗实践中有意识的存储了大量的具有极高研究和实用价值的电子病历文本数据。复杂多样的非结构化电子病历文本数据分析与应用的发展,对推动医疗领域智能化与现代化提供了必要的条件。
传统的文本分类算法以基于统计的机器学习分类算法模型为主,如KNN模型、朴素贝叶斯模型等。但这类机器学习算法忽略了特征之间的相关性,存在文本信息提取能力较弱。在医疗领域等分类准确率要求较高的任务情形下,无法很好的适用。随着自然语言处理领域的研究发展,研究者开始对文本数据进行适当的转化处理,进而利用深度学习算法对文本进行分析预测,并取得了较好的效果。相对与机器学习算法,LSTM等深度学习算法模型,可以从更多维度获取文本数据的信息特征,取得更好的准确率。为了使得模型在目标任务上有更好的适用性,进一步提升模型的性能,研究者在原有模型的基础上引入了注意力机制,形成了如LSTM注意力机制模型。
由于医疗领域数据记录标准不一,且存在不可避免的人工记录误差,使得电子病历文本中存在较严重数据冗余。这些冗余的数据会干扰到模型算法对疾病的正常预测,降低模型算法的运算性能。如“患者今晨出现胃部不适,午饭后两小时,胃部开始绞痛,后于我院肠胃科诊治。”该电子病历文本中,“患者今晨”、“后于我院”,这样的文本信息,与疾病描述并没有关联。但模型预测时,会对这些文本信息进行分析处理,这会对模型性能造成一定的干扰。
发明内容
本发明的目的在于提供一种基于文本特征降维的LSTM注意力机制疾病预测方法,用于解决电子病历中数据冗余问题,提升模型算法的性能。
为实现上述目的,本发明提供如下技术方案:一种基于文本特征降维的LSTM注意力机制疾病预测方法,包括以下步骤:
(1)数据预处理。
(2)结合电子病历文本特点,形成词特征加权计算方法。
计算方法包括词义加权计算方法和词长加权计算方法;
词义加权计算方法,需要根据任务目标构建两种本地词库:任务相关词库和非任务相关词库,用以确定词义与文本的关联性。词义加权计算方法公式如下:
词长加权计算方法,词长也即组成词的字数,在一定范围内词字数越多词携带的信息越高。词长加权计算公式如下:
(3)利用数据降维提取数据集关键信息。
将词长和词义加权引入LDA模型,改变原有的词分布状态,用于实现对LDA模型的降维过程的针对性指导。
(4)将非结构化的文本数据转化为计算机能识别的结构化数据。
电子病历文本为计算机无法识别的非结构化数据,通过词嵌入的方法将文本数据转化为计算机可识别的数字矩阵。
(5)LSTM注意力机制模型训练。
进一步的,所述步骤(1)中预处理包含去除文本中的标点符号等特殊字符;使用分词工具对文本数据进行分词处理,并获取分词结果中词对应的词性;去除数据中非动词、名词、形容词和副词词性的其他词。
与现有技术相比,本发明的有益效果是:
1、将LDA模型引入LSTM注意力机制中,通过LDA模型实现电子病历文本关键信息的提取,降低数据冗余,进而提升LSTM注意力机制模型的性能;
2、与传统LSTM注意力机制模型相比,本发明提出的技术方案引入了LDA模型实现了对电子病历关键信息的提取,降低了文本数据的冗余,进而实现了模型的性能提升,此外,传统的LDA模型无法有针对性的实现疾病预测关键信息的提取,本发明通过对任务数据集分析形成词特征加权计算方法,进而对LDA模型的提取任务的进行针对性指导,以实现对电子病历中疾病预测关键信息的提取。
附图说明
图1为本发明方法流程示意图。
具体实施方式
在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”“前端”、“后端”、“两端”、“一端”、“另一端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“设置有”、“连接”等,应做广义理解,例如“连接”,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种基于文本特征降维的LSTM注意力机制疾病预测方法,包括以下步骤:
(1)数据预处理。
去除文本中的标点符号等特殊字符;使用分词工具对文本数据进行分词处理,并获取分词结果中词对应的词性;去除数据中非动词、名词、形容词和副词词性的其他词。
(2)结合电子病历文本特点,形成词特征加权计算方法。
通过对中文电子病历的分析发现,文本的词义、词长等特征对文本主题揭示有着重要作用;结合电子病历的特点,形成词义和词文档频率的加权计算方法。
计算方法包括词义加权计算方法和词长加权计算方法;
词义加权计算方法,需要根据任务目标构建两种本地词库:任务相关词库和非任务相关词库,用以确定词义与文本的关联性。词义加权计算方法公式如下:
词长加权计算方法,词长也即组成词的字数,在一定范围内词字数越多词携带的信息越高。词长加权计算公式如下:
(3)利用数据降维提取数据集关键信息。
将词长和词义加权引入LDA模型,改变原有的词分布状态,用于实现对LDA模型的降维过程的针对性指导。LDA模型是一种基于词共现频率的无监督的主题提取方法,利用LDA模型可以实现文本数据的数据降维,但仅基于词共现频率无法有针对性的实现文本数据的准确降维。
(4)将非结构化的文本数据转化为计算机能识别的结构化数据。
电子病历文本为计算机无法识别的非结构化数据,通过词嵌入的方法将文本数据转化为计算机可识别的数字矩阵。
(5)LSTM注意力机制模型训练。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (2)
1.一种基于文本特征降维的LSTM注意力机制疾病预测方法,其特征在于,包括以下步骤:
(1)数据预处理。
(2)结合电子病历文本特点,形成词特征加权计算方法。
计算方法包括词义加权计算方法和词长加权计算方法;
词义加权计算方法,需要根据任务目标构建两种本地词库:任务相关词库和非任务相关词库,用以确定词义与文本的关联性。词义加权计算方法公式如下:
词长加权计算方法,词长也即组成词的字数,在一定范围内词字数越多词携带的信息越高。词长加权计算公式如下:
(3)利用数据降维提取数据集关键信息。
将词长和词义加权引入LDA模型,改变原有的词分布状态,用于实现对LDA模型的降维过程的针对性指导。
(4)将非结构化的文本数据转化为计算机能识别的结构化数据。
电子病历文本为计算机无法识别的非结构化数据,通过词嵌入的方法将文本数据转化为计算机可识别的数字矩阵。
(5)LSTM注意力机制模型训练。
2.根据权利要求1所述的一种基于文本特征降维的LSTM注意力机制疾病预测方法,其特征在于,所述步骤(1)中预处理包含去除文本中的标点符号等特殊字符;使用分词工具对文本数据进行分词处理,并获取分词结果中词对应的词性;去除数据中非动词、名词、形容词和副词词性的其他词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110915825.6A CN113808742B (zh) | 2021-08-10 | 2021-08-10 | 一种基于文本特征降维的lstm注意力机制疾病预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110915825.6A CN113808742B (zh) | 2021-08-10 | 2021-08-10 | 一种基于文本特征降维的lstm注意力机制疾病预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113808742A true CN113808742A (zh) | 2021-12-17 |
CN113808742B CN113808742B (zh) | 2024-07-02 |
Family
ID=78943054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110915825.6A Active CN113808742B (zh) | 2021-08-10 | 2021-08-10 | 一种基于文本特征降维的lstm注意力机制疾病预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113808742B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763213A (zh) * | 2018-05-25 | 2018-11-06 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 主题特征文本关键词提取方法 |
CN109637642A (zh) * | 2018-12-04 | 2019-04-16 | 平安医疗健康管理股份有限公司 | 医疗机构透析水平的考核方法、装置、设备及存储介质 |
CN110633464A (zh) * | 2018-06-22 | 2019-12-31 | 北京京东尚科信息技术有限公司 | 一种语义识别方法、装置、介质及电子设备 |
CN110866401A (zh) * | 2019-11-18 | 2020-03-06 | 山东健康医疗大数据有限公司 | 基于注意力机制的中文电子病历命名实体识别方法及系统 |
CN111026869A (zh) * | 2019-12-10 | 2020-04-17 | 山东大学 | 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法 |
CN111831802A (zh) * | 2020-06-04 | 2020-10-27 | 北京航空航天大学 | 一种基于lda主题模型的城市领域知识检测系统及方法 |
CN113111645A (zh) * | 2021-04-28 | 2021-07-13 | 东南大学 | 一种媒体文本相似性检测方法 |
CN113157918A (zh) * | 2021-03-23 | 2021-07-23 | 浙江工业大学 | 一种基于注意力机制的商品名称短文本分类方法和系统 |
-
2021
- 2021-08-10 CN CN202110915825.6A patent/CN113808742B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763213A (zh) * | 2018-05-25 | 2018-11-06 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 主题特征文本关键词提取方法 |
CN110633464A (zh) * | 2018-06-22 | 2019-12-31 | 北京京东尚科信息技术有限公司 | 一种语义识别方法、装置、介质及电子设备 |
CN109637642A (zh) * | 2018-12-04 | 2019-04-16 | 平安医疗健康管理股份有限公司 | 医疗机构透析水平的考核方法、装置、设备及存储介质 |
CN110866401A (zh) * | 2019-11-18 | 2020-03-06 | 山东健康医疗大数据有限公司 | 基于注意力机制的中文电子病历命名实体识别方法及系统 |
CN111026869A (zh) * | 2019-12-10 | 2020-04-17 | 山东大学 | 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法 |
CN111831802A (zh) * | 2020-06-04 | 2020-10-27 | 北京航空航天大学 | 一种基于lda主题模型的城市领域知识检测系统及方法 |
CN113157918A (zh) * | 2021-03-23 | 2021-07-23 | 浙江工业大学 | 一种基于注意力机制的商品名称短文本分类方法和系统 |
CN113111645A (zh) * | 2021-04-28 | 2021-07-13 | 东南大学 | 一种媒体文本相似性检测方法 |
Non-Patent Citations (1)
Title |
---|
余肖生;孙珊;: "基于信息抽取的文本知识挖掘模型研究", 情报科学, no. 05, 15 May 2010 (2010-05-15), pages 776 - 778 * |
Also Published As
Publication number | Publication date |
---|---|
CN113808742B (zh) | 2024-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Section classification in clinical notes using supervised hidden markov model | |
US10949456B2 (en) | Method and system for mapping text phrases to a taxonomy | |
Argamon et al. | Measuring the usefulness of function words for authorship attribution | |
Deng et al. | Named Entity Recognition of Traditional Chinese Medicine Patents Based on BiLSTM‐CRF | |
CN109992775B (zh) | 一种基于高级语义的文本摘要生成方法 | |
CN112687388B (zh) | 一种基于文本检索的可解释性智慧医疗辅助诊断系统 | |
Roitero et al. | DiLBERT: Cheap embeddings for disease related medical NLP | |
CN116092699A (zh) | 一种基于预训练模型的癌症问答交互方法 | |
CN115983233A (zh) | 一种基于数据流匹配的电子病历查重率估计方法 | |
CN116911300A (zh) | 语言模型预训练方法、实体识别方法和装置 | |
CN113111660A (zh) | 数据处理方法、装置、设备和存储介质 | |
Friedman | Semantic text parsing for patient records | |
CN113808742A (zh) | 一种基于文本特征降维的lstm注意力机制疾病预测方法 | |
AlMahmoud et al. | SEWAR: A corpus-based N-gram approach for extracting semantically-related words from Arabic medical corpus | |
Sabra et al. | A comparative study of N-gram and Skip-gram for clinical concepts extraction | |
Lam et al. | Named entity translation matching and learning: With application for mining unseen translations | |
Ren et al. | Extraction of transitional relations in healthcare processes from Chinese medical text based on deep learning | |
CN113807090B (zh) | 一种基于词义加权tf-idf疾病表征词提取方法 | |
Fan et al. | Word sense disambiguation via semantic type classification | |
CN113408286A (zh) | 一种面向机械化工领域的中文实体识别方法和系统 | |
CN111899832A (zh) | 基于上下文语义分析的医疗主题管理系统与方法 | |
Kreuzthaler et al. | EHR Text Categorization for Enhanced Patient-Based Document Navigation | |
Toshevska | The ability of word embeddings to capture word similarities | |
Wrenn et al. | An unsupervised machine learning approach to segmentation of clinician-entered free text | |
Zuo et al. | Knowledge-Powered Thyroid Nodule Classification with Thyroid Ultrasound Reports |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |