CN113808742A - 一种基于文本特征降维的lstm注意力机制疾病预测方法 - Google Patents

一种基于文本特征降维的lstm注意力机制疾病预测方法 Download PDF

Info

Publication number
CN113808742A
CN113808742A CN202110915825.6A CN202110915825A CN113808742A CN 113808742 A CN113808742 A CN 113808742A CN 202110915825 A CN202110915825 A CN 202110915825A CN 113808742 A CN113808742 A CN 113808742A
Authority
CN
China
Prior art keywords
word
data
text
attention mechanism
lstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110915825.6A
Other languages
English (en)
Other versions
CN113808742B (zh
Inventor
余肖生
沈胜
张合欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Three Gorges University CTGU
Original Assignee
China Three Gorges University CTGU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Three Gorges University CTGU filed Critical China Three Gorges University CTGU
Priority to CN202110915825.6A priority Critical patent/CN113808742B/zh
Publication of CN113808742A publication Critical patent/CN113808742A/zh
Application granted granted Critical
Publication of CN113808742B publication Critical patent/CN113808742B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Epidemiology (AREA)
  • Biophysics (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于文本特征降维的LSTM注意力机制疾病预测方法,包括以下步骤:(1)数据预处理;(2)结合电子病历文本特点,形成词特征加权计算方法;(3)利用数据降维提取数据集关键信息;(4)将非结构化的文本数据转化为计算机能识别的结构化数据;(5)LSTM注意力机制模型训练。该基于文本特征降维的LSTM注意力机制疾病预测方法将LDA模型引入LSTM注意力机制中,通过LDA模型实现电子病历文本关键信息的提取,降低数据冗余,进而提升LSTM注意力机制模型的性能。

Description

一种基于文本特征降维的LSTM注意力机制疾病预测方法
技术领域
本发明涉及电子病历文本分类领域,具体为一种基于文本特征降维的LSTM注意力机制疾病预测方法。
背景技术
随着人工智能技术与大数据技术的发展与应用、各组织机构对医疗健康信息数据的愈发重视,近年来国内外的医疗机构在医疗实践中有意识的存储了大量的具有极高研究和实用价值的电子病历文本数据。复杂多样的非结构化电子病历文本数据分析与应用的发展,对推动医疗领域智能化与现代化提供了必要的条件。
传统的文本分类算法以基于统计的机器学习分类算法模型为主,如KNN模型、朴素贝叶斯模型等。但这类机器学习算法忽略了特征之间的相关性,存在文本信息提取能力较弱。在医疗领域等分类准确率要求较高的任务情形下,无法很好的适用。随着自然语言处理领域的研究发展,研究者开始对文本数据进行适当的转化处理,进而利用深度学习算法对文本进行分析预测,并取得了较好的效果。相对与机器学习算法,LSTM等深度学习算法模型,可以从更多维度获取文本数据的信息特征,取得更好的准确率。为了使得模型在目标任务上有更好的适用性,进一步提升模型的性能,研究者在原有模型的基础上引入了注意力机制,形成了如LSTM注意力机制模型。
由于医疗领域数据记录标准不一,且存在不可避免的人工记录误差,使得电子病历文本中存在较严重数据冗余。这些冗余的数据会干扰到模型算法对疾病的正常预测,降低模型算法的运算性能。如“患者今晨出现胃部不适,午饭后两小时,胃部开始绞痛,后于我院肠胃科诊治。”该电子病历文本中,“患者今晨”、“后于我院”,这样的文本信息,与疾病描述并没有关联。但模型预测时,会对这些文本信息进行分析处理,这会对模型性能造成一定的干扰。
发明内容
本发明的目的在于提供一种基于文本特征降维的LSTM注意力机制疾病预测方法,用于解决电子病历中数据冗余问题,提升模型算法的性能。
为实现上述目的,本发明提供如下技术方案:一种基于文本特征降维的LSTM注意力机制疾病预测方法,包括以下步骤:
(1)数据预处理。
(2)结合电子病历文本特点,形成词特征加权计算方法。
计算方法包括词义加权计算方法和词长加权计算方法;
词义加权计算方法,需要根据任务目标构建两种本地词库:任务相关词库和非任务相关词库,用以确定词义与文本的关联性。词义加权计算方法公式如下:
Figure BDA0003205496120000021
词长加权计算方法,词长也即组成词的字数,在一定范围内词字数越多词携带的信息越高。词长加权计算公式如下:
Figure BDA0003205496120000022
(3)利用数据降维提取数据集关键信息。
将词长和词义加权引入LDA模型,改变原有的词分布状态,用于实现对LDA模型的降维过程的针对性指导。
(4)将非结构化的文本数据转化为计算机能识别的结构化数据。
电子病历文本为计算机无法识别的非结构化数据,通过词嵌入的方法将文本数据转化为计算机可识别的数字矩阵。
(5)LSTM注意力机制模型训练。
进一步的,所述步骤(1)中预处理包含去除文本中的标点符号等特殊字符;使用分词工具对文本数据进行分词处理,并获取分词结果中词对应的词性;去除数据中非动词、名词、形容词和副词词性的其他词。
与现有技术相比,本发明的有益效果是:
1、将LDA模型引入LSTM注意力机制中,通过LDA模型实现电子病历文本关键信息的提取,降低数据冗余,进而提升LSTM注意力机制模型的性能;
2、与传统LSTM注意力机制模型相比,本发明提出的技术方案引入了LDA模型实现了对电子病历关键信息的提取,降低了文本数据的冗余,进而实现了模型的性能提升,此外,传统的LDA模型无法有针对性的实现疾病预测关键信息的提取,本发明通过对任务数据集分析形成词特征加权计算方法,进而对LDA模型的提取任务的进行针对性指导,以实现对电子病历中疾病预测关键信息的提取。
附图说明
图1为本发明方法流程示意图。
具体实施方式
在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”“前端”、“后端”、“两端”、“一端”、“另一端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“设置有”、“连接”等,应做广义理解,例如“连接”,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种基于文本特征降维的LSTM注意力机制疾病预测方法,包括以下步骤:
(1)数据预处理。
去除文本中的标点符号等特殊字符;使用分词工具对文本数据进行分词处理,并获取分词结果中词对应的词性;去除数据中非动词、名词、形容词和副词词性的其他词。
(2)结合电子病历文本特点,形成词特征加权计算方法。
通过对中文电子病历的分析发现,文本的词义、词长等特征对文本主题揭示有着重要作用;结合电子病历的特点,形成词义和词文档频率的加权计算方法。
计算方法包括词义加权计算方法和词长加权计算方法;
词义加权计算方法,需要根据任务目标构建两种本地词库:任务相关词库和非任务相关词库,用以确定词义与文本的关联性。词义加权计算方法公式如下:
Figure BDA0003205496120000041
词长加权计算方法,词长也即组成词的字数,在一定范围内词字数越多词携带的信息越高。词长加权计算公式如下:
Figure BDA0003205496120000051
(3)利用数据降维提取数据集关键信息。
将词长和词义加权引入LDA模型,改变原有的词分布状态,用于实现对LDA模型的降维过程的针对性指导。LDA模型是一种基于词共现频率的无监督的主题提取方法,利用LDA模型可以实现文本数据的数据降维,但仅基于词共现频率无法有针对性的实现文本数据的准确降维。
(4)将非结构化的文本数据转化为计算机能识别的结构化数据。
电子病历文本为计算机无法识别的非结构化数据,通过词嵌入的方法将文本数据转化为计算机可识别的数字矩阵。
(5)LSTM注意力机制模型训练。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (2)

1.一种基于文本特征降维的LSTM注意力机制疾病预测方法,其特征在于,包括以下步骤:
(1)数据预处理。
(2)结合电子病历文本特点,形成词特征加权计算方法。
计算方法包括词义加权计算方法和词长加权计算方法;
词义加权计算方法,需要根据任务目标构建两种本地词库:任务相关词库和非任务相关词库,用以确定词义与文本的关联性。词义加权计算方法公式如下:
Figure FDA0003205496110000011
词长加权计算方法,词长也即组成词的字数,在一定范围内词字数越多词携带的信息越高。词长加权计算公式如下:
Figure FDA0003205496110000012
(3)利用数据降维提取数据集关键信息。
将词长和词义加权引入LDA模型,改变原有的词分布状态,用于实现对LDA模型的降维过程的针对性指导。
(4)将非结构化的文本数据转化为计算机能识别的结构化数据。
电子病历文本为计算机无法识别的非结构化数据,通过词嵌入的方法将文本数据转化为计算机可识别的数字矩阵。
(5)LSTM注意力机制模型训练。
2.根据权利要求1所述的一种基于文本特征降维的LSTM注意力机制疾病预测方法,其特征在于,所述步骤(1)中预处理包含去除文本中的标点符号等特殊字符;使用分词工具对文本数据进行分词处理,并获取分词结果中词对应的词性;去除数据中非动词、名词、形容词和副词词性的其他词。
CN202110915825.6A 2021-08-10 2021-08-10 一种基于文本特征降维的lstm注意力机制疾病预测方法 Active CN113808742B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110915825.6A CN113808742B (zh) 2021-08-10 2021-08-10 一种基于文本特征降维的lstm注意力机制疾病预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110915825.6A CN113808742B (zh) 2021-08-10 2021-08-10 一种基于文本特征降维的lstm注意力机制疾病预测方法

Publications (2)

Publication Number Publication Date
CN113808742A true CN113808742A (zh) 2021-12-17
CN113808742B CN113808742B (zh) 2024-07-02

Family

ID=78943054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110915825.6A Active CN113808742B (zh) 2021-08-10 2021-08-10 一种基于文本特征降维的lstm注意力机制疾病预测方法

Country Status (1)

Country Link
CN (1) CN113808742B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763213A (zh) * 2018-05-25 2018-11-06 西南电子技术研究所(中国电子科技集团公司第十研究所) 主题特征文本关键词提取方法
CN109637642A (zh) * 2018-12-04 2019-04-16 平安医疗健康管理股份有限公司 医疗机构透析水平的考核方法、装置、设备及存储介质
CN110633464A (zh) * 2018-06-22 2019-12-31 北京京东尚科信息技术有限公司 一种语义识别方法、装置、介质及电子设备
CN110866401A (zh) * 2019-11-18 2020-03-06 山东健康医疗大数据有限公司 基于注意力机制的中文电子病历命名实体识别方法及系统
CN111026869A (zh) * 2019-12-10 2020-04-17 山东大学 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法
CN111831802A (zh) * 2020-06-04 2020-10-27 北京航空航天大学 一种基于lda主题模型的城市领域知识检测系统及方法
CN113111645A (zh) * 2021-04-28 2021-07-13 东南大学 一种媒体文本相似性检测方法
CN113157918A (zh) * 2021-03-23 2021-07-23 浙江工业大学 一种基于注意力机制的商品名称短文本分类方法和系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763213A (zh) * 2018-05-25 2018-11-06 西南电子技术研究所(中国电子科技集团公司第十研究所) 主题特征文本关键词提取方法
CN110633464A (zh) * 2018-06-22 2019-12-31 北京京东尚科信息技术有限公司 一种语义识别方法、装置、介质及电子设备
CN109637642A (zh) * 2018-12-04 2019-04-16 平安医疗健康管理股份有限公司 医疗机构透析水平的考核方法、装置、设备及存储介质
CN110866401A (zh) * 2019-11-18 2020-03-06 山东健康医疗大数据有限公司 基于注意力机制的中文电子病历命名实体识别方法及系统
CN111026869A (zh) * 2019-12-10 2020-04-17 山东大学 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法
CN111831802A (zh) * 2020-06-04 2020-10-27 北京航空航天大学 一种基于lda主题模型的城市领域知识检测系统及方法
CN113157918A (zh) * 2021-03-23 2021-07-23 浙江工业大学 一种基于注意力机制的商品名称短文本分类方法和系统
CN113111645A (zh) * 2021-04-28 2021-07-13 东南大学 一种媒体文本相似性检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
余肖生;孙珊;: "基于信息抽取的文本知识挖掘模型研究", 情报科学, no. 05, 15 May 2010 (2010-05-15), pages 776 - 778 *

Also Published As

Publication number Publication date
CN113808742B (zh) 2024-07-02

Similar Documents

Publication Publication Date Title
Li et al. Section classification in clinical notes using supervised hidden markov model
US10949456B2 (en) Method and system for mapping text phrases to a taxonomy
Argamon et al. Measuring the usefulness of function words for authorship attribution
Deng et al. Named Entity Recognition of Traditional Chinese Medicine Patents Based on BiLSTM‐CRF
CN109992775B (zh) 一种基于高级语义的文本摘要生成方法
CN112687388B (zh) 一种基于文本检索的可解释性智慧医疗辅助诊断系统
Roitero et al. DiLBERT: Cheap embeddings for disease related medical NLP
CN116092699A (zh) 一种基于预训练模型的癌症问答交互方法
CN115983233A (zh) 一种基于数据流匹配的电子病历查重率估计方法
CN116911300A (zh) 语言模型预训练方法、实体识别方法和装置
CN113111660A (zh) 数据处理方法、装置、设备和存储介质
Friedman Semantic text parsing for patient records
CN113808742A (zh) 一种基于文本特征降维的lstm注意力机制疾病预测方法
AlMahmoud et al. SEWAR: A corpus-based N-gram approach for extracting semantically-related words from Arabic medical corpus
Sabra et al. A comparative study of N-gram and Skip-gram for clinical concepts extraction
Lam et al. Named entity translation matching and learning: With application for mining unseen translations
Ren et al. Extraction of transitional relations in healthcare processes from Chinese medical text based on deep learning
CN113807090B (zh) 一种基于词义加权tf-idf疾病表征词提取方法
Fan et al. Word sense disambiguation via semantic type classification
CN113408286A (zh) 一种面向机械化工领域的中文实体识别方法和系统
CN111899832A (zh) 基于上下文语义分析的医疗主题管理系统与方法
Kreuzthaler et al. EHR Text Categorization for Enhanced Patient-Based Document Navigation
Toshevska The ability of word embeddings to capture word similarities
Wrenn et al. An unsupervised machine learning approach to segmentation of clinician-entered free text
Zuo et al. Knowledge-Powered Thyroid Nodule Classification with Thyroid Ultrasound Reports

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant