CN113807090A - 一种基于词义加权tf-idf疾病表征词提取方法 - Google Patents
一种基于词义加权tf-idf疾病表征词提取方法 Download PDFInfo
- Publication number
- CN113807090A CN113807090A CN202110915839.8A CN202110915839A CN113807090A CN 113807090 A CN113807090 A CN 113807090A CN 202110915839 A CN202110915839 A CN 202110915839A CN 113807090 A CN113807090 A CN 113807090A
- Authority
- CN
- China
- Prior art keywords
- word
- words
- idf
- weighting
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 33
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 33
- 238000012512 characterization method Methods 0.000 title claims abstract description 18
- 238000000605 extraction Methods 0.000 title claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 4
- 208000002173 dizziness Diseases 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 206010037660 Pyrexia Diseases 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 206010048962 Brain oedema Diseases 0.000 description 1
- 206010021079 Hypopnoea Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 208000006752 brain edema Diseases 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于词义加权TF‑IDF疾病表征词提取方法,包括以下步骤:(1)数据预处理;(2)结合电子病历特点,构建本地任务词库;(3)计算文本词义特征加权权重值;(4)统计词频,计算逆文档频率,形成TF‑IDF计算模型,并将词义权重引入模型;(5)模型运行,获取疾病表征词。该基于词义加权TF‑IDF疾病表征词提取方法与传统的TF‑IDF模型相比,本发明提出的技术方案引入了词义加权以提升关键语义信息词的“重要性”,通过词义加权的方式对文本的词频信息进行扰动,提高了模型对电子病历文本中疾病表征词的提取性能。
Description
技术领域
本发明涉及电子病历提取技术领域,具体为一种基于词义加权TF-IDF疾病表征词提取方法。
背景技术
随着人工智能技术与大数据技术的发展与应用、各组织机构对医疗健康信息数据的愈发重视,近年来国内外的医疗机构在医疗实践中有意识的存储了大量的具有极高研究和实用价值的电子病历文本数据。从复杂多样的非结构化电子病历文本数据中提取出疾病表证词,已经成为电子病历文本数据处理及后续相关研究的关键。
由于医疗领域数据记录标准不一,电子病历内容形式往往是复杂多样的非结构化文本数据,因此需要一定的数据挖掘手段对这些文本数据进行提取、分析。针对电子病历文本数据的特点,形成的数据提取、分析方法主要分成两类:(1)由专家对医疗文本中的数据进行标注,结合深度学习算法对数据进行训练,进而实现文本关键信息的提取。鉴于电子病历文本标注对专业能力的要求较高,对大量文本数据进行标注的实现难度较大,。(2)基于统计聚类方法实现文本数据的特征降维,进而实现文本关键信息的提取。这类方法常见模型有TF-IDF。TF-IDF是由词频(TF)和逆文档频率(IDF)两部分相乘得到的。其中,词频是文本中词的出现次数,逆文档频率反应了词的“重要性”,在语料库中包含某词的文档数越多,说明该次的“重要性”越小。
在确定目标的文本提取任务中,任务所关注的词是不同的,可能会出现词频低但在任务中却相对重要的词。在任务为电子病历文本数据疾病表征提取时,我们所关注的应是那些与疾病表征相关的词。如文本“患者于昨日开始出现头昏、呼吸不畅、轻微发热等不适症状,今晨出现好转,随来我院就诊。”文本中词频最高的是“出现”(2次),但任务所关注的词应该是“头昏”(1次)、“呼吸不畅”(1次)、“发热”(1次),这样与疾病表征相关的词。面对这样的情况,TF-IDF模型算法很难有效提取出疾病表征词。
发明内容
本发明的目的在于提供一种基于词义加权TF-IDF疾病表征词提取方法,提出一种适用于电子病历文本疾病表征词提取的算法模型以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于词义加权TF-IDF疾病表征词提取方法,包括以下步骤:
(1)数据预处理。
去除文本中的标点符号等特殊字符;使用分词工具对文本数据进行分词处理,并获取分词结果中词对应的词性;去除数据中非动词、名词、形容词和副词词性的其他词。
(2)结合电子病历特点,构建本地任务词库。其中,本地词库分为任务相关词库和非任务相关词库。
(3)计算文本词义特征加权权重值。
词义加权权重值计算分三种情形:
A、词在任务相关词库中,词义加权权重值pho的计算公式为:pho=c1;
B、词在非任务相关词库中,词义加权权重值计算公式为:pho=c2;
C、词不在本地词库中,对于未收录在本地词库中的词,从文档的语义相关性推算词义加权权重值。
(4)统计词频,计算逆文档频率,形成TF-IDF计算模型,并将词义权重引入模型,形成MW-TF-IDF模型。
引入词义加权的TF-IDF模型计算公式为:MW-TF-IDF=pho*TF-IDF;其中,MW-TF-IDF为引入词义加权的TF-IDF模型。
(5)模型运行,获取疾病表征词。
进一步的,所述步骤(2)中本地任务词库包括两类:
A、任务相关词库,该词库主要包括电子病历中与疾病相关的词;
B、非任务相关词库,该词库主要包括电子病历中可能出现的与疾病无关的词。
进一步的,所述步骤(3)中C情况:语义相关性,即在同一文本中出现的词共同揭示了同一主题,具有较高的语义相似性;
语义相关性的特点形成的非词库中词的词义加权权重值加权计算公式为:pho=(n1c1+n2c2)/(n1+n2);其中,n1,n2分别为在任务相关词库和非任务相关词库的词的个数,c1与c2的取值是根据提取任务的特点取值的,一般有c1:c2>3。
进一步的,所述取值分别为c1=1.8、c2=0.2,则词义特征加权计算公式如下:
与现有技术相比,本发明的有益效果是:
1、通过对电子病历文本中疾病表征的数据特征进行分析,形成了词义特征加权计算方法,并将词义加权引入了TF-IDF模型,实现了疾病表征词的有针对性提取;
2、与传统的TF-IDF模型相比,本发明提出的技术方案引入了词义加权以提升关键语义信息词的“重要性”,通过词义加权的方式对文本的词频信息进行扰动,提高了模型对电子病历文本中疾病表征词的提取性能。
附图说明
图1为本发明方法流程示意图。
具体实施方式
在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”“前端”、“后端”、“两端”、“一端”、“另一端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“设置有”、“连接”等,应做广义理解,例如“连接”,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种基于词义加权TF-IDF疾病表征词提取方法,包括以下步骤:
(1)数据预处理。
去除文本中的标点符号等特殊字符;使用分词工具对文本数据进行分词处理,并获取分词结果中词对应的词性;去除数据中非动词、名词、形容词和副词词性的其他词。
(2)结合电子病历特点,构建本地任务词库。
本地任务词库包括两类:
A、任务相关词库,该词库主要包括电子病历中与疾病相关的词,如“头晕”、“脑涨”等;
B、非任务相关词库,该词库主要包括电子病历中可能出现的与疾病无关的词,如“我院”、“早晨”等。
(3)计算文本词义特征加权权重值。
词义加权权重值计算分三种情形:
A、词在任务相关词库中,词义加权权重值pho的计算公式为:pho=c1;
B、词在非任务相关词库中,词义加权权重值计算公式为:pho=c2;
C、词不在本地词库中,对于未收录在本地词库中的词,从文档的语义相关性推算词义加权权重值。
语义相关性的特点形成的非词库中词的词义加权权重值加权计算公式为:pho=(n1c1+n2c2)/(n1+n2);其中,n1,n2分别为在任务相关词库和非任务相关词库的词的个数,c1与c2的取值是根据提取任务的特点取值的,一般有c1:c2>3。本发明提取任务为电子病历的疾病表征词,在对提取任务特点进行分析实验后,本发明专利对取值分别为c1=1.8、c2=0.2。则词义特征加权计算公式如下:
(4)统计词频,计算逆文档频率,形成TF-IDF计算模型,并将词义权重引入模型,形成MW-TF-IDF模型。
引入词义加权的TF-IDF模型计算公式为:MW-TF-IDF=pho*TF-IDF;其中,MW-TF-IDF为引入词义加权的TF-IDF模型。
(5)模型运行,获取疾病表征词。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (4)
1.一种基于词义加权TF-IDF疾病表征词提取方法,其特征在于,包括以下步骤:
(1)数据预处理。
去除文本中的标点符号等特殊字符;使用分词工具对文本数据进行分词处理,并获取分词结果中词对应的词性;去除数据中非动词、名词、形容词和副词词性的其他词。
(2)结合电子病历提取任务的特点,构建本地任务词库。其中,本地词库分为任务相关词库和非任务相关词库。
(3)计算文本词义特征加权权重值。
词义加权权重值计算分三种情形:
A、词在任务相关词库中,词义加权权重值pho的计算公式为:pho=c1;
B、词在非任务相关词库中,词义加权权重值计算公式为:pho=c2;
C、词不在本地词库中,对于未收录在本地词库中的词,从文档的语义相关性推算词义加权权重值。
(4)统计词频,计算逆文档频率,形成TF-IDF计算模型,并将词义权重引入模型,形成MW-TF-IDF模型。
引入词义加权的TF-IDF模型计算公式为:MW-TF-IDF=pho*TF-IDF;其中,MW-TF-IDF为引入词义加权的TF-IDF模型。
(5)模型运行,获取疾病表征词。
2.根据权利要求1所述的一种基于词义加权TF-IDF疾病表征词提取方法,其特征在于,所述步骤(2)中本地任务词库包括两类:
A、任务相关词库,该词库主要包括电子病历中与疾病相关的词;
B、非任务相关词库,该词库主要包括电子病历中可能出现的与疾病无关的词。
3.根据权利要求1所述的一种基于词义加权TF-IDF疾病表征词提取方法,其特征在于,所述步骤(3)中C情况:语义相关性,即在同一文本中出现的词共同揭示了同一主题,具有较高的语义相似性;
语义相关性的特点形成的非词库中词的词义加权权重值加权计算公式为:pho=(n1c1+n2c2)/(n1+n2);其中,n1,n2分别为在任务相关词库和非任务相关词库的词的个数,c1与c2需根据提取任务的特点进行取值,一般有c1:c2>3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110915839.8A CN113807090B (zh) | 2021-08-10 | 2021-08-10 | 一种基于词义加权tf-idf疾病表征词提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110915839.8A CN113807090B (zh) | 2021-08-10 | 2021-08-10 | 一种基于词义加权tf-idf疾病表征词提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113807090A true CN113807090A (zh) | 2021-12-17 |
CN113807090B CN113807090B (zh) | 2024-04-30 |
Family
ID=78943046
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110915839.8A Active CN113807090B (zh) | 2021-08-10 | 2021-08-10 | 一种基于词义加权tf-idf疾病表征词提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113807090B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893397A (zh) * | 2015-06-30 | 2016-08-24 | 北京爱奇艺科技有限公司 | 一种视频推荐方法及装置 |
CN107122352A (zh) * | 2017-05-18 | 2017-09-01 | 成都四方伟业软件股份有限公司 | 一种基于k‑means、word2vec的抽取关键词的方法 |
CN108132930A (zh) * | 2017-12-27 | 2018-06-08 | 曙光信息产业(北京)有限公司 | 特征词提取方法及装置 |
WO2021072885A1 (zh) * | 2019-10-18 | 2021-04-22 | 平安科技(深圳)有限公司 | 识别文本的方法、装置、设备及存储介质 |
CN112949303A (zh) * | 2021-03-01 | 2021-06-11 | 山东健康医疗大数据有限公司 | 病历文本数据结构化的文本分词解析方法及系统 |
-
2021
- 2021-08-10 CN CN202110915839.8A patent/CN113807090B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893397A (zh) * | 2015-06-30 | 2016-08-24 | 北京爱奇艺科技有限公司 | 一种视频推荐方法及装置 |
CN107122352A (zh) * | 2017-05-18 | 2017-09-01 | 成都四方伟业软件股份有限公司 | 一种基于k‑means、word2vec的抽取关键词的方法 |
CN108132930A (zh) * | 2017-12-27 | 2018-06-08 | 曙光信息产业(北京)有限公司 | 特征词提取方法及装置 |
WO2021072885A1 (zh) * | 2019-10-18 | 2021-04-22 | 平安科技(深圳)有限公司 | 识别文本的方法、装置、设备及存储介质 |
CN112949303A (zh) * | 2021-03-01 | 2021-06-11 | 山东健康医疗大数据有限公司 | 病历文本数据结构化的文本分词解析方法及系统 |
Non-Patent Citations (3)
Title |
---|
刘奇飞 等: "基于Word2Vec 和TextRank 的时政类新闻关键词抽取方法研究", 《情报探索》, no. 6, pages 22 - 27 * |
刘奇飞;沈炜域;: "基于Word2Vec和TextRank的时政类新闻关键词抽取方法研究", 情报探索, no. 06, pages 22 - 27 * |
唐静华: "基于特征项权重与句子相似度的知识元智能提取技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, vol. 2018, no. 3, pages 138 - 2283 * |
Also Published As
Publication number | Publication date |
---|---|
CN113807090B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Extractive summarization using inter-and intra-event relevance | |
CN110427491B (zh) | 一种基于电子病历的医学知识图谱构建方法及装置 | |
Alajmi et al. | Toward an ARABIC stop-words list generation | |
Nastase et al. | Exploring noun-modifier semantic relations | |
Hai et al. | One seed to find them all: mining opinion features via association | |
EP4095738A1 (en) | Entity recognition method and apparatus, dictionary creation method, device, and medium | |
Evert et al. | E-VIEW-affilation–a large-scale evaluation study of association measures for collocation identification | |
WO2018001101A1 (zh) | 一种基于依存约束和知识的形容词词义消歧方法和装置 | |
CN109471950B (zh) | 腹部超声文本数据的结构化知识网络的构建方法 | |
Schulze et al. | Entity-supported summarization of biomedical abstracts | |
CN112989802A (zh) | 一种弹幕关键词提取方法、装置、设备及介质 | |
Awajan | Semantic similarity based approach for reducing Arabic texts dimensionality | |
Liu et al. | A genetic algorithm enabled ensemble for unsupervised medical term extraction from clinical letters | |
CN106202036B (zh) | 一种基于依存约束和知识的动词词义消歧方法和装置 | |
Nazar | A statistical approach to term extraction | |
Xu et al. | Extracting subject demographic information from abstracts of randomized clinical trial reports | |
CN106126501B (zh) | 一种基于依存约束和知识的名词词义消歧方法和装置 | |
CN113111660A (zh) | 数据处理方法、装置、设备和存储介质 | |
CN115687960B (zh) | 一种面向开源安全情报的文本聚类方法 | |
CN113807090A (zh) | 一种基于词义加权tf-idf疾病表征词提取方法 | |
Sabra et al. | A comparative study of N-gram and Skip-gram for clinical concepts extraction | |
Ranjan et al. | Automatic labelling of important terms and phrases from medical discussions | |
CN111899832B (zh) | 基于上下文语义分析的医疗主题管理系统与方法 | |
CN106202033B (zh) | 一种基于依存约束和知识的副词词义消歧方法和装置 | |
Li et al. | Similarity based chinese synonym collocation extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |