CN113807090A

CN113807090A - 一种基于词义加权tf-idf疾病表征词提取方法

Info

Publication number: CN113807090A
Application number: CN202110915839.8A
Authority: CN
Inventors: 余肖生; 沈胜; 张合欢
Original assignee: China Three Gorges University CTGU
Current assignee: China Three Gorges University CTGU
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2021-12-17
Anticipated expiration: 2041-08-10
Also published as: CN113807090B

Abstract

本发明公开了一种基于词义加权TF‑IDF疾病表征词提取方法，包括以下步骤：(1)数据预处理；(2)结合电子病历特点，构建本地任务词库；(3)计算文本词义特征加权权重值；(4)统计词频，计算逆文档频率，形成TF‑IDF计算模型，并将词义权重引入模型；(5)模型运行，获取疾病表征词。该基于词义加权TF‑IDF疾病表征词提取方法与传统的TF‑IDF模型相比，本发明提出的技术方案引入了词义加权以提升关键语义信息词的“重要性”，通过词义加权的方式对文本的词频信息进行扰动，提高了模型对电子病历文本中疾病表征词的提取性能。

Description

一种基于词义加权TF-IDF疾病表征词提取方法

技术领域

本发明涉及电子病历提取技术领域，具体为一种基于词义加权TF-IDF疾病表征词提取方法。

背景技术

随着人工智能技术与大数据技术的发展与应用、各组织机构对医疗健康信息数据的愈发重视，近年来国内外的医疗机构在医疗实践中有意识的存储了大量的具有极高研究和实用价值的电子病历文本数据。从复杂多样的非结构化电子病历文本数据中提取出疾病表证词，已经成为电子病历文本数据处理及后续相关研究的关键。

由于医疗领域数据记录标准不一，电子病历内容形式往往是复杂多样的非结构化文本数据，因此需要一定的数据挖掘手段对这些文本数据进行提取、分析。针对电子病历文本数据的特点，形成的数据提取、分析方法主要分成两类：(1)由专家对医疗文本中的数据进行标注，结合深度学习算法对数据进行训练，进而实现文本关键信息的提取。鉴于电子病历文本标注对专业能力的要求较高，对大量文本数据进行标注的实现难度较大,。(2)基于统计聚类方法实现文本数据的特征降维，进而实现文本关键信息的提取。这类方法常见模型有TF-IDF。TF-IDF是由词频(TF)和逆文档频率(IDF)两部分相乘得到的。其中，词频是文本中词的出现次数，逆文档频率反应了词的“重要性”，在语料库中包含某词的文档数越多，说明该次的“重要性”越小。

在确定目标的文本提取任务中，任务所关注的词是不同的，可能会出现词频低但在任务中却相对重要的词。在任务为电子病历文本数据疾病表征提取时，我们所关注的应是那些与疾病表征相关的词。如文本“患者于昨日开始出现头昏、呼吸不畅、轻微发热等不适症状，今晨出现好转，随来我院就诊。”文本中词频最高的是“出现”(2次)，但任务所关注的词应该是“头昏”(1次)、“呼吸不畅”(1次)、“发热”(1次)，这样与疾病表征相关的词。面对这样的情况，TF-IDF模型算法很难有效提取出疾病表征词。

发明内容

本发明的目的在于提供一种基于词义加权TF-IDF疾病表征词提取方法，提出一种适用于电子病历文本疾病表征词提取的算法模型以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于词义加权TF-IDF疾病表征词提取方法，包括以下步骤：

(1)数据预处理。

去除文本中的标点符号等特殊字符；使用分词工具对文本数据进行分词处理，并获取分词结果中词对应的词性；去除数据中非动词、名词、形容词和副词词性的其他词。

(2)结合电子病历特点，构建本地任务词库。其中，本地词库分为任务相关词库和非任务相关词库。

(3)计算文本词义特征加权权重值。

词义加权权重值计算分三种情形：

A、词在任务相关词库中，词义加权权重值pho的计算公式为：pho＝c₁；

B、词在非任务相关词库中，词义加权权重值计算公式为：pho＝c₂；

C、词不在本地词库中，对于未收录在本地词库中的词，从文档的语义相关性推算词义加权权重值。

(4)统计词频，计算逆文档频率，形成TF-IDF计算模型，并将词义权重引入模型，形成MW-TF-IDF模型。

引入词义加权的TF-IDF模型计算公式为：MW-TF-IDF＝pho*TF-IDF；其中，MW-TF-IDF为引入词义加权的TF-IDF模型。

(5)模型运行，获取疾病表征词。

进一步的，所述步骤(2)中本地任务词库包括两类：

A、任务相关词库，该词库主要包括电子病历中与疾病相关的词；

B、非任务相关词库，该词库主要包括电子病历中可能出现的与疾病无关的词。

进一步的，所述步骤(3)中C情况：语义相关性，即在同一文本中出现的词共同揭示了同一主题，具有较高的语义相似性；

语义相关性的特点形成的非词库中词的词义加权权重值加权计算公式为：pho＝(n₁c₁+n₂c₂)/(n₁+n₂)；其中，n₁,n₂分别为在任务相关词库和非任务相关词库的词的个数，c₁与c₂的取值是根据提取任务的特点取值的，一般有c₁:c₂>3。

进一步的，所述取值分别为c₁＝1.8、c₂＝0.2，则词义特征加权计算公式如下：

与现有技术相比，本发明的有益效果是：

1、通过对电子病历文本中疾病表征的数据特征进行分析，形成了词义特征加权计算方法，并将词义加权引入了TF-IDF模型，实现了疾病表征词的有针对性提取；

2、与传统的TF-IDF模型相比，本发明提出的技术方案引入了词义加权以提升关键语义信息词的“重要性”，通过词义加权的方式对文本的词频信息进行扰动，提高了模型对电子病历文本中疾病表征词的提取性能。

附图说明

图1为本发明方法流程示意图。

具体实施方式

在本发明的描述中，需要说明的是，术语“上”、“下”、“内”、“外”“前端”、“后端”、“两端”、“一端”、“另一端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“设置有”、“连接”等，应做广义理解，例如“连接”，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种技术方案：一种基于词义加权TF-IDF疾病表征词提取方法，包括以下步骤：

(1)数据预处理。

(2)结合电子病历特点，构建本地任务词库。

本地任务词库包括两类：

A、任务相关词库，该词库主要包括电子病历中与疾病相关的词，如“头晕”、“脑涨”等；

B、非任务相关词库，该词库主要包括电子病历中可能出现的与疾病无关的词，如“我院”、“早晨”等。

(3)计算文本词义特征加权权重值。

词义加权权重值计算分三种情形：

语义相关性的特点形成的非词库中词的词义加权权重值加权计算公式为：pho＝(n₁c₁+n₂c₂)/(n₁+n₂)；其中，n₁,n₂分别为在任务相关词库和非任务相关词库的词的个数，c₁与c₂的取值是根据提取任务的特点取值的，一般有c₁:c₂>3。本发明提取任务为电子病历的疾病表征词，在对提取任务特点进行分析实验后，本发明专利对取值分别为c₁＝1.8、c₂＝0.2。则词义特征加权计算公式如下：

(5)模型运行，获取疾病表征词。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于词义加权TF-IDF疾病表征词提取方法，其特征在于，包括以下步骤：

(1)数据预处理。

(2)结合电子病历提取任务的特点，构建本地任务词库。其中，本地词库分为任务相关词库和非任务相关词库。

(3)计算文本词义特征加权权重值。

词义加权权重值计算分三种情形：

(5)模型运行，获取疾病表征词。

2.根据权利要求1所述的一种基于词义加权TF-IDF疾病表征词提取方法，其特征在于，所述步骤(2)中本地任务词库包括两类：

3.根据权利要求1所述的一种基于词义加权TF-IDF疾病表征词提取方法，其特征在于，所述步骤(3)中C情况：语义相关性，即在同一文本中出现的词共同揭示了同一主题，具有较高的语义相似性；

语义相关性的特点形成的非词库中词的词义加权权重值加权计算公式为：pho＝(n₁c₁+n₂c₂)/(n₁+n₂)；其中，n₁,n₂分别为在任务相关词库和非任务相关词库的词的个数，c₁与c₂需根据提取任务的特点进行取值，一般有c₁:c₂>3。

4.根据权利要求3所述的一种基于词义加权TF-IDF疾病表征词提取方法，其特征在于，所述取值分别为c₁＝1.8、c₂＝0.2，则词义特征加权计算公式如下：