CN112768080A

CN112768080A - 基于医疗大数据的医学关键词库建立方法及系统

Info

Publication number: CN112768080A
Application number: CN202110095731.9A
Authority: CN
Inventors: 李红良; 陈明明; 秦娟娟
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2021-05-07

Abstract

本发明公开了一种基于医疗大数据的医学关键词库建立方法及系统，该方法包括步骤：从数据项中提取术语和目标字段，根据目标字段得到关键词字段，根据术语和关键词字段得到匹配式；利用匹配式对待查找的文本进行匹配，记录得到的所有关键词以及关键词所在的文本段；将文本段进行断句分词和向量化处理，计算各关键词的评分值，根据该评分值筛选出候选关键词；对候选关键词进行分类，包括合法、否定和可疑关键词；确认这三类关键词的剔除关键词，形成关键词库。本发明的医学关键词库，便于提取与挖掘医学数据中的目标疾病、病史、症状、体征、治疗等，便于后续的大数据解析。

Description

基于医疗大数据的医学关键词库建立方法及系统

技术领域

本发明属于医疗大数据技术领域，具体涉及一种基于医疗大数据的医学关键词库建立方法及系统。

背景技术

我国健康医疗资源丰富，数据规模不断增加；对医学术语的关键词进行正确提取，对于医学数据的有效使用意义重大。目前，采用自然语言处理医疗大数据是人工智能领域的一个热点，但是利用自然语言处理技术去识别医学术语仍然达不到非常高的准确率。

发明内容

本发明的目的在于，提供一种基于医疗大数据的医学关键词库建立方法，实现对医学关键词进行正确地提取，并建立医学关键词库。

本发明提供一种基于医疗大数据的医学关键词库建立方法，包括以下步骤：

从数据项中提取术语和目标字段，根据目标字段得到关键词字段，根据术语和关键词字段得到匹配式；

利用匹配式对待查找的文本进行匹配，记录得到的所有关键词以及该关键词所在的文本段；

将文本段进行断句分词处理以及向量化，计算各关键词在总文本段中出现的频率、逆向文件频率以及各关键词与文本段的相似程度；将出现频率、逆向文件频率和相似程度这三个值相乘，得到各关键词的评分值，根据该评分值筛选出候选关键词；

对候选关键词进行分类，包括合法关键词、否定关键词和可疑关键词；并确认合法关键词、否定关键词和可疑关键词的剔除关键词，形成关键词库。

进一步地，根据疾病种类、病史、症状、体征、检查结果建立数据项。

进一步地，各关键词的评分值的计算公式为：

式中，R表示评分值，n_i，j表示第i个关键词在所有文本段中出现的次数，n_j表示所有文本段的总词数，|D|表示所有文本段的总段数，|{j：t_i∈d_j}|表示包含该关键词的总段数，A表示关键词向量，B表示文本段向量，m表示向量维度，a表示第a个元素。

进一步地，关键词库还包括合法关键词、否定关键词和可疑关键词的调用顺序。

进一步地，关键词库还包括术语、数据项和目标字段。

本发明还提供一种用于实现上述基于医疗大数据的医学关键词库建立方法的基于医疗大数据的医学关键词库建立系统，包括：

匹配式模块，用于从数据项中提取术语和目标字段，根据目标字段得到关键词字段，根据术语和关键词字段得到匹配式；

匹配模块，用于利用匹配式对待查找的文本进行匹配，记录得到的所有关键词以及关键词所在的文本段；

候选模块，用于将文本段进行断句分词以及向量化，计算各关键词在总文本段中出现的频率、逆向文件频率以及各关键词与文本段的相似程度；将出现频率、逆向文件频率和相似程度这三个值相乘，得到各关键词的评分值，根据该评分值筛选出候选关键词；

分类模块，用于对候选关键词进行分类，包括合法关键词、否定关键词和可疑关键词；并确认合法关键词、否定关键词和可疑关键词的剔除关键词，形成关键词库。

进一步地，匹配式模块还用于根据疾病种类、病史、症状、体征、检查结果建立数据项。

进一步地，候选模块中，各关键词的评分值的计算公式为：

进一步地，关键词库还包括术语、数据项和目标字段。

本发明的有益效果是：本发明的基于医疗大数据的医学关键词库建立方法及系统，通过提取医疗数据中所有关键词形成医学关键词库，便于提取与挖掘医学数据中的目标疾病、病史、症状、体征、治疗等，为大数据解析提供简便、快速、精准度高的技术手段。

附图说明

图1是本发明的基于医疗大数据的医学关键词库建立方法的流程图。

图2是本发明实施例中候选关键词的分类示意图。

图3是本发明实施例的基于医疗大数据的医学关键词库建立系统的示意图。

具体实施方式

下面将结合附图对本发明作进一步的说明：

本发明实施例的基于医疗大数据的医学关键词库建立方法，如图1所示，包括以下步骤：

S1、从数据项中提取术语和目标字段，根据目标字段得到关键词字段，根据术语和关键词字段得到匹配式。

基于现有的医疗数据，根据临床不同系统的疾病种类及疾病相关的症状、体征、检查结果、病史，建立需要挖掘的数据项。从数据项中提取目标字段，以及数据项挖掘所在的术语。根据目标字段，撰写其关键词字段，最后提取通用匹配式，如表1所示。

例如，建立的数据项为既往史发现甲状腺功能亢进症，则术语为既往史，目标字段为甲状腺功能亢进症；根据目标字段：甲状腺功能亢进症，得到相关的关键词字段：甲状腺功能亢进症、甲亢、甲状腺机能亢进、甲状腺亢进、甲亢病、Graves病、Graves眼病等，由这些关键词字段凝练出匹配式：甲*亢||||Graves。其中术语是限定匹配式匹配的位置，比如数据项为“既往史发现甲状腺功能亢进症”，则要限定匹配的位置是在“既往史”中，因此即使在“家族史”中也发现了甲状腺功能亢进症的匹配结果，也不会算在匹配结果内。

表1匹配式的建立与形式

数据项	术语名称	目标字段	关键词字段	匹配模式

S2、利用匹配式对待查找的文本进行匹配，记录得到的所有关键词以及关键词所在的文本段。

利用第一步得到的匹配式在待查找的医学数据中进行检索，记录检索得到的该关键词的所有形态以及关键词所在的文本段。将匹配到的所有的不同形态的关键词，以及包含该形态关键词的一段文本直接从所有文本资料中提取出来，为后续使用。

例如，基于数据项“甲状腺CT发现甲状腺肿”的匹配式“甲状腺*肿”，查找数据并会输出找到的所有形态：“甲状腺肿”，“甲状腺弥漫性肿”，“甲状腺无肿”，“甲状腺肿瘤”，“甲状腺轻度肿”，“甲状腺非均匀性肿”，“甲状腺：肿”，“甲状腺右叶峡部II^O肿”，“甲状腺体肿”等等。

S3、将文本段进行断句分词处理以及向量化，计算各关键词的在总文本段中出现的频率、逆向文件频率、各关键词与文本段的相似程度；三个值相乘最终得到候选关键词的评分，根据该评分值筛选出候选关键词。

各关键词的评分值的计算公式为：

计算不同形态的关键词的评分值，依据该评分值将不同形态的关键词进行排序，选取排名靠前的不同形态的关键词，作为候选关键词。

S4、对候选关键词进行分类，包括合法关键词、否定关键词和可疑关键词；并确认合法关键词、否定关键词和可疑关键词的剔除关键词，形成关键词库。

对候选关键词进行分类，如图2所示，包括三种类别：肯定关键词，否定关键词，可疑关键词。例如：对数据项“甲状腺CT发现甲状腺肿”的关键词进行分类时，将“甲状腺肿”划分到肯定关键词，将“无甲状腺肿”划分到否定关键词，将“甲状腺肿可疑”划分到可疑关键词，剔除不合法的关键词，例如剔除肯定关键词“甲状腺肿”的排除“甲状腺肿瘤”，剔除否定关键词“无甲状腺肿”的排除“无甲状腺肿物”，最后得到医学关键词库。

进一步地，关键词库还包括术语、数据项和目标字段，以及合法关键词、否定关键词和可疑关键词的调用顺序。如表2所示，关键词库包括“标准术语”，“数据项名称”，“目标字段”，“合法关键词”，“合法关键词-排除”，“否定关键词”，“否定关键词-排除”，“可疑关键词”，“顺序1”，“顺序2”，“顺序3”12项。判断三类关键词的调用顺序，是关键词库的具体应用。

表2关键词库的形式

本发明还提供一种用于实现上述基于医疗大数据的医学关键词库建立方法的基于医疗大数据的医学关键词库建立系统，如图3所示，包括：

匹配式模块101，用于从数据项中提取术语和目标字段，根据目标字段得到关键词字段，根据术语和关键词字段得到匹配式；

匹配模块102，用于利用匹配式对待查找的文本进行匹配，记录得到的所有关键词以及关键词所在的文本段；

候选模块103，用于将文本段进行断句分词以及向量化，计算各关键词在总文本段中出现的频率、逆向文件频率以及各关键词与文本段的相似程度；将出现频率、逆向文件频率和相似程度这三个值相乘，得到各关键词的评分值，根据该评分值筛选出候选关键词；

分类模块104，用于对候选关键词进行分类，包括合法关键词、否定关键词和可疑关键词；并确认合法关键词、否定关键词和可疑关键词的剔除关键词，形成关键词库。

进一步地，候选模块中，各关键词的评分值的计算公式为：

进一步地，关键词库还包括术语、数据项和目标字段。

综上，本发明通过提取医疗数据的医学术语所有关键词形态形成一种医学关键词库，便于提取与挖掘医学数据中的目标疾病、病史、症状、体征、治疗等，为大数据解析提供简便、快速、精准度高的技术手段。

本领域的技术人员容易理解，以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。