CN112768080A - 基于医疗大数据的医学关键词库建立方法及系统 - Google Patents
基于医疗大数据的医学关键词库建立方法及系统 Download PDFInfo
- Publication number
- CN112768080A CN112768080A CN202110095731.9A CN202110095731A CN112768080A CN 112768080 A CN112768080 A CN 112768080A CN 202110095731 A CN202110095731 A CN 202110095731A CN 112768080 A CN112768080 A CN 112768080A
- Authority
- CN
- China
- Prior art keywords
- keywords
- keyword
- medical
- big data
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于医疗大数据的医学关键词库建立方法及系统,该方法包括步骤:从数据项中提取术语和目标字段,根据目标字段得到关键词字段,根据术语和关键词字段得到匹配式;利用匹配式对待查找的文本进行匹配,记录得到的所有关键词以及关键词所在的文本段;将文本段进行断句分词和向量化处理,计算各关键词的评分值,根据该评分值筛选出候选关键词;对候选关键词进行分类,包括合法、否定和可疑关键词;确认这三类关键词的剔除关键词,形成关键词库。本发明的医学关键词库,便于提取与挖掘医学数据中的目标疾病、病史、症状、体征、治疗等,便于后续的大数据解析。
Description
技术领域
本发明属于医疗大数据技术领域,具体涉及一种基于医疗大数据的医学关键词库建立方法及系统。
背景技术
我国健康医疗资源丰富,数据规模不断增加;对医学术语的关键词进行正确提取,对于医学数据的有效使用意义重大。目前,采用自然语言处理医疗大数据是人工智能领域的一个热点,但是利用自然语言处理技术去识别医学术语仍然达不到非常高的准确率。
发明内容
本发明的目的在于,提供一种基于医疗大数据的医学关键词库建立方法,实现对医学关键词进行正确地提取,并建立医学关键词库。
本发明提供一种基于医疗大数据的医学关键词库建立方法,包括以下步骤:
从数据项中提取术语和目标字段,根据目标字段得到关键词字段,根据术语和关键词字段得到匹配式;
利用匹配式对待查找的文本进行匹配,记录得到的所有关键词以及该关键词所在的文本段;
将文本段进行断句分词处理以及向量化,计算各关键词在总文本段中出现的频率、逆向文件频率以及各关键词与文本段的相似程度;将出现频率、逆向文件频率和相似程度这三个值相乘,得到各关键词的评分值,根据该评分值筛选出候选关键词;
对候选关键词进行分类,包括合法关键词、否定关键词和可疑关键词;并确认合法关键词、否定关键词和可疑关键词的剔除关键词,形成关键词库。
进一步地,根据疾病种类、病史、症状、体征、检查结果建立数据项。
进一步地,各关键词的评分值的计算公式为:
式中,R表示评分值,ni,j表示第i个关键词在所有文本段中出现的次数,nj表示所有文本段的总词数,|D|表示所有文本段的总段数,|{j:ti∈dj}|表示包含该关键词的总段数,A表示关键词向量,B表示文本段向量,m表示向量维度,a表示第a个元素。
进一步地,关键词库还包括合法关键词、否定关键词和可疑关键词的调用顺序。
进一步地,关键词库还包括术语、数据项和目标字段。
本发明还提供一种用于实现上述基于医疗大数据的医学关键词库建立方法的基于医疗大数据的医学关键词库建立系统,包括:
匹配式模块,用于从数据项中提取术语和目标字段,根据目标字段得到关键词字段,根据术语和关键词字段得到匹配式;
匹配模块,用于利用匹配式对待查找的文本进行匹配,记录得到的所有关键词以及关键词所在的文本段;
候选模块,用于将文本段进行断句分词以及向量化,计算各关键词在总文本段中出现的频率、逆向文件频率以及各关键词与文本段的相似程度;将出现频率、逆向文件频率和相似程度这三个值相乘,得到各关键词的评分值,根据该评分值筛选出候选关键词;
分类模块,用于对候选关键词进行分类,包括合法关键词、否定关键词和可疑关键词;并确认合法关键词、否定关键词和可疑关键词的剔除关键词,形成关键词库。
进一步地,匹配式模块还用于根据疾病种类、病史、症状、体征、检查结果建立数据项。
进一步地,候选模块中,各关键词的评分值的计算公式为:
式中,R表示评分值,ni,j表示第i个关键词在所有文本段中出现的次数,nj表示所有文本段的总词数,|D|表示所有文本段的总段数,|{j:ti∈dj}|表示包含该关键词的总段数,A表示关键词向量,B表示文本段向量,m表示向量维度,a表示第a个元素。
进一步地,关键词库还包括合法关键词、否定关键词和可疑关键词的调用顺序。
进一步地,关键词库还包括术语、数据项和目标字段。
本发明的有益效果是:本发明的基于医疗大数据的医学关键词库建立方法及系统,通过提取医疗数据中所有关键词形成医学关键词库,便于提取与挖掘医学数据中的目标疾病、病史、症状、体征、治疗等,为大数据解析提供简便、快速、精准度高的技术手段。
附图说明
图1是本发明的基于医疗大数据的医学关键词库建立方法的流程图。
图2是本发明实施例中候选关键词的分类示意图。
图3是本发明实施例的基于医疗大数据的医学关键词库建立系统的示意图。
具体实施方式
下面将结合附图对本发明作进一步的说明:
本发明实施例的基于医疗大数据的医学关键词库建立方法,如图1所示,包括以下步骤:
S1、从数据项中提取术语和目标字段,根据目标字段得到关键词字段,根据术语和关键词字段得到匹配式。
基于现有的医疗数据,根据临床不同系统的疾病种类及疾病相关的症状、体征、检查结果、病史,建立需要挖掘的数据项。从数据项中提取目标字段,以及数据项挖掘所在的术语。根据目标字段,撰写其关键词字段,最后提取通用匹配式,如表1所示。
例如,建立的数据项为既往史发现甲状腺功能亢进症,则术语为既往史,目标字段为甲状腺功能亢进症;根据目标字段:甲状腺功能亢进症,得到相关的关键词字段:甲状腺功能亢进症、甲亢、甲状腺机能亢进、甲状腺亢进、甲亢病、Graves病、Graves眼病等,由这些关键词字段凝练出匹配式:甲*亢||||Graves。其中术语是限定匹配式匹配的位置,比如数据项为“既往史发现甲状腺功能亢进症”,则要限定匹配的位置是在“既往史”中,因此即使在“家族史”中也发现了甲状腺功能亢进症的匹配结果,也不会算在匹配结果内。
表1匹配式的建立与形式
数据项 | 术语名称 | 目标字段 | 关键词字段 | 匹配模式 |
S2、利用匹配式对待查找的文本进行匹配,记录得到的所有关键词以及关键词所在的文本段。
利用第一步得到的匹配式在待查找的医学数据中进行检索,记录检索得到的该关键词的所有形态以及关键词所在的文本段。将匹配到的所有的不同形态的关键词,以及包含该形态关键词的一段文本直接从所有文本资料中提取出来,为后续使用。
例如,基于数据项“甲状腺CT发现甲状腺肿”的匹配式“甲状腺*肿”,查找数据并会输出找到的所有形态:“甲状腺肿”,“甲状腺弥漫性肿”,“甲状腺无肿”,“甲状腺肿瘤”,“甲状腺轻度肿”,“甲状腺非均匀性肿”,“甲状腺:肿”,“甲状腺右叶峡部IIO肿”,“甲状腺体肿”等等。
S3、将文本段进行断句分词处理以及向量化,计算各关键词的在总文本段中出现的频率、逆向文件频率、各关键词与文本段的相似程度;三个值相乘最终得到候选关键词的评分,根据该评分值筛选出候选关键词。
各关键词的评分值的计算公式为:
式中,R表示评分值,ni,j表示第i个关键词在所有文本段中出现的次数,nj表示所有文本段的总词数,|D|表示所有文本段的总段数,|{j:ti∈dj}|表示包含该关键词的总段数,A表示关键词向量,B表示文本段向量,m表示向量维度,a表示第a个元素。
计算不同形态的关键词的评分值,依据该评分值将不同形态的关键词进行排序,选取排名靠前的不同形态的关键词,作为候选关键词。
S4、对候选关键词进行分类,包括合法关键词、否定关键词和可疑关键词;并确认合法关键词、否定关键词和可疑关键词的剔除关键词,形成关键词库。
对候选关键词进行分类,如图2所示,包括三种类别:肯定关键词,否定关键词,可疑关键词。例如:对数据项“甲状腺CT发现甲状腺肿”的关键词进行分类时,将“甲状腺肿”划分到肯定关键词,将“无甲状腺肿”划分到否定关键词,将“甲状腺肿可疑”划分到可疑关键词,剔除不合法的关键词,例如剔除肯定关键词“甲状腺肿”的排除“甲状腺肿瘤”,剔除否定关键词“无甲状腺肿”的排除“无甲状腺肿物”,最后得到医学关键词库。
进一步地,关键词库还包括术语、数据项和目标字段,以及合法关键词、否定关键词和可疑关键词的调用顺序。如表2所示,关键词库包括“标准术语”,“数据项名称”,“目标字段”,“合法关键词”,“合法关键词-排除”,“否定关键词”,“否定关键词-排除”,“可疑关键词”,“顺序1”,“顺序2”,“顺序3”12项。判断三类关键词的调用顺序,是关键词库的具体应用。
表2关键词库的形式
本发明还提供一种用于实现上述基于医疗大数据的医学关键词库建立方法的基于医疗大数据的医学关键词库建立系统,如图3所示,包括:
匹配式模块101,用于从数据项中提取术语和目标字段,根据目标字段得到关键词字段,根据术语和关键词字段得到匹配式;
匹配模块102,用于利用匹配式对待查找的文本进行匹配,记录得到的所有关键词以及关键词所在的文本段;
候选模块103,用于将文本段进行断句分词以及向量化,计算各关键词在总文本段中出现的频率、逆向文件频率以及各关键词与文本段的相似程度;将出现频率、逆向文件频率和相似程度这三个值相乘,得到各关键词的评分值,根据该评分值筛选出候选关键词;
分类模块104,用于对候选关键词进行分类,包括合法关键词、否定关键词和可疑关键词;并确认合法关键词、否定关键词和可疑关键词的剔除关键词,形成关键词库。
进一步地,匹配式模块还用于根据疾病种类、病史、症状、体征、检查结果建立数据项。
进一步地,候选模块中,各关键词的评分值的计算公式为:
式中,R表示评分值,ni,j表示第i个关键词在所有文本段中出现的次数,nj表示所有文本段的总词数,|D|表示所有文本段的总段数,|{j:ti∈dj}|表示包含该关键词的总段数,A表示关键词向量,B表示文本段向量,m表示向量维度,a表示第a个元素。
进一步地,关键词库还包括合法关键词、否定关键词和可疑关键词的调用顺序。
进一步地,关键词库还包括术语、数据项和目标字段。
综上,本发明通过提取医疗数据的医学术语所有关键词形态形成一种医学关键词库,便于提取与挖掘医学数据中的目标疾病、病史、症状、体征、治疗等,为大数据解析提供简便、快速、精准度高的技术手段。
本领域的技术人员容易理解,以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于医疗大数据的医学关键词库建立方法,其特征在于,包括以下步骤:
从数据项中提取术语和目标字段,根据目标字段得到关键词字段,根据术语和关键词字段得到匹配式;
利用匹配式对待查找的文本进行匹配,记录得到的所有关键词以及该关键词所在的文本段;
将文本段进行断句分词处理以及向量化,计算各关键词在总文本段中出现的频率、逆向文件频率以及各关键词与文本段的相似程度;将出现频率、逆向文件频率和相似程度这三个值相乘,得到各关键词的评分值,根据该评分值筛选出候选关键词;
对候选关键词进行分类,包括合法关键词、否定关键词和可疑关键词;并确认合法关键词、否定关键词和可疑关键词的剔除关键词,形成关键词库。
2.根据权利要求1所述的基于医疗大数据的医学关键词库建立方法,其特征在于,根据疾病种类、病史、症状、体征、检查结果建立数据项。
4.根据权利要求1所述的基于医疗大数据的医学关键词库建立方法,其特征在于,关键词库还包括合法关键词、否定关键词和可疑关键词的调用顺序。
5.根据权利要求1所述的基于医疗大数据的医学关键词库建立方法,其特征在于,关键词库还包括术语、数据项和目标字段。
6.一种用于实现基于医疗大数据的医学关键词库建立方法的基于医疗大数据的医学关键词库建立系统,其特征在于,包括:
匹配式模块,用于从数据项中提取术语和目标字段,根据目标字段得到关键词字段,根据术语和关键词字段得到匹配式;
匹配模块,用于利用匹配式对待查找的文本进行匹配,记录得到的所有关键词以及关键词所在的文本段;
候选模块,用于将文本段进行断句分词以及向量化,计算各关键词在总文本段中出现的频率、逆向文件频率以及各关键词与文本段的相似程度;将出现频率、逆向文件频率和相似程度这三个值相乘,得到各关键词的评分值,根据该评分值筛选出候选关键词;
分类模块,用于对候选关键词进行分类,包括合法关键词、否定关键词和可疑关键词;并确认合法关键词、否定关键词和可疑关键词的剔除关键词,形成关键词库。
7.根据权利要求6所述的基于医疗大数据的医学关键词库建立系统,其特征在于,匹配式模块还用于根据疾病种类、病史、症状、体征、检查结果建立数据项。
9.根据权利要求6所述的基于医疗大数据的医学关键词库建立系统,其特征在于,关键词库还包括合法关键词、否定关键词和可疑关键词的调用顺序。
10.根据权利要求6所述的基于医疗大数据的医学关键词库建立系统,其特征在于,关键词库还包括术语、数据项和目标字段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110095731.9A CN112768080A (zh) | 2021-01-25 | 2021-01-25 | 基于医疗大数据的医学关键词库建立方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110095731.9A CN112768080A (zh) | 2021-01-25 | 2021-01-25 | 基于医疗大数据的医学关键词库建立方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112768080A true CN112768080A (zh) | 2021-05-07 |
Family
ID=75707043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110095731.9A Pending CN112768080A (zh) | 2021-01-25 | 2021-01-25 | 基于医疗大数据的医学关键词库建立方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112768080A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115238064A (zh) * | 2022-09-20 | 2022-10-25 | 大安健康科技(北京)有限公司 | 一种基于聚类的中医医案的关键词提取方法 |
CN117672481A (zh) * | 2023-12-06 | 2024-03-08 | 海南星捷安科技集团股份有限公司 | 一种基于医疗大数据的真实世界数据收集整合系统 |
CN117669550A (zh) * | 2023-11-13 | 2024-03-08 | 东风日产数据服务有限公司 | 一种基于文本中心的主题挖掘方法、系统、设备及介质 |
CN117690550A (zh) * | 2024-02-04 | 2024-03-12 | 西南医科大学附属医院 | 内分泌病人长期用药跟踪系统及管理方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105320778A (zh) * | 2015-11-25 | 2016-02-10 | 焦点科技股份有限公司 | 一种适用于电子商务中文网站商品标签化的方法 |
CN107993724A (zh) * | 2017-11-09 | 2018-05-04 | 易保互联医疗信息科技(北京)有限公司 | 一种医学智能问答数据处理的方法及装置 |
US20180137250A1 (en) * | 2016-11-15 | 2018-05-17 | Hefei University Of Technology | Mobile health intelligent medical guide system and method thereof |
CN108241667A (zh) * | 2016-12-26 | 2018-07-03 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN110019641A (zh) * | 2017-07-27 | 2019-07-16 | 北大医疗信息技术有限公司 | 一种医疗否定术语的检出方法及系统 |
CN112115716A (zh) * | 2020-09-17 | 2020-12-22 | 陕西师范大学 | 一种基于多维词向量下文本匹配的服务发现方法、系统及设备 |
-
2021
- 2021-01-25 CN CN202110095731.9A patent/CN112768080A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105320778A (zh) * | 2015-11-25 | 2016-02-10 | 焦点科技股份有限公司 | 一种适用于电子商务中文网站商品标签化的方法 |
US20180137250A1 (en) * | 2016-11-15 | 2018-05-17 | Hefei University Of Technology | Mobile health intelligent medical guide system and method thereof |
CN108241667A (zh) * | 2016-12-26 | 2018-07-03 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN110019641A (zh) * | 2017-07-27 | 2019-07-16 | 北大医疗信息技术有限公司 | 一种医疗否定术语的检出方法及系统 |
CN107993724A (zh) * | 2017-11-09 | 2018-05-04 | 易保互联医疗信息科技(北京)有限公司 | 一种医学智能问答数据处理的方法及装置 |
CN112115716A (zh) * | 2020-09-17 | 2020-12-22 | 陕西师范大学 | 一种基于多维词向量下文本匹配的服务发现方法、系统及设备 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115238064A (zh) * | 2022-09-20 | 2022-10-25 | 大安健康科技(北京)有限公司 | 一种基于聚类的中医医案的关键词提取方法 |
CN115238064B (zh) * | 2022-09-20 | 2022-12-09 | 大安健康科技(北京)有限公司 | 一种基于聚类的中医医案的关键词提取方法 |
CN117669550A (zh) * | 2023-11-13 | 2024-03-08 | 东风日产数据服务有限公司 | 一种基于文本中心的主题挖掘方法、系统、设备及介质 |
CN117669550B (zh) * | 2023-11-13 | 2024-04-30 | 东风日产数据服务有限公司 | 一种基于文本中心的主题挖掘方法、系统、设备及介质 |
CN117672481A (zh) * | 2023-12-06 | 2024-03-08 | 海南星捷安科技集团股份有限公司 | 一种基于医疗大数据的真实世界数据收集整合系统 |
CN117690550A (zh) * | 2024-02-04 | 2024-03-12 | 西南医科大学附属医院 | 内分泌病人长期用药跟踪系统及管理方法 |
CN117690550B (zh) * | 2024-02-04 | 2024-05-03 | 西南医科大学附属医院 | 内分泌病人长期用药跟踪系统及管理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109344250B (zh) | 基于医保数据的单病种诊断信息快速结构化方法 | |
CN112768080A (zh) | 基于医疗大数据的医学关键词库建立方法及系统 | |
CN108959258B (zh) | 一种基于表示学习的特定领域集成实体链接方法 | |
CN108959566B (zh) | 一种基于Stacking集成学习的医疗文本去隐私方法和系统 | |
CN112732946B (zh) | 一种医学文献的模块化数据分析和数据库建立方法 | |
CN111460091B (zh) | 医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法 | |
CN107391565B (zh) | 一种基于主题模型的跨语言层次分类体系匹配方法 | |
CN111191456B (zh) | 一种使用序列标注进行识别文本分段的方法 | |
CN112800249A (zh) | 基于生成对抗网络的细粒度跨媒体检索方法 | |
CN108108184B (zh) | 一种基于深度信念网络的源代码作者识别方法 | |
Fang et al. | Human gene name normalization using text matching with automatically extracted synonym dictionaries | |
CN111191413B (zh) | 一种基于图排序模型的事件核心内容自动标记方法、装置及系统 | |
Hidayat et al. | Effect of Stemming Nazief & Adriani on the Ratcliff/Obershelp algorithm in identifying level of similarity between slang and formal words | |
Alkhatib et al. | Boosting arabic named entity recognition transliteration with deep learning | |
Jiang et al. | A CRD-WEL system for chemical-disease relations extraction | |
CN113254651B (zh) | 一种裁判文书的分析方法、装置、计算机设备及存储介质 | |
CN111597330A (zh) | 一种基于支持向量机的面向智能专家推荐的用户画像方法 | |
Li et al. | Improved deep belief network model and its application in named entity recognition of Chinese electronic medical records | |
CN115828854B (zh) | 一种基于上下文消歧的高效表格实体链接方法 | |
Banerjee et al. | A novel centroid based sentence classification approach for extractive summarization of COVID-19 news reports | |
Pinto et al. | What Drives Research Efforts? Find Scientific Claims that Count! | |
CN115952788A (zh) | 一种基于CharacterBert-CRF模型的诈骗词库构建方法 | |
Preethi et al. | A survey paper on text mining-techniques, applications, and issues | |
CN113934910A (zh) | 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法 | |
CN113626567A (zh) | 一种从生物医学文献中挖掘基因与疾病相关性信息的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210507 |