CN104978347A - 中文生物医学文献数据库中敏感关键词的数据挖掘方法和系统 - Google Patents
中文生物医学文献数据库中敏感关键词的数据挖掘方法和系统 Download PDFInfo
- Publication number
- CN104978347A CN104978347A CN201410142483.9A CN201410142483A CN104978347A CN 104978347 A CN104978347 A CN 104978347A CN 201410142483 A CN201410142483 A CN 201410142483A CN 104978347 A CN104978347 A CN 104978347A
- Authority
- CN
- China
- Prior art keywords
- data
- database
- title
- server
- chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及数据发掘的方法,具体公开了中文生物医学文献数据库的“疾病-证候-症状-中药-西药”数据挖掘的方法及系统,所述方法包括:1)构建结构化的敏感关键词数据库;2)下载非结构化的主题数据,将其转换并存储到本地结构化文献数据库中;3)对数据库中敏感关键词的相关文本的挖掘和标注;4)去除数据挖掘的噪音并相应修改挖掘结果,即得相应的数据挖掘结果;所述数据挖掘系统包括:应用程序服务器(D01)、数据库服务器(D02)、挖掘结果服务器(D03)、Web服务器(D04)以及用户终端(D05)。本发明解决了现有技术中无法在中文的生物医学文献数据库中实现疾病、证候、症状、中药和西药的数据挖掘的技术难题。
Description
技术领域
本发明涉及文献数据库中的数据挖掘技术,具体涉及一种针对中文生物医学类文献数据库中敏感关键词的数据挖掘和发现技术。
背景技术
文献数据挖掘是指从海量文献中提取、整合并发现有用信息和知识点的过程,通过文献数据挖掘能够快速处理大量文献并得到特定领域的知识,文献数据挖掘涉及到数据挖掘、文本挖掘、自然语言处理和信息整合等多个研究领域。
以生物医学文献数据挖掘为例,生物医学文献数据挖掘研究的主要内容分为信息检索,实体识别,信息提取,文本挖掘和信息集成与整合等五个部分[Jensen LJ,Saric J,Bork P. Literature mining for the biologist:from information retrieval to biological discovery.Nat Rev Genet.2006Feb;7(2):119-29.]。五部分的任务各不相同,前面问题的解决构成了后面部分研究与发展的基础。就目前研究现状而言,从信息检索到信息集成与整合,方法研究的成熟度依次递减,而数据挖掘发现的潜力却依次递增。生物医学领域的文本挖掘和信息集成整合则依赖于对本领域知识的理解和应用,更依赖于从科学文献中挖掘出未知的生物医学知识的新理论和新方法。
世界上不少发达国家均借助数据挖掘和信息整合技术对英文的生物医学文献数据库进行了大量疾病、诊断和西药的相关数据挖掘发现研究,实现了英文文献中疾病、诊断和西药的挖掘发现,为专业研究人员提供了方便获取疾病、诊断和西药知识及潜在知识的新方法新途径。
然而,由于语言和文化背景的不同,英文文献中疾病、诊断和西药的挖掘发现的挖掘方法和途径还无法在中文的生物医学文献数据库中实现疾病、证候、症状、中药和西药的数据挖掘。
因此,如何在中文的生物医学文献数据库中实现疾病名称、证候名称、症状名称、中药名称和西药名称的数据挖掘,则是现有技术方法和途径中有待解决的问题。
周雪忠等(周雪忠.文本挖掘在中医药中的若干应用研究.杭州:浙江大学,2004.)采用文本挖掘技术从中医药临床文献库中挖掘临床复方配伍知识,同时利用结构化预处理方法建立结构化的药物组成记录,在此基础上进行临床复方的药物组成和药物科属配伍规律知识发现研究,对中药复方知识发现研究进行了初步尝试。姬航宇等对医学古籍《伤寒论》及《金匾要略》中的用量策略进行了文本挖掘研究(姬航宇,焦拥政,连凤梅,等.《伤寒论》及《金匾要略》用量策略的文本挖掘研究.中华中医药杂志,2012,(1):19-22.)。庄力等利用信息抽取技术建立了从Web形式的中医药文献资料中抽取结构化中医临床诊疗信息的垂直搜索系统TC-MVSE(庄力.中医临床诊疗垂直搜索系统研究.北京:北京交通大学,2009.)。
但是这些研究都没有系统的挖掘中文生物医学文献数据库,从而实现疾病名称、证候名称、症状名称、中药名称和西药名称的提取和关联。
发明内容
针对现有技术中存在的现状,本发明首次提出并实现了疾病、证候、症状、中药和西药名称的提取和关联。因此本发明提供了一种中文生物医学文献数据库中敏感关键词的数据挖掘方法和系统,具体提供一种中文生物医学文献数据库中的疾病名称、证候名称、症状名称、中药名称和/或西药名称的数据挖掘的方法及系统,其可实现在中文的生物医学文献数据库中的疾病、证候、症状、中药和西药知识的挖掘和发现。
本发明所述中文医药文献数据库中的疾病、证候、症状、中药和西药数据挖掘的方法,包括如下步骤:
1)构建结构化的能够进行数据挖掘的敏感关键词数据库,所述敏感关键词选自:疾病名称、证候名称、症状名称、中药名称和西药名称中的一种、两种或两种以上组合;优选疾病名称、证候名称、症状名称、中药名称和西药名称的组合;
2)下载非结构化的中文生物医学文献数据库中主题数据,并将非结构化的数据转换成本地结构化的信息,存储到本地结构化文献数据库中;
3)以结构化的敏感关键词数据库的标准控制词表为依据,以本地结构化的文献数据库中敏感关键词为挖掘和发现对象,通过对中文生物医学数据库的数据结构的分析以及对数据的转换和提取,整理出结构化的敏感关键词,完善敏感关键词列表,并实现对中文生物医学文献数据库中敏感关键词的相关文本的挖掘和标注;
4)去除数据挖掘中的噪音,并相应修改中文文献文本的挖掘结果,即得相应的数据挖掘结果。
作为实施方式之一,本发明所述方法中,中文生物医学文献数据包括但不限于中国生物医学文献服务数据库(SinoMed)、中国知网(CNKI)、维普中文科技期刊数据库(VIP)、或/和万方数据知识服务平台,其中所述步骤1)中,单独构建持续更新结构化的敏感关键词数据库;优选包括所述疾病名称、证候名称、症状名称、中药名称和西药名称的关键词和它们的同义词。
作为实施方式之一,本发明所述的疾病名称、症候名称、症状名称、中药名称、西药名称是指依据生物医学教科书以及国家颁布的行业标准进行构建,其中包含标准名称和相关同义词。
作为实施方式之一,本发明所述方法中,步骤2)进一步包括:设计文本转换工具程序,该程序从生物医学文献数据库中下载的非结构化的主题数据中自动提取相关信息,具体包括文献的题目、摘要、关键词、作者、作者单位、以及出版日期,将上述信息按照数据库第一、二、三范式的要求,存储到结构化数据库的数据表中,从而实现现在的非结构化的文献数据到结构化文献数据库之间的转换。
作为实施方式之一,本发明所述方法中,步骤2)中是通过应用程序服务器将非结构化的数据转换成结构化的文献数据库,并保存在数据服务器中。
作为实施方式之一,本发明所述方法中,所述步骤2)中进一步包括:将依据关键词数据库挖掘中文生物医学文献数据库得到的结果,按照并行访问、高速处理的原则存放在本地的挖掘结果服务器中
作为实施方式之一,本发明所述方法中,步骤3)中以结构化的敏感关键词数据库的标准控制词表为依据,以本地结构化的中文生物医学文献数据库中的疾病名称、证候名称、症状名称、中药名称和西药名称的名词作为挖掘和发现对象,进行相应疾病、证候、症状、中药和西药相关文本挖掘工具字典的编撰,使中文生物医学文献数据库中的疾病名称、证候名称、症状名称、中药名称和西药名称的名词与结构化的敏感关键词数据库中的标准控制词表进行一一对应的关联和整合,实现对中文生物医学文献数据库的相应的疾病、证候、症状、中药和西药相关文本的挖掘和标注,生成面向主题和应用的中文生物医学文献数据仓库。
作为实施方式之一,本发明所述方法中,步骤4)中的去除噪音包括但不限于去除数据挖掘和信息整合结果中的假阳性的疾病、证候、症状、中药和/或西药的挖掘结果。
作为实施方式之一,本发明所述方法中,还进一步包括:数据挖掘结果的展示,是通过电脑终端进行显示的,包括但不限于表格和图形两种方式。
本发明还进一步提供一种用于中文生物医学文献数据库中的敏感关键词数据挖掘的系统,所述系统包括:
应用程序服务器D01、数据库服务器D02、挖掘结果服务器D03、Web服务器D04以及用户终端D05;
其中,应用程序服务器D01联接文献数据库服务器D02,挖掘结果服务器D03通过应用程序服务器D01联接数据库服务器D02,供Web服务器D04并行、高速调用,Web服务器D04联接用户终端D05。
作为实施方式之一,本发明系统中,所述应用程序服务器D01存储疾病名称、证候名称、症状名称、中药名称和西药名称的数据挖掘的算法和规则;所述文献数据库服务器D02,存储基于第一、二和三范式构建的结构化的敏感关键词数据库、中文医药文献数据库、疾病名称、证候名称、症状名称、中药名称和西药名称知识的文本挖掘工具字典库;所述数据库服务器D02,由应用程序服务器调用数据库服务器中的文本挖掘工具字典,对中文生物医学文献数据库进行数据挖掘的标引而得到,存放经过数据挖掘后而形成的面向主题和应用的、集成化的数据库;所述挖掘结果服务器D03,存放应用程序服务器处理数据服务器得到的挖掘结果,内联应用程序服务器联和数据库服务器;所述用户终端(D05),联接Web服务器D04,从挖掘结果服务器提取所需要的数据,实现对具体的疾病名称、证候名称、症状名称、中药名称和/或西药形成知识的查询和挖掘发现的操作。
本发明还进一步提供了用于中文生物医学文献数据库中的敏感关键词数据挖掘系统的结构功能模块,该系统中包括:文献数据服务器D02中的文献数据格式转换模块M01、应用程序服务器D01中的关键词数据库构建模块M02、应用程序服务器D01中的文本挖掘模块M03、文献数据服务器D02中的文本挖掘结果降噪模块M04;其中,所述文献数据格式转换模块M01为数据挖掘提供素材,关键词数据库构建模块M02为数据挖掘提供关键词,文本挖掘模块M03进行核心的数据挖掘工作,文本挖掘结果降噪模块M04对数据结果进行净化和修改处理。
作为实施方式之一,本发明所述系统中,所述文献数据格式转换模块M01用于构建含有疾病、证候、症状、中药和西药相关属性的中文生物医学文献数据库;所述关键词数据库构建模块M02确立能够进行对应的疾病、证候、症状、中药和西药的敏感关键词列表;所述文本挖掘模块M03,利用关键词数据库构建模块M02中的关键词列表,在文献数据格式转换模块M01处理过的文献数据中进行挖掘,将得到的结果,作为文本挖掘结果降噪模块M04的输入信息;所述文本挖掘结果降噪模块M04对数据结果进行净化和修改处理,用于去除数据挖掘和信息整合结果中的假阳性疾病、证候、症状、中药和西药挖掘结果。
本发明的技术特点是构建好含有丰富疾病、证候、症状、中药和西药相关属性的中文生物医学文献数据库,以及确立能够进行对应的疾病、证候、症状、中药和西药关联和整合的结构化的敏感关键词数据库。以申请人构建的疾病、证候、症状、中药和西药结构化的敏感关键词数据库的标准控制词表为依据,以中文生物医学文献数据库中出现的疾病、证候、症状、中药和西药名词为挖掘和发现对象,进行疾病、证候、症状、中药和西药相关文本挖掘工具字典的编撰。并最终生成面向主题和应用的中文生物医学文献数据仓库,在去除数据挖掘和信息整合结果中的“噪音”信息(去除假阳性的疾病名称、证候名称、症状名称、中药名称和西药名称挖掘结果)和修改中文文献文本挖掘结果。从而实现了在中文生物医学文献数据库中实现疾病、证候、症状、中药和西药的数据挖掘。
对比现有技术,本发明具有如下的优点:
①通过文本挖掘工具字典的控制,可实现中文生物医学文献数据库中的疾病、证候、症状、中药和西药知识的深度挖掘和发现。
②通过挖掘信息的分析和统计,可实现智能化的疾病、证候、症状、中药和西药相关知识发现。
③通过关键词标引,可实现由人工控制的类自然语言检索。④具有较高的阳性挖掘率。
⑤基于B/S结构的知识库系统设计,可保证系统高安全性。
⑥文本挖掘的工具字典不断丰富,保持专业知识的持续更新。
附图说明
图1:中文生物医学文献数据库“疾病名称-证候名称-症状名称-中药名称-西药名称”数据挖掘流程示意图;
图2:示例性的示出了本发明的中文生物医学文献数据库中的疾病、证候、症状、中药和西药数据挖掘的方法的数据流向示意图;
图3:示例性的示出了本发明的中文生物医学文献数据库中的疾病、证候、症状、中药和西药数据挖掘的方法中系统的结构功能模块示意图;
图4示出了本发明的中文生物医学文献数据库中的疾病、证候、症状、中药和西药数据挖掘的系统的示意图。
具体实施方式
以下根据本发明的中文生物医学文献数据库中的疾病、证候、症状、中药和西药数据挖掘的方法及系统为具体实施方式进行说明,但本发明并不受限于此。
如图4所示的一种中文生物医学文献数据库中的疾病名称、证候名称、症状名称、中药名称和西药名称的数据挖掘的系统,包括应用程序服务器D01、文献数据库服务器D02、挖掘结果服务器D03、WEB服务器D04和用户终端D05,其中:
应用程序服务器D01,存储疾病名称、证候名称、症状名称、中药名称和西药名称的数据挖掘的算法和规则;
数据库服务器D02,联接应用程序服务器,存储非结构化的文献数据,以及转换后的中文生物医学文献数据库、基于第一、二和三范式构建的结构化的敏感关键词数据库,包含疾病、证候、症状、中药和西药的文本挖掘工具字典库;
挖掘结果服务器D03,存放由应用程序服务器调用数据库服务器中的数据挖掘结果。该过程包含调用文本挖掘工具字典,对中文生物医学文献数据库进行基于字符串匹配的数据标引,形成的面向主题和应用的数据库;
Web服务器D04,内联挖掘结果服务器D03,外联用户终端D05,形成内部处理结果向终端用户进行展示的门户,同时,保护内部应用程序服务器D01、文献数据库服务器D02、挖掘结果服务器D03的安全;
用户终端D05,联接Web服务器D04,实现对疾病、证候、症状、中药和西药知识的查询和挖掘发现的操作。
中文生物医学文献数据库是中国生物医学文献服务数据库,结构化的敏感关键词数据库是申请人构建的疾病名称、证候名称、症状名称、中药名称和西药名称的数据库。有关对中文生物医学文献数据库的疾病名称、证候名称、症状名称、中药名称和西药名称相关文本的挖掘和标注的过程包括:以结构化的敏感关键词数据库的标准控制词表为依据,以本地结构化的文献数据库中的疾病名称、证候名称、症状名称、中药名称和西药名称的名词为挖掘和发现对象,通过对中国生物医学文献服务数据库数据结构的分析以及对数据的转换和提取,整理出疾病名称、证候名称、症状名称、中药名称和西药名称相关的结构化的敏感关键词与文献中的对应描述的一一对应,丰富关键词列表,从而实现对中文生物医学文献数据库的疾病、证候、症状、中药和西药相关文本的挖掘和标注。然后抽取文本挖掘关键词数据库中的疾病、证候、症状、中药和西药名称及同义词,经过归并处理后得到字典工具数据表。对字典工具数据表进行和数据加工后得到数据挖掘的工具字典。文本挖掘工具字典中的序列号是指基于中国生物医学文献数据库与结构化的敏感关键词数据库所关联的唯一索引标识。
如图3所示,在本发明中的中文生物医学文献数据库中的疾病、证候、症状、中药和西药数据挖掘的系统中,包括:
文献数据库服务器D02中的文献数据格式转换模块M01,能够将下载的非结构化的文献数据转换成格式化的数据,存储在关系型的数据库中,为应用程序服务器D01中的文本挖掘模块M03的高效处理提供文献数据。
应用程序服务器D01中的关键词数据库构建模块M02,构建含有疾病名称、证候名称、症状名称、中药名称和西药名称相关属性的数据库,以及能够为生物医学背景人士提供半自动的文献数据分析,进一步丰富疾病名称、证候名称、症状名称、中药名称和西药名称的关键词列表;
应用程序服务器D01中的文本挖掘模块M03,根据结构化的敏感关键词数据库提供的字符串集合,在中文生物医学文献数据库的文献信息中逐条匹配疾病、证候、症状、中药和西药的信息,以文献编号为唯一标识,按照“共同出现”的原则,生成面向主题和应用的数据挖掘结果,并将结果存放在挖掘结果服务器中;
文献数据库服务器D02中的文本挖掘结果降噪模块M04,去除数据挖掘结果中相应的假阳性的疾病、证候、症状、中药和西药挖掘结果以及修改中文文献文本挖掘结果。
实施例1中文生物医学文献数据库中的疾病名称、证候名称、症状名称、中药名称和西药名称的数据挖掘的方法及系统的示例
中文生物医学文献数据库中的疾病、证候、症状、中药和西药数据挖掘的方法的实施例的流程如图1和图2所示的本发明中文生物医学文献数据库中的疾病、证候、症状、中药和西药数据挖掘的方法的流程及数据流向,其具体包括:
步骤S01:构建含有疾病名称、证候名称、症状名称、中药名称和西药相关属性的敏感关键词数据库。
步骤S02:根据给定的主题,从中文生物医学文献数据库SinoMed下载非结构化的中文生物医学文献数据(中文生物医学文献数据库,即SinoMed,是中国生物学文献服务系统数据库),并通过应用程序将非结构化的数据转换成结构化的数据,存储在关系型数据库中。
步骤S03:以结构化的敏感关键词数据库的标准控制词表为依据,以中文生物医学文献数据库中的疾病、证候、症状、中药和西药名词为挖掘和发现对象,进行疾病、证候、症状、中药和西药相关文本挖掘工具字典的编撰,使中文生物医学文献数据库中的疾病、证候、症状、中药和西药名词与结构化的敏感关键词数据库中的标准控制词表进行一一对应的关联和整合,实现对中文生物医学文献数据库的疾病、证候、症状、中药和西药相关文本的挖掘和标注。
该步骤可以细分为:
第一步:从结构化的敏感关键词数据库的数据中分析疾病、证候、症状、中药和西药相关文本挖掘工具字典的元素的构成,通过对数据结构的分析以及对数据的转换和提取,整理出疾病、证候、症状、中药和西药相关的结构化的敏感关键词数据库中的文本挖掘工具字典。
疾病、证候、症状、中药和西药结构化的敏感关键词数据库实例为:
序号 | 关键词 | 类型 |
1 | 肺癌 | 疾病 |
2 | 百令胶囊 | 中药 |
3 | 疲乏 | 症状 |
4 | 老年非小细胞肺癌 | 疾病 |
5 | 复方苦参注射液 | 中药 |
6 | 顺铂 | 西药 |
7 | 疼痛 | 症状 |
8 | 固冲汤 | 中药 |
9 | 子宫出血 | 疾病 |
10 | 肝肾阴虚 | 证侯 |
11 | 脾肾阳虚 | 证候 |
12 | 血瘀 | 证候 |
第二步:在文献数据中的【标题】、【摘要】字段中抽取敏感关键词。针对以下三篇文献,按照共同出现的原则、字符串匹配的方式进行数据挖掘:
【流水号】:2011644307
【标题】:百令胶囊对肺癌化疗相关性疲乏感的疗效观察
【摘要】:目的:了解百令胶囊治疗肺癌化疗相关性疲劳的疗效。方法:抽取我院接诊的初治的不能手术的晚期肺癌患者58例。随机分为治疗组和对照组。治疗组30例,对照组28例。治疗组患者在化疗开始每天服用百令胶囊(9.0g/日)并联合常规对症支持治疗,对照组仅给予常规对症支持治疗。完成化疗2周期后进行评价。评价指标为:疲乏状况评定和卡氏功能量表评分。结果:化疗前治疗组和对照组患者在疲乏评分和KPS评分中均为明显差异(t=0.987,t=0.992),化疗后二者的差异显著(t=1.715,t=2.892),纽内比较提示对照组化疗后较化疗前差异有显著性。结论:百令胶囊是治疗化疗相关性疲乏的有效药物。
【流水号】:2009296300
【标题】:复方苦参注射液配合化疗治疗老年非小细胞肺癌的临床观察
【摘要】:目前,肺癌在我国的发生率呈逐年上升趋势,约80%为非小细胞肺癌(NSCLC)。就诊时绝大多数患者已失去手术机会,化疗是其主要治疗手段,以铂类为基础的化疗方案是NSCLC的一线化疗方案,但由于顺铂严重的消化道反应及。肾毒性,影响了病人的治疗。传统中医药对化疗病人有减轻化疗毒副反应,增进疗效,减少疼痛,促进骨髓细胞再生修复,延长生存时间等作用。因此,化疗配合中药治疗成为治疗晚期肺癌的重要手段之一。[第一段]
【流水号】:1994215779
【标题】:固冲汤加减治疗功能性子宫出血31例临床观察
【摘要】:将功能性子宫出血患者31例,分为肝肾阴虚、脾肾阳虚、血瘀3型,治以固冲汤加减,获得可喜的疗效。结果治愈率为80.6%,有效率为93.5%。其中肝肾阴虚型疗效最佳,而血阏型者疗效较差。其原因是本方偏重补虚而略于活血化阏。
从而得到:以下表2结果:
表2
第三步:针对表2中的结果,进行统计,可以得到相应的频数,以及这些关键词之间的关系,从而形成数据挖掘的结果。
步骤S04:去除数据挖掘和信息整合结果中的假阳性疾病、证候、症状、中药和西药挖掘结果以及修改中文文献文本挖掘结果。
步骤S05:将文献挖掘的结果,依据终端用户的要求发送到终端用户。
如图3所示,本发明的中文生物医学文献数据库中的疾病名称、证候、症状名称、中药名称和西药名称数据挖掘的系统的结构原理的模块示意图。其包括文献数据格式转换模块M01、关键词数据库构建模块M02、文本挖掘模块M03、文本挖掘结果降噪模块M04。上述模块之间的连接关系是:文献数据格式转换模块M01为数据挖掘提供素材,关键词数据库构建模块M02为数据挖掘提供关键词,文本挖掘模块M03进行核心的数据挖掘工作,文本挖掘结果降噪模块M04对数据结果进行净化和修改处理。
文献数据格式转换模块M01用于构建含有疾病名称、证候名称、症状名称、中药名称和西药名称的相关属性的中文生物医学文献数据库。
关键词数据库构建模块M02确立能够进行对应的疾病、证候、症状、中药和西药的敏感关键词列表。
文本挖掘模块M03,利用关键词数据库构建模块M02中的关键词列表,在文献数据格式转换模块M01处理过的文献数据中进行挖掘,将得到的结果,作为文本挖掘结果降噪模块M04的输入信息。
文本挖掘结果降噪模块M04对数据结果进行净化和修改处理,用于去除数据挖掘和信息整合结果中的假阳性疾病、证候、症状、中药和西药挖掘结果。
如图4所示,本发明的中文生物医学文献数据库中的疾病名称、证候名称、症状名称、中药名称和西药名称数据挖掘的系统,所述系统包括应用程序服务器D01、文献数据库服务器D02、挖掘结果服务器D03、Web服务器D04以及用户终端D05。
其中所述应用程序服务器D01采用文献数据库服务器D02中的关键词数据库处理D02中的文献数据库,将结果发送到挖掘结果服务器D03,Web服务器D04通过用户终端D05发送的请求,调用应用程序服务器D01在文献数据库服务器D02中进行文本挖掘,将结果送入挖掘结果服务器D03,并同时通过Web服务器D04将结果返回用户终端。
应用程序服务器D01存储疾病、证候、症状、中药和西药数据挖掘的算法和规则。文献数据库服务器D02存储基于第一、二和三范式构建的结构化的敏感关键词数据库和中文生物医学文献数据库。
挖掘结果服务器D03用来存放应用程序服务器D01处理文献数据库服务器D02的结果,采用并行和高速的方式,为Web服务器D04提供用户终端D05查询返回的结果。
本发明的技术特点是构建好含有丰富疾病、证候、症状、中药和西药相关属性的中文生物医学文献数据库,以及确立能够进行对应的疾病、证候、症状、中药和西药关联和整合的结构化的敏感关键词数据库。以申请人构建的疾病、证候、症状、中药和西药结构化的敏感关键词数据库的标准控制词表为依据,以中文生物医学文献数据库中出现的疾病、证候、症状、中药和西药名词为挖掘和发现对象,进行疾病、证候、症状、中药和西药相关文本挖掘工具字典的编撰。并最终生成面向主题和应用的中文生物医学文献数据仓库,在去除数据挖掘和信息整合结果中的“噪音”信息(去除假阳性疾病、证候、症状、中药和西药挖掘结果)和修改中文文献文本挖掘结果,从而解决了现有技术中无法在中文的生物医学文献数据库中实现疾病、证候、症状、中药和西药的数据挖掘的技术难题。
上述实施例仅是提供给本领域普通技术人员来实现和使用本发明的,本领域普通技术人员可在不脱离本发明的发明思想的情况下,可以对上述实施例进行种种修改或变化,因而本发明的发明范围并不被上述实施例所限,而应该是符合本发明的创新性特征的最大范围。
Claims (10)
1.一种用于中文生物医学文献数据库中的敏感关键词数据挖掘的方法,其特征在于,所述方法包括如下步骤:
1)构建结构化的能够进行数据挖掘的敏感关键词数据库,所述特征敏感关键词选自:疾病名称、证候名称、症状名称、中药名称和西药名称中的一种、两种或两种以上组合;优选疾病名称、证候名称、症状名称、中药名称和西药名称的组合;
2)下载非结构化的中文生物医学文献数据库中主题数据,并将非结构化的数据转换成本地结构化的信息,存储到本地结构化文献数据库中;
3)以结构化的敏感关键词数据库的标准控制词表为依据,以本地结构化的文献数据库中敏感关键词为挖掘和发现对象,通过对中文生物医学数据库的数据结构的分析以及对数据的转换和提取,整理出结构化的敏感关键词,完善敏感关键词列表,并实现对中文生物医学文献数据库中敏感关键词的相关文本的挖掘和标注;
4)去除数据挖掘中的噪音,并相应修改中文文献文本的挖掘结果,即得相应的数据挖掘结果。
2.根据权利要求1所述的方法,其特征在于,所述中文生物医学文献数据库为可下载的非结构化的生物医学文献数据库,其中所述步骤1)中,依据生物医学专业知识单独构建并持续更新的结构化敏感关键词数据库;优选所述敏感关键词包括所述疾病名称、证候名称、症状名称、中药名称和西药名称的关键词和它们的同义词。
3.根据权利要求1所述的数据挖掘的方法,其特征在于,所述方法步骤2)进一步包括:
从生物医学文献数据库中下载的非结构化的主题数据,设计程序从中自动提取相关信息,具体包括文献的题目、摘要、关键词、作者、作者单位、以及出版日期,将上述信息按照数据库第一、二、三范式的要求,存储到结构化数据库的数据表中;
优选进一步包括:将依据关键词数据库挖掘中文生物医学文献数据库得到的结果,按照并行访问、高速处理的原则存放在本地的结构化数据服务器中。
4.根据权利要求1所述的方法,其特征在于,所述步骤3)中的数据挖掘过程包括:提取依据生物学和医学专业知识构建的结构化敏感关键词数据库,生成数据挖掘过程用来精确匹配的字符串集合;然后将这些字符串按照顺序,在中文医药文献数据仓库的文献信息中逐条匹配,每一个匹配上的字符串,都会标注上文献的编号以及对应关键词的类型。在此基础上,以文献编号为唯一标识对敏感关键词进行基于“共同出现”原则的关联,生成面向主题和应用的挖掘结果数据库。
5.根据权利要求1所述的方法,其特征在于,所述步骤4)中的去除噪音包括:去除数据挖掘和信息整合结果中的假阳性的疾病、证候、症状、中药和/或西药的挖掘结果。
6.根据权利要求1-5任一所述的方法,其特征在于,所述方法进一步包括:数据挖掘结果的展示,是通过电脑终端进行显示的,包括表格和/或图形两种方式。
7.一种用于权利要求1-6任一所述方法的中文生物医学文献数据库中的敏感关键词数据挖掘的系统,其特征在于,所述系统包括:应用程序服务器(D01)、数据库服务器(D02)、挖掘结果服务器(D03)、Web服务器(D04)以及用户终端(D05);其中,应用程序服务器(D01)接文献数据库服务器(D02),挖掘结果服务器(D03)通过应用程序服务器(D01)联接数据库服务器(D02),供Web服务器(D04)并行、高速调用,Web服务器(D04)联接用户终端(D05)。
8.根据权利要求7所述的系统,其特征在于,所述系统中,
应用程序服务器(D01)存储疾病名称、证候名称、症状名称、中药名称和西药名称的数据挖掘的算法和规则;
文献数据库服务器(D02),存储基于第一、二和三范式构建的结构化文献数据库,该数据库的内容是从非结构化的可下载的文献信息中经过步骤2)转换后得到的;
所述文献数据库服务器(D02),由应用程序服务器调用应用程序服务器中(D01)的文本挖掘工具字典,对中文生物医学文献数据库进行数据挖掘的标引而得到,存放经过数据挖掘后而形成的面向主题和应用的、集成化的数据库;
挖掘结果服务器(D03),存放应用程序服务器处理数据服务器得到的挖掘结果,内联应用程序服务器联(D01)和文献数据库服务器(D02);
所述用户终端(D05),联接Web服务器(D04),从挖掘结果服务器(D03)提取所需要的数据,实现对具体的疾病名称、证候名称、症状名称、中药名称和/或西药形成知识的查询和挖掘发现的操作。
9.根据权利要求8所述的系统,其特征在于,所述系统中进一步包括:文献数据格式转换模块(M01)、关键词数据库构建模块(M02)、文本挖掘模块(M03)、文本挖掘结果降噪模块(M04);
其中文献数据格式转换模块(M01)位于文献数据库服务器(D02)中、关键词数据库构建模块(M02)位于应用程序服务器(D01)中、文本挖掘模块(M03)位于应用程序服务器(D01)中、文本挖掘结果降噪模块(M04)位于文献数据库服务器(D02)中;
所述文献数据格式转换模块(M01)为数据挖掘提供素材,关键词数据库构建模块(M02)为数据挖掘提供关键词,文本挖掘模块(M03)进行核心的数据挖掘工作,文本挖掘结果降噪模块(M04)对数据结果进行净化和修改处理。
10.根据权利要求9所述的系统,其特征在于,所述文献数据格式转换模块(M01)用于构建含有疾病、证候、症状、中药和西药相关属性的中文生物医学文献数据库;
所述关键词数据库构建模块(M02)确立能够进行对应的疾病、证候、症状、中药和西药的敏感关键词列表;
所述文本挖掘模块(M03),利用关键词数据库构建模块(M02)中的关键词列表,在文献数据格式转换模块(M01)处理过的文献数据中进行挖掘,将得到的结果,作为文本挖掘结果降噪模块(M04)的输入信息;
所述文本挖掘结果降噪模块(M04)对数据结果进行净化和修改处理,用于去除数据挖掘和信息整合结果中的假阳性疾病、证候、症状、中药和西药挖掘结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410142483.9A CN104978347A (zh) | 2014-04-11 | 2014-04-11 | 中文生物医学文献数据库中敏感关键词的数据挖掘方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410142483.9A CN104978347A (zh) | 2014-04-11 | 2014-04-11 | 中文生物医学文献数据库中敏感关键词的数据挖掘方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104978347A true CN104978347A (zh) | 2015-10-14 |
Family
ID=54274861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410142483.9A Pending CN104978347A (zh) | 2014-04-11 | 2014-04-11 | 中文生物医学文献数据库中敏感关键词的数据挖掘方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104978347A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956359A (zh) * | 2016-04-15 | 2016-09-21 | 陈杰 | 一种用于异构系统的药品项目名称对照转译方法 |
CN106682136A (zh) * | 2016-12-19 | 2017-05-17 | 谭红春 | 一种基于数据挖掘的中医医学文献分类及存储方法 |
CN106777137A (zh) * | 2016-12-19 | 2017-05-31 | 谭红春 | 一种中医学文献分析方法 |
CN106844325A (zh) * | 2015-12-04 | 2017-06-13 | 北大医疗信息技术有限公司 | 医疗信息处理方法和医疗信息处理装置 |
CN108460093A (zh) * | 2018-01-30 | 2018-08-28 | 青岛中兴智能交通有限公司 | 一种公安系统的数据处理方法和装置 |
CN108647236A (zh) * | 2018-03-30 | 2018-10-12 | 山东管理学院 | 一种基于词共现的中药处方向量空间模型方法及装置 |
CN110298564A (zh) * | 2019-06-17 | 2019-10-01 | 迪普佰奥生物科技(上海)有限公司 | 基于人工智能的生物医药产品评价方法、装置、介质、终端 |
CN110297839A (zh) * | 2019-06-25 | 2019-10-01 | 中国人民解放军军事科学院军事医学研究院 | 药物适应症的查询方法、装置、计算机设备和存储介质 |
CN112509703A (zh) * | 2020-12-08 | 2021-03-16 | 郑思思 | 一种用于生物医学的数据统计系统及其分析方法 |
CN113407671A (zh) * | 2017-06-01 | 2021-09-17 | 互动解决方案公司 | 检索用资料信息存储装置 |
CN114927168A (zh) * | 2022-05-31 | 2022-08-19 | 四川大学 | 一种生物力学调控骨改建文本挖掘交互网站构建方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1731395A (zh) * | 2005-08-18 | 2006-02-08 | 山东中医药大学 | 中医药古文献数据库 |
CN102622346A (zh) * | 2011-01-26 | 2012-08-01 | 中国科学院上海生命科学研究院 | 中文文献数据库的蛋白质知识挖掘和发现的方法、装置、系统 |
CN102841186A (zh) * | 2012-08-28 | 2012-12-26 | 中国科学院自动化研究所 | 基于通路模式挖掘的中药活性成分预测方法 |
-
2014
- 2014-04-11 CN CN201410142483.9A patent/CN104978347A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1731395A (zh) * | 2005-08-18 | 2006-02-08 | 山东中医药大学 | 中医药古文献数据库 |
CN102622346A (zh) * | 2011-01-26 | 2012-08-01 | 中国科学院上海生命科学研究院 | 中文文献数据库的蛋白质知识挖掘和发现的方法、装置、系统 |
CN102841186A (zh) * | 2012-08-28 | 2012-12-26 | 中国科学院自动化研究所 | 基于通路模式挖掘的中药活性成分预测方法 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106844325A (zh) * | 2015-12-04 | 2017-06-13 | 北大医疗信息技术有限公司 | 医疗信息处理方法和医疗信息处理装置 |
CN106844325B (zh) * | 2015-12-04 | 2022-01-25 | 北大医疗信息技术有限公司 | 医疗信息处理方法和医疗信息处理装置 |
CN105956359A (zh) * | 2016-04-15 | 2016-09-21 | 陈杰 | 一种用于异构系统的药品项目名称对照转译方法 |
CN105956359B (zh) * | 2016-04-15 | 2018-06-05 | 陈杰 | 一种用于异构系统的药品项目名称对照转译方法 |
CN106682136A (zh) * | 2016-12-19 | 2017-05-17 | 谭红春 | 一种基于数据挖掘的中医医学文献分类及存储方法 |
CN106777137A (zh) * | 2016-12-19 | 2017-05-31 | 谭红春 | 一种中医学文献分析方法 |
CN106682136B (zh) * | 2016-12-19 | 2018-03-16 | 刘凯 | 一种基于数据挖掘的中医医学文献分类及存储方法 |
CN106777137B (zh) * | 2016-12-19 | 2018-03-16 | 谭红春 | 一种中医学文献分析方法 |
CN113407671A (zh) * | 2017-06-01 | 2021-09-17 | 互动解决方案公司 | 检索用资料信息存储装置 |
CN108460093A (zh) * | 2018-01-30 | 2018-08-28 | 青岛中兴智能交通有限公司 | 一种公安系统的数据处理方法和装置 |
CN108647236A (zh) * | 2018-03-30 | 2018-10-12 | 山东管理学院 | 一种基于词共现的中药处方向量空间模型方法及装置 |
CN110298564A (zh) * | 2019-06-17 | 2019-10-01 | 迪普佰奥生物科技(上海)有限公司 | 基于人工智能的生物医药产品评价方法、装置、介质、终端 |
CN110297839A (zh) * | 2019-06-25 | 2019-10-01 | 中国人民解放军军事科学院军事医学研究院 | 药物适应症的查询方法、装置、计算机设备和存储介质 |
CN112509703A (zh) * | 2020-12-08 | 2021-03-16 | 郑思思 | 一种用于生物医学的数据统计系统及其分析方法 |
CN114927168A (zh) * | 2022-05-31 | 2022-08-19 | 四川大学 | 一种生物力学调控骨改建文本挖掘交互网站构建方法 |
CN114927168B (zh) * | 2022-05-31 | 2023-08-29 | 四川大学 | 一种生物力学调控骨改建文本挖掘交互网站构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104978347A (zh) | 中文生物医学文献数据库中敏感关键词的数据挖掘方法和系统 | |
CN109344250A (zh) | 基于医保数据的单病种诊断信息快速结构化方法 | |
CN102024027B (zh) | 一种医学数据库的建立方法 | |
CN107633153B (zh) | 一种肿瘤个体化临床实验文本挖掘的方法和系统 | |
CN105389470A (zh) | 一种中医针灸领域实体关系自动抽取的实现方法 | |
CN101201847A (zh) | 一种传统药物专利信息检索系统及检索方法 | |
CN104899340B (zh) | 一种基于最紧致片段的ietm技术信息片段检索装置及其检索方法 | |
WO2017193471A1 (zh) | 一种东巴经典古籍传承体系数字化国际共享平台 | |
Wei et al. | SimConcept: A hybrid approach for simplifying composite named entities in biomedicine | |
CN106227820A (zh) | 一种中医基础理论知识图库的构建方法 | |
Martorelli et al. | Fungal metabarcoding data integration framework for the MycoDiversity DataBase (MDDB) | |
Vidal et al. | Semantic data integration techniques for transforming big biomedical data into actionable knowledge | |
Herskovitz | A Suggested Taxonomy of Genealogy as a Multidisciplinary Academic Research Field. | |
WO2024109097A1 (zh) | 专利文本的知识图谱创建方法、装置、存储介质及设备 | |
CN104765762A (zh) | 自动挖掘配伍关系系统及其方法 | |
Hongyong et al. | Classification of interventions in traditional Chinese medicine | |
Hirano et al. | Mining typical order sequences from ehr for building clinical pathways | |
CN115017326B (zh) | 医学编码方法及装置 | |
Gavali et al. | A knowledge graph representation learning approach to predict novel kinase–substrate interactions | |
Trinh et al. | Semantic relation extraction for herb-drug interactions from the biomedical literature using an unsupervised learning approach | |
Neto et al. | MaqPar. A Homemade Tool for the Study of Kinship Networks | |
CN111986817A (zh) | 一种通过ace2筛选新冠covid-19治疗药物的方法 | |
Xiu et al. | Achievements of the Compendium Bencao Tujing (Illustrated Classic of Materia Medica): A preliminary study | |
CN102521267B (zh) | 站内信息搜索方法和搜索系统 | |
Mohammed et al. | Extending the power of problem oriented medical record with disease association discovery: The case study of empowering QL4POMR with OpenTargets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20151014 |