CN106096273A - 一种基于tf‑idf改进算法的疾病症状推导方法 - Google Patents

一种基于tf‑idf改进算法的疾病症状推导方法 Download PDF

Info

Publication number
CN106096273A
CN106096273A CN201610412964.6A CN201610412964A CN106096273A CN 106096273 A CN106096273 A CN 106096273A CN 201610412964 A CN201610412964 A CN 201610412964A CN 106096273 A CN106096273 A CN 106096273A
Authority
CN
China
Prior art keywords
disease
symptom
document
idf
search engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610412964.6A
Other languages
English (en)
Inventor
周作建
杨阳
胡云
周作霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ten Party Health Management (jiangsu) Ltd
Jiangsu Huakang Information Technology Co Ltd
Original Assignee
Ten Party Health Management (jiangsu) Ltd
Jiangsu Huakang Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ten Party Health Management (jiangsu) Ltd, Jiangsu Huakang Information Technology Co Ltd filed Critical Ten Party Health Management (jiangsu) Ltd
Priority to CN201610412964.6A priority Critical patent/CN106096273A/zh
Publication of CN106096273A publication Critical patent/CN106096273A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明提供一种基于TF‑IDF改进算法的疾病症状推导方法,包括下列步骤:1)请医学专家根据科室分类编写疾病症状对应字典;2)分析每一个科室的文档,统计症状词频TF;3)分析所有的文档,统计计算反向词频ITF;4)查询每个疾病的搜索引擎月查询量,并找出最大的查询量,进而计算出搜索引擎查询指数。5)基于以上计算出的TF,IDF和搜索引擎查询指数按照公式计算出最终的权重。本发明解决了目前传统疾病症状推导方法推理逻辑复杂,依赖于医学专家经验知识,并且医学知识形式化困难等缺陷,通过TF‑IDF算法计算出的词频和搜索引擎搜索指数加权求和的方法,极大的提高了目前推导方法的效率,并利用搜索引擎大数据提高了导诊的准确性。

Description

一种基于TF-IDF改进算法的疾病症状推导方法
技术领域
本软件方法涉及一种基于TF-IDF的疾病症状推导方法,对现有的TF-IDF算法做了改进,综合运用了大数据技术和机器学习算法来提高疾病导诊的有效性。
背景技术
随着互联网和传统行业的结合越来越紧密,人们通过网络获取一些简单疾病的初步诊断结果来指导就医行为已经变得越来越普遍。在这样的大趋势下,应用计算机技术,人工智能技术进行疾病初步诊断、导医的应用如雨后春笋般涌现。智能疾病导诊系统本质上属于一种医疗专家系统。国外较早出现的有MYCIN系统和Internist-1/QMR系统;国内有2006年胡波设计实现的基于知识库的AISCP导医系统,2011年习明实现的基于web的社区智能医疗服务系统。但这些系统几乎都是基于知识库和推理规则的专家系统,需要医疗专家根据自己的知识经验制定一套完整的推理规则。然而由于医学专家诊断疾病是一个创造性的过程,很难将这种知识、经验用计算机语言表达出来,所以专家系统在医学领域一直没有得到很好的利用。
发明内容
为了克服现有疾病症状推导方法的缺陷,本方法提出一种基于TF-IDF算法的疾病权重计算方法。并以该计算方法为指导,构建了自己的智能导诊系统。用户输入自己的症状,年龄,性别信息,系统能根据动态调整的症状疾病权重,查询出最可能患的疾病。
TF-IDF(term frequency-inverse document frequency)是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。它的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF-IDF实际上是:TF*IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency)。TF表示词条在文档中出现的频率。
tf i , n = n i Σ k n k
其中ni表示词ti在文档n中出现的次数;∑knk表示文档n中词的总个数;
IDF逆向文件频率的主要思想是:如果包含词条ti的文档越少,也就是|{d:ti∈d}|越小,IDF越大,则说明词条t具有很好的类别区分能力。公式如下:
idf i = l o g | D | | { d : t i ∈ d } |
其中|D|表示文档的总数目;|{d:ti∈d}|表示包含词ti的文档的数目;
在本推导方法中,对TF-IDF算法做了一定程度的改进,计算方法如下:
tf i , n = n i Σ k n k
其中ni表示症状ti在同科室疾病n中出现的次数;∑knk表示同科室疾病n中症状词出现的总个数;
idf i = l o g | D | | { d : t i ∈ d } |
其中|D|表示疾病的总数目;|{d:ti∈d}|表示包含症状ti的疾病的数目;
TFIdfi,n=tfi,n×idfi
TFIdfi,n表示症状ti与疾病n的相关度。
由于医学领域的诊断是一个不确定的推理过程,疾病有好几种症状,但症状不是一种疾病特有的,根据症状推理出的疾病不一定正确。考虑到用户查询的疾病一般都是常见疾病,所以引入疾病在搜索引擎指数中的用户关注度作为疾病常见度,用不同疾病用户关注度的值uan的比值来计算疾病j的权重Wn,以权重的大小来区分不同疾病的常见都,则疾病的常见度参数值为:
W n = ua n m a x ( ua n )
有了常见度这个参数后,和上文中的TFIdfi,n结合,最终得到的症状ti与疾病n的相关度为:
CFn=α1*TFIdfi,n2*Wn
其中α12=1
本方法的特点是:
1.和疾病辅助诊断专家系统相比,该方法简单高效,不用复杂的推理演绎,不用将复杂的医学知识形式化,适合用计算机程序实现。
2.运用了大数据技术(搜索引擎关键词搜索指数的引入)提高了导诊的准确性。相比较局限于医生个人经验的专家系统,本方法运用大数据技术,挖掘当前一段时间互联网用户搜索频率较高的疾病,来对TF-IDF算法结果进行矫正,只要数据足够真实可靠就可以很大程度的提高了计算的准确性。
附图说明
图1为本发明整体方法流程图
图2为计算词频TF的方法流程图
图3为计算反向词频ITF的方法流程图
图4为计算搜索引擎搜索指数的方法流程图
具体实施方式
为了了解本发明的技术内容,特举具体实施例并配合附图说明如下。
图1为本发明实施例的一种基于TF-IDF改进算法的疾病症状推导方法整体流程图。其特征在于包含以下步骤:
1)请医生准备程序输入材料,按科室分类的疾病症状对应文档。以内科文档为例,具体形式如下:
1.1.2肺炎(胸部)(男与女)(全部年龄)
症状:
寒战(全身);发热(全身);头痛(头部);肌肉酸痛(全身);纳差(腹部);咳嗽(胸部);咳痰(胸部);血痰(胸部);脓痰(胸部);气促(胸部);胸痛(胸部);腹痛(腹部);恶心(腹部);呕吐(腹部);腹胀(腹部);腹泻(腹部);烦躁(全身);神志模糊(全身);嗜睡(全身);昏迷(全身);咽痛(颈部);
2)写程序计算每一个症状的TF词频,具体做法是,读取某一个科室文档,统计每一个症状出现的次数,以及该文档中所有症状词语出现的总个数。假设第i个症状出现次数为ni,文档中所有症状词的总个数∑knk。然后计算词频
3)写程序计算IDF逆向文件频率。具体做法是,读取所有文档,先统计和某个症状ti有关联的所有疾病个数为|{d:ti∈d}|,然后统计所有文档中疾病的总个数|D|。则
4)然后计算TFIdfi,n=tfi,n×idfi,并把结果保存在数据库TFIdf表里。
写定时程序获取每个疾病的搜索引擎指数。统计得到最大的疾病搜索引擎指数max(uan),然后计算比值并保存在数据库疾病指数表中。
当用户选择症状查询时,去TFIdf表取出TFIdfi,n,去搜索引擎指数表中取出疾病n的Wn。计算总权重CFn=α1*TFIdfi,n2*Wn。对多个症状分别计算出CF后直接相加,然后倒序排列,找出前10个结果展示给用户。
图2为计算词频TF的流程图。其思想是读取一个科室文档,分析每一个症状词语出现的次数和整个文档中出现的症状总个数,然后求他们的商。TF反映了某个症状在该科室中的重要性。具体步骤如下:步骤1:建立Map<String,Integer>map保存症状和该症状在该文档中出现的总次数。步骤2:逐个读取文档中的症状词,并将症状出现次数统计信息保存在map中。步骤3:遍历map中的症状信息,统计出该文档中的总症状数allCount。步骤4:对于每一个症状S,计算它的TF=map.get(S)/allCount;
图3为计算反向词频ITF的流程图。具体步骤是:步骤1:建立Map<String,List<String>>map1保存疾病和对应的症状列表,建立Map<String,Integer>map2保存症状和对应关联疾病的个数。步骤2:读取所有科室文档中的数据。由于准备的文档素材都是疾病和症状对应的段落,因此读取每一个疾病症状段落,保存疾病和它对应的症状到map1。步骤3:遍历map1,分离出症状和它对应的疾病个数保存到map2。步骤3:计算每一个症状s的idf=log(map1.getKeys().count()/map2.get(s));
图4为计算搜索引擎指数的流程图。具体步骤是:步骤1:读取疾病库中的所有疾病名称,并建立疾病和搜索量的对应关系对象Map<String,Integer>map。步骤2:取每一个疾病名称D,去搜索引擎api查询它的月搜索量count,并作保存操作map.put(D,count);步骤3:遍历map找出max(count);4:计算每一个疾病Dn的搜索引擎搜索指数Wn=map.get(Dn)/max(count);
综上所述,通过该方法可以比较准确的判断出用户的一些常见病症,用户去医院之前能给出一些必要的指导,并做一些准备工作。

Claims (3)

1.一种基于TF-IDF改进算法的疾病症状推导方法,其特征在于,通过分析医学专家编写的疾病症状对应文档,应用TF-IDF算法建立症状和疾病之前的对应权重。为了进一步提高权重的准确性,本方法实时爬取疾病搜索引擎查询次数,计算出搜索引擎搜索指数,对TF-IDF算法所求权重进行进一步修正。疾病症状权重建立后,用户输入症状,系统查询预先计算好的保存在数据库中的症状疾病对应权重,倒排序后返回给用户。应用该推导方法可以有效的分析出症状和疾病的对应关系强弱,最终实现通过多个症状组合判定用户可能患的疾病,为用户就医前提供更多指导。该方法包含以下步骤:
1)基于TF-IDF算法计算疾病症状权重。TF即词频,在本方法中指的是症状在某科室文档中出现的频率。TF=症状在该文档中出现的次数/文档中所有症状词出现的次数。IDF表示的是一个症状和其他科室疾病的关联强弱,如果一个症状在所有科室文档中都出现的比较多,则该症状和每个疾病的关联度就不是很强。IDF=症状关联疾病个数/文档中所有疾病个数。
2)计算某一个疾病在搜索引擎中的查询指数。搜索引擎查询指数指的是某疾病在搜索引擎中被查询的次数和疾病在搜索引擎中的查询次数的最大值的比值。
2.根据权利1所述的基于TF-IDF算法的疾病权重计算方法,其特征在于,包括以下步骤;
步骤1:医学专家准备疾病症状字典文档。按科室对疾病进行分类,每个分类的疾病放在一个文档中。多个文档组成一个集合放在同一个文件夹下。
步骤2:计算每一个症状的词频TF。选取某一个科室的疾病症状字典文档,读入计算机内存,对文档中的文本进行分词,分别统计每一个症状在该文档中出现的次数和该文档中所有症状词出现的次数。并对这两个统计值相除。即词频TF=症状在该文档中出现的次数/文档中所有症状词出现的次数。
步骤3:计算逆向文档频率IDF。在本方法中IDF表征的是一个症状和其他科室疾病的关联强弱,如果一个症状词的词频TF在某一个科室文档中出现的频率高,并且在其他整个文档中出现的频率低,则可以认为该症状在该科室文档中的疾病中比较重要。具体计算步骤是读取所有字典文档,统计每个症状关联的疾病个数,以及所有文档中所有的疾病个数,则逆向文档频率IDF=症状关联疾病个数/文档中所有疾病个数。
步骤4:计算TFIDF=TF*IDF,然后将结果保存到数据库中做持久化。
3.根据权利1所述的搜索引擎搜索指数计算方法,其特征在于,包括以下步骤:
步骤1:写定时程序去搜索引擎爬取每个疾病关键词的搜索指数。在所有指数中找出最大的搜索引擎月查询次数,然后将每一个搜索引擎月搜索量和该最大月搜索量的比值作为搜索指数。
步骤2:最后对TFIDF和搜索引擎搜索指数两个值做加权求和。
CN201610412964.6A 2016-06-08 2016-06-08 一种基于tf‑idf改进算法的疾病症状推导方法 Pending CN106096273A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610412964.6A CN106096273A (zh) 2016-06-08 2016-06-08 一种基于tf‑idf改进算法的疾病症状推导方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610412964.6A CN106096273A (zh) 2016-06-08 2016-06-08 一种基于tf‑idf改进算法的疾病症状推导方法

Publications (1)

Publication Number Publication Date
CN106096273A true CN106096273A (zh) 2016-11-09

Family

ID=57846397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610412964.6A Pending CN106096273A (zh) 2016-06-08 2016-06-08 一种基于tf‑idf改进算法的疾病症状推导方法

Country Status (1)

Country Link
CN (1) CN106096273A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874643A (zh) * 2016-12-27 2017-06-20 中国科学院自动化研究所 基于词向量自动构建知识库实现辅助诊疗的方法和系统
CN108133752A (zh) * 2017-12-21 2018-06-08 新博卓畅技术(北京)有限公司 一种基于tfidf的医学症状关键词提取优化及回收方法和系统
CN110085307A (zh) * 2019-04-04 2019-08-02 华东理工大学 一种基于多源知识图谱融合的智能导诊方法和系统
TWI680468B (zh) * 2017-12-18 2019-12-21 達易特基因科技股份有限公司 結合基因檢測之健康管理及諮詢系統
CN111768213A (zh) * 2020-09-03 2020-10-13 耀方信息技术(上海)有限公司 一种用户标签权重评估方法
CN111985246A (zh) * 2020-08-27 2020-11-24 武汉东湖大数据交易中心股份有限公司 一种基于主要症状与伴随症状词的疾病认知系统
CN118094028A (zh) * 2024-04-28 2024-05-28 北方健康医疗大数据科技有限公司 一种疾病搜索排序方法、系统、终端及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003122845A (ja) * 2001-10-09 2003-04-25 Shinkichi Himeno 医療情報の検索システム及びそのシステムを実行するためのプログラム
US9002769B2 (en) * 2012-07-03 2015-04-07 Siemens Aktiengesellschaft Method and system for supporting a clinical diagnosis
CN104915406A (zh) * 2015-06-02 2015-09-16 华东师范大学 一种面向大众医疗决策的用户搜索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003122845A (ja) * 2001-10-09 2003-04-25 Shinkichi Himeno 医療情報の検索システム及びそのシステムを実行するためのプログラム
US9002769B2 (en) * 2012-07-03 2015-04-07 Siemens Aktiengesellschaft Method and system for supporting a clinical diagnosis
CN104915406A (zh) * 2015-06-02 2015-09-16 华东师范大学 一种面向大众医疗决策的用户搜索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZHU DENGYA 等: "a Variety of tf-idf term weighting strategy in document categorization", 《THE 7TH INTERNATIONAL CONFERENCE ON SEMANTICS》 *
宋艳: "基于文本挖掘词频反文档频率方法的疾病症状权重挖掘研究", 《成都信息工程学院学报》 *
徐奕枫: "智能导医系统中TF-IDF权重改进算法研究", 《计算机工程与应用》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874643A (zh) * 2016-12-27 2017-06-20 中国科学院自动化研究所 基于词向量自动构建知识库实现辅助诊疗的方法和系统
TWI680468B (zh) * 2017-12-18 2019-12-21 達易特基因科技股份有限公司 結合基因檢測之健康管理及諮詢系統
CN108133752A (zh) * 2017-12-21 2018-06-08 新博卓畅技术(北京)有限公司 一种基于tfidf的医学症状关键词提取优化及回收方法和系统
CN110085307A (zh) * 2019-04-04 2019-08-02 华东理工大学 一种基于多源知识图谱融合的智能导诊方法和系统
CN110085307B (zh) * 2019-04-04 2023-02-03 华东理工大学 一种基于多源知识图谱融合的智能导诊方法和系统
CN111985246A (zh) * 2020-08-27 2020-11-24 武汉东湖大数据交易中心股份有限公司 一种基于主要症状与伴随症状词的疾病认知系统
CN111985246B (zh) * 2020-08-27 2023-08-15 武汉东湖大数据交易中心股份有限公司 一种基于主要症状与伴随症状词的疾病认知系统
CN111768213A (zh) * 2020-09-03 2020-10-13 耀方信息技术(上海)有限公司 一种用户标签权重评估方法
CN111768213B (zh) * 2020-09-03 2021-02-19 耀方信息技术(上海)有限公司 一种用户标签权重评估方法
CN118094028A (zh) * 2024-04-28 2024-05-28 北方健康医疗大数据科技有限公司 一种疾病搜索排序方法、系统、终端及存储介质

Similar Documents

Publication Publication Date Title
Moradi et al. Deep contextualized embeddings for quantifying the informative content in biomedical text summarization
CN106096273A (zh) 一种基于tf‑idf改进算法的疾病症状推导方法
US9558264B2 (en) Identifying and displaying relationships between candidate answers
Antal et al. Using literature and data to learn Bayesian networks as clinical models of ovarian tumors
CN111292848B (zh) 一种基于贝叶斯估计的医疗知识图谱辅助推理方法
Moradi et al. Summarization of biomedical articles using domain-specific word embeddings and graph ranking
Zhao et al. An improved approach to traceability recovery based on word embeddings
US20200020423A1 (en) A method and system for matching subjects to clinical trials
Song et al. Probabilistic correlation-based similarity measure on text records
Givchi et al. Graph-based abstractive biomedical text summarization
Shi et al. Intelligent prescription-generating models of traditional Chinese medicine based on deep learning
Schadd et al. Word-sense disambiguation for ontology mapping: Concept disambiguation using virtual documents and information retrieval techniques
Wang et al. A meta-learning based stress category detection framework on social media
Yin et al. HealthQA: A Chinese QA summary system for smart health
Ren et al. Clinical questionnaire filling based on question answering framework
Du et al. UGDAS: Unsupervised graph-network based denoiser for abstractive summarization in biomedical domain
Gao et al. Accuracy analysis of triage recommendation based on CNN, RNN and RCNN models
Lakiotaki et al. Towards personalized medical document classification by leveraging UMLS semantic network
Wagholikar et al. Evaluation of fuzzy relation method for medical decision support
Evrim et al. Context-based information analysis for the web environment
Hajlaoui et al. Enhancing patent expertise through automatic matching with scientific papers
CN111966780A (zh) 一种基于词向量建模和信息检索的回顾性队列选择方法及装置
Gao et al. Improving medical ontology based on word embedding
Ping et al. Research on search ranking technology of chinese electronic medical record based on AdaRank
Long et al. Wordnet-based lexical semantic classification for text corpus analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
CB02 Change of applicant information

Address after: 210019 01 15 floors of international R & D headquarters park, 68 new Austrian street, Jianye District, Nanjing, Jiangsu.

Applicant after: JIANGSU HUAKANG INFORMATION TECHNOLOGY CO., LTD.

Applicant after: Ten Party health management (Jiangsu) Limited

Address before: 210019 10 floor, 01 new town science and technology building, 69 Olympic Sports street, Jianye District, Nanjing, Jiangsu.

Applicant before: JIANGSU HUAKANG INFORMATION TECHNOLOGY CO., LTD.

Applicant before: Ten Party health management (Jiangsu) Limited

CB02 Change of applicant information
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161109

WD01 Invention patent application deemed withdrawn after publication