CN110335684A - 基于主题模型技术的中医智能辨证辅助决策方法 - Google Patents
基于主题模型技术的中医智能辨证辅助决策方法 Download PDFInfo
- Publication number
- CN110335684A CN110335684A CN201910517329.8A CN201910517329A CN110335684A CN 110335684 A CN110335684 A CN 110335684A CN 201910517329 A CN201910517329 A CN 201910517329A CN 110335684 A CN110335684 A CN 110335684A
- Authority
- CN
- China
- Prior art keywords
- syndrome
- symptom
- chinese medicine
- medical record
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000003814 drug Substances 0.000 title claims abstract description 45
- 238000005516 engineering process Methods 0.000 title claims abstract description 20
- 208000011580 syndromic disease Diseases 0.000 claims abstract description 159
- 208000024891 symptom Diseases 0.000 claims abstract description 110
- 238000012545 processing Methods 0.000 claims abstract description 10
- 230000011218 segmentation Effects 0.000 claims abstract description 4
- 230000004069 differentiation Effects 0.000 claims description 46
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 6
- 238000005065 mining Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 2
- 241000721047 Danaus plexippus Species 0.000 claims 1
- 238000003745 diagnosis Methods 0.000 abstract description 7
- 230000006870 function Effects 0.000 abstract description 7
- 229940079593 drug Drugs 0.000 abstract description 2
- 238000002560 therapeutic procedure Methods 0.000 abstract description 2
- 238000009412 basement excavation Methods 0.000 abstract 1
- 201000010099 disease Diseases 0.000 description 18
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 18
- 208000008454 Hyperhidrosis Diseases 0.000 description 9
- 230000035900 sweating Effects 0.000 description 8
- 230000007812 deficiency Effects 0.000 description 4
- 206010011224 Cough Diseases 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 210000004185 liver Anatomy 0.000 description 3
- 230000001717 pathogenic effect Effects 0.000 description 3
- 210000000952 spleen Anatomy 0.000 description 3
- 208000000044 Amnesia Diseases 0.000 description 2
- 208000031091 Amnestic disease Diseases 0.000 description 2
- 206010008479 Chest Pain Diseases 0.000 description 2
- 208000000419 Chronic Hepatitis B Diseases 0.000 description 2
- 206010033557 Palpitations Diseases 0.000 description 2
- 206010037660 Pyrexia Diseases 0.000 description 2
- 208000009205 Tinnitus Diseases 0.000 description 2
- 208000031971 Yin Deficiency Diseases 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000006986 amnesia Effects 0.000 description 2
- 238000002405 diagnostic procedure Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 208000002173 dizziness Diseases 0.000 description 2
- 206010013781 dry mouth Diseases 0.000 description 2
- 206010016256 fatigue Diseases 0.000 description 2
- 210000000232 gallbladder Anatomy 0.000 description 2
- 208000002672 hepatitis B Diseases 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000000582 semen Anatomy 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 231100000886 tinnitus Toxicity 0.000 description 2
- 210000002700 urine Anatomy 0.000 description 2
- 208000030507 AIDS Diseases 0.000 description 1
- 241000572565 Alpinia oxyphylla Species 0.000 description 1
- 206010063659 Aversion Diseases 0.000 description 1
- 206010006458 Bronchitis chronic Diseases 0.000 description 1
- 206010007882 Cellulitis Diseases 0.000 description 1
- 241000756943 Codonopsis Species 0.000 description 1
- 206010010774 Constipation Diseases 0.000 description 1
- 208000000059 Dyspnea Diseases 0.000 description 1
- 206010013975 Dyspnoeas Diseases 0.000 description 1
- 241000600871 Euryale <brittle star> Species 0.000 description 1
- 235000006487 Euryale ferox Nutrition 0.000 description 1
- 206010019233 Headaches Diseases 0.000 description 1
- 239000009636 Huang Qi Substances 0.000 description 1
- 206010022998 Irritability Diseases 0.000 description 1
- 241000264063 Lethrinus rubrioperculatus Species 0.000 description 1
- 208000019914 Mental Fatigue Diseases 0.000 description 1
- 206010028748 Nasal obstruction Diseases 0.000 description 1
- 206010057071 Rectal tenesmus Diseases 0.000 description 1
- 208000032140 Sleepiness Diseases 0.000 description 1
- 206010041349 Somnolence Diseases 0.000 description 1
- 206010043946 Tongue conditions Diseases 0.000 description 1
- 208000031975 Yang Deficiency Diseases 0.000 description 1
- 210000001015 abdomen Anatomy 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 208000006673 asthma Diseases 0.000 description 1
- 206010006451 bronchitis Diseases 0.000 description 1
- 208000007451 chronic bronchitis Diseases 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 229940104299 cimicifugae rhizoma Drugs 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 238000000576 coating method Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 231100000869 headache Toxicity 0.000 description 1
- 230000035876 healing Effects 0.000 description 1
- 208000013403 hyperactivity Diseases 0.000 description 1
- 230000037315 hyperhidrosis Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 208000017169 kidney disease Diseases 0.000 description 1
- 206010029410 night sweats Diseases 0.000 description 1
- 230000036565 night sweats Effects 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 229940126532 prescription medicine Drugs 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000002271 resection Methods 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 208000013220 shortness of breath Diseases 0.000 description 1
- 230000037321 sleepiness Effects 0.000 description 1
- 208000012271 tenesmus Diseases 0.000 description 1
- 210000001835 viscera Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medicines Containing Plant Substances (AREA)
Abstract
本发明公开了一种基于主题模型技术的中医智能辨证辅助决策方法,包括对医案集中的症状名称进行规范化处理;预处理医案数据集:使用语言技术平台工具对每份医案进行分词处理;生成医案主题模型,得到隐含在医案集中的所有主题;基于《中医内科学》构建标准证候数据库,并通过计算主题下的症状群与标准证候之间的相似度来获得主题的标签,即证候名称;基于上述挖掘得到的症候群进行证候预测。本发明对医案集中的症状名称进行规范化处理,实现中医书籍的自动标准化功能;本发明的证候预测方法通过对标准化的医案数据进行分析处理,实现中医诊疗系统的辨证功能,使得辨证结果更加准确。
Description
技术领域
本发明涉及一种中医辅助决策方法,具体地说,涉及一种基于主题模型技术的中医智能辨证辅助决策方法。
背景技术
“辨证论治”是传统中医的主要特点,即将望、闻、问、切(四诊)收集的症状,依四诊合参原则,加以分析和总结,确定疾病的病理、病性、病位和邪正关系,从而确定疾病的证型,并选择相应的治疗。中医辨证是中医诊断疾病的理论核心,也是中医诊断学的难题。
传统中医的辨证模式是医生主要利用感官观察和患者对病感的主观描述获取患者的症状和体征信息,这种获取机体功能状态特征信息的方法,难以做出准确的定量描述,缺乏具体的量化方法,如有汗、汗出、微汗、少汗、大汗、汗出不止、大汗淋漓等对汗出状况的描述不够具体、精确,具有模糊性,且这种差异性的描述具有经验性的成分;中医信息的处理、整合由医生根据个人的知识和经验完成,诊断准确性在一定程度上也取决于医生的个人经验、诊断技巧、认识水平和思维能力,主观性较强,其辨证过程更是一个“黑箱理论”,难以诠释。为了解决这些问题,出现了一大批基于数据挖掘技术的中医辨证辅助决策方法,其中最新的研究运用数据挖掘技术从中医和西医两个角度分析中医证候,根据混合智能系统理论设计中医辨证过程的整体框架,以慢性乙型肝炎为例构建混合智能中医辨证模型,该模型首先利用基于多视图的混合属性选择算法获取与证候相关的症状,然后利用TF-IDF算法计算症状的权重,最后利用混合辨证模型判断新样本的主证和次证,并成功获得了180例新样本的主证和次证。同时使用Apriori算法对丁氏外科临床医案数据建模并对其进行关联规则分析,根据支持度和置信度构建网络结构图,用线条的粗细表示病种与六纲要素之间的关系,并结合频数统计法研究其辨证规律,实验结果表明在丁氏医案中对病种疽的辨治最为集中,约为20.31%。
其主要缺陷在于:
首先,在使用混合智能模型进行中医辨证时,所使用的慢性乙型肝炎数据集中包含的属性种类繁多且性质不同,虽然可以使用多视图的混合属性选择算法进行属性选择,但是它不能全面的获取与证候密切相关的关键属性。并且在中医领域常使用属性整体出现的频率来计算该属性的重要程度,但没有考虑在证候间分布的信息,导致辨证结果与真实结果相差甚大,辨证准确度较低。
其次,参与辨证的客观指标不足,最新的一些数据挖掘方法只利用症状进行辨证,没有考虑病因、病位、舌象和脉象等指标,导致直接使用关联规则方法很难构建精确的诊断模型,并且一些症状存在“多词一义”和“一词多义”的现象,即对这些症状没有进行规范化处理,从而导致生成的辨证结果不够全面,准确度低等结果。
发明内容
有鉴于此,本发明针对目前大多数中医智能辨证方法存在的辨证准确度低的问题,提供了一种基于主题模型技术的中医智能辨证辅助决策方法,能够解决“理-法-方-药”的辨证问题,提高辨证准确度。
为了解决上述技术问题,本发明公开了一种基于主题模型技术的中医智能辨证辅助决策方法,具体包括:
步骤1,对医案集中的症状名称进行规范化处理;
步骤2,预处理医案数据集:使用语言技术平台(LTP)工具对每份医案进行分词处理;
步骤3,生成医案主题模型,得到隐含在医案集中的所有主题;
步骤4,基于《中医内科学》构建标准证候数据库,并通过计算主题下的症状群与标准证候之间的相似度来获得主题的标签,即证候名称;
步骤5,基于步骤3、4挖掘得到的症候群进行证候预测。
进一步地,步骤1中对医案集中的症状名称进行规范化处理,具体为:
从医案集中随机选择一种症状,在给定的标准症状数据库的条件下,分别计算该症状与四君子标准TCM(中医)数据集中所有症状之间的相似度,寻找最大相似度对应的症状,并作为该症状的标准症状名称,计算公式如下:
Sim(s,s′)=JWD(s,s′)=JD(s,s′)+prefixLength
·(1.0-JD(s,s′)) (1)
其中,s表示患者的临床症状名称,s′表示四君子标准TCM数据集的标准症状名称,n表示临床症状名称s和标准症状名称s′之间的匹配字符数,t为匹配字符的数量,|s|与|s′|分别是s和s′中的字符数,JD(s,s′)为字符串s与s′的匹配度,prefixLength为字符前缀长度。
进一步地,步骤3中基于医案数据集生成医案主题模型,得到隐含在医案集中的所有主题,具体为:
使用基于隐狄利克雷分布(LDA)的主题模型方法挖掘隐藏在医案集中的所有主题,该主题是由相关症状构成的集合,每种症状均有对应的概率值,并根据概率值取前15种症状来表示主题,具体步骤如下所示:
1)使用吉布斯采样(Gibbs)方法模拟生成K个“证候”;
2)根据超参数β获得症状分布即
其中,表示第i种症状在第K个证候中的所占权重,V为症状数,nk,w表示症状w在证候k中的出现次数。
3)根据超参数α获得第m个医案的证候分布θm=(θm1,θm2,…,θmk),即θm~Dir(α);
其中,θmk表示第k个证候在医案m中的所占权重,nm,k表示证候k在医案m中的出现次数。
其中,α、β为狄利克雷(Dirichlet)先验分布的参数。
4)根据多项式分布Mult(θm)生成证候Zi,即Zi~Mult(θm);
其中,表示在医案m中证候Zi出现的概率。
5)根据多项式分布分别生成症状wV,即取中权重大于0的症状构成证候Zk,返回步骤4),直到遍历完第m个医案中的所有词;
其中,为在证候k中症状i出现的概率。
6)返回步骤2),直到生成整个医案训练集(所有的证候组成)。
进一步地,1)使用Gibbs方法模拟生成K个“证候”,具体为:
初始化:随机给每个词分配主题编号;
给第m个医案的词wi分配主题编号,取最大概率值对应的主题,计算公式如下:
其中,k∈[1,2,…,K],为症状a在证候k中出现的次数,为证候k的词在第m个医案中出现的次数,V为医案集中出现的症状数,Z-i为除证候i以外的所有证候的集合;
使用公式(9)进行迭代更新,直至包含于主题中的症状保持不变,迭代收敛。
进一步地,步骤4基于《中医内科学》构建标准证候数据库,并通过计算主题下的症状群zi与标准证候yj之间的相似度来获得主题的标签,即证候名称y,
进一步地,步骤5,基于步骤3、4挖掘得到的症候群进行证候预测,具体如下:通过使用贝叶斯规则推断一个新医案的证候标签集,设定一个概率阈值T,取大于该阈值的证候标签为新医案的证候,公式如下:
p(k|m)>T (12)
其中,当T为1e-7经验值时,预测效果到达最佳,表示在证候k下症状si出现的概率,p(k|m)表示医案m的证候为k的概率。
与现有技术相比,本发明可以获得包括以下技术效果:
1)本发明对医案集中的症状名称进行规范化处理,实现中医书籍的自动标准化功能;且基于隐狄利克雷分布(LDA)模型训练生成一种医案主题模型,使用该模型进行患者证候预测。
2)本发明的证候预测方法通过对标准化的医案数据进行分析处理,实现中医诊疗系统的辨证功能,使得辨证结果更加准确。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例中计算辅助决策辨证过程图;
图2是本发明实施例中步骤5辨证模型的生成过程图。
具体实施方式
以下将配合实施例来详细说明本发明的实施方式,藉此对本发明如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
为了便于理解本发明,首先对本发明涉及的基本定义进行说明:
症:是指疾病的症状,疾病的临床表现,如出汗、头晕、耳鸣、发热等,是判断疾病的原始依据。
体征:生理学、医学用语,是指医生在检查病人时所发现的异常变化。与“症状”有别,“症状”是病人自己向医生陈述的异常表现,而“体征”是医生给病人检查时发现的具有诊断意义的证候。
证:是综合分析各种症状,对疾病发生、发展过程中在某一阶段的病因、病位、病性等方面的病理概括。例如“肝胆湿热证”,病因为湿热,病位为肝胆,是属邪气有余的实证。
辨证:就是分析、辨认疾病的证候,即以脏腑经络、病因、病机等基本理论为依据,通过对望诊、问诊所收集的症状以及其它临床资料进行分析、综合,辨清疾病的原因、性质、部位,以及邪正之间的关系,进而概括、判断属于何证。
本发明公开了一种基于主题模型技术的中医智能辨证辅助决策方法,具体过程参见图1所示,具体包括:
步骤1,对医案集中的症状名称进行规范化处理;
具体为:
从医案集中随机选择一种症状,在给定的标准症状数据库的条件下,分别计算该症状与四君子标准TCM(中医)数据集中所有症状之间的相似度,寻找最大相似度对应的症状,并作为该症状的标准症状名称,计算公式如下:
Sim(s,s′)=JWD(s,s′)=JD(s,s′)+prefixLength
·(1.0-JD(s,s′)) (1)
其中,s表示患者的临床症状名称,s′表示四君子标准TCM数据集的标准症状名称,n表示临床症状名称s和标准症状名称s′之间的匹配字符数,t为匹配字符的数量,|s|与|s′|分别是s和s′中的字符数,JD(s,s′)为字符串s与s′的匹配度,prefixLength为字符前缀长度。
步骤2,预处理医案数据集:使用语言技术平台(LTP)工具对每份医案进行分词处理;
例如:原始医案【李某某,124,男,33,2012-05-21,咳嗽,头痛,发热,鼻塞,肝脏,心脏,气虚证,阴虚证,慢性支气管炎史,患咳喘十余年,冬重夏轻,近期加重】经过步骤1、2处理后的医案为【咳喘头痛发热鼻塞】。
步骤3,生成医案主题模型,得到隐含在医案集中的所有主题;
使用基于隐狄利克雷分布(LDA)的主题模型方法挖掘隐藏在医案集中的所有主题,该主题是由相关症状构成的集合,每种症状均有对应的概率值,并根据概率值取前15种症状来表示主题,具体步骤如下所示:
1)使用Gibbs方法模拟生成K个“证候”;具体为:
初始化:随机给每个词分配主题编号;
给第m个医案的词wi分配主题编号,取最大概率值对应的主题,计算公式如下:
其中,k∈[1,2,…,K],为症状a在证候k中出现的次数,为证候k的词在第m个医案中出现的次数,V为医案集中出现的症状数,Z-i为除证候i以外的所有证候的集合;
使用公式(3)进行迭代更新,直至包含于主题中的症状保持不变,迭代收敛。
2)根据超参数β获得症状分布即
其中,表示第i种症状在第k个证候中的所占权重,V为症状数,nk,w表示症状w在证候k中的出现次数。
3)根据超参数α获得第m个医案的证候分布θm=(θm1,θm2,…,θmk),即θm~Dir(α);
其中,θmk表示第k个证候在医案m中的所占权重,nm,k表示证候k在医案m中的出现次数。
其中,α、β为狄利克雷(Dirichlet)先验分布的参数;
4)根据多项式分布Mult(θm)生成证候Zi,即Zi~Mult(θm);
其中,表示在医案m中证候Zi出现的概率。
5)根据多项式分布分别生成症状wV,即取中权重大于0的症状构成证候Zk,返回步骤4),直到遍历完第m个医案中的所有词;
其中,为在证候k中症状i出现的概率。
6)返回步骤2),直到生成整个医案训练集(所有的证候组成)。
步骤4,基于《中医内科学》构建标准证候数据库,并通过计算主题下的症状群zi与标准证候yj之间的相似度来获得主题的标签,即证候名称y,
其中,标准证候示例如下:
脾虚气陷证
症状:尿浊反复发作,日久不愈,状如白浆,小腹坠胀,神倦无力,面色无华,劳累后发作或加重,舌淡苔白,脉虚软。
证机概要:脾虚气陷,精微下泄。
治法:健脾益气,升清固摄。
代表方:补中益气汤加减。本补中益气,升清降浊,用于中气下陷,精微下泄之尿浊。
常用药:党参、黄芪、白术、山药、益智仁、金樱子、莲子、芡实、升麻、柴胡。
步骤5,基于步骤3、4挖掘得到的症候群构建证候预测模型,如图2所示。
具体如下:通过使用贝叶斯规则推断一个新医案的证候标签集,设定一个概率阈值T,取大于该阈值的证候标签为新医案的证候,公式如下:
p(k|m)>T (12)
其中,当T为1e-7经验值时,预测效果到达最佳,其中,表示在证候k下症状si出现的概率,p(k|m)表示医案m的证候为k的概率。
本发明的医案数据预处理方法通过对医案数据中症状名称的规范化处理来实现中医数据的自动标准化功能。
本发明的证候预测方法通过对标准化的医案数据进行分析处理,实现中医诊疗系统的辨证功能,使得辨证结果更加准确。
表1慢性肾病辨证结果
主题(证候) | 症状群 |
肺肾气虚证 | 呼吸急促、胸闷气慌、咳嗽、多汗 |
心肾阴虚证 | 心痛憋闷、心悸盗汗、头晕耳鸣、口干、便秘 |
脾肾阳虚证 | 神疲乏力、多卧嗜睡、健忘、畏寒肢冷 |
心肝火旺证 | 急躁易怒、善忘、面红耳赤、口干、舌燥 |
… | … |
邀请了电子科技大学校医院的中医医师分析了表1的辨证结果,结果发现每个证候下92.17%症状可以用《中医内科学》来验证。并且与最新的智能辨证方法相比,如子空间聚类算法、模糊识别等方法,本发明的辨证准确度达到了80.24%,而使用子空间聚类算法进行智能辨证时,所使用的数据集为5600名AIDS患者,且每位患者所包含的症状上的证候标签是由人工标记,不同的医生可能标记不同的结果,且一种症状上可能有多个证候标签,形成了不可靠的数据集,从而导致其辨证结果不可靠、辨证精度不真实。使用模糊识别进行智能辨证时,无具体的实验部分和数据集,因此,该方法是否可行无法得到验证。
上述说明示出并描述了发明的若干优选实施例,但如前所述,应当理解发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离发明的精神和范围,则都应在发明所附权利要求的保护范围内。
Claims (6)
1.一种基于主题模型技术的中医智能辨证辅助决策方法,其特征在于,具体包括:
步骤1,对医案集中的症状名称进行规范化处理;
步骤2,预处理医案数据集:使用语言技术平台工具对每份医案进行分词处理;
步骤3,生成医案主题模型,得到隐含在医案集中的所有主题;
步骤4,基于《中医内科学》构建标准证候数据库,并通过计算主题下的症状群与标准证候之间的相似度来获得主题的标签,即证候名称;
步骤5,基于步骤3、4挖掘得到的症候群进行证候预测。
2.根据权利要求1所述的基于主题模型技术的中医智能辨证辅助决策方法,其特征在于,步骤1中对医案集中的症状名称进行规范化处理,具体为:
从医案集中随机选择一种症状,在给定的标准症状数据库的条件下,分别计算该症状与四君子标准TCM数据集中所有症状之间的相似度,寻找最大相似度对应的症状,并作为该症状的标准症状名称,计算公式如下:
Sim(s,s′)=JWD(s,s′)=JD(s,s′)+prefixLength·
(1.0-JD(s,s′)) (1)
其中,s表示患者的临床症状名称,s′表示四君子标准TCM数据集的标准症状名称,n表示临床症状名称s和标准症状名称s′之间的匹配字符数,t为匹配字符的数量,|s|与|s′|分别是s和s′中的字符数,JD(s,s′)为字符串s与s′的匹配度,prefixLength为字符前缀长度。
3.根据权利要求2所述的基于主题模型技术的中医智能辨证辅助决策方法,其特征在于,步骤3中基于医案数据集生成医案主题模型,得到隐含在医案集中的所有主题,具体为:
使用基于隐狄利克雷分布(LDA)的主题模型方法挖掘隐藏在医案集中的所有主题,该主题是由相关症状构成的集合,每种症状均有对应的概率值,并根据概率值取前15种症状来表示主题,具体步骤如下所示:
1)使用吉布斯抽样(Gibbs)方法模拟生成K个“证候”;
2)根据超参数β获得症状分布即
其中,表示第i种症状在第K个证候中的所占权重,V为症状数,nk,w表示症状w在证候k中的出现次数;
3)根据超参数α获得第m个医案的证候分布θm=(θm1,θm2,…,θmk),即θm~Dir(α);
其中,θmk表示第k个证候在医案m中的所占权重,nm,k表示证候k在医案m中的出现次数;
其中,α、β为Dirichlet先验分布的参数;
4)根据多项式分布Mult(θm)生成证候Zi,即Zi~Mult(θm);
其中,表示在医案m中证候Zi出现的概率;
5)根据多项式分布分别生成症状wV,即取中权重大于0的症状构成证候Zk,返回步骤4),直到遍历完第m个医案中的所有词;
其中,为在证候k中症状i出现的概率;
6)返回步骤2),直到生成整个医案训练集。
4.根据权利要求3所述的基于主题模型技术的中医智能辨证辅助决策方法,其特征在于,1)使用Gibbs方法模拟生成K个“证候”,具体为:
初始化:随机给每个词分配主题编号;
给第m个医案的词wi分配主题编号,取最大概率值对应的主题,计算公式如下:
其中,k∈[1,2,…,K],为症状a在证候k中出现的次数,为证候k的词在第m个医案中出现的次数,V为医案集中出现的症状数,Z-i为除证候i以外的所有证候的集合。
使用公式(9)进行迭代更新,直至包含于主题中的症状保持不变,迭代收敛。
5.根据权利要求4所述的基于主题模型技术的中医智能辨证辅助决策方法,其特征在于,步骤4基于《中医内科学》构建标准证候数据库,其包含137种标准证候,并通过计算主题下的症状群zi与标准证候yj之间的相似度来获得主题的标签,即证候名称y,
。
6.根据权利要求5所述的基于主题模型技术的中医智能辨证辅助决策方法,其特征在于,步骤5,基于步骤3、4挖掘得到的症候群进行证候预测,具体如下:通过使用贝叶斯规则推断一个新医案的证候标签集,设定一个概率阈值T,取大于该阈值的证候标签为新医案的证候,公式如下:
p(k|m)>T (12)
其中,当T为1e-7经验值时,预测效果到达最佳,表示在证候k下症状si出现的概率,p(k|m)表示医案m的证候为k的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910517329.8A CN110335684A (zh) | 2019-06-14 | 2019-06-14 | 基于主题模型技术的中医智能辨证辅助决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910517329.8A CN110335684A (zh) | 2019-06-14 | 2019-06-14 | 基于主题模型技术的中医智能辨证辅助决策方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110335684A true CN110335684A (zh) | 2019-10-15 |
Family
ID=68140985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910517329.8A Pending CN110335684A (zh) | 2019-06-14 | 2019-06-14 | 基于主题模型技术的中医智能辨证辅助决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110335684A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111128375A (zh) * | 2020-01-10 | 2020-05-08 | 电子科技大学 | 一种基于多标签学习的藏医诊断辅助装置 |
CN111159977A (zh) * | 2020-04-07 | 2020-05-15 | 深圳华大基因科技服务有限公司 | 一种人类表型标准用语确定方法及装置 |
CN111177117A (zh) * | 2019-12-17 | 2020-05-19 | 山东中医药大学第二附属医院 | 一种中医医案数据处理方法 |
CN111477295A (zh) * | 2020-04-10 | 2020-07-31 | 电子科技大学 | 一种基于隐语义模型的中医组方推荐方法及系统 |
CN112002408A (zh) * | 2020-07-24 | 2020-11-27 | 北京科技大学 | 一种中医专病临床辅助诊断装置 |
CN112992370A (zh) * | 2021-05-06 | 2021-06-18 | 四川大学华西医院 | 一种无监督的基于电子病历的医疗行为合规性评估方法 |
CN113707330A (zh) * | 2021-07-30 | 2021-11-26 | 电子科技大学 | 一种蒙医辨证模型的构建方法和系统、方法 |
CN113744886A (zh) * | 2020-05-27 | 2021-12-03 | 中国科学院软件研究所 | 一种基于中医医案挖掘的中医辨证论治模式挖掘方法及系统 |
CN116525100A (zh) * | 2023-04-26 | 2023-08-01 | 脉景(杭州)健康管理有限公司 | 一种基于标签系统的中医开方反向校验方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682411A (zh) * | 2016-12-22 | 2017-05-17 | 浙江大学 | 一种将体检诊断数据转化为疾病标签的方法 |
CN106803012A (zh) * | 2016-12-29 | 2017-06-06 | 杭州师范大学钱江学院 | 基于概率主题模型和中药基本属性的方剂功能预测方法 |
CN107887022A (zh) * | 2017-11-09 | 2018-04-06 | 淮阴工学院 | 一种基于sstm的中医证候智能诊断方法 |
CN109065157A (zh) * | 2018-08-01 | 2018-12-21 | 中国人民解放军第二军医大学 | 一种疾病诊断标准化编码推荐列表确定方法及系统 |
CN109102899A (zh) * | 2018-07-20 | 2018-12-28 | 四川好医生云医疗科技有限公司 | 基于机器学习与大数据的中医智能辅助系统及方法 |
CN109166619A (zh) * | 2018-07-20 | 2019-01-08 | 上海溯斋网络科技有限公司 | 基于神经网络算法的中医智能诊断辅助系统及方法 |
CN109830299A (zh) * | 2019-02-14 | 2019-05-31 | 南京大经中医药信息技术有限公司 | 一种基于人体模型的中医病机辨证方法、装置及存储介质 |
-
2019
- 2019-06-14 CN CN201910517329.8A patent/CN110335684A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682411A (zh) * | 2016-12-22 | 2017-05-17 | 浙江大学 | 一种将体检诊断数据转化为疾病标签的方法 |
CN106803012A (zh) * | 2016-12-29 | 2017-06-06 | 杭州师范大学钱江学院 | 基于概率主题模型和中药基本属性的方剂功能预测方法 |
CN107887022A (zh) * | 2017-11-09 | 2018-04-06 | 淮阴工学院 | 一种基于sstm的中医证候智能诊断方法 |
CN109102899A (zh) * | 2018-07-20 | 2018-12-28 | 四川好医生云医疗科技有限公司 | 基于机器学习与大数据的中医智能辅助系统及方法 |
CN109166619A (zh) * | 2018-07-20 | 2019-01-08 | 上海溯斋网络科技有限公司 | 基于神经网络算法的中医智能诊断辅助系统及方法 |
CN109065157A (zh) * | 2018-08-01 | 2018-12-21 | 中国人民解放军第二军医大学 | 一种疾病诊断标准化编码推荐列表确定方法及系统 |
CN109830299A (zh) * | 2019-02-14 | 2019-05-31 | 南京大经中医药信息技术有限公司 | 一种基于人体模型的中医病机辨证方法、装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
胡吉明: "《基于用户资源关联的社会化推荐研究》", 31 October 2017, 武汉大学出版社 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111177117B (zh) * | 2019-12-17 | 2023-06-16 | 山东中医药大学第二附属医院 | 一种中医医案数据处理方法 |
CN111177117A (zh) * | 2019-12-17 | 2020-05-19 | 山东中医药大学第二附属医院 | 一种中医医案数据处理方法 |
CN111128375A (zh) * | 2020-01-10 | 2020-05-08 | 电子科技大学 | 一种基于多标签学习的藏医诊断辅助装置 |
CN111128375B (zh) * | 2020-01-10 | 2021-11-02 | 电子科技大学 | 一种基于多标签学习的藏医诊断辅助装置 |
WO2021203694A1 (zh) * | 2020-04-07 | 2021-10-14 | 深圳华大基因科技服务有限公司 | 一种人类表型标准用语确定方法及相关设备 |
CN111159977B (zh) * | 2020-04-07 | 2020-09-08 | 深圳华大基因科技服务有限公司 | 一种人类表型标准用语确定方法及装置 |
CN111159977A (zh) * | 2020-04-07 | 2020-05-15 | 深圳华大基因科技服务有限公司 | 一种人类表型标准用语确定方法及装置 |
CN111477295A (zh) * | 2020-04-10 | 2020-07-31 | 电子科技大学 | 一种基于隐语义模型的中医组方推荐方法及系统 |
CN111477295B (zh) * | 2020-04-10 | 2022-06-03 | 电子科技大学 | 一种基于隐语义模型的中医组方推荐方法及系统 |
CN113744886A (zh) * | 2020-05-27 | 2021-12-03 | 中国科学院软件研究所 | 一种基于中医医案挖掘的中医辨证论治模式挖掘方法及系统 |
CN113744886B (zh) * | 2020-05-27 | 2024-03-19 | 中国科学院软件研究所 | 一种基于中医医案挖掘的中医辨证论治模式挖掘方法及系统 |
CN112002408A (zh) * | 2020-07-24 | 2020-11-27 | 北京科技大学 | 一种中医专病临床辅助诊断装置 |
CN112992370A (zh) * | 2021-05-06 | 2021-06-18 | 四川大学华西医院 | 一种无监督的基于电子病历的医疗行为合规性评估方法 |
CN112992370B (zh) * | 2021-05-06 | 2021-07-30 | 四川大学华西医院 | 一种无监督的基于电子病历的医疗行为合规性评估方法 |
CN113707330A (zh) * | 2021-07-30 | 2021-11-26 | 电子科技大学 | 一种蒙医辨证模型的构建方法和系统、方法 |
CN113707330B (zh) * | 2021-07-30 | 2023-04-28 | 电子科技大学 | 一种蒙医辨证模型的构建方法和蒙医辨证系统、方法 |
CN116525100A (zh) * | 2023-04-26 | 2023-08-01 | 脉景(杭州)健康管理有限公司 | 一种基于标签系统的中医开方反向校验方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110335684A (zh) | 基于主题模型技术的中医智能辨证辅助决策方法 | |
Hu et al. | Parallel deep learning algorithms with hybrid attention mechanism for image segmentation of lung tumors | |
Yao et al. | A topic modeling approach for traditional Chinese medicine prescriptions | |
CN110838368B (zh) | 一种基于中医临床知识图谱的主动问诊机器人 | |
CN108986912A (zh) | 基于深度学习的中医胃病舌像信息智能化处理方法 | |
CN109166619A (zh) | 基于神经网络算法的中医智能诊断辅助系统及方法 | |
CN113077873B (zh) | 一种中医临床决策支持系统及方法 | |
CN108877921A (zh) | 医疗智能分诊方法和医疗智能分诊系统 | |
CN109920535A (zh) | 一种移动中医辨证分析方法及装置 | |
CN109102899A (zh) | 基于机器学习与大数据的中医智能辅助系统及方法 | |
CN108986911A (zh) | 一种中医辩证论治数据处理方法 | |
CN109313937A (zh) | 基于云计算平台的中医脉象辅助诊断系统及方法 | |
Zhang et al. | Medical diagnosis data mining based on improved Apriori algorithm | |
CN113688255A (zh) | 一种基于中文电子病历的知识图谱构建方法 | |
CN109360658A (zh) | 一种基于词向量模型的疾病模式挖掘方法及装置 | |
Huang et al. | A traditional Chinese medicine syndrome classification model based on cross-feature generation by convolution neural network: model development and validation | |
Chen et al. | Syndrome differentiation and treatment algorithm model in traditional Chinese medicine based on disease cause, location, characteristics and conditions | |
Weng et al. | Multi-label symptom analysis and modeling of TCM diagnosis of hypertension | |
Li et al. | Current status of objectification of four diagnostic methods on constitution recognition of Chinese medicine | |
CN113066572B (zh) | 一种增强局部特征提取的中医辅助诊断系统及方法 | |
Wang et al. | Research on named entity recognition of doctor-patient question answering community based on bilstm-crf model | |
Wang et al. | Study on intelligent syndrome differentiation in Traditional Chinese Medicine based on multiple information fusion methods | |
CN109381188B (zh) | 基于经络能量平衡值的人体系统健康风险预测方法 | |
CN107145757A (zh) | 中医减肥决策支持系统及方法 | |
CN113241173B (zh) | 一种用于慢性阻塞性肺疾病的中医辅助诊疗方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191015 |
|
RJ01 | Rejection of invention patent application after publication |