CN116340480A - 一种基于文档主题生成模型的中医辨证系统及存储介质 - Google Patents
一种基于文档主题生成模型的中医辨证系统及存储介质 Download PDFInfo
- Publication number
- CN116340480A CN116340480A CN202310181606.9A CN202310181606A CN116340480A CN 116340480 A CN116340480 A CN 116340480A CN 202310181606 A CN202310181606 A CN 202310181606A CN 116340480 A CN116340480 A CN 116340480A
- Authority
- CN
- China
- Prior art keywords
- chinese medicine
- traditional chinese
- treatment
- information
- dialectical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000003814 drug Substances 0.000 title claims abstract description 102
- 238000003860 storage Methods 0.000 title claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 45
- 208000024891 symptom Diseases 0.000 claims abstract description 39
- 238000003745 diagnosis Methods 0.000 claims abstract description 26
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 230000008569 process Effects 0.000 claims abstract description 6
- 230000004069 differentiation Effects 0.000 claims description 19
- 208000011580 syndromic disease Diseases 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 11
- 230000003993 interaction Effects 0.000 claims description 8
- 238000012896 Statistical algorithm Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims 1
- 239000008280 blood Substances 0.000 description 16
- 210000004369 blood Anatomy 0.000 description 16
- 238000010586 diagram Methods 0.000 description 12
- 210000000582 semen Anatomy 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 5
- 230000007812 deficiency Effects 0.000 description 5
- 210000004185 liver Anatomy 0.000 description 5
- 208000020401 Depressive disease Diseases 0.000 description 4
- 206010013954 Dysphoria Diseases 0.000 description 4
- 206010062717 Increased upper airway secretion Diseases 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 239000011248 coating agent Substances 0.000 description 4
- 238000000576 coating method Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 208000026435 phlegm Diseases 0.000 description 4
- 206010011469 Crying Diseases 0.000 description 3
- 206010022998 Irritability Diseases 0.000 description 3
- 208000013738 Sleep Initiation and Maintenance disease Diseases 0.000 description 3
- 239000009752 danzhi xiaoyao Substances 0.000 description 3
- 230000003001 depressive effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 3
- 206010022437 insomnia Diseases 0.000 description 3
- 230000005906 menstruation Effects 0.000 description 3
- 230000001131 transforming effect Effects 0.000 description 3
- 244000247747 Coptis groenlandica Species 0.000 description 2
- 235000002991 Coptis groenlandica Nutrition 0.000 description 2
- 244000150195 Cyperus longus Species 0.000 description 2
- 235000018109 Cyperus longus Nutrition 0.000 description 2
- 206010012735 Diarrhoea Diseases 0.000 description 2
- 244000303040 Glycyrrhiza glabra Species 0.000 description 2
- 235000006200 Glycyrrhiza glabra Nutrition 0.000 description 2
- 208000002720 Malnutrition Diseases 0.000 description 2
- 244000236658 Paeonia lactiflora Species 0.000 description 2
- 235000008598 Paeonia lactiflora Nutrition 0.000 description 2
- 208000002193 Pain Diseases 0.000 description 2
- 235000017276 Salvia Nutrition 0.000 description 2
- 240000007164 Salvia officinalis Species 0.000 description 2
- 244000058416 Scirpus paludosus Species 0.000 description 2
- 235000005010 Scirpus paludosus Nutrition 0.000 description 2
- 241000157352 Uncaria Species 0.000 description 2
- 230000036528 appetite Effects 0.000 description 2
- 235000019789 appetite Nutrition 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000017531 blood circulation Effects 0.000 description 2
- 210000000038 chest Anatomy 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- LPLVUJXQOOQHMX-QWBHMCJMSA-N glycyrrhizinic acid Chemical compound O([C@@H]1[C@@H](O)[C@H](O)[C@H](O[C@@H]1O[C@@H]1C([C@H]2[C@]([C@@H]3[C@@]([C@@]4(CC[C@@]5(C)CC[C@@](C)(C[C@H]5C4=CC3=O)C(O)=O)C)(C)CC2)(C)CC1)(C)C)C(O)=O)[C@@H]1O[C@H](C(O)=O)[C@@H](O)[C@H](O)[C@H]1O LPLVUJXQOOQHMX-QWBHMCJMSA-N 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 235000011477 liquorice Nutrition 0.000 description 2
- 230000001071 malnutrition Effects 0.000 description 2
- 235000000824 malnutrition Nutrition 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 208000015380 nutritional deficiency disease Diseases 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008506 pathogenesis Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 210000002784 stomach Anatomy 0.000 description 2
- 230000002936 tranquilizing effect Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 230000004580 weight loss Effects 0.000 description 2
- 208000004998 Abdominal Pain Diseases 0.000 description 1
- 241001127714 Amomum Species 0.000 description 1
- 244000144730 Amygdalus persica Species 0.000 description 1
- 244000061520 Angelica archangelica Species 0.000 description 1
- 241000213006 Angelica dahurica Species 0.000 description 1
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 241000132012 Atractylodes Species 0.000 description 1
- 208000008035 Back Pain Diseases 0.000 description 1
- 241000202726 Bupleurum Species 0.000 description 1
- 244000236521 Bupleurum rotundifolium Species 0.000 description 1
- 235000015221 Bupleurum rotundifolium Nutrition 0.000 description 1
- 235000008671 Calycanthus floridus Nutrition 0.000 description 1
- 244000025311 Calycanthus occidentalis Species 0.000 description 1
- 235000008670 Calycanthus occidentalis Nutrition 0.000 description 1
- 244000020518 Carthamus tinctorius Species 0.000 description 1
- 235000003255 Carthamus tinctorius Nutrition 0.000 description 1
- 244000183685 Citrus aurantium Species 0.000 description 1
- 235000007716 Citrus aurantium Nutrition 0.000 description 1
- 241000675108 Citrus tangerina Species 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 241000218176 Corydalis Species 0.000 description 1
- 235000009917 Crataegus X brevipes Nutrition 0.000 description 1
- 235000013204 Crataegus X haemacarpa Nutrition 0.000 description 1
- 235000009685 Crataegus X maligna Nutrition 0.000 description 1
- 235000009444 Crataegus X rubrocarnea Nutrition 0.000 description 1
- 235000009486 Crataegus bullatus Nutrition 0.000 description 1
- 235000017181 Crataegus chrysocarpa Nutrition 0.000 description 1
- 235000009682 Crataegus limnophila Nutrition 0.000 description 1
- 240000000171 Crataegus monogyna Species 0.000 description 1
- 235000004423 Crataegus monogyna Nutrition 0.000 description 1
- 235000002313 Crataegus paludosa Nutrition 0.000 description 1
- 235000009840 Crataegus x incaedua Nutrition 0.000 description 1
- 235000003392 Curcuma domestica Nutrition 0.000 description 1
- 244000008991 Curcuma longa Species 0.000 description 1
- 206010012374 Depressed mood Diseases 0.000 description 1
- 208000005171 Dysmenorrhea Diseases 0.000 description 1
- 206010013935 Dysmenorrhoea Diseases 0.000 description 1
- 244000286838 Eclipta prostrata Species 0.000 description 1
- 206010015993 Eyelid oedema Diseases 0.000 description 1
- 244000111489 Gardenia augusta Species 0.000 description 1
- 235000018958 Gardenia augusta Nutrition 0.000 description 1
- 241000305492 Gastrodia Species 0.000 description 1
- 235000001287 Guettarda speciosa Nutrition 0.000 description 1
- 206010019233 Headaches Diseases 0.000 description 1
- 206010061245 Internal injury Diseases 0.000 description 1
- 241000212322 Levisticum officinale Species 0.000 description 1
- 241000830535 Ligustrum lucidum Species 0.000 description 1
- 235000004520 Lindera benzoin Nutrition 0.000 description 1
- 235000008262 Lindera benzoin var. benzoin Nutrition 0.000 description 1
- 208000008930 Low Back Pain Diseases 0.000 description 1
- 241001673966 Magnolia officinalis Species 0.000 description 1
- 206010026749 Mania Diseases 0.000 description 1
- 208000019255 Menstrual disease Diseases 0.000 description 1
- 208000037093 Menstruation Disturbances Diseases 0.000 description 1
- 206010027339 Menstruation irregular Diseases 0.000 description 1
- GXCLVBGFBYZDAG-UHFFFAOYSA-N N-[2-(1H-indol-3-yl)ethyl]-N-methylprop-2-en-1-amine Chemical compound CN(CCC1=CNC2=C1C=CC=C2)CC=C GXCLVBGFBYZDAG-UHFFFAOYSA-N 0.000 description 1
- 208000007117 Oral Ulcer Diseases 0.000 description 1
- 241000237502 Ostreidae Species 0.000 description 1
- 244000197580 Poria cocos Species 0.000 description 1
- 235000008599 Poria cocos Nutrition 0.000 description 1
- 235000006040 Prunus persica var persica Nutrition 0.000 description 1
- 206010067171 Regurgitation Diseases 0.000 description 1
- 208000009205 Tinnitus Diseases 0.000 description 1
- 241000301400 Trogopterus Species 0.000 description 1
- 240000008866 Ziziphus nummularia Species 0.000 description 1
- 208000019790 abdominal distention Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 208000022531 anorexia Diseases 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 208000002399 aphthous stomatitis Diseases 0.000 description 1
- 238000009411 base construction Methods 0.000 description 1
- 235000019658 bitter taste Nutrition 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 235000003373 curcuma longa Nutrition 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 206010061428 decreased appetite Diseases 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 210000003038 endothelium Anatomy 0.000 description 1
- 206010016256 fatigue Diseases 0.000 description 1
- 210000003608 fece Anatomy 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 210000000232 gallbladder Anatomy 0.000 description 1
- 231100000869 headache Toxicity 0.000 description 1
- 235000008216 herbs Nutrition 0.000 description 1
- 208000013403 hyperactivity Diseases 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 239000001645 levisticum officinale Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000010271 massa medicata fermentata Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000002175 menstrual effect Effects 0.000 description 1
- 201000003102 mental depression Diseases 0.000 description 1
- VYQNWZOUAUKGHI-UHFFFAOYSA-N monobenzone Chemical compound C1=CC(O)=CC=C1OCC1=CC=CC=C1 VYQNWZOUAUKGHI-UHFFFAOYSA-N 0.000 description 1
- 230000002969 morbid Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 235000020636 oyster Nutrition 0.000 description 1
- 230000001314 paroxysmal effect Effects 0.000 description 1
- 235000017924 poor diet Nutrition 0.000 description 1
- 239000000955 prescription drug Substances 0.000 description 1
- 208000037920 primary disease Diseases 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 208000020016 psychiatric disease Diseases 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 208000018316 severe headache Diseases 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000008961 swelling Effects 0.000 description 1
- 231100000886 tinnitus Toxicity 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 235000013976 turmeric Nutrition 0.000 description 1
- 238000010792 warming Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种基于文档主题生成模型的中医辨证系统及存储介质,其中基于文档主题生成模型的中医辨证系统包括:中医辨证论治数据采集模块、数据处理模块和人机交互设备,数据处理模块根据中医辨证论治数据获取相应的中医辨证论治结果,处理过程包括以下步骤:对获取的中医辨证论治数据进行预处理,中医辨证论治数据包括抑郁症患者的基本信息和症状信息;对预处理后的症状信息进行特征提取和标准化处理,得到对应的特征信息;将特征信息和预处理后的基本信息输入构建的抑郁症中医辩证论治的主题计算模型,得到相应的中医辨证论治结果,主题计算模型通过利用文档主题生成模型进行构建,并进行预训练后得到。
Description
技术领域
本申请涉及中医辨证的信息化技术领域,具体涉及一种基于文档主题生成模型的中医辨证系统及存储介质。
背景技术
抑郁症是以情绪抑郁为主,伴有一系列身体症状,表现为生命力低下的精神性疾病,即睡眠、食欲、性欲、社会适应能力等多方面的衰退。本病的起因是情志内伤、肝气郁结。故而,本病的发病和传变规律是初病在气,久病及血,累及五脏。临床上将本病分为气机郁滞、气滞血瘀、心肝血虚和痰气郁结等四种类型。一般来说,气机郁滞型多用丹栀逍遥散或癫狂梦醒汤加减;气滞血瘀型用膈下逐瘀汤加减;心肝血虚型用天王补心丹加减;痰气郁结型用十味温胆汤加减。治疗首重睡眠,次重饮食,再考虑其他症状。
但是,现实的实际情况往往比较复杂,经常会出现多种症状相互夹杂,需要辨证施治,才能达到最佳的治疗效果。中医辨证的信息化发展在20世纪90年代,以系统建模与知识库构建为思路的中医专家系统研究为主,但是现有的中医辨证的信息化系统性能不佳,无法囊括症状情况复杂的抑郁症辨证论治。
发明内容
本申请实施例的目的在于提供一种基于文档主题生成模型的中医辨证系统及存储介质,用以解决现有技术中的中医辨证的信息化系统性能不佳,无法囊括症状情况复杂的抑郁症辨证论治的问题。
为实现上述目的,本申请实施例提供一种基于文档主题生成模型的中医辨证系统,包括:中医辨证论治数据采集模块、数据处理模块和人机交互设备,
所述中医辨证论治数据采集模块用于采集包括抑郁症患者的基本信息和症状信息的中医辨证论治数据,并将所述中医辨证论治数据输入到所述数据处理模块;
所述人机交互设备包括输入设备和显示设备,所述输入设备用于输入控制指令到所述数据处理模块,所述显示设备接收并显示所述数据处理模块输出的中医辨证论治结果;
所述数据处理模块根据所述中医辨证论治数据获取相应的所述中医辨证论治结果,处理过程包括以下步骤:
对获取的所述中医辨证论治数据进行预处理,所述中医辨证论治数据包括抑郁症患者的所述基本信息和所述症状信息;
对预处理后的所述症状信息进行特征提取和标准化处理,得到对应的特征信息;
将所述特征信息和预处理后的所述基本信息输入构建的抑郁症中医辩证论治的主题计算模型,得到相应的所述中医辨证论治结果,
所述主题计算模型通过利用所述文档主题生成模型进行构建,并进行预训练后得到。
可选地,所述主题计算模型的构建方法包括:
构建中医辨证论治的案例库,所述案例库中存储有预处理后的所述中医辨证论治数据;
使用TF-IDF统计算法,评估计算获取所述案例库中的所述症状信息在中医辨证论治抑郁症的重要程度,基于所述重要程度的排名筛选出所述特征信息;
利用所述文档主题生成模型,基于所述案例库对应的所述特征信息和中医辨证论治属性信息,构建抑郁症中医辩证论治的所述主题计算模型,并进行预训练。
可选地,所述TF-IDF统计算法的评估计算步骤包括:
对所述案例库中的所述症状信息进行分词并去停用词处理,提取处理后的初始特征信息数据;
获取分词后的目标分词在所述案例库中的出现频率;
获取所述目标分词的逆向文本频率;
获取各个所述目标分词的加权值;
将各个所述目标分词的所述加权值按照从大到小排列,输出前预设数量个词语,即为所述特征信息。
可选地,所述出现频率的计算公式为:
其中,TF为所述出现频率,ti为所述目标分词,ni,j表示所述目标分词ti在所述案例库中出现的次数,∑knk,j表示所述案例库中所有词出现的次数总和。
可选地,获取所述逆向文本频率的公式为:
其中,IDF为所述逆向文本频率,dj为所述案例库中的文档,D为所述案例库中的所述文档的总数,|{j:ti∈dj}|表示包含所述目标分词ti的所述文档的数目。
可选地,获取所述加权值的公式为:TF-IDF=TF*IDF。
为实现上述目的,本申请还提供一种计算机存储介质,其上存储有计算机程序,其中所述计算机程序被机器执行时实现如上所述的方法的步骤。
本申请实施例具有如下优点:
本申请实施例提供一种基于文档主题生成模型的中医辨证系统,包括中医辨证论治数据采集模块、数据处理模块和人机交互设备,所述中医辨证论治数据采集模块用于采集包括抑郁症患者的基本信息和症状信息的中医辨证论治数据,并将所述中医辨证论治数据输入到所述数据处理模块;所述人机交互设备包括输入设备和显示设备,所述输入设备用于输入控制指令到所述数据处理模块,所述显示设备接收并显示所述数据处理模块输出的中医辨证论治结果;所述数据处理模块根据所述中医辨证论治数据获取相应的所述中医辨证论治结果,处理过程包括以下步骤:对获取的所述中医辨证论治数据进行预处理,所述中医辨证论治数据包括抑郁症患者的所述基本信息和所述症状信息;对预处理后的所述症状信息进行特征提取和标准化处理,得到对应的特征信息;将所述特征信息和预处理后的所述基本信息输入构建的抑郁症中医辩证论治的主题计算模型,得到相应的所述中医辨证论治结果,所述主题计算模型通过利用所述文档主题生成模型进行构建,并进行预训练后得到。
通过上述系统,可以提高中医辨证的信息化系统性能,帮助实现症状情况复杂的抑郁症辨证论治。
附图说明
为了更清楚地说明本申请的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本申请实施例提供的一种基于文档主题生成模型的中医辨证系统的示意图;
图2为本申请实施例提供的一种基于文档主题生成模型的中医辨证系统中数据处理模块的处理过程流程图。
具体实施方式
以下由特定的具体实施例说明本申请的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本申请的其他优点及功效,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
此外,下面所描述的本申请不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本申请一实施例提供一种基于文档主题生成模型的中医辨证系统,参考图1,图1为本申请的一实施方式中提供的一种基于文档主题生成模型的中医辨证系统的示意图,应当理解的是,该系统还可以包括未示出的附加框和/或可以省略所示出的框,本申请的范围在此方面不受限制。
系统包括中医辨证论治数据采集模块、数据处理模块和人机交互设备,
所述中医辨证论治数据采集模块用于采集包括抑郁症患者的基本信息和症状信息的中医辨证论治数据,并将所述中医辨证论治数据输入到所述数据处理模块;
所述人机交互设备包括输入设备和显示设备,所述输入设备用于输入控制指令到所述数据处理模块,所述显示设备接收并显示所述数据处理模块输出的中医辨证论治结果;
所述数据处理模块根据所述中医辨证论治数据获取相应的所述中医辨证论治结果,处理过程参考图2,包括以下步骤:
在步骤101处,对获取的所述中医辨证论治数据进行预处理,所述中医辨证论治数据包括抑郁症患者的所述基本信息和所述症状信息。
在步骤102处,对预处理后的所述症状信息进行特征提取和标准化处理,得到对应的特征信息。
在步骤103处,将所述特征信息和预处理后的所述基本信息输入构建的抑郁症中医辩证论治的主题计算模型,得到相应的所述中医辨证论治结果,
所述主题计算模型通过利用所述文档主题生成模型进行构建,并进行预训练后得到。
在一些实施例中,所述主题计算模型的构建方法包括:
构建中医辨证论治的案例库,所述案例库中存储有预处理后的所述中医辨证论治数据;
使用TF-IDF统计算法,评估计算获取所述案例库中的所述症状信息在中医辨证论治抑郁症的重要程度,基于所述重要程度的排名筛选出所述特征信息;
利用所述文档主题生成模型,基于所述案例库对应的所述特征信息和中医辨证论治属性信息,构建抑郁症中医辩证论治的所述主题计算模型,并进行预训练。
在一些实施例中,所述TF-IDF统计算法的评估计算步骤包括:
对所述案例库中的所述症状信息进行分词并去停用词处理,提取处理后的初始特征信息数据;
获取分词后的目标分词在所述案例库中的出现频率;
获取所述目标分词的逆向文本频率;
获取各个所述目标分词的加权值;
将各个所述目标分词的所述加权值按照从大到小排列,输出前预设数量个词语,即为所述特征信息。
在一些实施例中,所述出现频率的计算公式为:
其中,TF为所述出现频率,ti为所述目标分词,ni,j表示所述目标分词ti在所述案例库中出现的次数,∑knk,j表示所述案例库中所有词出现的次数总和。
在一些实施例中,获取所述逆向文本频率的公式为:
其中,IDF为所述逆向文本频率,dj为所述案例库中的文档,D为所述案例库中的所述文档的总数,|{j:ti∈dj}|表示包含所述目标分词ti的所述文档的数目。
在一些实施例中,获取所述加权值的公式为:TF-IDF=TF*IDF。
具体地,首先需要通过利用所述文档主题生成模型构建主题计算模型。构建的方法包括:
获取一定数量抑郁症患者中医辨证论治的信息和数据(信息和数据包括抑郁症患者基本信息和症状信息,统称为中医辨证论治数据),并进行预处理,构建抑郁症患者中医辨证论治的案例库和知识库。比如,1)魏某,女,17岁,高中生,在母亲陪同下初诊。因学习压力大,成绩不好,一年多前经某西医院确诊为抑郁症,治疗乏效。休学半年,自杀一次未遂。现精神抑郁,哭诉症状,阵发性剧烈头痛,痛如棒击,伴有耳鸣。失眠,近三昼夜仅睡2小时,对任何事物无兴趣,烦躁,易怒,哭闹,焦虑,惊恐不安,饮食不好,大便稀一日2至3次。月经正常,末次月经6月1日。体重减轻10余千克(原较胖,身高156厘米,体重65千克,现52千克左右)。查愁苦表情,体质尚可,舌胖淡暗青紫,有瘀斑,脉沉。证属气滞血瘀化火,神气亢浮于上,脑失所养。方用膈下逐瘀汤加减:桃仁12克,丹皮10克,赤白芍各12克,乌药12克,制元胡12克,当归20克,川芎10克,五灵脂12克,红花10克,丹参15克,郁金12克,枳实12克,香附12克,柴胡10克,青陈皮各12克,黄连3克,天麻30克,钩藤30克,煅龙牡各30克,酸枣仁30克,柏子仁30克,甘草6克,砂仁10克。7剂,水煎服。辅以语言开导;2)张某,女,25岁,半年前某西医院确诊为抑郁症,因担心西药有副作用,未服任何西药。不能上班,因失恋而致。现整天哭闹不休,疲乏,失眠,梦多,烦躁,易怒,自闭,无兴趣,不欲食,体重减轻。月经量多,经前腹痛,腰痛。末次月经4月8日。查体瘦(身高166厘米,体重40千克),面白,舌瘦尖红,苔白,脉细。证属气郁化火、心肝血虚,神失濡养。方用丹栀逍遥散加减:丹皮10克,栀子10克,柴胡6克,当归15克,白术10克,茯苓20克,赤白芍各10克,甘草6克,女贞子12克,旱莲草12克,合欢皮12克,郁金12克,酸枣仁20克,柏子仁20克,焦三仙(焦麦芽、焦山楂、焦神曲)各12克,香附12克,生牡蛎30克,太子参15克,砂仁10克,7剂,水煎服。辅以语言开导。
第一例患者以气滞血瘀为主,气郁化火,阳气亢浮于上,故用膈下逐瘀汤理气活血化瘀,加酸枣仁、柏子仁、丹参养血安神,煅龙牡重镇安神,黄连清心火,天麻、钩藤平肝火;第二例患者证属气郁化火、心肝血虚,神失濡养。方用丹栀逍遥散解郁清热,加女贞子、旱莲草、赤白芍养血,酸枣仁、柏子仁、合欢皮、莲子心等宁心安神,太子参、焦三仙、砂仁等健胃化食。
对上述案例库中的症状信息,包括各病例的分型、病因、病机、诱因、症状、主症、辅症、脉象、舌象以及法治、方药、方剂等,进行特征提取和标准化处理,分别得到对应的特征信息。主要使用TF-IDF统计算法,评估计算上述各病例的症状信息在中医辨证论治抑郁症的重要程度,该数值得分作为该属性对该中医辨证论治的重要程度衡量。TF-IDF方法的具体实施步骤包括:
对上述中医辨证论治抑郁症案例库进行分词并去停用词处理,提取处理后的中医辨证论治抑郁症的案例库的初始特征信息数据;
计算目标分词ti在上述中医辨证论治抑郁症案例库中出现的频率TF,其计算公式为:
其中,ni,j表示目标分词ti在上述中医辨证论治抑郁症案例库的文档dj中出现的次数,∑knk,j表示文档dj中所有词出现的次数总和;
计算目标分词ti的逆向文本频率IDF,其计算公式为:
其中,D表示上述中医辨证论治抑郁症案例库中的文档总数,|{j:ti∈dj}|表示包含所述目标分词ti的所述文档的数目;
计算各个目标分词的加权值,其计算公式为:
TF-IDF=TF*IDF
将各个目标分词的加权值按照从大到小排列,输出前T个词语,即为特征信息。
利用LDA主题模型,基于上述案例库对应的特征信息和抑郁症中医辨证论治属性信息,构建抑郁症中医辩证论治的主题计算模型,并进行预训练。LDA是一种文档主题生成模型,也称为三层贝叶斯概率模型,包含词、主题和文档三层结构。利用文档中单词的共现关系来对单词按主题聚类,得到“文档-主题”和“主题-单词”2个概率分布。LDA主题模型可以对文本数据进行建模,挖掘其中的隐主题信息实现特征降维,并对向量化的结果进行过滤去噪。LDA的核心公式:P(词|文档)=P(词|主题)P(主题|文档)即:
p(w|d)=p(w|t)*p(t|d),以Topic作为中间层,可以通过当前的θd和φt给出了文档d中出现单词w的概率。p(t|d)利用θd计算得到,p(w|t)利用φt计算得到。
LDA具体步骤:
(a)计算各个类的样本均值:
(b)计算样本总体均值:
(c)计算类间酸度矩阵和类内散度矩阵:
这个地方需要注意的是,分别求出每个类别样本的Sbi或者Swi后,在计算总体的Sb和Sw时需要做加权平均,因为每个类别中的样本数目可能是不一样的。
(d)LDA作为一个分类的算法,我们希望类内的聚合度高,即类内散度矩阵小,而类间散度矩阵大。这样的分类效果才好。因此引入Fisher鉴别准则表达式:
对应的最大特征值所对应的特征向量。即矩阵(inv(Sw)Sb)的特征向量。且最优投影轴的个数d<=C-1;
(e)所以,只要计算出矩阵inv(Sw)Sb的最大特征值对应的特征向量,该特征向量就是投影方向W。
主题计算模型构建完成后,获取抑郁症患者的特征信息和数据(包括数据库中的患者的基本信息),将其输入主题计算模型进行认知计算,得到抑郁症中医辩证论治的方法和结果。比如,如果为气机郁滞型抑郁症,此类患者病情较轻,尚处于气分阶段。常表现为精神抑郁,情绪不安,失眠多梦,饮食不佳,咽喉不适,胸胁不舒,大便干稀不调,或妇女经前乳房胀痛,月经不调,痛经等,苔薄白或腻,脉弦。若气郁的症状明显,气机升降出入失常,并有影响水分、血分的趋势,如心情抑郁,胸胁苦闷胀满,有痰,善太息,莫名烦躁,眼睑浮肿,舌暗红,苔白厚,脉弦滑。可用王清任的癫狂梦醒汤(桃仁、香附、青皮、醋柴胡、半夏、木通、陈皮、大腹皮、桑白皮、苏子、赤芍、甘草)加减,以理气化痰活血。若肝气郁结较甚,气郁化火,火郁的症状明显,伴见头痛、易怒,易口腔溃疡,大便干,舌红干,苔少或黄等,可用丹栀逍遥散加减。在基本方的基础上,常加酸枣仁、柏子仁以养血安神,加合欢皮、夜交藤等疏肝解郁,改善患者睡眠;若见食少纳差,加山药、白术、焦三仙、鸡内金;腹胀加木香、砂仁、厚朴;烦躁不安加煅龙牡;情绪抑郁甚者,少加薄荷;胃热口苦、反酸可少加黄连、龙胆草;肾虚者,加菟丝子、肉桂等;妇女月经不调者,加四物汤等调经养血之品。
本申请可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本申请的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本申请的各个方面。
这里参照根据本申请实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
注意,除非另有直接说明,否则本说明书(包含任何所附权利要求、摘要和附图)中所揭示的所有特征皆可由用于达到相同、等效或类似目的的可替代特征来替换。因此,除非另有明确说明,否则所公开的每一个特征仅是一组等效或类似特征的一个示例。在使用到的情况下,进一步地、较优地、更进一步地和更优地是在前述实施例基础上进行另一实施例阐述的简单起头,该进一步地、较优地、更进一步地或更优地后带的内容与前述实施例的结合作为另一实施例的完整构成。在同一实施例后带的若干个进一步地、较优地、更进一步地或更优地设置之间可任意组合的组成又一实施例。
虽然,上文中已经用一般性说明及具体实施例对本申请作了详尽的描述,但在本申请基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本申请精神的基础上所做的这些修改或改进,均属于本申请要求保护的范围。
Claims (7)
1.一种基于文档主题生成模型的中医辨证系统,其特征在于,包括中医辨证论治数据采集模块、数据处理模块和人机交互设备,
所述中医辨证论治数据采集模块用于采集包括抑郁症患者的基本信息和症状信息的中医辨证论治数据,并将所述中医辨证论治数据输入到所述数据处理模块;
所述人机交互设备包括输入设备和显示设备,所述输入设备用于输入控制指令到所述数据处理模块,所述显示设备接收并显示所述数据处理模块输出的中医辨证论治结果;
所述数据处理模块根据所述中医辨证论治数据获取相应的所述中医辨证论治结果,处理过程包括以下步骤:
对获取的所述中医辨证论治数据进行预处理,所述中医辨证论治数据包括抑郁症患者的所述基本信息和所述症状信息;
对预处理后的所述症状信息进行特征提取和标准化处理,得到对应的特征信息;
将所述特征信息和预处理后的所述基本信息输入构建的抑郁症中医辩证论治的主题计算模型,得到相应的所述中医辨证论治结果,
所述主题计算模型通过利用所述文档主题生成模型进行构建,并进行预训练后得到。
2.根据权利要求1所述的基于文档主题生成模型的中医辨证系统,其特征在于,所述主题计算模型的构建方法包括:
构建中医辨证论治的案例库,所述案例库中存储有预处理后的所述中医辨证论治数据;
使用TF-IDF统计算法,评估计算获取所述案例库中的所述症状信息在中医辨证论治抑郁症的重要程度,基于所述重要程度的排名筛选出所述特征信息;
利用所述文档主题生成模型,基于所述案例库对应的所述特征信息和中医辨证论治属性信息,构建抑郁症中医辩证论治的所述主题计算模型,并进行预训练。
3.根据权利要求2所述的基于文档主题生成模型的中医辨证系统,其特征在于,所述TF-IDF统计算法的评估计算步骤包括:
对所述案例库中的所述症状信息进行分词并去停用词处理,提取处理后的初始特征信息数据;
获取分词后的目标分词在所述案例库中的出现频率;
获取所述目标分词的逆向文本频率;
获取各个所述目标分词的加权值;
将各个所述目标分词的所述加权值按照从大到小排列,输出前预设数量个词语,即为所述特征信息。
6.根据权利要求3所述的基于文档主题生成模型的中医辨证系统,其特征在于,
获取所述加权值的公式为:TF-IDF=TF*IDF。
7.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被机器执行时实现如权利要求1至6中任一项所包括的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310181606.9A CN116340480A (zh) | 2023-02-27 | 2023-02-27 | 一种基于文档主题生成模型的中医辨证系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310181606.9A CN116340480A (zh) | 2023-02-27 | 2023-02-27 | 一种基于文档主题生成模型的中医辨证系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116340480A true CN116340480A (zh) | 2023-06-27 |
Family
ID=86893907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310181606.9A Pending CN116340480A (zh) | 2023-02-27 | 2023-02-27 | 一种基于文档主题生成模型的中医辨证系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116340480A (zh) |
-
2023
- 2023-02-27 CN CN202310181606.9A patent/CN116340480A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yao et al. | A topic modeling approach for traditional Chinese medicine prescriptions | |
CN106803012B (zh) | 基于概率主题模型和中药基本属性的方剂功能预测方法 | |
Dou et al. | Syndrome differentiation and treatment regularity in traditional Chinese medicine for type 2 diabetes: a text mining analysis | |
CN112289441B (zh) | 一种基于多模态的医学生物特征信息匹配系统 | |
CN112992378B (zh) | 一种多维度中药方剂推荐方法和推荐系统 | |
CN110289106B (zh) | 一种从中药复方中分析功效对应中药及其药性配伍关系的方法 | |
CN109326350A (zh) | 脑梗死临床诊疗系统 | |
Jiang et al. | Using link topic model to analyze traditional Chinese medicine clinical symptom-herb regularities | |
CN106709520B (zh) | 一种基于主题模型的医案分类方法 | |
Hu et al. | An analysis model of diagnosis and treatment for COVID-19 pandemic based on medical information fusion | |
CN108460132B (zh) | 基于中药学理论的中药材属性特征编码及检索系统 | |
CN116340480A (zh) | 一种基于文档主题生成模型的中医辨证系统及存储介质 | |
CN109346180A (zh) | 中医方剂君臣佐使训练识别方法及系统 | |
Yang et al. | Understanding traditional Chinese medicine via statistical learning of expert‐specific Electronic Medical Records | |
Qin et al. | A traditional Chinese medicine prescription recommendation method based on mutual information clustering | |
Wei et al. | Summarizing professor Chen Ruquan's therapeutic experience of thyroid disease based on machine learning | |
Xin-Di et al. | Research on herb pairs of classical formulae of ZHANG Zhong-Jing using big data technology | |
Gao et al. | Analysis of Professor Lei Zhang’s Medical Records of Banxia XieXin Decoction Analogous Prescriptions Based on Principle of attribute partial ordering | |
Hu et al. | Research on the modern clinical herbal administration rules in TCM treatment of ovarian cysts based on data mining | |
Zhao et al. | Analysis on Medication Rules of Guide to Clinical Medical Records from the Prescriptions Containing Poria Cocos Based on Data Mining | |
Liu et al. | Analysis on medication rules of traditional chinese medicine for postpartum abdominal pain | |
Liu et al. | Study on Zhang Yunlings medication law in treating vertigo based on data mining. | |
Zhang et al. | Research Article Analysis of Prescription Medication Rules of Traditional Chinese Medicine for Diabetes Treatment Based on Data Mining | |
CN112541084A (zh) | 知识图谱构建系统 | |
Yang et al. | RESEARCH ARTICLE Understanding traditional Chinese medicine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |