CN113593697A - 一种基于呼吸气味判断疾病的系统、设备及介质 - Google Patents
一种基于呼吸气味判断疾病的系统、设备及介质 Download PDFInfo
- Publication number
- CN113593697A CN113593697A CN202110876867.3A CN202110876867A CN113593697A CN 113593697 A CN113593697 A CN 113593697A CN 202110876867 A CN202110876867 A CN 202110876867A CN 113593697 A CN113593697 A CN 113593697A
- Authority
- CN
- China
- Prior art keywords
- disease
- odor
- breath
- model
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Probability & Statistics with Applications (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明提出了一种基于呼吸气味判断疾病的系统、设备及介质,通过呼吸气味数据采集单元收集被检者的呼吸气味,呼吸气味包括口气和鼻气,对应疾病采集单元收集与呼吸气味数据对应的疾病名称,结合改进CART决策树模型与支持向量机模型构成呼吸气味疾病筛查模型,对采集的呼吸气味进行疾病筛查,呼吸气味筛查单元根据筛查结果,向被检者推荐被检者可能患有的疾病或可能存在的健康问题以及个性化健康管理方案。本发明通过结合改进CART决策树模型与支持向量机模型构成呼吸气味疾病筛查模型,对被检者的呼吸气味进行对应疾病进行筛查,实现了仅通过检测呼吸气味就能判断用户患有何种疾病或者存在何种健康问题。
Description
技术领域
本发明涉及疾病诊断领域,尤其涉及一种基于呼吸气味判断疾病的系统、设备及介质。
背景技术
现代科学已经证明了不少疾病能够“产生”一些独特气味的分子。比如,患有龋齿、牙龈炎、牙周炎、口腔粘膜炎以及蛀牙、牙周病等口腔疾病的人,其口腔内容易滋生细菌,尤其是厌氧菌,其分解产生出了硫化物,发出腐败的味道,而产生口臭;消化性溃疡、慢性胃炎、功能性消化不良等患者,都可能伴有口臭等。研究表明,一些疾病所发出的特殊气味,如果能够通过对其进行检测,医生可以及时发现疾病并对其采取医学干预。
而当前还没有一个普遍适用的方法,能够仅通过检测呼吸气味就能判断用户患有何种疾病或者存在何种健康问题。基于此,本发明提供了一种基于呼吸气味判断疾病的系统、设备及介质,通过对呼吸气味数据与对应疾病的采集和自然语言处理,构建呼吸气味与疾病对应的属性向量集合,利用决策树算法模型进行计算和评估,根据评估结果和被检者的基本信息,推荐可能的疾病和健康问题以及个性化健康管理方案。
发明内容
有鉴于此,本发明提出了一种基于呼吸气味判断疾病的系统、设备及介质,用于解决仅通过检测呼吸气味就能判断用户患有何种疾病的问题。
本发明的技术方案是这样实现的:
本发明第一方面,公开一种基于呼吸气味判断疾病的系统,所述系统包括:
呼吸气味数据采集单元:用于收集被检者的呼吸气味,呼吸气味包括口气和鼻气;并且对收集得到的异常呼吸气味数据进行汇总,构成异常呼吸气味特征属性向量;
对应疾病采集单元:用于收集与呼吸气味数据对应的疾病名称,构成异常呼吸气味特征属性向量与对应的疾病名称的疾病信息集合;
呼吸气味疾病筛查模型:根据改进CART决策树模型以及支持向量机模型生成呼吸气味疾病筛查模型,用以对待识别呼吸气味进行对应疾病的筛查;
呼吸气味疾病筛查单元:通过呼吸气味疾病筛查模型对待识别呼吸气味进行对应疾病的筛查,并根据筛查结果推荐被检者可能患有的疾病和健康问题以及个性化健康管理方案。
本发明通过上述系统,实现仅通过检测呼吸气味就能判断用户患有何种疾病或者存在何种健康问题。
在以上技术方案的基础上,优选的,呼吸气味数据采集单元具体包括:
口气数据采集子单元:用于收集被检者的口气数据并对被检者口气样本数据进行归一化处理,建立异常口气样本数据库;
鼻气数据采集子单元:用于收集被检者的鼻气数据并对被检者鼻气样本数据进行归一化处理,建立异常鼻气样本数据库。
本发明通过上述子单元,采集不同呼吸气味数据,并建立异常口气样本数据库和异常鼻气样本数据库,和疾病信息集合一起用以训练呼吸气味疾病筛查模型。
在以上技术方案的基础上,优选的,呼吸气味疾病筛查模型具体包括以下功能单元:
基于改进CART决策树模型的疾病分类单元:将疾病名称表示为因变量,异常呼吸气味特征属性向量表示为自变量,以异常口气样本数据库、异常鼻气样本数据库以及疾病信息集合为训练样本,对训练样本通过递归分割的方式建立改进CART决策树模型;并且通过所述改进CART决策树模型计算出在输出疾病类别为Yk时,对异常呼吸气味特征属性向量Z的后验概率;
基于支持向量机模型的疾病分类单元:将疾病名称设定为支持向量机模型的N个类,将异常呼吸气味特征属性向量设定为支持向量机模型样本,通过支持向量机模型计算得到Pi,i=1,2,…,N,Pi为任一样本x属于N个类的后验概率;
模型组合单元:用于将改进CART决策树模型与支持向量机模型结合得到最终分类输出结果。
本发明通过上述功能单元,通过基于改进CART决策树模型的疾病分类单元和基于支持向量机模型的疾病分类单元分别计算出某一异常呼吸气味特征属性向量对应不同疾病类别的后验概率,并将上述两个模型结合,得到更为精确的分类输出结果。
在以上技术方案的基础上,优选的,基于改进CART决策树模型的疾病分类单元具体包括以下功能单元:
根节点创建单元:用于创建根节点;
系数计算单元:用于计算根节点中全部训练样本的Gini系数G;
阈值计算单元:用于阈值计算,指定某一异常呼吸气味特征属性向量α为划分特征;设定异常呼吸气味特征属性向量α的分割阈值,将训练样本分成两组,计算划分后的Gini系数G’,求出划分前后的Gini系数减少量ΔG=G-G’;求解异常呼吸气味特征属性向量α的所有可能分割阈值对应的Gini系数减少量;对不同分割阈值对应的Gini系数减少量进行比较,得到最大减少量GB划分阈值及其相应的最大减少量GB,则最大减少量GB所对应的分割阈值αB即为该Gini系数的最佳分割阈值;
最佳划分单元:用于重复阈值计算单元,针对根节点中每一个异常呼吸气味特征属性向量,分别计算得到最佳划分阈值及其相应的最大减少量GB,比较各个最大减少量GB,得到最大减少量GB的最大值即max(GB),则max(GB)对应的异常呼吸气味特征属性向量为最佳划分异常呼吸气味特征属性向量,对应的分割阈值为最佳划分阈值;
节点判断单元:用于判断划分后的节点是否为叶节点,若不是,以该节点为子树的根节点,重新代入到系数计算单元、阈值计算单元以及最佳划分单元中进行计算,若是,判断此时所有节点是否均达到叶节点,当所有节点均达到叶节点时决策树生长完成。
本发明通过上述功能单元,对训练样本通过递归分割的方式建立改进CART决策树模型。为了避免决策树过于庞大导致对噪声数据出现过拟合,对样本的分类准确度降低,模型的可解释性变差等情况,定义了综合考虑分类模型精度和复杂度的最优树评价指标,用以选择出最佳的CART决策树后剪枝方式,得到综合性能最优的决策树分类模型。
在以上技术方案的基础上,优选的,基于支持向量机模型的疾病分类单元中,支持向量机模型得到的样本x属于N个类的后验概率Pi的计算方程组为:
其中,N为疾病名称类别总数,i,j=1,2,…,N,Pi为异常呼吸气味特征属性向量中任一样本x属于第i个类别的后验概率;P(i|j)与P(j|i)分别表示为在由第i类和第j类构成的两类分类器中,所述样本x属于第i类和第j类的条件后验概率;
通过计算方程组得到的结果的集合即为支持向量机模型输出的后验概率P(Yk|Z)SVM;Z表示异常呼吸气味特征属性向量,Yk表示支持向量机模型输出的第k个疾病类别。
本发明通过上述计算方程组,采用线性最小二乘问题求其最小二乘解,从而得到任一样本x属于第i个类别的后验概率,i=1,2,…,N,该方法不仅使支持向量机的分类精度得到了提高,还提供了样本属于所在类中的可信程度。
在以上技术方案的基础上,优选的,模型组合单元具体用于:
分别统计CART决策树模型和支持向量机模型在训练过程中分类正确的训练样本个数,除以训练样本总数即为两算法的分类准确度ACART和ASVM,进而计算计CART决策树模型分别对各类异常呼吸气味特征属性向量的训练准确度β(k),k=1,2,…,m,m为全部的疾病类别总数;定义CART决策树模型在输出疾病类别为Yk时,对异常呼吸气味特征属性向量Z的后验概率为:
将其与支持向量机模型输出的后验概率P(Yk|Z)SVM加权综合,得到:
此时,得到的最大概率所对应的疾病名称即为最终的分类输出结果,其中Z为异常呼吸气味特征属性向量Z=(Z1,Z2,…,Zn)。
本发明通过将CART决策树和贝叶斯的后验概率加权综合的方法对两算法的分类结果进行融合,最大化的提高了模型分类精度和可解释性,提高了通过识别呼吸气味得到对应疾病的准确率。
本发明第二方面,公开一种电子设备,所述设备包括:至少一个处理器、至少一个存储器、通信接口和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互问的通信;所述存储器存储有可被所述处理器执行的一种基于呼吸气味判断疾病的系统程序,一种基于呼吸气味判断疾病的系统程序配置为实现如本发明第一方面所述的一种基于呼吸气味判断疾病的系统。
本发明第三方面,公开一种计算机可读存储介质,所述存储介质上存储有一种基于呼吸气味判断疾病的系统程序,所述一种基于呼吸气味判断疾病的系统程序被执行时实现如本发明第一方面所述的一种基于呼吸气味判断疾病的系统。
本发明的一种基于呼吸气味判断疾病的系统、设备及介质相对于现有技术具有以下有益效果:
(1)基于支持向量机模型对疾病分类不仅使支持向量机的分类精度得到了提高,还提供了样本属于所在类中的可信程度。
(2)结合改进CART决策树模型和支持向量机模型对两模型的分类结果进行融合,最大化的提高了模型分类精度和可解释性,提高了通过识别呼吸气味得到对应疾病的准确率。
(3)呼吸气味疾病筛查单元根据筛查结果推荐被检者可能患有的疾病和健康问题以及个性化健康管理方案,有助于被检者及时预防疾病或者治疗疾病。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于呼吸气味判断疾病的系统单元结构图。
图2为本发明一种基于呼吸气味判断疾病的系统工作流程图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
实施例
本发明一种基于呼吸气味判断疾病的系统单元结构见图1,处理过程说明如下:
第一步:呼吸气味数据采集单元中口气数据采集子单元和鼻气数据采集单元,分别采集被检者的口气和鼻气,并进行归一化处理,建立异常口气样本数据库和异常鼻气样本数据库。
比如:口中呼出的气味为腐臭气、腥臭气,口中呼出的气味为满屋子灰尘气味,口中呼出的气味中有特殊的尿臭或氨的气味,口中呼出的气味类似于臭鸡蛋气味等;鼻子呼出的气味腥臭,鼻子呼出的气味带酸馊味,鼻子呼出的气味带有烂苹果的气味,鼻子呼出的气体带有尿臊气味,鼻子呼吸气味中有浓列的酒味,鼻子呼出的气味中有刺激性的蒜味,鼻子呼出的气味中有肝臭的特殊性鼠臭味,鼻子呼出的气味散发出氨气味等。转第二步。
第二步,呼吸气味数据采集单元对收集得到的异常呼吸气味数据进行汇总,构成异常呼吸气味特征属性向量。
具体方法为:通过上述分别对异常呼吸气味进行分词处理和标注,在通过密集采样得到多个特征点之后,进一步对各特征点依据其特点进行相应的表达,以得到特征点的属性信息,例如鼻气、氨气气味、口气、臭鸡蛋气味等,然后通过对这些特征点的描述信息进行聚类,可以使得多个类似的描述信息被聚类到一个词条中,并且从所有特征点的所有描述信息中聚类得到多个词条,以组成异常呼吸气味特征属性向量。转第三步。
第三步,对应疾病采集单元收集与呼吸气味数据对应的疾病名称,构成异常呼吸气味特征属性向量与对应的疾病名称构成的疾病信息集合。
比如:鼻气--烂苹果气味--糖尿病;鼻气--尿臊气味--脾肾虚弱导致的水肿;鼻气--浓列的酒味--酒精中毒;鼻气--刺激性的蒜味--有机磷农药中毒;鼻气--令人恶心的甜味或烂苹果味--糖尿病或酮症酸中毒;口气--苦杏仁气味--氰化物中毒;口气--粪臭气味--急性腹膜炎和肠梗阻患者;口气--又酸又臭味道--消化不良的问题;口气--甜臭气味--糖尿病足患者等。转第四步。
第四步,对呼吸气味疾病筛查模型进行训练,分别将样本输入到改进CART决策树模型和支持向量机模型进行训练。
其中,对改进CART决策树模型进行训练过程如下所述:
将所述疾病名称表示为因变量,所述异常呼吸气味特征属性向量表示为自变量,以所述异常口气样本数据库、异常鼻气样本数据库以及疾病信息集合为训练样本,对训练样本通过递归分割的方式建立改进CART决策树模型。
训练步骤如下:
S1:创建根节点,继续执行步骤S2;
S2:计算根节点中全部训练样本的Gini系数G,继续执行步骤S3;
S3:指定某一异常呼吸气味特征属性向量α为划分特征;设定异常呼吸气味特征属性向量α的分割阈值,将训练样本分成两组,计算划分后的Gini系数G’,求出划分前后的Gini系数减少量ΔG=G-G’;求解异常呼吸气味特征属性向量α的所有可能分割阈值对应的Gini系数减少量;对不同分割阈值对应的Gini系数减少量进行比较,得到最大减少量GB划分阈值及其相应的最大减少量GB,则最大减少量GB所对应的分割阈值αB即为该Gini系数的最佳分割阈值;,继续执行步骤S4;
S4:重复步骤S3,针对根节点中每一个异常呼吸气味特征属性向量,分别计算得到最佳划分阈值及其相应的最大减少量GB,比较各个最大减少量GB,得到最大减少量GB的最大值即max(GB),则max(GB)对应的异常呼吸气味特征属性向量为最佳划分异常呼吸气味特征属性向量,对应的分割阈值为最佳划分阈值;,继续执行步骤S5;
S5:用于判断划分后的节点是否为叶节点,若不是,以该节点为子树的根节点,重新代入到步骤S2~S4中进行计算,若是,判断此时所有节点是否均达到叶节点,当所有节点均达到叶节点时决策树生长完成。
对训练样本通过递归分割的方式建立改进CART决策树模型。为了避免决策树过于庞大导致对噪声数据出现过拟合,对样本的分类准确度降低,模型的可解释性变差等情况,定义了综合考虑分类模型精度和复杂度的最优树评价指标,用以选择出最佳的CART决策树后剪枝方式,得到综合性能最优的决策树分类模型。
其中,对支持向量机模型进行训练过程如下所述:
由于各两类分类器中样本以及样本的分布情况不一样,在统计每个两类支持向量机分类器中,样本属于某类的后验概率之和时,需要考虑各个两类支持向量机分类器之间的差异。本发明在对多个两类支持向量机分类器的输出概率进行组合时,充分考虑各个两类支持向量机分类器的差异,并采用另一类(第j类)样本的后验概率作为各个两类支持向量机分类器的权系数。则测试样本属于第i类的最终后验概率为:
其中Piaj(i|j;x)表示由第i类和第j类构成的两类支持向量机模型分类器,计算得到的x属于第i类的后验概率,简记Pi=(i|j;x),Pj=(j|x),P(i|j)=Piaj(i|j,x)。
将上述公式简化,设定计算样本x属于N个类的后验概率Pi的计算方程组为:
其中,N为疾病名称类别总数,i,j=1,2,…,N,P_i为异常呼吸气味特征属性向量中任一样本x属于第i个类别的后验概率;P(i|j)与P(j|i)分别表示为在由第i类和第j类构成的两类分类器中,所述样本x属于第i类和第j类的条件后验概率;
通过计算方程组得到的结果的集合即为支持向量机模型输出的后验概率P(Yt|Z)SVM;Z表示异常呼吸气味特征属性向量,Yk表示支持向量机模型输出的第k个疾病类别。
支持向量机模型在对多个两类支持向量机分类器的输出概率进行组合时,充分考虑各个两类支持向量机分类器的差异,并采用另一类(第j类)样本的后验概率作为各个两类支持向量机分类器的权系数,不仅具有更好的分类精度,还具有更好的概率分布形式,主要表现在样本确定的类中具有较高的概率,而在其他类中的概率相对较低,这种概率分布有利于解决当样本属于各类的概率出现相同时不易确定样本类别的问题。该方法不仅使支持向量机的分类精度得到了提高,还提供了样本属于所在类中的可信程度。转第五步。
第五步,呼吸气味疾病筛查模型中模型组合单元对CART决策树模型和支持向量机模型的训练结果进行处理,得到最终的分类输出结果。
分别统计CART决策树模型和支持向量机模型在训练过程中分类正确的训练样本个数,除以训练样本总数即为两算法的分类准确度ACART和ASVM,进而计算计改进CART决策树模型分别对各类异常呼吸气味特征属性向量的训练准确度β(k),k=1,2,…,m,m为全部的疾病类别总数;定义改进CART决策树模型在输出疾病类别为Yk时,对异常呼吸气味特征属性向量Z的后验概率为:
将其与支持向量机模型输出的后验概率P(Yk|Z)SVM加权综合,得到:
此时,得到的最大概率所对应的疾病名称即为最终的分类输出结果,其中Z为异常呼吸气味特征属性向量Z=(Z1,Z2,…,Zn)。
本发明结合改进CART决策树模型和支持向量机模型,对两模型的分类结果进行融合,最大化的提高了模型分类精度和可解释性,提高了通过识别呼吸气味得到对应疾病的准确率。转第六步。
第六步,呼吸气味疾病筛查单元通过呼吸气味疾病筛查模型对待识别呼吸气味进行对应疾病的筛查,并根据筛查结果推荐被检者可能患有的疾病和健康问题以及个性化健康管理方案。
本发明通过结合改进CART决策树模型与支持向量机模型构成呼吸气味疾病筛查模型,对被检者的呼吸气味进行对应疾病进行筛查,实现了仅通过检测呼吸气味就能判断用户患有何种疾病或者存在何种健康问题,并且根据筛查结果推荐被检者可能患有的疾病和健康问题以及个性化健康管理方案,有助于被检者及时预防疾病或者治疗疾病。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于呼吸气味判断疾病的系统,其特征在于包括:
呼吸气味数据采集单元:用于收集被检者的呼吸气味,所述呼吸气味包括口气和鼻气;并且对收集得到的异常呼吸气味数据进行汇总,构成异常呼吸气味特征属性向量;
对应疾病采集单元:用于收集与呼吸气味数据对应的疾病名称,构成异常呼吸气味特征属性向量与对应的疾病名称的疾病信息集合;
呼吸气味疾病筛查模型:根据改进CART决策树模型以及支持向量机模型生成呼吸气味疾病筛查模型,用以对待识别呼吸气味进行对应疾病的筛查;
呼吸气味疾病筛查单元:通过呼吸气味疾病筛查模型对待识别呼吸气味进行对应疾病的筛查,并根据筛查结果推荐被检者可能患有的疾病和健康问题以及个性化健康管理方案。
2.如权利要求1所述的一种基于呼吸气味判断疾病的系统,其特征在于,所述呼吸气味数据采集单元具体包括:
口气数据采集子单元:用于收集被检者的口气数据并对被检者口气样本数据进行归一化处理,建立异常口气样本数据库;
鼻气数据采集子单元:用于收集被检者的鼻气数据并对被检者鼻气样本数据进行归一化处理,建立异常鼻气样本数据库。
3.如权利要求1所述的一种基于呼吸气味判断疾病的系统,其特征在于,所述呼吸气味疾病筛查模型具体包括以下功能单元:
基于改进CART决策树模型的疾病分类单元:将所述疾病名称表示为因变量,所述异常呼吸气味特征属性向量表示为自变量,以所述异常口气样本数据库、异常鼻气样本数据库以及疾病信息集合为训练样本,对训练样本通过递归分割的方式建立改进CART决策树模型;并且通过所述改进CART决策树模型计算出在输出疾病类别为Yk时,对异常呼吸气味特征属性向量Z的后验概率;
基于支持向量机模型的疾病分类单元:将疾病名称设定为支持向量机模型的N个类,将所述异常呼吸气味特征属性向量设定为支持向量机模型样本,通过支持向量机模型计算得到Pi,i=1,2,…,N,Pi为任一样本x属于N个类的后验概率;
模型组合单元:用于将改进CART决策树模型与支持向量机模型结合得到最终分类输出结果。
4.如权利要求3所述的一种基于呼吸气味判断疾病的系统,其特征在于,所述基于改进CART决策树模型的疾病分类单元具体包括如下功能单元:
根节点创建单元:用于创建根节点;
系数计算单元:用于计算根节点中全部训练样本的Gini系数G;
阈值计算单元:用于阈值计算,指定某一异常呼吸气味特征属性向量α为划分特征;设定异常呼吸气味特征属性向量α的分割阈值,将训练样本分成两组,计算划分后的Gini系数G’,求出划分前后的Gini系数减少量ΔG=G-G’;求解异常呼吸气味特征属性向量α的所有可能分割阈值对应的Gini系数减少量;对不同分割阈值对应的Gini系数减少量进行比较,得到最大减少量GB划分阈值及其相应的最大减少量GB,则最大减少量GB所对应的分割阈值αB即为该Gini系数的最佳分割阈值;
最佳划分单元:用于重复阈值计算单元,针对根节点中每一个异常呼吸气味特征属性向量,分别计算得到最佳划分阈值及其相应的最大减少量GB,比较各个最大减少量GB,得到最大减少量GB的最大值即max(GB),则max(GB)对应的异常呼吸气味特征属性向量为最佳划分异常呼吸气味特征属性向量,对应的分割阈值为最佳划分阈值;
节点判断单元:用于判断划分后的节点是否为叶节点,若不是,以该节点为子树的根节点,重新代入到系数计算单元、阈值计算单元以及最佳划分单元中进行计算,若是,判断此时所有节点是否均达到叶节点,当所有节点均达到叶节点时决策树生长完成。
6.如权利要求5所述的一种基于呼吸气味判断疾病的系统,其特征在于,所述模型组合单元具体用于:
分别统计CART决策树模型和支持向量机模型在训练过程中分类正确的训练样本个数,除以训练样本总数即为两算法的分类准确度ACART和ASVM,进而计算计改进CART决策树模型分别对各类异常呼吸气味特征属性向量的训练准确度β(k),k=1,2,…,m,m为全部的疾病类别总数;定义改进CART决策树模型在输出疾病类别为Yk时,对异常呼吸气味特征属性向量Z的后验概率为:
将其与支持向量机模型输出的后验概率P(Yk|Z)SVM加权综合,得到:
此时,得到的最大概率所对应的疾病名称即为最终的分类输出结果,其中Z为异常呼吸气味特征属性向量Z=(Z1,Z2,…,Zn)。
7.一种电子设备,其特征在于,包括至少一个处理器、至少一个存储器、通信接口和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的一种基于呼吸气味判断疾病的系统程序,一种基于呼吸气味判断疾病的系统程序配置为实现如权利要求1至6任一项的一种基于呼吸气味判断疾病的系统。
8.一种计算机可读存储介质,其特征在于,所述存储介质上存储有一种基于呼吸气味判断疾病的系统程序,所述一种基于呼吸气味判断疾病的系统程序被执行时实现如权利要求1-6中任一项的一种基于呼吸气味判断疾病的系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110876867.3A CN113593697B (zh) | 2021-07-31 | 2021-07-31 | 一种基于呼吸气味判断疾病的系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110876867.3A CN113593697B (zh) | 2021-07-31 | 2021-07-31 | 一种基于呼吸气味判断疾病的系统、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113593697A true CN113593697A (zh) | 2021-11-02 |
CN113593697B CN113593697B (zh) | 2023-10-13 |
Family
ID=78253229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110876867.3A Active CN113593697B (zh) | 2021-07-31 | 2021-07-31 | 一种基于呼吸气味判断疾病的系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113593697B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114067190A (zh) * | 2022-01-17 | 2022-02-18 | 广东工业大学 | 基于人体气味信号的健康状态关联模型构建方法及系统 |
CN114527209A (zh) * | 2022-01-28 | 2022-05-24 | 中国人民解放军总医院第五医学中心 | 用于肝硬化预后评估的标志物组合 |
CN115148330A (zh) * | 2022-05-24 | 2022-10-04 | 中国医学科学院北京协和医院 | Pop治疗方案形成方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160256114A1 (en) * | 2015-03-02 | 2016-09-08 | Guilin Medicine Electronic Technology Co., Ltd. | Non-invasive blood sugar measuring method and fingertip measuring probe |
CN106682385A (zh) * | 2016-09-30 | 2017-05-17 | 广州英康唯尔互联网服务有限公司 | 健康信息交互平台 |
CN108597601A (zh) * | 2018-04-20 | 2018-09-28 | 山东师范大学 | 基于支持向量机的慢性阻塞性肺疾病诊断辅助系统及方法 |
CN108766559A (zh) * | 2018-05-22 | 2018-11-06 | 合肥工业大学 | 用于智能疾病筛查的临床决策支持方法及系统 |
CN109036556A (zh) * | 2018-08-29 | 2018-12-18 | 王雁 | 一种基于机器学习诊断圆锥角膜病例的方法 |
US20200113505A1 (en) * | 2018-10-11 | 2020-04-16 | Seno Medical Instruments, Inc. | Optoacoustic image analysis method and system for automatically estimating lesion traits |
CN111599462A (zh) * | 2020-05-09 | 2020-08-28 | 吾征智能技术(北京)有限公司 | 基于认知学习的身体异常气味智能筛查系统 |
-
2021
- 2021-07-31 CN CN202110876867.3A patent/CN113593697B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160256114A1 (en) * | 2015-03-02 | 2016-09-08 | Guilin Medicine Electronic Technology Co., Ltd. | Non-invasive blood sugar measuring method and fingertip measuring probe |
CN106682385A (zh) * | 2016-09-30 | 2017-05-17 | 广州英康唯尔互联网服务有限公司 | 健康信息交互平台 |
CN108597601A (zh) * | 2018-04-20 | 2018-09-28 | 山东师范大学 | 基于支持向量机的慢性阻塞性肺疾病诊断辅助系统及方法 |
CN108766559A (zh) * | 2018-05-22 | 2018-11-06 | 合肥工业大学 | 用于智能疾病筛查的临床决策支持方法及系统 |
CN109036556A (zh) * | 2018-08-29 | 2018-12-18 | 王雁 | 一种基于机器学习诊断圆锥角膜病例的方法 |
US20200113505A1 (en) * | 2018-10-11 | 2020-04-16 | Seno Medical Instruments, Inc. | Optoacoustic image analysis method and system for automatically estimating lesion traits |
CN111599462A (zh) * | 2020-05-09 | 2020-08-28 | 吾征智能技术(北京)有限公司 | 基于认知学习的身体异常气味智能筛查系统 |
Non-Patent Citations (2)
Title |
---|
朱碧云;陈卉;陈步东;张宽;: "基于数字胸片小波纹理特征的尘肺病早期诊断方法研究", 北京生物医学工程, no. 02, pages 148 - 152 * |
李颖新;姜远;周志华;: "基于基因表达谱的肿瘤样本分类规则提取", 南京大学学报(自然科学版), no. 05, pages 613 - 619 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114067190A (zh) * | 2022-01-17 | 2022-02-18 | 广东工业大学 | 基于人体气味信号的健康状态关联模型构建方法及系统 |
CN114067190B (zh) * | 2022-01-17 | 2022-04-15 | 广东工业大学 | 基于人体气味信号的健康状态关联模型构建方法及系统 |
CN114527209A (zh) * | 2022-01-28 | 2022-05-24 | 中国人民解放军总医院第五医学中心 | 用于肝硬化预后评估的标志物组合 |
CN115148330A (zh) * | 2022-05-24 | 2022-10-04 | 中国医学科学院北京协和医院 | Pop治疗方案形成方法及系统 |
CN115148330B (zh) * | 2022-05-24 | 2023-07-25 | 中国医学科学院北京协和医院 | Pop治疗方案形成方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113593697B (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113593697B (zh) | 一种基于呼吸气味判断疾病的系统、设备及介质 | |
Kononenko | Comparison of inductive and naive Bayesian learning approaches to automatic knowledge acquisition | |
CN109350032B (zh) | 一种分类方法、系统、电子设备及存储介质 | |
CN116705337B (zh) | 一种健康数据采集及智能分析方法 | |
CN108597601B (zh) | 基于支持向量机的慢性阻塞性肺疾病诊断辅助系统及方法 | |
US20220254493A1 (en) | Chronic disease prediction system based on multi-task learning model | |
Hansen et al. | Model selection and the principle of minimum description length | |
JP2023164839A (ja) | 呼吸器疾患を診断するために疾患シグネチャを使用して咳音を分析するための方法 | |
CN112951413B (zh) | 一种基于决策树和改进smote算法的哮喘病诊断系统 | |
CN110051324B (zh) | 一种急性呼吸窘迫综合征死亡率预测方法及系统 | |
CN113674864B (zh) | 一种恶性肿瘤合并静脉血栓栓塞症风险预测方法 | |
CN113313045A (zh) | 基于多任务学习和类激活图反馈的人机不同步识别方法 | |
CN111145902A (zh) | 一种基于改进人工神经网络的哮喘病诊断方法 | |
CN107610771A (zh) | 一种基于决策树的医学检测指标筛选方法 | |
CN111048190A (zh) | 一种基于人工智能的drg分组方法 | |
CN111803059A (zh) | 一种基于时域卷积网络的心电信号分类方法及装置 | |
CN114732424B (zh) | 基于表面肌电信号提取肌肉疲劳状态复杂网络属性的方法 | |
CN117195027A (zh) | 基于成员选择的簇加权聚类集成方法 | |
CN111938691A (zh) | 一种基础心音识别方法及设备 | |
JP2024061599A (ja) | 階層図ニューラルネットワークに基づく疾患診療過程異常識別システム | |
CN115798685A (zh) | 一种基于食物图像分割的抑郁症膳食管理方法 | |
CN112465054B (zh) | 一种基于fcn的多变量时间序列数据分类方法 | |
CN109192315B (zh) | 基于加权核回归和封装式偏差搜索的综合年龄检测系统 | |
CN113963806A (zh) | 一种新冠肺炎筛查方法及筛查系统 | |
CN113849654A (zh) | 一种基于对比学习聚类的文本清洗方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |