CN112732690A - 一种用于慢病检测及风险评估的稳定系统及方法 - Google Patents
一种用于慢病检测及风险评估的稳定系统及方法 Download PDFInfo
- Publication number
- CN112732690A CN112732690A CN202110009973.1A CN202110009973A CN112732690A CN 112732690 A CN112732690 A CN 112732690A CN 202110009973 A CN202110009973 A CN 202110009973A CN 112732690 A CN112732690 A CN 112732690A
- Authority
- CN
- China
- Prior art keywords
- data
- noise
- objects
- processing operation
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H80/00—ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Theoretical Computer Science (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本申请的目的是提供一种用于慢病检测及风险评估的稳定系统及方法,本申请通过获取受检测用户的多维度健康信息,对所述多维度健康信息进行特征提取及构造,得到标准化数据;基于数据库中的样本数据以及所述标准化数据进行特征重构以及特征权重计算,以确定重构的输入特征数据;根据所述重构的输入特征数据进行预测受检测用户的健康,得到预测结果,将所述预测结果及获得的用户数据反馈至所述数据库中;对所述用户数据以及所述预测结果进行噪声识别,确定噪声数据,基于所述噪声数据更新所述数据库中的所有数据。从而解决原始医疗数据样本库中由于主观因素所导致的误差数据,并对样本库中的数据迭代以使样本核心点渐趋稳定。
Description
技术领域
本申请涉及慢病检测领域,尤其涉及一种用于慢病检测及风险评估的稳定系统及方法。
背景技术
慢性非传染性疾病(简称慢性病)是我国居民的主要死亡原因和疾病负担,是制约健康预期寿命提高的重要因素。国内外实践经验证明,慢性病的预后与疾病发现的早晚密切相关。发现越早、干预越早,治疗和管理的效果越好,早发现、早干预是关键。但目前医疗健康系统非旨在可持续照顾慢病患者,人们只能在有限的指导下进行自我慢病管理。如何提供可操作,可持续反馈和可持续的健康监督,给患者提供个性化健康意见及降低成本的健康服务是极为重要的。
目前市场上对于慢性病的预测与防治,多集中于小而精的监测硬件,或者是从数据采集到数据存储,数据查询等的一体化管理平台,可使用的方式包括慢病结合AI现状,全量数据做预测;但是,对于慢病防控结合AI,目前尚且存在一些问题,医疗行业事关生命,监管较严,而深度学习的可解释性不足问题目前尚未完全解决;另外,现有的样本数据库不精确,标签库数据中噪音大,导致模型误差大。
发明内容
本申请的一个目的是提供一种慢病检测及风险评估的稳定系统及方法,解决现有技术中样本数据库不精确,数据库中数据的噪音大,导致用于检测慢病及风险评估的深度学习模型误差大。
根据本申请的一个方面,提供了一种用于慢病检测及风险评估的稳定系统,该系统包括:
数据获取模块、数据汇聚模块、数据库、数据过滤模块、健康预测模块及反馈优化模块,
其中,所述数据获取模块用于获取受检测用户的多维度健康信息;所述数据汇聚模块用于对所述多维度健康信息进行特征提取及构造,得到标准化数据;
所述数据过滤模块用于从所述数据库中获得样本数据以及从所述数据汇聚模块中获取所述标准化数据,基于所述样本数据以及所述标准化数据进行特征重构以及特征权重计算,以确定重构的输入特征数据;
所述健康预测模块用于根据所述重构的输入特征数据进行预测受检测用户的健康,得到预测结果,将所述预测结果输入至所述数据库中;
所述反馈优化模块用于对所述数据库中的用户数据以及所述预测结果进行噪声识别,确定噪声数据,将所述噪声数据反馈至所述数据库中,以更新所述数据库中的所有数据。
进一步地,所述反馈优化模块用于对所述用户数据以及所述预测结果按照慢性病种类进行划分,得到多个样本类数据;
所述反馈优化模块用于通过聚类算法处理每一样本类数据,确定目标参数;
所述反馈优化模块用于对所述目标参数进行密度聚类以识别噪声区域,基于所述噪声区域确定噪声数据。
进一步地,所述反馈优化模块用于计算同样本类数据中每个用户距离周围区域内的其他各用户的最小距离,根据得到的所有最小距离确定全局聚类半径;计算所有样本类数据的数量分布的上四分位数;根据所述全局聚类半径以及所述上四分位数确定目标参数,其中,所述目标参数包括聚类半径和密度阈值。
进一步地,所述反馈优化模块用于将采集到的多维用户数据归入到数据集中,并将所述数据集中的所有数据对象的状态标记为未处理状态,对所述所有数据对象进行依次处理,根据处理确定每一数据对象所在的数据簇,根据所有数据簇识别噪声区域。
进一步地,所述反馈优化模块用于执行第一检查处理操作和第二检查处理操作,得到对应的密实数据簇和噪音数据簇;集合所述第一检查处理操作和所述第二检查处理操作得到的对应的密实数据簇和噪音数据簇,以获取到预判的噪声数据。
进一步地,所述反馈优化模块用于执行第一检查处理操作时,包括以下操作:检查所述数据对象的邻域,判断所述数据对象的邻域内包含的对象数是否大于等于所述密度阈值,若是,则将所述数据对象标记为密实核心点并将所述数据对象的邻域内的所有对象加入密实数据簇中,若否,则将所述数据对象标记为噪音点并将所述数据对象加入至噪音数据簇中;
所述反馈优化模块用于执行第二检查处理操作时,包括以下操作:检查所述数据对象的邻域中未被处理的数据对象,判断所述未被处理的数据对象的邻域内包含的对象数是否大于等于所述密度阈值,若是,则将所述数据对象的邻域内未被处理的数据对象加入至密实数据簇中,若否,则将所述未被处理的数据对象加入至噪音数据簇中。
根据本申请再一个方面,还提供了一种用于慢病检测及风险评估的稳定方法,该方法包括:
获取受检测用户的多维度健康信息,对所述多维度健康信息进行特征提取及构造,得到标准化数据;
基于数据库中的样本数据以及所述标准化数据进行特征重构以及特征权重计算,以确定重构的输入特征数据;
根据所述重构的输入特征数据进行预测受检测用户的健康,得到预测结果,将所述预测结果以及获得的用户数据反馈至所述数据库中;
对用户数据以及所述预测结果进行噪声识别,确定噪声数据,基于所述噪声数据更新所述数据库中的所有数据。
进一步地,对用户数据以及所述预测结果进行噪声识别,确定噪声数据,包括:
对用户数据以及所述预测结果按照慢性病种类进行划分,得到多个样本类数据;
通过聚类算法处理每一样本类数据,确定目标参数;
对所述目标参数进行密度聚类以识别噪声区域,基于所述噪声区域确定噪声数据。
进一步地,通过聚类算法处理每一样本类数据,确定目标参数,包括:
计算同样本类数据中每个用户距离周围区域内的其他各用户的最小距离,根据得到的所有最小距离确定全局聚类半径;
计算所有样本类数据的数量分布的上四分位数;
根据所述全局聚类半径以及所述上四分位数确定目标参数,其中,所述目标参数包括聚类半径和密度阈值。
进一步地,对所述目标参数进行密度聚类以识别噪声区域,包括:
将采集到的用户的多维样本数据归入到数据集中,并将所述数据集中的所有数据对象的状态标记为未处理状态;
对所述所有数据对象进行依次处理,根据处理确定每一数据对象所在的数据簇,根据所有数据簇识别噪声区域。
进一步地,对所述所有数据对象进行依次处理,根据处理确定每一数据对象所在的数据簇,根据所有数据簇识别噪声区域,包括:
执行第一检查处理操作和第二检查处理操作,得到对应的密实数据簇和噪音数据簇;
集合所述第一检查处理操作和所述第二检查处理操作得到的对应的密实数据簇和噪音数据簇,以获取到预判的噪声数据。
进一步地,执行第一检查处理操作和第二检查处理操作,得到对应的密实数据簇和噪音数据簇,包括:
执行第一检查处理操作时,包括以下操作:检查所述数据对象的邻域,判断所述数据对象的邻域内包含的对象数是否大于等于所述密度阈值,若是,则将所述数据对象标记为密实核心点并将所述数据对象的邻域内的所有对象加入密实数据簇中,若否,则将所述数据对象标记为噪音点并将所述数据对象加入至噪音数据簇中;
执行第二检查处理操作时,包括以下操作:检查所述数据对象的邻域中未被处理的数据对象,判断所述未被处理的数据对象的邻域内包含的对象数是否大于等于所述密度阈值,若是,则将所述数据对象的邻域内未被处理的数据对象加入至密实数据簇中,若否,则将所述未被处理的数据对象加入至噪音数据簇中。
根据本申请再一个方面,还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如前述所述的方法。
与现有技术相比,本申请通过获取受检测用户的多维度健康信息,对所述多维度健康信息进行特征提取及构造,得到标准化数据;基于数据库中的样本数据以及所述标准化数据进行特征重构以及特征权重计算,以确定重构的输入特征数据;根据所述重构的输入特征数据进行预测受检测用户的健康,得到预测结果,将所述预测结果及获得的用户数据反馈至所述数据库中;对用户数据以及所述预测结果进行噪声识别,确定噪声数据,基于所述噪声数据更新所述数据库中的所有数据。从而解决原始医疗数据样本库中由于主观因素所导致的误差数据,并对样本库中的数据迭代以使样本核心点渐趋稳定。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出根据本申请的一个方面提供的一种用于慢病检测及风险评估的稳定系统的结构示意图;
图2示出本申请一实施例中用于慢病检测及风险评估的深度学习框架下的稳定系统的结构示意图;
图3示出根据本申请再一个方面提供的一种用于慢病检测及风险评估的稳定方法的流程示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(例如中央处理器(Central Processing Unit,CPU))、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RandomAccess Memory,RAM)和/或非易失性内存等形式,如只读存储器(Read Only Memory,ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(Phase-Change RAM,PRAM)、静态随机存取存储器(Static Random Access Memory,SRAM)、动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、数字多功能光盘(Digital Versatile Disk,DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
图1示出根据本申请的一个方面提供的一种用于慢病检测及风险评估的稳定系统的结构示意图,该系统包括:数据获取模块11、数据汇聚模块12、数据库13、数据过滤模块14、健康预测模块15及反馈优化模块16,其中,所述数据获取模块11用于获取受检测用户的多维度健康信息;所述数据汇聚模块12用于对所述多维度健康信息进行特征提取及构造,得到标准化数据;所述数据过滤模块14用于从所述数据库13中获得样本数据以及从所述数据汇聚模块12中获取所述标准化数据,基于所述样本数据以及所述标准化数据进行特征重构以及特征权重计算,以确定重构的输入特征数据;所述健康预测模块15用于根据所述重构的输入特征数据进行预测受检测用户的健康,得到预测结果,将所述预测结果输入至所述数据库13中;所述反馈优化模块16对所述数据库中的用户数据以及所述预测结果进行噪声识别,确定噪声数据,将所述噪声数据反馈至所述数据库中,以更新所述数据库中的所有数据。在此,本系统应用于慢性病检测及风险评估的深度学习框架下的稳定器,提供一种样本库中数据噪音清除的方式,从而解决原始医疗数据样本库中由于主观因素所导致的误差数据,并基于密度聚类算法,对样本库中的数据迭代以使样本核心点渐趋稳定。
具体地,所述数据获取模块11用于获取受检测用户的多维度健康信息;在此,所述多维度健康信息主要包括:基础体征指标、疾病史、基础疾病、就诊记录、生活环境数据、生活习惯数据、家族遗传病史数据、用户行为数据等多维度数据,从而以便后续模块进行构建数据集。
具体地,所述数据汇聚模块12用于对所述多维度健康信息进行特征提取及构造,得到标准化数据;在此,根据数据获取模块11获取到的数据,进行提取与构造,从而实现分布的、异构的、跨网络的多来源的信息资源的交换汇聚,实现统一平台与多来源数据资源的共享。按照平台标准处理后的多方数据集中至中心数据库,再以统一标准对外提供数据服务,使数据按一定业务规则成为可复用的信息资源服务。其中,进行提取与构造时可使用ETL工具实现,比如Oracle的OWB、SQL Server2005的SSIS服务、Informatic等。
具体地,所述数据过滤模块14用于从所述数据库13中获得样本数据以及从所述数据汇聚模块12中获取所述标准化数据,基于所述样本数据以及所述标准化数据进行特征重构以及特征权重计算,以确定重构的输入特征数据;在此,数据过滤模块14对标准化的输入数据进行数据过滤,进行特征重构与筛选,同时引入特征权重,使用数据库中的用户的历史数据,即原有的样本数据与标准化数据进行相似度计算,得到特征权重;优先考虑重点特征信息集,得到的特征权重与清洗标准化后的受检测人员的数据进行加权求和,得到重构的输入特征数据,比如得到特征权重为W1,W2,W3,清洗后的受检测人员对应的三种慢性疾病的数据为A1,A2,A3,则加权求和:W1*A1+W2*A2+W3*A3。可对特征权重的计算进行多次迭代,以达到突出重点信息子集的作用。
具体地,所述健康预测模块15用于根据所述重构的输入特征数据进行预测受检测用户的健康,得到预测结果,将所述预测结果输入至所述数据库13中;在此,健康预测模块15根据输入的重构的输入特征数据进行受检测人员的监控预测,得到预测结果,将该预测结果反馈至数据库中。基于数据过滤模块14所重构的数据进行基于深度学习算法的模型构建,通过模型的输入数据进行了预处理,对重点信息增强了权重,训练方式从正常的大规模数据寻找普遍规律变成了有目标针对性的模型训练,使得训练过程速度更快,效果更好。反馈优化模块16对于健康预测模块15的预测结果给出干预措施,比如相应疾病的运动、饮食建议等,得到干预后的用户数据,将预测结果与受检测人员真实的健康结果进行比较,若一致则给出正向反馈结果,若不一致则为负向反馈结果,将反馈结果以及用户数据反馈至数据库中以更新数据库中原有的样本数据,数据库中原有的样本数据为采集到的多维用户数据。
具体地,所述反馈优化模块16用于对所述数据库13中的用户数据以及所述预测结果进行噪声识别,确定噪声数据,基于所述噪声数据更新所述数据库中的所有数据。在此,对获取到的用户数据以及预测结果进行噪声识别,即对数据库中的全量数据进行噪声识别,从而更新数据库中的样本数据,使得基于样本数据重新构造模型的输入数据,模型的预测结果更为准确。
在本申请一实施例中,将数据反哺回训练数据集进行优化迭代,具体实现为:所述反馈优化模块用于对所述用户数据以及所述预测结果按照慢性病种类进行划分,得到多个样本类数据;所述反馈优化模块用于通过聚类算法处理每一样本类数据,确定目标参数;所述反馈优化模块用于对所述目标参数进行密度聚类以识别噪声区域,基于所述噪声区域确定噪声数据。在此,将数据库中的数据按照慢性病种类进行划分,数据库中的数据包括反哺回来的用户数据以及预测结果,划分为多个样本类数据比如划分为高血压样本类数据、糖尿病样本类数据等,从而对于每一种类分别进行聚类处理,确定出用于识别噪声区域的目标参数,利用该目标参数进行密度聚类从而得到预判的噪声区域,确定出具体的噪声数据。
接上述实施例,所述反馈优化模块用于计算同样本类数据中每个用户距离周围区域内的其他各用户的最小距离,根据得到的所有最小距离确定全局聚类半径;计算所有样本类数据的数量分布的上四分位数;根据所述全局聚类半径以及所述上四分位数确定目标参数,其中,所述目标参数包括聚类半径和密度阈值。在此,将传统的密度聚类改善成自适应的密度聚类,具体地,对数据库中的所有数据求1-最邻近距离,求得全局DBSCAN聚类半径σ,并计算所有数据数量分布的上四分位数Q;其中,1-最邻近距离为计算同类用户中每个用户距离其周围其他用户的最近距离,将这些距离从小到大排列,作1-最邻近距离曲线,取曲线上的拐点处的距离值作为全局DBSCAN聚类半径σ,以聚类半径σ和上四分位Q为DBSCAN聚类的参数,该参数包括全局聚类半径(Eps)和密度阈值(Minpts),密度阈值为邻域内成为核心对象的最小邻域点数,从而根据Eps和Minpts进行密度聚类,识别噪声区域。具体实现方式如下:
在本申请一实施例中,所述反馈优化模块用于将采集到的多维用户数据归入到数据集中,并将所述数据集中的所有数据对象的状态标记为未处理状态,对所述所有数据对象进行依次处理,根据处理确定每一数据对象所在的数据簇,根据所有数据簇识别噪声区域。在此,将采集到的多维用户数据xi(t),i=1,2,3……,n归入数据集D中,其中,i表示用户,t表示多维用户数据xi(t)的用户信息,将数据集D内所有对象p标记为未处理状态;对数据集D内所有对象p进行依次处理,从而确定对象p所属的数据簇,比如是为密实数据簇还是噪音簇,从而根据得到的数据簇获取到预判怀疑噪音的用户数据。
接上述实施例,所述反馈优化模块用于执行第一检查处理操作和第二检查处理操作,得到对应的密实数据簇和噪音数据簇;集合所述第一检查处理操作和所述第二检查处理操作得到的对应的密实数据簇和噪音数据簇,以获取到预判的噪声数据。在此,对数据集D内所有对象p进行处理时,根据对象p是否已归入数据簇来确定使用第一检查处理操作还是第二检查处理操作,分别执行后得到对应的密实数据簇和噪音数据簇,从而将经过第一检查处理操作得到的密实数据簇和经过第二检查处理操作得到的密实数据簇进行集合,将经过第一检查处理操作得到的噪音数据簇和经过第二检查处理操作得到的噪音数据簇进行集合,从而利用集合后的密实数据簇和集合后的噪音数据簇得到预判的噪声数据。
具体地,所述反馈优化模块用于执行第一检查处理操作时,包括以下操作:检查所述数据对象的邻域,判断所述数据对象的邻域内包含的对象数是否大于等于所述密度阈值,若是,则将所述数据对象标记为密实核心点并将所述数据对象的邻域内的所有对象加入密实数据簇中,若否,则将所述数据对象标记为噪音点并将所述数据对象加入至噪音数据簇中;所述反馈优化模块用于执行第二检查处理操作时,包括以下操作:检查所述数据对象的邻域中未被处理的数据对象,判断所述未被处理的数据对象的邻域内包含的对象数是否大于等于所述密度阈值,若是,则将所述数据对象的邻域内未被处理的数据对象加入至密实数据簇中,若否,则将所述未被处理的数据对象加入至噪音数据簇中。在此,若对象p已归入密实数据簇C或噪音数据簇U中,则继续执行第一检查处理操作,否则执行第二检查处理操作;第一检查处理操作如下:检查对象p的邻域,若对象p邻域内包含的对象数大于等于密度阈值MinPts,则标记对象p为密实核心点,将p邻域内所有点加入密实数据簇中;否则,标记对象p为噪音点,并加入噪音数据簇U中。第二检查处理操作如下:对于对象p邻域中尚未被处理的对象q,检查对象q的邻域,若对象q邻域内包含至少密度阈值MinPts个对象,则将对象q邻域中未归入任何一个数据簇的对象加入到密实簇C中,若对象q邻域内包含的对象数小于密度阈值MinPts,则将对象q邻域内的对象加入到噪音数据簇U中。从而通过第一检查处理操作和第二检查处理操作得到集合后的密实数据簇C和集合后的噪音数据簇U,以此获取到预判怀疑噪音的用户数据,对这部分噪音数据进行修正或删除,以此达到原始样本库数据更加准确的目的。
图2示出本申请一实施例中用于慢病检测及风险评估的深度学习框架下的稳定系统的结构示意图,包括的数据获取模块、数据汇聚模块、数据过滤模块、健康预测模块、反馈优化模块以及标准库,实现的功能与执行步骤与图1中各模块相对应,在此不再累赘叙述。通过本申请提供的系统,可以提供一种样本库中数据噪音清除的方式,可以解决原始医疗数据样本库中由于主观因素所导致的误差数据,基于改进的DBSCAN密度聚类算法,对样本数据库中的数据迭代以使样本核心点渐趋稳定。
图3示出根据本申请再一个方面提供的一种用于慢病检测及风险评估的稳定方法的流程示意图,该方法包括:步骤S11~步骤S14,其中,
在步骤S11中,获取受检测用户的多维度健康信息,对所述多维度健康信息进行特征提取及构造,得到标准化数据;所述多维度健康信息主要包括:基础体征指标、疾病史、基础疾病、就诊记录、生活环境数据、生活习惯数据、家族遗传病史数据、用户行为数据等多维度数据,从而以便后续进行构建数据集。对获取到的数据进行提取与构造,从而实现分布的、异构的、跨网络的多来源的信息资源的交换汇聚,实现统一平台与多来源数据资源的共享。按照平台标准处理后的多方数据集中至中心数据库,再以统一标准对外提供数据服务,使数据按一定业务规则成为可复用的信息资源服务。其中,进行提取与构造时可使用ETL工具实现,比如Oracle的OWB、SQL Server2005的SSIS服务、Informatic等。
在步骤S12中,基于数据库中的样本数据以及所述标准化数据进行特征重构以及特征权重计算,以确定重构的输入特征数据;在此,对标准化的输入数据进行数据过滤,进行特征重构与筛选,同时引入特征权重,使用数据库中的用户的历史数据,即原有的样本数据与标准化数据进行相似度计算,得到特征权重;优先考虑重点特征信息集,得到的特征权重与清洗标准化后的受检测人员的数据进行加权求和,得到重构的输入特征数据,比如得到特征权重为W1,W2,W3,清洗后的受检测人员对应的三种慢性疾病的数据为A1,A2,A3,则加权求和:W1*A1+W2*A2+W3*A3。可对特征权重的计算进行多次迭代,以达到突出重点信息子集的作用。
在步骤S13中,根据所述重构的输入特征数据进行预测受检测用户的健康,得到预测结果,将所述预测结果以及获得到的用户数据反馈至所述数据库中;在此,基于所重构的数据进行基于深度学习算法的模型构建,通过模型的输入数据进行了预处理,对重点信息增强了权重,训练方式从正常的大规模数据寻找普遍规律变成了有目标针对性的模型训练,使得训练过程速度更快,效果更好。将重构的输入特征数据输入至模型中进行预测受检测用户的健康,得到预测结果,对于预测结果给出干预措施,比如相应疾病的运动、饮食建议等,得到干预后的用户数据,将预测结果与受检测人员真实的健康结果进行比较,若一致则给出正向反馈结果,若不一致则为负向反馈结果,将反馈结果以及用户数据反馈至数据库中以更新数据库中原有的样本数据,数据库中原有的样本数据为采集到的多维用户数据。
在步骤S14中,对用户数据以及所述预测结果进行噪声识别,确定噪声数据,基于所述噪声数据更新所述数据库中的所有数据。在此,对数据库中的用户数据以及预测结果进行噪声识别,从而更新数据库中的样本数据,使得基于样本数据重新构造模型的输入数据,模型的预测结果更为准确。
在本申请一实施例中,在步骤S14中,对所述用户数据以及所述预测结果按照慢性病种类进行划分,得到多个样本类数据;通过聚类算法处理每一样本类数据,确定目标参数;对所述目标参数进行密度聚类以识别噪声区域,基于所述噪声区域确定噪声数据。在此,将数据库中的数据按照慢性病种类进行划分,数据库中的数据包括反哺回来的用户数据以及预测结果,划分为多个样本类数据比如划分为高血压样本类数据、糖尿病样本类数据等,从而对于每一种类分别进行聚类处理,确定出用于识别噪声区域的目标参数,利用该目标参数进行密度聚类从而得到预判的噪声区域,确定出具体的噪声数据。
在本申请一实施例中,确定目标参数时,可以计算同样本类数据中每个用户距离周围区域内的其他各用户的最小距离,根据得到的所有最小距离确定全局聚类半径;计算所有样本类数据的数量分布的上四分位数;根据所述全局聚类半径以及所述上四分位数确定目标参数,其中,所述目标参数包括聚类半径和密度阈值。在此,对数据库中的所有数据求1-最邻近距离,求得全局DBSCAN聚类半径σ,并计算所有数据数量分布的上四分位数Q;其中,1-最邻近距离为计算同类用户中每个用户距离其周围其他用户的最近距离,将这些距离从小到大排列,作1-最邻近距离曲线,取曲线上的拐点处的距离值作为全局DBSCAN聚类半径σ,以聚类半径σ和上四分位Q为DBSCAN聚类的参数,该参数包括全局聚类半径(Eps)和密度阈值(Minpts),密度阈值为邻域内成为核心对象的最小邻域点数,从而根据Eps和Minpts进行密度聚类,识别噪声区域。具体实现方式如下:
将采集到的多维用户数据归入到数据集中,并将所述数据集中的所有数据对象的状态标记为未处理状态;对所述所有数据对象进行依次处理,根据处理确定每一数据对象所在的数据簇,根据所有数据簇识别噪声区域。在此,将采集到的多维用户数据xi(t),i=1,2,3……,n归入数据集D中,其中,i表示用户,t表示多维用户数据xi(t)的用户信息,将数据集D内所有对象p标记为未处理状态;对数据集D内所有对象p进行依次处理,从而确定对象p所属的数据簇,比如是为密实数据簇还是噪音簇,从而根据得到的数据簇获取到预判怀疑噪音的用户数据。
接着,执行第一检查处理操作和第二检查处理操作,得到对应的密实数据簇和噪音数据簇;集合所述第一检查处理操作和所述第二检查处理操作得到的对应的密实数据簇和噪音数据簇,以获取到预判的噪声数据。在此,对数据集D内所有对象p进行处理时,根据对象p是否已归入数据簇来确定使用第一检查处理操作还是第二检查处理操作,分别执行后得到对应的密实数据簇和噪音数据簇,从而将经过第一检查处理操作得到的密实数据簇和经过第二检查处理操作得到的密实数据簇进行集合,将经过第一检查处理操作得到的噪音数据簇和经过第二检查处理操作得到的噪音数据簇进行集合,从而利用集合后的密实数据簇和集合后的噪音数据簇得到预判的噪声数据。
具体地,执行第一检查处理操作时,包括以下操作:检查所述数据对象的邻域,判断所述数据对象的邻域内包含的对象数是否大于等于所述密度阈值,若是,则将所述数据对象标记为密实核心点并将所述数据对象的邻域内的所有对象加入密实数据簇中,若否,则将所述数据对象标记为噪音点并将所述数据对象加入至噪音数据簇中;执行第二检查处理操作时,包括以下操作:检查所述数据对象的邻域中未被处理的数据对象,判断所述未被处理的数据对象的邻域内包含的对象数是否大于等于所述密度阈值,若是,则将所述数据对象的邻域内未被处理的数据对象加入至密实数据簇中,若否,则将所述未被处理的数据对象加入至噪音数据簇中。在此,若对象p已归入密实数据簇C或噪音数据簇U中,则继续执行第一检查处理操作,否则执行第二检查处理操作;第一检查处理操作如下:检查对象p的邻域,若对象p邻域内包含的对象数大于等于密度阈值MinPts,则标记对象p为密实核心点,将p邻域内所有点加入密实数据簇中;否则,标记对象p为噪音点,并加入噪音数据簇U中。第二检查处理操作如下:对于对象p邻域中尚未被处理的对象q,检查对象q的邻域,若对象q邻域内包含至少密度阈值MinPts个对象,则将对象q邻域中未归入任何一个数据簇的对象加入到密实簇C中,若对象q邻域内包含的对象数小于密度阈值MinPts,则将对象q邻域内的对象加入到噪音数据簇U中。从而通过第一检查处理操作和第二检查处理操作得到集合后的密实数据簇C和集合后的噪音数据簇U,以此获取到预判怀疑噪音的用户数据,对这部分噪音数据进行修正或删除,以此达到原始样本库数据更加准确的目的。
此外,本申请实施例还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现前述一种用于慢病检测及风险评估的稳定系统及方法。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (13)
1.一种用于慢病检测及风险评估的稳定系统,其特征在于,所述系统包括:
数据获取模块、数据汇聚模块、数据库、数据过滤模块、健康预测模块及反馈优化模块,
其中,所述数据获取模块用于获取受检测用户的多维度健康信息;所述数据汇聚模块用于对所述多维度健康信息进行特征提取及构造,得到标准化数据;
所述数据过滤模块用于从所述数据库中获得样本数据以及从所述数据汇聚模块中获取所述标准化数据,基于所述样本数据以及所述标准化数据进行特征重构以及特征权重计算,以确定重构的输入特征数据;
所述健康预测模块用于根据所述重构的输入特征数据进行预测受检测用户的健康,得到预测结果,将所述预测结果输入至所述数据库中;
所述反馈优化模块用于对所述数据库中的用户数据以及所述预测结果进行噪声识别,确定噪声数据,将所述噪声数据反馈至所述数据库中,以更新所述数据库中的所有数据。
2.根据权利要求1所述的系统,其特征在于,所述反馈优化模块用于对用户数据以及所述预测结果按照慢性病种类进行划分,得到多个样本类数据;
所述反馈优化模块用于通过聚类算法处理每一样本类数据,确定目标参数;
所述反馈优化模块用于对所述目标参数进行密度聚类以识别噪声区域,基于所述噪声区域确定噪声数据。
3.根据权利要求2所述的系统,其特征在于,所述反馈优化模块用于计算同样本类数据中每个用户距离周围区域内的其他各用户的最小距离,根据得到的所有最小距离确定全局聚类半径;计算所有样本类数据的数量分布的上四分位数;根据所述全局聚类半径以及所述上四分位数确定目标参数,其中,所述目标参数包括聚类半径和密度阈值。
4.根据权利要求3所述的系统,其特征在于,所述反馈优化模块用于将采集到的多维用户数据归入到数据集中,并将所述数据集中的所有数据对象的状态标记为未处理状态,对所述所有数据对象进行依次处理,根据处理确定每一数据对象所在的数据簇,根据所有数据簇识别噪声区域。
5.根据权利要求4所述的系统,其特征在于,所述反馈优化模块用于执行第一检查处理操作和第二检查处理操作,得到对应的密实数据簇和噪音数据簇;集合所述第一检查处理操作和所述第二检查处理操作得到的对应的密实数据簇和噪音数据簇,以获取到预判的噪声数据。
6.根据权利要求5所述的系统,其特征在于,所述反馈优化模块用于执行第一检查处理操作时,包括以下操作:检查所述数据对象的邻域,判断所述数据对象的邻域内包含的对象数是否大于等于所述密度阈值,若是,则将所述数据对象标记为密实核心点并将所述数据对象的邻域内的所有对象加入密实数据簇中,若否,则将所述数据对象标记为噪音点并将所述数据对象加入至噪音数据簇中;
所述反馈优化模块用于执行第二检查处理操作时,包括以下操作:检查所述数据对象的邻域中未被处理的数据对象,判断所述未被处理的数据对象的邻域内包含的对象数是否大于等于所述密度阈值,若是,则将所述数据对象的邻域内未被处理的数据对象加入至密实数据簇中,若否,则将所述未被处理的数据对象加入至噪音数据簇中。
7.一种用于慢病检测及风险评估的稳定方法,其特征在于,所述方法包括:
获取受检测用户的多维度健康信息,对所述多维度健康信息进行特征提取及构造,得到标准化数据;
基于数据库中的样本数据以及所述标准化数据进行特征重构以及特征权重计算,以确定重构的输入特征数据;
根据所述重构的输入特征数据进行预测受检测用户的健康,得到预测结果;
对用户数据以及所述预测结果进行噪声识别,确定噪声数据,基于所述噪声数据更新所述数据库中的所有数据。
8.根据权利要求7所述的方法,其特征在于,对用户数据以及所述预测结果进行噪声识别,确定噪声数据,包括:
对用户数据以及所述预测结果按照慢性病种类进行划分,得到多个样本类数据;
通过聚类算法处理每一样本类数据,确定目标参数;
对所述目标参数进行密度聚类以识别噪声区域,基于所述噪声区域确定噪声数据。
9.根据权利要求8所述的方法,其特征在于,通过聚类算法处理每一样本类数据,确定目标参数,包括:
计算同样本类数据中每个用户距离周围区域内的其他各用户的最小距离,根据得到的所有最小距离确定全局聚类半径;
计算所有样本类数据的数量分布的上四分位数;
根据所述全局聚类半径以及所述上四分位数确定目标参数,其中,所述目标参数包括聚类半径和密度阈值。
10.根据权利要求9所述的方法,其特征在于,对所述目标参数进行密度聚类以识别噪声区域,包括:
将采集到的用户的多维样本数据归入到数据集中,并将所述数据集中的所有数据对象的状态标记为未处理状态;
对所述所有数据对象进行依次处理,根据处理确定每一数据对象所在的数据簇,根据所有数据簇识别噪声区域。
11.根据权利要求10所述的方法,其特征在于,对所述所有数据对象进行依次处理,根据处理确定每一数据对象所在的数据簇,根据所有数据簇识别噪声区域,包括:
执行第一检查处理操作和第二检查处理操作,得到对应的密实数据簇和噪音数据簇;
集合所述第一检查处理操作和所述第二检查处理操作得到的对应的密实数据簇和噪音数据簇,以获取到预判的噪声数据。
12.根据权利要求11所述的方法,其特征在于,执行第一检查处理操作和第二检查处理操作,得到对应的密实数据簇和噪音数据簇,包括:
执行第一检查处理操作时,包括以下操作:检查所述数据对象的邻域,判断所述数据对象的邻域内包含的对象数是否大于等于所述密度阈值,若是,则将所述数据对象标记为密实核心点并将所述数据对象的邻域内的所有对象加入密实数据簇中,若否,则将所述数据对象标记为噪音点并将所述数据对象加入至噪音数据簇中;
执行第二检查处理操作时,包括以下操作:检查所述数据对象的邻域中未被处理的数据对象,判断所述未被处理的数据对象的邻域内包含的对象数是否大于等于所述密度阈值,若是,则将所述数据对象的邻域内未被处理的数据对象加入至密实数据簇中,若否,则将所述未被处理的数据对象加入至噪音数据簇中。
13.一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如权利要求7至12中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110009973.1A CN112732690B (zh) | 2021-01-05 | 2021-01-05 | 一种用于慢病检测及风险评估的稳定系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110009973.1A CN112732690B (zh) | 2021-01-05 | 2021-01-05 | 一种用于慢病检测及风险评估的稳定系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112732690A true CN112732690A (zh) | 2021-04-30 |
CN112732690B CN112732690B (zh) | 2022-12-27 |
Family
ID=75589755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110009973.1A Active CN112732690B (zh) | 2021-01-05 | 2021-01-05 | 一种用于慢病检测及风险评估的稳定系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112732690B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116434901A (zh) * | 2023-03-09 | 2023-07-14 | 广东宏恩健康管理科技集团股份有限公司 | 一种健康信息管理系统与方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106326654A (zh) * | 2016-08-24 | 2017-01-11 | 北京辛诺创新科技有限公司 | 基于大数据云分析的健康预测系统、智能终端和服务器 |
CN110176309A (zh) * | 2019-05-28 | 2019-08-27 | 上海大学 | 一种用于预测心血管疾病的医疗数据处理方法 |
-
2021
- 2021-01-05 CN CN202110009973.1A patent/CN112732690B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106326654A (zh) * | 2016-08-24 | 2017-01-11 | 北京辛诺创新科技有限公司 | 基于大数据云分析的健康预测系统、智能终端和服务器 |
CN110176309A (zh) * | 2019-05-28 | 2019-08-27 | 上海大学 | 一种用于预测心血管疾病的医疗数据处理方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116434901A (zh) * | 2023-03-09 | 2023-07-14 | 广东宏恩健康管理科技集团股份有限公司 | 一种健康信息管理系统与方法 |
CN116434901B (zh) * | 2023-03-09 | 2023-10-03 | 广东宏恩健康管理科技集团股份有限公司 | 一种健康信息管理系统与方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112732690B (zh) | 2022-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yuvaraj et al. | Diabetes prediction in healthcare systems using machine learning algorithms on Hadoop cluster | |
US11210144B2 (en) | Systems and methods for hyperparameter tuning | |
US10354204B2 (en) | Machine learning predictive labeling system | |
Chen et al. | Entity embedding-based anomaly detection for heterogeneous categorical events | |
US20180053071A1 (en) | Distributed event prediction and machine learning object recognition system | |
CN111967495B (zh) | 一种分类识别模型构建方法 | |
US20180082215A1 (en) | Information processing apparatus and information processing method | |
CN111612041B (zh) | 异常用户识别方法及装置、存储介质、电子设备 | |
WO2019019630A1 (zh) | 反欺诈识别方法、存储介质、承载平安脑的服务器及装置 | |
US11810000B2 (en) | Systems and methods for expanding data classification using synthetic data generation in machine learning models | |
CN107168995B (zh) | 一种数据处理方法及服务器 | |
CN110910991B (zh) | 一种医用自动图像处理系统 | |
WO2021012745A1 (zh) | 基于知识图谱的数据预警方法、装置和计算机设备 | |
WO2019223104A1 (zh) | 确定事件影响因素的方法、装置、终端设备及可读存储介质 | |
CN113392894A (zh) | 一种多组学数据的聚类分析方法和系统 | |
CN116611546B (zh) | 基于知识图谱的目标研究区域滑坡预测方法及系统 | |
Akundi et al. | Big Data analytics in healthcare using Machine Learning algorithms: a comparative study | |
CN112732690B (zh) | 一种用于慢病检测及风险评估的稳定系统及方法 | |
US20240193035A1 (en) | Point Anomaly Detection | |
Qudsi et al. | Predictive data mining of chronic diseases using decision tree: A case study of health insurance company in Indonesia | |
Minervini et al. | Leveraging the schema in latent factor models for knowledge graph completion | |
Diao et al. | Clustering by Detecting Density Peaks and Assigning Points by Similarity‐First Search Based on Weighted K‐Nearest Neighbors Graph | |
CN117094184A (zh) | 基于内网平台的风险预测模型的建模方法、系统及介质 | |
CN114495137B (zh) | 票据异常检测模型生成方法与票据异常检测方法 | |
CN112768090A (zh) | 一种用于慢病检测及风险评估的过滤系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |