CN116959587A - 病原微生物数据实时在线分析系统 - Google Patents

病原微生物数据实时在线分析系统 Download PDF

Info

Publication number
CN116959587A
CN116959587A CN202311203472.2A CN202311203472A CN116959587A CN 116959587 A CN116959587 A CN 116959587A CN 202311203472 A CN202311203472 A CN 202311203472A CN 116959587 A CN116959587 A CN 116959587A
Authority
CN
China
Prior art keywords
pathogenic microorganism
sequence
data
data point
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311203472.2A
Other languages
English (en)
Other versions
CN116959587B (zh
Inventor
马志
刘波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Saiweima Intelligent Technology Co ltd
Original Assignee
Shenzhen Saiweima Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Saiweima Intelligent Technology Co ltd filed Critical Shenzhen Saiweima Intelligent Technology Co ltd
Priority to CN202311203472.2A priority Critical patent/CN116959587B/zh
Publication of CN116959587A publication Critical patent/CN116959587A/zh
Application granted granted Critical
Publication of CN116959587B publication Critical patent/CN116959587B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2123/00Data types
    • G06F2123/02Data types in the time domain, e.g. time-series data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Evolutionary Computation (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及数字数据处理技术领域,提出了病原微生物数据实时在线分析系统,包括:获取病原微生物数据的时间序列;根据病原微生物数据的时间序列获取病原体异变指数,根据病原体异变指数获取异变指数序列,根据异变指数序列获取拟合数值序列,根据异变指数序列以及拟合数值序列获取病原体含量稳定度;根据异变指数序列获取异变指数阶梯序列,根据异变指数阶梯序列内数据的变化规律获取密集程度指标,基于病原体含量稳定度及密集程度指标获取局部密度;利用密度峰值聚类算法获取病原微生物数据的聚类簇,根据病原微生物数据的聚类簇获取最近容易感染的病原微生物。本发明利用局部密度改进密度峰值聚类算法,提高了对病原微生物数据的聚类准确度。

Description

病原微生物数据实时在线分析系统
技术领域
本发明涉及数字数据处理技术领域,具体涉及病原微生物数据实时在线分析系统。
背景技术
病原微生物是指可以侵犯人体细胞,引起病毒感染的微生物,病原微生物与人们的健康息息相关。食品的加工生产中受到环境卫生的影响,有较大的可能致使食品受到污染,产生病原微生物。比如,食用被污染的水产品容易导致食用者产生腹泻呕吐,严重时甚至引起发烧等症状。因此,随着人们生活水平的提升,病原微生物对人们健康影响的问题成为重点关注对象。
随着环境温度的变化,在不同的季节中容易引起人们发病的病原微生物不同,探索病原微生物的季节分布特征,对保障人们公共健康具有重要意义。目前,随着数据处理领域的发展,对病原微生物数据进行聚类分析,对探索病原微生物对人们健康的危害具有重要的现实意义。比如,常见的DPC密度聚类算法,适用于大规模数据的聚类分析,具有很好的研究价值和应用前景。但是,在应用于对病原微生物数据进行聚类分析中,由于不同患者血液中的病原微生物含量不同,患者的病原微生物数据容易会呈现密度不均匀的数据特征,此时聚类分析的结果准确性较低。
发明内容
本发明提供病原微生物数据实时在线分析系统,以解决病原微生物数据聚类分析准确性较低的问题,所采用的技术方案具体如下:
本发明一个实施例病原微生物数据实时在线分析系统,该系统包括以下模块:
数据采集模块,获取病原微生物的时间序列数据;
稳定状态分析模块,根据病原微生物的时间序列数据的截断距离获取每种病原微生物的时间序列中每个数据点的近邻数据点集,根据病原微生物数据的时间序列获取每种病原微生物的时间序列中的滑动窗口序列;根据每种病原微生物的时间序列中每个数据点的近邻数据点集及每种病原微生物的时间序列中的滑动窗口序列获取每种病原微生物的时间序列中每个数据点的病原体异变指数;根据每种病原微生物的时间序列中每个数据点的病原体异变指数获取每种病原微生物的异变指数序列,根据每种病原微生物的异变指数序列获取每种病原微生物的拟合数值序列;根据每种病原微生物的异变指数序列及拟合数值序列获取每种病原微生物的时间序列中每个数据点的病原体含量稳定度;
局部密度获取模块,根据每种病原微生物的异变指数序列获取每种病原微生物的异变指数阶梯序列;根据每种病原微生物的异变指数阶梯序列获取每种病原微生物的密集程度指标;根据每种病原微生物的时间序列中每个数据点的病原体含量稳定度及每种病原微生物的密集程度指标获取每种病原微生物的时间序列中每个数据点的局部密度;
决策模块,利用DPC密度峰值聚类算法获取样本数据的聚类结果,根据样本数据的聚类结果进行在线分析获取最近容易感染的病原微生物。
优选的,所述根据病原微生物的时间序列数据的截断距离获取每种病原微生物的时间序列中每个数据点的近邻数据点集,根据病原微生物数据的时间序列获取每种病原微生物的时间序列中的滑动窗口序列的方法为:
对于每种病原微生物的时间序列,利用DPC密度峰值聚类算法获取数据点的截断距离,将以每个数据点为中心数据点,以中心数据点的截断距离范围内的数据点作为每个数据点的近邻数据点集;
将预设大小的滑动窗口在病原微生物的时间序列按照预设滑动步长进行滑动,将滑动窗口在时间序列上每次滑动的结果作为每个滑动窗口序列。
优选的,所述根据每种病原微生物的时间序列中每个数据点的近邻数据点集及每种病原微生物的时间序列中的滑动窗口序列获取每种病原微生物的时间序列中每个数据点的病原体异变指数的方法为:
根据每种病原微生物的时间序列中每个数据点所处的滑动窗口获取每种病原微生物的时间序列中每个数据点的序列变异度;
对于每种病原微生物的时间序列中每个数据点,将数据点的近邻数据点集内数据的变异系数作为分子,将数据点的近邻数据点集内数据点的数目作为分母,将分子与分母的比值作为第一乘积因子;
将第一乘积因子与序列变异度的乘积作为每种病原微生物的时间序列中每个数据点的病原体异变指数。
优选的,所述根据每种病原微生物的时间序列中每个数据点所处的滑动窗口获取每种病原微生物的时间序列中每个数据点的序列变异度的方法为:
式中,表示第i种病原微生物的时间序列中第j个数据点的序列变异度,/>表示第i种病原微生物的时间序列中第j个数据点的数值,/>表示第i种病原微生物的时间序列中第j个数据点所处的第k个滑动窗口序列内数据点的数据均值,/>表示滑动窗口序列的大小,/>表示第i种病原微生物的时间序列中第j个数据点所处的第k个滑动窗口序列内其他的第s个数据点的数值。
优选的,所述根据每种病原微生物的时间序列中每个数据点的病原体异变指数获取每种病原微生物的异变指数序列,根据每种病原微生物的异变指数序列获取每种病原微生物的拟合数值序列的方法为:
对于每种病原微生物的时间序列,将每个数据点的病原体异变指数替换成数据点的数据值,将时间序列中所有数据点替换后的结果作为病原体微生物的异变指数序列;
对于每种病原微生物的异变指数序列,利用最小二乘非线性拟合算法得到异变指数序列的异变指数函数,将异变指数函数中所有极大值点对应的拟合数值按照由小到大的顺序组成的序列作为病原微生物的拟合数值序列。
优选的,所述根据每种病原微生物的异变指数序列及拟合数值序列获取每种病原微生物的时间序列中每个数据点的病原体含量稳定度的方法为:
式中,表示第i种病原微生物的时间序列中第j个数据点的病原体含量稳定度,表示第i种病原微生物的拟合数值序列中数据的数目,/>表示第i种病原微生物的异变指数序列中第j个数据点的病原体异变指数,/>表示第i种病原微生物的异变指数序列中所有数据点的病原体异变指数中的最小值,/>表示第i种病原微生物的拟合数值序列中第g个拟合数值,/>为误差参数。
优选的,所述根据每种病原微生物的异变指数序列获取每种病原微生物的异变指数阶梯序列的方法为:
对于每种病原微生物的异变指数序列,将异变指数序列中的每个数据点的数值进行向下取整处理,将所有数据点的数值向下取整处理后的结果按照由小到大的顺序且相同数值连续排列的方式组成的序列作为病原微生物的异变指数阶梯序列。
优选的,所述根据每种病原微生物的异变指数阶梯序列获取每种病原微生物的密集程度指标的具体方法为:
式中,表示第i种病原微生物的密集程度指标,/>表示第i种病原微生物的异变指数阶梯序列中阶梯的数目,/>和/>分别表示第i种病原微生物的异变指数阶梯序列中第q、第(q-1)个阶梯所代表的数值,/>和/>分别表示第i种病原微生物的异变指数阶梯序列中第q、第(q-1)个阶梯内数据的数目。
优选的,所述根据每种病原微生物的时间序列中每个数据点的病原体含量稳定度及每种病原微生物的密集程度指标获取每种病原微生物的时间序列中每个数据点的局部密度的方法为:
利用DPC密度峰值聚类算法获取每种病原微生物的时间序列中每个数据点的初始局部密度;
对于每种病原微生物的时间序列中每个数据点,获取数据点的病原体含量稳定度与数据点所属病原微生物的密集程度指标的乘积的归一化结果,将所述归一化结果与初始局部密度的乘积与初始局部密度的和作为数据点的局部密度。
优选的,所述利用DPC密度峰值聚类算法获取样本数据的聚类结果,根据样本数据的聚类结果进行在线分析获取最近容易感染的病原微生物的方法为:
将所有病原微生物的时间序列数据作为样本数据,将每个数据点的局部密度作为DPC密度峰值聚类算法中的密度度量标准,利用DPC密度峰值聚类算法得到样本数据的聚类簇;
将数据均值最大的聚类簇作为目标聚类簇,获取目标聚类簇中各种病原微生物的比例,将比例最大的病原微生物作为最近容易感染的病原微生物。
本发明的有益效果是:传统的DPC密度峰值聚类算法中只基于全局特征来计算局部密度,而病原微生物数据往往呈现密度不均匀的数据特征,所以基于全局特征计算的局部密度会导致部分数据点的局部密度与实际的差别较大,导致聚类效果较差。而本发明根据病原微生物数据的异变信息计算病原体含量稳定度,同时根据病原微生物数据的阶梯式特征计算密集程度指标,基于病原体含量稳定度与密集程度指标对传统算法中局部密度进行改进。其有益效果在于,局部密度的计算结合病原微生物数据的局部异变信息以及阶梯式的特征信息,使局部密度信息的完备性更强,避免只基于全局特征来计算局部密度,得到更好的聚类结果,使分析得到的比较容易感染的病原微生物更加可信。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的病原微生物数据实时在线分析系统的流程示意图;
图2为本发明一个实施例所提供的病原微生物的时间序列中的滑动窗口序列的示意图;
图3为本发明一个实施例所提供的病原微生物的异变指数函数的示意图;
图4为本发明一个实施例所提供的病原微生物的异变指数阶梯序列的数据分布特征的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明一个实施例提供的病原微生物数据实时在线分析系统流程图,该系统包括数据采集模块、稳定状态分析模块、局部密度获取模块、决策模块。
数据采集模块,获取病原微生物数据,利用病原微生物数据得到每种病原微生物的时间序列。
在医院的病原微生物数据平台上收集最近三个月内多名患者血液中的病原微生物数据,本发明收集500名患者的病原微生物数据,所述病原微生物数据包含大肠杆菌含量、布鲁氏菌含量、沙门氏菌含量以及金黄色葡萄球菌含量。对于每一种病原微生物,根据不同患者的看病时间,按照由早到晚的看病时间记录的顺序对患者的病原微生物数据进行排序获取病原微生物的时间序列。为了避免不同病原微生物的时间序列数据之间量纲对后续分析结果的影响,在此对每种病原微生物的时间序列数据进行归一化处理,归一化处理为公知技术,不做多余赘述。
任意一种病原微生物的时间序列为:
式中,表示第i种病原微生物的时间序列,/>和/>分别表示第i种病原微生物的时间序列中第1、第n个数据点的病原微生物含量。需要说明的是,第i种病原微生物的时间序列中第1、第n个数据点的病原微生物含量即为最近三个月中最早、最晚看病的患者的血液中第i种病原微生物含量。
至此,对病原微生物数据进行预处理后,获取到大肠杆菌、布鲁氏菌、沙门氏菌以及金黄色葡萄球菌的时间序列数据。
稳定状态分析模块,基于病原体微生物的时间序列获取近邻数据点集及滑动窗口序列,根据近邻数据点集及滑动窗口序列内数据的变化特征获取病原体异变指数,根据病原体异变指数构建异变指数序列及拟合数值序列,根据异变指数序列及拟合数值序列获取病原体含量稳定度。
病原微生物在不同的环境下,其含量往往不同。比如,所述大肠杆菌,温度较高的天气容易使食物受到大肠杆菌的污染,致使患者产生腹泻、恶心呕吐、乏力等症状。因此,由于环境的不稳定,病原微生物数据分布不同,其病原微生物的时间序列中不同数据点的局部密度也不同。而传统的DPC密度峰值聚类算法,通过每种病原微生物的数据样本,选取一个固定的截断距离,将每个数据点截断距离内的数据点数目来代表数据点的局部密度,由于病原微生物数据分布不同,传统算法获取的每个数据点的局部密度准确性较低,导致聚类分析结果的准确性较差。为了获取更加准确的聚类结果,进而对聚类结果进行分析,在此需要对数据点的局部密度进行更加准确的确定。
在此,以第i种病原微生物的时间序列为例,以第i种病原微生物的时间序列中每个数据点为中心数据点,利用DPC密度峰值聚类算法获取数据点的截断距离,将中心数据点的截断距离范围内的邻域数据点作为中心数据点的近邻数据点集,DPC密度峰值聚类算法为公知技术,不做多余赘述。同时,在第i种病原微生物的时间序列上设置滑动窗口,滑动窗口大小的经验取值为1×10,每次滑动步长为10,滑动窗口的大小实施者可以根据实际情况选取。
比如,为第i种病原微生物的时间序列中第1个滑动窗口序列,为第i种病原微生物的时间序列中第2个滑动窗口序列,以此类推,第i种病原微生物的时间序列中最后一个滑动窗口序列为第p个滑动窗口序列,滑动窗口序列的示意图如图2所示。
在此,根据第i种病原微生物的时间序列的滑动窗口序列以及数据点的近邻数据点集,计算第i种病原微生物的时间序列中每个数据点的病原体异变指数:
式中,表示第i种病原微生物的时间序列中第j个数据点的序列变异度,/>表示第i种病原微生物的时间序列中第j个数据点的数值,/>表示第i种病原微生物的时间序列中第j个数据点所处的第k个滑动窗口序列内数据点的数据均值,/>表示滑动窗口序列的大小,/>表示第i种病原微生物的时间序列中第j个数据点所处的第k个滑动窗口序列内其他的第s个数据点的数值,/>表示第i种病原微生物的时间序列中第j个数据点的病原体异变指数,/>表示第i种病原微生物的时间序列中第j个数据点的近邻数据点集内数据点的变异系数,/>表示第i种病原微生物的时间序列中第j个数据点的近邻数据点集内数据点的数目。
第i种病原微生物的时间序列中第j个数据点的数值与该数据点所处的第k个滑动窗口序列内数据点的数据均值之间的差异越大,说明数据点的数值越偏离正常数据水平,即该患者体内的第i种病原微生物含量异常,则数据点的病原体异变指数越大。第i种病原微生物的时间序列中第j个数据点的数值与其数据点所处的第k个滑动窗口序列内其他的第s个数据点的数值之间的差异/>越大,说明患者体内的第i种病原微生物含量与其他患者体内第i种病原微生物含量差异越大,则数据点的病原体异变指数越大。第i种病原微生物的时间序列中第j个数据点的近邻数据点集内数据点的变异系数越大,且第i种病原微生物的时间序列中第j个数据点的近邻数据点集内数据点的数目/>越小,即第一乘积因子/>越大,说明患者体内的第i种病原微生物含量异常程度越大,则数据点的病原体异变指数越大。
数据点的病原异变指数反映了数据点的变异程度,比如在第i个种病原微生物的时间序列中第j个数据点所代表的患者中,一定程度上说明该患者体内的第i种病原微生物含量在最近几个看病的患者当中出现了异常过大的现象,以及该患者体内的第i种病原微生物含量在最近三个月内看病的所有患者当中出现了异常特征相对较大。因此,从数据的角度分析异常现象,可以说明数据点的病原体异变指数越大,则该数据点的局部密度越小。
进一步地,为了避免原始序列中病原微生物含量大小对局部密度分析的影响,在此基于每个数据点的病原体异变指数获取每种病原微生物的异变指数序列。
具体地,根据每种病原微生物的时间序列中每个数据点的病原体异变指数构建每种病原微生物的异变指数序列:
式中,表示第i个种病原微生物的异变指数序列,/>和/>分别表示第i种病原微生物的时间序列中第1、第n个数据点的病原体异变指数。
病原微生物的异变指数序列中病原体异变指数的大小一定程度上反映了数据点局部密度的高低,所以异变指数序列中可以较为清晰的分析数据点的局部密度。在此,根据每种病原微生物的异变指数序列,利用最小二乘非线性拟合算法得到每种病原微生物的异变指数函数,异变指数函数的自变量表示异变指数序列中病原体异变指数的序列号,因变量表示病原体异变指数的拟合数值,最小二乘非线性拟合算法为公知技术,不做多余赘述。将第i种病原微生物的异变指数函数记为,其中/>为第i种病原微生物的异变指数序列中第1个病原体异变指数的拟合数值,/>为第i种病原微生物的异变指数序列中第2个病原体异变指数的拟合数值,以此类推。
进一步地,根据对每种病原微生物的异变指数函数求二阶导获取病原微生物的异变指数函数中的极大值点的病原体异变指数的拟合数值,即令且/>。根据每种病原微生物的异变指数函数中所有极大值点的拟合数据按照由小到大的顺序组合排序,得到每种病原微生物的拟合数值序列,将第i种病原微生物的拟合数值序列记为/>。异变指数函数的示意图如图3所示。
病原微生物的拟合数值序列中的拟合数值在病原微生物的所有拟合数值当中是相对较大,一定程度上反映了患者体内某种病原微生物含量异常过高的特征,同时反映了数据点的局部密度较小的数据分布特征。
在此,基于每种病原微生物的异变指数序列以及拟合数值序列,计算每种病原微生物的时间序列中每个数据点的病原体含量稳定度:
式中,表示第i种病原微生物的时间序列中第j个数据点的病原体含量稳定度,表示第i种病原微生物的拟合数值序列中数据的数目,/>表示第i种病原微生物的异变指数序列中第j个数据点的病原体异变指数,/>表示第i种病原微生物的异变指数序列中所有病原体异变指数中的最小值,/>表示第i种病原微生物的拟合数值序列中第/>个拟合数值,/>为误差参数,避免分母为零,经验取值为0.01。
第i种病原微生物的时间序列中第j个数据点的病原体异变指数越小,并且第i种病原微生物的时间序列中第j个数据点的病原体异变指数与第i种病原微生物的拟合数值序列中第g个拟合数值之间的差异/>越大,说明数据点的变异程度越小,即该患者体内的第i种病原微生物含量越稳定,则i种病原微生物的时间序列中第j个数据点的病原体含量稳定度/>越大,即数据点的局部密度越大。第i种病原微生物的时间序列中第j个数据点的病原体异变指数与第i种病原微生物的异变指数序列中所有病原体异变指数中的最小值之间的差异/>越小,说明患者体内的病原微生物含量越正常且异常程度越小,则i种病原微生物的时间序列中第j个数据点的病原体含量稳定度/>越大,即数据点的局部密度越大。
至此,获取每种病原微生物的时间序列中每个数据点的病原体含量稳定度。病原体含量稳定度一定程度上反映局部密度的信息,病原体含量稳定度越高,说明患者体内的病原微生物含量越趋于正常水平,由于一般情况下不同患者的病情不一样,其体内出现异常过大的病原微生物不同,即大多数患者体内的病原微生物含量维持在正常状态,所以病原体含量稳定度越高一定程度上说明数据点的局部密度越大。
局部密度获取模块,根据异变指数序列获取异变指数阶梯序列,根据异变指数阶梯序列获取密集程度指标,基于密集程度指标及病原体含量稳定度获取局部密度。
另外,从每种病原微生物的异变指数序列的角度分析。由于异变指数序列中的病原体异变指数是基于数据的分布特征得到的,病原体异变指数的大小可以较好地反映数据的密集性特征。此外,不同季节的温度变化,致使人们容易感染的病原微生物不同,在此为了获取不同病原微生物的密度特征,对每种病原微生物的异变指数序列进行进一步分析。
在此,根据每种病原微生物的异变指数序列,将异变指数序列中的数值进行向下取整处理,将处理后的数据按照由小到大的顺序且相同数值连续排列的方式组合,得到每种病原微生物的异变指数阶梯序列。例如,第i种病原微生物的异变指数阶梯序列。其中,/>为第i种病原微生物的异变指数阶梯序列中的第1个阶梯,/>为第i种病原微生物的异变指数阶梯序列中的第2个阶梯,…,/>为第i种病原微生物的异变指数阶梯序列中的最后一个阶梯,异变指数阶梯序列的示意图如图4所示。
异变指数阶梯序列中的数据变化反映了病原微生物的数据分布特征,第i种病原微生物的异变指数阶梯序列中阶梯的数目越少,且每个阶梯内的数据数目越多,反映了第i种病原微生物含量在患者体内越稳定,则第i种病原微生物数据的密集程度越大。
在此,计算每种病原微生物的密集程度指标:
式中,表示第i种病原微生物的密集程度指标,/>表示第i种病原微生物的异变指数阶梯序列中阶梯的数目,/>和/>分别表示第i种病原微生物的异变指数阶梯序列中第q、第(q-1)个阶梯所代表的数值,/>和/>分别表示第i种病原微生物的异变指数阶梯序列中第q、第(q-1)个阶梯内数据的数目。
第i种病原微生物的异变指数阶梯序列中阶梯的数目越小,且第i种病原微生物的异变指数阶梯序列中第q、第(q-1)个阶梯所代表的数值之间的差异/>越小,说明该病原微生物含量越趋于某一个稳定水平,即病原微生物数据的密集程度越大,则第i种病原微生物的密集程度指标越大。同时,第i种病原微生物的异变指数阶梯序列中第q、第(q-1)个阶梯内数据的数目之和/>越大,说明该病原微生物数据的集中程度越大,则第i种病原微生物的密集程度指标越大。
进一步地,传统的DPC密度峰值聚类算法中局部密度的计算只考虑数据的全局信息,没有考虑数据的局部信息,导致聚类的结果准确性较低。由于通过计算得到的病原体含量稳定度以及密集程度指标一定程度上都能反映病原微生物数据的局部密度信息,同时病原体含量稳定度和密集程度指标的计算都考虑了数据的局部信息,在此通过病原体含量稳定度和密集程度指标对DPC密度峰值聚类算法中的局部密度进行改进。
在此,计算每种病原微生物的时间序列中每个数据点的局部密度:
式中,表示第i种病原微生物的时间序列中第j个数据点的局部密度,/>表示第i种病原微生物的时间序列中第j个数据点的初始局部密度,/>为归一化函数,/>表示第i种病原微生物的时间序列中第j个数据点的病原体含量稳定度,/>表示第i种病原微生物的密集程度指标。需要说明的是,每个数据点的初始局部密度是利用传统的DPC算法获取的,DPC密度峰值聚类算法为公知技术,不做多余赘述。
第i种病原微生物的时间序列中第j个数据点的初始局部密度越大,并且该数据点的病原体含量稳定度/>越大,说明该数据点的邻近区域的数据密集性越强,则数据点的局部密度/>越大。同时,第i种病原微生物的密集程度指标/>越大,说明第i种病原微生物数据的密集程度越大,则数据点的局部密度/>越大。
至此,得到每种病原微生物的时间序列中每个数据点的局部密度。
决策模块,基于所获每种病原微生物的时间序列中每个数据点的局部密度,利用DPC密度峰值聚类算法得到样本数据的聚类结果,根据聚类结果在线分析最近容易感染的病原微生物。
根据上述步骤得到改进后的局部密度,将大肠杆菌、布鲁氏菌、沙门氏菌以及金黄色葡萄球菌的时间序列数据作为样本数据,利用DPC密度峰值聚类算法对样本数据进行聚类,获取聚类结果。根据聚类结果计算每个聚类簇中的数据均值,同时统计每个聚类簇中数据的数目,将所述聚类簇的数据均值最大的聚类簇提取出来,根据该聚类簇中各种病原微生物的比例,将比例最大的病原微生物作为最近容易感染的病原微生物。
由此,通过对病原微生物数据进行在线分析,获取最近比较容易感染的病原微生物,采取宣传的方式提醒人们进行防范,避免出现大量人群感染这种病原微生物。本发明中,病原微生物数据实时在线分析系统的具体流程如下:
1.获取病原微生物数据,并对数据进行预处理。
2.根据数据的近邻关系设置近邻数据点集,同时根据患者看病时间的近邻关系设置滑动窗口序列,基于数据点的近邻数据点集以及滑动窗口序列中数据的异常信息获取病原体异变指数。
3. 根据病原体异变指数构建每种病原微生物的异变指数序列,利用最小二乘非线性拟合算法获取每种病原微生物的异变指数函数,利用数学分析方法提取异变指数函数中极大值点的病原体异变指数的拟合数值,根据极大值点的病原体异变指数的拟合数值构建每种病原微生物的拟合数值序列,基于异变指数序列以及拟合数值序列获取病原体含量稳定度。
4.根据异变指数序列中数据的阶梯式特征构建异变指数阶梯序列,根据异变指数阶梯序列获取每种病原微生物的密集程度指标,基于病原体含量稳定度以及密集程度指标获取改进后数据点的局部密度,利用DPC密度峰值聚类算法获取病原微生物数据的聚类结果。
5.根据病原微生物数据的聚类结果,通过计算聚类结果中聚类簇内数据的数据均值,将数据均值最大的聚类簇提取出来,将该聚类簇中比例最大的病原微生物作为最近比较容易感染的病原微生物,采取宣传的方式提醒人们进行防范,避免出现大量人群感染这种病原微生物。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.病原微生物数据实时在线分析系统,其特征在于,该系统包括以下模块:
数据采集模块,获取病原微生物的时间序列数据;
稳定状态分析模块,根据病原微生物的时间序列数据的截断距离获取每种病原微生物的时间序列中每个数据点的近邻数据点集,根据病原微生物数据的时间序列获取每种病原微生物的时间序列中的滑动窗口序列;根据每种病原微生物的时间序列中每个数据点的近邻数据点集及每种病原微生物的时间序列中的滑动窗口序列获取每种病原微生物的时间序列中每个数据点的病原体异变指数;根据每种病原微生物的时间序列中每个数据点的病原体异变指数获取每种病原微生物的异变指数序列,根据每种病原微生物的异变指数序列获取每种病原微生物的拟合数值序列;根据每种病原微生物的异变指数序列及拟合数值序列获取每种病原微生物的时间序列中每个数据点的病原体含量稳定度;
局部密度获取模块,根据每种病原微生物的异变指数序列获取每种病原微生物的异变指数阶梯序列;根据每种病原微生物的异变指数阶梯序列获取每种病原微生物的密集程度指标;根据每种病原微生物的时间序列中每个数据点的病原体含量稳定度及每种病原微生物的密集程度指标获取每种病原微生物的时间序列中每个数据点的局部密度;
决策模块,利用DPC密度峰值聚类算法获取样本数据的聚类结果,根据样本数据的聚类结果进行在线分析获取最近容易感染的病原微生物。
2.根据权利要求1所述的病原微生物数据实时在线分析系统,其特征在于,所述根据病原微生物的时间序列数据的截断距离获取每种病原微生物的时间序列中每个数据点的近邻数据点集,根据病原微生物数据的时间序列获取每种病原微生物的时间序列中的滑动窗口序列的方法为:
对于每种病原微生物的时间序列,利用DPC密度峰值聚类算法获取数据点的截断距离,将以每个数据点为中心数据点,以中心数据点的截断距离范围内的数据点作为每个数据点的近邻数据点集;
将预设大小的滑动窗口在病原微生物的时间序列按照预设滑动步长进行滑动,将滑动窗口在时间序列上每次滑动的结果作为每个滑动窗口序列。
3.根据权利要求1所述的病原微生物数据实时在线分析系统,其特征在于,所述根据每种病原微生物的时间序列中每个数据点的近邻数据点集及每种病原微生物的时间序列中的滑动窗口序列获取每种病原微生物的时间序列中每个数据点的病原体异变指数的方法为:
根据每种病原微生物的时间序列中每个数据点所处的滑动窗口获取每种病原微生物的时间序列中每个数据点的序列变异度;
对于每种病原微生物的时间序列中每个数据点,将数据点的近邻数据点集内数据的变异系数作为分子,将数据点的近邻数据点集内数据点的数目作为分母,将分子与分母的比值作为第一乘积因子;
将第一乘积因子与序列变异度的乘积作为每种病原微生物的时间序列中每个数据点的病原体异变指数。
4.根据权利要求3所述的病原微生物数据实时在线分析系统,其特征在于,所述根据每种病原微生物的时间序列中每个数据点所处的滑动窗口获取每种病原微生物的时间序列中每个数据点的序列变异度的方法为:
式中,表示第i种病原微生物的时间序列中第j个数据点的序列变异度,/>表示第i种病原微生物的时间序列中第j个数据点的数值,/>表示第i种病原微生物的时间序列中第j个数据点所处的第k个滑动窗口序列内数据点的数据均值,/>表示滑动窗口序列的大小,表示第i种病原微生物的时间序列中第j个数据点所处的第k个滑动窗口序列内其他的第s个数据点的数值。
5.根据权利要求1所述的病原微生物数据实时在线分析系统,其特征在于,所述根据每种病原微生物的时间序列中每个数据点的病原体异变指数获取每种病原微生物的异变指数序列,根据每种病原微生物的异变指数序列获取每种病原微生物的拟合数值序列的方法为:
对于每种病原微生物的时间序列,将每个数据点的病原体异变指数替换成数据点的数据值,将时间序列中所有数据点替换后的结果作为病原体微生物的异变指数序列;
对于每种病原微生物的异变指数序列,利用最小二乘非线性拟合算法得到异变指数序列的异变指数函数,将异变指数函数中所有极大值点对应的拟合数值按照由小到大的顺序组成的序列作为病原微生物的拟合数值序列。
6.根据权利要求1所述的病原微生物数据实时在线分析系统,其特征在于,所述根据每种病原微生物的异变指数序列及拟合数值序列获取每种病原微生物的时间序列中每个数据点的病原体含量稳定度的方法为:
式中,表示第i种病原微生物的时间序列中第j个数据点的病原体含量稳定度,/>表示第i种病原微生物的拟合数值序列中数据的数目,/>表示第i种病原微生物的异变指数序列中第j个数据点的病原体异变指数,/>表示第i种病原微生物的异变指数序列中所有数据点的病原体异变指数中的最小值,/>表示第i种病原微生物的拟合数值序列中第/>个拟合数值,/>为误差参数。
7.根据权利要求1所述的病原微生物数据实时在线分析系统,其特征在于,所述根据每种病原微生物的异变指数序列获取每种病原微生物的异变指数阶梯序列的方法为:
对于每种病原微生物的异变指数序列,将异变指数序列中的每个数据点的数值进行向下取整处理,将所有数据点的数值向下取整处理后的结果按照由小到大的顺序且相同数值连续排列的方式组成的序列作为病原微生物的异变指数阶梯序列。
8.根据权利要求1所述的病原微生物数据实时在线分析系统,其特征在于,所述根据每种病原微生物的异变指数阶梯序列获取每种病原微生物的密集程度指标的具体方法为:
式中,表示第i种病原微生物的密集程度指标,/>表示第i种病原微生物的异变指数阶梯序列中阶梯的数目,/>和/>分别表示第i种病原微生物的异变指数阶梯序列中第q、第(q-1)个阶梯所代表的数值,/>和/>分别表示第i种病原微生物的异变指数阶梯序列中第q、第(q-1)个阶梯内数据的数目。
9.根据权利要求1所述的病原微生物数据实时在线分析系统,其特征在于,所述根据每种病原微生物的时间序列中每个数据点的病原体含量稳定度及每种病原微生物的密集程度指标获取每种病原微生物的时间序列中每个数据点的局部密度的方法为:
利用DPC密度峰值聚类算法获取每种病原微生物的时间序列中每个数据点的初始局部密度;
对于每种病原微生物的时间序列中每个数据点,获取数据点的病原体含量稳定度与数据点所属病原微生物的密集程度指标的乘积的归一化结果,将所述归一化结果与初始局部密度的乘积与初始局部密度的和作为数据点的局部密度。
10.根据权利要求1所述的病原微生物数据实时在线分析系统,其特征在于,所述利用DPC密度峰值聚类算法获取样本数据的聚类结果,根据样本数据的聚类结果进行在线分析获取最近容易感染的病原微生物的方法为:
将所有病原微生物的时间序列数据作为样本数据,将每个数据点的局部密度作为DPC密度峰值聚类算法中的密度度量标准,利用DPC密度峰值聚类算法得到样本数据的聚类簇;
将数据均值最大的聚类簇作为目标聚类簇,获取目标聚类簇中各种病原微生物的比例,将比例最大的病原微生物作为最近容易感染的病原微生物。
CN202311203472.2A 2023-09-19 2023-09-19 病原微生物数据实时在线分析系统 Active CN116959587B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311203472.2A CN116959587B (zh) 2023-09-19 2023-09-19 病原微生物数据实时在线分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311203472.2A CN116959587B (zh) 2023-09-19 2023-09-19 病原微生物数据实时在线分析系统

Publications (2)

Publication Number Publication Date
CN116959587A true CN116959587A (zh) 2023-10-27
CN116959587B CN116959587B (zh) 2024-01-09

Family

ID=88454861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311203472.2A Active CN116959587B (zh) 2023-09-19 2023-09-19 病原微生物数据实时在线分析系统

Country Status (1)

Country Link
CN (1) CN116959587B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349630A (zh) * 2023-12-04 2024-01-05 邢台医学高等专科学校 一种用于生化数据分析的方法及系统
CN118094268A (zh) * 2024-03-01 2024-05-28 山东华奕生命科学有限公司 一种面向食品安全监管的数据处理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766945A (zh) * 2019-01-11 2019-05-17 中国海洋大学 基于映射与密度峰值聚类结合的复杂网络构建方法
US20210166783A1 (en) * 2016-08-17 2021-06-03 The Broad Institute, Inc. Methods for identifying class 2 crispr-cas systems
WO2021260159A1 (en) * 2020-06-24 2021-12-30 Université de Lausanne Means and methods for classifying microbes
CN114861760A (zh) * 2022-04-04 2022-08-05 哈尔滨理工大学 一种基于密度峰值聚类算法的改进研究
US20220341909A1 (en) * 2021-04-23 2022-10-27 Poppy Health, Inc. System and method for characterizing, detecting, and monitoring pathogen populations in an indoor environment
CN116741268A (zh) * 2023-04-04 2023-09-12 中国人民解放军军事科学院军事医学研究院 筛选病原体关键突变的方法、装置及计算机可读存储介质
CN116756526A (zh) * 2023-08-17 2023-09-15 北京英沣特能源技术有限公司 一种蓄能设备全生命周期性能检测分析系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210166783A1 (en) * 2016-08-17 2021-06-03 The Broad Institute, Inc. Methods for identifying class 2 crispr-cas systems
CN109766945A (zh) * 2019-01-11 2019-05-17 中国海洋大学 基于映射与密度峰值聚类结合的复杂网络构建方法
WO2021260159A1 (en) * 2020-06-24 2021-12-30 Université de Lausanne Means and methods for classifying microbes
US20220341909A1 (en) * 2021-04-23 2022-10-27 Poppy Health, Inc. System and method for characterizing, detecting, and monitoring pathogen populations in an indoor environment
CN114861760A (zh) * 2022-04-04 2022-08-05 哈尔滨理工大学 一种基于密度峰值聚类算法的改进研究
CN116741268A (zh) * 2023-04-04 2023-09-12 中国人民解放军军事科学院军事医学研究院 筛选病原体关键突变的方法、装置及计算机可读存储介质
CN116756526A (zh) * 2023-08-17 2023-09-15 北京英沣特能源技术有限公司 一种蓄能设备全生命周期性能检测分析系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DONGHUA YU ET AL: ""Density Peaks Clustering Based on Weighted Local Density Sequence and Nearest Neighbor Assignment"", 《IEEE ACCESS》, vol. 7, pages 34301 - 34317, XP011716442, DOI: 10.1109/ACCESS.2019.2904254 *
JIANYUN LU ET AL: ""A New Density Clustering Method based on Dynamic Local Density"", 《2022 IEEE INTERNATIONAL CONFERENCE ON NETWORKING, SENSING AND CONTROL》, pages 1 - 6 *
薛鸣等: ""2011—2014 年浙江省其他感染性腹泻病发病及病原分析"", 《疾病监测》, vol. 31, no. 3, pages 209 - 214 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349630A (zh) * 2023-12-04 2024-01-05 邢台医学高等专科学校 一种用于生化数据分析的方法及系统
CN117349630B (zh) * 2023-12-04 2024-02-23 邢台医学高等专科学校 一种用于生化数据分析的方法及系统
CN118094268A (zh) * 2024-03-01 2024-05-28 山东华奕生命科学有限公司 一种面向食品安全监管的数据处理方法

Also Published As

Publication number Publication date
CN116959587B (zh) 2024-01-09

Similar Documents

Publication Publication Date Title
CN116959587B (zh) 病原微生物数据实时在线分析系统
CN106202891B (zh) 一种面向医疗质量评价的大数据挖掘方法
CN111243736B (zh) 一种生存风险评估方法及系统
CN109544538B (zh) 小麦赤霉病病害等级分级方法及装置
CN111144440A (zh) 一种专变用户日电力负荷特征的分析方法及装置
CN108345768B (zh) 一种确定婴幼儿肠道菌群成熟度的方法和标志物组合
CN105701280B (zh) 南美白对虾围塘养殖水质预测方法
CN112381364A (zh) 一种食品质量抽检的综合评价方法
CN116522268B (zh) 一种配电网的线损异常识别方法
CN113808747A (zh) 一种缺血性脑卒中复发预测方法
CN117786584B (zh) 基于大数据分析的畜牧业水源污染监测预警方法及系统
CN116308963A (zh) 一种政务数据分析方法及系统
CN117633697A (zh) 基于物联网的生猪智能监测方法及系统
CN117906726A (zh) 一种活牛体尺体重数据异常检测系统
CN102313715A (zh) 基于激光技术的蜂蜜品质检测方法
CN116612820B (zh) 基于数据分析的乳制品生产智能管理平台
CN104297136A (zh) 一种基于高光谱图像对铜绿假单胞杆菌生长预测的方法
Fan et al. Non-destructive detection of single-seed viability in maize using hyperspectral imaging technology and multi-scale 3D convolutional neural network
WO2022134579A1 (zh) 业务交易数据的异常检测方法、装置及计算机设备
CN115575737A (zh) 一种载流量检测方法及系统
CN114417227A (zh) 一种水体中叶绿素a浓度预测方法
Kumari et al. Improved Plant Disease Detection Techniques using Convolutional Neural Networks: A Survey
CN113539397A (zh) 一种仅利用患者样本的实时质量控制体系
CN114511127A (zh) 基于神经网络的区域光伏出力特征长期预测方法及系统
Zhao et al. Spectral indices redefined in detecting nitrogen availability for wheat canopy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant