CN117859064A - 用于生物学病症的动态免疫组织化学分析的系统和方法 - Google Patents

用于生物学病症的动态免疫组织化学分析的系统和方法 Download PDF

Info

Publication number
CN117859064A
CN117859064A CN202180092989.1A CN202180092989A CN117859064A CN 117859064 A CN117859064 A CN 117859064A CN 202180092989 A CN202180092989 A CN 202180092989A CN 117859064 A CN117859064 A CN 117859064A
Authority
CN
China
Prior art keywords
subject
disorder
disease
recursion
trained model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180092989.1A
Other languages
English (en)
Inventor
M·阿罗拉
P·柯廷
C·奥斯汀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Icahn School of Medicine at Mount Sinai
Original Assignee
Icahn School of Medicine at Mount Sinai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Icahn School of Medicine at Mount Sinai filed Critical Icahn School of Medicine at Mount Sinai
Publication of CN117859064A publication Critical patent/CN117859064A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/58Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving labelled substances
    • G01N33/582Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving labelled substances with fluorescent label
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/64Fluorescence; Phosphorescence
    • G01N21/6428Measuring fluorescence of fluorescent products of reactions or of fluorochrome labelled reactive substances, e.g. measuring quenching effects, using measuring "optrodes"
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/64Fluorescence; Phosphorescence
    • G01N21/645Specially adapted constructive features of fluorimeters
    • G01N21/6456Spatial resolved fluorescence measurements; Imaging
    • G01N21/6458Fluorescence microscopy
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/543Immunoassay; Biospecific binding assay; Materials therefor with an insoluble carrier for immobilising immunochemicals
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6893Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids related to diseases not provided for elsewhere
    • G01N33/6896Neurological disorders, e.g. Alzheimer's disease
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2333/00Assays involving biological materials from specific organisms or of a specific nature
    • G01N2333/435Assays involving biological materials from specific organisms or of a specific nature from animals; from humans
    • G01N2333/46Assays involving biological materials from specific organisms or of a specific nature from animals; from humans from vertebrates
    • G01N2333/47Assays involving proteins of known structure or function as defined in the subgroups
    • G01N2333/4701Details
    • G01N2333/4737C-reactive protein
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/28Neurological disorders
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/30Psychoses; Psychiatry
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/38Pediatrics

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Immunology (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • Pathology (AREA)
  • Public Health (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Urology & Nephrology (AREA)
  • Hematology (AREA)
  • General Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Biotechnology (AREA)
  • Medicinal Chemistry (AREA)
  • Food Science & Technology (AREA)
  • Microbiology (AREA)
  • Cell Biology (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Theoretical Computer Science (AREA)
  • Neurosurgery (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Neurology (AREA)
  • Software Systems (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Optics & Photonics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)

Abstract

本公开提供了用于预测受试者关于疾病或病症的诊断状态的方法和系统。所述方法可以包括:对所述受试者的牙齿、毛发或指甲样品进行染色以产生染色的牙齿样品,分析在空间上跨染色牙齿、毛发或指甲样品的荧光强度,以及至少部分地基于对所述荧光强度的分析来预测受试者关于疾病或病症的诊断状态。

Description

用于生物学病症的动态免疫组织化学分析的系统和方法
相关申请的交叉引用
本申请要求于2020年12月4日提交的美国临时专利申请第63/121,792号的权益,其通过引用整体并入本文。
背景技术
动态生物学响应可能指示对人类具有结构和功能意义的潜在生物学过程。例如,异常或反常的动态生物学响应可能与许多生物学病状有关,诸如疾病和病症。此类生物学病状的实例可能包括神经病状(例如,自闭症谱系障碍、精神分裂症或注意力缺陷/多动障碍(ADHD))、神经退行性疾病(例如,肌萎缩侧索硬化症(ALS)、阿尔茨海默病、帕金森氏病和亨廷顿舞蹈症疾病)和癌症(例如,小儿癌症)。
发明内容
鉴于上述背景,需要用于对生物学病状的诊断并且尤其是非侵入性诊断的准确的方法和系统。此类诊断可以基于对可用用于生物学病状的诊断的非侵入性方法检测到的生物标志物的准确分析。本公开提供用于对生物学病状的准确诊断改进的系统和方法,其基于对来自受试者的非侵入性获得的生物学样品的动态生物学响应数据的分析。此类用于对生物学病状的准确诊断的改进系统和方法可以基于对生物学样品的动态免疫组织化学分析与对此类动态曲线的人工智能数据分析的组合来评估疾病状态。本公开解决了这些需求,例如,通过提供用于对生物学病状的诊断的生物学样品生物标志物。生物学样品包括与增量生长相关的人类生物学样本。此类生物学样品可以是毛干、牙齿和指甲。本公开的非侵入性生物标志物可以用于对幼儿,甚至小于一岁的婴儿的诊断。
一方面,本公开提供了一种用于预测受试者关于疾病或病症的诊断状态的方法,该方法包括:(a)对受试者的牙齿样品进行染色以产生染色的牙齿样品;(b)分析在空间上跨染色的牙齿样品的荧光强度;以及(c)至少部分地基于对荧光强度的分析来预测受试者关于疾病或病症的诊断状态。
在一些实施例中,分析确定潜在生物学过程的时间动态。在一些实施例中,分析包括获得染色的牙齿样品的荧光图像,以及分析荧光图像的荧光强度。在一些实施例中,荧光强度在空间上是变化的。在一些实施例中,获得染色的牙齿样品的荧光图像包括使用倒置的或非倒置的共聚焦显微镜。在一些实施例中,对牙齿样品进行染色包括使用C反应蛋白免疫组织化学染色。在一些实施例中,该方法进一步包括将牙齿样品切片。在一些实施例中,对牙齿样品进行染色包括:(1)切割牙齿样品,(2)使牙齿样品脱钙,(3)对脱钙的样品进行切片,(4)用一抗和二抗对脱钙的牙齿切片进行染色,(5)用共聚焦显微镜测量空间抗体荧光,和/或(6)提取荧光强度的时间曲线。
在一些实施例中,疾病或病症包括:自闭症谱系障碍(ASD)、注意力缺陷/多动障碍(ADHD)、肌萎缩侧索硬化症(ALS)、精神分裂症、肠易激疾病(IBD)、小儿肾脏疾病、肾移植排斥反应、小儿癌症或它们的任何组合。在一些实施例中,疾病或病症包括ASD。在一些实施例中,受试者是人。在一些实施例中,受试者是成年人。在一些实施例中,受试者的年龄在约12岁与约5岁之间。在一些实施例中,受试者小于约12、11、10、9、8、7、5、4、3、2或1岁。在一些实施例中,受试者是至少约1、2、3、4、5、6、7、8、9、10、11或12岁。
在一些实施例中,分析包括至少部分地基于荧光强度生成炎症时间曲线,以及分析炎症时间曲线。在一些实施例中,炎症时间曲线的至少一部分对应于受试者的产前期。
在一些实施例中,预测受试者关于疾病或病症的诊断状态包括使用经训练的模型处理荧光强度。在一些实施例中,处理包括从荧光强度提取特征(例如,通过递归量化分析),以及使用经训练的模型分析特征。在一些实施例中,经训练的模型选自由以下各项组成的组:神经网络算法、支持向量机算法、决策树算法、无监督聚类算法、监督聚类算法、回归算法、梯度提升算法(例如,机器学习算法的梯度提升实现,诸如梯度提升决策树)和它们的任何组合。在一些实施例中,经训练的模型包括梯度提升集成模型。在一些实施例中,经训练的模型被配置为处理选自由以下各项组成的组的一个或多个特征:递归率、确定性、平均对角线长度、最大对角线长度、散度、对角线长度的香农熵、递归趋势、分层性、捕获时间、最大垂直线长度、垂直线长度的香农熵、平均递归时间、递归时间的香农熵、最可能平均对角线长度(MDL)的数量、递归时间(RT)、Vmax、确定性、Lmax和它们的任何组合。在一些实施例中,通过将递归量化分析(RQA)应用于源自样品的分析的荧光强度迹线来提取一个或多个特征。在一些实施例中,经训练的模型被配置为处理选自由以下各项组成的组的两个或更多个特征:递归率、确定性、平均对角线长度、最大对角线长度、散度、对角线长度的香农熵、递归趋势、分层性、捕获时间、最大垂直线长度、垂直线长度的香农熵、平均递归时间、递归时间的香农熵、最可能递归的数量、平均对角线长度(MDL)、递归时间(RT)、Vmax、确定性、Lmax和它们的任何组合。
在一些实施例中,该方法进一步包括使用在跨合适的队列人群预测关于疾病或病症的诊断状态时具有至少约70%、75%、80%、85%或90%的灵敏性的模型(例如,诸如下文实例部分中所提供的)来预测受试者关于疾病或病症的诊断状态。
在一些实施例中,该方法进一步包括使用在跨合适的队列人群预测关于疾病或病症的诊断状态时具有高达约70%、75%、80%、85%或90%的灵敏性的模型来预测受试者关于疾病或病症的诊断状态。
在一些实施例中,该方法进一步包括使用在跨合适的队列人群预测关于疾病或病症的诊断状态时具有至少约70%、75%、80%、85%或90%的特异性的模型来预测受试者关于疾病或病症的诊断状态。
在一些实施例中,该方法进一步包括使用在跨合适的队列人群预测关于疾病或病症的诊断状态时具有高达约70%、75%、80%、85%或90%的特异性的模型来预测受试者关于疾病或病症的诊断状态。
在一些实施例中,该方法进一步包括用在跨合适的队列人群预测关于疾病或病症的诊断状态时具有至少约70%、75%、80%、85%或90%的阳性预测值的模型来预测受试者关于疾病或病症的诊断状态。
在一些实施例中,该方法进一步包括用在跨合适的队列人群预测关于疾病或病症的诊断状态时具有高达约70%、75%、80%、85%或90%的阳性预测值的模型来预测受试者关于疾病或病症的诊断状态。
在一些实施例中,该方法进一步包括用在跨合适的队列人群预测关于疾病或病症的诊断状态时具有至少约70%、75%、80%、85%或90%的阴性预测值的模型来预测受试者关于疾病或病症的诊断状态。
在一些实施例中,该方法进一步包括用在跨合适的队列人群预测关于疾病或病症的诊断状态时具有高达约70%、75%、80%、85%或90%的阴性预测值的模型来预测受试者关于疾病或病症的诊断状态。
在一些实施例中,该方法进一步包括用以下模型预测受试者关于疾病或病症的诊断状态,其利用针对合适的队列人群的至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.82、至少约0.84、至少约0.86、至少约0.88或至少约0.90的接受者工作特性下面积(AUROC)来预测关于疾病或病症的诊断状态。
另一方面,本公开提供了一种装置,该装置包括一个或多个处理器,以及存储用于由一个或多个处理器执行的一个或多个程序的存储器,该一个或多个程序包括用于以下的指令:(a)对沿与受试者的c反应蛋白相关的受试者的生物学样品上的参考线的多个位置中的每个相应位置进行采样,从而获得多个荧光强度测量结果,多个荧光强度测量结果中的每个荧光强度测量结果对应于多个位置中的不同位置,并且多个位置中的每个位置代表与c反应蛋白相关的受试者的生物学样品的不同生长时期;(b)对跨生物学样品上的参考线的每个荧光强度进行分析,从而获得第一数据集;(c)从对应的多个荧光强度测量结果导出相应第二数据集,通过c反应蛋白荧光强度中的变化确定相应特征集中的每个对应的特征;并且(d)使用经训练的模型处理该特征以确定受试者具有与c反应蛋白相关的疾病或病症的可能性。在一些实施例中,通过将递归量化分析或相关的方法应用于对应的多个荧光强度测量结果来导出相应第二数据集。
在一些实施例中,多个荧光强度测量结果是用倒置的或非倒置的共聚焦显微镜测量的。在一些实施例中,生物学样品包括牙齿样品。在一些实施例中,使用C反应蛋白免疫组织化学染色对牙齿样品进行染色。在一些实施例中,指令进一步包括对牙齿样品进行切片。在一些实施例中,指令进一步包括使牙齿样品脱钙。在一些实施例中,疾病或病症包括:自闭症谱系障碍(ASD)、注意力缺陷/多动障碍(ADHD)、肌萎缩侧索硬化症(ALS)、精神分裂症、肠易激疾病(IBD)、小儿肾脏疾病、肾移植排斥反应、小儿癌症或它们的任何组合。在一些实施例中,疾病或病症包括ASD。在一些实施例中,受试者是人。在一些实施例中,人的年龄在约12岁与约5岁之间。在一些实施例中,受试者小于约12、11、10、9、8、7、5、4、3、2或1岁。在一些实施例中,受试者是至少约1、2、3、4、5、6、7、8、9、10、11或12岁。在一些实施例中,分析包括至少部分地基于多个荧光强度测量结果生成炎症时间曲线,以及分析炎症时间曲线。在一些实施例中,炎症时间曲线的至少一部分对应于受试者的产前期。在一些实施例中,预测受试者关于疾病或病症的诊断状态包括使用经训练的模型处理多个荧光强度测量结果。在一些实施例中,经训练的模型选自由以下各项组成的组:神经网络算法、支持向量机算法、决策树算法、无监督聚类算法、监督聚类算法、回归算法、梯度提升算法和它们的任何组合。在一些实施例中,经训练的模型包括梯度提升决策树。在一些实施例中,经训练的模型被配置为处理选自由以下各项组成的组的一个或多个特征:递归率、确定性、平均对角线长度、最大对角线长度、散度、对角线长度的香农熵、递归趋势、分层性、捕获时间、最大垂直线长度、垂直线长度的香农熵、平均递归时间、递归时间的香农熵、最可能递归的数量、平均对角线长度(MDL)、递归时间(RT)、Vmax、确定性、Lmax和它们的任何组合。在一些实施例中,经训练的模型被配置为处理选自由以下各项组成的组的两个或更多个特征:递归率、确定性、平均对角线长度、最大对角线长度、散度、对角线长度的香农熵、递归趋势、分层性、捕获时间(TT)、最大垂直线长度、垂直线长度的香农熵、平均递归时间、递归时间的香农熵、最可能递归的数量、平均对角线长度(MDL)、递归时间(RT)、Vmax、确定性、Lmax和它们的任何组合。
另一方面,本公开提供了一种非暂时性计算机可读存储介质和嵌入其中的一个或多个计算机程序,该一个或多个计算机程序包括指令,该指令在由计算机系统执行时使计算机系统执行包括以下的方法:(a)对沿与受试者的c反应蛋白相关的受试者的生物学样品上的参考线的多个位置中的每个相应位置进行采样,从而获得多个荧光强度测量结果,多个荧光强度测量结果中的每个荧光强度测量结果对应于多个位置中的不同位置,并且多个位置中的每个位置代表与c反应蛋白相关的受试者的生物学样品的不同生长时期;(b)对跨生物学样品上的参考线的每个荧光强度进行分析,从而获得第一数据集;(c)从对应的多个荧光强度测量结果导出相应第二数据集,通过c反应蛋白荧光强度中的顺序变异性确定对应的特征集中的每个相应特征;并且(d)使用经训练的模型处理该特征以确定受试者具有与c反应蛋白相关的疾病或病症的可能性。在一些实施例中,通过将递归量化分析或相关的方法应用于对应的多个荧光强度测量结果来导出相应第二数据集。
在一些实施例中,多个荧光强度测量结果是用倒置的或非倒置的共聚焦显微镜测量的。在一些实施例中,生物学样品包括牙齿样品。在一些实施例中,使用C反应蛋白免疫组织化学染色对牙齿样品进行染色。在一些实施例中,该方法进一步包括将牙齿样品切片。在一些实施例中,该方法进一步包括使牙齿样品脱钙。在一些实施例中,疾病或病症包括:自闭症谱系障碍(ASD)、注意力缺陷/多动障碍(ADHD)、肌萎缩侧索硬化症(ALS)、精神分裂症、肠易激疾病(IBD)、小儿肾脏疾病、肾移植排斥反应、小儿癌症或它们的任何组合。在一些实施例中,疾病或病症包括ASD。在一些实施例中,受试者是人。在一些实施例中,受试者小于5岁。在一些实施例中,受试者小于1岁。在一些实施例中,分析包括至少部分地基于多个荧光强度测量结果生成炎症时间曲线,以及分析炎症时间曲线。在一些实施例中,炎症时间曲线的至少一部分对应于受试者的产前期。在一些实施例中,预测受试者关于疾病或病症的诊断状态包括使用经训练的模型处理多个荧光强度测量结果。在一些实施例中,经训练的模型选自由以下各项组成的组:神经网络算法、支持向量机算法、决策树算法、无监督聚类算法、监督聚类算法、回归算法、梯度提升算法和它们的任何组合。在一些实施例中,经训练的模型包括梯度提升决策树。在一些实施例中,经训练的模型被配置为处理选自由以下各项组成的组的一个或多个特征:递归率、确定性、平均对角线长度、最大对角线长度、散度、对角线长度的香农熵、递归趋势、分层性、捕获时间、最大垂直线长度、垂直线长度的香农熵、平均递归时间、递归时间的香农熵、最可能递归的数量、平均对角线长度(MDL)、递归时间(RT)、Vmax、确定性、Lmax和它们的任何组合。在一些实施例中,经训练的模型被配置为处理选自由以下各项组成的组的两个或更多个特征:递归率、确定性、平均对角线长度、最大对角线长度、散度、对角线长度的香农熵、递归趋势、分层性、捕获时间(TT)、最大垂直线长度、垂直线长度的香农熵、平均递归时间、递归时间的香农熵、最可能递归的数量、平均对角线长度(MDL)、递归时间(RT)、Vmax、确定性、Lmax和它们的任何组合。
另一方面,本公开提供了一种用于训练模型的方法,该方法包括:在具有一个或多个处理器以及存储用于由一个或多个处理器执行的一个或多个程序的存储器的计算机系统处:(a)对于多个训练受试者中的每个相应训练受试者,其中多个训练受试者中的训练受试者的第一子集具有第一诊断状态,该第一诊断状态对应于具有与c反应蛋白相关的第一生物学病状,并且多个训练受试者中的训练受试者的第二子集具有第二诊断状态,该第二诊断状态对应于不具有与c反应蛋白相关的该第一生物学病状:(i)对沿与受试者的c反应蛋白相关的受试者的生物学样品上的参考线的多个位置中的每个相应位置采样,从而获得多个荧光强度测量结果,多个荧光强度测量结果中的每个荧光强度测量结果对应于多个位置中的不同位置,并且多个位置中的每个位置代表与c反应蛋白相关的受试者的生物学样品的不同生长时期;(ii)对跨生物学样品上的参考线的每个荧光强度进行分析,从而获得第一数据集;(iii)从对应的多个荧光强度测量结果导出相应第二数据集,通过c反应蛋白荧光强度中的变化确定对应的特征集中的每个相应特征;并且(b)以(i)多个训练受试者中的每个训练受试者的每个相应第二数据集的对应的特征集和(ii)多个训练受试者中的每个训练受试者的选自第一诊断状态和第二诊断状态的对应的诊断状态来训练未经训练或部分未经训练的模型,从而获得经训练的模型,经训练的模型基于针对从与测试受试者的c反应蛋白相关的生物学样品获取的特征集中的特征的值,提供对关于测试受试者是否具有与c反应蛋白相关的第一生物学病状的指示。在一些实施例中,通过将递归量化分析或相关的方法应用于对应的多个荧光强度测量结果来导出相应第二数据集。
在一些实施例中,经训练的模型是神经网络算法、支持向量机算法、决策树算法、无监督聚类模型算法、监督聚类模型算法、回归模型、梯度提升算法(例如,机器学习算法的梯度提升实现,诸如梯度提升决策树)或它们的任何组合。在一些实施例中,经训练的模型包括梯度提升集成模型。在一些实施例中,经训练的模型预测相对于多项式分布的结果。在一些实施例中,经训练的模型预测相对于二项式分布的结果。在一些实施例中,与c反应蛋白相关的第一生物学病状选自由以下各项组成的组:自闭症谱系障碍(ASD)、注意力缺陷/多动障碍(ADHD)、肌萎缩侧索硬化症(ALS)、精神分裂症、肠易激疾病(IBD)、小儿肾脏疾病、肾移植排斥反应和小儿癌症。
在一些实施例中,评估测试受试者的与c反应蛋白相关的第一生物学病状进一步包括在与c反应蛋白相关的第一生物学病状的存在和与c反应蛋白相关的第一生物学病状的不存在之间进行区分。在一些实施例中,评估测试受试者的与c反应蛋白相关的第一生物学病状进一步包括在与c反应蛋白相关的第一生物学病状和不同于与c反应蛋白相关的第一生物学病状的与c反应蛋白相关的第二生物学病状之间进行区分。在一些实施例中,第一生物学病状是自闭症谱系障碍,并且第二生物学病状是神经典型发育;也就是说,不存在神经发育障碍。在一些实施例中,第一生物学病状是自闭症谱系障碍,并且第二生物学病状是注意力缺陷/多动障碍。在一些实施例中,测试受试者是人。在一些实施例中,人的年龄在约12岁与约5岁之间。在一些实施例中,受试者小于约12、11、10、9、8、7、5、4、3、2或1岁。在一些实施例中,受试者是至少约1、2、3、4、5、6、7、8、9、10、11或12岁。在一些实施例中,与相应训练受试者的c反应蛋白相关的对应的生物学样品选自由毛干、牙齿和指甲组成的组。在一些实施例中,与相应训练受试者的c反应蛋白相关的对应的生物学样品是毛干并且参考线对应于毛干的纵向方向。在一些实施例中,与相应训练受试者的c反应蛋白相关的对应的生物学样品是牙齿并且参考线对应于跨生长带的方向,包括牙齿的新生线。在一些实施例中,对对应的多个位置进行排序,使得沿着与相应训练受试者的c反应蛋白相关的对应的生物学样品的对应的多个位置中的第一位置对应于最接近与相应训练受试者的c反应蛋白相关的对应的生物学样品的尖端的位置。在一些实施例中,对应的多个荧光强度测量结果中的每个迹线包括多个数据点,每个数据点是多个位置中的相应位置的实例。在一些实施例中,对应的特征集选自由以下各项组成的组:递归率、确定性、平均对角线长度、最大对角线长度、散度、对角线长度的香农熵、递归趋势、分层性、捕获时间、最大垂直线长度,垂直线长度的香农熵、平均递归时间、递归时间的香农熵、最可能递归的数量、平均对角线长度(MDL)、递归时间(RT)、Vmax、确定性、Lmax和它们的任何组合。在一些实施例中,特征从荧光迹线的递归量化分析或相关的计算分析导出。在一些实施例中,对应的多个位置包括至少1000、1500、2000、2500、3000、3500、4000、4500、5000、6000、7000、8000、9000、10000、12000、14000、16000、18000、20000或超过20000个位置。
本公开的另一方面提供了一种包括机器可执行代码的非暂时性计算机可读介质,该机器可执行代码在由一个或多个计算机处理器执行时实现上述或本文别处的任何方法。
本公开的另一方面提供了一种包括一个或多个计算机处理器和与其耦合的计算机存储器的系统。计算机存储器包括机器可执行代码,其在由一个或多个计算机处理器执行时实现上述或本文别处的任何方法。
对于本领域技术人员而言,根据以下详细说明,本公开的另外的方面和优点将变得显而易见,其中仅示出和描述了本公开的说明性实施例。如将认识到的,本公开能够具有其他且不同的实施例,并且其若干细节能够在各种明显的方面进行修改,而所有这些都不脱离本公开。因此,附图和说明书将在本质上被视为是说明性的而非限制性的。
通过引用并入
本说明书中所提到的所有公开、专利和专利申请均通过相同的程度引用结合在此,如同特定且单独地指示每个单独的公开、专利或专利申请是通过引用并入的。在通过引用并入的出版物和专利或专利申请与说明书中包含的公开内容相矛盾的程度上,说明书旨在取代和/或优先于任何此类矛盾材料。
附图说明
本发明的新颖特征在所附权利要求中具体阐述。通过参考阐述了说明性实施例的以下详细说明,将获得对本发明的特征和优点的更好理解,在所述实施例中利用了本发明的原理,并且在其附图(本文中也为“图(Figure)”和“图(FIG)”)中:
图1示出了本公开的计算装置100的框图的实例。
图2A至图2C示出了受试者的毛发样品(图2A),牙齿样品(图2B)和指甲样品(图2C)的图示。
图3示出了用于评估受试者的生物学病状的方法300的流程图。
图4示出了被编程或以其他方式配置为实现本文提供的方法的计算机系统。
图5示出了受试者的随时间变化的每日C反应蛋白图谱的实例,其中y轴指示CRP强度并且x轴指示发育年龄。
图6A至图6B示出了接受者工作特性(ROC)曲线以表征利用从产前和儿童早期(例如,1岁以下)取样的C反应蛋白图谱的递归量化分析导出的特征通过训练的模型在不同预测阈值下诊断自闭症的方法的灵敏性和特异性。装置性能是通过计算ROC图的曲线下面积(AUC)来衡量的,其提供了在不同分类阈值的性能的衡量;在这里,AUC为0.86,指示非常准确的预测性能。
具体实施方式
虽然已经在本文中示出和描述了本发明的各种实施例,但所属领域的技术人员应清楚此类实施例仅是作为实例而提供的。在不脱离本发明的情况下,本领域的技术人员可以意识到许多变化、改变和替代。应当理解,可以采用本文所描述的本发明的实施例的各种替代方案。
动态生物学响应可能指示对人类具有结构和功能意义的潜在生物学过程。例如,异常或反常的动态生物学响应可能与许多生物学病状有关,诸如疾病和病症。此类生物学病状的实例可能包括神经病状(例如,自闭症谱系障碍、精神分裂症或注意力缺陷/多动障碍(ADHD))、神经退行性疾病(例如,肌萎缩侧索硬化症(ALS)、阿尔茨海默病、帕金森氏病和亨廷顿舞蹈症疾病)和癌症(例如,小儿癌症)。
鉴于上述背景,需要用于对生物学病状的诊断并且尤其是非侵入性诊断的准确的方法和系统。此类诊断可以基于对可用用于生物学病状的诊断的非侵入性方法检测到的生物标志物的准确分析。本公开提供用于对生物学病状的准确诊断改进的系统和方法,其基于对来自受试者的非侵入性获得的生物学样品的动态生物学响应数据的分析。此类用于对生物学病状的准确诊断的改进系统和方法可以基于对生物学样品的动态免疫组织化学分析与对此类动态曲线的人工智能数据分析的组合来评估疾病状态。本公开解决了这些需求,例如,通过提供用于对生物学病状的诊断的生物学样品生物标志物。生物学样品包括与增量生长相关的人类生物学样本。此类生物学样品可以是毛干、牙齿和指甲。本公开的非侵入性生物标志物可以用于对幼儿,甚至小于一岁的婴儿的诊断。在一些情况下,儿童可以在约12岁与约5岁的年龄之间。在一些实施例中,儿童可以小于约12、11、10、9、8、7、5、4、3、2或1岁。在一些实施例中,儿童可以是至少约1、2、3、4、5、6、7、8、9、10、11或12岁。
在一方面,本公开提供了一种用于预测受试者关于疾病或病症的诊断状态的方法,该方法包括:(a)对受试者的牙齿样品进行染色以产生染色的牙齿样品;(b)分析在空间上跨染色的牙齿样品的荧光强度;以及(c)至少部分地基于对荧光强度的分析来预测受试者关于疾病或病症的诊断状态。
在一些实施例中,分析包括获得染色的牙齿样品的荧光图像,以及分析荧光图像的荧光强度。在一些实施例中,获得染色的牙齿样品的荧光图像包括使用倒置的或非倒置的共聚焦显微镜。在一些实施例中,对牙齿样品进行染色包括使用C反应蛋白免疫组织化学染色。在一些实施例中,该方法进一步包括将牙齿样品切片。在一些实施例中,对牙齿样品进行染色包括使牙齿样品脱钙。
在一些实施例中,本文公开的系统和方法可以使用单独的C反应蛋白荧光免疫组织化学染色,或使用其与其他技术的组合。此类技术可以包括激光烧蚀电感耦合等离子体质谱法(LA-ICP-MS)、拉曼光谱法或它们的任何组合。在一些实施例中,组合技术可以提高单独给定技术的诊断准确性或精确性。在一些实施例中,添加LA-ICP-MS可以提供给定生物学样品的多个非侵入性金属代谢生物标志物,这些生物标志物可以补充C反应蛋白荧光免疫组织化学数据的诊断能力。在一些实施例中,金属代谢生物标志物可以包括锌、锡、镁、铜、碘化物、锂、铝、磷、硫、钙、铬、锰、铁、钴、镍、砷、锶、镉、锡、碘、钡、汞、铅、铋、钼或它们的任何组合。在一些实施例中,添加拉曼光谱可以提供多个指示由疾病或外部应激源诱导的生理变化的光谱以补充C反应蛋白荧光免疫组织化学数据的诊断能力。
在一些实施例中,疾病或病症包括:自闭症谱系障碍(ASD)、注意力缺陷/多动障碍(ADHD)、肌萎缩侧索硬化症(ALS)、精神分裂症、肠易激疾病(IBD)、小儿肾脏疾病、肾移植排斥反应、小儿癌症或它们的任何组合。在一些实施例中,疾病或病症包括ASD。在一些实施例中,受试者是人。在一些实施例中,受试者是成年人。在一些实施例中,受试者可以在约12与约5岁的年龄之间。在一些实施例中,受试者可以小于约12、11、10、9、8、7、5、4、3、2或1岁。在一些实施例中,受试者可以是至少约1、2、3、4、5、6、7、8、9、10、11或12岁。
在一些实施例中,分析包括至少部分地基于荧光强度生成炎症时间曲线,以及分析炎症时间曲线。在一些实施例中,炎症时间曲线的至少一部分对应于受试者的产前期。
在一些实施例中,预测受试者关于疾病或病症的诊断状态包括使用经训练的模型处理荧光强度。在一些实施例中,该经训练的模型包括多个参数,其中术语“参数”是指模型中的任何系数或类似地,内部或外部元素(例如,权重和/或超参数)的任何值(例如,其中模型是回归量或分类器),其可以影响(例如,修改、定制和/或调整)模型中的一个或多个输入、输出和/或函数。例如,在一些实施例中,模型的参数是指可以用于控制、修改、定制和/或调整模型的行为、学习和/或性能的任何系数、权重和/或超参数。在一些情况下,参数用于增加或减少输入(例如,特征)对模型的影响。作为非限制性实例,在一些实施例中,参数用于增加或减少(例如,神经网路的)节点的影响,其中节点包括一个或多个激活函数。将参数指派至模型的特定输入、输出和/或函数不限于给定模型的任何一个范式,但可以用于任何合适的模型以实现所需效能。在一些实施例中,参数具有固定值。在一些实施例中,可手动地及/或自动地调整参数的值。在一些实施例中,通过模型的验证和/或训练过程(例如,通过误差最小化和/或反向传播方法)来修改参数的值。在一些实施例中,本公开的模型包括多个参数。在一些实施例中,与模型(例如,未训练、部分训练和完全经训练的模型)相关的多个参数为n个参数,其中:n≥2;n≥5;n≥10;n≥25;n≥40;n≥50;n≥75;n≥100;n≥125;n≥150;n≥200;n≥225;n≥250;n≥350;n≥500;n≥600;n≥750;n≥1,000;n≥2,000;n≥4,000;n≥5,000;n≥7,500;n≥10,000;n≥20,000;n≥40,000;n≥75,000;n≥100,000;n≥200,000;n≥500,000、n≥1×106、n≥5×106或n≥1×107。在一些实施例中,n在10,000与1×107之间、在100,000与5×106之间或在500,000与1×106之间。
在一些实施例中,使用经训练的模型处理荧光强度包括从荧光强度提取特征(例如,通过递归量化分析),以及使用经训练的模型分析特征。在一些实施例中,经训练的模型选自由以下各项组成的组:神经网络算法、支持向量机算法、决策树算法、无监督聚类算法、监督聚类算法、回归算法、梯度提升算法(例如,机器学习算法的梯度提升实现,诸如梯度提升决策树)和它们的任何组合。在一些实施例中,经训练的模型包括梯度提升集成模型。在一些实施例中,经训练的模型被配置为处理选自由以下各项组成的组的一个或多个特征:递归率、确定性、平均对角线长度、最大对角线长度、散度、对角线长度的香农熵、递归趋势、分层性、捕获时间、最大垂直线长度、垂直线长度的香农熵、平均递归时间、递归时间的香农熵、最可能递归的数量、平均对角线长度(MDL)、递归时间(RT)、Vmax、确定性、Lmax和它们的任何组合。在一些实施例中,通过将递归量化分析(RQA)应用于源自样品的分析的荧光强度迹线来提取一个或多个特征。在一些实施例中,经训练的模型被配置为处理选自由以下各项组成的组的两个或更多个特征:递归率、确定性、平均对角线长度、最大对角线长度、散度、对角线长度的香农熵、递归趋势、分层性、捕获时间、最大垂直线长度、垂直线长度的香农熵、平均递归时间、递归时间的香农熵、最可能递归的数量、平均对角线长度(MDL)、递归时间(RT)、Vmax、确定性、Lmax和它们的任何组合。
在一些实施例中,该方法进一步包括以至少约80%的灵敏性预测受试者关于疾病或病症的诊断状态。在一些实施例中,该方法进一步包括以至少约80%的特异性预测受试者关于疾病或病症的诊断状态。在一些实施例中,该方法进一步包括以至少约80%的阳性预测值预测受试者关于疾病或病症的诊断状态。在一些实施例中,该方法进一步包括以至少约80%的阴性预测值预测受试者关于疾病或病症的诊断状态。在一些实施例中,该方法进一步包括以至少约0.80的接受者工作特性下面积(AUROC)预测受试者关于疾病或病症的诊断状态。
另一方面,本公开提供了一种装置,该装置包括一个或多个处理器,以及存储用于由一个或多个处理器执行的一个或多个程序的存储器,该一个或多个程序包括用于以下的指令:(a)对沿与受试者的c反应蛋白相关的受试者的生物学样品上的参考线的多个位置中的每个相应位置进行采样,从而获得多个荧光强度测量结果,多个荧光强度测量结果中的每个荧光强度测量结果对应于多个位置中的不同位置,并且多个位置中的每个位置代表与c反应蛋白相关的受试者的生物学样品的不同生长时期;(b)对跨生物学样品上的参考线的每个荧光强度进行分析,从而获得第一数据集;(c)从对应的多个荧光强度测量结果导出相应第二数据集,通过c反应蛋白荧光强度中的顺序变异性确定对应的特征集中的每个相应特征;并且(d)使用经训练的模型处理该特征以确定受试者具有与c反应蛋白相关的疾病或病症的可能性。在一些实施例中,通过将递归量化分析或相关的方法应用于对应的多个荧光强度测量结果来导出相应第二数据集。
另一方面,本公开提供了一种非暂时性计算机可读存储介质和嵌入其中的一个或多个计算机程序,该一个或多个计算机程序包括指令,该指令在由计算机系统执行时使计算机系统执行包括以下的方法:(a)对沿与受试者的c反应蛋白相关的受试者的生物学样品上的参考线的多个位置中的每个相应位置进行采样,从而获得多个荧光强度测量结果,多个荧光强度测量结果中的每个荧光强度测量结果对应于多个位置中的不同位置,并且多个位置中的每个位置代表与c反应蛋白相关的受试者的生物学样品的不同生长时期;(b)对跨生物学样品上的参考线的每个荧光强度进行分析,从而获得第一数据集;(c)从对应的多个荧光强度测量结果导出相应第二数据集,通过c反应蛋白荧光强度中的顺序变异性确定对应的特征集中的每个相应特征;并且(d)使用经训练的模型处理该特征以确定受试者具有与c反应蛋白相关的疾病或病症的可能性。在一些实施例中,通过将递归量化分析或相关的方法应用于对应的多个荧光强度测量结果来导出相应第二数据集。
另一方面,本公开提供了一种用于训练模型的方法,该方法包括:在具有一个或多个处理器以及存储用于由一个或多个处理器执行的一个或多个程序的存储器的计算机系统处:(a)对于多个训练受试者中的每个相应训练受试者,其中多个训练受试者中的训练受试者的第一子集具有第一诊断状态,该第一诊断状态对应于具有与c反应蛋白相关的第一生物学病状,并且多个训练受试者中的训练受试者的第二子集具有第二诊断状态,该第二诊断状态对应于不具有与c反应蛋白相关的该第一生物学病状:(i)对沿与受试者的c反应蛋白相关的受试者的生物学样品上的参考线的多个位置中的每个相应位置采样,从而获得多个荧光强度测量结果,多个荧光强度测量结果中的每个荧光强度测量结果对应于多个位置中的不同位置,并且多个位置中的每个位置代表与c反应蛋白相关的受试者的生物学样品的不同生长时期;(ii)对跨生物学样品上的参考线的每个荧光强度进行分析,从而获得第一数据集;(iii)从对应的多个荧光强度测量结果导出相应第二数据集,通过c反应蛋白荧光强度中的变化确定对应的特征集中的每个相应特征;并且(b)以(i)多个训练受试者中的每个训练受试者的每个相应第二数据集的对应的特征集和(ii)多个训练受试者中的每个训练受试者的选自第一诊断状态和第二诊断状态的对应的诊断状态来训练未经训练或部分未经训练的模型,从而获得经训练的模型,经训练的模型基于针对从与测试受试者的c反应蛋白相关的生物学样品获取的特征集中的特征的值,提供对关于测试受试者是否具有与c反应蛋白相关的第一生物学病状的指示。在一些实施例中,通过将递归量化分析或相关的方法应用于对应的多个荧光强度测量结果来导出相应第二数据集。
在一些实施例中,经训练的模型是神经网络算法、支持向量机算法、决策树算法、无监督聚类模型算法、监督聚类模型算法、回归模型、梯度提升算法(例如,机器学习算法的梯度提升实现,诸如梯度提升决策树)或它们的任何组合。在一些实施例中,经训练的机器学习模型包括梯度提升集成模型。在一些实施例中,经训练的模型预测相对于多项式分布的结果。在一些实施例中,经训练的模型预测相对于二项式分布的结果。在一些实施例中,与c反应蛋白相关的第一生物学病状选自由以下各项组成的组:自闭症谱系障碍(ASD)、注意力缺陷/多动障碍(ADHD)、肌萎缩侧索硬化症(ALS)、精神分裂症、肠易激疾病(IBD)、小儿肾脏疾病、肾移植排斥反应和小儿癌症。
在一些实施例中,评估测试受试者的与c反应蛋白相关的第一生物学病状进一步包括在与c反应蛋白相关的第一生物学病状的存在和与c反应蛋白相关的第一生物学病状的不存在之间进行区分。在一些实施例中,评估测试受试者的与c反应蛋白相关的第一生物学病状进一步包括在与c反应蛋白相关的第一生物学病状和不同于与c反应蛋白相关的第一生物学病状的与c反应蛋白相关的第二生物学病状之间进行区分。在一些实施例中,第一生物学病状是自闭症谱系障碍,并且第二生物学病状是神经典型发育;也就是说,不存在神经发育障碍。在一些实施例中,第一生物学病状是自闭症谱系障碍,并且第二生物学病状是注意力缺陷/多动障碍。在一些实施例中,测试受试者是人。在一些实施例中,人可以在约12至约5岁的年龄之间。在一些实施例中,人可以小于约12、11、10、9、8、7、5、4、3、2或1岁。在一些实施例中,人可以是至少约1、2、3、4、5、6、7、8、9、10、11或12岁。在一些实施例中,与相应训练受试者的c反应蛋白相关的对应的生物学样品选自由毛干、牙齿和指甲组成的组。在一些实施例中,与相应训练受试者的c反应蛋白相关的对应的生物学样品是毛干并且参考线对应于毛干的纵向方向。在一些实施例中,与相应训练受试者的c反应蛋白相关的对应的生物学样品是牙齿并且参考线对应于跨生长带的方向,包括牙齿的新生线。在一些实施例中,对对应的多个位置进行排序,使得沿着与相应训练受试者的c反应蛋白相关的对应的生物学样品的对应的多个位置中的第一位置对应于最接近与相应训练受试者的c反应蛋白相关的对应的生物学样品的尖端的位置。在一些实施例中,对应的多个荧光强度测量结果中的每个迹线包括多个数据点,每个数据点是多个位置中的相应位置的实例。在一些实施例中,对应的特征集选自由以下各项组成的组:递归率、确定性、平均对角线长度、最大对角线长度、散度、对角线长度的香农熵、递归趋势、分层性、捕获时间、最大垂直线长度,垂直线长度的香农熵、平均递归时间、递归时间的香农熵、最可能递归的数量、平均对角线长度(MDL)、递归时间(RT)、Vmax、确定性、Lmax和它们的任何组合。在一些实施例中,特征从荧光迹线的递归量化分析或相关的计算分析导出。在一些实施例中,对应的多个位置包括至少1000、1500、2000、2500、3000、3500、4000、4500、5000、6000、7000、8000、9000、10000、12000、14000、16000、18000、20000或超过20000个位置。
示例性系统的细节结合图1进行描述,其示出了本公开的计算装置100的框图的实例。在一些实施方式中,装置100包括一个或多个处理单元CPU 102(也称为处理器)、一个或多个网络接口104、用户界面106、非持久性存储器111、持久性存储器112和用于互连这些组件的一个或多个通信总线114。一个或多个通信总线114可选地包括互连并控制系统组件之间的通信的电路(有时称为芯片组)。非持久性存储器111通常包括高速随机存取存储器,诸如DRAM、SRAM、DDR RAM、ROM、EEPROM、闪存,而持久性存储器112通常包括CD-ROM、数字多功能盘(DVD)或其它光存储、磁带盒、磁带、磁盘存储或其它磁存储装置、磁盘存储装置、光盘存储装置、闪存装置或其它非易失性固态存储装置。持久性存储器112可选地包括远离CPU102的一个或多个存储装置。持久性存储器112和非持久性存储器112内的非易失性存储装置包含非暂时性计算机可读存储介质。在一些实施方式中,非持久性存储器111或替代地非暂时性计算机可读存储介质存储以下程序、模块和数据结构或它们的子集,有时与持久性存储器112结合:任选的操作系统116,其包括处理各种基本系统服务和执行硬件相关任务的过程;任选的网络通信模块(或指令)118,其用于将系统100与其他装置和/或通信网络104连接;任选的分类器训练模块120,其用于训练模型以评估受试者的生物学病状;任选的数据存储122,其用于来自训练受试者的生物学样品的数据集,包括一个或多个训练受试者124的特征数据,其中特征数据包括与每个特征126相关联的参数,和诊断状态128(例如,指示相应训练受试者已经被诊断出患有生物学病状或未被诊断出患有生物学病状);任选的分类器验证模块130,其用于验证区分生物学病状的模型;任选的数据存储132,其用于来自验证受试者的生物学样品的数据集;以及任选的患者分类模块134,其用于将受试者分类为具有生物学病状,例如,如使用分类器训练模块120进行训练的。
在各种实施方案中,一个或多个上述元件存储在一个或多个先前提及的存储器装置中,并且对应于用于执行上述功能的指令集。以上鉴定的模块、数据或程序(例如,指令集)不需要被实现为单独的软件程序、过程、数据集或模块,并且因此这些模块和数据的各种子集可以在各种实现方式中被组合或以其它方式重新排列。在一些实现方式中,非持久性存储器111可选地存储以上鉴定的模块和数据结构的子集。此外,在一些实施例中,存储器存储以上未描述的附加模块和数据结构。在一些实施例中,上述鉴定的元件中的一个或多个存储在除了可视化系统100之外的计算机系统中,该计算机系统可由可视化系统100寻址,使得可视化系统100可以在需要时检索这些数据的全部或一部分。
在一些实施例中,系统100连接到或包括一个或多个用于执行化学分析的分析装置。例如,任选的网络通信模块(或指令)118被配置为将系统100与一个或多个分析装置连接,例如,经由通信网络104。在一些实施例中,一个或多个分析装置包括激光烧蚀电感耦合等离子体质谱仪(LA-ICP-MS)、荧光图像传感器或拉曼光谱仪。
尽管图1描绘了“系统100”,但是该图更多地旨在作为可能存在于计算机系统中的各种特征的功能描述,而不是作为本文所描述的实施例的结构示意图。在实践中,并且如本领域普通技术人员所认识到的,单独示出的项目可以被组合并且一些项目可以被分离。此外,尽管图1描绘了非持久性存储器111中的某些数据和模块,但是这些数据和模块中的一些或全部可以在持久性存储器112中。
在一些实施例中,本公开的方法包括获得生物学样品(例如,包括毛干的一缕毛发)。受试者可以为人。在一些实施例中,受试者是年龄等于或低于5岁的儿童(例如,儿童年龄等于或低于5岁、4岁、3岁、2岁、1岁、9个月、6个月、3个月或1个月)。在一些实施例中,受试者是成年人。图2A示出了包括毛干的受试者的毛发样品的实例。毛发样品可以简单地从受试者身上剪下来(例如,借助剪刀)。获得毛发样品的方法可以是非侵入性的。获得的毛发样品可以具有至少1cm的长度(例如,毛发样品为1cm、2cm、3cm、4cm或5cm长)。毛发样品可以包括毛发的任何部分(例如,尖端或尖端与毛囊之间的部分)。特别地,对于毛发样品中包含毛囊没有特殊要求。图2B示出了受试者的牙齿样品的实例。图2C示出了受试者的指甲样品的实例。在指甲或毛发的情况下,获得生物学样品可以指定位受试者使得可以对指甲或毛发进行采样。指甲样品可以包括完整的指甲或指甲屑。
在一些实施例中,对获得的生物学样品进行预处理,诸如通过用一种或多种溶剂和/或表面活性剂洗涤生物学样品并且干燥来进行预处理。在生物学样品是毛发的情况下,毛发样品可以在TRITON和超纯无金属水(例如MILLI-/>水)的溶液中洗涤并且在烘箱中干燥过夜(例如,在60摄氏度)。预处理可以进一步包括通过将毛干放置在有粘合膜(例如,双面胶带)的载玻片(例如,显微载玻片)上来准备用于测量的毛干。毛干可以被定位成使得毛干基本上是直的。带有毛干的载玻片可以放置在测量系统(例如,激光烧蚀电感耦合等离子体质谱仪(LA-ICP-MS)、荧光图像传感器或拉曼光谱仪)内或附近用于执行分析。在生物学样品是牙齿或指甲的情况下,可以清洁生物学样品的表面(例如,通过表面活性剂、水或一种或多种溶剂)。在一些情况下,样品可以在执行分析之前、之后、在紧接执行分析之前或在关于执行分析的时间范围的任何组合脱钙,如本文别处所述。在一些情况下,使样品脱钙可以包括以下步骤:(a)将牙齿浸泡在乙二胺四乙酸(EDTA)的溶液中,其中EDTA可以包括约7.0至约7.4的pH,达最多约5周的时间段;(b)每周给牙齿称重一次;(c)当牙齿的重量变化平稳时取出样品。可以将样品放置在测量系统(例如,激光烧蚀-电感耦合等离子体-质谱仪(LA-ICP-MS)、荧光图像传感器或拉曼光谱仪)内或附近用于执行分析。
图3示出了用于评估受试者的生物学病状的方法300的流程图,诸如用于预测受试者关于疾病或病症的诊断状态的方法。方法300可以包括对受试者的牙齿样品进行染色以产生染色的牙齿样品(如在操作302中)。接下来,方法300可以包括分析在空间上跨染色的牙齿样品的荧光强度(如在操作304中)。接下来,方法300可以包括至少部分地基于荧光强度的分析来预测受试者关于疾病或病症的诊断状态(如在操作306中)。
在一些实施例中,分析包括获得染色的牙齿样品的荧光图像,以及分析荧光图像的荧光强度。在一些实施例中,获得染色的牙齿样品的荧光图像包括使用倒置的或非倒置的共聚焦显微镜。在一些实施例中,对牙齿样品进行染色包括使用C反应蛋白免疫组织化学染色。在一些实施例中,该方法进一步包括将牙齿样品切片。在一些实施例中,对牙齿样品进行染色包括使牙齿样品脱钙。
在一些实施例中,分析包括至少部分地基于荧光强度生成炎症时间曲线,以及分析炎症时间曲线。在一些实施例中,炎症时间曲线的至少一部分对应于受试者的产前期。
可以在沿着生物学样品的多个位置处从生物学样品顺序地收集测量数据。在一些实施例中,沿着生物学样品的参考线的多个位置包括至少100个位置(例如,1000、1500、2000、2500、3000、3500、4000、4500、5000、6000、7000、8000、9000、10000、12000、14000、16000、18000、20000或超过20000个位置)。在一些实施例中,相应位置彼此相邻。通过这种方法,对应于生物学样品上不同位置的每个区域可以因此与动态(例如,随时间变化的)丰度测量相关。在一些实施例中,相应位置通过预定距离分开。在一些实施例中,采样是沿着生物学样品的参考线从最接近诸如毛发样品的生物学样品尖端的相应位置开始(例如,在对应于受试者的最小年龄的位置处)执行的。一般来说,可以从最靠近尖端或根部的相应位置开始执行采样,只要采样的方向已知,并且使用适当的经训练的模型进行分析即可。
采样可以产生数据点集。每组数据点可以对应于物质的测量结果(例如,丰度或浓度),其指示在沿着生物学样品的多个位置处测量的动态生物学响应。生物学样品的参考线上的每个位置可以对应于生物学样品的特定生长时间。
在一些实施例中,在牙齿的生物学样品的情况下,参考线可以包括240至510天的生长(例如,牙冠形成的时期取决于牙齿类型)。在一些实施例中,沿参考线的每个位置可以对应于约1至约0.5微米。替代地,或除此之外,生物学样品可以包括毛干,其中沿参考线的位置对应于约5min的生长(例如,使用1微米分辨率和每月1cm的毛发平均生长速率计算的毛发生长期)。通过将沿生物学样品的参考线的多个位置与对应的生长时间段相关联,获得包括多个迹线的第一数据集。每条迹线包括物质的时间依赖性丰度测量结果(例如,丰度或浓度),指示从生物学样品测量的动态生物学响应。例如,位置之间的距离可以对应于生物学样品的估计生长(例如,生物学时间)。例如,可以沿着最多约8毫米(mm)距离测量牙齿样品的丰度,这对应于大约240至510天的生物学时间。替代地,或除此之外,可以沿着1.2cm距离测量毛发样品的丰度,这对应于大约35天的生物学时间。生物学时间可以通过使用毛发生长的平均速率(例如,每月1cm)来估计。
在一些实施例中,可以对对应于指示从生物学样品测量的动态生物学响应的物质的时间依赖性丰度(例如,时间依赖性浓度)的迹线执行数据分析。这可以包括定制的操作来清理数据(例如,在一个时间跨度内平滑数据,和/或移除高于或低于预定阈值的数据点)。在一些实施例中,数据分析包括从迹线移除相邻数据点之间的平均绝对差为相邻点之间的平均绝对差的标准偏差的至少一倍、两倍或三倍的数据点。
在一些实施例中,数据分析进一步包括根据内标物对每个迹线进行归一化。例如,在不随环境暴露(例如饮食)波动的生物学样品的发育/生长期间均匀掺入的样品中检测到的测量物质可以用作内标物。
在一些实施例中,数据分析进一步包括对时间依赖性迹线执行递归量化分析(RQA)以获得描述迹线的动态周期特性的特征集。RQA测量在时间依赖性迹线中的变异性。RQA涉及描述给定波形中周期特性的特征的估计,包括确定性、熵、平均对角线长度(MDL)、分层性、熵、捕获时间(TT)、递归时间(RT)、Vmax和Lmax,其中每一者捕获信号动态的不同方面,如随附参考文献中所述。描述了RQA的方法和特征,例如,由Webber等人在“SimplerMethods Do It Better:Success of Recurrence Quantification Analysis as aGeneral Purpose Data Analysis Tool,”Physics Letters A 373,3753-3756(2009)中和由Marwan等人,在“Recurrence Plots for the Analysis of Complex Systems,”PhysicsReports 438,237-239(2007)中,每篇的内容通过援引以其全文并入本文。在一些实施例中,通过使用诸如傅里叶变换、小波分析和余弦分析的其他分析方法来分析时间依赖性迹线。此类技术可以应用于导出类似的指标,包括频率分量和它们的相关功率的频谱分析。这些指标和相关的派生度量可以用来代替从RQA导出的特征,以分析从生物学样品获得的时间依赖性迹线,用于预测分类的目的。
RQA包括递归图的构建,这些图可视化和分析相应获得迹线中的动态时间结构。此类递归图可以通过绘制给定序列相对于该序列的时间滞后推导的图来示出顺序测量中的阶段过程。从测量自毛干的一维迹线,计算导出额外的维度以将迹线嵌入更高维空间中,其称为相图,其中t是指原始迹线的值,并且维度(t+τ)和(t+2τ)是从由间隔τ滞后原始时间序列而导出的。然后对嵌入的相图进行后续分析以构建递归图并且进行递归量化分析。通过对相图中的每个点应用阈值函数,可以从相图中导出递归图;在对应的递归图上,由方形二元矩阵组成,通常表示为白色或黑色空间,给定点在每个时间间隔被分配值1,其中相图中的另一个点共享分配阈值边界的空间限制。RQA方法应用于递归图以检查给定系统中状态之间的延迟的间隔,黑点反映系统重新访问相同状态时的时间间隔。系统连续重复给定状态模式的周期性过程将在递归图中表现为黑色对角线,而稳定期将表现为方形结构,虚假重复表现为黑点,并且独特事件表现为空白。
在一些实施例中,针对单一物质或两种物质的组合的迹线构建递归图(例如,为了可视化两种物质的交互周期模式;这可以称为交叉-递归量化分析,或联合-递归量化分析)。在一些实施例中,递归图是针对三种或更多种物质的组合构建的。
在一些实施例中,数据分析包括分析递归图以获得与递归图相关的特征集。这些可以互换地称为“节律性特征”或“动态特征”的特征提供了描述多个迹线中存在的周期性、可预测性和传递性的定量测量。这些特征是从包括以下的集中选择的:递归率、确定性、平均对角线长度、最大对角线长度、散度、对角线长度的香农熵、递归趋势、分层性、捕获时间、最大垂直线长度、垂直线长度的香农熵、平均递归时间、递归时间的香农熵、最可能递归的数量、平均对角线长度(MDL)、分层性、熵、捕获时间(TT)、递归时间(RT)、Vmax、Lmax和它们的任何组合。
在一些实施例中,数据分析进一步包括将获得的特征集输入到经训练的模型。在一些实施例中,经训练的模型包括预测计算算法以获得具有生物学病状的受试者的概率。在一些实施例中,预测计算算法执行以下计算:
其中p(受试者)是受试者具有第一生物学病状的概率,e是欧拉数,α是β1x1+…+βkxk等于零时与受试者具有生物学病状的概率相关的计算参数,x1,…,xk对应于针对特征集中的每个特征导出的值,该特征集包括从1到k的特征,而β1,…,βk对应于与包括从1到k的特征的特征集中的每个特征相关的权重参数。
权重参数β1,…,βk可以基于模型训练来限定。概率p(受试者)可以提供为0到1范围内的数字,其中1对应于100%的概率,即受试者具有生物学病状。
在一些实施例中,数据分析包括将阈值应用于获得的概率p(受试者)。如果获得的概率p(受试者)高于阈值,则该受试者被评估为具有生物学病状。如果获得的概率低于阈值,则受试者被评估为不具有生物学病状。在一些实施例中,阈值在约0.3与0.6之间(例如,预定阈值约为0.3、0.35、0.4、0.45、0.5、0.55或0.6)。分配给概率阈值的值可以预先确定,或者在模型训练期间通过使用接受者工作特性(ROC)图表进行估计,其中使用的最佳阈值对应于产生最大曲线下面积(ROC-AUC)的值。在一些实施例中,所获得的概率以相关几率表示(例如,几率比(OR),其可以从概率导出,使得OR=p/(1-p))。例如,评估包括评估受试者具有生物学病状的几率。
在一些实施例中,数据分析包括区分第一生物学病状和替代病状,例如第二生物学病状。在一些实施例中,替代病状与未知病状相关(例如,神经典型病状(NT))。在一些实施例中,第一生物学病状与自闭症谱系障碍(ASD)相关,而替代病状与注意力缺陷/多动障碍(ADHD)相关。在一些实施例中,替代病状是任何其他神经发育病状,或两种神经发育病状的共病诊断。因此,数据分析可能能够在两种神经发育病状之间进行区分(例如,自闭症谱系障碍与ADHD之间,或ASD与诊断为ASD和ADHD两者的共病(CM)病例之间)。
医疗保健提供者,诸如医生和患者的治疗团队可以具有患者数据的访问权(例如,动态生物学响应数据或其他健康数据)和/或具有从此类数据生成的预测或评估。基于数据分析结果,医疗保健提供者可以确定临床决策或结果。
例如,至少部分地基于受试者的预测的疾病或病症,医生可以指导患者在医院或其他临床场所进行一项或多项临床测试。当满足某个预先确定的标准(例如,疾病或病症的可能性的最小阈值)时,可以提供这些指令。
此类最小阈值可以是例如至少约5%的可能性、至少约10%的可能性、至少约20%的可能性、至少约25%的可能性、至少约30%的可能性、至少约35%的可能性、至少约40%的可能性、至少约45%的可能性、至少约50%的可能性、至少约55%的可能性、至少约60%的可能性、至少约65%的可能性、至少约70%的可能性、至少约75%的可能性、至少约80%的可能性、至少约85%的可能性、至少约90%的可能性、至少约95%的可能性、至少约96%的可能性、至少约97%的可能性、至少约98%的可能性或至少约99%的可能性。
作为另一个实例,医生可以至少部分地基于受试者的预测的疾病或病症来开出治疗(例如,药物)的治疗有效剂量、临床过程或进一步的临床测试以施用于患者。例如,医生可以响应于患者的炎症的指示开出抗炎治疗药物。
模型
本公开的方法和系统可以利用或获取人工智能技术的外部能力来开发针对各种疾病或病症的特征。这些特征可以用于准确预测疾病或病症(例如,比临床护理的标准提前数月或数年)。使用此类预测能力,医疗保健提供者(例如,医生)可以能够做出明智、准确的基于风险的决策,从而提高提供给患者的护理和监测质量。
本公开的方法和系统可以分析来自受试者(患者)的获取的动态生物学响应数据以生成受试者具有疾病或病症的可能性。例如,该系统可以将经训练的(例如,预测)算法应用于获取的动态生物学响应数据以生成受试者具有疾病或病症的可能性。训练算法可以包括基于人工智能的模型,诸如分类器或回归量,其被配置为处理获取的动态生物学响应数据以生成受试者具有疾病或病症的可能性。可以使用来自一个或多个患者队列的临床数据集来训练模型,例如,对模型使用患者的临床健康数据和/或动态生物学响应数据作为输入,并且使用患者的已知临床健康结果(例如,疾病或病症)作为输出。
该模型可以包括一种或多种机器学习算法。机器学习算法的实例可以包括支持向量机(SVM)、朴素贝叶斯分类、随机森林、神经网络(例如深度神经网络(DNN)、递归神经网络(RNN)、深度RNN、长短期记忆(LSTM)递归神经网络(RNN)或门控递归单元(GRU),或者用于分类和回归的其他监督学习算法或无监督机器学习、统计或深度学习算法。该模型可能同样涉及由多个预测模型组成的集成模型的估计,并且利用诸如梯度提升等技术,例如在梯度提升决策树的构建中。可以使用对应于患者数据的一个或多个训练数据集来训练该模型。
训练数据集可以从例如具有共同临床特性(特征)和临床结果(标签)的一个或多个患者队列生成。训练数据集可以包括特征集和对应于特征的标签。特征可以对应于算法输入,该算法输入包括动态生物学响应数据、从电子病历(EMR)导出的患者人口统计信息和医学观察。特征可以包括临床特性,诸如例如动态生物学响应数据的某些范围或类别。特征可以包括患者信息,诸如患者年龄、患者病史、其他医疗病状、当前或过去的药物治疗以及自上次观察以来的时间。例如,在给定时间点从给定患者收集的特征集可以共同用作特征,其可以指示患者在给定时间点的健康状况或状态。
例如,动态生物学响应数据和其他健康测量结果的范围可以表示为连续测量值的多个不相交的连续范围,并且动态生物学响应数据和其他健康测量结果的类别可以表示为多个不相交的测量值集合(例如,{“高”,“低”}、{“高”,“正常”}、{“低”,“正常”}、{“高”,“高到接近临界值”,“正常”,“低”}等)。临床特性还可以包括指示患者健康史的临床标签,诸如疾病或病症的诊断、临床治疗的先前施用(例如药物、手术治疗、化学疗法、放射疗法、免疫疗法等)、行为因素或其他健康状态(例如,高血压病或高血压、高血糖症或高血糖、高胆固醇血症或高血胆固醇、过敏反应或其他不良反应史等)。
标签可以包括临床结果,诸如如受试者(例如,患者)的疾病或病症的存在、不存在、诊断或预后。临床结果可以包括与患者的疾病或病症的存在、不存在、诊断或预后相关的时间特性。例如,时间特性可以指示患者在先前临床结果(例如,出院、接受诸如药物治疗、经历临床程序诸如外科手术等)之后的某个时间段内具有疾病或病症的发生。此类时间段可以是例如约1小时、约2小时、约3小时、约4小时、约6小时、约8小时、约10小时、约12小时、约14小时、约16小时、约18小时、约20小时、约22小时、约24小时、约2天、约3天、约4天、约5天、约6天、约7天、约10天、约2周、约3周、约4周、约1个月、约2个月、约3个月、约4个月、约6个月、约8个月、约10个月、约1年或超过约1年。
输入特征可以通过将数据聚合到分箱中或替代地使用独热编码来构建。输入还可以包括从前面提到的输入导出的特征值或向量,诸如在固定时间段内的单独的动态生物学响应数据或其他测量结果之间计算的互相关,以及在连续测量结果之间的离散导数或有限差分。此类时间段可以是例如约1小时、约2小时、约3小时、约4小时、约6小时、约8小时、约10小时、约12小时、约14小时、约16小时、约18小时、约20小时、约22小时、约24小时、约2天、约3天、约4天、约5天、约6天、约7天、约10天、约2周、约3周、约4周、约1个月、约2个月、约3个月、约4个月、约6个月、约8个月、约10个月、约1年或超过约1年。
训练记录可以从观察序列构建。此类序列可以包括便于数据处理的固定长度。例如,序列可以被零填充或选择为单个患者记录的独立子集。
该模型可以处理输入特征以生成包括一个或多个分类、一个或多个预测或它们的组合的输出值。例如,此类分类或预测可以包括:健康/正常健康状态(例如,不存在疾病或病症)或不良健康状态(例如,存在疾病或病症)的二元分类、分类标签的组之间的分类(例如,‘无疾病或病症’、‘明显的疾病或病症’和‘可能的疾病或病症’)、发展特定疾病或病症的可能性(例如,相对可能性或概率)、指示疾病或病症的存在的分数、指示由患者经历的全身的炎症的水平的分数、患者的死亡的可能性的‘风险因素’、对预期患者已发展疾病或病症的时间的预测以及任何数值预测的置信区间。可以级联各种机器学习技术,使得机器学习技术的输出也可以用作模型的后续层或子部分的输入特征。
为了训练模型(例如,通过确定模型的权重和相关性)以生成实时分类或预测,可以使用数据集训练模型。此类数据集可能足够大以生成有统计意义的分类或预测。例如,数据集可以包括:包括动态生生物学响应数据和其他测量结果的去识别化数据的数据库,和来自医院或其他临床环境的动态生物学响应数据和其他测量结果。
数据集可以分成子集(例如,离散或重叠),诸如训练数据集、开发数据集和测试数据集。例如,数据集可以分成包括数据集的80%的训练数据集和包括数据集的20%的测试数据集。训练数据集可以包括数据集的约10%、约20%、约30%、约40%、约50%、约60%、约70%、约80%或约90%。开发数据集可以包括数据集的约10%、约20%、约30%、约40%、约50%、约60%、约70%、约80%或约90%。测试数据集可以包括数据集的约10%、约20%、约30%、约40%、约50%、约60%、约70%、约80%或约90%。可以通过对应于一个或多个患者队列的数据集的随机抽样来选择训练集(例如,训练数据集),以确保抽样的独立性。替代地,可以通过对应于一个或多个患者队列的数据集的按比例抽样来选择训练集(例如,训练数据集),以确保抽样的独立性。
为了提高模型预测的准确性并且减少模型的过度拟合,可以扩充数据集以增加训练集中的样本的数量。例如,数据扩充可以包括重新排列训练记录中观察结果的顺序。为了容纳具有缺失观察结果的数据集,可以使用估算缺失数据的方法,诸如前向填充、后向填充、线性插值和多任务高斯过程。可以过滤数据集以移除混杂因素。例如,在数据库内,可能会排除患者子组。
该模型可以包括一个或多个神经网络,诸如神经网络、卷积神经网络(CNN)、深度神经网络(DNN)、递归神经网络(RNN)或深度RNN。递归神经网络可以包括可以是长短期记忆(LSTM)单元或门控递归单元(GRU)的单元。例如,该模型可以包括算法结构,该算法结构包括具有输入特征集的神经网络,诸如生命体征和其他测量结果、患者病史和/或患者人口统计。在训练模型期间可以使用神经网络技术(诸如丢失或正则化)以防止过度拟合。神经网络可以包括多个子网络,每个子网络被配置为生成不同类型的输出信息(例如,其可以被组合为形成神经网络的整体输出)的分类或预测。该模型可以替代地利用统计或相关算法,包括随机森林、分类和回归树、支持向量机、判别分析、回归技术,以及它们的集成和梯度提升变体。
当模型生成疾病或病症的分类或预测时,可能会生成通知(例如警示或警报)并且传输给医疗保健提供者,诸如医生、护士或医院内的患者治疗团队的其他成员。通知可以经由自动电话呼叫、短消息服务(SMS)或多媒体消息服务(MMS)消息、电子邮件或者仪表板内的警报来传输。通知可以包括输出信息,诸如疾病或病症的预测、预测的疾病或病症的可能性、直到疾病或病症的预期发作的时间、可能性或时间的置信区间或者对疾病或病症的推荐治疗过程。
为了验证模型的性能,可能会生成不同的性能指标。例如,接受者工作曲线下面积(AUROC)可以用于确定模型的诊断能力。例如,模型可以使用可调节的分类阈值,使得特异性和灵敏性是可调谐的,并且可以使用接受者工作曲线(ROC)来识别对应于特异性和敏感性的不同值的不同操作点。
在某些情况下,诸如当数据集不够大时,可以执行交叉验证以评估跨不同训练和测试数据集的模型的稳健性。
为了计算性能指标,诸如灵敏性、特异性、准确性、阳性预测值(PPV)、阴性预测值(NPV)、AUPRC、AUROC或类似指标,可以使用以下定义。“假阳性”可以指其中已经错误地或过早地产生阳性结果或后果的结果(例如,在疾病或病症的实际发作之前,或没有疾病和病症的任何发作)。“真阳性”可以指当患者具有疾病或病症时(例如,患者示出了疾病或病症的症状,或患者的记录指示疾病或病症),其中已经正确地产生阳性结果或后果的结果。“假阴性”可以指其中已经产生阴性结果或后果,但患者具有疾病或病症的结果(例如,患者示出了疾病或病症的症状,或者患者的记录指示疾病或病症)。“真阴性”可以指其中已经产生阴性结果或后果的结果(例如,在疾病或病症的实际发作之前,或没有疾病或病症的任何发作)。
可以对模型进行训练,直到满足准确性或性能的某些预定条件,诸如具有对应于诊断准确性度量的最小期望值。例如,诊断准确性度量可以对应于对受试者疾病或病症的发生的可能性的预测。作为另一个实例,诊断准确性度量可以对应于对受试者先前已经治疗过的疾病或病症的恶化或复发的可能性的预测。诊断准确性度量的实例可以包括对应于检测或预测疾病或病症的诊断准确性的灵敏性、特异性、阳性预测值(PPV)、阴性预测值(NPV)、准确性、精确召回曲线下面积(AUPRC)和接受者工作特性(ROC)曲线的曲线下面积(AUC)(AUROC)。
例如,此类预定条件可以是预测疾病或病症的灵敏性包括例如至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的值。
作为另一个实例,此类预定条件可以是预测疾病或病症的特异性包括例如至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的值。
作为另一个实例,此类预定条件可以是预测疾病或病症的阳性预测值(PPV)包括例如至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的值。
作为另一个实例,此类预定条件可以是预测疾病或病症的阴性预测值(NPV)包括例如至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的值。
作为另一个实例,此类预定条件可以是预测疾病或病症的接受者工作特性(ROC)曲线的曲线下面积(AUC)(AUROC)包括至少约0.50、至少约0.55、至少约0.60、至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.85、至少约0.90、至少约0.95、至少约0.96、至少约0.97、至少约0.98或至少约0.99的值。
作为另一个实例,此类预定条件可以是预测疾病或病症的精确召回曲线下面积(AUPRC)包括至少约0.10、至少约0.15、至少约0.20、至少约0.25、至少约0.30、至少约0.35、至少约0.40、至少约0.45、至少约0.50、至少约0.55、至少约0.60、至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.85、至少约0.90、至少约0.95、至少约0.96、至少约0.97、至少约0.98或至少约0.99的值。
在一些实施例中,模型可以被训练或配置为用至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的灵敏性预测疾病或病症。
在一些实施例中,模型可以被训练或配置为用至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的特异性预测疾病或病症。
在一些实施例中,模型可以被训练或配置为用至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的阳性预测值(PPV)预测疾病或病症。
在一些实施例中,模型可以被训练或配置为用至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的阴性预测值(NPV)预测疾病或病症。
在一些实施例中,经训练的模型可以被训练或配置为用至少约0.50、至少约0.55、至少约0.60,至少约0.65,至少约0.70,至少约0.75,至少约0.80,至少约0.85,至少约0.90,至少约0.95,至少约0.96,至少约0.97,至少约0.98或至少约0.99的接受者工作特性(ROC)曲线的曲线下面积(AUC)(AUROC)预测疾病或病症。
在一些实施例中,模型可以被训练或配置为用至少约0.10、至少约0.15、至少约0.20、至少约0.25、至少约0.30,至少约0.35,至少约0.40,至少约0.45,至少约0.50,至少约0.55,至少约0.60,至少约0.65,至少约0.70,至少约0.75,至少约0.80、至少约0.85、至少约0.90、至少约0.95、至少约0.96、至少约0.97、至少约0.98或至少约0.99的精确召回曲线下面积(AUPRC)预测疾病或病症。
训练数据集可以从训练受试者(例如人)收集。每个训练具有诊断状态,指示他们要么已经被诊断出患有生物学病状,要么未被诊断出患有生物学病状。在一些实施例中,训练受试者是年龄等于或小于5岁(例如,等于或小于5岁、4岁、3岁、2岁、1岁、9个月、6个月、3个月或1个月)的儿童。可以对多个训练受试者中的每个训练受试者执行以下训练过程。
在一些实施例中,可以从训练受试者的生物学样品生成训练数据(例如,动态IHC数据)。对于每个生物学样品,可以对训练受试者的生物学样品上的参考线的多个位置进行采样,以便从中生成测量结果,从而获得多个动态生物学响应样品。对应的多个动态生物学响应样品中的每个动态生物反应样品对应于对应的多个位置中的不同位置,并且对应的多个位置中的每个位置代表对应的生物学样品的不同生长时期。接下来,对生物学样品的每个相应位置进行分析(例如,使用激光烧蚀电感耦合等离子体质谱仪(LA-ICP-MS)、荧光图像传感器或拉曼光谱仪)以获得多个迹线。对应的多个迹线中的每个迹线对应于对应的物质的丰度测量结果,其随时间从对应的多个动态生物学响应样品共同确定。
接下来,可以通过将递归量化分析(RQA)或相关方法应用于对应的多个迹线来获得相应第二数据集,以便测量对应的特征集,对应的特征集中的每个相应特征由对应的多个迹线中的一种或多种物质的丰度的变化确定。
接下来,可以以(i)多个训练受试者中的每个训练受试者的每个相应第二数据集的对应的特征集和(ii)多个训练受试者中的每个训练受试者的选自第一诊断状态和第二诊断状态的对应的诊断状态来生成未经训练或部分未经训练的模型,从而获得经训练的模型。经训练的模型基于针对从测试受试者的生物学样品获取的特征集中的特征的值,提供对关于测试受试者是否具有第一生物学病状的指示。在一些实施例中,经训练的模型是神经网络算法、卷积神经网络算法、支持向量机算法、决策树算法、无监督聚类模型算法、监督聚类模型算法、回归模型或者它们的任何组合或变体,特别是包括所描述算法的梯度提升实现,例如梯度提升决策树。在一些实施例中,经训练的模型预测相对于多项式或二项式分布的结果。在一些实施例中,经训练的模型可以用于进行关于样品是否源自患有第一生物学病状的受试者的二元预测;或者,可以是多项式的,将没有诊断的受试者与有第一生物学病状或第二生物学病状的受试者区分开来,其中第二生物学病状与第一生物学病状不同。
在一些实施例中,模型是神经网络或卷积神经网络。参见,Vincent等人,2010,“Stacked denoising autoencoders:Learning useful representations in a deepnetwork with a local denoising criterion,”J Mach Learn Res 11,第3371-3408页;Larochelle等人,2009,“Exploring strategies for training deep neural networks,”JMach Learn Res 10,第1至40页;和Hassoun,1995,Fundamentals of Artificial NeuralNetworks,Massachusetts Institute of Technology,每个文献特此通过引用并入。
SVM在以下文献中描述:Cristianini和Shawe-Taylor,2000“An Introduction toSupport Vector Machines,”剑桥剑桥大学出版社;Boser等人,1992,“A trainingalgorithm for optimal margin classifiers,”第5届年度ACM计算学习理论研讨会论文集,宾夕法尼亚州匹兹堡ACM出版社,第142至152页;Vapnik,1998,Statistical LearningTheory,纽约威立出版社;Mount,2001,Bioinformatics:sequence and genome analysis,纽约冷泉港冷泉港实验室出版社;Duda,Pattern Classification,第二版,2001,约翰威立父子公司,第259,262至265页;以及Hastie,2001The Elements of StatisticalLearning,纽约施普林格出版公司;以及Furey等人,2000,Bioinformatics 16,906至914,文献中的每个文献以全文引用的方式特此并入。当用于分类时,SVM将给定的二进制标记的数据集与最大程度地远离所标记的数据的超平面分离。对于没有线性分离的情况,SVM可以结合自动实现对特征空间的非线性映射的“核”技术运行。由SVM在特征空间中发现的超平面对应于输入空间中的非线性决策边界。
在以下中总体描述了决策树:Duda,2001,Pattern Classification,纽约约翰威利父子公司,第395至396页,文献特此通过引用并入。基于树的方法将特征空间划分成矩形集合并且然后在每个矩形中拟合模型(如常量)。在一些实施例中,决策树是随机森林回归。可以使用的一个特定算法是分类和回归树(CART)。其它特定决策树算法包含但不限于ID3、C4.5、MART和随机森林。在以下文献中描述了CART、ID3和C4.5:Duda,2001,PatternClassification,纽约约翰威利父子公司,第396至408页和第411至412页,文献特此通过引用并入。在以下文献中描述了CART、MART和C4.5:Hastie等人,2001,The Elements ofStatistical Learning,纽约施普林格出版公司,第9章,文献特此通过全文引用的方式并入。在以下文献中描述了随机森林:Breiman,1999,“Random Forests—Random Features,”技术报告567,统计系,加利福尼亚大学伯克利分校,1999九月,文献特此通过全文引用的方式并入。
聚类(例如,无监督聚类模型算法和监督聚类模型算法)在Duda和Hart,PatternClassification and Scene Analysis,1973,纽约约翰威立国际出版公司的第211至256页(下文中称为“Duda 1973”)中描述,文献特此通过全文引用的方式并入。如Duda 1973第6.7节所述,聚类问题被描述为在数据集中找到自然分组之一。为了鉴定自然分组,解决了两个问题。首先,确定测量两个样品之间的相似性(或相异度)的方式。该指标(相似性度量)用于确保一个簇中的样品比其它簇中的样品更相似。第二,确定使用相似性度量将数据分区成簇的机制。相似性度量在Duda 1973的第6.7节中讨论,其中声明开始聚类研究的一种方式是定义距离函数并计算训练集中所有样品对之间的距离矩阵。如果距离是相似性的良好度量,则同一簇中的参考实体之间的距离将显著小于不同簇中的参考实体之间的距离。然而,如Duda 1973的第215页所述,聚类不需要使用距离指标。例如,可以使用非指标相似性函数s(x,x')来比较两个向量x和x'。通常,s(x,x')是对称函数,当x和x'以某种方式“相似”时其值较大。在Duda 1973的第218页提供了非指标相似性函数s(x,x')的实例。一旦选择了用于测量数据集中的点之间的“相似性”或“不相似性”的方法,则聚类需要测量数据的任何分区的聚类质量的标准函数。使用使标准函数极值化的数据集的分区来对数据进行聚类。参见Duda 1973的第217页。Duda 1973第6.8节讨论了标准功能。最近,Duda等人,PatternClassification,第2版,纽约约翰威立国际出版公司,已经出版。第537至563页详细描述了聚类。关于聚类技术的更多信息可以在Kaufman和Rousseeuw,1990,Finding Groups inData:An Introduction to Cluster Analysis,纽约州纽约的威立出版社;Everitt,1993,Cluster analysis(第3版),纽约州纽约的威立出版社;和Backer,1995,Computer-Assisted Reasoning in Cluster Analysis,新泽西州上鞍河的普伦蒂斯霍尔出版社中找到,每个文献特此通过引用并入。可用于本公开的特定示例性聚类技术包括但不限于分级聚类(使用最近邻域算法、最远邻域算法、平均连接算法、质心算法或平方和算法的聚集聚类)、k均值聚类、模糊k均值聚类算法和帕特里克贾维斯(Jarvis-Patrick)聚类。在一些实施例中,聚类包括无监督聚类,其中不强加当训练集被聚类时应当形成什么簇的预先构想。
回归模型,诸如多类别logit模型在Agresti,An Introduction to CategoricalData Analysis,1996,纽约约翰威利父子公司,第八章中描述,文献特此通过全文引用的方式并入。在一些实施例中,该模型利用Hastie等人,2001,The Elements of StatisticalLearning,纽约施普林格出版公司中公开的回归量,文献特此通过全文引用的方式并入。在一些实施例中,梯度提升模型用于例如本文描述的分类算法;这些梯度提升模型在Boehmke,Bradley;Greenwell,Brandon(2019).“Gradient Boosting”.Hands-On MachineLearning with R.查普曼与霍尔公司.第221至245页。ISBN 978-1-138-49568-5.,文献特此通过全文引用的方式并入。在一些实施例中,集成建模技术被用于例如本文描述的分类算法;这些集成建模技术在本文分类模型的实现中进行了描述,在Zhou Zhihua(2012).Ensemble Methods:Foundations and Algorithms.查普曼与霍尔公司/CRC.ISBN 978-1-439-83003-1中进行了描述,文献特此通过全文引用的方式并入。
在一些实施例中,该模型由执行包括用于执行数据分析的指令的一个或多个程序(例如,存储在图1中的非持久性存储器111或持久性存储器112中的一个或多个程序)的装置执行。在一些实施例中,数据分析由包括至少一个处理器(例如,处理器核心102)以及包含用于执行数据分析的指令的存储器(例如,存储在非持久性存储器111或持久性存储器112中的一个或多个程序)的系统执行。
计算机系统
本公开提供了被编程为实现本公开的方法的计算机系统。图4示出了计算机系统401,其被编程或以其他方式配置为例如:对牙齿样品进行染色、获得染色的牙齿样品的荧光图像、分析在空间上跨染色的牙齿样品的荧光强度、生成炎症时间曲线、使用经训练的模型处理数据并且确定受试者的疾病或病症的风险。计算机系统401可以调节本公开的传感器数据分析的各个方面,诸如,例如:对牙齿样品进行染色、获得染色的牙齿样品的荧光图像、分析在空间上跨染色的牙齿样品的荧光强度、生成炎症时间曲线、测量时间曲线的动态、使用经训练的模型处理数据并且预测受试者关于疾病或病症的诊断状态。计算机系统401可以是用户的电子装置或关于电子装置远程定位的计算机系统。电子装置可以是移动电子装置。
计算机系统401包括中央处理单元(CPU,本文也称为“处理器”和“计算机处理器”)405,其可以是单核或多核处理器,或者可以是用于平行处理的多个处理器。计算机系统401还包括存储器或存储位置410(例如,随机存取存储器、只读存储器、快闪存储器)、电子存储单元415(例如,硬盘)、用于与一个或多个其他系统通信的通信接口420(例如,网络适配器)以及外围装置425(诸如缓存、其他存储器、数据存储和/或电子显示适配器)。存储器410、存储单元415、接口420和外围装置425通过通信总线(实线)与CPU 405通信,诸如主板。存储单元415可以是用于存储数据的数据存储单元(或数据存储库)。计算机系统401可以在通信接口420的帮助下可操作地耦合到计算机网络(“网络”)430。网络430可以是因特网、互联网和/或外联网、或者与因特网通信的内联网和/或外联网。网络430在一些情况下是电信和/或数据网络。网络430可以包括一个或多个计算机服务器,其可以实现分布式计算,诸如云计算。在某些情况下,在计算机系统401的帮助下,网络430可以实现对等网络,其可以使耦合到计算机系统401的装置能够充当客户端或服务器。
CPU 405可以执行一系列机器可读指令,这些指令可以体现在程序或软件中。指令可以存储在某一存储器位置,如存储器410中。指令可以涉及CPU 405,该指令可以随后对CPU 405进行编程或以其它方式对其进行配置以实现本公开的方法。由CPU 405执行的操作的实例可以包含提取、解码、执行和写回。
CPU 405可以是电路(诸如集成电路)的一部分。系统401的一个或多个其它组件可以包含在所述电路中。在一些情况下,电路是专用集成电路。
存储单元415可以存储文件,诸如驱动程序、库和经保存的程序。存储单元415可以存储用户数据,例如用户偏好和用户程序。在一些情况下,计算机系统401可以包括一个或多个在计算机系统401外部的附加数据存储单元,诸如位于通过内联网或互联网与计算机系统401通信的远程服务器上。
计算机系统401可以通过网络430与一个或多个远程计算机系统通信。例如,计算机系统401可以与用户(例如医疗保健提供者)的远程计算机系统通信。远程计算机系统的实例包括个人计算机(例如便携式PC)、笔记型电脑或平板电脑(例如iPad、Galaxy Tab)、电话、智能手机(例如/>iPhone、支持Android的装置、)或个人数字助理。用户可以经由网络430访问计算机系统401。
本文描述的方法可以通过存储在计算机系统401的电子存储位置,诸如,例如,存储器410或电子存储单元415上的机器(例如,计算机处理器)可执行代码来实现。机器可执行代码或机器可读代码可以以软件的形式提供。在使用期间,代码可以由处理器405执行。在一些情况下,代码可以从存储单元415检索并且存储在存储器410上以供由处理器405随时访问。在一些情况下,可以排除电子存储单元415,并且机器可执行指令存储在存储器410上。
代码可以被预编译和配置以与具有适于执行代码的处理器的机器一起使用,或者可以在运行期间被编译。代码可以以编程语言供应,该语言可以被选择以使代码能够以预编译或已编译的方式执行。
本文提供的系统和方法的方面,诸如计算机系统401,可以在编程中体现。该技术的各个方面可以被认为是“产品”或“制品”,通常采用承载在机器可读介质类型上或体现在其中的机器(或处理器)可执行代码和/或相关数据的形式。机器可执行代码可以存储在电子存储单元上,诸如存储器(例如,只读存储器、随机存取存储器、快闪存储器)或硬盘。“存储”类型介质可以包括计算机、处理器等的任何或所有有形存储器,或者其相关模块,诸如各种半导体存储器、磁带驱动器、磁盘驱动器等,它们可以为软件编程随时提供非暂时性存储。有时可能会通过互联网或各种其他电信网络传送全部或部分软件。此类通信例如可以使软件能够从一台计算机或处理器加载到另一台计算机或处理器中,例如从管理服务器或主计算机加载到应用服务器的计算机平台中。因此,可以承载软件元素的另一类型的介质包括光波、电波和电磁波,诸如跨本地装置之间的物理接口、通过有线和固定专线光纤网络以及在各种空中链路上使用。承载此类波的物理元件,诸如有线或无线链路、光链路等,也可以被认为是承载软件的介质。如本文所用,除非限于非暂时性、有形“存储”介质,术语诸如计算机或机器“可读介质”是指参与向处理器提供用于执行的指令的任何介质。
因此,机器可读介质,诸如计算机可执行代码,可以采用多种形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如光盘或磁盘,诸如任何计算机中的任何存储装置等,诸如可以用于实现图中所示的数据库等。易失性存储介质包括动态存储器,诸如此类计算机平台的主存储器。有形传输介质包括同轴电缆;铜线和光纤,包括在计算机系统内包括总线的电线。载波传输介质可以采用电信号或电磁信号的形式,或者声波或光波的形式,诸如在射频(RF)和红外(IR)数据通信期间产生的那些。因此,计算机可读介质的常见形式包括例如:软盘、软磁盘、硬盘、磁带、任何其他磁性介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡纸磁带、任何其他带有孔图案的物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储芯片或磁带盒、传输数据或指令的载波、传输此类载波的电缆或链路或者计算机可以从中读取程序代码和/或数据的任何其他介质。许多这些形式的计算机可读介质可以涉及携带一个或多个指令的一个或多个序列到处理器以供执行。
计算机系统401可以包括电子显示器435或与其通信,电子显示器包括用于提供例如荧光图像数据、荧光强度数据、炎症时间曲线和机器学习分类的用户界面(UI)440。UI的实例包括但不限于图形用户界面(GUI)和基于Web的用户界面。
本公开的方法和系统可以通过一种或多种算法实现。算法可以由中央处理单元405执行时通过软件实现。该算法可以例如:对牙齿样品进行染色、获取染色的牙齿样品的荧光图像、分析在空间上跨染色的牙齿样品的荧光强度、生成炎症时间曲线、使用经训练的模型处理数据并且确定受试者的疾病或病症的风险
尽管本文别处描述的方法示出了根据实施例的步骤或操作集,但是本领域的普通技术人员将认识到基于本文描述的教导的许多变化。这些步骤可以以不同的顺序完成。可以添加或省略步骤。一些步骤可以包括子步骤。许多步骤可以尽可能多地重复。
方法或操作集中的每一个的一个或多个步骤可以用本文描述的电路系统执行,例如,一个或多个处理器或逻辑电路系统,诸如可编程阵列逻辑或现场可编程门阵列。电路系统可以被编程以提供方法或操作集中的每一个的一个或多个步骤,并且程序可以包括存储在计算机可读存储器上的程序指令或逻辑电路系统的编程步骤,诸如例如可编程阵列逻辑或现场可编程门阵列。
实例
实例1:牙齿样品中用于确定疾病风险的动态分子谱
使用本公开的方法和系统,生成并且随后分析牙齿样品中的分子谱以确定受试者的疾病风险。通常,生物学响应(例如炎症)的时间动态被发现印在样品(例如牙齿样品)中,并且可以对其进行分析以确定受试者的疾病风险。针对C反应蛋白(CRP)生成动态分子谱,CRP是炎症的标志物。使用牙齿生物标志物,生成了两组儿童的包括胎儿(产前)发育和幼儿期的时间段期间的CRP和炎症的动态时间序列曲线——第一组患有自闭症谱系障碍(37个病例)并且第二组不患有自闭症谱系障碍(77个对照)。分析时间序列的CRP曲线以揭示CRP信号的动态的新特征,其准确地区分自闭症病例和对照。例如,在1岁之前存在的炎症曲线在病例和对照之间存在很大差异。相比之下,自闭症的临床诊断通常在3至4岁左右确定。
从每个儿童受试者获得乳牙样品。将牙齿样品切开、脱钙并且将免疫组织化学染色(例如,牙本质)应用于牙齿样品。免疫组织化学染色有效地沿着牙齿样品的生长轮映射C反应蛋白(炎症的分子标记),以便形成产前和产后时期的炎症时间曲线。使用本公开的机器学习算法分析时间曲线以训练高度准确的模型以确定疾病风险(例如自闭症)。
图5示出了受试者的随时间变化的每日C反应蛋白图谱的实例,其中y轴指示CRP强度并且x轴指示发育年龄。儿童受试者的发育年龄包括从妊娠中期(例如,从出生前140天开始,此时受试者处于产前阶段)到约6个月大的时间段。如图5所示,观察到自闭症儿童的炎症(如由CRP强度所指示)曲线在产前较高。
图6A至图6B示出了接受者工作特性(ROC)曲线以表征利用从产前和儿童早期(例如,1岁以下)取样的C反应蛋白图谱的递归量化分析导出的特征在不同预测阈值下诊断自闭症的方法的灵敏性和特异性。图6A示出了用于评估所公开的评估受试者的自闭症谱系障碍的方法的准确性的实验性接受者工作特性(ROC)曲线。ROC曲线可以用于评估二元分类器的性能。ROC曲线绘制为灵敏性(也称为真阳性率)相对于特异性(也称为真阴性率)。完美的分类器可以具有100%的灵敏性和100%的特异性以及1.0的曲线下面积(AUC)。如图6A所示,配置为基于动态C反应蛋白图谱确定受试者中自闭症的存在的分类器具有0.86的接受者工作特性(ROC)的曲线下面积(AUC),其中0.72至1.00为95%置信区间(CI)。接受者工作特性(ROC)示出了分类器的灵敏性和特异性值如何随着更高或更低的阈值应用于病例状态的预测概率而变化;例如,较低的阈值将产生更敏感的分类,但对应地将不那么特异性。如图6B所示,有助于分类器性能的初级动态特征按特征重要性的降序排列(例如,如由数字特征权重所指示),包括分层性、熵、TT、MDL、RT1、RT2、Vmax、确定性和Lmax。例如,分层性被确定为具有比其他更高的特征重要性。
因此,使用本公开的方法和系统分析从C反应蛋白图谱的分析导出的特征成功地确定了AUC为0.86的自闭症的疾病风险,仅使用从对在来自儿童受试者的非侵入性获得的生物学样品(例如,牙齿样品)上测量的C反应蛋白特征进行分析所导出的特征。这些结果表明,生命早期炎症响应的动态与以后的疾病有关,该疾病可以使用本公开的方法和系统准确地检测和分析。
虽然已经在本文中显示和描述了本发明的优选实施方案,但所属领域的技术人员应清楚这类实施方案仅是作为示例而提供的。本发明并不旨在受说明书内提供的具体实例限制。尽管已经参考上述说明书描述了本发明,但本文中的实施例的描述和说明不打算以限制意义理解。在不脱离本发明的情况下,本领域的技术人员现在将意识到许多变化、改变和替代。此外,应当理解,本发明的所有方面不限于本文所阐述的取决于各种条件和变量的特定描绘、配置或相对比例。应当理解,本文所描述的本发明的实施例的各个替代方案都可以用于实践本发明。因此设想本发明还应涵盖任何此类替代、修改、变化或等同物。下列权利要求旨在限定本发明的范围,并且据此涵盖这些权利要求及其同等物范围内的方法和结构。
实施例
实施例1.一种预测受试者关于疾病或病症的诊断状态的方法,该方法包括:(a)对受试者的牙齿样品进行染色以产生染色的牙齿样品;(b)分析在空间上跨染色的牙齿样品的荧光强度;以及(c)至少部分地基于对荧光强度的分析来预测受试者关于疾病或病症的诊断状态。
实施例2.根据实施例1所述的方法,其中分析包括获得染色的牙齿样品的荧光图像,以及分析荧光图像的荧光强度。
实施例3.根据实施例2所述的方法,其中获得染色的牙齿样品的荧光图像包括使用倒置的或非倒置的共聚焦显微镜。
实施例4.根据实施例1至3中任一项所述的方法,其中对牙齿样品进行染色包括使用C反应蛋白免疫组织化学染色。
实施例5.根据实施例1至4中任一项所述的方法,其进一步包括将牙齿样品切片。
实施例6.根据实施例1至5中任一项所述的方法,其中对牙齿样品进行染色包括使牙齿样品脱钙。
实施例7.根据实施例1至6中任一项所述的方法,其中疾病或病症包括:自闭症谱系障碍(ASD)、注意力缺陷/多动障碍(ADHD)、肌萎缩侧索硬化症(ALS)、精神分裂症、肠易激疾病(IBD)、小儿肾脏疾病、肾移植排斥反应、小儿癌症或它们的任何组合。
实施例8.根据实施例1至6中任一项所述的方法,其中疾病或病症包括自闭症谱系障碍。
实施例9.根据实施例1至8中任一项所述的方法,其中受试者是人。
实施例10.根据实施例9所述的方法,其中受试者小于12岁。
实施例11.根据实施例9所述的方法,其中受试者小于1岁。
实施例12.根据实施例1所述的方法,其中分析包括:至少部分地基于荧光强度生成炎症时间曲线,以及分析炎症时间曲线。
实施例13.根据实施例12所述的方法,其中炎症时间曲线的至少一部分对应于受试者的产前期。
实施例14.根据实施例1所述的方法,其中预测受试者关于疾病或病症的诊断状态包括使用经训练的模型处理荧光强度。
实施例15.根据实施例14所述的方法,其中经训练的模型选自由以下各项组成的组:神经网络算法、支持向量机算法、决策树算法、无监督聚类算法、监督聚类算法、回归算法、梯度提升算法和它们的任何组合。
实施例16.根据实施例14所述的方法,其中经训练的模型包括梯度提升决策树。
实施例17.根据实施例14所述的方法,其中经训练的模型被配置为处理选自由以下各项组成的组的一个或多个特征:递归率、确定性、平均对角线长度、最大对角线长度、散度、对角线长度的香农熵、递归趋势、分层性、捕获时间、最大垂直线长度、垂直线长度的香农熵、平均递归时间、递归时间的香农熵、最可能递归的数量、平均对角线长度(MDL)、递归时间(RT)、Vmax、确定性、Lmax和它们的任何组合。
实施例18.根据实施例17所述的方法,其中经训练的模型被配置为处理选自由以下各项组成的组的两个或更多个特征:递归率、确定性、平均对角线长度、最大对角线长度、散度、对角线长度的香农熵、递归趋势、分层性、捕获时间(TT)、最大垂直线长度、垂直线长度的香农熵、平均递归时间、递归时间的香农熵、最可能递归的数量、平均对角线长度(MDL)、递归时间(RT)、Vmax、确定性、Lmax和它们的任何组合。
实施例19.根据实施例18所述的方法,其中经训练的模型以至少约80%的灵敏性预测关于疾病或病症的诊断状态。
实施例20.根据实施例18所述的方法,其中经训练的模型以至少约80%的特异性预测关于疾病或病症的诊断状态。
实施例21.根据实施例18所述的方法,其中经训练的模型以至少约80%的阳性预测值预测关于疾病或病症的诊断状态。
实施例22.根据实施例18所述的方法,其中经训练的模型以至少约80%的阴性预测值预测关于疾病或病症的诊断状态。
实施例23.根据实施例18所述的方法,其中经训练的模型以至少约0.80的接受者工作特性下面积(AUROC)预测关于疾病或病症的诊断状态。
实施例24.一种包括一个或多个处理器以及存储用于由该一个或多个处理器执行的一个或多个程序的存储器的装置,该一个或多个程序包括用于以下的指令:(a)对沿与受试者的c反应蛋白相关的受试者的生物学样品上的参考线的多个位置中的每个相应位置进行采样,从而获得多个荧光强度测量结果,多个荧光强度测量结果中的每个荧光强度测量结果对应于多个位置中的不同位置,并且多个位置中的每个位置代表与c反应蛋白相关的受试者的生物学样品的不同生长时期;(b)对跨生物学样品上的参考线的每个荧光强度进行分析,从而获得第一数据集;(c)从对应的多个荧光强度测量结果导出相应第二数据集,通过c反应蛋白荧光强度中的顺序变异性确定对应的特征集中的每个相应特征;并且(d)使用经训练的模型处理该特征以预测受试者关于与c反应蛋白相关的疾病或病症的诊断状态。
实施例25.根据实施例24所述的装置,其中多个荧光强度测量结果是用倒置的或非倒置的共聚焦显微镜测量的。
实施例26.根据实施例24或25所述的装置,其中生物学样品包括牙齿样品。
实施例27.根据实施例24至26中任一项所述的装置,其中使用C反应蛋白免疫组织化学染色对牙齿样品进行染色。
实施例28.根据实施例26所述的装置,其中指令进一步包括对牙齿样品进行切片。
实施例29.根据实施例26所述的装置,其中指令进一步包括使牙齿样品脱钙。
实施例30.根据实施例24至29中任一项所述的装置,其中疾病或病症包括:自闭症谱系障碍(ASD)、注意力缺陷/多动障碍(ADHD)、肌萎缩侧索硬化症(ALS)、精神分裂症、肠易激疾病(IBD)、小儿肾脏疾病、肾移植排斥反应、小儿癌症或它们的任何组合。
实施例31.根据实施例24至29中任一项所述的装置,其中疾病或病症包括自闭症谱系障碍ASD。
实施例32.根据实施例24至31中任一项所述的装置,其中受试者是人。
实施例33.根据实施例24至32中任一项所述的装置,其中受试者小于12岁。
实施例34.根据实施例24至32中任一项所述的装置,其中受试者小于1岁。
实施例35.根据实施例24至34中任一项所述的装置,其中分析包括至少部分地基于多个荧光强度测量结果生成炎症时间曲线,以及分析炎症时间曲线。
实施例36.根据实施例35所述的装置,其中炎症时间曲线的至少一部分对应于受试者的产前期。
实施例37.根据实施例24至36中任一项所述的装置,其中预测受试者关于疾病或病症的诊断状态包括使用经训练的模型处理多个荧光强度测量结果。
实施例38.根据实施例37所述的装置,其中经训练的模型选自由以下各项组成的组:神经网络算法、支持向量机算法、决策树算法、无监督聚类算法、监督聚类算法、回归算法、梯度提升算法和它们的任何组合。
实施例39.根据实施例37所述的装置,其中经训练的模型包括梯度提升决策树。
实施例40.根据实施例37所述的装置,其中经训练的模型被配置为处理选自由以下各项组成的组的一个或多个特征:递归率、确定性、平均对角线长度、最大对角线长度、散度、对角线长度的香农熵、递归趋势、分层性、捕获时间、最大垂直线长度、垂直线长度的香农熵、平均递归时间、递归时间的香农熵、最可能递归的数量、平均对角线长度(MDL)、递归时间(RT)、Vmax、确定性、Lmax和它们的任何组合。
实施例41.根据实施例37所述的装置,其中经训练的模型被配置为处理选自由以下各项组成的组的两个或更多个特征:递归率、确定性、平均对角线长度、最大对角线长度、散度、对角线长度的香农熵、递归趋势、分层性、捕获时间(TT)、最大垂直线长度、垂直线长度的香农熵、平均递归时间、递归时间的香农熵、最可能递归的数量、平均对角线长度(MDL)、递归时间(RT)、Vmax、确定性、Lmax和它们的任何组合。
实施例42.根据实施例24至41中任一项所述的装置,其中经训练的模型以至少约80%的灵敏性预测关于疾病或病症的诊断状态。
实施例43.根据实施例24至41中任一项所述的装置,其中经训练的模型以至少约80%的特异性预测关于疾病或病症的诊断状态。
实施例44.根据实施例24至41中任一项所述的装置,其中经训练的模型以至少约80%的阳性预测值预测关于疾病或病症的诊断状态。
实施例45.根据实施例24至41中任一项所述的装置,其中经训练的模型以至少约80%的阴性预测值预测关于疾病或病症的诊断状态。
实施例46.根据实施例24至41中任一项所述的装置,其中经训练的模型以至少约0.80的接受者工作特性下面积(AUROC)预测关于疾病或病症的诊断状态。
实施例47.一种非暂时性计算机可读存储介质和嵌入其中的一个或多个计算机程序,该一个或多个计算机程序包括指令,该指令在由计算机系统执行时使计算机系统执行包括以下的方法:(a)对沿与受试者的c反应蛋白相关的受试者的生物学样品上的参考线的多个位置中的每个相应位置进行采样,从而获得多个荧光强度测量结果,多个荧光强度测量结果中的每个荧光强度测量结果对应于多个位置中的不同位置,并且多个位置中的每个位置代表与c反应蛋白相关的受试者的生物学样品的不同生长时期;(b)对跨生物学样品上的参考线的每个荧光强度进行分析,从而获得第一数据集;(c)从对应的多个荧光强度测量结果导出相应第二数据集,通过c反应蛋白荧光强度中的变化确定对应的特征集中的每个相应特征;并且(d)使用经训练的模型处理该特征以预测受试者关于与c反应蛋白相关的疾病或病症的诊断状态。
实施例48.根据实施例47所述的非暂时性计算机可读存储介质,其中多个荧光强度测量结果是用倒置的或非倒置的共聚焦显微镜测量的。
实施例49.根据权利要求47或48所述的非暂时性计算机可读存储介质,其中生物学样品包括牙齿样品。
实施例50.根据权利要求49所述的非暂时性计算机可读存储介质,其中使用C反应蛋白免疫组织化学染色对牙齿样品进行染色。
实施例51.根据权利要求49所述的非暂时性计算机可读存储介质,其中该方法进一步包括将牙齿样品切片。
实施例52.根据实施例47至51中任一项所述的非暂时性计算机可读存储介质,其中该方法进一步包括使牙齿样品脱钙。
实施例53.根据实施例47至52中任一项所述的非暂时性计算机可读存储介质,其中疾病或病症包括:自闭症谱系障碍(ASD)、注意力缺陷/多动障碍(ADHD)、肌萎缩侧索硬化症(ALS)、精神分裂症、肠易激疾病(IBD)、小儿肾脏疾病、肾移植排斥反应、小儿癌症或它们的任何组合。
实施例54.根据实施例47至52中任一项所述的非暂时性计算机可读存储介质,其中疾病或病症包括自闭症谱系障碍(ASD)。
实施例55.根据实施例47至54中任一项所述的非暂时性计算机可读存储介质,其中受试者是人。
实施例56.根据实施例47至55中任一项所述的非暂时性计算机可读存储介质,其中受试者小于12岁。
实施例57.根据实施例47至55中任一项所述的非暂时性计算机可读存储介质,其中受试者小于1岁。
实施例58.根据实施例47至57中任一项所述的非暂时性计算机可读存储介质,其中分析包括至少部分地基于多个荧光强度测量结果生成炎症时间曲线,以及分析炎症时间曲线。
实施例59.根据实施例58所述的非暂时性计算机可读存储介质,其中炎症时间曲线的至少一部分对应于受试者的产前期。
实施例60.根据实施例47至59中任一项所述的非暂时性计算机可读存储介质,其中预测受试者关于疾病或病症的诊断状态包括使用经训练的模型处理多个荧光强度测量结果。
实施例61.根据实施例60所述的非暂时性计算机可读存储介质,其中经训练的模型选自由以下各项组成的组:神经网络算法、支持向量机算法、决策树算法、无监督聚类算法、监督聚类算法、回归算法、梯度提升算法和它们的任何组合。
实施例62.根据实施例60所述的非暂时性计算机可读存储介质,其中经训练的模型包括梯度提升决策树。
实施例63.根据实施例60所述的非暂时性计算机可读存储介质,其中经训练的模型被配置为处理选自由以下各项组成的组的一个或多个特征:递归率、确定性、平均对角线长度、最大对角线长度、散度、对角线长度的香农熵、递归趋势、分层性、捕获时间、最大垂直线长度、垂直线长度的香农熵、平均递归时间、递归时间的香农熵、最可能递归的数量、平均对角线长度(MDL)、递归时间(RT)、Vmax、确定性、Lmax和它们的任何组合。
实施例64.根据实施例60所述的非暂时性计算机可读存储介质,其中经训练的模型被配置为处理选自由以下各项组成的组的两个或更多个特征:递归率、确定性、平均对角线长度、最大对角线长度、散度、对角线长度的香农熵、递归趋势、分层性、捕获时间(TT)、最大垂直线长度、垂直线长度的香农熵、平均递归时间、递归时间的香农熵、最可能递归的数量、平均对角线长度(MDL)、递归时间(RT)、Vmax、确定性、Lmax和它们的任何组合。
实施例65.根据实施例47至64中任一项所述的非暂时性计算机可读存储介质,其中经训练的模型以至少约80%的灵敏性预测关于疾病或病症的诊断状态。
实施例66.根据实施例47至64中任一项所述的非暂时性计算机可读存储介质,其中经训练的模型以至少约80%的特异性预测关于疾病或病症的诊断状态。
实施例67.根据实施例47所述的非暂时性计算机可读存储介质,其中经训练的模型以至少约80%的阳性预测值预测关于疾病或病症的诊断状态。
实施例68.根据实施例47所述的非暂时性计算机可读存储介质,其中经训练的模型以至少约80%的阴性预测值预测关于疾病或病症的诊断状态。
实施例69.根据实施例47所述的非暂时性计算机可读存储介质,其中经训练的模型以至少约0.80的接受者工作特性下面积(AUROC)预测关于疾病或病症的诊断状态。
实施例70.一种用于训练模型的方法,该方法包括:在具有一个或多个处理器以及存储用于由该一个或多个处理器执行的一个或多个程序的存储器的计算机系统处:(a)对于多个训练受试者中的每个相应训练受试者,其中多个训练受试者中的训练受试者的第一子集具有第一诊断状态,该第一诊断状态对应于具有与c反应蛋白相关的第一生物学病状,并且多个训练受试者中的训练受试者的第二子集具有第二诊断状态,该第二诊断状态对应于不具有与c反应蛋白相关的该第一生物学病状:(i)对沿与受试者的c反应蛋白相关的受试者的生物学样品上的参考线的多个位置中的每个相应位置采样,从而获得多个荧光强度测量结果,多个荧光强度测量结果中的每个荧光强度测量结果对应于多个位置中的不同位置,并且多个位置中的每个位置代表与c反应蛋白相关的受试者的生物学样品的不同生长时期;(ii)对跨生物学样品上的参考线的每个荧光强度进行分析,从而获得第一数据集;(iii)从对应的多个荧光强度测量结果导出相应第二数据集,通过c反应蛋白荧光强度中的顺序变异性确定对应的特征集中的每个相应特征;并且(b)以(i)多个训练受试者中的每个训练受试者的每个相应第二数据集的对应的特征集和(ii)多个训练受试者中的每个训练受试者的选自第一诊断状态和第二诊断状态的对应的诊断状态来训练未经训练或部分未经训练的模型,从而获得经训练的模型,经训练的模型基于针对从与测试受试者的c反应蛋白相关的生物学样品获取的特征集中的特征的值,提供对关于测试受试者是否具有与c反应蛋白相关的第一生物学病状的指示。
实施例71.根据实施例70所述的方法,其中经训练的模型是神经网络算法、支持向量机算法、决策树算法、无监督聚类模型算法、监督聚类模型算法、回归模型、梯度提升算法或它们的任何组合。
实施例72.根据实施例70所述的方法,其中经训练的模型是多项式分类器。
实施例73.根据实施例70所述的方法,其中经训练的模型是二项式分类器。
实施例74.根据实施例70至73中任一项所述的方法,其中与c反应蛋白相关的第一生物学病状选自由以下各项组成的组:自闭症谱系障碍(ASD)、注意力缺陷/多动障碍(ADHD)、肌萎缩侧索硬化症(ALS)、精神分裂症、肠易激疾病(IBD)、小儿肾脏疾病、肾移植排斥反应和小儿癌症。
实施例75.根据实施例70所述的方法,其中该方法进一步包括:通过区分与c反应蛋白相关的第一生物学病状与不同于与金属代谢相关的第一生物学病状的与c反应蛋白相关的第二生物学病状,针对与c反应蛋白相关的第一生物学病状对测试受试者进行评估。
实施例76.根据实施例75所述的方法,其中第一生物学病状是自闭症谱系障碍并且第二生物学病状是注意力缺陷/多动障碍。
实施例77.根据实施例70至76中任一项所述的方法,其中测试受试者是人。
实施例78.根据实施例77所述的方法,其中人小于12岁。
实施例79.根据实施例78所述的方法,其中人小于1岁。
实施例80.根据实施例70至79中任一项所述的方法,其中相应训练受试者的与c反应蛋白相关的对应的生物学样品选自由毛干、牙齿和指甲组成的组。
实施例81.根据实施例80所述的方法,其中相应训练受试者的与c反应蛋白相关的对应的生物学样品是毛干并且参考线对应于毛干的纵向方向。
实施例82.根据实施例70至79中任一项所述的方法,其中相应训练受试者的与c反应蛋白相关的对应的生物学样品是牙齿并且参考线对应于跨生长带的方向,包括牙齿的新生线。
实施例83.根据实施例70至82中任一项所述的方法,其中对对应的多个位置进行排序,使得沿着与相应训练受试者的c反应蛋白相关的对应的生物学样品的对应的多个位置中的第一位置对应于最接近与相应训练受试者的c反应蛋白相关的对应的生物学样品的尖端的位置。
实施例84.根据实施例70至79中任一项所述的方法,其中对应的多个荧光强度测量结果中的每个迹线包括多个数据点,每个数据点是多个位置中的相应位置的实例。
实施例85.根据实施例70至84中任一项所述的方法,其中对应的特征集选自由以下各项组成的组:递归率、确定性、平均对角线长度、最大对角线长度、散度、对角线长度的香农熵、递归趋势、分层性、捕获时间、最大垂直线长度、垂直线长度的香农熵、平均递归时间、递归时间的香农熵、最可能递归的数量、平均对角线长度(MDL)、递归时间(RT)、Vmax、确定性、Lmax和它们的任何组合。
实施例86.根据实施例70至86中任一项所述的方法,其中对应的多个位置包括至少1000、1500、2000、2500、3000、3500、4000、4500或5000、6000、7000、8000、9000、10000、12000、14000、16000、18000、20000或者超过20000个位置。

Claims (86)

1.一种预测受试者关于疾病或病症的诊断状态的方法,所述方法包括:
(a)对所述受试者的牙齿样品进行染色以产生染色的牙齿样品;
(b)分析在空间上跨所述染色的牙齿样品的荧光强度;以及
(c)至少部分地基于对所述荧光强度的分析来预测受试者关于所述疾病或病症的诊断状态。
2.根据权利要求1所述的方法,其中所述分析包括获得所述染色的牙齿样品的荧光图像,以及分析所述荧光图像的荧光强度。
3.根据权利要求2所述的方法,其中获得所述染色的牙齿样品的所述荧光图像包括使用倒置的或非倒置的共聚焦显微镜。
4.根据权利要求1至3中任一项所述的方法,其中对所述牙齿样品进行染色包括使用C反应蛋白免疫组织化学染色。
5.根据权利要求1至4中任一项所述的方法,其进一步包括将所述牙齿样品切片。
6.根据权利要求1至5中任一项所述的方法,其中对所述牙齿样品进行染色包括使所述牙齿样品脱钙。
7.根据权利要求1至6中任一项所述的方法,其中所述疾病或病症包括:自闭症谱系障碍(ASD)、注意力缺陷/多动障碍(ADHD)、肌萎缩侧索硬化症(ALS)、精神分裂症、肠易激疾病(IBD)、小儿肾脏疾病、肾移植排斥反应、小儿癌症或它们的任何组合。
8.根据权利要求1至6中任一项所述的方法,其中所述疾病或病症包括自闭症谱系障碍。
9.根据权利要求1至8中任一项所述的方法,其中所述受试者是人。
10.根据权利要求9所述的方法,其中所述受试者小于12岁。
11.根据权利要求9所述的方法,其中所述受试者小于1岁。
12.根据权利要求1至11中任一项所述的方法,其中所述分析包括:至少部分地基于所述荧光强度生成炎症时间曲线,以及分析所述炎症时间曲线。
13.根据权利要求12所述的方法,其中所述炎症时间曲线的至少一部分对应于所述受试者的产前期。
14.根据权利要求1至13中任一项所述的方法,其中预测受试者关于所述疾病或病症的诊断状态包括使用经训练的模型处理所述荧光强度。
15.根据权利要求14所述的方法,其中所述经训练的模型选自由以下各项组成的组:神经网络算法、支持向量机算法、决策树算法、无监督聚类算法、监督聚类算法、回归算法、梯度提升算法和它们的任何组合。
16.根据权利要求14所述的方法,其中所述经训练的模型包括梯度提升决策树。
17.根据权利要求14所述的方法,其中所述经训练的模型被配置为处理选自由以下各项组成的组的一个或多个特征:递归率、确定性、平均对角线长度、最大对角线长度、散度、对角线长度的香农熵、递归趋势、分层性、捕获时间、最大垂直线长度、垂直线长度的香农熵、平均递归时间、递归时间的香农熵、最可能递归的数量、平均对角线长度(MDL)、递归时间(RT)、Vmax、确定性、Lmax和它们的任何组合。
18.根据权利要求17所述的方法,其中所述经训练的模型被配置为处理选自由以下各项组成的组的两个或更多个特征:递归率、确定性、平均对角线长度、最大对角线长度、散度、对角线长度的香农熵、递归趋势、分层性、捕获时间(TT)、最大垂直线长度、垂直线长度的香农熵、平均递归时间、递归时间的香农熵、最可能递归的数量、平均对角线长度(MDL)、递归时间(RT)、Vmax、确定性、Lmax和它们的任何组合。
19.根据权利要求18所述的方法,其中所述经训练的模型以至少约80%的灵敏性预测关于所述疾病或病症的诊断状态。
20.根据权利要求18所述的方法,其中所述经训练的模型以至少约80%的特异性预测关于所述疾病或病症的诊断状态。
21.根据权利要求18所述的方法,其中所述经训练的模型以至少约80%的阳性预测值预测关于所述疾病或病症的诊断状态。
22.根据权利要求18所述的方法,其中所述经训练的模型以至少约80%的阴性预测值预测关于所述疾病或病症的诊断状态。
23.根据权利要求18所述的方法,其中所述经训练的模型以至少约0.80的接受者工作特性下面积(AUROC)预测关于所述疾病或病症的诊断状态。
24.一种包括一个或多个处理器以及存储用于由所述一个或多个处理器执行的一个或多个程序的存储器的装置,所述一个或多个程序包括用于以下的指令:
(a)对沿与所述受试者的c反应蛋白相关的所述受试者的生物学样品上的参考线的多个位置中的每个相应位置进行采样,从而获得多个荧光强度测量结果,所述多个荧光强度测量结果中的每个荧光强度测量结果对应于所述多个位置中的不同位置,并且所述多个位置中的每个位置代表与c反应蛋白相关的所述受试者的所述生物学样品的不同生长时期;
(b)对跨所述生物学样品上的参考线的每个荧光强度进行分析,从而获得第一数据集;
(c)从对应的多个荧光强度测量结果导出相应第二数据集,对应的特征集中的每个相应特征通过c反应蛋白荧光强度中的顺序变异性确定;并且
(d)使用经训练的模型处理所述特征,以预测受试者关于与c反应蛋白相关的疾病或病症的诊断状态。
25.根据权利要求24所述的装置,其中所述多个荧光强度测量结果是用倒置的或非倒置的共聚焦显微镜测量的。
26.根据权利要求24或25所述的装置,其中所述生物学样品包括牙齿样品。
27.根据权利要求24至26中任一项所述的装置,其中使用C反应蛋白免疫组织化学染色对所述牙齿样品进行染色。
28.根据权利要求26所述的装置,其中所述指令进一步包括对所述牙齿样品进行切片。
29.根据权利要求26所述的装置,其中所述指令进一步包括使所述牙齿样品脱钙。
30.根据权利要求24至29中任一项所述的装置,其中所述疾病或病症包括:自闭症谱系障碍(ASD)、注意力缺陷/多动障碍(ADHD)、肌萎缩侧索硬化症(ALS)、精神分裂症、肠易激疾病(IBD)、小儿肾脏疾病、肾移植排斥反应、小儿癌症或它们的任何组合。
31.根据权利要求24至29中任一项所述的装置,其中所述疾病或病症包括自闭症谱系障碍ASD。
32.根据权利要求24至31中任一项所述的装置,其中所述受试者是人。
33.根据权利要求24至32中任一项所述的装置,其中所述受试者小于12岁。
34.根据权利要求24至32中任一项所述的装置,其中所述受试者小于1岁。
35.根据权利要求24至34中任一项所述的装置,其中所述分析包括:至少部分地基于所述多个荧光强度测量结果生成炎症时间曲线,以及分析所述炎症时间曲线。
36.根据权利要求35所述的装置,其中所述炎症时间曲线的至少一部分对应于所述受试者的产前期。
37.根据权利要求24至36中任一项所述的装置,其中预测所述受试者关于所述疾病或病症的诊断状态包括使用所述经训练的模型处理所述多个荧光强度测量结果。
38.根据权利要求37所述的装置,其中所述经训练的模型选自由以下各项组成的组:神经网络算法、支持向量机算法、决策树算法、无监督聚类算法、监督聚类算法、回归算法、梯度提升算法和它们的任何组合。
39.根据权利要求37所述的装置,其中所述经训练的模型包括梯度提升决策树。
40.根据权利要求37所述的装置,其中所述经训练的模型被配置为处理选自由以下各项组成的组的一个或多个特征:递归率、确定性、平均对角线长度、最大对角线长度、散度、对角线长度的香农熵、递归趋势、分层性、捕获时间、最大垂直线长度、垂直线长度的香农熵、平均递归时间、递归时间的香农熵、最可能递归的数量、平均对角线长度(MDL)、递归时间(RT)、Vmax、确定性、Lmax和它们的任何组合。
41.根据权利要求37所述的装置,其中所述经训练的模型被配置为处理选自由以下各项组成的组的两个或更多个特征:递归率、确定性、平均对角线长度、最大对角线长度、散度、对角线长度的香农熵、递归趋势、分层性、捕获时间(TT)、最大垂直线长度、垂直线长度的香农熵、平均递归时间、递归时间的香农熵、最可能递归的数量、平均对角线长度(MDL)、递归时间(RT)、Vmax、确定性、Lmax和它们的任何组合。
42.根据权利要求24至41中任一项所述的装置,其中所述经训练的模型以至少约80%的灵敏性预测关于所述疾病或病症的诊断状态。
43.根据权利要求24至41中任一项所述的装置,其中所述经训练的模型以至少约80%的特异性预测关于所述疾病或病症的诊断状态。
44.根据权利要求24至41中任一项所述的装置,其中所述经训练的模型以至少约80%的阳性预测值预测关于所述疾病或病症的诊断状态。
45.根据权利要求24至41中任一项所述的装置,其中所述经训练的模型以至少约80%的阴性预测值预测关于所述疾病或病症的诊断状态。
46.根据权利要求24至41中任一项所述的装置,其中所述经训练的模型以至少约0.80的接受者工作特性下面积(AUROC)预测关于所述疾病或病症的诊断状态。
47.一种非暂时性计算机可读存储介质和嵌入其中的一个或多个计算机程序,所述一个或多个计算机程序包括指令,所述指令在由计算机系统执行时使所述计算机系统执行包括以下的方法:
(a)对沿与所述受试者的c反应蛋白相关的所述受试者的生物学样品上的参考线的多个位置中的每个相应位置进行采样,从而获得多个荧光强度测量结果,所述多个荧光强度测量结果中的每个荧光强度测量结果对应于所述多个位置中的不同位置,并且所述多个位置中的每个位置代表与c反应蛋白相关的所述受试者的所述生物学样品的不同生长时期;
(b)对跨所述生物学样品上的参考线的每个荧光强度进行分析,从而获得第一数据集;
(c)从对应的多个荧光强度测量结果中导出相应第二数据集,对应的特征集中的每个相应特征通过c反应蛋白荧光强度中的变化确定;并且
(d)使用经训练的模型处理所述特征,以预测受试者关于与c反应蛋白相关的疾病或病症的诊断状态。
48.根据权利要求47所述的非暂时性计算机可读存储介质,其中所述多个荧光强度测量结果是用倒置的或非倒置的共聚焦显微镜测量的。
49.根据权利要求47或48所述的非暂时性计算机可读存储介质,其中所述生物学样品包括牙齿样品。
50.根据权利要求49所述的非暂时性计算机可读存储介质,其中使用C反应蛋白免疫组织化学染色对所述牙齿样品进行染色。
51.根据权利要求49所述的非暂时性计算机可读存储介质,其中所述方法进一步包括将所述牙齿样品切片。
52.根据权利要求47至51中任一项所述的非暂时性计算机可读存储介质,其中所述方法进一步包括使所述牙齿样品脱钙。
53.根据权利要求47至52中任一项所述的非暂时性计算机可读存储介质,其中所述疾病或病症包括:自闭症谱系障碍(ASD)、注意力缺陷/多动障碍(ADHD)、肌萎缩侧索硬化症(ALS)、精神分裂症、肠易激疾病(IBD)、小儿肾脏疾病、肾移植排斥反应、小儿癌症或它们的任何组合。
54.根据权利要求47至52中任一项所述的非暂时性计算机可读存储介质,其中疾病或病症包括自闭症谱系障碍(ASD)。
55.根据权利要求47至54中任一项所述的非暂时性计算机可读存储介质,其中所述受试者是人。
56.根据权利要求47至55中任一项所述的非暂时性计算机可读存储介质,其中所述受试者小于12岁。
57.根据权利要求47至55中任一项所述的非暂时性计算机可读存储介质,其中所述受试者小于1岁。
58.根据权利要求47至57中任一项所述的非暂时性计算机可读存储介质,其中分析包括:至少部分地基于所述多个荧光强度测量结果生成炎症时间曲线,以及分析所述炎症时间曲线。
59.根据权利要求58所述的非暂时性计算机可读存储介质,其中所述炎症时间曲线的至少一部分对应于所述受试者的产前期。
60.根据权利要求47至59中任一项所述的非暂时性计算机可读存储介质,其中预测所述受试者关于所述疾病或病症的诊断状态包括使用所述经训练的模型处理所述多个荧光强度测量结果。
61.根据权利要求60所述的非暂时性计算机可读存储介质,其中所述经训练的模型选自由以下各项组成的组:神经网络算法、支持向量机算法、决策树算法、无监督聚类算法、监督聚类算法、回归算法、梯度提升算法和它们的任何组合。
62.根据权利要求60所述的非暂时性计算机可读存储介质,其中所述经训练的模型包括梯度提升决策树。
63.根据权利要求60所述的非暂时性计算机可读存储介质,其中所述经训练的模型被配置为处理选自由以下各项组成的组的一个或多个特征:递归率、确定性、平均对角线长度、最大对角线长度、散度、对角线长度的香农熵、递归趋势、分层性、捕获时间、最大垂直线长度、垂直线长度的香农熵、平均递归时间、递归时间的香农熵、最可能递归的数量、平均对角线长度(MDL)、递归时间(RT)、Vmax、确定性、Lmax和它们的任何组合。
64.根据权利要求60所述的非暂时性计算机可读存储介质,其中所述经训练的模型被配置为处理选自由以下各项组成的组的两个或更多个特征:递归率、确定性、平均对角线长度、最大对角线长度、散度、对角线长度的香农熵、递归趋势、分层性、捕获时间(TT)、最大垂直线长度、垂直线长度的香农熵、平均递归时间、递归时间的香农熵、最可能递归的数量、平均对角线长度(MDL)、递归时间(RT)、Vmax、确定性、Lmax和它们的任何组合。
65.根据权利要求47至64中任一项所述的非暂时性计算机可读存储介质,其中所述经训练的模型以至少约80%的灵敏性预测关于所述疾病或病症的诊断状态。
66.根据权利要求47至64中任一项所述的非暂时性计算机可读存储介质,其中所述经训练的模型以至少约80%的特异性预测关于所述疾病或病症的诊断状态。
67.根据权利要求47所述的非暂时性计算机可读存储介质,其中所述经训练的模型以至少约80%的阳性预测值预测关于所述疾病或病症的诊断状态。
68.根据权利要求47所述的非暂时性计算机可读存储介质,其中所述经训练的模型以至少约80%的阴性预测值预测关于所述疾病或病症的诊断状态。
69.根据权利要求47所述的非暂时性计算机可读存储介质,其中所述经训练的模型以至少约0.80的接受者工作特性下面积(AUROC)预测关于所述疾病或病症的诊断状态。
70.一种用于训练模型的方法,所述方法包括:
在具有一个或多个处理器以及存储用于由所述一个或多个处理器执行的一个或多个程序的存储器的计算机系统处:
(a)对于多个训练受试者中的每个相应训练受试者,其中所述多个训练受试者中的训练受试者的第一子集具有第一诊断状态,所述第一诊断状态对应于具有与c反应蛋白相关的第一生物学病状,并且所述多个训练受试者中的训练受试者的第二子集具有第二诊断状态,所述第二诊断状态对应于不具有与c反应蛋白相关的所述第一生物学病状:
(i)对沿与所述受试者的c反应蛋白相关的所述受试者的生物学样品上的参考线的多个位置中的每个相应位置进行采样,从而获得多个荧光强度测量结果,所述多个荧光强度测量结果中的每个荧光强度测量结果对应于所述多个位置中的不同位置,并且所述多个位置中的每个位置代表与c反应蛋白相关的所述受试者的所述生物学样品的不同生长时期;
(ii)对跨所述生物学样品上的所述参考线的每个荧光强度进行分析,从而获得第一数据集;以及
(iii)从对应的多个荧光强度测量结果中导出相应第二数据集,对应的特征集中的每个相应特征通过c反应蛋白荧光强度中的顺序变异性确定;并且
(b)以(i)所述多个训练受试者中的每个训练受试者的每个相应第二数据集的所述对应的特征集和(ii)所述多个训练受试者中的每个训练受试者的选自所述第一诊断状态和所述第二诊断状态的对应的诊断状态来训练未经训练或部分未经训练的模型,从而获得经训练的模型,所述经训练的模型基于针对从与测试受试者的c反应蛋白相关的生物学样品获取的特征集中的特征的值,提供对关于所述测试受试者是否具有与c反应蛋白相关的所述第一生物学病状的指示。
71.根据权利要求70所述的方法,其中所述经训练的模型是神经网络算法、支持向量机算法、决策树算法、无监督聚类模型算法、监督聚类模型算法、回归模型、梯度提升算法或它们的任何组合。
72.根据权利要求70所述的方法,其中所述经训练的模型是多项式分类器。
73.根据权利要求70所述的方法,其中所述经训练的模型是二项式分类器。
74.根据权利要求70至73中任一项所述的方法,其中与c反应蛋白相关的所述第一生物学病状选自由以下各项组成的组:自闭症谱系障碍(ASD)、注意力缺陷/多动障碍(ADHD)、肌萎缩侧索硬化症(ALS)、精神分裂症、肠易激疾病(IBD)、小儿肾脏疾病、肾移植排斥反应和小儿癌症。
75.根据权利要求70所述的方法,其中所述方法进一步包括:通过区分与c反应蛋白相关的所述第一生物学病状与不同于与金属代谢相关的所述第一生物学病状的与c反应蛋白相关的第二生物学病状,针对与c反应蛋白相关的所述第一生物学病状对所述测试受试者进行评估。
76.根据权利要求75所述的方法,其中所述第一生物学病状是自闭症谱系障碍并且所述第二生物学病状是注意力缺陷/多动障碍。
77.根据权利要求70至76中任一项所述的方法,其中所述测试受试者是人。
78.根据权利要求77所述的方法,其中所述人小于12岁。
79.根据权利要求78所述的方法,其中所述人小于1岁。
80.根据权利要求70至79中任一项所述的方法,其中与所述相应训练受试者的c反应蛋白相关的对应的生物学样品选自由毛干、牙齿和指甲组成的组。
81.根据权利要求80所述的方法,其中与所述相应训练受试者的c反应蛋白相关的所述对应的生物学样品是所述毛干并且所述参考线对应于所述毛干的纵向方向。
82.根据权利要求70至79中任一项所述的方法,其中与所述相应训练受试者的c反应蛋白相关的对应的生物学样品是牙齿并且所述参考线对应于跨生长带的方向,包括所述牙齿的新生线。
83.根据权利要求70至82中任一项所述的方法,其中对对应的多个位置进行排序,使得沿着与所述相应训练受试者的c反应蛋白相关的所述对应的生物学样品的所述对应的多个位置中的第一位置对应于最接近与所述相应训练受试者的c反应蛋白相关的所述对应的生物学样品的尖端的位置。
84.根据权利要求70至79中任一项所述的方法,其中所述对应的多个荧光强度测量结果中的每个迹线包括多个数据点,每个数据点是所述多个位置中的所述相应位置的实例。
85.根据权利要求70至84中任一项所述的方法,其中所述对应的特征集选自由以下各项组成的组:递归率、确定性、平均对角线长度、最大对角线长度、散度、对角线长度的香农熵、递归趋势、分层性、捕获时间、最大垂直线长度、垂直线长度的香农熵、平均递归时间、递归时间的香农熵、最可能递归的数量、平均对角线长度(MDL)、递归时间(RT)、Vmax、确定性、Lmax和它们的任何组合。
86.根据权利要求70至86中任一项所述的方法,其中所述对应的多个位置包括至少1000、1500、2000、2500、3000、3500、4000、4500或5000、6000、7000、8000、9000、10000、12000、14000、16000、18000、20000或者超过20000个位置。
CN202180092989.1A 2020-12-04 2021-12-03 用于生物学病症的动态免疫组织化学分析的系统和方法 Pending CN117859064A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063121792P 2020-12-04 2020-12-04
US63/121,792 2020-12-04
PCT/US2021/061803 WO2022120164A1 (en) 2020-12-04 2021-12-03 Systems and methods for dynamic immunohistochemistry profiling of biological disorders

Publications (1)

Publication Number Publication Date
CN117859064A true CN117859064A (zh) 2024-04-09

Family

ID=79259454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180092989.1A Pending CN117859064A (zh) 2020-12-04 2021-12-03 用于生物学病症的动态免疫组织化学分析的系统和方法

Country Status (9)

Country Link
US (1) US20240003813A1 (zh)
EP (1) EP4256345A1 (zh)
JP (1) JP2024501620A (zh)
KR (1) KR20240043724A (zh)
CN (1) CN117859064A (zh)
AU (1) AU2021391811A1 (zh)
CA (1) CA3201128A1 (zh)
MX (1) MX2023006475A (zh)
WO (1) WO2022120164A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023240117A1 (en) * 2022-06-08 2023-12-14 Icahn School Of Medicine At Mount Sinai Systems and methods for dynamic immunohistochemistry profiling of biological disorders and feature engineering thereof

Also Published As

Publication number Publication date
AU2021391811A1 (en) 2023-07-20
WO2022120164A1 (en) 2022-06-09
KR20240043724A (ko) 2024-04-03
CA3201128A1 (en) 2022-06-09
MX2023006475A (es) 2023-08-21
US20240003813A1 (en) 2024-01-04
JP2024501620A (ja) 2024-01-15
EP4256345A1 (en) 2023-10-11

Similar Documents

Publication Publication Date Title
US11257579B2 (en) Systems and methods for managing autoimmune conditions, disorders and diseases
US8660857B2 (en) Method and system for outcome based referral using healthcare data of patient and physician populations
US20240112803A1 (en) Systems and Methods for Dynamic Raman Profiling of Biological Diseases and Disorders
CN117859064A (zh) 用于生物学病症的动态免疫组织化学分析的系统和方法
Bernardini et al. A novel missing data imputation approach based on clinical conditional Generative Adversarial Networks applied to EHR datasets
Levy et al. Development and validation of self-monitoring auto-updating prognostic models of survival for hospitalized COVID-19 patients
Dalal Analysing the implementation of machine learning in healthcare
US20230377750A1 (en) Classifier Apparatus With Decision Support Tool
Bernardini et al. A clinical decision support system to stratify the temporal risk of diabetic retinopathy
US20230368921A1 (en) Systems and methods for exposomic clinical applications
Akash et al. Predicting Thyroid Dysfunction Using Machine Learning Techniques
WO2023240122A1 (en) Systems and methods for dynamic raman profiling of biological diseases and disorders and feature engineering methods thereof
WO2023240117A1 (en) Systems and methods for dynamic immunohistochemistry profiling of biological disorders and feature engineering thereof
Comito et al. Overview of Artificial Intelligence Methods for Alzheimer’s Disease Prediction and Progression
CN116564524B (zh) 一种伪标签演变趋势正则的预后预测装置
CN116615702A (zh) 用于暴露组学临床应用的系统和方法
Kashyap et al. Revolutionizing healthcare with data science: early disease identification and prediction system
Yaddaden et al. Machine Learning-Based Pre-Diagnosis Tools in Emergency Departments: Predicting Hospitalization, Mortality and Triage Acuity
Upadhyay et al. Comprehensive Systematic Computation on Alzheimer's Disease Classification
Alam Optimizing Healthcare Insights: Unstructured Healthcare Data Analysis with Hybrid Models
Kumari et al. Chronic Disease prediction using Machine Learning Techniques: A Survey
Abouhawwash et al. Automatic Diagnosis of Polycystic Ovarian Syndrome Using Wrapper Methodology with Deep Learning Techniques.
Ma et al. A recurrent gated unit-based mixture kriging machine Bayesian filtering approach for long-term prediction of dynamic intermittency
CN117296106A (zh) 用于确定败血症发作的方法和设备
WO2024092136A2 (en) Machine learning modeling for inpatient prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination