CN107223248B - 用于创建指示医疗状况的存在的分类器的方法和装置 - Google Patents

用于创建指示医疗状况的存在的分类器的方法和装置 Download PDF

Info

Publication number
CN107223248B
CN107223248B CN201680009486.2A CN201680009486A CN107223248B CN 107223248 B CN107223248 B CN 107223248B CN 201680009486 A CN201680009486 A CN 201680009486A CN 107223248 B CN107223248 B CN 107223248B
Authority
CN
China
Prior art keywords
chromatographic data
data
sample
chromatographic
medical condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680009486.2A
Other languages
English (en)
Other versions
CN107223248A (zh
Inventor
克里斯多佛·西蒙·约翰·普罗伯特
拉斐尔·巴斯托斯·马瑞慈·阿吉奥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Liverpool
Original Assignee
University of Liverpool
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Liverpool filed Critical University of Liverpool
Publication of CN107223248A publication Critical patent/CN107223248A/zh
Application granted granted Critical
Publication of CN107223248B publication Critical patent/CN107223248B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8675Evaluation, i.e. decoding of the signal into analytical information
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8675Evaluation, i.e. decoding of the signal into analytical information
    • G01N30/8686Fingerprinting, e.g. without prior knowledge of the sample components
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Immunology (AREA)
  • General Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Library & Information Science (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明的实施例提供了创建指示受试者中的医疗状况的存在的分类器的方法,包括:接收指示来自具有医疗状况的第一多个受试者和不具有医疗状况的第二多个受试者中的每个的样本中的挥发性有机化合物的概况的色谱数据,选择色谱数据中的一个作为参考色谱数据,将其余的色谱数据相对于参考色谱数据对齐,使用一个或更多个尺度的墨西哥帽小波变换从色谱数据中提取一个或更多个特征,选择指示医疗状况的色谱数据的一个或更多个特征,以及构建分类器,其用于确定指示医疗状况的色谱数据和指示医疗状况的不存在的色谱数据之间的边界。

Description

用于创建指示医疗状况的存在的分类器的方法和装置
本发明的一些实施例涉及用于确定受试者中的医疗状况的存在的方法和装置。具体地,尽管不是排他地,但本发明的一些实施例涉及用于确定受试者中癌症(包括前列腺癌)的存在的方法和装置。本发明的一些实施例涉及用于创建指示受试者中的医疗状况的存在的分类器的方法和装置。
背景
前列腺癌是全世界男性的第二大常见疾病,每年约有1,111,000例新发病例。当许多患有膀胱流出症状的男性被发现有升高的血清PSA水平时,经常针对前列腺癌对他们进行研究。然而,PSA水平缺乏特异性,因此,这些男性必须经受侵入性测试以确认或反驳前列腺癌的诊断。在许多情况下,没有发现癌症。这往往使人担心,而不是放心,并且可能会跟进重复的PSA水平测量的无休止的循环。当前,PSA在大多数国家并不被认为是诊断标志物并且尚未被批准用于筛查项目。膀胱癌是全世界第9大常见癌症,并且治理是最昂贵的。没有生物标志物被批准用于随访,并且进行的重复的膀胱镜检查是侵入性的、昂贵的并且并不是没有风险。炎症性肠疾病(IBD)是由肠道中的异常免疫应答引起的慢性胃肠疾病,而肠易激综合征(IBS)是没有已知原因的消化道疾病。对于可用于诊断和筛查包括前列腺癌、前列腺癌、IBD和IBS在内的医疗状况的更好的生物标志物存在迫切的临床需求。这样将节省健康护理提供者的钱,减轻患者痛苦,并还将加快患者急需的治疗。
本发明的实施例的目的在于至少缓解现有技术的一个或更多个问题。
发明陈述
根据本发明的方面,提供了如所附权利要求中所阐述的方法和装置。
根据本发明的方面,提供了确定受试者中的医疗状况的存在的方法,包括:接收指示来自受试者的样本中的挥发性有机化合物的概况的色谱数据;将色谱数据与参考色谱数据匹配;使用一个或更多个预定尺度的墨西哥帽小波变换从色谱数据中提取一个或更多个预定特征;以及使用分类器确定所提取的特征是否指示受试者中的医疗状况的存在。
附图简述
现在将参考附图仅通过示例对本发明的实施例进行描述,其中:
图1示出了根据本发明的实施例的方法;
图2示出了根据本发明的实施例的系统;
图3示出了色谱数据的图示;
图4示出了根据本发明的实施例的反演的色谱数据的图示;
图5示出了根据本发明的实施例的预处理的色谱数据;
图6示出了根据本发明的实施例的归一化的色谱数据;
图7示出了根据本发明的实施例的对齐的色谱数据;
图8示出了根据本发明的实施例的选择用于数据对齐的参考色谱样本的方法;
图9示出了根据本发明的实施例的对齐色谱数据的方法;
图10示出了根据本发明的实施例的对于色谱数据确定的小波系数;
图11示出了根据本发明的实施例的变换的色谱数据;
图12示出了根据本发明的实施例的确定受试者中的医疗状况的存在的方法;以及
图13示出了根据本发明的实施例的对齐所接收的色谱数据的方法。
发明的实施例的具体描述
图1图示了根据本发明的实施例的方法100。方法100是创建指示受试者是否具有一种或更多种医疗状况的分类器的方法。医疗状况可包括一种或更多种癌症(包括膀胱癌和/或前列腺癌)、肠易激疾病(IBD)、肠易激综合征(IBS)、一种或更多种预定细菌(诸如,艰难梭菌(C-dif))的存在、一种或更多种预定寄生虫的存在、一种或多种预定真菌的存在。方法100是用于创建分类器并将分类器储存在计算机可读介质(诸如,非暂时性计算机可读介质)中的基于计算机的方法。
该方法可由根据如图2中所图示的本发明的实施例的装置200执行。装置200包括控制单元210,该控制单元包括处理单元220和存储器单元230。装置210被布置为从感测单元240接收色谱数据。色谱数据指示从受试者采集或获取的样本中的挥发性化合物的存在。样本可以是来自受试者的呼吸、尿液或粪便的样本,但是将意识到该列表并不详尽。
感测单元可包括一个或更多个金属氧化物(MO)传感器。感测单元240可以与诸如WO/2011/061308中所述的装置相关联,其通过引用并入本文以用于所有目的。装置200可包括耦合到一个或更多个传感器的气相色谱柱。该柱可以与用于根据预定方案加热柱的炉相关联。
色谱数据可借助于专用通信信道(即,直接电连接)或借助于在一个或更多个计算机网络上形成的通信信道,在感测单元240和控制单元210之间传送。色谱数据可在控制单元210处以一个或更多个文件的形式被接收,每个文件都包括对于相应样本的色谱数据。
为了产生色谱数据,样本可根据预定方案来加热。方案可在从样本采样预定体积的气体之前定义在一个或更多个预定温度下加热样本的一段时间。
炉的初始温度可保持在40℃13.4分钟,以5℃/分钟的速率升温至100℃,保持30分钟,并使用10℃/分钟的温度斜坡冷却至40℃。将意识到可使用用于炉加热的其它方案。
MO传感器的电阻在一段时间内被确定。色谱数据可包括指示一个或更多个MO传感器在预定间隔(诸如,0.5秒)处的电阻的数据,但是将意识到可使用其它间隔。
图3图示了根据本发明的实施例的色谱数据。图3包括来自相应样本的色谱数据的多个项的曲线图。色谱数据是随着时间(x轴)绘制的,并指示传感器在每个相应的采样时间处的电阻(y轴)。在步骤105中,色谱数据由控制单元210接收。色谱数据可被储存在控制单元210的存储器单元230中。
为了创建指示受试者是否具有一个或更多个医疗状况的分类器,来自多个样本的色谱数据由具有相应的一个或更多个医疗状况的受试者提供。如将解释的,分类器基于来自这些受试者的色谱数据。因此,来自具有一个或更多个医疗状况的多个样本的一组色谱数据在步骤105中被接收。另一组色谱数据由不具有一个或更多个医疗状况的多个样本提供,该另一组色谱数据可被称为对照组色谱数据。
在步骤110中,在步骤105中接收的色谱数据的电阻信号被反演,以便于使用代谢组学工具对它们进行处理。该反演使用以下数学方程式对每个样本单独执行:
x=|x-(max(x)+1)|
其中,x包含为单个样本登记的电阻值。图4包括反演的色谱数据的曲线图。
在步骤120中,所接收的色谱数据被处理。步骤120包括基线移除过程。基线是色谱数据的基线电阻水平。基线可作为多数或仅由流动相发挥作用。流动相是通过气相色谱柱携带代谢物的气体。在一些实施例中,气体可以是合成气体。阈值也可在步骤120中被确定。在一些实施例中,色谱数据的基线通过最小二乘拟合过程被移除。
在一些实施例中,步骤120还包括确定电阻阈值。电阻阈值被定义为来自样本的色谱数据的平均电阻值减去其电阻值的标准偏差。然后,低于电阻阈值的任何电阻值被设置为可以为零的预定值。图5图示了根据步骤120的实施例处理的色谱数据。
在步骤130中,对于每个样本的色谱数据的值被归一化。在一个实施例中,样本的电阻值通过将它们的值除以为特定样本登记的最高电阻值来被归一化。图6图示了根据步骤130的实施例处理的色谱数据。
在步骤140中,参考色谱样本被选择用于数据对齐。步骤140包括从通过步骤130提供的色谱数据中选择参考色谱数据。在一些实施例中,选择参考色谱数据包括确定指示每对色谱数据之间的相关性的系数。如本领域技术人员将认识到的,该系数可以是皮尔森积矩相关系数,通常被称为皮尔森系数。
图8中图示了根据本发明的实施例选择用于对齐色谱数据的参考色谱的方法700。
参照图8,在步骤705中,创建了包含实验状况1中的所有样本(例如,癌症样本)的两个列表。这些列表中的一个可被命名为样本列表参考(SampleListRef),而第二列表可被命名为样本列表测试(SampleListTest)。
在步骤710中,样本可从样本列表参考中随机选择,加载到存储器中并从样本列表参考中移除。为了清楚起见,该样本将在此被描述为样本参考(SampleRef)。
在步骤715中,样本可从样本列表测试中随机选择,加载到存储器中并从样本列表测试中移除。为了清楚起见,该样本将在此被描述为样本测试(SampleTest)。在步骤710和715的第一迭代中,选择的样本可以是数据集中的第一色谱。例如,在色谱数据是全部被分配ID的情况下,可在步骤710和715的第一迭代中选择具有最低ID值的色谱。
在步骤720和725中,样本参考和样本测试之间的皮尔森相关系数被确定,并被储存在可被命名为R的矩阵中。
在步骤730至765中,样本参考被移位预定数量的采样点,其中相关系数在每次采样点移位之后用样本测试来计算,并且得到的相关系数被储存在矩阵R中。将认识到的是,在一些实施例中,样本参考将相对于样本测试在正的和负的时间点方向二者上移位。在一个实施例中,移位窗口是±15个采样点,但将意识到的是,可选择其它尺寸的移位窗口。
当样本参考移位升至移位窗口的一个或更多个极端时,方法移动到步骤775。将认识到的是,当到达步骤775时,在一些实施例中,每个色谱与P系数如下相关联:
P=(2s+1)×(n-1)
其中,s是移位窗口的幅度,诸如15(因此,2s计算从负到正的移位的极差),以及n是实验状况1中的样本数量。因此,在一个实施例中,每个色谱数据与实验状况1中的其余色谱数据中的每个的31个相关系数相关联。
在步骤775中,获取矩阵R中的最大值,其被储存在命名为M的新矩阵中,并且R的内容被清除或复位。重复步骤715至775,直到样本列表测试为空,并且方法移动到步骤785。
在步骤785中,计算储存在M中的所有值的平均值,并将其连同识别参考样本的信息(诸如,样本参考的ID)一起储存在命名为C的矩阵中,并且M的内容被清除。重复步骤710至785,直到样本列表参考为空,并且方法移动到步骤795。在步骤795中,与矩阵C中的最高正值相关联的样本被确定为用于色谱对齐的参考样本。如将要解释的,步骤795可包括将与被选择为参考色谱样本的色谱相关联的ID,以允许其它色谱数据在稍后的时间对齐。
返回到图1,在步骤150中,色谱数据被对齐。对齐旨在确保相同特征在来自不同数据类别或分析中的不同医疗状况的样本中进行比较。步骤150包括将色谱数据相对于在步骤140处选择的参考色谱样本对齐。图9中图示了根据本发明的实施例的对齐色谱数据的方法800。
参照图9,在方法800中,每个色谱数据相对于在图1的方法100的步骤140处选择的参考色谱对齐。
在步骤805中,在步骤140处选择的参考色谱样本被加载到存储器中。为了清楚起见,参考色谱样本将在此被描述为参考样本。在步骤810中,创建了包含分析中的一个或更多个数据集中的所有样本(例如,癌症样本和对照样本)的列表。为了清楚起见,该列表将在此被描述为对齐的样本。
在步骤815中,来自对齐的样本的随机样本被加载。为了清楚起见,该样本将在此被描述为样本对齐。在步骤820至870中,样本对齐被移位预定数量的采样点,其中在每个采样点被移位之后单个相关系数在参考样本和样本对齐之间进行计算,并且所得到的相关系数存储在矩阵R中。在一个实施例中,移位窗口是±15个采样点,但是将意识到的是,可选择其他数量的时间点。将认识到的是,在一些实施例中,样本对齐将相对于参考样本在正的和负的时间点方向上移位。当样本对齐移位升至移位窗口的一个或更多个极端时,方法移动到步骤875。将认识到的是,当到达步骤875时,在一些实施例中,样本对齐与P系数如下相关联:
P=2s+1
其中,s是时间移位窗口的幅度,诸如15(因此,2s计算从负到正的时间移位的极差)。因此,在一个实施例中,样本对齐与31个相关系数相关联。在步骤875中,与R中的最高值相关联的移位采样点被确定,并被储存为移位的采样点。在步骤880中,样本对齐被移位在移位的采样点中定义的采样点的数量,并且矩阵R的内容被清除。重复步骤815到880,直到对齐的样本列表为空。图7图示了根据步骤150的实施例对齐的色谱数据。
返回到图1,在步骤160中,对齐的色谱数据的值使用墨西哥帽母小波(其也可被称为Ricker小波)变换成小波系数。可使用其他母小波。在一个实施例中,小波系数可使用墨西哥帽母小波的多个尺度来确定。多个尺度可以是介于下限和上限之间的尺度。在一个实施例中,上限和下限可分别为100和1。在一个实施例中,系数可在下限和上限之间的每个整数尺度处被确定。系数可被确定为计算出的系数的模数。也就是说,尽管可使用由墨西哥帽母小波提取的原始值,但对于每个样本的色谱数据的值使用墨西哥帽母小波的尺度被转换为它们的小波系数的模数。然后,如将要解释的,小波系数被储存以供将来使用。小波尺度值中的一个被选择为对于色谱数据的最佳匹配。如将要解释的,最佳匹配可以是具有最高分类准确度的小波尺度。每个小波尺度的准确度可基于验证过程的最小、中值、平均和最大准确度中的一个或更多个来确定。图10图示了根据步骤160的实施例的被变换为小波系数的色谱数据。
在步骤170中,对数、极差和空间符号(SpatialSign)的变换过程中的一个或更多个应用于色谱数据。在一个实施例中,在对数、极差和空间符号的变换过程之前,色谱数据的每个值都具有预定值,诸如添加到其的值1。然后,色谱数据可使用自然对数为基准进行对数变换,尽管将意识到其他基值可用于对数变换。在一个实施例中,然后应用极差变换,以将色谱数据的值设置在预定极差内,诸如介于0和1之间的极差。极差变换可确定在色谱数据的每个时间点处的变换的值xt,其中,x是色谱数据的数据值,min(x)和max(x)分别是色谱数据的最小值和最大值。极差变换可使用以下方程来执行:
Figure BDA0001374066030000081
在一些实施例中,可应用进一步的变换,其可被称为如在由S.Serneels、E.DeNolf、P.J.Van Espen于2006年在Journal of Chemical Information and Modeling 46的第1402-1409页发表的Spatial sign preprocessing:A simple way to impart moderaterobustness to multivariate estimators中所描述的空间符号变换,其通过引用并入本文。图11图示了根据步骤170的实施例变换的色谱数据。
在步骤180中,选择色谱数据的一个或更多个特征。选择一个或更多个特征来指示一个或更多个医疗状况的存在。在本发明的实施例中,一个或更多个特征通过使用随机森林的特征选择算法来选择。在该算法中,决策树是基于不同的样本组来开发的,并且当特征的值被随机排列在样本组之间时,随机森林用于计算分类准确度的损失。然后,选择与分类准确度的损失相关联的一个或更多个特征。
在本发明的一些实施例中,在步骤180中应用了基于随机森林的被称为boruta和rfe的两种不同算法中的一种,以便选择待使用的特征。boruta算法涉及基于不同样本组的决策树的开发。然后,当特征的值被随机排列在样本组之间时,应用随机森林来计算分类准确度的损失。然后,选择与准确度的损失相关联的特征作为指示特征。rfe算法运作类似于boruta,但它消除了不产生准确度水平的变化的特征,而不是选择产生准确度的损失的特征。boruta和rfe算法在Journal of Statistical Software 36(11)的第1-13页公开的“Feature Selection with the Boruta Package”,以及由Anderssen,E.、K.Dyrstad、F.Westad和H.Martens于2006年在Chemometrics and Intelligent Laboratory Systems84(1-2)的第69-74页发表的“Reducing over-optimism in variable selection bycross-model validation”中进行了描述。这些参考通过引用并入本文。在步骤180中,一个或更多个选择的特征被储存以供稍后使用。
在步骤190中,分类器被确定。分类器用于将样本分类为来自具有一个或更多个医疗状况的受试者的样本或不具有一个或更多个医疗状况的样本。分类器可根据以下之一来确定:线性判别分析(LDA);偏最小二乘法(PLS);随机森林;k最近邻(KNN);具有径向基核函数的支持向量机(SVM)(SVM径向);具有线性基核函数的SVM(SVM线性);以及具有多项式基核函数的SVM(SVM多项式)。分类器可使用例如诸如R包脱字符(Kuhn,M.于2014年公开的caret:Classification and Regression Training)的软件包来确定。
在同一数据集上建立和测试分类器可能会由于潜在的过度拟合而产生偏置和过于乐观的结果。因此,在步骤190中,验证过程可用于防止这样的过度拟合。验证过程可以是重复的k重交叉验证和重复的双交叉验证中的一种。特别地,在本发明的示例性实施例中,使用两个验证过程:30次重复的10重交叉验证和30次重复的3重双交叉验证,其中,重复5次10重的内循环。另外,这两个交叉验证过程在相同的数据集上重复,但在每次重复中应用类别标签的蒙特卡罗随机排列。
如在步骤160的以上描述中所述,方法100针对多个小波尺度重复。然后选择产生最高分类准确度的标度作为对于处理的色谱数据的最佳匹配。作为图1中所图示的方法100的实施例的结果,产生分类器,其能够将色谱数据分类为源自具有一个或更多个医疗状况或不具有一个或更多个医疗状况的样本。
图12图示了根据本发明的实施例的确定受试者中的医疗状况的存在的方法1000。该方法基于取自受试者的样本来执行。色谱数据可由如上参照图2所述的装置提供。相同的可以是从受试者排出的物质。样本可以是来自受试者的呼吸、尿液或粪便的样本,尽管将意识到该列表并不详尽。如上所述,医疗状况可包括一种或更多种癌症(包括膀胱癌和/或前列腺癌)、肠易激疾病(IBD)、肠易激综合征(IBS)、一种或更多种预定细菌(诸如艰难梭菌(C-dif))的存在、一种或更多种预定寄生虫的存在、一种或多种预定真菌的存在。
方法1000的多个步骤结合图1中所图示的方法100进行描述。因此,将省略对这些步骤的重复描述,并且读者参考与图1中的等效步骤相关联的描述。
在步骤1050中,色谱数据被接收。为了清楚起见,接收的色谱数据将在此被描述为新样本。在本发明的一些实施例中,如前所述,在步骤1100中,新样本将其基线移除,并且其数据值在步骤1150中被归一化。在步骤1200中,新样本随后被对齐。在图13中图示了根据本发明的实施例的对齐新样本的方法2000。
参照图13,在步骤2050中,在方法100的步骤140处选择的参考色谱样本被加载到存储器中。为了清楚起见,参考色谱数据将在此被描述为参考样本。在步骤2100中,新样本色谱数据被加载到存储器中。
在步骤2150至2650中,新样本的保留时间被移位预定数量的采样点,其中在每个采样点被移位之后单个相关系数在参考样本和新样本之间被计算并且得到的相关系数被储存在矩阵R中。在一个实施例中,移位窗口是±15个采样点,但是将意识到的是,可选择其他数量的移位点。应认识到的是,在一些实施例中,新样本色谱数据将相对于参考样本在正的和负的时间点方向上移位。当新样本色谱数据移位升至移位窗口的一个或更多个极端时,方法移动到步骤2700。将认识到的是,在到达步骤2700时,在一些实施例中,新样本色谱数据与P系数如下相关联:
P=2s+1
其中,s是时间移位窗口的幅度,诸如15(因此,2s计算从负到正的时间移位的极差)。因此,在一个实施例中,新样本色谱数据与31个相关系数相关联。在步骤2700中,与R中的系数相关联的采样点被确定,并被储存为移位的采样点。在步骤2750中,新样本色谱数据被移位在移位的采样点中定义的采样点的数量,以根据图1中所图示的方法将新样本色谱数据与参考色谱数据对齐。
返回到图12,在步骤1250中,新样本色谱数据使用墨西哥帽小波和预定尺度被变换为小波系数。如上所述,预定尺度可以是在参照图1所描述的方法100中被确定产生了最高准确度的那个尺度。
在步骤1300中,由预定小波尺度产生的小波系数被加载,该预定小波尺度可以是与最高准确度相关联并在方法100的步骤160中被储存的小波尺度。方法100的步骤160中使用的小波尺度的值与方法1000的步骤1250中使用的小波尺度的值相同。为了清楚起见,在方法100的步骤160中产生的小波系数将在此被描述为预处理的数据。在步骤1350中,新样本与命名为变换数据的单个数据集中的预处理的数据组合。
然后,在步骤1400中,变换数据如方法100的步骤170中所描述的被变换。然后,在方法100的步骤180中定义的特征从变换数据中被选择。新样本与变换数据隔离,并通过在方法100的步骤190中确定的模型进行预测或分类。
上述方法应用于两个不同的数据集。首先,它们应用于对来自患有前列腺癌、膀胱癌的患者的尿样和患有泌尿症状混合(血尿和前列腺症状(对照))的患者的尿样进行分类。表1示出了对于建立的七个分类器的30次重复的双交叉验证的结果。SVM径向能够分别以89.6%和96.2%的准确度对前列腺癌样本和膀胱癌样本进行分类。前列腺癌样本和膀胱癌样本以93.5%的准确度进行区分。然后,上述方法应用于对来自患有炎症性肠病(IBD)、肠易激综合征(IBS)的患者和健康供体(对照)的粪便样本进行分类。表2和表3示出了对于建立的七个分类器的30次重复的双交叉验证的结果。IBD和IBS分别以88.9%和94.4%与对照样本进行区分。IBD样本以85.2%的准确度与IBS样本区分。IBD样本以84.9%的准确度与非IBD样本区分。IBS样本以92.1%的准确度与非IBS样本区分。最后,对照样本以86.8%的准确度与非对照样本区分。因此,可认识到的是,本发明的实施例能够准确地确定样本是否来自具有预定状况的人。
形成本发明的实施例的方法可以是计算机实现的。
将认识到的是,本发明的实施例可以以硬件、软件或硬件和软件的组合的形式来实现。任何这样的软件可以以易失性或非易失性储存器的形式储存,诸如例如,像ROM的储存设备,不管是否可擦除或是否可重写;或者以存储器的形式储存,诸如例如,RAM、存储器芯片、器件或集成电路;或者储存在光学或磁性可读介质上,诸如例如,CD、DVD、磁盘或磁带。将认识到的是,储存设备和储存介质是适于储存一个或更多个程序的机器可读储存器的实施例,该一个或更多个程序在执行时实现本发明的实施例。因此,实施例提供了程序,其包括用于实现如任一前述权利要求中所要求保护的系统或方法的代码和储存这样的程序的机器可读储存器。此外,本发明的实施例可经由任何介质(诸如,通过有线或无线连接运载的通信信号)被电子地传输,并且实施例适当地包含它们。
本说明书(包括任何所附权利要求、摘要和附图)中公开的所有特征,和/或如此公开的任何方法或过程的所有步骤可以以任何组合来进行组合,除了其中这样的特征和/或步骤中的至少一些是互斥的组合之外。
除非另有明确说明,否则本说明书(包括任何所附权利要求、摘要和附图)中公开的每个特征可由服务于相同、等效或类似目的的可替代特征来代替。因此,除非另有明确说明,否则所公开的每个特征仅仅是等效或类似特征的通用系列的一个示例。
本发明并不限于任何前述实施例的细节。本发明扩展至在本说明书(包括任何所附权利要求、摘要和附图)中公开的特征中的任何新颖的一个特征或任何新颖的组合,或扩展至如此公开的任何方法或过程中的步骤中的任何新颖的一个步骤或任何新颖的组合。权利要求不应被解释为仅仅涵盖前述实施例,而是也包括落在权利要求范围内的任何实施例。
前列腺vs对照
Figure BDA0001374066030000131
膀胱vs对照
Figure BDA0001374066030000132
膀胱vs前列腺
Figure BDA0001374066030000133
表1
IBD vs对照
Figure BDA0001374066030000141
IBS vs对照
Figure BDA0001374066030000142
IBD vs IBS
Figure BDA0001374066030000143
表2
IBD vs非IBD
Figure BDA0001374066030000151
IBS vs非IBS
Figure BDA0001374066030000152
控制vs非控制
Figure BDA0001374066030000153
表3。

Claims (32)

1.一种创建指示受试者中的医疗状况的存在的分类器的方法,包括:
接收指示来自具有所述医疗状况的第一多个受试者和不具有所述医疗状况的第二多个受试者中的每个受试者的样本中的挥发性有机化合物的概况的色谱数据,其中,所述色谱数据指示与气相色谱柱相关联的一个或多个金属氧化物传感器在一段时间内的电阻;
选择所述色谱数据中的一个作为参考色谱数据;
将其余的色谱数据相对于所述参考色谱数据对齐;
使用一个或更多个尺度的墨西哥帽小波变换从所述色谱数据中提取一个或更多个特征;
选择指示所述医疗状况的所述色谱数据的一个或更多个特征;以及
构建分类器,用于确定指示所述医疗状况的色谱数据和指示所述医疗状况的不存在的色谱数据之间的边界。
2.如权利要求1所述的方法,其中,选择所述参考色谱数据包括:
确定所述第一多个色谱数据中的每个色谱数据之间的相关系数;以及
选择具有最高正相关系数的色谱数据作为所述参考色谱数据。
3.如权利要求2所述的方法,其中:
所述相关系数在预定移位窗口内的多个样本点的每个样本点处的所述第一多个色谱数据中的每个色谱数据之间被确定;以及
选择所述色谱数据包括选择具有最高正相关系数的所述色谱数据的移位间隔。
4.如权利要求3所述的方法,其中,其余的色谱数据相对于具有所述最高正相关系数的所述参考色谱数据的样本点被对齐。
5.如权利要求2、3或4所述的方法,其中,所述相关系数是皮尔森积矩相关系数。
6.如任一前述权利要求所述的方法,其中,从所述色谱数据中提取所述一个或更多个特征包括确定在墨西哥帽小波的多个尺度中的每个尺度下的所述色谱数据的系数。
7.如权利要求6所述的方法,其中,所述多个尺度介于上限和下限之间;可选地,所述上限和所述下限分别为100和1。
8.如权利要求7所述的方法,其中,所述系数在所述上限和所述下限之间的每个整数尺度处被确定。
9.如权利要求6、7或8所述的方法,包括选择所述多个尺度中的一个作为对于所述色谱数据的最佳匹配。
10.如权利要求9所述的方法,其中,所述尺度基于验证过程的准确度被选择作为最佳匹配。
11.如任一前述权利要求所述的方法,其中,指示所述医疗状况的所述色谱数据的一个或更多个特征使用基于随机森林的选择算法来选择。
12.如权利要求11所述的方法,其中,在所述算法中,选择当省略其时会导致准确度损失的所述色谱数据的一个或更多个特征。
13.如任一前述权利要求所述的方法,包括变换所述色谱数据的极差。
14.如权利要求13所述的方法,其中,所述极差变换被应用以将所述色谱数据的值设置在预定极差内;可选地,所述极差介于0和1之间。
15.如权利要求13或14所述的方法,其中,所述色谱数据的极差根据以下方程式来变换:
Figure FDA0003176123830000021
其中,变换值xt在所述色谱数据的每个时间点处,其中,x是所述色谱数据的数据值,以及min(x)和max(x)是所述色谱数据的最小值和最大值。
16.如任一前述权利要求所述的方法,其中,所述分类器根据以下之一来构建:线性判别分析(LDA);偏最小二乘法(PLS);随机森林;k最近邻(KNN);具有径向基核函数的支持向量机(SVM)(SVM径向);具有线性基核函数的SVM(SVM线性);以及具有多项式基核函数的SVM(SVM多项式)。
17.一种确定受试者中的医疗状况的存在的方法,包括:
接收指示来自受试者的样本中的挥发性有机化合物的概况的色谱数据;
将所述色谱数据与参考色谱数据对齐;
使用一个或更多个预定尺度的墨西哥帽小波变换从所述色谱数据中提取一个或更多个预定特征,其中,所述一个或更多个预定特征是在根据任一前述权利要求所述的方法中选择的特征;以及
使用根据任一前述权利要求构建的所述分类器来确定所提取的特征是否指示受试者中的医疗状况的存在。
18.如权利要求17所述的方法,其中,确定所述提取的特征是否指示受试者中的所述医疗状况的存在基于所述提取的特征的值。
19.如权利要求17或18所述的方法,其中,对齐所述色谱数据包括:
确定在预定移位窗口内的多个样本点中的每个样本点处的所述参考色谱数据和所述色谱数据之间的相关系数;以及
将所述色谱数据与在具有最大相关系数的样本点时间处的所述参考色谱数据对齐。
20.如权利要求19所述的方法,其中,所述相关系数是皮尔森系数。
21.如权利要求17至20中的任一项所述的方法,其中,所述参考色谱数据在创建所述分类器的方法中被选择。
22.如权利要求17至21中任一项所述的方法,其中,所述参考色谱数据是与预定标识符相关联的色谱数据。
23.如权利要求17至22中任一项所述的方法,其中,提取一个或更多个预定特征包括:
获取指示墨西哥帽小波变换的尺度的数据;以及
使用墨西哥帽小波变换的所述尺度将所述色谱数据转换为小波系数的模数。
24.如权利要求17至23中任一项所述的方法,包括获取指示待提取的所述一个或更多个预定特征的特征信息。
25.如权利要求24所述的方法,其中,所述特征信息从计算机可读介质中获取。
26.如权利要求17至25中任一项所述的方法,包括变换所述色谱数据的极差。
27.如权利要求26所述的方法,其中,所述极差变换被应用以将所述色谱数据的值设置在预定极差内;可选地,所述极差介于0和1之间。
28.如权利要求17至27中任一项所述的方法,包括将空间符号变换过程应用到所述色谱数据。
29.如权利要求17至28中任一项所述的方法,包括将所述色谱数据与预处理的色谱数据组合。
30.一种计算机软件,所述计算机软件在由计算机执行时被布置为执行根据任一前述权利要求所述的方法。
31.如权利要求30所述的计算机软件,所述计算机软件被储存在计算机可读介质上。
32.一种被布置为执行根据权利要求1至29中任一项所述的方法的装置。
CN201680009486.2A 2015-02-13 2016-02-12 用于创建指示医疗状况的存在的分类器的方法和装置 Active CN107223248B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1502447.4 2015-02-13
GB201502447A GB201502447D0 (en) 2015-02-13 2015-02-13 Method and apparatus for sample analysis
PCT/GB2016/050344 WO2016128764A1 (en) 2015-02-13 2016-02-12 Method and apparatus for creating a classifier indicative of a presence of a medical condition

Publications (2)

Publication Number Publication Date
CN107223248A CN107223248A (zh) 2017-09-29
CN107223248B true CN107223248B (zh) 2021-11-02

Family

ID=52781579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680009486.2A Active CN107223248B (zh) 2015-02-13 2016-02-12 用于创建指示医疗状况的存在的分类器的方法和装置

Country Status (8)

Country Link
US (1) US11635414B2 (zh)
EP (1) EP3256848B1 (zh)
CN (1) CN107223248B (zh)
CA (1) CA2975352A1 (zh)
DK (1) DK3256848T3 (zh)
ES (1) ES2741050T3 (zh)
GB (1) GB201502447D0 (zh)
WO (1) WO2016128764A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109085282A (zh) * 2018-06-22 2018-12-25 东南大学 一种基于小波变换和随机森林模型的色谱重叠峰解析方法
EP3942569A4 (en) * 2019-03-19 2022-12-07 Optina Diagnostics, Inc. METHOD AND SYSTEM FOR IDENTIFYING SUBJECTS POTENTIALLY AFFECTED BY A HEALTH PROBLEM
CN116522252B (zh) * 2023-04-26 2024-01-05 中国气象局公共气象服务中心(国家预警信息发布中心) 太阳辐射校准方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1073720A (zh) * 1991-12-23 1993-06-30 华中理工大学 临床常规难检验病原菌自动检验网络系统及方法
US5885841A (en) * 1996-09-11 1999-03-23 Eli Lilly And Company System and methods for qualitatively and quantitatively comparing complex admixtures using single ion chromatograms derived from spectroscopic analysis of such admixtures
CN101827558A (zh) * 2007-10-02 2010-09-08 安娜-卡林·奥林 呼出的粒子的采集和测量
CN102300502A (zh) * 2008-12-01 2011-12-28 创控生技股份有限公司 用于哮喘、肺结核及肺癌诊断及疾病管控的呼吸分析系统及方法
CN102472730A (zh) * 2009-07-07 2012-05-23 创控生技股份有限公司 具有个别温度控制件的级联式气体色谱仪(cgc)及使用其的气体分析系统
CN102597767A (zh) * 2009-09-18 2012-07-18 加利福尼亚大学董事会 测定自体消化的方法

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5995868A (en) 1996-01-23 1999-11-30 University Of Kansas System for the prediction, rapid detection, warning, prevention, or control of changes in activity states in the brain of a subject
CA2843053C (en) 2000-06-01 2015-08-25 Georgetown University Systems and methods for monitoring health and delivering drugs transdermally
GB0216650D0 (en) 2002-07-18 2002-08-28 Univ Bristol Detection of disease by analysis of emissions
US7519488B2 (en) * 2004-05-28 2009-04-14 Lawrence Livermore National Security, Llc Signal processing method and system for noise removal and signal extraction
US20070055151A1 (en) * 2005-01-20 2007-03-08 Shertukde Hemchandra M Apparatus and methods for acoustic diagnosis
EP2433653B1 (en) 2005-07-15 2019-06-05 Angiochem Inc. Use of aprotinin polypeptides as carriers in pharmaceutical conjugates
US7873196B2 (en) 2006-03-22 2011-01-18 Cornell Research Foundation, Inc. Medical imaging visibility index system and method for cancer lesions
US7736905B2 (en) * 2006-03-31 2010-06-15 Biodesix, Inc. Method and system for determining whether a drug will be effective on a patient with a disease
DK3144672T3 (en) 2007-11-21 2018-12-03 Cosmosid Inc GENOME IDENTIFICATION SYSTEM
US20090238772A1 (en) 2007-12-13 2009-09-24 Alnylam Pharmaceuticals, Inc. Methods and compositions for prevention or treatment of rsv infection
JP5628147B2 (ja) 2008-04-16 2014-11-19 コーニンクレッカ フィリップス エヌ ヴェ 睡眠/覚醒状態評価方法及びシステム
US8580231B2 (en) 2008-05-23 2013-11-12 Northwestern University Compositions and methods comprising magnetic resonance contrast agents
CN101929989A (zh) 2009-06-24 2010-12-29 陈喆 一种代谢谱峰位置分辨与对齐的方法
GB0920315D0 (en) * 2009-11-20 2010-01-06 Univ Bristol A diagnostic apparatus
GB0922505D0 (en) 2009-12-23 2010-02-10 Plant Bioscience Ltd Use
WO2011083473A1 (en) 2010-01-07 2011-07-14 Technion Research And Development Foundation Ltd. Volatile organic compounds as diagnostic markers for various types of cancer
US8653242B2 (en) 2010-03-01 2014-02-18 Lostam Pharmaceuticals Ltd. Therapeutic antibodies against flagellated Pseudomonas aeruginosa
BR112013020220B1 (pt) 2011-02-09 2020-03-17 Natera, Inc. Método para determinar o estado de ploidia de um cromossomo em um feto em gestação
WO2012138941A1 (en) 2011-04-05 2012-10-11 Longevity Biotech, Inc. Compositions comprising glucagon analogs and methods of making and using the same
CA2831572C (en) 2011-05-02 2019-11-26 Immunomedics, Inc. Ultrafiltration concentration of allotype selected antibodies for small-volume administration
GB201110344D0 (en) 2011-06-20 2011-08-03 Univ Bristol Apparatus for collecting a sample
CN107880124B (zh) 2012-01-27 2021-08-13 艾伯维德国有限责任两合公司 用于诊断和治疗与神经突变性相关的疾病的组合物和方法
US8765725B2 (en) 2012-05-08 2014-07-01 Aciex Therapeutics, Inc. Preparations of hydrophobic therapeutic agents, methods of manufacture and use thereof
KR20130134901A (ko) 2012-05-31 2013-12-10 서울대학교산학협력단 비선형적 연관성 탐색 모델을 이용한 천연물 미지 시료의 생물학적 활성을 예측하는 방법
US11187685B2 (en) * 2015-02-16 2021-11-30 Shimadzu Corporation Noise level estimation method, measurement data processing device, and program for processing measurement data

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1073720A (zh) * 1991-12-23 1993-06-30 华中理工大学 临床常规难检验病原菌自动检验网络系统及方法
US5885841A (en) * 1996-09-11 1999-03-23 Eli Lilly And Company System and methods for qualitatively and quantitatively comparing complex admixtures using single ion chromatograms derived from spectroscopic analysis of such admixtures
CN101827558A (zh) * 2007-10-02 2010-09-08 安娜-卡林·奥林 呼出的粒子的采集和测量
CN102300502A (zh) * 2008-12-01 2011-12-28 创控生技股份有限公司 用于哮喘、肺结核及肺癌诊断及疾病管控的呼吸分析系统及方法
CN102472730A (zh) * 2009-07-07 2012-05-23 创控生技股份有限公司 具有个别温度控制件的级联式气体色谱仪(cgc)及使用其的气体分析系统
CN102597767A (zh) * 2009-09-18 2012-07-18 加利福尼亚大学董事会 测定自体消化的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Automated alignment of one-dimensional chromatographic fingerprints;M. Daszykowski et.al;《Journal of Chromatography A》;20100811;第6128和6131页,第2和4.2章 *
Development of accurate classification method based on the analysis of volatile organic compounds from human exhaled air;J.J.B.N. Van Berkel et.al;《Journal of Chromatography B: Analytical Technologies in the Biomedical and Life Sciences (2008)》;20071119;第2.3.2-2.3.4章 *
Evaluation of a gas sensor array and pattern recognition for the identification of bladder cancer from urine headspace;Michael Cauchi et.al;《The Analyst》;20101022;第4页 *
Improved peak detection in mass spectrum by incorporating continuous wavelet transform-based pattern matching;Pan Du et.al;《Bioinformatics》;20060704;第2章及图1 *

Also Published As

Publication number Publication date
EP3256848B1 (en) 2019-05-15
CN107223248A (zh) 2017-09-29
EP3256848A1 (en) 2017-12-20
GB201502447D0 (en) 2015-04-01
US20180038839A1 (en) 2018-02-08
US11635414B2 (en) 2023-04-25
ES2741050T3 (es) 2020-02-07
DK3256848T3 (da) 2019-08-19
CA2975352A1 (en) 2016-08-18
WO2016128764A1 (en) 2016-08-18

Similar Documents

Publication Publication Date Title
Smolinska et al. Current breathomics—a review on data pre-processing techniques and machine learning in metabolomics breath analysis
Smolinska et al. Profiling of volatile organic compounds in exhaled breath as a strategy to find early predictive signatures of asthma in children
Paul et al. Chemometric applications in metabolomic studies using chromatography-mass spectrometry
Ravi et al. A multichannel EfficientNet deep learning-based stacking ensemble approach for lung disease detection using chest X-ray images
US11423537B2 (en) Diagnosis assistance apparatus, and information processing method
Chen et al. Random forest in clinical metabolomics for phenotypic discrimination and biomarker selection
CN114503213B (zh) 使用卷积长短期记忆从弱注释的卷式医学图像检测疾病
Shen et al. Identifying neuroimaging and proteomic biomarkers for MCI and AD via the elastic net
CN107223248B (zh) 用于创建指示医疗状况的存在的分类器的方法和装置
Rundo et al. Advanced deep learning embedded motion radiomics pipeline for predicting anti-PD-1/PD-L1 immunotherapy response in the treatment of bladder cancer: preliminary results
Emara et al. Deep convolutional neural networks for COVID‐19 automatic diagnosis
JP2016200435A (ja) マススペクトル解析システム,方法およびプログラム
US11417424B2 (en) Disease detection from weakly annotated volumetric medical images using convolutional long short-term memory and multiple instance learning
Xi et al. Detecting lung diseases from exhaled aerosols: non-invasive lung diagnosis using fractal analysis and SVM classification
Kasbohm et al. Strategies for the identification of disease-related patterns of volatile organic compounds: prediction of paratuberculosis in an animal model using random forests
Jenipher et al. A study on early prediction of lung cancer using machine learning techniques
CN117253625A (zh) 肺癌筛查模型的构建装置、肺癌筛查装置、设备及介质
CN111312392A (zh) 一种基于集成法的前列腺癌辅助分析方法、装置及电子设备
JP2023551913A (ja) 生物学的疾患及び障害の動的ラマンプロファイリングのためのシステム及び方法
Rani et al. Diagnosis of breast cancer molecular subtypes using machine learning models on unimodal and multimodal datasets
Aslan A novel computer-aided diagnostic system for Alzheimer’s diagnosis using variational mode decomposition method
Windarto et al. Early Detection of Breast Cancer Based on Patient Symptom Data Using Naive Bayes Algorithm on Genomic Data
US20230368921A1 (en) Systems and methods for exposomic clinical applications
van der Sar et al. Evaluation of different classification methods using electronic nose data to diagnose sarcoidosis
Banchero et al. Combining Sound and Deep Neural Networks for the Measurement of Jump Height in Sports Science

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant