CN115472226A - 建立诊断大肠癌模型的方法、用于分析粪便样本基因的设备和计算机程序 - Google Patents

建立诊断大肠癌模型的方法、用于分析粪便样本基因的设备和计算机程序 Download PDF

Info

Publication number
CN115472226A
CN115472226A CN202210781611.9A CN202210781611A CN115472226A CN 115472226 A CN115472226 A CN 115472226A CN 202210781611 A CN202210781611 A CN 202210781611A CN 115472226 A CN115472226 A CN 115472226A
Authority
CN
China
Prior art keywords
actb
gene
sdc
preset function
sfrp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210781611.9A
Other languages
English (en)
Other versions
CN115472226B (zh
Inventor
郑智俊
秦楠
沈秀萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Realbio Technology Co ltd
Original Assignee
Shanghai Realbio Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Realbio Technology Co ltd filed Critical Shanghai Realbio Technology Co ltd
Priority to CN202210781611.9A priority Critical patent/CN115472226B/zh
Publication of CN115472226A publication Critical patent/CN115472226A/zh
Application granted granted Critical
Publication of CN115472226B publication Critical patent/CN115472226B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明涉及一种用于分析粪便样本基因的设备。所述设备包括:获取单元,用于获取粪便样本的ACTB基因、SFRP2基因和SDC2基因的Ct值,分别为Ct(ACTB)、Ct(SFRP2)和Ct(SDC2);计算单元,用于基于y=f0+f1×A+f2×B+f3×C确定所述粪便样本的基因评分;其中,A代表Ct(ACTB),B代表第一预设函数,C代表第二预设函数;f0、f1、f2和f3是分别独立地通过Logistic回归分析确定的常数。该设备可对粪便样本进行基因评分,基于基因评分的结果得到粪便样本所对应的待测者大肠癌方面的健康指数,尤其是可用于大肠癌的诊断,具有较高的准确度。

Description

建立诊断大肠癌模型的方法、用于分析粪便样本基因的设备 和计算机程序
技术领域
本发明属于生物技术领域,具体地,本发明涉及一种建立诊断大肠癌模型的方法、用于分析粪便样 本基因的设备和计算机程序。
背景技术
癌症成为第一大死亡诱因(死亡率:每10万人死于癌症者130.7人)。癌症死亡率由高至低依次为 肺癌、胃癌、肝癌、大肠癌和胰腺癌,这五大癌症的死亡率约占癌症死亡总数的70%。男性中,肺癌、 胃癌、肝癌和大肠癌这四大癌症的死亡人数,占所有男性癌症死亡人数的70%。女性中,胃癌、肺癌、 肝癌、大肠癌和胰腺癌这五大癌症的死亡人数,占所有女性癌症死亡人数的60%。
大肠癌是指在结肠或直肠中发生恶性肿瘤,2000年全球发病率(新发病例占全世界癌症总发病率的 9.4%),死亡率(占癌症总死亡率的7.9%)在所有癌症中高居第三;按性别比较,男性和女性的发病 率相似(男性:女性为1.1:1)。对于大肠癌患者,如果大肠癌在早期发现,治愈的可能性高达90%,也 就是发现的越早,治愈的机会就越大。
因此,亟需开发一种新型、高效的诊断大肠癌的系统。
发明内容
本发明旨在至少在一定程度上解决现有技术中存在的技术问题至少之一。为此,本发明提供了一种 建立诊断大肠癌模型的方法、用于分析粪便样本基因的设备和计算机程序,本发明的方法可建立得到用 于诊断大肠癌的模型,该模型诊断大肠癌的准确度高,总体准确度可达96%,并且,采用本发明的设备 和计算机程序均可用于确定粪便样本的基因评分,通过基因评分可判断大肠癌方面的健康指数。
在本发明的一个方面,本发明提出了一种建立诊断大肠癌模型的方法。根据本发明的实施例,所述 方法包括:S1、获取多个参考样本的ACTB基因、SFRP2基因和SDC2基因的Ct值,分别为Ct(ACTB)、 Ct(SFRP2)和Ct(SDC2);S2、基于所述Ct(ACTB)、Ct(SFRP2)和Ct(SDC2),获得用于诊断大肠癌的模型; S3、将所述模型进行分析验证,获得所述模型的准确度结果;S4、基于所述准确度结果,确定诊断大肠 癌模型;
其中,在步骤S2中,通过下列步骤获得所述模型:S2-1、基于所述Ct(ACTB)、Ct(SFRP2)和Ct(SDC2), 获得△Ct(SFRP2)和△Ct(SDC2),其中,△Ct(SFRP2)=Ct(SFRP2)-Ct(ACTB), △Ct(SDC2)=Ct(SDC2)-Ct(ACTB);S2-2、基于多个所述参考样本的Ct(ACTB)、△Ct(SFRP2)和△Ct(SDC2) 的关系,获得Ct(ACTB)和△Ct(SFRP2)之间的第一预设函数,以及Ct(ACTB)和△Ct(SDC2)之间的第二 预设函数;S2-3、基于多个所述参考样本的Ct(ACTB)、第一预设函数和第二预设函数,确定用于诊断 大肠癌的模型;
所述诊断大肠癌模型的计算公式如下:
y=f0+f1×A+f2×B+f3×C,
A代表Ct(ACTB),B代表第一预设函数,C代表第二预设函数;
其中,f0、f1、f2和f3是分别独立地通过Logistic回归分析确定的常数。
根据本发明实施例的建立诊断大肠癌模型的方法可得到用于诊断大肠癌的模型,获得的诊断大肠癌 模型可诊断出待测者大肠癌,且诊断结果的准确度高。
在本发明的另一方面,本发明提出了一种用于分析粪便样本基因的设备。根据本发明的实施例,所 述设备包括:获取单元,用于获取粪便样本的ACTB基因、SFRP2基因和SDC2基因的Ct值,分别为 Ct(ACTB)、Ct(SFRP2)和Ct(SDC2);计算单元,用于基于y=f0+f1×A+f2×B+f3×C确定所述粪便 样本的基因评分;其中,A代表Ct(ACTB),B代表第一预设函数,C代表第二预设函数;f0、f1、f2和 f3是分别独立地通过Logistic回归分析确定的常数。根据本发明实施例的设备可对粪便样本进行基因评 分,基于基因评分的结果可得到粪便样本所对应的待测者大肠癌方面的健康指数,且具有较高的准确度。
在本发明的又一方面,本发明提出了一种计算机程序。根据本发明的实施例,所述计算机程序在计 算机上执行时可以通过下列步骤确定粪便样本的基因评分:获取粪便样本的ACTB基因、SFRP2基因和 SDC2基因的Ct值,分别为Ct(ACTB)、Ct(SFRP2)和Ct(SDC2);基于y=f0+f1×A+f2×B+f3×C确 定所述粪便样本的基因评分;其中,A代表Ct(ACTB),B代表第一预设函数,C代表第二预设函数;f0、 f1、f2和f3是分别独立地通过Logistic回归分析确定的常数。根据本发明实施例的计算机程序可对粪便样 本的基因进行基因评分,基于基因评分结果可得到粪便样本所对应的待测者大肠癌方面的健康指数。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本 发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其 中:
图1是本发明实施例2的Ct(ACTB)和△Ct(SFRP2)的散点图;
图2是本发明实施例2的Ct(ACTB)和△Ct(SFRP2)的散点图;
图3是本发明实施例2的Ct(ACTB)和△Ct(SFRP2)的散点图;
图4是本发明实施例2的Ct(ACTB)和△Ct(SFRP2)的散点图;
图5是本发明实施例2的Ct(ACTB)和△Ct(SDC2)的散点图;
图6是本发明实施例2的Ct(ACTB)和△Ct(SDC2)的散点图;
图7是本发明实施例2的Ct(ACTB)和△Ct(SDC2)的散点图;
图8是本发明实施例2的Ct(ACTB)和△Ct(SDC2)的散点图;
图9是本发明实施例2的Ct(ACTB)和△Ct(SDC2)的散点图;
图10是本发明实施例2的Ct(ACTB)和△Ct(SDC2)的散点图;
图11是本发明实施例3的ROC曲线图。
具体实施方式
下面详细描述本发明的实施例。下面描述的实施例是示例性的,仅用于解释本发明,而不能理解为 对本发明的限制。
需要说明的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐 含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或 者更多个该特征。进一步地,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。在本文中,除非另有明确的 规定和限定,术语“相连”、“连接”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接, 或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连, 可以是两个元件内部的连通。
在本文中所披露的范围的端点和任何值都不限于该精确的范围或值,这些范围或值应当理解为包含 接近这些范围或值的值。对于数值范围来说,各个范围的端点值之间、各个范围的端点值和单独的点值 之间,以及单独的点值之间可以彼此组合而得到一个或多个新的数值范围,这些数值范围应被视为在本 文中具体公开。
为了更容易理解本发明,以下具体定义了某些技术和科学术语。除显而易见在本文件中的它处另有 明确定义,否则本文中使用的所有其它技术和科学术语都具有本发明所属领域的一般技术人员通常理解 的含义。
在本文中,术语“包含”或“包括”为开放式表达,即包括本发明所指明的内容,但并不排除其他方面 的内容。
在本文中,术语“参考样本”是指已知疾病状态的样本。
本发明提出了一种建立诊断大肠癌模型的方法和诊断大肠癌的系统,下面将分别对其进行详细描 述。
建立诊断大肠癌模型的方法
在本发明的一个方面,本发明提出了一种建立诊断大肠癌模型的方法。根据本发明的实施例,所述 方法包括:S1、获取多个参考样本的ACTB基因、SFRP2基因和SDC2基因的Ct值,分别为Ct(ACTB)、 Ct(SFRP2)和Ct(SDC2);S2、基于所述Ct(ACTB)、Ct(SFRP2)和Ct(SDC2),获得用于诊断大肠癌的模型; S3、将所述模型进行分析验证,获得所述模型的准确度结果;S4、基于所述准确度结果,确定诊断大肠 癌模型;
其中,在步骤S2中,通过下列步骤获得所述模型:S2-1、基于所述Ct(ACTB)、Ct(SFRP2)和Ct(SDC2), 获得△Ct(SFRP2)和△Ct(SDC2),其中,△Ct(SFRP2)=Ct(SFRP2)-Ct(ACTB), △Ct(SDC2)=Ct(SDC2)-Ct(ACTB);S2-2、基于多个所述参考样本的Ct(ACTB)、△Ct(SFRP2)和△Ct(SDC2) 的关系,获得Ct(ACTB)和△Ct(SFRP2)之间的第一预设函数,以及Ct(ACTB)和△Ct(SDC2)之间的第二 预设函数;S2-3、基于多个所述参考样本的Ct(ACTB)、第一预设函数和第二预设函数,确定用于诊断 大肠癌的模型;
所述诊断大肠癌模型的计算公式如下:
y=f0+f1×A+f2×B+f3×C,
A代表Ct(ACTB),B代表第一预设函数,C代表第二预设函数;
其中,f0、f1、f2和f3是分别独立地通过Logistic回归分析确定的常数。
根据本发明实施例的建立诊断大肠癌模型的方法可得到一个或多个用于诊断大肠癌的模型,并对模 型进行分析,最终将诊断结果准确度高的模型作为最终的诊断大肠癌模型。并且,发明人分别采用双 △Ct值判断法和本发明得到的诊断大肠癌模型对相同的待测者进行大肠癌的诊断,结果发现本方法得到 的模型的总体准确度远高于双△Ct值判断法的准确度。
根据本发明的实施例,所述第一预设函数如下:
ACTB基因的Ct值小于等于35.5时,
Figure BDA0003728075980000041
ACTB基因的Ct值大于35.5时,
Figure BDA0003728075980000042
其中,f(ΔSFRP2)代表所述第一预设函数,ACTB代表Ct(ACTB),SFRP2代表Ct(SFRP2)。发 明人经过大量实验得到上述第一预设函数,由此,得到的诊断大肠癌模型的诊断准确度高。
根据本发明的实施例,所述第二预设函数如下:
Figure BDA0003728075980000051
其中,F(ΔSDC2)代表所述第二预设函数,ACTB代表Ct(ACTB),SDC2代表Ct(SDC2)。发明人 经过大量实验得到上述第二预设函数,由此,得到的诊断大肠癌模型的诊断准确度高。
根据本发明的实施例,步骤S2进一步包括:S2-4、基于所述模型,确定大肠癌的阳性判断值,所 述阳性判断值是通过如下方法的至少之一获得的:灵敏度-(1-特异度)、Gini指数和真阳性真阴性之和。 由此,可更直观的得到的诊断结果。
根据本发明的实施例,f0为40~45,f1为1~2,f2为45~50,f3为40~50。
根据本发明的实施例,所述模型的计算公式如下:y=41.368-1.584×A+47.003×B+45.5015×C,其中, A代表Ct(ACTB),B代表第一预设函数,C代表第二预设函数。发明人经过实验发现,本发明的方法 得到的模型的总体准确度(96.8%)远高于双△Ct值判断法的准确度(80.5%)。
根据本发明的实施例,所述待测样本的数量大于100个。
根据本发明的实施例,所述准确度结果通过受试者工作特征曲线获得。
用于分析粪便样本基因的设备
在本发明的另一方面,本发明提出了一种用于分析粪便样本基因的设备。根据本发明的实施例,所 述设备包括:获取单元,用于获取待测样本的ACTB基因、SFRP2基因和SDC2基因的Ct值,分别为 Ct(ACTB)、Ct(SFRP2)和Ct(SDC2);计算单元,用于基于y=f0+f1×A+f2×B+f3×C确定所述粪便 样本的基因评分;其中,A代表Ct(ACTB),B代表第一预设函数,C代表第二预设函数;f0、f1、f2和 f3是分别独立地通过Logistic回归分析确定的常数。根据本发明实施例的设备可对粪便样本的基因信息 进行分析,通过分析ACTB基因、SFRP2基因和SDC2基因的Ct值,并对上述基因进行基因评分,基 于基因评分可分析出粪便样本所对应的待测者大肠癌的健康指数,且具有准确度高等优点。
根据本发明的实施例,所述第一预设函数如下:
ACTB基因的Ct值小于等于35.5时,
Figure BDA0003728075980000052
ACTB基因的Ct值大于35.5时,
Figure BDA0003728075980000053
其中,f(ΔSFRP2)代表所述第一预设函数,ACTB代表Ct(ACTB),SFRP2代表Ct(SFRP2)。发 明人经过大量实验得到上述第一预设函数,由此,可进一步提高设备分析结果的准确度。
根据本发明的实施例,所述第二预设函数如下:
Figure BDA0003728075980000061
其中,f(ΔSDC2)代表所述第二预设函数,ACTB代表Ct(ACTB),SDC2代表Ct(SDC2)。发明人 经过大量实验得到上述第二预设函数,由此,可进一步提高设备分析结果的准确度。
根据本发明的实施例,所述基因评分的计算公式如下:
ACTB基因的Ct值小于等于35.5,
Figure BDA0003728075980000062
ACTB基因的Ct值大于35.5,
Figure BDA0003728075980000063
其中,y代表基因评分,ACTB代表Ct(ACTB),SFRP2代表Ct(SFRP2),SDC2代表Ct(SDC2)。发 明人经过大量的试验得到上述基因评分公式,可进一步提高该设备分析结果的准确度。
根据本发明的实施例,所述设备进一步包括:分析单元,用于基于所述基因评分确定所述粪便样本 在大肠癌方面的健康指数。本发明的设备中,通过分析单元可对基因评分进行分析,以得到粪便样本所 对应的待测者大肠癌方面的健康指数。例如诊断大肠癌,结果发现该设备诊断结果的总体准确度可达 96.8%,阳性准确度可达91.1%,阴性准确度可达99.1%。
根据本发明的实施例,f0为40~45,f1为1~2,f2为45~50,f3为40~50。
根据本发明的实施例,所述基因评分大于等于20是所述待测样本所对应的患者患有大肠癌的指示; 所述基因评分小于20是所述待测样本所对应的患者未患有大肠癌的指示。
计算机程序
在本发明的又一方面,本发明提出了一种计算机程序。根据本发明的实施例,所述计算机程序在计 算机上执行时可以通过下列步骤确定粪便样本的基因评分:获取粪便样本的ACTB基因、SFRP2基因和 SDC2基因的Ct值,分别为Ct(ACTB)、Ct(SFRP2)和Ct(SDC2);基于y=f0+f1×A+f2×B+f3×C确 定所述粪便样本的基因评分;其中,A代表Ct(ACTB),B代表第一预设函数,C代表第二预设函数;f0、f1、f2和f3是分别独立地通过Logistic回归分析确定的常数。根据本发明实施例的计算机程序可对粪便样 本的基因进行基因评分,基于基因评分结果可得到粪便样本所对应的待测者大肠癌方面的健康指数。
根据本发明的实施例,所述第一预设函数如下:
ACTB基因的Ct值小于等于35.5时,
Figure BDA0003728075980000071
ACTB基因的Ct值大于35.5时,
Figure BDA0003728075980000072
其中,f(ΔSFRP2)代表所述第一预设函数,ACTB代表Ct(ACTB),SFRP2代表Ct(SFRP2)。
根据本发明的实施例,所述第二预设函数如下:
Figure BDA0003728075980000073
其中,f(ΔSDC2)代表所述第二预设函数,ACTB代表Ct(ACTB),SDC2代表Ct(SDC2)。
根据本发明的实施例,所述基因评分的计算公式如下:
ACTB基因的Ct值小于等于35.5,
Figure BDA0003728075980000074
ACTB基因的Ct值大于35.5,
Figure BDA0003728075980000075
其中,y代表基因评分,ACTB代表Ct(ACTB),SFRP2代表Ct(SFRP2),SDC2代表Ct(SDC2)。
根据本发明的实施例,所述计算机程序进一步包括:基于所述基因评分确定所述粪便样本在大肠癌 方面的健康指数。本发明的计算机程序,可基于基因评分得到粪便样本所对应的待测者大肠癌方面的健 康指数。例如诊断大肠癌,结果发现该设备诊断结果的总体准确度可达96.8%,阳性准确度可达91.1%, 阴性准确度可达99.1%。
根据本发明的实施例,f0为40~45,f1为1~2,f2为45~50,f3为40~50。
根据本发明的实施例,所述基因评分大于等于20是所述待测样本所对应的患者患有大肠癌的指示; 所述基因评分小于20是所述待测样本所对应的患者未患有大肠癌的指示。
下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解,下面的实施例仅用于说明 本发明,而不应视为限定本发明的范围。实施例中未注明具体技术或条件的,按照本领域内的文献所描 述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得 的常规产品。
需要说明的是,本发明中“无起峰”是指PCR过程中所扩增的基因的扩增曲线没有起峰,即没有 Ct值。在数学上无起峰与Ct值1000作用相近,本申请实施例中,将无起峰的数据的Ct值统一赋值1000 进行△Ct计算,而对于两个基因都为无起峰的数据,计算△Ct没有意义,将其直接定义为阴性。
实施例1:数据来源
1.1样本来源:本实施例使用的临床粪便样本来源于中国人民解放军总医院第七医学中心。
1.2检测试剂盒:本实施例采用上海锐翌生物科技有限公司生产的“人类SFRP2和SDC2基因甲基 化联合检测试剂盒(荧光PCR法)“对临床样本进行检测,其中内参基因为β-actin基因(又称ATCB基 因)。
1.3实验室检测数据传递
实验室对样本进行检测后,得到154个样本检测的数据,并采用154个样本的数据用于后续实验中 的算法构建。
实施例2:数据分析
1、数据初步分析
在本实施例中,用△Ct的方式表达基因的相对表达量,即:
△Ct(目的基因)=Ct(目的基因)-Ct(同一样本的内参基因)
对原始数据中β-actin(ACTB)基因、SFRP2基因和SDC2基因的Ct值进行分析,分别作如下计算 (无起峰的数据的Ct值统一赋值1000进行△Ct计算;对于两个基因都为无起峰的数据,计算△Ct没 有意义,将其直接定义为阴性):
△Ct(SFRP2)=Ct(SFRP2)-Ct(ACTB);△Ct(SDC2)=Ct(SDC2)–Ct(ACTB)。
2、基于Ct(ACTB)与△Ct(SFRP2)和△Ct(SDC2)的关系制备散点图
发明人发现,简单地使用△Ct值进行判断,总体符合率无法达到预期,需要进行进一步研究。因此, 发明人将154例样本的Ct(ACTB)、△Ct(SFRP2)和△Ct(SDC2)做成散点图进行规律探索(无起峰的数据 △Ct都在1000左右的位置,远离阴性样本和阳性样本需要区分的区域,不在图中展示)。
2.1Ct(ACTB)和△Ct(SFRP2)的关系见图1,通过观察散点图,找到了一个阴性样本和阳性样本交叠 的长方形区域,这个长方形区域的中线是阴性样本和阳性样本的密集交叠区域,而这个长方形中线可以 初步将阴性样本和阳性样本区分开,具体参见图2。
发明人经过进一步发现,当Ct(ACTB)≤35.5时,通过图上边界点(30.063,1.812)(24.833,16.363)、 中线点(24.316,10.373)(33.419,7.201)和其他支撑点(33.444,4.1,60)参考,可以选出两点(24.3, 10.4)(33.4,7.26)做出中线直线:y=-0.3450×x+18.7848。具体参见图3。
当Ct(ACTB)>35.5时,样本中人源DNA含量已很少,相同△Ct值条件下对应靶基因的Ct值将很 大,对应靶基因的含量将很稀少,随机性误差增大。为控制随机误差增大造成的假阳性,发明人将斜线 下降的斜率在35.5以上时进行加大,具体操作是沿着样本中Ct(ACTB)在35.5以上阴性样本的趋势线下 沿进行取点作图,具体参见图3。通过阴性样本趋势点(36.234,5.8234)(36.607,5.6112)(38.0689, 3.524)(38.0661,1.948)和阳性样本支撑点(36.975,2.608),可以选出两点(35.5,6.5)(40.5,0) 做出阴性样本的趋势线下沿:y=-1.3×x+52.65,具体参见图4。
由上可得到:当Ct(ACTB)≤35.5时,y=-0.3450×x+18.7848;当Ct(ACTB)>35.5时,y=-1.3×x+52.65。 由图4可知,以直线为中心的区域就是阴性样本和阳性样本交叠的核心区域,即区分阴性样本和阳性样 本的核心区域。
2.2Ct(ACTB)和△Ct(SDC2)的关系见图5,通过观察散点图,发明人找到了一条直线(y=kx+b)尽 可能地将阴性样本和阳性样本区分开,具体参见图6。
通过图上边界点(35.507,0.2604)(31.784,15.102)、中线点(26.114,8.434)(32.504,7.370) 和其他支撑点(24.789,11.985)参考,可以选出两点(26.1,8.8)(32.5,7.5)做出中线直线:y=-0.2031 ×x+14.102。以这条直线为中心的区域就是就是阴性样本和阳性样本交叠的核心区域,即区分阴性样本 和阳性样本的核心区域。
3、选择函数和变换
3.1函数选择:为了将两个基因综合为一个打分值,并且放大阴性样本和阳性样本的交叠区域(即 两个基因围绕各自直线为中线的区域),发明人经过对不同的函数进行筛选,根据不同函数的性质,最 终引入了sigmoid函数。其中,sigmoid函数性质:①两端增长慢、中间增长快;②横坐标x范围:(-∞,+∞); 纵坐标f(x)范围:(0,1)。
sigmoid函数形式:
Figure BDA0003728075980000091
3.2函数变换:
为了让x通过f(x)变换后,自变量x=b的中心附近区域差异变化加大,发明人通过多种尝试,对 sigmoid函数采用以下变形:
Figure BDA0003728075980000092
在该函数中,还是以b为中心的递减 函数,但中心范围变化更快。
4、确定自变量
为了方便公式书写,发明人将Ct(ACTB)记作ACTB;Ct(SFRP2)记作SFRP2;Ct(SDC2)记作SDC2; △Ct(SFRP2)记作△SFRP2=SFRP2-ACTB;△Ct(SDC2)记作△SDC2=SDC2-ACTB。
4.1对于SFRP2基因,自变量为△SFRP2,也就是图4的y轴,即为:
x=ΔSFRP2=SFRP2-ACTB;
Figure BDA0003728075980000101
对于SDC2基因,自变量为△SDC2,也就是图6的y轴,即为:
x=ΔSDC2=SDC2-ACTB;
Figure BDA0003728075980000102
4.2确定f(ΔSFRP2)的b值:
如图7所示,若要放大的区域(由b值决定)是以y=4为中心的区域,函数形式为:
Figure BDA0003728075980000103
如图8所示,若要放大的区域(由b值决定)是以y=6为中心的区域,函数形式为:
Figure BDA0003728075980000104
如图9所示,若要放大的区域(由b值决定)是以y=7为中心的区域,函数形式为:
Figure BDA0003728075980000105
如图10所示,若要放大的区域(由b值决定)是以y=-0.3450×ACTB+18.7848为中心的区域,函 数形式为:
Figure BDA0003728075980000106
即为:
Figure BDA0003728075980000107
综上分析,对于SFRP2基因,要放大的区域(由b值决定)是:
当ACTB≤35.5时,y=-0.3450×ACTB+18.7848;
当ACTB>35.5时,y=-1.3×ACTB+52.65。
即,函数形式为:
当ACTB≤35.5,
Figure BDA0003728075980000111
当ACTB>35.5,
Figure BDA0003728075980000112
4.3确定f(ΔSDC2)的b值:
对于SDC2基因,要放大的区域是:y=-0.2031×ACTB+14.102。
即,函数形式为:
Figure BDA0003728075980000113
5、确定打分模型公式
5.1在表1中,两个变换的函数形式都已经整合成了两个变量,即B和C,B包含了以SFRP2基因 直线区域阴阳性样本交叠空间放大变换的△SFRP2信息,C包含了以SDC2基因直线区域阴阳性样本交 叠空间放大变换的△SDC2信息:
B=f(ΔSFRP2);C=f(ΔSDC2)。
打分模型公式形式就由以下部分构成:
y=f0+f1×A+f2×B+f3×C。
将ACTB、B、C和金标准分组信息提取出来(表1),用154个样本通过Logistic回归模型,确定 ACTB、B、C它们各项的系数。
表1:
Figure BDA0003728075980000114
Figure BDA0003728075980000121
Figure BDA0003728075980000131
Figure BDA0003728075980000141
备注:1-代表结直肠癌阳性;0-代表结直肠癌阴性。
5.2确认参数
5.2.1发明人进一步通过Logistic回归模型函数,基于上述数据确定了能够有效区分阳性样本和阴性 样本的f0、f1、f2和f3数值,即即:f0=2.976,f1=-0.228,f2=8.546,f3=8.273。
5.2.2 SAS JMP10软件验证
获取上述f0、f1、f2和f3数值后,采用SAS JMP10软件(版本号:JMP 10.0.0)进行验证,其中产生 的参数估计值如下:
估计值 标准误差 卡方 概率>卡方
截距 2.976 3.073 0.938 0.333
ACTB -0.228 0.107 4.555 0.033
B 8.546 1.475 33.585 0.000
C 8.273 1.714 23.299 0.000
效应似然比检验如下:
参数数目 自由度 似然比卡方 概率>卡方
ACTB 1.000 1.000 4.988 0.026
B 1.000 1.000 81.558 0.000
C 1.000 1.000 58.124 0.000
效应Wald检验如下:
参数数目 自由度 Wald卡方 概率>卡方
ACTB 1.000 1.000 4.555 0.033
B 1.000 1.000 33.585 0.000
C 1.000 1.000 23.299 0.000
5.3确认公式
根据参数系数,
初始公式形式如下:
y=2.976-0.28×A+8.546×B+8.273×C。
发明人发现按初始公式打分,154个样本的取值范围为:-5.798~11.624。为了使取值范围便于观察 和判断,发明人将y整体×5.5+25,其取值范围变为:-6.888~88.931,最后的公式形式变为:
y=41.368-1.584×A+47.003×B+45.5015×C。
函数形式为:
(1)对于两个都无起峰的数据,计算△Ct没有意义,将其直接定义为阴性,将y赋值为1;
(2)对于一个无起峰的数据,将其Ct值赋值1000,和两个Ct值正常的数据一起,代入如下公式 进行分值计算:
当ACTB≤35.5,
Figure BDA0003728075980000151
当ACTB>35.5,
Figure BDA0003728075980000161
6、阳性判断值(cutoff)的确定
使用构建的公式对154例样本数据进行计算,给出分值(Score),然后用多种方法(灵敏度-(1- 特异度)、Gini指数、真阳性真阴性之和)找最佳阈值,灵敏度-(1-特异度)、Gini指数、真阳性真阴 性之和三种方法计算得出理想的cutoff值保持一致,最终取20为cutoff。
实施例3:cutoff值验证
使用SPSS软件(SPSS Statistics 21.0,IBM)对154例样本数据进行受试者工作特征曲线(receiver operating characteristic curve,简称ROC曲线)分析验证。
1、ROC曲线:ROC曲线图如图11所示。曲线下的面积如下所示:
曲线下的面积
检验结果变量:主公式分值
Figure BDA0003728075980000162
a.在非参数假设下
b.零假设:实面积=0.5
2、约登指数:约登指数(Youden index)也称正确指数,是评价筛查试验真实性的方法,假设其假阴 性(漏诊率)和假阳性(误诊率)的危害性同等意义时,即可应用约登指数。其表示筛检方法发现真正 的患者与非患者的总能力。指数越大说明筛查实验的效果越好,真实性越大。
计算公式:约登指数=灵敏度+特异度-1。
计算结果如下所示:
Figure BDA0003728075980000163
Figure BDA0003728075980000171
Figure BDA0003728075980000181
Figure BDA0003728075980000191
备注:a.最小界限值是最小观测检验值减1,最大界限值是最大观测检验值加1。所有其它的界限 值都是两个邻近的观测检验值的平均值。
3、结果:ROC曲线和约登指数结果显示:当约登指数最大(0.94),真实性最大,Score为20.25, 取整20,此时灵敏度为97.6%,特异性为96.4%,结果一致,符合预期。
实施例4:公式评价
1、本发明双基因公式打分法:
将154例模型按照下述要求带入公式:
(1)对于两个都无起峰的数据,计算△Ct没有意义,将其直接定义为阴性,将y赋值为1;
(2)对于一个无起峰的数据,将其Ct值赋值1000,和两个Ct值正常的数据一起,代入如下公式 进行分值计算。
公式如下所示:
当ACTB≤35.5,
Figure BDA0003728075980000201
当ACTB>35.5,
Figure BDA0003728075980000202
判断条件:分值≥20,为阳性;分值<20,为阴性。判断结果如下所示:
Figure BDA0003728075980000203
阳性符合率=41/45=91.1%,阴性符合率=108/109=99.1%,总体符合率(准确度)=(41+108)/154=96.8%。
2、△Ct值方法判断
2.1对SFRP2基因和SDC2基因的结果,分别使用单个△Ct阈值进行判断:
①△Ct(SFRP2)值用多种方法(灵敏度-(1-特异度)、Gini指数、真阳性真阴性之和)找最佳阈值 时无法获得统一结果,平衡阳性符合率和阴性符合率选取9.96作为cutoff;
当△Ct(SFRP2)值cutoff为9.96(即△Ct<9.96时,判断为阳性,反之,为阴性)时,判断结果如下 所示:
Figure BDA0003728075980000204
阳性符合率=30/42=71.4%;阴性符合率=86/112=76.8%;总体符合率=(30+86)/154=75.3%。
②△Ct(SDC2)值用多种方法(灵敏度-(1-特异度)、Gini指数、真阳性真阴性之和)找最佳阈值时, 两种方法Gini指数、真阳性真阴性之和最佳阈值一致,选取6.66为cutoff;当△Ct(SDC2)值cutoff为 6.66(即△Ct<6.66时,判断为阳性,反之,为阴性)时,判断结果如下所示:
Figure BDA0003728075980000205
Figure BDA0003728075980000211
阳性符合率=13/42=31.0%;阴性符合率=112/112=100%;总体符合率=(13+112)/154=81.2%。
2.2双△Ct值判断法:将SFRP2和SDC2基因的△Ct值联合进行判断,判断规则如下:当△Ct(SFRP2) <9.96或△Ct(SDC2)<6.66时,判断为阳性;当△Ct(SFRP2)≥9.96且△Ct(SDC2)≥6.66时,判断为阴 性。判断结果如下所示:
Figure BDA0003728075980000212
阳性符合率=38/42=90.5%;阴性符合率=86/112=76.8%;总体符合率(准确度)=(38+86)/154=80.5%。
双△Ct值判断法阳性符合率90.5%,阴性符合率76.8%,总体符合率(准确度)80.5%,为了得到 比双△Ct值判断法更优的数学公式,需要开展进一步研究。
3、对比判断法(阳性符合率90.5%、阴性符合率76.8%和总体符合率(准确度)80.5%),本发明 的双基因公式打分法(阳性符合率91.1%、阴性符合率99.1%和总体符合率(准确度)96.8%)的准确度 明显提高。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示 例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个 实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且, 描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外, 在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例 或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为 对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和 变型。

Claims (10)

1.一种建立诊断大肠癌模型的方法,其特征在于,包括:
S1、获取多个参考样本的ACTB基因、SFRP2基因和SDC2基因的Ct值,分别为Ct(ACTB)、Ct(SFRP2)和Ct(SDC2);
S2、基于所述Ct(ACTB)、Ct(SFRP2)和Ct(SDC2),获得用于诊断大肠癌的模型;
S3、将所述模型进行分析验证,获得所述模型的准确度结果;
S4、基于所述准确度结果,确定诊断大肠癌模型;
其中,在步骤S2中,通过下列步骤获得所述模型:
S2-1、基于所述Ct(ACTB)、Ct(SFRP2)和Ct(SDC2),获得△Ct(SFRP2)和△Ct(SDC2),其中,△Ct(SFRP2)=Ct(SFRP2)-Ct(ACTB),△Ct(SDC2)=Ct(SDC2)-Ct(ACTB);
S2-2、基于多个所述参考样本的Ct(ACTB)、△Ct(SFRP2)和ΔCt(SDC2)的关系,获得Ct(ACTB)和△Ct(SFRP2)之间的第一预设函数,以及Ct(ACTB)和△Ct(SDC2)之间的第二预设函数;
S2-3、基于多个所述参考样本的Ct(ACTB)、第一预设函数和第二预设函数,确定用于诊断大肠癌的模型;
所述诊断大肠癌模型的计算公式如下:
y=f0+f1×A+f2×B+f3×C,
A代表Ct(ACTB),B代表第一预设函数,C代表第二预设函数;
其中,f0、f1、f2和f3是分别独立地通过Logistic回归分析确定的常数。
2.根据权利要求1所述的方法,其特征在于,所述第一预设函数如下:
ACTB基因的Ct值小于等于35.5时,
Figure FDA0003728075970000011
ACTB基因的Ct值大于35.5时,
Figure FDA0003728075970000012
其中,f(ΔSFRP2)代表所述第一预设函数,ACTB代表Ct(ACTB),SFRP2代表ct(SFRP2);
任选地,所述第二预设函数如下:
Figure FDA0003728075970000013
其中,f(ΔSDC2)代表所述第二预设函数,ACTB代表Ct(ACTB),SDC2代表Ct(SDC2)。
3.根据权利要求1所述的方法,其特征在于,步骤S2进一步包括:
S2-4、基于所述模型,确定大肠癌的阳性判断值,所述阳性判断值是通过如下方法的至少之一获得的:
真阳性真阴性之和、灵敏度-(1-特异度)和Gini指数。
4.根据权利要求1所述的方法,其特征在于,f0为40~45,f1为1~2,f2为45~50,f3为40~50。
5.根据权利要求1~4任一项所述的方法,其特征在于,所述参考样本的数量大于100个,所述准确度结果通过受试者工作特征曲线获得。
6.一种用于分析粪便样本基因的设备,其特征在于,包括:
获取单元,用于获取粪便样本的ACTB基因、SFRP2基因和SDC2基因的Ct值,分别为Ct(ACTB)、Ct(SFRP2)和Ct(SDC2);
计算单元,用于基于y=f0+f1×A+f2×B+f3×C确定所述粪便样本的基因评分;
其中,A代表Ct(ACTB),B代表第一预设函数,C代表第二预设函数;
f0、f1、f2和f3是分别独立地通过Logistic回归分析确定的常数。
7.根据权利要求6所述的设备,其特征在于,所述第一预设函数如下:
ACTB基因的Ct值小于等于35.5时,
Figure FDA0003728075970000021
ACTB基因的Ct值大于35.5时,
Figure FDA0003728075970000022
其中,f(ΔSFRP2)代表所述第一预设函数,ACTB代表Ct(ACTB),SFRP2代表Ct(SFRP2);
任选地,所述第二预设函数如下:
Figure FDA0003728075970000023
其中,f(ΔSDC2)代表所述第二预设函数,ACTB代表Ct(ACTB),SDC2代表Ct(SDC2)。
8.根据权利要求6或7所述的设备,其特征在于,进一步包括:
分析单元,用于基于所述基因评分确定所述粪便样本在大肠癌方面的健康指数。
9.一种计算机程序,其特征在于,所述计算机程序在计算机上执行时可以通过下列步骤确定粪便样本的基因评分:
获取粪便样本的ACTB基因、SFRP2基因和SDC2基因的Ct值,分别为Ct(ACTB)、Ct(SFRP2)和Ct(SDC2);
基于y=f0+f1×A+f2×B+f3×C确定所述粪便样本的基因评分;
其中,A代表Ct(ACTB),B代表第一预设函数,C代表第二预设函数;
f0、f1、f2和f3是分别独立地通过Logistic回归分析确定的常数。
10.根据权利要求9所述的计算机程序,其特征在于,所述第一预设函数如下:
ACTB基因的Ct值小于等于35.5时,
Figure FDA0003728075970000031
ACTB基因的Ct值大于35.5时,
Figure FDA0003728075970000032
其中,f(ΔSFRP2)代表所述第一预设函数,ACTB代表Ct(ACTB),SFRP2代表Ct(SFRP2);
任选地,所述第二预设函数如下:
Figure FDA0003728075970000033
其中,f(ΔSDC2)代表所述第二预设函数,ACTB代表Ct(ACTB),SDC2代表Ct(SDC2)。
CN202210781611.9A 2022-07-04 2022-07-04 建立诊断大肠癌模型的方法、用于分析粪便样本基因的设备和计算机程序 Active CN115472226B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210781611.9A CN115472226B (zh) 2022-07-04 2022-07-04 建立诊断大肠癌模型的方法、用于分析粪便样本基因的设备和计算机程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210781611.9A CN115472226B (zh) 2022-07-04 2022-07-04 建立诊断大肠癌模型的方法、用于分析粪便样本基因的设备和计算机程序

Publications (2)

Publication Number Publication Date
CN115472226A true CN115472226A (zh) 2022-12-13
CN115472226B CN115472226B (zh) 2023-07-28

Family

ID=84365990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210781611.9A Active CN115472226B (zh) 2022-07-04 2022-07-04 建立诊断大肠癌模型的方法、用于分析粪便样本基因的设备和计算机程序

Country Status (1)

Country Link
CN (1) CN115472226B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106399570A (zh) * 2016-11-30 2017-02-15 杭州诺辉健康科技有限公司 用于早期结直肠癌辅助诊断的试剂盒及其使用方法和检测系统
CN106795557A (zh) * 2014-06-02 2017-05-31 瓦利保健系统公司 用于肺癌诊断的方法和系统
CN109097471A (zh) * 2018-08-21 2018-12-28 杭州和壹基因科技有限公司 一种用于结直肠癌及癌前病变检测的试剂盒及其使用方法
CN110904228A (zh) * 2019-11-25 2020-03-24 人和未来生物科技(长沙)有限公司 一种用于粪便核酸检测的结直肠癌辅助诊断试剂盒及其使用方法
CN111647655A (zh) * 2020-04-01 2020-09-11 南京普派医疗科技有限公司 一种多靶点粪便dna甲基化检测大肠癌试剂盒及其检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106795557A (zh) * 2014-06-02 2017-05-31 瓦利保健系统公司 用于肺癌诊断的方法和系统
CN106399570A (zh) * 2016-11-30 2017-02-15 杭州诺辉健康科技有限公司 用于早期结直肠癌辅助诊断的试剂盒及其使用方法和检测系统
CN109097471A (zh) * 2018-08-21 2018-12-28 杭州和壹基因科技有限公司 一种用于结直肠癌及癌前病变检测的试剂盒及其使用方法
CN110904228A (zh) * 2019-11-25 2020-03-24 人和未来生物科技(长沙)有限公司 一种用于粪便核酸检测的结直肠癌辅助诊断试剂盒及其使用方法
CN111647655A (zh) * 2020-04-01 2020-09-11 南京普派医疗科技有限公司 一种多靶点粪便dna甲基化检测大肠癌试剂盒及其检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUODONG ZHAO等: "Methylated SFRP2 and SDC2 in stool specimens for Colorectal Cancer early detection: A cost-effective strategy for Chinese population", JOURNAL OF CANCER 2021, vol. 12, pages 2665 - 2672 *
叶敏玲等: "人类SDC2基因甲基化检测试剂盒在结直肠癌筛查中的性能评价", 医疗装备, vol. 34, no. 14, pages 36 - 37 *

Also Published As

Publication number Publication date
CN115472226B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
JP7297015B2 (ja) エピジェネティックな染色体相互作用
US6647341B1 (en) Methods for classifying samples and ascertaining previously unknown classes
WO2018054254A1 (zh) 一种鉴定样本中肿瘤负荷的方法和系统
KR102067607B1 (ko) Y 염색체 메틸화 사이트의 전립선암 진단 마커로써의 응용
KR20020075265A (ko) 임상 진단 서비스를 제공하는 방법
KR20200080272A (ko) 비침습적 산전 검사 및 암 검출을 위한 핵산 크기 범위의 용도
CN111091868B (zh) 一种染色体非整倍体的分析方法及系统
CN113234829B (zh) 结肠癌预后评估基因集及其构建方法
CN112522412A (zh) 检测生物标志物的试剂、产品及其在疾病中的应用
CN111863250A (zh) 一种早期乳腺癌的联合诊断模型及系统
CN112522413A (zh) 一种用于评估胃癌风险的生物标志物及其应用
CN111676291B (zh) 一种用于肺癌患病风险评估的miRNA标志物
CN110055331A (zh) 一种用于膀胱癌辅助诊断或筛查的试剂盒及其应用
CN105925703A (zh) 一种筛选肾癌外周血miRNA标志物的方法及肾癌诊断标志物miR-210
CN112538531A (zh) 用于检测胃癌的产品
CN112746107A (zh) 胃癌相关生物标志物及其在诊断中的应用
CN112795648A (zh) 胃癌诊断用产品
CN115472226A (zh) 建立诊断大肠癌模型的方法、用于分析粪便样本基因的设备和计算机程序
CN115128285B (zh) 一种蛋白质组合对甲状腺滤泡性肿瘤鉴别评估的试剂盒、系统
CN116580768A (zh) 一种基于定制化策略的肿瘤微小残留病灶检测方法
CN115491423A (zh) 一种用于b细胞淋巴瘤mrd监测的基因组合、试剂盒与应用
CN112501295B (zh) miRNA组合、含其的试剂盒及在肺癌诊断中的应用
CN109689890A (zh) 用于子宫腺肌症检测的生物标志物组合及其应用
CN114941031A (zh) 早期胃癌预后差异基因与复发预测模型
CN113265462A (zh) 与胃癌相关的基因及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant