CN113627763B - 一种风险量化评估模型建立方法 - Google Patents

一种风险量化评估模型建立方法 Download PDF

Info

Publication number
CN113627763B
CN113627763B CN202110875706.2A CN202110875706A CN113627763B CN 113627763 B CN113627763 B CN 113627763B CN 202110875706 A CN202110875706 A CN 202110875706A CN 113627763 B CN113627763 B CN 113627763B
Authority
CN
China
Prior art keywords
vector
risk
mutation
lip
infiltration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110875706.2A
Other languages
English (en)
Other versions
CN113627763A (zh
Inventor
纪志梁
丁若凡
章蕴
邬绿莹
朱峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202110875706.2A priority Critical patent/CN113627763B/zh
Publication of CN113627763A publication Critical patent/CN113627763A/zh
Application granted granted Critical
Publication of CN113627763B publication Critical patent/CN113627763B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开一种风险量化评估模型建立方法,包括如下步骤:1)获取样本的特征信息;2)从样本的特征信息中提取预设所需的特定值的第一表示方式,并将第一表示方式转化为向量V;3)对应向量V设置加权向量L,且加权向量L包含预设的特定值的平均影响因子;4)使用向量V和加权向量L的点积作为预设的影响贡献的累积转移驱动力;5)建立逻辑回归模型。本发明的评估方法的输入是影响的存在状态(是/否),这在现有的科学技术水平和实验条件下是易于容易获取的,不受外界影响因素发展状态的限制,是可实际应用的,是适用于多种领域的多种对象的,可对多种事件进行计算化、定量化的评估。

Description

一种风险量化评估模型建立方法
技术领域
本发明应用于评估模型建立领域,具体是一种风险量化评估模型建立方法。
背景技术
随着信息科技的发展风险量化评估模型得到广泛应用,其应用于建筑、信息、军工、医学等领域,但现有的风险量化评估模型泛用性强的同时缺乏针对性,仅能对影响因子单一,影响程度直观简单的风险进行评估,无法精准的对影响因子多样化复杂化的风险进行直观的量化评估。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种风险量化评估模型建立方法。
为解决上述技术问题,本发明的一种风险量化评估模型建立方法,包括如下步骤:
1)获取样本的特征信息;
2)从样本的特征信息中提取预设所需的特定值的第一表示方式,并将第一表示方式转化为向量V;
3)对应向量V设置加权向量L,且加权向量L包含预设的特定值的平均影响因子;
4)使用向量V和加权向量L的点积作为预设的影响贡献的累积转移驱动力;
5)建立逻辑回归模型。
作为一种可能的实施方式,进一步的,步骤3)中的所述特定值具体为转移驱动变体,所述影响因子具体为局部浸润力LIP,且步骤3)包括如下子步骤:
3.1)设置参数局部浸润力LIP,其用于衡量每个基因突变对所在细胞局部浸润的贡献,且局部浸润力LIP由促进浸润和抵抗浸润共同确定,其表达式为:其中,RMi和/>分别代表浸润的促进率和拮抗率;
3.2)对应向量V设置包含了预设的转移驱动变体的平均局部浸润力LIP的加权向量L,其表达式为:L=(LIP1,LIP2,…,LIP11)。
作为一种可能的实施方式,进一步的,步骤2)中的所述特定值具体为转移驱动变体,所述第一表示方式具体为基因突变谱,所述步骤2)的向量V为一维-11特征二元向量,其对应11个转移相关变异,其中若携带突变定义为1,否则为0,所述向量V的表达式为:
V=(V1,V2,…,V11)。
作为一种可能的实施方式,进一步的,步骤5)具体为:
利用逻辑回归建立模型确定发生概率P(y=1):
其中wi是变量的回归系数,b是截距。
作为一种可能的实施方式,进一步的,wi和b通过R语言包stats的glm函数进行最大似然估计得出。
其还包括步骤:
6)利用逻辑回归模型确定转移风险的概率,根据概率值确定转移风险的等级得出结论。
作为一种可能的实施方式,进一步的,步骤6)具体包括如下子步骤:
6.1)确定转移风险等级,将其分为高风险、中等风险和轻度风险三级,并对应概率值P(y)的0.75-1.00、0.50-0.75和0-0.50;
6.2)将求得的概率值P(y)与转移风险等级进行比对确定最终转移风险的等级并输出。
步骤1)具体为:利用WGS\WES测序方法对生物的血样或组织样本进行测序并找变异后确定,或通过Genotyping\PCR\Microarray确定预设位点是否存在突变,或直接获取现有的样本突变特征信息进行后续步骤操作。
作为一种可能的实施方式,进一步的,所述特征信息具体为突变\变异特征信息,所述影响贡献具体为突变\变异贡献。
本发明采用以上技术方案,具有以下有益效果:
本发明的评估方法的输入是影响的存在状态(是/否),这在现有的科学技术水平和实验条件下是易于容易获取的,不受外界影响因素发展状态的限制,是可实际应用的,是适用于多种领域的多种对象的,可对多种事件进行计算化、定量化的评估。
附图说明
下面结合附图与具体实施方式对本发明做进一步详细的说明:
图1为本发明的流程示意图。
图2为本发明的实施例应用原理简图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述。
如图1所示,本发明提供了一种风险量化评估模型建立方法,包括如下步骤:
1)获取样本的特征信息;步骤1)具体为:利用WGS\WES测序方法对生物的血样或组织样本进行测序并找变异后确定,或通过Genotyping\PCR\Microarray确定预设位点是否存在突变,或直接获取现有的样本突变特征信息进行后续步骤操作。
2)从样本的特征信息中提取预设所需的特定值的第一表示方式,并将第一表示方式转化为向量V;进一步的,步骤2)中的所述特定值具体为转移驱动变体,所述第一表示方式具体为基因突变谱,所述步骤2)的向量V为一维-11特征二元向量,其对应11个转移相关变异,其中若携带突变定义为1,否则为0,所述向量V的表达式为:
V=(V1,V2,…,V11)。
3)对应向量V设置加权向量L,且加权向量L包含预设的特定值的平均影响因子;进一步的,步骤3)中的所述特定值具体为转移驱动变体,所述影响因子具体为局部浸润力LIP,且步骤3)包括如下子步骤:
3.1)设置参数局部浸润力LIP,其用于衡量每个基因突变对所在细胞局部浸润的贡献,且局部浸润力LIP由促进浸润和抵抗浸润共同确定,其表达式为:其中,RMi/>分别代表浸润的促进率和拮抗率;
3.2)对应向量V设置包含了预设的转移驱动变体的平均局部浸润力LIP的加权向量L,其表达式为:L=(LIP1,LIP2,…,LIP11)。
4)使用向量V和加权向量L的点积作为预设的影响贡献的累积转移驱动力;
进一步的,所述特征信息具体为突变\变异特征信息,所述影响贡献具体为突变\变异贡献。
5)建立逻辑回归模型。进一步的,步骤5)具体为:
利用逻辑回归建立模型确定发生概率P(y=1):
其中wi是变量的回归系数,b是截距。wi和b通过R语言包stats的glm函数进行最大似然估计得出。
其还包括步骤:
6)利用逻辑回归模型确定转移风险的概率,根据概率值确定转移风险的等级得出结论。步骤6)具体包括如下子步骤:
6.1)确定转移风险等级,将其分为高风险、中等风险和轻度风险三级,并对应概率值P(y)的0.75-1.00、0.50-0.75和0-0.50;
6.2)将求得的概率值P(y)与转移风险等级进行比对确定最终转移风险的等级并输出。
实施例
一种结直肠癌转移风险的量化评估方法,其特征在于,包括如下步骤:
利用WGE\WES测序方法或其他Genotyping\PCR\Microarray方法对患者的生物样本进行测序并获得样本的突变信息;
从样本的突变特征信息中提取预设的11个转移驱动变体的突变谱:
并将患者的基因突变谱转化为一维-11特征二元向量V;
设计一个新的参数——局部浸润力(local invasion power,LIP),以衡量每个基因突变对所在肿瘤细胞局部浸润的贡献。如果浸润事件是所有胚系变异的累积结果,那么促进浸润或者拮抗浸润的影响都将来自肿瘤细胞中的突变,这种影响可以定量衡量为局部浸润力LIP。LIP由促进浸润和抵抗浸润两方面因素共同确定,计算为以下表达式:
(注:在本研究中所有提到的对数log均以2为底数。)
其中,RMi和分别代表浸润的促进率和拮抗率。RMi和/>的计算公式为:
RMi=VMPi/VMTi
其中VMTi、VMPi和VMNi分别代表肿瘤、癌旁和正常组织中突变Mi的变异等位基因分数(variant allele fraction,VAF),它们是通过将替代等位基因Mi的reads除以该基因座的总reads并通过所有reads计数进一步归一化来确定的。因此我们对肿瘤、癌旁(距离肿瘤位置2cm)和正常(距离肿瘤位置5cm)的组织进行取样并测序,得到位点信息后经过计算得到了11个突变位点的VAF值。VAF在一定程度上反映了肿瘤的异质性,也体现了肿瘤细胞对癌旁组织的浸润程度;那么,LIP>0表明突变对浸润促进的贡献大于浸润抵抗,否则是无浸润作用,而较大的LIP表明这个突变具有更大的能力来驱动局部浸润。
由于肿瘤细胞浸润是一组突变的累积结果,那么假设突变对浸润性的影响是线性的,通过计算细胞中总的局部浸润力可以预测这个细胞是否具备局部浸润的能力,则总LIP(the summation of LIPs,sLIPs)的大小意味着肿瘤浸润转移的风险。
式中n代表突变总数。当sLIPs>0时表示同时携带突变M1,M2,…,Mn时具有高浸润风险,sLIPs越大表示浸润/转移的风险越高。
对应V设置加权向量L,且加权向量L包含预设的转移驱动变体的平均局部浸润力LIP;
使用V和L的点积作为预设的变异贡献的累积转移驱动力,利用逻辑回归模型确定转移风险的概率,并确定转移风险的等级得出结论;构建了一个行列式分类器,核心组件为逻辑回归模型。逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的;从特征的权重则可以看出不同的特征对最后结果的影响。由于突变是否存在是一件非是即否事件,选择逻辑回归模型对样本进行分类,拟合出的概率函数结果范围为0~1,代表发生肿瘤转移事件(y)的概率。逻辑回归的假设函数形式为:
该式代表给定x,w的条件下y=1的概率;x代表模型输入,w是需要求的参数。
该模型的输入是本研究中确定的11个转移驱动变体的突变谱(而不是可能导致极高背景噪声的整个种系突变谱),输出是转移风险的估计概率。在模型构建中,将患者的基因突变谱转化为一维-11特征二元向量V,对应11个转移相关变异,其中携带突变定义为1,否则为0。
V=(V1,V2,…,V11)
同时,为V准备了一个加权向量L,其中包含根据训练数据集确定的这11种与转移相关的变异的平均局部浸润力LIP。
L=(LIP1,LIP2,…,LIP11)
以收集到的这些数据作为研究对象、是否存在转移作为因变量,应用逻辑回归算法建立肿瘤转移风险评估的预测模型。使用V和L的点积(V·L)作为患者的11种变异贡献的累积转移驱动力。对于肿瘤转移问题(y=1),通过逻辑回归确定发生概率P(y=1):
其中wi是变量的回归系数,b是截距。回归系数wi和截距b通过使用R包stats(v3.6.0)的glm函数进行最大似然估计(the Maximum Likelihood Estimation,MLE)得到。最后得到了结直肠癌转移风险评估的预测模型P(y)。
确定转移风险等级,将其分为高风险、中等风险和轻度风险三级,并对应概率值的0.75-1.00、0.50-0.75和0-0.50。
测试例
基于11个结直肠癌转移驱动基因突变,利用逻辑回归算法建立的转移预测模型。模型的训练数据集和验证数据集共有61名结直肠癌患者,包括本研究的8位患者和从NCBIBioProject数据库中选择的三个研究(数据集ID:PRJNA494574、PRJNA514428和PRJNA246044),模型在训练集和验证集中的表现如下表所示:
以上所述为本发明的实施例,对于本领域的普通技术人员而言,根据本发明的教导,在不脱离本发明的原理和精神的情况下凡依本发明申请专利范围所做的均等变化、修改、替换和变型,皆应属本发明的涵盖范围。

Claims (3)

1.一种风险量化评估模型建立方法,其特征在于,包括如下步骤:
1)获取样本的特征信息;具体为:利用WGSWES测序方法对生物的血样或组织样本进行测序并找变异后确定,或通过GenotypingPCRMicroarray确定预设位点是否存在突变,或直接获取现有的样本突变特征信息进行后续步骤操作;
2)从样本的特征信息中提取预设所需的特定值的第一表示方式,并将第一表示方式转化为向量V;所述特定值具体为转移驱动变体,所述第一表示方式具体为基因突变谱,所述步骤2)的向量V为一维-11特征二元向量,其对应11个转移相关变异,其中若携带突变定义为1,否则为0,所述向量V的表达式为:
V=(V1,V2,…,V11);
3)对应向量V设置加权向量L,且加权向量L包含预设的特定值的平均影响因子;所述特定值具体为转移驱动变体,所述影响因子具体为局部浸润力LIP,且步骤3)包括如下子步骤:
3.1)设置参数局部浸润力LIP,其用于衡量每个基因突变对所在细胞局部浸润的贡献,
且局部浸润力LIP由促进浸润和抵抗浸润共同确定,其表达式为:,其中,RMi和/>分别代表浸润的促进率和拮抗率;
3.2)对应向量V设置包含了预设的转移驱动变体的平均局部浸润力LIP的加权向量L,其表达式为:L=(LIP1,LIP2,…,LIP11);
4)使用向量V和加权向量L的点积作为预设的影响贡献的累积转移驱动力;
5)建立逻辑回归模型,具体为:
利用逻辑回归建立模型确定发生概率P(y=1):
其中wi是变量的回归系数,b是截距;所述wi和b通过R语言包stats的glm函数进行最大似然估计得出;
6)利用逻辑回归模型确定转移风险的概率,根据概率值确定转移风险的等级得出结论。
2.根据权利要求1所述的一种风险量化评估模型建立方法,其特征在于:所述步骤6)具体包括如下子步骤:
6.1)确定转移风险等级,将其分为高风险、中等风险和轻度风险三级,并对应概率值P(y)的0.75-1.00、0.50-0.75和0-0.50;
6.2)将求得的概率值P(y)与转移风险等级进行比对确定最终转移风险的等级并输出。
3.根据权利要求1所述的一种风险量化评估模型建立方法,其特征在于:所述特征信息
具体为突变变异特征信息,所述影响贡献具体为突变变异贡献。
CN202110875706.2A 2021-07-30 2021-07-30 一种风险量化评估模型建立方法 Active CN113627763B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110875706.2A CN113627763B (zh) 2021-07-30 2021-07-30 一种风险量化评估模型建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110875706.2A CN113627763B (zh) 2021-07-30 2021-07-30 一种风险量化评估模型建立方法

Publications (2)

Publication Number Publication Date
CN113627763A CN113627763A (zh) 2021-11-09
CN113627763B true CN113627763B (zh) 2023-12-01

Family

ID=78381992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110875706.2A Active CN113627763B (zh) 2021-07-30 2021-07-30 一种风险量化评估模型建立方法

Country Status (1)

Country Link
CN (1) CN113627763B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015089495A2 (en) * 2013-12-13 2015-06-18 Angiogenex, Inc. Compositions and methods for treating, preventing and diagnosing cancer and other proliferative disorders
CN106511347A (zh) * 2015-09-15 2017-03-22 山西振东先导生物科技有限公司 氯化两面针碱在制备预防/治疗脓毒症药物中的应用
CN110569554A (zh) * 2019-08-13 2019-12-13 成都垣景科技有限公司 一种基于空间逻辑回归与地理探测器的滑坡易发性评价方法
KR20200092485A (ko) * 2019-01-09 2020-08-04 한국항공대학교산학협력단 전후방 복합구동 방식 내시경 로봇 시스템 및 이를 이용한 고안전 내시경 로봇 구동 제어 방법
CN112580985A (zh) * 2020-12-22 2021-03-30 国家海洋环境监测中心 海岸侵蚀风险评估方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8663915B2 (en) * 2007-04-13 2014-03-04 Agency For Science, Technology And Research Methods of controlling tumorigenesis and diagnosing the risk thereof
US10545133B2 (en) * 2013-05-13 2020-01-28 The Johns Hopkins University Molecular signatures of invasive cancer subpopulations
US10865388B2 (en) * 2014-09-24 2020-12-15 National Taiwan University Method for identifying anti-cancer agents using an in vitro cell culture system that maintains cancer cell stemness

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015089495A2 (en) * 2013-12-13 2015-06-18 Angiogenex, Inc. Compositions and methods for treating, preventing and diagnosing cancer and other proliferative disorders
CN106511347A (zh) * 2015-09-15 2017-03-22 山西振东先导生物科技有限公司 氯化两面针碱在制备预防/治疗脓毒症药物中的应用
KR20200092485A (ko) * 2019-01-09 2020-08-04 한국항공대학교산학협력단 전후방 복합구동 방식 내시경 로봇 시스템 및 이를 이용한 고안전 내시경 로봇 구동 제어 방법
CN110569554A (zh) * 2019-08-13 2019-12-13 成都垣景科技有限公司 一种基于空间逻辑回归与地理探测器的滑坡易发性评价方法
CN112580985A (zh) * 2020-12-22 2021-03-30 国家海洋环境监测中心 海岸侵蚀风险评估方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Menke A,Gierschik P,Giehl K,等.Expression of MTA1 promotes motility and invasiveness of PANC-1 pancreatic carcinoma cells.《The British journal of cancer》.2004,全文. *
MMP-9和TIMP-1在胃癌肿瘤细胞浸润和转移过程中的调节作用分析;陈后良;《中国中西医结合消化杂志 》;全文 *
乳腺癌MTA1、MMP-9、TIMP-1的表达与肿瘤侵袭转移的相关性研究;鲍俊涛;《中国知网硕士学位论文期刊》;全文 *
定量化评估甲状腺结节恶性风险的CT预测模型;何俊林;《中国医学计算机成像杂志》;全文 *
胃癌癌变过程分子特征的研究 基于免疫组预测鼻咽癌远处转移的研究;张雅静;《中国知网博士电子期刊 医药卫生科技》;全文 *

Also Published As

Publication number Publication date
CN113627763A (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
Zhao et al. Molecular subtyping for clinically defined breast cancer subgroups
EP2616818B1 (en) Red blood cell dynamics for diagnosis
WO2012091093A1 (ja) 緑内障診断チップと変形プロテオミクスクラスター解析による緑内障統合的判定方法
CN110993104A (zh) 肿瘤患者生存期预测系统
CN116805510B (zh) 用于判断样本配对或污染的位点组合及其应用
Foroughirad et al. Quality and quantity of genetic relatedness data affect the analysis of social structure
Gopalan et al. Human genetic admixture through the lens of population genomics
CN113373236A (zh) 一种获得中国人群个体年龄的方法
Qi et al. A comprehensive evaluation of methods for Mendelian randomization using realistic simulations and an analysis of 38 biomarkers for risk of type 2 diabetes
CN115537467A (zh) 基于深度神经网络的卵巢癌生存预后预测分子模型的建立方法及其应用
CN116933946A (zh) 一种基于客流去向结构的轨道交通od客流预测方法及系统
CN113627763B (zh) 一种风险量化评估模型建立方法
Pfeiffer et al. Efficiency of DNA pooling to estimate joint allele frequencies and measure linkage disequilibrium
CN117423451B (zh) 一种基于大数据分析的智能分子诊断方法及系统
Ceronio et al. An improvement on the power law for the description of particle size distributions in potable water treatment
Wu et al. A multifactor dimensionality reduction-logistic regression model of gene polymorphisms and an environmental interaction analysis in cancer research
Zhang et al. On Mendelian randomization analysis of case-control study
Tournoud et al. A strategy to build and validate a prognostic biomarker model based on RT-qPCR gene expression and clinical covariates
Zhang et al. Comprehensive analysis of multiple cohort datasets deciphers the utility of germline single-nucleotide polymorphisms in prostate cancer diagnosis
CN115798703A (zh) 基于新型脂肪酸代谢相关基因预测肾透明细胞癌预后的装置和计算机可读存储介质
CN114841277A (zh) 一种转炉出钢合金收得率预测方法和系统
CN114672569A (zh) 基于色氨酸代谢基因的肝癌预后评估方法
Porta-Pardo et al. The landscape of interactions between cancer polygenic risk scores and somatic alterations in cancer cells
Bagwell DNA histogram analysis for node‐negative breast cancer
CN107063976B (zh) 一种半数细胞培养物感染量的计算系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant