CN117252306B

CN117252306B - 一种基因编辑能力指数计算方法

Info

Publication number: CN117252306B
Application number: CN202311313336.9A
Authority: CN
Inventors: 陈梅; 闫晓东; 韦洁瑶; 施娜; 马佳骥
Original assignee: Minzu University of China
Current assignee: Minzu University of China
Priority date: 2023-10-11
Filing date: 2023-10-11
Publication date: 2024-02-27
Anticipated expiration: 2043-10-11
Also published as: CN117252306A

Abstract

本发明公开了一种基因编辑能力指数计算方法，根据基因编辑技术的特点，本发明将基因编辑能力划分为物种可编辑能力和工具编辑能力，并将基因编辑能力指数划分为物种可编辑指数和工具编辑能力指数，并通过计算物种热度、物种工具广度、物种人员广度、工具热度、工具物种广度、工具人员广度，得到当前物种能力、物种工具能力、物种人员能力和工具能力、工具物种能力和工具人员能力，以及建立回归模型预测未来关键时间点的物种能力、物种工具能力、物种人员能力和工具能力、工具物种能力和工具人员能力，进而获得物种可编辑指数和工具编辑能力指数。本发明能深入到文献的内容，实现从技术本身特点出发进行评估，提高了基因编辑技术评估结论的准确性。

Description

一种基因编辑能力指数计算方法

技术领域

本发明涉及基因编辑能力评估领领域，尤其涉及一种基因编辑能力指数计算方法。

背景技术

基因编辑技术是当代前沿生物技术的核心支柱技术。基因编辑技术是对基因进行修饰而使生物体获得新特征或功能的一类技术，该技术在基因组水平上对DNA或RNA序列进行改造，通过基因插入、敲除和碱基替换等操作对基因组靶位点进行一系列的人工修饰，以使生物体获得新的功能或表型。由于世界上基本所有生物的遗传物质都是DNA或RNA，基因编辑技术理论上能对全球绝大多数生物进行编辑。

基因编辑技术目前已被应用于水稻、小麦、花生、猪、奶牛等育种中，在人类遗传疾病治疗上取得临床实验成功，基因编辑口服药目前已进入临床试验阶段。基因编辑技术工具种类和应用物种正在不断增多，开辟了人类改造生命乃至创造生命的康庄大道，成为生物经济的强力助推器。因此，对基因编辑能力进行评估，有助于准确判断技术发展方向，推动生物经济发展。

然而，目前国内外并无科学系统评估基因编辑能力的方法，一般采用同行评议法和文献计量法分析基因编辑能力。其中，同行评议法是采用最广泛的方法，一般通过专家综述领域成就进行分析。由于近年来基因编辑技术发展迅速，应用范围急剧扩大，专家很难从全局出发客观把握发展态势，因此同行评议法存在主观因素较多的情况。文献计量法则是各领域综述中的通用定量方法，以文献的“篇”为单位，通过统计文献数量、文献被收录情况、文献被引用情况进行分析。由于文献计量法不能深入到文献的内容，因此不能实现从技术本身特点出发进行评估，结论的准确性有待提高。

为解决上述相关问题，提高评估结论的准确性，本发明从基因编辑技术本身特点出发，提出了一种基因编辑能力指数计算方法。

发明内容

本发明的目的是提出一种基因编辑能力指数计算方法，根据基因编辑技术的特点，将基因编辑能力划分为物种可编辑能力和工具编辑能力，克服了目前同行评议法和文献计量法评估中的不足，为有关部门提供更加全面客观的决策支持，同时为科研人员选择方向提供依据和帮助。

为了实现上述目的，本发明提供如下技术方案：

一种基因编辑能力指数计算方法，包括以下步骤：

步骤一，下载基因编辑领域学术论文；

步骤二，对每一篇论文，利用信息抽取方法提取相关信息，得到<doi号、物种、工具、日期、通讯作者名>五元组，建立二维表；

步骤三，遍历五元组，分别抽取物种和工具信息，得到物种集合Sp＝{S1，S2，...，Sm}和工具集合To＝{T1，T2，...，Tn}；

步骤四，遍历五元组，提取最早日期和最后日期，将该时间区间等分为k个时间片，提取每个时间片的最后日期t1、t2、…、tk作为关键时间点，分别计算截止到每个关键时间点t的基因编辑工作数量Num_t；

步骤五，①对每个关键时间点t，对物种集合Sp中的每个物种S，计算截止到该关键时间点t的以该物种为基因编辑对象的工作数量NumS_t、该物种的物种热度PopularityS_t、物种工具广度ToolWidthS_t、物种人员广度PersonWidthS_t，其中，

将最后一个关键时间点tk的该物种的工作数量、物种热度、物种工具广度、物种人员广度数据记为NumS_now、PopularityS_now、ToolWidthS_now、PersonWidthS_now；

②对每个关键时间点t，对工具集合To中的每个工具T，计算截止到该关键时间点t的使用该基因编辑工具的工作数量NumT_t、该基因编辑工具的工具热度PopularityT_t、工具物种广度SpecyWidthT_t、工具人员广度PersonWidthT_t，其中，

将最后一个关键时间点tk的该工具的工作数量、工具热度、工具物种广度、工具人员广度数据记为NumT_now、PopularityT_now、SpecyWidthT_now、PersonWidthT_now；

步骤六，①根据步骤五的结果，对物种集合Sp中的每个物种S，建立回归模型预测其在t(k+1)时间点的工作数量NumS_t(k+1)、物种热度PopularityS_t(k+1)、物种工具广度ToolWidthS_t(k+1)、物种人员广度PersonWidthS_t(k+1)，记为NumS_future、PopularityS_future、ToolWidthS_future、PersonWidthS_future；

②根据步骤五的结果，对工具集合To中的每个工具T，建立回归模型预测其在t(k+1)时间点的工作数量NumT_t(k+1)、工具热度PopularityT_t(k+1)、工具物种广度SpecyWidthT_t(k+1)、工具人员广度PersonWidthT_t(k+1)，记为NumT_future、PopularityT_future、SpecyWidthT_future、PersonWidthT_future；

步骤七，计算各物种基因可编辑指数CS和各工具编辑能力指数CT：

①根据步骤五、六的结果，计算物种集合Sp中的每个物种S的工具能力SpecyAbilityS、物种工具能力ToolAbilityS、物种人员能力PersonAbilityS，方法如下：

SpecyAbilityS＝PopularityS_now+PopularityS_future

ToolAbilityS＝ToolWidthS_now+ToolWidthS_future

PersonAbilityS＝PersonWidthS_now+PersonWidthS_future

得到各物种基因可编辑指数CS；

②根据步骤五、六的结果，计算工具集合To中的每个工具T的物种能力ToolAbilityT、工具物种能力SpecyAbilityT、工具人员能力PersonAbilityT，方法如下：

ToolAbilityT＝PopularityT_now+PopularityT_future

SpecyAbilityT＝SpecyWidthT_now+SpecyWidthT_future

PersonAbilityT＝PersonWidthT_now+PersonWidthT_future

得到各工具编辑能力指数CT；

步骤八，计算物种S1和物种S2基因可编辑性差异和工具T1和工具T2基因基因编辑能力差异；其中：

①物种S1和物种S2基因可编辑性差异计算方式为：

CS1-CS2＝(SpecyAbilityS1-SpecyAbilityS2)+(ToolAbilityS1-ToolAbilityS2)+(PersonAbilityS1-PersonAbilityS2)

②工具T1和工具T2基因基因编辑能力差异计算方式为：CT1-CT2＝(ToolAbilityT1-ToolAbilityT2)+(SpecyAbilityT1-SpecyAbilityT2)+(PersonAbilityT1-PersonAbilityT2)。

进一步地，步骤三得到物种集合Sp＝{S1，S2，...，Sm}和工具集合To＝{T1，T2，...，Tn}，具体方法如下：

(1)建立集合Sp和To，初始状态均为空；

(2)遍历五元组，对每一个五元组：

①抽取物种信息，如果集合Sp中不存在该物种信息，则将该物种信息放入集合Sp中；

②抽取工具信息，如果集合To中不存在该工具信息，则将该工具信息放入集合To中。

进一步地，步骤四的具体方法如下：

(1)遍历五元组，抽取日期信息并从小到大排序，定义t0代表最小日期，tk代表最大日期，将t0到tk这一段时间等分为k个时间片(k＞1)：[t0,t1]，(t1，t2]，…，(t(k-1)，tk]，提取每个时间片的最后日期t1、t2、…、tk作为关键时间点；

(2)对每一个关键时间点t，计算基因编辑工作数量Num_t，计算方法如下：

定义变量count1，初始值为0；

遍历五元组，对每一个五元组，抽取其日期信息，如果日期在关键时间点t之前或等于该关键时间点t，则count1值加1；

遍历完成后，给Num_t赋值：

Num_t＝count1。

进一步地，步骤五中，对每个关键时间点t，对物种集合Sp中的每个物种S，计算该物种截止到该关键时间点t的NumS_t、PopularityS_t、ToolWidthS_t、PersonWidthS_f，方法如下：

对五元组按照时间从前到后进行排序，提取关键时间点t及其之前的五元组；

定义变量count2，初始值为0；

建立集合Ts和Ps，初始状态均为空；

遍历五元组，对每一个五元组，提取其物种信息，如果物种为S，则：

i count2值加1；

ii抽取其工具信息，如果集合Ts中不存在该工具信息，则将该工具信息放入集合Ts中；

iii抽取其人员信息，如果集合Ps中不存在该人员信息，则将该人员信息放入集合Ps中；

遍历完成后，按下列方式计算：

NumS_t＝count2

ToolWidthS_t＝len(Ts)

PersonWidthS_t＝len(Ps)

其中，len()为求长度函数；

最后，将最后一个关键时间点tk的数据记为NumS_now、SpecyPopularityS_now、ToolWidthS_now、PersonWidthS_now。

进一步地，步骤五中，对每个关键时间点t，对工具集合To中的每个工具T，计算该工具截止到该关键时间点t的NumT_t、PopularityT_t、SpecyWidthT_t、PersonWidthT_t，方法如下：

对步骤五①中排序后的五元组，提取关键时间点t之前(含该关键时间点)的五元组；

定义变量count3，初始值为0；

建立集合St和Pt，初始状态均为空；

遍历五元组，对每一个五元组，提取其工具信息，如果工具为T，则：

i count3值加1；

ii抽取其物种信息，如果集合St中不存在该物种信息，则将该物种信息放入集合St中；

iii抽取其人员信息，如果集合Pt中不存在该人员信息，则将该人员信息放入集合Pt中；

遍历完成后，按下列方式计算：

NumT_t＝count3

SpecyWidthT_t＝len(St)

PersonWidthT_t＝len(Pt)

其中，len()为求长度函数；

最后，将最后一个关键时间点tk的数据记为NumT_now、PopularityT_now、SpecyWidthT_now、PersonWidthT_now。

进一步地，步骤六中，对物种集合Sp中的每个物种S，建立一元回归线性模型如下：

PopularityS_t＝w1*t+b1

ToolWidthS_t＝w2*t+b2

PersonWidthS_t＝w3*t+b3

根据步骤五的结果数据，确定w1、w2、w3、b1、b2、b3的值。

进一步地，步骤六中，对工具集合To中的每个工具T，建立一元回归线性模型如下：

PopularityT_t＝p1*t+c1

SpecyWidthT_t＝p2*t+c2

PersonWidthT_t＝p3*t+c3

根据步骤五的结果数据，确定p1、p2、p3、c1、c2、c3的值。

与现有技术相比，本发明的有益效果为：

本发明提供的一种基因编辑能力指数计算方法，根据基因编辑技术的特点，将基因编辑能力划分为物种可编辑能力和工具编辑能力，并将基因编辑能力指数划分为物种可编辑指数和工具编辑能力指数，其中，物种可编辑指数包括物种能力、物种工具能力和物种人员能力，工具编辑能力指数包括工具能力、工具物种能力和工具人员能力，并通过计算物种热度、物种工具广度、物种人员广度、工具热度、工具物种广度、工具人员广度，得到当前物种能力、物种工具能力、物种人员能力和工具能力、工具物种能力和工具人员能力，以及建立回归模型预测未来关键时间点的物种能力、物种工具能力、物种人员能力和工具能力、工具物种能力和工具人员能力，进而获得物种可编辑指数和工具编辑能力指数。本发明的方法能深入到文献的内容，实现从技术本身特点出发进行评估，更加客观，提高了基因编辑技术评估结论的准确性，克服了目前同行评议法和文献计量法评估中的不足，为有关部门提供更加全面客观的决策支持，同时为科研人员选择方向提供依据和帮助。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基因编辑能力指数计算方法流程图。

具体实施方式

为了更好地理解本技术方案，下面结合附图对本发明的方法做详细的说明。

本发明根据基因编辑技术的特点，将基因编辑能力划分为物种可编辑能力和工具编辑能力，本发明提出的基因编辑能力指数由物种可编辑指数和工具编辑能力指数构成。

物种可编辑指数CS用于表征物种能被基因编辑的难易程度，物种可编辑指数越高，说明该物种越容易被基因编辑，物种可编辑指数越低，说明该物种越不容易被基因编辑。

工具编辑能力指数CT用于表征工具的基因编辑能力强弱，工具编辑能力指数越高，说明该工具基因编辑能力越强，工具编辑能力指数越低，说明该工具基因编辑能力越弱。

为计算物种可编辑指数CS和工具编辑能力指数CT，本发明定义下列指标：

(1)工作总数：指已完成的基因编辑工作数量，用Num表示。

(2)物种热度：指某物种S在基因编辑工作中的流行程度，用PopularityS表示，计算方式定义为：

其中，NumS代表以物种S为基因编辑对象的工作数量。

(3)工具热度：指某工具T在基因编辑工作中的流行程度，用PopularityT表示，计算方式定义为：

其中，NumT代表以工具T为基因编辑工具的工作数量。

(4)物种广度：指成功被作为基因编辑对象的物种种类数，用SpecyWidth表示。

(5)工具广度：指成功被应用于基因编辑工作的基因编辑工具种类数，用ToolWidth表示。

(6)人员广度：指成功实施过基因编辑工作的人员数量，用PersonWidth表示。

定义物种S的可编辑指数CS＝[SpecyAbilityS，ToolAbilityS，PersonAbilityS]，其中：

SpecyAbilityS代表物种能力，本发明中定义物种能力为当前物种热度和未来物种热度之和，计算公式为：

SpecyAbilityS＝PopularityS_now+PopularityS_future

ToolAbilityS代表物种工具能力，本发明中定义物种工具能力为当前物种工具广度和未来物种工具广度之和，计算公式为：

ToolAbilityS＝ToolWidthS_now+ToolWidthS_future

PersonAbilityS代表物种人员能力，本发明中定义物种人员能力为当前物种人员广度和未来物种人员广度之和，计算公式为：

PersonAbilityS＝PersonWidthS_now+PersonWidthS_future

定义工具T的编辑能力指数CT＝[ToolAbilityT，SpecyAbilityT，PersonAbilityT]，其中：

ToolAbilityT代表工具能力，本发明中定义工具能力为当前工具热度和未来工具热度之和，计算公式为：

ToolAbilityT＝PopularityT_now+PopularityT_future

SpecyAbilityT代表工具物种能力，本发明中定义工具物种能力为当前工具物种广度和未来工具物种广度之和，计算公式为：

SpecyAbilityT＝SpecyWidthT_now+SpecyWidthT_future

PersonAbilityT代表工具人员能力，指成功利用该工具实施过基因编辑的人员数量，本发明中定义人员广度为当前工具人员广度和未来工具人员广度之和，计算公式为：

PersonAbilityT＝PersonWidthT_now+PersonWidthT_future PersonWidthT

本发明提供的一种基因编辑能力指数计算方法，如图1所示，各步骤详细计算方法如下：

步骤一、下载基因编辑领域学术论文。

具体地，在pubmed、web of science等数据库中，搜索标题或摘要中含有”geneediting”、”genome editing”、”CRISPR”等的论文，下载论文标题、作者、作者单位、摘要、日期、doi号等信息保存到本地。

步骤二、对每一篇论文，利用信息抽取方法提取相关信息，得到<doi号、物种、工具、日期、通讯作者名>五元组，建立二维表。

具体地，对每一篇论文，基于深度学习、自然语言处理等信息抽取技术提取相关信息，得到<doi号、物种、工具、日期、通讯作者名>五元组，建立二维表如下(表1仅为示例)。

表1包含五元组的二维表

doi号	物种	工具	日期	通讯作者名
					1	大肠杆菌	CRISPR/Cas9	2012-01-01	Tom
2	大肠杆菌	CRISPR/Cas9	2012-09-01	Bob
					3	小鼠	CRISPR/dCas9	2013-03-01	Lily
4	小鼠	CRISPR/Cas9	2014-07-01	May
					5	大肠杆菌	CRISPR/Cas9	2013-05-01	Lucy
6	小鼠	CRISPR/dCas9	2015-08-01	Tom
					7	大肠杆菌	CRISPR/dCas9	2015-12-31	Abel

步骤三、遍历五元组，分别抽取物种、工具信息，得到物种集合Sp＝{S1，S2，…，Sm}和工具集合To＝{T1，T2，…，Tn}。

具体的，得到物种集合Sp＝{S1，S2，...，Sm}和工具集合To＝{T1，T2，...，Tn}的方法如下：

(1)建立集合Sp和To，初始状态均为空；

(2)遍历五元组，对每一个五元组：

抽取物种信息，如果集合Sp中不存在该物种信息，则将该物种信息放入集合Sp中；

抽取工具信息，如果集合To中不存在该工具信息，则将该工具信息放入集合To中。

步骤四、遍历五元组，提取最早日期和最后日期，将该时间区间等分为k个时间片，提取每个时间片的最后日期t1、t2、…、tk作为关键时间点，分别计算截止到每个关键时间点t的Num_t。

具体方法如下：

(1)遍历五元组，抽取日期信息并从小到大排序，定义t0代表最小日期，tk代表最大日期，将t0到tk这一段时间等分为k个时间片(k＞1，例如取k＝4)：[t0,t1]，(t1，t2]，…，(t(k-1)，tk]，提取每个时间片的最后日期t1、t2、…、tk作为关键时间点。

(2)对每一个关键时间点t，计算Num_t，计算方法如下：

定义变量count1，初始值为0；

遍历五元组，对每一个五元组，抽取其日期信息，如果日期在关键时间点t之前或等于该关键时间点t，则count1值加1，遍历完成后，赋值：

Num_t＝count1

步骤五、对每个关键时间点t，对物种集合Sp中的每个物种S，计算该物种截止到该关键时间点t的NumS_t、PopularityS_t、ToolWidthS_t、PersonWidthS_t；对每个关键时间点t，对工具集合To中的每个工具T，计算该工具截止到该关键时间点t的NumT_t、PopularityT_t、SpecyWidthT_t、PersonWidthT_t。

(1)对每个关键时间点t，对物种集合Sp中的每个物种S，计算该物种截止到该关键时间点t的NumS_t、PopularityS_t、ToolWidthS_t、PersonWidthS_t，方法如下：

对五元组按照时间从前到后进行排序，提取关键时间点t之前(含该关键时间点)的五元组，计算方法如下：

定义变量count2，初始值为0；

建立集合Ts和Ps，初始状态均为空；

i count2值加1；

iii抽取其人员信息，如果集合Ps中不存在该人员信息，则将该人员信息放入集合Ps；

遍历完成后，按下列方式计算：

NumS_t＝count2

ToolWidthS_t＝len(Ts)

PersonWidthS_t＝len(Ps)

其中，len()为求长度函数；

(2)对每个关键时间点t，对工具集合To中的每个工具T，计算该工具截止到该关键时间点t的NumT_t、PopularityT_t、SpecyWidthT_t、PersonWidthT_t，方法如下：

对步骤五(1)中排序后的五元组，提取关键时间点t之前(含该关键时间点)的五元组，计算方法如下：

定义变量count3，初始值为0；

建立集合St和Pt，初始状态均为空；

i count3值加1；

iii抽取其人员信息，如果集合Pt中不存在该人员信息，则将该人员信息放入集合Pt中。

遍历完成后，按下列方式计算：

NumT_t＝count3

SpecyWidthT_t＝len(St)

PersonWidthT_t＝len(Pt)

其中，len()为求长度函数；

步骤六

(1)根据步骤五的结果，对物种集合Sp中的每个物种S，建立一元线性回归模型预测其在t(k+1)时间点的NumS_t(k+1)、PopularityS_t(k+1)、ToolWidthS_t(k+1)、PersonWidthS_t(k+1)，记为NumS_future、PopularityS_future、ToolWidthS_future、PersonWidthS_future。一元线性回归模型如下：

PopularityS_t＝w1*t+b1

ToolWidthS_t＝w2*t+b2

PersonWidthS_t＝w3*t+b3

根据步骤五的结果数据，确定w1、w2、w3、b1、b2、b3的值，计算SpecyWidth_future、ToolWidth_future、PersonWidth_future。

(2)根据步骤五的结果，对工具集合To中的每个工具T，建立一元线性回归模型预测其在t(k+1)时间点的NumT_t(k+11、PopularityT_t(k+1)、SpecyWidthT_t(k+1)、PersonWidthT_t(k+1)，记为NumT_future、PopularityT_future、SpecyWidthT_future、PersonWidthT_future。一元线性回归模型如下：

PopularityT_t＝p1*t+c1

SpecyWidthT_t＝p2*t+c2

PersonWidthT_t＝p3*t+c3

根据步骤五的结果数据，确定p1、p2、p3、c1、c2、c3的值，计算PopularityT_future、SpecyWidthT_future、PersonWidthT_future。

步骤七、根据步骤五、六的结果，计算物种集合Sp中的每个物种S的工具能力SpecyAbilityS、物种工具能力ToolAbilityS、物种人员能力PersonAbilityS，以及计算工具集合To中的每个工具T的物种能力ToolAbilityT、工具物种能力SpecyAbilityT、工具人员能力PersonAbilityT。

①根据步骤五、六的结果，计算物种集合Sp中的每个物种S的工具能力SpecyAbilityS、物种工具能力ToolAbilityS、物种人员能力PersonAbilityS方法如下：

SpecyAbilityS＝PopularityS_now+PopularityS_future

ToolAbilityS＝ToolWidthS_now+ToolWidthS_future

PersonAbilityS＝PersonWidthS_now+PersonWidthS_future

得到各物种基因可编辑指数CS；

ToolAbilityT＝PopularityT_now+PopularityT_future

SpecyAbilityT＝SpecyWidthT_now+SpecyWidthT_future

PersonAbilityT＝PersonWidthT_now+PersonWidthT_future

得到各工具编辑能力指数CT。

步骤八，计算物种间、工具间基因编辑能力差异。

具体地，物种S1和物种S2基因可编辑性差异计算方式为：

工具T1和工具T2基因基因编辑能力差异计算方式为：

CT1-CT2＝(ToolAbilityT1-ToolAbilityT2)+(SpecyAbilityT1-SpecyAbilityT2)+(PersonAbilityT1-PersonAbilityT2)

实施例

步骤一、下载基因编辑领域学术论文。

表1包含五元组的二维表

步骤三、遍历五元组，分别抽取物种、工具信息，得到物种集合Sp＝{大肠杆菌，小鼠}，工具集合To＝{CRISPR/Cas9，CRISPR/dCas9}。

步骤四，遍历五元组，

(1)抽取日期信息并从小到大排序，定义t0代表最小日期2012-01-01，tk代表最大日期2015-12-31，将t0到tk时间段等分为4份：[2012-01-01，2012-12-31]，(2012-12-31，2013-12-31]，(2013-12-31，2014-12-31]，(2014-12-31，2015-12-31]，得到四个关键时间点：

t1＝2012-12-31

t2＝2013-12-31

t3＝2014-12-31

t4＝2015-12-31

(2)对每一个关键时间点，计算得到其Num_t如下：

t1：Num_t1＝2

t2：Num_t2＝4

t3：Num_t3＝5

t4：Num_t4＝7

步骤五，①对物种集合Sp中的每个物种S，对每个关键时间点t，计算该物种截止到该关键时间点t的NumS_t、PopularityS_t、ToolWidthS_t、PersonWidthS_t：

大肠杆菌(用D表示)：

NumD_t1＝2

ToolWidthD_t1＝1

PersonWidthD_t1＝2

NumD_t2＝3

ToolWidthD_t2＝1

PersonWidthD_t2＝3

NumD_t3＝3

ToolWidthD_t3＝1

PersonWidthD_t3＝3

NumD_t4＝NumD_now＝4

ToolWidthD_t4＝ToolWidthD_now＝2

PersonWidthD_t4＝PersonWidthD_now＝4

小鼠(用X表示)：

NumX_t1＝0

ToolWidthX_t1＝0

PersonWidthX_t1＝0

NumX_t2＝1

ToolWidthX_t2＝1

PersonWidthX_t2＝1

NumX_t3＝2

ToolWidthX_t3＝2

PersonWidthX_t3＝2

NumX_t4＝NumX_now＝3

ToolWidthX_t4＝ToolWidthX_now＝2

PersonWidthX_t4＝PersonWidthX_now＝3

②对每个关键时间点t，对工具集合To中的每个工具T，计算该工具截止到该关键时间点t的NumT_t、PopularityT_t、SpecyWidthT_t、PersonWidthT_t，方法如下：

CRISPR/Cas9(用Cas表示)：

NumCas_t1＝2

SpecyWidthCas_t1＝1

PersonWidthCas_t1＝2

NumCas_t2＝3

SpecyWidthCas_t2＝1

PersonWidthCas_t2＝3

NumCas_t3＝4

SpecyWidthCas_t3＝2

PersonWidthCas_t3＝4

NumCas_t4＝NumCas_now＝4

SpecyWidthCas_t4＝SpecyWidthCas_now＝2

PersonWidthCas_t4＝PersonWidthCas_now＝4

CRISPR/dCas9(用dCas表示)：

NumdCas_t1＝0

SpecyWidthdCas_t1＝0

PersonWidthdCas_t1＝0

NumdCas_t2＝1

SpecyWidthdCas_t2＝1

PersonWidthdCas_t2＝1

NumdCas_t3＝1

SpecyWidthdCas_t3＝1

PersonWidthdCas_t3＝1

NumdCas_t4＝NumdCas_now＝3

SpecyWidthdCas_t4＝SpecyWidthdCas_now＝2

PersonWidthdCas_t4＝PersonWidthdCas_now＝3

步骤六，①根据步骤四、五的结果，对物种集合Sp中的每个物种S，建立一元线性回归模型预测其在t(k+1)时间点的PopularityS_t(k+1)、ToolWidthS_t(k+1)、PersonWidthS_t(k+1)，记为PopularityS_future、ToolWidthS_future、PersonWidthS_future。一元线性回归模型如下：

PopularityS_t＝w1*t+b1

ToolWidthS_t＝w2*t+b2

PersonWidthS_t＝w3*t+b3

根据步骤五的结果数据，确定w1、w2、w3、b1、b2、b3的值，计算SpecyWidth_future、ToolWidth_future、PersonWidth_future

对大肠杆菌(用D表示)建模如下：

PopularityD_t＝w1*t+b1

ToolWidthD_t＝w2*t+b2

PersonWidthD_t＝w3*t+b3

根据步骤五中结果，可得到各参数值如下：

w1＝-0.144

b1＝290.674

w2＝0.3

b2＝-602.8

w3＝0.6

b3＝-1205.1

PopularityD_future＝0.37

ToolWidthD_future＝2

PersonWidthD_future＝4.5

对小鼠(用X表示)建模如下：

PopularityX_t＝w4*t+b4

ToolWidthX_t＝w5*t+b5

PersonWidthX_t＝w6*t+b6

根据步骤五中结果，可得到各参数值如下：

w4＝0.144

b4＝-289.674

w5＝0.7

b5＝-1408.2

w6＝1

b6＝-2012

PopularityX_future＝0.63

ToolWidthX_future＝3

PersonWidthX_future＝4

②根据步骤五的结果，对工具集合To中的每个工具T，，建立一元线性回归模型预测其在t(k+1)时间点的PopularityT_t(k+1)、SpecyWidthT_t(k+1)、PersonWidthT_t(k+1)，记为、PopularityT_future、SpecyWidthT_future、PersonWidthT_future。一元线性回归模型如下：

PopularityT_t＝w4*t+b4

SpecyWidthT_t＝w5*t+b5

PersonWidthT_t＝w6*t+b6

根据步骤五的结果数据，确定w4、w5、w6、b4、b5、b6的值，计算PopularityT_future、SpecyWidthT_future、PersonWidthT_future

对CRISPR/Cas9(用Cas表示)建模如下：PopularityCas_t＝p1*t+c1

SpecyWidthCas_t＝p2*t+c2

PersonWidthCas_t＝p3*t+c3

根据步骤五中结果，可得到各参数值如下：

p1＝-0.124

c1＝250.454

p2＝0.4

c2＝-803.9

p3＝0.7

c3＝-1406.2

PopularityCas_future＝0.47

SpecyWidthCas_future＝2.5

PersonWidthCas_future＝5

对CRISPR/dCas9(用dCas表示)建模如下：

PopularitydCas_t＝p4*t+c4

SpecyWidthdCas_t＝p5*t+c5

PersonWidthdCas_t＝p6*t+c6

根据步骤五中结果，可得到各参数值如下：

p4＝0.124

c4＝-249.454

p5＝0.6

c5＝-1207.1

p6＝0.9

c6＝-1810.9

PopularitydCas_future＝0.53

SpecyWidthdCas_future＝2.5

PersonWidthdCas_future＝3.5

步骤七，①根据步骤五、六的结果，计算物种集合Sp中的每个物种S的工具能力SpecyAbilityS、物种工具能力ToolAbilityS、物种人员能力PersonAbilityS，得到各物种基因可编辑指数CS

大肠杆菌(用D表示)基因可编辑指数CD如下：

SpecyAbilityD＝PopularityD_now+PopularityD_future＝0.57+0.37＝0.94

ToolAbilityD＝ToolWidthD_now+ToolWidthD_future＝2+2＝4

PersonAbilityD＝PersonWidthD_now+PersonWidthD_future＝4+4.5＝8.5

小鼠(用X表示)基因可编辑指数CX如下：

SpecyAbilityX＝PopularityX_now+PopularityX_future＝0.43+0.63＝1.06

ToolAbilityX＝ToolWidthX_now+ToolWidthX_future＝2+3＝5

PersonAbilityX＝PersonWidthX_now+PersonWidthX_future＝3+4＝7

②根据步骤五、六的结果，计算工具集合To中的每个工具T的物种能力ToolAbilityT、工具物种能力SpecyAbilityT、工具人员能力PersonAbilityT，得到各工具编辑能力指数CT

CRISPR/Cas9(用Cas表示)编辑能力指数CCas如下：

ToolAbilityCas＝PopularityCas_now+PopularityCas_future＝0.57+0.47＝1.04

SpecyAbilityCas＝SpecyWidthCas_now+SpecyWidthCas_future＝2+2.5＝4.5

PersonAbilityCas＝PersonWidthCas_now+PersonWidthCas_future＝4+5＝9

CRISPR/dCas9(用dCas表示)编辑能力指数CdCas如下：

ToolAbilitydCas＝PopularitydCas_now+PopularitydCas_future＝0.43+0.53＝0.96

SpecyAbilitydCas＝SpecyWidthdCas_now+SpecyWidthdCas_future＝2+2.5＝4.5

PersonAbilitydCas＝PersonWidthdCas_now+PersonWidthdCas_future＝3+3.5＝6.5

步骤八，计算物种间、工具间基因编辑能力差异如下：

①大肠杆菌和小鼠基因可编辑性差异为：

CD-CX＝(SpecyAbilityD-SpecyAbilityX)+(ToolAbilityD-ToolAbilityX)+(PersonAbilityD-PersonAbilityX)

＝(0.94-1.06)+(4-5)+(8.5-7)

＝0.38

②CRISPR/Cas9和CRISPR/dCas9的基因基因编辑能力差异为：

CCas-CdCas＝(ToolAbilityCas9-ToolAbilitydCas9)+(SpecyAbilityCas9-SpecyAbilitydCas9)+(PersonAbilityCas9-PersonAbilitydCas9)

＝(1.04-0.96)+(4.5-4.5)+(9-6.5)

＝2.58

本发明提供的一种基因编辑能力指数计算方法，根据基因编辑技术的特点，将基因编辑能力划分为物种可编辑能力和工具编辑能力，并将基因编辑能力指数由物种可编辑指数和工具编辑能力指数构成，其中，物种可编辑指数包括物种能力、物种工具能力和物种人员能力，工具编辑能力指数包括工具能力、工具物种能力和工具人员能力，并通过建立回归模型预测未来关键时间点的物种能力、物种工具能力、物种人员能力和工具能力、工具物种能力和工具人员能力，进而获得物种可编辑指数和工具编辑能力指数，能深入到文献的内容，实现从技术本身特点出发进行评估，更加客观，提高了基因编辑技术评估结论的准确性，克服了目前同行评议法和文献计量法评估中的不足，为有关部门提供更加全面客观的决策支持，同时为科研人员选择方向提供依据和帮助。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，但这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基因编辑能力指数计算方法，其特征在于，包括以下步骤：

步骤一，下载基因编辑领域学术论文；

步骤三，遍历五元组，分别抽取物种和工具信息，得到物种集合Sp＝{S1,S2,…,Sm}和工具集合To＝{T1,T2,…,Tn}；

SpecyAbilityS＝PopularityS_now+PopularityS_future

ToolAbilityS＝ToolWidthS_now+ToolWidthS_future

PersonAbilityS＝PersonWidthS_now+PersonWidthS_future

得到各物种基因可编辑指数CS；

ToolAbilityT＝PopularityT_now+PopularityT_future

SpecyAbilityT＝SpecyWidthT_now+SpecyWidthT_future

PersonAbilityT＝PersonWidthT_now+PersonWidthT_future

得到各工具编辑能力指数CT；

步骤八，计算物种S1和物种S2基因可编辑性差异和工具T1和工具T2基因编辑能力差异；其中：

①物种S1和物种S2基因可编辑性差异计算方式为：

②工具T1和工具T2基因编辑能力差异计算方式为：

CT1-CT2＝(ToolAbilityT1-ToolAbilityT2)+(SpecyAbilityT1-SpecyAbilityT2)+(PersonAbilityT1-PersonAbilityT2)。

2.根据权利要求1所述的基因编辑能力指数计算方法，其特征在于，步骤三得到物种集合Sp＝{S1,S2,…,Sm}和工具集合To＝{T1,T2,…,Tn}，具体方法如下：

(1)建立集合Sp和To，初始状态均为空；

(2)遍历五元组，对每一个五元组：

3.根据权利要求1所述的基因编辑能力指数计算方法，其特征在于，步骤四的具体方法如下：

(1)遍历五元组，抽取日期信息并从小到大排序，定义t0代表最小日期，tk代表最大日期，将t0到tk这一段时间等分为k个时间片，k>1：[t0,t1]，(t1,t2]，…，(t(k-1),tk]，提取每个时间片的最后日期t1、t2、…、tk作为关键时间点；

定义变量count1，初始值为0；

遍历完成后，给Num_t赋值：

Num_t＝count1。

4.根据权利要求1所述的基因编辑能力指数计算方法，其特征在于，步骤五中，对每个关键时间点t，对物种集合Sp中的每个物种S，计算该物种截止到该关键时间点t的NumS_t、PopularityS_t、ToolWidthS_t、PersonWidthS_t，方法如下：

定义变量count2，初始值为0；

建立集合Ts和Ps，初始状态均为空；

i count2值加1；

遍历完成后，按下列方式计算：

NumS_t＝count2

ToolWidthS_t＝len(Ts)

PersonWidthS_t＝len(Ps)

其中，len()为求长度函数；

5.根据权利要求1所述的基因编辑能力指数计算方法，其特征在于，步骤五中，对每个关键时间点t，对工具集合To中的每个工具T，计算该工具截止到该关键时间点t的NumT_t、PopularityT_t、SpecyWidthT_t、PersonWidthT_t，方法如下：

对步骤五①中排序后的五元组，提取关键时间点t之前含该关键时间点的五元组；

定义变量count3，初始值为0；

建立集合St和Pt，初始状态均为空；

i count3值加1；

遍历完成后，按下列方式计算：

NumT_t＝count3

SpecyWidthT_t＝len(St)

PersonWidthT_t＝len(Pt)

其中，len()为求长度函数；

6.根据权利要求1所述的基因编辑能力指数计算方法，其特征在于，步骤六中，对物种集合Sp中的每个物种S，建立一元线性回归模型如下：

PopularityS_t＝w1*t+b1

ToolWidthS_t＝w2*t+b2

PersonWidthS_t＝w3*t+b3

根据步骤五的结果数据，确定w1、w2、w3、b1、b2、b3的值。

7.根据权利要求1所述的基因编辑能力指数计算方法，其特征在于，步骤六中，对工具集合To中的每个工具T，建立一元线性回归模型如下：

PopularityT_t＝p1*t+c1

SpecyWidthT_t＝p2*t+c2

PersonWidthT_t＝p3*t+c3

根据步骤五的结果数据，确定p1、p2、p3、c1、c2、c3的值。