CN117252306B - 一种基因编辑能力指数计算方法 - Google Patents
一种基因编辑能力指数计算方法 Download PDFInfo
- Publication number
- CN117252306B CN117252306B CN202311313336.9A CN202311313336A CN117252306B CN 117252306 B CN117252306 B CN 117252306B CN 202311313336 A CN202311313336 A CN 202311313336A CN 117252306 B CN117252306 B CN 117252306B
- Authority
- CN
- China
- Prior art keywords
- species
- tool
- now
- information
- future
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010362 genome editing Methods 0.000 title claims abstract description 76
- 238000004364 calculation method Methods 0.000 title claims description 22
- 238000000034 method Methods 0.000 claims abstract description 58
- 108091028051 Numt Proteins 0.000 claims description 22
- 108090000623 proteins and genes Proteins 0.000 claims description 19
- 238000012417 linear regression Methods 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 101150075200 S-2 gene Proteins 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 19
- 238000011156 evaluation Methods 0.000 abstract description 12
- 241000894007 species Species 0.000 description 161
- 108091033409 CRISPR Proteins 0.000 description 39
- 238000010354 CRISPR gene editing Methods 0.000 description 26
- 241000699666 Mus <mouse, genus> Species 0.000 description 9
- 241000894006 Bacteria Species 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000011161 development Methods 0.000 description 4
- 241000588724 Escherichia coli Species 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 2
- 108020004414 DNA Proteins 0.000 description 2
- 241000234435 Lilium Species 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 235000017060 Arachis glabrata Nutrition 0.000 description 1
- 244000105624 Arachis hypogaea Species 0.000 description 1
- 235000010777 Arachis hypogaea Nutrition 0.000 description 1
- 235000018262 Arachis monticola Nutrition 0.000 description 1
- 241000283690 Bos taurus Species 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 241000282898 Sus scrofa Species 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000037429 base substitution Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 235000020232 peanut Nutrition 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06398—Performance of employee with respect to a job function
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基因编辑能力指数计算方法,根据基因编辑技术的特点,本发明将基因编辑能力划分为物种可编辑能力和工具编辑能力,并将基因编辑能力指数划分为物种可编辑指数和工具编辑能力指数,并通过计算物种热度、物种工具广度、物种人员广度、工具热度、工具物种广度、工具人员广度,得到当前物种能力、物种工具能力、物种人员能力和工具能力、工具物种能力和工具人员能力,以及建立回归模型预测未来关键时间点的物种能力、物种工具能力、物种人员能力和工具能力、工具物种能力和工具人员能力,进而获得物种可编辑指数和工具编辑能力指数。本发明能深入到文献的内容,实现从技术本身特点出发进行评估,提高了基因编辑技术评估结论的准确性。
Description
技术领域
本发明涉及基因编辑能力评估领领域,尤其涉及一种基因编辑能力指数计算方法。
背景技术
基因编辑技术是当代前沿生物技术的核心支柱技术。基因编辑技术是对基因进行修饰而使生物体获得新特征或功能的一类技术,该技术在基因组水平上对DNA或RNA序列进行改造,通过基因插入、敲除和碱基替换等操作对基因组靶位点进行一系列的人工修饰,以使生物体获得新的功能或表型。由于世界上基本所有生物的遗传物质都是DNA或RNA,基因编辑技术理论上能对全球绝大多数生物进行编辑。
基因编辑技术目前已被应用于水稻、小麦、花生、猪、奶牛等育种中,在人类遗传疾病治疗上取得临床实验成功,基因编辑口服药目前已进入临床试验阶段。基因编辑技术工具种类和应用物种正在不断增多,开辟了人类改造生命乃至创造生命的康庄大道,成为生物经济的强力助推器。因此,对基因编辑能力进行评估,有助于准确判断技术发展方向,推动生物经济发展。
然而,目前国内外并无科学系统评估基因编辑能力的方法,一般采用同行评议法和文献计量法分析基因编辑能力。其中,同行评议法是采用最广泛的方法,一般通过专家综述领域成就进行分析。由于近年来基因编辑技术发展迅速,应用范围急剧扩大,专家很难从全局出发客观把握发展态势,因此同行评议法存在主观因素较多的情况。文献计量法则是各领域综述中的通用定量方法,以文献的“篇”为单位,通过统计文献数量、文献被收录情况、文献被引用情况进行分析。由于文献计量法不能深入到文献的内容,因此不能实现从技术本身特点出发进行评估,结论的准确性有待提高。
为解决上述相关问题,提高评估结论的准确性,本发明从基因编辑技术本身特点出发,提出了一种基因编辑能力指数计算方法。
发明内容
本发明的目的是提出一种基因编辑能力指数计算方法,根据基因编辑技术的特点,将基因编辑能力划分为物种可编辑能力和工具编辑能力,克服了目前同行评议法和文献计量法评估中的不足,为有关部门提供更加全面客观的决策支持,同时为科研人员选择方向提供依据和帮助。
为了实现上述目的,本发明提供如下技术方案:
一种基因编辑能力指数计算方法,包括以下步骤:
步骤一,下载基因编辑领域学术论文;
步骤二,对每一篇论文,利用信息抽取方法提取相关信息,得到<doi号、物种、工具、日期、通讯作者名>五元组,建立二维表;
步骤三,遍历五元组,分别抽取物种和工具信息,得到物种集合Sp={S1,S2,...,Sm}和工具集合To={T1,T2,...,Tn};
步骤四,遍历五元组,提取最早日期和最后日期,将该时间区间等分为k个时间片,提取每个时间片的最后日期t1、t2、…、tk作为关键时间点,分别计算截止到每个关键时间点t的基因编辑工作数量Numt;
步骤五,①对每个关键时间点t,对物种集合Sp中的每个物种S,计算截止到该关键时间点t的以该物种为基因编辑对象的工作数量NumSt、该物种的物种热度PopularitySt、物种工具广度ToolWidthSt、物种人员广度PersonWidthSt,其中,
将最后一个关键时间点tk的该物种的工作数量、物种热度、物种工具广度、物种人员广度数据记为NumSnow、PopularitySnow、ToolWidthSnow、PersonWidthSnow;
②对每个关键时间点t,对工具集合To中的每个工具T,计算截止到该关键时间点t的使用该基因编辑工具的工作数量NumTt、该基因编辑工具的工具热度PopularityTt、工具物种广度SpecyWidthTt、工具人员广度PersonWidthTt,其中,
将最后一个关键时间点tk的该工具的工作数量、工具热度、工具物种广度、工具人员广度数据记为NumTnow、PopularityTnow、SpecyWidthTnow、PersonWidthTnow;
步骤六,①根据步骤五的结果,对物种集合Sp中的每个物种S,建立回归模型预测其在t(k+1)时间点的工作数量NumSt(k+1)、物种热度PopularitySt(k+1)、物种工具广度ToolWidthSt(k+1)、物种人员广度PersonWidthSt(k+1),记为NumSfuture、PopularitySfuture、ToolWidthSfuture、PersonWidthSfuture;
②根据步骤五的结果,对工具集合To中的每个工具T,建立回归模型预测其在t(k+1)时间点的工作数量NumTt(k+1)、工具热度PopularityTt(k+1)、工具物种广度SpecyWidthTt(k+1)、工具人员广度PersonWidthTt(k+1),记为NumTfuture、PopularityTfuture、SpecyWidthTfuture、PersonWidthTfuture;
步骤七,计算各物种基因可编辑指数CS和各工具编辑能力指数CT:
①根据步骤五、六的结果,计算物种集合Sp中的每个物种S的工具能力SpecyAbilityS、物种工具能力ToolAbilityS、物种人员能力PersonAbilityS,方法如下:
SpecyAbilityS=PopularitySnow+PopularitySfuture
ToolAbilityS=ToolWidthSnow+ToolWidthSfuture
PersonAbilityS=PersonWidthSnow+PersonWidthSfuture
得到各物种基因可编辑指数CS;
②根据步骤五、六的结果,计算工具集合To中的每个工具T的物种能力ToolAbilityT、工具物种能力SpecyAbilityT、工具人员能力PersonAbilityT,方法如下:
ToolAbilityT=PopularityTnow+PopularityTfuture
SpecyAbilityT=SpecyWidthTnow+SpecyWidthTfuture
PersonAbilityT=PersonWidthTnow+PersonWidthTfuture
得到各工具编辑能力指数CT;
步骤八,计算物种S1和物种S2基因可编辑性差异和工具T1和工具T2基因基因编辑能力差异;其中:
①物种S1和物种S2基因可编辑性差异计算方式为:
CS1-CS2=(SpecyAbilityS1-SpecyAbilityS2)+(ToolAbilityS1-ToolAbilityS2)+(PersonAbilityS1-PersonAbilityS2)
②工具T1和工具T2基因基因编辑能力差异计算方式为:CT1-CT2=(ToolAbilityT1-ToolAbilityT2)+(SpecyAbilityT1-SpecyAbilityT2)+(PersonAbilityT1-PersonAbilityT2)。
进一步地,步骤三得到物种集合Sp={S1,S2,...,Sm}和工具集合To={T1,T2,...,Tn},具体方法如下:
(1)建立集合Sp和To,初始状态均为空;
(2)遍历五元组,对每一个五元组:
①抽取物种信息,如果集合Sp中不存在该物种信息,则将该物种信息放入集合Sp中;
②抽取工具信息,如果集合To中不存在该工具信息,则将该工具信息放入集合To中。
进一步地,步骤四的具体方法如下:
(1)遍历五元组,抽取日期信息并从小到大排序,定义t0代表最小日期,tk代表最大日期,将t0到tk这一段时间等分为k个时间片(k>1):[t0,t1],(t1,t2],…,(t(k-1),tk],提取每个时间片的最后日期t1、t2、…、tk作为关键时间点;
(2)对每一个关键时间点t,计算基因编辑工作数量Numt,计算方法如下:
定义变量count1,初始值为0;
遍历五元组,对每一个五元组,抽取其日期信息,如果日期在关键时间点t之前或等于该关键时间点t,则count1值加1;
遍历完成后,给Numt赋值:
Numt=count1。
进一步地,步骤五中,对每个关键时间点t,对物种集合Sp中的每个物种S,计算该物种截止到该关键时间点t的NumSt、PopularitySt、ToolWidthSt、PersonWidthSf,方法如下:
对五元组按照时间从前到后进行排序,提取关键时间点t及其之前的五元组;
定义变量count2,初始值为0;
建立集合Ts和Ps,初始状态均为空;
遍历五元组,对每一个五元组,提取其物种信息,如果物种为S,则:
i count2值加1;
ii抽取其工具信息,如果集合Ts中不存在该工具信息,则将该工具信息放入集合Ts中;
iii抽取其人员信息,如果集合Ps中不存在该人员信息,则将该人员信息放入集合Ps中;
遍历完成后,按下列方式计算:
NumSt=count2
ToolWidthSt=len(Ts)
PersonWidthSt=len(Ps)
其中,len()为求长度函数;
最后,将最后一个关键时间点tk的数据记为NumSnow、SpecyPopularitySnow、ToolWidthSnow、PersonWidthSnow。
进一步地,步骤五中,对每个关键时间点t,对工具集合To中的每个工具T,计算该工具截止到该关键时间点t的NumTt、PopularityTt、SpecyWidthTt、PersonWidthTt,方法如下:
对步骤五①中排序后的五元组,提取关键时间点t之前(含该关键时间点)的五元组;
定义变量count3,初始值为0;
建立集合St和Pt,初始状态均为空;
遍历五元组,对每一个五元组,提取其工具信息,如果工具为T,则:
i count3值加1;
ii抽取其物种信息,如果集合St中不存在该物种信息,则将该物种信息放入集合St中;
iii抽取其人员信息,如果集合Pt中不存在该人员信息,则将该人员信息放入集合Pt中;
遍历完成后,按下列方式计算:
NumTt=count3
SpecyWidthTt=len(St)
PersonWidthTt=len(Pt)
其中,len()为求长度函数;
最后,将最后一个关键时间点tk的数据记为NumTnow、PopularityTnow、SpecyWidthTnow、PersonWidthTnow。
进一步地,步骤六中,对物种集合Sp中的每个物种S,建立一元回归线性模型如下:
PopularitySt=w1*t+b1
ToolWidthSt=w2*t+b2
PersonWidthSt=w3*t+b3
根据步骤五的结果数据,确定w1、w2、w3、b1、b2、b3的值。
进一步地,步骤六中,对工具集合To中的每个工具T,建立一元回归线性模型如下:
PopularityTt=p1*t+c1
SpecyWidthTt=p2*t+c2
PersonWidthTt=p3*t+c3
根据步骤五的结果数据,确定p1、p2、p3、c1、c2、c3的值。
与现有技术相比,本发明的有益效果为:
本发明提供的一种基因编辑能力指数计算方法,根据基因编辑技术的特点,将基因编辑能力划分为物种可编辑能力和工具编辑能力,并将基因编辑能力指数划分为物种可编辑指数和工具编辑能力指数,其中,物种可编辑指数包括物种能力、物种工具能力和物种人员能力,工具编辑能力指数包括工具能力、工具物种能力和工具人员能力,并通过计算物种热度、物种工具广度、物种人员广度、工具热度、工具物种广度、工具人员广度,得到当前物种能力、物种工具能力、物种人员能力和工具能力、工具物种能力和工具人员能力,以及建立回归模型预测未来关键时间点的物种能力、物种工具能力、物种人员能力和工具能力、工具物种能力和工具人员能力,进而获得物种可编辑指数和工具编辑能力指数。本发明的方法能深入到文献的内容,实现从技术本身特点出发进行评估,更加客观,提高了基因编辑技术评估结论的准确性,克服了目前同行评议法和文献计量法评估中的不足,为有关部门提供更加全面客观的决策支持,同时为科研人员选择方向提供依据和帮助。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基因编辑能力指数计算方法流程图。
具体实施方式
为了更好地理解本技术方案,下面结合附图对本发明的方法做详细的说明。
本发明根据基因编辑技术的特点,将基因编辑能力划分为物种可编辑能力和工具编辑能力,本发明提出的基因编辑能力指数由物种可编辑指数和工具编辑能力指数构成。
物种可编辑指数CS用于表征物种能被基因编辑的难易程度,物种可编辑指数越高,说明该物种越容易被基因编辑,物种可编辑指数越低,说明该物种越不容易被基因编辑。
工具编辑能力指数CT用于表征工具的基因编辑能力强弱,工具编辑能力指数越高,说明该工具基因编辑能力越强,工具编辑能力指数越低,说明该工具基因编辑能力越弱。
为计算物种可编辑指数CS和工具编辑能力指数CT,本发明定义下列指标:
(1)工作总数:指已完成的基因编辑工作数量,用Num表示。
(2)物种热度:指某物种S在基因编辑工作中的流行程度,用PopularityS表示,计算方式定义为:
其中,NumS代表以物种S为基因编辑对象的工作数量。
(3)工具热度:指某工具T在基因编辑工作中的流行程度,用PopularityT表示,计算方式定义为:
其中,NumT代表以工具T为基因编辑工具的工作数量。
(4)物种广度:指成功被作为基因编辑对象的物种种类数,用SpecyWidth表示。
(5)工具广度:指成功被应用于基因编辑工作的基因编辑工具种类数,用ToolWidth表示。
(6)人员广度:指成功实施过基因编辑工作的人员数量,用PersonWidth表示。
定义物种S的可编辑指数CS=[SpecyAbilityS,ToolAbilityS,PersonAbilityS],其中:
SpecyAbilityS代表物种能力,本发明中定义物种能力为当前物种热度和未来物种热度之和,计算公式为:
SpecyAbilityS=PopularitySnow+PopularitySfuture
ToolAbilityS代表物种工具能力,本发明中定义物种工具能力为当前物种工具广度和未来物种工具广度之和,计算公式为:
ToolAbilityS=ToolWidthSnow+ToolWidthSfuture
PersonAbilityS代表物种人员能力,本发明中定义物种人员能力为当前物种人员广度和未来物种人员广度之和,计算公式为:
PersonAbilityS=PersonWidthSnow+PersonWidthSfuture
定义工具T的编辑能力指数CT=[ToolAbilityT,SpecyAbilityT,PersonAbilityT],其中:
ToolAbilityT代表工具能力,本发明中定义工具能力为当前工具热度和未来工具热度之和,计算公式为:
ToolAbilityT=PopularityTnow+PopularityTfuture
SpecyAbilityT代表工具物种能力,本发明中定义工具物种能力为当前工具物种广度和未来工具物种广度之和,计算公式为:
SpecyAbilityT=SpecyWidthTnow+SpecyWidthTfuture
PersonAbilityT代表工具人员能力,指成功利用该工具实施过基因编辑的人员数量,本发明中定义人员广度为当前工具人员广度和未来工具人员广度之和,计算公式为:
PersonAbilityT=PersonWidthTnow+PersonWidthTfuture PersonWidthT
本发明提供的一种基因编辑能力指数计算方法,如图1所示,各步骤详细计算方法如下:
步骤一、下载基因编辑领域学术论文。
具体地,在pubmed、web of science等数据库中,搜索标题或摘要中含有”geneediting”、”genome editing”、”CRISPR”等的论文,下载论文标题、作者、作者单位、摘要、日期、doi号等信息保存到本地。
步骤二、对每一篇论文,利用信息抽取方法提取相关信息,得到<doi号、物种、工具、日期、通讯作者名>五元组,建立二维表。
具体地,对每一篇论文,基于深度学习、自然语言处理等信息抽取技术提取相关信息,得到<doi号、物种、工具、日期、通讯作者名>五元组,建立二维表如下(表1仅为示例)。
表1包含五元组的二维表
doi号 | 物种 | 工具 | 日期 | 通讯作者名 |
1 | 大肠杆菌 | CRISPR/Cas9 | 2012-01-01 | Tom |
2 | 大肠杆菌 | CRISPR/Cas9 | 2012-09-01 | Bob |
3 | 小鼠 | CRISPR/dCas9 | 2013-03-01 | Lily |
4 | 小鼠 | CRISPR/Cas9 | 2014-07-01 | May |
5 | 大肠杆菌 | CRISPR/Cas9 | 2013-05-01 | Lucy |
6 | 小鼠 | CRISPR/dCas9 | 2015-08-01 | Tom |
7 | 大肠杆菌 | CRISPR/dCas9 | 2015-12-31 | Abel |
步骤三、遍历五元组,分别抽取物种、工具信息,得到物种集合Sp={S1,S2,…,Sm}和工具集合To={T1,T2,…,Tn}。
具体的,得到物种集合Sp={S1,S2,...,Sm}和工具集合To={T1,T2,...,Tn}的方法如下:
(1)建立集合Sp和To,初始状态均为空;
(2)遍历五元组,对每一个五元组:
抽取物种信息,如果集合Sp中不存在该物种信息,则将该物种信息放入集合Sp中;
抽取工具信息,如果集合To中不存在该工具信息,则将该工具信息放入集合To中。
步骤四、遍历五元组,提取最早日期和最后日期,将该时间区间等分为k个时间片,提取每个时间片的最后日期t1、t2、…、tk作为关键时间点,分别计算截止到每个关键时间点t的Numt。
具体方法如下:
(1)遍历五元组,抽取日期信息并从小到大排序,定义t0代表最小日期,tk代表最大日期,将t0到tk这一段时间等分为k个时间片(k>1,例如取k=4):[t0,t1],(t1,t2],…,(t(k-1),tk],提取每个时间片的最后日期t1、t2、…、tk作为关键时间点。
(2)对每一个关键时间点t,计算Numt,计算方法如下:
定义变量count1,初始值为0;
遍历五元组,对每一个五元组,抽取其日期信息,如果日期在关键时间点t之前或等于该关键时间点t,则count1值加1,遍历完成后,赋值:
Numt=count1
步骤五、对每个关键时间点t,对物种集合Sp中的每个物种S,计算该物种截止到该关键时间点t的NumSt、PopularitySt、ToolWidthSt、PersonWidthSt;对每个关键时间点t,对工具集合To中的每个工具T,计算该工具截止到该关键时间点t的NumTt、PopularityTt、SpecyWidthTt、PersonWidthTt。
(1)对每个关键时间点t,对物种集合Sp中的每个物种S,计算该物种截止到该关键时间点t的NumSt、PopularitySt、ToolWidthSt、PersonWidthSt,方法如下:
对五元组按照时间从前到后进行排序,提取关键时间点t之前(含该关键时间点)的五元组,计算方法如下:
定义变量count2,初始值为0;
建立集合Ts和Ps,初始状态均为空;
遍历五元组,对每一个五元组,提取其物种信息,如果物种为S,则:
i count2值加1;
ii抽取其工具信息,如果集合Ts中不存在该工具信息,则将该工具信息放入集合Ts中;
iii抽取其人员信息,如果集合Ps中不存在该人员信息,则将该人员信息放入集合Ps;
遍历完成后,按下列方式计算:
NumSt=count2
ToolWidthSt=len(Ts)
PersonWidthSt=len(Ps)
其中,len()为求长度函数;
最后,将最后一个关键时间点tk的数据记为NumSnow、SpecyPopularitySnow、ToolWidthSnow、PersonWidthSnow。
(2)对每个关键时间点t,对工具集合To中的每个工具T,计算该工具截止到该关键时间点t的NumTt、PopularityTt、SpecyWidthTt、PersonWidthTt,方法如下:
对步骤五(1)中排序后的五元组,提取关键时间点t之前(含该关键时间点)的五元组,计算方法如下:
定义变量count3,初始值为0;
建立集合St和Pt,初始状态均为空;
遍历五元组,对每一个五元组,提取其工具信息,如果工具为T,则:
i count3值加1;
ii抽取其物种信息,如果集合St中不存在该物种信息,则将该物种信息放入集合St中;
iii抽取其人员信息,如果集合Pt中不存在该人员信息,则将该人员信息放入集合Pt中。
遍历完成后,按下列方式计算:
NumTt=count3
SpecyWidthTt=len(St)
PersonWidthTt=len(Pt)
其中,len()为求长度函数;
最后,将最后一个关键时间点tk的数据记为NumTnow、PopularityTnow、SpecyWidthTnow、PersonWidthTnow。
步骤六
(1)根据步骤五的结果,对物种集合Sp中的每个物种S,建立一元线性回归模型预测其在t(k+1)时间点的NumSt(k+1)、PopularitySt(k+1)、ToolWidthSt(k+1)、PersonWidthSt(k+1),记为NumSfuture、PopularitySfuture、ToolWidthSfuture、PersonWidthSfuture。一元线性回归模型如下:
PopularitySt=w1*t+b1
ToolWidthSt=w2*t+b2
PersonWidthSt=w3*t+b3
根据步骤五的结果数据,确定w1、w2、w3、b1、b2、b3的值,计算SpecyWidthfuture、ToolWidthfuture、PersonWidthfuture。
(2)根据步骤五的结果,对工具集合To中的每个工具T,建立一元线性回归模型预测其在t(k+1)时间点的NumTt(k+11、PopularityTt(k+1)、SpecyWidthTt(k+1)、PersonWidthTt(k+1),记为NumTfuture、PopularityTfuture、SpecyWidthTfuture、PersonWidthTfuture。一元线性回归模型如下:
PopularityTt=p1*t+c1
SpecyWidthTt=p2*t+c2
PersonWidthTt=p3*t+c3
根据步骤五的结果数据,确定p1、p2、p3、c1、c2、c3的值,计算PopularityTfuture、SpecyWidthTfuture、PersonWidthTfuture。
步骤七、根据步骤五、六的结果,计算物种集合Sp中的每个物种S的工具能力SpecyAbilityS、物种工具能力ToolAbilityS、物种人员能力PersonAbilityS,以及计算工具集合To中的每个工具T的物种能力ToolAbilityT、工具物种能力SpecyAbilityT、工具人员能力PersonAbilityT。
①根据步骤五、六的结果,计算物种集合Sp中的每个物种S的工具能力SpecyAbilityS、物种工具能力ToolAbilityS、物种人员能力PersonAbilityS方法如下:
SpecyAbilityS=PopularitySnow+PopularitySfuture
ToolAbilityS=ToolWidthSnow+ToolWidthSfuture
PersonAbilityS=PersonWidthSnow+PersonWidthSfuture
得到各物种基因可编辑指数CS;
②根据步骤五、六的结果,计算工具集合To中的每个工具T的物种能力ToolAbilityT、工具物种能力SpecyAbilityT、工具人员能力PersonAbilityT,方法如下:
ToolAbilityT=PopularityTnow+PopularityTfuture
SpecyAbilityT=SpecyWidthTnow+SpecyWidthTfuture
PersonAbilityT=PersonWidthTnow+PersonWidthTfuture
得到各工具编辑能力指数CT。
步骤八,计算物种间、工具间基因编辑能力差异。
具体地,物种S1和物种S2基因可编辑性差异计算方式为:
CS1-CS2=(SpecyAbilityS1-SpecyAbilityS2)+(ToolAbilityS1-ToolAbilityS2)+(PersonAbilityS1-PersonAbilityS2)
工具T1和工具T2基因基因编辑能力差异计算方式为:
CT1-CT2=(ToolAbilityT1-ToolAbilityT2)+(SpecyAbilityT1-SpecyAbilityT2)+(PersonAbilityT1-PersonAbilityT2)
实施例
步骤一、下载基因编辑领域学术论文。
具体地,在pubmed、web of science等数据库中,搜索标题或摘要中含有”geneediting”、”genome editing”、”CRISPR”等的论文,下载论文标题、作者、作者单位、摘要、日期、doi号等信息保存到本地。
步骤二、对每一篇论文,利用信息抽取方法提取相关信息,得到<doi号、物种、工具、日期、通讯作者名>五元组,建立二维表。
具体地,对每一篇论文,基于深度学习、自然语言处理等信息抽取技术提取相关信息,得到<doi号、物种、工具、日期、通讯作者名>五元组,建立二维表如下(表1仅为示例)。
表1包含五元组的二维表
doi号 | 物种 | 工具 | 日期 | 通讯作者名 |
1 | 大肠杆菌 | CRISPR/Cas9 | 2012-01-01 | Tom |
2 | 大肠杆菌 | CRISPR/Cas9 | 2012-09-01 | Bob |
3 | 小鼠 | CRISPR/dCas9 | 2013-03-01 | Lily |
4 | 小鼠 | CRISPR/Cas9 | 2014-07-01 | May |
5 | 大肠杆菌 | CRISPR/Cas9 | 2013-05-01 | Lucy |
6 | 小鼠 | CRISPR/dCas9 | 2015-08-01 | Tom |
7 | 大肠杆菌 | CRISPR/dCas9 | 2015-12-31 | Abel |
步骤三、遍历五元组,分别抽取物种、工具信息,得到物种集合Sp={大肠杆菌,小鼠},工具集合To={CRISPR/Cas9,CRISPR/dCas9}。
步骤四,遍历五元组,
(1)抽取日期信息并从小到大排序,定义t0代表最小日期2012-01-01,tk代表最大日期2015-12-31,将t0到tk时间段等分为4份:[2012-01-01,2012-12-31],(2012-12-31,2013-12-31],(2013-12-31,2014-12-31],(2014-12-31,2015-12-31],得到四个关键时间点:
t1=2012-12-31
t2=2013-12-31
t3=2014-12-31
t4=2015-12-31
(2)对每一个关键时间点,计算得到其Numt如下:
t1:Numt1=2
t2:Numt2=4
t3:Numt3=5
t4:Numt4=7
步骤五,①对物种集合Sp中的每个物种S,对每个关键时间点t,计算该物种截止到该关键时间点t的NumSt、PopularitySt、ToolWidthSt、PersonWidthSt:
大肠杆菌(用D表示):
NumDt1=2
ToolWidthDt1=1
PersonWidthDt1=2
NumDt2=3
ToolWidthDt2=1
PersonWidthDt2=3
NumDt3=3
ToolWidthDt3=1
PersonWidthDt3=3
NumDt4=NumDnow=4
ToolWidthDt4=ToolWidthDnow=2
PersonWidthDt4=PersonWidthDnow=4
小鼠(用X表示):
NumXt1=0
ToolWidthXt1=0
PersonWidthXt1=0
NumXt2=1
ToolWidthXt2=1
PersonWidthXt2=1
NumXt3=2
ToolWidthXt3=2
PersonWidthXt3=2
NumXt4=NumXnow=3
ToolWidthXt4=ToolWidthXnow=2
PersonWidthXt4=PersonWidthXnow=3
②对每个关键时间点t,对工具集合To中的每个工具T,计算该工具截止到该关键时间点t的NumTt、PopularityTt、SpecyWidthTt、PersonWidthTt,方法如下:
CRISPR/Cas9(用Cas表示):
NumCast1=2
SpecyWidthCast1=1
PersonWidthCast1=2
NumCast2=3
SpecyWidthCast2=1
PersonWidthCast2=3
NumCast3=4
SpecyWidthCast3=2
PersonWidthCast3=4
NumCast4=NumCasnow=4
SpecyWidthCast4=SpecyWidthCasnow=2
PersonWidthCast4=PersonWidthCasnow=4
CRISPR/dCas9(用dCas表示):
NumdCast1=0
SpecyWidthdCast1=0
PersonWidthdCast1=0
NumdCast2=1
SpecyWidthdCast2=1
PersonWidthdCast2=1
NumdCast3=1
SpecyWidthdCast3=1
PersonWidthdCast3=1
NumdCast4=NumdCasnow=3
SpecyWidthdCast4=SpecyWidthdCasnow=2
PersonWidthdCast4=PersonWidthdCasnow=3
步骤六,①根据步骤四、五的结果,对物种集合Sp中的每个物种S,建立一元线性回归模型预测其在t(k+1)时间点的PopularitySt(k+1)、ToolWidthSt(k+1)、PersonWidthSt(k+1),记为PopularitySfuture、ToolWidthSfuture、PersonWidthSfuture。一元线性回归模型如下:
PopularitySt=w1*t+b1
ToolWidthSt=w2*t+b2
PersonWidthSt=w3*t+b3
根据步骤五的结果数据,确定w1、w2、w3、b1、b2、b3的值,计算SpecyWidthfuture、ToolWidthfuture、PersonWidthfuture
对大肠杆菌(用D表示)建模如下:
PopularityDt=w1*t+b1
ToolWidthDt=w2*t+b2
PersonWidthDt=w3*t+b3
根据步骤五中结果,可得到各参数值如下:
w1=-0.144
b1=290.674
w2=0.3
b2=-602.8
w3=0.6
b3=-1205.1
PopularityDfuture=0.37
ToolWidthDfuture=2
PersonWidthDfuture=4.5
对小鼠(用X表示)建模如下:
PopularityXt=w4*t+b4
ToolWidthXt=w5*t+b5
PersonWidthXt=w6*t+b6
根据步骤五中结果,可得到各参数值如下:
w4=0.144
b4=-289.674
w5=0.7
b5=-1408.2
w6=1
b6=-2012
PopularityXfuture=0.63
ToolWidthXfuture=3
PersonWidthXfuture=4
②根据步骤五的结果,对工具集合To中的每个工具T,,建立一元线性回归模型预测其在t(k+1)时间点的PopularityTt(k+1)、SpecyWidthTt(k+1)、PersonWidthTt(k+1),记为、PopularityTfuture、SpecyWidthTfuture、PersonWidthTfuture。一元线性回归模型如下:
PopularityTt=w4*t+b4
SpecyWidthTt=w5*t+b5
PersonWidthTt=w6*t+b6
根据步骤五的结果数据,确定w4、w5、w6、b4、b5、b6的值,计算PopularityTfuture、SpecyWidthTfuture、PersonWidthTfuture
对CRISPR/Cas9(用Cas表示)建模如下:PopularityCast=p1*t+c1
SpecyWidthCast=p2*t+c2
PersonWidthCast=p3*t+c3
根据步骤五中结果,可得到各参数值如下:
p1=-0.124
c1=250.454
p2=0.4
c2=-803.9
p3=0.7
c3=-1406.2
PopularityCasfuture=0.47
SpecyWidthCasfuture=2.5
PersonWidthCasfuture=5
对CRISPR/dCas9(用dCas表示)建模如下:
PopularitydCast=p4*t+c4
SpecyWidthdCast=p5*t+c5
PersonWidthdCast=p6*t+c6
根据步骤五中结果,可得到各参数值如下:
p4=0.124
c4=-249.454
p5=0.6
c5=-1207.1
p6=0.9
c6=-1810.9
PopularitydCasfuture=0.53
SpecyWidthdCasfuture=2.5
PersonWidthdCasfuture=3.5
步骤七,①根据步骤五、六的结果,计算物种集合Sp中的每个物种S的工具能力SpecyAbilityS、物种工具能力ToolAbilityS、物种人员能力PersonAbilityS,得到各物种基因可编辑指数CS
大肠杆菌(用D表示)基因可编辑指数CD如下:
SpecyAbilityD=PopularityDnow+PopularityDfuture=0.57+0.37=0.94
ToolAbilityD=ToolWidthDnow+ToolWidthDfuture=2+2=4
PersonAbilityD=PersonWidthDnow+PersonWidthDfuture=4+4.5=8.5
小鼠(用X表示)基因可编辑指数CX如下:
SpecyAbilityX=PopularityXnow+PopularityXfuture=0.43+0.63=1.06
ToolAbilityX=ToolWidthXnow+ToolWidthXfuture=2+3=5
PersonAbilityX=PersonWidthXnow+PersonWidthXfuture=3+4=7
②根据步骤五、六的结果,计算工具集合To中的每个工具T的物种能力ToolAbilityT、工具物种能力SpecyAbilityT、工具人员能力PersonAbilityT,得到各工具编辑能力指数CT
CRISPR/Cas9(用Cas表示)编辑能力指数CCas如下:
ToolAbilityCas=PopularityCasnow+PopularityCasfuture=0.57+0.47=1.04
SpecyAbilityCas=SpecyWidthCasnow+SpecyWidthCasfuture=2+2.5=4.5
PersonAbilityCas=PersonWidthCasnow+PersonWidthCasfuture=4+5=9
CRISPR/dCas9(用dCas表示)编辑能力指数CdCas如下:
ToolAbilitydCas=PopularitydCasnow+PopularitydCasfuture=0.43+0.53=0.96
SpecyAbilitydCas=SpecyWidthdCasnow+SpecyWidthdCasfuture=2+2.5=4.5
PersonAbilitydCas=PersonWidthdCasnow+PersonWidthdCasfuture=3+3.5=6.5
步骤八,计算物种间、工具间基因编辑能力差异如下:
①大肠杆菌和小鼠基因可编辑性差异为:
CD-CX=(SpecyAbilityD-SpecyAbilityX)+(ToolAbilityD-ToolAbilityX)+(PersonAbilityD-PersonAbilityX)
=(0.94-1.06)+(4-5)+(8.5-7)
=0.38
②CRISPR/Cas9和CRISPR/dCas9的基因基因编辑能力差异为:
CCas-CdCas=(ToolAbilityCas9-ToolAbilitydCas9)+(SpecyAbilityCas9-SpecyAbilitydCas9)+(PersonAbilityCas9-PersonAbilitydCas9)
=(1.04-0.96)+(4.5-4.5)+(9-6.5)
=2.58
本发明提供的一种基因编辑能力指数计算方法,根据基因编辑技术的特点,将基因编辑能力划分为物种可编辑能力和工具编辑能力,并将基因编辑能力指数由物种可编辑指数和工具编辑能力指数构成,其中,物种可编辑指数包括物种能力、物种工具能力和物种人员能力,工具编辑能力指数包括工具能力、工具物种能力和工具人员能力,并通过建立回归模型预测未来关键时间点的物种能力、物种工具能力、物种人员能力和工具能力、工具物种能力和工具人员能力,进而获得物种可编辑指数和工具编辑能力指数,能深入到文献的内容,实现从技术本身特点出发进行评估,更加客观,提高了基因编辑技术评估结论的准确性,克服了目前同行评议法和文献计量法评估中的不足,为有关部门提供更加全面客观的决策支持,同时为科研人员选择方向提供依据和帮助。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,但这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种基因编辑能力指数计算方法,其特征在于,包括以下步骤:
步骤一,下载基因编辑领域学术论文;
步骤二,对每一篇论文,利用信息抽取方法提取相关信息,得到<doi号、物种、工具、日期、通讯作者名>五元组,建立二维表;
步骤三,遍历五元组,分别抽取物种和工具信息,得到物种集合Sp={S1,S2,…,Sm}和工具集合To={T1,T2,…,Tn};
步骤四,遍历五元组,提取最早日期和最后日期,将该时间区间等分为k个时间片,提取每个时间片的最后日期t1、t2、…、tk作为关键时间点,分别计算截止到每个关键时间点t的基因编辑工作数量Numt;
步骤五,①对每个关键时间点t,对物种集合Sp中的每个物种S,计算截止到该关键时间点t的以该物种为基因编辑对象的工作数量NumSt、该物种的物种热度PopularitySt、物种工具广度ToolWidthSt、物种人员广度PersonWidthSt,其中,
将最后一个关键时间点tk的该物种的工作数量、物种热度、物种工具广度、物种人员广度数据记为NumSnow、PopularitySnow、ToolWidthSnow、PersonWidthSnow;
②对每个关键时间点t,对工具集合To中的每个工具T,计算截止到该关键时间点t的使用该基因编辑工具的工作数量NumTt、该基因编辑工具的工具热度PopularityTt、工具物种广度SpecyWidthTt、工具人员广度PersonWidthTt,其中,
将最后一个关键时间点tk的该工具的工作数量、工具热度、工具物种广度、工具人员广度数据记为NumTnow、PopularityTnow、SpecyWidthTnow、PersonWidthTnow;
步骤六,①根据步骤五的结果,对物种集合Sp中的每个物种S,建立回归模型预测其在t(k+1)时间点的工作数量NumSt(k+1)、物种热度PopularitySt(k+1)、物种工具广度ToolWidthSt(k+1)、物种人员广度PersonWidthSt(k+1),记为NumSfuture、PopularitySfuture、ToolWidthSfuture、PersonWidthSfuture;
②根据步骤五的结果,对工具集合To中的每个工具T,建立回归模型预测其在t(k+1)时间点的工作数量NumTt(k+1)、工具热度PopularityTt(k+1)、工具物种广度SpecyWidthTt(k+1)、工具人员广度PersonWidthTt(k+1),记为NumTfuture、PopularityTfuture、SpecyWidthTfuture、PersonWidthTfuture;
步骤七,计算各物种基因可编辑指数CS和各工具编辑能力指数CT:
①根据步骤五、六的结果,计算物种集合Sp中的每个物种S的工具能力SpecyAbilityS、物种工具能力ToolAbilityS、物种人员能力PersonAbilityS,方法如下:
SpecyAbilityS=PopularitySnow+PopularitySfuture
ToolAbilityS=ToolWidthSnow+ToolWidthSfuture
PersonAbilityS=PersonWidthSnow+PersonWidthSfuture
得到各物种基因可编辑指数CS;
②根据步骤五、六的结果,计算工具集合To中的每个工具T的物种能力ToolAbilityT、工具物种能力SpecyAbilityT、工具人员能力PersonAbilityT,方法如下:
ToolAbilityT=PopularityTnow+PopularityTfuture
SpecyAbilityT=SpecyWidthTnow+SpecyWidthTfuture
PersonAbilityT=PersonWidthTnow+PersonWidthTfuture
得到各工具编辑能力指数CT;
步骤八,计算物种S1和物种S2基因可编辑性差异和工具T1和工具T2基因编辑能力差异;其中:
①物种S1和物种S2基因可编辑性差异计算方式为:
CS1-CS2=(SpecyAbilityS1-SpecyAbilityS2)+(ToolAbilityS1-ToolAbilityS2)+(PersonAbilityS1-PersonAbilityS2)
②工具T1和工具T2基因编辑能力差异计算方式为:
CT1-CT2=(ToolAbilityT1-ToolAbilityT2)+(SpecyAbilityT1-SpecyAbilityT2)+(PersonAbilityT1-PersonAbilityT2)。
2.根据权利要求1所述的基因编辑能力指数计算方法,其特征在于,步骤三得到物种集合Sp={S1,S2,…,Sm}和工具集合To={T1,T2,…,Tn},具体方法如下:
(1)建立集合Sp和To,初始状态均为空;
(2)遍历五元组,对每一个五元组:
①抽取物种信息,如果集合Sp中不存在该物种信息,则将该物种信息放入集合Sp中;
②抽取工具信息,如果集合To中不存在该工具信息,则将该工具信息放入集合To中。
3.根据权利要求1所述的基因编辑能力指数计算方法,其特征在于,步骤四的具体方法如下:
(1)遍历五元组,抽取日期信息并从小到大排序,定义t0代表最小日期,tk代表最大日期,将t0到tk这一段时间等分为k个时间片,k>1:[t0,t1],(t1,t2],…,(t(k-1),tk],提取每个时间片的最后日期t1、t2、…、tk作为关键时间点;
(2)对每一个关键时间点t,计算基因编辑工作数量Numt,计算方法如下:
定义变量count1,初始值为0;
遍历五元组,对每一个五元组,抽取其日期信息,如果日期在关键时间点t之前或等于该关键时间点t,则count1值加1;
遍历完成后,给Numt赋值:
Numt=count1。
4.根据权利要求1所述的基因编辑能力指数计算方法,其特征在于,步骤五中,对每个关键时间点t,对物种集合Sp中的每个物种S,计算该物种截止到该关键时间点t的NumSt、PopularitySt、ToolWidthSt、PersonWidthSt,方法如下:
对五元组按照时间从前到后进行排序,提取关键时间点t及其之前的五元组;
定义变量count2,初始值为0;
建立集合Ts和Ps,初始状态均为空;
遍历五元组,对每一个五元组,提取其物种信息,如果物种为S,则:
i count2值加1;
ii抽取其工具信息,如果集合Ts中不存在该工具信息,则将该工具信息放入集合Ts中;
iii抽取其人员信息,如果集合Ps中不存在该人员信息,则将该人员信息放入集合Ps中;
遍历完成后,按下列方式计算:
NumSt=count2
ToolWidthSt=len(Ts)
PersonWidthSt=len(Ps)
其中,len()为求长度函数;
最后,将最后一个关键时间点tk的数据记为NumSnow、SpecyPopularitySnow、ToolWidthSnow、PersonWidthSnow。
5.根据权利要求1所述的基因编辑能力指数计算方法,其特征在于,步骤五中,对每个关键时间点t,对工具集合To中的每个工具T,计算该工具截止到该关键时间点t的NumTt、PopularityTt、SpecyWidthTt、PersonWidthTt,方法如下:
对步骤五①中排序后的五元组,提取关键时间点t之前含该关键时间点的五元组;
定义变量count3,初始值为0;
建立集合St和Pt,初始状态均为空;
遍历五元组,对每一个五元组,提取其工具信息,如果工具为T,则:
i count3值加1;
ii抽取其物种信息,如果集合St中不存在该物种信息,则将该物种信息放入集合St中;
iii抽取其人员信息,如果集合Pt中不存在该人员信息,则将该人员信息放入集合Pt中;
遍历完成后,按下列方式计算:
NumTt=count3
SpecyWidthTt=len(St)
PersonWidthTt=len(Pt)
其中,len()为求长度函数;
最后,将最后一个关键时间点tk的数据记为NumTnow、PopularityTnow、SpecyWidthTnow、PersonWidthTnow。
6.根据权利要求1所述的基因编辑能力指数计算方法,其特征在于,步骤六中,对物种集合Sp中的每个物种S,建立一元线性回归模型如下:
PopularitySt=w1*t+b1
ToolWidthSt=w2*t+b2
PersonWidthSt=w3*t+b3
根据步骤五的结果数据,确定w1、w2、w3、b1、b2、b3的值。
7.根据权利要求1所述的基因编辑能力指数计算方法,其特征在于,步骤六中,对工具集合To中的每个工具T,建立一元线性回归模型如下:
PopularityTt=p1*t+c1
SpecyWidthTt=p2*t+c2
PersonWidthTt=p3*t+c3
根据步骤五的结果数据,确定p1、p2、p3、c1、c2、c3的值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311313336.9A CN117252306B (zh) | 2023-10-11 | 2023-10-11 | 一种基因编辑能力指数计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311313336.9A CN117252306B (zh) | 2023-10-11 | 2023-10-11 | 一种基因编辑能力指数计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117252306A CN117252306A (zh) | 2023-12-19 |
CN117252306B true CN117252306B (zh) | 2024-02-27 |
Family
ID=89129203
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311313336.9A Active CN117252306B (zh) | 2023-10-11 | 2023-10-11 | 一种基因编辑能力指数计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117252306B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104317582A (zh) * | 2014-10-17 | 2015-01-28 | 浪潮电子信息产业股份有限公司 | 一种基于机器学习特征的符号回归gp算法 |
CN105488422A (zh) * | 2015-11-19 | 2016-04-13 | 上海交通大学 | 基于同态加密隐私数据保护的编辑距离计算系统 |
CN106446600A (zh) * | 2016-05-20 | 2017-02-22 | 同济大学 | 一种基于CRISPR/Cas9的sgRNA的设计方法 |
CN107391921A (zh) * | 2017-07-13 | 2017-11-24 | 武汉科技大学 | 一种科学文献中参考文献影响力评估方法 |
CN108763354A (zh) * | 2018-05-16 | 2018-11-06 | 浙江工业大学 | 一种个性化的学术文献推荐方法 |
CN110476214A (zh) * | 2017-03-30 | 2019-11-19 | 孟山都技术有限公司 | 用于鉴定多个基因组编辑和预测鉴定的基因组编辑的集总效应的系统和方法 |
CN113921082A (zh) * | 2021-10-27 | 2022-01-11 | 云舟生物科技(广州)有限公司 | 基因搜索权重调整方法、计算机存储介质及电子设备 |
CN113988053A (zh) * | 2021-10-22 | 2022-01-28 | 中国烟草总公司郑州烟草研究院 | 一种热词提取方法及装置 |
CN114360648A (zh) * | 2021-12-28 | 2022-04-15 | 武汉大学 | 一种基于集成多组学分析预测qtl内候选基因的方法和系统 |
CN115954048A (zh) * | 2023-01-03 | 2023-04-11 | 之江实验室 | 一种针对CRISPR-Cas系统的筛选方法及装置 |
CN116110498A (zh) * | 2022-12-29 | 2023-05-12 | 中国人民解放军军事科学院军事医学研究院 | 基于人工智能的引导编辑最优设计方法和系统 |
CN116814375A (zh) * | 2023-06-19 | 2023-09-29 | 中国人民解放军南部战区总医院 | 一种基于基因编辑的肺癌免疫治疗系统 |
-
2023
- 2023-10-11 CN CN202311313336.9A patent/CN117252306B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104317582A (zh) * | 2014-10-17 | 2015-01-28 | 浪潮电子信息产业股份有限公司 | 一种基于机器学习特征的符号回归gp算法 |
CN105488422A (zh) * | 2015-11-19 | 2016-04-13 | 上海交通大学 | 基于同态加密隐私数据保护的编辑距离计算系统 |
CN106446600A (zh) * | 2016-05-20 | 2017-02-22 | 同济大学 | 一种基于CRISPR/Cas9的sgRNA的设计方法 |
CN110476214A (zh) * | 2017-03-30 | 2019-11-19 | 孟山都技术有限公司 | 用于鉴定多个基因组编辑和预测鉴定的基因组编辑的集总效应的系统和方法 |
CN107391921A (zh) * | 2017-07-13 | 2017-11-24 | 武汉科技大学 | 一种科学文献中参考文献影响力评估方法 |
CN108763354A (zh) * | 2018-05-16 | 2018-11-06 | 浙江工业大学 | 一种个性化的学术文献推荐方法 |
CN113988053A (zh) * | 2021-10-22 | 2022-01-28 | 中国烟草总公司郑州烟草研究院 | 一种热词提取方法及装置 |
CN113921082A (zh) * | 2021-10-27 | 2022-01-11 | 云舟生物科技(广州)有限公司 | 基因搜索权重调整方法、计算机存储介质及电子设备 |
CN114360648A (zh) * | 2021-12-28 | 2022-04-15 | 武汉大学 | 一种基于集成多组学分析预测qtl内候选基因的方法和系统 |
CN116110498A (zh) * | 2022-12-29 | 2023-05-12 | 中国人民解放军军事科学院军事医学研究院 | 基于人工智能的引导编辑最优设计方法和系统 |
CN115954048A (zh) * | 2023-01-03 | 2023-04-11 | 之江实验室 | 一种针对CRISPR-Cas系统的筛选方法及装置 |
CN116814375A (zh) * | 2023-06-19 | 2023-09-29 | 中国人民解放军南部战区总医院 | 一种基于基因编辑的肺癌免疫治疗系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117252306A (zh) | 2023-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Konstantakos et al. | CRISPR–Cas9 gRNA efficiency prediction: an overview of predictive tools and the role of deep learning | |
Stryke et al. | BayGenomics: a resource of insertional mutations in mouse embryonic stem cells | |
Nielsen et al. | Statistical approaches for DNA barcoding | |
Jones et al. | jMOTU and taxonerator: turning DNA barcode sequences into annotated operational taxonomic units | |
Kubatko et al. | STEM: species tree estimation using maximum likelihood for gene trees under coalescence | |
Dash et al. | PeanutBase and other bioinformatic resources for peanut | |
US6675166B2 (en) | Integrated multidimensional database | |
CN108717470A (zh) | 一种具有高准确度的代码片段推荐方法 | |
Ali et al. | Barriers to the adoption of Islamic banking: a bibliometric analysis | |
JPH08503091A (ja) | オリゴプローブ設計ステーション:コンピューターによる最適dnaプローブの設計方法 | |
Eppig et al. | Mouse Genome Informatics (MGI): reflecting on 25 years | |
CN109165040B (zh) | 一种基于随机森林模型的代码抄袭嫌疑检测的方法 | |
Jun et al. | Patent Management for Technology Forecasting: A Case Study of the Bio-Industry. | |
Waugh et al. | The Phytophthora genome initiative database: informatics and analysis for distributed pathogenomic research | |
Söderbergh et al. | Algorithms for simulating thinning and harvesting in five European individual-tree growth simulators: a review | |
Steenwyk et al. | Treehouse: a user-friendly application to obtain subtrees from large phylogenies | |
Lu et al. | High-quality genome assembly and annotation of the big-eye mandarin fish (Siniperca knerii) | |
CN117252306B (zh) | 一种基因编辑能力指数计算方法 | |
CN117009605B (zh) | 一种策略化创新设计问题求解方法及系统 | |
JP5469882B2 (ja) | 生物種同定方法及びシステム | |
Cao et al. | OPIA: an open archive of plant images and related phenotypic traits | |
CN110223732A (zh) | 多类生物序列注释的整合方法 | |
Jones et al. | iPhy: an integrated phylogenetic workbench for supermatrix analyses | |
Howell et al. | Geometric morphometrics reveal shape differences in the toes of urban lizards | |
Strivens et al. | Visualizing the laboratory mouse: capturing phenotype information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |