CN116882495A - 一种基于动态知识图谱的前沿基因技术安全画像方法 - Google Patents
一种基于动态知识图谱的前沿基因技术安全画像方法 Download PDFInfo
- Publication number
- CN116882495A CN116882495A CN202310171185.1A CN202310171185A CN116882495A CN 116882495 A CN116882495 A CN 116882495A CN 202310171185 A CN202310171185 A CN 202310171185A CN 116882495 A CN116882495 A CN 116882495A
- Authority
- CN
- China
- Prior art keywords
- technology
- knowledge graph
- technical
- species
- application
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005516 engineering process Methods 0.000 title claims abstract description 115
- 238000000034 method Methods 0.000 title claims abstract description 52
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 50
- 238000004364 calculation method Methods 0.000 claims abstract description 19
- 230000007547 defect Effects 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 5
- 238000013075 data extraction Methods 0.000 claims abstract description 4
- 238000000605 extraction Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims abstract description 4
- 238000012800 visualization Methods 0.000 claims abstract description 4
- 241000894007 species Species 0.000 claims description 56
- 230000003013 cytotoxicity Effects 0.000 claims description 16
- 231100000135 cytotoxicity Toxicity 0.000 claims description 16
- 238000011160 research Methods 0.000 claims description 12
- 238000003384 imaging method Methods 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 6
- 241001465754 Metazoa Species 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 239000012620 biological material Substances 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 abstract description 14
- 230000015572 biosynthetic process Effects 0.000 description 3
- 241000689227 Cora <basidiomycete fungus> Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010362 genome editing Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于动态知识图谱的前沿基因技术安全画像方法,包括以下步骤:S1、构建知识图谱的本体;S2、采集知识图谱所需要的数据;S3、根据已经构建的本体以及采集的数据抽取实体和关系,对数据进行分类得到多维数据,针对多维数据构建面向技术画像的知识图谱,知识图谱中的数据采用词向量表示;S4、导入neo4j图数据库,生成知识图谱;S5、根据实体抽取以及画像相关计算模型生成画像标签,并进行可视化处理;画像标签的生成通过技术独立自主属性、技术自身缺陷属性和技术恶意应用可能性属性三个维度进行安全指数计算。该方法为前沿基因技术安全提供一个使用计算机直接进行计算的科学性评估方法,提高工作效率,避免了依赖于专家评价的弊端。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于动态知识图谱的前沿基因技术安全画像方法。
背景技术
前沿基因技术是指对基因进行操作的一系列技术的总称,包括基因编辑、合成生物学、基因合成与测序等。
近年来,前沿基因技术在基因编辑、基因工程等领域探索的步伐加快,在造福于人类的同时,也增加了现实安全威胁。
关于前沿基因相关技术,目前虽然已经被应用到农业,畜牧业,渔业等许多领域的许多物种,但是其自身有存在许多缺陷,不仅可能存在远离目标区域的突变或“脱靶”效应,还可能对靶位点或其附近的基因组造成不必要的巨大影响。如在目标序列周围区域出现大规模的、非预期的DNA缺失和重排并且产生细胞毒性,而这些变化可能被传统的安全筛查所忽视。
由于关键技术信息公开化降低了技术门槛以及关键实验材料获取愈发便捷,这些原因导致了技术恶意应用的可能性增大。同时技术所涉及到的领域及物种越多,技术被恶意应用的可能性越大。因此社会迫切要求科研工作中全面评估其安全风险,负责任地开展相关领域的研究和创新,并且为维护国家安全做出贡献。基于此,厘清其他国家前沿基因技术的科研实力,前沿基因技术的技术自身缺陷属性以及技术恶意应用可能性属性变得很重要。
然而,前沿基因技术的研发和应用具备属性多、关系复杂的特点,具有一定程度上的不可预见性;前沿基因技术涉及多方主体利益诉求的差异,将不可避免地导致各类基因技术科技安全潜在威胁的形成。
在面对前沿基因技术科技安全的问题时,传统方法依赖于专家评价,有如下缺点:1、限于专家领域限制,难以全面评估;2、风险严重程度依赖于主观估计,主观性强。目前还没有一个确定的评估方法可以参考,更没有使用计算机,从而导致工作效率底下。
本申请鉴于知识图谱可以包含丰富的语义信息,概念,属性,实体之间关系并且有着统一的结构化的表现形式,机器可读,考虑一种基于动态知识图谱的前沿基因技术安全画像方法。同时由于前沿基因技术的数据具有前瞻性,数据需要实时更新,所以进一步考虑一种动态的知识图谱。
发明内容
本发明针对上述技术问题,提供一种基于动态知识图谱的前沿基因技术安全画像方法。
为了实现上述目的,本发明提供如下技术方案:
一种基于动态知识图谱的前沿基因技术安全画像方法,包括以下步骤:
S1、构建知识图谱的本体;
S2、采集知识图谱所需的数据;
S3、根据已经构建的本体以及采集的数据抽取实体和关系,对数据进行分类得到多维数据,针对多维数据构建面向技术画像的知识图谱,知识图谱中的数据采用词向量表示;
S4、导入neo4j图数据库,生成知识图谱;
S5、根据实体抽取以及画像相关计算模型生成画像标签,并进行可视化处理;画像标签的生成通过技术独立自主属性、技术自身缺陷属性和技术恶意应用可能性属性三个维度进行安全指数计算。
进一步地,步骤S1的知识图谱从技术、论文、专利、领域四个维度构建。
进一步地,步骤S3中,知识图谱的建立过程为:
S11、确定领域本体为技术、论文、专利、领域四个知识集合;
S12、定义类以及类之间的层级关系:将步骤S11的四个知识集合定义为技术类、技术论文类、应用论文类、技术专利类、应用专利类、领域类,同时将其作为顶级类的子类;
S13、定义类之间的关联关系,包括使用关系、隶属关系和发明关系;
S14、抽取本体之间的关联关系:将两个实体及其关系表示成<实体1,关系,实体2>三元组形式。
进一步地,步骤S12中,技术类的属性包括名称、功能、细胞毒性、非目标位点编辑;技术型论文类的属性包括通讯作者及其单位、作者、日期、刊名和发明技术;应用型论文的属性包括通讯作者及其单位、作者、日期、刊名、使用技术、工作物种、靶基因、作用、细胞毒性、非目标位点编辑;技术型专利的属性包括发明人、申请人、公告日、是否转化、发明技术;应用型专利的属性包括发明人、申请人、公告日、是否转化、专利类型、使用技术、工作物种、靶基因、作用、细胞毒性、非目标位点编辑;领域类的属性包括农业、畜牧业、渔业、医疗、环境、生物能源、生物材料和生物制造。
进一步地,步骤S13中,使用关系包括论文-技术、专利-技术;发明关系包括论文-技术、专利-技术;隶属关系包括论文-领域、专利-领域。
进一步地,步骤S4中,利用Neo4j图数据库将数据以有向图的方式存储,生成知识图谱,并使用Cypher语言作为查询语言。
进一步地,步骤S4中,知识图谱随着数据的更新而不断的更新。
进一步地,步骤S5中,通过计算国家综合实力Nn来衡量技术独立自主的程度,公式如下:
Nn=PnW1+TnW2+CnW3
其中,Pn为所在国论文得分,即论文发表数量,Tn为所在国专利得分,即科研人员所获授权发明专利的数量,Cn研究通讯作者得分,即国家独立研究员的数量,W1、W2、W3分别为Pn、Tn、Cn的权重,W1+W2+W3=1。
进一步地,步骤S5技术自身缺陷属性按照领域计算技术自身的风险性,过程如下:
每个领域风险F由物种风险X加权所得,物种风险X=(报告编辑非目标位点研究数量a+报告细胞毒性研究数b)/该物种总研究数;
若在某领域中有Xn个物种,则单个的物种风险为Xn=(an+bn)/Nn,Nn为该物种总研究数,则该领域的风险为:
Fn=W1X1+W2X2+…+WnXn
其中W1、W2、…、Wn分别为X1、X2、…、Xn的权重,W1+W2+…+Wn=1;
若存在现有技术A,则该技术的自身缺陷风险性为:
Ha=f1F1+f2F2+…+fnFn
其中f1、f 2、…、f n分别为F1、F2、…、Fn的权重,f1+f2+…+fn=1。
进一步地,步骤S5中技术恶意应用可能性属性计算过程如下:
技术A在某物种恶意应用风险的计算方法为:
Eg=G
其中G为技术应用的领域包含的物种数;
技术A在某一领域恶意应用风险Ea为该技术在本领域各物种恶意应用风险之和:
Ea=W1Eg1+W2Eg2+…+WnEgn
其中W1、W2、…、Wn分别为Eg1、Eg2、…、Egn的权重,W1+W2+…+Wn=1;
技术A的恶意应用风险EA是各领域恶意应用指数之和:
其中Fn为领域数,fn分别为F1、F2、…、Fn的权重,f1+f2+…+fn=1。
与现有技术相比,本发明的有益效果为:
本发明提出一种基于动态知识图谱的前沿基因技术安全画像方法,以总体国家安全观为指导,建立前沿基因技术在各领域的风险评价指标。首先基于各类文本语料,建立知识图谱,然后基于知识图谱和风险评价指标构建相关算法,对风险进行画像评估。该方法为前沿基因技术安全提供一个可使用计算机直接进行计算的科学性的评估方法,这不仅可提高相关工作人员的工作效率,也可避免传统方法依赖于专家评价的弊端。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的Cora数据集上不同增广的一致性和多样性;
图2为本发明实施例提供的Cora和Citeseer上的训练和验证损失曲线,训练和验证损失之间的差距越小表明泛化效果越好。
图3为本发明实施例提供的画像的标签体系。
具体实施方式
本发明的方法,首先从技术、论文、专利和领域四个纬度构建知识图谱,例如分别在SpringerLink等数据库以及ResearchGate、知乎、国内外各大新闻网站等互联网平台抽取数据,在构建好知识图谱后利用Neo4j图数据库进行知识图谱的存储,为计算方法提供数据。数据源于Neo4j中计算节点的度数,使用这些数据我们通过三个维度——技术独立自主属性、技术自身缺陷属性和技术恶意应用可能性属性进行安全指数计算。通过量化计算,可以形象直观的展现出基因技术科技安全,更加清楚前沿基因技术科技安全的关键特征或属性;在面对前沿基因技术科技安全的问题时,该方法提供一个可使用计算机直接进行计算的科学性的评估方法,这不仅可提高相关工作人员的工作效率,也可避免传统方法依赖于专家评价的弊端。
为了使本领域的技术人员更好地理解本发明的技术方案,下面将结合附图和实施例对本发明作进一步的详细介绍。
本发明实施例提供的一种基于动态知识图谱的前沿基因技术安全画像方法,如图1所示,包括以下步骤:
S1、构建知识图谱的本体;
S2、采集知识图谱所需的数据;
S3、根据已经构建的本体以及采集的数据抽取实体和关系,对数据进行分类得到多维数据,针对多维数据构建面向技术画像的知识图谱,知识图谱中的数据采用词向量表示;
S4、导入neo4j图数据库,生成知识图谱;
S5、根据实体抽取以及画像相关计算模型生成画像标签,并进行可视化处理;画像标签的生成通过技术独立自主属性、技术自身缺陷属性和技术恶意应用可能性属性三个维度进行安全指数计算。
在该实施例中,通过对技术画像所采集到的数据进行知识图谱的构建,从而能够对用户数据中的实体、实体关系和属性等进行挖掘和分析,并利用可视化技术形象展示,与前沿基因技术科技安全的画像也能进行有机的结合。
其中,关于知识图谱模式层设计:
前沿基因技术有很多类型,分布的领域很广,论文和专利中的信息是真实,可靠,前沿的,所以从中能更好的收集有效信息,基于上述特征,本发明将前沿基因技术安全分为技术、论文、专利、领域四部分。如图2所示。知识图谱从技术、论文、专利、领域四个维度构建。
知识图谱的建立过程为:
S11、确定领域本体为技术、论文、专利、领域四个知识集合;我们选用当前领域内常用的protege软件构建生物安全本体;
S12、定义类以及类之间的层级关系:将步骤S31的四个知识集合定义为技术类、技术论文类、应用论文类、技术专利类、应用专利类、领域类,同时将其作为顶级类的子类;各类及其属性详细说明如表1所示。
表1
技术类的属性包括名称、功能、细胞毒性、非目标位点编辑;技术型论文类的属性包括通讯作者及其单位、作者、日期、刊名和发明技术;应用型论文的属性包括通讯作者及其单位、作者、日期、刊名、使用技术、工作物种、靶基因、作用、细胞毒性、非目标位点编辑;技术型专利的属性包括发明人、申请人、公告日、是否转化、发明技术;应用型专利的属性包括发明人、申请人、公告日、是否转化、专利类型、使用技术、工作物种、靶基因、作用、细胞毒性、非目标位点编辑;领域类的属性包括农业、畜牧业、渔业、医疗、环境、生物能源、生物材料和生物制造。
S13、定义类之间的关联关系,包括使用关系、隶属关系和发明关系;使用关系包括论文-技术、专利-技术;发明关系包括论文-技术、专利-技术;隶属关系包括论文-领域、专利-领域。如表2所示。
表2
序号 | 关系名称 | 关系说明 |
1 | 使用关系 | 论文-技术、专利-技术 |
2 | 发明关系 | 论文-技术、专利-技术 |
3 | 隶属关系 | 论文-领域、专利-领域 |
S14、抽取本体之间的关联关系:将两个实体及其关系表示成<实体1,关系,实体2>三元组形式;
S15、知识图谱的存储:利用Neo4j图数据库将数据以有向图的方式存储,并使用Cypher语言作为查询语言。知识图谱随着数据的更新而不断的更新。
在建立完知识图谱后,我们对已经处理过的数据进行画像,通过我们已经建立好的画像标签体系,我们在三个纬度上进行画像。
关于安全指数计算方法:
画像的标签体系构建如图3所示。每个维度的评估方法如下:
1、技术独立自主属性计算模型
国家综合实力计算值是技术独立自主最直观的指标,它从论文、专利、研究pi等方面对技术进行全方位的衡量。本发明通过计算国家综合实力Nn来衡量技术独立自主的程度,公式如下:
Nn=PnW1+TnW2+CnW3
其中,Pn为所在国论文得分,即论文发表数量,Tn为所在国专利得分,即科研人员所获授权发明专利的数量,Cn研究通讯作者得分,即国家独立研究员的数量,W1、W2、W3分别为Pn、Tn、Cn的权重,W1+W2+W3=1。如表3所示。
表3
国家 | 论文(P) | 专利(T) | 研究PI(C) |
N1 | P1 | T1 | C1 |
N2 | P2 | T2 | C2 |
Nn | Pn | Tn | Cn |
权值 | W1 | W2 | W3 |
在具体的实施例中,我们将论文数(P),专利数(T),研究PI数(C)带入公式Nn=PnW1+TnW2+CnW3,得出不同国家的国家综合实力N值。
例如:现如今有A、B、C三个国家进行国家综合实力的计算,分别赋权,w1=0.5,w2=0,3,w3=0,2;A国的论文数,专利数,研究PI数分别为80,50,20;A国的论文数,专利数,研究PI数分别为50,60,70;C国的论文数,专利数,研究PI数分别为30,50,100,
则由上述公式可得A,B,C三国的技术的独立自主属性分别为Na=59,Nb=57,Nc=50。
2、技术自身缺陷风险性计算
技术自身缺陷属性按照领域计算技术自身的风险性,过程如下:
我们分领域给出技术自身的风险性,每个领域风险F由物种风险X加权所得,物种风险X=(报告编辑非目标位点研究数量a+报告细胞毒性研究数b)/该物种总研究数;
我们使用F来表示领域风险,X来表示物种风险,a表示非目标位点研究数量,b来表示细胞毒性研究数。若在某领域中有Xn个物种,则单个的物种风险为Xn=(an+bn)/Nn,Nn为该物种总研究数,则该领域的风险为:
Fn=W1X1+W2X2+…+WnXn
其中W1、W2、…、Wn分别为X1、X2、…、Xn的权重,W1+W2+…+Wn=1;
若存在现有技术A,则该技术的自身缺陷风险性为:
Ha=f1F1+f2F2+…+fnFn
其中f1、f 2、…、f n分别为F1、F2、…、Fn的权重,f1+f2+…+fn=1。
在具体的实施例中,我们将某物种的报告编辑非目标位点研究数量和报告细胞毒性研究数带入公式Xn=(an+bn)/Nn,得出该物种的风险指数,然后用相同的方法求出包含该物种的领域中所有物种的风险系数,然后一起带入公式Fn=W1X1+W2X2+…+WnXn,得出领域风险系数,再根据公式Ha=f1F1+f2F2+…+fnFn对技术自身缺陷风险性进行评估。
例如:假设技术A应用于F1,F2,F3三个领域,领域F1有物种X1,X2;领域F2有物种X3,X4,领域F3有物种X5涉及该技术。X1,X2,X3,X4,X5的报告编辑非目标位点研究数量,报告细胞毒性研究数,该物种总研究数分别为10,20,5;30,10,10;40,30,20;40,60,20;15,5,5。关于F1两个物种的权重W1=0.3,W2=0.7;关于F2两个物种的权值分别为:W3=0.6,W4=0.4;F3只有一个物种权值为1,关于3个领域的权值分别为:f1=0.3,f2=0.6,f3=0.1.所以由上式计算X1=6,X2=4,X3=3.5,X4=5,X5=4,F1=4.6,F2=4.1,F3=4。技术A的自身缺陷风险性Ha=4.24。
3、技术恶意应用可能性属性计算
技术恶意应用指数计算方法过程如下:
我们从技术应用的领域数,该领域包含的物种数(G),物种被编辑的基因数(M),以及使用的PI(Npi)数来确定技术恶意应用的可能性,并分别对物种(w)和领域(f)赋权。我们设技术的恶意应用风险指数为E,领域数为Fn,每个领域所包含的物种数为Mn,每个物种被编辑的基因数为Gn,领域的权值为fn,物种的权值为Wn,该技术所使用的PI数为Npi。
技术A在某物种恶意应用风险的计算方法为:
Eg=G
其中G为技术应用的领域包含的物种数;
技术A在某一领域恶意应用风险Ea为该技术在本领域各物种恶意应用风险之和:
Ea=W1Eg1+W2Eg2+…+WnEgn
其中W1、W2、…、Wn分别为Eg1、Eg2、…、Egn的权重,W1+W2+…+Wn=1;
技术A的恶意应用风险EA是各领域恶意应用指数之和:
其中Fn为领域数,fn分别为F1、F2、…、Fn的权重,f1+f2+…+fn=1。
在具体的实施例中,我们将技术A所使用到的领域中包含的不同物种的物种数(G)、物种被编辑的基因数(M)以及使用的PI(Npi)带入公式:
得出技术A的技术恶意应用指数,使用相同的方法对不同技术进行评估。
例如A技术被应用与E1,E2,E3三个领域,E1中有2个物种用到A技术,E2有3个,E3有1个,他们分别是G1,G2,G3,G4,G5,G6.他们被编辑的基因数分别为10,18,5,10,1,20;E1中两个物种的权值分别为0.4,0.6;E2中三个物种的权值分别为,0.3,0.5,0.2,E3中只有一个物种,权值为1。三个领域的权值分别为,0.4,0.3,0.3。技术A涉及的pi数为30。E1=14.8,E2=6.7,E3=20,EA=39.63.所以A技术的技术恶意应用指数为39.63。
综上,本发明的方法为前沿基因技术安全提供一个可使用计算机直接进行计算的科学性的评估方法,这不仅可提高相关工作人员的工作效率,也可避免传统方法依赖于专家评价的弊端。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,但这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于动态知识图谱的前沿基因技术安全画像方法,其特征在于,包括以下步骤:
S1、构建知识图谱的本体;
S2、采集知识图谱所需要的数据;
S3、根据已经构建的本体以及采集的数据抽取实体和关系,对数据进行分类得到多维数据,针对多维数据构建面向技术画像的知识图谱,知识图谱中的数据采用词向量表示;
S4、导入neo4j图数据库,生成知识图谱;
S5、根据实体抽取以及画像相关计算模型生成画像标签,并进行可视化处理;画像标签的生成通过技术独立自主属性、技术自身缺陷属性和技术恶意应用可能性属性三个维度进行安全指数计算。
2.根据权利要求1所述的基于动态知识图谱的前沿基因技术安全画像方法,其特征在于,步骤S1的知识图谱从技术、论文、专利、领域四个维度构建。
3.根据权利要求2所述的基于动态知识图谱的前沿基因技术安全画像方法,其特征在于,步骤S1中,知识图谱的建立过程为:
S11、确定领域本体为技术、论文、专利、领域四个知识集合;
S12、定义类以及类之间的层级关系:将步骤S31的四个知识集合定义为技术类、技术论文类、应用论文类、技术专利类、应用专利类、领域类,同时将其作为顶级类的子类;
S13、定义类之间的关联关系,包括使用关系、隶属关系和发明关系;
S14、抽取本体之间的关联关系:将两个实体及其关系表示成<实体1,关系,实体2>三元组形式。
4.根据权利要求3所述的基于动态知识图谱的前沿基因技术安全画像方法,其特征在于,步骤S12中,技术类的属性包括名称、功能、细胞毒性、非目标位点编辑;技术型论文类的属性包括通讯作者及其单位、作者、日期、刊名和发明技术;应用型论文的属性包括通讯作者及其单位、作者、日期、刊名、使用技术、工作物种、靶基因、作用、细胞毒性、非目标位点编辑;技术型专利的属性包括发明人、申请人、公告日、是否转化、发明技术;应用型专利的属性包括发明人、申请人、公告日、是否转化、专利类型、使用技术、工作物种、靶基因、作用、细胞毒性、非目标位点编辑;领域类的属性包括农业、畜牧业、渔业、医疗、环境、生物能源、生物材料和生物制造。
5.根据权利要求3所述的基于动态知识图谱的前沿基因技术安全画像方法,其特征在于,步骤S13中,使用关系包括论文-技术、专利-技术;发明关系包括论文-技术、专利-技术;隶属关系包括论文-领域、专利-领域。
6.根据权利要求3所述的基于动态知识图谱的前沿基因技术安全画像方法,其特征在于,步骤S15中,利用Neo4j图数据库将数据以有向图的方式存储,生成知识图谱,并使用Cypher语言作为查询语言。
7.根据权利要求3所述的基于动态知识图谱的前沿基因技术安全画像方法,其特征在于,步骤S4中,知识图谱随着数据的更新而不断的更新。
8.根据权利要求1所述的基于动态知识图谱的前沿基因技术安全画像方法,其特征在于,步骤S5中,通过计算国家综合实力Nn来衡量技术独立自主的程度,公式如下:
Nn=PnW1+TnW2+CnW3
其中,Pn为所在国论文得分,即论文发表数量,Tn为所在国专利得分,即科研人员所获授权发明专利的数量,Cn研究通讯作者得分,即国家独立研究员的数量,W1、W2、W3分别为Pn、Tn、Cn的权重,W1+W2+W3=1。
9.根据权利要求1所述的基于动态知识图谱的前沿基因技术安全画像方法,其特征在于,步骤S5技术自身缺陷属性按照领域计算技术自身的风险性,过程如下:
每个领域风险F由物种风险X加权所得,物种风险X=(报告编辑非目标位点研究数量a+报告细胞毒性研究数b)/该物种总研究数;
若在某领域中有Xn个物种,则单个的物种风险为Xn=(an+bn)/Nn,Nn为该物种总研究数,则该领域的风险为:
Fn=W1X1+W2X2+…+WnXn
其中W1、W2、…、Wn分别为X1、X2、…、Xn的权重,W1+W2+…+Wn=1;
若存在现有技术A,则该技术的自身缺陷风险性为:
Ha=f1F1+f2F2+…+fnFn
其中f1、f 2、…、f n分别为F1、F2、…、Fn的权重,f1+f2+…+fn=1。
10.根据权利要求1所述的基于动态知识图谱的前沿基因技术安全画像方法,其特征在于,步骤S5中技术恶意应用可能性属性计算过程如下:
技术A在某物种恶意应用风险的计算方法为:
Eg=G
其中G为技术应用的领域包含的物种数;
技术A在某一领域恶意应用风险Ea为该技术在本领域各物种恶意应用风险之和:
Ea=W1Eg1+W2Eg2+…+WnEgn
其中W1、W2、…、Wn分别为Eg1、Eg2、…、Egn的权重,W1+W2+…+Wn=1;
技术A的恶意应用风险EA是各领域恶意应用指数之和:
其中Fn为领域数,fn分别为F1、F2、…、Fn的权重,f1+f2+…+fn=1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310171185.1A CN116882495B (zh) | 2023-02-27 | 2023-02-27 | 一种基于动态知识图谱的前沿基因技术安全画像方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310171185.1A CN116882495B (zh) | 2023-02-27 | 2023-02-27 | 一种基于动态知识图谱的前沿基因技术安全画像方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116882495A true CN116882495A (zh) | 2023-10-13 |
CN116882495B CN116882495B (zh) | 2024-02-09 |
Family
ID=88257403
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310171185.1A Active CN116882495B (zh) | 2023-02-27 | 2023-02-27 | 一种基于动态知识图谱的前沿基因技术安全画像方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116882495B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118278507A (zh) * | 2024-06-04 | 2024-07-02 | 南京大学 | 一种生物医药产业的知识图谱的构建方法 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107937328A (zh) * | 2017-11-30 | 2018-04-20 | 中央民族大学 | 基于细胞的比较器及应用与细胞计算机 |
CN109299285A (zh) * | 2018-09-11 | 2019-02-01 | 中国医学科学院医学信息研究所 | 一种药物基因组学知识图谱构建方法及系统 |
CN110717816A (zh) * | 2019-07-15 | 2020-01-21 | 上海氪信信息技术有限公司 | 一种基于人工智能技术的全域金融风险知识图谱构建方法 |
CN111737495A (zh) * | 2020-06-28 | 2020-10-02 | 福州数据技术研究院有限公司 | 基于领域自分类的中高端人才智能推荐系统及其方法 |
CN112633889A (zh) * | 2020-11-12 | 2021-04-09 | 中科金审(北京)科技有限公司 | 一种企业基因测序系统及方法 |
US20210210170A1 (en) * | 2016-11-10 | 2021-07-08 | Precisionlife Ltd | Control apparatus and method for processing data inputs in computing devices therefore |
CN113127650A (zh) * | 2021-05-17 | 2021-07-16 | 国网上海市电力公司 | 一种基于图数据库的技术图谱构建方法和系统 |
CN113204636A (zh) * | 2021-01-08 | 2021-08-03 | 北京欧拉认知智能科技有限公司 | 基于知识图谱的用户动态个性化画像方法 |
CN113254594A (zh) * | 2021-06-21 | 2021-08-13 | 国能信控互联技术有限公司 | 一种面向智慧电厂的安全知识图谱构建方法及系统 |
CN113254601A (zh) * | 2021-07-06 | 2021-08-13 | 北京邮电大学 | 面向知识产权的科技资源画像构建方法、装置和存储介质 |
CN113515644A (zh) * | 2021-05-26 | 2021-10-19 | 中国医学科学院医学信息研究所 | 一种基于知识图谱的医院科技画像方法和系统 |
US20220035832A1 (en) * | 2020-07-31 | 2022-02-03 | Ut-Battelle, Llc | Knowledge graph analytics kernels in high performance computing |
WO2022106074A1 (en) * | 2020-11-19 | 2022-05-27 | NEC Laboratories Europe GmbH | Method and system for quantifying cellular activity from high throughput sequencing data |
CN114817571A (zh) * | 2022-05-16 | 2022-07-29 | 浙江大学 | 基于动态知识图谱的成果被引用量预测方法、介质及设备 |
US20220292262A1 (en) * | 2021-03-10 | 2022-09-15 | At&T Intellectual Property I, L.P. | System and method for hybrid question answering over knowledge graph |
CN115470339A (zh) * | 2022-07-28 | 2022-12-13 | 北京万方软件有限公司 | 基于科技大数据知识图谱的技术诊断专家智能匹配算法 |
-
2023
- 2023-02-27 CN CN202310171185.1A patent/CN116882495B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210210170A1 (en) * | 2016-11-10 | 2021-07-08 | Precisionlife Ltd | Control apparatus and method for processing data inputs in computing devices therefore |
CN107937328A (zh) * | 2017-11-30 | 2018-04-20 | 中央民族大学 | 基于细胞的比较器及应用与细胞计算机 |
CN109299285A (zh) * | 2018-09-11 | 2019-02-01 | 中国医学科学院医学信息研究所 | 一种药物基因组学知识图谱构建方法及系统 |
CN110717816A (zh) * | 2019-07-15 | 2020-01-21 | 上海氪信信息技术有限公司 | 一种基于人工智能技术的全域金融风险知识图谱构建方法 |
CN111737495A (zh) * | 2020-06-28 | 2020-10-02 | 福州数据技术研究院有限公司 | 基于领域自分类的中高端人才智能推荐系统及其方法 |
US20220035832A1 (en) * | 2020-07-31 | 2022-02-03 | Ut-Battelle, Llc | Knowledge graph analytics kernels in high performance computing |
CN112633889A (zh) * | 2020-11-12 | 2021-04-09 | 中科金审(北京)科技有限公司 | 一种企业基因测序系统及方法 |
WO2022106074A1 (en) * | 2020-11-19 | 2022-05-27 | NEC Laboratories Europe GmbH | Method and system for quantifying cellular activity from high throughput sequencing data |
CN113204636A (zh) * | 2021-01-08 | 2021-08-03 | 北京欧拉认知智能科技有限公司 | 基于知识图谱的用户动态个性化画像方法 |
US20220292262A1 (en) * | 2021-03-10 | 2022-09-15 | At&T Intellectual Property I, L.P. | System and method for hybrid question answering over knowledge graph |
CN113127650A (zh) * | 2021-05-17 | 2021-07-16 | 国网上海市电力公司 | 一种基于图数据库的技术图谱构建方法和系统 |
CN113515644A (zh) * | 2021-05-26 | 2021-10-19 | 中国医学科学院医学信息研究所 | 一种基于知识图谱的医院科技画像方法和系统 |
CN113254594A (zh) * | 2021-06-21 | 2021-08-13 | 国能信控互联技术有限公司 | 一种面向智慧电厂的安全知识图谱构建方法及系统 |
CN113254601A (zh) * | 2021-07-06 | 2021-08-13 | 北京邮电大学 | 面向知识产权的科技资源画像构建方法、装置和存储介质 |
CN114817571A (zh) * | 2022-05-16 | 2022-07-29 | 浙江大学 | 基于动态知识图谱的成果被引用量预测方法、介质及设备 |
CN115470339A (zh) * | 2022-07-28 | 2022-12-13 | 北京万方软件有限公司 | 基于科技大数据知识图谱的技术诊断专家智能匹配算法 |
Non-Patent Citations (3)
Title |
---|
PAYAL CHANDAK等: "Building a knowledge graph to enable precision medicine", 《SCIENTIFIC DATA》, vol. 10, pages 1 - 16 * |
司雪峰: "跨媒体科技大数据知识图谱构建与动态精准画像", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 01, pages 138 - 798 * |
杨佳鑫 等: "面向知识产权的科技资源画像构建方法", 《软件学报》, vol. 33, no. 04, pages 1439 - 1450 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118278507A (zh) * | 2024-06-04 | 2024-07-02 | 南京大学 | 一种生物医药产业的知识图谱的构建方法 |
CN118278507B (zh) * | 2024-06-04 | 2024-10-01 | 南京大学 | 一种生物医药产业的知识图谱的构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116882495B (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
National Academies of Sciences et al. | Biological collections: Ensuring critical research and education for the 21st century | |
Baur et al. | Analysis of ratios in multivariate morphometry | |
Boyack et al. | Mapping the structure and evolution of chemistry research | |
Bielecka | GIS spatial analysis modeling for land use change. A bibliometric analysis of the intellectual base and trends | |
Gholami et al. | Sustainable manufacturing 4.0—pathways and practices | |
Eberle et al. | Bayesian species delimitation in Pleophylla chafers (Coleoptera)–the importance of prior choice and morphology | |
CN116882495B (zh) | 一种基于动态知识图谱的前沿基因技术安全画像方法 | |
CN109522416A (zh) | 一种金融风险控制知识图谱的构建方法 | |
Lu et al. | Bibliometric analysis of global research on ecological networks in nature conservation from 1990 to 2020 | |
Haghighi Fard et al. | Evaluation of resilience in historic urban areas by combining multi-criteria decision-making system and GIS, with sustainability and regeneration approach: The case study of Tehran (IRAN) | |
Klimova et al. | Genomic analyses of wild and cultivated bacanora agave (Agave angustifolia var. pacifica) reveal inbreeding, few signs of cultivation history and shallow population structure | |
da Fonseca et al. | Agro 4.0: A data science-based information system for sustainable agroecosystem management | |
Podani | The coral of life | |
Tahami et al. | Genomics reveal admixture and unexpected patterns of diversity in a parapatric pair of butterflies | |
Wu et al. | Construction of a core collection of germplasms from Chinese fir seed orchards | |
Penksza et al. | Possibilities of speciation in the central sandy steppe, woody steppe area of the Carpathian Basin through the example of Festuca taxa | |
Moncrieff et al. | Implications of headwater contact zones for the riverine barrier hypothesis: a case study of the Blue-capped Manakin (Lepidothrix coronata) | |
Luo et al. | Scientometric analysis for spatial autocorrelation-related research from 1991 to 2021 | |
Seger et al. | Five independent lineages revealed by integrative taxonomy in the Dendropsophus nanus–Dendropsophus walfordi species complex | |
Rohfl | Phylogenetic models and reticulations. | |
Ogungbile et al. | A hypothetical extraction method decomposition of intersectoral and interprovincial CO2 emission linkages of China’s construction industry | |
Zhu et al. | Oasification in arid and semi-arid regions of China: new changes and re-examination | |
Agarwal | Gender differences in quality of work life: an empirical study | |
Ma | Estimating the Optimum Coverage and Quality of Amplicon Sequencing With Taylor’s Power Law Extensions | |
Laurent et al. | Using spatial indexes for labeled network analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |