CN116110499B - 基于生物学的分类计算模型的元件库系统 - Google Patents
基于生物学的分类计算模型的元件库系统 Download PDFInfo
- Publication number
- CN116110499B CN116110499B CN202211104915.8A CN202211104915A CN116110499B CN 116110499 B CN116110499 B CN 116110499B CN 202211104915 A CN202211104915 A CN 202211104915A CN 116110499 B CN116110499 B CN 116110499B
- Authority
- CN
- China
- Prior art keywords
- data
- model
- module
- biological
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 25
- 238000002474 experimental method Methods 0.000 claims abstract description 99
- 239000002207 metabolite Substances 0.000 claims abstract description 72
- 230000010076 replication Effects 0.000 claims abstract description 62
- 238000013507 mapping Methods 0.000 claims abstract description 37
- 238000003860 storage Methods 0.000 claims description 36
- 238000000034 method Methods 0.000 claims description 34
- 238000004458 analytical method Methods 0.000 claims description 32
- 238000007405 data analysis Methods 0.000 claims description 32
- 238000007781 pre-processing Methods 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 24
- 238000012800 visualization Methods 0.000 claims description 22
- 108020004414 DNA Proteins 0.000 claims description 19
- 239000002131 composite material Substances 0.000 claims description 18
- 230000002457 bidirectional effect Effects 0.000 claims description 14
- 150000007523 nucleic acids Chemical class 0.000 claims description 12
- 239000012634 fragment Substances 0.000 claims description 9
- 238000003058 natural language processing Methods 0.000 claims description 8
- 239000012620 biological material Substances 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 claims description 6
- 238000013479 data entry Methods 0.000 claims description 5
- 102000039446 nucleic acids Human genes 0.000 claims description 5
- 108020004707 nucleic acids Proteins 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 4
- 238000011990 functional testing Methods 0.000 claims description 4
- 230000002503 metabolic effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 229930010796 primary metabolite Natural products 0.000 claims description 3
- 229930000044 secondary metabolite Natural products 0.000 claims description 3
- 238000010224 classification analysis Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 52
- 230000000875 corresponding effect Effects 0.000 description 20
- 102000053602 DNA Human genes 0.000 description 17
- 238000010586 diagram Methods 0.000 description 13
- 230000008827 biological function Effects 0.000 description 11
- 238000012986 modification Methods 0.000 description 9
- 230000004048 modification Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 102000004169 proteins and genes Human genes 0.000 description 9
- 108090000623 proteins and genes Proteins 0.000 description 9
- 108091028043 Nucleic acid sequence Proteins 0.000 description 7
- 210000004027 cell Anatomy 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 6
- 238000007726 management method Methods 0.000 description 6
- 239000013612 plasmid Substances 0.000 description 6
- 238000004321 preservation Methods 0.000 description 6
- 238000013506 data mapping Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000005303 weighing Methods 0.000 description 5
- 238000012550 audit Methods 0.000 description 4
- 230000002068 genetic effect Effects 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000004140 cleaning Methods 0.000 description 3
- 238000013079 data visualisation Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000000338 in vitro Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 210000004507 artificial chromosome Anatomy 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005206 flow analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 229920002521 macromolecule Polymers 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000001243 protein synthesis Methods 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种用于生物学的分类计算模型及元件库系统,该分类计算模型用于基于生物学系统要素的特征划分并建立合成生物学的基本单元模型,基本单元模型用于整合并关联生物学中的一个或多个系统要素;其中,基本单元模型包括功能元件子模型、复制单元子模型、生物系统子模型、代谢产物子模型和实验方法子模型。通过该分类计算模型可对获得的生物学数据进行准确且有效的整合及分类分析,并构建出系统要素之间普遍的关联映射;同时本发明基于该分类计算模型构建了一种结构化、可溯源且具有检索功能的元件库系统,极大地方便用户对合成生物学数据进行录入和管理,实验及应用数据的收集和归档,数据资源和应用经验的分析和利用。
Description
技术领域
本发明涉及计算机元件库系统以及生物学技术领域,尤其涉及一种基于生物学的分类计算模型的元件库系统。
背景技术
合成生物学是指针对应用目的, 对以生物为基础的元件、器件和系统以及对现有天然生物系统的重新设计和工程化。
目前各个合成生物学研究机构已经发布了多个生物学元件库,生物学元件作为合成生物学中的重要概念,其本质是以可重复利用为目的,基于生物学的中心法则以及工程学原理,对生物的遗传资源进行系统性发掘和整理,而得到的具有特定生物学功能的基本单元。
然而现有元件库的归档框架下难以被分类和整理,导致关键信息的遗漏而不利于元件的实际应用;现有元件库没有设计元数据描述联系,导致缺失关键的功能描述信息,不利于追溯元件的应用和改进历史;现有元件库只能用全文搜索查找所需信息,定位粗糙、效率低下,难以快速满足在约束系统要素时的查询和调用关键知识的需求。由此可知,现有元件库无法对合成生物学的数据进行准确且有效地整合。
此外,现有生物元件库的作用被不断弱化,或因实用价值下降而遭到淘汰,或因不同研究机构、不同时期设立的标准差别而导致资源分散,无法实现知识的有效整合,还提高了对元件库使用者的专业化要求,而难以推动生物系统工程化设计合成生物学目标的真正实现。
发明内容
本发明提供一种基于生物学的分类计算模型的元件库系统,旨在实现对合成生物学的数据准确且有效地整合,并构建出系统要素之间普遍的关联关系;基于此,提供构建了一种结构化的、可溯源的、提供检索功能的元件库系统,可以极大地方便用户对生物学数据进行录入和管理,实验及应用数据的收集和归档,数据资源和应用经验的分析和利用。
第一方面,本发明提供一种分类计算模型,所述分类计算模型,用于基于生物学系统要素的特征划分并建立生物学中的基本单元模型;所述基本单元模型用于整合并关联生物学数据中的一个或多个系统要素;
其中,所述基本单元模型包括功能元件子模型、复制单元子模型、生物系统子模型、代谢产物子模型和实验方法子模型。
根据本发明提供的一种分类计算模型,所述功能元件子模型,用于整合所述系统要素中的DNA脱氧核糖核酸,建立对应的不可分割的DNA脱氧核糖核酸片段组件;
所述复制单元子模型,用于整合所述系统要素中的以单一整体为单位进行复制的核酸分子或底盘宿主细胞;
所述生物系统子模型,用于整合所述系统要素中的记录和描述功能测试实验结果的生物材料;
所述代谢产物子模型,用于整合所述系统要素中的代谢产物;
所述实验方法子模型,用于整合所述系统要素中的实验操作流程和实验检测方法。
根据本发明提供的一种分类计算模型,所述基本单元模型之间基于生物学特征相互关联映射,所述关联映射包括单向关联映射和/或双向关联映射;基于所述关联映射将生物学中的一个或多个系统要素进行关联。
第二方面,本发明提供一种元件库系统,基于第一方面所述的分类计算模型,所述元件库系统还包括:数据获取模块、数据预处理模块、数据关联模块、存储模块和数据分析模块;
基于所述分类计算模型,在所述数据获取模块获取一个或多个系统要素数据后,通过所述数据预处理模块、数据关联模块和数据分析模块,关联并整合所述获取得到的系统要素数据;
其中,所述数据预处理模块用于对所述数据获取模块获取到的系统要素数据进行处理,得到生物学中的各个基本单元模型;
所述数据关联模块用于建立各个所述基本单元模型的关联映射和系统要素之间的关联映射;
所述存储模块用于存储各个所述基本单元模型以及所述基本单元模型的关联映射和系统要素之间的关联映射,并将各个所述基本单元模型同步至数据搜索引擎;
所述数据分析模块用于响应数据搜索引擎,自动匹配所述基本单元模型以及进行相似度分析。
根据本发明提供的元件库系统,所述元件库系统还包括数据训练模块;
所述数据训练模块用于根据所述存储模块存储的基本单元模型及数据关系进行训练,输出系统要素之间的数据关系预测模型;
其中,所述数据关系预测模型,用于快速识别并分析所述数据获取模块中获取的数据。
本发明提供一种元件库系统,所述元件库系统还包括可视化模块;
所述可视化模块用于调用所述存储模块,将所述数据预处理模块、所述数据关联模块和所述数据分析模块的结果,通过显示单元显示到显示界面;其中,所述显示单元包括图谱可视化显示单元和数据可视化显示单元。
本发明提供一种元件库系统,所述数据获取模块包括数据录入子模块或/和数据搜索子模块;所述数据录入子模块包括公开录入单元或/和手动录入单元,用于录入数据;所述数据搜索子模块包括全局搜索单元、模块搜索单元和自然语言处理单元,用于获取用户输入搜索条件,结合所述数据分析模块自动匹配搜索结果。
第三方面,本发明提供一种元件的解析方法,基于第二方面所述的元件库系统,生物学元件的解析方法包括如下内容:
对获取到的数据进行数据预处理,并通过所述基本单元模型进行解析,得到生物学系统要素中的对应的元件;
基于各个所述基本单元模型关联并整合生物学系统要素中的一个或多个系统要素;
建立各个所述对应的元件之间的关联关系和所述系统要素之间的关联关系;
基于所述对应的元件和建立的所述关联关系,响应所述元件库系统应用端的需求,并进行反馈。
第四方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第三方面所述元件的解析方法。
第五方面,本发明还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质包括计算机程序,所述计算机程序被所述处理器执行时实现第三方面所述元件的解析方法。
本发明提供的分类计算模型通过功能元件子模型、复制单元子模型、生物系统子模型、代谢产物子模型和实验方法子模型整合生物学中的一个或多个系统要素,即从功能和实用性角度出发,将生物学研究产生的系统要素进行拆分为功能元件、复制单元、生物系统、代谢产物和实验方法;并建立单个系统要素中的功能元件、复制单元、生物系统、代谢产物和实验方法关联映射,以及关联映射与其他多个系统要素之间的关联映射,方便对实验以及文献中获得的数据进行拆分录入和分类保存,实现对生物学的数据进行准确且有效地整合。
本发明提供的元件库系统基于所述分析计算模型,通过对生物学系统要素数据进行解析、关联映射、智能训练、智能分析、可视化等操作,并支持单次录入数据以及多次录入,以及实现录入的数据之间自动关联,因此,在反向搜索的过程中,能够提供更多的生物学元件的关联信息,有利于用户获取更多结构化的、可溯源的数据内容,可以极大地方便使用者对生物元件进行方便的录入和管理、实验及应用数据的收集和归档、数据资源和应用经验的分析和利用。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中的附图作一简单地介绍,显而易见地,下面描述的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的分类计算模型的示意图;
图2是本发明提供的生物学系统要素的关联关系图;
图3是本发明提供的系统要素数据关联追溯网络示意图;
图4是本发明提供的元件库系统的结构示意图之一;
图5是本发明实施例提供的数据训练模块的结构示意图;
图6是本发明实施例提供的可视化模块的结构示意图;
图7是本发明提供的元件库系统的结构示意图之二;
图8是本发明提供的元件的解析方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明实施例中的具体含义。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、特点包含于本发明实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
本发明实施例提供了分类计算模型的实施例,具体是以生物学中的合成生物学为例。
需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些数据下,可以以不同于此处的顺序完成所示出或描述的步骤。
如图1,图1是本发明提供的分类计算模型的示意图,本发明实施例提供的分类计算模型100用于基于合成生物学系统要素的特征划分并建立合成生物学中的基本单元模型;基本单元模型用于整合并关联合成生物学数据中的一个或多个系统要素;基本单元模型包括功能元件子模型101、复制单元子模型102、生物系统子模型103、代谢产物子模型104和实验方法子模型105。
这里的分类计算模型中的计算包括对于合成生物学中系统要素的划分、建立及整合。
这里需要说明的是,本发明所指的合成生物学系统要素的特征,是基于合成生物学而言的。在合成生物学领域中,合成生物学与传统生物学通过解剖生命体以研究其内在构造的办法不同,合成生物学的研究方向完全是相反的,它是从最基本的要素开始一步步建立零部件,这些最基本的要素就是在合成生物学中所使用的必要的系统要素。进一步需要说明的是,合成生物学中的系统要素的数据来源包括现有的元件库系统中的数据和实验人员自己录入的数据。
也就是,实验人员将合成生物学中的数据录入后或接入现有合成生物学数据库的数据后,通过本发明的分析计算模型对录入或接入的数据进行解析后得到对应的生物学系统要素元件,同时进行关联映射,建立对应的关联关系。从功能和实用性角度出发,将合成生物学中的数据按照系统要素进行拆分为功能元件、复制单元、生物系统、代谢产物和实验方法;并建立单个系统要素中的功能元件、复制单元、生物系统、代谢产物和实验方法之间的关联映射,以及关联映射与其他多个系统要素之间的关联映射,方便对实验以及文献中获得的数据进行拆分录入和分类保存,实现对合成生物学的数据进行准确且有效地整合。
具体地,功能元件子模型101用于整合系统要素中的DNA脱氧核糖核酸,建立对应的不可分割的DNA脱氧核糖核酸片段组件。
复制单元子模型102用于整合系统要素中以单一整体为单位进行复制的核酸分子或底盘宿主细胞。
生物系统子模型103用于整合系统要素中的记录和描述功能测试实验结果的生物材料。
代谢产物子模型104用于整合系统要素中的代谢产物;实验方法子模型105用于整合系统要素中的实验操作流程和实验检测方法。
对于功能元件子模型101,在本实施例中,可基于功能元件子模型101将合成生物学系统要素中的功能元件对应的数据进行解析,这里所述的功能元件为具有确定性功能且在使用时不再进行物理分割的DNA脱氧核糖核酸组件,可以理解为,功能元件表示具有确定功能的、至少在使用时(例如,将数据录入时系统或计算机时)被认为不需要进行物理分割的DNA组件,是功能描述和再利用的基本单位。其中,功能元件与合成生物学中对“生物学元件”的经典定义不同。在一实施例中,功能元件不再指一种特定的DNA序列及其分子实体,而是作为含有近乎相同的序列特征、且功能上不需做人为区分的一组DNA序列的统称,即部分只存在细节不同的片段可按功能归类为一个元件。
对于复制单元子模型102,在本实施例中,可基于复制单元子模型102将合成生物学系统要素中的复制单元对应的数据进行解析,这里所述的复制单元为以单一整体为单位进行复制的核酸分子或底盘宿主细胞,可以理解为,复制单元为由多个功能元件组合而成的,以单一整体为单位进行复制的核酸分子或底盘宿主细胞,是对生物材料进行实体保藏和分发的基本单位。其中,基本单位由单一整体为单位进行复制这一功能界定,包括质粒、人工染色体、底盘宿主或一段只能由体外扩增的短核酸片段。
对于生物系统子模型103,在本实施例中,可基于生物系统子模型103将合成生物学系统要素中的生物系统对应的数据进行解析,这里所述的生物系统为在指定条件下可描述生物学功能、以实体形式存在且对功能进行实验测定的生物材料,可以理解为,生物系统为由多个复制单元组合成的、可在指定条件下表现出可并清晰描述出生物学功能的、至少曾经作为实体存在过的并对功能进行过实验测定的生物材料,是记录和描述功能测试实验结果的基本单位。其中,生物系统含有至少一个复制单元,且该复制单元是其发挥生物学功能的必要条件。同时,生物系统要求必须具有执行中心法则的能力,具体来说它可能是可获得纯培养物的细胞、细胞的抽提物或其它受核酸序列指导的体外蛋白质合成系统。
对于代谢产物子模型104,在本实施例中,可基于代谢产物子模型104将合成生物学系统要素中的代谢产物对应的数据进行解析,这里所述的代谢产物为生物系统在指定条件下生成的代谢产物,可以理解为,代谢产物为由单一或多个生物系统在指定条件下生成的有价值的初级或次级代谢产物或产物集合,用于描述非生物系统依赖性的功能。其中,代谢产物是由确定的生物系统生成的产物的集合信息,可以是提纯后的物质,也可以是进行了功能或成分描述的、不包含菌体的混合物。
对于实验方法子模型105,在本实施例,可基于实验方法子模型105将合成生物学系统要素中的实验方法对应的数据进行解析,这里所述的实验方法为具有通用性特征和标准化特征的实验操作流程和实验检测方法,包括分子操作在内的任何有人工介入的操作。其中,实验方法可以被复制单元、生物系统或代谢产物所引用。对于只针对少数特定不具有通用性的实验方法,应记录于对应信息中而不被独立登记为实验方法。在进行实际实验生产等应用时,若对已收录的实验方法进行了调整,应在信息中引用原实验方法,并对进行了调整的部分进行说明。若调整后的实验方法有通用性,可将其收录为新方法,并说明调整后的实验方法为原有方案的衍生方案。
进一步地,功能元件子模型101、复制单元子模型102、生物系统子模型103、代谢产物子模型104和实验方法子模型105之间基于合成生物学特征相互关联映射,关联映射包括单向关联映射和/或双向关联映射。基于关联映射将合成生物学中的一个或多个系统要素进行关联。
参照图2,图2是本发明提供的合成生物学系统要素的关联关系图,基于本实施例提供的分类计算模型包括:功能元件子模型101、复制单元子模型102、生物系统子模型103、代谢产物子模型104和实验方法子模型105之间建立的包括单向关联映射和/或双向关联映射,从而建立了系统要素中对应的功能元件、复制单元、生物系统、代谢产物和实验方法之间的关联关系,具体的关联关系如下:
在本实施例中,功能元件还包括基础元件和复合元件,其中,基础元件为在功能上无法被拆分的元件;复合元件为由基础元件或其它复合元件组装的元件。复合元件的信息包括构成复合元件的元件列表,其中,列表顺序和序列内容与复合元件序列中元件排列顺序及方向相同。在一实施例中,复合功能元件f分别与基础功能元件a、基础功能元件b、基础功能元件c和基础功能元件e关联。
对于复制单元与功能元件之间关联关系,包括:复制单元与功能元件之间为双向关联关系,复制单元中包括多个功能元件,且每个功能元件可用于统计出参与构成的所有复制单元。在一实施例中,复制单元Ⅰ分别与复合功能元件f、基础功能元件a和基础功能元件b关联映射。
对于生物系统与复制单元之间关联关系包括:生物系统与功能元件之间为双向关联关系。生物系统中包括多个复制单元,且每个复制单元可用于统计出参与构成的所有生物系统。生物系统标记有对其实现功能的关键功能元件,且每个功能元件自动更新由其参与构成的生物系统列表。在一实施例中,生物系统分别与复制单元Ⅰ、复制单元Ⅱ和复制单元Ⅲ关联。
对于代谢产物与生物系统之间关联关系包括:代谢产物与生物系统之间为双向关联。代谢产物为单一或多个生物系统,产生的初级或次级代谢产物或产物集合,且每个生物系统可用于统计出所属代谢产物的生成。在一实施例中,代谢产物x分别与生物系统和生物系统/>关联。
对于实验方法与复制单元、生物系统和代谢产物之间关联关系包括:实验方法与复制单元、实验方法与生物系统,以及实验方法与代谢产物之间为双向关联,即一个实验方法可以被复制单元、生物系统或代谢产物所涉及的实验所引用。在一实施例中,实验方法1分别与复制单元Ⅰ、生物系统和代谢产物x关联。
在一实施例中,参照图3,图3是本发明提供的系统要素数据关联追溯网络示意图,根据图3可以具体分析为:
依据某个启动子(基础功能元件a),关联到与其他启动子构成的复合功能元件f,还可以关联映射到实验及测试过成的相关实验方法1、2、3。进一步的,关联到所在的质粒(复制单元Ⅰ),关联到实验及测试过成的相关实验方法①、②、③。以及用这个启动子构建/测试过程中生物系统,关联到实验及测试过成的相关实验方法(1)、(2)、(3);还能关联到其表达的蛋白及代谢产物x,关联到实验及测试过成的相关实验方法[1]、[2]、[3]。
依据某个启动子(基础功能元件b),可以关联到与其他启动子构成的复合功能元件f,关联到实验及测试过成的相关实验方法1、2、3。进一步的,关联到所在的质粒(复制单元Ⅰ和复制单元Ⅱ),关联到实验及测试过成的相关实验方法①、②、③。以及用这个启动子构建/测试过程中生物系统和生物系统/>,关联到实验及测试过成的相关实验方法(1)、(2)、(3)。还能关联到其表达的蛋白及代谢产物x、代谢产物y和代谢产物z,关联到实验及测试过成的相关实验方法[1]、[2]、[3]。
依据某个启动子(基础功能元件c),可以关联到与其他启动子构成的复合功能元件g,关联到实验及测试过成的相关实验方法1、2、3。进一步的,关联到所在的质粒(复制单元Ⅱ和复制单元Ⅲ),关联到实验及测试过成的相关实验方法①、②、③。以及用这个启动子构建/测试过程中生物系统和生物系统/>,关联到实验及测试过成的相关实验方法(1)、(2)、(3)。还能关联到其表达的蛋白及代谢产物x、代谢产物y和代谢产物z,关联到实验及测试过成的相关实验方法[1]、[2]、[3]。
依据某个启动子(基础功能元件d),可以关联到与其他启动子构成的复合功能元件g,关联到实验及测试过成的相关实验方法1、2、3。进一步的,关联到所在的质粒(复制单元Ⅱ和复制单元Ⅲ),关联到实验及测试过成的相关实验方法①、②、③。以及用这个启动子构建/测试过程中生物系统和生物系统/>,关联到实验及测试过成的相关实验方法(1)、(2)、(3)。还能关联到其表达的蛋白及代谢产物x、代谢产物y和代谢产物z,关联到实验及测试过成的相关实验方法[1]、[2]、[3]。
依据某个启动子(基础功能元件e),可以关联到所在的质粒(复制单元Ⅲ),关联到实验及测试过成的相关实验方法①、②、③。以及用这个启动子构建/测试过程中生物系统,关联到实验及测试过成的相关实验方法(1)、(2)、(3)。还能关联到其表达的蛋白及代谢产物y和代谢产物z,关联到实验及测试过成的相关实验方法[1]、[2]、[3]。
本发明实施例建立了功能元件、复制单元、生物系统、代谢产物和实验方法之间的关联规则,在此规则下,录入人员只需录入系统要素数据后,包括录入功能元件、复制单元、生物系统、代谢产物和实验方法人一个或多个,既可以建立功能元件、复制单元、生物系统、代谢产物和实验方法之间的单向关联映射,进一步自动建立双向关联映射,并形成知识网络,方便用户根据功能、组成和衍生的不同溯源需求对所需信息进行查找和比对,使得复用时获得全面信息。
基于分类计算模型100本发明还提供的元件库系统10,参照图4,图4是本发明提供的元件库系统的结构示意图之一。本发明实施例提供的元件库系统10包括数据获取模块11、数据预处理模块12、数据关联模块13、存储模块14、数据训练模块15、数据分析模块16和可视化模块17。基于分类计算模型100,在数据获取模块11获取一个或多个系统要素数据后,通过数据预处理模块12、数据关联模块13和数据分析模块16,关联并整合所述获取得到系统要素数据。
其中,数据预处理模块12用于对数据获取模块11获取到系统要素的数据进行处理,得到合成生物学中的各个基本单元模型;数据关联模块13用于建立各个基本单元模型的关联映射和系统要素之间的关联映射;存储模块14用于存储各个基本单元模型以及基本单元模型的关联映射和系统要素之间的关联映射,并将各个基本单元模型同步至数据搜索引擎;数据分析模块16用于响应数据搜索引擎,自动匹配所述基本单元模型以及进行相似度分析。
在本实施例中,数据获取模块11还包括数据录入子模块111或/和数据搜索子模块112。其中,数据获取模块11通过数据录入子模块111将数据输入至存储模块14,数据训练模块15、数据分析模块16、数据搜索子模块112和可视化模块17调用存储模块14中的数据。对于数据获取模块11:数据获取模块11通过数据录入子模块111获取用户手动录入的数据,或者其他第三方元件库的数据。
对于数据预处理模块12:数据预处理模块12对数据获取模块11获取到的系统要素数据进行处理,得到合成生物学中的各个基本单元模型,各个基本单元模型即功能元件子模型101、复制单元子模型102、生物系统子模型103、代谢产物子模型104和实验方法子模型105。
对于数据关联模块13:数据关联模块13建立各个基本单元模型的关联映射和系统要素之间的关联映射。
对于存储模块14:存储模块14存储各个基本单元模型以及基本单元模型的关联映射和系统要素之间的关联映射,并将各个基本单元模型同步至数据搜索引擎。
对于数据训练模块15:数据训练模块15根据存储模块14存储的基本单元模型及数据关系进行训练,输出系统要素之间的数据关系预测模型。
对于数据分析模块16:数据分析模块16响应数据搜索引擎,自动匹配基本单元模型以及进行相似度分析。
对于可视化模块17:可视化模块17调用存储模块14,将数据预处理模块12、数据关联模块13和数据分析模块16的结果,通过显示单元显示到显示界面。
本发明实施例提供的元件库系统是基于分类计算模型、获取模块、数据预处理模块、数据关联模块、存储模块、数据训练模块、数据分析模块和可视化模块构成的,使得本发明实施例元件库系统具有结构化的、可溯源的和提供检索功能,极大地方便用户对合成生物学数据进行录入和管理,实验及应用数据的收集和归档,数据资源和应用经验的分析和利用。
对于数据获取模块11的具体分析如下:数据获取模块11通过数据录入子模块111获取用户手动录入的数据,或者其他元件库的数据,因此可理解为,数据录入子模块111包括公开接入第三方数据功能和接受用户手动录入的功能,通过公开接入方式获取其他元件库的数据,通过手动录入方式获取用户手动录入的数据。例如,对于用户手动录入的数据,即实验人员基于手动录入方式使用本发明所述元件库进行录入操作,同时,基于元件库系统中的分类计算模型100解析手动录入的元件库数据,并自动关联映射与现有的元件库数据之间存在的关联关系。
在一实施例中,以通过手动录入实例A进行举例说明,具体的手动录入流程分析如下:
第一步:用户由显示界面进入元件库界面之前,若用户为第一次使用,则需要进行用户注册,用户注册方式包括但不限制于手机号码注册方式和身份证注册方式。若用户不是第一次使用,则需要通过账号密码登录。
第二步:在确定用户注册/登录成功后,进入功能元件界面,依据录入实例A的项目内容,新建项目中的功能元件的内容,具体包括:第一部分:必填或必选的字段内容,例如:名称;生物学功能分类;元件类型,进一步包括:基本元件和复合元件,其中,复合元件进一步包括选择添加复合元件中基本元件;保密性;功能元件功能概要;功能元件参考标准序列。 第二部分:可填或必选的字段内容,例如: 索引号(不填则系统自动生成);别称;来源物种;添加需要搭配使用的元件;添加衍生关系;参考文献;属性标签。
第三步:进入复制单元界面,依据录入实例A的项目内容,新建项目中的复制单元的内容,具体包括:第一部分:必填或必选的字段内容,例如:名称;复制单元类型;复制方式;可扩展性;分子构型;保密性。 第二部分:可填或必选的字段内容,例如:索引号(不填则系统自动生成); 别称;上传序列图谱;复制单元构建方法;复制单元复制方法;复制单元概要说明;复制单元保藏信息;添加复制单元包含的功能元件,进一步包括:元件库中原有的功能元件,以及在上一步录入的功能元件;添加衍生关系;参考文献。
第四步:进入生物系统界面,依据录入实例A的项目内容,新建项目中的生物系统的内容,具体包括:第一部分:必填或必选的字段内容,例如:名称;生物系统类型;功能可逆性;遗传稳定性;保密性。第二部分:可填或必选的字段内容,例如:索引号(不填则系统自动生成);别称; 生物系统功能概要; 生物系统构建方法;生物系统相关实验数据;保藏信息;上传生物系统相关资料;添加生物系统的构成成分,进一步包括:元件库中原有的复制单元,以及在上一步录入的复制单元;添加生物系统关键元件;添加衍生关系;添加生物系统产物和产量;参考文献。
第五步:进入代谢产物界面,依据录入实例A的项目内容,新建项目中的代谢产物的内容,具体包括:第一部分:必填或必选的字段内容,例如: 名称;生物系统类型; 保密性;添加项目中产生代谢产物的生物系统和产量。第二部分:索引号(不填则系统自动生成);别称;代谢产物概要说明;代谢产物相关实验数据;保藏信息;添加衍生关系;参考文献。
第六步:进入实验方法界面,依据录入实例A的项目内容,新建项目中的实验方法的内容,具体包括:第一部分:必填或必选的字段内容,例如: 名称; 所属分类; 保密性;实验方法内容。第二部分:索引号;(不填则系统自动生成);别称;上传实验方法文件;添加关联的实验方法;添加应用实验方法的功能元件、复制单元、生物系统、代谢产物;参考文献。
第七步:进入录入审核,用户将录入实例A提交审核;通过审核后的数据进入存储模块,直接记录在元件库中;若录入实例A未通过审核,系统会自动提醒用户再次修改录入实例A后,再次提交审核,直到录入实例A符合标准。
进一步需要说明的是,本发明实施例在接入数据时需要设置数据权限,即将接入数据设置为保密数据和公开数据,保证了数据的安全性,同时为保密数据和存储,以及保密数据与公开数据的取用提供便利。具体的,将接入数据设置为保密数据和公开数据两种类型,如在用户在录入数据时,可根据需求选择是否将接入数据设置为保密数据,保密数据即只对具有特殊权限的用户开放。同时,保密权限以及保密数据可由具有相应编辑权限的用户选择是否加密或公开。
在另一实施例中,对于其他元件库的数据,元件库系统10具备兼容第三方公开元件数据库能力。需要说明的是,通过公开数据库接入的系统要素数据也是需要基于分类计算模型100解析后进行存储,便于后续的搜索及调用。在本实施例中对于系统要素数据的存储于记录采用以下的编排方式:
可以根据功能元件的唯一编码录入功能元件,功能元件的唯一编码由E开头字母+入库时间信息+流水号信息组成,如功能元件a的唯一编码为E2022071920082480。
可以根据复制单元的唯一编码录入复制单元,复制单元的唯一编码由R开头字母+入库时间信息+流水号信息组成,如复制单元Ⅰ的唯一编码为R2022071714332664。
可以根据生物系统的唯一编码录入生物系统,生物系统的唯一编码由S开头字母+登记时间信息+流水号信息组成,如生物系统的唯一编码为S20220717143352560。
可以根据代谢产物的唯一编码录入代谢产物,代谢产物的唯一编码由P开头字母+登记时间信息+流水号信息组成,如代谢产物x的唯一编码为P20220052617089225。
可以根据实验方法的唯一编码录入实验方法,实验方法的唯一编码由M开头字母+登记时间信息+流水号信息组成,如实验方法1的唯一编码为M2022062310000000。
需要说明的是,对于本发明实施例提供的录入功能,在研究学习阶段,缺乏有效的归纳整理信息的方式,以及缺乏长期稳定的保存方式,研究人员之间缺乏高效的信息互通时,通过本发明提供的元件库系统可录入项目产出的相关信项目产出的信息,并进行归档保存, 方便日后调用。本发明实施例提供的数据获取模块,极大地方便用户对合成生物学数据的录入。
对于数据预处理模块12的具体分析如下:对于数据获取模块11获取到的系统要素数据,包括第三方数据以及用户手动录入数据,需要通过数据预处理模块12进行批量的数据清洗、数据打标和数据映射,因此,在一实施例中,数据预处理模块12包括数据清洗单元121、数据打标单元122和数据映射单元123。具体的:数据预处理模块12通过数据清洗单元121对数据获取模块11获取到的第三方公开的元件库数据进行数据清洗,快速筛选第三方公开的元件库数据的质量,把控非法或者低质量的第三方公开的元件库数据不进入系统数据库。数据预处理模块12通过数据打标单元122分析数据获取模块11获取到的第三方公开的元件库数据的数据结构、关键字、引用关系,对第三方公开的元件库数据进行数据打标签。最后,数据预处理模块12通过数据映射单元123将第三方公开的元件库数据的结构与系统数据结构一一进行数据映射。
本发明实施例提供的数据预处理模块12,将数据获取模块11获取到的第三方公开的数据的结构与系统数据结构一一进行数据映射,极大的增大了本发明元件库系统的数据兼容性和数据储备量,便用户对合成生物学数据的管理与再利用。
对于数据关联模块13的具体分析如下:数据关联模块13提供数据(用户手动录入的数据和第三方公开的数据)之间关联映射的建立,用户录入数据时可选择手动确定数据关系,也可参考数据训练模块15、数据分析模块16提供的智能推荐与元件库系统10中现有的元件库数据建立数据关系,数据关系是双向的,单方的关系变更会实时同步双向数据,数据关系一旦建立,关系可被搜索。
本发明提供的数据关联模块支持单次录入数据以及多次录入数据之间自动关联,因此,反向搜索的过程中,能够提供更多的生物学元件的关联信息,有利于用户获取更多结构化的、可溯源的数据内容。
需要说明的是存储模块14包括但不限制于实体存储装置,存储体装置和虚拟存储装置,对于存储模块14的具体分析如下:
数据录入到元件库系统10后,各个基本单元模型会被持久化存储在元件库系统10的存储模块中,在需要删除某些数据时,需要具备权限的操作人员手动删除。
在一实施例中,存储模块14中包括图数据库单元141和数据搜索引擎单元142,图数据库单元141将接入数据进行存储,图数据库单元141也可对复杂的数据关系提供快速检索和分析能力。同时,数据搜索引擎单元142将数据实时同步到搜索引擎,方便用户实时搜索数据。
本发明实施例提供的存储模块提供快速检索和分析能力和将数据实时同步到搜索引擎,实现了对实验及应用数据的收集和归档,同时极大地方便用户实时搜索数据。
对于数据训练模块15的具体分析如下:数据训练模块15根据各个基本单元模型进行训练,得到数据关系预测模型,数据关系预测模型可以快速识别并分析数据获取模块11中获取到的数据。在一实施例中,数据训练模块15中的算法为深度学习和深度挖掘,因此,在一实施例中,参照图5,图5是本发明实施例提供的数据训练模块15的结构示意图,数据训练模块15包括深度学习单元151和深度挖掘单元152。数据训练模块15通过机器学习单元151和深度挖掘单元152对数据获取模块11中获取到的数据进行训练,提供精准的数据关系预测模型;并将数据关系预测模型给到数据分析模块,进行下一步的数据分析,以精确匹配为相关的元件,以及精确计算相关元件的相似度。例如,对于现有未定义或分类的合成生物学系统要素,通过上述预测学习过程,可以在本实施例提供的元件库系统中自动化完成包括DNA片段匹配与DNA的相似度分析。
本发明实施例提供的数据训练模块实现了对数据资源和应用经验的分析和利用。
对于数据分析模块16的具体分析如下:数据分析模块16提供片段匹配功能和相似度分析功能,在一实施例中,数据分析模块16提供DNA(DeoxyriboNucleic Acid,脱氧核糖核酸)片段匹配功能和DNA相似度分析功能,即可以理解为,数据分析模块16包括DNA片段匹配单元161和DNA相似度分析单元162。数据分析模块16通过集成blast(生物大分子序列对比)算法、blastn(核酸序列对核酸序列库比对)算法、blastx(核酸序列对蛋白质序列库比对)算法、blastp(蛋白质序列对蛋白质序列库比对)算法和tblastn(蛋白序列对核酸序列库比对)算法提供DNA片段匹配功能和DNA相似度分析功能。
对于数据搜索子模块112的具体分析如下:数据搜索子模块112提供多维度的数据检索功能,并根据用户输入搜索条件结合数据分析模块匹配搜索结果。在一实施例中,数据搜索子模块112提供全局搜索功能、模块搜索功能和NLP(Natural Language Processing)自然语言处理功能,可以理解为,数据搜索子模块112支持全局搜索、模块搜索和自然语言处理功能。因此,在数据搜索子模块112中,通过全局搜索方式模糊搜索系统内所有数据的,搜索结果提供高亮显示,并且支持灵活的搜索条件设置和搜索条件权重设置。用户可以进行全局搜索,即用户直接在显示界面入口处,输入需要搜索的字段,进行模糊搜索,搜索结果会由系统直接提供,并进行高亮显示;或者灵活设置搜索条件和搜索条件的权重进行搜索。在一实施例中,关键词搜索方式中加入“and”“or”的搜索模式:如“A”and“B”搜索包含A和B的内容;“A”or“B”搜索包含A或者包含B的内容。通过模块搜索方式,本发明元件库系统10基于功能元件、复制单元、生物系统、代谢产物和实验方法等系统要素,提供多维度的数据检索能力。在一实施例中,根据五个类别各自的特点进行针对性搜索,如第一类(功能元件):索引号、名称(别称)、生物学功能分类、功能概述、标准参考序列、功能概述、序列、属性标签、包含的功能元件。第二类(复制单元):索引号、名称(别称)、构建方法、概要说明、复制方法、包含的功能元件、保藏信息。第三类(生物系统):索引号、名称(别称)、功能概要、构建方式、相关实验数据、系统构成、关键元件、产物、保藏信息。第四类(代谢产物):索引号、名称(别称)、功能描述、相关实验数据、生产者、保藏信息。第五类(实验方法):索引号、名称(别称)、实验方案、所属分类。元件库系统10通过NLP自然语言处理实现对用户输入搜索条件的智能处理,结合数据分析模块对搜索结果精准匹配。本发明实施例提供的数据搜索子模块,极大地方便用户实时搜索数据。同时,基于本发明提供的元件库系统可以提供设计所需相关信息,方便按需检索调用,减少查找时间。
对于可视化模块17的具体分析如下:通过可视化模块17以可视化方式展示数据关系、数据引用和衍生关系,在一实施例中,显示单元的显示方式包括图谱可视化显示和数据可视化显示,因此参照图6,图6是本发明实施例提供的可视化模块17的结构示意图,可视化模块17包括数据可视化单元171和图谱可视化单元172。用户在元件库系统10的数据可视化单元171内可以直观的查看数据的完整信息,完整信息包括但不限制于数据关系和历史操作记录。在元件库系统10的图谱可视化单元172直观的展示数据间的复杂引用和衍生关系。本发明提供的可视化模块将数据可视化,使得可以精确定位目标信息。
在功能元件的显示界面中,可获得功能元件的信息包括但不限制于编号信息、元件类型(如基础元件或复合元件)、生物学功能归类与功能描述信息、序列信息和需要搭配使用的其他功能元件、衍生关系、在生物系统中的工作状态和总体信息描述。例如,功能元件a,在功能元件a的显示界面,可获得功能元件a中基本信息包括{索引号、名称、别称、来源物种、生物学功能归类、元件类型等。进一步地,在功能元件a的显示界面中,还可以获得功能元件a的功能描述信息、参考标准序列、需要搭配使用的其他功能元件、衍生关系、参与构成的复合元件、文献参考和属性标签。生物学功能归类与功能描述信息包括功能元件的功能归类信息,及与其它功能元件之间关联的联系信息和衍生关系信息,其中,功能元件的功能归类信息指的是将各种功能元件的生物学功能进行归类,并选择相应的功能归类标签对它们进行标注。与其它功能元件之间关联的联系信息包括该功能元件发挥功能所需搭配的指定功能元件,或该功能元件正常发挥功能所需避免共存的指定功能元件。与其它功能元件之间关联的衍生关系信息包括改造出本功能元件的母本元件以及由本功能元件衍生出的子级元件。序列信息为理论上编码有实现功能元件基本功能的全部信息的核酸序列。总体信息描述包括功能元件的来源信息、功能特征的摘要性叙述,由文献和实验中获得的对功能元件使用的注意事项及应用中发生的情况的摘要。功能元件中关联有搭配使用的其他功能元件和自身包含的其他功能元件。
在复制单元的显示界面,可获得复制单元的信息包括但不限制于编号信息、功能元件列表、序列信息、保藏分发信息和总体描述信息。例如,可获得复制单元Ⅰ的基本信息包括索引号、名称、别称、类型、分析结构、可扩展性等。进一步地,还可获得复制单元Ⅰ的构建方法、复制方法、概要说明、保存信息、复制单元所包含的功能元件和衍生关系。功能元件列表中包括复制单元的全部功能元件,其中,复制单元所含功能元件的列表应当列有复制单元中包含的全部功能元件,列表中功能元件的排列顺序与复制单元的实际序列一致。但是序列上具体的一段是否被认定为功能元件而登记在列表中,由录入人决定,而不由其序列特征决定。序列信息为包含注释的序列图谱文件。保藏分发信息包括复制单元所在的宿主、可搭配使用的宿主、保藏位置、复制单元的扩增条件和遗传稳定性相关信息。总体描述信息包括对复制单元保藏和分发信息中未尽细节的描述信息,但不包括对复制单元的功能描述信息。复制单元关联有与其他复制单元的衍生关系。
在生物系统的显示界面中,可获得生物系统的信息包括但不限制于编号信息、复制单元列表和实验描述信息。例如,生物系统,在生物系统/>的显示界面中,可获得生物系统/>的基本信息包括索引号、名称、别称、类型、功能可逆性、遗传稳定性等。进一步地,在生物系统/>的显示界面中,还可获得生物系统/>的功能概要、构建方法、保存信息、相关实验数据和衍生关系。复制单元列表中包括生物系统的全部复制单元,即复制单元列表包括构成本生物系统的包括底盘宿主在内的所有复制单元。实验描述信息包括对生物系统预期功能的描述信息,以及使用生物系统进行的所有获得了结果数据的实验材料、实验过程和实验结果的记录信息。进一步地,生物系统关联有与其他生物系统的衍生关系。
在代谢产物的显示界面中,可获得代谢产物的信息包括但不限制于编号信息、生物系统列表和产物描述信息。例如,代谢产物x,在代谢产物x的显示界面中,可获得代谢产物x的基本信息包括索引号、名称、别称、类型等。进一步地,在代谢产物x的显示界面中,还可获得代谢产物x的概要说明、保存信息、生产者、相关实验数据和衍生关系。生物系统列表包括能够产生代谢产物的全部生物系统。对于产物描述信息,产物描述信息包括产物成分分析信息、产物纯化方法信息、产物处理方法信息、产物物理性质信息和产物化学性质信息。进一步地,代谢产物标关联有与其他代谢产物的衍生关系。
在实验方法的显示界面中,可获得实验方法的信息包括但不限制于括编号信息、方案名称信息、方案分类信息、实施条件信息、方案流程信息和实施案例信息。如,实验方法1,在实验方法1的显示界面,可获得实验方法1的基本信息包括索引号、名称、别称、分类等。在实验方法1的显示界面,还可获得实验方法1的具体实验方法和关联的其他方法。实验方法的实施案例可根据用户实际需要被引用为相关且典型的复制单元、生物系统或代谢产物辅助说明。
进一步地,本发明实施例提供的元件库系统10还提供了用户管理功能,用户管理功能包括但不限制于用户注册功能、用户登录功能、用户权限管理功能、用户信息修改功能、文件数据新建功能和自定义常用功能。具体地,对用户注册功能、用户登录功能、用户权限管理功能和用户信息修改功能进行举例说明书。
对于用户信息修改的过程,具体分析为:用户管理模块提供用户修改自己信息的功能。当进入信息修改界面,首先会获取Session中当前用户信息,供用户在当前信息基础上进行信息修改。当用户填写完修改信息,并发送修改请求后,后台将响应用户的请求,首先得到所有用户修改参数,然后将修改的信息设置到该对象中,最后更新数据库,将更新结果发送给用户。
在另一实施例中,参照图7,图7是本发明提供的元件库系统10的结构示意图之二。元件库系统10基于分析计算模型100,元件库系统10具体包括:数据获取模块11,数据获取模块11包括数据录入子模块111和数据搜索子模块112;数据录入子模块111;数据预处理模块12,数据预处理模块12包括数据清洗单元121、数据打标单元122和数据映射单元123;数据关联模块13;存储模块14,存储模块14中包括图数据库单元141和数据搜索引擎单元142;数据训练模块15,数据训练模块15包括深度学习单元151和深度挖掘单元152;数据分析模块16,数据分析模块16包括DNA片段匹配单元161和DNA相似度分析单元162;;可视化模块17,可视化模块17包括数据可视化单元171和图谱可视化单元172。
本发明提供的元件库系统支持单次录入数据以及多次录入数据之间自动关联,因此,在反向搜索的过程中,能够提供更多的生物学元件的关联信息,有利于用户获取更多结构化的、可溯源的数据内容,可以极大地方便使用者对生物元件进行方便的录入和管理、实验及应用数据的收集和归档、数据资源和应用经验的分析和利用。
进一步地,参照图8,图8是本发明提供的合成生物学元件的解析方法的流程图。元件的解析方法是基于元件库系统实现的,合成生物学元件的解析方法包括:
S101,对获取到的数据进行数据预处理,并通过所述基本单元模型进行解析,得到生物学系统要素中的对应的元件;
S102,基于各个所述基本单元模型关联并整合生物学系统要素中的一个或多个系统要素;
S103,建立各个所述对应的元件之间的关联关系和所述系统要素之间的关联关系;
S104,基于所述对应的元件和建立的所述关联关系,响应所述元件库系统应用端的需求,并进行反馈。
具体地,通过数据获取模块11获取到数据(获取到数据包括用户手动录入的数据和其他元件库的数据)后,通过数据预处理模块12对获取到的数据进行预处理,通过合成生物学中的各个基本单元模型进行解析,得到合成生物学系统要素中的对应的元件。这里所述的对应的元件包括系统要素的中的功能元件、复制单元、生物系统、代谢产物和实验方法。进一步地,基于各个基本单元模型关联并整合合成生物学中的一个或多个系统要素,基本单元模型包括功能元件子模型101、复制单元子模型102、生物系统子模型103、代谢产物子模型104和实验方法子模型105,进一步关联并整合合成生物学中的一个或多个系统要素。
进一步地,通过数据关联模块13和数据分析模块16,建立功能元件子模型101、复制单元子模型102、生物系统子模型103、代谢产物子模型104和实验方法子模型105之间的关联映射,以及系统要素之间的关联映射。最后,将解析的系统要素数据,包括功能元件、复制单元、生物系统、代谢产物和实验方法之间的关联关系,以及系统要素之间的关系存储至存储模块14。
侦测到元件库系统应用端的用户需求时,根据基本单元模型和建立的关联映射,响应需求并调用在存储模块中的数据,包括功能元件、复制单元、生物系统、代谢产物和实验方法之间的关联关系,以及系统要素之间的关联关系等,最后通过可视化模块17中进行显示,显示在终端显示界面中。
需要说明的是,用于合成生物学元件的解析方法的过程与分类计算模型的过程同理,在此不再赘述。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种元件库系统,其特征在于,所述元件库系统包括:分类计算模型、数据获取模块、数据预处理模块、数据关联模块、存储模块和数据分析模块;
所述分类计算模型,用于基于生物学系统要素的特征划分并建立生物学中的基本单元模型;所述基本单元模型用于整合并关联生物学数据中的一个或多个系统要素;
其中,所述基本单元模型包括功能元件子模型、复制单元子模型、生物系统子模型、代谢产物子模型和实验方法子模型;
所述功能元件子模型,用于整合所述系统要素中的DNA脱氧核糖核酸,建立对应的不可分割的DNA脱氧核糖核酸片段组件;
所述复制单元子模型,用于整合所述系统要素中的以单一整体为单位进行复制的核酸分子或底盘宿主细胞;
所述生物系统子模型,用于整合所述系统要素中的记录和描述功能测试实验结果的生物材料;
所述代谢产物子模型,用于整合所述系统要素中的代谢产物;
所述实验方法子模型,用于整合所述系统要素中的实验操作流程和实验检测方法;
所述基本单元模型之间基于生物学特征相互关联映射,所述关联映射包括单向关联映射和/或双向关联映射;基于所述关联映射将生物学中的一个或多个系统要素进行关联;
其中,所述功能元件子模型的将合成生物学系统要素中的功能元件对应的数据进行解析;所述功能元件包括基础元件和复合元件;所述复合元件为由基础元件或其它复合元件组装的元件;
所述复制单元子模型将合成生物学系统要素中的复制单元对应的数据进行解析;所述复制单元与所述功能元件之间为双向关联关系;所述复制单元中包括多个功能元件,且每个功能元件可用于统计出参与构成的所有复制单元;
所述生物系统子模型将合成生物学系统要素中的生物系统对应的数据进行解析;所述生物系统与所述功能元件之间为双向关联关系;所述生物系统中包括多个复制单元,且每个复制单元可用于统计出参与构成的所有生物系统;
所述代谢产物子模型将合成生物学系统要素中的代谢产物对应的数据进行解析;所述代谢产物与所述生物系统之间为双向关联关系;所述代谢产物为单一或多个生物系统,产生的初级或次级代谢产物或产物集合,且每个生物系统可用于统计出所属代谢产物的生成;
所述实验方法子模型将合成生物学系统要素中的实验方法对应的数据进行解析;所述实验方法与所述复制单元、所述实验方法与所述生物系统,以及所述实验方法与所述代谢产物之间为双向关联关系;所述实验方法可以被复制单元、生物系统或代谢产物所涉及的实验所引用;
基于所述分类计算模型,在所述数据获取模块获取一个或多个系统要素数据后,通过所述数据预处理模块、数据关联模块和数据分析模块,关联并整合所述获取得到系统要素数据;并通过所述存储模块进行存储;
其中,所述数据预处理模块用于对所述数据获取模块获取到系统要素的数据进行处理,将处理后的数据整合到各个基本单元模型;
所述数据关联模块用于建立各个所述基本单元模型的关联映射和系统要素之间的关联映射;
所述存储模块用于存储各个所述基本单元模型以及所述基本单元模型的关联映射和系统要素之间的关联映射,并将各个所述基本单元模型同步至数据搜索引擎;
所述数据分析模块用于响应数据搜索引擎,自动匹配所述基本单元模型以及进行相似度分析。
2.根据权利要求1所述的元件库系统,其特征在于,所述元件库系统还包括数据训练模块;
所述数据训练模块用于根据所述存储模块存储的基本单元模型及数据关系进行训练,输出系统要素之间的数据关系预测模型,并将数据关系预测模型给到数据分析模块;
其中,所述数据关系预测模型,用于快速识别并分析所述数据获取模块中获取的数据。
3.根据权利要求1所述的元件库系统,其特征在于,所述元件库系统还包括可视化模块;
所述可视化模块用于调用所述存储模块,将所述数据预处理模块、所述数据关联模块和所述数据分析模块的结果,通过显示单元显示到显示界面;其中,所述显示单元包括图谱可视化显示单元和数据可视化显示单元。
4.根据权利要求1至3任一项所述的元件库系统,其特征在于,所述数据获取模块包括数据录入子模块或/和数据搜索子模块;所述数据录入子模块包括公开录入单元或/和手动录入单元,用于录入数据;所述数据搜索子模块包括全局搜索单元、模块搜索单元和自然语言处理单元,用于获取用户输入搜索条件,结合所述数据分析模块自动匹配搜索结果。
5.一种元件的解析方法,其特征在于,基于权利要求1至4任一项所述的元件库系统,所述元件的解析方法,包括:
对获取到的数据进行数据预处理,并通过所述基本单元模型进行解析,得到生物学系统要素中的对应的元件;
基于各个所述基本单元模型关联并整合生物学系统要素中的一个或多个系统要素;
建立各个所述对应的元件之间的关联关系和所述系统要素之间的关联关系;
基于所述对应的元件和建立的所述关联关系,响应所述元件库系统应用端的需求,并进行反馈。
6.一种电子设备,所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求5所述的元件的解析方法。
7.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求5所述的元件的解析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211104915.8A CN116110499B (zh) | 2022-09-09 | 2022-09-09 | 基于生物学的分类计算模型的元件库系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211104915.8A CN116110499B (zh) | 2022-09-09 | 2022-09-09 | 基于生物学的分类计算模型的元件库系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116110499A CN116110499A (zh) | 2023-05-12 |
CN116110499B true CN116110499B (zh) | 2024-04-02 |
Family
ID=86258555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211104915.8A Active CN116110499B (zh) | 2022-09-09 | 2022-09-09 | 基于生物学的分类计算模型的元件库系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116110499B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102142064A (zh) * | 2011-04-21 | 2011-08-03 | 华东师范大学 | 生物分子网络展示分析系统及其分析方法 |
CN105027129A (zh) * | 2012-12-14 | 2015-11-04 | 生命技术控股私人有限公司 | 用于计算机设计的方法和系统 |
CN107862028A (zh) * | 2017-10-27 | 2018-03-30 | 湖北三新文化传媒有限公司 | 建立标准学术模型方法、服务器及存储介质 |
CN109992645A (zh) * | 2019-03-29 | 2019-07-09 | 国家计算机网络与信息安全管理中心 | 一种基于文本数据的资料管理系统及方法 |
CN111161804A (zh) * | 2019-12-27 | 2020-05-15 | 北京百迈客生物科技有限公司 | 一种用于物种基因组学数据库的查询方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005017692A2 (en) * | 2003-08-12 | 2005-02-24 | Cognia Corporation | An advanced databasing system for chemical, molecular and cellular biology |
-
2022
- 2022-09-09 CN CN202211104915.8A patent/CN116110499B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102142064A (zh) * | 2011-04-21 | 2011-08-03 | 华东师范大学 | 生物分子网络展示分析系统及其分析方法 |
CN105027129A (zh) * | 2012-12-14 | 2015-11-04 | 生命技术控股私人有限公司 | 用于计算机设计的方法和系统 |
CN107862028A (zh) * | 2017-10-27 | 2018-03-30 | 湖北三新文化传媒有限公司 | 建立标准学术模型方法、服务器及存储介质 |
CN109992645A (zh) * | 2019-03-29 | 2019-07-09 | 国家计算机网络与信息安全管理中心 | 一种基于文本数据的资料管理系统及方法 |
CN111161804A (zh) * | 2019-12-27 | 2020-05-15 | 北京百迈客生物科技有限公司 | 一种用于物种基因组学数据库的查询方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116110499A (zh) | 2023-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Willis et al. | Analysis and synthesis of metadata goals for scientific data | |
Ji et al. | Identifying time-lagged gene clusters using gene expression data | |
Paton et al. | Conceptual modelling of genomic information | |
CN101490675A (zh) | 用于重用数据访问和呈现元素的方法和装置 | |
CN106055540A (zh) | 一种数据处理方法及装置 | |
CN111950921A (zh) | 一种基于离线组网环境的多人协同评审方法 | |
US8463763B2 (en) | Method and tool for searching in several data sources for a selected community of users | |
CN114356967A (zh) | 一种专业情报搜集分析应用平台 | |
CN110347820A (zh) | 一种电网文本信息匹配的方法、系统和存储介质 | |
Spasić et al. | MeMo: a hybrid SQL/XML approach to metabolomic data management for functional genomics | |
Henning et al. | Building compatible and dynamic character matrices–Current and future use of specimen-based character data | |
US20140365498A1 (en) | Finding A Data Item Of A Plurality Of Data Items Stored In A Digital Data Storage | |
Zhitomirsky-Geffet et al. | What do they make us see: a comparative study of cultural bias in online databases of two large museums | |
CN116110499B (zh) | 基于生物学的分类计算模型的元件库系统 | |
TWI296380B (en) | Method and apparatus for electronic document collection | |
Ali et al. | Distributed data mining systems: techniques, approaches and algorithms | |
CN109062551A (zh) | 基于大数据开发命令集的开发框架 | |
Gureev et al. | Themes of the publications of an organization as a basis for forming an objective and optimal repertoire of scientific periodicals | |
Gueguen | Metadata quality at scale: Metadata quality control at the Digital Public Library of America | |
Ziegler et al. | PAL: toward a recommendation system for manuscripts | |
Ravelli et al. | Integrated Search System: evolving the authority files | |
KR20080039864A (ko) | 문서분석을 위한 사용자 인터페이스 시스템 | |
Devignes et al. | BioRegistry: Automatic extraction of metadata for biological database retrieval and discovery | |
LU504881B1 (en) | Intelligent collection method and system for engineering archives based on enabling thinking | |
Brand et al. | Detecting policy fields in German parliamentary materials with heterogeneous information networks and node embeddings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |