CN104077307B - 单细胞表现型数据库系统和搜索引擎 - Google Patents

单细胞表现型数据库系统和搜索引擎 Download PDF

Info

Publication number
CN104077307B
CN104077307B CN201310105207.0A CN201310105207A CN104077307B CN 104077307 B CN104077307 B CN 104077307B CN 201310105207 A CN201310105207 A CN 201310105207A CN 104077307 B CN104077307 B CN 104077307B
Authority
CN
China
Prior art keywords
data
unicellular
database
cell
search engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310105207.0A
Other languages
English (en)
Other versions
CN104077307A (zh
Inventor
任立辉
宁康
籍月彤
王允
徐健
黄巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Institute of Bioenergy and Bioprocess Technology of CAS
Original Assignee
Qingdao Institute of Bioenergy and Bioprocess Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Institute of Bioenergy and Bioprocess Technology of CAS filed Critical Qingdao Institute of Bioenergy and Bioprocess Technology of CAS
Priority to CN201310105207.0A priority Critical patent/CN104077307B/zh
Publication of CN104077307A publication Critical patent/CN104077307A/zh
Application granted granted Critical
Publication of CN104077307B publication Critical patent/CN104077307B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

“单细胞表现型数据库系统和搜索引擎”是针对目前国内很少有相关的单细胞表现型数据库和基于单细胞表现型数据库的搜索引擎,从而很难进行单细胞表型研究的问题,提出一种单细胞表现型数据库系统和搜索引擎方法。单细胞表现型数据库系统和搜索引擎的主要模块由单细胞表现型数据库和搜索引擎两部分组成。(1)单细胞表现型数据库系统,适应于存储单细胞的拉曼光谱数据和单细胞图像。核心是两层数据库结构和相应的数据处理方法。(2)基于单细胞表现型数据库的搜索引擎。搜索引擎可以将某个未知细胞的拉曼光谱数据和细胞图像作为查询数据,通过搜索整个单细胞表现型数据库并找出最佳匹配细胞,从而获取此未知细胞的详细信息。

Description

单细胞表现型数据库系统和搜索引擎
技术领域
本发明涉及单细胞研究领域,具体的讲是通过新一代的细胞分选装备,得到单个或群体细胞(微生物、植物、动物或人体细胞均适用)的图像和拉曼光谱信息,从而为对这些细胞的组学分析、改造和利用奠定根本的基础。针对不同种类的单细胞建立的一种单细胞表现型数据库系统和搜索引擎,服务于单细胞研究与细胞科学应用领域。
背景技术
单个细胞是生命活动的基本单元,地球上所有生物均由单细胞构成或单细胞分化形成。对单细胞进行深入系统的研究不仅可以全景式地揭示生命活动的本质,而且单个细胞的特异性与分化过程对于研究疾病机理和诊断预防疾病等具有重要的意义。“单细胞研究”(针对特定功能的单个细胞的分析)将能够解析生命体系最“深”层次的运作机制,因此能够带来生命科学及其在能源、环境、健康、农业、海洋等广泛应用领域的突破。美国国家健康研究院(NIH)更是于2012年9月启动了“Single Cell Analysis Program”,公布了对26个项目总计9000万美元的资助,主要用于单细胞领域新工具、新技术的开发
(http://commonfund.nih.gov/singlecell/fundedresearch.aspx.)。2012年12月21日的Science杂志将单细胞研究推选为2013年最值得关注的六大科学领域之一。
细胞的表现型也就是细胞的表现形式,即利用整体观测手段可以获得的、反映细胞生长状态的信息。对于单细胞而言,表示它特定的物理外观或成分,如细胞形状、大小、颜色特征、纹理特征、类别等等,都是表现型的例子。其中重要的方法包括显微鉴定单细胞形态,以及利用拉曼光谱仪等设备得到的细胞拉曼光谱信号。对单细胞进行研究,也就是对细胞形状、大小、颜色等相关信息分析和细胞种类的判别,这些均需借助于一个包含不同细胞及不同生长周期的表现型数据库及对应的搜索引擎来实现。而现阶段在国内很少有相关的单细胞表现型数据库系统和基于单细胞表现型数据库的搜索引擎的研究,使得建立一套单细胞表现型数据库系统和搜索引擎对单细胞进行研究具有重要的实用价值。
发明内容
本发明开发了一种单细胞表现型数据库系统和搜索引擎的方法,收集不同种类单细胞样品,通过构建单细胞表现型数据库系统,借助搜索引擎手段,来对未知细胞种类进行判别。主要包括以下两个方面内容(以下以微藻样品为对象示例):
1.单细胞表现型数据库系统是获取细胞信息的主要途径,是细胞识别与筛选的重要依据。单细胞表现型数据库存将已数据标准化之后的所有已扫描过的细胞不同时间的拉曼光谱数据和细胞图像结构化存储,并存储相应数据所代表的细胞详细物种信息。此外,数据库提供高效率的数据库操作的应用程序接口(API),供其他软件模块调用(图1)。因此设计了可扩展、多层次的单细胞表现型数据库系统,其核心是两层数据库结构和相应的数据处理方法(图2)。其中,(1)初级数据库中存储来源于单细胞拉曼信号采集设备和单细胞图像采集设备的原始数据(Raw Data),并记录单细胞相关信息(图3)。(2)核心数据库中存储来源于原始数据的,通过归一化和质量控制处理的,具有特定类型物种代表性的单细胞数据。其中的归一化和质量控制通过拉曼图谱分析模块完成,分析模块通过对光谱信号和单细胞图像进行数据分析,从而筛选出具有代表性的单细胞数据并存入核心数据库中。而代表性单细胞数据的筛选,主要通过基于所有单细胞聚类分析中的组间差异和组内差异等分析来获得。通常对于特定物种特定环境特定采集时间的单细胞数据均选出代表性高质量数据存储于核心数据库中。(3)核心数据库的重要用途是服务于基于单细胞拉曼图谱和单细胞图像的比较和搜索。(4)核心数据库还将和NCBI、MG-RAST等通用或专业功能基因组数据库连接,支撑单细胞基因型和表观型的整合分析。如将核心数据库中的微藻单细胞表观型数据和NSBI中的微藻基因型数据进行整合,进行聚类分析、特征选取等数据挖掘分析。(5)最后,基于核心数据库的搜索和与功能基因组数据库的连接,设计一系列针对特定生物学问题的分析流程,支撑各类基于单细胞数据的研究。
2.基于单细胞表现型数据库的搜索引擎可以将某个未知细胞的拉曼光谱数据或细胞图像作为查询数据,通过比对整个单细胞表型数据库并找出最佳匹配细胞,从而获取此未知细胞的详细信息(图4)。
由于单细胞表现型数据库非常庞大,如果按照线性的扫描方法依次匹配每一个细胞的所有拉曼光谱,数据库比对的耗时会非常高。在搜索数据库时,采取并行化的策略将整个数据库分割为多个子块并同时进行比对,然后将子块的比对结果整合起来,即可获得整个数据库的最佳匹配。
在进行数据库分割时,将整个数据库以细胞为最小单位分割成一些数据量较小的子块。对于每一个子块,由于其数据量较小,搜索和比对的时间也会大大缩小。而整个数据库的每个子块都是相对独立的,彼此之间的搜索比对互不影响。这样就可以同时比对大量的子块,从而提高比对效率。
在比对结果整合时,将所有子块的比对结果进行整合,来获得整体的最佳匹配。如果子块数量庞大,线性整合也会成为计算的瓶颈。对于大规模数据的整合,可以利用归并算法:设定一个阈值,如果数据库子块的数量超过此阈值,那么将这些需要整合的数据再次拆分并且并行化进行整合,直到需要整合的数据数量低于所设定的阈值。这样,就可将线性整合的时间复杂度O(n)降低为O(logn)。
本发明的有益效果是,单细胞表现型数据库系统和搜索引擎相配合,克服了不能对未知细胞种类进行判别的瓶颈,而且借助于新一代的细胞分选装备可以实现原位、实时对细胞种类进行判别,易于普及市场。本发明的应用将会提速单细胞分析的研究。
附图说明
图1、单细胞表现型数据库系统结构图。其主要部分是:第一,数据库的建立:根据一系列拉曼光谱的数据与细胞的详细物种信息,将拉曼光谱数据格式化并建立与细胞的对应关系。之后将所有的数据结构化存储,建立新的数据库。第二,数据库信息插入:当扫描新的细胞时,可以将此细胞的所有拉曼光谱数据和图像数据格式化,并与此细胞的详细信息建立对应关系,一并插入到已经存在的数据库中。如果扫描了数据库中已存在的细胞不同时间的拉曼光谱数据和图像数据,也可将数据格式化并建立对应关系后,插入到数据库合适位置中。第三,数据库信息删除:如果数据库中某个细胞的拉曼光谱数据和图像数据已经不需要,可以将此细胞所有的数据与信息从数据库中删除。另外细胞的某个时间的拉曼光谱数据也可以被单独删除而不影响此细胞的其他的拉曼光谱数据和图像数据。第四,基因组接口:标准化单细胞表现型数据库提供基因组接口,来实现细胞拉曼光谱数据、单细胞图像数据与基因组数据的相互转换。通过此接口,可以由细胞的拉曼光谱数据来获得相应的基因组数据,也可通过基因组数据来获得此细胞数据库中所存储的拉曼光谱数据和图像数据。
图2、数据库系统结构和关系。数据库系统结构可以分为两部分:(1)数据库更新和备份机制。通过基于MySQL的数据库插入、删除、更新等操作,建立数据库中数据的更新机制;通过软硬件结合的办法,利用定期RAID备份等方法,建立数据库备份机制。(2)数据库索引和搜索机制。基于单细胞物种、功能、环境等不同类型的特征建立索引,提高搜索效率,同时借助于数据库搜索算法实现单细胞表型研究。
图3、初级数据库系统原型架构图。初级数据库中记录单细胞4类信息:A、项目信息,如序号,测试时间等。B、样品制备信息,如细胞名字,温度等。C、仪器参数,如激光器波长,光栅,积分时间等。D、细胞信息,如位置、图像、拉曼谱图等。
图4、基于单细胞表现型数据库的搜索引擎结构图。在进行单细胞表现型数据库比对时,采取了并行化比对策略,采用分治算法,将数据库分成较小的块,这样每一块中数据的比对时间相对于整个数据库来说都将大大缩短,由于每一个块中的数据库比对是独立的,这些比对可以被同时计算。所有的数据库子块中数据比对完毕后,将比对结果进行汇总并选出最佳匹配。
具体实施方式
在图1中,单细胞表现型数据库系统的软件平台基本配置是:Windows XP操作系统,预装MySQL数据库。
在图2中,数据库系统结构和关系的硬件基本配置是:包含GPGPU(通用并行处理器)运行硬件的超级计算机,CPU至少两个核心,运算速度至少2Ghz以上,内存至少2GB以上,硬盘至少50G以上。CPU、GPGPU和存储之间高速互联。
在图3中,初级数据库系统原型架构图依赖于MySQL数据库的建立。
在图4中,基于单细胞表现型数据库的搜索引擎结构图的软件平台基本配置是:Windows XP操作系统,预装MySQL数据库和单细胞表型数据。

Claims (2)

1.一种单细胞表现型数据搜索系统,其特征是:所述搜索系统包括单细胞表现型数据库和搜索引擎,单细胞表现型数据库中包括单细胞图像、细胞光谱数据、细胞培养条件、测试条件,搜索引擎是以某个未知细胞的拉曼光谱数据或细胞图像作为查询数据,通过比对整个单细胞表现型数据库并找出最佳匹配细胞,从而获取此未知细胞的详细信息;
所述单细胞表现型数据库是两层数据库结构,初级数据库中存储来源于单细胞拉曼信号采集设备和单细胞图像采集设备的原始数据,并记录单细胞光谱和图像信息;核心数据库中存储来源于原始数据的,通过归一化和质量控制处理的,具有特定类型物种代表性的单细胞数据;归一化和质量控制通过拉曼图谱分析模块完成,所述分析模块通过对光谱信号和单细胞图像进行数据分析,筛选出具有代表性的单细胞数据并存入核心数据库中;代表性单细胞数据的筛选,通过基于所有单细胞聚类分析中的组间差异和组内差异分析来获得;特定物种特定环境特定采集时间的单细胞数据均选出代表性高质量数据存储于核心数据库中;核心数据库还将和NCBI、MG-RAST通用或专业功能基因组数据库连接,支撑单细胞基因型和表观型的整合分析;
单细胞表现型数据库提供基因组接口,来实现细胞拉曼光谱数据、单细胞图像数据与基因组数据的相互转换;通过此接口,由细胞的拉曼光谱数据来获得相应的基因组数据,或通过基因组数据来获得此细胞数据库中所存储的拉曼光谱数据和图像数据,基于基因组接口进行特征峰选取和分析、拉曼图谱比较和聚类、表观型生物标记鉴定、基因型-表观型整合的分析流程;
在搜索数据库时,采取并行化的策略将整个数据库分割为多个子块并同时进行比对,然后将子块的比对结果整合起来,即可获得整个数据库的最佳匹配;
在进行数据库分割时,将整个数据库以细胞为最小单位分割成一些数据量较小的子块,整个数据库的每个子块都是相对独立的,彼此之间的搜索比对互不影响;
对于大规模数据的整合,利用归并算法:设定一个阈值,如果数据库子块的数量超过此阈值,那么将这些需要整合的数据再次拆分并且并行化进行整合,直到需要整合的数据数量低于所设定的阈值。
2.根据权利要求1所述的单细胞表现型数据搜索系统,其特征是:所述搜索引擎实现对未知细胞种类判别,搜索引擎将某个未知细胞的拉曼光谱数据和细胞图像作为查询数据,通过比对整个单细胞表现型数据库并找出最佳匹配细胞,从而获取此未知细胞的详细信息。
CN201310105207.0A 2013-03-29 2013-03-29 单细胞表现型数据库系统和搜索引擎 Active CN104077307B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310105207.0A CN104077307B (zh) 2013-03-29 2013-03-29 单细胞表现型数据库系统和搜索引擎

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310105207.0A CN104077307B (zh) 2013-03-29 2013-03-29 单细胞表现型数据库系统和搜索引擎

Publications (2)

Publication Number Publication Date
CN104077307A CN104077307A (zh) 2014-10-01
CN104077307B true CN104077307B (zh) 2017-08-29

Family

ID=51598567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310105207.0A Active CN104077307B (zh) 2013-03-29 2013-03-29 单细胞表现型数据库系统和搜索引擎

Country Status (1)

Country Link
CN (1) CN104077307B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295251A (zh) * 2015-05-25 2017-01-04 中国科学院青岛生物能源与过程研究所 基于单细胞表现型数据库的表型数据分析处理方法
CN108342447B (zh) * 2017-01-22 2021-10-15 中国科学院青岛生物能源与过程研究所 一种筛选与已知菌株表型相似的菌株的方法
CN111242538B (zh) * 2020-01-07 2023-05-23 北京唐颐惠康生物医学技术有限公司 一种动态的全流程细胞库存转移方法及系统
CN111289489B (zh) * 2020-03-05 2023-06-02 长春长光辰英生物科学仪器有限公司 一种基于拉曼光谱的微生物单细胞生长检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073734A (zh) * 2011-01-20 2011-05-25 南京烽火星空通信发展有限公司 搜索引擎提供结构化查询的方法
US20120200850A1 (en) * 2005-06-09 2012-08-09 Chemimage Corporation Cytological methods for detecting a condition such as transplant efficiency by raman spectroscopic imaging

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120200850A1 (en) * 2005-06-09 2012-08-09 Chemimage Corporation Cytological methods for detecting a condition such as transplant efficiency by raman spectroscopic imaging
CN102073734A (zh) * 2011-01-20 2011-05-25 南京烽火星空通信发展有限公司 搜索引擎提供结构化查询的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
C. Xie 等.Identification of Single Bacteria Cells in Aqueous Solution Using Confocal Laser Tweezers Raman Spectroscopy.《Analytical Chemistry》.2005,4390-4397. *
Petra Rösch 等.Chemotaxonomic Identification of Single Bacteria by Micro-Raman Spectroscopy: Application to Clean-Room-Relevant Biological Contaminations".《Applied and Environment Microbiology》.2005,1626-1637 摘要,第2页第1栏第4-5段,第6页第1栏第1段-第10页. *
Q Wu 等.Differentiation of Algae Clones on the Basis of Resonance Raman Spectra Excited by Visible Light.《Analytical Chemistry》.1998,1782-1787. *

Also Published As

Publication number Publication date
CN104077307A (zh) 2014-10-01

Similar Documents

Publication Publication Date Title
CN105096225B (zh) 辅助疾病诊疗的分析系统、装置及方法
CN107368700A (zh) 基于计算云平台的微生物多样性交互分析系统及其方法
CN104077307B (zh) 单细胞表现型数据库系统和搜索引擎
CN106126543B (zh) 一种关系型数据库到MongoDB的模型转换和数据迁移方法
WO2016094720A1 (en) Automated flow cytometry analysis method and system
CN109416313A (zh) 图像地图集系统和方法
KR102154335B1 (ko) 생체 추출 데이터를 전처리하여 질병을 판단하는 방법 및 그를 위한 장치
Zhu et al. Rapid estimation of stomatal density and stomatal area of plant leaves based on object-oriented classification and its ecological trade-off strategy analysis
CN108038352A (zh) 结合差异化分析和关联规则挖掘全基因组关键基因的方法
CN103577839B (zh) 一种邻域保持判别嵌入人脸识别方法及系统
CN116564409A (zh) 基于机器学习的转移性乳腺癌转录组测序数据识别方法
Danzi et al. The use of near-infrared imaging (NIR) as a fast non-destructive screening tool to identify drought-tolerant wheat genotypes
CN107832584A (zh) 宏基因组的基因分析方法、装置、设备及存储介质
Barnes et al. Deductive automated pollen classification in environmental samples via exploratory deep learning and imaging flow cytometry
CN112417286A (zh) 区域性文化产业集聚的影响因素分析方法和系统
CN110140176A (zh) 用于检测最优候选化合物的计算机装置及其方法
Looy et al. Characterizing morphologic variability in foliated Paleozoic conifer branches–a first step in testing its potential as proxy for taxonomic position
CN105335626A (zh) 一种基于网络分析的群lasso特征分群方法
EP3230887A1 (en) Automated flow cytometry analysis method and system
Olusoji et al. cyanoFilter: An r package to identify phytoplankton populations from flow cytometry data using cell pigmentation and granularity
Lyu et al. Intelligent clustering analysis model for mining area mineral resource prediction
Lin Single-cell topological simplicial analysis reveals higher-order cellular complexity
Cheung Defining confidence in flow cytometry automated data analysis software platforms
Indryaswaria et al. Application of the C4. 5 Algorithm to Predict the Types of Disease in Pigs Based on Android
Mu et al. Investigation on tree molecular genome of Arabidopsis thaliana for internet of things

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant