CN117349764A - 一种干细胞诱导数据智能分析方法 - Google Patents
一种干细胞诱导数据智能分析方法 Download PDFInfo
- Publication number
- CN117349764A CN117349764A CN202311648180.XA CN202311648180A CN117349764A CN 117349764 A CN117349764 A CN 117349764A CN 202311648180 A CN202311648180 A CN 202311648180A CN 117349764 A CN117349764 A CN 117349764A
- Authority
- CN
- China
- Prior art keywords
- data
- characteristic data
- characteristic
- sequence
- expression level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 210000000130 stem cell Anatomy 0.000 title claims abstract description 26
- 230000006698 induction Effects 0.000 title claims abstract description 24
- 238000004458 analytical method Methods 0.000 title claims abstract description 18
- 230000014509 gene expression Effects 0.000 claims abstract description 103
- 210000004027 cell Anatomy 0.000 claims abstract description 87
- 230000008859 change Effects 0.000 claims abstract description 43
- 230000002159 abnormal effect Effects 0.000 claims abstract description 33
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 33
- 230000008672 reprogramming Effects 0.000 claims abstract description 19
- 210000004263 induced pluripotent stem cell Anatomy 0.000 claims abstract description 12
- 238000012163 sequencing technique Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 47
- 230000008569 process Effects 0.000 claims description 19
- 239000006185 dispersion Substances 0.000 claims description 13
- 238000012937 correction Methods 0.000 claims description 10
- 230000007613 environmental effect Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000003753 real-time PCR Methods 0.000 claims description 4
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 claims description 3
- 238000004113 cell culture Methods 0.000 claims description 3
- 239000006143 cell culture medium Substances 0.000 claims description 3
- 239000003102 growth factor Substances 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 229910052760 oxygen Inorganic materials 0.000 claims description 3
- 239000001301 oxygen Substances 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000007877 drug screening Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Computation (AREA)
- Genetics & Genomics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Molecular Biology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及数据处理技术领域,具体涉及一种干细胞诱导数据智能分析方法,包括:采集样本细胞的多项特征数据和样本细胞的全部基因的基因表达水平,排序获得每项特征数据序列,计算每项特征数据序列中的每个特征数据的局部离散程度和变化比,根据变化比对每项特征数据序列中的每个特征数据的局部离散程度进行修正,根据修正后的局部离散程度获得每项特征数据序列的所有划分基准数据,根据所有项特征数据序列的所有划分基准数据,对所有待检测数据点进行孤立森林划分;根据孤立森林获得异常数据。本发明通过准确的孤立森林划分结果获得异常数据,通过分析异常数据的产生原因,对诱导多能干细胞的重编程环境进行改进,提高重编程效率和维持多能性。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种干细胞诱导数据智能分析方法。
背景技术
干细胞诱导数据是指在实验室中通过诱导的方式将成体细胞重编程为干细胞的过程中所产生的数据。通过分析干细胞诱导数据,可以了解干细胞的特性和功能,以及它们在再生医学、药物筛选、疾病模型构建等方面的应用潜力。
为了提高重编程效率和维持多能性,需要在重编程过程中,对干细胞诱导数据中的异常数据进行分析,获得异常数据的产生原因,对诱导多能干细胞的重编程环境进行改进。
现有技术通过孤立森林算法获取干细胞诱导数据中的异常数据,但是在诱导多能干细胞的重编程过程中,不同因素对基因的表达水平的影响未必是线性的,直接进行孤立森林划分,可能会导致基因对影响因素反应敏感部分的数据点被划分为异常数据,或者将饱和效应的异常数据划分为正常数据。
发明内容
为了解决上述问题,本发明提供一种干细胞诱导数据智能分析方法,所述方法包括:
采集样本细胞的多项特征数据和样本细胞的全部基因的基因表达水平,根据每种基因的基因表达水平对样本细胞进行分类,获取多类表达水平细胞;
任意一类表达水平细胞的多项特征数据和基因表达水平组成待检测数据点集合,对待检测数据点集合的每项特征数据进行排序,获得每项特征数据序列;
根据每项特征数据序列中的每个特征数据的邻域内特征数据的分布,计算每项特征数据序列中的每个特征数据的局部离散程度和变化比;
根据每项特征数据序列中的每个特征数据的变化比,对每项特征数据序列中的每个特征数据的局部离散程度进行修正;
根据每项特征数据序列中的每个特征数据的修正后的局部离散程度,获得每项特征数据序列的所有划分基准数据,根据所有项特征数据序列的所有划分基准数据,对所有待检测数据点进行孤立森林划分;根据孤立森林获得异常数据。
进一步地,所述局部离散程度的计算公式如下:
式中,表示第/>项特征数据序列中的j个特征数据的局部离散程度,P表示预设局部数据个数,/>表示第/>项特征数据序列中的j个特征数据的邻域内特征数据的索引,和/>分别表示第/>项特征数据序列中的j个特征数据的邻域内第/>个特征数据和第/>个特征数据,/>表示第/>项特征数据序列的极差,/>表示待检测数据点的个数;
其中,对于每项特征数据序列中的每个特征数据,相邻的P个特征数据组成每个特征数据的邻域。
进一步地,所述变化比的计算公式如下:
式中,表示第/>项特征数据序列中的第/>个目标特征数据的变化比,/>表示第/>项特征数据序列中的第/>个目标特征数据的邻域内的基因表达水平的极差,/>表示第/>项特征数据序列中基因表达水平的极差,/>表示第/>项特征数据序列中的第/>个目标特征数据的邻域内特征数据的极差,/>表示第/>项特征数据序列中特征数据的极差;
每项特征数据序列中的非目标特征数据的变化比为0。
进一步地,所述目标特征数据的获取方法为:
对于每项特征数据序列中的每个特征数据,根据每个特征数据的邻域内的所有特征数据以及基因表达水平,计算每个特征数据与基因表达水平的局部斯皮尔曼相关系数;将局部斯皮尔曼相关系数的绝对值大于预设相关系数阈值E的特征数据,作为目标特征数据。
进一步地,所述修正后的局部离散程度的计算公式如下:
式中,表示第i项特征数据序列中的第j个特征数据的修正后的局部离散程度,/>表示第i项特征数据序列中的j个特征数据的局部离散程度,/>表示第i项特征数据序列中的第j个特征数据的变化比,T表示预设的变化比阈值。
进一步地,所述每项特征数据序列的所有划分基准数据的获取方法如下:
在第一个特征数据和最后一个特征数据中,将修正后的局部离散程度最大的特征数据作为第一起始划分基准数据,将另一个特征数据作为第一终止划分基准数据;在第一起始划分基准数据和第一终止划分基准数据之间,将修正后的局部离散程度在范围内,且距离第一起始划分基准数据最近的特征数据作为第一个划分基准数据,/>表示第一起始划分基准数据的修正后的局部离散程度,A表示预设范围;
在第一个划分基准数据和第一终止划分基准数据中,将修正后的局部离散程度最大的特征数据作为第二起始划分基准数据,将另一个特征数据作为第二终止划分基准数据;在第二起始划分基准数据和第二终止划分基准数据之间,将修正后的局部离散程度在范围内,且距离第二起始划分基准数据最近的特征数据作为第二个划分基准数据,/>表示第二起始划分基准数据的修正后的局部离散程度;
在第二个划分基准数据和第二终止划分基准数据中,将修正后的局部离散程度最大的特征数据作为第三起始划分基准数据,将另一个特征数据作为第三终止划分基准数据;在第三起始划分基准数据和第三终止划分基准数据之间,将修正后的局部离散程度在范围内,且距离第三起始划分基准数据最近的特征数据作为第三个划分基准数据,/>表示第三起始划分基准数据的修正后的局部离散程度;
以此类推,直至在第N+1起始划分基准数据和第N+1终止划分基准数据之间,不存在修正后的局部离散程度在范围内的特征数据,/>表示第N+1个起始划分基准数据的修正后的局部离散程度,此时,共获得N个划分基准数据,作为第i项特征数据序列的所有划分基准数据。
进一步地,所述获得每项特征数据序列,包括的具体步骤如下:
按照从小到大的顺序,对所有待检测数据点的每项特征数据进行排序,获得每项特征数据序列。
进一步地,所述根据孤立森林获得异常数据,包括的具体步骤如下:
根据孤立森林计算每个待检测数据点的异常得分,将异常得分大于预设得分阈值B的待检测数据点记为异常数据。
进一步地,所述采集样本细胞的多项特征数据和样本细胞的全部基因的基因表达水平,包括的具体步骤如下:
采集诱导多能干细胞作为样本细胞,对每个样本细胞进行随机环境的重编程,记录每个样本细胞的外环境数据以及每个样本细胞的全部基因的基因表达水平;其中,每个样本细胞的外环境数据包括细胞培养基的成分和含量、细胞培养条件的温度、氧气浓度以及添加的生长因子浓度,样本细胞的外环境数据包括多项特征数据;通过实时荧光定量PCR方法测量每个样本细胞的每类基因的基因表达水平。
进一步地,所述获取多类表达水平细胞,包括的具体步骤如下:
根据预设基因表达水平阈值对所有样本细胞进行分级,将基因表达水平小于的样本细胞记为第一表达水平细胞,将基因表达水平大于等于/>且小于/>的样本细胞记为第二表达水平细胞,将基因表达水平大于等于/>且小于/>的样本细胞记为第三表达水平细胞,将基因表达水平大于等于/>的样本细胞记为第四表达水平细胞,/>表示基因表达水平阈值。
本发明的技术方案的有益效果是:本发明通过分析诱导多能干细胞重编程过程中不同基因的基因表达水平与不同特征因素的相关关系,找出基因表达水平对培养因素变化反应较敏感的数据,根据邻域内特征数据的分布,计算每个特征数据的局部离散程度和变化比,根据变化比对局部离散程度进行修正,根据修正后的局部离散程获得每项特征数据序列的所有划分基准数据,根据所有项特征数据序列的所有划分基准数据,对所有待检测数据点进行孤立森林划分,在孤立树阈值划分的过程中,将敏感数据进行特殊考虑,从而获得更加准确的孤立森林划分结果,准确获得异常数据,通过分析异常数据的产生原因,对诱导多能干细胞的重编程环境进行改进,提高重编程效率和维持多能性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种干细胞诱导数据智能分析方法的方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种干细胞诱导数据智能分析方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种干细胞诱导数据智能分析方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种干细胞诱导数据智能分析方法的数据传输模块的方法流程图,该方法包括:
S001、采集样本细胞的多项特征数据和样本细胞的全部基因的基因表达水平,根据每种基因的基因表达水平对样本细胞进行分类,获取多类表达水平细胞。
在本实施例中,采集诱导多能干细胞作为样本细胞,对每个样本细胞进行随机环境的重编程,记录每个样本细胞的外环境数据以及每个样本细胞的全部基因的基因表达水平;其中,每个样本细胞的外环境数据包括但不限于细胞培养基的成分和含量、细胞培养条件的温度、氧气浓度以及添加的生长因子浓度,样本细胞的外环境数据中的每一类数据都是影响样本细胞的基因表达水平的特征因素,因此,样本细胞的外环境数据包括多项特征数据;通过实时荧光定量PCR方法测量每个样本细胞的每类基因的基因表达水平。
需要说明的是,样本细胞的每类基因的基因表达水平受到各种各样因素的影响,根据每类基因的基因表达水平对所有样本细胞进行分级,将基因表达水平相近的样本细胞标进行异常数据分析,从而获取重编程过程中出现异常的样本细胞,后续以样本细胞的任意一类基因的基因表达水平为例进行说明。
具体的,实时荧光定量PCR方法是通过Ct值(阈值循环数)来衡量细胞的基因表达水平的高低,一般Ct值处于20和40之间,Ct值越高,基因表达水平越高,因此预设一组基因表达水平阈值,实施人员可根据实际实施情况设置基因表达水平阈值/>,例如/>;根据预设基因表达水平阈值对所有样本细胞进行分级,将基因表达水平小于/>的样本细胞记为第一表达水平细胞,将基因表达水平大于等于/>且小于的样本细胞记为第二表达水平细胞,将基因表达水平大于等于/>且小于/>的样本细胞记为第三表达水平细胞,将基因表达水平大于等于/>的样本细胞记为第四表达水平细胞。
S002、对待检测数据点集合的每项特征数据进行排序,获得每项特征数据序列,计算每项特征数据序列中的每个特征数据的局部离散程度和变化比,根据变化比对局部离散程度进行修正。
需要说明的是,样本细胞的外环境数据中的每一项特征数据都是影响基因表达水平的特征因素,按照外环境数据对样本细胞进行孤立树划分的过程中,考虑到样本细胞的基因可能会对某些特征因素的变化较为敏感,在这种情况下样本细胞的在孤立树划分过程中会比较离散,正常数据容易被误划分为异常数据。故通过每种影响因素的局部基因表达水平与每种影响因素的线性一致性,获取样本基因与孤立树对应特征的局部关联程度,根据局部关联程度对局部离散程度进行修正,根据修正后的局部离散程度获取孤立树的划分阈值。
对待检测数据点集合的每项特征数据进行排序,获得每项特征数据序列,根据变化比对局部离散程度进行修正,根据每项特征数据序列中的每个特征数据的邻域内特征数据的分布,计算每项特征数据序列中的每个特征数据的局部离散程度。
需要说明的是,孤立树划分希望将一组数据中靠近两边且离散程度较大的数据划分为异常数据,故通过每项特征数据的局部离散程度获取每项特征数据的划分阈值。故通过任意一项特征数据排序序列两端的局部离散程度获取最佳划分的阈值。
在本实施例中,要对四类表达水平细胞的基因表达水平进行异常检测,以所有第一表达水平细胞为例进行说明。每个第一表达水平细胞的多项特征数据和基因表达水平组成一个待检测数据点。
具体的,按照从小到大的顺序,对所有待检测数据点的每项特征数据进行排序,获得每项特征数据序列;对于每项特征数据序列中的每个特征数据,相邻的P个特征数据组成每个特征数据的邻域,预设局部数据个数P,实施人员可根据实际实施情况设置局部数据个数P,例如P=10。
进一步,根据每项特征数据序列中的每个特征数据的邻域内特征数据的分布,计算每项特征数据序列中的每个特征数据的局部离散程度,具体计算公式为:
式中,表示第/>项特征数据序列中的j个特征数据的局部离散程度,P表示预设局部数据个数,/>表示第/>项特征数据序列中的j个特征数据的邻域内特征数据的索引,和/>分别表示第/>项特征数据序列中的j个特征数据的邻域内第/>个特征数据和第/>个特征数据,/>表示第/>项特征数据序列的极差,/>表示待检测数据点的个数,其中,极差是指极大值和极小值的差值。
需要说明的是,代表特征数据序列中的每个特征数据的邻域内相邻两个特征数据的差值,该值越大,则特征数据的邻域内相邻的特征数据的差异越大,则特征数据序列中的特征数据的局部离散程度越大;由于/>为特征数据序列的极差,则/>代表特征数据序列中所有相邻的特征数据的平均差异,该值越大时,说明特征数据序列的整体离散程度越大,则特征数据序列中的特征数据的局部离散程度相对越小。
计算每项特征数据序列中的每个特征数据的变化比。
需要说明的是,如果样本细胞的基因对于某项特征因素的变化较为敏感,即该特征因素出现较小变化就会导致基因的基因表达水平出现较大变化时,说明此处特征数据出现局部离散程度较大的情况是由于该特征因素和样本细胞的基因之间的敏感导致的,并不是有异常数据存在,此时需要将特征因素的离散程度修正为较小水平。如果特征因素对基因表达水平的影响程度较大,则特征数据与基因表达水平在局部呈现严格单调性,此时通过斯皮尔曼相关系数判断两者是否单调相关,将单调相关的局部视为样本基因对特征变化敏感。
在本实施例中,对于每项特征数据序列中的每个特征数据,根据每个特征数据的邻域内的所有特征数据以及基因表达水平,计算每个特征数据与基因表达水平的局部斯皮尔曼相关系数;将局部斯皮尔曼相关系数的绝对值大于预设相关系数阈值E的特征数据,作为目标特征数据。
为了防止特征数据的邻域内存在异常数据,造成对特征数据与基因表达水平之间单调关系的误判,预设一个相关系数阈值E,实施人员可根据实际实施情况设置相关系数阈值E,例如E=0.9。
需要说明的是,正常数据中也会存在某一特征数据与基因表达水平严格单调的情况,考虑通过目标数据的邻域区域中每个特征数据与对应的基因表达水平的变化比,从中找出较使基因的表达水平变化敏感的局部特征数据。
具体的,对于每项特征数据序列中的非目标特征数据,其变化比为0;计算每项特征数据序列中的每个目标特征数据的变化比,具体计算公式为:
式中,表示第/>项特征数据序列中的第/>个目标特征数据的变化比,/>表示第/>项特征数据序列中的第/>个目标特征数据的邻域内的基因表达水平的极差,/>表示第/>项特征数据序列中基因表达水平的极差,/>表示第/>项特征数据序列中的第/>个目标特征数据的邻域内特征数据的极差,/>表示第/>项特征数据序列中特征数据的极差。
需要说明的是,目标数据的邻域内,特征数据与基因表达水平的单调性较强,因此直接通过极差便可反映特征数据在局部的变化程度大小。由于不同项特征数据与基因表达水平的数量级有所不同,故直接用基因表达水平和第项特征数据的极差变化计算变化比,难以确定变化比的取值范围,从而难以确定变化比阈值,因此,通过表达水平和第/>项特征数据的局部极差和整体极差的比值,对局部极差进行归一化,获取两个归一化后的极差的比值作为变化比;变化比越大,说明第/>项特征数据变化后会引起基因表达水平较大的变化,即目标特征数据的局部基因表达水平相对于第/>项特征数据的变化较为敏感。
根据变化比对局部离散程度进行修正,获得每项特征数据序列中的每个特征数据的修正后的局部离散程度。
根据每项特征数据序列中的每个特征数据的变化比,对每项特征数据序列中的每个特征数据的局部离散程度进行修正,每项特征数据序列中的每个特征数据的修正后的局部离散程度的计算方法为:
式中,表示第i项特征数据序列中的第j个特征数据的修正后的局部离散程度,/>表示第i项特征数据序列中的j个特征数据的局部离散程度,/>表示第i项特征数据序列中的第j个特征数据的变化比,T表示预设的变化比阈值。
预设一个变化比阈值T,实施人员可根据实际实施情况设置变化比阈值T,例如T=2.1。
需要说明的是,变化比较大的特征数据被认定为基因表达水平变化敏感区域,对于敏感区域,认为其较大的局部离散程度属于正常现象,故通过变化比将局部离散程度调小;而变化比较小的特征数据被认定为基因表达水平变化不敏感区域,直接根据其局部离散程度进行划分阈值选定即可。
S003、根据修正后的局部离散程度获得每项特征数据序列的所有划分基准数据,根据所有项特征数据序列的所有划分基准数据,对所有待检测数据点进行孤立森林划分。
需要说明的是,孤立森林划分将排序序列两端离散程度较大的数据一次划分生成孤立树,故通过每项特征数据的排序序列首尾数据的离散程度获取划分阈值。
在本实施例中,在第i项特征数据序列中,在第一个特征数据和最后一个特征数据中,将修正后的局部离散程度最大的特征数据作为第一起始划分基准数据,将另一个特征数据作为第一终止划分基准数据;在第一起始划分基准数据和第一终止划分基准数据之间,将修正后的局部离散程度在范围内,且距离第一起始划分基准数据最近的特征数据作为第一个划分基准数据,/>表示第一起始划分基准数据的修正后的局部离散程度,A表示预设范围,实施人员可根据实际实施情况设置范围A,例如A=0.1;
在第一个划分基准数据和第一终止划分基准数据中,将修正后的局部离散程度最大的特征数据作为第二起始划分基准数据,将另一个特征数据作为第二终止划分基准数据;在第二起始划分基准数据和第二终止划分基准数据之间,将修正后的局部离散程度在范围内,且距离第二起始划分基准数据最近的特征数据作为第二个划分基准数据,/>表示第二起始划分基准数据的修正后的局部离散程度;
在第二个划分基准数据和第二终止划分基准数据中,将修正后的局部离散程度最大的特征数据作为第三起始划分基准数据,将另一个特征数据作为第三终止划分基准数据;在第三起始划分基准数据和第三终止划分基准数据之间,将修正后的局部离散程度在范围内,且距离第三起始划分基准数据最近的特征数据作为第三个划分基准数据,/>表示第三起始划分基准数据的修正后的局部离散程度;
以此类推,直至在第N+1起始划分基准数据和第N+1终止划分基准数据之间,不存在修正后的局部离散程度在范围内的特征数据,/>表示第N+1个起始划分基准数据的修正后的局部离散程度,此时,共获得N个划分基准数据,作为第i项特征数据序列的所有划分基准数据。
获得每项特征数据序列的所有划分基准数据,根据所有项特征数据序列的所有划分基准数据,对所有待检测数据点进行孤立森林划分。
需要说明的是,通过分析诱导多能干细胞重编程过程中不同基因的表达水平与不同因素的相关关系,找出基因表达水平对培养因素变化反应较敏感的数据以及饱和效应的出现,在孤立树阈值划分的过程中,将这些数据进行特殊考虑,从而获得更加准确的孤立树划分结果。
S004、根据孤立森林获得异常数据。
根据孤立森林计算每个待检测数据点的异常得分,将异常得分大于预设得分阈值B的待检测数据点记为异常数据,实施人员可根据实际实施情况设置得分阈值B,例如B=1。
分析异常数据对应样本细胞的外部生长环境,得出细胞出现异常的原因,并据此对诱导多能干细胞的重编程环境进行改进,以获取最优的重编程环境。
本发明通过分析诱导多能干细胞重编程过程中不同基因的基因表达水平与不同特征因素的相关关系,找出基因表达水平对培养因素变化反应较敏感的数据,根据邻域内特征数据的分布,计算每个特征数据的局部离散程度和变化比,根据变化比对局部离散程度进行修正,根据修正后的局部离散程获得每项特征数据序列的所有划分基准数据,根据所有项特征数据序列的所有划分基准数据,对所有待检测数据点进行孤立森林划分,在孤立树阈值划分的过程中,将敏感数据进行特殊考虑,从而获得更加准确的孤立森林划分结果,准确获得异常数据,通过分析异常数据的产生原因,对诱导多能干细胞的重编程环境进行改进,提重编程效率和维持多能性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种干细胞诱导数据智能分析方法,其特征在于,所述方法包括:
采集样本细胞的多项特征数据和样本细胞的全部基因的基因表达水平,根据每种基因的基因表达水平对样本细胞进行分类,获取多类表达水平细胞;
任意一类表达水平细胞的多项特征数据和基因表达水平组成待检测数据点集合,对待检测数据点集合的每项特征数据进行排序,获得每项特征数据序列;
根据每项特征数据序列中的每个特征数据的邻域内特征数据的分布,计算每项特征数据序列中的每个特征数据的局部离散程度和变化比;
根据每项特征数据序列中的每个特征数据的变化比,对每项特征数据序列中的每个特征数据的局部离散程度进行修正;
根据每项特征数据序列中的每个特征数据的修正后的局部离散程度,获得每项特征数据序列的所有划分基准数据,根据所有项特征数据序列的所有划分基准数据,对所有待检测数据点进行孤立森林划分;根据孤立森林获得异常数据。
2.根据权利要求1所述的一种干细胞诱导数据智能分析方法,其特征在于,所述局部离散程度的计算公式如下:
式中,表示第/>项特征数据序列中的j个特征数据的局部离散程度,P表示预设局部数据个数,/>表示第/>项特征数据序列中的j个特征数据的邻域内特征数据的索引,/>和/>分别表示第/>项特征数据序列中的j个特征数据的邻域内第/>个特征数据和第/>个特征数据,/>表示第/>项特征数据序列的极差,/>表示待检测数据点的个数;
其中,对于每项特征数据序列中的每个特征数据,相邻的P个特征数据组成每个特征数据的邻域。
3.根据权利要求1所述的一种干细胞诱导数据智能分析方法,其特征在于,所述变化比的计算公式如下:
式中,表示第/>项特征数据序列中的第/>个目标特征数据的变化比,/>表示第/>项特征数据序列中的第/>个目标特征数据的邻域内的基因表达水平的极差,/>表示第/>项特征数据序列中基因表达水平的极差,/>表示第/>项特征数据序列中的第/>个目标特征数据的邻域内特征数据的极差,/>表示第/>项特征数据序列中特征数据的极差;
每项特征数据序列中的非目标特征数据的变化比为0。
4.根据权利要求3所述的一种干细胞诱导数据智能分析方法,其特征在于,所述目标特征数据的获取方法为:
对于每项特征数据序列中的每个特征数据,根据每个特征数据的邻域内的所有特征数据以及基因表达水平,计算每个特征数据与基因表达水平的局部斯皮尔曼相关系数;将局部斯皮尔曼相关系数的绝对值大于预设相关系数阈值E的特征数据,作为目标特征数据。
5.根据权利要求1所述的一种干细胞诱导数据智能分析方法,其特征在于,所述修正后的局部离散程度的计算公式如下:
式中,表示第i项特征数据序列中的第j个特征数据的修正后的局部离散程度,表示第i项特征数据序列中的j个特征数据的局部离散程度,/>表示第i项特征数据序列中的第j个特征数据的变化比,T表示预设的变化比阈值。
6.根据权利要求1所述的一种干细胞诱导数据智能分析方法,其特征在于,所述每项特征数据序列的所有划分基准数据的获取方法如下:
在第一个特征数据和最后一个特征数据中,将修正后的局部离散程度最大的特征数据作为第一起始划分基准数据,将另一个特征数据作为第一终止划分基准数据;在第一起始划分基准数据和第一终止划分基准数据之间,将修正后的局部离散程度在范围内,且距离第一起始划分基准数据最近的特征数据作为第一个划分基准数据,/>表示第一起始划分基准数据的修正后的局部离散程度,A表示预设范围;
在第一个划分基准数据和第一终止划分基准数据中,将修正后的局部离散程度最大的特征数据作为第二起始划分基准数据,将另一个特征数据作为第二终止划分基准数据;在第二起始划分基准数据和第二终止划分基准数据之间,将修正后的局部离散程度在范围内,且距离第二起始划分基准数据最近的特征数据作为第二个划分基准数据,/>表示第二起始划分基准数据的修正后的局部离散程度;
在第二个划分基准数据和第二终止划分基准数据中,将修正后的局部离散程度最大的特征数据作为第三起始划分基准数据,将另一个特征数据作为第三终止划分基准数据;在第三起始划分基准数据和第三终止划分基准数据之间,将修正后的局部离散程度在范围内,且距离第三起始划分基准数据最近的特征数据作为第三个划分基准数据,/>表示第三起始划分基准数据的修正后的局部离散程度;
以此类推,直至在第N+1起始划分基准数据和第N+1终止划分基准数据之间,不存在修正后的局部离散程度在范围内的特征数据,/>表示第N+1个起始划分基准数据的修正后的局部离散程度,此时,共获得N个划分基准数据,作为第i项特征数据序列的所有划分基准数据。
7.根据权利要求1所述的一种干细胞诱导数据智能分析方法,其特征在于,所述获得每项特征数据序列,包括的具体步骤如下:
按照从小到大的顺序,对所有待检测数据点的每项特征数据进行排序,获得每项特征数据序列。
8.根据权利要求1所述的一种干细胞诱导数据智能分析方法,其特征在于,所述根据孤立森林获得异常数据,包括的具体步骤如下:
根据孤立森林计算每个待检测数据点的异常得分,将异常得分大于预设得分阈值B的待检测数据点记为异常数据。
9.根据权利要求1所述的一种干细胞诱导数据智能分析方法,其特征在于,所述采集样本细胞的多项特征数据和样本细胞的全部基因的基因表达水平,包括的具体步骤如下:
采集诱导多能干细胞作为样本细胞,对每个样本细胞进行随机环境的重编程,记录每个样本细胞的外环境数据以及每个样本细胞的全部基因的基因表达水平;其中,每个样本细胞的外环境数据包括细胞培养基的成分和含量、细胞培养条件的温度、氧气浓度以及添加的生长因子浓度,样本细胞的外环境数据包括多项特征数据;通过实时荧光定量PCR方法测量每个样本细胞的每类基因的基因表达水平。
10.根据权利要求1所述的一种干细胞诱导数据智能分析方法,其特征在于,所述获取多类表达水平细胞,包括的具体步骤如下:
根据预设基因表达水平阈值对所有样本细胞进行分级,将基因表达水平小于的样本细胞记为第一表达水平细胞,将基因表达水平大于等于/>且小于/>的样本细胞记为第二表达水平细胞,将基因表达水平大于等于/>且小于/>的样本细胞记为第三表达水平细胞,将基因表达水平大于等于/>的样本细胞记为第四表达水平细胞,/>表示基因表达水平阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311648180.XA CN117349764B (zh) | 2023-12-05 | 2023-12-05 | 一种干细胞诱导数据智能分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311648180.XA CN117349764B (zh) | 2023-12-05 | 2023-12-05 | 一种干细胞诱导数据智能分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117349764A true CN117349764A (zh) | 2024-01-05 |
CN117349764B CN117349764B (zh) | 2024-02-27 |
Family
ID=89357866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311648180.XA Active CN117349764B (zh) | 2023-12-05 | 2023-12-05 | 一种干细胞诱导数据智能分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117349764B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117540304A (zh) * | 2024-01-10 | 2024-02-09 | 山东盈和新材料科技有限公司 | 一种粘合剂生产数据高效处理方法 |
CN117556714A (zh) * | 2024-01-12 | 2024-02-13 | 济南海德热工有限公司 | 一种用于铝金属冶炼的预热管路温度数据异常分析方法 |
CN118071386A (zh) * | 2024-04-19 | 2024-05-24 | 海门裕隆光电科技有限公司 | 一种电子烟大数据处理方法及系统 |
CN118070200A (zh) * | 2024-04-19 | 2024-05-24 | 天津市第五中心医院 | 一种基于大数据的类器官异常监测系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104517287A (zh) * | 2014-12-10 | 2015-04-15 | 广州赛意信息科技有限公司 | 一种图像匹配的方法及装置 |
CN105631860A (zh) * | 2015-12-21 | 2016-06-01 | 中国资源卫星应用中心 | 基于局部排序方向直方图描述子的图像同名点提取方法 |
CN109308306A (zh) * | 2018-09-29 | 2019-02-05 | 重庆大学 | 一种基于孤立森林的用户用电异常行为检测方法 |
CN110500969A (zh) * | 2019-10-08 | 2019-11-26 | 大连理工大学 | 一种高陡度复杂曲面在位测量规划方法 |
CN111144651A (zh) * | 2019-12-26 | 2020-05-12 | 杭州鲁尔物联科技有限公司 | 一种地质灾害的预测方法、装置及设备 |
CN112214642A (zh) * | 2020-09-17 | 2021-01-12 | 中国科学院沈阳应用生态研究所 | 地理语义关联约束的多视频事件盲区变化过程推演方法 |
CN112435714A (zh) * | 2020-11-03 | 2021-03-02 | 北京科技大学 | 一种肿瘤免疫亚型分类方法及系统 |
WO2022012668A1 (zh) * | 2020-07-17 | 2022-01-20 | 华为技术有限公司 | 一种训练集处理方法和装置 |
CN114971110A (zh) * | 2021-02-26 | 2022-08-30 | 腾讯科技(深圳)有限公司 | 一种根因组合确定的方法、相关装置、设备以及存储介质 |
US20220364055A1 (en) * | 2018-08-31 | 2022-11-17 | Novartis Ag | Methods of making chimeric antigen receptor-expressing cells |
CN115760484A (zh) * | 2022-12-07 | 2023-03-07 | 湖北华中电力科技开发有限责任公司 | 一种配电台区隐患辨识能力提升方法、装置、系统及存储介质 |
CN116150691A (zh) * | 2021-11-18 | 2023-05-23 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备、存储介质及程序产品 |
-
2023
- 2023-12-05 CN CN202311648180.XA patent/CN117349764B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104517287A (zh) * | 2014-12-10 | 2015-04-15 | 广州赛意信息科技有限公司 | 一种图像匹配的方法及装置 |
CN105631860A (zh) * | 2015-12-21 | 2016-06-01 | 中国资源卫星应用中心 | 基于局部排序方向直方图描述子的图像同名点提取方法 |
US20220364055A1 (en) * | 2018-08-31 | 2022-11-17 | Novartis Ag | Methods of making chimeric antigen receptor-expressing cells |
CN109308306A (zh) * | 2018-09-29 | 2019-02-05 | 重庆大学 | 一种基于孤立森林的用户用电异常行为检测方法 |
CN110500969A (zh) * | 2019-10-08 | 2019-11-26 | 大连理工大学 | 一种高陡度复杂曲面在位测量规划方法 |
CN111144651A (zh) * | 2019-12-26 | 2020-05-12 | 杭州鲁尔物联科技有限公司 | 一种地质灾害的预测方法、装置及设备 |
WO2022012668A1 (zh) * | 2020-07-17 | 2022-01-20 | 华为技术有限公司 | 一种训练集处理方法和装置 |
CN112214642A (zh) * | 2020-09-17 | 2021-01-12 | 中国科学院沈阳应用生态研究所 | 地理语义关联约束的多视频事件盲区变化过程推演方法 |
CN112435714A (zh) * | 2020-11-03 | 2021-03-02 | 北京科技大学 | 一种肿瘤免疫亚型分类方法及系统 |
CN114971110A (zh) * | 2021-02-26 | 2022-08-30 | 腾讯科技(深圳)有限公司 | 一种根因组合确定的方法、相关装置、设备以及存储介质 |
CN116150691A (zh) * | 2021-11-18 | 2023-05-23 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备、存储介质及程序产品 |
CN115760484A (zh) * | 2022-12-07 | 2023-03-07 | 湖北华中电力科技开发有限责任公司 | 一种配电台区隐患辨识能力提升方法、装置、系统及存储介质 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117540304A (zh) * | 2024-01-10 | 2024-02-09 | 山东盈和新材料科技有限公司 | 一种粘合剂生产数据高效处理方法 |
CN117540304B (zh) * | 2024-01-10 | 2024-05-17 | 山东盈和新材料科技有限公司 | 一种粘合剂生产数据处理方法 |
CN117556714A (zh) * | 2024-01-12 | 2024-02-13 | 济南海德热工有限公司 | 一种用于铝金属冶炼的预热管路温度数据异常分析方法 |
CN117556714B (zh) * | 2024-01-12 | 2024-03-22 | 济南海德热工有限公司 | 一种用于铝金属冶炼的预热管路温度数据异常分析方法 |
CN118071386A (zh) * | 2024-04-19 | 2024-05-24 | 海门裕隆光电科技有限公司 | 一种电子烟大数据处理方法及系统 |
CN118070200A (zh) * | 2024-04-19 | 2024-05-24 | 天津市第五中心医院 | 一种基于大数据的类器官异常监测系统 |
CN118070200B (zh) * | 2024-04-19 | 2024-07-05 | 天津市第五中心医院 | 一种基于大数据的类器官异常监测系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117349764B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117349764B (zh) | 一种干细胞诱导数据智能分析方法 | |
CN113658640B (zh) | 一种淡水生态系统健康评价方法 | |
CN108647272A (zh) | 一种基于数据分布的小样本扩充方法 | |
CN112599199A (zh) | 一种适用于10x单细胞转录组测序数据的分析方法 | |
CN102693452A (zh) | 基于半监督回归学习的多模型软测量方法 | |
CN101526476A (zh) | 利用对于双s形曲率分析的二次方程测试的pcr elbow确定 | |
CN111243662B (zh) | 基于改进XGBoost的泛癌症基因通路预测方法、系统和存储介质 | |
CN110929888B (zh) | 一种基于随机紧凑高斯核函数的粮食作物病害预测方法 | |
CN112232387B (zh) | 基于lselm-rfe的粮食作物病害症状的有效特征识别方法 | |
US7587280B2 (en) | Genomic data mining using clustering logic and filtering criteria | |
CN110738654A (zh) | 髋关节影像中的关键点提取及骨龄预测方法 | |
Knijnenburg et al. | A regression model approach to enable cell morphology correction in high‐throughput flow cytometry | |
CN112233722A (zh) | 品种鉴定的方法、其预测模型的构建方法和装置 | |
Pandolfi et al. | Artificial neural networks as a tool for plant identification: a case study on Vietnamese tea accessions | |
CN113392877B (zh) | 一种基于蚁群算法与c-k算法的日负荷曲线聚类方法 | |
Ohnuki et al. | Dynamic changes in brewing yeast cells in culture revealed by statistical analyses of yeast morphological data | |
CN111763738A (zh) | 一种特征mRNA表达谱组合及肝癌早期预测方法 | |
CN116525010A (zh) | 一种单细胞转录组双源多细胞过滤方法、介质和设备 | |
CN116246713A (zh) | 基于基因调控网络的单细胞肿瘤微环境数据分析方法 | |
Bishwas et al. | Relative comparison of k-means clustering segmented rice leaves image based nitrogen, phosphorus, and potassium nutrient deficiency classification using convolutional neural network | |
CN107784197B (zh) | 一种pcr实验优化方法 | |
Wang et al. | Machine learning and ensemble learning for transcriptome data: principles and advances | |
CN109002833B (zh) | 一种微液滴数据分析方法及系统 | |
Miller et al. | Nonparametric clustering of functional data | |
CN111160635A (zh) | 一种基于ReliefF算法的区域物流需求影响因素预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |