CN117349764A

CN117349764A - 一种干细胞诱导数据智能分析方法

Info

Publication number: CN117349764A
Application number: CN202311648180.XA
Authority: CN
Inventors: 董向涛; 赵继宗; 刘玮; 邓姗姗; 王永狄
Original assignee: Hebei Sanzang Biotechnology Co ltd
Current assignee: Hebei Sanzang Biotechnology Co ltd
Priority date: 2023-12-05
Filing date: 2023-12-05
Publication date: 2024-01-05
Anticipated expiration: 2043-12-05
Also published as: CN117349764B

Abstract

本发明涉及数据处理技术领域，具体涉及一种干细胞诱导数据智能分析方法，包括：采集样本细胞的多项特征数据和样本细胞的全部基因的基因表达水平，排序获得每项特征数据序列，计算每项特征数据序列中的每个特征数据的局部离散程度和变化比，根据变化比对每项特征数据序列中的每个特征数据的局部离散程度进行修正，根据修正后的局部离散程度获得每项特征数据序列的所有划分基准数据，根据所有项特征数据序列的所有划分基准数据，对所有待检测数据点进行孤立森林划分；根据孤立森林获得异常数据。本发明通过准确的孤立森林划分结果获得异常数据，通过分析异常数据的产生原因，对诱导多能干细胞的重编程环境进行改进，提高重编程效率和维持多能性。

Description

一种干细胞诱导数据智能分析方法

技术领域

本发明涉及数据处理技术领域，具体涉及一种干细胞诱导数据智能分析方法。

背景技术

干细胞诱导数据是指在实验室中通过诱导的方式将成体细胞重编程为干细胞的过程中所产生的数据。通过分析干细胞诱导数据，可以了解干细胞的特性和功能，以及它们在再生医学、药物筛选、疾病模型构建等方面的应用潜力。

为了提高重编程效率和维持多能性，需要在重编程过程中，对干细胞诱导数据中的异常数据进行分析，获得异常数据的产生原因，对诱导多能干细胞的重编程环境进行改进。

现有技术通过孤立森林算法获取干细胞诱导数据中的异常数据，但是在诱导多能干细胞的重编程过程中，不同因素对基因的表达水平的影响未必是线性的，直接进行孤立森林划分，可能会导致基因对影响因素反应敏感部分的数据点被划分为异常数据，或者将饱和效应的异常数据划分为正常数据。

发明内容

为了解决上述问题，本发明提供一种干细胞诱导数据智能分析方法，所述方法包括：

采集样本细胞的多项特征数据和样本细胞的全部基因的基因表达水平，根据每种基因的基因表达水平对样本细胞进行分类，获取多类表达水平细胞；

任意一类表达水平细胞的多项特征数据和基因表达水平组成待检测数据点集合，对待检测数据点集合的每项特征数据进行排序，获得每项特征数据序列；

根据每项特征数据序列中的每个特征数据的邻域内特征数据的分布，计算每项特征数据序列中的每个特征数据的局部离散程度和变化比；

根据每项特征数据序列中的每个特征数据的变化比，对每项特征数据序列中的每个特征数据的局部离散程度进行修正；

根据每项特征数据序列中的每个特征数据的修正后的局部离散程度，获得每项特征数据序列的所有划分基准数据，根据所有项特征数据序列的所有划分基准数据，对所有待检测数据点进行孤立森林划分；根据孤立森林获得异常数据。

进一步地，所述局部离散程度的计算公式如下：

式中，表示第/>项特征数据序列中的j个特征数据的局部离散程度，P表示预设局部数据个数，/>表示第/>项特征数据序列中的j个特征数据的邻域内特征数据的索引，和/>分别表示第/>项特征数据序列中的j个特征数据的邻域内第/>个特征数据和第/>个特征数据，/>表示第/>项特征数据序列的极差，/>表示待检测数据点的个数；

其中，对于每项特征数据序列中的每个特征数据，相邻的P个特征数据组成每个特征数据的邻域。

进一步地，所述变化比的计算公式如下：

式中，表示第/>项特征数据序列中的第/>个目标特征数据的变化比，/>表示第/>项特征数据序列中的第/>个目标特征数据的邻域内的基因表达水平的极差，/>表示第/>项特征数据序列中基因表达水平的极差，/>表示第/>项特征数据序列中的第/>个目标特征数据的邻域内特征数据的极差，/>表示第/>项特征数据序列中特征数据的极差；

每项特征数据序列中的非目标特征数据的变化比为0。

进一步地，所述目标特征数据的获取方法为：

对于每项特征数据序列中的每个特征数据，根据每个特征数据的邻域内的所有特征数据以及基因表达水平，计算每个特征数据与基因表达水平的局部斯皮尔曼相关系数；将局部斯皮尔曼相关系数的绝对值大于预设相关系数阈值E的特征数据，作为目标特征数据。

进一步地，所述修正后的局部离散程度的计算公式如下：

式中，表示第i项特征数据序列中的第j个特征数据的修正后的局部离散程度，/>表示第i项特征数据序列中的j个特征数据的局部离散程度，/>表示第i项特征数据序列中的第j个特征数据的变化比，T表示预设的变化比阈值。

进一步地，所述每项特征数据序列的所有划分基准数据的获取方法如下：

在第一个特征数据和最后一个特征数据中，将修正后的局部离散程度最大的特征数据作为第一起始划分基准数据，将另一个特征数据作为第一终止划分基准数据；在第一起始划分基准数据和第一终止划分基准数据之间，将修正后的局部离散程度在范围内，且距离第一起始划分基准数据最近的特征数据作为第一个划分基准数据，/>表示第一起始划分基准数据的修正后的局部离散程度，A表示预设范围；

在第一个划分基准数据和第一终止划分基准数据中，将修正后的局部离散程度最大的特征数据作为第二起始划分基准数据，将另一个特征数据作为第二终止划分基准数据；在第二起始划分基准数据和第二终止划分基准数据之间，将修正后的局部离散程度在范围内，且距离第二起始划分基准数据最近的特征数据作为第二个划分基准数据，/>表示第二起始划分基准数据的修正后的局部离散程度；

在第二个划分基准数据和第二终止划分基准数据中，将修正后的局部离散程度最大的特征数据作为第三起始划分基准数据，将另一个特征数据作为第三终止划分基准数据；在第三起始划分基准数据和第三终止划分基准数据之间，将修正后的局部离散程度在范围内，且距离第三起始划分基准数据最近的特征数据作为第三个划分基准数据，/>表示第三起始划分基准数据的修正后的局部离散程度；

以此类推，直至在第N+1起始划分基准数据和第N+1终止划分基准数据之间，不存在修正后的局部离散程度在范围内的特征数据，/>表示第N+1个起始划分基准数据的修正后的局部离散程度，此时，共获得N个划分基准数据，作为第i项特征数据序列的所有划分基准数据。

进一步地，所述获得每项特征数据序列，包括的具体步骤如下：

按照从小到大的顺序，对所有待检测数据点的每项特征数据进行排序，获得每项特征数据序列。

进一步地，所述根据孤立森林获得异常数据，包括的具体步骤如下：

根据孤立森林计算每个待检测数据点的异常得分，将异常得分大于预设得分阈值B的待检测数据点记为异常数据。

进一步地，所述采集样本细胞的多项特征数据和样本细胞的全部基因的基因表达水平，包括的具体步骤如下：

采集诱导多能干细胞作为样本细胞，对每个样本细胞进行随机环境的重编程，记录每个样本细胞的外环境数据以及每个样本细胞的全部基因的基因表达水平；其中，每个样本细胞的外环境数据包括细胞培养基的成分和含量、细胞培养条件的温度、氧气浓度以及添加的生长因子浓度，样本细胞的外环境数据包括多项特征数据；通过实时荧光定量PCR方法测量每个样本细胞的每类基因的基因表达水平。

进一步地，所述获取多类表达水平细胞，包括的具体步骤如下：

根据预设基因表达水平阈值对所有样本细胞进行分级，将基因表达水平小于的样本细胞记为第一表达水平细胞，将基因表达水平大于等于/>且小于/>的样本细胞记为第二表达水平细胞，将基因表达水平大于等于/>且小于/>的样本细胞记为第三表达水平细胞，将基因表达水平大于等于/>的样本细胞记为第四表达水平细胞，/>表示基因表达水平阈值。

本发明的技术方案的有益效果是：本发明通过分析诱导多能干细胞重编程过程中不同基因的基因表达水平与不同特征因素的相关关系，找出基因表达水平对培养因素变化反应较敏感的数据，根据邻域内特征数据的分布，计算每个特征数据的局部离散程度和变化比，根据变化比对局部离散程度进行修正，根据修正后的局部离散程获得每项特征数据序列的所有划分基准数据，根据所有项特征数据序列的所有划分基准数据，对所有待检测数据点进行孤立森林划分，在孤立树阈值划分的过程中，将敏感数据进行特殊考虑，从而获得更加准确的孤立森林划分结果，准确获得异常数据，通过分析异常数据的产生原因，对诱导多能干细胞的重编程环境进行改进，提高重编程效率和维持多能性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种干细胞诱导数据智能分析方法的方法流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种干细胞诱导数据智能分析方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种干细胞诱导数据智能分析方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种干细胞诱导数据智能分析方法的数据传输模块的方法流程图，该方法包括：

S001、采集样本细胞的多项特征数据和样本细胞的全部基因的基因表达水平，根据每种基因的基因表达水平对样本细胞进行分类，获取多类表达水平细胞。

在本实施例中，采集诱导多能干细胞作为样本细胞，对每个样本细胞进行随机环境的重编程，记录每个样本细胞的外环境数据以及每个样本细胞的全部基因的基因表达水平；其中，每个样本细胞的外环境数据包括但不限于细胞培养基的成分和含量、细胞培养条件的温度、氧气浓度以及添加的生长因子浓度，样本细胞的外环境数据中的每一类数据都是影响样本细胞的基因表达水平的特征因素，因此，样本细胞的外环境数据包括多项特征数据；通过实时荧光定量PCR方法测量每个样本细胞的每类基因的基因表达水平。

需要说明的是，样本细胞的每类基因的基因表达水平受到各种各样因素的影响，根据每类基因的基因表达水平对所有样本细胞进行分级，将基因表达水平相近的样本细胞标进行异常数据分析，从而获取重编程过程中出现异常的样本细胞，后续以样本细胞的任意一类基因的基因表达水平为例进行说明。

具体的，实时荧光定量PCR方法是通过Ct值（阈值循环数）来衡量细胞的基因表达水平的高低，一般Ct值处于20和40之间，Ct值越高，基因表达水平越高，因此预设一组基因表达水平阈值，实施人员可根据实际实施情况设置基因表达水平阈值/>，例如/>；根据预设基因表达水平阈值对所有样本细胞进行分级，将基因表达水平小于/>的样本细胞记为第一表达水平细胞，将基因表达水平大于等于/>且小于的样本细胞记为第二表达水平细胞，将基因表达水平大于等于/>且小于/>的样本细胞记为第三表达水平细胞，将基因表达水平大于等于/>的样本细胞记为第四表达水平细胞。

S002、对待检测数据点集合的每项特征数据进行排序，获得每项特征数据序列，计算每项特征数据序列中的每个特征数据的局部离散程度和变化比，根据变化比对局部离散程度进行修正。

需要说明的是，样本细胞的外环境数据中的每一项特征数据都是影响基因表达水平的特征因素，按照外环境数据对样本细胞进行孤立树划分的过程中，考虑到样本细胞的基因可能会对某些特征因素的变化较为敏感，在这种情况下样本细胞的在孤立树划分过程中会比较离散，正常数据容易被误划分为异常数据。故通过每种影响因素的局部基因表达水平与每种影响因素的线性一致性，获取样本基因与孤立树对应特征的局部关联程度，根据局部关联程度对局部离散程度进行修正，根据修正后的局部离散程度获取孤立树的划分阈值。

对待检测数据点集合的每项特征数据进行排序，获得每项特征数据序列，根据变化比对局部离散程度进行修正，根据每项特征数据序列中的每个特征数据的邻域内特征数据的分布，计算每项特征数据序列中的每个特征数据的局部离散程度。

需要说明的是，孤立树划分希望将一组数据中靠近两边且离散程度较大的数据划分为异常数据，故通过每项特征数据的局部离散程度获取每项特征数据的划分阈值。故通过任意一项特征数据排序序列两端的局部离散程度获取最佳划分的阈值。

在本实施例中，要对四类表达水平细胞的基因表达水平进行异常检测，以所有第一表达水平细胞为例进行说明。每个第一表达水平细胞的多项特征数据和基因表达水平组成一个待检测数据点。

具体的，按照从小到大的顺序，对所有待检测数据点的每项特征数据进行排序，获得每项特征数据序列；对于每项特征数据序列中的每个特征数据，相邻的P个特征数据组成每个特征数据的邻域，预设局部数据个数P，实施人员可根据实际实施情况设置局部数据个数P，例如P=10。

进一步，根据每项特征数据序列中的每个特征数据的邻域内特征数据的分布，计算每项特征数据序列中的每个特征数据的局部离散程度，具体计算公式为：

式中，表示第/>项特征数据序列中的j个特征数据的局部离散程度，P表示预设局部数据个数，/>表示第/>项特征数据序列中的j个特征数据的邻域内特征数据的索引，和/>分别表示第/>项特征数据序列中的j个特征数据的邻域内第/>个特征数据和第/>个特征数据，/>表示第/>项特征数据序列的极差，/>表示待检测数据点的个数，其中，极差是指极大值和极小值的差值。

需要说明的是，代表特征数据序列中的每个特征数据的邻域内相邻两个特征数据的差值，该值越大，则特征数据的邻域内相邻的特征数据的差异越大，则特征数据序列中的特征数据的局部离散程度越大；由于/>为特征数据序列的极差，则/>代表特征数据序列中所有相邻的特征数据的平均差异，该值越大时，说明特征数据序列的整体离散程度越大，则特征数据序列中的特征数据的局部离散程度相对越小。

计算每项特征数据序列中的每个特征数据的变化比。

需要说明的是，如果样本细胞的基因对于某项特征因素的变化较为敏感，即该特征因素出现较小变化就会导致基因的基因表达水平出现较大变化时，说明此处特征数据出现局部离散程度较大的情况是由于该特征因素和样本细胞的基因之间的敏感导致的，并不是有异常数据存在，此时需要将特征因素的离散程度修正为较小水平。如果特征因素对基因表达水平的影响程度较大，则特征数据与基因表达水平在局部呈现严格单调性，此时通过斯皮尔曼相关系数判断两者是否单调相关，将单调相关的局部视为样本基因对特征变化敏感。

在本实施例中，对于每项特征数据序列中的每个特征数据，根据每个特征数据的邻域内的所有特征数据以及基因表达水平，计算每个特征数据与基因表达水平的局部斯皮尔曼相关系数；将局部斯皮尔曼相关系数的绝对值大于预设相关系数阈值E的特征数据，作为目标特征数据。

为了防止特征数据的邻域内存在异常数据，造成对特征数据与基因表达水平之间单调关系的误判，预设一个相关系数阈值E，实施人员可根据实际实施情况设置相关系数阈值E，例如E=0.9。

需要说明的是，正常数据中也会存在某一特征数据与基因表达水平严格单调的情况，考虑通过目标数据的邻域区域中每个特征数据与对应的基因表达水平的变化比，从中找出较使基因的表达水平变化敏感的局部特征数据。

具体的，对于每项特征数据序列中的非目标特征数据，其变化比为0；计算每项特征数据序列中的每个目标特征数据的变化比，具体计算公式为：

式中，表示第/>项特征数据序列中的第/>个目标特征数据的变化比，/>表示第/>项特征数据序列中的第/>个目标特征数据的邻域内的基因表达水平的极差，/>表示第/>项特征数据序列中基因表达水平的极差，/>表示第/>项特征数据序列中的第/>个目标特征数据的邻域内特征数据的极差，/>表示第/>项特征数据序列中特征数据的极差。

需要说明的是，目标数据的邻域内，特征数据与基因表达水平的单调性较强，因此直接通过极差便可反映特征数据在局部的变化程度大小。由于不同项特征数据与基因表达水平的数量级有所不同，故直接用基因表达水平和第项特征数据的极差变化计算变化比，难以确定变化比的取值范围，从而难以确定变化比阈值，因此，通过表达水平和第/>项特征数据的局部极差和整体极差的比值，对局部极差进行归一化，获取两个归一化后的极差的比值作为变化比；变化比越大，说明第/>项特征数据变化后会引起基因表达水平较大的变化，即目标特征数据的局部基因表达水平相对于第/>项特征数据的变化较为敏感。

根据变化比对局部离散程度进行修正，获得每项特征数据序列中的每个特征数据的修正后的局部离散程度。

根据每项特征数据序列中的每个特征数据的变化比，对每项特征数据序列中的每个特征数据的局部离散程度进行修正，每项特征数据序列中的每个特征数据的修正后的局部离散程度的计算方法为：

预设一个变化比阈值T，实施人员可根据实际实施情况设置变化比阈值T，例如T=2.1。

需要说明的是，变化比较大的特征数据被认定为基因表达水平变化敏感区域，对于敏感区域，认为其较大的局部离散程度属于正常现象，故通过变化比将局部离散程度调小；而变化比较小的特征数据被认定为基因表达水平变化不敏感区域，直接根据其局部离散程度进行划分阈值选定即可。

S003、根据修正后的局部离散程度获得每项特征数据序列的所有划分基准数据，根据所有项特征数据序列的所有划分基准数据，对所有待检测数据点进行孤立森林划分。

需要说明的是，孤立森林划分将排序序列两端离散程度较大的数据一次划分生成孤立树，故通过每项特征数据的排序序列首尾数据的离散程度获取划分阈值。

在本实施例中，在第i项特征数据序列中，在第一个特征数据和最后一个特征数据中，将修正后的局部离散程度最大的特征数据作为第一起始划分基准数据，将另一个特征数据作为第一终止划分基准数据；在第一起始划分基准数据和第一终止划分基准数据之间，将修正后的局部离散程度在范围内，且距离第一起始划分基准数据最近的特征数据作为第一个划分基准数据，/>表示第一起始划分基准数据的修正后的局部离散程度，A表示预设范围，实施人员可根据实际实施情况设置范围A，例如A=0.1；

获得每项特征数据序列的所有划分基准数据，根据所有项特征数据序列的所有划分基准数据，对所有待检测数据点进行孤立森林划分。

需要说明的是，通过分析诱导多能干细胞重编程过程中不同基因的表达水平与不同因素的相关关系，找出基因表达水平对培养因素变化反应较敏感的数据以及饱和效应的出现，在孤立树阈值划分的过程中，将这些数据进行特殊考虑，从而获得更加准确的孤立树划分结果。

S004、根据孤立森林获得异常数据。

根据孤立森林计算每个待检测数据点的异常得分，将异常得分大于预设得分阈值B的待检测数据点记为异常数据，实施人员可根据实际实施情况设置得分阈值B，例如B=1。

分析异常数据对应样本细胞的外部生长环境，得出细胞出现异常的原因，并据此对诱导多能干细胞的重编程环境进行改进，以获取最优的重编程环境。

本发明通过分析诱导多能干细胞重编程过程中不同基因的基因表达水平与不同特征因素的相关关系，找出基因表达水平对培养因素变化反应较敏感的数据，根据邻域内特征数据的分布，计算每个特征数据的局部离散程度和变化比，根据变化比对局部离散程度进行修正，根据修正后的局部离散程获得每项特征数据序列的所有划分基准数据，根据所有项特征数据序列的所有划分基准数据，对所有待检测数据点进行孤立森林划分，在孤立树阈值划分的过程中，将敏感数据进行特殊考虑，从而获得更加准确的孤立森林划分结果，准确获得异常数据，通过分析异常数据的产生原因，对诱导多能干细胞的重编程环境进行改进，提重编程效率和维持多能性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种干细胞诱导数据智能分析方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种干细胞诱导数据智能分析方法，其特征在于，所述局部离散程度的计算公式如下：

式中，表示第/>项特征数据序列中的j个特征数据的局部离散程度，P表示预设局部数据个数，/>表示第/>项特征数据序列中的j个特征数据的邻域内特征数据的索引，/>和/>分别表示第/>项特征数据序列中的j个特征数据的邻域内第/>个特征数据和第/>个特征数据，/>表示第/>项特征数据序列的极差，/>表示待检测数据点的个数；

3.根据权利要求1所述的一种干细胞诱导数据智能分析方法，其特征在于，所述变化比的计算公式如下：

每项特征数据序列中的非目标特征数据的变化比为0。

4.根据权利要求3所述的一种干细胞诱导数据智能分析方法，其特征在于，所述目标特征数据的获取方法为：

5.根据权利要求1所述的一种干细胞诱导数据智能分析方法，其特征在于，所述修正后的局部离散程度的计算公式如下：

式中，表示第i项特征数据序列中的第j个特征数据的修正后的局部离散程度，表示第i项特征数据序列中的j个特征数据的局部离散程度，/>表示第i项特征数据序列中的第j个特征数据的变化比，T表示预设的变化比阈值。

6.根据权利要求1所述的一种干细胞诱导数据智能分析方法，其特征在于，所述每项特征数据序列的所有划分基准数据的获取方法如下：

7.根据权利要求1所述的一种干细胞诱导数据智能分析方法，其特征在于，所述获得每项特征数据序列，包括的具体步骤如下：

8.根据权利要求1所述的一种干细胞诱导数据智能分析方法，其特征在于，所述根据孤立森林获得异常数据，包括的具体步骤如下：

9.根据权利要求1所述的一种干细胞诱导数据智能分析方法，其特征在于，所述采集样本细胞的多项特征数据和样本细胞的全部基因的基因表达水平，包括的具体步骤如下：

10.根据权利要求1所述的一种干细胞诱导数据智能分析方法，其特征在于，所述获取多类表达水平细胞，包括的具体步骤如下：