CN114118306B - Sds凝胶电泳实验数据的分析方法、装置及sds凝胶试剂 - Google Patents

Sds凝胶电泳实验数据的分析方法、装置及sds凝胶试剂 Download PDF

Info

Publication number
CN114118306B
CN114118306B CN202210089388.1A CN202210089388A CN114118306B CN 114118306 B CN114118306 B CN 114118306B CN 202210089388 A CN202210089388 A CN 202210089388A CN 114118306 B CN114118306 B CN 114118306B
Authority
CN
China
Prior art keywords
data
abnormal
experimental
experimental data
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210089388.1A
Other languages
English (en)
Other versions
CN114118306A (zh
Inventor
凌雁
胡雨微
贺欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Pulilai Gene Technology Co ltd
Original Assignee
Beijing Pulilai Gene Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Pulilai Gene Technology Co ltd filed Critical Beijing Pulilai Gene Technology Co ltd
Priority to CN202210089388.1A priority Critical patent/CN114118306B/zh
Publication of CN114118306A publication Critical patent/CN114118306A/zh
Application granted granted Critical
Publication of CN114118306B publication Critical patent/CN114118306B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N27/00Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
    • G01N27/26Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating electrochemical variables; by using electrolysis or electrophoresis
    • G01N27/416Systems
    • G01N27/447Systems using electrophoresis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Electrochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供了SDS凝胶电泳实验数据的分析方法、装置及SDS凝胶试剂,所述方法包括:获取第一数据和第二数据;将相邻两次所述SDS凝胶电泳实验所得到的所述第一数据组成数据组,将每个所述数据组中在先得到的第一数据作为第一实验数据,在所述第一实验数据后得到的第一数据作为第二实验数据;基于所述数据组得到异常阈值范围,基于所述异常阈值范围和所述第一数据,得到所述第一数据中的异常实验数据;基于所述第一数据中的异常实验数据和所述实验参数得到所述异常实验数据的异常分析结果。本发明通过计算异常阈值范围的方式对异常实验数据进行筛选,可以提高筛选异常实验数据的准确性。

Description

SDS凝胶电泳实验数据的分析方法、装置及SDS凝胶试剂
技术领域
本发明涉及数据处理技术领域,具体而言,涉及SDS凝胶电泳实验数据的分析方法、装置及SDS凝胶试剂。
背景技术
目前,在进行SDS凝胶电泳实验时,在对某一样品进行测试时,当得到的一些实验结果与其他的实验结果相比存在较大差异时,只能根据实验操作者的经验对一些异常的实验数据进行剔除,并且也没有一种智能的方法对异常的实验数据进行异常分析,得到异常分析结果的方法,基本上还是根据实验操作者根据经验进行异常分析,得到异常分析结果。
发明内容
本发明的目的在于提供SDS凝胶电泳实验数据的分析方法、装置及SDS凝胶试剂,以改善上述问题。
为了实现上述目的,本申请实施例提供了如下技术方案:
一方面,本申请实施例提供了SDS凝胶电泳实验数据的分析方法,所述方法包括:
获取第一数据和第二数据,所述第一数据包括进行每次SDS凝胶电泳实验后所得到的实验结果,所述第二数据包括进行每次SDS凝胶电泳实验的实验参数;
将相邻两次所述SDS凝胶电泳实验所得到的所述第一数据组成数据组,将每个所述数据组中在先得到的第一数据作为第一实验数据,在所述第一实验数据后得到的第一数据作为第二实验数据;
基于所述数据组得到异常阈值范围,基于所述异常阈值范围和所述第一数据,得到所述第一数据中的异常实验数据;
基于所述第一数据中的异常实验数据和所述实验参数得到所述异常实验数据的异常分析结果。
可选的,所述基于所述数据组得到异常阈值范围,包括:
将全部的所述数据组利用基于距离类的聚类算法进行聚类处理,得到第一聚类类别集合,所述第一聚类类别集合包括至少一个聚类类别;
基于所述第一聚类类别集合和拉依达准则计算得到各个聚类类别对应的阈值范围;
对所有的所述阈值范围进行分析,将全部的所述阈值范围所形成的最小阈值范围作为判断异常点的所述异常阈值范围。
可选的,所述基于所述第一聚类类别集合和拉依达准则计算得到各个聚类类别对应的阈值范围,包括:
根据每个所述第一聚类类别所包含的所述数据组的个数对所述第一聚类类别进行删除操作,得到第二聚类类别集合,其中,获取个数阈值,若所述第一聚类类别中包含的所述数据组的个数小于所述个数阈值,则将所述第一聚类类别删除;
计算所述第二聚类类别集合中每个聚类类别所对应的参数,其中,将所述第二聚类类别集合中每个聚类类别中的第一实验数据进行集合,得到第一实验数据集合,计算所述第一实验数据集合的平均数和方差,将所述平均数和方差作为所述第二聚类类别集合中每个聚类类别所对应的参数;
根据所述第二聚类类别集合中每个聚类类别所对应的参数,利用拉依达准则计算每个聚类类别对应的阈值范围。
可选的,所述基于所述第一数据中的异常实验数据和所述实验参数得到所述异常实验数据的异常分析结果,包括:
基于所述第一数据中的异常实验数据和异常类别识别模型确定所述异常实验数据的异常类型;
根据所述异常类型确定关联度阈值,根据所述关联度阈值对所述实验参数进行筛选,得到筛选后的实验参数;
对所述筛选后的实验参数所对应的数值进行分析得到所述异常实验数据的异常分析结果。
可选的,所述异常类别识别模型的构建方法,包括:
获取历史实验数据,筛选所述历史实验数据中的异常实验数据,并对所述历史实验数据中的异常实验数据进行异常类型标定,得到标定后的异实验数据;
基于CART算法和所述根据所述标定后的异实验数据,得到CART决策树,对所述CART决策树进行随机剪枝处理并确定所述CART决策树的常量,得到至少一个未训练的子决策树;
基于所述未训练的子决策树和基尼指数计算方法得到最优的子决策树,基于所述最优的子决策树得到所述异常类别识别模型,所述异常类别识别模型包含所述最优子决策树及其对应的目标常数。
可选的,所述根据所述关联度阈值对所述实验参数进行筛选,得到筛选后的实验参数,包括:
将所述异常点所对应的实验参数和进行灰色关联分析,其中对每一个实验参数进行无量纲化处理,得到每个无量纲化处理后的实验参数,基于所述无量纲化处理后的实验参数计算所述实验参数的灰色关联系数;
基于所述实验参数的灰色关联系数计算得到所述实验参数的关联度,将所述实验参数的关联度大于所述关联度阈值的实验参数作为所述筛选后的实验参数。
第二方面,本申请实施例提供了SDS凝胶电泳实验数据的分析装置,所述装置包括获取模块、组成模块、第一计算模块、和第二计算模块。
获取模块,用于获取第一数据和第二数据,所述第一数据包括进行每次SDS凝胶电泳实验后所得到的实验结果,所述第二数据包括进行每次SDS凝胶电泳实验的实验参数;
组成模块,用于将相邻两次所述SDS凝胶电泳实验所得到的所述第一数据组成数据组,将每个所述数据组中在先得到的第一数据作为第一实验数据,在所述第一实验数据后得到的第一数据作为第二实验数据;
第一计算模块,用于基于所述数据组得到异常阈值范围,基于所述异常阈值范围和所述第一数据,得到所述第一数据中的异常实验数据;
第二计算模块,用于基于所述第一数据中的异常实验数据和所述实验参数得到所述异常实验数据的异常分析结果。
可选的,所述第一计算模块,包括:
聚类单元,用于将全部的所述数据组利用基于距离类的聚类算法进行聚类处理,得到第一聚类类别集合,所述第一聚类类别集合包括至少一个聚类类别;
第一计算单元,用于基于所述第一聚类类别集合和拉依达准则计算得到各个聚类类别对应的阈值范围;
第一分析单元,用于对所有的所述阈值范围进行分析,将全部的所述阈值范围所形成的最小阈值范围作为判断异常点的所述异常阈值范围。
可选的,所述第一计算单元,包括:
删除子单元,用于根据每个所述第一聚类类别所包含的所述数据组的个数对所述第一聚类类别进行删除操作,得到第二聚类类别集合,其中,获取个数阈值,若所述第一聚类类别中包含的所述数据组的个数小于所述个数阈值,则将所述第一聚类类别删除;
第一计算子单元,用于计算所述第二聚类类别集合中每个聚类类别所对应的参数,其中,将所述第二聚类类别集合中每个聚类类别中的第一实验数据进行集合,得到第一实验数据集合,计算所述第一实验数据集合的平均数和方差,将所述平均数和方差作为所述第二聚类类别集合中每个聚类类别所对应的参数;
第二计算子单元,用于根据所述第二聚类类别集合中每个聚类类别所对应的参数,利用拉依达准则计算每个聚类类别对应的阈值范围。
可选的,所述第二计算模块,包括:
第二计算单元,用于基于所述第一数据中的异常实验数据和异常类别识别模型确定所述异常实验数据的异常类型;
第三计算单元,用于根据所述异常类型确定关联度阈值,根据所述关联度阈值对所述实验参数进行筛选,得到筛选后的实验参数;
第二分析单元,用于对所述筛选后的实验参数所对应的数值进行分析得到所述异常实验数据的异常分析结果。
可选的,所述第二计算单元,包括:
获取子单元,用于获取历史实验数据,筛选所述历史实验数据中的异常实验数据,并对所述历史实验数据中的异常实验数据进行异常类型标定,得到标定后的异实验数据;
第三计算子单元,用于基于CART算法和所述根据所述标定后的异实验数据,得到CART决策树,对所述CART决策树进行随机剪枝处理并确定所述CART决策树的常量,得到至少一个未训练的子决策树;
第四计算子单元,用于基于所述未训练的子决策树和基尼指数计算方法得到最优的子决策树,基于所述最优的子决策树得到所述异常类别识别模型,所述异常类别识别模型包含所述最优子决策树及其对应的目标常数。
可选的,所述第三计算单元,包括:
分析子单元,用于将所述异常点所对应的实验参数和进行灰色关联分析,其中对每一个实验参数进行无量纲化处理,得到每个无量纲化处理后的实验参数,基于所述无量纲化处理后的实验参数计算所述实验参数的灰色关联系数;
第五计算子单元,用于基于所述实验参数的灰色关联系数计算得到所述实验参数的关联度,将所述实验参数的关联度大于所述关联度阈值的实验参数作为所述筛选后的实验参数。
第三方面,本申请实施例提供了一种SDS凝胶试剂,所述SDS凝胶试剂的制备过程中,使用SDS凝胶电泳实验数据,所述SDS凝胶电泳实验数据为使用上述SDS凝胶电泳实验数据的分析方法所得到的数据。
第四方面,本申请实施例提供了SDS凝胶电泳实验数据的分析设备,所述设备包括存储器和处理器。存储器用于存储计算机程序;处理器用于执行所述计算机程序时实现上述SDS凝胶电泳实验数据的分析方法的步骤。
第五方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述SDS凝胶电泳实验数据的分析方法的步骤。
本发明的有益效果为:
1、通过本发明的方法可以使实验操作者知道异常实验数据产生的原因,知道原因后则可以对实验参数进行调整,进而可以提高得到的实验结果的准确性;并且通过了解异常实验数据产生的原因后可以使实验操作者更加理解整个实验的实验原理,提升实验操作者对整个实验的掌握程度。
2、本发明对异常实验数据进行筛选时,通过计算异常阈值范围的方式对异常实验数据进行筛选,而不是依靠实验操作者的经验进行筛选,通过此种方法可以提高筛选异常实验数据的准确性;在对异常实验数据筛选之后,通过交互的方式确定进行异常数据分析的实验参数,通过此种方法可以避免对所有的实验参数进行分析,进而提高分析的效率。
本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例中所述的SDS凝胶电泳实验数据的分析方法流程示意图;
图2是本发明实施例中所述的SDS凝胶电泳实验数据的分析装置结构示意图;
图3是本发明实施例中所述的SDS凝胶电泳实验数据的分析设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号或字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例1
如图1所示,本实施例提供了SDS凝胶电泳实验数据的分析方法,该方法包括步骤S1、步骤S2、步骤S3和步骤S4。
步骤S1、获取第一数据和第二数据,所述第一数据包括进行每次SDS凝胶电泳实验后所得到的实验结果,所述第二数据包括进行每次SDS凝胶电泳实验的实验参数;
步骤S2、将相邻两次所述SDS凝胶电泳实验所得到的所述第一数据组成数据组,将每个所述数据组中在先得到的第一数据作为第一实验数据,在所述第一实验数据后得到的第一数据作为第二实验数据;
步骤S3、基于所述数据组得到异常阈值范围,基于所述异常阈值范围和所述第一数据,得到所述第一数据中的异常实验数据;
步骤S4、基于所述第一数据中的异常实验数据和所述实验参数得到所述异常实验数据的异常分析结果。
本实施例中,SDS凝胶电泳实验的实验数据例如可以为蛋白质分子量,则第二数据就相应的可以为测量蛋白质分子量的过程中的实验参数,例如可以为缓冲液的添加量、分离胶的添加量、浓缩胶的添加量;当需要测试某个样品的蛋白质分子量时,可以设计多组实验,得到多个实验结果,当得到这些实验结果后,可以通过本实施例中的方法筛选得到这些异常的实验数据,根据这些异常的实验数据所对应的实验参数就可以得出实验数据异常的原因。通过以上的方法可以使实验操作者知道异常实验数据产生的原因,知道原因后则可以对实验参数进行调整,进而可以提高得到的实验结果的准确性;并且通过了解异常实验数据产生的原因后可以使实验操作者更加理解整个实验的实验原理,提升实验操作者对整个实验的掌握程度;通过本实施例中的方法还可以筛选得到异常实验数据,进而还可以将异常实验数据进行剔除,以提高后续对实验结果进行分析形成分析报告的准确性。
其中,对异常实验数据进行筛选时,本实施例中通过计算异常阈值范围的方式对异常实验数据进行筛选,而不是依靠实验操作者的经验进行筛选,通过此种方法可以提高筛选异常实验数据的准确性;在对异常实验数据筛选之后,通过交互的方式确定进行异常数据分析的实验参数,通过此种方法可以避免对所有的实验参数进行分析,进而提高分析的效率。
在本实施例中,步骤S2可以理解为:例如经过实验操作后得到实验结果1、实验结果2、实验结果3、实验结果4和实验结果5,那么数据组则为(实验结果1、实验结果2)、(实验结果2、实验结果3)、(实验结果3、实验结果4)和(实验结果4、实验结果5),其中(实验结果1、实验结果2)数据组中的实验结果1就为上述所说的第一实验数据、实验结果2就为上述所说的第二实验数据;
在本公开的一种具体实施方式中,所述步骤S3,还可以包括步骤S31、步骤S32和步骤S33。
步骤S31、将全部的所述数据组利用基于距离类的聚类算法进行聚类处理,得到第一聚类类别集合,所述第一聚类类别集合包括至少一个聚类类别;
步骤S32、基于所述第一聚类类别集合和拉依达准则计算得到各个聚类类别对应的阈值范围;
步骤S33、对所有的所述阈值范围进行分析,将全部的所述阈值范围所形成的最小阈值范围作为判断异常点的所述异常阈值范围。
本实施例中,采用基于距离类的聚类算法中的k-meams聚类算法,还可以利用基于密度的聚类算法,例如DBSCAN算法;通过聚类处理后,就得到每一个数据组所对应的聚类类别,其中,一个数据组可能有多个聚类别,然后将所有的聚类类别进行集合,就得到所述第一聚类类别集合;
步骤S33可以理解为:例如第一个聚类类别对应的阈值范围为2-5,第二个聚类类别对应的阈值范围为1-3,第三个聚类类别对应的阈值范围为3-6,则将三个阈值范围在刻度线上均标注出来,然后所形成的最小的阈值范围就为所述异常阈值范围,延用上述例子,那么这三个聚类类别所形成的最小范围就为1-2,通过本实施例中的阈值范围确定方法可以将范围缩小到最小,进而提高异常实验数据筛选的准确性。
在本公开的一种具体实施方式中,所述步骤S32,还可以包括步骤S321、步骤S322和步骤S323。
步骤S321、根据每个所述第一聚类类别所包含的所述数据组的个数对所述第一聚类类别进行删除操作,得到第二聚类类别集合,其中,获取个数阈值,若所述第一聚类类别中包含的所述数据组的个数小于所述个数阈值,则将所述第一聚类类别删除;
步骤S322、计算所述第二聚类类别集合中每个聚类类别所对应的参数,其中,将所述第二聚类类别集合中每个聚类类别中的第一实验数据进行集合,得到第一实验数据集合,计算所述第一实验数据集合的平均数和方差,将所述平均数和方差作为所述第二聚类类别集合中每个聚类类别所对应的参数;
步骤S323、根据所述第二聚类类别集合中每个聚类类别所对应的参数,利用拉依达准则计算每个聚类类别对应的阈值范围。
在本实施例中,步骤S321可以理解为:例如有5个数据组均属于聚类类别1,8个数据组均属于聚类类别2,此时,若个数阈值为6,那么将聚类类别1进行剔除;通过此方法可以提高计算出的阈值范围的合理性。
在本公开的一种具体实施方式中,所述步骤S4,还可以包括步骤S41、步骤S42和步骤S43。
步骤S41、基于所述第一数据中的异常实验数据和异常类别识别模型确定所述异常实验数据的异常类型;
步骤S42、根据所述异常类型确定关联度阈值,根据所述关联度阈值对所述实验参数进行筛选,得到筛选后的实验参数;
步骤S413、对所述筛选后的实验参数所对应的数值进行分析得到所述异常实验数据的异常分析结果。
在本实施例中,计算出实验数据异常的异常类型之后,实验操作者再根据异常类型确定关联度阈值,因为异常类型不同,那么导致实验数据异常的实验参数也不一样,进而就可以确定关联度阈值,关联度阈值越小分析的实验参数就越少,关联度阈值越大那么分析的实验参数就会越多;通过本实施例中的这种交互方式,可以避免对所有的实验参数均进行分析,进而减少实验操作者的工作量。
在本实施例的步骤S413中,确定要分析的实验参数后,实验操作者可以对待分析的实验参数进行分析,得到异常分析结果。此外,还可以将待分析的实验参数与未发生异常的实验结果所对应的实验参数进行对比分析,或采用数据分析工具进行分析,得到异常分析结果。
在本公开的一种具体实施方式中,所述步骤S41,还可以包括步骤S411、步骤S412和步骤S413。
步骤S411、获取历史实验数据,筛选所述历史实验数据中的异常实验数据,并对所述历史实验数据中的异常实验数据进行异常类型标定,得到标定后的异实验数据;
步骤S412、基于CART算法和所述根据所述标定后的异实验数据,得到CART决策树,对所述CART决策树进行随机剪枝处理并确定所述CART决策树的常量,得到至少一个未训练的子决策树;
步骤S413、基于所述未训练的子决策树和基尼指数计算方法得到最优的子决策树,基于所述最优的子决策树得到所述异常类别识别模型,所述异常类别识别模型包含所述最优子决策树及其对应的目标常数。
在本公开的一种具体实施方式中,所述步骤S42,还可以包括步骤S421和步骤S422。
步骤S421、将所述异常点所对应的实验参数和进行灰色关联分析,其中对每一个实验参数进行无量纲化处理,得到每个无量纲化处理后的实验参数,基于所述无量纲化处理后的实验参数计算所述实验参数的灰色关联系数;
步骤S422、基于所述实验参数的灰色关联系数计算得到所述实验参数的关联度,将所述实验参数的关联度大于所述关联度阈值的实验参数作为所述筛选后的实验参数。
在本实施例,通过灰色关联度分析可以得到每个实验参数与实验结果之间的关联度。然后根据实验操作者确定的关联度阈值则可以确定需要进行异常分析的实验参数。在本实施例中,除了通过关联度分析方法还可以其他的关联度分析方法计算每个实验参数与实验结果之间的关联度,除此之外,还可以直接获取实验操作者输入的每个实验参数与实验结果之间的关联度。
实施例2
如图2所示,本实施例提供了SDS凝胶电泳实验数据的分析装置,所述装置包括获取模块701、组成模块702、第一计算模块703和第二计算模块704。
获取模块701,用于获取第一数据和第二数据,所述第一数据包括进行每次SDS凝胶电泳实验后所得到的实验结果,所述第二数据包括进行每次SDS凝胶电泳实验的实验参数;
组成模块702,用于将相邻两次所述SDS凝胶电泳实验所得到的所述第一数据组成数据组,将每个所述数据组中在先得到的第一数据作为第一实验数据,在所述第一实验数据后得到的第一数据作为第二实验数据;
第一计算模块703,用于基于所述数据组得到异常阈值范围,基于所述异常阈值范围和所述第一数据,得到所述第一数据中的异常实验数据;
第二计算模块704,用于基于所述第一数据中的异常实验数据和所述实验参数得到所述异常实验数据的异常分析结果。
对异常实验数据进行筛选时,本实施例中通过计算异常阈值范围的方式对异常实验数据进行筛选,而不是依靠实验操作者的经验进行筛选,通过此种方法可以提高筛选异常实验数据的准确性;在对异常实验数据筛选之后,通过交互的方式确定进行异常数据分析的实验参数,通过此种方法可以避免对所有的实验参数进行分析,进而提高分析的效率。
在本公开的一种具体实施方式中,所述第一计算模块703,还包括聚类单元7031、第一计算单元7032和第一分析单元7033。
聚类单元7031,用于将全部的所述数据组利用基于距离类的聚类算法进行聚类处理,得到第一聚类类别集合,所述第一聚类类别集合包括至少一个聚类类别;
第一计算单元7032,用于基于所述第一聚类类别集合和拉依达准则计算得到各个聚类类别对应的阈值范围;
第一分析单元7033,用于对所有的所述阈值范围进行分析,将全部的所述阈值范围所形成的最小阈值范围作为判断异常点的所述异常阈值范围。
在本公开的一种具体实施方式中,所述第一计算单元7032,还包括删除子单元70321、第一计算子单元70322和第二计算子单元70323。
删除子单元70321,用于根据每个所述第一聚类类别所包含的所述数据组的个数对所述第一聚类类别进行删除操作,得到第二聚类类别集合,其中,获取个数阈值,若所述第一聚类类别中包含的所述数据组的个数小于所述个数阈值,则将所述第一聚类类别删除;
第一计算子单元70322,用于计算所述第二聚类类别集合中每个聚类类别所对应的参数,其中,将所述第二聚类类别集合中每个聚类类别中的第一实验数据进行集合,得到第一实验数据集合,计算所述第一实验数据集合的平均数和方差,将所述平均数和方差作为所述第二聚类类别集合中每个聚类类别所对应的参数;
第二计算子单元70323,用于根据所述第二聚类类别集合中每个聚类类别所对应的参数,利用拉依达准则计算每个聚类类别对应的阈值范围。
在本公开的一种具体实施方式中,所述第二计算模块704,还包括第二计算单元7041、第三计算单元7042和第二分析单元7043。
第二计算单元7041,用于基于所述第一数据中的异常实验数据和异常类别识别模型确定所述异常实验数据的异常类型;
第三计算单元7042,用于根据所述异常类型确定关联度阈值,根据所述关联度阈值对所述实验参数进行筛选,得到筛选后的实验参数;
第二分析单元7043,用于对所述筛选后的实验参数所对应的数值进行分析得到所述异常实验数据的异常分析结果。
在本公开的一种具体实施方式中,所述第二计算单元7041,还包括获取子单元70411、第三计算子单元70412和第四计算子单元70413。
获取子单元70411,用于获取历史实验数据,筛选所述历史实验数据中的异常实验数据,并对所述历史实验数据中的异常实验数据进行异常类型标定,得到标定后的异实验数据;
第三计算子单元70412,用于基于CART算法和所述根据所述标定后的异实验数据,得到CART决策树,对所述CART决策树进行随机剪枝处理并确定所述CART决策树的常量,得到至少一个未训练的子决策树;
第四计算子单元70413,用于基于所述未训练的子决策树和基尼指数计算方法得到最优的子决策树,基于所述最优的子决策树得到所述异常类别识别模型,所述异常类别识别模型包含所述最优子决策树及其对应的目标常数。
在本公开的一种具体实施方式中,所述第三计算单元7042,还包括分析子单元70421和第五计算子单元70422。
分析子单元70421,用于将所述异常点所对应的实验参数和进行灰色关联分析,其中对每一个实验参数进行无量纲化处理,得到每个无量纲化处理后的实验参数,基于所述无量纲化处理后的实验参数计算所述实验参数的灰色关联系数;
第五计算子单元70422,用于基于所述实验参数的灰色关联系数计算得到所述实验参数的关联度,将所述实验参数的关联度大于所述关联度阈值的实验参数作为所述筛选后的实验参数。
需要说明的是,关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
实施例3
本实施例提供了一种SDS凝胶试剂,所述SDS凝胶试剂的制备过程中,使用SDS凝胶电泳实验数据,所述SDS凝胶电泳实验数据为使用上述SDS凝胶电泳实验数据的分析方法所得到的数据。
实施例4
相应于上面的方法实施例,本公开实施例还提供了SDS凝胶电泳实验数据的分析设备,下文描述的SDS凝胶电泳实验数据的分析设备与上文描述的SDS凝胶电泳实验数据的分析方法可相互对应参照。
图3是根据一示例性实施例示出的SDS凝胶电泳实验数据的分析设备800的框图。如图3所示,该SDS凝胶电泳实验数据的分析设备800可以包括:处理器801,存储器802。该SDS凝胶电泳实验数据的分析设备800还可以包括多媒体组件803,输入/输出(I/O)接口804,以及通信组件805中的一者或多者。
其中,处理器801用于控制该SDS凝胶电泳实验数据的分析设备800的整体操作,以完成上述的SDS凝胶电泳实验数据的分析方法中的全部或部分步骤。存储器802用于存储各种类型的数据以支持在该SDS凝胶电泳实验数据的分析设备800的操作,这些数据例如可以包括用于在该SDS凝胶电泳实验数据的分析设备800上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器802可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件803可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器802或通过通信组件805发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口804为处理器801和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件805用于该SDS凝胶电泳实验数据的分析设备800与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件805可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,该SDS凝胶电泳实验数据的分析设备800可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital SignalProcessing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的SDS凝胶电泳实验数据的分析方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的SDS凝胶电泳实验数据的分析方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器802,上述程序指令可由该SDS凝胶电泳实验数据的分析设备800的处理器801执行以完成上述的SDS凝胶电泳实验数据的分析方法。
实施例5
相应于上面的方法实施例,本公开实施例还提供了一种可读存储介质,下文描述的一种可读存储介质与上文描述的SDS凝胶电泳实验数据的分析方法可相互对应参照。
一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例的SDS凝胶电泳实验数据的分析方法的步骤。
该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.SDS凝胶电泳实验数据的分析方法,其特征在于,包括:
获取第一数据和第二数据,所述第一数据包括进行每次SDS凝胶电泳实验后所得到的实验结果,所述第二数据包括进行每次SDS凝胶电泳实验的实验参数;
将相邻两次所述SDS凝胶电泳实验所得到的所述第一数据组成数据组,将每个所述数据组中在先得到的第一数据作为第一实验数据,在所述第一实验数据后得到的第一数据作为第二实验数据;
基于所述数据组得到异常阈值范围,基于所述异常阈值范围和所述第一数据,得到所述第一数据中的异常实验数据;
基于所述第一数据中的异常实验数据和所述实验参数得到所述异常实验数据的异常分析结果;
所述基于所述数据组得到异常阈值范围,包括:
将全部的所述数据组利用基于距离类的聚类算法进行聚类处理,得到第一聚类类别集合,所述第一聚类类别集合包括至少一个聚类类别;
基于所述第一聚类类别集合和拉依达准则计算得到各个聚类类别对应的阈值范围;
对所有的所述阈值范围进行分析,将全部的所述阈值范围所形成的最小阈值范围作为判断异常点的所述异常阈值范围。
2.根据权利要求1所述的SDS凝胶电泳实验数据的分析方法,其特征在于,所述基于所述第一聚类类别集合和拉依达准则计算得到各个聚类类别对应的阈值范围,包括:
根据每个所述第一聚类类别所包含的所述数据组的个数对所述第一聚类类别进行删除操作,得到第二聚类类别集合,其中,获取个数阈值,若所述第一聚类类别中包含的所述数据组的个数小于所述个数阈值,则将所述第一聚类类别删除;
计算所述第二聚类类别集合中每个聚类类别所对应的参数,其中,将所述第二聚类类别集合中每个聚类类别中的第一实验数据进行集合,得到第一实验数据集合,计算所述第一实验数据集合的平均数和方差,将所述平均数和方差作为所述第二聚类类别集合中每个聚类类别所对应的参数;
根据所述第二聚类类别集合中每个聚类类别所对应的参数,利用拉依达准则计算每个聚类类别对应的阈值范围。
3.根据权利要求1所述的SDS凝胶电泳实验数据的分析方法,其特征在于,所述基于所述第一数据中的异常实验数据和所述实验参数得到所述异常实验数据的异常分析结果,包括:
基于所述第一数据中的异常实验数据和异常类别识别模型确定所述异常实验数据的异常类型;
根据所述异常类型确定关联度阈值,根据所述关联度阈值对所述实验参数进行筛选,得到筛选后的实验参数;
对所述筛选后的实验参数所对应的数值进行分析得到所述异常实验数据的异常分析结果。
4.根据权利要求3所述的SDS凝胶电泳实验数据的分析方法,其特征在于,所述异常类别识别模型的构建方法,包括:
获取历史实验数据,筛选所述历史实验数据中的异常实验数据,并对所述历史实验数据中的异常实验数据进行异常类型标定,得到标定后的异实验数据;
基于CART算法和所述根据所述标定后的异实验数据,得到CART决策树,对所述CART决策树进行随机剪枝处理并确定所述CART决策树的常量,得到至少一个未训练的子决策树;
基于所述未训练的子决策树和基尼指数计算方法得到最优的子决策树,基于所述最优的子决策树得到所述异常类别识别模型,所述异常类别识别模型包含所述最优的 子决策树及其对应的目标常数。
5.SDS凝胶电泳实验数据的分析装置,其特征在于,包括:
获取模块,用于获取第一数据和第二数据,所述第一数据包括进行每次SDS凝胶电泳实验后所得到的实验结果,所述第二数据包括进行每次SDS凝胶电泳实验的实验参数;
组成模块,用于将相邻两次所述SDS凝胶电泳实验所得到的所述第一数据组成数据组,将每个所述数据组中在先得到的第一数据作为第一实验数据,在所述第一实验数据后得到的第一数据作为第二实验数据;
第一计算模块,用于基于所述数据组得到异常阈值范围,基于所述异常阈值范围和所述第一数据,得到所述第一数据中的异常实验数据;
第二计算模块,用于基于所述第一数据中的异常实验数据和所述实验参数得到所述异常实验数据的异常分析结果;
所述第一计算模块,包括:
聚类单元,用于将全部的所述数据组利用基于距离类的聚类算法进行聚类处理,得到第一聚类类别集合,所述第一聚类类别集合包括至少一个聚类类别;
第一计算单元,用于基于所述第一聚类类别集合和拉依达准则计算得到各个聚类类别对应的阈值范围;
第一分析单元,用于对所有的所述阈值范围进行分析,将全部的所述阈值范围所形成的最小阈值范围作为判断异常点的所述异常阈值范围。
6.根据权利要求5所述的SDS凝胶电泳实验数据的分析装置,其特征在于,所述第一计算单元,包括:
删除子单元,用于根据每个所述第一聚类类别所包含的所述数据组的个数对所述第一聚类类别进行删除操作,得到第二聚类类别集合,其中,获取个数阈值,若所述第一聚类类别中包含的所述数据组的个数小于所述个数阈值,则将所述第一聚类类别删除;
第一计算子单元,用于计算所述第二聚类类别集合中每个聚类类别所对应的参数,其中,将所述第二聚类类别集合中每个聚类类别中的第一实验数据进行集合,得到第一实验数据集合,计算所述第一实验数据集合的平均数和方差,将所述平均数和方差作为所述第二聚类类别集合中每个聚类类别所对应的参数;
第二计算子单元,用于根据所述第二聚类类别集合中每个聚类类别所对应的参数,利用拉依达准则计算每个聚类类别对应的阈值范围。
7.根据权利要求5所述的SDS凝胶电泳实验数据的分析装置,其特征在于,所述第二计算模块,包括:
第二计算单元,用于基于所述第一数据中的异常实验数据和异常类别识别模型确定所述异常实验数据的异常类型;
第三计算单元,用于根据所述异常类型确定关联度阈值,根据所述关联度阈值对所述实验参数进行筛选,得到筛选后的实验参数;
第二分析单元,用于对所述筛选后的实验参数所对应的数值进行分析得到所述异常实验数据的异常分析结果。
8.根据权利要求7所述的SDS凝胶电泳实验数据的分析装置,其特征在于,所述第二计算单元,包括:
获取子单元,用于获取历史实验数据,筛选所述历史实验数据中的异常实验数据,并对所述历史实验数据中的异常实验数据进行异常类型标定,得到标定后的异实验数据;
第三计算子单元,用于基于CART算法和所述根据所述标定后的异实验数据,得到CART决策树,对所述CART决策树进行随机剪枝处理并确定所述CART决策树的常量,得到至少一个未训练的子决策树;
第四计算子单元,用于基于所述未训练的子决策树和基尼指数计算方法得到最优的子决策树,基于所述最优的子决策树得到所述异常类别识别模型,所述异常类别识别模型包含所述最优子决策树及其对应的目标常数。
CN202210089388.1A 2022-01-26 2022-01-26 Sds凝胶电泳实验数据的分析方法、装置及sds凝胶试剂 Active CN114118306B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210089388.1A CN114118306B (zh) 2022-01-26 2022-01-26 Sds凝胶电泳实验数据的分析方法、装置及sds凝胶试剂

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210089388.1A CN114118306B (zh) 2022-01-26 2022-01-26 Sds凝胶电泳实验数据的分析方法、装置及sds凝胶试剂

Publications (2)

Publication Number Publication Date
CN114118306A CN114118306A (zh) 2022-03-01
CN114118306B true CN114118306B (zh) 2022-04-01

Family

ID=80361383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210089388.1A Active CN114118306B (zh) 2022-01-26 2022-01-26 Sds凝胶电泳实验数据的分析方法、装置及sds凝胶试剂

Country Status (1)

Country Link
CN (1) CN114118306B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115512503B (zh) * 2022-08-01 2023-07-11 四川通信科研规划设计有限责任公司 一种高铁线路的周界入侵行为预警方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7792770B1 (en) * 2007-08-24 2010-09-07 Louisiana Tech Research Foundation; A Division Of Louisiana Tech University Foundation, Inc. Method to indentify anomalous data using cascaded K-Means clustering and an ID3 decision tree
CN107528823A (zh) * 2017-07-03 2017-12-29 中山大学 一种基于改进的K‑Means聚类算法的网络异常检测方法
CN110727590A (zh) * 2019-10-10 2020-01-24 北京字节跳动网络技术有限公司 异常试验方案的确定方法、设备及计算机可读存储介质
CN111783904A (zh) * 2020-09-04 2020-10-16 平安国际智慧城市科技股份有限公司 基于环境数据的数据异常分析方法、装置、设备及介质
CN113468747A (zh) * 2021-07-01 2021-10-01 中国航空工业集团公司西安飞机设计研究所 一种大型飞机燃油系统全模台

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7792770B1 (en) * 2007-08-24 2010-09-07 Louisiana Tech Research Foundation; A Division Of Louisiana Tech University Foundation, Inc. Method to indentify anomalous data using cascaded K-Means clustering and an ID3 decision tree
CN107528823A (zh) * 2017-07-03 2017-12-29 中山大学 一种基于改进的K‑Means聚类算法的网络异常检测方法
CN110727590A (zh) * 2019-10-10 2020-01-24 北京字节跳动网络技术有限公司 异常试验方案的确定方法、设备及计算机可读存储介质
CN111783904A (zh) * 2020-09-04 2020-10-16 平安国际智慧城市科技股份有限公司 基于环境数据的数据异常分析方法、装置、设备及介质
CN113468747A (zh) * 2021-07-01 2021-10-01 中国航空工业集团公司西安飞机设计研究所 一种大型飞机燃油系统全模台

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
An Outlier Detection Method Based on Clustering;Rajendra Pamula等;《IEEE》;20110317;全文 *

Also Published As

Publication number Publication date
CN114118306A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
Fleming et al. Unsupervised removal of systematic background noise from droplet-based single-cell experiments using CellBender
CN112235327A (zh) 异常日志检测方法、装置、设备和计算机可读存储介质
Barla et al. Machine learning methods for predictive proteomics
CN111160473A (zh) 一种分类标签的特征挖掘方法及装置
Mayasari Comparison of Support Vector Machine and Decision Tree in Predicting On-Time Graduation (Case Study: Universitas Pembangunan Panca Budi)
CN114118306B (zh) Sds凝胶电泳实验数据的分析方法、装置及sds凝胶试剂
CN115391670B (zh) 一种基于知识图谱的互联网行为分析方法与系统
Mahasin et al. Comparison of cspdarknet53, cspresnext-50, and efficientnet-b0 backbones on yolo v4 as object detector
CN114424287A (zh) 单细胞rna-seq数据处理
CN114238033B (zh) 板卡运行状态预警方法、装置、设备及可读存储介质
CN112185468A (zh) 一种用于基因数据分析和处理的云端管理系统及方法
CN114974460A (zh) 一种预测消毒副产物细胞毒性的方法
CN113177644A (zh) 一种基于词嵌入和深度时序模型的自动建模系统
CN111797313A (zh) 自学习推荐方法、装置、计算机设备和存储介质
CN115186776B (zh) 一种红宝石产地分类的方法、装置及存储介质
CN115579069A (zh) scRNA-Seq细胞类型注释数据库的构建方法、装置及电子设备
US11321843B1 (en) Adaptive machine learning system for image based biological sample constituent analysis
CN114944198A (zh) 一种计算机处理采集设备数据的融合方法
CN113095589A (zh) 一种人口属性确定方法、装置、设备及存储介质
CN112182218A (zh) 文本数据的分类方法及装置
CN115237739B (zh) 板卡运行环境的分析方法、装置、设备及可读存储介质
CN115953724B (zh) 一种用户数据分析以及管理方法、装置、设备及存储介质
CN117079831B (zh) 一种基于大数据分析的病案统计管理方法及系统
CN115684316B (zh) 基于mos气敏传感器阵列的仿生电子鼻的气味识别方法
CN113378881B (zh) 基于信息熵增益svm模型的指令集识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant