CN114822698A - 一种基于知识推理的生物学大样本数据集分析方法及系统 - Google Patents

一种基于知识推理的生物学大样本数据集分析方法及系统 Download PDF

Info

Publication number
CN114822698A
CN114822698A CN202210704342.6A CN202210704342A CN114822698A CN 114822698 A CN114822698 A CN 114822698A CN 202210704342 A CN202210704342 A CN 202210704342A CN 114822698 A CN114822698 A CN 114822698A
Authority
CN
China
Prior art keywords
condition
combination
state
variable
variables
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210704342.6A
Other languages
English (en)
Other versions
CN114822698B (zh
Inventor
徐玮
高军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong Agricultural University
Original Assignee
Huazhong Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong Agricultural University filed Critical Huazhong Agricultural University
Priority to CN202210704342.6A priority Critical patent/CN114822698B/zh
Publication of CN114822698A publication Critical patent/CN114822698A/zh
Application granted granted Critical
Publication of CN114822698B publication Critical patent/CN114822698B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Public Health (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Genetics & Genomics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Computational Linguistics (AREA)
  • Bioethics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及一种基于知识推理的生物学大样本数据集分析方法、系统及装置,方法包括:收集m个案例的第一序列信息;定义条件变量和结果变量,数据集编码;计算单个条件变量的必要性指数;条件变量统计学检验;最小化推理及案例支持率计算;条件组合统计学检验;迭代计算;本生物学大样本数据集数据所得到的解为每次计算所得到的结果的集合;系统包括:包括序列检测模块,编码模块,必要性指数计算模块,条件变量统计学检验模块,最小化推理模块,条件组合案例支持率计算模块,条件组合统计学检验模块,迭代计算管理模块;装置包括:测序仪,存储器,处理器。

Description

一种基于知识推理的生物学大样本数据集分析方法及系统
技术领域
本发明属于基于特定计算模型的计算机系统领域,尤其涉及一种基于知识推理的生物学大样本数据集分析方法、系统及装置。
背景技术
知识推理是在已有知识的基础之上,推断出未知的知识的过程。通过从已知的知识出发,通过已经获取的知识,从中获取到所蕴含的新的事实,或者从大量的已有的知识中进行归纳,从个体知识推广到一般性的知识。知识推理通过在计算机或者智能系统中,模拟人类的智能推理方式,依据推理控制策略,利用形式化的知识进行机器思维,求解问题。对于知识推理而言,其包括的内容可以分为两种,第一种是已知的,用于进行推理的已有知识,另外一种是运用现有的知识推导或者归纳出来的新的知识。对于知识而言,其形式是多种多样的,可以是一个或者多个段落描述,又或者如传统的三段论的形式。继续以三段论为例,其基本结构包括大前提,小前提,结论三个部分,在这三个部分中大前提,小前提是已知的知识,而结论则是通过已知的知识所推理出来的新的知识。在知识表示上,还有规则推理中的规则形式,知识图谱上的三元组的形式等。生物学网络在生物系统中用网络的形式表征基因、分子的调控以及相互作用关系,包含很多不同层面和不同组织形式的网络。最常见的有基因转录调控网络、生物代谢与信号转导网络和蛋白质相互作用网络等。生物学网络是对生物系统以图的方式抽象后的表示方式。在生物学网络中,组成生物系统的元素为节点,元素之间的相互联系为边。例如,在蛋白质相互作用网络中,细胞中的蛋白质为节点,蛋白质间的相互作用(如结合)为边。生物学网络对于理解复杂的生物系统很重要,一是可以描述生物系统涌现出的网络结构特性,二是可以横向比较不同生物系统在网络结构方面的相似性或差异性。生物学网络将生物系统看成一个整体,体现了“整体大于部分之和”的哲学思想。生物学网络按生物系统、构建方式不同可分为多种类型。比较常见的生物学网络包括蛋白质相互作用网络、基因共表达网络、大脑神经网络等。
近些年来,随着信息技术的快速发展,各个行业、各个领域形成了大量的数据。有效利用大量的数据进行处理和分析以有效地发现隐含在数据中的某些特定的关系,推测数据的发展趋势,并指导后续的生产生活实践,是非常有益的。传统统计学分析及其衍生的预测方法是建立在关联关系的基础上,例如逻辑回归基于单个条件变量的系数来构成模型,不能发现非线性特征;朴素贝叶斯假设各个条件变量彼此独立,计算过程中忽略了各个条件变量之间的交互信息;树算法也同样无法知道各个条件变量之间的交互信息。上述分析方法都忽略了变量之间的协同作用,从而会影响预测的准确率。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于知识推理的生物学大样本数据集分析方法及系统,其采用逻辑数学的方法分析多个变量之间的协同作用对结果产生的影响,有效地发现隐含在数据中的特定的关系,推测数据的发展趋势。
为解决上述问题,本发明提出了一种基于知识推理的生物学大样本数据集分析方法、系统及装置,包括:
一种基于知识推理的生物学大样本数据集分析方法,其特征在于,包括:针对待分析的问题,收集m个案例的第一序列信息,优选地,m取值为100或100以上;所述第一序列信息采样于所述案例的同一位置的基因片段;从所述基因片段中选取n个等位基因定义为条件变量,优选地,n取值为m除以10得到的结果的整数部分;根据待分析的问题定义结果变量,将每个案例的所述条件变量和结果变量编码,形成以数据矩阵表示的生物学大样本数据集,其每一行代表一个案例;根据单个条件变量的状态Sx和结果变量的状态Sy计算必要性指数Nec:Nec=Num(Sx,Sy)/Num(Sx),其中,Num(Sx,Sy)表示条件变量的状态为Sx且结果变量的状态为Sy的案例的数量,Num(Sx) 表示条件变量的状态为Sx的案例的数量;选出必要性指数Nec的值大于或等于第一预设值的条件变量的状态Sx,优选地,所述第一预设值为0.9;对所述条件变量的状态Sx进行统计学检验;对所述生物学大样本数据集进行最小化推理得到不同的条件变量的组合Ci并计算其对应的案例支持率Sup,对组合Ci根据其案例支持率Sup进行降序排列;从第一个组合开始,进行条件变量的组合Ci的统计学检验,如果通过统计学检验,则将该组合添加至结果集合中,本轮计算结束;如果未通过统计学检验,则依次选取后面的组合进行统计学检验,直至得到通过统计学检验的组合,将所述通过统计学检验的组合添加至结果集合中,本轮计算结束;如果所有组合均不能通过统计学检验,则对所述生物学大样本案例集的分析终止;进行迭代计算,得到结果集合。
根据本发明的另一个方面,所述收集m个案例的第一序列信息步骤中,每个案例的第一序列信息收集的步骤包括:将每平方厘米点阵密度高于400的探针分子固定于支持物上后与标记的样品分子进行杂交,检测每个探针分子的杂交信号强度获取样品分子的序列信息。
根据本发明的另一个方面,所述将每个案例的所述条件变量和结果变量编码的步骤包括:将每个案例的条件变量和结果变量以代表不同状态的阿拉伯数字以升序的方式进行编码,条件变量最多包含3种状态,结果变量最多包含2种状态。
根据本发明的另一个方面,所述对所述条件变量的状态Sx进行统计学检验的步骤包括:以所述生物学大样本数据集为源数据,对该Sx,Sy进行卡方检验,计算P值;如果P值小于或等于0.05,则通过统计学检验;如果P值大于0.05,则未通过统计学检验。
根据本发明的另一个方面,所述最小化推理包括以下步骤:
S1:选出结果变量为状态Sy的组合项,删除重复的组合项,生成新表;
S2:在新表中,将单个组合项按含0个状态“0”,含1个状态“0”,含2个状态“0”,直至含n个状态“0”划分为不同的组,并按状态“0”的数量降序排列成表,其中n为条件变量个数;
S3: 准备一张新表,从含有最多数量的状态“0”的组开始依次向下,将当前组中的每一个组合项与下一组的每一个组合项比较,若两个组合项只有一个不同的条件变量,则将所述不同的条件变量用两个组合项所包含的两种不同的状态标记提取出来形成数列,所述数列代表一种新的状态,如果所述数列包含了所述不同的条件变量的所有取值或包含了“-”标记,则所述不同的条件变量用“-”标记,“-”标记代表对应的条件变量已消去,其可以取所有已编码的值,用状态相同的条件变量加上所述数列按照初始的条件变量的顺序生成一个新的组合项;如果新的组合项在新表中不存在,则将这个新的组合项放入新表中;如果新的组合项在新表中已存在,则不执行放入动作;
S4: 在新表中,重复步骤S2,S3直到新表中不存在只有一个条件变量不同的组合项为止。
根据本发明的另一个方面,得到案例支持率Sup的计算方式为:Sup=Num(Sc,Sy)/Num(Sc),其中,Num(Sc,Sy)表示条件变量组合为状态Sc且结果变量状态同时为Sy的案例的数量,Num(Sc) 表示条件变量组合为状态Sc的案例的数量。
根据本发明的另一个方面,所述条件变量的组合Ci的统计学检验的步骤包括:以生物学大样本数据集作为源数据,对该Sc,Sy进行卡方检验,计算P值,如果P值小于或等于0.05,则通过统计学检验;如果P值大于0.05,则未通过统计学检验。
根据本发明的另一个方面,所述迭代计算包括:在上一轮计算中所使用的生物学大样本数据集中删除所述上一轮计算中添加至结果集合的组合所覆盖的案例形成新数据集;对所述生物学大样本数据集进行最小化推理得到不同的条件变量的组合Cj并计算其对应的案例支持率Sup,对组合Cj根据其案例支持率Sup进行降序排列;从第一个组合开始,进行条件变量的组合Cj的统计学检验,如果通过统计学检验,则将该组合添加至结果集合中,本轮计算结束;如果未通过统计学检验,则依次选取后面的组合进行统计学检验,直至得到通过统计学检验的组合,将所述通过统计学检验的组合添加至结果集合中,本轮计算结束;如果所有组合均不能通过统计学检验,则对所述生物学大样本案例集的分析终止;重复以上步骤,直至所述最小化推理得不到“-”标记,“-”标记代表对应的条件变量已消去,其可以取所有已编码的值,此时分析终止。
一种基于知识推理的生物学大样本数据集分析系统,其特征在于:包括序列检测模块,编码模块,必要性指数计算模块,条件变量统计学检验模块,最小化推理模块,条件组合案例支持率计算模块,条件组合统计学检验模块,迭代计算管理模块;
所述序列检测模块用于针对待分析的问题,收集m个案例的第一序列信息,所述第一序列信息采样于所述案例的同一位置的基因片段;优选地,m取值为100或100以上;
所述编码模块用于从所述基因片段中选取n个等位基因定义为条件变量,优选地,n取值为m除以10得到的结果的整数部分;根据待分析的问题定义结果变量,将每个案例的所述条件变量和结果变量编码,形成以数据矩阵表示的生物学大样本数据集,其每一行代表一个案例;
所述必要性指数计算模块用于计算单个条件变量的状态Sx相对于结果变量的状态Sy的必要性指数Nec,Nec=Num(Sx,Sy)/Num(Sx),其中,Num(Sx,Sy)表示条件变量的状态为Sx且结果变量的状态为Sy的案例的数量,Num(Sx) 表示条件变量的状态为Sx的案例的数量;
所述条件变量统计学检验模块用于选出必要性指数Nec的值大于或等于第一预设值的条件变量的状态Sx,优选地,所述第一预设值为0.9;对所述条件变量的状态Sx进行统计学检验;
所述最小化推理模块用于对所述生物学大样本数据集进行最小化推理得到不同的条件变量的组合Ci;
所述条件组合案例支持率计算模块用于计算Ci的案例支持率Sup,Sup=Num(Sc,Sy)/Num(Sc),其中,Num(Sc,Sy)表示条件变量组合为状态Sc且结果变量状态同时为Sy的案例的数量,Num(Sc) 表示条件变量组合为状态Sc的案例的数量;
所述条件组合统计学检验模块用于对所述条件变量的状态Sx相对于结果变量Sy进行统计学检验;
所述迭代计算管理模块用于管理迭代计算,得到结果集合。
所述基于知识推理的生物学大样本数据集分析系统执行如上文所述的生物学大样本数据集分析方法。
一种基于知识推理的生物学大样本数据集分析装置,其特征在于,包括:测序仪,用于基因测序;存储器,用于存储程序;处理器,用于加载程序,以执行如上文所述的生物学大样本数据集分析方法。
本申请的发明点在于以编码的方式将单个案例的条件变量、结果变量表示出来,计算单个条件变量的状态Sx相对于结果变量的状态Sy的必要性指数Nec,对Nec的值大于或等于0.9的Sx进行基于结果变量Sy的卡方检验,筛选出显著的条件变量为必要条件,计算P值,如果P值小于等于0.05,则Sx是Sy的必要条件,即Sx不发生,则Sy不发生;如果P值大于0.05,则条件变量的状态Sx不是结果变量的状态Sy的必要条件;对所述生物学大样本数据集进行最小化计算,最小化计算之后得到不同的条件变量的组合Ci及其案例支持率Sup;根据案例支持率Sup的降序依次选出组合的状态Sc,以生物学大样本数据集作为源数据,对该Sc,Sy进行卡方检验,计算P值,如果P值小于等于0.05,则条件变量组合的状态Sc是结果变量的状态Sy的充分条件,代表如果Sc发生,则Sy发生;如果P值大于0.05,则条件变量组合的状态Sc不是结果变量的状态Sy的充分条件;接着进行迭代计算,直至满足终止条件。
本生物学大样本数据集数据所得到的解为每次计算所得到的解的集合。该集合可以作为性状研究的基础材料数据,也可作为生物学网络的推理及构建的参考。在上述发明点的基础上得到本申请的技术方案。本发明采用以上技术方案与现有技术相比的有益效果是:能够迅速、高效地计算出生物学大样本数据集中反映出来的导致结果发生多个条件变量的组合和不会导致结果发生的单个条件变量,有效地发现隐含在数据中的某些特定的关系,推测数据的发展趋势,作为性状研究的基础材料数据,也可作为生物学网络的推理及构建的参考。
附图说明
构成本发明创造的一部分的附图用来提供对本发明创造的进一步理解,本发明创造的示意性实施例及其说明用于解释本发明创造,并不构成对本发明创造的不当限定。在附图中:
图1为本发明提供的一种基于知识推理的生物学大样本数据集分析方法的示意图。
图2为本发明提供的一种基于知识推理的生物学大样本数据集分析系统的结构图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述。
除非特别说明,否则,本发明中的“第一”、“第二”等描述均用来区分不同的对象,并不用来表示大小或时序等含义,且不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明创造的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本发明中的术语“和/或”,仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,和同时存在A和B这三种情况。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的示范性实施例,图1图示一种基于知识推理的大样本数据集分析方法的流程图。该基于知识推理的生物学大样本数据集分析方法包括:
步骤一:收集m个案例的第一序列信息:针对待分析的问题,收集m个案例的第一序列信息,优选地,m取值为100或100以上;所述第一序列信息采样于所述案例的同一位置的基因片段;
步骤二:定义条件变量和结果变量,数据集编码:从所述基因片段中选取n个等位基因定义为条件变量,优选地,n取值为m除以10得到的结果的整数部分;根据待分析的问题定义结果变量,将每个案例的所述条件变量和结果变量编码,形成以数据矩阵表示的生物学大样本数据集,其每一行代表一个案例;
步骤三:计算单个条件变量的必要性指数:根据单个条件变量的状态Sx和结果变量的状态Sy计算必要性指数Nec:Nec=Num(Sx,Sy)/Num(Sx),其中,Num(Sx,Sy)表示条件变量的状态为Sx且结果变量的状态为Sy的案例的数量,Num(Sx) 表示条件变量的状态为Sx的案例的数量;
步骤四:条件变量统计学检验:选出必要性指数Nec的值大于或等于第一预设值的条件变量的状态Sx,优选地,所述第一预设值为0.9;对所述条件变量的状态Sx进行统计学检验;
步骤五:最小化推理及案例支持率计算:对所述生物学大样本数据集进行最小化推理得到不同的条件变量的组合Ci并计算其对应的案例支持率Sup,
步骤六:条件组合统计学检验:对组合Ci根据其案例支持率Sup进行降序排列;从第一个组合开始,进行条件变量的组合Ci的统计学检验,如果通过统计学检验,则将该组合添加至结果集合中,本轮计算结束;如果未通过统计学检验,则依次选取后面的组合进行统计学检验,直至得到通过统计学检验的组合,将所述通过统计学检验的组合添加至结果集合中,本轮计算结束;如果所有组合均不能通过统计学检验,则对所述生物学大样本案例集的分析终止;
步骤七:迭代计算:进行迭代计算,得到结果集合。
所述收集m个案例的第一序列信息步骤中,每个案例的第一序列信息收集的步骤包括:将每平方厘米点阵密度高于400的探针分子固定于支持物上后与标记的样品分子进行杂交,检测每个探针分子的杂交信号强度获取样品分子的序列信息。
所述将每个案例的所述条件变量和结果变量编码的步骤包括:将每个案例的条件变量和结果变量以代表不同状态的阿拉伯数字以升序的方式进行编码,条件变量最多包含3种状态,结果变量最多包含2种状态。
所述对所述条件变量的状态Sx进行统计学检验的步骤包括:以所述生物学大样本数据集为源数据,对该Sx,Sy进行卡方检验,计算P值;如果P值小于或等于0.05,则通过统计学检验;如果P值大于0.05,则未通过统计学检验。
所述最小化推理包括以下步骤:
S1:选出结果变量为状态Sy的组合项,删除重复的组合项,生成新表;
S2:在新表中,将单个组合项按含0个状态“0”,含1个状态“0”,含2个状态“0”,直至含n个状态“0”划分为不同的组,并按状态“0”的数量降序排列成表,其中n为条件变量个数;
S3: 准备一张新表,从含有最多数量的状态“0”的组开始依次向下,将当前组中的每一个组合项与下一组的每一个组合项比较,若两个组合项只有一个不同的条件变量,则将所述不同的条件变量用两个组合项所包含的两种不同的状态标记提取出来形成数列,所述数列代表一种新的状态,如果所述数列包含了所述不同的条件变量的所有取值或包含了“-”标记,则所述不同的条件变量用“-”标记,“-”标记代表对应的条件变量已消去,其可以取所有已编码的值,用状态相同的条件变量加上所述数列按照初始的条件变量的顺序生成一个新的组合项;如果新的组合项在新表中不存在,则将这个新的组合项放入新表中;如果新的组合项在新表中已存在,则不执行放入动作;
S4: 在新表中,重复步骤S2,S3直到新表中不存在只有一个条件变量不同的组合项为止。
得到案例支持率Sup的计算方式为:Sup=Num(Sc,Sy)/Num(Sc),其中,Num(Sc,Sy)表示条件变量组合为状态Sc且结果变量状态同时为Sy的案例的数量,Num(Sc) 表示条件变量组合为状态Sc的案例的数量。
所述条件变量的组合Ci的统计学检验的步骤包括:以生物学大样本数据集作为源数据,对该Sc,Sy进行卡方检验,计算P值,如果P值小于或等于0.05,则通过统计学检验;如果P值大于0.05,则未通过统计学检验。
所述迭代计算包括:在上一轮计算中所使用的生物学大样本数据集中删除所述上一轮计算中添加至结果集合的组合所覆盖的案例形成新数据集;对所述生物学大样本数据集进行最小化推理得到不同的条件变量的组合Cj并计算其对应的案例支持率Sup,对组合Cj根据其案例支持率Sup进行降序排列;从第一个组合开始,进行条件变量的组合Cj的统计学检验,如果通过统计学检验,则将该组合添加至结果集合中,本轮计算结束;如果未通过统计学检验,则依次选取后面的组合进行统计学检验,直至得到通过统计学检验的组合,将所述通过统计学检验的组合添加至结果集合中,本轮计算结束;如果所有组合均不能通过统计学检验,则对所述生物学大样本案例集的分析终止;重复以上步骤,直至所述最小化推理得不到“-”标记,“-”标记代表对应的条件变量已消去,其可以取所有已编码的值,此时分析终止。
根据本发明的示范性实施例,图2图示一种基于知识推理的生物学大样本数据集分析系统的结构图。该基于知识推理的生物学大样本数据集分析系统包括:序列检测模块,编码模块,必要性指数计算模块,条件变量统计学检验模块,最小化推理模块,条件组合案例支持率计算模块,条件组合统计学检验模块,迭代计算管理模块;
所述序列检测模块用于针对待分析的问题,收集m个案例的第一序列信息,所述第一序列信息采样于所述案例的同一位置的基因片段;优选地,m取值为100或100以上;
所述编码模块用于从所述基因片段中选取n个等位基因定义为条件变量,优选地,n取值为m除以10得到的结果的整数部分;根据待分析的问题定义结果变量,将每个案例的所述条件变量和结果变量编码,形成以数据矩阵表示的生物学大样本数据集,其每一行代表一个案例;
所述必要性指数计算模块用于计算单个条件变量的状态Sx相对于结果变量的状态Sy的必要性指数Nec,Nec=Num(Sx,Sy)/Num(Sx),其中,Num(Sx,Sy)表示条件变量的状态为Sx且结果变量的状态为Sy的案例的数量,Num(Sx) 表示条件变量的状态为Sx的案例的数量;
所述条件变量统计学检验模块用于选出必要性指数Nec的值大于或等于第一预设值的条件变量的状态Sx,优选地,所述第一预设值为0.9;对所述条件变量的状态Sx进行统计学检验;
所述最小化推理模块用于对所述生物学大样本数据集进行最小化推理得到不同的条件变量的组合Ci;
所述条件组合案例支持率计算模块用于计算Ci的案例支持率Sup,Sup=Num(Sc,Sy)/Num(Sc),其中,Num(Sc,Sy)表示条件变量组合为状态Sc且结果变量状态同时为Sy的案例的数量,Num(Sc) 表示条件变量组合为状态Sc的案例的数量;
所述条件组合统计学检验模块用于对所述条件变量的状态Sx相对于结果变量Sy进行统计学检验;
所述迭代计算管理模块用于管理迭代计算,得到结果集合;
所述基于知识推理的大样本数据集分析系统执行如上文所述的生物学大样本数据集分析方法。
根据本发明的示范性实施例,本发明还提供了一种基于知识推理的生物学大样本数据集分析装置,包括:测序仪,用于基因测序;存储器,用于存储程序;处理器,用于加载程序,以执行所述的生物学大样本数据集分析方法。
应当注意的是:因为本发明解决了现有统计分析方法都忽略了变量之间的协同作用,从而会影响预测的准确率的技术问题,采用了计算机技术领域中技术人员在阅读本说明书之后根据其教导所能理解的技术手段,并获得了迅速、高效地计算出导致结果发生多个条件变量的组合和不会导致结果发生的单个条件变量,有效地发现隐含在数据中的某些特定的关系,推测数据的发展趋势的有益技术效果,所以在所附权利要求中要求保护的方案属于专利法意义上的技术方案。
以上所述,仅为本发明的较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应包涵在本发明的保护范围之内。除非以其他方式明确陈述,否则公开的每个特征仅是一般系列的等效或类似特征的一个示例。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (10)

1.一种基于知识推理的生物学大样本数据集分析方法,其特征在于,包括:
针对待分析的问题,收集m个案例的第一序列信息,所述第一序列信息采样于所述案例的同一位置的基因片段;
从所述基因片段中选取n个等位基因定义为条件变量,根据待分析的问题定义结果变量,将每个案例的所述条件变量和结果变量编码,形成以数据矩阵表示的生物学大样本数据集,其每一行代表一个案例;
根据单个条件变量的状态Sx和结果变量的状态Sy计算必要性指数Nec:
Nec=Num(Sx,Sy)/Num(Sx),
其中,Num(Sx,Sy)表示条件变量的状态为Sx且结果变量的状态为Sy的案例的数量,Num(Sx) 表示条件变量的状态为Sx的案例的数量;
选出必要性指数Nec的值大于或等于第一预设值的条件变量的状态Sx,对所述条件变量的状态Sx进行统计学检验;
对所述生物学大样本数据集进行最小化推理得到不同的条件变量的组合Ci并计算其对应的案例支持率Sup,对组合Ci根据其案例支持率Sup进行降序排列;
从第一个组合开始,进行条件变量的组合Ci的统计学检验,如果通过统计学检验,则将该组合添加至结果集合中,本轮计算结束;如果未通过统计学检验,则依次选取后面的组合进行统计学检验,直至得到通过统计学检验的组合,将所述通过统计学检验的组合添加至结果集合中,本轮计算结束;如果所有组合均不能通过统计学检验,则对所述生物学大样本案例集的分析终止;
进行迭代计算,得到结果集合。
2.如权利要求1所述的生物学大样本数据集分析方法,其特征在于,所述收集m个案例的第一序列信息步骤中,每个案例的第一序列信息收集的步骤包括:
将每平方厘米点阵密度高于400的探针分子固定于支持物上后与标记的样品分子进行杂交,检测每个探针分子的杂交信号强度获取样品分子的序列信息。
3.如权利要求2所述的生物学大样本数据集分析方法,其特征在于,所述将每个案例的所述条件变量和结果变量编码的步骤包括:
将每个案例的条件变量和结果变量以代表不同状态的阿拉伯数字以升序的方式进行编码,所述条件变量的状态不大于三种,所述结果变量的状态不大于两种。
4.如权利要求3所述的生物学大样本数据集分析方法,其特征在于,所述对所述条件变量的状态Sx进行统计学检验的步骤包括:
以所述生物学大样本数据集为源数据,对该Sx,Sy进行卡方检验,计算P值;
如果P值小于或等于0.05,则通过统计学检验;
如果P值大于0.05,则未通过统计学检验。
5.如权利要求4所述的生物学大样本数据集分析方法,其特征在于,所述最小化推理包括以下步骤:
S1:选出结果变量为状态Sy的组合项,删除重复的组合项,生成新表;
S2:在新表中,将单个组合项按含0个状态“0”,含1个状态“0”,含2个状态“0”,直至含n个状态“0”划分为不同的组,并按状态“0”的数量降序排列成表,其中n为条件变量个数;
S3: 准备一张新表,从含有最多数量的状态“0”的组开始依次向下,将当前组中的每一个组合项与下一组的每一个组合项比较,若两个组合项只有一个不同的条件变量,则将所述不同的条件变量用两个组合项所包含的两种不同的状态标记提取出来形成数列,所述数列代表一种新的状态,如果所述数列包含了所述不同的条件变量的所有取值或包含了“-”标记,则所述不同的条件变量用“-”标记,“-”标记代表对应的条件变量已消去,其可以取所有已编码的值,用状态相同的条件变量加上所述数列按照初始的条件变量的顺序生成一个新的组合项;如果新的组合项在新表中不存在,则将这个新的组合项放入新表中;如果新的组合项在新表中已存在,则不执行放入动作;
S4: 在新表中,重复步骤S2,S3直到新表中不存在只有一个条件变量不同的组合项为止。
6.如权利要求5所述的生物学大样本数据集分析方法,其特征在于,得到案例支持率Sup的计算方式为:
Sup=Num(Sc,Sy)/Num(Sc),
其中,Num(Sc,Sy)表示条件变量组合为状态Sc且结果变量状态同时为Sy的案例的数量,Num(Sc) 表示条件变量组合为状态Sc的案例的数量。
7.如权利要求6所述的生物学大样本数据集分析方法,其特征在于,所述条件变量的组合Ci的统计学检验的步骤包括:
以生物学大样本数据集作为源数据,对该Sc,Sy进行卡方检验,计算P值,
如果P值小于或等于0.05,则通过统计学检验;
如果P值大于0.05,则未通过统计学检验。
8.如权利要求7所述的生物学大样本数据集分析方法,其特征在于,所述迭代计算包括:
在上一轮计算中所使用的生物学大样本数据集中删除所述上一轮计算中添加至结果集合的组合所覆盖的案例形成新数据集;
对所述生物学大样本数据集进行最小化推理得到不同的条件变量的组合Cj并计算其对应的案例支持率Sup,对组合Cj根据其案例支持率Sup进行降序排列;
从第一个组合开始,进行条件变量的组合Cj的统计学检验,如果通过统计学检验,则将该组合添加至结果集合中,本轮计算结束;如果未通过统计学检验,则依次选取后面的组合进行统计学检验,直至得到通过统计学检验的组合,将所述通过统计学检验的组合添加至结果集合中,本轮计算结束;如果所有组合均不能通过统计学检验,则对所述生物学大样本案例集的分析终止;
重复以上步骤,直至所述最小化推理得不到“-”标记,“-”标记代表对应的条件变量已消去,其可以取所有已编码的值,此时分析终止。
9.一种基于知识推理的生物学大样本数据集分析系统,其特征在于:
包括序列检测模块,编码模块,必要性指数计算模块,条件变量统计学检验模块,最小化推理模块,条件组合案例支持率计算模块,条件组合统计学检验模块,迭代计算管理模块;
所述序列检测模块用于针对待分析的问题,收集m个案例的第一序列信息,所述第一序列信息采样于所述案例的同一位置的基因片段;
所述编码模块用于从所述基因片段中选取n个等位基因定义为条件变量,根据待分析的问题定义结果变量,将每个案例的所述条件变量和结果变量编码,形成以数据矩阵表示的生物学大样本数据集,其每一行代表一个案例;
所述必要性指数计算模块用于计算单个条件变量的状态Sx相对于结果变量的状态Sy的必要性指数Nec,Nec=Num(Sx,Sy)/Num(Sx),其中,Num(Sx,Sy)表示条件变量的状态为Sx且结果变量的状态为Sy的案例的数量,Num(Sx) 表示条件变量的状态为Sx的案例的数量;
所述条件变量统计学检验模块用于选出必要性指数Nec的值大于或等于第一预设值的条件变量的状态Sx,对所述条件变量的状态Sx进行统计学检验;
所述最小化推理模块用于对所述生物学大样本数据集进行最小化推理得到不同的条件变量的组合Ci;
所述条件组合案例支持率计算模块用于计算Ci的案例支持率Sup,Sup=Num(Sc,Sy)/Num(Sc),其中,Num(Sc,Sy)表示条件变量组合为状态Sc且结果变量状态同时为Sy的案例的数量,Num(Sc) 表示条件变量组合为状态Sc的案例的数量;
所述条件组合统计学检验模块用于对所述条件变量的状态Sx相对于结果变量Sy进行统计学检验;
所述迭代计算管理模块用于管理迭代计算,得到结果集合。
10.一种基于知识推理的生物学大样本数据集分析装置,其特征在于,包括:
测序仪,用于基因测序;
存储器,用于存储程序;
处理器,用于加载程序,以执行如权利要求8所述的生物学大样本数据集分析方法。
CN202210704342.6A 2022-06-21 2022-06-21 一种基于知识推理的生物学大样本数据集分析方法及系统 Active CN114822698B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210704342.6A CN114822698B (zh) 2022-06-21 2022-06-21 一种基于知识推理的生物学大样本数据集分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210704342.6A CN114822698B (zh) 2022-06-21 2022-06-21 一种基于知识推理的生物学大样本数据集分析方法及系统

Publications (2)

Publication Number Publication Date
CN114822698A true CN114822698A (zh) 2022-07-29
CN114822698B CN114822698B (zh) 2022-09-13

Family

ID=82520937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210704342.6A Active CN114822698B (zh) 2022-06-21 2022-06-21 一种基于知识推理的生物学大样本数据集分析方法及系统

Country Status (1)

Country Link
CN (1) CN114822698B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116230091A (zh) * 2023-05-04 2023-06-06 华中农业大学 一种迭代分析生物学大样本数据的知识推理方法及系统
CN117634618A (zh) * 2024-01-26 2024-03-01 华中农业大学 一种迭代更新的生物学高维数据集的知识推理方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110201529A1 (en) * 2010-02-12 2011-08-18 Liang-Tsung Huang System for analyzing and screening disease related genes using microarray database
CN109411023A (zh) * 2018-09-30 2019-03-01 华中农业大学 一种基于贝叶斯网络推理的基因间交互关系挖掘方法
CN109657036A (zh) * 2018-11-12 2019-04-19 中国科学院自动化研究所 基于类脑语义层次时序记忆推理模型的问答方法、系统
CN111611748A (zh) * 2020-05-25 2020-09-01 上海大学 一种数据驱动的材料逆向设计方法及系统
CN112288091A (zh) * 2020-10-30 2021-01-29 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于多模态知识图谱的知识推理方法
CN114566211A (zh) * 2022-03-14 2022-05-31 杭州师范大学 基于生物网络与机器学习的合成致死基因组合预测系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110201529A1 (en) * 2010-02-12 2011-08-18 Liang-Tsung Huang System for analyzing and screening disease related genes using microarray database
CN109411023A (zh) * 2018-09-30 2019-03-01 华中农业大学 一种基于贝叶斯网络推理的基因间交互关系挖掘方法
CN109657036A (zh) * 2018-11-12 2019-04-19 中国科学院自动化研究所 基于类脑语义层次时序记忆推理模型的问答方法、系统
CN111611748A (zh) * 2020-05-25 2020-09-01 上海大学 一种数据驱动的材料逆向设计方法及系统
CN112288091A (zh) * 2020-10-30 2021-01-29 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于多模态知识图谱的知识推理方法
CN114566211A (zh) * 2022-03-14 2022-05-31 杭州师范大学 基于生物网络与机器学习的合成致死基因组合预测系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张嗣良等: "生物过程大数据分析与智能化", 《生物产业技术》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116230091A (zh) * 2023-05-04 2023-06-06 华中农业大学 一种迭代分析生物学大样本数据的知识推理方法及系统
CN116230091B (zh) * 2023-05-04 2023-06-30 华中农业大学 一种迭代分析生物学大样本数据的知识推理方法及系统
CN117634618A (zh) * 2024-01-26 2024-03-01 华中农业大学 一种迭代更新的生物学高维数据集的知识推理方法及系统
CN117634618B (zh) * 2024-01-26 2024-04-12 华中农业大学 一种迭代更新的生物学高维数据集的知识推理方法及系统

Also Published As

Publication number Publication date
CN114822698B (zh) 2022-09-13

Similar Documents

Publication Publication Date Title
CN114822698B (zh) 一种基于知识推理的生物学大样本数据集分析方法及系统
Silvescu et al. Temporal boolean network models of genetic networks and their inference from gene expression time series
CN111243682A (zh) 药物的毒性预测方法及装置、介质和设备
CN111343147A (zh) 一种基于深度学习的网络攻击检测装置及方法
CN112086144A (zh) 分子生成方法、装置、电子设备及存储介质
EP4035163A1 (en) Single cell rna-seq data processing
CN111352830B (zh) 基于语句占优关系的变异测试数据进化生成方法
CN116580848A (zh) 一种基于多头注意力机制的分析癌症多组学数据方法
US20040191804A1 (en) Method of analysis of a table of data relating to gene expression and relative identification system of co-expressed and co-regulated groups of genes
Maâtouk et al. Evolutionary biclustering algorithms: an experimental study on microarray data
CN114548494A (zh) 一种可视化造价数据预测智能分析系统
CN116959585B (zh) 基于深度学习的全基因组预测方法
CN116230091B (zh) 一种迭代分析生物学大样本数据的知识推理方法及系统
CN113160886A (zh) 基于单细胞Hi-C数据的细胞类型预测系统
CN111832748A (zh) 一种对混合气体浓度进行回归预测的电子鼻宽度学习方法
Sun et al. Two stages biclustering with three populations
CN111863135A (zh) 一种假阳性结构变异过滤方法、存储介质及计算设备
CN112102882B (zh) 一种用于肿瘤样本ngs检测流程的质控系统和方法
CN114678083A (zh) 一种化学品遗传毒性预测模型的训练方法及预测方法
CN114328221A (zh) 基于特征和实例迁移的跨项目软件缺陷预测方法及系统
CN108897990B (zh) 面向大规模高维序列数据的交互特征并行选择方法
Papetti et al. Barcode demultiplexing of nanopore sequencing raw signals by unsupervised machine learning
CN111785319A (zh) 基于差异表达数据的药物重定位方法
CN116597902B (zh) 基于药物敏感性数据的多组学生物标志物筛选方法和装置
CN115691669B (zh) 一种基于量子卷积神经网络的蛋白质结构分类系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant