CN111028883B - 基于布尔代数的基因处理方法、装置及可读存储介质 - Google Patents

基于布尔代数的基因处理方法、装置及可读存储介质 Download PDF

Info

Publication number
CN111028883B
CN111028883B CN201911145451.3A CN201911145451A CN111028883B CN 111028883 B CN111028883 B CN 111028883B CN 201911145451 A CN201911145451 A CN 201911145451A CN 111028883 B CN111028883 B CN 111028883B
Authority
CN
China
Prior art keywords
matrix
data
residual
gene
boolean algebra
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911145451.3A
Other languages
English (en)
Other versions
CN111028883A (zh
Inventor
税涛
王爽
翁钊
黄雅婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Damei Intelligent Technology Co ltd
Original Assignee
Guangzhou Damei Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Damei Intelligent Technology Co ltd filed Critical Guangzhou Damei Intelligent Technology Co ltd
Priority to CN201911145451.3A priority Critical patent/CN111028883B/zh
Publication of CN111028883A publication Critical patent/CN111028883A/zh
Application granted granted Critical
Publication of CN111028883B publication Critical patent/CN111028883B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Bioethics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Algebra (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于布尔代数的基因处理方法、装置和可读存储介质,方法包括:对获取到的基因数据进行布尔编码,得到原始数据矩阵;基于布尔代数对所述原始数据矩阵进行矩阵分解,得到模式矩阵及残差矩阵;对所述模式矩阵进行无损压缩得到模式压缩数据,且对所述残差矩阵进行无损压缩得到残差压缩数据;在接收到解码指令时,对模式压缩数据及残差压缩数据解码得到模式矩阵及残差矩阵,再基于布尔代数从模式矩阵和残差矩阵还原原始数据矩阵。本发明利用布尔代数,对基因数据进行布尔编码、矩阵分解得到的基因模式矩阵和样本模式矩阵是对于原始数据的降维表示,除了用于压缩存储数据,也可以用于数据分析,得到基因的常见模式和样本的常见模式。

Description

基于布尔代数的基因处理方法、装置及可读存储介质
技术领域
本发明涉及基因数据处理技术领域,尤其涉及基于布尔代数的基因处理方法、装置及可读存储介质。
背景技术
基因数据对于临床决策支持、疾病预防控制、新药研发和基础研究等方面都具有重大意义。随着基因测序成本持续降低,各研究生所和实验室高速地产生大量基因数据。海量的基因数据对分析、传输和存储都带来巨大的挑战。
发明内容
本发明的主要目的在于提出一种基于布尔代数的基因处理方法、装置及可读存储介质,旨在解决现有技术中基因数据不便于分析、传输及存储的问题。
为实现上述目的,本发明提供一种基于布尔代数的基因处理方法,所述基于布尔代数的基因处理方法包括如下步骤:
对获取到的基因数据进行布尔编码,得到原始数据矩阵;
基于布尔代数对所述原始数据矩阵进行矩阵分解,得到模式矩阵及残差矩阵;
对所述模式矩阵进行无损压缩得到模式压缩数据,且对所述残差矩阵进行无损压缩得到残差压缩数据;
在接收到解码指令时,对所述模式压缩数据进行解码得到模式矩阵,且对残差压缩数据进行解码得到残差矩阵,再基于布尔代数从模式矩阵和残差矩阵还原原始数据矩阵。
可选地,所述模式矩阵包括基因模式矩阵及样本模式矩阵;所述基于布尔代数对所述原始数据矩阵进行矩阵分解,得到模式矩阵及残差矩阵的步骤包括:
基于布尔代数对所述原始数据矩阵进行矩阵分解,得到基因模式矩阵及样本模式矩阵;
基于布尔代数对所述基因模式矩阵及所述样本模式矩阵进行重构数据,得到近似数据矩阵;
比较所述原始数据矩阵及所述近似数据矩阵,得到残差矩阵。
可选地,所述比较所述原始数据矩阵及所述近似数据矩阵,得到残差矩阵的步骤之后,所述基于布尔代数的基因处理方法包括:
利用所述残差矩阵,对所述近似数据矩阵纠正。
可选地,所述对所述残差矩阵进行无损压缩得到残差压缩数据的步骤包括:
对所述残差矩阵进行稀疏编码,得到残差压缩数据。
可选地,所述在接收到解码指令时,对所述模式压缩数据进行解码得到模式矩阵,且对残差压缩数据进行解码得到残差矩阵,再基于布尔代数从模式矩阵和残差矩阵还原原始数据矩阵的步骤包括:
在接收到解码指令时,基于布尔代数对所述模式压缩数据进行解码,得到所述基因模式矩阵及所述样本模式矩阵,以基于布尔代数获得所述近似数据矩阵;
对所述残差压缩数据进行稀疏解码,得到所述残差矩阵;
基于布尔代数从所述基因模式矩阵、所述样本模式矩阵及残差矩阵还原原始数据矩阵。
可选地,所述基因数据为碱基序列数据;所述原始数据矩阵为第一原始数据矩阵;所述对获取到的基因数据进行布尔编码,得到原始数据矩阵的步骤包括:
对所述碱基序列数据进行布尔编码,得到二进制序列的第一原始数据矩阵。
可选地,所述基因数据为单核苷酸多态性数据;所述原始数据矩阵为第二原始数据矩阵;所述对获取到的基因数据进行布尔编码,得到原始数据矩阵的步骤包括:
获取单核苷酸多态性数据的次等位基因对、杂等位基因对及主等位基因对;
对所述次等位基因对、杂等位基因对及主等位基因对进行布尔编码得到二进制序列的第二原始数据矩阵。
此外,为实现上述目的,本发明还提供一种基于布尔代数的基因处理装置,所述基于布尔代数的基因处理装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于布尔代数的基因处理程序,所述基于布尔代数的基因处理程序被所述处理器执行时实现如上所述的基于布尔代数的基因处理方法的步骤。
此外,为实现上述目的,本发明还提供一种可读存储介质,所述可读存储介质上存储有基于布尔代数的基因处理程序,所述基于布尔代数的基因处理程序被处理器执行时实现如上所述的基于布尔代数的基因处理方法的步骤。
本发明利用布尔代数,而非现有技术中利用线性代数,通过对基因数据进行布尔编码、矩阵分解得到模式矩阵及残差矩阵,分解得到的基因模式矩阵和样本模式矩阵是对于原始数据的降维表示,除了用于压缩存储数据,也可以用于数据分析,得到基因的常见模式和样本的常见模式;并且,通过对模式矩阵及残差矩阵的无损压缩,便于传输及存储,在解码时,基于布尔代数对模式压缩数据及残差压缩数据解码,能够得到原始数据矩阵。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明基于布尔代数的基因处理方法第一实施例的流程示意图;
图3为本发明基于布尔代数的基因处理方法的流程框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例基于布尔代数的基因处理装置可以是PC机或服务器设备。
如图1所示,该基于布尔代数的基因处理装置可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005 可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于布尔代数的基因处理程序。
在图1所示的设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端,与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的基于布尔代数的基因处理程序,并执行下述基于布尔代数的基因处理方法各个实施例中的操作。
基于上述硬件结构,提出本发明基于布尔代数的基因处理方法实施例。
参照图2,图2为本发明基于布尔代数的基因处理方法第一实施例的流程示意图;所述方法包括:
步骤S10,对获取到的基因数据进行布尔编码,得到原始数据矩阵;
本实施例中,基因,通常指DNA(deoxyribonucleic acid,脱氧核糖核酸),是一种分子,双链结构,由脱氧核糖核苷酸(成分为:脱氧核糖、磷酸及四种含氮碱基)组成。可组成遗传指令,引导生物发育与生命机能运作。而基因(遗传因子)是具有遗传效应的DNA片段,基因支持着生命的基本构造和性能。
核糖核苷酸上有四种可能的碱基:腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶 (C)、和尿嘧啶(U),脱氧核醣核酸彼此相连形成链状结构,链上的碱基序列承载了遗传信息。
现有技术中,由于基因测序成本持续降低,各研究所和实验室高速地产生大量基因数据,且基因测序产生的原始数据量以每年3到5倍、甚至更快的速度爆炸式增长。基因测序样本的原始数据巨大,例如一个人的55x全基因组测序数据大约是400GB,而这些海量基因数据却没有得到很好的分析、传输和存储。
本案在获取了海量基因数据后,对基因数据进行布尔编码,得到原始数据矩阵。布尔代数,是一个用于集合运算和逻辑运算的代数。布尔代数定义在二元集合{0,1}上,包括包括∧(与)、∨(或),(非)和xor(异或)四个运算。
其运算规则如表1所示:
表1布尔代数的运算规则
基因数据可以为四种碱基(A、T、G、和C)的序列。这四种碱基可以按表2编码成为二进制序列,每个碱基用两个比特(bit)表示。这样l个碱基就编码成为n=2l个比特。
A:00 T:01 G:10 C:11
表2四种碱基(A、T、G、和C)的二进制编码
基因数据也可以是单核苷酸多态性(SNP)数据,单核苷酸多态性(SNP) 数据通常在每个位点有三种状态:次等位基因对、杂等位基因对和主等位基因对。这三种状态可以按表3编码成为二进制序列,每个SNP用两个比特(bit) 表示。这样l个SNP就编码成为n=2l个比特。
次等位基因:01 杂等位基因对:11 主等位基因对:10
表3等位基因的SNP编码
通过对基因数据进行布尔编码,得到原始数据矩阵,用于矩阵分解。
步骤S20,基于布尔代数对所述原始数据矩阵进行矩阵分解,得到模式矩阵及残差矩阵;
该步骤中,基于布尔代数对所述原始数据矩阵进行矩阵分解,得到模式矩阵及残差矩阵可以包括基于布尔代数对所述原始数据矩阵进行矩阵分解,得到基因模式矩阵及样本模式矩阵;基于所述基因模式矩阵及所述样本模式矩阵,得到近似数据矩阵;比较所述原始数据矩阵及所述近似数据矩阵,得到残差矩阵。
需要说明的是,矩阵分解(matrix decomposition)中的“矩阵”是表示表格数据的常用形式。通常每一行代表一个样本(sample),每一列代表一个特征 (feature)。矩阵分解就是把一个矩阵表示成许多一阶矩阵的组合。每个一阶矩阵就是一个列向量和一个行向量的外积。其中行向量表示一个特征向量的模式,而一个列向量表示该模式在样本中的分布。常用的基于线性代数的分解方法有:主成分分析(principal component analysis),独立成分分析(independent component analysis),非负矩阵分解(non-negative matrixfactorization)。本专利采用的是基于布尔代数的分解方法。
本案输入基因数据,进行布尔编码后,得到一个原始数据矩阵A,根据布尔代数,对原始数据矩阵A进行矩阵分解,输出一个样本模式矩阵W,一个基因模式矩阵P,和一个残差矩阵E。W表示具有相似基因的样本子群,P表示基因的常见表型模式。W和P可以重构一个和A非常近似的基因数据矩阵 A,而且W和P的元素个数远远小于A。
得到的样本模式矩阵W,基因模式矩阵P,和残差矩阵E,能够实现对原始数据矩阵A的分析,从而实现基于布尔代数的基因分析。因为W和P的元素个数远远小于A,而且E很稀疏,该技术也可以实现基于数据的压缩。
步骤S30,对所述模式矩阵进行无损压缩得到模式压缩数据,且对所述残差矩阵进行无损压缩得到残差压缩数据。
该步骤中,模式矩阵可以包括样本模式矩阵W和基因模式矩阵P,对样本模式矩阵W和基因模式矩阵P进行压缩后得到模式压缩数据,且在对残差矩阵进行无损压缩后,得到残差压缩数据。
无损压缩(lossless compression),如果经过其压缩而后解码的数据与原始的输入数据完全相同,那么这个压缩方法被称为无损的(lossless)。无损压缩是利用数据的统计冗余进行压缩,可完全恢复原始数据而不引起任何失真,但压缩率是受到数据统计冗余度的理论限制,一般为2:1到5:1.这类方法广泛用于文本数据,程序和特殊应用场合的图像数据(如指纹图像,医学图像等) 的压缩。
通过对所述模式矩阵进行无损压缩得到模式压缩数据,且对所述残差矩阵进行无损压缩得到残差压缩数据,压缩数据便于存储及传输,并且,由于通过无损方式压缩,因此,在解码后,能够得到原始数据矩阵,避免数据损伤。
步骤S40,在接收到解码指令时,对所述模式压缩数据进行解码得到模式矩阵,且对残差压缩数据进行解码得到残差矩阵,再基于布尔代数从模式矩阵和残差矩阵还原原始数据矩阵。
该步骤中,在需要解码时,即在接收到解码指令时,对所述模式压缩数据进行解码,得到所述基因模式矩阵及所述样本模式矩阵,以获得所述近似数据矩阵;对所述残差压缩数据进行稀疏解码,得到所述残差矩阵;基于布尔代数从所述基因模式矩阵、所述样本模式矩阵及残差矩阵还原原始数据矩阵。
本发明利用布尔代数,而非现有技术中利用线性代数,通过对基因数据进行布尔编码、矩阵分解得到模式矩阵及残差矩阵,分解得到的基因模式矩阵和样本模式矩阵是对于原始数据的降维表示,除了用于压缩存储数据,也可以用于数据分析,得到基因的常见模式和样本的常见模式;并且,通过对模式矩阵及残差矩阵的无损压缩,便于传输及存储,在解码时,对所述模式压缩数据进行解码得到模式矩阵,且对残差压缩数据进行解码得到残差矩阵,再基于布尔代数从模式矩阵和残差矩阵还原原始数据矩阵。
进一步地,基于本发明基于布尔代数的基因处理方法的第一实施例,提出本发明基于布尔代数的基因处理方法的第二实施例;所述模式矩阵包括基因模式矩阵及样本模式矩阵;步骤S20可以包括:
基于布尔代数对所述原始数据矩阵进行矩阵分解,得到基因模式矩阵及样本模式矩阵;
基于布尔代数对所述基因模式矩阵及所述样本模式矩阵进行重构数据,得到近似数据矩阵;
比较所述原始数据矩阵及所述近似数据矩阵,得到残差矩阵。
本实施例中,得到模式矩阵及残差矩阵的具体方式为:基于布尔代数对所述原始数据矩阵进行矩阵分解,得到基因模式矩阵及样本模式矩阵;基于布尔代数对所述基因模式矩阵及所述样本模式矩阵进行重构数据,得到近似数据矩阵;比较所述原始数据矩阵及所述近似数据矩阵,得到残差矩阵。
例如,一组m个样本l个碱基或等位基因的数据可以依据布尔编码表示一个m×n的{0,1}二值矩阵,其中n=2l。可以用Am×n表示该矩阵,寻找一个可以用公式1表示同时又尽量近似Am×n的矩阵Am×n=[aij]。公式1要求Am×n可以被按照布尔代数分解为两个{0,1}二值矩阵Wm×k和Pk×n,其中k是分解的成分数目。要注意的是,公式1中的矩阵乘法依据公式2中的布尔代数,其中wi. 和p.j分别为Wm×k和Pk×n中的元素。为了让Am×n尽量近似Am×n,用公式4里的差异函数J来衡量他们的相似程度,其中和分别是Am×n和Am×n中第i行第j列的元素,cij是依据Am×n制定的对第i行第j列的近似误差的惩罚系数。可以按照公式3来寻找Wm×k和Pk×n使得J最小化,优化得到的Wm×k和Pk×n分别表示样本的聚类模式和基因的聚类模式。
在得到样本模式矩阵Wm×k和基因模式矩阵Pk×n后,基于样本模式矩阵Wm×k和基因模式矩阵Pk×n,得到近似数据矩阵具体为:
给定样本模式矩阵Wm×k和基因模式矩阵Pk×n,可以依据公式1重构近似数据矩阵要注意的是,公式1中的矩阵乘法依据公式2中的布尔代数,其中wi.和p.j分别为Wm×k和Pk×n中的元素。
在得到近似数据矩阵后,比较原始数据矩阵和近似数据矩阵,得到残差矩阵,具体为:
给定原始数据矩阵Am×n和重构的近似数据矩阵比较急原始数据矩阵 Am×n和重构的近似数据矩阵/>按照公式5计算他们的残差矩阵Em×n=[eij]。由于Am×n和/>都是{0,1}二值矩阵,Em×n也是一个{0,1}二值矩阵。因为Am×n和/>非常相似,所以Em×n非常稀疏。
通过对原始数据矩阵进行矩阵分解,发掘常见的基因表型组合,即在基因序列的哪些位点的哪些表型常常同时出现,发掘具有相似基因表型的样本群,即哪些样本在某些基因序列的位点具有相似的表型模式,从而实现基因分析过程。
进一步地,步骤S20之后,基于布尔代数的基因处理方法可以包括:
利用所述残差矩阵,对所述近似数据矩阵纠正。
本实施例中,比较重构后的近似数据矩阵及原始数据矩阵,得到残差矩阵,可以利用残差矩阵对近似数据矩阵进行纠正,减小近似数据矩阵的误差。
进一步地,基于步骤S30可以包括:
对所述残差矩阵进行稀疏编码,得到残差压缩数据。
在本实施例中,由于得到的残差矩阵Em×n=[eij]非常稀疏,再使用无损压缩算法(比如LZ77和LZ78)编码或解码。并且,使用无损压缩算法(比如LZ77和LZ78)编码和解码模式矩阵Wm×k和Pk×n。因此,在进行无损压缩时,对残差矩阵进行稀疏编码,得到残差压缩数据,且对模式矩阵进行压缩,以便于存储及传输。
需要说明的是,LZ77是无损压缩算法,由以色列人Abraham Lempel发表于1977年。LZ77是典型的基于字典的压缩算法,现在很多压缩技术都是基于 LZ77。
LZ78算法,是建立词典的算法。LZ78的编码思想是:不断地从字符流中提取新的缀-符串(String),通俗地理解为新"词条",然后用"代号"也就是码字 (Code word)表示这个"词条"。对字符流的编码就变成了用码字(Code word)去替换字符流(Charstream),生成码字流(Codestream),从而达到压缩数据的目的。
进一步地,基于本发明基于布尔代数的基因处理方法的第二实施例,提出本发明基于布尔代数的基因处理方法的第三实施例;步骤S40可以包括:
在接收到解码指令时,基于布尔代数对所述模式压缩数据进行解码,得到所述基因模式矩阵及所述样本模式矩阵,以基于布尔代数获得所述近似数据矩阵;
对所述残差压缩数据进行稀疏解码,得到所述残差矩阵;
基于布尔代数从所述基因模式矩阵、所述样本模式矩阵及残差矩阵还原原始数据矩阵。
本实施例中,在需要解码时,即在接收到解码指令时,对所述模式压缩数据进行解码,得到所述基因模式矩阵及所述样本模式矩阵,以获得所述近似数据矩阵;对所述残差压缩数据进行稀疏解码,得到所述残差矩阵;基于布尔代数从所述基因模式矩阵、所述样本模式矩阵及残差矩阵还原原始数据矩阵。
给定重构的近似数据矩阵和残差矩阵Em×n,公式6可以无损的恢复原始的数据矩阵Am×n=[aij]。
因此,在解码时,可以得到无损的原始数据矩阵,从而实现基因数据保存的完整性,便于后续研究再次使用。
进一步地,所述基因数据为碱基序列数据;步骤S10可以包括:
对所述碱基序列数据进行布尔编码,得到二进制序列的第一原始数据矩阵。
本实施例中,基因数据可以为四种碱基(A、T、G、和C)的序列。这四种碱基可以按表2编码成为二进制序列,每个碱基用两个比特(bit)表示。这样L个碱基就编码成为n=2L个比特。
A:00 T:01 G:10 C:11
表4四种碱基(A、T、G、和C)的二进制编码
进一步地,所述基因数据为单核苷酸多态性数据;步骤S10可以包括:
获取单核苷酸多态性数据的次等位基因对、杂等位基因对及主等位基因对;
对所述次等位基因对、杂等位基因对及主等位基因对进行布尔编码得到二进制序列的第二原始数据矩阵。
本实施例中,基因数据也可以是单核苷酸多态性(SNP)数据,单核苷酸多态性(SNP)数据通常在每个位点有三种状态:次等位基因对、杂等位基因对和主等位基因对。这三种状态可以按表3编码成为二进制序列,每个SNP 用两个比特(bit)表示。这样L个SNP就编码成为n=2L个比特。
次等位基因:01 杂等位基因对:11 主等位基因对:10
表5等位基因的SNP编码
本发明还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有基于布尔代数的基因处理程序,所述基于布尔代数的基因处理程序被处理器执行时实现如上所述的基于布尔代数的基因处理方法的步骤。
其中,在所述处理器上运行的基于布尔代数的基因处理程序被执行时所实现的方法可参照本发明基于布尔代数的基因处理方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个可读存储介质(如 ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台基于布尔代数的基因处理装置(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.一种基于布尔代数的基因处理方法,其特征在于,所述基于布尔代数的基因处理方法包括如下步骤:
对获取到的基因数据进行布尔编码,得到原始数据矩阵,所述基因数据包括:碱基序列数据或单核苷酸多态性数据;
基于布尔代数对所述原始数据矩阵进行矩阵分解,得到模式矩阵及残差矩阵;
对所述模式矩阵进行无损压缩得到模式压缩数据,且对所述残差矩阵进行无损压缩得到残差压缩数据;
在接收到解码指令时,对所述模式压缩数据进行解码得到模式矩阵,且对残差压缩数据进行解码得到残差矩阵,再基于布尔代数从模式矩阵和残差矩阵还原原始数据矩阵;
所述基于布尔代数对所述原始数据矩阵进行矩阵分解,得到模式矩阵及残差矩阵的步骤包括:
基于布尔代数对所述原始数据矩阵进行矩阵分解,得到基因模式矩阵及样本模式矩阵;
基于布尔代数对所述基因模式矩阵及所述样本模式矩阵进行重构数据,得到近似数据矩阵;
比较所述原始数据矩阵及所述近似数据矩阵,得到残差矩阵;
所述对所述残差矩阵进行无损压缩得到残差压缩数据的步骤,包括:
对所述残差矩阵进行稀疏编码,得到残差压缩数据;
所述在接收到解码指令时,对所述模式压缩数据进行解码得到模式矩阵,且对残差压缩数据进行解码得到残差矩阵,再基于布尔代数从模式矩阵和残差矩阵还原原始数据矩阵的步骤,包括:
在接收到解码指令时,基于布尔代数对所述模式压缩数据进行解码,得到所述基因模式矩阵及所述样本模式矩阵,以基于布尔代数获得所述近似数据矩阵;
对所述残差压缩数据进行稀疏解码,得到所述残差矩阵;
基于布尔代数从所述基因模式矩阵、所述样本模式矩阵及残差矩阵还原原始数据矩阵。
2.如权利要求1所述的基于布尔代数的基因处理方法,其特征在于,所述比较所述原始数据矩阵及所述近似数据矩阵,得到残差矩阵的步骤之后,所述基于布尔代数的基因处理方法包括:
利用所述残差矩阵,对所述近似数据矩阵纠正。
3.如权利要求1所述的基于布尔代数的基因处理方法,其特征在于,所述基因数据为碱基序列数据;所述原始数据矩阵为第一原始数据矩阵;所述对获取到的基因数据进行布尔编码,得到原始数据矩阵的步骤包括:
对所述碱基序列数据进行布尔编码,得到二进制序列的第一原始数据矩阵。
4.如权利要求1至2中任一项所述的基于布尔代数的基因处理方法,其特征在于,所述基因数据为单核苷酸多态性数据;所述原始数据矩阵为第二原始数据矩阵;所述对获取到的基因数据进行布尔编码,得到原始数据矩阵的步骤包括:
获取单核苷酸多态性数据的次等位基因对、杂等位基因对及主等位基因对;
对所述次等位基因对、杂等位基因对及主等位基因对进行布尔编码得到二进制序列的第二原始数据矩阵。
5.一种基于布尔代数的基因处理装置,其特征在于,所述基于布尔代数的基因处理装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于布尔代数的基因处理程序,所述基于布尔代数的基因处理程序被所述处理器执行时实现如权利要求1至4中任一项所述的基于布尔代数的基因处理方法的步骤。
6.一种可读存储介质,其特征在于,所述可读存储介质上存储有基于布尔代数的基因处理程序,所述基于布尔代数的基因处理程序被处理器执行时实现如权利要求1至4中任一项所述的基于布尔代数的基因处理方法的步骤。
CN201911145451.3A 2019-11-20 2019-11-20 基于布尔代数的基因处理方法、装置及可读存储介质 Active CN111028883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911145451.3A CN111028883B (zh) 2019-11-20 2019-11-20 基于布尔代数的基因处理方法、装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911145451.3A CN111028883B (zh) 2019-11-20 2019-11-20 基于布尔代数的基因处理方法、装置及可读存储介质

Publications (2)

Publication Number Publication Date
CN111028883A CN111028883A (zh) 2020-04-17
CN111028883B true CN111028883B (zh) 2023-07-18

Family

ID=70206074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911145451.3A Active CN111028883B (zh) 2019-11-20 2019-11-20 基于布尔代数的基因处理方法、装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN111028883B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103329138A (zh) * 2011-01-19 2013-09-25 皇家飞利浦电子股份有限公司 用于处理基因组数据的方法
CN103944579A (zh) * 2014-04-10 2014-07-23 东华大学 一种压缩感知重构的编码解码系统
JP2016099901A (ja) * 2014-11-25 2016-05-30 学校法人 岩手医科大学 形質予測モデル作成方法および形質予測方法
CN106796628A (zh) * 2014-09-03 2017-05-31 陈颂雄 基于合成基因组变体的安全交易设备、系统和方法
CN109074424A (zh) * 2016-05-04 2018-12-21 深圳华大生命科学研究院 利用dna存储文本信息的方法、其解码方法及应用
CN109964278A (zh) * 2017-03-30 2019-07-02 艾腾怀斯股份有限公司 通过并行评估分类器输出校正第一分类器中的误差的系统和方法
CN110168652A (zh) * 2016-10-11 2019-08-23 耶诺姆希斯股份公司 用于存储和访问生物信息学数据的方法和系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081707B (zh) * 2011-01-07 2013-04-17 深圳大学 一种dna序列数据压缩和解压系统及方法
US20130096838A1 (en) * 2011-06-10 2013-04-18 William Fairbrother Gene Splicing Defects
US20130217589A1 (en) * 2012-02-22 2013-08-22 Jun Xu Methods for identifying agents with desired biological activity
FR3021776A1 (fr) * 2014-05-28 2015-12-04 Vaiomer Procede d'identification d'une relation entre des elements physiques
JP2019514143A (ja) * 2016-03-21 2019-05-30 ヒューマン ロンジェヴィティ インコーポレイテッド ゲノミック、メタボロミック、及びマイクロバイオミック検索エンジン
US10810213B2 (en) * 2016-10-03 2020-10-20 Illumina, Inc. Phenotype/disease specific gene ranking using curated, gene library and network based data structures
CN108287983A (zh) * 2017-01-09 2018-07-17 朱瑞星 一种用于对基因组进行压缩和解压缩的方法和装置
US20190087534A1 (en) * 2017-09-21 2019-03-21 The Penn State Research Foundation Systems, methods, and processor-readable media for detecting disease causal variants
CN110021369B (zh) * 2017-10-24 2020-03-17 人和未来生物科技(长沙)有限公司 基因测序数据压缩解压方法、系统及计算机可读介质
CN110120247A (zh) * 2018-01-14 2019-08-13 广州明领基因科技有限公司 一种分布式基因大数据存储平台
CN109378039B (zh) * 2018-08-20 2022-02-25 中国矿业大学 基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103329138A (zh) * 2011-01-19 2013-09-25 皇家飞利浦电子股份有限公司 用于处理基因组数据的方法
CN103944579A (zh) * 2014-04-10 2014-07-23 东华大学 一种压缩感知重构的编码解码系统
CN106796628A (zh) * 2014-09-03 2017-05-31 陈颂雄 基于合成基因组变体的安全交易设备、系统和方法
JP2016099901A (ja) * 2014-11-25 2016-05-30 学校法人 岩手医科大学 形質予測モデル作成方法および形質予測方法
CN109074424A (zh) * 2016-05-04 2018-12-21 深圳华大生命科学研究院 利用dna存储文本信息的方法、其解码方法及应用
CN110168652A (zh) * 2016-10-11 2019-08-23 耶诺姆希斯股份公司 用于存储和访问生物信息学数据的方法和系统
CN109964278A (zh) * 2017-03-30 2019-07-02 艾腾怀斯股份有限公司 通过并行评估分类器输出校正第一分类器中的误差的系统和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DNA数据存储技术研究进展;张淑芳等;《计算机科学》;第46卷(第6期);第21-28页 *

Also Published As

Publication number Publication date
CN111028883A (zh) 2020-04-17

Similar Documents

Publication Publication Date Title
Zielezinski et al. Benchmarking of alignment-free sequence comparison methods
US8812243B2 (en) Transmission and compression of genetic data
EP2608096B1 (en) Compression of genomic data file
Marsan et al. Algorithms for extracting structured motifs using a suffix tree with an application to promoter and regulatory site consensus identification
CN111292802B (zh) 用于检测突变的方法、电子设备和计算机存储介质
US20160259886A1 (en) Method and system of mapping sequencing reads
EP2595076B1 (en) Compression of genomic data
US20180018422A1 (en) Systems and methods for nucleic acid-based identification
US20110288785A1 (en) Compression of genomic base and annotation data
CN110797088A (zh) 全基因组重测序分析及用于全基因组重测序分析的方法
Sharpton et al. Sifting through genomes with iterative-sequence clustering produces a large, phylogenetically diverse protein-family resource
CN111028883B (zh) 基于布尔代数的基因处理方法、装置及可读存储介质
US10460829B2 (en) Systems and methods for encoding genetic variation for a population
CN109887544B (zh) 基于非负矩阵分解的rna序列并行分类方法
Zhang et al. CONNET: accurate genome consensus in assembling nanopore sequencing data via deep learning
Břinda et al. Dynamic read mapping and online consensus calling for better variant detection
Saada et al. DNA sequence compression technique based on nucleotides occurrence
US10607718B2 (en) Algebraic phasing of polyploids
US20190057185A1 (en) Compression/Decompression Method and Apparatus for Genomic Variant Call Data
WO2021156110A1 (en) Improved quality value compression framework in aligned sequencing data based on novel contexts
Saada et al. DNA sequences compression algorithm based on extended-ASCII representation
Gudodagi et al. Investigations and Compression of Genomic Data
Wang et al. DDQR (dynamic DNA QR coding): An efficient algorithm to represent DNA barcode sequences
Ochieng et al. Tandem repeats analysis in DNA sequences based on improved Burrows-Wheeler transform
Dinca et al. The genome sequence of the lesser marbled fritillary, Brenthis ino

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant