CN113609204B - 数据关联特征分析方法、装置、设备及介质 - Google Patents

数据关联特征分析方法、装置、设备及介质 Download PDF

Info

Publication number
CN113609204B
CN113609204B CN202111164594.6A CN202111164594A CN113609204B CN 113609204 B CN113609204 B CN 113609204B CN 202111164594 A CN202111164594 A CN 202111164594A CN 113609204 B CN113609204 B CN 113609204B
Authority
CN
China
Prior art keywords
sample
data
characteristic
column
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111164594.6A
Other languages
English (en)
Other versions
CN113609204A (zh
Inventor
陈东来
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Original Assignee
Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd filed Critical Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority to CN202111164594.6A priority Critical patent/CN113609204B/zh
Priority to PCT/CN2021/124577 priority patent/WO2023050490A1/zh
Publication of CN113609204A publication Critical patent/CN113609204A/zh
Application granted granted Critical
Publication of CN113609204B publication Critical patent/CN113609204B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了数据关联特征分析方法、装置、设备及介质,方法包括:根据数据转换规则对初始样本数据进行转换处理得到样本特征矩阵和样本检测结果矩阵,根据样本特征分析规则及样本检测结果矩阵对样本特征矩阵中每一列样本数据进行特征分析得到对应的特征分布值,对每一列所述样本数据对应的特征分布值进行分布统计得到对应的复合检验值,根据复合检验值从样本特征矩阵中筛选出与关联筛选系数对应的关联列信息。本发明属于大数据分析技术领域,通过上述方法,可根据样本特征分析规则获取特征分布值进行分布统计,根据分布统计得到的复合检验值从样本特征矩阵中筛选出关联列信息,可实现对海量数据信息进行快速分析,以获取到准确关联特征。

Description

数据关联特征分析方法、装置、设备及介质
技术领域
本发明涉及大数据分析技术领域,尤其涉及一种数据关联特征分析方法、装置、设备及介质。
背景技术
通过大数据分析可获取原因与结果之间的关联关系,如对于基因组与所患疾病之间进行关联分析,从而确定具体哪些基因与所患疾病之间关联关系,然而由于基因所包含的信息量巨大,所需进行分析的基因序列所包含的数据量也十分庞大,随着样本数量的增加,现有的关联特征分析方法对海量基因数据进行分析时效率较低,且无法准确获取与患疾病之间存在关联关系的基因位置。因此,现有技术方法中存在无法对海量数据信息快速进行分析以准确获取关联特征的问题。
发明内容
本发明实施例提供了一种数据关联特征分析方法、装置、设备及介质,旨在解决现有技术方法中所存在的无法对海量数据信息快速进行分析以准确获取关联特征的问题。
第一方面,本发明实施例提供了一种数据关联特征分析方法,其包括:
若接收到所输入的初始样本数据,根据预置的数据转换规则对所述初始样本数据进行转换得到对应的样本特征矩阵及样本检测结果矩阵;
根据预置的样本特征分析规则及所述样本检测结果矩阵对所述样本特征矩阵中每一列样本数据进行特征分析得到与每一列所述样本数据对应的特征分布值;
对所述特征分布值进行分布统计得到与每一列所述样本数据对应的复合检验值;
根据所述复合检验值从所述样本特征矩阵中筛选出与预置的关联筛选系数对应的关联列信息。
第二方面,本发明实施例提供了一种数据关联特征分析装置,其包括:
数据转换单元,用于若接收到所输入的初始样本数据,根据预置的数据转换规则对所述初始样本数据进行转换得到对应的样本特征矩阵及样本检测结果矩阵;
特征分布值获取单元,用于根据预置的样本特征分析规则及所述样本检测结果矩阵对所述样本特征矩阵中每一列样本数据进行特征分析得到与每一列所述样本数据对应的特征分布值;
复合检验值获取单元,用于对所述特征分布值进行分布统计得到与每一列所述样本数据对应的复合检验值;
关联列信息获取单元,用于根据所述复合检验值从所述样本特征矩阵中筛选出与预置的关联筛选系数对应的关联列信息。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的数据关联特征分析方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的数据关联特征分析方法。
本发明实施例提供了一种数据关联特征分析方法、装置、计算机设备及可读存储介质。根据数据转换规则对初始样本数据进行转换处理得到样本特征矩阵和样本检测结果矩阵,根据样本特征分析规则及样本检测结果矩阵对样本特征矩阵中每一列样本数据进行特征分析得到对应的特征分布值,对每一列所述样本数据对应的特征分布值进行分布统计得到对应的复合检验值,根据复合检验值从样本特征矩阵中筛选出与关联筛选系数对应的关联列信息。通过上述方法,可根据样本特征分析规则获取特征分布值进行分布统计,根据分布统计得到的复合检验值从样本特征矩阵中筛选出关联列信息,可实现对海量数据信息进行快速分析,以获取到准确关联特征。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的数据关联特征分析方法的流程示意图;
图2为本发明实施例提供的数据关联特征分析方法的子流程示意图;
图3为本发明实施例提供的数据关联特征分析方法的另一子流程示意图;
图4为本发明实施例提供的数据关联特征分析方法的另一子流程示意图;
图5为本发明实施例提供的数据关联特征分析方法的另一子流程示意图;
图6为本发明实施例提供的数据关联特征分析方法的另一流程示意图;
图7为本发明实施例提供的数据关联特征分析方法的另一子流程示意图;
图8为本发明实施例提供的数据关联特征分析装置的示意性框图;
图9为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1是本发明实施例提供的数据关联特征分析方法的流程示意图;该数据关联特征分析方法应用于用户终端或管理服务器中,该数据关联特征分析方法通过安装于用户终端或管理服务器中的应用软件进行执行,管理服务器即是可执行数据关联特征分析方法以对初始样本数据进行关联特征分析的服务器,管理服务器可以是企业或政府部门内部所构建的服务器端,用户终端即是可执行数据关联特征分析方法以对初始样本数据进行关联特征分析的终端设备,例如台式电脑、笔记本电脑、平板电脑或手机等。如图1所示,该方法包括步骤S110~S160。
S110、若接收到所输入的初始样本数据,根据预置的数据转换规则对所述初始样本数据进行转换得到对应的样本特征矩阵及样本检测结果矩阵。
若接收到所输入的初始样本数据,根据预置的数据转换规则对所述初始样本数据进行转换得到对应的样本特征矩阵及样本检测结果矩阵。用户可输入初始样本数据至用户终端或管理服务器,初始样本数据即可以是样本的基因数据及检测结果,基因数据可以是一对染色体中所包含的全部或部分基因序列,检测结果即为是否患病的检测信息,本技术方案通过数据关联性分析即可从基因数据中筛选出与检测结果之间存在强关联性的基因点位。可根据数据转换规则对初始样本数据进行转换,其中数据转换规则包括样本数据映射信息及检测结果映射信息。
在一实施例中,如图2所示,步骤S110包括子步骤S111和S112。
S111、根据所述样本数据映射信息对所述初始样本数据中每一样本的样本特征数据进行映射处理,得到对应的样本特征矩阵。
具体的,可根据样本数据映射信息对初始样本数据中每一样本的样本特征数据进行映射处理,样本特征数据即为初始样本数据中每一样本的基因数据,可将多种类型的基因数据进行映射处理得到样本特征矩阵,则所得到的样本特征矩阵中包含与每一样本的基因数据对应的样本数据。具体的,一条染色体中每一基因点位对应包含两个碱基,则对于碱基对中的一个基因点位可包含多种基因型,如A=T-A=T、A=T-G≡C、G≡C-G≡C三种,其中A或G为等位基因,将其中出现次数少的碱基确定为次等位基因,例如G出现次数少于A,则将G称为次等位基因,样本数据映射信息中对应包括AA映射0,AG映射1,GG映射2的映射信息。
例如,初始样本数据中包含1963个样本,每一样本的基因数据中包含317503个基因点位,则对应可以得到一个1963行、317503列的样本特征矩阵。
S112、根据所述检测结果映射信息对所述初始样本数据中每一样本的检测结果进行映射处理,得到对应的样本检测结果矩阵。
可根据检测结果映射信息对初始样本数据中的检测结果进行映射处理,具体的,检测结果中可包含一种或多种疾病的检测结果。对于检测结果中只有一种疾病,则将“患病”的检测结果映射为“1”,“未患病”的检测结果映射为“0”;对于检测结果中包含多种疾病,则将同时患多种疾病的检测结果映射为“1”,其它检测结果映射为“0”。
例如,对初始样本数据中1963个样本的检测结果进行映射,得到一个1963行、1列的样本检测结果矩阵。
S120、根据预置的样本特征分析规则及所述样本检测结果矩阵对所述样本特征矩阵中每一列样本数据进行特征分析得到与每一列所述样本数据对应的特征分布值。
根据预置的样本特征分析规则及所述样本检测结果矩阵对所述样本特征矩阵中每一列样本数据进行特征分析得到与每一列所述样本数据对应的特征分布值,每一列样本数据即为每一样本在同一基因点位所对应的特征数据。样本特征分析规则即为对样本特征矩阵进行分析的具体规则,可基于样本特征分析规则及样本检测结果矩阵对样本特征矩阵中每一列样本数据进行特征分析,得到每一列样本数据对应的特征分布值,特征分布值即为每一样本中每一基因点位的特征在特定分布态中的分布值。其中,所述样本特征分析规则包括隐变量计算公式及特征计算公式。
在一实施例中,如图3所示,步骤S120包括子步骤S121和S122。
S121、根据所述隐变量计算公式对所述样本特征矩阵进行计算得到对应的隐变量矩阵。
首先可根据隐变量计算公式对样本特征矩阵进行计算以获取对应的隐变量矩阵,隐变量矩阵即包含每一列样本数据与对应检测结果之间所存在的隐藏相关性。
具体的,可根据隐变量计算公式对样本特征矩阵进行矩阵分解,则样本特征矩阵X可采用公式(1)进行表示:
X=UDVT=U1D1V1 T+ U2D2V2 T (1);
其中,T为矩阵转置符号,其中,矩阵U及矩阵V的列是正交的,即VT V=I、UT U=I,矩阵I即为以1为对角的单位矩阵;U1及U2是U按列分块所得到的子矩阵,即U=(U1, U2), V1及V2是V按列分块所得到的子矩阵,即V=(V1, V2),D=diag(D1, D2)是对角矩阵,称为奇异值矩阵,数值从大到小排列,分解得到的矩阵U1即可作为隐变量矩阵G。
S122、根据所述特征计算公式对所述隐变量矩阵、所述样本检测结果矩阵及所述样本特征矩阵中每一列样本数据进行计算,以得到与每一列所述样本数据对应的特征分布值。
获取到隐变量矩阵后,即可根据特征计算公式分别计算每一列样本数据的特征分布值。其中,特征计算公式包括自由度值计算式、分块矩阵公式及分布值计算公式。
在一实施例中,如图4所示,步骤S122包括子步骤S1221、S1222和S1223。
S1221、根据所述特征计算公式中的自由度值计算式对所述样本特征矩阵的行数及所述隐变量矩阵的列数进行计算得到对应的自由度值。
首先根据自由度值计算式对样本特征矩阵的行数及隐变量矩阵的列数进行计算,得到对应的自由度值,则自由度值对于每一列样本数据均可通用。自由度值计算式可采用公式(2)进行表示:
Figure 410183DEST_PATH_IMAGE001
(2);
其中,n为样本特征矩阵X的行数,d为隐变量矩阵G的列数。
S1222、根据所述特征计算公式中的分块矩阵公式对所述隐变量矩阵、所述样本检测结果矩阵及所述样本特征矩阵进行逆运算得到每一列所述样本数据对应的估计值。
可根据分块矩阵公式对隐变量矩阵、样本检测结果矩阵及所述样本特征矩阵进行逆运算,得到与每一列样本数据对应的估计值。对于每一列样本数据,均存在以下计算关系:Xi= YBi+GΓi+Ei,其中Xi 即为样本特征矩阵中第i列样本数据,Y为样本检测结果矩阵,Bi为样本检测结果矩阵Y对应的系数,G为隐变量矩阵,Γi为隐变量矩阵对应的系数,Ei为残差,任意一列样本数据所对应的残差之间相互独立。
Bi所对应的估计值
Figure 567405DEST_PATH_IMAGE002
即为与每一列样本数据对应的估计值。
Figure 878301DEST_PATH_IMAGE002
可采用公式(3) 进行表示:
Figure 414456DEST_PATH_IMAGE003
(3);
其中,T为矩阵转置符号。
S1223、根据所述特征计算公式中的分布值计算公式对所述自由度值、每一列所述样本数据对应的估计值、所述隐变量矩阵、所述样本检测结果矩阵及所述样本特征矩阵中每一列样本数据进行计算,得到与每一列所述样本数据对应的特征分布值。
基于计算得到的自由度值、每一列样本数据的估计值以及隐变量矩阵、样本检测结果矩阵即可进一步计算得到每一列样本数据的特征分布值。具体的,可通过分布值计算公式计算得到对应的特征分布值,由于每一列样本数据中均包含每一样本在同一基因点位所对应的特征数据,则可计算得到与每一列样本数据对应的特征分布值中包含一个基因点位与所有样本分别对应的特征分布值,也即每一列样本数据的特征分布值所包含分布值的数量即与样本数量相等。
分布值计算公式可采用公式(4)进行表示:
Figure 759986DEST_PATH_IMAGE004
(4);
其中,z即为自由度值,
Figure 736776DEST_PATH_IMAGE005
即为计算得到特征分布值。
S130、对所述特征分布值进行分布统计得到与每一列所述样本数据对应的复合检验值。
对所述特征分布值进行分布统计得到与每一列所述样本数据对应的复合检验值。可对特征分布值进行分布统计得到对应的复合检验值,则每一列样本数据均能够对应获取到一个复合检验值。
在一实施例中,如图5所示,步骤S130包括子步骤S131和S132。
S131、对每一列所述样本数据对应的特征分布值进行极值分布统计,得到每一列所述样本数据的特征分布值统计信息。
具体的,可对每一列样本数据的特征分布值进行极值分布统计,具体的,当样本量无穷大时任意一列样本数据的特征分布值t的分布统计近似为正态分布,使用极值分布定理可将绝对值最大的分布形态确定为与当前一列样本数据的特征分布值t对应的目标分布形态,并进一步获取目标分布形态的分布参数作为对应的特征分布值统计信息。
例如,正态分布可采用表达式(5)进行表示:
R~N(μ,σ2) (5);
上述表达式中的μ及σ即为对应的分布参数。
S132、根据预置的检验值数据表获取与每一所述特征分布值统计信息的统计形态对应的复合检验值。
用户终端或管理服务器中还预先存储有检验值数据表,检验值数据表中包含与每一统计形态对应的检验值,获取到特征分布值统计信息后,即可根据该统计信息对应的统计心态,通过查表方式从检验值数据表获取对应的一个检验值作为复合检验值。
S140、根据所述复合检验值从所述样本特征矩阵中筛选出与预置的关联筛选系数对应的关联列信息。
根据所述复合检验值从所述样本特征矩阵中筛选出与预置的关联筛选系数对应的关联列信息。获取到复合检验值后,即可根据复合检验值及关联筛选系数对样本特征矩阵进行筛选,以从中获取对应的关联列信息,关联列信息中可包含至少一个列编码值,则关联列信息中包含的列编码值即可用于指示基因序列中与所患疾病之间存在较强相关性的基因点位。
在一实施例中,如图6所示,步骤S140之前还包括步骤S1401。
S1401、根据预置的筛选系数计算公式对所述样本特征矩阵的列数进行计算,得到所述关联筛选系数。
在根据关联筛选系数对样本特征矩阵进行筛选之前,还可根据筛选系数计算公式及样本特征矩阵的列数计算得到对应的关联筛选系数,具体的,筛选系数计算公式可采用公式(6)进行表示:
S=e/m (6);
其中,e为公式中预设参数值,m为样本特征矩阵的列数,S即为计算得到的关联筛选系数。例如,取e为0.05,m为317503,则对应计算得到S=1.57×10-7
在一实施例中,如图7所示,步骤S140包括子步骤S141和S142。
S141、对每一列所述样本数据的复合检验值是否小于所述关联筛选系数进行判断,以根据判断结果将小于所述关联筛选系数的复合检验值确定为目标检验值。
可判断每一列样本数据的复合检验值是否小于关联筛选系数,若小于,则表明该复合检验值所对应的基因点位为具有显著相关性的基因点位;若不小于,则表明该复合检验值所对应的基因点位不具有显著相关性。可根据判断结果获取小于关联筛选系数的复合检验值作为目标检验值。
S142、获取所述样本特征矩阵中与所述目标检验值对应的列编码值进行组合以作为与所述关联筛选系数对应的关联列信息。
根据目标检验值对样本特征矩阵进行筛选,每一目标检验值在样本特征矩阵中均对应一列样本数据,则可从样本特征矩阵中获取与每一目标检验值对应的列编码值并进行组合,得到对应的关联列信息。关联列信息中列编码值所对应的基因点位即与所患疾病之间存在较强相关性。
在本发明实施例所提供的数据关联特征分析方法中,根据数据转换规则对初始样本数据进行转换处理得到样本特征矩阵和样本检测结果矩阵,根据样本特征分析规则及样本检测结果矩阵对样本特征矩阵中每一列样本数据进行特征分析得到对应的特征分布值,对每一列所述样本数据对应的特征分布值进行分布统计得到对应的复合检验值,根据复合检验值从样本特征矩阵中筛选出与关联筛选系数对应的关联列信息。通过上述方法,可根据样本特征分析规则获取特征分布值进行分布统计,根据分布统计得到的复合检验值从样本特征矩阵中筛选出关联列信息,可实现对海量数据信息进行快速分析,以获取到准确关联特征。
本发明实施例还提供一种数据关联特征分析装置,该数据关联特征分析装置可配置于用户终端或管理服务器中,该数据关联特征分析装置用于执行前述的数据关联特征分析方法的任一实施例。具体地,请参阅图8,图8为本发明实施例提供的数据关联特征分析装置的示意性框图。
如图8所示,数据关联特征分析装置100包括数据转换单元110、特征分布值获取单元120、复合检验值获取单元130和关联列信息获取单元140。
数据转换单元110,用于若接收到所输入的初始样本数据,根据预置的数据转换规则对所述初始样本数据进行转换得到对应的样本特征矩阵及样本检测结果矩阵。
在一具体实施例中,所述数据转换单元110包括子单元:样本特征矩阵获取单元,用于根据所述样本数据映射信息对所述初始样本数据中每一样本的样本特征数据进行映射处理,得到对应的样本特征矩阵;样本检测结果矩阵获取单元,用于根据所述检测结果映射信息对所述初始样本数据中每一样本的检测结果进行映射处理,得到对应的样本检测结果矩阵。
特征分布值获取单元120,用于根据预置的样本特征分析规则及所述样本检测结果矩阵对所述样本特征矩阵中每一列样本数据进行特征分析得到与每一列所述样本数据对应的特征分布值。
在一具体实施例中,所述特征分布值获取单元120包括子单元:隐变量矩阵获取单元,用于根据所述隐变量计算公式对所述样本特征矩阵进行计算得到对应的隐变量矩阵;特征计算单元,用于根据所述特征计算公式对所述隐变量矩阵、所述样本检测结果矩阵及所述样本特征矩阵中每一列样本数据进行计算,以得到与每一列所述样本数据对应的特征分布值。
在一具体实施例中,所述特征计算单元包括子单元:自由度值计算单元,用于根据所述特征计算公式中的自由度值计算式对所述样本特征矩阵的行数及所述隐变量矩阵的列数进行计算得到对应的自由度值;估计值计算单元,用于根据所述特征计算公式中的分块矩阵公式对所述隐变量矩阵、所述样本检测结果矩阵及所述样本特征矩阵进行逆运算得到每一列所述样本数据对应的估计值;分布值计算单元,用于根据所述特征计算公式中的分布值计算公式对所述自由度值、每一列所述样本数据对应的估计值、所述隐变量矩阵、所述样本检测结果矩阵及所述样本特征矩阵中每一列样本数据进行计算,得到与每一列所述样本数据对应的特征分布值。
复合检验值获取单元130,用于对所述特征分布值进行分布统计得到与每一列所述样本数据对应的复合检验值。
在一具体实施例中,所述复合检验值获取单元130包括子单元:特征分布值统计单元,用于对每一列所述样本数据对应的特征分布值进行极值分布统计,得到每一列所述样本数据的特征分布值统计信息;检验值获取单元,用于根据预置的检验值数据表获取与每一所述特征分布值统计信息的统计形态对应的复合检验值。
关联列信息获取单元140,用于根据所述复合检验值从所述样本特征矩阵中筛选出与预置的关联筛选系数对应的关联列信息。
在一具体实施例中,所述数据关联特征分析装置100还包括子单元:关联筛选系数计算单元,用于根据预置的筛选系数计算公式对所述样本特征矩阵的列数进行计算,得到所述关联筛选系数。
在一具体实施例中,所述关联列信息获取单元140包括子单元:目标检验值确定单元,用于对每一列所述样本数据的复合检验值是否小于所述关联筛选系数进行判断,以根据判断结果将小于所述关联筛选系数的复合检验值确定为目标检验值;列编码值组合单元,用于获取所述样本特征矩阵中与所述目标检验值对应的列编码值进行组合以作为与所述关联筛选系数对应的关联列信息。
在本发明实施例所提供的数据关联特征分析装置应用上述数据关联特征分析方法,根据数据转换规则对初始样本数据进行转换处理得到样本特征矩阵和样本检测结果矩阵,根据样本特征分析规则及样本检测结果矩阵对样本特征矩阵中每一列样本数据进行特征分析得到对应的特征分布值,对每一列所述样本数据对应的特征分布值进行分布统计得到对应的复合检验值,根据复合检验值从样本特征矩阵中筛选出与关联筛选系数对应的关联列信息。通过上述方法,可根据样本特征分析规则获取特征分布值进行分布统计,根据分布统计得到的复合检验值从样本特征矩阵中筛选出关联列信息,可实现对海量数据信息进行快速分析,以获取到准确关联特征。
上述数据关联特征分析装置可以实现为计算机程序的形式,该计算机程序可以在如图9所示的计算机设备上运行。
请参阅图9,图9是本发明实施例提供的计算机设备的示意性框图。该计算机设备可以是用于执行数据关联特征分析方法以对初始样本数据进行关联特征分析的用户终端或管理服务器。
参阅图9,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括存储介质503和内存储器504。
该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行数据关联特征分析方法,其中,存储介质503可以为易失性的存储介质或非易失性的存储介质。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行数据关联特征分析方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图9中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现上述的数据关联特征分析方法中对应的功能。
本领域技术人员可以理解,图9中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图9所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元 (CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路 (Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为易失性或非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现上述的数据关联特征分析方法中所包含的步骤。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备 ( 可以是个人计算机,服务器,或者网络设备等 ) 执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U 盘、移动硬盘、只读存储器 (ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种数据关联特征分析方法,其特征在于,所述方法包括:
若接收到所输入的初始样本数据,根据预置的数据转换规则对所述初始样本数据进行转换得到对应的样本特征矩阵及样本检测结果矩阵;所述初始样本数据包括样本的基因数据及检测结果,所述基因数据为染色体的基因序列,所述检测结果为是否患病的检测信息;
根据预置的样本特征分析规则及所述样本检测结果矩阵对所述样本特征矩阵中每一列样本数据进行特征分析得到与每一列所述样本数据对应的特征分布值;所述特征分布值为每一所述样本中每一基因点位的特征在特定分布态中的分布值;
对所述特征分布值进行分布统计得到与每一列所述样本数据对应的复合检验值;
根据所述复合检验值从所述样本特征矩阵中筛选出与预置的关联筛选系数对应的关联列信息;所述关联列信息中包含的列编码值用于指示基因序列中与所患疾病之间具有强关联性的基因点位。
2.根据权利要求1所述的数据关联特征分析方法,其特征在于,所述数据转换规则包括样本数据映射信息及检测结果映射信息,所述根据预置的数据转换规则对所述初始样本数据进行转换得到对应的样本特征矩阵及样本检测结果矩阵,包括:
根据所述样本数据映射信息对所述初始样本数据中每一样本的样本特征数据进行映射处理,得到对应的样本特征矩阵;
根据所述检测结果映射信息对所述初始样本数据中每一样本的检测结果进行映射处理,得到对应的样本检测结果矩阵。
3.根据权利要求1所述的数据关联特征分析方法,其特征在于,所述样本特征分析规则包括隐变量计算公式及特征计算公式,所述根据预置的样本特征分析规则及所述样本检测结果矩阵对所述样本特征矩阵中每一列样本数据进行特征分析得到与每一列所述样本数据对应的特征分布值,包括:
根据所述隐变量计算公式对所述样本特征矩阵进行计算得到对应的隐变量矩阵;
根据所述特征计算公式对所述隐变量矩阵、所述样本检测结果矩阵及所述样本特征矩阵中每一列样本数据进行计算,以得到与每一列所述样本数据对应的特征分布值。
4.根据权利要求3所述的数据关联特征分析方法,其特征在于,所述根据所述特征计算公式对所述隐变量矩阵、所述样本检测结果矩阵及所述样本特征矩阵中每一列样本数据进行计算,以得到与每一列所述样本数据对应的特征分布值,包括:
根据所述特征计算公式中的自由度值计算式对所述样本特征矩阵的行数及所述隐变量矩阵的列数进行计算得到对应的自由度值;
根据所述特征计算公式中的分块矩阵公式对所述隐变量矩阵、所述样本检测结果矩阵及所述样本特征矩阵进行逆运算得到每一列所述样本数据对应的估计值;
根据所述特征计算公式中的分布值计算公式对所述自由度值、每一列所述样本数据对应的估计值、所述隐变量矩阵、所述样本检测结果矩阵及所述样本特征矩阵中每一列样本数据进行计算,得到与每一列所述样本数据对应的特征分布值。
5.根据权利要求1所述的数据关联特征分析方法,其特征在于,所述对所述特征分布值进行分布统计得到与每一列所述样本数据对应的复合检验值,包括:
对每一列所述样本数据对应的特征分布值进行极值分布统计,得到每一列所述样本数据的特征分布值统计信息;
根据预置的检验值数据表获取与每一所述特征分布值统计信息的统计形态对应的复合检验值。
6.根据权利要求1所述的数据关联特征分析方法,其特征在于,所述根据所述复合检验值从所述样本特征矩阵中筛选出与预置的关联筛选系数对应的关联列信息之前,包括:
根据预置的筛选系数计算公式对所述样本特征矩阵的列数进行计算,得到所述关联筛选系数。
7.根据权利要求1所述的数据关联特征分析方法,其特征在于,所述根据所述复合检验值从所述样本特征矩阵中筛选出与预置的关联筛选系数对应的关联列信息,包括:
对每一列所述样本数据的复合检验值是否小于所述关联筛选系数进行判断,以根据判断结果将小于所述关联筛选系数的复合检验值确定为目标检验值;
获取所述样本特征矩阵中与所述目标检验值对应的列编码值进行组合以作为与所述关联筛选系数对应的关联列信息。
8.一种数据关联特征分析装置,其特征在于,所述装置包括:
数据转换单元,用于若接收到所输入的初始样本数据,根据预置的数据转换规则对所述初始样本数据进行转换得到对应的样本特征矩阵及样本检测结果矩阵;所述初始样本数据包括样本的基因数据及检测结果,所述基因数据为染色体的基因序列,所述检测结果为是否患病的检测信息;
特征分布值获取单元,用于根据预置的样本特征分析规则及所述样本检测结果矩阵对所述样本特征矩阵中每一列样本数据进行特征分析得到与每一列所述样本数据对应的特征分布值;所述特征分布值为每一所述样本中每一基因点位的特征在特定分布态中的分布值;
复合检验值获取单元,用于对所述特征分布值进行分布统计得到与每一列所述样本数据对应的复合检验值;
关联列信息获取单元,用于根据所述复合检验值从所述样本特征矩阵中筛选出与预置的关联筛选系数对应的关联列信息;所述关联列信息中包含的列编码值用于指示基因序列中与所患疾病之间具有强关联性的基因点位。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的数据关联特征分析方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的数据关联特征分析方法。
CN202111164594.6A 2021-09-30 2021-09-30 数据关联特征分析方法、装置、设备及介质 Active CN113609204B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111164594.6A CN113609204B (zh) 2021-09-30 2021-09-30 数据关联特征分析方法、装置、设备及介质
PCT/CN2021/124577 WO2023050490A1 (zh) 2021-09-30 2021-10-19 数据关联特征分析方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111164594.6A CN113609204B (zh) 2021-09-30 2021-09-30 数据关联特征分析方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN113609204A CN113609204A (zh) 2021-11-05
CN113609204B true CN113609204B (zh) 2021-12-24

Family

ID=78343317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111164594.6A Active CN113609204B (zh) 2021-09-30 2021-09-30 数据关联特征分析方法、装置、设备及介质

Country Status (2)

Country Link
CN (1) CN113609204B (zh)
WO (1) WO2023050490A1 (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2963421A1 (en) * 2014-07-01 2016-01-06 SeNostic GmbH Process for diagnosis of neurodegenerative diseases
CN106354794A (zh) * 2016-08-26 2017-01-25 成都汉康信息产业有限公司 一种数据分析处理系统
CN111383717A (zh) * 2018-12-29 2020-07-07 北京安诺优达医学检验实验室有限公司 一种构建生物信息分析参照数据集的方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120215458A1 (en) * 2009-07-14 2012-08-23 Board Of Regents, The University Of Texas System Orthologous Phenotypes and Non-Obvious Human Disease Models
CN108567418A (zh) * 2018-05-17 2018-09-25 陕西师范大学 一种基于PCANet的脉搏信号亚健康检测方法及检测系统
CN110674104B (zh) * 2019-08-15 2023-07-25 中国平安人寿保险股份有限公司 特征组合筛选方法、装置、计算机设备及存储介质
CN113035275B (zh) * 2021-04-22 2023-08-15 广东技术师范大学 结合轮廓系数和rjmcmc算法的肿瘤基因点突变的特征提取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2963421A1 (en) * 2014-07-01 2016-01-06 SeNostic GmbH Process for diagnosis of neurodegenerative diseases
CN106354794A (zh) * 2016-08-26 2017-01-25 成都汉康信息产业有限公司 一种数据分析处理系统
CN111383717A (zh) * 2018-12-29 2020-07-07 北京安诺优达医学检验实验室有限公司 一种构建生物信息分析参照数据集的方法及系统

Also Published As

Publication number Publication date
CN113609204A (zh) 2021-11-05
WO2023050490A1 (zh) 2023-04-06

Similar Documents

Publication Publication Date Title
Von Meijenfeldt et al. Robust taxonomic classification of uncharted microbial sequences and bins with CAT and BAT
Cule et al. Significance testing in ridge regression for genetic data
US20220223233A1 (en) Display of estimated parental contribution to ancestry
Murray et al. kWIP: The k-mer weighted inner product, a de novo estimator of genetic similarity
King et al. The Beavis effect in next-generation mapping panels in Drosophila melanogaster
CA2409857A1 (en) Methods of dna marker-based genetic analysis using estimated haplotype frequencies and uses thereof
WO2021098615A1 (zh) 基因型数据缺失的填充方法、装置及服务器
Chain et al. Error, reproducibility and sensitivity: a pipeline for data processing of Agilent oligonucleotide expression arrays
KR20170000744A (ko) 유전자의 복제수 변이(cnv)를 분석하는 방법 및 장치
Wollstein et al. Detecting individual ancestry in the human genome
Cooke et al. GBStools: a statistical method for estimating allelic dropout in reduced representation sequencing data
US20190177719A1 (en) Method and System for Generating and Comparing Reduced Genome Data Sets
Majidian et al. Hap10: reconstructing accurate and long polyploid haplotypes using linked reads
Sun et al. MagicalRsq: Machine-learning-based genotype imputation quality calibration
Liao et al. ROC curve analysis in the presence of imperfect reference standards
CN113609204B (zh) 数据关联特征分析方法、装置、设备及介质
Forkman et al. Performance of empirical BLUP and Bayesian prediction in small randomized complete block experiments
Sengupta et al. Performance and accuracy evaluation of reference panels for genotype imputation in sub-Saharan African populations
Chitpin et al. RECAP reveals the true statistical significance of ChIP-seq peak calls
Biswas et al. Biological averaging in RNA-seq
CN111046631A (zh) 基于字符转换的姓名存储方法、装置、计算机设备
CN116525108A (zh) 基于snp数据的预测方法、装置、设备及存储介质
Pecanka et al. Modeling association between multivariate correlated outcomes and high-dimensional sparse covariates: the adaptive SVS method
Hyten et al. Variable Selection Patterns Associated with Constitutive and GxE Effects for Grain Yield in a Locally Adapted Soybean Population
CN115966259B (zh) 一种基于逻辑回归建模的样本同源性检测校验方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant