CN111062003A - 样本总体协方差判定方法、装置、设备及存储介质 - Google Patents
样本总体协方差判定方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111062003A CN111062003A CN201911299177.5A CN201911299177A CN111062003A CN 111062003 A CN111062003 A CN 111062003A CN 201911299177 A CN201911299177 A CN 201911299177A CN 111062003 A CN111062003 A CN 111062003A
- Authority
- CN
- China
- Prior art keywords
- sample
- population
- samples
- covariance
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000001514 detection method Methods 0.000 claims abstract description 101
- 239000011159 matrix material Substances 0.000 claims description 70
- 238000004422 calculation algorithm Methods 0.000 claims description 31
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 description 11
- 238000012360 testing method Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 5
- 238000007689 inspection Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000002068 genetic effect Effects 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012284 sample analysis method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明属于数学计算技术领域,公开了一种样本总体协方差判定方法、装置、设备及存储介质。该方法包括:获取待判别样本所包含的样本总体,以及各样本总体对应的样本指标数;检测所述样本指标数是否一致;若一致,则获取各样本总体对应的样本检测统计观测值;判断所述样本检测统计观测值是否小于预设临界值;在所述样本检测统计观测值小于所述预设临界值时,判定各样本对应的总体协方差相等。通过上述方式,使得用户在判别样本总体协方差相等性节省时间的情况下,从而提高了样本判别效率及准确性。
Description
技术领域
本发明涉及数学计算技术领域,尤其涉及一种样本总体协方差判定方法、装置、设备及存储介质。
背景技术
近年来,海量数据给用户带来巨大信息量的同时,也给数据样本的分析方法提出了巨大挑战,现有技术在进行数据样本分析时,很多理论和方法都以大样本为前提,但这些理论和方法并不能对这些大量的高维数据进行快速分类,比如人类基因数据往往包含几十万或上百万各基因变量,但传统的统计分析方法考虑到基因变量容量很大的情况下情形,很难对基因变量数据样本进行快速、准确的数据分类,因此,亟需一种能够运用到高维数据上并对不同待测试样本进行快速分类的方案,在节省时间的情况下,使得用户在快速判断各种待测试样本的类别的同时,准确的判断样本总体协方差的相等性。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种样本总体协方差判定方法、装置、设备及存储介质,旨在解决现有技术中判断样本总体协方差相等性时花费时间较大且准确性较低的技术问题。
为实现上述目的,本发明提供了一种样本总体协方差判定方法,所述方法包括以下步骤:
获取待判别样本所包含的样本总体,以及各样本总体对应的样本指标数;
检测所述样本指标数是否一致;
若一致,则获取各样本总体对应的样本检测统计观测值;
判断所述样本检测统计观测值是否小于预设临界值;
在所述样本检测统计观测值小于所述预设临界值时,判定各样本对应的总体协方差相等。
优选地,所述获取待判别样本所包含的样本总体,以及获取各样本总体对应的样本指标数的步骤,包括:
获取待判别样本所包含的样本总体,并将各样本总体放入样本文件夹中;
根据用户选择指令,从所述样本文件夹中选取样本总体,并将所述样本总体对应的样本集存储至样本内存变量中;
根据所述样本内存变量获得各样本总体对应的样本指标数。
优选地,所述获取各样本总体对应的样本检测统计观测值的步骤,包括:
获取各样本总体对应的样本容量;
根据所述样本容量计算样本均值和样本总体协方差矩阵;
根据所述样本均值、所述样本总体协方差矩阵计算混合协方差矩阵;
根据所述样本均值、所述样本总体协方差矩阵和所述混合协方差矩阵计算各样本总体对应的样本检测统计观测值。
优选地,所述获取各样本总体对应的样本检测统计观测值的步骤,还包括:
获取各样本总体对应的样本容量;
检测所述样本容量是否一致,获得容量检测结果,并根据所述容量检测结果计算各样本总体对应的样本检测统计观测值。
优选地,所述检测所述样本容量是否一致,获得容量检测结果,并根据所述容量检测结果计算各样本总体对应的样本检测统计观测值的步骤,包括;
根据所述样本容量计算样本均值和样本总体协方差矩阵;
根据所述样本均值和所述样本总体协方差矩阵计算样本自由度;
检测所述样本容量是否一致;
若一致,则根据所述样本均值、所述样本总体协方差矩阵和所述样本自由度,通过预设第一算法计算第一样本中间变量;
根据所述第一样本中间变量,通过预设第二算法计算各样本总体对应的样本检测统计观测值。
优选地,所述检测所述样本容量是否一致的步骤之后,还包括:
若不一致,则根据所述样本均值、所述样本总体协方差矩阵和所述样本自由度,通过预设第三算法计算第二样本中间变量;
根据所述第二样本中间变量,通过所述预设第二算法计算各样本总体对应的样本检测统计观测值。
优选地,所述检测所述样本指标数是否一致的步骤之后,还包括:
若不一致,则返回所述获取待判别样本所包含的样本总体,以及各样本总体对应的样本指标数的步骤。
此外,为实现上述目的,本发明还提出一种样本总体协方差判定装置,所述装置包括:获取模块,用于获取待判别样本所包含的样本总体,以及各样本总体对应的样本指标数;
检测模块,用于检测所述样本指标数是否一致;
计算模块,用于若一致,则获取各样本总体对应的样本检测统计观测值;
判断模块,用于判断所述样本检测统计观测值是否小于预设临界值;
判定模块,用于在所述样本检测统计观测值小于所述预设临界值时,判定各样本对应的总体协方差相等。
此外,为实现上述目的,本发明还提出一种电子设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的样本总体协方差判定程序,所述样本总体协方差判定程序配置为实现如上文中任一项所述的样本总体协方差判定方法的步骤。
此外,为实现上述目的,本发明还提出一种,存储介质,所述存储介质上存储有样本总体协方差判定程序,所述样本总体协方差判定程序被处理器执行时实现如上文任一项所述的样本总体协方差判定方法的步骤。
本发明首先通过获取待判别样本所包含的样本总体,以及各样本总体对应的样本指标数,然后检测所述样本指标数是否一致,若一致,则根据不同的计算方式获取各样本总体对应的样本检测统计观测值,之后判断所述样本检测统计观测值是否小于预设临界值,并在所述样本检测统计观测值小于所述预设临界值时,判定各样本对应的总体协方差相等,通过上述方式,实现了在节省时间的情况下,快速且准确的判断各样本对应的总体协方差的相等性。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的电子设备的结构示意图;
图2为本发明样本总体协方差判定方法第一实施例的流程示意图;
图3为本发明样本总体协方差判定方法第二实施例的流程示意图;
图4为本发明样本总体协方差判定装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的电子设备结构示意图。
如图1所示,该电子设备可以包括:处理器1001,例如中央处理器(CentralProcessing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及样本总体协方差判定程序。
在图1所示的电子设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明电子设备中的处理器1001、存储器1005可以设置在电子设备中,所述电子设备通过处理器1001调用存储器1005中存储的样本总体协方差判定程序,并执行本发明实施例提供的样本总体协方差判定方法。
本发明实施例提供了一种样本总体协方差判定方法,参照图2,图2为本发明一种样本总体协方差判定方法第一实施例的流程示意图。
本实施例中,所述样本总体协方差判定方法包括以下步骤:
步骤S10:获取待判别样本所包含的样本总体,以及各样本总体对应的样本指标数。
应理解的是,本方案的执行主体可以为具有高维数据样本分类功能的计算机,所述计算器可以接收用户通过用户接口输入的高维数据样本。
需要说明的是,获取带判别样本所包含的样本总体,并判断所述样本总体的数量,分被放入相对应的文件中,之后将所述文件放入样本文件夹中,根据用户选择指令,选择该样本文件夹中对应的文件,并将文件中的全部样本导入至对应的内部变量中,之后在所述内存变量中统计总体的样本指标数。
此外,为了便于理解,以下进行举例说明:
假设,将这两个总体分别存放文件G1.xls和文件G2.xls中,并将这两个文件保存在同一个文件夹中,一旦用户选择该文件夹,则系统会自动检测到该文件夹中有两个xls文件,从而说明该文件夹中存在两个总体,读取文件夹中两个总体的文件名,并分别保存在变量file_name{1}和file_name{2}。将file_name{1}所对应的G1.xls中的全部样本导入到内存变量G{1}中,将file_name{2}所对应的G1.xls中的全部样本导入到内存变量G{2}中。统计总体G{1}中的样本指标数p{1},统计总体G{2}中的样本指标数p{2}。
步骤S20:检测所述样本指标数是否一致。
步骤S30:若一致,则获取各样本总体对应的样本检测统计观测值。
应理解的是,检测各样本总体对应的样本指标数是否一致,在所述样本总体一致时,根据总体数量,通过不同的计算方式得到各样本检测统计观测值;若不一致,则停止判断并提示报错信息。
此外,需要说明的是,在所述样本总体数量为2时,则获取各样本总体对应的样本容量,根据所述样本容量计算样本均值和样本总体协方差矩阵,根据所述样本均值、所述样本总体协方差矩阵计算混合协方差矩阵,根据所述样本均值、所述样本总体协方差矩阵和所述混合协方差矩阵计算各样本总体对应的样本检测统计观测值。
此外,为了便于理解,以下进行举例说明:
统计出总体G{1}的样本容量n(1)和G{2}的样本容量n(2),计算出总体G{1}的样本均值m{1}和G{2}的样本均值m{2},以及G{1}的总体协方差矩阵s{1}和G{2}的总体协方差矩阵s{2}。
因此,G{1}和G{2}的混合协方差矩阵G_s计算如下:
进一步,计算G{1}的检验统计观测值Q{1}计算如下:
Q{1}=(n(1)-1)*(log(det(G_s))-log(det(s{1}))-G_p+trace(inv(G_s)*s{1})) (2)
计算G{2}的检验统计观测值Q{2}计算如下:
Q{2}=(n(2)-1)*(log(det(G_s))-log(det(s{2}))-G_p+trace(inv(G_s)*s{2}(3)
判断任意个总体协方差是否相等的具体过程如下:
步骤1将所有的总体文件放在同一个文件夹中;
步骤2选择总体所在的文件夹;
步骤3统计文件夹中文件的个数G_cn;
步骤4如果G_cn<2,则报错,过程结束;
步骤5如果G_cn=2,则判断两个总体协方差相等性过程如下:
(1)导入两个总体文件;
(2)如果两个总体的指标数不同,则停止判断,这两个总体不可能存在协方差相等的情形;
(3)计算两个总体的均值和协方差矩阵;
(4)根据公式(1)计算两个总体的混合协方差;
(5)根据公式(2)计算第一个总体的检验观测值;
(6)根据公式(3)计算第二个总体的检验观测值;
(7)如果两个总体的检验观测值都小于临界值,则这两个总体的协方差相等;否则,两个总体的协方差不相等。
此外,应理解的是,在总体数量为3或3以上时,获取各样本总体对应的样本容量,检测所述样本容量是否一致,获得容量检测结果,并根据所述容量检测结果计算各样本总体对应的样本检测统计观测值。
此外,需要说明的是,上述所说的所述检测所述样本容量是否一致,获得容量检测结果,并根据所述容量检测结果计算各样本总体对应的样本检测统计观测值的步骤为根据所述样本容量计算样本均值和样本总体协方差矩阵,根据所述样本均值和所述样本总体协方差矩阵计算样本自由度,检测所述样本容量是否一致,若一致,则根据所述样本均值、所述样本总体协方差矩阵和所述样本自由度,通过预设第一算法计算第一样本中间变量,根据所述第一样本中间变量,通过预设第二算法计算各样本总体对应的样本检测统计观测值。
此外,应理解的是,所述检测所述样本容量是否一致的步骤之后为若不一致,则根据所述样本均值、所述样本总体协方差矩阵和所述样本自由度,通过预设第三算法计算第二样本中间变量,根据所述第二样本中间变量,通过所述预设第二算法计算各样本总体对应的样本检测统计观测值。
此外,为了便于理解,以下进行举例说明:
统计出总体G{i}的样本容量n(i),计算出总体G{i}的样本均值m{i},以及G{i}的总体协方差矩阵s{i}。
因此,总体的自由度计算如下:
f=G_p*(G_p+1)*(G_cn-1)/2 (4)
如果任意的i≠j,有n(i)=n(j),则中间变量d计算如下:
如果任意的i≠j,有n(i)≠n(j),则中间变量d计算如下:
进一步,中间变量M的计算如下:
因此,检验统计观测值T计算如下:
T=(1-d)*M (8)
如果G_cn>2,则多个总体的协方差相等性判断过程如下:
(1)将G_cn个总体文件导入计算机内存;
(2)如果存在某两个总体的指标数不同,则停止判断并报错;
(3)计算所有总体的均值和协方差矩阵;
(4)根据公式(4)计算自由度;
(5)如果所有总体的样本容量都相等,则根据公式(5)计算d;
(6)如果总体的样本容量不全相等,则根据公式(6)计算d;
(7)根据公式(7)计算M。
(8)根据公式(8)检验统计观测值T;
(9)如果总体的检验观测值T都小于临界值,则总体的协方差相等;否则,总体的协方差不相等。
步骤S40:判断所述样本检测统计观测值是否小于预设临界值。
步骤S50:在所述样本检测统计观测值小于所述预设临界值时,判定各样本对应的总体协方差相等。
需要理解的是,将上述得到的样本检测统计观测值与预设临界值进行判断,是否都小于所述预设临界值,若小于,则判定样本总体协方差相同,否则判定总体协方差不相等。
此外,需要说明的是,上述所提到的预设临界值为用户自定义设置的临界阈值,本实施例并不加以限制。
本实施例通过获取待判别样本所包含的样本总体,以及各样本总体对应的样本指标数,然后检测所述样本指标数是否一致,若一致,则根据不同的计算方式获取各样本总体对应的样本检测统计观测值,例如,获取各样本总体对应的样本容量,根据所述样本容量计算样本均值和样本总体协方差矩阵,根据所述样本均值、所述样本总体协方差矩阵计算混合协方差矩阵,根据所述样本均值、所述样本总体协方差矩阵和所述混合协方差矩阵计算各样本总体对应的样本检测统计观测值。之后判断所述样本检测统计观测值是否小于预设临界值,并在所述样本检测统计观测值小于所述预设临界值时,判定各样本对应的总体协方差相等,通过上述方式,能够准确判断任意总体协方差是否相等,从而大大降低了用户操作的难度,提高了判断的准确性。
参考图3,图3为本发明一种样本总体协方差判定方法第二实施例的流程示意图。
基于上述第一实施例,本实施例样本总体协方差判定方法在所述步骤S30,具体包括:
步骤S301:获取各样本总体对应的样本容量。
步骤S302:根据所述样本容量计算样本均值和样本总体协方差矩阵。
步骤S303:根据所述样本均值和所述样本总体协方差矩阵计算样本自由度。
步骤S304:检测所述样本容量是否一致。
步骤S305:若一致,则根据所述样本均值、所述样本总体协方差矩阵和所述样本自由度,通过预设第一算法计算第一样本中间变量,并根据所述第一样本中间变量,通过预设第二算法计算各样本总体对应的样本检测统计观测值。
步骤S306:若不一致,则根据所述样本均值、所述样本总体协方差矩阵和所述样本自由度,通过预设第三算法计算第二样本中间变量,并根据所述第二样本中间变量,通过所述预设第二算法计算各样本总体对应的样本检测统计观测值。
此外,应理解的是,在总体数量为3或3以上时,获取各样本总体对应的样本容量,检测所述样本容量是否一致,获得容量检测结果,并根据所述容量检测结果计算各样本总体对应的样本检测统计观测值。
此外,需要说明的是,上述所说的所述检测所述样本容量是否一致,获得容量检测结果,并根据所述容量检测结果计算各样本总体对应的样本检测统计观测值的步骤为根据所述样本容量计算样本均值和样本总体协方差矩阵,根据所述样本均值和所述样本总体协方差矩阵计算样本自由度,检测所述样本容量是否一致,若一致,则根据所述样本均值、所述样本总体协方差矩阵和所述样本自由度,通过预设第一算法计算第一样本中间变量,根据所述第一样本中间变量,通过预设第二算法计算各样本总体对应的样本检测统计观测值。
此外,应理解的是,所述检测所述样本容量是否一致的步骤之后为若不一致,则根据所述样本均值、所述样本总体协方差矩阵和所述样本自由度,通过预设第三算法计算第二样本中间变量,根据所述第二样本中间变量,通过所述预设第二算法计算各样本总体对应的样本检测统计观测值。
此外,为了便于理解,以下进行举例说明:
统计出总体G{i}的样本容量n(i),计算出总体G{i}的样本均值m{i},以及G{i}的总体协方差矩阵s{i}。
因此,总体的自由度计算如下:
f=G_p*(G_p+1)*(G_cn-1)/2 (4)
如果任意的i≠j,有n(i)=n(j),则中间变量d计算如下:
如果任意的i≠j,有n(i)≠n(j),则中间变量d计算如下:
进一步,中间变量M的计算如下:
因此,检验统计观测值T计算如下:
T=(1-d)*M (8)
如果G_cn>2,则多个总体的协方差相等性判断过程如下:
(1)将G_cn个总体文件导入计算机内存;
(2)如果存在某两个总体的指标数不同,则停止判断并报错;
(3)计算所有总体的均值和协方差矩阵;
(4)根据公式(4)计算自由度;
(5)如果所有总体的样本容量都相等,则根据公式(5)计算d;
(6)如果总体的样本容量不全相等,则根据公式(6)计算d;
(7)根据公式(7)计算M。
(8)根据公式(8)检验统计观测值T;
(9)如果总体的检验观测值T都小于临界值,则总体的协方差相等;否则,总体的协方差不相等。
此外,需要说明的是,上述所说的预设第一算法为公式(5),预设第二算法为公式(7)和公式(8),预设第三算法为公式(6)。
本实施例通过获取各样本总体对应的样本容量,根据所述样本容量计算样本均值和样本总体协方差矩阵,根据所述样本均值和所述样本总体协方差矩阵计算样本自由度,检测所述样本容量是否一致,若一致,则根据所述样本均值、所述样本总体协方差矩阵和所述样本自由度,通过预设第一算法计算第一样本中间变量,并根据所述第一样本中间变量,通过预设第二算法计算各样本总体对应的样本检测统计观测值,若不一致,则根据所述样本均值、所述样本总体协方差矩阵和所述样本自由度,通过预设第三算法计算第二样本中间变量,并根据所述第二样本中间变量,通过所述预设第二算法计算各样本总体对应的样本检测统计观测值,通过上述方式,能够准确判断任意总体协方差是否相等,从而在减少时间的情况下,提高了判断的准确性。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有样本总体协方差判定程序,所述样本总体协方差判定程序被处理器执行时实现如上文所述的样本总体协方差判定方法的步骤。
参照图4,图4为本发明样本总体协方差判定装置第一实施例的结构框图。
如图4所示,本发明实施例提出的样本总体协方差判定装置包括:获取模块4001,用于获取待判别样本所包含的样本总体,以及各样本总体对应的样本指标数;检测模块4002,用于检测所述样本指标数是否一致;计算模块4003,用于若一致,则获取各样本总体对应的样本检测统计观测值;判断模块4004,用于判断所述样本检测统计观测值是否小于预设临界值;判定模块4005,用于在所述样本检测统计观测值小于所述预设临界值时,判定各样本对应的总体协方差相等。
所述获取模块4001获取待判别样本所包含的样本总体,以及各样本总体对应的样本指标数的操作。
需要说明的是,获取带判别样本所包含的样本总体,并判断所述样本总体的数量,分被放入相对应的文件中,之后将所述文件放入样本文件夹中,根据用户选择指令,选择该样本文件夹中对应的文件,并将文件中的全部样本导入至对应的内部变量中,之后在所述内存变量中统计总体的样本指标数。
此外,为了便于理解,以下进行举例说明:
假设,将这两个总体分别存放文件G1.xls和文件G2.xls中,并将这两个文件保存在同一个文件夹中,一旦用户选择该文件夹,则系统会自动检测到该文件夹中有两个xls文件,从而说明该文件夹中存在两个总体,读取文件夹中两个总体的文件名,并分别保存在变量file_name{1}和file_name{2}。将file_name{1}所对应的G1.xls中的全部样本导入到内存变量G{1}中,将file_name{2}所对应的G1.xls中的全部样本导入到内存变量G{2}中。统计总体G{1}中的样本指标数p{1},统计总体G{2}中的样本指标数p{2}。
所述检测模块4002检测所述样本指标数是否一致的操作。
所述计算模块4003若一致,则获取各样本总体对应的样本检测统计观测值的操作。
应理解的是,检测各样本总体对应的样本指标数是否一致,在所述样本总体一致时,根据总体数量,通过不同的计算方式得到各样本检测统计观测值;若不一致,则停止判断并提示报错信息。
此外,需要说明的是,在所述样本总体数量为2时,则获取各样本总体对应的样本容量,根据所述样本容量计算样本均值和样本总体协方差矩阵,根据所述样本均值、所述样本总体协方差矩阵计算混合协方差矩阵,根据所述样本均值、所述样本总体协方差矩阵和所述混合协方差矩阵计算各样本总体对应的样本检测统计观测值。
此外,为了便于理解,以下进行举例说明:
统计出总体G{1}的样本容量n(1)和G{2}的样本容量n(2),计算出总体G{1}的样本均值m{1}和G{2}的样本均值m{2},以及G{1}的总体协方差矩阵s{1}和G{2}的总体协方差矩阵s{2}。
因此,G{1}和G{2}的混合协方差矩阵G_s计算如下:
进一步,计算G{1}的检验统计观测值Q{1}计算如下:
Q{1}=(n(1)-1)*(log(det(G_s))-log(det(s{1}))-G_p+trace(inv(G_s)*s{1}))(2)
计算G{2}的检验统计观测值Q{2}计算如下:
Q{2}=(n(2)-1)*(log(det(G_s))-log(det(s{2}))-G_p+trace(inv(G_s)*s{2}(3)
判断任意个总体协方差是否相等的具体过程如下:
步骤1将所有的总体文件放在同一个文件夹中;
步骤2选择总体所在的文件夹;
步骤3统计文件夹中文件的个数G_cn;
步骤4如果G_cn<2,则报错,过程结束;
步骤5如果G_cn=2,则判断两个总体协方差相等性过程如下:
(1)导入两个总体文件;
(2)如果两个总体的指标数不同,则停止判断,这两个总体不可能存在协方差相等的情形;
(3)计算两个总体的均值和协方差矩阵;
(4)根据公式(1)计算两个总体的混合协方差;
(5)根据公式(2)计算第一个总体的检验观测值;
(6)根据公式(3)计算第二个总体的检验观测值;
(7)如果两个总体的检验观测值都小于临界值,则这两个总体的协方差相等;否则,两个总体的协方差不相等。
此外,应理解的是,在总体数量为3或3以上时,获取各样本总体对应的样本容量,检测所述样本容量是否一致,获得容量检测结果,并根据所述容量检测结果计算各样本总体对应的样本检测统计观测值。
此外,需要说明的是,上述所说的所述检测所述样本容量是否一致,获得容量检测结果,并根据所述容量检测结果计算各样本总体对应的样本检测统计观测值的步骤为根据所述样本容量计算样本均值和样本总体协方差矩阵,根据所述样本均值和所述样本总体协方差矩阵计算样本自由度,检测所述样本容量是否一致,若一致,则根据所述样本均值、所述样本总体协方差矩阵和所述样本自由度,通过预设第一算法计算第一样本中间变量,根据所述第一样本中间变量,通过预设第二算法计算各样本总体对应的样本检测统计观测值。
此外,应理解的是,所述检测所述样本容量是否一致的步骤之后为若不一致,则根据所述样本均值、所述样本总体协方差矩阵和所述样本自由度,通过预设第三算法计算第二样本中间变量,根据所述第二样本中间变量,通过所述预设第二算法计算各样本总体对应的样本检测统计观测值。
此外,为了便于理解,以下进行举例说明:
统计出总体G{i}的样本容量n(i),计算出总体G{i}的样本均值m{i},以及G{i}的总体协方差矩阵s{i}。
因此,总体的自由度计算如下:
f=G_p*(G_p+1)*(G_cn-1)/2 (4)
如果任意的i≠j,有n(i)=n(j),则中间变量d计算如下:
如果任意的i≠j,有n(i)≠n(j),则中间变量d计算如下:
进一步,中间变量M的计算如下:
因此,检验统计观测值T计算如下:
T=(1-d)*M (8)
如果G_cn>2,则多个总体的协方差相等性判断过程如下:
(1)将G_cn个总体文件导入计算机内存;
(2)如果存在某两个总体的指标数不同,则停止判断并报错;
(3)计算所有总体的均值和协方差矩阵;
(4)根据公式(4)计算自由度;
(5)如果所有总体的样本容量都相等,则根据公式(5)计算d;
(6)如果总体的样本容量不全相等,则根据公式(6)计算d;
(7)根据公式(7)计算M。
(8)根据公式(8)检验统计观测值T;
(9)如果总体的检验观测值T都小于临界值,则总体的协方差相等;否则,总体的协方差不相等。
所述判断模块4004判断所述样本检测统计观测值是否小于预设临界值的操作。
所述判定模块4005在所述样本检测统计观测值小于所述预设临界值时,判定各样本对应的总体协方差相等的操作。
需要理解的是,将上述得到的样本检测统计观测值与预设临界值进行判断,是否都小于所述预设临界值,若小于,则判定样本总体协方差相同,否则判定总体协方差不相等。
应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。
本实施例通过获取待判别样本所包含的样本总体,以及各样本总体对应的样本指标数,然后检测所述样本指标数是否一致,若一致,则根据不同的计算方式获取各样本总体对应的样本检测统计观测值,例如,获取各样本总体对应的样本容量,根据所述样本容量计算样本均值和样本总体协方差矩阵,根据所述样本均值、所述样本总体协方差矩阵计算混合协方差矩阵,根据所述样本均值、所述样本总体协方差矩阵和所述混合协方差矩阵计算各样本总体对应的样本检测统计观测值。之后判断所述样本检测统计观测值是否小于预设临界值,并在所述样本检测统计观测值小于所述预设临界值时,判定各样本对应的总体协方差相等,通过上述方式,能够准确判断任意总体协方差是否相等,从而大大降低了用户操作的难度,提高了判断的准确性。
需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的样本总体协方差判定方法,此处不再赘述。
此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory,ROM)/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种样本总体协方差判定方法,其特征在于,所述方法包括:
获取待判别样本所包含的样本总体,以及各样本总体对应的样本指标数;
检测所述样本指标数是否一致;
若一致,则获取各样本总体对应的样本检测统计观测值;
判断所述样本检测统计观测值是否小于预设临界值;
在所述样本检测统计观测值小于所述预设临界值时,判定各样本对应的总体协方差相等。
2.如权利要求1所述的方法,其特征在于,所述获取待判别样本所包含的样本总体,以及获取各样本总体对应的样本指标数的步骤,包括:
获取待判别样本所包含的样本总体,并将各样本总体放入样本文件夹中;
根据用户选择指令,从所述样本文件夹中选取样本总体,并将所述样本总体对应的样本集存储至样本内存变量中;
根据所述样本内存变量获得各样本总体对应的样本指标数。
3.如权利要求1所述的方法,其特征在于,所述获取各样本总体对应的样本检测统计观测值的步骤,包括:
获取各样本总体对应的样本容量;
根据所述样本容量计算样本均值和样本总体协方差矩阵;
根据所述样本均值、所述样本总体协方差矩阵计算混合协方差矩阵;
根据所述样本均值、所述样本总体协方差矩阵和所述混合协方差矩阵计算各样本总体对应的样本检测统计观测值。
4.如权利要求1所述的方法,其特征在于,所述获取各样本总体对应的样本检测统计观测值的步骤,还包括:
获取各样本总体对应的样本容量;
检测所述样本容量是否一致,获得容量检测结果,并根据所述容量检测结果计算各样本总体对应的样本检测统计观测值。
5.如权利要求4所述的方法,其特征在于,所述检测所述样本容量是否一致,获得容量检测结果,并根据所述容量检测结果计算各样本总体对应的样本检测统计观测值的步骤,包括;
根据所述样本容量计算样本均值和样本总体协方差矩阵;
根据所述样本均值和所述样本总体协方差矩阵计算样本自由度;
检测所述样本容量是否一致;
若一致,则根据所述样本均值、所述样本总体协方差矩阵和所述样本自由度,通过预设第一算法计算第一样本中间变量;
根据所述第一样本中间变量,通过预设第二算法计算各样本总体对应的样本检测统计观测值。
6.如权利要求5所述的方法,其特征在于,所述检测所述样本容量是否一致的步骤之后,还包括:
若不一致,则根据所述样本均值、所述样本总体协方差矩阵和所述样本自由度,通过预设第三算法计算第二样本中间变量;
根据所述第二样本中间变量,通过所述预设第二算法计算各样本总体对应的样本检测统计观测值。
7.如权利要求1所述的方法,其特征在于,所述检测所述样本指标数是否一致的步骤之后,还包括:
若不一致,则返回所述获取待判别样本所包含的样本总体,以及各样本总体对应的样本指标数的步骤。
8.一种样本总体协方差判定装置,其特征在于,所述装置包括:
获取模块,用于获取待判别样本所包含的样本总体,以及各样本总体对应的样本指标数;
检测模块,用于检测所述样本指标数是否一致;
计算模块,用于若一致,则获取各样本总体对应的样本检测统计观测值;
判断模块,用于判断所述样本检测统计观测值是否小于预设临界值;
判定模块,用于在所述样本检测统计观测值小于所述预设临界值时,判定各样本对应的总体协方差相等。
9.一种电子设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的样本总体协方差判定程序,所述样本总体协方差判定程序配置为实现如权利要求1至7中任一项所述的样本总体协方差判定方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有样本总体协方差判定程序,所述样本总体协方差判定程序被处理器执行时实现如权利要求1至7任一项所述的样本总体协方差判定方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911299177.5A CN111062003A (zh) | 2019-12-13 | 2019-12-13 | 样本总体协方差判定方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911299177.5A CN111062003A (zh) | 2019-12-13 | 2019-12-13 | 样本总体协方差判定方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111062003A true CN111062003A (zh) | 2020-04-24 |
Family
ID=70301071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911299177.5A Pending CN111062003A (zh) | 2019-12-13 | 2019-12-13 | 样本总体协方差判定方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111062003A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112948770A (zh) * | 2021-03-16 | 2021-06-11 | 哈尔滨工业大学(深圳) | 信号平稳性检验方法、装置、终端设备和系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5519789A (en) * | 1992-11-04 | 1996-05-21 | Matsushita Electric Industrial Co., Ltd. | Image clustering apparatus |
US20070133878A1 (en) * | 2005-12-14 | 2007-06-14 | Porikli Fatih M | Method for constructing covariance matrices from data features |
CN107733541A (zh) * | 2017-11-29 | 2018-02-23 | 广东工业大学 | 频谱感知的方法、装置、设备以及计算机可读存储介质 |
CN108595495A (zh) * | 2018-03-15 | 2018-09-28 | 阿里巴巴集团控股有限公司 | 预测异常样本的方法和装置 |
CN110111367A (zh) * | 2019-05-07 | 2019-08-09 | 深圳大学 | 模糊模型粒子滤波方法、装置、设备及存储介质 |
CN110350992A (zh) * | 2019-07-26 | 2019-10-18 | 西安电子科技大学 | 一种基于差分特征值的鲁棒性频谱感知方法、装置及计算机存储介质 |
CN110377639A (zh) * | 2019-07-18 | 2019-10-25 | 西安交通大学 | 一种最小化核反应堆物理不确定性分析抽样样本量的方法 |
CN110455476A (zh) * | 2019-07-29 | 2019-11-15 | 河海大学 | 一种基于mcd异常点检验算法的多维动力指纹损伤识别方法 |
-
2019
- 2019-12-13 CN CN201911299177.5A patent/CN111062003A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5519789A (en) * | 1992-11-04 | 1996-05-21 | Matsushita Electric Industrial Co., Ltd. | Image clustering apparatus |
US20070133878A1 (en) * | 2005-12-14 | 2007-06-14 | Porikli Fatih M | Method for constructing covariance matrices from data features |
CN107733541A (zh) * | 2017-11-29 | 2018-02-23 | 广东工业大学 | 频谱感知的方法、装置、设备以及计算机可读存储介质 |
CN108595495A (zh) * | 2018-03-15 | 2018-09-28 | 阿里巴巴集团控股有限公司 | 预测异常样本的方法和装置 |
CN110111367A (zh) * | 2019-05-07 | 2019-08-09 | 深圳大学 | 模糊模型粒子滤波方法、装置、设备及存储介质 |
CN110377639A (zh) * | 2019-07-18 | 2019-10-25 | 西安交通大学 | 一种最小化核反应堆物理不确定性分析抽样样本量的方法 |
CN110350992A (zh) * | 2019-07-26 | 2019-10-18 | 西安电子科技大学 | 一种基于差分特征值的鲁棒性频谱感知方法、装置及计算机存储介质 |
CN110455476A (zh) * | 2019-07-29 | 2019-11-15 | 河海大学 | 一种基于mcd异常点检验算法的多维动力指纹损伤识别方法 |
Non-Patent Citations (3)
Title |
---|
FATIH PORIKLI: "Covariance Tracking using Model Update Based on Lie Algebra" * |
宋鹏;胡永宏;: "基于矩阵值因子模型的高维已实现协方差矩阵建模" * |
王春雨;嵇成新;: "基于模型概率的自适应交互式多模型算法" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112948770A (zh) * | 2021-03-16 | 2021-06-11 | 哈尔滨工业大学(深圳) | 信号平稳性检验方法、装置、终端设备和系统 |
CN112948770B (zh) * | 2021-03-16 | 2024-05-14 | 哈尔滨工业大学(深圳) | 海上风机的信号平稳性检验方法、装置、终端设备和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113299346B (zh) | 分类模型训练和分类方法、装置、计算机设备和存储介质 | |
JP2011520183A (ja) | サンプルデータの分類 | |
Tian et al. | Exact confidence interval estimation for the difference in diagnostic accuracy with three ordinal diagnostic groups | |
CN112596964A (zh) | 磁盘故障的预测方法及装置 | |
CN111860698A (zh) | 确定学习模型的稳定性的方法和装置 | |
CN116227240B (zh) | 基于综合应力加速试验的产品寿命评价方法、装置及设备 | |
CN114154029B (zh) | 一种基于人工智能和色谱分析的样品查询方法及服务器 | |
CN111062003A (zh) | 样本总体协方差判定方法、装置、设备及存储介质 | |
CN116340934A (zh) | 终端异常行为检测方法、装置、设备及存储介质 | |
CN112966965A (zh) | 进出口大数据的分析和决策方法、装置、设备及存储介质 | |
CN115238837A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN113986970A (zh) | 一种基于基线库数据的量费计算结果检测方法 | |
CN113553571B (zh) | 一种终端设备可信度度量方法及装置 | |
KR101708715B1 (ko) | 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 장치 및 방법 | |
CN112506765A (zh) | 软件测试方法、装置、设备及存储介质 | |
CN114550865A (zh) | 一种影响学生体测的多维度数据分析方法及装置 | |
CN113312261A (zh) | 测试用例筛选方法、设备、存储介质及装置 | |
CN114820003A (zh) | 定价信息异常识别方法、装置、电子设备及存储介质 | |
CN109920474A (zh) | 绝对定量方法、装置、计算机设备和存储介质 | |
CN110569402A (zh) | 错题检索方法、系统、终端及介质 | |
CN113554126A (zh) | 样本评估方法、装置、设备及计算机可读存储介质 | |
CN111507639B (zh) | 理财风险分析方法及装置 | |
CN114331164A (zh) | 学习管理系统成熟度评估方法、装置及电子设备 | |
CN115859098A (zh) | 模型训练方法、装置、设备及存储介质 | |
CN111209568A (zh) | 恶意软件作者识别方法、设备、存储介质及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200424 |