CN108875308A - 一种判断金钗石斛纯种相近度的方法的建立、判断标准以及判断方法 - Google Patents
一种判断金钗石斛纯种相近度的方法的建立、判断标准以及判断方法 Download PDFInfo
- Publication number
- CN108875308A CN108875308A CN201710330867.7A CN201710330867A CN108875308A CN 108875308 A CN108875308 A CN 108875308A CN 201710330867 A CN201710330867 A CN 201710330867A CN 108875308 A CN108875308 A CN 108875308A
- Authority
- CN
- China
- Prior art keywords
- herba dendrobii
- sample
- confidence interval
- value
- stem diameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Databases & Information Systems (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Peptides Or Proteins (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
本发明涉及一种判断金钗石斛纯种相近度的方法的建立、判断标准以及判断方法,所述判断方法的建立过程为,S1:采集与基因测序结论一致的金钗石斛样本,测定每个样本的第二个节间茎直径;S2:对样本第二个节间茎直径变量进行正态性检验;S3:标准区间:若步骤S2中所得到的结果为服从正态分布,则按照正态分布总体计算公式得出均值的95%置信区间和标准差的95%置信区间;该置信区间便能够作为鉴别未知样本纯净度的标准范围。根据实际采集的数据建立的判断标准为:均值的95%置信区间和标准差的95%置信区间分别为:(8.3677,9.3422)和(2.4923,3.1872),被测金钗石斛样本只需要与该区间对比便可。本发明能够通过金钗石斛形态学相关的特征来鉴别其品种的纯净度,从而可以简单的判断人工种植的金钗石斛其价值大小或是否存在;其鉴别的准确率高,具有重要的现实意义。
Description
技术领域
本发明涉及医药领域和生物学领域,具体涉及一种判断金钗石斛纯种相近度的方法的建立、判断标准以及判断方法,即金钗石斛形态学特征与基因测序结论关联性的建立方法以及被测金钗石斛品种纯净度的鉴别方法等。
背景技术
石斛是一种常用的滋补中药,主要为石斛属植物。石斛属植物是兰科植物中最大的一个属,包括美花石斛、流苏石斛、铁皮石斛、叠鞘石斛、密花石斛、金钗石斛等多个品种。在全球范围内,约有1100多种石斛,其中在我国发现的有近百种。石斛的药用历史悠久,早在《神农本草经》中就被列为滋补上品,长久以来,随着时代的发展,石斛一直被人们视为珍贵的中草药,具有十分重要的滋补功效。在临床上,石斛被用于治疗多种疾病,具有增强免疫力、抗氧化、降血糖和抑制癌症等药理功效。包括金钗石斛在内的石斛在中医药和保健领域具有极其重要的价值。
然而,由于人为长期无节制采挖及不合理利用石斛,其野生资源日趋减少,人工种植情况逐渐增多,甚至成为了主要供给金钗石斛的来源。然而,长期人工种植也为金钗石斛带来了以假乱真、以次充好的现象,这是因为,①人工种植改变了野生金钗石斛的生长环境;②大量的施用各种类型的肥料、病变、施撒农药、新的疾病种类的出现等等人为的施加在金钗石斛上;③而且由于石斛品种较多,其品种间的杂交使得其近缘的种存在性状交叉现象;④其他不可控或不可测的因素,综上原因导致了有些人工种植的金钗石斛其药用成分发生了改变,甚至重要的药用成分消失,相应地,这些药用成分发生改变或消失的金钗石斛其基因序列也与原始野生的基因序列存在实质性的区别。而一旦这些金钗石斛的药用价值减弱或消失,而本领域还在不自知的继续应用,则其后果非常严重,而当人们不自知的情况下导致金钗石斛从医药领域消失,则其后果更为严重。
本申请人通过长期、极大工作量的研究发现,某些金钗石斛形态学相关特征与其基因测序结论有着非常密切的关系,基因测序结论就是具有传统药用/营养价值的标准金钗石斛的基因测序结果,野生的金钗石斛基本均与基因测序结论一致。也就是说可以通过金钗石斛形态学上的特征来判断其与基因测序结论的关联度,关联度或相近度越高其品种的纯净度越高,其越容易保持传统的药用、保健功效,关联度或相近度越低其品种的纯净度越低,即其与基因测序结论的实质性差别越大,其药用功效减小或消失的可能性越大。
基因测序结论反映的是样品的品种,为了鉴别品种的纯净度或基因相近度,在基因测序结论的基础上如何高效地通过对形态学相关特征的测量,即可判断样品品种的纯净度,是我们实际应用时必须考虑的问题。
发明内容
鉴于现有技术中存在的上述问题,本发明的主要目的在于解决现有技术的缺陷,本发明提供一种判断金钗石斛纯种相近度的方法的建立、判断标准以及判断方法。
本发明的目的主要通过以下技术方案来实现。
一种判断金钗石斛纯种相近度的方法的建立,所述建立过程包括以下步骤:
S1:标准数据采集:采集与基因测序结论一致的金钗石斛样本,样本容量为n,测定每个样本的第二个节间茎直径,得到第二个节间茎直径变量的测量数值;
S2:正态性检验:对样本第二个节间茎直径变量进行正态性检验;
S3:标准区间:若步骤S2中所得到的结果为服从正态分布,则按照正态分布总体计算公式得出均值的95%置信区间和标准差的95%置信区间;
若步骤S2中金钗石斛的第二个节间茎直径变量正态性检验结果为不服从正态分布,则如果样本容量超出30,则根据中心极限定理可知,该样本仍然能够按照正态总体的公式计算其均值的95%置信区间和标准差的95%置信区间;
上述得到的均值的95%置信区间和标准差的95%置信区间便能够作为鉴别未知样本纯净度的标准范围。
进一步地,步骤S1得到第二个节间茎直径变量的测量数值后,根据该第二个节间茎直径变量的测量数值计算第二个节间茎直径变量的基本统计量,所述基本统计量包括平均水平和离散程度,然后根据基本统计量确定数据有无异常值,若有异常值则进行排查,如果属于测量误差或记录失误则删除异常点,如果不是因为误差,那么应该保留此数据。
进一步地,所述平均水平包括均值、中位数和众数中的至少一种,所述离散程度包括标准差、平均绝对离差和变异系数;
所述基本统计量还包括根据第二个节间茎直径变量的测量数值制作直方图和/或盒形图将数据可视化,使其更方便确定有误异常值。
进一步地,所述正态性检验包括直观图像分析和假设检验中的至少一种。
进一步地,所述正态性检验包括直观图像分析和假设检验。
进一步地,所述直观图像分析的方法为:
①根据正态经验分布函数绘制金钗石斛的正态经验分布函数曲线;
根据正态概率密度函数绘制金钗石斛的正态概率密度曲线;当μ=0,σ=1时,正态分布就成为标准正态分布:
②根据步骤S1中得到的第二个节间茎直径变量的测量数值,并根据公式为的经验分布函数绘制真实经验分布函数;
根据步骤S1中得到的第二个节间茎直径变量的测量数值,并根据公式为的概率密度函数绘制真实概率密度函数图;
③将真实经验分布函数图与正态分布的分布函数曲线对比,通过判断曲线偏差程度的大小来初步判定样本数据是否符合正态分布;将真实概率密度函数图与正态分布的概率密度曲线对比,同样根据偏差程度大小及曲线形状一致性程度,来判定样本数据是否是服从正态分布的;
若真实经验分布函数图和正态分布的分布函数图或者真实经验概率密度函数图和正态分布的概率密度函数图的偏差小且形状一致,则待检测金钗石斛样本第二个节间茎直径符合正态分布,若偏差明显很大且形状明显不一致,则待检测金钗石斛样本第二个节间茎直径不符合正态分布。
进一步地,所述假设检验包括JB检验、KS检验和Lilliefors检验中的任意一种。
进一步地,所述假设检验为Lilliefors检验,所述Lilliefors检验统计量T=sup|F*(x)-S(x)|,式中,T为Liffiefors检验统计量,F*(x)是均值为0,标准差为1的正态分布累积分布函数,S(x)是的经验分布函数值,在α的显著性水平下,当检验统计量T超过检验临界值时,拒绝原假设H0;否则,不能拒绝原假设。
一种金钗石斛纯种相近度的判断标准,所述判断标准包括以下步骤:
(1):采集与基因测序结论一致的野生金钗石斛样本129个,测定每个样本的第二个节间茎直径,测定结果如下:金钗石斛的第二个节间茎直径变化范围为3.34mm~17.64mm,平均水平在5.11mm~9.06mm,计算后得到的结果为:均值:8.86mm,中位数:9.06mm,众数:5.11mm,第二个节间茎直径波动的标准差为2.80mm,平均绝对离差:2.28mm,变异系数:0.32;
(2):直观图像分析正态分布:根据步骤(1)中的数据绘制经验分布函数图和概率密度函数图,将真实经验分布函数图与正态经验分布函数曲线进行对比的结果为:二者的曲线基本一致;将真实概率密度函数图与正态概率密度曲线进行对比的结果为:二者的曲线的形状大致相同;
通过对以上图形的直观分析可知,金钗石斛第二个节间茎直径样本数据很有可能符合正态分布;
(3):Lilliefors检验:原假设为H0:数据服从正态分布;备择假设H1:数据不服从正态分布;通过步骤(1)中的数据得到的检验结果为:
统计量 | 临界值 | P值 | 显著性水平α | 是否接受原假设 |
0.0649 | 0.0786 | 0.0910 | 0.05 | 是 |
统计量的值为0.0649,小于临界值0.0786;P值等于0.0910,大于显著性水平(α=0.05),所以接受原假设,则可确认金钗石斛样本数据服从正态分布;
(4):则按照正态分布总体计算公式计算金钗石斛第二个节间茎直径样本数据的均值95%置信区间和标准差95%置信区间,分别为:
均值 | 均值的95%置信区间 | 标准差 | 标准差的95%置信区间 |
8.8550 | (8.3677,9.3422) | 2.7970 | (2.4923,3.1872) |
上述均值的95%置信区间和标准差的95%置信区间分别为:(8.3677,9.3422)和(2.4923,3.1872),该区间便为判断金钗石斛纯种相近度的标准区间。
一种金钗石斛纯种相近度的判断方法,所述方法为:
A.采集待检测金钗石斛样本第二个节间茎直径数据,排除样本中由于测量误差或记录误差造成导致的异常值;
B.计算步骤A中的待检测金钗石斛样本第二个节间茎直径数据的均值95%置信区间和标准差95%置信区间,若二者均在上述步骤(4)所得到的标准区间内(即所述标准区间为:均值的95%置信区间和标准差的95%置信区间分别为:(8.3677,9.3422)和(2.4923,3.1872)),则待检测金钗石斛的纯种的相近度高,即待检测金钗石斛的纯净度高;若待检测金钗石斛的样本第二个节间茎直径数据的均值95%置信区间和标准差95%置信区间中至少有一个不在上述步骤(4)所得到的标准区间内,则待检测金钗石斛的纯种的相近度低,即待检测金钗石斛的纯净度低。
本发明至少具有以下有益效果:
本发明的方法将金钗石斛的形态学特征与金钗石斛基因测序结论建立了连接,通过形态学特征便可获知其基因纯净度。即能够通过金钗石斛的第二个节间茎直径数据来鉴别被测金钗石斛的品种纯净度;该方法能够非常简单、简洁的判断人工种植的金钗石斛的价值大小,甚至是是否存在价值。
本发明建立了判断纯净度的标准,通过均值的95%置信区间和标准差的95%置信区间能够判断被测金钗石斛的纯种相近度,该方法简单且精确,在本申请人大量的研究中获知,本发明方法能够以90%以上的准确率判断金钗石斛样品纯净度,具有重要的应用价值。
通过本发明方法可基本判断某一批金钗石斛的药用价值,通过形态学特征来反应其本质特征,对整个医药界和植物界具有深远的意义。此外,本发明还可能开辟了一种更新的、更精确的形态学归类理念或思路。
附图说明
图1为本发明实施例所述的直方图的结构示意图;
图2为本发明实施例所述的盒形图的结构示意图;
图3为本发明实施例所述的经验分布函数曲线的结构示意图;
图4为本发明实施例所述的概率密度曲线的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
一种判断金钗石斛纯种相近度的方法的建立,所述建立方法包括以下步骤:
S1:标准数据采集:采集全部满足金钗石斛的形态学描述的金钗石斛样本,即采集与基因测序结论一致的金钗石斛样本,样本容量为n,测定每个样本的第二个节间茎直径,得到第二个节间茎直径变量的测量数值;
S2:数据的确认:根据该第二个节间茎直径变量的测量数值计算第二个节间茎直径变量的基本统计量,所述基本统计量包括平均水平和离散程度,所述平均水平包括均值、中位数和众数中的至少一种,所述离散程度包括标准差、平均绝对离差和变异系数;并根据相应地数据制作直方图和盒形图将数据可视化,能够更清楚明了的观察、分析、判断变量分布情况及异常值。然后确定数据有误异常值,若有异常值则进行排查,如果属于测量误差或记录失误则删除异常点,如果不是因为误差,那么应该保留此数据,如果不是因为误差,那么应该保留此数据。
S3:正态性检验:对样本第二个节间茎直径变量进行正态性检验;所述正态性检验包括直观图像分析和假设检验中的至少一种,优选两种均采用,能够从主观和客观两方面进行检验。
所述直观图像分析的方法为:
①根据正态经验分布函数绘制金钗石斛的正态经验分布函数曲线;公式中的x为随机变量,也就是金钗石斛的样本观测值;μ为求得的样本观测值的均值;σ为样本观测值的标准差;e为自然常数,其值约为2.71828;该正态分布的函数曲线是已经给定的,通过计算机也可模拟出正态经验分布曲线,不是根据原始数据求得的,绘制该正态经验分布函数曲线是希望将原始数据的分布函数曲线与正态分布的函数曲线进行比较,来检验原始数据是否服从正态分布。
根据正态概率密度函数绘制金钗石斛的正态概率密度曲线,当μ=0,σ=1时(均值为0,标准差为1),正态分布就成为标准正态分布:公式中的x为随机变量,也就是石斛的样本观测值;e为自然常数,其值约为2.71828。同样地,正态分布的概率密度函数曲线是已经给定的,通过计算机也可模拟出正态经验分布曲线,不是根据原始数据求得的。绘制该正态概率密度曲线是希望将原始数据的概率密度函数曲线与正态概率密度函数曲线进行比较,来检验原始数据是否服从正态分布。
上述的原始数据即为发明内容的步骤S1中得到的数据。
②根据步骤S1中得到的第二个节间茎直径变量的测量数值,根据经验分布函数(EDF,Empirical Distribution Functions)绘制真实经验分布函数;
所述经验分布函数公式为:设x1,x2,...,xn是总体的一组样本容量为n的样本测定值,将n个测定值按从小到大的顺序重新排列为对于任意实数x(x即为即对于样本的测定值x1,x2,...,xn),定义函数
则称Fn(x)为总体X的经验分布函数。它可以简记为Fn(x)=1/n·*{x1,x2,...,xn},其中*{x1,x2,...,xn}表示x1,x2,...,xn中不大于x的个数。另外一种常见的表示形式为
其中,I是示性函数,即
因此,求经验分布函数Fn(x)在一点x处的值,只要求出随机变量x的n个观测值x1,x2,...,xn中小于或等于x的个数,再除以观测次数n即可。由此可见,Fn(x)就是在n次重复独立实验中事件{X≤x}出现的频率。
根据步骤S1中得到的第二个节间茎直径变量的测量数值,并根据概率密度函数绘制真实概率密度函数图;
所述概率密度函数(probability density function,PDF)的公式为:如果对于随机变量X的分布函数F(x),存在非负函数f(x),使得对于任意实数有则称X(x即为即样本的测定值x1,x2,...,xn)为连续型随机变量,其中f(x)称为X的概率密度函数,简称概率密度。随机数据的概率密度函数表示瞬时幅值落在某指定范围内的概率,因此是幅值的函数。它随所取范围的幅值而变化。
概率密度函数具有下列性质:f(x)≥0;由于该概率密度函数是由分布函数而来,因此概率密度函数的图形可直接根据样本测量数据的每一个数据x1,x2,...,xn计算得到的。
③将真实经验分布函数图与正态经验分布函数曲线进行对比,通过判断曲线偏差程度的大小来初步判定样本数据是否符合正态分布;将真实概率密度函数图与正态概率密度曲线进行对比,同样根据偏差程度大小及曲线形状一致性程度,来判定样本数据是否是服从正态分布的;
若真实经验分布函数图和正态分布的分布函数图或者真实经验概率密度函数图和正态分布的概率密度函数图的偏差小且形状一致,则待检测金钗石斛样本第二个节间茎直径符合正态分布,若偏差明显很大且形状明显不一致,则待检测金钗石斛样本第二个节间茎直径不符合正态分布。
通过绘制样本经验分布函数图和样本经验概率密度函数图,并将其与正态分布相应函数图进行对比,直观观察两曲线的差异程度,从而判断样本第二个节间茎直径变量是否来自正态分布。
假设检验
所述假设检验包括JB检验、KS检验和Lilliefors检验中的任意一种,优选Lilliefors检验。
所述Lilliefors检验统计量T=sup|F*(x)-S(x)|,式中,T为Liffiefors检验统计量,F*(x)是均值为0,标准差为1的正态分布累积分布函数,S(x)是的经验分布函数值,在α的显著性水平下,当检验统计量T超过检验临界值时,拒绝原假设H0;否则,不能拒绝原假设。
通过Lilliefors正态分布假设检验方法能够更客观的判断样本是否来自于一个正态分布总体。
S4:标准区间:若步骤S3中所得到的结果为服从正态分布,则按照正态分布总体计算公式得出均值的95%置信区间和标准差的95%置信区间;
若步骤S3中金钗石斛的第二个节间茎直径变量正态性检验结果为不服从正态分布,考虑到大样本性质,即当样本量比较大时,即一般要求>30,则根据中心极限定理可知,该样本仍然能够按照正态总体的公式计算其均值的95%置信区间和标准差的95%置信区间。
上述得到的均值的95%置信区间和标准差的95%置信区间便能够作为鉴别未知样本纯净度的标准范围。
在本实施例中,所述样本容量n优选不小于100。
实施例2
一种金钗石斛纯种相近度的判断标准,主要包括以下步骤:
(1):采集与基因测序结论一致的野生金钗石斛样本,样本容量为119个,测定每个样本的第二个节间茎直径,测定结果如下:金钗石斛的第二个节间茎直径变化范围大致在3.34mm~17.64mm,平均水平大致在5.11mm~9.06mm,计算后得到的结果为:均值:8.86mm,中位数:9.06mm,众数:5.11mm,第二个节间茎直径波动的标准差为2.80mm,平均绝对离差:2.28mm,变异系数:0.32。
并根据上述数据制作直方图和盒形图将数据可视化,如图1和2所示。上述数据中没有发现异常点。由盒形图1~2中可知,所采集的数值中存在异常点,经过再次排查得知该异常点并非由于测量误差或记录失误引起的,因此该点也属于正常值,保留此数据。
(2)鉴别待测定金钗石斛样本纯净度的标准区间
根据所测定的129个样本中每一株的第二个节间茎直径的数量值,并根据经验分布函数绘制真实经验分布函数的曲线,如图3中实线所示;经验分布函数的曲线是一条呈跳跃上升的阶梯形曲线。图中光滑曲线是总体X的理论分布函数的图形。
根据所测定的129个样本中每一株的第二个节间茎直径的数量值,并根据概率密度函数绘制真实概率密度函数曲线,如图4中实线所示。
根据金钗石斛的第二个节间茎直径的数据,并根据正态经验分布函数的公式绘制金钗石斛的正态经验分布函数曲线,如图3所示。
根据金钗石斛的第二个节间茎直径的数据,并根据正态概率密度函数的公式绘制标准金钗石斛的正态概率密度函数曲线,如图4所示。
图3的纵坐标表示129次重复独立实验中事件{X≤x}出现的累积概率,纵坐标表示的是样本事件小于或等于某个数值的概率之和,通过累积经验分布函数可以在一个统一的角度下描述变量的概率分布,对于正态分布来说,其累积概率分布函数有一条固定的曲线,那么比较样本数据绘制的累积经验分布函数图与正态累积经验分布函数图的差异,即可直观地看出样本数据是否符合正态分布。图4纵坐标表示概率的密度,密度越大在该范围处的概率也就越大。图3和图4的横坐标均表示随机变量的取值范围,即横坐标为金钗石斛第二个节间茎直径的数量范围,图3的纵坐标表示样本数据小于或等于某个数值的概率累积之和,图4的纵坐标表示概率的密度,密度越大在该范围处的概率也就越大。
根据所绘制的经验分布函数图和概率密度函数图,更直观从主观的角度来观察第二个节间茎直径样本数据的分布是否服从正态性。经验分布函数曲线可以用来评估分布与数据的拟合度,估计百分位数并比较不同的样本分布。通过图3可以直观地看到金钗石斛第二个节间茎直径数据的分布情况。
具体地,从图3的经验分布函数图中可以看到,真实经验分布函数曲线与正态经验分布函数曲线基本一致;从图4的概率密度函数图中可以看出,真实概率密度曲线的形状与正态概率密度曲线的形状大致相同,都是钟形曲线,真实概率密度曲线的峰值更小且存在厚尾现象。通过对以上曲线的直观分析可以认为,金钗石斛茎直径第二个节间样本数据符合正态分布。
由于实际生活中,很多数据都满足正态分布的特征,所以我们可先通过上述方法来判断原始数据的真实分布与正态分布比较情况,对于明显符合正态分布的数据,可不采用假设检验。
接下来,通过假设检验的方法判断样本是否确实来自于一个正态分布总体。
采用Lilliefors检验方法来进行验证,原假设为H0:数据服从正态分布;备择假设H1:数据不服从正态分布。
根据所采集的金钗石斛样本中的第二个节间茎直径的数据计算检验统计量和P值,检验结果如表1所示。
表1Lilliefors检验结果
统计量 | 临界值 | P值 | 显著性水平α | 是否接受原假设 |
0.0649 | 0.0786 | 0.0910 | 0.05 | 是 |
表1中的临界值并非主观给定的,而是通过检验方法和样本量来确定的。P值的作用就是判断是否应该拒绝原假设,如果P值小于显著性水平(一般取0.05),那么我们就拒绝原假设,即认为数据不服从正态分布。从表1中的检验结果可以看出,统计量的值为0.0649,小于临界值0.0786;P值等于0.0910,大于显著性水平(α=0.05);所以接受原假设,认为金钗石斛第二个节间茎直径样本数据服从正态分布。
上述P值的计算公式为:当备择假设H1为μ≠μ0时,p=2[1-Φ(Z0)];当备择假设H1为μ>μ0时,p=1-Φ(Z0);当备择假设H1为μ<μ0时,p=Φ(Z0)。其中,Φ(Z0)是正态分布经验函数,要通过查表得到,μ是计算得到的统计量,μ0是该统计量的假设值,该P值可通过软件直接计算得到,如Matlab软件。
根据本实施例采集的待检测金钗石斛的第二个节间茎直径数据计算其置信区间等,具体结果如表2所示。
表2金钗石斛第二个节间茎直径的均值、标准差和置信区间的计算结果
均值 | 均值的95%置信区间 | 标准差 | 标准差的95%置信区间 |
8.8550 | (8.3677,9.3422) | 2.7970 | (2.4923,3.1872) |
均值的95%置信区间和标准差的95%置信区间分别为:(8.3677,9.3422)和(2.4923,3.1872),该区间便为判断金钗石斛纯种相近度的标准区间,即该区间便为鉴别金钗石斛品种纯净度的标准区间。
实施例3
一种金钗石斛纯种相近度的判断方法,所述方法为:
A.采集待检测金钗石斛样本第二个节间茎直径数据,排除样本中由于测量误差或记录误差造成导致的异常值;
B.计算步骤A中的待检测金钗石斛样本第二个节间茎直径数据的均值95%置信区间和标准差95%置信区间,若二者均在实施例2得到的标准区间内,则待检测金钗石斛的纯种的相近度高,即待检测金钗石斛的纯净度高;若待检测金钗石斛的样本第二个节间茎直径数据的均值95%置信区间和标准差95%置信区间中至少有一个不在实施例2得到的标准区间内,则待检测金钗石斛的纯种的相近度低,即待检测金钗石斛的纯净度低。
作为进一步优选的实施方式,步骤A中,可按实施例1或实施例2中所述的直方图和盒形图来辅助判断有无异常值。
作为进一步优选的实施方式,采集待检测金钗石斛样本的样本容量不小于65,优选大于100。
实施例4
本发明人长期从事金钗石斛的形态学特征与品种纯净度的关联的研究,随着研究发现,纯净度低的金钗石斛对于某些形态学特征的影响较大,通过大量的野生金钗石斛和人工种植的样本的数据和样本的总结、对比、研究等,基本得出了:纯净度高(即纯种的相近度高)的金钗石斛其第二个节间茎直径的经验分布函数曲线、概率密度函数曲线等与正态分布函数曲线的偏差和形状基本一致,其均值95%置信区间和标准差95%置信区间均在实施例2得出的标准区间内,而纯净度较低(即纯种的相近度低)的待测金钗石斛样本其均值95%置信区间和标准差95%置信区间至少有一个不在实施例2得出的标准区间内,标准区间即均值的95%置信区间(8.3677,9.3422)和标准差的95%置信区间(2.4923,3.1872)。
此外,在过去的几年中,本发明人在全国多个地方进行了无数次的样本采集、计算、对比等,并多次进行基因序列测定,通过大数据对比发现,本发明中的判断方法的准确率在90%以上。若待测金钗石斛样本的均值95%置信区间和标准差95%置信区间不在标准区间内,则被测金钗石斛与真正的金钗石斛的基因序列相似度均在95%以下,而在上述标准区间内的被测金钗石斛样本,其与真正的金钗石斛的基因序列相似度基本均在95%以上。
现随机抽取一些记录在案的被测金钗石斛样本,按实施例3的方法对其均值的95%置信区间和标准差的95%置信区间进行计算,如下表3所示。
表3部分案例示意情况表(第二个节间茎直径)
在上表中,地点为被测样本所在省,均值95%置信区间和标准差95%置信区间均指被测金钗石斛样本所得到的区间,是否在标准区间内为被测金钗石斛样本的值是否在本发明所得到的均值95%置信区间;相近度为被测金钗石斛样本在区间内的数量与样本容量比值的百分数。
对于上述样本,通过实际测定可知,本申请方法的准确率高,具有重要的应用参考价值。
具体实施时,本发明需要用到的公式如下:
均值:这里的均值为算术平均值(mean),计算方法为其中n为石斛的样本量。
中位数:对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数,如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。
当N为奇数时,m0.5=X(N+1)/2;当N为偶数时,
众数:一般用M0表示,就是一组数据中占比例最多的那个数。
标准差:标准差是一组数据平均值分散程度的一种度量,一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。计算公式为其中μ为平均值。因为我们大量接触的是样本,所以普遍计算的是样本标准差,样本标准差可以理解为是对所给总体标准差的一个无偏估计,计算公式为其中为样本均值。
平均绝对离差:通常记为MAD(MeanAbsolute Deviation),计算各观察值与平均值的距离总和,然后取其平均数。计算公式为
变异系数:当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲的不同,直接使用标准差来进行比较不合适,此时就应当消除测量尺度和量纲的影响,而变异系数(CV,Coefficient of Variation)可以做到这一点,其为原始数据标准差与原始数据平均数的比。变异系数的计算公式为
置信区间:前面计算的均值和标准差均为参数的点估计值,是用样本算得的一个值去估计未知参数。但是点估计值仅仅是未知参数的一个近似值,它没有反映出这个近似值的误差范围,范围通常用区间的形式给出。我们希望确定一个区间,能以比较高的可靠程度相信它包含真参数值,这个可靠程度一般称为置信水平,记作1-α,这里α称为显著水平,是一个很小的正数,通常取α=0.025,0.05,0.1等。
当方差σ2已知时,统计量为均值μ的置信区间为:
当方差σ2未知时,统计量为均值μ的置信区间为:
当均值μ未知时,统计量为标准差σ的置信区间为:
Lilliefors检验:
假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。假设检验中的正态分布检验包括三类:JB检验、KS检验、Lilliefors检验,用于检验样本是否来自于一个正态分布总体。
其中,Liffiefors检验是KS检验的一个改进,KS检验是将样本与标准正态分布(均值为0,方差为1)进行对比,而Liffiefors检验的目标不是标准正态,而是具有与样本相同均值和方差的正态分布。它适用于小样本、参数未知的正态分布检验,因此对于石斛样本数据的正态性检验来说,Liffiefors检验是最适合的。
检验原理及方法如下:
①检验假设:H0:数据服从正态分布;H1:数据不服从正态分布。显著性水平α=0.05。
②检验统计量:
T=sup|F*(x)-S(x)|
式中,T为Liffiefors检验统计量,F*(x)是均值为0,标准差为1的正态分布累积分布函数,S(x)是的经验分布函数值。计算S(x)时就需要用到样本容量和原始数据值。
判断原则:在α的显著性水平下,当检验统计量T超过检验临界值时,拒绝原假设H0;否则,不能拒绝原假设。
具体实施时,本申请人通过多年从事基因测序结论与金钗石斛形态学特征研究,得到了金钗石斛第二个节间茎直径与其纯净度密切相关,保守而言,其判断的准确率在90%以上
在本发明中,第二个节间是指由金钗石斛的最底端开始计数,第二节与第一节之间便为第二个节间,第二个节间茎直径即第二个节间直径的最大数值。
最后应说明的是:以上所述的各实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或全部技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种判断金钗石斛纯种相近度的方法的建立,其特征在于:所述建立过程包括以下步骤:
S1:标准数据采集:采集与基因测序结论一致的金钗石斛样本,样本容量为n,测定每个样本的第二个节间茎直径,得到第二个节间茎直径变量的测量数值;
S2:正态性检验:对样本第二个节间茎直径变量进行正态性检验;
S3:标准区间:若步骤S2中所得到的结果为服从正态分布,则按照正态分布总体计算公式得出均值的95%置信区间和标准差的95%置信区间;
若步骤S2中金钗石斛的第二个节间茎直径变量正态性检验结果为不服从正态分布,则如果样本容量超出30,则根据中心极限定理可知,该样本仍然能够按照正态总体的公式计算其均值的95%置信区间和标准差的95%置信区间;
上述得到的均值的95%置信区间和标准差的95%置信区间便能够作为鉴别未知样本纯净度的标准范围。
2.根据权利要求1所述的判断金钗石斛纯种相近度的方法的建立,其特征在于:步骤S1得到第二个节间茎直径变量的测量数值后,根据该第二个节间茎直径变量的测量数值计算第二个节间茎直径变量的基本统计量,所述基本统计量包括平均水平和离散程度,然后根据基本统计量确定数据有无异常值,若有异常值则进行排查,如果属于测量误差或记录失误则删除异常点,如果不是因为误差,那么应该保留此数据。
3.根据权利要求2所述的判断金钗石斛纯种相近度的方法的建立,其特征在于:所述平均水平包括均值、中位数和众数中的至少一种,所述离散程度包括标准差、平均绝对离差和变异系数;
所述基本统计量还包括根据第二个节间茎直径变量的测量数值制作直方图和/或盒形图将数据可视化,使其更方便确定有误异常值。
4.根据权利要求1所述的判断金钗石斛纯种相近度的方法的建立,其特征在于:所述正态性检验包括直观图像分析和假设检验中的至少一种。
5.根据权利要求4所述的判断金钗石斛纯种相近度的方法的建立,其特征在于:所述正态性检验包括直观图像分析和假设检验。
6.根据权利要求5所述的判断金钗石斛纯种相近度的方法的建立,其特征在于:所述直观图像分析的方法为:
①根据正态经验分布函数绘制金钗石斛的正态经验分布函数曲线;
根据正态概率密度函数绘制金钗石斛的正态概率密度曲线;当μ=0,σ=1时,正态分布就成为标准正态分布:
②根据步骤S1中得到的第二个节间茎直径变量的测量数值,并根据公式为的经验分布函数绘制真实经验分布函数;
根据步骤S1中得到的第二个节间茎直径变量的测量数值,并根据公式为的概率密度函数绘制真实概率密度函数图;
③将真实经验分布函数图与正态分布的分布函数曲线对比,通过判断曲线偏差程度的大小来初步判定样本数据是否符合正态分布;将真实概率密度函数图与正态分布的概率密度曲线对比,同样根据偏差程度大小及曲线形状一致性程度,来判定样本数据是否是服从正态分布的;
若真实经验分布函数图和正态分布的分布函数图或者真实经验概率密度函数图和正态分布的概率密度函数图的偏差小且形状一致,则待检测金钗石斛样本第二个节间茎直径符合正态分布,若偏差明显很大且形状明显不一致,则待检测金钗石斛样本第二个节间茎直径不符合正态分布。
7.根据权利要求5所述的判断金钗石斛纯种相近度的方法的建立法,其特征在于:所述假设检验包括JB检验、KS检验和Lilliefors检验中的任意一种。
8.根据权利要求7所述的判断金钗石斛纯种相近度的方法的建立法,其特征在于:所述假设检验为Lilliefors检验,所述Lilliefors检验统计量T=sup|F*(x)-S(x)|,式中,T为Liffiefors检验统计量,F*(x)是均值为0,标准差为1的正态分布累积分布函数,S(x)是的经验分布函数值,在α的显著性水平下,当检验统计量T超过检验临界值时,拒绝原假设H0;否则,不能拒绝原假设。
9.一种金钗石斛纯种相近度的判断标准,其特征在于:所述判断标准包括以下步骤:
(1):采集与基因测序结论一致的野生金钗石斛样本129个,测定每个样本的第二个节间茎直径,测定结果如下:金钗石斛的第二个节间茎直径变化范围为3.34mm~17.64mm,平均水平在5.11mm~9.06mm,计算后得到的结果为:均值:8.86mm,中位数:9.06mm,众数:5.11mm,第二个节间茎直径波动的标准差为2.80mm,平均绝对离差:2.28mm,变异系数:0.32;
(2):直观图像分析正态分布:根据步骤(1)中的数据绘制经验分布函数图和概率密度函数图,将真实经验分布函数图与正态经验分布函数曲线进行对比的结果为:二者的曲线基本一致;将真实概率密度函数图与正态概率密度曲线进行对比的结果为:二者的曲线的形状大致相同;
通过对以上图形的直观分析可知,金钗石斛第二个节间茎直径样本数据很有可能符合正态分布;
(3):Lilliefors检验:原假设为H0:数据服从正态分布;备择假设H1:数据不服从正态分布;通过步骤(1)中的数据得到的检验结果为:
统计量的值为0.0649,小于临界值0.0786;P值等于0.0910,大于显著性水平(α=0.05),所以接受原假设,则可确认金钗石斛样本数据服从正态分布;
(4):则按照正态分布总体计算公式计算金钗石斛第二个节间茎直径样本数据的均值95%置信区间和标准差95%置信区间,分别为:
上述均值的95%置信区间和标准差的95%置信区间分别为:(8.3677,9.3422)和(2.4923,3.1872),该区间便为判断金钗石斛纯种相近度的标准区间。
10.一种金钗石斛纯种相近度的判断方法,其特征在于:所述方法为:
A.采集待检测金钗石斛样本第二个节间茎直径数据,排除样本中由于测量误差或记录误差造成导致的异常值;
B.计算步骤A中的待检测金钗石斛样本第二个节间茎直径数据的均值95%置信区间和标准差95%置信区间,若二者均在标准区间内,则待检测金钗石斛的纯种的相近度高,即待检测金钗石斛的纯净度高;若待检测金钗石斛的样本第二个节间茎直径数据的均值95%置信区间和标准差95%置信区间中至少有一个不在标准区间内,则待检测金钗石斛的纯种的相近度低,即待检测金钗石斛的纯净度低;所述标准区间为:均值的95%置信区间和标准差的95%置信区间分别为:(8.3677,9.3422)和(2.4923,3.1872)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710330867.7A CN108875308B (zh) | 2017-05-11 | 2017-05-11 | 一种金钗石斛纯种相近度的判断和检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710330867.7A CN108875308B (zh) | 2017-05-11 | 2017-05-11 | 一种金钗石斛纯种相近度的判断和检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108875308A true CN108875308A (zh) | 2018-11-23 |
CN108875308B CN108875308B (zh) | 2021-04-09 |
Family
ID=64319491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710330867.7A Active CN108875308B (zh) | 2017-05-11 | 2017-05-11 | 一种金钗石斛纯种相近度的判断和检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108875308B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111984934A (zh) * | 2020-09-01 | 2020-11-24 | 黑龙江八一农垦大学 | 一种对动物血液生化指标进行优选的方法 |
CN113504261A (zh) * | 2021-07-09 | 2021-10-15 | 贵州茅台酒股份有限公司 | 一种高粱品种的鉴别方法 |
CN113567489A (zh) * | 2021-07-09 | 2021-10-29 | 贵州茅台酒股份有限公司 | 一种以热焓值评价高粱的方法 |
CN113670834A (zh) * | 2021-07-09 | 2021-11-19 | 贵州茅台酒股份有限公司 | 一种以总酚含量评价高粱的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678938A (zh) * | 2013-12-27 | 2014-03-26 | 北京航空航天大学 | 一种面向空间形状和误差范围的退化模型一致性检验方法 |
CN103823933A (zh) * | 2014-02-26 | 2014-05-28 | 大连理工大学 | 一种金属切削仿真数据的处理方法 |
CN104765945A (zh) * | 2015-02-09 | 2015-07-08 | 广东电网有限责任公司电力科学研究院 | 一种基于数量置信度的设备缺陷率检测方法 |
CN105069296A (zh) * | 2015-08-10 | 2015-11-18 | 国网浙江省电力公司电力科学研究院 | 一种设备阈值确定方法及系统 |
-
2017
- 2017-05-11 CN CN201710330867.7A patent/CN108875308B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678938A (zh) * | 2013-12-27 | 2014-03-26 | 北京航空航天大学 | 一种面向空间形状和误差范围的退化模型一致性检验方法 |
CN103823933A (zh) * | 2014-02-26 | 2014-05-28 | 大连理工大学 | 一种金属切削仿真数据的处理方法 |
CN104765945A (zh) * | 2015-02-09 | 2015-07-08 | 广东电网有限责任公司电力科学研究院 | 一种基于数量置信度的设备缺陷率检测方法 |
CN105069296A (zh) * | 2015-08-10 | 2015-11-18 | 国网浙江省电力公司电力科学研究院 | 一种设备阈值确定方法及系统 |
Non-Patent Citations (2)
Title |
---|
薛毅,陈立萍: "《实用数据分析与MATLAB软件》", 30 September 2015, 北京工业大学出版社 * |
郭鹏: "《数据、模型与决策》", 30 April 2016, 西北工业大学出版社 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111984934A (zh) * | 2020-09-01 | 2020-11-24 | 黑龙江八一农垦大学 | 一种对动物血液生化指标进行优选的方法 |
CN113504261A (zh) * | 2021-07-09 | 2021-10-15 | 贵州茅台酒股份有限公司 | 一种高粱品种的鉴别方法 |
CN113567489A (zh) * | 2021-07-09 | 2021-10-29 | 贵州茅台酒股份有限公司 | 一种以热焓值评价高粱的方法 |
CN113670834A (zh) * | 2021-07-09 | 2021-11-19 | 贵州茅台酒股份有限公司 | 一种以总酚含量评价高粱的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108875308B (zh) | 2021-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108875308A (zh) | 一种判断金钗石斛纯种相近度的方法的建立、判断标准以及判断方法 | |
Smith | Systematics and the fossil record: documenting evolutionary patterns | |
CN107169145A (zh) | 一种基于聚类算法的用户窃电严重等级检测的方法 | |
CN101460976A (zh) | 用于影响人或动物组织的疾病的“体外”诊断方法 | |
CN106228190A (zh) | 针对居民异常用水的决策树判别方法 | |
CN108874732A (zh) | 一种判断兜唇石斛纯种相近度的方法的建立、判断标准以及判断方法 | |
CN110010202A (zh) | 一种判断流苏石斛纯种相近度的方法的建立、判断标准以及判断方法 | |
Vilhar et al. | Genome size and the nucleolar number as estimators of ploidy level in Dactylis glomerata in the Slovenian Alps | |
Chandler et al. | Morphometric and phylogenetic analysis of the Daviesia ulicifolia complex (Fabaceae, Mirbelieae) | |
West et al. | Analyses of digitised leaf images of the Dodonaea viscosa complex in Australia | |
CN108875313A (zh) | 一种判断铁皮石斛纯种相近度的方法的建立、判断标准以及判断方法 | |
Andre et al. | Article PHYTOTAXA | |
CN107577920B (zh) | 利用形态标构建狗牙根核心种质的方法和装置 | |
CN108875309A (zh) | 一种判断美花石斛纯种相近度的方法的建立、判断标准以及判断方法 | |
CN108875304A (zh) | 一种判断叠鞘石斛纯种相近度的方法的建立、判断标准以及判断方法 | |
CN108875101A (zh) | 一种判断齿瓣石斛纯种相近度的方法的建立、判断标准以及判断方法 | |
CN108875303A (zh) | 一种判断霍山石斛纯种相近度的方法的建立、判断标准以及判断方法 | |
CN108874746A (zh) | 一种判断鼓槌石斛纯种相近度的方法的建立、判断标准以及判断方法 | |
Wang et al. | Establishment of core collection for Chinese tea germplasm based on cultivated region grouping and phenotypic data | |
Panahi et al. | Taxonomic implications of micro-morphological features for taxon delimitation within the Quercus libani complex (Fagaceae) in Iran | |
STILES | Industrial taxonomy in the early stone age of Africa | |
Hotton et al. | An ontogenetic model for the Mississippian seed plant family Calamopityaceae | |
Mawson | A Monte Carlo study of distance measures in sampling for spatial distribution in forest stands | |
Danila et al. | Leaf geometric morphometric analyses of Callicarpa and Geunsia (Lamiaceae) in the Malesian region | |
CN108109675A (zh) | 一种实验室质量控制数据管理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |