CN108875101B - 一种齿瓣石斛纯种相近度的判断和检测方法 - Google Patents

一种齿瓣石斛纯种相近度的判断和检测方法 Download PDF

Info

Publication number
CN108875101B
CN108875101B CN201710331336.XA CN201710331336A CN108875101B CN 108875101 B CN108875101 B CN 108875101B CN 201710331336 A CN201710331336 A CN 201710331336A CN 108875101 B CN108875101 B CN 108875101B
Authority
CN
China
Prior art keywords
dendrobium devonianum
sample
stem
confidence interval
normal distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710331336.XA
Other languages
English (en)
Other versions
CN108875101A (zh
Inventor
刘仲健
邹婷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Lanbiao Yicheng Technology Co ltd
Original Assignee
Beijing Lanbiao Yicheng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Lanbiao Yicheng Technology Co ltd filed Critical Beijing Lanbiao Yicheng Technology Co ltd
Priority to CN201710331336.XA priority Critical patent/CN108875101B/zh
Publication of CN108875101A publication Critical patent/CN108875101A/zh
Application granted granted Critical
Publication of CN108875101B publication Critical patent/CN108875101B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Cosmetics (AREA)

Abstract

本发明涉及一种齿瓣石斛纯种相近度的判断和检测方法,所述判断方法的建立过程为,S1:采集与基因测序结论一致的齿瓣石斛样本,测定每个样本的茎第三节间长;S2:对样本茎第三节间长变量进行正态性检验;S3:标准区间:若步骤S2中所得到的结果为服从正态分布,则按照正态分布总体计算公式得出均值的95%置信区间和标准差的95%置信区间;该置信区间便能够作为鉴别未知样本纯净度的标准范围。根据实际采集的数据建立的判断标准为:均值的95%置信区间和标准差的95%置信区间分别为:(28.7833,30.5697)和(4.7839,6.0569),被测齿瓣石斛样本只需要与该区间对比便可。本发明能够通过齿瓣石斛形态学相关的特征来鉴别其品种的纯净度,从而可以简单地判断人工种植的齿瓣石斛其价值大小或是否存在;其鉴别的准确率高,具有重要的现实意义。

Description

一种齿瓣石斛纯种相近度的判断和检测方法
技术领域
本发明涉及医药领域和生物学领域,具体涉及一种齿瓣石斛纯种相近度的判断和检测方法,即齿瓣石斛形态学特征与基因测序结论关联性的建立方法以及被测齿瓣石斛品种纯净度的鉴别方法等。
背景技术
石斛是一种常用的滋补中药,主要为石斛属植物。石斛属植物是兰科植物中最大的一个属,包括齿瓣石斛、流苏石斛、铁皮石斛、金钗石斛、密花石斛、鼓槌石斛等多个品种。在全球范围内,约有1100多种石斛,其中在我国发现的有近百种。石斛的药用历史悠久,早在《神农本草经》中就被列为滋补上品,长久以来,随着时代的发展,石斛一直被人们视为珍贵的中草药,具有十分重要的滋补功效。在临床上,石斛被用于治疗多种疾病,具有增强免疫力、抗氧化、降血糖和抑制癌症等药理功效。包括齿瓣石斛在内的石斛在中医药和保健领域具有极其重要的价值。
然而,由于人为长期无节制采挖及不合理利用石斛,其野生资源日趋减少,人工种植情况逐渐增多,甚至成为了主要供给齿瓣石斛的来源。然而,长期人工种植也为齿瓣石斛带来了以假乱真、以次充好的现象,这是因为,①人工种植改变了野生齿瓣石斛的生长环境;②大量的施用各种类型的肥料、病变、施撒农药、新的疾病种类的出现等等人为的施加在齿瓣石斛上;③而且由于石斛品种较多,其品种间的杂交使得其近缘的种存在性状交叉现象;④其他不可控或不可测的因素,综上原因导致了有些人工种植的齿瓣石斛其药用成分发生了改变,甚至重要的药用成分消失,相应地,这些药用成分发生改变或消失的齿瓣石斛其基因序列也与原始野生的基因序列存在实质性的区别。而一旦这些齿瓣石斛的药用价值减弱或消失,而本领域还在不自知的继续应用,则其后果非常严重,而当人们不自知的情况下导致齿瓣石斛从医药领域消失,则其后果更为严重。
本申请人通过长期、极大工作量的研究发现,某些齿瓣石斛形态学相关特征与其基因测序结论有着非常密切的关系,基因测序结论就是具有传统药用/营养价值的标准齿瓣石斛的基因测序结果,野生的齿瓣石斛基本与基因测序结论一致。也就是说可以通过齿瓣石斛形态学上的特征来判断其与基因测序结论的关联度,关联度或相近度越高其品种的纯净度越高,其越容易保持传统的药用、保健功效,关联度或相近度越低其品种的纯净度越低,即其与基因测序结论的实质性差别越大,其药用功效减小或消失的可能性越大。
基因测序结论反映的是样品的品种,为了鉴别品种的纯净度或基因相近度,在基因测序结论的基础上如何高效地通过对形态学相关特征的测量,即可判断样品品种的纯净度,是我们实际应用时必须考虑的问题。
发明内容
鉴于现有技术中存在的上述问题,本发明的主要目的在于解决现有技术的缺陷,本发明提供一种齿瓣石斛纯种相近度的判断和检测方法。
本发明的目的主要通过以下技术方案来实现。
一种齿瓣石斛纯种相近度的判断方法,所述判断方法包括以下步骤:
S1:标准数据采集:采集与基因测序结论一致的齿瓣石斛样本,样本容量为n,测定每个样本的茎第三节间长,得到茎第三节间长变量的测量数值;
S2:正态性检验:对样本茎第三节间长变量进行正态性检验;
S3:标准区间:若步骤S2中所得到的结果为服从正态分布,则按照正态分布总体计算公式得出均值的95%置信区间和标准差的95%置信区间;
若步骤S2中齿瓣石斛的茎第三节间长变量正态性检验结果为不服从正态分布,则如果样本容量超出30,则根据中心极限定理可知,该样本仍然能够按照正态总体的公式计算其均值的95%置信区间和标准差的95%置信区间;
上述得到的均值的95%置信区间和标准差的95%置信区间便能够作为鉴别未知样本纯净度的标准范围。
进一步地,步骤S1得到茎第三节间长变量的测量数值后,根据该茎第三节间长变量的测量数值计算茎第三节间长变量的基本统计量,所述基本统计量包括平均水平和离散程度,然后根据基本统计量确定数据有无异常值,若有异常值则进行排查,如果属于测量误差或记录失误则删除异常点,如果不是因为误差,那么应该保留此数据。
进一步地,所述平均水平包括均值、中位数和众数中的至少一种,所述离散程度包括标准差、平均绝对离差和变异系数;
所述基本统计量还包括根据茎第三节间长变量的测量数值制作直方图和/或盒形图将数据可视化,使其更方便确定有误异常值。
进一步地,所述正态性检验包括直观图像分析和假设检验中的至少一种。
进一步地,所述正态性检验包括直观图像分析和假设检验。
进一步地,所述直观图像分析的方法为:
①根据正态经验分布函数
Figure GDA0002936474600000031
绘制齿瓣石斛的正态经验分布函数曲线;
根据正态概率密度函数
Figure GDA0002936474600000032
绘制齿瓣石斛的正态概率密度曲线;当μ=0,σ=1时,正态分布就成为标准正态分布:
Figure GDA0002936474600000033
②根据步骤S1中得到的茎第三节间长变量的测量数值,并根据公式为
Figure GDA0002936474600000034
的经验分布函数绘制真实经验分布函数;
根据步骤S1中得到的茎第三节间长变量的测量数值,并根据公式为
Figure GDA0002936474600000035
的概率密度函数绘制真实概率密度函数图;
③将真实经验分布函数图与正态分布的分布函数曲线对比,通过判断曲线偏差程度的大小来初步判定样本数据是否符合正态分布;将真实概率密度函数图与正态分布的概率密度曲线对比,同样根据偏差程度大小及曲线形状一致性程度,来判定样本数据是否是服从正态分布的;
若真实经验分布函数图和正态分布的分布函数图或者真实经验概率密度函数图和正态分布的概率密度函数图的偏差小且形状一致,则待检测齿瓣石斛样本茎第三节间长符合正态分布,若偏差明显很大且形状明显不一致,则待检测齿瓣石斛样本茎第三节间长不符合正态分布。
进一步地,所述假设检验包括JB检验、KS检验和Lilliefors检验中的任意一种。
进一步地,所述假设检验为Lilliefors检验,所述Lilliefors检验统计量T=sup|F*(x)-S(x)|,式中,T为Lilliefors检验统计量,F*(x)是均值为0,标准差为1的正态分布累积分布函数,S(x)是
Figure GDA0002936474600000041
的经验分布函数值,在α的显著性水平下,当检验统计量T超过检验临界值时,拒绝原假设H0;否则,不能拒绝原假设。
一种齿瓣石斛纯种相近度的检测方法,所述检测方法包括以下步骤:
(1)采集与基因测序结论一致的野生齿瓣石斛样本140个,测定每个样本的茎第三节间长,测定结果如下:齿瓣石斛的茎第三节间长变化范围为15.81mm~42.91mm,平均水平在27.92mm~29.84mm,计算后得到的结果为:均值:29.68mm,中位数:29.84mm,众数:27.92mm,第三节间长波动的标准差为5.35mm,平均绝对离差:4.25mm,变异系数:0.18;
(2)直观图像分析正态分布:根据步骤(1)中的数据绘制经验分布函数图和概率密度函数图,将真实经验分布函数图与正态经验分布函数曲线进行对比的结果为:二者的曲线基本一致;将真实概率密度函数图与正态概率密度曲线进行对比的结果为:二者的曲线的形状大致相同;
通过对以上图像的直观分析可知,齿瓣石斛茎第三节间长样本数据很有可能符合正态分布;
(3)Lilliefors检验:原假设为H0:数据服从正态分布;备择假设H1:数据不服从正态分布;通过步骤(1)中的数据得到的检验结果为:
统计量 临界值 P值 显著性水平α 是否接受原假设
0.0427 0.0755 0.5000 0.05
统计量的值为0.0427,小于临界值0.0755;P值等于0.5000,大于显著性水平α,所以接受原假设,则可确认齿瓣石斛样本数据服从正态分布;
(4)按照正态分布总体计算公式计算齿瓣石斛茎第三节间长样本数据的均值95%置信区间和标准差95%置信区间,分别为:
均值 均值的95%置信区间 标准差 标准差的95%置信区间
29.6765 (28.7833,30.5697) 5.3452 (4.7839,6.0569)
上述均值的95%置信区间和标准差的95%置信区间分别为:(28.7833,30.5697)和(4.7839,6.0569),该区间便为判断齿瓣石斛纯种相近度的标准区间。
一种齿瓣石斛纯种相近度的判断方法,所述方法为:
A.采集待检测齿瓣石斛样本茎第三节间长数据,排除样本中由于测量误差或记录误差造成导致的异常值;
B.计算步骤A中的待检测齿瓣石斛样本茎第三节间长数据的均值95%置信区间和标准差95%置信区间,若二者均在上述步骤(4)所得到的标准区间内(即均值的95%置信区间和标准差的95%置信区间分别为:(28.7833,30.5697)和(4.7839,6.0569)),则待检测齿瓣石斛的纯种的相近度高,即待检测齿瓣石斛的纯净度高;若待检测齿瓣石斛的样本茎第三节间长数据的均值95%置信区间和标准差95%置信区间中至少有一个不在上述步骤(4)所得到的标准区间内,则待检测齿瓣石斛的纯种的相近度低,即待检测齿瓣石斛的纯净度低。
本发明至少具有以下有益效果:
本发明的方法将齿瓣石斛的形态学特征与齿瓣石斛基因测序结论建立了连接,通过形态学特征便可获知其基因纯净度。即能够通过齿瓣石斛的茎第三节间长数据来鉴别被测齿瓣石斛的品种纯净度;该方法能够非常简单、简洁的判断人工种植的齿瓣石斛的价值大小,甚至是是否存在价值。
本发明建立了判断纯净度的标准,通过均值的95%置信区间和标准差的95%置信区间能够判断被测齿瓣石斛的纯种相近度,该方法简单且精确,在本申请人大量的研究中获知,本发明方法能够以92%以上的准确率判断齿瓣石斛样品纯净度,具有重要的应用价值。
通过本发明方法可基本判断某一批齿瓣石斛的药用价值,通过形态学特征来反应其本质特征,对整个医药界和植物界具有深远的意义。此外,本发明还可能开辟了一种更新的、更精确的形态学归类理念或思路。
附图说明
图1为本发明实施例所述的直方图的结构示意图;
图2为本发明实施例所述的盒形图的结构示意图;
图3为本发明实施例所述的经验分布函数曲线的结构示意图;
图4为本发明实施例所述的概率密度曲线的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
一种铁皮石斛纯种相近度的判断方法,所述判断方法包括以下步骤:
S1:标准数据采集:采集全部满足齿瓣石斛的形态学描述的齿瓣石斛样本,即采集与基因测序结论一致的齿瓣石斛样本,样本容量为n,测定每个样本的茎第三节间长,得到茎第三节间长变量的测量数值;
S2:数据的确认:根据该茎第三节间长变量的测量数值计算茎第三节间长变量的基本统计量,所述基本统计量包括平均水平和离散程度,所述平均水平包括均值、中位数和众数中的至少一种,所述离散程度包括标准差、平均绝对离差和变异系数;并根据相应地数据制作直方图和盒形图将数据可视化,能够更清楚明了的观察、分析、判断变量分布情况及异常值。然后确定数据有误异常值,若有异常值则进行排查,如果属于测量误差或记录失误则删除异常点,如果不是因为误差,那么应该保留此数据,如果不是因为误差,那么应该保留此数据。
S3:正态性检验:对样本茎第三节间长变量进行正态性检验;所述正态性检验包括直观图像分析和假设检验中的至少一种,优选两种均采用,能够从主观和客观两方面进行检验。
所述直观图像分析的方法为:
①根据正态经验分布函数
Figure GDA0002936474600000071
绘制齿瓣石斛的正态经验分布函数曲线;公式中的x为随机变量,也就是齿瓣石斛的样本观测值;μ为求得的样本观测值的均值;σ为样本观测值的标准差;e为自然常数,其值约为2.71828;该正态分布的函数曲线是已经给定的,通过计算机也可模拟出正态经验分布曲线,不是根据原始数据求得的,绘制该正态经验分布函数曲线是希望将原始数据的分布函数曲线与正态分布的函数曲线进行比较,来检验原始数据是否服从正态分布。
根据正态概率密度函数
Figure GDA0002936474600000072
绘制齿瓣石斛的正态概率密度曲线,当μ=0,σ=1时(均值为0,标准差为1),正态分布就成为标准正态分布:
Figure GDA0002936474600000073
公式中的x为随机变量,也就是石斛的样本观测值;e为自然常数,其值约为2.71828。同样地,正态分布的概率密度函数曲线是已经给定的,通过计算机也可模拟出正态经验分布曲线,不是根据原始数据求得的。绘制该正态概率密度曲线是希望将原始数据的概率密度函数曲线与正态概率密度函数曲线进行比较,来检验原始数据是否服从正态分布。
上述的原始数据即为发明内容的步骤S1中得到的数据。
②根据步骤S1中得到的茎第三节间长变量的测量数值,根据经验分布函数(EDF,Empirical Distribution Functions)绘制真实经验分布函数;
所述经验分布函数公式为:设x1,x2,...,xn是总体的一组样本容量为n的样本测定值,将n个测定值按从小到大的顺序重新排列为
Figure GDA0002936474600000081
对于任意实数x(x即为即对于样本的测定值x1,x2,...,xn),定义函数
Figure GDA0002936474600000082
则称Fn(x)为总体X的经验分布函数。它可以简记为Fn(x)=1/n·*{x1,x2,...,xn},其中*{x1,x2,...,xn}表示x1,x2,...,xn中不大于x的个数。另外一种常见的表示形式为
Figure GDA0002936474600000083
其中,I是示性函数,即
Figure GDA0002936474600000084
因此,求经验分布函数Fn(x)在一点x处的值,只要求出随机变量x的n个观测值x1,x2,...,xn中小于或等于x的个数,再除以观测次数n即可。由此可见,Fn(x)就是在n次重复独立实验中事件{X≤x}出现的频率。
根据步骤S1中得到的茎第三节间长变量的测量数值,并根据概率密度函数绘制真实概率密度函数图;
所述概率密度函数(probability density function,PDF)的公式为:如果对于随机变量X的分布函数F(x),存在非负函数f(x),使得对于任意实数有
Figure GDA0002936474600000085
则称X(x即为即样本的测定值x1,x2,...,xn)为连续型随机变量,其中f(x)称为X的概率密度函数,简称概率密度。随机数据的概率密度函数表示瞬时幅值落在某指定范围内的概率,因此是幅值的函数。它随所取范围的幅值而变化。
概率密度函数具有下列性质:f(x)≥0;
Figure GDA0002936474600000091
由于该概率密度函数是由分布函数而来,因此概率密度函数的图形可直接根据样本测量数据的每一个数据x1,x2,...,xn计算得到的。
③将真实经验分布函数图与正态经验分布函数曲线进行对比,通过判断曲线偏差程度的大小来初步判定样本数据是否符合正态分布;将真实概率密度函数图与正态概率密度曲线进行对比,同样根据偏差程度大小及曲线形状一致性程度,来判定样本数据是否是服从正态分布的;
若真实经验分布函数图和正态分布的分布函数图或者真实经验概率密度函数图和正态分布的概率密度函数图的偏差小且形状一致,则待检测齿瓣石斛样本茎第三节间长符合正态分布,若偏差明显很大且形状明显不一致,则待检测齿瓣石斛样本茎第三节间长不符合正态分布。
通过绘制样本经验分布函数图和样本经验概率密度函数图,并将其与正态分布相应函数图进行对比,直观观察两曲线的差异程度,从而判断样本茎第三节间长变量是否来自正态分布。
假设检验
所述假设检验包括JB检验、KS检验和Lilliefors检验中的任意一种,优选Lilliefors检验。
所述Lilliefors检验统计量T=sup|F*(x)-S(x)|,式中,T为Lilliefors检验统计量,F*(x)是均值为0,标准差为1的正态分布累积分布函数,S(x)是
Figure GDA0002936474600000092
的经验分布函数值,在α的显著性水平下,当检验统计量T超过检验临界值时,拒绝原假设H0;否则,不能拒绝原假设。
通过Lilliefors正态分布假设检验方法能够更客观的判断样本是否来自于一个正态分布总体。
S4:标准区间:若步骤S3中所得到的结果为服从正态分布,则按照正态分布总体计算公式得出均值的95%置信区间和标准差的95%置信区间;
若步骤S3中齿瓣石斛的茎第三节间长变量正态性检验结果为不服从正态分布,考虑到大样本性质,即当样本量比较大时,即一般要求>30,则根据中心极限定理可知,该样本仍然能够按照正态总体的公式计算其均值的95%置信区间和标准差的95%置信区间。
上述得到的均值的95%置信区间和标准差的95%置信区间便能够作为鉴别未知样本纯净度的标准范围。
实施例2
一种齿瓣石斛纯种相近度的检测方法,所述检测方法包括以下步骤:
(1)采集与基因测序结论一致的野生齿瓣石斛样本,样本容量为140个,测定每个样本的茎第三节间长,测定结果如下:齿瓣石斛的茎第三节间长变化范围为15.81mm~42.91mm,平均水平在27.92mm~29.84mm,计算后得到的结果为:均值:29.68mm,中位数:29.84mm,众数:27.92mm,第三节间长波动的标准差为5.35mm,平均绝对离差:4.25mm,变异系数:0.18。
并根据上述数据制作直方图和盒形图将数据可视化,如图1和2所示,所采集的数据无异常值。
(2)鉴别待测定齿瓣石斛样本纯净度的标准区间
根据所测定的140个样本中每一株的茎第三节间长的数量值,并根据经验分布函数绘制真实经验分布函数的曲线,如图3中实线所示;经验分布函数的曲线是一条呈跳跃上升的阶梯形曲线。图中光滑曲线是总体X的理论分布函数的图形。
根据所测定的140个样本中每一株的茎第三节间长的数量值,并根据概率密度函数绘制真实概率密度函数曲线,如图4中实线所示。
根据齿瓣石斛的茎第三节间长的数据,并根据正态经验分布函数的公式绘制齿瓣石斛的正态经验分布函数曲线,如图3所示。
根据齿瓣石斛的茎第三节间长的数据,并根据正态概率密度函数的公式绘制标准齿瓣石斛的正态概率密度函数曲线,如图4所示。
图3的纵坐标表示140次重复独立实验中事件{X≤x}出现的累积概率,纵坐标表示的是样本事件小于或等于某个数值的概率之和,通过累积经验分布函数可以在一个统一的角度下描述变量的概率分布,对于正态分布来说,其累积概率分布函数有一条固定的曲线,那么比较样本数据绘制的累积经验分布函数图与正态累积经验分布函数图的差异,即可直观地看出样本数据是否符合正态分布。图4纵坐标表示概率的密度,密度越大在该范围处的概率也就越大。图3和图4的横坐标均表示随机变量的取值范围,即横坐标为齿瓣石斛茎第三节间长的数量范围,图3的纵坐标表示样本数据小于或等于某个数值的概率累积之和,图4的纵坐标表示概率的密度,密度越大在该范围处的概率也就越大。
根据所绘制的经验分布函数图和概率密度函数图,更直观从主观的角度来观察茎第三节间长样本数据的分布是否服从正态性。经验分布函数曲线可以用来评估分布与数据的拟合度,估计百分位数并比较不同的样本分布。通过图3可以直观地看到齿瓣石斛茎第三节间长数据的分布情况。
具体地,从图3的经验分布函数图中可以看到,真实经验分布函数曲线与正态经验分布函数曲线基本一致;从图4的概率密度函数图中可以看出,真实概率密度曲线的形状与正态概率密度曲线的形状大致相同,都是钟形曲线,且峰度和偏度都基本一致。通过对以上曲线的直观分析基本可以认为,齿瓣石斛茎第三节间长样本数据很有可能符合正态分布。
由于实际生活中,很多数据都满足正态分布的特征,所以我们可先通过上述方法来判断原始数据的真实分布与正态分布比较情况,对于明显符合正态分布的数据,可不采用假设检验。
接下来,通过假设检验的方法判断样本是否确实来自于一个正态分布总体。
采用Lilliefors检验方法来进行验证,原假设为H0:数据服从正态分布;备择假设H1:数据不服从正态分布。
根据所采集的齿瓣石斛样本中的茎第三节间长的数据计算检验统计量和P值,检验结果如表1所示。
表1 Lilliefors检验结果
统计量 临界值 P值 显著性水平α 是否接受原假设
0.0427 0.0755 0.5000 0.05
表1中的临界值并非主观给定的,而是通过检验方法和样本量来确定的。P值的作用就是判断是否应该拒绝原假设,如果P值小于显著性水平(一般取0.05),那么我们就拒绝原假设,即认为数据不服从正态分布。从表1中的检验结果可以看出,统计量的值为0.0427,小于临界值0.0755;P值等于0.5000,大于显著性水平α;所以接受原假设,认为齿瓣石斛茎第三节间长样本数据服从正态分布。
上述P值的计算公式为:当备择假设H1为μ≠μ0时,p=2[1-Φ(Z0)];当备择假设H1为μ>μ0时,p=1-Φ(Z0);当备择假设H1为μ<μ0时,p=Φ(Z0)。其中,Φ(Z0)是正态分布经验函数,要通过查表得到,μ是计算得到的统计量,μ0是该统计量的假设值,
Figure GDA0002936474600000121
该P值可通过软件直接计算得到,如Matlab软件。
根据本实施例采集的待检测齿瓣石斛的茎第三节间长数据计算其置信区间等,具体结果如表2所示。
表2齿瓣石斛茎第三节间长的均值、标准差和置信区间的计算结果
均值 均值的95%置信区间 标准差 标准差的95%置信区间
29.6765 (28.7833,30.5697) 5.3452 (4.7839,6.0569)
均值的95%置信区间和标准差的95%置信区间分别为:(28.7833,30.5697)和(4.7839,6.0569),该区间便为判断齿瓣石斛纯种相近度的标准区间,即该区间便为鉴别齿瓣石斛品种纯净度的标准区间。
实施例3
一种齿瓣石斛纯种相近度的判断方法,所述方法为:
A.采集待检测齿瓣石斛样本茎第三节间长数据,排除样本中由于测量误差或记录误差造成导致的异常值;
B.计算步骤A中的待检测齿瓣石斛样本茎第三节间长数据的均值95%置信区间和标准差95%置信区间,若二者均在实施例2得到的标准区间内,则待检测齿瓣石斛的纯种的相近度高,即待检测齿瓣石斛的纯净度高;若待检测齿瓣石斛的样本茎第三节间长数据的均值95%置信区间和标准差95%置信区间中至少有一个不在实施例2得到的标准区间内,则待检测齿瓣石斛的纯种的相近度低,即待检测齿瓣石斛的纯净度低。
作为进一步优选的实施方式,步骤A中,可按实施例1或实施例2中所述的直方图和盒形图来辅助判断有无异常值。
实施例4
本发明人长期从事齿瓣石斛的形态学特征与品种纯净度的关联的研究,随着研究发现,纯净度低的齿瓣石斛对于某些形态学特征的影响较大,通过大量的野生齿瓣石斛和人工种植的样本的数据和样本的总结、对比、研究等,基本得出了:纯净度高(即纯种的相近度高)的齿瓣石斛其茎第三节间长的经验分布函数曲线、概率密度函数曲线等与正态分布函数曲线的偏差和形状基本一致,其均值95%置信区间和标准差95%置信区间均在实施例2得出的标准区间内,而纯净度较低(即纯种的相近度低)的待测齿瓣石斛样本其均值95%置信区间和标准差95%置信区间至少有一个不在实施例2得出的标准区间内,标准区间即均值的95%置信区间(28.7833,30.5697)和标准差的95%置信区间(4.7839,6.0569)。
此外,在过去的十年中,本发明人在全国多个地方进行了无数次的样本采集、计算、对比等,并多次进行基因序列测定,通过大数据对比发现,本发明中的判断方法的准确率在92%以上,即若待测齿瓣石斛样本的均值95%置信区间和标准差95%置信区间不在标准区间内,则被测齿瓣石斛与真正的齿瓣石斛的基因序列相似度均在95%以下,而在上述标准区间内的被测齿瓣石斛样本,其与真正的齿瓣石斛的基因序列相似度基本均在95%以上。
现随机抽取一些记录在案的被测齿瓣石斛样本,按实施例3的方法对其均值的95%置信区间和标准差的95%置信区间进行计算,如下表3所示。
表3部分案例示意情况表(茎第三节间长)
Figure GDA0002936474600000131
Figure GDA0002936474600000141
在上表中,地点为被测样本所在省,均值95%置信区间和标准差95%置信区间均指被测齿瓣石斛样本所得到的区间,是否在标准区间内为被测齿瓣石斛样本的值是否在本发明所得到的均值95%置信区间;相近度为被测齿瓣石斛样本在区间内的数量与样本容量比值的百分数。
对于上述样本,通过实际测定可知,本申请方法的准确率高,具有重要的应用参考价值。
具体实施时,本发明需要用到的公式如下:
均值:这里的均值为算术平均值(mean),计算方法为
Figure GDA0002936474600000142
其中n为石斛的样本量。
中位数:对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数,如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。
当N为奇数时,m0.5=X(N+1)/2;当N为偶数时,
Figure GDA0002936474600000143
众数:一般用M0表示,就是一组数据中占比例最多的那个数。
标准差:标准差是一组数据平均值分散程度的一种度量,一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。计算公式为
Figure GDA0002936474600000151
其中μ为平均值。因为我们大量接触的是样本,所以普遍计算的是样本标准差,样本标准差可以理解为是对所给总体标准差的一个无偏估计,计算公式为
Figure GDA0002936474600000152
其中
Figure GDA0002936474600000153
为样本均值。
平均绝对离差:通常记为MAD(Mean Absolute Deviation),计算各观察值与平均值的距离总和,然后取其平均数。计算公式为
Figure GDA0002936474600000154
变异系数:当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲的不同,直接使用标准差来进行比较不合适,此时就应当消除测量尺度和量纲的影响,而变异系数(CV,Coefficient of Variation)可以做到这一点,其为原始数据标准差与原始数据平均数的比。变异系数的计算公式为
Figure GDA0002936474600000155
置信区间:前面计算的均值和标准差均为参数的点估计值,是用样本算得的一个值去估计未知参数。但是点估计值仅仅是未知参数的一个近似值,它没有反映出这个近似值的误差范围,范围通常用区间的形式给出。我们希望确定一个区间,能以比较高的可靠程度相信它包含真参数值,这个可靠程度一般称为置信水平,记作1-α,这里α称为显著水平,是一个很小的正数,通常取α=0.025,0.05,0.1等。
当方差σ2已知时,统计量为
Figure GDA0002936474600000156
均值μ的置信区间为:
Figure GDA0002936474600000157
当方差σ2未知时,统计量为
Figure GDA0002936474600000158
均值μ的置信区间为:
Figure GDA0002936474600000159
当均值μ未知时,统计量为
Figure GDA00029364746000001510
标准差σ的置信区间为:
Figure GDA00029364746000001511
Lilliefors检验:
假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。假设检验中的正态分布检验包括三类:JB检验、KS检验、Lilliefors检验,用于检验样本是否来自于一个正态分布总体。
其中,Lilliefors检验是KS检验的一个改进,KS检验是将样本与标准正态分布(均值为0,方差为1)进行对比,而Lilliefors检验的目标不是标准正态,而是具有与样本相同均值和方差的正态分布。它适用于小样本、参数未知的正态分布检验,因此对于石斛样本数据的正态性检验来说,Lilliefors检验是最适合的。
检验原理及方法如下:
①检验假设:H0:数据服从正态分布;H1:数据不服从正态分布。显著性水平α=0.05。
②检验统计量:
T=sup|F*(x)-S(x)|
式中,T为Lilliefors检验统计量,F*(x)是均值为0,标准差为1的正态分布累积分布函数,S(x)是
Figure GDA0002936474600000161
的经验分布函数值。计算S(x)时就需要用到样本容量和原始数据值。
判断原则:在α的显著性水平下,当检验统计量T超过检验临界值时,拒绝原假设H0;否则,不能拒绝原假设。
具体实施时,本申请人通过多年从事基因测序结论与齿瓣石斛形态学特征研究,得到了齿瓣石斛茎第三节间长与其纯净度密切相关,保守而言,其判断的准确率在92%以上。
在本发明中,茎第三节间是指由齿瓣石斛茎的最底端开始计数,第三节与第二节之间便为第三个节间,茎第三节间长即第三个节间的长度。
最后应说明的是:以上所述的各实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或全部技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (5)

1.一种齿瓣石斛纯种相近度的判断方法,其特征在于:所述判断方法包括以下步骤:
S1:标准数据采集:采集与基因测序结论一致的齿瓣石斛样本,样本容量为n,测定每个样本的茎第三节间长,得到茎第三节间长变量的测量数值;
S2:正态性检验:对样本茎第三节间长变量进行正态性检验;检验的方法采用直观图像分析法和假设检验方法,方法说明如下:
①根据正态经验分布函数
Figure FDA0002936474590000011
绘制齿瓣石斛的正态经验分布函数曲线;
根据正态概率密度函数
Figure FDA0002936474590000012
绘制齿瓣石斛的正态概率密度曲线;当μ=0,σ=1时,正态分布就成为标准正态分布:
Figure FDA0002936474590000013
②根据步骤S1中得到的茎第三节间长变量的测量数值,并根据公式为
Figure FDA0002936474590000014
的经验分布函数绘制真实经验分布函数;
根据步骤S1中得到的茎第三节间长变量的测量数值,并根据公式为
Figure FDA0002936474590000015
的概率密度函数绘制真实概率密度函数图;
③将真实经验分布函数图与正态分布的分布函数曲线对比,通过判断曲线偏差程度的大小来初步判定样本数据是否符合正态分布;将真实概率密度函数图与正态分布的概率密度曲线对比,同样根据偏差程度大小及曲线形状一致性程度,来判定样本数据是否是服从正态分布的;
若真实经验分布函数图和正态分布的分布函数图或者真实经验概率密度函数图和正态分布的概率密度函数图的偏差小且形状一致,则待检测齿瓣石斛样本茎第三节间长很可能符合正态分布,若偏差明显很大且形状明显不一致,则待检测齿瓣石斛样本茎第三节间长不符合正态分布;
④可采用JB检验、KS检验和Lilliefors检验中的任意一种假设检验方法,确认样本是否符合正态分布;
S3:标准区间:若步骤S2中所得到的结果为服从正态分布,则按照正态分布总体计算公式得出均值的95%置信区间和标准差的95%置信区间;
若步骤S2中齿瓣石斛的茎第三节间长变量正态性检验结果为不服从正态分布,则如果样本容量超出30,则根据中心极限定理可知,该样本仍然能够按照正态总体的公式计算其均值的95%置信区间和标准差的95%置信区间;
上述得到的均值的95%置信区间和标准差的95%置信区间便能够作为鉴别未知样本纯净度的标准范围。
2.根据权利要求1所述的一种齿瓣石斛纯种相近度的判断方法,其特征在于:步骤S1得到茎第三节间长变量的测量数值后,根据该茎第三节间长变量的测量数值计算茎第三节间长变量的基本统计量,所述基本统计量包括平均水平和离散程度,然后根据基本统计量确定数据有无异常值,若有异常值则进行排查,如果属于测量误差或记录失误则删除异常点,如果不是因为误差,那么应该保留此数据。
3.根据权利要求2所述的一种齿瓣石斛纯种相近度的判断方法,其特征在于:所述平均水平包括均值、中位数和众数中的至少一种,所述离散程度包括标准差、平均绝对离差和变异系数;
所述基本统计量还包括根据茎第三节间长变量的测量数值制作直方图和/或盒形图将数据可视化,使其更方便确定有误异常值。
4.根据权利要求1所述的一种齿瓣石斛纯种相近度的判断方法,其特征在于:所述假设检验为Lilliefors检验,所述Lilliefors检验统计量T=sup|F*(x)-S(x)|,式中,T为Lilliefors检验统计量,F*(x)是均值为0,标准差为1的正态分布累积分布函数,S(x)是
Figure FDA0002936474590000021
的经验分布函数值,在α的显著性水平下,当检验统计量T超过检验临界值时,拒绝原假设H0;否则,不能拒绝原假设。
5.一种齿瓣石斛纯种相近度的检测方法,其特征在于:所述检测方法包括以下步骤:
(1)采集与基因测序结论一致的野生齿瓣石斛样本140个,测定每个样本的茎第三节间长,测定结果如下:齿瓣石斛的茎第三节间长变化范围为15.81mm~42.91mm,平均水平在27.92mm~29.84mm,计算后得到的结果为:均值:29.68mm,中位数:29.84mm,众数:27.92mm,第三节间长波动的标准差为5.35mm,平均绝对离差:4.25mm,变异系数:0.18;
(2)直观图像分析正态分布:根据步骤(1)中的数据绘制经验分布函数图和概率密度函数图,将真实经验分布函数图与正态经验分布函数曲线进行对比的结果为:二者的曲线基本一致;将真实概率密度函数图与正态概率密度曲线进行对比的结果为:二者的曲线形状大致相同;
通过对以上图像的直观分析可知,齿瓣石斛茎第三节间长样本数据很有可能符合正态分布;
(3)Lilliefors检验:原假设为H0:数据服从正态分布;备择假设H1:数据不服从正态分布;通过步骤(1)中的数据得到的检验结果为:
统计量 临界值 P值 显著性水平α 是否接受原假设 0.0427 0.0755 0.5000 0.05
统计量的值为0.0427,小于临界值0.0755;P值等于0.5000,大于显著性水平α,所以接受原假设,则可确认齿瓣石斛样本数据服从正态分布;
(4)按照正态分布总体计算公式计算齿瓣石斛茎第三节间长样本数据的均值95%置信区间和标准差95%置信区间,分别为:
均值 均值的95%置信区间 标准差 标准差的95%置信区间 29.6765 (28.7833,30.5697) 5.3452 (4.7839,6.0569)
上述均值的95%置信区间和标准差的95%置信区间分别为:(28.7833,30.5697)和(4.7839,6.0569),该区间便为判断齿瓣石斛纯种相近度的标准区间;
(5)采集待检测齿瓣石斛样本茎第三节间长数据,排除样本中由于测量误差或记录误差导致的异常值;计算待检测齿瓣石斛样本茎第三节间长数据的均值95%置信区间和标准差95%置信区间,若二者均在标准区间内,则待检测齿瓣石斛的纯种的相近度高,即待检测齿瓣石斛的纯净度高;若待检测齿瓣石斛的样本茎第三节间长数据的均值95%置信区间和标准差95%置信区间中至少有一个不在标准区间内,则待检测齿瓣石斛的纯种的相近度低,即待检测齿瓣石斛的纯净度低。
CN201710331336.XA 2017-05-11 2017-05-11 一种齿瓣石斛纯种相近度的判断和检测方法 Active CN108875101B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710331336.XA CN108875101B (zh) 2017-05-11 2017-05-11 一种齿瓣石斛纯种相近度的判断和检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710331336.XA CN108875101B (zh) 2017-05-11 2017-05-11 一种齿瓣石斛纯种相近度的判断和检测方法

Publications (2)

Publication Number Publication Date
CN108875101A CN108875101A (zh) 2018-11-23
CN108875101B true CN108875101B (zh) 2021-04-09

Family

ID=64319795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710331336.XA Active CN108875101B (zh) 2017-05-11 2017-05-11 一种齿瓣石斛纯种相近度的判断和检测方法

Country Status (1)

Country Link
CN (1) CN108875101B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678938A (zh) * 2013-12-27 2014-03-26 北京航空航天大学 一种面向空间形状和误差范围的退化模型一致性检验方法
CN103823933A (zh) * 2014-02-26 2014-05-28 大连理工大学 一种金属切削仿真数据的处理方法
CN104765945A (zh) * 2015-02-09 2015-07-08 广东电网有限责任公司电力科学研究院 一种基于数量置信度的设备缺陷率检测方法
CN105069296A (zh) * 2015-08-10 2015-11-18 国网浙江省电力公司电力科学研究院 一种设备阈值确定方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678938A (zh) * 2013-12-27 2014-03-26 北京航空航天大学 一种面向空间形状和误差范围的退化模型一致性检验方法
CN103823933A (zh) * 2014-02-26 2014-05-28 大连理工大学 一种金属切削仿真数据的处理方法
CN104765945A (zh) * 2015-02-09 2015-07-08 广东电网有限责任公司电力科学研究院 一种基于数量置信度的设备缺陷率检测方法
CN105069296A (zh) * 2015-08-10 2015-11-18 国网浙江省电力公司电力科学研究院 一种设备阈值确定方法及系统

Also Published As

Publication number Publication date
CN108875101A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
CN108875308B (zh) 一种金钗石斛纯种相近度的判断和检测方法
Mittlböck et al. A simulation study comparing properties of heterogeneity measures in meta‐analyses
Lawson et al. New index for clustering tendency and its application to chemical problems
CN114841986A (zh) 一种基于机器视觉的中药饮片质量监测分析系统
CN110367991B (zh) 一种老年人跌倒风险评估方法
CN108874732B (zh) 一种兜唇石斛纯种相近度的判断和检测方法
CN112435756B (zh) 基于多数据集差异互证的肠道菌群关联疾病风险预测系统
Pérez-Vicente et al. Descriptive statistics
CN117906726B (zh) 一种活牛体尺体重数据异常检测系统
CN110010202B (zh) 一种判断流苏石斛纯种相近度的方法的建立、判断标准以及判断方法
CN108875313B (zh) 一种铁皮石斛纯种相近度的判断和检测方法
CN117649059B (zh) 一种用于数字化育种流程的成果评价优化方法
CN108875101B (zh) 一种齿瓣石斛纯种相近度的判断和检测方法
CN117594223A (zh) 一种人体生物检测数据信息处理方法
CN108874746B (zh) 一种鼓槌石斛纯种相近度的判断和检测方法
CN116864062B (zh) 一种基于互联网的健康体检报告数据分析管理系统
CN110222459B (zh) 一种个体身高分析方法、系统、可读存储介质及终端
CN114944208B (zh) 质量控制方法、装置、电子设备及存储介质
Grilo et al. Comparison of clinical data based on limits of agreement
CN105177130B (zh) 用来评估艾滋病人发生免疫重建炎性综合症的标志物
EP3711058B1 (en) Method for detecting abnormal values of a biomarker
CN108875304A (zh) 一种判断叠鞘石斛纯种相近度的方法的建立、判断标准以及判断方法
CN108875303A (zh) 一种判断霍山石斛纯种相近度的方法的建立、判断标准以及判断方法
CN113179970B (zh) 一种鱼类应激状态判别的方法及系统
CN108875309A (zh) 一种判断美花石斛纯种相近度的方法的建立、判断标准以及判断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant