CN113705656B - 一种异距数列等分筛选方法、系统、存储介质 - Google Patents

一种异距数列等分筛选方法、系统、存储介质 Download PDF

Info

Publication number
CN113705656B
CN113705656B CN202110973945.1A CN202110973945A CN113705656B CN 113705656 B CN113705656 B CN 113705656B CN 202110973945 A CN202110973945 A CN 202110973945A CN 113705656 B CN113705656 B CN 113705656B
Authority
CN
China
Prior art keywords
interval
medical detection
result
candidate
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110973945.1A
Other languages
English (en)
Other versions
CN113705656A (zh
Inventor
孙东丰
张维
周俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xincheng Medical Technology Co ltd
Original Assignee
Shanghai Xincheng Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xincheng Medical Technology Co ltd filed Critical Shanghai Xincheng Medical Technology Co ltd
Priority to CN202110973945.1A priority Critical patent/CN113705656B/zh
Publication of CN113705656A publication Critical patent/CN113705656A/zh
Application granted granted Critical
Publication of CN113705656B publication Critical patent/CN113705656B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation

Abstract

本发明提供了一种异距数列等分筛选方法、系统、存储介质,其方法包括:获取大于预设数目个候选样本;候选样本为带有结果值的样本;将最大结果值和最小结果值组成的极值区间,等距划分得到预设数目个区间间隔相等的候选结果区间;根据结果值将候选样本分类至对应的候选结果区间内;判断是否从所有候选结果区间中分别筛选出一个待定样本,若所有候选结果区间中均存在一个待定样本,将各候选结果区间分别对应的待定样本作为最终的目标样本输出;若任一候选结果区间中不存在一个待定样本,根据所有未找到待定样本的候选结果区间,重新进行区间划分更新得到新的候选结果区间。本发明有效筛选出分布均匀平衡的样本,提高检测的准确率。

Description

一种异距数列等分筛选方法、系统、存储介质
技术领域
本发明涉及数据分析技术领域,尤指一种异距数列等分筛选方法、系统、存储介质。
背景技术
样本(-Sample)是观测或调查的一部分个体,总体是研究对象的全部,从欲研究的全部样本中抽取一部分具有充分代表性的样本的过程叫做抽样。
很多研究对象具有随机性和不确定性的特点,虽然理论上来说,对随机变量进行大量的观测,被研究的随机变量的概率特征一定能显现出来,但是,实际上进行的观测次数是有限甚至少量的。
发明内容
本发明的目的是提供一种异距数列等分筛选方法、系统、存储介质,解决了样本分布极不平衡,导致抽样出来的所有样本进行检测时,无法覆盖整个研究对象的数据范围,进而导致结果值不准确的技术问题。
本发明提供的技术方案如下:
本发明提供一种异距数列等分筛选方法,其特征在于,包括步骤:
获取大于预设数目个候选样本;所述候选样本为带有结果值的样本;
将最大结果值和最小结果值组成的极值区间,进行等距划分得到所述预设数目个区间间隔相等的候选结果区间;
根据结果值将所述候选样本分类至对应的候选结果区间内;
判断是否从所有候选结果区间中分别筛选出一个待定样本;
若所有候选结果区间中均存在一个待定样本,将各候选结果区间分别对应的待定样本作为最终的目标样本输出;
若任一候选结果区间中不存在一个待定样本,根据所有未找到待定样本的候选结果区间,重新进行区间划分更新得到新的候选结果区间,根据结果值将所述候选样本分类至对应新的候选结果区间内,直至从更新后的所有候选结果区间中分别筛选出一个待定样本为止;
其中,所述候选结果区间包括一首位候选结果区间、末位候选结果区间和若干个中间候选结果区间;所述首位候选结果区间的下限值为所有候选样本的结果值的最小值,所述末位候选结果区间的上限值为所有候选样本的结果值的最大值。
本发明还提供一种异距数列等分筛选系统,包括:
获取模块,用于获取大于预设数目个候选样本;所述候选样本为带有结果值的样本;
处理模块,用于将最大结果值和最小结果值组成的极值区间,进行等距划分得到所述预设数目个区间间隔相等的候选结果区间,根据结果值将所述候选样本分类至对应的候选结果区间内,判断是否从所有候选结果区间中分别筛选出一个待定样本;
筛选模块,用于若所有候选结果区间中均存在一个待定样本,将各候选结果区间分别对应的待定样本作为最终的目标样本输出;
所述处理模块,还用于若任一候选结果区间中不存在一个待定样本,根据所有未找到待定样本的候选结果区间,重新进行区间划分更新得到新的候选结果区间,根据结果值将所述候选样本分类至对应新的候选结果区间内,直至从更新后的所有候选结果区间中分别筛选出一个待定样本为止;
其中,所述候选结果区间包括一首位候选结果区间、末位候选结果区间和若干个中间候选结果区间;所述首位候选结果区间的下限值为所有候选样本的结果值的最小值,所述末位候选结果区间的上限值为所有候选样本的结果值的最大值。
本发明还提供一种存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如所述的异距数列等分筛选方法所执行的操作。
通过本发明提供的一种异距数列等分筛选方法、系统、存储介质,能够有效筛选出分布均匀平衡的样本,提高使用均匀平衡的样本进行检测的准确率。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种异距数列等分筛选方法、系统、存储介质的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明一种异距数列等分筛选方法的一个实施例的流程图;
图2是本发明一种异距数列等分筛选方法的第2组候选样本等距划分后绘制的样本分布图;
图3是本发明一种异距数列等分筛选方法的第2组候选样本区间重划分后绘制的样本分布图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所述描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其他特征、整体、步骤、操作、元素、组件和/或集合的存在或添加。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
另外,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
本发明的一个实施例,如图1所示,一种异距数列等分筛选方法,包括:
S1000获取大于预设数目个候选样本;所述候选样本为带有结果值的样本;
具体的,候选样本是指已经使用检测设备进行检测测量得到其结果值的样本,即一个候选样本对应有一个结果值。为了筛选结果值均匀覆盖整个检测项目的整体范围,候选样本的数目需要远远大于预设数目。假设任意一个候选样本的标号为Pj,这个候选样本的结果值为Qj
S2000将最大结果值和最小结果值组成的极值区间,进行等距划分得到所述预设数目个区间间隔相等的候选结果区间;
具体的,由于终端设备(电脑、笔记本、服务器等等)已经录入获取了预设数目即J个候选样本Pj,且候选样本Pj的数量J远远大于预设数目N。因每个候选样本Pj对应有其各自的结果值Qj,因此,终端设备可以将所有候选样本Pj的结果值Qj进行比较,查找出所有候选样本Pj的结果值中的最大值即最大结果值为Vmax,并且查找出所有候选样本Pj的结果值中的最小值即最小结果值为Vmin。终端设备获取到候选样本的极值区间为[Vmin,Vmax],然后,终端设备将获取到的极值区间进行等距划分即等分为N等分,即可得到N个区间间隔相等的候选结果区间Rn。终端设备进行等距划分得到N个候选结果区间的区间间隔S0计算公式如下:
Figure BDA0003226647770000051
其中,S0为等距划分的区间间隔,Vmin为最小结果值,Vmax为最大结果值,N为预设数目。
由于终端设备根据上述计算公式计算得到区间间隔S0,因此,终端设备根据区间间隔S0,极值区间[Vmin,Vmax]能够得到N个区间间隔相等的候选结果区间Rn的区间范围为
Figure BDA0003226647770000052
并且,第n个候选结果区间的下限值与上限值的关系为
Figure BDA0003226647770000053
第n个候选结果区间的下限值与第n-1个候选结果区间的上限值的关系为
Figure BDA0003226647770000054
其中,
Figure BDA0003226647770000055
代表第n个候选结果区间的下限值,
Figure BDA0003226647770000056
代表第n个候选结果区间的上限值,
Figure BDA0003226647770000057
代表第n个候选结果区间的上限值,n代表候选结果区间的标号或者序号,n为正整数,且n≤N。示例性的,按照上述方式进行区间等距划分得到的若干个候选结果区间如下:
第1个候选结果区间R1(亦称为首位候选结果区间)的下限值为
Figure BDA0003226647770000058
第1个候选结果区间R1的上限值为
Figure BDA0003226647770000059
即第1个候选结果区间R1为[Vmin,Vmin+S0)。
第2个候选结果区间R2的下限值为
Figure BDA00032266477700000510
第2个候选结果区间R2的上限值为
Figure BDA0003226647770000061
即第2个候选结果区间R2为[Vmin+S0,Vmin+2S0)。
第3个候选结果区间R3的下限值为
Figure BDA0003226647770000062
第3个候选结果区间R3的上限值为
Figure BDA0003226647770000063
即第3个候选结果区间R3为[Vmin+2S0,Vmin+3S0)。
……
第N个即最后一个候选结果区间RN(亦称为末位候选结果区间)的下限值为
Figure BDA0003226647770000064
第N个候选结果区间RN的上限值为
Figure BDA0003226647770000065
即第N个候选结果区间RN为[Vmin+(n-1)S0,Vmax],此时n=N。
当然,需要注意的是如果终端设备获取到的候选样本的数量不大于N,则返回全部获取到的候选样本对检测设备进行验证或者校准测试。当然,如果终端设备获取到的候选样本的数量不大于N,也可以重新获取更多的候选样本,直到获取到的候选样本数量大于N为止,再采用本发明方法进行目标样本筛选。
S3000根据结果值将所述候选样本分类至对应的候选结果区间内;
S4000判断是否从所有候选结果区间中分别筛选出一个待定样本;
具体的,终端设备通过上述方式划分得到N个区间间隔相等的候选结果区间Rn后,根据各个候选样本对应的结果值,将不同的候选样本分别分类至对应的候选结果区间Rn中。然后,终端设备判断是否能够从对应有不同候选样本的候选结果区间Rn中,分别能够筛选出一个待定样本。
S5000若所有候选结果区间中均存在一个待定样本,将各候选结果区间分别对应的待定样本作为最终的目标样本输出;
S6000若任一候选结果区间中不存在一个待定样本,根据所有未找到待定样本的候选结果区间,重新进行区间划分更新得到新的候选结果区间,根据结果值将所述候选样本分类至对应新的候选结果区间内,直至从更新后的所有候选结果区间中分别筛选出一个待定样本为止;
其中,所述候选结果区间包括一首位候选结果区间、末位候选结果区间和若干个中间候选结果区间;所述首位候选结果区间的下限值为所有候选样本的结果值的最小值,所述末位候选结果区间的上限值为所有候选样本的结果值的最大值。
具体的,如果所有候选结果区间Rn中均存在一个待定样本,终端设备将各候选结果区间Rn分别对应的待定样本作为最终的目标样本输出。但是,如果任意一个候选结果区间Rn中不存在一个待定样本,那么终端设备根据所有未找到待定样本的候选结果区间Rn,重新进行区间划分更新得到新的候选结果区间Rn,然后,终端设备再根据结果值将所述候选样本分类至对应新的候选结果区间Rn内,直至从更新后的所有候选结果区间Rn中分别筛选出一个待定样本为止。
本发明第一种应用场景为:实验室(检验科)会引进体外诊断厂商的分析仪设备(简称:设备/分析仪)完成检测工作,临床医生开设的检验医嘱(化验单)决定了患者血液样本需要做的检测项目(测试项目)。同一个项目通常是在这些分析仪设备(简称:设备/分析仪)上完成检测出具结果、检验医师审核完成后出具报告给到病患或临床医生进行辅助诊断。为了提高检验效率和患者更快拿到检测结果,通常实验室内会配备多台同类型分析仪设备(简称:设备/分析仪)面对高峰期的批量样本,多台分析仪设备(简称:设备/分析仪)使用相同方法(如:发光法、电解法等)的前提下,如何保证做出的结果都是准确可信的,这就需要使用筛选出来的目标样本对每台分析仪设备(简称:设备/分析仪)进行性能验证(仪器间的比对)。上述示例中研究对象就是某实验室(检验科)某批次所有患者血液样本的血细胞浓度就是总体,个体就是某实验室(检验科)某批次每个患者血液样本的血细胞浓度。
本发明第二种应用场景为:某厂商某批次生产的风扇电机质量。在正常生产情况下,风扇电机的质量主要表现为它们的平均寿命是稳定的,然而,由于生产中各种随机因素的影响,各个风扇电机的寿命是不完全相同的。因为受到人力、物力的限制,特别是测试风扇电机这类测试试验具有破坏性,因此,不可能对生产的全部风扇电机一一进行测试,一般只是从整批风扇电机中抽取出一部分风扇电机作为样本来进行测试,然后根据这些风扇电机样本的寿命数据来判断整批风扇电机的平均寿命。众所周知,将研究对象的全体称为总体,把组成总体的各个元素称为个体。上述示例中研究对象就是某厂商某批次生产的所有风扇电机的寿命就是总体,个体就是某厂商某批次生产每一风扇电机的寿命。
本发明适用于很多样本的结果值具有不确定性和随机性特点的应用场景。除了上述两种场景,其他结果值具有不确定性和随机性特点的目标样本筛选场景均在本发明的保护范围之内,在此不再穷举说明。
现有的样本查找方法很容易在特定区间内查找不到目标样本,这种问题是由于候选样本具有随机性和不确定性,导致无法所有样本检测的结果无法覆盖整个检测范围。本发明结合数学里的异距数列特点与等分算法投射到现有候选样本的结果值分布成类正态分布场景中,同时采用递归算法快速重新计算异距数列间距即根据所有未找到待定样本的候选结果区间Rn,重新进行区间划分更新得到新的候选结果区间Rn,从更新后的候选结果区间Rn中重新筛选查找目标样本,这样,不仅仅能够避免了人为查找繁琐和经验判定带来的误差大缺点,而且快速帮助用户高效的查找符合要求的目标样本,使得筛选查找出来的目标样本均匀分布在不同结果区间。根据本发明查找出来的目标样本分布平衡,这样,使用本发明抽样出来的所有目标样本进行检测时,能够覆盖整个研究对象的数据范围,进而提升检测结果的准确率。
本发明的一个实施例,一种异距数列等分筛选方法,包括步骤:
S1000获取大于预设数目个候选样本;所述候选样本为带有结果值的样本;
S2000将最大结果值和最小结果值组成的极值区间,进行等距划分得到所述预设数目个区间间隔相等的候选结果区间;
S3000根据结果值将所述候选样本分类至对应的候选结果区间内;
S4100从所述首位候选结果区间中抽取所述下限值对应的候选样本作为其待定样本,从所述末位候选结果区间中抽取所述上限值对应的候选样本作为其待定样本;
S4200分别根据所述中间候选结果区间的上限值和下限值,进行均值计算得到各中间候选结果区间对应的平均值,并判断是否从各个中间候选结果区间中,筛选出一个结果值与所述平均值相差最小的候选样本作为待定样本;
具体的,本实施例是上述实施例的优化实施例,本实施例中与上述实施例相同的部分参见上述实施例,在此不再一一赘述。终端设备需要在这N个候选结果区间Rn中,分别从每个候选结果区间Rn均查找一个结果值在此区间范围内的待定样本。
由于终端设备通过上述实施例进行等距划分得到N个区间间隔相等的候选结果区间Rn,并且设定首位候选结果区间R1的下限值为所有候选样本中的最小结果值Vmin,末位候选结果区间RN的上限值为所有候选样本中的最大结果值Vmax后。那么,终端设备就将所述首位候选结果区间R1的下限值对应的候选样本作为首位候选结果区间R1的待定样本,并且,将末位候选结果区间RN的上限值对应的候选样本作为末位候选结果区间RN的待定样本。
另外,终端设备还需要从所有中间候选结果区间Rn(n≠1且n≠N)中进行待定样本的筛选,筛选条件是从当前中间候选结果区间Rn(n≠1且n≠N)中筛选出结果值与当前平均值的差值的绝对值为最小的一个候选样本。其中,当前平均值是指当前中间候选结果区间Rn(n≠1且n≠N)的上限值和下限值的均值。需要注意的是,终端设备将下列公式进行计算得到当前中间候选结果区间Rn(n≠1且n≠N)对应的当前平均值。
Figure BDA0003226647770000101
其中,Avgn为当前中间候选结果区间Rn(n≠1且n≠N)对应的当前平均值,
Figure BDA0003226647770000102
为当前中间候选结果区间Rn(n≠1且n≠N)对应的下限值,
Figure BDA0003226647770000103
为当前中间候选结果区间Rn(n≠1且n≠N)对应的上限值。
然后,将当前中间候选结果区间Rn(n≠1且n≠N)对应的当前平均值Avgn,以及属于当前中间候选结果区间Rn中的候选样本Pj对应的结果值Qj代入下列公式进行计算得到结果值与当前平均值的差值绝对值。
Figure BDA0003226647770000104
其中,Pj为候选样本的标号,Qj为候选样本Pj对应的结果值,
Figure BDA0003226647770000105
为当前中间候选结果区间Rn中的候选样本Pj对应的结果值Qj与当前平均值的差值,
Figure BDA0003226647770000106
为差值绝对值。
终端设备计算得到当前中间候选结果区间Rn中各个候选样本Pj对应的结果值与当前平均值的差值绝对值,并比较当前中间候选结果区间Rn对应所有差值绝对值的大小,确定差值绝对值最小也就是结果值与所述平均值相差最小的候选样本作为待定样本。
示例性的,假设存在第1组20个候选样本如下表1所示,表1示出了各个候选样本的结果值,需要从这20个候选样本中筛选出10个目标样本。那么,利用上述理论提出的异距数列等分查找法,输入:最小结果值Vmin=1,最大结果值Vmax=20,参照上述流程查找10个目标样本。
Figure BDA0003226647770000111
表1、20个候选样本的结果值
首先,进行等距划分得到对应的区间间隔为
Figure BDA0003226647770000112
因此,根据最小结果值Vmin=1、最大结果值Vmax=20,以及区间间隔S0=1.9可以得到等距划分的10个候选结果区间Rn分别为:
Figure BDA0003226647770000113
其包括的候选样本为{Q1=1,Q2=1};
Figure BDA0003226647770000114
其包括的候选样本为{Q3=4,Q4=4};
Figure BDA0003226647770000115
其包括的候选样本为{Q5=6};
Figure BDA0003226647770000116
其包括的候选样本为{Q6=7,Q7=7,Q8=8};
Figure BDA0003226647770000117
其包括的候选样本为{Q9=9,Q10=9,Q11=10};
Figure BDA0003226647770000118
其包括的候选样本为{Q12=11,Q13=12};
Figure BDA0003226647770000119
其包括的候选样本为{Q14=13};
Figure BDA00032266477700001110
其包括的候选样本为{Q15=15};
Figure BDA00032266477700001111
其包括的候选样本为{Q16=16.5,Q17=17,Q18=18};
Figure BDA00032266477700001112
其包括的候选样本为{Q19=19,Q20=20}。
因为,终端设备将所述首位候选结果区间R1的下限值即Vmin=1对应的候选样本作为首位候选结果区间R1的待定样本,也就是说,首位候选结果区间
Figure BDA00032266477700001113
的待定样本是结果值为Vmin=1对应的候选样本。另外,终端设备将末位候选结果区间R10的上限值即Vmax=20对应的候选样本作为末位候选结果区间R10的待定样本,也就是说末位候选结果区间
Figure BDA00032266477700001114
的待定样本是结果值为Vmax=20对应的候选样本。此外,计算得到中间候选结果区间
Figure BDA00032266477700001115
对应的当前平均值。
Figure BDA0003226647770000121
因此,根据表1和中间候选结果区间
Figure BDA0003226647770000122
对应的当前平均值Avg2=3.85,可以计算得到当前平均值与当前结果值的差值的绝对值
Figure BDA0003226647770000123
因为中间候选结果区间
Figure BDA0003226647770000124
包括的候选样本的结果值只包括Q3=Q4=4,因此,终端设备从中间候选结果区间
Figure BDA0003226647770000125
中选择的待定样本就是结果值等于4的候选样本P3或者P4
同理,计算得到中间候选结果区间
Figure BDA0003226647770000126
对应的当前平均值。
Figure BDA0003226647770000127
根据表1和中间候选结果区间
Figure BDA0003226647770000128
对应的当前平均值Avg9=17.15,可以计算得到当前平均值与候选样本P16对应的结果值的差值的绝对值
Figure BDA0003226647770000129
并且可以计算得到当前平均值与候选样本P16对应的结果值的差值的绝对值
Figure BDA00032266477700001210
因为
Figure BDA00032266477700001211
因此,终端设备从中间候选结果区间
Figure BDA00032266477700001212
Figure BDA00032266477700001213
中选择的待定样本就是结果值等于17的候选样本P17
S5000若所有候选结果区间中均存在一个待定样本,将各候选结果区间分别对应的待定样本作为最终的目标样本输出;
因此,如上表1所示第1组20个候选样本里的结果值是能够覆盖上述等距划分的每个候选结果区间Rn的区间段的,所以,终端设备参照上述方式直接查找结果值与中间候选结果区间Rn的上限值和下限值均值相差最小的候选样本作为待定样本,这样,终端设备根据表1所示第1组20个候选样本中,筛选出来如下表2中结果值加粗对应的候选样本为最终的10个目标样本:
1 1 4 4 6 7 7 8 9 9 10 11 12 13 15 16.5 17 18 19 20
表2、加粗结果值对应的候选样本为最终的10个目标样本
S6000若任一候选结果区间中不存在一个待定样本,根据所有未找到待定样本的候选结果区间,重新进行区间划分更新得到新的候选结果区间,根据结果值将所述候选样本分类至对应新的候选结果区间内,直至从更新后的所有候选结果区间中分别筛选出一个待定样本为止包括步骤:
S6100若任一候选结果区间中不存在一个待定样本,记录所有未找到待定样本的候选结果区间为空值区间段;
S6200将各空值区间段的上限值与下限值分别进行差值计算,得到各空值区间段对应的空段区间间距;
具体的,终端设备参照上述方式如果从所有候选结果区间Rn中均筛选出一个待定样本,那么就将各候选结果区间Rn分别对应的待定样本作为最终的目标样本输出,即如上述表1、表2示例输出对应的目标样本后结束目标样本筛选程序。因为第一组数列样本即表1所示的候选样本的结果值比较符合类正太分布,如果所有候选样本的结果值不符合类正太分布,容易导致部分候选结果区间Rn中不存在一个待定样本。这样,终端设备未能在全部候选结果区间Rn找到符合的待定样本,则需要记录所有未找到待定样本的空值区间集合,并且能够统计空值区间段的空段总数量。其中,空值区间集合包括若干个空值区间段,空值区间段就是未找到待定样本的候选结果区间Rn。
假设从等距划分得到的区间间隔相等的候选结果区间Rn中,未找到符合的待定样本的区间范围集合即区间重划分更新前的空值区间集合为:
Figure BDA0003226647770000131
其中,
Figure BDA0003226647770000132
为空值区间集合,[L1min,L1max)为第i个空值区间段的区间范围,Limin为第i个空值区间段的下限值,Limax为第i个空值区间段的上限值,m为统计得到的空值区间段的空段总数量,i为正整数且i≤m<N。
如果从等距划分得到的区间间隔相等的候选结果区间Rn中,只要任一候选结果区间Rn中不存在一个待定样本,那么在第k轮区间重划分更新后的空值区间集合会进行更新。
终端设备通过上述方式获取到空值区间集合及其空值区间段后,将第i个空值区间段的上限值Limax与下限值Limin,代入下列公式进行差值计算得到第i个空值区间段对应的空段区间间距。
Si=Limax-Limin
其中,Si为第i个空值区间段的空段区间间距,Limax为第i个空值区间段的上限值,Limin为第i个空值区间段的下限值。
S6300将所述预设数目、最大结果值、最小结果值和所有的空段区间间距,代入下列公式计算得到更新后的区间间隔;
Figure BDA0003226647770000141
其中,所述
Figure BDA0003226647770000142
是第k轮区间重划分更新后的区间间隔,Vmax是所有候选样本中的最大结果值,Vmin是所有候选样本中的最小结果值,Si是第i个空值区间段的空段区间间距,
Figure BDA0003226647770000143
是第k-1轮区间重划分后所有空值区间段的空段间隔和值,m是为统计得到的空值区间段的空段总数量,N是预设数目,N、i、m、k均为正整数,且i≤m。
S6400根据等距划分得到的区间间隔、所述更新后的区间间隔,对所述候选样本的结果值重新进行区间划分得到新的候选结果区间包括步骤:
S6410根据第k轮区间重划分后的当前候选结果区间的下限值、更新后的区间间隔进行和值计算,得到当前候选结果区间的候选和值,判断所述候选和值是否在任一空值区间段之内;
具体的,终端设备确定候选样本的极值区间为[Vmin,Vmax],然后,终端设备参照上述流程计算得到第k轮区间重划分更新后的区间间隔
Figure BDA0003226647770000151
由于更新后的区间间隔为
Figure BDA0003226647770000152
极值区间为[Vmin,Vmax],因此,终端设备根据更新后的区间间隔
Figure BDA0003226647770000153
以及第k轮区间重划分后的当前候选结果区间Rn的下限值,代入下列公式可以进行和值计算得到当前候选结果区间Rn的候选和值。
Figure BDA0003226647770000154
其中,
Figure BDA0003226647770000155
为第k轮区间重划分后的当前候选结果区间Rn对应的候选和值,
Figure BDA0003226647770000156
为第k轮区间重划分后的当前候选结果区间Rn的下限值,
Figure BDA0003226647770000157
为第k轮区间重划分后的区间间隔。
S6420若所述候选和值在第k-1轮区间重划分后的所有空值区间段之外,确定所述候选和值为第k轮区间重划分后当前候选结果区间的上限值;
具体的,判断当前候选结果区间Rn的候选和值是否在第k轮区间重划分后的任一空值区间段之内,若否说明当前候选结果区间Rn的候选和值是在第k-1轮区间重划分后的所有空值区间段之外的,也就是说
Figure BDA0003226647770000158
那么,直接确定当前候选结果区间Rn的候选和值为第k轮区间重划分后当前候选结果区间的上限值。依次类推,可以得到第k轮区间重划分后的所有候选结果区间的上限值,进而得到第k轮区间重划分后所有候选结果区间的区间端点值(即上限值和下限值)。
S6430若所述候选和值在第k-1轮区间重划分后的任一空值区间段之内,根据第k轮区间重划分后的当前候选结果区间的下限值,以及第k轮区间重划分后的空值区间段进行计算,确定计算结果为第k轮区间重划分后当前候选结果区间的上限值包括步骤;
S6431若所述候选和值在第k-1轮区间重划分后的任一空值区间段之内,将所述第k轮区间重划分后的当前候选结果区间的下限值,以及所述第k-1轮区间重划分后所有空值区间段的空段间隔和值,代入下列公式进行计算得到所述计算结果;
具体的,判断候选和值是否在第k轮区间重划分后的任一空值区间段之内,若是说明候选和值在第k-1轮区间重划分后的任一空值区间段之内,即
Figure BDA0003226647770000161
那么代入下列公式计算得到对应的计算结果为:
Figure BDA0003226647770000162
其中,
Figure BDA0003226647770000163
为所述计算结果,
Figure BDA0003226647770000164
为第k轮区间重划分后的当前候选结果区间Rn的下限值,Si为第i个空值区间段的空段区间间距,
Figure BDA0003226647770000165
为第k轮区间重划分后的当前候选结果区间Rn的上限值,
Figure BDA0003226647770000166
为空值区间集合,Limin为第i个空值区间段的下限值。
S6500重复步骤S4000-S6400,直至从更新后的所有候选结果区间中分别筛选出一个待定样本为止。
具体的,终端设备通过上述计算公式计算得到第k轮区间重划分后的当前候选结果区间Rn的候选和值后,判断候选和值是否在目标空值区间段的范围之内,如果候选和值在目标空值区间段的范围之外,那么,确定所述候选和值为第k轮区间重划分后当前候选结果区间Rn的上限值。如果候选和值在目标空值区间段的范围之内,那么,根据第k轮区间重划分后的当前候选结果区间Rn的下限值,以及更新后的区间间隔、所述等距划分得到的区间间隔进行计算,确定计算结果为第k轮区间重划分后当前候选结果区间Rn的上限值。其中,目标空值区间段是与第k轮区间重划分后的当前候选结果区间Rn相邻,并且目标空值区间段的下限值大于第k轮区间重划分后的当前候选结果区间Rn的下限值,需要知道的是目标空值区间段大于等于1。
其中,将第k轮区间重划分后的首位候选结果区间R1的下限值为所述候选样本的结果值的最小值,第k轮区间重划分后的末位候选结果区间RN的上限值为所述候选样本的结果值的最大值。由于第n个新的候选结果区间的下限值与上限值的关系为
Figure BDA0003226647770000171
第n个候选结果区间的下限值与第n-1个候选结果区间的上限值的关系为
Figure BDA0003226647770000172
因此,终端设备按照上述方式进行第1轮区间重划分后得到的若干个新的候选结果区间Rn如下:
第1个新的候选结果区间R1(亦称为新的首位候选结果区间)的下限值为
Figure BDA0003226647770000173
第1个新的候选结果区间R1的候选和值为
Figure BDA0003226647770000174
如果候选和值为
Figure BDA0003226647770000175
那么第1个新的候选结果区间R1
Figure BDA0003226647770000176
如果候选和值为
Figure BDA0003226647770000177
那么再次进行区间重划分,直至候选和值为
Figure BDA0003226647770000178
为止,这样第1个新的候选结果区间R1
Figure BDA0003226647770000179
第2个新的候选结果区间R2的下限值为
Figure BDA00032266477700001710
第2个新的候选结果区间R2的候选和值为
Figure BDA00032266477700001711
如果候选和值为
Figure BDA00032266477700001712
那么第2个新的候选结果区间R2
Figure BDA00032266477700001713
如果候选和值为
Figure BDA00032266477700001714
那么再次进行区间重划分,直至候选和值
Figure BDA00032266477700001715
为止,这样第2个新的候选结果区间R2
Figure BDA00032266477700001716
……
第N个即最后一个新的候选结果区间RN(亦称为新的末位候选结果区间)的下限值为
Figure BDA0003226647770000181
第N个新的候选结果区间RN的候选和值为
Figure BDA0003226647770000182
如果候选和值为
Figure BDA0003226647770000183
那么第N个新的候选结果区间RN
Figure BDA0003226647770000184
如果候选和值为
Figure BDA0003226647770000185
那么再次进行区间重划分,直至候选和值
Figure BDA0003226647770000186
为止,这样第N个新的候选结果区间RN
Figure BDA0003226647770000187
此时n=N。
其中,所述
Figure BDA0003226647770000188
是第k轮区间重划分更新后的区间间隔,Vmax是所有候选样本中的最大结果值,Vmin是所有候选样本中的最小结果值,
Figure BDA0003226647770000189
是第k轮区间重划分前的第i个空值区间段的空段区间间距,
Figure BDA00032266477700001810
是第k-1轮区间重划分后所有空值区间段的空段间隔和值,m是空值区间段的空段总数量,N是预设数目,N、i、m、k均为正整数,且i≤m。
示例性的,在分析仪做的检测项目结果均准确有效的前提下,获取用户指定目标的低值、高值与数量,而且候选样本具有不确定性和随机性。例如,每日进入医院患者人群具有不确定性和随机性,所以患者人群的血液检测结果也具有不确定性和随机性。在现有的数据库中软件程序会根据用户录入参数查找指定目标数量的样本,要求查找出的样本检测项目的结果值应尽可能均匀覆盖当前指定检测项目在分析仪的线性浓度范围。
本发明解决存在区间范围查找不到数据的空白的问题,并且解决每个区间查找的数据无法均匀分布的问题。
本发明的应用场景可以是实验室(检验科)会引进体外诊断厂商的分析仪设备(简称:设备/分析仪)完成检测工作,临床医生开设的检验医嘱(化验单)决定了患者血液样本需要做的检测项目(测试项目);同一个项目通常是在这些检验设备上完成检测出具结果、检验医师审核完成后出具报告给到病患或临床医生进行辅助诊断。为了提高检验效率和患者更快拿到检测结果,通常实验室内会配备多台同类型设备面对高峰期的批量样本,多台设备同方法学(如:发光法、电解法等)如何保证做出的结果都是准确可信的,这就需要每台设备进行性能验证(仪器间的比对)。根据ISO15189要求,如果实验室用两套及以上检测系统检测同一项目时,应有比对数据表明其检测结果的一致性.方法:参照NCCLS的EP9-A2及EP-15A2文件的比对方案,将比对结果进行线性回归分析,评估各项目偏倚是否在可接受范围内。实验室内每台仪器之间取20例,浓度覆盖分析仪的测量范围,包含医学决定水平附近,用实验方法和对比方法分别检测这些样本,同一个项目在每台设备都完成一次重复检测。检测要求为实验室内同一项目同方法学比对,计算回归方程,根据回归方程来估计在医学决定性水平下的系统误差(偏倚%应<1/2TE%)。仪器间的比对方案通常遵循以下流程:
用户在选定方案之前需要输入几个关键的参数:
每个项目的浓度范围(即:最小值、最大值)、查找样本的个数、比对偏差的要求(默认是1/2TEa)。
原有的算法里,用户还得将每个浓度范围根据查找样本的个数拆分成多组子浓度范围,目的是尽可能覆盖项目检测的数据范围并让最好查找到的样本尽可能均匀分布。本发明新的“异距数列等分查找”法是系统提供的推荐的筛选方案,相对于原有的算法,用户不需要再根据每个浓度范围拆分多组子浓度范围。本发明会根据新算法罗列出筛选的样本,本发明推荐方案筛选的结果并不会强制改变用户原有特定的方案筛选的结果,这样保证了软件本发明应用的灵活性。从某种程度来说本发明推荐的方案是根据历史数据结合现有数据分析得到的结果更具有参考性。用户如果想使用本发明推荐分析的样本筛选结果,只需一键应用即可。新的算法仅只在选定方案和筛选样本这两个流程进行应用,后续的流程依然保持不变,不会对后续流程造成任何影响,而这两个流程筛选的推荐方案用户也可以选择不应用则不会产生任何影响。本发明算法应用后带来的收益:相对于原有算法,用户仅需要在选定方案输入3个关键参数:最小值、最大值、查找数量即可。减少维护基础参数数据的工作量,带来了操作的便利性。筛选的样本也是现有数据可查找的样本,避免了原有方案带来了的找不全的缺点。筛选的样本是尽可能在找到的数据中实现间距最大的效果,相对于原有方案更能满足检测要求的样本均匀分布的特点。
示例性的,假设存在第2组61个候选样本如下表1所示,表1示出了各个候选样本的结果值,需要从这61个候选样本中筛选出10个目标样本。那么,利用上述理论提出的异距数列等分查找法,输入:最小结果值Vmin=1,最大结果值Vmax=20,参照上述流程查找10个目标样本。
1.00 1.20 1.40 1.50
2.00 2.40 2.50 2.60 2.70
8.00 8.11 8.11 8.11 8.11 8.50 8.52
9.00 9.02 9.03 9.40 9.41 9.50 9.50 9.50 9.50 9.60
10.00 10.01 10.02 10.03 10.04 10.05 10.06 10.07 10.08 10.09
11.00 11.10 11.15 11.20 11.50 11.60 11.90 11.95 11.96
12.00 12.20 12.40 12.60 12.80
13.00 13.10 13.20 13.30
14.00 14.10 14.20
15.00 15.10
16.10
20.00
表3、61个候选样本的结果值
首先,进行等距划分得到对应的区间间隔为
Figure BDA0003226647770000211
因此,根据最小结果值Vmin=1、最大结果值Vmax=20,以及区间间隔S0=1.9可以得到等距划分的10个候选结果区间Rn分别为:
Figure BDA0003226647770000212
其包括的候选样本为{Q1=1.00,Q2=1.20,Q3=1.40,Q4=1.50,Q5=2.00,Q6=2.10,Q7=2.50,Q8=2.60,Q9=2.70};
Figure BDA0003226647770000213
其不包括候选样本,即其为空值区间段;
Figure BDA0003226647770000214
其不包括候选样本,即其为空值区间段;
Figure BDA0003226647770000215
其包括的候选样本为{Q10=8.00,Q11=8.11,Q12=8.11,Q13=8.11,Q14=8.11,Q15=8.50,Q16=8.52};
Figure BDA0003226647770000216
其包括的候选样本为{Q17=9.00,Q18=9.02,Q19=9.03,Q20=9.40,Q21=9.41,Q22=9.50,Q23=9.50,Q24=9.50,Q25=9.50,Q26=9.60,Q27=10.00,Q28=10.01,Q29=10.02,Q30=10.03,Q31=10.04,Q32=10.05,Q33=10.06,Q34=10.07,Q35=10.08,Q36=10.08,Q37=10.09};
Figure BDA0003226647770000217
其包括的候选样本为{Q38=11.00,Q39=11.10,Q40=11.15,Q41=11.20,Q42=11.50,Q43=11.60,Q44=11.95,Q45=11.96,Q46=12.00,Q47=12.20,Q48=12.40};
Figure BDA0003226647770000218
{Q49=12.60,Q50=12.80,Q51=13.00,Q52=13.10,Q53=13.20,Q54=13.30,Q55=14.00,Q56=14.10,Q57=14.20};
Figure BDA0003226647770000219
{Q58=15.00,Q59=15.10,Q60=16.10};
Figure BDA00032266477700002110
其不包括候选样本,即其为空值区间段;
Figure BDA00032266477700002111
{Q61=20.00}。
因为,第2组61个候选样本1~20范围段的离10附近的值比较集中,也比较符合生物特征,而存在有异常值时才会出现极值情况。假如利用等距划分得到对应的区间间隔S0=1.9作为间隔绘制一个频数分布图则会出现如图2所示的场景,椭圆框标记部分为空值区间段,可以看出其中有3段存在空值区间段,并且
Figure BDA0003226647770000221
因此,终端设备可以获得三个空值区间段分别为
Figure BDA0003226647770000222
Figure BDA0003226647770000223
终端设备计算得到所有空值区间段分别对应的空段间隔和值∑Si=(4.8-2.9)+(6.7-4.8)+(18.1-16.2)=5.7。所以,终端设备需要对第2组61个候选样本重新计算间距即进行区间重划分后得到的新的区间间隔如下公式所示。
Figure BDA0003226647770000224
因此,终端设备根据最小结果值Vmin=1、最大结果值Vmax=20,以及区间间隔S0=1.9和第k=1轮区间重划分更新后的区间间隔,可以得到等距划分的10个候选结果区间Rn分别为:
Figure BDA0003226647770000225
其包括的候选样本为{Q1=1.00,Q2=1.20,Q3=1.40,Q4=1.50,Q5=2.00,Q6=2.10};
Figure BDA0003226647770000226
其包括的候选样本为{Q7=2.50,Q8=2.60,Q9=2.70};
Figure BDA0003226647770000227
其包括的候选样本为{Q10=8.00,Q11=8.11,Q12=8.11,Q13=8.11,Q14=8.11,Q15=8.50,Q16=8.52};
Figure BDA0003226647770000228
其包括的候选样本为{Q17=9.00,Q18=9.02,Q19=9.03,Q20=9.40,Q21=9.41,Q22=9.50,Q23=9.50,Q24=9.50,Q25=9.50,Q26=9.60,Q27=10.00,Q28=10.01,Q29=10.02,Q30=10.03,Q31=10.04,Q32=10.05,Q33=10.06,Q34=10.07,Q35=10.08,Q36=10.08,Q37=10.09};
Figure BDA0003226647770000229
其包括的候选样本为{Q38=11.00,Q39=11.10,Q40=11.15,Q41=11.20};
Figure BDA0003226647770000231
其包括的候选样本为{Q42=11.50,Q43=11.60,Q44=11.95,Q45=11.96,Q46=12.00,Q47=12.20};
Figure BDA0003226647770000232
其包括的候选样本为{Q48=12.80,Q49=12.60,Q50=12.80,Q51=13.00,Q52=13.10,Q53=13.20,Q54=13.30,Q55=14.00,Q56=14.10};
Figure BDA0003226647770000233
其包括的候选样本为{Q57=14.20,Q58=15.00,Q59=15.10};
Figure BDA0003226647770000234
其包括的候选样本为{Q60=16.10};
Figure BDA0003226647770000235
{Q61=20.00}。
需要注意的是,由于
Figure BDA0003226647770000236
因3.66∈空值区间段(2.9,4.8),所以,终端设备需要添加之前的空区间间距
Figure BDA0003226647770000237
因此,
Figure BDA0003226647770000238
由于5.56∈空值区间段(4.8,6.7),所以需要添加之前的空区间间距:
Figure BDA0003226647770000239
所以
Figure BDA00032266477700002310
由于
Figure BDA00032266477700002311
因此终止循环。因此,
Figure BDA00032266477700002312
同理,
Figure BDA00032266477700002313
由于16.77∈(16.2,18.1),所以需要添加之前的空区间间距
Figure BDA00032266477700002314
因此,可以计算得到
Figure BDA00032266477700002315
由于
Figure BDA00032266477700002316
因此终端设备终止循环。
因此,在新的间距区间段分组的情况下,如上表3所示第2组61个候选样本里的结果值是能够覆盖上述等距划分的每个候选结果区间Rn的区间段的,所以,终端设备参照上述方式直接查找结果值与中间候选结果区间Rn的上限值和下限值均值相差最小的候选样本作为待定样本。另外根据图3可以看出重新分布已经不存在空值区间段,那么仍旧使用查找每个区间段离平均值最近的数据即可,即终端设备计算得到中间候选结果区间分别对应的平均值如下表4所示:
Avg1 4.895
Avg2 8.125
Avg3 9.455
Avg4 10.785
Avg5 12.115
Avg6 13.445
Avg7 14.775
Avg8 17.055
表4、中间候选结果区间分别对应的平均值
终端设备根据表4的平均值,可以从表3所示第2组61个候选样本中,筛选出来如下表5中结果值加粗对应的候选样本为最终的10个目标样本:
1.00 1.20 1.40 1.50
2.00 2.40 2.50 2.60 2.70
8.00 8.11 8.11 8.11 8.11 8.50 8.52
9.00 9.02 9.03 9.40 9.41 9.50 9.50 9.50 9.50 9.60
10.00 10.01 10.02 10.03 10.04 10.05 10.06 10.07 10.08 10.09
11.00 11.10 11.15 11.20 11.50 11.60 11.90 11.95 11.96
12.00 12.20 12.40 12.60 12.80
13.00 13.10 13.20 13.30
14.00 14.10 14.20
15.00 15.10
16.10
20.00
表5、加粗结果值对应的候选样本为最终的10个目标样本
本发明的一个实施例,一种异距数列等分筛选系统包括:
获取模块,用于获取大于预设数目个候选样本;所述候选样本为带有结果值的样本;
处理模块,用于将最大结果值和最小结果值组成的极值区间,进行等距划分得到所述预设数目个区间间隔相等的候选结果区间,根据结果值将所述候选样本分类至对应的候选结果区间内,判断是否从所有候选结果区间中分别筛选出一个待定样本;
筛选模块,用于若所有候选结果区间中均存在一个待定样本,将各候选结果区间分别对应的待定样本作为最终的目标样本输出;
所述处理模块,还用于若任一候选结果区间中不存在一个待定样本,根据所有未找到待定样本的候选结果区间,重新进行区间划分更新得到新的候选结果区间,根据结果值将所述候选样本分类至对应新的候选结果区间内,直至从更新后的所有候选结果区间中分别筛选出一个待定样本为止;
其中,所述候选结果区间包括一首位候选结果区间、末位候选结果区间和若干个中间候选结果区间;所述首位候选结果区间的下限值为所有候选样本的结果值的最小值,所述末位候选结果区间的上限值为所有候选样本的结果值的最大值。
进一步的,所述处理模块包括:
统计子模块,用于记录所有未找到待定样本的候选结果区间为空值区间段;
计算子模块,用于将各空值区间段的上限值与下限值分别进行差值计算,得到各空值区间段对应的空段区间间距;
间隔更新子模块,用于将所述预设数目、最大结果值、最小结果值和所有的空段区间间距,代入下列公式计算得到更新后的区间间隔;
Figure BDA0003226647770000261
区间更新子模块,用于根据等距划分得到的区间间隔、所述更新后的区间间隔,对所述候选样本的结果值重新进行区间划分得到新的候选结果区间;
其中,所述
Figure BDA0003226647770000262
是第k轮区间重划分更新后的区间间隔,Vmax是所有候选样本中的最大结果值,Vmin是所有候选样本中的最小结果值,
Figure BDA0003226647770000263
是第k轮区间重划分前的第i个空值区间段的空段区间间距,
Figure BDA0003226647770000264
是第k-1轮区间重划分后所有空值区间段的空段间隔和值,m是空值区间段的空段总数量,N是预设数目,N、i、m、k均为正整数,且i≤m。
进一步的,所述区间更新子模块包括:
判断单元,用于根据第k轮区间重划分后的当前候选结果区间的下限值、更新后的区间间隔进行和值计算,得到当前候选结果区间的候选和值,判断所述候选和值是否在任一空值区间段之内;
区间更新单元,用于若所述候选和值在第k-1轮区间重划分后的所有空值区间段之外,确定所述候选和值为第k轮区间重划分后当前候选结果区间的上限值;
区间更新单元,还用于若所述候选和值在第k-1轮区间重划分后的任一空值区间段之内,根据第k轮区间重划分后的当前候选结果区间的下限值,以及第k轮区间重划分后的空值区间段进行计算,确定计算结果为第k轮区间重划分后当前候选结果区间的上限值;
其中,将第k轮区间重划分后的首位候选结果区间的下限值为所述候选样本的结果值的最小值,第k轮区间重划分后的末位候选结果区间的上限值为所述候选样本的结果值的最大值。
进一步的,所述区间更新单元包括:
统计子单元,用于将所述第k轮区间重划分后的当前候选结果区间的下限值,以及所述第k-1轮区间重划分后所有空值区间段的空段间隔和值,代入下列公式进行计算得到所述计算结果;
计算子单元,用于将第k轮区间重划分后的当前候选结果区间的下限值、所述等距划分得到的区间间隔和所述空段数目,代入下列公式进行计算得到所述计算结果;
Figure BDA0003226647770000271
其中,W为计算结果,
Figure BDA0003226647770000272
为第k轮区间重划分后的当前候选结果区间的下限值,S0为所述等距划分得到的区间间隔,Mk=1为第一轮区间重划分后与所述当前候选结果区间相邻的空值区间段的空段数目,
Figure BDA0003226647770000273
为第一轮区间重划分更新后的区间间隔,Mk为第k轮区间重划分后与所述前候选结果区间相邻的空值区间段的空段数目,
Figure BDA0003226647770000274
为第k轮区间重划分更新后的区间间隔。
进一步的,所述处理模块包括:
样本抽取子模块,用于从所述首位候选结果区间中抽取所述下限值对应的候选样本作为其待定样本,从所述末位候选结果区间中抽取所述上限值对应的候选样本作为其待定样本;
判断抽取模块,用于分别根据所述中间候选结果区间的上限值和下限值,进行均值计算得到各中间候选结果区间对应的平均值,并判断是否从各个中间候选结果区间中,筛选出一个结果值与所述平均值相差最小的候选样本作为待定样本。
具体的,本实施例是上述方法实施例对应的系统实施例,具体效果参见上述方法实施例,在此不再一一赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的程序模块完成,即将所述装置的内部结构划分成不同的程序单元或模块,以完成以上描述的全部或者部分功能。实施例中的各程序模块可以集成在一个处理单元中,也可是各个单元单独物理存在,也可以两个或两个以上单元集成在一个处理单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序单元的形式实现。另外,各程序模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
本发明的一个实施例,一种存储介质,存储介质中存储有至少一条指令,指令由处理器加载并执行以实现上述异距数列等分筛选方法对应实施例所执行的操作。例如,存储介质可以是只读内存(ROM)、随机存取存储器(RAM)、只读光盘(CD-ROM)、磁带、软盘和光数据存储设备等。
它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述或记载的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其他的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性、机械或其他的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可能集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序发送指令给相关的硬件完成,所述的计算机程序可存储于一存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述存储介质可以包括:能够携带所述计算机程序的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如:在某些司法管辖区,根据立法和专利实践,计算机可读的存储介质不包括电载波信号和电信信号。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (11)

1.一种异距数列等分筛选方法,其特征在于,包括步骤:
获取大于预设数目个医学检测样本;所述医学检测样本为带有医学检测结果值的样本,所述医学检测样本包括血液检测样本;
将最大医学检测结果值和最小医学检测结果值组成的极值区间,进行等距划分得到所述预设数目个区间间隔相等的医学检测候选结果区间;
根据所述医学检测结果值将所述医学检测样本分类至对应的所述医学检测候选结果区间内;
判断是否从各个所述医学检测候选结果区间中均分别筛选出一个待定医学检测候选结果样本;
若各个所述医学检测候选结果区间中均存在一个所述待定医学检测候选结果样本,将各个所述医学检测候选结果区间分别对应的所述待定医学检测候选结果样本作为最终的目标样本输出;
若任一所述医学检测候选结果区间中不存在一个所述待定医学检测候选结果样本,根据所有未找到所述待定医学检测候选结果样本的所述医学检测候选结果区间,重新进行区间划分更新所述医学检测候选结果区间,根据所述医学检测结果值将所述医学检测样本分类至更新后对应的所述医学检测候选结果区间内,直至所有所述医学检测候选结果区间中均分别筛选出一个所述待定医学检测候选结果样本为止;
其中,所述医学检测候选结果区间包括一首位医学检测候选结果区间、末位医学检测候选结果区间和若干个中间医学检测候选结果区间;所述首位医学检测候选结果区间的下限值为所有医学检测样本的医学检测结果值的最小值,所述末位医学检测候选结果区间的上限值为所有医学检测样本的医学检测结果值的最大值。
2.根据权利要求1所述的异距数列等分筛选方法,其特征在于,所述的根据所有未找到所述待定医学检测候选结果样本的所述医学检测候选结果区间,重新进行区间划分更新所述医学检测候选结果区间,具体包括步骤:
记录所有未找到所述待定医学检测候选结果样本的所述医学检测候选结果区间为空值区间段;
将各所述空值区间段的上限值与下限值分别进行差值计算,得到各所述空值区间段对应的空段区间间距;
将所述预设数目、所述最大医学检测结果值、所述最小医学检测结果值和各个所述空段区间间距,代入下列公式计算得到更新后的医学检测候选结果区间间隔;
Figure FDA0003757073870000021
其中,所述
Figure FDA0003757073870000022
是第k轮区间重新进行区间划分更新后的所述医学检测候选结果区间间隔,Vmax是所有所述医学检测样本中的所述最大医学检测结果值,Vmin是所有所述医学检测样本中的所述最小医学检测结果值,Si是第i个所述空值区间段对应的所述空段区间间距,
Figure FDA0003757073870000023
是第k-1轮区间重新进行区间划分后所有所述空值区间段的空段区间间距和值,m是为统计得到的所述空值区间段的空段区间总数量,N是预设数目,N、i、m、k均为正整数,且i≤m。
3.根据权利要求2所述的异距数列等分筛选方法,其特征在于,所述根据等距划分得到的各个所述医学检测候选结果区间的区间间隔、所述更新后各个所述医学检测候选结果区间的区间间隔,对所述医学检测样本的所述医学检测结果值重新进行区间划分,更新所述医学检测候选结果区间,具体包括步骤:
根据第k轮区间重新进行区间划分后的当前医学检测候选结果区间的下限值、更新后的所述医学检测候选结果区间间隔进行和值计算,得到所述当前医学检测候选结果区间的候选和值,判断所述候选和值是否在任一所述空值区间段之内;
若所述候选和值在第k-1轮区间重新进行区间划分后的所有所述空值区间段之外,确定所述候选和值为第k轮区间重新进行区间划分后所述当前医学检测候选结果区间的上限值;
若所述候选和值在第k-1轮区间重新进行区间划分后的任一所述空值区间段之内,根据第k轮区间重新进行区间划分后的所述当前医学检测候选结果区间的下限值,以及第k轮区间重新进行区间划分后的所述空值区间段进行计算,确定计算结果为第k轮区间重新进行区间划分后所述当前医学检测候选结果区间的上限值;
其中,将第k轮区间重新进行区间划分后的所述首位医学检测候选结果区间的下限值为所述医学检测样本的所述医学检测结果值的最小值,第k轮区间重新进行区间划分后的所述末位医学检测候选结果区间的上限值为所述医学检测样本的所述医学检测结果值的最大值。
4.根据权利要求3所述的异距数列等分筛选方法,其特征在于,所述的根据第k轮区间重新进行区间划分后的所述当前医学检测候选结果区间的下限值,以及第k轮区间重新进行区间划分后的所述空值区间段进行计算,具体包括步骤:
若所述候选和值在第k-1轮区间重新进行区间划分后的任一所述空值区间段之内,将所述第k轮区间重新进行区间划分后的所述当前医学检测候选结果区间的下限值,以及所述第k-1轮区间重新进行区间划分后所有所述空值区间段的空段间隔和值,代入下列公式进行计算得到所述计算结果;
Figure FDA0003757073870000031
其中,
Figure FDA0003757073870000041
为所述计算结果,
Figure FDA0003757073870000042
为第k轮区间重新进行区间划分后的所述当前医学检测候选结果区间Rn的下限值,Si为第i个所述空值区间段的所述空段区间间距,
Figure FDA0003757073870000043
为第k轮区间重新进行区间划分后的所述当前医学检测候选结果区间Rn的上限值,
Figure FDA0003757073870000044
为空值区间集合,Limin为第i个所述空值区间段的下限值。
5.根据权利要求1-4任一项所述的异距数列等分筛选方法,其特征在于,所述判断是否从所有医学检测候选结果区间中均分别筛选出一个待定医学检测候选结果样本包括步骤:
从所述首位医学检测候选结果区间中抽取所述下限值对应的所述医学检测样本作为其所述待定医学检测候选结果样本,从所述末位医学检测候选结果区间中抽取所述上限值对应的所述医学检测样本作为其所述待定医学检测候选结果样本;
分别根据所述中间医学检测候选结果区间的上限值和下限值,进行均值计算得到各个所述中间医学检测候选结果区间对应的平均值,并判断是否从各个所述中间医学检测候选结果区间中,筛选出一个所述医学检测结果值与所述平均值相差最小的所述医学检测样本作为所述待定医学检测候选结果样本。
6.一种异距数列等分筛选系统,其特征在于,包括:
获取模块,用于获取大于预设数目个医学检测样本;所述医学检测样本为带有医学检测结果值的样本,所述医学检测样本包括血液检测样本;
处理模块,用于将最大医学检测结果值和最小医学检测结果值组成的极值区间,进行等距划分得到所述预设数目个区间间隔相等的医学检测候选结果区间,根据所述医学检测结果值将所述医学检测样本分类至对应的所述医学检测候选结果区间内,判断是否从各个所述医学检测候选结果区间中均分别筛选出一个待定医学检测候选结果样本;
筛选模块,用于若各个所述医学检测候选结果区间中均存在一个所述待定医学检测候选结果样本,将各个所述医学检测候选结果区间分别对应的所述待定医学检测候选结果样本作为最终的目标样本输出;
所述处理模块,还用于若任一所述医学检测候选结果区间中不存在一个所述待定医学检测候选结果样本,根据所有未找到所述待定医学检测候选结果样本的所述医学检测候选结果区间,重新进行区间划分更新所述医学检测候选结果区间,根据所述医学检测结果值将所述医学检测样本分类至更新后对应的所述医学检测候选结果区间内,直至所有所述医学检测候选结果区间中均分别筛选出一个所述待定医学检测候选结果样本为止;
其中,所述医学检测候选结果区间包括一首位医学检测候选结果区间、末位医学检测候选结果区间和若干个中间医学检测候选结果区间;所述首位医学检测候选结果区间的下限值为所有医学检测样本的医学检测结果值的最小值,所述末位医学检测候选结果区间的上限值为所有医学检测样本的医学检测结果值的最大值。
7.根据权利要求6所述的异距数列等分筛选系统,其特征在于,所述处理模块包括:
统计子模块,用于记录所有未找到所述待定医学检测候选结果样本的所述医学检测候选结果区间为空值区间段;
计算子模块,用于将各所述空值区间段的上限值与下限值分别进行差值计算,得到各所述空值区间段对应的空段区间间距;
间隔更新子模块,用于将所述预设数目、所述最大医学检测结果值、所述最小医学检测结果值和所有的空段区间间距,代入下列公式计算得到更新后的医学检测候选结果区间间隔;
Figure FDA0003757073870000051
区间更新子模块,用于根据等距划分得到的所述医学检测候选结果区间间隔、所述更新后的所述医学检测候选结果区间间隔,对所述医学检测样本的所述医学检测结果值重新进行区间划分,更新所述医学检测候选结果区间;
其中,所述
Figure FDA0003757073870000061
是第k轮区间重新进行区间划分更新后的所述医学检测候选结果区间间隔,Vmax是所有所述医学检测样本中的所述最大医学检测结果值,Vmin是所有所述医学检测样本中的所述最小医学检测结果值,Si是第i个所述空值区间段对应的所述空段区间间距,
Figure FDA0003757073870000062
是第k-1轮区间重新进行区间划分后所有所述空值区间段的空段区间间距和值,m是为统计得到的空值区间段的空段区间总数量,N是预设数目,N、i、m、k均为正整数,且i≤m。
8.根据权利要求7所述的异距数列等分筛选系统,其特征在于,所述区间更新子模块包括:
判断单元,用于根据第k轮区间重新进行区间划分后的当前医学检测候选结果区间的下限值、更新后的所述医学检测候选结果区间间隔进行和值计算,得到所述当前医学检测候选结果区间的候选和值,判断所述候选和值是否在任一所述空值区间段之内;
区间更新单元,用于若所述候选和值在第k-1轮区间重新进行区间划分后的所有所述空值区间段之外,确定所述候选和值为第k轮区间重新进行区间划分后所述当前医学检测候选结果区间的上限值;
区间更新单元,还用于若所述候选和值在第k-1轮区间重新进行区间划分后的任一所述空值区间段之内,根据第k轮区间重新进行区间划分后的所述当前医学检测候选结果区间的下限值,以及第k轮区间重新进行区间划分后的所述空值区间段进行计算,确定计算结果为第k轮区间重新进行区间划分后所述当前医学检测候选结果区间的上限值;
其中,将第k轮区间重新进行区间划分后的所述首位医学检测候选结果区间的下限值为所述医学检测样本的所述医学检测结果值的最小值,第k轮区间重新进行区间划分后的所述末位医学检测候选结果区间的上限值为所述医学检测样本的所述医学检测结果值的最大值。
9.根据权利要求8所述的异距数列等分筛选系统,其特征在于,所述区间更新单元包括:
计算子单元,用于将所述第k轮区间重新进行区间划分后的所述当前医学检测候选结果区间的下限值,以及所述第k-1轮区间重新进行区间划分后所有空值区间段的空段间隔和值,代入下列公式进行计算得到所述计算结果;
Figure FDA0003757073870000071
其中,
Figure FDA0003757073870000072
为所述计算结果,
Figure FDA0003757073870000073
为第k轮区间重新进行区间划分后的所述当前医学检测候选结果区间Rn的下限值,Si为第i个所述空值区间段的所述空段区间间距,
Figure FDA0003757073870000074
为第k轮区间重新进行区间划分后的所述当前医学检测候选结果区间Rn的上限值,
Figure FDA0003757073870000075
为空值区间集合,Limin为第i个所述空值区间段的下限值。
10.根据权利要求6-9任一项所述的异距数列等分筛选系统,其特征在于,所述处理模块包括:
样本抽取子模块,用于从所述首位医学检测候选结果区间中抽取所述下限值对应的所述医学检测样本作为其所述待定医学检测候选结果样本,从所述末位医学检测候选结果区间中抽取所述上限值对应的所述医学检测样本作为其所述待定医学检测候选结果样本;
判断抽取模块,用于分别根据所述中间医学检测候选结果区间的上限值和下限值,进行均值计算得到各个所述中间医学检测候选结果区间对应的平均值,并判断是否从各个所述中间医学检测候选结果区间中,筛选出一个所述医学检测结果值与所述平均值相差最小的医学检测样本作为所述待定医学检测候选结果样本。
11.一种存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如权利要求1至权利要求5任一项所述的异距数列等分筛选方法所执行的操作。
CN202110973945.1A 2021-08-24 2021-08-24 一种异距数列等分筛选方法、系统、存储介质 Active CN113705656B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110973945.1A CN113705656B (zh) 2021-08-24 2021-08-24 一种异距数列等分筛选方法、系统、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110973945.1A CN113705656B (zh) 2021-08-24 2021-08-24 一种异距数列等分筛选方法、系统、存储介质

Publications (2)

Publication Number Publication Date
CN113705656A CN113705656A (zh) 2021-11-26
CN113705656B true CN113705656B (zh) 2022-09-20

Family

ID=78654356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110973945.1A Active CN113705656B (zh) 2021-08-24 2021-08-24 一种异距数列等分筛选方法、系统、存储介质

Country Status (1)

Country Link
CN (1) CN113705656B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881724B (zh) * 2023-09-07 2023-12-19 中国电子科技集团公司第十五研究所 一种样本标注方法、装置及设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216922B (zh) * 2013-06-05 2018-11-06 腾讯科技(深圳)有限公司 数据筛选的方法及装置
CN103345520B (zh) * 2013-07-16 2016-09-21 五八同城信息技术有限公司 根据实时数据分布动态划分参数筛选区间的方法

Also Published As

Publication number Publication date
CN113705656A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
Tang et al. ANPELA: analysis and performance assessment of the label-free quantification workflow for metaproteomic studies
CN110352389B (zh) 信息处理装置及信息处理方法
US20020049570A1 (en) Methods for normalization of experimental data
CN113705656B (zh) 一种异距数列等分筛选方法、系统、存储介质
CN114707608B (zh) 医疗质控数据处理方法、装置、设备、介质及程序产品
CN1783092A (zh) 数据分析装置和数据分析方法
US11435370B2 (en) Data analying device and program for data analysis
KR102345994B1 (ko) Ngs 분석에서의 질병 관련 유전자 선별 방법 및 장치
US9400868B2 (en) Method computer program and system to analyze mass spectra
CN110140176B (zh) 用于检测最优候选化合物的计算机装置及其方法
CN110968835A (zh) 一种近似分位数计算方法及装置
CN114944208B (zh) 质量控制方法、装置、电子设备及存储介质
CN113130050B (zh) 一种医学信息显示方法及显示系统
CN108846407A (zh) 基于独立成分高序不确定脑网络的磁共振影像分类方法
CN107077535B (zh) 用于在基因材料样本中检测微小变异体的方法和系统
JP2004219140A (ja) 質量スペクトルの解析方法およびコンピュータプログラム
CN107016354B (zh) 铝电解阳极电流序列的特征模式提取方法及其系统
JP2007240326A (ja) 波形解析装置
CN115905273B (zh) 一种数仓表中的数据检测方法、电子设备及存储介质
Saghir et al. Clustering of time-evolving scaling dynamics in a complex signal
CN117166996B (zh) 地质参数门槛值的确定方法、装置、设备及存储介质
CN117437634B (zh) 一种尿沉渣检测影像有形部分的识别分割方法
CN107608941B (zh) 一种扫描式红外地球敏感器工作状态数据一致性比对方法
CN115188481A (zh) 基于多维向量匹配的中毒物质筛查方法、装置、设备及存储介质
Beniugă et al. Virtual instrumentation system for remote reading of digital and analogical equipment display

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant