CN102289601B - 一种生物样本完备性的评价方法 - Google Patents
一种生物样本完备性的评价方法 Download PDFInfo
- Publication number
- CN102289601B CN102289601B CN 201110247951 CN201110247951A CN102289601B CN 102289601 B CN102289601 B CN 102289601B CN 201110247951 CN201110247951 CN 201110247951 CN 201110247951 A CN201110247951 A CN 201110247951A CN 102289601 B CN102289601 B CN 102289601B
- Authority
- CN
- China
- Prior art keywords
- case
- sample
- scoring
- field
- completeness
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title abstract description 11
- 239000012472 biological sample Substances 0.000 title abstract description 6
- 239000000523 sample Substances 0.000 claims abstract description 147
- 239000000463 material Substances 0.000 claims abstract description 14
- 238000012887 quadratic function Methods 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 8
- 230000008676 import Effects 0.000 claims description 5
- 238000011160 research Methods 0.000 description 15
- 210000001519 tissue Anatomy 0.000 description 15
- 201000010099 disease Diseases 0.000 description 12
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 12
- 210000002966 serum Anatomy 0.000 description 12
- 206010028980 Neoplasm Diseases 0.000 description 9
- 230000008859 change Effects 0.000 description 7
- 108090000623 proteins and genes Proteins 0.000 description 7
- 210000004369 blood Anatomy 0.000 description 6
- 239000008280 blood Substances 0.000 description 6
- 230000001575 pathological effect Effects 0.000 description 5
- 238000004321 preservation Methods 0.000 description 5
- 102000004169 proteins and genes Human genes 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 201000011510 cancer Diseases 0.000 description 3
- 230000007170 pathology Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 210000001124 body fluid Anatomy 0.000 description 2
- 239000010839 body fluid Substances 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 210000002700 urine Anatomy 0.000 description 2
- 208000019838 Blood disease Diseases 0.000 description 1
- 206010020772 Hypertension Diseases 0.000 description 1
- 206010027476 Metastases Diseases 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 1
- 208000026106 cerebrovascular disease Diseases 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 208000014951 hematologic disease Diseases 0.000 description 1
- 208000018706 hematopoietic system disease Diseases 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000009401 metastasis Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 239000012188 paraffin wax Substances 0.000 description 1
- 210000005259 peripheral blood Anatomy 0.000 description 1
- 239000011886 peripheral blood Substances 0.000 description 1
- 230000002062 proliferating effect Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
- 239000001993 wax Substances 0.000 description 1
Images
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明提供一种生物样本完备性的评价方法,通过在储存子系统中保存样本实物和样本资料,在评分子系统中计算每个病例的实物完备性和资料完备性,以分别反映实物库存和信息库存,并将两者以二次函数的关系合并作为生物样本整体完备性的量化评价指标,最后在检索子系统中为用户提供按完备性排序的样本列表。本发明优先使用符合用户需求的低价值病例的样本,保留超出用户需求的高完备性的样本,提高了生物样本和样本库的利用效率。本发明的评分字段,其分值由该字段在病例中出现的次数计算而来,天然反映了相应病例的稀缺和重要程度,并且随着新样本的入库和资料的更新,评分指标的分值也随之更新,具备了客观、量化、全面、动态更新的优点。
Description
技术领域
本发明属于生物样本保存和利用技术领域,具体涉及一种在生物样本库系统中对样本完备性进行评价的方法。
背景技术
生物样本是生命科学与医药研发领域的必备基础和来源,用于诊断标志物筛选和治疗药物研发等研究。生物样本包含丰富的遗传信息、疾病进展信息、对治疗的反应信息等,且具有不可再生性,规范保存和利用的生物样本已成为该领域最宝贵的资源,是实现科研成果快速产业化、实现“转化医学”研究目标的重要保证。在遵循医学伦理规范的前提下,国内外已经建立了各类不同规模的生物样本库,特别是恶性肿瘤、心脑血管和血液病等各类重大疾病的生物样本库。生物样本库不仅需要保存核酸、蛋白质、细胞、石蜡保存组织、冻存组织和体液等实物,而且需要记录相关的临床、病理、检验、影像、随访和样本调用等资料。建立生物样本库不仅仅是一项简单的收集工作,而是要通过储存和使用样本参与临床和科学研究,来实现生物样本的医疗健康意义或某种经济目的。
生物样本对研究的贡献实现于样本被使用那一刻,在保存过程中难以评价其潜在贡献大小。生物样本的保存尽管尚无明确标准,但一般要求是:对于血液样本要有患者姓名、性别、年龄、疾病种类等基本资料;对于组织样本还要有病理资料。同时认为生物样本越齐全越好,包括1)生物样本的实物和资料,如一例肿瘤样本有血液、冻存组织、石蜡包埋组织等类型,有临床资料、病理资料和检验资料,好于仅有一管血液样本和临床资料的病例;2)患者病情的跟踪随访,如计算患者的生存期必须要有随访资料;3)获得样本的分子生物学信息,如疾病相关基因的突变检测;4)难以取得的样本和资料,如早期肿瘤或低发病率的疾病。高水平研究项目通常要求多种形式的样本实物和齐全的样本资料,实物和资料的齐全程度(可称之为完备性)反映了样本可用于研究的潜在贡献大小。
现在的生物样本库系统实现了样本的分类和定位、资料的存储和更新、样本存放和取出等功能,用户调用样本过程为:向样本检索系统输入关键词;系统列出包含关键词的样本;用户从中选择样本用于研究。这些样本的确符合用户需求,但其中也包含了超出用户需求的样本。这种样本调用方法容易导致两种尴尬局面:(1)符合高水平科研项目要求的生物样本可能被用于低水平的项目,(2)仅能用于低水平项目的生物样本占用昂贵的储存空间,造成了宝贵样本和储存空间的双重浪费。
与样本检索流程比较,在文档的信息检索领域中,用户搜索目的文档的流程如下:向检索系统输入关键词;检索系统列出候选文档/网页;使用TF*IDF等方法计算这些文档和用户关键词之间的相关程度;按相关程度列出最符合用户期望的文档。与文档检索比较样本检索具有以下不同之处:(1)不仅要列出符合本次检索关键词的结果,而且要区分这些结果中那些超出本次检索要求,以及超出的程度;(2)样本检索的关键词既有对应样本实物的,也有对应样本资料的,样本用于研究需要有实物,没有实物的话资料再多也无用,反之也是;(3)部分字段涉及样本库的质量、数量或有效期等控制条件,不适合用于评价样本完备性;(4)与文档相比,样本库的字段设置和保存相对规范,有利于检索和评价。
最大的不同之处,文档可以无限拷贝,生物样本却不可再生,这就要求我们必须解决生物样本的评价问题,为用户提供合格且合适的样本,保留超出用户需求的样本,用于更高要求的研究。
发明内容
本发明提供一种在生物样本库系统中对样本完备性进行评价的方法,通过在储存子系统中保存样本实物和样本资料,在评分子系统中计算每个病例的实物完备性和资料完备性,以分别反映实物库存和信息库存,并将两者以二次函数的关系合并作为生物样本整体完备性的量化评价指标,最后在检索子系统中为用户提供按完备性排序的样本列表,以便对完备性不同的生物样本采取相应的策略。
本发明方法是在一个生物样本库系统中依次按照以下步骤实现的:
(1)在储存子系统中保存样本实物和样本资料;在存储子系统中列出样本库中所有待评价病例为集合P,统计病例总数为N;列出与样本实物相关的字段Wi为集合S;列出与样本资料相关的字段Wi为集合D;统计病例集合中所有包含字段Wi的病例总数,表示为df(Wi);
在进行步骤(1)前先列出停用病例集合nP和停用字段集合nW,这些集合中的病例和字段不用于后续计算。
(2)在评分子系统中,针对集合S,计算字段Wi和病例p的相关性评分ScoreI(p,Wi),评分公式为:
其中C(Wi,p)是字段Wi在病例p中出现的次数,
k是一个0.01到1之间的常数,
Wi∈S是与样本实物相关的集合S中的每个字段;
然后将集合S中的所有Wi的评分相加,得到病例p的实物评分ScoreS(p,S),评分公式为:
(3)在评分子系统中,针对集合D,计算字段Wi和病例p的相关性评分ScoreI(p,Wi),评分公式为:
其中C(Wi,p)是字段Wi在病例p中出现的次数,
k是一个0.01到1之间的常数,
Wi∈D是与样本资料相关的集合D中的每个字段;
然后将集合D中的所有Wi的评分相加,得到病例p的实物评分ScoreD(p,D),评分公式为:
(4)在评分子系统中将病例p的实物评分和资料评分基于二次函数合并作为最终的完备性评分Value(p),计算公式为:
Value(p)=ScoreS(p,S)×ScoreD(p,D);
(5)在储存子系统中按完备性评分高低从小到大对病例排序,同一病例所属样本的完备性评分相同,用户输入关键词搜索样本,检索子系统对符合要求的样本按此顺序列出以供判断和选择。
本发明具有的有益效果如下:
1.现有的样本库系统在用户检索时列出符合关键词的样本列表,但不能给出样本的潜在应用前景,用户在调用样本时有一定的随意性,而本发明根据样本实物的存储情况和样本资料的完备性进行评分,以评分高低反映样本的潜在科研前景,优先使用符合用户需求的低完备性病例的样本,保留超出用户需求的高完备性的样本用于更高水平的项目,同时提高了生物样本和样本库的利用效率;
2.部分现有的样本库系统提供了限制样本使用的功能,但在限制样本时缺乏依据,而本发明的评分字段,其分值由该字段在病例中出现的次数计算而来,天然反映了相应病例的完备程度,并且随着新样本的入库和资料的更新,完备性分值也随之更新,具备了客观、量化、全面、动态更新的优点。
附图说明
图1是本发明一种生物样本完备性的评价方法的流程示意图。
具体实施方式
本发明结合附图和实施例作进一步的说明。
本发明相关概念说明如下:
病例:指某种疾病的实例。一个病例可以有多个生物样本和多种相关资料。
样本类型:指样本实物的不同形式,如DNA、RNA、蛋白质、组织、细胞、各类体液等。
样本数量:指样本的保存数目。
样本质量:指样本的保存状况,不同的后续研究对于样本质量有着不同的标准。
样本资料:与生物样本相关的临床、病理、检验、影像、随访、样本调用结果等资料。其中患者随访和样本调用结果等,需定期或不定期地更新以利于全面的、动态的评价样本完备性。
系列样本:指来自同一病例的不同类型、不同部位、不同发病时间的多个样本,如肿瘤患者的外周血、癌原发灶组织、癌转移灶组织、治疗复发的癌组织。
随访:指医务人员定期通过信件、电话或上门等各种形式访问病人,了解他们的病情及康复情形。
关于停用字段:(1)样本数量:保持一定数量的生物样本对样本库至关重要,相同的条件下一般优先使用样本数较多的病例。现有的生物样本库管理软件多有样本数量的统计和报警功能,可保证库中的生物样本数量,因此建议将样本数量列入停用字段。如确需使用该字段,其分值大小应和数量多少成反比。(2)样本质量:因质量信息本身隐含了对样本的评价,质量合格的样本在库中应占绝大多数,不合格样本则不符合用户需求。因此建议将样本质量列入停用字段。如将样本质量用于生物样本的评价,其分值大小应按质量评价高低分配。(3)必须资料:如患者姓名、性别等资料为用户研究所必须,符合用户需求的病例都应具备,此类资料应作为生物样本库的质控要求,在样本进入评分系统之前完成对此类资料的检查,因此建议也列为停用字段。(4)次要或无关资料:由于生物样本库长期运作的不确定性,可能记录一些与主要研究目的关系不大的信息,这些信息可能只在极少部分病例中出现,如用于评分,将为这些病例分配不合理的高分。建议将这些字段列入停用字段,以免影响评价。
关于停用病例:生物样本库用户出于某些需求可能需要停用某些病例,如尚未随访的病例。其他资料一般随样本同时入库,而随访具有一定的特殊性,随访工作视疾病进展快慢在样本入库后一段时间后进行,在得到随访结果之前使用样本并不明智,可能出现随访记录逐年完善而样本早被用完的尴尬局面。建议停用尚未随访的病例,在得到第一次随访结果后再启用。
实施例1
选用一个肿瘤生物样本库系统,该样本库的存储子系统保存了实物的库存情况和资料的收集情况,并按照病例为单位管理,每一病例包括了相应的样本实物和样本资料。为便于展示,选用库中11例样本用于评分,从存储子系统中取出这些样本的具体信息如表1所示。
表1
对表1中信息说明如下,血清:0=无血清样本,1=有血清样本;突变检测:0=无突变检测数据,1=有突变检测数据;随访资料:-1=未随访,0=无法随访,1=随访记录为1次,2=随访记录为2次,以此类推;系列样本:0=无成系列样本,2=系列样本数量为2个,3=系列样本数量为3个,以此类推;。
步骤1列出停用病例nP={病例k},因病例k是未随访病例;停用字段nW={姓名,性别,RH阴性},姓名和性别为必须字段,RH阴性为无关字段,这些病例和字段不用于后续计算;在存储子系统中列出样本库中所有待评价病例为集合P={病例a,病例b,…,病例j},统计病例总数为N=10;列出与样本实物相关的字段为集合S={血清,尿液,…,系列样本};列出与样本资料相关的字段为集合D={临床资料,病理资料,…,低发病率};统计病例集合中所有包含字段Wi的病例总数,表示为df(Wi);
表2
字段 | 病例总数 |
血清 | 9 |
尿液 | 2 |
全血 | 2 |
蜡块组织 | 7 |
冻存组织 | 6 |
脑脊液 | 1 |
DNA | 4 |
RNA | 1 |
Protein | 1 |
系列样本 | 4 |
临床资料 | 10 |
病理资料 | 8 |
检验资料 | 7 |
影像资料 | 3 |
治疗资料 | 1 |
随访资料 | 8 |
突变检测 | 4 |
表达谱 | 3 |
基因组 | 2 |
家族性 | 1 |
早期肿瘤 | 1 |
低发病率 | 2 |
步骤2在评分子系统中,针对集合S,计算字段Wi和病例p的相关性评分ScoreI(p,Wi),评分公式为:
其中p为步骤1处理后的一个病例,Wi是步骤1处理后的字段,S是样本实物相关的字段集合,N是待评价的病例总数,df(Wi)是包含Wi的病例的总数,C(Wi,p)是字段Wi在病例p中出现的次数,k是一个0.01到1之间的常数,在此取k=0.01。
然后将集合S中的所有Wi的评分相加,得到病例p的实物评分ScoreS(p,S),评分公式为:
计算结果如表3所示;
步骤3在评分子系统中,针对集合D,计算字段Wi和病例p的相关性评分ScoreI(p,Wi),评分公式为:
其中p为步骤1处理后的一个病例,Wi是步骤1处理后的字段,D是样本资料相关的字段集合,N是待评价的病例总数,df(Wi)是包含Wi的病例的总数,C(Wi,p)是字段Wi在病例p中出现的次数,k是一个0.01到1之间的常数,在此取k=0.01。
然后将集合D中的所有Wi的评分相加,得到病例p的实物评分ScoreD(p,D),评分公式为:
计算结果如表3所示;
步骤4在评分子系统中将病例p的实物评分和资料评分基于二次函数合并作为最终的完备性评分Value(p),计算公式为:
Value(p)=ScoreS(p,S)×ScoreD(p,D),
计算结果如表3所示;
表3
实物评分 | 资料评分 | 完备性评分 | |
病例a | 0.116 | 1.308 | 0.151 |
病例b | 1.461 | 1.688 | 2.467 |
病例c | 1.532 | 1.783 | 2.731 |
病例d | 1.805 | 1.645 | 2.969 |
病例e | 1.549 | 1.538 | 2.383 |
病例f | 1.000 | 1.421 | 1.421 |
病例g | 1.205 | 2.202 | 2.653 |
病例h | 2.417 | 2.453 | 5.928 |
病例i | 1.254 | 1.809 | 2.268 |
病例j | 1.404 | 1.669 | 2.343 |
步骤5在储存子系统中按完备性评分高低从小到大对病例排序如表4所示,同一病例所属样本的完备性评分相同。用户输入关键词搜索样本,检索子系统对符合要求的样本按此完备性评分顺序列出以供判断和选择。在此用户希望调用满足要求的样本,而保留超出要求的样本用于更高要求的研究。
如用户需要调用2例样本,样本类型为血清,要求有相应的临床资料。用户在检索子系统中输入关键字段“血清and临床资料”搜索样本库,除病例c以外都符合要求,因此检索子系统按表4顺序为用户列出除病例c以外的所有病例,按照顺序用户选择病例a和f的血清样本。病例a和病例f仅有血清这一种实物样本,样本类型少,而很多较高要求的研究要求同时有血液和组织样本,对样本的完备性要求更高,因此在符合样本库数量控制要求的前提下,优先调用完备性低的样本。
再如用户需要调用3例样本,要求每例样本同时取用血清和冻存组织两种样本类型,每例样本同时具备临床和病理两种资料。用户在检索子系统中输入关键字段“血清and冻存组织and临床资料and病理资料”搜索样本库,病例b、d、e、g、h都符合要求,因此检索子系统按表4顺序为用户列出病例e、b、g、d、h,按照顺序用户选择病例e、b和g中的血清和冻存组织样本。在符合用户要求的5个病例中,d和h明显样本实物类型和相关资料都很齐全,随访记录较多,且病例h是低发病率的早期肿瘤,值得保留用于更高要求的研究。
表4
顺序 | 病例 | 完备性评分 |
1 | 病例a | 0.151 |
2 | 病例f | 1.421 |
3 | 病例i | 2.268 |
4 | 病例j | 2.343 |
5 | 病例e | 2.383 |
6 | 病例b | 2.467 |
7 | 病例g | 2.653 |
8 | 病例c | 2.731 |
9 | 病例d | 2.969 |
10 | 病例h | 5.928 |
实施例2
选用实施例1中的示例样本库,但在步骤1中不停用任何字段,即nW={},后续计算步骤和公式同实施例1,计算结果见表5。由表5中可见,不使用停用字段后病例g的评分大幅上升,其原因是病例g包含了“RH阴性”这一字段,而其他病例都没有,赋予了病例g更多的评分。而这一字段和肿瘤这一疾病基本无关,不会被用于研究,因此停用此类与用户需求无关的字段以避免影响评分很有必要。
表5
顺序 | 病例 | 完备性评分 |
1 | 病例a | 0.277 |
2 | 病例f | 1.656 |
3 | 病例i | 2.361 |
4 | 病例j | 2.376 |
5 | 病例e | 2.430 |
6 | 病例b | 2.498 |
7 | 病例c | 2.743 |
8 | 病例d | 2.976 |
9 | 病例g | 3.363 |
10 | 病例h | 5.934 |
实施例3
选用实施例1中的示例样本库,但在步骤1中仅停用“RH阴性”字段,即nW={RH阴性},后续计算步骤和公式同实施例1,计算结果见表5。由表5中可见,未停用“姓名”和“性别”字段未对病例的完备性排序造成明显影响,但是病例间的评分差距变小,在样本量大时对病例完备性的区分能力下降,因此停用此类必须保存的资料也有必要。
表6
顺序 | 病例 | 完备性评分 |
1 | 病例a | 0.277 |
2 | 病例f | 1.656 |
3 | 病例i | 2.361 |
4 | 病例j | 2.376 |
5 | 病例e | 2.430 |
6 | 病例b | 2.498 |
7 | 病例g | 2.662 |
8 | 病例c | 2.743 |
9 | 病例d | 2.976 |
10 | 病例h | 5.934 |
实施例4
选用一个储存了10个病例的高血压生物样本库,如表7所示,研究者需要调用已做过较多实验的样本,希望在此基础上做进一步的研究。因此本实施例中计算“调用评分”代替“资料评分”以更准确的满足用户的需求。
表7
在存储系统中列出样本库中所有待评价病例为集合P={病例a,病例b,…,病例j},统计病例总数为N=10;列出与样本实物相关的字段为集合S={血清,全血,DNA,RNA,Protein,系列样本};列出与样本调用相关的字段为集合D={突变检测,表达谱检测,基因组测序};统计病例集合中所有包含字段Wi的病例总数,表示为df(Wi);后续计算步骤同实施例1,最后按“完备性评分一”从高到低列出样本供用户选择。
同时也列出其他条件不变,当集合D={临床体检,心电图,治疗资料,随访资料,突变检测,表达谱检测,基因组测序}时,计算得到的“完备性评分二”以作比较,如表8所示。
表8
顺序 | 病例 | 完备性评分一 | 病例 | 完备性评分二 |
1 | 病例h | 1.877 | 病例h | 3.177 |
2 | 病例g | 1.514 | 病例c | 1.896 |
3 | 病例i | 1.487 | 病例b | 1.883 |
4 | 病例d | 1.291 | 病例j | 1.883 |
5 | 病例c | 1.265 | 病例g | 1.816 |
6 | 病例e | 1.213 | 病例d | 1.713 |
7 | 病例b | 1.116 | 病例f | 1.688 |
8 | 病例j | 1.116 | 病例e | 1.538 |
9 | 病例f | 1.000 | 病例i | 1.493 |
10 | 病例a | 0.495 | 病例a | 0.372 |
如表8中所示,进行过表达谱和基因组检测的病例g和i,按“完备性评分二”排序时位于5和9位,而按“完备性评分一”排序时位于2和3位,通过调整评分字段可以检索得到更符合用户需求的结果。因此本发明可根据用户需求灵活使用评价字段,灵活进行排序,通过量化评价生物样本完备性而得到提高生物样本利用效率的有益效果。
以上提供了对较佳实施例的描述,以使本领域内的任何技术人员可使用或利用本发明。对这些实施例的各种修改对本领域内的技术人员是显而易见的,可把这里所述的总的原理应用到其他实施例而不使用创造性。因而,本发明将不限于这里所示的实施例,而应依据符合这里所揭示的原理和新特征的最宽范围。
Claims (2)
1.一种生物样本完备性的评价方法,是在一个生物样本库系统中依次按照以下步骤实现的:
(1)在储存子系统中保存样本实物和样本资料,在存储子系统中列出样本库中所有待评价病例为集合P,统计病例总数为N,列出与样本实物相关的字段Wi为集合S,列出与样本资料相关的字段Wi为集合D,统计病例集合中所有包含字段Wi的病例总数,表示为df(Wi);
(2)在评分子系统中,针对集合S,计算字段Wi和病例p的相关性评分ScoreI(p,Wi),评分公式为:
其中C(Wi,p)是字段Wi在病例p中出现的次数,
k是一个0.01到1之间的常数,
Wi∈S是与样本实物相关的集合S中的每个字段,
然后将集合S中的所有Wi的评分相加,得到病例p的实物评分ScoreS(p,S),评分公式为:
(3)在评分子系统中,针对集合D,计算字段Wi和病例p的相关性评分ScoreI(p,Wi),评分公式为:
其中C(Wi,p)是字段Wi在病例p中出现的次数,
k是一个0.01到1之间的常数,
Wi∈D是与样本资料相关的集合D中的每个字段,
然后将集合D中的所有Wi的评分相加,得到病例p的资料评分ScoreD(p,D),评分公式为:
(4)在评分子系统中将病例p的实物评分和资料评分基于二次函数合并作为最终的完备性评分Value(p),计算公式为:
Value(p)=ScoreS(p,S)×ScoreD(p,D);
(5)在储存子系统中按完备性评分高低从小到大对病例排序,同一病例所属样本的完备性评分相同,用户输入关键词搜索样本,检索子系统对符合要求的样本按对应病例的完备性评分高低从小到大顺序列出以供判断和选择。
2.根据权利要求1所述的一种生物样本完备性的评价方法,其特征在于,在进行步骤(1)前先列出停用病例集合nP和停用字段集合nW,这些集合中的病例和字段不用于后续计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110247951 CN102289601B (zh) | 2011-08-24 | 2011-08-24 | 一种生物样本完备性的评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110247951 CN102289601B (zh) | 2011-08-24 | 2011-08-24 | 一种生物样本完备性的评价方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102289601A CN102289601A (zh) | 2011-12-21 |
CN102289601B true CN102289601B (zh) | 2013-09-04 |
Family
ID=45336022
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110247951 Active CN102289601B (zh) | 2011-08-24 | 2011-08-24 | 一种生物样本完备性的评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102289601B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763466A (zh) * | 2010-01-20 | 2010-06-30 | 西安电子科技大学 | 基于动态样本选择集成的生物信息识别方法 |
WO2010104893A2 (en) * | 2009-03-09 | 2010-09-16 | Life Technologies Corporation | Methods for the determination of a copy number of a genomic sequence in a biological sample |
CN102136024A (zh) * | 2010-01-27 | 2011-07-27 | 中国科学院自动化研究所 | 生物特征识别性能测评和诊断优化系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002214228A (ja) * | 2001-01-12 | 2002-07-31 | Matsushita Electric Ind Co Ltd | 生体試料の評価装置および評価方法 |
-
2011
- 2011-08-24 CN CN 201110247951 patent/CN102289601B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010104893A2 (en) * | 2009-03-09 | 2010-09-16 | Life Technologies Corporation | Methods for the determination of a copy number of a genomic sequence in a biological sample |
CN101763466A (zh) * | 2010-01-20 | 2010-06-30 | 西安电子科技大学 | 基于动态样本选择集成的生物信息识别方法 |
CN102136024A (zh) * | 2010-01-27 | 2011-07-27 | 中国科学院自动化研究所 | 生物特征识别性能测评和诊断优化系统 |
Non-Patent Citations (4)
Title |
---|
于浩 等.平均生物等效性试验设计方法评价.《中国卫生统计》.2004,第21卷(第6期),332-334. |
关于个体生物等效性评价中样本容量的讨论;张孔生 等;《应用数学》;20051230;第18卷(第增刊S1期);115-118 * |
平均生物等效性试验设计方法评价;于浩 等;《中国卫生统计》;20041225;第21卷(第6期);332-334 * |
张孔生 等.关于个体生物等效性评价中样本容量的讨论.《应用数学》.2005,第18卷(第增刊S1期),115-118. |
Also Published As
Publication number | Publication date |
---|---|
CN102289601A (zh) | 2011-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jayawardana et al. | Determination of prognosis in metastatic melanoma through integration of clinico‐pathologic, mutation, mRNA, microRNA, and protein information | |
Erdem-Eraslan et al. | Intrinsic molecular subtypes of glioma are prognostic and predict benefit from adjuvant procarbazine, lomustine, and vincristine chemotherapy in combination with other prognostic factors in anaplastic oligodendroglial brain tumors: a report from EORTC study 26951 | |
CA2863040C (en) | Gene expression profile algorithm and test for determining prognosis of prostate cancer | |
Racowsky et al. | Is there an advantage in scoring early embryos on more than one day? | |
Frantz et al. | Molecular profiling reveals prognostically significant subtypes of canine lymphoma | |
Angelini et al. | A web-based pilot study of inter-pathologist reproducibility using the ISHLT 2004 working formulation for biopsy diagnosis of cardiac allograft rejection: the European experience | |
EP2749655A1 (en) | Single cell classification method, gene screening method and device thereof | |
Onken et al. | Prognostic testing in uveal melanoma by transcriptomic profiling of fine needle biopsy specimens | |
CN112602156A (zh) | 用于检测残留疾病的系统和方法 | |
CA3000192C (en) | Biomarkers and methods for assessing psoriatic arthritis disease activity | |
EP2443449A1 (en) | Determination of coronary artery disease risk. | |
Dunkler et al. | Statistical analysis principles for Omics data | |
Heesterbeek et al. | Noninvasive prenatal test results indicative of maternal malignancies: a nationwide genetic and clinical follow-up study | |
Yegin et al. | Free light chain: a novel predictor of adverse outcome in chronic lymphocytic leukemia | |
CN106661634A (zh) | 用于诊断肾异体移植物纤维化和排异风险的方法 | |
MX2011004604A (es) | Clasificacion genomica de melanoma maligno con base en patrones de alteraciones de numero de copias de gene. | |
CN102289601B (zh) | 一种生物样本完备性的评价方法 | |
Streichert et al. | MicroRNA expression profiling in archival tissue specimens: Methods and data processing | |
Li et al. | Classification of thyroid nodules with stacked denoising sparse autoencoder | |
EP4244394B1 (en) | Techniques for identifying follicular lymphoma types | |
US11535896B2 (en) | Method for analysing cell-free nucleic acids | |
AU2015263998A1 (en) | Gene expression profiles associated with sub-clinical kidney transplant rejection | |
Chen et al. | Deep learning approach to identifying breast cancer subtypes using high-dimensional genomic data | |
Aide et al. | Combining baseline TMTV and gene profiling for a better risk stratification in diffuse large B cell lymphoma | |
US11817214B1 (en) | Machine learning model trained to determine a biochemical state and/or medical condition using DNA epigenetic data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |