CN102289601B

CN102289601B - 一种生物样本完备性的评价方法

Info

Publication number: CN102289601B
Application number: CN 201110247951
Authority: CN
Inventors: 葛维挺; 黄彦钦; 郑树; 周小宇
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2011-08-24
Filing date: 2011-08-24
Publication date: 2013-09-04
Anticipated expiration: 2031-08-24
Also published as: CN102289601A

Abstract

本发明提供一种生物样本完备性的评价方法，通过在储存子系统中保存样本实物和样本资料，在评分子系统中计算每个病例的实物完备性和资料完备性，以分别反映实物库存和信息库存，并将两者以二次函数的关系合并作为生物样本整体完备性的量化评价指标，最后在检索子系统中为用户提供按完备性排序的样本列表。本发明优先使用符合用户需求的低价值病例的样本，保留超出用户需求的高完备性的样本，提高了生物样本和样本库的利用效率。本发明的评分字段，其分值由该字段在病例中出现的次数计算而来，天然反映了相应病例的稀缺和重要程度，并且随着新样本的入库和资料的更新，评分指标的分值也随之更新，具备了客观、量化、全面、动态更新的优点。

Description

一种生物样本完备性的评价方法

技术领域

本发明属于生物样本保存和利用技术领域，具体涉及一种在生物样本库系统中对样本完备性进行评价的方法。

背景技术

生物样本是生命科学与医药研发领域的必备基础和来源，用于诊断标志物筛选和治疗药物研发等研究。生物样本包含丰富的遗传信息、疾病进展信息、对治疗的反应信息等，且具有不可再生性，规范保存和利用的生物样本已成为该领域最宝贵的资源，是实现科研成果快速产业化、实现“转化医学”研究目标的重要保证。在遵循医学伦理规范的前提下，国内外已经建立了各类不同规模的生物样本库，特别是恶性肿瘤、心脑血管和血液病等各类重大疾病的生物样本库。生物样本库不仅需要保存核酸、蛋白质、细胞、石蜡保存组织、冻存组织和体液等实物，而且需要记录相关的临床、病理、检验、影像、随访和样本调用等资料。建立生物样本库不仅仅是一项简单的收集工作，而是要通过储存和使用样本参与临床和科学研究，来实现生物样本的医疗健康意义或某种经济目的。

生物样本对研究的贡献实现于样本被使用那一刻，在保存过程中难以评价其潜在贡献大小。生物样本的保存尽管尚无明确标准，但一般要求是：对于血液样本要有患者姓名、性别、年龄、疾病种类等基本资料；对于组织样本还要有病理资料。同时认为生物样本越齐全越好，包括1)生物样本的实物和资料，如一例肿瘤样本有血液、冻存组织、石蜡包埋组织等类型，有临床资料、病理资料和检验资料，好于仅有一管血液样本和临床资料的病例；2)患者病情的跟踪随访，如计算患者的生存期必须要有随访资料；3)获得样本的分子生物学信息，如疾病相关基因的突变检测；4)难以取得的样本和资料，如早期肿瘤或低发病率的疾病。高水平研究项目通常要求多种形式的样本实物和齐全的样本资料，实物和资料的齐全程度(可称之为完备性)反映了样本可用于研究的潜在贡献大小。

现在的生物样本库系统实现了样本的分类和定位、资料的存储和更新、样本存放和取出等功能，用户调用样本过程为：向样本检索系统输入关键词；系统列出包含关键词的样本；用户从中选择样本用于研究。这些样本的确符合用户需求，但其中也包含了超出用户需求的样本。这种样本调用方法容易导致两种尴尬局面：(1)符合高水平科研项目要求的生物样本可能被用于低水平的项目，(2)仅能用于低水平项目的生物样本占用昂贵的储存空间，造成了宝贵样本和储存空间的双重浪费。

与样本检索流程比较，在文档的信息检索领域中，用户搜索目的文档的流程如下：向检索系统输入关键词；检索系统列出候选文档/网页；使用TF*IDF等方法计算这些文档和用户关键词之间的相关程度；按相关程度列出最符合用户期望的文档。与文档检索比较样本检索具有以下不同之处：(1)不仅要列出符合本次检索关键词的结果，而且要区分这些结果中那些超出本次检索要求，以及超出的程度；(2)样本检索的关键词既有对应样本实物的，也有对应样本资料的，样本用于研究需要有实物，没有实物的话资料再多也无用，反之也是；(3)部分字段涉及样本库的质量、数量或有效期等控制条件，不适合用于评价样本完备性；(4)与文档相比，样本库的字段设置和保存相对规范，有利于检索和评价。

最大的不同之处，文档可以无限拷贝，生物样本却不可再生，这就要求我们必须解决生物样本的评价问题，为用户提供合格且合适的样本，保留超出用户需求的样本，用于更高要求的研究。

发明内容

本发明提供一种在生物样本库系统中对样本完备性进行评价的方法，通过在储存子系统中保存样本实物和样本资料，在评分子系统中计算每个病例的实物完备性和资料完备性，以分别反映实物库存和信息库存，并将两者以二次函数的关系合并作为生物样本整体完备性的量化评价指标，最后在检索子系统中为用户提供按完备性排序的样本列表，以便对完备性不同的生物样本采取相应的策略。

本发明方法是在一个生物样本库系统中依次按照以下步骤实现的：

(1)在储存子系统中保存样本实物和样本资料；在存储子系统中列出样本库中所有待评价病例为集合P，统计病例总数为N；列出与样本实物相关的字段Wi为集合S；列出与样本资料相关的字段Wi为集合D；统计病例集合中所有包含字段Wi的病例总数，表示为df(Wi)；

在进行步骤(1)前先列出停用病例集合nP和停用字段集合nW，这些集合中的病例和字段不用于后续计算。

(2)在评分子系统中，针对集合S，计算字段Wi和病例p的相关性评分ScoreI(p，Wi)，评分公式为：

ScoreI (p, Wi) = \frac{C (Wi, p) \times \log (N / df (Wi) + k)}{\sqrt{Σ_{Wi &Element; S} {[C (Wi, p) \times \log (N / df (Wi) + k)]}^{2}}},

其中C(Wi，p)是字段Wi在病例p中出现的次数，

k是一个0.01到1之间的常数，

Wi∈S是与样本实物相关的集合S中的每个字段；

然后将集合S中的所有Wi的评分相加，得到病例p的实物评分ScoreS(p，S)，评分公式为：

ScoreS (p, S) = \underset{Wi &Element; S}{Σ} ScoreI (p, Wi);

(3)在评分子系统中，针对集合D，计算字段Wi和病例p的相关性评分ScoreI(p，Wi)，评分公式为：

ScoreI (p, Wi) = \frac{C (Wi, p) \times \log (N / df (Wi) + k)}{\sqrt{Σ_{Wi &Element; D} {[C (Wi, p) \times \log (N / df (Wi) + k)]}^{2}}},

其中C(Wi，p)是字段Wi在病例p中出现的次数，

k是一个0.01到1之间的常数，

Wi∈D是与样本资料相关的集合D中的每个字段；

然后将集合D中的所有Wi的评分相加，得到病例p的实物评分ScoreD(p，D)，评分公式为：

ScoreD (p, D) = \underset{Wi &Element; D}{Σ} ScoreI (p, Wi);

(4)在评分子系统中将病例p的实物评分和资料评分基于二次函数合并作为最终的完备性评分Value(p)，计算公式为：

Value(p)＝ScoreS(p，S)×ScoreD(p，D)；

(5)在储存子系统中按完备性评分高低从小到大对病例排序，同一病例所属样本的完备性评分相同，用户输入关键词搜索样本，检索子系统对符合要求的样本按此顺序列出以供判断和选择。

本发明具有的有益效果如下：

1.现有的样本库系统在用户检索时列出符合关键词的样本列表，但不能给出样本的潜在应用前景，用户在调用样本时有一定的随意性，而本发明根据样本实物的存储情况和样本资料的完备性进行评分，以评分高低反映样本的潜在科研前景，优先使用符合用户需求的低完备性病例的样本，保留超出用户需求的高完备性的样本用于更高水平的项目，同时提高了生物样本和样本库的利用效率；

2.部分现有的样本库系统提供了限制样本使用的功能，但在限制样本时缺乏依据，而本发明的评分字段，其分值由该字段在病例中出现的次数计算而来，天然反映了相应病例的完备程度，并且随着新样本的入库和资料的更新，完备性分值也随之更新，具备了客观、量化、全面、动态更新的优点。

附图说明

图1是本发明一种生物样本完备性的评价方法的流程示意图。

具体实施方式

本发明结合附图和实施例作进一步的说明。

本发明相关概念说明如下：

病例：指某种疾病的实例。一个病例可以有多个生物样本和多种相关资料。

样本类型：指样本实物的不同形式，如DNA、RNA、蛋白质、组织、细胞、各类体液等。

样本数量：指样本的保存数目。

样本质量：指样本的保存状况，不同的后续研究对于样本质量有着不同的标准。

样本资料：与生物样本相关的临床、病理、检验、影像、随访、样本调用结果等资料。其中患者随访和样本调用结果等，需定期或不定期地更新以利于全面的、动态的评价样本完备性。

系列样本：指来自同一病例的不同类型、不同部位、不同发病时间的多个样本，如肿瘤患者的外周血、癌原发灶组织、癌转移灶组织、治疗复发的癌组织。

随访：指医务人员定期通过信件、电话或上门等各种形式访问病人，了解他们的病情及康复情形。

关于停用字段：(1)样本数量：保持一定数量的生物样本对样本库至关重要，相同的条件下一般优先使用样本数较多的病例。现有的生物样本库管理软件多有样本数量的统计和报警功能，可保证库中的生物样本数量，因此建议将样本数量列入停用字段。如确需使用该字段，其分值大小应和数量多少成反比。(2)样本质量：因质量信息本身隐含了对样本的评价，质量合格的样本在库中应占绝大多数，不合格样本则不符合用户需求。因此建议将样本质量列入停用字段。如将样本质量用于生物样本的评价，其分值大小应按质量评价高低分配。(3)必须资料：如患者姓名、性别等资料为用户研究所必须，符合用户需求的病例都应具备，此类资料应作为生物样本库的质控要求，在样本进入评分系统之前完成对此类资料的检查，因此建议也列为停用字段。(4)次要或无关资料：由于生物样本库长期运作的不确定性，可能记录一些与主要研究目的关系不大的信息，这些信息可能只在极少部分病例中出现，如用于评分，将为这些病例分配不合理的高分。建议将这些字段列入停用字段，以免影响评价。

关于停用病例：生物样本库用户出于某些需求可能需要停用某些病例，如尚未随访的病例。其他资料一般随样本同时入库，而随访具有一定的特殊性，随访工作视疾病进展快慢在样本入库后一段时间后进行，在得到随访结果之前使用样本并不明智，可能出现随访记录逐年完善而样本早被用完的尴尬局面。建议停用尚未随访的病例，在得到第一次随访结果后再启用。

实施例1

选用一个肿瘤生物样本库系统，该样本库的存储子系统保存了实物的库存情况和资料的收集情况，并按照病例为单位管理，每一病例包括了相应的样本实物和样本资料。为便于展示，选用库中11例样本用于评分，从存储子系统中取出这些样本的具体信息如表1所示。

表1

对表1中信息说明如下，血清：0＝无血清样本，1＝有血清样本；突变检测：0＝无突变检测数据，1＝有突变检测数据；随访资料：-1＝未随访，0＝无法随访，1＝随访记录为1次，2＝随访记录为2次，以此类推；系列样本：0＝无成系列样本，2＝系列样本数量为2个，3＝系列样本数量为3个，以此类推；。

步骤1列出停用病例nP＝{病例k}，因病例k是未随访病例；停用字段nW＝{姓名，性别，RH阴性}，姓名和性别为必须字段，RH阴性为无关字段，这些病例和字段不用于后续计算；在存储子系统中列出样本库中所有待评价病例为集合P＝{病例a，病例b，…，病例j}，统计病例总数为N＝10；列出与样本实物相关的字段为集合S＝{血清，尿液，…，系列样本}；列出与样本资料相关的字段为集合D＝{临床资料，病理资料，…，低发病率}；统计病例集合中所有包含字段Wi的病例总数，表示为df(Wi)；

表2

字段	病例总数
		血清	9
尿液	2
		全血	2
蜡块组织	7
		冻存组织	6
脑脊液	1
		DNA	4
RNA	1
		Protein	1
系列样本	4
		临床资料	10
病理资料	8

检验资料	7
		影像资料	3
治疗资料	1
		随访资料	8
突变检测	4
		表达谱	3
基因组	2
		家族性	1
早期肿瘤	1
		低发病率	2

步骤2在评分子系统中，针对集合S，计算字段Wi和病例p的相关性评分ScoreI(p，Wi)，评分公式为：

ScoreI (p, Wi) = \frac{C (Wi, p) \times \log (N / df (Wi) + k)}{\sqrt{Σ_{Wi &Element; S} {[C (Wi, p) \times \log (N / df (Wi) + k)]}^{2}}},

其中p为步骤1处理后的一个病例，Wi是步骤1处理后的字段，S是样本实物相关的字段集合，N是待评价的病例总数，df(Wi)是包含Wi的病例的总数，C(Wi，p)是字段Wi在病例p中出现的次数，k是一个0.01到1之间的常数，在此取k＝0.01。

ScoreS (p, S) = \underset{Wi &Element; S}{Σ} ScoreI (p, Wi),

计算结果如表3所示；

步骤3在评分子系统中，针对集合D，计算字段Wi和病例p的相关性评分ScoreI(p，Wi)，评分公式为：

ScoreI (p, Wi) = \frac{C (Wi, p) \times \log (N / df (Wi) + k)}{\sqrt{Σ_{Wi &Element; D} {[C (Wi, p) \times \log (N / df (Wi) + k)]}^{2}}},

其中p为步骤1处理后的一个病例，Wi是步骤1处理后的字段，D是样本资料相关的字段集合，N是待评价的病例总数，df(Wi)是包含Wi的病例的总数，C(Wi，p)是字段Wi在病例p中出现的次数，k是一个0.01到1之间的常数，在此取k＝0.01。

ScoreD (p, D) = \underset{Wi &Element; D}{Σ} ScoreI (p, Wi),

计算结果如表3所示；

步骤4在评分子系统中将病例p的实物评分和资料评分基于二次函数合并作为最终的完备性评分Value(p)，计算公式为：

Value(p)＝ScoreS(p，S)×ScoreD(p，D)，

计算结果如表3所示；

表3

	实物评分	资料评分	完备性评分
				病例a	0.116	1.308	0.151
病例b	1.461	1.688	2.467
				病例c	1.532	1.783	2.731
病例d	1.805	1.645	2.969
				病例e	1.549	1.538	2.383
病例f	1.000	1.421	1.421
				病例g	1.205	2.202	2.653
病例h	2.417	2.453	5.928
				病例i	1.254	1.809	2.268
病例j	1.404	1.669	2.343

步骤5在储存子系统中按完备性评分高低从小到大对病例排序如表4所示，同一病例所属样本的完备性评分相同。用户输入关键词搜索样本，检索子系统对符合要求的样本按此完备性评分顺序列出以供判断和选择。在此用户希望调用满足要求的样本，而保留超出要求的样本用于更高要求的研究。

如用户需要调用2例样本，样本类型为血清，要求有相应的临床资料。用户在检索子系统中输入关键字段“血清and临床资料”搜索样本库，除病例c以外都符合要求，因此检索子系统按表4顺序为用户列出除病例c以外的所有病例，按照顺序用户选择病例a和f的血清样本。病例a和病例f仅有血清这一种实物样本，样本类型少，而很多较高要求的研究要求同时有血液和组织样本，对样本的完备性要求更高，因此在符合样本库数量控制要求的前提下，优先调用完备性低的样本。

再如用户需要调用3例样本，要求每例样本同时取用血清和冻存组织两种样本类型，每例样本同时具备临床和病理两种资料。用户在检索子系统中输入关键字段“血清and冻存组织and临床资料and病理资料”搜索样本库，病例b、d、e、g、h都符合要求，因此检索子系统按表4顺序为用户列出病例e、b、g、d、h，按照顺序用户选择病例e、b和g中的血清和冻存组织样本。在符合用户要求的5个病例中，d和h明显样本实物类型和相关资料都很齐全，随访记录较多，且病例h是低发病率的早期肿瘤，值得保留用于更高要求的研究。

表4

顺序	病例	完备性评分
			1	病例a	0.151
2	病例f	1.421
			3	病例i	2.268
4	病例j	2.343
			5	病例e	2.383
6	病例b	2.467
			7	病例g	2.653
8	病例c	2.731
			9	病例d	2.969
10	病例h	5.928

实施例2

选用实施例1中的示例样本库，但在步骤1中不停用任何字段，即nW＝{}，后续计算步骤和公式同实施例1，计算结果见表5。由表5中可见，不使用停用字段后病例g的评分大幅上升，其原因是病例g包含了“RH阴性”这一字段，而其他病例都没有，赋予了病例g更多的评分。而这一字段和肿瘤这一疾病基本无关，不会被用于研究，因此停用此类与用户需求无关的字段以避免影响评分很有必要。

表5

顺序	病例	完备性评分
			1	病例a	0.277
2	病例f	1.656
			3	病例i	2.361
4	病例j	2.376
			5	病例e	2.430
6	病例b	2.498
			7	病例c	2.743
8	病例d	2.976
			9	病例g	3.363
10	病例h	5.934

实施例3

选用实施例1中的示例样本库，但在步骤1中仅停用“RH阴性”字段，即nW＝{RH阴性}，后续计算步骤和公式同实施例1，计算结果见表5。由表5中可见，未停用“姓名”和“性别”字段未对病例的完备性排序造成明显影响，但是病例间的评分差距变小，在样本量大时对病例完备性的区分能力下降，因此停用此类必须保存的资料也有必要。

表6

顺序	病例	完备性评分
			1	病例a	0.277
2	病例f	1.656
			3	病例i	2.361
4	病例j	2.376
			5	病例e	2.430
6	病例b	2.498
			7	病例g	2.662
8	病例c	2.743
			9	病例d	2.976
10	病例h	5.934

实施例4

选用一个储存了10个病例的高血压生物样本库，如表7所示，研究者需要调用已做过较多实验的样本，希望在此基础上做进一步的研究。因此本实施例中计算“调用评分”代替“资料评分”以更准确的满足用户的需求。

表7

在存储系统中列出样本库中所有待评价病例为集合P＝{病例a，病例b，…，病例j}，统计病例总数为N＝10；列出与样本实物相关的字段为集合S＝{血清，全血，DNA，RNA，Protein，系列样本}；列出与样本调用相关的字段为集合D＝{突变检测，表达谱检测，基因组测序}；统计病例集合中所有包含字段Wi的病例总数，表示为df(Wi)；后续计算步骤同实施例1，最后按“完备性评分一”从高到低列出样本供用户选择。

同时也列出其他条件不变，当集合D＝{临床体检，心电图，治疗资料，随访资料，突变检测，表达谱检测，基因组测序}时，计算得到的“完备性评分二”以作比较，如表8所示。

表8

顺序	病例	完备性评分一	病例	完备性评分二
					1	病例h	1.877	病例h	3.177
2	病例g	1.514	病例c	1.896
					3	病例i	1.487	病例b	1.883
4	病例d	1.291	病例j	1.883
					5	病例c	1.265	病例g	1.816
6	病例e	1.213	病例d	1.713
					7	病例b	1.116	病例f	1.688
8	病例j	1.116	病例e	1.538
					9	病例f	1.000	病例i	1.493
10	病例a	0.495	病例a	0.372

如表8中所示，进行过表达谱和基因组检测的病例g和i，按“完备性评分二”排序时位于5和9位，而按“完备性评分一”排序时位于2和3位，通过调整评分字段可以检索得到更符合用户需求的结果。因此本发明可根据用户需求灵活使用评价字段，灵活进行排序，通过量化评价生物样本完备性而得到提高生物样本利用效率的有益效果。

以上提供了对较佳实施例的描述，以使本领域内的任何技术人员可使用或利用本发明。对这些实施例的各种修改对本领域内的技术人员是显而易见的，可把这里所述的总的原理应用到其他实施例而不使用创造性。因而，本发明将不限于这里所示的实施例，而应依据符合这里所揭示的原理和新特征的最宽范围。

Claims

1.一种生物样本完备性的评价方法，是在一个生物样本库系统中依次按照以下步骤实现的：

（1）在储存子系统中保存样本实物和样本资料，在存储子系统中列出样本库中所有待评价病例为集合P，统计病例总数为N，列出与样本实物相关的字段Wi为集合S，列出与样本资料相关的字段Wi为集合D，统计病例集合中所有包含字段Wi的病例总数，表示为df(Wi)；

（2）在评分子系统中，针对集合S，计算字段Wi和病例p的相关性评分ScoreI(p,Wi)，评分公式为：

ScoreI (p, Wi) = \frac{C (Wi, p) \times \log (N / df (Wi) + k)}{\sqrt{Σ_{Wi &Element; S} {[C (Wi, p) \times \log (N / df (Wi) + k)]}^{2}}},

其中C(Wi,p)是字段Wi在病例p中出现的次数，

k是一个0.01到1之间的常数，

Wi∈S是与样本实物相关的集合S中的每个字段，

然后将集合S中的所有Wi的评分相加，得到病例p的实物评分ScoreS(p,S)，评分公式为：

ScoreS (p, S) = \underset{Wi &Element; S}{Σ} ScoreI (p, Wi);

（3）在评分子系统中，针对集合D，计算字段Wi和病例p的相关性评分ScoreI(p,Wi)，评分公式为：

ScoreI (p, Wi) = \frac{C (Wi, p) \times \log (N / df (Wi) + k)}{\sqrt{Σ_{Wi &Element; D} {[C (Wi, p) \times \log (N / df (Wi) + k)]}^{2}}},

其中C(Wi,p)是字段Wi在病例p中出现的次数，

k是一个0.01到1之间的常数，

Wi∈D是与样本资料相关的集合D中的每个字段，

然后将集合D中的所有Wi的评分相加，得到病例p的资料评分ScoreD(p,D)，评分公式为：

ScoreD (p, D) = \underset{Wi &Element; D}{Σ} ScoreI (p, Wi);

（4）在评分子系统中将病例p的实物评分和资料评分基于二次函数合并作为最终的完备性评分Value(p)，计算公式为：

Value(p)＝ScoreS(p,S)×ScoreD(p,D)；

（5）在储存子系统中按完备性评分高低从小到大对病例排序，同一病例所属样本的完备性评分相同，用户输入关键词搜索样本，检索子系统对符合要求的样本按对应病例的完备性评分高低从小到大顺序列出以供判断和选择。

2.根据权利要求1所述的一种生物样本完备性的评价方法，其特征在于，在进行步骤（1）前先列出停用病例集合nP和停用字段集合nW，这些集合中的病例和字段不用于后续计算。