CN101894327A

CN101894327A - 一种数字资源长期保存格式过时风险量化评估方法

Info

Publication number: CN101894327A
Application number: CN2010102273772A
Authority: CN
Inventors: 李超; 孟醒; 邢春晓
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2010-07-07
Filing date: 2010-07-07
Publication date: 2010-11-24

Abstract

本发明提供了一种数字资源长期保存格式过时风险量化评估方法，包括：预置一初始化评估问卷；根据所述问卷确定模型参数，构造并优化评估模型；综合各个用户针对所述评估问卷的答案，根据所述评估模型计算格式过时风险值。本发明通过领域知识量化来重用关于格式过时风险的领域经验和知识，减少人力需求，方便计算机系统共享和利用信息资源，以适应数字图书馆和档案馆中大规模资源处理的需求。

Description

一种数字资源长期保存格式过时风险量化评估方法

技术领域

本发明涉及数字资源管理领域，特别是涉及一种数字资源长期保存格式过时风险量化评估方法。

背景技术

数字资源长期保存关系到记录人类活动的珍贵数字信息的长期可用性和永久可读取性，并且随着数字化与信息化进程的不断深入越来越显出其重要性和紧迫性。目前，不仅许多国家纷纷把数字资源长期保存作为数字图书馆、数字档案馆和其它数字信息系统所支持的数字化社会的战略问题，在全球层面上，联合国教科文组织(UNESCO)和存储网络工业联盟(SNIA)也对该领域的工作大力地推动。

然而，数字信息具有不稳定性和易逝性，信息技术发展迅猛，读取这些数字信息的软、硬件设备也很快就面临过时和淘汰的危险。由于数字对象依赖于每隔几年甚至更短时间就会更新、变化和老化的硬件、软件、技术、标准、格式、模型等因素，其中的任一因素的失控，都会导致数字对象中包含的信息永久消失。

从计算机技术的角度来说，迁移(migration)与仿真(emulation)是目前最常用的两种数字资源长期保存方法。已经有不少的迁移和仿真工具和技术可供使用。但是，在面对海量的数字资源时，什么时候应该迁移(或仿真)，以达到预期的长期保存目标，是一个基础性的技术问题。迁移的目的不仅仅是为了避免数据的物理丢失，更为重要的是保护其内容逻辑信息的可理解性。这分别对应于本领域中的位流保存和逻辑保存。

位流保存仅仅避免了数据的物理丢失，无法避免解析、渲染、以及展示信息能力的丢失。随着软件(及其运行所依赖的软硬件环境)和格式的快速发展，保存完好的存储介质上的数据可能很快就成为无法解释的位流。逻辑保存是指保护数字信息不受解析其内容的应用程序、格式信息等的丢失、换代等逻辑因素的影响，使得数字信息所包含的逻辑信息得以保存。

对于数量众多的媒体类数字资源来说，其格式信息是逻辑保存的关键因素之一。如果数字资源的格式随着软硬件技术的更新而过时、又没有采取及时的迁移(或仿真)措施，即使并没有物理上的数据丢失，其逻辑信息也可能会永久无法获取。这就是数字资源长期保存中所指的格式风险问题。

对格式风险进行监控，以确定什么时候应该采取相应的措施(即保存技术与策略)，现有的工作还没有准确并高效的解决这个问题。现有的方法过于依赖专家的经验和知识、对格式风险仅仅是定性的判断，重复耗费大量的人力、无法利用计算机重用关于格式风险的经验和知识或进行高效处理。

总之，需要本领域技术人员迫切解决的一个技术问题就是：如何能够提供一种数字资源长期保存格式过时风险评估方法，可以保证评估结果的精确性、有效性，并且减少人力需求。

发明内容

本发明所要解决的技术问题是提供一种数字资源长期保存格式过时风险量化评估方法，可以保证评估结果的精确性、有效性，并且减少人力需求。

为了解决上述问题，本发明公开了一种数字资源长期保存格式过时风险量化评估方法，包括：

预置一初始化评估问卷；

根据所述问卷确定模型参数，构造并优化评估模型；

综合各个用户针对所述评估问卷的答案，根据所述评估模型计算格式过时风险值。

优选的，所述预置一初始化评估问卷包括：

确定用于衡量格式过时风险的各个影响因素，并依据各个影响因素预置所述问卷的题目；

预置所述问卷中每个题目的选项数目、以及对应选项答案的初始阈值。

优选的，根据所述问卷确定模型参数，构造并优化评估模型包括：

分别确定所述问卷中每个题目对格式过时风险值的影响权重；

分别确定所述问卷中每个题目各个选项答案的阈值；

分别确定所述问卷中每个题目各个选项的格式过时风险值。

优选的，利用数据分析中的ReliefFAttributeEval方法确定所述问卷中每个题目对格式过时风险值的影响权重，具体包括：

将每个用户对所述问卷中每个题目的答案以及每个用户针对所述格式的过时风险值的总体判断作为一个样本，针对多个用户对应有多个样本，并由多个样本构成样本集合；

将所述问卷中每个题目作为所述ReliefFAttributeEval方法中的属性；

将所述格式的过时风险值作为所述ReliefFAttributeEval方法中的目标类；

利用所述样本集合确定属性对目标类的影响权重。

优选的，分别确定所述问卷中每个题目各个选项答案的阈值包括：

(a)获得K个用户对初始化评估问卷回答的答案；

(b)根据所述回答判断评估模型是否达到调优目标；其中，当超过K/2个用户的答案集中在某一选项上时，评估模型没有达到调优目标；

(c)评估模型没有达到调优目标时，通过微调该选项答案的阈值进行优化，所述微调为缩小答案范围；

(d)评估模型优化后，获得K个用户针对当前问卷重新回答的答案，并返回步骤(b)，循环上述步骤直到评估模型达到调优目标。

优选的，所述分别确定所述问卷中每个题目各个选项的格式过时风险值包括：

针对所述问卷中每个题目，将各个选项按照过时风险严重程度由大到小排序，排序后的各个选项依次为P₁’...P_i’...P_N’；其中，1≤i≤N，N为题目的选项个数；

针对排序后的N个选项分别计算格式过时风险值V，选项P_i’的格式过时风险值

其中，W_E为选项P_i’所在题目E对格式过时风险值的影响权重，

为所述问卷所有题目对格式过时风险值的影响权重之和，M为所述问卷中题目的个数，x为格式过时风险值量化区间的下限，y为格式过时风险值量化区间的上限。

优选的，所述综合各个用户针对所述评估问卷的答案，根据所述评估模型计算格式过时风险值包括：

针对各个用户分别计算格式过时风险值risk；

其中，V_t为某一用户对所述问卷某一题目给出的答案对应的格式过时风险值，

，V_t∈{VP₁’...VP_i’...VP_N’}，1≤t≤M，1≤i≤N。

将每一个用户的格式过时风险值作为数据分析中SimpleKmeans方法中的一个样本，针对各个用户将多个样本组成样本集，运用SimpleKmeans方法汇总得到样本集的聚类中心，作为格式过时风险值。

优选的，所述综合各用户关于所述评估问卷的答案，根据所述评估模型计算某种格式的过时风险值包括：

针对所述问卷中的每一个题目，将每个用户对该题目的答案作为SimpleKmeans方法中的一个样本，多个用户对该题目的答案组成样本集，运用所述SimpleKmeans方法汇总得到样本集的聚类中心，作为每一个题目的标准答案，获得关于所述格式整个问卷的标准答案。

根据所述格式整个问卷的标准答案计算格式过时风险值risk’，

其中，Vt’为问卷中某一题目的标准答案对应的格式过时风险值，

Vt’∈{VP₁’...VP_i’...VP_N’}，1≤t≤M，1≤i≤N。

与现有技术相比，本发明具有以下优点：

本发明预置一初始化评估问卷，根据所述问卷确定并计算模型参数，构造并优化评估模型，并综合各用户针对所述评估问卷的答案，根据所述评估模型计算某种格式的过时风险值。本发明通过领域知识量化来重用关于格式过时风险的领域经验和知识，减少人力需求，方便计算机系统共享和利用信息资源，以适应数字图书馆和档案馆中大规模资源处理的需求。

同时，本发明中的风险量化方法所依赖的评估模型，其有效性和精确性依赖于模型中的若干参数。为此，本发明采用基于统计的方法根据评估反馈来自适应的完善和修正所述评估模型中的参数，也即，利用交互信息和成熟的数据分析的方法来动态的修正和完善格式过时风险量化模型，可以去除信息噪声、提高结果的可信度，进而使得依据所述评估模型产生的评估结果更能综合反映领域专家的群体观点、更具有参考性。

附图说明

图1是本发明实施例所应用的一般计算机系统的结构示意图；

图2是本发明实施例所应用的一种具体计算机系统的结构示意图；

图3是本发明实施例提供的一种用户回答问卷的逻辑处理流程图；

图4是本发明实施例提供的一种系统后台管理的逻辑处理流程图；

图5是本发明一种数字资源长期保存格式过时风险量化评估方法实施例的流程图；

图6是本发明实施例步骤102的子步骤的流程图；

图7是本发明实施中确定问卷中每个题目各个选项答案的阈值的流程图；

图8是本发明实施例中步骤13的一种子步骤的流程图；

图9是本发明实施例中步骤13的另一种子步骤的流程图；

图10是本发明实施例所述的树型决策示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

对于数量众多的媒体类数字资源来说，其格式信息是逻辑保存的关键因素之一。对格式风险进行监控，以确定什么时候应该采取相应的措施是数字资源长期保存中的主要任务。为此，本发明提出一种有效的基于风险量化的半自动化的数字资源长期保存格式过时风险评估方法。所述方法通过重用关于格式过时风险的领域经验和知识，减少人力需求、并方便计算机系统共享和利用，可适用于数字图书馆和档案馆等应用中大规模资源处理的情形。

本发明的核心构思之一在于：利用一套供用户(数字资源相关领域人员)参与回答的数据格式风险的评估问卷来采集汇总领域专家的知识和经验，并配合一个格式风险值评估模型来量化所述采集汇总的领域专家的知识和经验。按照风险的严重程度，所述格式风险值评估模型将格式过时风险值量化到(x，y]区间(其中，x＜y)。在按照所述方法进行格式风险值评估的过程中，将用数据分析和挖掘方法对所述评估问卷的结果进行处理。较之简单的平均法处理，采用数据分析和挖掘方法可以更好的去除噪声、提高结果的可信度，进而使得依据所述评估模型产生的评估结果更能综合反映领域专家的群体观点。本发明所述方法还采用一种基于统计的方法根据问卷的答案分布来完善和修正所述评估模型中的参数，使得所述评估模型能达到更好的量化效果。下面将对本发明一种自适应的数字资源长期保存格式风险量化评估方法的具体实施例进行说明。

图1是本发明实施例所应用的一般计算机系统的结构示意图，即本发明所述方法实现于如图1所示的计算机系统中。如图1所示，计算机系统的结构包括四层：应用程序层、数据库层、操作系统层和硬件层。最上层的应用程序层由相关的Web应用程序、函数库及Web服务器构成，直接面向计算机用户提供服务，在图1中只是示意性的给出应用程序的例子，本发明的适用范围不受此限制；数据库层负责管理和维护数据，并为上层应用程序层提供数据，图1中只是示意性的给出和本发明有关的数据库调用模块；操作系统层负责管理和维护底层硬件，并为上层应用程序提供运行环境，操作系统层包括很多复杂的组成部分，图1中只是示意性的给出和本发明有关的系统调用模块，其他组成部分省略；底层的硬件层由PC机构成，是计算机上层应用程序发出的操作的最终实现的层次。

图2是本发明实施例所应用的一种具体计算机系统的结构示意图。如图2所示，整个计算机系统分为四层，最上层是应用程序层，由WEKA函数库、Web服务器Tomcat 5.5.7和与本发明相关的Web应用程序构成；第二层是数据库层，由MySQL 5.0数据库构成；第三层是操作系统层，由Windows XP构成；最底层是硬件层，硬件层由PC机构成。图3是本发明实施例提供的一种用户回答问卷的逻辑处理流程图。用户登录本系统后，可以修改个人信息，回答问题以及编辑问卷答案。图4是本发明实施例提供的一种系统后台管理的逻辑处理流程图。本发明系统后台管理员即系统管理和维护人员，负责管理用户信息，修改和补充问卷的答案信息等。

下面详细介绍本发明所述的格式风险量化评估方法。

参照图5，示出了本发明一种数字资源长期保存格式过时风险量化评估方法实施例的流程图，包括：

步骤11，预置一初始化评估问卷；

具体的：系统设计者根据数字资源长期保存领域的特点以及各领域专家的领域知识，确定用于衡量格式过时风险的各个影响因素，并依据各个影响因素设计成评估问卷的题目。并且，系统设计者依照其领域知识及经验给出所述问卷中每个题目的选项数目N、以及N个选项(N为正整数)的初始状态；其中，所述初始状态是指对应选项答案的初始阈值。可以理解的是，对于每一个题目，可以设置不同的选项数目N。本方法所依赖的一个前提条件是：所述问卷中每个题目的选项数目N、以及N个选项的初始状态都是由具有一定领域知识和经验的设计者给出，不会出现选项数目过多或过少、选项的初始状态过于背离实际情况的极端状况。

通常，格式过时风险值risk位于一定的区间(x，y]内，其中，x＜y。在本发明实施例中，格式过时风险值的范围是(0，10]，risk值小于1或大于10，将退出问卷系统。需要说明的是，对于不同的评估问卷，格式过时风险值的区间可以设置不同的范围，则不同的取值代表不同的过时风险程度。例如，当格式过时风险值的范围为(0，100]时，risk＝100与格式过时风险值的范围为(0，100]时，risk＝10的过时风险程度是一样的。

进入问卷系统前，系统设计者给定所述格式F一个较高的过时风险初始值y＝10，每经过一个题目风险值就相应减小。本发明实施例中，问卷初始化结果如下所示：

1、题目：这个格式是一个基本格式吗？

选项：A、是 B、不是

【问题说明：设置该问题的目的是确定被评估的格式是不是可以被大多数软件支持的常见格式，即用户需要确定该格式是不是基本格式(base format)。比如说，对于*.txt(文本文件)，风险根本不是一个大问题。如果这个格式是一个基本格式，那么接下来的问题就不重要了。您可以给这个格式一个低风险值，不用再回答接下来的问题。】

2、题目：这个文件格式和版本有没有在一些能检索到信息资源中提到？

选项：A、有 B、没有 C、我不清楚

【问题说明：您能找到关于这个格式有用的信息，以确定它的风险值吗？有用的信息可能来自于格式信息注册库，研发者论坛，说明书，用户文档。关于一个格式的信息可以更好地帮助我们评估风险，但它本身并不是决定一个格式风险的主要因素。因此无论答案如何，风险值不变。】

3、题目：是否存在一个截止日期，到那个日期时，关于这个格式版本的正式支持将终止？如果有，截止日期距现在有多远？

选项：A、小于5年 B、大于5年小于10年 C、大于10年 D、尚不清楚

【问题说明：格式的提供商有没有明确给出一个日期，到那个日期时，关于这个格式版本的正式支持将终止？我们可以想象，对于一个格式提供支持的时间越短，潜在的风险会越大。如果支持终止日期未知，那么风险不变。】

4、题目：该格式版本发布至今经历了多少年？

选项：A：小于5年 B：大于5年小于10年 C：大于10年 D：尚不清楚

【问题说明：一个格式版本的年龄历史也会影响潜在风险。我们的假设是，这个格式越老，为这种格式提供服务的可能性就会越小，因此风险会越大。当然，公众的大量使用和支持工具的数量如果很多的话，可能会弥补这个缺陷。例如，TIFF version 3已经使用20多年了，如果年龄历史只是唯一的评估因素的话，那么它将有极大的风险。但是由于支持它的工具很多，因此风险不是很大。注：支持该格式的可用工具对风险的影响见问题6。如果格式版本的年龄历史不可知，风险不变。】

5、题目：这个版本之后，推出了多少个新的版本？

选项：A、2个以内 B、3至4个 C、5个以上 D、此格式已被废弃

【问题说明：如果该版本被它的后继版本所取代，那么它的风险会更大。我们的假设是，新版本的推出标明了技术的变化，这种技术的变化可能会暗示旧版本将不再兼容。如果问题4中的格式年龄历史不可知，那么一个版本的后继版本数也可能表示了它的发布至今的年龄历史。和其它的一切规则一样，这个问题同样有例外，有时，一个格式的新版本不受欢迎，而旧版本继续被广泛使用。同样，我们也不能单纯地从没有后继版本来推断这个版本风险不大，因为一个已经废弃了的格式的最后一个版本同样也是最新的版本。

6、题目：当前已知多少种这种格式的主要支持工具？

选项：A、只有1种 B：2至3种 C：4种以上 D：主要支持工具未知

【问题说明：如果这个格式设定的主要的制作工具(对于pdf，是adobe acrobat)和查看工具(对于pdf，是adobe reader)是确定的，那么这些工具应该能更好地支持本格式。如果对于这种格式有至少一种支持工具的话，那么这个工具的正常工作的依赖条件可以被确定。对像TIFF等格式，有不只一种确定的主要支持工具，那么在这种情况下，格式的风险会更低。如果不知道该格式的主要支持工具，转到第八个问题。】

7、题目：为了使最初设定的主要支持工具正常工作，有无特殊的或者关键的软硬件的依赖条件？

选项：A、无特殊软硬件要求 B、对软硬件要求较为宽松

C、对软硬件要求苛刻 D、软硬件要求未知

【问题说明：为了使最初设定的主要支持工具正常工作，应该有一些软硬件的依赖条件，这些条件可能是很关键或者是很特殊的。一个对软硬件环境有特殊要求的工具相对于那些对环境无特殊要求的工具，会使它支持的格式具有更大的风险。如果工具对于环境有特殊要求，记录下这个事实，风险不变。如果答案未知，记录下这个事实，风险不变。如果无特殊要求，可以考虑将风险进一步降低。】

8、题目：有多少种备选工具能针对本格式提供安全有效的支持？

选项：A、2种以内 B、多于2种 C、没有或未知

【问题说明：对于一种格式，用户应该有很多可选的备选工具，当然，每一种工具会有不同的服务质量。如果有多种支持工具，则风险进一步降低。如果除了最初设定的主要的支持工具外，没有其它备选工具，风险不变，如果最初设定的主要支持工具和其它备选工具都不存在，那么将风险提到最高，退出本调查。】

9、问题：对于每种备选支持工具，有无关键的软硬件要求？

选项：A、大多数备选工具无特殊软硬件要求 B、大多数备选工具软硬件要求较宽松

C、大多数备选工具软硬件要求较苛刻 D、我不知道

【问题说明：这个问题是考虑到其它备选支持工具正常工作有无关键的软硬件要求。如果有，记录下这些依赖条件，然后假定风险不变。如果未知，记录下这个事实，假定风险不变。备选支持工具中对软硬件无特殊要求的数目越多，风险也就越小。】

步骤12，根据所述问卷确定模型参数，构造并优化评估模型；

这一过程分为三个阶段，如图6所示，为步骤102的子步骤的流程图，包括：

子步骤121，分别确定所述问卷中每个题目对格式过时风险值的影响权重；

所述问卷中的每个题目对格式过时风险值总体的影响程度不完全相同，有一些题目对格式的过时风险值几乎有着决定性的作用，而有一些题目对格式的过时风险值的影响相对较小。因此需要一种方法，确定各个题目对于格式过时风险值总体的影响权重。

具体的，针对某被测格式F，确定实施例问卷中9个题目对格式过时风险值总体的影响权重。在本发明的优选实施例中，利用数据分析中的ReliefFAttributeEval方法确定所述问卷中每个题目对格式过时风险值的影响权重，具体包括：

利用数据分析方法中的ReliefFAttributeEval方法，每个用户关于所述问卷中9个题目的答案以及每个用户对所述格式F的各过时风险值的总体判断作为数据集中的一个样本，具体实施时，所述用户为本领域专家。针对多个专家对应有多个样本，并由多个样本构成样本集合；所述问卷中9个题目对应所述ReliefFAttributeEval方法中的属性；所述各领域专家对所述格式F的各过时风险值的总体判断作为所述ReliefFAttributeEval方法中的目标类；利用ReliefFAttributeEval方法时，方法各参数的选取均为默认值，得出所述问卷中9个题目各自的格式过时风险值的影响权重，即Wi，i∈[1，9]。

需要说明的是，在利用所述ReliefFAttributeEval方法时，需要在专家回答评估问卷问题之前或之后(顺序无影响)对某种格式的过时风险有个总体判断：风险值总体判断的范围在(x，(x+y)/2](本发明实施例中为(0，5])时赋予格式过时风险值的判断结果为低；风险值总体判断的范围在((x+y)/2，y](本发明实施例中为(5，10])赋予格式过时风险值的判断结果为高。

本发明实施例中采用ReliefFAttributeEval方法的优点是：

(1)、对属性的数据类型没有限制。

(2)、对属性间的关系不敏感：所述问卷中各题目间具有一定的依赖性，这对应于所述ReliefFAttributeEval方法中属性间的关系。许多其他方法需要假设各属性间独立不相关，而不适于本发明应用的场景。

(3)、不去除冗余属性：所述ReliefFAttributeEval方法会赋予所有和目标类相关的属性一定的影响权重，而不管该属性是否和其余属性冗余；这个特点十分符合本发明应用的场景，因为这里假设所述问卷中每个题目对格式的过时风险都有一定程度的影响，问卷不会是无用不相关问题的集合。

(4)、运行效率高：所述ReliefFAttributeEval方法的计算复杂度为O(tmN)，其中t为尝试次数，m为样本数，N为备选属性个数，与许多其他方法相比计算量很少。

子步骤122，分别确定所述问卷中每个题目各个选项答案的阈值；

本发明实施例所述方法，对于所述问卷中每个题目中的各个选项设定的影响权重值是等差分布的，各个选项答案的阈值设定的范围和精度不合乎实际技术现状将影响整个格式风险值评估模型的量化准确度。因此，每个题目的各个选项，答案的阈值的设定需要随着技术现状的更新而调整。

如图7所示，为确定问卷中每个题目各个选项答案的阈值的流程图。具体的，包括以下子步骤：

(1)、领域专家回答已初始化的评估问卷，获得K个领域专家对初始化评估问卷回答的答案；

(2)、根据问卷回答情况判断问卷模型是否达到调优目标；其中，K个专家针对某一格式参与回答问卷，当有超过K/2个专家的答案集中在某一选项上时，评估模型没有达到调优目标；

(3)、评估模型没有达到调优目标时，通过该选项答案的阈值进行优化，所述微调为适当缩小答案范围以达到优化模型的目的；

(4)、评估模型优化后，K个领域专家需要针对优化过的评估模型重新作答，获得重新回答的答案，并返回步骤(2)，循环上述步骤直到评估模型达到调优目标，即当所有选项的被选次数都不超过参与回答问卷的领域专家人数的一半(即K/2)时，则优化工作结束。

也就是说，若有K个专家针对某一格式参与问卷调查，有超过K/2个的专家的答案集中在某一选项P_i(i＝1，2..N，为所述题目选项的序号)上，则说明现有的选项阈值不够精准，即划分粒度过大，选项的划分没有起到区分风险值差异的作用，需要将选项P_i的阈值适当缩小为P_i-d(0≤d≤P_i)。此外，还可以对其他各选项的阈值进行微调(扩大相应的答案范围)，以此平衡各选项被选中的概率，减少由于选项阈值划分不当对格式过时风险值的影响。例如，对于题目3，有超过K/2个的专家的答案集中在选项A上，则调整选项A的答案阈值5，可以将小于5年调整为小于3年，并将选项B的答案阈值做相应调整，为“大于3年小于5年”。选项阈值微调之后，问卷的内容更新，此时需要所述各专家再次回答更新后的问卷。当更新后的问卷中选项阈值趋于合理，即所述步骤(2)中的情况不成立时，微调工作结束。否则，再次按步骤(3)进行选项答案的微调。

子步骤123，分别确定所述问卷中每个题目各个选项的格式过时风险值。

所述问卷中同一题目的不同选项对应的过时风险严重程度是不同的。因此本发明所述方法需要区分所述问卷中同一题目的不同选项间的差异，这种差异对应所述各选项不同的格式过时风险值。本发明实施例中，分别确定实施例问卷中9个题目各个选项的格式过时风险值。选项微调确定后，按各选项对格式过时风险值的影响从大到小排序，排序后每个选项的风险值随之确定，具体包括：

(1)、针对所述问卷中每个题目，例如对于某一题目E，其有N个选项依次为P₁..P_i..P_N(1≤i≤N)，将所述N个选项按照过时风险严重程度由大到小排序，排序后的N个选项依次为P₁’..P_i’..P_N’。

(2)、针对排序后的N个选项分别计算格式过时风险值V，方法如下：所述选项P′_i(1＜＝i＜＝N)的格式过时风险值为：

{VP}_{i}^{'} = (W_{E} / Σ_{1}^{M} Wj) \times (y - x) \times i / N;

其中，W_E即在上述子步骤121中求出的P_i’所在题目E对格式过时风险的影响权重，

为所述问卷所有题目对格式过时风险影响权重之和，M即所述问卷中题目的个数，x为格式过时风险值量化区间的下限，y为格式过时风险值量化区间的上限，(y-x)即格式风险值量化区间(x，y]对应的格式过时风险值阈值跨度。

在本发明的具体实施例中，题目个数M＝9；10为格式风险值量化区间(0，10]对应的格式过时风险值阈值跨度；通常情况下N＝4(即选项有A、B、C、D4个)。于是，选择题目E的选项P_i‘时过时风险值减少的量为VP_i‘。可依此构造本实施例所述问卷的格式风险值的评估模型，该模型用树型决策的方式表示如图10。其中，∑W＝W₁+W₂+......+W₉；∑V＝V₁+V₂+......+V₉；针对某些选项risk不变，或risk超出格式过时风险值量化区间范围，退出问卷系统。

步骤13，综合各个用户针对所述评估问卷的答案，根据所述评估模型计算格式过时风险值。

对于某种格式，本发明实施例所述方法一般需要五个以上的领域专家来回答问卷，以保证最终得到的格式过时风险值的可信度和可操作性。因此，需要综合所述各领域专家答案，汇总得到最终格式过时风险值。进一步，步骤13可以通过两种方式实现：

参照图8，示出了本发明实施例中步骤13的一种子步骤的流程图，包括：

子步骤A1，得到各专家的评估结果；

计算各领域专家关于所述格式F的过时风险值。针对各个专家分别计算格式过时风险值risk，

risk = y - Σ_{1}^{M} Vt, 1 \leq i \leq M, 1 \leq i \leqN;

其中，V_t为某一专家对所述问卷某一题目给出的答案对应的格式过时风险值，

V_t∈{VP₁’...VP_i’...VP_N’}，1≤t≤M。所述各领域专家关于格式F的过时风险值集为{risk1，risk2，...riskK...}，其中riskK即第K个领域专家针对格式F的过时风险值。

子步骤A2，汇总各专家的评估结果，得到最终格式过时风险值。

将所述每个领域专家针对所述格式F分别所得的各过时风险值{risk1，risk2，...riskK...}作为SimpleKmeans方法中的一个样本，针对各个专家，多个样本组成样本集，运用所述SimpleKmeans方法汇总得到各过时风险值样本集的聚类中心，即为本发明所得的最终结果：所述格式F的格式过时风险值。

参照图9，示出了本发明实施例中步骤13的另一种子步骤的流程图，包括：

步骤B1，汇总各专家的评估结果，得到问卷标准答案；

针对所述问卷中的每一个题目，将每个专家关于同一个题目的答案作为SimpleKmeans方法中的一个样本，多个专家关于同一个题目的答案组成样本集，运用所述SimpleKmeans方法汇总得到样本集的聚类中心，即所述每一个题目的标准答案，进而获得关于所述格式整个问卷的标准答案，所述格式F的标准答案集为{F1，F2...F9}。

步骤B2，根据问卷标准答案，计算格式过时风险值。

根据所述格式F整个问卷的标准答案，计算得到格式F的最终过时风险值，所述格式F的最终格式风险值为：

{risk}^{,} = y - Σ_{1}^{M} V t^{,}, 1 \leq t \leq M, 1 \leq i \leq N;

其中，Vt’即所述格式F的标准答案集中的第i个题目的格式过时风险值，y是格式F的过时风险的初始值，本发明实施例中为10。

上述方法的特点是：

(1)、效果好。所述SimpleKmeans方法尝试找出使平方误差函数最小的k(表示簇数目)个划分，当目标类是密集的，它的效果较好。对于本场景，专家的结果不会出现较为意外的情况，因此认为结果类是密集的。

(2)简单，快而有效。所述SimpleKmeans方法的复杂度为O(nkt)，其中n表示对象数目(这里指参与做题的领域专家的人数)，k表示簇数目(一般为N个选项)，t表示迭代次数。

所述实施例的全部方法步骤可以在图1所示的计算机系统中通过Web软件编程的方式来实现。所述Web软件可利用JAVA开发，可选择运行环境JRE 1.6.0。所述Web软件的开发环境可选择Myeclipse6.0+Jsp+Struts2.0。通过在图1所示的计算机系统中利用所述Web软件来实现所述实施例，其优点在于：处理和分发用于格式风险评估、计算的信息较为高效和便捷。

本发明实施例提出的一种数字资源长期保存格式过时风险量化评估方法，可以格式过时风险值量化，并数据处理过程具有一定的半自动化，通过重用关于格式过时风险的领域经验和知识，减少人力需求、并方便计算机系统共享和利用，可适用于数字图书馆和档案馆等应用中大规模资源处理的情形。

本发明实施例所述方法还能解决本土资源所依赖的特有的格式过时风险评估问题：很多中文数字资源来自本土内容制造和提供商，由于种种原因，它们采用了自主开发的软件及格式来生成、浏览、发布(如北大方正、超星、书生等等)。很多原因制约着这些资源的全球标准化，而大量的中文资源一旦在我国消失，也就在世界消失。国内外现有研究尚未覆盖上述本土格式的过时风险评估，本发明所述方法可适用于本土格式的过时风险评估，对于保护这类数字化的中文资源具有一定意义。

以上对本发明所提供的一种数字资源长期保存格式过时风险量化评估方法，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。