CN111695131A

CN111695131A - 用于临床试验的文档管理方法及系统

Info

Publication number: CN111695131A
Application number: CN202010585211.1A
Authority: CN
Inventors: 袁钧; 王柏松; 奚文; 贾申科
Original assignee: Shanghai Yongzheng Pharmaceutical Technology Co ltd
Current assignee: Shanghai Yongzheng Pharmaceutical Technology Co ltd
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2020-09-22
Anticipated expiration: 2040-06-23
Also published as: CN111695131B; CN113806292A

Abstract

本发明揭示了一种用于临床试验的文档管理方法及系统，方法包括以下步骤：S1、账号管理模块建立人员账号，并通过私钥生成模块生成电子签名私钥；S2、通过模板定义模块建立若干模板；S3、项目初始化模块建立临床试验项目，并进行项目初始化；S4、文档上传模块通过模糊匹配算法将上传的文档分类存储至相应的文档目录下；S5、文档审批模块生成文档的审批人员列表，如审批通过则由审批人员通过电子签名子模块在文档上附加电子签名私钥进行签名；S6、日志记录模块对文档的编辑信息进行记录。本发明提供的一种用于临床试验的文档管理方法及系统可以提高临床试验文档管理效率并管控临床试验数据质量、数据采集过程合规性。

Description

用于临床试验的文档管理方法及系统

技术领域

本发明涉及临床试验数据管理技术领域，具体涉及一种用于临床试验的文档管理方法及系统。

背景技术

为帮助药物/医疗器械/体外诊断试剂研究取得更快的突破，当前药物/医疗器械/体外诊断试剂研发行业越来越鼓励研发者招募合适的受试者在药物/医疗器械/体外诊断试剂研发试验阶段参与临床试验。临床试验最终提交的数据是以文档形式体现的，而在整个临床试验过程中环节很多，相应产生的文档数量、种类也非常繁复。若单纯由人力进行上传、分类归档、审批等管理工作，效率低下。同时，临床试验对数据质量、数据采集过程合规性要求很高，单纯由人力进行管理无法实现数据质量、数据采集过程合规性的管控。

更为先进的，现有技术中有采用文档管理系统进行临床试验文档管理的技术方案，例如，申请号为：2018115907128的中国发明申请中就提供了一种临床试验文档管理系统及管理方法。该技术方案中包括临床试验文档编码子系统、临床试验文档归类存储子系统和临床试验文档管理子系统；其中，临床试验文档管理子系统用于收集临床试验相关的文档及数据，生成临床试验文档；临床试验文档编码子系统采用机构专业代码机制，用于对文档进行分类并编制与其对应的唯一的文件识别码；临床试验文档归类存储子系统对已编码的文档进行归类存储。该技术方案通过设置文件识别码并归类存储的方式在一定程度上提高了文档管理效率。

但是包括上述中国发明申请的现有临床试验文档管理方法及系统仍然具有以下缺点：

1、并未从事件、时间维度上对文档进行管理，无法体现文档的完整性、及时性(数据质量)；

2、需要通过人工给定关键词的方式进行半自动的分类，无法自动将上传的文档分类存储至相应的文档目录下，管理效率低；

3、电子签名只是通过指纹操作、人脸识别操作、虹膜识别等现有方式进行简单的身份标识，仍然存在篡改文档内容的可能性，无法管控文档真实性；

4、未对文档的编辑信息进行完整记录，难以实现文档编辑过程的全流程追溯，无法保证文档编辑的不可抵赖性。

综上所述，现有临床试验文档管理方法及系统在提高管理效率、管控临床试验数据质量、数据采集过程合规性的方向上仍然具有较大的提升空间。

发明内容

本发明的目的在于提供一种用于临床试验的文档管理方法及系统，以提高临床试验文档的管理效率，并对临床试验数据质量、数据采集过程合规性进行管控。

为实现上述发明目的之一，本发明采用如下技术方案：

一种用于临床试验的文档管理方法，包括以下步骤：

S1、账号管理模块建立人员账号，生成用户账号数据，并利用账号信息通过私钥生成模块为人员账号生成一一对应的电子签名私钥；

S2、通过模板定义模块建立若干模板，生成模板数据；

S3、项目初始化模块建立临床试验项目，读取文档管理员指定模板的模板数据、人员账号的用户账号数据并生成项目数据，以建立临床试验项目的文档目录、若干里程碑时间节点与各级文档目录的对应关系、人员账号对各级文档目录的访问权限；

S4、文档上传模块通过模糊匹配算法将上传的文档分类存储至相应的文档目录下，所述模糊匹配算法将上传的文档文件名作为目标字符串，将文档目录的叶子节点名及其别名作为模式字符串集合，判断目标字符串中是否包含模式字符串集合中的一个或多个模式字符串；

S5、文档审批模块生成文档的审批人员列表并供审批人员进行审批操作，如审批不通过则将文档退回文档上传人员修改，如审批通过则由审批人员通过电子签名子模块进行签名，所述电子签名子模块通过在文档上附加电子签名私钥防止签名后的文档被篡改；

S6、日志记录模块对文档的编辑信息进行记录，以便对文档的编辑过程合规性进行追溯。

作为本发明进一步改进的技术方案，所述模板数据包括多级文档目录的命名和各级文档目录间的上下级关系、临床试验项目内角色对各级文档目录的访问权限、里程碑清单以及各级文档目录与里程碑的对应关系。

作为本发明更进一步改进的技术方案，所述项目数据包括项目的基本信息、由指定模板的模板数据中获取的多级文档目录的命名和各级文档目录间的上下级关系、里程碑时间节点数据、人员账号与临床试验项目内角色的对应关系。

作为本发明进一步改进的技术方案，所述模糊匹配算法包括以下步骤：

将模式字符串集合转换为树状有限状态自动机；

将树状有限状态自动机构成的字符串树中最短模式字符串的最后端字符与目标字符串最后端字符对齐；

字符串树从前至后与目标字符串中对位的字符比较，失配时计算按坏字符跳转方法字符串树向前跳转长度和按好前缀跳转方法字符串树向前跳转长度，取其中较大的跳转长度进行跳转；

任一模式字符串与目标字符串中至少部分连续字符串完全匹配则判断该模式字符串与目标字符串匹配。

作为本发明更进一步改进的技术方案，所述坏字符跳转方法为：若字符串树的失配字符后端存在与目标字符串的失配字符匹配的字符，则将字符串树向前跳转至最接近的匹配字符与目标字符串的失配字符对齐的位置；若字符串树的失配字符后端不存在与目标字符串的失配字符匹配的字符，则将字符串树向前跳转至最短模式字符串的最后端字符与目标字符串的失配字符前方第一个字符对齐的位置。

作为本发明更进一步改进的技术方案，所述好前缀跳转方法为：若字符串树的失配字符后端存在子串与目标字符串中的好前缀匹配，则将字符串树向前跳转至最接近的匹配子串与目标字符串中的好前缀对齐的位置；若字符串树的失配字符后端不存在子串与目标字符串中的好前缀匹配，则在字符串树的失配字符后端中寻找与好前缀的前缀匹配的最长后缀，将字符串树向前跳转至该最长后缀与好前缀的前缀对齐的位置；若字符串树的失配字符后端不存在子串与目标字符串中的好前缀匹配或最长后缀与好前缀的前缀匹配，则将字符串树向前跳转至最短模式字符串的最后端字符与好前缀前方第一个字符对齐的位置。

作为本发明进一步改进的技术方案，还包括步骤S7：

S7、文档状态报告模块通过统计算法统计关键指标，以便展现文档的完整性和及时性；

所述关键指标包括文档完整度指标、文档质量指标、文档时效性指标、个人完整度指标、个人质量指标、个人时效性指标、个人超期率指标、个人退回率指标；

所述统计算法包括：

计算文档完整度指标，所述文档完整度指标为各里程碑中已归档的文档数量占里程碑中应归档文档数量的百分数；

计算文档质量指标，所述文档质量指标为各里程碑中一次性归档文档数量占里程碑中已归档文档数量的百分数；

计算文档时效性指标，所述文档时效性指标为各里程碑中归档时间在预设阈值时间内的文档数量占里程碑中已归档文档数量的百分数；

计算个人完整度指标，所述个人完整度指标为参与临床试验项目任一人员已归档的文档数量占个人应归档文档数量的百分数；

计算个人质量指标，所述个人质量指标为参与临床试验项目任一人员一次性归档文档数量占个人已归档文档数量的百分数；

计算个人时效性指标，所述个人时效性指标为参与临床试验项目任一人员归档时间在预设阈值时间内的文档数量占个人已归档文档数量的百分数；

计算个人超期率指标，所述个人超期率指标为参与临床试验项目任一人员超过截止时间上传的文档数量占个人上传文档数量总数的百分数；

计算个人退回率指标，所述个人退回率指标为参与临床试验项目任一人员被退回文档数占个人总上传文档数的百分数。

作为本发明进一步改进的技术方案，还包括步骤S8：

S8、文档审计模块调取日志记录模块中记录的文档编辑信息展示文档编辑过程，并进行预处理，以辅助审计，所述预处理包括对文档的若干版本进行比对，并标识出修改部分内容。

作为本发明进一步改进的技术方案，日志记录模块记录的文档编辑信息包括文档上传信息、文档审批信息、文档签名信息、文档下载信息、文档修改信息。

作为本发明更进一步改进的技术方案所述文档上传信息包括上传人员账号名、所用计算机的IP地址、MAC地址以及上传时间；

所述文档审批信息包括审批人员账号名、所用计算机的IP地址、MAC地址以及登录时间；

所述文档签名信息包括审批人员账号名、所用计算机的IP地址、MAC地址、签名时间以及签名在文档中的位置；

所述文档下载信息包括下载人员账号名、所用计算机的IP地址、MAC地址以及下载时间；

所述文档修改信息包括修改人员账号名、所用计算机的IP地址、MAC地址以及修改时间。

作为本发明进一步改进的技术方案，所述电子签名子模块在对文档进行签名操作时，通过对文档重命名标识正在进行签名操作的文档，避免多人同时签名，以保证文档的一致性。

作为本发明进一步改进的技术方案，所述电子签名子模块中存储有参与临床试验项目人员的墨迹签名数据，以在签名时插入文档中。

作为本发明进一步改进的技术方案，所述文档为PDF格式，所述电子签名子模块在PDF文档上附加电子签名私钥包括以下步骤：

将电子签名私钥插入PDF文档中；

使用SHA1算法计算插入电子签名私钥后的PDF文档的摘要信息；

将算得的摘要信息插入到电子签名之后。

为实现上述另一发明目的，本发明采用如下技术方案：

一种用于临床试验的文档管理系统，包括账号管理模块，以建立人员账号；

私钥生成模块，以为人员账号生成一一对应的电子签名私钥；

模板定义模块，以建立若干模板；

项目初始化模块，以建立临床试验项目，并进行项目初始化；

文档上传模块，以将上传的文档分类存储至相应的文档目录下；

文档审批模块，以生成文档的审批人员列表并供审批人员进行审批操作；所述文档审批模块中包括电子签名子模块，所述电子签名子模块通过在文档上附加电子签名私钥防止签名后的文档被篡改；

日志记录模块，以对文档的编辑信息进行记录；

文档状态报告模块，以通过统计算法统计关键指标；

文档审计模块，以调取日志记录模块中记录的文档编辑信息展示文档编辑过程，并进行预处理，以辅助审计；

所述文档管理系统用于执行上述文档管理方法。

相对于现有技术，本发明的技术效果在于：

通过建立临床试验项目的若干里程碑时间节点与文档目录的对应关系，从事件、时间维度上对文档进行管理，能够体现文档的完整性、及时性(数据质量)；

通过模糊匹配算法将上传的文档分类存储至相应的文档目录下，自动化程度高，有益于提高管理效率；

通过在文档上附加电子签名私钥并结合文档编辑信息的完整记录，使得文档内容不可篡改，以管控文档真实性；

对文档的编辑信息进行完整记录，以实现文档编辑过程的全流程追溯，保证临床试验文档编辑的不可抵赖性。

综上所述，本发明提供的一种用于临床试验的文档管理方法及系统可以提高临床试验文档管理效率并管控临床试验数据质量、数据采集过程合规性。

附图说明

图1是本发明实施方式中一种用于临床试验的文档管理方法的流程示意图；

图2是本发明实施方式中模糊匹配算法的字符串树、目标字符串初始状态示意图；

图3是本发明实施方式中模糊匹配算法第一次跳转后字符串树、目标字符串的状态示意图；

图4是本发明实施方式中模糊匹配算法第二次跳转后字符串树、目标字符串的状态示意图；

图5是本发明实施方式中模糊匹配算法的坏字符跳转方法的跳转状态示意图一；

图6是本发明实施方式中模糊匹配算法的坏字符跳转方法的跳转状态示意图二；

图7是本发明实施方式中模糊匹配算法的好前缀跳转方法的跳转状态示意图一；

图8是本发明实施方式中模糊匹配算法的好前缀跳转方法的跳转状态示意图二；

图9是本发明实施方式中模糊匹配算法的好前缀跳转方法的跳转状态示意图三；

图10是本发明实施方式中一种用于临床试验的文档管理系统的系统构成示意图。

具体实施方式

以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明，本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。

本具体实施方式以管理药物临床试验相关文档为例进行说明，但本发明提供的临床试验文档管理方法及系统不限于药物临床试验，还能够广泛应用于一般的临床试验，例如医疗器械临床试验、体外诊断试剂临床试验。

请参见图1，一种用于临床试验的文档管理方法，包括以下步骤：

S1、账号管理模块建立人员账号，生成用户账号数据，并利用账号信息通过私钥生成模块为人员账号生成一一对应的电子签名私钥。

需要说明的是，系统管理员使用账号管理模块建立人员账号时需要输入人员账号相关的自然属性信息，具体包括：用户名、密码、邮件地址、姓名、单位、部门、岗位名称、角色名称、国家、省、市、电话、失效日期。生成的用户账号数据用于保存人员账号相关的自然属性信息。

账号信息是生成电子签名私钥所需的信息，具体包括：账号、姓名、部门、单位、国家。电子签名私钥生成后账号信息保存在私钥文件中。

账号管理模块建立人员账号时，私钥生成模块使用系统CA根证书为人员账号生成私钥文件，作为该人员账号的电子签名私钥。该电子签名私钥具备特定的MD5和SHA1摘要字符串，无法伪造。

S2、通过模板定义模块建立若干模板，生成模板数据。建立模板时模板数据由系统管理员定义，模板数据包括多级文档目录的命名和各级文档目录间的上下级关系、临床试验项目内角色对各级文档目录的访问权限(上传、审批、下载和审计)、里程碑清单以及各级文档目录与里程碑的对应关系。

表1是临床试验项目的文档目录节选示例，其中文档目录的命名有“监管”、“研究者手册和安全报告-1.1(3)”，“研究者手册和安全报告-1.1(3)”目录是“监管”目录的下级目录。

表1

临床试验项目的里程碑用于标识临床试验项目的若干重要事件，里程碑清单包括里程碑序号、里程碑名称、里程碑时间节点。表2是临床试验项目的里程碑清单示例。

里程碑序号	里程碑名称	里程碑时间节点
			1	合同签署	2020/4/22
2	首家中心启动	2020/4/24
			3	首例受试者首次访视	2020/4/27
4	最后受试者最后访视	2021/4/29
			5	所有中心关中心访视完成	2021/4/30
6	数据库锁定	2021/5/3
			7	CSR终稿	2021/5/5

表2

文档目录的每个叶子节点与某个里程碑对应，当文档管理员在项目初始化操作中输入里程碑时间节点后，相应文档目录文档上传的截止时间即可确定下来(与相应里程碑时间节点一致)。表3是文档目录的叶子节点与里程碑对应关系节选示例。

表3

请参看表2和表3，以叶子节点“研究者手册(现行版本)-1.1.1”为例，该叶子节点在表3中对应里程碑“首家中心启动”，表2中“首家中心启动”的里程碑节点时间为2020/4/24，以里程碑序号“2”关联表2、表3，则叶子节点“研究者手册(现行版本)-1.1.1”文档上传的截止时间也为2020/4/24。

通过模板定义模块预先建立若干模板供选择，有益于提升项目初始化速度，建立临床试验项目后文档管理员选取合适的模板，即可调用模板数据。

S3、项目初始化模块建立临床试验项目，读取文档管理员指定模板的模板数据、人员账号的用户账号数据并生成项目数据，以建立临床试验项目的文档目录、若干里程碑时间节点与各级文档目录的对应关系、人员账号对各级文档目录的访问权限。

所述项目数据包括项目的基本信息(包括项目代码、受试品种、试验分期、试验题目、治疗领域、适应症、申办单位、文档管理单位、所用模板)、由指定模板的模板数据中获取的多级文档目录的命名和各级文档目录间的上下级关系、里程碑时间节点数据、人员账号与临床试验项目内角色的对应关系。

根据模板数据中获取的多级文档目录的命名和各级文档目录间的上下级关系可建立临床试验项目的文档目录。

根据里程碑时间节点数据、文档目录与里程碑的对应关系可建立里程碑时间节点与文档目录的对应关系。

根据人员账号与临床试验项目内角色的对应关系可以使人员账号继承项目内角色对各级文档目录的访问权限，建立人员账号对各级文档目录的访问权限。

S4、文档上传模块通过模糊匹配算法将上传的文档分类存储至相应的文档目录下，所述模糊匹配算法将上传的文档文件名作为目标字符串，将文档目录的叶子节点名及其别名作为模式字符串集合，判断目标字符串中是否包含模式字符串集合中的一个或多个模式字符串。

目标字符串的长度大于模式字符串的长度，当目标字符串中包含模式字符串集合中的一个或多个模式字符串时(目标字符串中的部分连续字符或者整个目标字符串与模式字符串中字符、字符排序完全相同)匹配成功，将目标字符串对应的文档存储至模式字符串对应的文档目录叶子节点下。

所述模糊匹配算法包括以下步骤：

将模式字符串集合转换为树状有限状态自动机；

由于文档目录的叶子节点名及其别名数量很多，上传的文档(文件名)数量也很多，使用通常的轮流进行单模式匹配的效率极低，匹配时间与模式字符串数量成线性关系。而基于前缀将模式字符串集合转换为树状有限状态自动机后，可同时将多个模式字符串与目标字符串进行匹配，匹配时间不会因模式字符串的数量增加而显著增加，匹配效率高。

请参见图2，设有文档目录的叶子节点名及其别名(模式字符串)名称为：ethernetmovesme，ethernetisking，ethernetisdead和ethernetforever，共同构成模式字符串集合。上传的文档文件名为：nothingtoworryaboutinthis，作为目标字符串。

基于前缀将模式字符串集合转换为树状有限状态自动机，此处的“前缀”是指将模式字符串首字符对齐后，至少两个模式字符串中共有部分的字符，例如ehernet即为四个模式字符串所共有的前缀。基于前缀将模式字符串构成有限状态自动机后形成树状结构(字符串树)。其中ethernetisking或者ethernetisdead为最短模式字符串，则将上述两个模式字符串的最后端的字符g和d与nothingtoworryaboutinthis的最后端的字符s对齐。

需要说明的是，多数情况下，叶子节点名及其别名具有“前缀”，基于前缀将模式字符串集合转换为树状有限状态自动机。少数情况下，叶子节点名及其别名不具有“前缀”(叶子节点名及其别名首字符即不同)，此时基于前缀将模式字符串集合转换为树状有限状态自动机所构成的字符串树从首字符(首字符对齐)即分叉。

对齐后从前至后(图2中从左至右方向)比较字符串树、目标字符串中对位的字符，当某位置每个模式字符串中的字符均与目标字符串中对位的字符不同时判断为失配(当某位置只有部分模式字符串中的字符与目标字符串中对位的字符不同，而还有部分模式字符串中的字符与目标字符串中对位的字符相同时，沿着包含相同字符的模式字符串分支继续比较。失配位置之前的字符就与目标字符串中对位的字符不同的模式字符串在下次跳转前不参与失配比较和跳转计算)，失配时字符串树向前进行跳转，跳转后继续按照从前至后的顺序比较字符串树、目标字符串中对位的字符，发生失配时字符串树再次向前跳转，直至匹配成功或者字符串树的最前端字符超出目标字符串最前端字符时匹配结束。

以图2至4所示的模式字符串、目标字符串的模糊匹配过程为例。如图2所示，将字符串树中最短模式字符串的最后端字符与目标字符串最后端字符对齐后从前至后比较字符串树、目标字符串中对位的字符，发现首字符即发生失配(“e”与“r”不同)。按坏字符跳转方法计算跳转长度过程如下：寻找字符串树中字符e后端的字符中是否有r，结果找到e后第四个字符为r，则按坏字符跳转方法计算的跳转长度为四个字符。按好字符跳转方法计算跳转长度过程如下：由于首字符即发生失配，目标字符串中不存在好前缀，则按好前缀跳转方法计算的跳转长度为零个字符。字符串树取较大的跳转长度向前跳转四个字符。第一次跳转后字符串树与目标字符串的相对位置如图3所示，此时字符串树中e后端的第一个r与目标字符串失配位置的r对齐。继续从前至后比较字符串树、目标字符串中对位的字符，发现首字符又发生失配(“e”与“t”不同)。按坏字符跳转方法计算跳转长度过程如下：寻找字符串树中字符e后端的字符中是否有t，结果找到e后第一个字符为t，则按坏字符跳转方法计算的跳转长度为一个字符。按好字符跳转方法计算跳转长度过程如下：由于首字符即发生失配，目标字符串中不存在好前缀，则按好前缀跳转方法计算的跳转长度为零个字符。字符串树取较大的跳转长度向前跳转一个字符。第二次跳转后字符串树与目标字符串的相对位置如图4所示，此时字符串树中e后端的第一个t与目标字符串失配位置的t对齐。继续从前至后比较字符串树、目标字符串中对位的字符，发现首字符又发生失配(“e”与“g”不同)。按坏字符跳转方法计算跳转长度过程如下：寻找字符串树中字符e后端的字符中是否有g，结果找到e后第十三个字符为g，则按坏字符跳转方法计算的跳转长度为十三个字符。按好字符跳转方法计算跳转长度过程如下：由于首字符即发生失配，目标字符串中不存在好前缀，则按好前缀跳转方法计算的跳转长度为零个字符。字符串树取较大的跳转长度向前跳转十三个字符。字符串树向前跳转十三个字符后字符串树的最前端字符超出目标字符串最前端字符，匹配结束。

以下将结合附图5至9对模糊匹配算法中的坏字符跳转方法和好前缀跳转方法进一步说明。采用坏字符跳转方法和好前缀跳转方法结合的跳转方式，字符串树与目标字符串匹配过程中不用逐个字符跳转进行比较，整个匹配过程中字符串树的跳转次数少，匹配效率高。

所述坏字符跳转方法为：若字符串树的失配字符后端存在与目标字符串的失配字符匹配的字符，则将字符串树向前跳转至最接近的匹配字符与目标字符串的失配字符对齐的位置；若字符串树的失配字符后端不存在与目标字符串的失配字符匹配的字符，则将字符串树向前跳转至最短模式字符串的最后端字符与目标字符串的失配字符前方第一个字符对齐的位置。

请参见图5所示，以模式字符串是：babababa，目标字符串包含子串：bababb为例，模式字符串第六个字符为a(模式字符串的失配字符，或者说字符串树中的失配字符)，对位的目标字符串字符为b(目标字符串的失配字符)，发生失配，在本例中，字符串树的失配字符a后端存在与目标字符串失配字符匹配的字符b，将字符串树向前跳转一个字符，就能使得最接近失配字符a的匹配字符b与目标字符串的失配字符b对齐。此时坏字符跳转方法算得的字符串树向前跳转长度为一个字符。

请参见图6所示，以模式字符串是：babababa，目标字符串包含子串：bababc为例，模式字符串第六个字符为a(模式字符串的失配字符，或者说字符串树中的失配字符)，对位的目标字符串字符为c(目标字符串的失配字符)，发生失配，在本例中，字符串树的失配字符a后端不存在与目标字符串失配字符匹配的字符c，若该模式字符串babababa是字符串树中的最短模式字符串，将字符串树向前跳转三个字符，就能使得最短模式字符串的最后端字符a与目标字符串的失配字符前方第一个字符b对齐。此时坏字符跳转方法算得的字符串树向前跳转长度为三个字符。

所述好前缀跳转方法为：若字符串树的失配字符后端存在子串与目标字符串中的好前缀匹配，则将字符串树向前跳转至最接近的匹配子串与目标字符串中的好前缀对齐的位置；若字符串树的失配字符后端不存在子串与目标字符串中的好前缀匹配，则在字符串树的失配字符后端中寻找与好前缀的前缀匹配的最长后缀，将字符串树向前跳转至该最长后缀与好前缀的前缀对齐的位置；若字符串树的失配字符后端不存在子串与目标字符串中的好前缀匹配或最长后缀与好前缀的前缀匹配，则将字符串树向前跳转至最短模式字符串的最后端字符与好前缀前方第一个字符对齐的位置。

请参见图7所示，以模式字符串是：edcbgfedcba，目标字符串包含子串：edcbab为例，模式字符串第五个字符为g(模式字符串的失配字符，或者说字符串树中的失配字符)，对位的目标字符串字符为a(目标字符串的失配字符)，发生失配，在本例中，字符串树的失配字符g后端存在子串edcb与目标字符串中的好前缀edcb匹配，将字符串树向前跳转五个字符就能使最接近的匹配子串edcb与目标字符串中的好前缀edcb对齐。此时好前缀跳转方法算得的字符串树向前跳转长度为五个字符。需要说明的是，好前缀跳转方法中的好前缀指的是目标字符串失配字符前方的字符串。

请参见图8所示，以模式字符串是：edcbgfededc，目标字符串包含子串：edcbab为例，模式字符串第五个字符为g(模式字符串的失配字符，或者说字符串树中的失配字符)，对位的目标字符串字符为a(目标字符串的失配字符)，发生失配，在本例中，字符串树的失配字符g后端不存在子串edcb与目标字符串中的好前缀edcb匹配，但是字符串树的失配字符g后端存在与好前缀的前缀edc匹配的最长后缀edc，将字符串树向前跳转八个字符就能使最长后缀edc与好前缀的前缀edc对齐。此时好前缀跳转方法算得的字符串树向前跳转长度为八个字符。需要说明的是，好前缀的前缀，指的是好前缀由最前端字符开始向后连续的字符串，后缀是指模式字符串由最后端字符开始向前连续的字符串，最长后缀是指与好前缀的前缀完全匹配的后缀中，字符数最多的后缀。

请参见图9所示，以模式字符串是：edcbaaaaaaa，目标字符串包含子串：edcbab为例，模式字符串第六个字符为a(模式字符串的失配字符，或者说字符串树中的失配字符)，对位的目标字符串字符为b(目标字符串的失配字符)，发生失配，在本例中，字符串树的失配字符a后端不存在子串edcba与目标字符串中的好前缀edcba匹配，同时也不存在与好前缀edcba匹配的最长后缀，若模式字符串edcbaaaaaaa是字符串树中的最短模式字符串，将字符串树向前跳转十一个字符就能使最短模式字符串的最后端字符a与好前缀前方第一个字符对齐。此时好前缀跳转方法算得的字符串树向前跳转长度为十一个字符。

S5、文档审批模块生成文档的审批人员列表并供审批人员进行审批操作，如审批不通过则将文档退回文档上传人员修改，如审批通过则由审批人员通过电子签名子模块进行签名，所述电子签名子模块通过在文档上附加电子签名私钥防止签名后的文档被篡改。

进一步的，在本实施方式中所述文档为PDF格式，所述电子签名子模块在PDF文档上附加电子签名私钥包括以下步骤：

将电子签名私钥插入PDF文档中；

使用SHA1算法计算插入电子签名私钥后的PDF文档的摘要信息；

将算得的摘要信息插入到电子签名之后。

在文档上附加电子签名私钥可防止文档内容被修改。一旦附加了电子签名私钥的文档任意字节发生修改，则文档的摘要信息将与签名时插入在文档中的摘要信息不一致。PDF文件编辑或查看软件会识别出摘要信息的不一致，提示查看者文档“发生了未签名的更改“。在被再次附加电子签名私钥并插入新的摘要信息之前，这一不一致提示将始终存在。

如篡改者试图通过再次附加电子签名私钥的方式使摘要信息一致，则文档中附加的电子签名私钥会与日志记录模块中记录的签名时间和数量不一致，从而保证文档一旦篡改会立即被发现。

进一步的，所述电子签名子模块在对文档进行签名操作时，通过对文档重命名标识正在进行签名操作的文档，避免多人同时签名，以保证文档的一致性。

文档被多人同时签名的情况下，每次签名成功均会生成一份签名文档，如不进行解决，则会同时生成多份由不同人签名的文档，造成签名无法合并至同一文档中。而采用文档重命名的方式可以有效防止多人同时签名的情况出现，保障签名操作的一致性。

优选的，所述电子签名子模块中存储有参与临床试验项目人员的墨迹签名数据，以在签名时插入文档中。墨迹签名用于配合电子签名私钥标识审批人员的身份。

S6、日志记录模块对文档的编辑信息进行记录，以便对文档的编辑过程合规性进行追溯。文档的编辑信息以日志的形式记录在日志数据中。

进一步的，日志记录模块记录的文档编辑信息包括文档上传信息、文档审批信息、文档签名信息、文档下载信息、文档修改信息。

更进一步的，所述文档上传信息包括上传人员账号名、所用计算机的IP地址、MAC地址以及上传时间；

S7、文档状态报告模块通过统计算法统计关键指标，以便展现文档的完整性和及时性。

本发明通过建立临床试验项目的若干里程碑时间节点与文档目录的对应关系，从事件、时间维度上对文档进行管理，所以文档状态报告模块能够通过统计算法统计关键指标，展现文档的完整性、及时性(数据质量)，便于数据质量的管控。

所述关键指标包括文档完整度指标、文档质量指标、文档时效性指标、个人完整度指标、个人质量指标、个人时效性指标、个人超期率指标、个人退回率指标。

所述统计算法包括：

计算文档完整度指标，所述文档完整度指标为各里程碑中已归档的文档数量占里程碑中应归档文档数量的百分数，具体为，文档状态报告模块从项目数据中读取该项目下各级文档目录与里程碑的对应关系，计算出第i个里程碑所对应各级文档目录中应上传并审批完成(归档)的文档数T_i，然后从文档数据中读取该项目下所有文档状态，计算出第i个里程碑所对应各级文档目录中已上传并审批完成(归档)的文档数F_i，可得出每个里程碑中文档完整度指标I_i＝F_i/T_i×100％。并还可计算出该项目总体文档完整度指标TI＝∑_iF_i/∑_iT_i×100％。文档完整度指标用于统计各里程碑中归档文档的完整度情况，衡量期望文档是否按要求及时上传，快速定位缺失文档节点，敦促提高文档完整度。

计算文档质量指标，所述文档质量指标为各里程碑中一次性归档文档数量占里程碑中已归档文档数量的百分数，具体为，文档状态报告模块从文档数据中读取该项目下所有文档状态，计算出第i个里程碑所对应各级文档目录中已上传并审批完成(归档)的文档数F_i，并计算出第i个里程碑所对应各级文档目录中一次性归档的文档数Y_i，可得出每个里程碑中文档质量指标Z_i＝Y_i/F_i×100％。并还可计算出该项目总体文档质量指标ZI＝∑_iY_i/∑_iF_i×100％。文档质量指标用于分析文档问题原因，解决文档本身和上传的质量问题，确保文档质量随时供内部和外部核查。

计算文档时效性指标，所述文档时效性指标为各里程碑中归档时间在预设阈值时间内的文档数量占里程碑中已归档文档数量的百分数，具体为，文档状态报告模块从文档数据中读取该项目下所有文档状态，计算出第i个里程碑所对应各级文档目录中已上传并审批完成(归档)的文档数F_i，并计算出第i个里程碑所对应各级文档目录中在预设阈值时间内归档的文档数U_i，可得出每个里程碑中文档时效性指标X_i＝U_i/F_i×100％。并还可计算出该项目总体文档时效性指标XI＝∑_iU_i/∑_iF_i×100％。文档时效性指标用于评估文档从产生到归档完成时间的及时性以及统计在各个工作流当中的时间，统计时间以天为单位，敦促提高文档处理效率。其中预设阈值时间按经验优选为35天。

计算个人完整度指标，所述个人完整度指标为参与临床试验项目任一人员已归档的文档数量占个人应归档文档数量的百分数，具体为，文档状态报告模块从项目数据中读取该项目下所有文档目录与个人账号的对应关系，计算出第i个个人账号所对应所有文档目录中应上传并审批完成(归档)的文档数V_i，然后从文档数据中读取该项目下所有文档状态，计算出第i个个人账号所对应所有文档目录中已上传并审批完成(归档)的文档数A_i，可得出每个个人账号中文档完整度指标B_i＝A_i/V_i×100％。个人完整度指标用于从单个人员角度统计其所负责归档文档的完整度情况，衡量期望文档是否按要求及时上传，快速定位缺失文档人员，敦促提高文档完整度。

计算个人质量指标，所述个人质量指标为参与临床试验项目任一人员一次性归档文档数量占个人已归档文档数量的百分数，具体为，文档状态报告模块从文档数据中读取该项目下所有文档状态，计算出第i个个人账号所对应所有文档目录中已上传并审批完成(归档)的文档数A_i，并计算出第i个个人账号所对应所有文档目录中一次性归档的文档数C_i，可得出每个个人账号中文档质量指标D_i＝C_i/A_i×100％。个人文档质量指标用于从单个人员角度分析文档问题原因，解决文档本身和上传的质量问题，确保文档质量随时供内部和外部核查。

计算个人时效性指标，所述个人时效性指标为参与临床试验项目任一人员归档时间在预设阈值时间内的文档数量占个人已归档文档数量的百分数，具体为，文档状态报告模块从文档数据中读取该项目下所有文档状态，计算出第i个个人账号所对应所有文档目录中已上传并审批完成(归档)的文档数A_i，并计算出第i个个人账号所对应所有文档目录中在预设阈值时间内归档的文档数E_i，可得出每个个人账号中文档时效性指标G_i＝E_i/A_i×100％。个人文档时效性指标用于从单个人员角度评估其所负责归档文档从产生到归档完成时间的及时性以及统计在各个工作流当中的时间，统计时间以天为单位，敦促提高文档处理效率。其中预设阈值时间按经验优选为35天。

计算个人超期率指标，所述个人超期率指标为参与临床试验项目任一人员超过截止时间上传的文档数量占个人上传文档数量总数的百分数，具体为，文档状态报告模块从文档数据中读取该项目下所有文档状态，计算出第i个个人账号所对应所有文档目录中已上传的文档数K_i，并计算出第i个个人账号所对应所有文档目录中超过截止时间上传的文档数H_i，可得出每个个人账号中文档超期率指标J_i＝H_i/K_i×100％。个人文档超期率指标用于从单个人员角度评估其所负责上传文档中超过里程碑时间节点的情况。

计算个人退回率指标，所述个人退回率指标为参与临床试验项目任一人员被退回文档数占个人总上传文档数的百分数，具体为，文档状态报告模块从文档数据中读取该项目下所有文档状态，计算出第i个个人账号所对应所有文档目录中已上传的文档数K_i，并计算出第i个个人账号所对应所有文档目录中被退回的文档数L_i，可得出每个个人账号中文档退回率指标M_i＝L_i/K_i×100％。个人文档退回率指标用于从单个人员角度评估其所负责上传文档中因各种原因被退回的情况。

进一步的，还包括步骤S8：

文档版本比对并标识修改部分内容的方案采用现有技术中文档阅读器的版本比对、标识功能实现。

为实现上述另一发明目的，本发明采用如下技术方案：

请参见图10，一种用于临床试验的文档管理系统，包括账号管理模块，以建立人员账号；

模板定义模块，以建立若干模板；

日志记录模块，以对文档的编辑信息进行记录；

文档状态报告模块，以通过统计算法统计关键指标；

所述文档管理系统用于执行上述文档管理方法。

一种用于临床试验的文档管理系统1工作流程如下：

系统管理员使用账号管理模块10建立人员账号，采集该人员账号用户的墨迹签名，同时私钥生成模块11利用账号信息生成该账号的电子签名私钥13。

系统管理员使用模板定义模块12定义模板数据15，模板数据15包括多级文档目录的命名和文档目录间上下级关系、项目内角色对各级文档目录的访问权限(上传、审批、下载和审计)、里程碑清单以及各级目录与里程碑的对应关系。

文档管理员使用项目初始化模块20建立项目，项目初始化模块20读取指定的模板数据15以及用户账号数据14，生成项目数据25，项目数据包括项目的基本信息、项目的多级文档目录的命名和目录间上下级关系(完全复制模板数据)、项目里程碑清单的时间节点(此时间节点作为与里程碑清单项相对应的文档目录的截止时间点)、人员账号与项目内角色的对应关系(人员账号将继承目标数据中项目内角色对各级目录的访问权限)。

具备上传权限的项目成员使用文档上传模块21上传PDF格式的项目文档，上传时由系统根据上传的文件名进行模糊匹配(模糊匹配算法见上文所述)确定上传的文档目录，对于不能自动匹配的文档再人工指定上传的文档目录。文档上传后，文档上传模块21将上传人的账号名、所用计算机的IP地址、MAC地址以及上传时间发送至日志记录模块30，日志记录模块30将日志记录在日志数据33中。

文档上传完成后，根据项目初始化时定义的文档目录的访问权限确定审批人员列表，将上传的文档显示在文档审批模块22的待审批文档列表中，并对审批人可见。审批人查看待审批文档后，若认为可以通过，则点击审批通过按钮，输入密码、短信验证码和审批意见，选择签名在文档中的位置，系统将在文档的指定位置插入用户的墨迹签名和电子签名私钥。电子签名私钥文件的插入方法根据上文所述在PDF文档中插入电子签名私钥的步骤进行，可识别文档被篡改的痕迹。文档审批模块22将审批人的账号名、所用计算机的IP地址、MAC地址、签名时间以及签名在文档中的位置发送至日志记录模块30，日志记录模块30将日志记录在日志数据33中。

在审批签名操作时，系统会将文档文件重命名，添加.locked后缀，此时如有其他人员要对同一文档进行审批签名操作，系统首先会检测文档文件是否存在.locked后缀，存在则提示其他人员文档正在被签名，需稍后再进行审批签名操作，以保证该文档不会被多个人员同时进行审批签名操作。审批签名操作完成后，系统将文档文件再次重命名，去除.locked后缀。

待文档的所有审批人完成审批操作后，系统将文档状态更改为全部审批通过，可以通过文档下载模块23下载用于归档提交。文档下载后，文档下载模块23将下载人的账号名、所用计算机的IP地址、MAC地址以及上传时间发送至日志记录模块30，日志记录模块30将日志记录在日志数据33中。

项目的审计人如需追溯文档审批签名过程，可在文档审计模块31中查看，系统读取日志数据33，向审计人展现该文档的明细操作日志，包括系统之前记录的所有审批人的账号名、审批签名时所用计算机的IP地址、MAC地址、审批签名时间以及签名在文档中的位置。

项目经理使用文档状态报告模块40查看文档的关键指标，文档状态报告模块40通过读取项目数据25和文档数据24计算多种关键指标，关键指标的统计算法请参上文所述。

相对于现有技术，本发明的技术效果在于：

最后应说明的是：以上实施方式仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施方式对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施方式技术方案的精神和范围。

Claims

1.一种用于临床试验的文档管理方法，其特征在于，包括以下步骤：

S2、通过模板定义模块建立若干模板，生成模板数据；

2.根据权利要求1所述的一种用于临床试验的文档管理方法，其特征在于，所述模板数据包括多级文档目录的命名和各级文档目录间的上下级关系、临床试验项目内角色对各级文档目录的访问权限、里程碑清单以及各级文档目录与里程碑的对应关系。

3.根据权利要求2所述的一种用于临床试验的文档管理方法，其特征在于，所述项目数据包括项目的基本信息、由指定模板的模板数据中获取的多级文档目录的命名和各级文档目录间的上下级关系、里程碑时间节点数据、人员账号与临床试验项目内角色的对应关系。

4.根据权利要求1所述的一种用于临床试验的文档管理方法，其特征在于，所述模糊匹配算法包括以下步骤：

将模式字符串集合转换为树状有限状态自动机；

5.根据权利要求4所述的一种用于临床试验的文档管理方法，其特征在于，所述坏字符跳转方法为：若字符串树的失配字符后端存在与目标字符串的失配字符匹配的字符，则将字符串树向前跳转至最接近的匹配字符与目标字符串的失配字符对齐的位置；若字符串树的失配字符后端不存在与目标字符串的失配字符匹配的字符，则将字符串树向前跳转至最短模式字符串的最后端字符与目标字符串的失配字符前方第一个字符对齐的位置。

6.根据权利要求4所述的一种用于临床试验的文档管理方法，其特征在于，所述好前缀跳转方法为：若字符串树的失配字符后端存在子串与目标字符串中的好前缀匹配，则将字符串树向前跳转至最接近的匹配子串与目标字符串中的好前缀对齐的位置；若字符串树的失配字符后端不存在子串与目标字符串中的好前缀匹配，则在字符串树的失配字符后端中寻找与好前缀的前缀匹配的最长后缀，将字符串树向前跳转至该最长后缀与好前缀的前缀对齐的位置；若字符串树的失配字符后端不存在子串与目标字符串中的好前缀匹配或最长后缀与好前缀的前缀匹配，则将字符串树向前跳转至最短模式字符串的最后端字符与好前缀前方第一个字符对齐的位置。

7.根据权利要求1所述的一种用于临床试验的文档管理方法，其特征在于，还包括步骤S7：

所述统计算法包括：

8.根据权利要求1所述的一种用于临床试验的文档管理方法，其特征在于，还包括步骤S8：

9.根据权利要求1所述的一种用于临床试验的文档管理方法，其特征在于，日志记录模块记录的文档编辑信息包括文档上传信息、文档审批信息、文档签名信息、文档下载信息、文档修改信息。

10.根据权利要求9所述的一种用于临床试验的文档管理方法，其特征在于，所述文档上传信息包括上传人员账号名、所用计算机的IP地址、MAC地址以及上传时间；

11.根据权利要求1所述的一种用于临床试验的文档管理方法，其特征在于，所述电子签名子模块在对文档进行签名操作时，通过对文档重命名标识正在进行签名操作的文档，避免多人同时签名，以保证文档的一致性。

12.根据权利要求1所述的一种用于临床试验的文档管理方法，其特征在于，所述电子签名子模块中存储有参与临床试验项目人员的墨迹签名数据，以在签名时插入文档中。

13.根据权利要求1所述的一种用于临床试验的文档管理方法，其特征在于，所述文档为PDF格式，所述电子签名子模块在PDF文档上附加电子签名私钥包括以下步骤：

将电子签名私钥插入PDF文档中；

使用SHA1算法计算插入电子签名私钥后的PDF文档的摘要信息；

将算得的摘要信息插入到电子签名之后。

14.一种用于临床试验的文档管理系统，其特征在于，包括账号管理模块，以建立人员账号；

模板定义模块，以建立若干模板；

日志记录模块，以对文档的编辑信息进行记录；

文档状态报告模块，以通过统计算法统计关键指标；

所述文档管理系统用于执行权利要求1-13所述的文档管理方法。