CN111916161B

CN111916161B - 用于临床试验过程中多数据源采集转换的方法及装置

Info

Publication number: CN111916161B
Application number: CN202010585461.5A
Authority: CN
Inventors: 袁钧; 王柏松; 奚文; 贾申科
Original assignee: Shanghai Yongzheng Pharmaceutical Technology Co ltd
Current assignee: Shanghai Yongzheng Pharmaceutical Technology Co ltd
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2021-04-16
Anticipated expiration: 2040-06-23
Also published as: CN111916161A

Abstract

本发明涉及一种用于临床试验过程中多数据源采集转换的方法及装置、电子设备、存储介质。一种用于临床试验过程中多数据源采集转换的方法包括：建立标准化的SDTM数据库步骤，根据SDTM标准在临床试验系统中建立标准化的SDTM数据库；多数据源采集步骤，实时的采集多数据源的试验数据；数据转换步骤，在临床试验系统中建立所述试验数据和SDTM数据的映射关系，所述映射关系通过模糊匹配算法方式建立；根据映射关系将试验数据转换成SDTM数据。本发明是把原有人工转换过程替换为智能化的转换过程，提高了数据转换和管理的效率。大大减少了人力物力的投入，使得临床试验数据管理的效率和质量大幅提高。

Description

用于临床试验过程中多数据源采集转换的方法及装置

技术领域

本发明涉及临床试验领域，尤其涉及一种多数据源采集转换的方法、多数据源采集转换的装置、电子设备以及计算机可读存储介质。

背景技术

国家食品药品监督管理局和美国FDA(Food and DrugAdministration)及很多国家监管机构对递交的临床试验数据要求或鼓励遵从临床数据交换标准协会(CDISC，Clinical Data Interchange Standards Consortium)标准的研究数据表格模型(SDTM，Smdy Data Tabulation Model)和分析数据模型ADaM(Analysis Data Model)。

CDISC提供了一整套用于临床试验的研究数据和元数据采集、交换、提交和存档的标准，包括临床数据获取协调标准(CDASH)、实验室数据模型(LAB)、操作数据模型(ODM)、研究数据表格模型(SDTM)、分析数据模型(ADaM)，以及受控术语(Controlled Terminology)等。行业内已经开始逐渐应用CDISC标准，应用CDISC标准，可以缩短研究时间和提高数据质量。当前，从多来源的试验数据(EDC，CTMS，eTMF等)，到生成SDTM数据，还多处于手工处理阶段，人工操作不仅工作量巨大，且容易出错。自动化工具还不完善，没有成熟的商业工具。

人工转换形式为：如图12所示，将常规的受试者病例报告表CRF数据格式转换成SDTM数据格式，其人工转换步骤中包括：

1、如图13所示：现有人工数据转换步骤1-对CRF表格式数据进行注释；

2、如图14所示：现有人工数据转换步骤2-人工建立映射关系。

现有专利中：用于临床试验数据的原始文件映射、管理方法及其系统，专利号为：CN109147883A，其通过建立结构化试验数据与原始文件之间的映射关系，在获取结构化试验数据的时候能自动根据映射关系调取对应的原始文件，当后续发现数据出现问题或者临床监察员对数据进行质疑时，可以自动显示对应的原始文件，从而大大节省了查找原始文件的时间并且能有效降低原始文件丢失的风险，确保临床试验的进度。可见它要解决的问题是怎么样快速发现问题数据的原文件，并不能解决多数据源的试验数据怎么样通过计算机转换成SDTM数据，从而解决临床试验系统中多数据源整合转换的问题。

因此，亟需一种基于CDISC标准，根据多来源数据(EDC，CTMS，eTMF等)的特点开发的自动化工具，将多来源的数据均转换为标准的SDTM格式数据，以减少数据管理的时间和成本、提高数据管理的质量。最终实现临床试验数据采集、管理、预警、分析，以及据此建立合理的临床试验研究资源调配等一体化的临床试验系统。解决整个临床试验系统中的关键环节：数据转换的实现，且该工具可用于所有的临床研究。

发明内容

本发明的目的是克服现有技术存在的缺陷，提供一种用于临床试验过程中多数据源采集转换的方法及装置、电子设备、存储介质。

本发明解决其技术问题所采用的技术方案是：一种用于临床试验过程中多数据源采集转换的方法，包括：

建立标准化的SDTM数据库步骤，根据SDTM标准在临床试验系统中建立标准化的SDTM数据库；

多数据源采集步骤，实时采集多数据源的试验数据；

数据转换步骤，在临床试验系统中建立所述试验数据和SDTM数据的映射关系，所述映射关系通过模糊匹配算法方式建立；根据映射关系将试验数据转换成SDTM数据。

根据本发明的另一个实施例，进一步包括所述SDTM是临床数据交换标准协会CDISC规定的研究数据表格模型。

根据本发明的另一个实施例，进一步包括所述多数据源包括原始数据、电子数据采集系统EDC、随机化与试验药物管理系统RTSM、医学编码系统MedCoding、临床试验全文档管理系统eTMF、临床试验项目管理系统CTMS、药物安全管理系统PV、患者报告结局PRO；

根据本发明的另一个实施例，进一步包括所述的试验数据含有变量和变量标签，所述的变量标签是由字符串组成，所述字符串与模糊匹配算法中的目标字符串相对应。

根据本发明的另一个实施例，进一步包括所述建立标准化的SDTM数据库步骤中包括设置项目环境、项目信息、各类文件保存位置和试验数据读取周期，所述项目环境和项目信息是依据临床试验项目来设置。

根据本发明的另一个实施例，进一步包括所述建立标准化的SDTM数据库中设有SDTM的域和每个域变量及其SDTM受控术语；其中所述的域变量包括：标识变量、主题变量、时间变量和修饰语变量；域变量和SDTM受控术语由字符串组成，所述字符串与模糊匹配算法中的模式字符串相对应。

根据本发明的另一个实施例，进一步包括所述的域包括不良事件域、生命体征数据域、人口学数据域、实验室检查数据域、受试者访视域、心电图数据域、既往疾病数据域、合并用药数据域、药物暴露域、生活质量量表评分域；每个所述的域采用唯一的两个字符代码来表示，每个所述的域包含不同的域变量。

根据本发明的另一个实施例，进一步包括所述模糊匹配算法包括步骤为：

将模式字符串集合转换为树状有限状态自动机；

将树状有限状态自动机构成的字符串树中最短模式字符串的最后端字符与目标字符串最后端字符对齐；

字符串树从前至后与目标字符串中对位的字符比较，失配时计算按坏字符跳转方法字符串树向前跳转长度和按好前缀跳转方法字符串树向前跳转长度，取其中较大的跳转长度进行跳转；

任一模式字符串与目标字符串中至少部分连续字符串完全匹配则判断该模式字符串与目标字符串匹配。

根据本发明的另一个实施例，进一步包括所述坏字符跳转方法为：若字符串树的失配字符后端存在与目标字符串的失配字符匹配的字符，则将字符串树向前跳转至最接近的匹配字符与目标字符串的失配字符对齐的位置；若字符串树的失配字符后端不存在与目标字符串的失配字符匹配的字符，则将字符串树向前跳转至最短模式字符串的最后端字符与目标字符串的失配字符前方第一个字符对齐的位置。

根据本发明的另一个实施例，进一步包括所述好前缀跳转方法为：若字符串树的失配字符后端存在子串与目标字符串中的好前缀匹配，则将字符串树向前跳转至最接近的匹配子串与目标字符串中的好前缀对齐的位置；若字符串树的失配字符后端不存在子串与目标字符串中的好前缀匹配，则在字符串树的失配字符后端中寻找与好前缀的前缀匹配的最长后缀，将字符串树向前跳转至该最长后缀与好前缀的前缀对齐的位置；若字符串树的失配字符后端不存在子串与目标字符串中的好前缀匹配或最长后缀与好前缀的前缀匹配，则将字符串树向前跳转至最短模式字符串的最后端字符与好前缀前方第一个字符对齐的位置。

根据本发明的另一个实施例，进一步包括所述多数据源采集转换的方法具体步骤包括：

S01：在临床试验系统中建立SDTM数据库；

S02：将多数据源的试验数据实时的导入到临床试验系统中；

S03：通过模糊匹配算法将试验数据的变量标签与SDTM数据库中的域变量和SDTM受控术语进行模糊匹配，建立映射关系；

S04：根据映射关系将试验数据转换为SDTM数据，并对每个域变量进行标识。

根据本发明的另一个实施例，进一步包括还包括S05：对生成的SDTM格式数据进行验证并生成验证报告。

根据本发明的另一个实施例，进一步包括所述S03中还包括S031：根据映射关系自动生成注释受试者病历报告表aCRF和编程规范说明。

根据本发明的另一个实施例，进一步包括一种用于临床试验系统中多数据源采集转换的装置，包括：

建立SDTM库模块，用于放置转换后的数据；

多数据源采集模块，用于采集各种数据源的试验数据；

映射匹配模块，通过模糊匹配算法建立试验数据和SDTM数据之间的映射关系；

数据转换模块，用于将试验数据转换成SDTM格式数据。

根据本发明的另一个实施例，进一步包括一种电子设备，其包括：

处理器；以及，存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行上述中任一项所述的方法。

根据本发明的另一个实施例，进一步包括一种计算机可读存储介质，其中所述计算机刻度存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现上述中任一项所述的方法。

本发明的有益效果：本发明解决了背景技术中存在的缺陷，通过模糊匹配算法将试验数据与SDTM数据建立映射关系，再通过已建立的映射关系实时的把试验数据及时转化为SDTM数据，把原有人工转换过程替换为智能化的转换过程，提高了数据转换和管理的效率。大大减少了人力物力的投入，使得临床试验数据管理的效率和质量大幅提高。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明多数据源采集转换方法的示意图；

图2是本发明实施方式中模糊匹配算法的字符串树、目标字符串初始状态示意图；

图3是本发明实施方式中模糊匹配算法第一次跳转后字符串树、目标字符串的状态示意图；

图4是本发明实施方式中模糊匹配算法第二次跳转后字符串树、目标字符串的状态示意图；

图5是本发明实施方式中模糊匹配算法的坏字符跳转方法的跳转状态示意图一；

图6是本发明实施方式中模糊匹配算法的坏字符跳转方法的跳转状态示意图二；

图7是本发明实施方式中模糊匹配算法的好前缀跳转方法的跳转状态示意图一；

图8是本发明实施方式中模糊匹配算法的好前缀跳转方法的跳转状态示意图二；

图9是本发明实施方式中模糊匹配算法的好前缀跳转方法的跳转状态示意图三；

图10是本发明的优选实施例的多数据源采集转换方法具体步骤的示意图；

图11是本发明的优选实施例的用于临床试验过程中多数据源采集转换的装置示意图；

图12是本发明的优选实施例的用于临床试验过程中多数据源采集转换的电子设备的示意图。

图13是现有人工转换的示意图；

图14是现有人工数据转换步骤1-对CRF表格式数据进行注释的示意图；

图15是现有人工数据转换步骤2-人工建立映射关系的示意图。

具体实施方式

以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明，本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。

本发明提供了一种用于临床试验过程中多数据源采集转换的方法，是临床试验系统中的一个重要环节，主要用于临床试验数据的采集和将采集的试验数据转换成SDTM格式的数据。

如图1所示，一种用于临床试验过程中多数据源采集转换的方法，包括：

S1：建立标准化的SDTM数据库步骤，根据SDTM标准在临床试验系统中建立标准化的SDTM数据库；

建立标准化的SDTM数据库步骤中包括设置项目环境、项目信息、各类文件保存位置和试验数据读取周期，所述项目环境和项目信息是依据临床试验项目来设置。

建立标准化的SDTM数据库中设有SDTM的域和每个域变量以及SDTM受控术语；域变量和SDTM受控术语由字符串组成，字符串与模糊匹配算法中的模式字符串相对应。SDTM受控术语是SDTM数据库中用到的域变量、域变量标签以及变量值的标准用语。

域是不同内容对应的临床试验数据的集合，域包括不良事件域、生命体征数据域、人口学数据域、注释域、受试者访视域、心电图数据域、受试者元素表；每个所述的域采用唯一的两个字符代码表示，所述的域变量按不同来源被分到相关的域中。

域变量是指每个域中不同数据的命名，域变量包括：标识变量、主题变量、时间变量和修饰语变量。

其中SDTM是临床数据交换标准协会CDISC规定的研究数据表格模型。CDISC标准：包括临床数据获取协调标准CDASH用以数据收集，研究数据列表模型SDTM用以数据交换和递交，分析数据模型ADaM用以数据分析。CDISC是一个全球、开放、多学科的非盈利性组织，建立了涵盖研究方案设计、数据采集、分析、交换、递交等环节的一系列标准，其目的是实现临床试验数据标准化，方便数据的交流与汇总分析，缩短研究时间和审批周期，提高临床试验数据质量以及统计分析的质量和效率。所以将多数据源转换成SDTM数据是大势所趋，也是本发明的采用SDTM数据格式的重要原因。

S2：多数据源采集步骤，实时的采集多数据源的试验数据；

试验数据含有变量和变量标签，所述的变量标签是由字符串组成，所述字符串与模糊匹配算法中的目标字符串相对应。

变量是指每类试验数据中不同数据的命名。变量标签是对变量的解释和描述。

所述多数据源包括原始数据、电子数据采集系统EDC、随机化与试验药物管理系统RTSM、医学编码系统MedCoding、临床试验全文档管理系统eTMF、临床试验项目管理系统CTMS、药物安全管理系统PV、患者报告结局PRO；

常见的数据来源说明如下：

1、EDC系统即Electronic Data Capture System，直译为电子数据捕获系统，是适用于临床试验数据采集和传输的平台软件。随着技术的进步，越来越多的数据管理功能被加入EDC系统中，主流的EDC系统不仅具有多种形式的数据采集功能，也有很强数据质疑功能；同时也会包含优良的用户间沟通方案，使同一个项目的各个用户能够围绕EDC系统中的数据进行有效的沟通。EDC系统因为其显著的优点，在欧关等发达国家的临床试验中已经被广泛采用，以替代传统的纸质病例报告表。国内EDC系统使用率有了很大提高。

临床试验数据的采集是药物临床研究中的核心内容，(1)纸质CRF工作流程真实、准确、及时、规范的数据采集能够显著提高临床试验的质量，缩短研究周期。在传统模式中，临床试验主要依靠纸质的受试者病例报告表CRF来完成数据的采集和管理过程。纸质CRF无法保证数据的可靠性和安全性，而且数据采集和管理周期较长，拖慢临床研究进程。EDC系统采用电子化CRF代替纸质CRF来对临床试验数据进行收集和管理。(2)数据录入临床协调员CRC，将原始病历中采集的数据录入EDC系统中，系统的其他用户(如：研究者、临床监查员、数据管理员等)等可以实时看到系统上的数据更新。(3)编辑检查EDC系统可以通过建立数据库时设定的编辑检查，对CRC录入的数据自动进行核查。通常来说，EDC系统的编辑检查包括系统检查和逻辑检查。系统检查是指针对单一数据点数值进行检查，比如某项目入组最小年龄应大于18周岁，如果“年龄”一栏填写的数字小于18，系统会自动跳出质疑，并提示此处数值应大于18.逻辑检查是指在EDC系统的不同数据点之间进行逻辑上的检查，检查的逻辑来自于方案的要求。如“不良事件”处勾选了“有伴随用药”，而此次访视的“合并用药”处没有填写，系统会跳出质疑，并提示对填写的数据进行核对。与系统检查不同的是，逻辑检查对系统的要求更高，良好的程序结构有助于实现更为强大的逻辑检查功能。如果在建立病人数据库的时候设置充分的逻辑检查，可以为项目组节约很多时间。(4)权限控制EDC系统必须拥有精准的用户权限控制功能，以使每个用户的分工符合GCP或ICH-GCP规范。这些用户包括PI(签名)、CRC(数据录入、回答质疑、编码)、CRA(数据核查、发质疑)、DM(数据审核、发质疑、编码、冻结、锁库)等，以上权限实际操作中可能会有所出入，且不包含全部。(5)操作痕迹EDC系统应当遵循21CFR Part 11，即有关电子记录和电子签名的美国联邦法规。遵循该法规的EDC系统，每一次数据的修改、更新、审核、稽查、签名等都会留下痕迹，并且可以被授权的人查看。(6)数据导出主流的EDC系统已经通过CDISC ODM认证，数据导出符合CDISC ODM标准，因此不需要对数据格式进行重新加工。

2、临床试验全文档管理系统(eTMF)是文档的整个流程以电子方式进行，与纸质工作模式相比节省大量的工作时间成本与金钱成本，同时文档云存储，方便查找、关键风险因素可视化，大幅度提升工作效率与工作质量。帮助临床试验申办方、CRO和研究中心开展便利和简单的合作。拥有友好的用户操作界面和及时准确的技术支持，在帮助生命科学企业有效管理核心文档的同时，还能提升研究者及合作伙伴的操作体验，从而构建起一条整体临床链。可有效地保存、管理、跟踪与汇总临床试验文档，确保其完整、及时与准确。系统可提供文档创建、QC与审批的流程，并提供快速安全的访问、高级搜索、导出，并自带时间进度与任务提醒等功能，从而规范了临床试验文档的信息化管理过程并提高了临床试验文档的质量。可为药物|器械|疫苗的申办方、临床试验的CRO公司、临床研究机构等提供系统化、信息化的临床研究全文档管理，对提高临床研究质量起重要的作用。

3、临床试验项目管理系统(CTMS)是基于Web的规范化、集成化临床研究管理软件，通过对临床试验各个阶段的系统化管理，从而实现对试验项目的实时在线跟踪及监控。包括项目管理、进度管理、受试者管理、监察管理、稽查管理、物资管理、费用管理等，通过经费预算收支视图、进度甘特图、数据统计图等图形化方式，方便快捷掌握和管理多个项目的各个环节。可简化临床试验工作流程，全面管理临床试验执行过程中各个阶段，便于对项目全过程实施在线跟踪及监控管理。保障临床试验文档和数据的质量，有效缩短临床研究的周期，为药物上市赢得时间。

4、药物安全管理系统(PV)是面向药厂/CRO公司采集、管理、上报药品安全性数据的应用程序。遵循ICH《E2B(R3)：临床安全数据的管理：个例安全报告传输的数据元素》标准，助力药品上市许可持有人(MAH)收集、评估、评价、监测、研究药物安全，建立药物警戒管理体系，并按照国家监管部门要求对个例安全报告进行电子上报系统。

主要功能包括：系统管理员负责系统初始化、E2B上报设置等；账户管理员负责账号的管理，企业信息维护；PV经理负责录入产品和项目信息、病例提交和上报管理；原始病例来源管理员负责收集病例，文献管理；病例录入员则负责新增报告，回答质疑，病例，版本升级等；病例审核员负责发送质疑，录入上报跟踪；医学审评员负责医学审评和病例总结。

5、患者报告结局(PRO)是用来评估新的医疗产品的治疗效果一种非常重要的方式。通常认为PRO评估应用于评估一些概念，这些概念要么患者非常清楚，要么从患者角度可以被很好的测量。所以人们越来越重视一些定义准确且可靠的PRO量表。此外，技术的进步已经显著的增加了临床试验中电子化数据(ePRO)收集的功能和选项。从纸质数据到电子化PRO数据的转变已经增强了临床试验数据的完整性和精确性，且监管机构也鼓励这一转变。在各类ePRO平台的主要区别是在基于电话的交互式语音应答系统和基于屏幕的交互系统之间。基于触摸屏的手持设备已在临床试验中用于收集远程(即异地、无人监管的)PRO数据中发挥支柱作用。常规的方法是给受试者提供一个手持设备，该设备中配有了专用的软件程序。然而，现在临床试验中出现了新兴的取代物，即自带设备BYOD。远程PRO数据采集(通过一个可下载的应用程序或基于网络的数据收集门户)利用受试者自己的有上网功能的移动设备已成为可能，这正是由于个人智能手机和平板电脑的广泛使用。然而，在将BYOD视为常规实用的ePRO数据收集的方法的替代物之前，仍有一些关于它科学性和实用性的问题要解决。

S3：数据转换步骤，在临床试验系统中建立所述试验数据和SDTM数据的映射关系，所述映射关系通过模糊匹配算法方式建立；根据映射关系将试验数据转换成SDTM数据。

进一步的，根据S1、S2、S3所述，将SDTM数据库中的所有域变量和SDTM受控术语作为模式字符串集合。采集的试验数据的变量标签作为目标字符串。判断目标字符串中是否包含模式字符串集合中的一个或多个模式字符串。

目标字符串的长度大于模式字符串的长度，当目标字符串中包含模式字符串集合中的一个或多个模式字符串时(目标字符串中的部分连续字符或者整个目标字符串与模式字符串中字符、字符排序完全相同)匹配成功，建立试验数据变量与SDTM域变量的映射关系。

模糊匹配算法包括以下步骤：

基于前缀将模式字符串集合转换为树状有限状态自动机；

由于SDTM数据库中的域变量和SDTM受控术语数量很多，采集的试验数据的变量数量也很多，使用通常的轮流进行单模式匹配的效率极低，匹配时间与模式字符串数量成线性关系。而基于前缀将模式字符串集合转换为树状有限状态自动机后，可同时将多个模式字符串与目标字符串进行匹配，匹配时间不会因模式字符串的数量增加而显著增加，匹配效率高。

请参见图2，设SDTM数据库中域变量(模式字符串)名称为：ethernetmovesme，ethernetisking，ethernetisdead和ethernetforever，共同构成模式字符串集合。采集的试验数据中的变量标签名为：nothingtoworryaboutinthis，作为目标字符串。

基于前缀将模式字符串集合转换为树状有限状态自动机，其中的“前缀”是指将模式字符串首字符对齐后，至少两个模式字符串中共有部分的字符，例如ehernet即为四个模式字符串所共有的前缀。基于前缀将模式字符串构成有限状态自动机后形成树状结构(字符串树)。其中ethernetisking或者ethernetisdead为最短模式字符串，则将上述两个模式字符串的最后端的字符g和d与nothingtoworryaboutinthis的最后端的字符s对齐。

需要说明的是，多数情况下，SDTM数据库中的域变量和SDTM受控术语具有“前缀”，可以基于前缀将模式字符串集合转换为树状有限状态自动机。少数情况下，SDTM数据库中的域变量和SDTM受控术语不具有“前缀”(SDTM数据库中的域变量和SDTM受控术语即不同)，此时将模式字符串集合转换为树状有限状态自动机所构成的字符串树从首字符(首字符对齐)即分叉。

对齐后从前至后(图2中从左至右方向)比较字符串树、目标字符串中对位的字符，当某位置每个模式字符串中的字符均与目标字符串中对位的字符不同时判断为失配(当某位置只有部分模式字符串中的字符与目标字符串中对位的字符不同，而还有部分模式字符串中的字符与目标字符串中对位的字符相同时，沿着包含相同字符的模式字符串分支继续比较。失配位置之前的字符就与目标字符串中对位的字符不同的模式字符串在下次跳转前不参与失配比较和跳转计算)，失配时字符串树向前进行跳转，跳转后继续按照从前至后的顺序比较字符串树、目标字符串中对位的字符，发生失配时字符串树再次向前跳转，直至匹配成功或者字符串树的最前端字符超出目标字符串最前端字符时匹配结束。

以图2至4所示的模式字符串、目标字符串的模糊匹配过程为例。如图2所示，将字符串树中最短模式字符串的最后端字符与目标字符串最后端字符对齐后从前至后比较字符串树、目标字符串中对位的字符，发现首字符即发生失配(“e”与“r”不同)。按坏字符跳转方法计算跳转长度过程如下：寻找字符串树中字符e后端的字符中是否有r，结果找到e后第四个字符为r，则按坏字符跳转方法计算的跳转长度为四个字符。按好字符跳转方法计算跳转长度过程如下：由于首字符即发生失配，目标字符串中不存在好前缀，则按好前缀跳转方法计算的跳转长度为零个字符。字符串树取较大的跳转长度向前跳转四个字符。第一次跳转后字符串树与目标字符串的相对位置如图3所示，此时字符串树中e后端的第一个r与目标字符串失配位置的r对齐。继续从前至后比较字符串树、目标字符串中对位的字符，发现首字符又发生失配(“e”与“t”不同)。按坏字符跳转方法计算跳转长度过程如下：寻找字符串树中字符e后端的字符中是否有t，结果找到e后第一个字符为t，则按坏字符跳转方法计算的跳转长度为一个字符。按好字符跳转方法计算跳转长度过程如下：由于首字符即发生失配，目标字符串中不存在好前缀，则按好前缀跳转方法计算的跳转长度为零个字符。字符串树取较大的跳转长度向前跳转一个字符。第二次跳转后字符串树与目标字符串的相对位置如图4所示，此时字符串树中e后端的第一个t与目标字符串失配位置的t对齐。继续从前至后比较字符串树、目标字符串中对位的字符，发现首字符又发生失配(“e”与“g”不同)。按坏字符跳转方法计算跳转长度过程如下：寻找字符串树中字符e后端的字符中是否有g，结果找到e后第十三个字符为g，则按坏字符跳转方法计算的跳转长度为十三个字符。按好字符跳转方法计算跳转长度过程如下：由于首字符即发生失配，目标字符串中不存在好前缀，则按好前缀跳转方法计算的跳转长度为零个字符。字符串树取较大的跳转长度向前跳转十三个字符。字符串树向前跳转十三个字符后字符串树的最前端字符超出目标字符串最前端字符，匹配结束。

以下将结合附图5至9对模糊匹配算法中的坏字符跳转方法和好前缀跳转方法进一步说明。采用坏字符跳转方法和好前缀跳转方法结合的跳转方式，字符串树与目标字符串匹配过程中不用逐个字符跳转进行比较，整个匹配过程中字符串树的跳转次数少，匹配效率高。

所述坏字符跳转方法为：若字符串树的失配字符后端存在与目标字符串的失配字符匹配的字符，则将字符串树向前跳转至最接近的匹配字符与目标字符串的失配字符对齐的位置；若字符串树的失配字符后端不存在与目标字符串的失配字符匹配的字符，则将字符串树向前跳转至最短模式字符串的最后端字符与目标字符串的失配字符前方第一个字符对齐的位置。

请参见图5所示，以模式字符串是：babababa，目标字符串包含子串：bababb为例，模式字符串第六个字符为a(模式字符串的失配字符，或者说字符串树中的失配字符)，对位的目标字符串字符为b(目标字符串的失配字符)，发生失配，在本例中，字符串树的失配字符a后端存在与目标字符串失配字符匹配的字符b，将字符串树向前跳转一个字符，就能使得最接近失配字符a的匹配字符b与目标字符串的失配字符b对齐。此时坏字符跳转方法算得的字符串树向前跳转长度为一个字符。

请参见图6所示，以模式字符串是：babababa，目标字符串包含子串：bababc为例，模式字符串第六个字符为a(模式字符串的失配字符，或者说字符串树中的失配字符)，对位的目标字符串字符为c(目标字符串的失配字符)，发生失配，在本例中，字符串树的失配字符a后端不存在与目标字符串失配字符匹配的字符c，若该模式字符串babababa是字符串树中的最短模式字符串，将字符串树向前跳转三个字符，就能使得最短模式字符串的最后端字符a与目标字符串的失配字符前方第一个字符b对齐。此时坏字符跳转方法算得的字符串树向前跳转长度为三个字符。

所述好前缀跳转方法为：若字符串树的失配字符后端存在子串与目标字符串中的好前缀匹配，则将字符串树向前跳转至最接近的匹配子串与目标字符串中的好前缀对齐的位置；若字符串树的失配字符后端不存在子串与目标字符串中的好前缀匹配，则在字符串树的失配字符后端中寻找与好前缀的前缀匹配的最长后缀，将字符串树向前跳转至该最长后缀与好前缀的前缀对齐的位置；若字符串树的失配字符后端不存在子串与目标字符串中的好前缀匹配或最长后缀与好前缀的前缀匹配，则将字符串树向前跳转至最短模式字符串的最后端字符与好前缀前方第一个字符对齐的位置。

请参见图7所示，以模式字符串是：edcbgfedcba，目标字符串包含子串：edcbab为例，模式字符串第五个字符为g(模式字符串的失配字符，或者说字符串树中的失配字符)，对位的目标字符串字符为a(目标字符串的失配字符)，发生失配，在本例中，字符串树的失配字符g后端存在子串edcb与目标字符串中的好前缀edcb匹配，将字符串树向前跳转五个字符就能使最接近的匹配子串edcb与目标字符串中的好前缀edcb对齐。此时好前缀跳转方法算得的字符串树向前跳转长度为五个字符。需要说明的是，好前缀跳转方法中的好前缀指的是目标字符串失配字符前方的字符串。

请参见图8所示，以模式字符串是：edcbgfededc，目标字符串包含子串：edcbab为例，模式字符串第五个字符为g(模式字符串的失配字符，或者说字符串树中的失配字符)，对位的目标字符串字符为a(目标字符串的失配字符)，发生失配，在本例中，字符串树的失配字符g后端不存在子串edcb与目标字符串中的好前缀edcb匹配，但是字符串树的失配字符g后端存在与好前缀edcb匹配的最长后缀edc，将字符串树向前跳转八个字符就能使最长后缀edc与好前缀edcb对齐。此时好前缀跳转方法算得的字符串树向前跳转长度为八个字符。需要说明的是，好前缀跳转方法中的最长后缀是指模式字符串失配字符后端按从前至后顺序进行比对，与好前缀匹配字符最多的字符串，当存在多个最长后缀时，取最接近失配字符的最长后缀与目标字符串的好前缀对齐。

请参见图9所示，以模式字符串是：edcbaaaaaaa，目标字符串包含子串：edcbab为例，模式字符串第六个字符为a(模式字符串的失配字符，或者说字符串树中的失配字符)，对位的目标字符串字符为b(目标字符串的失配字符)，发生失配，在本例中，字符串树的失配字符a后端不存在子串edcba与目标字符串中的好前缀edcba匹配，同时也不存在与好前缀edcba匹配的最长后缀，若模式字符串edcbaaaaaaa是字符串树中的最短模式字符串，将字符串树向前跳转十一个字符就能使最短模式字符串的最后端字符a与好前缀前方第一个字符对齐。此时好前缀跳转方法算得的字符串树向前跳转长度为十一个字符。

进一步的，如图2所示，多数据源采集转换的方法具体步骤包括：

S01：在临床试验系统中建立SDTM数据库；

S02：将多数据源的试验数据实时的导入到临床试验系统中；

S031：根据映射关系自动生成注释受试者病历报告表aCRF和编程规范说明。

S04：根据映射关系将试验数据转换为SDTM数据，并对每个域变量进行标识；

S05：对生成的SDTM格式数据进行验证并生成验证报告。

本发明将基于实际临床试验项目，针对EDC系统或其他系统收集和管理临床试验数据，并借助变量映射关系生成通用的SDTM数据，实现临床试验数据标准化，实现由多数据源数据生成SDTM数据过程的自动化，提高生成SDTM数据效率，提高临床试验数据质量并缩短临床试验的时间。

此外，如图11所示，本发明还公开了一种用于临床试验过程中多数据源采集转换的装置1，包括：

SDTM数据库建立10模块，建立的SDTM数据11和SDTM描述文件12；

多数据源采集20模块，用于与外部数据源21连接，获取试验数据23和试验数据描述文件22；

映射匹配30模块，通过模糊匹配算法建立试验数据描述文件22中变量和SDTM描述文件12中的域变量之间的映射关系，形成映射描述文件31；

数据转换40模块，根据映射描述文件31将试验数据23转换成SDTM数据11。

此外，如图12所示，本发明还公开了一种电子设备100，图12所示的电子设备100仅是一个事例，不应对本发明实施例的功能和使用范围带来任何限制。

本实施例的电子设备100包括：处理器(CPU)101、内存102、硬盘103、输入接口104、输出接口105以及网络接口106。

处理器101是执行存储在内存102中的程序的运算装置。处理器101通过执行应用程序来实现电子设备100的各种功能。

内存102是易失性存储元件的RAM，暂时存储处理器101所执行的应用程序和执行应用程序时所使用的数据。

硬盘103是机械硬盘(HDD)、闪存硬盘(SSD)等大容量且非易失性的存储设备用于长期存储处理器101在执行程序时所使用的数据(例如，图11所示的SDTM数据11、SDTM描述文件12、试验数据描述文件22、试验数据23、映射描述文件31)、以及处理器101所执行的程序。即，程序从硬盘103读出，被加载到内存102，由处理器101执行，由此实现电子设备100的各功能。

输入接口104是连接有键盘、鼠标等输入装置并接受管理员的输入的接口。输出接口105是连接有显示器并以管理员能够观看的形式输出结果的接口。电子设备100的输入接口104和输出接口105仅用于管理员安装和运维电子设备100的应用程序。其他用户使用经由网络接口106与电子设备100连接的终端提供的输入装置和输出装置对系统进行操作。

处理器101所执行的应用程序经由网络提供给电子设备100，并存储在硬盘103中。

电子设备100是在物理上的一个计算机上或者多个计算机上构成的计算机系统，也可以在多个物理计算机资源上构建的虚拟计算机上运行。

此外，本发明还公开了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。

根据本发明的实施例的用于实现上述用于临床试验过程中多数据源采集转换的方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言-诸如Java、C++等，还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施例的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解，以上所描述的具体实施例仅用于解释本发明，并不用于限定本发明。由本发明的精神所引伸出的显而易见的变化或变动仍处于本发明的保护范围之中。

Claims

1.一种用于临床试验过程中多数据源采集转换的方法，其特征在于：包括：

多数据源采集步骤，实时采集多数据源的试验数据；

数据转换步骤，在临床试验系统中建立所述试验数据和SDTM数据的映射关系，所述映射关系通过模糊匹配算法方式建立，根据映射关系将试验数据转换成SDTM数据；

所述SDTM是临床数据交换标准协会CDISC规定的研究数据表格模型；

所述多数据源包括原始数据、电子数据采集系统EDC、随机化与试验药物管理系统RTSM、医学编码系统MedCoding、临床试验全文档管理系统eTMF、临床试验项目管理系统CTMS、药物安全管理系统PV、患者报告结局系统PRO；

所述的试验数据含有变量和变量标签，所述的变量标签是由字符串组成，所述字符串与模糊匹配算法中的目标字符串相对应；

所述建立标准化的SDTM数据库步骤中包括设置项目环境、项目信息、各类文件保存位置和试验数据读取周期，所述项目环境和项目信息是依据临床试验项目来设置；

所述建立标准化的SDTM数据库中设有SDTM的域和每个域变量及其SDTM受控术语，其中所述的域变量包括：标识变量、主题变量、时间变量和修饰语变量，域变量和SDTM受控术语由字符串组成，所述字符串与模糊匹配算法中的模式字符串相对应；

所述的域包括不良事件域、生命体征数据域、人口学数据域、实验室检查数据域、受试者访视域、心电图数据域、既往疾病数据域、合并用药数据域、药物暴露域、生活质量量表评分域；每个所述的域采用唯一的两个字符代码来表示，每个所述的域包含不同的域变量；

所述模糊匹配算法包括步骤为：

将模式字符串集合转换为树状有限状态自动机；

任一模式字符串与目标字符串中至少部分连续字符串完全匹配则判断该模式字符串与目标字符串匹配；

所述坏字符跳转方法为：若字符串树的失配字符后端存在与目标字符串的失配字符匹配的字符，则将字符串树向前跳转至最接近的匹配字符与目标字符串的失配字符对齐的位置；若字符串树的失配字符后端不存在与目标字符串的失配字符匹配的字符，则将字符串树向前跳转至最短模式字符串的最后端字符与目标字符串的失配字符前方第一个字符对齐的位置；

2.根据权利要求1所述的一种用于临床试验过程中多数据源采集转换的方法，其特征在于：所述多数据源采集转换的方法具体步骤包括：

S01：在临床试验系统中建立SDTM数据库；

S02：将多数据源的试验数据实时的导入到临床试验系统中；

S03:通过模糊匹配算法将试验数据的变量标签与SDTM数据库中的域变量和SDTM受控术语进行模糊匹配，建立映射关系；

3.据权利要求2所述的一种用于临床试验过程中多数据源采集转换的方法，其特征在于：还包括S05：对生成的SDTM格式数据进行验证并生成验证报告。

4.据权利要求2所述的一种用于临床试验过程中多数据源采集转换的方法，其特征在于：所述S03中还包括S031:根据映射关系自动生成注释受试者病历报告表aCRF和编程规范说明。

5.一种电子设备，其包括：

处理器；以及，存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行根据权利要求1-4中任一项所述的方法。

6.一种计算机可读存储介质，其中所述计算机刻度存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现权利要求1-4中任一项所述的方法。