CN114566247B - Crf的自动生成方法和装置、电子设备和存储介质 - Google Patents

Crf的自动生成方法和装置、电子设备和存储介质 Download PDF

Info

Publication number
CN114566247B
CN114566247B CN202210413227.3A CN202210413227A CN114566247B CN 114566247 B CN114566247 B CN 114566247B CN 202210413227 A CN202210413227 A CN 202210413227A CN 114566247 B CN114566247 B CN 114566247B
Authority
CN
China
Prior art keywords
visit
data
task
periodic
crf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210413227.3A
Other languages
English (en)
Other versions
CN114566247A (zh
Inventor
杨涛
袁首
范伟
刘寓非
周永杰
王旭
彭瑀
王田
李龙
李思泽
杨宇星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Taimei Medical Technology Co Ltd
Original Assignee
Zhejiang Taimei Medical Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Taimei Medical Technology Co Ltd filed Critical Zhejiang Taimei Medical Technology Co Ltd
Priority to CN202210413227.3A priority Critical patent/CN114566247B/zh
Publication of CN114566247A publication Critical patent/CN114566247A/zh
Application granted granted Critical
Publication of CN114566247B publication Critical patent/CN114566247B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires

Abstract

本申请公开了一种CRF的自动生成方法和装置、电子设备和存储介质,该方法包括:从临床试验方案中定位研究流程图,以生成第一四元组数据,其中,研究流程图包括周期访视信息块、访视任务信息块、以及周期访视与访视任务的关联关系信息块;基于临床实验方案的全文生成第二四元组数据;从临床实验方案中抽取方案元数据,以生成第三四元组数据,其中,方案元数据包括试验领域、试验阶段、以及适应症;对第一四元组数据、第二四元组数据、以及第三四元组数据进行融合,获得融合四元组数据;基于知识图谱和融合四元组数据生成CRF。该CRF的自动生成方法融合了多维度提取的四元组数据,可以减少人为因素导致的CRF设计缺陷,提升CRF表单生成效率。

Description

CRF的自动生成方法和装置、电子设备和存储介质
技术领域
本申请属于机器学习技术领域,具体涉及一种CRF的自动生成方法和装置、电子设备和存储介质。
背景技术
病例报告表(Case Report Form,CRF),是按试验方案规定设计的一种文件,用以记录每一名受试者在试验过程中的数据,可用于向研究基地、申办者和统计部门提供临床试验的相关数据。临床试验数据电子采集(Electric Data Capture,EDC)系统适用于药物临床试验、医学随机对照试验和医学队列研究的核心信息化系统,其核心目的是用于记录受试者的信息,形成电子随访表单。
在EDC系统中,通常采用eCRF代替纸质CRF来对临床实验数据进行收集和管理。一个期望的使用场景中,是能够利用机器学习技术,根据输入的临床实验方案,自动输出符合EDC标准的eCRF表单数据库。
公开于该背景技术部分的信息仅仅旨在增加对本申请的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
发明内容
本申请的目的在于提供一种CRF的自动生成方法,其用于解决如何使用机器学习技术,根据临床试验方案进行CRF表单的自动生成问题。
为实现上述目的,本申请提供了一种CRF的自动生成方法,所述方法包括:
从临床试验方案中定位研究流程图,以生成第一四元组数据,其中,所述研究流程图包括周期访视信息块、访视任务信息块、以及周期访视与访视任务的关联关系信息块;
基于所述临床实验方案的全文生成第二四元组数据;
从所述临床实验方案中抽取方案元数据,以生成第三四元组数据,其中,所述方案元数据包括试验领域、试验阶段、以及适应症;
对所述第一四元组数据、第二四元组数据、以及第三四元组数据进行融合,获得融合四元组数据;
基于知识图谱和所述融合四元组数据生成CRF;
其中,所述第一四元组数据、第二四元组数据、第三四元组数据、以及融合四元组数据分别包括周期访视-访视任务-检查时间-检查项的对应关系信息。
在本申请的一个或多个实施例中,从临床试验方案中定位研究流程图,以生成第一四元组数据,具体包括:
对所述临床试验方案进行结构分析,以定位研究流程图;
对所述研究流程图进行文本解析,并拆分出周期访视信息块;
从所述周期访视信息块中抽取周期访视信息。
在本申请的一个或多个实施例中,所述周期访视信息包括访视所属周期、访视日期、基线、周期访视、以及窗口期中的至少一个;和/或,
基于文本序列标注模型,对所述周期访视信息块进行多语种文本的识别和归一化,以抽取所述周期访视信息。
在本申请的一个或多个实施例中,从临床试验方案中定位研究流程图,以生成第一四元组数据,具体包括:
对所述研究流程图进行文本解析,并拆分出访视任务信息块;
从所述访视任务信息块中识别访视任务,并与所述知识图谱中标准访视任务进行匹配,以获得第一候选访视任务集;
解析所述第一候选访视任务集中各访视任务对应的检查时间和检查项,以生成访视任务-检查时间对应关系信息和访视任务-检查项对应关系信息。
在本申请的一个或多个实施例中,从临床试验方案中定位研究流程图,以生成第一四元组数据,具体包括:
对所述研究流程图进行文本解析,并拆分出周期访视与访视任务的关联关系信息块;
对所述周期访视与访视任务的关联关系信息块进行文本处理,以生成周期访视-访视任务对应关系信息。
在本申请的一个或多个实施例中,从临床试验方案中定位研究流程图,以生成第一四元组数据,具体包括:
融合所述周期访视信息、访视任务-检查时间对应关系信息、访视任务-检查项对应关系信息、以及周期访视-访视任务对应关系信息,以生成所述第一四元组数据。
在本申请的一个或多个实施例中,基于所述临床实验方案的全文生成第二四元组数据,具体包括:
对所述临床试验方案的全文进行扫描,以获取访视任务、访视要求、以及周期访视信息中的至少两个;
基于所述访视任务、访视要求、以及周期访视信息中的至少两个,生成所述第二四元组数据。
在本申请的一个或多个实施例中,所述访视要求包括入组标准、排除标准、检查时间点、实验室检查项目、用药记录要求、以及评估量表信息中的至少一个。
在本申请的一个或多个实施例中,从所述临床实验方案中抽取方案元数据,以生成第三四元组数据,具体包括:
从所述临床试验方案中抽取方案元数据;
基于所述方案元数据查询所述知识图谱,以获得所述方案元数据适用的第二候选访视任务集;
基于所述第二候选访视任务集,生成所述第三四元组数据。
在本申请的一个或多个实施例中,对所述第一四元组数据、第二四元组数据、以及第三四元组数据进行融合,获得融合四元组数据,具体包括:
基于知识图谱,将所述第一四元组数据和第二四元组数据进行融合,获得子融合四元组数据;
将所述子融合四元组数据与第三四元组数据进行融合,获得所述融合四元组数据。
在本申请的一个或多个实施例中,所述第一四元组数据中周期访视不可缺失,且访视任务和检查项中至多缺失一元数据;
所述第二四元组数据中至多缺失两元数据,且访视任务和检查项不可同时缺失。
在本申请的一个或多个实施例中,基于所述知识图谱和融合四元组数据生成数据交换格式CRF,并将所述数据交换格式CRF翻译为EDC格式CRF。
本申请还提供一种CRF的自动生成装置,所述CRF的自动生成装置包括:
第一数据生成模块,用于从临床试验方案中定位研究流程图,以生成第一四元组数据,其中,所述研究流程图包括周期访视信息块、访视任务信息块、以及周期访视与访视任务的关联关系信息块;
第二数据生成模块,用于基于所述临床实验方案的全文生成第二四元组数据;
第三数据生成模块,用于从所述临床实验方案中抽取方案元数据,以生成第三四元组数据,其中,所述方案元数据包括试验领域、试验阶段、以及适应症;
数据融合模块,用于对所述第一四元组数据、第二四元组数据、以及第三四元组数据进行融合,获得融合四元组数据;
CRF生成模块,用于基于知识图谱和所述融合四元组数据生成CRF;
其中,所述第一四元组数据、第二四元组数据、第三四元组数据、以及融合四元组数据分别包括周期访视-访视任务-检查时间-检查项的对应关系信息。
本申请还提供一种电子设备,包括:
至少一个处理器;以及
存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述的CRF的自动生成方法。
本申请还提供一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上所述的CRF的自动生成方法。
与现有技术相比,根据本申请的CRF的自动生成方法,从研究流程图、临床试验方案全文以及方案元数据三个维度展开对应四元组数据的抽取并融合,获得的融合四元组数据涵盖了周期访视-访视任务-检查时间-检查项的对应关系信息,进而可以在知识图谱的指引下,智能化生成个性化的CRF表单;并且,基于机器学习的CRF自动生成方法可以减少人为因素、经验因素等导致的CRF设计缺失与缺陷,提升CRF表单生成效率。
附图说明
图1是根据本申请一实施例CRF的自动生成方法和装置的应用场景示意图;
图2是根据本申请一实施例CRF的自动生成方法的逻辑框架图;
图3是根据本申请一实施例CRF的自动生成方法的流程图;
图4是根据本申请一实施例CRF的自动生成装置的模块图;
图5是根据本申请一实施方式电子设备的硬件结构图。
具体实施方式
以下将结合附图所示的各实施方式对本申请进行详细描述。但该等实施方式并不限制本申请,本领域的普通技术人员根据该等实施方式所做出的结构、方法、或功能上的变换均包含在本申请的保护范围内。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
临床试验方案是一份描述临床试验将要如何进行开展的文件,包括目标、设计、方法、统计考虑和试验的组织,同时还提供了进行研究的背景和理由,所要解决的研究问题,以及对伦理问题的考虑等内容,以保证参与者的安全和收集的数据的完整性。
在临床试验方案到CRF的设计阶段,通常依赖于临床数据管理员(DM)在相关领域(如临床试验阶段、治疗领域等)的工作经验,如其缺乏相关经验,难以完整的完成CRF的设计工作,在审核阶段往往需要进行多轮修改调整;对于一些CDASH(ClinicalDataAcquisition Standards Harmonization,临床数据采集标准)或SDTM(Study DataTabulation Mode,研究数据表格格式)中未定义的具体项目任务,缺乏统一的执行标准(如肿瘤类方案需要设计使用一系列表格进行肿瘤病史采集、肿瘤评估、疗效评估以及治疗情况跟踪等),从最终CRF的生成结果看不同项目间、不同DM间差异较大。此外,由于临床试验方案文本较长的文本篇幅、书写不规范等问题,一些访视任务下如时间点、具体检查项、具体不同访视时的不同要求等关键信息会散落在文档的各处(例如,血生化检查的具体检查项目除了可能在访视流程图、流程图备注、研究流程等文本中出现外,亦可能在入排标准中被提及),对于信息收集的完整性带来很大挑战。
本申请主要应用于EDC系统利用人工智能(Artificial Intelligence,AI)技术自动生成CRF的场景。具体地,请参阅图1,服务器可以接收临床试验方案,并通过其中配置的机器学习模型,对临床试验方案中的信息进行抽取和整合,以自动生成精确的、个性化的CRF。生成的CRF还可以被传输至不同的终端设备进行展示,并可供相关人员(例如统计、医学、运营、研究者)进行评阅,提出可能的修改建议,以帮助CRF定稿。应理解,该场景中所包括的服务器以及终端设备可以为彼此独立的设备,也可以是集成于同一个系统(例如EDC系统)内,此处不做限定。
配合参照图2和图3,介绍本申请CRF的自动生成方法的一实施例。在本实施例中,该方法包括:
S11、从临床试验方案中定位研究流程图,以生成第一四元组数据。
具体地,可以对临床试验方案进行结构分析,以定位其中的研究流程图。研究流程图包括各种类型的信息块,且各个信息块可能包含对应的备注。需要说明的是,本实施例中,提到的定位研究流程图可以是定位到两部分内容:①信息块本身;②信息块对应的备注。
本实施例中,研究流程图包括周期访视(Visit)信息块、访视任务(Form)信息块、以及周期访视与访视任务的关联关系(Visit-Form)信息块。表I示范了一种常见的研究流程图。
表I。
Figure 204061DEST_PATH_IMAGE001
表I中包括了人口统计/医疗史、伴随治疗、血常规、皮损计数、总体改进、不良事件以及生活质量等访视任务信息块;基线、访视日期(1周、2周、4周、8周)以及最终步骤等周期访视信息块;符号“×”代表在对应的访视周期时所需要执行的访视任务,例如“基线-人口统计/医疗史”二元定位的信息块中存在“×”,代表在基线访视时,需要向受试者询问关于人口统计/医疗史的信息,因此,符号“×”所在的信息块可以认为是对应的周期访视与访视任务的关联信息块。
在第一四元组数据的生成过程中,可以先对在先定位到的研究流程图进行文本解析,并拆分出其中的周期访视信息块、访视任务信息块、以及周期访视与访视任务的关联关系信息块。
以上表I所示的研究流程图为例,文本解析的过程即为表格结构的解析与分析,区分表头行(多行)对应访视任务信息块Form,表头列(多列)对应周期访视信息块Visit,表格内容对应周期访视与访视任务关联关系信息块Visit-Form(跨行列),此外还可以将可能出现在表头行/列/表格内容中的备注信息进行对应。
进一步地:
①对于周期访视信息块
周期访视信息块中可以包括访视所属周期、访视日期、基线、周期访视、以及窗口期中的至少一个访视信息。一实施例中,可以基于文本序列标注模型,对周期访视信息块进行多语种文本的识别和归一化,以从周期访视信息块中抽取周期访视信息。
示范性地,这里的多语种文本可以是中英文周期访视文本。
②对于访视任务信息块
首先,可以从访视任务信息块中识别访视任务,并与知识图谱(Knowledge Graph,KG)中的标准访视任务进行匹配,以获得第一候选访视任务集。
知识图谱是结构化的语义知识库,用于描述物理世界中的概念及其相互关系。在本申请的各实施例中,所应用的知识图谱的数据构建可以使用自然语言处理(NLP,NaturalLanguage Processing)技术对历史临床试验方案、历史CRF进行统计分析,识别其中试验领域、试验阶段、适应症、关键访视任务、收集CRF表单信息,在此之上通过实体消歧、归一化、关系挖掘等技术完成初步的知识图谱构建;进一步的,还可以根据CDASH/SDTM标准、领域专家知识等对知识图谱进行修正完善。
由于本申请并不涉及对知识图谱构建方法本身的改进,故在本实施例中对知识图谱的具体构建方法不作更进一步的阐述。知识图谱在被构建完成后,可以是被配置在EDC系统中以供调用,又或者,知识图谱是以本地存储或云存储的方式进行保存,EDC系统与这些本地存储/云存储通信,并在使用时进行调用。
一实施例中,在识别访视任务时,可以是基于上述的知识图谱,通过分词、命名实体识别、多模式匹配算法、文本向量化与相似度计算、时间信息抽取等NLP技术进行访视任务的抽取。
其次,对于第一访视任务候选集中的各访视任务而言,可以同样使用上述访视任务识别所提及的NLP技术,解析访视任务信息块中对各访视任务的任务要求信息。这里的任务要求信息可以包括检查时间和检查项,从而可以生成访视任务-检查时间(Form-Timepoint)对应关系信息和访视任务-检查项(Form-Index)对应关系信息。
示范性地,对于心电图测量的访视任务,需要在每天的6:00、14:00、20:00三个时间点进行采集,则访视任务-检查时间对应关系信息可以表示为“心电图-6:00/14:00/20:00”;对于PK血样采集的访视任务,需要在服药后的1.5h、5h、15h、36h、96h进行采集,则访视任务-检查时间对应关系信息可以表示为“PK血样采集-1.5h/5h/15h/36h/96h”。类似地,对于血常规的访视任务,需要检测的包括红细胞计数(RBC)、血红蛋白(Hb)、白细胞(WBC)、白细胞分类计数及血小板(PLT),则访视任务-检查项对应关系信息可以表示为“血常规-RBC/Hb/WBC/PLT”;对于血生化的访视任务,需要检测的包括谷丙转氨酶(ALT)和谷草转氨酶(AST),则访视任务-检查项对应关系信息可以表示为“血生化-ALT/AST”。
③对于周期访视与访视任务的关联关系信息块
具体地,可以对周期访视与访视任务的关联关系信息块进行文本处理,以生成周期访视-访视任务(Visit-Form)对应关系信息。
类似地,对于周期访视与访视任务的关联关系信息块,这里的文本处理的过程也可以对应为表格结构的解析与分析,在此不再赘述。
在完成上述对周期访视信息块、访视任务信息块、以及周期访视与访视任务的关联关系信息块的处理后,获得了四组信息:周期访视信息、访视任务-检查时间对应关系信息、访视任务-检查项对应关系信息、以及周期访视-访视任务对应关系信息。
随后,将这四组信息进行融合,即可生成第一四元组数据。第一四元组数据中,包括了周期访视-访视任务-检查时间-检查项的对应关系信息(Visit-Form-Timepoint-Index)。
在第一四元组数据中,周期访视不可缺失,且访视任务和检查项中至多缺失一元数据。也即,对于第一四元组数据而言,其可能有的数据结构为:①周期访视-访视任务-检查时间-检查项、②周期访视-访视任务(置空)-检查时间-检查项、③周期访视-访视任务-检查时间(置空)-检查项、④周期访视-访视任务-检查时间-检查项(置空)、⑤周期访视-访视任务(置空)-检查时间(置空)-检查项、⑥周期访视-访视任务-检查时间(置空)-检查项(置空),其中“置空”表示对应元的数据为空。
S12、基于所述临床实验方案的全文生成第二四元组数据。
在步骤S11中,主要关注临床实验方案中的研究流程图进行访视任务及其关联信息的抽取。而对于临床试验方案而言,其可能存在未被研究流程图覆盖的潜在访视任务信息。
具体地,可以通过对临床试验方案的全文进行扫描,以获取访视任务、访视要求、以及周期访视信息中的至少两个,并基于访视任务、访视要求、以及周期访视信息中的至少两个,生成第二四元组数据。
第二四元组数据同样可以包括周期访视-访视任务-检查时间-检查项的对应关系信息。但对于临床试验方案全文而言,第二四元组数据中至多缺失两元数据,且访视任务和检查项不可同时缺失。也即,对于第二四元组数据而言,其可能有的数据结构为:①周期访视-访视任务-检查时间-检查项、②周期访视-访视任务(置空)-检查时间-检查项、③周期访视-访视任务-检查时间(置空)-检查项、④周期访视-访视任务-检查时间-检查项(置空)、⑤周期访视(置空)-访视任务(置空)-检查时间-检查项、⑥周期访视(置空)-访视任务-检查时间(置空)-检查项、⑦周期访视(置空)-访视任务-检查时间-检查项(置空)、⑧周期访视-访视任务(置空)-检查时间(置空)-检查项,其中“置空”表示对应元的数据为空。
在具体的第二四元组数据生成过程中,类似地,可以首先基于上述的知识图谱,通过分词、命名实体识别、多模式匹配算法、文本向量化与相似度计算、时间信息抽取等NLP技术进行这里访视任务的抽取,并将抽取到的访视任务与知识图谱中的标准访视任务进行匹配,获得对应的候选访视任务集。
其次,针对这里访视任务集中的各访视任务,同样可以使用上述访视任务抽取所提及的NLP技术,解析对应的访视要求(同样包括检查时间和检查项等信息)。一实施例中,从临床实验方案的全文中获取的访视要求可以包括入组标准、排除标准、检查时间点、实验室检查项目、用药记录要求、以及评估量表信息中的至少一个。
最后,可以基于文本序列标注模型从临床试验方案全文中抽取周期访视信息,以及基于文本处理从临床试验方案全文中生成周期访视-访视任务对应关系信息。
如上所述,通过对临床实验方案全文的处理,同样地获得了四组信息:周期访视信息、访视任务-检查时间对应关系信息、访视任务-检查项对应关系信息、以及周期访视-访视任务对应关系信息,这些信息被进一步融合生成第二四元组数据。
S13、从所述临床实验方案中抽取方案元数据,以生成第三四元组数据。
方案元数据包括试验领域、试验阶段、以及适应症,并且方案元数据可能涉及与其相关的一系列“默认”需要使用访视任务的过程,例如:①与研究疾病相关的病史采集表(区分非研究疾病病史,收集内容/侧重点不一致);②完善可能因撰写者的水平、疏忽等问题造成的访视任务缺失,如肿瘤的临床试验方案,通常需要收集肿瘤相关的治疗史、后续抗肿瘤治疗、生存情况等访视任务,大部分临床试验方案需要收集身高以及体重等信息用于计算用药剂量等。
具体地,可以对临床试验方案中的方案元数据进行结构化抽取,抽取可以使用基于规则的方法或者基于命名实体识别模型(Named Entity Recognition,NER)的方法(针对适应症的抽取);再基于抽取的方案元数据查询知识图谱,以获得方案元数据适用的第二候选访视任务集,进而生成第三四元组数据。
S14、对所述第一四元组数据、第二四元组数据、以及第三四元组数据进行融合,获得融合四元组数据。
在具体的数据融合过程中,可以先基于知识图谱,将第一四元组数据和第二四元组数据进行融合,获得子融合四元组数据。
以第一四元组数据中的“基线-PK血样采集-1.5h/5h/15h/36h/96h-RBC/Hb/WBC/PLT”和第二四元组数据中的“基线-PK血样采集-1.5h/5h/15h/36h/96h-红细胞计数/血红蛋白/白细胞/白细胞分类计数及血小板”融合举例,第一四元组数据中的检查项信息来自于访视流程图,并以标准英文缩写的形式进行存储,第二四元组数据中的检查项信息来自于临床试验方案全文,并以中文全程进行存储。在知识图谱的指导下,可以知晓第一四元组数据和第二四元组数据中的检查项信息实质相同,因此可以将这两项数据进行合并。
可以理解的,若第一四元组数据中检查项对应的信息为“每分钟脉搏次数”,则这两项数据都会成为子融合四元组数据的一部分,彼此之间不会进行合并操作。
另外,由于研究流程图是最简要的试验过程描述,具体信息一般在临床试验方案中进行描述,同一访视任务的相关内容可能在临床试验方案中多个位置被提及(如血生化检查项目在入排标准及实验室检查中),这样会导致第一四元组数据和第二四元组数据中可能存在完全一致的数据;并且,临床试验方案中也可能包含大量与生成CRF无关的数据,这些重复或者无关的数据都可以在数据融合中进行剔除。
当对第一四元组数据和第二四元组数据中的全部数据进行比对后,可以获得包含第一四元组数据和第二四元组数据全部数据信息的子融合四元组数据。
随后,再将子融合四元组数据进一步与第三四元组数据进行融合,以获得融合四元组数据。这里的融合过程可以参照第一四元组数据和第二四元组数据的融合过程,在此不再赘述。
在不同的实施例中,第一四元组数据、第二四元组数据以及第三四元组数据的融合顺序也可以不同。例如,可以对这三组数据同时进行融合;又或者,先将第一四元组数据与第三四元组数据融合,再将融合后的数据与第二四元组数据融合。
S14、基于知识图谱和所述融合四元组数据生成CRF。
在知识图谱的指导下,依据融合四元组数据中的周期访视-访视任务-检查时间-检查项的对应关系信息,可以生成个性化的CRF表结构。
在一些应用场景中,在知识图谱的指导下,生成的CRF表可以以JSON、XML等数据交换格式文件进行表示;进一步地,在EDC系统的应用中,可以在知识图谱的指导下,将CRF表结构翻译为EDC系统可识别、可导入的最终输出文件,也即EDC格式的CRF。
参图4,介绍本申请CRF的自动生成装置的一实施例。在本实施例中,该CRF的自动生成装置包括第一数据生成模块21、第二数据生成模块22、第三数据生成模块23、数据融合模块24以及CRF生成模块25。
第一数据生成模块21用于从临床试验方案中定位研究流程图,以生成第一四元组数据,其中,研究流程图包括周期访视信息块、访视任务信息块、以及周期访视与访视任务的关联关系信息块;第二数据生成模块22用于基于临床实验方案的全文生成第二四元组数据;第三数据生成模块23,用于从临床实验方案中抽取方案元数据,以生成第三四元组数据,其中,方案元数据包括试验领域、试验阶段、以及适应症;数据融合模块24,用于对第一四元组数据、第二四元组数据、以及第三四元组数据进行融合,获得融合四元组数据;CRF生成模块25,用于基于知识图谱和融合四元组数据生成CRF;其中,第一四元组数据、第二四元组数据、第三四元组数据、以及融合四元组数据分别包括周期访视-访视任务-检查时间-检查项的对应关系信息。
一实施例中,第一数据生成模块21具体用于对临床试验方案进行结构分析,以定位研究流程图;以及对研究流程图进行文本解析,并拆分出周期访视信息块;以及从周期访视信息块中抽取周期访视信息。
一实施例中,周期访视信息包括访视所属周期、访视日期、基线、周期访视、以及窗口期中的至少一个。
一实施例中,第一数据生成模块21具体用于基于文本序列标注模型,对周期访视信息块进行多语种文本的识别和归一化,以抽取周期访视信息。
一实施例中,第一数据生成模块21具体用于对研究流程图进行文本解析,并拆分出访视任务信息块;从访视任务信息块中识别访视任务,并与知识图谱中标准访视任务进行匹配,以获得候选访视任务集;以及解析候选访视任务集中各访视任务对应的检查时间和检查项,以生成访视任务-检查时间对应关系信息和访视任务-检查项对应关系信息。
一实施例中,第一数据生成模块21具体用于对研究流程图进行文本解析,并拆分出周期访视与访视任务的关联关系信息块;以及对周期访视与访视任务的关联关系信息块进行文本处理,以生成周期访视-访视任务对应关系信息。
一实施例中,第一数据生成模块21具体用于融合周期访视信息、访视任务-检查时间对应关系信息、访视任务-检查项对应关系信息、以及周期访视-访视任务对应关系信息,以生成第一四元组数据。
一实施例中,第二数据生成模块22具体用于对临床试验方案的全文进行扫描,以获取访视任务、访视要求、以及周期访视信息中的至少两个;以及基于访视任务、访视要求、以及周期访视信息中的至少两个,生成第二四元组数据。
一实施例中,访视要求包括入组标准、排除标准、检查时间点、实验室检查项目、用药记录要求、以及评估量表信息中的至少一个。
一实施例中,第三数据生成模块23具体用于从临床试验方案中抽取方案元数据;基于方案元数据查询知识图谱,以获得方案元数据适用的候选访视任务集;以及基于候选访视任务集,生成第三四元组数据。
一实施例中,数据融合模块24具体用于基于知识图谱,将第一四元组数据和第二四元组数据进行融合,获得子融合四元组数据;以及将子融合四元组数据与第三四元组数据进行融合,获得融合四元组数据。
一实施例中,第一四元组数据中访视周期不可缺失,且访视任务和检查项中至多缺失一元数据;第二四元组数据中至多缺失两元数据,且访视任务和检查项不可同时缺失。
一实施例中,CRF生成模块具体用于基于知识图谱和融合四元组数据生成数据交换格式CRF,并将数据交换格式CRF翻译为EDC格式CRF。
如上参照图1到图3,对根据本说明书实施例CRF的自动生成方法进行了描述。在以上对方法实施例的描述中所提及的细节,同样适用于本说明书实施例的CRF的自动生成装置。上面的CRF的自动生成装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。
图5示出了根据本说明书的实施例的电子设备的硬件结构图。如图5所示,电子设备30可以包括至少一个处理器31、存储器32(例如非易失性存储器)、内存33和通信接口34,并且至少一个处理器31、存储器32、内存33和通信接口34经由总线35连接在一起。至少一个处理器31执行在存储器32中存储或编码的至少一个计算机可读指令。
应该理解,在存储器32中存储的计算机可执行指令当执行时使得至少一个处理器31进行本说明书的各个实施例中以上结合图1-图3描述的各种操作和功能。
在本说明书的实施例中,电子设备30可以包括但不限于:个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动电子设备、智能电话、平板计算机、蜂窝电话、个人数字助理(PDA)、手持装置、消息收发设备、可佩戴电子设备、消费电子设备等等。
根据一个实施例,提供了一种比如机器可读介质的程序产品。机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本说明书的各个实施例中以上结合图1-图5描述的各种操作和功能。具体地,可以提供配有可读存储介质的系统或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本说明书的一部分。
可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
本领域技术人员应当理解,上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此,本说明书的保护范围应当由所附的权利要求书来限定。
需要说明的是,上述各流程和各系统结构图中不是所有的步骤和单元都是必须的,可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的,可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即,有些单元可能由同一物理客户实现,或者,有些单元可能分由多个物理客户实现,或者,可以由多个独立设备中的某些部件共同实现。
以上各实施例中,硬件单元或模块可以通过机械方式或电气方式实现。例如,一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑(如专门的处理器,FPGA或ASIC)来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器),可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。
上面结合附图阐述的具体实施方式描述了示例性实施例,但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所对应的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims (8)

1.一种CRF的自动生成方法,其特征在于,所述方法包括:
从临床试验方案中定位研究流程图,以生成第一四元组数据,其中,所述研究流程图包括周期访视信息块、访视任务信息块、以及周期访视与访视任务的关联关系信息块;
基于所述临床试验 方案的全文生成第二四元组数据;
从所述临床试验 方案中抽取方案元数据,以生成第三四元组数据,其中,所述方案元数据包括试验领域、试验阶段、以及适应症;
对所述第一四元组数据、第二四元组数据、以及第三四元组数据进行融合,获得融合四元组数据;
基于知识图谱和所述融合四元组数据生成CRF;
其中,所述第一四元组数据、第二四元组数据、第三四元组数据、以及融合四元组数据分别包括周期访视-访视任务-检查时间-检查项的对应关系信息;
从临床试验方案中定位研究流程图,以生成第一四元组数据,具体包括:
对所述临床试验方案进行结构分析,以定位研究流程图;
对所述研究流程图进行文本解析,并拆分出周期访视信息块;
从所述周期访视信息块中抽取周期访视信息;以及,
对所述研究流程图进行文本解析,并拆分出访视任务信息块;
从所述访视任务信息块中识别访视任务,并与所述知识图谱中标准访视任务进行匹配,以获得第一候选访视任务集;
解析所述第一候选访视任务集中各访视任务对应的检查时间和检查项,以生成访视任务-检查时间对应关系信息和访视任务-检查项对应关系信息;以及,
对所述研究流程图进行文本解析,并拆分出周期访视与访视任务的关联关系信息块;
对所述周期访视与访视任务的关联关系信息块进行文本处理,以生成周期访视-访视任务对应关系信息;以及,
融合所述周期访视信息、访视任务-检查时间对应关系信息、访视任务-检查项对应关系信息、以及周期访视-访视任务对应关系信息,以生成所述第一四元组数据;
基于所述临床试验 方案的全文生成第二四元组数据,具体包括:
对所述临床试验方案的全文进行扫描,以获取访视任务、访视要求、以及周期访视信息中的至少两个;
基于所述访视任务、访视要求、以及周期访视信息中的至少两个,生成所述第二四元组数据;
从所述临床试验 方案中抽取方案元数据,以生成第三四元组数据,具体包括:
从所述临床试验方案中抽取方案元数据;
基于所述方案元数据查询所述知识图谱,以获得所述方案元数据适用的第二候选访视任务集;
基于所述第二候选访视任务集,生成所述第三四元组数据。
2.根据权利要求1所述的CRF的自动生成方法,其特征在于,所述周期访视信息包括访视所属周期、访视日期、基线、周期访视、以及窗口期中的至少一个;和/或,
基于文本序列标注模型,对所述周期访视信息块进行多语种文本的识别和归一化,以抽取所述周期访视信息。
3.根据权利要求1所述的CRF的自动生成方法,其特征在于,对所述第一四元组数据、第二四元组数据、以及第三四元组数据进行融合,获得融合四元组数据,具体包括:
基于知识图谱,将所述第一四元组数据和第二四元组数据进行融合,获得子融合四元组数据;
将所述子融合四元组数据与第三四元组数据进行融合,获得所述融合四元组数据。
4.根据权利要求1所述的CRF的自动生成方法,其特征在于,所述第一四元组数据中周期访视不可缺失,且访视任务和检查项中至多缺失一元数据;
所述第二四元组数据中至多缺失两元数据,且访视任务和检查项不可同时缺失。
5.根据权利要求1所述的CRF的自动生成方法,其特征在于,基于知识图谱和所述融合四元组数据生成CRF,具体包括:
基于所述知识图谱和融合四元组数据生成数据交换格式CRF,并将所述数据交换格式CRF翻译为EDC格式CRF。
6.一种CRF的自动生成装置,其特征在于,所述CRF的自动生成装置包括:
第一数据生成模块,用于从临床试验方案中定位研究流程图,以生成第一四元组数据,其中,所述研究流程图包括周期访视信息块、访视任务信息块、以及周期访视与访视任务的关联关系信息块;
第二数据生成模块,用于基于所述临床试验 方案的全文生成第二四元组数据;
第三数据生成模块,用于从所述临床试验 方案中抽取方案元数据,以生成第三四元组数据,其中,所述方案元数据包括试验领域、试验阶段、以及适应症;
数据融合模块,用于对所述第一四元组数据、第二四元组数据、以及第三四元组数据进行融合,获得融合四元组数据;
CRF生成模块,用于基于知识图谱和所述融合四元组数据生成CRF;
其中,所述第一四元组数据、第二四元组数据、第三四元组数据、以及融合四元组数据分别包括周期访视-访视任务-检查时间-检查项的对应关系信息;
所述第一数据生成模块具体用于:对临床试验方案进行结构分析,以定位研究流程图;以及对所述研究流程图进行文本解析,并拆分出周期访视信息块;以及从所述周期访视信息块中抽取周期访视信息;以及,
对所述研究流程图进行文本解析,并拆分出访视任务信息块;从访视任务信息块中识别访视任务,并与知识图谱中标准访视任务进行匹配,以获得候选访视任务集;以及解析候选访视任务集中各访视任务对应的检查时间和检查项,以生成访视任务-检查时间对应关系信息和访视任务-检查项对应关系信息;以及,
对所述研究流程图进行文本解析,并拆分出周期访视与访视任务的关联关系信息块;以及对周期访视与访视任务的关联关系信息块进行文本处理,以生成周期访视-访视任务对应关系信息;以及,
融合所述周期访视信息、访视任务-检查时间对应关系信息、访视任务-检查项对应关系信息、以及周期访视-访视任务对应关系信息,以生成所述第一四元组数据;
所述第二数据生成模块具体用于:对所述临床试验方案的全文进行扫描,以获取访视任务、访视要求、以及周期访视信息中的至少两个;基于所述访视任务、访视要求、以及周期访视信息中的至少两个,生成所述第二四元组数据;
所述第三数据生成模块具体用于:从所述临床试验方案中抽取方案元数据;基于所述方案元数据查询所述知识图谱,以获得所述方案元数据适用的第二候选访视任务集;基于所述第二候选访视任务集,生成所述第三四元组数据。
7.一种电子设备,包括:至少一个处理器;以及存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如权利要求1至5任一项所述的CRF的自动生成方法。
8.一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如权利要求1至5任一项所述的CRF的自动生成方法。
CN202210413227.3A 2022-04-20 2022-04-20 Crf的自动生成方法和装置、电子设备和存储介质 Active CN114566247B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210413227.3A CN114566247B (zh) 2022-04-20 2022-04-20 Crf的自动生成方法和装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210413227.3A CN114566247B (zh) 2022-04-20 2022-04-20 Crf的自动生成方法和装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN114566247A CN114566247A (zh) 2022-05-31
CN114566247B true CN114566247B (zh) 2022-08-12

Family

ID=81721181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210413227.3A Active CN114566247B (zh) 2022-04-20 2022-04-20 Crf的自动生成方法和装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN114566247B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116153450B (zh) * 2023-04-13 2023-06-27 合肥科颖医药科技有限公司 基于智能分析的访视内容数据比对方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079389A (zh) * 2019-12-18 2020-04-28 嘉兴太美医疗科技有限公司 访视计划表的生成方法、系统及计算机可读介质
CN113268975A (zh) * 2021-05-26 2021-08-17 深圳泰莱生物科技有限公司 一种基于自然语言处理算法的人体临床信息评估方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761437A (zh) * 2014-01-20 2014-04-30 中国中医科学院 一种基于临床数据的科研数据自动生成系统
CN107145744B (zh) * 2017-05-08 2018-03-02 合肥工业大学 医学知识图谱的构建方法、装置及辅助诊断方法
US11915828B2 (en) * 2019-06-04 2024-02-27 Dana-Farber Cancer Institute, Inc. System and method of using machine learning for extraction of symptoms from electronic health records
CN110675924B (zh) * 2019-08-19 2023-03-10 医渡云(北京)技术有限公司 病例报告表自动生成的方法、装置、可读介质及电子设备
CN111274391B (zh) * 2020-01-15 2023-09-01 北京百度网讯科技有限公司 一种spo的抽取方法、装置、电子设备及存储介质
CN111400759A (zh) * 2020-03-17 2020-07-10 天津开心生活科技有限公司 访视时间表生成方法及装置、存储介质、电子设备
CN112164469A (zh) * 2020-10-14 2021-01-01 杭州卓健信息科技有限公司 一种临床科研数据采集管理系统
CN113707297B (zh) * 2021-08-26 2024-04-05 深圳平安智慧医健科技有限公司 医疗数据的处理方法、装置、设备及存储介质
CN114005505A (zh) * 2021-10-15 2022-02-01 浙江太美医疗科技股份有限公司 病例报告表生成方法、装置、计算机设备和存储介质
CN114300084A (zh) * 2021-12-31 2022-04-08 科临达康医药生物科技(北京)有限公司 临床试验病例报告表自动生成方法、装置和设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079389A (zh) * 2019-12-18 2020-04-28 嘉兴太美医疗科技有限公司 访视计划表的生成方法、系统及计算机可读介质
CN113268975A (zh) * 2021-05-26 2021-08-17 深圳泰莱生物科技有限公司 一种基于自然语言处理算法的人体临床信息评估方法

Also Published As

Publication number Publication date
CN114566247A (zh) 2022-05-31

Similar Documents

Publication Publication Date Title
Zheng et al. Mnre: A challenge multimodal dataset for neural relation extraction with visual evidence in social media posts
Wu et al. Citeseerx: Ai in a digital library search engine
MacLean et al. Identifying medical terms in patient-authored text: a crowdsourcing-based approach
Badam et al. Elastic documents: Coupling text and tables through contextual visualizations for enhanced document reading
CN114817386A (zh) 一种结构化医疗数据生成方法及装置
CN110245112A (zh) 基于ai的智能化档案管理方法、系统、终端及存储介质
Carchiolo et al. Medical prescription classification: a NLP-based approach
US20210209551A1 (en) System and method for automatic analysis and management of a workers' compensation claim
CN110033837A (zh) 基于电子病历生成用户画像和知识图谱的方法
CN111899829A (zh) 一种基于icd9/10分词词库的全文检索匹配引擎
CN112035757A (zh) 医疗瀑布流推送方法、装置、设备及存储介质
CN116860987A (zh) 基于生成式大语言模型的领域知识图谱构建方法和系统
CN114566247B (zh) Crf的自动生成方法和装置、电子设备和存储介质
CN110752027B (zh) 电子病历数据推送方法、装置、计算机设备和存储介质
CN114756669A (zh) 问题意图的智能分析方法、装置、电子设备及存储介质
US9881004B2 (en) Gender and name translation from a first to a second language
CN110335654A (zh) 一种电子病历的信息抽取方法、系统及计算机设备
CN114547346B (zh) 知识图谱的构建方法和装置、电子设备和存储介质
CN112348017A (zh) 临床试验收费单据的识别方法和识别装置
CN116127979A (zh) 命名实体名称标准化的方法和装置、电子设备和存储介质
CN115221323A (zh) 基于意图识别模型的冷启动处理方法、装置、设备及介质
WO2022061259A1 (en) System and method for automatic analysis and management of a workers' compensation claim
CN113722472A (zh) 一种技术文献信息提取方法、系统及存储介质
CN113032515A (zh) 基于多数据源生成图表的方法、系统、设备及存储介质
Straub et al. Evaluation of use of technologies to facilitate medical chart review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant