CN111667891A - 应用于专病临床试验的队列识别方法及装置 - Google Patents

应用于专病临床试验的队列识别方法及装置 Download PDF

Info

Publication number
CN111667891A
CN111667891A CN202010512438.3A CN202010512438A CN111667891A CN 111667891 A CN111667891 A CN 111667891A CN 202010512438 A CN202010512438 A CN 202010512438A CN 111667891 A CN111667891 A CN 111667891A
Authority
CN
China
Prior art keywords
information
special
record data
medical record
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010512438.3A
Other languages
English (en)
Inventor
杨林
李姣
黄晓硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Medical Information CAMS
Original Assignee
Institute of Medical Information CAMS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Medical Information CAMS filed Critical Institute of Medical Information CAMS
Priority to CN202010512438.3A priority Critical patent/CN111667891A/zh
Publication of CN111667891A publication Critical patent/CN111667891A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种应用于专病临床试验的队列识别方法及装置,基于预创建的专病临床试验入排标准的知识体系,生成专病临床试验入排标准的查询信息;获取电子病历数据,并对电子病历数据进行信息分析,得到专病表型分析信息;基于专病表型分析信息和所述专病临床试验入排标准的查询信息,确定匹配查询信息的专病临床试验的队列。在本发明中专病临床试验入排标准的知识体系为将专病临床试验入排标准以计算机可识别信息进行的知识表示的体系,实现自动地将入排标准转换为结构化的查询语言,可以直接地对电子病历数据进行处理,获得满足专病临床试验的受试者,提升了信息转换的处理效率及提升临床试验的队列识别工作的准确性。

Description

应用于专病临床试验的队列识别方法及装置
技术领域
本发明涉及信息处理技术领域,特别是涉及一种应用于专病临床试验的队列识别方法及装置。
背景技术
为了验证新型药物或治疗方案的有效性或优效性,在不同的临床试验周期,需要纳入不同规模的受试人群。专病临床试验队列识别是针对医学上某一个疾病领域开展的临床试验识别符合条件的受试人员,以满足临床试验各阶段对受试者的招募需求。研究人员以临床试验的纳入标准和排除标准(也可简称为入排标准)为依据,与获取的潜在受试者的各项特征进行匹配,识别其是否符合标准。
目前常见的获取受试者的方法包括发布招募信息、医师推荐、病例回顾等。可见,在目前针对专病临床试验的队列识别尚缺乏系统性的研究方法。尤其是在基于电子病历数据进行队列识别时,一般通过人工分析的方法,解释和转换临床试验入排标准的规则,以及缺乏对非结构化电子病历数据的智能化处理和应用。使得通过人工分析方法不仅需要富有专业背景的人员进行耗时且高强度的劳动,而且难以保证结果的准确性,该方法缺乏普遍适用性,进而使得获得有效的专病临床试验的队列准确性低和处理效率低。
发明内容
针对于上述问题,本发明提供一种应用于专病临床试验的队列识别方法及装置,实现了提升专病临床试验的队列准确性和信息转换的处理效率。
为了实现上述目的,本发明提供了如下技术方案:
一种应用于专病临床试验的队列识别方法,所述方法包括:
基于预创建的专病临床试验入排标准的知识体系,生成专病临床试验入排标准的查询信息,其中,所述专病临床试验入排标准表征临床试验中受试人员的入选标准和排除标准;所述专病临床试验入排标准的知识体系为将专病临床试验入排标准以计算机可识别信息进行的知识表示的体系;
获取电子病历数据,并对所述电子病历数据进行信息分析,得到专病表型分析信息,所述专病表型分析信息为识别具有特定疾病或特征的患者信息;
基于所述专病表型分析信息和所述专病临床试验入排标准的查询信息,确定匹配所述查询信息的专病临床试验的队列,所述专病临床试验的队列包括多个满足所述专病临床试验入排标准的受试者。
可选地,所述方法包括:创建专病临床试验入排标准的知识体系,包括:
对所述专病临床试验入排标准进行信息提取,得到提取后信息,所述提取后的信息包括特征信息、入排标准与电子病历数据之间的差异信息、医学信息、实体信息和实体之间的逻辑信息;
对所述提取后的信息进行规范化处理,得到处理后的信息;
对所述处理后的信息进行信息结构化表示,得到所述专病临床试验入排标准的知识体系。
可选地,所述方法包括:对所述专病临床试验入排标准进行信息提取,得到医学信息,包括:
按照类别从所述专病临床试验入排标准中提取到医学实体;
获取所述医学实体的属性信息和医学实体与属性之间的关系信息。
可选地,所述获取电子病历数据,并对所述电子病历数据进行信息分析,得到专病表型分析信息,包括:
获取电子病历数据;
确定所述电子病历数据的结构化病历数据和非结构化病历数据;
对所述结构化病历数据和非结构化病历数据进行数据预处理,并对预处理后的信息进行专病表型分类,得到分类信息;
基于所述分类信息,生成专病表型分析信息。
可选地,所述获取电子病历数据,并对所述电子病历数据进行信息分析,得到专病表型分析信息,包括:
利用预创建的表型分析模型,对获取到的电子病历数据进行处理,得到专病表型分析信息,所述表型分析模型为利用电子病历数据进行训练得到的神经网络模型。
一种应用于专病临床试验的队列识别装置,所述装置包括:
生成单元,用于基于预创建的专病临床试验入排标准的知识体系,生成专病临床试验入排标准的查询信息,其中,所述专病临床试验入排标准表征临床试验中受试人员的入选标准和排除标准;所述专病临床试验入排标准的知识体系为将专病临床试验入排标准以计算机可识别信息进行的知识表示的体系;
分析单元,用于获取电子病历数据,并对所述电子病历数据进行信息分析,得到专病表型分析信息,所述专病表型分析信息为识别具有特定疾病或特征的患者信息;
确定单元,用于基于所述专病表型分析信息和所述专病临床试验入排标准的查询信息,确定匹配所述查询信息的专病临床试验的队列,所述专病临床试验的队列包括多个满足所述专病临床试验入排标准的受试者。
可选地,所述装置包括:创建单元,用于创建专病临床试验入排标准的知识体系,所述创建单元包括:
第一提取子单元,用于对所述专病临床试验入排标准进行信息提取,得到提取后信息,所述提取后的信息包括特征信息、入排标准与电子病历数据之间的差异信息、医学信息、实体信息和实体之间的逻辑信息;
第一处理子单元,用于对所述提取后的信息进行规范化处理,得到处理后的信息;
表示子单元,用于对所述处理后的信息进行信息结构化表示,得到所述专病临床试验入排标准的知识体系。
可选地,所述装置包括:提取单元,用于对所述专病临床试验入排标准进行信息提取,得到医学信息,所述提取单元包括:
第二提取子单元,用于按照类别从所述专病临床试验入排标准中提取到医学实体;
第一获取子单元,用于获取所述医学实体的属性信息和医学实体与属性之间的关系信息。
可选地,所述分析单元包括:
第二获取子单元,用于获取电子病历数据;
第一确定子单元,用于确定所述电子病历数据的结构化病历数据和非结构化病历数据;
第二处理子单元,用于对所述结构化病历数据和非结构化病历数据进行数据预处理,并对预处理后的信息进行专病表型分类,得到分类信息;
第一生成子单元,用于基于所述分类信息,生成专病表型分析信息。
可选地,所述分析单元包括:
模型处理单元,用于利用预创建的表型分析模型,对获取到的电子病历数据进行处理,得到专病表型分析信息,所述表型分析模型为利用电子病历数据进行训练得到的神经网络模型。
相较于现有技术,本发明提供了一种应用于专病临床试验的队列识别方法及装置,基于预创建的专病临床试验入排标准的知识体系,生成专病临床试验入排标准的查询信息;获取电子病历数据,并对所述电子病历数据进行信息分析,得到专病表型分析信息;基于所述专病表型分析信息和所述专病临床试验入排标准的查询信息,确定匹配所述查询信息的专病临床试验的队列。在本发明中专病临床试验入排标准的知识体系为将专病临床试验入排标准以计算机可识别信息进行的知识表示的体系,实现自动地将入排标准转换为结构化的查询语言,可以直接地对电子病历数据进行处理,获得满足专病临床试验的受试者,提升了信息转换的处理效率及提升临床试验的队列识别工作的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种应用于专病临床试验的队列识别方法的流程示意图;
图2为本发明实施例提供的一种入排标准中医学实体及相关关系的抽象示例图;
图3为本发明实施例提供的一种应用于专病临床试验的队列识别装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
为了引用和清楚起见,下文中使用的技术名词、简写或缩写总结解释如下:
本发明实施例的专病临床试验入排标准表征临床试验中受试人员的入选标准和排除标准。其中,入选标准也可称为纳入标准,是指能够入组的基本条件,而排除标准应用是在符合入选标准基础上的其他不满足试验要求的特殊情况。具体的,入选标准是指进入临床试验的受试者必须完全满足的条件。入选标准一般用清单信息来描述研究人群的特定参数,包括年龄范围、性别、特定检查或实验室结果、诊断、允许的前期治疗以及对器官功能的要求等。排除标准是指候选人不应被纳入临床试验的判断条件。得到的候选人即使完全满足了入选标准,只要符合排除标准中的任何一条就不能进入试验。
本发明实施例中的专病是将某一疾病领域与全部疾病领域进行区分,在这一疾病领域中并不区分某一具体的疾病,例如糖尿病领域,并不区分一型糖尿病和二型糖尿病。需要说明的是,本发明中的入排标准是针对某一专病的临床试验而言的,而非针对全部疾病领域而言。
专病临床试验入排标准的知识体系为将专病临床试验入排标准以计算机可识别信息进行的知识表示的体系。即其是一种描述医学上某一种疾病领域客观存在的受试者的入排标准的语义网络,采用语义技术形式表达系统化、结构化、集成化的医学领域知识。
在本发明实施例中提供了一种应用于专病临床试验的队列识别方法,参见图1,所述方法可以包括以下步骤:
S101、基于预创建的专病临床试验入排标准的知识体系,生成专病临床试验入排标准的查询信息。
其中,所述专病临床试验入排标准表征临床试验中受试人员的入选标准和排除标准;所述专病临床试验入排标准的知识体系为将专病临床试验入排标准以计算机可识别信息进行的知识表示的体系。
预创建的专病临床试验入排标准的知识体系,是指在计算机中,利用某种形式的语言将入排标准表示成可计算的知识,从而以此表示方式为基础进行知识处理。为了实现与电子病历数据的交互,需要生成表示入排标准的查询语言。在构建入排标准的结构化知识体系基础上,生成特定形式的查询语言,查询语言因不同的思路和实施需求存在多种类型。其中,结构化查询语言(Structured Query Language,SQL)的逻辑表示能力强,且可以高效地操作大型数据集,可以直接访问关系型数据库。因电子病历数据通常是以关系型数据库的形式存在,将其转换为其他形式是复杂且成本巨大的,如转换为基于本体系统的形式。因此,本实施例将使用SQL形式的查询语言,与电子病历数据库进行后续的交互。其中,生成专病临床试验入排标准的查询信息中的专病临床试验入排标准是指本次需要获得受试者的临床试验的入排标准。
S102、获取电子病历数据,并对所述电子病历数据进行信息分析,得到专病表型分析信息。
所述专病表型分析信息为识别具有特定疾病或特征的患者信息。基于电子病历的表型分析是指利用电子病历数据识别具有特定疾病或特征的一组病人。在以往仅通过诊断编码进行表型分析是存在局限性的。在本实施例可以利用预创建的表型分析模型,对获取到的电子病历数据进行处理,得到专病表型分析信息,所述表型分析模型为利用电子病历数据进行训练得到的神经网络模型。也可以是获取电子病历数据;确定所述电子病历数据的结构化病历数据和非结构化病历数据;对所述结构化病历数据和非结构化病历数据进行数据预处理,并对预处理后的信息进行专病表型分类,得到分类信息;基于所述分类信息,生成专病表型分析信息。
具体的,将采用基于深度学习的表型分析方法,如基于卷积神经网络(Convolutional Neural Networks,CNNs)的深度学习方法。本发明实施例将全面综合利用电子病历中的数据,包括结构化和非结构化的病历数据,融合引入领域知识以丰富和增强表型分析的依据,如专病的临床指南。具体实施步骤可以包括构建病历数据预处理单元、构建病历医学信息提取单元、构建专病表型分类器单元,其中,病历医学信息提取单元不仅需要提取表型分析所需的数据特征,还需提取临床试验入排标准所需的临床内容。
S103、基于所述专病表型分析信息和所述专病临床试验入排标准的查询信息,确定匹配所述查询信息的专病临床试验的队列。
所述专病临床试验的队列包括多个满足所述专病临床试验入排标准的受试者。即利用生成的入排标准查询语言,与电子病历的表型分析结果和数据特征提取结果进行交互,获取一组可供预筛选的受试者,以完成最终的专病队列识别工作。
本发明提供了一种应用于专病临床试验的队列识别方法,基于预创建的专病临床试验入排标准的知识体系,生成专病临床试验入排标准的查询信息;获取电子病历数据,并对所述电子病历数据进行信息分析,得到专病表型分析信息;基于所述专病表型分析信息和所述专病临床试验入排标准的查询信息,确定匹配所述查询信息的专病临床试验的队列。在本发明中专病临床试验入排标准的知识体系为将专病临床试验入排标准以计算机可识别信息进行的知识表示的体系,实现自动地将入排标准转换为结构化的查询语言,可以直接地对电子病历数据进行处理,获得满足专病临床试验的受试者,提升了信息转换的处理效率及提升临床试验的队列识别工作的准确性。
在本发明实施例还提供了一种创建专病临床试验入排标准的知识体系的方法,该方法可以包括:
S201、对所述专病临床试验入排标准进行信息提取,得到提取后信息,所述提取后的信息包括特征信息、入排标准与电子病历数据之间的差异信息、医学信息、实体信息和实体之间的逻辑信息;
S202、对所述提取后的信息进行规范化处理,得到处理后的信息;
S203、对所述处理后的信息进行信息结构化表示,得到所述专病临床试验入排标准的知识体系。
其中,所述方法包括:对所述专病临床试验入排标准进行信息提取,得到医学信息,包括:
按照类别从所述专病临床试验入排标准中提取到医学实体;
获取所述医学实体的属性信息和医学实体与属性之间的关系信息。
具体的,为了构建临床试验入排标准的知识表示,尤其是针对专病领域,获取该领域入排标准的主要特征必要且不可或缺的,同时也为后续实施流程提供了基础。需要获取入排标准的主要特征包括语义特征和内容特征。语义特征包括但不限于布尔逻辑、否定约束、限定约束、数值比较、条件分支等,内容特征包括但不限于临床内容类型的分布情况。以此识别出该专病领域主要的常用的临床内容,如人口学、行为学、意识能力、病史信息、诊断信息、检查结果、检验结果、时间信息等。创建专病临床试验入排标准的知识体系还包括获取入排标准与电子病历数据之间的差异性。以该专病领域入排标准所包含的临床内容特征为基础,接下来需要获取入排标准与电子病历数据的差异性。首先,需要明确相应内容在电子病历中的数据可获得性,如年龄和性别是易获得的,语言及遵从能力是不易获得的;其次,需要明确相应内容在电子病历中的数据位置,哪些内容可以从结构化数据中获取,如年龄和性别通常位于病人基本信息表中,哪些内容只能从非结构化的病历记录中获取,同时获取相应内容在非结构化记录中的特征,如所属的章节信息、数据特点等,如病史信息通常位于入院记录或出院记录的主诉章节。其中,语言能力是指受试者需要具备某种语言进行沟通的能力,例如可以正常使用汉语或英语等进行沟通。遵从能力包括受试者需要具有正常的意识能力,可以正常地理解知情同意,如在排除标准中通常会排除痴呆者,遵从能力也包括需要具有服从和完成临床研究人员的指令和安排的能力。这些能力在入排标准中通常会明确地进行声明。确定数据位置信息是为了后续在电子病历中能够从特定的数据位置获取到特定的信息,以此判断是否符合入排标准的要求。例如在入排标准中的一项要求是“入院时间不超过24小时”,这条标准需要从电子病历中获取到“入院时间”,那么则需要确定“入院时间”存储在电子病历中的什么位置,其通常会存储在某个具体的结构化记录中。又例如入排标准要求“近5年内患者曾被诊断患有其他肿瘤”,那么首先判断这是对病史的描述,其次判断病史可能会出现在电子病历的“入院记录”或“住院志”中的“既往病史”中。
入排标准中的医学信息提取是指从入排标准中提取出医学实体、医学实体的属性、以及医学实体与医学实体的属性之间的关系、临床试验与医学实体之间的关系。需要提取的医学实体,是指按类别从入排标准中提取出相应的医学实体,包括但不限于疾病、药物、手术操作、观察、检查等;需要提取的医学实体的属性,包括但不限于解剖部位、测量结果、时间约束、修饰符等;需要提取的医学实体与医学实体的属性之间的关系包括has_value(具有值)、has_qualifier(具有修饰限制关系)、has_location(具有位置关系)、has_temporal(具有时间关系)等;需要提取的临床试验与医学实体的关系包括has_association(具有关联)、has_diagnosis(具有诊断)、will(意愿或计划)、able_to(能力)、has_done(已完成或正在进行)等,后三者表示实体的时态或状态属性。
如图2所示,其表示出了入排标准中医学实体及相关关系的抽象示例图,在此专病临床试验实例中,提取出了疾病、检查、药物、观察、操作及其他共计六类医学实体,并且临床试验与疾病类实体的关系是“具有诊断”,与药物、检查、观察、操作类实体的关系是“意愿”、“能力”,“已完成或正在进行”中的一种,与“其他”类实体的关系是“具有关联”。在医学实体与医学实体的属性的关系中,例如疾病实体与其属性“发病时间”、“部位”、“修饰符”的关系依次是“具有时间关系”、“具有位置关系”、“具有修饰限制关系”,其中属性“修饰符”对应的临床内容例如包括疾病严重性、疾病阶段、疾病病因等。
本步骤涉及的技术属于医学信息提取范畴,如医学实体的提取及相关关系的提取。在其他领域如临床文本和医学文献的医学信息提取工作中,基于深度学习的方法已展现出十分优异的性能,但是在临床试验入排标准的医学信息提取工作中,深度学习技术还未有所研究和探索。目前基于BiLSTM-CRF的技术模型应用较为广泛且效果良好,尤其在结合BERT词嵌入技术时性能表现更为突出。鉴于此,本发明在医学信息提取工作流程中优先使用BERT-BiLSTM-CRF技术模型。
同时还要提取入排标准中实体之间的逻辑关系,这对于正确地表示入排标准的语义信息是重要的。入排标准通常会分成多条进行表述,并且在每条入排标准中可能会存在多个医学实体,在此步骤中提取出这些实体之间的逻辑与、逻辑或、逻辑非的关系。与此同时,还需要提取各条入排标准间的逻辑关系。
在获得了实体信息后还需要对实体及属性规范化处理。此步骤中的规范化处理主要包括实体统一和时间约束统一。实体统一是指将提取出的实体映射至指定概念集合中的概念,可以应用已有的编码体系,也可以自行定义概念集合,以实现将同义的实体进行统一规范的表达。时间约束统一是指将各种形式的时间属性进行统一的形式表达,如对时间单位的统一。
在完成入排标准的信息提取及规范化后,此步骤将规范化的实体以及实体属性之间的关系进行结构化表达,以此作为可计算可处理的知识表示,可以应用的结构化表达方法包括可扩展标记语言(Extensible Markup Language,XML)、资源描述框架(ResourceDescription Framework,RDF)、网络本体语言(Web Ontology Language,OWL)等,本实施例将使用一般的XML结构化表达形式。
本发明实施例中包括构建了一种针对专病的临床试验队列识别方法。以往的队列识别方法尚缺乏针对专病进行专业领域的分析和研究,因不同专业疾病自身的特性,这些方法的可扩展性和适用性受到了局限和限制。本发明将以专病为出发点,发明一种适合不同专病的通用方法论,提出首先获取和分析不同专病领域入排标准主要特征的方法,以此专病领域特征为基础,为后续工作流程提供有力的支持和依据。
对应的,本发明实施例还包括了构建了一种系统化的基于电子病历的专病临床试验队列识别方法,以往基于电子病历的队列识别方法尚缺乏整体性和系统性。一般通过人工分析的方式,解释和转换临床试验入排标准的规则,以及缺乏对非结构化电子病历数据的智能化处理和利用,限制了方法的高效性、准确性和扩展性。本发明通过构建专病领域入排标准的知识表示体系,可以自动化地将入排标准的临床内容和逻辑规则转换为结构化的查询语言,以此为基础,节省人力成本并提高入排标准规则转换的准确性。
同时在利用电子病历数据上,不仅利用结构化的数据,而且更注重挖掘非结构化的病历记录,同时利用领域知识增强表型分析的依据,以此突破仅利用结构化数据的局限性,如诊断编码自身的完整性、表达的差异性和时效性会使得仅利用诊断编码进行表型分析存在一定的偏差。
在本发明实施例中还包括了利用深度学习技术方法实现入排标准的医学信息提取流程,在医学信息提取工作流程中,在其他领域如临床文本和医学文献上,已经展现了突出的性能和潜力空间,但是在临床试验入排标准的医学信息提取工作上,以往还未有深度学习方法的探索和应用。因此,本发明将利用基于深度学习的方法进一步提升入排标准的医学信息提取性能。
因此,采用本发明提出的技术方法,能够自动化的将专病临床试验入排标准进行知识化表示,自动地将入排标准转换为结构化的查询语言,可以直接地连接和操作电子病历数据。另外,本发明方法可以提升电子病历中的专病表型分析性能,发现更多的目标疾病患者,同时提取出入排标准需要的临床内容。最终实现患者匹配,自动化高效地完成临床试验的队列识别工作。
在本申请实施例还提供了一种应用于专病临床试验的队列识别装置,参见图3,所述装置包括:
生成单元10,用于基于预创建的专病临床试验入排标准的知识体系,生成专病临床试验入排标准的查询信息,其中,所述专病临床试验入排标准表征临床试验中受试人员的入选标准和排除标准;所述专病临床试验入排标准的知识体系为将专病临床试验入排标准以计算机可识别信息进行的知识表示的体系;
分析单元20,用于获取电子病历数据,并对所述电子病历数据进行信息分析,得到专病表型分析信息,所述专病表型分析信息为识别具有特定疾病或特征的患者信息;
确定单元30,用于基于所述专病表型分析信息和所述专病临床试验入排标准的查询信息,确定匹配所述查询信息的专病临床试验的队列,所述专病临床试验的队列包括多个满足所述专病临床试验入排标准的受试者。
可选地,所述装置包括:创建单元,用于创建专病临床试验入排标准的知识体系,所述创建单元包括:
第一提取子单元,用于对所述专病临床试验入排标准进行信息提取,得到提取后信息,所述提取后的信息包括特征信息、入排标准与电子病历数据之间的差异信息、医学信息、实体信息和实体之间的逻辑信息;
第一处理子单元,用于对所述提取后的信息进行规范化处理,得到处理后的信息;
表示子单元,用于对所述处理后的信息进行信息结构化表示,得到所述专病临床试验入排标准的知识体系。
可选地,所述装置包括:提取单元,用于对所述专病临床试验入排标准进行信息提取,得到医学信息,所述提取单元包括:
第二提取子单元,用于按照类别从所述专病临床试验入排标准中提取到医学实体;
第一获取子单元,用于获取所述医学实体的属性信息和医学实体与属性之间的关系信息。
可选地,所述分析单元包括:
第二获取子单元,用于获取电子病历数据;
第一确定子单元,用于确定所述电子病历数据的结构化病历数据和非结构化病历数据;
第二处理子单元,用于对所述结构化病历数据和非结构化病历数据进行数据预处理,并对预处理后的信息进行专病表型分类,得到分类信息;
第一生成子单元,用于基于所述分类信息,生成专病表型分析信息。
可选地,所述分析单元包括:
模型处理单元,用于利用预创建的表型分析模型,对获取到的电子病历数据进行处理,得到专病表型分析信息,所述表型分析模型为利用电子病历数据进行训练得到的神经网络模型。
相较于现有技术,本发明提供了一种应用于专病临床试验的队列识别装置,生成单元基于预创建的专病临床试验入排标准的知识体系,生成专病临床试验入排标准的查询信息;分析单元获取电子病历数据,并对所述电子病历数据进行信息分析,得到专病表型分析信息;确定单元基于所述专病表型分析信息和所述专病临床试验入排标准的查询信息,确定匹配所述查询信息的专病临床试验的队列。在本发明中专病临床试验入排标准的知识体系为将专病临床试验入排标准以计算机可识别信息进行的知识表示的体系,实现自动地将入排标准转换为结构化的查询语言,可以直接地对电子病历数据进行处理,获得满足专病临床试验的受试者,提升了信息转换的处理效率及提升临床试验的队列识别工作的准确性。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种应用于专病临床试验的队列识别方法,其特征在于,所述方法包括:
基于预创建的专病临床试验入排标准的知识体系,生成专病临床试验入排标准的查询信息,其中,所述专病临床试验入排标准表征临床试验中受试人员的入选标准和排除标准;所述专病临床试验入排标准的知识体系为将专病临床试验入排标准以计算机可识别信息进行的知识表示的体系;
获取电子病历数据,并对所述电子病历数据进行信息分析,得到专病表型分析信息,所述专病表型分析信息为识别具有特定疾病或特征的患者信息;
基于所述专病表型分析信息和所述专病临床试验入排标准的查询信息,确定匹配所述查询信息的专病临床试验的队列,所述专病临床试验的队列包括多个满足所述专病临床试验入排标准的受试者。
2.根据权利要求1所述的方法,其特征在于,所述方法包括:创建专病临床试验入排标准的知识体系,包括:
对所述专病临床试验入排标准进行信息提取,得到提取后信息,所述提取后的信息包括特征信息、入排标准与电子病历数据之间的差异信息、医学信息、实体信息和实体之间的逻辑信息;
对所述提取后的信息进行规范化处理,得到处理后的信息;
对所述处理后的信息进行信息结构化表示,得到所述专病临床试验入排标准的知识体系。
3.根据权利要求2所述的方法,其特征在于,所述方法包括:对所述专病临床试验入排标准进行信息提取,得到医学信息,包括:
按照类别从所述专病临床试验入排标准中提取到医学实体;
获取所述医学实体的属性信息和医学实体与属性之间的关系信息。
4.根据权利要求1所述的方法,其特征在于,所述获取电子病历数据,并对所述电子病历数据进行信息分析,得到专病表型分析信息,包括:
获取电子病历数据;
确定所述电子病历数据的结构化病历数据和非结构化病历数据;
对所述结构化病历数据和非结构化病历数据进行数据预处理,并对预处理后的信息进行专病表型分类,得到分类信息;
基于所述分类信息,生成专病表型分析信息。
5.根据权利要求1所述的方法,其特征在于,所述获取电子病历数据,并对所述电子病历数据进行信息分析,得到专病表型分析信息,包括:
利用预创建的表型分析模型,对获取到的电子病历数据进行处理,得到专病表型分析信息,所述表型分析模型为利用电子病历数据进行训练得到的神经网络模型。
6.一种应用于专病临床试验的队列识别装置,其特征在于,所述装置包括:
生成单元,用于基于预创建的专病临床试验入排标准的知识体系,生成专病临床试验入排标准的查询信息,其中,所述专病临床试验入排标准表征临床试验中受试人员的入选标准和排除标准;所述专病临床试验入排标准的知识体系为将专病临床试验入排标准以计算机可识别信息进行的知识表示的体系;
分析单元,用于获取电子病历数据,并对所述电子病历数据进行信息分析,得到专病表型分析信息,所述专病表型分析信息为识别具有特定疾病或特征的患者信息;
确定单元,用于基于所述专病表型分析信息和所述专病临床试验入排标准的查询信息,确定匹配所述查询信息的专病临床试验的队列,所述专病临床试验的队列包括多个满足所述专病临床试验入排标准的受试者。
7.根据权利要求6所述的装置,其特征在于,所述装置包括:创建单元,用于创建专病临床试验入排标准的知识体系,所述创建单元包括:
第一提取子单元,用于对所述专病临床试验入排标准进行信息提取,得到提取后信息,所述提取后的信息包括特征信息、入排标准与电子病历数据之间的差异信息、医学信息、实体信息和实体之间的逻辑信息;
第一处理子单元,用于对所述提取后的信息进行规范化处理,得到处理后的信息;
表示子单元,用于对所述处理后的信息进行信息结构化表示,得到所述专病临床试验入排标准的知识体系。
8.根据权利要求7所述的装置,其特征在于,所述装置包括:提取单元,用于对所述专病临床试验入排标准进行信息提取,得到医学信息,所述提取单元包括:
第二提取子单元,用于按照类别从所述专病临床试验入排标准中提取到医学实体;
第一获取子单元,用于获取所述医学实体的属性信息和医学实体与属性之间的关系信息。
9.根据权利要求6所述的装置,其特征在于,所述分析单元包括:
第二获取子单元,用于获取电子病历数据;
第一确定子单元,用于确定所述电子病历数据的结构化病历数据和非结构化病历数据;
第二处理子单元,用于对所述结构化病历数据和非结构化病历数据进行数据预处理,并对预处理后的信息进行专病表型分类,得到分类信息;
第一生成子单元,用于基于所述分类信息,生成专病表型分析信息。
10.根据权利要求6所述的装置,其特征在于,所述分析单元包括:
模型处理单元,用于利用预创建的表型分析模型,对获取到的电子病历数据进行处理,得到专病表型分析信息,所述表型分析模型为利用电子病历数据进行训练得到的神经网络模型。
CN202010512438.3A 2020-06-08 2020-06-08 应用于专病临床试验的队列识别方法及装置 Pending CN111667891A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010512438.3A CN111667891A (zh) 2020-06-08 2020-06-08 应用于专病临床试验的队列识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010512438.3A CN111667891A (zh) 2020-06-08 2020-06-08 应用于专病临床试验的队列识别方法及装置

Publications (1)

Publication Number Publication Date
CN111667891A true CN111667891A (zh) 2020-09-15

Family

ID=72385817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010512438.3A Pending CN111667891A (zh) 2020-06-08 2020-06-08 应用于专病临床试验的队列识别方法及装置

Country Status (1)

Country Link
CN (1) CN111667891A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112509693A (zh) * 2020-12-11 2021-03-16 北京目人生殖医学科技有限公司 一种临床数据统计分析方法、系统、设备及存储介质
CN112530535A (zh) * 2020-12-15 2021-03-19 山东健康医疗大数据有限公司 基于健康医疗大数据建立疾病专病队列的方法及装置
CN113257377A (zh) * 2021-06-04 2021-08-13 联仁健康医疗大数据科技股份有限公司 确定目标用户的方法、装置、电子设备及存储介质
CN113936756A (zh) * 2021-09-13 2022-01-14 浙江海心智惠科技有限公司 一种肿瘤临床试验评分系统
CN116453640A (zh) * 2023-06-15 2023-07-18 北京四海汇智科技有限公司 基于多标签筛选的临床专病库构建方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108986917A (zh) * 2018-06-14 2018-12-11 杭州认知网络科技有限公司 临床试验匹配方法、装置及终端设备
CN110223784A (zh) * 2019-06-17 2019-09-10 无码科技(杭州)有限公司 临床试验患者匹配方法
CN110222201A (zh) * 2019-06-26 2019-09-10 中国医学科学院医学信息研究所 一种专病知识图谱构建方法及装置
CN111199801A (zh) * 2018-11-19 2020-05-26 零氪医疗智能科技(广州)有限公司 一种用于识别病历的疾病类型的模型的构建方法及应用

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108986917A (zh) * 2018-06-14 2018-12-11 杭州认知网络科技有限公司 临床试验匹配方法、装置及终端设备
CN111199801A (zh) * 2018-11-19 2020-05-26 零氪医疗智能科技(广州)有限公司 一种用于识别病历的疾病类型的模型的构建方法及应用
CN110223784A (zh) * 2019-06-17 2019-09-10 无码科技(杭州)有限公司 临床试验患者匹配方法
CN110222201A (zh) * 2019-06-26 2019-09-10 中国医学科学院医学信息研究所 一种专病知识图谱构建方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112509693A (zh) * 2020-12-11 2021-03-16 北京目人生殖医学科技有限公司 一种临床数据统计分析方法、系统、设备及存储介质
CN112530535A (zh) * 2020-12-15 2021-03-19 山东健康医疗大数据有限公司 基于健康医疗大数据建立疾病专病队列的方法及装置
CN112530535B (zh) * 2020-12-15 2023-04-21 山东浪潮智慧医疗科技有限公司 基于健康医疗大数据建立疾病专病队列的方法及装置
CN113257377A (zh) * 2021-06-04 2021-08-13 联仁健康医疗大数据科技股份有限公司 确定目标用户的方法、装置、电子设备及存储介质
CN113257377B (zh) * 2021-06-04 2024-05-24 联仁健康医疗大数据科技股份有限公司 确定目标用户的方法、装置、电子设备及存储介质
CN113936756A (zh) * 2021-09-13 2022-01-14 浙江海心智惠科技有限公司 一种肿瘤临床试验评分系统
CN116453640A (zh) * 2023-06-15 2023-07-18 北京四海汇智科技有限公司 基于多标签筛选的临床专病库构建方法、装置及电子设备
CN116453640B (zh) * 2023-06-15 2023-09-22 北京四海汇智科技有限公司 基于多标签筛选的临床专病库构建方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN108831559B (zh) 一种中文电子病历文本分析方法与系统
CN111667891A (zh) 应用于专病临床试验的队列识别方法及装置
CN108877921B (zh) 医疗智能分诊方法和医疗智能分诊系统
JP5952835B2 (ja) 撮像プロトコルの更新及び/又はリコメンダ
CN111564223B (zh) 传染病生存概率的预测方法、预测模型的训练方法及装置
US11464455B2 (en) Method and apparatus of context-based patient similarity
US20130238363A1 (en) Medical examination assistance system and method of assisting medical examination
US20060184489A1 (en) Genetic knowledgebase creation for personalized analysis of medical conditions
CA2465706A1 (en) Patient data mining
JP2015524107A (ja) 患者情報を臨床基準にマッチングするシステム及び方法
WO2006065822A1 (en) Personalized genetic-based analysis of medical conditions
CN113345577B (zh) 诊疗辅助信息的生成方法、模型训练方法、装置、设备以及存储介质
CN112530535B (zh) 基于健康医疗大数据建立疾病专病队列的方法及装置
US20240233952A1 (en) Systems and Methods for Continuous Cancer Treatment and Prognostics
CN111429985A (zh) 电子病历数据处理方法及系统
Stewart et al. Applications of natural language processing at emergency department triage: A narrative review
CN117373650A (zh) 一种多模态识别早期痴呆人群的方法、系统和设备
CN115862897A (zh) 一种基于临床数据的症候群监测方法及系统
Liyanage et al. Ontologies in big health data analytics: application to routine clinical data
CN111667922A (zh) 一种临床诊疗数据录入系统和方法
US20150302171A1 (en) Bioimaging grid
CN110889836A (zh) 一种影像数据分析方法、装置、终端设备及存储介质
CN115618817B (zh) 医疗文本时间数据规范化处理方法及装置
KR102627462B1 (ko) Mec를 이용한 의료기기 연동 및 문진성능 향상시스템 및 그 방법
US20240079102A1 (en) Methods and systems for patient information summaries

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination