CN111400759A - 访视时间表生成方法及装置、存储介质、电子设备 - Google Patents

访视时间表生成方法及装置、存储介质、电子设备 Download PDF

Info

Publication number
CN111400759A
CN111400759A CN202010184687.4A CN202010184687A CN111400759A CN 111400759 A CN111400759 A CN 111400759A CN 202010184687 A CN202010184687 A CN 202010184687A CN 111400759 A CN111400759 A CN 111400759A
Authority
CN
China
Prior art keywords
entity
event
date
data
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010184687.4A
Other languages
English (en)
Inventor
薛健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Happy Life Technology Co ltd
Original Assignee
Tianjin Happy Life Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Happy Life Technology Co ltd filed Critical Tianjin Happy Life Technology Co ltd
Priority to CN202010184687.4A priority Critical patent/CN111400759A/zh
Publication of CN111400759A publication Critical patent/CN111400759A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Primary Health Care (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Epidemiology (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Biomedical Technology (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例是关于一种访视时间表生成方法及装置、存储介质、电子设备,涉及医疗大数据处理技术领域,该方法包括:获取临床试验数据,并对所述临床试验数据进行解析得到关键事件以及与所述关键事件对应的时间节点;根据所述关键事件以及与所述关键事件对应的时间节点对待挖掘医疗数据进行挖掘,得到事件实体以及与所述事件实体对应的日期实体;根据所述事件实体以及与所述事件实体对应的日期实体,生成所述访视时间表。本发明实施例提高了访视时间表的生成效率。

Description

访视时间表生成方法及装置、存储介质、电子设备
技术领域
本发明实施例涉及医疗大数据处理技术领域,具体而言,涉及一种访视时间表生成方法、访视时间表生成装置、计算机可读存储介质以及电子设备。
背景技术
由于医院电子信息系统建设的历史演变等原因,临床试验受试者数据主要存在于医院的HIS(Hospital Information System,医院信息系统)系统、临床试验系统等,如:受试者检验检查、生命体征、伴随用药等数据主要存放于HIS系统,但是受试者时间的安排主要在临床试验管理系统中完成,而费用信息可能两套系统中均有留存。
由于受限于多套系统间的异构差异,目前对于受试者访视时间表的获取主要集中在以下两种解决方案上:(1)通过临床协调员(CRC,Clinical Research Coordinator)人工从EDC(Electronic Data Capture System,电子数据捕获系统)中导出受试者访视时间表;(2)通过临床试验管理系统网络接口拉取受试者访视时间表。
但是,上述方案存在如下缺陷:一方面,由于需要人工介入,因此访视时间表的生成效率低下,无法实现数据流自动化;另一方面,由于需要通过网络接口对访视时间表进行拉取,因此会使得访视时间表的数据安全性较低,同时也存在访问权限的问题。
因此,需要提供一种新的访视时间表生成方法及装置。
需要说明的是,在上述背景技术部分发明的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明的目的在于提供一种访视时间表生成方法、访视时间表生成装置、计算机可读存储介质以及电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的访视时间表的生成效率较低的问题。
根据本公开的一个方面,提供一种访视时间表生成方法,包括:
获取临床试验数据,并对所述临床试验数据进行解析得到关键事件以及与所述关键事件对应的时间节点;
根据所述关键事件以及与所述关键事件对应的时间节点对待挖掘医疗数据进行挖掘,得到事件实体以及与所述事件实体对应的日期实体;
根据所述事件实体以及与所述事件实体对应的日期实体,生成所述访视时间表。
在本公开的一种示例性实施例中,据所述关键事件以及所述时间节点对待挖掘医疗数据进行挖掘,得到事件实体以及日期实体包括:
对所述关键事件以及与所述关键事件对应的时间节点进行机器学习得到数据挖掘模型;
利用所述数据挖掘模型对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体。
在本公开的一种示例性实施例中,对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体包括:
利用预设医疗词频对所述待挖掘医疗数据进行标准化处理,得到标准医疗文本;
基于所述关键事件以及与所述关键事件对应的时间节点对所述标准医疗文本进行词切分,得到多个词切分结果以及时间切分结果;
计算各所述词切分结果以及各所述时间切分结果之间的实体描述距离得分,并对各所述词切分结果以及各所述时间切分结果进行实体语义替代处理;
根据各所述词切分结果以及各所述时间切分结果之间的实体描述距离得分以及实体语义替代结果,得到所述事件实体以及与所述事件实体对应的日期实体。
在本公开的一种示例性实施例中,计算各所述词切分结果以及各所述时间切分结果之间的实体描述距离得分包括:
根据各所述词切分结果以及各所述时间切分结果在所述标准医疗文本中的当前位置,计算各所述词切分结果以及各所述时间切分结果之间的实体描述距离得分。
在本公开的一种示例性实施例中,如果所述词切分结果与所述时间切分结果之间的实体描述距离得分大于预设分值,且所述时间切分结果不能被所述词切分结果进行语义替代,则将所述词切分结果以及所述时间切分结果作为所述事件实体以及与所述事件实体对应的日期实体。
在本公开的一种示例性实施例中,对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体还包括:
在所述待挖掘医疗数据中对所述关键事件进行匹配得到多个匹配结果;
在确定所述匹配结果的匹配度为完全匹配时,提取该匹配结果作为所述事件实体;
根据所述时间节点提取与所述事件实体对应的日期实体。
在本公开的一种示例性实施例中,对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体还包括:
对所述待挖掘医疗数据进行自然语言处理以及数据结构化处理,得到结构化医疗文本;
根据所述关键事件以及与所述关键事件对应的时间节点,从所述结构化医疗文本中提取所述事件实体以及与所述事件实体对应的日期实体。
在本公开的一种示例性实施例中,对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体还包括:
在所述待挖掘医疗数据中对所述关键事件进行匹配得到多个匹配结果,并在确定所述匹配结果的匹配度为完全匹配时,提取与该匹配结果对应的匹配日期;
对所述匹配日期进行排序处理,并计算排序处理后两个相邻的匹配日期之间的间隔是否满足预设间隔日期;
若是,则将所述匹配结果作为所述事件实体,将与所述匹配结果对应的匹配日期作为所述日期实体。
在本公开的一种示例性实施例中,根据所述事件实体以及与所述事件实体对应的日期实体,生成所述访视时间表包括:
基于预设的自适应时间窗对所述日期实体进行调整;
根据所述事件实体以及与所述事件实体对应的调整后的日期实体,生成所述访视时间表。
在本公开的一种示例性实施例中,所述访视时间表生成方法还包括:
根据所述时间节点计算访视周期,并根据所述日期实体以及所述访视周期对下一次的访视时间进行预测。
根据本公开的一个方面,提供一种访视时间表生成装置,包括:
数据解析模块,用于获取临床试验数据,并对所述临床试验数据进行解析得到关键事件以及与所述关键事件对应的时间节点;
数据挖掘模块,用于根据所述关键事件以及与所述关键事件对应的时间节点对待挖掘医疗数据进行挖掘,得到事件实体以及与所述事件实体对应的日期实体;
时间表生成模块,用于根据所述事件实体以及与所述事件实体对应的日期实体,生成所述访视时间表。
根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的访视时间表生成方法。
根据本公开的一个方面,提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的访视时间表生成方法。
本发明实施例提供的一种访视时间表生成方法,一方面,通过对临床试验数据进行解析得到关键事件以及与关键事件对应的时间节点;然后根据关键事件以及与关键事件对应的时间节点对待挖掘医疗数据进行挖掘,得到事件实体以及与事件实体对应的日期实体;最后根据事件实体以及与事件实体对应的日期实体,生成访视时间表,解决了现有技术中由于需要人工介入,因此访视时间表的生成效率低下,无法实现数据流自动化的问题,提高了访视时间表的生成效率,同时实现了数据流的自动化;另一方面,解决了现有技术中由于需要通过网络接口对访视时间表进行拉取,因此会使得访视时间表的数据安全性较低的问题,提高了访视时间表的数据安全性同时也提高了系统的安全性;再一方面,解决了现有技术中由于需要通过网络结构对访视时间表进行拉取导致的访问权限的问题;进一步的,通过根据关键事件以及与关键事件对应的时间节点对待挖掘医疗数据进行挖掘,得到事件实体以及与事件实体对应的日期实体;再根据事件实体以及与事件实体对应的日期实体,生成访视时间表,提高了生成的访视时间表的准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出根据本发明示例实施例的一种访视时间表生成方法的流程图。
图2示意性示出根据本发明示例实施例的一种根据所述关键事件以及与所述关键事件对应的时间节点对待挖掘医疗数据进行挖掘,得到事件实体以及与所述事件实体对应的日期实体的方法流程图。
图3示意性示出根据本发明示例实施例的一种对待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体的方法流程图。
图4示意性示出根据本发明示例实施例的另一种对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体的方法流程图。
图5示意性示出根据本发明示例实施例的另一种对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体的方法流程图。
图6示意性示出根据本发明示例实施例的一种访视时间表的示例图。
图7示意性示出根据本发明示例实施例的一种访视时间表生成装置的框图。
图8示意性示出根据本发明示例实施例的一种用于实现上述访视时间表生成方法的电子设备。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本发明的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本发明的各方面变得模糊。
此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
药物临床试验中所要挖掘或者统计的访视数据所参考的访视时间表,一般可以根据项目形式分为两类:一类是:已经完结的临床试验项目(或pilot(试点)项目),一般以月为周期定时,通过临床协调员(CRC,Clinical Research Coordinator)人工从EDC(Electronic Data Capture System,电子数据捕获系统)中导出,或以手工抄写等形式进行人工介入,并以Excel或文本形式提供;另一类是:正在进行中的或者正准备开始的临床试验项目,目前国内只存在CRC手动录入EDC系统,即不涉及受试者访视时间表的提供,但是国内一些临床试验机构(医院)协同大数据公司正在积极尝试以数据挖掘等方法从HER(Electronic Health Record,电子健康档案)系统中抽取、估算受试者访视时间表,以实现临床试验数据自动化录入EDC。
临床试验数据处理主要包括数据挖掘、数据统计、数据分析等操作。其中数据挖掘主要是从医院的电子信息系统中提取受试者相应访视日期时间范围的检验检查、生命体征、用药处方等一系列相关的数据,同时临床试验数据处理也是后续临床研究的基础前提,所以临床试验受试者访视时间表的数据质量直接关系到临床试验数据处理及后续研究的成功与否。由于医院电子信息系统建设的历史演变等原因,临床试验受试者数据主要存在于医院的HIS系统、临床试验系统等,如:受试者检验检查、生命体征、伴随用药等数据主要存放于HIS(Hospital Information System,医院信息系统)系统,但是受试者时间的安排主要在临床试验管理系统中完成,而费用信息可能两套系统中均有留存。
由于受限于多套系统间的异构差异,目前对于受试者访视时间表的获取主要集中在以下两种解决方案上:(1)通过CRC定期从EDC系统中导出受试者访视时间表;(2)通过临床试验管理系统网络接口拉取受试者访视时间表。
最为直接的解决方案主要集中在通过CRC定期从EDC系统、临床试验管理系统中导出或抄写各受试者的访视时间表,并交由专门的数据挖掘工程师导入相应的数据流配置中,此方案能够基本解决数据挖掘对受试者访视时间表的依赖。但是其局限性也是非常明显:由于需要定期的人工介入,导致数据流无法实现自动化,更为严重的是存在数据泄露等安全隐患。所以上述方案仅仅在已经完结的临床试验试点项目/演示项目中采用。
通过网络接口接入临床试验管理系统的方案,在上述方案中属于技术层面最为高效的解决方案。但是由于在项目过程中存在临床试验申办方、研究机构、服务提供方之间多种网络的交互,涉及到异构网络系统兼容性、数据访问权限、(敏感)数据安全性等问题,对外网络接口基本所有医院目前都不对外提供,并且在可预见的未来短期内依然不会对外开放。
本示例实施方式中首先提供了一种访视时间表生成方法,该方法可以运行于服务器、服务器集群或云服务器等;当然,本领域技术人员也可以根据需求在其他平台运行本发明的方法,本示例性实施例中对此不做特殊限定。参考图1所示,该访视时间表生成方法可以包括以下步骤:
步骤S110.获取临床试验数据,并对所述临床试验数据进行解析得到关键事件以及与所述关键事件对应的时间节点。
步骤S120.根据所述关键事件以及与所述关键事件对应的时间节点对待挖掘医疗数据进行挖掘,得到事件实体以及与所述事件实体对应的日期实体。
步骤S130.根据所述事件实体以及与所述事件实体对应的日期实体,生成所述访视时间表。
上述访视时间表生成方法中,一方面,通过对临床试验数据进行解析得到关键事件以及与关键事件对应的时间节点;然后根据关键事件以及与关键事件对应的时间节点对待挖掘医疗数据进行挖掘,得到事件实体以及与事件实体对应的日期实体;最后根据事件实体以及与事件实体对应的日期实体,生成访视时间表,解决了现有技术中由于需要人工介入,因此访视时间表的生成效率低下,无法实现数据流自动化的问题,提高了访视时间表的生成效率,同时实现了数据流的自动化;另一方面,解决了现有技术中由于需要通过网络接口对访视时间表进行拉取,因此会使得访视时间表的数据安全性较低的问题,提高了访视时间表的数据安全性同时也提高了系统的安全性;再一方面,解决了现有技术中由于需要通过网络结构对访视时间表进行拉取导致的访问权限的问题;进一步的,通过根据关键事件以及与关键事件对应的时间节点对待挖掘医疗数据进行挖掘,得到事件实体以及与事件实体对应的日期实体;再根据事件实体以及与事件实体对应的日期实体,生成访视时间表,提高了生成的访视时间表的准确率。
以下,将结合附图对本发明示例实施例访视时间表生成方法中涉及的各步骤进行详细的解释以及说明。
首先,对本发明示例实施例所应用到的技术、发明目的以及数据来源进行说明。
本发明示例实施例应用到了包括自然语言处理、数据挖掘、临床试验、数据流以及eSource等等技术领域,更具体的,涉及通过自然语言处理及其他数据挖掘算法推导估算临床试验中受试者访视时间表方法/装置等等。
进一步的,本申请通过机器学习/自然语言处理算法训练受试者访视时间表相对于现有技术来说,在可供挖掘的数据不充分情况下可能会在数据正确性上会出现稍许偏差。但是就目前实际情况而言,相比较于现有技术实现过程中的曲折,数据挖掘方案不失为一种性价比较高的架构。并且,实现了数据流事实上的自动化;兼容受试者实际访视日期方案违背等异常;不涉及医院内部异构网络系统数据安全问题。因此,本发明旨在通过挖掘HIS系统中所存放的临床试验数据,以算法推导构建受试者访视时间表。
同时,由于临床试验项目的原始数据主要存在于医院HIS系统及临床实验中心系统中,因此可以直接从HIS系统中获取临床试验数据。并且,本发明示例实施例依托于DPAP(Data Process&Application Platform,医学数据智能平台)数据集实现对临床试验数据挖掘、处理;其中,HIS系统中存放的患者电子数据;且患者电子数据以二维表形式存放。
以下,对步骤S110-步骤S130进行解释以及说明。
在步骤S110中,获取临床试验数据,并对所述临床试验数据进行解析得到关键事件以及与所述关键事件对应的时间节点。
在本示例实施例中,首先,从HIS系统中获取临床试验数据,然后对临床试验数据进行解析得到关键事件以及与各关键事件对应的时间节点。其中,该关键事件例如可以包括:受试者签署知情同意时间、受试者筛选失败、出组、实验结束等、随机化时间以及首次用药时间,也可以包括其他关键事件,例如可以是招募时间等,本示例对此不做特殊限制。需要补充说明的是,上述的关键事件不仅是临床试验开展的基础,同时更是临床试验数据挖掘、处理、研究的前提。只有通过界定上述事件,才能实现数据挖掘的时间范围、研究过程的规律等。并且,该关键事件主要存放在临床试验管理系统中,一般由CRC负责记录、维护、安排时间等。但是出于临床试验的严谨性,HIS系统的各种文本描述中一般会有一定的文字描述,用于辅助相关医生进行就诊决策,因此可以避免需要从临床试验管理系统中对数据进行导出进而引起的权限问题。
在步骤S120中,根据所述关键事件以及与所述关键事件对应的时间节点对待挖掘医疗数据进行挖掘,得到事件实体以及与所述事件实体对应的日期实体。
在本示例实施例中,参考图2所示,据所述关键事件以及所述时间节点对待挖掘医疗数据进行挖掘,得到事件实体以及日期实体可以包括步骤S210以及步骤S220。其中:
在步骤S210中,对所述关键事件以及与所述关键事件对应的时间节点进行机器学习得到数据挖掘模型。
在本示例实施例中,对上述关键事件以及与各关键事件对应的时间节点对通过机器学习/自然语言处理算法对初始网络模型进行训练,得到一数据挖掘模型。其中,该初始网络模型例如可以是隐马尔可夫模型或者条件随机场模型等等,本示例对此不做特殊限制。在对初始网络模型进行训练的过程中,所涉及到的参数可以包括事件实体、日期实体,以及事件实体与日期实体之间的实体描述距离等等。
在步骤S220中,利用所述数据挖掘模型对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体。
在本示例实施例中,当得到上述数据挖掘模型以后,可以直接将待挖掘医疗数据输入至该数据挖掘模型中,即可以得到上述事件实体以及与事件实体对应的日期实体。
进一步的,为了可以更进一步的对事件实体以及日期实体的挖掘过程进行解释以及说明,以下将结合图3-图5对事件实体以及与事件实体对应的日期实体的挖掘过程进行进一步的解释以及说明。
具体的,参考图3所示,对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体可以包括步骤S310-步骤S340。其中:
在步骤S310中,利用预设医疗词频对所述待挖掘医疗数据进行标准化处理,得到标准医疗文本。
在步骤S320中,基于所述关键事件以及与所述关键事件对应的时间节点对所述标准医疗文本进行词切分,得到多个词切分结果以及时间切分结果。
在步骤S330中,计算各所述词切分结果以及各所述时间切分结果之间的实体描述距离得分,并对各所述词切分结果以及各所述时间切分结果进行实体语义替代处理。
在本示例实施例中,计算各所述词切分结果以及各所述时间切分结果之间的实体描述距离得分包括:根据各所述词切分结果以及各所述时间切分结果在所述标准医疗文本中的当前位置,计算各所述词切分结果以及各所述时间切分结果之间的实体描述距离得分。
在步骤S340中,根据各所述词切分结果以及各所述时间切分结果之间的实体描述距离得分以及实体语义替代结果,得到所述事件实体以及与所述事件实体对应的日期实体。
在本示例实施例中,如果所述词切分结果与所述时间切分结果之间的实体描述距离得分大于预设分值,且所述时间切分结果不能被所述词切分结果进行语义替代,则将所述词切分结果以及所述时间切分结果作为所述事件实体以及与所述事件实体对应的日期实体。
以下,将对步骤S310-步骤S340以及与其对应的步骤进行解释以及说明。首先,临床试验的关键事件信息主要是存放在临床试验管理系统中,但是如上文所述由于临床试验的严谨性,一般HIS系统中对应的上级查房记录、出入院记录等医生手书的自由文本中会有一定的文字描述,这就给实际临床试验项目数据挖掘提供必备的基础。具体文字描述(待挖掘医疗数据)举例如下:
“***主治医师查房:考虑患者初步符合A*****研究入组要求,**主治医师于2015-9-25与其沟通病情并充分介绍该项研究内容后,患者表示理解无疑问后同意参加A*****研究,由于患者无阅读能力,由**为中立见证人,**主治医师为患者及中立见证人讲解此知情同意书,由其女儿代签署A*****研究知情同意书(版本日期:2015年3月17日),**作为中立见证人签字,将一份三方均签字和签日期的知情同意书给受试者保留,同时研究者留存一份放入文件夹。”
进一步的,本发明结合实际数据挖掘经验,通过医院内部词频(预设医疗词频)统计相似性完成对医生文本书写风格一致性评估后得到标准医疗文本,然后采用以医院作为最大数据挖掘颗粒度语料库进行自然语言处理。以关键事件中的“签署知情同意”为例,如上述文本所示,通过文本切词得到时间切分结果:“2015-9-25”和“2015年3月17日”,词切分结果:“签署”、“A******”(临床试验项目编号)、“知情同意”。同时经过实体语义替代,实体描述距离得分,整句、分句语义分析等操作,得到时间切分结果“2015年3月17日”为词切分结果“知情同意”的版本,需要被实体语义替代,所以最终时间切分结果“2015-9-25”得分最高,将作为签署知情同意事件(事件实体)的日期(日期实体)。
其中,“实体描述距离得分”指某个具体实体到达同一句子中一类实体的文本文字距离之和的均值倒数,即如果某个实体离指定的一类实体越远,那么两者之间的关系越疏离,如以某个日期实体描述距离得分公式为:
Figure BDA0002413724860000121
n为分词结果的总数,abs(时间切分结果位置-词切分结果位置)表示时间切分结果未知与词切分结果位置的差的绝对值。
图4示意性示出根据本发明示例实施例的另一种对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体的方法流程图。参考图4所示,该对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体还可以包括步骤S410-步骤S430。其中:
在步骤S410中,在所述待挖掘医疗数据中对所述关键事件进行匹配得到多个匹配结果。
在步骤S420中,在确定所述匹配结果的匹配度为完全匹配时,提取该匹配结果作为所述事件实体。
在步骤S430中,根据所述时间节点提取与所述事件实体对应的日期实体。
以下,将对步骤S410-步骤S430进行解释以及说明。具体的,HIS系统中所记录的患者某次就诊是属于受试者访视行为还是患者常规就诊的一个重要判断依据就是本次就诊是否处方了临床试验药物。即,如果患者某次就诊被处方了临床试验药物,那么本次就诊大概率是临床试验访视。就目前医院存放临床试验药物处方信息的位置主要包括:HIS系统和临床试验管理系统。如上文所述,目前临床试验管理系统由于各种原因基本不对外提供网络接口,所以目前可行方案只能是从HIS系统里面挖掘临床试验药物处方信息。并且,在受试者实际访视过程中,只要是经过医院挂号而进行规范就诊步流程的临床试验访视,HIS系统均有相应的数据记录。同时其结构化的处方信息一般存储于就诊医嘱,而非结构化的处方信息一般存储于诊疗记录等自由文本中。
因此,在利用数据挖掘模型对待挖掘医疗数据(诊疗记录)进行挖掘时,首先,可以在该诊疗记录中对关键事件进行匹配得到多个匹配结果;其中,该关键事件例如可以包括临床试验药物/安慰剂处方信息、摆发药信息等,然后,在确定任一匹配结果的匹配度为完全匹配时,提取该匹配结果作为事件实体,然后提取对应的时间节点作为日期实体。
需要补充说明的是,上述诊疗记录中也有可能不存在临床试验药物/安慰剂处方信息、摆发药信息,这时就需要通过其他的访视挖掘该诊疗记录中的事件实体以及日期实体。具体的可以包括:首先,对所述待挖掘医疗数据进行自然语言处理以及数据结构化处理,得到结构化医疗文本;其次,根据所述关键事件以及与所述关键事件对应的时间节点,从所述结构化医疗文本中提取所述事件实体以及与所述事件实体对应的日期实体。具体的,可以通过对诊疗记录等自由文本进行自然语言处理、数据结构化等操作,挖掘估算受试者既往、当前的访视日期。通过该方法,可以进一步的提高事件实体以及日期实体的准确性以及全面性。
图5示意性示出根据本发明示例实施例的另一种对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体的方法流程图。参考图5所示,该对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体还可以包括步骤S510-步骤S530。其中:
在步骤S510中,在所述待挖掘医疗数据中对所述关键事件进行匹配得到多个匹配结果,并在确定所述匹配结果的匹配度为完全匹配时,提取与该匹配结果对应的匹配日期。
在步骤S520中,对所述匹配日期进行排序处理,并计算排序处理后两个相邻的匹配日期之间的间隔是否满足预设间隔日期。
在步骤S530中,若是,则将所述匹配结果作为所述事件实体,将与所述匹配结果对应的匹配日期作为所述日期实体。
以下,将对步骤S510-步骤S530进行解释以及说明。具体的,根据临床试验方案,一般临床实验项目在受试者访视日期前后会做相应的检查检验项目,用于进行研究分析,如上述表1所示的临床试验需要在每个访视周期的第1天,在第一、第二访视周期的第14天、第21天需要做血液学、血生化等实验室检验。
因此,可以先在待挖掘医疗数据(医疗文本)中对所述关键事件进行匹配得到多个匹配结果,并在确定匹配结果的匹配度为完全匹配时,提取与该匹配结果对应的匹配日期;其中,该关键事件例如可以是指定检验;如果受试者在相应的时间范围内接受过指定检验,并且前后检验时间间隔满足临床试验方案访视周期间隔(预设间隔日期),那么对应的就诊日期为受试者的正常访视日期(日期实体)。在实际场景中,由于受限于临床试验项目经费、检验检查复杂性等因素,本发明优先使用实验室检验作为第一指标进行访视时间节点推导,而类似重复性较高的生命体征检查则不作为推导指标。
在步骤S130中,根据所述事件实体以及与所述事件实体对应的日期实体,生成所述访视时间表。
在本示例实施例中,首先,基于预设的自适应时间窗对所述日期实体进行调整;其次,根据所述事件实体以及与所述事件实体对应的调整后的日期实体,生成所述访视时间表。
具体的,在用其他指标日期推导正式访视日期的过程中,考虑受试者访视过程中存在诸如实验室检验预约、等待、结果核查等的实际情况,往往受试者的检验、检查日期和受试者正式访视日期存在稍许偏差,所以在本发明中引入了时间窗机制,通过时间窗的日期长度兼容检验日期与访视日期不一致的情况。
以实际场景为例,在某临床试验项目中大量存在受试者进行实验室检验的日期比正式访视日期提前一天(正式访视日期通过数据挖掘明确处方临床试验药物并真实发药的日期)。本发明在实际操作把时间窗宽度初始设置为0,即初始默认实验室检验日期和正式访视日期不存在违背的情况;只有当在数据挖掘过程中实际发现存在正式访视日期和实验室检验不一致的情况,此时才会将两者日期的差值作为时间窗的长度进入下一次运算(如上文提及的实验室检验日期大量存在比正式方式日期提前一天,此时时间窗长度设置为1)。
结合上文描述,本发明根据自适应时间窗兼容方案违背的整体流程如下:(1)时间窗宽度初始为0,(2)数据挖掘优先使用处方临床试验药物日期作为正式访视日期,备选使用实验室检验日期,如果两者发生不一致则调整时间窗长度;(3)根据数据挖掘得到的方式日期,在访视日期时间窗长度运行日期范围内进行其他指标挖掘。其中,生成的访视时间表具体可以如图6所示。
进一步的,为了可以进一步的提高访视时间表的准确率,避免医疗文本中由于对其漏记进而导致的准确率降低的问题,该访视时间表生成方法还可以包括:根据所述时间节点计算访视周期,并根据所述日期实体以及所述访视周期对下一次的访视时间进行预测。
具体的,访视日期反馈预估主要是通过本次挖掘得到的访视方式日期反馈给数据挖掘算法,并根据临床试验方案中的访视周期长度预估下一次的访视日期,以此规避那些对应可能出现的临床试验数据在HIS系统里面遗失的情况。正常而言,如果临床试验数据在HIS系统里面出现遗失的情况,已经完全超出eSource框架数据挖掘能力范围,完全需要进行人为干预,但是出于对eSource框架的自动化追求,本发明通过进行访视日期反馈预估进行填补一部分遗失的访视日期。
访视日期反馈预估主要步骤如下:(1)根据本次访视日期反馈给算法,并加上正常访视周期估算下次访视日期;(2)如果估算得到的下次访视日期出现在周末或者节假日,那么根据自适应窗口长度进行访视日期调整;(3)比较估算访视日期和实际访视日期的差异,学习CRC在遇到周末节假日等医院不上班情况,并学习CRC对计划方式日期调整的行为习惯,提高估算准确度。其中,节假日日期于每年12月中旬通过网页抓取、数据挖掘实现;机器学习准则采用公式:
Figure BDA0002413724860000161
本发明示例实施例提供的访视时间表生成方法,通过数据挖掘、自然语言处理技术改进/创新,可以实现/达到临床试验中受试者访视时间表自动获取技术效果。具体的,结合具体示例可以得知,通过本发明示例实施例的数据挖掘得到的数据在访视日期方面和人工抄录完全一致,同时填补完整了EDC中缺失的受试者招募时间及随机化时间。
本发明示例实施例还提供了一种访视时间表生成装置。参考图7所示,该访视时间表生成装置可以包括数据解析模块710、数据挖掘模块720以及时间表生成模块730。其中:
数据解析模块710可以用于获取临床试验数据,并对所述临床试验数据进行解析得到关键事件以及与所述关键事件对应的时间节点。
数据挖掘模块720可以用于根据所述关键事件以及与所述关键事件对应的时间节点对待挖掘医疗数据进行挖掘,得到事件实体以及与所述事件实体对应的日期实体。
时间表生成模块730可以用于根据所述事件实体以及与所述事件实体对应的日期实体,生成所述访视时间表。
在本公开的一种示例性实施例中,据所述关键事件以及所述时间节点对待挖掘医疗数据进行挖掘,得到事件实体以及日期实体包括:
对所述关键事件以及与所述关键事件对应的时间节点进行机器学习得到数据挖掘模型;
利用所述数据挖掘模型对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体。
在本公开的一种示例性实施例中,对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体包括:
利用预设医疗词频对所述待挖掘医疗数据进行标准化处理,得到标准医疗文本;
基于所述关键事件以及与所述关键事件对应的时间节点对所述标准医疗文本进行词切分,得到多个词切分结果以及时间切分结果;
计算各所述词切分结果以及各所述时间切分结果之间的实体描述距离得分,并对各所述词切分结果以及各所述时间切分结果进行实体语义替代处理;
根据各所述词切分结果以及各所述时间切分结果之间的实体描述距离得分以及实体语义替代结果,得到所述事件实体以及与所述事件实体对应的日期实体。
在本公开的一种示例性实施例中,计算各所述词切分结果以及各所述时间切分结果之间的实体描述距离得分包括:
根据各所述词切分结果以及各所述时间切分结果在所述标准医疗文本中的当前位置,计算各所述词切分结果以及各所述时间切分结果之间的实体描述距离得分。
在本公开的一种示例性实施例中,如果所述词切分结果与所述时间切分结果之间的实体描述距离得分大于预设分值,且所述时间切分结果不能被所述词切分结果进行语义替代,则将所述词切分结果以及所述时间切分结果作为所述事件实体以及与所述事件实体对应的日期实体。
在本公开的一种示例性实施例中,对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体还包括:
在所述待挖掘医疗数据中对所述关键事件进行匹配得到多个匹配结果;
在确定所述匹配结果的匹配度为完全匹配时,提取该匹配结果作为所述事件实体;
根据所述时间节点提取与所述事件实体对应的日期实体。
在本公开的一种示例性实施例中,对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体还包括:
对所述待挖掘医疗数据进行自然语言处理以及数据结构化处理,得到结构化医疗文本;
根据所述关键事件以及与所述关键事件对应的时间节点,从所述结构化医疗文本中提取所述事件实体以及与所述事件实体对应的日期实体。
在本公开的一种示例性实施例中,对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体还包括:
在所述待挖掘医疗数据中对所述关键事件进行匹配得到多个匹配结果,并在确定所述匹配结果的匹配度为完全匹配时,提取与该匹配结果对应的匹配日期;
对所述匹配日期进行排序处理,并计算排序处理后两个相邻的匹配日期之间的间隔是否满足预设间隔日期;
若是,则将所述匹配结果作为所述事件实体,将与所述匹配结果对应的匹配日期作为所述日期实体。
在本公开的一种示例性实施例中,根据所述事件实体以及与所述事件实体对应的日期实体,生成所述访视时间表包括:
基于预设的自适应时间窗对所述日期实体进行调整;
根据所述事件实体以及与所述事件实体对应的调整后的日期实体,生成所述访视时间表。
在本公开的一种示例性实施例中,所述访视时间表生成装置还包括:
预测模块,可以用于根据所述时间节点计算访视周期,并根据所述日期实体以及所述访视周期对下一次的访视时间进行预测。
上述访视时间表生成装置中各模块的具体细节已经在对应的访视时间表生成方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本发明中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
在本发明的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图8来描述根据本发明的这种实施方式的电子设备800。图8显示的电子设备800仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830以及显示单元840。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元810可以执行如图1中所示的步骤S110:获取临床试验数据,并对所述临床试验数据进行解析得到关键事件以及与所述关键事件对应的时间节点;步骤S120:根据所述关键事件以及与所述关键事件对应的时间节点对待挖掘医疗数据进行挖掘,得到事件实体以及与所述事件实体对应的日期实体;步骤S130:根据所述事件实体以及与所述事件实体对应的日期实体,生成所述访视时间表。
存储单元820可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202,还可以进一步包括只读存储单元(ROM)8203。
存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204,这样的程序模块8205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线830可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备800也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备800交互的设备通信,和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口850进行。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本发明实施方式的方法。
在本发明的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
根据本发明的实施方式的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里发明的发明后,将容易想到本发明的其他实施例。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由权利要求指出。

Claims (13)

1.一种访视时间表生成方法,其特征在于,包括:
获取临床试验数据,并对所述临床试验数据进行解析得到关键事件以及与所述关键事件对应的时间节点;
根据所述关键事件以及与所述关键事件对应的时间节点对待挖掘医疗数据进行挖掘,得到事件实体以及与所述事件实体对应的日期实体;
根据所述事件实体以及与所述事件实体对应的日期实体,生成所述访视时间表。
2.根据权利要求1所述的访视时间表生成方法,其特征在于,据所述关键事件以及所述时间节点对待挖掘医疗数据进行挖掘,得到事件实体以及日期实体包括:
对所述关键事件以及与所述关键事件对应的时间节点进行机器学习得到数据挖掘模型;
利用所述数据挖掘模型对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体。
3.根据权利要求1所述的访视时间表生成方法,其特征在于,对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体包括:
利用预设医疗词频对所述待挖掘医疗数据进行标准化处理,得到标准医疗文本;
基于所述关键事件以及与所述关键事件对应的时间节点对所述标准医疗文本进行词切分,得到多个词切分结果以及时间切分结果;
计算各所述词切分结果以及各所述时间切分结果之间的实体描述距离得分,并对各所述词切分结果以及各所述时间切分结果进行实体语义替代处理;
根据各所述词切分结果以及各所述时间切分结果之间的实体描述距离得分以及实体语义替代结果,得到所述事件实体以及与所述事件实体对应的日期实体。
4.根据权利要求3所述的访视时间表生成方法,其特征在于,计算各所述词切分结果以及各所述时间切分结果之间的实体描述距离得分包括:
根据各所述词切分结果以及各所述时间切分结果在所述标准医疗文本中的当前位置,计算各所述词切分结果以及各所述时间切分结果之间的实体描述距离得分。
5.根据权利要求3所述的访视时间表生成方法,其特征在于,如果所述词切分结果与所述时间切分结果之间的实体描述距离得分大于预设分值,且所述时间切分结果不能被所述词切分结果进行语义替代,则将所述词切分结果以及所述时间切分结果作为所述事件实体以及与所述事件实体对应的日期实体。
6.根据权利要求1所述的访视时间表生成方法,其特征在于,对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体还包括:
在所述待挖掘医疗数据中对所述关键事件进行匹配得到多个匹配结果;
在确定所述匹配结果的匹配度为完全匹配时,提取该匹配结果作为所述事件实体;
根据所述时间节点提取与所述事件实体对应的日期实体。
7.根据权利要求1所述的访视时间表生成方法,其特征在于,对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体还包括:
对所述待挖掘医疗数据进行自然语言处理以及数据结构化处理,得到结构化医疗文本;
根据所述关键事件以及与所述关键事件对应的时间节点,从所述结构化医疗文本中提取所述事件实体以及与所述事件实体对应的日期实体。
8.根据权利要求1所述的访视时间表生成方法,其特征在于,对所述待挖掘医疗数据进行挖掘,得到所述事件实体以及与所述事件实体对应的日期实体还包括:
在所述待挖掘医疗数据中对所述关键事件进行匹配得到多个匹配结果,并在确定所述匹配结果的匹配度为完全匹配时,提取与该匹配结果对应的匹配日期;
对所述匹配日期进行排序处理,并计算排序处理后两个相邻的匹配日期之间的间隔是否满足预设间隔日期;
若是,则将所述匹配结果作为所述事件实体,将与所述匹配结果对应的匹配日期作为所述日期实体。
9.根据权利要求1所述的访视时间表生成方法,其特征在于,根据所述事件实体以及与所述事件实体对应的日期实体,生成所述访视时间表包括:
基于预设的自适应时间窗对所述日期实体进行调整;
根据所述事件实体以及与所述事件实体对应的调整后的日期实体,生成所述访视时间表。
10.根据权利要求1所述的访视时间表生成方法,其特征在于,所述访视时间表生成方法还包括:
根据所述时间节点计算访视周期,并根据所述日期实体以及所述访视周期对下一次的访视时间进行预测。
11.一种访视时间表生成装置,其特征在于,包括:
数据解析模块,用于获取临床试验数据,并对所述临床试验数据进行解析得到关键事件以及与所述关键事件对应的时间节点;
数据挖掘模块,用于根据所述关键事件以及与所述关键事件对应的时间节点对待挖掘医疗数据进行挖掘,得到事件实体以及与所述事件实体对应的日期实体;
时间表生成模块,用于根据所述事件实体以及与所述事件实体对应的日期实体,生成所述访视时间表。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-10任一项所述的访视时间表生成方法。
13.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-10任一项所述的访视时间表生成方法。
CN202010184687.4A 2020-03-17 2020-03-17 访视时间表生成方法及装置、存储介质、电子设备 Withdrawn CN111400759A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010184687.4A CN111400759A (zh) 2020-03-17 2020-03-17 访视时间表生成方法及装置、存储介质、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010184687.4A CN111400759A (zh) 2020-03-17 2020-03-17 访视时间表生成方法及装置、存储介质、电子设备

Publications (1)

Publication Number Publication Date
CN111400759A true CN111400759A (zh) 2020-07-10

Family

ID=71428944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010184687.4A Withdrawn CN111400759A (zh) 2020-03-17 2020-03-17 访视时间表生成方法及装置、存储介质、电子设备

Country Status (1)

Country Link
CN (1) CN111400759A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114566247A (zh) * 2022-04-20 2022-05-31 浙江太美医疗科技股份有限公司 Crf的自动生成方法和装置、电子设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114566247A (zh) * 2022-04-20 2022-05-31 浙江太美医疗科技股份有限公司 Crf的自动生成方法和装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
US10878962B2 (en) System and method for extracting oncological information of prognostic significance from natural language
CN109584975B (zh) 医疗数据标准化处理方法及装置
US20220172725A1 (en) Systems and methods for extracting information from a dialogue
US8612261B1 (en) Automated learning for medical data processing system
CN108899064A (zh) 电子病历生成方法、装置、计算机设备和存储介质
Popejoy et al. Quantifying care coordination using natural language processing and domain-specific ontology
Daniel et al. Initializing a hospital-wide data quality program. The AP-HP experience.
US20160110502A1 (en) Human and Machine Assisted Data Curation for Producing High Quality Data Sets from Medical Records
US20220068482A1 (en) Interactive treatment pathway interface for guiding diagnosis or treatment of a medical condition
CN111415747B (zh) 电子病历的构建方法及装置
Suominen et al. Capturing patient information at nursing shift changes: methodological evaluation of speech recognition and information extraction
EP3000064A1 (en) Methods and apparatus for providing guidance to medical professionals
RU2699607C2 (ru) Повышение эффективности и уменьшение частоты последующих лучевых исследований путем прогнозирования основания для следующего исследования
Chapman et al. ReHouSED: A novel measurement of Veteran housing stability using natural language processing
O'connor et al. Barriers and facilitators to patient and public engagement and recruitment to digital health interventions: protocol of a systematic review of qualitative studies
CN113094477A (zh) 数据结构化方法、装置、计算机设备及存储介质
CN110471941B (zh) 自动定位判断依据的方法、装置及电子设备
CN113657605B (zh) 基于人工智能ai的文档处理器
Zhang et al. Hands-free electronic documentation in emergency care work through smart glasses
Ando et al. Is artificial intelligence capable of generating hospital discharge summaries from inpatient records?
CN111400759A (zh) 访视时间表生成方法及装置、存储介质、电子设备
Nair et al. Automated clinical concept-value pair extraction from discharge summary of pituitary adenoma patients
Hoxha et al. DREAM: Classification scheme for dialog acts in clinical research query mediation
Liao et al. Evaluation of the mining techniques in constructing a traditional Chinese-language nursing recording system
US11782942B2 (en) Auto-generating ground truth on clinical text by leveraging structured electronic health record data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200710