CN114999598A

CN114999598A - 临床实验数据的获取方法、系统、电子设备及存储介质

Info

Publication number: CN114999598A
Application number: CN202210827456.XA
Authority: CN
Inventors: 黎成权; 冯晓彬; 吴美龙; 曹晓春; 张红乔
Original assignee: Hangzhou Tigermed Consulting Co ltd; Beijing Qingyi Smart Technology Co ltd
Current assignee: Hangzhou Tigermed Consulting Co ltd; Beijing Qingyi Smart Technology Co ltd
Priority date: 2022-07-14
Filing date: 2022-07-14
Publication date: 2022-09-02
Anticipated expiration: 2042-07-14
Also published as: US20240020461A1; US11900048B2; CN114999598B

Abstract

本申请涉及数据处理技术领域，特别涉及一种临床实验数据的获取方法、系统、电子设备及存储介质，方法包括：基于预设的临床实验数据提取模型，从目标信息系统中提取第一临床实验数据，获取目标用户的语音输入数据和/或手动录入数据，并将其标签化处理，从而得到第二临床实验数据，同时基于预设的文字识别模型，对待提取临床实验数据进行识别，得到第三临床实验数据，通过对三种临床实验数据的时间顺序和/或权重进行整理排列，生成最终临床实验数据。由此，解决了无法有效结合相关技术中的各种获取临床实验数据的方法，从而产生联通困难且错误率较高等问题，通过结合多种获取临床实验数据的方式，实现临床实验多模态数据抽取与信息自动质量校对。

Description

临床实验数据的获取方法、系统、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域，特别涉及一种临床实验数据的获取方法、系统、电子设备及存储介质。

背景技术

随着信息技术的发展，目前临床实验数据可以通过数据库接入、移动端输入和扫描文档提取文字等方式获取临床实验数据。同时，临床实验数据的研究在项目实践中也有了很多探索，临床研究法规和监管层面也不断出台相关的指南进行完善。后疫情时代的生命科学行业快速转向去中心化的临床实验方法，以达到高度重视数据质量和合规性的目的。

然而，相关技术中的临床实验管理系统并未有效的将三者结合，存在连通困难且识别不同形式的文档时存在错误率较高的问题。如何将不同的数据获取方式有效结合，实现多模态数据抽取与自动质量校对，获得更加完整和高质量的研究数据是研究者的迫切需要。

发明内容

本申请提供一种临床实验数据的获取方法、系统、电子设备及存储介质，以解决无法有效结合相关技术中的各种获取临床实验数据的方法，从而产生联通困难且错误率较高等问题，基于人工智能实现临床实验多模态数据抽取与信息自动质量校对。

本申请第一方面实施例提供一种临床实验数据的获取方法，包括以下步骤：

基于预设的临床实验数据提取模型，从目标信息系统中提取第一临床实验数据；

获取目标用户的语音输入数据和/或手动录入数据，并对所述语音输入数据和/或所述手动录入数据标签化处理后，得到第二临床实验数据；

基于预设的文字识别模型，对待提取临床实验数据进行识别，得到第三临床实验数据；以及

根据所述第一临床实验数据、所述第二临床实验数据和所述第三临床实验数据的时间顺序和/或权重进行整理排列，生成最终临床实验数据。

根据本申请的一个实施例，在基于所述预设的临床实验数据提取模型，从所述目标信息系统中提取所述第一临床实验数据之前，还包括：

模拟所述第一临床实验数据的第一人力成本、所述第二临床实验数据的第二人力成本和所述第三临床实验数据的第三人力成本；

判断所述第一人力成本、所述第二人力成本和所述第三人力成本是否均小于或等于预设人力成本阈值；

如果均小于或等于所述预设人力成本阈值，则根据所述第一临床实验数据、所述第二临床实验数据和所述第三临床实验数据的时间顺序进行整理排列，生成所述最终临床实验数据；否则，根据所述第一人力成本、所述第二人力成本和所述第三人力成本中小于或等于所述预设人力成本阈值的人力成本对应的临床实验数据的时间顺序和/或权重进行整理排列，生成所述最终临床实验数据。

根据本申请的一个实施例，所述根据所述第一临床实验数据、所述第二临床实验数据和所述第三临床实验数据的时间顺序和/或权重进行整理排列，生成最终临床实验数据，包括：

获取所述第一临床实验数据对应的第一权重、所述第二临床实验数据对应的第二权重和所述第三临床实验数据对应的第三权重；

基于所述第一权重、所述第二权重和所述第三权重，按照预设次序对所述第一临床实验数据、所述第二临床实验数据和所述第三临床实验数据进行整理排列，生成所述最终临床实验数据。

基于预设的关键词类别和/或关键词数量，从目标信息系统中识别入组人员，其中，在识别过程中，若所述关键词类别满足第一阈值和/或关键词数量满足第二阈值，则判定所述入组人员满足入组要求，并对所述入组人员的信息隐私化处理后，将所述入组人员加入临床实验组；

比对加入所述临床实验组的入组人员的临床实验数据的分级标准，获取比对通过的临床实验数据；

利用所述比对通过的临床实验数据构建所述预设的临床实验数据提取模型。

根据本申请的一个实施例，在基于所述预设的文字识别模型，对所述待提取临床实验数据进行识别，得到所述第三临床实验数据之前，还包括：

获取待识别的文本和/或图像；

基于预设的浮动距离阈值识别文字和修改标志对所述待识别的文本和/或图像进行识别，并以预设原则对识别后的文字进行串联，得到已识别文本；

基于预置的对比文件，对所述已识别文本进行校正，并基于校正后的已识别文本训练模型，得到所述预设的文字识别模型。

根据本申请的一个实施例，在基于校正后的已识别文本训练，得到所述预设的文字识别模型之后，还包括：

将所述校正后的已识别文本更新所述预置的对比文件。

根据本申请的一个实施例，所述预置的对比文件包括预置字形、字典、书籍、医学文书中的至少一种。

根据本申请实施例的临床实验数据的获取方法，基于预设的临床实验数据提取模型，从目标信息系统中提取第一临床实验数据，获取目标用户的语音输入数据和/或手动录入数据，并将其标签化处理，从而得到第二临床实验数据，同时基于预设的文字识别模型，对待提取临床实验数据进行识别，得到第三临床实验数据，通过对三种临床实验数据的时间顺序和/或权重进行整理排列，生成最终临床实验数据。由此，解决了无法有效结合相关技术中的各种获取临床实验数据的方法，从而产生联通困难且错误率较高等问题，通过结合多种获取临床实验数据的方式，基于人工智能实现临床实验多模态数据抽取与信息自动质量校对。

本申请第二方面实施例提供一种临床实验数据的获取系统，包括：

提取模块，用于基于预设的临床实验数据提取模型，从目标信息系统中提取第一临床实验数据；

获取模块，用于获取目标用户的语音输入数据和/或手动录入数据，并对所述语音输入数据和/或所述手动录入数据标签化处理后，得到第二临床实验数据；

识别模块，用于基于预设的文字识别模型，对待提取临床实验数据进行识别，得到第三临床实验数据；以及

生成模块，用于根据所述第一临床实验数据、所述第二临床实验数据和所述第三临床实验数据的时间顺序和/或权重进行整理排列，生成最终临床实验数据。

根据本申请的一个实施例，在基于所述预设的临床实验数据提取模型，从所述目标信息系统中提取所述第一临床实验数据之前，所述提取模块还用于：

根据本申请的一个实施例，所述生成模块，具体用于：

根据本申请的一个实施例，在基于所述预设的临床实验数据提取模型，从所述目标信息系统中提取所述第一临床实验数据之前，所述提取模块，还用于：

根据本申请的一个实施例，在基于所述预设的文字识别模型，对所述待提取临床实验数据进行识别，得到所述第三临床实验数据之前，所述识别模块，还用于：

获取待识别的文本和/或图像；

根据本申请的一个实施例，在基于校正后的已识别文本训练，得到所述预设的文字识别模型之后，所述识别模块，还用于：

将所述校正后的已识别文本更新所述预置的对比文件。

根据本申请实施例的临床实验数据的获取系统，基于预设的临床实验数据提取模型，从目标信息系统中提取第一临床实验数据，获取目标用户的语音输入数据和/或手动录入数据，并将其标签化处理，从而得到第二临床实验数据，同时基于预设的文字识别模型，对待提取临床实验数据进行识别，得到第三临床实验数据，通过对三种临床实验数据的时间顺序和/或权重进行整理排列，生成最终临床实验数据。由此，解决了无法有效结合相关技术中的各种获取临床实验数据的方法，从而产生联通困难且错误率较高等问题，通过结合多种获取临床实验数据的方式，基于人工智能实现临床实验多模态数据抽取与信息自动质量校对。

本申请第三方面实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的临床实验数据的获取方法。

本申请第四方面实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以用于实现如上述实施例所述的临床实验数据的获取方法。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请实施例提供的一种临床实验数据的获取方法的流程图；

图2为根据本申请一个实施例提供的临床实验数据管理系统示意图；

图3为根据本申请一个实施例提供的临床实验数据管理系统接入医院信息系统的流程图；

图4为根据本申请一个实施例提供的图片或文档识别系统示意图；

图5为根据本申请一个实施例提供的规则文档或图片的示意图；

图6为根据本申请一个实施例提供的书写不规则情况1的示意图；

图7为根据本申请一个实施例提供的书写不规则情况2的示意图；

图8为根据本申请一个实施例提供的临床实验数据管理系统对接各家医院或实验机构的示意图；

图9为根据本申请实施例提供的临床实验数据的获取系统的示例图；

图10为根据本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的临床实验数据的获取方法、系统、电子设备及存储介质。针对上述背景技术中提到的无法有效结合相关技术中的各种获取临床实验数据的方法，从而产生联通困难且错误率较高的问题，本申请提供了一种临床实验数据的获取方法，在该方法中，基于预设的临床实验数据提取模型，从目标信息系统中提取第一临床实验数据，获取目标用户的语音输入数据和/或手动录入数据，并将其标签化处理，从而得到第二临床实验数据，同时基于预设的文字识别模型，对待提取临床实验数据进行识别，得到第三临床实验数据，通过对三种临床实验数据的时间顺序和/或权重进行整理排列，生成最终临床实验数据。由此，解决了无法有效结合相关技术中的各种获取临床实验数据的方法，从而产生联通困难且错误率较高等问题，通过结合多种获取临床实验数据的方式，基于人工智能实现临床实验多模态数据抽取与信息自动质量校对。

具体而言，图1为本申请实施例所提供的一种临床实验数据的获取方法的流程示意图。

在介绍本申请实施例的临床实验数据的获取方法之前，首先介绍一下本申请实施例所采用的临床实验数据管理系统的组成部分，如图2所示，分别包括：医院信息系统、手动或语音输入系统以及文档识别系统。对于不同系统的数据采集过程将会通过以下具体实施例进行详细说明。

如图1所示，该临床实验数据的获取方法包括以下步骤：

在步骤S101中，基于预设的临床实验数据提取模型，从目标信息系统中提取第一临床实验数据。

进一步地，在一些实施例中，在基于预设的临床实验数据提取模型，从目标信息系统中提取第一临床实验数据之前，还包括：基于预设的关键词类别和/或关键词数量，从目标信息系统中识别入组人员，其中，在识别过程中，若关键词类别满足第一阈值和/或关键词数量满足第二阈值，则判定入组人员满足入组要求，并对入组人员的信息隐私化处理后，将入组人员加入临床实验组；比对加入临床实验组的入组人员的临床实验数据的分级标准，获取比对通过的临床实验数据；利用比对通过的临床实验数据构建预设的临床实验数据提取模型。

其中，第一阈值和第二阈值可以根据既往实验经验进行设置或通过逻辑回归、深度学习与机器学习等运算既往病历数据分别得出关键词类别和数量的预设阈值，目标信息系统可以为医院信息系统。

具体地，由于临床医生的工作繁忙，每天诊疗患者数量较大，在对患者的问诊过程中就会面临着一些问题。一方面，临床医生若逐个鉴别符合临床要求的患者会影响临床医生的工作进度；另一方面，临床医生若间断识别符合要求的患者则可能会导致大量潜在符合要求的患者被遗漏，从而会影响患者的治疗效果。

因此，如图3所示，本申请实施例通过将临床实验数据管理系统与医院信息系统接通并预设临床实验相关的关键词，当关键词的类别与数量达到医院预设的阈值时便会触发临床实验入组提示，从而从目标信息系统中识别入组人员，并对入组人员的信息隐私化处理后，将入组人员加入临床实验组。

举例而言，首先，当临床管理系统所预设的关键词类别和数量满足第一阈值和/或关键词数量满足第二阈值时，此时会触发临床实验入组提示，医师可以与患者简单交代，并由专职人员负责对接。若该识别到的关键词类别和数量满足入组条件，则对入组人员的信息进行隐私化处理，即在患者满足入组要求时，为患者分配入组随机号时，将该号作为实验过程中的身份，以避免姓名等隐私化信息泄露，同时避免了身份对临床实验的干扰。

其次，当患者满足入组条件并为患者分配好随机号时，同时将该临床实验患者的信息提取至临床实验信息系统数据合规性检查模块，检查提取的患者是否完成了伦理审查、知情同意等临床实验保护患者的必要程序，同时检查提取的临床实验数据如去隐私化等是否达到监管的法规要求，并按照国家法规要求将该数据根据研究的目的和内容与法规要求及法规对数据的分级进行比对，获取比对通过的临床实验数据，并使该数据进入数据提取系统。

最后，由数据录入员进行提取和标注比对通过的临床实验数据并构建数据提取模型，从而通过该模型从目标信息系统中自动提取临床实验数据即第一临床实验数据。

在步骤S102中，获取目标用户的语音输入数据和/或手动录入数据，并对语音输入数据和/或手动录入数据标签化处理后，得到第二临床实验数据。

具体地，本申请实施例采用的临床实验数据管理系统还包括手动或语音输入系统。也就是说，除了数据录入员录入界面外，还为由于疫情等不可抗因素导致录入员不能及时录入数据且不能接通医院信息系统等情况，留置了医护和患者可以手动录入数据或语音输入录入数据的接口或界面。需要说明的是，为保证数据的安全性与可靠性，不同实验员、医护人员和患者等录入数据后会进行标签化处理，即会被打上不同的标签以便于识别，从而得到第二临床实验数据。

进一步地，当数据录入完毕后，录入员便对获得的数据进行校正，进而得到第二临床实验数据，同时并可选的予以正向激励。

需要说明的是，在获取目标用户的语音输入数据和/或手动录入数据之前，本申请实施例可以采集不同地区发音不准的典型关键字或句子，据此判断出地区，不同地区语言（方言和或普通话），并且，本申请实施例还可以基于采集到的不同地区发音构建分布式的地区语言识别模型和文字处理模型识别模型，从而可以更为准确的提取相应语句，增加文字提取的准确性。

在步骤S103中，基于预设的文字识别模型，对待提取临床实验数据进行识别，得到第三临床实验数据。

进一步地，在一些实施例中，在基于预设的文字识别模型，对待提取临床实验数据进行识别，得到第三临床实验数据之前，还包括：获取待识别的文本和/或图像；基于预设的浮动距离阈值识别文字和修改标志对待识别的文本和/或图像进行识别，并以预设原则对识别后的文字进行串联，得到已识别文本；基于预置的对比文件，对已识别文本进行校正，并基于校正后的已识别文本训练模型，得到预设的文字识别模型。

进一步地，在一些实施例中，在基于校正后的已识别文本训练，得到预设的文字识别模型之后，还包括：将校正后的已识别文本更新预置的对比文件。

进一步地，在一些实施例中，预置的对比文件包括预置字形、字典、书籍、医学文书中的至少一种。

具体地，如图4所示，本申请实施例采用的临床实验数据管理系统还包括文档图片识别系统。首先，需要在文档识别系统内部预置的对比文件，包括字形如楷书，行书，草书等、字典、书籍、医学文书中的至少一种，以便于对后续识别的文字进行对比判断是否正确；其次，获取待识别的文本和/或图像，通过扫描、蓝牙、聊天软件、U盘等将文档/图片传送至识别系统；再次，以文字大小和中线为基础自动设置浮动阈值以识别文字和修改标志对待识别的文本和/或图像进行识别，并以就近原则或就修改符原则对识别后的文字进行串联，得到已识别文本，基于预置的对比文件，对已识别文本进行比对并进行语义、语法检查比对，识别并提取文字后可以通过上传人员对其与原始文件进行比较，并对识别的结果进行校正，对参与该项操作的人员给予正向激励；最后，基于校正后的已识别文本训练模型，得到预设的文字识别模型，并将新的识别结果加入和充实到预置的对比文件中，从而得到第三临床实验数据。

需要说明的是，由于文档图片存在书写规则和书写不规则等多种情况，对于不同的书写情况其阈值的设定也是有区别的，下面通过两个具体实施例进行详细说明。

具体而言，图5所示的是一张规则性文档图片，该文档图片可以通过文字大小和中线设置阈值从而较好的识别和提取文字，如以文字大小的竖直方向长度的一半设置中线，并设置浮动50%的竖直距离就可以很好的识别和提取文字，对于有偏旁部首的文字可以设置横向阈值距离以便于识别。如图5所示的第一行第5、6两个字“科技”所展示出的偏旁部首为微小的负距离，而第四行“临”字的偏旁部有微小的正距离，从而通过横向阈值能更加清晰的提取识别到相应的文字。在识别和提取到文字后与预置文件进行对比并检查其语义是否通顺、完整。

进一步地，图6所示的是一张为书写不规则情况1的文档图片，在书写不规则的情况下其文字所存在的偏移情况会有所不同，分别为文字正常书写时的偏移情况，另一种为文字书写会出现偏旁部首有较大距离的分离等书写异常情况。

首先是文字正常书写时出现偏移的情况，以图6为例，在a位置，可以看出a所在行的文字存在偏移，对于正常书写而言同一行的文字会表现为连续和较小的波动，也就是说竖直方向中线和竖直距离会表现为连续和较小的波动，此时中线和竖直方向的阈值会自动检测并发生变化从而实现文字的连续提取。

其次，在图6的b位置，b位置所示为书写出现漏项而更正时中线会突然剧烈变化的情况，此时本模块会检测到修正符号，系统纳入或不纳入修正符中的文字会通过与预置文件进行对比并进行语义检查，若系统能够判断b位置没有“进”字时会导致句子不通、语义会出现不能理解的情况，则系统选择将修正符b位置的文字纳入。

再次，对于较多文字的修正，如图6的c位置所示，系统检测到修正符号后并识别修正符号，将所指示的文字纳入修正符号处再与预置文件对比并进行语义检查，显然“腹腔中无明显粘连，未见到出血点，视野干净”符合表达且语义完整，若c位置后半句“到出血点，视野干净”不纳入修正符号处时会导致语义不通，因此选择前者方式提取和组织文字。此外，该识别系统可以识别某区域文字出现的常规区域以判断该部分文字是否为修改所加的文字，如图6中“腹腔中无明显粘连，未见到出血点，视野干净”与上下两行均不能很好对齐且出现在明显偏移的区域，因此判断该区域文字大概率为修改文字，此时该段文字需要就近或就修改符号进行组织，由于本实施例中有修改符号，因此优先按照修正符号修正，并与预置文件对比和进行语义检查。

最后，当书写过程中出现图6的d位置所示情况时，通过预置文件的对比将无法匹配出对应的文字，且没有d位置的文字其语义检查也是通顺、完整的，因此d位置的涂改会被过滤掉；当出现e位置文字的修改时，尽管无法识别涂改且无修正符号，但根据中线及浮动阈值可以识别到“右”字，若不加“右”字时，“肝后叶切除”与预置文件对比便会发现语义不准确，肝只有“肝右后叶、右肝后叶”这类表达，没有“肝后叶”短语或名词的表达，因此通过预置文件对比和语义检查“右”字需要纳入；若出现f位置文字修改时，“周”与上下两行均较近，均可能被中线和阈值浮动检测到，那么此时上下两行中出现涂改处的优先识别，并与预置文件对比和进行语义检查。

进一步地，在文字书写出现偏旁部首有较大距离的分离情况下，如图6的h位置和j位置，此时相邻横向距离阈值检测时会将“腔”识别为“月、空”，将“明”识别为“日、月”，此时与预置文件对比发现“腹月空”匹配为“腹腔”，“无日月显腹水”匹配为“无明显腹水”时语义完整、通达。因此采用后两者将文字纳入而非单纯按照横向距离阈值纳入。显然横向阈值距离的设置可以第一时间识别出一个完整的文字，但当书写习惯不同而出现分离较远时，与预置文件对比以及语义检查可以避免出现由于偏旁部首横向距离大而将完整的文字拆分的情况，从而避免了出现语义不通的问题。字体上下组合结构时的距离阈值处理与横向距离处理方式类似，包括纵向距离检测、预置文件对比、语义检查。

进一步地，基于上述文字处理方法，如图7所示的书写不规则情况2的文档图片中，a位置通过与预置文件对比发现“曰生”应该判断为“星”，b位置“曰业”应该判断为“显”。此外，当文档/图片识别后上传人员或他人对识别结果进行人工判读，并可选的给予正向激励，数据录入员进行校准并建立文字识别模型，将准确识别的结果加入和充实到预置文件。

在步骤S104中，根据第一临床实验数据、第二临床实验数据和第三临床实验数据的时间顺序和/或权重进行整理排列，生成最终临床实验数据。

进一步地，在一些实施例中，根据第一临床实验数据、第二临床实验数据和第三临床实验数据的时间顺序和/或权重进行整理排列，生成最终临床实验数据，还包括：获取第一临床实验数据对应的第一权重、第二临床实验数据对应的第二权重和第三临床实验数据对应的第三权重；基于第一权重、第二权重和第三权重，按照预设次序对第一临床实验数据、第二临床实验数据和第三临床实验数据进行整理排列，生成最终临床实验数据。

作为一种可能实现的方式，本申请实施例还可以根据第一临床实验数据和第二临床实验数据的时间顺序进行整理排列，从而生成最终临床实验数据，例如，本申请实施例的第一临床实验数据对应的时间为8点，第二临床实验数据对应的时间为9点，第三临床实验数据对应的时间为10点，则本申请实施例可以按照第一临床实验数据、第二临床实验数据和第三临床实验数据的次序整理排列，生成最终临床实验数据；再如，本申请实施例的第二临床实验数据对应的时间为8点，第一临床实验数据对应的时间为9点，第三临床实验数据对应的时间为10点，则本申请实施例可以按照第二临床实验数据、第一临床实验数据和第三临床实验数据的次序整理排列，生成最终临床实验数据。

作为另一种可能实现的方式，本申请实施例还可以根据第一临床实验数据和第二临床实验数据的权重进行整理排列，从而生成最终临床实验数据，例如，本申请实施例的第一临床实验数据对应的第一权重35%，第二临床实验数据对应的第二权重为45%，第三临床实验数据对应的第三权重为20%，则本申请实施例可以按照第二临床实验数据、第一临床实验数据和第三临床实验数据的次序整理排列，生成最终临床实验数据；再如，本申请实施例的第一临床实验数据对应的第一权重30%，第二临床实验数据对应的第二权重为20%，第三临床实验数据对应的第三权重为50%，则本申请实施例可以按照第三临床实验数据、第一临床实验数据和第二临床实验数据的次序整理排列，生成最终临床实验数据，也就是说，本申请实施例可以基于第一临床实验数据、第二临床实验数据和第三临床实验数据的重要性生成整理的排列顺序，从而根据最新的排列顺序生成最终临床实验数据。

作为再一种可能实现的方式，本申请实施例还可以根据第一临床实验数据和第二临床实验数据的时间和权重进行整理排列，从而生成最终临床实验数据，其中，时间优先级大于权重优先级，例如，本申请实施例的第一临床实验数据对应的时间为8点，对应的第一权重35%，第二临床实验数据对应的时间为7点，对应的第二权重为45%，第三临床实验数据对应的时间为10点，对应的第三权重为20%，则本申请实施例可以按照第二临床实验数据、第一临床实验数据和第三临床实验数据的次序整理排列，生成最终临床实验数据；再如，本申请实施例的第一临床实验数据对应的时间为8点，对应的第一权重30%，第二临床实验数据对应的时间为8点，对应的第二权重为20%，第三临床实验数据对应的时间为9点，对应的第三权重为50%，由于第一临床实验数据与第二临床实验数据的时间相同，故本申请实施例可以根据第一临床实验数据与第二临床实验数据的优先级进行排序，即本申请实施例可以按照第一临床实验数据、第二临床实验数据和第三临床实验数据的次序整理排列，生成最终临床实验数据。

进一步地，在一些实施例中，在基于预设的临床实验数据提取模型，从目标信息系统中提取第一临床实验数据之前，还包括：模拟第一临床实验数据的第一人力成本、第二临床实验数据的第二人力成本和第三临床实验数据的第三人力成本；判断第一人力成本、第二人力成本和第三人力成本是否均小于或等于预设人力成本阈值；如果均小于或等于预设人力成本阈值，则根据第一临床实验数据、第二临床实验数据和第三临床实验数据的时间顺序进行整理排列，生成最终临床实验数据；否则，根据第一人力成本、第二人力成本和第三人力成本中小于或等于预设人力成本阈值的人力成本对应的临床实验数据的时间顺序和/或权重进行整理排列，生成最终临床实验数据。

其中，预设人力成本阈值可以是医院内部根据临床实验数据需要耗费的人力车本自行设定的阈值，也可以为经过多次计算仿真得出的阈值，在此不做具体限定。具体地，本申请实施例可以预先模拟三种不同的临床实验数据分别得到其对应的人力成本和权重，并分别判断其对应的人力成本与预设人力成本的大小，进一步进行整理排列。其中，上述三种临床实验数据所对应的权重由各自成本的大小进行确定，成本高的，其对应的权重占比越大，成本低的，其对应的权重占比越小，可根据实际情况进行设定，在此不做具体限定。

具体而言，本申请实施例可以基于临床试验数据的费用和时间等多方面得到三种临床实验数据对应的人力成本。假定人力成本最大值为10，预设人力成本为8元，如果第一临床实验数据的第一人力成本、第二临床实验数据的第二人力成本以及第三临床实验数据的第三人力成本分别为6、7和8，则三种临床实验数据的人力成本均小于或等于预设人力成本，此时，本申请实施例根据第一临床实验数据、第二临床实验数据和第三临床实验数据的时间顺序进行整理排列，从而生成最终临床实验数据；如果第一临床实验数据的第一人力成本为6，第二临床实验数据的第二人力成本为7，第三临床实验数据的第三人力成本为9，则本申请实施例可以根据其中小于或等于预设人力成本人力成本对应的临床实验数据的时间顺序和/或权重进行整理排列，即根据第一临床实验数据和第二临床实验数据的时间顺序和/或权重进行整理排列，从而生成最终临床实验数据。

需要说明的是，如图8所示，不同医院和临床实验机构均通过临床实验管理系统连接。如医院A的临床实验数据、医院B的临床实验数据和医院C的临床实验数据分别对接临床实验管理系统以同步获得不同医院的临床实验数据。

其次参照附图描述根据本申请实施例提出的临床实验数据的获取系统。

图9是本申请实施例的临床实验数据的获取系统的方框示意图。

如图9所示，该临床实验数据的获取系统10包括：提取模块100、获取模块200、识别模块300和生成模块400。

其中，提取模块100用于基于预设的临床实验数据提取模型，从目标信息系统中提取第一临床实验数据；

获取模块200用于获取目标用户的语音输入数据和/或手动录入数据，并对语音输入数据和/或手动录入数据标签化处理后，得到第二临床实验数据；

识别模块300用于基于预设的文字识别模型，对待提取临床实验数据进行识别，得到第三临床实验数据；以及

生成模块400用于根据第一临床实验数据、第二临床实验数据和第三临床实验数据的时间顺序和/或权重进行整理排列，生成最终临床实验数据。

进一步地，在一些实施例中，生成模块400，具体用于：

获取第一临床实验数据的第一人力成本、第二临床实验数据的第二人力成本和第三临床实验数据的第三人力成本；

判断第一人力成本、第二人力成本和第三人力成本是否均小于或等于预设人力成本阈值；

如果均小于或等于预设人力成本阈值，则根据第一临床实验数据、第二临床实验数据和第三临床实验数据的时间顺序进行整理排列，生成最终临床实验数据；否则，根据第一人力成本、第二人力成本和第三人力成本中小于或等于预设人力成本阈值的人力成本对应的临床实验数据的时间顺序和/或权重进行整理排列，生成最终临床实验数据。

进一步地，在一些实施例中，生成模块400，具体用于：

获取第一临床实验数据对应的第一权重、第二临床实验数据对应的第二权重和第三临床实验数据对应的第三权重；

基于第一权重、第二权重和第三权重，按照预设次序对第一临床实验数据、第二临床实验数据和第三临床实验数据进行整理排列，生成最终临床实验数据。

进一步地，在一些实施例中，在基于预设的临床实验数据提取模型，从目标信息系统中提取第一临床实验数据之前，提取模块100，还用于：

基于预设的关键词类别和/或关键词数量，从目标信息系统中识别入组人员，其中，在识别过程中，若关键词类别满足第一阈值和/或关键词数量满足第二阈值，则判定入组人员满足入组要求，并对入组人员的信息隐私化处理后，将入组人员加入临床实验组；

比对加入临床实验组的入组人员的临床实验数据的分级标准，获取比对通过的临床实验数据；

利用比对通过的临床实验数据构建预设的临床实验数据提取模型。

进一步地，在一些实施例中，在基于预设的文字识别模型，对待提取临床实验数据进行识别，得到第三临床实验数据之前，识别模块300，还用于：

获取待识别的文本和/或图像；

基于预设的浮动距离阈值识别文字和修改标志对待识别的文本和/或图像进行识别，并以预设原则对识别后的文字进行串联，得到已识别文本；

基于预置的对比文件，对已识别文本进行校正，并基于校正后的已识别文本训练模型，得到预设的文字识别模型。

进一步地，在一些实施例中，在基于校正后的已识别文本训练，得到预设的文字识别模型之后，识别模块300，还用于：

将校正后的已识别文本更新预置的对比文件。

图10为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括：

存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。

处理器1002执行程序时实现上述实施例中提供的临床实验数据的获取方法。

进一步地，电子设备还包括：

通信接口1003，用于存储器1001和处理器1002之间的通信。

存储器1001，用于存放可在处理器1002上运行的计算机程序。

存储器1001可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

如果存储器1001、处理器1002和通信接口1003独立实现，则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构（Industry Standard Architecture，简称为ISA）总线、外部设备互连（PeripheralComponent，简称为PCI）总线或扩展工业标准体系结构（Extended Industry StandardArchitecture，简称为EISA）总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器1001、处理器1002及通信接口1003，集成在一块芯片上实现，则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。

处理器1002可能是一个中央处理器（Central Processing Unit，简称为CPU），或者是特定集成电路（Application Specific Integrated Circuit，简称为ASIC），或者是被配置成实施本申请实施例的一个或多个集成电路。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上的临床实验数据的获取方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或N个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种临床实验数据的获取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，在基于所述预设的临床实验数据提取模型，从所述目标信息系统中提取所述第一临床实验数据之前，还包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一临床实验数据、所述第二临床实验数据和所述第三临床实验数据的时间顺序和/或权重进行整理排列，生成最终临床实验数据，包括：

4.根据权利要求1所述的方法，其特征在于，在基于所述预设的临床实验数据提取模型，从所述目标信息系统中提取所述第一临床实验数据之前，还包括：

5.根据权利要求4所述的方法，其特征在于，在基于所述预设的文字识别模型，对所述待提取临床实验数据进行识别，得到所述第三临床实验数据之前，还包括：

获取待识别的文本和/或图像；

6.根据权利要求5所述的方法，其特征在于，在基于校正后的已识别文本训练，得到所述预设的文字识别模型之后，还包括：

将所述校正后的已识别文本更新所述预置的对比文件。

7.根据权利要求5或6所述的方法，其特征在于，所述预置的对比文件包括预置字形、字典、书籍、医学文书中的至少一种。

8.一种临床实验数据的获取系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-7任一项所述的临床实验数据的获取方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-7任一项所述的临床实验数据的获取方法。