CN109584980B - 数据核验方法及装置、电子设备、存储介质 - Google Patents

数据核验方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN109584980B
CN109584980B CN201811334456.6A CN201811334456A CN109584980B CN 109584980 B CN109584980 B CN 109584980B CN 201811334456 A CN201811334456 A CN 201811334456A CN 109584980 B CN109584980 B CN 109584980B
Authority
CN
China
Prior art keywords
data
interpretation rule
original data
test
report table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811334456.6A
Other languages
English (en)
Other versions
CN109584980A (zh
Inventor
何直
阎昭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Golden Panda Ltd
Original Assignee
Golden Panda Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Golden Panda Ltd filed Critical Golden Panda Ltd
Priority to CN201811334456.6A priority Critical patent/CN109584980B/zh
Publication of CN109584980A publication Critical patent/CN109584980A/zh
Application granted granted Critical
Publication of CN109584980B publication Critical patent/CN109584980B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本公开是关于一种数据核验方法及装置、电子设备、存储介质,涉及医疗大数据技术领域,该方法包括:获取测试对象的原始数据并对所述原始数据进行加密存储;通过预设数据库中的标准医学定义形成对所述测试对象的报告表中的测试数据进行解读的解读规则;根据符合预设条件的多个目标对象的原始数据,对所述解读规则进行训练,得到训练好的解读规则;通过所述训练好的解读规则将所述测试对象的所述原始数据对照所述报告表中的测试数据进行核验。本公开可以提高数据核验效率和准确率。

Description

数据核验方法及装置、电子设备、存储介质
技术领域
本公开涉及医疗大数据技术领域,具体而言,涉及一种数据核验方法、数据核验装置、电子设备以及计算机可读存储介质。
背景技术
在药物临床试验的数据管理中,由于临床试验所需要的任何数据造假或者记录错误都会导致试验结果的偏差、缺失或不准确,因此必须要保证数据的准确性和真实性。
相关技术中,通过人工来比对CRF(CASE REPORT FORM,报告表格)表格和经过医生签名的所有相关原始病历,并通过多层人工审核的方式对数据进行核验。这种方式中,由于工作人员的工作能力和医学能力本身随着知识结构的不同有波动,因此该方式存在较大的局限性,难以全量量化监测,也导致数据核验的准确率较低。
除此之外,还可以通过依赖研究者对原始病历签字包括电子签名并存档、稽查部门基于试验计划进行飞行稽查核对来确定数据的真实性。其中,由于是通过人工核验数据,核验速度较慢,因此使得数据核验效率较低;除此之外,由于可能会出现误操作,导致数据核验准确率较低,从而严重影响药物临床试验进度。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种数据核验方法及装置、电子设备、存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的不能快速准确进行数据核验的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一个方面,提供一种数据核验方法,包括:获取测试对象的原始数据并对所述原始数据进行加密存储;通过预设数据库中的标准医学定义形成对所述测试对象的报告表中的测试数据进行解读的解读规则;根据符合预设条件的多个目标对象的原始数据,对所述解读规则进行训练,得到训练好的解读规则;通过所述训练好的解读规则将所述测试对象的所述原始数据对照所述报告表中的测试数据进行核验。
在本公开的一种示例性实施例中,对所述原始数据进行加密存储包括:按照时间线对所述原始数据进行存储,并生成针对所述原始数据的加密码,以通过所述加密码对所述原始数据进行加密。
在本公开的一种示例性实施例中,按照时间线对所述原始数据进行存储包括:按照所述时间线包含的每个时间点分别存储一份原始数据,并隔离记录针对每份原始数据的加密码。
在本公开的一种示例性实施例中,通过预设数据库中的标准医学定义形成对所述测试对象的报告表中的测试数据进行解读的解读规则包括:将所述报告表中测试数据对应的医学定义关联到所述预设数据库中的标准医学定义,以确定所述测试数据的来源;通过自然语言处理算法提取所述报告表中的测试数据包含的每个字段之间的临床逻辑关联和流行病学关联,以形成字段规则;通过所述测试数据的来源以及所述字段规则生成用于对所述报告表进行解读的所述解读规则。
在本公开的一种示例性实施例中,根据符合预设条件的多个目标对象的原始数据,对所述解读规则进行训练,得到训练好的解读规则包括:采用自然语言处理算法结合贝叶斯算法,通过符合所述预设条件的多个目标对象的所述原始数据对所述解读规则进行训练并计算核验准确率,直至所述核验准确率达到预设值为止,以确定所述训练好的解读规则;其中,所述预设条件包括与所述测试对象入组条件相同和/或症状信息相同。
在本公开的一种示例性实施例中,通过所述训练好的解读规则将所述测试对象的所述原始数据对照所述报告表中的测试数据进行核验包括:通过所述训练好的解读规则对时间线上包含的每个时间点的所述报告表中的所述测试数据进行解读,并将解读的测试数据以及原始数据进行自动对比,确定所述报告表中的测试数据和所述原始数据是否一致。
在本公开的一种示例性实施例中,所述方法还包括:在所述报告表中的测试数据和所述原始数据不一致时,对所述报告表中的测试数据进行标记;在所述原始数据与对应的加密码不一致时,对所述原始数据进行标记。
根据本公开的一个方面,提供一种数据核验装置,包括:原始数据获取模块,用于获取测试对象的原始数据并对所述原始数据进行加密存储;规则生成模块,用于通过预设数据库中的标准医学定义提取对所述测试对象的报告表中的测试数据进行解读的解读规则;规则训练模块,用于根据符合预设条件的多个目标对象的所述原始数据,对所述解读规则进行训练,得到训练好的解读规则;核验控制模块,用于通过所述训练好的解读规则将所述测试对象的所述原始数据对照所述报告表中的测试数据进行核验。
根据本公开的一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的数据核验方法。
根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的数据核验方法。
本公开示例性实施例中提供的一种数据核验方法、数据核验装置、电子设备以及计算机可读存储介质中,一方面,通过对解读规则进行训练得到性能更好的训练好的解读规则,并基于训练好的解读规则对报告表中的测试数据进行解读,进而对解读的测试数据对照测试对象的原始数据进行对比核验,提高了数据核验效率并且避免出现误操作,提高数据核验准确率,保证药物临床试验正常进行;另一方面,通过预设数据库中的标准医学定义形成解读规则,避免了由于工作人员本身对知识的局限性,能够实现全量量化监测,进而提高了数据核验的准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出本公开示例性实施例中一种数据核验方法示意图;
图2示意性示出本公开示例性实施例中对解读规则进行训练的示意图;
图3示意性示出本公开示例性实施例中一种数据核验装置的框图;
图4示意性示出本公开示例性实施例中一种电子设备的框图;
图5示意性示出本公开示例性实施例中一种程序产品。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
本示例实施方式中首先提供了一种数据核验方法,可以应用于各个医院或医疗场所的数据核验场景,也可以应用于其他数据核验场景。具体可基于分布式软件框架Hadoop或其他软件框架实现。参考图1所示,该数据核验方法可以包括以下步骤:
在步骤S110中,获取测试对象的原始数据并对所述原始数据进行加密存储;
在步骤S120中,通过预设数据库中的标准医学定义提取对所述测试对象的报告表的测试数据进行解读的解读规则;
在步骤S130中,根据符合预设条件的多个目标对象的原始数据,对所述解读规则进行训练,得到训练好的解读规则;
在步骤S140中,通过所述训练好的解读规则将所述测试对象的所述原始数据对照所述报告表中的测试数据进行核验。
在本示例性实施例中提供的数据核验方法中,一方面,通过对解读规则进行训练得到性能更好的训练好的解读规则,并基于训练好的解读规则对报告表中的测试数据进行解读,进而对解读的测试数据对照测试对象的原始数据进行对比核验,提高了数据核验效率并且避免出现误操作,提高数据核验准确率,保证药物临床试验正常进行;另一方面,通过预设数据库中的标准医学定义形成解读规则,避免了由于工作人员本身对知识的局限性,能够实现全量量化监测,进而提高了数据核验的准确率。
接下来,结合附图对本示例性实施例中的数据核验方法进行进一步解释说明。
在步骤S110中,获取测试对象的原始数据并对所述原始数据进行加密存储。
本示例性实施例中,测试对象可以为针对未上市的药物,进入临床试验阶段的受试人员。针对每个测试对象,可从目标医院或者是目标医疗机构的医疗信息系统中获取原始数据。原始数据指的是每个测试对象的原始病历数据。可例如,目标医院的医疗信息系统包括但不限于医院收费系统、实验室检查系统、物理检查和影像管理系统、电子病历系统、病理系统、临床试验录入系统。针对每一个测试对象而言,均可以实时获取测试对象在每一个医疗信息系统中的原始病历数据。
在获取到测试对象的原始数据之后,为了便于数据核验、数据检查、数据查询等操作,可对得到的原始数据进行存档。此处的存档可以理解为通过数据表存储原始数据,具体可以按照时间线对所有原始数据进行存储。时间线指的是时间序列。时间线上可包含多个时间点,且多个时间点之间的间隔可以相同,也可以不同,此处不作特殊限定。
具体而言,可按照时间线对所述原始数据进行存储,并生成针对原始数据的加密码,以通过所述加密码对所述原始数据进行加密。需要说明的是,可以先对原始数据进行存储,然后进行加密;也可以先对原始数据进行加密,然后进行存储,本示例性实施例中对存储和加密的先后顺序不作特殊限定,只要实现对应功能即可。
在对原始数据进行存储时,可对时间线上的每一个时间点的原始数据分别存储,即一个时间点的原始数据生成一个存档,从而生成多份存档。存档可以通过数据表的形式表示,例如可将时间点1对应的原始数据存储至数据表1中,将时间点3对应的原始数据存储至数据表2中,将时间点8对应的原始数据存储至数据表3中。其中,所有时间点的原始数据可存储在相同位置,也可存储在不同位置。除此之外,每个时间点对应的原始数据存档即数据表中均包括研究者的电子签名。电子签名就是通过密码技术对存档的电子形式的签名,具体可通过非对称加密(RSA算法)和报文摘要(HASH算法)实现。其中,报文摘要利用HASH算法对原始数据进行运算,生成128位的报文摘要,而不同内容的原始数据会生成不同的报文摘要,因此报文摘要就成了原始数据的“指纹”。
本示例性实施例中,在对原始数据进行加密时,可采用任意合适的加密算法进行加密。加密算法例如可以为MD5码加密算法,对应的加密码例如可为MD5码。MD5码是根据公开的MD5加密算法对原始数据进行数学变换后得到的一个128位的特征码。也就是说,可对获取到的原始数据生成MD5码。举例而言,存储的数据表中的原始数据为"patientABCDE",经算法变换后生成的MD5码可为b9844e9367d2e41dd1f0c4040d4daaf7,其他人通过这个MD5码无法得知原始数据。基于MD5码的不可逆性,可以保证存储的原始数据的安全性。
另外,该MD5码可以唯一代表原始数据的特征,且每一个时间点的原始数据的存档对应的MD5均不同,即每一个存储原始数据的数据表的MD5码均不同。通过该MD5码以及研究者电子签名对获取的测试对象的原始数据加密存储,可防止被篡改,防止对原始数据进行造假,保证原始数据的真实性、完整性及准确性。
需要说明的是,需要隔离记录针对每份原始数据的加密码。隔离记录指的是将原始数据和对应的加密码分开存储在不同位置。例如,可通过磁盘、存储、网络等多重隔离手段在多个终端上构建多个安全区等,将时间点1的原始数据存储在安全区1,将时间点1的原始数据的MD5码存储在安全区2。其他人只有通过某一时间点的原始数据以及对应的MD5码,才能得知原始数据。通过隔离存储,可防止人工伪造数据以及数据被篡改的问题,保证原始数据的安全性和真实性。除此之外,由于存档可以复用,可间接地提高数据核验效率。
在步骤S120中,通过预设数据库中的标准医学定义提取对所述测试对象的报告表的测试数据进行解读的解读规则。
本示例性实施例中,测试对象的报告表指的是与测试对象对应的CRF(CaseReport Form,病例报告表),例如进入未上市的药物A的临床试验阶段的测试对象B的病例报告表。病例报告表中可包括测试对象针对药物A的测试数据,测试数据例如可包括临床症状、体征参数等等。预设数据库例如可以包括疾病指南、临床专著等用于描述疾病的标准医学定义的数据库。形成解读规则的具体步骤包括:首先将所述报告表中测试数据对应的医学定义与预设数据库中的标准医学定义进行关联,得到测试数据的来源。由于报告表CRF中的值可根据原始数据中的值自动录入,可认为报告表CRF中字段1的值的来源即为原始病历数据中字段1的值。此处的进行关联可以理解为标准化的过程。可例如,将报告表中不标准的药物名称、临床名称等医学定义按照疾病指南中的标准医学定义进行标准化,具体可包括清洗、格式转换等过程,以保持数据的一致性,便于后续的数据核验过程。
接下来,可通过自然语言处理算法提取所述报告表中的测试数据包含的每个字段之间的临床逻辑关联和流行病学关联,以形成字段规则。例如,测试对象的报告表CRF中的字段可以包括:字段1为糖化血红蛋白,字段2为正常指标1-12。可从临床指南、临床专著等预设数据库中提取字段1和字段2之间的临床逻辑关联和流行病学关联,从而得到每个字段之间的字段规则。其中,提取临床逻辑关联和流行病学关联的方式除了自然语言处理算法之外,还可包括人工提取方式或其他方式,本示例性实施例中对此不作特殊限定。
进一步地,在得到每个字段之间的字段规则后,可在这些字段规则的基础上形成针对报告表CRF的解读规则,以对报告表CRF进行解读。需要说明的是,该解读规则可以为计算机规则,其中可包括测试数据的来源,医学定义以及字段之间的逻辑关系。例如,报告表CRF中字段1的值的来源即为原始病历数据中字段1的值,医学定义指的是测试数据关联至预设数据库中的标准医学定义,字段例如可以为诊断字段。可例如,报告表CRF中的变量名为糖化血红蛋白,数值类型为浮点型,数值范围为1-12,表示诊断的字段为“2型糖尿病”,通过三者之间的逻辑关系可得到针对报告表CRF的解读规则。
通过本示例性实施例中的方法,可从预设数据库中的疾病知识出发构建对病例报告表CRF进行核查的标准即解读规则,能够采取智能学习过程使得核查算法具备高度的智能特点,使得CRF表核查不依赖于工作人员本身掌握的知识结构,避免了局限性,能够自动实现全量化监测,并且可以间接提高数据核验的准确率。
接下来,在步骤S130中,根据符合预设条件的多个目标对象的原始数据,对所述解读规则进行训练,得到训练好的解读规则。
本示例性实施例中,在步骤S120中确定初始的解读规则后,为了保证核验的准确率,可对初始的解读规则进行训练,得到更准确的解读规则,进而可将训练好的解读规则作为核验规则进行数据核验。具体的训练过程可参考图2所示,可采用自然语言处理算法结合贝叶斯算法,通过符合预设条件的目标对象的所述原始数据对所述解读规则进行训练并计算核验准确率,直至所述核验准确率达到预设值为止,以确定所述训练好的解读规则。
其中,预设条件指的是与测试对象入组条件相同和/或症状信息相同。例如可只包括与测试对象入组条件相同,也可只包括症状信息相同,还可包括入组条件以及症状信息相同,本示例性实施例中以预设条件为入组条件以及症状信息均相同为例进行说明。入组条件指的是未上市的药物进入临床试验阶段的条件。例如,对于癌症1而言,入组条件可以为癌症1晚期,一期、二期和三期治疗已经无效,当然也可以为其他条件。症状信息相同指的是测试对象A是癌症1早期,患者B、患者C和患者D也是癌症1早期,且患者B、患者C和患者D的所有疾病病况以及适应症等都与患者A相同。目标对象指的是某个医院的医疗信息系统中与测试对象的入组条件以及症状信息均相同的所有患者。如此一来,可将患者B、患者C和患者D作为与测试对象A对应的目标对象。
在确定目标对象后,可从医疗信息系统中获取所有目标对象的原始数据。进一步可采用自然语言处理算法和贝叶斯算法对初始的解读规则进行训练。其中,首先通过自然语言处理算法自动提取目标对象的原始数据的特征,当然也可以通过其他特征提取算法提取原始数据的特征。提取特征的具体过程可通过程序代码实现,此处不作特殊限定。接下来,可基于获取的特征和贝叶斯模型对得到的解读规则进行训练,得到更精准的解读规则。需要说明的是,本示例性实施例中还可通过决策树模型、神经网络模型等模型训练解读规则。下面以贝叶斯模型为例进行说明。
可将目标对象的原始数据作为样本,例如可以表示为(x,c),其中x为样本的特征,c为样本与测试对象的测试数据是否一致的标签,在该场景中,标签可以分为两类,例如可以采用c=0表示不一致,c=1代表一致。本示例实施例中的目的在于给定样本的特征x后,可以求出样本属于某个标签c的概率。
进一步地,为了更准确对测试对象的测试数据和原始数据进行对比,可通过调整贝叶斯模型的先验概率以及似然概率,从而自适应地调整解读规则,以得到性能更优的解读规则。
需要说明的是,在通过上述方法调整贝叶斯模型后,可确定贝叶斯模型测试结果的核验准确率,直至确定贝叶斯模型的核验准确率达到预设值时,可停止模型训练,并将此时的贝叶斯模型作为最终的训练好的解读规则。其中,可由两个以上的验证人员人工进行比对,也可以由系统自动进行比对,此处不作特殊限定。预设值可以根据实际需求设置,但是为了得到更准确的核验结果,可将预设值设置为较大的数值,例如99%或大于99%的数值。通过贝叶斯模型对初始的解读规则进行训练,能够得到更准确、性能更优的训练好的解读规则。
参考图2中所示,在步骤S210中可将步骤S120中生成的解读规则作为输入;然后在步骤S220中,通过贝叶斯模型在与测试对象同样入组条件和同样在适应症的所有原始病例数据中对解读规则进行训练,具体可通过解读规则对原始数据进行解读。在步骤S230中,对训练结果,即对通过解读规则进行解读的原始数据的结果与原始病例数据中的内容进行人工对比或自动对比,以确定核验准确率;在步骤S240中,若核验准确率大于例如99%等比较大的数值,则可停止对解读规则进行训练。通过贝叶斯模型对初始的解读规则进行训练,能够得到更准确、性能更优的训练好的解读规则。
在步骤S140中,通过所述训练好的解读规则将所述测试对象的所述原始数据对照所述报告表中的测试数据进行核验。
在本示例性实施例中,可通过训练好的解读规则,将进入临床试验阶段的测试对象在病例报告表CRF中每个时间点的测试数据进行解读,并将解读后的测试数据对照在步骤S110中分别存储的每个时间点的原始数据进行核验。在核验过程中,可获得与原始数据不一致的CRF中的测试数据,也可获得与原始数据一致的CRF中的测试数据。通过训练好的解读规则进行核验,可提高数据核验准确率。
除此之外,为了便于进行核查,可对报告表CRF中与原始数据不一致的测试数据进行标记。可例如,将与原始数据不一致的CRF中的测试数据高亮显示,或者对与原始数据不一致的CRF中的测试数据添加预设标识,或者是改变测试数据的颜色等等,其中预设标识可例如为文字标识或其他标识等等。除此之外,还可以对与原始数据一致的CRF中的测试数据进行标记,也可以不标记。在对与原始数据一致的CRF中的测试数据进行标记时,标记的方式完全相同,只要显示形式不同即可。可例如,对与原始数据不一致的CRF中的测试数据标记为红色,对与原始数据一致的CRF中的测试数据标记为绿色等等。通过标记不一致的测试数据,可向工作人员进行报警,从而大幅度减少工作人员逐项核查CRF中的每个测试数据的时间,提高数据核验效率。
除此之外,为了避免对数据核查造成影响,如果检测到原始数据与对应的加密码不一致时,即无法识别原始数据时,也可对所述原始数据进行标记,以提高数据核验效率。
本示例性实施例中,通过训练好的解读规则对测试对象在报告表CRF中每个时间点的测试数据进行解读,并将解读的测试数据和存储的每个时间点的原始数据进行对比时,能够实现自动对比操作,减少工作人员对数据的核验时间,同时能够提高核验效率。除此之外,由于训练好的解读规则准确度较高,避免人工误操作,因此通过该训练好的解读规则可提高数据核验的准确率,避免对药物临床试验进度的影响。
本公开还提供了一种数据核验装置。参考图3所示,该数据核验装置300可以包括:原始数据获取模块301、规则生成模块302、规则训练模块303,核验控制模块304,其中:
原始数据获取模301,用于获取测试对象的原始数据并对所述原始数据进行加密存储;
规则生成模块302,用于通过预设数据库的标准医学定义提取对所述测试对象的报告表的测试数据进行解读的解读规则;
规则训练模块303,用于根据符合预设条件的多个目标对象的原始数据,对所述解读规则进行训练,得到训练好的解读规则;
核验控制模块304,用于通过所述训练好的解读规则将所述测试对象的所述原始数据对照所述报告表中的测试数据进行核验。
需要说明的是,上述数据核验装置中各模块的具体细节已经在对应的数据核验方法中进行了详细描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图4来描述根据本发明的这种实施方式的电子设备400。图4显示的电子设备400仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,电子设备400以通用计算设备的形式表现。电子设备400的组件可以包括但不限于:上述至少一个处理单元410、上述至少一个存储单元420、连接不同系统组件(包括存储单元420和处理单元410)的总线430。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元410执行,使得所述处理单元410执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元410可以执行如图1中所示的步骤:在步骤S110中,获取测试对象的原始数据并对所述原始数据进行加密存储;在步骤S120中,通过预设数据库中的标准医学定义提取对所述测试对象的报告表的测试数据进行解读的解读规则;在步骤S130中,根据符合预设条件的多个目标对象的原始数据,对所述解读规则进行训练,得到训练好的解读规则;在步骤S140中,通过所述训练好的解读规则将所述测试对象的所述原始数据对照所述报告表中的测试数据进行核验。
存储单元420可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)4201和/或高速缓存存储单元4202,还可以进一步包括只读存储单元(ROM)4203。
存储单元420还可以包括具有一组(至少一个)程序模块4205的程序/实用工具4204,这样的程序模块4205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线430可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备400也可以与一个或多个外部设备600(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备400交互的设备通信,和/或与使得该电子设备400能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口450进行。并且,电子设备400还可以通过网络适配器460与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器460通过总线430与电子设备400的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备400使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
参考图5所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品500,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

Claims (9)

1.一种数据核验方法,其特征在于,包括:
获取测试对象的原始数据并对所述原始数据进行加密存储;
通过预设数据库中的标准医学定义形成对所述测试对象的报告表中的测试数据进行解读的解读规则,所述解读规则包括测试数据的来源、医学定义以及字段之间的逻辑关系;
根据符合预设条件的多个目标对象的原始数据,对所述解读规则进行训练,得到训练好的解读规则;
通过所述训练好的解读规则将所述测试对象的所述原始数据对照所述报告表中的测试数据进行核验;
其中,通过预设数据库中的标准医学定义形成对所述测试对象的报告表中的测试数据进行解读的解读规则包括:
将所述报告表中测试数据对应的医学定义关联到所述预设数据库中的标准医学定义,以确定所述测试数据的来源;
通过自然语言处理算法提取所述报告表中的测试数据包含的每个字段之间的临床逻辑关联和流行病学关联,以形成字段规则;
通过所述测试数据的来源以及所述字段规则生成用于对所述报告表进行解读的所述解读规则;
其中,根据符合预设条件的多个目标对象的原始数据,对所述解读规则进行训练,得到训练好的解读规则包括:
获取所有所述目标对象的原始数据;
提取所述目标对象的原始数据的特征;
基于获取的所述特征和模型对得到的解读规则进行训练,得到训练好的解读规则。
2.根据权利要求1所述的数据核验方法,其特征在于,对所述原始数据进行加密存储包括:
按照时间线对所述原始数据进行存储,并生成针对所述原始数据的加密码,以通过所述加密码对所述原始数据进行加密。
3.根据权利要求2所述的数据核验方法,其特征在于,按照时间线对所述原始数据进行存储包括:
按照所述时间线包含的每个时间点分别存储一份原始数据,并隔离记录针对每份原始数据的加密码。
4.根据权利要求1所述的数据核验方法,其特征在于,根据符合预设条件的多个目标对象的原始数据,对所述解读规则进行训练,得到训练好的解读规则包括:
采用自然语言处理算法结合贝叶斯算法,通过符合所述预设条件的多个目标对象的所述原始数据对所述解读规则进行训练并计算核验准确率,直至所述核验准确率达到预设值为止,以确定所述训练好的解读规则;
其中,所述预设条件包括与所述测试对象入组条件相同和/或症状信息相同。
5.根据权利要求3所述的数据核验方法,其特征在于,通过所述训练好的解读规则将所述测试对象的所述原始数据对照所述报告表中的测试数据进行核验包括:
通过所述训练好的解读规则对时间线上包含的每个时间点的所述报告表中的所述测试数据进行解读,并将解读的测试数据以及原始数据进行自动对比,确定所述报告表中的测试数据和所述原始数据是否一致。
6.根据权利要求5所述的数据核验方法,其特征在于,所述方法还包括:
在所述报告表中的测试数据和所述原始数据不一致时,对所述报告表中的测试数据进行标记;
在所述原始数据与对应的加密码不一致时,对所述原始数据进行标记。
7.一种数据核验装置,其特征在于,包括:
原始数据获取模块,用于获取测试对象的原始数据并对所述原始数据进行加密存储;
规则生成模块,用于通过预设数据库中的标准医学定义提取对所述测试对象的报告表中的测试数据进行解读的解读规则,所述解读规则包括测试数据的来源、医学定义以及字段之间的逻辑关系;
规则训练模块,用于根据符合预设条件的多个目标对象的所述原始数据,对所述解读规则进行训练,得到训练好的解读规则;
核验控制模块,用于通过所述训练好的解读规则将所述测试对象的所述原始数据对照所述报告表中的测试数据进行核验;
其中,通过预设数据库中的标准医学定义形成对所述测试对象的报告表中的测试数据进行解读的解读规则包括:
将所述报告表中测试数据对应的医学定义关联到所述预设数据库中的标准医学定义,以确定所述测试数据的来源;
通过自然语言处理算法提取所述报告表中的测试数据包含的每个字段之间的临床逻辑关联和流行病学关联,以形成字段规则;
通过所述测试数据的来源以及所述字段规则生成用于对所述报告表进行解读的所述解读规则;
其中,根据符合预设条件的多个目标对象的原始数据,对所述解读规则进行训练,得到训练好的解读规则包括:
获取所有所述目标对象的原始数据;
提取所述目标对象的原始数据的特征;
基于获取的所述特征和模型对得到的解读规则进行训练,得到训练好的解读规则。
8.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-6任意一项所述的数据核验方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6任意一项所述的数据核验方法。
CN201811334456.6A 2018-11-09 2018-11-09 数据核验方法及装置、电子设备、存储介质 Active CN109584980B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811334456.6A CN109584980B (zh) 2018-11-09 2018-11-09 数据核验方法及装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811334456.6A CN109584980B (zh) 2018-11-09 2018-11-09 数据核验方法及装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN109584980A CN109584980A (zh) 2019-04-05
CN109584980B true CN109584980B (zh) 2021-06-29

Family

ID=65921997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811334456.6A Active CN109584980B (zh) 2018-11-09 2018-11-09 数据核验方法及装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN109584980B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110443381A (zh) * 2019-07-01 2019-11-12 中国工程物理研究院激光聚变研究中心 大型科学装置可靠性信息管理方法及系统
CN110827934B (zh) * 2019-08-19 2023-03-28 医渡云(北京)技术有限公司 一种crf的监查方法及装置
CN111090641B (zh) * 2019-11-25 2024-04-02 医渡云(北京)技术有限公司 数据处理方法及装置、电子设备、存储介质
CN110909824B (zh) * 2019-12-09 2022-10-28 天津开心生活科技有限公司 试验数据的核查方法及装置、存储介质及电子设备
CN113035310B (zh) * 2019-12-25 2024-01-09 医渡云(北京)技术有限公司 一种基于深度学习的医疗rct报告分析方法及装置
CN111797084B (zh) * 2020-06-16 2022-11-29 中国人民解放军92493部队参谋部 基于武器装备试验流程的数据编码贯标检查方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767924A (zh) * 2017-11-13 2018-03-06 医渡云(北京)技术有限公司 原始数据核对方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150019253A1 (en) * 2013-07-11 2015-01-15 Cerner Innovation, Inc. Integrated data capture using aliasing schemes

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767924A (zh) * 2017-11-13 2018-03-06 医渡云(北京)技术有限公司 原始数据核对方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向队列研究的数据校验方法设计与实现;刘梦舟;《中国优秀硕士学位论文全文数据库信息科技辑》;20181015(第10期);第1-5、33-42、55-61页 *

Also Published As

Publication number Publication date
CN109584980A (zh) 2019-04-05

Similar Documents

Publication Publication Date Title
CN109584980B (zh) 数据核验方法及装置、电子设备、存储介质
CN110910976A (zh) 病历检测方法、装置、设备和存储介质
Liaw et al. Data quality and fitness for purpose of routinely collected data–a general practice case study from an electronic practice-based research network (ePBRN)
CN112216402A (zh) 基于人工智能的疫情预测方法、装置、计算机设备及介质
Reynolds et al. Considerations when evaluating real‐world data quality in the context of fitness for purpose
CN112507701A (zh) 待纠错医疗数据的识别方法、装置、设备和存储介质
WO2021032055A1 (zh) 临床试验报告自动录入方法及装置、电子设备、存储介质
US20210098135A1 (en) Healthcare network
CN111383754B (zh) 医疗决策方法、医疗决策装置、电子设备及存储介质
WO2017017554A1 (en) Reliability measurement in data analysis of altered data sets
Yu et al. The use of natural language processing to identify vaccine‐related anaphylaxis at five health care systems in the Vaccine Safety Datalink
CN111383761A (zh) 医疗数据分析方法、装置、电子设备及计算机可读介质
Winnenburg et al. Metrics for assessing the quality of value sets in clinical quality measures
Cestonaro et al. Defining medical liability when artificial intelligence is applied on diagnostic algorithms: a systematic review
Kapoor et al. Automated data abstraction for quality surveillance and outcome assessment in radiation oncology
Terranova et al. AI and professional liability assessment in healthcare. A revolution in legal medicine?
CN115775635A (zh) 基于深度学习模型的药品风险识别方法、装置及终端设备
CN115458107A (zh) 医疗数据的核查方法及装置、存储介质、电子设备
CN113470775B (zh) 信息采集方法、装置、设备及存储介质
US20080275733A1 (en) Method for evaluation of patient identification
CN114783557A (zh) 肿瘤患者数据的处理方法和装置、存储介质及处理器
CN114724693A (zh) 异常诊疗行为的检测方法及装置、电子设备和存储介质
CN113724891A (zh) 医院疫情监测方法、装置及相关设备
Alyea et al. Standardizing health-care data across an enterprise
Velummailum et al. Data challenges for externally controlled trials

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant