CN108597565A - 一种基于ocr与命名实体提取技术的临床队列数据协同校验方法 - Google Patents

一种基于ocr与命名实体提取技术的临床队列数据协同校验方法 Download PDF

Info

Publication number
CN108597565A
CN108597565A CN201810323020.0A CN201810323020A CN108597565A CN 108597565 A CN108597565 A CN 108597565A CN 201810323020 A CN201810323020 A CN 201810323020A CN 108597565 A CN108597565 A CN 108597565A
Authority
CN
China
Prior art keywords
data
record data
electronic health
health record
papery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810323020.0A
Other languages
English (en)
Other versions
CN108597565B (zh
Inventor
吕旭东
段会龙
田琪
刘梦舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201810323020.0A priority Critical patent/CN108597565B/zh
Publication of CN108597565A publication Critical patent/CN108597565A/zh
Application granted granted Critical
Publication of CN108597565B publication Critical patent/CN108597565B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于OCR与命名实体提取技术的临床队列数据协同校验方法,包括:步骤1,利用人工录入方式将纸质病历报告表电子化,得到人工录入数据;步骤2,利用OCR将纸质病历报告表电子化,识别得到纸质病历数据;步骤3,利用命名实体提取技术从电子病历中提取得到电子病历数据;步骤4,针对待校验临床队列数据,比对人工录入数据、纸质病历数据和电子病历数据,得到校验结果。本发明提供的基于OCR与命名实体提取技术的临床队列数据协同校验方法,解决现有人工校验方法成本高效率低,数据错误覆盖不全面的问题。

Description

一种基于OCR与命名实体提取技术的临床队列数据协同校验 方法
技术领域
本发明涉及临床数据处理技术领域,具体涉及一种基于OCR与命名实体提取技术的临床队列数据协同校验方法。
背景技术
临床队列研究是国际公认的探讨常见重大疾病病因的有效方法,也是研究各种遗传和环境暴露因素与健康结局关系最重要的方法之一。
一方面,由于临床队列研究的样本人群基数大,随访时间长,因此需要收集的数据量通常都很庞大,在数据采集的过程中,研究对象或者数据采集人员等人为因素会不可避免地影响数据质量。另一方面,2016年颁布的《临床试验数据管理工作技术指南》明确指出,数据质量是评价研究结果的基础;在指南中也明确提出临床试验的数据必须是准确的、完整的和可靠的,因此,在实施临床队列研究时,在数据的采集环节保证数据的质量尤为重要。
目前大多数临床队列的数据采集和管理方式都是先通过纸质的CRF(Case ReportForm,病历报告表)收集数据,然后将数据转录到专门的信息管理系统进行统一管理以便于后续的统计分析。有研究表明,在这样的数据采集过程中,各种人为因素(填写人员、录入人员的粗心大意和不规范操作以及研究对象的依从性等)会导致数据出现填写错误、填写遗漏、录入错误和录入遗漏。为了解决这些问题,在现有临床队列研究的实施过程中,在纸质CRF填写之后,可以通过重新问询病人或者与其它数据源(如电子病历(ElectronicMedical Record,EMR)进行核对的方式来找出和纠正填写遗漏和填写错误。
数据录入环节常用的数据校验方法包括双录入、源数据校验和逻辑核查等方法,其中,双录入指的是不同录入人员分别录入同一份表单,通过对两次的输入值进行逐项核对,来纠正数据中的错误项;源数据校验指的是在数据录入后再次观察表单内容对录入数据进行校对;逻辑核查指的是根据生理参数的正常范围对用户提交的数据进行控制和验证。
双录入和源数据校验基本能够解决录入错误和录入遗漏的问题,但双录入需要额外的人力资源,增加人力成本,而源数据校验会增加时间成本,总之费时费力。逻辑核查虽然能够在一定程度上解决录入错误和填写错误,但不能解决录入数据和纸质数据不一致的问题。总的来说,现有的这些措施可以解决部分数据问题,但是都不能全面覆盖,而且需要的成本较高。
发明内容
本发明提供了一种基于OCR与命名实体提取技术的临床队列数据协同校验方法,解决现有人工校验方法成本高效率低,数据错误覆盖不全面的问题。
一种基于OCR与命名实体提取技术的临床队列数据协同校验方法,包括:
步骤1,利用人工录入方式将纸质病历报告表电子化,得到人工录入数据;
步骤2,利用OCR将纸质病历报告表电子化,识别得到纸质病历数据;
步骤3,利用命名实体提取技术从电子病历中提取得到电子病历数据;
步骤4,针对待校验临床队列数据,比对人工录入数据、纸质病历数据和电子病历数据,得到校验结果。
本发明提供的临床队列数据协同校验方法,对人工录入数据、纸质病历数据和电子病历数据进行一致性分析,通过三种数据比对的结果,判断临床队列数据的可靠性。
步骤1中,利用OCR技术解析纸质病历报告表的表单结构,利用机器学习对解析提取的内容进行识别,汇总识别结果,得到纸质病历数据。
步骤2中,利用命名实体提取技术中基于规则的方法,根据待校验临床队列数据中的数据字段编写提取规则,利用规则从电子病历中提取数据,得到电子病历数据。
本发明中的校验结果用于提示三者来源数据的不一致性,并将结果反馈给审核人员,对错误数据的进一步认定和处理,由审核人员进行。
作为优选,步骤4中,遍历待校验的临床队列数据中的所有数据字段,针对每一数据字段,分别对比人工录入数据、纸质病历数据和电子病历数据,得到校验结果。
作为优选,不同数据来源具有不同的可信度,根据数据的一致性,以及数据来源的可信度设置校验结果的错误等级。
作为优选,步骤4中错误等级设定包括以下情况:
(1)同时存在纸质病历数据、电子病历数据和人工录入数据
(1-1)、若纸质病历数据、电子病历数据和人工录入数据均一致,校验结果正确;
(1-2)、若纸质病历数据与电子病历数据一致,人工录入数据与纸质病历数据不一致,校验结果为录入错误,综合纸质病历数据和电子病历数据的可信度设置错误等级;
(1-3)、若纸质病历数据与电子病历数据不一致,人工录入数据与纸质病历数据一致,校验结果为填写错误,根据电子病历数据的可信度设置错误等级;
(1-4)、若纸质病历数据与电子病历数据不一致,人工录入数据与电子病历数据一致,校验结果为识别错误;
(1-5)、若纸质病历数据、电子病历数据和人工录入数据均不一致:
若电子病历数据可信度大于纸质病历数据可信度,校验结果为错误,根据电子病历数据可信度设置错误等级;
若电子病历数据可信度不大于纸质病历数据可信度,校验结果为录入错误,根据纸质病历数据可信度设置错误等级;
(2)、存在纸质病历数据和人工录入数据,不存在电子病历数据
若纸质病历数据和人工录入数据不一致,校验结果为录入错误,根据纸质病历数据的可信度设置错误等级;
若纸质病历数据和人工录入数据一致,校验结果为正确;
(3)、存在电子病历数据和人工录入数据,不存在纸质病历数据
(3-1)、若电子病历数据可信度大于人工录入数据的可信度,电子病历数据和人工录入数据一致,校验结果为正确;
(3-2)、若电子病历数据可信度大于人工录入数据的可信度,电子病历数据和人工录入数据不一致,校验结果为错误,根据电子病历数据可信度设置错误等级;
(3-3)、若电子病历数据可信度不大于人工录入数据的可信度,校验结果为录入错误,根据纸质病历数据可信度设置错误等级;
(4)、存在人工录入数据,不存在纸质病历数据和电子病历数据,校验结束;
(5)、存在纸质病历数据和电子病历数据,不存在人工录入数据
(5-1)、若纸质病历数据和电子病历数据一致,校验结果为录入遗漏,综合纸质病历数据和电子病历数据的可信度设置错误等级;
(5-2)、若纸质病历数据和电子病历数据不一致,且电子病历数据可信度大于纸质病历数据可信度,校验结果为遗漏,根据电子病历数据可信度设置错误等级;
(5-3)、若纸质病历数据和电子病历数据不一致,且电子病历数据可信度不大于纸质病历数据可信度,校验结果为录入遗漏,根据纸质病历数据可信度设置错误等级;
(6)、存在纸质病历数据,不存在电子病历数据和人工录入数据,校验结果为录入遗漏,根据纸质病历数据可信度设置错误等级;
(7)、存在电子病历数据,不存在纸质病历数据和人工录入数据,校验结果为填写遗漏,根据电子病历数据可信度设置错误等级;
(8)、不存在人工录入数据、纸质病历数据和电子病历数据,校验结束。
作为优选,所述纸质病历数据和电子病历数据均采用XML文件格式存储。
作为优选,步骤4中,以病人ID作为唯一标识,保存对应的校验结果。
所述校验结果统一保存在数据库中,并提供对外数据接口,用于展示给数据审核人员。
本发明基于OCR与命名实体提取技术的临床队列数据协同校验方法,利用纸质病历数据和电子病历数据对人工录入的临床队列数据进行校验,提高临床队列数据的数据质量。
附图说明
图1为本发明基于OCR与命名实体提取技术的临床队列数据协同校验方法的总体构架图;
图2为本发明利用OCR将纸质病历报告表电子化的流程图;
图3为本发明从电子病历中提取电子病历数据的流程图;
图4为本发明校验过程的总体流程图;
图5为本发明图4中子流程A的流程图;
图6为本发明图4中子流程B的流程图;
图7为本发明图4中子流程C的流程图;
图8为本发明图4中子流程D的流程图。
具体实施方式
下面结合附图,对本发明基于OCR与命名实体提取技术的临床队列数据协同校验方法做详细描述。
一种基于OCR与命名实体提取技术的临床队列数据协同校验方法,包括:
步骤1,利用人工录入方式将纸质病历报告表电子化,得到人工录入数据。
步骤2,利用OCR将纸质病历报告表电子化,识别得到纸质病历数据。
该步骤对应图1中步骤S101,即利用OCR技术纸质病历报告表(Case Report Form)快速电子化,并通过编写CRF描述模型,训练识别模型完成纸质病历数据的获得。
纸质病历数据的获取具体包括:
步骤a、从多张纸质病历报告表的扫描图像中获取勾选框训练样本,包括勾选和未勾选两种,人工标注后进行特征分析,基于逻辑回归模型训练出分类模型,最后打包成可执行文件供主程序调用。
步骤b、利用MNIST手写数字数据库,基于3层卷积层,2层全连接层(relu激活函数+dropout+BN)的卷积神经网络模型训练出手写数字分类模型,打包成可执行文件供主程序调用。
步骤c、基于XML语言手动编写描述CRF的模板文件,主要包括所有待识别区域的位置信息和类别。
具体地,描述CRF的模板文件中,以纸质病历报告表的表格框线左上角为原点,表格的上边框线为X轴建立直角坐标系,主要记录问题(例如身高、体重、血压等)的字段名称、数据类型以及是否多选等属性,勾选框选项的值和坐标,以及数字填写区域的四角坐标。
描述CRF的模板文件示例如表1所示。
表1
步骤d、加载CRF的模板文件,解析CRF扫描图像,提取出待识别内容,根据待识别内容的类别调用不同的可执行文件,输入到不同的分类模型,得到识别结果。
解析CRF扫描图像具体包括:针对纸质病历报告表的扫描图像进行灰度化和倾斜校正处理,即根据经验公式将扫描的彩色图像转换为灰度图像,并利用描述模型和扫描图像的倾斜角度rotation和对角线长度diagonal计算出扫描图像相对于描述模型的倾斜角度和缩放比例,从而计算出映射后的新坐标,完成灰度化和倾斜校正,通过图像解析读取描述模型中待识别区域的坐标截取图片,识别图片内的内容,识别结果示例如表2所示。
表2
步骤e、将结果汇总,以XML文件存储。
步骤3,利用命名实体提取技术从电子病历中提取得到电子病历数据。
该步骤对应图1中步骤S102,如图3所示,具体包括:
步骤a)、根据待校验数据字段和中文电子病历的文本特点,用正则表达式编写可配置的提取规则文件;
电子病历数据提取规则配置文件示例如表3所示。
表3
步骤b)、通过接口获取病人的电子病历数据,加载规则配置文件,从电子病历文本中提取所需电子病历数据;
步骤c)、用XML文件存储提取结果。
电子病历数据提取结果示例如表4所示。
表4
图3中的预处理主要是删除电子病历中的XML标签,并对编码的文本内容进行解码。
步骤4,针对待校验临床队列数据,比对人工录入数据、纸质病历数据和电子病历数据,得到校验结果。
本步骤对应图1中的S103,如图4所示,加载步骤2和步骤3的XML文件,遍历临床队列数据中的待校验数据字段,查询队列数据,并从XML文件中查找相应的数据,根据三部分数据的存在性进行状态判断,并确定进入哪个子流程。
在各子流程中,根据数据的一致性和可信度决定待校验数据是否出错,若出错,则根据校验数据的来源设置错误的来源、类型和详情,根据校验数据的可信度设置错误等级,并将错误进行持久化存储。
如图4、图5、图6、图7、图8中所示,各图中Scan对应纸质病历数据,EMR对应电子病历数据,Input对应人工录入数据,步骤4中错误等级设定包括以下情况:
(1)同时存在纸质病历数据、电子病历数据和人工录入数据
(1-1)、若纸质病历数据、电子病历数据和人工录入数据均一致,校验结果正确;
(1-2)、若纸质病历数据与电子病历数据一致,人工录入数据与纸质病历数据不一致,校验结果为录入错误,根据可信度较高的一方设置错误的重要等级;
(1-3)、若纸质病历数据与电子病历数据不一致,人工录入数据与纸质病历数据一致,校验结果为填写错误,根据电子病历数据的可信度设置错误等级;
(1-4)、若纸质病历数据与电子病历数据不一致,人工录入数据与电子病历数据一致,校验结果为识别错误;
(1-5)、若纸质病历数据、电子病历数据和人工录入数据均不一致:
若电子病历数据可信度大于纸质病历数据可信度,校验结果为错误,根据电子病历数据可信度设置错误等级;
若电子病历数据可信度不大于纸质病历数据可信度,校验结果为录入错误,根据纸质病历数据可信度设置错误等级;
(2)、存在纸质病历数据和人工录入数据,不存在电子病历数据
若纸质病历数据和人工录入数据不一致,校验结果为录入错误,根据纸质病历数据的可信度设置错误等级;
若纸质病历数据和人工录入数据一致,校验结果为正确;
(3)、存在电子病历数据和人工录入数据,不存在纸质病历数据
(3-1)、若电子病历数据可信度大于人工录入数据的可信度,电子病历数据和人工录入数据一致,校验结果为正确;
(3-2)、若电子病历数据可信度大于人工录入数据的可信度,电子病历数据和人工录入数据不一致,校验结果为错误,根据电子病历数据可信度设置错误等级;
(3-3)、若电子病历数据可信度不大于人工录入数据的可信度,校验结果为录入错误,根据纸质病历数据可信度设置错误等级;
(4)、存在人工录入数据,不存在纸质病历数据和电子病历数据,校验结束;
(5)、存在纸质病历数据和电子病历数据,不存在人工录入数据
(5-1)、若纸质病历数据和电子病历数据一致,校验结果为录入遗漏,根据可信度较高的一方设置错误的重要等级;
(5-2)、若纸质病历数据和电子病历数据不一致,且电子病历数据可信度大于纸质病历数据可信度,校验结果为遗漏,根据电子病历数据可信度设置错误等级;
(5-3)、若纸质病历数据和电子病历数据不一致,且电子病历数据可信度不大于纸质病历数据可信度,校验结果为录入遗漏,根据纸质病历数据可信度设置错误等级;
(6)、存在纸质病历数据,不存在电子病历数据和人工录入数据,校验结果为录入遗漏,根据纸质病历数据可信度设置错误等级;
(7)、存在电子病历数据,不存在纸质病历数据和人工录入数据,校验结果为填写遗漏,根据电子病历数据可信度设置错误等级;
(8)、不存在人工录入数据、纸质病历数据和电子病历数据,校验结束。
对于纸质病历数据,可信度基本上由识别率决定,使用纸质病历数据中不同类别数据的识别率来表征数据的可信度。
对于电子病历数据,可信度不仅仅和提取的准确率有关,还和电子病历数据本身是否准确有关,使用经验公式进行计算:可信度=提取准确率×自身准确率。对于电子病历数据自身准确率的计算,某项数据如果可以找到多条一致的记录,则使用该数据并认定其可信度为100%;某项数据如果只能找到一条记录,则认定该数据项的可信度为基本可信度(经过多次测试,选取70%作为基本可信度)。
以病人ID作为唯一标识,将校验结果保存在数据库中,审核人员通过审核界面可以查看所有病人的数据错误,也可以完成其他操作,如忽略某条错误。
根据上述说明书的揭示和教导,本发明所属领域的技术人员还可以对上述实施方式进行适当的变更和修改。因此,本发明并不局限于上面揭示和描述的具体实施方式,对本发明的一些修改和变更也应当落入本发明的权利要求的保护范围内。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对本发明构成任何限制。

Claims (6)

1.一种基于OCR与命名实体提取技术的临床队列数据协同校验方法,其特征在于,包括:
步骤1,利用人工录入方式将纸质病历报告表电子化,得到人工录入数据;
步骤2,利用OCR将纸质病历报告表电子化,识别得到纸质病历数据;
步骤3,利用命名实体提取技术从电子病历中提取得到电子病历数据;
步骤4,针对待校验临床队列数据,比对人工录入数据、纸质病历数据和电子病历数据,得到校验结果。
2.如权利要求1所述的基于OCR与命名实体提取技术的临床队列数据协同校验方法,其特征在于,步骤4中,遍历待校验的临床队列数据中的所有数据字段,针对每一数据字段,分别对比人工录入数据、纸质病历数据和电子病历数据,得到校验结果。
3.如权利要求1所述的基于OCR与命名实体提取技术的临床队列数据协同校验方法,其特征在于,不同数据来源具有不同的可信度,根据数据的一致性,以及数据来源的可信度设置校验结果的错误等级。
4.如权利要求3所述的基于OCR与命名实体提取技术的临床队列数据协同校验方法,其特征在于,步骤4中错误等级设定包括以下情况:
(1)同时存在纸质病历数据、电子病历数据和人工录入数据
(1-1)、若纸质病历数据、电子病历数据和人工录入数据均一致,校验结果正确;
(1-2)、若纸质病历数据与电子病历数据一致,人工录入数据与纸质病历数据不一致,校验结果为录入错误,综合纸质病历数据和电子病历数据的可信度设置错误等级;
(1-3)、若纸质病历数据与电子病历数据不一致,人工录入数据与纸质病历数据一致,校验结果为填写错误,根据电子病历数据的可信度设置错误等级;
(1-4)、若纸质病历数据与电子病历数据不一致,人工录入数据与电子病历数据一致,校验结果为识别错误;
(1-5)、若纸质病历数据、电子病历数据和人工录入数据均不一致:
若电子病历数据可信度大于纸质病历数据可信度,校验结果为错误,根据电子病历数据可信度设置错误等级;
若电子病历数据可信度不大于纸质病历数据可信度,校验结果为录入错误,根据纸质病历数据可信度设置错误等级;
(2)、存在纸质病历数据和人工录入数据,不存在电子病历数据
若纸质病历数据和人工录入数据不一致,校验结果为录入错误,根据纸质病历数据的可信度设置错误等级;
若纸质病历数据和人工录入数据一致,校验结果为正确;
(3)、存在电子病历数据和人工录入数据,不存在纸质病历数据
(3-1)、若电子病历数据可信度大于人工录入数据的可信度,电子病历数据和人工录入数据一致,校验结果为正确;
(3-2)、若电子病历数据可信度大于人工录入数据的可信度,电子病历数据和人工录入数据不一致,校验结果为错误,根据电子病历数据可信度设置错误等级;
(3-3)、若电子病历数据可信度不大于人工录入数据的可信度,校验结果为录入错误,根据纸质病历数据可信度设置错误等级;
(4)、存在人工录入数据,不存在纸质病历数据和电子病历数据,校验结束;
(5)、存在纸质病历数据和电子病历数据,不存在人工录入数据
(5-1)、若纸质病历数据和电子病历数据一致,校验结果为录入遗漏,综合纸质病历数据和电子病历数据的可信度设置错误等级;
(5-2)、若纸质病历数据和电子病历数据不一致,且电子病历数据可信度大于纸质病历数据可信度,校验结果为遗漏,根据电子病历数据可信度设置错误等级;
(5-3)、若纸质病历数据和电子病历数据不一致,且电子病历数据可信度不大于纸质病历数据可信度,校验结果为录入遗漏,根据纸质病历数据可信度设置错误等级;
(6)、存在纸质病历数据,不存在电子病历数据和人工录入数据,校验结果为录入遗漏,根据纸质病历数据可信度设置错误等级;
(7)、存在电子病历数据,不存在纸质病历数据和人工录入数据,校验结果为填写遗漏,根据电子病历数据可信度设置错误等级;
(8)、不存在人工录入数据、纸质病历数据和电子病历数据,校验结束。
5.如权利要求4所述的基于OCR与命名实体提取技术的临床队列数据协同校验方法,其特征在于,所述纸质病历数据和电子病历数据均采用XML文件格式存储。
6.如权利要求1~5任一项所述的基于OCR与命名实体提取技术的临床队列数据协同校验方法,其特征在于,步骤4中,以病人ID作为唯一标识,保存对应的校验结果。
CN201810323020.0A 2018-04-11 2018-04-11 一种基于ocr与命名实体提取技术的临床队列数据协同校验方法 Active CN108597565B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810323020.0A CN108597565B (zh) 2018-04-11 2018-04-11 一种基于ocr与命名实体提取技术的临床队列数据协同校验方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810323020.0A CN108597565B (zh) 2018-04-11 2018-04-11 一种基于ocr与命名实体提取技术的临床队列数据协同校验方法

Publications (2)

Publication Number Publication Date
CN108597565A true CN108597565A (zh) 2018-09-28
CN108597565B CN108597565B (zh) 2021-07-02

Family

ID=63622068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810323020.0A Active CN108597565B (zh) 2018-04-11 2018-04-11 一种基于ocr与命名实体提取技术的临床队列数据协同校验方法

Country Status (1)

Country Link
CN (1) CN108597565B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446192A (zh) * 2018-11-09 2019-03-08 贵州医渡云技术有限公司 数据测试方法及装置
CN110675924A (zh) * 2019-08-19 2020-01-10 医渡云(北京)技术有限公司 病例报告表自动生成的方法、装置、可读介质及电子设备
CN111427881A (zh) * 2020-03-31 2020-07-17 杭州依图医疗技术有限公司 医疗数据的处理方法、任务处理方法及存储介质
CN111429984A (zh) * 2020-06-11 2020-07-17 嘉兴太美医疗科技有限公司 临床试验数据采集的逻辑核查配置方法以及逻辑核查方法
CN113779065A (zh) * 2021-08-23 2021-12-10 深圳价值在线信息科技股份有限公司 数据比对的验证方法、装置、终端设备及介质
WO2023212278A1 (en) * 2022-04-28 2023-11-02 R.P. Scherer Technologies, Llc Data analysis and reporting systems and methods

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201054154Y (zh) * 2007-06-26 2008-04-30 上海岱嘉医学信息系统有限公司 一种医学信息录入装置
CN103425975A (zh) * 2013-07-17 2013-12-04 中国中医科学院 一种临床病例数据采集系统及采集方法
CN104077682A (zh) * 2014-06-30 2014-10-01 昆山云景网络科技有限公司 一种基于ocr识别和任务碎片化的单证数据录入方法
CN104123691A (zh) * 2014-08-15 2014-10-29 南京市卫生信息中心 一种基于版式电子文件技术的区域电子病历管理系统
CN104835098A (zh) * 2015-05-15 2015-08-12 上海翼依信息技术有限公司 一种病历电子数据识别方法及系统
US20150370979A1 (en) * 2014-06-19 2015-12-24 International Business Machines Corporation Electronic medical record summary and presentation
CN105844566A (zh) * 2016-03-25 2016-08-10 东华软件股份公司 一种电子病历归档管理系统及方法
CN106372385A (zh) * 2016-08-23 2017-02-01 北京医鸣技术有限公司 用于医疗数据集成的方法、设备及系统
CN106682397A (zh) * 2016-12-09 2017-05-17 江西中科九峰智慧医疗科技有限公司 一种基于知识的电子病历质控方法
CN106777923A (zh) * 2016-11-30 2017-05-31 谭小刚 医院信息监管平台和监管方法
CN107016052A (zh) * 2017-02-28 2017-08-04 卢怀农 一种信息智能加工方法
CN107103196A (zh) * 2017-04-26 2017-08-29 成都中医药大学 一种中医临床数据清洗方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201054154Y (zh) * 2007-06-26 2008-04-30 上海岱嘉医学信息系统有限公司 一种医学信息录入装置
CN103425975A (zh) * 2013-07-17 2013-12-04 中国中医科学院 一种临床病例数据采集系统及采集方法
US20150370979A1 (en) * 2014-06-19 2015-12-24 International Business Machines Corporation Electronic medical record summary and presentation
CN104077682A (zh) * 2014-06-30 2014-10-01 昆山云景网络科技有限公司 一种基于ocr识别和任务碎片化的单证数据录入方法
CN104123691A (zh) * 2014-08-15 2014-10-29 南京市卫生信息中心 一种基于版式电子文件技术的区域电子病历管理系统
CN104835098A (zh) * 2015-05-15 2015-08-12 上海翼依信息技术有限公司 一种病历电子数据识别方法及系统
CN105844566A (zh) * 2016-03-25 2016-08-10 东华软件股份公司 一种电子病历归档管理系统及方法
CN106372385A (zh) * 2016-08-23 2017-02-01 北京医鸣技术有限公司 用于医疗数据集成的方法、设备及系统
CN106777923A (zh) * 2016-11-30 2017-05-31 谭小刚 医院信息监管平台和监管方法
CN106682397A (zh) * 2016-12-09 2017-05-17 江西中科九峰智慧医疗科技有限公司 一种基于知识的电子病历质控方法
CN107016052A (zh) * 2017-02-28 2017-08-04 卢怀农 一种信息智能加工方法
CN107103196A (zh) * 2017-04-26 2017-08-29 成都中医药大学 一种中医临床数据清洗方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李昊昊 等: ""结构化电子病历数据录入方法"", 《浙江大学学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446192A (zh) * 2018-11-09 2019-03-08 贵州医渡云技术有限公司 数据测试方法及装置
CN109446192B (zh) * 2018-11-09 2021-06-29 贵州医渡云技术有限公司 数据测试方法及装置
CN110675924A (zh) * 2019-08-19 2020-01-10 医渡云(北京)技术有限公司 病例报告表自动生成的方法、装置、可读介质及电子设备
CN111427881A (zh) * 2020-03-31 2020-07-17 杭州依图医疗技术有限公司 医疗数据的处理方法、任务处理方法及存储介质
CN111429984A (zh) * 2020-06-11 2020-07-17 嘉兴太美医疗科技有限公司 临床试验数据采集的逻辑核查配置方法以及逻辑核查方法
CN111429984B (zh) * 2020-06-11 2020-09-11 嘉兴太美医疗科技有限公司 临床试验数据采集的逻辑核查配置方法以及逻辑核查方法
CN113779065A (zh) * 2021-08-23 2021-12-10 深圳价值在线信息科技股份有限公司 数据比对的验证方法、装置、终端设备及介质
WO2023212278A1 (en) * 2022-04-28 2023-11-02 R.P. Scherer Technologies, Llc Data analysis and reporting systems and methods

Also Published As

Publication number Publication date
CN108597565B (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
CN108597565A (zh) 一种基于ocr与命名实体提取技术的临床队列数据协同校验方法
US11232300B2 (en) System and method for automatic detection and verification of optical character recognition data
US10489645B2 (en) System and method for automatic detection and verification of optical character recognition data
US11972201B2 (en) Facilitating auto-completion of electronic forms with hierarchical entity data models
US10120537B2 (en) Page-independent multi-field validation in document capture
US8666998B2 (en) Handling data sets
EP3640847A1 (en) Systems and methods for identifying form fields
US10438347B2 (en) Automated quality control of diagnostic radiology
CN115204110A (zh) 从数字化文档提取可搜索的信息
US20100094888A1 (en) Method and system for acquiring data from machine-readable documents
WO2020155757A1 (zh) 柱状图数据转换控制方法、装置、计算机设备及存储介质
CN110119395B (zh) 大数据治理中基于元数据实现数据标准与数据质量关联处理的方法
CN110472209B (zh) 基于深度学习的表格生成方法、装置和计算机设备
EP4363993A1 (en) Ai-augmented auditing platform including techniques for automated document processing
US11568284B2 (en) System and method for determining a structured representation of a form document utilizing multiple machine learning models
CN109684957A (zh) 一种自动按照纸质表单展现系统数据的方法及系统
CN112509661A (zh) 用于识别体检报告的方法、计算设备和介质
CN106650722A (zh) 信息校核方法及装置
JP2019185138A (ja) 画像処理装置、画像処理方法およびプログラム
CN112418813A (zh) 基于智能解析识别的aeo资质智能评级管理系统、方法及存储介质
CN116469505A (zh) 数据处理方法、装置、计算机设备及可读存储介质
CN103425976B (zh) 一种临床病例报告表识别系统及识别方法
CN115310772A (zh) 一种药械质量监管结果数据监测方法、药械交易平台及系统
JP4032775B2 (ja) コード化システムおよびプログラム
CN113962197A (zh) 医疗化验单标准化方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant