CN103425976B - 一种临床病例报告表识别系统及识别方法 - Google Patents

一种临床病例报告表识别系统及识别方法 Download PDF

Info

Publication number
CN103425976B
CN103425976B CN201310301050.9A CN201310301050A CN103425976B CN 103425976 B CN103425976 B CN 103425976B CN 201310301050 A CN201310301050 A CN 201310301050A CN 103425976 B CN103425976 B CN 103425976B
Authority
CN
China
Prior art keywords
electronic medical
medical records
records account
account
transient state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310301050.9A
Other languages
English (en)
Other versions
CN103425976A (zh
Inventor
刘保延
何丽云
文天才
闫世艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Academy of Medical Sciences CAMS
Original Assignee
Chinese Academy of Medical Sciences CAMS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Academy of Medical Sciences CAMS filed Critical Chinese Academy of Medical Sciences CAMS
Priority to CN201310301050.9A priority Critical patent/CN103425976B/zh
Publication of CN103425976A publication Critical patent/CN103425976A/zh
Application granted granted Critical
Publication of CN103425976B publication Critical patent/CN103425976B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及一种临床病例报告表识别系统及识别方法,校验模块包括电子病例报告表对比单元,所述电子病例报告表对比单元接收所述第一OCR模块和所述第二OCR模块发送的第一电子病例报告表、第二电子病例报告表,对所述第一OCR模块和所述第二OCR模块发送的电子病例报告表进行比较校验,能够在提高纸质病例报告表转换为电子病例报告表的工作效率的同时,有效减少错误电子病例报告表的输出,提高了临床病例报告表识别系统的准确性和速度。并且所述第一OCR模块和所述第二OCR模块分别根据不同算法对所述纸质病例报告表进行识别,能够增加所述电子病例报告表对比单元对所述第一电子病例报告表和所述第二电子病例报告表进行比较的准确性。

Description

一种临床病例报告表识别系统及识别方法
技术领域
本发明涉及将纸质病例报告表转换成电子病例报告表的识别系统及识别方法,具体是一种临床病例报告表识别系统及识别方法,属于电子病例报告表技术领域。
背景技术
在临床研究或药品临床试验中,往往要收集病患者的病例报告表,而临床研究或药品临床试验中所用于统计分析的病例报告表必须是电子病例报告表。目前,在大多数临床研究数据中心中,还是通过手工录入的方式将纸质病例报告表内容输入计算机中形成电子病例报告表,对临床数据进行统计分析。为了保证数据的准确性,通常需要经过两次录入甚至三次录入,并对各次录入的数据进行比较以期纠正因人工录入过程中引入的数据错误。由于数据管理中间过程有大量的人工干预,工作效率有限,数据发生错误的可能性也会成倍地增加,而为了消除这种错误,又不得不增加更多的人力。
中国专利CN102968572A公开了一种骨科病例信息采集系统及其采集方法,其中,所述骨科病例信息采集系统包括纸质病例扫描采集模块、电子病例自动转换模块、骨科影像采集模块和病例信息共享平台;其中,所述的纸质病例扫描采集模块包括:扫描模块、图像处理机文字识别模块、数据存数模块和数据传输接口,所述的扫描模块包括高速扫描仪,扫描模块将病人的纸质病例信息转换为图像信息,图像处理及文字识别模块为文档扫描软件,将扫描的图像信息转换成电子病例文本;所述的电子病例自动转换模块包括:HL7资源模块、HL7对照模块、HL7转换模块、HL7应用接口模块和HL7信息发送接受模块;所述的骨科影像采集模块包括:采集模块、存储模块和数据传输接口。所述的病例信息共享平台包括:纸质病例信息接口、电子病例信息接口、骨科影像信息数据接口、数据处理模块、数据存数模块和数据共享模块。所述骨科病例信息采集方法包括如下步骤:(1)通过纸质病例扫描采集模块采集纸质骨科病例信息;(2)通过电子病例自动转换模块采集骨科电子病例信息;(3)通过骨科影像采集模块采集骨科影像信息;(4)将上述步骤采集的信息通过互联网传输给病例信息共享平台;(5)数据共享平台收集、整理病例信息,并提供给医生和病人查询。上述技术方案虽然能够将纸质病例转换为电子病例,但是没有对转换后的电子病例进行校验,一旦所转换的电子病例中存在因转换而造成的信息错误,则该错误就不能被校验出来。当在治疗或研究过程中,若用于医生、病人以及研究人员所查询的电子病例中存在错误的信息,则会对病人在治疗过程中造成为误诊、对临床研究或药品临床试验造成试验数据不准确。
发明内容
本发明所要解决的技术问题是现有技术中,在纸质病例报告表转换为电子病例报告表的过程中,由于没有对转换后的电子病例报告表进行校验而导致的电子病例报告表中存在信息错误,从而提供一种对识别后的电子病例报告表进行校验的临床病例报告表识别系统。
为解决上述技术问题,本发明是通过以下技术方案实现的:
一种临床病例报告表识别系统,包括第一OCR模块、第二OCR模块和校验模块,其中,
所述第一OCR模块,对病例报告表图像进行图像、文字识别处理得到第一电子病例报告表,将所述第一电子病例报告表传输给所述校验模块;
所述第二OCR模块,具有与所述第一OCR模块不同的识别算法,对所述第一OCR模块识别的所述病例报告表图像进行图像、文字识别处理得到第二电子病例报告表,将所述第二电子病例报告表传输给所述校验模块;
所述校验模块,用于对电子病例报告表进行校验,其进一步包括电子病例报告表对比单元和第一核对单元,
所述电子病例报告表对比单元,接收所述第一OCR模块和所述第二OCR模块发送的第一电子病例报告表、第二电子病例报告表,对所述第一OCR模块和所述第二OCR模块发送的电子病例报告表进行比较校验,经过比较校验后,若所述第一电子病例报告表和所述第二电子病例报告表一致,则将所述第一电子病例报告表或所述第二电子病例报告表作为第一暂态电子病例报告表的形式输出;否则将所述第一电子病例报告表、所述第二电子病例报告表中不一致的内容进行标记后输出给所述第一核对单元;
所述第一核对单元,接收所述电子病例报告表对比单元标记后输出的所述第一电子病例报告表和所述第二电子病例报告表,并对所述第一电子病例报告表和所述第二电子病例报告表中标记的不一致的内容进行人工核对更正,将人工核对更正后的所述第一电子病例报告表或所述第二电子病例报告表作为第一暂态电子病例报告表输出。
所述校验模块还包括语法检查单元和第二核对单元,
所述语法检查单元,接收所述第一暂态电子病例报告表,对所述第一暂态电子病例报告表中的语句进行语法检查,若语法检查结果正确则将所述第一暂态电子病例报告表作为第二暂态电子病例报告表输出;否则将所述电子病例报告表中经过语法检查不正确的地方进行语法错误标记后输出给所述第二核对单元;
所述第二核对单元,接收所述语法检查单元发送的经过语法错误标记的所述第一暂态电子病例报告表,并对所述第一暂态电子病例报告表进行人工核对,将人工核对后的所述第一暂态电子病例报告表作为第二暂态电子病例报告表输出。
所述校验模块还包括随机截取校验单元和第三核对单元,其中,
所述随机截取校验单元进一步包括随机截取模块和数据库,
所述随机截取模块,接收所述第二暂态电子病例报告表,对所述第二暂态电子病例报告表中的语句进行随机截取得到随机短语,并将所述随机短语在所述数据库中进行查询,若所述随机短语为关键词语、关键语句的全部或一部分,则将所述第二暂态电子病例报告表作为终态电子病例报告表输出;否则将所述电子病例报告表中截取的随机短语进行标记后输出;
所述数据库,用于接收关键词语及关键语句并将接到的所述关键词语及关键语句存储;
所述第三核对单元,接收所述随机截取模块发送的标记后的所述第二暂态电子病例报告表,并对其进行人工核对,将人工核对后的所述第二暂态电子病例报告表作为终态电子病例报告表输出。
所述数据库进一步包括存储单元、输入单元和自适应单元,其中,
所述存储单元,用于接收关键词语及关键语句并将接到的所述关键词语及关键语句存储;
所述输入单元,用于将预先确定的关键词语及关键语句输出到所述存储单元;
所述自适应单元,用于记录所述同一随机短语访问数据库的次数,若次数超过预定的n次,则将所述随机短语作为关键词语及关键语句发送到所述存储单元存储。
一种临床病例报告表识别方法,包括如下步骤,
S1:接收病例报告表图像,并对所述对病例报告表图像进行图像、文字识别处理得到第一电子病例报告表,将所述第一电子病例报告表输出;
S2:接收步骤S1中识别的所述病例报告表图像,并对所述病例报告表图像用不同于步骤S1中的识别算法进行图像、文字识别处理得到第二电子病例报告表,将所述第二电子病例报告表输出;
S3:接收所述第一电子病例报告表和所述第二电子病例报告表,并对所述第一电子病例报告表和所述第二电子病例报告表进行比较校验;若所述第一电子病例报告表和所述第二电子病例报告表内容一致,则将所述第一电子病例报告表或所述第二电子病例报告表作为第一暂态电子病例报告表输出;否则将所述第一电子病例报告表和所述第二电子病例报告表中不一致的内容进行标记后输出;
S4:接收标记后输出的所述第一电子病例报告表和所述第二电子病例报告表,并对所述第一电子病例报告表和所述第二电子病例报告表中标记的不一致的内容进行人工核对更正,将人工核对更正后的所述第一电子病例报告表或所述第二电子病例报告表作为第一暂态电子病例报告表输出。
还包括以下语法检查的步骤:
S51:接收所述第一暂态电子病例报告表,并对所述第一暂态电子病例报告表中的语句进行语法检查,若语法检查结果正确则将所述暂态病例报告表作为第二暂态电子病例报告表输出;否则将所述第一暂态电子病例报告表中经过语法检查不正确的地方进行语法错误标记后输出;
S52:接收语法错误标记后输出的所述第一暂态电子病例报告表,并对所述第一暂态电子病例报告表上语法错误标记的内容进行人工核对,将人工核对后的所述第一暂态电子病例报告表作为第二暂态电子病例报告表输出。
在所述语法检查步骤之后还包括短语核对的步骤:
S61:接收所述第二暂态电子病例报告表,对所述第二暂态电子病例报告表中的语句进行随机截取得到随机短语,并将所述随机短语在预定的数据库中进行查询,若所述随机短语为所述数据库中存储的关键词语或关键语句的全部或一部分,则将所述第二暂态电子病例报告表作为终态电子病例报告表输出;否则,对所述第二暂态电子病例报告表中截取的所述随机短语进行短语核对错误标记后输出;
S62:接收短语核对错误标记后输出的所述第二暂态电子病例报告表,并对所述第二暂态电子病例报告表中短语核对错误标记的所述随机短语进行人工核对,将人工核对后的所述第二暂态电子病例报告表作为终态电子病例报告表输出。
所述步骤S61中的数据库按照以下步骤生成:
S5’1:将预先确定的关键词语及关键语句存储到数据库;
S5’2:记录所述随机短语访问数据库的次数,若次数超过预定的n次,则将所述随机短语作为关键词语或者关键语句存储到所述数据库中。
本发明的上述技术方案相比现有技术具有以下优点:
(1)本发明所述的一种临床病例报告表识别系统,校验模块中进一步包括电子病例报告表对比单元,所述电子病例报告表对比单元接收所述第一OCR模块和所述第二OCR模块发送的第一电子病例报告表、第二电子病例报告表,对所述第一OCR模块和所述第二OCR模块发送的电子病例报告表进行比较校验,经过比较校验后,若所述第一电子病例报告表和所述第二电子病例报告表准确,则将第一电子病例报告表或第二电子病例报告表作为第一暂态电子病例报告表输出,否则将所述第一电子病例报告表、所述第二电子病例报告表中不一致的内容进行标记并进行人工核对,将人工核对后的第一电子病例报告表、第二电子病例报告表以终态电子病例报表的形式输出。本发明能够在大大提高纸质病例报告表转换为电子病例报告表的工作效率的同时,有效减少错误电子病例报告表的输出,提高了临床病例报告表识别系统的识别准确性和识别速度。并且所述第一OCR模块和所述第二OCR模块分别根据不同算法对所述纸质病例报告表进行识别,能使病例报告表图像在不同算法下得到所述第一电子病例报告表和所述第二电子病例报告表,能够增加所述电子病例报告表对比单元对所述第一电子病例报告表和所述第二电子病例报告表进行比较的准确性。
(2)本发明所述的一种临床病例报告表识别系统,所述校验模块还包括语法检查单元,能够对所述第一暂态电子病例报告表中的语句进行语法检查,进一步增加了系统的识别精度。所述校验模块还包括随机截取校验单元,能够随机对所述第二暂态电子病例报告表中的语句进行截取得到随机短语,并将所述随机短语在所述数据库中进行查询,若所述随机短语为所述关键词语及关键语句的全部或一部分,则将所述第二暂态电子病例报告表作为终态电子病例报告表输出;否则将所述电子病例报告表中截取的随机短语处标记并对其进行人工核对,将人工核对后的终态电子病例报告表输出。本发明能够对第二暂态电子病例报告表中语句的准确性进行校验,有效增加了系统的识别准确性。
(3)本发明所述的一种临床病例报告表识别系统,所述数据库进一步包括存储单元、输入单元和自适应单元,能够根据人工输入和系统的自适应输入关键词语及关键语句,增加所述数据库数据量,能够加强系统在病例报告表识别过程中能够对不同项目中不同的关键词语及关键语句的准确识别及校验。
附图说明
为了使本发明的内容更容易被清楚的理解,下面结合附图,对本发明作进一步详细的说明,其中,
图1是本发明一个实施例的临床病例报告表识别系统的框架图;
图2是本发明一个实施例的临床病例报告表识别方法的流程图。
具体实施方式
实施例1
本发明所述的临床病例报告表识别系统的结构,如图1所示,其包括第一OCR模块、第二OCR模块和校验模块。其中,
所述第一OCR模块,采用第一OCR算法对病例报告表图像进行图像、文字识别处理得到第一电子病例报告表,将所述第一电子病例报告表传输给所述校验模块。所述的病例报告表为临床研究或药品临床试验中的原始数据在和法律文件,其具有一定的格式及项目,所述的项目中的全部或部分需要受试人员在纸质病例报告表中手工填写。所述的病例报告表图像为通过扫描仪或者数码相机等电子设备对纸质的病例报告表进行扫描或拍照后得到的图像,本发明就是针对经过受试人员填写后的所述病例报告表图像进行OCR(Optical Character Recognition光学字符识别)来得到电子病例报告表,完成纸质数据项电子数据的转化。所述OCR模块能够根据算法来分析文字的形态特征,判断文字的标准编码,并按照通用格式存储为计算机文本文件,现有的OCR技术已经能够处理印刷质量比较差的字符或较为一般的手写体字符。
所述第二OCR模块,采用第二OCR算法对所述第一OCR模块识别的所述病例报告表图像进行图像、文字识别处理得到第二电子病例报告表,将所述第二电子病例报告表传输给所述校验模块。所述第一OCR算法和第二OCR算法不同。所述第一OCR模块和第二OCR模块分别根据不同算法对同样的所述病例报告表图像进行识别,能够使病例报告表图像在不同算法下得到所述第一电子病例报告表和所述第二电子病例报告表,能够增加所述电子病例报告表对比单元对所述第一电子病例报告表和所述第二电子病例报告表进行比较的准确性。
所述校验模块,用于对电子病例报告表进行校验,其进一步包括电子病例报告表对比单元和第一核对单元。
所述电子病例报告表对比单元,接收所述第一OCR模块和所述第二OCR模块发送的第一电子病例报告表、第二电子病例报告表,对所述第一OCR模块和所述第二OCR模块发送的电子病例报告表进行比较校验,经过比较校验后,若所述第一电子病例报告表和所述第二电子病例报告表一致,则将所述第一电子病例报告表或所述第二电子病例报告表作为第一暂态电子病例报告表的形式输出;否则将所述第一电子病例报告表、所述第二电子病例报告表中不一致的内容进行标记后输出给所述第一核对单元。
所述第一核对单元,接收所述电子病例报告表对比单元标记后输出的所述第一电子病例报告表和所述第二电子病例报告表,并对所述第一电子病例报告表和所述第二电子病例报告表中标记的不一致的内容进行人工核对更正,将人工核对更正后的所述第一电子病例报告表或所述第二电子病例报告表作为第一暂态电子病例报告表输出。所述的暂态报告表既可以作为本发明最后的输出数据,也可以作为其他模块输入数据以进行进一步的数据校正。所述的终态报告表为最终输出系统的电子病例报告表。
本发明所述的临床病例报告表识别系统能够在大大提高纸质病例报告表转换为电子病例报告表的工作效率的同时,有效减少错误电子病例报告表的输出,提高了临床病例报告表识别系统的识别准确性和识别速度。
作为本发明的其他实施例,在上述实施例的基础上,所述校验模块还包括语法检查单元和第二核对单元。所述语法检查单元,接收所述电子病例报告表对比单元输出的第一暂态电子病例报告表,对所述第一暂态电子病例报告表中的语句进行语法检查,若语法检查结果正确则将所述第一暂态电子病例报告表作为第二暂态电子病例报告表输出;否则将所述电子病例报告表中经过语法检查不正确的地方进行语法错误标记后输出给所述第二核对单元。所述语法检查单元,能够对所述第一暂态电子病例报告表中的语句进行语法检查,进一步增加了系统的识别精度。
所述第二核对单元,接收所述语法检查单元发送的经过语法错误标记的所述第一暂态电子病例报告表,并对所述第一暂态电子病例报告表进行人工核对,将人工核对后的所述第一暂态电子病例报告表作为第二暂态电子病例报告表输出。
作为本发明的其他实施例,在上述任意一个实施例的基础上,所述校验模块还包括随机截取校验单元和第三核对单元。其中,所述随机截取校验单元进一步包括随机截取模块和数据库。
所述随机截取模块,接收所述第二暂态电子病例报告表,对所述第二暂态电子病例报告表中的语句进行随机截取得到随机短语,并将所述随机短语搜索的关键字在所述数据库中进行搜索查询,若所述随机短语为数据库中存储的关键词语、关键语句的全部或一部分,则认为随机截取校验正确,将所述第二暂态电子病例报告表作为终态电子病例报告表输出;否则将所述电子病例报告表中截取的随机短语进行标记后输出。
所述数据库,用于接收关键词语及关键语句并将接到的所述关键词语及关键语句存储,所述的关键词语及关键语句为中医药辞典、现代汉语辞典等专业工具书中的词语及语句。
所述第三核对单元,接收所述随机截取模块发送的标记后的所述第二暂态电子病例报告表,并对其进行人工核对,将人工核对后的所述第二暂态电子病例报告表作为终态电子病例报告表输出。
本发明能够对所述第二暂态电子病例报告表中词语及语句的准确性进行校验,有效增加了系统的识别准确性。
作为本发明上述包括用于存储关键词语和关键语句的数据库的实施例的具体实施方式,所述数据库进一步包括存储单元、输入单元和自适应单元,其中,
所述存储单元,用于接收关键词语及关键语句并将接到的所述关键词语及关键语句存储;
所述输入单元,用于将预先确定的关键词语及关键语句输出至所述存储单元,所述的中医药辞典、现代汉语辞典等工具书中的词语及语句通过所述输入单元输入到所述输入单元中。
所述自适应单元,用于记录所述同一随机短语访问数据库的次数,若次数超过预定的n次,则将所述随机短语作为关键词语及关键语句发送到所述存储单元存储。能够根据人工输入和系统的自适应输入关键词语及关键语句,增加所述数据库数据量,能够加强系统在病例报告表识别过程中能够对不同项目中不同的关键词语及关键语句的准确识别及校验。由于医学术语的数量及其庞大并且随着科技的发展医学术语也在不断的创造,因此本发明所述的数据库中不可能完整的存储所有的医学术语,采用所述自适应单元后,能够根据识别出的关键词语及关键语句及时的对所述数据库中的关键词语及关键语句进行系统的自动补充,具有实时更新适用性强的优点。
作为本发明的其他具体实施方式,所述语法检测模块还可以放在随机截取校验单元之后,用于接收随机校验模块发送的暂态电子病例报告表,并对其进行语法检测。
实施例2
作为本发明所述的一种临床病例报告表识别方法,如图2所示,其包括如下步骤,
S1:接收病例报告表图像,并对所述对病例报告表图像进行图像、文字识别处理得到第一电子病例报告表,将所述第一电子病例报告表输出;
S2:接收步骤S1中识别的所述病例报告表图像,并对所述病例报告表图像用不同于步骤S1中的识别算法进行图像、文字识别处理得到第二电子病例报告表,将所述第二电子病例报告表输出;
S3:接收所述第一电子病例报告表和所述第二电子病例报告表,并对所述第一电子病例报告表和所述第二电子病例报告表进行比较校验;若所述第一电子病例报告表和所述第二电子病例报告表内容一致,则将所述第一电子病例报告表或所述第二电子病例报告表作为第一暂态电子病例报告表输出;否则将所述第一电子病例报告表和所述第二电子病例报告表中不一致的内容进行标记后输出;
S4:接收标记后输出的所述第一电子病例报告表和所述第二电子病例报告表,并对所述第一电子病例报告表和所述第二电子病例报告表中标记的不一致的内容进行人工核对更正,将人工核对更正后的所述第一电子病例报告表或所述第二电子病例报告表作为终态病例报告表输出。
本发明所述的识别方法能够在大大提高纸质病例报告表转换为电子病例报告表的工作效率的同时,有效减少错误电子病例报告表的输出,提高了临床病例报告表识别系统的识别准确性和识别速度。所述步骤S1和步骤S2分别根据不同算法对所述纸质病例报告表进行识别,能够使病例报告表图像在不同算法下得到所述第一电子病例报告表和所述第二电子病例报告表,能够增加所述电子病例报告表对比单元对所述第一电子病例报告表和所述第二电子病例报告表进行比较的准确性。
作为本发明的其他实施方式,在所述步骤S4之后还包括语法检查的步骤。
S51:接收所述第一暂态电子病例报告表,并对所述第一暂态电子病例报告表中的语句进行语法检查,若语法检查结果正确则将所述暂态病例报告表作为第二暂态电子病例报告表输出;否则将所述第一暂态电子病例报告表中经过语法检查不正确的地方进行语法错误标记后输出;
S52:接收语法错误标记后输出的所述第一暂态电子病例报告表,并对所述第一暂态电子病例报告表上语法错误标记的内容进行人工核对,将人工核对后的所述第一暂态电子病例报告表作为第二暂态电子病例报告表输出。所述语法检查步骤能够对所述第一电子病例报告表或所述第二电子病例报告表中的语句进行语法检查,进一步增加了系统的识别精度。
作为本发明的其他实施方式,在所述语法检查步骤之后还包括短语核对的步骤,
S61:接收所述第二暂态电子病例报告表,对所述第二暂态电子病例报告表中的语句进行随机截取得到随机短语,并将所述随机短语在预定的数据库中进行查询,若所述随机短语为所述数据库中存储的关键词语或关键语句的全部或一部分,则将所述第二暂态电子病例报告表作为终态电子病例报告表输出;否则,对所述第二暂态电子病例报告表中截取的所述随机短语进行短语核对错误标记后输出;
S62:接收短语核对错误标记后输出的所述第二暂态电子病例报告表,并对所述第二暂态电子病例报告表中短语核对错误标记的所述随机短语进行人工核对,将人工核对后的所述第二暂态电子病例报告表作为终态电子病例报告表输出。
本实施例能够对第二暂态电子病例报告表中语句的准确性进行校验,有效增加了系统的识别准确性。
作为关键词语及关键语句发送到所述存储单元存储上述包括短语核对的步骤的实施例的一种具体实施方式,在该实施例的,所述步骤S61中的数据库按照以下步骤生成,
S5’1:将关键词语及关键语句预先存储到数据库;
S5’2:记录所述随机短语访问数据库的次数,若次数超过预定的n次,则将所述随机短语作为关键词语或者关键语句存储到所述数据库中。该步骤能够根据识别出的关键词语及关键语句及时的对所述数据库中的关键词语及关键语句进行系统的自动补充,具有实时更新适用性强的优点。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (5)

1.一种临床病例报告表识别系统,其特征在于,包括第一OCR模块、第二OCR模块和校验模块,其中,
所述第一OCR模块,对病例报告表图像进行图像、文字识别处理得到第一电子病例报告表,将所述第一电子病例报告表传输给所述校验模块;
所述第二OCR模块,具有与所述第一OCR模块不同的识别算法,对所述第一OCR模块识别的所述病例报告表图像进行图像、文字识别处理得到第二电子病例报告表,将所述第二电子病例报告表传输给所述校验模块;
所述校验模块,用于对电子病例报告表进行校验,其进一步包括电子病例报告表对比单元和第一核对单元,
所述电子病例报告表对比单元,接收所述第一OCR模块和所述第二OCR模块发送的第一电子病例报告表、第二电子病例报告表,对所述第一OCR模块和所述第二OCR模块发送的电子病例报告表进行比较校验,经过比较校验后,若所述第一电子病例报告表和所述第二电子病例报告表一致,则将所述第一电子病例报告表或所述第二电子病例报告表作为第一暂态电子病例报告表的形式输出;否则将所述第一电子病例报告表、所述第二电子病例报告表中不一致的内容进行标记后输出给所述第一核对单元;
所述第一核对单元,接收所述电子病例报告表对比单元标记后输出的所述第一电子病例报告表和所述第二电子病例报告表,并对所述第一电子病例报告表和所述第二电子病例报告表中标记的不一致的内容进行人工核对更正,将人工核对更正后的所述第一电子病例报告表或所述第二电子病例报告表作为第一暂态电子病例报告表输出;
所述校验模块还包括随机截取校验单元和第三核对单元,其中,
所述随机截取校验单元进一步包括随机截取模块和数据库,
所述随机截取模块,接收所述第一暂态电子病例报告表,对所述第一暂态电子病例报告表中的语句进行随机截取得到随机短语,并将所述随机短语在所述数据库中进行查询,若所述随机短语为关键词语、关键语句的全部或一部分,则将所述第一暂态电子病例报告表作为第二暂态电子病例报告表输出;否则将所述第一暂态电子病例报告表中截取的随机短语进行标记后输出;
所述第三核对单元,接收所述随机截取模块发送的标记后的所述第一暂态电子病例报告表,并对其进行人工核对,将人工核对后的所述第一暂态电子病例报告表作为第二暂态电子病例报告表输出。
2.根据权利要求1所述的一种临床病例报告表识别系统,其特征在于,所述校验模块还包括语法检查单元和第二核对单元,
所述语法检查单元,接收所述第二暂态电子病例报告表,对所述第二暂态电子病例报告表中的语句进行语法检查,若语法检查结果正确则将所述第二暂态电子病例报告表作为终态电子病例报告表输出;否则将所述电子病例报告表中经过语法检查不正确的地方进行语法错误标记后输出给所述第二核对单元;
所述第二核对单元,接收所述语法检查单元发送的经过语法错误标记的所述第二暂态电子病例报告表,并对所述第二暂态电子病例报告表进行人工核对,将人工核对后的所述第二暂态电子病例报告表作为终态电子病例报告表输出。
3.根据权利要求1所述的一种临床病例报告表识别系统,其特征在于,所述数据库,用于接收关键词语及关键语句并将接到的所述关键词语及关键语句存储。
4.一种临床病例报告表识别方法,其特征在于,包括如下步骤,
S1:接收病例报告表图像,并对所述病例报告表图像进行图像、文字识别处理得到第一电子病例报告表,将所述第一电子病例报告表输出;
S2:接收步骤S1中识别的所述病例报告表图像,并对所述病例报告表图像用不同于步骤S1中的识别算法进行图像、文字识别处理得到第二电子病例报告表,将所述第二电子病例报告表输出;
S3:接收所述第一电子病例报告表和所述第二电子病例报告表,并对所述第一电子病例报告表和所述第二电子病例报告表进行比较校验;若所述第一电子病例报告表和所述第二电子病例报告表内容一致,则将所述第一电子病例报告表或所述第二电子病例报告表作为第一暂态电子病例报告表输出;否则将所述第一电子病例报告表和所述第二电子病例报告表中不一致的内容进行标记后输出;
S4:接收标记后输出的所述第一电子病例报告表和所述第二电子病例报告表,并对所述第一电子病例报告表和所述第二电子病例报告表中标记的不一致的内容进行人工核对更正,将人工核对更正后的所述第一电子病例报告表或所述第二电子病例报告表作为第一暂态电子病例报告表输出;
还包括短语核对的步骤:
S61:接收所述第一暂态电子病例报告表,对所述第一暂态电子病例报告表中的语句进行随机截取得到随机短语,并将所述随机短语在预定的数据库中进行查询,若所述随机短语为所述数据库中存储的关键词语或关键语句的全部或一部分,则将所述第一暂态电子病例报告表作为第二暂态电子病例报告表输出;否则,对所述第一暂态电子病例报告表中截取的所述随机短语进行短语核对错误标记后输出;
S62:接收短语核对错误标记后输出的所述第一暂态电子病例报告表,并对所述第一暂态电子病例报告表中短语核对错误标记的所述随机短语进行人工核对,将人工核对后的所述第一暂态电子病例报告表作为第二暂态电子病例报告表输出。
5.根据权利要求4所述的一种临床病例报告表识别方法,其特征在于,还包括以下语法检查的步骤:
S51:接收所述第二暂态电子病例报告表,并对所述第二暂态电子病例报告表中的语句进行语法检查,若语法检查结果正确则将所述暂态病例报告表作为终态电子病例报告表输出;否则将所述第二暂态电子病例报告表中经过语法检查不正确的地方进行语法错误标记后输出;
S52:接收语法错误标记后输出的所述第二暂态电子病例报告表,并对所述第二暂态电子病例报告表上语法错误标记的内容进行人工核对,将人工核对后的所述第二暂态电子病例报告表作为终态电子病例报告表输出。
CN201310301050.9A 2013-07-17 2013-07-17 一种临床病例报告表识别系统及识别方法 Active CN103425976B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310301050.9A CN103425976B (zh) 2013-07-17 2013-07-17 一种临床病例报告表识别系统及识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310301050.9A CN103425976B (zh) 2013-07-17 2013-07-17 一种临床病例报告表识别系统及识别方法

Publications (2)

Publication Number Publication Date
CN103425976A CN103425976A (zh) 2013-12-04
CN103425976B true CN103425976B (zh) 2016-12-28

Family

ID=49650687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310301050.9A Active CN103425976B (zh) 2013-07-17 2013-07-17 一种临床病例报告表识别系统及识别方法

Country Status (1)

Country Link
CN (1) CN103425976B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145734B (zh) * 2017-05-04 2020-08-28 深圳市联新移动医疗科技有限公司 一种医疗数据的自动获取与录入方法及其系统
CN108960058B (zh) * 2018-05-31 2019-12-03 平安科技(深圳)有限公司 发票校验方法、装置、计算机设备及存储介质
CN109783450B (zh) * 2018-12-14 2024-05-03 中国平安财产保险股份有限公司 一种数据处理方法和装置、以及计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1116342A (zh) * 1994-07-08 1996-02-07 唐武 一种中文自动校对方法及其系统
CN101887519A (zh) * 2010-08-16 2010-11-17 同方知网(北京)技术有限公司 文字识别、编改的方法
CN102968572A (zh) * 2012-12-10 2013-03-13 吴志宏 一种骨科病例信息采集系统及其采集方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1116342A (zh) * 1994-07-08 1996-02-07 唐武 一种中文自动校对方法及其系统
CN101887519A (zh) * 2010-08-16 2010-11-17 同方知网(北京)技术有限公司 文字识别、编改的方法
CN102968572A (zh) * 2012-12-10 2013-03-13 吴志宏 一种骨科病例信息采集系统及其采集方法

Also Published As

Publication number Publication date
CN103425976A (zh) 2013-12-04

Similar Documents

Publication Publication Date Title
CN103425975B (zh) 一种临床病例数据采集系统及采集方法
CN103413261B (zh) 一种通用型临床试验电子数据获取系统和获取方法
CN102054015B (zh) 使用有机物件数据模型来组织社群智能信息的系统及方法
US10049096B2 (en) System and method of template creation for a data extraction tool
CN109598228B (zh) 将纸质文件电子化著录归档的方法和系统
US20240012846A1 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
CN115204110A (zh) 从数字化文档提取可搜索的信息
US11157816B2 (en) Systems and methods for selecting and generating log parsers using neural networks
CN106846961B (zh) 电子试卷的处理方法和装置
US10489645B2 (en) System and method for automatic detection and verification of optical character recognition data
US20190286896A1 (en) System and method for automatic detection and verification of optical character recognition data
CN104239850A (zh) 基于图像综合特征的答题卡填涂信息自动识别方法
EP3588376A1 (en) System and method for enrichment of ocr-extracted data
US20210357633A1 (en) Document processing using hybrid rule-based artificial intelligence (ai) mechanisms
CN113241138B (zh) 医疗事件信息的抽取方法、装置、计算机设备及存储介质
CN103425976B (zh) 一种临床病例报告表识别系统及识别方法
CN108597565A (zh) 一种基于ocr与命名实体提取技术的临床队列数据协同校验方法
Maiti et al. Capturing, eliciting, and prioritizing (CEP) NFRs in agile software engineering
WO2008127443A1 (en) Image data extraction automation process
CN116469505A (zh) 数据处理方法、装置、计算机设备及可读存储介质
CN207037679U (zh) 一种快捷扫描发票信息的系统
CN105913071A (zh) 信息处理装置、信息处理系统、信息处理方法
CN113283231A (zh) 获取签章位的方法、设置系统、签章系统及存储介质
EP3640861A1 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
US10540443B2 (en) Systems and methods for determining references in patent claims

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant