CN112348472A - 实验室检查表的录入方法、装置和计算机可读介质 - Google Patents
实验室检查表的录入方法、装置和计算机可读介质 Download PDFInfo
- Publication number
- CN112348472A CN112348472A CN202011242248.0A CN202011242248A CN112348472A CN 112348472 A CN112348472 A CN 112348472A CN 202011242248 A CN202011242248 A CN 202011242248A CN 112348472 A CN112348472 A CN 112348472A
- Authority
- CN
- China
- Prior art keywords
- block
- text
- character
- laboratory
- blocks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 88
- 238000012360 testing method Methods 0.000 claims abstract description 193
- 101150035983 str1 gene Proteins 0.000 claims description 28
- 238000003556 assay Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 10
- 238000009533 lab test Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 6
- 230000003287 optical effect Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 11
- 101150041570 TOP1 gene Proteins 0.000 description 8
- LEHOTFFKMJEONL-UHFFFAOYSA-N Uric Acid Chemical compound N1C(=O)NC(=O)C2=C1NC(=O)N2 LEHOTFFKMJEONL-UHFFFAOYSA-N 0.000 description 7
- TVWHNULVHGKJHS-UHFFFAOYSA-N Uric acid Natural products N1C(=O)NC(=O)C2NC(=O)NC21 TVWHNULVHGKJHS-UHFFFAOYSA-N 0.000 description 7
- 229940116269 uric acid Drugs 0.000 description 7
- OBHRVMZSZIDDEK-UHFFFAOYSA-N urobilinogen Chemical compound CCC1=C(C)C(=O)NC1CC1=C(C)C(CCC(O)=O)=C(CC2=C(C(C)=C(CC3C(=C(CC)C(=O)N3)C)N2)CCC(O)=O)N1 OBHRVMZSZIDDEK-UHFFFAOYSA-N 0.000 description 6
- 101150107801 Top2a gene Proteins 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 210000002700 urine Anatomy 0.000 description 5
- BPYKTIZUTYGOLE-IFADSCNNSA-N Bilirubin Chemical compound N1C(=O)C(C)=C(C=C)\C1=C\C1=C(C)C(CCC(O)=O)=C(CC2=C(C(C)=C(\C=C/3C(=C(C=C)C(=O)N\3)C)N2)CCC(O)=O)N1 BPYKTIZUTYGOLE-IFADSCNNSA-N 0.000 description 4
- 239000003814 drug Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000010339 medical test Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 239000002253 acid Substances 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000011143 downstream manufacturing Methods 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 238000002562 urinalysis Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 239000002585 base Substances 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 239000010839 body fluid Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000011278 co-treatment Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000009666 routine test Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Multimedia (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种实验室检查表的录入方法,包括:接收待录入的实验室检查表;接收化验单图像;从化验单图像中提取多个文字块;计算每个文字块与其周围的其他文字块的相对位置关系;比较文字块的内容和医学检验术语数据库中的化验项名称,获得候选化验项名称文字块;确定候选化验项名称文字块右侧的第一文字块组,若第一文字块组中包括化验结果文字块,则判断候选化验项名称文字块为正式化验项名称文字块;生成第二文字块组,包括正式化验项名称文字块和化验结果文字块;将正式化验项名称文字块的内容转换为标准化验项名称,并且将化验结果文字块的内容转换为标准化验结果;以及将标准化验项名称和标准化验结果自动录入实验室检查表中。
Description
技术领域
本发明主要涉及临床医学及试验领域,具体地涉及一种实验室检查表的录入方法、装置和计算机可读介质。
背景技术
在临床试验领域,通过对大量的受试者进行数据采集,可以分析特定药物或方法的效果。在大部分临床试验中涉及到对受试者进行医学检验,包括从人体提取体液、细胞等样本进行实验室分析,从而获得相关的实验室检查结果,该结果以化验单的形式给出。典型的化验单包括血常规、尿常规、便常规等。
随着互联网技术的发展,临床试验研究逐渐采用各种临床试验管理系统来管理临床试验的整个过程。其中,需要将受试者在临床研究过程中的各种数据录入到在线管理系统中,例如将纸质化验单的结果录入到电子化的实验室检查表中。该录入过程存在两个主要问题:其一,目前是由临床研究协调者(CRC,Clinical Research Coordinator)在电脑端打开临床试验管理系统中的实验室检查表,再将受试者的化验单中的结果手工录入到实验室检查表中,这种方式效率低下,并且容易出错。其二,不同的医院所采用的测量仪器可能不同,导致其所获得的化验单中所包含的检查项目的名称、单位以及参考范围等不一致,数据记录的格式也不统一,对于后续的数据管理和分析造成了一定的障碍,降低了临床试验的效率。
发明内容
本发明所要解决的技术问题是提供一种标准化的实验室检查表自动录入方法和装置。
本发明为解决上述技术问题而采用的技术方案是一种实验室检查表的录入方法,其特征在于,包括:接收待录入的实验室检查表;接收化验单图像;采用光学文本识别技术识别所述化验单图像,从所述化验单图像中提取多个文字块,所述文字块的信息包括所述文字块的内容和坐标;根据所述多个文字块的坐标计算每个所述文字块与其周围的其他文字块的相对位置关系;比较所述文字块的内容和医学检验术语数据库中的化验项名称,获得候选化验项名称文字块;根据所述文字块的相对位置关系确定所述候选化验项名称文字块右侧的第一文字块组,若所述第一文字块组中包括化验结果文字块,则判断所述候选化验项名称文字块为正式化验项名称文字块;生成第二文字块组,所述第二文字块组包括所述正式化验项名称文字块和所述化验结果文字块;对所述第二文字块组进行标准化处理,将所述正式化验项名称文字块的内容转换为标准化验项名称,并且将所述化验结果文字块的内容转换为标准化验结果;以及将所述标准化验项名称和所述标准化验结果自动录入所述实验室检查表中。
在本发明的一实施例中,根据所述多个文字块的坐标计算每个所述文字块与其周围的其他文字块的相对位置关系的步骤包括:生成文字块集合,所述文字块集合中包括所有文字块的坐标;根据每个文字块的纵坐标排序,得到所有文字块的有序列表;以及在所述有序列表中按照顺序处理每个所述文字块,得到每个文字块的上、下、左、右四个方向的相邻文字块。
在本发明的一实施例中,在所述有序列表中按照顺序处理每个所述文字块的步骤包括:步骤S31:以所述有序列表中的第一个文字块作为第一锚点;步骤S32:在所述有序列表中搜索所述第一锚点右侧的文字块,以所述第一锚点右侧的文字块为第二锚点,并将搜索结果记录在所述第一锚点的数据结构中;步骤S33:在所述文字块集合中搜索与所述第二锚点上下相邻的文字块,并将搜索结果记录在所述第二锚点的数据结构中;步骤S34:在所述有序列表中搜索所述第二锚点右侧的文字块,若有则删除所述第二锚点,并将所述第二锚点右侧的文字块作为新的第二锚点,重复执行步骤S33-S34,直到所述第二锚点右侧没有文字块;步骤S35:在所述有序列表中搜索所述第一锚点左侧的文字块,以所述第一锚点左侧的文字块为第三锚点,并将搜索结果记录在所述第一锚点的数据结构中;步骤S36:在所述文字块集合中搜索与所述第三锚点上下相邻的文字块,并将搜索结果记录在所述第三锚点的数据结构中;步骤S37:在所述有序列表中搜索所述第三锚点左侧的文字块,若有则删除所述第三锚点,并将所述第三锚点左侧的文字块作为新的第三锚点,重复执行步骤S36-S37,直到所述第三锚点左侧没有文字块;步骤S38:在所述有序列表中删除所述第一锚点、第二锚点和第三锚点;以及步骤S39:重复执行步骤S31-38,直到所述有序列表为空。
在本发明的一实施例中,所述文字块的数据结构中包括记录与所述文字块在上、下、左、右四个方向的相邻文字块的字段。
在本发明的一实施例中,比较所述文字块的内容和医学检验术语数据库中的化验项名称的步骤包括:将所述医学检验术语数据库中的化验项名称拆分成长度相等的第一字段;将所述文字块的内容拆分成与所述第一字段的长度相等的第二字段;以及比较所述第一字段和第二字段。
在本发明的一实施例中,采用2-gram方法对所述医学检验术语数据库中的化验项名称和所述文字块进行拆分。
在本发明的一实施例中,还包括:比较所述文字块的内容和特殊文字数据库,判断所述文字块是化验结果文本块,其中,所述特殊文字数据库包括化验结果文本。
在本发明的一实施例中,还包括:比较所述正式化验项名称文字块右侧的所述第一文字块组中的文字块的内容和特殊文字数据库,判断所述文字块是化验项单位文字块或参考范围文字块,其中,所述特殊文字数据库包括化验项单位文字和参考范围文字;若所述第一文字块组中包括所述化验项单位文字块和/或参考范围文字块,则所述第二文字块组中包括所述化验项单位文字块和/或参考范围文字块;以及对所述第二文字块组进行标准化处理的步骤还包括:将所述化验项单位文字块的内容转换为标准单位,和/或将所述参考范围文字块转换为标准参考范围。
在本发明的一实施例中,对所述第二文字块组进行标准化处理的步骤包括:根据下面的公式计算匹配分match_score:match_score=1-(max_len-cross_distance(str1,str2)+Lev_distance(str1,str2))/(max_len*2),其中,str1是所述第二文字块组中的一个文字块的内容,str2是标准检验术语库中的标准术语,max_len是str1和str2中的长度的最大值,cross_distance(str1,str2)指str1的字符集合和str2的字符集合的交集的元素个数,Lev_distance(str1,str2)指str1和str2的莱文斯坦距离。
在本发明的一实施例中,对所述第二文字块组进行标准化处理的步骤还包括:在所述第二文字块组中增加所述正式化验项名称文字块的内容对应的医学编码。
在本发明的一实施例中,还包括:获取所述实验室检查表的类型;根据所述多个文字块的内容获得化验单类型;以及比较所述实验室检查表的类型和所述化验单类型,若所述实验室检查表的类型和所述化验单类型不匹配,则报错。
本发明为解决上述问题还提出一种实验室检查表的录入装置,包括:存储器,用于存储可由处理器执行的指令;处理器,用于执行所述指令以实现如上所述的录入方法。
在本发明的一实施例中,所述录入装置是移动终端。
本发明为解决上述问题还提出一种存储有计算机程序代码的计算机可读介质,所述计算机程序代码在由处理器执行时实现如上所述的录入方法。
本发明从化验单图像中识别出化验项名称文字块、化验结果文字块、化验项单位文字块、参考范围文字块等,根据标准术语数据库将这些文字块转换为符合标准的标准化验项名称、标准化验结果、标准单位和标准参考范围,对来自不同数据来源的不同化验单的内容和格式进行了统一标准化,实现了对纸质化验单内容的标准,并将这些内容自动录入到电子化的实验室检查表中,提高了实验室检查表的录入效率,节省了人力,降低了错误率,使临床试验中所获得的化验单相关数据可以更加方便高效地应用于临床试验研究。
附图说明
为让本发明的上述目的、特征和优点能更明显易懂,以下结合附图对本发明的具体实施方式作详细说明,其中:
图1是本发明一实施例的实验室检查表的录入方法的示例性流程图;
图2是本发明一实施例的实验室检查表的录入方法中的实验室检查表的示意图;
图3是本发明一实施例的实验室检查表的录入方法中的化验单图像的示意图;
图4A-4C是本发明一实施例的实验室检查表的录入方法中计算文字块的相对位置关系的过程示意图;
图5A和5B是本发明一实施例的实验室检查表的录入方法中的搜索相邻文字块的示意图;
图6是本发明一实施例的实验室检查表的录入方法中对化验项名称进行拆分的示意图;
图7是本发明一实施例的实验室检查表的录入方法中的已录入的实验室检查表的示意图。
具体实施方式
为让本发明的上述目的、特征和优点能更明显易懂,以下结合附图对本发明的具体实施方式作详细说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其它不同于在此描述的其它方式来实施,因此本发明不受下面公开的具体实施例的限制。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各种步骤。同时,或将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
图1是本发明一实施例的实验室检查表的录入方法的示例性流程图。参考图1所示,该实施例的实验室检查表的录入方法包括以下步骤:
步骤S110:接收待录入的实验室检查表;
步骤S120:接收化验单图像;
步骤S130:采用光学文本识别技术识别化验单图像,从化验单图像中提取多个文字块的信息,文字块的信息包括文字块的内容和坐标;
步骤S140:根据多个文字块的坐标计算每个文字块与其周围的其他文字块的相对位置关系;
步骤S150:比较文字块的内容和医学检验术语数据库中的化验项名称,获得候选化验项名称文字块;
步骤S160:根据文字块的相对位置关系确定候选化验项名称文字块右侧的第一文字块组,若第一文字块组中包括化验结果文字块,则判断候选化验项名称文字块为正式化验项名称文字块;
步骤S170:生成第二文字块组,第二文字块组包括正式化验项名称文字块和化验结果文字块;
步骤S180:对第二文字块组进行标准化处理,将正式化验项名称文字块的内容转换为标准化验项名称,并且将化验结果文字块的内容转换为标准化验结果;
步骤S190:将标准化验项名称和标准化验结果自动录入实验室检查表中。
以下对上述步骤逐一进行说明。
本实施例的实验室检查表的录入方法在步骤S110中接收待录入的实验室检查表。本发明的实验室检查表指存在于临床试验管理系统中的电子化的实验室检查表。该实验室检查表可以一种表格。待录入的实验室检查表为一张空白的表格。
图2是本发明一实施例的实验室检查表的录入方法中的实验室检查表的示意图。参考图2所示,该实验室检查表200是一种页面,其中示出了该实验室检查表200的标题210,即“尿常规”,表明该实验室检查表200待录入的是尿常规的检验结果。图2还示出了一上传数据文件按钮220,用户可以通过点击该上传数据文件按钮220将具有尿常规检验结果的图片上传到系统中。
如图2所示,该待录入的实验室检查表200还没有录入尿常规的检验结果。
本实施例的实验室检查表的录入方法在步骤S120中接收化验单图像。本发明对该化验单图像的格式、参数等不做限制。化验单图像可以是照片或任意格式的图片,包括但不限于bmp,jpg,png,tif,gif,pcx,tga,exif,fpx,svg,psd,cdr,pcd,dxf,ufo,eps,ai,raw,WMF,webp等。化验单图像的参数可以包括分辨率、大小、色度、亮度等。本发明对于化验单的类型不做限制,该化验单可以是来自检验医学的任意化验单。该化验单中包含化验项名称、化验结果、化验项单位、化验项的正常值参考范围等中的一种及其任意组合。
本发明的实验室检查表的录入方法可以用于临床试验的过程中,从其上游的流程接收化验单图像,并将经过本发明的识别方法进行电子化和标准化处理的化验单内容传递到下游的流程中。本发明对于上游流程和下游流程的具体内容不做限制。
本发明的实验室检查表的录入方法可以采用移动终端来执行。用户在电脑端设计实验室检查表模板,并将设计好的实验室检查表模板发送至移动终端。移动终端可以接收待录入的实验室检查表,并对化验单进行拍照,获得化验单图像,并在移动终端继续执行后续的步骤。
在一些实施例中,步骤S120所接收的化验单图像来自于对纸质化验单拍摄的照片。在一些实施例中,步骤S120所接收的化验单图像来自于对医院LIS(LaboratoryInformation System)系统的化验单界面拍照获得的照片。
本实施例的实验室检查表的录入方法在步骤S130中采用光学文本识别技术(Optical Character Recognition,OCR)识别化验单图像。本发明采用OCR技术从步骤120中所接收到的化验单图像中提取到的基本单元是文字块。每个文字块的信息包括该文字块的内容和坐标。
需要说明,文字块的内容可以包括文本、数字、符号或特殊字符。文本包括中文、英文等计算机系统可以识别的语言种类。在化验单中,化验项名称中通常包括文本;化验结果通常是数字,也可能包括特殊字符,例如“阴性”、“阳性”等;化验项单位通常是文本和/或符号,例如“%L”;正常值参考范围通常包括数字、文本和/或特殊字符。数字可以与文本区别,文本的具体内容则需要进行识别来判断。
图3是本发明一实施例的验室检查表的录入方法中的化验单图像的示意图。图3示出了某化验单图像的一部分,而不是全部。可以理解,本发明的识别方法可以用于识别化验单的部分或全部。参考图3所示,该化验单图像300中包括4行*3列共12个文字块,图中用实线方框表示所识别到的文字块的边框,该实线方框并不是化验单图像300中的图像。
本发明根据OCR方法识别到的文字块的信息中包括该文字块中的具体显示内容,也包括该文字块在该化验单图像300中的坐标位置。参考图3所示,以该图像的左上角为原点O建立直角坐标系,x轴为向右延伸的横轴,y轴为向下延伸的纵轴。以文字块311为例,该文字块311在该化验单图像300中处于最左上的位置。该文字块311的内容是“项目名称”,其坐标中至少包括包围该文字块311的长方形的左上角和右下角两个点的坐标。文字块311的坐标可以是包围该文字块311的长方形上的每个点的坐标。例如,可以用该长方形的四个顶点坐标代表该文字块311的坐标。在对文字块进行处理时,可以根据实际的计算需求选取需要的坐标。
从化验单中所提取到的文字块可以包括多种类型,例如标题行、化验项名称、化验结果、化验项单位、正常值参考范围等。文字块311、312、313属于化验单中的标题行。根据文字块的内容可以确认其对应的类型。
化验单图像300中所显示的文字内容不同、大小也不同,相应地所获得的文字块的大小和内容也不同,文字块的大小可以从根据其坐标来反映。例如该文字块的顶边和底边之间的距离为该文字块的高度,左边到右边的距离为该文字块的宽度。
本实施例的验室检查表的录入方法在步骤S140根据多个文字块的坐标计算每个文字块与其周围的其他文字块的相对位置关系。根据OCR方法获得了多个文字块的信息,其中包括每个文字块的坐标位置。但是该信息并不能直接表示各个文字块直接的位置关系。本步骤的目的是将所获得的多个文字块采用图数据结构进行重新组织,使得后续可以更加快速的找到与某个文字块相邻的其他文字块,从而确定该某个文字块在所有文字块中的位置。
图4A-4C是本发明一实施例的实验室检查表的录入方法中计算文字块的相对位置关系的过程示意图。参考图4A-4C所示,在该实施例中,根据多个文字块的坐标计算每个文字块与其周围的其他文字块的相对位置关系的步骤包括:
步骤S141:生成文字块集合,文字块集合中包括所有文字块的坐标。
本步骤是将经过OCR方法获得的多个文字块的信息中的坐标的集合包含在一个文字块集合中,以备后续步骤使用。
参考图4A所示,其中在虚线框的范围内包括多个矩形框401,每个矩形框401表示采用OCR方法从化验单图像所获得的一个文字块。显然,图4A所示的多个矩形框401的排列是杂乱无章的,并不能直接从OCR方法的结果得到每个文字块之间的相对位置关系。
步骤S142:根据每个文字块的纵坐标排序,得到所有文字块的有序列表。
图5A和5B是本发明一实施例的实验室检查表的录入方法中的搜索相邻文字块的示意图。参考图5A所示,其中示出了文字块511、512。该文字块511的编号为1,文字块512的编号为2。在图5A所示的实施例中,用文字块的边作为该文字块的坐标。文字块511和文字块512的顶边分别记为Top1、Top2,底边分别记为Bottom1、Bottom2,左边分别记位Left1、Left2,右边分别记位Right1、Right2。文字块处于图5A所示的直角坐标系中,x轴为横轴,y轴为纵轴。
在步骤S142中,根据每个文字块的纵坐标y进行排序,可以使纵坐标y相近的文字块相互靠近。在一些实施例中,按照纵坐标y的升序来排序,在该有序列表中的第一个文字块是化验单图像中处于最左上的文字块。在其他的实施例中,可以按照纵坐标y的降序来排序。
图4B示出了一种经过排序之后的示例。有序列表中可以按照顺序依次排列文字块组410、420、430。
步骤S143:在有序列表中按照顺序处理每个文字块,得到每个文字块的上、下、左、右四个方向的相邻文字块。
在一些实施例中,在有序列表中按照顺序处理每个文字块的步骤包括:
步骤S31:以有序列表中的第一个文字块作为第一锚点;
参考图5A所示,以文字块511为第一锚点。
步骤S32:在有序列表中搜索第一锚点右侧的文字块,以该第一锚点右侧的文字块为第二锚点,并将搜索结果记录在第一锚点的数据结构中。
参考图5A所示,编号为2的文字块512用于代表文字块集合中除第一锚点511之外的其他文字块。文字块512的纵坐标范围与第一锚点511的纵坐标范围重合的条件公式为:
Len(Top1,Bottom1)+Len(Top2,Bottom2)>Max(Len(Top1,Bottom2),Len(Top2,Bottom1)) (1)
该条件公式中,Len(Top1,Bottom1)表示顶边Top1到底边Bottom1之间的距离,依此类推;Max(Len(Top1,Bottom2),Len(Top2,Bottom1))指Len(Top1,Bottom2)和Len(Top2,Bottom1)之中的较大者。
若满足上述条件公式(1),则表示文字块2和文字块1在同一行。
在经过条件公式(1)的判断之后,再通过条件公式(2)进行判断:
Left2.x>Right1.x (2)
条件公式(2)表示文字块2的左边的x坐标大于文字块1的右边的x坐标。
若一个文字块同时满足条件公式(1)和(2),则表示该文字块是处于锚点右侧相邻的文字块,将该文字块记录在锚点的数据结构中。
对于一个文字块2来说,当条件公知(1)和(2)都满足时,将该文字块2加入待选集合{Candidate}。
对于包括多个文字块2的情况下,取距离文字块1距离最近的一个文字块2作为第一锚点511右侧的文字块。可以根据下面的公式(3):
Min(Candidate1.Left.x,Candidate2.Left.x,Candidate3.Left.x,...) (3)
即求出左边的x坐标最小的文字块,该文字块是第一锚点511右侧的相邻文字块。
类似地,可以搜索第一锚点左侧的相邻文字块。
步骤S33:在文字块集合中搜索与第二锚点上下相邻的文字块,并将搜索结果记录在第二锚点的数据结构中;本步骤在文字块集合中执行,而不是前面所述的有序列表中。
参考图5B所示,其中示出了第二锚点521和位于其上侧的一个文字块522。根据图5B说明如何寻找第二锚点521上方与其相邻的文字块。文字块522用于代表所有位于第二锚点上方的文字块。
首先求所有跟第二锚点521的文字块的宽度坐标范围上有重合的文字块,使第二锚点521的编号为1,文字块522的编号为2。则重合条件为条件公式(4):
Len(Left1,Right1)+Len(Left2,Right2)>Max(Len(Left1,Right2),Len(Left2,Right1)) (4)
若满足上述条件公式(4),则表示文字块2和文字块1在同一列。
在经过条件公式(4)的判断之后,再通过条件公式(5)进行判断:
Top1.y>Bottom2.y (5)
条件公式(5)表示文字块1的顶边的y坐标大于文字块2的底边的y坐标,表示文字块1在文字块2的下方。
若一个文字块同时满足条件公式(4)和(5),则表示该文字块是处于第二锚点上方相邻的文字块,将该文字块记录在第二锚点的数据结构中。
对于一个文字块2来说,当条件公知(4)和(5)都满足时,将该文字块2加入待选集合{Candidate}。
对于包括多个文字块2的情况下,取距离文字块1距离最近的一个文字块2作为第二锚点521上方的文字块。可以根据下面的公式(6):Max(Candidate1.Bottom.y,Candidate2.Bottom.y,Candidate3.Bottom.y,...)(6)
即求出底边的y坐标最大的文字块,该文字块是第二锚点521上方的相邻文字块。
类似地,可以搜索第二锚点下方的相邻文字块。
步骤S34:在有序列表中搜索第二锚点右侧的文字块,若有则删除第二锚点,并将第二锚点右侧的文字块作为新的第二锚点,重复执行步骤S33-S34,直到第二锚点右侧没有文字块。
根据本步骤可以找到所有位于第一锚点右侧的文字块,并将搜索结果记录在对应的文字块的数据结构中。
步骤S35:在有序列表中搜索第一锚点左侧的文字块,以第一锚点左侧的文字块为第三锚点,并将搜索结果记录在第一锚点的数据结构中;
本步骤可以参考步骤S32,将其中和右侧相关的部分适应性的修改为适于搜索第一锚点左侧的文字块。
步骤S36:在文字块集合中搜索与第三锚点上下相邻的文字块,并将搜索结果记录在第三锚点的数据结构中;
本步骤与步骤S33类似,可参考相关说明。
步骤S37:在有序列表中搜索第三锚点左侧的文字块,若有则删除第三锚点,并将第三锚点左侧的文字块作为新的第三锚点,重复执行步骤S36-S37,直到第三锚点左侧没有文字块;
步骤S38:在有序列表中删除第一锚点、第二锚点和第三锚点;以及
步骤S39:重复执行步骤S31-38,直到有序列表为空。
经过上述步骤,有序列表中的文字块被逐个按顺序删除,直到最后为空,最终可以获得文字块集合中的每一个文字块的相对位置。
图4C示出了根据上述方法所得到的结果,其中用箭头表示每一个文字块都确定与其相邻的其他文字块。
在一些实施例中,每个文字块的数据结构中包括记录与该文字块在上、下、左、右四个方向的相邻文字块的字段。
可以理解,并不是每个文字块都完全包括四个相邻文字块。例如图4C中的文字块411,其仅包括一个右侧相邻文字块412和一个下侧相邻文字块431。
可以理解,如果该文字块在某个方向上没有相邻的文字块,例如最左上的文字块只有右侧和下侧的相邻文字块,则其左侧和上侧的相邻文字块记录为空。
本发明的实验室检查表的录入方法在步骤S150比较文字块的内容和医学检验术语数据库中的化验项名称,获得候选化验项名称文字块。其目的在于判断文字块的内容是否是化验项名称。
在一些实施例中,步骤S150进一步地包括以下步骤:
步骤S151:将医学检验术语数据库中的化验项名称拆分成长度相等的第一字段;
步骤S152:将文字块的内容拆分成与第一字段的长度相等的第二字段。
步骤S153:比较所述第一字段和第二字段。
本发明对于第一字段和第二字段的长度不做限制,可以是2或3个字符等。
在一些实施例中,采用2-gram方法执行步骤S151和S152中的拆分步骤。
图6是本发明一实施例的实验室检查表的录入方法中对化验项名称进行拆分的示意图。参考图6所示,医学检验术语数据库610中包括了很多化验项名称,例如“尿酸碱度”、“尿胆原”等。本发明所接收到的化验单图像中所包括的化验项名称有可能并不符合医学检验术语的标准,如果将整个标准化验项名称与化验单图像中的文字内容进行比较,有可能出现漏误。由于化验项名称的长度不统一,有长有短,如果不统一长度,在将标准化验项名称与文字块的内容进行比较时耗费的时间也较长。
参考图6所示,将医学检验术语数据库610中的化验项名称拆分成长度相等的化验项名称数据,在该实施例中,采用2-gram方法对医学检验术语数据库610中的化验项名称进行拆分,获得了长度为2的多个化验项名称数据。如图6中的化验项名称数据集合620中包括从“尿酸碱度”获得的“尿酸”、“酸碱”、“碱度”,从“尿胆原”获得的“尿胆”、“胆原”等化验项名称数据。
同理,对所接收到的化验单图像中的文字块的内容进行拆分。举例说明:以图3中的文字块321为例,该文字块321的内容是“尿酸碱度”,采用2-gram方法对文字块321的内容进行拆分,得到拆分后的第二字段的集合C:
C={尿酸,酸碱,碱度}
参考图6所示,经过拆分的化验项名称数据集合620为第一字段的集合DC。
统计集合C中的第二字段和集合DC中的第一字段的匹配个数,记为match(C,DC)。
计算第一字段和第二字段的置信度confidence:
confidence=match(C,DC)/count(C)
其中,count(C)指集合C中包含第二字段的数目。
将置信度confidence和经验阈值threshold做比较,若confidence>threshold判定为疑似化验项,若confidence<threshold判定为非疑似化验项。
若通过上述判断之后,文字块中的内容为疑似化验项,则将该文字块作为候选化验项名称文字块。上述的匹配方法属于一种模糊匹配方法。
在从化验单图像中所提取的文字块中,除了包括化验项名称的候选化验项名称文字块之外,还包括以数字形式呈现的化验结果数字块,以文本形式呈现的化验结果文本块、表示化验项单位的化验项单位文字块和表示化验项的正常值参考范围的参考范围文字块。其中,以文本形式呈现的化验结果文本块,例如:“阴性”、“阳性”等的文本内容。化验结果数字块和化验结果文本块都属于化验结果文字块。
根据本发明的录入方法,至少需要从化验单图像中获得化验项名称和化验结果,作为录入到实验室检查表中的基本内容。
化验项的单位,例如“mol/L”、“g/L”等,是有限个数的一些字符。参考范围应该是表示为一定的范围,而不是一个值,因此参考范围文字不是一个数字,而应包括一些特殊字符,例如“-”。
在一些情况下,参考范围和单位同时包含在一个文字块中。如图3所示,文字块333的内容是“3.3-16umol/L”,其中的“3.3-16”是参考范围,“umol/L”是单位。本发明的录入方法对该文字块进行处理,可以将参考范围和结果分开。
本实施例的实验室检查表的录入方法在步骤S160根据文字块的相对位置关系确定候选化验项名称文字块右侧的第一文字块组,若第一文字块组中包括化验结果文字块,则判断候选化验项名称文字块为正式化验项名称文字块。
在步骤S160中利用在步骤S140所获得的每个文字块的相对位置关系,可以找到候选化验项名称文字块右侧的第一文字块组,该第一文字块组指位于候选化验项名称文字块右侧的所有文字块。参考图3所示,在文字块321右侧的第一文字块组包括文字块322、223。其中,文字块322是化验结果数字块,其中仅包括数字内容。
在本发明的实施例中,若候选化验项名称文字块右侧包括一个化验结果文字块,则可以确认该候选化验项名称文字块是化验项名称,可以成为正式化验项名称文字块。参考图3所示,由于文字块321右侧的文字块322是化验结果数字块,因此文字块321在步骤S160中成为正式化验项名称文字块。
在一些实施例中,本发明的实验室检查表的录入方法还包括比较文字块的内容和特殊文字数据库。
在一些实施例中,特殊文字数据库中包括作为化验结果文本块的内容的特殊文字,如上所述的“阴性”、“阳性”等。因此,比较文字块的内容和特殊文字数据库,判断所述文字块是化验结果文本块。第一文字块组中包括化验结果文本块。如图3所示,文字块342的内容为“NEGTIVE”,即为一种化验结果文本块。
在一些实施例中,特殊文字数据库还可以包括作为化验项单位文字块和参考范围文字块的内容的特殊文字,例如上述的各种单位,以及参考范围中的“-”符号。化验项单位和参考范围通常位于化验项目名称的右侧。因此,该实施例的录入方法还包括:比较正式化验项名称文字块右侧的第一文字块组中的文字块的内容和特殊文字数据库,判断文字块是化验项单位文字块或参考范围文字块。
根据上述的实施例,可以判断每个文字块是否是化验结果文本块、化验项单位文字块和参考范围文字块中的一种。
参考图3所示,其中包括三个化验项名称文字块321、331、341,两个化验结果数字块322、332,一个化验结果文本块342,三个参考范围文字块323、333、343。对于文字块321来说,其第一文字块组包括化验结果数字块322和参考范围文字块323。
在一些实施例中,比较文字块的内容和特殊文字数据库的方法是绝对匹配方法,即当文字块的内容等于特殊文字数据库中的某一特殊文字时,则判定该文字块的内容是该特殊文字。
本实施例的实验室检查表的录入方法在步骤S170生成第二文字块组,该第二文字块组包括正式化验项名称文字块和化验结果文字块。参考图3所示,对于文字块321来说,第二文字块组包括正式化验项名称文字块321和化验结果数字块322。
在一些实施例中,步骤S170中的生成第二文字块组还包括:第二文字块组还包括化验结果文本块。
在一些实施例中,步骤S170中的生成第二文字块组还包括:第二文字块组还包括化验单位文字块和/或参考范围文字块。
可以理解,对于一个化验项来说,第一文字块组和第二文字块组相关,第二文字块组比第一文件块组多一个正式化验项名称文字块。
本实施例的实验室检查表的录入方法在步骤S180对第二文字块组进行标准化处理。对于一项临床研究来说,可能从不同的医院采集很多数据。由于不同的医院所采用的仪器不同、信息系统的设置不同等,造成化验单上的化验项名称、化验单位、参考值范围等不统一。本发明针对该技术问题,对从化验单图像中所获得的第二文字块组进行标准化处理。具体地,本发明建立了一个标准检验术语库,将第二文字块组中的所有文字块与该标准检验术语库中的每个术语进行匹配度计算,得到匹配分。
在一实施例中,采用如下地匹配方法:
步骤S181:算法入口函数记为Lev_distance(str1,str2),该算法入口函数根据莱文斯坦距离(Levenshtein)算法计算str1和str2之间的距离。其中,str1表示第二文字块组中的一个文字块,str2是标准检验术语库中的术语。
步骤S182:定义字符串字符交集函数,记为交集函数cross_distance(str1,str2),该交集函数返回构成str1的字符集合和构成str2的字符集合的交集的元素个数,例如
cross_distance(‘abc’,‘bcd’)
len({‘a’,‘b’,‘c’}∩{‘b’,‘c’,‘d’})=len({‘b’,‘c’})=2
步骤S183:取str1和str2的长度的最大值,max_len=max(len(str1),len(str2));
步骤S184:计算str1和str2的匹配分match_score:
match_score=1-(max_len-cross_distance(str1,str2)+Lev_distance(str1,str2))/(max_len*2)
将标准检验术语库中的术语都作为str2和str1进行比较,取匹配分match_score最大的str2为与str1匹配的标准术语。如果匹配分为1,表示完全匹配,则该匹配结果为确定结果;如果匹配分小于1,表示部分匹配,则该匹配结果为非确定结果。无论匹配结果确定与否,都可以传递给下游流程,由下游流程根据自身的设置来使用。
在上述的匹配方法中,str1指文字块中的整个字符或字符串。
通过步骤S180,可以将本发明所识别到的第二文字块组中的化验项名称文字块的内容转换为标准化验项名称,将化验结果文字块的内容转换为标准化验结果。
对于化验结果数字块来说,来自不同来源的化验单上的化验结果的格式可能是不同的,例如所保留的小数点后面的位数。标准化验结果可以统一该数字的格式,以便于后续的自动化处理。
在一些实施例中,步骤S180还将化验项单位文字块的内容转换为标准单位,和/或将参考范围文字块的内容转换为标准参考范围。
在一些实施例中,本发明对第二文字块组进行标准化处理的步骤还包括:在第二文字块组中增加化验项文字块的内容对应的医学编码。
医学编码是指将原词转化成标准术语的方法。原词是指临床试验或上市后报告中研究者/患者的原始报告词汇。标准术语是指编码字典中的术语。在临床试验和研究中,需要对不良事件、合并治疗、用药原因、病史、死亡原因等进行医学编码,以便将这些信息用于医学核查、统计分析、病例检索等。每种编码字典都有其独有的结构、层级体系。
在本发明的实施例中在标准化的文字块中增加该化验项文字块的内容对应的医学编码,可以便于该实验室检查表用于涉及到医学编码的下游过程。
本发明在步骤S190将标准化验项名称和标准化验结果自动录入实验室检查表中。
在一些实施例中,步骤S190还包括将标准单位、标准参考范围自动录入实验室检查表中。
图7是本发明一实施例的实验室检查表的录入方法中的已录入的实验室检查表的示意图。参考图7所示,与图2的空白实验室检查表200相比,图7所示的已录入的实验室检查表700中已经包括从图3所示的化验单图像300中所获得的内容,如尿酸碱度、尿胆原和胆红素所对应的化验结果、单位、参考范围的下限和上限等。其中,单位是从图3中的参考范围文字块中所提取出来的,参考范围的下限和上限也是从参考范围文字块中提取出来的。例如,以“-”作为参考范围的一个特殊字符的话,位于“-”前面的数字为下限,后面的数字为上限。
图7所示是已录入的实验室检查表700的部分或全部,不用于限制本发明所要保护的范围。
图7所示也不用于限制该实验室检查表700所要显示的内容和格式。例如,其中也可以如图3所示的参考范围的格式来显示该化验项的参考范围。
在一些实施例中,在步骤S110所接收的待录入的实验室检查表预先设定了其中所要填入的项目内容。如图7所示,该实验室检查表700中的预先设定了所要录入的项目内容,并且这些项目内容的排列具有一定的顺序,相当于项目内容的位置是固定的。例如,胆红素在行711,尿胆原在行712,尿酸碱度在行713。因此,在步骤S190中,将按照实验室检查表700中所设定的顺序和位置录入标准化验项名称、标准化验结果标准单位、标准参考范围等内容。
在一些实施例中,本发明的实验室检查表的录入方法还包括:
步骤S21:获取实验室检查表的类型。
实验室检查表的类型可以包括血常规、尿常规、便常规等需要进行实验室检查的不同项目类型。参考图2所示,根据该实验室检查表200的标题210即可判断该实验室检查表200的类型为尿常规。
步骤S22:根据多个文字块的内容获得化验单类型。
这里的多个文字块指从化验单图像中所获得的文字块。化验单图像也可以标题,从标题或者化验项名称中可以判断该化验单的类型。
步骤S23:比较实验室检查表的类型和化验单类型,若实验室检查表的类型和化验单类型不匹配,则报错。
本发明对步骤S23中的报错方式不做限制,可以采用弹窗、声音、图像等任意方式给出报错,提示用户所上传的数据文件与实验室检查表的类型不符,重新上传正确的文件。
上述步骤S110-S190都可以在移动终端执行,在步骤S190将标准化的结果录入到实验室检查表中后,可以在电脑端的临床试验管理系统中同步录入标准化之后的结果,使移动终端和电脑端的实验室检查表同步。
根据本发明的实验室检查表的录入方法,可以实现纸质化验单内容自动录入到电子化的实验室检查表中,将化验单图像中的内容转换为标准格式,统一了来自不同数据来源的不同化验单的内容和格式,节省了CRC的时间和人力成本,使临床试验中所获得的化验单相关数据可以更加方便高效地应用于临床试验研究。
本发明还包括一种实验室检查表的录入装置,包括存储器和处理器。该存储器用于存储可由处理器执行的指令;该处理器用于执行该指令以实现如前文所述的实验室检查表的录入方法。
在一些实施例中,该录入装置是一种移动终端。
本发明还包括一种存储有计算机程序代码的计算机可读介质,该计算机程序代码在由处理器执行时实现如前文所述的实验室检查表的录入方法。
实验室检查表的录入方法实施为计算机程序时,也可以存储在计算机可读存储介质中作为制品。例如,计算机可读存储介质可以包括但不限于磁存储设备(例如,硬盘、软盘、磁条)、光盘(例如,压缩盘(CD)、数字多功能盘(DVD))、智能卡和闪存设备(例如,电可擦除可编程只读存储器(EPROM)、卡、棒、键驱动)。此外,本文描述的各种存储介质能代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可以包括但不限于能存储、包含和/或承载代码和/或指令和/或数据的无线信道和各种其它介质(和/或存储介质)。
应该理解,上文所描述的实施例仅是示意。本文描述的实施例可在硬件、软件、固件、中间件、微码或者其任意组合中实现。对于硬件实现,处理单元可以在一个或者多个特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器和/或设计为执行本文所述功能的其它电子单元或者其结合内实现。
虽然本发明已参照当前的具体实施例来描述,但是本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说明本发明,在没有脱离本发明精神的情况下还可作出各种等效的变化或替换,因此,只要在本发明的实质精神范围内对上述实施例的变化、变型都将落在本申请的权利要求书的范围内。
Claims (14)
1.一种实验室检查表的录入方法,其特征在于,包括:
接收待录入的实验室检查表;
接收化验单图像;
采用光学文本识别技术识别所述化验单图像,从所述化验单图像中提取多个文字块,所述文字块的信息包括所述文字块的内容和坐标;
根据所述多个文字块的坐标计算每个所述文字块与其周围的其他文字块的相对位置关系;
比较所述文字块的内容和医学检验术语数据库中的化验项名称,获得候选化验项名称文字块;
根据所述文字块的相对位置关系确定所述候选化验项名称文字块右侧的第一文字块组,若所述第一文字块组中包括化验结果文字块,则判断所述候选化验项名称文字块为正式化验项名称文字块;
生成第二文字块组,所述第二文字块组包括所述正式化验项名称文字块和所述化验结果文字块;
对所述第二文字块组进行标准化处理,将所述正式化验项名称文字块的内容转换为标准化验项名称,并且将所述化验结果文字块的内容转换为标准化验结果;以及
将所述标准化验项名称和所述标准化验结果自动录入所述实验室检查表中。
2.如权利要求1所述的录入方法,其特征在于,根据所述多个文字块的坐标计算每个所述文字块与其周围的其他文字块的相对位置关系的步骤包括:
生成文字块集合,所述文字块集合中包括所有文字块的坐标;
根据每个文字块的纵坐标排序,得到所有文字块的有序列表;以及
在所述有序列表中按照顺序处理每个所述文字块,得到每个文字块的上、下、左、右四个方向的相邻文字块。
3.如权利要求2所述的录入方法,其特征在于,在所述有序列表中按照顺序处理每个所述文字块的步骤包括:
步骤S31:以所述有序列表中的第一个文字块作为第一锚点;
步骤S32:在所述有序列表中搜索所述第一锚点右侧的文字块,以所述第一锚点右侧的文字块为第二锚点,并将搜索结果记录在所述第一锚点的数据结构中;
步骤S33:在所述文字块集合中搜索与所述第二锚点上下相邻的文字块,并将搜索结果记录在所述第二锚点的数据结构中;
步骤S34:在所述有序列表中搜索所述第二锚点右侧的文字块,若有则删除所述第二锚点,并将所述第二锚点右侧的文字块作为新的第二锚点,重复执行步骤S33-S34,直到所述第二锚点右侧没有文字块;
步骤S35:在所述有序列表中搜索所述第一锚点左侧的文字块,以所述第一锚点左侧的文字块为第三锚点,并将搜索结果记录在所述第一锚点的数据结构中;
步骤S36:在所述文字块集合中搜索与所述第三锚点上下相邻的文字块,并将搜索结果记录在所述第三锚点的数据结构中;
步骤S37:在所述有序列表中搜索所述第三锚点左侧的文字块,若有则删除所述第三锚点,并将所述第三锚点左侧的文字块作为新的第三锚点,重复执行步骤S36-S37,直到所述第三锚点左侧没有文字块;
步骤S38:在所述有序列表中删除所述第一锚点、第二锚点和第三锚点;以及
步骤S39:重复执行步骤S31-38,直到所述有序列表为空。
4.如权利要求3所述的录入方法,其特征在于,所述文字块的数据结构中包括记录与所述文字块在上、下、左、右四个方向的相邻文字块的字段。
5.如权利要求1所述的录入方法,其特征在于,比较所述文字块的内容和医学检验术语数据库中的化验项名称的步骤包括:
将所述医学检验术语数据库中的化验项名称拆分成长度相等的第一字段;
将所述文字块的内容拆分成与所述第一字段的长度相等的第二字段;以及
比较所述第一字段和第二字段。
6.如权利要求5所述的录入方法,其特征在于,采用2-gram方法对所述医学检验术语数据库中的化验项名称和所述文字块进行拆分。
7.如权利要求1所述的录入方法,其特征在于,还包括:比较所述文字块的内容和特殊文字数据库,判断所述文字块是化验结果文本块,其中,所述特殊文字数据库包括化验结果文本。
8.如权利要求1所述的录入方法,其特征在于,还包括:比较所述正式化验项名称文字块右侧的所述第一文字块组中的文字块的内容和特殊文字数据库,判断所述文字块是化验项单位文字块或参考范围文字块,其中,所述特殊文字数据库包括化验项单位文字和参考范围文字;
若所述第一文字块组中包括所述化验项单位文字块和/或参考范围文字块,则所述第二文字块组中包括所述化验项单位文字块和/或参考范围文字块;以及
对所述第二文字块组进行标准化处理的步骤还包括:将所述化验项单位文字块的内容转换为标准单位,和/或将所述参考范围文字块转换为标准参考范围。
9.如权利要求1所述的录入方法,其特征在于,对所述第二文字块组进行标准化处理的步骤包括:
根据下面的公式计算匹配分match_score:
match_score=1-(max_len-cross_distance(str1,str2)+Lev_distance(str1,str2))/(max_len*2),
其中,str1是所述第二文字块组中的一个文字块的内容,str2是标准检验术语库中的标准术语,max_len是str1和str2中的长度的最大值,cross_distance(str1,str2)指str1的字符集合和str2的字符集合的交集的元素个数,Lev_distance(str1,str2)指str1和str2的莱文斯坦距离。
10.如权利要求1所述的录入方法,其特征在于,对所述第二文字块组进行标准化处理的步骤还包括:在所述第二文字块组中增加所述正式化验项名称文字块的内容对应的医学编码。
11.如权利要求1所述的录入方法,其特征在于,还包括:
获取所述实验室检查表的类型;
根据所述多个文字块的内容获得化验单类型;以及
比较所述实验室检查表的类型和所述化验单类型,若所述实验室检查表的类型和所述化验单类型不匹配,则报错。
12.一种实验室检查表的录入装置,包括:
存储器,用于存储可由处理器执行的指令;
处理器,用于执行所述指令以实现如1-11任一项所述的录入方法。
13.如权利要求12所述的录入装置,其特征在于,所述录入装置是移动终端。
14.一种存储有计算机程序代码的计算机可读介质,所述计算机程序代码在由处理器执行时实现如1-11任一项所述的录入方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011242248.0A CN112348472B (zh) | 2020-11-09 | 2020-11-09 | 实验室检查表的录入方法、装置和计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011242248.0A CN112348472B (zh) | 2020-11-09 | 2020-11-09 | 实验室检查表的录入方法、装置和计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112348472A true CN112348472A (zh) | 2021-02-09 |
CN112348472B CN112348472B (zh) | 2023-10-31 |
Family
ID=74362243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011242248.0A Active CN112348472B (zh) | 2020-11-09 | 2020-11-09 | 实验室检查表的录入方法、装置和计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112348472B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140055824A1 (en) * | 2011-03-25 | 2014-02-27 | Hologram Industries | Method and system for authenticating a secure document |
CN108197216A (zh) * | 2017-12-28 | 2018-06-22 | 深圳市巨鼎医疗设备有限公司 | 一种信息处理的方法 |
KR101883694B1 (ko) * | 2017-04-13 | 2018-08-29 | 신민호 | 수출입통관 및 정산 자동화 시스템 |
KR101959831B1 (ko) * | 2017-09-26 | 2019-03-19 | 아주대학교산학협력단 | 이미지 인식 처리 장치 및 방법 |
CN109815958A (zh) * | 2019-02-01 | 2019-05-28 | 杭州睿琪软件有限公司 | 一种化验单识别方法、装置、电子设备和存储介质 |
CN110378347A (zh) * | 2019-07-04 | 2019-10-25 | 北京爱医生智慧医疗科技有限公司 | 一种医疗检验单的关键信息提取方法及装置 |
US20190384972A1 (en) * | 2018-06-18 | 2019-12-19 | Sap Se | Systems and methods for extracting data from an image |
CN111797729A (zh) * | 2020-06-19 | 2020-10-20 | 翰博瑞强(上海)医药科技有限公司 | 一种化验报告单自动识别方法 |
-
2020
- 2020-11-09 CN CN202011242248.0A patent/CN112348472B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140055824A1 (en) * | 2011-03-25 | 2014-02-27 | Hologram Industries | Method and system for authenticating a secure document |
KR101883694B1 (ko) * | 2017-04-13 | 2018-08-29 | 신민호 | 수출입통관 및 정산 자동화 시스템 |
KR101959831B1 (ko) * | 2017-09-26 | 2019-03-19 | 아주대학교산학협력단 | 이미지 인식 처리 장치 및 방법 |
CN108197216A (zh) * | 2017-12-28 | 2018-06-22 | 深圳市巨鼎医疗设备有限公司 | 一种信息处理的方法 |
US20190384972A1 (en) * | 2018-06-18 | 2019-12-19 | Sap Se | Systems and methods for extracting data from an image |
CN109815958A (zh) * | 2019-02-01 | 2019-05-28 | 杭州睿琪软件有限公司 | 一种化验单识别方法、装置、电子设备和存储介质 |
CN110378347A (zh) * | 2019-07-04 | 2019-10-25 | 北京爱医生智慧医疗科技有限公司 | 一种医疗检验单的关键信息提取方法及装置 |
CN111797729A (zh) * | 2020-06-19 | 2020-10-20 | 翰博瑞强(上海)医药科技有限公司 | 一种化验报告单自动识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112348472B (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108831559B (zh) | 一种中文电子病历文本分析方法与系统 | |
CN111931750B (zh) | 化验单的识别方法和识别装置 | |
US8285750B2 (en) | Computer-based system and method for generating, classifying, searching, and analyzing standardized text templates and deviations from standardized text templates | |
JP5785617B2 (ja) | データ・セットを取り扱うための方法及び構成、データ処理プログラム及びコンピュータ・プログラム製品 | |
CN114996388A (zh) | 一种诊断名称标准化的智能匹配方法及系统 | |
CN112434691A (zh) | 基于智能解析识别的hs编码匹配、展示方法、系统及存储介质 | |
US11341319B2 (en) | Visual data mapping | |
CN110826494A (zh) | 标注数据质量评价方法、装置、计算机设备及存储介质 | |
CN115312183A (zh) | 医学检验报告智能解读方法及系统 | |
CN111814432A (zh) | 确定疾病的标准诊断编码的方法和装置 | |
CN114969387A (zh) | 文献作者信息消歧方法、装置及电子设备 | |
CN112348017B (zh) | 临床试验收费单据的识别方法和识别装置 | |
CN113762100B (zh) | 医疗票据中名称提取及标准化方法、装置、计算设备及存储介质 | |
CN114220542A (zh) | 一种体检信息管理方法、装置、存储介质及计算设备 | |
CN113642562A (zh) | 基于图像识别的数据解读方法、装置、设备及存储介质 | |
CN112348472B (zh) | 实验室检查表的录入方法、装置和计算机可读介质 | |
CN116913549A (zh) | 不良反应事件预警方法、装置、系统和电子设备 | |
CN111062193A (zh) | 医疗数据标注方法及装置、存储介质、电子设备 | |
CN112989827B (zh) | 一种基于多源异构特征的文本数据集质量评估方法 | |
JP2004171316A (ja) | Ocr装置及び文書検索システム及び文書検索プログラム | |
CN113962197A (zh) | 医疗化验单标准化方法、装置、电子设备及存储介质 | |
CN112348027B (zh) | 药物单的识别方法和识别装置 | |
CN116126790B (zh) | 铁路工程档案归档方法、装置、电子设备、存储介质 | |
CN116364248B (zh) | 基于玻片标签自动识别技术的病理图像自动上传匹配方法 | |
JP2003108576A (ja) | データベース管理装置およびデータベース管理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |