CN111931750A

CN111931750A - 化验单的识别方法和识别装置

Info

Publication number: CN111931750A
Application number: CN202011081759.9A
Authority: CN
Inventors: 吴大帅
Original assignee: Hangzhou Taimei Xingcheng Pharmaceutical Technology Co Ltd
Current assignee: Hangzhou Taimei Xingcheng Pharmaceutical Technology Co Ltd
Priority date: 2020-10-12
Filing date: 2020-10-12
Publication date: 2020-11-13
Anticipated expiration: 2040-10-12
Also published as: CN111931750B

Abstract

本发明涉及一种化验单的识别方法，包括：接收化验单图像；采用光学文本识别技术识别化验单图像，从化验单图像中提取多个文字块；根据多个文字块的坐标计算每个文字块与其周围的其他文字块的相对位置关系；比较文字块的内容和医学检验术语数据库中的化验项名称，获得候选化验项名称文字块；确定候选化验项名称文字块右侧的第一文字块组，若第一文字块组中包括化验结果文字块，则判断候选化验项名称文字块为正式化验项名称文字块；生成第二文字块组，第二文字块组包括正式化验项名称文字块和化验结果文字块；以及对第二文字块组进行标准化处理，将正式化验项名称文字块的内容转换为标准化验项名称，并且将化验结果文字块的内容转换为标准化验结果。

Description

化验单的识别方法和识别装置

技术领域

本发明主要涉及临床医学及试验领域，具体地涉及一种临床化验单的识别方法和识别装置。

背景技术

在临床试验领域，通过对大量的受试者进行数据采集，可以分析特定药物或方法的效果。在大部分临床试验中涉及到对受试者进行医学检验，包括从人体提取体液、细胞等样本进行实验室分析，从而获得相关的检验结果。典型的常规化验单包括血常规、尿常规、便常规等。

随着电子技术的发展，通过各种信息系统将临床试验中所获得各种数据电子化，从而更加便于对临床信息进行统计和分析。然而，不同的医院所采用的测量仪器可能不同，导致其所获得的化验单中所包含的化验项的名称、单位以及参考范围等不一致，数据记录的格式也不统一，对于后续的数据管理和分析造成了一定的障碍，降低了临床试验的效率。

发明内容

本发明所要解决的技术问题是提供一种标准化的临床化验单识别方法和装置。

本发明为解决上述技术问题而采用的技术方案是一种化验单的识别方法，其特征在于，包括：接收化验单图像；采用光学文本识别技术识别所述化验单图像，从所述化验单图像中提取多个文字块，所述文字块的信息包括所述文字块的内容和坐标；根据所述多个文字块的坐标计算每个所述文字块与其周围的其他文字块的相对位置关系；比较所述文字块的内容和医学检验术语数据库中的化验项名称，获得候选化验项名称文字块；根据所述文字块的相对位置关系确定所述候选化验项名称文字块右侧的第一文字块组，若所述第一文字块组中包括化验结果文字块，则判断所述候选化验项名称文字块为正式化验项名称文字块；生成第二文字块组，所述第二文字块组包括所述正式化验项名称文字块和所述化验结果文字块；以及对所述第二文字块组进行标准化处理，将所述正式化验项名称文字块的内容转换为标准化验项名称，并且将所述化验结果文字块的内容转换为标准化验结果。

在本发明的一实施例中，根据所述多个文字块的坐标计算每个所述文字块与其周围的其他文字块的相对位置关系的步骤包括：生成文字块集合，所述文字块集合中包括所有文字块的坐标；根据每个文字块的纵坐标排序，得到所有文字块的有序列表；以及在所述有序列表中按照顺序处理每个所述文字块，得到每个文字块的上、下、左、右四个方向的相邻文字块。

在本发明的一实施例中，在所述有序列表中按照顺序处理每个所述文字块的步骤包括：步骤S31：以所述有序列表中的第一个文字块作为第一锚点；步骤S32：在所述有序列表中搜索所述第一锚点右侧的文字块，以所述第一锚点右侧的文字块为第二锚点，并将搜索结果记录在所述第一锚点的数据结构中；步骤S33：在所述文字块集合中搜索与所述第二锚点上下相邻的文字块，并将搜索结果记录在所述第二锚点的数据结构中；步骤S34：在所述有序列表中搜索所述第二锚点右侧的文字块，若有则删除所述第二锚点，并将所述第二锚点右侧的文字块作为新的第二锚点，重复执行步骤S33-S34，直到所述第二锚点右侧没有文字块；步骤S35：在所述有序列表中搜索所述第一锚点左侧的文字块，以所述第一锚点左侧的文字块为第三锚点，并将搜索结果记录在所述第一锚点的数据结构中；步骤S36：在所述文字块集合中搜索与所述第三锚点上下相邻的文字块，并将搜索结果记录在所述第三锚点的数据结构中；步骤S37：在所述有序列表中搜索所述第三锚点左侧的文字块，若有则删除所述第三锚点，并将所述第三锚点左侧的文字块作为新的第三锚点，重复执行步骤S36-S37，直到所述第三锚点左侧没有文字块；步骤S38：在所述有序列表中删除所述第一锚点、第二锚点和第三锚点；以及步骤S39：重复执行步骤S31-38，直到所述有序列表为空。

在本发明的一实施例中，所述文字块的数据结构中包括记录与所述文字块在上、下、左、右四个方向的相邻文字块的字段。

在本发明的一实施例中，比较所述文字块的内容和医学检验术语数据库中的化验项名称的步骤包括：将所述医学检验术语数据库中的化验项名称拆分成长度相等的第一字段；将所述文字块的内容拆分成与所述第一字段的长度相等的第二字段；以及比较所述第一字段和第二字段。

在本发明的一实施例中，采用2-gram方法对所述医学检验术语数据库中的化验项名称和所述文字块进行拆分。

在本发明的一实施例中，还包括：比较所述文字块的内容和特殊文字数据库，判断所述文字块是化验结果文本块，其中，所述特殊文字数据库包括作为化验结果的结果文本。

在本发明的一实施例中，在根据所述文字块的相对位置关系确定所述候选化验项名称文字块右侧的第一文字块组的步骤中，还包括：若所述第一文字块组中包括所述化验结果文本块，则判断所述候选化验项名称文字块为正式化验项名称文字块；生成第二文字块组的步骤还包括：所述第二文字块组包括所述化验结果文本块；以及，对所述第二文字块组进行标准化处理的步骤还包括：将所述化验结果文本块转换为标准化验结果文本。

在本发明的一实施例中，还包括：比较所述文字块的内容和特殊文字数据库，判断所述文字块是化验项单位文字块或参考范围文字块，其中，所述特殊文字数据库包括作为化验项单位的单位文字和参考范围文字。

在本发明的一实施例中，在根据所述文字块的相对位置关系确定所述候选化验项名称文字块右侧的第一文字块组的步骤中，还包括：若所述第一文字块组中包括所述化验项单位文字块和/或所述参考范围文字块，则判断所述候选化验项名称文字块为正式化验项名称文字块；生成第二文字块组的步骤还包括：所述第二文字块组包括所述化验项单位文字块和/或所述参考范围文字块；以及，对所述第二文字块组进行标准化处理的步骤还包括：将所述化验项单位文字块的内容转换为标准单位，和/或将所述参考范围文字块的内容转换为标准参考范围。

在本发明的一实施例中，对所述第二文字块组进行标准化处理的步骤包括：根据下面的公式计算匹配分match_score：match_score = 1 - (max_len - cross_distance(str1, str2) + Lev_distance(str1, str2))/ (max_len * 2)，其中，str1是所述第二文字块组中的一个文字块的内容，str2是标准检验术语库中的标准术语，max_len是str1和str2中的长度的最大值，cross_distance(str1, str2)指str1的字符集合和str2的字符集合的交集的元素个数，Lev_distance(str1, str2)指str1和str2的莱文斯坦距离。

在本发明的一实施例中，对所述第二文字块组进行标准化处理的步骤还包括：在所述第二文字块组中增加所述正式化验项名称文字块的内容对应的医学编码。

在本发明的一实施例中，若所述文字块的内容没有包含在所述医学检验术语数据库和所述特殊文字数据库中，则根据所述文字块的相对位置关系确定位于所述文字块上方和/或下方的相邻文字块，根据所述相邻文字块的内容估计所述文字块的类型，并且将所述文字块的内容记录在所述医学检验术语数据库或所述特殊文字数据库。

本发明为解决上述技术问题还提出一种化验单的识别装置，包括：存储器，用于存储可由处理器执行的指令；处理器，用于执行所述指令以实现如上所述的识别方法。

本发明为解决上述技术问题还提出一种存储有计算机程序代码的计算机可读介质，所述计算机程序代码在由处理器执行时实现如上所述的识别方法。

本发明从化验单图像中识别出化验项名称文字块、化验结果文字块、化验项单位文字块和参考范围文字块等，并根据标准术语数据库将这些文字块转换为符合标准的标准化验项名称、标准化验结果、标准单位和标准参考范围，对来自不同数据来源的不同化验单的内容和格式进行了统一标准化，使临床试验中所获得的化验单相关数据可以更加方便高效地应用于临床试验研究。

附图说明

为让本发明的上述目的、特征和优点能更明显易懂，以下结合附图对本发明的具体实施方式作详细说明，其中：

图1是本发明一实施例的化验单的识别方法的示例性流程图；

图2 是本发明一实施例的化验单的识别方法中的化验单图像的示意图；

图3A-3C是本发明一实施例的化验单的识别方法中计算文字块的相对位置关系的过程示意图；

图4A和4B是本发明一实施例的化验单的识别方法中的搜索相邻文字块的示意图；

图5是本发明一实施例的化验单的识别方法中对化验项名称进行拆分的示意图。

具体实施方式

为让本发明的上述目的、特征和优点能更明显易懂，以下结合附图对本发明的具体实施方式作详细说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其它不同于在此描述的其它方式来实施，因此本发明不受下面公开的具体实施例的限制。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各种步骤。同时，或将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

图1是本发明一实施例的化验单的识别方法的示例性流程图。参考图1所示，该实施例的化验单的识别方法包括以下步骤：

步骤S110：接收化验单图像；

步骤S120：采用光学文本识别技术识别化验单图像，从化验单图像中提取多个文字块的信息，文字块的信息包括文字块的内容和坐标；

步骤S130：根据多个文字块的坐标计算每个文字块与其周围的其他文字块的相对位置关系；

步骤S140：比较文字块的内容和医学检验术语数据库中的化验项名称，获得候选化验项名称文字块；

步骤S150：根据文字块的相对位置关系确定候选化验项名称文字块右侧的第一文字块组，若第一文字块组中包括化验结果文字块，则判断候选化验项名称文字块为正式化验项名称文字块；

步骤S160：生成第二文字块组，第二文字块组包括正式化验项名称文字块和化验结果文字块；以及

步骤S170：对第二文字块组进行标准化处理，将正式化验项名称文字块的内容转换为标准化验项名称，并且将化验结果文字块的内容转换为标准化验结果。

以下对上述步骤逐一进行说明。

本实施例的化验单的识别方法在步骤S110中接收化验单图像。本发明对该化验单图像的格式、参数等不做限制。化验单图像可以是照片或任意格式的图片，包括但不限于bmp, jpg, png, tif, gif, pcx, tga, exif, fpx, svg, psd, cdr, pcd, dxf, ufo,eps, ai, raw, WMF, webp等。化验单图像的参数可以包括分辨率、大小、色度、亮度等。本发明对于化验单的类型不做限制，该化验单可以是来自检验医学的任意化验单。该化验单中包含化验项名称、化验结果、化验项单位、化验项的正常值参考范围等中的一种及其任意组合。

本发明的化验单的识别方法可以用于临床试验的过程中，从其上游的流程接收化验单图像，并将经过本发明的识别方法进行电子化和标准化处理的化验单内容传递到下游的流程中。本发明对于上游流程和下游流程的具体内容不做限制。

本实施例的化验单的识别方法在步骤S120中采用光学文本识别技术（OpticalCharacter Recognition, OCR）识别化验单图像。本发明采用OCR技术从步骤110中所接收到的化验单图像中提取到的基本单元是文字块。每个文字块的信息包括该文字块的内容和坐标。

需要说明，文字块的内容可以包括文本、数字、符号或特殊字符。文本包括中文、英文等计算机系统可以识别的语言种类。在化验单中，化验项名称中通常包括文本；化验结果通常是数字，也可能包括特殊字符，例如“阴性”、“阳性”等；化验项单位通常是文本和/或符号，例如“%L”；正常值参考范围通常包括数字、文本和/或特殊字符。数字可以与文本区别，文本的具体内容则需要进行识别来判断。

图2 是本发明一实施例的化验单的识别方法中的化验单图像的示意图。图2示出了某化验单图像的一部分，而不是全部。可以理解，本发明的识别方法可以用于识别化验单的部分或全部。参考图2所示，该化验单图像200中包括4行*4列共16个文字块，图中用实线方框表示所识别到的文字块的边框，该实线方框并不是化验单图像200中的图像。

本发明根据OCR方法识别到的文字块的信息中包括该文字块中的具体显示内容，也包括该文字块在该化验单图像200中的坐标位置。参考图2所示，以该图像的左上角为原点O建立直角坐标系，x轴为向右延伸的横轴，y轴为向下延伸的纵轴。以文字块211为例，该文字块211在该化验单图像200中处于最左上的位置。该文字块211的内容是“项目名称”，其坐标中至少包括包围该文字块211的长方形的左上角和右下角两个点的坐标。文字块211的坐标可以是包围该文字块211的长方形上的每个点的坐标。例如，可以用该长方形的四个顶点坐标代表该文字块211的坐标。在对文字块进行处理时，可以根据实际的计算需求选取需要的坐标。

从化验单中所提取到的文字块可以包括多种类型，例如标题行、化验项名称、化验结果、化验项单位、正常值参考范围等。

文字块211、212、213、214属于化验单中的标题行，通过文字块的内容的比较可以确认其标题行的类型。

化验单图像200中所显示的文字内容不同、大小也不同，相应地所获得的文字块的大小和内容也不同，文字块的大小可以从根据其坐标来反映。例如该文字块的顶边和底边之间的距离为该文字块的高度，左边到右边的距离为该文字块的宽度。

本实施例的化验单的识别方法在步骤S130根据多个文字块的坐标计算每个文字块与其周围的其他文字块的相对位置关系。根据OCR方法获得了多个文字块的信息，其中包括每个文字块的坐标位置。但是该信息并不能直接表示各个文字块直接的位置关系。本步骤的目的是将所获得的多个文字块采用图数据结构进行重新组织，使得后续可以更加快速的找到与某个文字块相邻的其他文字块，从而确定该某个文字块在所有文字块中的位置。

图3A-3C是本发明一实施例的化验单的识别方法中计算文字块的相对位置关系的过程示意图。参考图3A-3C所示，在该实施例中，根据多个文字块的坐标计算每个文字块与其周围的其他文字块的相对位置关系的步骤包括：

步骤S131：生成文字块集合，文字块集合中包括所有文字块的坐标。

本步骤是将经过OCR方法获得的多个文字块的信息中的坐标的集合包含在一个文字块集合中，以备后续步骤使用。

参考图3A所示，其中在虚线框的范围内包括多个矩形框301，每个矩形框301表示采用OCR方法从化验单图像所获得的一个文字块。显然，图3A所示的多个矩形框301的排列是杂乱无章的，并不能直接从OCR方法的结果得到每个文字块之间的相对位置关系。

步骤S132：根据每个文字块的纵坐标排序，得到所有文字块的有序列表。

图4A和4B是本发明一实施例的化验单的识别方法中的搜索相邻文字块的示意图。参考图4A所示，其中示出了文字块411、412。该文字块411的编号为1，文字块412的编号为2。在图4A所示的实施例中，用文字块的边作为该文字块的坐标。文字块411和文字块412的顶边分别记为Top1、Top2，底边分别记为Bottom1、Bottom2，左边分别记位Left1、Left2，右边分别记位Right1、Right2。文字块处于图4A所示的直角坐标系中，x轴为横轴，y轴为纵轴。

在步骤S132中，根据每个文字块的纵坐标y进行排序，可以使纵坐标y相近的文字块相互靠近。在一些实施例中，按照纵坐标y的升序来排序，在该有序列表中的第一个文字块是化验单图像中处于最左上的文字块。在其他的实施例中，可以按照纵坐标y的降序来排序。

图3B示出了一种经过排序之后的示例。有序列表中可以按照顺序依次排列文字块组310、320、330。

步骤S133：在有序列表中按照顺序处理每个文字块，得到每个文字块的上、下、左、右四个方向的相邻文字块。

在一些实施例中，在有序列表中按照顺序处理每个文字块的步骤包括：

步骤S31：以有序列表中的第一个文字块作为第一锚点；

参考图4A所示，以文字块411为第一锚点。

步骤S32：在有序列表中搜索第一锚点右侧的文字块，以该第一锚点右侧的文字块为第二锚点，并将搜索结果记录在第一锚点的数据结构中。

参考图4A所示，编号为2的文字块412用于代表文字块集合中除第一锚点411之外的其他文字块。文字块412的纵坐标范围与第一锚点411的纵坐标范围重合的条件公式为：

Len(Top1, Bottom1) + Len(Top2, Bottom2) > Max(Len(Top1, Bottom2) , Len(Top2, Bottom1)) （1）

该条件公式中，Len(Top1, Bottom1)表示顶边Top1到底边Bottom1之间的距离，依此类推；Max(Len(Top1, Bottom2) , Len(Top2, Bottom1))指Len(Top1, Bottom2)和Len(Top2, Bottom1)之中的较大者。

若满足上述条件公式（1），则表示文字块2和文字块1在同一行。

在经过条件公式（1）的判断之后，再通过条件公式（2）进行判断：

Left2.x > Right1.x （2）

条件公式（2）表示文字块2的左边的x坐标大于文字块1的右边的x坐标。

若一个文字块同时满足条件公式（1）和（2），则表示该文字块是处于锚点右侧相邻的文字块，将该文字块记录在锚点的数据结构中。

对于一个文字块2来说，当条件公知（1）和（2）都满足时，将该文字块2加入待选集合 {Candidate}。

对于包括多个文字块2的情况下，取距离文字块1距离最近的一个文字块2作为第一锚点411右侧的文字块。可以根据下面的公式（3）：

Min(Candidate1.Left.x, Candidate2.Left.x, Candidate3.Left.x, ...) （3）

即求出左边的x坐标最小的文字块，该文字块是第一锚点411右侧的相邻文字块。

类似地，可以搜索第一锚点左侧的相邻文字块。

步骤S33：在文字块集合中搜索与第二锚点上下相邻的文字块，并将搜索结果记录在第二锚点的数据结构中；本步骤在文字块集合中执行，而不是前面所述的有序列表中。

参考图4B所示，其中示出了第二锚点421和位于其上侧的一个文字块422。根据图4B说明如何寻找第二锚点421上方与其相邻的文字块。文字块422用于代表所有位于第二锚点上方的文字块。

首先求所有跟第二锚点421的文字块的宽度坐标范围上有重合的文字块，使第二锚点421的编号为1，文字块422的编号为2。则重合条件为条件公式（4）：

Len(Left1, Right1) + Len(Left2, Right2) > Max(Len(Left1, Right2), Len(Left2, Right1)) （4）

若满足上述条件公式（4），则表示文字块2和文字块1在同一列。

在经过条件公式（4）的判断之后，再通过条件公式（5）进行判断：

Top1.y > Bottom2.y （5）

条件公式（5）表示文字块1的顶边的y坐标大于文字块2的底边的y坐标，表示文字块1在文字块2的下方。

若一个文字块同时满足条件公式（4）和（5），则表示该文字块是处于第二锚点上方相邻的文字块，将该文字块记录在第二锚点的数据结构中。

对于一个文字块2来说，当条件公知（4）和（5）都满足时，将该文字块2加入待选集合 {Candidate}。

对于包括多个文字块2的情况下，取距离文字块1距离最近的一个文字块2作为第二锚点421上方的文字块。可以根据下面的公式（6）：

Max(Candidate1.Bottom.y, Candidate2.Bottom.y, Candidate3.Bottom.y, ...)（6）

即求出底边的y坐标最大的文字块，该文字块是第二锚点421上方的相邻文字块。

类似地，可以搜索第二锚点下方的相邻文字块。

步骤S34：在有序列表中搜索第二锚点右侧的文字块，若有则删除第二锚点，并将第二锚点右侧的文字块作为新的第二锚点，重复执行步骤S33-S34，直到第二锚点右侧没有文字块。

根据本步骤可以找到所有位于第一锚点右侧的文字块，并将搜索结果记录在对应的文字块的数据结构中。

步骤S35：在有序列表中搜索第一锚点左侧的文字块，以第一锚点左侧的文字块为第三锚点，并将搜索结果记录在第一锚点的数据结构中；

本步骤可以参考步骤S32，将其中和右侧相关的部分适应性的修改为适于搜索第一锚点左侧的文字块。

步骤S36：在文字块集合中搜索与第三锚点上下相邻的文字块，并将搜索结果记录在第三锚点的数据结构中；

本步骤与步骤S33类似，可参考相关说明。

步骤S37：在有序列表中搜索第三锚点左侧的文字块，若有则删除第三锚点，并将第三锚点左侧的文字块作为新的第三锚点，重复执行步骤S36-S37，直到第三锚点左侧没有文字块；

步骤S38：在有序列表中删除第一锚点、第二锚点和第三锚点；以及

步骤S39：重复执行步骤S31-38，直到有序列表为空。

经过上述步骤，有序列表中的文字块被逐个按顺序删除，直到最后为空，最终可以获得文字块集合中的每一个文字块的相对位置。

图3C示出了根据上述方法所得到的结果，其中用箭头表示每一个文字块都确定与其相邻的其他文字块。

在一些实施例中，每个文字块的数据结构中包括记录与该文字块在上、下、左、右四个方向的相邻文字块的字段。

可以理解，并不是每个文字块都完全包括四个相邻文字块。例如图3C中的文字块311，其仅包括一个右侧相邻文字块312和一个下侧相邻文字块331。

可以理解，如果该文字块在某个方向上没有相邻的文字块，例如最左上的文字块只有右侧和下侧的相邻文字块，则其左侧和上侧的相邻文字块记录为空。

在一些实施例中，从化验单图像所提取出来的文字块的内容可能是非常规的，则可以根据相邻文字块来估计该处文字块的类型。例如图3C所示，在文字块311和文字块331之间包括一个文字块321，由于该文字块321的内容比较特殊，可能是没有包含在数据库中的一种化验项名称，则可以根据文字块311和文字块331的类型来估计文字块321是一种化验项名称，并将该新的化验项名称添加到医学检验术语数据库中。相应地，若该文字块上方或下方的相邻文字块是化验结果、化验项单位或参考范围中的一种类型，则估计该文字块是相同的类型，并把该文字块的内容添加到特殊文字数据库中。经过添加的新的医学检验术语数据库和特殊文字数据库可以继续用于化验单的识别。本实施例的化验单的识别方法在步骤S140中比较文字块的内容和医学检验术语数据库中的化验项名称，获得候选化验项名称文字块。

步骤S140的目的在于判断文字块的内容是否是化验项名称。

在一些实施例中，步骤S140进一步地包括以下步骤：

步骤S141：将医学检验术语数据库中的化验项名称拆分成长度相等的第一字段；

步骤S142：将所述文字块的内容拆分成与所述第一字段的长度相等的第二字段。

步骤S143：比较所述第一字段和第二字段。

本发明对于第一字段和第二字段的长度不做限制，可以是2或3个字符等。

在一些实施例中，采用2-gram方法执行步骤S141和S142中的拆分步骤。

图5是本发明一实施例的化验单的识别方法中对化验项名称进行拆分的示意图。参考图5所示，医学检验术语数据库510中包括了很多化验项名称，例如“红细胞计数”、“白细胞”等。本发明所接收到的化验单图像中所包括的化验项名称有可能并不符合医学检验术语的标准，如果将整个标准化验项名称与化验单图像中的文字内容进行比较，有可能出现漏误。由于化验项名称的长度不统一，有长有短，如果不统一长度，在将标准化验项名称与文字块的内容进行比较时耗费的时间也较长。

参考图5所示，将医学检验术语数据库510中的化验项名称拆分成长度相等的化验项名称数据，在该实施例中，采用2-gram方法对医学检验术语数据库510中的化验项名称进行拆分，获得了长度为2的多个化验项名称数据。如图5中的化验项名称数据集合520中包括从“红细胞计数”获得的“红细”、“细胞”、“胞计”、“计数”，从“白细胞”获得的“白细”等化验项名称数据。

同理，对所接收到的化验单图像200中的文字块的内容进行拆分。举例说明：以图2中的文字块221为例，该文字块221的内容是“白细胞”，采用2-gram方法对文字块211的内容进行拆分，得到拆分后的第二字段的集合C：

C = {白细，细胞}

参考图5所示，经过拆分的化验项名称数据集合520为第一字段的集合DC。

统计集合C中的第二字段和集合DC中的第一字段的匹配个数，记为 match(C,DC)。

计算第一字段和第二字段的置信度confidence：

confidence = match(C, DC) / count(C)

其中，count(C)指集合C中包含第二字段的数目。

将置信度confidence和经验阈值 threshold 做比较，若confidence >threshold 判定为疑似化验项，若confidence < threshold 判定为非疑似化验项。

若通过上述判断之后，文字块中的内容为疑似化验项，则将该文字块作为候选化验项名称文字块。上述的匹配方法属于一种模糊匹配方法。

在从化验单图像中所提取的文字块中，除了包括化验项名称的候选化验项名称文字块之外，还包括以数字形式呈现的化验结果数字块，以文本形式呈现的化验结果文本块、表示化验项单位的化验项单位文字块和表示化验项的正常值参考范围的参考范围文字块。其中，以文本形式呈现的化验结果文本块，例如：“阴性”、“阳性”等的文本内容。化验结果数字块和化验结果文本块都属于化验结果文字块。化验项的单位，例如“mol/L”、“g/L”等，是有限个数的一些字符。参考范围应该是表示为一定的范围，而不是一个值，因此参考范围文字不是一个数字，而应包括一些特殊字符，例如“-”。

本实施例的化验单的识别方法在步骤S150根据文字块的相对位置关系确定候选化验项名称文字块右侧的第一文字块组，若第一文字块组中包括化验结果文字块，则判断候选化验项名称文字块为正式化验项名称文字块。

在步骤S150中利用在步骤S130所获得的每个文字块的相对位置关系，可以找到候选化验项名称文字块右侧的第一文字块组，该第一文字块组指位于候选化验项名称文字块右侧的所有文字块。参考图2所示，在文字块221右侧的第一文字块组包括文字块222、223、224。其中，文字块222是化验结果数字块，其中仅包括数字内容。

在本发明的实施例中，若候选化验项名称文字块右侧包括一个化验结果文字块，则可以确认该候选化验项名称文字块是化验项名称，可以成为正式化验项名称文字块。参考图2所示，由于文字块221右侧的文字块222是化验结果数字块，因此文字块221在步骤S150中成为正式化验项名称文字块。

在一些实施例中，本发明的化验单的识别方法还包括比较文字块的内容和特殊文字数据库。

在一些实施例中，特殊文字数据库中包括作为化验结果文本块的内容的特殊文字，如上所述的“阴性”、“阳性”等。因此，比较文字块的内容和特殊文字数据库，判断所述文字块是化验结果文本块。第一文字块组中包括化验结果文本块。

在一些实施例中，特殊文字数据库还可以包括作为化验项单位文字块和参考范围文字块的内容的特殊文字，例如上述的各种单位，以及参考范围中的“-”符号。因此，比较文字块的内容和特殊文字数据库，判断所述文字块是化验项单位文字块或参考范围文字块。第一文字块组中包括化验项单位文字块和/或所述参考范围文字块。

根据这些实施例，可以识别一个文字块的内容，从而判断该文字块是否是化验结果文本块、化验项单位文字块和参考范围文字块中的一种。

参考图2所示，其中包括三个化验项名称文字块221、231、241，三个化验结果数字块222、232、242，三个参考范围文字块223、233、243和三个单位文字块224、234、244。对于文字块221来说，其第一文字块组包括化验结果数字块222、化验项单位文字块224和参考范围文字块223。

在一些实施例中，比较文字块的内容和特殊文字数据库的方法是绝对匹配方法，即当文字块的内容等于特殊文字数据库中的某一特殊文字时，则判定该文字块的内容是该特殊文字。本实施例的化验单的识别方法在步骤S160生成第二文字块组，该第二文字块组包括正式化验项名称文字块和化验结果文字块。参考图2所示，对于文字块221来说，第二文字块组包括正式化验项名称文字块221和化验结果数字块222。

在一些实施例中，步骤S160中的生成第二文字块组还包括：第二文字块组还包括化验结果文本块。

在一些实施例中，步骤S160中的生成第二文字块组还包括：第二文字块组还包括化验单位文字块224和/或参考范围文字块223。

可以理解，对于一个化验项来说，第一文字块组和第二文字块组相关，第二文字块组比第一文件块组多一个正式化验项名称文字块。

本实施例的化验单的识别方法在步骤S170对第二文字块组进行标准化处理。对于一项临床研究来说，可能从不同的医院采集很多数据。由于不同的医院所采用的仪器不同、信息系统的设置不同等，造成化验单上的化验项名称、化验单位、参考值范围等不统一。本发明针对该技术问题，对从化验单图像中所获得的第二文字块组进行标准化处理。具体地，本发明建立了一个标准检验术语库，将第二文字块组中的所有文字块与该标准检验术语库中的每个术语进行匹配度计算，得到匹配分。

在一实施例中，采用如下地匹配方法：

步骤S171：算法入口函数记为 Lev_distance(str1, str2)，该算法入口函数根据莱文斯坦距离(Levenshtein)算法计算str1和str2之间的距离。其中，str1表示第二文字块组中的一个文字块，str2是标准检验术语库中的术语。

步骤S172：定义字符串字符交集函数，记为交集函数 cross_distance(str1,str2), 该交集函数返回构成str1的字符集合和构成str2的字符集合的交集的元素个数，例如

cross_distance(‘abc’, ‘bcd’)

len({‘a’, ‘b’, ‘c’} ∩ {‘b’, ‘c’, ‘d’}) = len({‘b’, ‘c’}) = 2

步骤S173：取str1和str2的长度的最大值，max_len = max(len(str1), len(str2)) ；

步骤S174：计算str1和str2的匹配分match_score：

match_score = 1 - (max_len - cross_distance(str1, str2) + Lev_distance(str1, str2))/ (max_len * 2)

将标准检验术语库中的术语都作为str2和str1进行比较，取匹配分match_score最大的str2为与str1匹配的标准术语。如果匹配分为1，表示完全匹配，则该匹配结果为确定结果；如果匹配分小于1，表示部分匹配，则该匹配结果为非确定结果。无论匹配结果确定与否，都可以传递给下游流程，由下游流程根据自身的设置来使用。

在上述的匹配方法中，str1指文字块中的整个字符或字符串。

通过步骤S170，可以将本发明所识别到的第二文字块组中的化验项名称文字块的内容转换为标准化验项名称，将化验结果文字块的内容转换为标准化验结果。

对于化验结果数字块来说，来自不同来源的化验单上的化验结果的格式可能是不同的，例如所保留的小数点后面的位数。标准化验结果可以统一该数字的格式，以便于后续的自动化处理。

在一些实施例中，步骤S170还将化验项单位文字块的内容转换为标准单位，和/或将参考范围文字块的内容转换为标准参考范围。

在一些实施例中，本发明对第二文字块组进行标准化处理的步骤还包括：在第二文字块组中增加化验项文字块的内容对应的医学编码。

医学编码是指将原词转化成标准术语的方法。原词是指临床试验或上市后报告中研究者/患者的原始报告词汇。标准术语是指编码字典中的术语。在临床试验和研究中，需要对不良事件、合并治疗、用药原因、病史、死亡原因等进行医学编码，以便将这些信息用于医学核查、统计分析、病例检索等。每种编码字典都有其独有的结构、层级体系。

在本发明的实施例中在标准化的文字块中增加该化验项文字块的内容对应的医学编码，可以便于该化验单的识别结果用于涉及到医学编码的下游过程。

根据本发明的化验单的识别方法，可以将化验单图像中的内容转换为标准格式，统一了来自不同数据来源的不同化验单的内容和格式，使临床试验中所获得的化验单相关数据可以更加方便高效地应用于临床试验研究。

本发明还包括一种化验单的识别装置，包括存储器和处理器。该存储器用于存储可由处理器执行的指令；该处理器用于执行该指令以实现如前文所述的化验单的识别方法。

本发明还包括一种存储有计算机程序代码的计算机可读介质，该计算机程序代码在由处理器执行时实现如如前文所述的化验单的识别方法。

化验单的识别方法实施为计算机程序时，也可以存储在计算机可读存储介质中作为制品。例如，计算机可读存储介质可以包括但不限于磁存储设备(例如，硬盘、软盘、磁条)、光盘(例如，压缩盘(CD)、数字多功能盘(DVD))、智能卡和闪存设备(例如，电可擦除可编程只读存储器(EPROM)、卡、棒、键驱动)。此外，本文描述的各种存储介质能代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可以包括但不限于能存储、包含和/或承载代码和/或指令和/或数据的无线信道和各种其它介质(和/或存储介质)。

应该理解，上文所描述的实施例仅是示意。本文描述的实施例可在硬件、软件、固件、中间件、微码或者其任意组合中实现。对于硬件实现，处理单元可以在一个或者多个特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器和/或设计为执行本文所述功能的其它电子单元或者其结合内实现。

虽然本发明已参照当前的具体实施例来描述，但是本技术领域中的普通技术人员应当认识到，以上的实施例仅是用来说明本发明，在没有脱离本发明精神的情况下还可作出各种等效的变化或替换，因此，只要在本发明的实质精神范围内对上述实施例的变化、变型都将落在本申请的权利要求书的范围内。

Claims

1.一种化验单的识别方法，其特征在于，包括：

接收化验单图像；

采用光学文本识别技术识别所述化验单图像，从所述化验单图像中提取多个文字块，所述文字块的信息包括所述文字块的内容和坐标；

根据所述多个文字块的坐标计算每个所述文字块与其周围的其他文字块的相对位置关系；

比较所述文字块的内容和医学检验术语数据库中的化验项名称，获得候选化验项名称文字块；

根据所述文字块的相对位置关系确定所述候选化验项名称文字块右侧的第一文字块组，若所述第一文字块组中包括化验结果文字块，则判断所述候选化验项名称文字块为正式化验项名称文字块；

生成第二文字块组，所述第二文字块组包括所述正式化验项名称文字块和所述化验结果文字块；以及

对所述第二文字块组进行标准化处理，将所述正式化验项名称文字块的内容转换为标准化验项名称，并且将所述化验结果文字块的内容转换为标准化验结果。

2.如权利要求1所述的识别方法，其特征在于，根据所述多个文字块的坐标计算每个所述文字块与其周围的其他文字块的相对位置关系的步骤包括：

生成文字块集合，所述文字块集合中包括所有文字块的坐标；

根据每个文字块的纵坐标排序，得到所有文字块的有序列表；以及

在所述有序列表中按照顺序处理每个所述文字块，得到每个文字块的上、下、左、右四个方向的相邻文字块。

3.如权利要求2所述的识别方法，其特征在于，在所述有序列表中按照顺序处理每个所述文字块的步骤包括：

步骤S31：以所述有序列表中的第一个文字块作为第一锚点；

步骤S32：在所述有序列表中搜索所述第一锚点右侧的文字块，以所述第一锚点右侧的文字块为第二锚点，并将搜索结果记录在所述第一锚点的数据结构中；

步骤S33：在所述文字块集合中搜索与所述第二锚点上下相邻的文字块，并将搜索结果记录在所述第二锚点的数据结构中；

步骤S34：在所述有序列表中搜索所述第二锚点右侧的文字块，若有则删除所述第二锚点，并将所述第二锚点右侧的文字块作为新的第二锚点，重复执行步骤S33-S34，直到所述第二锚点右侧没有文字块；

步骤S35：在所述有序列表中搜索所述第一锚点左侧的文字块，以所述第一锚点左侧的文字块为第三锚点，并将搜索结果记录在所述第一锚点的数据结构中；

步骤S36：在所述文字块集合中搜索与所述第三锚点上下相邻的文字块，并将搜索结果记录在所述第三锚点的数据结构中；

步骤S37：在所述有序列表中搜索所述第三锚点左侧的文字块，若有则删除所述第三锚点，并将所述第三锚点左侧的文字块作为新的第三锚点，重复执行步骤S36-S37，直到所述第三锚点左侧没有文字块；

步骤S38：在所述有序列表中删除所述第一锚点、第二锚点和第三锚点；以及

步骤S39：重复执行步骤S31-38，直到所述有序列表为空。

4.如权利要求3所述的识别方法，其特征在于，所述文字块的数据结构中包括记录与所述文字块在上、下、左、右四个方向的相邻文字块的字段。

5.如权利要求1所述的识别方法，其特征在于，比较所述文字块的内容和医学检验术语数据库中的化验项名称的步骤包括：

将所述医学检验术语数据库中的化验项名称拆分成长度相等的第一字段；

将所述文字块的内容拆分成与所述第一字段的长度相等的第二字段；以及

比较所述第一字段和第二字段。

6.如权利要求5所述的识别方法，其特征在于，采用2-gram方法对所述医学检验术语数据库中的化验项名称和所述文字块进行拆分。

7.如权利要求1所述的识别方法，其特征在于，还包括：比较所述文字块的内容和特殊文字数据库，判断所述文字块是化验结果文本块，其中，所述特殊文字数据库包括作为化验结果的结果文本。

8.如权利要求7所述的识别方法，其特征在于，在根据所述文字块的相对位置关系确定所述候选化验项名称文字块右侧的第一文字块组的步骤中，还包括：若所述第一文字块组中包括所述化验结果文本块，则判断所述候选化验项名称文字块为正式化验项名称文字块；

生成第二文字块组的步骤还包括：所述第二文字块组包括所述化验结果文本块；以及，

对所述第二文字块组进行标准化处理的步骤还包括：将所述化验结果文本块转换为标准化验结果文本。

9.如权利要求1所述的识别方法，其特征在于，还包括：比较所述文字块的内容和特殊文字数据库，判断所述文字块是化验项单位文字块或参考范围文字块，其中，所述特殊文字数据库包括作为化验项单位的单位文字和参考范围文字。

10.如权利要求9所述的识别方法，其特征在于，在根据所述文字块的相对位置关系确定所述候选化验项名称文字块右侧的第一文字块组的步骤中，还包括：若所述第一文字块组中包括所述化验项单位文字块和/或所述参考范围文字块，则判断所述候选化验项名称文字块为正式化验项名称文字块；

生成第二文字块组的步骤还包括：所述第二文字块组包括所述化验项单位文字块和/或所述参考范围文字块；以及，

对所述第二文字块组进行标准化处理的步骤还包括：将所述化验项单位文字块的内容转换为标准单位，和/或将所述参考范围文字块的内容转换为标准参考范围。

11.如权利要求1所述的识别方法，其特征在于，对所述第二文字块组进行标准化处理的步骤包括：

根据下面的公式计算匹配分match_score：

match_score = 1 - (max_len - cross_distance(str1, str2) + Lev_distance(str1, str2))/ (max_len * 2)，

其中，str1是所述第二文字块组中的一个文字块的内容，str2是标准检验术语库中的标准术语，max_len是str1和str2中的长度的最大值，cross_distance(str1, str2)指str1的字符集合和str2的字符集合的交集的元素个数，Lev_distance(str1, str2)指str1和str2的莱文斯坦距离。

12.如权利要求1所述的识别方法，其特征在于，对所述第二文字块组进行标准化处理的步骤还包括：在所述第二文字块组中增加所述正式化验项名称文字块的内容对应的医学编码。

13.如权利要求7或9所述的识别方法，其特征在于，若所述文字块的内容没有包含在所述医学检验术语数据库和所述特殊文字数据库中，则根据所述文字块的相对位置关系确定位于所述文字块上方和/或下方的相邻文字块，根据所述相邻文字块的内容估计所述文字块的类型，并且将所述文字块的内容记录在所述医学检验术语数据库或所述特殊文字数据库。

14.一种化验单的识别装置，包括：

存储器，用于存储可由处理器执行的指令；

处理器，用于执行所述指令以实现如1-13任一项所述的识别方法。

15.一种存储有计算机程序代码的计算机可读介质，所述计算机程序代码在由处理器执行时实现如1-13任一项所述的识别方法。