CN107315989B - 针对医学资料图片的文本识别方法和装置 - Google Patents

针对医学资料图片的文本识别方法和装置 Download PDF

Info

Publication number
CN107315989B
CN107315989B CN201710305560.1A CN201710305560A CN107315989B CN 107315989 B CN107315989 B CN 107315989B CN 201710305560 A CN201710305560 A CN 201710305560A CN 107315989 B CN107315989 B CN 107315989B
Authority
CN
China
Prior art keywords
merged
blocks
attribute
data
column
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710305560.1A
Other languages
English (en)
Other versions
CN107315989A (zh
Inventor
周列淳
岳智磊
刘泓
江岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thorgene Beijing Information Technology Co ltd
Original Assignee
Thorgene Beijing Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thorgene Beijing Information Technology Co ltd filed Critical Thorgene Beijing Information Technology Co ltd
Priority to CN201710305560.1A priority Critical patent/CN107315989B/zh
Publication of CN107315989A publication Critical patent/CN107315989A/zh
Application granted granted Critical
Publication of CN107315989B publication Critical patent/CN107315989B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种针对医学资料图片的文本识别方法和装置,其中方法包括:基于光学字符识别OCR算法对待识别的医学资料图片进行文本区域划分,得到多个分块;确定多个分块的位置信息和类型信息,并根据位置信息和类型信息从多个分块中获取多个待合并分块;识别多个待合并分块的文本内容;根据多个待合并分块的文本内容对多个待合并分块进行合并。该方法能够有效避免因图片表现形式不一致,而导致对图片的文本区域的划分不准确的问题,提高了对图片的文本区域划分精度,提升了使用体验。

Description

针对医学资料图片的文本识别方法和装置
技术领域
本发明涉及医疗领域,尤其涉及一种针对医学资料图片的文本识别方法和装置。
背景技术
相关技术中,可通过传统的光学字符识别(Optical Character Recognition,OCR)算法对图片进行文本区域划分。特别是对包含多种内容的图片进行文本区域划分尤为明显。然而,传统的OCR算法可能会因为图片的表现形式不同而造成了文本区域划分不准确。例如,对不同医疗机构发出的不同形式的医学资料图片进行文本区域划分时,可能将同一条检查项的信息分到另外一个文本区域中的问题发生,具体如图1所示。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种针对医学资料图片的文本识别方法,该方法能够有效避免因图片表现形式不一致,而导致对图片的文本区域的划分不准确的问题,提高了对图片的文本区域划分精度,提升了使用体验。
本发明的第二个目的在于提出一种针对医学资料图片的文本识别装置。
为达上述目的,本发明第一方面实施例提出了一种针对医学资料图片的文本识别方法,包括:基于光学字符识别OCR算法对待识别的医学资料图片进行文本区域划分,得到多个分块;确定所述多个分块的位置信息和类型信息,并根据所述位置信息和类型信息从所述多个分块中获取多个待合并分块;识别所述多个待合并分块的文本内容;根据所述多个待合并分块的文本内容对所述多个待合并分块进行合并。
本发明实施例的针对医学资料图片的文本识别方法,首先基于光学字符识别OCR算法对待识别的医学资料图片进行文本区域划分,得到多个分块;其次,确定多个分块的位置信息和类型信息,并根据位置信息和类型信息从多个分块中获取多个待合并分块;再次,识别多个待合并分块的文本内容;最后根据多个待合并分块的文本内容对多个待合并分块进行合并,从而有效避免因图片表现形式不一致,而导致对图片的文本区域划分不准确的问题,提高了对图片的文本区域划分精度,提升了使用体验。
为达上述目的,本发明第二方面实施例提出了一种针对医学资料图片的文本识别装置,包括:区域划分模块,用于基于光学字符识别OCR算法对待识别的医学资料图片进行文本区域划分,得到多个分块;待合并分块获取模块,用于确定所述多个分块的位置信息和类型信息,并根据所述位置信息和类型信息从所述多个分块中获取多个待合并分块;识别模块,用于识别所述多个待合并分块的文本内容;合并模块,用于根据所述多个待合并分块的文本内容对所述多个待合并分块进行合并。
本发明实施例的针对医学资料图片的文本识别装置,首先通过区域划分模块基于光学字符识别OCR算法对待识别的医学资料图片进行文本区域划分,得到多个分块;其次,待合并分块获取模块确定多个分块的位置信息和类型信息,并根据位置信息和类型信息从多个分块中获取多个待合并分块;再次,识别模块识别多个待合并分块的文本内容;最后,合并模块根据多个待合并分块的文本内容对多个待合并分块进行合并,从而有效避免因图片表现形式不一致,而导致对图片的文本区域的划分不准确的问题,提高了对图片的文本区域划分精度,提升了使用体验。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为传统的光学字符识别对文本区域划分不准确的示例图;
图2为本发明一个实施例的针对医学资料图片的文本识别方法的流程图;
图3为本发明另一个实施例的针对医学资料图片的文本识别方法的流程图;
图4为本发明的再一个实施例的针对医学资料图片的文本识别方法的流程图;
图5为本发明的一个实施例的多个待合并分块合并结果示意图;
图6为本发明一个实施例的针对医学资料图片的文本识别装置的结构示意图;
图7为本发明的一个实施例的待合并分块模块的结构示意图;
图8为本发明的一个实施例的合并模块的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的针对医学资料图片的文本识别方法和装置。
需要说明的是,对于医学资料图片,很多检查项都以表格内容的形式进行呈现。下面以健康体检报告为例进行具体说明,在健康体检报告中,一个检测项可包括:检测项名称,检测项英文名,检测值,单位,参考范围。由于不同的医疗机构发出的医学资料图片样式不统一,有些医学资料图片可能表格中的两列之间相隔比较大,所以传统OCR算法会将一个大的区域拆分成不同的区域进行分析,造成的后果就是将同一条检查项的信息分到不同的区域中,这对于该检查项的分析就不准确,存在误差。对此,本发明对在传统的OCR算法对医学资料图片划分区域的基础上,提出了合并相关区域的改进方法,以此解决传统OCR算法对医学资料划分区域不准确的技术问题。
图2为本发明一个实施例的针对医学资料图片的文本识别方法的流程图。
如图2所示,根据本发明实施例的针对医学资料图片的文本识别方法,包括以下步骤:
S201,基于光学字符识别OCR算法对待识别的医学资料图片进行文本区域划分,得到多个分块。
其中,在本实施例中,医学资料图片可以为健康体检报告图片。
具体地,基于光学字符识别OCR算法对待识别的医学资料图片进行文本区域的划分可根据待识别的医学资料图片的具体表现形式来进行划分。举例说明如下:
假设本实施例中的医学资料图片为健康体检报告图片,则确定该待识别的医学资料图片的表现形式主要是以表格形式进行具体呈现,从而光学字符识别OCR算法根据医学资料图片的表现形式对该医学资料图片进行文本区域的划分操作。
S202,确定多个分块的位置信息和类型信息,并根据位置信息和类型信息从多个分块中获取多个待合并分块。
具体地,在得到待识别的医学资料图片的多个分块之后,可确定多个分块的位置信息和类型信息。其中,确定多个分块的位置信息可通过多个分块与待识别的医学资料图片的上下左右边界的距离来确定;类型信息可根据待识别的医学资料图片的表现形式来确定。
其中,需要说明的是,多个分块的类型信息主要可包括:表格类型(table block)、文本类型(text block)、图片类型(picture block)。
进一步地,根据确定的位置信息和类型信息从多个分块中获取多个待合并分块。举例说明如下:
在多个分块中获取的两个分块,分别确定两个分块的位置信息和类型信息,并比较两个分块的位置信息和类型信息,如果比较的结果符合预设要求则确定该两个分块可以进入待合并分块的集合中。其中,预设要求可根据实际需要进行设置,在此不作具体限制。
S203,识别多个待合并分块的文本内容。
S204,根据多个待合并分块的文本内容对多个待合并分块进行合并。
具体地,在获取多个待合并分块之后,可进一步获取多个待合并分块的文本内容,进而根据获取的文本内容判定多个待合并分块是否进行合并。
可以理解,在得到多个待合并分块的文本内容之后,可将获取的多个文本内容分别进行匹配操作,如果匹配成功则可将匹配成功的待合并分块进行合并操作,以得到一个完整的文本区域。
本发明实施例的针对医学资料图片的文本识别方法,首先基于光学字符识别OCR算法对待识别的医学资料图片进行文本区域划分,得到多个分块;其次,确定多个分块的位置信息和类型信息,并根据位置信息和类型信息从多个分块中获取多个待合并分块;再次,识别多个待合并分块的文本内容;最后根据多个待合并分块的文本内容对多个待合并分块进行合并,从而有效避免因图片样式不一致,而导致对图片的文本区域的划分不准确的问题,从而提高对图片的文本区域划分精度,提升了使用体验。
下面通过图3对本发明实施例进行进一步的描述。图3为本发明另一个实施例的针对医学资料图片的文本识别方法的流程图。
如图3所示,根据本发明实施例的针对医学资料图片的文本识别方法,包括以下步骤:
S301,基于光学字符识别OCR算法对待识别的医学资料图片进行文本区域划分,得到多个分块。
S302,确定多个分块的类型信息。
其中,多个分块的类型信息至少可包括:表格类型(table block)、文本类型(textblock)、图片类型(picture block)。可以理解,该表格类型用于指示该分块的文本内容具有表格的形式,文本类型用于指示该分块的文本内容是普通的文本,图片类型用于指示该分块是图片。
S303,根据类型信息从多个分块中获取属于第一类型的多个第一分块。其中,第一类型为表格类型。
S304,确定多个第一分块的位置信息。
S305,根据多个第一分块的位置信息,从多个第一分块中获取满足第一预设条件的多个第二分块。
其中,满足第一预设条件可包括:距离医学资料图片上边界的距离值之差小于预设阈值。
需要说明的是,在本实施例中,预设阈值可以为10像素,或者15像素,可以根据实际情况设定不同的预设阈值,在此不做具体限制。
也就是说,可根据第一分块的位置信息,从该第一分块中获取距离医学资料图片上边界的距离值之差小于预设阈值的分块,将这些分块作为第二分块。可以理解,这些第二分块在医学资料图片中的位置应该相差不大,应属于同一个表格。
还需要说明的是,上述以距离医学资料图片上边界的距离值之差小于预设阈值为判定条件,来从多个第一分块中获取第二分块的方式,仅是一种示例,不能作为本发明的具体限定,即例如,还可以以距离医学资料图片下边界的距离值之差小于预设阈值为判定条件,来获取第二分块。
S306,将多个第二分块作为多个待合并分块。
可以理解,在本实施例中,根据多个第一分块的位置信息从多个第一分块中获取满足第一预设条件的多个第二分块,主要是将这些第一分块的水平横向的坐标值进行作差,并将差值与预设的某一个阈值进行比较,例如10像素,如果差值小于10像素,则可将满足该条件的第二分块作为待合并分块。
S307,识别多个待合并分块的文本内容。
S308,根据多个待合并分块的文本内容对多个待合并分块进行合并。
本实施例的针对医学资料图片的文本识别方法,通过对待识别的医学资料图片进行文本区域划分之后,对得到的多个分块类型进行确定,并根据确定的类型信息从多个分块中确定出多个第一分块,并确定多个第一分块的位置信息,根据确定的位置信息从多个第一分块中获取多个第二分块,将多个第二分块作为多个待合并分块,然后识别出多个待合并分块的文本内容,并根据多个待合并分块的文本内容实现合并操作,从而使得对待识别的医学资料图片的识别精确度更高。
图4为本发明的再一个实施例的针对医学资料图片的文本识别方法的流程图。
如图4所示,本发明实施例的针对医学资料图片的文本识别方法,包括以下几个步骤:
S401,基于光学字符识别OCR算法对待识别的医学资料图片进行文本区域划分,得到多个分块。
S402,确定多个分块的类型信息。
S403,根据类型信息从多个分块中获取属于第一类型的多个第一分块。
S404,确定多个第一分块的位置信息。
S405,根据多个第一分块的位置信息,从多个第一分块中获取满足第一预设条件的多个第二分块。
S406,将多个第二分块作为多个待合并分块。
S407,根据多个待合并分块的文本内容获取多个待合并分块中所包含的属性列。
其中,以第一类型为表格类型为例,则多个待合并分块的文本内容可为二维字符串数组,该二维字符串数组中的每列数据用于指示属于同一个属性列的数据。
作为一种示例,根据多个待合并分块的文本内容获取多个待合并分块中所包含的属性列的具体实现过程可如下:提取多个待合并分块的文本内容中各个数据的特征信息,并根据预设的决策树模型对特征信息进行预测以获取多个待合并分块中所包含的属性列。
其中,该决策树模型可以通过以下步骤预先建立:
S4071)获取样本医学资料图片,并对样本医学资料图片进行OCR识别以生成第一OCR识别结果,第一OCR识别结果为二维字符串数组,二维字符串数组中的每列数据用于指示属于同一个属性列的数据;
S4072)提取第一OCR识别结果中的各个数据的第一特征信息;
S4073)获取与第一OCR识别结果中的各个数据对应的第一标注数据,第一标注数据用于指示各个数据所属的属性;
S4074)根据第一特征信息和第一标注数据进行训练以生成用于确定OCR识别结果中数据属性的决策树模型。
由此,通过预设的决策树模型对特征信息进行预测以获取多个待合并分块中所包含的属性列可以在节省大量的获取时间,减轻了系统的运行负担。
S408,确定每个待合并分块中所包含的属性列中的首列属性,并从多个待合并分块中确定首列属性与预设首列属性不一致的待合并分块。
其中,预设首列属性可以是指表格列表中第一个属性列,例如,以医学资料图片为健康体检报告图片为例,该预设首列属性可为检测项名称。
下面以健康体检报告图片为例进行说明,假设获取的待合并分块为第一分块和第二分块,其中第一待合并分块的首列属性为检查项名称,第二待合并分块的首列属性为单位,预设首列属性为检查项名称,则可以确定出第二待合并分块的首列属性与预设首列属性不一致,其中获取的第一待合并分块和第二待合并分块中包含的属性列具体可参见图1所示。
S409,判断首列属性与预设首列属性不一致的待合并分块中的属性列是否为具有预设首列属性的待合并分块所缺少的属性列。
可以理解,判断首列属性与预设首列属性不一致的待合并分块中的属性列是否是具有预设首列属性的待合并分块所缺少的属性列的依据:例如,以健康体检报告图片为例,确定该图片中包含哪些检测项目(例如血液常规检测项目),并确定这些检测项目中所包含的所有属性列(如检测项名称、检查结果、单位、提示、参考范围),以该所包含的所有属性列为基准来判断首列属性与预设首列属性不一致的待合并分块中的属性列是否为具有预设首列属性的待合并分块所缺少的属性列。
S410,若是,则对多个待合并分块进行合并。
继续使用上述示例说明,如图1所示,由于第二待合并分块2中的首列属性与预设首列属性不一致,则进一步判定第二待合并分块2中的属性列是否为预设首列属性缺少的属性列,如果确定是预设首列属性缺少的属性列,则可将第二待合并分块2合并至与预设首列属性相同的第一待合并分块1中,具体合并的结果可参见图5所示。
本发明实施例的针对医学资料图片的文本识别方法,根据多个待合并分块的文本内容获取多个待合并分块中的属性列,并确定出每个待合并分块中属性列中的首列属性,将确定的首列属性与预设首列属性进行比对,并将不一致的待合并分块的首列属性与预设首列属性的缺少属性列进行匹配,如果匹配则将该对应的待合并分块与预设首列相同的待合并分块进行合并,从而使得不同形式医学资料图片的文本区域划分都能够准确无误的被识别,方便用户查看。
为了实现上述实施例,本发明还提出了一种针对医学资料图片的文本识别装置。
图6为本发明一个实施例的针对医学资料图片的文本识别装置的结构示意图。
如图6所示,该针对医学资料图片的文本识别装置可包括:区域划分模块110、待合并分块获取模块120、识别模块130和合并模块140。
其中,区域划分模块110用于基于光学字符识别OCR算法对待识别的医学资料图片进行文本区域划分,得到多个分块。
其中,在本实施例中,医学资料图片可以为健康体检报告图片。
具体地,基于光学字符识别OCR算法对待识别的医学资料图片进行文本区域的划分可根据待识别的医学资料图片的具体表现形式来进行划分。举例说明如下:
假设本实施例中的医学资料图片为健康体检报告图片,则确定该待识别的医学资料图片的表现形式主要是以表格形式进行具体呈现,从而光学字符识别OCR算法根据医学资料图片的表现形式对该医学资料图片进行文本区域的划分操作。
待合并分块获取模块120用于确定多个分块的位置信息和类型信息,并根据位置信息和类型信息从多个分块中获取多个待合并分块。
具体地,在得到待识别的医学资料图片的多个分块之后,可确定多个分块的位置信息和类型信息。其中,确定多个分块的位置信息可通过多个分块与待识别的医学资料图片的上下左右边界的距离来确定;类型信息可根据待识别的医学资料图片的表现形式来确定。
其中,需要说明的是,多个分块的类型信息主要可包括:表格类型(table block)、文本类型(text block)、图片类型(picture block)。
进一步地,根据确定的位置信息和类型信息从多个分块中获取多个待合并分块。举例说明如下:
在多个分块中获取的两个分块,分别确定两个分块的位置信息和类型信息,并比较两个分块的位置信息和类型信息,如果比较的结果符合预设要求则确定该两个分块可以进入待合并分块的集合中。其中,预设要求可根据实际需要进行设置,在此不作具体限制。
在本发明的一个实施例中,如图7所示,待合并分块获取模块120包括:第一确定单元121、第一获取单元122、第二确定单元123、第二获取单元124和第三获取单元125。
其中,第一确定单元121用于确定多个分块的类型信息。
其中,多个分块的类型信息至少可包括:表格类型(table block)、文本类型(textblock)、图片类型(picture block)。可以理解,该表格类型用于指示该分块的文本内容具有表格的形式,文本类型用于指示该分块的文本内容是普通的文本,图片类型用于指示该分块是图片。
第一获取单元122用于根据类型信息从多个分块中获取属于第一类型的多个第一分块。
第二确定单元123用于确定多个第一分块的位置信息。
第二获取单元124用于根据多个第一分块的位置信息,从多个第一分块中获取满足第一预设条件的多个第二分块。
其中,满足第一预设条件可包括:距离医学资料图片上边界的距离值之差小于预设阈值。
需要说明的是,在本实施例中,预设阈值可以为10像素,或者15像素,可以根据实际情况设定不同的预设阈值,在此不做具体限制。
也就是说,可根据第一分块的位置信息,从该第一分块中获取距离医学资料图片上边界的距离值之差小于预设阈值的分块,将这些分块作为第二分块。可以理解,这些第二分块在医学资料图片中的位置应该相差不大,应属于同一个表格。
还需要说明的是,上述以距离医学资料图片上边界的距离值之差小于预设阈值为判定条件,来从多个第一分块中获取第二分块的方式,仅是一种示例,不能作为本发明的具体限定,即例如,还可以以距离医学资料图片下边界的距离值之差小于预设阈值为判定条件,来获取第二分块。
第三获取单元125用于将多个第二分块作为多个待合并分块。
可以理解,在本实施例中,根据多个第一分块的位置信息从多个第一分块中获取满足第一预设条件的多个第二分块,主要是将这些第一分块的水平横向的坐标值进行作差,并将差值与预设的某一个阈值进行比较,例如10像素,如果差值小于10像素,则可将满足该条件的第二分块作为待合并分块。
识别模块130用于识别多个待合并分块的文本内容。
合并模块140用于根据多个待合并分块的文本内容对多个待合并分块进行合并。
在本发明的一个实施例中,如图8所示,合并模块140包括:获取单元141,确定单元142、判断单元143和合并单元144。
其中,获取单元141用于根据多个待合并分块的文本内容获取多个待合并分块中所包含的属性列。
其中,以第一类型为表格类型为例,则多个待合并分块的文本内容可为二维字符串数组,该二维字符串数组中的每列数据用于指示属于同一个属性列的数据。
作为一种示例,根据多个待合并分块的文本内容获取多个待合并分块中所包含的属性列的具体实现过程可如下:提取多个待合并分块的文本内容中各个数据的特征信息,并根据预设的决策树模型对特征信息进行预测以获取多个待合并分块中所包含的属性列。
其中,该决策树模型可以通过以下步骤预先建立:
S4071)获取样本医学资料图片,并对样本医学资料图片进行OCR识别以生成第一OCR识别结果,第一OCR识别结果为二维字符串数组,二维字符串数组中的每列数据用于指示属于同一个属性列的数据;
S4072)提取第一OCR识别结果中的各个数据的第一特征信息;
S4073)获取与第一OCR识别结果中的各个数据对应的第一标注数据,第一标注数据用于指示各个数据所属的属性;
S4074)根据第一特征信息和第一标注数据进行训练以生成用于确定OCR识别结果中数据属性的决策树模型。
由此,通过预设的决策树模型对特征信息进行预测以获取多个待合并分块中所包含的属性列可以在节省大量的获取时间,减轻了系统的运行负担。
确定单元142用于确定每个待合并分块中所包含的属性列中的首列属性,并从多个待合并分块中确定首列属性与预设首列属性不一致的待合并分块。
其中,预设首列属性可以是指表格列表中第一个属性列,例如,以医学资料图片为健康体检报告图片为例,该预设首列属性可为检测项名称。
下面以健康体检报告图片为例进行说明,假设获取的待合并分块为第一分块和第二分块,其中第一待合并分块的首列属性为检查项名称,第二待合并分块的首列属性为单位,预设首列属性为检查项名称,则可以确定出第二待合并分块的首列属性与预设首列属性不一致,其中获取的第一待合并分块和第二待合并分块中包含的属性列具体可参见图1所示。
判断单元143用于判断首列属性与预设首列属性不一致的待合并分块中的属性列是否为具有预设首列属性的待合并分块所缺少的属性列。
可以理解,判断首列属性与预设首列属性不一致的待合并分块中的属性列是否是具有预设首列属性的待合并分块所缺少的属性列的依据:例如,以健康体检报告图片为例,确定该图片中包含哪些检测项目(例如血液常规检测项目),并确定这些检测项目中所包含的所有属性列(如检测项名称、检查结果、单位、提示、参考范围),以该所包含的所有属性列为基准来判断首列属性与预设首列属性不一致的待合并分块中的属性列是否为具有预设首列属性的待合并分块所缺少的属性列。
合并单元144用于在判断单元判断首列属性与预设首列属性不一致的待合并分块中的属性列为具有预设首列属性的待合并分块所缺少的属性列时,对多个待合并分块进行合并。
继续使用上述示例说明,如图1所示,由于第二待合并分块2中的首列属性与预设首列属性不一致,则进一步判定第二待合并分块2中的属性列是否为预设首列属性缺少的属性列,如果确定是预设首列属性缺少的属性列,则可将第二待合并分块2合并至与预设首列属性相同的第一待合并分块1中,具体合并的结果可参见图5所示
本发明实施例的针对医学资料图片的文本识别装置,首先通过区域划分模块基于光学字符识别OCR算法对待识别的医学资料图片进行文本区域划分,得到多个分块;其次,待合并分块获取模块确定多个分块的位置信息和类型信息,并根据位置信息和类型信息从多个分块中获取多个待合并分块;再次,识别模块识别多个待合并并分块的文本内容;最后,合并模块根据多个待合并分块的文本内容对多个待合并分块进行合并,从而有效避免因图片表现形式不一致,而导致对图片的文本区域的划分不准确的问题,提高了对图片的文本区域划分精度,提升了使用体验。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (2)

1.一种针对医学资料图片的文本识别方法,其特征在于,包括以下步骤:
基于光学字符识别OCR算法对待识别的医学资料图片进行文本区域划分,得到多个分块;
确定所述多个分块的位置信息和类型信息,并根据所述位置信息和类型信息从所述多个分块中获取多个待合并分块,其中,所述确定所述多个分块的位置信息和类型信息,并根据所述位置信息和类型信息从所述多个分块中获取多个待合并分块,包括:确定所述多个分块的类型信息;根据所述类型信息从所述多个分块中获取属于第一类型的多个第一分块;确定所述多个第一分块的位置信息;根据所述多个第一分块的位置信息,从所述多个第一分块中获取满足第一预设条件的多个第二分块;将所述多个第二分块作为所述多个待合并分块,其中,所述满足第一预设条件包括:距离所述医学资料图片上边界的距离值之差小于预设阈值;
识别所述多个待合并分块的文本内容;
根据所述多个待合并分块的文本内容对所述多个待合并分块进行合并,其中,所述第一类型为表格类型,所述多个待合并分块的文本内容为二维字符串数组,所述二维字符串数组中的每列数据用于指示属于同一个属性列的数据;
所述根据所述多个待合并分块的文本内容对所述多个待合并分块进行合并,包括:
根据所述多个待合并分块的文本内容获取所述多个待合并分块中所包含的属性列;
确定每个待合并分块中所包含的属性列中的首列属性,并从所述多个待合并分块中确定首列属性与预设首列属性不一致的待合并分块;
判断所述首列属性与预设首列属性不一致的待合并分块中的属性列是否为具有所述预设首列属性的待合并分块所缺少的属性列;
若是,则对多个待合并分块进行合并;
其中,所述根据所述多个待合并分块的文本内容获取所述多个待合并分块中所包含的属性列,包括:
提取所述多个待合并分块的文本内容中各个数据的特征信息;
根据预设的决策树模型对所述特征信息进行预测以获取所述多个待合并分块中所包含的属性列;
其中,所述决策树模型通过如下方式建立:
获取样本医学资料图片,并对样本医学资料图片进行OCR识别以生成第一OCR识别结果,第一OCR识别结果为二维字符串数组,二维字符串数组中的每列数据用于指示属于同一个属性列的数据;
提取第一OCR识别结果中的各个数据的第一特征信息;
获取与第一OCR识别结果中的各个数据对应的第一标注数据,第一标注数据用于指示各个数据所属的属性;
根据第一特征信息和第一标注数据进行训练以生成用于确定OCR识别结果中数据属性的决策树模型。
2.一种针对医学资料图片的文本识别装置,其特征在于,包括:
区域划分模块,用于基于光学字符识别OCR算法对待识别的医学资料图片进行文本区域划分,得到多个分块;
待合并分块获取模块,用于确定所述多个分块的位置信息和类型信息,并根据所述位置信息和类型信息从所述多个分块中获取多个待合并分块,其中,所述待合并分块获取模块包括:
第一确定单元,用于确定所述多个分块的类型信息;
第一获取单元,用于根据所述类型信息从所述多个分块中获取属于第一类型的多个第一分块;
第二确定单元,用于确定所述多个第一分块的位置信息;
第二获取单元,用于根据所述多个第一分块的位置信息,从所述多个第一分块中获取满足第一预设条件的多个第二分块,其中,所述满足第一预设条件包括:距离所述医学资料图片上边界的距离值之差小于预设阈值;
第三获取单元,用于将所述多个第二分块作为所述多个待合并分块;
识别模块,用于识别所述多个待合并分块的文本内容;
合并模块,用于根据所述多个待合并分块的文本内容对所述多个待合并分块进行合并,其中,所述第一类型为表格类型,所述多个待合并分块的文本内容为二维字符串数组,所述二维字符串数组中的每列数据用于指示属于同一个属性列的数据;
所述合并模块包括:
获取单元,用于根据所述多个待合并分块的文本内容获取所述多个待合并分块中所包含的属性列;
确定单元,用于确定每个待合并分块中所包含的属性列中的首列属性,并从所述多个待合并分块中确定首列属性与预设首列属性不一致的待合并分块;
判断单元,用于判断所述首列属性与预设首列属性不一致的待合并分块中的属性列是否为具有所述预设首列属性的待合并分块所缺少的属性列;
合并单元,用于在所述判断单元判断所述首列属性与预设首列属性不一致的待合并分块中的属性列为所述具有所述预设首列属性的待合并分块所缺少的属性列时,对多个待合并分块进行合并;
其中,所述获取单元具体用于:
提取所述多个待合并分块的文本内容中各个数据的特征信息;
根据预设的决策树模型对所述特征信息进行预测以获取所述多个待合并分块中所包含的属性列;
其中,所述决策树模型通过如下方式建立:
获取样本医学资料图片,并对样本医学资料图片进行OCR识别以生成第一OCR识别结果,第一OCR识别结果为二维字符串数组,二维字符串数组中的每列数据用于指示属于同一个属性列的数据;
提取第一OCR识别结果中的各个数据的第一特征信息;
获取与第一OCR识别结果中的各个数据对应的第一标注数据,第一标注数据用于指示各个数据所属的属性;
根据第一特征信息和第一标注数据进行训练以生成用于确定OCR识别结果中数据属性的决策树模型。
CN201710305560.1A 2017-05-03 2017-05-03 针对医学资料图片的文本识别方法和装置 Active CN107315989B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710305560.1A CN107315989B (zh) 2017-05-03 2017-05-03 针对医学资料图片的文本识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710305560.1A CN107315989B (zh) 2017-05-03 2017-05-03 针对医学资料图片的文本识别方法和装置

Publications (2)

Publication Number Publication Date
CN107315989A CN107315989A (zh) 2017-11-03
CN107315989B true CN107315989B (zh) 2020-06-12

Family

ID=60184793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710305560.1A Active CN107315989B (zh) 2017-05-03 2017-05-03 针对医学资料图片的文本识别方法和装置

Country Status (1)

Country Link
CN (1) CN107315989B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325414A (zh) * 2018-08-20 2019-02-12 阿里巴巴集团控股有限公司 证件信息的提取方法、装置和文本信息的提取方法
CN109684610B (zh) * 2018-11-30 2023-06-16 东软集团股份有限公司 文本分块方法,装置,存储介质及电子设备
CN110263739A (zh) * 2019-06-26 2019-09-20 四川新网银行股份有限公司 基于ocr技术的图片表格识别方法
CN113496115B (zh) * 2020-04-08 2023-07-28 中国移动通信集团广东有限公司 文件内容比对方法和装置
CN112100063B (zh) * 2020-08-31 2022-03-01 腾讯科技(深圳)有限公司 界面语言的显示测试方法、装置、计算机设备和存储介质
CN113554012B (zh) * 2021-09-22 2022-01-11 江西博微新技术有限公司 三维工程中图元模型分类方法、系统、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127081A (zh) * 2006-08-14 2008-02-20 富士通株式会社 表格数据处理方法和装置
CN103186781A (zh) * 2011-12-31 2013-07-03 北京新媒传信科技有限公司 文本识别方法
CN105589841A (zh) * 2016-01-15 2016-05-18 同方知网(北京)技术有限公司 一种pdf文档表格识别的方法
CN106156761A (zh) * 2016-08-10 2016-11-23 北京交通大学 面向移动终端拍摄的图像表格检测与识别方法
CN106446881A (zh) * 2016-07-29 2017-02-22 北京交通大学 从医疗化验单图像中提取化验结果信息的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127081A (zh) * 2006-08-14 2008-02-20 富士通株式会社 表格数据处理方法和装置
CN103186781A (zh) * 2011-12-31 2013-07-03 北京新媒传信科技有限公司 文本识别方法
CN105589841A (zh) * 2016-01-15 2016-05-18 同方知网(北京)技术有限公司 一种pdf文档表格识别的方法
CN106446881A (zh) * 2016-07-29 2017-02-22 北京交通大学 从医疗化验单图像中提取化验结果信息的方法
CN106156761A (zh) * 2016-08-10 2016-11-23 北京交通大学 面向移动终端拍摄的图像表格检测与识别方法

Also Published As

Publication number Publication date
CN107315989A (zh) 2017-11-03

Similar Documents

Publication Publication Date Title
CN107315989B (zh) 针对医学资料图片的文本识别方法和装置
CN109886928B (zh) 一种目标细胞标记方法、装置、存储介质及终端设备
CN109416728A (zh) 目标检测方法、装置以及计算机系统
CN108460098B (zh) 信息推荐方法、装置和计算机设备
CN110502985B (zh) 表格识别方法、装置及表格识别设备
CN108805180B (zh) 目标对象的检测方法及装置
CN109214334B (zh) 车道线处理方法和装置
CN108573251B (zh) 文字区域定位方法和装置
US20200242398A1 (en) Information processing method and information processing system
US9792507B2 (en) Method and system for ground truth determination in lane departure warning
CN108170806B (zh) 敏感词检测过滤方法、装置和计算机设备
RU2018110079A (ru) Способ и устройство для распознавания тканей
CN107330430A (zh) 藏文字符识别装置与方法
CN116069969A (zh) 一种图像检索方法、装置及存储介质
US9846949B2 (en) Determine the shape of a representation of an object
JP4685711B2 (ja) 画像処理方法及び装置及びプログラム
CN112434582A (zh) 一种车道线颜色识别方法、系统、电子设备及存储介质
CN112418204A (zh) 基于纸质文档的文本识别方法、系统及计算机介质
CN109101973B (zh) 文字识别方法、电子设备、存储介质
CN116661786A (zh) 一种设计页面生成方法及装置
CN116229446A (zh) 路面文字识别的处理方法、装置及介质
CN110807286A (zh) 一种结构网格识别方法
CN115830025A (zh) 白细胞分类计数方法、系统、存储介质及计算机设备
CN108629786B (zh) 图像边缘检测方法及装置
US10970464B2 (en) Method, device for processing webpage content and storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant