CN115731556A

CN115731556A - 图像的处理方法、装置、电子设备及可读存储介质

Info

Publication number: CN115731556A
Application number: CN202211574341.0A
Authority: CN
Inventors: 陶提; 王永明; 杨涛
Original assignee: Zhejiang Taimei Medical Technology Co Ltd
Current assignee: Zhejiang Taimei Medical Technology Co Ltd
Priority date: 2022-12-08
Filing date: 2022-12-08
Publication date: 2023-03-03

Abstract

本说明书实施方式提供了图像的处理方法、装置、电子设备及可读存储介质，包括：接收包括有表格的图像；其中，所述表格中包括多个文本字段；针对所述图像进行文本区域识别，得到多个分别包括文本字段的目标文本区域；其中，每个所述目标文本区域包括有位置特征数据和文本特征数据；所述位置特征数据用于表征所述目标文本区域的位置；所述文本特征数据用于表征所述目标文本区域的文本字段；根据多个所述目标文本区域的位置特征数据确定所述表格的行和列；根据确定的所述表格的行和列，和所述目标文本区域中的文本特征数据，生成所述图像的表格中文本字段的结构化数据。相对于现有技术，本方法更鲁棒，准确率高。

Description

图像的处理方法、装置、电子设备及可读存储介质

技术领域

本说明书中实施方式关于深度学习技术领域，特别是关于图像的处理方法、装置、电子设备及可读存储介质。

背景技术

信息结构化是指将信息经过处理分解成多个互相关联的组成部分，各组成部分间有明确的层次结构，其使用和维护通过数据库进行管理，并有一定的操作规范。无法完全数字化的信息称为非结构化信息，如文档文件、图纸资料、缩微胶片等。

在对包括有表格的图像进行处理的技术领域中，例如，对医疗化验单图像进行处理的技术领域中，在现有技术中，对于医疗化验单图像的详情区域执行结构化的方法鲁棒性不高。

发明内容

有鉴于此，本说明书多个实施方式致力于提供一种图像的处理方法、装置、电子设备及可读存储介质，以一定程度上解决现有技术中对于化验单化验的详情区域执行结构化的方法鲁棒性不高的技术问题。

本说明书中多个实施方式提供一种图像的处理方法，包括：接收包括有表格的图像；其中，所述表格中包括多个文本字段；针对所述图像进行文本区域识别，得到多个分别包括文本字段的目标文本区域；其中，每个所述目标文本区域包括有位置特征数据和文本特征数据；所述位置特征数据用于表征所述目标文本区域的位置；所述文本特征数据用于表征所述目标文本区域的文本字段；根据多个所述目标文本区域的位置特征数据确定所述表格的行和列；根据确定的所述表格的行和列，和所述目标文本区域中的文本特征数据，生成所述图像的表格中文本字段的结构化数据。

本说明书的一个实施方式提供一种图像的处理装置，所述装置包括：接收单元，其用于接收包括有表格的图像；其中，所述表格中包括多个文本字段。识别单元，其用于针对所述图像进行文本区域识别，得到多个分别包括文本字段的目标文本区域；其中，每个所述目标文本区域包括有位置特征数据和文本特征数据；所述位置特征数据用于表征所述目标文本区域的位置；所述文本特征数据用于表征所述目标文本区域的文本字段。确定单元，其用于根据多个所述目标文本区域的位置特征数据确定所述表格的行和列。生成单元，其用于根据确定的所述表格的行和列，和所述目标文本区域中的文本特征数据，生成所述图像的表格中文本字段的结构化数据。

本说明书的一个实施方式提供一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述的一种图像的处理方法。

本说明书的一个实施方式提供一种计算机可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现所述的一种图像的处理方法。

本说明书提供的多个实施方式，通过考虑目标文本区域的位置特征数据来确定所述表格的行和列，再根据确定的所述表格的行和列以及所述目标文本区域中的文本特征数据，生成所述图像的表格中文本字段的结构化数据。该方法相对于现有技术中通过预先配置的规则来对于表格中文本字段进行信息结构化的方法，鲁棒性更高。

附图说明

图1是在一个场景示例中，应用本说明书实施方式提供的图像的处理方法的一种实施方式的示意图。

图2是在一个场景示例中，应用本说明书实施方式提供的图像的处理方法的一种实施方式的示意图。

图3为本说明书的一个实施方式提供的一种图像的处理方法的流程示意图。

图4为本说明书的一个实施方式提供的一种图像的处理方法应用环境示意图。

图5为本说明书的一个实施方式提供的一种图像的处理装置的框图。

图6为本说明书的一个实施方式提供的一种电子设备的框图。

具体实施方式

概述

在相关技术中，医疗化验单是医院出具的记载了患者的一些基本信息和具体化验项目与对应结果、单位和参考值的单据。所述基本信息包括姓名、年龄等等。在医疗化验单中，记载所述基本信息的区域一般被称为基本区域。记载所述化验项目与对应结果、单位和参考值的区域一般被称为详情区域。正如，背景技术中记载的，信息结构化是指将信息经过处理分解成多个互相关联的组成部分，各组成部分间有明确的层次结构，其使用和维护通过数据库进行管理，并有一定的操作规范。

对医疗化验单图像进行信息结构化的目的是在于对OCR输出的散乱的文本信息进行处理，以得到结构化的信息，从而满足结构化存储、检索等需求。在现有技术中，往往是采用基于规则的方式来对详情区域进行信息结构化。具体的，在一种方式中，先根据一个预先设定的表头关键词集合来确定表格的表头各个文本框，再将表头的文本框作为基准，拟合出一条线，以这个线作为基准，再根据各个文本框的坐标，确定每一行，根据表头文本框与每一行文本的投影交并比执行列的划分，从而实现行列构建。在另外一种方式中，预先设定多种医疗化验单模板和基于规则的匹配引擎。通过该医疗化验单模板和基于规则的匹配引擎来对详情区域进行信息结构化。

但是不同的医院其出具的医疗化验单中基本区域和详情区域排版布局不同。即使具有相同的排版布局，详情区域中表头的关键词不一定完全一样。例如，有的医院的医疗化验单，其基本信息区域和详情区域是左右排版，也有的医院是上下排版，还有的医院是，对于详情区域具有两个或者多个表格。除了上述的医疗信息单本身的问题，在实际的使用过程中，因为拍摄角度的问题以及ocr识别的过程中，也会出现误差，例如，两个关键词存在粘连。

综上所述，仅仅依赖规则很难覆盖现实中所有的情况。并且当获取到的样本比较多样化，而依赖的规则比较复杂时就容易出错，不鲁棒。因此，有必要提供一种图像的处理方法，可以通过考虑医疗化验单详情区域中各个字段对应文本框之间的相互位置关系来还原详情区域的表格结构。实现解决现有技术中，对于医疗化验单的详情区域执行信息结构化不鲁棒的技术问题。

场景示例

本说明书中提供一种图像的处理系统的应用场景示例，该图像处理系统可以配置在服务器中或者直接配置在终端设备中。该一种图像的处理系统具体可以参阅图1和图2。具体以所述图像处理系统配置在服务器中的情形进行举例说明。在一个场景示例中，可以通过终端设备获取医疗化验单图像，该医疗化验单图像经过网络传输至配置有所述图像处理系统的服务器中。在服务器中，该医疗化验单图像同时分别传输至预先配置好的OCR(Optical Character Recognition)识别系统和图像检测系统中。

所述的OCR识别系统主要用于对所述医疗化验单图像中的文本字段执行文字检测(Text Detection)与文字识别(Text Recognition)。其中，所述文字检测是对所述医疗化验单图像中存在的文本字段的文本区域进行定位。也即是输出所述文本字段的文本框，该文本字段可以是单个字符或者多个字符组成的文本行的文本框。所述的文字识别是对文本框中的字符执行语义的识别。所述的图像检测系统可以采用预先训练好的图像检测模型对所述医疗化验单图像执行图像检测。也即是检测所述医疗化验单图像中包括基本信息的基本区域和包括表格的详情区域。具体的，所述的OCR识别系统最后输出的结果可以是所述文本字段对应的文本框的位置特征数据和文本框中文本字段的文本特征数据。所述图像检测模型最后输出的结果可以是所述基本区域和详情区域对应检测框的位置特征数据、对应的类别标签和检测框中的图像特征数据。其中，可以将基本区域的类别标签可以赋予“1”，详情区域赋予“0”。或者其他形式的类别标签。通过所述的类别标签对基本区域和详情区域进行区分。

所述的OCR识别系统将所述医疗化验单图像中文本字段对应的文本特征数据和位置特征数据输入至预设的信息结构化模型中。所述的图像检测系统将所述基本区域和详情区域的位置特征数据、类别标签以及图像特征数据输入至所述预设的信息结构化模型中。

如图2所示。所述预设的信息结构化模型中可以配置有依次连接的特征编码网络、特征融合网络、分类器以及该分类器之后并联的基本区域解析网络和详情区域解析网络。所述的特征编码网络用于对OCR识别系统输出的文本特征数据和位置特征数据以及图像检测系统输出的图像特征数据执行特征编码，得到对应的编码特征。所述的编码特征融合网络用于对所述特征编码网络输出的文本特征编码、位置特征编码和图像特征编码执行编码特征的融合。例如，该编码特征融合网络可以采用多层双向Transformer编码模型。最后得到所述医疗化验单图像中文本字段的多模态的特征表示。所述的编码特征融合网络将所述多模态的特征表示输入至所述分类器中。所述的分类器对接收到多模态的特征表示进行分类，若该多模态的特征表示对应的文本字段属于基本区域的，则该多模态的特征表示被输入至所述基本区域解析网络进行处理。若该多模态的特征表示对应的文本字段属于详情区域，则该多模态的特征表示被输入至所述详情区域解析网络进行处理。

所述的基本区域解析网络可以为一个经过训练的线性层网络。例如，可以采用卷积神经网络中的全连接层网络。该全连接层网络用于对接收到所述多模态的特征表示进行处理，从而对文本字段进行分类。通过将文本字段区分为key(属性项)和value(属性值)，再根据预设的key-value的对应关系，将基本区域的文本字段实现信息结构化的处理，生成该基本区域的结构化数据。具体的，可以将key进一步划分为多个类别。例如，姓名的属性项类别、年龄的属性项类别、家庭住址的属性项类别。还可以将value进一步划分为多个类别。例如。姓名值的属性项值类别、年龄值的属性值类别、家庭住址值的属性值类别。其中，所述基本区域解析网络的输出维度为预先设定的文本字段的类别。

所述的详情区域解析网络也可以为一个经过训练的线性层网络。例如，可以采用一个DenseNet卷积网络。该DenseNet卷积网络主要用于对所述详情区域中任意两个文本字段的位置关系执行分类。例如，任意两个文本字段是否属于同一行、任意两个文本字段是否属于同一列、任意两个文本字段是否相邻。该DenseNet卷积网络的输出维度也可是三个维度，用于判断详情区域中任意两个文本字段的位置关系，三维数值取值为0或1，分别是否紧邻，是否位于同一行，是否位于同一列。根据该DenseNet卷积网络的输出可以进行表格的行列构建。例如，对属于同一行的文本字段按照x轴坐标进行排序，对属于同一列的文本字段按照y轴坐标进行排序，得到构建好的表格。最后根据该构建好的表格的表头实体类型来确定某一列表示的信息，以生成详情区域的结构化数据。

系统架构

如图3所示，本说明书实施方式提供一种图像的处理系统，该图像的处理系统可以包括客户端和服务器。服务器可以是具有一定运算处理能力的电子设备。比如服务器可以为分布式系统的服务器，可以是具有多个处理器、存储器、网络通信模块等协同运作的系统。服务器也可以是云服务器，或者是带人工智能技术的智能云计算服务器或智能云主机。服务器也可以是为若干服务器形成的服务器集群。或者，随着科学技术的发展，服务器还可以是能够实现说明书实施方式相应功能的新的技术手段。例如，可以是基于量子计算实现的新形态的“服务器”。

在本说明书实施方式中，客户端可以是具有网络访问能力的电子设备。具体的，例如，客户端可以是台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、导购终端、电视机、等。或者，客户端也可以为能够运行于所述电子设备中的软件。

网络可以是任何类型的网络，其可以使用多种可用协议中的任何一种(包括但不限于TCP/I P、SNA、I PX等)来支持数据通信。一个或多个网络可以是局域网(LAN)、基于以太网的网络、令牌环、广域网(WAN)、因特网、虚拟网络、虚拟专用网络(VPN)、内部网、外部网、公共交换电话网(PSTN)、红外网络、无线网络(例如蓝牙、WI FI)和/或这些和/或其他网络的任意组合。

图像的处理系统还可以包括一个或多个数据库。数据库可以驻留在各种位置。例如，由服务器使用的数据库可以在服务器本地，或者可以远离服务器且可以经由基于网络或专用的连接与服务器通信。数据库可以是不同的类型。在某些实施例中，由服务器使用的数据库可以为关系数据库。这些数据库中的一个或多个可以响应于命令而存储、更新和检索到数据库以及来自数据库的数据。

示例的方法

本说明书的一个实施方式提供一种图像的处理方法。所述图像的处理方法可以应用于服务器中。所述方法可以包括以下步骤。

步骤S101：接收包括有表格的图像；其中，所述表格中包括多个文本字段。

在一些情况下，需要对一些具有表格的图像进行处理，用以生成该图像中文本字段的结构化数据。特别是表格中文本字段的结构化数据。例如，在临床研究、健康险理赔等业务场景中。患者所提供的医疗化验单通常为图片或PDF格式的扫描件，医生或业务人员需要将医疗化验单信息进行手工录入，比较耗时且容易出错。对于医疗化验单中的详情区域往往是需要关注的重点，而该详情区域往往采用表格的形式，对于表格，同一行中各个文本字段具有对应关系，同一列的文本字段也具有对应关系。具体的，例如，对于某一医疗化验单的详情区域，表头可以是“检验项目”、“结果”、“缩写”和“参考值”。第一行可以有“白细胞计数”，“7.32”。因此，“白细胞计数”与“检验项目”构成一对符合预设key-value的结构化数据。相应的，“7.32”与“结果”构成一对符合预设key-value的结构化数据。

“7.32”与“白细胞计数”也构成了一对符合预设key-value的结构化数据。因此，需要一种鲁棒性比较高和准确率也比较高的方法来对包括有表格的图像进行处理，用以生成表格中文本字段的结构化数据。

在本实施方式中，所述图像可以为医疗领域中的医疗化验单图像，也可以为金融保险领域的票据图像，还可以为日常生活中可能涉及到表单图像。所述图像可以是通过拍摄装置，例如相机，对纸质的医疗化验单进行拍摄得到的，还可以是将纸质的医疗化验单进行扫描得到的。所述图像的格式可以采用多种，例如，JPEG格式、TIFF格式、RAW格式等。

所述表格可以表示在视觉上被行与列划分成多个子区域的区域。所述表格可以采用实线或者点划线来表示行、列和外框。也可以采用虚线进行表示。还可以不采用肉眼可见的线条。所述的子区域中均设置有所述的文本字段，也可以部分的子区域中设置有所述的文本字段。所述的表格之外还可以设置有文本字段。所述表格还可以表示为对于多个文本字段进行管理的工具。

在本实施方式中，所述文本字段用于表示一定语义信息的字符。该字符可以是单个字符，两个字符，或者多个字符构成的文本行。该字符可以是汉语，也可以是英语，还可以是阿拉伯数字等。例如，对于医疗化验单图像中的文本字段，可以包括：“白细胞计数”、“7.32”、“L”，其中，所述的“白细胞计数”用于表示具体的化验项目。所述“7.32”用于表示“白细胞计数”的结果。所述“L”用于表示所述“7.32”的单位。

步骤S102：针对所述图像进行文本区域识别，得到多个分别包括文本字段的目标文本区域。其中，每个所述目标文本区域包括有位置特征数据和文本特征数据；所述位置特征数据用于表征所述目标文本区域的位置；所述文本特征数据用于表征所述目标文本区域的文本字段。

在一些情况下，当需要生成图像中文本字段的结构化数据。需要对图像中的文字字段进行处理。需要将图像中显示的文本字段处理成可编辑的文本字段。用以便于后续的处理。

所述的文本识别表示为针对所述的图像中文本字段执行识别的处理。所述文本识别包括执行文字检测与文字识别。所述的文字检测表示为对所述图像中的文本字段执行定位。所述的定位可以包括通过一个矩形或者其他形状的文本框将所述的文本字段在图像中进行定位。所述的文本框中显示有所述的文本字段。所述的文字识别表述为对所述文本框中显示的文本字段执行文字字符的识别。将所述文本框中显示的文本字段转化为可编辑的字符信息。所述的文本识别可以采用光学字符识别的技术对于定位到文本字段执行识别。在一些实施方式中，所述的文字检测可以采用基于DBNet的文字检测算法，也可以采用基于CTPN的文字检测算法。所述的文字识别可以采用基于CTC文字识别方法，也可以采用基于Attention文字识别方法。在一些实施方式中，还可以直接调用一些现有的OCR识别平台用以实现所述的文本识别。所述的现有的OCR识别平台可以采用，例如，谷歌开源OCR引擎(Tesseract)、百度开放平台(PaddleOCR)以及商汤科技OpenMM(MMOCR)等。

所述的目标文本区域表示为在所述图像的表格中显示有所述文本字段的区域。所述的目标文本区域中可以显示有两个汉字构成的词组，例如“缩写”。也可以是单个的英文单词，例如，“L”。也可以是由多个阿拉伯数字构成的文本行，例如“130-175g/l”。所述的目标文本区域可以显示为矩形或者其他形状的形式。所述的目标文本区域的边界可以为所述的文本框。

所述位置特征数据可以是所述目标文本区域的具体坐标数值。例如，当所述的目标文本区域的形状为矩形时，所述位置特征数据可以是所述目标文本区域中任一对角线上两个的顶点的横纵坐标，还可以是某一顶点的横纵坐标和所述目标文本区域的长与宽的数值。当所述的目标文本区域的形状为圆形时，所述位置特征数据可以是所述目标文本区域圆心的坐标和半径。所述的位置特征数据还可以是所述目标文本区域具体坐标数值的位置编码。例如，将所述图像输入至ocr识别系统中进行识别，得到所述图像的表格中各个文本字段的文本框，以及文本框的具体坐标数值。该具体坐标数值可以包括左上角坐标(x₀,y₀)和右下角坐标(x₁,y₁)。再将每个坐标值归一化到0-1000之间。即可得到所述目标文本区域具体坐标数值的位置编码。

所述文本特征数据能够表征所述文本字段的具体文本内容，具有将文本字段与其他文本字段进行区分的能力。得到所述文本特征数据的过程是将一个人类视觉上能够识别和理解的文本字段转化为计算机能够理解的信息。也即是，对文本字段进行一些抽象的处理，用以描述所述的文本字段，从而使得计算机能够理解。具体的，所述文本特征数据可以是基于所述目标文本区域的文本字段提取得到的语义特征。所述文本特征数据还可以是针对所述目标文本区域的文本字段所表示的具体文本内容进行编码，得到文本内容编码。例如，可以将所述目标文本区域的文本字段输入至编码网络中进行编码，得到所述文本字段对应的特征向量。所述的编码网络可以采用基于双向长短时记忆网络。还可以是将所述目标文本区域的文本字段输入至词向量模型(word2vec)中进行处理，从而将所述文本字段映射到语义空间中。再使用一个卷积层进行文本序列的建模。所述词向量模型可以用于映射每个文本字段到一个向量，可用来表示词文本字段与文本字段之间的关系。

步骤S103：根据多个所述目标文本区域的位置特征数据确定所述表格的行和列。

在一些情况下，当需要生成图像的表格中文本字段的结构化数据时，往往需要先构建该表格的行与列。在得到该表格行与列的信息的前提下，才便于生成所述表格中文本字段的结构化数据。在现有方式中，往往采用基于规则的方式，构建所述表格的行与列。例如。有的方式是先根据一个预设的表头关键词集合来确定所述表格中的表头。再根据该表头拟合出一条基准线。以该基准线为基准并且根据各个文本框的坐标，来确定每一行的文本框。最后根据表头中文本框与每一行文本框的投影交并比执行表格中列的划分。从而实现表格的行与列的构建。也有的方式是预先设定多种表格模板和基于规则的匹配引擎。通过该表格模板和基于规则的匹配引擎来实现表格的行与列的构建。但是上述的方式依赖预先设置的规则。对于基于规则来实现表格的行与列构建的方法中，一旦样本数量众多，或者规则过于复杂。这种方法的鲁棒性往往不高。在本方法中，通过考虑所述表格中文本字段的位置特征数据，来生成所述表格中的行与列。能够很好的避免上述方法中鲁棒性不高的缺陷。在一些实施方式中，还可以通过所述表格中文本字段的位置特征数据、文本特征数据和图像特征数据的融合特征数据来生成所述表格的行和列。

所述确定的动作可以表示为针对所述的多个目标文本区域，通过根据多个所述目标文本区域的位置特征数据，来判断其中任意两个目标文本区域的相对位置关系。该相对位置关系可以表示为任意两个目标文本区域是否处于同一行、是否处于同一列、是否相邻。根据该相对位置关系，对属于同一行的目标文本区域，可以按照x轴的坐标进行排序。相应的，对属于同一列的目标文本区域，可以按照y轴的坐标进行排序。从而确定所述表格的行和列。在一些实施方式中，可以将多个所述目标文本区域的位置特征数据输入至线性层中进行处理。该线性层网络的输出有三个维度。三维数值取值为0或者1，分别是否紧邻，是否位于同一行，是否位于同一列。

步骤S104：根据确定的所述表格的行和列，和所述目标文本区域中的文本特征数据生成所述图像的表格中文本字段的结构化数据。

在一些情况下，当确定了表格的行和列之后，还不足以生成图像的表格中文本字段的结构化数据。还需要确定所述表格中文本字段的具体文本内容。

所述的结构化数据可以表示为能够存储在数据库中，并且支持数据库管理的一种数据。所述的管理可以表示为对结构化数据的增删查改。例如，在某医疗化验单图像的表格中具有如表1所示的部分。

表1

检验项目	缩写	结果	参考值	单位
					单核细胞数	MONOX	0.39	0.10-0.60	10^9/L

相应的，该表1的结构化数据可以表示为：

“ltX”：788，

“ltY”：371，

“brX”：947，

“brY”：397，

“name”：“单核细胞数”，

“value”：“0.39”，

“abbr”：“MONOX”，

“refer”：“0.10-0.60”，

“unit”：“10^9/L”。

从上述的结构化数据可以看出，前四行数据表示为表1中文本字段“单核细胞数”在图像中的具体坐标值。后五行数据表示为文本字段“单核细胞数”与其他文本字段的对应关系。在结构化数据中，可以将“name”定义为属性项。则“单核细胞数”为对应的属性值，该“name”的属性值可以有多个子类，比如“白细胞数”、“血小板数”等。也可以将“单核细胞数”定义为属性项，则“单核细胞数”对应的属性值的类别也可以有多个子类，具体为：“0.39”、“MONOX”、“0.10-0.60”和“10^9/L”。

所述的生成的动作可以表示为针对所述的包括有表格的图像执行上述方法中的处理，从而得到所述表格中文本字段的结构化数据的过程。在一些实施方式中，生成的表格中文本字段的结构化数据可以存储在数据库中，还可以根据该结构化数据，在所述图像中形成肉眼可见的表格结构。

在所述步骤S103中确定了所述表格的行与列之后，可以根据该表格的首行来获取每一列所表示的内容。例如，可以根据所述文本特征数据的标签类别确定出该表格表头中文本字段表达的具体文本内容。所述的标签类别可以是所述表格中表头的实体类型。具体的，可以将医疗化验单图像的表头中各个文本区域对应的文本特征数据输入至预先训练的文本卷积神经网络中进行分类，得到对应的标签类别。该文本卷积卷积神经网络在训练时可以采用有监督的训练，所述的实体类型可以作为训练的标签。例如，所述的实体类型可以是“检验项目”、“缩写”、“结果”等等。

在一些实施方式中，所述图像还包括位于所述表格之外的多个文本字段；所述针对所述图像进行文本区域识别，得到多个分别包括文本字段的目标文本区域的步骤，包括：针对所述图像进行文本区域识别，得到多个分别包括文本字段的文本区域。识别所述多个分别包括文本字段的文本区域对应的类别标签；其中，位于所述表格中的文本区域的类别标签与位于所述表格之外的文本区域的类别标签不相同；根据所述的类别标签，将位于所述表格中的文本区域确定为目标文本区域。

在一些情况下，对于包括有表格的图像，该图像中除了表格中具有文本字段，表格之外还可能具有文本字段。而表格之中的文本字段往往是需要关注的重点。例如，对于医疗化验单图像，表格之中的文本字段往往表示“检验项目”、“结果”、“缩写”和“参考值”等信息。这些信息往往是需要关注的重点。

所述的文本区域表示为包括了表格内文本字段的目标文本区域和表格之外的文本字段的文本区域。例如，在一个医疗化验单图像中，表格之外的文本字段往往是“姓名”、“年龄”和“性别”等表达基本信息的文本字段。这些文本字段对于生成表格中文本字段的结构化数据没有帮助。因此，不是所述的目标文本区域。

所述识别的动作可以表示为将所述图像中表格所在的区域和表格之外文本字段所在的区域进行区分的动作。通过该区分的动作，最后得到的可以是表格所在的区域和表格之外文本字段所在的区域对应的类别标签。具体的，可以通过一个预先训练的目标检测模型来对所述图像进行识别。该目标检测模型最后输出可以是检测框的形式。其中一种检测框中包括有所述的表格所在的区域。另外一种检测框中包括有表格之外文本字段所在的区域。不同的检测框对应有不同的类别标签。具体的，所述目标检测模型可以采用Darknet53网络提取图像特征，然后用特征金字塔网络(Feature Pyramid Network,FPN)融合提取的不同尺度的图像特征，对融合后的图像特征进行卷积操作，输出维度为四个坐标值+类别标签+180个角度值。

所述的类别标签表示为用于区分图像中所述表格所在的区域和表格之外文本字段所在区域的标识。在该方法中，在所述针对所述图像进行文本区域识别，得到多个分别包括文本字段的文本区域的步骤中，得到了所述图像中表格之外文本字段的文本区域，以及表格之内文本字段的文本区域。根据该列表标签，即可将两种文本区域进行区分，从而得到所述的目标文本区域。具体的，可以通过所述的目标检测模型对所述图像进行检测，从而得到所述表格所在区域的检测框。以及该检测框对应的四个坐标值和类别标签。因此可以根据该四个坐标值和类别标签以及所述文本区域对应的位置特征数据，确定所述的目标文本区域。

该方法考虑了图像中表格之外还存在文本字段的情形。通过识别所述多个分别包括文本字段的文本区域对应的类别标签来区分表格之中的文本字段和表格之外的文本字段。具有很好的使用价值，也进一步提高了方法的适用场景。

在一些实施方式中，所述图像还包括位于所述表格之外的多个文本字段；所述针对所述图像进行文本区域识别，得到多个分别包括文本字段的目标文本区域的步骤，包括：确定所述图像中属于所述表格的表格区域；针对所述表格区域进行文本区域识别，得到多个分别包括文本字段的目标文本区域。

在一些情况下，对于包括有表格的图像，该图像中除了表格中具有文本字段，表格之外还可能具有文本字段。然而表格之外的文本字段可能并不需要生成对应的结构化数据。相应的表格之中的文本字段往往是需要关注的重点，是需要生成对应的结构化数据。因此，可以在具体执行文本区域识别的操作之前，将表格区域和非表格区域进行区分。只针对表格区域进行文本区域识别。因为表格区域中的文本字段需要生成对应的结构化数据。而表格之外的文本字段可能并不需要生成对应的结构化数据。

所述表格区域表示为在所述图像中所述表格显示的区域。所述的显示可以表示为人类通过肉眼可以在显示屏上直接观察到的。所述确定的动作可以表示为针对所述图像执行处理，从而得到表格所在区域的动作。具体的，可以采用上述的经过预先训练的目标检测模型对图像进行检测，得到所述表格所在区域的检测框。再对检测框进行裁剪，从而实现确定所述图像中属于所述表格的表格区域。还可以直接采用经过预先训练的图像分割模型对所述图像进行分类和分割的处理。从而实现确定所述图像中属于所述表格的表格区域。

该方法同样考虑到了表格之外具有文本字段的情况。在有些情况下，表格之外的文本字段可能并不需要生成对应的结构化数据。因此，可以将所述表格的表格区域和表格之外文本字段的文本区域进行区分。针对表格区域进行文本区域识别，从而得到目标文本区域。该种方法相对于直接针对整个图像进行文本识别，节省了文本识别的计算量，计算时间和计算资源。具有很好的实际应用价值。

在一些实施方式中，所述的图像为医疗化验单图像；所述医疗化验单图像包括详情区域；其中，所述详情区域包括所述表格和所述表格中包括的多个文本字段。

在一些情况下，医疗化验单图像中往往具有一个表示具体表示化验项目的区域，这个区域可以称之为详情区域。该详情区域中往往具有一个表格，表格中具有具体表示化验项目具体信息的文本字段。例如，“化验项目”、“结果”、“缩写”和“参考值”等信息。而“结果”和“参考值”对应的具体属性值往往是由多个阿拉伯数字和符号构成的文本行。对于医疗化验单图像除了详情区域具有文本字段。详情区域之外也往往具有文本字段。这个区域可以称之为基本区域。基本区域可以在详情区域的上方，也可以是下方，还可以是四周等等。对于一个医疗化验单图像来说，其对应的使用者可能是患者，也可能是医生，但不管是患者还是医生，他们往往更关注详情区域中的信息。例如，他们可能更关注“结果”对应的属性值是否属于“参考值”对应属性值的区间之内。因此，生成详情区域中的结构化数据非常重要，并且生成的结构化数据的准确性也很重要。

本方法考虑到了医疗化验单图像的特殊性。针对医疗化验单图像采用本方法能够准确的生成医疗化验单图像详情区域中文本字段的结构化数据，满足使用者的需要。具有很好的实用价值。

在一些实施方式中，所述的图像为医疗化验单图像，所述医疗化验单图像包括基本区域；其中，所述基本区域包括所述表格之外的多个文本字段，所述方法还包括：确定所述图像中的基本区域；针对所述基本区域进行文本区域识别，得到多个分别包括文本字段的文本区域；根据所述基本区域中的文本区域对应的文本特征数据，生成所述基本区域中文本字段的结构化数据。

在一些情况下，对于医疗化验单图像的基本区域，其包括的文本字段往往是“姓名”、“年龄”、“性别”等。这些文本字段可能并不是使用者关注的重点，但是从结构化数据的管理角度发出，这些基本区域的文本字段同样需要生成对应的结构化数据。因为将表格中文本字段的结构化数据存储在数据库中时，只有对应了具体患者姓名，该结构化数据才是一个有效的信息。一个没有任何患者基本信息的结构化数据无法实现有效的管理。

所述基本区域可以在所述表格的上方，也可以在所述下方，还可以在所述表格的两侧。所述基本区域可以是一块区域，也可以是多块区域。

在所述根据所述基本区域中的文本区域对应的文本特征数据，生成所述基本区域中文本字段的结构化数据的步骤中，可以通过预设的key-value的对应关系将基本区域中的文本字段划分为属性项和属性项对应的属性值。从而实现生成所述基本区域中文本字段的结构化数据。更具体的说，对于属性项可以进一步划分为多个属性项类别，比如，作为属性项的“年龄”、“性别”和“姓名”，可以进一步划分为三个属性项类别：年龄项类别、性别项类别、姓名项类别。对于属性值，也可以进一步划分为多个属性值类别，比如，将属性项“年龄”、“性别”和“姓名”分别对应的属性值，划分为三个属性值类别：年龄值类别、性别值类别、姓名值类别。年龄项类别与年龄值类别具有对应关系。性别项类别与性别值类别具有对应关系。姓名项类别与姓名值类别具有对应关系。

在上述的一种图像的处理方法中，还可以通过预设的key将详情区域中的文本字段的类型进行判别。更具体的说，对key可以进一步划分为：项目名称，结果，单位等。

在该方法中，考了到了对于一个医疗化验单图像。在生成了详情区域对应的结构化数据后，从该结构化数据有效管理的角度出发，基本区域的文本字段同样需要进行结构化。以此方便对于所述详情区域对应的结构化数据的有效管理。该方法具有较高的实际应用价值。

在一些实施方式中，在所述针对所述图像进行文本区域识别，得到多个分别包括文本字段的目标文本区域的步骤之后，还包括：检测所述图像中所述表格的倾斜角度值；其中，所述倾斜角度值表示为所述表格相对于所述图像中横轴或者纵轴的倾斜角度值。根据所述倾斜角度值修正所述目标文本区域与所述图像中横轴或者纵轴之间夹角的角度值。

在一些情况下，实际获取到的图像可能因为拍摄角度的问题或者扫描角度的问题，使得所述图像中表格和表格中的文本字段存在一定程度的倾斜。虽然在现有技术当中，可以采用一些图像预处理的技术将所述图像中的表格和表格中的文本字段进行一些矫正。对整张图进行矫正的方法会受到背景和非表格区域的干扰，导致矫正之后，依旧存在一些倾斜角度。而且在一些情况下，对于具有表格的图像在经过了上述的预处理之后，表格中单元格与单元格之间的文本字段可能会存在串行或者粘连的情况。因此，需要一种新的矫正方法来解决这个问题。

所述的倾斜角度值可以是所述表格的底边与所述图像横轴之间的夹角。也可以是所述表格的侧边与所述图像纵轴之间的夹角。

所述的检测可以表示为针对所述图像中的表格执行目标检测，获取所述表格的倾斜角度值。具体的，可以使用Darknet53网络提取所述图像的图像特征，然后用特征金字塔网络融合提取的不同尺度的图像特征，对融合后的图像特征进行卷积操作，输出维度为四个坐标值+类别标签+180个角度值。

本方法相对于现有的方法直接对目标文本区域进行矫正而不是对整个图像进行矫正。基于该种方法进行的图像处理，矫正的效果更好。并且不会使得相邻两个文本区域中的文本字段发生上述的串行或者粘连的情况。具有很高的实用价值。

在一些实施方式中，所述根据确定的所述表格的行和列，和所述目标文本区域中的文本特征数据，生成所述图像中表格的结构化数据的步骤，包括：提取所述目标文本区域的图像特征数据；其中，所述图像特征数据用于表征所述目标文本区域中文本字段的像素信息。根据所述表格的行和列、所述目标文本区域中的文本特征数据以及所述目标文本区域的图像特征数据，生成所述图像的表格中文本字段的结构化数据。

在一些情况下，在生成表格中文本字段的结构化数据的过程中，通过引入目标文本区域的图像特征数据，用于和目标文本区域中的文本特征数据组成一个多模态的特征数据。该多模态的特征数据可以是融合特征数据。通过针对该融合特征数据生成所述图像的表格中文本字段的结构化数据，往往具有比较高的准确率。

所述图像特征数据表示为所述目标文本区域所在图像中的图像特征数据。该图像特征数据可以是图像特征，也可以是图像特征的图像编码特征。具体的说，所述的图像特征可以包括图像的颜色特征、纹理特征和形状特征。所述的图像特征可以通过目标检测网络提取得到。例如，可以采用使用Darknet53网络提取图像特征。所述的图像编码特征可以使用目标检测网络的骨干卷积神经网络提取整个输入图像的特征，由于卷积神经网络具有相对位置不变性。因此，可以结合ocr系统获取的坐标信息来获取每个文本区域的图像特征。为了保证每个文本区域图像特征维度一致，对每个文本区域的图像特征使用ROI Align操作来获得最终每个文本区域固定维度的图像编码特征。在一些实施方式中，可以将每个文本区域的图像特征和语义特征进行拼接，将拼接后的拼接特征作为文本区域对应的融合特征。或者，将将每个文本区域的图像特征和语义特征进行克罗内克积，作为文本区域对应的融合特征。还可以是，将每个文本区域的四个位置编码和文本内容编码进行融合输入到多层双向Transformer编码模型来获取位置和文本融合后的特征编码，将融合后的特征编码与图像特征编码进行融合获取每个文本区域最终的融合特征。

该方法相对于针对单一模态的特征数据生成文本字段的结构化数据的方法。通过模态多特征数据的融合，提升了生成文本字段的结构化数据的准确性。能最大程度的利用，原始图像所表达的特征。具有很好的实用价值。

示例的装置、电子设备、存储介质和软件

如图5所示，本说明书的一个实施方式还提供一种图像的处理装置。所述图像的处理装置可以包括：接收单元、识别单元、确定单元和生成单元。接收单元，其用于接收包括有表格的图像；其中，所述表格中包括多个文本字段。识别单元，其用于针对所述图像进行文本区域识别，得到多个分别包括文本字段的目标文本区域；其中，每个所述目标文本区域包括有位置特征数据和文本特征数据；所述位置特征数据用于表征所述目标文本区域的位置；所述文本特征数据用于表征所述目标文本区域的文本字段。确定单元，其用于根据多个所述目标文本区域的位置特征数据确定所述表格的行和列。生成单元，其用于根据确定的所述表格的行和列，和所述目标文本区域中的文本特征数据，生成所述图像的表格中文本字段的结构化数据。

如图6所示，本说明书实施方式还提供一种电子设备，该电子设备可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。本实施方式中的电子设备可以包括一个或多个如下部件：处理器、网络接口、内存、非易失性存储器以及一个或多个应用程序，其中一个或多个应用程序可以被存储在非易失性存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

本说明书实施方式还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得，该计算机执行上述任一实施方式中的图像的处理方法。

本说明书实施方式还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述任一实施方式中的图像的处理方法。

可以理解，本文中的具体的例子只是为了帮助本领域技术人员更好地理解本说明书实施方式，而非限制本发明的范围。

可以理解，在本说明书中的各种实施方式中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本说明书实施方式的实施过程构成任何限定。

可以理解，本说明书中描述的各种实施方式，既可以单独实施，也可以组合实施，本说明书实施方式对此并不限定。

除非另有说明，本说明书实施方式所使用的所有技术和科学术语与本说明书的技术领域的技术人员通常理解的含义相同。本说明书中所使用的术语只是为了描述具体的实施方式的目的，不是旨在限制本说明书的范围。本说明书所使用的术语“和/或”包括一个或多个相关的所列项的任意的和所有的组合。在本说明书实施方式和所附权利要求书中所使用的单数形式的“一种”、“上述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

可以理解，本说明书实施方式的处理器可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施方式的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施方式中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施方式所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解，本说明书实施方式中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasablePROM，EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本领域普通技术人员可以意识到，结合本文中所公开的实施方式描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本说明书的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施方式中的对应过程，在此不再赘述。

在本说明书所提供的几个实施方式中，应所述理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本说明书各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本说明书的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的部分可以以软件产品的形式体现出来，所述计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本说明书的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本说明书揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本说明书的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种图像的处理方法，其特征在于，包括：

接收包括有表格的图像；其中，所述表格中包括多个文本字段；

针对所述图像进行文本区域识别，得到多个分别包括文本字段的目标文本区域；其中，每个所述目标文本区域包括有位置特征数据和文本特征数据；所述位置特征数据用于表征所述目标文本区域的位置；所述文本特征数据用于表征所述目标文本区域的文本字段；

根据多个所述目标文本区域的位置特征数据确定所述表格的行和列；

根据确定的所述表格的行和列，和所述目标文本区域中的文本特征数据，生成所述图像的表格中文本字段的结构化数据。

2.根据权利要求1所述的方法，其特征在于，所述图像还包括位于所述表格之外的多个文本字段；所述针对所述图像进行文本区域识别，得到多个分别包括文本字段的目标文本区域的步骤，包括：

针对所述图像进行文本区域识别，得到多个分别包括文本字段的文本区域；

识别所述多个分别包括文本字段的文本区域对应的类别标签；其中，位于所述表格中的文本区域的类别标签与位于所述表格之外的文本区域的类别标签不相同；

根据所述的类别标签，将位于所述表格中的文本区域确定为目标文本区域。

3.根据权利要求1所述的方法，其特征在于，所述图像还包括位于所述表格之外的多个文本字段；所述针对所述图像进行文本区域识别，得到多个分别包括文本字段的目标文本区域的步骤，包括：

确定所述图像中属于所述表格的表格区域；

针对所述表格区域进行文本区域识别，得到多个分别包括文本字段的目标文本区域。

4.根据权利要求2或者3所述的方法，其特征在于，所述的图像为医疗化验单图像；所述医疗化验单图像包括详情区域；其中，所述详情区域包括所述表格和所述表格中包括的多个文本字段。

5.根据权利要求1所述的方法，其特征在于，所述的图像为医疗化验单图像，所述医疗化验单图像包括基本区域；其中，所述基本区域包括所述表格之外的多个文本字段，所述方法还包括：

确定所述图像中的基本区域；

针对所述基本区域进行文本区域识别，得到多个分别包括文本字段的文本区域；

根据所述基本区域中的文本区域对应的文本特征数据，生成所述基本区域中文本字段的结构化数据。

6.根据权利要求1所述的方法，其特征在于，在所述针对所述图像进行文本区域识别，得到多个分别包括文本字段的目标文本区域的步骤之后，还包括：

检测所述图像中所述表格的倾斜角度值；其中，所述倾斜角度值表示为所述表格相对于所述图像中横轴或者纵轴的倾斜角度值；

根据所述倾斜角度值修正所述目标文本区域与所述图像中横轴或者纵轴之间夹角的角度值。

7.根据权利要求1所述的方法，其特征在于，所述根据确定的所述表格的行和列，和所述目标文本区域中的文本特征数据，生成所述图像中表格的结构化数据的步骤，包括：

提取所述目标文本区域的图像特征数据；其中，所述图像特征数据用于表征所述目标文本区域中文本字段的像素信息；

根据所述表格的行和列、所述目标文本区域中的文本特征数据，生成所述图像的表格中文本字段的结构化数据。

8.一种图像的处理装置，其特征在于，所述装置包括：

接收单元，其用于接收包括有表格的图像；其中，所述表格中包括多个文本字段；

识别单元，其用于针对所述图像进行文本区域识别，得到多个分别包括文本字段的目标文本区域；其中，每个所述目标文本区域包括有位置特征数据和文本特征数据；所述位置特征数据用于表征所述目标文本区域的位置；所述文本特征数据用于表征所述目标文本区域的文本字段；

确定单元，其用于根据多个所述目标文本区域的位置特征数据确定所述表格的行和列；

生成单元，其用于根据确定的所述表格的行和列，和所述目标文本区域中的文本特征数据，生成所述图像的表格中文本字段的结构化数据。

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。