CN113920512B

CN113920512B - 一种图像识别的方法及装置

Info

Publication number: CN113920512B
Application number: CN202111488891.6A
Authority: CN
Inventors: 王伟伟; 王腾飞
Original assignee: Gongdao Network Technology Co ltd
Current assignee: Gongdao Network Technology Co ltd
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2022-03-15
Anticipated expiration: 2041-12-08
Also published as: CN113920512A

Abstract

本说明书提供一种图像识别的方法及装置，所述方法包括：接收用户输入的图像，检测出所述图像中的有效区域，所述有效区域包括文本区域、图像区域；确定所述有效区域的信息类型；基于所述有效区域的位置信息和信息类型，以语义逻辑关系为划分依据，将所述有效区域划分为若干区域集合；针对每个区域集合，基于该集合中各有效区域中的文本内容或图像，以及各有效区域的位置信息识别出所述图像携带的信息。应用本申请所提供的技术方案，可识别出图像携带的信息，以供后续基于所述图像携带的信息自动完成信息录入，可使得信息录入更为快捷，减少了工作人员的时间与精力的消耗。

Description

一种图像识别的方法及装置

技术领域

本申请涉及图像识别技术领域，尤其涉及一种图像识别的方法及装置。

背景技术

随着信息技术的不断发展，其技术含量及复杂程度也越来越高，智能化的概念开始逐渐渗透到各行各业以及我们生活中的方方面面。在很多场景中，需要将信息上传至计算机设备进行存储，方便后续使用。其中，信息不乏各种图像，如：身份证图像、结婚证图像、行驶证图像和驾驶证图像等等，但在很多系统中，将图像上传后，可能要再填写图像上已有的信息。

例如，随着法院智能化立案的持续推进，法院会要求相关工作人员将案件信息输入到诉讼系统中。然而在实际应用中，工作人员不仅需要把上诉人提交的身份证明文件的图像上传至系统，还需要在系统中手动输入身份证明文件上的信息。这种将案件信息输入到诉讼系统的方式，无疑浪费了大量的时间与人力，立案时间长且立案效率低。

发明内容

有鉴于此，本申请提供了一种图像识别的方法及装置，以节省信息录入消耗的时间，同时节省人力。

根据本申请的第一方面，提供一种图像识别的方法，应用于计算机设备，所述方法包括：

接收用户输入的图像，检测出所述图像中的有效区域，所述有效区域包括文本区域、图像区域；

确定所述有效区域的信息类型；

基于所述有效区域的位置信息和信息类型，以语义逻辑关系为划分依据，将所述有效区域划分为若干区域集合；

针对每个区域集合，基于该集合中各有效区域中的文本内容或图像，以及各有效区域的位置信息识别出所述图像携带的信息。

可选的，所述基于所述有效区域的位置信息和信息类型以语义逻辑关系为划分依据，将所述有效区域划分为若干区域集合，包括：

基于所述有效区域的位置信息，对各个有效区域进行编号；

根据所述有效区域的信息类型，按照编号顺序判断当前有效区域与其一阶邻居有效区域是否具有语义逻辑关系；

在当前有效区域与一阶邻居有效区域具有语义逻辑关系的情况下，将一阶邻居有效区域划分至当前有效区域所在的集合中，并将所述一阶邻居有效区域更新为新的当前有效区域；

在当前有效区域与一阶邻居有效区域不具有语义逻辑关系的情况下，确定当前有效区域所在集合划分完毕，并将所述一阶邻居有效区域更新为新的当前有效区域。

可选的，所述基于所述有效区域的位置信息，对各个有效区域进行编号，包括：

根据各个有效区域的位置信息，按照从左到右、从上至下的顺序对各个有效区域依次进行有序编号。

可选的，所述有效区域中的文本区域的信息类型包括属性、属性值；所述有效区域中的图像区域的信息类型是属性值；所述判断当前有效区域与其一阶邻居有效区域是否具有语义逻辑关系，包括：

若当前有效区域的信息类型是属性，且其一阶邻居有效区域的类型是属性值；确定当前有效区域与其一阶邻居有效区域具有语义逻辑关系。

可选的，所述方法还包括：

确定所述有效区域所属信息类型的行位置；

所述判断当前有效区域与其一阶邻居有效区域是否具有语义逻辑关系，还包括：

若当前有效区域的信息类型是属性，且行位置是头行，当其一阶邻居有效区域的信息类型也是属性，且行位置是非头行时，确定当前有效区域与其一阶邻居有效区域具有语义逻辑关系；

若当前有效区域的信息类型是属性，且行位置是非头行，当其一阶邻居有效区域的信息类型也是属性，且行位置是非头行时，确定当前有效区域与其一阶邻居有效区域具有语义逻辑关系；

若当前有效区域的信息类型是属性值，且行位置是头行，当其一阶邻居有效区域的信息类型也是属性值，且行位置是非头行，确定当前有效区域与其一阶邻居有效区域具有语义逻辑关系；

若当前有效区域的信息类型是属性值，且行位置是非头行，当其一阶邻居有效区域的信息类型也是属性值，且行位置是非头行，确定当前有效区域与其一阶邻居有效区域具有语义逻辑关系。

可选的，所述基于该集合中各有效区域中的文本内容或图像，以及各有效区域的位置信息识别出所述图像携带的信息，包括：

基于行位置对相同信息类型的有效区域进行排序；

按照排序顺序，基于信息类型是属性的文本区域的文本内容识别出所述图像携带的属性；

按照排序顺序，基于信息类型是属性值的文本区域的文本内容以及图像区域的图像识别出所述图像携带的所述属性的属性值。

根据本申请的第二方面，提供一种图像识别的装置，应用于计算机设备，包括：

图像接收模块，用于接收用户输入的图像，检测出所述图像中的有效区域，所述有效区域包括文本区域、图像区域；

信息类型确定模块，用于确定所述有效区域的信息类型；

区域划分模块，用于基于所述有效区域的位置信息和信息类型，以语义逻辑关系为划分依据，将所述有效区域划分为若干区域集合；

图像信息识别模块，用于针对每个区域集合，基于该集合中各有效区域中的文本内容或图像，以及各有效区域的位置信息识别出所述图像携带的信息。

可选的，所述区域划分模块包括：

区域编号子模块，用于基于所述有效区域的位置信息，对各个有效区域进行编号；

语义逻辑关系判断子模块，用于根据所述有效区域的信息类型，按照编号顺序判断当前有效区域与其一阶邻居有效区域是否具有语义逻辑关系；

第一集合划分子模块，用于在当前有效区域与一阶邻居有效区域具有语义逻辑关系的情况下，将一阶邻居有效区域划分至当前有效区域所在的集合中，并继续判断当前有效区域与其二阶邻居有效区域是否具有语义逻辑关系；

第二集合划分子模块，用于在当前有效区域与一阶邻居有效区域不具有语义逻辑关系的情况下，确定当前有效区域所在集合划分完毕，并将所述一阶邻居有效区域更新为新的当前有效区域。

可选的，所述图像信息识别模块包括：

区域排序子模块，用于基于行位置对相同信息类型的有效区域进行排序；

属性识别子模块，用于按照排序顺序，基于信息类型是属性的文本区域的文本内容识别出所述图像携带的属性；

属性值识别子模块，按照排序顺序，基于信息类型是属性值的文本区域的文本内容以及图像区域的图像识别出所述图像携带的所述属性的属性值。

根据本申请的第三方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现前述图像识别方法中的步骤。

本申请提供的技术方案，针对图像识别，在接收到用户输入的图像后，检测出图像中的有效区域；进一步确定所述有效区域的信息类型，其中包括对所述有效区域中的文本区域进行文本识别，获得其包含的文本内容；在所述有效区域的信息类型确定后，结合所述有效区域的位置信息，以语义逻辑关系为划分依据，将所述有效区域划分为若干区域集合；针对每个区域集合，基于该集合中各文本区域的位置信息和文本内容以及各图像区域的位置信息和图像识别出所述图像携带的信息。采用本申请技术方案，在图像上传后，可通过对所述图像进行检测，获得图像中的有效区域，将图像中具有语义逻辑关系的有效区域划分至同一集合，进而针对每个区域集合可识别出图像携带的信息，以供后续基于所述识别出的图像携带的信息自动完成信息录入，使得信息录入更为快捷，无需人工手动录入，减少了工作人员的时间与精力的消耗。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。

图1是本申请示出的一种图像识别的方法的流程示意图。

图2A是本申请示出的一种用户输入的图像的示意图。

图2B是本申请示出的一种区域划分结果示意图。

图3是本申请示出的一种区域集合划分方法的流程示意图。

图4是本申请示出的一种判断当前有效区域与其一阶邻居有效区域是否具有语义逻辑关系的流程示意图。

图5是本申请示出的一种识别图像携带的信息的流程示意图。

图6为本申请示出的一种图像识别的装置所在计算机设备的一种硬件结构图。

图7是本申请示出的一种图像识别的装置的示意框图。

图8是本申请示出的一种区域划分模块的示意框图。

图9是本申请示出的一种区域编号子模块的示意框图。

图10是本申请示出的一种语义逻辑关系判断子模块的示意框图。

图11是本申请示出的一种关系确定单元的示意框图。

图12是本申请示出的一种区域划分模块的示意框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

随着时间的推移与社会的发展，各行各业都有大量的信息需要存储。相较于传统的通过纸张记录信息，在信息技术如此普及的当代，将信息存储至计算机设备更为便捷，其中，信息不乏各种图像，但在很多系统中，将图像上传后，可能需要工作人员将图像上已有的信息人工输入至系统中相应的位置，使得信息录入的效率低，且耗费工作人员的大量时间与精力。

为了解决上述缺陷，本申请对图像进行检测，检测出若干有效区域，进一步对所述有效区域划分为若干具有语义逻辑关系的区域集合，针对每个区域集合进行识别，即可获得图像携带的信息，以供后续基于所述图像携带的信息自动完成信息录入，使得信息录入更为便捷，无需人工手动录入，从而减少了工作人员的时间与精力的消耗。

接下来对本说明书实施例进行详细说明。

图1是本申请示出的一种图像识别的方法的流程示意图，应用于计算机设备，如图1所示，所述方法包括以下步骤：

步骤S1，接收用户输入的图像，检测出所述图像中的有效区域，所述有效区域包括文本区域、图像区域。

所述检测出所述图像中的有效区域即为按照预设的规则将图像划分为若干区域，并得到所述若干区域的区域类别和位置信息；基于所述区域类别，可确定文本区域，以供后续对所述文本区域进行文本识别以获得文本内容。

在本实施例中，预先建立有已训练的图像检测模型；所述图像检测模型用于输入用户上传的图像，将所述图像划分为若干区域并输出各区域的区域类别和位置信息；所述图像检测模型可通过深度学习技术搭建，例如，所述图像检测模型可以是基于YOLO算法（You Only Look Once，一种对象检测算法）搭建，也可以是基于SSD算法（Single ShotMultiBox Detector，一种对象检测算法）搭建。

所述图像检测模型以已完成划分的图像作为训练样本，通过TensorFlow（一个基于数据流编程的符号数学系统）训练，得到对应于不同图像类别的划分方式。

当然，上述图像检测模型还可以采用其他形式的搭建方式进行搭建，也可以采用其他方法对模型进行训练，这里只是对图像检测模型的搭建方式和训练方式进行示例性地说明，不对该搭建方式和训练方式进行具体地限定。

其中，用户上传的图像可以是图像类别已知的图像，也可以是图像类别未知的图像；所述图像类别可以是身份证，也可以是驾驶证，还可以是其他证件类型，本申请对此不作限定。举例来说，可指定用户上传的图像类别，比如说有类似于“请上传身份证图像”的提示，则认为用户上传的是图像类别已知的图像；若未指定用户上传的图像类别，比如说没有提示或者有类似于“请上传可以证明身份的图像”，则认为用户上传的是图像类别未知的图像。

在确定上传的是图像类别已知的图像后，图像检测模型可根据图像类别确定划分方式；在确定上传的是图像类别未知的图像后，图像检测模型需确定所述图像的图像类别，再根据所述图像类别确定划分方式。

图像检测模型在接收到用户上传的图像后，确定所述图像的图像类别，进而根据所述图像类别确定与所述图像对应的划分方式，将所述图像划分为若干区域，并输出各区域的区域类别以及各区域的位置信息；所述区域类别包括文本、图像等；所述位置信息可以是各区域的左上角顶点的坐标和右下角顶点的坐标；也可以是各区域的右上角顶点的坐标和左下角顶点的坐标；所述坐标所处的坐标系可以是以图像左下角顶点为坐标原点建立的二维坐标系；也可以是以图像左上角顶点为坐标原点建立的二维坐标系；还可以是以图像中心为坐标原点建立的二维坐标系；本申请对此不作限定。

如图2A和图2B所示，图2A是本申请示出的一种由用户输入的图像，图2B是本申请示出的一种图像划分结果示意图。

用户将图2A所示图像输入图像检测模型后，可确定所输入的图像是身份证图像，进而按照预设的对于身份证图像的检测规则将图2A划分为若干区域，如图2B灰色区域所示；并输出所述若干区域的区域类别以及所述若干区域的位置信息；所述位置信息为该区域左上角顶点坐标和右下角顶点坐标；所述坐标所处的坐标系是以图像左下角顶点为坐标原点建立的二维坐标系。

此处仅以图2B若干区域中的某些文本区域作为示例：“姓名”所在区域A、“来宾”所在区域B、“性别”所在区域C、“女”所在区域D、“民族”所在区域E、“汉”所在区域F、“出生”所在区域G、“1968年12月20日”所在区域H、“住址”所在区域J、“深圳市福田区上海林”所在区域K、“梅村路99号”所在区域L以及“证件照”所在区域M。

上述作为示例的区域其具体的区域类别以及位置信息如下表1所示：

区域	区域类别	左上角坐标、右下角坐标
			A	文本	（0.6，4.5）、（1.3，4.1）
B	文本	（1.6，4.5）、（2.1，4.1）
			C	文本	（0.6，4.0）、（1.3，3.6）
D	文本	（1.6，4.0）、（1.3，3.8）
			E	文本	（3.9，4.0）、（1.3，4.2）
F	文本	（1.6，4.0）、（1.3，4.4）
			G	文本	（0.6，3.3）、（1.3，2.9）
H	文本	（1.6，3.3）、（4.4，2.9）
			J	文本	（0.6，2.6）、（1.3，2.2）
K	文本	（1.6，2.6）、（4.4，2.2）
			L	文本	（1.6，2.1）、（3.4，1.7）
M	图像	（5.3，4.5）、（8.0，1.3）

表1

步骤S3，确定所述有效区域的信息类型。

所述有效区域中的文本区域的信息类型包括属性、属性值；所述有效区域中的图像区域的信息类型为指定类型，即属性值；所述属性在同一类型的不同图像中不会发生改变，所述属性值在同一类型的不同图像中会发生改变。例如，若文本区域的文本内容是“姓名”，则确定所述文本区域的信息类型是属性；若文本区域的文本内容是“张三”，则确定所述文本区域的信息类型是属性值。

在本实施例中，预先建立有已训练的区域关系识别模型；所述区域关系识别模型用于输入各有效区域的区域类别、位置信息以及对应的图像，即输入上述图像检测模型的输出结果，输出所述各有效区域的信息类型以及包含的信息；所述包含的信息包括文本区域包含的文本内容以及对应的图像，图像区域对应的图像；所述区域关系识别模型可通过深度学习技术搭建；比如所述区域关系识别模型可以基于Transformer算法（一种自然语言处理算法）搭建。

所述区域关系识别模型以已知关系的区域的相关信息作为训练样本，通过TensorFlow（一个基于数据流编程的符号数学系统）训练；所述相关信息包括区域类别、区域的位置信息以及区域对应的图像。

当然，上述区域关系识别模型还可以采用其他形式的搭建方式进行搭建，也可以采用其他方法对模型进行训练，这里只是对区域关系识别模型的搭建方式和训练方式进行示例性地说明，不对该搭建方式和训练方式进行具体地限定。

接着以上示例继续举例，所述区域关系识别模型输入图像检测模型输出的检测结果，进一步针对所有文本区域通过OCR（Optical Character Recognition，光学字符识别）工具识别出所述文本区域对应的图像上包含的文本内容；确定所述有效区域的信息类型；其中，文本区域的信息类型需要进一步结合文本内容确定；图像区域的信息类型是指定类型，即属性值。

此处仅列举表1中的部分区域的检测结果，如下表2所示：

区域	信息类型	包含的信息
			区域A	属性	姓名
区域B	属性值	来宾
			区域C	属性	性别
区域D	属性值	女

表2

步骤S5，基于所述有效区域的位置信息和信息类型，以语义逻辑关系为划分依据，将所述有效区域划分为若干区域集合。

将确定具有语义逻辑关系的文本区域划分至同一集合中，所述具有语义逻辑关系可表征语义上有关联的文本内容，也可表示逻辑上有对应关系的文本内容和图像，其所属的区域可以是同一信息类型，也可以是不同信息类型；例如，“姓名”与“张三”即为语义上有关联的文本内容；“签名”与“包含姓名手写体的图像”即为逻辑上有对应关系的文本内容和图像。

接着以上示例继续举例，基于各个有效区域的左上角顶点坐标和右下角顶点坐标确定各有效区域之间的位置关系，在确定各有效区域之间的位置关系后结合各个有效区域的信息类型，将区域A、区域B、区域C、区域D划分为两个区域集合，其具体的划分结果如下表3所示：

集合	区域
		1	区域A、区域B
2	区域C、区域D

表3

步骤S7，针对每个区域集合，基于该集合中各有效区域中的文本内容或图像，以及各有效区域的位置信息识别出所述图像携带的信息。

每个区域集合中可包括信息类型是属性和信息类型是属性值的文本区域，以及信息类型是属性的图像区域，即针对每个区域集合，基于该集合中各文本区域的位置信息和文本内容，以及各图像区域的位置信息和图像，可识别出图像中携带的一对具有对应关系的信息。

接着以上示例继续举例，针对全为文本区域的区域集合1，基于各文本区域的位置信息和文本内容，可识别出“姓名-来宾”的文本信息；针对全为文本区域的区域集合2，基于各文本区域的位置信息和文本内容，可识别出“性别-女”的文本信息。

在以上技术方案中，在接收到用户输入的图像后，通过对输入图像进行图像检测，得到若干有效区域以及所述有效区域的位置信息；进一步确定所述有效区域的信息类型；基于所述有效区域的位置信息和信息类型，以语义逻辑关系为划分依据，将所述文本区域划分为若干区域集合；针对每个区域集合，基于该集合中各文本区域的位置信息和文本内容，以及各图像区域的位置信息和图像，识别出所述图像携带的文本信息。由此，可通过对所述图像进行检测，检测出图像中的有效区域，将图像中具有语义逻辑关系的有效区域划分至同一集合，进而针对每个区域集合可识别出图像携带的信息，以供后续基于所述图像携带的信息自动完成信息录入，使得信息录入更为快捷，无需人工手动录入，减少了工作人员的时间与精力的消耗。

图3是本申请示出的一种将有效区域划分为若干区域集合的流程示意图。如图3所示，在图1所示实施例的基础上，所述基于文本区域的位置信息和信息类型，以语义逻辑关系为划分依据，将有效区域划分为若干区域集合的方法包括以下步骤：

步骤S51，基于所述有效区域的位置信息，对各个有效区域进行编号。

所述有效区域的位置信息是文本区域的左上角顶点坐标和右下角顶点坐标；所述对各个有效区域进行编号可以是基于各有效区域的位置关系按照一定的顺序对各有效区域进行编号，所述编号可以从0开始，依次递增1的自然数；也可以是从1开始，依次递增2的奇数；还可以是从2开始，依次递增2的偶数；本申请对此不作限定。

可选的，按照从左到右，从上到下的顺序对各有效区域进行编号。

接着以图1所示实施例继续举例，根据识别出的各有效区域的左上角顶点坐标和右下角顶点坐标确定各有效区域之间的位置关系，按照从左到右，从上到下的顺序对各有效区域进行编号，得到各有效区域的编号；在此仅列出表1中的区域A、区域B、区域J、区域K以及区域L的编号结果，所述编号结果如下表4所示：

区域	编号
		区域A	编号1
区域B	编号2
		区域J	编号9
区域K	编号10
		区域L	编号11

表4

步骤S53，根据所述有效区域的信息类型，按照编号顺序判断当前有效区域与其一阶邻居有效区域是否具有语义逻辑关系。

在确定当前有效区域后，与所述当前有效区域的编号在顺序上相邻且编号大于所述当前有效区域的编号的文本区域是当前有效区域的一阶邻居有效区域。

接着以上示例继续举例，区域A为当前有效区域时，区域B为其一阶邻居有效区域；区域J为当前有效区域时，区域K为其一阶邻居有效区域；区域K为当前有效区域时，区域L为其一阶邻居有效区域。

步骤S55，在当前有效区域与一阶邻居有效区域具有语义逻辑关系的情况下，将一阶邻居有效区域划分至当前有效区域所在的集合中，并将所述一阶邻居有效区域更新为新的当前有效区域。

步骤S57，在当前有效区域与一阶邻居有效区域不具有语义逻辑关系的情况下，确定当前有效区域所在集合划分完毕，并将所述一阶邻居有效区域更新为新的当前有效区域。

接着以上示例继续举例，判断出区域A与区域B具有语义逻辑关系，则将区域B划分至区域A所在集合1，并将区域B更新为新的当前有效区域；

判断出区域J与区域K具有语义逻辑关系，则将区域K划分至区域J所在集合2，并将区域K更新为新的当前有效区域；

判断出区域K与区域L具有语义逻辑关系，则将区域L划分至区域K所在集合2，并将区域L更新为新的当前有效区域。

在图3所示实施例的基础上，所述判断当前有效区域与其一阶邻居有效区域是否具有语义逻辑关系的方法包括以下步骤：

步骤S531，若当前有效区域的信息类型是属性，且其一阶邻居有效区域的信息类型是属性值；确定当前有效区域与其一阶邻居有效区域具有语义逻辑关系。

若当前有效区域的信息类型是属性，且其一阶邻居有效区域的信息类型是属性值，可确定当前有效区域和其一阶邻居有效区域所包含的内容具有关联关系，故确定当前有效区域与其一阶邻居有效区域具有语义逻辑关系。

接着以图3所示实施例继续举例，区域A为当前有效区域时，区域B为其一阶邻居有效区域，且区域A的信息类型是属性，区域B的信息类型是属性值，确定区域A与区域B具有语义逻辑关系；

区域J为当前有效区域时，区域K为其一阶邻居有效区域，且区域J的信息类型是属性，区域K的信息类型是属性值，确定区域J与区域K具有语义逻辑关系。

在一种实施例中，具有语义关联关系的文本内容可能被划分至多个文本区域，所述文本区域的信息类型可以是属性，也可以是属性值；对应于同一属性的图像可能被划分至多个图像区域；所述多个指被两个或者两个以上。举例来说，在身份证中，住址对应的属性值往往因为过长而被写成两行，在这种情况下，对应于“住址”这一属性的属性值被划分为两个文本区域，这两个文本区域的信息类型均为属性值；在其他图像中，签名对应的属性值可能因为手写体姓名有多个而被划分为多个图像区域的情况。

由此，在本实施例中，为判断属于同一类型的相邻区域之间是否具有语义逻辑关系，引入了行位置的概念；在预先建立区域关系识别模型时；增加输出有效区域所属信息类型的行位置的功能；所述功能为对区域关系识别模型进一步结合区域包含的信息进行训练所得。

如图4所示，在上述实施例的基础上，所述判断当前有效区域与其一阶邻居有效区域是否具有语义逻辑关系的方法还包括以下步骤：

步骤S5311，确定所述有效区域所属信息类型的行位置。

所述区域关系识别模型在输入有效区域的编号、对应的图像以及有效区域中的文本区域包含的文本内容后；将所述有效区域对应的图像转化为图像向量；将所述有效区域的编号转化为位置向量；将所有效区域中文本区域包含的文本内容转化为文本向量；针对有效区域中的文本区域，基于所述图像向量、文本向量和位置向量得到各文本区域的向量表示；针对有效区域中的图像区域，基于所述图像向量和位置向量得到各图像区域的向量表示；进而基于所述各有效区域的向量表示确定所述各个有效区域的信息类型以及所述有效区域所属信息类型的行位置。

接着以上述实施例继续举例，预先建立的区域关系识别模型针对每一文本区域，将所述文本区域对应的图像转化为图像向量I；对所述文本区域包含的文本内容和文本区域的编号分别进行嵌入转化，得到文本向量和位置向量；基于所述图像向量、文本向量和位置向量得到所述文本区域的向量表示，其中，所述文本区域的向量表示可以由图像向量、文本向量和位置向量相加所得；输出与各区域对应的信息类型和各区域所属信息类型的行位置，如下表5所示：

区域	区域检测结果
		区域A	属性-头行
区域B	属性值-头行
		区域J	属性-头行
区域K	属性值-头行
		区域L	属性值-非头行

表5

步骤S5313，若当前有效区域的信息类型是属性，且行位置是头行，当其一阶邻居有效区域的信息类型也是属性，且行位置是非头行时，确定当前有效区域与其一阶邻居有效区域具有语义逻辑关系。

步骤S5315，若当前有效区域的信息类型是属性，且行位置是非头行，当其一阶邻居有效区域的信息类型也是属性，且行位置是非头行时，确定当前有效区域与其一阶邻居有效区域具有语义逻辑关系。

步骤S5317，若当前有效区域的信息类型是属性值，且行位置是头行，当其一阶邻居有效区域的信息类型也是属性值，且行位置是非头行，确定当前有效区域与其一阶邻居有效区域具有语义逻辑关系。

步骤S5319，若当前有效区域的信息类型是属性值，且行位置是非头行，当其一阶邻居有效区域的信息类型也是属性值，且行位置是非头行，确定当前有效区域与其一阶邻居有效区域具有语义逻辑关系。

若当前有效区域与其一阶邻居有效区域的信息类型相同，进一步结合其所属的行位置判断当前有效区域与其一阶邻居有效区域是否具有语义逻辑关系，将具有语义逻辑关系的文本区域划分至同一集合。

若当前有效区域与其一阶邻居有效区域的信息类型和其所属信息类型的行位置不符合上述任一种情况时，确定当前有效区域与其一阶邻居有效区域不具有语义逻辑关系。

接着以上示例继续举例，区域K为当前有效区域时，区域L为其一阶邻居有效区域，并且区域K的信息类型是属性值，其行位置是头行，区域L的信息类型是属性值，其行位置是非头行，确定区域K与区域L具有语义逻辑关系。

图5是本申请示出的一种识别图像携带的信息的流程示意图。如图5所示，在图1所示实施例的基础上，所述基于该集合中各有效区域中的文本内容或图像，以及各有效区域的位置信息识别出所述图像携带的信息的方法包括以下步骤：

步骤S71，基于行位置对相同信息类型的有效区域进行排序。

在一个区域集合中，可能存在多个属于同一信息类型的区域，为了识别出的内容具有连贯性，对相同信息类型的区域按照其行位置进行排序；

行位置是头行的排在首位，行位置是非头行的结合编号顺序排在首位之后。

步骤S73，按照排序顺序，基于信息类型是属性的文本区域的文本内容识别出所述图像携带的属性。

步骤S75，按照排序顺序，基于信息类型是属性值的文本区域的文本内容以及图像区域的图像识别出所述图像携带的所述属性的属性值。

接着以上示例继续举例，针对全为文本区域的集合1，信息类型是属性的和信息类型是属性值的文本区域均只有一个，则区域A与区域B均排在首位；按照排序，基于区域A的文本内容识别出所述图像携带的属性是姓名，按照排序，基于区域B的文本内容识别出所述图像携带的与属性出生对应的属性值是来宾；

针对全为文本区域的集合2，信息类型是属性的文本区域只有一个，则区域J排在首位；文本区域是属性值的文本区域有两个，则对于区域K和区域L按照其行位置进行排序，区域K的行位置是头行，故区域K排在首位，区域L的行位置是非头行，故区域L排在区域K的后面；按照排序，基于区域J的文本内容识别出所述图像携带的属性是住址，按照排序，基于区域K和区域L的文本内容识别出所述图像携带的与属性住址对应的属性值是深圳市福田区上海林梅村路99号。

在识别出图像携带的信息后，即识别出图像携带的属性信息与其对应的属性值信息后，便可根据属性获取对应的属性值。

举例来说，若需要录入的为姓名，即可根据“属性-姓名”获取对应的属性值：来宾，并自动将所获取的结果录入；若需要录入的为住址，即可根据“属性-住址”获取对应的属性值：深圳市福田区上海林梅村路99号，并自动将所获取的结果录入。

与前述一种图像识别的方法的实施例相对应，本说明书还提供了一种图像识别的装置及其所应用的终端的实施例。

本说明书图像识别的装置的实施例可以应用在计算机设备上，例如终端设备，嵌入式设备等。图像识别的装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的图像识别的装置，是通过其所在的处理器将非易失性计算机可读存储介质中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，请参见图6，图6为本申请图像识别的装置所在计算机设备的一种硬件结构图，除了图6所示的处理器610、内存630、网络接口620、以及非易失性计算机可读存储介质640之外，实施例中图像识别的装置631所在的电子设备，通常根据该计算机设备的实际功能，还可以包括其他硬件，对此不再赘述。

图7是本申请示出的一种图像识别的装置的示意框图，应用于计算机设备，如图7所示，所述装置包括：

图像接收模块1，用于接收用户输入的图像，检测出所述图像中的有效区域，所述有效区域包括文本区域、图像区域；

信息类型确定模块2，用于确定所述有效区域的信息类型；

区域划分模块3，用于基于所述有效区域的位置信息和信息类型，以语义逻辑关系为划分依据，将所述有效区域划分为若干区域集合；

图像信息识别模块4，用于针对每个区域集合，基于该集合中各有效区域中的文本内容或图像，以及各有效区域的位置信息识别出所述图像携带的信息。

在本实施例中，该装置还包括：

行位置确定模块5（图7中未示出），用于基于所述有效区域包含的信息，确定所述有效区域所属信息类型的行位置；所述有效区域包含的信息包括文本区域包含的文本内容、图像区域对应的图像。

图8是本申请示出的一种文本区域划分模块的示意框图，如图8所示，在图7所示实施例的基础上，所述区域划分模块3进一步包括：

区域编号子模块31，用于基于所述有效区域的位置信息，对各个有效区域进行编号；

逻辑关系判断子模块32，用于根据所述有效区域的信息类型，按照编号顺序判断当前有效区域与其一阶邻居有效区域是否具有语义逻辑关系；

第一集合划分子模块33，用于在当前有效区域与一阶邻居有效区域具有语义逻辑关系的情况下，将一阶邻居有效区域划分至当前有效区域所在的集合中，并继续判断当前有效区域与其二阶邻居有效区域是否具有语义逻辑关系；

第二集合划分子模块34，第二集合划分子模块，用于在当前有效区域与一阶邻居有效区域不具有语义逻辑关系的情况下，确定当前有效区域所在集合划分完毕，并将所述一阶邻居有效区域更新为新的当前有效区域。

图9是本申请示出的一种区域编号子模块的示意框图，如图9所示，所述区域编号子模块31进一步包括：

编号单元311，用于根据各个有效区域的位置信息，按照从左到右、从上至下的顺序对各个文本区域依次进行有序编号。

图10是本申请示出的一种语义逻辑关系判断子模块的示意框图，如图10所示，所述语义逻辑关系判断子模块32进一步包括：

关系确定单元321，若当前有效区域的信息类型是属性，且其一阶邻居有效区域的信息类型是属性值；确定当前有效区域与其一阶邻居有效区域具有语义逻辑关系；

图11是本申请示出的一种关系确定单元的示意框图，如图11所示，所述关系确定单元321进一步包括：

第一关系确定单元3211，若当前有效区域的信息类型是属性，且行位置是头行，当其一阶邻居有效区域的信息类型也是属性，且行位置是非头行时，确定当前有效区域与其一阶邻居有效区域具有语义逻辑关系；

第二关系确定单元3212，若当前有效区域的信息类型是属性，且行位置是非头行，当其一阶邻居有效区域的信息类型也是属性，且行位置是非头行时，确定当前有效区域与其一阶邻居有效区域具有语义逻辑关系；

第三关系确定单元3213，若当前有效区域的信息类型是属性值，且行位置是头行，当其一阶邻居有效区域的信息类型也是属性值，且行位置是非头行，确定当前有效区域与其一阶邻居有效区域具有语义逻辑关系；

第四关系确定单元3214，若当前有效区域的信息类型是属性值，且行位置是非头行，当其一阶邻居有效区域的信息类型也是属性值，且行位置是非头行，确定当前有效区域与其一阶邻居有效区域具有语义逻辑关系。

图12是本申请示出的一种区域划分模块的示意框图，如图12所示，在图7所示实施例的基础上，所述图像信息识别模块4进一步包括：

区域排序子模块41，用于基于行位置对相同信息类型的有效区域进行排序；

属性识别子模块42，用于按照排序顺序，基于信息类型是属性的文本区域的文本内容识别出所述图像携带的属性；

属性值识别子模块43，用于按照排序顺序，基于信息类型是属性值的文本区域的文本内容以及图像区域的图像识别出所述图像携带的所述属性的属性值。

上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本说明书的真正范围和精神由下面的权利要求指出。

应当理解的是，本说明书并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。

以上所述仅为本说明书的较佳实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

1.一种图像识别的方法，应用于计算机设备，其特征在于，所述方法包括：

确定所述有效区域的信息类型；所述信息类型包括属性、属性值；

针对每个区域集合，基于该集合中各有效区域中的文本内容或图像，以及各有效区域的位置信息识别出所述图像携带的信息，每个区域集合对应识别出的信息包括属性信息和与其对应的属性值信息；其中，当所述属性信息为需要录入的属性信息时，与其对应的属性值信息被自动获取并录入。

2.根据权利要求1所述的方法，其特征在于，所述基于所述有效区域的位置信息和信息类型以语义逻辑关系为划分依据，将所述有效区域划分为若干区域集合，包括：

基于所述有效区域的位置信息，对各个有效区域进行编号；

3.根据权利要求2所述的方法，其特征在于，所述基于所述有效区域的位置信息，对各个有效区域进行编号，包括：

4.根据权利要求2所述的方法，其特征在于，所述有效区域中的文本区域的信息类型包括属性、属性值；所述有效区域中的图像区域的信息类型是属性值；所述判断当前有效区域与其一阶邻居有效区域是否具有语义逻辑关系，包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

确定所述有效区域所属信息类型的行位置；

6.根据权利要求1所述的方法，其特征在于，所述基于该集合中各有效区域中的文本内容或图像，以及各有效区域的位置信息识别出所述图像携带的信息，包括：

基于行位置对相同信息类型的有效区域进行排序；

7.一种图像识别的装置，应用于计算机设备，其特征在于，所述装置包括：

信息类型确定模块，用于针对所述有效区域中的文本区域识别出所述文本区域包含的文本内容；针对所有有效区域确定所述有效区域的信息类型；所述信息类型包括属性、属性值；

图像信息识别模块，用于针对每个区域集合，基于该集合中各有效区域中的文本内容或图像，以及各有效区域的位置信息识别出所述图像携带的信息，每个区域集合对应识别出的信息包括属性信息和与其对应的属性值信息；其中，当所述属性信息为需要录入的属性信息时，与其对应的属性值信息被自动获取并录入。

8.根据权利要求7所述的装置，其特征在于，所述区域划分模块包括：

9.根据权利要求7所述的装置，其特征在于，所述图像信息识别模块包括：

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法中的步骤。