CN113313066A

CN113313066A - 图像识别方法、装置、存储介质以及终端

Info

Publication number: CN113313066A
Application number: CN202110701859.5A
Authority: CN
Inventors: 邓春龙
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2021-08-27

Abstract

本申请公开了一种图像识别方法，涉及图像识别技术领域。首先获取屏幕当前显示文档的文档图像；然后基于图像识别模型确定文档图像对应的至少一个特征层；最后基于图像识别模型切取各特征层对应的建议区域，以及根据建议区域确定文档图像中不同段落对应的段落预测类型以及段落预测位置。基于图像识别模型确定文档图像对应的特征层以及建议区域，并根据建议区域确定文档图像中不同段落对应的段落预测类型以及段落预测位置，因此可以提升基于图像识别模型识别文档图像的准确性，且由于可以识别出文档图像中的所有段落的段落类型以及对应的段落位置，因此也可以大大提升了图像识别结果的类型范围，以及图像识别之后的功能扩展。

Description

图像识别方法、装置、存储介质以及终端

技术领域

本申请涉及图像识别技术领域，尤其涉及一种图像识别方法、装置、存储介质以及终端。

背景技术

随着科学技术的发展，人们生活中使用到移动电子设备、计算机等终端的机会也越来越多，其中，图像可以作为终端与用户交互的中间介质，因此关于图像识别方法也成为本领域人员研究的重点之一。

在相关技术中，可以通过传统图片识别方案(例如，扫描线)和基于机器学习的方案对文档中的段落进行识别，但是上述技术方案只能识别出文档中的文字段落，存在识别结果单一、准确度低的问题。

发明内容

本申请提供一种图像识别模型训练方法、图像识别方法和装置，可以解决图像识别过程中存在图像识别结果单一、准确度低的技术问题。

第一方面，本申请实施例提供一种图像识别方法，该方法包括：

获取屏幕当前显示文档的文档图像；

基于图像识别模型确定所述文档图像对应的至少一个特征层，其中各特征层的尺度不同，所述图像识别模型用于识别文档图像中不同段落的段落类型以及段落位置；

基于所述图像识别模型切取各特征层对应的建议区域，以及根据所述建议区域确定所述文档图像中不同段落对应的段落预测类型以及段落预测位置。

第二方面，本申请实施例提供一种图像识别装置，该装置包括：

图像获取模块，用于获取屏幕当前显示文档的文档图像；

特征确定模块，用于基于图像识别模型确定所述文档图像对应的至少一个特征层，其中各特征层的尺度不同，所述图像识别模型用于识别文档图像中不同段落的段落类型以及段落位置；

图像预测模块，用于基于所述图像识别模型切取各特征层对应的建议区域，以及根据所述建议区域确定所述文档图像中不同段落对应的段落预测类型以及段落预测位置。

第三方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行实现上述的方法的步骤。

第四方面，本申请实施例提供一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的方法的步骤。

本申请一些实施例提供的技术方案带来的有益效果至少包括：

本申请提供一种图像识别方法，首先获取屏幕当前显示文档的文档图像；然后基于图像识别模型确定文档图像对应的至少一个特征层，其中各特征层的尺度不同，图像识别模型用于识别文档图像中不同段落的段落类型以及段落位置；最后基于图像识别模型切取各特征层对应的建议区域，以及根据建议区域确定文档图像中不同段落对应的段落预测类型以及段落预测位置。在确定图像识别模型之后，可以获取文档图像并基于图像识别模型确定文档图像对应的特征层以及建议区域，并根据建议区域确定文档图像中不同段落对应的段落预测类型以及段落预测位置，由于通过确定特征层进而确定建议区域的方式，因此可以提升基于图像识别模型识别文档图像的准确性，且由于可以识别出文档图像中的所有段落的段落类型以及对应的段落位置，因此也可以大大提升了图像识别结果的类型范围，以及图像识别之后的功能扩展。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种图像识别方法的示例性系统架构图；

图2为本申请实施例提供的一种图像识别方法的系统交互图；

图3为本申请另一实施例提供的一种图像识别模型训练方法的流程示意图；

图4为本申请另一实施例提供的一种图像识别方法的流程示意图；

图5为本申请另一实施例提供的一种图像识别方法的流程示意图；

图6为本申请另一实施例提供的特征层的结构示意图；

图7为本申请另一实施例提供的建议区域的切取示意图；

图8为本申请另一实施例提供的图像识别方法的流程示意图；

图9为本申请另一实施例提供的输入触发操作的示意图；

图10为本申请另一实施例提供的输入触发操作的示意图；

图11为本申请另一实施例提供的展示识别结果的示意图；

图12为本申请另一实施例提供的图像识别模型训练装置的结构示意图；

图13为本申请另一实施例提供的图像识别装置的结构示意图；

图14为本申请另一实施例提供的图像识别装置的结构示意图；

图15为本申请另一实施例提供的图像识别装置的结构示意图；

图16为本申请实施例提供了一种终端的结构示意图。

具体实施方式

为使得本申请的特征和优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

图1为本申请实施例提供的一种图像识别方法的示例性系统架构图。

如图1所示，系统架构可以包括至少一个终端110、服务器120以及网络130，网络130用于在终端110和服务器120之间提供通信链路的介质。网络130可以包括各种类型的有线通信链路或无线通信链路，例如：有线通信链路包括光纤、双绞线或同轴电缆的，无线通信链路包括蓝牙通信链路、无线保真(Wireless-Fidelity，Wi-Fi)通信链路或微波通信链路等。

终端110可以是硬件，也可以是软件。当终端110为硬件时，可以是具有屏幕的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携式计算机和台式计算机等。当终端110为软件时，可以是安装在上述所列举的电子设备中，其可以实现成多个软件或软件模块(例如：用来提供分布式服务)，也可以实现成单个软件或软件模块，在此不作具体限定。

服务器120可以是提供各种服务的业务服务器。需要说明的是，服务器120可以是硬件，也可以是软件。当服务器120为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器120为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块，在此不做具体限定。

应理解，图1中的终端、网络和服务器的数目仅是示意性的。根据实现需要，可以是任意数量的终端、网络和服务器。请参阅图2，图2为本申请实施例提供的一种图像识别方法的系统交互图，下面将结合图1和图2介绍一种图像识别方法中系统交互过程。

S201、服务器与终端之间进行数据传输。

可选地，终端可以接收服务器发送的数据，并基于该数据在屏幕中显示相关的文档。

S202、终端获取屏幕当前显示文档的文档图像。

S203、基于图像识别模型确定文档图像对应的至少一个特征层，其中各特征层的尺度不同，图像识别模型用于识别文档图像中不同段落的段落类型以及段落位置。

可选地，基于图像识别模型确定文档图像对应的至少一个特征层之前，还包括：根据文档图像的属性信息确定文档图像的计算需求量；根据计算需求量确定图像识别模型中文档图像对应的骨架网络，基于骨架网络缩放文档图像。

可选地，基于图像识别模型确定文档图像对应的至少一个特征层，包括：提取文档图像的至少一个尺度特征，按照预设顺序对各尺度特征进行排序；将排序后的尺度特征依次输入图像识别模型中，以及获取图像识别模型针对文档图像输出的至少一个特征层。

S204、基于图像识别模型切取各特征层对应的建议区域，以及根据建议区域确定文档图像中不同段落对应的段落预测类型以及段落预测位置。

可选地，基于图像识别模型切取各特征层对应的建议区域，包括：确定文档图像对应初始建议区域，以及确定各建议区域的尺度信息；根据初始建议区域所在特征层的层级以及各建议区域的尺度信息，确定各建议区域所在特征层的层级；在各建议区域所在特征层中按照各建议区域的尺度信息，切取各特征层得到各特征层对应的建议区域。

可选地，根据建议区域确定文档图像中不同段落对应的段落预测类型以及段落预测位置，包括：将各建议区域的坐标在文档图像的坐标中进行对应；根据建议区域对文档图像中的不同段落进行段落类型预测以及段落位置预测，分别得到不同段落对应的段落预测类型以及段落预测位置。

可选地，根据建议区域确定文档图像中不同段落对应的段落预测类型以及段落预测位置之后，还包括：响应针对屏幕的触发操作，根据段落预测位置确定触发操作所触发的目标段落；根据目标段落对应的目标段落预测类型，确定目标段落对应的预设识别方案；基于预设识别方案对目标段落进行识别，以及展示识别结果。

可选地，基于预设识别方案对目标段落进行识别，包括：若目标段落预测类型为文字段落，则确定目标段落对应的预设识别方案为文字识别方案；基于文字识别方案对目标段落进行文字识别以及翻译。

可选地，基于预设识别方案对目标段落进行识别，包括：若目标段落预测类型为图片段落，则确定目标段落对应的预设识别方案为图片识别方案；基于图片识别方案对目标段落进行图片识别以及图片检索。

在本申请实施例中，首先获取屏幕当前显示文档的文档图像；然后基于图像识别模型确定文档图像对应的至少一个特征层，其中各特征层的尺度不同，图像识别模型用于识别文档图像中不同段落的段落类型以及段落位置；最后基于图像识别模型切取各特征层对应的建议区域，以及根据建议区域确定文档图像中不同段落对应的段落预测类型以及段落预测位置。在确定图像识别模型之后，可以获取文档图像并基于图像识别模型确定文档图像对应的特征层以及建议区域，并根据建议区域确定文档图像中不同段落对应的段落预测类型以及段落预测位置，由于通过确定特征层进而确定建议区域的方式，因此可以提升基于图像识别模型识别文档图像的准确性，且由于可以识别出文档图像中的所有段落的段落类型以及对应的段落位置，因此也可以大大提升了图像识别结果的类型范围，以及图像识别之后的功能扩展。

请参阅图3，图3为本申请另一实施例提供的一种图像识别模型训练方法的流程示意图。

如图3所示，该方法包括：

S301、从训练数据库中获取训练图像，基于图像识别模型确定训练图像对应的至少一个特征层，其中各特征层的尺度不同。

在本申请实施例中，是通过图像识别模型对图像进行识别，为了提高图像识别效果，可以预先图像识别模型进行训练。具体的，可以先从训练数据库中获取训练图像，其中训练数据库为预先设置的数据库，训练数据库中保存了至少一个训练图像，各训练图像的种类、尺寸、格式以及图像内容可以不做限定，以模拟现实中用户遇到的各种需要识别的图像。进一步地的，训练数据库中除了保存训练图像之外，还保存有各训练图像对应的标注信息，其中标注信息至少包括图像中不同段落的段落分类信息，以及各段落所在位置信息。例如，图像中不同段落的段落分类信息可以是标题段落，文字段落，表格段落，索引段落，图片段落等类型，各段落所在位置信息可以通过分辨率或者像素坐标进行确定。因此在预先设置训练数据库之后，当对图像识别模型进行训练时，可以从训练数据库中获取任意一个训练图像，还可以获取训练图像中不同段落对应的段落分类信息以及位置信息。

进一步地，还可以确定一个基础的图像识别模型，例如，图像识别模型可以各种适用于深度学习的模型或者神经网络，下面以图像识别模型为特征金字塔网络(FeaturePyramid Networks，FPN)为例，介绍图像识别模型的训练过程。FPN可以提取图像中的特征并生成特征图，且FPN优势在于能够在增加较少计算量的前提下融合低分辨率语义信息较强的特征图和高分辨率语义信息较弱但空间信息丰富的特征图。

在确定训练图像以及图像识别模型之后，可以将训练图像输入图像识别模型中也即输入FPN中，FPN可以对训练图像进行特征提取，并根据提取的特征确定训练图像对应的至少一个特征层，其中训练图像的特征也即代表训练图像中语义信息的参数，图像的语义信息为代表图像中不同对象含义的信息，用于确定图像的真实类型，特征层也即包含有特征的特征图，各特征层的尺度不同，尺度可以从维度、尺寸、分辨率进行衡量。由于各特征层的尺度不同导致各特征层所包含的特征不同，因此各特征层携带的语义信息也是不同的，这一步骤主要是为了获取训练图像的不同特征。

S302、基于图像识别模型切取各特征层对应的建议区域，以及根据建议区域生成训练图像对应的预测结果。

在确定训练图像的特征层之后，可以进行一步基于图像识别模型切取各特征层对应的建议区域，其中建议区域是指上述特征层中包含有具体特征或者语义信息的区域，其中，一个特征层中包括的建议区域可以是一个或者多个，建议区域的准确度直接影响了后续对训练图像中段落类型预测以及段落位置的预测，因此可以根据需要选择合适的切取各特征层对应的建议区域的方法。

关于切取各特征层对应的建议区域的方法，可以是多样的，一种可行的实施方式是，先预先设置一个建议区域，然后基于该建议区域在各特征层进行切取，以获取各特征层中对应的建议区域。在确定建议区域之后，可以根据建议区域生成对训练图像的预测结果，其中预测结果可以包括了对训练图像中不同段落对应的段落预测类型以及段落预测位置。具体的，可以在对各建议区域的坐标在训练图像的坐标中进行对应之后，可以将各建议区域输入判别网络中，基于该判别网络以对训练图像中不同段落进行段落类型预测以及对应的段落位置预测，分别得到不同段落对应的段落预测类型以及段落预测位置，其中判别网络可以根据需要进行选择，本申请对判别网络的类型不做限定。

S303、根据预测结果以及训练图像的原始信息，对图像识别模型中的参数进行调整。

在获取训练图像对应的预测结果之后，还可以根据上述步骤中获取的训练图像中不同段落对应的段落分类信息以及段落位置信息，也即训练图像中不同段落对应的原始段落分类信息以及原始段落位置信息，将预测结果与训练图像对应的原始信息进行比较。由于图像识别模型得出的预测结果是一个预测值，而训练图像对应的原始信息是一个真实值，因此预测结果与原始信息之间一般存在一定的差异，因此根据这种比较结果(差异)可以对图像识别模型中的参数进行调整，以使得图像识别模型在下一次得到的预测结果更加接近原始信息。

具体的，在获取到不同段落对应的段落预测类型、段落预测位置以及不同段落对应的原始段落分类信息、原始段落位置信息之后，可以根据不同段落对应的段落预测类型和原始段落分类信息计算训练图像的分类损失，以及根据不同段落对应的段落预测位置和原始段落位置信息计算训练图像的分类位置损失。其中计算分类损失以及分类位置损失的方式，可以不做具体限定，例如，可以利用softmax计算分类损失以及分类位置损失。

可以理解的，分类损失代表了不同段落对应的段落预测类型与原始段落分类信息之间的差异，分类位置损失代表了不同段落对应的段落预测位置与原始段落位置信息之间的差异，因此可以直接根据分类损失和分类位置损失对图像识别模型中的参数进行调整。其中，图像识别模型中的参数可以是指上述特征金字塔网络中的参数，还可以是区域生成网络中的参数，还可以是上述判别网络中的参数，对上述参数进行修改的目的是减少分类损失和分类位置损失，以提升修改参数后的图像识别模型生成段落预测类型以及段落预测位置的准确性。

可选地，在对图像识别模型中的参数进行调整之后，可以根据判断图像识别模型是否满足识别准确度条件，具体可以通过不同段落对应的预测结果与原始信息之间的差异进行判断，若不满足条件，可以继续从训练数据库中获取训练图像，并重复基于图像识别模型确定训练图像对应的至少一个特征层；基于图像识别模型切取各特征层对应的建议区域，以及根据建议区域生成训练图像对应的预测结果；根据预测结果以及训练图像的原始信息，对图像识别模型中的参数进行调整的步骤，直至图像识别模型满足识别准确度条件，也即将图像识别模型进行持续的学习，以提高图像识别模型的识别图像的准确性。

若判断图像识别模型满足识别准确度条件，可以将该图像识别模型应用于任何需要进行图像识别的场景中，具体的，可以响应针对屏幕的触发操作，根据段落预测位置确定触发操作所触发的目标段落；根据目标段落对应的目标段落预测类型，确定目标段落对应的预设识别方案；基于预设识别方案对目标段落进行识别，以及展示识别结果。

在本申请实施例中，首先从训练数据库中获取训练图像，基于图像识别模型确定训练图像对应的至少一个特征层，其中各特征层的尺度不同；然后基于图像识别模型切取各特征层对应的建议区域，以及根据建议区域生成训练图像对应的预测结果；最后根据预测结果以及训练图像的原始信息，对图像识别模型中的参数进行调整。在确定训练后的图像识别模型之后，可以获取文档图像并基于图像识别模型确定文档图像中不同段落对应的段落预测类型以及段落预测位置，以及基于不同段落对应的段落预测类型以及段落预测位置对文档图像进行识别，通过深度学习的方法对图像识别模型进行训练，可以准确对图像中不同段落进行段落分类以及确定段落位置，大大提高了对图像的识别能力。

请参阅图4，图4为本申请另一实施例提供的一种图像识别方法的流程示意图。

如图4所示，该方法包括：

S401、获取屏幕当前显示文档的文档图像。

在相关技术中，对图像进行文档识别时，技术方案实现上有传统方案(扫描线)和基于机器学习的方案等。其中传统的技术方案鲁棒性较差，而基于机器学习的方案在“智能”方面表现好很多，上述技术方案也有两个问题，1、文档中的段落有很多，比如有标题段落，表格段落，文字段落，图片段落等，上述技术只是识别其中的一个段落(例如，文字段落)，则后续针对图像中其他段落的功能扩展会受限；2、判断段落的依据是识别图像文档中的“首行缩进”特征，但在手机等终端的应用中，遇到的实际场景可能是只截半段(顶部和底部的情形)的图像，此时图像中并没有“首行缩进”特征，因此上述技术方案存在图像识别结果单一、准确度低的问题。

在本申请实施例中，是通过图像识别模型对图像进行识别，为了提高图像识别效果，可以理解的，通过上述实施例中训练方法得到的图像识别模型，可以对屏幕当前显示文档中任一类型或者来源的文档图像进行识别，例如，文档图像是可以从某应用程序或者系统相册中获取并在屏幕当前显示文档显示的图像；可以是用户在观察到屏幕当前显示文档之后，通过框选工具确定的文档图像；还可以是通过终端中的截屏功能截取屏幕当前显示文档得到的图像。

S402、基于图像识别模型确定文档图像对应的至少一个特征层，其中各特征层的尺度不同，图像识别模型用于识别文档图像中不同段落的段落类型以及段落位置。

在获取文档图像之后，可以将文档图像输入上述实施例中训练方法得到的图像识别模型，图像识别模型对文档图像进行识别，可以确定文档图像中不同段落对应的段落预测类型以及段落预测位置，也即图像识别模型用于识别文档图像中不同段落的段落类型以及段落位置。段落类型包括标题段落、文字段落、表格段落、索引段落以及图片段落等类型，段落位置可以是文档图像的坐标信息或在在屏幕中显示区域的坐标信息等。

具体的，将文档图像输入上述实施例中训练方法得到的图像识别模型之后，图像识别模型可以对训练图像进行特征提取，并根据提取的特征确定训练图像对应的至少一个特征层，其中训练图像的特征也即代表训练图像中语义信息的参数，图像的语义信息为代表图像不同对象含义的信息，用于确定图像的真实类型，特征层也即包含有特征的特征图，各特征层的尺度不同，尺度可以从维度、尺寸、分辨率进行衡量。由于各特征层的尺度不同导致各特征层所包含的特征不同，因此各特征图携带的语义信息也是不同的，这一步骤主要是为了获取训练图像的不同特征。

S403、基于图像识别模型切取各特征层对应的建议区域，以及根据建议区域确定文档图像中不同段落对应的段落预测类型以及段落预测位置。

关于切取各特征层对应的建议区域的方法，可以是多样的，一种可行的实施方式是，先预先设置一个建议区域，然后基于该建议区域在各特征层进行切取，以获取各特征层中对应的建议区域。

在确定建议区域之后，可以根据建议区域生成对文档图像的预测结果，其中预测结果可以包括了对文档图像中不同段落的段落预测类型以及段落预测位置。

请参阅图5，图5为本申请另一实施例提供的一种图像识别方法的流程示意图。

如图5所示，该方法包括：

S501、获取屏幕当前显示文档的文档图像。

关于步骤S501参阅步骤S401，此处不在赘述。

S502、根据文档图像的属性信息确定文档图像的计算需求量。

可以理解的，文档图像的属性信息跟图像识别模型的应用环境是相关的，例如，当图像识别模型应用于移动终端时，那么对于移动终端中的图像进行识别时，通常其图像的尺寸或者分辨率较小，那么在获取文档图像之后，可以根据文档图像的属性信息(尺寸或者分辨率)确定文档图像的计算需求量，计算需求量可以通过具体的参数进行标识，以便于后续根据计算需求量确定合适的处理方案。

S503、根据计算需求量确定图像识别模型中文档图像对应的骨架网络，基于骨架网络缩放文档图像。

在确定文档图像的计算需求量之后，为了确定合适的处理方案，可以具体确定图像识别模型中文档图像对应的骨架网络，骨架网络代表了图像识别模型中的核心处理过程，因此不同的骨架网络可以代表不同的处理过程，不同的处理过程会带来不同的数据计算量。

在确定文档图像对应的骨架网络之后，可以先基于骨架网络将文档图像缩放至预设尺寸，以使得后续对文档图像进行处理时，减少对文档图像的数据处理量。例如，预设尺寸可以是512*512，也即将文档图像缩放之后，其长宽分别包括512个像素。

S504、提取文档图像的至少一个尺度特征，按照预设顺序对各尺度特征进行排序。

在对文档图像进行缩放之后，可以提取文档图像的特征并生成对应的特征层了，在上述实施例中介绍了不同的特征层的尺寸不同，且不同特征层包含有不同的特征，因此可以根据需要生成的特征层的数量先从文档图像中提取对应的尺度特征，尺度特征代表了特征层的尺度信息，可以用来描述特征层的尺寸、分辨率等属性信息，那么特征层的数量为至少一个，尺度特征的数量也为至少一个。

例如，在本申请实施例中尺度特征为五个，分别为：256*256、128*128、64*64、32*32以及16*16，其中，256*256代表对应的特征层其长宽分别包括256个像素，其他类似。确定尺度特征之后，为了便于生成的特征层具有一定的顺序，还可以先对各尺度特征进行排序，其中排序的依据为尺度特征中包括的像素数量，一种具体的排序规则是，按照像素数量逐渐减少的排列顺序生成排序队列。

S505、将排序后的尺度特征依次输入图像识别模型中，以及获取图像识别模型针对文档图像输出的至少一个特征层。

在对各尺度特征进行排序之后，可以将排序后的尺度特征依次输入图像识别模型中，以使得图像识别模型按照排序后的尺度特征输出对应的特征层。例如，尺度特征为排序为：256*256、128*128、64*64、32*32以及16*16，将排序后的尺度特征依次输入图像识别模型之后，可以分别生成256*256对应的第一特征层、128*128对应的第二特征层、64*64对应的第三特征层、32*32对应的第四特征层以及16*16对应的第五特征层。

请参阅图6，图6为本申请另一实施例提供的特征层的结构示意图。

如图6所示，在本申请实施例中，当图像识别模型为特征金字塔网络时，可以将生成的特征层按照从下往上尺度减少的顺序进行排列，形成的文档图像600对应的特征层结构类似于金字塔，也即特征层结构中第一特征层610位于最底层，第五特征层660位于最顶层，其中第一特征层610与第五特征层660之间依次为第二特征层620、第三特征层630以及第四特征层640。

S506、确定文档图像对应初始建议区域，以及确定各建议区域的尺度信息。

在确定文档图像的特征层之后，可以对各特征层进行切取以获取各特征层对应的建议区域，一种获取建议区域的方式是，通过区域生成网络(RegionProposal Network，RPN)确定建议区域，具体的，可以先确定文档图像对应的初始建议区域，其中初始建议区域可以是文档图像对应的特征层中指定的某一个区域，且初始建议区域具有预设的尺度。其中初始建议区域的数量可以是一个或者多个。

在确定初始建议区域之后，还需要确定需要切取的建议区域的尺度信息，尺度信息可以是尺寸信息或者分辨率信息，以便于按照该尺度信息准确切取预设尺度的建议区域，其中，建议区域也即兴趣区域(Region Of Interest，ROI)。

S507、根据初始建议区域所在特征层的层级以及各建议区域的尺度信息，确定各建议区域所在特征层的层级。

在确定初始建议区域以及确定各建议区域的尺度信息之后，可以按照预设计算公式确定各建议区域所在特征层的层级。其中预设计算公式为：

其中，k为建议区域所在特征层的层级，k0初始建议区域所在特征层的层级，w为建议区域的宽尺度，h为建议区域的长尺度，m为调节参数，可以根据需要确定m的具体范围，例如，m可以设置为224，那么当建议区域的尺寸小于224时，则可以更高尺度的特征层确定建议区域。

S508、在各建议区域所在特征层中按照各建议区域的尺度信息，切取各特征层得到各特征层对应的建议区域。

在确定各建议区域所在特征层的层级之后，可以在各建议区域所在特征层中，按照各建议区域的尺度信息，切取各特征层以得到各特征层对应的建议区域。

请参阅图7，图7为本申请另一实施例提供的建议区域的切取示意图。

如图7所示，当确定某一建议区域所在特征层的层级为第一特征层610之后，可以根据该建议区域的长尺度以及宽尺度，在第一特征层610中进行切取，得到第一特征层610对应的至少一个建议区域660。

S509、将各建议区域的坐标在文档图像的坐标中进行对应。

可以理解的，由于在生成特征层的过程中，会对文档图像进行缩放，因此文档图像对应的特征层的尺度也会变化，因此可以将各建议区域的坐标在文档图像的坐标中进行对应，以便于确定建议区域在文档图像的位置。例如，由于原始文档图像中的位置对应到特征层中的坐标是小数，如果取整可能会导致错位，在不对计算得到的小数坐标取整的情况下，可以使用池化的处理方式，使得建议区域和原文档图像坐标对应。

S510、根据建议区域对文档图像中的不同段落进行段落类型预测以及段落位置预测，分别得到不同段落对应的段落预测类型以及段落预测位置。

在对各建议区域的坐标在文档图像的坐标中进行对应之后，可以将各建议区域输入判别网络中，基于该判别网络以对文档图像中的不同段落进行段落类型预测以及对应的段落位置预测，分别得到不同段落对应的段落预测类型以及段落预测位置，其中判别网络可以根据需要进行选择，本申请对判别网络的类型不做限定。

在本申请实施例中，在确定文档图像的特征层之后，可以通过区域生成网络确定各特征层对应的建议区域，可以准确对图像中的段落进行分类以及确定段落位置，大大提高了对图像的识别能力。

请参阅图8，图8为本申请另一实施例提供的图像识别方法的流程示意图。

如图8所示，该方法包括：

S801、获取屏幕当前显示文档的文档图像。

S802、基于图像识别模型确定文档图像对应的至少一个特征层，其中各特征层的尺度不同，图像识别模型用于识别文档图像中不同段落的段落类型以及段落位置。

S803、基于图像识别模型切取各特征层对应的建议区域，以及根据建议区域确定文档图像中不同段落对应的段落预测类型以及段落预测位置。

关于步骤S801至S803，可以参与步骤S401至S403中的描述，此处不在赘述。

S804、响应针对屏幕的触发操作，根据段落预测位置确定触发操作所触发的目标段落。

在确定文档图像中不同段落对应的段落预测类型以及段落预测位置之后，可以根据用户的操作决定具体对文档图像进行何种识别，因此可以先响应用户针对屏幕或者屏幕中的文档图像输入的触发操作，确定触发操作对应的触发位置，其中用户针对屏幕或者屏幕中的文档图像输入触发操作的方式可以不作具体限定，例如，用户可以用手触摸屏幕而产生触发操作，还可以是用户通过语音输入产生触发操作，还可以是用户直接通过键盘等设备输入触发操作。

请参阅图9，图9为本申请另一实施例提供的输入触发操作的示意图。

如图9所示，终端900中设置有屏幕910，屏幕910可以显示文档图像920，用户930可以通过手指触摸或者框选屏幕910中文档图像920中的任意位置，相当于用户输入了触发操作，终端900确定触发操作在文档图像920中对应的位置信息，将该位置信息作为触发操作的触发位置。

请参阅图10，图10为本申请另一实施例提供的输入触发操作的示意图。

如图10所示，终端1000中设置有屏幕1010，屏幕1010可以显示文档图像1020，屏幕中还设置有虚拟的识别按钮1040，用户1030可以通过手指触摸屏幕1010中识别按钮1040，并将识别按钮1040移动到文档图像1020中的任意位置，相当于用户输入了触发操作，终端1000确定识别按钮1040停止的位置在文档图像1020中对应的位置信息，将该位置信息作为触发操作的触发位置。

在确定触发操作的触发位置之后，还可以根据上述不同段落对应的段落预设位置与触发位置的匹配情况，确定触发操作的触发位置触发的段落，将该段落作为目标段落。其中一种可行的方式是，段落预测位置可以用方框的形式进行表现，那么只要确定触发位置信息落入到某一方框内，那么可以将该方框对应的段落或者方框所在的段落作为目标段落。

S805、根据目标段落对应的目标段落预测类型，确定目标段落对应的预设识别方案。

不同段落对应的段落预测类型可能是不同的，因此可以根据文档图像中不同段落与其对应的段落预测类型之间的对应关系，确定目标段落对应的目标段落预测类型，在上述实施例中介绍了，段落预测类型可以是标段落题，文字段落，表格段落，索引段落，图片段落等类型，因此可以针对不同类型的段落预测类型分别设置不同的预设识别方案，那么确定目标段落对应的目标段落预测类型之后，就可以确定目标段落对应的预设识别方案。

S806、基于预设识别方案对目标段落进行识别，以及展示识别结果。

在确定目标段落对应的预设识别方案之后，可以基于预设识别方案对目标段落进行识别以及展示识别结果，其中展示的方式可以根据识别结果的类型进行选择。

例如，若目标段落预测类型为文字段落，则确定目标段落对应的预设识别方案为文字识别方案，那么基于文字识别方案对目标段落进行文字识别以及翻译，进行文字识别时可以设置支持的文字识别类型范围，还可以设置进行翻译时的优先翻译语种。

再例如，若目标段落预测类型为图片段落，则确定目标段落对应的预设识别方案为图片识别方案，基于图片识别方案对目标段落进行图片识别以及图片检索，进行图片识别时可以设置优先进行识别的图片类型范围，还可以设置进行图片检索时优先使用的检索库或者检索网站。

请参阅图11，图11为本申请另一实施例提供的展示识别结果的示意图。

如图11所示，终端1100中设置有屏幕1110，屏幕1110可以显示文档图像1120，用户1130可以通过手指触摸屏幕1110中文档图像1120中的任意位置，终端1100确定触摸位置在文档图像1120中对应的位置信息，将该位置信息作为触发操作的触发位置，然后确定触发位置在段落预测位置中对应的目标段落，以及获取目标段落在段落预测类型中对应的目标段落预测类型，例如，目标段落预测类型为图片段落，那么可以确定目标段落预测类型也即图片段落对应的预设识别方案为进行图片识别、提取图片中的商品信息以及图片检索，基于预设识别方案对目标段落进行识别以及图片检索，即可得到图片段落的中的商品名称以及商品链接等商品信息1140，并在屏幕1110中展示该商品信息1140。

在本申请实施例中，可以首先获取文档图像，基于图像识别模型确定文档图像中不同段落对应的段落预测类型以及段落预测位置，然后基于段落预测类型以及段落预测位置对文档图像进行具体识别，可以大大提升图像识别段落的类型范围，以及图像识别之后的功能扩展。

请参阅图12，图12为本申请另一实施例提供的图像识别模型训练装置的结构示意图。

如图12所示，训练装置1200包括：

特征确定模块1210，用于从训练数据库中获取训练图像，基于图像识别模型确定训练图像对应的至少一个特征层，其中各特征层的尺度不同。

预测结果获取模块1220，用于基于图像识别模型切取各特征层对应的建议区域，以及根据建议区域生成训练图像对应的预测结果。

模型调整模块1230，用于根据预测结果以及训练图像的原始信息，对图像识别模型中的参数进行调整。

请参阅图13，图13为本申请另一实施例提供的图像识别装置的结构示意图。

如图13所示，图像识别装置1300包括：

图像获取模块1310，用于获取屏幕当前显示文档的文档图像。

特征确定模块1320，用于基于图像识别模型确定文档图像对应的至少一个特征层，其中各特征层的尺度不同，图像识别模型用于识别文档图像中不同段落的段落类型以及段落位置。

图像预测模块1330，用于基于图像识别模型切取各特征层对应的建议区域，以及根据建议区域确定文档图像中不同段落对应的段落预测类型以及段落预测位置。

请参阅图14，图14为本申请另一实施例提供的图像识别装置的结构示意图。

如图14所示，图像识别装置1400包括：

图像获取模块1410，用于获取屏幕当前显示文档的文档图像。

需求计算模块1420，用于根据文档图像的属性信息确定文档图像的计算需求量。

缩放模块1430，用于根据计算需求量确定图像识别模型中文档图像对应的骨架网络，基于骨架网络缩放文档图像。

排序模块1440，用于提取文档图像的至少一个尺度特征，按照预设顺序对各尺度特征进行排序。

特征层输出模块1450，用于将排序后的尺度特征依次输入图像识别模型中，以及获取图像识别模型针对文档图像输出的至少一个特征层。

第一建议区域确定模块1460，用于确定文档图像对应初始建议区域，以及确定各建议区域的尺度信息。

第二建议区域确定模块1470，用于根据初始建议区域所在特征层的层级以及各建议区域的尺度信息，确定各建议区域所在特征层的层级。

第三建议区域确定模块1480，用于在各建议区域所在特征层中按照各建议区域的尺度信息，切取各特征层得到各特征层对应的建议区域。

坐标对应模块1490，用于将各建议区域的坐标在文档图像的坐标中进行对应。

预测模块14100，用于根据建议区域对文档图像中的不同段落进行段落类型预测以及段落位置预测，分别得到不同段落对应的段落预测类型以及段落预测位置。

请参阅图15，图15为本申请另一实施例提供的图像识别装置的结构示意图。

如图15所示，图像识别装置1500包括：

图像获取模块1510，用于获取屏幕当前显示文档的文档图像。

特征确定模块1520，用于基于图像识别模型确定文档图像对应的至少一个特征层，其中各特征层的尺度不同，图像识别模型用于识别文档图像中不同段落的段落类型以及段落位置。

图像预测模块1530，用于基于图像识别模型切取各特征层对应的建议区域，以及根据建议区域确定文档图像中不同段落对应的段落预测类型以及段落预测位置。

触发获取模块1540，用于响应针对屏幕的触发操作，根据段落预测位置确定触发操作所触发的目标段落。

方案确定模块1550，用于根据目标段落对应的目标段落预测类型，确定目标段落对应的预设识别方案。

识别模块1560，用于基于预设识别方案对目标段落进行识别，以及展示识别结果。

其中，基于预设识别方案对目标段落进行识别，包括：若目标段落预测类型为文字段落，则确定目标段落对应的预设识别方案为文字识别方案；基于文字识别方案对目标段落进行文字识别以及翻译。

或者，基于预设识别方案对目标段落进行识别，包括：若目标段落预测类型为图片段落，则确定目标段落对应的预设识别方案为图片识别方案；基于图片识别方案对目标段落进行图片识别以及图片检索。

在本申请实施例中，一种图像识别装置包括：图像获取模块，用于获取屏幕当前显示文档的文档图像；特征确定模块，用于基于图像识别模型确定文档图像对应的至少一个特征层，其中各特征层的尺度不同，图像识别模型用于识别文档图像中不同段落的段落类型以及段落位置；图像预测模块，用于基于图像识别模型切取各特征层对应的建议区域，以及根据建议区域确定文档图像中不同段落对应的段落预测类型以及段落预测位置。在确定图像识别模型之后，可以获取文档图像并基于图像识别模型确定文档图像对应的特征层以及建议区域，并根据建议区域确定文档图像中不同段落对应的段落预测类型以及段落预测位置，由于通过确定特征层进而确定建议区域的方式，因此可以提升基于图像识别模型识别文档图像的准确性，且由于可以识别出文档图像中的所有段落的段落类型以及对应的段落位置，因此也可以大大提升了图像识别结果的类型范围，以及图像识别之后的功能扩展。

本申请实施例还提供了一种计算机存储介质，计算机存储介质存储有多条指令，指令适于由处理器加载并执行如上述实施例中的任一项的方法的步骤。

进一步地，请参见图16，图16为本申请实施例提供了一种终端的结构示意图。如图16所示，终端1600可以包括：至少一个中央处理器1601，至少一个网络接口1604，用户接口1603，存储器1605，至少一个通信总线1602。

其中，通信总线1602用于实现这些组件之间的连接通信。

其中，用户接口1603可以包括屏幕(Display)、摄像头(Camera)，可选用户接口1603还可以包括标准的有线接口、无线接口。

其中，网络接口1604可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，中央处理器1601可以包括一个或者多个处理核心。中央处理器1601利用各种接口和线路连接整个终端1600内的各个部分，通过运行或执行存储在存储器1605内的指令、程序、代码集或指令集，以及调用存储在存储器1605内的数据，执行终端1600的各种功能和处理数据。可选的，中央处理器1601可以采用数字信号处理(Digital SignalProcessing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。中央处理器1601可集成中央中央处理器(Central Processing Unit，CPU)、图像中央处理器(GraphicsProcessing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责屏幕所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到中央处理器1601中，单独通过一块芯片进行实现。

其中，存储器1605可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器1605包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1605可用于存储指令、程序、代码、代码集或指令集。存储器1605可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1605可选的还可以是至少一个位于远离前述中央处理器1601的存储装置。如图16所示，作为一种计算机存储介质的存储器1605中可以包括操作系统、网络通信模块、用户接口模块以及图像识别程序。

在图16所示的终端1600中，用户接口1603主要用于为用户提供输入的接口，获取用户输入的数据；而中央处理器1601可以用于调用存储器1605中存储的图像识别程序，并具体执行以下操作：

获取屏幕当前显示文档的文档图像；

基于图像识别模型确定文档图像对应的至少一个特征层，其中各特征层的尺度不同，图像识别模型用于识别文档图像中不同段落的段落类型以及段落位置；

基于图像识别模型切取各特征层对应的建议区域，以及根据建议区域确定文档图像中不同段落对应的段落预测类型以及段落预测位置。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上为对本申请所提供的一种图像识别方法、装置、存储介质以及终端的描述，对于本领域的技术人员，依据本申请实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

获取屏幕当前显示文档的文档图像；

2.根据权利要求1所述的方法，其特征在于，所述基于图像识别模型确定所述文档图像对应的至少一个特征层之前，还包括：

根据所述文档图像的属性信息确定所述文档图像的计算需求量；

根据所述计算需求量确定图像识别模型中所述文档图像对应的骨架网络，基于所述骨架网络缩放所述文档图像。

3.根据权利要求2所述的方法，其特征在于，所述基于图像识别模型确定所述文档图像对应的至少一个特征层，包括：

提取所述文档图像的至少一个尺度特征，按照预设顺序对各尺度特征进行排序；

将排序后的尺度特征依次输入图像识别模型中，以及获取所述图像识别模型针对所述文档图像输出的至少一个特征层。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述基于所述图像识别模型切取各特征层对应的建议区域，包括：

确定所述文档图像对应初始建议区域，以及确定各建议区域的尺度信息；

根据所述初始建议区域所在特征层的层级以及各建议区域的尺度信息，确定各建议区域所在特征层的层级；

在各建议区域所在特征层中按照各建议区域的尺度信息，切取各特征层得到各特征层对应的建议区域。

5.根据权利要求1至3任一项所述的方法，其特征在于，所述根据所述建议区域确定所述文档图像中不同段落对应的段落预测类型以及段落预测位置，包括：

将各建议区域的坐标在所述文档图像的坐标中进行对应；

根据所述建议区域对所述文档图像中的不同段落进行段落类型预测以及段落位置预测，分别得到不同段落对应的段落预测类型以及段落预测位置。

6.根据权利要求1所述的方法，其特征在于，所述根据所述建议区域确定所述文档图像中不同段落对应的段落预测类型以及段落预测位置之后，还包括：

响应针对所述屏幕的触发操作，根据所述段落预测位置确定所述触发操作所触发的目标段落；

根据所述目标段落对应的目标段落预测类型，确定所述目标段落对应的预设识别方案；

基于所述预设识别方案对所述目标段落进行识别，以及展示识别结果。

7.根据权利要求6所述的方法，其特征在于，所述基于所述预设识别方案对所述目标段落进行识别，包括：

若所述目标段落预测类型为文字段落，则确定所述目标段落对应的预设识别方案为文字识别方案；

基于所述文字识别方案对所述目标段落进行文字识别以及翻译。

8.根据权利要求6所述的方法，其特征在于，所述基于所述预设识别方案对所述目标段落进行识别，包括：

若所述目标段落预测类型为图片段落，则确定所述目标段落对应的预设识别方案为图片识别方案；

基于所述图片识别方案对所述目标段落进行图片识别以及图片检索。

9.一种图像识别装置，其特征在于，所述装置包括：

图像获取模块，用于获取屏幕当前显示文档的文档图像；

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～8任意一项的所述方法的步骤。

11.一种终端，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1～8任一项所述方法的步骤。