CN113723416B

CN113723416B - 一种图像处理方法、装置、设备及存储介质

Info

Publication number: CN113723416B
Application number: CN202111004417.1A
Authority: CN
Inventors: 侯俊杰; 赵晓旭; 张新田; 颜世秦; 李海洋; 杨文瀚; 王鹏飞; 熊巧奇; 慕岳衷; 王照顺; 王伟; 李进进
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2024-03-29
Anticipated expiration: 2041-08-30
Also published as: CN113723416A

Abstract

本公开实施例涉及一种图像处理方法、装置、设备及存储介质。本公开的至少一个实施例中，通过图像采集装置采集的第一图像，可以确定第一图像中用于指示待识别文本的对象的位置，进而，结合该对象的位置来调整图像采集装置的位姿，以使得图像采集装置的视场的中心区域能够覆盖待识别文本，这样，在调整图像采集装置的位姿后，获取图像采集装置再次采集的第二图像，第二图像中待识别文本就处于图像采集装置的视场的中心区域内，避免待识别文本处于视场的边缘区域，不受镜头边缘解析力衰减的影响，从而，基于第二图像识别出的文本更加准确，提升了文本识别效果。

Description

一种图像处理方法、装置、设备及存储介质

技术领域

本公开实施例涉及文本识别技术领域，具体涉及一种图像处理方法、装置、设备及存储介质。

背景技术

OCR(Optical Character Recognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。

目前OCR识别过程中，通常采用定焦摄像头或者变焦摄像头采集图像，进而识别图像中的文本信息。然而，由于摄像头的镜头边缘解析力衰减，导致摄像头采集的图像的边缘区域相比中心区域的清晰度降低，使得目前的OCR识别方案对于摄像头采集的图像的边缘区域识别准确率降低。

可见，当需要识别的文本位于图像边缘时，目前的OCR识别方案的识别效果较差，为此，亟需提供一种图像处理方案，当需要识别的文本位于图像边缘时，能够提升文本识别效果。

发明内容

为了解决现有技术存在的至少一个问题，本公开的至少一个实施例提供了一种图像处理方法、装置、设备及存储介质。

第一方面，本公开实施例提出一种图像处理方法，所述方法包括：

获取图像采集装置采集的第一图像，所述第一图像中包括用于指示待识别文本的对象；

获取所述对象在所述第一图像中的第一位置；

基于所述第一位置，确定所述图像采集装置的目标位姿，并调整所述图像采集装置到所述目标位姿；

获取所述图像采集装置采集的第二图像；

基于所述第二图像，识别所述对象指示的待识别文本。

在一些实施例中，所述基于所述第一位置，确定所述图像采集装置的目标位姿包括：

获取所述第一图像的中心位置；

基于所述第一位置和所述中心位置，确定所述图像采集装置的视场中心在所述第一图像中的目标位置；

基于所述目标位置，确定所述图像采集装置的目标位姿。

在一些实施例中，所述调整所述图像采集装置到所述目标位姿，包括：

基于所述图像采集装置的当前位姿和所述目标位姿，确定所述图像采集装置的位姿调整信息；

基于所述位姿调整信息控制所述图像采集装置的云台，以使所述云台调整所述图像采集装置的位姿为所述目标位姿。

在一些实施例中，所述基于所述第二图像，识别所述对象指示的待识别文本，包括：

获取所述对象在所述第二图像中的第二位置；

基于所述第二位置，在所述第二图像中确定待识别区域；

识别所述待识别区域中的文本。

在一些实施例中，在所述基于所述第二图像，识别所述对象指示的待识别文本之前，所述图像处理方法还包括：

判断所述对象在所述第二图像中的第二位置是否处于预设位置；

若所述第二位置处于所述预设位置，则基于所述第二图像，识别所述对象指示的待识别文本；

若所述第二位置未处于所述预设位置，则基于所述第二位置，调整所述图像采集装置的位姿。

第二方面，本公开实施例还提出一种图像处理装置，所述装置包括：

第一获取单元，用于获取图像采集装置采集的第一图像，所述第一图像中包括用于指示待识别文本的对象；

确定单元，用于获取所述对象在所述第一图像中的第一位置；

调整单元，用于基于所述第一位置，确定所述图像采集装置的目标位姿，并调整所述图像采集装置到所述目标位姿；

第二获取单元，用于获取所述图像采集装置采集的第二图像；

识别单元，用于基于所述第二图像，识别所述对象指示的待识别文本。

第三方面，本公开实施例还提出一种图像处理设备，所述设备包括：

图像采集装置和第二方面所述的图像处理装置；

所述图像处理装置与所述图像采集装置通信连接。

在一些实施例中，所述设备还包括：云台；

所述云台，用于支撑所述图像采集装置和调整所述图像采集装置的位姿；

所述图像处理装置与所述云台通信连接。

第四方面，本公开实施例还提出一种电子设备，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如第一方面任一实施例所述图像处理方法的步骤。

第五方面，本公开实施例还提出一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如第一方面任一实施例所述图像处理方法的步骤。

第六方面，本公开实施例还提出一种计算机程序产品，所述计算机程序产品包括计算机程序，该计算机程序存储在非暂态计算机可读存储介质中，计算机的至少一个处理器从存储介质读取并执行该计算机程序，使得计算机执行如第一方面任一实施例所述图像处理方法的步骤。

可见，本公开的至少一个实施例中，通过图像采集装置采集的第一图像，可以确定第一图像中用于指示待识别文本的对象的位置，进而，结合该对象的位置来调整图像采集装置的位姿，以使得图像采集装置的视场的中心区域能够覆盖待识别文本，这样，在调整图像采集装置的位姿后，获取图像采集装置再次采集的第二图像，第二图像中待识别文本就处于图像采集装置的视场的中心区域内，避免待识别文本处于视场的边缘区域，不受镜头边缘解析力衰减的影响，从而，基于第二图像识别出的文本更加准确，提升了文本识别效果。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是一种示例性应用场景图；

图2是一种文本识别系统的示例性架构图；

图3是基于图2的文本识别系统采集的图像；

图4是本公开实施例提供的一种文本识别系统的示例性架构图；

图5是基于图4的文本识别系统采集的图像；

图6是本公开实施例提供的一种图像处理方法的示例性流程图；

图7是本公开实施例提供的一种图像处理装置的示例性框图；

图8是本公开实施例提供的一种电子设备的示例性框图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开，而非对本公开的限定。基于所描述的本公开的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

OCR(Optical Character Recognition，光学字符识别)是目前常用的一种文本识别方式。图1示出了一种OCR文本识别的应用场景，在图1中，文本101具有多行文本内容，通过OCR文本识别方式可以对文本101中所有文本内容进行识别，也可以对文本101中的部分文本内容进行识别。当需要进行部分内容识别时，通常由用户从文本101中选择待识别的文本，例如，用户可以用手指102指向待识别的文本。

图2示出了一种文本识别系统，可以满足图1所示的应用场景中的OCR文本识别。在图2中，文本识别系统包括摄像头201和 OCR文本识别装置202，其中，摄像头201的FOV(Field Of View，视场)如图2所示，摄像头201可以采集FOV内的图像。在一些实施例中，当文本识别系统应用于阅读场景，摄像头201可以安装在台灯上。用户可以将文本放置在摄像头201的FOV内，这样，摄像头201可以采集文本的图像，OCR文本识别装置202可以从摄像头201获取该图像，进而采用OCR文本识别方式对图像中的文本进行识别。在一些实施例中，当需要对部分内容进行识别时，用户可以用手指指向待识别的文本，OCR文本识别装置202则可以分析摄像头201采集的图像中手指的位置，进而通过OCR文本识别方式对图像中距离手指位置最近的文本进行识别。

然而，摄像头201通常采用定焦摄像头或者变焦摄像头，摄像头的FOV边缘解析力衰减，导致摄像头采集的图像的边缘成像模糊，使得OCR文本识别装置202对于图像的中心区域识别准确性较高，边缘区域识别准确性较低，其中，中心区域根据摄像头201本身的参数来确定，中心区域的范围(面积)大于边缘区域的范围(面积)。例如，图3是基于图2的文本识别系统中的摄像头201采集的图像，该图像中方框内的文本可以理解为待识别文本，用户用手指指向待识别文本，但是由于待识别文本位于FOV边缘，镜头解析力衰减导致清晰度降低。图2的文本识别系统中的OCR文本识别装置202虽然可以识别方框内的文本，但是识别准确性较低，识别效果较差。

为了提升文本识别效果，本公开实施例提供一种图像处理方法、装置、设备及存储介质，本公开的至少一个实施例中，通过图像采集装置采集的第一图像，可以确定第一图像中用于指示待识别文本的对象的位置，进而，结合该对象的位置来调整图像采集装置的位姿，以使得图像采集装置的视场的中心区域能够覆盖待识别文本，这样，在调整图像采集装置的位姿后，获取图像采集装置再次采集的第二图像，第二图像中待识别文本就处于图像采集装置的视场的中心区域内，避免待识别文本处于视场的边缘区域，不受镜头边缘解析力衰减的影响，从而，基于第二图像识别出的文本更加准确，提升了文本识别效果。

图4是本公开实施例提供的一种文本识别系统的示例性架构图。如图4所示，文本识别系统可以包括但不限于：图像采集装置401、图像处理装置402和云台403。其中，图像采集装置401可以实现为图2中的摄像头201，图像采集装置401的FOV如图4所示。云台 403用于支撑图像采集装置401，也可以理解为图像采集装置401安装在云台403上。云台403可以调整图像采集装置401的位姿，位姿即位置和姿态，其中，位置为图像采集装置401在空间中的三维坐标位置，姿态为图像采集装置401的俯仰(pitch)角、偏摆(yaw) 角和翻滚(roll)角。

图像处理装置402与图像采集装置401通信连接。例如，图像处理装置402可以获取图像采集装置401采集的图像，也可以向图像采集装置401发送图像采集配置信息，以使图像采集装置401基于该配置信息进行图像采集，其中，图像采集配置信息例如包括图像分辨率、图像尺寸等。在一些实施例中，图像处理装置402可以集成在图像采集装置401中。

图像处理装置402还与云台403通信连接。例如，图像处理装置402可以向云台403发送控制信息或者控制信息对应的控制指令，以使云台403基于控制信息或控制指令对图像采集装置401进行控制，其中，控制信息例如为位姿调整信息。图像处理装置402可以接收云台403反馈的控制执行结果，例如，当控制信息或控制指令无效时，云台403会向图像处理装置402反馈控制信息或控制指令无效的提示信息，以使图像处理装置402知晓问题并进行处理。

图4中，图像处理装置402可以获取图像采集装置401采集的图像，例如图3所示的图像，图像处理装置402并非直接对该图像进行OCR识别，而是先确定该图像中手指的位置，进而，结合手指的位置来确定图像采集装置401的位姿调整信息，并基于位姿调整信息控制云台403，例如将位姿调整信息(或位姿调整信息对应的指令)发送给云台403，以使云台403基于位姿调整信息(或位姿调整信息对应的指令)调整图像采集装置401的位姿，使得图像采集装置401的FOV的中心区域能够覆盖待识别文本。这样，在调整图像采集装置401的位姿后，图像处理装置402获取图像采集装置401 再次采集的图像，待识别文本就处于图像采集装置401的FOV的中心区域内，避免待识别文本处于FOV的边缘区域，不受镜头边缘解析力衰减的影响，从而，图像处理装置402基于图像采集装置401 再次采集的图像识别出的文本更加准确，提升了文本识别效果。

图5是基于图4的文本识别系统中的图像采集装置401采集的图像，该图像可以理解为图像采集装置401在调整位姿后再次采集的图像。该图像中方框内的文本可以理解为待识别文本，用户用手指指向待识别文本，由于调整图像采集装置401的位姿后待识别文本处于图像采集装置401的FOV的中心区域内，不受镜头边缘解析力衰减的影响，清晰度相比图3有明显提升，图像处理装置402从该图像的方框内识别出的文本更加准确，提升了文本识别效果。需要说明的是，图5中手指指尖与图3中手指指尖的位置相同。

图6是本公开实施例提供的一种图像处理方法的示例性流程图，该方法的执行主体为图像处理装置，例如可以为图4中所示的图像处理装置402。

如图6所示，在步骤601中，获取图像采集装置采集的第一图像，第一图像中包括用于指示待识别文本的对象。

本实施例中，用于指示待识别文本的对象例如为手指，笔等任意有形实物。在一些实施例中，可以将用于指示待识别文本的对象视为手指指尖，笔尖等有形实物。可以理解的是，待识别文本和对象需要处于图像采集装置的FOV内，这样才能被图像采集装置采集到。用户在指示待识别文本后，可以判断待识别文本和对象是否处于图像采集装置的FOV内，若未处于，则调整待识别文本和对象的位置或者调整图像采集装置位姿，直至待识别文本和对象处于图像采集装置的FOV内。进而用户可以触发图像采集装置进行图像采集，这样，图像采集装置采集的第一图像中就包括用于指示待识别文本的对象。

在步骤602中，获取对象在第一图像中的第一位置。

本实施例中，通过对第一图像进行图像分析，可以确定对象在第一图像中的第一位置。例如，使用预先训练好的对象特征识别神经网络，在第一图像中对对象特征区域进行定位并获得对象的位置。其中，对象特征识别神经网络的训练可以沿用现有的神经网络训练方法进行训练，不再赘述。在一些实施例中，以对象为手指或笔为例，通过对第一图像进行图像分析，可以确定第一图像中手指指尖坐标或笔尖坐标。

在步骤603中，基于对象的第一位置，确定图像采集装置的目标位姿，并调整图像采集装置到目标位姿。

本实施例中，在确定对象的第一位置后，可以判断对象的第一位置是否处于图像采集装置的FOV的中心区域内，若对象的第一位置处于图像采集装置的FOV的中心区域内，那么，无需调整图像采集装置的位姿，可以直接基于第一图像识别对象指示的待识别文本。其中，识别的具体方式可以为OCR识别，不再赘述。

在一些实施例中，若对象的第一位置未处于图像采集装置的 FOV的中心区域内，那么，需要调整图像采集装置的位姿，例如调整图像采集装置的位置和姿态中的至少一种，直至对象处于图像采集装置的FOV的中心区域内，此时对应的图像采集装置的位姿记为目标位姿，也即，通过调整图像采集装置到目标位姿，可以使对象处于图像采集装置的FOV的中心区域内。

需要说明的是，可以通过一次调整或多次调整，使对象处于图像采集装置的FOV的中心区域内。对于多次调整的场景，每次调整图像采集装置的位姿后会获取图像采集装置采集的图像，基于该图像进行第二次调整，以此类推，每次调整均是基于上一次调整后采集的图像进行，直至对象处于图像采集装置的FOV的中心区域内。

在步骤604中，获取图像采集装置采集的第二图像。

本实施例中，在调整图像采集装置的位姿为目标位姿后，说明对象处于图像采集装置的FOV的中心区域内，那么，获取图像采集装置采集的第二图像，在第二图像中对象处于图像采集装置的FOV 的中心区域内，避免待识别文本处于FOV的边缘区域。

在步骤605中，基于第二图像，识别对象指示的待识别文本。

本实施例中，由于在第二图像中待识别文本处于图像采集装置的FOV的中心区域内，避免待识别文本处于FOV的边缘区域，进而避免镜头解析力衰减导致清晰度降低的问题，从而，基于第二图像识别出的文本更加准确，提升了文本识别效果。

在一些实施例中，步骤603中基于第一位置，确定图像采集装置的目标位姿具体包括如下步骤6031至6033：

6031：获取第一图像的中心位置。

其中，第一图像的中心位置为图像采集装置的视场中心在第一图像中的位置。在一些实施例中，图像处理装置可以将第一图像的中心位置(二维坐标)通过坐标转换得到对应的空间位置(三维坐标)。其中，坐标转换涉及到图像二维坐标、图像采集装置的内参和图像采集装置当前的位姿，属于本领域的常规手段，因此不再赘述具体的坐标转换过程。

由于FOV的中心区域的范围(包括中心区域的形状和面积)可以预先确定并记录在图像采集装置或图像处理装置中，也即，FOV 的中心区域的范围是固定不变的，因此，图像处理装置可以通过确定第一图像的中心位置，结合FOV的中心区域的范围，即可确定 FOV的中心区域在第一图像中的二维区域。

进而，图像处理装置可以判断对象在第一图像中的第一位置是否处于FOV的中心区域内，若第一位置未处于FOV的中心区域内，则执行步骤6032。若第一位置处于FOV的中心区域内，则直接基于第一图像，识别对象指示的待识别文本。

6032：基于对象在第一图像中的第一位置和第一图像的中心位置，确定图像采集装置的视场中心在第一图像中的目标位置。

本实施例中，若对象未处于图像采集装置的FOV的中心区域内，则需要调整FOV的中心区域的位置，以使对象处于调整后的FOV 的中心区域内。由于FOV的中心区域的范围是固定不变的，因此，通过调整图像采集装置的位姿，实现调整FOV的中心区域的位置。目标位置可以理解为调整图像采集装置的位姿后视场中心在第一图像中的位置。

在一些实施例中，图像处理装置可以基于对象在第一图像中的第一位置、第一图像的中心位置和FOV的中心区域的范围，确定图像采集装置的视场中心在第一图像中的目标位置，以使对象处于调整后的FOV的中心区域内。

在一些实施例中，目标位置可以为对象在第一图像中的第一位置；目标位置也可以为满足条件的任一位置，其中，所述条件为基于目标位置确定的FOV的中心区域的位置包含第一位置，也即第一位置处于该FOV的中心区域的范围内。

6033：基于目标位置，确定图像采集装置的目标位姿。

若固定图像采集装置的位置不变，则可以基于目标位置(二维坐标)，确定图像采集装置的目标姿态；若固定图像采集装置的姿态不变，则可以基于目标位置(二维坐标)，确定图像采集装置的位置 (三维坐标)；若图像采集装置的位置和姿态均可以调整，则可以基于目标位置(二维坐标)，确定图像采集装置的目标位姿。

需要说明的是，由目标位置确定图像采集装置的目标位姿，涉及坐标转换，而坐标转换涉及到图像二维坐标、图像采集装置的内参和图像采集装置当前的位姿，属于本领域的常规手段，因此不再赘述具体的坐标转换过程。

在一些实施例中，步骤603中调整图像采集装置到目标位姿，具体包括如下步骤1和步骤2：

步骤1：基于图像采集装置的当前位姿和目标位姿，确定图像采集装置的位姿调整信息。其中，位姿调整信息包括位置调整信息和姿态调整信息中的至少一种。

步骤2：基于位姿调整信息控制图像采集装置的云台，以使云台调整图像采集装置的位姿为目标位姿。

在一些实施例中，可以将位姿调整信息或者位姿调整信息对应的控制指令发送至云台，以使云台基于位姿调整信息或者位姿调整信息对应的控制指令调整图像采集装置的位姿。

对于具有信息解析功能的云台，图像处理装置可以直接将位姿调整信息发送至云台，由云台解析位姿调整信息进而生成对应的控制指令，这样，云台可以基于控制指令调整图像采集装置的位姿。

对于不具有信息解析功能的云台，图像处理装置在确定位姿调整信息后，先基于位姿调整信息生成对应的控制指令，再将控制指令发送至云台，这样，云台基于接收到的控制指令调整图像采集装置的位姿。

在一些实施例中，步骤605中，基于第二图像，识别对象指示的待识别文本，具体包括如下步骤6051至6053：

6051：获取对象在第二图像中的第二位置。

6052：基于第二位置，在第二图像中确定待识别区域。

在一些实施例中，可以将对象的第二位置作为中心，在第二图像中确定预设区域作为待识别区域。其中，预设区域表示待识别文本所在的区域，例如，图5中的方框所示的区域即为预设区域。

6053：识别待识别区域中的文本。其中，识别方式例如为OCR 识别方式，不再赘述。

在一些实施例中，在步骤605基于第二图像，识别对象指示的待识别文本之前，图像处理方法还可以如下包括如下判断步骤：

判断对象在第二图像中的第二位置是否处于预设位置，其中，预设位置可以为第二图像的中心位置，也可以为FOV的中心区域在第二图像中的二维区域的任一位置。

若第二位置处于预设位置，则执行步骤605中基于第二图像，识别对象指示的待识别文本；若第二位置未处于预设位置，则基于第二位置，调整图像采集装置的位姿，调整的过程类似于步骤601 至603，为避免重复不再赘述。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员能够理解，本公开实施例并不受所描述的动作顺序的限制，因为依据本公开实施例，某些步骤可以采用其他顺序或者同时进行。另外，本领域技术人员能够理解，说明书中所描述的实施例均属于可选实施例。

图7为本公开实施例提供的一种图像处理装置701的示例性框图，该图像处理装置701可以实现为图4中图像处理装置401或者图像处理装置401的一部分。如图7所示，图像处理装置701可划分为多个单元，例如可包括但不限于：第一获取单元71、确定单元 72、调整单元73、第二获取单元74、识别单元75以及其他一些可以用于文本识别的单元，例如存储单元，用于存储文本识别过程中涉及的数据。

第一获取单元71，用于获取图像采集装置采集的第一图像，第一图像中包括用于指示待识别文本的对象；

确定单元72，用于获取对象在第一图像中的第一位置；

调整单元73，用于基于第一位置，确定图像采集装置的目标位姿，并调整图像采集装置到目标位姿；

第二获取单元74，用于获取图像采集装置采集的第二图像；

识别单元75，用于基于第二图像，识别对象指示的待识别文本。

在一些实施例中，调整单元73基于第一位置，确定图像采集装置的目标位姿包括：获取第一图像的中心位置；进而，基于第一位置和中心位置，确定图像采集装置的视场中心在第一图像中的目标位置；从而，基于目标位置，确定图像采集装置的目标位姿。

在一些实施例中，调整单元73调整图像采集装置到目标位姿包括：基于图像采集装置的当前位姿和目标位姿，确定图像采集装置的位姿调整信息；进而将基于姿调整信息控制图像采集装置的云台，以使云台调整图像采集装置的位姿为目标位姿。

在一些实施例中，识别单元75具体用于：获取对象在第二图像中的第二位置；进而，基于第二位置，在第二图像中确定待识别区域；从而，识别待识别区域中的文本。

在一些实施例中，图像处理装置701还可以包括图7中未示出的判断单元。该判断单元用于判断对象在第二图像中的第二位置是否处于预设位置。识别单元75在该判断单元判定第二位置处于预设位置后，基于第二图像，识别对象指示的待识别文本。调整单元73还用于在该判断单元判定第二位置未处于预设位置后，则基于第二位置，调整图像采集装置的位姿。

需要说明的是，图像处理装置701各单元的具体细节可参考图6 所示的图像处理方法及其相关各实施例，为避免重复，不再赘述。

在一些实施例中，图像处理装置701中各单元的划分仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如图像处理装置701各单元中的至少两个单元可以实现为一个单元；图像处理装置701中各单元也可以划分为多个子单元。可以理解的是，各个单元或子单元能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能。

本公开实施例还提供一种图像处理设备，该设备可以包括但不限于图像采集装置以及图7相关各实施例提供的图像处理装置，且图像处理装置与图像采集装置通信连接，这样，图像处理装置可以获取图像采集装置采集的图像，进而对该图像进行文本识别。

在一些实施例中，图像处理设备除了包括图像采集装置和图像处理装置，还可以包括云台。云台用于支撑图像采集装置，并且可以调整图像采集装置的位姿。云台与图像处理设备通信连接，这样，图像处理装置可以向云台发送位姿调整信息或者位姿调整信息对应的控制指令，以使云台基于位姿调整信息或者位姿调整信息对应的控制指令，对图像采集装置进行位姿调整。

在一些实施例中，图像处理设备中包括的图像采集装置、图像处理装置和云台，可以为图4中的图像采集装置401、图像处理装置 402和云台403。一种可选的实施方式中，图像处理装置可以集成在图像采集装置中，图像采集装置安装在云台上，这样，图像处理设备整体的体积可以做小，便于携带和安装。

图8是本公开实施例提供的一种电子设备的结构示意图。电子设备可实现为图7及其相关实施例提供的图像处理装置或图像处理装置的一部分。

如图8所示，电子设备包括：至少一个处理器801、至少一个存储器802和至少一个通信接口803。电子设备中的各个组件通过总线系统804耦合在一起。通信接口803，用于与外部设备之间的信息传输。可理解地，总线系统804用于实现这些组件之间的连接通信。总线系统804除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见，在图8中将各种总线都标为总线系统804。

可以理解，本实施例中的存储器802可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

在一些实施方式中，存储器802存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础任务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用任务。实现本公开实施例提供的图像处理方法的程序可以包含在应用程序中。

在本公开实施例中，处理器801通过调用存储器802存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器 801用于执行本公开实施例提供的图像处理方法各实施例的步骤。

本公开实施例提供的图像处理方法可以应用于处理器801中，或者由处理器801实现。处理器801可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器801中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器801可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本公开实施例提供的图像处理方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器802，处理器801读取存储器 802中的信息，结合其硬件完成方法的步骤。

本公开实施例还提出一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如图像处理方法各实施例的步骤，为避免重复描述，在此不再赘述。

本公开实施例还提出一种计算机程序产品，其中，该计算机程序产品包括计算机程序，该计算机程序存储在非暂态计算机可读存储介质中，计算机的至少一个处理器从存储介质读取并执行该计算机程序，使得计算机执行如图像处理方法各实施例的步骤，为避免重复描述，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。

本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

虽然结合附图描述了本公开的实施方式，但是本领域技术人员可以在不脱离本公开的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取所述对象在所述第一图像中的第一位置；

若所述第一位置未处于所述图像采集装置的FOV的中心区域内，基于所述第一位置，确定所述图像采集装置的目标位姿，并调整所述图像采集装置到所述目标位姿，所述目标位姿对应所述对象处于所述图像采集装置的FOV的中心区域内；

获取所述图像采集装置采集的第二图像；

基于所述第二图像，识别所述对象指示的待识别文本。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一位置，确定所述图像采集装置的目标位姿包括：

获取所述第一图像的中心位置；

基于所述目标位置，确定所述图像采集装置的目标位姿。

3.根据权利要求2所述的方法，其特征在于，所述调整所述图像采集装置到所述目标位姿，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于所述第二图像，识别所述对象指示的待识别文本，包括：

获取所述对象在所述第二图像中的第二位置；

基于所述第二位置，在所述第二图像中确定待识别区域；

识别所述待识别区域中的文本。

5.根据权利要求1所述的方法，其特征在于，在所述基于所述第二图像，识别所述对象指示的待识别文本之前，所述方法还包括：

6.一种图像处理装置，其特征在于，所述装置包括：

调整单元，用于若所述第一位置未处于所述图像采集装置的FOV的中心区域内，基于所述第一位置，确定所述图像采集装置的目标位姿，并调整所述图像采集装置到所述目标位姿，所述目标位姿对应所述对象处于所述图像采集装置的FOV的中心区域内；

7.一种图像处理设备，其特征在于，所述设备包括：

图像采集装置和权利要求6所述的图像处理装置；

所述图像处理装置与所述图像采集装置通信连接。

8.根据权利要求7所述的设备，其特征在于，所述设备还包括：云台；

所述图像处理装置与所述云台通信连接。

9.一种电子设备，其特征在于，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如权利要求1至5任一项所述图像处理方法的步骤。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至5任一项所述图像处理方法的步骤。

11.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，该计算机程序存储在非暂态计算机可读存储介质中，计算机的至少一个处理器从存储介质读取并执行该计算机程序，使得计算机执行如权利要求1至5任一项所述图像处理方法的步骤。