CN111159976A

CN111159976A - 文本位置标注方法、装置

Info

Publication number: CN111159976A
Application number: CN201911308472.2A
Authority: CN
Inventors: 唐嘉龙; 鲁四喜; 农高明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-05-15

Abstract

本申请的实施例提供了一种文本位置标注方法、装置。该文本位置标注方法包括：在待处理图像中确定待标注对象所在的目标区域以及所述目标区域对应的第一角点坐标，所述待标注对象包含文本信息；获取标注参考区域的第二角点坐标以及所述标注参考区域中的文本位置信息；根据所述第一角点坐标和所述第二角点坐标确定变换矩阵；根据所述变换矩阵和所述标注参考区域中的文本位置信息确定所述待标注对象中的文本位置信息并进行标注。本申请实施例的技术方案可以极大提高文本位置标注效率以及文本位置标注准确率，大大缩短文本位置标注时间。

Description

文本位置标注方法、装置

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种文本位置标注方法、装置。

背景技术

在办理业务(例如网络贷款业务等)时，常常会需要用户先通过用户端(例如手机等)上传相关的证件(例如房产证等)照片。后台服务器在收到用户上传的证件照片后，会从证件照片中提取相关的证件信息(例如房屋产权人、房屋坐落位置、产证编号等信息)，进而根据所提取得到的证件信息进行相应的业务处理。

为了能够提取得到证件照片中的证件信息，通常需要标注出该证件中的各种证件信息记载在证件的内容页面上的具体位置，目前对证件训练集进行文本位置标注，主要还是靠使用标注工具人工进行标注。然而使用标注工具进行人工标注的方法效率低，耗时长，主观误差大，如需对算法使用大量全面的训练样本集进行训练，所需时间非常长，不利于对算法进行快速的参数调优验证。

发明内容

本申请的实施例提供了一种文本位置标注方法、装置，进而至少在一定程度上能够提高文本位置标注效率以及文本位置标注准确率，大大缩短文本位置标注时间。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供了一种文本位置标注方法，包括：在待处理图像中确定待标注对象所在的目标区域以及所述目标区域对应的第一角点坐标，所述待标注对象包含文本信息；获取标注参考区域的第二角点坐标以及所述标注参考区域中的文本位置信息；根据所述第一角点坐标和所述第二角点坐标确定变换矩阵；根据所述变换矩阵和所述标注参考区域中的文本位置信息确定所述待标注对象中的文本位置信息并进行标注。

根据本申请实施例的一个方面，提供了一种文本位置标注装置，包括：第一确定单元，用于在待处理图像中确定待标注对象所在的目标区域以及所述目标区域对应的第一角点坐标，所述待标注对象包含文本信息；获取单元，用于获取标注参考区域的第二角点坐标和所述标注参考区域中的文本位置信息；第二确定单元，用于根据所述第一角点坐标和所述第二角点坐标确定变换矩阵；标注单元，用于根据所述变换矩阵和所述标注参考区域中的文本位置信息确定所述待标注对象中的文本位置信息并进行标注。

在本申请的一些实施例中，基于前述方案，所述第二确定单元用于根据所述第一角点坐标和所述第二角点坐标确定变换矩阵之前，还包括：校正对象获取单元，用于从所述待处理图像中获取校正对象，所述校正对象位于所述待标注对象任一方向角上；校正角点坐标确定单元，用于根据所述校正对象确定校正角点坐标，所述校正角点坐标为所述第一角点坐标中与所述校正对象距离最近的角点坐标；校正单元，用于根据所述校正角点坐标对所述待处理图像进行校正，以使得所述待标注对象中的文本信息与所述标注参考区域中的文本信息的方向一致。

在本申请的一些实施例中，基于前述方案，所述校正角点坐标确定单元配置为：获取所述校正对象的质心坐标；根据所述校正对象的质心坐标与所述第一角点坐标之间的距离确定与所述质心坐标距离最近的角点坐标；将所述距离最近的角点坐标作为校正角点坐标。

在本申请的一些实施例中，基于前述方案，所述校正单元配置为：根据所述校正角点坐标以及所述校正对象所在方向角确定所述待处理图像的旋转角度和旋转方向；按照所述旋转角度和所述旋转方向对所述待处理图像进行旋转。

在本申请的一些实施例中，基于前述方案，所述校正对象获取单元包括：预处理子单元，用于对所述待处理图像进行预处理以获取校正对象。

在本申请的一些实施例中，基于前述方案，所述预处理子单元配置为：将所述待处理图像由RGB色彩空间转换为HSV色彩空间，得到处理后图像；在所述处理后图像中提取具有单一颜色的图像，得到校正对象。

在本申请的一些实施例中，基于前述方案，所述预处理子单元配置为：将所述待处理图像转换为灰度图并进行去噪和二值化处理，得到处理后图像；在所述处理后图像中提取轮廓，确定校正对象。

在本申请的一些实施例中，基于前述方案，所述在所述处理后图像中提取轮廓，确定校正对象，包括：根据轮廓函数从所述处理后图像中提取轮廓；根据第一预设条件从提取的轮廓中确定目标轮廓；基于所述目标轮廓得到校正对象。

在本申请的一些实施例中，基于前述方案，所述第一确定单元配置为：将所述待处理图像转换为灰度图并进行去噪和二值化处理，得到处理后的图像；根据轮廓函数从所述处理后的图像中提取轮廓；根据第二预设条件从提取的轮廓中确定待标注对象所在的目标区域。

根据本申请实施例的一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例中所述的图像处理方法。

根据本申请实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的图像处理方法。

在本申请的一些实施例所提供的技术方案中，通过在待处理图像中确定待标注对象所在的目标区域以及目标区域对应的第一角点坐标，并获取标注参考区域的第二角点坐标，根据第一角点坐标与第二角点坐标确定变换矩阵，根据变换矩阵和标注参考区域中的文本位置信息确定待标注对象中的文本位置信息并进行标注，实现了对文本位置信息标注的自动化，避免了使用标注工具进行人工标注带来的低效率、耗时长的问题，极大地提高了文本位置标注效率以及标注的准确率，缩短了文本位置标注时间。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本申请实施例的技术方案的一个示例性系统架构的示意图；

图2示出了根据本申请的一个实施例的文本位置标注方法的流程图；

图3示出了根据本申请的一个实施例的文本位置标注方法的流程图；

图4示出了根据本申请的一个实施例的文本位置标注方法的流程图；

图5示出了根据本申请的一个实施例的文本位置标注方法的流程图；

图6示出了根据本申请的一个实施例的文本位置标注方法的流程图；

图7示出了根据本申请的一个实施例的文本位置标注方法的详细流程图；

图8示出了根据本申请的一个实施例的文本位置信息的标注过程示意图；

图9示出了根据本申请的一个实施例的文本位置标注装置的框图；

图10示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。

如图1所示，系统架构可以包括终端101(终端101可以是如图1中所示智能手机)、网络102和服务器103。网络102用以在终端101和服务器103之间提供通信链路的介质。网络102可以包括但不限于：无线网络、有线网络，有线网络包括但不限于以下至少之一：广域网、城域网、局域网。无线网络包括但不限于以下至少之一：蓝牙、WI-FI、近场通信(NearField Communication，简称NFC)。用户可以使用终端101通过网络102与服务器103进行交互，以接收或发送消息等。

具体实施时，终端101用于获取包括待标注对象的待处理图像，并将待处理图像发送至服务器103。服务器103用于接收终端101获取到的包括有待标注对象的待处理图像，并对待标注对象中的文本信息进行位置标注。

在本实施方式中，终端101可以是一种应用于用户一侧，具有图像采集、交互通信等功能的电子设备。具体地，终端101例如可以是台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备、导购终端、具有网络访问功能的电视机等。或者，终端101也可以为能够运行于上述电子设备中的软件。具体的，终端101可以为电子设备中的app应用。

在本实施方式中，服务器103可以是一种应用于数据处理后台一侧，具有数据处理、文本信息识别提取等功能的后台业务服务器。服务器103可以为一个具有数据运算、存储功能以及网络交互功能的电子设备；也可以为运行于该电子设备中，为数据处理、存储和网络交互提供支持的软件。在本实施方式中并不具体限定服务器103的数量。服务器103可以为一个服务器，还可以为几个服务器，或者，若干服务器形成的服务器集群。

应该理解，图1中的终端101、网络102和服务器103的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端101、网络102和服务器103。比如服务器103可以是多个服务器组成的服务器集群等。

在本申请的一个实施例中，终端101将获取到的待处理图像104以及标注参考区域105发送至服务器103，服务器103在接收到待处理图像104以及标注参考区域105后，在待处理图像104中确定待标注对象所在的目标区域的第一角点坐标，并获取到标注参考区域105的第二角点坐标以及标注参考区域中的文本位置信息。

在本申请的一个实施例中，服务器103根据第一角点坐标和第二角点坐标确定变换矩阵，然后使用矩形运算，计算出待标注对象中的文本位置信息并进行标注。

在本申请的一个实施例中，服务器103将对待处理图像104中的待标注对象的文本位置信息进行标注后，将标注后的图像发送至终端101，以使终端101查看标注后的图像。

需要说明的是，本申请实施例所提供的文本位置标注方法可以由服务器103执行，相应地，文本位置标注装置可以设置于服务器103中。但是，在本申请的其它实施例中，终端101也可以与服务器具有相似的功能，从而执行本申请实施例所提供的文本位置标注的方案。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

图2示出了根据本申请的一个实施例的文本位置标注方法的流程图，该文本位置标注方法可以由服务器来执行，该服务器可以是图1中所示的服务器103，当然该文本位置标注方法也可以由终端设备来执行，比如可以由图1中所示的终端101来执行。参照图2所示，所述方法包括：

步骤S210、在待处理图像中确定待标注对象所在的目标区域以及所述目标区域对应的第一角点坐标，所述待标注对象包含文本信息；

步骤S220、获取标注参考区域的第二角点坐标以及所述标注参考区域中的文本位置信息；

步骤S230、根据所述第一角点坐标和所述第二角点坐标确定变换矩阵；

步骤S240、根据所述变换矩阵和所述标注参考区域中的文本位置信息确定所述待标注对象中的文本位置信息并进行标注。

下面对这些步骤进行详细描述。

在步骤S210中，在待处理图像中确定待标注对象所在的目标区域以及所述目标区域对应的第一角点坐标，所述待标注对象包含文本信息。

具体的，待处理图像是指包括待标注对象的图像，换言之，待处理图像的图像内容中包括有待标注对象，其中，待标注对象是指需要对该对象中的文本位置信息进行标注的对象，举例说明，对证件进行拍摄时，可以得到包含证件的图像，该图像为待处理图像，而该图像中的证件则为待标注对象。

待处理图像可以是存储于服务器后台的图像，也可以是由终端上传的图像，还可以是终端本地图像，终端可以设置有摄像头，并通过该摄像头实时地采集待处理图像，终端也可以外接具有图像采集功能的设备，并通过该设备实时地采集待处理图像，为了实现更为准确的文本位置信息标注，终端可以将多个待处理图像中最为清晰、最利于确定角点的图像作为待处理图像。

目标区域的角点坐标根据目标区域的形状可以具有多个角点坐标，比如说，目标区域为四边形的话，则有四个角点坐标，目标区域为五边形的话，则有五个角点坐标。

需要说明的是，待处理图像的格式包含但不限于位图(bitmap，BMP)格式、个人电脑交换(Personal Computer Exchange，PCX)格式、标签图像文件格式(Tag ImageFileFormat，TIFF)、图形交换格式(Graphics Interchange Format，GIF)、联合照片专家组(Joint Photographic Expert Group，JPEG)格式、已标记的图形(Tagged Graphics，TGA)格式、可交换的图像文件格式(Exchangeable Image File Format，EXIF)、便携式网络图形(Portable Network Graphics，PNG)格式、可缩放矢量图形(Scalable Vector Graphics，SVG)格式、图纸交换格式(Drawing Exchange Format，DXF)以及封装式页描述语言(Encapsulated Post Script，EPS)格式。

在本申请的一个实施例中，可以基于物体提名的方法提取待标注对象所在的目标区域，具体地，物体提名的方法就是预先找出待处理图像中待标注对象可能出现的位置，通过利用图像中的纹理、边缘以及颜色等信息，保证在选取较少窗口的情况下可以保持较高的召回率(Intersection-over-Union，IoU)。其中，物体提名的方法包含但不仅限于基于区域的卷积神经网络(Region-basedConvolutional Neural Networks，R-CNN)、基于快速区域的卷积神经网络(Fast Region-based Convolutional Neural Networks，Fast R-CNN)以及基于更快速区域的卷积神经网络(Faster Region-based Convolutional NeuralNetworks，Faster R-CNN)等，此处不做限定。

在本申请的一个实施例中，在待处理图像中确定待标注对象所在的目标区域还可以是通过OpenCV的findContours函数进行确定，在该实施例中，参见图3，具体包括：

步骤S310、将所述待处理图像转换为灰度图并进行去噪和二值化处理，得到处理后图像；

步骤S320、根据轮廓函数从所述处理后图像中提取轮廓；

步骤S330、根据第二预设条件从提取的轮廓中确定待标注对象所在的目标区域。

在步骤S310中，将所述待处理图像转换为灰度图并进行去噪和二值化处理，得到处理后图像。

具体的，待处理图像一般都是基于RGB的颜色图，由R(红色)，G(绿色)，B(蓝色)三原色按比例混合而成，R分量，G分量，B分量的取值范围均为0～255。图像的灰度化就是使图像中的每一个像素点都满足R＝G＝B，也即红色变量的值、绿色变量的值以及蓝色变量的值三者相等，此时的这个值叫做灰度值。

RGB值和灰度的转换公式如下:

Gray＝α×R+β×G+γ×B

其中，R、G、B分别代表颜色图的三个分量，α、β、γ为权重，且α+β+γ＝1。最常见的灰度化方法是根据人眼对红绿蓝的不同敏感度来确定α、β、γ的值，取值分别为：0.299、0.587、0.114。

在转换得到灰度图后，对该灰度图进行去噪处理，在一个具体的实施例中，对灰度图利用小波变换去噪处理，获得去噪后的图像。小波变换是数字信号处理的利器，以“数学显微镜”著称。小波变换是在加窗傅里叶变换的基础上发展而来，吸收了加窗傅里叶变换可以实现对信号的时—频局部化分析的功能，同时又具备自适应调整窗口大小的能力，因此能够好的观察信号。小波变换之所以可以用于图像处理，是因为从数学的观点来看，信号与图像处理可以统一看作是信号处理，即图像可以理解为一个二维的信号。

图像的二值化处理就是通过选取适当的阈值，将灰度级图像转化为可以反映图像整体结构和局部特征的黑白二值化图像。简言之，二值化就是让图像的像素点矩阵中的每个像素点的灰度值为0(黑色)或者255(白色)，也就是让整个图像呈现只有黑和白的效果。在灰度化的图像中灰度值的范围为0～255，在二值化后的图像中的灰度值范围是0或者255。

在将所述待处理图像转换为灰度图，并进行去噪和二值化处理后，即得到处理后的图像。

继续参见图3，在步骤S320中，根据轮廓函数从所述所述处理后图像中提取轮廓。

具体的，轮廓函数为OpenCV图像处理库中函数findContours，OpenCV作为在图像处理领域广泛应用的开源软件库，提供了大量可直接使用的图像处理基本方法，如去噪、变换、二值化等，在从图像中提取轮廓时通过函数findContours，按照规定格式输入图像参数，就可以提取出轮廓。

继续参见图3，在步骤S330中，根据第二预设条件从提取的轮廓中确定待标注对象所在的目标区域。

因为在调用OpenCV的findContours函数时，返回的轮廓数量和大小都会受到待处理图像中的具体环境光照和杂乱背景的影响，因此还需要对返回的轮廓进行辅助的判断。

第二预设条件可以是根据待处理图像的长宽信息以及目标区域的长宽大小信息进行设置，例如，提取的目标区域的长宽不能低于待处理图像长宽的1/10，提取的目标区域的面积不能小于待处理图像的面积的1/100，也不能大于待处理图像的面积的2/3等等，本申请在此不做具体限定。

继续参见图2，在步骤S220中，获取标注参考区域的第二角点坐标以及所述标注参考区域中的文本位置信息。

标注参考区域是与待标注对象具有相同文本信息的参考对象所确定的区域。在本申请的一个实施例中，对标注参考区域中的参考对象中的文本信息的位置标注是前期由人工介入完成的，因此在人工标注过程中，根据测量计算可以得到标注参考区域的第二角点坐标以及标注参考区域中的文本位置信息。

继续参见图2，在步骤S230中，根据所述第一角点坐标和所述第二角点坐标确定变换矩阵。

在本申请的一个实施例中，根据第一角点坐标和第二角点坐标确定变换矩阵可以是通过透视变换方法得到透视变换矩阵，透视变换是指利用透视中心、像点、目标点三点共线的条件，按透视旋转定律使承影面(透视面)绕迹线(透视轴)旋转某一角度，破坏原有的投影光线束，仍能保持承影面上投影几何图形不变的变换。透视变换矩阵是指在透视变换将图片投影到一个新的视平面(Viewing Plane)，也称作投影映射(Projective Mapping)。

在本申请的一个实施例中，在待处理图像中待标注对象的方向可能向左或向右或颠倒或其他方向，因此，在根据第一角点坐标与第二角点坐标确定变换矩阵之前，还需要对待处理图像进行校正，以使得待标注对象中的文本信息与标注参考区域中的文本信息的方向一致。在该实施例中，参见图4，具体包括步骤S410-步骤S430，下面进行详细阐述：

在步骤S410中，从所述待处理图像中获取校正对象，所述校正对象位于所述待标注对象任一方向角上。

其中，校正对象是位于待处理图像中，用于对待处理图像进行校正，校正对象可以是位于待处理图像中的圆形或五边形或六边形等等，本申请实施例在此不做限定。获取的校正对象必须是位于待标注对象的某个方向角上，待标注对象的方向角可以是左上、右上、左下或右下。

在本申请的一个实施例中，从所述待处理图像中获取校正对象具体包括：对所述待处理图像进行预处理以获取校正对象。

在该实施例中，通过对待处理图像进行预处理，然后根据处理后的图像中获取校正对象，针对待处理图像的处理方式的不同，可以获取不同的校正对象，在本申请技术方案中示例性地提供两种具体处理方式，但不构成对本申请实施例的限定。

在一个具体实施例中，参见图5，对所述待处理图像进行预处理以获取校正对象具体包括：

步骤S510、将所述待处理图像由RGB色彩空间转换为HSV色彩空间，得到处理后图像；

步骤S520、在所述处理后图像中提取具有单一颜色的图像，得到校正对象。

在步骤S510中，将所述待处理图像由RGB色彩空间转换为HSV色彩空间，得到处理后图像。

RGB色彩空间是通过对红(Red，R)、绿(Green，G)蓝(Blue，B)三个颜色通道的变化以及它们相互之间的叠加来得到各种各样的颜色。RG色彩空间几乎包括了人类视觉所能感知到的所有颜色，也是目前运用最广的颜色系统之一，人们平时看到或用终端拍摄的图像一般是RGB图像。RGB色彩模式使用RGB模型为图像中的每一个像素的RGB分量分配了一个0～255范围内的强度值。例如：纯蓝色R值为0，G值为0，B值为255；灰色的RGB三个值相等(除了0和255)，白色的R、G、B值都是255；黑色的R、G、B都是0.RGB图像只使用三种颜色就可以使他们按照不同的比例混合，在屏幕上出现16777216种颜色。

HSV色彩空间是根据颜色的直观特性而创造的一种颜色空间，这个空间中颜色的参数分别为色调(Hue，H)，饱和度(Saturation，S)，明度(Value，V)。其中，H用角度度量，取值范围为0°～360°，从红色开始按逆时针方向计算，红色为0°，绿色为120°，蓝色为240°。它们的补色是：黄色为60°，青色为180°，品红为300°；S表示颜色接近光谱色的程度。一种颜色，可以看成是某种光谱色与白色混合的结果。其中光谱色所占的比例愈大，颜色接近光谱色的程度就愈高，颜色的饱和度也就愈高。饱和度高，颜色则深而艳。光谱色的白光成分为0，饱和度达到最高。通常取值范围为0％～100％，值越大，颜色越饱和。明度V表示颜色明亮的程度，对于光源色，明度值与发光体的光亮度有关；对于物体色，此值和物体的透射比或反射比有关。通常取值范围为0％(黑)到100％(白)。

对于一幅RGB图像，可以转换为HSV图像，对于HSV图像也可以转换为RGB图像。可以通过下述转换公式将RGB彩色图像从RGB空间转换到HSV空间，转换公式如下：

V＝Max

Max＝max(R,G,B),Min＝min(R,G,B)

其中，R、G、B表示颜色通道。

HSV色彩空间到RGB空间的转换关系为逆运算。

继续参见图5，在步骤S520中，在所述处理后图像中提取具有单一颜色的图像，得到校正对象。

在将待处理图像转换为HSV色彩空间，得到处理后图像之后，可以从处理后图像中提取具有单一颜色的图像，将所提取的单一颜色的图像作为校正对象。在一个具体实施例中，单一颜色的图像可以是绿色圆圈。

在另一个具体实施方式中，参见图6，对所述待处理图像进行预处理以获取校正对象具体包括：

步骤S610、将所述待处理图像转换为灰度图并进行去噪和二值化处理，得到处理后图像；

步骤S620、在所述处理后图像中提取轮廓，确定校正对象。

步骤S610与步骤S310类似，故在此不再赘述。

在步骤S620中，在所述处理后的图像中提取轮廓，确定校正对象。

在本申请的一个实施例中，可以通过OpenCV图像处理库中轮廓函数findContours从处理后图像中提取轮廓，从提取的轮廓中确定校正对象。

在本申请的一个实施例中，在所述处理后图像中提取轮廓，确定校正对象，包括：

根据轮廓函数从所述处理后的图像中提取轮廓；

根据第一预设条件从提取的轮廓中确定目标轮廓；

基于所述目标轮廓得到校正对象。

在该实施例中，在调用OpenCV的findContours函数时，返回的轮廓数量和大小都会受到待处理图像中的具体环境光照和杂乱背景的影响，因此还需要对返回的轮廓进行辅助的判断。第一预设条件可以是根据实际情况进行设置，本申请在此不做限定，基于目标轮廓即可确定出校正对象。

继续参见图4，在步骤S420中，根据所述校正对象确定校正角点坐标，所述校正角点坐标为所述第一角点坐标中与所述校正对象距离最近的角点坐标。

具体的，在确定出校正对象之后，根据校正对象确定校正角点坐标，确定的校正角点坐标是第一角点坐标中的一个角点坐标，且校正角点坐标是距离校正对象最近的角点坐标。

在本申请的一个实施例中，根据所述校正对象确定校正角点坐标，包括：

获取所述校正对象的质心坐标；

根据所述校正对象的质心坐标与所述第一角点坐标之间的距离确定与所述质心坐标距离最近的角点坐标；

将所述距离最近的角点坐标作为校正角点坐标。

具体实施时，获取校正对象的质心坐标可根据校正对象的不同采用不同的方法，如果确定的校正对象为圆形形状，则可以采用霍夫圆变换检测方法。

霍夫圆变换属于霍夫变换的一种特例，主要用来检测圆形目标。霍夫圆变换利用圆形目标的部分边界点，找到圆心所在坐标，从而还原出整个圆形边界。霍夫圆变换的基本思路是认为图像上每一个非零像素点都有可能是一个潜在的圆上的一点，通过投票，生成累积坐标平面，设置一个累积权重来定位圆。标准霍夫圆变换将笛卡尔坐标系和三维坐标系结合，基于笛卡尔坐标系中经过某一点的所有圆映射到三维坐标系中就是一条三维的曲线的原理，通过判断三维坐标系中每一点的相交的数量是否大于一定阈值，而确定该三维点对应的二维坐标系中的圆是否保留，作为最终的圆拟合结果。为提高计算效率，改进的霍夫圆变换直接在二维坐标系下处理，例如：将所有边界点当作圆心，以输入参数中的最小半径和最大半径范围内的大小为半径画圆，所有得到的圆将会产生很多的交点，记录下图像中对应像素点处交点的个数，将大于输入参数中的最小要求点个数的像素点记为拟合圆的中心点，将交于此中心点最多的相同大小圆的半径作为拟合圆的半径，从而拟合出圆目标。由于确定的校正对象为圆形形状，因此采用霍夫圆变换能找到校正对象的质心坐标。

如果确定的校正对象为非圆形，例如说是五边形，则可以通过调用OpenCV的函数获取校正对象的质心坐标。

在确定校正对象的质心坐标后，根据第一角点坐标中包含的各个角点坐标与质心坐标进行距离计算，确定与质心坐标距离最近的角点坐标，将距离最近的角点坐标作为校正角点坐标。

继续参见图4，在步骤S430中，根据所述校正角点坐标对所述待处理图像进行校正，以使得所述待标注对象中的文本信息与所述标注参考区域中的文本信息的方向一致。

具体的，对待处理图像进行校正的目的在于使待标注对象中的文本信息与标注参考区域中的文本信息的方向一致，其中，方向一致是指文本信息中的文字方向一致，可以是待标注对象的文本信息与标注参考区域中的文本信息中的文字方向同时向上，也可以是待标注对象的文本信息与标注参考区域中的文本信息中的文字方向同时向下，也可以是待标注对象的文本信息与标注参考区域中的文本信息中的文字方向同时向左，也可以是待标注对象的文本信息与标注参考区域中的文本信息中的文字方向同时向右，本申请在此不做具体限定。

在本申请的一个实施例中，根据所述校正角点坐标对所述待处理图像进行校正，包括：

根据所述校正角点坐标以及所述校正对象所在方向角确定所述待处理图像的旋转角度和旋转方向；

按照所述旋转角度和所述旋转方向对所述待处理图像进行旋转。

在该实施例中，根据校正角点坐标以及校正对象所在方向角确定待处理图像的旋转角度和旋转方向，旋转方向可以是逆时针旋转，也可以是顺时针选装，旋转角度可以是任一角度。

举例说明，如果校正对象所在方向角为校正对象位于待标注对象的左上角上，而校正角点坐标是位于待标注对象的右上角上的角点坐标，其中，关于如何判断出校正角点坐标是哪个方向角上的角点坐标的方法可以是通过OpenCV的函数提取待标注对象所在的目标区域以及获取目标区域的第一角点坐标时，通过函数输入设定将目标区域的第一角点坐标按照左上、右上、右下、左下位置进行排列，因此，在确定出校正角点坐标后，即可确定出校正角点坐标是待标注对象的某一方向角上的角点坐标。

继续上述举例，如果校正对象所在方向角为校正对象位于待标注对象的左上角上，而校正角点坐标是位于待标注对象的右上角上的角点坐标，则根据校正角点坐标以及校正对象所在方向角可以确定旋转方向为顺时针方向，旋转角度为90度，因此，将待处理图像按照顺时针旋转90度，即可将待标注对象进行转正。

继续参见图2，在步骤S240中，根据所述变换矩阵和所述标注参考区域中的文本位置信息确定所述待标注对象中的文本位置信息并进行标注。

在通过步骤S230得到变换矩阵之后，根据变换矩阵和标注参考区域中的文本位置信息就可以确定出待标注对象中的文本位置信息，在得到文本位置信息后，可以对应文本位置信息进行标注，得到标注后的图像。

具体的，可以利用如下变换公式，得到待标注对象中的文本位置信息：

其中，

为变换矩阵，[u,v,w]是变换前的坐标，也即标注参考区域中的文本位置信息，根据变换前的坐标对应得到变换后的坐标[x,y]，也即待标注对象中的文本位置信息，由于处理的是二维图像，所以变换前的坐标w恒为1，变换后的坐标[x,y]可以通过如下两个公式计算得到:

需要说明的是，如果需要将得到的变换后的坐标转换为二维，可以设定a₃₃恒为1，因此，可以将上述两个公式中的a₃₃取值为1。

通过上述实施例中的技术方案，在待处理图像中确定待标注对象所在的目标区域以及目标区域对应的第一角点坐标，并获取标注参考区域的第二角点坐标，根据第一角点坐标与第二角点坐标确定变换矩阵，根据变换矩阵和标注参考区域中的文本位置信息确定待标注对象中的文本位置信息并进行标注，实现了对文本位置信息标注的自动化，避免了使用标注工具进行人工标注带来的低效率、耗时长的问题，极大地提高了文本位置标注效率以及标注的准确率，缩短了文本位置标注时间。

图7示出了根据本申请的一个实施例的文本位置标注方法的详细流程图，如图7所示，具体包括如下步骤：

步骤S710、在待处理图像中确定待标注对象所在目标区域对应的第一角点坐标。

在一个具体实施例中，确定目标区域对应的第一角点坐标之前需要对图像预处理，图像的预处理方式可以是将待处理图像转换为灰度图并进行去噪和二值化处理，得到处理后图像；根据轮廓函数从处理后图像中提取轮廓；从提取的轮廓中确定待标注对象所在的目标区域以及该目标区域对应的第一角点坐标。

步骤S720、获取标注参考区域的第二角点坐标及标注参考区域中的文本位置信息。

步骤S730、计算得到变换举证。

具体的，在通过步骤S710得到第一角点坐标以及通过步骤S720得到第二角点坐标之后，可以通过透视变换矩阵方法得到变换矩阵。

步骤S740、确定待标注对象中的文本位置信息。

确定待标注对象中的文本位置信息是根据标注参考区域中的文本位置信息以及变换矩阵通过矩阵运算的方式得到。

图8示出了根据本申请的一个实施例的文本位置信息的标注过程示意图。

首先，获取标注参考区域901中的第二角点坐标和文本位置信息，在标注参考区域中已经标注了文本位置信息，即通过矩形框对文本信息进行了标注。

其次，在待处理图像902中确定待标注对象的目标区域以及目标区域对象的第一角点坐标，在待标注对象中包含有文本信息，待标注对象中的文本信息与标注参考区域中包含的文本信息无论是文本内容还是文本位置都是一致的。

再次，根据确定的第一角点坐标以及第二角点坐标得到变换矩阵，然后根据变换矩阵与标注参考区域901中的文本位置信息通过矩阵运算可以得到进行标注后的图像903，在标注后的图像903中文本信息通过矩形框的形式进行了标注。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的文本位置标注方法。对于本申请装置实施例中未披露的细节，请参照本申请上述的文本位置标注方法的实施例。

图9示出了根据本申请的一个实施例的文本位置标注装置的框图，参照图9所示，根据本申请的一个实施例的文本位置标注装置900，包括：第一确定单元902、获取单元904、第二确定单元906和标注单元908。

其中，第一确定单元902，用于在待处理图像中确定待标注对象所在的目标区域以及所述目标区域对应的第一角点坐标，所述待标注对象包含文本信息；获取单元904，用于获取标注参考区域的第二角点坐标和所述标注参考区域中的文本位置信息；第二确定单元906，用于根据所述第一角点坐标和所述第二角点坐标确定变换矩阵；标注单元908，用于根据所述变换矩阵和所述标注参考区域中的文本位置信息确定所述待标注对象中的文本位置信息并进行标注。

在本申请的一些实施例中，所述第二确定单元906用于根据所述第一角点坐标和所述第二角点坐标确定变换矩阵之前，还包括：校正对象获取单元，用于从所述待处理图像中获取校正对象，所述校正对象位于所述待标注对象任一方向角上；校正角点坐标确定单元，用于根据所述校正对象确定校正角点坐标，所述校正角点坐标为所述第一角点坐标中与所述校正对象距离最近的角点坐标；校正单元，用于根据所述校正角点坐标对所述待处理图像进行校正，以使得所述待标注对象中的文本信息与所述标注参考区域中的文本信息的方向一致。

在本申请的一些实施例中，所述校正角点坐标确定单元配置为：获取所述校正对象的质心坐标；根据所述校正对象的质心坐标与所述第一角点坐标之间的距离确定与所述质心坐标距离最近的角点坐标；将所述距离最近的角点坐标作为校正角点坐标。

在本申请的一些实施例中，所述校正单元配置为：根据所述校正角点坐标以及所述校正对象所在方向角确定所述待处理图像的旋转角度和旋转方向；按照所述旋转角度和所述旋转方向对所述待处理图像进行旋转。

在本申请的一些实施例中，所述校正对象获取单元包括：预处理子单元，用于对所述待处理图像进行预处理以获取校正对象。

在本申请的一些实施例中，所述预处理子单元配置为：将所述待处理图像由RGB色彩空间转换为HSV色彩空间，得到处理后图像；在所述处理后图像中提取具有单一颜色的图像，得到校正对象。

在本申请的一些实施例中，所述预处理子单元配置为：将所述待处理图像转换为灰度图并进行去噪和二值化处理，得到处理后图像；在所述处理后图像中提取轮廓，确定校正对象。

在本申请的一些实施例中，所述在所述处理后图像中提取轮廓，确定校正对象，包括：根据轮廓函数从所述处理后图像中提取轮廓；根据第一预设条件从提取的轮廓中确定目标轮廓；基于所述目标轮廓得到校正对象。

在本申请的一些实施例中，所述第一确定单元902配置为：将所述待处理图像转换为灰度图并进行去噪和二值化处理，得到处理后图像；根据轮廓函数从所述处理后图像中提取轮廓；根据第二预设条件从提取的轮廓中确定待标注对象所在的目标区域。

需要说明的是，图10示出的电子设备的计算机系统1000仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图10所示，计算机系统1000包括中央处理单元(Central Processing Unit，CPU)1001，其可以根据存储在只读存储器(Read-Only Memory，ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(Random Access Memory，RAM)1003中的程序而执行各种适当的动作和处理，例如执行上述实施例中所述的方法。在RAM 1003中，还存储有系统操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(Input/Output，I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种文本位置标注方法，其特征在于，包括：

在待处理图像中确定待标注对象所在的目标区域以及所述目标区域对应的第一角点坐标，所述待标注对象包含文本信息；

获取标注参考区域的第二角点坐标以及所述标注参考区域中的文本位置信息；

根据所述第一角点坐标和所述第二角点坐标确定变换矩阵；

根据所述变换矩阵和所述标注参考区域中的文本位置信息确定所述待标注对象中的文本位置信息并进行标注。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一角点坐标和所述第二角点坐标确定变换矩阵之前，还包括：

从所述待处理图像中获取校正对象，所述校正对象位于所述待标注对象任一方向角上；

根据所述校正对象确定校正角点坐标，所述校正角点坐标为所述第一角点坐标中与所述校正对象距离最近的角点坐标；

根据所述校正角点坐标对所述待处理图像进行校正，以使得所述待标注对象中的文本信息与所述标注参考区域中的文本信息的方向一致。

3.根据权利要求2所述的方法，其特征在于，所述根据所述校正对象确定校正角点坐标，包括：

获取所述校正对象的质心坐标；

将所述距离最近的角点坐标作为校正角点坐标。

4.根据权利要求2所述的方法，其特征在于，所述根据所述校正角点坐标对所述待处理图像进行校正，包括：

5.根据权利要求2所述的方法，其特征在于，所述从所述待处理图像中获取校正对象，包括：

对所述待处理图像进行预处理以获取校正对象。

6.根据权利要求5所述的方法，其特征在于，所述对所述待处理图像进行预处理以获取校正对象，包括：

将所述待处理图像由RGB色彩空间转换为HSV色彩空间，得到处理后图像；

在所述处理后图像中提取具有单一颜色的图像，得到校正对象。

7.根据权利要求5所述的方法，其特征在于，所述对所述待处理图像进行预处理以获取校正对象，包括：

将所述待处理图像转换为灰度图并进行去噪和二值化处理，得到处理后图像；

在所述处理后图像中提取轮廓，确定校正对象。

8.根据权利要求7所述的方法，其特征在于，所述在所述处理后的图像中提取轮廓，确定校正对象，包括：

根据轮廓函数从所述处理后的图像中提取轮廓；

根据第一预设条件从提取的轮廓中确定目标轮廓；

基于所述目标轮廓得到校正对象。

9.根据权利要求1所述的方法，其特征在于，所述在待处理图像中确定待标注对象所在的目标区域，包括：

根据轮廓函数从所述处理后图像中提取轮廓；

根据第二预设条件从提取的轮廓中确定待标注对象所在的目标区域。

10.一种文本位置标注装置，其特征在于，包括：

第一确定单元，用于在待处理图像中确定待标注对象所在的目标区域以及所述目标区域对应的第一角点坐标，所述待标注对象包含文本信息；

获取单元，用于获取标注参考区域的第二角点坐标和所述标注参考区域中的文本位置信息；

第二确定单元，用于根据所述第一角点坐标和所述第二角点坐标确定变换矩阵；

标注单元，用于根据所述变换矩阵和所述标注参考区域中的文本位置信息确定所述待标注对象中的文本位置信息并进行标注。