CN111368820A

CN111368820A - 文本标注方法、装置及存储介质

Info

Publication number: CN111368820A
Application number: CN202010153194.4A
Authority: CN
Inventors: 唐嘉龙; 鲁四喜
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2020-07-03

Abstract

本发明实施例公开了一种文本标注方法、装置及存储介质。本发明实施例可以获取基准图像，标注基准图像中目标区域的多个角点坐标以及目标区域中的文本位置坐标，获取目标图像，分别标记目标图像中目标区域的多个角点，以得到目标图像中的多个角点坐标，根据基准图像中的多个角点坐标和目标图像中的多个角点坐标计算透视变换矩阵，根据透视变换矩阵和基准图像中的文本位置坐标计算目标图像中的文本位置坐标。本申请实施例可以通过对基准图像进行预处理后，计算与目标图像之间的透视变换矩阵，从而计算出目标图像中的文本位置，可以快速对图像中的文本位置进行识别并标注，大幅提升了文本标注的效率。

Description

文本标注方法、装置及存储介质

技术领域

本发明涉及数据处理领域，具体涉及一种文本标注方法、装置及存储介质。

背景技术

目前，随着人工智能进程的不断发展，文字识别也成为了该进程中不可或缺的一环。文字识别便是依靠计算机视觉技术，其主要分为图像中文字检测和文字内容识别两个部分。其中，文字检测的主要作用是定位图像中文字的位置便于后期对文字的识别。因此，文字检测在整个文字识别过程中有着至关重要的作用。

比如在检测证件当中的文本时，可以通过大量样本训练后的证件文本检测算法模型来进行识别。在训练证件文本检测算法模型时，需要对拍摄到的大量证件照中的文本位置进行标注，但目前标注工作一直是以人工标注的方式来进行，一人一天能标注约200张，以每天工作6小时算，平均标注一张需要108秒。若采集证件图片较多时，人工标注将耗费大量的时间，效率非常低。如需对算法使用大量全面的训练样本集进行训练，所需时间非常长，不利于对算法进行快速的参数调优验证。

发明内容

本发明实施例提供一种文本标注方法、装置及存储介质，旨在快速对图像中的文本位置进行识别并标注，大幅提升了文本标注的效率。

为解决上述技术问题，本发明实施例提供以下技术方案：

一种文本标注方法，所述方法包括：

获取基准图像，标注所述基准图像中目标区域的多个角点坐标以及所述目标区域中的文本位置坐标；

获取目标图像，分别标记所述目标图像中所述目标区域的多个角点，以得到所述目标图像中的多个角点坐标；

根据所述基准图像中的多个角点坐标和所述目标图像中的多个角点坐标计算透视变换矩阵；

根据所述透视变换矩阵和所述基准图像中的文本位置坐标计算所述目标图像中的文本位置坐标。

一种文本标注装置，包括：

第一获取单元，用于获取基准图像，标注所述基准图像中目标区域的多个角点坐标以及所述目标区域中的文本位置坐标；

第二获取单元，用于获取目标图像，分别标记所述目标图像中所述目标区域的多个角点，以得到所述目标图像中的多个角点坐标；

第一计算单元，用于根据所述基准图像中的多个角点坐标和所述目标图像中的多个角点坐标计算透视变换矩阵；

第二计算单元，用于根据所述透视变换矩阵和所述基准图像中的文本位置坐标计算所述目标图像中的文本位置坐标。

一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行上述文本标注方法中的步骤。

本申请提供的实施例可以获取基准图像，标注基准图像中目标区域的多个角点坐标以及目标区域中的文本位置坐标，获取目标图像，分别标记目标图像中目标区域的多个角点，以得到目标图像中的多个角点坐标，根据基准图像中的多个角点坐标和目标图像中的多个角点坐标计算透视变换矩阵，根据透视变换矩阵和基准图像中的文本位置坐标计算目标图像中的文本位置坐标。本申请实施例可以通过对基准图像进行预处理后，计算与目标图像之间的透视变换矩阵，从而计算出目标图像中的文本位置，可以快速对图像中的文本位置进行识别并标注，大幅提升了文本标注的效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的文本标注系统的一种场景示意图；

图2是本发明实施例提供的文本标注方法的一种流程示意图；

图3是本发明实施例提供的文本标注方法的另一流程示意图；

图4为本申请实施例提供的一种基准图像的示意图；

图5为本发明实施例提供的文本标注装置的结构示意图；

图6为本发明实施例提供的文本标注装置的另一种结构示意图；

图7是本发明实施例提供的终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明实施例提供一种文本标注方法，该文本标注方法的执行主体可以是本发明实施例提供的文本标注装置，或者集成了该文本标注装置的服务器，其中该文本标注装置可以采用硬件或者软件的方式实现。

请参阅图1，图1为本发明实施例所提供的文本标注系统的场景示意图，包括：终端10和服务器20，比如上述终端10可以为基于安卓系统的终端或者基于IOS系统的终端，还可以为基于Windows系统或者MAC系统的PC等等。终端10与服务器20之间可以通过通信网络连接，该通信网络，包括无线网络以及有线网络，其中无线网络包括无线广域网、无线局域网、无线城域网、以及无线个人网中的一种或多种的组合。网络中包括路由器、网关等等网络实体，图中并未示意出。终端10可以通过通信网络与服务器20进行信息交互，比如可以从服务器20下载应用。

该文本标注系统可以包括文本标注装置，该文本标注装置具体可以集成在平板电脑、电视、手机、笔记本电脑、台式电脑等具备储存单元并安装有微处理器而具有运算能力的终端中，在图1中，该终端即为图1中的终端10，该终端10中可以包括摄像头，用来拍摄目标图像。该终端10可以通过摄像头获取目标图像后发送至服务器20，并接收服务器20根据目标图像返回的目标图像中的文本位置坐标，终端10接收到文本位置坐标后可以根据坐标生成标注框并展示。

该文本标注系统还可以包括服务器20，主要用于接收终端10发送的目标图像，然后根据存储的基准图像计算基准图像中的多个角点坐标和目标图像中的多个角点坐标之间的透视变换矩阵，最终根据上述变换矩阵计算目标图像中的文本位置坐标并发送至终端10。该文本标注系统还可以包括存储器，用于存储基准图像以及该基准图像中标注的目标区域的多个角点坐标以及目标区域中的文本位置坐标，以使得服务器可以从存储器中根据基准图像进行计算。

需要说明的是，图1所示的文本标注系统的场景示意图，仅仅是一个示例，本发明实施例描述的文本标注系统以及场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域普通技术人员可知，随着文本标注系统的演变和新业务场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。比如在其他实施例当中，上述基准图像也可以存储在终端当中，并且在终端拍摄目标图像后在终端当中进行计算并生成目标图像中的文本位置坐标，而不需要服务器以及存储器等等。

以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。

在本实施例中，将从文本标注装置的角度进行描述，该文本标注装置具体可以集成在终端中，终端为在具备储存单元并能够运行应用程序的终端。

一种文本标注方法，包括：

请参阅图2，图2是本发明实施例提供的文本标注方法的一种流程示意图。

该文本标注方法包括：

在步骤101中，获取基准图像，标注基准图像中目标区域的多个角点坐标以及目标区域中的文本位置坐标。

在一申请实施例中，上述基准图像为将证件放置在指定位置后拍摄的图像，该图像的背景可以多样化，但需要包含一个目标区域，该目标区域的形状与上述证件的形状相同。比如若证件为一个矩形，则该目标区域可以为与该矩阵相同尺寸的矩形框，然后将上述证件放到该目标区域后对该区域进行拍摄即可得到基准图像。

进一步地，在获取到上述基准图像后，可以标注基准图像中目标区域的多个角点坐标以及目标区域中的文本位置坐标。举例来说，上述证件可以为身份证，目标区域则为尺寸与身份证相同的矩形方框，将身份证放入上述矩形方框中后对其进行拍摄得到基准图像。然后分别标注上述矩形区域四个角点的坐标以及身份证当中的文本位置坐标。其中，由于上述图像是一个二维平面，上述四个角点的坐标以及身份证当中的文本位置坐标即为在该基准图像当中的二维坐标。

在一实施例中，由于该基准图像是为了后续计算目标图像中文本位置坐标，因此可以再将证件放置在目标区域后对该区域进行多次拍摄，然后从中选取质量最好的一张图像作为基准图像，比如选取清晰度最高图像作为基准图像，还可以选取目标区域位于拍摄图像的中心的图像作为基准图像，本申请对此不作进一步限定。

需要说明的是，在标注基准图像中目标区域的多个角点坐标以及所述目标区域中的文本位置坐标时，可以先对基准图像当中目标区域的多个角点以及文本位置进行标记，然后以该基准图像建立平面直角坐标系，并在该坐标系当中分别获取上述标记所对应的坐标，即可得到基准图像中目标区域的多个角点坐标以及所述目标区域中的文本位置坐标。

在一实施例中，上述目标区域的多个角点坐标均为点的坐标，比如(a1，b2)、(a2，b2)、(a3，b3)、(a4，b4)等，而上述目标区域中的文本位置坐标并不是一个点，因此可以用文本的起始点与终点的位置坐标进行表示。比如当目标区域当中包括两处文本时，可以用(c1，d)和(c2，d)来表示第一处的文本位置坐标，用(c1，e)和(c2，e)来表示第二处的文本位置坐标。

在步骤102中，获取目标图像，分别标记目标图像中目标区域的多个角点，以得到目标图像中的多个角点坐标。

在一实施例中，上述目标图像可以为其他终端针对目标区域放置的证件所拍摄的照片。比如用户在将需要进行文本位置识别的证件放置在目标区域后，对该区域进行拍摄，从而得到的目标图像。然后分别标记目标图像中目标区域的多个角点，以得到目标图像中的多个角点坐标。

其中，上述目标图像可以为一张图像也可以为多张图像。举例来说，若上述目标图像为一张图像，用户将身份证放入该目标区域的矩形方框中后，对该矩形方框中的身份证拍摄一张图像即为目标图像，然后在该目标图像当中标记四个角点，从而在该目标图像当中建立直角坐标系从而获取上述四个角点的坐标。再比如，上述目标图像也可以为多张图像，用户将身份证放入该目标区域的矩形方框中后，依次对四个角点进行标记，比如在每个角点放置不同的参照物用以对该角点进行标记，然后每次标记一个角点就在同一位置对证件进行拍摄，这样就可以得到四张分别对四个角点进行标记的目标图像，然后再每张图像当中获取其中进行标记的角点的坐标，即可得到四个角点的坐标。由于四张图像是在同一位置进行拍摄的，因此获取到的四个角点坐标就是每一张目标图像当中的矩形方框也即身份证的四个角点的坐标。

考虑到用户是在固定的位置也即矩形方框放置证件的，证件的位置在现实世界中的位置是始终不变的，但是当拍摄基准图像的角度与拍摄目标图像的角度有差异时，最后呈现出的拍摄的基准图像与目标图像当中证件的位置就会有所不同，比如向左或者向右偏移，因此在一实施例中，在标记目标图像中目标区域的多个角点之后，当目标图像中拍摄的证件相较于基准图像有所偏移时，可以以基准图像中多个角点的位置作为参考，将目标图像进行旋转，使得目标图像中的证件位置摆正，然后再进一步获取摆正后的目标图像中多个角点对应的角点坐标。

在步骤103中，根据基准图像中的多个角点坐标和目标图像中的多个角点坐标计算透视变换矩阵。

其中，上述透视变换(Perspective Transformation)是指利用透视中心、像点、目标点三点共线的条件，按透视旋转定律使承影面(透视面)绕迹线(透视轴)旋转某一角度，破坏原有的投影光线束，仍能保持承影面上投影几何图形不变的变换。透视变换矩阵是指在透视变换将图片投影到一个新的视平面(Viewing Plane)，也称作投影映射(ProjectiveMapping)。通用的变换公式为：

其中变换矩阵

即为透视变换矩阵M。

在本申请实施例中，通过基准图像中的多个角点坐标和目标图像中的多个角点坐标一一对应后计算透视变换矩阵M。

需要说明的是，在将上述基准图像中的多个角点坐标和目标图像中的多个角点坐标一一对应时，可以根据每个角点的位置来进行对应，比如若目标区域为矩形，则基准图像与目标图像中的四个角点可以分别为左上、右上、右下、坐下四个角点，然后将基准图像中的左上角点与目标图像中的左上角点对应，基准图像中的右上角点与目标图像中的右上角点对应，以此类推分别对其四个角点，再进行计算透视变换矩阵。

在步骤104中，根据透视变换矩阵和基准图像中的文本位置坐标计算目标图像中的文本位置坐标。

在一实施例中，在计算得到透视变换矩阵后，即可利用透视变换矩阵计算出基准图中的文本位置坐标在目标图中的位置，也即目标图像中的文本位置坐标。具体可以通过上述公式进行计算，其中[u,v,w]是变换前的坐标也即基准图像中的文本位置坐标。

需要说明的是，上述坐标当中包括三个参数，这是因为透视变换是3维空间上的变换，但是我们一般是处理二维图像，所以源坐标的w恒为1，而目标的坐标我们可以转换为二维的，其中a33恒为1，变换后得到对应的坐标x，y，其中x＝x＇/w＇，y＝y＇/w＇。

其中，上述变换矩阵

可以拆分为四部分，

表示线性变换，比如scaling，shearing和ratotion。[a₃₁ a₃₂]用于平移，[a₁₃ a₂₃]^T产生透视变换。

具体计算如下：

因此在一实施例中，上述根据所述基准图像中的多个角点坐标和所述目标图像中的多个角点坐标计算透视变换矩阵的步骤，可以包括：

将所述基准图像中的多个角点坐标和所述目标图像中的多个角点坐标都转换为三维坐标；

根据所述基准图像中的多个角点的三维坐标和所述目标图像中的多个角点的三维坐标计算透视变换矩阵。

在一实施例中，在根据所述透视变换矩阵和所述基准图像中的文本位置坐标计算所述目标图像中的文本位置坐标之后，所述方法还可以包括：

根据所述文本位置坐标在所述目标图像中生成标注框。

比如在目标图像中的多处文本位置处生成红色的标注框，并进行显示，使得用户方便查看，从而提升效率。

由上可知，本申请实施例提供的文本标注方法可以获取基准图像，标注基准图像中目标区域的多个角点坐标以及目标区域中的文本位置坐标，获取目标图像，分别标记目标图像中目标区域的多个角点，以得到目标图像中的多个角点坐标，根据基准图像中的多个角点坐标和目标图像中的多个角点坐标计算透视变换矩阵，根据透视变换矩阵和基准图像中的文本位置坐标计算目标图像中的文本位置坐标。本申请实施例可以通过对基准图像进行预处理后，计算与目标图像之间的透视变换矩阵，从而计算出目标图像中的文本位置，可以快速对图像中的文本位置进行识别并标注，大幅提升了文本标注的效率。

根据上一实施例中所描述的文本标注方法，以下将举例作进一步详细说明。

在本实施例中，将以该文本标注装置具体集成在终端中为例进行说明，同时本实施例将以python开发语言为例进行阐述，但该方案同样适合于其他开发语言平台。

请参阅图3，图3为本发明实施例提供的文本标注方法的另一流程示意图。该方法流程可以包括：

步骤201，获取基准图像，在基准图像中以不同颜色分别标记目标区域的多个角点，并分别计算每个颜色标记的坐标以得到基准图像中目标区域的多个角点坐标。

在采集证件训练样本过程中，我们需要将证件放入到指定的目标区域，请参阅图4，图4为本申请实施例提供的一种基准图像的示意图。如图4中的矩形方框即为目标区域，将证件放入后对其进行拍摄得到基准图像。在其他实施例中也可以多次拍摄然后选取一张作为基准图像。该图像的背景可以多样化，但需要包含图中矩形方框的四个角点所放置的四个颜色标记，具体可以分别以不同颜色分别标记矩形区域的四个角点，比如按照左上、右上、右下、左下的顺序分别采用红绿黄蓝四个颜色的LED灯作为标记。然后分别计算上述四个LED灯的坐标以得到基准图像中目标区域的多个角点坐标。

在一实施例中，可以先以该基准图像建立平面直角坐标系，并在该坐标系当中分别获取上述四个颜色的LED灯的坐标。其中，由于上述图像是一个二维平面，上述四个颜色的LED灯的坐标即为在该基准图像当中的二维坐标。

在一实施例中，可以通过人工对基准图像当中的四个颜色的LED灯进行标注，其中LED灯标记的矩形四个角点为“bigPloygon”。

步骤202，标注基准图像中目标区域中的文本位置坐标。

在一实施例中，进一步标注基准图像中目标区域中的文本位置坐标，同样可以采用人工进行标注，可以将文本位置标记为“text”。

其中，以图4中的基准图像为例，在对四个LED灯以及文本位置标记时的代码可以如下：

步骤203，以不同颜色轮流标记目标区域的多个角点并在同一位置分别对目标区域进行拍摄，以得到多张目标图像。

在一实施例中，上述目标图像可以为其他终端针对目标区域放置的证件所拍摄的照片。比如用户在将需要进行文本位置识别的证件放置在目标区域也即矩形方框后，对该区域进行拍摄。

其中，本申请可以以不同颜色轮流标记目标区域的多个角点并在同一位置分别对目标区域进行拍摄，以得到多张目标图像。比如用户在将证件放置在矩形方框内后，在同一位置按左上、右上、右下、左下的顺序轮流点亮四个不同颜色的LED灯并分别拍摄四张目标图像，这样就会得到四张目标图像，分别是左上角点亮红色LED灯的第一目标图像、右上角点亮绿色LED灯的第二目标图像、右下角点亮黄色LED灯的第三目标图像以及左下角点亮蓝色LED灯的第四目标图像。

步骤204，根据基准图像中多个角点的颜色标记和每张目标图像中各自对应的颜色标记将多张目标图像进行位置转正。

考虑到用户是在固定的位置也即矩形方框放置证件的，证件的位置在现实世界中的位置是始终不变的，但是当拍摄基准图像的角度与拍摄目标图像的角度有差异时，最后呈现出的拍摄的基准图像与目标图像当中证件的位置就会有所不同，比如向左或者向右偏移，因此在一实施例中可以根据基准图像中多个角点的颜色标记和每张目标图像中各自对应的颜色标记将多张目标图像进行位置转正。

具体的，目标图片的转正需要根据四边形四个不同颜色顺序为红、绿、蓝、黄的点位，按照基准图像中相应颜色将四边形四个点按照左上，右上，右下，左下位置排列并转正。其中代码实现如下：

步骤205，分别对多张目标图像进行处理，识别出每张图像中对应颜色标记的坐标，以得到目标图像中目标区域的多个角点坐标。

举例来说，在本实施例中，需要先将上述四张目标图像降噪处理并转为HSV的色彩空间，然后分别提取采集第一目标图像中的红色部分，采集第二目标图像中的绿色部分，采集第三目标图像中的黄色部分以及采集第四目标图像中的蓝色部分。

比如在采集第一目标图像中的红色部分时，可以通过霍夫圆变换检测圆形，因为图像有各种光照的影响，会出现噪点，所以取其中最大的圆形为红色圆圈。其代码实现如下：

此方案的缺点是会受到现实光照的影响，位置可能判断不够准确，也可能会出现寻找不到红色圆圈的情况。成功率在89％左右。同理将其他绿色、黄色以及蓝色点位找出，即可计算到目标图像中目标区域的多个角点坐标。

也即分别对所述多张目标图像进行处理，识别出每张图像中对应颜色标记的坐标的步骤包括：

分别将多所述多张目标图像转换为HSV颜色空间；

根据所述HSV颜色空间在所述每张目标图像中提取出对应的目标颜色；

通过霍夫圆变换计算所述每张目标图像中提取出对应的目标颜色在所述目标图像中对应颜色标记的坐标。

步骤206，根据基准图像中的多个角点坐标和目标图像中的多个角点坐标计算透视变换矩阵。

在本申请实施例中，通过基准图像中的多个角点坐标和目标图像中的多个角点坐标一一对应后计算透视变换矩阵M，其代码实现如下：

步骤207，根据透视变换矩阵和基准图像中的文本位置坐标计算目标图像中的文本位置坐标。

在本申请实施例中，通过上述计算出的透视变换矩阵计算目标图像中的文本位置坐标。其计算过程在上面的实施例步骤103和步骤104当中已经进行说明，在此不再进一步赘述。

在计算出目标图像中的文本位置坐标后，可以输出最终的文本位置坐标到json文件中，同时可以将坐标位置在目标图中画图显示出来，比如显示红色的标注框，从而查看最终自动化标注效果。

本方案通过对证件照片进行图像预处理，寻找四边框位置后，与基准图像进行透视变换计算得到透视变换矩阵M，再进行矩阵运算得出证件照片中的文本框位置坐标的方法。原来一人一天能标注约200张，以每天工作6小时算，平均标注一张需要108秒；以采集到的3888张证件图片计算，人工标注共花费约117小时，自动标注约1秒一张，共1.08个小时。通过自动化标注方式可以极大提高图片标注效率，大大缩短大量训练样本的标注时间，标准的准确率也更高。

由上可知，本申请实施例提供的文本标注方法可以获取基准图像，在基准图像中以不同颜色分别标记目标区域的多个角点，并分别计算每个颜色标记的坐标以得到基准图像中目标区域的多个角点坐标，标注基准图像中目标区域中的文本位置坐标，以不同颜色轮流标记目标区域的多个角点并在同一位置分别对目标区域进行拍摄，以得到多张目标图像，根据基准图像中多个角点的颜色标记和每张目标图像中各自对应的颜色标记将多张目标图像进行位置转正，分别对多张目标图像进行处理，识别出每张图像中对应颜色标记的坐标，以得到目标图像中目标区域的多个角点坐标，根据基准图像中的多个角点坐标和目标图像中的多个角点坐标计算透视变换矩阵，根据透视变换矩阵和基准图像中的文本位置坐标计算目标图像中的文本位置坐标。本申请实施例可以通过对基准图像进行预处理后，计算与目标图像之间的透视变换矩阵，从而计算出目标图像中的文本位置，可以快速对图像中的文本位置进行识别并标注，大幅提升了文本标注的效率。

为便于更好的实施本发明实施例提供的文本标注方法，本发明实施例还提供一种基于上述文本标注方法的装置。其中名词的含义与上述文本标注方法中相同，具体实现细节可以参考方法实施例中的说明。

在本实施例中，将从文本标注装置的角度进行描述，该文本标注装置具体可以集成由多个终端组成的系统中，每一终端为在具备储存单元并安装有显示屏而具有视频播放功能的终端。

请参阅图5，图5为本发明实施例提供的文本标注装置的一种结构示意图。其中，上述文本标注装置可以包括：

第一获取单元301，用于获取基准图像，标注所述基准图像中目标区域的多个角点坐标以及所述目标区域中的文本位置坐标。

第二获取单元302，用于获取目标图像，分别标记所述目标图像中所述目标区域的多个角点，以得到所述目标图像中的多个角点坐标。

第一计算单元303，用于根据所述基准图像中的多个角点坐标和所述目标图像中的多个角点坐标计算透视变换矩阵。

上述透视变换的通用的变换公式为：

其中变换矩阵

即为透视变换矩阵M。

第二计算单元304，用于根据所述透视变换矩阵和所述基准图像中的文本位置坐标计算所述目标图像中的文本位置坐标。

其中，上述变换矩阵

可以拆分为四部分，

具体计算如下：

在一实施例中，如图6所示，所述第一获取单元301可以包括：

标记子单元3011，用于在所述基准图像中以不同颜色分别标记目标区域的多个角点；

计算子单元3012，用于分别计算每个颜色标记的坐标以得到所述基准图像中目标区域的多个角点坐标。

在一实施例，继续参阅图6，所述第二获取单元302可以包括：

拍摄子单元3021，用于以所述不同颜色轮流标记所述目标区域的多个角点并在同一位置分别对所述目标区域进行拍摄，以得到多张目标图像；

处理子单元3022，用于分别对所述多张目标图像进行处理，识别出每张图像中对应颜色标记的坐标，以得到所述目标图像中目标区域的多个角点坐标。

由上述可知，本发明实施例可以通过第一获取单元301获取基准图像，标注基准图像中目标区域的多个角点坐标以及目标区域中的文本位置坐标，第二获取单元302获取目标图像，分别标记目标图像中目标区域的多个角点，以得到目标图像中的多个角点坐标，第一计算单元303根据基准图像中的多个角点坐标和目标图像中的多个角点坐标计算透视变换矩阵，第二计算单元304根据透视变换矩阵和基准图像中的文本位置坐标计算目标图像中的文本位置坐标。本申请实施例可以通过对基准图像进行预处理后，计算与目标图像之间的透视变换矩阵，从而计算出目标图像中的文本位置，可以快速对图像中的文本位置进行识别并标注，大幅提升了文本标注的效率。

本发明实施例还提供一种终端，如图7所示，该终端可以包括射频(RF，RadioFrequency)电路601、包括有一个或一个以上计算机可读存储介质的存储器602、输入单元603、显示单元604、传感器605、音频电路606、无线保真(WiFi，Wireless Fidelity)模块607、包括有一个或者一个以上处理核心的处理器608、以及电源609等部件。本领域技术人员可以理解，图7中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路601可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器608处理；另外，将涉及上行的数据发送给基站。通常，RF电路601包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM，Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路601还可以通过无线通信与网络和其他设备通信。无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GSM，Global System of Mobile communication)、通用分组无线服务(GPRS，GeneralPacket Radio Service)、码分多址(CDMA，Code Division Multiple Access)、宽带码分多址(WCDMA，Wideband Code Division Multiple Access)、长期演进(LTE，Long TermEvolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

存储器602可用于存储软件程序以及模块，处理器608通过运行存储在存储器602的软件程序以及模块，从而执行各种功能应用以及信息处理。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器602还可以包括存储器控制器，以提供处理器608和输入单元603对存储器602的访问。

输入单元603可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元603可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器608，并能接收处理器608发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元603还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元604可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元604可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器608以确定触摸事件的类型，随后处理器608根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图7中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

终端还可包括至少一种传感器605，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在终端移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路606、扬声器，传声器可提供用户与终端之间的音频接口。音频电路606可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路606接收后转换为音频数据，再将音频数据输出处理器608处理后，经RF电路601以发送给比如另一终端，或者将音频数据输出至存储器602以便进一步处理。音频电路606还可能包括耳塞插孔，以提供外设耳机与终端的通信。

WiFi属于短距离无线传输技术，终端通过WiFi模块607可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图7示出了WiFi模块607，但是可以理解的是，其并不属于终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器608是终端的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行终端的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器608可包括一个或多个处理核心；优选的，处理器608可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器608中。

终端还包括给各个部件供电的电源609(比如电池)，优选的，电源可以通过电源管理系统与处理器608逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源609还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端中的处理器608会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中，并由处理器608来运行存储在存储器602中的应用程序，从而实现各种功能：

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对文本标注方法的详细描述，此处不再赘述。

由上可知，本发明实施例的终端可以获取基准图像，标注基准图像中目标区域的多个角点坐标以及目标区域中的文本位置坐标，获取目标图像，分别标记目标图像中目标区域的多个角点，以得到目标图像中的多个角点坐标，根据基准图像中的多个角点坐标和目标图像中的多个角点坐标计算透视变换矩阵，根据透视变换矩阵和基准图像中的文本位置坐标计算目标图像中的文本位置坐标。本申请实施例可以通过对基准图像进行预处理后，计算与目标图像之间的透视变换矩阵，从而计算出目标图像中的文本位置，可以快速对图像中的文本位置进行识别并标注，大幅提升了文本标注的效率。

区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置(风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致的传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。

平台产品服务层提供典型应用的基本能力和实现框架，开发人员可以基于这些基本能力，叠加业务的特性，完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种文本标注方法中的步骤。例如，该指令可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种文本标注方法中的步骤，因此，可以实现本发明实施例所提供的任一种文本标注方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的文本标注方法、装置、存储介质以及终端进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种文本标注方法，其特征在于，所述方法包括：

2.根据权利要求1所述的文本标注方法，其特征在于，获取基准图像，标注所述基准图像中目标区域的多个角点坐标的步骤，包括：

在所述基准图像中以不同颜色分别标记目标区域的多个角点；

分别计算每个颜色标记的坐标以得到所述基准图像中目标区域的多个角点坐标。

3.根据权利要求2所述的文本标注方法，其特征在于，获取目标图像，分别标记所述目标图像中所述目标区域的多个角点，以得到所述目标图像中的多个角点坐标的步骤，包括:

以所述不同颜色轮流标记所述目标区域的多个角点并在同一位置分别对所述目标区域进行拍摄，以得到多张目标图像；

分别对所述多张目标图像进行处理，识别出每张图像中对应颜色标记的坐标，以得到所述目标图像中目标区域的多个角点坐标。

4.根据权利要求3所述的文本标注方法，其特征在于，分别对所述多张目标图像进行处理，识别出每张图像中对应颜色标记的坐标的步骤包括：

分别将多所述多张目标图像转换为HSV颜色空间；

5.根据权利要求3所述的文本标注方法，其特征在于，在以所述不同颜色轮流标记所述目标区域的多个角点并在同一位置分别对所述目标区域进行拍摄，以得到多张目标图像的步骤之后，所述方法还包括：

根据所述基准图像中多个角点的颜色标记和每张目标图像中各自对应的颜色标记将所述多张目标图像进行位置转正。

6.根据权利要求1所述的文本标注方法，其特征在于，根据所述基准图像中的多个角点坐标和所述目标图像中的多个角点坐标计算透视变换矩阵的步骤，包括：

7.一种文本标注装置，其特征在于，包括：

8.根据权利要求7所述的文本标注装置，其特征在于，所述第一获取单元包括：

标记子单元，用于在所述基准图像中以不同颜色分别标记目标区域的多个角点；

计算子单元，用于分别计算每个颜色标记的坐标以得到所述基准图像中目标区域的多个角点坐标。

9.根据权利要求8所述的文本标注装置，其特征在于，所述第二获取单元包括：

拍摄子单元，用于以所述不同颜色轮流标记所述目标区域的多个角点并在同一位置分别对所述目标区域进行拍摄，以得到多张目标图像；

处理子单元，用于分别对所述多张目标图像进行处理，识别出每张图像中对应颜色标记的坐标，以得到所述目标图像中目标区域的多个角点坐标。

10.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至6任一项所述的文本标注方法中的步骤。