CN111666735A

CN111666735A - 图像文本标注显示方法和装置、存储介质

Info

Publication number: CN111666735A
Application number: CN202010647850.6A
Authority: CN
Inventors: 李玉林; 邓茜萌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2020-09-15

Abstract

本发明公开了一种图像文本标注显示方法和装置、存储介质，包括：在第一区域显示待标注的目标图像；当检测到目标图像的定位框添加操作时，对目标图像中的待标注文本区域添加文本定位框，并在第二区域显示文本输入框；在文本输入框中输入标注文字；将文本输入框中输入的标注文字，显示在第一区域中与文本定位框相邻的位置。上述方案可应用于OCR领域，采用上述技术方案，解决了相关技术中，由于文字输入区域与框选区域距离较远，标注人员难以进行对照检查，文字输入容易出错，存在标注质量及效率低的问题。

Description

图像文本标注显示方法和装置、存储介质

技术领域

本发明涉及计算机领域，具体而言，涉及一种图像文本标注显示方法和装置、存储介质。

背景技术

中国在光学字符识别(Optical Character Recognition，简称OCR)技术方面的研究工作起步较晚。早期的OCR软件，由于识别率及产品化等多方面的因素，未能达到实际要求。同时，由于硬件设备成本高，运行速度慢，也没有达到实用的程度。只有个别部门，如信息部门、新闻出版单位等使用OCR软件。进入20世纪90年代以后，随着平台式扫描仪的广泛应用，以及我国信息自动化和办公自动化的普及，大大推动了OCR技术的进一步发展。OCR技术快速发展的同时，对于标注语料的需求也有了较大缺口。

相关技术中，文字录入区域离框选区域较远，标注人员难以进行对照检查，文字录入容易出错，影响标注质量及效率。

针对相关技术中，由于文字录入区域与框选区域距离较远，标注人员难以进行对照检查，文字录入容易出错，存在标注质量及效率低的问题，尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种图像文本标注显示方法和装置、存储介质，以至少解决相关技术中，由于文字录入区域与框选区域距离较远，标注人员难以进行对照检查，文字录入容易出错，存在标注质量及效率低的技术问题。

根据本发明实施例的一个方面，提供了一种图像文本标注显示方法，包括：在第一区域显示待标注的目标图像；当检测到上述目标图像的定位框添加操作时，对上述目标图像中的待标注文本区域添加文本定位框，并在第二区域显示文本输入框；在上述文本输入框中输入标注文字；将上述文本输入框中输入的标注文字，显示在上述第一区域中与上述文本定位框相邻的位置。

根据本发明实施例的另一方面，还提供了一种图像文本标注显示装置，包括：第一显示单元，用于在第一区域显示待标注的目标图像；第二显示单元，用于当检测到上述目标图像的定位框添加操作时，对上述目标图像中的待标注文本区域添加文本定位框，并在第二区域显示文本输入框；输入单元，用于在上述文本输入框中输入标注文字；第三显示单元，用于将上述文本输入框中输入的标注文字，显示在上述第一区域中与上述文本定位框相邻的位置。

根据本发明实施例的又一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图像文本标注显示方法的各种可选实现方式中提供的方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述图像文本标注显示方法。

在本发明实施例中，在第一区域显示待标注的目标图像，当检测到对目标图像的定位框添加操作时，在目标图像中的待标注文本区域添加对应的文本定位框，并在第二区域显示文本输入框；当在上述文本输入框中获取到输入的标注文字时，将在文本输入框中输入的标注文字，显示到第一区域中与上述文本定位框相邻的位置，通过上述方式，可以使得输入的标注文字显示在第一区域中与文本定位框相邻的位置、以及第二区域的文本输入框中，由于上述位置与文本定位框相邻，极大地方便了标注人员通过该位置显示的标注文字进行对照检查，解决了相关技术中，由于文字输入区域(如上述文本输入框)与框选区域(如上述文本定位框)距离较远，标注人员难以进行对照检查，文字录入容易出错，存在标注质量及效率低的问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种图像文本标注显示方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的图像文本标注显示方法的流程示意图；

图3是根据本发明实施例的一种可选的目标应用的显示界面的示意图；

图4是根据本发明实施例的一种可选的目标显示框的示意图；

图5是根据本发明实施例的另一种可选的目标显示框的示意图；

图6是根据本发明实施例的一种可选的目标轨迹的示意图；

图7是相关技术中框选区域的示意图；

图8是相关技术中框选区域和文本输入区域的示意图；

图9是根据本发明实施例的另一种可选的图像文本标注显示方法的流程示意图；

图10是根据本发明实施例的一种可选的图像文本标注显示装置的结构示意图；

图11是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种图像文本标注显示方法。可选地，上述图像文本标注显示方法可以但不限于应用于如图1所示的应用环境中。如图1所示，在终端设备102的第一区域显示待标注的目标图像，当检测到上述目标图像的定位框添加操作时，通过网络将定位框添加操作发送给服务器104，服务器104接收到定位框添加操作后，对上述目标图像中的待标注文本区域添加文本定位框，通过网络将文本定位框的结果发送至终端设备102，终端设备102显示该文本定位框，并在第二区域显示文本输入框，在上述文本输入框中输入标注文字，将上述文本输入框中输入的标注文字，显示在上述第一区域中与上述文本定位框相邻的位置。以上仅为一种示例，本申请实施例在此不作限定。

需要说明的是，上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

可选地，上述方法可以应用于OCR语料标注的场景中，本实施例在此不作任何限定。

需要说明的是，上述方法可涉及到计算机视觉技术，机器学习等。

其中，计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

可选地，在本实施例中，上述终端设备可以是配置有目标客户端的终端设备，可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能电视等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述只是一种示例，本实施例对此不做任何限定。

可选地，在本实施例中，作为一种可选的实施方式，该方法可以由服务器执行，也可以由终端设备执行，或者由服务器和终端设备共同执行，本实施例中，以由终端设备(例如，上述终端设备102)执行为例进行说明。如图2所示，上述图像文本标注显示方法的流程可以包括步骤：

步骤S202，在第一区域显示待标注的目标图像。

步骤S204，当检测到上述目标图像的定位框添加操作时，对上述目标图像中的待标注文本区域添加文本定位框，并在第二区域显示文本输入框。

可选地，当检测到对目标图像的定位框添加操作时，对该目标图像中的待标注文本区域添加对应的文本定位框，同时，在第二区域显示文本输入框，该定位框添加操作用于框选目标图像中的待标注文本区域。

例如，通过鼠标以类似于截图的方式，选中上述待标注文本区域。

步骤S206，在上述文本输入框中输入标注文字。

可选地，输入标注文字的方式可以为文字自动识别，也可以由标注人员手动录入，在此不作限定。

步骤S208，将上述文本输入框中输入的标注文字，显示在上述第一区域中与上述文本定位框相邻的位置。

可选地，在获取到文本输入框中输入标注文字的情况下，将该标注文字显示在第一区域中与文本定位框相邻的位置。

例如，可以以气泡框的形式，在第一区域中与文本定位框相邻的位置显示上述标注文字。

需要说明的是，为了提高OCR识别结果的准确率，需要对OCR识别进行训练，在训练之前，需要进行OCR标注，通过上述方法，使得文本录入人员能够很方便的对显示在与文本定位框相邻的位置的标注文字进行核查，提高了OCR标注的效率。

通过本实施例，在第一区域显示待标注的目标图像，当检测到对目标图像的定位框添加操作时，在目标图像中的待标注文本区域添加对应的文本定位框，并在第二区域显示文本输入框；当在上述文本输入框中获取到输入的标注文字时，将在文本输入框中输入的标注文字，显示到第一区域中与上述文本定位框相邻的位置，通过上述方式，可以使得输入的标注文字显示在第一区域中与文本定位框相邻的位置、以及第二区域的文本输入框中，由于上述位置与文本定位框相邻，极大地方便了标注人员通过该位置显示的标注文字进行对照检查，解决了相关技术中，由于文字输入区域(如上述文本输入框)与框选区域(如上述文本定位框)距离较远，标注人员难以进行对照检查，文字录入容易出错，存在标注质量及效率低的问题。

可选地，在本实施例中，上述在上述文本输入框中输入标注文字，包括：对上述文本定位框中的文本信息进行OCR识别，得到OCR识别结果；将上述OCR识别结果作为标注文字输入到上述文本输入框。

可选地，可以通过OCR文字识别的方式，对文本定位框中的文本信息进行OCR识别，从而得到OCR识别结果，然后将该OCR识别结果作为标注文字输入上述文本输入框中。

可选地，在本实施例中，上述将上述文本输入框中输入的标注文字，显示在上述第一区域中与上述文本定位框相邻的位置，包括：基于与上述文本定位框相邻的位置添加目标显示框；将上述文本输入框中输入的标注文字，在上述目标显示框中进行显示。

可选地，上述目标显示框可以为一种气泡框，该目标显示框与文本定位框相邻，例如，目标显示框可以在文本定位框的上方、左边、右边、下方等其他方向，可以与该文本定位框之间相隔较小的距离，也可以与该文本定位框相接触。可理解，上述仅为一种示例，本实施例在此不作任何限定。

可选地，如图3所示，在文本输入框中未获取到输入文本时，不显示目标显示框。上述第一区域为图3中的中间竖线左边的区域，上述第二区域为图3中中间竖线右边的区域。

当文本输入框中输入上述标注文字时，在目标显示框中显示该标注文字，具体如下：

可选地，如图4所示，如果在文本输入框中获取到了标注文字中的第一个文字(如图4中的“成”)的情况下，可以在第一区域显示上述目标显示框，并在目标显示框中同步显示第一个文字。

如图5所示，如果在文本输入框中获取到了第一个文字之后输入的标注文字的其他文字(如图5中的“成功更容易光顾磨难”)的情况下，可以在目标显示框中同步显示第一个文字之后输入的标注文字的其他文字。

通过本实施例，可以在文本输入框输入文字的情况下，显示上述目标显示框，以及在目标显示框中显示输入的文字，极大地方便了文字录入人员通过该目标显示框对标注文字进行核查，提高了OCR标注效率。

可选地，在本实施例中，上述将上述文本输入框中输入的标注文字，在上述目标显示框中进行显示，包括：当上述文本输入框中输入标注文字时，在上述目标显示框中同步显示上述文本输入框中输入的标注文字。。

可选地，在文本输入框中输入标注文字的情况下，在第一区域中显示上述目标显示框，并在目标显示框中同步显示标注文字，其中，上述目标显示框位于与上述文本定位框相邻的位置上。

通过本实施例，可以在目标显示框中同步显示标注文字，极大地方便了文字输入人员通过该目标显示框实时地对标注文字进行核查，提高了OCR标注效率。

可选地，在本实施例中，上述将上述文本输入框中输入的标注文字，在上述目标显示框中进行显示，包括：当上述文本输入框中在预设时间段内未输入标注文字时，将上述文本输入中输入的标注文字，在上述目标显示框中进行显示；或者，当检测到标注文字核对指令时，将上述文本输入框中输入的标注文字，在上述目标显示框中进行显示。

可选地，如果在文本输入框中获取到了输入的标注文字、并且在文本输入框中超过预定时间未获取到在标注文字之后输入的文字的情况下，判定标注文字输入完成，然后在第一区域中显示目标显示框，并在目标显示框中显示上述标注文字。或者

如果检测到了对标注文字的核对指令时，显示目标显示框，并将上述文本输入框中输入的标注文字，在第一区域的目标显示框中显示标注文字。

通过本实施例，通过上述两种不同的显示目标显示框的方式，不仅增加了目标显示框显示方式的灵活性，还能使文本录入人员根据自己的习惯选择不同的目标显示框的显示方式，提高了用户体验。

可选地，在本实施例中，上述将上述文本输入框中输入的标注文字，显示在上述第一区域中与上述文本定位框相邻的位置之后，还包括：在上述文本输入框中的目标文字被删除的情况下，将上述目标文字从上述第一区域所显示的标注文字中同步删除。

可选地，当文本输入人员对文本输入框中的文字有修改时，例如删除了显示在文本输入框中的目标文字，可以在目标显示框中同步删除该目标文字。

通过本实施例，能够在文本输入框中存在被删除文字的情况下，在目标显示框中同步显示被删除的文字，能够在目标显示框中及时更新最新的文本输入情况，极大地方便了文本输入人员对标注文字的核查，提高了OCR标注效率。

可选地，在本实施例中，上述当检测到上述目标图像的定位框添加操作时，对上述目标图像中的待标注文本区域添加文本定位框，包括：在上述目标图像中确定定位框添加操作所对应的操作轨迹；根据上述操作轨迹确定顶点坐标；基于上述顶点坐标，在上述目标图像中添加上述文本定位框。

可选地，如果检测到了对目标图像的定位框添加操作，在目标图像中确定该定位框添加操作对应的操作轨迹，然后，根据该操作轨迹确定顶点坐标，进而基于该顶点坐标添加上述文本定位框。

需要说明的是，上述定位框添加操作还可以理解为类似于截图操作的一种操作，这种截图式框选操作，避免了选取多个点来确定文本定位框，提高了框选效率。

需要说明的是，上述定位框添加操作可以由触点或者鼠标移动产生。上述操作轨迹为触点或鼠标移动所形成的轨迹，或者，上述操作轨迹为上述触点或鼠标移动的起点和终点之间的连线。

如图6所示，上述操作轨迹与待标注文本区域中的待标注文本(如图6中的“成功更容易光顾磨难和艰辛”)交叉，处于文本定位框的斜对角方向上。

可选地，在本实施例中，上述根据上述操作轨迹确定顶点坐标，包括：确定上述操作轨迹的起点坐标和终点坐标；以上述起点坐标和上述终点坐标作为文本定位框的对角顶点坐标；上述基于上述顶点坐标，在上述目标图像中添加上述文本定位框，包括：根据上述对角定点坐标，在上述目标图形中添加上述文本定位框。

可选地，在确定操作轨迹之后，获取操作轨迹的起点坐标，操作轨迹的终点坐标，然后根据该起点坐标和终点坐标作为文本定位框的对角顶点坐标；最后，根据上述对角定点坐标，来确定文本定位框，并在目标图像中的待标注文本区域添加文本定位框。

例如，假设文本定位框为矩形框，且操作轨迹的起点和终点分别位于上述文本定位框的斜对角方向上的两个点时，能够通过起点坐标和终点坐标来确定出文本定位框。

可选地，上述文本定位框可以为矩形文本定位框、平行四边形文本定位框。

可选地，当待标注文本区域为不规则的区域时，可以在该不规则的待标注文本区域的四周标注多个点，然后根据该多个点确定文本定位框，且保证文本定位框能够覆盖住该不规则的待标注文本区域中的全部文字，其中，通过多个点确定的文本定位框可以为多边形，如5边形、6边形，等等。通过不同形状的文本定位框，能够适配不同形状的待标注文本区域，提高了框选的准确率。

通过本实施例，上述通过起点坐标和终点坐标来确定文本定位框的方式，方便快捷，极大地提高了确定文本定位框的效率。

可选地，在本实施例中，上述目标显示框与上述文本定位框接触。

可选地，上述目标显示框可以与文本定位框接触。

可选地，在本实施例中，将上述文本输入框中输入的标注文字，显示在上述第一区域中与上述文本定位框相邻的位置之后，上述方法还包括：将上述文本定位框的目标坐标信息和上述标注文字对应存储，其中，上述目标坐标信息为上述文本定位框的顶点的坐标信息，上述文本定位框的目标坐标信息和上述标注文字具有映射关系，上述具有映射关系的目标坐标信息和上述标注文字用于对目标OCR识别结果进行校验，上述目标OCR识别结果是对上述文本定位框内的待标注文本进行OCR识别所得到的识别结果。

可选地，在上述文本输入框中获取输入的标注文字，并在上述第一区域中与上述文本定位框相邻的位置显示上述标注文字之后，存储具有映射关系的目标坐标信息和上述标注文字，在OCR识别模型的训练中，当使用标注好的OCR语料进行训练时，可通过存储的具有映射关系的目标坐标信息和上述标注文字，对OCR识别模型识别到的目标OCR识别结果进行校验，其中，上述目标OCR识别结果是对上述文本定位框内的目标图像文本进行OCR识别所得到的识别结果。

其中，上述目标坐标信息为上述文本定位框的顶点的坐标信息，并且该目标坐标信息是相对于目标图像的整个图像区域的坐标，换言之，目标坐标信息可以理解为文本定位框在目标图像中的位置信息。

通过本实施例，存储具有映射关系的目标坐标信息和上述标注文字，为后续OCR识别模型等的训练提供了样本，提高了OCR识别模型训练的准确率。

需要说明的是，相关技术中，在客户端OCR标注中，存在以下缺点：

1、如图7所示，图像文本框选区域通常通过输入4点连线构成，如图7中的输入一、输入二、输入三、输入四，操作过程繁琐，同时可能因输入的点位置不佳，导致出框不标准，构成的连线无法紧贴文字区域或无法覆盖住图像文字区域。

2、如图8所示，文字录入框与图像文本区域打框相隔过远，在录入检查过程中，人员目光不聚焦，因相隔较远不利于对录入的信息进行检查。

为了解决上述问题，下面结合可选示例对图像文本标注显示方法的流程进行说明，如图9所示，具体步骤如下：。

步骤一：从操作端导入标注图像，将图像以URL形式保存至服务端，操作端向服务端发送数据请求，该数据请求用于请求将标注图像加载至操作端，在服务端通过该数据请求的情况下，将该标注图像依次加载至操作端，并展示该标注图像的内容。

步骤二：在标注图像上框选出单行或单列的文字区域，并在操作端展示框选区域(如上述文本定位框)，服务端记录图像框选坐标区域，操作端浮出对应气泡框(如上述目标显示框)。

可选地，如图6所示，在操作端的客户端按住鼠标左键作为输入起点，拖动鼠标至图像文本区域尾端(虚线条为拖动轨道)，自动生成框选区域(如上述文本定位框)，通过鼠标可对四角坐标进行调整；同时自动在文本输入区域(如图6中的第二区域)生成文本输入框(如上述文本输入框)，可对其进行文本输入操作。

通过上述一键式框选能够克服传统方式中标注出框不标准的问题，并且操作过程简单，提高了打框效率。

步骤三：在文本输入框中输入对应框选区域的文字，气泡框(如上述目标显示框)内实时展示人工录入的文字。

可选地，对文本输入区域内进行文字录入(如图5右侧第二区域)，同时，图像文本区域气泡框(如图5左侧第一区域)与文本输入框一一对应，逐字更新，便于与原句进行内容比对。

步骤四：通过气泡框(如上述目标显示框)，逐一核对框选区域内容与气泡框内的录入文字是否一致，保证框选区域内的文字录入准确。

步骤五：生产语料，记录图像框选坐标内容(如上述目标坐标信息)及对应录入的文本信息(如上述标注文字)。

需要说明的是，上述方法主要应用于OCR语料标注，针对数据标注领域，依靠人工标注后左右浏览标注框(如上述目标显示框)与文字录入区域框(如上述文本输入框)对应检查，通过上述方式，可以将标注结果以气泡框的形式漂浮在框选结果旁，便于标注人员检查标注结果，提高了检查效率。

通过本发明实施例，针对图像OCR语料标注，对图片内容进行单行或单列的文字区域进行截图式、一键式打框，使得出框更加标准、高效。并且，录入文字后，录入结果以气泡形式漂浮在文字框选区域旁，气泡框中的文字和文字输入框中的文字一一对应，便于人工逐一校验，提升标注质量及检查效率，提高了OCR语料标注的工作效率和准确度。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的又一方面，还提供了一种图像文本标注显示装置，如图10所示，该装置包括：

第一显示单元1002，用于在第一区域显示待标注的目标图像；

第二显示单元1004，用于当检测到上述目标图像的定位框添加操作时，对上述目标图像中的待标注文本区域添加文本定位框，并在第二区域显示文本输入框；

输入单元1006，用于在上述文本输入框中输入标注文字；

第三显示单元1008，用于将上述文本输入框中输入的标注文字，显示在上述第一区域中与上述文本定位框相邻的位置。

作为一种可选的技术方案，上述输入单元，包括：识别模块，用于对上述文本定位框中的文本信息进行OCR识别，得到OCR识别结果；输入模块，用于将上述OCR识别结果作为标注文字输入到上述文本输入框。

作为一种可选的技术方案，上述输入单元，包括：第一处理模块，用于基于与上述文本定位框相邻的位置添加目标显示框；第一显示模块，用于将上述文本输入框中输入的标注文字，在上述目标显示框中进行显示。

作为一种可选的技术方案，上述第一显示模块，还用于当上述文本输入框中输入标注文字时，在上述目标显示框中同步显示上述文本输入框中输入的标注文字。

作为一种可选的技术方案，上述第一显示模块，还用于当上述文本输入框中在预设时间段内未输入标注文字时，将上述文本输入框中输入的标注文字，在上述目标显示框中进行显示；或者，当检测到标注文字核对指令时，将上述文本输入框中输入的标注文字，在上述目标显示框中进行显示。

作为一种可选的技术方案，上述装置还包括：第一处理单元，用于上述将上述文本输入框中输入的标注文字，显示在上述第一区域中与上述文本定位框相邻的位置之后，在上述文本输入框中的目标文字被删除的情况下，将上述目标文字从上述第一区域所显示的标注文字中同步删除。

作为一种可选的技术方案，上述第二显示单元，包括：第一确定模块，用于在上述目标图像中确定定位框添加操作所对应的操作轨迹；第二确定模块，用于根据上述操作轨迹确定顶点坐标；第二处理模块，用于基于上述顶点坐标，在上述目标图像中添加上述文本定位框。

作为一种可选的技术方案，上述第二确定模块，还用于确定上述操作轨迹的起点坐标和终点坐标；以上述起点坐标和上述终点坐标作为文本定位框的对角顶点坐标；上述第二处理模块，还用于根据上述对角定点坐标，在上述目标图形中添加上述文本定位框。

作为一种可选的技术方案，上述目标显示框与上述文本定位框接触。

作为一种可选的技术方案，上述装置还包括：存储单元，用于上述将上述文本输入框中输入的标注文字，显示在上述第一区域中与上述文本定位框相邻的位置之后，将上述文本定位框的目标坐标信息和上述标注文字对应存储，其中，上述目标坐标信息为上述文本定位框的顶点的坐标信息，上述文本定位框的目标坐标信息和上述标注文字具有映射关系，上述具有映射关系的目标坐标信息和上述标注文字用于对目标OCR识别结果进行校验，上述目标OCR识别结果是对上述文本定位框内的待标注文本进行OCR识别所得到的识别结果。

根据本发明的实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，在第一区域显示待标注的目标图像；

S2，当检测到上述目标图像的定位框添加操作时，对上述目标图像中的待标注文本区域添加文本定位框，并在第二区域显示文本输入框；

S3，在上述文本输入框中输入标注文字；

S4，将上述文本输入框中输入的标注文字，显示在上述第一区域中与上述文本定位框相邻的目标显示框。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来命令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取器)、磁盘或光盘等。

根据本发明实施例的又一个方面，还提供了一种用于实施上述图像文本标注显示方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为终端设备为例来说明。如图11所示，该电子设备包括存储器1102和处理器1104，该存储器1102中存储有计算机程序，该处理器1104被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，在第一区域显示待标注的目标图像；

S3，在上述文本输入框中输入标注文字；

S4，将上述文本输入框中输入的标注文字，显示在上述第一区域中与上述文本定位框相邻的位置。

可选地，本领域普通技术人员可以理解，图11所示的结构仅为示意，其并不对上述电子设备的结构造成限定。例如，电子设备还可包括比图11中所示更多或者更少的组件(如网络接口等)，或者具有与图11所示不同的配置。

其中，存储器1102可用于存储软件程序以及模块，如本发明实施例中的图像文本标注显示方法和装置对应的程序命令/模块，处理器1104通过运行存储在存储器1102内的软件程序以及模块，从而执行各种功能应用以及OCR标注，即实现上述的图像文本标注显示方法。存储器1102可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1102可进一步包括相对于处理器1104远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。作为一种示例，如图11所示，上述存储器1102中可以但不限于包括上述图像文本标注显示装置中的第一显示单元1002，第二显示单元1004、输入单元1006、第三显示单元1008。此外，还可以包括但不限于上述图像文本标注显示装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1106包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1106为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器1008，用于显示待标注的目标图像，显示文本定位框，显示文本输入框，以及在目标显示框中同步显示上述标注文字；和连接总线1110，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来命令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干命令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上上述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种图像文本标注显示方法，其特征在于，包括：

在第一区域显示待标注的目标图像；

当检测到所述目标图像的定位框添加操作时，对所述目标图像中的待标注文本区域添加文本定位框，并在第二区域显示文本输入框；

在所述文本输入框中输入标注文字；

将所述文本输入框中输入的标注文字，显示在所述第一区域中与所述文本定位框相邻的位置。

2.根据权利要求1所述的方法，其特征在于，所述在所述文本输入框中输入标注文字，包括：

对所述文本定位框中的文本信息进行OCR识别，得到OCR识别结果；

将所述OCR识别结果作为标注文字输入到所述文本输入框。

3.根据权利要求1所述的方法，其特征在于，所述将所述文本输入框中输入的标注文字，显示在所述第一区域中与所述文本定位框相邻的位置，包括：

基于与所述文本定位框相邻的位置添加目标显示框；

将所述文本输入框中输入的标注文字，在所述目标显示框中进行显示。

4.根据权利要求3所述的方法，其特征在于，所述将所述文本输入框中输入的标注文字，在所述目标显示框中进行显示，包括：

当所述文本输入框中输入标注文字时，在所述目标显示框中同步显示所述文本输入框中输入的标注文字。

5.根据权利要求3所述的方法，其特征在于，所述将所述文本输入框中输入的标注文字，在所述目标显示框中进行显示，包括：

当所述文本输入框中在预设时间段内未输入标注文字时，将所述文本输入框中输入的标注文字，在所述目标显示框中进行显示；或者，

当检测到标注文字核对指令时，将所述文本输入框中输入的标注文字，在所述目标显示框中进行显示。

6.根据权利要求1所述的方法，其特征在于，所述将所述文本输入框中输入的标注文字，显示在所述第一区域中与所述文本定位框相邻的位置之后，还包括：

在所述文本输入框中的目标文字被删除的情况下，将所述目标文字从所述第一区域所显示的标注文字中同步删除。

7.根据权利要求1所述的方法，其特征在于，所述当检测到所述目标图像的定位框添加操作时，对所述目标图像中的待标注文本区域添加文本定位框，包括：

在所述目标图像中确定定位框添加操作所对应的操作轨迹；

根据所述操作轨迹确定顶点坐标；

基于所述顶点坐标，在所述目标图像中添加所述文本定位框。

8.根据权利要求1所述的方法，其特征在于，所述根据所述操作轨迹确定顶点坐标，包括：

确定所述操作轨迹的起点坐标和终点坐标；

以所述起点坐标和所述终点坐标作为文本定位框的对角顶点坐标；

所述基于所述顶点坐标，在所述目标图像中添加所述文本定位框，包括：

根据所述对角定点坐标，在所述目标图形中添加所述文本定位框。

9.根据权利要求1至8中任选一项所述的方法，其特征在于，所述将所述文本输入框中输入的标注文字，显示在所述第一区域中与所述文本定位框相邻的位置之后，所述方法还包括：

将所述文本定位框的目标坐标信息和所述标注文字对应存储，其中，所述目标坐标信息为所述文本定位框的顶点的坐标信息，所述文本定位框的目标坐标信息和所述标注文字具有映射关系，所述具有映射关系的目标坐标信息和所述标注文字用于对目标OCR识别结果进行校验，所述目标OCR识别结果是对所述文本定位框内的待标注文本进行OCR识别所得到的识别结果。

10.一种图像文本标注显示装置，其特征在于，包括：

第一显示单元，用于在第一区域显示待标注的目标图像；

第二显示单元，用于当检测到所述目标图像的定位框添加操作时，对所述目标图像中的待标注文本区域添加文本定位框，并在第二区域显示文本输入框；

输入单元，用于在所述文本输入框中输入标注文字；

第三显示单元，用于将所述文本输入框中输入的标注文字，显示在所述第一区域中与所述文本定位框相邻的位置。

11.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至9任一项中所述的方法。

12.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至9任一项中所述的方法。