CN109492635A

CN109492635A - 获取标注数据的方法、装置、设备及存储介质

Info

Publication number: CN109492635A
Application number: CN201811100566.6A
Authority: CN
Inventors: 徐昀; 唐继正; 陈天伦; 杜玉涛
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2019-03-19

Abstract

本发明提出了一种获取标注数据的方法、装置、设备及存储介质。获取标注数据的方法包括：显示待标注的图片；基于用户在图片上执行的框选操作，确定图片上的框选区域，显示与框选区域相应的框选框，以及显示文本框；获取用户输入文本框中的文字；基于图片、框选区域的位置和尺寸以及文本框中的文字，保存用于机器学习的标注数据。本发明可以适用于但不限于OCR文字识别、图片分类、对象画框等标注场景，通过为用户提供界面化的标注平台，基于用户在所提供界面上执行的标注操作，执行与标注操作对应的操作，从而获取用于机器学习的标注数据。

Description

获取标注数据的方法、装置、设备及存储介质

技术领域

本发明总体来说涉及信息技术领域，更具体地讲，涉及一种获取标注数据的方法和装置，以及一种计算设备及一种非暂时性机器可读存储介质。

背景技术

随着信息技术和互联网的飞速发展，使得能够积累海量数据，从而能够在越来越多的场景下对数据进行利用，以使得数据更好地驱动生产、经营、生活等各种活动。例如，在人工智能领域为了进行机器学习，通常需要对这些海量数据进行标注。

尤其对于图片类型的数据而言，如何方便地获取能够满足需求的大量的标注数据，是目前亟需解决的一个问题。

发明内容

本发明的一个目的在于提供一种针对图片的标注数据获取方案。

根据本发明的第一个方面，提出了一种获取标注数据的方法，包括：显示待标注的图片；基于用户在图片上执行的框选操作，确定图片上的框选区域，显示与框选区域相应的框选框，以及显示文本框；获取用户输入文本框中的文字；基于图片、框选区域的位置和尺寸以及文本框中的文字，保存用于机器学习的标注数据。

可选地，该方法还包括：显示标签栏，以及在标签栏中显示一个或多个标签；基于用户在标签栏中执行的标签选择操作，确定所选标签；基于图片、框选区域的位置和尺寸、文本框中的文字以及所选标签，保存用于机器学习的标注数据。

可选地，在标签栏中显示一个或多个标签包括：在标签栏中用不同的颜色显示不同的标签；显示与框选区域相应的框选框包括：显示颜色与所选标签的颜色相同的框选框；并且/或者，显示文本框包括：显示颜色与所选标签的颜色相同的文本框。

可选地，基于图片、框选区域的位置和尺寸、文本框中的文字以及所选标签，保存用于机器学习的标注数据包括如下中的一种或多种：对应保存图片或其地址、框选区域的位置和尺寸、文本框中的文字以及所选标签；对应保存图片或其地址以及框选区域的位置和尺寸；对应保存图片或其地址、框选区域的位置和尺寸以及所选标签；对应保存框选区域内的图片以及文本框中的文字；对应保存框选区域内的图片、文本框中的文字以及所选标签。

可选地，在获取用户输入文本框中的文字之前，该方法还包括：对框选区域中的文本内容进行识别，得到识别结果；将识别结果作为默认文本填充到文本框内。

可选地，该方法还包括：检测用户针对文本框中默认文本执行的修改操作；基于修改操作修改文本框中默认文本。

可选地，对框选区域中的文本内容进行识别，得到识别结果包括：将框选区域内的图片输入到预训练好的识别图片中的文字的机器学习模型，得到该机器学习模型输出的识别结果。

可选地，显示文本框的步骤包括：根据框选框的尺寸、框选框与图片的相对位置关系、框选框与图片之间的留白区域的大小以及文本框的尺寸，基于预定的排版规则，确定文本框的显示位置；在所确定的显示位置处显示文本框。

可选地，排版规则包括如下中的一种或多种：文本框显示在框选框的右侧，并且文本框的顶部与框选框的顶部对齐；在框选框与图片右边缘之间的留白区域不足以放置文本框，但框选框宽度大于文本框的宽度的情况下，文本框显示在框选框内，并且文本框与框选框水平方向右对齐、垂直方向上对齐；在框选框的宽度小于文本框的宽度，但框选框与图片左边缘之间的留白区域足以放置文本框的情况下，文本框显示在框选框的左侧，并且，文本框的右边缘与框选框的左边缘对齐；在框选框与图片右边缘之间的留白区域不足以放置文本框，框选框与图片左边缘之间的留白区域也不足以放置文本框，但框选框与图片上边缘之间的留白区域足以放置文本框的情况下，文本框显示在框选框上方，并且文本框的右边缘与框选框的右边缘对齐；在框选框与图片右边缘之间的留白区域不足以放置文本框，框选框与图片左边缘之间的留白区域也不足以放置文本框，但框选框与图片下边缘之间的留白区域足以放置文本框的情况下，文本框显示在框选框下方，并且文本框的右边缘与框选框的右边缘对齐。

可选地，该方法还包括：基于用户针对选中的框选框执行的操作，调整框选框的尺寸和/或位置。

根据本发明的第二个方面，还提供了一种获取标注数据的方法，包括：同时显示多个图片的缩略图；基于用户在各缩略图上执行的打标签操作，在相应缩略图上显示相应的标签；根据各缩略图上的显示的标签，确定各图片对应的标签；保存各图片或其地址以及对应的标签作为用于机器学习的标注数据。

可选地，该方法还包括：显示标签栏，以及在标签栏中显示一个或多个标签；在基于用户在各缩略上执行的打标签操作，在相应缩略图像上显示相应的标签的步骤之前还包括：基于用户在标签栏中执行的标签选择操作，确定所选标签；基于用户在各缩略上执行的打标签操作，在相应缩略图像上显示相应的标签包括：响应于用户在缩略图上的点击操作，在相应缩略图上显示所选标签。

可选地，在标签栏中显示一个或多个标签包括：在标签栏中用不同的颜色显示不同的标签；在相应缩略图像上显示相应的标签包括：使用与标签栏中的原颜色一致的颜色在相应缩略图上显示相应的标签。

可选地，该方法还包括：响应于用户在标签栏中执行的标签选择操作，将光标颜色变换成与所选标签的颜色一致。

可选地，该方法还包括：当检测到鼠标移动到一个缩略图上时，以覆盖一层半透明遮罩的方式显示该缩略图。

可选地，该方法还包括：当检测到鼠标移动到缩略图上显示的一个标签上时，显示该标签的删除符号；响应于用户点击该删除符号的操作，从缩略图上删除该标签。

根据本发明的第三个方面，还提出了一种获取标注数据的装置，包括：显示单元，用于显示待标注的图片；框选区域确定单元，用于基于用户在图片上执行的框选操作，确定图片上的框选区域，显示单元还用于显示与框选区域相应的框选框，以及显示文本框；输入获取单元，用于获取用户输入文本框中的文字；保存单元，用于基于图片、框选区域的位置和尺寸以及文本框中的文字，保存用于机器学习的标注数据。

可选地，显示单元还用于显示标签栏，以及在标签栏中显示一个或多个标签，该装置还包括：标签确定单元，用于基于用户在标签栏中执行的标签选择操作，确定所选标签，保存单元基于图片、框选区域的位置和尺寸、文本框中的文字以及所选标签，保存用于机器学习的标注数据。

可选地，显示单元在标签栏中用不同的颜色显示不同的标签，显示单元显示颜色与所选标签的颜色相同的框选框，并且/或者，显示单元显示颜色与所选标签的颜色相同的文本框。

可选地，保存单元对应保存如下中的一种或多种：保存单元对应保存图片或其地址、框选区域的位置和尺寸、文本框中的文字以及所选标签；保存单元对应保存图片或其地址以及框选区域的位置和尺寸；保存单元对应保存图片或其地址、框选区域的位置和尺寸以及所选标签；保存单元对应保存框选区域内的图片以及文本框中的文字；保存单元对应保存框选区域内的图片、文本框中的文字以及所选标签。

可选地，该装置还包括文本内容识别单元和填充单元，在输入获取单元获取用户输入文本框中的文字之前：文本内容识别单元用于对框选区域中的文本内容进行识别，得到识别结果；填充单元用于将识别结果作为默认文本填充到文本框内。

可选地，该装置还包括：修改操作检测单元，用于检测用户针对文本框中默认文本执行的修改操作；修改单元，用于基于修改操作修改文本框中默认文本。

可选地，文本内容识别单元将框选区域内的图片输入到预训练好的识别图片中的文字的机器学习模型，得到该机器学习模型输出的识别结果。

可选地，显示单元根据框选框的尺寸、框选框与图片的相对位置关系、框选框与图片之间的留白区域的大小以及文本框的尺寸，基于预定的排版规则，确定文本框的显示位置，并在所确定的显示位置处显示文本框。

可选地，显示单元基于如下一种或多种排版规则，确定所述文本框的显示位置，并在所确定的显示位置处显示文本框：文本框显示在框选框的右侧，并且文本框的顶部与框选框的顶部对齐；在框选框与图片右边缘之间的留白区域不足以放置文本框，但框选框宽度大于文本框的宽度的情况下，文本框显示在框选框内，并且文本框与框选框水平方向右对齐、垂直方向上对齐；在框选框的宽度小于文本框的宽度，但框选框与图片左边缘之间的留白区域足以放置文本框的情况下，文本框显示在框选框的左侧，并且，文本框的右边缘与框选框的左边缘对齐；在框选框与图片右边缘之间的留白区域不足以放置文本框，框选框与图片左边缘之间的留白区域也不足以放置文本框，但框选框与图片上边缘之间的留白区域足以放置文本框的情况下，文本框显示在框选框上方，并且文本框的右边缘与框选框的右边缘对齐；在框选框与图片右边缘之间的留白区域不足以放置文本框，框选框与图片左边缘之间的留白区域也不足以放置文本框，但框选框与图片下边缘之间的留白区域足以放置文本框的情况下，文本框显示在框选框下方，并且文本框的右边缘与框选框的右边缘对齐。

可选地，该装置还包括：调整单元，用于基于用户针对选中的框选框执行的操作，调整框选框的尺寸和/或位置。

根据本发明的第四个方面，还提供了一种获取标注数据的装置，包括：显示单元，用于同时显示多个图片的缩略图，并基于用户在各缩略图上执行的打标签操作，在相应缩略图上显示相应的标签；确定单元，用于根据各缩略图上的显示的标签，确定各图片对应的标签；保存单元，用于保存各图片或其地址以及对应的标签作为用于机器学习的标注数据。

可选地，显示单元还用于显示标签栏，以及在标签栏中显示一个或多个标签，该装置还包括：标签选择单元，用于在显示单元基于用户在各缩略上执行的打标签操作，在相应缩略图像上显示相应的标签的步骤之前，基于用户在标签栏中执行的标签选择操作，确定所选标签，显示单元响应于用户在缩略图上的点击操作，在相应缩略图上显示所选标签。

可选地，显示单元在标签栏中用不同的颜色显示不同的标签；显示单元使用与标签栏中的原颜色一致的颜色在相应缩略图上显示相应的标签。

可选地，该装置还包括：转换单元，用于响应于用户在标签栏中执行的标签选择操作，将光标颜色变换成与所选标签的颜色一致。

可选地，显示单元还用于当检测到鼠标移动到一个缩略图上时，以覆盖一层半透明遮罩的方式显示该缩略图。

可选地，显示单元还用于当检测到鼠标移动到缩略图上显示的一个标签上时，显示该标签的删除符号，该装置还包括：删除单元，用于响应于用户点击该删除符号的操作，从缩略图上删除该标签。

根据本发明的第五个方面，还提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行如本发明第一个方面或第二个方面述及的方法。

根据本发明的第六个方面，还提供了一种非暂时性机器可读存储介质，其上存储有可执行代码，当可执行代码被电子设备的处理器执行时，使处理器执行如本发明第一个方面或第二个方面述及的方法。

本发明提出了一种针对图片的标注数据获取方案，可以适用但不限于OCR文字识别、图片分类、对象画框等标注场景，通过为用户提供界面化的标注平台，并基于用户在所提供界面上执行的标注操作，执行与标注操作对应的操作，从而获取能够满足多种标注需求的标注数据，以便于基于标注数据进行模型训练或数据挖掘。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了根据本发明示例性实施例的获取标注数据的方法的流程图；

图2示出了利用本发明对图片中的文字进行标注的示意图；

图3A至图3K示出了利用本发明对发票图片中特定类型的文字进行标注的示意性流程图；

图4示出了根据本发明另一个示例性实施例的获取标注数据的方法的流程图；

图5A至图5F示出了利用本发明对多个缩略图进行批量标注的示意性流程图；

图6示出了示出了根据本发明示例性实施例的获取标注数据的装置的结构框图；

图7示出了示出了根据本发明另一示例性实施例的获取标注数据的装置的结构框图；

图8示出了根据本发明示例性实施例的可用于实现上述获取标注数据的方法的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本发明主要提出了一种针对图片的标注数据获取方案，通过为用户提供界面化的标注平台，基于用户在所提供界面上执行的针对待标注的图片的标注操作，执行与标注操作对应的操作，从而获取能够满足多种标注需求的标注数据，以便于基于标注数据进行模型训练或数据挖掘。例如，可以基于标注数据进一步得到用于训练机器学习模型的样本数据。

本发明的标注数据获取方案适用的图片标注任务可以包括但不限于OCR文字识别任务、图片分类任务、对象画框任务。其中，OCR文字识别任务是指对图片中的文字进行识别的任务。图片分类任务是指根据图片内容，为图片或图片中的对象所属的类别进行标注的任务。对象画框任务是指根据标注需求，对图片中的目标对象画框，并打上对应标签的任务。

本发明的一个应用场景为对图片上的文字进行标注，以便根据获取的标注数据训练用于识别图片中的文字的机器学习模型。如图2所示，本发明可以用于对不需要区分文本类型的图片上的文字进行标注。

本发明的另一个应用场景为对图片中特定类型的文字进行标注，以便根据获取的标注数据训练用于识别图片中特定类型的文字的机器学习模型。如图3A至图3K所示，本发明可以用于对发票图片中大写金额、小写金额、开票日期等特定类型的文字进行标注，以便于根据获取的标注数据训练用于识别发票中的大写金额、小写金额、开票日期等特定类别的文字的机器学习模型。

如图5A至图5F所示，本发明的再一个应用场景为对图片进行批量标注，以提高标注效率。

下面就本发明的标注数据获取方案的具体实现流程做进一步说明。

图1示出了根据本发明示例性实施例的获取标注数据的方法的流程图。图1所示的方法可以适用于OCR文字识别任务、对象画框任务。例如，可以用于对图2所示的图片中的文字进行标注，也可以用于对图3A至图3K所示的发票中符合特定类型(如大写金额、小写金额、开票日期等)的文字进行标注。

图1所示的方法可以由客户端执行，客户端可以是面向用户的标注平台的客户端，该标注平台的客户端可以安装在手机、PC、平板电脑等终端设备上，或者该标注平台的客户端也可以是网页应用，用户可以通过手机、PC、平板电脑等终端设备上的浏览器打开相应网页，使用标注平台提供的服务。

标注平台包括服务器和客户端，客户端与服务器协同工作。待标注的图片可以由服务器下发给客户端，客户端可以提供便于用户执行标注操作的界面，显示待标注的图片，并根据用户针对图片执行的操作，获取标注数据。服务器在向客户端下发待标注的图片时，可以连同标注任务一同下发。其中，标注任务可以是服务器自身所发布的，也可以由有标注需求的客户发布的。例如，客户可以将需要标注的图片上传至服务器，并指定标注任务，由服务器将其下发给能够执行人工标注的用户所对应的客户端。

参见图1，在步骤S110，显示待标注的图片。

可以在显示设备上显示待标注的图片。此处述及的显示设备可以是指位于PC、智能手机、平板电脑等终端设备上的显示装置。其中，显示设备可以显示由计算机生成的图像、文本，可以包括各种类型的图像设备，例如阴极射线管(CRT)、液晶显示器(LCD)、发光二极管(LED)(包括有机发光二极管(OLED))、投射系统等等与其他支持电子装置(例如DAC、ADC、信号处理器等等)的集合。

在步骤S120，基于用户在图片上执行的框选操作，确定图片上的框选区域，显示与框选区域相应的框选框，以及显示文本框。

框选区域可以是用户在了解了标注任务后，通过在图片上执行框选操作而选定的区域。例如，在标注任务是对图片中的目标对象进行标注的情况下，框选区域是将目标对象框选在内的区域。再例如，在标注任务是对图片中的文字进行标注的情况下，框选区域是图片上的文字区域。

框选框用于标识框选区域，框选框可以是基于用户的框选操作确定的封闭线框，框选框内的区域即为框选区域。可选地，框选框可以是一个矩形框，并且框选框的尺寸和/或位置均可以由用户调整。

用户可以通过框选工具在图片上执行框选操作。其中，框选工具可以是由光标转换而来的。具体来说，响应于用户点击操作(例如，用户对“框选”按钮的点击操作，或用户对候选标签的点击操作)，光标可以转换为能够借由其执行框选操作的框选工具。需要说明的是，此处述及的转换是指光标所能实现的功能的转换，优选地，可伴随光标形式的改变，然而，本发明并没有对光标的形状是否变化进行限定。也就是说，在光标转换为框选工具时，光标可以改变其形状，也可以不改变，对此本公开不做限定。在光标被转换为框选工具之后，可检测用户通过框选工具在图片上执行的框选操作，从而确定图片上的框选区域。

如图3A所示，可以在显示设备上显示“框选”、“选择”、“撤销”、“重做”、“删除”、“快捷键”等功能按钮。响应于用户选中不同的功能按钮，光标可以转换为能够实现所选中的功能按钮所对应的功能的工具。例如，响应于用户点击“框选”按钮的操作，可以将光标转换为能够执行框选操作的框选工具，作为示例，光标的形状可同时变为十字光标。此时用户可以通过将十字光标在图片上拖动来绘制框选框，如图3B所示，用户可以通过按住鼠标左键后拖动即可画出一个将发票中大写金额框选在内的矩形框。

在确定框选区域，并显示与框选区域相应的框选框的同时，可以显示文本框，如可以在框选框附近显示文本框。文本框可以用于填充对框选区域的标注结果。其中，根据标注任务不同，文本框中填充的内容也不尽相同。例如，在标注任务为识别出图片上的文字的情况下，框选框用于标出图片上具有文字的区域，文本框用于填充对框选区域中的文字的标注结果。再例如，在标注任务为对图片中目标对象的类别和/或属性进行标注的情况下，框选框用于标出图片上目标对象的位置，文本框用于填充目标对象的类别标签和/或属性标签。

为了便于用户标注，文本框中可以显示用于提示文本框的作用的文字。如图3B所示，在对发票中的文字进行标注的情况下，可以在文本框内显示一行占位文字“请输入框选区域包含的文字”，以提示用户该文本框的作用。当用户将光标移动到文本框附近时，光标可以临时变为输入光标，此时单击鼠标，文本框会获得焦点，占位文字消失，用户可以开始输入框选区中的文字。如图3C所示，在输入文字的过程中，文本框的底部会出现保存按钮，点击则保存用户输入的文字。如图3D所示，保存完毕后，保存按钮消失。

首次被创建、显示的文本框可以具有一个默认尺寸。例如，默认尺寸可以是宽度固定、高度为容纳数行文本(如3行文本)。可选地，可以为文本框设置一个最小的高度，如容纳3行文本可以是文本框的最小高度。当用户输入文本超出3行时，文本框的高度可以随之增加。在此基础上，为了避免文本框过高，可以规定文本框的最大高度小于框选框的高度24px，如图3E所示，如果超出则文本框内可以出现滚动条，可以滚动查看没有显示的内容。相应地，如图3F所示，如果用户删除了超出的文字，文本框高度也要缩小。

文本框可以显示在对应的框选框附近。作为示例，可以根据框选框的尺寸、框选框与图片的相对位置关系、框选框与图片之间的留白区域的大小以及文本框的尺寸，基于预定的排版规则，确定文本框的显示位置，并在所确定的显示位置处显示文本框。

例如，排版规则可以设置为，在框选框与图片之间的留白区域足以容纳文本框的情况下，在框选框与图片之间的留白区域放置文本框，在框选框与图片之间的留白区域不足以容纳文本框的情况下，在框选框内放置文本框。

再例如，排版规则可以设置为如下一种或多种：1、文本框显示在框选框的右侧，并且文本框的顶部与框选框的顶部对齐；2、如图3G所示，在框选框与图片右边缘之间的留白区域不足以放置文本框，但框选框宽度大于文本框的宽度的情况下，文本框显示在框选框内，并且文本框与框选框水平方向右对齐、垂直方向上对齐；3、如图3H所示，在框选框的宽度小于文本框的宽度，但框选框与图片左边缘之间的留白区域足以放置文本框的情况下，文本框显示在框选框的左侧，并且，文本框的右边缘与框选框的左边缘对齐；4、如图3I所示，在框选框与图片右边缘之间的留白区域不足以放置文本框，框选框与图片左边缘之间的留白区域也不足以放置文本框，但框选框与图片上边缘之间的留白区域足以放置文本框的情况下，文本框显示在框选框上方，并且文本框的右边缘与框选框的右边缘对齐；5、如图3J所示，在框选框与图片右边缘之间的留白区域不足以放置文本框，框选框与图片左边缘之间的留白区域也不足以放置文本框，但框选框与图片下边缘之间的留白区域足以放置文本框的情况下，文本框显示在框选框下方，并且文本框的右边缘与框选框的右边缘对齐。可选地，可以依次判断这5种排版规则，即若框选框和文本框满足1的条件，则按照1的规则放置文本框位置，若不满足1，则再判断2是否满足，依此类推。

基于用户针对选中的框选框执行的操作，还可以调整框选框的尺寸和/或位置。例如，如图3K所示，被选中的框选框可以在四个顶点和每条边的中点会出现8个变形手柄，用户将光标移动到这8个手柄附近时，光标会变为相应方向的双向箭头，此时按住鼠标左键拖动即可改变框选框的长宽。其中，在框选框的尺寸和/或位置改变后，文本框的位置也会随之变化，如可以根据上文述及的规则变化。

在步骤S130，获取用户输入文本框中的文字。

在标注任务为识别出图片上的文字的情况下，用户输入文本框中的文字可以是用户对框选区域中的文字进行识别得到的文字。在标注任务为对框选区域中的对象的类别和/或属性进行标注的情况下，用户输入文本框中的文字可以视为框选区域中的对象的类别标签和/或属性标签。

作为示例，在显示文本框的同时，可以在文本框中显示默认文本，默认文本可以视为框选区域的初步标注结果，在用户认为文本框中的默认文本与框选区域的实际标注结果不一致的情况下，可以对默认文本进行修改，如此可以在一定程度上减少用户的操作，提高标注效率。

举例来说，在标注任务为对图片上的文字进行识别的情况下，可以利用OCR文字识别软件、机器学习模型或其它方式，预先对框选区域中的文字进行识别，以得到识别结果。例如，可以将框选区域内的图片输入到预训练好的用于识别图片中的文字的机器学习模型，得到该机器学习模型输出的识别结果。其中，此处述及的机器学习模型可以是一个初步训练好的、有待进一步完善的模型，识别结果可以作为默认文本填充到文本框内，文本框中的默认文本可以视为对框选区域中的文本的初步识别结果。可以检测用户针对文本框中的默认文本执行的修改操作，基于修改操作修改文本框中的默认文本。

在步骤S140，基于图片、框选区域的位置和尺寸以及文本框中的文字，保存用于机器学习的标注数据。

以对图片中的文本内容进行识别为例，框选区域可以视为图片中待识别的区域，也即具有文字的区域，文本框中的文字可以视为对框选区域内的图片进行标注的结果。作为示例，可以对应保存图片或其地址、框选区域的位置和尺寸、文本框中的文字以及所选标签。在后续进行模型训练时，可以对保存的标注数据进行拆分，以将其拆分为适于训练的样本数据。例如，以所训练的机器学习模型用于对图片中的文字进行识别为例，该模型可以分为子模型A和子模型B，子模型A可以用于识别图片中可能存在文字的区域，子模型B可以用于对子模型A识别出的区域中的文字进行识别。由此，可以将每条标注数据拆分成两条分别用于训练子模型A和子模型B的训练样本数据，子模型A的训练样本数据可以包括图片或其地址、框选区域的位置和尺寸，子模型B的训练样本数据可以包括图片或其地址、文本框中的文字。

在本发明的一个实施例中，还可以显示标签栏，在标签栏中可以显示一个或多个标签。其中，标签栏可以与待标注的图片一同显示。可以基于用户在标签栏中执行的标签选择操作，确定所选标签。在本实施例中，标签可以用来标识框选区域的类型。可以通过为框选框选择标签，来标识框选区域。可选地，可以在标签栏中用不同的颜色显示不同的标签。在执行步骤S120时，可以显示颜色与所选标签的颜色相同的框选框，并且/或者，可以显示颜色与所选标签的颜色相同的文本框。其中，选择标签并不是必须的，例如，对于图2所示的图片，并不需要区分图片中文本的类型，在这种情况下，右侧可以只显示一个默认标签。

如图3A至图3K所示，在利用本发明对发票图片进行标注时，可以通过右侧的标签栏中的标签，将发票中大写金额、小写金额、开票日期等特定类型的文本区分开来。其中，标签栏中的标签可以是系统提供的标签，也可以是用户添加的自定义标签。例如，用户可以通过“添加标签”按钮添加自定义标签。在用户做出了标签选择操作后，基于用户的框选操作所创建的框选框和文本框的颜色可以与之前所选择的标签的颜色相同，以指明这个框选框中的区域包含有特定类型的文字。在图3A至图3K中，不同的标签用不同的颜色显示(需要说明的是，由于图3A至图3K是灰度图，不是彩色图，所以标签栏中的不同标签只是呈现为用不同的灰度显示)。

由此，在执行步骤S140，保存标注数据时，可以基于图片、框选区域的位置和尺寸、所述文本框中的文字以及所选标签，保存标注数据。例如，可以基于如下一种或方式来保存标注数据：对应保存图片或其地址、框选区域的位置和尺寸、文本框中的文字以及所选标签；对应保存图片或其地址以及框选区域的位置和尺寸；对应保存图片或其地址、框选区域的位置和尺寸以及所选标签；对应保存框选区域内的图片以及文本框中的文字；对应保存框选区域内的图片、文本框中的文字以及所选标签。

作为本发明的一个示例，图1所示的获取标注数据的方法还可以可选地包括图4所示的各步骤(步骤S410至步骤S440)。

图4示出了根据本发明另一示例性实施例的获取标注数据的方法的流程图。其中，图4所示的方法可以用于对图片进行批量标注，以提高标注效率。图4所示的方法可以由客户端执行，客户端可以是面向用户的标注平台的客户端，该标注平台的客户端可以安装在手机、PC、平板电脑等终端设备上，或者该标注平台的客户端也可以是网页应用，用户可以通过手机、PC、平板电脑等终端设备上的浏览器打开相应网页，使用标注平台提供的服务。

标注平台包括服务器和客户端，客户端与服务器协同工作。待标注的图片可以由服务器下发给客户端，客户端可以为用户提供便于用户执行标注操作的界面，显示待标注的图片，并根据用户针对图片执行的操作，获取标注数据。服务器在向客户端下发待标注的图片时，可以连同标注任务一同下发。其中，标注任务可以是服务器自身所发布的，也可以由有标注需求的客户发布的。例如，客户可以将需要标注的图片上传至服务器，并指定标注任务，由服务器将其下发给能够执行人工标注的用户所对应的客户端。

参见图4，在步骤S410，同时显示多个图片的缩略图。

可以在显示设备上同时显示多个图片的缩略图。此处述及的显示设备可以是指位于PC、智能手机、平板电脑等终端设备上的显示装置。其中，显示设备可以显示由计算机生成的图像，可以包括各种类型的图像设备，例如阴极射线管(CRT)、液晶显示器(LCD)、发光二极管(LED)(包括有机发光二极管(OLED))、投射系统等等与其他支持电子装置(例如DAC、ADC、信号处理器等等)的集合。

在步骤S420，基于用户在各缩略图上执行的打标签操作，在相应缩略图上显示相应的标签。

可以显示标签栏，并在标签栏中显示一个或多个标签。标签栏可以与多个图片的缩略图显示在同一界面内，以便于用户打标签。在步骤S320之前，可以基于用户在标签栏中执行的标签选择操作，确定所选标签。在执行步骤S320时，可以响应于用户在缩略图上的点击操作，在相应缩略图上显示所选标签。

可选地，可以在标签栏中用不同的颜色显示不同的标签，在相应缩略图像上显示相应的标签时，可以用标签栏中的原颜色一致的颜色在相应缩略图上显示相应的标签。

可选地，响应于用户在标签栏中执行的标签选择操作，可以将光标颜色变换成与所选标签的颜色一致。

如图5A所示，可以默认选中右侧标签中的第一个。光标会显示为如图所示的样子。如图5B所示，当检测到鼠标移动到一个缩略图上时，可以以覆盖一层半透明遮罩的方式显示该缩略图，可选地还可以出现描边。如图5C所示，单击鼠标即可为该缩略图添加标签，标签可以位于图片左上角显示。当用户移动到别的缩略图上时，可以继续为别的缩略图打标签。当用户需要为已有标签的图片添加新的标签时，可以在右侧重新选择所需标签，再将光标移动到图片上，单击即可为图片添加新的标签。如图5D所示，新的标签会置于原来的标签之后。如图5E所示，当标签过多时，标签会换行显示。

如图5F所示，当检测到鼠标移动到缩略图上显示的一个标签上时，可以显示该标签的删除符号，响应于用户点击该删除符号的操作，可以从缩略图上删除该标签。

在步骤S430，根据各缩略图上的显示的标签，确定各图片对应的标签。

在步骤S440，保存各图片或其地址以及对应的标签，作为用于机器学习的标注数据。

由此，可以实现图片的批量标注，提高标注效率。

图6示出了示出了根据本发明示例性实施例的获取标注数据的装置的结构框图。其中，获取标注数据的装置的功能模块可以由实现本公开原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是，图6所描述的功能模块可以组合起来或者划分成子模块，从而实现上述发明的原理。因此，本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。

下面就获取标注数据的装置可以具有的功能模块以及各功能模块可以执行的操作做简要说明，对于其中涉及的细节部分可以参见上文相关的描述，这里不再赘述。

如图6所示，获取标注数据的装置600包括显示单元610、框选区域确定单元620、输入获取单元630以及保存单元640。

显示单元610用于显示待标注的图片。框选区域确定单元620用于基于用户在图片上执行的框选操作，确定图片上的框选区域。显示单元610还用于显示与框选区域相应的框选框，以及显示文本框。输入获取单元630用于获取用户输入文本框中的文字。保存单元640用于基于所述图片、框选区域的位置和尺寸以及所述文本框中的文字，保存用于机器学习的标注数据。

作为本发明的一个示例，显示单元610还用于显示标签，以及在标签栏中显示一个或多个标签。获取标注数据的装置600还可以包括标签确定单元(图中未示出)，标签确定单元用于基于用户在标签栏中执行的标签选择操作，确定所选标签。保存单元640可以基于所述图片、框选区域的位置和尺寸、所述文本框中的文字以及所选标签，保存用于机器学习的标注数据。

可选地，显示单元610可以在所述标签栏中用不同的颜色显示不同的标签。并且，显示单元610还可以用于显示颜色与所选标签的颜色相同的框选框，并且/或者，显示颜色与所选标签的颜色相同的文本框。

保存单元640可以对应保存如下中的一种或多种：保存单元640对应保存图片或其地址、框选区域的位置和尺寸、文本框中的文字以及所选标签；保存单元640对应保存图片或其地址以及框选区域的位置和尺寸；保存单元640对应保存图片或其地址、框选区域的位置和尺寸以及所选标签；保存单元640对应保存框选区域内的图片以及文本框中的文字；保存单元640对应保存框选区域内的图片、文本框中的文字以及所选标签。

作为本发明的另一个示例，获取标注数据的装置600还可以包括文本内容识别单元和填充单元(图中未示出)。在输入获取单元获取用户输入文本框中的文字之前：文本内容识别单元用于对框选区域中的文本内容进行识别，得到识别结果，例如，文本识别单元可以将所述框选区域内的图片输入到预训练好的识别图片中的文字的机器学习模型，得到该机器学习模型输出的识别结果；填充模块用于将识别结果作为默认文本填充到文本框内。

可选地，获取标注数据的装置600还可以包括修改操作检测单元和修改单元(图中未示出)。修改操作检测单元用于检测用户针对文本框中所述默认文本执行的修改操作，修改单元用于基于所述修改操作修改文本框中所述默认文本。

作为本发明的另一个示例，显示单元610可以根据所述框选框的尺寸、所述框选框与所述图片的相对位置关系、所述框选框与所述图片之间的留白区域的大小以及所述文本框的尺寸，基于预定的排版规则，确定所述文本框的显示位置，并在所确定的显示位置处显示文本框。其中，关于具体的排版规则可以参见上文相关描述，此处不再赘述。

作为本发明的另一个示例，获取标注数据的装置600还可以包括调整模块(图中未示出)。调整模块用于基于用户针对选中的框选框执行的操作，调整所述框选框的尺寸和/或位置。其中，在框选框的尺寸和/或位置变动后，文本框的显示位置也可以按照预定的排版规则变化。

作为本发明的另一个示例，获取标注数据的装置600还可以执行图4所示的方法，来实现图片的批量标注。换言之，获取标注数据的装置600还可以包括图7所示的获取标注数据的装置中的各功能模块，以由相应的功能模块执行图4所示的方法。

图7示出了示出了根据本发明另一示例性实施例的获取标注数据的装置的结构框图。

如图7所示，获取标注数据的装置700包括显示单元710、确定单元720以及保存单元730。

显示单元710、用于同时显示多个图片的缩略图，并基于用户在各缩略图上执行的打标签操作，在相应缩略图上显示相应的标签。确定单元720用于根据各缩略图上的显示的标签，确定各图片对应的标签。保存单元730用于保存各图片或其地址以及对应的标签作为用于机器学习的标注数据。

作为本发明的一个示例，获取标注数据的装置700还可以包括标签选择单元(图中未示出)。显示单元710还用于显示标签栏，以及在所述标签栏中显示一个或多个标签。标签选择单元用于在显示单元710基于用户在各缩略上执行的打标签操作，在相应缩略图像上显示相应的标签的步骤之前，基于用户在标签栏中执行的标签选择操作，确定所选标签。显示单元710用于响应于用户在缩略图上的点击操作，在相应缩略图上显示所选标签。

其中，所述显示单元710可以在所述标签栏中用不同的颜色显示不同的标签；所述显示单元710可以使用与标签栏中的原颜色一致的颜色在相应缩略图上显示相应的标签。可选地，获取标注数据的装置700还可以包括转换单元(图中未示出)。转换单元用于响应于用户在标签栏中执行的标签选择操作，将光标颜色变换成与所选标签的颜色一致。

显示单元710还用于当检测到鼠标移动到一个缩略图上时，以覆盖一层半透明遮罩的方式显示该缩略图。

作为本发明的另一个示例，获取标注数据的装置700还包括删除单元。显示单元710还用于当检测到鼠标移动到缩略图上显示的一个标签上时，显示该标签的删除符号。删除单元用于响应于用户点击该删除符号的操作，从缩略图上删除该标签。

图8示出了根据本发明一实施例可用于实现上述获取标注数据的方法的计算设备的结构示意图。

参见图8，计算设备800包括存储器810和处理器820。

处理器820可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器820可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器820可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器810可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器820或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器810可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器810可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器810上存储有可执行代码，当可执行代码被处理器820处理时，可以使处理器820执行上文述及的获取标注数据的方法。

上文中已经参考附图详细描述了根据本发明的获取标注数据的方法、获取标注数据的装置以及计算设备。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种获取标注数据的方法，包括：

显示待标注的图片；

基于用户在所述图片上执行的框选操作，确定所述图片上的框选区域，显示与所述框选区域相应的框选框，以及显示文本框；

获取用户输入所述文本框中的文字；

基于所述图片、框选区域的位置和尺寸以及所述文本框中的文字，保存用于机器学习的标注数据。

2.根据权利要求1所述的方法，还包括：

显示标签栏，以及在所述标签栏中显示一个或多个标签；

基于用户在标签栏中执行的标签选择操作，确定所选标签；

基于所述图片、框选区域的位置和尺寸、所述文本框中的文字以及所选标签，保存用于机器学习的标注数据。

3.根据权利要求2所述的方法，其中，

所述在所述标签栏中显示一个或多个标签包括：在所述标签栏中用不同的颜色显示不同的标签；

所述显示与所述框选区域相应的框选框包括：显示颜色与所选标签的颜色相同的框选框；并且/或者，所述显示文本框包括：显示颜色与所选标签的颜色相同的文本框。

4.根据权利要求2所述的方法，其中，基于所述图片、框选区域的位置和尺寸、所述文本框中的文字以及所选标签，保存用于机器学习的标注数据包括如下中的一种或多种：

对应保存所述图片或其地址、框选区域的位置和尺寸、所述文本框中的文字以及所选标签；

对应保存所述图片或其地址以及框选区域的位置和尺寸；

对应保存所述图片或其地址、框选区域的位置和尺寸以及所选标签；

对应保存所述框选区域内的图片以及所述文本框中的文字；

对应保存所述框选区域内的图片、所述文本框中的文字以及所选标签。

5.根据权利要求1所述的方法，在所述获取用户输入所述文本框中的文字之前，还包括：

对所述框选区域中的文本内容进行识别，得到识别结果；

将所述识别结果作为默认文本填充到所述文本框内。

6.一种获取标注数据的方法，包括：

同时显示多个图片的缩略图；

基于用户在各缩略图上执行的打标签操作，在相应缩略图上显示相应的标签；

根据各缩略图上的显示的标签，确定各图片对应的标签；

保存各图片或其地址以及对应的标签作为用于机器学习的标注数据。

7.一种获取标注数据的装置，包括：

显示单元，用于显示待标注的图片；

框选区域确定单元，用于基于用户在所述图片上执行的框选操作，确定所述图片上的框选区域，所述显示单元还用于显示与所述框选区域相应的框选框，以及显示文本框；

输入获取单元，用于获取用户输入所述文本框中的文字；

保存单元，用于基于所述图片、框选区域的位置和尺寸以及所述文本框中的文字，保存用于机器学习的标注数据。

8.一种获取标注数据的装置，包括：

显示单元，用于同时显示多个图片的缩略图，并基于用户在各缩略图上执行的打标签操作，在相应缩略图上显示相应的标签；

确定单元，用于根据各缩略图上的显示的标签，确定各图片对应的标签；

保存单元，用于保存各图片或其地址以及对应的标签作为用于机器学习的标注数据。

9.一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至6中任何一项所述的方法。

10.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至6中任一项所述的方法。