CN117636362A

CN117636362A - 一种多模态信息标注的方法、装置、设备和存储介质

Info

Publication number: CN117636362A
Application number: CN202310644534.7A
Authority: CN
Inventors: 李树凯; 张颖; 杜新凯; 田强; 刘润玉; 赵泽通; 王足根
Original assignee: Sunshine Insurance Group Co Ltd
Current assignee: Sunshine Insurance Group Co Ltd
Priority date: 2023-06-01
Filing date: 2023-06-01
Publication date: 2024-03-01

Abstract

本申请提供一种多模态信息标注的方法、装置、设备和存储介质，该方法包括，对待标注图像中的检测框进行裁剪，得到多个裁剪图像，其中，待标注图像包括多个检测框；通过识别模型对多个裁剪图像进行识别，得到多个识别信息，其中，识别信息包括文本位置信息、裁剪图像标识信息和文本内容信息；根据多个识别信息，对待标注图像进行标注。通过该方法可以达到快速的对图像中的文本信息进行标注的效果。

Description

一种多模态信息标注的方法、装置、设备和存储介质

技术领域

本申请涉及文本信息标注的领域，具体而言，涉及一种多模态信息标注的方法、装置、设备和存储介质。

背景技术

目前，文本识别领域中信息抽取往往通过复杂的过程，先通过扫描分析的方式提取图像中的文本信息，然后再将文本转换成计算机能够识别的字符，最终通过繁琐的版面分析过程对图像中的信息进行标注。

上述方法存在很大的局限性，在图像中数据量庞大的情况下，上述方法很难快速的做出信息的标注。

因此，如何快速的对图像中的文本信息进行标注，是一个需要解决的技术问题。

发明内容

本申请实施例的目的在于提供一种多模态信息标注的方法，通过本申请的实施例的技术方案可以达到快速的对图像中的文本信息进行标注的效果。

第一方面，本申请实施例提供了一种多模态信息标注的方法，包括，对待标注图像中的检测框进行裁剪，得到多个裁剪图像，其中，待标注图像包括多个检测框；通过识别模型对多个裁剪图像进行识别，得到多个识别信息，其中，识别信息包括文本位置信息、裁剪图像标识信息和文本内容信息；根据多个识别信息，对待标注图像进行标注。

本申请在上述实施例中，首先将图像裁剪，然后通过对裁剪后的图像进行识别，通过识别到的文本位置、文本内容和裁剪后图像的标识信息可以直接分析出对图像的标记内容，可以达到快速的对图像中的文本信息进行标注的效果。

在一些实施例中，根据多个识别信息，对待标注图像进行标注，包括：

根据多个识别信息，生成待标注图像的标注文件；

利用标注文件，对待标注图像的文本位置信息、裁剪图像标识信息和不同文本内容信息之间的关系进行标注，其中，待标注图像的文本位置信息包括待标注图像中每一字段的中心点坐标、高度值、宽度值和旋转角度，待标注图像的裁剪图像标识信息包括多个裁剪图像的宽度值、长度值和身份标识，待标注图像的不同文本内容信息之间的关系包括存在关联关系和不存在关联关系。

本申请在上述实施例中，根据识别到的信息生成的标注文件，可以快速的对图像的多种信息进行标注，可以达到多种信息准确且全面的标注。

将多个识别信息中的文本位置信息、裁剪图像标识信息和文本内容信息按照字段中心点的坐标以键值对的方式纵向排列，得到逗号分隔值格式的文件；

将不同文本内容信息之间的关系添加至逗号分隔值格式的文件中，得到最终标注文件；

基于最终标注文件，对待标注图像的不同文本内容信息之间的关系进行标注。

本申请在上述实施例中，通过键值对的方式将识别信息中的内容排列于逗号分隔值格式的文件中，再将文本内容信息之间的关系信息也添加至此文件中，可以得到最终考虑文本内容信息之间关系的标注文件，最终可以准确且快速的对图像中的信息进行标注。

在一些实施例中，在根据多个识别信息，对待标注图像进行标注之后，还包括：

运行对应脚本，生成标注后的图像对应的信息抽取文件；

根据信息抽取文件，抽取标注后的图像的文本信息。

本申请在上述实施例中，在对标注后的文件进行信息抽取时，只需要运行对应的脚本即可根据信息抽取文件快速的抽取图像中的文本信息。

第二方面，本申请实施例提供了一种多模态信息标注的装置，包括：

裁剪模块，用于对待标注图像中的检测框进行裁剪，得到多个裁剪图像，其中，待标注图像包括多个检测框；

识别模块，用于通过识别模型对多个裁剪图像进行识别，得到多个识别信息，其中，识别信息包括文本位置信息、裁剪图像标识信息和文本内容信息；

标注模块，用于根据多个识别信息，对待标注图像进行标注。

可选的，标注模块具体用于：

根据多个识别信息，生成待标注图像的标注文件；

可选的，标注模块具体用于：

可选的，所述装置还包括：

抽取模块，用于标注模块在根据多个识别信息，对待标注图像进行标注之后，运行对应脚本，生成标注后的图像对应的信息抽取文件；

根据信息抽取文件，抽取标注后的图像的文本信息。

第三方面，本申请实施例提供一种电子设备，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如上述第一方面提供的所述方法中的步骤。

第四方面，本申请实施例提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种多模态信息标注的方法的流程图；

图2为本申请实施例提供的一种通过检测框对图像进行标注的方法的示意图；

图3为本申请实施例提供的一种多模态信息标注的装置的示意框图；

图4为本申请实施例提供的一种多模态信息标注的装置的结构示意图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和显示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

首先对本申请实施例中涉及的部分用语进行说明，以便于本领域技术人员理解。

OCR(optical character recognition)文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，然后用字符识别方法将形状翻译成计算机文字的过程；即，对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。

CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号)，其文件以纯文本形式存储表格数据(数字和文本)。

本申请应用于文本信息标注的场景，具体场景为通过检测框的方式对图像中的内容进行分割，识别分割后图像的信息并形成标注文件，最终根据标注文件标注图像。

但是目前文本识别(OCR)领域中信息抽取往往通过复杂的过程，先通过扫描分析的方式提取图像中的文本信息，然后再将文本转换成计算机能够识别的字符，最终通过繁琐的版面分析过程对图像中的信息进行标注。上述方法存在很大的局限性，在图像中数据量庞大的情况下，上述方法很难快速的做出信息的标注。

为此本申请通过对待标注图像中的检测框进行裁剪，得到多个裁剪图像，其中，待标注图像包括多个检测框；通过识别模型对多个裁剪图像进行识别，得到多个识别信息，其中，识别信息包括文本位置信息、裁剪图像标识信息和文本内容信息；根据多个识别信息，对待标注图像进行标注。首先将图像裁剪，然后通过对裁剪后的图像进行识别，通过识别到的文本位置、文本内容和裁剪后图像的标识信息可以直接分析出对图像的标记内容，可以达到快速的对图像中的文本信息进行标注的效果。

本申请实施例中，执行主体可以为多模态信息标注系统中的多模态信息标注设备，实际应用中，多模态信息标注设备可以为终端设备和服务器等电子设备，在此不做限制。

下面结合图1对本申请实施例的多模态信息标注的方法进行详细描述。

请参看图1，图1为本申请实施例提供的一种多模态信息标注的方法的流程图，如图1所示的多模态信息标注的方法包括：

步骤110：对待标注图像中的检测框进行裁剪，得到多个裁剪图像。

其中，待标注图像包括多个检测框。检测框内包括文本信息。可以根据每个检测框的大小，从检测框边缘裁剪图像，得到多个裁剪图像。其中，通过检测框对图像进行标注的方法可以参看图2。

请参看图2，图2为本申请提供的一种通过检测框对图像进行标注的方法的示意图，该方法包括：

通过倾斜文本检测标注工具(labelimage)对图像进行标注，以图2完税证明为例，图中的每一个字段都有其对应的标签(label)，如“填发日期”的标签为问题标签(question)，“2022年05月31日”的标签为答案标签(answer)，图片中出现的一些其他无关文字(一般为信息抽取不关注的字段)的标签为其它标签(other)。图中每一字段都由一个检测框进行标注，其中还包括：税务机关、纳税人识别号、税种、品目名称、原凭证号、税款所属时期和纳税名称等字段都可以分别由一个检测框标注。

步骤120：通过识别模型对多个裁剪图像进行识别，得到多个识别信息。

其中，识别信息包括文本位置信息、裁剪图像标识信息和文本内容信息。文本位置信息可以是每一检测框中文本字段中心点的位置，还可以包括裁剪图像的高度值、宽度值和旋转角度等信息。裁剪图像的标识信息包括多个裁剪图像的宽度值、长度值和身份标识。裁剪图像的文本内容信息即识别图像中的文本，得到的文本内容。其中识别一个裁剪图像得到识别信息的格式例如：

“wanshuizhengming_L2_0102[^]608.9511_1373.4323_36.0_205.0_0.0_question_2339_1654_11.jpg：实缴(退)金额”。

其中，标识符“[^]”之前的字符串“wanshuizhengming_L2_0102”代表了影像图片的名称，标识符“：”与标识符“[^]”之间的字符串“608.9511_1373.4323_36.0_205.0_0.0_question_2339_1654_11.jpg”代表了影像图片中切出的字段图片的名称，名称以下划线进行隔断，其中前5个数字“608.9511”、“1373.4323”、“36.0”、“205.0”和“0.0”代表了本字段在整个待标注图像中的位置信息，用“cx、cy、h、w和angel”来表示，其中(cx,cy)为该裁剪图像中文本字段的中心点坐标，h和w为文本字段的高和宽，angel为文本字段的旋转角度，question代表的字段标注的标签，question后三位数字分别代表了裁剪图像的宽、高和赋予文本字段的id(名称)号，此id号是唯一的，可以作为后续关联信息标注的标识，标识符“：”后面的文字内容“实缴(退)金额”为文本内容信息。

步骤130：根据多个识别信息，对待标注图像进行标注。

在本申请的一些实施例中，根据多个识别信息，对待标注图像进行标注，包括：根据多个识别信息，生成待标注图像的标注文件；利用标注文件，对待标注图像的文本位置信息、裁剪图像标识信息和不同文本内容信息之间的关系进行标注，其中，待标注图像的文本位置信息包括待标注图像中每一字段的中心点坐标、高度值、宽度值和旋转角度，待标注图像的裁剪图像标识信息包括多个裁剪图像的宽度值、长度值和身份标识，待标注图像的不同文本内容信息之间的关系包括存在关联关系和不存在关联关系。

本申请在上述过程中，根据识别到的信息生成的标注文件，可以快速的对图像的多种信息进行标注，可以达到多种信息准确且全面的标注。

其中，标注文件包括裁剪图片中的身份标识、裁剪图片的类别名称标签、与裁剪图片中文本字段具有关联关系的裁剪图片身份标识、裁剪图片的位置信息和裁剪图片中文本字段的文本内容信息。

在本申请的一些实施例中，根据多个识别信息，对待标注图像进行标注，包括：将多个识别信息中的文本位置信息、裁剪图像标识信息和文本内容信息按照字段中心点的坐标以键值对的方式纵向排列，得到逗号分隔值格式的文件；将不同文本内容信息之间的关系添加至逗号分隔值格式的文件中，得到最终标注文件；基于最终标注文件，对待标注图像的不同文本内容信息之间的关系进行标注。

本申请在上述过程中，通过键值对的方式将识别信息中的内容排列于逗号分隔值格式的文件中，再将文本内容信息之间的关系信息也添加至此文件中，可以得到最终考虑文本内容信息之间关系的标注文件，最终可以准确且快速的对图像中的信息进行标注。

其中，逗号分隔值格式的文件(CSV文件)可以将从多个裁剪图像中识别到的识别信息进行纵向排列得到，具体的CSV文件可以参考表1所示的表格，具体内容如下：

表1

其中，“Image_name”表示待标注图像名称，“Id”表示裁剪图像的身份标识，“Label”表示裁剪图像中文本字段的类别名称，“Link”表示键值对关联关系，也可以理解为与当前文本字段具有关联关系的裁剪图像对应的身份标识，“Bbox”表示裁剪图像中文本字段在待标注图像中的位置，“Text”表示文本内容信息。此外将不同文本内容信息之间的关系添加至逗号分隔值格式的文件中，得到最终标注文件，具体可以参看表2、表3和表4，具体内容如下：

表2

其中，表2为一对一关联关系的CSV文件，也就是说与当前裁剪图像中文本字段具有关联关系的裁剪图像只有一个。例如，一个问题对应一个答案，填发日期和2022年05月31日对应的id号分别为6和65，在标注关联关系link的时候，应标注为6-65，则两个字段互为关联。

表3

其中，表3为一对多关联关系的CSV文件，例如，一个问题对应多个答案，原凭证号、税种等都是一个问题对应多个答案，原凭证号label为question，对应的id为4，其对应的答案有多个，对应的id为17、18、19、20、21、22、23，在标注关联关系link的时候，应标注为4-17,18,19,20,21,22,23。

表4

其中，表4中裁剪图像中文本字段的label为head和other的情况下，无需进行标注，对应的link列为空，说明该文本内容信息没有具有关联关系的文本信息。

在本申请的一些实施例中，在根据多个识别信息，对待标注图像进行标注之后，图1所示的方法还包括：运行对应脚本，生成标注后的图像对应的信息抽取文件；根据信息抽取文件，抽取标注后的图像的文本信息。

本申请在上述过程中，在对标注后的文件进行信息抽取时，只需要运行对应的脚本即可根据信息抽取文件快速的抽取图像中的文本信息。

其中，根据信息抽取文件，抽取标注后的图像的文本信息包括：通过文本信息抽取模型对信息抽取文件中的内容进行识别，得到标注后的图像的文本信息，文本信息抽取模型为常见的识别模型，可以根据文件中从待标注图像中得到的识别信息进行具有关联关系的文本内容信息的抽取。

在上述图1所示的过程中，本申请通过对待标注图像中的检测框进行裁剪，得到多个裁剪图像，其中，待标注图像包括多个检测框；通过识别模型对多个裁剪图像进行识别，得到多个识别信息，其中，识别信息包括文本位置信息、裁剪图像标识信息和文本内容信息；根据多个识别信息，对待标注图像进行标注。首先将图像裁剪，然后通过对裁剪后的图像进行识别，通过识别到的文本位置、文本内容和裁剪后图像的标识信息可以直接分析出对图像的标记内容，可以达到快速的对图像中的文本信息进行标注的效果。

前文通过图1-图2描述了多模态信息标注的方法，下面结合图3-图4描述多模态信息标注的装置。

请参照图3，为本申请实施例中提供的一种多模态信息标注的装置300的示意框图，该装置300可以是电子设备上的模块、程序段或代码。该装置300与上述图1方法实施例对应，能够执行图1方法实施例涉及的各个步骤，该装置300具体的功能可以参见下文中的描述，为避免重复，此处适当省略详细描述。

可选的，所述装置300包括：

裁剪模块310，用于对待标注图像中的检测框进行裁剪，得到多个裁剪图像，其中，待标注图像包括多个检测框；

识别模块320，用于通过识别模型对多个裁剪图像进行识别，得到多个识别信息，其中，识别信息包括文本位置信息、裁剪图像标识信息和文本内容信息；

标注模块330，用于根据多个识别信息，对待标注图像进行标注。

可选的，标注模块具体用于：

根据多个识别信息，生成待标注图像的标注文件；利用标注文件，对待标注图像的文本位置信息、裁剪图像标识信息和不同文本内容信息之间的关系进行标注，其中，待标注图像的文本位置信息包括待标注图像中每一字段的中心点坐标、高度值、宽度值和旋转角度，待标注图像的裁剪图像标识信息包括多个裁剪图像的宽度值、长度值和身份标识，待标注图像的不同文本内容信息之间的关系包括存在关联关系和不存在关联关系。

可选的，标注模块具体用于：

将多个识别信息中的文本位置信息、裁剪图像标识信息和文本内容信息按照字段中心点的坐标以键值对的方式纵向排列，得到逗号分隔值格式的文件；将不同文本内容信息之间的关系添加至逗号分隔值格式的文件中，得到最终标注文件；基于最终标注文件，对待标注图像的不同文本内容信息之间的关系进行标注。

可选的，所述装置还包括：

抽取模块，用于标注模块在根据多个识别信息，对待标注图像进行标注之后，运行对应脚本，生成标注后的图像对应的信息抽取文件；根据信息抽取文件，抽取标注后的图像的文本信息。

请参照图4为本申请实施例中提供的一种多模态信息标注的装置的结构示意框图，该装置可以包括存储器410和处理器420。可选的，该装置还可以包括：通信接口430和通信总线440。该装置与上述图1方法实施例对应，能够执行图1方法实施例涉及的各个步骤，该装置具体的功能可以参见下文中的描述。

具体的，存储器410，用于存储计算机可读指令。

处理器420，用于处理存储器存储的可读指令，能够执行图1方法中的各个步骤。

通信接口430，用于与其他节点设备进行信令或数据的通信。例如：用于与服务器或者终端的通信，或者与其它设备节点进行通信，本申请实施例并不限于此。

通信总线440，用于实现上述组件直接的连接通信。

其中，本申请实施例中设备的通信接口430用于与其他节点设备进行信令或数据的通信。存储器410可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器410可选的还可以是至少一个位于远离前述处理器的存储装置。存储器410中存储有计算机可读取指令，当所述计算机可读取指令由所述处理器420执行时，电子设备执行上述图1所示方法过程。处理器420可以用于装置300上，并且用于执行本申请中的功能。示例性地，上述的处理器420可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，本申请实施例并不局限于此。

本申请实施例还提供一种可读存储介质，所述计算机程序被处理器执行时，执行如图1所示方法实施例中电子设备所执行的方法过程。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法中的对应过程，在此不再过多赘述。

综上所述，本申请实施例提供一种多模态信息标注的方法、装置、设备和存储介质，该方法包括，对待标注图像中的检测框进行裁剪，得到多个裁剪图像，其中，待标注图像包括多个检测框；通过识别模型对多个裁剪图像进行识别，得到多个识别信息，其中，识别信息包括文本位置信息、裁剪图像标识信息和文本内容信息；根据多个识别信息，对待标注图像进行标注。通过该方法可以达到快速的对图像中的文本信息进行标注的效果。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种多模态信息标注的方法，其特征在于，包括：

对待标注图像中的检测框进行裁剪，得到多个裁剪图像，其中，所述待标注图像包括多个检测框；

通过识别模型对所述多个裁剪图像进行识别，得到多个识别信息，其中，所述识别信息包括文本位置信息、裁剪图像标识信息和文本内容信息；

根据所述多个识别信息，对所述待标注图像进行标注。

2.根据权利要求1所述的方法，其特征在于，所述根据所述多个识别信息，对所述待标注图像进行标注，包括：

根据所述多个识别信息，生成所述待标注图像的标注文件；

利用所述标注文件，对所述待标注图像的文本位置信息、裁剪图像标识信息和不同文本内容信息之间的关系进行标注，其中，所述待标注图像的文本位置信息包括所述待标注图像中每一字段的中心点坐标、高度值、宽度值和旋转角度，所述待标注图像的裁剪图像标识信息包括所述多个裁剪图像的宽度值、长度值和身份标识，所述待标注图像的不同文本内容信息之间的关系包括存在关联关系和不存在关联关系。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述多个识别信息，对所述待标注图像进行标注，包括：

将所述多个识别信息中的文本位置信息、裁剪图像标识信息和文本内容信息按照字段中心点的坐标以键值对的方式纵向排列，得到逗号分隔值格式的文件；

将不同文本内容信息之间的关系添加至所述逗号分隔值格式的文件中，得到最终标注文件；

基于所述最终标注文件，对所述待标注图像的所述不同文本内容信息之间的关系进行标注。

4.根据权利要求1或2所述的方法，其特征在于，在所述根据所述多个识别信息，对所述待标注图像进行标注之后，所述方法还包括：

运行对应脚本，生成标注后的图像对应的信息抽取文件；

根据所述信息抽取文件，抽取所述标注后的图像的文本信息。

5.一种多模态信息标注的装置，其特征在于，包括：

裁剪模块，用于对待标注图像中的检测框进行裁剪，得到多个裁剪图像，其中，所述待标注图像包括多个检测框；

识别模块，用于通过识别模型对所述多个裁剪图像进行识别，得到多个识别信息，其中，所述识别信息包括文本位置信息、裁剪图像标识信息和文本内容信息；

标注模块，用于根据所述多个识别信息，对所述待标注图像进行标注。

6.根据权利要求5所述的装置，其特征在于，所述标注模块具体用于：

根据所述多个识别信息，生成所述待标注图像的标注文件；

7.根据权利要求5或6所述的装置，其特征在于，所述标注模块具体用于：

8.根据权利要求5或6所述的装置，其特征在于，所述装置还包括：

抽取模块，用于所述标注模块在所述根据所述多个识别信息，对所述待标注图像进行标注之后，运行对应脚本，生成标注后的图像对应的信息抽取文件；

9.一种电子设备，其特征在于，包括：

存储器和处理器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如权利要求1-4中任一项所述方法中的步骤。

10.一种计算机可读存储介质，其特征在于，包括：

计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1-4中任一项所述的方法。