CN117036652B

CN117036652B - 布局信息生成方法、模型训练方法、装置及电子设备

Info

Publication number: CN117036652B
Application number: CN202311290773.3A
Authority: CN
Inventors: 蒋征国; 陈皇; 曹浩宇; 姜德强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-10-08
Filing date: 2023-10-08
Publication date: 2024-02-06
Anticipated expiration: 2043-10-08
Also published as: CN117036652A

Abstract

本申请实施例提供了一种布局信息生成方法、模型训练方法、装置、电子设备及计算机可读存储介质，可应用于虚拟现实、增强现实、图像处理等领域或场景。该方法包括：确定目标图片的初始布局信息集，初始布局信息集包括相应图片中各文本信息的初始布局信息，初始布局信息包括相应文本信息的类型和待对齐坐标；将目标图片的初始布局信息集输入预先训练的布局生成模型，获得布局生成模型输出的目标图片的已对齐布局信息集，已对齐布局信息集包括相应图片中各文本信息的已对齐布局信息。本申请实施例更贴合与实际的布局生成场景，并且生成的布局质量也更高。

Description

布局信息生成方法、模型训练方法、装置及电子设备

技术领域

本申请涉及车联网及图像处理技术领域，具体而言，本申请涉及一种布局信息生成方法、模型训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

近年来，随着互联网技术的飞速发展，图像中内容也日益丰富，针对图像的识别方式也越来越多，除了识别图像的类型以外，还可以在图像中识别出文档的布局。

在对现有技术的研究和实践中，本发明的发明人发现采用非结构文档，或者训练数据稀少、扫描文档质量较低时，训练的模型准确性较低。

发明内容

本申请实施例提供了一种布局信息生成方法、装置、电子设备、计算机可读存储介质及计算机程序产品，可以解决现有技术的上述问题。所述技术方案如下：

根据本申请实施例的第一个方面，提供了一种布局信息生成方法，该方法包括：

确定目标图片的初始布局信息集，所述初始布局信息集包括相应图片中各文本信息的初始布局信息，所述初始布局信息包括相应文本信息的类型和待对齐坐标；

将所述目标图片的初始布局信息集输入预先训练的布局生成模型，获得所述布局生成模型输出的所述目标图片的已对齐布局信息集，所述已对齐布局信息集包括相应图片中各文本信息的已对齐布局信息，所述已对齐布局信息包括相应文本信息的类型和基于同一聚类簇的文本信息进行对齐后的对齐坐标；

其中，所述布局生成模型根据至少一个样本图片的初始布局信息集和至少一轮迭代的参考布局信息集训练而成的，每个参考布局信息集包括相应样本图片中各文本信息的参考布局信息，所述参考布局信息为相应文本信息的类型以及基于同一聚类簇的文本信息进行相应轮对齐后的对齐坐标；

同一聚类簇的文本信息的布局信息间的相似度符合预设条件。

作为一种可选的实施方式，布局生成模型的训练方法包括：

确定初始训练集和初始模型，所述初始训练集包括至少一个样本图片的初始布局信息集；

根据所述初始训练集对所述初始模型进行预设轮数的迭代训练；

其中，每轮迭代的训练过程包括：

根据本轮迭代的训练集对本轮迭代的模型进行训练，获得下轮迭代的模型；

确定本轮迭代的待处理集，所述本轮迭代的待处理集包括所述本轮迭代的训练集中的至少一个样本图片的第一布局信息，所述第一布局信息为初始布局信息集或者参考布局信息集；

对于待处理集中的每个样本图片，根据所述样本图片的第一布局信息集对所述样本图片的文本信息进行聚类，将同一聚类簇中的文本信息进行对齐，获得所述样本图片在下轮迭代的参考布局信息集；

确定下轮迭代的训练集，所述下轮迭代的训练集包括至少一个样本图片的初始布局信息集和至少一个样本图片在下轮迭代的参考布局信息集；

其中，首轮迭代的训练集为所述初始训练集，迭代模型为所述初始模型；所述布局生成模型为最后一轮迭代训练获得的模型。

作为一种可选的实施方式，所述根据本轮迭代的训练集对本轮迭代的模型进行训练，包括：

对于本轮迭代的训练集中的任意一个样本图片，以所述样本图片的已处理的文本信息在本轮迭代的参考布局信息为训练样本，以下一个待处理文本在本轮迭代的参考布局信息为训练标签，对本轮迭代的模型进行训练。

作为一种可选的实施方式，所述确定本轮迭代的待处理集，包括：

对至少一个初始布局信息集中的各文本信息的待对齐坐标进行更新，获得至少一个新样本图片的初始布局信息集；

将所述至少一个新样本图片的初始布局信息集输入所述下轮迭代的模型，获得所述至少一个新样本图片在本轮迭代的参考布局信息集；

其中，所述本轮迭代的待处理集还包括所述至少一个新样本图片在本轮迭代的参考布局信息集。

作为一种可选的实施方式，所述根据所述样本图片的参考布局信息集对所述样本图片的文本信息进行聚类，包括：

对于所述样本图片的任意两个文本信息，从所述两个文本信息的参考布局信息中各自确定所述两个文本信息的类型；

确定所述两个文本信息的类型的词向量，所述类型的词向量用于表示类型的语义信息，根据所述两个文本信息的类型的词向量，获得所述两个文本信息在语义上的第一相似度；

从所述两个文本信息的参考布局信息中各自确定所述两个文本信息在本轮迭代的对齐坐标，根据所述两个文本信息在本轮迭代的对齐坐标，获得所述两个文本信息在距离上的第二相似度；

对所述两个文本信息间的第一相似度和第二相似度进行加权求和，获得所述两个文本信息间的第三相似度；

根据样本图片的两两文本信息间的第三相似度，对所述样本图片的文本信息进行聚类，获得至少一个聚类簇。

作为一种可选的实施方式，每轮迭代的训练集中参考布局信息集的比重与迭代次数正相关。

作为一种可选的实施方式，所述获得初始训练集，包括：

获得至少一个样本图片；

对每个样本图片进行光学字符识别，获得所述样本图片中的至少一个字符以及每个字符的类型和待对齐坐标；

根据各字符的类型和待对齐坐标，将同一类型且距离小于预设阈值的字符合并为一个文本信息；

对于每个文本信息，根据所述文本信息中字符的类型以及待对齐坐标，获得所述文本信息的类型和待对齐坐标；

将所述样本图片中各文本信息的类型和待对齐坐标，作为所述样本图片的初始布局信息集。

根据本申请实施例的第二个方面，提供了一种模型训练方法，包括：

其中，每轮迭代的训练过程包括：

根据本申请实施例的第三个方面，提供了一种布局信息生成装置，该装置包括：

初始布局模块，用于确定目标图片的初始布局信息集，所述初始布局信息集包括相应图片中各文本信息的初始布局信息，所述初始布局信息包括相应文本信息的类型和待对齐坐标；

对齐布局模块，用于将所述目标图片的初始布局信息集输入预先训练的布局生成模型，获得所述布局生成模型输出的所述目标图片的已对齐布局信息集，所述已对齐布局信息集包括相应图片中各文本信息的已对齐布局信息，所述已对齐布局信息包括相应文本信息的类型和基于同一聚类簇的文本信息进行对齐后的对齐坐标；

根据本申请实施例的第四个方面，提供了一种模型训练装置，该装置包括：

准备模块，用于确定初始训练集和初始模型，所述初始训练集包括至少一个样本图片的初始布局信息集；

训练模块，用于根据所述初始训练集对所述初始模型进行预设轮数的迭代训练；

其中，每轮迭代的训练过程包括：

首轮迭代的训练集为所述初始训练集，迭代模型为所述初始模型；所述布局生成模型为最后一轮迭代训练获得的模型。

根据本申请实施例的另一个方面，提供了一种电子设备，该电子设备包括存储器、处理器及存储在存储器上的计算机程序，处理器执行所述计算机程序以实现上述第一方面或第二方面提供的方法的步骤。

根据本申请实施例的再一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面或第二方面提供的方法的步骤。

根据本申请实施例的一个方面，提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现上述第一方面或第二方面提供的方法的步骤。

本申请实施例提供的技术方案带来的有益效果是：

通过确定目标图片的初始布局信息，初始布局信息集包括图片中各个文本信息的初始布局信息，初始布局信息包括了相应文本信息的类型以及待对齐坐标，将目标图片的初始布局信息集输入预先训练的布局生成模型，获得布局生成模型输出的已对齐布局信息集，由于布局生成模型根据至少一个样本图片的初始布局信息集和至少一轮迭代的参考布局信息集训练而成的，因此本申请实施例更贴合与实际的布局生成场景，并且生成的布局质量也更高。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的实现布局信息生成方法的系统架构示意图；

图2为本申请实施例提供的一种布局信息生成方法的流程示意图；

图3a为本申请实施例一个实施例提供的目标图片的示意图；

图3b为本申请实施例另一个实施例提供的目标图片的示意图；

图4为本申请实施例提供的一种初始布局信息集和已对齐布局信息集的展示效果对比示意图；

图5为本申请实施例提供的一种确定样本图片的初始布局信息集的示意图；

图6a为本申请实施例提供的一种首轮迭代的流程示意图；

图6b为本申请实施例提供的一种非首轮迭代的流程示意图；

图7为本申请再一个实施例提供的一轮迭代的流程示意图；

图8为本申请实施例提供的确定任意两个文本信息的相似度的示意图；

图9a为本申请实施例提供的模型训练方法的流程示意图；

图9b为本申请另一个实施例提供的模型训练方法的流程示意图；

图10为本申请实施例应用于虚拟现实应用场景的示意图；

图11为本申请实施例提供的一种布局信息生成装置的结构示意图；

图12为本申请实施例提供的一种模型训练装置的结构示意图；

图13为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”可以实现为“A”，或者实现为“B”，或者实现为“A和B”。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先对本申请涉及的几个名词进行介绍和解释：

结构化文档是指具有逻辑结构的文档，例如具有标题、章节、段落等逻辑结构的文档。结构化文档的好处在于不会显得杂乱无章，每一部分的位置以及语义都具有一定程度的聚类，方便阅读。

聚类算法，聚类是一种运用广泛的探索性数据分析技术，人们对数据产生的第一直觉往往是通过对数据进行有意义的分组，通过对对象进行分组，使相似的对象归为一类，不相似的对象归为不同类。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器学习/深度学习等几大方向。本申请实施例提供的方案涉及人工智能技术下属的机器学习和计算机视觉技术，下面将对此进行叙述。

本申请实施例具体涉及到人工智能技术中的计算机视觉技术(Computer Vision，CV)。计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、追随和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实（Virtual Reality，VR）、增强现实（Augmented Reality，AR）、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

增强现实，是一种将计算机生成的虚拟信息与真实世界场景相结合的技术。通过使用AR技术，用户可以在现实场景中看到虚拟元素，例如游戏、广告、教育、医疗等领域都有AR应用。AR技术通常需要使用摄像头和显示器等设备来呈现虚拟信息。

VR指虚拟现实（Virtual Reality），是一种通过计算机模拟的技术，创造出一个虚拟的环境，让用户感觉自己置身于其中。VR技术通常需要使用头戴式显示器、手柄等设备，以及专门的虚拟现实软件来呈现虚拟环境。VR技术在游戏、教育、医疗等领域都有应用。

本申请提供的布局信息生成方法、装置、电子设备、计算机可读存储介质以及计算机程序产品，旨在解决现有技术的如上技术问题。

下面通过对几个示例性实施方式的描述，对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是，下述实施方式之间可以相互参考、借鉴或结合，对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等，不再重复描述。

图1为本申请实施例提供的实现布局信息生成方法的系统架构示意图，其中，该系统可以包括终端100和服务器200，终端100和服务器200通过网络连接，终端中运行有文档处理程序，服务器200中集成有布局信息生成装置，终端100可以访问服务器200。

本申请实施例的终端100可以通过文档处理程序调用摄像头，拍摄待处理的文档的图片，由于拍摄角度以及摄像头自身的原因，图片中文档通常存在字符倾斜的问题，将图片发送至服务器200。

本申请实施例的服务器200主要用于识别图片中的文本信息的布局信息，并获得目标布局信息，目标布局信息包括了各个字符对齐后的对齐坐标，并且同一类字符的位置具有明显的规范，终端100可以在接收目标布局信息后，对图片中字符的位置进行调整，获得调整后的图片，从而方便用户在浏览文档的图片时可以清晰、直观地看到不同的信息。

本发明实施例中，该服务器200可以是独立的服务器，也可以是服务器组成的服务器网络或服务器集群，例如，本发明实施例中所描述的服务器200，其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中，云服务器由基于云计算(Cloud Computing)的大量计算机或网络服务器构成。本发明的实施例中，服务器与终端之间可通过任何通信方式实现通信，包括但不限于，基于第三代合作伙伴计划(3rd Generation Partnership Project，3GPP)、长期演进(Long Term Evolution，LTE)、全球互通微波访问(Worldwide Interoperability for Microwave Access，WiMAX)的移动通信，或基于TCP/IP协议族(TCP/IP Protocol Suite，TCP/IP)、用户数据报协议(User Datagram Protocol，UDP)协议的计算机网络通信等。

可以理解的是，本发明实施例中所使用的终端100可以理解为客户端设备，终端100既包括接收和发射硬件的设备，即具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种终端可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备。具体的终端100具体可以是台式终端或移动终端，终端100具体可以手机、平板电脑、笔记本电脑、头戴式虚拟现实设备、投影式增强现实设备或飞行器等中的一种，终端100中预先安装有至少一种可访问网络的应用，例如通讯应用(如微信或QQ)等。

本领域技术人员可以理解，图1中示出的应用环境，仅仅是与本申请方案一种应用场景，并不构成对本申请方案应用场景的限定，其他的应用环境还可以包括比图1中所示更多或更少的服务器，或者服务器网络连接关系，例如图1中仅示出1个服务器和1个终端，可以理解的，该数据异常识别系统还可以包括一个或多个其他服务器，或/且一个或多个与服务器网络连接的终端，具体此处不作限定。

需要说明的是，本申请各实施例中相关数据收集处理在实例应用时，应该严格根据相关国家法律法规的要求，获取个人信息主体的知情同意或单独同意，并在法律法规及个人信息主体的授权范围内，开展后续数据使用及处理行为。

本申请实施例中提供了一种布局信息生成方法，如图2所示，该方法包括步骤S101和S102。

S101、确定目标图片的初始布局信息集，所述初始布局信息集包括图片中各文本信息的初始布局信息。

本申请实施例可以由终端100对文档进行图像采集，获得目标图片，可以理解的是，目标图片中各个文本信息的坐标可能受拍照角度或者相机光学性质的影响，存在倾斜或扭曲的情况。

请参见图3a，其示例性地示出了本申请一个实施例提供的目标图片的示意图，该目标图片是对购物小票进行拍摄得到，可以看出该小票中很多行的文本，例如具体卡号3101以及具体消费金额3102，都呈一定程度的倾斜或者扭曲，此时每个文本信息的坐标称之为待对齐坐标。

本申请实施例可以通过OCR文本提取器对目标图片进行OCR识别，获得目标图片的初始布局信息集，包括所有文本信息的类型和待对齐坐标。在一些实施例中，对于图片中的每个文本信息，其布局信息可以包括5个属性，分别为类型、左边界坐标、右边界坐标、上边界坐标和下边界坐标，可以表示为：

本申请实施例对于文本信息的类型不作具体限定，例如可以是字符、分词、句子等等，以图3a为例，每一行字符称之为一个文本信息。

在虚拟现实或增强现实应用场景中，本申请实施例的目标图片也可以是虚拟现实设备或增强现实设备展示的界面的截图，如图3b所示，用户通过头戴虚拟现实设备3201可以看到虚拟场景3202，由于虚拟场景3202是在曲面上显示的，所以虚拟场景3202上显示的一些信息，例如空间3203受用户的视角影响，是倾斜或者扭曲地展示的，这样就影响了用户对虚拟菜单上文字的理解效率。本申请实施例的目标图片可以是对虚拟现实设备或增强现实设备展示的界面的截图，通过本申请实施例的布局信息生成方法的处理，可以将目标图片中的文本信息进行对齐后展示给用户，提高用户的体验。

S102、将所述目标图片的初始布局信息集输入预先训练的布局生成模型，获得所述布局生成模型输出的所述目标图片的已对齐布局信息集。

本申请实施例可以预先训练布局生成模型，通过将目标图片的初始布局信息输入训练好的布局生成模型，获得布局生成模型输出的所述目标图片的已对齐布局信息集。目标图片的已对齐布局信息集包括目标图片中各文本信息的已对齐布局信息。已对齐布局信息包括相应文本信息的类型和基于同一聚类簇的文本信息进行对齐后的对齐坐标。

本申请实施例将聚类算法融入布局生成流程中，同一聚类簇的文本信息的布局信息（坐标和类型）间的相似度符合预设条件，在一些实施例中，将类型相同，且间距小于预设阈值的文本信息作为同一聚类簇的文本信息。在本申请实施例中，通常将位于同一行且同一类类别的文本信息作为一个聚类簇，这样操作特别适用于票据的布局生成场景，因为票据中同一信息的所有字符通常出现在同一行，以菜品的名称为例，通常一个菜品的所有字符是写在票据的同一行的。

本申请实施例的对齐，是指将同一个聚类簇中的文本信息的边界坐标，在水平或数值方向上对齐。请参见图4，其示例性地示出了本申请实施例的初始布局信息集和已对齐布局信息集的效果对比示意图，图中左侧为目标图片的初始布局信息集的效果图，可以看出虽然各个文本信息（图中以填充的框体）的坐标比较乱，是倾斜的，例如标记框4101中的多行文本信息无论是左边界还是右边界都未对齐，而右侧是目标图片的已对齐布局信息集，可以看出同一类文本信息的布局是整齐的，例如标记框4102中的多行文本信息的右边界是对齐的。

本申请实施例的布局生成模型是基于根据至少一个样本图片的初始布局信息集和至少一轮迭代的参考布局信息集训练而成的，每个参考布局信息集包括相应样本图片中各文本信息的参考布局信息，所述参考布局信息为相应文本信息的类型以及基于同一聚类簇的文本信息进行相应轮对齐后的对齐坐标。也就是说，本申请实施例通过对样本图片的初始布局信息进行多轮迭代，每轮迭代都会更新文本信息的对齐坐标，通过不断将文本信息进行对齐，然后利用对齐后的对齐对标进行下一轮迭代，使得模型在训练过程中利用不断对齐的文本进行参数的修正，缓解模型从训练集中学到的文本信息的位置不对齐的问题，学习到生成对齐质量更高的结构化文档布局。

相关技术在进行布局生成任务时，所采用的训练集主要有两种，一种为非结构化文档的Publaynet数据集和结构化文档的cord数据集，Publaynet数据集关于布局种类的标注不够丰富，仅区分了Text、Title、List、Table、Figure共5个粗粒度类别，并且文档多为论文文献，此类非结构化文档的各种布局框的分布规律比较简单，只需要讲版面花费为两列之后，津贴上方元素填充即可，需要对齐的格式也仅为边界处的文本信息。对于cord数据集，cord数据集包括对菜单或者账单进行拍摄得到的样本图片，但其存在的问题在于，其样本图片中的票据均是对齐后的样式，而非采用了实际任务中未对齐的样式，这就导致基于现有cord数据集训练的布局生成模型在实际应用时的准确性并不高，并且传统的cord数据集中文本信息的种类包括5个大类和42个小类，本申请实施例针对票据识别场景，发现实际上42个小类之间有很多类别有所重叠，因此进行了精简，样本图片的初始布局信息中的类型共计11个常见的类型，包括：商店名、商品名、数量、序号、单价、小计、总价、地址、联系方式、时间以及其他，其他也即一个文本信息不属于前述10种类型时，则将其归属在其他类中。

本申请实施例的布局信息生成方法，通过确定目标图片的初始布局信息，初始布局信息集包括图片中各个文本信息的初始布局信息，初始布局信息包括了相应文本信息的类型以及待对齐坐标，将目标图片的初始布局信息集输入预先训练的布局生成模型，获得布局生成模型输出的已对齐布局信息集，由于布局生成模型根据至少一个样本图片的初始布局信息集和至少一轮迭代的参考布局信息集训练而成的，因此本申请实施例更贴合与实际的布局生成场景，并且生成的布局质量也更高。

在上述各实施例的基础上，作为一种可选实施例，本申请实施例获得初始训练集，包括：

获得至少一个样本图片；

请参见图5，其示例性地示出了本申请实施例确定样本图片的初始布局信息集的示意图，通过对样本图片进行光学字符识别，获得样本图片中各个字符的类型以及待对齐坐标，图中每个字符用方形框5101进行标识，不同类型的字符的方形框的填充不同，从图中可以看出进行光学字符识别后获得信息的粒度较小，这可能影响后续聚类的准确性以及效率，本申请实施例发现，一般在票据展示或者AR/VR展示时，同一行字符用来表述一个信息，并且同一行中相邻字符的间距要明显小于同一列中相邻字符的间距，因此本申请实施例根据各个字符的类型以及待对齐坐标的句子，将同一类型且距离小于预设阈值的字符进行整合，构成一个文本信息5102，图中整合后的文本信息包括了同处一行且同种类的所有字符，将字符的类型作为文本信息的类型，将文本信息中最左侧字符的左边界坐标作为文本信息的左坐标，将文本信息中最右侧字符的右边界坐标作为文本信息的右坐标，将文本信息中最大y轴坐标的字符的y轴上坐标作为文本信息的上边界的坐标，将文本信息中最小y轴坐标的字符的y轴下坐标作为文本信息的下边界坐标，最后将样本图片中各文本信息的类型和待对齐坐标进行汇总，即可作为样本图片的初始布局信息集。

在上述各实施例的基础上，作为一种可选实施例，布局生成模型的训练方法包括：

确定初始训练集和初始模型，根据所述初始训练集对所述初始模型进行预设轮数的迭代训练。

本申请实施例的初始模型具体可以是transformer模型中的Decoder部分，本申请实施例的每轮迭代的训练过程，包括步骤S201~S204，具体地：

S201、根据本轮迭代的训练集对本轮迭代的模型进行训练，获得下轮迭代的模型；

S202、确定本轮迭代的待处理集，本轮迭代的待处理集包括所述本轮迭代的训练集中的至少一个样本图片的第一布局信息，所述第一布局信息为初始布局信息集或者参考布局信息集；

S203、对于待处理集中的每个样本图片，根据所述样本图片的第一布局信息集对所述样本图片的文本信息进行聚类，将同一聚类簇中的文本信息进行对齐，获得所述样本图片在下轮迭代的参考布局信息集；

S204、确定下轮迭代的训练集，所述下轮迭代的训练集包括至少一个样本图片的初始布局信息集和至少一个样本图片在下轮迭代的参考布局信息集。

如图6a所示，其示例性地示出了本申请实施例提供的首轮迭代的流程示意图，如图所示，本申请实施例将初始训练集作为首轮迭代的训练集，初始训练集中包括n个样本图片的初始布局信息集，将初始模型作为首轮迭代的模型，在首轮迭代时，以初始训练集对初始模型进行训练，获得第二轮迭代的模型，从初始训练集中选择至少一个样本图片作为第二样本图片，获得第二样本图片的初始布局信息集构成待处理集，然后对待处理集中的每个第二样本图片的初始布局信息集进行聚类和对齐，获得第二样本图片在下轮迭代的参考布局信息集，从初始训练集中随机筛选多个样本图片的初始布局信息集，将随机筛选的多个样本图片的初始布局信息集和第二样本图片在第二轮迭代的参考布局信息集进行汇总，得到第二轮迭代的训练集。

请参见图6b，其示例性地示出了本申请实施例提供的非首轮迭代的流程示意图，如图所示，首先以本轮迭代的训练集对本轮迭代的模型进行训练，得到下轮迭代的模型，以第二轮迭代为例，第二轮迭代的训练集中不再全部为初始布局信息集，而是有一部分上一轮经过聚类对齐的参考对局信息集，由于每轮迭代的训练集都是经过新一轮对齐后的参考布局信息集，所以在样本图片中文本信息的坐标越来越对齐的情况下，每一轮迭代的模型输出的布局信息也越来越对齐。

继续以第二轮迭代为例，获得的本轮迭代的待处理集中包括从所述本轮迭代的训练集中确定的样本图片的第一布局信息，由于本轮迭代的训练集中既包括一些样本图片的初始布局信息集，也包括一些样本图片在首轮经过聚类和对齐后得到的参考布局信息集，所以第二轮迭代的待处理集中既存在一些样本图片（例如图片u）的初始布局信息集，也存在一些样本图片（例如图片v）的第二轮迭代的参考布局信息集，对待处理集中的所有第一布局信息进行剧烈和对齐，获得下一轮迭代的参考布局信息集，同时，从初始训练集中确定一些样本图片（例如图片k、图片q等等）的初始布局信息集，将一些图片在下轮迭代的参考布局信息集和另一些图片的初始布局信息集（注意，两种布局信息集对应的图片是不同的）进行汇总即，即可获得第三轮迭代的训练集。

由于本申请实施例的样本图片在迭代时会进行对齐，所以样本图片在每轮迭代后的位置都会发生变化，所以每轮聚类的结果也会存在变化，将同一聚类簇中的文本信息进行对齐，获得第二样本图片在下一轮迭代的参考布局信息集，这样下轮迭代使用的训练集中每个样本图片的文本信息就经过了一次对齐。

通过本申请实施例可知，迭代的轮数越多，则模型生成的布局质量也会越高，本申请实施例可以设置指定的迭代次数，当达到指定的迭代次数时，即可停止训练。

在本申请实施例中，考虑到迭代的轮数越多，布局质量越高，更有利于模型的训练，因此每轮迭代的训练集中参考布局信息集的比重与迭代次数正相关，也即，下轮迭代的训练集中参考布局信息集的比重会比本轮迭代的训练集中参考布局信息集的比重更高，而初始布局信息集的比重越来越低。

在上述各实施例的基础上，作为一种可选实施例，根据本轮迭代的训练集对本轮迭代的模型进行训练，包括：

本申请实施例的初始训练集包括至少一个样本图片的初始布局信息集，也就是说，本申请在训练得到布局生成模型时，采集的样本图片中各个文本信息的坐标是未对齐的，与实际应用的场景保持一致。

在一些实施例中，初始模型可以为transformer模型。Transformer由Encoder和Decoder两个部分组成，Encoder和Decoder都包含6个block。Transformer的工作流程如下：

第一步：获取输入句子的每一个单词的表示向量X，X由单词的Embedding（Embedding就是从原始数据提取出来的Feature）和单词位置的Embedding 相加得到。

第二步：将得到的单词表示向量矩阵(每一行是一个单词的表示x)传入Encoder中，经过6个Encoder block后可以得到句子中所有单词的编码信息矩阵C。单词向量矩阵用X_n×d表示，n是句子中单词个数，d是表示向量的维度。每一个Encoder block输出的矩阵维度与输入完全一致。

第三步：将Encoder输出的编码信息矩阵C传递到Decoder中，Decoder依次会根据当前翻译过的单词1~i翻译下一个单词i+1。在使用的过程中，翻译到单词i+1的时候需要通过Mask(掩盖)操作遮盖住i+1之后的单词。

Transformer模型中单词的输入表示x由单词Embedding和位置Embedding（Positional Encoding）相加得到。单词的Embedding有很多种方式可以获取，例如可以采用Word2Vec、Glove等算法预训练得到，也可以在Transformer中训练得到。位置Embedding表示单词出现在句子中的位置。因为Transformer不采用循环神经网络（Recurrent NeuralNetwork，RNN）的结构，而是使用全局信息，不能利用单词的顺序信息，而这部分信息对于自然语言处理来说非常重要。所以Transformer中使用位置Embedding保存单词在序列中的相对或绝对位置。位置Embedding用PE表示，PE的维度与单词Embedding是一样的。PE可以通过训练得到，也可以使用某种公式计算得到。

本申请实施例的模型训练可以采用Adaw优化器，AdamW指的是Adam+Weight Decay（权重衰减）。为了防止过拟合，在计算损失函数时需要增加L2正则项，Weight Decay即在正则项前面乘以γ（0<γ<1），用来缩放正则项产生的影响：L2正则会使得参数趋近于0，Weight Decay减轻这种趋势。AdamW将Weight Decay应用在优化算法最后一步参数更新。本申请实施例所采用的Adaw优化器其参数为alpha=0.9，beta=0.99，学习率设置为0.0003，epoch=100，E=10，一个epoch等于使用训练集中的全部样本训练一次的过程，每10个epoch进行一次采样调整。

本申请实施例关于Transformer Decoder的结构，使用了6层Transformer Block，每个Block使用了8个注意力头。隐向量的维度d=128，全连接层的维度为512。batch_size=32。对于聚类过程中类型的距离的衡量，本申请实施例设置为常量16。

在上述实施例的基础上，作为一种可选实施例，为了解决训练数据稀少以及扫描文档质量低时的结构化文档布局对齐程度差的问他，本申请实施例还进行了训练数据的增广，以提升布局生成模型的准确性。具体地，确定本轮迭代的待处理集，包括：

本申请实施例在每一轮迭代过程中训练得到下轮迭代的模型后，还可以基于该下轮迭代的模型生成一批新的参考布局信息集，具体来说，对初始训练集中的样本图片的初始布局信息的坐标进行移动，例如在不超过图片边界的情况下，将样本图片中所有文本信息的初始布局信息向四周分别移动预设单位，即可增广出4个新样本图片的初始布局信息，将增广得到的新样本图片的初始布局信息输入下轮迭代的模型，获得新样本图片在本轮迭代的参考布局信息。

请参见图7，其示例性地示出了本申请再一个实施例的一轮迭代的流程示意图，如图所示，包括：

对至少一个初始布局信息集中的各文本信息的待对齐坐标进行更新，以实现数据增广，获得至少一个新样本图片的初始布局信息集；

将至少一个新样本图片的初始布局信息集输入下轮迭代的模型，获得至少一个新样本图片在本轮迭代的参考布局信息集；新样本图片的初始布局信息集为对一个初始布局信息集中的各文本信息的待对齐坐标进行更新获得；

确定本轮迭代的待处理集，本轮迭代的待处理集包括本轮迭代的训练集中的至少一个样本图片的第一布局信息，以及至少一个新样本图片在本轮迭代的参考布局信息集，第一布局信息为初始布局信息集或者参考布局信息集；

对于待处理集中的每个样本图片，根据样本图片的第一布局信息集对样本图片的文本信息进行聚类，将同一聚类簇中的文本信息进行对齐，获得样本图片在下轮迭代的参考布局信息集；

确定下轮迭代的训练集，下轮迭代的训练集包括至少一个样本图片的初始布局信息集和至少一个样本图片在下轮迭代的参考布局信息集。

在上述各实施例的基础上，作为一种可选实施例，根据所述第二样本图片的参考布局信息集对所述第二样本图片的文本信息进行聚类，包括：

对于所述第二样本图片的任意两个文本信息，从所述两个文本信息的参考布局信息中各自确定所述两个文本信息的类型；

根据第二样本图片的两两文本信息间的第三相似度，对所述第二样本图片的文本信息进行聚类，获得至少一个聚类簇。

本申请实施例在进行聚类时，考虑两个文本信息在类型和本轮迭代的对齐坐标，共两个维度的相似度，进一步对两个维度的相似度进行加权求和，根据求和结果进行聚类，获得至少一个聚类簇。具体地，本申请实施例的布局信息表示为｛类别c、左边界坐标x _left、右边界坐标x _right、上边界坐标y _up和下边界坐标y _down｝。

对于任意两个文本信息l ₁和l ₂：

其中，d(l ₁,l ₂)表示两个文本信息的第三相似度，A表示可调节的超参数，是计算两个文本信息的类型差异以及对齐坐标差异的相对权重，d _c、d _x、d _y分别表示两个文本信息间的第一相似度、x轴坐标相似度以及y轴坐标相似度，其中x轴坐标相似度和y轴坐标相似度共同构成了本轮迭代的对齐坐标的第二相似度，表示类型的词向量。

请参见图8，其示例性地示出了本申请实施例确定任意两个文本信息的相似度的示意图，如图所示，对于每轮迭代获得的样本图片的任意两个文本信息，首先根据两个文本信息的参考布局信息确定各自的类型，然后通过预先训练的word2vec模型，获得每个类型的词向量，该词向量也即类型的语义特征表示，根据两个文本信息在本轮迭代的对齐坐标，获得第二相似度，再对第一相似度和第二相似度进行加权求和，获得两个文本信息的第三相似度。

请参见图9a，其示例性地示出了本申请实施例提供的模型训练方法的流程示意图，如图所示，包括：

S9011、确定初始训练集和初始模型，所述初始训练集包括至少一个样本图片的初始布局信息集；

S9012、根据所述初始训练集对所述初始模型进行预设轮数的迭代训练；

其中，每轮迭代的训练过程包括：

确定待处理集，所述待处理集包括至少一个第二样本图片在本轮迭代的参考布局信息集；所述至少一个第二样本图片包括从所述本轮迭代的训练集中确定的样本图片；

对于每个第二样本图片，根据所述第二样本图片的参考布局信息集对所述第二样本图片的文本信息进行聚类，将同一聚类簇中的文本信息进行对齐，获得所述第二样本图片在下轮迭代的参考布局信息集；

确定下轮迭代的训练集，所述下轮迭代的训练集包括至少一个第一样本图片的初始布局信息和至少一个第二样本图片在下轮迭代的参考布局信息集；

请参见图9b，其示例性地示出了本申请另一个实施例提供的模型训练方法的流程示意图，如图所示，包括：

S9021、确定初始模型以及至少一个样本图片；

S9022、对每个样本图片进行光学字符识别，获得所述样本图片中的至少一个字符以及每个字符的类型和待对齐坐标；

S9023、根据各字符的类型和待对齐坐标，将同一类型且距离小于预设阈值的字符汇总为一个文本信息；

S9024、对于每个文本信息，根据所述文本信息中字符的类型以及待对齐坐标，获得所述文本信息的类型和待对齐坐标；

S9025、将所述样本图片中各文本信息的类型和待对齐坐标，作为所述样本图片的初始布局信息集；

S9026、对至少一个初始布局信息集中的各文本信息的待对齐坐标进行更新，获得至少一个新样本图片的初始布局信息集；

S9027、判断是否达到迭代次数，若否，则执行S9028，若是，则执行S9037；

S9028、根据本轮迭代的训练集对本轮迭代的模型进行训练，获得下轮迭代的模型；

S9029、将所述至少一个新样本图片的初始布局信息集输入所述下轮迭代的模型，获得所述至少一个新样本图片在本轮迭代的参考布局信息集；

S9030、确定本轮迭代的待处理集，包括所述本轮迭代的训练集中的至少一个样本图片的第一布局信息以及至少一个新样本图片在本轮迭代的参考布局信息集；

S9031、对于所述样本图片的任意两个文本信息，从所述两个文本信息的参考布局信息中各自确定所述两个文本信息的类型；

S9032、确定所述两个文本信息的类型的词向量，所述类型的词向量用于表示类型的语义信息，根据所述两个文本信息的类型的词向量，获得所述两个文本信息在语义上的第一相似度；

S9033、从所述两个文本信息的参考布局信息中各自确定所述两个文本信息在本轮迭代的对齐坐标，根据所述两个文本信息在本轮迭代的对齐坐标，获得所述两个文本信息在距离上的第二相似度；

S9034、对所述两个文本信息间的第一相似度和第二相似度进行加权求和，获得所述两个文本信息间的第三相似度；

S9035、根据样本图片的两两文本信息间的第三相似度，对所述样本图片的文本信息进行聚类，获得至少一个聚类簇将同一聚类簇中的文本信息进行对齐，获得样本图片在下轮迭代的参考布局信息集；

S9036、确定下轮迭代的训练集，下轮迭代的训练集包括至少一个样本图片的初始布局信息集和至少一个样本图片在下轮迭代的参考布局信息集，返回执行步骤S9027；

S9037、将步骤S9028训练获得的模型作为布局生成模型。

请参见图10，其示例性地示出了本申请应用于虚拟现实应用场景的示意图，如图所示，该场景包括虚拟现实设备1001、虚拟现实服务器1002、布局服务器1003，虚拟显示服务器1002向虚拟现实设备1001发送初始虚拟现实视频画面，初始虚拟现实视频画面包括互动视频的至少一个待选剧情分支的选择控件，每个选择控件上包括描述待选剧情分支的文本信息，由于初始虚拟现实视频画面具有一定的曲率，因此每个选择控件上的文本信息的是倾斜显示的，所以虚拟现实设备1001将初始虚拟现实视频画面中的文本信息的坐标作为待对齐坐标，结合类别信息的类型作为初始布局信息集传输至布局服务器1003，布局服务器1003将初始布局信息集输入预先训练的布局生成模型，获得所述布局生成模型输出的已对齐布局信息集，布局服务器1003将已对齐布局信息集返回虚拟现实设备1001，虚拟现实设备根据已对齐布局信息集展示更新后的虚拟现实视频画面，更新后的虚拟显示视频画面中的控件不再成倾斜展示，方便浏览。

本申请实施例提供了一种布局信息生成装置，如图11所示，该布局信息生成装置可以包括：初始布局模块1101以及对齐布局模块1102，其中，

初始布局模块1101，用于确定目标图片的初始布局信息集，所述初始布局信息集包括相应图片中各文本信息的初始布局信息，所述初始布局信息包括相应文本信息的类型和待对齐坐标；

对齐布局模块1102，用于将所述目标图片的初始布局信息集输入预先训练的布局生成模型，获得所述布局生成模型输出的所述目标图片的已对齐布局信息集，所述已对齐布局信息集包括相应图片中各文本信息的已对齐布局信息，已对齐布局信息包括相应文本信息的类型和基于同一聚类簇的文本信息进行对齐后的对齐坐标；

本申请实施例提供了一种模型训练装置，如图12所示，该模型训练装置可以包括准备模块1201和训练模块1202，具体地：

准备模块1201，用于确定初始训练集和初始模型，所述初始训练集包括至少一个样本图片的初始布局信息集；

训练模块1202，用于根据所述初始训练集对所述初始模型进行预设轮数的迭代训练；

其中，每轮迭代的训练过程包括：

本申请实施例的装置可执行本申请实施例所提供的方法，其实现原理相类似，本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的，对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述，此处不再赘述。

本申请实施例中提供了一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行上述计算机程序以实现布局信息生成方法和/或模型训练方法的步骤，与相关技术相比可实现：通过确定目标图片的初始布局信息，初始布局信息集包括图片中各个文本信息的初始布局信息，初始布局信息包括了相应文本信息的类型以及待对齐坐标，将目标图片的初始布局信息集输入预先训练的布局生成模型，获得布局生成模型输出的已对齐布局信息集，由于布局生成模型根据至少一个样本图片的初始布局信息集和至少一轮迭代的参考布局信息集训练而成的，因此本申请实施例更贴合与实际的布局生成场景，并且生成的布局质量也更高。

在一个可选实施例中提供了一种电子设备，如图13所示，图13所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU（Central Processing Unit，中央处理器），通用处理器，DSP（Digital Signal Processor，数据信号处理器），ASIC（Application SpecificIntegrated Circuit，专用集成电路），FPGA（Field Programmable Gate Array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（ExtendedIndustry Standard Architecture，扩展工业标准结构）总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图13中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM（Read Only Memory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（Random Access Memory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器）、CD-ROM（Compact DiscRead Only Memory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质，在此不做限定。

存储器4003用于存储执行本申请实施例的计算机程序，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序，以实现前述方法实施例所示的步骤。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请实施例还提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。

应该理解的是，虽然本申请实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本申请实施例的一些实施场景中，各流程图中的实施步骤可以按照需求以其他的顺序执行。此外，各流程图中的部分或全部步骤基于实际的实施场景，可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以根据需求灵活配置，本申请实施例对此不限制。

以上所述仅是本申请部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的方案技术构思的前提下，采用基于本申请技术思想的其他类似实施手段，同样属于本申请实施例的保护范畴。

Claims

1.一种布局信息生成方法，其特征在于，包括：

其中，所述布局生成模型是根据至少一个样本图片的初始布局信息集和至少一轮迭代的参考布局信息集训练而成的，每个参考布局信息集包括相应样本图片中各文本信息的参考布局信息，所述参考布局信息为相应文本信息的类型以及基于同一聚类簇的文本信息进行相应轮对齐后的对齐坐标；

2.根据权利要求1所述的布局信息生成方法，其特征在于，所述布局生成模型的训练方法包括：

其中，每轮迭代的训练过程包括：

3.根据权利要求2所述的方法，其特征在于，所述根据本轮迭代的训练集对本轮迭代的模型进行训练，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述确定本轮迭代的待处理集，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据所述样本图片的参考布局信息集对所述样本图片的文本信息进行聚类，包括：

6.根据权利要求2所述的方法，其特征在于，每轮迭代的训练集中参考布局信息集的比重与迭代次数正相关。

7.根据权利要求2所述的方法，其特征在于，所述确定初始训练集，包括：

获得至少一个样本图片；

8.一种模型训练方法，其特征在于，包括：

确定初始训练集和初始模型，所述初始训练集包括至少一个样本图片的初始布局信息集；所述初始布局信息集包括相应图片中各文本信息的初始布局信息，所述初始布局信息包括相应文本信息的类型和待对齐坐标；

其中，每轮迭代的训练过程包括：

首轮迭代的训练集为所述初始训练集，迭代模型为所述初始模型；布局生成模型为最后一轮迭代训练获得的模型。

9.一种布局信息生成装置，其特征在于，包括：

10.一种模型训练装置，其特征在于，包括：

准备模块，用于确定初始训练集和初始模型，所述初始训练集包括至少一个样本图片的初始布局信息集；所述初始布局信息集包括相应图片中各文本信息的初始布局信息，所述初始布局信息包括相应文本信息的类型和待对齐坐标；

其中，每轮迭代的训练过程包括：

11.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-7任一项所述的布局信息生成方法或者权利要求8所述的模型训练方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的布局信息生成方法或者权利要求8所述的模型训练方法的步骤。