CN116844168A

CN116844168A - 确定文本的方法、深度学习模型的训练方法和装置

Info

Publication number: CN116844168A
Application number: CN202310796813.5A
Authority: CN
Inventors: 李泊翰; 吴亮; 吕鹏原; 章成全; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-06-30
Filing date: 2023-06-30
Publication date: 2023-10-03

Abstract

本公开提供了一种确定文本的方法，涉及人工智能技术领域，尤其涉及计算机视觉、图像处理、深度学习等技术领域。具体实现方案为：从目标文档图像中确定包含文本段的至少一个图像块；响应于接收输入文本，计算输入文本与每个图像块之间的相似度；以及根据相似度，从至少一个图像块中确定目标图像块包含的文本段为与输入文本对应的目标文本。本公开还提供了一种深度学习模型的训练方法、装置、电子设备和存储介质。

Description

确定文本的方法、深度学习模型的训练方法和装置

技术领域

本公开涉及人工智能技术领域，尤其涉及计算机视觉、图像处理、深度学习等技术领域，可应用于智慧政务等场景。更具体地，本公开提供了一种确定文本的方法、深度学习模型的训练方法、装置、电子设备和存储介质。

背景技术

文档智能化是指从文档图像中识别出文本内容，再从识别出的文本内容中提取出用户需要的关键信息。然而，不同类型的文档，用户需要的关键信息不同，且即使同一类型的文档，用户的需求也会发生变化。

发明内容

本公开提供了一种确定文本的方法、深度学习模型的训练方法、装置、设备以及存储介质。

根据第一方面，提供了一种确定文本的方法，该方法包括：从目标文档图像中确定包含文本段的至少一个图像块；响应于接收输入文本，计算输入文本与每个图像块之间的相似度；以及根据相似度，从至少一个图像块中确定目标图像块包含的文本段为与输入文本对应的目标文本。

根据第二方面，提供了一种深度学习模型的训练方法，该方法包括：从样本文档图像中确定包含文本段的多个图像块；针对每个图像块，计算图像块与样本文本之间的相似度，其中，样本文本标注有标签文本段；根据相似度以及标签文本段，确定深度学习模型的损失；以及根据损失，调整深度学习模型的参数。

根据第三方面，提供了一种确定文本的装置，该装置包括：第一图像块确定模块，用于从目标文档图像中确定包含文本段的至少一个图像块；第一相似度计算模块，用于响应于接收输入文本，计算输入文本与每个图像块之间的相似度；以及目标文本确定模块，用于根据相似度，从至少一个图像块中确定目标图像块包含的文本段为与输入文本对应的目标文本。

根据第四方面，提供了一种深度学习模型的训练装置，该装置包括：第二图像块确定模块，用于从样本文档图像中确定包含文本段的多个图像块；第二相似度计算模块，用于针对每个图像块，计算图像块与样本文本之间的相似度，其中，样本文本标注有标签文本段；损失确定模块，用于根据相似度以及标签文本段，确定深度学习模型的损失；以及调整模块，用于根据损失，调整深度学习模型的参数。

根据第五方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开提供的方法。

根据第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行根据本公开提供的方法。

根据第七方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序存储于可读存储介质和电子设备其中至少之一上，所述计算机程序在被处理器执行时实现根据本公开提供的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开的一个实施例的可以应用确定文本的方法以及深度学习模型的训练方法的示例性系统架构示意图；

图2是根据本公开的一个实施例的确定文本的方法的流程图；

图3是根据本公开的一个实施例的确定文本的方法的示意图；

图4是根据本公开的一个实施例的确定文本的方法的示意图；

图5是根据本公开的一个实施例的深度学习模型的训练方法的流程图；

图6是根据本公开的一个实施例的确定文本的装置示意图；

图7是根据本公开的一个实施例的深度学习模型的训练装置示意图；

图8是根据本公开的一个实施例的确定文本的方法以及深度学习模型的训练方法中的至少之一的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

文档智能化在教育领域、政务领域、办公领域以及图书馆档案管理等领域都有广泛需求。现有的文档识别系统(例如基于OCR的文档识别系统)能较好地识别出图像中的文本，但是在针对识别出的文本内容进行关键信息抽取这一方面做得不够好。这是由于文档可以包含收据、合同、简历、信件、报告等多种类型，对于每一个类型的文档，用户需要的关键信息可能有很大差别。即使对于同一个类型的文档，用户在当下需要的关键信息也可能发生变化。

相关技术中的关键信息抽取方法可以包括以下几种。

一种关键信息抽取方法，包括OCR(Optical Character Recognition，光学字符识别)处理和NLP(Natural Language Processing，自然语言处理)的两个阶段。可以先使用一个训练好的OCR引擎获得图像中的文本内容，然后将文本内容序列化为文本序列输入NLP模型，进行信息抽取。这种两阶段的方法没有将文本的检测识别与信息抽取端到端地结合起来，且十分依赖OCR检测识别结果的准确性。

一种关键信息抽取方法，是将文本的检测识别与文本的分类结合起来的端到端的方法。该方法是根据文本的分类属性进行信息抽取的，例如对识别出的每一个文本进行分类，将属于预设类别的文本返回给用户。该方法需要预先定义好所需要的文本的类别，用户使用时也只能抽取预先定义好的类别的文本内容，例如预设类别包括姓名、年龄、性别，通过该方法可以抽取出姓名、年龄、性别的文本，但是如果需要抽取其他类别的文本(例如地址等)，则无法实现。因此，该方法难以满足各类场景下多样化的用户需求。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序艮俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

图1是根据本公开一个实施例的可以应用确定文本的方法和深度学习模型的训练方法的示例性系统架构示意图。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用终端设备101、102、103通过网络104与服务器105进行交互，以接收或发送消息等。终端设备101、1 02、103可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机等等。

本公开实施例所提供的确定文本的方法一般可以由终端设备101、102、103执行。相应地，本公开实施例所提供的确定文本装置一般可以设置于终端设备101、102、103中。

本公开实施例所提供的深度学习模型的训练方法一般可以由服务器105执行。相应地，本公开实施例所提供的深度学习模型的训练装置一般可以设置于服务器105中。

图2是根据本公开的一个实施例的确定文本的方法的流程图。

如图2所示，该确定文本的方法200包括操作S210～操作S230。

在操作S210，从目标文档图像中确定包含文本段的至少一个图像块。

目标文档可以是需要进行关键信息抽取的文档，可以包括收据、合同、简历、信件、报告等。

通过文本检测可以从目标文档图像中检测出至少一个图像块。每个图像块包含一个文本段。文本检测可以采用文本检测模型来实现。例如EAST模型(Efficient andAccurate Scene Text Detector)是一种基于像素点的场景文字检测算法训练得到的模型，能检测任意角度的文字，得到图像中文本段的包围框。根据目标图像中每个文本段的包围框，可以裁减得到每个文本段的图像块。

在操作S220，响应于接收输入文本，计算输入文本与每个图像块之间的相似度。

例如，输入文本可以是用户输入的需求描述信息，即用户所需要的关键信息的描述信息。根据不同场景，需求描述信息可以是多样的。需求描述信息包括主题信息、属性信息和关键字中的至少之一。

例如，目标文档是车票，描述信息可以包括车票的入口、出口、车次等主题信息。目标文本为简历，描述信息可以包括姓名、年龄、性别、地址等主题信息。

例如，目标文档为物品清单，描述信息可以包括形状、颜色、尺寸等属性信息。

例如，目标文档为工作报告，用户需求是提取工作报告中与“XX项目”相关的关键信息，那么描述信息可以是关键字“XX项目”。

响应于接收用户输入的描述信息，可以确定描述信息的文本特征。针对检测出的每个图像块，确定该图像块的图像特征，计算文本特征与该图像块的图像特征之间的相似度，作为输入文本与图像块之间的相似度。

在操作S23O，根据相似度，从至少一个图像块中确定目标图像块包含的文本段为与输入文本对应的目标文本。

例如，可以将与输入文本之间的相似度最大的图像块确定为目标图像块，该目标图像块中的文本段内容即为与用户需求匹配的关键信息。因此，可以通过OCR识别、基于深度学习的文本识别等方法来识别出该目标图像块中的文本段内容，作为目标文本。将目标文本返回给用户，使用户得到所需要的关键信息。

本公开的实施例从目标文档图像中确定包含文本段的至少一个图像块，利用用户的输入信息与图像块之间的相似度，确定与输入信息匹配目标图像块，从目标图像块中提取出目标文本即为用户需要的关键信息。因此，本实施例能够利用用户的输入信息从图像中抽取用户所需要的关键信息，从而可以适用于各种使用场景，使得在各种场景下均可以提取出用户想要的任何类型的关键信息，灵活性强，应用范围广。

图3是根据本公开的一个实施例的确定文本的方法的示意图。

如图3所示，本实施例包括文本检测模块310、图像特征提取模块320、文本识别模块330、文本特征提取模块340以及文本匹配模块350。

目标文档图像301可以是待提取关键信息的目标文档的图像。

文本检测模块310可以包括EAST模型，EAST模型可以包括特征提取层、特征融合层和输出层三部分。对于目标文档图像301，可以是宽和高分别为W和H的三通道图像。特征提取层可以采用ResNet-50网络，例如，将目标文档图像输入特征提取层，特征提取层先采用64个核为7，步长为2的卷积层对输入图像进行卷积，输出宽和高分别为W/2和H/2的具有64通道的特征图。接着该特征图会被输入到核为3，步长为2的最大池化层进一步进行下采样，输出特征图的宽和高此时已分别降到了W/4和H/4。接着特征图被输入到一系列残差网络中，输出宽和高分别为W/32和H/32的特征图。

由于不同分辨率的特征图包含有不同层级的特征，特征融合层对各个特征图进行融合，例如，将W/2H/2、W/4和H/4、W/32和H/32等各个尺寸的特征图进行融合，最终输出的特征图宽和高可以分别为W/4和H/4。

输出层将特征图转换为得分图和坐标图，得分图代表着分类的结果。得分图中得分为1的区域表示该区域为文本区域，得分为0的区域表示该区域为非文本区域，得分为1的区域为记为ROI(Region Of Interest，感兴趣区域)。坐标图代表着检测的结果，坐标图与得分图相结合，对于坐标图中每一个ROI，该ROI中的每一个像素点的值分别是该像素点到包围框的四角点距离。也就是说，ROI内每个像素点的值均可以确定该ROI的包围框，即文本检测框。

文本检测模块310可以从目标文档图像301中检测出多个文本检测框，每个文本检测框包含一个文本段。对目标文档图像301按照检测框进行裁剪，可以得到多个图像块，每个图像块可以包含一个文本段。

图像特征提取模块320用于通过卷积和采样操作，对每个图像块进行特征提取和尺寸变换。例如，每个图像块输入图像特征提取模块320，得到尺寸为7*32，通道数为128的特征图，再通过卷积和下采样操作，将特征图的尺寸转换为1*15，保持通道数128不变，从而每个图像块可以处理为1*15*128的图像特征。多个图像块输入图像特征提取模块320，可以得到多个尺寸为1*15*128的图像特征。

文本识别模块330可以采用CRNN网络(Convolutional Recurrent NeuralNetwork，卷积循环神经网络)，包括双向LSTM(Long Short Term Memory Networks，长短记忆神经网络)子网络和分类子网络。文本识别模块330的输入为图像特征提取模块320输出的多个尺寸为1*15*128的图像特征。每个尺寸为1*15*128的图像特征输入双向LSTM子网络，双向LSTM子网络对特征进行处理，得到经处理的图像特征，该经处理的图像特征的尺寸也为1*15*128。接下来，再将LSTM子网络输出的图像特征输入分类子网络，分类子网络通过全连接操作对每个图像特征进行分类，得到图像块的文本识别结果。

每个尺寸为1*15*128的图像特征输入文本识别模块330，可以得到对应的图像块的文本识别结果。多个尺寸为1*15*128的图像特征可以得到多个图像块各自的文本识别结果。每个图像块的文本识别结果为图像块中的文本段内容。因此，通过文本识别模块330可以得到目标文档图像301中多个图像块各自的文本段内容，多个图像块各自的文本段内容组成目标文档图像301的文本段内容集合331。可以保存该文本段内容集合331，作为整个目标文档图像301的文本识别结果。

输入文本302可以为用户需要的关键信息的描述信息，例如主题、属性、关键字等。文本特征提取模块340可以包括预训练的自然语言处理模型。将输入文本302输入文本特征提取模块340，可以得到文本特征。该文本特征可以是尺寸为1*1920的一维文本特征。

文本匹配模块350的输入包括图像特征提取模块320输出的图像特征以及文本特征提取模块340输出的文本特征。图像特征提取模块320输出尺寸为1*15*128的图像特征，文本匹配模块350将尺寸为1*15*128的图像特征转换为1*1920的一维图像特征。因此，文本匹配模块350的输入包括1*1920的一维文本特征以及1*1920的多个一维图像特征。一维文本特征和一维图像特征均可以看作高维空间向量。

文本匹配模块350计算文本特征向量与每个图像特征向量之间的相似度。例如，针对每个图像块的图像特征向量，文本匹配模块350将图像特征向量和文本特征向量分别进行归一化后再点乘，得到两个特征向量的夹角的余弦值，该余弦值可以作为输入文本和图像块的相似度。相似度的取值范围为[-1，1]，为1则表示两个向量在高维空间是同向的，即输入文本和图像块相匹配。因此，可以将与输入文本之间的相似度最大的图像块确定为目标图像块351。该目标图像块351中的文本段内容即为用户需要的关键信息。

由于通过文本识别模块330已经识别出目标文档图像301中每个图像块的文本段内容，得到目标文档图像301的文本段内容集合331，因此，可以直接从文本段内容集合331中确定目标图像块351的文本段内容作为目标文本，该目标文本即为用户需要的关键信息。

本实施例通过检测目标文档图像中的图像块，识别图像块中的文本段内容，将每个图像块的文本段内容组成目标文档图像的文本段内容集合，计算输入文本与图像块之间的相似度，根据相似度确定目标图像块，从文本段内容集合中确定目标图像块的文本段内容作为关键信息，能够获得整个目标文档的文本识别结果以及用户需要的关键信息，满足用户多样性的文本获取需求。

图4是根据本公开的一个实施例的确定文本的方法的示意图。

如图4所示，本实施例包括文本检测模块401、文本识别模块402和文本匹配模块403。

目标文档图像410例如是某高速公路收费票据，包括入口、出口、车型、金额等主题信息。将目标文档图像410输入文本检测模块401，得到经检测的目标文档图像420，该经检测的目标文档图像420包括多个包含文本段的图像块，例如图像块421和图像块422。图像块421包含文本段“A站”，图像块422包含文本段“B站”。需要说明的是，经检测的目标文档图像420还可以包括更多的图像块，例如包含“XX车型”的图像块、包含“XX元”的图像块，等等。

将经检测的目标文档图像420中所有图像块输入文本匹配模型403，文本匹配模型403的输入还包括用户输入的描述信息，该描述信息例如包括“入口”和“出口”。文本匹配模型403计算描述信息“入口”与每个图像块之间的相似度，将相似度最高的图像块(例如图像块421)确定为与“入口”匹配的图像块。文本匹配模型403计算描述信息“出口”与每个图像块之间的相似度，将相似度最高的图像块(例如图像块422)确定为与“出口”匹配的图像块。

将与“入口”匹配的图像块421以及与“出口”匹配的图像块422输入文本识别模型402，文本识别模型识别出图像块421的文本段内容“A站”，以及图像块422的文本段内容“B站”。“A站”即为用户需要的入口信息，“B站”即为用户需要的出口信息。

本实施例能够满足各类场景下多样化的用户需求，灵活强，应用范围广。

图5是根据本公开的一个实施例的深度学习模型的训练方法的流程图。

如图5所示，该深度学习模型的训练方法500包括操作S510～S540。

在操作S5 1 0，从样本文档图像中确定包含文本段的多个图像块。

样本文本可以包括收据、合同、简历、信件、报告等各种类型的文档。可以利用EAST模型从样本文档中检测出多个图像块，每个图像块包含文本段。

在操作S520，针对每个图像块，计算图像块与样本文本之间的相似度。

样本文本可以是用户输入的所需关键信息的描述信息，例如主题信息、属性信息、关键字等。

确定每个图像块的图像特征，并确定样本文本的文本特征。针对每个图像块，计算该图像块的图像特征与文本特征之间的相似度，作为该图像块与文本段之间的相似度。

在操作S530，根据相似度以及标签文本段，确定深度学习模型的损失。

在操作S540，根据损失，调整深度学习模型的参数。

样本文本可以设置有标签文本段，该标签文本段表示用户实际需要的样本文档中的文本段。根据该标签，可以从多个图像块中确定与该标签文本段对应目标图像块。即该目标图像块与样本文本对应。

目标图像块与样本文本对应，可以将目标图像块与样本文本之间的相似度约束为1，将除目标图像块以外的每个剩余图像块与样本文本之间的相似度均约束为0。针对每个图像块，根据深度学习模型输出的样本文本与该图像块之间的相似度以及预先约束的相似度(0或1)之间的差异，可以确定该图像块的损失。

根据多个图像块的损失可以确定整体损失。利用整体损失，可以调整深度学习模型的参数，得到经训练的深度学习模型。

本实施例从样本文档中检测出多个图像块，计算样本文本与每个图像块之间的相似度，以相似度为约束进行模型训练，由于样本文本表征用户需求信息，因此，能够使得模型具备将用户需求信息与文档中图像块进行匹配的能力，进而响应于用户的需求描述信息，便可以从文档图像中确定用户所需要的关键信息，能够适用于各种使用场景，使得在各种场景下均可以提取出用户想要的任何类型的关键信息，灵活性强，应用范围广。

根据本公开实施例，操作S530包括根据标签文本段，从多个图像块中确定与样本文本对应的目标图像块；根据样本文本与目标图像块之间的相似度，确定正样本损失；根据输入文本与多个图像块中除目标图像块之外的剩余图像块之间的相似度，确定负样本损失；以及根据正样本损失和负样本损失，确定深度学习模型的损失。

在模型训练的时候，将与样本文本对应的目标图像块确定为正样本图像块，将除目标图像块以外的剩余图像块确定为负样本图像块，将样本文本与正样本图像块之间的相似度约束为1，将样本文本与负样本图像块之间的相似度约束为0进行训练，可以使模型具备将样本文本与图像块进行匹配的能力。

经训练的深度学习模型输出的相似度表征输入文本与输入图像块之间的匹配程度。如果输入文本与输入图像块匹配，样本文本与图像块之间的相似度越接近于1。反之，如果输入文本与输入图像块不匹配，输入文本与输入图像块之间的相似度越接近于0。

经训练的深度学习模型在使用时，接收输入文本的文本特征以及目标文档图像的多个图像块各自的图像特征，计算文本特征与每个图像特征之间的相似度，将与输入文本的相似度最大的图像块确定为包含用户所需关键信息的目标图像块，例如各个图像块与输入文本之间的相似度分别为0.1、0.2、0.9、0.5，其中，0.9为最大值，则可以将相似度为0.9的图像块确定为目标图像块。接下来，将该目标图像块的文本段内容确定为关键信息。

图6是根据本公开的一个实施例的确定文本的装置示意图。

如图6所示，确定文本的装置600包括第一图像块确定模块601、第一相似度计算模块602以及目标文本确定模块603。

第一图像块确定模块601用于从目标文档图像中确定包含文本段的至少一个图像块。

第一相似度计算模块602用于响应于接收输入文本，计算输入文本与每个图像块之间的相似度。

目标文本确定模块603用于根据相似度，从至少一个图像块中确定目标图像块包含的文本段为与输入文本对应的目标文本。

第一相似度计算模块602包括文本特征确定单元和相似度计算单元。

文本特征确定单元用于响应于接收输入文本，确定输入文本的文本特征。

相似度计算单元用于针对每个图像块，确定图像块的图像特征，并计算文本特征与图像特征之间的相似度，作为输入文本与图像块之间的相似度。

确定文本的装置600还包括文本识别模块和文本识别结果确定模块。

文本识别模块，用于针对每个图像块，根据图像块的图像特征，确定图像块的文本段内容；以及

文本识别结果确定模块，用于根据至少一个图像块各自的文本段内容，确定目标文档的文本段内容集合。

目标文本确定模块603包括第一目标图像块确定单元以及目标文本确定单元。

第一目标图像块确定单元用于从至少一个图像块中，确定与输入文本之间的相似度最大的图像块为目标图像块。

目标文本确定单元用于从文本段内容集合中，确定目标图像块的文本段内容为目标文本。

目标文本确定模块603包括第二目标图像块确定单元和文本识别单元。

第二目标图像块确定单元用于从至少一个图像块中，确定与输入文本之间的相似度最大的图像块为目标图像块。

文本识别单元用于从文本段内容集合中，确定目标图像块的文本段内容为目标文本。

根据本公开的实施例，输入文本包括需求描述信息，需求描述信息包括主题信息、属性信息和关键字的至少之一。

图7是根据本公开的一个实施例的深度学习模型的训练装置示意图。

如图7所示，深度学习模型的训练装置700包括第二图像块确定模块701、第二相似度计算模块702、损失确定模块703以及调整模块704。

第二图像块确定模块701用于从样本文档图像中确定包含文本段的多个图像块。

第二相似度计算模块702用于针对每个图像块，计算图像块与样本文本之间的相似度，其中，样本文本标注有标签文本段。

损失确定模块703用于根据相似度以及标签文本段，确定深度学习模型的损失。

调整模块704用于根据损失，调整深度学习模型的参数。

损失确定模块703包括第三目标图像块确定单元、正样本损失确定单元、负样本损失确定单元以及整体损失确定单元。

第三目标图像块确定单元用于根据标签文本段，从多个图像块中确定与样本文本对应的目标图像块。

正样本损失确定单元用于根据样本文本与目标图像块之间的相似度，确定正样本损失。

负样本损失确定单元用于根据输入文本与多个图像块中除目标图像块之外的剩余图像块之间的相似度，确定负样本损失。

整体损失确定单元用于根据正样本损失和负样本损失，确定深度学习模型的损失。

根据本公开的实施例，样本文本包括需求描述信息，样本需求描述信息包括主题信息、属性信息和关键字的至少之一。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如确定文本的方法以及深度学习模型的训练方法中的至少之一。例如，在一些实施例中，确定文本的方法以及深度学习模型的训练方法中的至少之一可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的确定文本的方法以及深度学习模型的训练方法中的至少之一的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行确定文本的方法以及深度学习模型的训练方法中的至少之一。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种确定文本的方法，包括：

从目标文档图像中确定包含文本段的至少一个图像块；

响应于接收输入文本，计算所述输入文本与每个所述图像块之间的相似度；以及

根据所述相似度，从所述至少一个图像块中确定目标图像块包含的文本段为与所述输入文本对应的目标文本。

2.根据权利要求1所述的方法，其中，所述响应于接收输入文本，计算所述输入文本与每个所述图像块之间的相似度包括：

响应于接收输入文本，确定所述输入文本的文本特征；以及

针对每个图像块，确定所述图像块的图像特征，并计算所述文本特征与所述图像特征之间的相似度，作为所述输入文本与所述图像块之间的相似度。

3.根据权利要求1或2所述的方法，还包括：

针对每个图像块，根据所述图像块的图像特征，确定所述图像块的文本段内容；以及

根据所述至少一个图像块各自的文本段内容，确定所述目标文档的文本段内容集合。

4.根据权利要求3所述的方法，其中，所述根据所述相似度，从所述至少一个图像块中确定目标图像块包含的文本段为与所述输入文本对应的目标文本包括：

从所述至少一个图像块中，确定与所述输入文本之间的相似度最大的图像块为所述目标图像块；以及

从所述文本段内容集合中，确定所述目标图像块的文本段内容为所述目标文本。

5.根据权利要求1或2所述的方法，其中，所述根据所述相似度，从所述至少一个图像块中确定目标图像块包含的文本段为与所述输入文本对应的目标文本包括：

根据所述目标图像块的图像特征，确定所述目标图像块的文本段内容，作为所述目标文本。

6.根据权利要求1至5中任一项所述的方法，其中，所述输入文本包括需求描述信息，所述需求描述信息包括主题信息、属性信息和关键字的至少之一。

7.一种深度学习模型的训练方法，包括：

从样本文档图像中确定包含文本段的多个图像块；

针对每个图像块，计算所述图像块与样本文本之间的相似度，其中，所述样本文本标注有标签文本段；

根据所述相似度以及所述标签文本段，确定所述深度学习模型的损失；以及

根据所述损失，调整所述深度学习模型的参数。

8.根据权利要求7所述的方法，其中，所述根据所述相似度以及所述标签文本段，确定所述深度学习模型的损失包括：

根据所述标签文本段，从所述多个图像块中确定与所述样本文本对应的目标图像块；

根据所述样本文本与所述目标图像块之间的相似度，确定正样本损失；

根据所述输入文本与所述多个图像块中除所述目标图像块之外的剩余图像块之间的相似度，确定负样本损失；以及

根据所述正样本损失和所述负样本损失，确定所述深度学习模型的损失。

9.根据权利要求7或8所述的方法，其中，所述样本文本包括需求描述信息，所述样本需求描述信息包括主题信息、属性信息和关键字的至少之一。

10.一种确定文本的装置，包括：

第一图像块确定模块，用于从目标文档图像中确定包含文本段的至少一个图像块；

第一相似度计算模块，用于响应于接收输入文本，计算所述输入文本与每个所述图像块之间的相似度；以及

目标文本确定模块，用于根据所述相似度，从所述至少一个图像块中确定目标图像块包含的文本段为与所述输入文本对应的目标文本。

11.根据权利要求10所述的装置，其中，所述第一相似度计算模块包括：

文本特征确定单元，用于响应于接收输入文本，确定所述输入文本的文本特征；以及

相似度计算单元，用于针对每个图像块，确定所述图像块的图像特征，并计算所述文本特征与所述图像特征之间的相似度，作为所述输入文本与所述图像块之间的相似度。

12.根据权利要求10或11所述的装置，还包括：

文本识别模块，用于针对每个图像块，根据所述图像块的图像特征，确定所述图像块的文本段内容；以及

文本识别结果确定模块，用于根据所述至少一个图像块各自的文本段内容，确定所述目标文档的文本段内容集合。

13.根据权利要求12所述的装置，其中，所述目标文本确定模块包括：

第一目标图像块确定单元，用于从所述至少一个图像块中，确定与所述输入文本之间的相似度最大的图像块为所述目标图像块；以及

目标文本确定单元，用于从所述文本段内容集合中，确定所述目标图像块的文本段内容为所述目标文本。

14.根据权利要求10或11所述的装置，其中，所述目标文本确定模块包括：

第二目标图像块确定单元，用于从所述至少一个图像块中，确定与所述输入文本之间的相似度最大的图像块为所述目标图像块；以及

文本识别单元，用于从所述文本段内容集合中，确定所述目标图像块的文本段内容为所述目标文本。

15.根据权利要求10至14中任一项所述的方法，其中，所述输入文本包括需求描述信息，所述需求描述信息包括主题信息、属性信息和关键字的至少之一。

16.一种深度学习模型的训练装置，包括：

第二图像块确定模块，用于从样本文档图像中确定包含文本段的多个图像块；

第二相似度计算模块，用于针对每个图像块，计算所述图像块与样本文本之间的相似度，其中，所述样本文本标注有标签文本段；

损失确定模块，用于根据所述相似度以及所述标签文本段，确定所述深度学习模型的损失；以及

调整模块，用于根据所述损失，调整所述深度学习模型的参数。

17.根据权利要求16所述的装置，其中，所述损失确定模块包括：

第三目标图像块确定单元，用于根据所述标签文本段，从所述多个图像块中确定与所述样本文本对应的目标图像块；

正样本损失确定单元，用于根据所述样本文本与所述目标图像块之间的相似度，确定正样本损失；

负样本损失确定单元，用于根据所述输入文本与所述多个图像块中除所述目标图像块之外的剩余图像块之间的相似度，确定负样本损失；以及

整体损失确定单元，用于根据所述正样本损失和所述负样本损失，确定所述深度学习模型的损失。

18.根据权利要求16或17所述的装置，其中，所述样本文本包括需求描述信息，所述样本需求描述信息包括主题信息、属性信息和关键字的至少之一。

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至9中任一项所述的方法。

21.一种计算机程序产品，包括计算机程序，所述计算机程序存储于可读存储介质和电子设备其中至少之一上，所述计算机程序在被处理器执行时实现根据权利要求1至9中任一项所述的方法。