CN114419640B

CN114419640B - 文本处理方法、装置、电子设备及存储介质

Info

Publication number: CN114419640B
Application number: CN202210183469.8A
Authority: CN
Inventors: 向宇波; 王佳阳; 何烩烩; 沈俊宇; 苏崔聪; 张红光
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-02-25
Filing date: 2022-02-25
Publication date: 2023-08-11
Anticipated expiration: 2042-02-25
Also published as: EP4290482A1; US20230281380A1; CN114419640A

Abstract

本公开提供了一种文本处理方法、装置、电子设备及存储介质，涉及图像处理技术领域，尤其涉及计算机视觉领域。具体实现方案为：确定待处理文本图像包括的多个字段与多个预定字段名彼此之间的相似度；将多个字段中相似度大于相似度阈值的字段，确定为目标字段名；从多个字段中除目标字段名之外的M个剩余字段中，确定与目标字段名相对应的目标字段值，M≥1；以及输出目标字段名与目标字段值之间的对应关系。

Description

文本处理方法、装置、电子设备及存储介质

技术领域

本公开涉及图像处理技术领域，尤其涉及计算机视觉领域，更具体地，本公开提供了一种文本处理方法、装置、电子设备、存储介质以及计算机程序产品。

背景技术

金融、零售等行业会使用大量票据，一些数票据存在内容相似，但版面不同的情况。例如金融行业使用的银行回单，不同银行回单里包括相同字段，多种银行回单中包括“付款人”、“收款人”、“账户”等字段，但不同银行的银行回单各不相同，有时同一家银行在不同地区的多个分行所使用的银行回单也不相同。为了知晓票据涉及的业务信息，需要将大量票据中的内容进行汇总。

发明内容

本公开提供了一种文本处理方法、装置、电子设备、存储介质以及计算机程序产品。

根据本公开的一方面，提供了一种文本处理方法，包括确定待处理文本图像包括的多个字段与多个预定字段名彼此之间的相似度；将所述多个字段中相似度大于相似度阈值的字段，确定为目标字段名；从所述多个字段中除所述目标字段名之外的M个剩余字段中，确定与所述目标字段名相对应的目标字段值，其中，M≥1；以及输出所述目标字段名与所述目标字段值之间的对应关系。

根据本公开的另一方面，提供了一种文本处理装置，包括相似度确定模块、第一目标字段名确定模块、目标字段值确定模块以及输出模块。相似度确定模块用于确定待处理文本图像包括的多个字段与多个预定字段名彼此之间的相似度。第一目标字段名确定模块用于将所述多个字段中相似度大于相似度阈值的字段，确定为目标字段名。目标字段值确定模块用于从所述多个字段中除所述目标字段名之外的M个剩余字段中，确定与所述目标字段名相对应的目标字段值，其中，M≥1。输出模块用于输出所述目标字段名与所述目标字段值之间的对应关系。

根据本公开的另一个方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的方法。

根据本公开的另一个方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的方法。

根据本公开的另一个方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开提供的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的文本处理方法和装置的应用场景示意图；

图2A是根据本公开实施例的文本处理方法的示意流程图；

图2B是根据本公开实施例的待处理文本图像的示意图；

图2C是根据本公开实施例的第一种分组方案涉及的总距离的示意图；

图2D是根据本公开实施例的第二种分组方案涉及的总距离的示意图；

图3是根据本公开另一实施例的文本处理方法的示意流程图。

图4A是根据本公开实施例的文本处理方法的示意原理图；

图4B是根据本公开实施例的待处理文本图像的示意图；

图5是根据本公开实施例的文本处理装置的示意结构框图；以及

图6是用来实施本公开实施例的文本处理方法的电子设备的结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

对图像进行文字识别，可以将图像中的待处理文本按照从上到下和从左到右的方式逐行返回，但是返回结果缺少结构信息，结构信息表示文本中涉及的字段和字段值的对应关系。

例如，识别一张进货单，返回结果中包括“产品名称”、“产品单价”、“产品数量”、“1000”、“3”等字段，但是无法根据返回结果确定“1000”和“3”两个数值中，哪一个是“产品单价”，哪一个是“产品数量”。

例如，识别一张银行票据，返回结果中包括付款人、付款人的具体姓名、账户、账户具体内容、开户行、开户行具体内容，但是无法确定各个字段之间的对应关系。

例如，识别一张火车票，返回结果中，始发站、车次、到达站由于处于同一行，且在图像中的距离较近，因此始发站、车次、到达站容易被识别为一个字段。

如果返回结构中包括结构信息，能够方便下游任务使用，例如根据产品单价和产品数量，计算产品总额。

在一种技术方案中，可以预先设置模板。在使用时，要求单据中的信息按照模板的格式来填写，从而在识别模板中的内容之后，可以根据模板的格式来确定结构信息。但是上述技术方案要求票据格式与模板格式完全相同，否则会出现识别失败的情况。此外，对于二次打印的票据，因为票据底版的内容与打印的内容会出现位置偏差，例如二次打印的内容相对于票据底版整体向上偏移，会对上述方案造成干扰，影响识别结果的准确性。

图1是根据本公开实施例的文本处理方法和装置的应用场景示意图。

需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据待处理文本图像生成的目标字段名、目标字段值以及对应关系等)反馈给终端设备。

需要说明的是，本公开实施例所提供的文本处理方法一般可以由服务器105执行。相应地，本公开实施例所提供的文本处理装置一般可以设置于服务器105中。本公开实施例所提供的文本处理方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的文本处理装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2A是根据本公开实施例的文本处理方法的示意流程图。

如图2A所示，该文本处理方法200可以包括操作S210～操作S240。

在操作S210，确定待处理文本图像包括的多个字段与多个预定字段名彼此之间的相似度。

待处理文本图像可以是银行票据、进货单等文档的图像。可以对待处理文本图像进行识别，得到多个字段。

如图2B所示，待处理文本图像中的一部分字段称为字段名，例如“姓名”、“账号”、“开户行”、“金额”等。预定字段名可以根据业务需求预先设置。例如，对于待处理文本是银行转账汇款单的情况，预定字段名可以包括“账号”、“金额”、“开户行”等。对于待处理文本是进货单的情况，预定字段名可以包括“产品名称”、“产品单价”、“产品数量”等。

如图2B所示，待处理文本图像中的另一部分字段称为字段值。字段值可以表示字段名的具体内容，例如与“金额”相对应的字段值可以是“1000元”，也可以是“壹仟元”，与“姓名”相对应的字段值可以是“张三”。字段值也可以与字段名无关，例如待处理文本是银行票据的情况，银行票据可以具有抬头，如“XX银行单位客户专用回单”，抬头是一种与字段名无关的字段值。

可以通过语言模型来确定待处理文本图像包括的字段与预定字段名之间的相似度，例如，将待处理文本图像包括的字段和预定字段输入语言模型，语言模型分别提取字段和预定字段的特征，得到两个特征，然后根据两个特征计算相似度。语言模型可以是ERNIE(Enhanced Representation through Knowledge Integration)。

在操作S220，将多个字段中相似度大于相似度阈值的字段，确定为目标字段名。

相似度大于相似度阈值，表示字段与预先设置的预定字段名相同或相近。

在操作S230，从多个字段中除目标字段名之外的M个剩余字段中，确定与目标字段名相对应的目标字段值，M≥1。

在一种示例中，可以先从多个字段中选择一个字段作为目标字段，确定目标字段的位置信息，例如将目标字段的外接矩形框所在区域作为目标字段的位置信息。然后可以将M个剩余字段中与目标字段距离最短的字段，确定为确定与目标字段名相对应的目标字段值。

在另一种示例中，可以通过以下操作确定目标字段值：从M个剩余字段中，确定待处理文本图像中与目标字段名之间的距离小于或等于预定距离的字段，得到至少一个候选字段。然后根据目标字段名的类型和至少一个候选字段的类型，从至少一个候选字段中确定目标字段值。

例如，可以确定每个字段的外接矩形框，然后将目标字段的外接矩形框向上、下、左、右分别扩展预定距离，得到扩展后的矩形框，然后将与扩展后的矩形框具有重叠区域的矩形框所指示的字段，确定为候选字段。预定距离可以是5个字宽。

可以预先设置目标字段名的类型。例如，目标字段名a是“金额”，则“金额”的类型可以是数字类型。例如，目标字段名b是“账户”，则目标字段名b的类型可以是数字类型。例如，目标字段名c是“开户行”，则目标字段名c的类型可以是地址类型。

可以通过图像识别的方式确定候选字段的类型。例如，识别到一个字段中包含多个数字，则可以将该字段的类型确定为数字类型。例如，识别到一个字段中包含地址信息，如“XX市XX区”，则可以将该字段的类型确定为地址类型。

可以将与目标字段名具有相同类型的候选字段，确定为对目标字段名对应的目标字段值。在实际应用中，可以根据目标字段名的类型和至少一个候选字段的类型，对至少一个候选字段进行过滤。例如，目标字段名b的类型是数字类型，可以运用正则表达式过滤掉非数字类型的候选字段。例如，目标字段名c的类型是地址类型，可以用自然语言处理过滤掉非地址类型的候选字段。

本公开示例中，根据目标字段名与候选字段的相对位置和类型，可以准确且快速地从目标字段值附近的字段中筛选出目标字段值。

在操作S240，输出目标字段名与目标字段值之间的对应关系。

在一种示例中，对于字段值表示字段名的具体内容的情况，可以在得到对应关系之后，可以将对应关系返回至用户，进而方便用户使用对应关系确定所需信息。例如，根据字段名“一号产品单价”、字段名“一号产品数量”、与字段名“一号产品单价”对应的字段值以及与字段名“一号产品数量”对应的字段值，计算一号产品的总额。

在另一种示例中，对于字段值与字段名无关的情况，可以在确定目标字段名相对应的目标字段值之后，将待处理文本图像包括的多个字段中除目标字段名、目标字段值之外的多个剩余字段，与预先设定的预定字段值进行匹配，如果多个剩余字段与预先设定的预定字段值相同，则可以将剩余字段输出。例如，预先将某个抬头“XX银行单位客户专用回单”设置为预定字段值，如果剩余字段中包括“XX银行单位客户专用回单”，则将“XX银行单位客户专用回单”输出。

根据本公开的实施例，由于根据待处理文本图像包括的多个字段与多个预定字段名彼此之间的相似度，确定目标字段名，因此本公开实施例可以适用于一类模板，不局限于固定模板，适用范围广。

根据本公开另一实施例，文本处理方法还可以包括以下操作：在确定为目标字段名之后，从多个字段中确定N个目标分组字段以及N个重复字段，N≥2。以及根据待处理文本图像中N个目标分组字段的位置信息和N个重复字段的位置信息，对N个目标分组字段与N个重复字段进行分组，得到N个字段组，N个字段组中的每个字段组包括一个目标分组字段和一个重复字段。

示例性的，目标分组字段可以根据业务需求预先设置。例如，对于待处理文本是银行转账汇款单据的情况，目标分组字段可以包括“付款人”和“收款人”，重复字段可以包括两个“账号”、两个“开户行”等，两个“账号”中，一个是付款人账号，另一个是收款人账号。

根据本公开提供的实施例，通过位置信息可以对多个字段进行准确分组，因此可以确保返回结果的准确性。

在第一种示例中，可以通过以下操作确定N个字段组：从N个目标分组字段中随机选择一个目标分组字段d，然后确定与目标分组字段d距离最近的重复字段e，然后将目标分组字段d和重复字段e确定为一个字段组。然后将目标分组字段d从N个目标分组字段中删除，将重复字段e从N个重复字段中删除。然后重复从N个目标分组字段中随机选择一个目标分组字段d的操作，直至得到定N个字段组。

在第二种示例中，可以通过以下操作确定N个字段组：确定多个分组方案，多个分组方案中的每个分组方案与N个候选字段组相关。针对每个分组方案，确定待处理文本图像中与N个候选字段组分别对应的字段距离，基于字段距离之和确定总距离，与每个候选字段组对应的字段距离是该候选字段组中的目标分组字段和重复字段之间的距离。将与总距离最小的分组方案相关的N个候选字段组，确定为N个字段组。

请参考图2C和图2D，以下以N＝2，预定分组字段包括“付款人”和“收款人”，重复字段包括两个“账号”为例，对上述示例中确定N个字段组的操作进行说明。

如图2C所示，为了方便标注字段距离d1与字段距离d2，图2C将图2B中的表格省略。图2C中的虚线框表示字段的外接矩形框，外接矩形框用于表示字段在待处理文本图像中的位置信息。

可以将“付款人”与左侧的“账号”划分至一个候选字段组，将“收款人”与右侧的“账号”划分至一个候选字段组，得到第一种分组方案。第一种分组方案的总距离D1是字段距离d1与字段距离d2之和，字段距离d1是“付款人”与左侧的“账号”在待处理文本图像中的间距，字段距离d2是“收款人”与右侧的“账号”在待处理文本图像中的间距。

如图2D所示，可以将“付款人”与右侧的“账号”划分至一个候选字段组，将“收款人”与左侧的“账号”划分至一个候选字段组，得到第二种分组方案。第二种分组方案的总距离D2是字段距离d3与字段距离d4之和，字段距离d3是“付款人”与右侧的“账号”在待处理文本图像中的间距，字段距离d4是“收款人”与左侧的“账号”在待处理文本图像中的间距。

比较总距离D1与总距离D2的大小关系，并将距离值较小的总距离所对应的分组方案确定为目标分组方案，将目标分组方案涉及的N个候选字段组确定为N个字段组。例如，由于总距离D1小于总距离D2，因此将上述第一种分组方案确定为目标分组方案，将“付款人”与左侧的“账号”确定为一个字段组，将“收款人”与右侧的“账号”确定为一个字段组。

相比于上述第一种示例提供的技术方案，上述第二种示例提供的技术方案通过控制总距离最小来确定N个字段组，可以对多个字段进行准确分组，从而确保返回结果的准确性。

根据本公开另一实施例，文本处理方法还可以包括对目标字段值进行后处理。

在一种示例中，后处理可以包括以下操作：根据目标字段值的类型，修改目标字段值的格式。

可以将相同类型的目标字段值的格式统一为相同格式，从而方便用户查看数据。例如，对多个待处理文本进行处理之后，得到多个表示日期的目标字段值，例如得到的三个目标字段值分别是“2022年1月1日”、“2022/1/7”、“2022-1-5”，可以将表示日期的字段值的格式统一为“XXXX年XX月XX日”。例如，可以将表示金额的字段值的格式统一。

在另一种示例中，后处理可以包括以下操作：在确定与同一个目标字段名具有对应关系的两个目标字段值分别为汉字数码和阿拉伯数字，且汉字数码的数值和阿拉伯数字的数值不同的情况下，利用汉字数码的数值修正阿拉伯数字的数值。

例如，当目标字段名是“单价”、“数量”、“税率”、“金额”等表示数字的字段时，与目标字段名相对应的目标字段值可以使用汉字数码表示(如“壹仟元”)，也可以使用阿拉伯数字表示(如“1000元”)。当汉字数码和阿拉伯数字表示的数值不相等时，以汉字数码表示的数值为准，从而避免识别字段过程中出现的误差影响识别结果的准确性。

根据本公开另一实施例，文本处理方法还可以包括以下操作：将待处理文本图像包括的多个原始字段中与多个预定字段名中任一预定字段名相同的字段，确定为目标字段名。随后，将多个原始字段中除目标字段名之外的字段，确定为待处理文本图像包括的多个字段。上述操作可以在执行确定待处理文本图像包括的多个字段与多个预定字段名彼此之间的相似度的操作之前执行。

例如，可以在多个原始字段中查找预定字段名，并将查找到的与预定字段名相同的原始字段确定为目标字段名，随后将目标字段名从多个原始字段中删除，从而得到待处理文本包括的多个字段。

可以看出，通过上述技术方案得到的多个字段与预定字段名均不相同，但是多个字段与预定字段名存在相似的可能性，因此，可以通过模型计算多个字段与预定字段名之间的相似度。

本公开实施例提供的技术方案中，先将多个原始字段与预定字段名进行比较，将与预定字段名相同的原始字段确定为目标字段，此过程中无需计算相似度，从而快速确定目标字段，提高处理效率。此外，对于与预定字段名不相同的至少一个剩余字段，可以计算至少一个剩余字段与预定字段的相似度，从而提高方案的泛化性。

根据本公开另一实施例，文本处理方法还可以包括以下操作：对待处理文本图像进行识别，得到多个分词；以及根据待处理文本图像中多个分词彼此之间的距离和多个分词中的每个分词的语义信息，将多个分词中的至少两个分词组合为字段，得到多个字段。

例如，可以对待处理文本图像进行预处理，预处理可以包括主体检测、裁剪、旋转、矫正等过程。例如，使用主体检测模型检测图片中的主体，并将主体周围的空白区域裁剪下来，主体检测模型可以采用YOLO(单次查看器，You Only Look Once)。然后可以通过角度预测模型预测待处理文本图像的方向，然后对待处理文本图像进行旋转，使旋转后的待处理文本图像中的字符无倾斜。然后可以通过对抗生成网络，对弯曲图片做碾平等矫正处理。

例如，可以使用OCR(光学字符识别，Optical Character Recognition)技术对待处理文本图像进行文字识别，得到待处理文本图像包括的字符。可以预先配置词典，词典中包括一些常用的专业名词，例如“账号”、“金额”等，使用词典对识别到的字符进行分词处理，得到多个分词。可以通过YOLO确定每个分词在待处理文本图像中的位置信息，例如分词的外接矩形框的位置。

在一种示例中，可以根据多个分词的位置信息建立四叉树。建立四叉树的过程如下：将待处理文本图像划分为四个象限，然后在确定每个象限中存在至少两个分词的情况下，将象限继续划分为四个小的象限。重复以上操作，直至每个象限中仅包括一个分词。

然后选择一个分词作为目标分词，然后在待处理文本图像中，在目标分词的上、下、左、右等特定方向中搜索与目标分词的间距小于阈值的候选分词。

可以预先设置组合规则，并根据预先设置组合规则，将可以组合的分词组合在一起。例如预先设置“出生”和“日期”可以组合为“出生日期”。

可以使用语言模型确定两个分词是否能够组合，例如使用语言模型确定候选分词与目标分词之间的语义相似度，并将至少一个候选分词中语义相似度大于预定值的候选分词与目标分词组合成一个新的分词，语言模型可以采用ERNIE。例如，将“付款”和“人”组合为“付款人”。例如表示地址信息的字段由于字符长度较长而分布在两行，可以将两行字符组合为一个字段。

在另一种示例中，可以不建立四叉树。例如，可以选择一个分词作为目标分词，然后对全部分词中除目标分词之外的剩余分词进行遍历，确定剩余分词中每个分词至目标分词的距离，并将距离小于距离阈值的至少一个剩余分词确定为候选分词。然后可以使用语言模型确定两个分词是否能够组合，并将能够组合的候选分词与目标分词组合成一个新的分词。然后可以重复上述操作，直至待处理文本图像中的多个分词无法继续组合，然后可以将待处理文本图像中的多个分词中的每个分词确定为一个字段。

本公开实施例对根据多个分词彼此之间的距离和语义信息，将至少两个分词组合为字段，能够准确确定待处理文本包括的字段，从而提高后续确定目标字段名和目标字段值的准确性。

图3是根据本公开另一实施例的文本处理方法的示意流程图。

如图3所示，该文本处理方法300可以包括操作S310至操作S360。

在操作S310，对待处理文本图像进行预处理。

例如，对待处理文本图像进行主体检测、裁剪、旋转、矫正等处理。

在操作S320，确定待处理文本图像包括的多个字段。

例如，对待处理文本图像进行识别，得到多个分词。然后根据待处理文本图像中多个分词彼此之间的距离和多个分词中的每个分词的语义信息，将多个分词中的至少两个分词组合为字段，得到多个字段。

在操作S330，根据预定字段名，确定目标字段名。

例如，对于与预定字段名相同的字段，可以将多个字段中与多个预定字段名中任一预定字段名相同的字段确定为目标字段名。

例如，对于与预定字段名不相同的字段，可以将多个字段中除目标字段名的字段之外的字段确定为至少一个剩余字段，然后确定至少一个剩余字段与多个预定字段名彼此之间的相似度，然后将多个字段中相似度大于相似度阈值的字段，确定为目标字段名。

例如，对于重复字段，可以从多个字段中确定N个目标分组字段以及N个重复字段，N≥2。然后根据待处理文本图像中N个目标分组字段的位置信息和N个重复字段的位置信息，对N个目标分组字段与N个重复字段进行分组，得到N个字段组，N个字段组中的每个字段组包括一个目标分组字段和一个重复字段。

在操作S340，确定目标字段值。

例如，对于字段值表示字段名的具体内容的情况，可以从多个字段中除目标字段名之外的M个剩余字段中，确定待处理文本图像中与目标字段名之间的距离小于或等于预定距离的字段，得到至少一个候选字段。然后根据目标字段名的类型和至少一个候选字段的类型，从至少一个候选字段中确定与目标字段名相对应的目标字段值。

例如，对于字段值与字段名无关的情况，可以将待处理文本图像包括的多个字段中除目标字段名、目标字段值之外的多个剩余字段，与预先设定的预定字段值进行比较，并将与预先设定的预定字段值相同的剩余字段确定为目标字段值。

在操作S350，对目标字段值进行后处理。

例如，根据目标字段值的类型，修改目标字段值的格式。

例如，在确定与同一个目标字段名具有对应关系的两个目标字段值分别为汉字数码和阿拉伯数字，且汉字数码的数值和阿拉伯数字的数值不同的情况下，利用汉字数码的数值修正阿拉伯数字的数值。

在操作S360，输出字段信息。

例如，字段信息可以包括目标字段名和目标字段值，还可以包括目标字段名与目标字段值之间的对应关系。

图4A是根据本公开实施例的文本处理方法的示意原理图，图4B是根据本公开实施例的待处理文本图像的示意图。

本实施例400中，可以对待处理文本图像410进行识别，得到多个分词，例如得到“姓名”、“账户”、“付款”、“人”、“111111”、“XX市XX区第一银行”等分词。

然后根据各个分词的位置信息和语义信息，将多个分词组合为多个字段420，例如将“付款”和“人”组合为“付款人”。

可以根据预先配置的预定字段名430，从多个字段420中确定目标字段名440。例如预定字段名430包括“账户”，待处理文本图像410中的字段“账户”与预定字段名430相同，因此将“账户”确定为目标字段名。

将多个字段420中除目标字段名440之外的字段确定为多个剩余字段，并根据位置信息和类型450，从多个剩余字段中确定与目标字段名440相对应的目标字段值460。例如，预先将“账户”的类型设置为数字类型，预先将“开户行”的类型设置为地址类型，对待处理文本图像410进行识别，得到字段“111111”是数字类型的字段，字段“XX市XX区第一银行”是地址类型的字段。由于在识别待处理文本图像410中与“账户”的间距小于等于预定距离的字段包括“111111”和“XX市XX区第一银行”，并且“账户”的类型和字段“111111”的类型相同，因此将字段“111111”确定为与目标字段名“账户”相对应的字段值。

然后可以输出字段信息470，字段信息470可以包括目标字段名440和目标字段值460，还可以包括目标字段名440与目标字段值460之间的对应关系。

图5是根据本公开实施例的文本处理装置的示意结构框图。

如图5所示，该文本处理装置500可以包括相似度确定模块510、第一目标字段名确定模块520、目标字段值确定模块530以及输出模块540。

相似度确定模块510用于确定待处理文本图像包括的多个字段与多个预定字段名彼此之间的相似度。

第一目标字段名确定模块520用于将多个字段中相似度大于相似度阈值的字段，确定为目标字段名。

目标字段值确定模块530用于从多个字段中除目标字段名之外的M个剩余字段中，确定与目标字段名相对应的目标字段值，其中，M≥1。

输出模块540用于输出目标字段名与目标字段值之间的对应关系。

根据本公开另一实施例，文本处理装置还包括分组重复字段确定模块和字段组确定模块。分组重复字段确定模块用于在确定目标字段名之后，从多个字段中确定N个目标分组字段以及N个重复字段，其中，N≥2。字段组确定模块用于根据待处理文本图像中N个目标分组字段的位置信息和N个重复字段的位置信息，对N个目标分组字段与N个重复字段进行分组，得到N个字段组，其中，N个字段组中的每个字段组包括一个目标分组字段和一个重复字段。

根据本公开另一实施例，字段组确定模块包括分组方案确定子模块、总距离确定子模块和字段组确定子模块。分组方案确定子模块用于确定多个分组方案，其中，多个分组方案中的每个分组方案与N个候选字段组相关。总距离确定子模块用于针对每个分组方案，确定待处理文本图像中与N个候选字段组分别对应的字段距离，基于字段距离之和确定总距离；其中，与每个候选字段组对应的字段距离是该候选字段组中的目标分组字段和重复字段之间的距离。字段组确定子模块用于将与总距离最小的分组方案相关的N个候选字段组，确定为N个字段组。

根据本公开另一实施例，目标字段值确定模块包括候选字段确定子模块和目标字段值确定子模块。候选字段确定子模块用于从M个剩余字段中，确定待处理文本图像中与目标字段名之间的距离小于或等于预定距离的字段，得到至少一个候选字段。目标字段值确定子模块用于根据目标字段名的类型和至少一个候选字段的类型，从至少一个候选字段中确定目标字段值。

根据本公开另一实施例，文本处理装置还包括第一修正模块和第二修正模块中的至少一个。第一修正模块用于根据目标字段值的类型，修改目标字段值的格式。第二修正模块用于在确定与同一个目标字段名具有对应关系的两个目标字段值分别为汉字数码和阿拉伯数字，且汉字数码的数值和阿拉伯数字的数值不同的情况下，利用汉字数码的数值修正阿拉伯数字的数值。

根据本公开另一实施例，文本处理装置还包括第二目标字段名确定模块和多个字段确定模块，第二目标字段名确定模块用于将待处理文本图像包括的多个原始字段中与多个预定字段名中任一预定字段名相同的字段，确定为目标字段名。多个字段确定模块用于将多个原始字段中除目标字段名之外的字段，确定为待处理文本图像包括的多个字段。

根据本公开另一实施例，文本处理装置还包括分词确定模块和字段确定模块。分词确定模块用于对待处理文本图像进行识别，得到多个分词。字段确定模块用于根据待处理文本图像中多个分词彼此之间的距离和多个分词中的每个分词的语义信息，将多个分词中的至少两个分词组合为字段，得到多个字段。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如文本处理方法。例如，在一些实施例中，文本处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的文本处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文本处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文本处理方法，包括：

对待处理文本图像进行识别，得到多个分词；

根据所述多个分词的位置信息建立四叉树，所述四叉树中的每个象限中仅包括一个分词；

根据预先设置的组合规则，将分词组合为字段；

针对所述多个分词中的目标分词，在所述待处理文本图像中，在所述目标分词的预定方向上搜索与所述目标分词的间距小于阈值的至少一个候选分词；所述预定方向包括上、下、左和右；

使用语言模型确定所述至少一个候选分词与所述目标分词之间的语义相似度；

将所述至少一个候选分词中语义相似度大于预定值的候选分词与所述目标分词组合成新的分词，作为字段；

确定待处理文本图像包括的多个字段与多个预定字段名彼此之间的相似度；

将所述多个字段中相似度大于相似度阈值的字段，确定为目标字段名；

从所述多个字段中除所述目标字段名之外的M个剩余字段中，确定与所述目标字段名相对应的目标字段值，其中，M≥1；以及

输出所述目标字段名与所述目标字段值之间的对应关系。

2.根据权利要求1所述的方法，还包括，在确定为目标字段名之后：

从所述多个字段中确定N个目标分组字段以及N个重复字段，其中，N≥2；以及

根据所述待处理文本图像中所述N个目标分组字段的位置信息和所述N个重复字段的位置信息，对所述N个目标分组字段与所述N个重复字段进行分组，得到N个字段组，其中，所述N个字段组中的每个字段组包括一个目标分组字段和一个重复字段。

3.根据权利要求2所述的方法，其中，所述根据所述待处理文本图像中所述N个目标分组字段的位置信息和所述N个重复字段的位置信息，对所述N个目标分组字段与所述N个重复字段进行分组，得到N个字段组包括：

确定多个分组方案，其中，所述多个分组方案中的每个分组方案与N个候选字段组相关；

针对所述每个分组方案，确定所述待处理文本图像中与所述N个候选字段组分别对应的字段距离，基于所述字段距离之和确定总距离；其中，与每个候选字段组对应的字段距离是该候选字段组中的目标分组字段和重复字段之间的距离；以及

将与所述总距离最小的分组方案相关的N个候选字段组，确定为所述N个字段组。

4.根据权利要求1所述的方法，其中，从所述多个字段中除所述目标字段名之外的M个剩余字段中，确定与所述目标字段名相对应的目标字段值包括：

从所述M个剩余字段中，确定所述待处理文本图像中与所述目标字段名之间的距离小于或等于预定距离的字段，得到至少一个候选字段；以及

根据所述目标字段名的类型和所述至少一个候选字段的类型，从所述至少一个候选字段中确定所述目标字段值。

5.根据权利要求1所述的方法，还包括对所述目标字段值进行以下操作中的至少一个：

根据所述目标字段值的类型，修改所述目标字段值的格式；以及

在确定与同一个所述目标字段名具有对应关系的两个目标字段值分别为汉字数码和阿拉伯数字，且所述汉字数码的数值和阿拉伯数字的数值不同的情况下，利用所述汉字数码的数值修正所述阿拉伯数字的数值。

6.根据权利要求1所述的方法，还包括：

将所述待处理文本图像包括的多个原始字段中与所述多个预定字段名中任一预定字段名相同的字段，确定为所述目标字段名；以及

将所述多个原始字段中除所述目标字段名之外的字段，确定为所述待处理文本图像包括的多个字段。

7.一种文本处理装置，包括：

识别模块，用于对待处理文本图像进行识别，得到多个分词；

建立模块，用于根据所述多个分词的位置信息建立四叉树，所述四叉树中的每个象限中仅包括一个分词；

第一组合模块，用于根据预先设置的组合规则，将分词组合为字段；

搜索模块，用于针对所述多个分词中的目标分词，在所述待处理文本图像中，在所述目标分词的预定方向上搜索与所述目标分词的间距小于阈值的至少一个候选分词；所述预定方向包括上、下、左和右；

相似度确定模块，用于使用语言模型确定所述至少一个候选分词与所述目标分词之间的语义相似度；

第二组合模块，用于将所述至少一个候选分词中语义相似度大于预定值的候选分词与所述目标分词组合成新的分词，作为字段；

相似度确定模块，用于确定待处理文本图像包括的多个字段与多个预定字段名彼此之间的相似度；

第一目标字段名确定模块，用于将所述多个字段中相似度大于相似度阈值的字段，确定为目标字段名；

目标字段值确定模块，用于从所述多个字段中除所述目标字段名之外的M个剩余字段中，确定与所述目标字段名相对应的目标字段值，其中，M≥1；以及

输出模块，用于输出所述目标字段名与所述目标字段值之间的对应关系。

8.根据权利要求7所述的装置，还包括：

分组重复字段确定模块，用于在确定目标字段名之后，从所述多个字段中确定N个目标分组字段以及N个重复字段，其中，N≥2；以及

字段组确定模块，用于根据所述待处理文本图像中所述N个目标分组字段的位置信息和所述N个重复字段的位置信息，对所述N个目标分组字段与所述N个重复字段进行分组，得到N个字段组，其中，所述N个字段组中的每个字段组包括一个目标分组字段和一个重复字段。

9.根据权利要求8所述的装置，其中，所述字段组确定模块包括：

分组方案确定子模块，用于确定多个分组方案，其中，所述多个分组方案中的每个分组方案与N个候选字段组相关；

总距离确定子模块，用于针对所述每个分组方案，确定所述待处理文本图像中与所述N个候选字段组分别对应的字段距离，基于所述字段距离之和确定总距离；其中，与每个候选字段组对应的字段距离是该候选字段组中的目标分组字段和重复字段之间的距离；以及

字段组确定子模块，用于将与所述总距离最小的分组方案相关的N个候选字段组，确定为所述N个字段组。

10.根据权利要求7所述的装置，其中，所述目标字段值确定模块包括：

候选字段确定子模块，用于从所述M个剩余字段中，确定所述待处理文本图像中与所述目标字段名之间的距离小于或等于预定距离的字段，得到至少一个候选字段；以及

目标字段值确定子模块，用于根据所述目标字段名的类型和所述至少一个候选字段的类型，从所述至少一个候选字段中确定所述目标字段值。

11.根据权利要求7所述的装置，还包括以下中的至少一个：

第一修正模块，用于根据所述目标字段值的类型，修改所述目标字段值的格式；以及

第二修正模块，用于在确定与同一个所述目标字段名具有对应关系的两个目标字段值分别为汉字数码和阿拉伯数字，且所述汉字数码的数值和阿拉伯数字的数值不同的情况下，利用所述汉字数码的数值修正所述阿拉伯数字的数值。

12.根据权利要求7所述的装置，还包括：

第二目标字段名确定模块，用于将所述待处理文本图像包括的多个原始字段中与所述多个预定字段名中任一预定字段名相同的字段，确定为所述目标字段名；以及

多个字段确定模块，用于将所述多个原始字段中除所述目标字段名之外的字段，确定为所述待处理文本图像包括的多个字段。

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至6中任一项所述的方法。