CN116978041A

CN116978041A - 一种文本定位方法、装置、设备及介质

Info

Publication number: CN116978041A
Application number: CN202310970510.0A
Authority: CN
Inventors: 孔庆钰
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2023-08-03
Filing date: 2023-08-03
Publication date: 2023-10-31

Abstract

本申请公开了一种文本定位方法、装置、设备及介质，涉及大数据领域或金融领域。该方法包括：获取文件接口文档；以测试解析文件和测试字作为神经网络模型的输入，以测试定位结果作为神经网络模型的输出，训练神经网络模型，以建立文本定位模型，测试定位结果是以文件接口文档的定义内容为定位条件获取的；将待解析文件和关键字输入至文本定位模型中，以获取文本定位结果。由此，能够迅速定位字段取值，降低文本定位的时间成本，进而提高技术人员的工作效率。

Description

一种文本定位方法、装置、设备及介质

技术领域

本申请涉及大数据领域或金融领域，特别涉及一种文本定位方法、装置、设备及介质。

背景技术

并行测试是一种自动化测试过程，目标是通过在可用资源之间分布测试来解决时间限制问题。相关技术中，在多批次、多环境的并行测试的情况下，为保证开发成功而面临的测试支持越发频繁。

在测试支持过程中，经常需要提取某个文件的某条数据的某个字段值，以便进行后续的测试或判断。而该提取过程需要逐个手工一一对应，才能查找到所需要的字段值，导致了定位字段取值的过程较复杂且耗时，降低了技术人员的工作效率。

发明内容

有鉴于此，本申请实施例提供了一种文本定位方法、装置、设备及介质，能够迅速定位字段取值，进而提高技术人员的工作效率。

本申请实施例公开了如下技术方案：

第一方面，本申请提供了一种文本定位方法，所述方法包括：

获取文件接口文档；

以测试解析文件和测试字作为神经网络模型的输入，以测试定位结果作为所述神经网络模型的输出，训练所述神经网络模型，以建立文本定位模型，所述测试定位结果是以所述文件接口文档的定义内容为定位条件获取的；

将待解析文件和关键字输入至所述文本定位模型中，以获取文本定位结果。

可选的，所述将待解析文件和关键字输入至所述文本定位模型中，以获取文本定位结果，包括：

获取待解析文件，所述待解析文件的格式为图片格式或可移植文档格式；

对所述待解析文件进行灰度化处理，以获取灰度化文件；

将所述灰度化文件和关键字输入至所述文本定位模型中，以获取文本定位结果。

对所述待解析文件进行归一化处理，以获取归一化文件，所述归一化处理包括对所述原始文件进行角度矫正归一化、比例缩放归一化、比例填充归一化、分辨率归一化和剪裁归一化中的一种或多种；

将所述归一化文件和关键字输入至所述文本定位模型中，以获取文本定位结果。

可选的，所述文本接口文档的定义内容为字段序号、字段取值、字段内容和中文字段释义中的一种或多种。

第二方面，本申请提供了一种文本定位装置，所述装置包括：获取模块、建立模块和定位模块；

所述获取模块，用于获取文件接口文档；

所述建立模块，用于以测试解析文件和测试字作为神经网络模型的输入，以测试定位结果作为所述神经网络模型的输出，训练所述神经网络模型，以建立文本定位模型，所述测试定位结果是以所述文件接口文档的定义内容为定位条件获取的；

所述定位模块，用于将待解析文件和关键字输入至所述文本定位模型中，以获取文本定位结果。

可选的，所述定位模块具体包括：第一获取子模块、第二获取子模块和第一定位子模块；

所述第一获取子模块，用于获取待解析文件，所述待解析文件的格式为图片格式或可移植文档格式；

所述第二获取子模块，用于对所述待解析文件进行灰度化处理，以获取灰度化文件；

所述第一定位子模块，用于将所述灰度化文件和关键字输入至所述文本定位模型中，以获取文本定位结果。

可选的，所述定位模块具体包括：第三获取子模块、第四获取子模块和第二定位子模块；

所述第三获取子模块，用于获取待解析文件，所述待解析文件的格式为图片格式或可移植文档格式；

所述第四获取子模块，用于对所述待解析文件进行归一化处理，以获取归一化文件，所述归一化处理包括对所述原始文件进行角度矫正归一化、比例缩放归一化、比例填充归一化、分辨率归一化和剪裁归一化中的一种或多种；

所述第二定位子模块，用于将所述归一化文件和关键字输入至所述文本定位模型中，以获取文本定位结果。

第三方面，本申请提供了一种文本定位设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述计算机程序时实现上述文本定位方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现上述文本定位方法的步骤。

相较于现有技术，本申请具有以下有益效果：

本申请公开了一种文本定位方法、装置、设备及介质，该方法包括：获取文件接口文档；以测试解析文件和测试字作为神经网络模型的输入，以测试定位结果作为神经网络模型的输出，训练神经网络模型，以建立文本定位模型，测试定位结果是以文件接口文档的定义内容为定位条件获取的；将待解析文件和关键字输入至文本定位模型中，以获取文本定位结果。由此，能够迅速定位字段取值，降低文本定位的时间成本，进而提高技术人员的工作效率。

附图说明

为更清楚地说明本实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种文本定位方法的流程图；

图2为本申请实施例提供的一种文本定位装置的示意图；

图3为本申请实施例提供的一种计算机可读介质的示意图；

图4为本申请实施例提供的一种服务器的硬件结构示意图。

具体实施方式

本发明提供的一种文本定位方法、装置、设备与介质可用于大数据领域或金融领域。上述仅为示例，并不对本发明提供的一种文本定位方法、装置、设备与介质的应用领域进行限定。

有鉴于此，本申请提供了一种文本定位方法、装置、设备及介质，该方法包括：获取文件接口文档；以测试解析文件和测试字作为神经网络模型的输入，以测试定位结果作为神经网络模型的输出，训练神经网络模型，以建立文本定位模型，测试定位结果是以文件接口文档的定义内容为定位条件获取的；将待解析文件和关键字输入至文本定位模型中，以获取文本定位结果。由此，能够迅速定位字段取值，降低文本定位的时间成本，进而提高技术人员的工作效率。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，该图为本申请实施例提供的一种文本定位方法的流程图。该方法包括：

S101：导入并存储文件接口文档。

文件接口文档是文件内容格式的一种定义文档，也就是说，文件接口文档的定义内容与用户所希望解析出的文本数据相关。需要说明的是，对于具体的文件接口文档的定义内容，本申请不做限定。

在一些具体的实现方式中，若需要执行文本定位的待解析文件是关于商业银行监管规则，用户想通过输入监管规则的关键字，得到具体的监管规则和具体的规则实施方式的文本数据，那么，接口文档的定义内容就应该为“监管规则”和“规则实施方式”。

在另一些具体的实现方式中，若需要执行文本定位的待解析文件是测试文件，用户想通过输入测试内容的关键字，得到所有此关键字所在行的所有字段序号、中文字段释义、字段内容和字段取值，那么，接口文档的定义内容就应该为“字段序号”、“中文字段释义”、“字段内容”和“字段取值”。

S102：以测试解析文件和测试字作为神经网络模型的输入，以测试定位结果作为神经网络模型的输出，训练神经网络模型，以建立文本定位模型。

在获取到文件接口文档后，可以以测试解析文件和测试字为神经网络模型的输入，以文件接口文档的定义内容为定位条件的、对测试解析文件进行文本定位的测试定位结果作为神经网络模型的输出，建立文本定位模型。

在一些具体的实现方式中，测试解析文件可以是关于商业银行监管规则的doc版本，测试字可以是“评级方法”，那么，若接口文档的定义内容就应该为“监管规则”和“规则实施方式”，则测试定位结果就可以如下表1所示。也就是说，可以根据以下表中的测试解析文件和测试字为输入、以接口文档定义内容对应的测试定位结果为输出，训练神经网络模型，以构建文本定位模型。

表1

在一些具体的实现方式中，若测试解析文件为pdf文件(可移植文档格式文件)或图片文件，那么可以先对pdf文件或图片文件进行预处理后，再根据文件接口文档，建立文本定位模型。

在一些示例中，上述预处理可以包括灰度化处理，即可以先将测试解析文件进行灰度化处理形成灰度文件，后再根据灰度文件，建立文本定位模型。灰度化处理指的是由彩色的pdf文件或图片文件转化为灰度文件的操作。示例性的，可以基于OpenCV软件的cvtColor函数对测试解析文件进行灰度化处理。可以理解的是，进行灰度化处理的意义主要有两个，一是相较于彩色的测试解析文件，灰度文件占内存更小，运算速度更快；二是转化为灰度文件后可以在视觉上增加对比，突出原始的测试解析文件的目标区域。

在另一些示例中，上述预处理还可以包括归一化处理。归一化处理是将原始的pdf格式或图片格式的测试解析文件按照一定标准加工处理，从而方便后续的字符识别的处理方法。示例性的，归一化处理可以指的是对所有原始的pdf格式或图片格式的测试解析文件进行角度矫正(即旋转)的归一化处理。首先，采用角点检测方法识别出测试解析文件的四个角，再采用边缘检测及霍夫变换(Hough)直线检测方法识别出测试解析文件的四条边，以此对测试解析文件进行角度矫正。

S103：向文本定位模型中输入待解析文件和待解析关键字，以解析出文本定位结果。

在建立文本定位模型后，可以输入待解析文件和待解析关键字，从而解析出文本定位结果。示例性的，该文本定位结果可以是表格格式。

在一些具体的实现方式中，在将待解析文件输入至文本定位模型前，可以先判断待解析文件的文件格式，若文件格式为pdf格式或图片格式，那么可以先对待解析文件进行预处理后，再输入至文本定位模型中。

示例性的，上述预处理可以包括灰度化处理和/或归一化处理。可以理解的是，归一化处理可以指的是对待解析文件进行角度矫正归一化处理，也可以指的是对所有待解析文件进行比例缩放与填充的归一化处理，也可以指的是对所有待解析文件进行分辨率统一的归一化处理，也可以指的是对所有待解析文件进行统一剪裁的归一化处理等。需要说明的是，对于具体的归一化处理操作，本申请不做限定。

综上所述，本申请公开了一种文本定位方法，该方法包括：获取文件接口文档；以测试解析文件和测试字作为神经网络模型的输入，以测试定位结果作为神经网络模型的输出，训练神经网络模型，以建立文本定位模型，测试定位结果是以文件接口文档的定义内容为定位条件获取的；将待解析文件和关键字输入至文本定位模型中，以获取文本定位结果。由此，能够迅速定位字段取值，降低文本定位的时间成本，进而提高技术人员的工作效率。

参见图2，该图为本申请实施例提供的一种文本定位装置的示意图。该文本定位装置200包括：获取模块201、建立模块202和定位模块203。

具体的，获取模块201用于获取文件接口文档；建立模块202用于以测试解析文件和测试字作为神经网络模型的输入，以测试定位结果作为神经网络模型的输出，训练神经网络模型，以建立文本定位模型，测试定位结果是以文件接口文档的定义内容为定位条件获取的；定位模块203用于将待解析文件和关键字输入至文本定位模型中，以获取文本定位结果。

在一些具体的实现方式中，定位模块203具体包括：第一获取子模块、第二获取子模块和第一定位子模块。其中，第一获取子模块，用于获取待解析文件，待解析文件的格式为图片格式或可移植文档格式；第二获取子模块，用于对待解析文件进行灰度化处理，以获取灰度化文件；第一定位子模块，用于将灰度化文件和关键字输入至文本定位模型中，以获取文本定位结果。

在一些具体的实现方式中，定位模块203具体包括：第三获取子模块、第四获取子模块和第二定位子模块。其中，第三获取子模块，用于获取待解析文件，待解析文件的格式为图片格式或可移植文档格式；第四获取子模块，用于对待解析文件进行归一化处理，以获取归一化文件，归一化处理包括对原始文件进行角度矫正归一化、比例缩放归一化、比例填充归一化、分辨率归一化和剪裁归一化中的一种或多种；第二定位子模块，用于将归一化文件和关键字输入至文本定位模型中，以获取文本定位结果。

在一些具体的实现方式中，上述文本接口文档的定义内容为字段序号、字段取值、字段内容和中文字段释义中的一种或多种。

综上所述，本申请公开了一种文本定位装置，包括获取模块、建立模块和定位模块。由此，能够迅速定位字段取值，降低文本定位的时间成本，进而提高技术人员的工作效率。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

参见图3，该图为本申请实施例提供的一种计算机可读介质的示意图。该计算机可读介质300上存储有计算机程序311，该计算机程序311被处理器执行时实现上述图1的文本定位方法的步骤。

需要说明的是，本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

需要说明的是，本申请上述的机器可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

参见图4，该图为本申请实施例提供的一种服务器的硬件结构示意图，该服务器400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)422(例如，一个或一个以上处理器)和存储器432，一个或一个以上存储应用程序440或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中，存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器422可以设置为与存储介质430通信，在服务器400上执行存储介质430中的一系列指令操作。

服务器400还可以包括一个或一个以上电源426，一个或一个以上有线或无线网络接口450，一个或一个以上输入输出接口458，和/或，一个或一个以上操作系统441，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

上述实施例中由文本定位方法所执行的步骤可以基于该图4所示的服务器结构。

还需要说明的，根据本申请的实施例，上述图1中的流程示意图描述的文本定位方法的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行上述图1的流程示意图中所示的方法的程序代码。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本申请的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种文本定位方法，其特征在于，所述方法包括：

获取文件接口文档；

2.根据权利要求1所述的方法，其特征在于，所述将待解析文件和关键字输入至所述文本定位模型中，以获取文本定位结果，包括：

对所述待解析文件进行灰度化处理，以获取灰度化文件；

3.根据权利要求1所述的方法，其特征在于，所述将待解析文件和关键字输入至所述文本定位模型中，以获取文本定位结果，包括：

4.根据权利要求1所述的方法，其特征在于，所述文本接口文档的定义内容为字段序号、字段取值、字段内容和中文字段释义中的一种或多种。

5.一种文本定位装置，其特征在于，所述装置包括：获取模块、建立模块和定位模块；

所述获取模块，用于获取文件接口文档；

6.根据权利要求5所述的装置，其特征在于，所述定位模块具体包括：第一获取子模块、第二获取子模块和第一定位子模块；

7.根据权利要求5所述的装置，其特征在于，所述定位模块具体包括：第三获取子模块、第四获取子模块和第二定位子模块；

8.根据权利要求5所述的装置，其特征在于，所述文本接口文档的定义内容为字段序号、字段取值、字段内容和中文字段释义中的一种或多种。

9.一种文本定位设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1至4中任一项所述的方法的各个步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至4中任一项所述的方法的各个步骤。