CN114625853A

CN114625853A - 一种文本处理方法、装置、电子设备及计算机存储介质

Info

Publication number: CN114625853A
Application number: CN202210241657.1A
Authority: CN
Inventors: 谭浩
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2022-03-11
Filing date: 2022-03-11
Publication date: 2022-06-14

Abstract

本发明提供一种文本处理方法、装置、电子设备及计算机存储介质，包括获取用户提交的服务请求所携带的待处理文件；基于服务请求对应的类型，确定与待处理文件对应的主体数据；基于与服务请求类型对应的历史树状结构数据，提取主体数据中的关键字段，历史树状结构数据是基于历史时间内的服务请求所携带的文件进行处理得到的；在确定关键字段满足预设条件时，按照关键字段之间的关系构建对应的目标树状结构数据；基于目标树状结构数据生成与服务请求对应的执行脚本。通过上述方式不仅能够提高处理效率，且能够提高准确性。

Description

一种文本处理方法、装置、电子设备及计算机存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种文本处理方法、装置、电子设备及计算机存储介质。

背景技术

随着计算机技术的不断发展，银行业所提供的服务类型也在不断增加，为了更好的对服务请求进行处理，目前常通过人工的方式对用户提交的服务请求进行文本处理，由于服务类型的不断增加，需要大量消耗大量的人力，从而导致通过人工的方式进行文本处理效率低下，且容易出现处理错误的问题。

发明内容

有鉴于此，本发明实施例提供一种文本处理方法、装置、电子设备及计算机存储介质，以解决现有技术中出现的文本处理效率低下，且容易出现处理错误的问题。

为实现上述目的，本发明实施例提供如下技术方案：

本发明实施例第一方面示出了一种文本处理方法，所述方法包括：

获取用户提交的服务请求所携带的待处理文件；

基于所述服务请求对应的类型，确定与所述待处理文件对应的主体数据；

基于与所述服务请求类型对应的历史树状结构数据，提取所述主体数据中的关键字段，所述历史树状结构数据是基于历史时间内的服务请求所携带的文件进行处理得到的；

在确定所述关键字段满足预设条件时，按照所述关键字段之间的关系构建对应的目标树状结构数据；

基于所述目标树状结构数据生成与所述服务请求对应的执行脚本。

可选的，所述基于所述服务请求对应的类型，确定与所述待处理文件对应的主体数据，包括：

确定与所述服务请求的类型对应的目标规则；

基于所述目标规则确定与所述目标规则对应的主体数据。

可选的，所述基于历史时间内的服务请求所携带的文件进行处理得到的历史树状结构数据的过程包括：

获取历史时间内所有服务请求所携带的文本；

针对每一文本，对所述文本进行分析处理，得到历史关键字段；

基于所述服务请求对应的类型，确定所述历史关键字段之间的关系；

基于所述历史关键字段之间的关系，构建对应的历史树状结构数据。

可选的，所述基于与所述服务请求类型对应的历史树状结构数据，提取所述主体数据中的关键字段，包括：

基于与所述服务请求类型对应的历史树状结构数据，确定对应的目标历史关键字段；

从所述主体数据中提取与所述目标历史关键字段相应的数据，并将所述数据作为关键字段。

可选的，按照所述关键字段之间的关系构建对应的目标树状结构数据，包括：

基于所述服务请求对应的类型，确定所述关键字段之间的关系；

基于所述关键字段之间的关系，构建对应的目标树状结构数据。

本发明实施例第二方面示出了一种文本处理装置，所述装置包括：

获取单元，用于获取用户提交的服务请求所携带的待处理文件；

确定单元，用于基于所述服务请求对应的类型，确定与所述待处理文件对应的主体数据；

提取单元，用于基于与所述服务请求类型对应的历史树状结构数据，提取所述主体数据中的关键字段，所述历史树状结构数据是基于历史时间内的服务请求所携带的文件进行处理得到的；

构建单元，用于在确定所述关键字段满足预设条件时，按照所述关键字段之间的关系构建对应的目标树状结构数据；

执行单元，用于基于所述目标树状结构数据生成与所述服务请求对应的执行脚本。

可选的，所述确定单元，具体用于：确定与所述服务请求的类型对应的目标规则；基于所述目标规则确定与所述目标规则对应的主体数据。

可选的，所述提取单元，具体用于：基于与所述服务请求类型对应的历史树状结构数据，确定对应的目标历史关键字段；从所述主体数据中提取与所述目标历史关键字段相应的数据，并将所述数据作为关键字段。

本发明实施例第三方面示出了一种电子设备，所述电子设备用于运行程序，其中，所述程序运行时执行如本发明实施例第一方面示出的文本处理方法。

本发明实施例第四方面示出了一种计算机存储介质，所述存储介质包括存储程序，其中，在所述程序运行时控制所述存储介质所在设备执行如如本发明实施例第一方面示出的文本处理方法。

基于上述本发明实施例提供的一种文本处理方法、装置、电子设备及计算机存储介质，方法包括：获取用户提交的服务请求所携带的待处理文件；基于服务请求对应的类型，确定与待处理文件对应的主体数据；基于与服务请求类型对应的历史树状结构数据，提取主体数据中的关键字段，历史树状结构数据是基于历史时间内的服务请求所携带的文件进行处理得到的；在确定关键字段满足预设条件时，按照关键字段之间的关系构建对应的目标树状结构数据；基于目标树状结构数据生成与服务请求对应的执行脚本。在本发明实施例中，不需要人工进行处理，在当前线上服务请求单中，有一些关键的文本元素需要从中提取出来，作为后续实施工作的输入源数据。基于服务请求对应的类型，确定与待处理文件对应的主体数据；再通过与服务请求类型对应的历史树状结构数据，提取主体数据中的关键字段；在确定关键字段满足预设条件时，按照关键字段之间的关系构建对应的目标树状结构数据；基于目标树状结构数据生成与服务请求对应的执行脚本。通过上述方式不仅能够提高处理效率，且能够提高准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例示出一种文本处理方法的流程示意图；

图2为本发明实施例示出的多叉树状结构的架构示意图；

图3为本发明实施例示出的一种文本处理装置的结构示意图；

图4为本发明实施例示出的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本发明实施例中，不需要人工进行处理，在当前线上服务请求单中，有一些关键的文本元素需要从中提取出来，作为后续实施工作的输入源数据。基于服务请求对应的类型，确定与待处理文件对应的主体数据；再通过与服务请求类型对应的历史树状结构数据，提取主体数据中的关键字段；在确定关键字段满足预设条件时，按照关键字段之间的关系构建对应的目标树状结构数据；基于目标树状结构数据生成与服务请求对应的执行脚本。通过上述方式不仅能够提高处理效率，且能够提高准确性。

参见图1，为本发明实施例示出的一种文本处理方法的流程示意图，该方法包括：

步骤S101：获取用户提交的服务请求所携带的待处理文件。

在具体实现步骤S101的过程中，按照预设执行频率访问服务请求单页面，以利用与所述用户提交的服务请求对应的脚本获取所述服务请求中所携带的待处理文件。

需要说明的是，与所述用户提交的服务请求对应的脚本是预先根据线上服务请求的页面特征编写的各个类型脚本，并构建服务请求类型与各脚本直接的关系。

进一步需要说明的是，该脚本可为计算机程序语言python脚本。

步骤S102：基于所述服务请求对应的类型，确定与所述待处理文件对应的主体数据。

需要说明的是，具体实现步骤S102基于所述服务请求对应的类型，确定与所述待处理文件对应的主体数据的过程中，包括以下步骤：

步骤S11：确定与所述服务请求的类型对应的目标规则。

在具体实现步骤S11的过程中，从多个预设规则中获取与该服务请求对应的规则，并将其设置为目标规则。

需要说明的是，预设规则是根据多次经验设置的符合每一类请求的规则。

步骤S12：基于所述目标规则确定与所述目标规则对应的主体数据。

在具体实现步骤S12的过程中，抓取符合目标规则的服务请求单号以及对应的主体内容。

步骤S103：基于与所述服务请求类型对应的历史树状结构数据，提取所述主体数据中的关键字段。

在步骤S103中，所述历史树状结构数据是基于历史时间内的服务请求所携带的文件进行处理得到的。

需要说明的是，基于历史时间内的服务请求所携带的文件进行处理得到的历史树状结构数据的过程，包括以下步骤：

步骤S21：获取历史时间内所有服务请求所携带的文本。

需要说明的是，历史时间段是根据多次实验进行设置的，比如可设置为过去3个月。

步骤S22：针对每一文本，对所述文本进行分析处理，得到历史关键字段。

在具体实现步骤S22的过程中，按照每一服务请求对应的服务请求类型，对历史时间段内的服务请求进行抽样统计，确定每一服务请求的服务请求主体内容。

需要说明的是，抽样统计的抽样率要保证尽量覆盖所有的文本元素结构类型。

服务请求主体内容至少包含二个历史关键字段，即目标文本元素，目标文本元素是指预先设置的有用的元素。

步骤S23：基于所述服务请求对应的类型，确定所述历史关键字段之间的关系。

在具体实现步骤S23的过程中，针对每一服务的服务请求主体内容，分析各个目标文本元素之间的关联关系，归纳对应的组合规则。

需要说明的是，具体实现步骤S23的过程可通过机器学习等技术实现。

例如：服务请求A对应的服务请求主体内容q包含ABCD四种目标文本元素，如下例所示。

…[文本元素A]…[文本元素B]…[文本元素C]…[文本元素D]…

其中，“…”为非有用文本元素。

例如，若服务请求A对应的服务请求主体内容q包含ABCD四种目标文本元素，分析各个目标文本元素之间的关联关系，归纳对应出下列规则。

规则1：文本元素A可以对应一个或多个文本元素B文本元素C文本元素D组合，因此文本元素A一定在文本元素B文本元素C文本元素D之前，从而可以表示为文本元素A…文本元素A……。

规则2：文本元素B可以对应一个或多个文本元素C文本元素D组合，文本元素B可以在文本元素C之前，也可以在文本元素D之后，因此表示为文本元素B(文本元素C…文本元素D)或者(文本元素C…文本元素D)文本元素B。

规则3：文本元素C文本元素D组合只对应一个文本元素B。

规则4：文本元素C和文本元素D是多对多关系，表示为文本元素C文本元素D、文本元素C文本元素D文本元素D…文本元素D、文本元素C文本元素C…文本元素C文本元素D、文本元素C文本元素C…文本元素C文本元素D文本元素D…文本元素D。

步骤S24：基于所述历史关键字段之间的关系，构建对应的历史树状结构数据。

在具体实现步骤S23的过程中，通过上述得到的历史关键字段之间的组合规则中的元素和元素之间一对一、一对多、多对一或者多对多中的关系绘制初始历史树状结构。

需要说出的是，初始历史树状结构为N层多叉树状结构，其中，N为大于等于2的正整数。

例如：若服务请求A对应的服务请求主体内容q包含ABCD四种目标文本元素。基于上述得到的目标文本元素之间的组合规则中的元素和元素之间一对一、一对多、多对一或者多对多中的关系，也就是说，找出所有文本元素C文本元素D组合，以及文本元素C文本元素D组合对应的文本元素A和文本元素B，并基于上述关系绘制3层多叉树状结构，如图2所示。

在本发明实施例中，具体实现步骤S103基于与所述服务请求类型对应的历史树状结构数据，提取所述主体数据中的关键字段的过程，包括以下步骤：

步骤S31：基于与所述服务请求类型对应的历史树状结构数据，确定对应的目标历史关键字段。

在具体实现步骤S31过程中，解析与所述服务请求类型对应的历史树状结构数据，确定对应的目标历史关键字段。

步骤S32：从所述主体数据中提取与所述目标历史关键字段相应的数据，并将所述数据作为关键字段。

在具体实现步骤S32的过程中，通过配置正则表达式从所述主体数据中查找与所述目标历史关键字段对应的数据，并将其作为关键字段，即文件元素。

步骤S104：判断所述关键字段是否满足预设条件，若确定所述关键字段满足预设条件时，执行步骤S105，若确定所述关键字段不满足预设条件时，返回执行步骤S103，即进行再次筛选关键字段。

在具体实现步骤S104的过程中，基于所述关键字段判断是否存在字段缺失情况，即是否能将所有文本元素筛选出来，也就是说，判断每一目标历史关键字段是否均存在与之对应的关键字段，若存在与之对应的关键字段，确定其出现字段不缺失，执行步骤S105，若不存在与之对应的关键字段，确定其出现字段缺失，返回执行步骤S103，即进行再次筛选关键字段。

需要说明的是，预设条件是指根据实际情况设置的，比如是否存在字段缺失情况。

步骤S105：按照所述关键字段之间的关系构建对应的目标树状结构数据。

需要说明的是，具体实现步骤S105的过程中，包括以下步骤：

步骤S41：基于所述服务请求对应的类型，确定所述关键字段之间的关系。

在具体实现步骤S41的过程中，基于所述服务请求对应的类型，分析各个关键字段之间的关联关系。

步骤S42：基于所述关键字段之间的关系，构建对应的目标树状结构数据。

在具体实现步骤S42的过程中，通过上述得到的关键字段之间元素和元素之间一对一、一对多、多对一或者多对多中的关系绘制目标树状结构数据。

步骤S106：基于所述目标树状结构数据生成与所述服务请求对应的执行脚本。

在具体实现步骤S106的过程中，将所述目标树状结构数据输入自动化脚本生成模型，生成与所述服务请求对应的执行脚本。

需要说明的是，自动化脚本生成模型是预先根据设置的标准制定的。

与上述本发明实施例示出的文本处理方法相对应，本发明实施例示出还对应公开一种文本处理装置，如图3所示，为本发明实施例示出一种文本处理装置的结构示意图，该装置包括：

获取单元301，用于获取用户提交的服务请求所携带的待处理文件。

确定单元302，用于基于所述服务请求对应的类型，确定与所述待处理文件对应的主体数据。

提取单元303，用于基于与所述服务请求类型对应的历史树状结构数据，提取所述主体数据中的关键字段，所述历史树状结构数据是基于历史时间内的服务请求所携带的文件进行处理得到的。

构建单元304，用于在确定所述关键字段满足预设条件时，按照所述关键字段之间的关系构建对应的目标树状结构数据。

执行单元305，用于基于所述目标树状结构数据生成与所述服务请求对应的执行脚本。

需要说明的是，上述本发明实施例公开的文本处理装置中的各个单元具体的原理和执行过程，与上述本发明实施示出的文本处理方法相同，可参见上述本发明实施例公开的文本处理方法中相应的部分，这里不再进行赘述。

可选的，基于上述本发明实施例示出的文本处理装置，所述确定单元302，具体用于：确定与所述服务请求的类型对应的目标规则；基于所述目标规则确定与所述目标规则对应的主体数据。

可选的，基于上述本发明实施例示出的文本处理装置，提取单元303，具体用于：基于与所述服务请求类型对应的历史树状结构数据，确定对应的目标历史关键字段；从所述主体数据中提取与所述目标历史关键字段相应的数据，并将所述数据作为关键字段。

可选的，基于上述本发明实施例示出的文本处理装置，基于历史时间内的服务请求所携带的文件进行处理得到的历史树状结构数据的构建单元304，具体用于：获取历史时间内所有服务请求所携带的文本；针对每一文本，对所述文本进行分析处理，得到历史关键字段；基于所述服务请求对应的类型，确定所述历史关键字段之间的关系；基于所述历史关键字段之间的关系，构建对应的历史树状结构数据。

可选的，基于上述本发明实施例示出的文本处理装置，按照所述关键字段之间的关系构建对应的目标树状结构数据的构建单元304，具体用于：基于所述服务请求对应的类型，确定所述关键字段之间的关系；基于所述关键字段之间的关系，构建对应的目标树状结构数据。

基于上述本公开实施例公开的文本处理装置，上述各个模块可以通过一种由处理器和存储器构成的硬件设备实现。具体为上述各个模块作为程序单元存储于存储器中，由处理器执行存储在存储器中的上述程序单元来实现文本处理。

其中，处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来实现镜像安全加固。

本公开实施例提供了一种计算机存储介质，存储介质包括存储文本处理程序，其中，程序被处理器执行时实现图1所述的文本处理方法。

本公开实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行图1公开的文本处理方法。

本公开实施例提供了一种电子设备40，如图4所示，为本公开实施例提供的一种电子设备40的结构示意图。

本公开实施例中的电子设备可以是服务器、PC、PAD、手机等。

该电子设备包括至少一个处理器401，以及与处理器连接的至少一个存储器403，以及总线402。

处理器401、存储器403通过总线402完成相互间的通信。处理器401，用于执行存储器403中存储的程序。

存储器403，用于存储程序，该程序至少用于：获取用户提交的服务请求所携带的待处理文件；基于所述服务请求对应的类型，确定与所述待处理文件对应的主体数据；基于与所述服务请求类型对应的历史树状结构数据，提取所述主体数据中的关键字段，所述历史树状结构数据是基于历史时间内的服务请求所携带的文件进行处理得到的；在确定所述关键字段满足预设条件时，按照所述关键字段之间的关系构建对应的目标树状结构数据；基于所述目标树状结构数据生成与所述服务请求对应的执行脚本。

本申请还提供了一种计算机程序产品，当在电子设备上执行时，适于执行初始化有如下方法步骤的程序：

获取用户提交的服务请求所携带的待处理文件；基于所述服务请求对应的类型，确定与所述待处理文件对应的主体数据；基于与所述服务请求类型对应的历史树状结构数据，提取所述主体数据中的关键字段，所述历史树状结构数据是基于历史时间内的服务请求所携带的文件进行处理得到的；在确定所述关键字段满足预设条件时，按照所述关键字段之间的关系构建对应的目标树状结构数据；基于所述目标树状结构数据生成与所述服务请求对应的执行脚本。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在一个典型的配置中，设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本处理方法，其特征在于，所述方法包括：

获取用户提交的服务请求所携带的待处理文件；

2.根据权利要求1所述的方法，其特征在于，所述基于所述服务请求对应的类型，确定与所述待处理文件对应的主体数据，包括：

确定与所述服务请求的类型对应的目标规则；

基于所述目标规则确定与所述目标规则对应的主体数据。

3.根据权利要求1所述的方法，其特征在于，所述基于历史时间内的服务请求所携带的文件进行处理得到的历史树状结构数据的过程包括：

获取历史时间内所有服务请求所携带的文本；

4.根据权利要求1所述的方法，其特征在于，所述基于与所述服务请求类型对应的历史树状结构数据，提取所述主体数据中的关键字段，包括：

5.根据权利要求1所述的方法，其特征在于，按照所述关键字段之间的关系构建对应的目标树状结构数据，包括：

6.一种文本处理装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述确定单元，具体用于：确定与所述服务请求的类型对应的目标规则；基于所述目标规则确定与所述目标规则对应的主体数据。

8.根据权利要求6所述的装置，其特征在于，所述提取单元，具体用于：基于与所述服务请求类型对应的历史树状结构数据，确定对应的目标历史关键字段；从所述主体数据中提取与所述目标历史关键字段相应的数据，并将所述数据作为关键字段。

9.一种电子设备，其特征在于，所述电子设备用于运行程序，其中，所述程序运行时执行如权利要求1-5中任一所述的文本处理方法。

10.一种计算机存储介质，其特征在于，所述存储介质包括存储程序，其中，在所述程序运行时控制所述存储介质所在设备执行如权利要求1-5中任一所述的文本处理方法。