CN115630174A

CN115630174A - 一种多源公告文档处理方法、装置、存储介质及电子设备

Info

Publication number: CN115630174A
Application number: CN202211647093.8A
Authority: CN
Inventors: 韦志立; 张炜祺; 赵诣; 孙科; 崔渊
Original assignee: Shanghai Kingstar Fintech Co Ltd
Current assignee: Shanghai Kingstar Fintech Co Ltd
Priority date: 2022-12-21
Filing date: 2022-12-21
Publication date: 2023-01-20
Anticipated expiration: 2042-12-21
Also published as: CN115630174B

Abstract

本公开实施例提供的一种多源公告文档处理方法、装置、存储介质及电子设备，属于数据处理领域，构建出多源公告文档分析处理的整套流程，包括数据源读取，数据抽取，数据预处理，数据存储主处理，数据处理日志分析，打造全链路多源公告信息的抽取跟存储闭环，同时基于自研深度学习的NLP模型KS‑BERT，结合正则规范，精准抽取文本特定信息；实现智能化、自动化、一体化多源公告文档分析处理。

Description

一种多源公告文档处理方法、装置、存储介质及电子设备

技术领域

本公开实施例涉及数据处理领域，具体地涉及一种多源公告文档处理方法、装置、存储介质及电子设备。

背景技术

金融领域的文本智能分析与处理是一个有着众多应用场景又充满各种挑战的领域。无论是企业发布的财务相关文档，如审计报告、定期报告和信贷审批报告，证券发行时的招股说明书、债券募集说明书等，对文档质量和准确度的把控都非常严格；再比如上市公司发布的公告文档，投资或评级机构发布的研究报告，投资人需要从公告里迅速提取有用的信息，或者舆情信息的正负面，来支撑自己的投资决策。然而，在文本规范跟样式的多样性，中文语义的复杂度等等方面，导致用传统方法从文档中提取结构化信息变得异常困难，同时现有的文本的分析与处理流程过多依赖人工；因此如何提高文本提取的精度以及自动化分析处理文本是亟待解决的问题。

发明内容

本公开的目的在于，针对现有技术中存在的问题，提供一种多源公告文档处理方法、装置、存储介质及电子设备，提高文本抽取精度的同时实现智能化、自动化、一体化多源公告文档分析处理。

根据本公开的一个方面，提出一种多源公告文档处理方法，包括：

解析所述多源公告文档并抽取预设数据，

数据预处理，包括数据库设计文档勘误，并基于所述数据库的字段数据类型及长度对所述预设数据类型检查及长度校正，得到第二预设数据，

基于传入的数据库模式和表名自动获取每张表的字段，并基于所述字段，获取所述第二预设数据中所述字段对应的值，

将所述字段和所述字段对应的值存入所述数据库。

在一些实施例中，所述解析所述多源公告文档并抽取预设数据包括，

对金融类语料库预处理，获取第一语料库，

利用改进的BERT模型对所述第一语料库进行预训练，训练过程中全词Mask句子中的token，并去除Next Sentence Prediction任务，

利用研报行业分类任务和金融实体识别任务对模型微调，训练得到适用于金融领域的特定信息抽取的深度神经网络模型KS-BERT模型，

利用所述KS-BERT模型对所述多源公告文档解析并抽取所述预设数据。

在一些实施例中，所述方法还包括，所述数据库设计文档勘误包括，通过扫描现存数据库设计文档，提取字段名、字段对应的数据类型逐条与当前运行数据库版本进行比较，更新设计文档为当前运行数据库版本。

在一些实施例中，所述方法还包括，所述基于所述数据库的字段数据类型及长度对所述预设数据类型检查及长度校正，得到第二预设数据，具体为，

响应于检测到预设数据类型字段长度异常，按允许的最大长度截断，并记录在日志文件中。

在一些实施例中，所述方法还包括，所述将所述字段和所述字段对应的值存入所述数据库，具体为，将所述字段与对应的值组成哈希散列，将一条或多条数据一次性存储进数据库。

在一些实施例中，所述方法还包括，日志信息分析，用于错误信息的收集和分析，其中所述日志信息包括任务开始时间，结束时间，数据来源文件名，公告类别，预设数据解析单元API返回值，错误类型。

在一些实施例中，所述方法还包括，其中，所述日志信息分析包括，至少基于错误的类型和次数调整所述模型。

根据本公开的另一个方面，提出一种多源公告文档处理装置，包括：

预设数据解析单元，用于解析所述多源公告文档并抽取预设数据，

第一预处理单元，用于数据库设计文档勘误，

第二预处理单元，用于基于所述数据库的字段数据类型及长度对所述预设数据类型检查及长度校正，得到第二预设数据，

批处理单元，用于基于传入的数据库模式和表名自动获取每张表的字段，并基于所述字段，获取所述第二预设数据中所述字段对应的值，

存储单元，用于将所述字段和所述字段对应的值存入所述数据库。

对金融类语料库预处理，获取第一语料库，

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如上任一实施例所述的多源公告文档处理方法中的步骤。

本申请实施例还提供一种电子设备，所述电子设备包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，执行如上任一实施例所述的多源公告文档处理方法中的步骤。

本公开实施例提供的一种多源公告文档处理方法、装置、存储介质及电子设备，构建出多源公告文档分析处理的整套流程，包括数据源读取，数据抽取，数据预处理，数据存储主处理，数据处理日志分析，打造全链路多源公告信息的抽取跟存储闭环，同时基于自研深度学习的NLP模型KS-BERT，结合正则规范，精准抽取文本特定信息；实现智能化、自动化、一体化多源公告文档分析处理。

附图说明

下面结合附图，通过对本公开的具体实施方式详细描述，将使本公开的技术方案及其它有益效果显而易见。

图1为本申请实施例提供的一种多源公告文档处理方法示意图。

图2为本申请实施例提供的KS-BERT模型原理示意图。

图3为本申请实施例提供的日志格式示意图。

图4本申请实施例提供的一种多源公告文档处理装置示意图。

图5本申请实施例提供的一种电子设备示意图。

具体实施方式

下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。本公开的说明书和权利要求书以及附图中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排它的包含。在本公开的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以下将分别对本申请实施例提供的一种多源公告文档处理方法、装置、存储介质及电子设备进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。

实施例一：

具体地，请参阅图1，为本公开提供的一种多源公告文档处理方法。具体步骤如下：

步骤S1解析所述多源公告文档并抽取预设数据。

在一些实施例中，信息抽取服务部署在云端或本地，通过接口调用的方式获取来自不同源的原始公告文档数据，并启用并发式处理技术，使得同一时间内可以发送多次调用接口处理请求。采用正则表达式抽取跟深度学习中自然语言处理（NLP）模型相结合的方式，准确高效地处理传入的文本。

在一些实施例中，信息抽取模块结合微服务低耦合、高扩展的微服务架构的思想，将服务设计为一个接口，采用http和RPC协议，并发式多线程地操作数据的发送与接收。主要使用正则表达式和模型的方法进行文档的特定信息抽取，例如抽取的预设数据可以是董事会决议、对外担保、股东大会、股东股份被质押冻结或司法拍卖、股东股份减持、监事会决议、破产与重整、诉讼与仲裁和业绩预告公告的事件内容，抽取的预设数据格式本实施例不做限制，优选json格式输出供外部调用。

在一些实施例中，本公开自研了一套大型预训练语言模型KS-BERT。KS-BERT所采用的预训练语料为千万级的金融文本，包括金融财经类新闻、研报/上市公司公告、金融类百科词条，同时还在金融业务专家的指导下，对于各类语料的重要部分进行筛选、预处理之后得到最终用于模型训练的语料。为实现本公开的目的，训练任务去除了原有的NextSentence Prediction任务，主要进行的是Financial Whole Word MASK Prediction任务。在现有的中文BERT中，输入是以字为粒度进行切分，没有考虑到金融领域内共现单词或词组之间的关系，从而无法学习到金融领域内隐含的先验知识，降低了模型的学习效果。

在一些实施例中，本公开将全词Mask的方法应用在金融领域语料预训练中，即对组成的同一个词的汉字全部进行Mask。为了让模型更好地学习到语义层的金融领域知识，更全面地学习到金融领域词句的特征分布，同时引入了两类有监督学习任务，分别是研报行业分类和公司公告的金融实体识别任务。KS-BERT模型在多个金融领域的下游任务中获得了显著的性能提升，在不加任何额外调整的情况下，F1-score直接提升5个百分点以上。KS-BERT模型原理图如图2所示。

步骤S2数据预处理，包括数据库设计文档勘误，并基于所述数据库的字段数据类型及长度对所述预设数据类型检查及长度校正，得到第二预设数据。

在一些实施例中，当程序收到预设数据抽取API返回的结果时，数据会进入到我们的预处理模块。预处理模块隶属于整个流程中的一个阶段，设置预处理模块的目的是发现隐藏错误，增加程序的健壮性。预处理模块内部其实由几个子模块串行而成。第一个是设计文档勘误模块。数据库在最初都有设计文档，然后随着项目的进度，可能设计文档需要修改或者添加，会跟工程上构建的数据库存在不一致。本模块的目的是发现现存数据库设计文档跟当前运行版本数据库之间的差异，并及时纠正。该模块通过扫描设计文档，提取字段名，以及字段相对应的数据类型，逐条与现有运行数据库进行比对。如有不同则立马输出提示。并将设计文档更新为当前运行的版本。

第二个模块是类型长度检查校正模块。通常数据库某些varchar（可变长度字符串）类型字段设置了最大长度，例如会议地点字段，一般不会过长。但是抽取API返回的数据有可能出现数据长度超过最大长度限制的情况，为应对这种情况，类型长度检查校正模块，对输入的每一条数据都进行类型检查跟长度校正，若发生异常，则按允许的最大长度截断数据，并记录在日志文件中。

预处理模块类似于“质量检查”的作用，及时发现返回数据中的不一致的数据，提高了数据一致性和程序的健壮性，也极大的提高了后续程序运行的效率。经过预处理后的第二预设数据，将进入批量处理模块。

步骤S3基于传入的数据库模式和表名自动获取每张表的字段，并基于所述字段，获取所述第二预设数据中所述字段对应的值。

在一些实施例中，在批处理阶段，采用“泛型”设计的思想，不考虑数据属于哪种类型的公告，也不考虑每种公告的字段异同，可以根据传入的数据库模式schema和表名自动获取每张表的字段名，以及返回第二预设数据例如json字符串中相应字段的值。

步骤S4将所述字段和所述字段对应的值存入所述数据库。

在一些实施例中，把上述步骤S3中自动获取的字段和对应的字段的值组成哈希散列，然后按每1000条数据一次性储存进数据库。每次存储的数据数值也可以修改，以满足用户个性化需求。得益于自适应，可拓展的程序，我们可以高效地处理大批量数据，保证程序的效率跟时效性。

在一些实施例中，还包括日志分析，即使平台的自动化程度已经很高，但为了更高的准确度，有时也需要人为的介入与修正。在整个流程中我们注重错误信息的收集，便于迅速定位问题，增强程序的鲁棒性。如图3日志格式示意图所示，日志列表分为以下几个内容：子任务开始时间，结束时间，数据来源文件名，公告类别，数据抽取API返回值，错误类型。所谓子任务，就是处理一个公告文件的任务，开始时间为将数据发送给云端抽取API的起始时间，结束时间为数据储存的时间。API返回值包括“解析成功”和“解析失败”，“解析失败”意味着公告没有被正确解析，可能是公告本身的问题，也可能是程序的问题，需要后续进一步研究。“解析失败”这条记录里还同时记录了运行失败的细节。错误类型一栏中，程序记录了在运行预处理模块时碰到的所有错误。日志保存为json格式，便于后续的读取。

为了便于日志文件的分析，我们独立研发了日志分析平台。如下图所示，在日志分析平台中，我们提供了按错误字段搜索的功能，用于排查某些特定错误。我们还有直观的图像统计功能，如果某类错误过多，那可能是模型出现了系统性问题，需要调整。

实施例二

为实现上述目的，本实施例提出了一种多源公告文档处理装置，请参阅图4，为本公开提供的一种多源公告文档处理装置的结构示意图。装置400包括：预设数据解析单元401、第一预处理单元402、第二预处理单元403、批处理单元404、存储单元405。

预设数据解析单元401，用于解析所述多源公告文档并抽取预设数据，

第一预处理单元402，用于数据库设计文档勘误，

第二预处理单元403，用于基于所述数据库的字段数据类型及长度对所述预设数据类型检查及长度校正，得到第二预设数据，

批处理单元404，用于基于传入的数据库模式和表名自动获取每张表的字段，并基于所述字段，获取所述第二预设数据中所述字段对应的值，

存储单元405，用于将所述字段和所述字段对应的值存入所述数据库。

在一些实施例中，其中，所述解析所述多源公告文档并抽取预设数据包括，

对金融类语料库预处理，获取第一语料库，

实施例三

相应的，本申请实施例还提供一种电子设备，该电子设备可以为终端或者服务器。如图5所示，图5为本申请实施例提供的电子设备的结构示意图。

该电子设备500包括有一个或者一个以上处理核心的处理器501、有一个或一个以上计算机可读存储介质的存储器502及存储在存储器502上并可在处理器上运行的计算机程序。其中，处理器501与存储器502电性连接。本领域技术人员可以理解，图中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

处理器501是电子设备500的控制中心，利用各种接口和线路连接整个电子设备500的各个部分，通过运行或加载存储在存储器502内的软件程序（计算机程序）和/或单元，以及调用存储在存储器502内的数据，执行电子设备500的各种功能和处理数据，从而对电子设备500进行整体监控。

在本申请实施例中，电子设备500中的处理器501会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器502中，并由处理器501来运行存储在存储器502中的应用程序，从而实现各种功能：

解析所述多源公告文档并抽取预设数据，

将所述字段和所述字段对应的值存入所述数据库。

以上各个操作的具体实施可参见前述的实施例，在此不再赘述。

可选的，如图5所示，电子设备500还包括：多源公告文档处理模块503、通讯模块504、输入单元505以及电源506。其中，处理器501分别与多源公告文档处理模块503、通讯模块504、输入单元505以及电源506电性连接。本领域技术人员可以理解，图5中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

多源公告文档处理模块503可用于实现多源公告文档的分析处理。

通信模块504可用于与其他设备通信。

输入单元505可用于接收输入的数字、字符信息或用户特征信息（例如指纹、虹膜、面部信息等），以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

电源506用于给电子设备500的各个部件供电。可选的，电源506可以通过电源管理系统与处理器501逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源506还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

实施例四

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的多源公告文档处理方法中的步骤。例如，该计算机程序可以执行如下步骤：

解析所述多源公告文档并抽取预设数据，

将所述字段和所述字段对应的值存入所述数据库。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器（ROM，Read Only Memory）、随机存取记忆体（RAM，Random Access Memory）、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种多源公告文档处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种多源公告文档处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种多源公告文档处理方法、装置、计算机可读存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种多源公告文档处理方法，其特征在于，包括以下步骤：

解析所述多源公告文档并抽取预设数据，

将所述字段和所述字段对应的值存入所述数据库。

2.根据权利要求1所述的方法，其特征在于，

所述解析所述多源公告文档并抽取预设数据包括，

对金融类语料库预处理，获取第一语料库，

3.根据权利要求1所述的方法，其特征在于，

所述数据库设计文档勘误包括，通过扫描现存数据库设计文档，提取字段名、字段对应的数据类型逐条与当前运行数据库版本进行比较，更新设计文档为当前运行数据库版本。

4.根据权利要求1所述的方法，其特征在于，

所述基于所述数据库的字段数据类型及长度对所述预设数据类型检查及长度校正，得到第二预设数据，具体为，

5.根据权利要求1所述的方法，其特征在于，

所述将所述字段和所述字段对应的值存入所述数据库，具体为，将所述字段与对应的值组成哈希散列，将一条或多条数据一次性存储进数据库。

6.根据权利要求2所述的方法，其特征在于，还包括，

日志信息分析，用于错误信息的收集和分析，其中所述日志信息包括任务开始时间，结束时间，数据来源文件名，公告类别，预设数据解析单元API返回值，错误类型。

7.根据权利要求6所述的方法，其特征在于，

其中，所述日志信息分析包括，至少基于错误的类型和次数调整所述模型。

8.一种多源公告文档处理装置，其特征在于，包括：

第一预处理单元，用于数据库设计文档勘误，

9.根据权利要求8所述的装置，其特征在于，

所述解析所述多源公告文档并抽取预设数据包括，

对金融类语料库预处理，获取第一语料库，

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如权利要求1-7任一项所述的多源公告文档处理方法的步骤。

11.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，执行如权利要求1-7任一项所述的多源公告文档处理方法的步骤。