CN114692596A

CN114692596A - 基于深度学习算法的债券信息解析方法、装置及电子设备

Info

Publication number: CN114692596A
Application number: CN202210168584.8A
Authority: CN
Inventors: 喻广博; 周靖宇
Original assignee: Beijing Kuaique Information Technology Co ltd
Current assignee: Beijing Kuaique Information Technology Co ltd
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2022-07-01

Abstract

本发明公开了一种基于深度学习算法的债券信息解析方法、装置及电子设备，方法包括：预先构建深度学习算法模型；获取目标域数据集，根据预设的标注指南构建输入特征；根据输入特征对深度学习算法模型中的编码器依次进行粗粒度预训练和细粒度预训练，生成目标编码器；对深度学习算法的解码器进行设置，生成目标解码器；根据目标编码器和目标解码器生成目标深度学习算法模型；根据输入特征对目标深度学习算法模型进行训练，生成债券解析模型；将待解析的债券信息输入债券解析模型，输出解析结果。本发明实施例实现对金融债券交易进行命名实体识别，提升了富含数值数据的任务中整体准确率；有效解决命名实体识别中实体嵌套的问题，提高了解析效率。

Description

基于深度学习算法的债券信息解析方法、装置及电子设备

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于深度学习算法的债券信息解析方法、装置及电子设备。

背景技术

在文本处理中，一个通用的需求是将一段文本中有价值的信息提取出来，比如在订购酒店的需求，需要将非结构的文本信息中的地点，时间等关键信息抽取出来。在金融债券领域中也同样存在这种需求，从非结构化的文本信息中提取有价值的信息。

在自然语言处理领域，命名实体识别是一个相对比较成熟的序列标注任务，根据输入的句子，预测出其中具有特定意义的实体的过程，例如债券名，债券代码，机构名。现有的深度学习算法，比较经典的技术有LSTM+CRF,Bert+CRF,Bert+BiLSTM+CRF等序列标注模型。

现有的预训练模型建立在构造语言模型上，目标是学习笼统的文本表征，缺点是忽视了命名实体识别中丰富的知识。比如Bert模型的预训练过程是随机遮掩句子中的一些单词，再对这些单词进行预测，这种方式不能很好的将命名实体中的实体信息，边界信息融入到模型中来，解析效果差。

因此，现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术的不足，本发明提供了一种基于深度学习算法的债券信息解析方法、装置及电子设备，旨在解决现有技术中基于深度学习算法的债券解析方法的预训练模型无法将命名实体中的实体信息及边界信息融入到模型中，解析效果较差的问题。

本发明的技术方案如下：

本发明第一实施例提供了一种基于深度学习算法的债券信息解析方法，方法包括：

预先构建深度学习算法模型；所述深度学习算法模型包括编码器和解码器；

获取目标域数据集，根据预设的标注指南，构建目标域数据集对应的输入特征；

根据输入特征对深度学习算法模型中的编码器依次进行粗粒度预训练和细粒度预训练，生成目标编码器；

对深度学习算法的解码器进行设置，生成目标解码器，所述目标解码器采用指针网络；

根据目标编码器和目标解码器生成目标深度学习算法模型；

根据输入特征对目标深度学习算法模型进行训练，生成债券解析模型；

获取待解析的债券信息，将债券信息输入债券解析模型，输出解析结果。进一步地，所述预先构建深度学习算法模型；所述深度学习算法模型包括编码器和解码器，包括：

预先构建深度学习算法模型的编码器，所述编码器为BERT模型；

预先构建解码器，所述解码器用于对编码进行解码；

根据编码器和解码器生成深度学习算法模型。

进一步地，所述获取目标域数据集，根据预设的标注指南，构建目标域数据集对应的输入特征，包括：

获取债券数据对应的标注指南；

获取目标域数据集，根据预设的标注指南及目标域数据集生成标注指南和输入数据组成的输入特征。

进一步地，所述根据输入特征对深度学习算法模型中的编码器进行粗粒度预训练，包括：

获取大量公开数据集生成弱监督数据；

根据输入特征对深度学习算法的编码器进行预训练，并采用弱监督数据对编码器进行监督，生成第一编码器，所述编码器用于判断输入句子中的实体与实体。

进一步地，所述根据输入特征对对深度学习算法模型中的编码器进行细粒度预训练，包括：

获取金融领域的命名实体词典，根据命名实体词典扫描输入特征，并根据最大匹配算法自动标注；

通过自动筛选的策略，在每一轮的训练结束后都用训练好的模型去重新预测数据集，重新标注置信度高的标签；

使用远程监督数据进行下一轮的数据，训练完成后，输出目标编码器。

进一步地，所述对深度学习算法的解码器进行设置，生成目标解码器，所述目标解码器采用指针网络，包括：

对对深度学习算法的解码器进行设置，采用两个softmax多分类器进行分类，分别记为第一softmax多分类器和第二softmax多分类器，所述第一softmax多分类器用于标注实体的开始，所述第二softmax多分类用于标注实体的结束；

定义损失函数为两个softmax多分类器的交叉熵之和，生成目标解码器。

进一步地，所述获取待解析的债券信息，将债券信息输入债券解析模型，输出解析结果，包括：

获取待解析的债券信息，将债券信息输入债券解析模型的编码器；

所述编码器对待解析的债券信息进行文本特征编码，生成固定维度的字符向量；

将所述字符向量输入债券解析模型的解码器，输出解码后的解析结果。

本发明的另一实施例提供了一种基于深度学习算法的债券信息解析装置，装置包括：

模型构建模块，用于预先构建深度学习算法模型；所述深度学习算法模型包括编码器和解码器；

数据处理模块，用于获取目标域数据集，根据预设的标注指南，构建目标域数据集对应的输入特征；

预训练模块，用于根据输入特征对深度学习算法模型中的编码器依次进行粗粒度预训练和细粒度预训练，生成目标编码器；

解码器设置模块，用于对深度学习算法的解码器进行设置，生成目标解码器，所述目标解码器采用指针网络；

目标模型生成模块，用于根据目标编码器和目标解码器生成目标深度学习算法模型；

训练模块，用于根据输入特征对目标深度学习算法模型进行训练，生成债券解析模型；

解析模块，用于获取待解析的债券信息，将债券信息输入债券解析模型，输出解析结果。

本发明的另一实施例提供了一种电子设备，所述电子设备包括至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的基于深度学习算法的债券信息解析方法。

本发明的另一实施例还提供了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行上述的基于深度学习算法的债券信息解析方法。

有益效果：本发明实施例可实现对金融债券交易进行命名实体识别，提升了富含数值数据的任务中整体准确率；有效解决命名实体识别中实体嵌套的问题，提高了解析效率。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明一种基于深度学习算法的债券信息解析方法较佳实施例的流程图；

图2为本发明一种基于深度学习算法的债券信息解析装置的较佳实施例的功能模块示意图；

图3为本发明一种电子设备的较佳实施例的硬件结构示意图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合附图对本发明实施例进行介绍。

现有技术中，在解码器部分，现在比较流行的CRF模块没有考虑到各个实体类别本身的含义。特别在针对金融的垂直领域，债券解析模块中每个实体类型都有比较详尽的注释指南。传统的命名实体识别装置比如BERT+CRF结构如无法利用到债券数据的标注文档。标注文档中包含着丰富的文本知识，比如对实体的解释说明，可以指导模型更好的学习到实体的底层特征；CRF解码器装置难以处理实体嵌套。面对有歧义的实体时难以准确识别。

针对上述问题，本发明实施例提供了一种基于深度学习算法的债券信息解析方法，请参阅图1，图1为本发明一种基于深度学习算法的债券信息解析方法较佳实施例的流程图。如图1所示，其包括：

步骤S100、预先构建深度学习算法模型；所述深度学习算法模型包括编码器和解码器；

步骤S200、获取目标域数据集，根据预设的标注指南，构建目标域数据集对应的输入特征；

步骤S300、根据输入特征对深度学习算法模型中的编码器依次进行粗粒度预训练和细粒度预训练，生成目标编码器；

步骤S400、对深度学习算法的解码器进行设置，生成目标解码器，所述目标解码器采用指针网络；

步骤S500、根据目标编码器和目标解码器生成目标深度学习算法模型；

步骤S600、根据输入特征对目标深度学习算法模型进行训练，生成债券解析模型；

步骤S700、获取待解析的债券信息，将债券信息输入债券解析模型，输出解析结果。

具体实施时，本发明实施例中的模型用于对命名实体进行识别。命名实体识别从模型来说是一个编码器-解码器模型，具体来说就是编码器学习语义的表征，解码器学习分类等下游任务。本方案在基础的端到端深度学习框架上，基于金融领域的数据特征，引入<标注指南，输入文本>的阅读理解机制，对债券交易中的数据先进行大规模语料的预训练从而增强语义表征，再将先验知识(即标注指南)输入到模型的编码器部分，引导神经网络学习更深层次的结构关系，最后在解码层加入指针网络解决实体嵌套的问题。整套方案保持了一个端到端的学习形式，并且是一个解释性强且泛化能力强的算法模型方案。

预训练的目标是在公开域数据集上对模型训练，以便获得良好的语义表征从而更好的学习私有域数据。因为金融债券的相关数据集获取困难而且预训练模型对数据量要求高，常见的直接基于大量文本进行预训练的传统方法不具有可行性。为了改善以上不足并更好的将实体信息融入到预训练模型中来，本方案采用了针对命名实体识别优化的“粗粒度”与“细粒度”的分为二阶段的预训练模型。

通过对大量数据进行学习，从而得到了一个更好的语义表征H。这一步骤我们会在业务数据上进行微调，从而得到最终的债券解析模型。根据标注文档构建<问句，输入文本>的特征作为模型的输入；编码器部分采用预训练出模型的编码器部分；解码器部分采用指针网络，即使用2个Softmax分类器分别用来预测实体的开始和结束。

本发明实施例主要用于金融债券数据，也可以用于其他领域的半结构化文本信息。

在一个实施例中，预先构建深度学习算法模型；所述深度学习算法模型包括编码器和解码器，包括：

预先构建解码器，所述解码器用于对编码进行解码；

根据编码器和解码器生成深度学习算法模型。

具体实施时，预先构建深度学习算法模型的编码器，所述编码器为BERT模型；预先构建解码器，所述解码器用于对编码进行解码；根据编码器和解码器生成深度学习算法模型。BERT是“Bidirectional Encoder Representations from Transformers”的首字母缩写，整体是一个自编码语言模型(Autoencoder LM)，并且其设计了两个任务来预训练该模型。第一个任务是采用MaskLM的方式来训练语言模型，通俗地说就是在输入一句话的时候，随机地选一些要预测的词，然后用一个特殊的符号[MASK]来代替它们，之后让模型根据所给的标签去学习这些地方该填的词。第二个任务在双向语言模型的基础上额外增加了一个句子级别的连续性预测任务，即预测输入BERT的两段文本是否为连续的文本，引入这个任务可以更好地让模型学到连续的文本片段之间的关系。

在一些其他实施例中可以采用其他Bert变种模型，或者为了速度需求采用LSTM，CNN编码器。

在一个实施例中，获取目标域数据集，根据预设的标注指南，构建目标域数据集对应的输入特征，包括：

获取债券数据对应的标注指南；

具体实施时，标注指南是指标注人员用于数据标注的说明文档。比如对于实体“价格”，对应的标注指南则是“常见为数字字符串，整数位常见为两位、三位数字，小数位常见为两位、三位、四位小数。为了充分利用标注指南中的实体说明信息，输入层由标注指南构造的问句和输入句子的拼接构造，即“<CLS>问句<SEP>输入句子”。

在一个实施例中，根据输入特征对深度学习算法模型中的编码器进行粗粒度预训练，包括：

获取大量公开数据集生成弱监督数据；

具体实施时，首先对模型进行粗粒度的训练，这一阶段的目标是让模型更好的学习到实体边界。因为维基文档数据集大且存在<类别，实体>这样的天然弱对应关系(锚文本)，所以这一阶段收集大量公开数据集生成弱监督数据，然后使用阅读理解解析装置用来预热模型。预测的目标是找到实体边界，让模型学会判断输入句子中的实体与非实体，所以问句的构建简化为找到实体。模型的输入的构建如下：<CLS>找到实体<SEP>输入句子。

在一个实施例中，根据输入特征对对深度学习算法模型中的编码器进行细粒度预训练，包括：

具体实施时，细粒度命名实体预训练的目的是让模型更好的学习到实体相关的底层特征。

这一部分主要使用金融相关的命名实体词典知识来生成标签的数据并进行训练，在上一步的基础上，我们根据命名实体词典扫描数据集的实体并根据最大匹配算法自动标注，具体的工作原理如下：假定词典中的最长词有i个汉字字符，则用被处理文档的当前字串中的前i个字作为匹配字段，查找字典。若字典中存在这样的一个i字词，则匹配成功，匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词，则匹配失败，将匹配字段中的最后一个字去掉，对剩下的字串重新进行匹配处理。如此进行下去，直到匹配成功，即切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配，然后取下一个i字字串进行匹配处理，直到文档被扫描完为止。

但是这样生成的数据集会有大量噪声例如缺失的标签、边界错误。为了解决这样的问题，本方案提出了self-picking(自动筛选)策略，在每一轮的训练结束后都用训练好的模型去重新预测一遍数据集，重新标注置信度高的标签。具体来说，定义一个阈值σ，当p_start,p_end均大于σ时，将text[start:end]标注为对应的实体，在下一轮的训练使用这个新的数据集。之后使用远程监督数据进行下一轮的训练，针对金融现券类的垂直领域，根据每个实体类型的标注指南来构造问句，使用阅读理解解析装置进行训练。

在一个实施例中，对深度学习算法的解码器进行设置，生成目标解码器，所述目标解码器采用指针网络，包括：

具体实施时，债券文本具有复杂度高，歧义性强等特点。与常见的CRF解码器模块不同，为了有效地解决实体嵌套问题，本方案使用两个softmax多分类器，一个用来标注实体的开始，一个用来标注实体的结束，最后开始和结束位置中间的部分即为实体：

最终的损失函数定义为两个softmax多分类器的交叉熵之和：

根据定义结果生成目标解码器。

在一个实施例中，获取待解析的债券信息，将债券信息输入债券解析模型，输出解析结果，包括：

具体实施时，获取待解析的债券信息，债券信息可以是聊天工具中的债券相关文本，将债券信息输入债券解析模型的基于Bert模型的编码器，基于Bert模型的编码器将字符向量输入债券解析模型的解码器，输出解码后的债券格式的解析结果。

本发明实施例将阅读理解框架融入到命名实体解析模型上进行学习；通过大规模数据进行多粒度预训练，然后将得到的模型迁移到具体业务上；实现了对金融债券交易进行命名实体识别，对富含数值数据的任务中整体准确率提升了2％-5％以上；还可有效解决命名实体识别中实体嵌套的问题，提高解析效率。

需要说明的是，上述各步骤之间并不必然存在一定的先后顺序，本领域普通技术人员，根据本发明实施例的描述可以理解，不同实施例中，上述各步骤可以有不同的执行顺序，亦即，可以并行执行，亦可以交换执行等等。

本发明另一实施例提供一种基于深度学习算法的债券信息解析装置，如图2所示，装置1包括：

模型构建模块11，用于预先构建深度学习算法模型；所述深度学习算法模型包括编码器和解码器；

数据处理模块12，用于获取目标域数据集，根据预设的标注指南，构建目标域数据集对应的输入特征；

预训练模块13，用于根据输入特征对深度学习算法模型中的编码器依次进行粗粒度预训练和细粒度预训练，生成目标编码器；

解码器设置模块14，用于对深度学习算法的解码器进行设置，生成目标解码器，所述目标解码器采用指针网络；

目标模型生成模块15，用于根据目标编码器和目标解码器生成目标深度学习算法模型；

训练模块16，用于根据输入特征对目标深度学习算法模型进行训练，生成债券解析模型；

解析模块17，用于获取待解析的债券信息，将债券信息输入债券解析模型，输出解析结果。

具体实施方式见方法实施例，此处不再赘述。

本发明另一实施例提供一种电子设备，如图3所示，电子设备10包括：

一个或多个处理器110以及存储器120，图3中以一个处理器110为例进行介绍，处理器110和存储器120可以通过总线或者其他方式连接，图3中以通过总线连接为例。

处理器110用于完成电子设备10的各种控件逻辑，其可以为通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、单片机、ARM(Acorn RISCMachine)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件控件或者这些部件的任何组合。还有，处理器110还可以是任何传统处理器、微处理器或状态机。处理器110也可以被实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP核、或任何其它这种配置。

存储器120作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的基于深度学习算法的债券信息解析方法对应的程序指令。处理器110通过运行存储在存储器120中的非易失性软件程序、指令以及单元，从而执行设备10的各种功能应用以及数据处理，即实现上述方法实施例中的基于深度学习算法的债券信息解析方法。

存储器120可以包括存储程序区和存储数据区，其中，存储程序区可存储操作装置、至少一个功能所需要的应用程序；存储数据区可存储根据设备10使用所创建的数据等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器120可选包括相对于处理器110远程设置的存储器，这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个单元存储在存储器120中，当被一个或者多个处理器110执行时，执行上述任意方法实施例中的基于深度学习算法的债券信息解析方法，例如，执行以上描述的图1中的方法步骤S100至步骤S700。

本发明实施例提供了一种非易失性计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，例如，执行以上描述的图1中的方法步骤S100至步骤S700。

作为示例，非易失性存储介质能够包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦ROM(EEPROM)或闪速存储器。易失性存储器能够包括作为外部高速缓存存储器的随机存取存储器(RAM)。通过说明并非限制，RAM可以以诸如同步RAM(SRAM)、动态RAM、(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、Synchlink DRAM(SLDRAM)以及直接Rambus(兰巴斯)RAM(DRRAM)之类的许多形式得到。本文中所描述的操作环境的所公开的存储器控件或存储器旨在包括这些和/或任何其他适合类型的存储器中的一个或多个。

本发明的另一种实施例提供了一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被处理器执行时，使处理器执行上述方法实施例的基于深度学习算法的债券信息解析方法。例如，执行以上描述的图1中的方法步骤S100至步骤S700。

以上所描述的实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施例的描述，本领域的技术人员可以清楚地了解到各实施例可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件实现。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存在于计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)执行各个实施例或者实施例的某些部分的方法。

除了其他之外，诸如"能够'、"能"、"可能"或"可以"之类的条件语言除非另外具体地陈述或者在如所使用的上下文内以其他方式理解，否则一般地旨在传达特定实施方式能包括(然而其他实施方式不包括)特定特征、元件和/或操作。因此，这样的条件语言一般地还旨在暗示特征、元件和/或操作对于一个或多个实施方式无论如何都是需要的或者一个或多个实施方式必须包括用于在有或没有输入或提示的情况下判定这些特征、元件和/或操作是否被包括或者将在任何特定实施方式中被执行的逻辑。

已经在本文中在本说明书和附图中描述的内容包括能够提供基于深度学习算法的债券信息解析方法及装置的示例。当然，不能够出于描述本公开的各种特征的目的来描述元件和/或方法的每个可以想象的组合，但是可以认识到，所公开的特征的许多另外的组合和置换是可能的。因此，显而易见的是，在不脱离本公开的范围或精神的情况下能够对本公开做出各种修改。此外，或在替代方案中，本公开的其他实施例从对本说明书和附图的考虑以及如本文中所呈现的本公开的实践中可能是显而易见的。意图是，本说明书和附图中所提出的示例在所有方面被认为是说明性的而非限制性的。尽管在本文中采用了特定术语，但是它们在通用和描述性意义上被使用并且不用于限制的目的。

Claims

1.一种基于深度学习算法的债券信息解析方法,其特征在于,所述方法包括：

根据目标编码器和目标解码器生成目标深度学习算法模型；

获取待解析的债券信息，将债券信息输入债券解析模型，输出解析结果。

2.根据权利要求1所述的方法，其特征在于，所述预先构建深度学习算法模型；所述深度学习算法模型包括编码器和解码器，包括：

预先构建解码器，所述解码器用于对编码进行解码；

根据编码器和解码器生成深度学习算法模型。

3.根据权利要求2所述的方法，其特征在于，所述获取目标域数据集，根据预设的标注指南，构建目标域数据集对应的输入特征，包括：

获取债券数据对应的标注指南；

4.根据权利要求3所述的方法，其特征在于，所述根据输入特征对深度学习算法模型中的编码器进行粗粒度预训练，包括：

获取大量公开数据集生成弱监督数据；

5.根据权利要求4所述的方法，其特征在于，所述根据输入特征对对深度学习算法模型中的编码器进行细粒度预训练，包括：

6.根据权利要求5所述的方法，其特征在于，所述对深度学习算法的解码器进行设置，生成目标解码器，所述目标解码器采用指针网络，包括：

7.根据权利要求6所述的方法，其特征在于，所述获取待解析的债券信息，将债券信息输入债券解析模型，输出解析结果，包括：

8.一种基于深度学习算法的债券信息解析装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7任一项所述的基于深度学习算法的债券信息解析方法。

10.一种非易失性计算机可读存储介质，其特征在于，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行权利要求1-7任一项所述的基于深度学习算法的债券信息解析方法。