CN110222188B

CN110222188B - 一种多任务学习的公司公告处理方法及服务端

Info

Publication number: CN110222188B
Application number: CN201910525463.2A
Authority: CN
Inventors: 李伟; 李勇辉; 魏志森; 杨双
Original assignee: Shenzhen Sinan Data Service Co ltd
Current assignee: Shenzhen Sinan Data Service Co ltd
Priority date: 2019-06-18
Filing date: 2019-06-18
Publication date: 2023-04-18
Anticipated expiration: 2039-06-18
Also published as: CN110222188A

Abstract

本发明公开了一种多任务学习的公司公告处理方法及服务端，将历史公告数据输入多任务学习模型的共享层，通过Bert对历史公告数据进行预训练；将处理任务对应的数据集输入到多任务学习模型的任务层，以训练多任务学习模型；获取当前公告数据，将当前公告数据输入训练好的多任务学习模型，得到任务处理结果；本发明通过采用迁移学习加多任务学习的方式来构建一个多任务学习模型，具有学习效率较高、泛化性较强、人工维护成本低、多个任务的准确率较高以及召回率较高且便于工程部署及维护。

Description

一种多任务学习的公司公告处理方法及服务端

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种多任务学习的公司公告处理方法及服务端。

背景技术

在证券市场中，上市公司会定期向社会公开一些招股说明书、上市公告书、半年度报告、季度报告以及临时报告等，投资人、研究员以及股民需经常关注上市公司公告，而每天A股披露公告2000篇左右，高峰期可达到一万多篇，其需要花费大量的时间阅读分析报告，导致分析判断具体事项的效率很低。

专利申请号为CN201710255476.3的一种基于深度学习的上市公司公告分类及摘要生成方法公开了以下技术方案：通过人工建立规则词库，并对公告标题进行分词后进行匹配来提取公告分类，然后针对不同的公告类别选择相应的训练模型进行学习。该方法具有以下缺点：

1、现有的技术需要手动建立规则词库，人工维护成本比较高。

2、现有的技术特征提取基于LSTM模型，在提取长距离特征时有长度限制，无法进行分布式训练，所需算力较大，花费时间长。

3、现有的技术流程复杂，需要先对公告进行分类后才能进行摘要抽取。没有学习到与任务直接的相关关系。

因此，如何在降低人工维护成本的情况下，根据多个任务之间的相关关系快速高效的生成文本摘要是本领域技术人员目前需要解决的问题。

发明内容

本发明所要解决的技术问题是：提供一种多任务学习的公司公告处理方法及服务端，以降低人工维护成本。

为了解决上述技术问题，本发明采用的技术方案为：

一种多任务学习的公司公告处理方法，包括步骤：

S1、将历史公告数据输入多任务学习模型的共享层，通过Bert对所述历史公告数据进行预训练；

S2、将处理任务对应的数据集输入到多任务学习模型的任务层，以训练所述多任务学习模型；

S3、获取当前公告数据，将所述当前公告数据输入训练好的多任务学习模型，得到任务处理结果。

为了解决上述技术问题，本发明采用的另一种技术方案为：

一种多任务学习的公司公告处理服务端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

本发明的有益效果在于：一种多任务学习的公司公告处理方法及服务端，通过采用迁移学习加多任务学习的方式来构建一个多任务学习模型，具有以下优点：

1、迁移学习将大规模的金融语料进行预训练学习到金融领域词语含义、语法结构以及背景知识保存下来，下游任务则可以直接拿来使用，减少了大部分参数的学习，只需调整少量的参数即可，提高了学习效率；

2、同时，由于在大规模金融语料进行了训练，使得模型具备了金融领域相关知识，因此对陌生公告的适应能力较强，即泛化性较强；

3、多任务学习为同时并行处理多个任务，各任务之间存在关联，各任务学习到的信息可为其他任务提供帮助可以针对每天产生的大量的公告信息，自动对公告进行任务处理；由于多个任务之间复杂的内在关系交给模型自己去学习，省去了人工整理、制定规则匹配以及人工维护，从而降低了人工维护成本并提升了多个任务的准确率以及召回率。

4、对于多个任务的处理，传统的做法是分别设计多个模型，而本申请只需要一个模型，便于工程部署及维护。

附图说明

图1为本发明实施例的一种多任务学习的公司公告处理方法的流程示意图；

图2为本发明实施例的一种多任务学习的公司公告处理方法的整个模型基本架构流程图；

图3为本发明实施例涉及的情感分类和公告分类的流程示意图；

图4为本发明实施例涉及的摘要生成的架构图；

图5为本发明实施例涉及的解码器生成摘要的过程示意图；

图6为本发明实施例涉及的transformer编码器的详细结构流程图；

图7为本发明实施例涉及的transformer解码器的详细结构流程图；

图8为本发明实施例的一种多任务学习的公司公告处理服务端的结构示意图。

标号说明：

1、一种多任务学习的公司公告处理服务端；2、处理器；3、存储器。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图予以说明。

在此之前，为了便于理解本发明的技术方案，对于本发明中涉及的英文缩写、设备等进行说明如下：

(1)、Bert：是一种预训练语言表示的方法，在大量文本语料上训练了一个通用的“语言理解”模型，然后用这个模型去执行想做的NLP任务。预训练过程主要包括两个任务，一个是遮蔽的语言模型，一个是下一句预测，通过这两个任务训练出能很好的表示文本的语义向量。

(2)、Self-attention：attention注意力可以理解为权重，Self-attention表示每个词都要和其他词进行权重计算，编码某个词的时候，要考虑其他所有词的影响。

(3)、多头自注意力层：从不同角度得到的多个self-attention结果，并且对这些结果进行组合。

(4)、Transformer：一种完全基于Attention机制来加速深度学习训练过程的算法模型。

(5)、残差连接：将输入的特征和将输入的特征经过非线性变换后的特征进行线性相加。

(6)、Rouge：是Recall-Oriented Understudy for Gisting Evaluation的英文缩写，它是评估自动文摘以及机器翻译的一组指标。它通过将自动生成的摘要或翻译与一组参考摘要(通常是人工生成的)进行比较计算，得出相应的分值，以衡量自动生成的摘要或翻译与参考摘要之间的“相似度”。

(7)、Rouge-L：使用了最长公共子序列来评估生成的摘要和参考摘要直接的“相似度”。

(8)、MaskLM：是Masked Language Model的英文缩写，在输入一句话的时候，随机地选一些要预测的词，然后用一个特殊的符号来代替它们，让模型根据所给的标签去学习这些地方该填的词。

(9)、Next sentence：给出两个句子A和B，B有一半的可能性是A的下一句话，训练模型来预测B是不是A的下一句话，可以使模型具备理解长序列上下文的联系的能力。

请参照图1至图7，一种多任务学习的公司公告处理方法，包括步骤：

从上述描述可知，本发明的有益效果在于：通过采用迁移学习加多任务学习的方式来构建一个多任务学习模型，具有以下优点：

进一步地，所述步骤S1之前还包括：

S0.1、从发布公告数据的金融网站上爬取网页信息，以得到公开的历史公告数据；

S0.2、对所述历史公告数据进行去噪处理，所述去噪处理包括去除标签、去除特殊字符以及去除停用词；

S0.3、对已去噪处理的所述历史公告数据进行文本数据抽取，得到有效的历史公告数据。

从上述描述可知，即对公告数据进行预处理，以得到有效的公告数据，从而保证用于模型训练的数据集的准确性和有效性。

进一步地，所述步骤S1具体为：

S1.1、将历史公告数据中的每个字转换成对应的字向量，将所述字向量、每个字所在的句子向量以及每个字的位置向量进行相加，得到编码器的输入向量；

S1.2、将所述输入向量经过多头自注意力层，以得到输出向量矩阵；

S1.3、将所述输出向量矩阵乘上系数矩阵之后进行压缩，以得到特征矩阵，将所述特征矩阵和所述输入向量依次进行残差连接和归一化，得到输出特征矩阵；

S1.4、将输出特征矩阵输入到一个全连接的前馈神经网络，然后再依次进行残差连接和归一化，以得到预训练好的公告语义向量，生成初始语言模型；

S1.5、通过MaskLM和Next sentence对所述初始语言模型进行不断优化学习，以得到预训练好的语言模型。

从上述描述可知，提供一种通过Bert对历史公告数据进行预训练的较佳技术方案。

进一步地，所述步骤S1.2具体为：

将所述输入向量经过多头自注意力层，每个注意力层里对所述输入向量均进行线性变化，以得到查询向量、键向量以及值向量，所述线性变化包括将所述输入向量乘于第一权值矩阵以得到所述查询向量、将所述输入向量乘于第二权值矩阵以得到所述键向量以及将所述输入向量乘于第三权值矩阵以得到值向量；

通过待编码字的查询向量和其他字的键向量得到其他字对待编码字的注意力权重，将所述注意力权重和每个值向量相乘后的值进行累加得到每个字的self-attention输出，将所有注意力层里的self-attention输出进行拼接得到所述多头自注意力层的输出向量矩阵。

从上述描述可知，通过从不同角度得到的多个self-attention结果，并且对这些结果进行组合，以得到更为准确的输出向量矩阵。

进一步地，所述步骤S1.3中“系数矩阵”具体为：所述系数矩阵的行数为所述输出向量矩阵的列数，所述系数矩阵的列数为输入向量的列数，所述系数矩阵的元素为随机初始化；

所述步骤S1.5中包括：

通过MaskLM和Next sentence对所述系数矩阵的元素进行不断的学习并更新。

从上述描述可知，提供一种系数矩阵的较佳技术方案，同时，通过MaskLM和Nextsentence两个任务来对系数矩阵的元素进行学习和更新，从而得到训练好的语言模型。

进一步地，所述处理任务包括情感分类、公告分类以及摘要生成。

从上述描述可知，当公告分类为停牌、减持以及诉讼等字符，情感分类大概率为利空，公告摘要若出现同比增加、签订订单以及增持等字符，情感分类大概率为利好，分类为预计报告的摘要会出现大量的数字、单位(元)、同比等字符。如果任务分开单独实现，无法利用其内在存在的关系或者需要人工根据经验设定规则匹配，故而本发明通过对三个任务在同一个多任务学习模型中进行预测结果，会根据三个任务之间的相关关系来快速、高效且准确的生成文本摘要同时也能快速、高效且准确的得到公告分类结果以及情感分类结果。

进一步地，所述步骤S2具体为：

S2.1、将所述情感分类所对应的数据集输入到所述共享层，得到情感语义向量，将所述情感语义向量输入到多任务模型的情感分类任务层，并执行步骤S2.2；将所述公告分类所对应的数据集输入到所述共享层，得到公告语义向量，将所述公告语义向量输入到多任务模型的公告分类任务层，并执行步骤S2.3；将所述摘要生成所对应的数据集输入到所述共享层，得到摘要语义向量，将所述摘要语义向量输入到多任务模型的摘要生成任务层，并执行步骤S2.4；

S2.2、将所述情感语义向量通过线性变换后直接使用分类器进行分类，以得到情感分类的概率分布情况；

S2.3、将所述公告语义向量通过线性变换后直接使用分类器进行分类，以得到公告分类的概率分布情况；

S2.4、将所述摘要语义向量输入到transformer解码器，以生成摘要；

S2.5、使用基于SGD的最小批方法对所述多任务模型的共享层、情感分类任务层、公告分类任务层以及摘要生成任务层的参数进行微调，所述微调为所述多任务模型的预训练参数随着每一次任务训练而不断调整以适应当前任务。

从上述描述可知，可以实现对三个任务进行同时处理，即提供了一种实现情感分类、公告分类以及摘要生成的较佳技术方案。

进一步地，所述步骤S2.4具体为：

将上个时刻生成的向量作为这个时刻的字向量，将所述字向量与每个字的位置向量进行相加，以得到transformer解码器的输入向量，所述字向量在上个时刻没有生成向量时为用mask表示的向量；

将所述transformer解码器的输入向量经过多头自注意力层；

将所述多头自注意力层的输出输入到编码-解码注意力层，所述编码-解码注意力层对编码器的输出进行注意力计算，所述编码-解码注意力层的查询向量为所述多头自注意力层的输出乘于第一权值矩阵所得到，所述编码-解码注意力层的键向量为所述编码器的输入向量乘于第二权值矩阵所得到，所述编码-解码注意力层的值向量为所述编码器的输入向量乘于第三权值矩阵所得到值向量；

将编码-解码注意力层的输出输入到全连接的前馈神经网络，所述全连接的前馈神经网络包括第一全连接以及第二全连接，所述第一全连接系数矩阵维度为(512,2048)，所述第二全连接的维度为(2048,512)；

所述多头自注意力层、所述编码-解码注意力层以及所述全连接的前馈神经网络的外围均设置有一个残差连接和归一化。

从上述描述可知，采用两个全连接，即相当于进行了两次非线性变换，从而使得前馈神经网络的输出值更加准确。

进一步地，所述步骤S2.5具体为：

在每个训练周期内将每个处理任务的小批量数据进行集合后并打乱顺序，以得到新的数据集，遍历所述新的数据集里面的每个处理任务的数据集，计算每个处理任务的损失，根据每个处理任务的损失以计算梯度，从而更新所述多任务模型的预训练参数，所述训练周期为整个训练集训练一次的过程；

所述步骤S2.5之后还包括：

S2.6、将所述情感分类的训练样本输入到所述多任务模型，以得到情感分类结果，将所述公告分类的训练样本输入到所述多任务模型，以得到公告分类结果，将所述摘要生成的训练样本输入到所述多任务模型，以得到摘要生成结果；

使用平均准确率和F1值来分别对所述情感分类结果、所述公告分类结果进行评价，使用Rouge-2和Rouge-L评价指标对所述摘要生成结果进行评价，若评价合格，则所述多任务学习模型训练完成，若评价不合格，则将评价不合格的训练样本放入至所述多任务模型中进行训练，以得到优化后的所述多任务模型。

从上述描述可知，将每个任务的训练数据集打乱顺序后分别输入到模型，根据各个任务的目标函数的损失对参数进行更新来做多任务学习，以保证待训练参数的准确性，从而得到更加准确的多任务学习模型。

请参照图8，一种多任务学习的公司公告处理服务端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的方法。

请参照图1至图7，本发明的实施例一为：

投资人、研究员、股民需经常关注上市公司公告，而每天A股披露公告2000篇左右，高峰期可达到一万多篇，其需要花费大量的时间阅读分析报告。采用以下方法，对于每篇公告都进行任务处理，投资者会根据任务处理结果，从而为投资提供依据。

一种多任务学习的公司公告处理方法，包括步骤：

S1、将历史公告数据输入多任务学习模型的共享层，通过Bert对历史公告数据进行预训练；

S2、将处理任务对应的数据集输入到多任务学习模型的任务层，以训练多任务学习模型；

S3、获取当前公告数据，将当前公告数据输入训练好的多任务学习模型，得到任务处理结果。

请参照图1至图7，本发明的实施例二为：

一种多任务学习的公司公告处理方法，在上述实施例一的基础上，本实施例中的处理任务包括情感分类、公告分类以及摘要生成，即对于每篇公告都有其分类、情感(利好、利空、中性)以及核心信息(摘要)，投资者会根据其分类、摘要以及判断情感，从而为投资提供依据。

在本实施例中，在进行Bert预训练之前，还包括如图2和图3所示的数据预处理步骤，即步骤S1之前还包括：

S0.2、对历史公告数据进行去噪处理，去噪处理包括去除标签、去除特殊字符以及去除停用词；

S0.3、对已去噪处理的历史公告数据进行文本数据抽取，得到有效的历史公告数据。

通过对历史广告数据进行数据预处理，以减少无效的数据量。

如图6所示，步骤S1具体为：

S1.1、将历史公告数据中的每个字转换成对应的字向量，将字向量、每个字所在的句子向量以及每个字的位置向量进行相加，得到编码器的输入向量X；

S1.2、将输入向量X经过多头自注意力层，以得到输出向量矩阵Z1；

具体的，将输入向量X经过多头自注意力层，每个注意力层里对输入向量X均进行线性变化，以得到查询向量W^Q、键向量W^K以及值向量W^V，线性变化包括将输入向量X乘于第一权值矩阵以得到查询向量W^Q、将输入向量X乘于第二权值矩阵以得到键向量W^K以及将输入向量X乘于第三权值矩阵以得到值向量W^V；

通过待编码字的查询向量W^{^}Q和其他字的键向量W^K得到其他字对待编码字的注意力权重，将注意力权重和每个值向量W^V相乘后的值进行累加得到每个字的self-attention输出，将所有注意力层里的self-attention输出进行拼接得到多头自注意力层的输出向量矩阵；

S1.3、将输出向量矩阵Z1乘上系数矩阵之后进行压缩，以得到特征矩阵Z，将特征矩阵Z和输入向量X依次进行残差连接和归一化，得到输出特征矩阵，在本实施例中，“系数矩阵”具体为：系数矩阵的行数为输出向量矩阵Z1的列数，系数矩阵的列数为输入向量X的列数，系数矩阵的元素为随机初始化；

S1.5、通过MaskLM和Next sentence对初始语言模型进行不断优化学习，以得到预训练好的语言模型，具体的，在本实施例中，通过MaskLM和Nextsentence对系数矩阵的元素进行不断的学习并更新。

如图2至图7所示，步骤S2具体为：

S2.1、将情感分类所对应的数据集输入到共享层，得到情感语义向量，将情感语义向量输入到多任务模型的情感分类任务层，并执行步骤S2.2；将公告分类所对应的数据集输入到共享层，得到公告语义向量，将公告语义向量输入到多任务模型的公告分类任务层，并执行步骤S2.3；将摘要生成所对应的数据集输入到共享层，得到摘要语义向量，将摘要语义向量输入到多任务模型的摘要生成任务层，并执行步骤S2.4；

S2.2、将情感语义向量通过线性变换后直接使用分类器进行分类，以得到情感分类的概率分布情况，可参考图3，本实施例中分类器为Softmax分类器；

S2.3、将公告语义向量通过线性变换后直接使用分类器进行分类，以得到公告分类的概率分布情况，可参考图3，本实施例中分类器为Softmax分类器；

S2.4、将摘要语义向量输入到transformer解码器，以生成摘要，可参考图4、图5及图7；

如图7所示，本步骤具体为：将上个时刻生成的向量作为这个时刻的字向量，将字向量与每个字的位置向量进行相加，以得到transformer解码器的输入向量，字向量在上个时刻没有生成向量时为用mask表示的向量；

将transformer解码器的输入向量经过多头自注意力层，此处的多头自注意力层与前面编码器的一样，其中，实现Bert预训练的即为编码器，不同的是输入和输出的值；

将多头自注意力层的输出输入到编码-解码注意力层，编码-解码注意力层对编码器的输出进行注意力计算，编码-解码注意力层的查询向量为多头自注意力层的输出乘于第一权值矩阵Q所得到，编码-解码注意力层的键向量为编码器的输入向量乘于第二权值矩阵K所得到，编码-解码注意力层的值向量为编码器的输入向量乘于第三权值矩阵V所得到值向量；

将编码-解码注意力层的输出输入到全连接的前馈神经网络，全连接的前馈神经网络包括第一全连接以及第二全连接，第一全连接系数矩阵维度为(512,2048)，第二全连接的维度为(2048,512)，相当于进行了两次非线性变换；

多头自注意力层、编码-解码注意力层以及全连接的前馈神经网络的外围均设置有一个残差连接和归一化；

S2.5、使用基于SGD的最小批方法对多任务模型的共享层、情感分类任务层、公告分类任务层以及摘要生成任务层的参数进行微调，微调为多任务模型的预训练参数随着每一次任务训练而不断调整以适应当前任务。

在本实施例中，本步骤具体为：在每个训练周期内将每个处理任务的小批量数据进行集合后并打乱顺序，以得到新的数据集，遍历新的数据集里面的每个处理任务的数据集，计算每个处理任务的损失，根据每个处理任务的损失以计算梯度，从而更新多任务模型的预训练参数，训练周期为整个训练集训练一次的过程；

S2.6、将情感分类的训练样本输入到多任务模型，以得到情感分类结果，将公告分类的训练样本输入到多任务模型，以得到公告分类结果，将摘要生成的训练样本输入到多任务模型，以得到摘要生成结果；

使用平均准确率和F1值来分别对情感分类结果、公告分类结果进行评价，使用Rouge-2和Rouge-L评价指标对摘要生成结果进行评价，若评价合格，则多任务学习模型训练完成，若评价不合格，则将评价不合格的训练样本放入至多任务模型中进行训练，以得到优化后的多任务模型。

在本实施例中，如图6和图7所示，多头自注意力层为12个头的自注意力层。

请参照图8，本发明的实施例三为：

投资人、研究员、股民需经常关注上市公司公告，而每天A股披露公告2000篇左右，高峰期可达到一万多篇，其需要花费大量的时间阅读分析报告。采用以下服务端，对于每篇公告都进行任务处理，投资者会根据任务处理结果，从而为投资提供依据。

一种多任务学习的公司公告处理服务端1，包括存储器3、处理器2及存储在存储器3上并可在处理器3上运行的计算机程序，处理器2执行计算机程序时实现如实施例一所述的方法。

请参照图8，本发明的实施例四为：

一种多任务学习的公司公告处理服务端1，在上述实施例三的基础上，处理器2执行计算机程序时实现如实施例二所述的方法。

综上所述，本发明提供的一种多任务学习的公司公告处理方法及服务端，通过采用迁移学习加多任务学习的方式来构建一个多任务学习模型，具有以下优点：

2、同时，对公告数据进行预处理，以得到有效的公告数据，该公告数据均为金融语料，即本模型是在大规模金融语料上进行了训练，使得模型具备了金融领域相关知识，因此对陌生公告的适应能力较强，即保证了用于模型训练的数据集的准确性和有效性，也使得训练得到的模型的泛化性较强；

5、对训练模型进行进一步的限定，包括多头自注意力层、系数矩阵的限定、对情感分类、公告分类以及摘要生成这三个任务的同时处理、采用两个全连接、采用MaskLM和Nextsentence进行Bert预训练以及使用基于SGD的最小批方法对多任务模型进行训练等等，从而得到更为准确有效的多任务模型。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种多任务学习的公司公告处理方法，其特征在于，包括步骤：

S3、获取当前公告数据，将所述当前公告数据输入训练好的多任务学习模型，得到任务处理结果；

所述处理任务包括情感分类、公告分类以及摘要生成；

所述步骤S2具体为：

S2.5、使用基于SGD的最小批方法对所述多任务模型的共享层、情感分类任务层、公告分类任务层以及摘要生成任务层的参数进行微调，所述微调为所述多任务模型的预训练参数随着每一次任务训练而不断调整以适应当前任务；

所述步骤S2.4具体为：

将所述transformer解码器的输入向量经过多头自注意力层；

2.根据权利要求1所述的一种多任务学习的公司公告处理方法，其特征在于，所述步骤S1之前还包括：

3.根据权利要求1所述的一种多任务学习的公司公告处理方法，其特征在于，所述步骤S1具体为：

4.根据权利要求3所述的一种多任务学习的公司公告处理方法，其特征在于，所述步骤S1.2具体为：

5.根据权利要求3所述的一种多任务学习的公司公告处理方法，其特征在于，所述步骤S1.3中“系数矩阵”具体为：所述系数矩阵的行数为所述输出向量矩阵的列数，所述系数矩阵的列数为输入向量的列数，所述系数矩阵的元素为随机初始化；

所述步骤S1.5中包括：

6.根据权利要求1所述的一种多任务学习的公司公告处理方法，其特征在于，所述步骤S2.5具体为：

所述步骤S2.5之后还包括：

7.一种多任务学习的公司公告处理服务端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任一所述的方法。