CN107403375A

CN107403375A - 一种基于深度学习的上市公司公告分类及摘要生成方法

Info

Publication number: CN107403375A
Application number: CN201710255476.3A
Authority: CN
Inventors: 段清华; 丁海星; 郑锦光; 王丛; 张梦迪; 鲍捷; 马新磊
Original assignee: Beijing Wen Jie Internet Technology Co Ltd
Current assignee: Beijing Wen Jie Internet Technology Co Ltd
Priority date: 2017-04-19
Filing date: 2017-04-19
Publication date: 2017-11-28

Abstract

本发明公开了一种基于深度学习的上市公司公告分类及摘要生成方法，其步骤如下：步骤1、获取公告原文数据，提取文字、图片、表格信息，建立结构化文档。步骤2、基于公告领域行业知识，根据各种公司经营变动事件关键字区别，建立不同公告分类规则词库，统计判断公告类别；步骤3、针对不同分类的公告，提取公告文档内容，结合相应分类关键字规则词库，训练公告内容分类模型，自动生成文档摘要内容，包括内容提取、训练集选取、关键字优化模型、模型训练、模型测试、结果分析、内容生成。本发明可，解决针对每天产生的大量公告信息，自动对公告进行分类，并根据分类情况自动提取关键重要信息，生成摘要内容等技术问题。

Description

一种基于深度学习的上市公司公告分类及摘要生成方法

技术领域

本发明涉及一种上市公司公告分类及摘要生成方法。

背景技术

上市公司公告：在证券市场中，上市公司企业需要根据相关监管机构的信息披露制度，定期向社会公开或公告其财务变化、经营状况等与证券交易有关的重大公司事件，如招股说明书，上市公告书，半年度报告，季度报告，临时报告等。在我国，沪市与深市每日产生的A股主板公告约有2000多份，新三板每日产生的公告约有2000多份，涵盖三板与主板所有上市公司企业经营变动信息。对于大部分投资者而言，海量的公告书内容很难完全阅读分析。同时，由于众多公告可以根据其发布内容进行类别划分，而当前并无实际有效的公告分类标准去依据实行。

因此，对于投资者来说，依据目前的上市公司公告，阅读分析判断具体事项的效率很低。

现有的文本摘要生成：文本摘要是一种通过计算文档中段落句子的句法特征、语义特征以及统计特征，自动提取关键信息，生成摘要的技术。常见的文本摘要技术包括基于词频打分的特征统计方法，如TF*IDF。以及基于传统机器学习的方法，使用分类模型对文档中的句子进行有监督分类，找出权重比较高，可以作为摘要的句子，如基于朴素贝叶斯方法的分类模型、基于聚类的分类模型，以及基于LDA的分类模型。由于有监督分类方法需要大量的标注数据作为训练集，而目前的上市公司企业公告内容繁杂，不同的人判断标准无法统一，因此基于机器学习的文本摘要方法仍需要不断探索提高。

深度学习是机器学习的一个分支，采用深度神经网络等框架，实际应用中，在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域获取了极好的效果。LSTM网络(Long-Short Term Memory Network)是一种经过改良处理的RNN(Recurrent NeuralNetwork)深度神经网络学习方法，在1997年被Hochreiter&Schmidhuber首次提出，目前已经在语音识别，机器翻译，和自然语言处理领域取得了多项突破进展。LSTM网络有效的解决了RNN网络中可能会有的梯度消失、梯度爆炸导致训练收敛困难的缺点，尤其在针对序列数据(Sequence)时，由于LSTM具有记忆性(Memory)，对上下文的理解要优于传统机器学习算法，因此在分类效果方面有极大的提高。序列数据是一种连续的、对上下文依赖比较强的数据文本序列，如语音信号、视频信号、时间序列、文本序列等。

发明内容

本发明的目的是提供一种基于深度学习的上市公司公告分类及摘要生成方法，针对证券市场中，上市公司企业根据监管机构要求发布的各类公告文档，解决针对每天产生的大量公告信息，自动对公告进行分类，并根据分类情况自动提取关键重要信息，生成摘要内容等技术问题。

为了实现上述发明目的，本发明所采用的方法如下：

步骤1、获取公告原文数据，提取文字、图片、表格信息，建立结构化文档。包括公告获取、公告转换、结构化处理、内容提取流程步骤。

步骤2、基于公告领域行业知识，根据各种公司经营变动事件关键字区别，建立不同公告分类规则词库，统计判断公告类别，包括关键字统计、词库建立、公告分类；

步骤3、针对不同分类的公告，提取公告文档内容，结合相应分类关键字规则词库，训练公告内容分类模型，自动生成文档摘要内容，包括内容提取、训练集选取、关键字优化模型、模型训练、模型测试、结果分析、内容生成。

所述提取流程步骤：

步骤1-1，获取公告数据，选择可公开获取的公告进行分类及摘要处理根据证券市场信息披露的情况，

步骤1-2，判断是否结构化数据,，根据获取到的数据进行选择判断，对于不同类型的数据，做对应的分析处理；

步骤1-3，数据清洗,，当获取到的数据为结构化数据时，根据后续模型的处理需要，对该类数据进行特定内容的重新提取分类处理，并与原始公告建立关联，存储于统一的公告数据库中；

步骤1-4，文本转换,，对于未经结构化处理的原始公告文档，需要对文档进行有效内容提取；

步骤1-5，结构化处理，对于步骤1-1至步骤1-4提取出的有效文字段落、图表、图，结合文档中的原数据信息，依据事先设计好的数据结构，对该类文本进行统一处理，生成算法程序可识别处理的结构化数据。

所述建立规则词库与公告分类流程：

步骤2-1，公告领域关键词，通过分析证券市场投资人员关注点，选择涵盖公告重点的词组作为某领域公告关键区分词；

步骤2-2，公告标题读取，通过对所有上市公司企业相关公告标题进行分词处理，使用TF*IDF分析方法，统计公告标题的相关句法、语义特征，并分析各种切分词对公告分类的影响程度；

步骤2-3，关键词匹配，使用投资分析人员关注的公告领域关键词，对已读取到的公告标题各种切分词进行关键词匹配，计算统计匹配情况，作为下一轮公告分类的判断依据；

步骤2-4，判断是否匹配成功，将最常见的部分公告分类选择提取出来；对于未有效判别出的公告内容，则需要进一步的判断处理。

步骤2-5，公告类别统计，对于关键词匹配成功的公告类型，分析统计该类别公告的出现频次以及应用场景；

步骤2-6，公告标题处理，对于关键词未匹配成功的公告类型，使用步骤2-2的方式对各种切分词进行文档关联分析，结合已有的领域关键词，判别未分类公告与已分类公告的相关程度，对与其关联的切分词进行关键词领域重新划分，更新领域关键词库；

步骤2-7，新词判断，通过步骤2-1至步骤2-6结果整理出的有效切分词类，根据其与现有文档类型以及领域关键词的匹配程度，选择相关性好的切分词作为新的公告领域关键词，并根据出现权重对同领域关键词进行排名；

步骤2-8，公告再分类，根据步骤2-7结果提取出的新关键词，对上述未分类的公告进行再分类处理，做进一步迭代类比划分；

步骤2-9，类别合并，将捕捉2-8再分类后的结果与步骤205做对比合并，减少未分类的数目，并提取出新关键词以作为不同类别的划分判断依据；

步骤2-10，规则词库建立，通过结合公告领域关键词以及新发现关键词，建立起全领域公告的规则词库；

步骤2-11，公告分类，结合公告领域关键词以及标题中提取出的重点关键词，对公告进行有效分类，并对相关关键词进行索引关联，根据不同分类下公告内容，结合关键词频情况，训练摘要提取模型，以生成摘要。

所述基于规则词库、公告分类的公告摘要生成流程：

步骤3-1，公告数据库，从步骤2-8生成的公告内容数据库中获取已结构化好的内容数据；

步骤3-2，规则词库,，结合步骤3-3的公告类别，从步骤2-10建立的领域规则词库中选取择相关的领域规则词；

步骤3-3，公告类别，从步骤2-11建立的公告分类中，选取与公告内容相关的公告类别；

步骤3-4，内容提取,，针对不同的公告内容，再根据具体的公告形式，选择相应的训练模型进行学习；

步骤3-5，模型选择，根据具体公告的类别和内容，选择不同的训练模型进行下一步摘要处理；

步骤3-6，标题段落级别抽取，此类抽取任务主要应用于标题与文档内容强相关，且段落句子语义特征不明显的公告，根据段落标题，抽取段内容；

步骤3-7，句子级别抽取，此类抽取任务主要应用于句子语义特征较为明显的公告类别，根据具体的文档内容及标题类别，判断某个句子是否可以抽取；

步骤3-8，表格抽取，此类抽取任务主要应用于某类公告表格特别重要的公告类别做表格提取；

步骤3-9，训练集选取，明确抽取任务后，选取已有公告中某些数据作为训练集，已判断摘要技术的精准程度；

步骤3-10，模型训练，分为两个流程：

针对行的抽取，把一份公告所有内容转换为行，不同公告长度不一样，转换行数不一样。

针对行的抽取，对样本数据经过人工标注，选择需要抽取的句子；

步骤3-11，模型使用，完成对训练集的初始训练后，新的计算模型即已产生；

步骤3-12，内容生成，根据以上生成计算模型，应用于相应分类的公告中，选择判断最有效的段落句子，提取出关键信息，生成摘要。

步骤3-13，公告摘要生成。

本发明的优点如下：

提出一种基于LSTM的上市公司公告分类及摘要生成方法，可针对每天产生的大量公告信息，自动对公告进行分类，并根据分类情况自动提取关键重要信息，生成摘要内容，极大的节省了投资分析人员的文本处理时间。

附图说明

图1为本发明的获取公告，并提取文字、图片、表格等工作流程图。

图2为本发明的建立规则词库与公告分类流程图。

图3为本发明的基于规则词库、公告分类的公告摘要生成流程图。

具体实施方式

下面结合实施例详细描述本发明。

图1为获取公告原文数据，提取文字、图片、表格信息，建立结构化文档的工作流程图。

201公告数据。根据证券市场信息披露的情况，选择可公开获取的公告进行分类及摘要处理。当前中国证券市场公告包括深市主板公告、中小板公告、创业板公告、沪市主板公告、港市主板公告、港市创业板公告、新三板公告、老三板公告、基金公告、债券公告、监管公告、预披露公告等，根据投资者聚集程度以及信息获取的难易程度，本专利选择深市主板、沪市主板以及新三板公告作为摘要处理对象。广而泛之，其他种类市场公告也可以依据此方法进行处理。

202数据获取。随着互联网技术的发展，目前可获取上市公司企业公告的渠道有很多。根据具体内容分析使用情况，如定期公告(年报、半年报等)中，相关内容如财务数据、经营情况、市场分析等包含大量的图表信息，同时由于其信息的重要性，大多数定期报告中的财务等数据都已经做过结构化处理，相对于后续处理流程，该类数据可以直接获取并与公告建立关联。另一方面，大量的公告中也包含许多临时公告，对于上市公司交易有所影响的任何运作情况都会进行记录，如高管变动、重大合同、股东大会等，此类信息一般突发性高，文档很难结构化，因此选择获取最原始文档做进一步处理。

203判断是否结构化数据。根据获取到的数据进行选择判断，对于不同类型的数据，做不同程度的分析处理。

204数据清洗。当获取到的数据为结构化数据时，根据后续模型的处理需要，对该类数据进行特定内容的重新提取分类处理，并与原始公告建立关联，存储于统一的公告数据库中。

205文本转换。对于未经结构化处理的原始公告文档，需要对文档进行有效内容提取。如当前互联网可获取到的公告大部分为pdf文本，因此需要对原始的pdf文档进行内容识别，提取有效文字段落、图表、图片等信息，剔除无关信息数据，如页眉页脚、水印、文档背景信息、格式信息等。

206结构化处理。对于上述步骤提取出的有效文字段落、图表、图等，结合文档中的元数据信息(如文档发布机构、发布时间、信息来源等)，依据事先设计好的数据结构，对该类文本进行统一处理，生成算法程序可识别处理的结构化数据。

图2为基于公告领域行业知识，根据各种公司经营变动事件关键字区别，建立不同公告分类规则词库，统计判断公告类别的流程图。

301公告领域关键词。通过分析证券市场投资人员关注点，选择涵盖公告重点的词组作为某领域公告关键区分词，如独立董事、董事会决议、募集资金、法律意见书、董事会决议、监事会决议、股东大会通知、制度文件、股东大会决议、关联交易、子公司、资产重组、人事变动业绩快报等等。

302公告标题读取。由于上市公司公告的标题中往往包含着与内容相关最关键信息，因此对于标题的处理分类，可对后面的文档摘要处理产生最为直接的影响。同时由于公告标题相较文档内容更为简短直接，因此需要着重对标题进行分析统计。通过对所有上市公司企业相关公告标题进行分词处理，使用TF*IDF分析方法，统计公告标题的相关句法、语义特征，并分析各种切分词对公告分类的影响程度。

303关键词匹配。使用投资分析人员关注的公告领域关键词，对已读取到的公告标题各种切分词进行关键词匹配，计算统计匹配情况，作为下一轮公告分类的判断依据。

304判断是否匹配成功。对于常见的公告种类，有经验的投资分析人员即可以根据平时的关注情况，提取选择出有效的领域关键词对公告进行简单分类。通过判断匹配情况，可以将最常见的部分公告分类选择提取出来。对于未有效判别出的公告内容，则需要进一步的判断处理。

305公告类别统计。对于关键词匹配成功的公告类型，分析统计该类别公告的出现频次以及应用场景，总结修正常见公告的类型及对于投资分析人员的有用程度。

306公告标题处理。对于关键词未匹配成功的公告类型，使用302的方式对各种切分词进行文档关联分析，结合已有的领域关键词，判别未分类公告与已分类公告的相关程度，对与其关联的切分词进行关键词领域重新划分，更新领域关键词库。

307新词判断。通过上述结果整理出的有效切分词类，根据其与现有文档类型以及领域关键词的匹配程度，选择相关性好的切分词作为新的公告领域关键词，并根据出现权重对同领域关键词进行排名。

308公告再分类。根据307结果提取出的新关键词，对上述未分类的公告进行再分类处理，做进一步迭代类比划分。经此过程后的分类结果相较之前更加精细，可以有效的对所有公告进行分类处理。

309类别合并。将308再分类后的结果与305做对比合并，减少未分类的数目，并提取出新关键词以作为不同类别的划分判断依据。

310规则词库建立。通过结合公告领域关键词以及新发现关键词，建立起全领域公告的规则词库，根据此词库，可有效对公告标题进行类别提取，完成分类任务。

311公告分类。结合公告领域关键词以及标题中提取出的重点关键词，对公告进行有效分类，并对相关关键词进行索引关联，根据不同分类下公告内容，结合关键词频情况，训练摘要提取模型，以生成摘要。

图3为针对不同分类的公告，提取公告文档内容，结合相应分类关键字规则词库，训练公告内容分类模型，自动生成文档摘要内容工作流程图。

401公告数据库。从208步骤生成的公告内容数据库中获取已结构化好的内容数据。

402规则词库。结合403的公告类别，从310建立的领域规则词库中选取择相关的领域规则词。

403公告类别。从311建立的公告分类中，选取与公告内容相关的公告类别。

404内容提取。针对不同的公告内容，如年报中的风险提示、政策风险、备查文件、交易方式、标的资产情况，关联交易中的基本情况、历史沿革、基本信息、独立财务顾问核查意见等，复牌中等风险提示、终止筹划本次重大事项对公司的影响，公司股票复牌安排，交易方式等等，根据具体的公告形式，选择相应的训练模型进行学习。

405模型选择。根据具体公告的类别和内容，选择不同的训练模型进行下一步摘要处理。目前共有三种抽取任务，可以根据具体的类别，选择相应的抽取任务进行处理。

406标题段落级别抽取。此类抽取任务主要应用于标题与文档内容强相关，且段落句子语义特征不明显的公告，比如澄清公告。根据段落标题，抽取段内容。

407句子级别抽取。此类抽取任务主要应用于句子语义特征较为明显的公告类别，如：人事变动、停牌、对外担保、股权质押、重大合同等公告。根据具体的文档内容及标题类别，判断某个句子是否可以抽取。

408表格抽取。此类抽取任务主要应用于某类公告表格特别重要的公告类别，如股权质押。针对原始的公告文档，做表格提取。

409训练集选取。明确抽取任务后，选取已有公告中某些数据作为训练集，已判断摘要技术的精准程度。一类公告一般选择100个文档做训练，作为基本的训练数据集。

410模型训练，分为两个流程：

●针对行的抽取，把一份公告所有内容转换为行，不同公告长度不一样，转换行数不一样。

●针对行的抽取，对样本数据经过人工标注，选择需要抽取的句子

411模型使用。完成对训练集的初始训练后，新的计算模型即已产生

412内容生成。根据以上生成计算模型，应用于相应分类的公告中，选择判断最有效的段落句子，提取出关键信息，生成摘要。

413公告摘要生成。

Claims

1.一种基于深度学习的上市公司公告分类及摘要生成方法，其步骤如下：

2.根据权利要求1所述的一种基于深度学习的上市公司公告分类及摘要生成方法，

所述提取流程步骤：

3.根据权利要求1所述的一种基于深度学习的上市公司公告分类及摘要生成方法，所述建立规则词库与公告分类流程：

4.根据权利要求1所述的一种基于深度学习的上市公司公告分类及摘要生成方法，所述基于规则词库、公告分类的公告摘要生成流程：

步骤3-10，模型训练，分为两个流程：

步骤3-13，公告摘要生成。