CN107403375A - 一种基于深度学习的上市公司公告分类及摘要生成方法 - Google Patents

一种基于深度学习的上市公司公告分类及摘要生成方法 Download PDF

Info

Publication number
CN107403375A
CN107403375A CN201710255476.3A CN201710255476A CN107403375A CN 107403375 A CN107403375 A CN 107403375A CN 201710255476 A CN201710255476 A CN 201710255476A CN 107403375 A CN107403375 A CN 107403375A
Authority
CN
China
Prior art keywords
bulletin
classification
content
extraction
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710255476.3A
Other languages
English (en)
Inventor
段清华
丁海星
郑锦光
王丛
张梦迪
鲍捷
马新磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wen Jie Internet Technology Co Ltd
Original Assignee
Beijing Wen Jie Internet Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wen Jie Internet Technology Co Ltd filed Critical Beijing Wen Jie Internet Technology Co Ltd
Priority to CN201710255476.3A priority Critical patent/CN107403375A/zh
Publication of CN107403375A publication Critical patent/CN107403375A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度学习的上市公司公告分类及摘要生成方法,其步骤如下:步骤1、获取公告原文数据,提取文字、图片、表格信息,建立结构化文档。步骤2、基于公告领域行业知识,根据各种公司经营变动事件关键字区别,建立不同公告分类规则词库,统计判断公告类别;步骤3、针对不同分类的公告,提取公告文档内容,结合相应分类关键字规则词库,训练公告内容分类模型,自动生成文档摘要内容,包括内容提取、训练集选取、关键字优化模型、模型训练、模型测试、结果分析、内容生成。本发明可,解决针对每天产生的大量公告信息,自动对公告进行分类,并根据分类情况自动提取关键重要信息,生成摘要内容等技术问题。

Description

一种基于深度学习的上市公司公告分类及摘要生成方法
技术领域
本发明涉及一种上市公司公告分类及摘要生成方法。
背景技术
上市公司公告:在证券市场中,上市公司企业需要根据相关监管机构的信息披露制度,定期向社会公开或公告其财务变化、经营状况等与证券交易有关的重大公司事件,如招股说明书,上市公告书,半年度报告,季度报告,临时报告等。在我国,沪市与深市每日产生的A股主板公告约有2000多份,新三板每日产生的公告约有2000多份,涵盖三板与主板所有上市公司企业经营变动信息。对于大部分投资者而言,海量的公告书内容很难完全阅读分析。同时,由于众多公告可以根据其发布内容进行类别划分,而当前并无实际有效的公告分类标准去依据实行。
因此,对于投资者来说,依据目前的上市公司公告,阅读分析判断具体事项的效率很低。
现有的文本摘要生成:文本摘要是一种通过计算文档中段落句子的句法特征、语义特征以及统计特征,自动提取关键信息,生成摘要的技术。常见的文本摘要技术包括基于词频打分的特征统计方法,如TF*IDF。以及基于传统机器学习的方法,使用分类模型对文档中的句子进行有监督分类,找出权重比较高,可以作为摘要的句子,如基于朴素贝叶斯方法的分类模型、基于聚类的分类模型,以及基于LDA的分类模型。由于有监督分类方法需要大量的标注数据作为训练集,而目前的上市公司企业公告内容繁杂,不同的人判断标准无法统一,因此基于机器学习的文本摘要方法仍需要不断探索提高。
深度学习是机器学习的一个分支,采用深度神经网络等框架,实际应用中,在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域获取了极好的效果。LSTM网络(Long-Short Term Memory Network)是一种经过改良处理的RNN(Recurrent NeuralNetwork)深度神经网络学习方法,在1997年被Hochreiter&Schmidhuber首次提出,目前已经在语音识别,机器翻译,和自然语言处理领域取得了多项突破进展。LSTM网络有效的解决了RNN网络中可能会有的梯度消失、梯度爆炸导致训练收敛困难的缺点,尤其在针对序列数据(Sequence)时,由于LSTM具有记忆性(Memory),对上下文的理解要优于传统机器学习算法,因此在分类效果方面有极大的提高。序列数据是一种连续的、对上下文依赖比较强的数据文本序列,如语音信号、视频信号、时间序列、文本序列等。
发明内容
本发明的目的是提供一种基于深度学习的上市公司公告分类及摘要生成方法,针对证券市场中,上市公司企业根据监管机构要求发布的各类公告文档,解决针对每天产生的大量公告信息,自动对公告进行分类,并根据分类情况自动提取关键重要信息,生成摘要内容等技术问题。
为了实现上述发明目的,本发明所采用的方法如下:
步骤1、获取公告原文数据,提取文字、图片、表格信息,建立结构化文档。包括公告获取、公告转换、结构化处理、内容提取流程步骤。
步骤2、基于公告领域行业知识,根据各种公司经营变动事件关键字区别,建立不同公告分类规则词库,统计判断公告类别,包括关键字统计、词库建立、公告分类;
步骤3、针对不同分类的公告,提取公告文档内容,结合相应分类关键字规则词库,训练公告内容分类模型,自动生成文档摘要内容,包括内容提取、训练集选取、关键字优化模型、模型训练、模型测试、结果分析、内容生成。
所述提取流程步骤:
步骤1-1,获取公告数据,选择可公开获取的公告进行分类及摘要处理根据证券市场信息披露的情况,
步骤1-2,判断是否结构化数据,,根据获取到的数据进行选择判断,对于不同类型的数据,做对应的分析处理;
步骤1-3,数据清洗,,当获取到的数据为结构化数据时,根据后续模型的处理需要,对该类数据进行特定内容的重新提取分类处理,并与原始公告建立关联,存储于统一的公告数据库中;
步骤1-4,文本转换,,对于未经结构化处理的原始公告文档,需要对文档进行有效内容提取;
步骤1-5,结构化处理,对于步骤1-1至步骤1-4提取出的有效文字段落、图表、图,结合文档中的原数据信息,依据事先设计好的数据结构,对该类文本进行统一处理,生成算法程序可识别处理的结构化数据。
所述建立规则词库与公告分类流程:
步骤2-1,公告领域关键词,通过分析证券市场投资人员关注点,选择涵盖公告重点的词组作为某领域公告关键区分词;
步骤2-2,公告标题读取,通过对所有上市公司企业相关公告标题进行分词处理,使用TF*IDF分析方法,统计公告标题的相关句法、语义特征,并分析各种切分词对公告分类的影响程度;
步骤2-3,关键词匹配,使用投资分析人员关注的公告领域关键词,对已读取到的公告标题各种切分词进行关键词匹配,计算统计匹配情况,作为下一轮公告分类的判断依据;
步骤2-4,判断是否匹配成功,将最常见的部分公告分类选择提取出来;对于未有效判别出的公告内容,则需要进一步的判断处理。
步骤2-5,公告类别统计,对于关键词匹配成功的公告类型,分析统计该类别公告的出现频次以及应用场景;
步骤2-6,公告标题处理,对于关键词未匹配成功的公告类型,使用步骤2-2的方式对各种切分词进行文档关联分析,结合已有的领域关键词,判别未分类公告与已分类公告的相关程度,对与其关联的切分词进行关键词领域重新划分,更新领域关键词库;
步骤2-7,新词判断,通过步骤2-1至步骤2-6结果整理出的有效切分词类,根据其与现有文档类型以及领域关键词的匹配程度,选择相关性好的切分词作为新的公告领域关键词,并根据出现权重对同领域关键词进行排名;
步骤2-8,公告再分类,根据步骤2-7结果提取出的新关键词,对上述未分类的公告进行再分类处理,做进一步迭代类比划分;
步骤2-9,类别合并,将捕捉2-8再分类后的结果与步骤205做对比合并,减少未分类的数目,并提取出新关键词以作为不同类别的划分判断依据;
步骤2-10,规则词库建立,通过结合公告领域关键词以及新发现关键词,建立起全领域公告的规则词库;
步骤2-11,公告分类,结合公告领域关键词以及标题中提取出的重点关键词,对公告进行有效分类,并对相关关键词进行索引关联,根据不同分类下公告内容,结合关键词频情况,训练摘要提取模型,以生成摘要。
所述基于规则词库、公告分类的公告摘要生成流程:
步骤3-1,公告数据库,从步骤2-8生成的公告内容数据库中获取已结构化好的内容数据;
步骤3-2,规则词库,,结合步骤3-3的公告类别,从步骤2-10建立的领域规则词库中选取择相关的领域规则词;
步骤3-3,公告类别,从步骤2-11建立的公告分类中,选取与公告内容相关的公告类别;
步骤3-4,内容提取,,针对不同的公告内容,再根据具体的公告形式,选择相应的训练模型进行学习;
步骤3-5,模型选择,根据具体公告的类别和内容,选择不同的训练模型进行下一步摘要处理;
步骤3-6,标题段落级别抽取,此类抽取任务主要应用于标题与文档内容强相关,且段落句子语义特征不明显的公告,根据段落标题,抽取段内容;
步骤3-7,句子级别抽取,此类抽取任务主要应用于句子语义特征较为明显的公告类别,根据具体的文档内容及标题类别,判断某个句子是否可以抽取;
步骤3-8,表格抽取,此类抽取任务主要应用于某类公告表格特别重要的公告类别做表格提取;
步骤3-9,训练集选取,明确抽取任务后,选取已有公告中某些数据作为训练集,已判断摘要技术的精准程度;
步骤3-10,模型训练,分为两个流程:
针对行的抽取,把一份公告所有内容转换为行,不同公告长度不一样,转换行数不一样。
针对行的抽取,对样本数据经过人工标注,选择需要抽取的句子;
步骤3-11,模型使用,完成对训练集的初始训练后,新的计算模型即已产生;
步骤3-12,内容生成,根据以上生成计算模型,应用于相应分类的公告中,选择判断最有效的段落句子,提取出关键信息,生成摘要。
步骤3-13,公告摘要生成。
本发明的优点如下:
提出一种基于LSTM的上市公司公告分类及摘要生成方法,可针对每天产生的大量公告信息,自动对公告进行分类,并根据分类情况自动提取关键重要信息,生成摘要内容,极大的节省了投资分析人员的文本处理时间。
附图说明
图1为本发明的获取公告,并提取文字、图片、表格等工作流程图。
图2为本发明的建立规则词库与公告分类流程图。
图3为本发明的基于规则词库、公告分类的公告摘要生成流程图。
具体实施方式
下面结合实施例详细描述本发明。
图1为获取公告原文数据,提取文字、图片、表格信息,建立结构化文档的工作流程图。
201公告数据。根据证券市场信息披露的情况,选择可公开获取的公告进行分类及摘要处理。当前中国证券市场公告包括深市主板公告、中小板公告、创业板公告、沪市主板公告、港市主板公告、港市创业板公告、新三板公告、老三板公告、基金公告、债券公告、监管公告、预披露公告等,根据投资者聚集程度以及信息获取的难易程度,本专利选择深市主板、沪市主板以及新三板公告作为摘要处理对象。广而泛之,其他种类市场公告也可以依据此方法进行处理。
202数据获取。随着互联网技术的发展,目前可获取上市公司企业公告的渠道有很多。根据具体内容分析使用情况,如定期公告(年报、半年报等)中,相关内容如财务数据、经营情况、市场分析等包含大量的图表信息,同时由于其信息的重要性,大多数定期报告中的财务等数据都已经做过结构化处理,相对于后续处理流程,该类数据可以直接获取并与公告建立关联。另一方面,大量的公告中也包含许多临时公告,对于上市公司交易有所影响的任何运作情况都会进行记录,如高管变动、重大合同、股东大会等,此类信息一般突发性高,文档很难结构化,因此选择获取最原始文档做进一步处理。
203判断是否结构化数据。根据获取到的数据进行选择判断,对于不同类型的数据,做不同程度的分析处理。
204数据清洗。当获取到的数据为结构化数据时,根据后续模型的处理需要,对该类数据进行特定内容的重新提取分类处理,并与原始公告建立关联,存储于统一的公告数据库中。
205文本转换。对于未经结构化处理的原始公告文档,需要对文档进行有效内容提取。如当前互联网可获取到的公告大部分为pdf文本,因此需要对原始的pdf文档进行内容识别,提取有效文字段落、图表、图片等信息,剔除无关信息数据,如页眉页脚、水印、文档背景信息、格式信息等。
206结构化处理。对于上述步骤提取出的有效文字段落、图表、图等,结合文档中的元数据信息(如文档发布机构、发布时间、信息来源等),依据事先设计好的数据结构,对该类文本进行统一处理,生成算法程序可识别处理的结构化数据。
图2为基于公告领域行业知识,根据各种公司经营变动事件关键字区别,建立不同公告分类规则词库,统计判断公告类别的流程图。
301公告领域关键词。通过分析证券市场投资人员关注点,选择涵盖公告重点的词组作为某领域公告关键区分词,如独立董事、董事会决议、募集资金、法律意见书、董事会决议、监事会决议、股东大会通知、制度文件、股东大会决议、关联交易、子公司、资产重组、人事变动业绩快报等等。
302公告标题读取。由于上市公司公告的标题中往往包含着与内容相关最关键信息,因此对于标题的处理分类,可对后面的文档摘要处理产生最为直接的影响。同时由于公告标题相较文档内容更为简短直接,因此需要着重对标题进行分析统计。通过对所有上市公司企业相关公告标题进行分词处理,使用TF*IDF分析方法,统计公告标题的相关句法、语义特征,并分析各种切分词对公告分类的影响程度。
303关键词匹配。使用投资分析人员关注的公告领域关键词,对已读取到的公告标题各种切分词进行关键词匹配,计算统计匹配情况,作为下一轮公告分类的判断依据。
304判断是否匹配成功。对于常见的公告种类,有经验的投资分析人员即可以根据平时的关注情况,提取选择出有效的领域关键词对公告进行简单分类。通过判断匹配情况,可以将最常见的部分公告分类选择提取出来。对于未有效判别出的公告内容,则需要进一步的判断处理。
305公告类别统计。对于关键词匹配成功的公告类型,分析统计该类别公告的出现频次以及应用场景,总结修正常见公告的类型及对于投资分析人员的有用程度。
306公告标题处理。对于关键词未匹配成功的公告类型,使用302的方式对各种切分词进行文档关联分析,结合已有的领域关键词,判别未分类公告与已分类公告的相关程度,对与其关联的切分词进行关键词领域重新划分,更新领域关键词库。
307新词判断。通过上述结果整理出的有效切分词类,根据其与现有文档类型以及领域关键词的匹配程度,选择相关性好的切分词作为新的公告领域关键词,并根据出现权重对同领域关键词进行排名。
308公告再分类。根据307结果提取出的新关键词,对上述未分类的公告进行再分类处理,做进一步迭代类比划分。经此过程后的分类结果相较之前更加精细,可以有效的对所有公告进行分类处理。
309类别合并。将308再分类后的结果与305做对比合并,减少未分类的数目,并提取出新关键词以作为不同类别的划分判断依据。
310规则词库建立。通过结合公告领域关键词以及新发现关键词,建立起全领域公告的规则词库,根据此词库,可有效对公告标题进行类别提取,完成分类任务。
311公告分类。结合公告领域关键词以及标题中提取出的重点关键词,对公告进行有效分类,并对相关关键词进行索引关联,根据不同分类下公告内容,结合关键词频情况,训练摘要提取模型,以生成摘要。
图3为针对不同分类的公告,提取公告文档内容,结合相应分类关键字规则词库,训练公告内容分类模型,自动生成文档摘要内容工作流程图。
401公告数据库。从208步骤生成的公告内容数据库中获取已结构化好的内容数据。
402规则词库。结合403的公告类别,从310建立的领域规则词库中选取择相关的领域规则词。
403公告类别。从311建立的公告分类中,选取与公告内容相关的公告类别。
404内容提取。针对不同的公告内容,如年报中的风险提示、政策风险、备查文件、交易方式、标的资产情况,关联交易中的基本情况、历史沿革、基本信息、独立财务顾问核查意见等,复牌中等风险提示、终止筹划本次重大事项对公司的影响,公司股票复牌安排,交易方式等等,根据具体的公告形式,选择相应的训练模型进行学习。
405模型选择。根据具体公告的类别和内容,选择不同的训练模型进行下一步摘要处理。目前共有三种抽取任务,可以根据具体的类别,选择相应的抽取任务进行处理。
406标题段落级别抽取。此类抽取任务主要应用于标题与文档内容强相关,且段落句子语义特征不明显的公告,比如澄清公告。根据段落标题,抽取段内容。
407句子级别抽取。此类抽取任务主要应用于句子语义特征较为明显的公告类别,如:人事变动、停牌、对外担保、股权质押、重大合同等公告。根据具体的文档内容及标题类别,判断某个句子是否可以抽取。
408表格抽取。此类抽取任务主要应用于某类公告表格特别重要的公告类别,如股权质押。针对原始的公告文档,做表格提取。
409训练集选取。明确抽取任务后,选取已有公告中某些数据作为训练集,已判断摘要技术的精准程度。一类公告一般选择100个文档做训练,作为基本的训练数据集。
410模型训练,分为两个流程:
●针对行的抽取,把一份公告所有内容转换为行,不同公告长度不一样,转换行数不一样。
●针对行的抽取,对样本数据经过人工标注,选择需要抽取的句子
411模型使用。完成对训练集的初始训练后,新的计算模型即已产生
412内容生成。根据以上生成计算模型,应用于相应分类的公告中,选择判断最有效的段落句子,提取出关键信息,生成摘要。
413公告摘要生成。

Claims (4)

1.一种基于深度学习的上市公司公告分类及摘要生成方法,其步骤如下:
步骤1、获取公告原文数据,提取文字、图片、表格信息,建立结构化文档。包括公告获取、公告转换、结构化处理、内容提取流程步骤。
步骤2、基于公告领域行业知识,根据各种公司经营变动事件关键字区别,建立不同公告分类规则词库,统计判断公告类别,包括关键字统计、词库建立、公告分类;
步骤3、针对不同分类的公告,提取公告文档内容,结合相应分类关键字规则词库,训练公告内容分类模型,自动生成文档摘要内容,包括内容提取、训练集选取、关键字优化模型、模型训练、模型测试、结果分析、内容生成。
2.根据权利要求1所述的一种基于深度学习的上市公司公告分类及摘要生成方法,
所述提取流程步骤:
步骤1-1,获取公告数据,选择可公开获取的公告进行分类及摘要处理根据证券市场信息披露的情况,
步骤1-2,判断是否结构化数据,,根据获取到的数据进行选择判断,对于不同类型的数据,做对应的分析处理;
步骤1-3,数据清洗,,当获取到的数据为结构化数据时,根据后续模型的处理需要,对该类数据进行特定内容的重新提取分类处理,并与原始公告建立关联,存储于统一的公告数据库中;
步骤1-4,文本转换,,对于未经结构化处理的原始公告文档,需要对文档进行有效内容提取;
步骤1-5,结构化处理,对于步骤1-1至步骤1-4提取出的有效文字段落、图表、图,结合文档中的原数据信息,依据事先设计好的数据结构,对该类文本进行统一处理,生成算法程序可识别处理的结构化数据。
3.根据权利要求1所述的一种基于深度学习的上市公司公告分类及摘要生成方法,所述建立规则词库与公告分类流程:
步骤2-1,公告领域关键词,通过分析证券市场投资人员关注点,选择涵盖公告重点的词组作为某领域公告关键区分词;
步骤2-2,公告标题读取,通过对所有上市公司企业相关公告标题进行分词处理,使用TF*IDF分析方法,统计公告标题的相关句法、语义特征,并分析各种切分词对公告分类的影响程度;
步骤2-3,关键词匹配,使用投资分析人员关注的公告领域关键词,对已读取到的公告标题各种切分词进行关键词匹配,计算统计匹配情况,作为下一轮公告分类的判断依据;
步骤2-4,判断是否匹配成功,将最常见的部分公告分类选择提取出来;对于未有效判别出的公告内容,则需要进一步的判断处理。
步骤2-5,公告类别统计,对于关键词匹配成功的公告类型,分析统计该类别公告的出现频次以及应用场景;
步骤2-6,公告标题处理,对于关键词未匹配成功的公告类型,使用步骤2-2的方式对各种切分词进行文档关联分析,结合已有的领域关键词,判别未分类公告与已分类公告的相关程度,对与其关联的切分词进行关键词领域重新划分,更新领域关键词库;
步骤2-7,新词判断,通过步骤2-1至步骤2-6结果整理出的有效切分词类,根据其与现有文档类型以及领域关键词的匹配程度,选择相关性好的切分词作为新的公告领域关键词,并根据出现权重对同领域关键词进行排名;
步骤2-8,公告再分类,根据步骤2-7结果提取出的新关键词,对上述未分类的公告进行再分类处理,做进一步迭代类比划分;
步骤2-9,类别合并,将捕捉2-8再分类后的结果与步骤205做对比合并,减少未分类的数目,并提取出新关键词以作为不同类别的划分判断依据;
步骤2-10,规则词库建立,通过结合公告领域关键词以及新发现关键词,建立起全领域公告的规则词库;
步骤2-11,公告分类,结合公告领域关键词以及标题中提取出的重点关键词,对公告进行有效分类,并对相关关键词进行索引关联,根据不同分类下公告内容,结合关键词频情况,训练摘要提取模型,以生成摘要。
4.根据权利要求1所述的一种基于深度学习的上市公司公告分类及摘要生成方法,所述基于规则词库、公告分类的公告摘要生成流程:
步骤3-1,公告数据库,从步骤2-8生成的公告内容数据库中获取已结构化好的内容数据;
步骤3-2,规则词库,,结合步骤3-3的公告类别,从步骤2-10建立的领域规则词库中选取择相关的领域规则词;
步骤3-3,公告类别,从步骤2-11建立的公告分类中,选取与公告内容相关的公告类别;
步骤3-4,内容提取,,针对不同的公告内容,再根据具体的公告形式,选择相应的训练模型进行学习;
步骤3-5,模型选择,根据具体公告的类别和内容,选择不同的训练模型进行下一步摘要处理;
步骤3-6,标题段落级别抽取,此类抽取任务主要应用于标题与文档内容强相关,且段落句子语义特征不明显的公告,根据段落标题,抽取段内容;
步骤3-7,句子级别抽取,此类抽取任务主要应用于句子语义特征较为明显的公告类别,根据具体的文档内容及标题类别,判断某个句子是否可以抽取;
步骤3-8,表格抽取,此类抽取任务主要应用于某类公告表格特别重要的公告类别做表格提取;
步骤3-9,训练集选取,明确抽取任务后,选取已有公告中某些数据作为训练集,已判断摘要技术的精准程度;
步骤3-10,模型训练,分为两个流程:
针对行的抽取,把一份公告所有内容转换为行,不同公告长度不一样,转换行数不一样。
针对行的抽取,对样本数据经过人工标注,选择需要抽取的句子;
步骤3-11,模型使用,完成对训练集的初始训练后,新的计算模型即已产生;
步骤3-12,内容生成,根据以上生成计算模型,应用于相应分类的公告中,选择判断最有效的段落句子,提取出关键信息,生成摘要。
步骤3-13,公告摘要生成。
CN201710255476.3A 2017-04-19 2017-04-19 一种基于深度学习的上市公司公告分类及摘要生成方法 Pending CN107403375A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710255476.3A CN107403375A (zh) 2017-04-19 2017-04-19 一种基于深度学习的上市公司公告分类及摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710255476.3A CN107403375A (zh) 2017-04-19 2017-04-19 一种基于深度学习的上市公司公告分类及摘要生成方法

Publications (1)

Publication Number Publication Date
CN107403375A true CN107403375A (zh) 2017-11-28

Family

ID=60405290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710255476.3A Pending CN107403375A (zh) 2017-04-19 2017-04-19 一种基于深度学习的上市公司公告分类及摘要生成方法

Country Status (1)

Country Link
CN (1) CN107403375A (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509596A (zh) * 2018-04-02 2018-09-07 广州市申迪计算机系统有限公司 文本分类方法、装置、计算机设备和存储介质
CN108549813A (zh) * 2018-03-02 2018-09-18 彭根 判别方法、装置及处理器和存储介质
CN108563783A (zh) * 2018-04-25 2018-09-21 张艳 一种基于大数据的财务分析管理系统及方法
CN108614898A (zh) * 2018-05-10 2018-10-02 爱因互动科技发展(北京)有限公司 文档解析方法与装置
CN109710756A (zh) * 2018-11-23 2019-05-03 京华信息科技股份有限公司 基于语义角色标注的文书体裁分类系统及方法
CN109741190A (zh) * 2018-12-27 2019-05-10 清华大学 一种个股公告分类的方法、系统及设备
CN109783787A (zh) * 2018-12-29 2019-05-21 远光软件股份有限公司 一种结构化文档的生成方法、装置及存储介质
CN109800761A (zh) * 2019-01-25 2019-05-24 厦门商集网络科技有限责任公司 基于深度学习模型创建纸质文档结构化数据的方法和终端
WO2019109918A1 (zh) * 2017-12-06 2019-06-13 腾讯科技(深圳)有限公司 摘要文本生成方法、计算机可读存储介质和计算机设备
CN110096568A (zh) * 2019-03-22 2019-08-06 泰康保险集团股份有限公司 用于上市公司业绩预警的方法、装置、设备及存储介质
CN110134957A (zh) * 2019-05-14 2019-08-16 云南电网有限责任公司电力科学研究院 一种基于语义分析的科技成果入库方法及系统
CN110162765A (zh) * 2018-02-11 2019-08-23 鼎复数据科技(北京)有限公司 一种基于摘要方式的机器辅助阅读审计方法及系统
CN110163257A (zh) * 2019-04-23 2019-08-23 百度在线网络技术(北京)有限公司 抽取结构化信息的方法、装置、设备和计算机存储介质
CN110377693A (zh) * 2019-06-06 2019-10-25 新华智云科技有限公司 财经新闻的模型训练方法和生成方法、装置、设备及介质
CN110750643A (zh) * 2019-09-29 2020-02-04 上证所信息网络有限公司 上市公司非定期公告的分类方法、装置及存储介质
CN110765742A (zh) * 2019-09-10 2020-02-07 上海融盈数据科技有限公司 一种基于文本分析技术的自动写稿系统
CN110795929A (zh) * 2018-07-17 2020-02-14 富士施乐株式会社 生成用于概括对话文件的标题的系统和方法
CN111539806A (zh) * 2020-04-14 2020-08-14 鼎富智能科技有限公司 一种公告内容结构化的方法及相关装置
CN112131833A (zh) * 2020-08-14 2020-12-25 张泽亮 一种机器自动写作软件
CN112148863A (zh) * 2020-10-15 2020-12-29 哈尔滨工业大学 一种融入常识知识的生成式对话摘要方法
CN112612937A (zh) * 2020-12-07 2021-04-06 深圳价值在线信息科技股份有限公司 一种关联信息获取方法及设备
CN112784585A (zh) * 2021-02-07 2021-05-11 新华智云科技有限公司 金融公告的摘要提取方法与摘要提取终端
CN113239206A (zh) * 2021-06-18 2021-08-10 广东博维创远科技有限公司 一种裁判文书精准化数据归类分析方法及计算机可以读取的存储装置
CN113255501A (zh) * 2021-05-18 2021-08-13 北京百度网讯科技有限公司 生成表格识别模型的方法、设备、介质及程序产品
CN113486149A (zh) * 2021-07-09 2021-10-08 深圳证券时报社有限公司 一种基于关键词匹配的上市公司公告分类及情感分析方法
CN114580978A (zh) * 2022-05-06 2022-06-03 四川野马科技有限公司 一种环评报告质量检查系统及其方法
CN115455936A (zh) * 2022-10-28 2022-12-09 北京澜舟科技有限公司 一种公告信息抽取方法、系统及存储介质
CN116681042A (zh) * 2023-08-01 2023-09-01 成都信通信息技术有限公司 基于关键字提取的内容概要生成方法、系统及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572849A (zh) * 2014-12-17 2015-04-29 西安美林数据技术股份有限公司 基于文本语义挖掘的标准化自动建档方法
CN105930314A (zh) * 2016-04-14 2016-09-07 清华大学 基于编码-解码深度神经网络的文本摘要生成系统及方法
CN106095749A (zh) * 2016-06-03 2016-11-09 杭州量知数据科技有限公司 一种基于深度学习的文本关键词提取方法
CN106227722A (zh) * 2016-09-12 2016-12-14 中山大学 一种基于上市公司公告摘要的自动提取方法
CN106528776A (zh) * 2016-11-07 2017-03-22 上海智臻智能网络科技股份有限公司 一种文本分类的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572849A (zh) * 2014-12-17 2015-04-29 西安美林数据技术股份有限公司 基于文本语义挖掘的标准化自动建档方法
CN105930314A (zh) * 2016-04-14 2016-09-07 清华大学 基于编码-解码深度神经网络的文本摘要生成系统及方法
CN106095749A (zh) * 2016-06-03 2016-11-09 杭州量知数据科技有限公司 一种基于深度学习的文本关键词提取方法
CN106227722A (zh) * 2016-09-12 2016-12-14 中山大学 一种基于上市公司公告摘要的自动提取方法
CN106528776A (zh) * 2016-11-07 2017-03-22 上海智臻智能网络科技股份有限公司 一种文本分类的方法和装置

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019109918A1 (zh) * 2017-12-06 2019-06-13 腾讯科技(深圳)有限公司 摘要文本生成方法、计算机可读存储介质和计算机设备
CN110069623A (zh) * 2017-12-06 2019-07-30 腾讯科技(深圳)有限公司 摘要文本生成方法、装置、存储介质和计算机设备
CN110162765A (zh) * 2018-02-11 2019-08-23 鼎复数据科技(北京)有限公司 一种基于摘要方式的机器辅助阅读审计方法及系统
CN108549813A (zh) * 2018-03-02 2018-09-18 彭根 判别方法、装置及处理器和存储介质
CN108509596A (zh) * 2018-04-02 2018-09-07 广州市申迪计算机系统有限公司 文本分类方法、装置、计算机设备和存储介质
CN108563783B (zh) * 2018-04-25 2022-04-12 张艳 一种基于大数据的财务分析管理系统及方法
CN108563783A (zh) * 2018-04-25 2018-09-21 张艳 一种基于大数据的财务分析管理系统及方法
CN108614898A (zh) * 2018-05-10 2018-10-02 爱因互动科技发展(北京)有限公司 文档解析方法与装置
CN110795929A (zh) * 2018-07-17 2020-02-14 富士施乐株式会社 生成用于概括对话文件的标题的系统和方法
CN109710756B (zh) * 2018-11-23 2023-07-07 京华信息科技股份有限公司 基于语义角色标注的文书体裁分类系统及方法
CN109710756A (zh) * 2018-11-23 2019-05-03 京华信息科技股份有限公司 基于语义角色标注的文书体裁分类系统及方法
CN109741190A (zh) * 2018-12-27 2019-05-10 清华大学 一种个股公告分类的方法、系统及设备
CN109783787A (zh) * 2018-12-29 2019-05-21 远光软件股份有限公司 一种结构化文档的生成方法、装置及存储介质
CN109800761A (zh) * 2019-01-25 2019-05-24 厦门商集网络科技有限责任公司 基于深度学习模型创建纸质文档结构化数据的方法和终端
CN109800761B (zh) * 2019-01-25 2022-11-11 厦门商集网络科技有限责任公司 基于深度学习模型创建纸质文档结构化数据的方法和终端
CN110096568A (zh) * 2019-03-22 2019-08-06 泰康保险集团股份有限公司 用于上市公司业绩预警的方法、装置、设备及存储介质
CN110096568B (zh) * 2019-03-22 2022-12-06 泰康保险集团股份有限公司 用于上市公司业绩预警的方法、装置、设备及存储介质
CN110163257A (zh) * 2019-04-23 2019-08-23 百度在线网络技术(北京)有限公司 抽取结构化信息的方法、装置、设备和计算机存储介质
CN110134957A (zh) * 2019-05-14 2019-08-16 云南电网有限责任公司电力科学研究院 一种基于语义分析的科技成果入库方法及系统
CN110134957B (zh) * 2019-05-14 2023-06-13 云南电网有限责任公司电力科学研究院 一种基于语义分析的科技成果入库方法及系统
CN110377693A (zh) * 2019-06-06 2019-10-25 新华智云科技有限公司 财经新闻的模型训练方法和生成方法、装置、设备及介质
CN110765742A (zh) * 2019-09-10 2020-02-07 上海融盈数据科技有限公司 一种基于文本分析技术的自动写稿系统
CN110750643A (zh) * 2019-09-29 2020-02-04 上证所信息网络有限公司 上市公司非定期公告的分类方法、装置及存储介质
CN110750643B (zh) * 2019-09-29 2024-02-09 上证所信息网络有限公司 上市公司非定期公告的分类方法、装置及存储介质
CN111539806A (zh) * 2020-04-14 2020-08-14 鼎富智能科技有限公司 一种公告内容结构化的方法及相关装置
CN112131833A (zh) * 2020-08-14 2020-12-25 张泽亮 一种机器自动写作软件
CN112148863A (zh) * 2020-10-15 2020-12-29 哈尔滨工业大学 一种融入常识知识的生成式对话摘要方法
CN112612937A (zh) * 2020-12-07 2021-04-06 深圳价值在线信息科技股份有限公司 一种关联信息获取方法及设备
CN112784585A (zh) * 2021-02-07 2021-05-11 新华智云科技有限公司 金融公告的摘要提取方法与摘要提取终端
CN113255501A (zh) * 2021-05-18 2021-08-13 北京百度网讯科技有限公司 生成表格识别模型的方法、设备、介质及程序产品
CN113255501B (zh) * 2021-05-18 2023-08-04 北京百度网讯科技有限公司 生成表格识别模型的方法、设备、介质及程序产品
CN113239206A (zh) * 2021-06-18 2021-08-10 广东博维创远科技有限公司 一种裁判文书精准化数据归类分析方法及计算机可以读取的存储装置
CN113239206B (zh) * 2021-06-18 2023-05-12 广东博维创远科技有限公司 一种裁判文书精准化数据归类分析方法及计算机可以读取的存储装置
CN113486149A (zh) * 2021-07-09 2021-10-08 深圳证券时报社有限公司 一种基于关键词匹配的上市公司公告分类及情感分析方法
CN114580978A (zh) * 2022-05-06 2022-06-03 四川野马科技有限公司 一种环评报告质量检查系统及其方法
CN115455936A (zh) * 2022-10-28 2022-12-09 北京澜舟科技有限公司 一种公告信息抽取方法、系统及存储介质
CN116681042A (zh) * 2023-08-01 2023-09-01 成都信通信息技术有限公司 基于关键字提取的内容概要生成方法、系统及介质
CN116681042B (zh) * 2023-08-01 2023-10-10 成都信通信息技术有限公司 基于关键字提取的内容概要生成方法、系统及介质

Similar Documents

Publication Publication Date Title
CN107403375A (zh) 一种基于深度学习的上市公司公告分类及摘要生成方法
Chen et al. Fraud detection for financial statements of business groups
Huang et al. A multilabel text classification algorithm for labeling risk factors in SEC form 10-K
CN106649223A (zh) 基于自然语言处理的金融报告自动生成方法
CN110276054B (zh) 一种保险文本结构化实现方法
US11263523B1 (en) System and method for organizational health analysis
CN107885883A (zh) 一种基于社会媒体的宏观经济领域情感分析方法及系统
CN111737421A (zh) 一种知识产权大数据情报检索系统及存储介质
Chou et al. Integrating XBRL data with textual information in Chinese: A semantic web approach
Sadasivam et al. Corporate governance fraud detection from annual reports using big data analytics
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN110110087A (zh) 一种基于二分类器的用于法律文本分类的特征工程方法
CN111754208A (zh) 一种招聘简历自动筛选方法
CN112200674B (zh) 一种证券市场情绪指数智能计算信息系统
Jia et al. Logo design process and method of intellectual property big data in the digital media era
Aue et al. Predicting Companies' ESG Ratings from News Articles Using Multivariate Timeseries Analysis
CN114118779B (zh) 一种基于kgann的面向互联网舆情事件的企业风险识别方法
KR20220068937A (ko) 기계학습 방법론을 이용한 한국 표준 산업/직업 분류 방법
CN111046934A (zh) 一种swift报文软条款识别方法及装置
Liu et al. Practical skills of business english correspondence writing based on data mining algorithm
Zhu et al. Identification of Impoverished College Students Based on LR-RF Dual Indicators
Yu et al. Chinese FOG Index: the readability of information disclosure in chinese listed companies
Sanwal et al. Design Approach For Opinion Mining In Hotel Review Using SVM With Particle Swarm Optimization (PSO)
Zhang News Communication Value Evaluation Algorithm Based on Deep Neural Network
Linardos et al. Using financial news articles with minimal linguistic resources to forecast stock behaviour

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171128

RJ01 Rejection of invention patent application after publication