CN112966097A - 一种基于nlp的上市公司财务快讯自动生成方法及系统 - Google Patents

一种基于nlp的上市公司财务快讯自动生成方法及系统 Download PDF

Info

Publication number
CN112966097A
CN112966097A CN202110253640.3A CN202110253640A CN112966097A CN 112966097 A CN112966097 A CN 112966097A CN 202110253640 A CN202110253640 A CN 202110253640A CN 112966097 A CN112966097 A CN 112966097A
Authority
CN
China
Prior art keywords
financial
data
text
information
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110253640.3A
Other languages
English (en)
Inventor
邱震宇
王玲
孔亚洲
朱德伟
张弛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huatai Securities Co ltd
Original Assignee
Huatai Securities Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huatai Securities Co ltd filed Critical Huatai Securities Co ltd
Priority to CN202110253640.3A priority Critical patent/CN112966097A/zh
Publication of CN112966097A publication Critical patent/CN112966097A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了自然语言处理技术领域的一种基于NLP的上市公司财务快讯自动生成方法及系统,包括:将公告文件进行结构化处理,得到文本解析信息;从文本解析信息中抽取财务数据和文本数据,得到关键财务信息;将关键财务信息输入训练好的改良后的seq2seq模型,生成财务快讯。具有生成的财务快讯文本样式丰富,维护使用简单,文本匹配效果好等特点。

Description

一种基于NLP的上市公司财务快讯自动生成方法及系统
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于NLP的上市公司财务快讯自动生成方法及系统。
背景技术
通过研究,我们发现财务快讯报告通常包含基础财务指标描述、主营业务相关情况描述和异动财务与经营指标及其原因等基础元素。这些财务基础元素均可利用自然语言处理技术从上市公司的公告文件中自动解析出来。另一方面,这类财务快讯报告大多属于客观陈述,一般不涉及复杂的深度观点剖析。
财务快讯自动生成的方法主要有两种,一种是基于规则模板;另一种是基于深度神经网络的端到端的文本生成。基于规则模板的方法存在的缺陷:生成文本样式过于单一死板,多样性较差;规则模板的维护和扩展工作需要较高的人力成本和领域知识。基于深度神经网络的端到端文本生成方法存在的缺陷:训练一个可用的神经网络需要一定量的训练语料,然而在实际业务场景中,很难去构建一个数据量充分的训练集合;金融领域对于金融数字、术语的生成质量要求较高,直接使用seq2seq做文本生成,容易产生错误的数字描述,这种错误往往影响很大。
发明内容
为解决现有技术中的不足,本发明提供一种基于NLP的上市公司财务快讯自动生成方法及系统,生成的财务快讯文本样式丰富,维护使用简单,文本匹配效果好等特点。
为达到上述目的,本发明所采用的技术方案是:
第一方面,提供一种财务快讯自动生成方法,包括:将公告文件进行结构化处理,得到文本解析信息;从文本解析信息中抽取财务数据和文本数据,得到关键财务信息;将关键财务信息输入训练好的改良后的seq2seq模型,生成财务快讯。
进一步地,所述将公告文件进行结构化处理,得到文本解析信息,包括:从指定数据源上实时获取PDF格式的公告文件;对获取的公告文件进行粗粒度解析,得到第一数据集;对第一数据进行细粒度解析和数据抽取,得到第二数据集;对第二数据进行格式化处理,得到第三数据集;基于第三数据集和公告文件的目录信息,将单一指标数据进行关联,最终获得文本解析信息。
进一步地,所述关键财务信息包括基本财务指标数据、主营业务指标数据和指标异常变动数据;所述基本财务指标数据和主营业务指标数据直接从文本解析信息中索引获取;所述指标异常变动数据包括异动财务指标数据和对应的异动原因;所述指标异常变动数据的获取方法为:先基于预先设定的阈值确定异动财务指标数据,并将异动财务指标数据描述为一个短文本语句;然后采用基于BERT模型构建的二分类问题模型,将异动财务指标数据与异动原因进行文本匹配,获得包含异动财务指标数据及对应的异动原因的指标异常变动数据。
进一步地,所述改良后的seq2seq模型,包括内容选择模块和内容编排模块,所述内容选择模块用于让对不同财务指标属性内容的重要程度进行学习,所述内容编排模块用于根据内容选择模块的学习结果,对财务指标进行筛选和排序。
进一步地,所述改良后的seq2seq模型,还包括数据预处理模块,用于对关键财务信息进行预处理,即将关键财务信息的结构化数据转化为三元组形式,以输入到编码器中。
进一步地,所述改良后的seq2seq模型的训练方法,包括:a、搜集深交所、上交所上市公司的历史财务报告包括年报,季度报,半年报;b、搜集不同证券公司或相关机构的研究人员撰写的财务报告的点评或者分析文本,与步骤a中的财务报告做一一对应;c、根据关键财务信息构建规则模板,初步生成快讯文本,进行冷启动,并加入到模型训练语料中;d、对步骤a和步骤b得到的财务报告和对应的研报进行人工标注,将财务点评的文本从研报中抽取出来,作为该财务报告的目标生成文本;另外,从步骤c中由规则模板生成的快讯文本中采样抽取若干快讯文本与财务报告的目标生产文本一起构成初步训练样本集合;最后,对初步训练样本集合进行数据增强,使用回译、句法转换扩充句子的表达方式,最终形成训练样本;e、使用训练样本对改良后的seq2seq模型进行训练,得到训练好的改良后的seq2seq模型。
第二方面,提供一种财务快讯自动生成系统,包括:公告文件解析模块,用于将公告文件进行结构化处理,得到文本解析信息;信息抽取模块,用于从文本解析信息中抽取财务数据和文本数据,得到关键财务信息;文本生成模块,用于将关键财务信息输入训练好的改良后的seq2seq模型,生成财务快讯。
第三方面,提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行第一方面所述的财务快讯自动生成方法。
与现有技术相比,本发明所达到的有益效果:
(1)本发明通过将公告文件进行结构化处理,再从中抽取财务数据和文本数据,得到关键财务信息;将关键财务信息输入训练好的改良后的seq2seq模型,生成财务快讯;生成的财务快讯文本样式丰富,具有维护使用简单,文本匹配效果好等特点。
(2)本发明对公告文件做异动指标以及原因抽取的时候,将该问题抽象为一个文本匹配问题,将公告文本分拆成一个一个句子,并通过两两组合,得到一个训练样本;这样做一来能够构建大量的可训练的数据集,另一方面,文本匹配问题在自然语言处理领域是一个相对容易解决的问题,且充分利用了大规模预训练的语言模型,能够极大提升文本匹配的效果;
(3)本发明对结合了基于模板规则的生成方式与基于深度神经网络的生成方式,在项目初期,使用模板规则生成财务快讯,一方面能够快速启动项目的服务,另一方面能够为后续的神经网络生成文本提供足量的训练数据;同时,引入神经网络生成文本,能够解决模板规则生成文本比较单一的缺陷,提高了多样性;
(4)本发明构建数据集时,除了人工进行标注外,还引入了数据增强的技术,通过翻译工具将原始文本进行多语种的双向翻译,增加训练语料的多样性,另外还通过分析文本的句法和语法,利用一些特定的语法扩充文本的表达方式,以达到数据扩张的目的;通过上述方式,将整体的训练数据量提升了80%;
(5)本发明在传统的seq2seq的文本生成框架基础上,基于结构化数据的特殊属性,引入了内容选择和内容编排模块,对不同财务指标的重要性以及财务指标描述的顺序进行了建模,对于财务快讯生成任务来说,做了适配的改动,提升了文本生成的质量。
附图说明
图1是本发明实施例提供的一种财务快讯自动生成方法的整体框架图;
图2是本发明实施例提供的一种财务快讯自动生成方法中生成财务快讯的主要流程图;
图3是本发明实施例提供的一种财务快讯自动生成方法中生成财务快讯的文本生成模型架构图;
图4是本发明实施例提供的一种财务快讯自动生成方法中生成财务快讯的Embedding层架构图;
图5是本发明实施例提供的一种财务快讯自动生成方法中生成财务快讯的内容选择子模块结构图;
图6是本发明实施例提供的一种财务快讯自动生成方法中生成财务快讯的内容编排模块的结构图;
图7是本发明实施例中引用的指针网络的结构示意图;
图8是本发明实施例生成的财务快讯的第一种表达方式;
图9是本发明实施例生成的财务快讯的第二种表达方式;
图10是本发明实施例生成的财务快讯的第三种表达方式。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一:
财务快讯自动生成问题希望从上市公司的定期报告中自动地识别出财务指标描述、异动财务与经营指标等元素,并根据这些元素生成精简、凝练的财务快讯。假设给定一篇PDF文档D,财务指标集合A={a1,a2,…,am}。模型需要先将文档转化为结构化数据SD={Ttext,Ttable},其中,Ttext代表文本数据,Ttable代表表格数据。接着,模型需要根据财务指标集合抽取出关键指标信息Rindex和关键文本信息Rtext。最终,模型根据抽取出来的关键信息Rindex和Rtext生成最终的财务快讯文本Y。
如图1~7所示,本实施例提供一种财务快讯自动生成方法,包括:将公告文件进行结构化处理,得到文本解析信息;从文本解析信息中抽取财务数据和文本数据,得到关键财务信息;将关键财务信息输入训练好的改良后的seq2seq模型,生成财务快讯。
本实施例的财务快讯自动生成方案主要分为三大模块:公告文件解析模块、信息抽取模块和文本生成模块;这三个模块以流水线方式串联执行,整体架构如图1所示。输入数据为上市公司发布的原始定期公告文件,包括年报、半年报、季度报等。这些公告文件大多属于PDF格式,它们无法直接应用到下游任务中。因此,需要先借助PDF解析技术对文本进行结构化处理,将这些公告文件转化为结构化的数据。处理得到的结构化数据除了包含基础财务数据,还存在大量冗余信息,需要通过财务信息抽取模块抽取出有用的财务数据,这些数据包括基本财务指标相关数据、指标变动原因文本、主营业务介绍以及相关财务变动原因文本等。待抽取的数据既包含结构化的表格型数据,也有半结构化、非结构化的文本数据。因此,财务信息抽取模块综合了规则模板、序列标注模型和句法分析等多种方法来共同完成财务信息抽取任务。最后,模型将这些关键财务信息输入到财务快讯生成模块中进行快讯生成任务,在这个模块中,首先设计了一种基于冷启动的语料构建方法来生成必备的训练语料,然后,借助基于规则模板的生成方法和基于神经网络的序列生成模型来生成最终的财务快讯。
将公告文件进行结构化处理,得到文本解析信息,包括:从指定数据源上实时获取PDF格式的公告文件;对获取的公告文件进行粗粒度解析,得到第一数据集;对第一数据进行细粒度解析和数据抽取,得到第二数据集;对第二数据进行格式化处理,得到第三数据集;基于第三数据集和公告文件的目录信息,将单一指标数据进行关联,最终获得文本解析信息。
本实施例模型处理的对象主要包括上市公司的定期财务报告,如年报、半年报、季报等公告文档。不同行业、不同公司、不同事件或不同时间发布的公告文档结构差异较大。因此,需要对这些PDF文件进行预处理,将其处理成统一的、方便处理的数据格式。借助于自然语言处理技术实现了定期公告文档智能化解析,主要包含以下模块:
文档采集模块,该模块主要负责从指定数据源上实时获取上市公司的公告文档。数据源包括互联网、本地文件和数据库等;
文档解析模块,该模块主要负责对PDF公告文档进行粗粒度解析;解析得到的数据包括文档的结构、文本、表格等;
数据提取模块,该模块对上一步得到的结果进行更细粒度地信息抽取处理;一方面,解析得到的文本大多以块的形式存在,需要把同一段落内的文本块进行合并处理;另一方面,设计了专用的卷积神经网络(Convolutional Neural Network,CNN)来提取图片中的表格数据;
数据后处理模块,该模块主要是对抽取得到的数据做进一步地格式化处理,包括金额数据归一化、时间单位转换等;
关联分析模块,该模块结合文档的篇章结构等目录信息,进一步将单一指标数据进行关联,包括指标明细关联、表格历史关联和指标历史关联等;
数据标注模块,该模块主要是支持人工对机器自动抽取的数据进行查看、校验和错误修改,帮助提升文档解析的质量;
数据存储模块,模型将解析得到的数据存到数据库中以备后用。
从文本解析信息中抽取财务数据和文本数据,得到关键财务信息;关键财务信息包括基本财务指标数据、主营业务指标数据和指标异常变动数据;基本财务指标数据和主营业务指标数据直接从文本解析信息中索引获取;指标异常变动数据包括异动财务指标数据和对应的异动原因;指标异常变动数据的获取方法为:先基于预先设定的阈值确定异动财务指标数据,并将异动财务指标数据描述为一个短文本语句;然后采用基于BERT模型构建的二分类问题模型,将异动财务指标数据与异动原因进行文本匹配,获得包含异动财务指标数据及对应的异动原因的指标异常变动数据。
PDF解析得到的数据不仅包含了基础的财务数据,还存在大量冗余信息。需要对这些数据进行信息抽取处理,抽取出关键的财务信息以传递到下游模块中。针对不同特点的财务数据,设计了专门的抽取方法进行处理。
基本财务指标数据主要关注财务指标名称及其对应的变动百分比,如营业收入、归母净利润等。主营业务指标数据关注公司在所属的不同行业、输出的不同产品、不同地理区域上的营业状况。这两部分数据的获取较为简单,可以直接从解析得到的结构化数据中索引获取。
异动财务指标数据主要指那些数据变动较为异常的财务指标,包括基本财务数据和主营业务数据。根据研究员提供的专业指导意见,针对不同指标设置对应的异动阈值;若该指标数值变动超过了这个阈值,则该指标将被判定为异动指标。除此之外,我们还需要抽取出这些异动指标产生的原因。通常,指标异动原因描述会以两种形式存在于公告中:表格栏目数据和非结构化文本描述。对于前者,可以定位到表格相应的指标异动原因栏目,直接抽取。对于非结构化指标异动原因,需要结合机器学习相关技术进行文本抽取,主要包括数据集构建和机器判别两个部分。在初期,先从文本中抽取出存在异动指标的子句片段,并将其交由标注人员判别包含该指标的子句是否为该指标异动的原因。
接着,将指标异动的原因抽取任务抽象为异动文本匹配问题。具体地,将先前述步骤得到的指标异动情况转化为一个短文本语句。例如:“营业收入”指标项对应的变动值为“50%”,则将其转化为为“营业收入相比上一年同期增长了50%”。然后,以BERT模型为基础,构建一个二分类问题。BERT全称为Bidirectional Encoder Representations fromTransformers,是一种基于transformer架构的模型,它基于大规模的百万级别的文本语料进行了语言模型的训练,并将训练后得到的模型权重进行保存,用于其他的文本任务,如文本分类等,这种经过预训练的模型在很多文本任务上都能得到很好的效果。将前述步骤拼接的异动指标情况描述以及候选原因子句作为输入,来判断该候选原因子句是否为该指标的异动原因描述。通过上述步骤,可以从文档中找出异动指标及其对应的异动原因。
通过前述步骤,已经获取了公司公告文档中的基本财务指标的结构化数据、异动财务指标的结构化数据以及相关异动原因的非结构化数据。需要将这些信息整合起来生成一段完整的财务快讯。针对财务快讯生成数据集不足的问题,本实施例首先设计了一种多样化构建语料库的方法。然后,模型结合规则模板、Seq2Seq序列生成技术来完成财务快讯文本自动生成任务。主要流程如图2所示。
将关键财务信息输入训练好的改良后的seq2seq模型,生成财务快讯;改良后的seq2seq模型,包括数据预处理模块、内容选择模块和内容编排模块,内容选择模块用于让对不同财务指标属性内容的重要程度进行学习,内容编排模块用于根据内容选择模块的学习结果,对财务指标进行筛选和排序;数据预处理模块用于对关键财务信息进行预处理,即将关键财务信息的结构化数据转化为三元组形式,以输入到编码器中。
改良后的seq2seq模型的训练方法,包括:a、搜集深交所、上交所上市公司的历史财务报告包括年报,季度报,半年报;b、搜集不同证券公司或相关机构的研究人员撰写的财务报告的点评或者分析文本,与步骤a中的财务报告做一一对应;c、根据关键财务信息构建规则模板,初步生成快讯文本,进行冷启动,并加入到模型训练语料中;d、对步骤a和步骤b得到的财务报告和对应的研报进行人工标注,将财务点评的文本从研报中抽取出来,作为该财务报告的目标生成文本;另外,从步骤c中由规则模板生成的快讯文本中采样抽取若干快讯文本与财务报告的目标生产文本一起构成初步训练样本集合;最后,对初步训练样本集合进行数据增强,使用回译、句法转换扩充句子的表达方式,最终形成训练样本;e、使用训练样本对改良后的seq2seq模型进行训练,得到训练好的改良后的seq2seq模型。
数据集构建对深度学习模型落地非常关键。财务快讯生成数据集的构建难度更大。这主要体现在以下两个方面:(1)目标文本整理难度较大。构建的目标文本来源于各家门户网站的人工点评文本以及证券研究员撰写的研究报告。然而,这些文本并非全部符合要求。需要专业的标注人员从中筛选出需要的内容;(2)目标文本和输入数据匹配关系较为复杂。在查找到目标文本后,还需要将文本与模型的输入数据进行对齐,即需要将具体某个公司的某个公告与该文本进行匹配,保证数据的正确性和有效性。基于上述问题,本实施例设计了一个人工标注结合机器标注的数据集构建方式。具体流程如下:
收集原始语料,收集公告发布后3日内与该公告相关的研报点评,并将这些数据添加到候选语料数据集中;
人工标注语料,由专业人员对这些语料数据进行人工标注;
机器辅助标注,本实施例设计了一种基于相似句检索的机器标注方式。首先,模型对已有的指标情况使用简单短句形式进行拼接,对于异动指标原因则可以直接使用其文本。然后,本实施例使用开源中文分词工具LAC对文本进行分词,并使用开源的中文词向量结合单词的TFIDF表示对句子进行编码。接着,使用向量余弦相似度来匹配原始文本中相似度高的文本,并添加到候选目标文本中。最后,根据文本在文中的位置将所有文本进行重排序,并由标注人员进行校验。虽然这种方式还是需要人力参与,但是标注工作量大大减小。
数据增强,为了提升最终效果,数据量是越多越好的。为了提升数据量,本实施例使用了一些数据增强的方法来提升训练语料量级。首先,利用公开可用的翻译工具将当前已有的一些文本语料翻译成英文,然后再用相同的翻译工具翻译成中文,由于在翻译过程中,会产生一定的语义表达偏差,因此能产生一些不一样的中文语料;另外,本实施例还根据文本的句法和语法对中文文本做了一些结构上的变换,以达到数据扩充的目的。利用的语法规则包括:主动句式和被动句式的互换、状语、宾语从句的增删改等。
运行初期,相关数据积累较少,使用监督训练的难度较大。因此,本实施例选择使用基于规则模板的方式来进行冷启动生成。根据财务指标情况描述,为每个指标设计一个带有槽位的描述模板。其中,槽位类型包含指标名称、指标当期数值和指标变动百分比等。模板实例如下:“{指标名称}亏损{当期数值}元,亏损同比增长{变动百分比}%”。在生成时,将检索得到的指标值填入到对应的模板槽位中构造对应的财务快讯子句。另一方面,根据子句推荐度,直接从前述步骤构造的指标异动原因子句集合中,选择一个子句作为最终的原因描述。
通常,规则模板生成的财务快讯指标描述准确性较好,但是该方法生成的文本样式和表达风格较为固定,缺少变化。另外,规则模板的维护和扩展也需要较高的人力成本。因此,本实施例研究了基于深度学习的自然语言生成技术。在实际业务中,基于深度学习的模型通常需要大量的标注数据。除了人工标注的数据外,本实施例还将冷启动阶段获得的部分快讯作为一部分训练数据加入到数据集中,辅助训练。
与一般的文本序列生成任务相比,财务快讯指标描述生成任务有以下两点不同。首先,财务快讯生成模型的输入数据为结构化的表格数据,需要对编码器进行重新设计。其次,财务快讯模型需要对输入的财务指标进行筛选,从中选取重要的关键指标进行描述。除此之外,为了使得生成的描述文本符合常规阅读顺序,还需要决定指标的生成顺序。
针对上述问题,本实施例在seq2seq基础框架中引入内容选择模块和内容编排模块。内容选择模块是让模型对不同财务指标属性内容的重要程度进行学习,内容编排模块根据内容选择模块的学习结果,对财务指标进行筛选和排序。另外,模型还引入了copy机制。该机制能够让模型直接从原文中复制数值、百分比等类型的数据,该机制能提高生成文本的数值准确度,该生成模型的整体架构如图3所示:
具体流程步骤如下:
数据预处理,原始的结构化数据无法直接输入到编码器中进行编码,模型需要对输入的结构化数据做预处理。具体地,模型将数据转化为三元组形式,每一行表示一个条目,如表1示:
表1条目数据示例
指标名称 属性类型 属性值
营业收入 当期数值 a
营业收入 变动百分比 b%
每股收益 当期数值 c
每股收益 变动百分比 d%
其中,每个条目可以表示为一个三元组ri={ri,1,ri,2,ri,3}。
数据嵌入编码,预处理得到的数据属于离散数据,不能直接输入到神经网络中进行学习。需要对输入数据进行Embedding编码,将所有属性值编码成浮点数向量表示Eri。Embedding给的作用有两个,既可以通过语义编码的方式将record中不同列上的文本进行向量编码,也可以在不同列的文本之间建立相互关系。具体的Embedding方式如图4所示。首先,分别对record的每一列的值进行字符级别的embedding操作(采用随机初始化的方式)。然后将所有列的embedding输出进行拼接后,输入到一个带激活函数的全连接层,最后每个record都得到一个指定维度的embedding表示。
内容选择模块主要是希望学习出每个条目属性内容的重要性,从而对信息进行筛选。例如,如果一个公司的归母净利润提升百分比较大,且在文中提出,那么他的每股收益等指标可能也会伴随着出现。为了实现上述功能,具体来说,对record的embedding输出实施自注意力机制的计算。通过自注意力的计算,能够获取不同record之间的上下文关系,例如每股收益和营业收入、归母净利润的变动百分比的相互影响关系。自注意力计算能够让每个record得到包含其他record隐含关系的上下文cj,然后将该上下文与record的embedding拼接,并输入到一个全连接层,输出一个综合record信息
Figure BDA0002966856220000141
最后,需要根据这个信息来对所有record进行信息选择,选出有用的record信息。引入门限机制来控制哪些信息可以流入到下游的网络结构中,让下游的decoder能够聚焦在重要的record信息上。只需要对
Figure BDA0002966856220000142
实施sigmoid操作,这样record每个列维度都能得到一个0-1的概率阈值,将该概率阈值分别与对应列维度相乘,最终得到一个包含选择操作的record输出,作为decoder模块的输入。内容选择子模块结构图如图5所示。
内容编排模块,该模块的主要信息是将编码器输出的条目信息进行内容编排,确定这些指标的顺序。模型引入一个隐变量z来表示编排后的条目列表,表1就是一个可能的z列表。为了简化问题,本实施例将研报文本的指标及其属性抽取出来,并按照其在原文的顺序进行排列,这样就得到每个目标文本的“近似最优编排”target_z。模型以target_z为参照,通过seq2seq模型来学习最优的指标编排方式,从而筛选出重要的指标及其出现顺序,值得一提的是同时本实施例在这之上加入注意力机制,即将encoder一段的所有信息与decoder解码端的当前时刻信息进行注意力机制的计算,增强上下文关系的建模。使用交叉熵损失函数来建模预测的record序列与真实的最优record序列的差异,得到损失函数loss1。模块结构如图6所示。
解码生成模块,在解码阶段,本实施例在decoder之前再添加一个encoder网络,用于编码编排后的record序列z。沿用teacher forcing的思想,使用真实的最优z序列作为encoder的输入。使用双向LSTM作为encoder网络结构,相比单向的LSTM,其建模上下文关系能力更强。对于decoder来说,本实施例仍然使用单向的LSTM结构,并使用目标生成文本作为其训练时的一个输入,结合encoder输出的record编排方案信息,进行seq2seq的文本生成训练。由于初始构建词表的时候,一般会将数值、金额、日期等属性过滤掉,因此为了能够让模型在生成某些数值、属性值时直接复制原文中的数据,本实施例引入了指针网络,来控制模型在某个时刻t是否使用原文复制的内容还是模型自己生成的内容。其核心思想是通过以下公式计算Pgen
Figure BDA0002966856220000151
其中,C,h,y分别表示encoder的attention上下文输出、decoder的隐层输出以及训练时的目标文本输入。同时,通过decoder能够得到模型在时刻t上生成的词分布Pvocab,vocab表示一开始构建语料时组建的词表,由于在组建词表时,会过滤掉一些少见词,同时构建的目标生成文本和record中的词也会有所不同(例如金额数值、时间值等),因此record中可能存在vocab中没有的词,这些词称之为拓展词。最后结合上述信息计算得到包含了vocab和原文拓展词的词分布。
Figure BDA0002966856220000152
其中,
Figure BDA0002966856220000153
表示encoder阶段输入的record中所有包含的词yt的位置的attention分数之和。本实施例中引入的指针网络,如图7所示。
其后,根据生成的词分布和目标文本计算交叉熵损失函数,得到loss2。
然后结合内容编排模块得到的loss1和loss2,同时训练两个子任务,得到最终的loss=loss1+loss2。预测时,先通过内容编排模块中的子网络生成最优的record编排序列。然后将该序列输入到解码生成文本的网络中,使用top-k采样方式做文本解码生成,具体操作为在每个时刻t上,通过解码器能够得到当前时刻候选生成词的概率分布,根据概率将这些候选词进行排序,然后选择概率前k大的词集,然后对这k个词的概率分布进行归一化计算,并通过采样,得到当前时刻的最终结果词。解码过程在时间上是一步一步迭代进行的,直到达到预定的文本长度或者解码得到终止符[EOF]才停止生成,最终得到结果文本。
本实施例通过将公告文件进行结构化处理,再从中抽取财务数据和文本数据,得到关键财务信息;将关键财务信息输入训练好的改良后的seq2seq模型,生成财务快讯;生成的财务快讯文本样式丰富,具有维护使用简单,文本匹配效果好等特点。本实施例对公告文件做异动指标以及原因抽取的时候,将该问题抽象为一个文本匹配问题,将公告文本分拆成一个一个句子,并通过两两组合,得到一个训练样本;这样做一来能够构建大量的可训练的数据集,另一方面,文本匹配问题在自然语言处理领域是一个相对容易解决的问题,且充分利用了大规模预训练的语言模型,能够极大提升文本匹配的效果;本实施例结合了基于模板规则的生成方式与基于深度神经网络的生成方式,在项目初期,使用模板规则生成财务快讯,一方面能够快速启动项目的服务,另一方面能够为后续的神经网络生成文本提供足量的训练数据;同时,引入神经网络生成文本,能够解决模板规则生成文本比较单一的缺陷,提高了多样性,如图8~图10所示;在构建数据集时,除了人工进行标注外,还引入了数据增强的技术,通过翻译工具将原始文本进行多语种的双向翻译,增加训练语料的多样性,另外还通过分析文本的句法和语法,利用一些特定的语法扩充文本的表达方式,以达到数据扩张的目的;通过上述方式,将整体的训练数据量提升了80%;在传统的seq2seq的文本生成框架基础上,基于结构化数据的特殊属性,引入了内容选择和内容编排模块,对不同财务指标的重要性以及财务指标描述的顺序进行了建模,对于财务快讯生成任务来说,做了适配的改动,提升了文本生成的质量。
本实施例基于自然语言处理技术,结合传统规则模板和深度学习模型,对上市公司发布的财务报告进行解析,并自动生成财务简评文本,具体应用于智能投研的方案如下:
Step1:搜集深交所、上交所上市公司的历史财务报告包括年报,季度报,半年报。
Step2:搜集不同证券公司或相关机构的研究人员撰写的财务报告的点评或者分析文本。与step1中的财务报告做一一对应。
Step3:利用已有的公告解析工具对财务报告进行文件解析,得到结构化的财务数据和非结构化的其他文本数据
Step4:对step3得到的结构化财务数据进行指标的抽取,对非结构化的文本数据进行异动指标原因的抽取。
Step5:根据step4得到的财务指标和异动指标原因文本,设计规则模板,初步生成快讯文本,进行冷启动,并加入到模型训练语料中。
Step6:由标注人员对step1和step2得到的财务报告和对应的研报进行人工标注,将财务点评的文本从研报中抽取出来,作为该财务报告的目标生成文本。另外,从step5中由规则模板生成的文本中采样抽取一些文本添加到训练样本中;最后,对已有的训练集合进行数据增强,使用回译、句法转换等方法扩充句子的表达方式。
Step7:利用训练数据使用改良后的seq2seq模型进行训练,得到训练完成的模型。
Step8:部署模型服务到对应的服务器
Step9:将上市公司新发布的财务报告进行文本解析和信息抽取,并将抽取出来的指标信息和异动原因发送到模型服务中,最终生成财务快讯文本。
实施例二:
基于实施例一所述的财务快讯自动生成方法,本实施例提供一种财务快讯自动生成系统,包括:公告文件解析模块,用于将公告文件进行结构化处理,得到文本解析信息;信息抽取模块,用于从文本解析信息中抽取财务数据和文本数据,得到关键财务信息;文本生成模块,用于将关键财务信息输入训练好的改良后的seq2seq模型,生成财务快讯。
实施例三:
基于实施例一所述的财务快讯自动生成方法和实施例二所述的财务快讯自动生成系统,本实施例提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行实施例一所述的财务快讯自动生成方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims (8)

1.一种财务快讯自动生成方法,其特征是,包括:
将公告文件进行结构化处理,得到文本解析信息;
从文本解析信息中抽取财务数据和文本数据,得到关键财务信息;
将关键财务信息输入训练好的改良后的seq2seq模型,生成财务快讯。
2.根据权利要求1所述的财务快讯自动生成方法,其特征是,所述将公告文件进行结构化处理,得到文本解析信息,包括:
从指定数据源上实时获取PDF格式的公告文件;
对获取的公告文件进行粗粒度解析,得到第一数据集;
对第一数据进行细粒度解析和数据抽取,得到第二数据集;
对第二数据进行格式化处理,得到第三数据集;
基于第三数据集和公告文件的目录信息,将单一指标数据进行关联,最终获得文本解析信息。
3.根据权利要求1所述的财务快讯自动生成方法,其特征是,所述关键财务信息包括基本财务指标数据、主营业务指标数据和指标异常变动数据;
所述基本财务指标数据和主营业务指标数据直接从文本解析信息中索引获取;
所述指标异常变动数据包括异动财务指标数据和对应的异动原因;所述指标异常变动数据的获取方法为:先基于预先设定的阈值确定异动财务指标数据,并将异动财务指标数据描述为一个短文本语句;然后采用基于BERT模型构建的二分类问题模型,将异动财务指标数据与异动原因进行文本匹配,获得包含异动财务指标数据及对应的异动原因的指标异常变动数据。
4.根据权利要求1所述的财务快讯自动生成方法,其特征是,所述改良后的seq2seq模型,包括内容选择模块和内容编排模块,所述内容选择模块用于对不同财务指标属性内容的重要程度进行学习,所述内容编排模块用于根据内容选择模块的学习结果,对财务指标进行筛选和排序。
5.根据权利要求4所述的财务快讯自动生成方法,其特征是,所述改良后的seq2seq模型,还包括数据预处理模块,用于对关键财务信息进行预处理,即将关键财务信息的结构化数据转化为三元组形式,以输入到编码器中。
6.根据权利要求4所述的财务快讯自动生成方法,其特征是,所述改良后的seq2seq模型的训练方法,包括:
a、搜集深交所、上交所上市公司的历史财务报告包括年报,季度报,半年报;
b、搜集不同证券公司或相关机构的研究人员撰写的财务报告的点评或者分析文本,与步骤a中的财务报告做一一对应;
c、根据关键财务信息构建规则模板,初步生成快讯文本,进行冷启动,并加入到模型训练语料中;
d、对步骤a和步骤b得到的财务报告和对应的研报进行人工标注,将财务点评的文本从研报中抽取出来,作为该财务报告的目标生成文本;另外,从步骤c中由规则模板生成的快讯文本中采样抽取若干快讯文本与财务报告的目标生产文本一起构成初步训练样本集合;最后,对初步训练样本集合进行数据增强,使用回译、句法转换扩充句子的表达方式,最终形成训练样本;
e、使用训练样本对改良后的seq2seq模型进行训练,得到训练好的改良后的seq2seq模型。
7.一种财务快讯自动生成系统,其特征是,包括:
公告文件解析模块,用于将公告文件进行结构化处理,得到文本解析信息;
信息抽取模块,用于从文本解析信息中抽取财务数据和文本数据,得到关键财务信息;
文本生成模块,用于将关键财务信息输入训练好的改良后的seq2seq模型,生成财务快讯。
8.一种计算机可读存储介质,其特征是,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行权利要求1至6中任意一项所述的财务快讯自动生成方法。
CN202110253640.3A 2021-03-09 2021-03-09 一种基于nlp的上市公司财务快讯自动生成方法及系统 Pending CN112966097A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110253640.3A CN112966097A (zh) 2021-03-09 2021-03-09 一种基于nlp的上市公司财务快讯自动生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110253640.3A CN112966097A (zh) 2021-03-09 2021-03-09 一种基于nlp的上市公司财务快讯自动生成方法及系统

Publications (1)

Publication Number Publication Date
CN112966097A true CN112966097A (zh) 2021-06-15

Family

ID=76277467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110253640.3A Pending CN112966097A (zh) 2021-03-09 2021-03-09 一种基于nlp的上市公司财务快讯自动生成方法及系统

Country Status (1)

Country Link
CN (1) CN112966097A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116795789A (zh) * 2023-08-24 2023-09-22 卓望信息技术(北京)有限公司 自动生成专利检索报告的方法及装置
CN117235233A (zh) * 2023-10-24 2023-12-15 之江实验室 一种基于大模型的财报自动化问答方法和装置
CN117332180A (zh) * 2023-12-01 2024-01-02 浙商期货有限公司 基于大语言模型的研报智能写作方法、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423289A (zh) * 2017-07-19 2017-12-01 东华大学 一种跨类型乳腺肿瘤临床文档的结构化处理方法
CN108153723A (zh) * 2017-12-27 2018-06-12 北京百度网讯科技有限公司 热点资讯评论文章生成方法、装置及终端设备
CN109597974A (zh) * 2017-09-30 2019-04-09 北京国双科技有限公司 报表生成方法及装置
CN112149387A (zh) * 2020-09-28 2020-12-29 深圳壹账通智能科技有限公司 财务数据的可视化方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423289A (zh) * 2017-07-19 2017-12-01 东华大学 一种跨类型乳腺肿瘤临床文档的结构化处理方法
CN109597974A (zh) * 2017-09-30 2019-04-09 北京国双科技有限公司 报表生成方法及装置
CN108153723A (zh) * 2017-12-27 2018-06-12 北京百度网讯科技有限公司 热点资讯评论文章生成方法、装置及终端设备
CN112149387A (zh) * 2020-09-28 2020-12-29 深圳壹账通智能科技有限公司 财务数据的可视化方法、装置、计算机设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116795789A (zh) * 2023-08-24 2023-09-22 卓望信息技术(北京)有限公司 自动生成专利检索报告的方法及装置
CN117235233A (zh) * 2023-10-24 2023-12-15 之江实验室 一种基于大模型的财报自动化问答方法和装置
CN117332180A (zh) * 2023-12-01 2024-01-02 浙商期货有限公司 基于大语言模型的研报智能写作方法、设备和存储介质
CN117332180B (zh) * 2023-12-01 2024-03-12 浙商期货有限公司 基于大语言模型的研报智能写作方法、设备和存储介质

Similar Documents

Publication Publication Date Title
CN108519890B (zh) 一种基于自注意力机制的鲁棒性代码摘要生成方法
CN109684648B (zh) 一种多特征融合的古今汉语自动翻译方法
CN112966097A (zh) 一种基于nlp的上市公司财务快讯自动生成方法及系统
US10185714B2 (en) Smart terminology marker system for a language translation system
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN111651198A (zh) 代码摘要自动化生成方法及装置
KR100918338B1 (ko) 복수 언어의 대역 텍스트 입력에 의한 제 3 언어 텍스트 생성 방법, 장치 및 프로그램을 저장한 기록 매체
CN111611814A (zh) 一种基于相似度感知的神经机器翻译方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN114647715A (zh) 一种基于预训练语言模型的实体识别方法
CN115344666A (zh) 政策匹配方法、装置、设备与计算机可读存储介质
CN116150613A (zh) 信息抽取模型训练方法、信息抽取方法及装置
Piersoul et al. 150 years of written Dutch: The construction of the Dutch Corpus of Contemporary and Late Modern Periodicals
CN114356924A (zh) 用于从结构化文档提取数据的方法和设备
CN113159969A (zh) 一种金融长文本复核系统
Baek et al. Automated identification of active players for international construction market entry using natural language processing
CN115757325B (zh) 一种xes日志智能转换方法及系统
CN116383414A (zh) 一种基于碳核查知识图谱的智能文件评审系统及方法
CN112488593B (zh) 一种用于招标的辅助评标系统及方法
Hu et al. Corpus of Carbonate Platforms with Lexical Annotations for Named Entity Recognition.
Thu et al. Myanmar news headline generation with sequence-to-sequence model
CN114611489A (zh) 文本逻辑条件抽取ai模型构建方法、抽取方法及系统
CN114168720A (zh) 一种基于深度学习的自然语言数据查询方法和存储设备
Calamo et al. CICERO: a GPT2-based writing assistant to investigate the effectiveness of specialized LLMs’ applications in e-justice
Kumar et al. DeepMetaGen: an unsupervised deep neural approach to generate template-based meta-reviews leveraging on aspect category and sentiment analysis from peer reviews

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination