CN109857990A

CN109857990A - 一种基于文档结构与深度学习的金融类公告信息抽取方法

Info

Publication number: CN109857990A
Application number: CN201811549314.1A
Authority: CN
Inventors: 黄胜; 王博博; 李胜
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Jiang Shuxiang
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2019-06-07
Anticipated expiration: 2038-12-18
Also published as: CN109857990B

Abstract

本发明涉及一种基于文档结构与深度学习的金融类公告信息抽取方法，属于信息抽取技术领域。该方法包括：S1：生成文档结构树；S2：抽取节点信息：基于文档结构树设计便捷的查找节点信息的方法，利用规则提取树的节点信息；S3：抽取信息句：对于已抽取到的节点信息，定义句子触发词集，在句子触发词集的基础上，拓展包含触发词集的局部句子结构规则，从而抽取符合规则的信息句；S4：训练词向量：预训练上下文的词向量，并利用CNN训练字符词向量；S5：抽取结构化信息：构建基于Bi‑LSTM‑CRF的深度学习模型，训练该模型进行字段识别。本发明能快速高效且在人工干预较少的情况下准确提取出所需的各类结构化信息。

Description

一种基于文档结构与深度学习的金融类公告信息抽取方法

技术领域

本发明属于信息抽取技术领域，涉及文档结构及深度学习在金融类公告信息抽取中的应用。

背景技术

在投资研究过程中，上市公司金融类公告是投资者的重要参考材料，挖掘公告中的重要信息是决定性的步骤。但是，海量公告信息让人脑难以负荷，如果机器能够根据需求，自动分析、过滤、抽取有价值的结构化数据，就能帮助研究员快速获取投资线索，从而做出最及时、准确的决策。上市公司信息披露的金融类公告一般包括年度报告、季度报告等等。具体到各个重大事件信息包括并购重组、关联交易、投资融资等都会在公告中体现。因此对上市公司金融类公告中的信息进行结构化的提取具有重要意义。

信息抽取(Information Extraction)是指从自然语言形式的文档中抽取人们所感兴趣的信息，并将其转变为结构化信息的过程。通常，信息抽取利用机器学习、自然语言处理(NLP)等方法从上述文本中抽取出特定的信息后，保存到结构化的数据库当中，以便用户查询和使用。

结构化字段信息抽取任务可以看作是NLP中的序列标注(Sequence labeling)任务。目前的主要方法分为：基于规则和词典的方法、基于机器学习的方法及基于深度学习的方法。程志刚在“基于规则和条件随机场的中文命名实体识别方法研究，华中师范大学，2015”中提出了一种基于规则和条件随机场(Conditional random field，CRF)的命名实体识别方法，需要依赖于人工定制的特征抽取模板，代价很大。为了避免这一缺点，近年来多数研究者将深度学习应用于NLP领域。例如“Chiu J P,Nichols E.Named EntityRecognition with Bidirectional LSTM-CNNs[J].Transactions of the Associationfor Computational Linguistics,2015,4(0):357-370”中，提出结合长短期记忆神经网络(Long Short Term Memory，LSTM)与卷积神经网络(Convolutional Neural Network，CNN)进行命名实体识别，但是CNN容易丢失局部信息；“Ma X,Hovy E H.End-to-end SequenceLabeling via Bi-directional LSTM-CNNs-CRF[J].Meeting of the Association forComputational Linguistics,2016:1064-1074”在Chiu的基础上引入CRF层，增强标签之间的依赖；“Strubell E,Verga P,Belanger D,et al.Fast and Accurate EntityRecognition with Iterated Dilated Convolutions[C]//eprint arXiv.eprint arXiv:1702.02098”在CNN的基础上构建迭代卷积神经网络模型用于序列标注问题，解决了CNN不能解决的长距离依赖问题。

因此，结合文档结构与深度学习相关模型进行金融类公告信息抽取的研究，能够克服传统人工提取的代价大，泛化能力弱的问题，对快速高效的抽取所需结构化信息具有重要意义。

发明内容

有鉴于此，本发明的目的在于提供一种通用的金融类公告信息抽取方法，能够快速高效且在人工干预较少的情况下准确提取出所需的各类结构化信息。

为达到上述目的，本发明提供如下技术方案：

一种基于文档结构与深度学习的金融类公告信息抽取方法，具体包括以下步骤：

S1：生成文档结构树：利用自定义文档结构树算法将公告文本转化为层级分明树形结构；

S2：抽取节点信息：基于文档结构树设计便捷的查找节点信息的方法，利用规则提取树的节点信息；

S3：抽取信息句：对于已抽取到的节点信息，定义句子触发词集，在句子触发词集的基础上，拓展包含触发词集的局部句子结构规则，从而抽取符合规则的信息句；

S4：训练词向量：预训练上下文的词向量，并利用卷积神经网络(ConvolutionalNeural Network，CNN)训练字符词向量；

S5：抽取结构化信息：构建基于Bi-LSTM-CRF的深度学习模型，训练该模型进行字段识别。

进一步，步骤S1中，所述自定义文档结构树生成算法具体为：

输入：公告文本；

输出：深度序列表示的树结构；每个节点node包括：节点标题title、节点深度d_i和节点内容text；d_i越大表示层级越高，node_n ^m表示第n个节点的第m个子节点；

S11：若目录存在，提取公告文本自带的目录，记录各个标题的节点深度d_i，其中d_i＝1,2,…,n，添加至树结构；若不存在目录，记正文第一条符合节点标题规则为rule₁，继续遍历正文找到所有符合rule规则的段落，视为一级节点，添加至树结构；生成初步树，记为tree₀；

S12：按序遍历tree₀，取相邻节点node_n，node_n+1，其中d_n<＝d_n+1，记录两节点在节点标题规则集(即表1)中对应的节点标题规则及节点深度d，生成已有节点规则-深度集{rule-d}₀；

S13：遍历{node_n，node_n+1}之间的文本内容，若某段落符合节点标题规则集中的节点标题规则rule_x且不在{rule-d}₀中，记为node_n的子节点node_n ^m，深度d_m＝d_n+1，追加至以node_n为根节点的子树tree₁中，rule_x和d_m加入{rule-d}₁中，执行步骤S14；若在{rule-d}₀中，重复步骤S12；

S14：若某段落符合节点标题规则集(即表1)中的节点标题规则rule_x，若在{rule-d}₀中，重复步骤S12；rule_x不在{rule-d}₀且不在{rule-d}₁中，记node_m ^k，加入tree₁，深度d_k＝max(d:{rule-d}₁)+1，rule_x和d_k加入{rule-d}₁中；rule不在{rule-d}₀且在{rule-d}₁中，记node_n ^m+1，深度d_m+1＝d:{rule_x-d}，加入tree₁；

S15：将步骤S14得到的各节点子树tree₁按顺序及深度加入tree₀中，并将正文目录之前的“声明”、“重大提示”等章节补充至tree₀中，将各个节点的节点内容补充到树中，生成一颗完整的文档结构树。

进一步，所述节点标题规则集具体为：

1)^第"+chineseNumber+"章

2)^第"+chineseNumber+"节

3)"+chineseNumber+"、

4)^(\\(|()"+chineseNumber+"(\\)|))；

5)^\\d{1,2}、

6)^(\\(|()\\d{1,2}(\\)|))

其中，chineseNumber＝((一|二|三|四|五|六|七|八|九|十)|(十(一|二|三|四|五|六|七|八|九))|((二|三|四|五|六|七|八|九)十)|((一|二|三|四|五|六|七|八|九)十(一|二|三|四|五|六|七|八|九)))。

进一步，步骤S3中，所述抽取信息句具体包括以下步骤：

S31：定义句子触发词集，进行同义表述的拓展；

S32：根据触发词在句子中的表述，分析语法结构，定义局部结构规则；

S33：将节点内容按句分割，利用正则表达式进行规则匹配。

进一步，步骤S4中，所述训练词向量具体包括以下步骤：

S41：对于信息句，利用Jieba进行分词，并加入领域知识词典，保证分词正确性；

S42：利用Word2vec从大规模背景语料中训练出语义特征的词向量；

S43：利用CNN加入领域先验知识训练出基于字的形态特征词向量；

S44：将两种词向量进行组合作为深度学习模型的输入。

进一步，生成大规模高质量可供深度学习模型训练的标注语料，具体为：

1)规则自动生成初步小规模标注语料；

2)小规模语料进行模型训练；

3)未标注语料进行模型识别；

4)人工进行审查，进行人工修正；

5)迭代2)至4)多次，直至生成高质量可训练语料。

进一步，步骤S5中，所述构建基于Bi-LSTM-CRF的深度学习模型，具体包括：

模型的第一层是利用Word2Vec预训练的词向量；

模型的第二层是Bi-LSTM层，自动提取句子特征；将句子中每个词的词向量序列作为Bi-LSTM的各个时间状态的输入，再将正向的LSTM输出的隐状态序列和反向LSTM输出的各个位置隐状态序列进行位置的拼接

模型的第三层是CRF层；所述CRF层的参数是一个矩阵A，A_i,j表示的是从第i个标签到第j个标签的转移得分，因此在为一个位置进行标注的时候可以利用此前已经标注过的标签。

进一步，步骤S5中，所述训练基于Bi-LSTM-CRF的深度学习模型进行字段识别具体为：

给定输入序列x，得到标签预测y，定义式(1)为得分函数：

由式(1)可以看出，输出序列的得分式由各个位置的得分总和，包括两部分：Bi-LSTM的输出P_i，CRF的转移矩阵A；利用Softmax得出归一化的概率，如下式：

模型训练时，最大化对数似然函数，如下式：

log(P(y|x))＝s(x，y)-log(Σ_y′exp(s(x，y′))) (3)

模型在解码预测时，使用Viterbi算法求解最优路径，如下式：

本发明的有益效果在于：本发明提出了一种通用、完整的金融类公告的信息抽取方法，通过自定义文档结构树生成算法能够识别不规范公告的多级标题，基于文档结构树自定义的查找节点信息方法，在整个巨潮网金融类公告信息抽取中大量应用；在训练词向量时同时融合两种词向量，获得了准确充分的语义上下文表示，结构化信息识别准确。利用深度学习模型解决了传统人工提取和机器学习方法代价大、泛化能力差的缺点。在深圳证券信息有限公司巨潮财经数据库和专业数据终端中有实际应用，为市场监管、用户投融资决策、企业画像等多方面提供数据支撑，并取得了良好的应用效果。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本发明所述信息抽取整体框架图；

图2是本发明所述的Bi-LSTM-CRF模型图。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。

参照图1，本发明主要包括三大模块：公告文本预处理模块，信息句抽取模块和结构化信息抽取模块。以下对三个模型具体说明。

公告文本预处理模块提出了一种自定义文档结构树算法具体为：

输入：公告文本。

输出：深度序列表示的树结构。每个节点node的表示形式为(节点标题title、节点深度d_i、节点内容text)。d_i越大表示层级越高，node_n ^m表示第n个节点的第m个子节点。

步骤1：若目录存在，提取公告文本自带的目录，记录各个标题的深度d_i，其中d_i＝1,2,…,n，添加至树结构；若不存在目录，记正文第一条符合表1节点规则为rule₁，继续遍历正文找到所有符合rule规则的段落，视为一级节点，添加至树结构。生成初步树，记为tree₀。

步骤2：按序遍历tree₀，取相邻节点node_n，node_n+1，其中d_n<＝d_n+1。记录两节点在表1中对应的规则及深度d，生成已有节点(规则-深度)集{rule-d}₀。

步骤3：遍历{node_n，node_n+1}之间的文本内容。若某段落符合表1的节点规则rule_x且不在{rule-d}₀中，记为node_n的子节点node_n ^m，深度d_m＝d_n+1，追加至以node_n为根节点的子树tree₁中，rule_x和d_m加入{rule-d}₁中，执行步骤四；若在{rule-d}₀中，重复步骤2。

步骤4：若某段落符合表1的节点规则rule_x，若在{rule-d}₀中，重复步骤2；rule_x不在{rule-d}₀且不在{rule-d}₁中，记node_m ^k，加入tree₁，深度d_k＝max(d:{rule-d}₁)+1，rule_x和d_k加入{rule-d}₁中；rule不在{rule-d}₀且在{rule-d}₁中，记node_n ^m+1，深度d_m+1＝d:{rule_x-d}，加入tree₁。

步骤5：将步骤4得到的各节点子树tree₁按顺序及深度加入tree₀中，并将正文目录之前的“声明”、“重大提示”等章节补充至tree₀中，将各个节点的节点内容补充到树中，生成一颗完整的文档结构树。利用正则表达式制定标题规则用来识别文本中所有标题。

表1中chineseNumber＝((一|二|三|四|五|六|七|八|九|十)|(十(一|二|三|四|五|六|七|八|九))|((二|三|四|五|六|七|八|九)十)|((一|二|三|四|五|六|七|八|九)十(一|二|三|四|五|六|七|八|九)))。

具体的标题规则集如表1所示：

表1标题规则集

编号	标题规则
		1	^第"+chineseNumber+"章
2	^第"+chineseNumber+"节
		3	"+chineseNumber+"、
4	^(\\(\|()"+chineseNumber+"(\\)\|))
		5	^\\d{1,2}、
6	^(\\(\|()\\d{1,2}(\\)\|))

图1所示信息句抽取模块中，结合文档结构树，自定义便捷抽取节点信息方法，如表2所示：

表2查找节点信息方法

根据所抽取字段，定义句子触发词集，在句子触发词集的基础上，拓展包含触发词集的局部句子结构规则，从而抽取符合规则句子。如抽取字段内容为“关联交易主要内容：公司拟2018年度与关联方华洋公司发生货物采购、提供劳务等日常关联交易，交易总金额不超过2,000万元，前述交易将参考同类业务的市场价格并经双方平等协商确定交易价格，公允、合理定价，并根据实际发生的金额结算。付款安排及结算方式将参考行业及公司惯例确定。公司拟与华洋公司发生的日常关联交易，属于公司基于自身业务发展及生产经营的正常需要而与关联方进行的正常业务往来。公司将遵循公平合理的定价原则与关联方协商确定交易价格，并签署具体书面协议。截止本公告揭露日，公司尚未与华洋公司签署关联交易协议。”则抽取符合规则句子的具体步骤为：

步骤1：定义句子触发词集。要抽取字段为关联方、关联交易类别、关联交易金额等。基于公告中的表述对关联方进行同义表述的拓展，关联方：关联(方、人、公司、机构)，即为句子触发词集T_words。

步骤2：基于触发词的句子局部结构规则。分析抽取到的节点内容，根据触发词在句子中的表述，分析语法结构，定义局部结构规则S_rule。根据图2，S_rule＝“与T_words发生.(0,5)关联交易”。

步骤3：抽取符合规则的句子。将节点内容按句分割，S_rule与之匹配，得到符合规则的句子即为包含结构化信息句子。

由此，抽取到的包含字段信息句为：“公司拟2018年度与关联方华洋公司发生货物采购、提供劳务等日常关联交易，交易总金额不超过人民币2,000万元。”

图1所示结构化信息抽取模块中，本发明利用深度学习模型进行结构化字段信息识别具体为：

在预训练上下文及字符词向量，具体为：

1)对于信息句利用Jieba进行分词，并加入领域知识词典，保证分词正确性；

2)利用Word2vec从大规模背景语料中训练出语义特征的词向量；

3)利用CNN加入领域先验知识训练出基于字的形态特征词向量；

4)将两种词向量进行组合作为深度学习模型的输入。

本发明旨在减少人工标注语料的代价，获得高质量大规模语料具体为：

1)规则自动生成初步小规模标注语料；

2)小规模语料进行模型训练；

3)未标注语料进行模型识别；

4)人工进行审查，进行人工修正；

5)迭代2)至4)多次，直至生成高质量可训练语料。

参照图2，构建Bi-LSTM-CRF深度学习模型，包括以下结构：

模型的第一层是利用Word2Vec预训练的词向量。预训练词向量能够解决有监督标注语料不足的问题。本发明使用Skip-gram语言模型在无标注语料上进行词向量的训练。为了提高在某重大事件公告事件中字段的识别率，本发明还将特定金融事件的领域知识词典作为先验知识加入分词中，确保金融公告中的特殊词汇、新词能够被正确分词，得到的词向量结构和语义信息的表示更加准确，对于后续的标签预测结果有很大提高。

模型的第二层是Bi-LSTM层，自动提取句子特征。将句子中每个词的词向量序列作为Bi-LSTM的各个时间状态的输入，再将正向的LSTM输出的隐状态序列和反向LSTM输出的个位置隐状态序列进行位置的拼接

模型的第三层是CRF层。CRF层的参数是一个矩阵A，A_i,j表示的是从第i个标签到第j个标签的转移得分，因此在为一个位置进行标注的时候可以利用此前已经标注过的标签。

给定输入序列x，得到标签预测y，定义式(1)为得分函数：

模型训练时，最大化对数似然函数，如下式：

log(P(y|x))＝s(x，y)-log(Σ_y′exp(s(x，y′))) (3)

模型在解码预测时，使用Viterbi算法求解最优路径，如下式：

图2中，训练词向量的维度为50；Bi-LSTM模型中LSTM隐藏层单元数量为100；学习率设置为0.001；batch_size为20；optimizer(优化器)选择“adam”；dropout指网络中每个单元在每次有数据流入时以一定的概率正常工作，否则输出0值。这是一种有效的正则化方法，使用dropout防止过拟合。

针对业务需求的各个字段的信息抽取，本实施例以采用精确率(Precision，P)、召回率(Recall，R)、以及F1测度值(F1-score，F1)作为评价指标，分别对信息句和各字段抽取结果进行统计测评，如表3、4所示。

表3信息句抽取结果

表4字段抽取结果

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种基于文档结构与深度学习的金融类公告信息抽取方法，其特征在于，该方法具体包括以下步骤：

S5：抽取结构化信息：构建基于双向长短时记忆神经网络-条件随机场(Bidirectional-Long Short-Term Memory-Conditional Random Field，Bi-LSTM-CRF)的深度学习模型，训练该模型进行字段识别。

2.根据权利要求1所述的一种基于文档结构与深度学习的金融类公告信息抽取方法，其特征在于，步骤S1中，所述自定义文档结构树生成算法具体为：

输入：公告文本；

S12：按序遍历tree₀，取相邻节点node_n，node_n+1，其中d_n<＝d_n+1，记录两节点在节点标题规则集中对应的节点标题规则及节点深度d，生成已有节点规则-深度集{rule-d}₀；

S14：若某段落符合节点标题规则集中的节点标题规则rule_x，若在{rule-d}₀中，重复步骤S12；rule_x不在{rule-d}₀且不在{rule-d}₁中，记node_m ^k，加入tree₁，深度d_k＝max(d:{rule-d}₁)+1，rule_x和d_k加入{rule-d}₁中；rule不在{rule-d}₀且在{rule-d}₁中，记node_n ^m ⁺¹，深度d_m+1＝d:{rule_x-d}，加入tree₁；

S15：将步骤S14得到的各节点子树tree₁按顺序及深度加入tree₀中，并将正文目录之前的“声明”、“重大提示”的章节补充至tree₀中，将各个节点的节点内容补充到树中，生成一颗完整的文档结构树。

3.根据权利要求2所述的一种基于文档结构与深度学习的金融类公告信息抽取方法，其特征在于，所述节点标题规则集具体为：

1)^第"+chineseNumber+"章

2)^第"+chineseNumber+"节

3)"+chineseNumber+"、

4)^(\\(|()"+chineseNumber+"(\\)|))；

5)^\\d{1,2}、

6)^(\\(|()\\d{1,2}(\\)|))

4.根据权利要求1所述的一种基于文档结构与深度学习的金融类公告信息抽取方法，其特征在于，步骤S3中，所述抽取信息句具体包括以下步骤：

S31：定义句子触发词集，进行同义表述的拓展；

S33：将节点内容按句分割，利用正则表达式进行规则匹配。

5.根据权利要求1所述的一种基于文档结构与深度学习的金融类公告信息抽取方法，其特征在于，步骤S4中，所述训练词向量具体包括以下步骤：

S44：将两种词向量进行组合作为深度学习模型的输入。

6.根据权利要求5所述的一种基于文档结构与深度学习的金融类公告信息抽取方法，其特征在于，生成大规模高质量可供深度学习模型训练的标注语料，具体为：

1)规则自动生成初步小规模标注语料；

2)小规模语料进行模型训练；

3)未标注语料进行模型识别；

4)人工进行审查，进行人工修正；

5)迭代2)至4)多次，直至生成高质量可训练语料。

7.根据权利要求1所述的一种基于文档结构与深度学习的金融类公告信息抽取方法，其特征在于，步骤S5中，所述构建基于Bi-LSTM-CRF的深度学习模型，具体包括：

模型的第一层是利用Word2Vec预训练的词向量；

模型的第三层是CRF层；所述CRF层的参数是一个矩阵A，A_i,j表示的是从第i个标签到第j个标签的转移得分。

8.根据权利要求7所述的一种基于文档结构与深度学习的金融类公告信息抽取方法，其特征在于，步骤S5中，所述训练基于Bi-LSTM-CRF的深度学习模型进行字段识别具体为：

给定输入序列x，得到标签预测y，定义式(1)为得分函数：

模型训练时，最大化对数似然函数，如下式：

log(P(y|x))＝s(x,y)-log(∑_y'exp(s(x,y'))) (3)

模型在解码预测时，使用Viterbi算法求解最优路径，如下式：