CN109857990B - 一种基于文档结构与深度学习的金融类公告信息抽取方法 - Google Patents

一种基于文档结构与深度学习的金融类公告信息抽取方法 Download PDF

Info

Publication number
CN109857990B
CN109857990B CN201811549314.1A CN201811549314A CN109857990B CN 109857990 B CN109857990 B CN 109857990B CN 201811549314 A CN201811549314 A CN 201811549314A CN 109857990 B CN109857990 B CN 109857990B
Authority
CN
China
Prior art keywords
node
rule
tree
information
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811549314.1A
Other languages
English (en)
Other versions
CN109857990A (zh
Inventor
黄胜
王博博
李胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201811549314.1A priority Critical patent/CN109857990B/zh
Publication of CN109857990A publication Critical patent/CN109857990A/zh
Application granted granted Critical
Publication of CN109857990B publication Critical patent/CN109857990B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种基于文档结构与深度学习的金融类公告信息抽取方法,属于信息抽取技术领域。该方法包括:S1:生成文档结构树;S2:抽取节点信息:基于文档结构树设计便捷的查找节点信息的方法,利用规则提取树的节点信息;S3:抽取信息句:对于已抽取到的节点信息,定义句子触发词集,在句子触发词集的基础上,拓展包含触发词集的局部句子结构规则,从而抽取符合规则的信息句;S4:训练词向量:预训练上下文的词向量,并利用CNN训练字符词向量;S5:抽取结构化信息:构建基于Bi‑LSTM‑CRF的深度学习模型,训练该模型进行字段识别。本发明能快速高效且在人工干预较少的情况下准确提取出所需的各类结构化信息。

Description

一种基于文档结构与深度学习的金融类公告信息抽取方法
技术领域
本发明属于信息抽取技术领域,涉及文档结构及深度学习在金融类公告信息抽取中的应用。
背景技术
在投资研究过程中,上市公司金融类公告是投资者的重要参考材料,挖掘公告中的重要信息是决定性的步骤。但是,海量公告信息让人脑难以负荷,如果机器能够根据需求,自动分析、过滤、抽取有价值的结构化数据,就能帮助研究员快速获取投资线索,从而做出最及时、准确的决策。上市公司信息披露的金融类公告一般包括年度报告、季度报告等等。具体到各个重大事件信息包括并购重组、关联交易、投资融资等都会在公告中体现。因此对上市公司金融类公告中的信息进行结构化的提取具有重要意义。
信息抽取(Information Extraction)是指从自然语言形式的文档中抽取人们所感兴趣的信息,并将其转变为结构化信息的过程。通常,信息抽取利用机器学习、自然语言处理(NLP)等方法从上述文本中抽取出特定的信息后,保存到结构化的数据库当中,以便用户查询和使用。
结构化字段信息抽取任务可以看作是NLP中的序列标注(Sequence labeling)任务。目前的主要方法分为:基于规则和词典的方法、基于机器学习的方法及基于深度学习的方法。程志刚在“基于规则和条件随机场的中文命名实体识别方法研究,华中师范大学,2015”中提出了一种基于规则和条件随机场(Conditional random field,CRF)的命名实体识别方法,需要依赖于人工定制的特征抽取模板,代价很大。为了避免这一缺点,近年来多数研究者将深度学习应用于NLP领域。例如“Chiu J P,Nichols E.Named EntityRecognition with Bidirectional LSTM-CNNs[J].Transactions of the Associationfor Computational Linguistics,2015,4(0):357-370”中,提出结合长短期记忆神经网络(Long Short Term Memory,LSTM)与卷积神经网络(Convolutional Neural Network,CNN)进行命名实体识别,但是CNN容易丢失局部信息;“Ma X,Hovy E H.End-to-end SequenceLabeling via Bi-directional LSTM-CNNs-CRF[J].Meeting of the Association forComputational Linguistics,2016:1064-1074”在Chiu的基础上引入CRF层,增强标签之间的依赖;“Strubell E,Verga P,Belanger D,et al.Fast and Accurate EntityRecognition with Iterated Dilated Convolutions[C]//eprint arXiv.eprint arXiv:1702.02098”在CNN的基础上构建迭代卷积神经网络模型用于序列标注问题,解决了CNN不能解决的长距离依赖问题。
因此,结合文档结构与深度学习相关模型进行金融类公告信息抽取的研究,能够克服传统人工提取的代价大,泛化能力弱的问题,对快速高效的抽取所需结构化信息具有重要意义。
发明内容
有鉴于此,本发明的目的在于提供一种通用的金融类公告信息抽取方法,能够快速高效且在人工干预较少的情况下准确提取出所需的各类结构化信息。
为达到上述目的,本发明提供如下技术方案:
一种基于文档结构与深度学习的金融类公告信息抽取方法,具体包括以下步骤:
S1:生成文档结构树:利用自定义文档结构树算法将公告文本转化为层级分明树形结构;
S2:抽取节点信息:基于文档结构树设计便捷的查找节点信息的方法,利用规则提取树的节点信息;
S3:抽取信息句:对于已抽取到的节点信息,定义句子触发词集,在句子触发词集的基础上,拓展包含触发词集的局部句子结构规则,从而抽取符合规则的信息句;
S4:训练词向量:预训练上下文的词向量,并利用卷积神经网络(ConvolutionalNeural Network,CNN)训练字符词向量;
S5:抽取结构化信息:构建基于Bi-LSTM-CRF的深度学习模型,训练该模型进行字段识别。
进一步,步骤S1中,所述自定义文档结构树生成算法具体为:
输入:公告文本;
输出:深度序列表示的树结构;每个节点node包括:节点标题title、节点深度di和节点内容text;di越大表示层级越高,noden m表示第n个节点的第m个子节点;
S11:若目录存在,提取公告文本自带的目录,记录各个标题的节点深度di,其中di=1,2,…,n,添加至树结构;若不存在目录,记正文第一条符合节点标题规则为rule1,继续遍历正文找到所有符合rule规则的段落,视为一级节点,添加至树结构;生成初步树,记为tree0
S12:按序遍历tree0,取相邻节点noden,noden+1,其中dn<=dn+1,记录两节点在节点标题规则集(即表1)中对应的节点标题规则及节点深度d,生成已有节点规则-深度集{rule-d}0
S13:遍历{noden,noden+1}之间的文本内容,若某段落符合节点标题规则集中的节点标题规则rulex且不在{rule-d}0中,记为noden的子节点noden m,深度dm=dn+1,追加至以noden为根节点的子树tree1中,rulex和dm加入{rule-d}1中,执行步骤S14;若在{rule-d}0中,重复步骤S12;
S14:若某段落符合节点标题规则集(即表1)中的节点标题规则rulex,若在{rule-d}0中,重复步骤S12;rulex不在{rule-d}0且不在{rule-d}1中,记nodem k,加入tree1,深度dk=max(d:{rule-d}1)+1,rulex和dk加入{rule-d}1中;rule不在{rule-d}0且在{rule-d}1中,记noden m+1,深度dm+1=d:{rulex-d},加入tree1
S15:将步骤S14得到的各节点子树tree1按顺序及深度加入tree0中,并将正文目录之前的“声明”、“重大提示”等章节补充至tree0中,将各个节点的节点内容补充到树中,生成一颗完整的文档结构树。
进一步,所述节点标题规则集具体为:
1)^第"+chineseNumber+"章
2)^第"+chineseNumber+"节
3)"+chineseNumber+"、
4)^(\\(|()"+chineseNumber+"(\\)|));
5)^\\d{1,2}、
6)^(\\(|()\\d{1,2}(\\)|))
其中,chineseNumber=((一|二|三|四|五|六|七|八|九|十)|(十(一|二|三|四|五|六|七|八|九))|((二|三|四|五|六|七|八|九)十)|((一|二|三|四|五|六|七|八|九)十(一|二|三|四|五|六|七|八|九)))。
进一步,步骤S3中,所述抽取信息句具体包括以下步骤:
S31:定义句子触发词集,进行同义表述的拓展;
S32:根据触发词在句子中的表述,分析语法结构,定义局部结构规则;
S33:将节点内容按句分割,利用正则表达式进行规则匹配。
进一步,步骤S4中,所述训练词向量具体包括以下步骤:
S41:对于信息句,利用Jieba进行分词,并加入领域知识词典,保证分词正确性;
S42:利用Word2vec从大规模背景语料中训练出语义特征的词向量;
S43:利用CNN加入领域先验知识训练出基于字的形态特征词向量;
S44:将两种词向量进行组合作为深度学习模型的输入。
进一步,生成大规模高质量可供深度学习模型训练的标注语料,具体为:
1)规则自动生成初步小规模标注语料;
2)小规模语料进行模型训练;
3)未标注语料进行模型识别;
4)人工进行审查,进行人工修正;
5)迭代2)至4)多次,直至生成高质量可训练语料。
进一步,步骤S5中,所述构建基于Bi-LSTM-CRF的深度学习模型,具体包括:
模型的第一层是利用Word2Vec预训练的词向量;
模型的第二层是Bi-LSTM层,自动提取句子特征;将句子中每个词的词向量序列作为Bi-LSTM的各个时间状态的输入,再将正向的LSTM输出的隐状态序列和反向LSTM输出的各个位置隐状态序列进行位置的拼接
Figure BDA0001910229310000041
模型的第三层是CRF层;所述CRF层的参数是一个矩阵A,Ai,j表示的是从第i个标签到第j个标签的转移得分,因此在为一个位置进行标注的时候可以利用此前已经标注过的标签。
进一步,步骤S5中,所述训练基于Bi-LSTM-CRF的深度学习模型进行字段识别具体为:
给定输入序列x,得到标签预测y,定义式(1)为得分函数:
Figure BDA0001910229310000042
由式(1)可以看出,输出序列的得分式由各个位置的得分总和,包括两部分:Bi-LSTM的输出Pi,CRF的转移矩阵A;利用Softmax得出归一化的概率,如下式:
Figure BDA0001910229310000043
模型训练时,最大化对数似然函数,如下式:
log(P(y|x))=s(x,y)-log(Σy′exp(s(x,y′))) (3)
模型在解码预测时,使用Viterbi算法求解最优路径,如下式:
Figure BDA0001910229310000045
本发明的有益效果在于:本发明提出了一种通用、完整的金融类公告的信息抽取方法,通过自定义文档结构树生成算法能够识别不规范公告的多级标题,基于文档结构树自定义的查找节点信息方法,在整个巨潮网金融类公告信息抽取中大量应用;在训练词向量时同时融合两种词向量,获得了准确充分的语义上下文表示,结构化信息识别准确。利用深度学习模型解决了传统人工提取和机器学习方法代价大、泛化能力差的缺点。在深圳证券信息有限公司巨潮财经数据库和专业数据终端中有实际应用,为市场监管、用户投融资决策、企业画像等多方面提供数据支撑,并取得了良好的应用效果。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为本发明所述信息抽取整体框架图;
图2是本发明所述的Bi-LSTM-CRF模型图。
具体实施方式
下面将结合附图,对本发明的优选实施例进行详细的描述。
参照图1,本发明主要包括三大模块:公告文本预处理模块,信息句抽取模块和结构化信息抽取模块。以下对三个模型具体说明。
公告文本预处理模块提出了一种自定义文档结构树算法具体为:
输入:公告文本。
输出:深度序列表示的树结构。每个节点node的表示形式为(节点标题title、节点深度di、节点内容text)。di越大表示层级越高,noden m表示第n个节点的第m个子节点。
步骤1:若目录存在,提取公告文本自带的目录,记录各个标题的深度di,其中di=1,2,…,n,添加至树结构;若不存在目录,记正文第一条符合表1节点规则为rule1,继续遍历正文找到所有符合rule规则的段落,视为一级节点,添加至树结构。生成初步树,记为tree0
步骤2:按序遍历tree0,取相邻节点noden,noden+1,其中dn<=dn+1。记录两节点在表1中对应的规则及深度d,生成已有节点(规则-深度)集{rule-d}0
步骤3:遍历{noden,noden+1}之间的文本内容。若某段落符合表1的节点规则rulex且不在{rule-d}0中,记为noden的子节点noden m,深度dm=dn+1,追加至以noden为根节点的子树tree1中,rulex和dm加入{rule-d}1中,执行步骤四;若在{rule-d}0中,重复步骤2。
步骤4:若某段落符合表1的节点规则rulex,若在{rule-d}0中,重复步骤2;rulex不在{rule-d}0且不在{rule-d}1中,记nodem k,加入tree1,深度dk=max(d:{rule-d}1)+1,rulex和dk加入{rule-d}1中;rule不在{rule-d}0且在{rule-d}1中,记noden m+1,深度dm+1=d:{rulex-d},加入tree1
步骤5:将步骤4得到的各节点子树tree1按顺序及深度加入tree0中,并将正文目录之前的“声明”、“重大提示”等章节补充至tree0中,将各个节点的节点内容补充到树中,生成一颗完整的文档结构树。利用正则表达式制定标题规则用来识别文本中所有标题。
表1中chineseNumber=((一|二|三|四|五|六|七|八|九|十)|(十(一|二|三|四|五|六|七|八|九))|((二|三|四|五|六|七|八|九)十)|((一|二|三|四|五|六|七|八|九)十(一|二|三|四|五|六|七|八|九)))。
具体的标题规则集如表1所示:
表1标题规则集
编号 标题规则
1 ^第"+chineseNumber+"章
2 ^第"+chineseNumber+"节
3 "+chineseNumber+"、
4 ^(\\(|()"+chineseNumber+"(\\)|))
5 ^\\d{1,2}、
6 ^(\\(|()\\d{1,2}(\\)|))
图1所示信息句抽取模块中,结合文档结构树,自定义便捷抽取节点信息方法,如表2所示:
表2查找节点信息方法
Figure BDA0001910229310000061
根据所抽取字段,定义句子触发词集,在句子触发词集的基础上,拓展包含触发词集的局部句子结构规则,从而抽取符合规则句子。如抽取字段内容为“关联交易主要内容:公司拟2018年度与关联方华洋公司发生货物采购、提供劳务等日常关联交易,交易总金额不超过2,000万元,前述交易将参考同类业务的市场价格并经双方平等协商确定交易价格,公允、合理定价,并根据实际发生的金额结算。付款安排及结算方式将参考行业及公司惯例确定。公司拟与华洋公司发生的日常关联交易,属于公司基于自身业务发展及生产经营的正常需要而与关联方进行的正常业务往来。公司将遵循公平合理的定价原则与关联方协商确定交易价格,并签署具体书面协议。截止本公告揭露日,公司尚未与华洋公司签署关联交易协议。”则抽取符合规则句子的具体步骤为:
步骤1:定义句子触发词集。要抽取字段为关联方、关联交易类别、关联交易金额等。基于公告中的表述对关联方进行同义表述的拓展,关联方:关联(方、人、公司、机构),即为句子触发词集T_words。
步骤2:基于触发词的句子局部结构规则。分析抽取到的节点内容,根据触发词在句子中的表述,分析语法结构,定义局部结构规则S_rule。根据图2,S_rule=“与T_words发生.(0,5)关联交易”。
步骤3:抽取符合规则的句子。将节点内容按句分割,S_rule与之匹配,得到符合规则的句子即为包含结构化信息句子。
由此,抽取到的包含字段信息句为:“公司拟2018年度与关联方华洋公司发生货物采购、提供劳务等日常关联交易,交易总金额不超过人民币2,000万元。”
图1所示结构化信息抽取模块中,本发明利用深度学习模型进行结构化字段信息识别具体为:
在预训练上下文及字符词向量,具体为:
1)对于信息句利用Jieba进行分词,并加入领域知识词典,保证分词正确性;
2)利用Word2vec从大规模背景语料中训练出语义特征的词向量;
3)利用CNN加入领域先验知识训练出基于字的形态特征词向量;
4)将两种词向量进行组合作为深度学习模型的输入。
本发明旨在减少人工标注语料的代价,获得高质量大规模语料具体为:
1)规则自动生成初步小规模标注语料;
2)小规模语料进行模型训练;
3)未标注语料进行模型识别;
4)人工进行审查,进行人工修正;
5)迭代2)至4)多次,直至生成高质量可训练语料。
参照图2,构建Bi-LSTM-CRF深度学习模型,包括以下结构:
模型的第一层是利用Word2Vec预训练的词向量。预训练词向量能够解决有监督标注语料不足的问题。本发明使用Skip-gram语言模型在无标注语料上进行词向量的训练。为了提高在某重大事件公告事件中字段的识别率,本发明还将特定金融事件的领域知识词典作为先验知识加入分词中,确保金融公告中的特殊词汇、新词能够被正确分词,得到的词向量结构和语义信息的表示更加准确,对于后续的标签预测结果有很大提高。
模型的第二层是Bi-LSTM层,自动提取句子特征。将句子中每个词的词向量序列作为Bi-LSTM的各个时间状态的输入,再将正向的LSTM输出的隐状态序列和反向LSTM输出的个位置隐状态序列进行位置的拼接
Figure BDA0001910229310000081
模型的第三层是CRF层。CRF层的参数是一个矩阵A,Ai,j表示的是从第i个标签到第j个标签的转移得分,因此在为一个位置进行标注的时候可以利用此前已经标注过的标签。
给定输入序列x,得到标签预测y,定义式(1)为得分函数:
Figure BDA0001910229310000082
由式(1)可以看出,输出序列的得分式由各个位置的得分总和,包括两部分:Bi-LSTM的输出Pi,CRF的转移矩阵A;利用Softmax得出归一化的概率,如下式:
Figure BDA0001910229310000083
模型训练时,最大化对数似然函数,如下式:
log(P(y|x))=s(x,y)-log(Σy′exp(s(x,y′))) (3)
模型在解码预测时,使用Viterbi算法求解最优路径,如下式:
Figure BDA0001910229310000085
图2中,训练词向量的维度为50;Bi-LSTM模型中LSTM隐藏层单元数量为100;学习率设置为0.001;batch_size为20;optimizer(优化器)选择“adam”;dropout指网络中每个单元在每次有数据流入时以一定的概率正常工作,否则输出0值。这是一种有效的正则化方法,使用dropout防止过拟合。
针对业务需求的各个字段的信息抽取,本实施例以采用精确率(Precision,P)、召回率(Recall,R)、以及F1测度值(F1-score,F1)作为评价指标,分别对信息句和各字段抽取结果进行统计测评,如表3、4所示。
表3信息句抽取结果
Figure BDA0001910229310000086
表4字段抽取结果
Figure BDA0001910229310000091
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。

Claims (7)

1.一种基于文档结构与深度学习的金融类公告信息抽取方法,其特征在于,该方法具体包括以下步骤:
S1:生成文档结构树:利用自定义文档结构树算法将公告文本转化为层级分明树形结构;
S2:抽取节点信息:基于文档结构树设计便捷的查找节点信息的方法,利用规则提取树的节点信息;
S3:抽取信息句:对于已抽取到的节点信息,定义句子触发词集,在句子触发词集的基础上,拓展包含触发词集的局部句子结构规则,从而抽取符合规则的信息句;
S4:训练词向量:预训练上下文的词向量,并利用卷积神经网络(ConvolutionalNeural Network,CNN)训练字符词向量;
S5:抽取结构化信息:构建基于双向长短时记忆神经网络-条件随机场(Bidirectional-Long Short-Term Memory-Conditional Random Field,Bi-LSTM-CRF)的深度学习模型,训练该模型进行字段识别;
步骤S1中,所述自定义文档结构树生成算法具体为:
输入:公告文本;
输出:深度序列表示的树结构;每个节点node包括:节点标题title、节点深度di和节点内容text;di越大表示层级越高,noden m表示第n个节点的第m个子节点;
S11:若目录存在,提取公告文本自带的目录,记录各个标题的节点深度di,其中di=1,2,…,n,添加至树结构;若不存在目录,记正文第一条符合节点标题规则为rule1,继续遍历正文找到所有符合rule规则的段落,视为一级节点,添加至树结构;生成初步树,记为tree0
S12:按序遍历tree0,取相邻节点noden,noden+1,其中dn<=dn+1,记录两节点在节点标题规则集中对应的节点标题规则及节点深度d,生成已有节点规则-深度集{rule-d}0
S13:遍历{noden,noden+1}之间的文本内容,若某段落符合节点标题规则集中的节点标题规则rulex且不在{rule-d}0中,记为noden的子节点noden m,深度dm=dn+1,追加至以noden为根节点的子树tree1中,rulex和dm加入{rule-d}1中,执行步骤S14;若在{rule-d}0中,重复步骤S12;
S14:若某段落符合节点标题规则集中的节点标题规则rulex,若在{rule-d}0中,重复步骤S12;rulex不在{rule-d}0且不在{rule-d}1中,记nodem k,加入tree1,深度dk=max(d:{rule-d}1)+1,rulex和dk加入{rule-d}1中;rule不在{rule-d}0且在{rule-d}1中,记noden m +1,深度dm+1=d:{rulex-d},加入tree1
S15:将步骤S14得到的各节点子树tree1按顺序及深度加入tree0中,并将正文目录之前的“声明”、“重大提示”的章节补充至tree0中,将各个节点的节点内容补充到树中,生成一颗完整的文档结构树。
2.根据权利要求1所述的一种基于文档结构与深度学习的金融类公告信息抽取方法,其特征在于,所述节点标题规则集具体为:
1)^第"+chineseNumber+"章
2)^第"+chineseNumber+"节
3)"+chineseNumber+"、
4)^(\\(|()"+chineseNumber+"(\\)|));
5)^\\d{1,2}、
6)^(\\(|()\\d{1,2}(\\)|))
其中,chineseNumber=((一|二|三|四|五|六|七|八|九|十)|(十(一|二|三|四|五|六|七|八|九))|((二|三|四|五|六|七|八|九)十)|((一|二|三|四|五|六|七|八|九)十(一|二|三|四|五|六|七|八|九)))。
3.根据权利要求1所述的一种基于文档结构与深度学习的金融类公告信息抽取方法,其特征在于,步骤S3中,所述抽取信息句具体包括以下步骤:
S31:定义句子触发词集,进行同义表述的拓展;
S32:根据触发词在句子中的表述,分析语法结构,定义局部结构规则;
S33:将节点内容按句分割,利用正则表达式进行规则匹配。
4.根据权利要求1所述的一种基于文档结构与深度学习的金融类公告信息抽取方法,其特征在于,步骤S4中,所述训练词向量具体包括以下步骤:
S41:对于信息句,利用Jieba进行分词,并加入领域知识词典,保证分词正确性;
S42:利用Word2vec从大规模背景语料中训练出语义特征的词向量;
S43:利用CNN加入领域先验知识训练出基于字的形态特征词向量;
S44:将两种词向量进行组合作为深度学习模型的输入。
5.根据权利要求4所述的一种基于文档结构与深度学习的金融类公告信息抽取方法,其特征在于,生成大规模高质量可供深度学习模型训练的标注语料,具体为:
1)规则自动生成初步小规模标注语料;
2)小规模语料进行模型训练;
3)未标注语料进行模型识别;
4)人工进行审查,进行人工修正;
5)迭代2)至4)多次,直至生成高质量可训练语料。
6.根据权利要求1所述的一种基于文档结构与深度学习的金融类公告信息抽取方法,其特征在于,步骤S5中,所述构建基于Bi-LSTM-CRF的深度学习模型,具体包括:
模型的第一层是利用Word2Vec预训练的词向量;
模型的第二层是Bi-LSTM层,自动提取句子特征;将句子中每个词的词向量序列作为Bi-LSTM的各个时间状态的输入,再将正向的LSTM输出的隐状态序列和反向LSTM输出的各个位置隐状态序列进行位置的拼接
Figure FDA0003904581000000031
模型的第三层是CRF层;所述CRF层的参数是一个矩阵A,Ai,j表示的是从第i个标签到第j个标签的转移得分。
7.根据权利要求6所述的一种基于文档结构与深度学习的金融类公告信息抽取方法,其特征在于,步骤S5中,所述训练基于Bi-LSTM-CRF的深度学习模型进行字段识别具体为:
给定输入序列x,得到标签预测y,定义式(1)为得分函数:
Figure FDA0003904581000000032
由式(1)可以看出,输出序列的得分式由各个位置的得分总和,包括两部分:Bi-LSTM的输出Pi,CRF的转移矩阵A;利用Softmax得出归一化的概率,如下式:
Figure FDA0003904581000000033
模型训练时,最大化对数似然函数,如下式:
log(P(y|x))=s(x,y)-log(∑y′exp(s(x,y'))) (3)
模型在解码预测时,使用Viterbi算法求解最优路径,如下式:
Figure FDA0003904581000000034
CN201811549314.1A 2018-12-18 2018-12-18 一种基于文档结构与深度学习的金融类公告信息抽取方法 Active CN109857990B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811549314.1A CN109857990B (zh) 2018-12-18 2018-12-18 一种基于文档结构与深度学习的金融类公告信息抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811549314.1A CN109857990B (zh) 2018-12-18 2018-12-18 一种基于文档结构与深度学习的金融类公告信息抽取方法

Publications (2)

Publication Number Publication Date
CN109857990A CN109857990A (zh) 2019-06-07
CN109857990B true CN109857990B (zh) 2022-11-25

Family

ID=66891448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811549314.1A Active CN109857990B (zh) 2018-12-18 2018-12-18 一种基于文档结构与深度学习的金融类公告信息抽取方法

Country Status (1)

Country Link
CN (1) CN109857990B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377884B (zh) * 2019-06-13 2023-03-24 北京百度网讯科技有限公司 文档解析方法、装置、计算机设备及存储介质
CN110209772B (zh) * 2019-06-17 2021-10-08 科大讯飞股份有限公司 一种文本处理方法、装置、设备及可读存储介质
CN110245354A (zh) * 2019-06-20 2019-09-17 贵州电网有限责任公司 一种日程信息中抽取实体的方法
CN110427614B (zh) * 2019-07-16 2023-08-08 深圳追一科技有限公司 段落层级的构建方法、装置、电子设备及存储介质
CN110852068A (zh) * 2019-10-15 2020-02-28 武汉工程大学 一种基于BiLSTM-CRF的体育新闻主题词提取方法
CN110956041A (zh) * 2019-11-27 2020-04-03 重庆邮电大学 一种基于深度学习的并购重组公告摘要方法
CN110909226B (zh) * 2019-11-28 2023-06-06 达而观信息科技(上海)有限公司 金融类文档信息处理方法、装置、电子设备及存储介质
CN113051887A (zh) * 2019-12-26 2021-06-29 深圳市北科瑞声科技股份有限公司 一种公告信息元素抽取方法、系统及装置
CN111460141B (zh) * 2020-03-05 2023-12-05 支付宝(杭州)信息技术有限公司 一种文本处理方法、装置及电子设备
CN111581358B (zh) * 2020-04-08 2023-08-18 北京百度网讯科技有限公司 信息抽取方法、装置及电子设备
CN111581339B (zh) * 2020-04-09 2021-11-12 天津大学 基于树状lstm对生物医学文献的基因事件的抽取方法
CN111538805A (zh) * 2020-05-25 2020-08-14 武汉烽火普天信息技术有限公司 一种基于深度学习和规则引擎的文本信息抽取方法及系统
CN112163137A (zh) * 2020-09-02 2021-01-01 北京神鹰城讯科技股份有限公司 一种基于数据采集和信息抽取的房屋租赁信息搜索方法
CN112667940B (zh) * 2020-10-15 2022-02-18 广东电子工业研究院有限公司 基于深度学习的网页正文抽取方法
CN112612869A (zh) * 2020-11-24 2021-04-06 中国传媒大学 基于指数概率模型的文档结构学习与生成方法及装置
CN112784585A (zh) * 2021-02-07 2021-05-11 新华智云科技有限公司 金融公告的摘要提取方法与摘要提取终端
CN113051607B (zh) * 2021-03-11 2022-04-19 天津大学 一种隐私政策信息提取方法
CN112907301B (zh) * 2021-03-29 2022-06-14 哈尔滨工业大学 一种基于Bi-LSTM-CRF模型的内容相关广告投放方法及系统
CN113239659A (zh) * 2021-04-21 2021-08-10 上海快确信息科技有限公司 一种融合规则的文本数字抽取装置
CN115438628B (zh) * 2022-11-08 2023-03-17 宏景科技股份有限公司 结构化文档协作管理方法、系统及文档结构
CN115577124B (zh) * 2022-11-10 2023-04-07 上海朝阳永续信息技术股份有限公司 用于交互金融数据的方法、设备和介质
CN115630174B (zh) * 2022-12-21 2023-07-21 上海金仕达软件科技股份有限公司 一种多源公告文档处理方法、装置、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445920A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用句义结构特征的句子相似度计算方法
CN108595643A (zh) * 2018-04-26 2018-09-28 重庆邮电大学 基于多分类节点卷积循环网络的文本特征提取及分类方法
CN108829801A (zh) * 2018-06-06 2018-11-16 大连理工大学 一种基于文档级别注意力机制的事件触发词抽取方法
CN108845993A (zh) * 2018-06-06 2018-11-20 中国科学技术信息研究所 文本信息的翻译方法、装置及终端设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160070803A1 (en) * 2014-09-09 2016-03-10 Funky Flick, Inc. Conceptual product recommendation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445920A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用句义结构特征的句子相似度计算方法
CN108595643A (zh) * 2018-04-26 2018-09-28 重庆邮电大学 基于多分类节点卷积循环网络的文本特征提取及分类方法
CN108829801A (zh) * 2018-06-06 2018-11-16 大连理工大学 一种基于文档级别注意力机制的事件触发词抽取方法
CN108845993A (zh) * 2018-06-06 2018-11-20 中国科学技术信息研究所 文本信息的翻译方法、装置及终端设备

Also Published As

Publication number Publication date
CN109857990A (zh) 2019-06-07

Similar Documents

Publication Publication Date Title
CN109857990B (zh) 一种基于文档结构与深度学习的金融类公告信息抽取方法
CN110427623B (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN106776581B (zh) 基于深度学习的主观性文本情感分析方法
CN111324742B (zh) 一种数字人文知识图谱的构建方法
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN109886270B (zh) 一种面向电子卷宗笔录文本的案件要素识别方法
CN108519890A (zh) 一种基于自注意力机制的鲁棒性代码摘要生成方法
CN107315738B (zh) 一种文本信息的创新度评估方法
CN108182295A (zh) 一种企业知识图谱属性抽取方法及系统
CN109255027B (zh) 一种电商评论情感分析降噪的方法和装置
CN112434535B (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
CN112836046A (zh) 一种四险一金领域政策法规文本实体识别方法
CN110929034A (zh) 一种基于改进lstm的商品评论细粒度情感分类方法
Li et al. A self-attention-based approach for named entity recognition in cybersecurity
CN110889786A (zh) 一种基于lstm技术的法律诉讼被告人保全用审判服务方法
CN110956041A (zh) 一种基于深度学习的并购重组公告摘要方法
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及系统
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN110222338A (zh) 一种机构名实体识别方法
He et al. Syntax-aware entity representations for neural relation extraction
CN113901224A (zh) 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
CN113240562A (zh) 一种基于nlp的产学研项目推荐匹配方法与系统
CN113158659A (zh) 一种基于司法文本的涉案财物计算方法
CN115203429B (zh) 一种用于构建审计领域本体框架的知识图谱自动扩充方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant