CN109766524B - 一种并购重组类公告信息抽取方法及系统 - Google Patents

一种并购重组类公告信息抽取方法及系统 Download PDF

Info

Publication number
CN109766524B
CN109766524B CN201811654133.5A CN201811654133A CN109766524B CN 109766524 B CN109766524 B CN 109766524B CN 201811654133 A CN201811654133 A CN 201811654133A CN 109766524 B CN109766524 B CN 109766524B
Authority
CN
China
Prior art keywords
rule
label
text
stack
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811654133.5A
Other languages
English (en)
Other versions
CN109766524A (zh
Inventor
黄胜
李胜
何晗
王博博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201811654133.5A priority Critical patent/CN109766524B/zh
Publication of CN109766524A publication Critical patent/CN109766524A/zh
Application granted granted Critical
Publication of CN109766524B publication Critical patent/CN109766524B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提出一种基于双向切片门控循环单元BiSGRU和注意力机制Attention的并购重组类公告信息抽取的方法及系统,所述方法及系统提取公告文本的文本结构树,建立规则标签体系,制定各个字段抽取的规则模板;使用规则逻辑运算抽取引擎解析规则模板,从所述文本结构树中抽取各个字段对应的句子集合;制定标注标签,标注语料,使用语料训练序列标注模型;使用训练完成的序列标注模型,抽取出句子集合中的字段信息,录入到数据库;本发明充分利用了字段间的关联信息,提高了模型训练的效率以及识别的准确率,提高了并购重组类公告信息抽取的效果。

Description

一种并购重组类公告信息抽取方法及系统
技术领域
本发明属于自然语言处理领域,涉及一种基于双向切片门控循环单元(Bidirectional Sliced Gated Recurrent Unity,BiSGRU)和注意力机制(Attention)的并购重组类公告信息抽取方法及系统。
背景技术
随着当前我国经济发展态势的逐渐稳固,资本市场的日益成熟,上市公司的数量正在不断增加。并购重组类公告作为上市公司信息披露的其中一类重要的公告类型,具有很强的研究价值。上市公司并购重组类公告信息的结构化处理可以为投融资决策、市场监管、股市预测、企业画像等领域提供有效的数据支撑,成为股市和证券市场应用服务开发的重要一环。如何精准且高效的实现并购重组类公告信息的结构化,正成为当前金融和证券公司着重需要解决的问题之一。
信息抽取(Information Extraction)可以从众多结构化、半结构化或者非结构化的文本中提取出各种所需的字段信息,以结构化的形式存储到数据库中供用户进一步的查询和分析使用。随着机器学习和深度学习的不断发展,序列标注法成为当前信息抽取任务的主流方法。孙师尧等人提出一种基于改进支持向量机(Support Vector Machine,SVM)和隐马尔可夫模型(Hidden Markov Model,H MM)的文本信息抽取算法,该算法克服了传统规则抽取方法的不足,采用统计的方法引入SVM对文本进行分类,利用S型函数拟合调整模型参数结合HMM对文本信息进行抽取。该算法具有较好的可行性,但是对于非结构化信息和特征不明显的信息抽取的精准度相对较低;黄念娥等人提出了一种基于本体与条件随机场(Conditional Random Field,CRF)相结合的序列标注算法,该算法能够有效帮助用户分析涉农商品的供求情况和市场行情趋势,对涉农商品名称和类别的抽取具有良好的效果。但是算法忽略了中文文本词汇之间的语义相关性,无法有效利用上下文信息。
长短期记忆网络(Long Short-Term Memory,LSTM)作为一种特殊的循环神经网络(Recurrent Neural Network,RNN),以其特有的细胞结构,能有效解决长序列依赖问题,避免RNN带来的梯度消失问题,因此在序列标注任务中取得了优异的表现。双向LSTM(BiLSTM)和CRF的组合成为了当前主流的序列标注模型。陈伟等人将BiLSTM-CRF模型用于关键词自动抽取任务中,相较于基准系统性能提高了约1个百分点。秦颖等人将BiLSTM-CRF模型用于对电子病历的三种临床命名实体识别中,并在i2b2/VA开放数据集中取得F1值为0.8537的目前最优结果。然而LSTM具有以下两点局限:1、不能有效利用全文篇章级信息,导致实体标签全非一致性和实体简称识别能力较弱的情况出现;2、循环单元结构难以并行化计算,无法充分利用图像处理单元GPU的并行运算能力,使得模型训练的效率较低。杨培等人在BiLSTM-CRF模型的基础上引入了注意力机制,通过注意力层的权重分配,融合了全文的篇章级信息,在化学药物命名实体识别任务中相较于BiLSTM-CRF模型的F值提高了1.48%。但是该方法的局限在于1、注意力机制和BiLSTM-CRF相结合的序列标注模型无法有效利用GPU的并行运算性能,模型训练效率较低;2、对于并购重组类公告信息抽取任务而言,无法充分利用抽取字段之间的语义关联信息。上海交通大学研究人员在顶级计算机语言学大会COLING 2018上提出了一种切片循环神经网络(Sliced Recurren t Neural Networks,SRNN),在不改变循环单元的前提下,将序列分割成多个子序列,信息通过多层网络结构传递,实现并行化计算的同时,保留原有RNN的序列特性。该模型已在六个大规模的感情分析数据集上进行了实验,实验结果表明,SRNN的性能均优于标准RNN,并且通过参数调节,SRNN的训练速度可以达到标准RNN的136倍。但是该方法存在的局限在于:SRNN模型用于长文本的信息抽取任务时,无法有效利用上下文语义信息,同时对于抽取字段之间的语义关联信息以及全文篇章级信息的获取效果较差,使得抽取准确率不高。
发明内容
本发明为解决上述问题,提出了一种基于BiSGRU和Attention的并购重组类公告信息抽取方法及系统,采用规则法,设计一套规则四则运算抽取引擎,抽取出字段对应的句子集合,并将各个字段划分为不同的段落,实现对公告文本的重构,将篇章级抽取缩小为句子级抽取;采用序列标注法,提出一种基于文本树结构划分的BiSGRU网络结构,并引入注意力机制,结合句子的语义依存分析矩阵,实现对字段信息的精确抽取。
根据本发明的一个方面,提供一种基于BiSGRU和Attention的并购重组类公告信息抽取方法,包括:
步骤1,采用标题定位内容的方式提取公告文本的文本结构树,建立规则标签体系,制定各个字段抽取的规则模板;
步骤2,使用规则逻辑运算抽取引擎解析规则模板,从所述文本结构树中抽取各个字段对应的句子集合,以抽取的结果实现对文本的重构;
步骤3,制定标注标签,标注语料,使用语料训练序列标注模型;
步骤4,使用训练完成的序列标注模型,抽取出句子集合中的字段信息,录入到数据库。
根据本发明的另一个方面,提供一种基于BiSGRU和Attention的并购重组类公告信息抽取系统,包括:
句子级抽取模块1,用于采用标题定位内容的方式提取公告文本的文本结构树,建立规则标签体系来制定各个字段抽取的规则模板;编写规则逻辑运算抽取引擎来解析规则模板,从所述文本结构树中抽取各个字段对应的句子集合以对公告文本进行重构;
字段级抽取模块2,用于制定标注标签,标注语料,使用语料训练序列标注模型;使用训练完成的序列标注模型,抽取出句子集合中的字段信息,录入到数据库。
本发明的有益效果在于:1、采用降维的思想,将规则法和序列标注法相结合,使得篇章级抽取任务缩小为句子级抽取,最终缩小为字段级抽取,大大提高了并购重组类公告信息抽取的效果;2、提出基于文本树结构划分的BiSGRU模型结构,在充分利用上下文的相关信息的同时可以充分发挥GPU的并行运算优势,并且有效利用字段间的关联信息,提高了模型训练的效率以及识别的准确率;3、引入注意力机制并结合语义依存关联矩阵,从而加强对全文篇章级信息以及关联实体对之间的语义信息的学习。
附图说明
图1是本发明实施例提供的一种基于双向切片门控循环单元BiSGRU和注意力机制Attention的并购重组类公告信息抽取方法的流程图;
图2是本发明实施例提供的一种基于BiSGRU和Attention的并购重组类公告信息抽取方法中基于规则法抽取流程图;
图3是本发明实施例提供的一种基于BiSGRU和Attention的并购重组类公告信息抽取方法中规则逻辑运算抽取引擎算法流程图;
图4是本发明实施例提供的一种基于BiSGRU和Attention的并购重组类公告信息抽取方法中BiSGRU-Attention序列标注模型结构图;
图5是本发明实施例提供的一种基于BiSGRU和Attention的并购重组类公告信息抽取方法中BiSGRU模型结构图;
图6是本发明实施例提供的一种基于BiSGRU和Attention的并购重组类公告信息抽取系统的结构图;
图7是本发明实施例提供的一种基于BiSGRU和Attention的并购重组类公告信息抽取系统的结构图。
具体实施方式
下面对本发明具体的细节和实施方式进行阐述,来进一步说明本发明的出发点以及相应的技术方案。
图1是本发明实施例提供的一种基于BiSGRU和Attention的并购重组类公告信息抽取方法流程图。所述方法包括四个步骤:
步骤1,采用标题定位内容的方式提取公告文本的文本结构树,建立规则标签体系,制定各个字段抽取的规则模板。
公告文本包含大量的重复和冗余信息,语料稀疏性较大,因此直接采用序列标注法准确度差、复杂度高且语料成本花费较大。基于规则的方法以领域知识为基础,对于特定领域文本识别的准确率较高。因此本发明首先采用规则法提取出包含字段信息的句子集合,将篇章级抽取缩小为句子级抽取,降低长文本信息抽取的复杂度。
图2是本发明实施例提供的一种基于BiSGRU和Attention的并购重组类公告信息抽取方法中基于规则法抽取流程图。根据文本特点,采用标题定位内容的方式提取文本结构树,设计一套特定的标签体系用于制定各个字段抽取的规则模板,然后编写规则逻辑运算抽取引擎用于解析规则模板。
由于并购重组类公告是长文本,长的有2M字节(1000多页),其中包含了大量的冗余信息和无用信息,且表述形式太多,所以直接对全文内容进行规则匹配,效果是比较差的。而公告文本是有标题加内容,具有一点格式的文本,所以这里就采用先制定标题规则,定位到对应标题下的内容,在根据内容规则,抽取出字段所处的句子,但是标题包含很多级,1级标题,2级标题,3级标题等等,我们想实现精确的定位,就需要更加复杂的规则组合,所以就制定了一个标准,就是所谓的标签体系,规则的制定就必须按照标签体系的约束进行。
针对长文本,设计一套规则标签体系,用于约束规则模板的制定,通过复杂的规则逻辑运算组合可以极大提升规则抽取的准确率。规则标签体系中标签符号主要分为三类:普通规则符、特殊限制符、标识符,具体的规则标签符号说明如表1所示。
表1规则标签符号说明
Figure BDA0001933867060000061
Figure BDA0001933867060000071
根据表1建立的规则标签体系,制定各个字段抽取的规则模板。下面以“募集配套资金”字段规则模板举例说明制定的各个字段抽取规则模板的格式,如表2所示:
表2“募集配套资金”字段规则模板
Figure BDA0001933867060000072
步骤2,使用规则逻辑运算抽取引擎解析规则模板,从所述文本结构树中抽取各个字段对应的句子集合。
规则逻辑运算抽取引擎用于解析依规则模板,处理标题规则和内容规则之间复杂的逻辑运算组合,即:与(and)、或(or)、非(not)。
引擎内部按照操作栈的原理对规则逻辑运算组合进行解析,首先根据标题规则定位到内容,再进行内容规则匹配,匹配成功则跳出当前段落,对下一个段落进行按句匹配,最终返回匹配结果的并集。引擎内部根据“宁多勿漏”的原则对标题规则之间的逻辑或运算进行了修改,取消原本断路原则,即标题规则A、B之间的逻辑或运算:A OR B,若A为TRUE会继续判断B是否为TRUE,若为TRUE则返回A和B的并集,否则返回A,内容规则之间的逻辑或运算则未进行修改。
图3是本发明实施例提供的一种基于BiSGRU和Attention的并购重组类公告信息抽取方法中规则逻辑运算抽取引擎算法流程图。引擎算法步骤如下所示,其中RS:操作栈、HS:标题栈、h:标题栈操作数、hr:标题规则操作数、CS:内容栈、c:内容栈操作数、cr:内容规则操作数、H:全文标题集合、C:全文句子集合、H(·):从H中抽取出的标题集合、C(·):从C中抽取出的标题集合。
1.规则组合中缀表达式转换为逆波兰式,并在末尾加入结束符“#”;
2.字符入RS,判断当前字符是否为结束符“#”,是则转到第7步,否则转到第3步;
3.判断当前入RS的字符是否为操作符op,是则转入第4步,否则跳回第2步;
4.判断op是否为单目运算符(not),是则R出栈一次,记为操作数a,转到第5步;否则R出栈两次,记为操作数b和d,转到第6步;
5.按照单目运算符的运算规则,分为以下4种情况进行运算:1、若a为hr,则计算Hop H(a),结果入栈HS,h入栈RS;2、若a为cr,则计算CopC(a),结果入栈CS,c入栈RS;3、若a为h,则HS出栈;4、若a为c,则CS出栈。转回第2步;
6.按照双目运算符的运算规则,分为以下9种情况进行运算:1、若b和d都为hr,则计算H(b)op H(d),结果入栈HS,h入栈RS;2、若b和d都为cr,则计算C(b)op C(d),结果入栈CS,c入栈RS;3、若b和d都为h,则HS出栈H1和H2,计算H2op H1,结果入栈HS,h入栈RS;4、若b和d都为c,则CS出栈C1和C2,计算C2opC1,结果入栈CS,c入栈RS;5、若b为h,d为hr,则HS出栈H1,计算H1op H(d),结果入栈HS,h入栈RS;6、若b为c,d为cr,则CS出栈C1,计算C1op C(d),结果入栈CS,c入栈RS;7、若b为hr,d为cr,计算C(H(b))op C(d),结果入栈CS,c入栈RS;8、若b为h,d为cr,则HS出栈H1,计算C(H1)op C(d),结果入栈CS,c入栈RS;9、若b为h,d为c,则HS出栈H1,CS出栈C1,计算C(H1)op C1,结果入栈CS,c入栈RS。转回第2步;
7.RS出栈,计为操作数e,若e为c,则返回CS的栈值C1;若e为cr,则返回C(e);若为其他,则返回空值;
对于一篇公告文本T,首先根据标题规则定位到段落,再根据内容规则抽取出句子Sj,然后对句子进行去重和筛选,最终得到每个字段对应抽取的句子集合Pi
T={P1,P2,…,Pi}
Pi={S1,S2,…,Sj}
这里将Pi表征为新的文本段落,段落集合实现对公告文本T的重构,从而保留文本的段落级信息和篇章级信息,用于提高实体识别的准确率。
步骤3,制定标注标签,并训练序列标注模型。
优选的,本发明以从“巨潮资讯网”上抓取的2000个上市公司并购重组类公告文本作为数据集,按照8:1:1的比例划分为训练集、开发集和测试集。标注标签的制定上,对当前广泛使用的BIO(begin,inside,outside)标签机制进行优化,除了B标签、I标签、O标签,增加E(end)标签和S(single)标签对包含“成交金额”、“交易标的”、“重组类型”、“标的行业”、“现金对价来源”、“配套融资金额”、“股票定价方式”、“收购方式”、“评估基准日”、“评估方法”、“资产评估值”、“资产账面值”在内的12个字段进行语料标注,用于对标签实体的解析;其中B标签表示实体的第1个词,E标签表示实体的最后1个词,B标签和E标签之间由I标签表示,S标签表示单个词的实体,O标签表示其他词汇。
优选的,制定的标注标签如表3所示:
表3标注标签及说明
Figure BDA0001933867060000101
Figure BDA0001933867060000111
优选的,所述序列标注模型为基于BiSGRU-Attention序列标注模型。图4是本发明实施例提供的一种基于BiSGRU和Attention的并购重组类公告信息抽取方法中BiSGRU-Attention序列标注模型结构图。所述基于BiSGRU-Attention序列标注模型主要分为以下4层:
1、词向量层,采用GolVe工具来学习词向量,相比word2vec更容易并行化,对于较大的训练数据,效率更高;Wn为GloVe层学习的词向量,sj为句子,pi为字段对应的句子集合;
2、BiSGRU神经网络层,设计一种按照文本树结构的方式划分的双向切片门控循环单元,在充分学习上下文信息的同时,还可以有效获取字段之间的关联信息,多层网络结构支持GPU并行运算,大大提高模型的训练效率;Hn为BiSGRU层输出的隐藏状态;
3、Attention层,预先训练一个语义依存模型,用于获得词汇之间的语义关联矩阵,使模型在关注当前词汇的同时,还能融合其他词汇的语义关联信息的影响。使得模型能够加强对全文篇章级信息以及关联实体对之间的语义信息的学习,提高实体识别的准确率;M为关联实体矩阵,αn为Attention层分配的权重;
4、CRF层,能够捕捉标签之间的相关性,使得模型可以考虑标签的转移概率,得到标签序列的全局最优解;Vn为实体预测概率,B或O代表词汇最终的预测标签。
本发明将SRNN切片划分的思想应用到门控循环单元GRU模型中,并结合并购重组类公告的特点,按照文本树结构的划分方式,对GRU模型的网络结构的划分进行了优化,并采用正向和反向两个模型来获取序列的上下文特征信息,提出了双向切片门控循环单元(bilateral Sliced Gated Recurrent Unit,BiSGRU)。
优选的,BiSGRU神经网络层,具有三层网络结构,包括:
第0层为句子级层,以句子为单位,对句子序列Sj进行等长划分,当无法进行等长划分的情况下进行非等长划分;
第1层为段落级层,以每个字段抽取的句子集合Pi为单位,进行非等长划分,使模型可以学习到字段之间的关联信息;
第2层为篇章级层,以字段集合重构的文本T为单位,进行非等长划分,使模型在一定程度上可以学习到文本的篇章级信息。
图5是本发明实施例提供的一种基于BiSGRU和Attention的并购重组类公告信息抽取方法中BiSGRU模型结构图。BiSGRU不需要改变循环单元,通过将序列分割成多个子序列,在每个子序列中上应用循环单元,从而实现子序列的并行计算。三层网络结构的划分使得BiSGRU具有获得高层次信息的能力。
在第0层,以句子为单位,对句子序列Sj进行等长划分,当无法进行等长划分的情况下进行非等长划分。对句子序列Sj采用等长划分的方式,假设Sj的长度为L,WL为词汇,则Sj为:
Sj=[w1,w2,…,WL]
其中w1,w2,…,wL为每一步输入的词向量,然后将Sj划分成n个等长的子序列,每一个子序列N的长度t为:
Figure BDA0001933867060000121
此时Sj可以表示为:
Sj=[N1,N2,…,NL]
同样,再将每个子序列N划分成n个等长的序列,重复划分操作k次,直到最底层的最小子序列长度le合适:
Figure BDA0001933867060000131
第1层为段落级层,以每个字段抽取的句子集合Pi为单位,进行非等长划分,使模型可以学习到字段之间的关联信息,例如:“标的资产”和“成交金额”构成一组关联字段。图6中的pi代表1个段落,即句子级抽取后的字段对应的句子集合,重构后表示为一个新的段落,如p1由句子s1、s2、s3组成;A代表每一个GRU循环单元,hi为是词向量经过循环单元GRU计算后的隐状态。
通过k次划分,可以得到k+1层子网络。k-1层每个子序列的隐层状态都作为第k层的输入子序列,来计算第k层子序列的隐层状态:
Figure BDA0001933867060000132
第2层为篇章级层,以字段集合重构的文本T为单位,进行非等长划分,使模型在一定程度上可以学习到文本的篇章级信息。F为当前词向量最后经过BiSGRU计算的隐状态。
篇章级层的隐层状态F由段落级层所有子序列的隐层状态决定:
Figure BDA0001933867060000133
BiSGRU模型除了对GRU模型的网络结构的划分进行了优化,还采用正向和反向两个模型来获取序列的上下文特征信息。BiSGRU模型采用了正反两个BiSGRU模型来获取序列的上下文语义特征信息。一个正向BiSGRU用于捕获上文的语义特征信息,一个反向BiSGRU用于捕获下文的语义特征信息,对于当前时刻的输出由这两个BiSGRU共同决定。
BiSGRU的t时刻隐层状态ht由t时刻的输入xt、t-1时刻的正向隐层状态
Figure BDA0001933867060000134
t-1时刻的反向隐层状态
Figure BDA0001933867060000141
三部分共同决定,即:
Figure BDA0001933867060000142
Figure BDA0001933867060000143
通过结合
Figure BDA0001933867060000144
Figure BDA0001933867060000145
得到t时刻隐层状态ht
Figure BDA0001933867060000146
在并购重组类公告信息抽取任务中,实体wi具有以下两个特征:1、同一个wi出现在多个字段对应抽取的句子集合Pi中,例如:“交易标的”字段对应的实体同时出现在“成交金额”和“收购方式”两个字段对应抽取的句子集合中;2、wi与句子中的其他实体之间组成关联实体对,例如:“截止至评估基准日,采用资产基础法进行评估,交易标的评估价值为2,160.18万元。”句中“资产评估值”字段对应的实体:“2,160.18万元”和“评估方法”字段对应的实体“资产基础法”之间组成关联实体对。本发明将Attention机制结合到序列标注模型中,通过权重分配方式,计算句中各个词汇的概率权重,加强全文篇章级信息和实体对之间语义关联信息的影响,进而提升对实体标签预测的准确率。
优选的,所述Attention层,计算句中各个词汇的概率权重包括:
对于重组后的公告文本T,i为字段数,j为句子集合中的句子数,S为T的句子总数,S=i×j,n为句中的词汇数,L为T的词汇总数,L=n×S;令set为
Figure BDA0001933867060000147
Figure BDA0001933867060000148
的词向量组合,elementx为第x个词在set中对应的一项,relation为
Figure BDA0001933867060000149
经过BiSGRU层的输出,那么可以得到第x个词在全文范围内的应分配的注意力概率权重αx
αx=softmax(f(set,elementx,W))(16)
其中f(·)用于计算elementx与set中各个词汇之间的相关性,这里选用曼哈顿距离,为了让词义越相近的词汇计算值越大,故使用max(αx)-αx来修正计算的结果,W为随模型一同训练的参数,softmax()为激活函数将输出转化为概率值。
然后利用αx对relation中的信息进行筛选融合,可获得当前词的全文篇章级信息chapterx
Figure BDA0001933867060000151
使用开源语义依存分析模型来获取句子Sx中的关联实体矩阵M,得到关联实体的上下文信息
Figure BDA0001933867060000152
dependxy=Mxy·relation(18)
最后融合全文篇章级信息和实体对之间语义关联信息得到词汇最终的概率权重attx:
attx=tanh(chapterx,∑ydependxy)(19)
其中,开源的语义依存分析模型可以使用哈工大语言技术平台LTP开源的语义依存分析模型来获取句子Sx中的关联实体矩阵M,LTP中部分依存关系标注集如表4所示。
表4LTP中部分依存关系标注集
Figure BDA0001933867060000153
本发明训练序列标注模型的方法包括:采用Keras的深度学习框架,底层为TensorFlow,对于本实验构建的序列标注模型,以反向传播算法(BP)来训练网络,用随机梯度下降算法(SGD)在每个训练样本时调整权重参数,其中词向量设定为200维,学习率设置为0.01,Batch_size设置为100,Dropout参数rate设置为0.5。参数经过多次迭代后根据准确率P、召回率R调整得到。
步骤4,使用训练完成的序列标注模型,抽取出句子集合中的字段信息,录入到数据库。
图6是本发明实施例提供的一种基于BiSGRU和Attention的并购重组类公告信息抽取系统的结构图,系统包括两个模块:句子级抽取模块,用于采用规则法,从文本中抽取出包含字段信息的句子集合,按照摘要抽取、正文抽取、全文匹配的优先级进行;字段级抽取模块,采用序列标注法,从中筛选后的句子集合中提取出所需的字段结构化信息,并录入数据库中。
图7是本发明实施例提供的一种基于BiSGRU和Attention的并购重组类公告信息抽取系统的结构图。所述系统包括:
句子级抽取模块1,用于采用标题定位内容的方式提取公告文本的文本结构树,建立规则标签体系来制定各个字段抽取的规则模板;编写规则逻辑运算抽取引擎来解析规则模板,从所述文本结构树中抽取各个字段对应的句子集合以对公告文本进行重构;
字段级抽取模块2,用于制定标注标签,标注语料,使用语料训练序列标注模型;使用训练完成的序列标注模型,抽取出句子集合中的字段信息,录入到数据库。
优选的,句子级抽取模块1所述规则标签体系中标签符号分为三类:普通规则符、特殊限制符、标识符;所述规则模板的制定由所述规则标签体系约束,且具有特定的规则逻辑运算组合;所述规则标签符号说明如表1:
表1规则标签符号说明
Figure BDA0001933867060000161
Figure BDA0001933867060000171
优选的,句子级抽取模块1用于使用规则逻辑运算抽取引擎解析规则模板包括:
步骤2-1,规则组合中缀表达式转换为逆波兰式,并在末尾加入结束符“#”;
步骤2-2,字符入RS,判断当前字符是否为结束符“#”,是则转到步骤2-7,否则转到步骤2-3;
步骤2-3,判断当前入RS的字符是否为操作符op,是则转入步骤2-4,否则跳回步骤2-2;
步骤2-4,判断op是否为单目运算符(not),是则R出栈一次,记为操作数a,转到步骤2-5;否则R出栈两次,记为操作数b和d,转到步骤2-6;
步骤2-5,按照单目运算符的运算规则,分为以下4种情况进行运算:
①若a为hr,则计算H op H(a),结果入栈HS,h入栈RS;②若a为cr,则计算C op C(a),结果入栈CS,c入栈RS;③若a为h,则HS出栈;④若a为c,则CS出栈;转回步骤2-2;
步骤2-6,按照双目运算符的运算规则,分为以下9种情况进行运算:
①若b和d都为hr,则计算H(b)op H(d),结果入栈HS,h入栈RS;②若b和d都为cr,则计算C(b)op C(d),结果入栈CS,c入栈RS;③若b和d都为h,则HS出栈H_1和H_2,计算H_2opH_1,结果入栈HS,h入栈RS;④若b和d都为c,则CS出栈C_1和C_2,计算C_2op C_1,结果入栈CS,c入栈RS;⑤若b为h,d为hr,则HS出栈H_1,计算H_1op H(d),结果入栈HS,h入栈RS;⑥若b为c,d为cr,则CS出栈C_1,计算C_1op C(d),结果入栈CS,c入栈RS;⑦若b为hr,d为cr,计算C(H(b))op C(d),结果入栈CS,c入栈RS;⑧若b为h,d为cr,则HS出栈H_1,计算C(H_1)op C(d),结果入栈CS,c入栈RS;⑨若b为h,d为c,则HS出栈H_1,CS出栈C_1,计算C(H_1)op C_1,结果入栈CS,c入栈RS;转回步骤2-2;
步骤2-7,RS出栈,计为操作数e,若e为c,则返回CS的栈值C_1;若e为cr,则返回C(e);若为其他,则返回空值;
其中RS:操作栈;HS:标题栈;h:标题栈操作数;hr:标题规则操作数;CS:内容栈;c:内容栈操作数;cr:内容规则操作数;H:全文标题集合;C:全文句子集合;H(·):从H中抽取出的标题集合;C(·):从C中抽取出的标题集合。
优选的,字段级抽取模块2,用于制定标注标签的步骤包括:
抓取上市公司并购重组类公告文本作为数据集,按照8:1:1的比例划分为训练集、开发集和测试集;使用BIO(begin,inside,outside)标签机制标注标签,除了B标签、I标签、O标签,增加E(end)标签和S(single)标签对包含“成交金额”、“交易标的”、“重组类型”、“标的行业”、“现金对价来源”、“配套融资金额”、“股票定价方式”、“收购方式”、“评估基准日”、“评估方法”、“资产评估值”、“资产账面值”在内的12个字段进行语料标注,用于对标签实体的解析;其中B标签表示实体的第1个词,E标签表示实体的最后1个词,B标签和E标签之间由I标签表示,S标签表示单个词的实体,O标签表示其他词汇。
优选的,字段级抽取模块2所述序列标注模型为BiSGRU-Attention序列标注模型,包括:
词向量层,采用GolVe工具来学习词向量;
BiSGRU神经网络层,利用按照文本树结构的方式划分的双向切片门控循环单元BiSGRU,学习上下文信息,并获取字段之间的关联信息;双向切片门控循环单元BiSGRU具有三层网络结构,包括:第0层为句子级层,以句子为单位,对句子序列Sj进行等长划分,当无法进行等长划分的情况下进行非等长划分;第1层为段落级层,以每个字段抽取的句子集合Pi为单位,进行非等长划分,使模型可以学习到字段之间的关联信息;第2层为篇章级层,以字段集合重构的文本T为单位,进行非等长划分,使模型在一定程度上可以学习到文本的篇章级信息。
Attention层,计算句中各个词汇的概率权重,训练一个语义依存模型,用于获得词汇之间的语义关联矩阵;
CRF层,捕捉标签之间的相关性,利用标签的转移概率,得到标签序列的全局最优解。
优选的,所述Attention层计算句中各个词汇的概率权重包括:
对于重组后的公告文本T,i为字段数,j为句子集合中的句子数,S为T的句子总数,S=i×j,n为句中的词汇数,L为T的词汇总数,L=n×S;令set为
Figure BDA0001933867060000191
的词向量组合,elementx为第x个词在set中对应的一项,relation为
Figure BDA0001933867060000192
经过BiSGRU层的输出,得到第x个词在全文范围内的应分配的注意力概率权重αx
αx=softmax(f(set,elementx,W))
其中f(·)用于计算elementx与set中各个词汇之间的相关性,利用曼哈顿距离,使用max(αx)-αx来修正计算的结果,W为随模型一同训练的参数,softmax()为激活函数将输出转化为概率值;
然后利用αx对relation中的信息进行筛选融合,可获得当前词的全文篇章级信息chapterx
Figure BDA0001933867060000201
使用开源语义依存分析模型来获取句子Sx中的关联实体矩阵M,得到关联实体的上下文信息
Figure BDA0001933867060000202
dependxy=Mxy·relation
最后融合全文篇章级信息和实体对之间语义关联信息得到词汇最终的概率权重attx:
attx=tanh(chapterx,∑ydependxy)。
以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。

Claims (10)

1.一种基于双向切片门控循环单元BiSGRU和注意力机制Attention的并购重组类公告信息抽取方法,其特征在于,包括:
步骤1,采用标题定位内容的方式提取公告文本的文本结构树,建立规则标签体系,制定各个字段抽取的规则模板;
步骤2,使用规则逻辑运算抽取引擎解析规则模板,从所述文本结构树中抽取各个字段对应的句子集合,以抽取的结果实现对文本的重构;
步骤3,制定标注标签,标注语料,使用语料训练序列标注模型;其中,所述序列标注模型为BiSGRU-Attention序列标注模型;
步骤4,使用训练完成的序列标注模型,抽取出句子集合中的字段信息,录入到数据库。
2.根据权利要求1所述的方法,其特征在于,步骤1所述规则标签体系中标签符号分为三类:普通规则符、特殊限制符、标识符;所述规则模板的制定由所述规则标签体系约束,且具有特定的规则逻辑运算组合;所述规则标签符号说明如表1:
表1规则标签符号说明
Figure FDA0003894663290000011
3.根据权利要求1所述的方法,其特征在于,步骤2所述使用规则逻辑运算抽取引擎解析规则模板包括:
步骤2-1,规则组合中缀表达式转换为逆波兰式,并在末尾加入结束符“#”;
步骤2-2,字符入RS,判断当前字符是否为结束符“#”,是则转到步骤2-7,否则转到步骤2-3;
步骤2-3,判断当前入RS的字符是否为操作符op,是则转入步骤2-4,否则跳回步骤2-2;
步骤2-4,判断op是否为单目运算符not,是则RS出栈一次,记为操作数a,转到步骤2-5;否则RS出栈两次,记为操作数b和d,转到步骤2-6;
步骤2-5,按照单目运算符的运算规则,分为以下4种情况进行运算:
①若a为hr,则计算H op H(a),结果入栈HS,h入栈RS;②若a为cr,则计算C op C(a),结果入栈CS,c入栈RS;③若a为h,则HS出栈;④若a为c,则CS出栈;转回步骤2-2;
步骤2-6,按照双目运算符的运算规则,分为以下9种情况进行运算:
①若b和d都为hr,则计算H(b)op H(d),结果入栈HS,h入栈RS;②若b和d都为cr,则计算C(b)op C(d),结果入栈CS,c入栈RS;③若b和d都为h,则HS出栈H_1和H_2,计算H_2 op H_1,结果入栈HS,h入栈RS;④若b和d都为c,则CS出栈C_1和C_2,计算C_2 op C_1,结果入栈CS,c入栈RS;⑤若b为h,d为hr,则HS出栈H_1,计算H_1 op H(d),结果入栈HS,h入栈RS;⑥若b为c,d为cr,则CS出栈C_1,计算C_1 op C(d),结果入栈CS,c入栈RS;⑦若b为hr,d为cr,计算C(H(b))op C(d),结果入栈CS,c入栈RS;⑧若b为h,d为cr,则HS出栈H_1,计算C(H_1)op C(d),结果入栈CS,c入栈RS;⑨若b为h,d为c,则HS出栈H_1,CS出栈C_1,计算C(H_1)op C_1,结果入栈CS,c入栈RS;转回步骤2-2;
步骤2-7,RS出栈,计为操作数e,若e为c,则返回CS的栈值C_1;若e为cr,则返回C(e);若为其他,则返回空值;
其中RS:操作栈;HS:标题栈;h:标题栈操作数;hr:标题规则操作数;CS:内容栈;c:内容栈操作数;cr:内容规则操作数;H:全文标题集合;C:全文句子集合;H(·):从H中抽取出的标题集合;C(·):从C中抽取出的标题集合。
4.根据权利要求1所述的方法,其特征在于,步骤3所述制定标注标签包括:
抓取上市公司并购重组类公告文本作为数据集,按照8:1:1的比例划分为训练集、开发集和测试集;使用BIO标签机制标注标签,除了B标签、I标签、O标签,增加E标签和S标签对包含“成交金额”、“交易标的”、“重组类型”、“标的行业”、“现金对价来源”、“配套融资金额”、“股票定价方式”、“收购方式”、“评估基准日”、“评估方法”、“资产评估值”、“资产账面值”在内的12个字段进行语料标注,用于对标签实体的解析;其中B标签表示实体的第1个词,E标签表示实体的最后1个词,B标签和E标签之间由I标签表示,S标签表示单个词的实体,O标签表示其他词汇。
5.根据权利要求1所述的方法,其特征在于,步骤3所述序列标注模型为BiSGRU-Attention序列标注模型,包括:
词向量层,采用GolVe工具来学习词向量;
BiSGRU神经网络层,利用按照文本树结构的方式划分的双向切片门控循环单元BiSGRU,学习上下文信息,并获取字段之间的关联信息;
Attention层,计算句中各个词汇的概率权重,训练一个语义依存模型,用于获得词汇之间的语义关联矩阵;
CRF层,捕捉标签之间的相关性,利用标签的转移概率,得到标签序列的全局最优解。
6.根据权利要求5所述的方法,其特征在于,所述利用按照文本树结构的方式划分的BiSGRU具有三层网络结构,包括:
第0层为句子级层,以句子为单位,对句子序列Sj进行等长划分,当无法进行等长划分的情况下进行非等长划分;
第1层为段落级层,以每个字段抽取的句子集合Pi为单位,进行非等长划分,用于学习字段之间的关联信息;
第2层为篇章级层,以字段集合重构的文本T为单位,进行非等长划分,用于学习文本的篇章级信息。
7.根据权利要求5或者6所述的方法,其特征在于,所述Attention层,计算句中各个词汇的概率权重包括:
对于重组后的公告文本T,i为字段数,j为句子集合中的句子数,S为T的句子总数,S=i×j,n为句中的词汇数,L为T的词汇总数,L=n×S;令set为
Figure FDA0003894663290000041
的词向量组合,elementx为第x个词在set中对应的一项,
Figure FDA0003894663290000042
经过BiSGRU层的输出,得到第x个词在全文范围内的应分配的注意力概率权重αx=softmax(f(set,elementx,W)),其中f(·)用于计算elementx与set中各个词汇之间的相关性,利用曼哈顿距离,使用max(αx)-αx来修正计算的结果,W为随模型一同训练的参数,softmax()为激活函数将输出转化为概率值;
然后利用αx对relation中的信息进行筛选融合,可获得当前词的全文篇章级信息chapterx=αx·relation;
使用开源语义依存分析模型来获取句子Sx中的关联实体矩阵M,得到关联实体的上下文信息dependxy=Mxy·relation,其中M是个二维矩阵,Mxy表示的是与第x词相关联的第y个词;
最后融合全文篇章级信息和实体对之间语义关联信息得到词汇最终的概率权重attx=tanh(chapterx,∑ydependxy),其中tanh()为激活函数。
8.一种基于BiSGRU和Attention的并购重组类公告信息抽取系统,其特征在于,包括:
句子级抽取模块1,用于采用标题定位内容的方式提取公告文本的文本结构树,建立规则标签体系来制定各个字段抽取的规则模板;编写规则逻辑运算抽取引擎来解析规则模板,从所述文本结构树中抽取各个字段对应的句子集合以对公告文本进行重构;
字段级抽取模块2,用于制定标注标签,标注语料,使用语料训练序列标注模型;使用训练完成的序列标注模型,抽取出句子集合中的字段信息,录入到数据库;其中所述序列标注模型为BiSGRU-Attention序列标注模型。
9.根据权利要求8所述的系统,其特征在于,步骤1所述规则标签体系中标签符号分为三类:普通规则符、特殊限制符、标识符;所述规则模板的制定由所述规则标签体系约束,且具有特定的规则逻辑运算组合;所述规则标签符号说明如表1:
表1规则标签符号说明
Figure FDA0003894663290000051
10.根据权利要求8所述的系统,其特征在于,字段级抽取模块2所述序列标注模型为BiSGRU-Attention序列标注模型,包括:
词向量层,采用GolVe工具来学习词向量;
BiSGRU神经网络层,利用按照文本树结构的方式划分的双向切片门控循环单元BiSGRU,学习上下文信息,获取字段之间的关联信息;所述双向切片门控循环单元BiSGRU具有三层网络结构;
Attention层,计算句中各个词汇的概率权重,训练一个语义依存模型,用于获得词汇之间的语义关联矩阵;
CRF层,捕捉标签之间的相关性,利用标签的转移概率,得到标签序列的全局最优解。
CN201811654133.5A 2018-12-28 2018-12-28 一种并购重组类公告信息抽取方法及系统 Active CN109766524B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811654133.5A CN109766524B (zh) 2018-12-28 2018-12-28 一种并购重组类公告信息抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811654133.5A CN109766524B (zh) 2018-12-28 2018-12-28 一种并购重组类公告信息抽取方法及系统

Publications (2)

Publication Number Publication Date
CN109766524A CN109766524A (zh) 2019-05-17
CN109766524B true CN109766524B (zh) 2022-11-25

Family

ID=66452618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811654133.5A Active CN109766524B (zh) 2018-12-28 2018-12-28 一种并购重组类公告信息抽取方法及系统

Country Status (1)

Country Link
CN (1) CN109766524B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287458B (zh) * 2019-05-20 2023-05-02 暨南大学 一种年报文本标题自动标注系统
CN110377693A (zh) * 2019-06-06 2019-10-25 新华智云科技有限公司 财经新闻的模型训练方法和生成方法、装置、设备及介质
CN110532563B (zh) * 2019-09-02 2023-06-20 苏州美能华智能科技有限公司 文本中关键段落的检测方法及装置
CN110781276B (zh) * 2019-09-18 2023-09-19 平安科技(深圳)有限公司 文本抽取方法、装置、设备及存储介质
CN110727955A (zh) * 2019-09-24 2020-01-24 中企链信科技有限公司 信息识别方法及装置
CN110956041A (zh) * 2019-11-27 2020-04-03 重庆邮电大学 一种基于深度学习的并购重组公告摘要方法
CN110909146B (zh) * 2019-11-29 2022-09-09 支付宝(杭州)信息技术有限公司 用于推送反问标签的标签推送模型训练方法、装置及设备
CN113051887A (zh) * 2019-12-26 2021-06-29 深圳市北科瑞声科技股份有限公司 一种公告信息元素抽取方法、系统及装置
CN111460815B (zh) * 2020-03-16 2022-04-01 平安科技(深圳)有限公司 规则处理方法、装置、介质及电子设备
CN111538805A (zh) * 2020-05-25 2020-08-14 武汉烽火普天信息技术有限公司 一种基于深度学习和规则引擎的文本信息抽取方法及系统
CN111639480A (zh) * 2020-05-28 2020-09-08 深圳壹账通智能科技有限公司 基于人工智能的文本标签化方法、电子装置及存储介质
CN111782907B (zh) * 2020-07-01 2024-03-01 北京知因智慧科技有限公司 新闻分类方法、装置及电子设备
CN112784585A (zh) * 2021-02-07 2021-05-11 新华智云科技有限公司 金融公告的摘要提取方法与摘要提取终端
CN113239659A (zh) * 2021-04-21 2021-08-10 上海快确信息科技有限公司 一种融合规则的文本数字抽取装置
CN113408271B (zh) * 2021-06-16 2021-11-30 北京来也网络科技有限公司 基于rpa及ai的信息抽取方法、装置、设备及介质
CN113961674B (zh) * 2021-12-21 2022-03-22 深圳市迪博企业风险管理技术有限公司 一种关键信息与上市公司公告文本语义匹配方法及装置
CN114153978A (zh) * 2022-02-07 2022-03-08 杭州恒生聚源信息技术有限公司 模型训练方法、信息抽取方法、装置、设备及存储介质
CN114942971B (zh) * 2022-07-22 2022-11-08 北京拓普丰联信息科技股份有限公司 一种结构化数据的抽取方法及装置
CN115145928A (zh) * 2022-08-01 2022-10-04 支付宝(杭州)信息技术有限公司 模型训练方法及装置、结构化摘要获取方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727461A (zh) * 2008-10-13 2010-06-09 中国科学院计算技术研究所 一种网页的正文抽取方法
CN104182429A (zh) * 2013-05-28 2014-12-03 腾讯科技(深圳)有限公司 网页处理方法和终端
CN108733792A (zh) * 2018-05-14 2018-11-02 北京大学深圳研究生院 一种实体关系抽取方法
CN108829801A (zh) * 2018-06-06 2018-11-16 大连理工大学 一种基于文档级别注意力机制的事件触发词抽取方法
CN108846017A (zh) * 2018-05-07 2018-11-20 国家计算机网络与信息安全管理中心 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727461A (zh) * 2008-10-13 2010-06-09 中国科学院计算技术研究所 一种网页的正文抽取方法
CN104182429A (zh) * 2013-05-28 2014-12-03 腾讯科技(深圳)有限公司 网页处理方法和终端
CN108846017A (zh) * 2018-05-07 2018-11-20 国家计算机网络与信息安全管理中心 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法
CN108733792A (zh) * 2018-05-14 2018-11-02 北京大学深圳研究生院 一种实体关系抽取方法
CN108829801A (zh) * 2018-06-06 2018-11-16 大连理工大学 一种基于文档级别注意力机制的事件触发词抽取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于深度学习的Web信息抽取研究与实现;赵朗;《中国优秀硕士学位论文全文数据库》;20171215(第12期);第I140-16页 *
基于规则的海事自由文本信息抽取方法研究;余晨 等;《交通信息与安全》;20170428;第35卷(第2期);第40-47页 *
⼤规模⽹页信息抽取技术研究;刘利;《中国优秀硕士学位论文全文数据库》;20131215(第12期);第I138-290页 *

Also Published As

Publication number Publication date
CN109766524A (zh) 2019-05-17

Similar Documents

Publication Publication Date Title
CN109766524B (zh) 一种并购重组类公告信息抽取方法及系统
Swathi et al. An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
Fu et al. A product ranking method combining the features–opinion pairs mining and interval-valued Pythagorean fuzzy sets
Zhang et al. Aspect-based sentiment analysis for user reviews
CN112711953A (zh) 一种基于注意力机制和gcn的文本多标签分类方法和系统
CN113743097B (zh) 基于跨度共享和语法依存关系增强的情感三元组抽取方法
CN113255321A (zh) 基于文章实体词依赖关系的金融领域篇章级事件抽取方法
CN115759092A (zh) 一种基于albert的网络威胁情报命名实体识别方法
CN114637827A (zh) 一种基于图神经网络的碳交易文本事件抽取方法
Cao et al. Relmkg: reasoning with pre-trained language models and knowledge graphs for complex question answering
Shen et al. Clustering-driven deep adversarial hashing for scalable unsupervised cross-modal retrieval
Parsaeimehr et al. An enhanced deep neural network-based architecture for joint extraction of entity mentions and relations
Liu et al. Hierarchical graph convolutional networks for structured long document classification
Chang et al. Emotion-cause pair extraction based on machine reading comprehension model
Xiao et al. Cross-modal fine-grained alignment and fusion network for multimodal aspect-based sentiment analysis
Jin et al. WordTransABSA: Enhancing Aspect-based Sentiment Analysis with masked language modeling for affective token prediction
Zhang et al. Multitask learning for chinese named entity recognition
Liu et al. Combining vs. transferring knowledge: Investigating strategies for improving demographic inference in low resource settings
Wang et al. End-to-end relation extraction using graph convolutional network with a novel entity attention
Guo et al. DCMAI: A Dynamical Cross-Modal Alignment Interaction Framework for Document Key Information Extraction
Sayeed et al. BERT: A Review of Applications in Sentiment Analysis
Mai et al. Nested relation extraction via self-contrastive learning guided by structure and semantic similarity
Shi et al. Soft prompt guided joint learning for cross-domain sentiment analysis
Zhang et al. A unified information extraction system based on role recognition and combination

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant