CN115688776A - 面向中文金融文本的关系抽取方法 - Google Patents
面向中文金融文本的关系抽取方法 Download PDFInfo
- Publication number
- CN115688776A CN115688776A CN202211185619.5A CN202211185619A CN115688776A CN 115688776 A CN115688776 A CN 115688776A CN 202211185619 A CN202211185619 A CN 202211185619A CN 115688776 A CN115688776 A CN 115688776A
- Authority
- CN
- China
- Prior art keywords
- financial
- relation
- entity
- vector
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 123
- 239000011159 matrix material Substances 0.000 claims abstract description 47
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000013138 pruning Methods 0.000 claims abstract description 24
- 238000004458 analytical method Methods 0.000 claims abstract description 19
- 230000007246 mechanism Effects 0.000 claims abstract description 19
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 11
- 238000012216 screening Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 28
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 210000002569 neuron Anatomy 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 7
- 230000000694 effects Effects 0.000 description 14
- 239000010410 layer Substances 0.000 description 10
- 238000010276 construction Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 244000062793 Sorghum vulgare Species 0.000 description 3
- 238000002679 ablation Methods 0.000 description 3
- 150000001875 compounds Chemical class 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 235000019713 millet Nutrition 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241001347978 Major minor Species 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明是一种面向中文金融文本的关系抽取方法,用于中文金融文本处理。本发明方法包括:利用海量中文金融语料微调BERT结构训练金融文本编码器,对语句编码得到句向量;筛选金融关系数据集,对语句进行依存句法解析,基于硬剪枝策略输出邻接矩阵和句法类型矩阵;使用基于注意力机制的多层异构图卷积神经网络提取融合句法特征和实体类型特征的实体对;对金融关系触发词表中每类关系的触发词编码获得关系词向量,计算语句的相似度特征;将句向量、相似度特征和实体对拼接输入全连接分类器进行实体关系判断。本发明有效去除文本中冗余信息并保留关键信息,能从结构复杂和关系有重叠的金融长文本中有效抽取实体关系,比现有模型更具优越性。
Description
技术领域
本发明属于金融文本自然语言处理技术领域,具体涉及金融文本自然语言处理的关系抽取方法。
背景技术
知识图谱作为目前研究的热点方向,它可以高效的承载金融场景中的海量数据,并推动金融舆情分析、合规分析、智能风控、审核及监管等金融安全应用的发展,因此金融领域的知识图谱构建工作具有很高的应用价值。构建的金融知识图谱的体系结构如图1所示,主要包括数据处理、知识抽取、知识融合、知识推理几大部分。
金融领域的数据具有海量多源的特点,比如中国近4000家上市公司都要定期发布财务报告,并且财经新闻也会在每时每秒更新,如何充分利用这些海量多源金融非结构化文本来构建高质量的金融知识图谱成为了难点。关系抽取作为金融知识图谱构建过程中承接实体抽取后得到的节点,并获取节点的语义联系,初步实现搭建知识图谱基本组成(三元组)承上启下的关键一步,知识图谱构建的质量和效率受关系抽取工作的影响,因此,金融领域数据的关系抽取工作有一定的研究意义。中文的金融文本具有复合句较多、句子平均字符数较多的特点,这些嵌套或重叠的复杂逻辑关系以及冗余信息较多的问题使得关系抽取问题变得难以解决。
依存句法是将句子解析为依存句法树结构,描述出各个词语之间的依存关系,也即指出了词语之间在句法上的搭配关系,这种搭配关系是和语义相关联的,完善的依存关系定义如图2所示,比如,SBV代表主谓依存关系。在方法上,主要分为基于规则的依存分析、基于统计的依存分析与基于深度学习的依存分析三种。近年来,深度学习网络模型与依存句法结构结合逐渐成为研究热点,依存句法分析的主要研究工作集中在剪枝策略方面,基于依存句法结构建模方法主要聚焦于如何平衡冗余信息减少和关键信息丢失上。针对结构化文本主要采用人工制定规则的硬性剪枝策略,比如,最近公共祖先和最短依存路径等策略,针对包含非结构化复杂多样的金融文本,很难设计统一的规则进行精准剪枝,以保留关系语义特征突出的关键信息。
注意力机制最早是为了解决图像领域的相关问题而诞生的。后来,有学者将其应用于自然语言处理领域的相关任务中,提升了任务的解决效果。注意力机制可以自动为信息中不同的部分分配不同的权重,从而将注意力聚焦在发挥重要作用的部分,忽略对任务影响较小的信息。注意力机制的核心是不同部分的权重计算。某部分的权重越大,其携带的信息越重要;某部分的权重越小,其携带的信息越无用。通过注意力机制对输入信息进行权重分配,可以提升神经网络的工作效率与记忆能力。
图卷积神经网路是一种能对节点和边建立相关联系的拓扑图离散卷积的深度学习方法,充分融合符号表示和低维向量表示,并发挥两者的优势,本质上是一种加权求和,加权系数是卷积核的权重系数,传统的图卷积神经网络模型如图3所示,其中输入是一张图,经过层层卷积计算变换最后输出一张图。图卷积神经网络能够很好地编码图的结构信息,得到更优秀的节点表示,这些节点表示被输入到模型的下一个模块,应用于下游任务,如自然语言生成、关系抽取、智能问答等。其中,金融知识图谱支持金融智能问答的应用如图4所示。
发明内容
本发明针对中文金融文本的文本较长、结构复杂、实体间存在多触发词和冗余信息较多的文本特性,为解决金融文本关系抽取准召率不高的问题,提出了一种面向中文金融文本的关系抽取方法,基于依存句法解析的异构图卷积神经网络模型进行关系抽取,并在该模型上融入实体类型和语义相似性的特征,综合考虑了上下文信息、句法结构信息、标签语义信息、实体类型信息等多维信息,提升了金融长文本关系抽取的效果。
本发明提供的一种面向中文金融文本的关系抽取方法,采集中文金融文本数据并进行清洗和分词后,进行如下处理,包括:
步骤1,训练金融文本编码器用于对输入的金融中文字符编码;所述金融文本编码器获取方式是:采用BERT编码结构,构建语义匹配任务,利用海量中文金融语料微调通用领域预训练模型得到。
步骤2,根据预先定义的金融语料中的实体类型和实体关系类型,对金融语料进行数据筛选,对筛选出的语句打上实体类型和实体关系的标签,得到金融关系数据集,并对金融关系数据集清洗;然后,对金融关系数据集中语句进行依存句法解析,基于硬剪枝策略输出邻接矩阵和句法类型矩阵;邻接矩阵记载句子中的词之间是否存在依存关系,句法类型矩阵记载词之间的依存关系类别;
步骤3,建立金融关系触发词表,表中记录关系标签与对应的触发词;利用金融文本编码器对每类关系的触发词进行编码,输出关系词向量;对语句利用金融文本编码器获取句向量,计算句向量与每类关系词向量的余弦相似度,得到语句与金融关系触发词表的相似度特征向量;
步骤4,使用基于注意力机制的多层异构图卷积神经网络提取融合句法特征和实体类型特征的实体对向量;
所述的异质图卷积神经网络将实体语义向量作为节点,实体类型对作为有向边进行建模,网络的输入为实体语义向量、邻接矩阵和句法类型矩阵;其中,对语句利用金融文本编码器编码获得实体语义向量,由步骤2依存句法解析获得邻接矩阵和句法类型矩阵;所述网络基于注意力机制更新节点之间的连接权重,经过L层不断更新节点向量与边向量,最终输出实体对向量;其中L为正整数;
步骤5,对中文金融文本语句,由金融文本编码器获得句向量,由步骤3获得与金融关系触发词表的相似度特征向量,由步骤2和4获得实体对向量,将句向量、相似度特征向量和实体对向量进行拼接,输入全连接分类器进行实体关系类别判断。
相比现有技术,本发明的优点与积极效果在于:
(1)本发明方法在抽取实体关系时,针对金融文本采用硬软结合的剪枝策略,结合有效的先验知识硬剪枝策略和基于注意力机制的软剪枝策略,区分不同的句法与依存类别对关系抽取的影响,在去除冗余信息并保留关键信息上取得了不错的效果。
(2)本发明针对金融文本关系数据集中常包含关系触发词的特点,利用大规模金融语料,构建无监督对比学习的语义匹配任务,解决了领域预训练语言模型缺失的问题,提升了关系触发词与金融文本之间的语义匹配的效果,并将语义相似性特征融入关系抽取任务中。
(3)本发明创新性的提出了异构图卷积神经网络对依存句法结构建模的方法,并将两实体类别的有向信息融入异构图的边类别信息中,通过基于注意力机制的异构图卷积神经网络将依存关系与语义信息融合,经试验证明,本发明方法多维特征的有效的结合,可有效抽取中文金融文本中的实体关系,并且相对于现有模型在结构复杂和关系有重叠的金融长文本中展现出优越性,实体关系抽取效果更优。
附图说明
图1是构建的金融知识图谱体系结构示意图;
图2是依存句法关系定义示意图;
图3是传统图卷积神经网络示意图;
图4是金融智能问答应用示意图;
图5是本发明面向金融文本的关系抽取方法的流程图;
图6是本发明方法中金融文本编码器预训练方法示例图;
图7是本发明实施例中设置的金融关系触发词表示意图;
图8是本发明实施例中依存句法解析示例图。
具体实施方式
下面将结合附图和实施例对本发明作进一步的详细说明。
金融关系抽取是金融知识图谱构建过程中的关键一环,金融领域非结构化文本信息庞杂,在金融关系抽取过程中,复合句文本中由于复杂的逻辑关系存在大量的关系重叠的现象,即可能是一个实体同另一个实体之间存在着多个关系触发词,也可能是一个实体与其他不同实体之间存在着多种关系;同时,关系数据长文本中存在两实体间的相隔距离远,非关系表述的冗余信息多的现象。因此,目前仍存在中文金融复合长文本关系抽取难的问题。本发明提出基于依存句法解析的异构图卷积神经网络实现对中文金融文本的关系抽取。
金融市场的非结构化文本大量存在于公司公告、新闻、股评中等等,数据带有海量多源、复杂多样、质量参差不齐等特点。本发明实施例中所采集到的数据来源于同花顺网站的金融资讯,数据集实体包含公司、人名、领域、职称等多种实体,质押、持股、股份股权转让、任职等多种关系信息,较为多样、全面,本体的构建对迁移到其他金融数据集具有借鉴意义。
本发明在对数据进行关系抽取之前,为消除数据质量对本发明关系抽取方法有效性证明的影响,先对采集的数据进行清洗,去除网页标签、不规范符号、停用词等,利用融入金融实体词的专业分词工具进行数据的初步处理,然后再利用本发明方法进行实体关系提取。
本发明采用自上而下的知识图谱本体构建方法,以金融领域专家评定反馈的形式确定金融知识图谱构建任务中的关系类型,本发明实施例中,根据专家意见定义了11种实体关系类型,涵盖了“股份股权转让”、“债务”、“合作”等多种关系。金融文本数据切句处理后,筛选出包含两实体并且两实体之间存在以上定义的关系语义联系的句子,并依照统一的规则进行数据标注,最终构建了包含2万多条三元组的关系数据集。
本发明提供面向中文金融文本的基于触发词和依存句法的关系抽取方法,如图5所示,其主要包括的方法步骤有:金融文本语义编码、依存句法解析、关系标签语义相似度特征计算、基于注意力机制异构图卷积神经网络的搭建,以及多特征的融合与分类,下面对本发明方法的实现进行详细说明。
步骤1,采用BERT编码结构,构建语义匹配任务,利用海量中文金融语料微调通用领域预训练模型,得到金融文本编码器。
语义编码的目的是把中文字符转化成计算机可读取的、带语义表达的词句向量。本发明实施例的语义编码器使用BERT(Bidirectional Encoder Representations fromTransformers)网络结构,相较于早期的word2vec、glove、elmo等语义编码器,以多层多头注意力机制的Transformer结构组成的双向语义表示模型BERT的语义表示能力更强,它已经广泛的应用在自然语言处理的各种应用中,比如,信息抽取、阅读理解、对话生成等。
由于领域的专业性及人工标注数据规模的局限性,很多领域专有名词在通用的BERT预训练模型上的语义编码效果一般。为了使编码器充分学习金融领域语句的语义信息,本发明受对比学习的启发,通过构建语义匹配任务,以批次数据为单位,同一样本丢弃不同神经元,输出两个向量作为正样本对,不同样本间的输出向量作为负样本对。如图6,在样本“雷军任职小米董事长。”中,通过丢弃(Dropout)不同的神经元得到的两个句向量作为正样本对,该样本与这一批次中不同的样本作为负样本对,即两个不同的句子作为负样本对。
这种无监督的训练方法将样本向量之间的余弦相似度作为距离度量,通过构建的正负样本对微调预训练语言模型,来提升金融领域文本编码的语义表示能力。相较于重新训练金融文本预训练模型,本发明训练获得金融文本编码器的方法在保证领域文本编码效果的同时,既加快了收敛速度,又减少了运行的计算资源。
步骤2,对金融语料进行数据筛选,结合远程监督打标与人工标注的方法得到金融关系数据集,数据清洗后进行依存句法解析,基于硬剪枝策略输出邻接矩阵和句法类型矩阵。
本发明实施例根据专家意见定义了7种实体类型和11种实体关系类型,通过远程监督的方法对文本实例进行数据处理,筛选出包含两实体并且两实体之间存在专家预先定义的关系的语句,进一步人工校对与标注形成金融关系数据集。
在金融关系数据集标注中,发现“数据显示”、“据统计显示”、“在业内人士看来”等等不相关语句是关系描述语义获取的冗余信息,因此,本发明方法结合金融领域专家知识手工设计金融关系抽取规则模版,通过正则匹配的方法清洗数据,在一定程度上解决冗余信息的影响。
依存句法解析模块对剔除掉一定冗余信息的句子进行依存句法解析,只保留实体词的两阶内连接词和实体间的最短连接路径,基于该硬剪枝策略得到包含句子骨干信息邻接矩阵和句法类型矩阵。
步骤3,计算金融关系触发词表中关系标签对应的触发词与文本之间语义向量的余弦相似度,获取关系标签相似度特征。
金融关系触发词表作为远程监督打标和人工标注数据的依据,本发明实施例根据专家经验得到,表中所有的关系类别及其关系触发词如图7所示,如“隶属”关系包含“领域”、“行业”等关系触发词。关系标签常常是该类关系触发词的上位词,比如,“雷军持股小米集团。”中,“持股”作为标注依据的关系触发词,“持股”关系标签为“持有”关系触发词的上位词,“持有”、“持股“和“雷军持股小米集团”在语义上有一定的相似性。因此,为了提取这一相似性特征,本发明通过步骤1得到的金融文本编码器,对关系标签的触发词进行语义编码,获取11类关系标签及其对应的关系触发词的词向量,简称关系词向量;通过金融文本编码器对语句编码得到句向量,分别计算11类关系词向量与文本句向量的余弦相似性,得到语句的11维的相似性特征向量。该语义相似性特征的计算方式完全迎合了步骤1的文本匹配预训练任务,任务的一致性提升了语义相似性特征的效果。
步骤4,利用金融文本编码器对金融关系数据集中语句编码,将实体语义向量作为节点,将节点向量与邻接矩阵和句法类型矩阵一起输入到多层异构图卷积神经网络中,结合基于注意力机制的软剪枝策略,输出句法特征和实体类型特征的两个实体向量。
现有通用领域中基于依存句法结构进行关系抽取的方法大多是使用图卷积神经网络(GCN)建模,忽略了节点和边的类别信息;同时,在实体类别信息中蕴含了一定的先验知识,比如,在头尾实体的类型分别为“人名”和“职称”的特例中,其关系只能被限制为“任职”。因此,本发明创新性的提出在依存句法图结构的基础上融入实体类型信息,使模型可以自动学习实体类型与关系关联的先验知识。通过异构图卷积神经网络(HeterogenousGCN)将实体语义向量作为节点,两实体类型对作为有向边建模,比如,“人名-公司名”作为有向边的类型,实体节点与剪枝后的邻居信息进行交互,交互后的节点向量融合了句法树结构信息。节点更新后,使用基于注意力机制(Attention)的软剪枝策略进行修剪,软剪枝主要是来区分不同的句法类别对关系抽取的影响,加强谓语或属性等在句子中更能体现关系信息的句法成分,最后输出融合句法特征和实体类型特征的实体对向量。
步骤5,融合句子语义、关系标签相似度、句法与实体类型特征,将多维多特征向量映射到全连接分类器上,输出最终的关系类别。
将步骤3和步骤4分别输出的相似度特征向量与实体对特征向量,与金融文本编码器输出的句向量做向量拼接,通过全连接分类器映射到11维的关系类别中,输出打分最大的关系类别。本发明综合了句中的表层关系语义、与关系触发词相关的核心内容以及句法逻辑关系信息,丰富了句子中关系向量的表示,提升了金融关系分类的效果。
实施例:
输入远监督打标和人工标注的金融关系抽取数据集和大规模的无标注的金融财经新闻,采用本发明方法进行处理,具体如下。
首先,将BERT作为本发明方法的预训练模型,将大规模的无标注金融财经新闻数据清洗后分成多个批次,在一个批次训练样本经过BERT预训练模型时,对于其中一个样本,通过丢弃BERT不同神经元输出两个向量作为正样本对,其他样本作为该样本的负样本,将该样本向量与其他样本向量两两计算余弦相似度。损失函数为其中,N为当前批次中样本数量,sim(hi,hi+)表示第i个正样本对(hi,hi+)的余弦相似度,表示一个批次里N个样本与第i个样本的余弦相似度,然后根据损失函数反向传播微调BERT预训练模型,训练结束得到中文金融预训练模型(Bert-Financial-Chinese),即金融文本编码器,后面所使用的BERT均是指Bert-Financial-Chinese预训练模型。
其次,对数据清洗后的一段金融文本进行正则匹配去冗余信息,使用开源工具斯坦福句法解析器进行依存句法解析。如图8示例,图中依存关系类型英文简称的定义见图2。得到解析结果后进行硬性剪枝,保留与实体词连接在二阶以内的词和实体间的最短连接路径,比如图示例中,“第三大股东”与“北京浩泽嘉业投资有限公司”为一阶连接关系,句子中两实体最短依存路径为“北京浩泽嘉业投资有限公司质押给太平洋证券”。最后,依存句法解析模块输出剪枝后的长度为n的金融文本w={w1,w1…,wn}、句法类型矩阵D=di,j n×n,和依存连接矩阵A=ai,j n×n;ai,j表示句子中第i个词与第j个词之间是否存在依存关系,即A为邻接矩阵,di,j表示句子中第i个词与第j个词之间的依存关系类别的序号。
再次,进行关系触发词相关性计算,包含m个关系触发词的第e个关系标签Labele=[te1,te2,...,tem],将关系触发词全都经过BERT编码表示为Eli=[ei1,ei2,...,eim],取同类关系触发词向量(BERT中第一个位置的向量CLS)均值作为关系标签语义表示Eli=(ei1[0],ei2[0],...,eim[0])/m,对金融文本也用BERT进行编码得到句向量并同样取句中所有词的CLS均值作为句向量的语义表示Es,对所有的11类关系标签向量与金融文本句向量进行余弦相似度计算,得到Sim=[sim1,sim2,…,sim11],其中simi表示第i个关系标签与文本的相似度,本发明实施例中共11种关系。
然后,将金融文本w经过BERT编码得到的实体语义的节点向量V和依存句法解析的句法类型矩阵D和邻接矩阵A输入到异构图卷积神经网络(HGCN)中,将句法类型矩阵D中元素随机初始化映射成向量实体类型词的有向连接(如“人与公司”)随机初始化映射为向量最终第0层上第i节点和第j节点边的类型向量为如公式(1)所示,其中,随机初始化的维度和节点向量的维度一致。是随机初始化的第i节点和第j节点的有向连接向量。是根据矩阵D元素di,j映射得到的第i节点和第j节点间的关系类别向量。
把节点向量、边向量和邻接矩阵输入到异构图卷积神经网络中,并通过基于注意力机制的剪枝策略,更新节点之间的权重矩阵A,反复经过L层不断的更新节点向量与边的向量,最终输出实体节点的向量,如公式(2)-(4)所示。
其中,公式(2)表示节点向量的更新,表示第l层的第j个节点的向量,表示第l层的第i个节点和第j个节点之间边向量,Add表示加操作;Wl和bl表示可学习的参数矩阵;表示两个节点之间的连接权重;σ表示Relu激活函数。公式(3)表示边向量的更新,为第l层参数矩阵。公式(4)的Softmax表示注意力机制,其中Al表示第l层的邻接矩阵,DlT表示句法类型矩阵的转置矩阵,dn表示邻接矩阵的行数或列数,即句子中词个数的最大截断长度,WQ、WK、WV分别为注意力机制中的Query、Key和Value矩阵。
最后,由上一步中输出的节点向量获取实体向量对,与金融文本编码的句向量、相似度特征向量做拼接,输入到一个全连阶层,通过softmax激活函数输出得分最大的关系类别,如公式5。
本发明实施例还设计了多种方案与本发明方法进行实验对比,如下:
1)融合实体掩码、位置、实体类型、施动者受动者类型特征的通用关系抽取模型,即BERT+BiGRU+Attention文本语义框架。
2)采用基于依存句法驱动的图卷积神经网络模型,即AGCN。
3)本发明提出的融合多维特征的金融关系抽取方法,即HGCN。
通过如下表1~表3,对比编码器效果、各类模型的对比实验和本发明模型的消融实验,验证了本发明在金融关系抽取数据集上的有效性。
表1对比编码器效果
不同的预训练模型 | F1值 |
BERT+BiGRU+Attention(Bert-chinese-base) | 93.11% |
BERT+BiGRU+Attention(本发明Bert-Financial-Chinese) | 93.76% |
如表1所示,以通用的关系抽取模型BERT+BiGRU+Attention为例,本发明的金融文本编码器与BERT通用预训练编码器进行对比,把综合准确率、召回率的调和平均值—F1值作为评价指标,评估金融关系抽取数据集上关系多分类的效果,金融文本编码器相较于通用编码器提升了0.65左右的百分点,验证了金融文本编码器在金融领域文本的语义编码效果。除此之外,金融文本编码器表现出更快的收敛速度。
表2金融关系抽取对比实验结果
关系抽取模型 | F1值 | F1值(样本长度大于128) |
BERT+BiGRU+Attention | 93.76% | 93.07% |
AGCN | 94.14% | 94.18% |
本发明方法的HGCN | 95.22% | 94.91% |
如表2所示,在保证金融文本编码器和金融数据集不变的情况下进行试验,对比效果较好的两个通用关系抽取模型与本发明的模型,本发明的模型在F1值上的总体表现相较与其他两个模型更好,尤其是在筛选了字符个数大于128的文本数据上的表现,验证了融合句子语义、关系标签相似度、句法与实体类型特征多维特征的HGCN模型有效性,说明本发明方法实现的实体关系抽取模型在结构复杂和关系有重叠的金融长文本中展现出优越性。
表3消融实验结果
如表3所示,通过消融实验测试了HGCN模型在单独去除硬剪枝策略、软剪枝策略和相似度特征时的效果,分别验证了三个模块的独立有效性,在去除语义相似性特征时模型F1值下降最明显,说明了关系触发词与关系文本语义相似性特征为本发明的关系抽取模型带来了较高的收益。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。本发明省略了对公知组件和公知技术的描述,以避免赘述和不必要地限制本发明。上述实施例中所描述的实施方式也并不代表与本申请相一致的所有实施方式,在本发明技术方案的基础上,本领域技术人员不需要付出创造性的劳动即可做出的各种修改或变形仍在本发明的保护范围内。
Claims (6)
1.一种面向中文金融文本的关系抽取方法,将采集的中文金融文本数据清洗和分词后,进行如下处理,包括:
步骤1,训练金融文本编码器用于对输入的金融中文字符编码;所述金融文本编码器采用BERT编码结构利用金融语料训练得到;
步骤2,根据预先定义的金融语料中的实体类型和实体关系类型,对金融语料进行数据筛选,对筛选出的语句打上实体类型和实体关系的标签,得到金融关系数据集,并对金融关系数据集清洗;然后,对金融关系数据集中语句进行依存句法解析,基于硬剪枝策略输出邻接矩阵和句法类型矩阵;邻接矩阵记载句子中的词之间是否存在依存关系,句法类型矩阵记载词之间的依存关系类别;
步骤3,建立金融关系触发词表,表中记录关系标签与对应的触发词;利用金融文本编码器对每类关系标签与对应的触发词进行编码,输出关系词向量;
对语句利用金融文本编码器获取句向量,计算句向量与每类关系词向量的余弦相似度,得到语句与金融关系触发词表的相似度特征向量;
步骤4,使用基于注意力机制的多层异构图卷积神经网络提取融合句法特征和实体类型特征的实体对向量;
所述的异质图卷积神经网络将实体语义向量作为节点,实体类型对作为有向边进行建模,网络的输入为实体语义向量、邻接矩阵和句法类型矩阵;其中,对语句利用金融文本编码器编码获得实体语义向量,由步骤2依存句法解析获得邻接矩阵和句法类型矩阵;所述网络基于注意力机制更新节点之间的连接权重,经过L层不断更新节点向量与边向量,最终输出实体对向量;其中L为正整数;
步骤5,对中文金融文本语句,由金融文本编码器获得句向量,由步骤3获得与金融关系触发词表的相似度特征向量,由步骤2和4获得实体对向量,将句向量、相似度特征向量和实体对向量进行拼接,输入全连接分类器进行实体关系类别判断。
2.根据权利要求1所述的方法,其特征在于,所述的步骤1中,金融文本编码器获取方式是:构建语义匹配任务,利用中文金融文本获取的正负样本对BERT预训练模型进行训练,调整BERT预训练模型;其中,以批次金融文本数据为单位,同一批次中,对同一句子样本,通过丢弃不同的神经元得到的两个句向量作为正样本对,对不同句子样本,通过丢弃不同的神经元得到的两个句向量作为负样本对;在训练时采用无监督的训练方式,将样本向量之间的余弦相似度作为距离度量,训练BERT预训练模型,获得金融文本编码器。
3.根据权利要求1所述的方法,其特征在于,所述的步骤2,从金融语料中筛选出包含两实体并且两实体之间存在预先定义的实体关系的语句,存入金融关系数据集;并预先设计金融关系抽取规则模版,模板中记录冗余语句的匹配规则,通过正则匹配方式对金融关系数据集进行数据清洗,删除冗余语句。
4.根据权利要求1或3所述的方法,其特征在于,所述的步骤2中,依存句法解析时,采用的硬剪枝策略为:对句子只保留实体词的两阶内连接词和实体间的最短连接路径。
5.根据权利要求1所述的方法,其特征在于,所述的步骤3中,设第e个关系标签包含m个触发词,经金融文本编码器对触发词编码,得到该关系标签的词向量Eli=[ei1,ei2,...,eim],然后取m个触发词向量均值作为该关系标签的语义表示;金融文本语句经金融文本编码器后得到的句向量,取句中所有词向量均值作为该语句的语义表示Es;计算Es与所有类别关系标签的语义表示的余弦相似度,得到该语句与金融关系触发词表的相似度特征向量。
6.根据权利要求1所述的方法,其特征在于,所述的步骤4,包括:
设对语句进行依存句法解析后,输出经硬剪枝后长度为n的金融文本w、邻接矩阵A和句法类型矩阵D;使用金融文本编码器对金融文本w编码,得到实体语义向量节点V;将V、D和A输入到异构图卷积神经网络中;
更新第l+1层网络的节点向量和边向量,如下:
其中,为第l+1层网络的第i个节点向量,为第l层网络的第j个节点向量;σ表示Relu激活函数;n表示节点数量;分别表示第l+1层、第l层网络的第i个节点和第j个节点间的边向量;Add表示加操作;Wl、bl和均为第l层网络的参数矩阵;为第l层网络的第i个节点和第j个节点间的连接权重,从第l层网络的邻接矩阵Al中获得;
通过基于注意力机制Softmax的剪枝策略更新邻接矩阵,表示如下:
其中,Al+1表示第l+1层网络的邻接矩阵,DlT表示句法类型矩阵的转秩矩阵,dn为邻接矩阵的行数,WQ、WK、WV分别为注意力机制中的Query、Key和Value矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211185619.5A CN115688776B (zh) | 2022-09-27 | 2022-09-27 | 面向中文金融文本的关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211185619.5A CN115688776B (zh) | 2022-09-27 | 2022-09-27 | 面向中文金融文本的关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115688776A true CN115688776A (zh) | 2023-02-03 |
CN115688776B CN115688776B (zh) | 2023-05-05 |
Family
ID=85065238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211185619.5A Active CN115688776B (zh) | 2022-09-27 | 2022-09-27 | 面向中文金融文本的关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115688776B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304748A (zh) * | 2023-05-17 | 2023-06-23 | 成都工业学院 | 一种文本相似度计算方法、系统、设备及介质 |
CN116402019A (zh) * | 2023-04-21 | 2023-07-07 | 华中农业大学 | 一种基于多特征融合的实体关系联合抽取方法及装置 |
CN116665228A (zh) * | 2023-07-31 | 2023-08-29 | 恒生电子股份有限公司 | 图像处理方法及装置 |
CN116975299A (zh) * | 2023-09-22 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 文本数据的判别方法、装置、设备及介质 |
CN117609519A (zh) * | 2024-01-22 | 2024-02-27 | 云南大学 | 一种电力碳排放计算公式中的实体关系抽取方法 |
CN118070812A (zh) * | 2024-04-19 | 2024-05-24 | 深圳市中壬银兴信息技术有限公司 | 一种基于nlp的行业数据分析方法及系统 |
CN118093787A (zh) * | 2024-04-19 | 2024-05-28 | 中汽信息科技(天津)有限公司 | 一种汽车领域文本关键词的提取方法、设备和存储介质 |
CN118211131A (zh) * | 2024-05-21 | 2024-06-18 | 之江实验室 | 一种适用于金融大模型的文本数据预处理方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241295A (zh) * | 2020-01-03 | 2020-06-05 | 浙江大学 | 基于语义句法交互网络的知识图谱关系数据抽取方法 |
CN111897908A (zh) * | 2020-05-12 | 2020-11-06 | 中国科学院计算技术研究所 | 融合依存信息和预训练语言模型的事件抽取方法及系统 |
CN113239186A (zh) * | 2021-02-26 | 2021-08-10 | 中国科学院电子学研究所苏州研究院 | 一种基于多依存关系表示机制的图卷积网络关系抽取方法 |
CN113449084A (zh) * | 2021-09-01 | 2021-09-28 | 中国科学院自动化研究所 | 基于图卷积的关系抽取方法 |
US20220083919A1 (en) * | 2020-09-16 | 2022-03-17 | Sap Se | Entity Extraction and Relationship Definition Using Machine Learning |
CN114519932A (zh) * | 2022-01-10 | 2022-05-20 | 中国科学院深圳先进技术研究院 | 一种基于时空关系抽取的区域交通状况集成预测方法 |
-
2022
- 2022-09-27 CN CN202211185619.5A patent/CN115688776B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241295A (zh) * | 2020-01-03 | 2020-06-05 | 浙江大学 | 基于语义句法交互网络的知识图谱关系数据抽取方法 |
CN111897908A (zh) * | 2020-05-12 | 2020-11-06 | 中国科学院计算技术研究所 | 融合依存信息和预训练语言模型的事件抽取方法及系统 |
US20220083919A1 (en) * | 2020-09-16 | 2022-03-17 | Sap Se | Entity Extraction and Relationship Definition Using Machine Learning |
CN113239186A (zh) * | 2021-02-26 | 2021-08-10 | 中国科学院电子学研究所苏州研究院 | 一种基于多依存关系表示机制的图卷积网络关系抽取方法 |
CN113449084A (zh) * | 2021-09-01 | 2021-09-28 | 中国科学院自动化研究所 | 基于图卷积的关系抽取方法 |
CN114519932A (zh) * | 2022-01-10 | 2022-05-20 | 中国科学院深圳先进技术研究院 | 一种基于时空关系抽取的区域交通状况集成预测方法 |
Non-Patent Citations (1)
Title |
---|
YANFENG HU 等: "A Graph Convolutional Network With Multiple Dependency Representations for Relation Extraction" * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116402019B (zh) * | 2023-04-21 | 2024-02-02 | 华中农业大学 | 一种基于多特征融合的实体关系联合抽取方法及装置 |
CN116402019A (zh) * | 2023-04-21 | 2023-07-07 | 华中农业大学 | 一种基于多特征融合的实体关系联合抽取方法及装置 |
CN116304748B (zh) * | 2023-05-17 | 2023-07-28 | 成都工业学院 | 一种文本相似度计算方法、系统、设备及介质 |
CN116304748A (zh) * | 2023-05-17 | 2023-06-23 | 成都工业学院 | 一种文本相似度计算方法、系统、设备及介质 |
CN116665228A (zh) * | 2023-07-31 | 2023-08-29 | 恒生电子股份有限公司 | 图像处理方法及装置 |
CN116665228B (zh) * | 2023-07-31 | 2023-10-13 | 恒生电子股份有限公司 | 图像处理方法及装置 |
CN116975299A (zh) * | 2023-09-22 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 文本数据的判别方法、装置、设备及介质 |
CN116975299B (zh) * | 2023-09-22 | 2024-05-28 | 腾讯科技(深圳)有限公司 | 文本数据的判别方法、装置、设备及介质 |
CN117609519A (zh) * | 2024-01-22 | 2024-02-27 | 云南大学 | 一种电力碳排放计算公式中的实体关系抽取方法 |
CN117609519B (zh) * | 2024-01-22 | 2024-04-19 | 云南大学 | 一种电力碳排放计算公式中的实体关系抽取方法 |
CN118070812A (zh) * | 2024-04-19 | 2024-05-24 | 深圳市中壬银兴信息技术有限公司 | 一种基于nlp的行业数据分析方法及系统 |
CN118093787A (zh) * | 2024-04-19 | 2024-05-28 | 中汽信息科技(天津)有限公司 | 一种汽车领域文本关键词的提取方法、设备和存储介质 |
CN118211131A (zh) * | 2024-05-21 | 2024-06-18 | 之江实验室 | 一种适用于金融大模型的文本数据预处理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115688776B (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115688776B (zh) | 面向中文金融文本的关系抽取方法 | |
CN110837556A (zh) | 摘要生成方法、装置、终端设备及存储介质 | |
CN102123172B (zh) | 一种基于神经网络聚类优化的Web服务发现的实现方法 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN110765277B (zh) | 一种基于知识图谱的移动端的在线设备故障诊断方法 | |
WO2024036840A1 (zh) | 基于主题增强的开放域对话回复方法及系统 | |
Hu et al. | Considering optimization of English grammar error correction based on neural network | |
CN111680488A (zh) | 基于知识图谱多视角信息的跨语言实体对齐方法 | |
CN113806547B (zh) | 一种基于图模型的深度学习多标签文本分类方法 | |
CN114896388A (zh) | 一种基于混合注意力的层级多标签文本分类方法 | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及系统 | |
CN115017299A (zh) | 一种基于去噪图自编码器的无监督社交媒体摘要方法 | |
CN113378573A (zh) | 面向内容大数据的小样本关系抽取方法和装置 | |
CN111611393A (zh) | 一种文本分类方法、装置及设备 | |
CN115952794A (zh) | 融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法 | |
CN116383399A (zh) | 一种事件舆情风险预测方法及系统 | |
CN111967267A (zh) | 一种基于XLNet的新闻文本地域提取的方法及系统 | |
CN115496072A (zh) | 一种基于对比学习的关系抽取方法 | |
CN114265936A (zh) | 一种科技项目文本挖掘的实现方法 | |
CN115048511A (zh) | 一种基于Bert的护照版面分析方法 | |
CN115600605A (zh) | 一种中文实体关系联合抽取方法、系统、设备及存储介质 | |
CN113158659B (zh) | 一种基于司法文本的涉案财物计算方法 | |
CN114490954A (zh) | 一种基于任务调节的文档级生成式事件抽取方法 | |
CN113051886B (zh) | 一种试题查重方法、装置、存储介质及设备 | |
CN117573869A (zh) | 一种网络引接资源关键要素提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |