CN117725928B

CN117725928B - 基于关键词异构图和语义匹配的金融文本摘要方法

Info

Publication number: CN117725928B
Application number: CN202410180271.3A
Authority: CN
Inventors: 杨先凤; 杨薇
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2024-02-18
Filing date: 2024-02-18
Publication date: 2024-04-30
Anticipated expiration: 2044-02-18
Also published as: CN117725928A

Abstract

本发明涉及基于关键词异构图和语义匹配的金融文本摘要方法，属于自然语言处理领域；它解决了现有抽取式单文档摘要模型忽略关键词与文档之间的依赖关系和摘要与文档原文之间的语义匹配度的问题。其技术方案是：提取文档中的多级关键词，构建包含多粒度节点和多级关键词的关键词异构图，采用图注意力机制更新节点特征向量，通过组合损失函数进行模型优化。本发明具有以下有益效果：关键词异构图学习文档的局部和全局语义信息，提高了关键词异构图捕捉重要句子的准确率；采用图注意力机制更新节点特征向量，有助于学习句子之间的语义关系；组合损失函数使得模型更加关注摘要与文档原文的语义相似度，提高生成的摘要与文档原文的语义一致性。

Description

基于关键词异构图和语义匹配的金融文本摘要方法

技术领域

本发明涉及一种基于关键词异构图和语义匹配的金融文本摘要方法，属于自然语言处理领域。

背景技术

近年来，计算机根据给定的文章生成摘要已成为人工智能领域中一项重要任务。文本摘要是指通过分析文档内容，从中提取关键信息，并以简明扼要的方式呈现给用户。文本摘要作为信息检索和文本挖掘领域中的核心问题之一，已经被广泛地应用于各个领域，包括新闻摘要、文献综述、商业报告等。文本摘要分为抽取式和生成式两种方法，抽取式方法因其直接从原文中提取重要句子、重要词语构成摘要，保留了原文中的准确术语，于是具有较高的准确性。抽取式摘要方法主要分为：基于统计的方法，如词频-逆文档频率（TF-IDF）；基于图结构的方法，如TextRank算法和LexRank算法；基于统计机器学习的方法，如支持向量机（SVM）、隐马尔可夫模型（HMM）、条件随机场（CRF）等。目前，神经网络因其具有处理长文本和复杂语义关系的特点，被大量地应用在抽取式摘要任务中。

基于统计的抽取式摘要方法对文本中句子的统计特征进行分析和计算，通过提取最重要的句子来构成摘要。基于图结构的抽取式摘要方法主要依靠词语之间的共现关系来计算权重和构建图结构。这类方法主要依赖于对句子特征和权重的计算，对于句子之间的语义关联理解较为薄弱，因此无法准确把握文本的上下文信息，导致构成的摘要不够连贯和完整。基于机器学习的抽取式摘要方法通过对示例输入及其预期输出进行训练而不是人工创建的规则来学习和预测，其能够理解语义信息和文本的上下文关系。基于深度学习的抽取式摘要方法通过神经网络从数据中学习复杂的语义特征，建模文档中的依赖关系。然而，这些方法大多采用文本序列整合方式，在长文本情况下，很难捕获句子级的长距离依赖关系。同时，这些方法在很大程度上忽略了关键词与文档之间的依赖关系和摘要与文档原文之间的语义匹配度，导致构成的摘要存在重要信息丢失和信息冗余的问题。

发明内容

本发明目的是：为了解决现有的金融文本摘要模型忽略关键词与文档之间的依赖关系和摘要与文档原文之间的语义匹配度的问题，同时使得整个模型能够更好地捕获句子级的长距离依赖关系。

为实现上述目的，本发明设计出一种基于关键词异构图和语义匹配的金融文本摘要方法。该方法包括以下步骤：

S100、使用爬虫技术获取金融文本数据，构建用于训练抽取式单文档摘要模型的数据集；对用于训练抽取式单文档摘要模型的数据集进行预处理和标注；

S101、对数据集进行清洗和去停用词处理，并按照8:1:1的比例随机划分为训练集、测试集和验证集；

S102、对数据进行标注，每个数据样本包含一篇文档、一段参考摘要和句子级标签；为构建用于训练抽取式单文档摘要模型的数据集，采用基于ROUGE评分的束搜索规则对数据进行标注，获得句子级标签label；label表示为一个包含n个句子的序列{, />,..., />}，其中/>表示第i个句子，/>=1表示第i个句子属于摘要，/>=0表示第i个句子不属于摘要；

S200、为充分关注关键词与文档之间的依赖关系，提取文档中的多级关键词，包含句子级关键词和文档级关键词；采用TF-IDF方法提取句子级关键词，采用基于BERT的序列标注器提取文档级关键词；

S201、在每篇文档中，利用TF-IDF方法计算句子中词语的TF-IDF值，获得句子级关键词；

S202、为提取文档级关键词，构建基于BERT的序列标注器；为保留文档中的篇章结构并解决BERT模型输入长度限制问题，对文档进行段落切分，并将其以打包的方式输入到BERT模型；

S203、提取文档级关键词；根据句子级标签从训练数据集中选取出重要句子，识别重要句子和参考摘要中的相同词语，删除其中重复的词语和停用词获得文档级关键词；将文档级关键词提取任务视作序列标注任务，利用文档级关键词在文档中的位置信息和文档原文，训练基于BERT的序列标注器；在测试阶段，将文档原文输入到训练好的序列标注器，得到所有词语是否是文档级关键词的预测概率分布，提取测试数据集和验证数据集中的文档级关键词，文档级关键词数量设置为10；

S204、为保证关键词异构图的可靠性和稳定性，利用交叉验证法训练基于BERT的序列标注器，提取训练数据集中的文档级关键词；

S300、构建关键词异构图；给定一个异构图G={V,E}，V代表节点集，包含三种粒度语义节点，分别是词语节点、句子节点和文档节点；E代表节点之间的边集，包含词语与句子之间的边和词语与文档之间的边；初始化关键词异构图，需要初始化节点特征向量和明确节点之间的关系重要性；

S301、给定一个异构图G={V,E}，其中V代表节点集，E代表节点之间的边集；V=∪∪/>，其中/>表示文档中不重复的词语节点，/>表示文档中的句子节点，/>表示文档中唯一的文档节点，∪表示并集操作；E=/>∪/>，其中/>表示词语与句子之间的边，/>表示词语与文档之间的边；

S302、初始化关键词异构图，需要初始化节点特征向量和明确节点之间的关系重要性；采用词嵌入方式获得词语节点特征向量；分别利用卷积神经网络CNN和双向长短期记忆网络BiLSTM获得句子的局部n-gram特征/>和上下文特征/>，串联/>和/>作为句子节点特征向量/>；利用BERT模型获得文档节点特征向量/>；为明确词语与句子之间关系的重要性，在词语与句子之间的边权重注入句子级关键词的TF-IDF值；为明确词语与文档之间关系的重要性，在词语与文档之间的边权重注入文档级关键词的预测概率值；为便于计算，将关键词异构图中所有的边权重规约到0至10的范围内；

S400、为实现局部信息聚合和全局信息传递，更新关键词异构图中的节点特征向量；对于一个给定的节点特征向量，图注意力机制计算/>与邻居节点特征向量/>之间的注意力权重/>；多头注意力机制利用/>和/>生成聚合的节点特征向量/>；为了让模型能够学习到更丰富的特征表示，将/>依次送入残差连接层和位置前馈层获得新的节点特征向量/>；通过上述的节点特征向量更新过程获得关键词异构图中词语、句子和文档节点的最终特征向量/>、/>和/>；

S500、为提高生成的摘要与文档原文之间的语义一致性，对句子二分类交叉熵损失函数Loss_BCE和语义相似度损失函数Loss_CS进行求和，生成组合损失函数Loss；模型通过降低组合损失函数来不断优化，生成摘要；

S501、利用句子分类器构造句子二分类交叉熵损失函数；句子分类器将句子节点的最终特征向量送入全连接层进行归一化，在句子是否属于摘要的决策空间上产生概率分布；利用真实标签和决策空间上的概率分布组成句子二分类交叉熵损失函数；

S502、利用语义匹配器构造语义相似度损失函数；根据S501生成的概率分布，选取概率大于概率阈值Th的句子，Th设置为0.5；将句子进行组合构成预测摘要，并将其送入BERT模型得到预测摘要的特征向量；将参考摘要送入BERT模型得到参考摘要的特征向量；语义匹配器计算预测摘要的特征向量和文档节点的最终特征向量之间的余弦相似度，并结合参考摘要的特征向量构造语义相似度损失函数。

本发明的有益效果为：

1、本发明设计的方法通过采用文档段落打包的方式得到基于BERT的序列标注器的输入，解决了BERT模型输入长度限制问题并保留了文本中的篇章结构，有效提高了文档级关键词提取的准确率；

2、在关键词异构图中引入多粒度语义节点和多级关键词，有助于关键词异构图深入地学习文档的局部和全局语义信息，提高关键词异构图捕捉重要句子的准确率；

3、通过图注意力机制对节点特征向量进行更新，指导不同节点之间注意力权重的学习，进而帮助关键词异构图融合多粒度语义信息，有助于学习句子之间的语义关系；

4、采用组合损失函数，模型更加关注摘要与文档原文之间的语义相似度，提高生成的摘要与文档原文的语义一致性。

附图说明

图1是本发明的技术流程图。

图2是本发明的总体模型图（S100-S502所提模块的组合）。

图3是关键词异构图模块图。

具体实施方式

为使本发明的目的、技术方案和优势更加清楚明白，下面结合实施方式和附图，对本发明进一步详细说明。在此，本发明的示意性实施方式以及其说明用于解释本发明，但并不作为本发明的限定。

如图1和图2所示，基于关键词异构图和语义匹配的金融文本摘要方法的技术流程图和总体模型图，该方法包括以下步骤：

S102、对数据进行标注，每个数据样本包含一篇文档、一段参考摘要和句子级标签；为构建用于训练抽取式单文档摘要模型的数据集，采用基于ROUGE评分的束搜索规则对数据进行标注；将文档中的原文拆分成句子集合，计算每个句子与参考摘要的ROUGE评分，并按照ROUGE评分进行降序排序；设置束大小b为4，定义空的候选摘要序列；从句子集合中选取ROUGE评分最高的b个句子，对于选取的每个句子，分别加入b个候选摘要序列进行扩展，计算扩展后的候选摘要序列与参考摘要的ROUGE评分；重复此过程，直到候选摘要序列与参考摘要的ROUGE评分不再增加或者句子集合为空；对所有的候选摘要序列按照ROUGE评分进行排序，保留ROUGE评分最高的候选摘要序列；属于候选摘要序列的句子标记为1，其余句子为0从而获得句子级标签label。label表示为一个包含n个句子的序列{, /> ,...,}，其中/>表示第i个句子，/>=1表示第i个句子属于摘要，/>=0表示第i个句子不属于摘要；

S202、为提取文档级关键词，构建基于BERT的序列标注器；为保留文档中的篇章结构并解决BERT模型输入长度限制问题，采用文档段落打包的方式将文档输入到基于BERT的序列标注器中；具体地，对每个文档进行段落划分，并将其打包成一个批量，送入BERT模型进行嵌入；

S203、提取文档级关键词；根据句子级标签从训练数据中抽取出重要句子，实现将文档级关键词限制在这些句子中；将重要句子和参考摘要进行分词处理，识别两者中相同的词语，删除其中重复的词语和常见的停用词，剩余的词语即为文档级关键词；在文档中，将文档级关键词所在位置赋值为1，其余词语位置赋值为0得到文档级关键词在文档原文中的位置信息；在训练阶段，利用文档级关键词的位置信息和文档原文，训练基于BERT的序列标注器；在测试阶段，将测试数据集和验证数据集中的文档原文输入到训练好的序列标注器，得到原文中所有词语是否是文档级关键词的预测概率并按照预测概率进行降序排序；文档级关键词数量设置为10，从中选择预测概率值最高的词语作为文档级关键词；

S204、为保证关键词异构图的可靠性和稳定性，采用交叉验证的方法获得训练数据集中的文档级关键词；将训练数据分成t份，利用t-1份训练数据训练基于BERT的序列标注器，并用训练好的序列标注器预测剩下的1份训练数据的文档级关键词；如此重复t遍，得到全部训练数据的文档级关键词，t设置为10；

S302、初始化关键词异构图，需要初始化节点特征向量和明确节点之间的关系重要性；采用词嵌入方式获得词语节点特征向量；为获得文档中的局部特征，句子嵌入方式是分别利用卷积神经网络CNN和双向长短期记忆网络BiLSTM生成句子的局部n-gram特征和上下文特征/>，并串联/>和/>作为句子节点特征向量/>，/>表示为：

=[/>;/>]

为获得文档的全局特征，文档嵌入方式是利用BERT模型获得文档节点特征向量；为明确词语与句子之间关系的重要性，在词语与句子之间的边权重注入句子级关键词的TF-IDF值；为明确词语与文档之间关系的重要性，在词语与文档之间的边权重注入文档级关键词的预测概率值；为便于计算，将关键词异构图中所有的边权重规约到0至10的范围内；

S400、为实现局部信息聚合和全局信息传递，更新关键词异构图中的节点特征向量，关键词异构图模块如图3所示；具体地，对于一个给定的节点i，其特征向量为；节点i的每一个邻居节点j，其特征向量为/>；图注意力机制计算/>与/>之间的注意力分数/>，/>表示为：

=LeakyReLU(/>)

其中LeakyReLU表示激活函数，，/>，/>表示可训练权重，/>表示/>与/>之间的边权重；为使得节点的注意力分数具有可比性，将/>进行归一化处理得到注意力权重/>；为包含节点特征向量与邻居节点特征向量之间的重要特征，多头注意力机制使用/>对/>进行加权求和，得到每个头的注意力输出，将所有头的注意力输出进行拼接，生成聚合的节点特征向量/>；为了让模型能够学习到更丰富的特征表示，将/>依次送入残差连接层和位置前馈层FFN获得新的节点特征向量/>，/>表示为：

=FFN(/>+/>)

通过上述的节点特征向量更新过程获得关键词异构图中词语、句子和文档节点的最终特征向量、/>和/>；

S500、为提高生成的摘要与文档原文之间的语义一致性，对句子二分类交叉熵损失函数Loss_BCE和语义相似度损失函数Loss_CS进行求和，生成组合损失函数Loss；模型通过降低组合损失函数来不断优化，Loss表示为：

Loss=Loss_BCE+Loss_CS

S501、利用句子分类器构造句子二分类交叉熵损失函数；句子分类器将句子节点的最终特征向量送入全连接层进行归一化运算，在句子是否属于摘要的决策空间上产生概率分布P，P表示为：

P=softmax(+/>)

其中，Softmax表示归一化运算，表示可学习的权重参数，/>表示偏置项；利用真实标签和决策空间上的概率分布组成句子二分类交叉熵损失函数：

Loss_BCE=)+(1-y)log(1-/>)

其中，D表示数据集的集合，y表示数据集中的样本所属类别，表示样本的预测概率值，log表示对数函数；

S502、利用语义匹配器构造语义相似度损失函数；根据S501生成的概率分布，抽取大于概率阈值Th的句子，Th设置为0.5，将句子进行组合构成预测摘要并送入BERT模型得到预测摘要的特征向量；将参考摘要送入BERT模型得到参考摘要的特征向量；语义匹配器计算预测摘要的特征向量和文档节点的最终特征向量之间的余弦相似度，并结合参考摘要的特征向量构造语义相似度损失函数Loss_CS，Loss_CS表示为：

Loss_CS = max(0, cosine()-cosine(/>))

其中，表示预测摘要的特征向量，/>表示文档节点的最终特征向量；/>表示参考摘要的特征向量；cosine表示计算两个向量之间余弦相似度得分的函数，max表示返回一组参数中最大值的函数。

最后所应说明的是：以上具体实施方式仅用以详细说明，但并不限制本发明的技术方案，所应理解的是：凡在本发明的精神和原则之内，所做的任何修改或局部替换，均应包含在本发明的权利要求范围当中。

Claims

1.基于关键词异构图和语义匹配的金融文本摘要方法，其特征在于：所述方法包括以下步骤：

S100、使用爬虫技术获取金融文本数据，对数据集进行清洗和去停用词处理，并按照8:1:1的比例随机划分为训练集、测试集和验证集，其中每个数据样本包含一篇文档、一段参考摘要；构建用于训练抽取式单文档摘要模型的数据集时，为获得全局最优的句子级标签，采用基于ROUGE评分的束搜索规则对数据进行标注；将文档中的原文拆分成句子集合，计算每个句子与参考摘要的ROUGE评分，并按照ROUGE评分进行降序排序；设置束大小n为4，定义空的候选摘要序列，设置终止条件为候选摘要序列与参考摘要的ROUGE评分不再增加或句子集合为空；从句子集合中选取ROUGE评分最高的n个句子，对于选取的每个句子，分别加入n个候选摘要序列进行扩展，计算扩展后的候选摘要序列与参考摘要的ROUGE评分；重复此过程，直到满足终止条件；对所有的候选摘要序列按照ROUGE评分进行排序，保留ROUGE评分最高的候选摘要序列；属于候选摘要序列的句子标记为1，其余句子为0从而获得句子级标签label；

S200、为充分发挥关键词中语义信息和位置信息在抽取式单文档摘要模型中的作用，提取文档中的多级关键词，多级关键词包含句子级关键词和文档级关键词；为提取出拥有重要语义信息的关键词，采用TF-IDF方法提取句子级关键词；为提取出拥有重要句子位置信息的关键词，采用基于BERT的序列标注器提取文档级关键词；根据句子级标签从训练数据中抽取出重要句子，将文档级关键词限制在这些句子中；识别重要句子和参考摘要中相同的词语，删除其中重复的词语和常见的停用词，剩余的词语即为文档级关键词；在训练阶段，利用文档级关键词在原文中的位置信息和文档原文，训练基于BERT的序列标注器；在测试阶段，将测试数据集和验证数据集中的文档原文输入到训练好的序列标注器，得到原文中所有词语是否是文档级关键词的预测概率并按照预测概率进行降序排序；文档级关键词数量设置为10，从中选择预测概率值最高的词语作为文档级关键词；

S300、构建关键词异构图；给定一个异构图G={V,E}，V代表节点集，E代表节点之间的边集；为实现从文档全局和局部两方面去构建单文档抽取式摘要模型，节点集包含词语节点、句子节点和文档节点三种粒度语义节点；为充分利用关键词中语义信息和位置信息，边集包含词语与句子之间的边和词语与文档之间的边；初始化关键词异构图，需要初始化节点特征向量；为充分利用关键词与文档之间的依赖关系，明确节点之间的关系重要性，在词语与句子之间的边权重注入句子级关键词的TF-IDF值，在词语与文档之间的边权重注入文档级关键词的预测概率值；

S400、为实现局部信息聚合和全局信息传递，更新关键词异构图中的节点特征向量；对于一个给定的节点特征向量，图注意力机制计算/>与邻居节点特征向量/>之间的注意力权重/>；多头注意力机制利用/>和/>生成聚合的节点特征向量/>；为了让模型能够学习到更丰富的特征表示，将/>依次送入残差连接层和位置前馈层获得新的节点特征向量/>；通过上述的节点特征向量更新过程获得关键词异构图中词语、句子和文档节点的最终特征向量、/>和/>；

S500、为提高生成的摘要与文档原文之间的语义一致性，对句子二分类交叉熵损失函数Loss_BCE和语义相似度损失函数Loss_CS进行求和，生成组合损失函数Loss；句子分类器将句子节点的最终特征向量送入全连接层进行归一化运算，在句子是否属于摘要的决策空间上产生概率分布P；利用真实标签和概率分布P组成句子二分类交叉熵损失函数Loss_BCE；根据概率分布选取大于概率阈值Th的句子，Th设置为0.5；将这些句子进行组合构成预测摘要，并将其送入BERT模型得到预测摘要的特征向量；将参考摘要送入BERT模型得到参考摘要的特征向量；语义匹配器计算预测摘要的特征向量和文档节点的最终特征向量之间的余弦相似度，并结合参考摘要的特征向量构造语义相似度损失函数Loss_CS；模型通过降低组合损失函数Loss来不断优化，从而生成可读性更强的摘要并具有更好的泛化性。

2.根据权利要求1所述的基于关键词异构图和语义匹配的金融文本摘要方法，其特征在于：其中，所述S300中构建关键词异构图具体包含以下步骤：

S301、给定一个异构图G={V,E}，其中V代表节点集，E代表节点之间的边集；为实现从文档全局和局部两方面去构建单文档抽取式摘要模型，V=∪/>∪/>，其中/>表示文档中不重复的词语节点，/>表示文档中的句子节点，/>表示文档中唯一的文档节点，∪表示并集操作；为充分利用关键词中语义信息和位置信息，E=/>∪/>，其中/>表示词语与句子之间的边，/>表示词语与文档之间的边；

S302、初始化关键词异构图，需要初始化节点特征向量和明确节点之间的关系重要性；采用词嵌入方式获得词语节点特征向量；为获得文档中的局部特征，句子嵌入方式是分别利用卷积神经网络CNN和双向长短期记忆网络BiLSTM获得句子的局部n-gram特征/>和上下文特征/>，串联/>和/>作为句子节点特征向量/>；为获得文档的全局特征，利用BERT模型获得文档节点特征向量/>；为充分利用关键词与文档之间的依赖关系，明确词语节点对句子节点的语义重要性，在词语与句子之间的边权重注入句子级关键词的TF-IDF值；为明确词语节点对文档节点的位置信息重要性，在词语与文档之间的边权重注入文档级关键词的预测概率值；为便于计算，将关键词异构图中所有的边权重规约到0至10的范围内。