CN115809665A

CN115809665A - 一种基于双向多粒度注意力机制的无监督关键词抽取方法

Info

Publication number: CN115809665A
Application number: CN202211593847.6A
Authority: CN
Inventors: 姜明; 叶廉; 张旻
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Laisai Technology Co ltd
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-03-17
Anticipated expiration: 2042-12-13
Also published as: CN115809665B

Abstract

本发明公开了基于双向多粒度注意力的无监督学习关键词抽取方法，包括以下步骤：提取所述原生文本D中的短语，构建关键词候选集合；将原生文本D和关键词候选集合向量化；使用自注意力机制处理细粒度向量X_i以提高细粒度向量的自身表征能力，得到与细粒度向量X_i相同维度的强化细粒度向量X′；强化粗粒度向量；获得评分矩阵和关键词张量序列，得到编码器模型结果表明，训练模型并得到关键词。这种方法在关键词筛选时，提供一种通过双向多粒度注意力调节模型训练过程中进行特征选择的有效机制，以帮助关键词抽取模型在训练过程中，尽可能地利用关键词提供的信息进行下游任务。

Description

一种基于双向多粒度注意力机制的无监督关键词抽取方法

技术领域

本文发明涉及文本关键词抽取方法，详细地说是一种基于双向多粒度注意力的无监督学习关键词抽取方法，属于自然语言中关键词抽取技术领域。

背景技术

关键词抽取是自然语言处理任务中的基础任务，这个任务在具有其泛用性和热门性的同时，兼具其独特性带来的挑战。它需要准确地在文本中找到显著表征其主题信息的片段。得益于深度学习的快速发展，关键词抽取任务取得了优秀的成果，不仅在下游任务中起到中流砥柱的作用，在直接应用中同样得到广泛认可。

对于有监督模型的训练，从大量文本中训练整合信息是必然的过程，但是，关键词抽取领域一直缺乏权威的大型数据集，且关键字的选择和重要性即使在不同人之间也存在差异化较大的筛选标准。这使关键词抽取结果在很长时间，仅仅作为参考工具使用。SIF(Smooth Inverse Frequency)中认为预训练模型生成的句向量本身就在极力表达句子的主题信息。而关键词正是广大研究希望获得的极大表征语料主题信息的词集合，那么由句向量指导关键词抽取，即可获得贴切的关键词抽取结果，现有的方法大多利用人工指定规则，结合预训练模型输出句向量进行关键词评分排序工作，这种方法无法兼顾语料中所有蕴藏的特征，存在经验模型缺少普适性的普遍缺点。自注意力机制，利用嵌入向量信息对自身进行注意力计算优化自然语言任务模型的训练。

大部分无监督模型通过提取词向量，设计算法进行排序，这种截取的词向量往往丢失了上下文信息，造成效果损失。而有监督方法则舍弃词向量，利用耦合上下文信息的字向量序列，通过编码-解码模型进行训练预测，这种方法不可控，且依赖标注语料对字向量重新解释。

发明内容

本发明的目的是针对现有技术的不足，提供一种通过双向多粒度注意力调节模型训练过程中进行特征选择的有效机制，以帮助关键词抽取模型在训练过程中，尽可能地利用关键词提供的信息进行下游任务，在此之后，利用模型对关键词地注意力权重即可间接获得可靠的关键词抽取结果。

本发明提供一种基于双向多粒度注意力机制的无监督关键词抽取方法，包括以下步骤：

步骤(1)获取原生文本D，提取所述原生文本D中的短语，构建关键词候选集合；

步骤(2)将原生文本D和关键词候选集合向量化：

2-1获取原生文本D后，利用三种特殊标记[CLS]、[SEP]和[PAD]对原生文本进行规整操作；其中，[CLS]放在所有文本之前；[SEP]用于分开两个句子，句子末尾使用[SEP]标注；[PAD]用于整齐化句子的长度以便后续并行计算；规整操作后，得到长度格式统一化的原生文本D′；

2-2将原生文本D′送入Bert模型，获得所述Bert模型的隐藏层，取所述隐藏层中的最后四层，；按下式所示，连接所述最后四层作为嵌入结果向量，

X₀＝concat(HiddenLayer_-4:)

将所述嵌入结果向量作为表征原生文本的细粒度向量X₀＝[x₁,x₂,x₃,…,x_N]；其中，x₁,x₂,x₃,…,x_N；代表所有原生文本D′中的Token的向量表示；

2-3将所述细粒度向量X₀映射至所述关键词候选集合，得到关键词候选嵌入向量表示，作为表征原生文本D′的粗粒度向量C₀，生成方式下式所示，

其中

表示细粒度向量X₀中

到

的所有向量按序组成的新向量，c_ib,c_ie分别表示第i个关键词候选的起始位置和结束位置；在此之后使用0填充C₀使其长度统一便于后续并行计算；

步骤(3)引入由若干层自注意力层组成的自注意力模块，使用自注意力机制处理细粒度向量X_i以提高细粒度向量的自身表征能力，得到与细粒度向量X_i相同维度的强化细粒度向量X′；

步骤(4)强化粗粒度向量：

4-1添加多头注意力模块，所述多头注意力模块包括若干多头注意力层，第一层多头注意力层接受细粒度向量X₀和粗粒度向量C₀作为输入；通过细粒度向量补充粗粒度向量在生成过程中丢失的上下文语义信息；多头注意力层按下式所示的方式生成问询矩阵Q_c、键矩阵K和值矩阵V；

Q_c＝MultiHead_Q(C₀)

K＝MultiHead_K(X₀)

V＝MultiHead_V(X₀)

4-2以Q_c,K,V三矩阵作为输入，进行注意力计算Attention，使用问询矩阵q_c和键矩阵K相乘，得到粗粒度向量对细粒度向量进行关注后的注意力矩阵；将所述注意力矩阵中权值进行缩放和遮蔽操作后执行SoftMax函数，最后对值矩阵V进行加权求和计算获取新的粗粒度特征向量Attention(Q_c,K,V)，具体过程如下式所示，

其中，d_k是多头注意力层的嵌入维度；

4-3将所述新的粗粒度特征向量更新到粗粒度向量C₀中，将得到的结果平铺开，进行全连接层优化，得到更新向量；

按如下式所示的方法，利用所述更新向量对粗粒度向量C₀进行残差更新normalize,得到强化的粗粒度向量C₁

C₁＝normalize(C₀+Attention(Q_c,K,V))

4-4所述多头注意力模块中，多头注意力层的层数与步骤(3)中所述自注意力层的层数相同；第i+1层所述多头注意力层接受原生文本的细粒度向量X_i和粗粒度向量C_i作为输入,以强化后的粗粒度向量C_i+1为输出；经过多层迭代，得到粗粒度向量C′，所述多层迭代的层数为多头注意力模块中多头注意力层的层数；

步骤(5)获得评分矩阵M_s和关键词张量序列，得到编码器模型：

5-1添加多头注意力模块，以细粒度向量X′和粗粒度向量C′作为输入；通过多头注意力机制，由X′生成问询矩阵Q_X，由C′生成键矩阵K_C和值矩阵V_C；

5-2以所述问询矩阵Q_X、键矩阵K_C和值矩阵V_C作为输入，进行注意力计算Attention以完成对粗粒度向量的打分，使用所述问询矩阵Q_X和键矩阵K_C相乘，得到注意力矩阵作为评分矩阵M_s，矩阵中每一个元素m_ij表示第i个细粒度表示x_i对第j个粗粒度表示c_j的注意力；

5-3为了让评分矩阵M_s作用于模型训练，使用评分矩阵M_s和值矩阵V_C作为输入，将评分矩阵M_s中权值进行缩放和遮蔽操作后执行SoftMax函数，最后对值矩阵V_C进行加权求和计算，得到关键词张量序列；

步骤(6)构建损失函数，获取已打标签的训练数据对所述编码器模型进行训练，得到训练完毕的模型，将待抽取关键词的待测文本输入所述训练完毕的模型，得到基于待测文本生成的评分矩阵；

基于所述待测文本生成的评分矩阵对候选关键词进行排序，输出排序靠前的若干个候选关键词，作为所述待测文本的关键词。

作为优选，所述步骤(1)具体包括以下步骤：

所述提取所述原生文本D中的短语，包括：为使用结巴分词库对原生文本D进行分词和词性标注处理，获得分词序列，根据词性，筛选得到名词短语，记录所述名词短语在原生文本D中的位置，得到候选词位置集合，所述候选词位置集合中的元素为名词短语在原生文本中的位置；

所述构建关键词候选集合，包括：以所述候选词位置集合作为输入，根据所述候选词位置集合中，名词短语在原生文本中的位置查询得到候选词，利用停用词表和词性剔除常用短语；对语义重复或文字重复的短语进行合并去重；针对去除冗余信息后的候选词位置集合，如果集合元素数量多于预设值，则从所述候选词位置集合中删除短语的字数长度不在二到四范围内的短语；如果集合元素少于预设值，则随机从原生文本D中提取文本作为所述候选词位置集合中的元素，填充所述候选词位置集合；；输出按上述方法更新后的候选词位置集合作为关键词候选集合。

作为优选，所述步骤(3)中：

每个所述自注意力层的逻辑相同，所述自注意力层的层数人为预先设定；

所述使用自注意力机制处理细粒度向量X_i，包括：第一层接受所述细粒度向量X₀作为输入，第i+1层则接受X_i作为输入，按如下式所示进行处理：

X_i+1＝normalize(X_i+SelfAttention(X_i))

通过自注意力层self attention，使X_i对自身完成特征强化，通过归一化操作normalize获取强化后的细粒度向量X_i+1作为第i+1层的输出。

作为优选，所述步骤(6)中，以关键词张量序列作为输入进行所述训练，所述训练的过程中，epoch设置为300,学习率为0.00001，batch size为128，使用Adam优化器渐进式的调整学习率；

所述损失函数为标准的交叉熵损失，按如下式所示的方法构建所述损失函数，

其中，n表示原生文本D′长度，y_1:t为下游任务中真实标签,θ为模型参数；通过反向传播优化模型参数。

作为优选，所述步骤(6)中，基于所述待测文本生成的评分矩阵对候选关键词进行排序的具体过程包括：按如下方式压缩评分矩阵得到分数向量Score_j,所述分数向量Score_j代表对关键词重要程度的评估，每个候选关键词均有相应的分数向量Score_j；

其中，其中n表示原生文本D′长度，利用所述分数向量Score_j，对候选关键词进行排序。

本发明有益效果如下：

本发明提出的双向多粒度注意力无监督学习是一种通过下游任务来抽取主题信息进行关键词抽取的有效机制，将多项下游任务的训练结果提供了联合应征了模型在关键词提取中的效果。

结果表明，这种方法具有更好的鲁棒性和自适应能力。根据标签匹配度标准性能指标进行测试，其中评估指标包括：F1_5/F1_10/F1_15/P_15/R_5/R_10/R_15。在INSPEC数据集上进行测试，测试结果分别为：0.174/0.218/0.234/0.223/0.136/0.217/0.247。测试结果均在领域内无监督学习中属于领先水平。

附图说明

图1是本发明的整体实施方案流程图；

图2是本发明的输入序列嵌入模型CKEM示意图；

图3是本发明的逆向多粒度注意力机制RMAL示意图；

图4是本发明的整体结构示意图；

图5是本发明的逆向多粒度注意力矩阵部分截取实例图；

图6是本发明关键词抽取实施例图。

具体实施方式

本发明认为，构建模型促使句向量对关键词进行注意力计算，根据现代机器学习机制，利用自然语言下游任务中大量优质语料进行反向传播训练，强化注意力计算参数，自动捕获广域语料中的特征。最终提取模型中的注意力模块，构建新的无监督模型，充分利用预训练模块进行评分预测。

本发明结合上述思路设计无监督模型，利用注意力机制驱动模型自动对关键词进行评分。结合字词两种粒度向量，本发明提出一种双向多粒度注意力机制，正向注意力过程驱使词向量关注字向量，补足词向量筛选过程丢失的上下文信息，在词向量学习到相应特征之后，逆向注意力过程驱使字向量关注词向量，完成对词向量打分的过程。

模型分两步，第一步利用广义语料训练多粒度注意力机制模块，第二部利用注意力机制模块对关键词进行无监督抽取任务。在第一步训练任务中，分别使用正向多粒度注意力模块MAL(Multi-Granularity Attention Layer)，逆向多粒度注意力模块RMAL(Reverse Multi-Granularity Attention Layer)。正向多粒度注意力负责词向量向字向量序列进行注意力计算，词向量是原句的片段节选，截取过程丢失了其在原句中的上下文信息，因此需要词向量在字向量中学习丢失的信息，即进行正向多粒度注意力运算。模型需要给词向量进行评分排序用于后续下游任务训练，正是这种机制才能在训练过程强化句向量对关键词的筛选能力，为此构建逆多粒度注意力模块，驱使字向量对词向量进行注意力计算，获取关注度评分。当完成第一步训练后，进行第二步工作，提取其逆向多粒度注意力模块，嫁接至关键词抽取模型中，用作评分依据，最终不必依赖关键词标注训练集，本模型即可获得效果堪比有监督训练的抽取效果。

首先，对本申请实施例中涉及的名词进行简要介绍：

原生文本：由自然语言形式表述的未加工文本，即任意一段文字。

结巴分词库：经典的中文分词算法库。

Token：文本进行切割后的序列中的最小单位，通常用一个数字表示。

停用词：如“的”、“一个”等常用但对语义分析帮助不大的字词。

注意力机制：机器学习中常用算法，模型自动学习加权和参数后进行加权和。

自注意力机制：一个向量对自身执行注意力机制的算法。

多头注意力机制：执行注意力机制前，对向量进行划分的操作。

编码器-解码器：一种模型结构，编码器负责将输入转换成解码器可以接受的形式，解码器根据转换结果输出指定目标。

无监督学习：不依赖人工标注数据集进行训练的模型称为无监督学习模型。

Bert：自然领域常用的预训练模型。

Concat：连接两个张量的算法。

SoftMax:将数据进行归一化的算法。

下面结合附图对本发明作进一步描述。

参照图1是本发明的整体实施方案流程图，一种基于双向多粒度注意力和无监督学习的关键词抽取方法，包括以下步骤：

步骤(1)对原生文本D进行处理，提取所述原生文本D中的短语，构建关键词候选集合。

进一步的，所述步骤(1)具体实现过程如下：

1-1获取未经处理的原生文本D，使用结巴分词库对原生文本D进行分词和词性标注处理，获得分词序列，根据词性，筛选得到名词短语，记录所述名词短语在原生文本中的位置，得到候选词位置集合，所述候选词位置集合中的元素为名词短语在原生文本中的位置；

1-2以所述候选词位置集合作为输入，根据所述候选词位置集合中，名词短语在原生文本中的位置查询得到候选词，利用停用词表和词性剔除常用短语；对语义重复或文字重复的短语进行合并去重；针对去除冗余信息后的候选词位置集合，如果集合元素数量多于预设值，则从所述候选词位置集合中删除短语的字数长度不在二到四范围内的短语；如果集合元素少于预设值，则随机从原生文本D中提取文本作为所述候选词位置集合中的元素，填充所述候选词位置集合；输出按上述方法更新后的候选词位置集合作为关键词候选集合。

1-3将关键词候选集合和原生文本D打包送往下一步。

步骤(2)将原生文本和关键词候选集合向量化：将原生文本和步骤(1)中得到的关键词集合作为输入。利用预设符号对原生文本进行规整和填充，获取原生文本Token化序列；对于Token化序列使用预训练模型Bert进行向量嵌入，获得原生文本的向量化结果X₀；利用关键词集合和原生文本的对应关系，截取X₀作为关键词候选集合嵌入向量化结果C₀。此时X₀,C₀分别作为原生文本细粒度向量和粗粒度向量表示。进一步的，所述步骤(2)具体实现过程如下：

2-1获取原生文本D后，利用三种特殊标记[CLS]、[SEP]和[PAD]对原生文本进行规整操作。其中，[CLS]放在所有文本之前；[SEP]用于分开两个句子，句子末尾使用[SEP]标注；[PAD]用于整齐化句子的长度以便后续并行计算。规整操作后，得到长度格式统一化的原生文本D′。

2-2将原生文本D′送入Bert模型，获得所述Bert模型的隐藏层，取所述隐藏层中的最后四层，按下式所示，连接所述最后四层作为嵌入结果向量，

X₀＝concat(HiddenLayer_-4:) (1)

将所述嵌入结果向量作为表征原生文本的细粒度向量X₀＝[x₁,x₂,x₃,…,x_N]；其中，x₁,x₂,x₃,…,x_N代表：所有原生文本D′中的Token的向量表示；

2-3将所述细粒度向量X₀映射至所述关键词候选集合，得到关键词候选嵌入向量表示，作为表征原生文本D′的粗粒度向量C₀，生成方式如公式(2)所示，其中

表示细粒度向量X₀中

到

的所有向量按序组成的新向量，c_ib,c_ie分别表示第i个关键词候选的起始位置和结束位置；在此之后使用0填充C₀使其长度统一便于后续并行计算，。

步骤(3)接受细粒度向量X_i为输入，为了加强细粒度向量语义信息，增加模型性能，添加自注意力层，细粒度向量X_i通过对自身进行关注，优化自身表征能力，获取相同维度的强化细粒度向量X_i+1作为输出，模型有多层，最终强化结果记为X′。进一步的，所述步骤(3)具体实现过程如下：

3-1添加自注意力模块，所述添加自注意力模块包括若干自注意力层，每个自注意力层的逻辑相同，设定自注意力层的层数，第一层接受所述细粒度向量X₀作为输入，第i+1层则接受X_i作为输入；

以第i+1层为例，为了强化细粒度向量X_i的表征能力，通过自注意力层selfattention，X_i对自身完成特征强化，通过归一化操作normalize获取强化后的细粒度向量X_i+1作为第i+1层的输出。

X_i+1＝normalize(X_i+SelfAttention(X_i)) (3)

3-2原生文本的细粒度向量X₀在经过设定的所述自注意力层的层数强化后，以X′表示经最终强化完毕的原生文本的细粒度向量。

步骤(4)粗粒度向量C_i和细粒度向量X_i作为此阶段输入，粗粒度向量C_i需要根据细粒度向量X_i修正自身缺失的上下文信息。添加多头注意力模块,此模块由多层多头注意力组成，所述每层多头注意力层和步骤(3)每层自注意力层并行进行，步骤(3)需要不断提供新的细粒度向量作为输入。两项输入粗粒度向量C_i和细粒度向量X_i进行注意力操作，通过多头注意力机制，粗粒度向量C_i向细粒度向量X_i进行注意力运算，从中获取缺失的信息，完成对自身语义的补足，得到强化粗粒度向量C_i+1作为输出，经过多层输出，最终强化结果记为C′。进一步的，所述步骤(4)具体实现过程如下：

4-1添加多头注意力模块，所述多头注意力模块包括若干多头注意力层，第一层分别接受原生文本的细粒度向量X₀和粗粒度向量C₀作为输入；粗粒度向量在生成过程中丢失了上下文语义，所以需要通过关注细粒度向量补足信息。为此设置多头注意力层(MultiHead Layer)，如公式(4)、公式(5)、公式(6)所示，生成问询矩阵Q_c、键矩阵K和值矩阵V。

Q_c＝MultiHead_Q(C₀) (4)

K＝MultiHead_K(X₀) (5)

V＝MultiHead_V(X₀) (6)

4-2为了完成粗粒度向量对细粒度向量的关注学习，接受Q_c,K,V三矩阵作为输入，进行注意力计算(Attention Calculate)，使用问询矩阵Q_c和键矩阵K相乘，得到粗粒度向量对细粒度向量进行关注后的注意力矩阵。将注意力矩阵中权值进行缩放和遮蔽操作后执行SoftMax函数，最后对值矩阵V进行加权求和计算获取新的粗粒度特征向量Attention(Q_c,K,V)。公式(7)表述计算过程，其中d_k是多头注意力层的嵌入维度。

4-3接受新的粗粒度特征向量，将其更新到真正的粗粒度向量C₀表示中，将粗粒度特征向量结果平铺开，进行全连接层优化，得到更新向量，利用更新向量对粗粒度向量C₀进行残差更新,得到强化的粗粒度向量表示C₁。公式(8)形容利用归一化进行残差更新的流程。

C₁＝normalize(C₀+Attention(Q_c,K,V)) (8)

4-4多头注意力模块有多层，层数与步骤(3)相同，且两个模块每层一一对应，并行执行；第i+1层接受原生文本的细粒度向量X_i和粗粒度向量C_i作为输入,以强化后的粗粒度向量C_i+1为输出；经过多层迭代，将最终强化结果记为原生文本粗粒度向量C′。

步骤(5)获取多层强化后的细粒度向量X′和粗粒度向量C′。模型需要对粗粒向量C′做最后的评分，以验证训练结果。同样对两项输入进行注意力操作，通过多头注意力机制，但是与步骤(4)相反，由细粒度向量X_i向粗粒度向量X_i进行注意力运算，获取注意力矩阵作为一项输出，同时注意力矩阵对粗粒度向量X′执行加权过滤，取得关键词张量序列为另一输出。进一步的，所述步骤(5)具体实现过程如下：

5-1设置一个多头注意力模块，以原生文本的细粒度向量X′和原生文本的粗粒度向量C′作为输入。由X′生成问询矩阵Q_X，由C′生成键矩阵K_C和值矩阵V_C，模块的结构图参照图3。

5-2以Q_X,K_C,V_C三矩阵作为输入，进行注意力计算(Attention Calculate)以完成对粗粒度向量的打分，使用问询矩阵Q_X和键矩阵K_c相乘，得到注意力矩阵作为评分矩阵M_s，矩阵中每一个元素m_ij表示第i个细粒度表示x_i对第j个粗粒度表示c_j的注意力。评分矩阵M_s部分截取如参照图5。

5-3为了让评分矩阵M_s作用于模型训练，因此使用评分矩阵M_s和值矩阵V_C作为输入，将评分矩阵M_s中权值进行缩放和遮蔽操作后执行SoftMax函数，最后对值矩阵V_C进行加权求和计算获取关键词张量序列用于后续步骤。

至此完成所有编码器任务。

步骤(6)两种产物，两种用途。在获取上一步骤的两种产物：评分矩阵M_s、关键词张量序列之后。评分矩阵M_s作为重要性权重用于筛选关键词；关键词张量序列用于后续下游任务的解码。不同的下游任务训练集共用一个编码器进行训练，反向传播共同提升编码器表征能力，最终编码器投入关键词筛选工作，输出包含更为可靠的关键词排序信息的注意力矩阵。

进一步的，所述步骤(6)具体实现过程如下：

6-1为了模型吸收广义语料中蕴含的信息，以关键词张量序列作为输入，训练模型在多项下游任务中进行训练，此处以主题多分类为例，epoch设置为300,学习率为0.00001，batch size为128，使用Adam优化器渐进式的调整学习率。利用标准的交叉熵损失函数L(θ)来训练模型，反向传播即可优化模型参数，最终输出可靠的下游任务结果，此处为主题分类结果。交叉熵损失函数如公式(9)所示。

其中，y_1:t为下游任务中真实标签,θ为模型参数。

6-2训练完毕模型，迁移其编码器模块，利用评分矩阵M_s作为输入，压缩评分矩阵得到分数向量Score_j,如公式(10)所示，其中n表示原生文本D′长度，分数向量指示模型对关键词重要程度的评估，一一对应关键词候选。利用分数向量，对候选关键词进行排序，取评分靠前的关键词候选作为抽取结果。

实施例1：

如图6所示，针对一条特殊句子作为原生文本D：“展览是从佛教造像开始的。佛教对我们来说相对熟悉，但一开始我们并没有看到佛像，而是一个巨大的佛足印。中国艺术研究院美术研究所研究员王镛介绍说：在佛教造像当中，首先佛教诸神和原始佛教就是抵触的。”详细叙述模型如何进行关键词抽取，且下游任务选择主题分类数据集。

步骤(1)接受原生文本D作为输入，获取关键词候选集合{'原始','研究所',…,'美术','造像','介绍','中国艺术'}。从集合中剔除类似“开始”、“的”等停用词语。

步骤(2)调用模型对原生文本和关键词候选集合进行向量化。原生文本D为中文句子，添加如步骤2-1所述的三种特殊标记后，每个标记和原句中的每个字都被嵌入化为一项数字化表示，用X₀表示作为原生文本D的细粒度向量表示。而关键词候选集合中所有词语均出自原生文本D，通过这种对应关系裁剪细粒度向量X₀，获取原生文本D的粗粒度表示C₀。

步骤(3)细粒度向量X_i通过对自身进行自注意力运算，强化自身语义。输出优化后的细粒度向量X_i+1。

步骤(4)虽然类似“美术”、“造像”,“介绍”等关键词候选集合中元素完成了向量化，但是这些孤立的词语缺失了它们在句子中的具体上下文信息和结构信息，因此构建注意力模块促使这些粗粒度表示C_i向细粒度向量X_i进行关注学习，强化自身语义，获取优化后的粗粒度表示C_i+1。

步骤(5)模型需要对优化完毕的粗粒度表示C′做最后的评分，这些粗粒度表示一一对应关键词候选集合，评分即使对关键词候选的评分。取粗粒度表示C′和细粒度表示X′做注意力计算。获取注意力矩阵作为评分矩阵M_s，如图4所示，即是此例中评分矩阵。此矩阵明显标注了关键词候选的重要性。同时，模型根据评分矩阵M_s生成关键词张量序列。

步骤(6)两种产物：评分矩阵M_s和关键词张量序列。关键词张量序列被送入解码器中，此例的下游任务为主题分类，因此解码器输出句子对应主题，即：“艺术”。同时利用评分矩阵M_s，模型利用排序方法，无监督抽取出相应的关键词：{“美术”、“中国艺术”、“佛像”、“研究员”、“佛教”、“研究所”、“造像”}。

实施例2：

模型替换下游任务，同样进行相应训练，选用Multi30k数据集作为模型训练，此数据集是一个英文德文互译的翻译任务数据集，模型的编码器无需改动，微调解码器，即可完美运行相关数据集，根据Multi30k数据集训练得到的模型在INSPEC数据集上进行测试，INSPEC数据集为关键词抽取基础数据集。其中评估指标包括：F1，P，R。其中F1表示F1指数，P表示准确率，R表示召回率。