CN111061935B

CN111061935B - 一种基于自注意力机制的科技写作推荐方法

Info

Publication number: CN111061935B
Application number: CN201911292337.3A
Authority: CN
Inventors: 黄河燕; 高小燕; 毛先领; 迟泽闻; 余厚金; 兰天
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2022-04-12
Anticipated expiration: 2039-12-16
Also published as: CN111061935A

Abstract

本发明涉及一种基于自注意力机制的科技写作推荐方法，属于计算机自然语言处理以及社交媒体技术领域。所述科技写作推荐方法，首先利用已有的段落写作内容，挖掘作者写作主题与意图，并以此初步筛选候选段落；其次设计了基于自注意力机制的深度科技写作推荐模型，用于获取上下文语境的深度语义表示，以对候选段落进行排序；通过将预测排序结果与真实排序结果进行比较，获取召回率和归一化折损累积增益，以评价写作推荐方法的好坏。所述方法与传统的基于内容的引文推荐方法相比，在一个真实的科技论文写作推荐中进行推荐预测，取得最高的召回率和归一化折损累积增益。

Description

一种基于自注意力机制的科技写作推荐方法

技术领域

本发明涉及一种基于自注意力机制的科技写作推荐方法，属于计算机自然语言处理技术中的社交媒体技术领域。

背景技术

科技论文是科技研究工作者进行技术和信息交流的重要方式之一，如何写好科技论文是科技研究工作者的必备技能。然而，非母语研究人员或低年级博士生由于欠缺英语写作思维，其论文常常逻辑不严谨、上下文不连贯等。因此，论文写作已成为科技研究的重要挑战，合适的科技论文写作推荐系统是必要的。

随着科技技术的快速发展和科研人员的猛速增加，论文推荐系统引起了学术界和工业界的广泛关注。传统的论文推荐系统通常推荐整篇论文，因此，科研人员为了获取与所撰写内容相关信息，必须花费大量时间和精力阅读所推荐的论文。

为了给科研人员提供更为精准衔接的写作辅助信息，以减少其在写作上所花费的时间，本专利拟提出细粒度的科技论文写作推荐方法，旨在充分挖掘论文内部逻辑结构和上下文深度语义信息，结合自注意力机制显式表示语义方法将结构信息、语义信息融入到推荐过程，进一步提高科技论文写作推荐的召回率和归一化折损累积增益。

发明内容

本发明旨在为非母语科研工作者和低年级博士生论文写作提供内容精准匹配，结构合理衔接的参考辅助段落，帮助其克服论文写作中的逻辑不严谨、上下文不连贯等缺陷，提出了一种基于自注意力机制的科技写作推荐方法，从arxiv中爬取数据，作为实验数据集，分别进行数据收集阶段、候选集筛选、训练阶段、真实推荐列表获取和测试阶段的处理。

本发明的核心思想为：首先利用已有的段落写作内容，挖掘作者写作主题与意图，并以此初步筛选候选段落；其次设计了基于自注意力机制的深度科技写作推荐模型，用于获取上下文语境的深度语义表示，以对候选段落进行排序；通过将预测排序结果与真实排序结果进行比较，获取召回率和归一化折损累积增益，以评价写作推荐方法的好坏；

其中，召回率即Recall，归一化折损累积增益即Normalized DiscountedCumulative Gain，简称NDCG；

为实现上述目的，本发明所采用的技术方案如下：

一种基于自注意力机制的科技写作推荐方法，包括数据收集阶段、候选集筛选、训练阶段、真实推荐列表获取和测试阶段的处理，具体为：

其中，数据收集阶段的处理，包括如下子步骤：

步骤1、爬取计算机领域的M个类别共论文N篇；

步骤2：对步骤1爬取的每一篇论文进行预处理，具体包括如下子步骤：

步骤2.1：采用特殊字符e对每一篇论文进行分段，得到分段后的论文；

步骤2.2：利用分词工具对步骤2.1输出的分段后的论文进行分词，得到分词后的论文；

步骤2.3：对步骤2.2输出的分词后的论文依据切分比例切分段落，构建context-paragraph对，所有的context-paragraph对构成由二元组组成的数据集D；

其中，切分比例，记为r；切分比例r部分作为当前上下文context，与剩余1-r的段落内容paragraph构成context-paragraph对；

步骤2.4：划分步骤2.3中的数据集D，具体将数据集D按照比例p划分为训练集D_s、验证集D_v和测试集D_t，其中，D_s＝{(c_i,p_i)}；

步骤3、候选集筛选的处理，即筛选候选段落集，记为R，具体包括如下子步骤：

步骤3.1：分别对步骤2.4输出的验证集D_v和测试集D_t中context-paragraph对的context和paragraph进行编码，具体为：

步骤3.1A针对每个context-paragraph对中的context利用TF-IDF向量进行编码，得到context的语义表示，记为f_j；

步骤3.1B利用TF-IDF向量对paragraph进行编码，得到段落向量，记为w_b；

步骤3.2：利用比较每个f_j与所有段落向量w_b的夹角，获取top-k的段落，记为候选集列表R；

训练阶段的处理，包括如下步骤：

步骤4：初始化WAWR模型中的所有参数θ；

其中，SAWR模型中的所有参数θ＝{c,p,θ_s}；

其中，c为SAWR中context的所有词汇对应的向量表示，p为SAWR中paragraph的所有词汇对应的向量表示，θ_s为SAWR中自注意力层中的所有参数；

SAWR为深度推荐模型，由输入层、表示层、自注意力层和输出层构成；

输入层，记为Input layer、表示层，记为Embedding layer、自注意力层，记为Self-attention，输出层，记为Output layer；

步骤5：对步骤2.4所述的训练集D_s按大小划分为若干个mini-batch，设置一个变量k并初始化为1，并初始化k的最大值，记为kmax；

步骤6，对第k个mini-batch进行训练；

其中，mini-batch的大小为H，第k个mini-batch记为

步骤6具体包括如下子步骤：

步骤6.1：将第k个mini-batch输入SAWR模型，经过输入层、表示层、自注意力层和输出层后，获得输出

其中，输入层的操作为将context和paragraph组成one hot向量；

表示层：抽取出context和paragraph的实值向量，并进行向量拼接，context的拼接向量构成context c_i，paragraph的拼接向量构成paragraph p_i；

自注意力层：利用该层获取context的深层语义，记为r_i＝f(c_i,θ_s)，其中自注意力层的函数记为f,自注意力层中的参数记为θ_s；

输出层：其输出表达为

其中，

为对表示层中所述的向量c_i执行平均操作的结果，

为表示层中所述的向量p_i执行平均操作的结果，

为对自注意力层中输出的r_i执行平均操作的结果；

步骤6.2：按照损失函数(1)计算损失L：

其中，Σ为求和符号，||.||表示向量的平方和，

步骤6.3：基于梯度下降方法，反向更新模型参数θ；

步骤7:判断k是否等于kmax，若等于kmax，保存SAWR模型，跳至步骤8，若不等，则k＝k+1，跳至步骤6；

步骤8、真实推荐列表获取的处理，包括如下步骤：

步骤8.1：分别对测试集D_t的context-paragraph对中的context和paragraph进行编码；

针对测试集中的每个context-paragraph对，利用GloVe向量对context进行编码，得到context的语义表示，记为v_j；同样利用GloVe向量对paragraph进行编码，得到e_b；

步骤8.2：利用比较每个v_j与所有段落向量e_b的夹角，对步骤3.2输出的候选集列表R进行排序，得到真实推荐列表；

其中，真实推荐列表，记为RT；

步骤9、测试阶段的处理，具体包括如下步骤：

步骤9.1：将步骤2.4所述的测试集D_t，依次将数据经过步骤7保存的SAWR模型，依次经过输入层、表示层、自注意力层和输出层，得到结果

其中，输入层的操作为将测试集中的第j个context和paragraph组成one hot向量；

表示层：抽取出context和paragraph的实值向量，并进行向量拼接，context的拼接向量构成context c_j，paragraph的拼接向量构成paragraph p_j；

自注意力层：利用该层获取context的深层语义，记为r_j＝f(c_j,θ_s)，其中自注意力层的函数记为f,自注意力层中的参数记为θ_s；

输出层：其输出表达为

其中，

为对表示层中所述的向量c_j执行平均操作的结果，

为表示层中所述的向量p_j执行平均操作的结果，

为对自注意力层中输出的r_j执行平均操作的结果；

步骤9.2：根据

对步骤3.2输出的候选集列表R进行排序，形成预测推荐列表RP；

步骤9.3：计算评价指标召回率和归一化折损累积增益的值；

将步骤9.2输出的预测推荐列表RP和步骤8.2输出的真实推荐列表RT进行比较并取平均值，作为表示推荐方法优劣的评价指标。

有益效果

本发明所述的一种基于自注意力机制的科技写作推荐方法，与现有技术相比，具有如下有益效果：

1.所述方法首次将自注意力机制应用于科技写作推荐任务当中，可以同时考虑论文中的逻辑结构和上下文信息；

2.所述方法基于内容的引文推荐是与之比较相似的任务，与传统的基于内容的引文推荐方法相比，在一个真实的科技写作推荐中进行推荐预测，取得最高的召回率和归一化折损累积增益。

附图说明

图1为本发明所述的一种基于自注意力机制的科技写作推荐方法流程图；

图2为本发明所述的一种基于自注意力机制的科技写作推荐方法中步骤4的SAWR模型示意图。

具体实施方式

下面结合附图和实施例，对本发明所述的一种基于自注意力机制的科技写作推荐方法作进一步详细说明。

实施例1

本实施例阐述了本发明在收集数据集时采用的流程、涉及的深度科技写作推荐模型的结构和详细参数以及实验结果。

本发明为一种基于自注意力机制的科技写作推荐方法，该发明可适用于arxiv、DBLP、IEEE、ACM、Springer等科技论文网站。具体实施时，所述方法从科技论文网站，例如arxiv中爬取数据，作为实验数据集，分别按照图1的数据收集阶段、候选集筛选、训练阶段、真实推荐列表获取和测试阶段的顺序，执行以下过程：

数据收集阶段，首先，以科技论文网站arxiv做为实践对象，收集数据的过程如下所示：

步骤A：从arxiv中计算机领域的M＝23个类别中，共爬取论文N＝46628篇；

步骤B：对步骤1输出的每一篇论文t进行预处理，具体包括如下子步骤：

步骤B.1：采用特殊字符e＝“\n\n”对每一篇论文t进行分段，得到分段后的论文；

步骤B.2：利用分词工具NLTK对步骤B.1输出的分段后的论文进行分词，得到分词后的论文；

步骤B.3：对步骤B.2输出的分词后的论文切分段落，构建context-paragraph对，具体为：对步骤B.2中输出的分词后的论文中的每个段落进行切分，设置切分比例r＝0.25，具体实施时，r的范围为{0.25,0.5,0.75}。

其中，百分比为r的部分作为当前上下文context，与剩余的段落内容paragraph构成context-paragraph对，构成由二元组组成的数据集D；

其中，上下文，记为context；段落内容，记为paragraph；

步骤B.4：数据集划分，将数据集D按照比例p＝9:1:1划分为训练集D_s、验证集D_v和测试集D_t，其中训练集D_s＝{(c_i，p_i)}；

以训练集为例，某个context，记为c_i，对应的段落内容，记为p_i；

表1数据集样例

至此，从步骤A到步骤B，完成了数据收集阶段；

候选集筛选处理，包括以下步骤：

步骤C：候选集筛选处理，即筛选候选段落集，记为R，具体包括如下子步骤：

步骤C.1：分别对步骤B.4输出的验证集D_v和测试集D_t的context-paragraph对中的context和paragraph进行编码；

针对每个context-paragraph对，利用TF-IDF向量对context进行编码，得到conetxt的语义表示，记为f_j；同样地，利用TF-IDF向量对段落b进行编码，得到w_b；

步骤C.2：利用比较每个f_j与所有段落向量w_b的夹角，获取top-k的段落，记为候选集列表R，其中k＝500；

训练阶段的处理，包括如下步骤：

步骤D：初始化SAWR模型中的所有参数θ；

其中，SAWR模型中的所有参数θ＝{c,p,θ_s}；

其中，c为SAWR中context的所有词汇对应的向量表示，p为SAWR中context的所有词汇对应的向量表示，θ_s为SAWR中自注意力层中的所有参数。

SAWR为图2所示的深度推荐模型，由输入层、表示层、自注意力层和输出层构成；

输入层，记为Input layer、表示层，记为Embedding layer、自注意力层，记为Self-attention和输出层，记为Output layer；

步骤E：对步骤B.4所述的训练集D_s＝{(c_i,p_i)}，按大小划分为若干个mini-batch，设置一个变量k并初始化为1，并初始化k的最大值，记为kmax；

步骤F，对第k个mini-batch进行训练；

其中，mini-batch的大小为H，第k个mini-batch记为

步骤F具体包括如下子步骤：

步骤F.1：将第k个mini-batch输入SAWR模型，经过输入层、表示层、自注意力层和输出层后，获得输出

其中，输入层的操作为将context和paragraph组成one hot向量；

表示层：抽取出context和paragraph的实值向量，并进行向量拼接，context的拼接向量构成context c_i，paragraph的拼接向量构成paragraph p_i,如图2所示，c_i＝{c_1i,c_2i,c_3i，c_4i，c_5i}，p_i＝{p_1i,p_2i，p_3i,p_4i}；

输出层：其输出表达为

其中，

为对表示层中所述的向量c_i执行平均操作的结果,平均操作即图2中的AP，，

为表示层中所述的向量p_i执行平均操作的结果，

为对自注意力层中输出的r_i执行平均操作的结果；

步骤F.2：按照损失函数(1)计算损失L：

其中，Σ为求和符号，||.||表示向量的平方和,

步骤F.3：基于梯度下降方法，反向更新模型参数θ；

步骤G:判断k是否等于kmax，若等于kmax，保存SAWR_model，跳至步骤H，若不等，则k＝k+1，跳至步骤F；

若k等于kmax，每次对训练集D_s的全部遍历为一个epoch，总共需要训练sh＝300个epoch；在训练中，每经过h＝10个epoch就保存一次模型，并将验证集在该模型上进行验证，取ndcg值最高的模型作为最终训练好的神经网络，记作SAWR_model，验证阶段的处理和测试阶段相同；

步骤H、真实推荐列表获取的操作，包括如下步骤：

步骤H.1：分别对测试集D_t的context-paragraph对中的context和paragraph进行编码；

针对测试集中的每个context-paragraph对，利用GloVe向量对的context进行编码，得到context的语义表示，记为v_j；同样利用GloVe向量对paragraph进行编码，得到e_b；

步骤H.2：利用比较每个v_j与所有段落向量e_b的夹角，对步骤3.2输出的候选集列表R进行排序，得到真实推荐列表；

其中，真实推荐列表，记为RT；

步骤I、测试阶段的处理，具体包括如下步骤：

步骤I.1：将步骤B.4所述的测试集D_t，依次将数据经过步骤G保存的模型SAWR_model，依次经过输入层、表示层、自注意力层和输出层，得到结果

自注意力层：利用该层获取context的深层语义，记为r_j＝f(c_j，θ_s)，其中自注意力层的函数记为f,自注意力层中的参数记为θ_s；

输出层：其输出表达为

其中，

为对表示层中所述的向量c_j执行平均操作的结果，

为表示层中所述的向量p_j执行平均操作的结果，

为对自注意力层中输出的r_j执行平均操作的结果；

步骤I.2：根据

步骤I.3：计算评价指标召回率和归一化折损累积增益的值；

将步骤I.2输出的预测推荐列表RP和步骤H.2输出的真实推荐列表RT进行比较并取平均值，作为表示推荐方法优劣的评价指标。

在收集的真实数据集arxiv上的实验结果如下：

将本发明方法与基于内容的推荐方法进行比较，在数据集上的结果如表2所示：

表2使用本发明所述方法与Citeomatic方法在arxiv上的recall和NDCG值对比

表2的实验结果表明，本发明所采用的方法在Recall和NDCG两种操作均比传统方法有显著的提高。主要原因是本发明方法采用的基于自注意力机制的科技写作推荐算法充分挖掘论文内部逻辑结构和上下文深度语义信息，结合自注意力机制显式表示语义方法将结构信息、语义信息融入到推荐过程，提升了Recall和NDCG值。