CN110532372B

CN110532372B - 一种基于神经协同过滤挖掘深层特征的文本对象精准推送方法

Info

Publication number: CN110532372B
Application number: CN201910637445.3A
Authority: CN
Inventors: 杨波; 刘辉; 牟其林; 李泽松
Original assignee: University of Electronic Science and Technology of China; CETC Big Data Research Institute Co Ltd
Current assignee: University of Electronic Science and Technology of China; CETC Big Data Research Institute Co Ltd
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2022-03-15
Anticipated expiration: 2039-07-15
Also published as: CN110532372A

Abstract

本发明公开了一种基于神经协同过滤挖掘深层特征的文本对象精准推送方法。该方法包含基于卷积神经网络的政策描述文档特征提取方法和挖掘深层特征的混合推送方法两个部分。提供了基于卷积神经网络的政策描述文档特征提取方法的具体步骤。提供了挖掘深层特征的混合推送方法的具体步骤。与现有政策推送方法相比，本发明能够利用卷积神经网络自动地从政策描述文档中提取包含在文本中的语义层面的不同单词范围的局部特征；同时，将提取出的特征以更灵活的方式融入到神经协同过滤政策推送方法中，在其中建立了用户与政策的非线性交互关系，并挖掘了两者之间更深层的交互特征，能够达到更高的推送准确度。

Description

一种基于神经协同过滤挖掘深层特征的文本对象精准推送方法

技术领域

本发明涉及推送技术领域，具体涉及一种基于神经协同过滤挖掘深层特征的文本对象精准推送方法。

背景技术

近年来，随着移动通信网络的快速发展，用户可以越来越容易的获得诸如政策、新闻等电子形式的文本对象，对于涉及的范围极广且数量庞大的文本对象而言，为了促使用户能够快速且有针对的获取文本对象内容，出现了关于文本对象的消息推送方法，从而能够为用户快速做出满意的选择提出解决方案。因此如何构建能够更准确且敏感地捕捉用户查找所需的文本内容(例如政策)的偏好与需求的推送方法是十分重要的。

现有的关于如政策、新闻等的文本对象的消息推送方法主要存在以下不足：

1)利用提取的特征的方式有限，要求提取特征与待推送的文本对象的方差特征维度相同，且结合方式比较简单；

2)用户与待推送的文本对象间线性的建模方式，不能捕获其间的复杂结构，从而影响政策推送的精准性。

3)大多数的混合推送方法不能有效地自动地捕捉政待推送的文本对象中的上下文语境特征。

发明内容

本发明的发明目的在于：针对现有的关于文本对象的推送方式存在的不足，公开了一种基于神经协同过滤挖掘深层特征的文本对象精准推送方法，进一步提升推送准确度。

本发明的于神经协同过滤挖掘深层特征的文本对象精准推送方法，包括下列步骤：

步骤一：构建文档特征提取网络和推送网络；

其中，文档特征提取网络基于卷积神经网络设置，包括嵌入层、卷积层、最大值池化方式的池化层和全连接层；

嵌入层的输入为文本对象的描述文档的One-Hot矩阵，用于将输入的描述文档的One-Hot矩阵通过预置的嵌入矩阵将One-Hot矩阵中的每个One-Hot向量映射为所述One-Hot向量表示的词语的隐语义向量；

其中，描述文档的One-Hot矩阵的设置可以采用下述方式：

对待处理的文本对象进行停用词删除处理后的描述文档，统计每个词语在当前描述文档中出现的频率；以及对待处理的所有文本对象中，统计包含某个词语的描述文档的文本对象数量，并按照预设的归一化方式对得到的本对象数量进行归一化处理，得到不同词语区分文档对象的度量值，即逆向文档频率；在基于频率与逆向文档频率的乘积得到文本对象的不同词语对其的重要程度值；

删除每个文本对象的描述文档中重要程度值大于预设阈值的词语，再基于预设的文本对象的最大词语数N，对文本对象的描述文档进行规范处理：若当前描述文档包含的词语大于最大词语数N，则截取前N个词语；

基于当前描述文档中出现的所有词语构建词典，并为词典中的每个词语设置一个索引编号，同时设置一个无意义词的索引编号；

对于词语数小于N的描述文档，在描述文档的最后一个词语后填充无意义词，直到其词语数为N；

基于词典中的每个词语的数值索引值将该描述文档中的每个词语转换成长度为V且仅当前词语的索引编号位置为1、其余位置为0的One-Hot向量；对于词语数小于N的描述文档，则设置多个仅无意义词的索引编号位置为1、其余位置为0的One-Hot向量，从而构建行数为N，列数为V的One-Hot向量矩阵；

卷积层用于提取每个文本对象的上下文特征，所述卷积层包括多个滑动窗口的卷积核，且每个卷积核包括多个神经元；

池化层用于获取每个卷积核的每个神经元所提取的局部特征向量中的最大值；并拼接同一卷积核中的所有神经元所提取的局部特征向量中的最大值得到对应各卷积核的池化层挑选特征向量；并拼接所有卷积核的池化层挑选特征向量后输入全连接层；

全连接层进行非线性映射处理后，得到文本对象的文档特征向量，例如记为

其中i表示文本对象区分符；

所述推送网络包括嵌入层、中间层和预测层；

其中，推送网络的嵌入层包括用户嵌入层和文本对象嵌入层：

用户嵌入层用于将用户的ID(身份唯一识别码)索引值映射为用户隐向量u_u，文本对象嵌入层用于将文本对象的ID索引值映射为文本对象方差向量；

其中嵌入层为惯用的转换处理方式，将输入的正整数转换为具有固定大小的向量

通过中间层将文档特征向量和文本对象的方差向量进行拼接，再依次通过多个全连接层进行非线性映射得到文本对象的文档隐向量v_i；

以及通过中间层将用户隐向量u_u与文档隐向量v_i进行拼接，再依次通过多个全连接层进行非线性映射得到浅层特征的推送概率

并计算用户u与文本对象i交互的深层特征的推送概率

其中，w_kj表示用户隐向量u_u中的第k个隐因子u_ku与文档隐向量v_i中的第j个隐因子v_ji之间的联系对预测推送概率产生的影响权重，K表示向量u_ku和v_ji的向量维度；

预测层融合推送概率

和

得到任意待推荐文本对象i对任意用户u的最终预测结果

步骤二、基于深度学习训练过程，采集训练数据集，对构建的文档特征提取网络和推送网络进行网络参数训练，得到训练好的文档特征提取网络和推送网络；

步骤三、文本对象推送处理：

对待推荐的用户集和文本对象集，获取每个待推荐用户的文本对象推荐列表并向对应用户推送；

提取各待推荐文本对象的One-Hot矩阵并输入训练好的文档特征提取网络，获取文本对象的文档特征向量

将待推荐文本对象的ID索引值输入文本对象嵌入层、待推荐用户的ID索引值输入用户嵌入层，基于得到的文档特征向量，根据训练好的推送网络得到每个待推荐文本对象与待推荐用户之间的最终预测结果

并选择前T(预设值)个最高的最终预测结果

作为当前待推荐用户的文本对象推荐列表。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明提供的基于卷积神经网络的文档对象的描述文档特征提取方式能够自动从文档对象的描述文档中提取出包含语义层面上的连续词语间的局部特征，从而从更微观的层面挖掘政策的属性信息；本发明提供的挖掘深层特征的混合推送方法将卷积神经网络提取的文本对象特征以一种更灵活的方式来构建文档对象表示向量，并用该表示向量和用户表示向量构建用户和政策交互的两种特征：浅层特征和深层特征，其中浅层特征描述的是用户和文本对象间非线性的关系，深层特征考虑的是隐因子层面更高阶的关系，从而提升现有的文本对象推送方式的推送准确度。

附图说明

图1是具体实施方式中，基于本发明的精准推送方法，实现对政策文本的推送处理过程。

图2是图1中所示的步骤S1的具体处理流程图。

图3是具体实施方式中，基于本发明的精准推送方法对政策文本进行推送处理时采用的神经网络结构示意图。

图4是具体实施方式中，挖掘深层特征的神经协同过滤政策推送方法的神经网络结构示意图。

图5是图1中所示的步骤S5的具体处理流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

本发明的基于神经协同过滤挖掘深层特征的文本对象精准推送方法，可以用于对政策、新闻等文本对象精准推送处理。本具体实施方式中，以政策为例，具体说明本发明的基于神经协同过滤挖掘深层特征的文本对象精准推送处理过程。

本发明的针对政策的精准推送处理，包括两个部分：基于卷积神经网络的政策描述文档特征提取处理和挖掘深层特征的混合推送处理两个部分，其中本发明提供的基于卷积神经网络的政策描述文档特征提取处理能够自动从政策的描述文档中提取出包含语义层面上的连续词语间的局部特征，相较大多政策混合推送方法中的特征提取处理，本发明的特征提取处理能够从更微观的层面挖掘政策的属性信息；本发明提供的挖掘深层特征的混合推送处理将卷积神经网络提取的政策文档特征以一种更灵活的方式来构建政策表示向量，并用该表示向量和用户表示向量构建用户和政策交互的两种特征：浅层特征和深层特征；其中浅层特征描述的是用户和政策间非线性的关系，深层特征考虑的是隐因子层面更高阶的关系，与现有的政策推送方法相比能够得到更高的推送准确度。

参见图1，本发明的基于神经协同过滤挖掘深层特征的政策精准推送方法，具体实现步骤包括：

步骤S1：文本预处理。

参见图2，本具体实施方式中，文本预处理的具体处理过程为：

S1.1：去除停用词。

对待处理的政策推送的政策集中的每一条政策，首先删除每一条政策中的停用词。

因为这些停用词包括大量出现的虚词、代词或者没有特定含义的动词、名词，这些词语对文本分析起不到任何的帮助，故将其删除。S1.2：计算TF-IDF。

1)计算TF，即词频。

针对每一条政策的描述文档，通过公式(1)来计算其中包含的每一个词语在当前描述文档中出现的频率。

公式(1)中，n_i,j表示政策j的描述文档(删除停用词后的描述文档)中第i个词语出现次数。即下标i,j分别为政策区分符和词语区分符。n_k,j表示政策j的描述文档中第k个词语出现的次数。

2)计算IDF，即逆向文档频率。

统计包含某个词语的描述文档的政策数量；并用其计算该词语对于区分文档的能力，，记为IDF_i；具体计算方式如公式(2)所示。

公式(2)中，t_i表示所用政策描述文档组成的词语集合中第i个词语，d_j表示政策j的描述文档中所有词语的集合。|D|表示待处理的政策文档总个数，即数据集中政策文档总个数；

3)计算TF-IDF值，即评估一条政策j的描述文档中第i个词语对于该文档的重要程度。通过公式(3)来计算TF值与IDF值的乘积。

TF-IDF_i,j＝TF_i,j×IDF_j (3)

S1.3：规范政策描述文档。

删除每条政策侧描述文档中词语的IDF值大于预设阈值的词语，并设置政策描述文档中能包含的词语的最大值N，词语数大于该值的政策描述文档将截取前N个词语。S1.4：建立词典和索引映射。

基于全部政策描述文档中出现的所有词语构建一个词典，并构建一个索引映射来将词典中每个词映射为一个数值索引值(也称索引编号)，且该索引映射中包含一个对应无意义词的索引(数值索引值)，如将0视为无意义的词的索引编号。

S1.5：One-Hot编码政策描述文档。

根据词典和索引映射，将每一条政策的描述文档转化为一个包含词语顺序的数值向量，并对描述文档词语数不足N个的政策，在其对应的数值向量最后填充无意义词的索引编号直至向量大小为N。

将每一条政策描述文档中每一个词语索引映射为一个大小为词典包含的词语数V且仅该词语索引编号位置为1，其余位置为0的One-Hot向量。最终每一条政策的描述文档将对应一个行数为N，列数为V的矩阵。步骤S2：政策描述文档特征提取网络构建。

构建一个用于提取政策描述文档特征的卷积神经网络，输入为One-Hot编码的政策描述文档，输出为对应的特征向量。参见图3，该卷积神经网络包括嵌入层、卷积层、池化层(最大值池化方式)和全连接层；即该卷积神经网络的输入层为政策描述文档的One-Hot矩阵。

将每条政策对应的One-Hot矩阵通过嵌入层(Embedding)来获得一个隐语义矩阵。即通过将One-Hot矩阵中每一个向量表示的词语借助一个相同的嵌入矩阵映射为表示该词语的隐语义向量。其中，嵌入层的嵌入矩阵可以采用任一惯用的方式设置，本具体实施方式不做具体限定。

用卷积层来提取每条政策中的上下文特征。它包括了多个滑动窗口的卷积核，每个卷积核对应的窗口大小表示其将提取该数目的相邻单词的上下文特征，同时每个卷积核又包含了m个神经元来在文档的隐语义矩阵上执行卷积操作。

用X_i表示政策i通过嵌入层获得的隐语义矩阵。划窗宽度为t的卷积核中第j个神经元K_j在嵌入矩阵中提取的局部特征为：

Z_j＝f(X_i*K_j+b_j) (4)

其中b_j是偏差项，*表示卷积操作，f(.)是非线性的激活函数ReLU。

使用最大池化来挑选出Z_j中网络最关注的特征的值

从而去除噪声，定义为：

是Z_j向量中的第i个值，将一个划窗宽度为t的卷积核中所有神经元提取出的特征拼接组成O^t，用公式可以表示为：

池化层输出的所有卷积核提取的经过最大池化挑选的特征向量

进行拼接组成向量O，用公式可以表示为：

紧接着将向量O输入全连接层，全连接层包括一个权重矩阵W_d和一个偏差向量g_d，输出的向量表示经过一个全连接层进行非线性映射的政策的特征向量，过程可以用公式表示为：

其中，

表示网络提取出的政策i的文档特征向量，通过以上步骤，政策描述文档特征提取网络可以被视为一个将政策描述文档作为输入，生成每个文档对应的文档特征向量的函数，表示为：

其中，cnn()表示卷积神经网络，W表示该神经网络中的所有参数。

步骤S3：政策推送网络构建。

将用户u和政策i的ID索引值以及政策i的文档特征向量(One-Hot编码的政策描述文档)输入所构建的政策推送网络，可以预测对应的政策推送概率值。

参见图4，本具体实施方式的政策推送网络包括嵌入层(分别用于用户、政策的ID索引值的用户嵌入层和政策嵌入层)、中间层(包括拼接层、多层感知机等)和预测层；主要是利用在政策嵌入层之上加入多个非线性层来学习交互关系，这种结构也被称为多层感知机(MLP)。

即通过政策嵌入层将政策i的ID索引值映射为方差向量p_i，将该方差向量p_i与政策i的描述文档特征向量

拼接，表示为：

将Z₁依次通过多个全连接层，并利用激活函数进行多次非线性映射，过程如下：

……

其中L表示前馈层的层数(即全连接层的层数)，α_l表示第l层的非线性激活函数，b_l表示第l层的偏差向量，

指第l层的权值矩阵，v_i表示政策i的隐向量，即文档隐向量v_i。

构建非线性浅层特征并预测用户u对政策i的推送概率r_ui。通过用户嵌入层将用户u的ID索引值映射为用户隐向量u_u，将用户隐向量u_u与政策i的隐向量v_i拼接，然后通过多层感知机进行非线性映射，表示为：

其中L表示前馈层的层数，

表示第l层的非线性映射函数。

挖掘用户u与政策i交互的深层特征并预测对应推送概率r_ui，用公式表示如下：

其中w_kj表示用户u的隐向量u_u中第k个隐因子与政策i的隐向量v_i中第j个隐因子的之间的联系对预测推送概率产生的影响权重，K表示u_u和v_i的向量维度。

神经协同过滤政策推送网络最终由浅层特征与深层特征共同预测政策推送概率，表示如下：

其中w₁和w₂代表浅层特征与深层特征对政策推送任务的作用程度，即权重。

步骤S4：初始化，包括参数与超参数。

根据采集的数据集(包括用户和政策)对用户数量U和政策数量M进行赋值。

1)设置政策推送方法中的超参数。如政策描述文档最大包含词语数、隐向量嵌入维度、网络中的节点数、学习率和最大迭代次数等。

2)随机初始化两个网络(政策描述文档特征提取网络和政策推送网络)中的参数。如全连接层权重矩阵、全连接层偏差向量和嵌入层权重矩阵等。

步骤S5：政策推送方法的参数训练与政策推送。

参见图5，针对两个网络的网络参数训练和利用训练好的网络实现政策推送的具体过程如下：

S5.1：初始化迭代次数为1；

S5.2：建立特征提取网络的优化目标为：

其中，λ_V、λ_W是控制正则化程度的超参数，w_k表示特征提取网络中第k个参数，

表示Frobenius范数。

基于设置的训练数据集(包括用户、政策)，固定政策推送网络的参数，通过反向传播算法来训练特征提取网络中的参数。

S5.3：判断特征提取网络是否收敛，即是否政策描述文档中的验证集评估指标不再优化。若该网络收敛，转到步骤S5.4执行。否则返回执行步骤S5.2。

S5.4：建立政策推送网络的优化目标为：

其中I_ui为1表示用户u已经与政策i产生了交互，并且r_ui为1表示用户一定需要推送该政策，否则I_ui为0。λ_P是控制正则化程度的超参数，p_k表示政策推送网络中第k个参数。

基于设置的训练数据集(包括用户、政策)，固定特征提取网络的参数，通过反向传播算法来训练政策推送网络中的参数。

S5.5：当前迭代次数加一，判断当前迭代次数是否达到预设最大迭代次数；若成立，则转到步骤S5.7执行；否则，转到步骤S5.2执行。

S5.6：判断政策推送网络是否收敛，即是否用户与政策的推送交互矩阵中验证集评估指标不再优化。若该网络收敛，转到步骤S5.4执行。否则返回执行步骤S5.2。

S5.7：基于训练好的政策描述文档特征提取网络和政策推送网络，获取每个用户推送概率预测最高的前K条政策，构成用户的政策推送列表。

1)将第i条政策(i＝1,2,…,M)的描述文档输入特征提取网络获得该政策的文档特征向量。

2)从当前已有的政策集中，获取未与当前用户u产生过交互的政策集；然后基于训练好的和政策推送网络获取该政策集中的每条政策与当前用户u对应的推送概率

然后选择前T个最高的推送概率

作为用户u推送的政策列表。

即将用户u的ID索引值和政策i的ID索引值以及政策i的文档特征向量输入政策推送网络来计算对应的预测推送概率

每一条用户u没有产生过交互的政策均通过该方式来计算预测推送概率，并选择其中预测推送概率值最高的前K条政策视为推送方法为用户u推送的政策列表。

3)对每个用户u(u＝1,2,…,U)，采用步骤2)的方法得到所有用户的政策推送列表。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种基于神经协同过滤挖掘深层特征的文本对象精准推送方法，其特征在于，包括下列步骤：

步骤一：构建文档特征提取网络和推送网络；

全连接层进行非线性映射处理后，得到文本对象的文档特征向量；

所述推送网络包括嵌入层、中间层和预测层；

用户嵌入层用于将用户的ID索引值映射为用户隐向量u_u，文本对象嵌入层用于将文本对象的ID索引值映射为文本对象方差向量；

并计算用户u与文本对象i交互的深层特征的推送概率

预测层融合推送概率

和

得到任意待推荐文本对象i对任意用户u的最终预测结果

步骤三、文本对象推送处理：

对待推荐的用户集和文本对象集，获取每个待推荐用户的文本对象推荐列表并向对应用户推送：提取各待推荐文本对象的One-Hot矩阵并输入训练好的文档特征提取网络，获取文本对象的文档特征向量；将待推荐文本对象的ID索引值输入文本对象嵌入层、待推荐用户的ID索引值输入用户嵌入层，基于得到的文档特征向量，根据训练好的推送网络得到每个待推荐文本对象与待推荐用户之间的最终预测结果

并选择前T个最高的最终预测结果

作为当前待推荐用户的文本对象推荐列表。

2.如权利要求1所述的方法，其特征在于，描述文档的One-Hot矩阵的设置采用下述方式：

基于词典中的每个词语的数值索引值将该描述文档中的每个词语转换成长度为V且仅当前词语的索引编号位置为1、其余位置为0的One-Hot向量；对于词语数小于N的描述文档，则设置多个仅无意义词的索引编号位置为1、其余位置为0的One-Hot向量，从而构建行数为N，列数为V的One-Hot向量矩阵。

3.如权利要求2所述的方法，其特征在于，设置描述文档的One-Hot矩阵时，根据公式

计算第s个词语的逆向文档频率IDF_s，其中t_s表示待处理的文本对象的所有描述文档组成的词语集合中第s个词语，d_i表示文本对象i的描述文档中所有词语的集合，|D|表示待处理的文本对象的总数量。

4.如权利要求1所述的方法，其特征在于，文档特征提取网络的优化目标为：

其中，λ_V、λ_W是控制正则化程度的超参数，w_k表示文档特征提取网络中第k个参数，

表示Frobenius范数，X_i表示文本对象i通过嵌入层获得的隐语义矩阵，W表示文档特征提取网络中的所有参数，cnn()表示卷积神经网络。

5.如权利要求1所述的方法，其特征在于，推送网络的优化目标为：

其中，M表示文本对象数量，U表示用户数量，I_ui用于表征用户u与文本对象i是否产生了交互，r_ui用于表征用户u是否一定需要推送文本对象i；

若I_ui取值为1，则表示产生了交互，并且r_ui为1；否则I_ui为0，λ_P表示控制正则化程度的超参数，p_k表示推送网络中第k个参数。