CN111506835A

CN111506835A - 一种融合用户时间特征和个性特征的数据特征提取方法

Info

Publication number: CN111506835A
Application number: CN202010306982.2A
Authority: CN
Inventors: 礼欣; 郭振宇; 苏海萍
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2020-08-07
Anticipated expiration: 2040-04-17
Also published as: CN111506835B

Abstract

本发明涉及一种融合用户时间特征和个性特征的数据特征提取方法，属于人工智能技术领域；本发明基于多用户的批量时序数据，通过时间卷积神经网络建模数据的序列关系，同时引入时间通道和个性特征通道注意力机制自动选择与预测下一个数据点所密切相关的数据特征，从而获取用户的综合数据特征，在此基础上，可以利用现有神经网络模型提供基于用户历史习惯的相关服务。对比现有技术，本发明有效解决了传统神经网络模型在使用数据时效率低下的问题，通过时间通道和个性特征通道两种注意力机制，强调了时间信息和用户个性对于特征提取的重要性，提高了特征提取的有效性。

Description

一种融合用户时间特征和个性特征的数据特征提取方法

技术领域

本发明涉及一种数据特征提取方法，具体涉及一种融合用户时间特征和个性特征的数据特征提取方法，属于人工智能技术领域。

背景技术

近年来，基于地理位置信息的社交网络得到了长足的发展：用户可以很方便地获取自己的实时位置信息，在网络中分享或者寻找相关信息的服务，与之相关的应用也油然而生。社交网络中的地点除了具有经纬度之外还包括具体的地名、地点种类、社会功能以及用户自定义的标签，这类具有丰富信息的地点被称为兴趣地点，与无意义的经纬度坐标相区分。然而，每个用户的位置数据高度离散，如何对其进行建模，做出准确的推荐计算存在较大的挑战性。当前的研究工作主要从人们的移动方式进行考虑，由于人们的行为存在一定程度上的序列性，故而兴趣点的推荐应当与用户当前位置的序列变化有关。因此，很多研究人员开展了对连续兴趣点推荐任务的研究。

连续兴趣点推荐本质上是对于以用户为中心的一系列时间序列数据进行分析，提取其中地点信息随着时间等因素的变化规律，依据不同的特征开展预测。如“中午十二点”时用户大都集中于“餐饮”地点，这就是需要提取出来的“时间特征”。当前面向特征提取的研究工作主要利用神经网络来提取用户的序列特征，尤其是对应时间戳上的位置信息，来建模数据与目标之间的关联。很多工作研究了包括RNN及其变体、CNN及其变体、无监督的序列标识以及GAN方法在内的神经网络对位置特征的提取。

RNN、CNN及其变体通过一次网络结构提取用户的历史位置特征，但是它们需要使用多变量时序序列的轨迹特征识别来协同处理，例如动态贝叶斯网络、高斯回归过程等。这些方法引入了更多参数，极大增加了模型的复杂度，降低了提取效率。

无监督的序列标识利用无监督学习的方法对用户序列在单一特征水平上进行分析，如排序、聚类等，并且依赖于大量的数据进行建模分析。在用户数据的特征提取上，它难以兼顾“时间”和“个性”这两种特征，容易产生“顾此失彼”的问题；同时，序列标识对数据规模要求严格，这也限制了其应用范围。

GAN是另一类计算网络，它利用“生成”网络提取特征，利用“对抗”网络评估提取的结果并给予反馈。当GAN被应用于提取用户序列这样的离散时间数据时，它往往会提取不到合适的离散特征；当相邻的用户特征区别较大时，它会产生“整体依赖”，忽视用户之间的差异性，从而影响与用户个性因素的关联性，降低了特征提取效率。

综上所述，现有面向连续兴趣点推荐任务迫切需要一种既能够满足数据使用效率要求，又能够兼顾“时间”和“个性”的特征提取方法，以满足基于序列数据的推荐任务或预测任务的需要。

发明内容

本发明的目的在于提供一种融合用户时间特征和个性特征的数据特征提取方法，该方法通过建模用户在时间序列下的位置数据，计算这些信息的中间表示(综合特征数据)，即附加了特征信息的数据，而后综合特征数据可以被应用于进行连续兴趣点学习、推荐、预测等任务计算，向用户提供相关问题的决策参考。

本发明的思想是基于多用户的批量时序数据，通过时间卷积神经网络建模数据的序列关系，同时引入时间通道和个性特征通道注意力机制自动选择与预测下一个数据点所密切相关的数据特征，从而获取用户的综合数据特征，在此基础上，可以利用现有神经网络模型提供基于用户历史习惯的相关服务。本发明的目的是通过以下技术方案实现的：

一种融合用户时间特征和个性特征的数据特征提取方法，包括以下步骤：

用户的原始数据Z如下所示：

其中，每一行代表一个时间点，i＝1，2，…，T，T为总时间；每一列代表一个用户的时序数据，j＝1，2，…，N，N为用户总数；元素l_ij为用户j在i时刻的数据信息，是一个长度为P的独热向量；

步骤一、对输入的多用户时序数据Z利用时间卷积网络建模、计算，得到数据序列之间的特征关系TCN，其形式如下：

其中，TCN与输入数据维度完全一致，f_ij表示已经被抽取出的用户m_i在t_j时刻的兴趣点特征；

步骤二、对TCN通过时间通道注意力机制模块time-SE计算，自动抽取与时间戳相关的统计信息，得到时间特征序列S_t；

所述time-SE模块包括3个子模块：Squeeze模块、Excitation模块以及乘法模块；

Squeeze模块的内容是一个全局平均池化层(GAP)，用以对TCN提取时间上的全局特征；

Excitation模块F_ex的内容是一个sigmoid函数，它将Squeeze模块的注意力重新分配到对应的时间戳上；

乘法模块F_scale的内容是对F_ex模块的输出和TCN输出做加权乘法操作得到包含了时间戳信息的全局特征序列S_t；

步骤三、对TCN经过个性特征通道注意力机制模块计算，自动抽取与对应用户相关的关键信息，得到个性特征序列S_w；

所述个性特征通道注意力机制模块包括2个子模块：卷积模块F_conv，用以将1×1的卷积应用到TCN的输出结果上提取个性特征注意力CA，其元素CA_j表示用户m_j的兴趣点注意力值，表示如下：

乘法模块F_m，用以对F_conv模块的输出(即CA序列)与TCN做加权乘法，得到包含了个性特征的序列S_w；

步骤四、对两种注意力机制提取到的位置特征序列S_t和S_w加和得到综合特征S：

S＝S_t+S_w

输出序列S即为有效地融合时间通道注意力模块和个性特征通道注意力模块提取特征的综合特征。

有益效果

本发明方法，与现有技术相比，具有以下有益效果：

本发明有效解决了传统神经网络模型在使用数据时效率低下的问题；

本发明引入了时间通道和个性特征通道两种注意力机制，强调了时间信息对于时序数据和用户个性对于预测的重要性，模块架构更加简捷，具有良好的扩展性，提高了特征提取的有效性，基于本发明提取的特征能够为用户提供更加准确高效的推荐或预测服务。

附图说明

图1为FourSquare数据集中用户偏好随时间戳变化示意图；

图2为FourSquare数据集中不同时间戳下累计分布函数示意图；

图3为用户签到源数据示意图；

图4为时间卷积网络残差模块示意图；

图5为时间通道模块示意图；

图6为个性通道模块示意图；

图7为结合两种通道注意力机制的示意图；

图8为多任务模型结构示意图；

图9为本发明实施例具体实施流程示意图；

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

使用本发明得到的数据特征可用于连续兴趣点推荐、投资分析、健康情况评估等多种应用场景，满足人们日益增长的物质文化需要。

本例以连续兴趣点推荐应用为例，将本发明融合用户时间特征和个性特征的序列数据应用于连续兴趣点推荐任务，具体过程如下：

图1和图2显示的是我们选取的FourSquare数据集中，纽约市这一范围内的签到数据，它们包含了不同用户在不同的时间间隔(TransitionInterval)内在不同类型地点的转移概率(Probability)，以此说明他们对于不同地点的兴趣变化情况。图1显示的是面向餐饮(Food)和夜店(Nightlife)两类地点的时间兴趣分布，容易看出，用户们对这两类地点的兴趣随着时间的变化而变化，其中较为明显的是在餐厅的三次峰值兴趣出现时，其时间戳分别为4、12和23时；夜店的峰值兴趣出现时，其时间戳为10时。尽管不是所有用户都在对应时间上产生兴趣，但这依然表示他们对这些地点的兴趣遵循着一定的模式。图2则显示的是用户在访问工作场所(Work)之后，接下来去访问其他类型兴趣点的时间间隔的累积分布函数。其中户外(Outdoor)曲线最为平滑，表明用户在工作结束之后对户外场馆的兴趣更加强烈，优先级更高。

根据图1和图2所观察到的现象，将融合用户时间特征和个性特征的序列数据应用于连续兴趣地点推荐方法为用户提供连续兴趣点推荐服务。

原始数据为用户在选定时间段内对所有兴趣点的签到记录，因此需对其进行处理，得到在时间戳顺序上的用户-兴趣点表示，其具体过程如下：

对于形如图3的签到源数据Z，将其输入到模型中进行训练。其中，l_ij表示原始记录中的地点信息，本例以独热编码(One-Hot)表示，内含地点的经纬坐标、类别(如餐饮、运动、工作等)，这也是模型训练中将要用于评估的标签数据。例如，用户j在时刻i访问了户外地点(Outdoor)，而假设编码顺序为["饮食","工作","户外","其他"]，则l_ij为[0,0,1,0]。

1.利用时间卷积网络建模序列关系

对源数据Z利用时间卷积网络，如Bai S,Kolter J Z,Koltun V等人在2018年于arXiv发表的An Empirical Evaluation of Generic Convolutional and RecurrentNetworks for Sequence Modeling(序列建模中一般卷积和递归网络的经验评估)中的时间卷积网络，进行建模、计算得到兴趣点数据序列之间的特征关系TCN；具体过程如下：

图4所示的残差模块是时间卷积神经网络的主要组成模块，它利用了Zero-padding方法保证输入和输出数据的维度一致。对于单个残差模块而言，它所接受的输入内容是前一个模块的输出(第一个模块接受源数据输入)，这一项数据会被用于两处：一处是被用于计算残差块结果，另一处是经过一维卷积来与残差块结果加和作为本模块的输出。计算残差的部分首先经过空洞因果卷积(DilatedCasualConv)计算，计算输入数据中所包含的历史信息，在本发明中即为用户的前序签到信息，而后将历史信息数据经过权值正则化(WeightNorm)、非线性转化(ReLU)过程，将结果控制在一个合理的范围内，最后经过随机失活层(Dropout)，将部分结果随机归零，降低模块之间的互相依赖性。经过一维卷积层(1×1Conv)的部分则提取出与时间相关的兴趣点数据，与残差块计算的历史信息作残差连接(+)，得到修正数据作为当前模块的输出。如此，经过多个残差模块堆叠修正，输出数据TCN就包含了需要的时间兴趣点概率信息，用于后续计算。

本例中使用的是Bai S,Kolter J Z,Koltun V等人提出的时间卷积网络，实际应用中，不限于此，只要是能够获取序列数据的规律信息即可，如时延神经网络、双向长短记忆网络等。

2.使用时间通道注意力机制建模与时间戳相关的兴趣点信息

对于时间通道注意力机制，其模块如图5所示。构建time-SE模块包含3个部分：

首先构建Squeeze模块，用以提取时间“通道”上的全局信息；Squeeze模块的内容是一个全局平均池化层(GAP)，TCN经过这一池化层的操作可以记为F_sq，表示为：

Z＝F_sq(TCN₁,TCN₂,…,TCN_k,…,TCN_T)

其中，TCN_k表示所有用户在时间k的兴趣点特征，得到的结果是一个1×1×T的向量；

接下来构建Excitation模块，依据Squeeze模块提供的全局信息计算注意力，并重新分配到对应的时间戳上；Excitation模块的内容是一个sigmoid函数，它将Squeeze模块的注意力重新分配到对应的时间戳上，这一步可以记为F_ex，为了更好地拟合不同时间的相关性，本例中加入了ReLU激活和两个全连接层，表示为：

Z′＝F_ex(Z,W)＝σ(W₂δ(W₁Z))

其中，δ是ReLU激活，σ是sigmoid函数，W₁和W₂分别是两个全连接层(FC)的参数，得到的结果依然是一个1×1×T的向量TA，其元素TA_i表示t_i时刻的兴趣点注意力值，表示如下：

乘法模块的内容是对F_ex模块的输出(即TA序列)和TCN输出做加权乘法操作，这一步记为F_scale；这一步用TA_i衡量i时刻信息的重要性，通过乘法加权的方式乘到先前的TCN特征上，结果是包含了时间戳信息的兴趣点序列S_t，这个过程可以表示为：

S_t＝F_scale(TCN,TA)＝TA_i×t_i

＝TA_i×(f_i1,f_i2,…,f_iN)i＝1,2,3,…,T

综上所述，time-SE模块所接受的输入是TCN，首先进入的Squeeze模块由一个全局池化层(GlobalPooling)构成，由于TCN卷积结果已经将包含时间序列信息的数据整合到输出中，池化层能够直接通过平均池化方法来获取时间统计量，通过时间统计量来解析全局兴趣点信息，这部分统计量将进入到之后的Excitation模块中，该模块利用激活函数sigmoid来计算在不同时间上的兴趣点的重要程度，即本发明中的时间通道注意力TA_i。最后，F_scale模块将TA序列与TCN做乘法加权，得到包含了时间戳信息的兴趣点序列S_t，这就是time-SE模块的输出。

3.使用个性通道注意力机制建模与用户相关的兴趣点信息

对于个性通道注意力机制，其模块如图6所示。它类似于time-SE，接受TCN卷积结果作为输入，但不同之处在于，它只包含2个部分：卷积模块F_conv和乘法模块F_scale。卷积模块使用一次一维卷积，将个性特征从TCN中剥离出来：

F_conv(TCN₁,TCN₂,…,TCN_m,…,TCN_N)

其中，TCN_m表示用户m在所有时间下的兴趣点特征，得到的是每个用户的注意力CA，然后对其进行综合考虑加和得到序列表示。乘法模块将CA序列与TCN做乘法加权，得到携带了用户个性通道注意力的卷积结果S_w，这一过程可以表示为：

S_w＝F_scale(TCN,CA)＝CA_j×m_j

＝CA_j×(f_1j,f_2j,…,f_Tj)j＝1,2,3,…,N

4.通过相加的方式结合两种注意力机制提取到的数据特征

时间通道注意力S_t与个性通道注意力S_w都是经由TCN计算得到的，并且它们相互独立，所以在并行计算之后，将这两个注意力的结果加和，如图7所示，就能够得到结合两种注意力机制提取特征的数据S。由此可见，时间通道注意力S_t与个性通道注意力S_w并行计算，可以极大提高计算效率，缩短计算时间。

5.将融合用户时间特征和个性特征的序列数据应用于连续兴趣地点推荐

针对融合用户特征的序列数据，建立神经网络模型进行连续兴趣地点推荐任务。本例以LSTM(长短期记忆神经网络)为例，说明网络模型的架构。

建立网络模型的过程中，本例引入了多任务模型用于强化训练效果，提高结果的准确性。以“多个兴趣点综合评价(辅任务)”和“用户个性化兴趣点推荐(主任务)”两项任务为例，多任务模型关联了这两个任务的计算误差，并赋予不同的权重λ。其计算过程可以简化表示为：

X_c＝softmax(w^(c)S+b^(c))

X_d＝softmax(w^(d)S+b^(d))

l_X＝λ_cl_c+λ_dl_d

其中，X_c、l_c表示对多个兴趣点的综合评价结果和损失，X_d、l_d表示对单个用户个性化兴趣点的推荐结果和损失，l_X表示推荐模型的总体损失，λ_c、λ_d表示多任务学习中人为赋予不同任务的权重；w与b分别是对应任务的参数。

本发明使用交叉熵函数作为网络模型的损失，将输出的排序结果与源标签进行对比计算损失值用于训练。

如图8所示，两个任务的输入均为特征序列S，其输出结果分别对应对于多兴趣点的评价和对单用户的推荐内容，其对应的损失通过加权形成了多任务整体损失l_X。

6.训练模型并调节参数

使用现有的数据集中的数据对模型进行训练，其中待求解的参数包括时间卷积网络中的参数和多任务结构中各个任务表达式的参数。在一次训练时，每一组数据在经过上述过程后可以得到一个任务的结果，以“用户个性化兴趣点推荐”任务为例，在输入用户的历史数据之后，可以得到模型在后续时间上的预测地点，将这一结果与数据集中原有的结果进行比较，并使用误差计算公式进行计算，得到损失。选用正则化方法(如L1正则化)，利用损失值迭代求解各参数，并将更新得到的参数回代到模型中，进行下一次训练。重复上述过程，直到得到的损失值满足模型的精度需求(取得最优值)，参数模型即训练完毕。

7.回代参数并用于预测

当所有参数求得最优值后，连续兴趣点推荐等任务即可通过一次计算完成，即将用户的ID和时间输入模型，系统即可自动计算得到地点推荐序列，完成面向独立用户的兴趣点推荐任务。

以上就是完整的方法流程，如图9所示。

评价指标

下面对本发明融合用户时间特征和个性特征的数据特征提取方法的性能进行评价。由于本发明的应用任务针对的是下一步兴趣点推荐，因此使用兴趣点推荐的评价指标反映特征提取的效果。使用P@N评价指标来评价推荐性能，P@N指标定义如下：

其中，M为测试样本的数量，RecList_1:N表示推荐列表中的前N个结果，y_i为第i个样本的实际结果，II[·]为布尔指示函数，当其内部值为True时得到1，为False时得到0：这样，II[y_i∈RecList_1:N]表示推荐是否正确，P@N可以理解为推荐N个结果的整体正确率。

同时，对于实际中用户往往更加重视推荐程度靠前的位置，因此引入一个新的评价指标：评价准确率均值MAP，其计算方法如下：

其中，m为测试样本的数量，N为推荐项目数据，T_i表示第i个测试样本的实际值，R_i,1:j表示第i个样本的前j个推荐结果。MAP@N侧重于正确结果在推荐列表中的位置情况，这样考虑更加贴近用户的使用体验，但表达的含义相对P@N更加复杂，因此这两个指标需要同时使用，优势互补。

数据集

从两个位置社交网络TKY和NYC中选取数据用于实验，分别记录的是东京和纽约的用户从2012年4月到2013年2月的签到记录。两个数据集中用户的平均签到次数很高，几乎都是核心用户。我们将其中签到次数小于5的位置舍弃，以降低冷门地点的影响。我们将数据集分为两个不重叠的集合：按照每个用户的签到时间轴切分为训练集和测试集，早期70％为训练集，后期30％为测试集。数据集的统计信息如表所示。

表1数据集统计信息

数据集	用户量	位置数	签到量	用户平均签到数	位置平均签到数
						TKY(东京)	2293	61858	573703	250.19	9.27
NYC(纽约)	1083	38333	227428	209.98	5.93

实验结果

在本发明中，以连续兴趣点推荐任务为例，我们将本发明(Ours)与以下模型进行对比：

(1)NEXT模型：该模型将用户、当前兴趣地点以及候选兴趣地点的Embedding向量作为特征数据输入神经网络，计算相应的评分，同时加入用户和兴趣地点的辅助特征数据以及时间间隔信息来强化数据特征，并使用DeepWalk算法来预训练用户和兴趣地点的向量，提高特征提取的效果。

(2)ST-RNN模型：该模型利用RNN模型来处理用户的历史签到记录，并根据不同的时间间隔和距离来学习不同的RNN参数，将RNN的输出作为用户历史签到记录的特征表示，并结合用户和候选兴趣地点信息两种特征数据来预测评分。

(3)FPMC-LR模型：该模型通过分解三阶张量兴趣地点转移概率张量提取用户的特征，以此来预测下一个兴趣地点，并使用当前兴趣地点和候选兴趣地点的距离特征来过滤不合理的候选兴趣地点。

表2和表3列出了连续兴趣点推荐的实验结果。我们利用训练集优化模型参数，并将参数的最优值用于测试集。实验结果如下：

表2各方法在TKY数据集上连续兴趣点推荐的准确率

评价指标	NEXT	ST-RNN	FPMC-LR	Ours
					P@1	0.0829	0.1160	0.0628	0.1449
P@5	0.2075	0.1535	0.1308	0.2821
					P@10	0.2654	0.1836	0.1548	0.3117
P@20	0.3178	0.2067	0.2054	0.3356
					MAP	0.1396	0.0849	0.0942	0.2040

表3各方法在NYC数据集上连续兴趣点推荐的准确率

评价指标	NEXT	ST-RNN	FPMC-LR	Ours
					P@1	0.05893	0.09184	0.11513	0.0988
P@5	0.15757	0.15677	0.14784	0.2265
					P@10	0.2104	0.1855	0.1723	0.2790
P@20	0.2635	0.2124	0.1919	0.3219
					MAP	0.1049	0.1206	0.0814	0.1557

(1)本发明和ST-RNN、NEXT模型总体上显著优于FPMC-LR模型，这表明深度神经网络在用户特征提取中起着重要作用，主要在于深度模型能够利用更多的历史数据以及辅助信息，且深度模型能够更好的发掘数据中隐藏的特征。此外，本发明与ST-RNN和NEXT模型的训练周期和耗时几乎相同，而结果表明本发明整体准确率更高，这表明通过融合时间卷积网络和个性通道可以更好地建模用户的行为规律和兴趣偏好，提高使用原始数据的效率。

(2)与其他特征提取算法相比，本发明在兴趣点的推荐顺序中存在明显的优势，这表明个性通道注意力机制对于用户特征的提取，对于兴趣点的推荐有着重要作用。由于个性通道能够捕获用户在历史位置中的信息、建模兴趣点的重要性，因此添加该注意力特征之后能够使正确的结果在推荐列表中的排名上升，提升用户的使用体验。

综上所述，本发明所提出的融合用户时间特征和个性特征的数据特征提取方法优于其他对比算法，从而证明了本发明方法的有效性，能够应用到连续兴趣点推荐任务并提供有效的兴趣点推荐。当然，通过以上论述可知，由于本发明方法不但能够充分提取用户的时间序列特征还能够充分关注用户的个性特征，因而可将该方法用于投资分析、健康情况评估等各种神经网络学习场景，都会取得如上述兴趣点推荐场景的良好效果。

为了说明本发明的内容及实施方法，本说明书给出了一个具体实施例。在实施例中引入细节的目的不是限制权利要求书的范围，而是帮助理解本发明所述方法。本领域的技术人员应理解：在不脱离本发明及其所附权利要求的精神和范围内，对最佳实施例步骤的各种修改、变化或替换都是可能的，任何人在本发明的启示下都可得出其他各种形式的产品，因此，本发明不应局限于最佳实施例及附图所公开的内容，但不论在其形状或结构上作任何变化，凡是具有与本申请相同或相近似的技术方案，均落在本发明的保护范围之内。

Claims

1.一种融合用户时间特征和个性特征的数据特征提取方法，其特征在于：包括以下步骤：

用户的原始数据Z如下所示：

其中，每一行代表一个时间点，i＝1，2，…，T，T为总时间；每一列代表一个用户的时序数据，j＝1，2，…，N，N为用户总数；元素l_ij为用户j在i时刻的数据信息；

其中，f_ij表示已经被抽取出的用户m_i在t_j时刻的兴趣点特征；

乘法模块F_m，用以对F_conv模块的输出与TCN做加权乘法，得到包含了个性特征的序列S_w；

步骤四、对两种注意力机制提取到的全局特征序列S_t和个性特征序列S_w加和得到综合特征S。