CN113032567A

CN113032567A - 位置嵌入解释方法、装置、计算机设备及存储介质

Info

Publication number: CN113032567A
Application number: CN202110334812.XA
Authority: CN
Inventors: 丁冬睿; 陈勐; 张凯; 杨光远
Original assignee: Guangdong Zhongju Artificial Intelligence Technology Co ltd
Current assignee: Guangdong Zhongju Artificial Intelligence Technology Co ltd
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2021-06-25
Anticipated expiration: 2041-03-29
Also published as: CN113032567B

Abstract

本发明公开了一种位置嵌入解释方法、装置、计算机设备及存储介质。该方法包括：获取原始数据集，并对原始数据集进行预处理；获取多个位置数据对应的多个位置；根据预处理后的原始数据集中的多个位置上下文序列，利用Skip‑gram模型学习得到多个位置嵌入向量；获得多个位置类别数据对应的多个位置类别；利用Skip‑gram模型学习得到多个位置类别嵌入向量，使多个位置嵌入向量与多个位置类别嵌入向量均位于原始向量空间中；按照预定的规则，将每个位置嵌入向量从原始向量空间转换到语义向量空间，得到每个位置嵌入向量对应的位置语义表示。该方法能够学习更多的语义信息，使每个维度的向量都有可解释性。

Description

位置嵌入解释方法、装置、计算机设备及存储介质

技术领域

本发明实施例涉及机器学习技术领域，尤其涉及一种位置嵌入解释方法、装置、计算机设备及存储介质。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

针对嵌入模型的学习主要分为两大类别：第一种是受词嵌入模型成功的启发，可以采用词向量(Word2vec)框架从签到数据中学习位置嵌入(即位置嵌入向量)。可以对签到序列进行建模，并捕获线性上下文的影响以学习位置嵌入，这些嵌入可用于个性化场所推荐。除了顺序模式，后续开始考虑动态的用户偏好和学习位置表示的时间因素。时间位置嵌入模型根据地理信息区分访问的位置，并将地理影响纳入到成对偏好排序方法之中。也可以提出一个通用的多上下文轨迹嵌入模型，该模型在相同的潜在空间中投影用户、轨迹、地点、类别标签和时间因素。还可以利用外部信息(例如文本内容)来学习位置嵌入。但是，所有这些签到嵌入方法都没有注意位置嵌入维度的可解释性。

同时，可以基于卷积神经网络学习位置嵌入的模型，某些方法利用循环神经网络进行建模签到的顺序模式，并学习将位置嵌入作为模型生成的结果。时空分层长短期记忆(Long Short-Term Memory)LSTM模型利用历史访问信息和时空位置预测的因素进行位置预测。时空递归神经网络(Spatial Temporal-Recursive Neural Network，ST-RNN)用于为挖掘移动性模式建模本地时空上下文。使用循环神经网络捕获移动轨迹中顺序相关性的网络。然而，这些基于递归神经网络(Recursive Neural Network，RNN)的方法着重于挖掘序列中的长期转变，而不是位置表示的质量性和健壮性。同时，也忽略了位置嵌入物的可解释性。

综上所述，相关技术中的位置嵌入模型都忽视了模型的可解释性，使得学习得到的向量每一个维度都没有具体的意义，无法满足业务场景需求。

发明内容

本发明提供一种位置嵌入解释方法、装置、计算机设备及存储介质，以解决现有技术中存在的上述问题。

第一方面，本发明实施例提供了一种位置嵌入解释方法。该方法包括：

S10：获取原始数据集，并对所述原始数据集进行预处理，其中，预处理后的原始数据集由多个位置数据和多个位置类别数据组成，每个位置数据对应一个位置类别数据；

S20：获取所述多个位置数据对应的多个位置，其中，每个位置对应至少一个位置数据；根据所述预处理后的原始数据集中的多个位置上下文序列，利用Skip-gram模型学习得到多个位置嵌入向量，其中，每个位置对应一个位置嵌入向量；

S30：获得所述多个位置类别数据对应的多个位置类别，其中，每个位置类别对应至少一个位置类别数据；利用Skip-gram模型学习得到多个位置类别嵌入向量，使所述多个位置嵌入向量与所述多个位置类别嵌入向量均位于原始向量空间中，其中，每个位置类别对应一个位置类别嵌入向量；

S40：按照预定的规则，将每个位置嵌入向量从所述原始向量空间转换到语义向量空间，得到所述每个位置嵌入向量对应的位置语义表示，其中，所述语义向量空间为以M个位置类别为维度的向量空间，M为大于或等于1的整数。

可选地，在步骤S30中，所述利用Skip-gram模型学习得到多个位置类别嵌入向量，使所述多个位置嵌入向量与所述多个位置类别嵌入向量均位于原始向量空间中，包括：

S310：将每个位置上下文序列中的多个位置数据对应的多个位置类别数据作为位置类别的上下文，构造一个位置类别上下文序列；由所述多个位置上下文序列，构造多个位置类别上下文序列；

S320：根据所述多个位置上下文序列和所述多个位置类别上下文序列，利用Skip-gram模型学习得到多个位置类别嵌入向量，使所述多个位置嵌入向量与所述多个位置类别嵌入向量均位于原始向量空间中。

可选地，在步骤S20中，Skip-Gram模型训练的目标函数是：

其中，w_i表示给定位置，w_i的上下文序列S_u＝(w₁,...,w_i,...)，s表示上下文序列，k表示预先定义的上下文窗口大小，w_j表示w_i前后各k个上下文位置，p(w_j|w_i)表示在给定位置w_i的前提下w_i的上下文位置w_j出现的概率，

表示给定位置w_i及w_i的上下文序列S_u同时出现的概率；

在步骤S30中，Skip-Gram模型训练的目标函数是：

其中，c_i表示给定位置w_i对应的位置类别，c_j是c_i前后各k个的上下文类别，p(c_j|w_i,c_i)表示在给定位置w_i及w_i对应的类别c_i的前提下c_i的上下文类别c_j出现的概率，∑_{i-k≤j≤i+k,j！＝i}logp(c_j|w_i,c_i)表示给定位置w_i、w_i对应的类别c_i以及c_i的上下文类别序列同时出现的概率；S表示上下文序列的集合，N_u表示w_i的上下文序列S_u的长度。

可选地，在步骤S40中，所述预定的规则为：将每个位置嵌入向量与所述M个位置类别之间的相似性分数作为所述每个位置嵌入向量的位置语义表示；

所述位置语义表示为

其中，

其中，Sim(w_i,c_m)表示给定位置w_i与位置类别c_m(m＝1,…i,…M)之间的相似性评分，cos(w_i,c_m)表示w_i和c_m之间的余弦相似度，λ表示一个阈值；

其中，

表示给定位置w_i在所述原始向量空间中的位置嵌入向量，

表示位置类别c_m在所述原始向量空间中的位置类别嵌入向量。

可选地，该方法还包括：S50：利用二进制命中(HIT)评估方案来度量语义相关的两个位置在嵌入空间中的相似性，其中，所述嵌入空间包括所述原始向量空间和所述语义向量空间。

可选地，该方法还包括：S60：对于给定位置w_i，选择相似性评分最高的5个位置类别，对所述给定位置w_i进行解释。

可选地，在所述预处理后的原始数据集为用户轨迹数据，所述多个位置为所述用户去过的多个地点，所述多个位置类别为用于用户画像的多个语义类别，所述多个位置类别嵌入向量为用于用户画像的多个语义类别嵌入向量的情况下，该方法还包括：

计算每个语义类别对应的语义类别嵌入向量与所述多个位置嵌入向量之间的相似性分数之和；

基于所述相似性分数之和，将所述用户表示为以所述多个语义类别为维度的向量，实现用户画像，其中，所述相似性分数之和为所述用户在所述每个语义类别维度上的值。

第二方面，本发明实施例还提供了一种位置嵌入解释装置。该装置包括：

数据获取模块，用于获取原始数据集，并对所述原始数据集进行预处理，其中，预处理后的原始数据集由多个位置数据和多个位置类别数据组成，每个位置数据对应一个位置类别数据；

位置嵌入模块，用于获取所述多个位置数据对应的多个位置，其中，每个位置对应至少一个位置数据；根据所述预处理后的原始数据集中的多个位置上下文序列，利用Skip-gram模型学习得到多个位置嵌入向量，其中，每个位置对应一个位置嵌入向量；

类别嵌入模块，用于获得所述多个位置类别数据对应的多个位置类别，其中，每个位置类别对应至少一个位置类别数据；利用Skip-gram模型学习得到多个位置类别嵌入向量，使所述多个位置嵌入向量与所述多个位置类别嵌入向量均位于原始向量空间中，其中，每个位置类别对应一个位置类别嵌入向量

语义表示模块，用于按照预定的规则，将每个位置嵌入向量从所述原始向量空间转换到语义向量空间，得到所述每个位置嵌入向量对应的位置语义表示，其中，所述语义向量空间为以M个位置类别为维度的向量空间，M为大于或等于1的整数。

第三方面，本发明实施例还提供了一种计算机设备。该设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现本发明实施例提供的任一位置嵌入解释方法。

第四方面，本发明实施例还提供了一种存储介质，其上存储有计算机可读的程序，该程序被执行时实现本发明实施例提供的任一位置嵌入解释方法。

本发明的有益效果为：

1.先采用Word2vec中的Skip-gram模型学习原始数据中的序列化信息和类别信息，得到位置表示，然后通过语义空间转换，得到具有可解释性的位置表示，学习更多的语义信息，而且每个维度的向量都有可解释性；

2.同时学习了位置的序列化信息和位置的类别信息，提高了位置嵌入解释的准确性，为实现下游数据挖掘任务提供了准确的数据支持；

3.选取Skip-gram模型，通过两次模型训练，先学习得到位置嵌入向量，再结合位置嵌入向量学习得到位置类别嵌入向量，相比于通过一次模型训练同时得到位置类别嵌入向量和位置类别嵌入向量，降低了学习规模，加快了模型收敛速度，降低了时间成本和资源成本，可适用于大规模数据；

4.通过计算位置嵌入向量与位置类别嵌入向量之间的余弦相似度，实现了语义空间转换，无需经过复杂的空间矩阵转换或模型训练，极大地降低了运算复杂度，可操作性强、计算速度快，降低了时间成本和资源成本，可适用于大规模数据，且具有很高的准确性。

5.在语义转换中，在位置嵌入向量与语义维度之间，通过设定阈值进行灵活匹配，克服了完全匹配中学习向量稀疏以及无法覆盖很多语义信息的缺点。

附图说明

图1为本发明实施例提供的一种位置嵌入解释方法的流程图。

图2为本发明实施例提供的一种具有可解释性的位置嵌入模型的流程图。

图3为本发明实施例提供的一种可解释的用户画像应用的基本框架。

图4为本发明实施例提供的一种位置嵌入解释装置的结构示意图。

图5为本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

图1为本发明实施例提供的一种位置嵌入解释方法的流程图。该方法针对轨迹表示领域的位置表示的不可解释性，通过对模型的表示和学习使得位置表示的每个维度具有明确的和容易理解的语义。该方法包括步骤S10-S40。

S10：获取原始数据集，并对所述原始数据集进行预处理，其中，预处理后的原始数据集由多个位置数据和多个位置类别数据组成，每个位置数据对应一个位置类别数据。

在一实施例中，原始数据集为用户的签到数据集，对原始数据集的预处理包括：把原始数据中签到次数少于20的用户对应的签到数据过滤掉，同时把数据集中出现次数小于20的位置对应的签到数据过滤掉。

S20：获取所述多个位置数据对应的多个位置，其中，每个位置对应至少一个位置数据；根据所述预处理后的原始数据集中的多个位置上下文序列，利用Skip-gram模型学习得到多个位置嵌入向量，其中，每个位置对应一个位置嵌入向量。

在一实施例中，根据用户的轨迹序列，构造位置的上下文，通过Skip-gram模型学习得到位置嵌入向量。

S30：获得所述多个位置类别数据对应的多个位置类别，其中，每个位置类别对应至少一个位置类别数据；利用Skip-gram模型学习得到多个位置类别嵌入向量，其中，每个位置类别对应一个位置类别嵌入向量。

可选地，在步骤S30中，所述利用Skip-gram模型学习得到多个位置类别嵌入向量，使所述多个位置嵌入向量与所述多个位置类别嵌入向量均位于原始向量空间中，包括步骤S310-S320。

S310：将每个位置上下文序列中的多个位置数据对应的多个位置类别数据作为位置类别的上下文，构造一个位置类别上下文序列；由所述多个位置上下文序列，构造多个位置类别上下文序列。

在一实施例中，把位置对应的位置类别之间的先后顺序看做类别的上下文，构造类别的上下文序列，通过Skip-gram模型学习得到类别标签的向量。步骤S20和S30的学习过程即为位置表征模型的执行过程。

在一实施例中，通过步骤S40进行向量空间转换，把位置向量从原始向量空间按照一定的规则转换到语义向量空间。通过对有语义的类别标签和没有语义的位置进行语义映射，把上述学习的位置向量映射到有语义的空间，这也就是可解释性位置表征模型的整个过程。

可选地，在步骤S20中，Skip-Gram模型训练的目标函数是：

表示给定位置w_i及w_i的上下文序列S_u同时出现的概率。

在步骤S30中，Skip-Gram模型训练的目标函数是：

在步骤S40中，所述预定的规则为：将每个位置嵌入向量与所述M个位置类别之间的相似性分数作为所述每个位置嵌入向量的位置语义表示；所述位置语义表示为

其中，

其中，

表示给定位置w_i在所述原始向量空间中的位置嵌入向量，

在一实施例中，位置的嵌入在新的语义空间中被重新计算。首先计算位置嵌入和所有类别嵌入的余弦相似度，如果该值大于预先设定的参数，新的位置嵌入在此类别对应的向量的值为该值，否则记为0。在新的语义空间，位置被表示为以各个位置类别为维度的向量，值的大小表示语义上的相似度高低。

具体来说，针对位置表示的具有可解释性的嵌入模型一共分为两个部分：第一部分首先学习位置表示的嵌入模型，它把位置从标识(identification，id)的形式转化为向量的形式(称为“位置嵌入向量”)；第二部分为可解释性位置嵌入模型，将从位置表征模型得到的向量加入可解释性。接下来对这两部分分别进行介绍：

1.原始向量空间的位置嵌入模型

1.1对顺序模式进行建模

首先，对每个位置与其线性上下文之间的关系进行建模，以学习位置嵌入向量。具体来说，给定一个用户，在她/他的签入元组中获取位置，以构造一个按时间顺序排列的位置序列，给定的位置w_i来自其上下文序列S_u＝(w₁,...,w_i,...)的目标是最大化线性上下文出现的概率，即Skip-Gram模型训练的目标函数是：

其中，s表示上下文签入序列，k表示预先定义的上下文窗口大小，w_j表示给定的位置w_i前后各k个访问过的位置，p(w_j|w_i)表示给定的位置w_i的前提下其上下文位置w_j出现的概率，

表示位置w_i及其上下文序列同时出现的概率。

1.2对类别信息进行建模

由于每个位置都有一个对应的类别标签，可以利用类别信息来学习更好的位置嵌入向量。具体来说，给定序列中的位置w_i，考虑线性下文中的位置的类别作为类别上下文，以位置w_i及其类别c_i的组合为目标。因此，Skip-Gram模型训练的目标函数被定义为如下：

其中，c表示位置类别，c_i表示给定位置w_i对应的位置类别，c_j是c_i前后各k个的上下文类别，p(c_j|w_i,c_i)表示在给定位置w_i及其对应的类别c_i的前提下c_i的上下文类别c_j出现的概率，

表示给定位置w_i、w_i对应的类别c_i以及c_i的上下文类别序列同时出现的概率。

同时，考虑到序列化的模式和类别的信息，原始向量空间的位置嵌入模型的最终目标函数是：

其中，S表示签入序列的集合，Nu表示序列Su的长度。

为了学习位置和类别的嵌入向量，可以采用有效且高效的负采样方法。通过上述目标函数，学习得到原始向量空间，在此向量空间中每个位置和类别都对应一个向量。总之，位置嵌入模型最小化了最终的目标函数，它同时学习了签到数据中位置的序列和类别的影响。

2.具有可解释性的位置嵌入模型

对于用户签到数据集来说，原始空间的位置嵌入模型已经从用户的签到中学习了位置和类别的嵌入向量，其中，语义相似的位置和类别在向量空间中彼此接近。然而，这些表示中每个维度的含义尚不清楚。因此，本申请提出了一个具有可解释性的位置嵌入模型，以学习每个维度的语义信息。

图2为本发明实施例提供的一种具有可解释性的位置嵌入模型的流程图。如图2所示，首先，获取通过原始空间向量位置嵌入模型学习的位置嵌入和类别嵌入；然后，将M个类别作为语义锚，并基于嵌入计算给定位置与这些锚之间的相似性；最后，将这些相似分数作为新的位置的语义表示，其中每个维度表示为一个类别。

设C＝{c₁，…c_m}是覆盖签入记录中发生的所有类别的集合。如果想要带有语义信息地表示一个位置，传统的词袋(Bag-of-Word，BoW)模型选择这M个类别作为语义锚点，每个地点位置经过完全匹配被表示为M个维度的向量。也就是说，只有地点的类别和锚点匹配时值才为1，否则为0。完全匹配等价为硬映射，存在一些缺点，比如说学习的向量会很稀疏以及没办法覆盖很多语义信息。新的位置语义表示为

具体而言，位置w_i与特定语义锚词之间的相似性评分Sim(w_i,c_m)(m＝1,…i,…M)定义如下：

其中，cos(w_i,c_m)表示w_i和c_m之间的余弦相似度，λ是一个阈值，针对不同的数据集中用户可自行选择不同的阈值进行设定。cos(w_i,c_m)可以根据w_i和c_m在位置嵌入模型中的学习的嵌入来计算：

其中，

表示给定位置w_i在所述原始向量空间中的位置嵌入向量，

表示位置类别c_m在所述原始向量空间中的位置类别嵌入向量。当位置w_i在语义上与类别c_m相似时，余弦相似度为正，当它们有相反的语义时相似度为负。

可选地，所述方法还包括步骤S50：利用二进制HIT评估方案来度量语义相关的两个位置在嵌入空间中的相似性，其中，所述嵌入空间包括所述原始向量空间和所述语义向量空间。

可选地，所述方法还包括步骤S60：对于给定位置w_i，选择相似性评分最高的5个位置类别，对所述给定位置w_i进行解释。

在一实施例中，对2012年4月至2013年9月从Foursquare收集的两个公开可用的签到数据集进行了实验：一个来自纽约，另一个来自东京。每个签到记录包含用户ID、位置ID、类别名称、签到时间四个属性。为了使这些数据集具有健壮性，过滤那些签入次数小于20的用户以及那些登记人数少于20人的位置。这两个数据集的统计属性如表1所示，其中，#用户、#位置、#类别、#签入分别表示用户的数量、位置的数量、类别的数量以及签入的数量。

表1签到数据统计

	#用户	#位置	#类别	#签到
					纽约	9,548	12,605	103	1,270,977
东京	11,097	15,632	138	799,825

将具有可解释性的位置嵌入模型的上下文窗口大小设置为5，λ设置为0.2，学习速率设置为η＝0.01，正则化项设置为0.001。网格搜索用于选择步长小但自适应的最优参数。利用上述数据集，将本申请提出的模型与几种最先进的方法进行了性能比较。参与比较的方法(即“模型”)有：

-STES：一种时空嵌入相似性算法。由于在本申请的嵌入模型中不包括签入时间戳，所以将位置作为特征词来适应STES，用位置序列为每个位置训练矢量表示；

-Geo-Teaser：一种地理时间序列化嵌入模型，它将个人和时间信息纳入Skip-gram模型，由于位置嵌入模型和可解释性位置嵌入模型省略了时间，为了公平起见，在Geo-Teaser方法中也省略了签到的时间；

-MC-TEM：多上下文轨迹嵌入模型，其中，将签到位置及其相应类别视为上下文并使用连续词汇(Continuous Bag-of-Word，CBOW)模型学习轨迹属性嵌入；

-位置嵌入模型：本申请提出的位置嵌入解释方法中的步骤S20和步骤S30所实现的模型。位置嵌入模型对签到的顺序信息和分类信息进行编码，以学习位置嵌入；

-可解释的位置嵌入模型：本申请提出的位置嵌入解释方法所实现的模型。可解释的位置嵌入模型将位置类别作为语义锚点，并通过计算位置和语义锚点之间的相似性来学习位置语义表示。

通过上述方法，分别进行位置相似性的定量评价，和位置表示的定性分析。

A.定量实验--位置相似性评价

本申请所提出的模型把位置表示为具有向量形式的嵌入，语义相关的位置在嵌入空间中趋于接近。为了检测这些位置表示可以在多大程度上保留语义，利用二进制HIT评估方案来度量位置的相似性。在二进制HIT评估方案中，二进制表示实验评测的结果为0或1：当命中实验评测结果与数据真实性相一致时，结果为命中值为1；否则，当实验评测结果与数据真实性结果不同时，为不命中，结果为0。对于HIT任务，随机生成10000个关于位置的三元组。对于每个三元组，其中两个位置有相同的类别标签，另一个则有不同的类别标签。任务是从每个三元组中选择与其他两个具有不同类别标签的位置。为了评估所提出的模型产生的位置表示的效果，对于每个三元组，计算两两之间的相似度。例如，对于三元组(w₁，w₂，w₃)，计算三对位置(w₁，w₂)、(w₁，w₃)和(w₂，w₃)的相似分数。选得分最高的一组，然后把三元组中剩下的第三个位置作为这次测试的结果。例如，如果(w₁，w₂)得分最高，那么，w₃就是位置相似性评价的结果。表2显示了不同模型对所有三元组的准确性。

表2在准确性方面的性能比较

如表2所示，评估了同一数据集上的所有方法，并执行了10次，以获得10个值的准确率，并在表格中写明了10个值的平均值。表2显示了不同嵌入维度的精度，所有方法在东京和纽约数据集上进行(其中以黑体突出显示最佳分数)。从表2中可以看出：STES、Geo-Teaser和MC-TEM都表现的不好，因为它们在学习场所表示的时候只对序列化的模式进行了建模。STES、Geo-Teaser采用了以签入序列中目标的前面和后面的位置作为上下文，MC-TEM考虑了多个上下文包括了上下文的位置和类别去预测目标类别和生成相应的位置表示。位置嵌入模型和STES、Geo-Teaser和MC-TEM相比，表现得更好，因为它对位置和类别之间的关系进行了建模，同时学习了位置的序列化信息和位置的类别信息。

B.定性实验--位置表示的定性分析

本申请所提出的可解释嵌入模型的一个主要优点是，位置表示的每个维度都可以用一个连贯和易于理解的主题来解释。因此，可以使用几个具体的实例来检查可解释性嵌入模型是否可以捕获维度中的语义信息。

给定两个不同的位置，首先，从可解释性嵌入模型获取它们的语义表示，这个语义表示的每个维度和一个类别相关；然后，对于每对位置，选择语义相似度最高的top5维并利用它们来代表两个位置之间的共同特征，这可以解释这两个位置在哪些主题上是相似的。

表3显示了两个说明性案例，其中，饺子餐厅@0.609表示主题和维度的值。对于一对具有相同类别商城的位置，发现前5名分别是饺子餐厅、食品店、体育用品店、剧院和自行车店，这些维度是可以总结位置的特点的。同时，从表3中可以看到，类别为“机场”和“机场航站楼”的位置的结果是类似的。因此，在搜索具有给定位置的类似位置时，根据top维度解释为什么推荐的位置与查询相关。

表3可解释的位置表征的说明性案例

对于可解释性位置嵌入模型在数据集上和具体的定性分析上都取得了最佳的效果，获得了有竞争力的性能，验证了基于这些类别将位置表示从原始空间映射到一个新的语义空间的有效性。

本申请实施例针对轨迹表示领域的位置表示的不可解释性，通过模型的表示和学习使得位置表示的每个维度生成的序列化向量具有明确的和容易理解的语义。这种可解释性对于许多下游签到数据挖掘任务而言是至关重要的，有利于将位置表示形式的各个维度作为一个连贯且易于理解的主题进行解释。

例如，位置搜索不仅旨在通过查询为相似的场所提供服务，还旨在通过查询结果为用户导航。本申请提出的方法可以根据数据集，在给出一特定位置之后对该位置和数据集中的所有位置进行相似度计算，从而得到用户搜索的结果。例如用户搜索“韩国饭店”，可以检测数据集中和韩国饭店语义相似度最高的饭店并对结果进行排序，从而组织查询结果，用户可以根据结果进行选择。这种应用常见于美团和大众点评中的用户搜索操作，返回的结果即为查询位置和数据集中场所的相似度排序。

可选地，在所述预处理后的原始数据集为用户轨迹数据，所述多个位置为所述用户去过的多个地点，所述多个位置类别为用于用户画像的多个语义类别，所述多个位置类别嵌入向量为用于用户画像的多个语义类别嵌入向量的情况下，该方法还包括以下步骤：计算每个语义类别对应的语义类别嵌入向量与所述多个位置嵌入向量之间的相似性分数之和；基于所述相似性分数之和，将所述用户表示为以所述多个语义类别为维度的向量，实现用户画像，其中，所述相似性分数之和为所述用户在所述每个语义类别维度上的值。

在一实施例中，本申请实施例提供的方法还可以用于下游数据挖掘任务，例如，可解释的用户画像。下面详细介绍一下如何利用语义特征表示空间中的位置表示构建可解释的模型。以用户签到轨迹为例，图3为本发明实施例提供的一种可解释的用户画像应用的基本框架。

如图3所示，给定一条用户轨迹<l₁,l₂,…,l_N>，首先，获取其每个位置点对应的低维表示

以及每个位置点出现的次数x_i，然后，选取合适的语义特征向量

作为语义表示空间的基准维度，并计算每个位置点和语义特征向量的余弦相似度。最后，用户语义表示的每一维定义为所有位置点表示向量与基准语义特征向量相似度的总和。这样每个用户可以用一个M维的向量来表示，并且每一维都有对应的语义类别，如购物、运动等，其可以应用在用户画像、用户性别预测等任务中。基于语义特征，可以明确两个用户相似是由于其都喜欢运动。

本发明实施例提出的位置嵌入解释方法具有以下有益效果：

1.先采用Word2vec中的Skip-gram模型学习原始数据中的序列化信息和类别信息，得到位置表示，然后通过语义空间转换，得到具有可解释性的位置表示，可以学习更多的语义信息，而且每个维度的向量都有可解释性；

2.同时学习了位置的序列化信息和位置的类别信息，提高了位置嵌入解释的准确性，增加了位置表示的质量性和健壮性，为实现下游数据挖掘任务提供了准确的数据支持；

实施例二

图4是本发明实施例提供的一种位置嵌入解释装置的结构示意图。该装置用于实现实施例一提供的位置嵌入解释方法，包括数据获取模块410、位置嵌入模块420、类别嵌入模块430和语义表示模块440。

数据获取模块410用于获取原始数据集，并对所述原始数据集进行预处理，其中，预处理后的原始数据集由多个位置数据和多个位置类别数据组成，每个位置数据对应一个位置类别数据。

位置嵌入模块420用于获取所述多个位置数据对应的多个位置，其中，每个位置对应至少一个位置数据；根据所述预处理后的原始数据集中的多个位置上下文序列，利用Skip-gram模型学习得到多个位置嵌入向量，其中，每个位置对应一个位置嵌入向量。

类别嵌入模块430用于获得所述多个位置类别数据对应的多个位置类别，其中，每个位置类别对应至少一个位置类别数据；利用Skip-gram模型学习得到多个位置类别嵌入向量，使所述多个位置嵌入向量与所述多个位置类别嵌入向量均位于原始向量空间中，其中，每个位置类别对应一个位置类别嵌入向量。

语义表示模块440用于按照预定的规则，将每个位置嵌入向量从所述原始向量空间转换到语义向量空间，得到所述每个位置嵌入向量对应的位置语义表示，其中，所述语义向量空间为以M个位置类别为维度的向量空间，M为大于或等于1的整数。

可选地，所述类别嵌入模块430用于通过如下步骤实现所述利用Skip-gram模型学习得到多个位置类别嵌入向量，使所述多个位置嵌入向量与所述多个位置类别嵌入向量均位于原始向量空间中的功能：

可选地，所述位置嵌入模块420采用的Skip-Gram模型训练的目标函数是：

表示给定位置w_i及w_i的上下文序列S_u同时出现的概率。

所述类别嵌入模块430采用的Skip-Gram模型训练的目标函数是：

可选地，所述语义表示模块440采用的预定的规则为：将每个位置嵌入向量与所述M个位置类别之间的相似性分数作为所述每个位置嵌入向量的位置语义表示；所述位置语义表示为

其中，

其中，

表示给定位置w_i在所述原始向量空间中的位置嵌入向量，

可选地，该装置还包括评估模块，所述评估模块用于利用二进制HIT评估方案来度量语义相关的两个位置在嵌入空间中的相似性，其中，所述嵌入空间包括所述原始向量空间和所述语义向量空间。

可选地，该装置还包括解释模块，所述解释模块用于对于给定位置w_i，选择相似性评分最高的5个位置类别，对所述给定位置w_i进行解释。

可选地，在所述预处理后的原始数据集为用户轨迹数据，所述多个位置为所述用户去过的多个地点，所述多个位置类别为用于用户画像的多个语义类别，所述多个位置类别嵌入向量为用于用户画像的多个语义类别嵌入向量的情况下，所述装置还包括用户画像模块。所述用户画像模块用于计算每个语义类别对应的语义类别嵌入向量与所述多个位置嵌入向量之间的相似性分数之和；基于所述相似性分数之和，将所述用户表示为以所述多个语义类别为维度的向量，实现用户画像，其中，所述相似性分数之和为所述用户在所述每个语义类别维度上的值。

本发明实施例提出的位置嵌入解释装置具有以下有益效果：

本发明实施例的位置嵌入解释装置与实施例一中的位置嵌入解释方法具有相同的技术原理和有益效果。未在本实施例中详尽描述的技术细节，请参照实施例一中的位置嵌入解释方法。

值得注意的是，上述装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

实施例三

图5为本发明实施例提供的一种计算机设备的结构示意图。如图5所示，该设备包括处理器510和存储器520。处理器510的数量可以是一个或多个，图5中以一个处理器510为例。

存储器520作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的位置嵌入解释方法的程序指令/模块。处理器510通过运行存储在存储器520中的软件程序、指令以及模块，实现上述位置嵌入解释方法。

存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器520可进一步包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实施例四

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的程序：

当然，本发明实施例所提供的存储介质，其存储的计算机可读程序不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的位置嵌入解释方法中的相关操作。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种位置嵌入解释方法，其特征在于，包括：

2.如权利要求1所述的位置嵌入解释方法，其特征在于，在步骤S30中，所述利用Skip-gram模型学习得到多个位置类别嵌入向量，使所述多个位置嵌入向量与所述多个位置类别嵌入向量均位于原始向量空间中，包括：

3.如权利要求2所述的位置嵌入解释方法，其特征在于，

在步骤S20中，Skip-Gram模型训练的目标函数是：

其中，w_i表示给定位置，w_i的上下文序列S_u＝(w₁，...，w_i，...)，s表示上下文序列，k表示预先定义的上下文窗口大小，w_j表示w_i前后各k个上下文位置，p(w_j|w_i)表示在给定位置w_i的前提下w_i的上下文位置w_j出现的概率，

表示给定位置w_i及w_i的上下文序列S_u同时出现的概率；

在步骤S30中，Skip-Gram模型训练的目标函数是：

其中，c_i表示给定位置w_i对应的位置类别，c_j是c_i前后各k个的上下文类别，p(c_j|w_i，c_i)表示在给定位置w_i及w_i对应的类别c_i的前提下c_i的上下文类别c_j出现的概率，∑_{i-k≤j≤i+k，j！＝i}logp(c_j|w_i，c_i)表示给定位置w_i、w_i对应的类别c_i以及c_i的上下文类别序列同时出现的概率；S表示上下文序列的集合，N_u表示w_i的上下文序列S_u的长度。

4.如权利要求3所述的位置嵌入解释方法，其特征在于，

在步骤S40中，所述预定的规则为：将每个位置嵌入向量与所述M个位置类别之间的相似性分数作为所述每个位置嵌入向量的位置语义表示；

所述位置语义表示为

其中，

其中，Sim(w_i，c_m)表示给定位置w_i与位置类别c_m(m＝1，...i，...M)之间的相似性评分，cos(w_i，c_m)表示w_i和c_m之间的余弦相似度，λ表示一个阈值；

其中，

表示给定位置w_i在所述原始向量空间中的位置嵌入向量，

5.如权利要求4所述的位置嵌入解释方法，其特征在于，还包括：

S50：利用二进制命中HIT评估方案——位置相似性评价来度量语义相关的两个位置在嵌入空间中的相似性，其中，所述嵌入空间包括所述原始向量空间和所述语义向量空间。

6.如权利要求5所述的位置嵌入解释方法，其特征在于，还包括：

S60：对于给定位置w_i，选择相似性评分最高的5个位置类别，对所述给定位置w_i进行解释。

7.如权利要求4所述的位置嵌入解释方法，其特征在于，在所述预处理后的原始数据集为用户轨迹数据，所述多个位置为所述用户去过的多个地点，所述多个位置类别为用于用户画像的多个语义类别，所述多个位置类别嵌入向量为用于用户画像的多个语义类别嵌入向量的情况下，还包括：

8.一种位置嵌入解释装置，其特征在于，包括：

类别嵌入模块，用于获得所述多个位置类别数据对应的多个位置类别，其中，每个位置类别对应至少一个位置类别数据；利用Skip-gram模型学习得到多个位置类别嵌入向量，使所述多个位置嵌入向量与所述多个位置类别嵌入向量均位于原始向量空间中，其中，每个位置类别对应一个位置类别嵌入向量；

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任意一项所述的位置嵌入解释方法。

10.一种存储介质，其上存储有计算机可读的程序，其特征在于，该程序被执行时实现如权利要求1-7中任意一项所述的位置嵌入解释方法。