CN107092592B

CN107092592B - 一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法

Info

Publication number: CN107092592B
Application number: CN201710229368.9A
Authority: CN
Inventors: 王敬昌; 陈岭; 吴晓杰; 张圣
Original assignee: Zhejiang Hongcheng Computer Systems Co Ltd
Current assignee: Zhejiang Hongcheng Computer Systems Co Ltd
Priority date: 2017-04-10
Filing date: 2017-04-10
Publication date: 2020-06-05
Anticipated expiration: 2037-04-10
Also published as: CN107092592A

Abstract

本发明涉及一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法，具体实施如下：1)从智能手机使用日志的各类情境数据中提取有效特征，并通过聚类发现加速度数据中的用户活动，构建高情境层次的场所用户活动特征；2)根据场所的活动分布，计算场所语义相似性以获取代价矩阵；3)结合代价矩阵对场所的特征进行建模，引入无标签场所数据进行半监督学习得到多个代价敏感的基分类器；4)集成多个基分类器输出识别模型，对用户访问场所进行个性化语义识别。本发明结合情境感知、代价敏感和半监督学习进行场所个性化语义识别，在普适计算、基于位置的服务等领域具有广阔的应用前景。

Description

一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法

技术领域

本发明涉及场所语义识别领域，尤其涉及一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法。

背景技术

随着智能设备的普及和移动互联网的发展，越来越多的基于位置的服务给生活带来了极大便利。“位置”之上有另一种情境层次更高、表达能力更强的概念，即“场所”。场所除了有基本的地理位置信息外，往往还具有语义，通常表现为标签的形式，如家、公司、餐厅等。场所语义是以用户为中心的位置表达方式，可使基于位置的服务更智能。例如，基于场所语义的提醒服务可将待办事项与特定语义的场所相关联。因此，场所语义识别在普适计算、基于位置的服务等领域具有广阔应用空间。

传统的场所语义识别方法一般通过分析场所下所有用户共性的行为对场所语义进行识别。然而，这种方法的前提是场所对所有用户具有相同语义，而未考虑场所对用户的个性化语义。例如，超市对消费者是购物场所，但对超市员工则是工作场所。

为了识别场所个性化语义，研究人员从用户角度出发，根据用户历史记录，获取用户的场所访问模式。典型做法是通过用户的GPS轨迹发现用户停留的场所，根据场所位置以及访问时间等信息识别场所语义。由于GPS存在耗电高、室内没有信号等问题，这一方法在实际应用中无法工作。针对这一问题，现有研究从智能手机使用日志中挖掘用户情境，识别场所个性化语义。然而，现有方法均未考虑高情境层次的场所特征。此外，由于不同类型场所在语义上的相似性，不同错误识别造成的代价损失有所差异，但现有方法在评估模型性能时很少考虑这一指标。用户标注场所语义代价高昂，因此场所个性化语义识别方法普遍存在训练数据不足导致模型性能不佳的问题。

发明内容

本发明为克服上述的不足之处，目的在于提供一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法，本发明方法从智能手机使用日志的各类情境数据中提取有效特征，并通过聚类发现加速度数据中的用户活动，构建高情境层次的场所用户活动特征。接着，根据场所的活动分布，计算场所语义相似性以获取代价矩阵。然后，结合代价矩阵对场所的特征进行建模，引入无标签场所数据进行半监督学习得到多个代价敏感的基分类器。最后，集成多个基分类器输出识别模型，对用户访问场所进行个性化语义识别。本发明结合情境感知、代价敏感和半监督学习进行场所个性化语义识别，在普适计算、基于位置的服务等领域具有广阔的应用前景。

本发明是通过以下技术方案达到上述目的：一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法，其包括如下步骤：

1)从智能手机上的使用访问日志的各类情境数据中提取有效特征，并通过聚类发现加速度数据中的用户活动，构建高情境层次的场所用户活动特征，并获得有标签数据集与无标签数据集；

2)根据场所活动分布，计算场所语义相似性，得到代价矩阵；

3)结合代价矩阵对场所的特征进行建模，引入无标签数据集进行半监督学习得到若干个代价敏感的基分类器；

4)集成若干个基分类器输出识别模型，对用户访问场所进行个性化语义识别。

作为优选，所述步骤1)具体如下：

1.1)将用户在相同场所下的所有访问记录v整合形成场所的访问记录集合V，V在识别中看作一个场所；

1.2)采用特征工程方法分别从用户场所访问记录集合V的多情境数据中提取有效特征；

1.3)以聚类的方式从访问记录集合V的加速度数据中发现用户活动，统计活动分布，并构建高情境层次的场所用户活动特征F_h；

1.4)根据场所是否具有用户标注的语义标签划分有标签数据集和无标签数据集。

作为优选，所述的有效特征包括时间特征F_t、App使用特征F_a、通话记录特征F_c。

作为优选，所述步骤1.3)得到场所用户活动特征F_h的方法具体如下：

1.3.1)将加速度数据<(t₁，(x₁，y₁，z₁))，...，(t_n，(x_n，y_n，z_n))>按时长δ划分成多个具有重合时长ε的时间窗口，其中，δ＞ε；

1.3.2)对每个时间窗口提取时域特征，得到加速度特征向量f_i，其中时域特征包括均值、方差、标准差、平均绝对偏差、均方根、皮尔逊线性相关系数、能量和四分位差；

1.3.3)利用k-means算法，对加速度特征向量f_i进行聚类，得到k个簇，将每个簇看作一种活动类别；

1.3.4)在该场所的访问记录集合V中，对场所活动分布进行统计，得到场所用户活动特征F_h。

作为优选，所述步骤2)得到代价矩阵的步骤如下：

2.1)分别统计每类相同语义的场所下各类活动的时间占比，得到该类场所活动分布向量t＝[t₁，t₂，...，t_n]，n为活动类别数目；

2.2)基于TF-IDF检索模型，从Wikipedia上获取与活动最相关的d篇文章；

2.3)基于得到的d篇文章，采用文本表示方法，基于PV-DBOW模型进行学习，将各类活动表示为m维向量a_j＝[a_j，1，a_j，2，...，a_j，m]；

2.4)以场所活动分布为权重，结合各活动向量，将该类场所表示为m维向量

2.5)基于余弦相似性，分别计算每两类场所向量的相似性，得到场所相似性矩阵SM，其中，计算公式如下：

2.6)将相似性矩阵SM按反比关系转化得到代价矩阵CM。

作为优选，所述步骤2.1)得到该类场所活动分布向量t＝[t₁，t₂，...，t_n]的方法为：对具有相同语义标签的所有场所，将每类活动的所有时长进行累加，再进行归一化后获得该类场所的活动分布向量t＝[t₁，t₂，...，t_n]。

作为优选，所述步骤3)得到若干个代价敏感的基分类器的步骤如下：

3.1)输入有标签数据集T与无标签数据集U；

3.2)对有标签数据集T进行可重复自助取样，获得n个训练子集T_i(1≤i≤n)；

3.3)利用得到的T_i训练n个基分类器C_i(1≤i≤n)；

3.4)n个基分类器分别对无标签数据集U的样本进行识别，并通过置信度度量得到高置信度的候选样本集P_i(1≤i≤n)；

3.5)根据置信度优先的选择策略从步骤3.4)所得候选样本集P_i中挑选若干样本作为辅助学习集F_i(1≤i≤n)，将辅助学习集F_i和训练子集T_i一同训练，得到新的基分类器C_i；

3.6)重复步骤3.4)、3.5)直到不再有无标签数据集U的样本被挑选，或者迭代次数已经达到预先设定的最大迭代次数；

3.7)输出n个代价敏感的基分类器。

作为优选，所述步骤3.4)中第i个基分类器C_i对无标签样本x_u的置信度的计算如公式如下：

其中，h_j(x_u)为第j个基分类器的识别结果，I_i(x_u)是由除第i个基分类器以外的其余基分类器识别结果投票所得伪标签。

作为优选，所述步骤3.5)中将样本置信度按照从高到低排序，顺序挑选若干数目的样本，使模型的训练误差和代价损失得到控制，如下式所示：

其中，m_i、m_i′分别为本轮次和上一轮次辅助学习集F_i的大小，e_i、e_i′分别为本轮次和上一轮次的训练误差，R_i、R_i′分别为本轮次和上一轮次的代价损失；当候选样本集P_i中样本个数n_i大于m_i时，挑选置信度前m_i的样本加入辅助学习集F_i；否则，将候选样本集P_i直接作为辅助学习集F_i。

作为优选，所述步骤4)对用户访问场所进行个性化语义识别的步骤如下：

4.1)获取用户在该场所的访问记录集合V；

4.2)采用特征工程方法分别从用户场所访问记录集合V的多情境数据中提取有效特征；

4.3)以聚类的方式从访问记录集合V的加速度数据中发现用户活动，统计活动分布，并构建高情境层次的场所用户活动特征F_h；

4.4)将场所的特征分别输入到n个基分类器中，每个基分类器输出一个场所语义识别结果，得到识别结果候选集；

4.5)基于步骤4.4)的识别结果候选集，投票得到最终的场所个性化语义识别结果；其中在此步骤中，还可根据基分类器的一致性获得最终识别结果的置信度。

本发明的有益效果在于：(1)构建高情境层次的场所用户活动特征，解决现有方法中对场所语义缺乏有效表示的问题；(2)根据各类场所的活动分布计算语义相似性，构建代价矩阵，解决场所错误识别代价损失差异的问题；(3)采用半监督学习方法引入无标签数据，解决因训练数据不足导致模型性能不佳的问题。

附图说明

图1是本发明的方法流程示意图；

图2是本发明实施例的场所用户特征构建过程图；

图3是本发明实施例的模型训练迭代学习示意图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此：

实施例：如图1所示，一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法，该方法分为预处理、模型训练和语义识别三个阶段，具体步骤如下：

预处理阶段实现数据预处理、特征提取和代价矩阵构建的功能，主要可以分为多情境特征提取和代价矩阵构建两部分：

多情境特征提取的具体步骤如下：

步骤1，将用户在相同场所下的所有访问记录v形成场所的访问记录集合V，V在识别中看作一个场所。

可将每条访问记录表示为v＝(t_in，t_out，data)，其中t_in和t_out分别是场所访问的开始时间和结束时间，data是一个多情境数据的集合。识别场所语义时，考虑其访问记录集合V中的所有访问记录v的多情境数据。

步骤2，基于特征工程方法，分别从用户场所访问的多情境数据中提取有效特征，如时间特征F_t、App使用特征F_a、通话记录特征F_c等。

此步骤中，提取的特征主要有F_t中的场所停留时间、F_a中的App使用情况、F_c中的通话记录数目等，再通过ReliefF方法选择其中最有效的一部分特征。

步骤3，以聚类的方式从访问记录的加速度数据中发现用户活动，统计活动分布以构建高情境层次的场所用户活动特征F_h。

场所用户活动特征构建过程如图2所示，将原始加速度数据〈(t₁，(x₁，y₁，z₁))，...，(t_n，(x_n，y_n，z_n))〉按时长δ划分成多个具有重合时长ε的时间窗口(δ＞ε)；对每个时间窗口提取时域特征(均值、方差、标准差、平均绝对偏差、均方根、皮尔逊线性相关系数、能量和四分位差)，得到加速度特征向量f_i；利用k-means算法，对加速度特征向量f_i进行聚类，得到k个簇，将每个簇看作一种活动类别；最后，在该场所的访问记录集合V中，对场所活动分布进行统计，得到场所用户活动特征F_h。

步骤4，根据场所是否具有用户标注的语义标签划分有标签数据集和无标签数据集。

每个有标签数据样本可以看作(x，y)，用于训练模型；无标签样本看作(x，u)，u为缺省值，将在模型训练模块迭代学习过程中被标注伪标签.

代价矩阵构建的具体步骤如下：

步骤1，分别统计每类相同语义的场所下各类活动的时间占比，得到该类场所活动分布向量t＝[t₁，t₂，...，t_n]，n为活动类别数目。

对具有相同语义标签的所有场所，将每类活动的所有时长进行累加，再进行归一化以获得该类场所的活动分布向量t＝[t₁，t₂，...，t_n]。

步骤2，基于TF-IDF检索模型，从Wikipedia上获取与活动最相关的d篇文章。

步骤3，通过文本表示方法，结合步骤2得到的d篇文章，使用PV-DBOW模型将各日常活动表示为m维向量a_j＝[a_j，1，a_j，2，...，a_j，m]。

基于嵌入技术，采用文本表示中的doc2vec方法，使用PV-DBOW模型进行学习，将第j类日常活动表示为一个m维的向量a_j＝[a_j，1，a_j，2，...，a_j，m]。

步骤4，以场所活动分布为权重，结合各活动向量，将该类场所表示为m维向量

步骤5，对场所两两类别之间度量余弦相似性，构建场所相似性矩阵SM。

基于余弦相似性，分别计算每两类场所向量的相似性，如公式(1)所示，得到场所相似性矩阵SM。

步骤6，将相似性矩阵SM按反比关系转化得到代价矩阵CM。

根据代价矩阵CM＝{c_ij}，可计算模型代价损失R，如公式(2)所示：

其中，h(x)为识别模型，M为场所语义类别数目，n_ij表示第i种场所语义被错误识别为第j种场所语义的个数。

模型训练阶段是一个迭代学习的过程，主要是结合代价矩阵对场所的特征进行建模，引入无标签数据集进行半监督学习得到若干个代价敏感的基分类器，其主要迭代过程如图3所示：

步骤1，输入经过数据预处理的数据集，包括有标签数据集T和无标签数据集U；其中，有标签数据集T作为训练数据集，无标签数据集U在每轮迭代学习过程中被挑选加入辅助学习集。

步骤2，对训练数据集进行可重复自助取样获得n个训练子集T_i(1≤i≤n)。

步骤3，利用步骤2得到的T_i训练n个基分类器C_i(1≤i≤n)。

为保证训练的基分类器具有一定的差异性，采用多种不同的基分类器学习算法，如决策树、随机森林、条件随机场和代价敏感学习算法GLLBoost等。此外，代价矩阵CM也将作为输入，用于学习代价敏感的基分类器，即考虑基分类器在训练数据上的代价损失。

步骤4，n个基分类器分别对无标签数据集U的样本进行识别，并通过置信度度量得到高置信度的候选样本集P_i(1≤i≤n)。

对于第i个基分类器C_i而言，无标签样本x_u的置信度的计算如公式(3)所示：

其中，h_j(x_u)为第j个基分类器的识别结果，l_i(x_u)是由除第i个基分类器以外的其余基分类器识别结果投票所得伪标签。仅当置信度大于设定的阈值且当前基分类器识别结果h_i(x_u)不等于l_i(x_u)，样本x_u同其被标注的伪标签(即(x_u,l_i(x_u)))才被加入到候选样本集P_i中。

步骤5，根据置信度优先的选择策略从步骤4所得候选样本集P_i中挑选一部分样本作为辅助学习集F_i(1≤i≤n)，将辅助学习集F_i和训练子集T_i一同训练新的基分类器C_i。

候选样本集P_i中样本数目过多将引入噪声。因此，按照样本置信度高低排序，顺序挑选一定数目的样本，使模型的训练误差和代价损失得到控制，如公式(4)所示：

其中，m_i、m_i′分别为本轮次和上一轮次辅助学习集F_i的大小，e_i、e_i′分别为本轮次和上一轮次的训练误差，R_i、R_i′分别为本轮次和上一轮次的代价损失。当候选样本集P_i中样本个数n_i大于m_i时，挑选置信度前m_i的样本加入辅助学习集F_i；否则，将候选样本集P_i直接作为辅助学习集F_i。

步骤6，重复步骤4、5，直到不再有无标签数据集U的样本被挑选，或者迭代次数已经达到预先设定的最大迭代次数。

步骤7，输出n个基分类器。

语义识别阶段主要是对场所下的智能手机使用日志进行采集、特征处理以及根据模型进行场所个性化语义识别，其主要步骤如下：

步骤1，获取用户在该场所的访问记录集合V；

根据用户的访问情境，自动采集智能手机使用日志。将当前待识别场所的所有访问记录形成访问记录集合V作为识别目标。

步骤2～3，同预处理模块中多情境特征提取步骤2和步骤3；

步骤4，将场所的特征分别输入到n个基分类器中，每个基分类器输出一个场所语义识别结果，得到识别结果候选集。

步骤5，基于步骤4的识别结果候选集，投票得到最终的场所个性化语义识别结果。此步骤中，除得到最终识别结果外，还可以根据基分类器的一致性获得最终识别结果的置信度。

以上的所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法，其特征在于，包括如下步骤：

2)根据场所活动分布，计算场所语义相似性，得到代价矩阵；其中，得到代价矩阵的步骤如下：

2.3)基于得到的d篇文章，采用文本表示方法，基于PV-DBOW模型进行学习，将各类活动表示为m维向量α_j＝[α_j，1，α_j，２，...，α_j，m]；

2.6)将相似性矩阵SM按反比关系转化得到代价矩阵CM；

2.根据权利要求1所述的一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法，其特征在于：所述步骤1)具体如下：

3.根据权利要求2所述的一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法，其特征在于：所述的有效特征包括时间特征F_t、App使用特征F_a、通话记录特征F_c。

4.根据权利要求2所述的一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法，其特征在于：所述步骤1.3)得到场所用户活动特征F_h的方法具体如下：

5.根据权利要求1所述的一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法，其特征在于：所述步骤2.1)得到该类场所活动分布向量t＝[t₁，t₂，...，t_n]的方法为：对具有相同语义标签的所有场所，将每类活动的所有时长进行累加，再进行归一化后获得该类场所的活动分布向量t＝[t₁，t₂，...，t_n]。

6.根据权利要求1所述的一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法，其特征在于：所述步骤3)得到若干个代价敏感的基分类器的步骤如下：

3.1)输入有标签数据集T与无标签数据集U；

3.2)对有标签数据集T进行可重复自助取样，获得n个训练子集T_i，其中，1≤i≤n；

3.3)利用得到的T_i训练n个基分类器C_i，其中，1≤i≤n；

3.4)n个基分类器分别对无标签数据集U的样本进行识别，并通过置信度度量得到高置信度的候选样本集P_i，其中，1≤i≤n；

3.5)根据置信度优先的选择策略从步骤3.4)所得候选样本集P_i中挑选若干样本作为辅助学习集F_i，其中，1≤i≤n，将辅助学习集F_i和训练子集T_i一同训练，得到新的基分类器C_i；

3.7)输出n个代价敏感的基分类器。

7.根据权利要求6所述的一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法，其特征在于：所述步骤3.4)中第i个基分类器C_i对无标签样本x_u的置信度的计算如公式如下：

其中，h_j(x_u)为第j个基分类器的识别结果，l_i(x_u)是由除第i个基分类器以外的其余基分类器识别结果投票所得伪标签。

8.根据权利要求6所述的一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法，其特征在于：所述步骤3.5)中将样本置信度按照从高到低排序，顺序挑选若干数目的样本，使模型的训练误差和代价损失得到控制，如下式所示：

9.根据权利要求1所述的一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法，其特征在于：所述步骤4)对用户访问场所进行个性化语义识别的步骤如下：

4.1)获取用户在该场所的访问记录集合V；