CN107092592B - 一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法 - Google Patents

一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法 Download PDF

Info

Publication number
CN107092592B
CN107092592B CN201710229368.9A CN201710229368A CN107092592B CN 107092592 B CN107092592 B CN 107092592B CN 201710229368 A CN201710229368 A CN 201710229368A CN 107092592 B CN107092592 B CN 107092592B
Authority
CN
China
Prior art keywords
place
cost
activity
data
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710229368.9A
Other languages
English (en)
Other versions
CN107092592A (zh
Inventor
王敬昌
陈岭
吴晓杰
张圣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Hongcheng Computer Systems Co Ltd
Original Assignee
Zhejiang Hongcheng Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Hongcheng Computer Systems Co Ltd filed Critical Zhejiang Hongcheng Computer Systems Co Ltd
Priority to CN201710229368.9A priority Critical patent/CN107092592B/zh
Publication of CN107092592A publication Critical patent/CN107092592A/zh
Application granted granted Critical
Publication of CN107092592B publication Critical patent/CN107092592B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法,具体实施如下:1)从智能手机使用日志的各类情境数据中提取有效特征,并通过聚类发现加速度数据中的用户活动,构建高情境层次的场所用户活动特征;2)根据场所的活动分布,计算场所语义相似性以获取代价矩阵;3)结合代价矩阵对场所的特征进行建模,引入无标签场所数据进行半监督学习得到多个代价敏感的基分类器;4)集成多个基分类器输出识别模型,对用户访问场所进行个性化语义识别。本发明结合情境感知、代价敏感和半监督学习进行场所个性化语义识别,在普适计算、基于位置的服务等领域具有广阔的应用前景。

Description

一种基于多情境数据和代价敏感集成模型的场所个性化语义 识别方法
技术领域
本发明涉及场所语义识别领域,尤其涉及一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法。
背景技术
随着智能设备的普及和移动互联网的发展,越来越多的基于位置的服务给生活带来了极大便利。“位置”之上有另一种情境层次更高、表达能力更强的概念,即“场所”。场所除了有基本的地理位置信息外,往往还具有语义,通常表现为标签的形式,如家、公司、餐厅等。场所语义是以用户为中心的位置表达方式,可使基于位置的服务更智能。例如,基于场所语义的提醒服务可将待办事项与特定语义的场所相关联。因此,场所语义识别在普适计算、基于位置的服务等领域具有广阔应用空间。
传统的场所语义识别方法一般通过分析场所下所有用户共性的行为对场所语义进行识别。然而,这种方法的前提是场所对所有用户具有相同语义,而未考虑场所对用户的个性化语义。例如,超市对消费者是购物场所,但对超市员工则是工作场所。
为了识别场所个性化语义,研究人员从用户角度出发,根据用户历史记录,获取用户的场所访问模式。典型做法是通过用户的GPS轨迹发现用户停留的场所,根据场所位置以及访问时间等信息识别场所语义。由于GPS存在耗电高、室内没有信号等问题,这一方法在实际应用中无法工作。针对这一问题,现有研究从智能手机使用日志中挖掘用户情境,识别场所个性化语义。然而,现有方法均未考虑高情境层次的场所特征。此外,由于不同类型场所在语义上的相似性,不同错误识别造成的代价损失有所差异,但现有方法在评估模型性能时很少考虑这一指标。用户标注场所语义代价高昂,因此场所个性化语义识别方法普遍存在训练数据不足导致模型性能不佳的问题。
发明内容
本发明为克服上述的不足之处,目的在于提供一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法,本发明方法从智能手机使用日志的各类情境数据中提取有效特征,并通过聚类发现加速度数据中的用户活动,构建高情境层次的场所用户活动特征。接着,根据场所的活动分布,计算场所语义相似性以获取代价矩阵。然后,结合代价矩阵对场所的特征进行建模,引入无标签场所数据进行半监督学习得到多个代价敏感的基分类器。最后,集成多个基分类器输出识别模型,对用户访问场所进行个性化语义识别。本发明结合情境感知、代价敏感和半监督学习进行场所个性化语义识别,在普适计算、基于位置的服务等领域具有广阔的应用前景。
本发明是通过以下技术方案达到上述目的:一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法,其包括如下步骤:
1)从智能手机上的使用访问日志的各类情境数据中提取有效特征,并通过聚类发现加速度数据中的用户活动,构建高情境层次的场所用户活动特征,并获得有标签数据集与无标签数据集;
2)根据场所活动分布,计算场所语义相似性,得到代价矩阵;
3)结合代价矩阵对场所的特征进行建模,引入无标签数据集进行半监督学习得到若干个代价敏感的基分类器;
4)集成若干个基分类器输出识别模型,对用户访问场所进行个性化语义识别。
作为优选,所述步骤1)具体如下:
1.1)将用户在相同场所下的所有访问记录v整合形成场所的访问记录集合V,V在识别中看作一个场所;
1.2)采用特征工程方法分别从用户场所访问记录集合V的多情境数据中提取有效特征;
1.3)以聚类的方式从访问记录集合V的加速度数据中发现用户活动,统计活动分布,并构建高情境层次的场所用户活动特征Fh
1.4)根据场所是否具有用户标注的语义标签划分有标签数据集和无标签数据集。
作为优选,所述的有效特征包括时间特征Ft、App使用特征Fa、通话记录特征Fc
作为优选,所述步骤1.3)得到场所用户活动特征Fh的方法具体如下:
1.3.1)将加速度数据<(t1,(x1,y1,z1)),...,(tn,(xn,yn,zn))>按时长δ划分成多个具有重合时长ε的时间窗口,其中,δ>ε;
1.3.2)对每个时间窗口提取时域特征,得到加速度特征向量fi,其中时域特征包括均值、方差、标准差、平均绝对偏差、均方根、皮尔逊线性相关系数、能量和四分位差;
1.3.3)利用k-means算法,对加速度特征向量fi进行聚类,得到k个簇,将每个簇看作一种活动类别;
1.3.4)在该场所的访问记录集合V中,对场所活动分布进行统计,得到场所用户活动特征Fh
作为优选,所述步骤2)得到代价矩阵的步骤如下:
2.1)分别统计每类相同语义的场所下各类活动的时间占比,得到该类场所活动分布向量t=[t1,t2,...,tn],n为活动类别数目;
2.2)基于TF-IDF检索模型,从Wikipedia上获取与活动最相关的d篇文章;
2.3)基于得到的d篇文章,采用文本表示方法,基于PV-DBOW模型进行学习,将各类活动表示为m维向量aj=[aj,1,aj,2,...,aj,m];
2.4)以场所活动分布为权重,结合各活动向量,将该类场所表示为m维向量
Figure GDA0002286570660000041
2.5)基于余弦相似性,分别计算每两类场所向量的相似性,得到场所相似性矩阵SM,其中,计算公式如下:
Figure GDA0002286570660000042
2.6)将相似性矩阵SM按反比关系转化得到代价矩阵CM。
作为优选,所述步骤2.1)得到该类场所活动分布向量t=[t1,t2,...,tn]的方法为:对具有相同语义标签的所有场所,将每类活动的所有时长进行累加,再进行归一化后获得该类场所的活动分布向量t=[t1,t2,...,tn]。
作为优选,所述步骤3)得到若干个代价敏感的基分类器的步骤如下:
3.1)输入有标签数据集T与无标签数据集U;
3.2)对有标签数据集T进行可重复自助取样,获得n个训练子集Ti(1≤i≤n);
3.3)利用得到的Ti训练n个基分类器Ci(1≤i≤n);
3.4)n个基分类器分别对无标签数据集U的样本进行识别,并通过置信度度量得到高置信度的候选样本集Pi(1≤i≤n);
3.5)根据置信度优先的选择策略从步骤3.4)所得候选样本集Pi中挑选若干样本作为辅助学习集Fi(1≤i≤n),将辅助学习集Fi和训练子集Ti一同训练,得到新的基分类器Ci
3.6)重复步骤3.4)、3.5)直到不再有无标签数据集U的样本被挑选,或者迭代次数已经达到预先设定的最大迭代次数;
3.7)输出n个代价敏感的基分类器。
作为优选,所述步骤3.4)中第i个基分类器Ci对无标签样本xu的置信度的计算如公式如下:
Figure GDA0002286570660000051
其中,hj(xu)为第j个基分类器的识别结果,Ii(xu)是由除第i个基分类器以外的其余基分类器识别结果投票所得伪标签。
作为优选,所述步骤3.5)中将样本置信度按照从高到低排序,顺序挑选若干数目的样本,使模型的训练误差和代价损失得到控制,如下式所示:
Figure GDA0002286570660000061
其中,mi、mi′分别为本轮次和上一轮次辅助学习集Fi的大小,ei、ei′分别为本轮次和上一轮次的训练误差,Ri、Ri′分别为本轮次和上一轮次的代价损失;当候选样本集Pi中样本个数ni大于mi时,挑选置信度前mi的样本加入辅助学习集Fi;否则,将候选样本集Pi直接作为辅助学习集Fi
作为优选,所述步骤4)对用户访问场所进行个性化语义识别的步骤如下:
4.1)获取用户在该场所的访问记录集合V;
4.2)采用特征工程方法分别从用户场所访问记录集合V的多情境数据中提取有效特征;
4.3)以聚类的方式从访问记录集合V的加速度数据中发现用户活动,统计活动分布,并构建高情境层次的场所用户活动特征Fh
4.4)将场所的特征分别输入到n个基分类器中,每个基分类器输出一个场所语义识别结果,得到识别结果候选集;
4.5)基于步骤4.4)的识别结果候选集,投票得到最终的场所个性化语义识别结果;其中在此步骤中,还可根据基分类器的一致性获得最终识别结果的置信度。
本发明的有益效果在于:(1)构建高情境层次的场所用户活动特征,解决现有方法中对场所语义缺乏有效表示的问题;(2)根据各类场所的活动分布计算语义相似性,构建代价矩阵,解决场所错误识别代价损失差异的问题;(3)采用半监督学习方法引入无标签数据,解决因训练数据不足导致模型性能不佳的问题。
附图说明
图1是本发明的方法流程示意图;
图2是本发明实施例的场所用户特征构建过程图;
图3是本发明实施例的模型训练迭代学习示意图。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此:
实施例:如图1所示,一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法,该方法分为预处理、模型训练和语义识别三个阶段,具体步骤如下:
预处理阶段实现数据预处理、特征提取和代价矩阵构建的功能,主要可以分为多情境特征提取和代价矩阵构建两部分:
多情境特征提取的具体步骤如下:
步骤1,将用户在相同场所下的所有访问记录v形成场所的访问记录集合V,V在识别中看作一个场所。
可将每条访问记录表示为v=(tin,tout,data),其中tin和tout分别是场所访问的开始时间和结束时间,data是一个多情境数据的集合。识别场所语义时,考虑其访问记录集合V中的所有访问记录v的多情境数据。
步骤2,基于特征工程方法,分别从用户场所访问的多情境数据中提取有效特征,如时间特征Ft、App使用特征Fa、通话记录特征Fc等。
此步骤中,提取的特征主要有Ft中的场所停留时间、Fa中的App使用情况、Fc中的通话记录数目等,再通过ReliefF方法选择其中最有效的一部分特征。
步骤3,以聚类的方式从访问记录的加速度数据中发现用户活动,统计活动分布以构建高情境层次的场所用户活动特征Fh
场所用户活动特征构建过程如图2所示,将原始加速度数据〈(t1,(x1,y1,z1)),...,(tn,(xn,yn,zn))〉按时长δ划分成多个具有重合时长ε的时间窗口(δ>ε);对每个时间窗口提取时域特征(均值、方差、标准差、平均绝对偏差、均方根、皮尔逊线性相关系数、能量和四分位差),得到加速度特征向量fi;利用k-means算法,对加速度特征向量fi进行聚类,得到k个簇,将每个簇看作一种活动类别;最后,在该场所的访问记录集合V中,对场所活动分布进行统计,得到场所用户活动特征Fh
步骤4,根据场所是否具有用户标注的语义标签划分有标签数据集和无标签数据集。
每个有标签数据样本可以看作(x,y),用于训练模型;无标签样本看作(x,u),u为缺省值,将在模型训练模块迭代学习过程中被标注伪标签.
代价矩阵构建的具体步骤如下:
步骤1,分别统计每类相同语义的场所下各类活动的时间占比,得到该类场所活动分布向量t=[t1,t2,...,tn],n为活动类别数目。
对具有相同语义标签的所有场所,将每类活动的所有时长进行累加,再进行归一化以获得该类场所的活动分布向量t=[t1,t2,...,tn]。
步骤2,基于TF-IDF检索模型,从Wikipedia上获取与活动最相关的d篇文章。
步骤3,通过文本表示方法,结合步骤2得到的d篇文章,使用PV-DBOW模型将各日常活动表示为m维向量aj=[aj,1,aj,2,...,aj,m]。
基于嵌入技术,采用文本表示中的doc2vec方法,使用PV-DBOW模型进行学习,将第j类日常活动表示为一个m维的向量aj=[aj,1,aj,2,...,aj,m]。
步骤4,以场所活动分布为权重,结合各活动向量,将该类场所表示为m维向量
Figure GDA0002286570660000091
步骤5,对场所两两类别之间度量余弦相似性,构建场所相似性矩阵SM。
基于余弦相似性,分别计算每两类场所向量的相似性,如公式(1)所示,得到场所相似性矩阵SM。
Figure GDA0002286570660000092
步骤6,将相似性矩阵SM按反比关系转化得到代价矩阵CM。
根据代价矩阵CM={cij},可计算模型代价损失R,如公式(2)所示:
Figure GDA0002286570660000093
其中,h(x)为识别模型,M为场所语义类别数目,nij表示第i种场所语义被错误识别为第j种场所语义的个数。
模型训练阶段是一个迭代学习的过程,主要是结合代价矩阵对场所的特征进行建模,引入无标签数据集进行半监督学习得到若干个代价敏感的基分类器,其主要迭代过程如图3所示:
步骤1,输入经过数据预处理的数据集,包括有标签数据集T和无标签数据集U;其中,有标签数据集T作为训练数据集,无标签数据集U在每轮迭代学习过程中被挑选加入辅助学习集。
步骤2,对训练数据集进行可重复自助取样获得n个训练子集Ti(1≤i≤n)。
步骤3,利用步骤2得到的Ti训练n个基分类器Ci(1≤i≤n)。
为保证训练的基分类器具有一定的差异性,采用多种不同的基分类器学习算法,如决策树、随机森林、条件随机场和代价敏感学习算法GLLBoost等。此外,代价矩阵CM也将作为输入,用于学习代价敏感的基分类器,即考虑基分类器在训练数据上的代价损失。
步骤4,n个基分类器分别对无标签数据集U的样本进行识别,并通过置信度度量得到高置信度的候选样本集Pi(1≤i≤n)。
对于第i个基分类器Ci而言,无标签样本xu的置信度的计算如公式(3)所示:
Figure GDA0002286570660000101
其中,hj(xu)为第j个基分类器的识别结果,li(xu)是由除第i个基分类器以外的其余基分类器识别结果投票所得伪标签。仅当置信度大于设定的阈值且当前基分类器识别结果hi(xu)不等于li(xu),样本xu同其被标注的伪标签(即(xu,li(xu)))才被加入到候选样本集Pi中。
步骤5,根据置信度优先的选择策略从步骤4所得候选样本集Pi中挑选一部分样本作为辅助学习集Fi(1≤i≤n),将辅助学习集Fi和训练子集Ti一同训练新的基分类器Ci
候选样本集Pi中样本数目过多将引入噪声。因此,按照样本置信度高低排序,顺序挑选一定数目的样本,使模型的训练误差和代价损失得到控制,如公式(4)所示:
Figure GDA0002286570660000111
其中,mi、mi′分别为本轮次和上一轮次辅助学习集Fi的大小,ei、ei′分别为本轮次和上一轮次的训练误差,Ri、Ri′分别为本轮次和上一轮次的代价损失。当候选样本集Pi中样本个数ni大于mi时,挑选置信度前mi的样本加入辅助学习集Fi;否则,将候选样本集Pi直接作为辅助学习集Fi
步骤6,重复步骤4、5,直到不再有无标签数据集U的样本被挑选,或者迭代次数已经达到预先设定的最大迭代次数。
步骤7,输出n个基分类器。
语义识别阶段主要是对场所下的智能手机使用日志进行采集、特征处理以及根据模型进行场所个性化语义识别,其主要步骤如下:
步骤1,获取用户在该场所的访问记录集合V;
根据用户的访问情境,自动采集智能手机使用日志。将当前待识别场所的所有访问记录形成访问记录集合V作为识别目标。
步骤2~3,同预处理模块中多情境特征提取步骤2和步骤3;
步骤4,将场所的特征分别输入到n个基分类器中,每个基分类器输出一个场所语义识别结果,得到识别结果候选集。
步骤5,基于步骤4的识别结果候选集,投票得到最终的场所个性化语义识别结果。此步骤中,除得到最终识别结果外,还可以根据基分类器的一致性获得最终识别结果的置信度。
以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。

Claims (9)

1.一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法,其特征在于,包括如下步骤:
1)从智能手机上的使用访问日志的各类情境数据中提取有效特征,并通过聚类发现加速度数据中的用户活动,构建高情境层次的场所用户活动特征,并获得有标签数据集与无标签数据集;
2)根据场所活动分布,计算场所语义相似性,得到代价矩阵;其中,得到代价矩阵的步骤如下:
2.1)分别统计每类相同语义的场所下各类活动的时间占比,得到该类场所活动分布向量t=[t1,t2,...,tn],n为活动类别数目;
2.2)基于TF-IDF检索模型,从Wikipedia上获取与活动最相关的d篇文章;
2.3)基于得到的d篇文章,采用文本表示方法,基于PV-DBOW模型进行学习,将各类活动表示为m维向量αj=[αj,1,αj,2,...,αj,m];
2.4)以场所活动分布为权重,结合各活动向量,将该类场所表示为m维向量
Figure FDA0002286570650000011
2.5)基于余弦相似性,分别计算每两类场所向量的相似性,得到场所相似性矩阵SM,其中,计算公式如下:
Figure FDA0002286570650000012
2.6)将相似性矩阵SM按反比关系转化得到代价矩阵CM;
3)结合代价矩阵对场所的特征进行建模,引入无标签数据集进行半监督学习得到若干个代价敏感的基分类器;
4)集成若干个基分类器输出识别模型,对用户访问场所进行个性化语义识别。
2.根据权利要求1所述的一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法,其特征在于:所述步骤1)具体如下:
1.1)将用户在相同场所下的所有访问记录v整合形成场所的访问记录集合V,V在识别中看作一个场所;
1.2)采用特征工程方法分别从用户场所访问记录集合V的多情境数据中提取有效特征;
1.3)以聚类的方式从访问记录集合V的加速度数据中发现用户活动,统计活动分布,并构建高情境层次的场所用户活动特征Fh
1.4)根据场所是否具有用户标注的语义标签划分有标签数据集和无标签数据集。
3.根据权利要求2所述的一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法,其特征在于:所述的有效特征包括时间特征Ft、App使用特征Fa、通话记录特征Fc
4.根据权利要求2所述的一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法,其特征在于:所述步骤1.3)得到场所用户活动特征Fh的方法具体如下:
1.3.1)将加速度数据<(t1,(x1,y1,z1)),...,(tn,(xn,yn,zn))>按时长δ划分成多个具有重合时长ε的时间窗口,其中,δ>ε;
1.3.2)对每个时间窗口提取时域特征,得到加速度特征向量fi,其中时域特征包括均值、方差、标准差、平均绝对偏差、均方根、皮尔逊线性相关系数、能量和四分位差;
1.3.3)利用k-means算法,对加速度特征向量fi进行聚类,得到k个簇,将每个簇看作一种活动类别;
1.3.4)在该场所的访问记录集合V中,对场所活动分布进行统计,得到场所用户活动特征Fh
5.根据权利要求1所述的一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法,其特征在于:所述步骤2.1)得到该类场所活动分布向量t=[t1,t2,...,tn]的方法为:对具有相同语义标签的所有场所,将每类活动的所有时长进行累加,再进行归一化后获得该类场所的活动分布向量t=[t1,t2,...,tn]。
6.根据权利要求1所述的一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法,其特征在于:所述步骤3)得到若干个代价敏感的基分类器的步骤如下:
3.1)输入有标签数据集T与无标签数据集U;
3.2)对有标签数据集T进行可重复自助取样,获得n个训练子集Ti,其中,1≤i≤n;
3.3)利用得到的Ti训练n个基分类器Ci,其中,1≤i≤n;
3.4)n个基分类器分别对无标签数据集U的样本进行识别,并通过置信度度量得到高置信度的候选样本集Pi,其中,1≤i≤n;
3.5)根据置信度优先的选择策略从步骤3.4)所得候选样本集Pi中挑选若干样本作为辅助学习集Fi,其中,1≤i≤n,将辅助学习集Fi和训练子集Ti一同训练,得到新的基分类器Ci
3.6)重复步骤3.4)、3.5)直到不再有无标签数据集U的样本被挑选,或者迭代次数已经达到预先设定的最大迭代次数;
3.7)输出n个代价敏感的基分类器。
7.根据权利要求6所述的一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法,其特征在于:所述步骤3.4)中第i个基分类器Ci对无标签样本xu的置信度的计算如公式如下:
Figure FDA0002286570650000041
其中,hj(xu)为第j个基分类器的识别结果,li(xu)是由除第i个基分类器以外的其余基分类器识别结果投票所得伪标签。
8.根据权利要求6所述的一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法,其特征在于:所述步骤3.5)中将样本置信度按照从高到低排序,顺序挑选若干数目的样本,使模型的训练误差和代价损失得到控制,如下式所示:
Figure FDA0002286570650000042
其中,mi、mi′分别为本轮次和上一轮次辅助学习集Fi的大小,ei、ei′分别为本轮次和上一轮次的训练误差,Ri、Ri′分别为本轮次和上一轮次的代价损失;当候选样本集Pi中样本个数ni大于mi时,挑选置信度前mi的样本加入辅助学习集Fi;否则,将候选样本集Pi直接作为辅助学习集Fi
9.根据权利要求1所述的一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法,其特征在于:所述步骤4)对用户访问场所进行个性化语义识别的步骤如下:
4.1)获取用户在该场所的访问记录集合V;
4.2)采用特征工程方法分别从用户场所访问记录集合V的多情境数据中提取有效特征;
4.3)以聚类的方式从访问记录集合V的加速度数据中发现用户活动,统计活动分布,并构建高情境层次的场所用户活动特征Fh
4.4)将场所的特征分别输入到n个基分类器中,每个基分类器输出一个场所语义识别结果,得到识别结果候选集;
4.5)基于步骤4.4)的识别结果候选集,投票得到最终的场所个性化语义识别结果;其中在此步骤中,还可根据基分类器的一致性获得最终识别结果的置信度。
CN201710229368.9A 2017-04-10 2017-04-10 一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法 Active CN107092592B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710229368.9A CN107092592B (zh) 2017-04-10 2017-04-10 一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710229368.9A CN107092592B (zh) 2017-04-10 2017-04-10 一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法

Publications (2)

Publication Number Publication Date
CN107092592A CN107092592A (zh) 2017-08-25
CN107092592B true CN107092592B (zh) 2020-06-05

Family

ID=59636819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710229368.9A Active CN107092592B (zh) 2017-04-10 2017-04-10 一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法

Country Status (1)

Country Link
CN (1) CN107092592B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112020707A (zh) * 2018-01-05 2020-12-01 国立大学法人九州工业大学 标签添加装置、标签添加方法以及程序
CN108197670B (zh) * 2018-01-31 2021-06-15 国信优易数据股份有限公司 伪标签生成模型训练方法、装置及伪标签生成方法及装置
CN108932730B (zh) * 2018-05-31 2021-11-23 哈工大机器人集团(昆山)有限公司 基于数据关联的视频多目标跟踪方法及系统
CN109032342B (zh) * 2018-07-02 2020-06-30 浙江大学 一种融合运动、生理和位置传感数据的复杂活动识别方法
CN109117476B (zh) * 2018-07-12 2022-04-01 浙江鸿程计算机系统有限公司 一种基于多情境嵌入的个性化场所语义识别方法
CN109447114B (zh) * 2018-09-25 2020-11-06 北京酷云互动科技有限公司 场所之间关联度的评估方法和评估系统
CN109992569A (zh) * 2019-02-19 2019-07-09 平安科技(深圳)有限公司 集群日志特征提取方法、装置及存储介质
CN110379464B (zh) * 2019-07-29 2023-05-12 桂林电子科技大学 一种细菌中dna转录终止子的预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200104A (zh) * 2014-09-04 2014-12-10 浙江鸿程计算机系统有限公司 一种基于空间特征的细粒度空气污染物浓度区域估计方法
CN104318242A (zh) * 2014-10-08 2015-01-28 中国人民解放军空军工程大学 一种高效的svm主动半监督学习算法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200104A (zh) * 2014-09-04 2014-12-10 浙江鸿程计算机系统有限公司 一种基于空间特征的细粒度空气污染物浓度区域估计方法
CN104318242A (zh) * 2014-10-08 2015-01-28 中国人民解放军空军工程大学 一种高效的svm主动半监督学习算法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Bayesian Nonparametric Modeling of User Activities;Yin Zhu等;《Proceedings of the 2011 international workshop on Trajectory data mining and analysis》;20110918;摘要,第1页第2栏,第3页第1栏,图1 *
Feature engineering for semantic place prediction;Yin Zhu等;《Pervasive and Mobile Computing》;20131231;第9卷(第6期);摘要,第1部分第2段,第3部分 *
Tri-Training: Exploiting Unlabeled Data Using Three Classifiers;Zhi Hua Zhou等;《IEEE Transactions on Kmowledge and Data Engineering》;20050926;第17卷(第11期);全文 *
基于半监督学习的微博谣言检测研究;路同强;《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》;20160215;第3章 *

Also Published As

Publication number Publication date
CN107092592A (zh) 2017-08-25

Similar Documents

Publication Publication Date Title
CN107092592B (zh) 一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法
CN110168535A (zh) 一种信息处理方法及终端、计算机存储介质
May Petry et al. MARC: a robust method for multiple-aspect trajectory classification via space, time, and semantic embeddings
CN109189943B (zh) 一种能力知识抽取及能力知识图谱构建的方法
CN110532398B (zh) 基于多任务联合神经网络模型的家族图谱自动构建方法
CN109145180B (zh) 一种基于增量聚类的企业热点事件挖掘方法
CN109284370B (zh) 一种基于深度学习的移动应用描述与权限保真性判定方法及装置
CN109409433B (zh) 一种社交网络用户的人格识别系统和方法
CN113011889B (zh) 账号异常识别方法、系统、装置、设备及介质
CN112071322A (zh) 一种端到端的声纹识别方法、装置、存储介质及设备
CN113422761A (zh) 基于对抗学习的恶意社交用户检测方法
CN112819024B (zh) 模型处理方法、用户数据处理方法及装置、计算机设备
CN107741958A (zh) 一种数据处理方法及系统
CN112132238A (zh) 一种识别隐私数据的方法、装置、设备和可读介质
CN110472057B (zh) 话题标签的生成方法及装置
CN111753151B (zh) 一种基于互联网用户行为的服务推荐方法
CN117608889A (zh) 基于日志语义的异常检测方法以及相关设备
CN107609921A (zh) 一种数据处理方法及服务器
CN113657443B (zh) 一种基于soinn网络的在线物联网设备识别方法
CN115062725A (zh) 酒店收益异常分析方法及系统
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及系统
CN109918583B (zh) 一种任务信息处理方法及装置
CN112364649A (zh) 命名实体的识别方法、装置、计算机设备及存储介质
CN112149692B (zh) 基于人工智能的视觉关系识别方法、装置及电子设备
CN113793191B (zh) 商品的匹配方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant