CN112966010A - 一种用户轨迹信息挖掘方法 - Google Patents
一种用户轨迹信息挖掘方法 Download PDFInfo
- Publication number
- CN112966010A CN112966010A CN202110174281.2A CN202110174281A CN112966010A CN 112966010 A CN112966010 A CN 112966010A CN 202110174281 A CN202110174281 A CN 202110174281A CN 112966010 A CN112966010 A CN 112966010A
- Authority
- CN
- China
- Prior art keywords
- user
- sequence
- track
- attribute
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000005065 mining Methods 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000004458 analytical method Methods 0.000 claims abstract description 5
- 230000009471 action Effects 0.000 claims abstract description 3
- 239000013598 vector Substances 0.000 claims description 64
- 238000003860 storage Methods 0.000 claims description 13
- 230000006399 behavior Effects 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 230000007246 mechanism Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 7
- 238000013507 mapping Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 102100031554 Double C2-like domain-containing protein alpha Human genes 0.000 description 2
- 101000866272 Homo sapiens Double C2-like domain-containing protein alpha Proteins 0.000 description 2
- 241000700605 Viruses Species 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 208000015181 infectious disease Diseases 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006806 disease prevention Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011841 epidemiological investigation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24575—Query processing with adaptation to user needs using context
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S19/00—Satellite radio beacon positioning systems; Determining position, velocity or attitude using signals transmitted by such systems
- G01S19/38—Determining a navigation solution using signals transmitted by a satellite radio beacon positioning system
- G01S19/39—Determining a navigation solution using signals transmitted by a satellite radio beacon positioning system the satellite radio beacon positioning system transmitting time-stamped messages, e.g. GPS [Global Positioning System], GLONASS [Global Orbiting Navigation Satellite System] or GALILEO
- G01S19/42—Determining position
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种用户轨迹信息挖掘方法。该方法包括:构建包含多个超级节点的轨迹序列,其中所述轨迹序列反映用户不同时间的行动轨迹,每个超级节点表征用户签到的位置、位置属性和用户属性;将所述轨迹序列输入到预训练模型,获得映射后的固定维度的向量化表示,作为用户画像序列;将所述用户画像序列输入分类器或聚类器进行分析,获得用户分类或聚类结果。本发明能够对用户多维度的信息进行全方位挖掘,并将用户轨迹信息映射到固定的低维空间,从而节省了空间开销并同时减少了信息丢失带来的影响。
Description
技术领域
本发明涉及信息分析技术领域,更具体地,涉及一种用户轨迹信息挖掘方法。
背景技术
在疫情控制历史上,控制传染源和切断传播途径是主要方式,而这两者都依赖于流行病调查(或简称流调)。在流行病调查中,调查员将会对感染者进行采访,询问他最近的生活轨迹,如去过哪里、见过谁等。但这种方式通常很难有效展开,有时候因为隔离或者治疗原因无法及时采访感染者,有时受访者不记得准确的信息。同时,一对一的问卷调查会消耗大量的资源和人力,这促使对传统的流行病调查方法进行改进。
现有的网络用户轨迹信息的挖掘方法通常有以下两种:
(1)线性简化压缩方法。将GPS设备收集到的少量数据所代表的用户近似轨迹来替代用户的真实轨迹,实现对用户轨迹的压缩,该算法主要的思想是对采集到的轨迹点进行均匀采样,每隔K个采样点保留一个,如图1所示,用户的轨迹向量被近似为(p1,p4,p6)。
(2)基于路网结构的压缩方法。通过在原始的轨迹数据中加入路网结构,使得用户的轨迹落在相应的路段上。这种方法更具有现实意义,路网络结构的稳定性和有效性使得可以通过路网结构进行用户轨迹的表示,如图2所示,最终的轨迹为(p1,p3,p6)。
然而,现有技术对用户轨迹向量进行挖掘时,用户轨迹向量的空间开销无法确定,可能造成较大的空间开销;在提取用户轨迹向量的过程中,仅仅只能记录运动轨迹信息,且对轨迹点的压缩可能导致重要信息的丢失;无法处理地点属性信息和用户行为信息等。
发明内容
本发明的目的是克服上述现有技术的缺陷,提供一种用户轨迹信息挖掘方法,通过分析用户的历史轨迹,能够及时、准确地获得用户分类。
本发明的技术方案是,提供一种用户轨迹信息挖掘方法。该方法包括:构建包含多个超级节点的轨迹序列,其中所述轨迹序列反映用户不同时间的行动轨迹,每个超级节点表征用户签到的位置、位置属性和用户属性;将所述轨迹序列输入到预训练模型,获得映射后的固定维度的向量化表示,作为用户画像序列;将所述用户画像序列输入分类器或聚类器进行分析,获得用户分类结果。
与现有技术相比,本发明的优点在于,所提出的用户轨迹信息挖掘方法,可以将用户向量映射到低维空间,且用户轨迹向量的维度大小是确定的;在提取用户轨迹向量时,同时考虑了用户的位置属性和行为属性等,能够对用户多维度的信息进行全方位挖掘,从而减少了信息丢失带来的影响。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是现有技术的线性简化压缩方法示意图;
图2是现有技术的基于路网结构的压缩方法示意图;
图3是根据本发明一个实施例的用户轨迹信息挖掘方法的流程图;
图4是根据本发明一个实施例的轨迹按时间顺序排列的地点示意图;
图5是根据本发明一个实施例的用户活动轨迹示意图;
图6是根据本发明一个实施例的基于Doc2Vec的预训练模型框架图;
图7是根据本发明一个实施例的基于BERT的预训练模型框架图;
图8是根据本发明一个实施例的基于Word2vec和Transformer的预训练模型框架图;
图9是根据本发明一个实施例的嵌入层为Doc2Vec的用户属性预测结果;
图10是根据本发明一个实施例的嵌入层为BERT的用户属性预测结果;
图11是根据本发明一个实施例的嵌入层为Transformer及融合层时用户属性预测结果;
图12是根据本发明一个实施例的根据elbow准则选择合适聚类数的示意图;
图13是根据本发明一个实施例的用户聚类图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
目前,人们出行时通常会扫描二维码,将每天的访问记录成日志。此外,还会安装一些特定的应用程序,这些应用程序可以记录用户轨迹,包括访问的时间、位置的经纬度、位置属性(POI)、用户属性(BOI)或任何其他有用的属性等。例如,中国香港地区使用“LeaveHomeSafe”移动应用,新加坡使用“BlueTrace”追踪感染者,以阻止流行病的蔓延。这些应用程序所收集的信息将会被脱敏,并用于跟踪病毒的传播。然而,并不是每个人都愿意分享他的行踪信息。有时人们可能会忘记扫描二维码,或者出于保护个人隐私的原因关闭了签到应用程序。此外,二维码扫描和签到应用程序虽然是一种有效的流调方式,但也是一种相对被动的流调方式,即只有当一个人被确认感染时,才能通知他的密切接触者。如果能在感染发生前根据历史轨迹数据提前发现易感人群和可能的超级传播者,可以更有效地阻止病毒的传播。
为解决上述问题,本发明利用人口的历史轨迹信息来完成传统的问卷调查任务。主要思想是从用户的历史轨迹模式中挖掘潜在的社会信息。引入多维嵌入方法,将轨迹中的每个属性映射到固定维度空间的向量中。这些向量可以进一步用于为每个用户构建肖像,或提供给分类器或聚类器以完成问卷调查任务。这里,分类器的标签可以由具体的流调任务决定。本发明通过一种联系用户活动时间、地点位置、位置属性(POI, point-of-interest)和用户属性(BOI,behavior-of-interest)信息进行联合挖掘,再映射到低维空间,从而建立用户画像的方法,实现对于用户轨迹向量的提取。
简言之,本发明提出的用户轨迹信息挖掘方法,通过追踪软件等应用程序记录得到的用户历史轨迹,利用人工智能从历史轨迹模式中提取用户的偏好和社会关系,从而进行科学和智能的流行病传播追踪。在本发明中,使用的轨迹数据包括时间、地点、位置属性(POI)以及用户属性(BOI)。用户的物理位置代表用户到达的地点,地点的POI信息包括特定的位置类别,例如公园、学校或工作场所。BOI信息由用户的行为模式定义,例如用户习惯、在该地点的消费金额、停留时间、交通方式、或者对该地点的评分等。将这些用户轨迹中的属性嵌入到模型中进行预训练,然后输入到分类器或聚类器中,以实现不同的目的。
具体地,参见图3所示,所提供的用户轨迹信息挖掘方法包括以下步骤:
步骤S310,建立用户轨迹序列模型,用于表征用户签到的位置、位置属性和用户属性。
用户的移动可以表示为用户元组(t,li,n),其中t表示签到的时间,li,n表示在时间t所签到的位置。基于一系列的时空签到,用户的轨迹Ti可以通过物理位置序列li,n进行表示:
如图4所示,轨迹Ti中的每个节点表示用户i访问的物理位置,Ti中的所有节点按时间顺序排列。由于每个用户都有自己的轨迹,因此轨迹序列的长度|Ti|可能会随着用户i的变化而变化。
在本发明实施例中,将用户的每次签到视为一个超级节点 Si,n=(li,n,pi,n,bi,n),其中li,n,pi,n,bi,n分别代表用户i的位置,位置属性和用户属性。如图5所示,每个用户都有由一系列超级节点Si,n组成的轨迹:
每个超级节点都会有多个属性,如位置、POI和BOI等,用户i所有的超级节点按照时间顺序排列组成了轨迹Ti。显然,对于不同的用户,轨迹长度|Ti|也会有所区别。
为了可以更好的理解轨迹模型,将超级节点的属性划分为不同的序列,如位置序列Li、POI序列Pi和BOI序列Bi,表示为:
因此,将轨迹的表达式可以重写为:
步骤S320,将用户的轨迹序列输入到预训练模型,获得映射后的固定维度的向量化表示,作为用户画像序列。
Xi,1=f(Li),Xi,2=f(Pi),Xi,3=f(Bi). (7)
其中Xi,1,Xi,2,Xi,3∈Rd是映射后的向量,不同用户的轨迹序列的长度ni有所区别。
在经过模型的映射之后,将Rd中的向量拼接为一个长向量Xi∈R3d,表示为:
Xi=(Xi,1,Xi,2,Xi,3). (8)
其中,Xi可以视为用户i的画像。
在现实世界中,轨迹序列往往是高维的、稀疏的和不均匀采样的,很难有效地挖掘用户的轨迹模式。因此,通常很难从轨迹模式中直接提取用户偏好和用户关系。对于每个属性序列,即Li,Pi和Bi,本发明的目标是找到一个统一的模型,将序列映射到R3d中的向量,将这个过程称为预训练。在自然语言处理中,一些基于非监督特征提取的方法,如Word2vec,Doc2vec或BERT,可以将一个单词或文档映射为低维的和高密度的向量,从而对文本进行有效的挖掘。本发明遵循同样的方法将轨迹中的标记(属性值)映射为低维和密集的向量。当得到每个用户的轨迹的密集向量表示,下一步就是使用用户的画像作为特性来指导无监督或有监督的任务。考虑到自我注意机制克服了序列的长距离依赖性,本发明进一步提出了基于自我注意力机制的多维度轨迹信息融合方法。以下将具体介绍不同类型的预训练模型框架。
本发明提出的第一个预训练的方法是通过无监督的方法获取用户的画像,并将它们提供给分类器或聚类器来完成挖掘过程。
图6是基于Doc2vec的无监督预训练模型。Doc2vec是基于单词向量化表示方法的模型,在预测单词时增加段落向量来区分不同的段落,使得同一段落中的单词可以用相同的段落向量表示。Doc2vec模型中有两种方法:段落向量分布式存储版本模型(PV-DM)和段落向量分布式词袋模型版本(PV-DBOW)。PV-DM在预测单词时,将单词相应的段落向量和上下文单词向量连接起来作为该方法的输入,在一个固定的文本窗口长度中预测该单词。而PV-DBOW则忽略预测单词的上下文,用段落向量作为模型的输入,从段落中随机采样的单词作为模型的输出,即对给定的段落向量构造一个分类任务,而且在每次梯度下降迭代时都会重新采样,以此来训练得到段落向量。在图6中,地理位置,POI和BOI被独立地输入到三个Doc2vec的预训练模型,训练得到的分向量被拼接成用户的画像向量,进而将拼接向量输入分类器或者聚类器进行进一步的处理。
图7是基于BERT的无监督预训练模型。在该模型中,位置序列Li、POI序列Pi和BOI序列Bi分别输入到三个Bert模型进行独立嵌入。具体地, Li,Pi和Bi中的每个值,如li,n,pi,n和bi,n,通过三个通道输入到独立的三个 Bert模型,对应的输出分别为为了将一个序列映射到一个向量中,只需对这些表示的加权取平均值:如,因此可以得到 Li,Pi和Bi对应的三个预训练分向量Xi,1,Xi,2,Xi,3,通过串联这三个序列的向量得到预训练总的向量Xi,即公式(8),用于对用户的画像进行向量化表示,并进而输入分类器或聚类器。
现有技术所提出的LSTM、RNN等模型大多是单向的,这些体系结构根据前一个单词预测下一个单词来完成预训练。但是,上下文信息应该同时用上下文来表示,这种单向性限制了性能。BERT是一种新颖的预训练语言模型,它通过使用“掩码语言模型”(MLM)减轻了这种限制。MLM随机屏蔽了输入词汇中的一部分,并根据其上下文预测被屏蔽词的原始词汇id,从而使模型的预测结果融合了左上下文和右上下文。
图8是基于Word2vec和Transformer的预训练模型。在上述的BERT 和Doc2vec框架中,预训练过程是无监督的。然而,如果采集的数据集中有标签,也可以采用图8的预训练模型来执行有监督的预训练。该模型主要包括嵌入层、融合层和transformer层(或称转换层)。嵌入层是为了将输入的语料转化成特征向量,使用的是Word2vec模型。融合层中包含了卷积层和拼接层,其中卷积层是为了控制词向量的维度,拼接层则是将词的位置编码嵌入到相应的向量中。Transformer层主要由多头注意力层和前馈网络组成,其中多头注意力层由多个注意力机制层组成,注意力机制中每个单词有三个不同的向量,分别是Query、Key和Value,Query,Key,Value 的概念取自于信息检索系统,如在某电商平台搜索某件商品时,在搜索引擎上输入的内容便是Query,然后搜索引擎根据Query会匹配相应的Key (例如商品的种类,颜色,描述等),然后根据Query和Key的相似度得到匹配的内容(Value)。
在图8中,位置序列Li,POI序列Pi和BOI序列Bi首先使用Word2vec 模型进行独立嵌入,选用该模型的原因是为了在大容量数据下保持特征的提取效率和收敛性。由于语境信息非常重要,因此通过注意机制来解决这一问题。由于直接拼接transformer的输入向量可能过于粗略,在transformer 的输入之前添加一个融合层,其中固定位置编码pos表示签到点在一个序列中的顺序。使用具有k1个(如64)滤波器的卷积层对每一个输入的属性进行特征提取。在经过这个卷积层之后,得到向量为了避免直接将高维度的向量输入到 transformer中,再添加一个有k2个(如128)滤波器的卷积层将transformer 的输入设置为最后将放入到具有softmax函数的全连接层来完成分类任务。
Transformer是一个基于自我注意机制的框架。注意力机制将一个 Query和一组Key-Value映射到一个输出,其中Query,Key,Value和输出都是向量。输出的结果为值的加权和,其中每个值的权重由一个相应键的查询兼容性函数决定。通过注意机制将同一序列中不同单词之间的距离一一对应,并为序列中的单词赋予不同的权重,以进行上下文的表征。 Transformer设计的关键是将任意两个属性值之间的距离设为1,这对于解决序列处理中的长期依赖问题非常有效。为了获取序列化的序列, transformer在对单词向量化时使用了位置嵌入的特征。具体来说,位置编码将属性的位置信息加入到了序列中,使transformer能够区分不同位置的属性。
步骤S330,将用户画像序列输入分类器或聚类器进行分析,获得用户分类或聚类的结果。
在获得用户画像,即公式(8)后,可将用户画像的向量化表示输入到多种类型的分类器或聚类器。其中,分类器的标签由具体的分类任务决定,聚类器所需要的类别数目可以由现有的经典的方案确定。例如,可采用基于softmax的分类器,或Kmeans聚类器,分类数目和标签类型可根据需要设定,如进行二分类或更多分类,分类标签为年龄、性别等。本发明对此不进行限制。
为进一步验证本发明的效果,进行了实验。在实验中,将该方法应用于一个合成数据集上进行分类任务,并在一个真实数据集上进行聚类任务。这两项工作证明了所提出的方法是有效的,可用于指导疾病预防措施。
具体地,在实验中使用的合成数据是从一个真实的广告系统中生成。在广告系统的场景中,由于用户会不断浏览大量的广告,这与轨迹模型中的签到过程非常相似。因此,将用户的点击序列作为轨迹。每个广告可以包含不同的属性,这些属性类似于轨迹模型中的POI和BOI信息。因此,从数据集生成合成数据2020腾讯广告算法大赛。这个数据集的细节显示在表1,它包含了大约3000万用户的广告浏览历史,每条浏览历史有6个属性。根据广告系统中的数据属性选择“creative id”(素材id)、“ad id” (广告id)和“advertiser_id”(广告主id)三个属性作为本发明中的位置、 POI和BOI属性组成一个超级节点。用户的年龄和性别信息被视为标签在轨迹模型中,每个用户都有A和B两个标签。在此,标签A为二分类标签,标签B为多分类标签。值得注意的是,性别和年龄在此仅仅代表二分类和多分类标签。在实际的疫情控制应用中,标签可以由具体控制目标决定。
表1腾讯广告数据集
实验特征 | 广告特征 | 数量 |
位置 | 素材id | 2481135 |
POI | 广告id | 2264190 |
BOI | 广告主id | 52090 |
用户 | 用户 | 900000 |
性别 | 标签A | 2 |
年龄 | 标签B | 10 |
首先在这个合成数据上运行图7的BERT框架。在预训练过程中,20%的id被随机屏蔽或替换为其他id,使transformer能够保持每个id的表示。为了加速BERT的收敛,首先用Word2vec模块将属性序列嵌入到一个128 维向量中,作为BERT的输入。在BERT模块中设置层数为12,隐藏层嵌入维度为512,注意力头数为16,最终BERT将为轨迹序列中的每个签到点嵌入为一个512维向量。对序列中所有id进行加权平均,以生成一个512 维向量来表示每个属性序列,如用Xi,1表示Li,1,用Xi,2表示Li,2,用Xi,3表示Li,3,可参见公式(7)。在完成映射之后,接着进行拼接Xi=(Xi,1;Xi,2;Xi,3)∈R1536,可见参见公式(8)。
此外,实验中,还将图7中的无监督BERT预训练过程替换为Doc2vec 嵌入模块进行比较。在这里,Doc2vec块是使用Gensim库实现的,嵌入维度设为d=150,窗口大小设为5。实验中,去除频率小于5的令牌,同时运行Skipgram模型和CBOW模型,得到两个密集向量并进行拼接。每个属性序列(Li、Pi或Bi)由两个密集向量连接成一个300维向量表示,见公式(7)。映射完成后,融合过程得到连接向量Xi∈R900。经过无监督的预训练后,可以将用户的画像(Xi)输入分类器,如lightgbm分类器或DNN分类器。为了进行分类任务,将90%的数据分割为训练数据集,其余的作为测试数据集。
在有监督的预训练实验中,采用Word2vec模型,其中嵌入维数大小设置为128,窗口大小设置为8。为了使transformer的输入具有固定的长度,截断或填充所有序列到64的长度。因此,拼接模块中位置编码块的维数也为64×64,本文采用one-hot编码。接着,设置第一个卷积层为k1=64个滤波器,第二个卷积层为k2=128个滤波器。在transformer组中,多头注意采用了8个平行的自我注意层和具有32个滤波器的卷积层。框架中所有卷积层的内核大小都是1,后面跟着ReLU激活函数。为了避免过拟合,在 transformer中只使用一个编码器。
总体上验证了有无监督学习方案和有监督学习方案,其中无监督学习方案使用的Embedding模型可以是Doc2Vec或Bert;而无监督学习方案可以选用引入融合层的Transformer模型。接下来,对比不同方案的实验结果。
当Embedding模型为Doc2Vec的时候实验结果如表2所示。使用用户位置、位置属性和用户行为作为用户的轨迹数据属性得到的用户轨迹向量,分类预测结果是性别准确率为0.935,年龄准确率为0.414。分类器训练过程的准确率曲线如图9所示。
表2嵌入模型为Doc2Vec的实验结果
当Embedding模型为Bert时,实验结果如表3所示。使用用户位置、位置属性和用户行为作为用户的轨迹数据属性得到的用户轨迹向量,分类预测结果是性别准确率为0.935,年龄准确率为0.421。分类器训练过程的准确率曲线如图10所示。
表3嵌入模型为Bert的实验结果
用户轨迹属性 | 性别分类准确率 | 年龄分类准确率 |
位置 | 0.929 | 0.394 |
POI | 0.930 | 0.391 |
BOI | 0.898 | 0.371 |
位置+POI+BOI | 0.935 | 0.421 |
当Embedding模型为Tranformer和融合层的时,实验结果如表4所示。使用用户位置、位置属性和用户行为作为用户的轨迹数据属性得到的用户轨迹向量,分类预测结果是性别准确率为0.943,年龄准确率为0.472。分类器训练过程的准确率曲线如图11所示。
表4嵌入模型为Tranformer的实验结果
用户轨迹属性 | 性别分类准确率 | 年龄分类准确率 |
位置 | 0.938 | 0.423 |
POI | 0.930 | 0.391 |
BOI | 0.904 | 0.399 |
位置+POI+BOI | 0.943 | 0.472 |
将上述模型应用到真实的场景中,采用Foursquare数据集,Foursquare 是一个著名的位置数据平台,可以记录人们在现实世界中的活动。在这个数据集中,可以得到用户id,他们移动的时间和地点,记录为时间戳和地点id,以及位置类别。将数据集应用到上述模型中,并进行分析。但是,由于缺少真实的用户属性,所以使用聚类器来分析用户的肖像,监督数据在未来将由本发明的方法进行评估。在无监督预训练模型融合方法的基础上,使用Kmeans聚类方法来探索用户轨迹模式的异同。由图12可知最佳聚类数目为6,可视化方法t-SNE如图13所示,从图中可以看出,确实有一些用户的移动模式是相似的。因此,本发明可以通过定位超级传播者来控制疫情。
综上所述,本发明将轨迹信息中的时间、位置、地点属性和用户属性分别提取成超级节点,并将超级节点中的多维度信息独立预训练再融合,能够根据多维度轨迹信息提取用户画像。此外,在提取画像过程中,结合注意力机制为不同的属性值赋予不同的权重,提高了用户画像提取的精确度。
相对于现有技术,本发明的技术效果体现在以下方面:可以将用户轨迹信息映射到固定的低维空间,这样可以节省用户轨迹向量存储的空间开销,并避免了信息丢失的问题;充分利用了地理位置、地点属性和用户行为属性等多维度信息,从而将联合用户画像与具体应用相结合;利用注意力机制有效的挖掘出前后轨迹信息,更好的利用用户轨迹进行画像。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/ 或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构 (ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++、Python等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网 (WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。
Claims (9)
1.一种用户轨迹信息挖掘方法,包括:
构建包含多个超级节点的轨迹序列,其中所述轨迹序列反映用户不同时间的行动轨迹,每个超级节点表征用户签到的位置、位置属性和用户属性;
将所述轨迹序列输入到预训练模型,获得映射后的固定维度的向量化表示,作为用户画像序列;
将所述用户画像序列输入分类器或聚类器进行分析,获得用户分类或聚类结果。
3.根据权利要求2所述的方法,其中,所述预训练模型基于Word2vec模型构建,位置序列Li、位置属性序列Pi和用户属性序列Bi被分别独立输入到三个Word2vec模型,得到三个对应的训练分向量,进而拼接成用户画像向量。
4.根据权利要求2所述的方法,其中,,所述预训练模型基于BERT模型构建,位置序列Li、位置属性序列Pi和用户属性序列Bi中的每个值,通过三个通道输入到独立的三个BERT模型,得到对应的训练分向量,进而拼接成用户画像向量。
5.根据权利要求2所述的方法,其中,所述预训练模型包括嵌入层、融合层和transformer层,所述嵌入层用于将输入的位置序列Li、位置属性序列Pi和用户属性序列Bi转化成对应的特征向量;所述融合层包含卷积层和拼接层,卷积层用于控制输入特征向量的维度,拼接层用于将位置编码嵌入到相应的向量中;Transformer层包含多头注意力层和前馈网络。
6.根据权利要求5所述的方法,其中,所述嵌入层包含三个独立的Word2vec模型,分别用于位置序列Li、位置属性序列Pi和用户属性序列Bi的嵌入表示。
7.根据权利要求1所述的方法,其中,所述位置属性用于反映用户的活动场所,所述用户属性反映用户的行为模式,包括用户习惯、在各活动场所的消费金额、停留时间、交通方式、或者对各活动场所的评分。
8.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现根据权利要求1至7中任一项所述的方法的步骤。
9.一种计算机设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110174281.2A CN112966010A (zh) | 2021-02-09 | 2021-02-09 | 一种用户轨迹信息挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110174281.2A CN112966010A (zh) | 2021-02-09 | 2021-02-09 | 一种用户轨迹信息挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112966010A true CN112966010A (zh) | 2021-06-15 |
Family
ID=76284282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110174281.2A Pending CN112966010A (zh) | 2021-02-09 | 2021-02-09 | 一种用户轨迹信息挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112966010A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114359774A (zh) * | 2021-11-17 | 2022-04-15 | 山东省国土测绘院 | 行人移动模式分类方法、装置及电子设备 |
CN114418093A (zh) * | 2022-01-19 | 2022-04-29 | 北京百度网讯科技有限公司 | 训练路径表征模型、输出信息的方法和装置 |
CN115412857A (zh) * | 2022-08-24 | 2022-11-29 | 浙江大学 | 一种居民出行信息预测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3017518A1 (en) * | 2016-03-18 | 2017-09-21 | President And Fellows Of Harvard College | Automatically classifying animal behavior |
US20190004875A1 (en) * | 2017-06-28 | 2019-01-03 | Microsoft Technology Licensing, Llc | Artificial Creation Of Dominant Sequences That Are Representative Of Logged Events |
US20200082245A1 (en) * | 2018-09-12 | 2020-03-12 | Applied Materials, Inc. | Deep auto-encoder for equipment health monitoring and fault detection in semiconductor and display process equipment tools |
CN111008337A (zh) * | 2019-11-06 | 2020-04-14 | 武汉大学 | 一种基于三元特征的深度注意力谣言鉴别方法及装置 |
CN111400620A (zh) * | 2020-03-27 | 2020-07-10 | 东北大学 | 基于时空嵌入Self-Attention的用户轨迹位置预测方法 |
CN111444243A (zh) * | 2020-03-31 | 2020-07-24 | 北京信息科技大学 | 一种基于轨迹信息的用户行为预测画像方法及系统 |
-
2021
- 2021-02-09 CN CN202110174281.2A patent/CN112966010A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3017518A1 (en) * | 2016-03-18 | 2017-09-21 | President And Fellows Of Harvard College | Automatically classifying animal behavior |
US20190004875A1 (en) * | 2017-06-28 | 2019-01-03 | Microsoft Technology Licensing, Llc | Artificial Creation Of Dominant Sequences That Are Representative Of Logged Events |
US20200082245A1 (en) * | 2018-09-12 | 2020-03-12 | Applied Materials, Inc. | Deep auto-encoder for equipment health monitoring and fault detection in semiconductor and display process equipment tools |
CN111008337A (zh) * | 2019-11-06 | 2020-04-14 | 武汉大学 | 一种基于三元特征的深度注意力谣言鉴别方法及装置 |
CN111400620A (zh) * | 2020-03-27 | 2020-07-10 | 东北大学 | 基于时空嵌入Self-Attention的用户轨迹位置预测方法 |
CN111444243A (zh) * | 2020-03-31 | 2020-07-24 | 北京信息科技大学 | 一种基于轨迹信息的用户行为预测画像方法及系统 |
Non-Patent Citations (1)
Title |
---|
陈勐等: ""基于时序特征的移动模式挖掘"", 《中国科学:信息科学》, 20 September 2016 (2016-09-20) * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114359774A (zh) * | 2021-11-17 | 2022-04-15 | 山东省国土测绘院 | 行人移动模式分类方法、装置及电子设备 |
CN114418093A (zh) * | 2022-01-19 | 2022-04-29 | 北京百度网讯科技有限公司 | 训练路径表征模型、输出信息的方法和装置 |
CN114418093B (zh) * | 2022-01-19 | 2023-08-25 | 北京百度网讯科技有限公司 | 训练路径表征模型、输出信息的方法和装置 |
CN115412857A (zh) * | 2022-08-24 | 2022-11-29 | 浙江大学 | 一种居民出行信息预测方法 |
CN115412857B (zh) * | 2022-08-24 | 2023-08-18 | 浙江大学 | 一种居民出行信息预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Khan et al. | Multi-gcn: Graph convolutional networks for multi-view networks, with applications to global poverty | |
US8873813B2 (en) | Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities | |
CN112966010A (zh) | 一种用户轨迹信息挖掘方法 | |
CN112084331A (zh) | 文本处理、模型训练方法、装置、计算机设备和存储介质 | |
CN116888602A (zh) | 可解释转导器变换器 | |
US20130086072A1 (en) | Method and system for extracting and classifying geolocation information utilizing electronic social media | |
Shi et al. | Semantics-aware hidden Markov model for human mobility | |
Chen et al. | CEM: A convolutional embedding model for predicting next locations | |
Jiang et al. | Transfer urban human mobility via poi embedding over multiple cities | |
Koolwal et al. | A comprehensive survey on trajectory-based location prediction | |
Zhou et al. | Deepmove: Learning place representations through large scale movement data | |
CN108346067A (zh) | 基于自然语言处理的社交网络广告推送方法 | |
Chen et al. | Graph convolutional networks for classification with a structured label space | |
KR20190094068A (ko) | 온라인 게임에서 게이머 행동 유형을 분류하는 분류기의 학습 방법 및 상기 분류기를 포함하는 장치 | |
Fan et al. | CityCoupling: bridging intercity human mobility | |
Fei et al. | A new deep sparse autoencoder for community detection in complex networks | |
CN115952280A (zh) | 基于多模型联邦集成的用户画像方法 | |
Su et al. | Low‐Rank Deep Convolutional Neural Network for Multitask Learning | |
Ferro-Diez et al. | Geo-spatial market segmentation & characterization exploiting user generated text through transformers & density-based clustering | |
JP2023517518A (ja) | ヌル値又は同等の値を有するリレーショナル・テーブルのためのベクトル埋込モデル | |
Lv et al. | A two-route CNN model for bank account classification with heterogeneous data | |
Blanco-Justicia et al. | Generation of synthetic trajectory microdata from language models | |
Wu et al. | Mining trajectory patterns with point-of-interest and behavior-of-interest | |
Singh et al. | Advances in Computing and Data Sciences: Second International Conference, ICACDS 2018, Dehradun, India, April 20-21, 2018, Revised Selected Papers, Part II | |
CN111615178B (zh) | 识别无线网络类型及模型训练的方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |