CN112738724B - 一种区域目标人群的精准识别方法、装置、设备和介质 - Google Patents

一种区域目标人群的精准识别方法、装置、设备和介质 Download PDF

Info

Publication number
CN112738724B
CN112738724B CN202011494388.7A CN202011494388A CN112738724B CN 112738724 B CN112738724 B CN 112738724B CN 202011494388 A CN202011494388 A CN 202011494388A CN 112738724 B CN112738724 B CN 112738724B
Authority
CN
China
Prior art keywords
judged
user
dotting
data
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011494388.7A
Other languages
English (en)
Other versions
CN112738724A (zh
Inventor
黄萍
潘飞
刘世峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujia Newland Software Engineering Co ltd
Original Assignee
Fujia Newland Software Engineering Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujia Newland Software Engineering Co ltd filed Critical Fujia Newland Software Engineering Co ltd
Priority to CN202011494388.7A priority Critical patent/CN112738724B/zh
Publication of CN112738724A publication Critical patent/CN112738724A/zh
Application granted granted Critical
Publication of CN112738724B publication Critical patent/CN112738724B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/021Services related to particular areas, e.g. point of interest [POI] services, venue services or geofences

Abstract

本发明提供一种区域目标人群的精准识别方法、装置、设备和介质,方法包括:获取区域范围内的所有基站数据,样本用户全天位置轨迹数据以及待判断用户全天位置轨迹数据;过滤处理后得到样本用户序列和待判断用户序列;将两个序列合并后得到打点基站并集;将打点基站并集分别与两个序列做相关性比较后,分别形成样本数据向量和待判断数据向量,并采用平均数修正处理和余弦相似度计算,得到待判断数据向量相似度;将待判断数据向量相似度的大小与预设的阈值进行比较,判断对应的用户是否属于所述区域目标人群。本发明由于采用单维指标数据作为数据源,其准确度的影响因素少,且数据源更稳定可靠、核心算法复杂度低,使适用场景更广泛。

Description

一种区域目标人群的精准识别方法、装置、设备和介质
技术领域
本发明涉及计算机技术领域,特别涉及一种区域目标人群的精准识别方法、装置、设备和介质。
背景技术
基于运营商位置轨迹大数据,通过少量样本用户的位置轨迹数据,运用相关的用户相似度识别方法,进行精准识别目标人群。
目前现有的对于区域内目标人群的识别,一般运用两种方法,分别适用于以下两种情况:
第一种,存在有标签的样本数据的情况,识别时需运用构建指标体系,运用机器学习分类算法进行建模识别。一般运用到的机器学习分类算法如决策树算法,决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知类别的记录的类别。决策树算法流程如下:
步骤1:将所有的数据看成是一个节点,进入步骤2;
步骤2:从所有的数据特征中挑选一个数据特征对节点进行分割,进入步骤3;
步骤3:生成若干孩子节点,对每一个孩子节点进行判断,如果满足停止分裂的条件,进入步骤4;否则,进入步骤2;
步骤4:设置该节点是子节点,其输出的结果为该节点数量占比最大的类别。
但此种方法较大程度依赖于大量的样本数据进行模型训练及评估,同时需要多维指标数据作为模型输入数据,由此导致模型结果较大程度受指标数据质量影响。
第二种,无标签无样本数据的情况,识别时需构建指标体系,运用机器学习聚类算法进行建模识别。一般运用到的机器学习聚类算法如高斯混合模型(Gaussian MixtureModel,简称GMM)算法,高斯混合模型是一种业界广泛使用的聚类算法。它是多个高斯分布函数的线性组合,理论上GMM可以拟合出任意类型的分布,通常用于解决同一集合下的数据包含多种不同的分布的情况。高斯混合模型使用了期望最大(Expectation Maximization,简称EM)算法进行训练,故此我们在了解GMM之后,也需要了解如何通过EM算法训练(求解)GMM。期望最大算法,称为机器学习十大算法之一,是一种从不完全数据或有数据丢失的数据集(存在隐含变量)中求解概率模型参数的最大似然估计方法。高斯混合模型(GMM)的最大期望(EM)聚类算法流程如下:
步骤1.选择簇的数量(与K-Means类似)并随机初始化每个簇的高斯分布参数(均值和方差)。也可以先观察数据给出一个相对精确的均值和方差。
步骤2.给定每个簇的高斯分布,计算每个数据点属于每个簇的概率。一个点越靠近高斯分布的中心就越可能属于该簇。
步骤3.基于这些概率我们计算高斯分布参数使得数据点的概率最大化,可以使用数据点概率的加权来计算这些新的参数,权重就是数据点属于该簇的概率。
步骤4.重复迭代2和3直到在迭代中的变化不大。
但此种方法由于需要多维指标数据进行指标体系构建,故模型效果好坏较大程度受指标数据质量的影响。同时,由于无标签数据,聚类算法的数据结果无法进行人工干预及调优,聚类结果可解释性好坏未知。
发明内容
本发明要解决的技术问题,在于提供一种区域目标人群的精准识别方法、装置、设备和介质,采用单维指标数据作为数据源,其准确度不受其他无关因素影响,且单维指标数据为运营商位置轨迹数据,更稳定可靠;核心算法为余弦相似度算法,复杂度低,适用场景更广泛。
第一方面,本发明提供了一种区域目标人群的精准识别方法,包括下述步骤:
S1、获取区域范围内的所有基站数据,样本用户全天位置轨迹数据以及待判断用户全天位置轨迹数据;
S2、从所述样本用户全天位置轨迹数据中剔除非区域基站的打点数据和非统计时间的打点数据,得到样本用户序列;
从待判断用户全天位置轨迹数据中剔除非区域基站的打点数据和非统计时间的打点数据,得到待判断用户序列;
S3、将所述样本用户序列与所述待判断用户序列合并后,得到打点基站并集;
S4、将打点基站并集分别与所述样本用户序列、所述待判断用户序列做打点频率比较和驻留时间比较后,分别形成样本数据向量和待判断数据向量;
S5、将所述样本数据向量和所述待判断数据向量采用平均数修正处理后,再进行余弦相似度计算,得到待判断数据向量相似度;
S6、将待判断数据向量相似度的大小与预设的阈值进行比较,若待判断数据向量相似度大于所述阈值,则判断该待判断数据向量相似度对应的用户属于所述区域目标人群。
第二方面,本发明提供了一种区域目标人群的精准识别装置,包括:
数据获取模块,用于获取区域范围内的所有基站数据,样本用户全天位置轨迹数据以及待判断用户全天位置轨迹数据;
过滤模块,用于从所述样本用户全天位置轨迹数据中剔除非区域基站的打点数据和非统计时间的打点数据,得到样本用户序列;同时用于从待判断用户全天位置轨迹数据中剔除非区域基站的打点数据和非统计时间的打点数据,得到待判断用户序列;
合并模块,用于将所述样本用户序列与所述待判断用户序列合并后,得到打点基站并集;
向量形成模块,用于将打点基站并集分别与所述样本用户序列、所述待判断用户序列做打点频率比较和驻留时间比较后,分别形成样本数据向量和待判断数据向量;
修正模块,用于将所述样本数据向量和所述待判断数据向量采用平均数修正处理后;
相似度计算模块,用于将修正后的所述样本数据向量和所述待判断数据向量进行余弦相似度计算,得到待判断数据向量相似度;
判断模块,用于将待判断数据向量相似度的大小与预设的阈值进行比较,若待判断数据向量相似度大于所述阈值,则判断该待判断数据向量相似度对应的用户属于所述区域目标人群。
第三方面,本发明提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。
第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述的方法。
本发明实施例中提供的多个技术方案,至少具有如下技术效果或优点:本发明采用的数据集主要基于运营商位置轨迹数据,相对于构建指标数据体系来说,即采用单维指标数据作为数据源,输入数据维度更少,不依赖于其他数据源,亦不需要加入其他数据采集设备,故其准确度不受其他无关因素影响。运营商位置轨迹数据为稳定可靠的数据源渠道,故输入数据质量更有保障。且运用余弦相似度作为核心算法,通过平均数修正处理法进行最终相似度计算,根据阈值设定进行用户是否为目标用户的判断,算法复杂程度更低,对于样本数据的数据量级要求更低,仅需较少的数据作为目标人群识别标准,故适用场景更广泛,使用方式更灵活简便。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明实施例一中方法中的流程图;
图2为本发明实施例中余弦相似度用向量空间的示意图;
图3为本发明实施例中修正前两个向量的示意图;
图4为本发明实施例中修正后两个向量的示意图;
图5为本发明实施例二中装置的结构示意图;
图6为本发明实施例三中电子设备的结构示意图;
图7为本发明实施例四中介质的结构示意图。
具体实施方式
本申请实施例通过提供一种区域目标人群的精准识别方法、装置、设备和介质,采用单维指标数据作为数据源,其准确度不受其他无关因素影响,且单维指标数据为运营商位置轨迹数据,更稳定可靠;核心算法为余弦相似度算法,复杂度低,适用场景更广泛。
本申请实施例中的技术方案,总体思路如下:本发明采用的数据集主要基于运营商位置轨迹数据,相对于构建指标数据体系来说,即采用单维指标数据作为数据源,输入数据维度更少,不依赖于其他数据源,亦不需要加入其他数据采集设备,故其准确度不受其他无关因素影响。运营商位置轨迹数据为稳定可靠的数据源渠道,故输入数据质量更有保障。且运用余弦相似度作为核心算法,通过平均数修正处理法进行最终相似度计算,根据阈值设定进行用户是否为目标用户的判断,算法复杂程度更低,对于样本数据的数据量级要求更低,仅需较少的数据作为目标人群识别标准,故适用场景更广泛,使用方式更灵活简便。
实施例一
如图1所示,本实施例提供一种区域目标人群的精准识别方法,包括下述步骤:
S1、获取区域范围内的所有基站数据,样本用户全天位置轨迹数据以及待判断用户全天位置轨迹数据;
S2、从所述样本用户全天位置轨迹数据中剔除非区域基站的打点数据和非统计时间的打点数据,得到样本用户序列;
从待判断用户全天位置轨迹数据中剔除非区域基站的打点数据和非统计时间的打点数据,得到待判断用户序列;
S3、将所述样本用户序列与所述待判断用户序列合并后,得到打点基站并集;
S4、将打点基站并集分别与所述样本用户序列、所述待判断用户序列做打点频率比较和驻留时间比较后,分别形成样本数据向量和待判断数据向量;
S5、将所述样本数据向量和所述待判断数据向量采用平均数修正处理后,再进行余弦相似度计算,得到待判断数据向量相似度;
S6、将待判断数据向量相似度的大小与预设的阈值进行比较,若待判断数据向量相似度大于所述阈值,则判断该待判断数据向量相似度对应的用户属于所述区域目标人群。由于阈值越大,相似度越要求越高,反之,阈值越小,相似度越要求越低,因此本发明中,阈值取0.5时为佳。
其中,作为本实施例的一种更优或更为具体的实现方式,所述步骤S4具体是:
以一个用户为单位,将按打点顺序排列的原始的样本用户序列中的“当前基站的数量”和“驻留时长降倍值”相加再取整,并按照所述打点基站并集的序列顺序依次排列,得到样本用户二次序列;再将样本用户二次序列与打点基站并集进行比较,形成样本数据向量,该样本数据向量的维度与打点基站并集中的基站数量相对应,样本数据向量的各个维度值等于样本用户二次序列的权重值,没有对应权重值的以“0”记;
以一个用户为单位,将按打点顺序排列的原始的待判断用户序列中的“当前基站的打点数量”和“驻留时长降倍值”相加再取整,得到权重值,并按照所述打点基站并集的序列顺序依次排列,得到待判断用户二次序列;再将所述待判断用户二次序列与打点基站并集进行比较,形成待判断数据向量,该待判断数据向量的维度与打点基站并集中的基站数量相对应,待判断数据向量的各个维度值等于待判断用户二次序列的权重值,没有对应权重值的以“0”记。
以下以一个待判断用户和样本用户为例,二者按打点时间顺序的序列如下:
待判断用户序列 样本用户序列 打点基站并集
20989_9561753,6 20944_219035141,91.0 20989_9561753
20989_230644737,23 20944_219035140,6.0 20944_84895237
20944_219035141,18.0 20944_219035141
20944_219035142,18.0 20944_220373009
20944_84895237,20.0 20944_219035140
20944_220373009,18240.0 20944_219035142
20989_230644737
待判断用户序列中的某个用户先后分别在20989_9561753和20989_230644737两个基站打点,驻留时长分别为6秒和23秒,因此对于基站20989_9561753来说,当前基站的打点数量=1,驻留时长=6,将驻留时长除以300进行降倍处理,得到降倍值0.02”,将“当前基站的打点数量”和“驻留时长降倍值”相加再取整得到权重值具体是:1+0.02取整后等于1。对于基站20989_230644737来说,当前基站的打点数量=1,驻留时长=23,将驻留时长除以300进行降倍处理,得到降倍值0.08”,将“当前基站的打点数量”和“驻留时长降倍值”相加再取整具体是:1+0.08取整后仍等于1。
样本用户序列中的某个用户先后分别在20944_219035141、20944_219035140、20944_219035141、20944_219035142、20944_84895237、和20944_220373009六个基站打点,驻留时长分别为91秒、6秒、18秒、18秒、20秒以及18240秒,根据“当前基站的打点数量”和“驻留时长降倍值”相加再取整后,权重值分别为2、1、1、1和61。
汇总后如下表所示:
待判断用户二次序列 样本用户二次序列 打点基站并集
20989_9561753,1 20944_219035141,2 20989_9561753
20989_230644737,1 20944_219035140,1 20944_84895237
20944_219035141,1 20944_219035141
20944_219035142,1 20944_220373009
20944_84895237,1 20944_219035140
20944_220373009,61 20944_219035142
20989_230644737
再将所述待判断用户二次序列与打点基站并集进行比较,形成待判断数据向量,该待判断数据向量的维度与打点基站并集中的基站数量相对应,待判断数据向量的各个维度值等于待判断用户二次序列的权重值,没有对应权重值的以“0”记。经比较,打点基站并集中基站20989_9561753和基站20989_230644737分别在待判断用户二次序列中各出现过一次,其余基站没有出现过,因此待判断数据向量与基站20989_9561753和基站20989_230644737相对应的维度值为待判断用户二次序列的权重值,即为1,其余维度值为0,具体过程如下表所示:
待判断用户二次序列 打点基站并集 待判断数据向量
20989_9561753,1 20989_9561753 1
20989_230644737,1 20944_84895237 0
20944_219035141 0
20944_220373009 0
20944_219035140 0
20944_219035142 0
20989_230644737 1
待判断用户向量为[1,0,0,0,0,0,1]。
同理,将样本用户二次序列与打点基站并集进行比较,形成样本数据向量,该样本数据向量的维度与打点基站并集中的基站数量相对应,样本数据向量的各个维度值等于样本用户二次序列的权重值,没有对应权重值的以“0”记;由于打点基站并集中基站20944_219035141在样本用户二次序列中出现两次,因此样本数据向量中与基站20944_219035141对应的维度值由这两次的权重值相加,即1+1=2,打点基站并集中基站20989_9561753与基站20989_230644737在样本用户二次序列中没有出现过,因此以“0”记。具体过程如下表所示:
样本用户二次序列 打点基站并集 样本数据向量
20944_219035141,2 20989_9561753 0
20944_219035140,1 20944_84895237 1
20944_219035141,1 20944_219035141 2
20944_219035142,1 20944_220373009 61
20944_84895237,1 20944_219035140 1
20944_220373009,61 20944_219035142 1
20989_230644737 0
样本数据向量为[0,1,2,61,1,1,0]。
如图2所示,余弦相似度用向量空间中两个向量a和b的夹角θ的余弦值作为衡量两个向量a和b个体间差异的大小。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。计算公式如下:
Figure BDA0002841652570000091
以前述示例中的两个向量为例,待判断用户向量为[1,0,0,0,0,0,1]和样本数据向量[0,1,2,61,1,1,0]的余弦相似度计算公式如下:
Figure BDA0002841652570000092
但由于余弦相似度仅考虑向量维度方向上的相似而没考虑到各个维度的量纲的差异性,往往会不符合事实,因此,在计算余弦相似度之前可以进行修正操作。
所述步骤S5中,将所述样本数据向量和所述待判断数据向量的每个维度减去|x1-x2|/2的修正操作,其中,x1是指待判断数据向量相应维度的横坐标,x2是指样本数据向量相应维度的横坐标,但如果x1=x2,或者x1,x2均等于0,则不作平均数修正处理。
平均数修正处理的目的是解决余弦相似度仅考虑向量维度方向上的相似而没考虑到各个维度的量纲的差异性,所以在计算相似度的前,如果x1=x2,或者x1,x2均等于0,则不作处理,其余维度做了每个维度|x1-x2|/2的修正操作。
如图3所示,例如假设两个向量分别为:
Figure BDA0002841652570000101
Figure BDA0002841652570000102
此时两向量明显差异很大,相似度>0.5,不符合事实。
做完平均数修正处理后的数组为:
Figure BDA0002841652570000103
Figure BDA0002841652570000104
如图4所示,此时相似度为-0.89,且对比图3和图4,
Figure BDA0002841652570000105
两个向量差距明显。
基于同一发明构思,本申请还提供了与实施例一中的方法对应的装置,详见实施例二。
实施例二
如图5所示,在本实施例中提供了一种区域目标人群的精准识别装置,包括:
数据获取模块,用于获取区域范围内的所有基站数据,样本用户全天位置轨迹数据以及待判断用户全天位置轨迹数据;
过滤模块,用于从所述样本用户全天位置轨迹数据中剔除非区域基站的打点数据和非统计时间的打点数据,得到样本用户序列;同时用于从待判断用户全天位置轨迹数据中剔除非区域基站的打点数据和非统计时间的打点数据,得到待判断用户序列;
合并模块,用于将所述样本用户序列与所述待判断用户序列合并后,得到打点基站并集;
向量形成模块,用于将打点基站并集分别与所述样本用户序列、所述待判断用户序列做打点频率比较和驻留时间比较后,分别形成样本数据向量和待判断数据向量;
修正模块,用于将所述样本数据向量和所述待判断数据向量采用平均数修正处理后;
相似度计算模块,用于将修正后的所述样本数据向量和所述待判断数据向量进行余弦相似度计算,得到待判断数据向量相似度;
判断模块,用于将待判断数据向量相似度的大小与预设的阈值进行比较,若待判断数据向量相似度大于所述阈值,则判断该待判断数据向量相似度对应的用户属于所述区域目标人群。
其中,作为本实施例的一种更优或更为具体的实现方式,所述向量形成模块具体是:
以一个用户为单位,将按打点顺序排列的原始的样本用户序列中的“当前基站的数量”和“驻留时长降倍值”相加再取整,并按照所述打点基站并集的序列顺序依次排列,得到样本用户二次序列;再将样本用户二次序列与打点基站并集进行比较,形成样本数据向量,该样本数据向量的维度与打点基站并集中的基站数量相对应,样本数据向量的各个维度值等于样本用户二次序列的权重值,没有对应权重值的以“0”记;
以一个用户为单位,将按打点顺序排列的原始的待判断用户序列中的“当前基站的打点数量”和“驻留时长降倍值”相加再取整,得到权重值,并按照所述打点基站并集的序列顺序依次排列,得到待判断用户二次序列;再将所述待判断用户二次序列与打点基站并集进行比较,形成待判断数据向量,该待判断数据向量的维度与打点基站并集中的基站数量相对应,待判断数据向量的各个维度值等于待判断用户二次序列的权重值,没有对应权重值的以“0”记。
所述修正模块具体是将所述样本数据向量和所述待判断数据向量的每个维度减去|x1-x2|/2的修正操作,其中,x1是指待判断数据向量相应维度的横坐标,x2是指样本数据向量相应维度的横坐标,但如果x1=x2,或者x1,x2均等于0,则不作平均数修正处理。
所述步骤S6中,所述阈值为0.5。
由于本发明实施例二所介绍的装置,为实施本发明实施例一的方法所采用的装置,故而基于本发明实施例一所介绍的方法同样适用于本发明实施例二所介绍的装置,且本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。
基于同一发明构思,本申请提供了实施例一对应的电子设备实施例,详见实施例三。
实施例三
本实施例提供了一种电子设备,如图6所示,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,可以实现实施例一中任一实施方式。
由于本实施例所介绍的电子设备为实施本申请实施例一中方法所采用的设备,故而基于本申请实施例一中所介绍的方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中的方法所采用的设备,都属于本申请所欲保护的范围。
基于同一发明构思,本申请提供了实施例一对应的存储介质,详见实施例四。
实施例四
本实施例提供一种计算机可读存储介质,如图7所示,其上存储有计算机程序,该计算机程序被处理器执行时,可以实现实施例一中任一实施方式。
以江苏省南京市新城科技园为例进行本发明的效果展示,进行该科技园区上班人群的识别。
1、首先挑选10个在新城科技园上班的用户作为样本数据准备进行学习;
2、其次挑选100个12月23日在新城基站下有停留但是停留时长少于15分钟的100个用户数据作为负样本;
3、挑选40个已知在新城工作的用户作为正样本;
4、其中算法的识别结果如下表所示:
Figure BDA0002841652570000131
Figure BDA0002841652570000132
5、基于该正样本(仅为本公司人员)数据,共识别出8点到18点全天在新城六栋上班的移动用户工作人员213人。
本申请实施例中提供的技术方案,至少具有如下技术效果或优点:本发明采用的数据集主要基于运营商位置轨迹数据,相对于构建指标数据体系来说,即采用单维指标数据作为数据源,输入数据维度更少,不依赖于其他数据源,亦不需要加入其他数据采集设备,故其准确度不受其他无关因素影响。运营商位置轨迹数据为稳定可靠的数据源渠道,故输入数据质量更有保障。且运用余弦相似度作为核心算法,通过平均数修正处理法进行最终相似度计算,根据阈值设定进行用户是否为目标用户的判断,算法复杂程度更低,对于样本数据的数据量级要求更低,仅需较少的数据作为目标人群识别标准,故适用场景更广泛,使用方式更灵活简便。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置或系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。

Claims (8)

1.一种区域目标人群的精准识别方法,其特征在于:包括下述步骤:
S1、获取区域范围内的所有基站数据,样本用户全天位置轨迹数据以及待判断用户全天位置轨迹数据;
S2、从所述样本用户全天位置轨迹数据中剔除非区域基站的打点数据和非统计时间的打点数据,得到样本用户序列;
从待判断用户全天位置轨迹数据中剔除非区域基站的打点数据和非统计时间的打点数据,得到待判断用户序列;
S3、将所述样本用户序列与所述待判断用户序列合并后,得到打点基站并集;
S4、将打点基站并集分别与所述样本用户序列、所述待判断用户序列做打点频率比较和驻留时间比较后,分别形成样本数据向量和待判断数据向量;
S5、将所述样本数据向量和所述待判断数据向量采用平均数修正处理后,再进行余弦相似度计算,得到待判断数据向量相似度;
S6、将待判断数据向量相似度的大小与预设的阈值进行比较,若待判断数据向量相似度大于所述阈值,则判断该待判断数据向量相似度对应的用户属于所述区域目标人群;
所述步骤S4具体是:
以一个用户为单位,将按打点顺序排列的原始的样本用户序列中的“当前基站的数量”和“驻留时长降倍值”相加再取整,得到样本用户二次序列的权重值,并按照所述打点基站并集的序列顺序依次排列,得到样本用户二次序列;再将样本用户二次序列与打点基站并集进行比较,形成样本数据向量,该样本数据向量的维度与打点基站并集中的基站数量相对应,样本数据向量的各个维度值等于所述样本用户二次序列的权重值,没有对应的所述样本用户二次序列的权重值的以“0”记;其中,所述“驻留时长降倍值”是指将用户在某个打点基站的驻留时长除以一个倍数进行降倍处理,从而得到的降倍值;
以一个用户为单位,将按打点顺序排列的原始的待判断用户序列中的“当前基站的打点数量”和“驻留时长降倍值”相加再取整,得到待判断用户二次序列的权重值,并按照所述打点基站并集的序列顺序依次排列,得到待判断用户二次序列;再将所述待判断用户二次序列与打点基站并集进行比较,形成待判断数据向量,该待判断数据向量的维度与打点基站并集中的基站数量相对应,待判断数据向量的各个维度值等于所述待判断用户二次序列的权重值,没有对应的所述待判断用户二次序列的权重值的以“0”记。
2.根据权利要求1所述的一种区域目标人群的精准识别方法,其特征在于:所述步骤S5中,将所述样本数据向量和所述待判断数据向量的每个维度减去|x1-x2|/2的修正操作,其中,x1是指待判断数据向量相应维度的横坐标,x2是指样本数据向量相应维度的横坐标,但如果x1=x2,或者x1,x2均等于0,则不作平均数修正处理。
3.根据权利要求1所述的一种区域目标人群的精准识别方法,其特征在于:所述步骤S6中,所述阈值为0.5。
4.一种区域目标人群的精准识别装置,其特征在于:包括:
数据获取模块,用于获取区域范围内的所有基站数据,样本用户全天位置轨迹数据以及待判断用户全天位置轨迹数据;
过滤模块,用于从所述样本用户全天位置轨迹数据中剔除非区域基站的打点数据和非统计时间的打点数据,得到样本用户序列;同时用于从待判断用户全天位置轨迹数据中剔除非区域基站的打点数据和非统计时间的打点数据,得到待判断用户序列;
合并模块,用于将所述样本用户序列与所述待判断用户序列合并后,得到打点基站并集;
向量形成模块,用于将打点基站并集分别与所述样本用户序列、所述待判断用户序列做打点频率比较和驻留时间比较后,分别形成样本数据向量和待判断数据向量;
修正模块,用于将所述样本数据向量和所述待判断数据向量采用平均数修正处理后;
相似度计算模块,用于将修正后的所述样本数据向量和所述待判断数据向量进行余弦相似度计算,得到待判断数据向量相似度;
判断模块,用于将待判断数据向量相似度的大小与预设的阈值进行比较,若待判断数据向量相似度大于所述阈值,则判断该待判断数据向量相似度对应的用户属于所述区域目标人群;
所述向量形成模块具体是:
以一个用户为单位,将按打点顺序排列的原始的样本用户序列中的“当前基站的数量”和“驻留时长降倍值”相加再取整,得到样本用户二次序列的权重值,并按照所述打点基站并集的序列顺序依次排列,得到样本用户二次序列;再将样本用户二次序列与打点基站并集进行比较,形成样本数据向量,该样本数据向量的维度与打点基站并集中的基站数量相对应,样本数据向量的各个维度值等于所述样本用户二次序列的权重值,没有对应的所述样本用户二次序列的权重值的以“0”记;其中,所述“驻留时长降倍值”是指将用户在某个打点基站的驻留时长除以一个倍数进行降倍处理,从而得到的降倍值;
以一个用户为单位,将按打点顺序排列的原始的待判断用户序列中的“当前基站的打点数量”和“驻留时长降倍值”相加再取整,得到待判断用户二次序列的权重值,并按照所述打点基站并集的序列顺序依次排列,得到待判断用户二次序列;再将所述待判断用户二次序列与打点基站并集进行比较,形成待判断数据向量,该待判断数据向量的维度与打点基站并集中的基站数量相对应,待判断数据向量的各个维度值等于所述待判断用户二次序列的权重值,没有对应的所述待判断用户二次序列的权重值的以“0”记。
5.根据权利要求4所述的一种区域目标人群的精准识别装置,其特征在于:所述修正模块具体是将所述样本数据向量和所述待判断数据向量的每个维度减去|x1-x2|/2的修正操作,其中,x1是指待判断数据向量相应维度的横坐标,x2是指样本数据向量相应维度的横坐标,但如果x1=x2,或者x1,x2均等于0,则不作平均数修正处理。
6.根据权利要求4所述的一种区域目标人群的精准识别装置,其特征在于:所述步骤S6中,所述阈值为0.5。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至3任一项所述的方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至3任一项所述的方法。
CN202011494388.7A 2020-12-17 2020-12-17 一种区域目标人群的精准识别方法、装置、设备和介质 Active CN112738724B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011494388.7A CN112738724B (zh) 2020-12-17 2020-12-17 一种区域目标人群的精准识别方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011494388.7A CN112738724B (zh) 2020-12-17 2020-12-17 一种区域目标人群的精准识别方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN112738724A CN112738724A (zh) 2021-04-30
CN112738724B true CN112738724B (zh) 2022-09-23

Family

ID=75603948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011494388.7A Active CN112738724B (zh) 2020-12-17 2020-12-17 一种区域目标人群的精准识别方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN112738724B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113746826B (zh) * 2021-08-31 2023-11-14 上海明略人工智能(集团)有限公司 识别作弊流量的方法、系统、存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106304015A (zh) * 2015-05-28 2017-01-04 中兴通讯股份有限公司 用户设备的确定方法及装置
CN107316044A (zh) * 2016-04-27 2017-11-03 中国电信股份有限公司 相似用户识别方法和装置
CN108536851A (zh) * 2018-04-16 2018-09-14 武汉大学 一种基于移动轨迹相似度比较的用户身份识别方法
CN109068272A (zh) * 2018-08-30 2018-12-21 北京三快在线科技有限公司 相似用户识别方法、装置、设备及可读存储介质
CN110572813A (zh) * 2018-05-19 2019-12-13 北京融信数联科技有限公司 一种基于移动大数据的手机用户行为相似度分析方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120063367A1 (en) * 2009-12-22 2012-03-15 Waldeck Technology, Llc Crowd and profile based communication addresses
US10129271B2 (en) * 2015-05-28 2018-11-13 Cisco Technology, Inc. Tracking users over network hosts based on user behavior
CN109087145A (zh) * 2018-08-13 2018-12-25 阿里巴巴集团控股有限公司 目标人群挖掘方法、装置、服务器及可读存储介质
CN110457315A (zh) * 2019-07-19 2019-11-15 国家计算机网络与信息安全管理中心 一种基于用户轨迹数据的群体聚集模式分析方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106304015A (zh) * 2015-05-28 2017-01-04 中兴通讯股份有限公司 用户设备的确定方法及装置
CN107316044A (zh) * 2016-04-27 2017-11-03 中国电信股份有限公司 相似用户识别方法和装置
CN108536851A (zh) * 2018-04-16 2018-09-14 武汉大学 一种基于移动轨迹相似度比较的用户身份识别方法
CN110572813A (zh) * 2018-05-19 2019-12-13 北京融信数联科技有限公司 一种基于移动大数据的手机用户行为相似度分析方法
CN109068272A (zh) * 2018-08-30 2018-12-21 北京三快在线科技有限公司 相似用户识别方法、装置、设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于改进余弦相似度的协同过滤推荐算法";李一野等;《计算机与现代化》;20200115;第2020卷(第01期);第3节 *

Also Published As

Publication number Publication date
CN112738724A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN109671102B (zh) 一种基于深度特征融合卷积神经网络的综合式目标跟踪方法
CN101968853B (zh) 基于改进的免疫算法优化支持向量机参数的表情识别方法
CN105389583A (zh) 图像分类器的生成方法、图像分类方法和装置
CN106991355A (zh) 基于拓扑保持的解析型字典学习模型的人脸识别方法
CN105046714A (zh) 一种非监督的基于超像素和目标发现机制的图像分割方法
CN105809672A (zh) 一种基于超像素和结构化约束的图像多目标协同分割方法
CN110598061A (zh) 一种多元图融合的异构信息网嵌入方法
CN111243601A (zh) 声纹聚类方法、装置、电子设备和计算机可读存储介质
CN110929848A (zh) 基于多挑战感知学习模型的训练、跟踪方法
CN109543693A (zh) 基于正则化标签传播的弱标注数据降噪方法
CN110569883A (zh) 基于Kohonen网络聚类和ReliefF特征选择的空气质量指数预测方法
CN112738724B (zh) 一种区域目标人群的精准识别方法、装置、设备和介质
CN114781688A (zh) 业扩项目的异常数据的识别方法、装置、设备及存储介质
Zhang et al. More informed random sample consensus
CN111639712A (zh) 一种基于密度峰值聚类和梯度提升算法的定位方法及系统
CN111160077A (zh) 一种大规模人脸动态聚类方法
Lim et al. Analyzing deep neural networks with noisy labels
CN111428734A (zh) 一种基于残差对抗推理学习的图像特征提取方法、装置和计算机可读存储介质
CN111738289B (zh) 计算机视觉cv模型训练方法、装置、电子设备和存储介质
CN113688229B (zh) 一种文本推荐方法、系统、存储介质和设备
CN113257365B (zh) 面向非标准化单细胞转录组测序数据的聚类方法及系统
CN115514580B (zh) 一种自编码器溯源入侵检测方法及装置
CN115604027B (zh) 网络指纹识别模型训练方法、识别方法、设备及存储介质
CN114821206B (zh) 基于对抗互补特征的多模态图像融合分类方法与系统
WO2023053216A1 (ja) 機械学習プログラム、機械学習方法および機械学習装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant