CN113486984B - 基于信令数据识别用户类型的方法及相关装置 - Google Patents

基于信令数据识别用户类型的方法及相关装置 Download PDF

Info

Publication number
CN113486984B
CN113486984B CN202110879549.2A CN202110879549A CN113486984B CN 113486984 B CN113486984 B CN 113486984B CN 202110879549 A CN202110879549 A CN 202110879549A CN 113486984 B CN113486984 B CN 113486984B
Authority
CN
China
Prior art keywords
user
type
identified
behavior
target user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110879549.2A
Other languages
English (en)
Other versions
CN113486984A (zh
Inventor
屈永慧
桂朝
闫嘉
谌伟璋
张岩
李凯希
李振军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Smartsteps Data Technology Co ltd
Original Assignee
Smartsteps Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Smartsteps Data Technology Co ltd filed Critical Smartsteps Data Technology Co ltd
Priority to CN202110879549.2A priority Critical patent/CN113486984B/zh
Publication of CN113486984A publication Critical patent/CN113486984A/zh
Application granted granted Critical
Publication of CN113486984B publication Critical patent/CN113486984B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Remote Sensing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供基于信令数据识别用户类型的方法及相关装置,方法包括:从待识别用户在预设时间段内的信令数据和地理信息数据中,提取待识别用户对应的用户特征;将用户特征输入到预先训练的识别模型中,输出待识别用户是否为目标用户类型;其中,识别模型是根据目标用户类型具有的特定用户特征训练而成。本发明实施例可以结合信令数据和地理信息数据确定待识别用户的用户特征,然后利用预先训练的识别模型对该用户特征进行识别,从而可以确定待识别用户的用户类型,大大提高了用户类型的识别效率和准确率。

Description

基于信令数据识别用户类型的方法及相关装置
技术领域
本发明涉及大数据技术领域,具体而言,涉及一种基于信令数据识别用户类型的方法及相关装置。
背景技术
随着城市建设步伐的日益加快,城乡人员之间的流动越来越频繁,研究流动人员类型,对于交通运输管理、劳动力保障、住房与公共服务配置、经济消费活力、社会安全治理、城镇化格局、资源消耗与环境保护等具有极其重要的意义。
目前,传统用户类型识别方法是采用抽样调查方法进行统计监测。这种调查方式人工参与度高、样本量少、调查频率低,且存在一定风险,难以全面掌握实时的流动人员总体规模、就业状况、迁徙流动情况等数据。
发明内容
本发明的目的之一在于提供一种基于信令数据识别用户类型的方法及相关装置,用以提高用户类型的识别效率和准确率。
本发明技术方案可以如下实现:
第一方面,本发明提供基于信令数据识别用户类型的方法,所述方法包括:从待识别用户在预设时间段内的信令数据和地理信息数据中,提取所述待识别用户对应的用户特征;将所述用户特征输入到预先训练的识别模型中,输出所述待识别用户是否为目标用户类型;其中,所述识别模型是根据所述目标用户类型具有的特定用户特征训练而成。
第二方面,本发明提供一种基于信令数据识别用户类型的装置,包括:提取模块,用于从待识别用户在预设时间段内的信令数据和地理信息数据中,提取所述待识别用户对应的用户特征;识别模块,用于将所述用户特征输入到预先训练的识别模型中,输出所述待识别用户的用户类型;其中,所述识别模型是根据任意一种目标用户类型具有的特定用户特征训练而成。
第三方面,本发明提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机程序,所述处理器可执行所述计算机程序以实现第一方面所述的方法。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法。
本发明提供基于信令数据识别用户类型的方法及相关装置,所述方法包括:从待识别用户在预设时间段内的信令数据和地理信息数据中,提取所述待识别用户对应的用户特征;将所述用户特征输入到预先训练的识别模型中,输出所述待识别用户是否为目标用户类型;其中,所述识别模型是根据所述目标用户类型具有的特定用户特征训练而成。与现有技术的区别在于,现有技术采用抽样调查方法进行用户类型识别,样本量少、调查频率低,准确度低,本发明实施例可以结合信令数据和地理信息数据确定待识别用户的用户特征,然后利用预先训练的识别模型对该用户特征进行识别,从而可以确定待识别用户的用户类型,大大提高了用户类型的识别效率和准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种基于信令数据识别用户类型的方法的示意性流程图;
图2为本发明实施例提供的一种确定特定用户特征的实现方式的示意性流程图;
图3为本发明实施例提供的步骤S102的实现方式的示意性流程图;
图4为本发明实施例提供的另一种基于信令数据识别用户类型的方法的示意性流程图;
图5为本发明实施例提供的一种基于信令数据识别用户类型的装置的功能模块图;
图6为本发明实施例提供的一种电子设备结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
随着城市建设步伐的日益加快,城乡人员之间的流动越来越频繁,研究流动人员类型,例如,流动人员类型可能是农民工、货车司机、外卖人员等,对于交通运输管理、劳动力保障、住房与公共服务配置、经济消费活力、社会安全治理、城镇化格局、资源消耗与环境保护等具有极其重要的意义。
目前,传统用户类型识别方法是采用抽样调查方法进行统计监测。这种调查方式人工参与度高、样本量少、调查频率低,且存在一定风险,难以全面掌握实时的流动人员总体规模、就业状况、迁徙流动情况等数据。
以识别农民工为例,农民工指的是具有农村户籍,在户籍所在乡镇从事非农产业或外出从业的劳动者现在传统的农民工监测方法是采用抽样调查方法进行统计监测。对选定的样本进行入户调查。这种调查方式人工参与度高、样本量少、调查频率低。采用传统的调查法,受调查样本少、频率低、成本高且调查内容以静态特征为主等因素影响,难以全面掌握实时的农民工总体规模、就业状况、迁徙流动情况等数据。另外传统人工调查采样的调研方式在效率和便利方面均会受特殊情况影响,且存在一定风险,使得入户调查的难度更高。
为了解决上述技术问题,本发明提出了一种基于信令数据识别用户类型的方法,众所周知,随着智能电子设备的普及和移动通信技术的迅速发展,信令数据可以获取海量、高频、多维的用户位置数据和用户画像,为人口流动、迁徙研究提供了创新性技术方向。本发明实施例提供的方法可以结合信令数据和城乡边界地理信息数据等多源数据,用机器学习算法技术识别出用户的用户类型,并可以对已识别出用户类型的用户进行高频率、高定位精度的流动迁徙、务工情况的分析,有效改善目前低频、耗时、耗力、高成本的监测方法。
请参见图1,图1为本发明实施例提供的一种基于信令数据识别用户类型的方法的示意性流程图,该方法可以包括以下步骤:
S101,从待识别用户在预设时间段内的信令数据和地理信息数据中,提取待识别用户对应的用户特征。
在一些可能的实施例中,上述的待识别用户可以是从数据库系统中随机确定的一个用户,也可以根据识别业务需求确定的用户,此处不做限定。
在一些可能的实施例中,上述的预设时间段可以是年数、月数、周数、天数、时长等,例如,获取待识别用户近3个月内,或者近3周内的全部信令数据,目的是确定待识别用户的出行习惯和务工习惯,以使后续确定的用户类型更加准确。
在一些可能的实施例中,上述的地理信息数据指的城乡边界地理信息数据,可以但不限于包含:县区边界,乡镇行政边界、乡村行政边界,地理信息数据可以但不限于以如下形式表示:电子地图、数字地图等、可视化屏幕影像地图等。
可以理解的是,通过信令数据和地理信息数据可以确定待识别用户的出行习惯、出行轨迹、往返行为、工作状态等用户特征。
例如,以识别农民工为例,通过信令数据和地理信息数据,可以确定待识别用户在不同地点的用户特征包括:城市驻留时长、农村驻留时长、城乡往返次数、乘坐特定交通工具出行的次数等消费行为特征、所用设备类型、工作时段(上午9:00-下午17:00)在某地累计驻留时长、驻留天数,晚间时段(当日21:00到次日8:00)在某地累计驻留时长、驻留天数,在一个城市出现的驻留点个数等行为数据。
S102,将用户特征输入到预先训练的识别模型中,输出待识别用户是否为目标用户类型。
其中,识别模型是根据目标用户类型具有的特定用户特征训练而成。
在一些可能的实施例中,目标用户类型可以但不限于是农民工用户、等等。针对任意一种目标用户类型,可以结合该类型用户具有的特定行为特征训练出对应的识别模型。
例如,以农民工用户为例,通过对农民工用户的用户特征进行分析,可以确定农民工用户具有的特定行为特征可以是:在城市或者在农村驻留天数大于预设天数,在农村驻留天数大于城市驻留天数。
在本发明实施例中,上述的识别模型具有识别用户类型的功能,其可以是一个独立的模型,具有确定待识别用户的户籍户籍类型识别模型和务工行为识别模块,或者,上述识别模型包括不同类型的识别模型,例如,上述识别模型包括户籍户籍类型识别模型和务工行为识别模型。
通过上述实施例,本发明实施例可以结合信令数据和地理信息数据确定待识别用户的用户特征,然后利用预先训练的识别模型对该用户特征进行识别,从而可以确定待识别用户的用户类型,避免了现有的抽样调查方法带来的效率低、准确度低的问题,大大提高了用户类型的识别效率和准确率。
可选地,上述特定用户特征可以通过以下步骤获得,请参见图2,图2为本发明实施例提供的一种确定特定用户特征的实现方式的示意性流程图,包括:
步骤1,获取目标用户类型对应的多个用户的信令数据和地理信息数据。
步骤2,从目标用户的信令数据和地理信息数据中,提取目标用户对应的行为特征和工作状态特征,目标用户为多个用户中的任一个。
可以理解的是,行为特征表征用户的出行习惯、出行轨迹、往返行为等信息,可以用来确定用户的户籍类型,工作状态特征表征用户表现出来的工作行为,可以用来确定用户是否存在务工行为。
例如,以农民工用户为例,行为特征可以包括:城市驻留时长、农村驻留时长、城乡往返次数、乘坐特定交通工具出行的次数等消费能力、所用设备类型等,工作状态特征可以包括:在预设时间段内,在工作时段(9:00-17:00)在某地累计驻留时长、驻留天数,在非工作时段(21:00到次日8:00)在某地累计驻留时长、驻留天数,在同一个城市出现的驻留点个数等行为数据。
步骤3,遍历全部用户,获得每个目标用户对应的行为特征和工作状态特征。
步骤4,将全部行为特征进行聚类分析,确定特定行为特征。
步骤5,将全部工作状态特征进行聚类分析,确定特定工作状态特征。
步骤6,将特定行为特征和特定工作状态特征确定为目标用户类型具有的特定用户特征。
例如,以识别农民工用户为例,可以将已知用户类型是农民工的用户作为种子用户,首先,根据这些种子用户的信令数据提取行为特征和工作状态特征。
首先,行为特征可以包括:年度在城市和农村停留天数、城市和农村往返次数、坐飞机高铁的次数等行为特征,以及消费能力、智能终端品牌等属性特征,然后通过聚类算法,对这些农民工用户的行为特征进行聚类,通过聚类分析可以确定,农民工用户具有的特定用户特征为:在城市或者在农村驻留天数大于预设天数,在农村驻留天数大于城市驻留天数。
进一步,工作状态数据可以包括:预设时间段内,在工作时段(9:00-17:00)在某地累计驻留时长、驻留天数,在非工作时段(21:00到次日8:00)在某地累计驻留时长、驻留天数,在同一个城市出现的驻留点个数等数据,通过聚类分析可以确定,农民工用户具有的特定工作状态特征:在预设时间段内,在工作时段(9:00-17:00)停留时间最长的地点与非工作时段停留时间最长的地点不同,在工作时段(9:00-17:00)停留时间最长的地点出现预设天数以上,在全国有预设数量的驻留地。
需要说明的是,考虑到常年在农村的人群和外出农村人群的特征差异,对常年在农村的人群和外出农村人群分别进行聚类分析,获得各自类型对应的特定特征。
可选地,本发明实施例中的用户特征可以至少包括行为特征和工作状态特征,行为特征指得是用户在不同地之间的出行轨迹、驻留时长、出行次数等特征,用于识别用户籍类型,工作状态特征用于识别用户是否存在务工行为,基于此,下面还给出一种步骤S102的一种实现方式,请参见图3,图3为本发明实施例提供的步骤S102的实现方式的示意性流程图,步骤S102可以包括:
S102-1,将待识别用户的行为特征输入到户籍户籍类型识别模型中。
S102-2,若确定待识别用户不具有目标用户类型对应户籍信息,则输出待识别用户非目标用户类型。
S102-3,若确定待识别用户具有目标用户类型对应户籍信息,则将待识别用户的工作状态特征输入到务工行为识别模型中。
S102-4,若确定待识别用户不存在务工行为,则输出待识别用户非目标用户类型。
S102-5,若确定待识别用户存在务工行为,则输出待识别用户为目标用户类型。
例如,继续以识别农民工类型为例,将待识别用户的行为特征输入到户籍类型识别模型中,若确定待识别用户不具有农村户籍,则确定待识别用户非农民工,若确定待识别用户具有农村户籍,则工作状态特征输入到务工行为识别模型中,若确定待识别用户不存在务工行为,则输出待识别用户非农民工,若确定待识别用户存在务工行为,则输出待识别用户为农民工。
可选地,下面还给出一种训练上述户籍类型识别模型和务工行为识别模型的实现方式,在训练户籍识别模型的过程中,可以采用以下步骤:步骤1,构建初始的分类模型,利用特定行为特征和每个目标用户对应的行为特征,训练初始的分类模型。步骤2,当初始的分类模型的准确度达到预设阈值,获得户籍类型识别模型。在训练务工行为模型的过程中,可以采用以下步骤:步骤1,构建初始的分类模型,利用所述特定工作状态特征和每个目标用户对应的工作状态特征,训练初始的分类模型。步骤2,当分类模型的准确度达到预设阈值,获得务工行为识别模型。
在一些可能的实施例中,上述的分类模型可以但不限于是:梯度提升决策树模型(GradientBoostingDecisionTree,简称GBDT),该GBDT模型是采用加法模型(即基函数的线性组合),通过多轮迭代,每轮迭代产生一个弱分类器,每个分类器在上一轮分类器的残差基础上进行训练,不断减小训练过程产生的残差来达到将数据分类或者回归。
可以理解的是,得到目标用户类型的用户具有的特定行为特征,可以将特定行为特征进行持续的交叉训练,以使初始的分类模型到符合添加的AUC(AUC为模型训练结果准确率与样本本身准确率)后,得到户籍识别模型。
需要说明的是,上述户籍类型识别模型和上述务工行为识别模型可以是预先在其他具有训练功能的电子设备上训练好的模型,部署在执行步骤S101和步骤S102的执行设备上,也可以由执行步骤S101和步骤S102的执行设备训练而成,此处不做限定。
可选地,在确定待识别用户为目标用户类型之后,还可以确定该待识别用户的务工类型,请参见图4,图4为本发明实施例提供的另一种基于信令数据识别用户类型的方法的示意性流程图,该方法还可以包括:
S103,当输出待识别为所述目标用户类型,根据待识别用户的务工地信息和地理信息数据,确定待识别用户的务工类型。
例如,继续以识别农民工为例,农民工在家乡地所在乡镇内务工,即为乡镇内务工;在家乡地所在乡镇以外,区县以内即为县内镇外务工;到家乡地所在区县以外,地级市以内即为市内县外务工;到家乡地所在地市以外,省份以内即为省内市外务工;到家乡地所在省份以外务工即为省外务工。
为了执行上述实施例及各个可能的方式中的基于信令数据识别用户类型的方法的步骤,下面给出一种测试装置的实现方式,请参阅图5,图5为本发明实施例提供的一种基于信令数据识别用户类型的装置的功能模块图。
需要说明的是,本实施例所提供的基于信令数据识别用户类型的装置,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本实施例部分未提及之处,可参考上述的实施例中相应内容。该基于信令数据识别用户类型的装置20包括:
提取模块21,用于从待识别用户在预设时间段内的信令数据和地理信息数据中,提取所述待识别用户对应的用户特征;
识别模块22,用于将所述用户特征输入到预先训练的识别模型中,输出所述待识别用户的用户类型;其中,所述识别模型是根据任意一种目标用户类型具有的特定用户特征训练而成。
可选地,所述用户特征至少包括行为特征和工作状态特征;所述识别模块,具体用于:将所述用户特征输入到预先训练的识别模型中,输出所述待识别用户的用户类型,包括:将所述待识别用户的所述行为特征输入到户籍类型识别模型中;若确定所述待识别用户不具有所述目标用户类型对应户籍信息,则输出所述待识别用户非所述目标用户类型;若确定所述待识别用户具有所述目标用户类型对应户籍信息,则将所述待识别用户的所述工作状态特征输入到务工行为识别模型中;若确定所述待识别用户不存在务工行为,则输出所述待识别用户非所述目标用户类型;若确定所述待识别用户存在务工行为,则输出所述待识别用户为所述目标用户类型。
可选地,基于信令数据识别用户类型的装置20还可以包括确定模块,该确定模块,用于:获取所述目标用户类型对应的多个用户的信令数据和地理信息数据;从目标用户的信令数据和地理信息数据中,提取所述目标用户对应的所述行为特征和所述工作状态特征,所述目标用户为所述多个用户中的任一个;遍历全部所述用户,获得每个所述目标用户对应的所述行为特征和所述工作状态特征;将全部所述行为特征进行聚类分析,确定特定行为特征;将全部所述工作状态特征进行聚类分析,确定特定工作状态特征;将所述特定行为特征和所述特定工作状态特征确定为目标用户类型具有的所述特定用户特征。
可选地,基于信令数据识别用户类型的装置20还可以包括训练模块,所述训练模块,用于:构建初始的分类模型,利用所述特定行为特征和每个所述目标用户对应的行为特征,训练所述初始的分类模型;当所述初始的分类模型的准确度达到预设阈值,获得所述户籍类型识别模型。
可选地,所述训练模块,还可以用于:构建初始的分类模型,利用所述特定工作状态特征和每个所述目标用户对应的工作状态特征,训练所述初始的分类模型;当所述分类模型的准确度达到预设阈值,获得所述务工行为识别模型。
可选地,上述确定模块,还可以用于:当输出所述待识别为所述目标用户类型,根据所述待识别用户的务工地信息和所述地理信息数据,确定所述待识别用户的务工类型。
本发明实施例还提供一种电子设备,如图6,图6为本发明实施例提供的一种电子设备结构框图。该电子设备6包括通信接口61、处理器62和存储器63。该处理器62、存储器63和通信接口61相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器63可用于存储软件程序及模块,如本发明实施例所提供的基于信令数据识别用户类型的方法对应的程序指令/模块,处理器62通过执行存储在存储器63内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口61可用于与其他节点设备进行信令或数据的通信。在本发明中该电子设备60可以具有多个通信接口61。
其中,存储器63可以是但不限于,随机存取存储器(RandomAccessMemory,RAM),只读存储器(ReadOnlyMemory,ROM),可编程只读存储器(ProgrammableRead-OnlyMemory,PROM),可擦除只读存储器(ErasableProgrammableRead-OnlyMemory,EPROM),电可擦除只读存储器(ElectricErasableProgrammableRead-OnlyMemory,EEPROM)等。
处理器62可以是一种集成电路芯片,具有信号处理能力。该处理器可以是通用处理器,包括中央处理器(CentralProcessingUnit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(DigitalSignalProcessing,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
可选地,上述模块可以软件或固件(Firmware)的形式存储于图6所示的存储器中或固化于该电子设备的操作系统(OperatingSystem,OS)中,并可由图6中的处理器执行。同时,执行上述模块所需的数据、程序的代码等可以存储在存储器中。
本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前述实施方式中任一项基于信令数据识别用户类型的方法。该计算机可读存储介质可以是,但不限于,U盘、移动硬盘、ROM、RAM、PROM、EPROM、EEPROM、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (8)

1.一种基于信令数据识别用户类型的方法,其特征在于,所述方法包括:
从待识别用户在预设时间段内的信令数据和地理信息数据中,提取所述待识别用户对应的用户特征;
将所述用户特征输入到预先训练的识别模型中,输出所述待识别用户是否为目标用户类型;其中,所述识别模型是根据所述目标用户类型具有的特定用户特征训练而成;
所述用户特征至少包括行为特征和工作状态特征;
将所述用户特征输入到预先训练的识别模型中,输出所述待识别用户是否为目标用户类型,包括:
将所述待识别用户的所述行为特征输入到户籍类型识别模型中;
若确定所述待识别用户不具有所述目标用户类型对应户籍信息,则输出所述待识别用户非所述目标用户类型;
若确定所述待识别用户具有所述目标用户类型对应户籍信息,则将所述待识别用户的所述工作状态特征输入到务工行为识别模型中;
若确定所述待识别用户不存在务工行为,则输出所述待识别用户非所述目标用户类型;
若确定所述待识别用户存在务工行为,则输出所述待识别用户为所述目标用户类型。
2.根据权利要求1所述的方法,其特征在于,所述特定用户特征是通过以下方式确定的:
获取所述目标用户类型对应的多个用户的信令数据和地理信息数据;
从目标用户的信令数据和地理信息数据中,提取所述目标用户对应的所述行为特征和所述工作状态特征,所述目标用户为所述多个用户中的任一个;
遍历全部所述用户,获得每个所述目标用户对应的所述行为特征和所述工作状态特征;
将全部所述行为特征进行聚类分析,确定特定行为特征;
将全部所述工作状态特征进行聚类分析,确定特定工作状态特征;
将所述特定行为特征和所述特定工作状态特征确定为目标用户类型具有的所述用户特征。
3.根据权利要求2所述的方法,其特征在于,所述户籍类型识别模型是通过以下方式获得:
构建初始的分类模型,利用所述特定行为特征和每个所述目标用户对应的行为特征,训练所述初始的分类模型;
当所述初始的分类模型的准确度达到预设阈值,获得所述户籍类型识别模型。
4.根据权利要求2所述的方法,其特征在于,所述务工行为识别模型是通过以下方式获得:
构建初始的分类模型,利用所述特定工作状态特征和每个所述目标用户对应的工作状态特征,训练所述初始的分类模型;
当所述分类模型的准确度达到预设阈值,获得所述务工行为识别模型。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当输出所述待识别为所述目标用户类型,根据所述待识别用户的务工地信息和所述地理信息数据,确定所述待识别用户的务工类型。
6.一种基于信令数据识别用户类型的装置,其特征在于,包括:
提取模块,用于从待识别用户在预设时间段内的信令数据和地理信息数据中,提取所述待识别用户对应的用户特征;
识别模块,用于将所述用户特征输入到预先训练的识别模型中,输出所述待识别用户的用户类型;其中,所述识别模型是根据任意一种目标用户类型具有的特定用户特征训练而成;
所述用户特征至少包括行为特征和工作状态特征;所述识别模块,具体用于:
将所述用户特征输入到预先训练的识别模型中,输出所述待识别用户的用户类型,包括:
将所述待识别用户的所述行为特征输入到户籍类型识别模型中;
若确定所述待识别用户不具有所述目标用户类型对应户籍信息,则输出所述待识别用户非所述目标用户类型;
若确定所述待识别用户具有所述目标用户类型对应户籍信息,则将所述待识别用户的所述工作状态特征输入到务工行为识别模型中;
若确定所述待识别用户不存在务工行为,则输出所述待识别用户非所述目标用户类型;
若确定所述待识别用户存在务工行为,则输出所述待识别用户为所述目标用户类型。
7.一种电子设备,其特征在于,包括处理器和存储有计算机可读指令的存储器,所述处理器被配置为在执行所述计算机可读指令时,执行如权利要求1至5任一项所述的基于信令数据识别用户类型的方法。
8.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如权利要求1至5任一项所述的一种基于信令数据识别用户类型的方法。
CN202110879549.2A 2021-08-02 2021-08-02 基于信令数据识别用户类型的方法及相关装置 Active CN113486984B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110879549.2A CN113486984B (zh) 2021-08-02 2021-08-02 基于信令数据识别用户类型的方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110879549.2A CN113486984B (zh) 2021-08-02 2021-08-02 基于信令数据识别用户类型的方法及相关装置

Publications (2)

Publication Number Publication Date
CN113486984A CN113486984A (zh) 2021-10-08
CN113486984B true CN113486984B (zh) 2022-05-17

Family

ID=77945104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110879549.2A Active CN113486984B (zh) 2021-08-02 2021-08-02 基于信令数据识别用户类型的方法及相关装置

Country Status (1)

Country Link
CN (1) CN113486984B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096631A (zh) * 2016-06-02 2016-11-09 上海世脉信息科技有限公司 一种基于手机大数据的流动人口分类识别分析方法
CN112101999A (zh) * 2020-09-16 2020-12-18 智慧足迹数据科技有限公司 用户识别方法、装置、电子设备和计算机可读存储介质
CN112512032A (zh) * 2020-11-16 2021-03-16 南京瑞栖智能交通技术产业研究院有限公司 一种基于手机信令数据的对外出行人群识别方法
CN112712112A (zh) * 2020-12-28 2021-04-27 中国移动通信集团江苏有限公司 区域流动人口识别方法、装置、设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022834B (zh) * 2016-05-24 2020-04-07 腾讯科技(深圳)有限公司 广告反作弊方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096631A (zh) * 2016-06-02 2016-11-09 上海世脉信息科技有限公司 一种基于手机大数据的流动人口分类识别分析方法
CN112101999A (zh) * 2020-09-16 2020-12-18 智慧足迹数据科技有限公司 用户识别方法、装置、电子设备和计算机可读存储介质
CN112512032A (zh) * 2020-11-16 2021-03-16 南京瑞栖智能交通技术产业研究院有限公司 一种基于手机信令数据的对外出行人群识别方法
CN112712112A (zh) * 2020-12-28 2021-04-27 中国移动通信集团江苏有限公司 区域流动人口识别方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于电信大数据的流入人口统计研究;孟东霞等;《无线互联科技》;20161010(第19期);全文 *

Also Published As

Publication number Publication date
CN113486984A (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
Hasnat et al. Identifying tourists and analyzing spatial patterns of their destinations from location-based social media data
Niu et al. Integrating multi-source big data to infer building functions
CN110428091B (zh) 基于数据分析的风险识别方法及相关设备
Hecht et al. Automatic identification of building types based on topographic databases–a comparison of different data sources
Tong et al. A framework for developing driving cycles with on‐road driving data
Wang et al. Extracting trips from multi-sourced data for mobility pattern analysis: An app-based data example
Mavoa et al. Linking GPS and travel diary data using sequence alignment in a study of children's independent mobility
CN105307121B (zh) 一种信息处理方法及装置
Shilling et al. Wildlife/roadkill observation and reporting systems
CN107194525A (zh) 一种基于手机信令的城市中心评估方法
WO2021082464A1 (zh) 预测车辆的目的地的方法和装置
CN104902438A (zh) 一种基于移动通信终端分析客流特征信息的统计方法及其系统
Sharma et al. Vehicle detection in 1‐m resolution satellite and airborne imagery
Lansley et al. Big data and geospatial analysis
Ghorpade et al. An integrated stop-mode detection algorithm for real world smartphone-based travel survey
CN107133689B (zh) 一种位置标记方法
Smith et al. Classification of sidewalks in street view images
CN113704373B (zh) 基于移动轨迹数据的用户识别方法、装置及存储介质
CN110895543B (zh) 人口迁徙跟踪展示方法、装置及存储介质
Sun et al. Discovering vehicle usage patterns on the basis of daily mobility profiles derived from floating car data
Vlachogiannis et al. Intersense: An XGBoost model for traffic regulator identification at intersections through crowdsourced GPS data
CN113486984B (zh) 基于信令数据识别用户类型的方法及相关装置
CN117455237A (zh) 一种基于多源数据的道路交通事故风险预测方法
Zhou et al. Identifying trip ends from raw GPS data with a hybrid spatio-temporal clustering algorithm and random forest model: a case study in Shanghai
Hedefalk et al. Importance of the geocoding level for historical demographic analyses: A case study of rural parishes in Sweden, 1850–1914

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant