CN113556698A - 基于手机信令的信息聚类方法、装置、设备及介质 - Google Patents

基于手机信令的信息聚类方法、装置、设备及介质 Download PDF

Info

Publication number
CN113556698A
CN113556698A CN202110826703.XA CN202110826703A CN113556698A CN 113556698 A CN113556698 A CN 113556698A CN 202110826703 A CN202110826703 A CN 202110826703A CN 113556698 A CN113556698 A CN 113556698A
Authority
CN
China
Prior art keywords
information
identified
travel
travel track
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110826703.XA
Other languages
English (en)
Inventor
张航
张岩
闫嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Smartsteps Data Technology Co ltd
Original Assignee
Smartsteps Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Smartsteps Data Technology Co ltd filed Critical Smartsteps Data Technology Co ltd
Priority to CN202110826703.XA priority Critical patent/CN113556698A/zh
Publication of CN113556698A publication Critical patent/CN113556698A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/20Services signaling; Auxiliary data signalling, i.e. transmitting data via a non-traffic channel
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供的基于手机信令的信息聚类方法、装置、设备及介质中,电子设备获取多个待识别用户的出行信息;其中,该出行信息包括至少一条出行轨迹的行为信息。而该行为信息包括了出行轨迹起点的人口分布、终点的人口分布、对应待识别用户出现在所述出行轨迹起点的频率以及对应待识别用户出现在所述出行轨迹终点的频率。由于出行轨迹起点以及终点的人口分布,待识别用户出现在出现轨迹起点以及终点的频率能够反应待识别用户的身份信息,因此,使用待识别用户的出行信息进行聚类,能够提高对待识别用户的聚类精度。

Description

基于手机信令的信息聚类方法、装置、设备及介质
技术领域
本申请涉及数据处理领域,具体而言,涉及一种基于手机信令的信息聚类方法、装置、设备及介质。
背景技术
聚类分析是一种寻找数据之间内在结构的技术。该技术中,通常将全体数据实例组织成一些相似组,而这些相似组被称作簇。处于相同簇中的数据实例之间具有一定的相似性,处于不同簇中的数据实例之间,则存在较大的差异。
相关依据用户出行轨迹进行聚类的方法,更多的是关注待识别用户的出行行为(例如,用户之间的出行轨迹是否相似)。发明人研究发现,该方式存在聚类精度欠佳的问题。
发明内容
为了克服现有技术中的至少一个不足,本申请提供一种基于手机信令的信息聚类方法、装置、设备及介质,使用待识别用户的行为信息进行聚类,其中,该行为信息包括出行轨迹起点以及终点的人口分布信息,还包括待识别用户在出行轨迹起点以及终点的出现频率;将两者相结合以达到提高聚类精度的目的。
第一方面,本申请实施例提供一种基于手机信令的信息聚类方法,应用于数据处理设备,所述方法包括:
获取多个待识别用户的出行信息,其中,所述出行信息包括至少一条出行轨迹的行为信息,每条所述行为信息包括第一分布信息、第二分布信息、第一频次信息以及第二频次信息,所述第一分布信息表征出行轨迹起点的人口分布,所述第二分布信息表征出行轨迹终点的人口分布,所述第一频次信息表征对应待识别用户出现在所述出行轨迹起点的频率,所述第二频次信息表征对应待识别用户出现在所述出行轨迹终点的频率;
根据所述多个待识别用户的出行信息之间的相似度,获得所述多个待识别用户的聚类结果。
第二方面,本申请实施例提供一种基于手机信令的信息聚类装置,应用于数据处理设备,所述基于手机信令的信息聚类装置包括:
信息获取模块,获取多个待识别用户的出行信息,其中,所述出行信息包括至少一条出行轨迹的行为信息,每条所述行为信息包括第一分布信息、第二分布信息、第一频次信息以及第二频次信息,所述第一分布信息表征出行轨迹起点的人口分布,所述第二分布信息表征出行轨迹终点的人口分布,所述第一频次信息表征对应待识别用户出现在所述出行轨迹起点的频率,所述第二频次信息表征对应待识别用户出现在所述出行轨迹终点的频率;
信息聚类模块,根据所述多个待识别用户的出行信息之间的相似度,获得所述多个待识别用户的聚类结果。
第三方面,本申请实施例提供一种电子设备,所述电子设备包括处理器以及存储器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,实现所述的基于手机信令的信息聚类方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现所述的基于手机信令的信息聚类方法。
相对于现有技术而言,本申请具有以下有益效果:
本申请实施例提供的基于手机信令的信息聚类方法、装置、设备及介质中,电子设备获取多个待识别用户的出行信息;其中,该出行信息包括至少一条出行轨迹的行为信息。而该行为信息包括了出行轨迹起点的人口分布、终点的人口分布、对应待识别用户出现在所述出行轨迹起点的频率以及对应待识别用户出现在所述出行轨迹终点的频率。由于出行轨迹起点以及终点的人口分布,待识别用户出现在出现轨迹起点以及终点的频率能够反应待识别用户的身份信息,因此,使用待识别用户的出行信息进行聚类,能够提高对待识别用户的聚类精度。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的电子设备结构示意图;
图2为本申请实施例提供的基于手机信令的信息聚类方法的步骤示意图;
图3为本申请实施例提供的步骤S101的子步骤示意图;
图4为本申请实施例提供的基于手机信令的信息聚类装置的结构示意图。
图标:120-存储器;130-处理器;140-通信装置;201-信息获取模块;202-信息聚类模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请的描述中,需要说明的是,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。此外,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
相关依据用户出行轨迹进行聚类的方法中,更多的是关注待识别用户之间出现轨迹是否相似,即出行轨迹在时空跨度上是否满足预设的相似条件。然而,发明人在实际使用过程中发现,仅依据出现轨迹之间的相似情况来判断待识别用户之间是否相似,存在一定的局限性。
其中,基于上述技术问题的发现,发明人经过创造性劳动提出下述技术方案以解决或者改善上述问题。需要注意的是,以上现有技术中的方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本申请实施例针对上述问题所提出的解决方案,都应该是发明人在发明创造过程中对本申请做出的贡献,而不应当理解为本领域技术人员所公知的技术内容。
将于上述相关技术所存在的问题,为了至少部分解决上述技术问题。本实施例提供一种应用于电子设备的基于手机信令的信息聚类方法。该方法中,使用待识别用户的行为信息进行聚类,其中,该行为信息包括出行轨迹起点以及终点的人口分布信息,还包括待识别用户在出行轨迹起点以及终点的出现频率;将两者相结合以达到提高聚类精度的目的。
本实施例所指的电子设备,可以是服务器,还可以是用户终端。当该电子设备为服务器时,其具体的类型可以是,但不限于,Web(网站)服务器、FTP(File TransferProtocol,文件传输协议)服务器、数据处理服务器等。此外,该服务器可以是单个服务器,也可以是服务器组。服务器组可以是集中式的,也可以是分布式的(例如,服务器可以是分布式系统)。在一些实施例中,服务器100相对于用户终端,可以是本地的、也可以是远程的。在一些实施例中,服务器100可以在云平台上实现;仅作为示例,云平台可以包括私有云、公有云、混合云、社区云(Community Cloud)、分布式云、跨云(Inter-Cloud)、多云(Multi-Cloud)等,或者它们的任意组合。在一些实施例中,服务器100可以在具有一个或多个组件的电子设备上实现。
当该电子设备为用户终端时,其具体类型可以是,但不限于,移动终端、平板计算机、膝上型计算机、或机动车辆中的内置设备等,或其任意组合。在一些实施例中,移动终端可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等,或其任意组合。在一些实施例中,智能家居设备可以包括智能照明设备、智能电器设备的控制设备、智能监控设备、智能电视、智能摄像机、或对讲机等,或其任意组合。在一些实施例中,可穿戴设备可包括智能手环、智能鞋带、智能玻璃、智能头盔、智能手表、智能服装、智能背包、智能配件等、或其任何组合。在一些实施例中,智能移动设备可以包括智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏设备、导航设备、或销售点(Point ofSale,POS)设备等,或其任意组合。
本实施例还提供该电子设备的一种结构示意图。如图1所示,该电子设备包括存储器120、处理器130。
该存储器120、处理器130以及其他可能的各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
其中,该存储器120可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器120用于存储计算机程序,该处理器130在接收到执行指令后,执行该计算机程序,以实现本实施例提供的基于手机信令的信息聚类方法。
该处理器130可以是一种集成电路芯片,具有信号的处理能力,并且,该处理器可以包括一个或多个处理核(例如,单核处理器或多核处理器)。仅作为举例,上述处理器可以包括中央处理单元(Central Processing Unit,CPU)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、专用指令集处理器(Application SpecificInstruction-set Processor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital SignalProcessor,DSP)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、简化指令集计算机(Reduced Instruction Set Computing,RISC)、或微处理器等,或其任意组合。
请再次参见图1,在一些实施方式中,该电子设备还包括通信装置140。该通信装置140用于通过网络收发数据。该网络可以包括有线网络、无线网络、光纤网络、远程通信网络、内联网、因特网、局域网(Local Area Network,LAN)、广域网(Wide Area Network,WAN)、无线局域网(Wireless Local Area Networks,WLAN)、城域网(Metropolitan AreaNetwork,MAN)、广域网(Wide Area Network,WAN)、公共电话交换网(Public SwitchedTelephone Network,PSTN)、蓝牙网络、ZigBee网络、或近场通信(Near FieldCommunication,NFC)网络等,或其任意组合。在一些实施例中,网络可以包括一个或多个网络接入点。例如,网络可以包括有线或无线网络接入点,例如基站和/或网络交换节点,服务请求处理系统的一个或多个组件可以通过该接入点连接到网络以交换数据和/或信息。
基于上述电子设备的介绍,本实施还提供该基于手机信令的信息聚类方法的一种步骤示意图。如图2所示,该基于手机信令的信息聚类方法包括:
步骤S101,获取多个待识别用户的出行信息。
其中,出行信息包括至少一条出行轨迹的行为信息,每条行为信息包括第一分布信息、第二分布信息、第一频次信息以及第二频次信息。
本实施中的出行轨迹,可以获取自不同的轨迹数据源。例如,该轨迹数据源可以是导航服务器中记录的导航请求;还可以是依据待识别用户的手机信令信息进行分析获得。对此,本实施例不做具体的限定。
下面以手机信令信息为例,进行示例性说明。该实施方式中,电子设根据手机信令信息的中基站信息以及时刻信息,确定待识别用户在通信基站的通信范围内驻留的时长,当该时长超过设定的时长阈值时,则将该通信基站的位置作为出行轨迹的起点或者终点。其中,当上一通信基站的位置是起点时,则当前通信基站的位置则为终点;同理,当上一通信基站的位置是终点时,则当前通信基站的位置则为起点。
此外,需要说明的是,本实施例中,若手机信令信息具有待识别用户的定位信息(例如,GPS数据),该电子设备则将定位信息对应的位置作为出行轨迹的起点或者终点。
其中,第一分布信息表征出行轨迹起点的人口分布,第二分布信息表征出行轨迹终点的人口分布。
同样以上述手机信令信息为例。该示例中,为了提高聚类精度,选取的行为信息包括了出行轨迹起点以及终点的人口分部信息,并在行为信息中以第一分布信息以及第二分布信息的方式进行表示。例如,将出行轨迹起点以及终点的人口分布表示为“工作人口”、“居住人口”以及“拜访人口”。而上述不同类型的人口之间,其手机信令信息中的时间跨度存在明显的不同。
例如,针对同一目标区域,工作人口的手机信令信息持续出现在该区域的时间跨度通常在工作时段,即工作日的早上9点-下午6点。而居住人口的手机信令信息持续出现该区域的时间跨度则会远远超过工作时段。同理,拜访人口的手机信令信息持续出现在该区域的时间跨度则会小于工作时段。
本实施例中,该电子设备将不同的时间跨度作为用户身份信息,并根据手机信令中具有的用户身份信息,对不同的预设区域进行统计,以获得各预设区域的人口分布。最后,该电子设备根据出行轨迹的起点以及终端所属的预设区域,获得该出行轨迹起点以及终点的人口分布。
为了统计出各预设区域的人口分布,一种可能的实现方式中,针对每个预设区域,该电子设备统计预设时段(例如,在1个月内)内,工作日的工作时段,一用户出现在该预设区域的时长达到了设定的第一比例,则将该用户判定为该预设区域内的工作人口;同理,若该用户在夜间时段(例如,0-6点,20-24点)的停留时长达到了设定的第二比例,则判断该用户为该预设区域内的居住人口;其类型的用户,则判定为该预设区域内的拜访人口。
由于出行轨迹起点以及终点的人口分布,能够有在一定程度上反映待识别用户可能的身份类型,因此,人口分布信息的引入,能够提高聚类结果的精度。
第一频次信息表征对应待识别用户出现在出行轨迹起点的频率,第二频次信息表征对应待识别用户出现在出行轨迹终点的频率。
本实施例中,还考虑到在预设时段内,若不同的待识别用户高频出现在相同的地点,则能够在一定程度上反应待识别用户之间存在联系。例如,同事之间,会高频的同时出现在公司所在的地点。
步骤S102,根据多个待识别用户的出行信息之间的相似度,获得多个待识别用户的聚类结果。
由此,该电子设备获取多个待识别用户的出行信息;其中,该出行信息包括至少一条出行轨迹的行为信息。而该行为信息包括了出行轨迹起点的人口分布、终点的人口分布、对应待识别用户出现在出行轨迹起点的频率以及对应待识别用户出现在出行轨迹终点的频率。由于出行轨迹起点以及终点的人口分布,待识别用户出现在出现轨迹起点以及终点的频率能够反应待识别用户的身份信息,因此,使用待识别用户的出行信息进行聚类,能够提高对待识别用户的聚类精度。
本实施例中,还考虑到单个待识别用户的至少一条出行轨迹的行为信息之间,存在内在的相关性。其中,该内在相关性具体表现为,多条出行轨迹之间的先后顺序;多条轨迹之间集中出现的概率等。而本实施中,出行信息则是按照预设编码方式编码后的向量,因此,对于单个待识别用户,为了发掘其至少一条出行轨迹的行为信息之间的内在联系,该电子设备通过词嵌入工具将待识别用户的出行信息转换成出行向量,然后,根据多个待识别用户的出行向量之间的相似度,获得多个待识别用户的聚类结果。
值得说明的是,词嵌入工具可以是,但不限于word2vec模型以及Skip-Gram模型等。而词嵌入工具通常用于在自然语言识别场景下,对待识别文本上下文之间的关系进行发掘。发明人研究发现,将待识别用户的出行信息经自然语言识别领域的词嵌入工具进行转换处理后,能够显著改善聚类结果的精度。
本实施例中,为了获得多个待识别用户的出行信息之间的相似度,并对待识别用户进行聚类。该电子设备通过聚类算法处理多个待识别用户的出行向量,以获得多个待识别用户的聚类结果。
其中,该聚类算法可以是,但不限于,K-Means、基于密度的聚类方法(DBSCAN)以及均值漂移聚类等。因此,本领域技术人员可以根据需要,进行选取,本实施例不做具体的限定。
由上文可知,本实施例中的出行信息是按照预设编码方式编码后的向量。下面结合图3对出行信息的编码方式进行详细介绍。如图3所示,步骤S101包括:
步骤S101-1,获取每个待识别用户的至少一条出行轨迹;
步骤S101-2,针对每条出行轨迹,通过四分位数的方式对出行轨迹起点的人口分布进行编码,获得出行轨迹的第一分布信息。
步骤S101-3,通过四分位数的方式对出行轨迹终点的人口分布进行编码,获得出行轨迹的第二分布信息。
本实施例所指的四分位数,将100%划分成4个区间段,即0-25%、26%-50%、51%-75%、76%-100%;依次对应的编码为1、2、3、4。同样以上述“工作人口”、“居住人口”以及“拜访人口”为例,假定一出行轨迹的起点为混合区域,其中,居住人口占据60%,工作人口占据30%,拜访人口占据10%。则居住人口占据的60%位于51%-75%之间,其编码为3,工作人口占据的30%位于26%-50%之间,其编码为2,拜访人口占据的10%位于0-25%之间,其编码为1。
需要说明的是,四分位数仅是一种较佳的实施方式,本领域技术人员还可以将根据需要,将100%划分成3区间段或者5个区间段,本实施例不对此做具体的限定。
步骤S101-4,根据预设时段内出行轨迹对应的待识别用户出现在不同位置的频次,获得频次排序结果。
步骤S101-5,根据频次排序结果中出行轨迹起点对应的顺序值,获得出行轨迹的第一频次信息。
步骤S101-6,根据频次排序结果中出行轨迹终点对应的顺序值,获得出行轨迹的第二频次信息。
示例性的,以预设时段为一周为例,一待识别人员在一周以内工去了5个位置,假定是位置A去了5次,位置B去了4次,位置C去了12次,位置D,位置F去了15次。
考虑到次数小于设定次数阈值的位置,其参考意义小于次数大于参考阈值的位置。因此,本实施例中,电子设备将各位置按照出现次数的由小到大的顺序进行排列,将小于次数阈值的所有位置编码成相同的数字或者字符。将大于次数阈值的所有位置,则依据其频次排序结果的顺序值,将其编码成数字或者字符。其中,其排序方式可以是从大到小的方式进行排序。
假定该次数阈值为6,则将位置A与位置B的出现频率均编码成“#”;将位置C、位置D以及位置D依据各自对应的顺序值,编码成对应的字符。其中,该字符可以是ASCII字符。
最后,该电子设备依据一条轨迹的起点以及终点在上述频次排序结果中的顺序值,获得对应的编码。
以上述ASCII字符为例,由于ASCII字符编码包含了比较多的特殊符号,而其中从十进制的48位开始后面主要是阿拉伯数字和英文字母,包含部分可见特殊字符。而考虑到绝大部分用户高频行为数量有限,因此为了表达需要,从第48位开始编码,即最高频排第一的对应ASCII码值为48,转移为ASCII字符为0,后面依次增加即可。其计算表达为ASCII码值=顺序值+47;然后,将ASCII码值转换成对应的字符。
步骤S101-7,将第一分布信息、第二分布信息、第一频次信息以及第二频次信息进行组合,获得出行轨迹的行为信息。
示例性的,作为一种可能的组合方式,待识别用户的一条出行轨迹对应的行为信息kn可以表示为:
kn=Wn1Hn1Vn1_Wn2Hn2Vn2_C1C2
式中,Wn1Hn1Vn1表示该出行轨迹起点的人口分布编码,Wn2Hn2Vn2表示该出行轨迹终点的人口分布编码;n表示第n条出现轨迹,W表示工作人口,H表示居住人口,H表示拜访人口,C1C2表示表示该出行轨迹对应待识别用户在起点以及终点出现频次的编码。
步骤S101-8,将至少一条出行轨迹的行为信息,作为待识别用户的出行信息。
正如前文提到的,待识别用户的一条出行轨迹对应的行为信息用kn进行表示,而出行信息包括至少一条出行轨迹的行为信息,因此,作为待识别用户的出行信息
Figure BDA0003174017310000121
可以表示为:
Figure BDA0003174017310000122
基于与上述方法相同的发明构思,本实施例还提供一种基于手机信令的信息聚类装置,应用于电子设备。基于手机信令的信息聚类装置包括至少一个可以软件形式存储于存储器120中的功能模块。如图4所示,从功能上划分,基于手机信令的信息聚类装置可以包括:
信息获取模块201,获取多个待识别用户的出行信息,其中,出行信息包括至少一条出行轨迹的行为信息,每条行为信息包括第一分布信息、第二分布信息、第一频次信息以及第二频次信息,第一分布信息表征出行轨迹起点的人口分布,第二分布信息表征出行轨迹终点的人口分布,第一频次信息表征对应待识别用户出现在出行轨迹起点的频率,第二频次信息表征对应待识别用户出现在出行轨迹终点的频率。
本实施例中,该信息获取模块201用于实现图2中的步骤S101,关于该信息获取模块201的详细描述,可以参见步骤S101的详细描述。
信息聚类模块202,根据多个待识别用户的出行信息之间的相似度,获得多个待识别用户的聚类结果。
本实施例中,该信息聚类模块202用于实现图2中的步骤S102,关于该信息聚类模块202的详细描述,可以参见步骤S102的详细描述。
可选地,出行信息为按照预设编码方式编码后的向量,信息聚类模依据多个待识别用户的出行信息之间的相似度,获得多个待识别用户的聚类结果的方式,包括:
针对每个待识别用户,通过词嵌入工具将待识别用户的出行信息转换成出行向量;
根据多个待识别用户的出行向量之间的相似度,获得多个待识别用户的聚类结果。
可选地,信息获取模块201获取多个待识别用户的出行信息的方式,包括:
获取每个待识别用户的至少一条出行轨迹;
针对每条出行轨迹,通过四分位数的方式对出行轨迹起点的人口分布进行编码,获得出行轨迹的第一分布信息;
通过四分位数的方式对出行轨迹终点的人口分布进行编码,获得出行轨迹的第二分布信息;
根据预设时段内出行轨迹对应的待识别用户出现在不同位置的频次,获得频次排序结果;
根据频次排序结果中出行轨迹起点对应的顺序值,获得出行轨迹的第一频次信息;
根据频次排序结果中出行轨迹终点对应的顺序值,获得出行轨迹的第二频次信息;
将第一分布信息、第二分布信息、第一频次信息以及第二频次信息进行组合,获得出行轨迹的行为信息;
将至少一条出行轨迹的行为信息,作为待识别用户的出行信息。
值得说明的是,上述基于手机信令的信息聚类装置还可以包括其他软件功能模块,用于实现基于手机信令的信息聚类方法的其他步骤或者子步骤。同理,上述信息聚类模块202以及信息获取模块201同样还可以用于实现基于手机信令的信息聚类方法的其他步骤或者子步骤。
本实施提供一种电子设备,电子设备包括处理器以及存储器,存储器存储有计算机程序,计算机程序被处理器执行时,实现的基于手机信令的信息聚类方法。
本实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时,实现的基于手机信令的信息聚类方法。
综上所述,本申请实施例提供的基于手机信令的信息聚类方法、装置、设备及介质中,电子设备获取多个待识别用户的出行信息;其中,该出行信息包括至少一条出行轨迹的行为信息。而该行为信息包括了出行轨迹起点的人口分布、终点的人口分布、对应待识别用户出现在出行轨迹起点的频率以及对应待识别用户出现在出行轨迹终点的频率。由于出行轨迹起点以及终点的人口分布,待识别用户出现在出现轨迹起点以及终点的频率能够反应待识别用户的身份信息,因此,使用待识别用户的出行信息进行聚类,能够提高对待识别用户的聚类精度。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的各种实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种基于手机信令的信息聚类方法,其特征在于,应用于数据处理设备,所述方法包括:
获取多个待识别用户的出行信息,其中,所述出行信息包括至少一条出行轨迹的行为信息,每条所述行为信息包括第一分布信息、第二分布信息、第一频次信息以及第二频次信息,所述第一分布信息表征出行轨迹起点的人口分布,所述第二分布信息表征出行轨迹终点的人口分布,所述第一频次信息表征对应待识别用户出现在所述出行轨迹起点的频率,所述第二频次信息表征对应待识别用户出现在所述出行轨迹终点的频率;
根据所述多个待识别用户的出行信息之间的相似度,获得所述多个待识别用户的聚类结果。
2.根据权利要求1所述的基于手机信令的信息聚类方法,其特征在于,所述出行信息为按照预设编码方式编码后的向量,所述根据所述多个待识别用户的出行信息之间的相似度,获得所述多个待识别用户的聚类结果,包括:
针对每个所述待识别用户,通过词嵌入工具将所述待识别用户的出行信息转换成出行向量;
根据所述多个待识别用户的出行向量之间的相似度,获得所述多个待识别用户的聚类结果。
3.根据权利要求2所述的基于手机信令的信息聚类方法,其特征在于,所述根据所述多个待识别用户的出行向量之间的相似度,获得所述多个待识别用户的聚类结果,包括:
通过聚类算法处理所述多个待识别用户的出行向量,以获得所述多个待识别用户的聚类结果。
4.根据权利要求1-2任意一项所述的基于手机信令的信息聚类方法,其特征在于,所述获取多个待识别用户的出行信息,包括:
获取每个所述待识别用户的至少一条出行轨迹;
针对每条所述出行轨迹,通过四分位数的方式对所述出行轨迹起点的人口分布进行编码,获得所述出行轨迹的第一分布信息;
通过四分位数的方式对所述出行轨迹终点的人口分布进行编码,获得所述出行轨迹的第二分布信息;
根据预设时段内所述出行轨迹对应的待识别用户出现在不同位置的频次,获得频次排序结果;
根据所述频次排序结果中所述出行轨迹起点对应的顺序值,获得所述出行轨迹的第一频次信息;
根据所述频次排序结果中所述出行轨迹终点对应的顺序值,获得所述出行轨迹的第二频次信息;
将所述第一分布信息、所述第二分布信息、所述第一频次信息以及所述第二频次信息进行组合,获得所述出行轨迹的行为信息;
将所述至少一条出行轨迹的行为信息,作为所述待识别用户的出行信息。
5.根据权利要求4所述的基于手机信令的信息聚类方法,其特征在于,所述方法还包括:
获取所述出行轨迹起点以及终点的手机信令信息;
根据所述手机信令中具有的用户身份信息,获得所述出行轨迹起点的人口分布以及所述出行轨迹终点的人口分布。
6.一种基于手机信令的信息聚类装置,其特征在于,应用于数据处理设备,所述基于手机信令的信息聚类装置包括:
信息获取模块,获取多个待识别用户的出行信息,其中,所述出行信息包括至少一条出行轨迹的行为信息,每条所述行为信息包括第一分布信息、第二分布信息、第一频次信息以及第二频次信息,所述第一分布信息表征出行轨迹起点的人口分布,所述第二分布信息表征出行轨迹终点的人口分布,所述第一频次信息表征对应待识别用户出现在所述出行轨迹起点的频率,所述第二频次信息表征对应待识别用户出现在所述出行轨迹终点的频率;
信息聚类模块,根据所述多个待识别用户的出行信息之间的相似度,获得所述多个待识别用户的聚类结果。
7.根据权利要求6所述的基于手机信令的信息聚类装置,其特征在于,所述出行信息为按照预设编码方式编码后的向量,所述信息聚类模依据所述多个待识别用户的出行信息之间的相似度,获得所述多个待识别用户的聚类结果的方式,包括:
针对每个所述待识别用户,通过词嵌入工具将所述待识别用户的出行信息转换成出行向量;
根据所述多个待识别用户的出行向量之间的相似度,获得所述多个待识别用户的聚类结果。
8.根据权利要求6-7任意一项所述的基于手机信令的信息聚类装置,其特征在于,所述信息获取模块获取多个待识别用户的出行信息的方式,包括:
获取每个所述待识别用户的至少一条出行轨迹;
针对每条所述出行轨迹,通过四分位数的方式对所述出行轨迹起点的人口分布进行编码,获得所述出行轨迹的第一分布信息;
通过四分位数的方式对所述出行轨迹终点的人口分布进行编码,获得所述出行轨迹的第二分布信息;
根据预设时段内所述出行轨迹对应的待识别用户出现在不同位置的频次,获得频次排序结果;
根据所述频次排序结果中所述出行轨迹起点对应的顺序值,获得所述出行轨迹的第一频次信息;
根据所述频次排序结果中所述出行轨迹终点对应的顺序值,获得所述出行轨迹的第二频次信息;
将所述第一分布信息、所述第二分布信息、所述第一频次信息以及所述第二频次信息进行组合,获得所述出行轨迹的行为信息;
将所述至少一条出行轨迹的行为信息,作为所述待识别用户的出行信息。
9.一种电子设备,其特征在于,所述电子设备包括处理器以及存储器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,实现权利要求1-5任意一项所述的基于手机信令的信息聚类方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1-5任意一项所述的基于手机信令的信息聚类方法。
CN202110826703.XA 2021-07-21 2021-07-21 基于手机信令的信息聚类方法、装置、设备及介质 Pending CN113556698A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110826703.XA CN113556698A (zh) 2021-07-21 2021-07-21 基于手机信令的信息聚类方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110826703.XA CN113556698A (zh) 2021-07-21 2021-07-21 基于手机信令的信息聚类方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN113556698A true CN113556698A (zh) 2021-10-26

Family

ID=78132352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110826703.XA Pending CN113556698A (zh) 2021-07-21 2021-07-21 基于手机信令的信息聚类方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113556698A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120221231A1 (en) * 2009-10-14 2012-08-30 Ntt Docomo, Inc. Positional information analysis device and positional information analysis method
CN105701560A (zh) * 2015-12-31 2016-06-22 百度在线网络技术(北京)有限公司 一种通勤路线信息的确定方法及装置
CN106871919A (zh) * 2017-02-24 2017-06-20 广州三星通信技术研究有限公司 用于电子终端的导航方法和导航设备
CN107038168A (zh) * 2016-02-03 2017-08-11 中兴通讯股份有限公司 一种用户通勤轨迹管理方法、装置及系统
CN108074414A (zh) * 2017-12-19 2018-05-25 广州小鹏汽车科技有限公司 一种基于用户行为的常走路径交通信息提醒方法及系统
CN112667760A (zh) * 2020-12-24 2021-04-16 北京市安全生产科学技术研究院 一种用户出行活动轨迹编码方法
CN112712112A (zh) * 2020-12-28 2021-04-27 中国移动通信集团江苏有限公司 区域流动人口识别方法、装置、设备及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120221231A1 (en) * 2009-10-14 2012-08-30 Ntt Docomo, Inc. Positional information analysis device and positional information analysis method
CN105701560A (zh) * 2015-12-31 2016-06-22 百度在线网络技术(北京)有限公司 一种通勤路线信息的确定方法及装置
CN107038168A (zh) * 2016-02-03 2017-08-11 中兴通讯股份有限公司 一种用户通勤轨迹管理方法、装置及系统
CN106871919A (zh) * 2017-02-24 2017-06-20 广州三星通信技术研究有限公司 用于电子终端的导航方法和导航设备
CN108074414A (zh) * 2017-12-19 2018-05-25 广州小鹏汽车科技有限公司 一种基于用户行为的常走路径交通信息提醒方法及系统
CN112667760A (zh) * 2020-12-24 2021-04-16 北京市安全生产科学技术研究院 一种用户出行活动轨迹编码方法
CN112712112A (zh) * 2020-12-28 2021-04-27 中国移动通信集团江苏有限公司 区域流动人口识别方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
JP6594988B2 (ja) 住所テキストを処理する方法及び機器
CN104102719B (zh) 一种轨迹信息的推送方法及装置
CN106643774B (zh) 一种导航路线生成方法及终端
CN105848099B (zh) 识别地理围栏的方法、系统、服务器及移动终端
CN111078807B (zh) 位置查询方法、装置、计算机设备及存储介质
EP3358474B1 (en) Route search method, device and apparatus, and non-volatile computer storage medium
CN107092623B (zh) 一种兴趣点查询方法及装置
Qin et al. Spatio-temporal routine mining on mobile phone data
CN109344513B (zh) 一种最短路线规划方法、系统及计算机存储介质
CN116978011A (zh) 一种用于智能目标识别的图像语义通信方法及系统
CN114372133A (zh) 查询信息问答方法、相关装置及计算机程序产品
CN111651535B (zh) 信息查询处理方法、装置、电子设备及可读存储介质
CN112035548A (zh) 识别模型的获取方法、识别方法、装置、设备及介质
CN112885099A (zh) 用于确定车辆轨迹关键点的方法、装置及设备
CN111325436A (zh) 网约车同行乘客匹配方法及系统、存储介质及服务器
CN112487256A (zh) 对象查询方法、装置、设备及存储介质
CN104580379B (zh) 一种发送展示信息的方法和装置
CN113556698A (zh) 基于手机信令的信息聚类方法、装置、设备及介质
CN110266834B (zh) 基于互联网协议地址的地区查找方法及装置
CN105243131B (zh) 路径查询方法及装置
CN111984856A (zh) 信息推送方法、装置、服务器及计算机可读存储介质
US8626933B2 (en) Optimizing buddy finder telecommunication service
CN113657340A (zh) 轨迹匹配方法及相关装置
KR101598809B1 (ko) 사용자의 실제위치를 포함하는 상하관계형 영역에 기반한 사용자 영역 설정방법및 인접사용자 탐색방법
CN116860981A (zh) 潜在客户挖掘方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211026

RJ01 Rejection of invention patent application after publication