CN109684373A - 基于出行和话单数据分析的重点关系人发现方法 - Google Patents

基于出行和话单数据分析的重点关系人发现方法 Download PDF

Info

Publication number
CN109684373A
CN109684373A CN201811419419.5A CN201811419419A CN109684373A CN 109684373 A CN109684373 A CN 109684373A CN 201811419419 A CN201811419419 A CN 201811419419A CN 109684373 A CN109684373 A CN 109684373A
Authority
CN
China
Prior art keywords
party
emphasis
liaison
communications
trip
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811419419.5A
Other languages
English (en)
Other versions
CN109684373B (zh
Inventor
丁洪丽
崔莹
王侃
代翔
黄细凤
彭易锦
杨露
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Electronic Technology Institute No 10 Institute of Cetc
Original Assignee
Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Electronic Technology Institute No 10 Institute of Cetc filed Critical Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority to CN201811419419.5A priority Critical patent/CN109684373B/zh
Publication of CN109684373A publication Critical patent/CN109684373A/zh
Application granted granted Critical
Publication of CN109684373B publication Critical patent/CN109684373B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出的一种基于出行和话单数据分析的重点关系人发现方法,旨在提供一种高效准确、识别率高的重点关系人发现方法,本发明通过下述技术方案予以实现:同行关系人发现模块利用航班和火车出行数据,采用同行规律挖掘算法得到与目标人物一起出行的同行关系人特征数据列表;通联关系人发现模块利用话单数据,采用通联规律统计算法计算目标人物所有通话记录的通联频次和通联时长,通联频次降序排列得到通联关系人特征数据列表1,表2;关系人类型判定模块利用话单数据分析目标人物和重点关系人特征数据列表人员的停留时空规律,根据关系人类型判定规则判定重点关系人的类型,得到带有关系人类型的重点关系人特征数据列表。

Description

基于出行和话单数据分析的重点关系人发现方法
技术领域
本发明属于数据挖掘分析领域,涉及一种基于出行和话单数据分析的重点关系人发现方法。
背景技术
随着城市交通信息化水平的提高,交通信息采集和挖掘在综合交通调查中的作用日益凸显。居民出行信息在交通规划、交通控制管理等方面起着至关重要的作用,它揭示了城市土地利用、商业活动、人文风俗、公交线网管理的规律,被广泛的应用于城市综合交通规划、智能交通系统等领域。城市综合交通规划具有对城市及其交通未来长远发展方向的前瞻性与导向性,其重要性已经成为社会各界的普遍共识。居民出行调查是城市综合交通规划工作的重要内容,通过对居民出行入户问卷调查数据的整理和分析,是全面掌握城市居民出行需求和出行特征的主要手段之一,并为建立交通需求预测模型提供基础数据,是合理地制定交通发展战略和提出交通资源配置策略,极具科学说服力的定量依据。在开展城市综合交通规划过程中,对现状居民出行特征的准确了解,有利于定性判断现状城市及其交通的突出问题,对未来发展变化大致趋势的正确把握,同时对交通规划需求模型参数的标定起着定量作用。然而居民出行入户问卷调查存在过程复杂,投入成本大,样本量较小、时效性差等问题。传统居民出行特征获取主要依赖于入户问卷调查,存在工作协调难度大,耗费大量时间和人工成本,且数据样本量小、精度不高、时效性差等问题。运用所定位数据进行挖掘,以得到可靠的居民出行时空分布特征,可为城市的交通规划提供准确的出行现状数据。时间分布、出行流量及方向,其能够反映居民的交通需求在时间、空间上的分布,不仅能为城市的交通规划提供出行现状数据信息,也能为解决交通拥堵、提高道路通行效率等提供数据支持。其中,有效、实时的交通信息的获取是交通规划及决策的基础。而传统的交通信息采集方法(人工调查法和固定式交通信息采集技术)具有调查及维护成本高、传感器损坏率高、实时性较差及采集的交通数据精度较低等缺点。现有技术基于手机信令定位数据,数据源为来自手机中GPS模块提供的手机状态信息数据。且对于手机GPS信号具有严格的要求。满足要求的才能够进行出行方式的识别,否则无法识别。由于识别的出行方式为步行、公交车、小汽车,对于轨道交通无法进行有效识别。在手机移动数据挖掘中,虽然显示了数据点的位置信息,但无法直观地表示手机用户在交通区域的运动情况。当基站分布数量较多时,切换干扰多,将难以保证手机信令定位数据位置信息的准确性,导致获取的出行信息误差较大。手机移动出行方式识别方法是通过BP神经网络,需要大量的样本进行训练,然后才能利用训练好的模型进行出行方式识别。算法复杂、运算量太大,不易推广。
在居民特征分析中,调查内容完整全面,可以获取出行次数、出行目的、出行方式、出行分布。不足之处在于调查获取的数据不确定性以及颗粒度较大;总体耗时长,投入较多人力,且需要多部门协调;其OD调查的区域需要事先确立,如果要扩大调查的范围,则需要投入更多的人力物力,其调查成本高等等。样本量一般为总人口的5%以内,样本量偏小对于人口和就业岗位分布、出行率和出行分布(OD矩阵)的获取,存在一定难以消除的偏差;调查成本大,导致数据时效性往往滞后数年。出行空间分布通常使用出行量的期望线来表示,它能表征出行的流量和方向。而出行量的期望范围内所有出行起点(O)和终点(D)之间的出线基于OD矩阵获得。根据OD矩阵及期望线所得的早晚高峰进出城方向比例和全市出行发生与吸引量这两项出行空间分布特征数据。然后对定位数据进行预处理,对所研究的交通区域进行小区划分,在此基础上提取居民的出行时空分布特征,并将所得的结果进行扩样,得到城市总体人群的出行时空分布特征。
居民的出行时空分布特征主要包括居民的出行,数据预测居民的出行路径选择。随着现有数据获取技术手段的提高,获取的各种人类行为数据量剧增,话单数据、出行数据是其中的典型代表。用户通话产生的详细话单数据具有丰富的时空信息和社交信息,这些信息在一定程度上反映了用户的生活习惯和社交模式。通过手机话单数据出行特征样本量可以涵盖绝大多数人口。获取人口和就业岗位分布、出行活动特征分析等,成为全新可靠地技术选择方式。话单数据是运营商计费所产生的。话单数据有被动产生、覆盖范围广、成本低、分析周期短等优点。手机话单数据中含有丰富的时空信息和社交信息,话单数据中潜藏着各种类型的人物关系,这些人物关系可支撑嫌疑人查找、团伙发现、商品推销等应用,如何从这些海量数据中挖掘人物关系及其类型变得尤为重要。利用话单数据进行关系人发现是比较常用的方法,一般是将通话次数多、通话时间长的人员列为重点关系人。然而现在网购已经成了大家的习惯,随之而来的快递员、外卖送餐员越来越多。如果目标人物经常网购买东西或者定外卖,那么其与快递员或者外卖送餐员的通话次数就很多,利用传统分析方法,很容易将快递员或者外卖送餐员等日常关系人判断为目标人物的重点关系人,产生误判;另外还存在某些重点关系人和目标人物通话次数并不多的情况,利用传统分析方法,这些重点关系人就被过滤掉了,产生漏判。所以话单数据仅适合发现通联度高的关系人。通过手机话单数据提取用户的出行特征具有可行性。然而,手机话单数据的稀疏性对提取居民出行时间特征造成困难。通过对手机话单数据的挖掘分析识别居民职住地,得到居民特征通勤序列,进而基于早、晚不同情况对居民通勤特征进行描述和分析发现,计算匿名手机用户移动轨迹混乱程度(熵),用户93%的出行可预测,进而可以得到手机话单数据得到的居民通勤距离和时间特征与居民出行调查结果较为一致,说明可用以描述居民通勤特征。关系人发现主要是从大量数据中挖掘出潜在的、不为人所知的、人与人之间的各种关系。同一数据不同来源数据质量不一,既有结构化的也有非结构化的不同的数据访问点和数据集成。传统方法在进行关系人发现时仅采用单一数据源进行处理,只利用话单数据进行重点关系人发现,其缺点是容易出现漏判和误判情况。当然也可以利用航班和火车交通量与话单数据导出交通量的差值,得到一些没有携带手机人群的出行交通量。设某一区域人均手机标示ID数量为各个车站、航班所吸引的腹地范围在估计实际的交通量后,可将实际交通量作为基础运量标准值来预测未来航班、铁路规划年度的腹地间总运量。现有技术基于手机信令定位数据的出行时空分布特征提取方法的文献较多,但对交通出行特征获取定位数据的研究还较少,已有研究中缺乏对获取交通出行特征方法的描述。虽然利用航班和火车等出行数据也可以进行重点关系人发现,但也可能存在误判和漏判的情况。经常一起出行的人大多可认为是重点关系人,但也存在两个没有任何关系的出差达人经常一起出行的情况;另外不是所有的关系人都会经常一起出行。所以出行数据仅适合发现同行度高的关系人。
发明内容
针对上述问题,本发明提出一种能够提高重点关系人发现的正确率,减少误判和漏判情况,基于出行和话单数据分析的重点关系人发现方法。以解决上述背景技术中提出的问题和只利用单一的数据源进行重点关系人发现不准确、不完备的问题。
实现本发明上述目的的技术方案为:一种基于出行和话单数据分析的重点关系人的发现方法,其特征在于包括以下步骤:同行关系人发现模块利用航班和火车出行数据,采用同行规律挖掘算法挖掘与目标人物姓名一起出现的同行关系人姓名,根据识别、分析和筛选特征数据,构建与目标人物一起出行的同行关系人特征数据列表;通联关系人发现模块利用话单数据,进行话单关系分析、话单时序分析,采用通联规律统计算法布局时间序列,计算目标人物所有通话记录的通联频次和通联时长,利用通联频次降序排列构建通联关系人特征数据列表1,利用通联时长降序排列构建通联关系人特征数据列表2;重点关系人发现模块根据规则管理模块生成的重点关系人发现规则,对出行数据和话单数据进行双重判定,将处理过程进行融合,从同行关系人特征数据列表与通联关系人特征数据列表抽取特征数据,构建重点关系人特征数据列表;关系人类型判定模块进一步利用话单数据,分析目标人物的停留时空规律,进行目标人物居住地和工作地的判定,分析重点关系人特征数据列表人员的停留时空规律,根据规则管理模块生成的关系人类型判定规则,判定重点关系人的类型,得到带有关系人类型的重点关系人特征数据列表。
本发明相比于现有技术具有如下有益效果。
本发明利用话单数据所包含的时空信息和社交信息,提取用户特征,发现与目标人物关系密切的通联关系人,利用话单数据,采用通联规律统计算法布局时间序列,进行话单关系分析和话单时序分析,计算目标人物所有通话记录的通联频次和通联时长,通过通联频次降序排列构建通联关系人特征数据列表1;,通过通联时长降序排列构建通联关系人特征数据列表2。本发明利用出行数据包含的出行信息,采用同行规律挖掘算法挖掘与目标人物经常一起出行的同行关系人,构建与目标人物一起出行的同行关系人特征数据列表。从多角度对用户间的关系性进行表达,避免了只采用话单数据或者只采用出行数据进行后续分析的特征单一性问题。
本发明根据重点关系人发现规则,对出行数据和话单数据进行双重判定,从同行关系人特征数据列表与通联关系人特征数据列表抽取特征数据,构建重点关系人特征数据列表;重点关系人发现模块采用多数据源进行关系人发现,将处理过程进行融合,得到既互相补充又交叉验证的重点关系人特征数据列表,提高了重点关系人发现的正确率,减少了误判和漏判情况。本发明增加了关系人类型判定方法,关系人类型判定模块进一步利用话单数据,分析目标人物和重点关系人特征数据列表人员的停留时空规律,根据关系人判定规则判定重点关系人的关系类型,得到带有关系人类型的重点关系人特征数据列表。这种采用多数据源的融合方式解决了传统方法采用单一数据源,只利用话单数据进行重点关系人发现,存在误判和漏判的情况。由于话单数据是根据预设的事件触发而记录的,因此其真实性更高。话单数据所提供的基站小区代码,就可以指示出行者发生移动台事件时所在的小区位置。同时本发明通过挖掘得到可靠的居民出行时空分布特征,提取居民出行时空分布特征,作为现有的交通数据采集技术的重要补充,在时间分布、出行流量及方向,其能够反映居民的交通需求在时间、空间上的分布,不仅能为城市的交通规划提供出行现状数据信息,也能为解决交通拥堵、提高道路通行效率和城市的交通规划等提供准确的出行现状数据提供了很好的技术支持。
附图说明
图1是本发明基于出行和话单数据分析的重点关系人发现方法的流程示意图。
图2是本发明同行规律挖掘算法流程图。
图3是本发明通联频次统计算法流程图。
图4是本发明通联时长统计算法流程图。
具体实施方式
参阅图1。根据本发明,同行关系人发现模块利用航班和火车出行数据,采用同行规律挖掘算法挖掘与目标人物姓名一起出现的同行关系人姓名,根据识别、分析和筛选特征数据,构建与目标人物一起出行的同行关系人特征数据列表;通联关系人发现模块利用话单数据,进行话单关系分析、话单时序分析,采用通联规律统计算法布局时间序列,计算目标人物所有通话记录的通联频次和通联时长,利用通联频次降序排列构建通联关系人特征数据列表1,利用通联时长降序排列构建通联关系人特征数据列表2;重点关系人发现模块根据规则管理模块生成的重点关系人发现规则,对出行数据和话单数据进行双重判定,将处理过程进行融合,从同行关系人特征数据列表与通联关系人特征数据列表抽取特征数据,构建重点关系人特征数据列表;关系人类型判定模块进一步利用话单数据,分析目标人物的停留时空规律,进行目标人物居住地和工作地的判定,分析重点关系人特征数据列表人员的停留时空规律,根据规则管理模块生成的关系人类型判定规则,判定重点关系人的类型,将处理过程进行融合,得到带有关系人类型的重点关系人特征数据列表。
优选的,所述重点关系人发现规则由规则管理模块生成,包括,
规则1:重点关系人发现模块将同时存在于同行关系人特征数据列表和通联关系人特征数据列表的关系人,加入重点关系人特征数据列表中;
规则2:重点关系人发现模块将只存在于同行关系人特征数据列表,同行次数排序前10的关系人,加入重点关系人特征数据列表中;
规则3:重点关系人发现模块将存在于通联关系人特征数据列表1,通联频次排序前10的关系人,加入重点关系人特征数据列表中;
规则4:重点关系人发现模块将存在于通联关系人特征数据列表2,通联时长排序前10的关系人,加入重点关系人特征数据列表中;
规则5:重点关系人发现模块将只存在于通联关系人特征数据列表,通联频次或通联时长排序前10,但是目标人物与此关系人存在如下通联规律的关系人从重点关系人特征数据列表移除:通话时间点规律经常在中午11:00~13:00期间,通话位置在同一基站位置内,且通话前后目标人物位置相对固定,但关系人位置在不停变化。此关系人疑似外卖送餐员。
优选的,重点关系人发现模块需将经过重点关系人发现规则得到的重点关系人特征数据列表根据证件号码进行去重处理。
优选的,所述通话时间点规律,具体为:
重点关系人发现模块将00:00~24:00区间分成若干个时间段,将用户号码每次通话的事件发生日期时间映射到每个时间段、统计每个时间段的通话次数,得出通话时间点规律。
优选的,所述停留时空规律,具体为:
关系人类型判定模块根据话单数据的基站位置信息,统计话单对象某段时间内在某个基站位置满足停留规则的停留次数和停留时长,得到其停留时空规律。
优选的,所述停留规则由规则管理模块生成,具体为:
规则1:话单对象在同一个基站下停留时间≥停留时长阈值TLSCYZ;
规则2:话单对象在相邻基站之间来回切换持续时间≥停留时长阈值TLSCYZ。
停留时长阈值TLSCYZ可以根据实际需求进行设置,作为本发明的一个实施例,此处停留时长阈值TLSCYZ设置为30分钟。
优选的,所述停留次数和停留时长的获得方法,具体为:
关系人类型判定模块按照时间顺序遍历话单数据,针对某个基站,获得进入该基站的时间和离开该基站的时间,离开时间减去进入时间即为话单对象在该基站位置的停留时长,每得到一个满足停留规则的停留时长,总停留时长累加,停留次数加1,最终得到总的停留次数和停留时长。
优选的,所述关系人类型判定模块进一步利用话单数据,分析目标人物的停留时空规律,进行目标人物居住地和工作地的判定,具体为:
关系人类型判定模块利用话单数据的基站位置信息统计得到目标人物在居住地时间段JZDSJD内的停留时空规律,取出目标人物停留次数最多和停留时长最长的地点,判定为目标人物的居住地;
关系人类型判定模块利用话单数据的基站位置信息统计得到目标人物在工作地时间段GZDSJD内的停留时空规律,取出目标人物停留次数最多和停留时长最长的地点,判定为目标人物的工作地。
居住地时间段JZDSJD,工作地时间段GZDSJD,可以根据实际需求进行设置,作为本发明的一个实施例,居住地时间段JZDSJD设置为0:00-6:00,工作地时间段GZDSJD设置为9:00-18:00。
优选的,所述根据关系人类型判定规则判定重点关系人的类型,具体为:
关系人类型判定模块利用话单数据的基站位置信息统计得到重点关系人在居住地时间段JZDSJD内的停留时空规律,如果关系人经常停留在目标人物的居住地,则判定此关系人为目标人物的家庭关系人;
关系人类型判定模块利用话单数据的基站位置信息统计得到重点关系人在工作地时间段GZDSJD内的停留时空规律,如果关系人经常停留在目标人物的工作地,则判定此关系人为目标人物的工作关系人。
在以下描述的实施例中,基于出行和话单数据分析的重点关系人发现方法流程,按以下步骤:
步骤S1,同行关系人发现模块利用航班和火车出行数据,采用同行规律挖掘算法得到与目标人物一起出行的同行关系人特征数据列表;
步骤S2,通联关系人发现模块利用话单数据,采用通联规律统计算法得到与目标人物有通话的通联关系人特征数据列表;
步骤S3,规则管理模块生成重点关系人发现规则、停留规则、关系人类型判定规则,各个规则可以进行增删改查操作;
步骤S4,重点关系人发现模块根据规则管理模块生成的重点关系人发现规则从同行关系人特征数据列表与通联关系人特征数据列表得到重点关系人特征数据列表;
步骤S5,关系人类型判定模块进一步利用话单数据,首先分析目标人物的停留时空规律,进行目标人物居住地和工作地的判定,然后分析重点关系人特征数据列表人员的停留时空规律,根据规则管理模块生成的关系人类型判定规则判定重点关系人的类型,得到带有关系人类型的重点关系人特征数据列表。
在步骤S1中,同行关系人发现模块采用同行规律挖掘算法得到与目标人物一起出行的同行关系人特征数据列表,同行关系人特征数据列表格式如表1所示,
表1同行关系人特征数据列表格式
所述同行规律挖掘算法,具体为:
相关概念如下:k-项集:如果事件A中包含k个元素,那么称这个事件A为k项集。
频繁项目集:事件A满足最小支持度阈值的事件;
支持度:指事件A和事件B同时发生的概率。
参阅图2。同行规律挖掘算法的实现流程如下。
同行规律挖掘算法模块读取出行数据,对出行数据中的旅客姓名进行排序,排序后,扫描整个排序数据集,首先生成一个只包含一个项目的候选项集,计算在数据集中的支持度,并据此生成初始的单项目的频繁1-项集F1,接下来搜索整个数据集,得到频繁k-项集Fk:CRM同行规律挖掘算法模块将第(k-1)轮搜索生成的频繁(k-1)-项集Fk-1作为种子集合,合并两个频繁(k-1)-项集Fk-1,得到k-候选项集c;判断k-候选项集c的前k-2个项目是否相同,否则转入计算出候选项集集合Ck中每个候选项集的支持度,是则将合并后的频繁k-1项集Fk-1加入候选项集集合Ck中,再判断k-候选项集c的所有(k-1)-子集是否都属于频繁(k-1)-项集Fk-1,否则将c从候选集Ck中删除,是则计算Ck中每个候选项集c的支持度,本轮搜索的最后,将满足最小支持度的候选项集c加入频繁k-项集Fk,使k=k+1,然后判断Fk-1是否为空或是否k>2,否则返回合并两个频繁(k-1)-项集Fk-1,获取k-候选项集c,是则迭代结束,返回生成的所有频繁项目集合,结束。
同时,在整个计算过程中,并不需要将整个数据集加载入内存,只需要在内存中保留一条事务记录,这一特点使得同行规律挖掘算法模块可以用于处理非常巨大的数据集。算法仅需对数据集扫描K次,K是最大项集的大小,在本实施例中,K=2。
针对时间效率这一挑战,为了确保频繁项目集生成的高效性,本挖掘算法模块算法首先对航班和火车出行数据中的旅客姓名进行排序,同时,本算法采用逐级搜索,所以很方便就能够在某一轮搜索完成后就停止。这一点在实际应用中很重要,因为很多情况下过长的频繁项目集或规则并无实际应用,无需将它们找出。
参阅图3。在步骤S2中,采用通联规律统计算法得到与目标人物有通话的通联关系人特征数据列表;在通联频次统计中,通联频次统计模块读取话单数据,查询话单数据得到目标人物的全部通话记录,遍历全部通话记录,统计所有对端号码的通联频次,通联频次降序排列,得到如表2所示格式的通联关系人特征数据列表1。
表2通联关系人特征数据列表1格式
参阅图4。在步骤S2中,采用通联规律统计算法得到与目标人物有通话的通联关系人特征数据列表;在通联时长统计中,通联时长统计模块读取话单数据,查询话单数据得到目标人物的全部通话记录,遍历全部通话记录,统计所有对端号码的通联时长,通联时长降序排列,得到如表3所示格式的通联关系人特征数据列表2。
表3通联关系人特征数据列表2格式
在步骤S4中,所述重点关系人发现规则如表4所示,包括,
规则1:重点关系人发现模块将同时存在于同行关系人特征数据列表和通联关系人特征数据列表的关系人,加入重点关系人特征数据列表中;
规则2:重点关系人发现模块将只存在于同行关系人特征数据列表,同行次数排序前10的关系人,加入重点关系人特征数据列表中;
规则3:重点关系人发现模块将存在于通联关系人特征数据列表1,通联频次排序前10的关系人,加入重点关系人特征数据列表中;
规则4:重点关系人发现模块将存在于通联关系人特征数据列表2,通联时长排序前10的关系人,加入重点关系人特征数据列表中;
规则5:重点关系人发现模块将只存在于通联关系人特征数据列表,通联频次或通联时长排序前10,但是目标人物与此关系人存在如下通联规律的关系人从重点关系人特征数据列表移除:通话时间点规律经常在中午11:00~13:00期间,通话位置在同一基站位置内,且通话前后目标人物位置相对固定,但关系人位置在不停变化。此关系人疑似外卖送餐员。
进一步的,将经过重点关系人发现规则得到的重点关系人特征数据列表根据证件号码进行去重处理。
所述通话时间点规律,具体为:
重点关系人发现模块将00:00~24:00区间分成若干个时间段,将用户号码每次通话的事件发生日期时间映射到每个时间段、统计每个时间段的通话次数,得出通话时间点规律。
表4重点关系人发现规则表
在步骤S5中,所述停留时空规律,具体为:
关系人类型判定模块根据话单数据的基站位置信息,统计话单对象某段时间内在某个基站位置满足停留规则的停留次数和停留时长,得到其停留时空规律。
所述停留规则,具体为:
规则1:话单对象在同一个基站下停留时间≥停留时长阈值TLSCYZ;
规则2:话单对象在相邻基站之间来回切换持续时间≥停留时长阈值TLSCYZ。
停留时长阈值TLSCYZ可以根据实际需求进行设置,作为本发明的一个实施例,此处停留时长阈值TLSCYZ设置为30分钟。
所述停留次数和停留时长的获得方法,具体为:
关系人类型判定模块按照时间顺序遍历话单数据,针对某个基站,获得进入该基站的时间和离开该基站的时间,离开时间减去进入时间即为话单对象在该基站位置的停留时长,每得到一个满足停留规则的停留时长,总停留时长累加,停留次数加1,最终得到总的停留次数和停留时长。
在步骤S5中,所述进行目标人物居住地和工作地判定,具体为:
关系人类型判定模块利用话单数据的基站位置信息统计得到目标人物在居住地时间段JZDSJD内的停留时空规律,取出目标人物停留次数最多和停留时长最长的地点,判定为目标人物的居住地;
关系人类型判定模块利用话单数据的基站位置信息统计得到目标人物在工作地时间段GZDSJD内的停留时空规律,取出目标人物停留次数最多和停留时长最长的地点,判定为目标人物的工作地。
居住地时间段JZDSJD,工作地时间段GZDSJD,可以根据实际需求进行设置,作为本发明的一个实施例,居住地时间段JZDSJD设置为0:00-6:00,工作地时间段GZDSJD设置为9:00-18:00。
在步骤S5中,所述关系人类型判定规则由规则管理模块生成,关系人类型判定规则如表5所示。
表5关系人类型判定规则表
在步骤S5中,所述根据关系人类型判定规则判定重点关系人的类型,具体为:
关系人类型判定模块利用话单数据的基站位置信息统计得到重点关系人在居住地时间段JZDSJD内的停留时空规律,如果关系人经常停留在目标人物的居住地,则判定此关系人为目标人物的家庭关系人;
关系人类型判定模块利用话单数据的基站位置信息统计得到重点关系人在工作地时间段GZDSJD内的停留时空规律,如果关系人经常停留在目标人物的工作地,则判定此关系人为目标人物的工作关系人。
在步骤S5中,所述带有关系人类型的重点关系人特征数据列表格式如表6所示。
表6重点关系人特征数据列表格式
目标人物姓名 目标人物证件号码 重点关系人姓名 重点关系人证件号码 关系人类型
…… …… …… …… ……
作为本发明的一个实施例,针对出行数据和话单数据,采用上述方法搭建了一个重点关系人发现演示系统。演示系统还具有关系网络展示功能。
把出行数据和话单数据提交给演示系统进行重点关系人发现。系统最终给出重点关系人特征数据列表,并以关系网络图的形式展示目标人物的关系网络。经过对比分析,系统给出的结果相比采用单一数据源进行重点关系人发现得到的结果更加准确,完备。
本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。

Claims (10)

1.一种基于出行和话单数据分析的重点关系人发现方法,其特征在于包括以下步骤:同行关系人发现模块利用航班和火车出行数据,采用同行规律挖掘算法挖掘与目标人物姓名一起出现的同行关系人姓名,根据识别、分析和筛选特征数据,构建与目标人物一起出行的同行关系人特征数据列表;通联关系人发现模块利用话单数据,进行话单关系分析、话单时序分析,采用通联规律统计算法布局时间序列,计算目标人物所有通话记录的通联频次和通联时长,利用通联频次降序排列构建通联关系人特征数据列表1,利用通联时长降序排列构建通联关系人特征数据列表2;重点关系人发现模块根据规则管理模块生成的重点关系人发现规则,对出行数据和话单数据进行双重判定,将处理过程进行融合,从同行关系人特征数据列表与通联关系人特征数据列表抽取特征数据,构建重点关系人特征数据列表;关系人类型判定模块进一步利用话单数据,分析目标人物的停留时空规律,进行目标人物居住地和工作地的判定,分析重点关系人特征数据列表人员的停留时空规律,根据规则管理模块生成的关系人类型判定规则,判定重点关系人的类型,得到带有关系人类型的重点关系人特征数据列表。
2.如权利要求1所述的基于出行和话单数据分析的重点关系人发现方法,其特征在于:所述重点关系人发现规则由规则管理模块生成。
3.如权利要求1所述的基于出行和话单数据分析的重点关系人发现方法,其特征在于:重点关系人发现模块将同时存在于同行关系人特征数据列表,通联关系人特征数据列表的关系人;只存在于同行关系人特征数据列表,同行次数排序前10的关系人;存在于通联关系人特征数据列表1,通联频次排序前10的关系人;存在于通联关系人特征数据列表2,通联时长排序前10的关系人加入重点关系人特征数据列表中。
4.如权利要求1所述的基于出行和话单数据分析的重点关系人发现方法,其特征在于:重点关系人发现模块将00:00~24:00区间分成若干个时间段,将用户号码每次通话的事件发生日期时间映射到每个时间段、统计每个时间段的通话次数,得出通话时间点规律。
5.如权利要求1所述的基于出行和话单数据分析的重点关系人发现方法,其特征在于:关系人类型判定模块根据话单数据的基站位置信息,统计话单对象某段时间内在某个基站位置满足停留规则的停留次数和停留时长,得到其停留时空规律。
6.如权利要求1所述的基于出行和话单数据分析的重点关系人发现方法,其特征在于:所述停留规则由规则管理模块生成,并且,话单对象在同一个基站下停留时间≥停留时长阈值TLSCYZ;话单对象在相邻基站之间来回切换持续时间≥停留时长阈值TLSCYZ。
7.如权利要求1所述的基于出行和话单数据分析的重点关系人发现方法,其特征在于:关系人类型判定模块按照时间顺序遍历话单数据,针对某个基站,获得进入该基站的时间和离开该基站的时间,离开时间减去进入时间即为话单对象在该基站位置的停留时长,每得到一个满足停留规则的停留时长,总停留时长累加,停留次数加1,最终得到总的停留次数和停留时长。
8.如权利要求1所述的基于出行和话单数据分析的重点关系人发现方法,其特征在于:关系人类型判定模块利用话单数据的基站位置信息统计得到目标人物在居住地时间段JZDSJD内的停留时空规律,取出目标人物停留次数最多和停留时长最长的地点,判定为目标人物的居住地;利用话单数据的基站位置信息统计得到目标人物在工作地时间段GZDSJD内的停留时空规律,取出目标人物停留次数最多和停留时长最长的地点,判定为目标人物的工作地。
9.如权利要求1所述的基于出行和话单数据分析的重点关系人发现方法,其特征在于:同行关系人发现模块利用航班和火车出行数据,采用同行规律挖掘算法得到与目标人物一起出行的同行关系人特征数据列表;通联关系人发现模块利用话单数据,采用通联规律统计算法得到与目标人物有通话的通联关系人特征数据列表;规则管理模块生成重点关系人发现规则、停留规则、关系人类型判定规则,各个规则可以进行增删改查操作;重点关系人发现模块根据规则管理模块生成的重点关系人发现规则从同行关系人特征数据列表与通联关系人特征数据列表得到重点关系人特征数据列表;关系人类型判定模块进一步利用话单数据,首先分析目标人物的停留时空规律,进行目标人物居住地和工作地的判定,然后分析重点关系人特征数据列表人员的停留时空规律,根据规则管理模块生成的关系人类型判定规则判定重点关系人的类型,得到带有关系人类型的重点关系人特征数据列表。
10.如权利要求1所述的基于出行和话单数据分析的重点关系人发现方法,其特征在于:同行规律挖掘算法模块读取出行数据,对出行数据中的旅客姓名进行排序,排序后,扫描整个排序数据集,首先生成一个只包含一个项目的候选项集,计算在数据集中的支持度,并据此生成初始的单项目的频繁1-项集F1,接下来搜索整个数据集,得到频繁k-项集Fk:将第(k-1)轮搜索生成的频繁(k-1)-项集Fk-1作为种子集合,合并两个频繁(k-1)-项集Fk-1,得到k-候选项集c;判断k-候选项集c的前k-2个项目是否相同,否则转入计算出候选项集集合Ck中每个候选项集c的支持度,是则将合并后的频繁k-1项集Fk-1加入候选项集集合Ck中,再判断k-候选项集c的所有(k-1)-子集是否都属于频繁(k-1)-项集Fk-1,否则将c从候选集Ck中删除,是则计算Ck中每个候选项集c的支持度,完成本轮搜索后,将满足最小支持度的候选项集c加入频繁k-项集Fk,使k=k+1,然后判断Fk-1是否为空或是否k>2,否则返回合并两个频繁(k-1)-项集Fk-1,获取k-候选项集c,是则迭代结束,返回生成的所有频繁项目集合,结束。
CN201811419419.5A 2018-11-26 2018-11-26 基于出行和话单数据分析的重点关系人发现方法 Active CN109684373B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811419419.5A CN109684373B (zh) 2018-11-26 2018-11-26 基于出行和话单数据分析的重点关系人发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811419419.5A CN109684373B (zh) 2018-11-26 2018-11-26 基于出行和话单数据分析的重点关系人发现方法

Publications (2)

Publication Number Publication Date
CN109684373A true CN109684373A (zh) 2019-04-26
CN109684373B CN109684373B (zh) 2023-07-18

Family

ID=66185866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811419419.5A Active CN109684373B (zh) 2018-11-26 2018-11-26 基于出行和话单数据分析的重点关系人发现方法

Country Status (1)

Country Link
CN (1) CN109684373B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110753307A (zh) * 2019-10-24 2020-02-04 南京瑞栖智能交通技术产业研究院有限公司 一种基于居民调查数据获取带有标签的手机信令轨迹数据方法
CN110851493A (zh) * 2019-10-22 2020-02-28 厦门市美亚柏科信息股份有限公司 一种用于话单分析通联特征的方法和系统
CN110888888A (zh) * 2019-12-11 2020-03-17 北京明略软件系统有限公司 人员关系分析方法、装置、电子设备及存储介质
CN110909009A (zh) * 2019-11-20 2020-03-24 厦门市美亚柏科信息股份有限公司 基于话单的轨迹伴随行为分析方法、终端设备及存储介质
CN111241160A (zh) * 2020-01-15 2020-06-05 北京明略软件系统有限公司 一种人员隐性关系确定方法及装置
CN111611309A (zh) * 2020-03-30 2020-09-01 西南电子技术研究所(中国电子科技集团公司第十研究所) 话单数据关系网络交互式可视化方法
CN113780407A (zh) * 2021-09-09 2021-12-10 恒安嘉新(北京)科技股份公司 一种数据检测方法、装置、电子设备及存储介质
WO2023197725A1 (zh) * 2022-04-14 2023-10-19 厦门市美亚柏科信息股份有限公司 一种同类型标签数据预测方法、终端设备及存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030097367A1 (en) * 2001-10-12 2003-05-22 International Business Machines Corporation Systems and methods for pairwise analysis of event data
US20030132854A1 (en) * 2002-01-11 2003-07-17 Swan Richard J. Item tracking system architectures providing real-time visibility to supply chain
US20030132853A1 (en) * 2002-01-11 2003-07-17 Ebert Peter S. Exchange of article-based information between multiple enterprises
US7480640B1 (en) * 2003-12-16 2009-01-20 Quantum Leap Research, Inc. Automated method and system for generating models from data
CN101682681A (zh) * 2007-06-15 2010-03-24 索尼爱立信移动通讯有限公司 数字摄像机和将图像数据与人员相关元数据一起存储的方法
CN102281498A (zh) * 2011-07-28 2011-12-14 北京大学 手机通话数据中用户通勤od的挖掘方法
CN105022830A (zh) * 2015-08-05 2015-11-04 焦点科技股份有限公司 一种基于用户行为的加权轨迹数据集构建方法
CN105245679A (zh) * 2015-10-31 2016-01-13 惠州华阳通用电子有限公司 一种联系人排序方法及装置
CN105513351A (zh) * 2015-12-17 2016-04-20 北京亚信蓝涛科技有限公司 一种基于大数据的交通出行特征数据提取方法
CN106445948A (zh) * 2015-08-06 2017-02-22 中兴通讯股份有限公司 一种人员潜在关系分析方法和装置
CN106503015A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的方法
CN107302556A (zh) * 2016-04-15 2017-10-27 阿里巴巴集团控股有限公司 对象交互方法及装置
CN107451945A (zh) * 2017-08-09 2017-12-08 郑州市公安局 一种基于多业务自动关联的公安指挥方法
CN108280458A (zh) * 2017-01-05 2018-07-13 腾讯科技(深圳)有限公司 群体关系类型识别方法及装置
CN108881182A (zh) * 2018-05-30 2018-11-23 上海携程商务有限公司 基于ios的移动终端的网络电话实现方法及系统

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030097367A1 (en) * 2001-10-12 2003-05-22 International Business Machines Corporation Systems and methods for pairwise analysis of event data
US20030132854A1 (en) * 2002-01-11 2003-07-17 Swan Richard J. Item tracking system architectures providing real-time visibility to supply chain
US20030132853A1 (en) * 2002-01-11 2003-07-17 Ebert Peter S. Exchange of article-based information between multiple enterprises
US7480640B1 (en) * 2003-12-16 2009-01-20 Quantum Leap Research, Inc. Automated method and system for generating models from data
CN101682681A (zh) * 2007-06-15 2010-03-24 索尼爱立信移动通讯有限公司 数字摄像机和将图像数据与人员相关元数据一起存储的方法
CN102281498A (zh) * 2011-07-28 2011-12-14 北京大学 手机通话数据中用户通勤od的挖掘方法
CN105022830A (zh) * 2015-08-05 2015-11-04 焦点科技股份有限公司 一种基于用户行为的加权轨迹数据集构建方法
CN106445948A (zh) * 2015-08-06 2017-02-22 中兴通讯股份有限公司 一种人员潜在关系分析方法和装置
CN106503015A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的方法
CN105245679A (zh) * 2015-10-31 2016-01-13 惠州华阳通用电子有限公司 一种联系人排序方法及装置
CN105513351A (zh) * 2015-12-17 2016-04-20 北京亚信蓝涛科技有限公司 一种基于大数据的交通出行特征数据提取方法
CN107302556A (zh) * 2016-04-15 2017-10-27 阿里巴巴集团控股有限公司 对象交互方法及装置
CN108280458A (zh) * 2017-01-05 2018-07-13 腾讯科技(深圳)有限公司 群体关系类型识别方法及装置
CN107451945A (zh) * 2017-08-09 2017-12-08 郑州市公安局 一种基于多业务自动关联的公安指挥方法
CN108881182A (zh) * 2018-05-30 2018-11-23 上海携程商务有限公司 基于ios的移动终端的网络电话实现方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHAONING SHI 等: ""A product features mining method based on association rules and the degree of property co-occurrence"", 《2011 INTERNATIONAL CONFERENCE ON COMPUTER SCIENCE AND NETWORK TECHNOLOGY》 *
孟小峰 等: ""大数据融合研究:问题与挑战"", 《计算机研究与发展》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851493A (zh) * 2019-10-22 2020-02-28 厦门市美亚柏科信息股份有限公司 一种用于话单分析通联特征的方法和系统
CN110851493B (zh) * 2019-10-22 2022-04-29 厦门市美亚柏科信息股份有限公司 一种用于话单分析通联特征的方法和系统
CN110753307A (zh) * 2019-10-24 2020-02-04 南京瑞栖智能交通技术产业研究院有限公司 一种基于居民调查数据获取带有标签的手机信令轨迹数据方法
CN110909009A (zh) * 2019-11-20 2020-03-24 厦门市美亚柏科信息股份有限公司 基于话单的轨迹伴随行为分析方法、终端设备及存储介质
CN110909009B (zh) * 2019-11-20 2022-07-15 厦门市美亚柏科信息股份有限公司 基于话单的轨迹伴随行为分析方法、终端设备及存储介质
CN110888888A (zh) * 2019-12-11 2020-03-17 北京明略软件系统有限公司 人员关系分析方法、装置、电子设备及存储介质
CN111241160A (zh) * 2020-01-15 2020-06-05 北京明略软件系统有限公司 一种人员隐性关系确定方法及装置
CN111611309A (zh) * 2020-03-30 2020-09-01 西南电子技术研究所(中国电子科技集团公司第十研究所) 话单数据关系网络交互式可视化方法
CN111611309B (zh) * 2020-03-30 2023-11-07 西南电子技术研究所(中国电子科技集团公司第十研究所) 话单数据关系网络交互式可视化方法
CN113780407A (zh) * 2021-09-09 2021-12-10 恒安嘉新(北京)科技股份公司 一种数据检测方法、装置、电子设备及存储介质
CN113780407B (zh) * 2021-09-09 2024-06-11 恒安嘉新(北京)科技股份公司 一种数据检测方法、装置、电子设备及存储介质
WO2023197725A1 (zh) * 2022-04-14 2023-10-19 厦门市美亚柏科信息股份有限公司 一种同类型标签数据预测方法、终端设备及存储介质

Also Published As

Publication number Publication date
CN109684373B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
CN109684373A (zh) 基于出行和话单数据分析的重点关系人发现方法
Bachir et al. Inferring dynamic origin-destination flows by transport mode using mobile phone data
CN110245981B (zh) 一种基于手机信令数据的人群类型识别方法
CN105142106B (zh) 基于手机信令数据的出行者职住地识别与出行链刻画方法
CN105206048B (zh) 一种基于交通od数据的城市居民群体换乘模式发现系统及方法
CN104484993B (zh) 用于交通小区划分的手机信令信息的处理方法
CN107133318B (zh) 一种基于手机信令数据的人口识别方法
CN109561391B (zh) 基于蜂窝网和Wi-Fi数据的高速公路服务区人流量分析方法
Bolbol et al. Inferring hybrid transportation modes from sparse GPS data using a moving window SVM classification
CN106600960A (zh) 基于时空聚类分析算法的交通出行起讫点识别方法
Fekih et al. A data-driven approach for origin–destination matrix construction from cellular network signalling data: a case study of Lyon region (France)
CN106778876A (zh) 基于移动用户轨迹相似性的用户分类方法和系统
CN109190685A (zh) 融合空间聚类和基站序列规则的轨道出行特征提取方法
CN107529135A (zh) 基于智能设备数据的用户活动类型判别方法
CN103888961B (zh) 一种用户监控方法及装置
CN112000755B (zh) 一种基于手机信令数据的区域出行廊道识别方法
Fekih et al. Potential of cellular signaling data for time-of-day estimation and spatial classification of travel demand: a large-scale comparative study with travel survey and land use data
Guo et al. Exploring potential travel demand of customized bus using smartcard data
Jiao et al. Understanding the land use function of station areas based on spatiotemporal similarity in rail transit ridership: A case study in Shanghai, China
CN108733818B (zh) 一种基于多场景多数据源校验的大数据扩样方法
Hong et al. Conserved quantities in human mobility: From locations to trips
CN112699955A (zh) 一种用户分类方法、装置、设备及存储介质
Lwin et al. Identification of various transport modes and rail transit behaviors from mobile CDR data: A case of Yangon City
CN115510056A (zh) 一种利用手机信令数据进行宏观经济分析的数据处理系统
Pokusaev et al. Anomalies in transport data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant