CN111400376A - 基于电信数据建设人口分析平台的方法和装置 - Google Patents

基于电信数据建设人口分析平台的方法和装置 Download PDF

Info

Publication number
CN111400376A
CN111400376A CN202010213225.0A CN202010213225A CN111400376A CN 111400376 A CN111400376 A CN 111400376A CN 202010213225 A CN202010213225 A CN 202010213225A CN 111400376 A CN111400376 A CN 111400376A
Authority
CN
China
Prior art keywords
data
population
user
analysis
telecommunication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010213225.0A
Other languages
English (en)
Other versions
CN111400376B (zh
Inventor
王洪岭
杨志伟
肖丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Taier Zhixin Technology Co ltd
Original Assignee
Guangzhou Taier Zhixin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Taier Zhixin Technology Co ltd filed Critical Guangzhou Taier Zhixin Technology Co ltd
Priority to CN202010213225.0A priority Critical patent/CN111400376B/zh
Publication of CN111400376A publication Critical patent/CN111400376A/zh
Application granted granted Critical
Publication of CN111400376B publication Critical patent/CN111400376B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Educational Administration (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例涉及一种基于电信数据建设人口分析平台的方法和装置,包括步骤:从运营商获取用户日志数据;采用数据分析组件对用户日志数据进行预处理,建立用户数据;根据业务需求对用户数据进行筛选分析处理,得到人口可视化分析结果;通过显示终端对人口可视化分析结果显示,该方法和装置能够通过数据采集模块对电信数据的应用,得到的人口可视化分析结果通过显示终端实现人员与数据之间的交互;大数据背景下知晓地区的人口密度、区域人口热力图以及区域人口迁移的信息平台,获取的人口可视化分析结果的准确性高、效率高,也有利于政府部门的人员知晓区域人口情况,并通过对实时获取电信数据的充分利用,得到人口可视化分析结果的实时性强。

Description

基于电信数据建设人口分析平台的方法和装置
技术领域
本发明涉及人口分析技术领域,尤其涉及一种基于电信数据建设人口分析平台的方法和装置。
背景技术
随着城镇化进程的不断加快,人员大量涌入城镇,各地区人口数量发生较大变化,各地区人口数量、人口流动趋势等数据也在不断变化。
传统的人口统计通常通过入户调查、各部门上门调研,录入使用结构化数据,对结构化数据进行统计分析,采访调方式查耗费大量人力和资源,容易遗漏且不便于收据整理和分析,而个地区人口数据数量庞大、较为分散难以完整收集和分析,导致现有人口分析的便捷性、准确性和工作效率不佳。
发明内容
本发明实施例提供了一种基于电信数据建设人口分析平台的方法和装置,用于解决传统的人工分口统计分析通过入户调查、调研获得的,因人口数据数量庞大、较为分散,人口统计难以完整收集和分析,导致现有人口分析的便捷性、准确性和工作效率不佳的技术问题。
为了实现上述目的,本发明实施例提供如下技术方案:
一种基于电信数据建设人口分析平台的方法,包括以下步骤:
从运营商获取用户日志数据;
采用数据分析组件对所述用户日志数据进行预处理,建立用户数据;
根据业务需求对所述用户数据进行筛选分析处理,得到人口可视化分析结果;
通过显示终端对所述人口可视化分析结果显示。
优选地,所述语音通话数据包括用户电话号码、时间戳、通话时长和基站位置坐标;所述流量数据包括用户电话号码、时间戳、上网时长、基站位置坐标、上行流量和下行流量。
优选地,在所述运营商中采用Logstash技术同时对所述用户日志数据的语音通话数据和流量数据进行数据采集,得到采集数据。
优选地,采用大数据的数据分析处理组件Flink对所述采集数据进行清洗,得到所述用户数据;清洗的过程包括删除包含格式不正确字段的数据;所述不正确字段的数据是指字段中出现null、电话号码位数不对和或时间戳的位数不正确的数据。
优选地,筛选分析处理的过程包括对所述用户数据筛选出有效字段,根据人口密度分布、人口密度热力图、人口迁移的业务需求对所述有效字段进行分析划分得到人口可视化分析结果。其中,所述有效字段包含有用户号码、时间戳和基站地理坐标。
优选地,所述显示终端上设置有用于显示人口可视化分析结果的人机互动APP。
优选地,采用Logstash组件从所述运营商获取用户日志数据。
本发明还提供一种基于电信数据建设人口分析平台的装置,包括数据采集模块、预处理模块、分析模块和显示模块;
所述数据采集模块,用于从运营商获取用户日志数据;
所述预处理模块,用于采用数据分析组件对所述用户日志数据进行预处理,建立用户数据;
所述分析模块,用于根据业务需求对所述用户数据进行筛选分析处理,得到人口可视化分析结果;
所述显示模块,用于通过显示终端对所述人口可视化分析结果显示;
其中,所述用户日志数据包括用户的语音通话数据以及流量数据。
优选地,所述数据采集模块还用于采用Logstash同时从所述运营商中对所述用户日志数据的语音通话数据和流量数据同时进行采集,得到采集数据;
所述预处理模块,采用大数据的数据分析处理组件Flink对所述采集数据进行清洗,得到所述用户数据;清洗的过程包括删除包含格式不正确字段的数据;
所述分析模块的筛选分析处理的过程包括对所述用户数据筛选出有效字段,根据人口密度分布、人口密度热力图、人口迁移的业务需求对所述有效字段进行分析划分得到人口可视化分析结果;
其中,所述不正确字段的数据是指字段中出现null、电话号码位数不对和或时间戳的位数不正确的数据;所述有效字段包含有用户号码、时间戳和基站地理坐标。
优选地,所述基于电信数据建设人口分析平台的装置还包括存储模块,所述存储模块用于存储所述人口可视化分析结果中的筛选分析后的用户数据以及所述预处理模块处理后的数据。
从以上技术方案可以看出,本发明实施例具有以下优点:
1.该基于电信数据建设人口分析平台的方法通过从运营商获取用户日志数据;对用户日志数据进行预处理,建立用户数据;根据业务需求对用户数据进行筛选分析处理,得到人口可视化分析结果;通过显示终端对人口可视化分析结果显示,该基于电信数据建设人口分析平台的方法能够通过数据采集模块对电信数据的应用,得到的人口可视化分析结果通过显示终端实现人员与数据之间的交互;大数据背景下知晓地区的人口密度、区域人口热力图以及区域人口迁移的信息平台,获取的人口可视化分析结果的准确性高、效率高,也有利于政府部门的人员知晓区域人口情况,并通过对实时获取电信数据的充分利用,得到人口可视化分析结果的实时性强。解决了传统的人工分口统计分析通过入户调查、调研获得的,因人口数据数量庞大、较为分散,人口统计难以完整收集和分析,导致现有人口分析的便捷性、准确性和工作效率不佳的技术问题;
2.该基于电信数据建设人口分析平台的装置通过数据采集模块、预处理模块、分析模块获得人口可视化分析结果并通过显示模块显示,该基于电信数据建设人口分析平台的装置能够通过对电信数据中的用户日志数据的应用,得到的人口可视化分析结果通过显示终端实现人员与数据之间的交互;大数据背景下知晓地区的人口密度、区域人口热力图以及区域人口迁移的信息平台,获取的人口可视化分析结果的准确性高、效率高,也有利于政府部门的人员知晓区域人口情况,并通过对实时获取电信数据的充分利用,得到人口可视化分析结果的实时性强。解决了传统的人工分口统计分析通过入户调查、调研获得的,因人口数据数量庞大、较为分散,人口统计难以完整收集和分析,导致现有人口分析的便捷性、准确性和工作效率不佳的技术问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例所述的基于电信数据建设人口分析平台的方法的步骤流程图。
图2为本发明实施例所述的基于电信数据建设人口分析平台的装置的框架图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
目前也存在人口数据分析平台,该人口数据分析平台是根据人员往来的机票、火车票等交通数据进行统计分析,其统计结果延迟较大,人口流动情况无法动态显示。
而通信技术的进步为人们的信息交流提供了极大的便利,但通信数据除了为用户提供查询服务以及为运营商提供一定的用户使用情况外并没有得到充分的利用,通信数据的各字段信息并没有被充分挖掘;利用运营商提供的通信数据,可以为相关部门提供人口移动、区域人口的情况,使相关部门可以更方便快捷地实现对特定对象的追踪、管理,从而更好地保护社会的安全稳定。
在信息化的时代,用户日志数据与每个人的生活息息相关,手机的通话、上网均能在运营商服务器上生成相关记录。具体来说,运营商拥有的电信数据文件包括用户通话日志文件和用户上网日志文件等,通话和用户日志文件均包含用户号码、时间戳、基站地理位置等信息。
当前城市或区域的人员流动量大,城市人口密度变化大,人口迁移频繁,政府在人口管控方面存在一定难度等问题。
因此,本申请实施例提供了一种基于电信数据建设人口分析平台的方法和装置,能够依据对运营商中用户的通话记录、上网记录的日志文件信息进行处理分析得到某个地区人口行为活动动态,更好地服务城市发展,用于解决传统的人工分口统计分析通过入户调查、调研获得的,因人口数据数量庞大、较为分散,人口统计难以完整收集和分析,导致现有人口分析的便捷性、准确性和工作效率不佳的技术问题。
实施例一:
图1为本发明实施例所述的基于电信数据建设人口分析平台的方法的步骤流程图。
如图1所示,本发明实施例提供了一种基于电信数据建设人口分析平台的方法,包括以下步骤:
S1.从运营商获取用户日志数据;
S2.采用数据分析组件对用户日志数据进行预处理,建立用户数据;
S3.根据业务需求对用户数据进行筛选分析处理,得到人口可视化分析结果;
S4.通过显示终端对人口可视化分析结果显示;
其中,用户日志数据包括用户的语音通话数据以及流量数据。
在本发明实施例的步骤S1中,语音通话数据包括用户电话号码、时间戳、通话时长和基站位置坐标。流量数据包括用户电话号码、时间戳、上网时长、基站位置坐标、上行流量和下行流量。
需要说明的是,运行商是指而中国联通、中国电信、中国移动、中国广电等。时间戳的单位为年月日时分秒毫秒,比如通话开始的时间、上网开始的时间。通话时长的统计单位为秒。基站位置坐标是指通话发生时所在的地理位置。上网时长,其统计单位为秒;上网时长主要用于记录上网开始的时间。上行流量、下行流量,其统计单位为比特。
在本发明实施例的步骤S2中,先对用户日志数据的语音通话数据和流量数据进行采集,再将对采集数据进行清洗处理,将处理后的数据建立成用户数据。在本实施例中,采集数据会存储在一个分布式数据库中。
需要说明的是,分布式数据库库通常是指使用较小的计算机系统,每台计算机可单独放在一个地方,每台计算机中都可能有DBMS的一份完整拷贝副本,或者部分拷贝副本,并具有自己局部的数据库,位于不同地点的许多计算机通过网络互相连接,共同组成一个完整的、全局的逻辑上集中、物理上分布的大型数据库。在本实施例中,分布式数据库优先选用为Elasticsearch,也可以为HBase的分布式数据库,也可以是其他的分布式数据库。
在本发明实施例的步骤S3中,根据人口密度、区域人口热力图以及区域人口迁移的需求对用户数据进行筛选分类,得到根据人口密度、区域人口热力图以及区域人口迁移这三种的人口可视化分析结果。在本实施例中,分析得到的人口可视化分析结果存储在分布式数据库中。
在本发明的实施例的步骤S4中,根据人口可视化分析结果在显示终端显示,从而通过运营商提供的用户日志数据了解地区人口行为活动动态。
需要说明的是,显示终端可以为手机、电脑、iPad、投影仪等终端设备。
本发明提供的一种基于电信数据建设人口分析平台的方法通过从运营商获取用户日志数据;采用数据分析组件对用户日志数据进行预处理,建立用户数据;根据业务需求对用户数据进行筛选分析处理,得到人口可视化分析结果;通过显示终端对人口可视化分析结果显示,该基于电信数据建设人口分析平台的方法能够通过数据采集模块对电信数据的应用,得到的人口可视化分析结果通过显示终端实现人员与数据之间的交互;大数据背景下知晓地区的人口密度、区域人口热力图以及区域人口迁移的信息平台,获取的人口可视化分析结果的准确性高、效率高,也有利于政府部门的人员知晓区域人口情况,并通过对实时获取电信数据的充分利用,得到人口可视化分析结果的实时性强。解决了传统的人工分口统计分析通过入户调查、调研获得的,因人口数据数量庞大、较为分散,人口统计难以完整收集和分析,导致现有人口分析的便捷性、准确性和工作效率不佳的技术问题。
本发明的一个实施例中,采用Logstash组件从运营商获取用户日志数据。
需要说明的是,Logstash组件可以实现对运营商的不同服务器内获取用户的语音通话数据和流量数据,使得获得的用户用户日志数据齐全,为获取区域人口的准确性提供保证。
本发明的一个实施例的中,在运营商中采用Logstash同时对用户日志数据的语音通话数据和流量数据进行数据采集;采用大数据的数据分析处理组件Flink对采集数据进行清洗,得到用户数据;清洗的过程包括删除包含格式不正确字段的数据;不正确字段的数据是指字段中出现null、电话号码位数不对和或时间戳的位数不正确的数据。
需要说明的是,Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行。采用Flink技术进行采集数据处理,具体为:Flink中具有Flink算子和Distinct算子,Flink算子对Flink进行进一步代码编写,可以实现对无效字段的删除操作;Distinct算子可以实现对重复数据的删除操作。在本实施例中,清洗后的用户数据格式为:用户号+时间戳+位置坐标。原始的电信数据中的用户日志数据包括通话数据、流量数据这两个数据,需要将这两类的数据采集形成一个采集数据,便于人口密度分布、人口密度热力图、人口迁移的业务功能的实现。
本发明的一个实施例的中,筛选分析处理的过程包括对用户数据筛选出有效字段,根据人口密度分布、人口密度热力图、人口迁移的业务需求对有效字段进行分析划分得到人口可视化分析结果。其中,有效字段包含有用户号码、时间戳和基站地理坐标;
需要说明的是,有效字段是指能够实现人口的有用数据,如全字段为:用户手机号+时间戳+地理位置坐标+上行流量+下行流量。其中结合用户手机号、时间戳、地理位置坐标,可以实现用户在某个时间范围内地理位置坐标的迁移,而上行流量、下行流量信息在用户移动功能实现中没有起到作用,故称用户手机号+时间戳+地理位置坐标为有效字段,上行流量+下行流量称为无效字段。在本实施例中,筛选分析的过程主要是为了获取用户日志数据中有效字段,为后续步骤搜索提供便利,也是为了获取用户移动数据准确性提供保证。根据人口密度分布、人口密度热力图、人口迁移的需求,对数据进行进一步筛选,排除用户数据中的无效字段以及无效关联字段,形成符合需求的大数据管理需求、数据结构稳定、准确的整合结果,从而实现对人口密度、区域人口热力图以及区域人口迁移的准确分析。其中,人口密度的实现是指首先筛选出某个时间点的所有数据,按照位置坐标字段进行聚合统计,可能得到该时间用户号的数量,该数量既能够反映出该位置的人口密度,前端页面的渲染方式采用散点图。区域人口热力图的实现是指首先筛选出某个时间点的所有数据,按照位置坐标字段进行聚合统计,可能得到该时间用户号的数量,该数量既能够反映出该位置的人口密度,前端页面渲染效果的方法是采用热力图的渲染方式。区域人口迁移的实现是指首先筛选出某个时间段的所有数据,按照起始点坐标A、终止点坐标B进行筛选并进行聚合,得到从坐标A到坐标B之间的用户号数量,以此类推,可以得到任意两个区域的用户号数量,通过前端页面渲染,实现区域人口迁移图。
在本发明的一个实施例中,显示终端上设置有用于显示人口可视化分析结果的人机互动APP。
需要说明的是,人机交互、人机互动是一门研究系统与用户之间的交互关系的学问;系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分;用户通过人机交互界面与系统交流,并进行操作。如电脑的页面显示,手机的APP等。显示终端的人机互动APP形成面向政府人员的前端交互页面和人机互动APP形成交互软件,实现为政府人员提供服务。
实施例二:
图2为本发明实施例所述的基于电信数据建设人口分析平台的装置的框架图。
如图2所示,本发明实施例还提供了一种基于电信数据建设人口分析平台的装置,包括数据采集模块10、预处理模块20、分析模块30和显示模块40;
数据采集模块10,用于从运营商获取用户日志数据;
预处理模块20,用于采用数据分析组件对用户日志数据进行预处理,建立用户数据;
分析模块30,用于根据业务需求对用户数据进行筛选分析处理,得到人口可视化分析结果;
显示模块40,用于通过显示终端对人口可视化分析结果显示;
其中,用户日志数据包括用户的语音通话数据以及流量数据。
需要说明的是,用户日志数据包括电信用户的语音通话数据以及流量数据。语音通话数据包括用户电话号码、时间戳、通话时长和基站位置坐标。流量数据包括用户电话号码、时间戳、上网时长、基站位置坐标、上行流量和下行流量。对用户日志数据的数据分析组件处理前提是先对用户日志数据的语音通话数据和流量数据进行数据采集,再对采集数据进行清洗处理,将处理后的数据建立成用户数据;根据人口密度、区域人口热力图以及区域人口迁移的需求对用户数据进行筛选分类,得到根据人口密度、区域人口热力图以及区域人口迁移这三种的人口可视化分析结果。在本实施例中,分析得到的人口可视化分析结果存储在分布式数据库中。显示终端可以为手机、电脑、iPad、投影仪等终端设备;显示终端能够根据人口可视化分析结果显示,从而通过运营商提供的用户日志数据了解地区人口行为活动动态。在本实施例中,显示终端上设置有用于显示人口可视化分析结果的人机互动APP。显示终端的人机互动APP形成面向政府人员的前端交互页面和人机互动APP形成交互软件,实现为政府人员提供服务。
在本实施例中,数据采集模块10还用于采用Logstash同时从运营商中对用户日志数据的语音通话数据和流量数据同时进行采集,;
预处理模块20采用大数据的数据分析处理组件Flink对采集数据进行清洗,得到用户数据;清洗的过程包括删除包含格式不正确字段的数据;
分析模块30的筛选分析处理的过程包括对用户数据筛选出有效字段,根据人口密度分布、人口密度热力图、人口迁移的业务需求对有效字段进行分析划分得到人口可视化分析结果;
其中,不正确字段的数据是指字段中出现null、电话号码位数不对和或时间戳的位数不正确的数据;有效字段包含有用户号码、时间戳和基站地理坐标。
需要说明的是,Logstash组件可以实现对运营商的不同服务器内获取用户的语音通话数据和流量数据,使得获得的用户用户日志数据齐全,为获取用户轨迹的准确性提供保证。有效字段是指能够实现人口的有用数据,如全字段为:用户手机号+时间戳+地理位置坐标+上行流量+下行流量。其中结合用户手机号、时间戳、地理位置坐标,可以实现用户在某个时间范围内地理位置坐标的移动,而上行流量、下行流量信息在用户移动功能实现中没有起到作用,故称用户手机号+时间戳+地理位置坐标为有效字段,上行流量+下行流量称为无效字段。在本实施例中,分析模块30主要是为了获取用户用户日志数据中有效字段,为后续步骤搜索提供便利,也是为了获取用户移动数据准确性提供保证。其中,根据人口密度分布、人口密度热力图、人口迁移的需求,对数据进行进一步筛选,排除用户数据中的无效字段以及无效关联字段,形成符合需求的大数据管理需求、数据结构稳定、准确的整合结果,从而实现对人口密度、区域人口热力图以及区域人口迁移的准确分析。人口密度的实现是指首先筛选出某个时间点的所有数据,按照位置坐标字段进行聚合统计,可能得到该时间用户号的数量,该数量既能够反映出该位置的人口密度,前端页面的渲染方式采用散点图。区域人口热力图的实现是指首先筛选出某个时间点的所有数据,按照位置坐标字段进行聚合统计,可能得到该时间用户号的数量,该数量既能够反映出该位置的人口密度,前端页面渲染效果的方法是采用热力图的渲染方式。区域人口迁移的实现是指首先筛选出某个时间段的所有数据,按照起始点坐标A、终止点坐标B进行筛选并进行聚合,得到从坐标A到坐标B之间的用户号数量,以此类推,可以得到任意两个区域的用户号数量,通过前端页面渲染,实现区域人口迁移图。
在本发明的实施例中,基于电信数据建设人口分析平台的装置还包括存储模块50,存储模块50用于存储人口可视化分析结果中的筛选分析后的用户数据以及预处理模块20处理后的数据。
需要说明的是,存储模块50可以为存储器,也可以为分布式数据库。其中分布式数据库优先选用为Elasticsearch,也可以为HBase的分布式数据库。
本发明提供的一种基于电信数据建设人口分析平台的装置通过数据采集模块、预处理模块、分析模块获得人口可视化分析结果并通过显示模块显示,该基于电信数据建设人口分析平台的装置能够通过对电信数据中的用户日志数据的应用,得到的人口可视化分析结果通过显示终端实现人员与数据之间的交互;大数据背景下知晓地区的人口密度、区域人口热力图以及区域人口迁移的信息平台,获取的人口可视化分析结果的准确性高、效率高,也有利于政府部门的人员知晓区域人口情况,并通过对实时获取电信数据的充分利用,得到人口可视化分析结果的实时性强。解决了传统的人工分口统计分析通过入户调查、调研获得的,因人口数据数量庞大、较为分散,人口统计难以完整收集和分析,导致现有人口分析的便捷性、准确性和工作效率不佳的技术问题。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于电信数据建设人口分析平台的方法,其特征在于,包括以下步骤:
从运营商获取用户日志数据;
采用数据分析组件对所述用户日志数据进行预处理,建立用户数据;
根据业务需求对所述用户数据进行筛选分析处理,得到人口可视化分析结果;
通过显示终端对所述人口可视化分析结果显示;
其中,所述用户日志数据包括用户的语音通话数据以及流量数据。
2.根据权利要求1所述的基于电信数据建设人口分析平台的方法,其特征在于,所述语音通话数据包括用户电话号码、时间戳、通话时长和基站位置坐标;所述流量数据包括用户电话号码、时间戳、上网时长、基站位置坐标、上行流量和下行流量。
3.根据权利要求1所述的基于电信数据建设人口分析平台的方法,其特征在于,在所述运营商中采用Logstash同时对所述用户日志数据的语音通话数据和流量数据进行数据采集,得到采集数据。
4.根据权利要求3所述的基于电信数据建设人口分析平台的方法,其特征在于,采用大数据的数据分析处理组件Flink对所述采集数据进行清洗,得到所述用户数据;
清洗的过程包括删除包含格式不正确字段的数据;所述不正确字段的数据是指字段中出现null、电话号码位数不对和或时间戳的位数不正确的数据。
5.根据权利要求1所述的基于电信数据建设人口分析平台的方法,其特征在于,筛选分析处理的过程包括对所述用户数据筛选出有效字段,根据人口密度分布、人口密度热力图、人口迁移的业务需求对所述有效字段进行分析划分得到人口可视化分析结果;
其中,所述有效字段包含有用户号码、时间戳和基站地理坐标。
6.根据权利要求1所述的基于电信数据建设人口分析平台的方法,其特征在于,所述显示终端上设置有用于显示人口可视化分析结果的人机互动APP。
7.根据权利要求1所述的基于电信数据建设人口分析平台的方法,其特征在于,采用Logstash组件从所述运营商获取用户日志数据。
8.一种基于电信数据建设人口分析平台的装置,其特征在于,包括数据采集模块、预处理模块、分析模块和显示模块;
所述数据采集模块,用于从运营商获取用户日志数据;
所述预处理模块,用于采用数据分析组件对所述用户日志数据进行预处理,建立用户数据;
所述分析模块,用于根据业务需求对所述用户数据进行筛选分析处理,得到人口可视化分析结果;
所述显示模块,用于通过显示终端对所述人口可视化分析结果显示;
其中,所述用户日志数据包括用户的语音通话数据以及流量数据。
9.根据权利要求8所述的基于电信数据建设人口分析平台的装置,其特征在于,所述数据采集模块还用于采用Logstash同时从所述运营商中对所述用户日志数据的语音通话数据和流量数据同时进行采集,得到采集数据;
所述预处理模块,采用大数据的数据分析处理组件Flink对所述采集数据进行清洗,得到所述用户数据;清洗的过程包括删除包含格式不正确字段的数据;
所述分析模块的筛选分析处理的过程包括对所述用户数据筛选出有效字段,根据人口密度分布、人口密度热力图、人口迁移的业务需求对所述有效字段进行分析划分得到人口可视化分析结果;
其中,所述不正确字段的数据是指字段中出现null、电话号码位数不对和或时间戳的位数不正确的数据;所述有效字段包含有用户号码、时间戳和基站地理坐标。
10.根据权利要求8所述的基于电信数据建设人口分析平台的装置,其特征在于,其特征在于,所述基于电信数据建设人口分析平台的装置还包括存储模块,所述存储模块用于存储所述人口可视化分析结果中的筛选分析后的用户数据以及所述预处理模块处理后的数据。
CN202010213225.0A 2020-03-24 2020-03-24 基于电信数据建设人口分析平台的方法和装置 Active CN111400376B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010213225.0A CN111400376B (zh) 2020-03-24 2020-03-24 基于电信数据建设人口分析平台的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010213225.0A CN111400376B (zh) 2020-03-24 2020-03-24 基于电信数据建设人口分析平台的方法和装置

Publications (2)

Publication Number Publication Date
CN111400376A true CN111400376A (zh) 2020-07-10
CN111400376B CN111400376B (zh) 2023-08-25

Family

ID=71432921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010213225.0A Active CN111400376B (zh) 2020-03-24 2020-03-24 基于电信数据建设人口分析平台的方法和装置

Country Status (1)

Country Link
CN (1) CN111400376B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112118548A (zh) * 2020-07-29 2020-12-22 福建慧政通信息科技有限公司 一种大数据识别常住人口与流动人口的方法和存储设备
CN112115185A (zh) * 2020-09-29 2020-12-22 广州瀚信通信科技股份有限公司 面向政务执法的人口大数据分析方法、系统、设备及介质
CN113722565A (zh) * 2021-11-02 2021-11-30 北京融信数联科技有限公司 一种基于大数据的人口特征分析方法、系统和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030014213A1 (en) * 2001-07-10 2003-01-16 Fujitsu Limited Method of and apparatus for analyzing population distribution, and computer product
US20130342542A1 (en) * 2012-06-22 2013-12-26 Quintiles Transnational Corp. Method and System To Manipulate Multiple Selections Against a Population of Elements
CN106254142A (zh) * 2016-09-05 2016-12-21 电子科技大学成都研究院 一种基于移动通信运营数据的城市群体行为监测系统
EP3142393A1 (en) * 2015-09-14 2017-03-15 BASE Company Method and system for obtaining demographic information
CN107358265A (zh) * 2017-07-17 2017-11-17 南京华苏科技有限公司 基于谱聚类的外来常住人口识别方法
JP2018156307A (ja) * 2017-03-16 2018-10-04 日本電信電話株式会社 算出装置、算出方法及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030014213A1 (en) * 2001-07-10 2003-01-16 Fujitsu Limited Method of and apparatus for analyzing population distribution, and computer product
US20130342542A1 (en) * 2012-06-22 2013-12-26 Quintiles Transnational Corp. Method and System To Manipulate Multiple Selections Against a Population of Elements
EP3142393A1 (en) * 2015-09-14 2017-03-15 BASE Company Method and system for obtaining demographic information
CN106254142A (zh) * 2016-09-05 2016-12-21 电子科技大学成都研究院 一种基于移动通信运营数据的城市群体行为监测系统
JP2018156307A (ja) * 2017-03-16 2018-10-04 日本電信電話株式会社 算出装置、算出方法及びプログラム
CN107358265A (zh) * 2017-07-17 2017-11-17 南京华苏科技有限公司 基于谱聚类的外来常住人口识别方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112118548A (zh) * 2020-07-29 2020-12-22 福建慧政通信息科技有限公司 一种大数据识别常住人口与流动人口的方法和存储设备
CN112115185A (zh) * 2020-09-29 2020-12-22 广州瀚信通信科技股份有限公司 面向政务执法的人口大数据分析方法、系统、设备及介质
CN113722565A (zh) * 2021-11-02 2021-11-30 北京融信数联科技有限公司 一种基于大数据的人口特征分析方法、系统和存储介质
CN113722565B (zh) * 2021-11-02 2022-03-15 北京融信数联科技有限公司 一种基于大数据的人口特征分析方法、系统和存储介质

Also Published As

Publication number Publication date
CN111400376B (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
Xu et al. Human mobility and socioeconomic status: Analysis of Singapore and Boston
CN111400376B (zh) 基于电信数据建设人口分析平台的方法和装置
Yuan et al. Correlating mobile phone usage and travel behavior–A case study of Harbin, China
CN107818133B (zh) 一种基于大数据的居民区网络能力分析方法及系统
CN107086922B (zh) 一种用户行为识别方法和装置
CN110689385A (zh) 一种基于知识图谱的电力客服用户画像构建方法
CN102075850B (zh) 确定移动用户职业信息的方法及其装置
CN107820214A (zh) 一种基于时间地理学的用户轨迹分析系统
CN110990443A (zh) 一种基于手机信令的职住人口特征估算方法
CN112417274A (zh) 一种消息推送方法、装置、电子设备及存储介质
Martínez-Durive et al. The netmob23 dataset: A high-resolution multi-region service-level mobile data traffic cartography
CN111125284A (zh) 一种一体化时空大数据与地理信息公共服务云平台
TWI757638B (zh) 使用者位置確定方法、裝置、設備及電腦可讀儲存媒體
Jiang et al. A collective human mobility analysis method based on data usage detail records
CN103729417A (zh) 一种数据扫描的方法及装置
Woods et al. Exploring methods for mapping seasonal population changes using mobile phone data
CN109982250A (zh) 一种位置数据采集方法、设备及计算机存储介质
CN109768878A (zh) 一种基于大数据的网络工单计算方法及装置
CN114297516A (zh) 一种基于知识图谱的事件发现与展现方法及系统
CN114780612B (zh) 一种基于主题事件的时间关联挖掘目标人员的系统及方法
CN115422448A (zh) 一种消息推送方法、装置、电子设备及存储介质
CN107480307A (zh) 移动终端通话区域分布密度分析系统
Pu et al. MViewer: Mobile phone spatiotemporal data viewer
CN110148011B (zh) 基于大数据的活跃量下降分析方法、装置、设备及介质
Ghahramani et al. Analysis of mobile phone data under a cloud computing framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant