CN109831774B - 一种大数据扩样方法及装置 - Google Patents

一种大数据扩样方法及装置 Download PDF

Info

Publication number
CN109831774B
CN109831774B CN201910016462.5A CN201910016462A CN109831774B CN 109831774 B CN109831774 B CN 109831774B CN 201910016462 A CN201910016462 A CN 201910016462A CN 109831774 B CN109831774 B CN 109831774B
Authority
CN
China
Prior art keywords
target
operator
terminal
operating system
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910016462.5A
Other languages
English (en)
Other versions
CN109831774A (zh
Inventor
韩玉辉
程新洲
成晨
高洁
张恒
张涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201910016462.5A priority Critical patent/CN109831774B/zh
Publication of CN109831774A publication Critical patent/CN109831774A/zh
Application granted granted Critical
Publication of CN109831774B publication Critical patent/CN109831774B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明的实施例公开一种大数据扩样方法及装置,涉及网络技术领域,能够通过大数据的形式获取各消费层级的扩样系数,从而及时反映各消费层级的终端数量变化。该方法包括:根据获取的终端的操作系统以及终端的消费能力画像统计目标运营商的目标场景的目标操作系统的各消费层级的终端数量比例;并根据目标场景的目标操作系统的运营商扩样系数p以及目标操作系统的各消费层级的终端数量比例计算目标运营商的目标场景的目标操作系统的目标消费层级扩样系数q。本发明实施例应用于网络系统。

Description

一种大数据扩样方法及装置
技术领域
本发明的实施例涉及网络技术领域,尤其涉及一种大数据扩样方法及装置。
背景技术
近几年,大数据技术蓬勃发展,基于运营商的手机信令进行各类群体人口密度的监测成为城市规划、交通规划、商业规划等领域进行人口观测的新手段。然而运营商的手机用户仅占到实际人口的一定比例,如何进行合理扩样,将人口密度统计扩展到特定群体的全量用户,成为亟待解决的问题。传统的人口扩样手段包括入户调查数据和户外调查数据,入户调查数据主要包括家庭信息、个人信息和个人出行信息,户外调查数据包括道路流量和载客率调查数据、公交客流调查数据和轨道客流调查数据。结合调查数据,以及调查人数的比例,进行扩样得到全量人口数量及密度。现有的数据扩样技术通常还是以问卷调查、入户统计等手段获取扩样系数,而这样的扩样系数过于笼统且不能及时反应目标区域各层级消费能力用户的数量变化。
发明内容
本发明的实施例提供一种大数据扩样方法及装置,能够通过大数据的形式获取各消费层级的扩样系数,从而及时反映各消费层级的终端数量变化。
为达到上述目的,本发明采用如下技术方案:
第一方面,提供一种大数据扩样方法,该方法包括:获取目标区域的用户数据,其中,用户数据包括终端所处的场景、终端的操作系统、终端所属运营商以及终端的消费能力画像;根据终端所处的场景以及终端所属运营商统计目标运营商的各场景的终端数量比例;根据目标运营商的各场景的终端数量比例计算目标运营商的目标场景扩样系数m;根据终端所处的场景、终端所属运营商以及终端的操作系统统计目标运营商的目标场景的各操作系统的终端数量比例;根据m以及目标运营商的各操作系统的终端数量比例计算目标运营商的目标场景的目标操作系统扩样系数n;根据终端所属运营商以及终端所处的场景统计目标场景的目标操作系统的各运营商的终端数量比例;根据n以及目标场景的目标操作系统的各运营商的终端数量比例计算目标场景的目标操作系统的运营商扩样系数p;根据终端的操作系统以及终端的消费能力画像统计目标运营商的目标场景的目标操作系统的各消费层级的终端数量比例;根据p以及目标操作系统的各消费层级的终端数量比例计算目标运营商的目标场景的目标操作系统的目标消费层级扩样系数q。
在上述方法中,根据获取的终端所处的场景以及终端所属运营商统计目标运营商的各场景的终端数量比例;根据目标运营商的各场景的终端数量比例计算目标运营商的目标场景扩样系数m;根据获取的终端所处的场景、终端所属运营商以及终端的操作系统统计目标运营商的目标场景的各操作系统的终端数量比例;根据m以及目标运营商的各操作系统的终端数量比例计算目标运营商的目标场景的目标操作系统扩样系数n;根据获取的终端所属运营商以及终端所处的场景统计目标场景的目标操作系统的各运营商的终端数量比例;根据n以及目标场景的目标操作系统的各运营商的终端数量比例计算目标场景的目标操作系统的运营商扩样系数p;根据获取的终端的操作系统以及终端的消费能力画像统计目标运营商的目标场景的目标操作系统的各消费层级的终端数量比例;根据p以及目标操作系统的各消费层级的终端数量比例计算目标运营商的目标场景的目标操作系统的目标消费层级扩样系数q。本发明实施例能够通过大数据的形式获取各消费层级的扩样系数,从而及时反映各消费层级的终端数量变化。
第二方面,提供一种大数据扩样装置,该大数据扩样装置包括:获取单元,用于获取目标区域的用户数据,其中,用户数据包括终端所处的场景、终端的操作系统、终端所属运营商以及终端的消费能力画像;处理单元,用于根据获取单元获取的终端所处的场景以及终端所属运营商统计目标运营商的各场景的终端数量比例;处理单元,还用于根据目标运营商的各场景的终端数量比例计算目标运营商的目标场景扩样系数m;处理单元,用于根据获取单元获取的终端所处的场景、终端所属运营商以及终端的操作系统统计目标运营商的目标场景的各操作系统的终端数量比例;处理单元,还用于根据m以及目标运营商的各操作系统的终端数量比例计算目标运营商的目标场景的目标操作系统扩样系数n;处理单元,用于根据获取单元获取的终端所属运营商以及终端所处的场景统计目标场景的目标操作系统的各运营商的终端数量比例;处理单元,还用于根据n以及目标场景的目标操作系统的各运营商的终端数量比例计算目标场景的目标操作系统的运营商扩样系数p;处理单元,用于根据获取单元获取的终端的操作系统以及终端的消费能力画像统计目标运营商的目标场景的目标操作系统的各消费层级的终端数量比例;处理单元,还用于根据p以及目标操作系统的各消费层级的终端数量比例计算目标运营商的目标场景的目标操作系统的目标消费层级扩样系数q。
可以理解地,上述提供的大数据扩样装置用于执行上文所提供的第一方面对应的方法,因此,其所能达到的有益效果可参考上文第一方面对应的方法以及下文具体实施方式中对应的方案的有益效果,此处不再赘述。
第三方面,提供了一种大数据扩样装置,该大数据扩样装置的结构中包括处理器和存储器,存储器用于与处理器耦合,保存该大数据扩样装置必要的程序指令和数据,处理器用于执行存储器中存储的程序指令,使得该大数据扩样装置执行第一方面的方法。
第四方面,提供一种计算机存储介质,计算机存储介质中存储有计算机程序代码,当计算机程序代码在如第三方面的大数据扩样装置上运行时,使得大数据扩样装置执行上述第一方面的方法。
第五方面,提供一种计算机程序产品,该计算机程序产品储存有上述计算机软件指令,当计算机软件指令在如第三方面的大数据扩样装置上运行时,使得大数据扩样装置执行如上述第一方面方案的程序。
附图说明
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明的实施例提供的一种大数据扩样方法的流程示意图;
图2为本发明的实施例提供的一种大数据扩样装置的结构示意图;
图3为本发明的实施例提供的又一种大数据扩样装置的结构示意图;
图4为本发明的实施例提供的再一种大数据扩样装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
还需要说明的是,本发明实施例中,“的(英文:of)”,“相应的(英文:corresponding,relevant)”和“对应的(英文:corresponding)”有时可以混用,应当指出的是,在不强调其区别时,其所要表达的含义是一致的。
为了便于清楚描述本发明实施例的技术方案,在本发明的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不是在对数量和执行次序进行限定。
近年来,随着信息技术的发展,数据信息量呈现爆炸式增长,数据来源越来越多,数据量也越来越庞大。其中,由手机、WIFI、物联网等信息传感器记录的数据已经成为大数据分析中最重要的数据来源,其较为完备的个体出行记录为大数据,尤其是交通大数据分析,提供了很好的数据支持。以手机为例,至2015年,手机用户达到13.06亿,占到总人口的96%以上,手机终端设备持续产生的信号信息,形成了记录用户出行的一系列数据集,为分析城市人群出行、滞留等行为活动提供了重要的数据来源。数据扩样是大数据分析应用中常常运用的步骤之一。在目标区域消费能力用户群体扩样方面,现有的大数据扩样技术通常还是以问卷调查、入户统计等手段获取扩样系数,而这样的扩样系数过于笼统且不能及时反应目标区域各层级消费能力用户的数量变化。
基于上述背景技术以及现有技术存在的问题,参照图1,本发明实施例提供一种大数据扩样方法,具体包括:
101、获取目标区域的用户数据,其中,用户数据包括终端所处的场景、终端的操作系统、终端所属运营商以及终端的消费能力画像。
102、根据终端所处的场景以及终端所属运营商统计目标运营商的各场景的终端数量比例。
103、根据目标运营商的各场景的终端数量比例计算目标运营商的目标场景扩样系数m。
在一种实现方式中,根据公式m=ai1/(a1+a2+…+aj1)计算m,其中ai1表示目标场景的终端数量所占比例值,i1为小于等于j1的正整数,j1为场景数量。
需要说明的是,上述的m值可以是一个也可是多个。
为了更好的理解,针对步骤102和103进行示例性说明,具体如下:
示例一,设目标区域内的包括三个场景,分别为交通枢纽、校园以及医院,运营商包括运营商A、运营商B以及运营商C。根据终端所处的场景以及终端所属运营商统计运营商A的三个场景的终端数量比例为a1:a2:a3,其中,a1为交通枢纽的终端数量所占比例,a2为校园的终端数量所占比例,a3为医院的终端数量所占比例。在这里可以目标场景预设为交通枢纽时。那么,运营商A的交通枢纽扩样系数m1=a1/(a1+a2+a3);同理,当目标场景为校园时,运营商A的校园扩样系数m2=a2/(a1+a2+a3);当目标场景预设为医院时,运营商A的医院扩样系数m3=a3/(a1+a2+a3)。需要说明的是,目标场景可以预设为一个,也可以预设为多个,其目标场景的数量只要不超过目标区域所包含的场景即可。另外,运营商B的目标场景扩样系数以及运营商C的目标场景扩样系数与运营商A的目标场景扩样系数算法一致,这里不再赘述。
104、根据终端所处的场景、终端所属运营商以及终端的操作系统统计目标运营商的目标场景的各操作系统的终端数量比例。
105、根据m以及目标运营商的各操作系统的终端数量比例计算目标运营商的目标场景的目标操作系统扩样系数n。
在一种实现方式中,根据公式n=m*bi2/(b1+b2+…+bj2)计算n,其中bi2表示目标运营商的目标操作系统的终端数量所占比例值,i2为小于等于j2的正整数,j2表示目标运营商的目标场景的操作系统数量。
需要说明的是,n值可以是一个也可以是多个。
为了更好的理解,依据上述示例一的内容针对步骤104和105进行示例性说明,具体如下:
实例二,设操作系统包括两个,分别为安卓系统以及IOS系统,假设根据终端所处的场景、终端所属运营商以及终端的操作系统统计运营商A的交通枢纽的安卓系统的终端数量与IOS系统的终端数量比为b1:b2。则运营商A的交通枢纽的安卓系统扩样系数n1=m1*b1/(b1+b2);运营商A的交通枢纽的IOS系统扩样系数n2=m1*b2/(b1+b2);同理,运营商A的校园的目标操作系统扩样系数与运营商A的医院的目标操作系统扩样系数与运营商A的交通枢纽的目标操作系统扩样系数计算方式一致,此处不再赘述。另外,运营商B的目标场景的目标操作系统扩样系数以及运营商C的目标场景的目标操作系统扩样系数与运营商A的目标场景的目标操作系统扩样系数计算方式一致,此处不再赘述。
106、根据终端所属运营商以及终端所处的场景统计目标场景的目标操作系统的各运营商的终端数量比例。
107、根据n以及目标场景的目标操作系统的各运营商的终端数量比例计算目标场景的目标操作系统的运营商扩样系数p。
在一种实现方式中,根据公式p=n*(c1+c2+…+cj3)/ci3计算p,其中ci3表示目标场景的目标操作系统的目标运营商的终端数量所占比例值,i3为小于等于j3正整数,j3表示目标场景的目标操作系统的运营商数量。
需要说明的是,p值可以是一个也可以是多个。
为了更好的理解,依据上述示例一和示例二的内容,针对步骤106和107进行示例性说明,具体如下:
示例三,假设根据终端所属运营商以及终端所处的场景统计交通枢纽的安卓系统的运营商A的终端数量、交通枢纽的安卓系统的运营商B的终端数量以及交通枢纽的安卓系统的运营商C的终端数量的比例为c1:c2:c3,当ci3为c1时,则交通枢纽的安卓系统的运营商扩样系数p1=n1*(c1+c2+c3)/c1;当ci3为c2时,交通枢纽的安卓系统的运营商扩样系数p2=n1*(c1+c2+c3)/c2;当ci3为c3时,交通枢纽的安卓系统的运营商扩样系数p1=n1*(c1+c2+c3)/c3。同理,交通枢纽的IOS系统的运营商扩样系数与上述交通枢纽的安卓系统的运营商扩样系数计算方式一致,此处不再赘述。
另外,需要说明的是,校园的目标操作系统的运营商扩样系数以及,医院的目标操作系统的运营商扩样系数与上述示例三的计算方式一致,此处不再赘述。
108、根据终端的操作系统以及终端的消费能力画像统计目标运营商的目标场景的目标操作系统的各消费层级的终端数量比例。
109、根据p以及目标操作系统的各消费层级的终端数量比例计算目标运营商的目标场景的目标操作系统的目标消费层级扩样系数q。
在一种实现方式中,根据公式q=p*di4/(d1+d2+…+dj4)计算q,其中di4表示目标运营商的目标场景的目标操作系统的目标消费层级的终端数量所占比例值,i4为小于等于j4的正整数,j4表示目标运营商的目标场景的目标操作系统的消费层级数量。
需要说明的是,q值可以是一个也可以是多个。
为了更好的理解,依据上述的示例一、示例二以及示例三针对步骤108和109进行示例性说明,具体包括:
示例四,设消费层级为高、中、低三层,假设根据终端的操作系统以及终端的消费能力画像统计运营商A的交通枢纽的安卓系统的高层的终端数量、运营商A的交通枢纽的安卓系统的中层的终端数量以及运营商A的交通枢纽的安卓系统的低层的终端数量比例为d1:d2:d3,则运营商A的交通枢纽的安卓系统的高层扩样系数q1=p1*d1/(d1+d2+d3),同理,运营商A的交通枢纽的安卓系统的中层扩样系数q2=p1*d2/(d1+d2+d3),运营商A的交通枢纽的安卓系统的低层扩样系数q3=p1*d3/(d1+d2+d3)。需要说明的是,运营商A的交通枢纽的IOS系统的目标消费层级扩样系数与运营商A的交通枢纽的安卓系统的目标扩样系数计算方式一致;运营商A的校园的目标操作系统的目标消费层级扩样系数、运营商A的医院的目标操作系统的目标消费层级扩样系数与运营商A的交通枢纽的目标操作系统的目标消费层级扩样系数计算方式一致;运营商B的目标场景的目标操作系统的目标消费层级扩样系数以及运营商C的目标场景的目标操作系统的目标消费层级扩样系数与运营商A的目标场景的目标操作系统的目标消费层级扩样系数计算方式一致,此处均不再赘述。
更优的,统计目标场景的终端数量X,可根据q以及X获得目标运营商的目标场景的各消费层级的消费人数。例如,如果最终需要获取运营商A的交通枢纽的安卓系统的高层的消费人数Y=X*q1;如果最终需要获取的运营商A的交通枢纽的高层的消费人数Y=X*q1*q4,其中q4为运营商A的交通枢纽的IOS系统的高层扩样系数;以此类推,如果需要获取交通枢纽的高层的消费人数Y=X*q1*q4*q7*q10*q13*q16,其中,q7为运营商B的交通枢纽的安卓系统的高层扩样系数,q10为运营商B的交通枢纽的IOS系统的高层扩样系数,q13为运营商C的交通枢纽的安卓系统的高层扩样系数,q16为运营商C的交通枢纽的IOS系统的高层扩样系数。需要说明的是,如果获取任一目标场景的任一层级的消费人数,需将该目标场景的终端数量乘以该目标场景的每个操作系统的每个运营商的该消费层级的扩样系数之积。
在上述方法中,根据获取的终端所处的场景以及终端所属运营商统计目标运营商的各场景的终端数量比例;根据目标运营商的各场景的终端数量比例计算目标运营商的目标场景扩样系数m;根据获取的终端所处的场景、终端所属运营商以及终端的操作系统统计目标运营商的目标场景的各操作系统的终端数量比例;根据m以及目标运营商的各操作系统的终端数量比例计算目标运营商的目标场景的目标操作系统扩样系数n;根据获取的终端所属运营商以及终端所处的场景统计目标场景的目标操作系统的各运营商的终端数量比例;根据n以及目标场景的目标操作系统的各运营商的终端数量比例计算目标场景的目标操作系统的运营商扩样系数p;根据获取的终端的操作系统以及终端的消费能力画像统计目标运营商的目标场景的目标操作系统的各消费层级的终端数量比例;根据p以及目标操作系统的各消费层级的终端数量比例计算目标运营商的目标场景的目标操作系统的目标消费层级扩样系数q。本发明实施例能够通过大数据的形式获取各消费层级的扩样系数,从而及时反映各消费层级的终端数量变化。
参照图2,本发明实施例提供一种大数据扩样装置20,该大数据扩样装置20包括:
获取单元201,用于获取目标区域的用户数据,其中,用户数据包括终端所处的场景、终端的操作系统、终端所属运营商以及终端的消费能力画像。
处理单元202,用于根据获取单元201获取的终端所处的场景以及终端所属运营商统计目标运营商的各场景的终端数量比例。
处理单元202,还用于根据目标运营商的各场景的终端数量比例计算目标运营商的目标场景扩样系数m。
处理单元202,用于根据获取单元201获取的终端所处的场景、终端所属运营商以及终端的操作系统统计目标运营商的目标场景的各操作系统的终端数量比例。
处理单元202,还用于根据m以及目标运营商的各操作系统的终端数量比例计算目标运营商的目标场景的目标操作系统扩样系数n。
处理单元202,用于根据获取单元201获取的终端所属运营商以及终端所处的场景统计目标场景的目标操作系统的各运营商的终端数量比例。
处理单元202,还用于根据n以及目标场景的目标操作系统的各运营商的终端数量比例计算目标场景的目标操作系统的运营商扩样系数p。
处理单元202,用于根据获取单元201获取的终端的操作系统以及终端的消费能力画像统计目标运营商的目标场景的目标操作系统的各消费层级的终端数量比例。
处理单元202,还用于根据p以及目标操作系统的各消费层级的终端数量比例计算目标运营商的目标场景的目标操作系统的目标消费层级扩样系数q。
在一种示例性的方案中,处理单元202,具体用于根据公式m=ai1/(a1+a2+…+aj1)计算m,其中ai1表示目标场景的终端数量所占比例值,i1为小于等于j1的正整数,j1为场景数量。
在一种示例性的方案中,处理单元202,具体用于根据公式n=m*bi2/(b1+b2+…+bj2)计算n,其中bi2表示目标运营商的目标操作系统的终端数量所占比例值,i2为小于等于j2的正整数,j2表示目标运营商的目标场景的操作系统数量。
在一种示例性的方案中,处理单元202,具体用于根据公式p=n*(c1+c2+…+cj3)/ci3计算p,其中ci3表示目标场景的目标操作系统的目标运营商的终端数量所占比例值,i3为小于等于j3正整数,j3表示目标场景的目标操作系统的运营商数量。
在一种示例性的方案中,处理单元202,具体用于根据公式q=p*di4/(d1+d2+…+dj4)计算q,其中di4表示目标运营商的目标场景的目标操作系统的目标消费层级的终端数量所占比例值,i4为小于等于j4的正整数,j4表示目标运营商的目标场景的目标操作系统的消费层级数量。
由于本发明实施例中的大数据扩样装置可以应用于实施上述方法实施例,因此,其所能获得的技术效果也可参考上述方法实施例,本发明实施例在此不再赘述。
在采用集成的单元的情况下,图3示出了上述实施例中所涉及的大数据扩样装置20的一种可能的结构示意图。大数据扩样装置20包括:处理模块301、通信模块302和存储模块303。处理模块301用于对大数据扩样装置20的动作进行控制管理,例如,处理模块301用于支持大数据扩样装置20执行图1中的过程102~107。通信模块302用于支持大数据扩样装置20与其他实体的通信。存储模块303用于存储大数据扩样装置20的程序代码和数据。
其中,处理模块301可以是处理器或控制器,例如可以是中央处理器(centralprocessing unit,CPU),通用处理器,数字信号处理器(digital signal processor,DSP),专用集成电路(application-specific integrated circuit,ASIC),现场可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。通信模块302可以是收发器、收发电路或通信接口等。存储模块303可以是存储器。
当处理模块301为如图4所示的处理器,通信模块302为图4的收发器,存储模块303为图4的存储器时,本申请实施例所涉及的大数据扩样装置20可以为如下的大数据扩样装置20。
参照图4所示,该大数据扩样装置20包括:处理器401、收发器402、存储器403和总线404。
其中,处理器401、收发器402、存储器403通过总线404相互连接;总线404可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
处理器401可以是一个通用中央处理器(Central Processing Unit,CPU),微处理器,特定应用集成电路(Application-Specific Integrated Circuit,ASIC),或一个或多个用于控制本申请方案程序执行的集成电路。
存储器403可以是只读存储器(Read-Only Memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(Random Access Memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。
其中,存储器403用于存储执行本申请方案的应用程序代码,并由处理器401来控制执行。收发器402用于接收外部设备输入的内容,处理器401用于执行存储器403中存储的应用程序代码,从而实现本申请实施例中的大数据扩样方法。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(DigitalSubscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
本发明实施例还提供一种计算机程序产品,该计算机程序产品可直接加载到存储器中,并含有软件代码,该计算机程序产品经由计算机载入并执行后能够实现上述的大数据扩样方法。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(DigitalSubscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
本发明实施例还提供一种计算机程序产品,该计算机程序产品可直接加载到存储器中,并含有软件代码,该计算机程序产品经由计算机载入并执行后能够实现上述的数据处理方法。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (4)

1.一种大数据扩样方法,其特征在于,包括:
获取目标区域的用户数据,其中,所述用户数据包括终端所处的场景、所述终端的操作系统、所述终端所属运营商以及所述终端的消费能力画像;
根据所述终端所处的场景以及所述终端所属运营商统计目标运营商的各场景的终端数量比例;
根据所述目标运营商的各场景的终端数量比例计算所述目标运营商的目标场景扩样系数m,具体包括:
根据公式m=ai1/(a1+a2+…+aj1)计算所述m,其中ai1表示所述目标场景的终端数量所占比例值,i1为小于等于j1的正整数,所述j1为场景数量;
根据所述终端所处的场景、所述终端所属运营商以及所述终端的操作系统统计所述目标运营商的目标场景的各操作系统的终端数量比例;
根据所述m以及所述目标运营商的各操作系统的终端数量比例计算所述目标运营商的目标场景的目标操作系统扩样系数n,具体包括:
根据公式n=m*bi2/(b1+b2+…+bj2)计算所述n,其中所述bi2表示所述目标运营商的目标操作系统的终端数量所占比例值,i2为小于等于j2的正整数,所述j2表示所述目标运营商的目标场景的操作系统数量;
根据所述终端所属运营商以及所述终端所处的场景统计所述目标场景的目标操作系统的各运营商的终端数量比例;
根据所述n以及所述目标场景的目标操作系统的各运营商的终端数量比例计算所述目标场景的目标操作系统的运营商扩样系数p,具体包括:
根据公式p=n*(c1+c2+…+cj3)/ci3计算所述p,其中所述ci3表示所述目标场景的目标操作系统的目标运营商的终端数量所占比例值,i3为小于等于j3正整数,所述j3表示所述目标场景的目标操作系统的运营商数量;
根据所述终端的操作系统以及所述终端的消费能力画像统计所述目标运营商的目标场景的目标操作系统的各消费层级的终端数量比例;
根据所述p以及所述目标操作系统的各消费层级的终端数量比例计算所述目标运营商的目标场景的目标操作系统的目标消费层级扩样系数q,具体包括:
根据公式q=p*di4/(d1+d2+…+dj4)计算所述q,其中所述di4表示所述目标运营商的目标场景的目标操作系统的目标消费层级的终端数量所占比例值,i4为小于等于j4的正整数,所述j4表示所述目标运营商的目标场景的目标操作系统的消费层级数量。
2.一种大数据扩样装置,其特征在于,包括:
获取单元,用于获取目标区域的用户数据,其中,所述用户数据包括终端所处的场景、所述终端的操作系统、所述终端所属运营商以及所述终端的消费能力画像;
处理单元,用于根据所述获取单元获取的所述终端所处的场景以及所述终端所属运营商统计目标运营商的各场景的终端数量比例;
所述处理单元,还用于根据所述目标运营商的各场景的终端数量比例计算所述目标运营商的目标场景扩样系数m,包括:
所述处理单元,具体用于根据公式m=ai1/(a1+a2+…+aj1)计算所述m,其中ai1表示所述目标场景的终端数量所占比例值,i1为小于等于j1的正整数,所述j1为场景数量;
所述处理单元,用于根据所述获取单元获取的所述终端所处的场景、所述终端所属运营商以及所述终端的操作系统统计所述目标运营商的目标场景的各操作系统的终端数量比例;
所述处理单元,还用于根据所述m以及所述目标运营商的各操作系统的终端数量比例计算所述目标运营商的目标场景的目标操作系统扩样系数n,包括:
所述处理单元,具体用于根据公式n=m*bi2/(b1+b2+…+bj2)计算所述n,其中所述bi2表示所述目标运营商的目标操作系统的终端数量所占比例值,i2为小于等于j2的正整数,所述j2表示所述目标运营商的目标场景的操作系统数量;
所述处理单元,用于根据所述获取单元获取的所述终端所属运营商以及所述终端所处的场景统计所述目标场景的目标操作系统的各运营商的终端数量比例;
所述处理单元,还用于根据所述n以及所述目标场景的目标操作系统的各运营商的终端数量比例计算所述目标场景的目标操作系统的运营商扩样系数p,包括:
所述处理单元,具体用于根据公式p=n*(c1+c2+…+cj3)/ci3计算所述p,其中所述ci3表示所述目标场景的目标操作系统的目标运营商的终端数量所占比例值,i3为小于等于j3正整数,所述j3表示所述目标场景的目标操作系统的运营商数量;
所述处理单元,用于根据所述获取单元获取的所述终端的操作系统以及所述终端的消费能力画像统计所述目标运营商的目标场景的目标操作系统的各消费层级的终端数量比例;
所述处理单元,还用于根据所述p以及所述目标操作系统的各消费层级的终端数量比例计算所述目标运营商的目标场景的目标操作系统的目标消费层级扩样系数q,包括:
所述处理单元,具体用于根据公式q=p*di4/(d1+d2+…+dj4)计算所述q,其中所述di4表示所述目标运营商的目标场景的目标操作系统的目标消费层级的终端数量所占比例值,i4为小于等于j4的正整数,所述j4表示所述目标运营商的目标场景的目标操作系统的消费层级数量。
3.一种大数据扩样装置,其特征在于,所述大数据扩样装置的结构中包括处理器和存储器,存储器用于与处理器耦合,保存所述大数据扩样装置必要的程序指令和数据,处理器用于执行存储器中存储的程序指令,使得所述大数据扩样装置执行如权利要求1的大数据扩样方法。
4.一种计算机存储介质,其特征在于,计算机存储介质中存储有计算机程序代码,当计算机程序代码在如权利要求3所述的大数据扩样装置上运行时,使得所述大数据扩样装置执行如权利要求1的大数据扩样方法。
CN201910016462.5A 2019-01-08 2019-01-08 一种大数据扩样方法及装置 Active CN109831774B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910016462.5A CN109831774B (zh) 2019-01-08 2019-01-08 一种大数据扩样方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910016462.5A CN109831774B (zh) 2019-01-08 2019-01-08 一种大数据扩样方法及装置

Publications (2)

Publication Number Publication Date
CN109831774A CN109831774A (zh) 2019-05-31
CN109831774B true CN109831774B (zh) 2021-08-10

Family

ID=66861544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910016462.5A Active CN109831774B (zh) 2019-01-08 2019-01-08 一种大数据扩样方法及装置

Country Status (1)

Country Link
CN (1) CN109831774B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609616A (zh) * 2012-01-29 2012-07-25 上海美慧软件有限公司 一种基于手机定位数据的动态人口分布密度检测方法
WO2015116474A1 (en) * 2014-01-31 2015-08-06 Qualcomm Incorporated Format conversion during load/store operations in a vector processor
CN106503843A (zh) * 2016-10-20 2017-03-15 上海萃图数字科技有限公司 一种基于手机信令数据的常规公交线网优化与调整方法
CN107609682A (zh) * 2017-08-22 2018-01-19 上海世脉信息科技有限公司 一种大数据环境下人口集聚中短期预警方法
CN108596679A (zh) * 2018-04-27 2018-09-28 中国联合网络通信集团有限公司 用户画像的构建方法、装置、终端及计算机可读存储介质
CN108629972A (zh) * 2018-05-07 2018-10-09 广州市交通规划研究院 一种基于大数据和传统方法相结合的居民出行调查综合扩样校核方法
CN108733818A (zh) * 2018-05-21 2018-11-02 上海世脉信息科技有限公司 一种基于多场景多数据源校验的大数据扩样方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050289089A1 (en) * 2004-06-28 2005-12-29 Naoki Abe Methods for multi-class cost-sensitive learning
US7805447B2 (en) * 2008-01-16 2010-09-28 Yahoo! Inc. Generating example data for testing database queries

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609616A (zh) * 2012-01-29 2012-07-25 上海美慧软件有限公司 一种基于手机定位数据的动态人口分布密度检测方法
WO2015116474A1 (en) * 2014-01-31 2015-08-06 Qualcomm Incorporated Format conversion during load/store operations in a vector processor
CN106503843A (zh) * 2016-10-20 2017-03-15 上海萃图数字科技有限公司 一种基于手机信令数据的常规公交线网优化与调整方法
CN107609682A (zh) * 2017-08-22 2018-01-19 上海世脉信息科技有限公司 一种大数据环境下人口集聚中短期预警方法
CN108596679A (zh) * 2018-04-27 2018-09-28 中国联合网络通信集团有限公司 用户画像的构建方法、装置、终端及计算机可读存储介质
CN108629972A (zh) * 2018-05-07 2018-10-09 广州市交通规划研究院 一种基于大数据和传统方法相结合的居民出行调查综合扩样校核方法
CN108733818A (zh) * 2018-05-21 2018-11-02 上海世脉信息科技有限公司 一种基于多场景多数据源校验的大数据扩样方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于手机信令的大范围人流移动分析;唐小勇;周涛;陆百川;《重庆交通大学学报》;20170115;全文 *
手机信令数据在交通枢纽客流监测中的应用——以重庆市为例;章玉;《交通运输研究》;20170519;全文 *

Also Published As

Publication number Publication date
CN109831774A (zh) 2019-05-31

Similar Documents

Publication Publication Date Title
US10991248B2 (en) Parking identification and availability prediction
TWI688968B (zh) 確定地理圍欄的索引網格的方法、裝置和用於執行上述方法的電腦設備及電腦可讀儲存媒體
US10242116B2 (en) Grid-based geofence data indexing
US20160205512A1 (en) Crowd Formation Based On Physical Boundaries And Other Rules
CN108492124A (zh) 店铺信息推荐方法、装置及客户端
CN107040886B (zh) 一种信息确定的方法及装置
US10044837B2 (en) Generation and distribution of named, definable, serialized tokens
US10552444B2 (en) Visualizing changes in a multi-dimensional dataset using three-dimensional cubes
WO2014160806A1 (en) Electronic system with real property preference mechanism and method of operation thereof
CN110569657A (zh) 一种数据访问方法、装置、设备及存储介质
US20240020886A1 (en) Updates on context modeling of occupancy coding for point cloud coding
CN107085600A (zh) Poi推荐方法、装置、设备及计算机可读存储介质
CN110619039A (zh) 一种房产信息的校验方法、装置、存储介质及电子设备
CN111160793A (zh) 一种服务网点自助设备数量的配置方法、装置及设备
CN109684613A (zh) 在线文档中的引用显示方法、装置、存储介质及电子设备
CN109918678A (zh) 一种字段含义识别方法和装置
CN108076439B (zh) 用于基于无线接入点推送消息的方法与设备
CN103294407A (zh) 存储装置和数据读写方法
CN109831774B (zh) 一种大数据扩样方法及装置
CN111078723B (zh) 一种区块链浏览器的数据处理方法及装置
CN112559642A (zh) 数据分类存储方法、装置及相关产品
US9230022B1 (en) Customizable result sets for application program interfaces
Kurzidim et al. Accessible volume in quenched-annealed mixtures of hard spheres: a geometric decomposition
CN112232572B (zh) 一种空间搜索方法、装置及存储介质
Helmi et al. The pivotal role of geospatial information systems based on hybrid cloud computing for the health sector in Egypt

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant