CN112328654A - 一种数据处理方法、装置、设备及存储介质 - Google Patents

一种数据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112328654A
CN112328654A CN202011194004.XA CN202011194004A CN112328654A CN 112328654 A CN112328654 A CN 112328654A CN 202011194004 A CN202011194004 A CN 202011194004A CN 112328654 A CN112328654 A CN 112328654A
Authority
CN
China
Prior art keywords
target
area
user terminal
sub
target user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011194004.XA
Other languages
English (en)
Inventor
叶浩楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Smk Network Technology Co ltd
Original Assignee
Shanghai Smk Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Smk Network Technology Co ltd filed Critical Shanghai Smk Network Technology Co ltd
Priority to CN202011194004.XA priority Critical patent/CN112328654A/zh
Publication of CN112328654A publication Critical patent/CN112328654A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Remote Sensing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请公开了一种数据处理方法、装置、设备及存储介质。该数据处理方法包括:获取第一目标用户终端的第一数量,以及第二目标用户终端的第二数量;其中,第一目标用户终端为目标时段内在目标区域出现的用户终端,第二目标用户终端为第一目标用户终端中出现在第一子区域的用户终端,第一子区域包括目标区域的办公区域和/或交通区域;将第一数量和第二数量输入至预设处理模型,得到第三目标用户终端的目标数量;其中,第三目标用户终端为目标时段内出现在第二子区域的用户终端,第二子区域为目标区域中除第一子区域外的区域。采用本申请提供的数据处理方法、装置、设备及存储介质,能够提供数据处理效率。

Description

一种数据处理方法、装置、设备及存储介质
技术领域
本申请涉及数据处理技术领域,具体涉及一种数据处理方法、装置、设备及存储介质。
背景技术
客流作为购物中心、旅游景点、公共场所、活动现场等区域的重要数据,其通常会作为管理人员制定或调整管理方法和经营决策的数据依据。
现阶段,通常由人工统计某时段内在某区域内出现的所有用户终端的数量,作为客流数据。具体的,通常需要安排持有计数器的工作人员全时段在目标区域的出入口,在有人通过出入口时,工作人员可以操作计数器,逐个累积得到该时段内在目标区域出现的用户终端的数量。这样,通过人工全时段进行数据统计,导致数据处理过程耗时较长,数据处理效率较低。
发明内容
本申请实施例的目的是提供一种数据处理方法、装置、电子设备及存储介质,以解决现有技术中数据处理效率较低的技术问题。
本申请的技术方案如下:
第一方面,提供一种数据处理方法,该方法可以包括:
获取第一目标用户终端的第一数量,以及第二目标用户终端的第二数量;其中,所述第一目标用户终端为目标时段内在目标区域出现的用户终端,所述第二目标用户终端为第一目标用户终端中出现在第一子区域的用户终端,所述第一子区域包括所述目标区域的办公区域和/或交通区域;
将所述第一数量和所述第二数量输入至预设处理模型,得到第三目标用户终端的目标数量;其中,所述第三目标用户终端为所述目标时段内出现在第二子区域的用户终端,所述第二子区域为所述目标区域中除所述第一子区域外的区域。
在一些实施例中,获取第一目标用户终端的第一数量,包括:
获取目标时段内出现的用户终端的位置信息;
确定目标区域的位置覆盖范围;
根据位置信息和位置覆盖范围,确定第一目标用户终端的第一数量。
在一些实施例中,获取目标时段内出现的用户终端的位置信息,包括:
获取目标时段内出现的用户终端上报的信令数据;
根据信令数据确定所有用户终端的位置信息;
根据位置信息和位置覆盖范围,确定第一目标用户终端的第一数量,包括:
在位置信息中,选取在位置覆盖范围内的目标位置信息;
将目标位置信息对应的信令数据确定为目标信令数据;
将目标信令数据对应的用户终端确定为第一目标用户终端;
统计第一目标用户终端的数量作为第一数量。
在一些实施例中,统计第一目标用户终端的数量作为第一数量,包括:
统计第一目标用户终端的第三数量,第三数量为目标时段内在目标区域出现的第一目标用户终端的数量;
对第三数量进行去重处理,得到第一数量。
在一些实施例中,第一子区域还包括目标区域的住宅区域。
在一些实施例中,其特征在于,获取第一目标用户终端的第一数量之前,方法还包括:
获取训练样本集,训练样本集包括多个训练样本,每个训练样本包括第一用户终端的第一历史数量、第二用户终端的第二历史数量、第一历史数量和第二历史数量对应的标签数量;其中,第一用户终端为历史时段内在第一目标区域出现的用户终端;第二用户终端为第一用户终端中出现在第一目标区域的第三子区域的用户终端,第三子区域包括第一目标区域的办公区域和/或交通区域;
基于每个训练样本的第一历史数量、第二历史数量、标签数量训练预设模型,得到预设处理模型。
在一些实施例中,基于每个训练样本的第一历史数量、第二历史数量、标签数量训练预设模型,得到预设处理模型,包括:
对每个训练样本,分别执行如下步骤:
将第一历史数量和第二历史数量输入至预设模型,得到第三历史数量;
计算第三历史数量和标签数量的差值,判断差值是否满足预设训练停止条件;
在差值满足预设训练停止条件的情况下,将训练后的预设模型确定为预设处理模型。
第二方面,提供一种数据处理装置,包括:
数据获取模块,用于获取第一目标用户终端的第一数量,以及第二目标用户终端的第二数量;其中,第一目标用户终端为目标时段内在目标区域出现的用户终端,第二目标用户终端为第一目标用户终端中出现在第一子区域的用户终端,第一子区域包括目标区域的办公区域和/或交通区域;
统计模块,用于将第一数量和第二数量输入至预设处理模型,得到第三目标用户终端的目标数量;其中,第三目标用户终端为目标时段内出现在第二子区域的用户终端,第二子区域为目标区域中除第一子区域外的区域。
第三方面,提供一种数据处理设备,该数据处理设备可以包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,处理器被配置为执行指令,以实现如第一方面的任一项实施例中所示的数据处理方法。
第四方面,提供一种存储介质,当存储介质中的指令由数据处理装置的处理器执行时,以使数据处理装置或者服务器实现以实现如第一方面的任一项实施例中所示的数据处理方法。
本申请的实施例提供的技术方案至少带来以下有益效果:
本申请实施例通过将获取到的目标时段内在目标区域内出现的第一目标用户终端的第一数量,以及出现在第一子区域的第二目标用户终端的第二数量输入至预设处理模型,得到目标时段内在目标区域的第二子区域内出现的第三目标用户终端的目标数量,其中,第一子区域包括目标区域的办公区域和/或交通区域。这样,一方面,通过预设处理模型实现了目标数量的自动统计,从而可以有效减少数据处理耗时,进而可以有效提高数据处理效率。另一方面,在第一数量的基础上考虑了出现在第一子区域的第二目标用户终端的第二数量,从而可以进一步提高数据处理结果的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理,并不构成对本申请的不当限定。
图1是本申请实施例提供的一种数据处理方法的流程示意图;
图2是本申请实施例提供的一种位置覆盖范围的示意图;
图3是本申请实施例提供的一种数据处理装置的结构示意图;
图4是是本申请实施例提供的一种数据处理设备的结构示意图。
具体实施方式
为了使本领域普通人员更好地理解本申请的技术方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
基于背景技术可知,现有技术人工全时段统计数据,会导致客流数据的数据处理时间较长,数据处理效率较低。
为了减少人工成本,还可以采用如下数据处理方式获取客流数据:
一、采用红外感应的方式。具体的,可以在目标区域的出入口设置红外对射方和红外反射设备,当有人经过红外感应区域,就会自动判断累计增加计数,实现自动获取客流数据。这种方式虽然不需要工作人员人工计数,解决了人工消耗的问题,但是,在多人同时进出时会出现漏计,产生较大的偏差。
二、可以在目标区域与外界联通的所有出入口安装探头,采用人脸识别等技术统计个探头采集到的通过出入口的人数,再对所有出入口的数据进行叠加处理计算出目标区域的客流数据。但是,因为同一个人可能会多次进出商场出现重复计数导致处理出的客流数据的偏差较大,且可能会因为人脸朝向问题导致探头探测不到人脸,导致有些进出商场的人未被探测到,导致处理得到客流数据的准确性较低。
故而,为了解决上述技术问题,本申请提供了一种数据处理方法、装置、设备及存储介质,可以通过将获取到的目标时段内在目标区域内出现的第一目标用户终端的第一数量,以及出现在第一子区域的第二目标用户终端的第二数量输入至预设处理模型,得到目标时段内在目标区域的第二子区域内出现的第三目标用户终端的目标数量,其中,第一子区域包括目标区域的办公区域和/或交通区域。这样,一方面,通过预设处理模型实现了目标数量的自动统计,从而可以有效减少数据处理耗时,进而可以有效提高数据处理效率。另一方面,在第一数量的基础上考虑了出现在第一子区域的第二目标用户终端的第二数量,从而可以进一步提高数据处理结果的准确性。
下面对本申请实施例提供的一种数据处理方法进行说明。
图1示出了本申请实施例提供的一种数据处理方法的流程示意图,该方法的执行主体可以是服务器或者服务器集群。如图1所示,该数据处理方法可以包括如下步骤:
S110,获取第一目标用户终端的第一数量,以及第二目标用户终端的第二数量。
其中,第一目标用户终端为目标时段内在目标区域出现的用户终端,由于用户终端通常是由用户持有的,故而,目标用户终端实际上可以代表在目标时段出现在目标区域的用户。
第二目标用户终端为第一目标用户终端中出现在第一子区域的用户终端。
第一子区域包括目标区域的办公区域和/或交通区域。该第一子区域可以是目标区域的子区域,以目标区域为商场为例,第一子区域可以是商场地下层建设的地铁站、公交站,商场上层建筑的写字楼等区域。
作为示例,目标时段可以是想要得到的客流数据所属的一个时间段,如预查看2020年10月20日的客流数据,则该目标时段可以是2020年10月20日00:00-2020年10月20日24:00。
目标区域可以是想要得到的客流数据所属的区域,如可以是商场、购物中心、景点等。
第一数量可以是第一目标用户终端的总数量。
第二数量可以是第二目标用户终端的总数量。
作为一个具体的示例,在获取目标区域在目标时段的客流数据时,可以先获取目标时段内在目标区域出现的第一目标用户终端的总数量,即第一数量,以及,该目标时段内出现在目标区域的第一子区域内的第二目标用户终端的总数量,即第二数量。以目标区域为商场、第一子区域为商场地下层建筑的地铁站为例,第一数量为在目标时段出现在商场的所有用户终端的总数量,第二数量为出现在商场地下层的地铁站的所有用户终端的总数量。
S120,将第一数量和第二数量输入至预设处理模型,第三目标用户终端的目标数量。
其中,第三目标用户终端可以为目标时段内出现在第二子区域的用户终端。
第二子区域可以为目标区域中除第一子区域外的区域。
作为示例,预设处理模型可以是预先训练好的模型,该模型可以用于基于第一数量和第二数量输出第三目标用户终端的目标数量。该模型可以是基于极端梯度提升(Xgboost)算法构建的。其中,Xgboost算法是一种在梯度提升(Gradient Boosting)框架下实现的机器学习算法,可以用于通过输入参数数据来进行分类或者回归。
目标数量可以是第三目标用户终端的总数量,即第二子区域在目标时段的客流数据,该客流数据可以认为是目标时段内目标区域的客流数据。
作为一个具体的示例,在获取到第一目标用户终端的第一数量,以及第二目标用户终端的第二数量之后,可以将第一数量和第二数量均输入至预设处理模型中。利用预设处理模型基于第一数量和第二数量处理得到目标时段内出现在第二子区域的第三目标用户终端的目标数量,该目标数量即为第二子区域在目标时段的客流数据,该客流数据可以认为是目标时段内目标区域的客流数据。
本申请实施例通过将获取到的目标时段内在目标区域内出现的第一目标用户终端的第一数量,以及出现在第一子区域的第二目标用户终端的第二数量输入至预设处理模型,得到目标时段内在目标区域的第二子区域内出现的第三目标用户终端的目标数量,其中,第一子区域包括目标区域的办公区域和/或交通区域。这样,一方面,通过预设处理模型实现了目标数量的自动统计,从而可以有效减少数据处理耗时,进而可以有效提高数据处理效率。另一方面,在第一数量的基础上考虑了出现在第一子区域的第二目标用户终端的第二数量,从而可以进一步提高数据处理结果的准确性。
在一些实施例中,可以根据用户终端的位置信息和目标区域的位置覆盖范围确定第一目标用户终端的第一数量。相应的,上述步骤S110中获取第一数量的具体实现方式可以如下:
获取目标时段内出现的用户终端的位置信息;
确定目标区域的位置覆盖范围;
根据位置信息和位置覆盖范围,确定第一目标用户终端的第一数量。
作为一个具体的示例,获取第一目标用户终端的第一数量时,可以先确定目标时段内出现的用户终端,并获取前述用户终端的位置信息。确定目标区域的位置覆盖范围,如可以是目标区域覆盖的经纬度范围。参见图2,以目标区域为A为例,目标区域的位置覆盖范围可以是图2中A区域周围的闭合线条内的区域。
然后,可以根据前述用户终端的位置信息和目标区域的位置覆盖范围,筛选出位于目标区域的位置覆盖范围内的位置信息,将位于目标区域的位置覆盖范围内的位置信息对应的用户终端确定为第一目标用户终端,再统计第一目标用户终端的数量,得到目标时段内在目标区域内出现的所有第一目标用户终端的第一数量。
这样,根据目标时段内用户终端的位置信息和目标区域的位置覆盖范围确定第一目标用户终端的第一数量,可以将出现在位置覆盖范围内的用户终端均统计在内,从而可以提高确定出的第一数量的准确性,进而可以进一步提高预设处理模型输出的目标数量的准确性,提高数据处理结果的准确性。
在一些实施例中,可以根据信令数据确定用户终端的位置信息,相应的,上述获取目标时段内所有用户终端的位置信息的具体实现方式可以如下:
获取目标时段内出现的用户终端上报的信令数据;
根据信令数据确定用户终端的位置信息。
作为一个具体的示例,可以获取目标时段内出现的用户终端上报的信令数据,该信令数据可以是用户操作其用户终端安装的应用程序时,应用程序上报的信令数据,其中,应用程序可以是设置好的允许获取位置信息的应用程序。然后,可以根据每个用户终端的信令数据确定每个用户终端对应的位置信息。
此时,上述根据所有位置信息和位置覆盖范围,得到第一目标用户终端的第一数量的具体实现方式可以如下:
在位置信息中,选取在位置覆盖范围内的目标位置信息;
将目标位置信息对应的信令数据确定为目标信令数据;
将目标信令数据对应的用户终端确定为第一目标用户终端;
统计第一目标用户终端的数量作为第一数量。
作为一个具体的示例,在确定出目标时段内出现的用户终端的位置信息之后,可以在位置信息中选取属于目标区域的位置覆盖范围内的位置信息,即目标位置信息。然后,可以确定每个目标位置信息对应的信令数据,将前述目标位置信息对应的目标信令数据确定为目标信令数据。在确定出目标信令数据之后,可以确定每个目标信令数据对应的用户终端,将每个目标信令数据对应的用户终端确定为第一目标用户终端,得到目标信令数据对应的第一目标用户终端。之后,可以统计第一目标用户终端的总数量得到第一数量。
这样,由于信令数据的上报通常均是人为触发的,目标区域内有信令数据上报通常可以说明有人在目标区域内使用用户终端,即可以说明有人处在目标区域中。故而通过用户终端的信令数据确定用户终端的位置信息,以确定第一目标用户终端的第一数量,可以仅以提高第一数量的准确性,进而进一步提高目标数量的准确性。
在一些实施例中,上述统计第一目标用户终端的数量作为第一数量的具体实现方法可以如下:
统计第一目标用户终端的第三数量;
对第三数量进行去重处理,得到第一数量。
其中,第三数量可以为目标时段内在目标区域出现的第一目标用户终端的数量。
作为一个具体的示例,考虑到可能有的用户终端会在同一时段内多次上报信令数据,如果直接基于这些所有的信令数据统计第一数量,可以会导致同一用户终端被重复计数。故而,在统计第一数量时,可以先统计目标时段内在目标区域出现的所有第一目标用户终端的数量,即第三数量。然后,可以对第三数量进行去重处理,即选取第三数量中多次出现的第一目标用户终端,对于这些多次出现的第一目标用户终端,删除重复统计的部分,也即同一第一目标用户终端不管出现多少次,在统计时仅统计一次,以得到目标时段内在目标区域出现的所有第一目标用户终端的第一数量。
这样,可以避免同一第一目标用户终端的重复计数,从而可以进一步提高第一数量的准确性,提高目标数量的准确性。
在一些实施例中,上述第一子区域还可以包括目标区域的住宅区域,相应的此时第二数量中可以包括有在住宅区域居住的人使用的用户终端的数量。
以目标区域为商场为例,商场所在的楼中可能还有住宅区域,则该住宅区域也属于第一子区域。此时,出现在第一子区域的第二目标用户终端对应的用户则并不属于目标数量。这样,进一步考虑目标区域的住宅区域内出现的第一目标用户终端的数量,可以进一步提高第一数量的准确性。
作为一个具体的示例,可以根据目标区域的相关指标数据确定第二数量。相应的,此时预设处理模型也是基于历史时段内先沟通指标的历史数据训练得到的。
以目标区域为商场为例,目标区域的相关指标数据可以包括商场的静态数据和人口数据。其中,静态数据可以包括商场自身的官方数据、位置信息以及周围的建筑信息等数据。其中,官方数据可以包括商场的开发商信息、开业年限、占地和建筑面积、品牌信息等数据;周围的建筑信息可以包括商场中及周边的交通信息如地铁站、公交站等数据。人口数据可以包括目标区域的常住和/或工作人口、商场人群的画像等数据。
仍以目标区域为商场为例,统计商场的客流数据时的相关指标参数可以包括:
1.静态数据:
1)商场位置覆盖范围内的基础客流数据,即第一数据;
2)商场内和周边的通勤数据,如可以是是距离目标区域第二预设距离内的地铁站数量、公交站数量、地铁线路数量,与各个地铁站公交站的距离,以及地铁周围第三预设距离内的客流数据占比,商场内是否有地铁站等。其中,第二预设距离可以是1公里,第三预设距离可以是30米。
3)商场官方数据,如商场的开发商信息、开业年限、占地和建筑面积等;
4)商场的位置信息,如可以包括:商场所在商圈的特征,如该商圈内商场总占地面积、商场个数、商场总客流等;商场所在城区特征,如该城区常住人口;以及在商场的停留时长,如可以包括停留30分钟以下的客户占比、停留30分钟以上1小时以下的客户占比、停留1-2小时的客户占比,……,以及平均停留时长等数据。
2.人口数据:
1)人口分布数据,如可以是距离目标区域第一预设距离内的居住人口、工作人口、常去人口,如第一预设距离可以为1公里、3公里等。以及,目标区域所在城市的居住人口和常住人口;以及,商场内居住和/或工作的人口及占比等;
2)商场的人口数据,如可以是商场客户群体的画像,该画像可以包括客户群体的收入分布、性别分布、年龄分布、手机系统分布等;
这样,全面考虑目标区域在静态数据和人口数据等各方面的相关指标参数,以确定第一数量,可以使得确定出的第一数量更加准确。
在一些实施例中,在执行上述数据处理方法之前,还可以先训练预设处理模型,相应的,其具体实现方式可以为:
获取训练样本集;其中,训练样本集包括多个训练样本,每个训练样本包括第一用户终端的第一历史数量、第二用户终端的第二历史数量、第一历史数量和第二历史数量对应的标签数量;
基于每个训练样本的第一历史数量、第二历史数量、标签数量训练预设模型,得到预设处理模型。
其中,第一用户终端为历史时段内在第一目标区域出现的用户终端;
第二用户终端为第一用户终端中出现在第一目标区域的第三子区域的用户终端。
第三子区域可以包括第一目标区域的办公区域和/或交通区域。
作为示例,历史时段可以是用于训练预设处理模型的训练样本所述的时段。
第一目标区域可以是任一区域。
作为一个具体的示例,在执行数据处理方法确定目标数量之前,可以先获取包括多个训练样本的训练样本集。其中,每个训练样本可以包括历史时段内在第一目标区域出现的第一用户终端的历史数量,即第一历史数量;第一用户终端中出现在第一目标区域的第二用户终端的历史数量,即第二历史数量;以及,第一历史数量和第二历史数量对应的标签数量,该标签数量可以是人为统计的也可以是利用探测和人脸识别模型得到的。
然后,可以基于第一历史数量、第二历史数量和标签数量,训练预设模型,该预设模型可以是基于极端梯度提升(Xgboost)算法构建的。其中,Xgboost算法是一种在梯度提升(Gradient Boosting)框架下实现的机器学习算法,可以用于通过输入参数数据来进行分类或者回归。将训练好的预设模型确定为预设处理模型。
这样,预先训练预设处理模型,可以进一步减少数据处理耗时,从而进一步提高数据处理效率,
在一些实施例中,可以将满足训练停止条件的训练后的预设模型确定为预设处理模型,相应的,其具体实现方式可以如下:
对每个训练样本,分别执行如下步骤:
将第一历史数量和第二历史数量输入至预设模型,得到第三历史数量;
计算第三历史数量和标签数量的差值,判断差值是否满足预设训练停止条件;
在差值满足预设训练停止条件的情况下,将训练后的预设模型确定为预设处理模型。
作为一个具体的示例,进行模型训练时,可以对每个训练样本进行训练。针对一个训练样本而言,可以将第一历史数量和第二历史数量输入到预设模型,该预设模型可以输出一个历史数量,即第三历史数量。然后,可以计算该第三历史数量和标签数量的差值,并可以判断该差值是否满足预设训练停止条件,如可以是判断该差值是否小于或等于预设阈值。若该差值满足预设训练停止条件,则可以将该训练后的预设模型确定为预设处理模型。
可以理解的是,上述预设训练停止条件也可以是准确率阈值。相应的,可以根据预设模型基于每个训练样本输出的第三历史数量以及每个训练样本对应的标签数量,计算训练后的预设模型的准确率,在该准确率大于或等于准确率阈值时,停止训练,将训练后的预设模型确定为预设处理模型。
这样,在满足预设训练停止条件时,确定训练后的预设模型为预设处理模型,可以保证预设处理模型的准确率,从而可以进一步提高目标数量的准确率。
基于相同的发明构思,本申请还提供了一种数据处理装置。如图3所示,该数据处理装置200,可以包括:
数据获取模块210,可以用于获取第一目标用户终端的第一数量,以及第二目标用户终端的第二数量;其中,第一目标用户终端为目标时段内在目标区域出现的用户终端,第二目标用户终端为第一目标用户终端中出现在第一子区域的用户终端,第一子区域包括目标区域的办公区域和/或交通区域;
统计模块220,可以用于将第一数量和所述第二数量输入至预设处理模型,得到第三目标用户终端的目标数量;其中,第三目标用户终端为目标时段内出现在第二子区域的用户终端,第二子区域为所述目标区域中除第一子区域外的区域。
在一些实施例中,数据获取模块210,可以包括:
第一获取单元,可以用于获取目标时段内出现的用户终端的位置信息;
第一确定单元,可以用于确定目标区域的位置覆盖范围;
第二确定单元,可以用于根据位置信息和位置覆盖范围,确定第一目标用户终端的第一数量。
在一些实施例中,第一获取单元,可以包括:
第一子获取单元,可以用于获取目标时段内出现的用户终端上报的信令数据;
第一子确定单元,可以用于根据信令数据确定用户终端的位置信息;
第二确定单元,可以包括:
第一子选取单元,可以用于在位置信息中,选取在位置覆盖范围内的目标位置信息;
第二子确定单元,可以用于将目标位置信息对应的信令数据确定为目标信令数据;
第三子确定单元,可以用于将目标信令数据对应的用户终端确定为第一目标用户终端;
子统计单元,可以用于统计第一目标用户终端的数量作为第一数量。
在一些实施例中,子统计单元可以用于:
统计第一目标用户终端的第三数量,其中,第三数量为目标时段内在目标区域出现的第一目标用户终端的数量;
对第三数量进行去重处理,得到第一数量。
在一些实施例中,第一子区域还包括目标区域的住宅区域。
在一些实施例中,数据处理装置200还可以包括:
第二数据获取模块,可以用于获取训练样本集,训练样本集包括多个训练样本,每个训练样本包括第一用户终端的第一历史数量、第二用户终端的第二历史数量、第一历史数量和第二历史数量对应的标签数量;其中,第一用户终端为历史时段内在第一目标区域出现的用户终端;第二用户终端为第一用户终端中出现在第一目标区域的第三子区域的用户终端,第三子区域包括第一目标区域的办公区域和/或交通区域;
训练模块,可以用于基于每个训练样本的第一历史数量、第二历史数量、标签数量训练预设模型,得到预设处理模型。
在一些实施例中,训练模块可以通过如下单元对每个训练样本,分别执行如下步骤:
输入单元,将第一历史数量和第二历史数量输入至预设模型,得到第三历史数量;
计算单元,可以用于计算第三历史数量和标签数量的差值,判断差值是否满足预设训练停止条件;
确定模块,可以用于在差值满足预设训练停止条件的情况下,将训练后的预设模型确定为预设处理模型。
上述数据处理装置可以用于执行上述方法实施例提供的方法,其具体实现原理和技术效果类似,为简洁起见,在此不再赘述。
基于同一发明构思,本申请实施例还提供了一种数据处理设备,如图4所示,该数据处理设备可以包括处理器401以及存储有计算机程序指令的存储器402。
具体地,上述处理器401可以包括中央处理器(Central Processing Unit,CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器402可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器402可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器402可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器402可在综合网关容灾设备的内部或外部。在特定实施例中,存储器402是非易失性固态存储器。
存储器可包括只读存储器(ROM),随机存取存储器(RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本公开的一方面的方法所描述的操作。
处理器401通过读取并执行存储器402中存储的计算机程序指令,以实现上述实施例中的任意一种数据处理方法。
在一个示例中,数据处理设备还可包括通信接口403和总线410。其中,如图4所示,处理器401、存储器402、通信接口403通过总线410连接并完成相互间的通信。
通信接口403,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线410包括硬件、软件或两者,将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(Accelerated Graphics Port,AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,EISA)总线、前端总线(Front Side Bus,FSB)、超传输(Hyper Transport,HT)互连、工业标准架构(Industry Standard Architecture,ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线410可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
另外,结合上述实施例中的数据处理方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种数据处理方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,做出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RadioFrequency,RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取第一目标用户终端的第一数量,以及第二目标用户终端的第二数量;其中,所述第一目标用户终端为目标时段内在目标区域出现的用户终端,所述第二目标用户终端为第一目标用户终端中出现在第一子区域的用户终端,所述第一子区域包括所述目标区域的办公区域和/或交通区域;
将所述第一数量和所述第二数量输入至预设处理模型,得到第三目标用户终端的目标数量;其中,所述第三目标用户终端为所述目标时段内出现在第二子区域的用户终端,所述第二子区域为所述目标区域中除所述第一子区域外的区域。
2.根据权利要求1所述的方法,其特征在于,所述获取第一目标用户终端的第一数量,包括:
获取目标时段内出现的用户终端的位置信息;
确定所述目标区域的位置覆盖范围;
根据所述位置信息和所述位置覆盖范围,确定第一目标用户终端的第一数量。
3.根据权利要求2所述的方法,其特征在于,所述获取目标时段内出现的用户终端的位置信息,包括:
获取所述目标时段内出现的用户终端上报的信令数据;
根据所述信令数据确定所述用户终端的位置信息;
所述根据所述位置信息和所述位置覆盖范围,确定第一目标用户终端的第一数量,包括:
在所述位置信息中,选取在所述位置覆盖范围内的目标位置信息;
将所述目标位置信息对应的信令数据确定为目标信令数据;
将所述目标信令数据对应的用户终端确定为第一目标用户终端;
统计所述第一目标用户终端的数量作为第一数量。
4.根据权利要求3所述的方法,其特征在于,所述统计所述第一目标用户终端的数量作为第一数量,包括:
统计所述第一目标用户终端的第三数量,其中,所述第三数量为所述目标时段内在所述目标区域出现的第一目标用户终端的数量;
对所述第三数量进行去重处理,得到所述第一数量。
5.根据权利要求1所述的方法,其特征在于,所述第一子区域还包括所述目标区域的住宅区域。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述获取第一目标用户终端的第一数量之前,所述方法还包括:
获取训练样本集,所述训练样本集包括多个训练样本,每个所述训练样本包括第一用户终端的第一历史数量、第二用户终端的第二历史数量、所述第一历史数量和所述第二历史数量对应的标签数量;其中,所述第一用户终端为历史时段内在第一目标区域出现的用户终端;所述第二用户终端为第一用户终端中出现在所述第一目标区域的第三子区域的用户终端,所述第三子区域包括第一目标区域的办公区域和/或交通区域;
基于每个所述训练样本的第一历史数量、第二历史数量、所述标签数量训练预设模型,得到预设处理模型。
7.根据权利要求6所述的方法,其特征在于,所述基于每个所述训练样本的第一历史数量、第二历史数量、所述标签数量训练预设模型,得到预设处理模型,包括:
对每个所述训练样本,分别执行如下步骤:
将所述第一历史数量和所述第二历史数量输入至所述预设模型,得到第三历史数量;
计算所述第三历史数量和所述标签数量的差值,判断所述差值是否满足预设训练停止条件;
在所述差值满足所述预设训练停止条件的情况下,将训练后的预设模型确定为预设处理模型。
8.一种数据处理装置,其特征在于,包括:
数据获取模块,用于获取第一目标用户终端的第一数量,以及第二目标用户终端的第二数量;其中,所述第一目标用户终端为目标时段内在目标区域出现的用户终端,所述第二目标用户终端为第一目标用户终端中出现在第一子区域的用户终端,所述第一子区域包括所述目标区域的办公区域和/或交通区域;
统计模块,用于将所述第一数量和所述第二数量输入至预设处理模型,得到第三目标用户终端的目标数量;其中,所述第三目标用户终端为所述目标时段内出现在第二子区域的用户终端,所述第二子区域为所述目标区域中除所述第一子区域外的区域。
9.一种数据处理设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的数据处理方法。
10.一种存储介质,其特征在于,当所述存储介质中的指令由数据处理装置或者电子设备的处理器执行时,以使所述数据处理装置或者所述服务器实现如权利要求1至7中任一项所述的数据处理方法。
CN202011194004.XA 2020-10-30 2020-10-30 一种数据处理方法、装置、设备及存储介质 Pending CN112328654A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011194004.XA CN112328654A (zh) 2020-10-30 2020-10-30 一种数据处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011194004.XA CN112328654A (zh) 2020-10-30 2020-10-30 一种数据处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112328654A true CN112328654A (zh) 2021-02-05

Family

ID=74297619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011194004.XA Pending CN112328654A (zh) 2020-10-30 2020-10-30 一种数据处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112328654A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295787A (zh) * 2015-05-29 2017-01-04 中国移动通信集团浙江有限公司 一种基于移动信令的客流统计方法及装置
CN106600309A (zh) * 2016-10-27 2017-04-26 浙江工商职业技术学院 用于商场客流计算的数据处理方法
WO2017200234A1 (ko) * 2016-05-17 2017-11-23 김명락 유동인구 패턴정보 기반의 미래입점객수 예측방법 및 장치
CN110210045A (zh) * 2018-03-28 2019-09-06 腾讯大地通途(北京)科技有限公司 目标区域的人数估算方法、装置及存储介质
WO2020002094A1 (en) * 2018-06-29 2020-01-02 Telecom Italia S.P.A. Method and system for traffic analysis
CN111083658A (zh) * 2018-10-19 2020-04-28 北京全路通信信号研究设计院集团有限公司 一种区域人员统计方法及系统
CN111182463A (zh) * 2018-11-13 2020-05-19 中国移动通信集团广东有限公司 一种区域实时客流来源分析方法及装置
CN111680830A (zh) * 2020-05-25 2020-09-18 广州衡昊数据科技有限公司 一种基于聚集风险预警的疫情防范方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295787A (zh) * 2015-05-29 2017-01-04 中国移动通信集团浙江有限公司 一种基于移动信令的客流统计方法及装置
WO2017200234A1 (ko) * 2016-05-17 2017-11-23 김명락 유동인구 패턴정보 기반의 미래입점객수 예측방법 및 장치
CN106600309A (zh) * 2016-10-27 2017-04-26 浙江工商职业技术学院 用于商场客流计算的数据处理方法
CN110210045A (zh) * 2018-03-28 2019-09-06 腾讯大地通途(北京)科技有限公司 目标区域的人数估算方法、装置及存储介质
WO2020002094A1 (en) * 2018-06-29 2020-01-02 Telecom Italia S.P.A. Method and system for traffic analysis
CN111083658A (zh) * 2018-10-19 2020-04-28 北京全路通信信号研究设计院集团有限公司 一种区域人员统计方法及系统
CN111182463A (zh) * 2018-11-13 2020-05-19 中国移动通信集团广东有限公司 一种区域实时客流来源分析方法及装置
CN111680830A (zh) * 2020-05-25 2020-09-18 广州衡昊数据科技有限公司 一种基于聚集风险预警的疫情防范方法和装置

Similar Documents

Publication Publication Date Title
CN109996278B (zh) 道路网络质量评估方法、装置、设备及介质
US9953517B2 (en) Risk early warning method and apparatus
CN106529711B (zh) 用户行为预测方法及装置
CN108062088A (zh) 车站终端故障风险预警方法、装置、终端及存储介质
CN112687401B (zh) 聚集风险确定方法及装置、计算机可读介质及电子设备
CN108243421A (zh) 伪基站识别方法及系统
CN112686417B (zh) 一种地铁大客流预测方法、系统及电子设备
CN106295513B (zh) 基于驻留时间概率分布的人数统计方法及装置
CN110493476B (zh) 一种检测方法、装置、服务器及存储介质
CN107332704A (zh) 评估高速铁路移动用户使用lte服务质量的方法和系统
CN115174355A (zh) 故障根因定位模型的生成方法,故障根因定位方法和装置
CN107644390B (zh) 一种取得轨道站台客流数据的方法及装置
CN117807556A (zh) 一种人群疏散交通方式识别方法、系统
CN110602652B (zh) 投诉模型的训练方法、用户投诉的预测方法、装置及设备
CN117455195A (zh) 一种基于用户信息的酒店客房的管理方法及设备
CN112328654A (zh) 一种数据处理方法、装置、设备及存储介质
CN109936813A (zh) 高速铁路用户的识别方法、装置、设备及介质
CN107844805B (zh) 基于公交卡信息识别可疑人员的方法及装置
CN115310735A (zh) 商圈边界识别的方法、装置、设备及存储介质
CN114866433B (zh) 用户业务感知评估方法、装置、设备及计算机存储介质
CN116992267B (zh) 一种基于信令数据的区域人口性别识别方法及系统
CN109816175A (zh) 基于可变分量和结构风险最小的区域人数预测方法及系统
CN116386156B (zh) 一种高速收费站etc终端故障处理方法
CN115438824B (zh) 地铁站入站耗时的预测方法及计算机可读存储介质
CN111324741B (zh) 用户关系识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210205