CN113676840A - 数据处理方法、装置、电子设备、存储介质和程序产品 - Google Patents

数据处理方法、装置、电子设备、存储介质和程序产品 Download PDF

Info

Publication number
CN113676840A
CN113676840A CN202110973958.9A CN202110973958A CN113676840A CN 113676840 A CN113676840 A CN 113676840A CN 202110973958 A CN202110973958 A CN 202110973958A CN 113676840 A CN113676840 A CN 113676840A
Authority
CN
China
Prior art keywords
grid
data
ids
tag
devices
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110973958.9A
Other languages
English (en)
Other versions
CN113676840B (zh
Inventor
刘汉章
葛梦莹
周明
周婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tendcloud Tianxia Technology Co ltd
Original Assignee
Beijing Tendcloud Tianxia Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tendcloud Tianxia Technology Co ltd filed Critical Beijing Tendcloud Tianxia Technology Co ltd
Priority to CN202110973958.9A priority Critical patent/CN113676840B/zh
Publication of CN113676840A publication Critical patent/CN113676840A/zh
Application granted granted Critical
Publication of CN113676840B publication Critical patent/CN113676840B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/021Services related to particular areas, e.g. point of interest [POI] services, venue services or geofences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/14Session management
    • H04L67/146Markers for unambiguous identification of a particular session, e.g. session cookie or URL-encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/52Network services specially adapted for the location of the user terminal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种数据处理方法、装置、电子设备、存储介质和程序产品。该数据处理方法包括:获得设备位置类基础数据;获得设备标签类基础数据;响应于接收到针对预定地理区域中的目标区域进行统计分析的用户输入,确定目标网格ID集合;根据设备位置类基础数据、设备标签类基础数据和目标网格ID集合,确定第三设备ID集合和第二标签ID集合;以及基于第三设备ID集合和第二标签ID集合,统计与统计分析对应的统计指标。

Description

数据处理方法、装置、电子设备、存储介质和程序产品
技术领域
本公开涉及大数据领域,具体涉及基于位置服务技术,特别涉及一种数据处理方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
背景技术
基于位置的服务(Location Based Services,LBS)是一种通过多种方式对移动设备进行定位的技术。本发明基于LBS技术,对手机、平板电脑等移动设备上传的位置信息进行处理和加工,挖掘此类位置信息的数据价值。
随着存储的数据不断地增多,基础的LBS技术有如下局限:每天的位置基础数据都有几十亿,处理过程运算资源消耗极大;输出项不足,原始版本的LBS系统只能统计客流和常驻人口的数值。且容易受到异常刷量设备的影响。系统扩展性差,每次都需要针对特定需求进行开发,极大限制了系统的应用场景。
在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
发明内容
本公开提供了一种数据处理方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
根据本公开的一方面,提供了一种数据处理方法,包括:获得设备位置类基础数据,其中设备位置类基础数据包括第一网格ID集合和第一设备ID集合,其中第一网格ID集合标识多个网格,多个网格通过将预定地理区域划分为单元区域而得到,第一设备ID集合标识落入多个网格内的多个设备,并且第一网格ID集合中的同一网格ID所标识的网格内的设备彼此不重复;获得设备标签类基础数据,其中设备标签类基础数据包括第一标签ID集合、第二网格ID集合以及第二设备ID集合,其中第一标签ID集合标识描述设备属性的多个标签,第二网格ID集合标识多个网格中的至少部分网格,第二设备ID集合标识多个设备中落入至少部分网格内的设备,每个设备标记有多个标签中的至少一个标签,并且第二网格ID集合中的同一网格ID所标识的网格内的设备彼此不重复;响应于接收到针对预定地理区域中的目标区域进行统计分析的用户输入,确定目标网格ID集合,其中目标网格ID集合标识多个网格中至少部分地落入目标区域内的网格;根据设备位置类基础数据、设备标签类基础数据和目标网格ID集合,确定第三设备ID集合和第二标签ID集合,其中第三设备ID集合标识落入目标区域内的不重复的设备,并且第二标签ID集合标识由第三设备ID集合所标识的设备中的至少部分设备的标签;以及基于第三设备ID集合和第二标签ID集合,统计与统计分析对应的统计指标。
根据本公开的另一方面,提供了一种用于数据处理的装置,包括:第一模块,被配置用于获得设备位置类基础数据,其中设备位置类基础数据包括第一网格ID集合和第一设备ID集合,其中第一网格ID集合标识多个网格,多个网格通过将预定地理区域划分为单元区域而得到,第一设备ID集合标识落入多个网格内的多个设备,并且第一网格ID集合中的同一网格ID所标识的网格内的设备彼此不重复;第二模块,被配置为用于获得设备标签类基础数据,其中设备标签类基础数据包括第一标签ID集合、第二网格ID集合以及第二设备ID集合,其中第一标签ID集合标识描述设备属性的多个标签,第二网格ID集合标识多个网格中的至少部分网格,第二设备ID集合标识多个设备中落入至少部分网格内的设备,每个设备标记有多个标签中的至少一个标签,并且第二网格ID集合中的同一网格ID所标识的网格内的设备彼此不重复;第三模块,被配置用于响应于接收到针对预定地理区域中的目标区域进行统计分析的用户输入,确定目标网格ID集合,其中目标网格ID集合标识多个网格中至少部分地落入目标区域内的网格;第四模块,被配置为用于根据设备位置类基础数据、设备标签类基础数据和目标网格ID集合,确定第三设备ID集合和第二标签ID集合,其中第三设备ID集合标识落入目标区域内的不重复的设备,并且第二标签ID集合标识由第三设备ID集合所标识的设备中的至少部分设备的标签;以及第五模块,被配置为用于基于第三设备ID集合和第二标签ID集合,统计与统计分析对应的统计指标。
根据本公开的又一方面,提供了一种计算机设备,包括:存储器、处理器以及存储在存储器上的计算机程序,其中,处理器被配置为执行计算机程序以实现如本公开中所述的方法。
根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如本公开中所述的方法。
根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,其中,计算机程序被处理器执行时实现如本公开中所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图;
图2示出了根据本公开示例性实施例的一种数据处理方法的流程图;
图3示出了根据本公开示例性实施例的预定地理区域和网格的示意图;
图4示出了根据本公开示例性实施例的在预定地理区域中指定的目标区域的示意图;
图5示出了根据本公开示例性实施例的一种设备位置类基础数据生成方法的流程图;
图6示出了根据本公开示例性实施例的一种设备标签类基础数据生成方法的流程图;
图7示出了根据本公开示例性实施例的在图5的方法中关联设备位置类原始数据和设备标签类原始数据的示例过程的流程图;
图8示出了根据本公开示例性实施例的种基于目标网格ID,确定第三设备ID集合和第二标签ID集合方法的流程图;
图9示出了根据本公开示例性实施例的数据处理装置的结构框图;以及
图10示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一示例,而在某些情况下,基于上下文的描述,它们也可以指代不同示例。
在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
现有基于位置服务技术方案中,系统接收用户输入,在存储了海量数据的数据库中检索符合用户需求的数据,再反馈给用户。因为需要检索的数据十分庞大,造成用户等待的时间非常长,同时受限于系统的性能,很多个性化的数据查询无法通过现有技术方案实现。
本公开的实施例提出了一种解决方案,其中预先进行例行化加工数据库存储的数据,再响应用户的输入,快速反馈符合用户个性化需求的数据。由此,能够实现高速例行化加工处理数据库中的海量数据,大幅度减少了运算资源消耗。同时,极大加强了输出数据的类型,即输出数据的自由度和系统的拓展性。用户能够获取更多个性化数据同时等待时间较短,提升了用户体验。
在介绍本公开的示例性实施例之前,首先对本文中使用的若干术语进行解释。
LBS技术:基于位置的服务(Location Based Services,LBS),是利用各类型的定位技术来获取定位设备当前的所在位置,常用的定位方式有:gps,wifi,ip和基站。LBS技术为本系统提供所有位置类数据。
HyperLogLog(HLL):HyperLogLog算法通常用来统计一个集合中不重复的元素个数。HyperLogLog可以对一个集合的元素进行编码,通过编码抽象表示这个集合的所有元素。
下面将结合附图详细描述本公开的实施例。
图1是图示出根据示例性实施例的可以在其中实施本文描述的各种方法的示例系统100的示意图。
参考图1,该系统100包括客户端设备110、服务器120、以及将客户端设备110与服务器120通信地耦合的网络130。
客户端设备110包括显示器114和可经由显示器114显示的客户端应用(APP)112。客户端应用112可以为运行前需要下载和安装的应用程序或者作为轻量化应用程序的小程序(liteapp)。在客户端应用112为运行前需要下载和安装的应用程序的情况下,客户端应用112可以被预先安装在客户端设备110上并被激活。在客户端应用112为小程序的情况下,用户102可以通过在宿主应用中搜索客户端应用112(例如,通过客户端应用112的名称等)或扫描客户端应用112的图形码(例如,条形码、二维码等)等方式,在客户端设备110上直接运行客户端应用112,而无需安装客户端应用112。在一些实施例中,客户端设备110可以是任何类型的移动计算机设备,包括移动计算机、移动电话、可穿戴式计算机设备(例如智能手表、头戴式设备,包括智能眼镜,等)或其他类型的移动设备。在一些实施例中,客户端设备110可以替换地是固定式计算机设备,例如台式机、服务器计算机或其他类型的固定式计算机设备。
服务器120典型地为由互联网服务提供商(ISP)或互联网内容提供商(ICP)部署的服务器。服务器120可以代表单台服务器、多台服务器的集群、分布式系统、或者提供基础云服务(诸如云数据库、云计算、云存储、云通信)的云服务器。将理解的是,虽然图1中示出服务器120与仅一个客户端设备110通信,但是服务器120可以同时为多个客户端设备提供后台服务。
网络130的示例包括局域网(LAN)、广域网(WAN)、个域网(PAN)、和/或诸如互联网之类的通信网络的组合。网络130可以是有线或无线网络。在一些实施例中,使用包括超文本标记语言(HTML)、可扩展标记语言(XML)等的技术和/或格式来处理通过网络130交换的数据。此外,还可以使用诸如安全套接字层(SSL)、传输层安全(TLS)、虚拟专用网络(VPN)、网际协议安全(IPsec)等加密技术来加密所有或者一些链路。在一些实施例中,还可以使用定制和/或专用数据通信技术来取代或者补充上述数据通信技术。
为了本公开实施例的目的,在图1的示例中,客户端应用112可以为上传地理位置数据以及接收并展示服务器120反馈回来的数据的应用程序,该上传地理位置数据的应用程序可以上传基于LBS技术提供的地理位置等功能。与此相应,服务器120可以是与上传地理位置数据以及接收并展示服务器120反馈回来的数据的应用程序一起使用的服务器。该服务器120可以向客户端设备110中运行的客户端应用112提供数据处理功能,例如基于地理位置信息处理等功能。
图1的系统100可以以各种方式配置和操作,以使得能够应用根据本公开所描述的各种方法和装置。
图2是示出根据本公开示例性实施例的一种数据处理方法200的流程图。方法200可以应用于图1的服务器120。方法200可以包括以下步骤。
在步骤201中,获得设备位置类基础数据。设备位置类基础数据包括第一网格ID集合和第一设备ID集合。第一网格ID集合标识多个网格,多个网格通过将预定地理区域划分为单元区域而得到。第一设备ID集合标识落入多个网格内的多个设备。第一网格ID集合中的同一网格ID所标识的网格内的设备彼此不重复。
根据一些实施例,多个相邻的单元区域连接起来共同组成一片预定地理区域,一个单元区域即为一个网格。
图3示出了一个预定地理区域300,该预定地理区域300被分割成了多个单元区域301。每一个单元区域301就是一个网格。这些网格301的网格ID共同组成了第一网格ID集合。在该示例中,每个网格内部都有一个数字,该数字就是在该网格中出现的不重复的设备ID数量,这些设备ID共同组成了第一设备ID。
在其他示例中,预定地理区域可以为某个行政区域的全部地理范围,例如全国、某个省、某个市等等。
在一个示例中,一个面积为100平方公里的正方形预定地理区域,设定单元区域为面积为1平方公里的正方形,那么在预定地理区域内存在100个这样的单元区域。
根据一些实施例,第一网格ID集合所标识的每个网格内的设备ID经过HyperLogLog算法处理,并且因此互不相同。稍后还将具体描述如何生成设备位置类基础数据。
返回参考图2,在步骤202中,获得设备标签类基础数据。设备标签类基础数据包括第一标签ID集合、第二网格ID集合以及第二设备ID集合。第一标签ID集合标识描述设备属性的多个标签。第二网格ID集合标识与预定地理区域相对应的多个网格中的至少部分网格。第二设备ID集合标识多个设备中落入至少部分网格内的设备,每个设备标记有多个标签中的至少一个标签。第二网格ID集合中的同一网格ID所标识的网格内的设备彼此不重复。
根据一些实施例,设备标签代表着设备的属性,该属性可为设备使用者的一些特征,例如设备使用者为男性或女性等等;也可以为设备自身的属性,比如设备的品牌、价格等等。
第二网格ID集合与第一网格ID集合的区别是第二网格ID集合只包括这样的网格ID,在这些网格ID所标识的网格中,带有设备标签的设备在预定时间段(例如,过去一天)内曾经出现过。在一些实施例中,第二网格ID集合可能包括第一网格ID集合中的部分网格ID。在一些实施例中,第二网格ID集合可能包括第一网格ID集合中的全部网格ID。
根据一些实施例,第二网格ID所标识的每个网格内的设备ID经过HyperLogLog算法处理,并且因此互不相同。稍后还将具体描述如何生成设备标签类基础数据。
在步骤203中,响应于接收到针对预定地理区域中的目标区域进行统计分析的用户输入,确定目标网格ID集合。目标网格ID集合标识多个网格中至少部分地落入目标区域内的网格。
根据一些实施例,步骤203中的用户输入包括在呈现有表示预定地理区域的至少一部分的电子地图界面上划定表示目标区域的封闭图形的输入。确定目标网格ID集合包括:基于在电子地图界面上划定的封闭图形,确定被目标区域部分地覆盖的网格的网格ID和被目标区域完整地覆盖的网格的网格ID,以作为目标网格ID集合。
在一个示例中,用户可以通过经由网页选取或者直接上传而在预定地理区域上选取一个封闭的区域,即目标区域。该目标区域包含多个网格,该多个网格包括被目标区域部分地覆盖的网格的网格ID和被目标区域完整地覆盖的网格的网格ID。该多个网格即目标网格集合。统计目标网格集合获得目标网格ID集合。
在一个示例中,用户在客户端应用112输入可以为用户在电子地图界面,划出需要服务器120反馈数据的区域。服务器120接收到客户端应用112的用户输入,确定需要数据反馈的区域包含的网格,进而得到目标网格ID集合。
图4示出了一个示例电子地图界面,其上通过用户输入(例如,触摸输入)指定了一个封闭的区域401,即目标区域。该目标区域401包括被目标区域部分地覆盖的网格402和被目标区域完整地覆盖的网格403。这些网格402和403即响应用户输入的目标网格。
返回参考图2,在步骤204中,根据设备位置类基础数据、设备标签类基础数据和目标网格ID集合,确定第三设备ID集合和第二标签ID集合。第三设备ID集合标识落入目标区域(例如,图4的目标区域401)内的不重复的设备,并且第二标签ID集合标识由第三设备ID集合所标识的设备中的至少部分设备的标签。
根据一些实施例,服务器120基于在步骤201中读取的设备位置类基础数据、在步骤202中读取的设备标签类基础数据以及在步骤203中确定的目标网格ID集合,得到第三设备ID集合和第二标签ID集合。
根据一些实施例,第三设备ID集合中可以包含不带有任何标签的设备的设备ID,即一个设备没有任何的标签,所以带有第二标签ID集合中的任一标签的不重复的设备的数量,可以小于等于第三设备ID集合中的设备的数量。
步骤204将在稍后结合图8具体描述。
在步骤205中,基于第三设备ID集合和第二标签ID集合,统计与统计分析对应的统计指标。
根据一些实施例,统计与统计分析对应的统计指标包括:通过执行脚本操作,统计以下各项中的至少一项:目标区域内的不重复的设备数量和用户自定义统计指标。在一个示例中,服务器120内部可以部署一些功能性的脚本,用来统计分析,向客户端应用112输出统计指标。
在一个示例中,用户输入一个1平方公里的封闭区域,用户想要了解该封闭区域一天内的人流量以及男性人数。此时,第三设备ID集合中包含的元素数量即是该封闭区域一天内的人流量,并且第三设备ID集合中的元素都是唯一的。服务器120还会反馈第二标签ID集合,这个第二标签ID集合包括表示设备的用户为男性的标签ID,同时也会反馈带有这种标签ID所标识的标签的设备的设备ID。每个设备ID是唯一的,进而得到封闭区域一天内的的男性人数。
在一个示例中,可以部署用来计算人数比例的脚本,服务器120得到一个区域的人流量和一个区域的男性数量,通过脚本便可以计算出男性占所有人数的比例。
根据一些实施例,在图2所示的步骤201之前,基于设备位置类原始数据生成设备位置类基础数据。根据一些实施例,在图2所示的步骤201之前,基于设备位置类原始数据和设备标签类原始数据,生成设备标签类基础数据。如在具体实施方式开头段落中提到的,设备位置类基础数据和设备标签类基础数据的生成可以是例行化的,例如在每天的基础上进行。
现在参考图5。图5示出了根据本公开示例性实施例的一种设备位置类基础数据生成方法500的流程图。方法500可以应用于图1的服务器120。方法500可以包括以下步骤。
在一些实施例中,设备位置类原始数据包括经纬度地址数据和设备ID数据,经纬度地址数据表示所述多个设备在预定时间段内所处的位置,设备ID数据表示所述多个设备的设备ID。
在步骤501中,将经纬度地址数据转化为经纬度数值。
根据一些实施例,服务器120调用数据库中存储经纬度地址。该经纬度地址通常是一种特殊的数据格式(例如,geoHash数据),所以服务器120需要先将经纬度地址转换为通用的经度和纬度数值,方便后续的数据转化。
在步骤502中,向落在相同单元区域内的经纬度数值分配相同的网格ID,以生成第一网格ID集合。
根据一些实施例,服务器120调用数据库存储的数据,获取出现在预定地理区域内的所有设备信息,并基于设备出现的网格,得到第一网格ID集。当两个设备同时位于一个网格内时,那么这两个设备的网格ID相同。
在步骤503中,以每网格为基础对每个网格内的设备的设备ID数据进行聚合和去重,以生成第一设备ID集合。
根据一些实施例,服务器120设定出现在同一个网格的设备的网格ID相同,并且基于HyperLogLog算法,将同一网格ID所标识的网格内的设备ID聚合得到单个网格全部的设备ID集合,再去除设备ID集中重复的设备ID,得到第一设备ID集合。
在一个示例中,一个设备在一个统计周期(例如,24小时)内在一个网格内出现了5次,但其设备ID只会在第一设备ID集合中出现1次。
图6示出了根据本公开示例性实施例的一种设备标签类基础数据生成方法600的流程图。方法600可以应用于图1的服务器120。方法600可以包括以下步骤。
在步骤601中,将设备标签类原始数据与设备位置类原始数据相关联。
根据一些实施例,设备位置类原始数据和设备标签类原始数据关联后的数据集合包含:时间戳、经纬度地址(例如,geohash地址)、设备ID和设备标签。
在步骤602中,基于设备标签数据,生成第一标签ID集合。
根据一些实施例,服务器120将调用的设备标签相关的数据加工,获得第一标签ID集合。
根据一些实施例,第一标签ID集合包含预定地理区域内出现的所有表示设备属性的标签ID。
在步骤603中,基于与设备标签类原始数据中的设备ID数据相关联的经纬度地址数据,确定设备标签类原始数据中的设备ID数据所对应的设备所处的网格的网格ID,作为第二网格ID集合。
根据一些实施例,服务器120基于步骤401将设备标签类原始数据与设备位置类原始数据相关联,统计预定地理区域内,带有设备标签的设备出现的网格,将这些网格作为第二网格ID集合。
在步骤604中,基于设备标签类原始数据中的设备ID数据,生成第二设备ID集合。
根据一些实施例,服务器120基于HyperLogLog算法,在一个网格内,基于标签ID聚合得到多个属于不同标签ID的设备ID集合,再去除同一标签ID下设备ID集合中重复的设备ID,最后得到第二设备ID集合。
图7示出了根据本公开的实施例的在方法600中的步骤601中关联设备位置类原始数据和设备标签类原始数据的示例过程的流程图。步骤601可以包括以下步骤。
在步骤701中,确定设备位置类原始数据中与设备标签类原始数据中的设备ID数据共同的设备ID数据。
根据一些实施例,因为设备ID是设备的唯一属性,确定设备位置类原始数据中与设备标签类原始数据中的共同设备ID。
在步骤702中,将设备位置类原始数据中的所确定的设备ID数据所对应的经纬度地址数据与设备标签类原始数据中的设备ID数据相关联。
在一个示例中,基于流技术关联设备位置类原始数据和设备标签类原始数据,该流技术在关联两个数据表只会使用其中的小部分进行关联,关联完成之后再进行下一次关联,所以在处理时,占用内存很小。
图8示出了本公开示例性实施例的在方法200中确定第三设备ID集合和第二标签ID集合(步骤204)的示例过程的流程图。步骤204可以包括以下步骤。
在步骤801中,读取目标网格。
在步骤802中,判断设备是否落入被目标区域完整地覆盖的网格。根据一些实施例,响应于设备落入被目标区域完整地覆盖的网格,执行步骤803;响应于设备落入被目标区域部分地覆盖的网格,执行步骤804。
在步骤803中,对落入被目标区域完整地覆盖的网格内的设备的设备ID进行聚合和去重,得到第四设备ID集合。根据一些实施例,基于设备落入被目标区域完整地覆盖的单个网格的不重复的设备ID集合,对设备落入被目标区域完整地覆盖的所有网格,通过HyperLogLog算法对设备ID聚合去重后,得到第四设备ID集合。
在步骤804中,对落入被所述目标区域部分地覆盖的网格内的设备的设备ID进行聚合、去重和抽取,得到第五设备ID集合。
根据一些实施例,基于单个设备落入被目标区域部分地覆盖的网格的不重复的设备ID集合,对每个设备落入被目标区域部分地覆盖的网格,通过HyperLogLog算法聚合去重后,得到第五设备ID集合。
根据一些实施例,对落入被目标区域部分地覆盖的网格内的设备的设备ID进行抽取包括:对于被目标区域部分地覆盖的每个网格,计算该网格被目标区域覆盖的部分的面积和该网格的面积的比值并且从该网格内的设备的设备ID中抽取比值的设备ID。在一个示例中,一个网格被目标区域部分地覆盖,且覆盖的面积占该网格面积的百分之三十,后续进行抽取设备ID时,只任意抽取该网格内百分之三十的设备ID。
在步骤805中,对第四设备ID集合中的设备ID和第五设备ID集合中的设备ID进行聚合和去重,得到第三设备ID集合。根据一些实施例,基于HyperLogLog算法将设备落入被目标区域完整地覆盖的网格集合中包含的第四设备ID集合和设备落入被目标区域部分地覆盖的网格集合中包含的第五设备ID集合,再次进行聚合去重,得到用户输入的目标区域包含的第三设备ID集合。
在步骤806中,基于第三设备ID集合中的设备ID所标识的设备对应的标签,确定第二标签ID集合。
图9示出了根据本公开示例性实施例的数据处理装置900的结构框图。如图9所示,装置900包括:第一模块901、第二模块902、第三模块903、第四模块904和第五模块905。
第一模块901用于获得设备位置类基础数据。设备位置类基础数据包括第一网格ID集合和第一设备ID集合。第一网格ID集合标识多个网格,多个网格通过将预定地理区域划分为单元区域而得到。第一设备ID集合标识落入多个网格内的多个设备。第一网格ID集合中的同一网格ID所标识的网格内的设备彼此不重复。
第二模块902用于获得设备标签类基础数据,其中设备标签类基础数据包括第一标签ID集合、第二网格ID集合以及第二设备ID集合。第一标签ID集合标识描述设备属性的多个标签。第二网格ID集合标识多个网格中的至少部分网格。第二设备ID集合标识多个设备中落入至少部分网格内的设备,每个设备标记有多个标签中的至少一个标签。第二网格ID集合中的同一网格ID所标识的网格内的设备彼此不重复。
第三模块903用于响应于接收到针对预定地理区域中的目标区域进行统计分析的用户输入,确定目标网格ID集合。目标网格ID集合标识多个网格中至少部分地落入目标区域内的网格。
第四模块904用于根据设备位置类基础数据、设备标签类基础数据和目标网格ID集合,确定第三设备ID集合和第二标签ID集合。第三设备ID集合标识落入目标区域内的不重复的设备,并且第二标签ID集合标识由第三设备ID集合所标识的设备中的至少部分设备的标签。
第五模块905用于基于第三设备ID集合和第二标签ID集合,统计与统计分析对应的统计指标。
应当理解,图9中所示装置900的各个模块可以与参考图2描述的方法200中的各个步骤相对应。由此,上面针对方法200描述的操作、特征和优点同样适用于装置900及其包括的模块。为了简洁起见,某些操作、特征和优点在此不再赘述。
虽然上面参考特定模块讨论了特定功能,但是应当注意,本文讨论的各个模块的功能可以分为多个模块,和/或多个模块的至少一些功能可以组合成单个模块。本文讨论的特定模块执行动作包括该特定模块本身执行该动作,或者替换地该特定模块调用或以其他方式访问执行该动作(或结合该特定模块一起执行该动作)的另一个组件或模块。因此,执行动作的特定模块可以包括执行动作的该特定模块本身和/或该特定模块调用或以其他方式访问的、执行动作的另一模块。
还应当理解,本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。上面关于图10描述的各个模块可以在硬件中或在结合软件和/或固件的硬件中实现。例如,这些模块可以被实现为计算机程序代码/指令,该计算机程序代码/指令被配置为在一个或多个处理器中执行并存储在计算机可读存储介质中。可替换地,这些模块可以被实现为硬件逻辑/电路。
图10示出了可以被用来实施本文所描述的方法的计算机设备1001的示例配置。举例来说,图1中所示的服务器120和/或客户端设备110可以包括类似于计算机设备1000的架构。上述知识图谱构建障碍检测设备/装置也可以全部或至少部分地由计算机设备1000或类似设备或系统实现。
计算机设备1000可以是各种不同类型的设备,例如服务提供商的服务器、与客户端(例如,客户端设备)相关联的设备、片上系统、和/或任何其它合适的计算机设备或计算系统。计算机设备1000的示例包括但不限于:台式计算机、服务器计算机、笔记本电脑或上网本计算机、移动设备(例如,平板电脑、蜂窝或其他无线电话(例如,智能电话)、记事本计算机、移动台)、可穿戴设备(例如,眼镜、手表)、娱乐设备(例如,娱乐器具、通信地耦合到显示设备的机顶盒、游戏机)、电视或其他显示设备、汽车计算机等等。因此,计算机设备1000的范围可以从具有大量存储器和处理器资源的全资源设备(例如,个人计算机、游戏控制台)到具有有限的存储器和/或处理资源的低资源设备(例如,传统的机顶盒、手持游戏控制台)。
计算机设备1000可以包括能够诸如通过系统总线1014或其他适当的连接彼此通信的至少一个处理器1002、存储器1004、(多个)通信接口1006、显示设备1008、其他输入/输出(I/O)设备1010以及一个或更多大容量存储设备1012。
处理器1002可以是单个处理单元或多个处理单元,所有处理单元可以包括单个或多个计算单元或者多个核心。处理器1002可以被实施成一个或更多微处理器、微型计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令来操纵信号的任何设备。除了其他能力之外,处理器1002可以被配置成获取并且执行存储在存储器1004、大容量存储设备1012或者其他计算机可读介质中的计算机可读指令,诸如操作系统1016的程序代码、应用程序1018的程序代码、其他程序1020的程序代码等。
存储器1004和大容量存储设备1012是用于存储指令的计算机可读存储介质的示例,所述指令由处理器1002执行来实施前面所描述的各种功能。举例来说,存储器1004一般可以包括易失性存储器和非易失性存储器二者(例如RAM、ROM等等)。此外,大容量存储设备1012一般可以包括硬盘驱动器、固态驱动器、可移除介质、包括外部和可移除驱动器、存储器卡、闪存、软盘、光盘(例如CD、DVD)、存储阵列、网络附属存储、存储区域网等等。存储器1004和大容量存储设备1012在本文中都可以被统称为存储器或计算机可读存储介质,并且可以是能够把计算机可读、处理器可执行程序指令存储为计算机程序代码的非暂态介质,所述计算机程序代码可以由处理器1002作为被配置成实施在本文的示例中所描述的操作和功能的特定机器来执行。
多个程序模块可以存储在大容量存储设备1012上。这些程序包括操作系统1016、一个或多个应用程序1018、其他程序1020和程序数据1022,并且它们可以被加载到存储器1004以供执行。这样的应用程序或程序模块的示例可以包括例如用于实现以下部件/功能的计算机程序逻辑(例如,计算机程序代码或指令):第一模块901、第二模块902、第三模块903、第四模块904、第五模块905和方法200(包括方法200任何合适的步骤)、方法500、方法600、和/或本文描述的另外的实施例。
模块1016、1018、1020和1022或者其部分可以使用可由计算机设备1000访问的任何形式的计算机可读介质来实施。如本文所使用的,“计算机可读介质”至少包括两种类型的计算机可读介质,也就是计算机存储介质和通信介质。
计算机存储介质包括通过用于存储信息的任何方法或技术实施的易失性和非易失性、可移除和不可移除介质,所述信息诸如是计算机可读指令、数据结构、程序模块或者其他数据。计算机存储介质包括而不限于RAM、ROM、EEPROM、闪存或其他存储器技术,CD-ROM、数字通用盘(DVD)、或其他光学存储装置,磁盒、磁带、磁盘存储装置或其他磁性存储设备,或者可以被用来存储信息以供计算机设备访问的任何其他非传送介质。
与此相对,通信介质可以在诸如载波或其他传送机制之类的已调数据信号中具体实现计算机可读指令、数据结构、程序模块或其他数据。本文所定义的计算机存储介质不包括通信介质。
计算机设备1000还可以包括一个或更多通信接口1006,以用于诸如通过网络、直接连接等等与其他设备交换数据,正如前面所讨论的那样。这样的通信接口可以是以下各项中的一个或多个:任何类型的网络接口(例如,网络接口卡(NIC))、有线或无线(诸如IEEE802.11无线LAN(WLAN))无线接口、全球微波接入互操作(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、BluetoothTM接口、近场通信(NFC)接口等。通信接口1006可以促进在多种网络和协议类型内的通信,其中包括有线网络(例如LAN、电缆等等)和无线网络(例如WLAN、蜂窝、卫星等等)、因特网等等。通信接口1006还可以提供与诸如存储阵列、网络附属存储、存储区域网等等中的外部存储装置(未示出)的通信。
在一些示例中,可以包括诸如监视器之类的显示设备1008,以用于向用户显示信息和图像。其他I/O设备1010可以是接收来自用户的各种输入并且向用户提供各种输出的设备,并且可以包括触摸输入设备、手势输入设备、摄影机、键盘、遥控器、鼠标、打印机、音频输入/输出设备等等。
虽然在附图和前面的描述中已经详细地说明和描述了本公开,但是这样的说明和描述应当被认为是说明性的和示意性的,而非限制性的;本公开不限于所公开的实施例。通过研究附图、公开内容和所附的权利要求书,本领域技术人员在实践所要求保护的主题时,能够理解和实现对于所公开的实施例的变型。在权利要求书中,词语“包括”不排除未列出的其他元件或步骤,并且词语“一”或“一个”不排除多个。在相互不同的从属权利要求中记载了某些措施的仅有事实并不表明这些措施的组合不能用来获益。

Claims (14)

1.一种数据处理的方法,包括:
获得设备位置类基础数据,其中所述设备位置类基础数据包括第一网格ID集合和第一设备ID集合,其中所述第一网格ID集合标识多个网格,所述多个网格通过将预定地理区域划分为单元区域而得到,所述第一设备ID集合标识落入所述多个网格内的多个设备,并且所述第一网格ID集合中的同一网格ID所标识的网格内的设备彼此不重复;
获得设备标签类基础数据,其中所述设备标签类基础数据包括第一标签ID集合、第二网格ID集合以及第二设备ID集合,其中所述第一标签ID集合标识描述设备属性的多个标签,所述第二网格ID集合标识所述多个网格中的至少部分网格,所述第二设备ID集合标识所述多个设备中落入所述至少部分网格内的设备,每个设备标记有所述多个标签中的至少一个标签,并且所述第二网格ID集合中的同一网格ID所标识的网格内的设备彼此不重复;
响应于接收到针对所述预定地理区域中的目标区域进行统计分析的用户输入,确定目标网格ID集合,其中所述目标网格ID集合标识所述多个网格中至少部分地落入所述目标区域内的网格;
根据所述设备位置类基础数据、所述设备标签类基础数据和所述目标网格ID集合,确定第三设备ID集合和第二标签ID集合,其中所述第三设备ID集合标识落入所述目标区域内的不重复的设备,并且所述第二标签ID集合标识由所述第三设备ID集合所标识的设备中的至少部分设备的标签;以及
基于所述第三设备ID集合和所述第二标签ID集合,统计与所述统计分析对应的统计指标。
2.如权利要求1所述的方法,还包括,在获得所述设备位置类基础数据之前:
基于设备位置类原始数据生成所述设备位置类基础数据。
3.如权利要求2所述的方法,其中,所述设备位置类原始数据包括经纬度地址数据和设备ID数据,所述经纬度地址数据表示所述多个设备在预定时间段内所处的位置,所述设备ID数据表示所述多个设备的设备ID,并且其中,生成所述设备位置类基础数据包括:
将所述经纬度地址数据转化为经纬度数值;
向落在相同单元区域内的所述经纬度数值分配相同的网格ID,以生成所述第一网格ID集合;以及
以每网格为基础对每个网格内的设备的设备ID数据进行聚合和去重,以生成所述第一设备ID集合。
4.如权利要求3所述的方法,还包括,在获得所述设备标签类基础数据之前:
将设备标签类原始数据与所述设备位置类原始数据相关联;以及
基于所述设备位置类原始数据和所述设备标签类原始数据,生成所述设备标签类基础数据。
5.如权利要求4所述的方法,其中,所述设备标签类原始数据包括设备标签数据和设备ID数据,所述设备标签数据表示描述设备属性的标签,所述设备ID数据表示位于所述预定地理区域内且标记有所述设备标签数据所表示的至少一个标签的设备的设备ID,并且其中,将设备标签类原始数据与所述设备位置类原始数据相关联包括:
确定所述设备位置类原始数据中与所述设备标签类原始数据中的设备ID数据共同的设备ID数据;以及
将所述设备位置类原始数据中的所确定的设备ID数据所对应的经纬度地址数据与所述设备标签类原始数据中的设备ID数据相关联。
6.如权利要求5所述的方法,其中,生成所述设备标签类基础数据包括:
基于所述设备标签数据,生成所述第一标签ID集合;
基于与所述设备标签类原始数据中的设备ID数据相关联的经纬度地址数据,确定所述设备标签类原始数据中的设备ID数据所对应的设备所处的网格的网格ID,作为所述第二网格ID集合;以及
基于所述设备标签类原始数据中的设备ID数据,生成所述第二设备ID集合。
7.如权利要求1-6中任一项所述的方法,其中,所述用户输入包括在呈现有表示所述预定地理区域的至少一部分的电子地图界面上划定表示所述目标区域的封闭图形的输入,并且其中,确定目标网格ID集合包括:
基于在所述电子地图界面上划定的所述封闭图形,确定被所述目标区域部分地覆盖的网格的网格ID和被所述目标区域完整地覆盖的网格的网格ID,以作为所述目标网格ID集合。
8.如权利要求7所述的方法,其中,确定第三设备ID集合和第二标签ID集合包括:
对落入被所述目标区域完整地覆盖的网格内的设备的设备ID进行聚合和去重,得到第四设备ID集合;
对落入被所述目标区域部分地覆盖的网格内的设备的设备ID进行聚合、去重和抽取,得到第五设备ID集合;
对所述第四设备ID集合中的设备ID和所述第五设备ID集合中的设备ID进行聚合和去重,得到所述第三设备ID集合;以及
基于所述第三设备ID集合中的设备ID所标识的设备对应的标签,确定所述第二标签ID集合。
9.如权利要求8所述的方法,其中,对落入被所述目标区域部分地覆盖的网格内的设备的设备ID进行抽取包括:
对于被所述目标区域部分地覆盖的每个网格:
计算该网格被所述目标区域覆盖的部分的面积和该网格的面积的比值;以及
从该网格内的设备的设备ID中抽取所述比值的设备ID。
10.如权利要求1-6中任一项所述的方法,其中,统计与所述统计分析对应的统计指标包括:
通过执行脚本操作,统计以下各项中的至少一项:所述目标区域内的不重复的设备数量和用户自定义统计指标。
11.一种用于数据处理的装置,包括:
第一模块,用于获得设备位置类基础数据,其中所述设备位置类基础数据包括第一网格ID集合和第一设备ID集合,其中所述第一网格ID集合标识多个网格,所述多个网格通过将预定地理区域划分为单元区域而得到,所述第一设备ID集合标识落入所述多个网格内的多个设备,并且所述第一网格ID集合中的同一网格ID所标识的网格内的设备彼此不重复;
第二模块,用于获得设备标签类基础数据,其中所述设备标签类基础数据包括第一标签ID集合、第二网格ID集合以及第二设备ID集合,其中所述第一标签ID集合标识描述设备属性的多个标签,所述第二网格ID集合标识所述多个网格中的至少部分网格,所述第二设备ID集合标识所述多个设备中落入所述至少部分网格内的设备,每个设备标记有所述多个标签中的至少一个标签,并且所述第二网格ID集合中的同一网格ID所标识的网格内的设备彼此不重复;
第三模块,用于响应于接收到针对所述预定地理区域中的目标区域进行统计分析的用户输入,确定目标网格ID集合,其中所述目标网格ID集合标识所述多个网格中至少部分地落入所述目标区域内的网格;
第四模块,用于根据所述设备位置类基础数据、所述设备标签类基础数据和所述目标网格ID集合,确定第三设备ID集合和第二标签ID集合,其中所述第三设备ID集合标识落入所述目标区域内的不重复的设备,并且所述第二标签ID集合标识由所述第三设备ID集合所标识的设备中的至少部分设备的标签;以及
第五模块,用于基于所述第三设备ID集合和所述第二标签ID集合,统计与所述统计分析对应的统计指标。
12.一种计算机设备,包括:
存储器、处理器以及存储在所述存储器上的计算机程序,
其中,所述处理器被配置为执行所述计算机程序以实现权利要求1-12中任一项所述的方法。
13.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令被计算机执行时使所述计算机执行根据权利要求1-12中任一项所述的方法。
14.一种计算机程序产品,包括计算机程序,其中,所述计算机程序被计算机执行时使所述计算机执行权利要求1-12中任一项所述的方法。
CN202110973958.9A 2021-08-24 2021-08-24 数据处理方法、装置、电子设备、存储介质和程序产品 Active CN113676840B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110973958.9A CN113676840B (zh) 2021-08-24 2021-08-24 数据处理方法、装置、电子设备、存储介质和程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110973958.9A CN113676840B (zh) 2021-08-24 2021-08-24 数据处理方法、装置、电子设备、存储介质和程序产品

Publications (2)

Publication Number Publication Date
CN113676840A true CN113676840A (zh) 2021-11-19
CN113676840B CN113676840B (zh) 2023-08-18

Family

ID=78545586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110973958.9A Active CN113676840B (zh) 2021-08-24 2021-08-24 数据处理方法、装置、电子设备、存储介质和程序产品

Country Status (1)

Country Link
CN (1) CN113676840B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016152044A (ja) * 2015-02-16 2016-08-22 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 目標位置を確定するための方法及び装置
CN110413627A (zh) * 2019-07-30 2019-11-05 腾讯科技(深圳)有限公司 一种信息优化方法、装置、服务器及存储介质
CN111814077A (zh) * 2020-06-30 2020-10-23 北京百度网讯科技有限公司 信息点查询方法、装置、设备和介质
CN112069235A (zh) * 2020-11-16 2020-12-11 脉策(上海)智能科技有限公司 用于呈现目标区域人口数据的方法、设备和存储介质
US20210136161A1 (en) * 2019-11-01 2021-05-06 Microsoft Technology Licensing, Llc Abstracting geographic location to a square block of pre-defined size

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016152044A (ja) * 2015-02-16 2016-08-22 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 目標位置を確定するための方法及び装置
CN110413627A (zh) * 2019-07-30 2019-11-05 腾讯科技(深圳)有限公司 一种信息优化方法、装置、服务器及存储介质
US20210136161A1 (en) * 2019-11-01 2021-05-06 Microsoft Technology Licensing, Llc Abstracting geographic location to a square block of pre-defined size
CN111814077A (zh) * 2020-06-30 2020-10-23 北京百度网讯科技有限公司 信息点查询方法、装置、设备和介质
CN112069235A (zh) * 2020-11-16 2020-12-11 脉策(上海)智能科技有限公司 用于呈现目标区域人口数据的方法、设备和存储介质

Also Published As

Publication number Publication date
CN113676840B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
US11934417B2 (en) Dynamically monitoring an information technology networked entity
US10560465B2 (en) Real time anomaly detection for data streams
JP6482602B2 (ja) 予測ストレージサービス
TW200928811A (en) Collecting and presenting temporal-based action information
WO2022007434A1 (zh) 可视化方法及相关设备
CN110457178A (zh) 一种基于日志采集分析的全链路监控告警方法
CN107885873B (zh) 用于输出信息的方法和装置
CN104937582A (zh) 数据同步
JP6623312B2 (ja) サービス層におけるデータ分析サービスを有効にする方法
WO2022142685A1 (zh) 传染病的传染概率预测方法及装置、存储介质、电子设备
CN110858192A (zh) 一种日志查询方法和系统、日志排查系统和查询终端
CN111198859A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN112559296A (zh) 基于prometheus的虚拟机监控方法和工具、电子设备、存储介质
CN112905805A (zh) 知识图谱构建方法及装置、计算机设备和存储介质
CN113676840B (zh) 数据处理方法、装置、电子设备、存储介质和程序产品
CN116594834A (zh) 一种用于多协议服务器的运维数据处理方法及装置
KR20210000041A (ko) 로그 데이터의 실시간 분석 방법 및 그 장치
CN113515715B (zh) 埋点事件编码的生成方法、处理方法及相关设备
CN116303427A (zh) 数据处理方法及装置、电子设备和存储介质
CN110740046B (zh) 分析服务契约的方法和装置
CN107295087B (zh) 一种实现网系间数据聚合的系统及方法
CN112783920A (zh) 基于数据编排的工业物联网数据实时计算方法和系统
JP2020154381A (ja) 情報処理システム、情報処理装置、情報処理方法およびプログラム
CN117729060B (zh) 一种预警信息群发决策方法和装置
US11895192B1 (en) Managing subscriptions to resource updates made via a target interface

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40064544

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant