CN108280685A - 信息获取方法和装置 - Google Patents

信息获取方法和装置 Download PDF

Info

Publication number
CN108280685A
CN108280685A CN201810055484.8A CN201810055484A CN108280685A CN 108280685 A CN108280685 A CN 108280685A CN 201810055484 A CN201810055484 A CN 201810055484A CN 108280685 A CN108280685 A CN 108280685A
Authority
CN
China
Prior art keywords
grid
information
interest
grids
target point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810055484.8A
Other languages
English (en)
Other versions
CN108280685B (zh
Inventor
张晓迪
陈承泽
徐云峰
陈炜于
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810055484.8A priority Critical patent/CN108280685B/zh
Publication of CN108280685A publication Critical patent/CN108280685A/zh
Priority to US16/250,894 priority patent/US11481666B2/en
Application granted granted Critical
Publication of CN108280685B publication Critical patent/CN108280685B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/048Fuzzy inferencing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/021Services related to particular areas, e.g. point of interest [POI] services, venue services or geofences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/021Services related to particular areas, e.g. point of interest [POI] services, venue services or geofences
    • H04W4/022Services related to particular areas, e.g. point of interest [POI] services, venue services or geofences with dynamic range variability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Remote Sensing (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Automation & Control Theory (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例公开了信息获取方法和装置。该方法的一具体实施方式包括:确定目标兴趣点对应的初始区域,以及将目标兴趣点对应的初始区域划分为多个网格;基于多个网格中的每一个网格的特征信息,分别生成每一个网格的标注信息。从而,可以直接根据网格的标注信息,确定与网格相关联的用户数据是否用于生成目标兴趣点的属性信息,节省了在数据挖掘中获取用于生成目标兴趣点的属性信息所需的用户数据的过程的开销,并且可以根据网格的标注信息,确定目标兴趣点的运营状态。

Description

信息获取方法和装置
技术领域
本申请涉及计算机领域,具体涉及数据挖掘领域,尤其涉及信息获取方法和装置。
背景技术
在对目标兴趣点的数据挖掘时,需要确定用于对目标兴趣点的数据挖掘的用户数据,利用用于对目标兴趣点的数据挖掘的用户数据,生成目标兴趣点的属性信息。目前,通常采用的方式为:以人工方式根据电子地图中与目标兴趣点相关的位置数据来标注目标兴趣点的轮廓,将出现在人工标注的目标兴趣点的轮廓中的用户的用户数据作为用于对目标兴趣点的数据挖掘的用户数据。由于目标兴趣点的数量为海量级别,人工标注的开销巨大。
发明内容
本申请实施例提供了信息获取方法和装置。
第一方面,本申请实施例提供了信息获取方法,该方法包括:确定目标兴趣点对应的初始区域,以及将目标兴趣点对应的初始区域划分为多个网格;基于多个网格中的每一个网格的特征信息,分别生成每一个网格的标注信息,其中,一个网格的特征信息包括以下至少一项:停留时长信息、指示所述网格与其他网格的关联度的关联度信息,一个网格的标注信息用于指示与所述网格相关联的用户数据是否用于生成目标兴趣点的属性信息。
第二方面,本申请实施例提供了信息获取装置,该装置包括:处理单元,配置用于确定目标兴趣点对应的初始区域,以及将目标兴趣点对应的初始区域划分为多个网格;生成单元,配置用于基于多个网格中的每一个网格的特征信息,分别生成每一个网格的标注信息,其中,一个网格的特征信息包括以下至少一项:停留时长信息、指示所述网格与其他网格的关联度的关联度信息,一个网格的标注信息用于指示与所述网格相关联的用户数据是否用于生成目标兴趣点的属性信息。
本申请实施例提供的信息获取方法和装置,通过确定目标兴趣点对应的初始区域,以及将目标兴趣点对应的初始区域划分为多个网格;基于多个网格中的每一个网格的特征信息,分别生成每一个网格的标注信息,其中,一个网格的特征信息包括以下至少一项:停留时长信息、指示网格与其他网格的关联度的关联度信息,一个网格的标注信息用于指示与网格相关联的用户数据是否用于生成目标兴趣点的属性信息。从而,可以直接根据网格的标注信息,确定与网格相关联的用户数据是否用于生成目标兴趣点的属性信息,节省了在数据挖掘中获取用于生成目标兴趣点的属性信息所需的用户数据的过程的开销,并且可以根据网格的标注信息,确定目标兴趣点的运营状态。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了可以应用于本申请的信息获取方法或装置的实施例的示例性系统架构;
图2示出了根据本申请的信息获取方法的一个实施例的流程图;
图3示出了划分网格的一个效果示意图;
图4示出了根据本申请的信息获取装置的一个实施例的结构示意图;
图5示出了适于用来实现本申请实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用于本申请的信息获取方法或装置的实施例的示例性系统架构。
如图1所示,系统架构包括服务器101、网络102、服务器103。网络102可以为有线通信网络。
服务器101可以为提供基于位置的服务(LBS)的服务器,服务器101存储有海量的用户的位置。
服务器103可以从服务器101获取到在一个预设时间段内在目标兴趣点对应的初始区域出现过的多个用户的位置,获取到的属于一个用户的位置可以为多个。服务器103可以将目标兴趣点对应的初始区域划分为多个网格,根据获取到的多个用户的位置,分别生成每一个网格的标注信息。
请参考图2,其示出了根据本申请的信息获取方法的一个实施例的流程。本申请实施例所提供的信息获取方法可以由服务器(例如图1中的服务器103)执行。该方法包括以下步骤:
步骤201,确定目标兴趣点对应的初始区域,以及将目标兴趣点对应的初始区域划分为多个网格。
在本实施例中,目标兴趣点可以为商场、小区等兴趣点。可以首先确定目标兴趣点对应的初始区域。
在本实施例中,可以由服务器确定目标兴趣点对应的初始区域,将目标兴趣点对应的初始区域划分为多个网格。每一个网格为目标兴趣点对应的初始区域经过划分得到的一个子区域。
在本实施例中,在确定目标兴趣点对应的初始区域时,可以根据路网信息确定目标兴趣点对应的初始区域。例如,目标兴趣点为一个商场,可以根据路网数据,确定该商场周边的道路、交通设施例如地铁口,将该商场周边的道路、交通设施包围的区域作为该商场对应的初始区域,该商场对应的初始区域包含该商场占据的实际区域。
在本实施例中,任何一个被定位的可以获取到其在一个时间段内的定位数据的人均可以称之为用户。以目标兴趣点为一个商场为例,一个用户可以为在一个时间段内在该商场占据的实际区域出现过的人,换言之,该用户为在一个时间段内光顾该商场的人。一个用户也可以为在一个时间段内在该商场对应的初始区域中的该商场的附近例如在该商场附近的地铁口出现过的人,换言之,该用户为没有光顾该商场,只是路过该商场的人。
在本实施例中,对于一个目标兴趣点,可以预先获取在预设时间段内的在目标兴趣点对应的初始区域的用户的位置。预设时间段的起始时刻与步骤201的执行时刻之间的时间差小于时间差阈值。换言之,预设时间段的起始时刻是距离步骤201的执行时刻较近的时间点,获取近期在目标兴趣点出现过的用户的位置。获取到的在预设时间段内的在目标兴趣点对应的初始区域的用户的位置中,属于同一个用户的位置可以为多个。属于一个用户的多个位置构成该用户的历史运行轨迹。
例如,目标兴趣点为一个商场,预设时间段为某一天该商场的营业时间段,可以获取到在某一天该商场的营业时间段内多个在该商场对应的初始区域中出过的用户的位置。
在本实施例的一些可选的实现方式中,在将目标兴趣点对应的初始区域划分为多个网格时,可以首先对多个在预设时间段内出现过的用户的位置进行聚类,得到多个位置聚类结果,每一个位置聚类结果中包含多个用户的位置,属于同一个用户的位置可以为多个。可以确定每一个聚类结果的中心点。一个聚类结果中包含至少一个用户的位置,一个聚类结果的中心点可以作为一个待生成的网格的中心点。对于一个待生成网格的中心点,可以将该网格的中心点分别与该网格的中心点距离最近的预设数量个其他待生成的网格的中心点进行连接,得到网格的中心点对应的多个连线,然后,确定多个连线各自的中垂线,多个连线各自的中垂线之间的交点可以构成该网格的角点,从而,构建出该网格的轮廓,得到该网格。
请参考图3,其示出了划分网格的一个效果示意图。
在图3中,示出了目标兴趣点中的一部分网格,一部分网格中的网格301为一个五边形。在图3中,示出了多个位置聚类结果的中心点,即多个网格的中心。两个网格的中心点之间的连线用虚线进行表示。网格301的中心点与距离最近的5个其他网格的中心点连接,构成5个连线,相应地,可以确定5个连线中的每一个连线的中垂线,得到5个中垂线,5个中垂线中的相邻的中垂线的交点构成网格301的角点,从而,得到网格301的轮廓,得到网格301。5个中垂线中的每一个中垂线的一部分分别构成了网格301的一条边。
步骤202,基于多个网格中的每一个网格的特征信息,分别生成每一个网格的标注信息。
在本实施例中,一个网格的特征信息包括以下至少一项:停留时长信息、指示网格与其他网格的关联度的关联度信息,一个网格的标注信息包括:指示与该网格相关联的用户数据是否用于生成目标兴趣点的属性信息。
在本实施例中,可以基于每一个网格的特征信息,分别生成每一个网格的标注信息。从而,在后续的对生成目标兴趣点的属性信息的数据挖掘中,可以根据各个网格的标注信息,直接确定与网格相关的用户数据是否用于生成目标兴趣点的属性信息。
例如,目标兴趣点为一个商场,对目标兴趣点的数据挖掘可以为生成商场的人流量、营业额等属性信息。与一个网格相关的用户数据包括在该网格出现过的用户的消费额、消费的店铺的类型等。当一个网格为该商场对应的初始区域中的该商场的附近的地铁口占据的区域时,由于出现在地铁口的用户不会在地铁口停留,因此,几乎所有在该网格出现过的用户的停留时长均较短,该网格的停留时长信息较小,可以根据网格中的停留时长信息,生成指示与该网格相关联的用户数据不用于生成该商场的属性信息。
又例如,目标兴趣点为一个商场,该商场处于停业状态,对于任意一个对该商场对应的初始区域划分得到的网格,没有或极少用户在网格中出现过,相应地,任意一个网格的停留时长信息接近0。可以根据网格的停留时长信息,确定没有或极少用户在该商场对应的初始区域中的任意一个网格中停留,则可以生成每一个网格的指示不用于生成目标兴趣点的属性信息的标注信息。同时,由于所有网格的标注信息均为指示不用于生成目标兴趣点的属性信息的标注信息,则可以确定该商场的营业状态为停业状态,对该商场的营业状态进行标注,不对该商场进行数据挖掘。
在本实施例中,可以根据每一个网格的停留时长信息,分别生成每一个网格的标注信息。
在本实施例中,在确定在一个网格中出现过的一个用户的停留时长时,可以根据获取到的在该网格内的多个位置的采集时间中最早的采集时间和最晚的采集时间之间的时间差确定在该网格中出现过的用户的停留时长。
在本实施例中,一个网格的停留时长信息可以包括:预设时间段内在该网格出现过的每一个用户的停留时长。在基于一个网格的停留时长信息,生成该网格的标注信息时,可以确定预设时间段内在该网格出现过的停留时长大于时长阈值的用户的数量与所有预设时间段内在该网格出现过的用户的总数量的比例,当该比例大于比例阈值时,则可以生成指示与该网格相关联的用户数据用于生成目标兴趣点的属性信息。当该比例不大于比例阈值时,则可以生成指示与该网格相关联的用户数据不用于生成目标兴趣点的属性信息。
在本实施例中,一个网格的关联度信息可以包括:该网格与每一个其他网格的杰卡德(Jaccard)相似系数。在计算该网格和一个其他网格的杰卡德相似系数,可以首先生成该网格对应的用户标识集合和该其他网格对应的用户标识集合。该网格对应的用户标识集合包括在预设时间段内在该网格出现过的用户的标识、该其他网格对应的用户标识集合在预设时间段内在该其他网格出现过的用户的标识。然后,计算该网格对应的用户标识集合和该其他网格对应的用户标识集合的杰卡德相似系数,将计算出的杰卡德相似系数作为该网格与该其他网格之间的杰卡德相似系数。
在本实施例中,在基于一个网格的关联度信息,生成该网格的标注信息时,可以确定出与该网格的杰卡德相似系数大于相似度阈值的其他网格的数量,当与该网格的杰卡德相似系数大于相似度阈值的其他网格的数量大于数量阈值时,则可以生成该网格的指示与该网格相关联的用户数据用于生成目标兴趣点的属性信息的标注信息。当与该网格的杰卡德相似系数大于相似度阈值的其他网格的数量大于数量阈值时,则可以生成该网格的指示与该网格相关联的用户数据不用于生成目标兴趣点的属性信息的标注信息。
以目标兴趣点为商场为例,当一个网格与多个其他网格的杰卡德相似系数均大于相似度阈值,则表示预设时间段内该网格出现过的一定数量的用户同样也在多个其他网格中出现过,由于光顾商场的用户会有逛商场的行为,因此,当预设时间段内该网格出现过的一定数量的用户同样也在多个其他网格中出现过时,可以相当于在该网格出现过的用户是光顾商场的用户,相应地,则可以生成该网格的指示与该网格相关联的用户数据用于生成目标兴趣点的属性信息的标注信息。
在本实施例的一些可选的实现方式中,一个网格的停留时长信息可以为在预设时间段内在该网格中出现过的所有用户的停留时长的中位数。在基于一个网格的停留时长信息,确定生成该网格的标注信息时,可以判断该网格的停留时长信息即在预设时间段内在该网格中出现过的所有用户的停留时长的中位数是否大于时长阈值,当在预设时间段内在该网格中出现过的所有用户的停留时长的中位数大于时长阈值时,则可以生成该网格的指示与该网格相关联的用户数据用于生成目标兴趣点的属性信息的标注信息。
在本实施例的一些可选的实现方式中,对于一个网格,可以计算该网格与每一个其他网格的杰卡德相似系数。在计算该网格和一个其他网格的杰卡德相似系数,可以首先生成该网格对应的用户标识集合和该其他网格对应的用户标识集合。该网格对应的用户标识集合包括在预设时间段内在该网格出现过的用户的标识、该其他网格对应的用户标识集合在预设时间段内在该其他网格出现过的用户的标识。然后,计算该网格对应的用户标识集合和该其他网格对应的用户标识集合的杰卡德相似系数,将计算出的杰卡德相似系数作为该网格与该其他网格之间的杰卡德相似系数。
在分别计算出每一个网格与所有其他网格之间的杰卡德相似系数之后,可以得到多个网格中的任意两个网格之间的杰卡德相似系数。可以基于多个网格中两两网格之间的杰卡德相似系数,确定出每一个网格对应的总相似度。然后,将确定出的每一个网格对应的总相似度分别作为每一个网格的关联度信息。
例如,可以采用网页排名(pagerank)算法,多个网格中的每一个网格作为网页排名算法中的一个节点,两个节点之间的权重为两个节点各自对应的网格之间的杰卡德相似系数,计算出每一个网格的权重值,将计算出的每一个网格的权重值分别作为每一个网格对应的总相似度。
在本实施例的一些可选的实现方式中,一个网格的停留时长信息可以为在预设时间段内在该网格中出现过的所有用户的停留时长的中位数,一个网格的关联度信息可以为该网格对应的总相似度,在基于该网格的停留时长信息和关联度信息生成该网格的标注信息时,可以判断是否满足预设条件。预设条件包括:该网格的停留时长信息即在预设时间段内在该网格中出现过的所有用户的停留时长的中位数大于时长阈值并且停留时长差值与关联度信息即该网格对应的总相似度的乘积大于乘积阈值。停留时长差值为该网格的停留时长信息与时长阈值的差值。当满足预设条件时,可以生成该网格的指示与该网格相关联的用户数据用于生成目标兴趣点的属性信息的标注信息。当不满足预设条件时,可以生成该网格的指示与该网格相关联的用户数据不用于生成目标兴趣点的属性信息的标注信息。
在本实施例中,服务器可以每间隔预设时长例如一个月执行步骤201-步骤202,相应地,在每一次执行步骤201-步骤202时,步骤201-步骤202中的预设时间段可以为位于该次的执行的起始时刻与上一次的执行的起始时刻之间的一天中的一个时间段。从而,及时更新各个网格的标注信息,可以每间隔预设时长根据更新的标注信息,确定目标兴趣点的运营状态,确保当目标兴趣点的处于停止运营状态时,与网格相关联的用户数据不会被用于生成目标兴趣点的属性信息,产生错误的数据挖掘结果。
请参考图4,作为对上述各图所示方法的实现,本申请提供了一种信息获取装置的一个实施例,该装置实施例与图2所示的方法实施例相对应。
如图4所示,本实施例的信息获取装置包括:处理单元401,生成单元402。其中,处理单元401配置用于确定目标兴趣点对应的初始区域,以及将目标兴趣点对应的初始区域划分为多个网格;生成单元402配置用于基于多个网格中的每一个网格的特征信息,分别生成每一个网格的标注信息,其中,一个网格的特征信息包括以下至少一项:停留时长信息、指示所述网格与其他网格的关联度的关联度信息,一个网格的标注信息用于指示与所述网格相关联的用户数据是否用于生成目标兴趣点的属性信息。
在本实施例的一些可选的实现方式中,处理单元包括:网格划分子单元,配置用于获取预设时间段内在目标兴趣点对应的初始区域出现过的多个用户的位置;对多个用户的位置进行聚类,得到多个位置聚类结果;分别将每一个位置聚类结果的中心点作为待生成的网格的中心点,其中,一个位置聚类结果的中心点对应一个待生成的网格的中心点;对于每一个待生成的网格的中心点,确定与待生成的网格的中心点距离最近的预设数量的其他待生成的网格的中心点,以及基于所述待生成的网格的中心点与确定出的与所述待生成的网格的中心点距离最近的预设数量的其他待生成的网格的中心点,确定所述待生成的网格的轮廓。
在本实施例的一些可选的实现方式中,装置还包括:关联度信息计算单元,配置用于对于多个网格中的每一个网格,计算所述网格与每一个其他网格的杰卡德相似系数,其中,所述网格与一个其他网格的杰卡德相似系数基于预设时间段内在所述网格出现过的用户的数量与在所述其他网格出现过的用户的数量之和以及预设时间段内同时在所述网格和所述其他网格出现过的用户的数量而确定;基于多个网格中两两网格之间的杰卡德相似系数,确定出每一个网格对应的总相似度;将确定出的每一个网格对应的总相似度分别作为每一个网格的关联度信息。
在本实施例的一些可选的实现方式中,生成单元包括:第一标注子单元,配置用于当一个网格的停留时长信息为预设时间段内在所述网格出现过的用户的停留时长的中位数时,对于多个网格中的每一个网格,判断所述网格的停留时长信息是否大于时长阈值;若是,生成所述网格的用于指示与所述网格相关联的用户数据用于生成目标兴趣点的属性信息的标注信息;若否,生成所述网格的用于指示与所述网格相关联的用户数据不用于生成目标兴趣点的属性信息的标注信息。
在本实施例的一些可选的实现方式中,生成单元包括:第二标注子单元,配置用于对于多个网格中的每一个网格,判断所述网格的关联度信息是否大于关联度阈值;若是,生成所述网格的用于指示与所述网格相关联的用户数据用于生成目标兴趣点的属性信息的标注信息;若否,生成所述网格的用于指示与所述网格相关联的用户数据不用于生成目标兴趣点的属性信息的标注信息。
在本实施例的一些可选的实现方式中,生成单元包括:第三标注子单元,配置用于对于多个网格中的每一个网格,判断是否满足预设条件,所述预设条件包括:所述网格的停留时长信息大于时长阈值并且停留时长差值与关联度信息的乘积大于乘积阈值,所述停留时长差值为所述网格的停留时长信息与时长阈值的差值;若是,生成所述网格的用于指示与所述网格相关联的用户数据用于生成目标兴趣点的属性信息的标注信息;若否,生成所述网格的用于指示与所述网格相关联的用户数据不用于生成目标兴趣点的属性信息的标注信息。
图5示出了适于用来实现本申请实施例的服务器的计算机系统的结构示意图。
如图5所示,计算机系统包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中,还存储有计算机系统操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:输入部分506;输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,本申请的实施例中描述的过程可以被实现为计算机程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包括用于执行流程图所示的方法的指令。该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的方法中限定的上述功能。
本申请还提供了一种服务器,该服务器可以配置有一个或多个处理器;存储器,用于存储一个或多个程序,一个或多个程序中可以包含用以执行上述步骤201-202中描述的操作的指令。当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行上述步骤201-202中描述的操作。
本申请还提供了一种计算机可读介质,该计算机可读介质可以是服务器中所包括的;也可以是单独存在,未装配入服务器中。上述计算机可读介质承载有一个或者多个程序,当一个或者多个程序被服务器执行时,使得服务器:确定目标兴趣点对应的初始区域,以及将目标兴趣点对应的初始区域划分为多个网格;基于多个网格中的每一个网格的特征信息,分别生成每一个网格的标注信息,其中,一个网格的特征信息包括以下至少一项:停留时长信息、指示所述网格与其他网格的关联度的关联度信息,一个网格的标注信息用于指示与所述网格相关联的用户数据是否用于生成目标兴趣点的属性信息。
需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括处理单元,生成单元。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (14)

1.一种信息获取方法,包括:
确定目标兴趣点对应的初始区域,以及将目标兴趣点对应的初始区域划分为多个网格;
基于多个网格中的每一个网格的特征信息,分别生成每一个网格的标注信息,其中,一个网格的特征信息包括以下至少一项:停留时长信息、指示所述网格与其他网格的关联度的关联度信息,一个网格的标注信息用于指示与所述网格相关联的用户数据是否用于生成目标兴趣点的属性信息。
2.根据权利要求1所述的方法,将目标兴趣点对应的初始区域划分为多个网格包括:
获取预设时间段内在目标兴趣点对应的初始区域出现过的多个用户的位置;
对多个用户的位置进行聚类,得到多个位置聚类结果;
分别将每一个位置聚类结果的中心点作为待生成的网格的中心点,其中,一个位置聚类结果的中心点对应一个待生成的网格的中心点;
对于每一个待生成的网格的中心点,确定与待生成的网格的中心点距离最近的预设数量的其他待生成的网格的中心点,以及基于所述待生成的网格的中心点与确定出的与所述待生成的网格的中心点距离最近的预设数量的其他待生成的网格的中心点,确定所述待生成的网格的轮廓。
3.根据权利要求2所述的方法,所述方法还包括:
对于多个网格中的每一个网格,计算所述网格与每一个其他网格的杰卡德相似系数,其中,所述网格与一个其他网格的杰卡德相似系数基于预设时间段内在所述网格出现过的用户的数量与在所述其他网格出现过的用户的数量之和以及预设时间段内同时在所述网格和所述其他网格出现过的用户的数量而确定;
基于多个网格中两两网格之间的杰卡德相似系数,确定出每一个网格对应的总相似度;
将确定出的每一个网格对应的总相似度分别作为每一个网格的关联度信息。
4.根据权利要求3所述的方法,一个网格的停留时长信息为预设时间段内在所述网格出现过的用户的停留时长的中位数;以及
基于多个网格中的每一个网格的特征信息,分别生成每一个网格的标注信息包括:
对于多个网格中的每一个网格,判断所述网格的停留时长信息是否大于时长阈值;
若是,生成所述网格的用于指示与所述网格相关联的用户数据用于生成目标兴趣点的属性信息的标注信息;
若否,生成所述网格的用于指示与所述网格相关联的用户数据不用于生成目标兴趣点的属性信息的标注信息。
5.根据权利要求3所述的方法,基于多个网格中的每一个网格的特征信息,分别生成每一个网格的标注信息包括:
对于多个网格中的每一个网格,判断所述网格的关联度信息是否大于关联度阈值;
若是,生成所述网格的用于指示与所述网格相关联的用户数据用于生成目标兴趣点的属性信息的标注信息;
若否,生成所述网格的用于指示与所述网格相关联的用户数据不用于生成目标兴趣点的属性信息的标注信息。
6.根据权利要求3所述的方法,基于多个网格中的每一个网格的特征信息,分别生成每一个网格的标注信息包括:
对于多个网格中的每一个网格,判断是否满足预设条件,所述预设条件包括:所述网格的停留时长信息大于时长阈值并且停留时长差值与关联度信息的乘积大于乘积阈值,所述停留时长差值为所述网格的停留时长信息与时长阈值的差值;
若是,生成所述网格的用于指示与所述网格相关联的用户数据用于生成目标兴趣点的属性信息的标注信息;
若否,生成所述网格的用于指示与所述网格相关联的用户数据不用于生成目标兴趣点的属性信息的标注信息。
7.一种信息获取装置,包括:
处理单元,配置用于确定目标兴趣点对应的初始区域,以及将目标兴趣点对应的初始区域划分为多个网格;
生成单元,配置用于基于多个网格中的每一个网格的特征信息,分别生成每一个网格的标注信息,其中,一个网格的特征信息包括以下至少一项:停留时长信息、指示所述网格与其他网格的关联度的关联度信息,一个网格的标注信息用于指示与所述网格相关联的用户数据是否用于生成目标兴趣点的属性信息。
8.根据权利要求7所述的装置,处理单元包括:
网格划分子单元,配置用于获取预设时间段内在目标兴趣点对应的初始区域出现过的多个用户的位置;对多个用户的位置进行聚类,得到多个位置聚类结果;分别将每一个位置聚类结果的中心点作为待生成的网格的中心点,其中,一个位置聚类结果的中心点对应一个待生成的网格的中心点;对于每一个待生成的网格的中心点,确定与待生成的网格的中心点距离最近的预设数量的其他待生成的网格的中心点,以及基于所述待生成的网格的中心点与确定出的与所述待生成的网格的中心点距离最近的预设数量的其他待生成的网格的中心点,确定所述待生成的网格的轮廓。
9.根据权利要求8所述的装置,所述装置还包括:
关联度信息计算单元,配置用于对于多个网格中的每一个网格,计算所述网格与每一个其他网格的杰卡德相似系数,其中,所述网格与一个其他网格的杰卡德相似系数基于预设时间段内在所述网格出现过的用户的数量与在所述其他网格出现过的用户的数量之和以及预设时间段内同时在所述网格和所述其他网格出现过的用户的数量而确定;基于多个网格中两两网格之间的杰卡德相似系数,确定出每一个网格对应的总相似度;将确定出的每一个网格对应的总相似度分别作为每一个网格的关联度信息。
10.根据权利要求9所述的装置,生成单元包括:
第一标注子单元,配置用于当一个网格的停留时长信息为预设时间段内在所述网格出现过的用户的停留时长的中位数时,对于多个网格中的每一个网格,判断所述网格的停留时长信息是否大于时长阈值;若是,生成所述网格的用于指示与所述网格相关联的用户数据用于生成目标兴趣点的属性信息的标注信息;若否,生成所述网格的用于指示与所述网格相关联的用户数据不用于生成目标兴趣点的属性信息的标注信息。
11.根据权利要求9所述的装置,生成单元包括:
第二标注子单元,配置用于对于多个网格中的每一个网格,判断所述网格的关联度信息是否大于关联度阈值;若是,生成所述网格的用于指示与所述网格相关联的用户数据用于生成目标兴趣点的属性信息的标注信息;若否,生成所述网格的用于指示与所述网格相关联的用户数据不用于生成目标兴趣点的属性信息的标注信息。
12.根据权利要求9所述的装置,生成单元包括:
第三标注子单元,配置用于对于多个网格中的每一个网格,判断是否满足预设条件,所述预设条件包括:所述网格的停留时长信息大于时长阈值并且停留时长差值与关联度信息的乘积大于乘积阈值,所述停留时长差值为所述网格的停留时长信息与时长阈值的差值;若是,生成所述网格的用于指示与所述网格相关联的用户数据用于生成目标兴趣点的属性信息的标注信息;若否,生成所述网格的用于指示与所述网格相关联的用户数据不用于生成目标兴趣点的属性信息的标注信息。
13.一种服务器,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN201810055484.8A 2018-01-19 2018-01-19 信息获取方法和装置 Active CN108280685B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810055484.8A CN108280685B (zh) 2018-01-19 2018-01-19 信息获取方法和装置
US16/250,894 US11481666B2 (en) 2018-01-19 2019-01-17 Method and apparatus for acquiring information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810055484.8A CN108280685B (zh) 2018-01-19 2018-01-19 信息获取方法和装置

Publications (2)

Publication Number Publication Date
CN108280685A true CN108280685A (zh) 2018-07-13
CN108280685B CN108280685B (zh) 2019-07-23

Family

ID=62804225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810055484.8A Active CN108280685B (zh) 2018-01-19 2018-01-19 信息获取方法和装置

Country Status (2)

Country Link
US (1) US11481666B2 (zh)
CN (1) CN108280685B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347775A (zh) * 2019-07-17 2019-10-18 北京百度网讯科技有限公司 兴趣点状态校正方法、装置、设备及计算机可读存储介质
CN110726418A (zh) * 2019-10-10 2020-01-24 北京百度网讯科技有限公司 兴趣点区域确定方法、装置、设备及存储介质
CN110782289A (zh) * 2019-10-28 2020-02-11 方文珠 一种基于用户画像的业务推荐方法和系统
CN111352964A (zh) * 2020-02-07 2020-06-30 北京梧桐车联科技有限责任公司 获取兴趣点信息的方法、装置、设备及存储介质
CN112052848A (zh) * 2020-08-24 2020-12-08 腾讯科技(深圳)有限公司 街区标注中样本数据的获取方法及装置
CN112732858A (zh) * 2021-01-25 2021-04-30 腾讯科技(深圳)有限公司 路径规划方法、装置、计算机设备及存储介质
CN113256441A (zh) * 2021-06-03 2021-08-13 探探文化发展(北京)有限公司 一种社交场景下用户推荐方法、装置、设备及存储介质
CN117202106A (zh) * 2023-10-19 2023-12-08 北京融信数联科技有限公司 基于信令数据的区域空间场所属性标注方法、系统和介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111813875B (zh) * 2019-04-11 2024-04-05 浙江宇视科技有限公司 地图点位信息处理方法、装置及服务器
CN110851738B (zh) * 2019-10-28 2021-03-19 百度在线网络技术(北京)有限公司 获取poi状态信息的方法、装置、设备和计算机存储介质
CN110851726B (zh) * 2019-11-18 2022-07-26 百度在线网络技术(北京)有限公司 兴趣点选择方法、装置以及电子设备
JP7256111B2 (ja) * 2019-11-29 2023-04-11 サトーホールディングス株式会社 情報処理装置、情報処理システム、プログラム
CN112613546A (zh) * 2020-12-16 2021-04-06 北京锐安科技有限公司 一种轨迹生成方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105844681A (zh) * 2016-03-22 2016-08-10 北京建飞无限科技有限公司 热力图绘制方法及装置
CN106204118A (zh) * 2016-06-30 2016-12-07 百度在线网络技术(北京)有限公司 一种用于商圈发现的方法与装置
CN106384250A (zh) * 2016-09-13 2017-02-08 百度在线网络技术(北京)有限公司 一种选址方法及装置
CN107070961A (zh) * 2016-09-30 2017-08-18 阿里巴巴集团控股有限公司 基于地理位置数据的热点区域确定方法及装置
CN107291918A (zh) * 2017-06-28 2017-10-24 武汉大学 一种兴趣点poi同位模式的可视化挖掘方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9846887B1 (en) * 2012-08-30 2017-12-19 Carnegie Mellon University Discovering neighborhood clusters and uses therefor
US9904932B2 (en) * 2014-12-29 2018-02-27 Google Llc Analyzing semantic places and related data from a plurality of location data reports
US10592914B2 (en) * 2015-03-24 2020-03-17 PlaceIQ, Inc. Device-dwell graphs
US11093561B2 (en) * 2017-12-11 2021-08-17 Facebook, Inc. Fast indexing with graphs and compact regression codes on online social networks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105844681A (zh) * 2016-03-22 2016-08-10 北京建飞无限科技有限公司 热力图绘制方法及装置
CN106204118A (zh) * 2016-06-30 2016-12-07 百度在线网络技术(北京)有限公司 一种用于商圈发现的方法与装置
CN106384250A (zh) * 2016-09-13 2017-02-08 百度在线网络技术(北京)有限公司 一种选址方法及装置
CN107070961A (zh) * 2016-09-30 2017-08-18 阿里巴巴集团控股有限公司 基于地理位置数据的热点区域确定方法及装置
CN107291918A (zh) * 2017-06-28 2017-10-24 武汉大学 一种兴趣点poi同位模式的可视化挖掘方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347775A (zh) * 2019-07-17 2019-10-18 北京百度网讯科技有限公司 兴趣点状态校正方法、装置、设备及计算机可读存储介质
CN110347775B (zh) * 2019-07-17 2022-11-08 北京百度网讯科技有限公司 兴趣点状态校正方法、装置、设备及计算机可读存储介质
CN110726418A (zh) * 2019-10-10 2020-01-24 北京百度网讯科技有限公司 兴趣点区域确定方法、装置、设备及存储介质
US11740102B2 (en) 2019-10-10 2023-08-29 Beijing Baidu Netcom Science Technology Co., Ltd. Method, apparatus, device and storage medium for determining point of interest area
CN110782289A (zh) * 2019-10-28 2020-02-11 方文珠 一种基于用户画像的业务推荐方法和系统
CN110782289B (zh) * 2019-10-28 2020-11-10 四川旅投数字信息产业发展有限责任公司 一种基于用户画像的业务推荐方法和系统
CN111352964A (zh) * 2020-02-07 2020-06-30 北京梧桐车联科技有限责任公司 获取兴趣点信息的方法、装置、设备及存储介质
CN111352964B (zh) * 2020-02-07 2023-09-12 北京梧桐车联科技有限责任公司 获取兴趣点信息的方法、装置、设备及存储介质
CN112052848B (zh) * 2020-08-24 2022-09-20 腾讯科技(深圳)有限公司 街区标注中样本数据的获取方法及装置
CN112052848A (zh) * 2020-08-24 2020-12-08 腾讯科技(深圳)有限公司 街区标注中样本数据的获取方法及装置
CN112732858B (zh) * 2021-01-25 2022-06-07 腾讯科技(深圳)有限公司 路径规划方法、装置、计算机设备及存储介质
CN112732858A (zh) * 2021-01-25 2021-04-30 腾讯科技(深圳)有限公司 路径规划方法、装置、计算机设备及存储介质
CN113256441A (zh) * 2021-06-03 2021-08-13 探探文化发展(北京)有限公司 一种社交场景下用户推荐方法、装置、设备及存储介质
CN117202106A (zh) * 2023-10-19 2023-12-08 北京融信数联科技有限公司 基于信令数据的区域空间场所属性标注方法、系统和介质
CN117202106B (zh) * 2023-10-19 2024-05-14 北京融信数联科技有限公司 基于信令数据的区域空间场所属性标注方法、系统和介质

Also Published As

Publication number Publication date
US20190228337A1 (en) 2019-07-25
US11481666B2 (en) 2022-10-25
CN108280685B (zh) 2019-07-23

Similar Documents

Publication Publication Date Title
CN108280685B (zh) 信息获取方法和装置
Yuan et al. A branch-and-price algorithm for the home health care scheduling and routing problem with stochastic service times and skill requirements
CN109359793A (zh) 一种针对新场景的预测模型训练方法及装置
CN107908740A (zh) 信息输出方法和装置
CN110060090A (zh) 推荐商品组合的方法、装置、电子设备及可读存储介质
CN109472523A (zh) 用于分拣货物的方法和装置
CN107944481A (zh) 用于生成信息的方法和装置
CN110019087A (zh) 数据处理方法及其系统
CN109993568A (zh) 信息推送的方法和装置
CN109447635A (zh) 用于区块链的信息存储方法和装置
CN112950119B (zh) 即时物流订单拆分方法、装置、设备及存储介质
CN107911449A (zh) 用于推送信息的方法和装置
CN109685537A (zh) 用户行为的分析方法、装置、介质和电子设备
CN110046784A (zh) 一种用户准入的风险确定方法及装置
CN109684624A (zh) 一种自动识别订单地址路区的方法和装置
CN113033820A (zh) 联邦学习方法、装置以及设备
CN106708871A (zh) 一种社交业务特征用户的识别方法和装置
CN108920618A (zh) 一种对象调用关系的保存方法、装置、介质及电子设备
CN109597810A (zh) 一种任务切分方法、装置、介质及电子设备
CN114077912A (zh) 数据预测方法以及数据预测装置
CN110070380A (zh) 信息生成方法和装置
CN108512674A (zh) 用于输出信息的方法、装置和设备
CN113837383A (zh) 模型训练方法、装置、电子设备及存储介质
CN110197316A (zh) 运营数据的处理方法、装置、计算机可读介质及电子设备
CN109409947A (zh) 一种基于客户端的居民出行调查方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant