CN106503271A - 移动互联网和云计算环境下子空间Skyline查询的智能商店选址系统 - Google Patents

移动互联网和云计算环境下子空间Skyline查询的智能商店选址系统 Download PDF

Info

Publication number
CN106503271A
CN106503271A CN201611150484.3A CN201611150484A CN106503271A CN 106503271 A CN106503271 A CN 106503271A CN 201611150484 A CN201611150484 A CN 201611150484A CN 106503271 A CN106503271 A CN 106503271A
Authority
CN
China
Prior art keywords
data
subspace
shop
inquiry
store data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611150484.3A
Other languages
English (en)
Inventor
季长清
汪祖民
陈文胜
李媛媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University
Original Assignee
Dalian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University filed Critical Dalian University
Priority to CN201611150484.3A priority Critical patent/CN106503271A/zh
Publication of CN106503271A publication Critical patent/CN106503271A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Abstract

移动互联网和云计算环境下子空间Skyline查询的智能商店选址系统,属于Spark技术领域,以改进现有的对大量商店数据提取和分析方法,大大减少数据量,降低海量数据处理中对软硬件的要求,提高数据处理的效率,要点是云中心服务系统主要是由多个计算节点组成的Spark云平台;云中心服务系统接收移动终端发送的商店选址查询请求,该查询请求包括对属性的偏好及各属性的阈值,且云中心服务系统执行网格剪枝策略及分布式映射过滤方法,承担空间Skyline查询流的主要计算,并向移动终端返回查询得到的商店选址。

Description

移动互联网和云计算环境下子空间Skyline查询的智能商店 选址系统
技术领域
本发明属于Spark技术领域,是一种移动互联网和云计算环境下子空间Skyline查询的智能商店选址通信系统,其中涉及到网格剪枝策略、α-filtering过滤方法、β-filtering、γ-filtering过滤方法,以及智能移动终端应用的开发。
背景技术
随着现代科学技术特别是信息技术的不断发展,智能技术在各行各业得到了越来越多的应用。从智能商店选址通信系统、智能家居、智能交通、智能电网等到2009年由IBM提出“智慧地球”的概念,智能技术正在改变的生活。智能商店选址通信系统通过对商店内设备、环境和使用者信息的采集、监测、管理和控制,实现商店环境的组合优化,从而为使用者提供满足商店物设计功能需求和现代信息技术应用需求。例如上海新国际博览中心采用国际先进的CERBERCED的CS11消防智能报警系统,各火灾报警控制盘之间通过网络可以交换命令和信息,做到信息共享,工作人员只需在消防中心设置一台CS11主机,而在其它展厅的设备间里各设置一台多功能分机(UT),日常则无需人管理。
然而,爆炸式增长的商店数据已远远超出人们所能承受的程度,对于海量的商店数据,如何能够快速有效地进行管理与检索,继而从中获取潜在的有价值的信息成为人们关注的问题。海量数据的增长,使得传统的数据分析处理技术已经越来越不适应当前密集型数据分析和处理的需求。为了节约成本,为大规模数据的存储和计算提供分布式处理框架,云计算、大数据、云存储、Spark、BigTable等相关技术被提出。云计算作为新兴的分布式共享计算平台,它可以建立在大规模廉价PC机的基础上,利用网络中的资源进行海量数据的存储和计算。由于云计算技术非常适合处理海量数据,许多公司研究并开发了云计算处理平台,其中包括Google的搜索引擎云平台、IBM的“蓝云”平台、Amazon的弹性计算云和Hadoop开源云平台等。Hadoop作为一种大规模数据分布式处理的软件框架,它的核心技术包含分布式文件系统HDFS和并行编程模型。思科公司预测,2016年全球将有79%的数据中心托管着云计算平台。海量数据存储在这些云计算平台中,由于数据量过大,使得这些海量数据处理技术对软硬件要求非常高、系统资源占用非常多,带来了算法效率低下的问题。海量数据处理是一个热点的研究方向,众多学者们依托云计算平台提出很多新的高效的海量数据处理算法,Skyline算法是其中的一种高效的数据查询和提取方法,可以快速地从海量数据中抽取出关键的信息,大大减少数据量,降低海量数据处理中对软硬件的要求,提高数据处理的效率。Skyline算法作为一种有效的数据提取与处理方法,主要考虑的是如何从庞大的数据集中找出人们最感兴趣或最关心的信息,在海量数据分析处理方面具有广泛的应用,如多目标决策、商店寻址、环境监控、图像检索、个性化推荐、数据挖掘等。Skyline查询可以为用户在决策过程中提供多属性的评判原则,评价函数也可以根据不同的应用采用不同的测量方法(例如欧几里德距离、空间距离等)以提升用户的体验质量;对海量商务交易数据记录,Skyline计算能帮助市场分析人员进行价格及市场策略的定位;在环境监控中,通过分析传感器网络积累起来的海量数据,可以分析评价出潜在的自然灾害与风险。此外,Skyline查询也被应用到图像检索,商店寻址等领域。传统的数据提取和分析方法已不能适用于如今爆炸性增长的数据。
发明内容
根据上述背景技术中存在的缺陷和不足,本发明提供了移动互联网和云计算环境下的子空间Skyline查询的智能商店选址通信系统,以改进现有的对大量商店数据提取和分析方法,大大减少数据量,降低海量数据处理中对软硬件的要求,提高数据处理的效率。
为了实现上述目的,本发明所采用的技术方案是:
一种移动互联网和云计算环境下子空间Skyline查询的智能商店选址系统,包括云中心服务系统和移动终端,云中心服务系统主要是由多个计算节点组成的Spark云平台;云中心服务系统接收移动终端发送的商店选址查询请求,该查询请求包括对属性的偏好及各属性的阈值,且云中心服务系统执行网格剪枝策略及分布式映射过滤方法,承担空间Skyline查询流的主要计算,并向移动终端返回查询得到的商店选址。
进一步的,云中心服务系统接收移动终端发送的商店选址查询请求,从其存储的已有的商店信息中提取用户感兴趣数据,并且按照用户偏好对其进行排序得到一个有序的数据集,然后扫描比较数据点的支配关系得到子空间Skyline结果,云中心服务系统基于分布式映射过滤方法,利用用户提供的属性的阈值进行过滤,返回给移动终端以商店选址的候选结果集。
进一步的,网格剪枝策略的处理步骤具体为:一个d维的商店数据空间S,其包括商店物的结构数据、商店物内部设备数据、商店物的环境数据,P是商店数据空间S上的数据集,每个商店数据点p∈P被表示为{x1,x2,...,xd},每一维网格的宽度表示为λi,数据集中任意数据点p的网格坐标通过计算得到,即任意网格的标识表示为Intkeyj,它在网格空间中的坐标表示为(Intkeyj.x1,Intkeyj.x2,...,Intkeyj.xd),数据集P中的每个数据点都会被映射到相应的网格中,对应一个网格单元桥;假定存在一个二元偏序关系>是在子空间F上的,偏序关系>表示在F中属性重要性的大于关系,f1,f2是F上的两个属性,f1,f2∈F,如果f1的重要性大于f2,那么它们的偏序关系可以表示为f1>f2,得到一个有序的k维子空间{f1,f2,...,fk}。
进一步的,α-filtering过滤方法的处理步骤具体为:假定属性取值越小越好,多目标决策的优化函数可被定义为min(f1(x),f2(x),...,fk(x)),其中x∈P,fi(x)是数据对象x在第i维属性上的取值。
上述公式用来计算第一维属性上取值最偏离用户偏好的商店数据对象集合R1,R0表示初始化商店数据集P,由此获得第一维属性上取值相对优的商店数据集合 接下来在第一维已经相对优的商店数据集合中,利用公式(4.2)获得第二维属性取值最差的商店数据对象集合,然后从商店数据集合中剔除掉,以此类推,最后得到k维属性取值都相对优的商店数据对象集合
进一步的,β-filtering过滤方法处理步骤具体为:假定商店子空间F中的属性按用户偏好排序的结果为{Mileage,Price,OccupancyRate},β123)是每个属性对应的阈值,当β1=1时,计算得到R1={p5,p6},而当β1=7/9时,R1={p5,p6,p1,p9},其中:P是在商店数据空间上的数据集。
进一步的,所述分布式映射过滤的方法,其特征在于,在Spark的Map过程中,利用α-filtering、β-filtering过滤方法进行过滤,在过滤后对不符合用户偏好的数据进行预处理;在Map阶段的最后,根据关键词key进行value值的哈希匹配的过程为γ-filtering过滤方法,如果该所述哈希匹配不成功则通过洗牌过程送到Reduce端汇总处理,如图5。
进一步的,子空间Skyline查询(如图2)的定义为:假定一个d维的商店数据空间S={s1,s2,...,sd},P={p1,p2,...,pn}是用户申请查询的商店信息,每个用户申请查询的商店数据点pi∈P都是空间S上的d维商店数据点;
F是商店数据空间S上的子空间,云中心服务系统利用网格剪枝策略将数据空间S分成一个个子空间,|F|=k且k≤d,d是全空间数据维数k子空间数据维数,全空间F中提取用户感兴趣的字段是k,在商店数据空间S上的用户申请查询数据对象pi,pi在子空间F上的投影即为用户申请查询的商店数据与剪枝后的数据子空间重合,也便是云服务中心系统筛选的商店数据是用户所需要的,也被表示为p′i是k元组,当且仅当子空间F上不存在用户不需要的商店数据点p′j支配用户需要的商店数据p′i,p′i是云中心服务系统通过子空间Skyline得到的结果。
进一步的,云中心服务系统执行网格剪枝策略及分布式映射过滤方法,承担空间Skyline查询流的主要计算的方法是:利用Spark作业将输入的数据以<key,value>对的形式生成索引文件,然后启动Spark作业扫描整个索引文件,读索引文件到Hashmap中,它是一种hash结构,包含两部分内容:key和value,数据结构中的key部分用来缓存每维属性的值,value部分用来缓存具有相同值的数据对象编号的列表,所有取该值的数据对象被包含在列表里。
有益效果:上述以改进现有的对大量商店数据提取和分析方法,大大减少数据量,降低海量数据处理中对软硬件的要求,提高数据处理的效率。
附图说明
图1为移动互联网和云计算环境下子空间Skyline查询的智能商店选址通信系统示意图;
图2为子空间Skyline查询的系统模型示意图;
图3为基于网格的剪枝策略示意图;
图4为α-filtering过滤公式示意图;
图5为Spark构建索引文件示意图;
图6为子空间Skyline查询过程具体实施过程示意图。
实施例1:移动互联网和云计算环境下子空间Skyline查询系统,包括云中心服务系统和智能移动客户端系统,其中的云中心服务系统提供网格剪枝策略及α-filtering、β-filtering和γ-filtering过滤,来执行Skyline算法,智能移动客户端便对属性的偏好程度并输入各属性的阈值并且发送查询结果,来完善商店的属性。即该系统执行步骤如下:
S1.云中心服务系统以Skyline算法提供网格剪枝策略,对大规模数据进行筛选。
S2.智能移动客户端在终端设备上运行程序,通过服务器进行通信,发送请求,并与云中心服务系统进行信息交互。
在一个实施例中,利用其中的算法,将商店内设备、环境和使用者信息的采集、监测、管理和控制集为一体,有效地实现组合一体化。在商店中,将商店一系列的庞大的数据库都交付于skyline算法,并通过这种算法进行检测商店的相关参数,可以得到更快的定址选择,从而让商店定址这个庞大的整体归结为一个小的分支任务,在通过移动客户端的操控,一套完整高效商店定址方法便脱颖而出。
在另一实施例中,面对高密度的居住地,保障人民生活安全的问题便显得尤为重要,正是基于这一点,通过前线设备连接后台服务中心,以商店为平台,强调智能化系统设计与商店定址方法的配合和协调,如各类智能参数如:综合布线系统(GCS,PDS)、火灾报警系统(SAS)、商店设备管理系统(BAS)、火灾报警系统(FAS)等,将商店本身的情况如实的汇报,集多层技术于一身,通过用户的喜好来进行Skyline决策,从而更好的进行定址选择。当一个商家在选择最佳商店定址时,可以根据多重因素,在大规模数据的基础上,在触控屏上,以交互的方式根据喜好进行三种skyline数据过滤方法的因素定义,从而在大量影响因素中,快速找到满足自已要求的商店地址。
在一个实施例中,智能商店选址通信系统具备智能控制效果,大大加强于普通的控制方式,与传统自动控制系统相比,基于Skyline的多目标智能决策系统具有快速空间大数据结构分析的特点,能总体自寻优,具有自适应、自组织、自学习和自协调能力,其可以利用多过滤算法自动地完成其目标的控制过程,其智能机可以在熟悉或不熟悉的环境中自动地或人机交互地完成拟人任务,进一步的减少人类主观选择的误差与决策随机不准确性。可以在此算法的基础上,利用分布式计算与大数据存储与智能处理,从分析对象出发,构建模拟逻辑和神经网络,在此基础上,将好的优势传承给下一代,是为智能算法,一步步地完善商店网络智能定址系统,以高速度计算并处理庞大而复杂的商务数据。
在一个实施例中,基于云计算分布式处理系统,采取了分布式映射过滤的方法,在Spark的Map过程中,利用α-filtering、β-filtering进行过滤,在过滤后对不符合用户喜好的商店定址数据进行了预处理,在此过程中如果同时满足了α-filtering、β-filtering过程的结果,有部分结果因为skyline的过度过滤会也key值不符,所以在Map阶段的最后根据关键词key进行value值的哈希匹配,称为γ-filtering,如果匹配不成功则进一步进行过滤,然后通过洗牌过程送到Reduce端进行进一步汇总处理。这种过滤方法利用了Spark的分布处理机制。因为过滤掉了大的输入,同时对分布式系统的处理性能也有了提高,同时减少了用户等待时间,加强了用户的体验效果。
实施例2:一种移动互联网和云计算环境下子空间Skyline查询的智能商店选址系统,云中心服务系统主要是由多个计算节点组成的Spark云平台;云中心服务系统接收移动终端发送的商店选址查询请求,该查询请求包括对属性的偏好及各属性的阈值,且云中心服务系统执行网格剪枝策略及分布式映射过滤方法,承担子空间Skyline查询流的主要计算,并向移动终端返回查询得到的商店选址。云中心服务系统接收移动终端发送的商店选址查询请求,从其存储的已有的商店信息中提取用户感兴趣数据,并且按照用户偏好对其进行排序得到一个有序的数据集,然后扫描比较数据点的支配关系得到子空间Skyline结果,云中心服务系统基于分布式映射过滤方法,利用用户提供的属性的阈值进行过滤,返回给移动终端以商店选址的候选结果集。
在一个实施例中,网格剪枝策略的处理步骤具体为:一个d维的商店数据空间S,其包括商店物的结构数据、商店物内部设备数据、商店物的环境数据,P是商店数据空间S上的数据集,每个商店数据点p∈P被表示为{x1,x2,...,xd},每一维网格的宽度表示为λi,数据集中任意数据点p的网格坐标通过计算得到,即任意网格的标识表示为Intkeyj,它在网格空间中的坐标表示为(Intkeyj.x1,Intkeyj.x2,...,Intkeyj.xd),数据集P中的每个数据点都会被映射到相应的网格中,对应一个网格单元桥;
假定存在一个二元偏序关系>是在子空间F上的,偏序关系>表示在F中属性重要性的大于关系,f1,f2是F上的两个属性,f1,f2∈F,如果f1的重要性大于f2,那么它们的偏序关系可以表示为f1>f2,得到一个有序的k维子空间{f1,f2,...,fk}。
在另一个实施例中,α-filtering过滤方法的处理步骤具体为:假定属性取值越小越好,多目标决策的优化函数可被定义为min(f1(x),f2(x),...,fk(x)),其中x∈P,fi(x)是数据对象x在第i维属性上的取值。
上述公式用来计算第一维属性上取值最偏离用户偏好的商店数据对象集合R1(商店物的结构数据),R0表示初始化商店数据集P,由此获得第一维属性上取值相对优的商店数据集合(即在这一维属性中相对符合用户预期的回复数据集) 接下来在第一维已经相对优的商店数据集合中,利用公式(4.2)获得第二维属性取值最差的商店数据对象集合(即在这二维属性中最不符合用户想要的数据集),然后从商店数据集合中剔除掉,以此类推,最后得到k维属性取值都相对优的商店数据对象集合
在一个实施例中,β-filtering过滤方法处理步骤具体为:假定商店子空间F中的属性按用户偏好排序的结果为{Mileage,Price,OccupancyRate},β123)是每个属性对应的阈值,当β1=1时,计算得到R1={p5,p6},而当β1=7/9时,R1={p5,p6,p1,p9},其中:P是在商店数据空间上的数据集。
在一个实施例中,所述分布式映射过滤的方法,在Spark的Map过程中,利用α-filtering、β-filtering过滤方法进行过滤,在过滤后对不符合用户偏好的数据进行预处理;在Map阶段的最后,根据关键词key进行value值的哈希匹配的过程为γ-filtering过滤方法,如果该所述哈希匹配不成功则通过洗牌过程送到Reduce端汇总处理。
在一个实施例中,子空间Skyline查询的定义为:假定一个d维的商店数据空间S={s1,s2,...,sd},P={p1,p2,...,pn}是用户申请查询的商店信息,每个用户申请查询的商店数据点pi∈P都是空间S上的d维商店数据点;
F是商店数据空间S上的子空间,云中心服务系统利用网格剪枝策略将数据空间S分成一个个子空间,|F|=k且k≤d,在商店数据空间S上的用户申请查询数据对象pi,pi在子空间F上的投影即为用户申请查询的商店数据与剪枝后的数据子空间重合,也便是云服务中心系统筛选的商店数据是用户所需要的,也被表示为p′i是k元组,当且仅当子空间F上不存在用户不需要的商店数据点p′j支配用户需要的商店数据p′i,p′i是云中心服务系统通过子空间Skyline得到的结果,如图6。
在一个实施例中,云中心服务系统执行网格剪枝策略及分布式映射过滤方法,承担子空间Skyline查询流的主要计算的方法是:利用Spark作业将输入的数据以<key,value>对的形式生成索引文件,然后启动Spark作业扫描整个索引文件,读索引文件到Hashmap中,它是一种hash结构,包含两部分内容:key和value,数据结构中的key部分用来缓存每维属性的值,value部分用来缓存具有相同值的数据对象编号的列表,所有取该值的数据对象被包含在列表里。
实施例3:一种移动互联网和云计算环境下子空间Skyline查询的智能商店选址系统,涉及一种移动互联网和云计算环境下的子子空间Skyline查询的智能商店选址通信系统,该系统由云中心服务系统和智能移动客户端组成,执行步骤如下:
S1.云中心服务系统提供网格剪枝策略及α-filtering过滤方法、β-filtering、γ-filtering过滤方法,并进行基于Spark的子空间Skyline算法;
S2.客户端是运行在手机、个人数字助理等终端设备上的应用程序(包括北斗定位装置与陀螺仪等应用),这些终端使用互联网或者移动网络与服务器进行通信,发送查询请求并接收查询结果。用户可以在终端选择对属性的偏好程度并输入各属性的阈值,最后将查询请求发送给服务器端。服务器是由多个节点组成的Spark云平台,具有强大的计算能力,承担着子子空间Skyline查询的主要计算工作。
作为技术方案的补充,该移动互联网和云计算环境下的子空间Skyline查询的智能商店选址通信系统所使用的云中心端服务系统由不少于一个云数据中心的网络服务器或虚拟主机所构成的,采用云计算这种并行化计算来处理大规模数据应对于大量的需要查找商店数据的用户,并以分布式网格剪枝策略和三种用户喜欢的过滤方法进行提取和分析已有的商店数据,通过移动互联网将选好的数据结果返回客户端,是用户自己进行手动选择。
由云中心服务系统使用网格剪枝和三种过滤方法进行子空间Skyline查询,并将最优结果返回用户。
网格剪枝策略的处理步骤具体为:一个d维的商店数据空间S为云中心服务系统所有的商店数据,P是云中心服务系统将商店数据空间S分成的数据集,每个商店数据点p∈P被表示为{x1,x2,...,xd}。每一维网格的宽度表示为λi。数据集中任意数据点p的网格坐标可通过计算得到,即 任意网格的标识表示为Intkeyj,它在网格空间中的坐标表示为(Intkeyj.x1,Intkeyj.x2,...,Intkeyj.xd),数据集P中的每个数据点都会被映射到相应的网格中,对应一个网格单元桥;α-filtering过滤方法的处理步骤具体为:用来计算第一维属性上取值最偏离用户喜好的商店数据对象集合R1,R0表示初始化商店数据集P,通过云中心服务系统将商店数据集合R1剔除,由此可以获得第一维属性上取值相对优的商店数据集合接下来在第一维已经相对优的商店数据集合中,利用公式获得第二维属性取值最差的商店数据对象集合,然后从商店数据集合中剔除掉。以此类推,最后得到k维属性取值都相对优的商店数据对象集合 ε-filtering过滤方法处理步骤具体为:在SQM-filtering过滤方法的基础上,提供容忍度范围的过滤方法β-filtering。在公式3.4中,εi(0≤εi≤1)就是为第i个属性提供的容忍度限制阈值,εi的取值根据用户喜好设定,它通常会提前由用户通过查询请求一起发送给服务器,执行查询。这样每次过滤掉属性取值偏离用户喜好的数据对象多一些,获取最终的结果集会相对小一些。这就是本文提出的另一种过滤方法,即βfiltering过滤方法。显然当εi≡1,(i=1,...,k)时,过滤方法βfiltering将退化为α-filtering的过滤方法。
基于网格剪枝策略及α-filtering和β-filtering过滤的子子空间Skyline查询的方法为:一个d维的数据空间S={s1,s2,...,sd},P={p1,p2,...,pn}是在数据空间S上的数据集,即每个数据点pi∈P都是空间S上的d维数据点。F是数据空间S上的子空间即|F|=k且k≤d。在数据空间S上的数据对象pi,pi在子空间F上的投影被表示为p′i是k元组。如果p′i是子空间Skyline结果,当且仅当子空间F上不存在点p′j支配p′i
作为技术方案的补充,子空间Skyline查询的定义为:例如酒店数据,首先利用图6中的Spark作业将输入的酒店数据以<key,value>对的形式生成索引文件,然后启动Spark作业扫描整个索引文件,读索引文件到Hashmap中,它是一种hash结构,包含两部分内容:key和value。数据结构中的key部分用来缓存每维属性的值,而value部分用来缓存具有相同值的数据对象编号的列表,所有取该值的数据对象被包含在列表里如图6(a)所示。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种移动互联网和云计算环境下子空间Skyline查询的智能商店选址系统,其特征在于,包括云中心服务系统和移动终端,云中心服务系统主要是由多个计算节点组成的Spark云平台;云中心服务系统接收移动终端发送的商店选址查询请求,该查询请求包括对属性的偏好及各属性的阈值,且云中心服务系统执行网格剪枝策略及分布式映射过滤方法,承担空间Skyline查询流的主要计算,并向移动终端返回查询得到的商店选址。
2.如权利要求1所述的移动互联网和云计算环境下子空间Skyline查询的智能商店选址系统,其特征在于,云中心服务系统接收移动终端发送的商店选址查询请求,从其存储的已有的商店信息中提取用户感兴趣数据,并且按照用户偏好对其进行排序得到一个有序的数据集,然后扫描比较数据点的支配关系得到子空间Skyline结果,云中心服务系统基于分布式映射过滤方法,利用用户提供的属性的阈值进行过滤,返回给移动终端以商店选址的候选结果集。
3.如权利要求1所述的移动互联网和云计算环境下子空间Skyline查询的智能商店选址系统,其特征在于,网格剪枝策略的处理步骤具体为:一个d维的商店数据空间S,其包括商店物的结构数据、商店物内部设备数据、商店物的环境数据,P是商店数据空间S上的数据集,每个商店数据点p∈P被表示为{x1,x2,...,xd},每一维网格的宽度表示为λi,数据集中任意数据点p的网格坐标通过计算得到,即任意网格的标识表示为Intkeyj,它在网格空间中的坐标表示为(Intkeyj.x1,Intkeyj.x2,...,Intkeyj.xd),数据集P中的每个数据点都会被映射到相应的网格中,对应一个网格单元桥;假定存在一个二元偏序关系>是在子空间F上的,偏序关系>表示在F中属性重要性的大于关系,f1,f2是F上的两个属性,f1,f2∈F,如果f1的重要性大于f2,那么它们的偏序关系可以表示为f1>f2,得到一个有序的k维子空间{f1,f2,...,fk}。
4.如权利要求1所述的移动互联网和云计算环境下子空间Skyline查询的智能商店选址系统,其特征在于,α-filtering过滤方法的处理步骤具体为:假定属性取值越小越好,多目标决策的优化函数可被定义为min(f1(x),f2(x),...,fk(x)),其中x∈P,fi(x)是数据对象x在第i维属性上的取值。
R 1 = arg m a x x &Element; R 0 ( f 1 ( x ) ) - - - ( 3.1 )
R 2 = arg m a x x &Element; R ~ 1 ( f 2 ( x ) ) - - - ( 3.2 )
R k = arg m a x x &Element; R ~ k - 1 ( f k - 1 ( x ) ) - - - ( 3.3 )
R i = { x | f i ( x ) &GreaterEqual; &epsiv; i m a x ( f i ( x ) ) , x &Element; R ~ i - 1 } - - - ( 3.4 )
上述公式用来计算第一维属性上取值最偏离用户偏好的商店数据对象集合R1,R0表示初始化商店数据集P,由此获得第一维属性上取值相对优的商店数据集合 接下来在第一维已经相对优的商店数据集合中,利用公式(3.2)获得第二维属性取值最差的商店数据对象集合,然后从商店数据集合中剔除掉,以此类推,最后得到k维属性取值都相对优的商店数据对象集合
5.如权利要求1所述的移动互联网和云计算环境下子空间Skyline查询的智能商店选址系统,其特征在于,β-filtering过滤方法处理步骤具体为:假定商店子空间F中的属性按用户偏好排序的结果为{Mileage,Price,OccupancyRate},β123)是每个属性对应的阈值,当β1=1时,计算得到R1={p5,p6},而当β1=7/9时,R1={p5,p6,p1,p9},其中:P是在商店数据空间上的数据集。
6.如权利要求1所述的移动互联网和云计算环境下子空间Skyline查询的智能商店选址系统,其特征在于,所述分布式映射过滤的方法,其特征在于,在Spark的Map过程中,利用α-filtering、β-filtering过滤方法进行过滤,在过滤后对不符合用户偏好的数据进行预处理;在Map阶段的最后,根据关键词key进行value值的哈希匹配的过程为γ-filtering过滤方法,如果该所述哈希匹配不成功则通过洗牌过程送到Reduce端汇总处理。
7.如权利要求1所述的移动互联网和云计算环境下子空间Skyline查询的智能商店选址系统,其特征在于,子空间Skyline查询的定义为:假定一个d维的商店数据空间S={s1,s2,...,sd},P={p1,p2,...,pn}是用户申请查询的商店信息,每个用户申请查询的商店数据点pi∈P都是空间S上的d维商店数据点;F是商店数据空间S上的子空间,云中心服务系统利用网格剪枝策略将数据空间S分成一个个子空间,|F|=k且k≤d,d是全空间数据维数k子空间数据维数,全空间F中提取用户感兴趣的字段是k,在商店数据空间S上的用户申请查询数据对象pi,pi在子空间F上的投影即为用户申请查询的商店数据与剪枝后的数据子空间重合,也便是云服务中心系统筛选的商店数据是用户所需要的,也被表示为p′i是k元组,当且仅当子空间F上不存在用户不需要的商店数据点pj′支配用户需要的商店数据p′i,p′i是云中心服务系统通过子空间Skyline得到的结果。
8.如权利要求1所述的移动互联网和云计算环境下子空间Skyline查询的智能商店选址系统,其特征在于,云中心服务系统执行网格剪枝策略及分布式映射过滤方法,承担空间Skyline查询流的主要计算的方法是:利用Spark作业将输入的数据以<key,value>对的形式生成索引文件,然后启动Spark作业扫描整个索引文件,读索引文件到Hashmap中,它是一种hash结构,包含两部分内容:key和value,数据结构中的key部分用来缓存每维属性的值,value部分用来缓存具有相同值的数据对象编号的列表,所有取该值的数据对象被包含在列表里。
CN201611150484.3A 2016-12-14 2016-12-14 移动互联网和云计算环境下子空间Skyline查询的智能商店选址系统 Pending CN106503271A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611150484.3A CN106503271A (zh) 2016-12-14 2016-12-14 移动互联网和云计算环境下子空间Skyline查询的智能商店选址系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611150484.3A CN106503271A (zh) 2016-12-14 2016-12-14 移动互联网和云计算环境下子空间Skyline查询的智能商店选址系统

Publications (1)

Publication Number Publication Date
CN106503271A true CN106503271A (zh) 2017-03-15

Family

ID=58330019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611150484.3A Pending CN106503271A (zh) 2016-12-14 2016-12-14 移动互联网和云计算环境下子空间Skyline查询的智能商店选址系统

Country Status (1)

Country Link
CN (1) CN106503271A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107306207A (zh) * 2017-05-31 2017-10-31 东南大学 结合Skyline计算与多目标强化学习服务组合方法
CN109299781A (zh) * 2018-11-21 2019-02-01 安徽工业大学 基于动量和剪枝的分布式深度学习系统
CN110321399A (zh) * 2019-06-28 2019-10-11 京东城市(北京)数字科技有限公司 选择地址的方法和装置
CN116644103A (zh) * 2023-05-17 2023-08-25 本原数据(北京)信息技术有限公司 数据排序方法和数据排序装置、计算机设备、存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104965920A (zh) * 2015-07-08 2015-10-07 百度在线网络技术(北京)有限公司 用于确定目标地址的方法和装置
CN105183921A (zh) * 2015-10-23 2015-12-23 大连大学 移动云计算环境下的基于双色反近邻查询的商店定址系统
CN105243114A (zh) * 2015-09-25 2016-01-13 中国农业银行股份有限公司 一种选址分析方法及装置
CN105303418A (zh) * 2015-12-09 2016-02-03 北京京东尚科信息技术有限公司 一种选址方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104965920A (zh) * 2015-07-08 2015-10-07 百度在线网络技术(北京)有限公司 用于确定目标地址的方法和装置
CN105243114A (zh) * 2015-09-25 2016-01-13 中国农业银行股份有限公司 一种选址分析方法及装置
CN105183921A (zh) * 2015-10-23 2015-12-23 大连大学 移动云计算环境下的基于双色反近邻查询的商店定址系统
CN105303418A (zh) * 2015-12-09 2016-02-03 北京京东尚科信息技术有限公司 一种选址方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YUANYUAN LI 等: ""Efficient Subspace Skyline Query based on User Preference using MapReduce"", 《AD HOC NETWORKS》 *
李媛媛: ""云计算环境下的并行Skyline算法及其应用研究"", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107306207A (zh) * 2017-05-31 2017-10-31 东南大学 结合Skyline计算与多目标强化学习服务组合方法
CN109299781A (zh) * 2018-11-21 2019-02-01 安徽工业大学 基于动量和剪枝的分布式深度学习系统
CN110321399A (zh) * 2019-06-28 2019-10-11 京东城市(北京)数字科技有限公司 选择地址的方法和装置
CN116644103A (zh) * 2023-05-17 2023-08-25 本原数据(北京)信息技术有限公司 数据排序方法和数据排序装置、计算机设备、存储介质
CN116644103B (zh) * 2023-05-17 2023-11-24 本原数据(北京)信息技术有限公司 基于数据库的数据排序方法和装置、设备、存储介质

Similar Documents

Publication Publication Date Title
Fathi et al. Big data analytics in weather forecasting: A systematic review
Liu et al. A multi-type ant colony optimization (MACO) method for optimal land use allocation in large areas
CN106503271A (zh) 移动互联网和云计算环境下子空间Skyline查询的智能商店选址系统
CN111797928A (zh) 生成机器学习样本的组合特征的方法及系统
CN105574649B (zh) 一种基于多阶段MapReduce模型的纳税人偷漏税嫌疑群组检测方法
CN109598430B (zh) 配送范围生成方法、装置、电子设备和存储介质
Gong et al. Novel heuristic density-based method for community detection in networks
CN105760468A (zh) 移动环境下基于倒排位置敏感哈希索引的大规模图象查询系统
CN105184326A (zh) 基于图数据的主动学习多标签社交网络数据分析方法
CN111783893A (zh) 生成机器学习样本的组合特征的方法及系统
CN110322326A (zh) 一种基于ArgGis的地理经济大数据共享方法
CN110888930A (zh) 基于知识图谱的金融知识查询服务接口设计与实现方法
Keyvanpour A survey on community detection methods based on the nature of social networks
Guan et al. Design pragmatic method to low-carbon economy visualisation in enterprise systems based on big data
CN106599188A (zh) 移动互联网和云计算环境下子空间Skyline查询的智能商店选址方法
Revelle et al. Persistent roles in online social networks
CN114461741A (zh) 一种监测样点布设方法及装置
CN111353085A (zh) 一种基于特征模型的云挖掘分析网络舆情方法
CN110309578B (zh) 一种基于计算机数据处理的经济数据拟合系统及方法
CN109063115A (zh) 一种基于在线大数据的智能统计系统及方法
CN113569162A (zh) 数据处理方法、装置、设备及存储介质
CN108182496A (zh) 一种城市互联网开放数据获取处理分析方法
Karakostas Bridging the gap between multi-objective optimization and spatial planning: a new post-processing methodology capturing the optimum allocation of land uses against established transportation infrastructure
CN104657381A (zh) 一种弹性传感数据平台
CN106777092B (zh) 移动云计算环境下动态Skyline查询的智能医疗呼叫查询方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170315