CN111311439A - 基于网络订餐平台筛选订餐商铺的方法、系统及存储介质 - Google Patents
基于网络订餐平台筛选订餐商铺的方法、系统及存储介质 Download PDFInfo
- Publication number
- CN111311439A CN111311439A CN201910622937.5A CN201910622937A CN111311439A CN 111311439 A CN111311439 A CN 111311439A CN 201910622937 A CN201910622937 A CN 201910622937A CN 111311439 A CN111311439 A CN 111311439A
- Authority
- CN
- China
- Prior art keywords
- shop
- network
- data
- network shop
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012216 screening Methods 0.000 title claims abstract description 55
- 238000012545 processing Methods 0.000 claims abstract description 93
- 235000012054 meals Nutrition 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000011156 evaluation Methods 0.000 description 42
- 239000013598 vector Substances 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 235000014510 cooky Nutrition 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/12—Hotels or restaurants
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/02—Reservations, e.g. for tickets, services or events
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Databases & Information Systems (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Computational Linguistics (AREA)
- Game Theory and Decision Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于网络订餐平台筛选订餐商铺的方法、系统及存储介质,提供一服务端以及多个任务采集客户端,具体包括以下步骤:S1、任务采集客户端对采集的网络商铺信息进行第一级去重处理,去重处理之后的网络商铺数据发送至服务端;S2、服务端对网络商铺数据进行第二级去重处理,并保存去重处理之后的网络商铺数据;S3、服务端按照预设的店铺类别筛选规则对经过第二级去重处理后的网络商铺数据进行筛选处理以获得订餐商铺信息。其技术方案的有益效果是,克服了现有技术中采用人工收集网络订餐平台的订餐商铺存在不便且获取的数据中存在大量非订餐商铺无法及时处理的问题。
Description
技术领域
本发明涉及网络通信技术领域,尤其涉及一种基于网络订餐平台筛选订餐商铺的方法、系统及存储介质。
背景技术
随着网络订餐平台的兴起,人们在各网络订餐平台上就可以看到各式各样的订餐商铺,在订餐商铺中可以在线进行订餐操作,其操作方便、便捷,深受人们的喜爱,这也进一步的使得外卖行业发展极为迅速。
据统计近年来网络订餐平台陆续入驻近十家,订餐量超过百亿元,但是网络订餐平台商家近年来被媒体不断曝光有黑作坊、假证等各种违规情况存在。
为了进一步的净化网络订餐平台,市场监管部门需要实时的了解各网络订餐平台中入住的订餐商铺信息,及时获取各订餐商铺信息(包括商铺名称、商铺编号、商铺证照信息、商铺菜品信息等),现有采用人工手段于网络上收集订餐商铺的方法不仅费时费力,其难度可想而知,而且网上的信息是时时发生变化的(如新入驻以及退出入驻的商家、吊销营业资格的商家等)。
而采用网络技术从不同的页面、网站获取网络商铺时,往往会夹带不属于订餐商铺的商铺信息(具体包括花店、便利店、药店以及酒店等,)在针对网络订餐商铺进行市场监督管理时,而如何对数据量如此庞大的网络商铺中进行过滤获得订餐商铺信息方便市场监督管理进行管理,是当下亟需解决的技术问题。
发明内容
针对现有的获取订餐商铺信息存在的上述问题,现提供一种旨在实现从网络商铺中准确获取且全面的获取订餐商铺信息的方法、系统及存储介质。
具体技术方案如下:
一种基于网络订餐平台筛选订餐商铺的方法,其中,提供一服务端以及多个任务采集客户端,具体包括以下步骤:
S1、所述任务采集客户端对采集的网络商铺信息进行第一级去重处理,并将去重处理之后的网络商铺数据发送至所述服务端;
S2、所述服务端对所述网络商铺数据进行第二级去重处理,并保存去重处理之后的所述网络商铺数据;
S3、所述服务端按照预设的店铺类别筛选规则对经过第二级去重处理后的所述网络商铺数据进行筛选处理以获得订餐商铺信息。
优选的,所述任务采集客户端对所述网络商铺信息进行第一级去重处理的方法,包括以下步骤:
S11、将采集的所述网络商铺信息进行缓存;
S12、于所述网络商铺信息中提取网络商铺的唯一身份标识;
S13、将每个所述网络商铺的唯一身份标识保存于一数据表中;
S14、根据所述网络商铺的唯一身份标识于所述数据表中对重复的所述网络商铺信息去除。
优选的,所述服务端对所述网络商铺数据进行去重的方法,包括以下步骤:
S21、所述服务端接收每个所述任务采集客户端发送的所述网络商铺数据;
S22、所述服务端于所述网络商铺数据中提取出所述网络商铺的唯一身份标识;
S23、将当前的所述网络商铺的唯一身份标识与已存储的所述网络商铺的唯一身份标识进行比较;
S24、若比较结果一致,则表示当前的网络商铺数据存在重复,执行去除操作;
若比较结果不一致,则将当前的所述网络商铺数据进行保存。
优选的,所述服务端按照预设的店铺类别筛选规则对所述网络商铺数据进行筛选处理以获得订餐商铺信息的方法,包括以下步骤:
S31、用以获取所述网络商铺数据中的商铺名称,采用商铺名称的模糊匹配方法对所述网络商铺数据中的非订餐商铺的店铺名称进行初级过滤,以获得过滤数据;
S32、采用流通判断规则对所述过滤数据进行流通判断以获得处于流通状态的订餐商铺信息。
还包括一种基于网络订餐平台筛选订餐商铺的系统,其中,包括:
服务端,以及与所述服务端连接的多个任务采集客户端;
所述客户端包括:
任务采集模块,用以根据采集任务采集获取网络商铺信息;
第一级去重处理模块,对采集的网络商铺信息进行第一级去重处理;
收发模块,用以将去重处理之后的网络商铺数据发送至所述服务端;
所述服务端包括:
第二级去重处理模块,对所述网络商铺数据进行第二级去重处理,并保存去重处理之后的所述网络商铺数据;
筛选处理模块,用以按照预设的店铺类别筛选规则对经过第二级去重处理后的所述网络商铺数据进行筛选处理以获得订餐商铺信息。
优选的,所述任第一级去重处理模块包括:
存储单元,将采集的所述网络商铺信息进行缓存;
第一标识提取单元,于所述存储模块中的所述网络商铺信息中提取网络商铺的唯一身份标识;
列表单元,将每个所述网络商铺的唯一身份标识保存于一数据表中;
第一处理单元、根据所述网络商铺的唯一身份标识于所述数据表中对重复的所述网络商铺信息去除。
优选的,所述第二级去重处理模块包括:
第二标识提取单元,用以对接收的所述网络商铺数据提取出所述唯一身份标识;
比较单元,用以将当前的所述网络商铺数据的所述唯一身份标识与已存储的所述网络商铺数据的唯一身份标识进行比较;
第二处理单元,用以根据所述比较结果,若比较结果一致,则表示当前的网络商铺数据存在重复,执行去除操作;
若比较结果不一致,则将当前的所述网络商铺数据进行保存。
优选的,所述筛选处理模块包括:
模糊匹配单元,用以获取所述网络商铺数据中的商铺名称,采用商铺名称的模糊匹配方法对所述网络商铺数据中的非订餐商铺的店铺名称进行初级过滤,以获得过滤数据;
流通判断单元,用以采用流通判断规则对所述过滤数据进行流通判断,以获得处于流通状态的订餐商铺信息。
优选的,所述计算机存储介质存储有实现上述的基于网络订餐平台筛选订餐商铺的方法的计算机程序。
上述技术方案的有益效果是:任务采集客户端在执行采集任务获取不同网络订餐平台的订餐商铺信息时,会获取大量的非订餐商铺的网络商铺以及内容相同的网络商铺,此时通过任务采集客户端对采集的网络商铺进行第一级去重处理,然后每个任务采集客户端将去重后的网络商铺数据发送至服务端,由服务端进行第二级去重处理,然后筛选去除非订餐商铺的数据,其克服了现有技术中采用人工收集网络订餐平台的订餐商铺存在不便且获取的数据中存在大量非订餐商铺无法及时处理的问题;
另一方面,通过第一级和第二级对网络商铺数据进行处理的方式,可减少服务端的处理资源,以便服务端执行其它的处理任务。
附图说明
图1为本发明的一种基于网络订餐平台筛选订餐商铺的方法实施例的流程示意图;
图2为本发明的一种基于网络订餐平台筛选订餐商铺的方法实施例中,关于任务采集客户端对网络商铺信息进行第一级去重处理的方法的流程示意图;
图3为本发明的一种基于网络订餐平台筛选订餐商铺的方法实施例中,关于所述服务端对所述网络商铺数据进行去重的方法的流程示意图;
图4为本发明的一种基于网络订餐平台筛选订餐商铺的方法实施例中,关于所述服务端按照预设的店铺类别筛选规则对所述网络商铺数据进行筛选处理以获得订餐商铺信息的方法的流程示意图;
图5为本发明的一种基于网络订餐平台筛选订餐商铺的系统实施例的结构示意图;
图6为本发明的一种基于网络订餐平台筛选订餐商铺的系统实施例中,关于第一级去重处理模块的结构示意图;
图7为本发明的一种基于网络订餐平台筛选订餐商铺的系统实施例中,关于第二级去重处理模块的结构示意图;
图8为本发明的一种基于网络订餐平台筛选订餐商铺的系统实施例中,关于筛选处理模块的结构示意图。
上述附图标记表示:
1、任务采集客户端;2、服务端;
11、任务采集模块;12、第一级去重处理模块;13、收发模块;
21、第二级处理模块;22、筛选处理模块;
121、存储单元;122、第一标识提取单元;123、列表单元;124、第一处理单元;
211、第二标识提取单元;212、比较单元;213、第二处理单元;221
、模糊匹配单元;222、流通单元。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
需要说明的是,在不冲突的前提下,以下描述的实施例以及实施例中的技术特征可以相互组合。
如图1,本发明的技术方案中提供一种基于网络订餐平台筛选订餐商铺的方法。
一种基于网络订餐平台筛选订餐商铺的方法的实施例,其中,提供一服务端2以及多个任务采集客户端1,如图1所示,具体包括以下步骤:
S1、任务采集客户端1对采集的网络商铺信息进行第一级去重处理,并将去重处理之后的网络商铺数据发送至服务端2;
S2、服务端2对网络商铺数据进行第二级去重处理,并保存去重处理之后的网络商铺数据;
S3、服务端2按照预设的店铺类别筛选规则对经过第二级去重处理后的网络商铺数据进行筛选处理以获得订餐商铺信息。
上述技术方案中,服务端2连接多个任务采集客户端1,多个任务采集客户端1作为任务采集节点,服务端2作为采集控制终端下发采集任务至采集节点,采集节点完成对应的采集任务;
通过控制终端连接多个任务采集节点的方式可以构成采集任务集群,每个任务采集节点可根据采集的需要配置于不同位置,上述的采集维度可包括外卖平台类型、采集对象类型、任务采集时间、采集的区域等,采集控制终端可按照采集维度配置不同配置多个采集任务,在配置完成形成有多个采集任务后,将采集任务形成于任务队列中,由于采集任务的类型、耗时不同其占用资源的程度也会不同,为了使资源的合理化使用,在任务采集节点向采集控制终端索取采集任务时,采集控制终端通过预设的优先级策略调用任务队列中的采集任务,并下发至对应的任务采集节点,任务采集节点根据接收的采集任务执行对应的采集操作,其中采集的订餐商铺信息可包括,地理区域、数据来源(PC网页端、移动网页端)、任务类型(采集、复验、评论、菜品)、任务优先级,复验任务有效、任务计划开始时间、商铺ID、具体位置信息、菜品信息以及关于商铺的用户评论信息以及商铺营业执照相关登记信息等;
上述的采集控制终端根据优先级策略下发采集任务的方法包括以下步骤:
获取每一个采集任务的任务类型以及根据任务类型获取每一个任务类型对应的耗时程度;
根据任务类型对应的耗时程度于多个任务调度模式中选择与任务类型匹配的任务调度模式;
根据任务调度模式于任务队列中调用采集任务。
上述技术方案中,任务调度模式可包括三种,FTFO(先进先出)对应的第一种调度模式,Capacity(容器调度器)对应的第二调度模式,FairS(公平调度器)对应的第三种调度模式。
其中:
第一种调度模式,把采集任务按提交时填入的排序值排成一个队列,这是一个先进先出队列,在进行资源分配的时候,先给队列中最头上的应用进行分配资源,待最头上的应用需求满足后再给下一个分配,以此类推。
第二种调度模式,因为采用FIFO的方式去进行任务的调度会出现小任务被大任务阻塞的情况因此根据采集任务类型,调度器可以为每个任务类型单独创建多个队列,调度器允许多个任务类型的队列共享整个集群,每个队列可以获得集群的一部分计算能力。通过为每个任务类型分配专门类型的队列,然后再为每个队列分配一定的集群资源,这样整个集群就可以通过设置多个队列的方式给多个任务类型提供服务了。在一个队列内部,资源的调度是采用的是先进先出(FIFO)策略。
我们已经知道一个job可能使用不了整个队列的资源。然而如果这个队列中运行多个job,如果这个队列的资源够用,那么就分配给这些job,如果这个队列的资源不够用了呢,Capacity调度器仍可能分配额外的资源给这个队列,这就是“弹性队列”的概念。
在正常的操作中,Capacity调度器不会强制释放Container,当一个队列资源不够用时,这个队列只能获得其它队列释放后的Container资源。当然,我们可以为队列设置一个最大资源使用量,以免这个队列过多的占用空闲资源,导致其它队列无法使用这些空闲资源,这就是”弹性队列”需要权衡的地方。
第三种调度模式,Fair调度器的设计目标是为所有的采集任务分配公平的资源(对公平的定义可以通过参数来设置)。举个例子,假设有两个用户A和B,他们分别拥有一个队列。当A启动一个job(采集任务)而B没有任务时,A会获得全部集群资源;当B启动一个job后,A的job会继续运行,不过一会儿之后两个任务会各自获得一半的集群资源。如果此时B再启动第二个job并且其它job还在运行,则它将会和B的第一个job共享B这个队列的资源,也就是B的两个job会用于四分之一的集群资源,而A的job仍然用于集群一半的资源
有了以上的集中调度器以后,运维就可以根据任务类型的耗时程度来决定使用哪种调度模式对应的调度器来执行任务,在确定了调度策略后就可以为各种类型的采集任务来分配队列执行任务。
任务采集客户端1根据上述采集任务,于对应的维度采集获取网络商铺信息后,首先通过任务采集客户端1进行第一步去重处理,目的在于去除当前的网络商铺信息中存在相同的网络店铺,一般为了获得更多的网络商铺数据,会配置多个任务采集客户端1,每个任务采集客户端1都会将采集获得网络商铺数据发送至客户端,如果每个任务采集客户端1将采集的网络商铺数据直接发送至服务端2,不仅发送的数据量巨大,会占用更多的带宽,而且服务端2接收的数据将非常庞大,由服务端2对接收的网络商铺数据进行去重处理其不仅任务量大而且会使服务端2过多的占用处理资源,以引起服务端2的故障;
通过任务采集客户端1首先对采集的网络商铺数据进行一次去重处理,则保证发送的网络商铺数据都是不重复的,其减少了需要发送的数据量,减少对带宽的占用;
另一方面,由于每个任务采集客户端1都将经过去重的网络商铺数据发送至服务端2,因此不同的任务采集客户端1采集的网络商铺数据中,也会存在相同的网络商铺,因此服务端2对接收的所有任务采集客户端1发送的网络商铺数据会进行再一次去重处理,服务端2此时处理的数据量则会明显减少,可有效的降低服务端2处理数据的压力,在服务端2对网络商铺数据进行进一步去重处理的基础上,需要从网络商铺数据中筛选出订餐商铺信息,即服务端2对去重处理后的网络商铺数据进行筛选处理以获得订餐商铺信息。
在一种较优的实施方式中,任务采集客户端1对网络商铺信息进行第一级去重处理的方法,如图2所示,包括以下步骤:
S11、将采集的网络商铺信息进行缓存;
S12、于网络商铺信息中提取网络商铺的唯一身份标识;
S13、将每个网络商铺的唯一身份标识保存于一数据表中;
S14、根据网络商铺的唯一身份标识于数据表中对重复的网络商铺信息去除。
上述技术方案中,任务采集客户端1对网络商铺信息进行处理时,任务采集客户端1首先将采集的网络商铺信息进行缓存,然后于缓存中提取出网络商铺的唯一身份标识(具体可包括店铺的ID或者铺名称+店铺地址,起到区别标识作用的信息),提取的网络商铺的唯一身份表标识可保存于数据表(hash字典)中,然后于数据表中根据网络商铺的唯一身份标识确认是否存在重复的,如存在则去除重复的保留其中之一即可。
在一种较优的实施方式中,服务端2对网络商铺数据进行去重的方法,如图3所示,包括以下步骤:
S21、服务端2接收每个任务采集客户端1发送的网络商铺数据;
S22、服务端2于网络商铺数据中提取出网络商铺的唯一身份标识;
S23、将当前的网络商铺的唯一身份标识与已存储的网络商铺的唯一身份标识进行比较;
S24、若比较结果一致,则表示当前的网络商铺数据存在重复,执行去除操作;
若比较结果不一致,则将当前的网络商铺数据进行保存。
上述技术方案中,服务端2对每个任务采集客户端1发送的网络商铺数据执行去重处理的步骤中,我们假设任务采集客户端A和任务采集客户端B分别先后发送了网络商铺数据A和网络商铺数据B,并且此时服务端2中并未保存相关网络商铺数据的记录;
此时服务端2将网络商铺数据A进行保存,然后对接收的网络商铺数据B与作为存储记录的网络商铺数据A作比较,若存在重复,则对网络商铺数据B中的重复部分去除,保留未重复部分与网络商铺数据A一同作为记录进行保存,对下一个网络商铺数据如网络商铺数据C采取上述相同的判断规则,与存储的记录进行比较执行去重操作,以此类推,最终服务端2保存的网络商铺数据均为独立的部分。
在一种较优的实施方式中,服务端2按照预设的店铺类别筛选规则对网络商铺数据进行筛选处理以获得订餐商铺信息的方法,如图4所示,包括以下步骤:
S31、用以获取网络商铺数据中的商铺名称,采用商铺名称的模糊匹配方法对网络商铺数据中的非订餐商铺的店铺名称进行初级过滤,以获得过滤数据;
S32、采用流通判断规则对过滤数据进行流通判断以获得处于流通状态的订餐商铺信息。
上述技术方案中,在步骤S31中,采用商铺名称的模糊匹配方法对非订餐商铺名称进行过滤的方法可采用,根据设定的正则表达式,以及正向反向关键词对非订餐商铺名称进行过滤,其中关键词正向可包括(食堂、餐馆、含菜名的关键字等),反向关键词可包括(鲜花店、药房、药店等);
服务端2在网络商铺数据进行去重、初过滤之后,此时保留的为订餐商铺数据,但是对于保留的订餐商铺数据需要进一步确认当前的订餐商铺是否处于流通状态,具体的流通判断规则如下:
获取的订餐商铺数据具体包括以下信息,营业执照信息、店铺名、地址、菜品、评论、快递信息、营业时间等等;
首先,获取的营业执照信息为图片格式时,采用人工智能图像识别技术获取图片中的商铺营业相关信息即证件码之后,基于证件码可获取更详尽的数据如店铺名、地址、菜品、评论、快递信息、营业时间等等;
然后,对店铺的各项参数(店铺名、地址、菜品、评论、快递信息、营业时间)进行分值、规则、权重的设定,采用模糊数学中的模糊综合分析法,并采用加权平均法和主因素突出法进行分项指标的分数合成;
上述的模糊综合分析法具体包括以下步骤:
1、确定评价对象的因素集
设U={u1,u2,…,um}为刻画被评价对象的m种评价因素(评价指标)。其中:m是评价因素的个数,有具体的指标体系所决定。
为便于权重分配和评议,可以按评价因素的属性将评价因素分成若干类,把每一类都视为单一评价因素,并称之为第一级评价因素。第一级评价因素可以设置下属的第二级评价因素,第二级评价因素又可以设置下属的第三级评价因素,依此类推。
即U=U1∪U2∪…∪Us.(有限不交并)
其中Ui={ui1,ui2,…,uim},Ui∩Uj=Φ,任意i≠j,i,j=1,2,…,s.
我们称{Ui}是U的一个划分(或剖分),Ui称为类(或块)。
2、确定评价对象的评语集
设V={v1,v2,…,Vn},是评价者对被评价对象可能做出的各种总的评价结果组成的评语等级的集合。
其中:vj代表第j个评价结果,j=1,2,…,n.n为总的评价结果数.一般划分为3~5个等级。
评判集、评价集、决断集、评语集、等级集实为同一涵义;
每一个评价等级可对应一个模糊子集;
论域上的模糊集合称为模糊子集;
经典集合的指示函数扩展为模糊集合的隶属函数。3、确定评价因素的权重向量
设A=(a1,a2,…,am)为权重(权数)分配模糊矢量,其中ai表示第i个因素的权重,要求0<<ai,∑ai=1.
A反映了各因素的重要程度。
在进行模糊综合评价时,权重对最终的评价结果会产生很大的影响,
不同的权重有时会得到完全不同的结论;
现在通常是凭经验给出权重,但带有主观性。
4、进行单因素模糊评价,确立模糊关系矩阵R
单独从一个因素出发进行评价,以确定评价对象对评价集合V的隶属程度,称为单因素模糊评价(one-way evaluation)。
在构造了等级模糊子集后,就要逐个对被评价对象从每个因素ui上进行量化,也就是确定从单因素来看被评价对象对各等级模糊子集的隶属度,进而得到模糊关系矩阵:
其中rij表示某个被评价对象从因素ui来看对等级模糊子集vj的隶属度。一个被评价对象在某个因素ui方面的表现是通过模糊矢量ri来刻画的,rj称为单因素评价矩阵,可以看作是因素集U和评价集V之间的一种模糊关系,即影响因素与评价对象之间的“合理关系”。
在确定隶属关系时,通常是由专家或与评价问题相关的专业人员依据评判等级对评价对象进行打分,然后统计打分结果,然后可以根据绝对值减数法求得;
5、多指标综合评价(合成模糊综合评价结果矢量)
利用合适的模糊合成算子将模糊权矢量A与模糊关系矩阵R合成得到各被评价对象的模糊综合评价结果矢量B。
模糊综合评价的模型为:
6、对模糊综合评价结果进行分析
模糊综合评价的结果是被评价对象对各等级模糊子集的隶属度,它一般是一个模糊矢量,而不是一个点值,因而他能提供的信息比其他方法更丰富.对多个评价对象比较并排序,就需要进一步处理,即计算每个评价对象的综合分值,按大小排序,按序择优.将综合评价结果B转换为综合分值,于是可依其大小进行排序,从而挑选出最优者.
处理模糊综合评价矢量B=(b1,b2,…,bn)的方法:
加权平均原则
将等级看作一种相对位置,使其连续化。为了能定量处理,不妨用“1,2,3,…,m”以此表示各等级,并称其为各等级的秩。
然后用B中对应分量将各等级的秩加权求和,从而得到被评价对象的相对位置,其表达方式如下:
其中,k为待定系数(k=1或2)目的是控制较大的bj所引起的作用。当k->∞时,加权平均原则就是主因素突出原则。
最终,对店铺给出是否流通店铺的打分,对于大于设定阀值的店铺,直接判定为流通店铺,对于指定分值断的店铺进入人工分析纠错。
还包括一种基于网络订餐平台筛选订餐商铺的系统,其中,如图5所示,包括:
服务端2,以及与服务端2连接的多个任务采集客户端1;
任务采集客户端1包括:
任务采集模块11,用以根据采集任务采集获取网络商铺信息;
第一级去重处理模块12,对采集的网络商铺信息进行第一级去重处理;
收发模块13,用以将去重处理之后的网络商铺数据发送至服务端2;
服务端2包括:
第二级去重处理模块,对网络商铺数据进行第二级去重处理,并保存去重处理之后的网络商铺数据;
筛选处理模块22,用以按照预设的店铺类别筛选规则对经过第二级去重处理后的网络商铺数据进行筛选处理以获得订餐商铺信息。
上述技术方案中,该系统中通过任务采集客户端1对采集的网络商铺信息进行第一级去重处理,然后将去重处理后的网络商铺信息发送至服务端2,由服务端2对接收的网络商铺信息进行第二级去重处理,然后对经过第二级处理后的网络商铺信息进行筛选获得订餐商铺信息的过程与上述方法步骤中一致,此处不再赘述。
在一种较优的实施方式中,如图6所示,第一级去重处理模块12包括:
存储单元121,将采集的网络商铺信息进行缓存,此处的存储单元121优选为任务采集客户端1中的内存;
第一标识提取单元122,于存储模块中的网络商铺信息中提取网络商铺的唯一身份标识;
列表单元123,将每个网络商铺的唯一身份标识保存于一数据表中;
第一处理单元124、根据网络商铺的唯一身份标识于数据表中对重复的网络商铺信息去除。
上述技术方案中,数据表可为(hash字典),在查找时,首先对键进行hash运算,把求得的值当做“键-值对”的存储位置,在结构中按照此位置取“键-值对”进行比较,若键相等,则表示搜索成功。在存储“键-值对”的时候,依照相同的hash函数计算存储位置,并按此位置存放,这种方法就叫做哈希方法,也叫做散列方法。在哈希方法中使用的转换函数hash被称作哈希函数(或者散列函数)。按照此中算法构造出来的表叫做哈希表(或者散列表)。
在一种较优的实施方式中,如图7所示,第二级去重处理模块包括:
第二标识提取单元
211,用以对接收的网络商铺数据提取出唯一身份标识;
比较单元212,用以将当前的网络商铺数据的唯一身份标识与已存储的网络商铺数据的唯一身份标识进行比较;
第二处理单元213,用以根据比较结果,若比较结果一致,则表示当前的网络商铺数据存在重复,执行去除操作;
若比较结果不一致,则将当前的网络商铺数据进行保存。
在一种较优的实施方式中,如图8所示,筛选处理模块22包括:
模糊匹配单元221,用以获取网络商铺数据中的商铺名称,采用商铺名称的模糊匹配方法对网络商铺数据中的非订餐商铺的店铺名称进行初级过滤,以获得过滤数据;
流通判断单元,用以采用流通判断规则对过滤数据进行流通判断,以获得处于流通状态的订餐商铺信息。
在一种较优的实施方式中,计算机存储介质存储有实现上述的基于网络订餐平台筛选订餐商铺的方法的计算机程序。
上述技术方案中,本系统还包括对数据采集资源管理的功能,其功能主要是将资源集中管理、通过向任务采集客户端1提供接口,将资源共享给所有的任务采集客户端1,实现资源的共享和调度;
本系统还提供一资源存储中心,资源存储中心用以存储每个任务采集客户端1执行采集任务时反馈的外部资源(可包括IP,cookie等),以及保存上述的网络商铺数据,该资源存储中心可提供外部系统访问的接口,使外部系统可调用接口于资源存储中心获取相应的数据,其中,资源存储中心可为每个任务采集客户端1提供接口,任务采集客户端1在执行任务时可通过调用该接口获取采集任务时需要的资源,采集控制终端则通过相应的接口查询任务采集节点使用的资源情况;
同时采用统一的资源存储中心后,就可以统计任务采集客户端1近期使用了哪些资源未使用哪些同类资源,这样就可以最大限度的利用有限的资源去做更多的采集任务;
其中需要说明的是,服务端2接收的任务采集客户端1上报的网络商铺数据之后,可保存于服务端2本地的数据库中,也可以将数据保存于该资源存储中心,进一步的在服务端2筛选出处于流通状态的订餐商铺数据后保存于资源存储中心,需要查看时可通过该资源存储中心提供接口供外部访问设备调用获取。
以上所述仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。
Claims (9)
1.一种基于网络订餐平台筛选订餐商铺的方法,其特征在于,提供一服务端以及多个任务采集客户端,具体包括以下步骤:
S1、所述任务采集客户端对采集的网络商铺信息进行第一级去重处理,去重处理之后的网络商铺数据发送至所述服务端;
S2、所述服务端对所述网络商铺数据进行第二级去重处理,并保存去重处理之后的所述网络商铺数据;
S3、所述服务端按照预设的店铺类别筛选规则对经过第二级去重处理后的所述网络商铺数据进行筛选处理以获得订餐商铺信息。
2.根据权利要求1所述的方法,其特征在于,所述任务采集客户端对所述网络商铺信息进行第一级去重处理的方法,包括以下步骤:
S11、将采集的所述网络商铺信息进行缓存;
S12、于所述网络商铺信息中提取网络商铺的唯一身份标识;
S13、将每个所述网络商铺的唯一身份标识保存于一数据表中;
S14、根据所述网络商铺的唯一身份标识于所述数据表中对重复的所述网络商铺信息去除。
3.根据权利要求1所述的方法,其特征在于,所述服务端对所述网络商铺数据进行去重的方法,包括以下步骤:
步骤S21、所述服务端接收每个所述任务采集客户端发送的所述网络商铺数据;
S22、所述服务端于所述网络商铺数据中提取出所述网络商铺的唯一身份标识;
S23、将当前的所述网络商铺的唯一身份标识与已存储的所述网络商铺的唯一身份标识进行比较;
S24、若比较结果一致,则表示当前的网络商铺数据存在重复,执行去除操作;
若比较结果不一致,则将当前的所述网络商铺数据进行保存。
4.根据权利要求1所述的方法,其特征在于,所述服务端按照预设的店铺类别筛选规则对所述网络商铺数据进行筛选处理以获得订餐商铺信息的方法,包括以下步骤:
S31、用以获取所述网络商铺数据中的商铺名称,采用商铺名称的模糊匹配方法对所述网络商铺数据中的非订餐商铺的店铺名称进行初级过滤,以获得过滤数据;
S32、采用流通判断规则对所述过滤数据进行流通判断以获得处于流通状态的订餐商铺信息。
5.一种基于网络订餐平台筛选订餐商铺的系统,其特征在于,包括:
服务端,以及与所述服务端连接的多个任务采集客户端;
所述客户端包括:
任务采集模块,用以根据采集任务采集获取网络商铺信息;
第一级去重处理模块,对采集的网络商铺信息进行第一级去重处理;
收发模块,用以将去重处理之后的网络商铺数据发送至所述服务端;
所述服务端包括:
第二级去重处理模块,对所述网络商铺数据进行第二级去重处理,并保存去重处理之后的所述网络商铺数据;
筛选处理模块,用以按照预设的店铺类别筛选规则对经过第二级去重处理后的所述网络商铺数据进行筛选处理以获得订餐商铺信息。
6.根据权利要求5所述的系统,其特征在于,所述第一级去重处理模块包括:
存储单元,将采集的所述网络商铺信息进行缓存;
第一标识提取单元,于所述存储模块中的所述网络商铺信息中提取网络商铺的唯一身份标识;
列表单元,将每个所述网络商铺的唯一身份标识保存于一数据表中;
第一处理单元,根据所述网络商铺的唯一身份标识于所述数据表中对重复的所述网络商铺信息去除。
7.根据权利要求5所述的系统,其特征在于,所述任第二级去重处理模块包括:
第二标识提取单元,用以对接收的所述网络商铺数据提取出所述唯一身份标识;
比较单元,用以将当前的所述网络商铺数据的所述唯一身份标识与已存储的所述网络商铺数据的唯一身份标识进行比较;
第二处理单元,用以根据所述比较结果,若比较结果一致,则表示当前的网络商铺数据存在重复,执行去除操作;
若比较结果不一致,则将当前的所述网络商铺数据进行保存。
8.根据权利要求5或7所述的系统,其特征在于,所述筛选处理模块包括:
模糊匹配单元,用以获取所述网络商铺数据中的商铺名称,采用商铺名称的模糊匹配方法对所述网络商铺数据中的非订餐商铺的店铺名称进行初级过滤,以获得过滤数据;
流通判断单元,用以采用流通判断规则对所述过滤数据进行流通判断,以获得处于流通状态的订餐商铺信息。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有实现权利要求1-4中任一所述的基于网络订餐平台筛选订餐商铺的方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910622937.5A CN111311439A (zh) | 2019-07-10 | 2019-07-10 | 基于网络订餐平台筛选订餐商铺的方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910622937.5A CN111311439A (zh) | 2019-07-10 | 2019-07-10 | 基于网络订餐平台筛选订餐商铺的方法、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111311439A true CN111311439A (zh) | 2020-06-19 |
Family
ID=71146675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910622937.5A Pending CN111311439A (zh) | 2019-07-10 | 2019-07-10 | 基于网络订餐平台筛选订餐商铺的方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111311439A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111861507A (zh) * | 2020-06-30 | 2020-10-30 | 成都数之联科技有限公司 | 一种用于实时分析网络餐饮店铺风险的识别方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105678557A (zh) * | 2016-01-04 | 2016-06-15 | 百度在线网络技术(北京)有限公司 | 模型生成方法及装置、服务质量的评估方法及装置 |
CN107147721A (zh) * | 2017-05-17 | 2017-09-08 | 北京天地和兴科技有限公司 | 一种分布式部署的审计数据去重系统 |
CN107403334A (zh) * | 2017-06-07 | 2017-11-28 | 北京小度信息科技有限公司 | 数据处理方法及装置 |
CN108121706A (zh) * | 2016-11-28 | 2018-06-05 | 央视国际网络无锡有限公司 | 一种分布式爬虫的优化方法 |
CN108197177A (zh) * | 2017-12-21 | 2018-06-22 | 北京三快在线科技有限公司 | 业务对象的监测方法、装置、存储介质和计算机设备 |
CN109658164A (zh) * | 2019-02-21 | 2019-04-19 | 山东浪潮云信息技术有限公司 | 一种计算从网页爬取的餐饮外卖店铺数据销售额的方法 |
-
2019
- 2019-07-10 CN CN201910622937.5A patent/CN111311439A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105678557A (zh) * | 2016-01-04 | 2016-06-15 | 百度在线网络技术(北京)有限公司 | 模型生成方法及装置、服务质量的评估方法及装置 |
CN108121706A (zh) * | 2016-11-28 | 2018-06-05 | 央视国际网络无锡有限公司 | 一种分布式爬虫的优化方法 |
CN107147721A (zh) * | 2017-05-17 | 2017-09-08 | 北京天地和兴科技有限公司 | 一种分布式部署的审计数据去重系统 |
CN107403334A (zh) * | 2017-06-07 | 2017-11-28 | 北京小度信息科技有限公司 | 数据处理方法及装置 |
CN108197177A (zh) * | 2017-12-21 | 2018-06-22 | 北京三快在线科技有限公司 | 业务对象的监测方法、装置、存储介质和计算机设备 |
CN109658164A (zh) * | 2019-02-21 | 2019-04-19 | 山东浪潮云信息技术有限公司 | 一种计算从网页爬取的餐饮外卖店铺数据销售额的方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111861507A (zh) * | 2020-06-30 | 2020-10-30 | 成都数之联科技有限公司 | 一种用于实时分析网络餐饮店铺风险的识别方法及系统 |
CN111861507B (zh) * | 2020-06-30 | 2023-10-24 | 成都数之联科技股份有限公司 | 一种用于实时分析网络餐饮店铺风险的识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109167835B (zh) | 一种基于kubernetes的物理资源调度方法及系统 | |
CN105095223B (zh) | 文本分类方法及服务器 | |
CN111614690B (zh) | 一种异常行为检测方法及装置 | |
CN105162875B (zh) | 大数据群体任务分配方法及装置 | |
CN111464583B (zh) | 计算资源分配方法、装置、服务器及存储介质 | |
CN107767153B (zh) | 一种数据处理方法及装置 | |
CN108491773A (zh) | 一种识别方法及系统 | |
CN106453546B (zh) | 分布式存储调度的方法 | |
US20160062929A1 (en) | Master device, slave device and computing methods thereof for a cluster computing system | |
CN111932330A (zh) | 服务位置推荐方法、装置、电子设备及可读存储介质 | |
CN113010576A (zh) | 云计算系统容量评估的方法、装置、设备和存储介质 | |
CN109241084A (zh) | 数据的查询方法、终端设备及介质 | |
CN111443867B (zh) | 一种数据存储方法、装置、设备及存储介质 | |
CN104965846B (zh) | MapReduce平台上的虚拟人建立方法 | |
CN109460299B (zh) | 一种分布式并行多源社交网络数据采集系统和方法 | |
CN111311439A (zh) | 基于网络订餐平台筛选订餐商铺的方法、系统及存储介质 | |
CN113704389A (zh) | 一种数据评估方法、装置、计算机设备及存储介质 | |
CN115883392B (zh) | 算力网络的数据感知方法、装置、电子设备及存储介质 | |
CN115665157B (zh) | 一种基于应用资源类型的均衡调度方法和系统 | |
CN111882113A (zh) | 一种企业手机银行用户的预测方法和装置 | |
CN104484330B (zh) | 基于分档关键词阈值组合评估的垃圾评论预选方法及装置 | |
CN114330720A (zh) | 用于云计算的知识图谱构建方法、设备及存储介质 | |
CN114401195A (zh) | 服务器的容量调整方法及装置、存储介质及电子设备 | |
CN111126419B (zh) | 网点聚类方法及装置 | |
CN113379257A (zh) | 一种销售线索自动智能分配的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |