CN110209907A - 信息处理装置、方法以及计算机可读存储介质 - Google Patents

信息处理装置、方法以及计算机可读存储介质 Download PDF

Info

Publication number
CN110209907A
CN110209907A CN201810147673.8A CN201810147673A CN110209907A CN 110209907 A CN110209907 A CN 110209907A CN 201810147673 A CN201810147673 A CN 201810147673A CN 110209907 A CN110209907 A CN 110209907A
Authority
CN
China
Prior art keywords
crawl
information
native
match
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810147673.8A
Other languages
English (en)
Inventor
肖明昭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201810147673.8A priority Critical patent/CN110209907A/zh
Publication of CN110209907A publication Critical patent/CN110209907A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开涉及一种信息处理装置、方法以及计算机可读存储介质,涉及计算机技术领域。本公开的装置包括:任务设置模块,被配置为接收用户输入的抓取对象信息以及抓取规则,生成抓取任务;任务执行模块,被配置为根据抓取任务,抓取该抓取对象对应的内容;信息分析模块,被配置为根据抓取对象对应的内容,确定与抓取对象相匹配的本地对象,并将相匹配的抓取对象和本地对象对应的内容进行比对;信息输出模块,被配置为将相匹配的抓取对象和本地对象的比对结果进行呈现。本公开的装置对于用户操作简单方便,提高了获取竞争对手信息的效率、全面性和准确率,帮助用户迅速了解情况,满足了用户的不同需求。

Description

信息处理装置、方法以及计算机可读存储介质
技术领域
本公开涉及计算机技术领域,特别涉及一种信息处理装置、方法以及计算机可读存储介质。
背景技术
随着互联网技术的发展,人们获取信息的渠道越来越多,信息量越来越大。互联网技术丰富了人们的日常生活,人们可以通过互联网阅读、购物、娱乐、社交等等。
不同类型的电子商务平台不断涌现,相互之间的竞争也越来越激烈。电子商务平台要想在激烈的竞争中赢得市场,需要时刻关注竞争对手的情况。
目前,一般由运营人员人工查看竞争对手的信息,再和本平台的信息进行比对,例如商品价格等,从而调整本平台的信息。尤其在一些竞争对手仅有应用程序APP的情况下,更需要人工在手机上查看竞争对手APP的信息。
发明内容
发明人发现:上述通过人工获取竞争对手信息的方式,效率低,且不能查看竞争对手所有信息,人工分析比对本平台与竞争对手信息,容易出错,准确率低。
本公开所要解决的一个技术问题是:如何提高获取竞争对手信息的效率、全面性和准确率。
根据本公开的一些实施例,提供的一种信息处理装置,包括:任务设置模块,被配置为接收用户输入的抓取对象信息以及抓取规则,生成抓取任务;任务执行模块,被配置为根据抓取任务,抓取该抓取对象对应的内容;信息分析模块,被配置为根据抓取对象对应的内容,确定与抓取对象相匹配的本地对象,并将相匹配的抓取对象和本地对象对应的内容进行比对;信息输出模块,被配置为将相匹配的抓取对象和本地对象的比对结果进行呈现。
在一些实施例中,抓取对象信息包括抓取对象的类别和第一抓取对象的操作路径,抓取规则包括抓取停止条件;任务设置模块被配置为自动根据第一抓取对象的操作路径生成多个第二抓取对象的操作路径,直至满足抓取停止条件,其中,多个第二抓取对象与第一抓取对象为同一类别。
在一些实施例中,抓取规则包括抓取周期;任务执行模块被配置为根据抓取周期抓取抓取对象对应的内容。
在一些实施例中,任务执行模块包括抓取客户端和调度控制单元;在抓取规则包括并发执行,且任务执行模块包括多个抓取客户端的情况下,调度控制单元被配置为根据各个抓取客户端的负载,将抓取任务分配至多个抓取客户端并发执行。
在一些实施例中,信息分析模块包括商品信息分析单元;商品信息分析单元被配置为根据抓取的内容对应的标识提取商品名称信息、价格信息,对商品名称信息进行分词,将分词作为关键字查询与抓取对象相匹配的本地对象,并将相匹配的抓取对象和本地对象的价格信息进行比对。
在一些实施例中,信息分析模块包括促销信息分析单元;促销信息分析单元被配置为根据抓取的内容确定促销信息以及促销针对的商品,确定与促销针对的商品相匹配的本地对象,并将相匹配的商品和本地对象的促销信息进行比对,促销信息包括促销类型、促销力度。
在一些实施例中,该装置还包括:存储模块,被配置为存储本地对象的信息、抓取对象的内容、相匹配的抓取对象和本地对象的比对结果、以及抓取任务中至少一项。
在一些实施例中,任务设置模块包括:通知设置单元;通知设置单元被配置为接收用户设置的针对抓取对象的订阅信息,响应于抓取对象的内容或相匹配的本地对象信息发送变化,将抓取对象的内容以及相匹配的本地对象信息发送至用户的订阅地址;订阅地址包括短信地址、网址、邮箱地址中至少一项。
根据本公开的另一些实施例,提供的一种信息处理方法,包括:接收用户输入的抓取对象信息以及抓取规则,生成抓取任务;根据抓取任务,抓取该抓取对象对应的内容;根据抓取对象对应的内容,确定与抓取对象相匹配的本地对象,并将相匹配的抓取对象和本地对象对应的内容进行比对;将相匹配的抓取对象和本地对象的比对结果进行呈现。
在一些实施例中,抓取对象信息包括抓取对象的类别和第一抓取对象的操作路径,抓取规则包括抓取停止条件;生成抓取任务包括:自动根据第一抓取对象的操作路径生成多个第二抓取对象的操作路径,直至满足抓取停止条件,其中,多个第二抓取对象与第一抓取对象为同一类别。
在一些实施例中,抓取规则包括抓取周期;抓取对象对应的内容是根据抓取周期抓取的。
在一些实施例中,在抓取规则包括并发执行的情况下,根据各个抓取客户端的负载,将抓取任务分配至多个抓取客户端并发执行。
在一些实施例中,确定与抓取对象相匹配的本地对象,并将相匹配的抓取对象和本地对象对应的内容进行比对包括:根据抓取的内容对应的标识提取商品名称信息、价格信息,对商品名称信息进行分词,将分词作为关键字查询与抓取对象相匹配的本地对象,并将相匹配的抓取对象和本地对象的价格信息进行比对。
在一些实施例中,确定与抓取对象相匹配的本地对象,并将相匹配的抓取对象和本地对象对应的内容进行比对包括:根据抓取的内容确定促销信息以及促销针对的商品,确定与促销针对的商品相匹配的本地对象,并将相匹配的商品和本地对象的促销信息进行比对,促销信息包括促销类型、促销力度。
在一些实施例中,该方法还包括:将本地对象的信息、抓取对象的内容、相匹配的抓取对象和本地对象的比对结果、以及抓取任务中至少一项进行存储。
在一些实施例中,该方法还包括:接收用户设置的针对抓取对象的订阅信息;响应于抓取对象的内容或相匹配的本地对象信息发送变化,将抓取对象的内容以及相匹配的本地对象信息发送至用户的订阅地址;订阅地址包括短信地址、网址、邮箱地址中至少一项。
根据本公开的又一些实施例,提供的一种信息处理装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器设备中的指令,执行如前述任一个实施例的信息处理方法。
根据本公开的再一些实施例,提供的计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现前述任一个实施例的信息处理方法。
本公开中用户只需要输入抓取对象的信息和抓取规则,信息处理装置即可自动抓取用户需要的内容,并且能够自动将抓取对象与本地对象进行匹配,将两者的内容进行比对并呈现给用户。用户操作简单方便,并可以实时获取抓取对象的信息和与本地对象的比对分析结果,提高了获取竞争对手信息的效率、全面性和准确率,帮助用户迅速了解情况,满足了用户的不同需求。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本公开的一些实施例的信息处理装置的结构示意图。
图2示出本公开的另一些实施例的信息处理装置的结构示意图。
图3示出本公开的一些实施例的信息处理方法的流程示意图。
图4示出本公开的另一些实施例的信息处理方法的流程示意图。
图5示出本公开的又一些实施例的信息处理装置的结构示意图。
图6示出本公开的再一些实施例的信息处理装置的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开提供一种信息处理装置,下面结合图1进行描述。
图1为本公开信息处理装置的一些实施例的结构图。如图1所示,该实施例的装置10包括:任务设置模块110、任务执行模块120、信息分析模块130、信息输出模块140。
任务设置模块110,被配置为接收用户输入的抓取对象信息以及抓取规则,生成抓取任务。
信息处理装置可以外接显示设备和输入设备,向用户提供可视化界面。可以采用菜单形式供用户选择抓取对象,也可以由用户直接输入抓取对象信息和抓取规则等。在设计开发信息处理装置时,开发人员会首先了解需要抓取的各种网站或应用程序(APP),进而针对不同的网站或应用程序(APP)开发不同的抓取功能。例如,针对安卓APP,可以利用uiautomatorviewer.bat工具,获取到各个页面中的各个模块的name(名称)、value(值)和位置,将name与页面中显示的名称进行映射,当用户输入显示的名称时,会自动转换为name并生成计算机识别的语言。
抓取对象信息包括抓取对象所在APP、类别、名称、操作路径等。抓取规则包括抓取停止条件、抓取周期等。例如,用户需要抓取APP1,手机分类下的Iphone7的页面信息,可以根据显示界面上的操作指引,第一步填入或选择打开APP1,第二步填入或选择首页中手机分类入口的名称“手机”,第三步填入或选择“Iphone7”,任务设置模块110根据用户输入的信息,会自动生成计算机可以识别的语言。
在一些实施例中,用户可以选择抓取同一类别多个对象,在这种情况下用户输入的抓取对象信息包括抓取对象的类别和第一抓取对象的操作路径,抓取规则包括抓取停止条件。任务设置模块110被配置为自动根据第一抓取对象的操作路径生成多个第二抓取对象的操作路径,直至满足抓取停止条件,其中,多个第二抓取对象与第一抓取对象为同一类别。
例如,抓取对象的类别为手机,第一抓取对象的操作路径即为上述的第一步填入或选择打开APP1,第二步填入或选择首页中手机分类入口的名称“手机”,第三步填入或选择“Iphone7”,抓取停止条件为抓取该类别下所有对象。抓取停止条件可以作为下拉菜单提供给用户选择,例如包括抓取一个对象,抓同类别下所有对象,抓取APP中所有对象等。任务设置模块110根据手机类别下所有对象的name,自动生成返回手机类别页和点击下一个对象的操作,从而实现抓取同一类别下所有对象的操作。同理,任务设置模块110还可以自动抓取不同类别的不同对象的内容,只需要用户提供一种操作路径即可。
在一些实施例中,用户还可以设置抓取周期,任务设置模块110将抓取周期发送至任务执行模块120,任务执行模块120每隔抓取周期执行一次抓取任务。例如,用户可以设置每隔几小时、几天运行一次等。
任务设置模块110接收用户输入的抓取对象信息以及抓取规则,例如可以生成以下内容。
上述内容的关键字说明如下。click:表示模拟一次点击动作;它的属性name和value是我们要点击的目标APP模块它对应的name和value;get:表示要获取指定模块name和value那个模块对应的content(内容);if和else:成对出现;含义是如果val1和val2通过param的方式进行比较,如果为真就执行if下面的内容,否则就是else下面的内容;for:循环执行它里面的内容;break代表:执行次数;back:用于点击回退按钮。通过以上各种组合可以组合出很多复杂的执行路径。上述内容可以作为生成的抓取任务,发送至任务执行模块120。
任务执行模块120,被配置为根据抓取任务,抓取该抓取对象对应的内容。
抓取对象例如为商品,抓取对象对应的内容例如为商品详情页的内容,包括商品名称、价格、商品描述、评论人数、购买人数等。抓取对象例如为促销信息或活动信息等,一般APP中首页会设置循环滚动广告栏播放促销信息或活动信息等,可以对该位置的信息进行抓取。抓取对象对应的内容例如为促销信息对应的图片或描述信息等。可以对任何页面上的信息进行抓取,不限于上述示例。
对APP中内容进行抓取可以采用Appium客户端。Appium客户端是基于Appium(Appium是一个开源、跨平台的测试框架,可以用来测试原生及混合的移动端应用)开发的一套可以模拟人为访问手机上面APP的模块,它可以自动的打开指定的手机上面的APP,然后模拟人的行为点击、手势上滑下滑等操作;同时该模块可以读取到页面展示的内容。上述抓取任务发送至Appium客户端后会被Appium执行器翻译成执行代码进而执行抓取任务。
信息分析模块130,被配置为根据抓取对象对应的内容,确定与抓取对象相匹配的本地对象,并将相匹配的抓取对象和本地对象对应的内容进行比对。
在一些实施例中,在抓取对象为商品的情况下,信息分析模块130被配置为根据抓取的内容对应的标识提取商品名称信息、价格信息,对商品名称信息进行分词,将分词作为关键字查询与抓取对象相匹配的本地对象,并将相匹配的抓取对象和本地对象的价格信息进行比对。
前述实施例中提到,页面中不同位置的name可以获得,根据抓取到的内容对应的name,即可得知哪些为商品名称信息,哪些为价格信息。提取商品名称信息后可以进行分词,作为关键字在本地数据库中查询与抓取对象相匹配的本地对象,可以采用Elasticsearch集群,该集群中存储本平台的数据,并可以自动根据关键字计算本地对象与抓取对象的关联分数,查询与抓取对象相似的本地对象。进一步,除了比对抓取对象和本地对象的价格信息,还可以比对评论人数、购买人数的信息。可以比对一次抓取任务中抓取对象和本地对象的价格信息,还可以比对一段时间内多次抓取任务中抓取对象和本地对象的价格信息以及价格信息的变化规律。
进一步,信息分析模块130不仅可以提供抓取对象和本地对象的比对结果,还可以进行分析给出调整建议。例如,抓取对象的价格与相匹配的本地对象的价格差,高于阈值,则给出降低价格的调整建议。又例如,根据相匹配的抓取对象和本地对象的价格比例和购买人数比例确定是否调整价格。进一步,计算抓取对象和本地对象的价格比例和购买人数反比的加权和,如果低于阈值,则给出降低价格的调整建议。
在一些实施例中,在抓取对象为促销信息的情况下,信息分析模块130被配置为根据抓取的内容确定促销信息以及促销针对的商品,确定与促销针对的商品相匹配的本地对象,并将相匹配的商品和本地对象的促销信息进行比对,促销信息包括促销类型、促销力度。促销类型包括满减类型、优惠价类型、直降类型等。促销力度反映商品降价幅度,可以划分为不同的促销力度等级。例如,设置不同的降价阈值,对应的降价幅度越大,促销力度越大。
在抓取对象为图片的情况下,可以采用Opencv2将图片中的文字进行提取。进一步将文字进行分词,或者直接匹配文字中是否包含满减、优惠等促销类型文字,从而判断促销类型,文字中还包含商品名称或类别等,可以通过Elasticsearch集群查询与促销针对的商品相匹配的本地对象,以及本地对象是否进行促销。还可以根据相匹配的抓取对象与本地对象的促销力度的对比结果,给出建议。例如,在相匹配的抓取对象与本地对象的促销力度的差,高于阈值的情况下,建议增加促销力度。
信息输出模块140,被配置为将相匹配的抓取对象和本地对象的比对结果输出,以便进行呈现。
信息输出模块140将相匹配的抓取对象和本地对象以及比对结果输出到用户的操作界面上,供用户查看,即用户输入抓取对象的信息等之后,点击下发任务即可实时查看到抓取对象和本地对象的信息以及比对结果。
上述实施例的方法中用户只需要输入抓取对象的信息和抓取规则,信息处理装置即可自动抓取用户需要的内容,并且能够自动将抓取对象与本地对象进行匹配,将两者的内容进行比对并呈现给用户。用户操作简单方便,并可以实时获取抓取对象的信息和与本地对象的比对分析结果,提高了获取竞争对手信息的效率、全面性和准确率,帮助用户迅速了解情况,满足了用户的不同需求。
下面结合图2描述本公开信息处理装置的另一些实施例。
图2为本公开信息处理装置的另一些实施例的结构图。如图2所示,该实施例的装置20包括:任务设置模块210、任务执行模块220、信息分析模块230、信息输出模块240、存储模块250。
任务设置模块210、任务执行模块220、信息分析模块230、信息输出模块240可以分别实现与任务设置模块110、任务执行模块120、信息分析模块130、信息输出模块140相同的功能。
任务设置模块210还可以划分为抓取设置单元2102,任务下发单元2104。
抓取设置单元2102被配置为接收用户输入的抓取对象信息以及抓取规则,生成抓取任务。
任务下发单元2104被配置为将抓取任务发送至任务执行模块220或存储模块250。
针对周期性执行的任务,可以先将抓取任务发送至存储模块250,每隔预设周期由任务执行模块220到存储模块250中获取抓取任务。
进一步,任务设置模块210还可以包括:匹配规则设置单元2106,被配置为接收用户输入的匹配规则,发送至信息分析模块130,以便信息分析模块130根据匹配规则对抓取对象的内容进行分析。
匹配规则即如何将抓取对象与本地对象进行匹配的规则,例如,匹配商品名称、促销类型等规则。一个新的匹配规则上线后,就会在信息处理装置上面配置上这个规则,并把这个规则调用的API(Application Programming Interface,应用程序编程接口)做好关联,例如Elasticsearch集群的API。匹配规则设置单元2106可以方便用户在页面上修改新增删除规则,而不需要再找研发人员修改匹配代码;可以提高本公开的信息处理装置的通用性。
进一步,任务设置模块210还可以包括:通知设置单元2108,被配置为接收用户设置的针对抓取对象的订阅信息,响应于抓取对象的内容或相匹配的本地对象信息发送变化,将抓取对象的内容以及相匹配的本地对象信息发送至用户的订阅地址。订阅地址包括短信地址、网址、邮箱地址中至少一项。订阅信息可以包括抓取对象的标识,订阅地址、发送规则等。
对于周期性执行的抓取任务通知设置单元2108可以在每个抓取周期的抓取任务执行完毕后将抓取对象的内容以及相匹配的本地对象信息发送至用户的订阅地址。
在一些实施例中,任务执行模块220可以包括调度控制单元2202和抓取客户端2204。抓取客户端2204可以有多个。
用户设置的抓取规则可以包括并发执行,或者在抓取客户端2204有多个的情况下,调度控制单元2202可以自动控制多个抓取客户端2204并行执行任务。
进一步,调度控制单元2202被配置为根据各个抓取客户端的负载,将抓取任务分配至多个抓取客户端并发执行。抓取客户端2204被配置为接收调度控制单元2202分配的抓取任务,抓取该抓取对象对应的内容。抓取客户端例如为Appuim客户端。调度控制单元2202设置并发数启动线程,每个线程抓取的内容会提前分配好。例如,设置3个线程抓取同一分类下的商品,启动线程时就会把所有商品分为3部分,每个线程对应一个部分。调度控制单元2202主要是接收抓取配置中心的指令,控制Appium客户端进行运行,比如让Appium去启动那个app,然后点击那些模块,抓取那些内容等。
在一些实施例中,信息分析模块230可以包括商品信息分析单元2302、促销信息分析单元2304。
商品信息分析单元2302被配置为根据抓取的内容对应的标识提取商品名称信息、价格信息,对商品名称信息进行分词,将分词作为关键字查询与抓取对象相匹配的本地对象,并将相匹配的抓取对象和本地对象的价格信息进行比对。
促销信息分析单元2304被配置为根据抓取的内容确定促销信息以及促销针对的商品,确定与促销针对的商品相匹配的本地对象,并将相匹配的商品和本地对象的促销信息进行比对,促销信息包括促销类型、促销力度。
在一些实施例中,信息输出模块240可以包括操作界面显示单元2402,操作结果显示单元2404。
操作界面显示单元2402用于向用户提供操作界面,即提供用户输入抓取对象信息以及抓取规则的界面。操作结果显示单元2404用于将相匹配的抓取对象和本地对象的比对结果进行呈现。
在一些实施例中,存储模块250,被配置为存储本地对象的信息、抓取对象的内容、相匹配的抓取对象和本地对象的比对结果、以及抓取任务中至少一项。
进一步,存储模块250可以包括:Elasticsearch集群2502,Hbase集群2504,Redis集群2506,Mysql集群2508。Elasticsearch集群2502用于存储本地对象的信息,例如,商品名称、价格、促销信息等。Hbase集群2504用于存储抓取对象对应的内容以及相匹配的抓取对象和本地对象的比对结果等。Redis集群2506用于记录当前抓取客户端已经抓取的信息,避免同一个任务对应的多并发的子任务重复执行。Mysql集群2508用于存储抓取任务。
本公开还提供一种数据处理方法,下面结合图3进行描述。
图3为本公开数据处理方法一些实施例的流程图。如图3所示,该实施例的方法包括:步骤S302~S308。
步骤S302,接收用户输入的抓取对象信息以及抓取规则,生成抓取任务。
如前述实施例中,抓取对象信息包括:抓取对象所在网页或APP,抓取对象的类别、名称、操作路径等。抓取规则包括抓取停止条件、抓取周期等。
在一些实施例中,抓取对象信息包括抓取对象的类别和第一抓取对象的操作路径,抓取规则包括抓取停止条件。自动根据第一抓取对象的操作路径生成多个第二抓取对象的操作路径,直至满足抓取停止条件,其中,多个第二抓取对象与第一抓取对象为同一类别。
步骤S304,根据抓取任务,抓取该抓取对象对应的内容。
在一些实施例中,可以设置抓取周期,抓取对象对应的内容是根据抓取周期抓取的。例如,设置任务执行周期,是只执行一次还是每天定时运行多次等信息,设置好的抓取任务保存到Mysql数据库,保存成功后,调度控制单元会收到任务通知并注册任务到应用系统中。后续调度控制单元应用中,发现有任务需要执行了,就开始把任务的信息从Mysql数据库中获取到。
在一些实施例中,可以设置多个抓取客户端,用户还可以设置并发执行的抓取规则,信息处理装置根据各个抓取客户端的负载,将抓取任务分配至多个抓取客户端并发执行。例如,调度控制单元获取到任务后,会根据任务设置查看该任务是否设置了多并发模式,并且根据目前任务集群的负载情况,把任务合理的分发到对应的Appium客户端上面,Appium客户端获取到通知,就会开始运行,然后根据该抓取任务进行工作。
进一步,Appium客户端抓取到内容后,可以调用接口把内容数据存储到Hbase,存储成功后可以记录当前Appium客户端已经抓取的信息,并调用接口存储到Redis,避免同一个任务对应的多并发的子任务不被重复执行。Appium客户端持续执行,直到到达需要停止的时候,可以由用户随时停止任务,也可以提前设置停止条件。任务执行到设置的结束点,任务就会自动停止,可以通知用户任务执行完毕,并记录本次抓取的内容数据等信息。
步骤S306,根据抓取对象对应的内容,确定与抓取对象相匹配的本地对象,并将相匹配的抓取对象和本地对象对应的内容进行比对。
在一些实施例中,根据抓取的内容对应的标识提取商品名称信息、价格信息,对商品名称信息进行分词,将分词作为关键字查询与抓取对象相匹配的本地对象,并将相匹配的抓取对象和本地对象的价格信息进行比对。具体可以参考前述实施例。
在一些实施例中,根据抓取的内容确定促销信息以及促销针对的商品,确定与促销针对的商品相匹配的本地对象,并将相匹配的商品和本地对象的促销信息进行比对,促销信息包括促销类型、促销力度。具体可以参考前述实施例。
步骤S308,将相匹配的抓取对象和本地对象的比对结果进行呈现。
用户实时查看相匹配的抓取对象和本地对象,以及两者对应的内容的比对结果等,进一步根据比对结果进行分析。
下面结合图4描述本公开信息处理方法的另一些实施例。
图4为本公开数据处理方法另一些实施例的流程图。如图4所示,该实施例的方法包括:步骤S402~S412。
步骤S402,接收用户设置的抓取对象信息、抓取规则以及针对抓取对象的订阅信息,生成抓取任务。
订阅信息例如包括:订阅的抓取对象,订阅规则,订阅地址等。订阅地址包括短信地址、网址、邮箱地址中至少一项。
步骤S404,根据抓取任务,抓取该抓取对象对应的内容。
步骤S406,根据抓取对象对应的内容,确定与抓取对象相匹配的本地对象,并将相匹配的抓取对象和本地对象对应的内容进行比对。
步骤S408,将相匹配的抓取对象和本地对象的比对结果进行呈现。
步骤S402~S408可以参考前述实施例的实现方法。
步骤S410,将本地对象的信息、抓取对象的内容、相匹配的抓取对象和本地对象的比对结果、以及抓取任务中至少一项进行存储。
可以参考前述实施例的存储方式。
步骤S412,响应于抓取对象的内容或相匹配的本地对象信息发送变化,将抓取对象的内容以及相匹配的本地对象信息发送至用户的订阅地址。
还可以设置其他订阅规则,例如每隔预设周期发送抓取的信息以及相匹配的抓去对象和本地对象的比对结果等。
本公开的实施例中的信息处理装置可各由各种计算设备或计算机系统来实现,下面结合图5以及图6进行描述。
图5为本公开信息处理装置的一些实施例的结构图。如图5所示,该实施例的装置50包括:存储器510以及耦接至该存储器510的处理器520,处理器520被配置为基于存储在存储器510中的指令,执行本公开中任意一些实施例中的信息处理方法。
其中,存储器510例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
图6为本公开信息处理装置的另一些实施例的结构图。如图6所示,该实施例的装置60包括:存储器610以及处理器620,分别与存储器510以及处理器520类似。还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630,640,650以及存储器610和处理器620之间例如可以通过总线660连接。其中,输入输出接口630为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口,例如可以连接到数据库服务器或者云端存储服务器等。存储接口650为SD卡、U盘等外置存储设备提供连接接口。
本公开还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开中任意一些实施例中的信息处理方法。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (18)

1.一种信息处理装置,包括:
任务设置模块,被配置为接收用户输入的抓取对象信息以及抓取规则,生成抓取任务;
任务执行模块,被配置为根据所述抓取任务,抓取所述抓取对象对应的内容;
信息分析模块,被配置为根据所述抓取对象对应的内容,确定与所述抓取对象相匹配的本地对象,并将相匹配的抓取对象和本地对象对应的内容进行比对;
信息输出模块,被配置为将相匹配的抓取对象和本地对象的比对结果进行呈现。
2.根据权利要求1所述的信息处理装置,其中,
所述抓取对象信息包括抓取对象的类别和第一抓取对象的操作路径,所述抓取规则包括抓取停止条件;
所述任务设置模块被配置为自动根据第一抓取对象的操作路径生成多个第二抓取对象的操作路径,直至满足抓取停止条件,其中,多个第二抓取对象与所述第一抓取对象为同一类别。
3.根据权利要求1所述的信息处理装置,其中,
所述抓取规则包括抓取周期;
所述任务执行模块被配置为根据所述抓取周期抓取所述抓取对象对应的内容。
4.根据权利要求1所述的信息处理装置,其中,
所述任务执行模块包括抓取客户端和调度控制单元;
在所述抓取规则包括并发执行,且所述任务执行模块包括多个抓取客户端的情况下,所述调度控制单元被配置为根据各个抓取客户端的负载,将所述抓取任务分配至多个抓取客户端并发执行。
5.根据权利要求1所述的信息处理装置,其中,
所述信息分析模块包括商品信息分析单元;
所述商品信息分析单元被配置为根据抓取的内容对应的标识提取商品名称信息、价格信息,对所述商品名称信息进行分词,将分词作为关键字查询与所述抓取对象相匹配的本地对象,并将相匹配的抓取对象和本地对象的价格信息进行比对。
6.根据权利要求1所述的信息处理装置,其中,
所述信息分析模块包括促销信息分析单元;
所述促销信息分析单元被配置为根据抓取的内容确定促销信息以及促销针对的商品,确定与所述促销针对的商品相匹配的本地对象,并将相匹配的商品和本地对象的促销信息进行比对,所述促销信息包括促销类型、促销力度。
7.根据权利要求1-6任一项所述的信息处理装置,还包括:
存储模块,被配置为存储本地对象的信息、抓取对象的内容、相匹配的抓取对象和本地对象的比对结果、以及抓取任务中至少一项。
8.根据权利要求1-6任一项所述的信息处理装置,其中,
所述任务设置模块包括:通知设置单元;
所述通知设置单元被配置为接收用户设置的针对抓取对象的订阅信息,响应于所述抓取对象的内容或相匹配的本地对象信息发送变化,将所述抓取对象的内容以及相匹配的本地对象信息发送至所述用户的订阅地址;
所述订阅地址包括短信地址、网址、邮箱地址中至少一项。
9.一种信息处理方法,包括:
接收用户输入的抓取对象信息以及抓取规则,生成抓取任务;
根据所述抓取任务,抓取所述抓取对象对应的内容;
根据所述抓取对象对应的内容,确定与所述抓取对象相匹配的本地对象,并将相匹配的抓取对象和本地对象对应的内容进行比对;
将相匹配的抓取对象和本地对象的比对结果进行呈现。
10.根据权利要求9所述的信息处理方法,其中,
所述抓取对象信息包括抓取对象的类别和第一抓取对象的操作路径,所述抓取规则包括抓取停止条件;
所述生成抓取任务包括:
自动根据第一抓取对象的操作路径生成多个第二抓取对象的操作路径,直至满足抓取停止条件,其中,多个第二抓取对象与所述第一抓取对象为同一类别。
11.根据权利要求9所述的信息处理方法,其中,
所述抓取规则包括抓取周期;
所述抓取对象对应的内容是根据所述抓取周期抓取的。
12.根据权利要求9所述的信息处理方法,其中,
在所述抓取规则包括并发执行的情况下,根据各个抓取客户端的负载,将所述抓取任务分配至多个抓取客户端并发执行。
13.根据权利要求9所述的信息处理方法,其中,
所述确定与所述抓取对象相匹配的本地对象,并将相匹配的抓取对象和本地对象对应的内容进行比对包括:
根据抓取的内容对应的标识提取商品名称信息、价格信息,对所述商品名称信息进行分词,将分词作为关键字查询与所述抓取对象相匹配的本地对象,并将相匹配的抓取对象和本地对象的价格信息进行比对。
14.根据权利要求9所述的信息处理方法,其中,
所述确定与所述抓取对象相匹配的本地对象,并将相匹配的抓取对象和本地对象对应的内容进行比对包括:
根据抓取的内容确定促销信息以及促销针对的商品,确定与所述促销针对的商品相匹配的本地对象,并将相匹配的商品和本地对象的促销信息进行比对,所述促销信息包括促销类型、促销力度。
15.根据权利要求9-14任一项所述的信息处理方法,还包括:
将本地对象的信息、抓取对象的内容、相匹配的抓取对象和本地对象的比对结果、以及抓取任务中至少一项进行存储。
16.根据权利要求9-14任一项所述的信息处理方法,还包括:
接收用户设置的针对抓取对象的订阅信息;
响应于所述抓取对象的内容或相匹配的本地对象信息发送变化,将所述抓取对象的内容以及相匹配的本地对象信息发送至所述用户的订阅地址;
所述订阅地址包括短信地址、网址、邮箱地址中至少一项。
17.一种信息处理装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器设备中的指令,执行如权利要求9-16任一项所述的信息处理方法。
18.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现权利要求9-16任一项所述方法的步骤。
CN201810147673.8A 2018-02-13 2018-02-13 信息处理装置、方法以及计算机可读存储介质 Pending CN110209907A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810147673.8A CN110209907A (zh) 2018-02-13 2018-02-13 信息处理装置、方法以及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810147673.8A CN110209907A (zh) 2018-02-13 2018-02-13 信息处理装置、方法以及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN110209907A true CN110209907A (zh) 2019-09-06

Family

ID=67778571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810147673.8A Pending CN110209907A (zh) 2018-02-13 2018-02-13 信息处理装置、方法以及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110209907A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125489A (zh) * 2019-12-25 2020-05-08 北京锐安科技有限公司 一种数据抓取方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020026440A1 (en) * 2000-08-18 2002-02-28 Mark Nair System and method for an interactive shopping news and price information service
CN101853466A (zh) * 2010-05-18 2010-10-06 上海购龙信息科技有限公司 一种计算机显示快速更新报价信息的方法
CN102129632A (zh) * 2010-01-13 2011-07-20 阿里巴巴集团控股有限公司 一种抓取网页信息的方法、装置及系统
US20110246277A1 (en) * 2010-03-30 2011-10-06 Intuit Inc. Multi-factor promotional offer suggestion
CN102867266A (zh) * 2012-08-27 2013-01-09 北京联时空网络通信设备有限公司 一种讯价方法及装置
CN104346328A (zh) * 2013-07-23 2015-02-11 同程网络科技股份有限公司 基于网页数据抓取的垂直智能爬虫数据收集方法
US20150242892A1 (en) * 2014-02-25 2015-08-27 Seth Priebatsch Real-time, user-specific offer generation and optimization
US20170109767A1 (en) * 2014-06-12 2017-04-20 Arie Shpanya Real-time dynamic pricing system
CN107146135A (zh) * 2017-04-28 2017-09-08 深圳齐心集团股份有限公司 一种电子商务系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020026440A1 (en) * 2000-08-18 2002-02-28 Mark Nair System and method for an interactive shopping news and price information service
CN102129632A (zh) * 2010-01-13 2011-07-20 阿里巴巴集团控股有限公司 一种抓取网页信息的方法、装置及系统
US20110246277A1 (en) * 2010-03-30 2011-10-06 Intuit Inc. Multi-factor promotional offer suggestion
CN101853466A (zh) * 2010-05-18 2010-10-06 上海购龙信息科技有限公司 一种计算机显示快速更新报价信息的方法
CN102867266A (zh) * 2012-08-27 2013-01-09 北京联时空网络通信设备有限公司 一种讯价方法及装置
CN104346328A (zh) * 2013-07-23 2015-02-11 同程网络科技股份有限公司 基于网页数据抓取的垂直智能爬虫数据收集方法
US20150242892A1 (en) * 2014-02-25 2015-08-27 Seth Priebatsch Real-time, user-specific offer generation and optimization
US20170109767A1 (en) * 2014-06-12 2017-04-20 Arie Shpanya Real-time dynamic pricing system
CN107146135A (zh) * 2017-04-28 2017-09-08 深圳齐心集团股份有限公司 一种电子商务系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125489A (zh) * 2019-12-25 2020-05-08 北京锐安科技有限公司 一种数据抓取方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110610240B (zh) 基于人工智能的虚拟自动化辅助
CN111680221B (zh) 信息推荐方法、装置、设备及计算机可读存储介质
CN106796595A (zh) 用于推荐的数据变换和修复的声明性语言和可视化系统
CN106687952A (zh) 利用知识源进行相似性分析和数据丰富化的技术
KR102179890B1 (ko) 텍스트 데이터 수집 및 분석을 위한 시스템
CN105593854A (zh) 数据流的定制划分
US20130085961A1 (en) Enterprise context visualization
CN115857920A (zh) 应用页面开发方法、装置、系统、计算设备及存储介质
CN109074368A (zh) 使用异构社交网络的图形框架
US20190147104A1 (en) Method and apparatus for constructing artificial intelligence application
CN113157947A (zh) 知识图谱的构建方法、工具、装置和服务器
CN109978619A (zh) 机票定价策略筛选的方法、系统、设备以及介质
CN112258244B (zh) 确定目标物品所属任务的方法、装置、设备及存储介质
CN111339406A (zh) 个性化推荐方法、装置、设备及存储介质
KR20200113750A (ko) 대화 스레드를 표시하기 위한 방법 및 시스템
EP3617910A1 (en) Method and apparatus for displaying textual information
Mahey Robotic Process Automation with Automation Anywhere: Techniques to fuel business productivity and intelligent automation using RPA
Bhatia et al. Machine Learning with R Cookbook: Analyze data and build predictive models
CN109062947A (zh) 用户画像标签查询方法、设备及计算机可读存储介质
CN115759100A (zh) 数据处理方法、装置、设备及介质
CN111767459A (zh) 物品推荐的方法和装置
JP2016071849A (ja) メッセンジャの対話内容に基づいて推薦検索語を提供する方法とシステム、および記録媒体
CN110209907A (zh) 信息处理装置、方法以及计算机可读存储介质
Shrivastava Learning Salesforce Einstein
CN110215703B (zh) 游戏应用的选择方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination