CN108073608A - 数据信息的更新方法及装置 - Google Patents
数据信息的更新方法及装置 Download PDFInfo
- Publication number
- CN108073608A CN108073608A CN201610996944.8A CN201610996944A CN108073608A CN 108073608 A CN108073608 A CN 108073608A CN 201610996944 A CN201610996944 A CN 201610996944A CN 108073608 A CN108073608 A CN 108073608A
- Authority
- CN
- China
- Prior art keywords
- information
- standard
- initial
- data message
- updated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0277—Online advertisement
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Databases & Information Systems (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种数据信息的更新方法及装置。该方法包括:获取待更新的数据信息中目标对象的目标信息,得到初始信息,其中,待更新的数据信息是为当前网站进行推广目标对象的数据信息;爬取目标网站上目标对象的目标信息,得到标准信息;将标准信息与初始信息按照预设规则进行比较,根据比较结果得到更新决策,其中,更新决策为基于比较结果对待更新的数据信息中目标对象的目标信息进行更新的决策;以及根据更新决策对待更新的数据信息中目标对象的目标信息进行更新。通过本申请,解决了相关技术中更新广告中的数据信息效率较低的问题。
Description
技术领域
本申请涉及互联网技术领域,具体而言,涉及一种数据信息的更新方法及装置。
背景技术
通常,搜索引擎营销(Search Engine Marketing,简称SEM)业务是这样一种营销方式:在搜索引擎平台上投放关键词,用户通过搜索词触发关键词,点击广告创意,进而进入广告主网站,达成流量或转化。
广告创意为了吸引受众,有时会把广告中产品的某些信息加入创意当中。而实际在售产品的某些信息可能会随时间波动,如果创意里的某些信息更新不及时,很可能会误导客户,为其提供了错误的信息。例如,在汽车行业的搜索引擎营销市场中,有时会把广告中的车辆价格信息加入创意当中。而实际在售车辆的价格会随时间波动,如果创意里的价格更新不及时,很可能会误导客户。然而,为了保证创意中价格信息的准确性,SEM从业人员只能不定期地去抽查一些汽车行业垂直类网站,根据汽车行业垂直类网站中车辆的价格信息去更新创意中车辆的价格信息。因此,每次需要查看大量型号的车辆,以防车辆价格变动情况下,未及时地更新广告创意,整个过程十分地耗时耗力。
针对相关技术中更新广告中的数据信息效率较低的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种数据信息的更新方法及装置,以解决相关技术中更新广告中的数据信息效率较低的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种数据信息的更新方法。该方法包括:获取待更新的数据信息中目标对象的目标信息,得到初始信息,其中,待更新的数据信息是为当前网站进行推广目标对象的数据信息;爬取目标网站上目标对象的目标信息,得到标准信息;将标准信息与初始信息按照预设规则进行比较,根据比较结果得到更新决策,其中,更新决策为基于比较结果对待更新的数据信息中目标对象的目标信息进行更新的决策;以及根据更新决策对待更新的数据信息中目标对象的目标信息进行更新。
进一步地,将标准信息与初始信息按照预设规则进行比较,根据比较结果得到更新决策包括:判断标准信息与初始信息是否相同;如果标准信息与初始信息不相同,确定初始信息中与标准信息不相同的部分,将初始信息中与标准信息不相同的部分作为初始信息中待修改的信息;根据标准信息修改初始信息中待修改的信息;以及将根据标准信息修改初始信息中待修改的信息作为更新决策。
进一步地,初始信息包括第一元素初始信息和第二元素初始信息,第一元素初始信息与第二元素初始信息之间存在对应关系,标准信息包括第一元素标准信息和第二元素标准信息,第一元素标准信息与第二元素标准信息之间存在对应关系,将标准信息与初始信息按照预设规则进行比较,根据比较结果得到更新决策包括:判断第一元素初始信息与第一元素标准信息是否相同;如果第一元素初始信息与第一元素标准信息相同,判断第二元素初始信息与第二元素标准信息是否相同;如果第二元素初始信息与第二元素标准信息不相同,采用第二元素标准信息替换第二元素初始信息;以及将采用第二元素标准信息替换第二元素初始信息作为更新决策。
进一步地,初始信息包括第一元素初始信息和与第一元素初始信息对应的第一初始数值,标准信息包括第一元素标准信息和与第一元素标准信息对应的第一标准数值,将标准信息与初始信息按照预设规则进行比较,根据比较结果得到更新决策包括:判断第一元素初始信息与第一元素标准信息是否相同;如果第一元素初始信息与第一元素标准信息相同,判断第一初始数值与第一标准数值之间的差值是否在预设阈值范围内;如果第一初始数值与第一标准数值之间的差值不在预设阈值范围内,采用第一标准数值替换第一初始数值;以及将采用第一标准数值替换第一初始数值作为更新决策。
进一步地,爬取目标网站上目标对象的目标信息,得到标准信息包括:确定目标网站的页面格式;获取与目标网站的页面格式对应的爬虫程序;以及按照预设时间周期通过爬虫程序爬取目标网站上目标对象的目标信息,得到标准信息。
进一步地,在获取待更新的数据信息中目标对象的目标信息,得到初始信息之前,该方法还包括:确定待审查关键词;以及从预设数据库中抽取待审查关键词对应的数据信息,得到待更新的数据信息。
进一步地,在根据更新决策对待更新的数据信息中目标对象的目标信息进行更新之后,该方法还包括:获取更新后的数据信息;根据更新后的数据信息的更新时间创建更新时间戳,其中,更新时间戳用于标记待更新的数据信息于更新时间已更新;以及将更新后的数据信息与更新时间戳存储至预设数据库。
为了实现上述目的,根据本申请的另一方面,提供了一种数据信息的更新装置。该装置包括:获取单元,用于获取待更新的数据信息中目标对象的目标信息,得到初始信息,其中,待更新的数据信息是为当前网站进行推广目标对象的数据信息;爬取单元,用于爬取目标网站上目标对象的目标信息,得到标准信息;比较单元,用于将标准信息与初始信息按照预设规则进行比较,根据比较结果得到更新决策,其中,更新决策为基于比较结果对待更新的数据信息中目标对象的目标信息进行更新的决策;以及更新单元,用于根据更新决策对待更新的数据信息中目标对象的目标信息进行更新。
进一步地,比较单元包括:第一判断模块,用于判断标准信息与初始信息是否相同;第一替换模块,用于在标准信息与初始信息不相同的情况下,采用标准信息替换初始信息;以及第一确定模块,用于将采用标准信息替换初始信息作为更新决策。
进一步地,初始信息包括第一元素初始信息和第二元素初始信息,第一元素初始信息与第二元素初始信息之间存在对应关系,标准信息包括第一元素标准信息和第二元素标准信息,第一元素标准信息与第二元素标准信息之间存在对应关系,比较单元包括:第二判断模块,用于判断第一元素初始信息与第一元素标准信息是否相同;第三判断模块,用于在第一元素初始信息与第一元素标准信息相同的情况下,判断第二元素初始信息与第二元素标准信息是否相同;第二替换模块,用于在第二元素初始信息与第二元素标准信息不相同的情况下,采用第二元素标准信息替换第二元素初始信息;以及第二确定模块,用于将采用第二元素标准信息替换第二元素初始信息作为更新决策。
进一步地,初始信息包括第一元素初始信息和与第一元素初始信息对应的第一初始数值,标准信息包括第一元素标准信息和与第一元素标准信息对应的第一标准数值,比较单元包括:第四判断模块,用于判断第一元素初始信息与第一元素标准信息是否相同;第五判断模块,用于在第一元素初始信息与第一元素标准信息相同的情况下,判断第一初始数值与第一标准数值之间的差值是否在预设阈值范围内;第三替换模块,用于在第一初始数值与第一标准数值之间的差值不在预设阈值范围内的情况下,采用第一标准数值替换第一初始数值;以及第三确定模块,用于将采用第一标准数值替换第一初始数值作为更新决策。
通过本申请,采用以下步骤:获取待更新的数据信息中目标对象的目标信息,得到初始信息,其中,待更新的数据信息是为当前网站进行推广目标对象的数据信息;爬取目标网站上目标对象的目标信息,得到标准信息;将标准信息与初始信息按照预设规则进行比较,根据比较结果得到更新决策,其中,更新决策为基于比较结果对待更新的数据信息中目标对象的目标信息进行更新的决策;以及根据更新决策对待更新的数据信息中目标对象的目标信息进行更新,解决了相关技术中更新广告中的数据信息效率较低的问题。进而达到了提升更新广告中的数据信息效率的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的数据信息的更新方法的流程图;以及
图2是根据本申请实施例提供的数据信息的更新装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请的实施例,提供了一种数据信息的更新方法。
图1是根据本申请实施例的数据信息的更新方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,获取待更新的数据信息中目标对象的目标信息,得到初始信息,其中,待更新的数据信息是为当前网站进行推广目标对象的数据信息。
在当前页面网站中对目标对象进行推广,当前网站可以为常用的用户经常进行搜索的网站,例如,搜狐、百度、谷歌等等网站,目标对象为汽车、电脑等等。在搜狐网站中对汽车进行推广,其中,当前网站上会显示汽车对象的许多数据信息,如,车型,价格等数据信息。由于未及时对当前网站中对目标对象的数据信息进行更新,为了保证在当前网站中对该目标对象的数据信息进行推广的准确性,在本申请中,首先获取当前网站进行推广目标对象的数据信息,将获取到的数据信息作为初始信息。
步骤S102,爬取目标网站上目标对象的目标信息,得到标准信息。
在本申请中的目标网站,即是当前网站对其上产品进行推广的网站,例如,在百度网站上对京东网站中的产品进行推广,百度就相当于当前网站,京东就相当于目标网站。实际上,百度上对京东中的产品进行推广,以京东中产品的价格为准,然而,由于产品的数据信息更新不及时,可能导致百度与京东对推广的产品价格不一致的问题。为了保证在当前网站中对该目标对象的数据信息进行推广的准确性,在本申请中,需要爬取目标网站上目标对象的目标信息,将爬取到的目标网站上目标对象的目标信息作为标准信息。
可选地,在本申请实施例提供的数据信息的更新方法中,爬取目标网站上目标对象的目标信息,得到标准信息包括:确定目标网站的页面格式;获取与目标网站的页面格式对应的爬虫程序;以及按照预设时间周期通过爬虫程序爬取目标网站上目标对象的目标信息,得到标准信息。
由于每个网站的页面格式不相同,当需要爬取网站上的数据信息时,首先,确定目标网站的页面格式,然后,获取与目标网站的页面格式对应的爬虫程序,最后,按照预设时间周期通过爬虫程序爬取目标网站上目标对象的目标信息,将爬取到的目标网站上目标对象的目标信息作为标准信息。
步骤S103,将标准信息与初始信息按照预设规则进行比较,根据比较结果得到更新决策,其中,更新决策为基于比较结果对待更新的数据信息中目标对象的目标信息进行更新的决策。
可选地,在本申请实施例提供的数据信息的更新方法中,将标准信息与初始信息按照预设规则进行比较,根据比较结果得到更新决策包括:判断标准信息与初始信息是否相同;如果标准信息与初始信息不相同,确定初始信息中与标准信息不相同的部分,将初始信息中与标准信息不相同的部分作为初始信息中待修改的信息;根据标准信息修改初始信息中待修改的信息;以及将根据标准信息修改初始信息中待修改的信息作为更新决策。
例如,获取到的数据信息为:标准信息:大众宝来10.2万元,初始信息:大众宝来9.9万元,判断标准信息与初始信息是否相同;由于标准信息中大众宝来的价格与初始信息中大众宝来的价格不相同,将初始信息中大众宝来的价格作为初始信息中待修改的信息,根据标准信息修改初始信息中待修改的信息;以及将根据标准信息修改初始信息中待修改的信息作为更新决策。
可选地,在本申请实施例提供的数据信息的更新方法中,初始信息包括第一元素初始信息和第二元素初始信息,第一元素初始信息与第二元素初始信息之间存在对应关系,标准信息包括第一元素标准信息和第二元素标准信息,第一元素标准信息与第二元素标准信息之间存在对应关系,将标准信息与初始信息按照预设规则进行比较,根据比较结果得到更新决策包括:判断第一元素初始信息与第一元素标准信息是否相同;如果第一元素初始信息与第一元素标准信息相同,判断第二元素初始信息与第二元素标准信息是否相同;如果第二元素初始信息与第二元素标准信息不相同,采用第二元素标准信息替换第二元素初始信息;以及将采用第二元素标准信息替换第二元素初始信息作为更新决策。
初始信息包括第一元素初始信息和第二元素初始信息,第一元素初始信息与第二元素初始信息之间存在对应关系,标准信息包括第一元素标准信息和第二元素标准信息,第一元素标准信息与第二元素标准信息之间存在对应关系,例如,获取到的第一元素初始信息为车型大众宝来,第二元素初始信息为9.9万元,第一元素初始信息与第二元素初始信息之间存在对应关系,也即,车型大众宝来对应价格为9.9万元。;获取到的第一元素标准信息为车型大众宝来,第二元素标准信息为10.2万元,第一元素标准信息与第二元素标准信息之间存在对应关系,也即,车型大众宝来对应价格为10.2万元。判断第一元素初始信息与第一元素标准信息是否相同,第一元素初始信息车型大众宝来与第一元素标准信息车型大众宝来相同,判断第二元素初始信息与第二元素标准信息是否相同;很明显,第二元素初始信息9.9万元与第二元素标准信息10.2万元不相同,那么,采用第二元素标准信息替换第二元素初始信息。将采用第二元素标准信息替换第二元素初始信息作为更新决策。
可选地,在本申请实施例提供的数据信息的更新方法中,初始信息包括第一元素初始信息和与第一元素初始信息对应的第一初始数值,标准信息包括第一元素标准信息和与第一元素标准信息对应的第一标准数值,将标准信息与初始信息按照预设规则进行比较,根据比较结果得到更新决策包括:判断第一元素初始信息与第一元素标准信息是否相同;如果第一元素初始信息与第一元素标准信息相同,判断第一初始数值与第一标准数值之间的差值是否在预设阈值范围内;如果第一初始数值与第一标准数值之间的差值不在预设阈值范围内,采用第一标准数值替换第一初始数值;以及将采用第一标准数值替换第一初始数值作为更新决策。
初始信息包括第一元素初始信息和第二元素初始信息,第一元素初始信息与第二元素初始信息之间存在对应关系,标准信息包括第一元素标准信息和第二元素标准信息,第一元素标准信息与第二元素标准信息之间存在对应关系,例如,获取到的第一元素初始信息为车型大众宝来,第二元素初始信息为9.9万元;获取到的第一元素标准信息为车型大众宝来,第二元素标准信息为10.2万元,判断第一元素初始信息与第一元素标准信息是否相同,第一元素初始信息车型大众宝来与第一元素标准信息车型大众宝来相同,判断第一初始数值与第一标准数值之间的差值是否在预设阈值范围内;例如,预设阈值范围为1000元,第一初始数值9.9万元与第一标准数值10.2万元之间的差值不在预设阈值范围内,采用第一标准数值替换第一初始数值;将采用第一标准数值替换第一初始数值作为更新决策。
步骤S104,根据更新决策对待更新的数据信息中目标对象的目标信息进行更新。
根据上述确定的更新决策对待更新的数据信息中目标对象的目标信息进行更新。
通过以上步骤,实现了自动的爬取目标网站上目标对象的目标信息,得到标准信息,根据标准信息与前网站进行推广目标对象的初始数据信息进行比较,确定更新决策,然后,根据更新决策对待更新的数据信息中目标对象的目标信息进行更新。大大提高了对广告中的数据信息的更新效率,保证了当前网站上广告中的数据信息的准确性。
可选地,在本申请实施例提供的数据信息的更新方法中,在获取待更新的数据信息中目标对象的目标信息,得到初始信息之前,该方法还包括:确定待审查关键词;以及从预设数据库中抽取待审查关键词对应的数据信息,得到待更新的数据信息。
可选地,在本申请实施例提供的数据信息的更新方法中,在根据更新决策对待更新的数据信息中目标对象的目标信息进行更新之后,该方法还包括:获取更新后的数据信息;根据更新后的数据信息的更新时间创建更新时间戳,其中,更新时间戳用于标记待更新的数据信息于更新时间已更新;以及将更新后的数据信息与更新时间戳存储至预设数据库。
通过将更新后的数据信息的更新时间创建更新时间戳,其中,更新时间戳用于标记待更新的数据信息于更新时间已更新;以及将更新后的数据信息与更新时间戳存储至预设数据库。当下一次从预设数据库中抽取待审查关键词对应的数据信息时,根据待更新的数据信息的更新时间戳大致判断是否需要对待更新的数据信息进行更新,例如,当前时间为2016年9月10日,12点10分30秒,待更新的数据信息的更新时间戳为2016年9月10日,11点40分20秒,确定出30分钟前刚对待更新的数据信息进行过更新,不需要再对待更新的数据信息进行更新。通过本申请,在保证数据信息更新效率的同时也节省了系统不必要的性能开销。
本申请实施例提供的数据信息的更新方法,通过获取待更新的数据信息中目标对象的目标信息,得到初始信息,其中,待更新的数据信息是为当前网站进行推广目标对象的数据信息;爬取目标网站上目标对象的目标信息,得到标准信息;将标准信息与初始信息按照预设规则进行比较,根据比较结果得到更新决策,其中,更新决策为基于比较结果对待更新的数据信息中目标对象的目标信息进行更新的决策;以及根据更新决策对待更新的数据信息中目标对象的目标信息进行更新,解决了相关技术中更新广告中的数据信息效率较低的问题。进而达到了提升更新广告中的数据信息效率的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种数据信息的更新装置,需要说明的是,本申请实施例的数据信息的更新装置可以用于执行本申请实施例所提供的用于数据信息的更新方法。以下对本申请实施例提供的数据信息的更新装置进行介绍。
图2是根据本申请实施例的数据信息的更新装置的示意图。如图2所示,该装置包括:获取单元10、爬取单元20、比较单元30和更新单元40。
具体地,获取单元10,用于获取待更新的数据信息中目标对象的目标信息,得到初始信息,其中,待更新的数据信息是为当前网站进行推广目标对象的数据信息。
爬取单元20,用于爬取目标网站上目标对象的目标信息,得到标准信息。
比较单元30,用于将标准信息与初始信息按照预设规则进行比较,根据比较结果得到更新决策,其中,更新决策为基于比较结果对待更新的数据信息中目标对象的目标信息进行更新的决策。
更新单元40,用于根据更新决策对待更新的数据信息中目标对象的目标信息进行更新。
本申请实施例提供的数据信息的更新装置,通过获取单元10获取待更新的数据信息中目标对象的目标信息,得到初始信息,其中,待更新的数据信息是为当前网站进行推广目标对象的数据信息;爬取单元20爬取目标网站上目标对象的目标信息,得到标准信息;比较单元30将标准信息与初始信息按照预设规则进行比较,根据比较结果得到更新决策,其中,更新决策为基于比较结果对待更新的数据信息中目标对象的目标信息进行更新的决策;以及更新单元40根据更新决策对待更新的数据信息中目标对象的目标信息进行更新,解决了相关技术中更新广告中的数据信息效率较低的问题,进而达到了提升更新广告中的数据信息效率的效果。
可选地,在本申请实施例提供的数据信息的更新装置中,该比较单元30包括:第一判断模块,用于判断标准信息与初始信息是否相同;第一确定模块,用于在标准信息与初始信息不相同的情况下,确定初始信息中与标准信息不相同的部分,将初始信息中与标准信息不相同的部分作为初始信息中待修改的信息;修改模块,用于根据标准信息修改初始信息中待修改的信息;以及第二确定模块,用于将根据标准信息修改初始信息中待修改的信息作为更新决策。
可选地,在本申请实施例提供的数据信息的更新装置中,初始信息包括第一元素初始信息和第二元素初始信息,第一元素初始信息与第二元素初始信息之间存在对应关系,标准信息包括第一元素标准信息和第二元素标准信息,第一元素标准信息与第二元素标准信息之间存在对应关系,该比较单元30包括:第二判断模块,用于判断第一元素初始信息与第一元素标准信息是否相同;第三判断模块,用于在第一元素初始信息与第一元素标准信息相同的情况下,判断第二元素初始信息与第二元素标准信息是否相同;第二替换模块,用于在第二元素初始信息与第二元素标准信息不相同的情况下,采用第二元素标准信息替换第二元素初始信息;以及第二确定模块,用于将采用第二元素标准信息替换第二元素初始信息作为更新决策。
可选地,在本申请实施例提供的数据信息的更新装置中,初始信息包括第一元素初始信息和与第一元素初始信息对应的第一初始数值,标准信息包括第一元素标准信息和与第一元素标准信息对应的第一标准数值,该比较单元30包括:第四判断模块,用于判断第一元素初始信息与第一元素标准信息是否相同;第五判断模块,用于在第一元素初始信息与第一元素标准信息相同的情况下,判断第一初始数值与第一标准数值之间的差值是否在预设阈值范围内;第三替换模块,用于在第一初始数值与第一标准数值之间的差值不在预设阈值范围内的情况下,采用第一标准数值替换第一初始数值;以及第三确定模块,用于将采用第一标准数值替换第一初始数值作为更新决策。
所述数据信息的更新装置包括处理器和存储器,上述获取单元10、爬取单元20、比较单元30和更新单元40等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元实现相应功能。上述预设规则、预设阈值范围、预设时间周期、预设数据库都可以存储在存储器中。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数更新数据信息。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取待更新的数据信息中目标对象的目标信息,得到初始信息,其中,待更新的数据信息是为当前网站进行推广目标对象的数据信息;爬取目标网站上目标对象的目标信息,得到标准信息;将标准信息与初始信息按照预设规则进行比较,根据比较结果得到更新决策,其中,更新决策为基于比较结果对待更新的数据信息中目标对象的目标信息进行更新的决策;以及根据更新决策对待更新的数据信息中目标对象的目标信息进行更新。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种数据信息的更新方法,其特征在于,包括:
获取待更新的数据信息中目标对象的目标信息,得到初始信息,其中,所述待更新的数据信息是为当前网站进行推广所述目标对象的数据信息;
爬取目标网站上所述目标对象的目标信息,得到标准信息;
将所述标准信息与所述初始信息按照预设规则进行比较,根据比较结果得到更新决策,其中,所述更新决策为基于比较结果对所述待更新的数据信息中目标对象的目标信息进行更新的决策;以及
根据所述更新决策对所述待更新的数据信息中目标对象的目标信息进行更新。
2.根据权利要求1所述的方法,其特征在于,将所述标准信息与所述初始信息按照预设规则进行比较,根据比较结果得到更新决策包括:
判断所述标准信息与所述初始信息是否相同;
如果所述标准信息与所述初始信息不相同,确定所述初始信息中与所述标准信息不相同的部分,将所述初始信息中与所述标准信息不相同的部分作为所述初始信息中待修改的信息;
根据所述标准信息修改所述初始信息中待修改的信息;以及
将所述根据所述标准信息修改所述初始信息中待修改的信息作为所述更新决策。
3.根据权利要求2所述的方法,其特征在于,所述初始信息包括第一元素初始信息和第二元素初始信息,所述第一元素初始信息与所述第二元素初始信息之间存在对应关系,所述标准信息包括第一元素标准信息和第二元素标准信息,所述第一元素标准信息与所述第二元素标准信息之间存在对应关系,将所述标准信息与所述初始信息按照预设规则进行比较,根据比较结果得到更新决策包括:
判断所述第一元素初始信息与所述第一元素标准信息是否相同;
如果所述第一元素初始信息与所述第一元素标准信息相同,判断所述第二元素初始信息与所述第二元素标准信息是否相同;
如果所述第二元素初始信息与所述第二元素标准信息不相同,采用所述第二元素标准信息替换所述第二元素初始信息;以及
将所述采用所述第二元素标准信息替换所述第二元素初始信息作为所述更新决策。
4.根据权利要求2所述的方法,其特征在于,所述初始信息包括第一元素初始信息和与所述第一元素初始信息对应的第一初始数值,所述标准信息包括第一元素标准信息和与所述第一元素标准信息对应的第一标准数值,将所述标准信息与所述初始信息按照预设规则进行比较,根据比较结果得到更新决策包括:
判断所述第一元素初始信息与所述第一元素标准信息是否相同;
如果所述第一元素初始信息与所述第一元素标准信息相同,判断所述第一初始数值与所述第一标准数值之间的差值是否在预设阈值范围内;
如果所述第一初始数值与所述第一标准数值之间的差值不在所述预设阈值范围内,采用所述第一标准数值替换所述第一初始数值;以及
将所述采用所述第一标准数值替换所述第一初始数值作为所述更新决策。
5.根据权利要求1所述的方法,其特征在于,爬取所述目标网站上所述目标对象的目标信息,得到标准信息包括:
确定所述目标网站的页面格式;
获取与所述目标网站的页面格式对应的爬虫程序;以及
按照预设时间周期通过所述爬虫程序爬取所述目标网站上所述目标对象的目标信息,得到标准信息。
6.根据权利要求1所述的方法,其特征在于,在获取待更新的数据信息中目标对象的目标信息,得到初始信息之前,所述方法还包括:确定待审查关键词;以及从预设数据库中抽取所述待审查关键词对应的数据信息,得到所述待更新的数据信息。
7.根据权利要求6所述的方法,其特征在于,在根据所述更新决策对所述待更新的数据信息中目标对象的目标信息进行更新之后,所述方法还包括:获取更新后的数据信息;根据所述更新后的数据信息的更新时间创建更新时间戳,其中,所述更新时间戳用于标记所述待更新的数据信息于所述更新时间已更新;以及将所述更新后的数据信息与所述更新时间戳存储至所述预设数据库。
8.一种数据信息的更新装置,其特征在于,包括:
获取单元,用于获取待更新的数据信息中目标对象的目标信息,得到初始信息,其中,所述待更新的数据信息是为当前网站进行推广所述目标对象的数据信息;
爬取单元,用于爬取目标网站上所述目标对象的目标信息,得到标准信息;
比较单元,用于将所述标准信息与所述初始信息按照预设规则进行比较,根据比较结果得到更新决策,其中,所述更新决策为基于比较结果对所述待更新的数据信息中目标对象的目标信息进行更新的决策;以及
更新单元,用于根据所述更新决策对所述待更新的数据信息中目标对象的目标信息进行更新。
9.根据权利要求8所述的装置,其特征在于,所述比较单元包括:
第一判断模块,用于判断所述标准信息与所述初始信息是否相同;
第一确定模块,用于在所述标准信息与所述初始信息不相同的情况下,确定所述初始信息中与所述标准信息不相同的部分,将所述初始信息中与所述标准信息不相同的部分作为所述初始信息中待修改的信息;
修改模块,用于根据所述标准信息修改所述初始信息中待修改的信息;以及第二确定模块,用于将所述根据所述标准信息修改所述初始信息中待修改的信息作为所述更新决策。
10.根据权利要求9所述的装置,其特征在于,所述初始信息包括第一元素初始信息和第二元素初始信息,所述第一元素初始信息与所述第二元素初始信息之间存在对应关系,所述标准信息包括第一元素标准信息和第二元素标准信息,所述第一元素标准信息与所述第二元素标准信息之间存在对应关系,所述比较单元包括:
第二判断模块,用于判断所述第一元素初始信息与所述第一元素标准信息是否相同;
第三判断模块,用于在所述第一元素初始信息与所述第一元素标准信息相同的情况下,判断所述第二元素初始信息与所述第二元素标准信息是否相同;
替换模块,用于在所述第二元素初始信息与所述第二元素标准信息不相同的情况下,采用所述第二元素标准信息替换所述第二元素初始信息;以及
第三确定模块,用于将所述采用所述第二元素标准信息替换所述第二元素初始信息作为所述更新决策。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610996944.8A CN108073608A (zh) | 2016-11-09 | 2016-11-09 | 数据信息的更新方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610996944.8A CN108073608A (zh) | 2016-11-09 | 2016-11-09 | 数据信息的更新方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108073608A true CN108073608A (zh) | 2018-05-25 |
Family
ID=62154913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610996944.8A Pending CN108073608A (zh) | 2016-11-09 | 2016-11-09 | 数据信息的更新方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108073608A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783728A (zh) * | 2018-12-29 | 2019-05-21 | 安徽听见科技有限公司 | 页面爬虫规则更新方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6424966B1 (en) * | 1998-06-30 | 2002-07-23 | Microsoft Corporation | Synchronizing crawler with notification source |
CN102867266A (zh) * | 2012-08-27 | 2013-01-09 | 北京联时空网络通信设备有限公司 | 一种讯价方法及装置 |
CN103176985A (zh) * | 2011-12-20 | 2013-06-26 | 中国科学院计算机网络信息中心 | 一种及时高效的互联网信息爬取方法 |
CN103218724A (zh) * | 2013-04-18 | 2013-07-24 | 北京京东尚科信息技术有限公司 | 一种在通信网络中提供信息更新的系统和方法 |
CN104021192A (zh) * | 2014-06-13 | 2014-09-03 | 北京联时空网络通信设备有限公司 | 一种数据库更新方法及装置 |
-
2016
- 2016-11-09 CN CN201610996944.8A patent/CN108073608A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6424966B1 (en) * | 1998-06-30 | 2002-07-23 | Microsoft Corporation | Synchronizing crawler with notification source |
CN103176985A (zh) * | 2011-12-20 | 2013-06-26 | 中国科学院计算机网络信息中心 | 一种及时高效的互联网信息爬取方法 |
CN102867266A (zh) * | 2012-08-27 | 2013-01-09 | 北京联时空网络通信设备有限公司 | 一种讯价方法及装置 |
CN103218724A (zh) * | 2013-04-18 | 2013-07-24 | 北京京东尚科信息技术有限公司 | 一种在通信网络中提供信息更新的系统和方法 |
CN104021192A (zh) * | 2014-06-13 | 2014-09-03 | 北京联时空网络通信设备有限公司 | 一种数据库更新方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783728A (zh) * | 2018-12-29 | 2019-05-21 | 安徽听见科技有限公司 | 页面爬虫规则更新方法及系统 |
CN109783728B (zh) * | 2018-12-29 | 2021-10-19 | 安徽听见科技有限公司 | 页面爬虫规则更新方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104239162A (zh) | 数据校验方法及装置 | |
CN104504027B (zh) | 网页内容的自动筛选方法及装置 | |
CN108268496A (zh) | 数据的校验方法及装置 | |
CN107748898A (zh) | 文件分类方法、装置、计算设备及计算机存储介质 | |
CN106446179A (zh) | 热点话题的生成方法及装置 | |
CN106021439A (zh) | 一种对通信号码的处理方法及装置 | |
CN110059479A (zh) | 风险信息识别方法及装置和电子设备 | |
CN107193870B (zh) | 网页内容的提取方法和系统 | |
CN102902792B (zh) | 列表页识别系统及方法 | |
CN110263226B (zh) | 针对药品的数据库更新方法、装置及电子装置 | |
CN107577943A (zh) | 基于机器学习的样本预测方法、装置及服务器 | |
CN108073608A (zh) | 数据信息的更新方法及装置 | |
CN106874340A (zh) | 一种网页地址分类方法及装置 | |
CN106910082A (zh) | 一种调取广告进行推送的方法和装置 | |
CN111353001B (zh) | 对用户进行分类的方法和装置 | |
CN109684588B (zh) | 一种资产管理系统及方法 | |
CN103530413B (zh) | 数据处理方法和装置 | |
CN104951550B (zh) | 数据存储方法及装置 | |
CN106844377B (zh) | 多维数据库的处理方法及装置 | |
CN104376071A (zh) | 推广信息的监测方法及装置 | |
CN114860806A (zh) | 区块链的数据查询方法、装置、计算机设备和存储介质 | |
CN112445919A (zh) | 知识图谱构建方法和装置、服务器、计算机可读存储介质 | |
CN108269112A (zh) | 广告创意的更新方法及装置 | |
CN116932838B (zh) | 基于数据库的数据查询、更新、存储方法和装置 | |
CN109101606A (zh) | 用于行业情报的数据处理方法以及装置、服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: Beijing Guoshuang Technology Co.,Ltd. Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing Applicant before: Beijing Guoshuang Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180525 |
|
RJ01 | Rejection of invention patent application after publication |