CN115544418A - 一种网页数据同步方法、装置、电子设备及存储介质 - Google Patents
一种网页数据同步方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115544418A CN115544418A CN202211310933.1A CN202211310933A CN115544418A CN 115544418 A CN115544418 A CN 115544418A CN 202211310933 A CN202211310933 A CN 202211310933A CN 115544418 A CN115544418 A CN 115544418A
- Authority
- CN
- China
- Prior art keywords
- webpage
- data
- web page
- information
- synchronized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/178—Techniques for file synchronisation in file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种网页数据同步方法、装置、电子设备及存储介质。该方法包括:获取网页变化消息,基于网页变化消息,确定变化网页数据的定位信息;调用预先构建的爬虫执行器,将定位信息输入至爬虫执行器中,并获取爬虫执行器输出的与定位信息对应的变化网页数据;确定与变化网页数据对应的索引信息,将索引信息发送至待同步引擎中,以在待同步引擎中对索引信息进行同步更新。本发明实施例的技术方案,可以提高网页数据同步过程中的效率,降低网页数据同步延迟。
Description
技术领域
本发明实施例涉及互联网技术领域,尤其涉及一种网页数据同步方法、装置、电子设备及存储介质。
背景技术
Elasticsearch(es)是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。由于在各种业务搜索场景下,要求源数据变动后,可以及时、精准的在es中检索到,即将变动的源数据快速同步至es,以便进行检索。
但是,当源数据为网页数据时,仍未提出一种能够低延迟的网页数据同步方法,导致影响对变动后的网页数据的检索。
发明内容
本发明实施例提供了一种网页数据同步方法、装置、电子设备及存储介质,以实现提高网页数据同步过程中的效率,降低网页数据同步延迟的目的。
根据本发明的一方面,提供了网页数据同步方法,包括:
获取网页变化消息,基于所述网页变化消息,确定变化网页数据的定位信息;
调用预先构建的爬虫执行器,将所述定位信息输入至所述爬虫执行器中,并获取所述爬虫执行器输出的与所述定位信息对应的变化网页数据;
确定与所述变化网页数据对应的索引信息,将所述索引信息发送至待同步引擎中,以在所述待同步引擎中对所述索引信息进行同步更新。
根据本发明的另一方面,提供了一种网页数据同步装置,该装置包括:
网页变化消息获取模块,用于获取网页变化消息,基于所述网页变化消息,确定变化网页数据的定位信息;
定位信息输入模块,用于调用预先构建的爬虫执行器,将所述定位信息输入至所述爬虫执行器中,并获取所述爬虫执行器输出的与所述定位信息对应的变化网页数据;
索引信息确定模块,用于确定与所述变化网页数据对应的索引信息,将所述索引信息发送至待同步引擎中,以在所述待同步引擎中对所述索引信息进行同步更新。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的网页数据同步方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的网页数据同步方法。
本发明实施例的技术方案,通过获取网页变化消息,基于网页变化消息,确定变化网页数据的定位信息;调用预先构建的爬虫执行器,将定位信息输入至爬虫执行器中,并获取爬虫执行器输出的与定位信息对应的变化网页数据;确定与变化网页数据对应的索引信息,将索引信息发送至待同步引擎中,以在待同步引擎中对索引信息进行同步更新,能够在数据分析引擎中同步网页数据,实现提高网页数据同步过程中的效率,降低网页数据同步延迟的作用。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例提供的一种网页数据同步方法的流程图;
图2是实现本发明实施例的网页数据同步过程的场景图;
图3是根据本发明实施例提供的一种网页数据同步装置的结构示意图;
图4是实现本发明实施例的网页数据同步方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“等”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1是根据本发明实施例提供的一种网页数据同步方法的流程图。该方法可以由网页数据同步装置来执行,该网页数据同步装置可以采用硬件和/或软件的形式实现。
如图1所示,本实施例的方法具体可包括:
S110、获取网页变化消息,基于网页变化消息,确定变化网页数据的定位信息。
其中,网页变化消息包括当检测到存储网页数据的网页数据库中的数据发生变化后,产生的消息。存储网页数据的网页数据库可包括PostgreSQL数据库,mysql(关系型数据库管理系统)数据库和cassandra(开源分布式NoSQL数据库系统)数据库中的至少一项。网页变化消息可包括网页添加消息、网页删除消息和网页更新消息中的至少一种消息,通过网页变化消息,可确定出变化的网页的标识、内容等信息。定位信息可包括网页的统一资源定位符。
在具体实施中,获取网页变化消息,包括:接收发布订阅消息系统发送的网页变化消息;其中,发布订阅消息系统用于检测网页数据库中的日志文件,以基于日志文件生成网页变化消息。
具体的,发布订阅消息系统可为Debezium分布式平台中的Apache Kafka系统。发布订阅消息系统对存储网页数据的网页数据库进行检测,当确定出网页数据库中存在数据变更时,则可生成网页变化消息。示例性的,数据变更可包括数据添加、数据删除和数据更新中的至少一种。发布订阅消息系统将生成的网页变化消息发生至服务器中,以提示服务器当前存在网页数据变更的情况。在具体实施中,发布订阅消息系统可通过检测网页数据库中的日志文件,如binlog文件。通过检测binlog文件中记录内容的变化,确定网页数据库中的数据是否发生变化,当检测到发生变化时,则确定变化的网页数据的网页标识和/或网页内容等信息,基于网页标识和/或网页内容等信息生成网页变化消息。本实施例通过检测网页数据库的日志文件,能够快速地确定出网页数据是否发生变化,并准确地确定出变化的网页数据的网页标识和/或网页内容。
在具体实施中,定位信息包括统一资源定位符;基于网页变化消息,确定变化网页数据的定位信息的具体实现方式为:基于网页变化消息,确定变化网页数据对应的网页标识;基于预先建立的网页标识与统一资源定位符之间的对应关系,确定变化网页数据的统一资源定位符。
具体的,网页变化消息中可包含发生数据变化的网页的网页标识。进一步的,可预先确定出网页标识与网页的统一资源定位符之间的对应关系,该对应关系可为网页标识与统一资源定位符之间的转换规则。在确定出网页标识的情况下,按照对应关系即可确定出发生变化的变化网页数据的统一资源定位符。
S120、调用预先构建的爬虫执行器,将定位信息输入至爬虫执行器中,并获取爬虫执行器输出的与定位信息对应的变化网页数据。
其中,爬虫执行器可提供网页爬虫服务,能够获取到网页中的内容。在具体实施中,通过将定位信息输入至爬虫执行器中,由爬虫执行器获取到与该定位信息对应的变化网页数据。从而避免开发人员需要人工拼接、获取网页内容,提高了获取变化网页数据的准确性和便捷性。
S130、确定与变化网页数据对应的索引信息,将索引信息发送至待同步引擎中,以在待同步引擎中对索引信息进行同步更新。
需要说明的是,在数据库中,索引信息是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构信息,通过索引信息可在网页数据库中能够快速查询到对应的网页数据。
具体的,变化网页数据包括正文数据和/或标题数据;确定与变化网页数据对应的索引信息,包括:基于正文数据和/或标题数据,确定与变化网页数据对应的索引信息。在具体实施中,可对正文数据和/或标题数据进行数据处理,确定出与变化网页数据对应的索引信息。示例性的,数据处理包括分词、去除停用词等处理。进一步的,也可将标题数据直接确定为索引信息。本领域技术人员可根据实际应用情况,采取不同的方式确定索引信息,对此本实施例不作限定。
本实施例中,将索引信息发送至待同步引擎中,待同步引擎可存储该索引信息,完成在网页数据库中的数据发生变化时,对索引信息的同步更新,便于在待同步引擎中通过索引信息查询到网页数据库中对应的网页数据。
本实施例中,在将定位信息输入至爬虫执行器中之后,还包括:若接收到待同步引擎反馈的同步成功信息,则生成与同步成功信息对应的消费信息发送至发布订阅消息系统。
具体的,当待同步引擎完成索引信息的同步操作后,可向服务器反馈同步成功信息,即发布订阅消息系统检测到的变化网页数据已被待同步引擎同步。在接收到同步成功信息后,可生成与同步成功信息对应的消费信息发送至发布订阅消息系统,表示发布订阅消息系统发送的网页变化消息已被消费,从而使发布订阅消息系统及时、快速地了解到变化网页数据的同步情况。
本实施例中,在将索引信息存储至待同步引擎中之后,还包括:确定在预设时长内是否接收到待同步引擎反馈的确认信息;如果否,则在待同步引擎处于工作状态时,将索引信息再次发送至待同步引擎中。
具体的,若预设时长内接收到待同步引擎反馈的确认信息,则说明待同步引擎中对索引信息以完成同步操作;若未接收到待同步引擎反馈的确认信息,则说明待同步引擎存在故障,未完成索引信息的同步操作,则为避免由于待同步引擎故障导致的索引信息丢失,可周期性检测待同步引擎的状态,当待同步引擎处于工作状态时,将索引信息再次发送至待同步引擎中,以确保索引信息存储至待同步引擎中,避免出现索引信息丢失的情况。
本发明实施例的技术方案,通过获取网页变化消息,基于网页变化消息,确定变化网页数据的定位信息;调用预先构建的爬虫执行器,将定位信息输入至爬虫执行器中,并获取爬虫执行器输出的与定位信息对应的变化网页数据;确定与变化网页数据对应的索引信息,将索引信息发送至待同步引擎中,以在待同步引擎中对索引信息进行同步更新,能够在数据分析引擎中同步网页数据,实现提高网页数据同步过程中的效率,降低网页数据同步延迟的作用。
上文中对于网页数据同步方法对应的实施例进行了详细描述,为了使本领域技术人员进一步清楚本方法的技术方案,下文中给出具体的应用场景。
图2是实现本发明实施例的网页数据同步过程的场景图,如图2所示,网页数据同步的过程如下:1、Debezium分布式平台整合了Apache Kafka系统,当网页数据库中的网页数据发生变更时,Debezium分布式平台将发生变更的网页数据通过Apache Kafka系统中kafka生产者发送kafka消息至同步服务单元,该kafka消息中包括发生变更数据的网页标识;2、同步服务单元作为kafka消息的消费者,收到kafka消息后根据预先存储的网页标识与统一资源定位符之间的对应关系,确定出发生变更的网页数据的统一资源定位符,并将该统一资源定位符发送至爬虫执行器,爬虫执行器使用webmagic爬虫框架,基于xpath语法并发爬取网页的内容,并组装爬虫后得到的网页数据,将网页数据发送至es引擎;其中,网页数据包括网页标题及网页正文,es引擎基于网页标题及网页正文确定出对应的索引信息,以完成网页数据的同步;3、在es引擎完成网页数据同步后,可将同步结果进行反馈,以表示网页数据的同步过程完成。
本发明实施例的技术方案,能够在数据分析引擎中同步网页数据,实现提高网页数据同步过程中的效率,降低网页数据同步延迟的作用。
图3是根据本发明实施例提供的一种网页数据同步装置的结构示意图,该装置用于执行上述任意实施例所提供的网页数据同步方法。该装置与上述各实施例的网页数据同步方法属于同一个发明构思,在网页数据同步装置的实施例中未详尽描述的细节内容,可以参考上述网页数据同步方法的实施例。如图3所示,该装置包括:
网页变化消息获取模块10,用于获取网页变化消息,基于网页变化消息,确定变化网页数据的定位信息;
定位信息输入模块11,用于调用预先构建的爬虫执行器,将定位信息输入至爬虫执行器中,并获取爬虫执行器输出的与定位信息对应的变化网页数据;
索引信息确定模块12,用于确定与变化网页数据对应的索引信息,将索引信息发送至待同步引擎中,以在待同步引擎中对索引信息进行同步更新。
在本发明实施例中任一可选技术方案的基础上,可选的,网页变化消息获取模块10模块包括:
网页变化消息接收单元,用于接收发布订阅消息系统发送的网页变化消息;
其中,发布订阅消息系统用于检测网页数据库中的日志文件,以基于日志文件生成网页变化消息。
在本发明实施例中任一可选技术方案的基础上,可选的,该装置还包括:
消费信息发送模块,用于在将定位信息输入至爬虫执行器中之后,若接收到待同步引擎反馈的同步成功信息,则生成与同步成功信息对应的消费信息发送至发布订阅消息系统。
在本发明实施例中任一可选技术方案的基础上,可选的,网页变化消息接收单元,包括:
消息接收子单元,用于接收发布订阅消息系统发送的网页添加消息、网页删除消息和网页更新消息中的至少一种消息。
在本发明实施例中任一可选技术方案的基础上,可选的,定位信息包括统一资源定位符;网页变化消息获取模块10,包括:
网页标识确定单元,用于基于网页变化消息,确定变化网页数据对应的网页标识;
统一资源定位符确定单元,用于基于预先建立的网页标识与统一资源定位符之间的对应关系,确定变化网页数据的统一资源定位符。
在本发明实施例中任一可选技术方案的基础上,可选的,该装置还包括:
确认信息确定模块,用于在将索引信息存储至待同步引擎中之后,确定在预设时长内是否接收到待同步引擎反馈的确认信息;如果否,则进入索引信息发送模块;
索引信息发送模块,用于在待同步引擎处于工作状态时,将索引信息再次发送至待同步引擎中。
在本发明实施例中任一可选技术方案的基础上,可选的,变化网页数据包括正文数据和/或标题数据;索引信息确定模块12,包括:
索引信息确定单元,用于基于正文数据和/或标题数据,确定与变化网页数据对应的索引信息。
本发明实施例的技术方案,通过获取网页变化消息,基于网页变化消息,确定变化网页数据的定位信息;调用预先构建的爬虫执行器,将定位信息输入至爬虫执行器中,并获取爬虫执行器输出的与定位信息对应的变化网页数据;确定与变化网页数据对应的索引信息,将索引信息发送至待同步引擎中,以在待同步引擎中对索引信息进行同步更新,能够在数据分析引擎中同步网页数据,实现提高网页数据同步过程中的效率,降低网页数据同步延迟的作用。
值得注意的是,上述网页数据同步装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
图4是实现本发明实施例的网页数据同步方法的电子设备的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图4所示,电子设备20包括至少一个处理器21,以及与至少一个处理器21通信连接的存储器,如只读存储器(ROM)22、随机访问存储器(RAM)23等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器21可以根据存储在只读存储器(ROM)22中的计算机程序或者从存储单元28加载到随机访问存储器(RAM)23中的计算机程序,来执行各种适当的动作和处理。在RAM23中,还可存储电子设备20操作所需的各种程序和数据。处理器21、ROM22以及RAM23通过总线24彼此相连。输入/输出(I/O)接口25也连接至总线24。
电子设备20中的多个部件连接至I/O接口25,包括:输入单元26,例如键盘、鼠标等;输出单元27,例如各种类型的显示器、扬声器等;存储单元28,例如磁盘、光盘等;以及通信单元29,例如网卡、调制解调器、无线通信收发机等。通信单元29允许电子设备20通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器21可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器21的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器21执行上文所描述的各个方法和处理,例如网页数据同步方法。
在一些实施例中,网页数据同步方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元28。在一些实施例中,计算机程序的部分或者全部可以经由ROM22和/或通信单元29而被载入和/或安装到电子设备20上。当计算机程序加载到RAM23并由处理器21执行时,可以执行上文描述的网页数据同步方法的一个或多个步骤。备选地,在其他实施例中,处理器21可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行网页数据同步方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种网页数据同步方法,其特征在于,包括:
获取网页变化消息,基于所述网页变化消息,确定变化网页数据的定位信息;
调用预先构建的爬虫执行器,将所述定位信息输入至所述爬虫执行器中,并获取所述爬虫执行器输出的与所述定位信息对应的变化网页数据;
确定与所述变化网页数据对应的索引信息,将所述索引信息发送至待同步引擎中,以在所述待同步引擎中对所述索引信息进行同步更新。
2.根据权利要求1所述的方法,其特征在于,所述获取网页变化消息,包括:
接收发布订阅消息系统发送的网页变化消息;
其中,所述发布订阅消息系统用于检测网页数据库中的日志文件,以基于所述日志文件生成所述网页变化消息。
3.根据权利要求2所述的方法,其特征在于,在所述将所述定位信息输入至所述爬虫执行器中之后,还包括:
若接收到所述待同步引擎反馈的同步成功信息,则生成与所述同步成功信息对应的消费信息发送至所述发布订阅消息系统。
4.根据权利要求2所述的方法,其特征在于,所述接收发布订阅消息系统发送的网页变化消息,包括:
接收所述发布订阅消息系统发送的网页添加消息、网页删除消息和网页更新消息中的至少一种消息。
5.根据权利要求1所述的方法,其特征在于,所述定位信息包括统一资源定位符;所述基于所述网页变化消息,确定变化网页数据的定位信息,包括:
基于所述网页变化消息,确定所述变化网页数据对应的网页标识;
基于预先建立的网页标识与所述统一资源定位符之间的对应关系,确定所述变化网页数据的统一资源定位符。
6.根据权利要求1所述的方法,其特征在于,在所述将所述索引信息存储至待同步引擎中之后,还包括:
确定在预设时长内是否接收到所述待同步引擎反馈的确认信息;
如果否,则在所述待同步引擎处于工作状态时,将所述索引信息再次发送至所述待同步引擎中。
7.根据权利要求1所述的方法,其特征在于,所述变化网页数据包括正文数据和/或标题数据;所述确定与所述变化网页数据对应的索引信息,包括:
基于所述正文数据和/或所述标题数据,确定与所述变化网页数据对应的索引信息。
8.一种网页数据同步装置,其特征在于,包括:
网页变化消息获取模块,用于获取网页变化消息,基于所述网页变化消息,确定变化网页数据的定位信息;
定位信息输入模块,用于调用预先构建的爬虫执行器,将所述定位信息输入至所述爬虫执行器中,并获取所述爬虫执行器输出的与所述定位信息对应的变化网页数据;
索引信息确定模块,用于确定与所述变化网页数据对应的索引信息,将所述索引信息发送至待同步引擎中,以在所述待同步引擎中对所述索引信息进行同步更新。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的网页数据同步方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的网页数据同步方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211310933.1A CN115544418A (zh) | 2022-10-25 | 2022-10-25 | 一种网页数据同步方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211310933.1A CN115544418A (zh) | 2022-10-25 | 2022-10-25 | 一种网页数据同步方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115544418A true CN115544418A (zh) | 2022-12-30 |
Family
ID=84718619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211310933.1A Pending CN115544418A (zh) | 2022-10-25 | 2022-10-25 | 一种网页数据同步方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115544418A (zh) |
-
2022
- 2022-10-25 CN CN202211310933.1A patent/CN115544418A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111400361A (zh) | 数据实时存储方法、装置、计算机设备和存储介质 | |
CN114816578A (zh) | 基于配置表的程序配置文件生成方法、装置及设备 | |
CN116383207A (zh) | 一种数据标签管理方法、装置、电子设备和存储介质 | |
CN115048352B (zh) | 一种日志字段提取方法、装置、设备和存储介质 | |
CN115905322A (zh) | 业务处理方法、装置、电子设备及存储介质 | |
CN115454971A (zh) | 数据迁移方法、装置、电子设备及存储介质 | |
CN115639966A (zh) | 一种数据写入方法、装置、终端设备及存储介质 | |
CN115544010A (zh) | 一种映射关系确定方法、装置、电子设备及存储介质 | |
CN115544418A (zh) | 一种网页数据同步方法、装置、电子设备及存储介质 | |
CN115328898A (zh) | 一种数据处理方法、装置、电子设备及介质 | |
CN115269431A (zh) | 一种接口测试方法、装置、电子设备及存储介质 | |
CN114780550A (zh) | 一种元素定位路径的自动更新方法、装置、设备及介质 | |
CN114564149A (zh) | 一种数据存储方法、装置、设备及存储介质 | |
CN113760568A (zh) | 数据处理的方法和装置 | |
CN113569144B (zh) | 推广内容的检索方法、装置、设备、存储介质及程序产品 | |
CN117573776A (zh) | 一种数据同步方法、装置、存储介质及电子设备 | |
CN115509865A (zh) | 流数据回溯方法、装置、电子设备及存储介质 | |
CN115167855A (zh) | 应用于撮合交易系统的前端页面生成方法、装置及设备 | |
CN115129673A (zh) | 一种日志处理方法、装置、电子设备及存储介质 | |
CN115562874A (zh) | 一种缓存处理方法、装置、设备及介质 | |
CN115730000A (zh) | 一种基于数据湖的医疗数据集成方法、装置、设备及介质 | |
CN115220722A (zh) | 一种后端国际化的方法、装置、设备及介质 | |
CN116821217A (zh) | 数据的分发转换方法、装置、设备及存储介质 | |
CN115567624A (zh) | 一种报文处理方法、装置、电子设备及介质 | |
CN114722264A (zh) | 一种数据查询方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |