CN115208890B - 一种信息获取方法、装置、电子设备及存储介质 - Google Patents

一种信息获取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115208890B
CN115208890B CN202210646102.5A CN202210646102A CN115208890B CN 115208890 B CN115208890 B CN 115208890B CN 202210646102 A CN202210646102 A CN 202210646102A CN 115208890 B CN115208890 B CN 115208890B
Authority
CN
China
Prior art keywords
link
information acquisition
task
acquisition server
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210646102.5A
Other languages
English (en)
Other versions
CN115208890A (zh
Inventor
金峙廷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202210646102.5A priority Critical patent/CN115208890B/zh
Publication of CN115208890A publication Critical patent/CN115208890A/zh
Application granted granted Critical
Publication of CN115208890B publication Critical patent/CN115208890B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/101Server selection for load balancing based on network conditions

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开关于一种信息获取方法、装置、电子设备及存储介质,该方法包括:生成任务集;从任务集中获取目标任务;基于各个信息获取服务器的当前信息处理性能,确定处理目标任务的目标信息获取服务器,以使得目标信息获取服务器处理目标任务;接收目标信息获取服务器发送的目标信息。可见,通过本公开实施例提供的技术方案,对于任务集中的任一目标任务,能够选取到当前信息处理性能较高的目标信息获取服务器,可以提高目标任务的处理效率,进而提高了信息获取效率。并且,通过将一个目标任务分配到一个目标信息获取服务器,可以最大限度地减少通信的时间,进一步提高了信息获取效率。

Description

一种信息获取方法、装置、电子设备及存储介质
技术领域
本申请涉及信息处理技术领域,特别是涉及一种信息获取方法、装置、电子设备及存储介质。
背景技术
目前,在大数据的时代下,信息获取技术应用在互联网的方方面面;无论是搜索引擎的搜索范围,还是信息流内容的更新迭代,都依赖于信息获取技术的收集及信息获取能力。而目前网络上信息繁多,信息获取技术需要提高工作效率,才能确保获取到更多、更全面的信息。
相关技术中,在获取信息时,首先获取需要获取信息对应的链接,并根据所获取的链接从信息获取服务器获取对应的信息。
在实际应用中,由于链接较多,在获取信息时,所利用到的信息获取服务器也较多。由于一些信息获取服务器所在的区域网络抖动,或者信息获取服务器故障等原因导致信息获取服务器整体性能下降,因此需要等待信息获取服务器状态良好时再处理,从而导致信息获取效率较低。
发明内容
为了解决相关技术中存在的上述问题,本公开提供了一种信息获取方法、装置、电子设备及存储介质,本公开的技术方案如下:
根据本公开实施例的第一方面,提供了一种信息获取方法,包括:
生成任务集,所述任务集中的每个任务用于指示通过多条链接获取对应的目标信息;
从所述任务集中获取目标任务;
基于各个信息获取服务器的当前信息处理性能,确定处理所述目标任务的目标信息获取服务器,以使得所述目标信息获取服务器处理所述目标任务;所述目标信息获取服务器的当前信息处理性能高于其他信息获取服务器的当前信息处理性能,每个所述信息获取服务器的当前信息处理性能基于所述信息获取服务器处理历史任务所得的与性能相关的性能数据确定;
接收所述目标信息获取服务器发送的目标信息。
可选的,所述生成任务集,包括:
确定获取目标信息所需要的第一链接;
确定所述第一链接所对应的第二链接,所述第二链接为获取所述目标信息时所述第一链接的直接跳转链接和/或间接跳转链接;
基于所述第一链接和所述第二链接的跳转顺序,生成所述任务集中的一个任务;所述任务集中的一个任务用于指示通过所述第一链接和所述第二链接获取所述目标信息。
可选的,所述基于所述第一链接和所述第二链接的跳转顺序,生成所述任务集中的一个任务,包括:
确定所述第二链接的数量;
在所述第二链接的数量大于预设数量时,根据所述第一链接和所述第二链接的跳转顺序以及所述预设数量,将所述第一链接和所述第二链接划分为多个链接分组;每个链接分组所包括的链接在所述跳转顺序中的序号具有连续性,且每个链接分组所包括的链接的数量小于等于所述预设数量;
基于所述多个链接分组生成多个子任务,并将所述多个子任务确定为所述任务集的一个任务;每一子任务对应一个链接分组,且每个子任务用于指示通过对应的链接分组中的第一链接和第二链接获取所述目标信息。
可选的,所述基于所述第一链接和所述第二链接的跳转顺序,生成所述任务集中的一个任务,包括:
确定所述第一链接和所述第二链接的处理优先级;
基于所述第一链接和所述第二链接的处理优先级,调整所述第一链接和所述第二链接的跳转顺序;其中,处理优先级高的链接在所述跳转顺序中的序号小于处理优先级低的链接在所述跳转顺序中的序号;
基于调整后的所述第一链接和所述第二链接的跳转顺序,生成所述任务集中的一个任务。
可选的,还包括:
在所述接收所述目标信息获取服务器发送的目标信息之后,将所述目标任务的任务处理状态由未处理状态更新为已处理状态;
存储所述目标任务对应的所述目标信息获取服务器的服务器标识,所述目标信息获取服务器处理所述目标任务的开始时间和结束时间。
可选的,还包括:
获取各个信息获取服务器处理历史任务所得的与性能相关的第一性能数据和/或第二性能数据,所述第一性能数据用于表征信息获取服务器的空闲程度,所述第二性能数据用于表征信息获取服务器获取信息所消耗的平均时长;
基于各个信息获取服务器的第一性能数据和/或第二性能数据,确定各个信息获取服务器的当前信息处理性能。
可选的,所述获取各个信息获取服务器处理历史任务所得的与性能相关的第一性能数据和/或第二性能数据,包括:
获取各个信息获取服务器处理历史任务过程中的空闲CPU占比、内存空闲率和带宽利用率;
基于各个信息获取服务器的空闲CPU占比、内存空闲量和带宽利用率,确定各个信息获取服务器处理历史任务过程中的第一性能数据;
获取各个信息获取服务器处理历史任务过程中获取每条信息对应的开始时间和结束时间;
基于所述每条信息对应的开始时间和结束时间,计算各个信息获取服务器获取每条信息对应的平均时长,并基于获取每条信息对应的平均时长确定相应信息获取服务器的第二性能数据。
根据本公开实施例的第二方面,提供了一种信息获取装置,包括:
任务集生成模块,被配置为执行生成任务集,所述任务集中的每个任务用于指示通过多条链接获取对应的目标信息;
任务获取模块,被配置为执行从所述任务集中获取目标任务;
信息获取服务器确定模块,被配置为执行基于各个信息获取服务器的当前信息处理性能,确定处理所述目标任务的目标信息获取服务器,以使得所述目标信息获取服务器处理所述目标任务;所述目标信息获取服务器的当前信息处理性能高于其他信息获取服务器的当前信息处理性能,每个所述信息获取服务器的当前信息处理性能基于所述信息获取服务器处理历史任务所得的与性能相关的性能数据确定;
信息接收模块,被配置为执行接收所述目标信息获取服务器发送的目标信息。
可选的,所述任务集生成模块,包括:
第一链接确定单元,被配置为执行确定获取目标信息所需要的第一链接;
第二链接确定单元,被配置为执行确定所述第一链接所对应的第二链接,所述第二链接为获取所述目标信息时所述第一链接的直接跳转链接和/或间接跳转链接;
任务集生成单元,被配置为执行基于所述第一链接和所述第二链接的跳转顺序,生成所述任务集中的一个任务;所述任务集中的一个任务用于指示通过所述第一链接和所述第二链接获取所述目标信息。
可选的,所述任务集生成单元,具体被配置为执行:
确定所述第二链接的数量;
在所述第二链接的数量大于预设数量时,根据所述第一链接和所述第二链接的跳转顺序以及所述预设数量,将所述第一链接和所述第二链接划分为多个链接分组;每个链接分组所包括的链接在所述跳转顺序中的序号具有连续性,且每个链接分组所包括的链接的数量小于等于所述预设数量;
基于所述多个链接分组生成多个子任务,并将所述多个子任务确定为所述任务集的一个任务;每一子任务对应一个链接分组,且每个子任务用于指示通过对应的链接分组中的第一链接和第二链接获取所述目标信息。
可选的,所述任务集生成单元,具体被配置为执行:
确定所述第一链接和所述第二链接的处理优先级;
基于所述第一链接和所述第二链接的处理优先级,调整所述第一链接和所述第二链接的跳转顺序;其中,处理优先级高的链接在所述跳转顺序中的序号小于处理优先级低的链接在所述跳转顺序中的序号;
基于调整后的所述第一链接和所述第二链接的跳转顺序,生成所述任务集中的一个任务。
可选的,还包括:
任务处理状态更新模块,被配置为执行在所述接收所述目标信息获取服务器发送的目标信息之后,将所述目标任务的任务处理状态由未处理状态更新为已处理状态;
数据存储模块,被配置为执行存储所述目标任务对应的所述目标信息获取服务器的服务器标识,所述目标信息获取服务器处理所述目标任务的开始时间和结束时间。
可选的,还包括:
性能数据获取模块,被配置为执行获取各个信息获取服务器处理历史任务所得的与性能相关的第一性能数据和/或第二性能数据,所述第一性能数据用于表征信息获取服务器的空闲程度,所述第二性能数据用于表征信息获取服务器获取信息所消耗的平均时长;
信息处理性能确定模块,被配置为执行基于各个信息获取服务器的第一性能数据和/或第二性能数据,确定各个信息获取服务器的当前信息处理性能。
可选的,所述性能数据获取模块,具体被配置为执行:
获取各个信息获取服务器处理历史任务过程中的空闲CPU占比、内存空闲率和带宽利用率;
基于各个信息获取服务器的空闲CPU占比、内存空闲量和带宽利用率,确定各个信息获取服务器处理历史任务过程中的第一性能数据;
获取各个信息获取服务器处理历史任务过程中获取每条信息对应的开始时间和结束时间;
基于所述每条信息对应的开始时间和结束时间,计算各个信息获取服务器获取每条信息对应的平均时长,并基于获取每条信息对应的平均时长确定相应信息获取服务器的第二性能数据。
根据本公开实施例的第三方面,提供了一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现第一方面所述的方法。
根据本公开实施例的第四方面,提供了一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行第一方面所述的方法。
根据本公开实施例的第五方面,提供了一种计算机程序产品,当其在计算机上运行时,使得计算机实现第一方面所述的方法。
本公开实施例提供的技术方案,生成任务集,其中,任务集中的每个任务用于指示通过多条链接获取对应的目标信息;从任务集中获取目标任务;基于各个信息获取服务器的当前信息处理性能,确定处理目标任务的目标信息获取服务器,以使得目标信息获取服务器处理目标任务;其中,目标信息获取服务器的当前信息处理性能高于其他信息获取服务器的当前信息处理性能,每个信息获取服务器的当前信息处理性能基于该信息获取服务器处理历史任务所得的与性能相关的性能数据确定;接收目标信息获取服务器发送的目标信息。
可见,通过本公开实施例提供的技术方案,对于任务集中的任一目标任务,能够选取到当前信息处理性能较高的目标信息获取服务器,可以提高目标任务的处理效率,且由于目标任务用于指示目标信息获取服务器通过多链接获取对应的目标信息,因此提高了信息获取效率。并且,通过将一个目标任务分配到一个目标信息获取服务器,可以最大限度地减少通信的时间,进一步提高了信息获取效率。
附图说明
图1是根据一示例性实施例示出的一种信息获取方法的流程图;
图2是图1中S110的一种实施方式的流程图;
图3是图2中S113的一种实施方式的流程图;
图4是图2中S113的另一种实施方式的流程图;
图5是根据一示例性实施例示出的另一种信息获取方法的流程图;
图6是图5中S130a的一种实施方式的流程图;
图7是根据一示例性实施例示出的一种信息获取装置的框图;
图8是根据一示例性实施例示出的一种电子设备的框图;
图9是根据一示例性实施例示出的另一种信息获取装置的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
相关技术中,在从信息获取服务器获取信息时,由于信息获取服务器所处的区域网络抖动,或者,信息获取服务器故障等原因导致信息获取服务器整体性能下降,需要等待信息获取服务器状态良好时再处理,即需要等待信息获取服务器性能良好时才能获取信息,从而导致信息获取效率较低。
为了解决相关技术中存在的上述技术问题,本申请实施例提供了一种信息获取方法、装置、电子设备及存储介质。
第一方面,首先对本公开实施例提供的一种信息获取方法进行详细介绍。
需要说明的是,本公开实施例所提供的信息获取方法的执行主体可以为任一需要获取信息的服务器,本公开实施例对此不做具体限定。
如图1所示,本公开实施例提供的一种信息获取方法,可以包括如下步骤:
S110,生成任务集。
其中,任务集中的每个任务用于指示通过多条链接获取对应的目标信息。
具体的,目标信息可以是任意待获取的信息,本公开实施例对此不做具体限定,在实际应用中,在获取目标信息时,通常需要多条链接。例如,在通过搜索引擎搜索信息时,会返回很多结果,第一次返回的结果的链接可以称为种子链接,在搜索引擎上点开种子链接后,很可能还需要点击其他链接,直至获取到所需要的信息,这些其他链接是种子链接延伸出来的链接。
作为执行主体的服务器在需要获取信息时,需要从生成好的任务集获取对应的任务,由于作为执行主体的服务器与任务集进行一次任务获取交互也有一定的流量和时间开销,因此,任务集的一个任务不会只指示通过一个单独的链接来获取信息,而是同时指示通过多条链接获取对应的目标信息。
这样,作为执行主体的服务器只需要从任务集中获取一个任务,即可以得到其需要获取的目标信息,而不需要多次从任务集中获取任务,进而减少了流量和时间的消耗。
仍以通过搜索引擎搜索信息为例,可以将种子链接和延伸出来的链接串行起来,组成一个包括多条链接的链接组;任务集中的一个任务可以指示通过该链接组所包括的多条链接来获取对应的目标信息。
举例而言,作为执行主体的服务器从A网站上,探测到了A1和A2两个链接,而A1网站有A2链接、A3链接、A4链接,A3网站和A4网站均无链接,其中,A2链接有两个,则对A2链接进行去重处理,那么以A为起始点的链接组可以为(A,A1,A2,A3,A4)。并且,任务集中的其中一个任务可以指示通过该链接组的A链接、A1链接、A2链接、A3链接和A4链接来获取对应的目标信息。
为了方案描述清楚,将在下面实施例中对生成任务集的具体实施方式进行详细阐述。
S120,从任务集中获取目标任务。
具体的,在生成任务集之后,作为执行主体的服务器可以从任务集中获取目标任务。该目标任务可以是任务集中最近生成的一条任务;或者在信息搜索场景下,目标任务可以是与信息获取请求匹配的任务,这都是合理的,本公开实施例对此不做具体限定。
S130,基于各个信息获取服务器的当前信息处理性能,确定处理目标任务的目标信息获取服务器,以使得目标信息获取服务器处理目标任务。
其中,目标信息获取服务器的当前信息处理性能高于其他信息获取服务器的当前信息处理性能,每个信息获取服务器的当前信息处理性能基于该信息获取服务器处理历史任务所得的与性能相关的性能数据确定。
为了最大限度地减少通信的时间,提高时效性,一个目标任务会分配到一个信息获取服务器上去处理。作为执行主体的服务器获取到目标任务后,需要从多个信息获取服务器中选择选择一个目标信息获取服务器来处理目标任务。
为了保证所选择的信息获取服务器能够效率较高地处理目标任务,需要考虑各个信息获取服务器的当前信息处理性能,并将当前信息处理性能最高的信息获取服务器确定为处理目标任务的目标信息获取服务器。其中,每个信息获取服务器的当前信息处理性能基于该信息获取服务器处理历史任务所得的与性能相关的性能数据确定。为了方案描述清楚,将在下面实施例中对确定各个信息获取服务器的当前信息处理性能的具体实施方式进行详细阐述。
在确定了处理目标任务的目标信息获取服务器后,可以通过目标信息获取服务器来处理目标任务,即在目标信息获取服务器中,通过目标任务所指示的多个链接来获取对应的目标信息。并且,由于目标信息获取服务器的当前信息处理性能较高,即目标信息获取服务器的当前状态较好,因此,目标信息获取服务器可以效率较高地通过目标任务所指示的多个链接来获取对应的目标信息,进而提高了获取目标信息的效率。
S140,接收目标信息获取服务器发送的目标信息。
在通过目标信息获取服务器处理完目标任务后,即获取到了目标信息,因此,可以将所获取到的目标信息发送给作为执行主体的服务器。由于目标任务被分配到一个目标信息获取服务器,因此,只有一个目标信息获取服务器将目标信息发送给作为执行主体的服务器,进而最大限度地减少了通信时间,提高了信息获取效率。
本公开实施例提供的技术方案,生成任务集,其中,任务集中的每个任务用于指示通过多条链接获取对应的目标信息;从任务集中获取目标任务;基于各个信息获取服务器的当前信息处理性能,确定处理目标任务的目标信息获取服务器,以使得目标信息获取服务器处理目标任务;其中,目标信息获取服务器的当前信息处理性能高于其他信息获取服务器的当前信息处理性能,每个信息获取服务器的当前信息处理性能基于该信息获取服务器处理历史任务所得的与性能相关的性能数据确定;接收目标信息获取服务器发送的目标信息。
可见,通过本公开实施例提供的技术方案,对于任务集中的任一目标任务,能够选取到当前信息处理性能较高的目标信息获取服务器,可以提高目标任务的处理效率,且由于目标任务用于指示通过多条链接获取对应的目标信息,因此提高了信息获取效率。并且,通过将一个目标任务分配到一个目标信息获取服务器,可以最大限度地减少通信的时间,进一步提高了信息获取效率。
在上述实施例的基础上,在一种实施方式中,S110,生成任务集,如图2所示,可以包括如下步骤:
S111,确定获取目标信息所需要的第一链接。
具体的,在实际应用中,在获取目标信息时,通常需要多条链接。例如,在通过搜索引擎搜索信息时,会返回很多结果,第一次返回的结果的链接可以称为第一链接,该第一链接也可以称为种子链接。
S112,确定第一链接所对应的第二链接。
其中,第二链接为获取目标信息时第一链接的直接跳转链接和/或间接跳转链接。
具体的,在得到第一链接后,可以根据第一链接查找到获取目标信息所需要的其他链接。例如,在通过搜索引擎搜索信息时,会返回很多结果,第一次返回的结果的链接可以称为第一链接,该第一链接可以称为种子链接。在搜索引擎上点开种子链接后,很可能还需要点击其他链接,直至获取到所需要的目标信息,这些其他链接是种子链接延伸出来的链接。也就是说,在点击第一链接后可以直接跳转或者间接跳转到第二链接。
举例而言,在通过搜索引擎获取目标信息时,种子链接为A链接,点击A链接可以直接跳转到A1链接和A2链接,点击A1链接可以跳转到A2链接、A3链接和A4链接,那么,A1链接和A2链接为A链接的直接跳转链接,A3链接和A4链接为A链接的间接跳转链接。那么,第二链接包括A1链接、A2链接、A3链接和A4链接。
S113,基于第一链接和第二链接的跳转顺序,生成任务集中的一个任务。
其中,任务集中的一个任务用于指示通过第一链接和第二链接获取目标信息。
具体的,作为执行主体的服务器需要获取信息时,需要从生成好的任务集获取任务,由于作为执行主体的服务器与任务集进行一次任务获取交互也有一定的流量和时间开销,任务集的一个任务不会只指示通过一个单独的链接来获取目标信息,而是同时指示通过多条链接获取对应的目标信息。因此,在得到第一链接和第二链接后,可以按照第一链接和第二链接的跳转顺序,生成任务集中的一个任务,该任务指示通过第一链接和第二链接来获取目标信息。
为了方案描述清楚,将在下面实施例中对S113的具体实施方式进行详细阐述。
可见,通过本实施方式提供的技术方案,考虑到作为执行主体的服务器在获取信息时,需要从生成好的任务集获取任务,作为执行主体的服务器与任务集进行一次任务获取交互也有一定的流量和时间开销,因此,任务集的每个任务不是只指示通过一个链接来获取信息,而是通过指示第一链接和第二链接这多个链接来获取信息,进而减少了作为执行主体的服务器与任务集的交互次数,从而可以减少流量和时间的消耗。
为了方案描述完整和清楚,将在下面两个实施例中对S113的两种具体实施方式进行详细阐述。
在一种实施方式中,如图3所示,S113,基于第一链接和第二链接的跳转顺序,生成任务集中的一个任务,可以包括如下步骤:
S113a,确定第二链接的数量。
S113b,在第二链接的数量大于预设数量时,根据第一链接和第二链接的跳转顺序以及预设数量,将第一链接和第二链接划分为多个链接分组。
其中,每个链接分组所包括的链接在跳转顺序中的序号具有连续性,且每个链接分组所包括的链接的数量小于等于预设数量。
在该实施方式中,如果通过第一链接所确定的第二链接数量过多,第二链接的数量可能大于预设数量,为了避免目标信息获取服务器在处理某一个任务时,因该任务指示通过很多条链接来获取信息,而导致处理该任务所消耗的流量和时间太长。可以按照第一链接和第二链接的跳转顺序和预设数量,将第一链接和第二链接划分为多个链接分组,每个链接分组所包括的链接的数量不超过预设数量。这样单个任务不会指示通过太多的链接获取信息,进而处理单个任务所消耗的流量和时间不会太多。其中,预设数量可以根据实际情况进行确定,在此不做具体限定。
举例而言,如果A链接为第一链接,通过A链接所确定的第二链接的数量过多,那么,可以将第一链接和第二链接分为多个链接分组,例如,第二链接的数量大于100,那么,以100个链接组成一个链接分组,可以将第一链接和第二链接分为两个链接分组,这两个链接分组分别为(A,…,A99)和(A100,…,AN)。
S113c,基于多个链接分组生成多个子任务,并将多个子任务确定为任务集的一个任务。
其中,每一子任务对应一个链接分组,且每个子任务用于指示通过对应的链接分组中的第一链接和第二链接获取目标信息。
具体的,在将第一链接和第二链接划分为多个链接分组后,对于每一个链接分组可以生成一个子任务,该子任务用于指示通过该链接分组中的第一链接和第二链接来获取目标信息。并将多个子任务确定为任务集的一个任务。
可见,通过本公开实施例提供的技术方案,在第二链接的数量较多时,为了避免因一个任务指示通过很多条链接来获取信息,而导致处理该任务的所消耗的流量和时间太多,将第一链接和第二链接划分为多个链接分组,每个子任务对应一个链接分组,这样,每个子任务不会指示通过太条链接来获取信息,进而处理每个子任务的所消耗的流量和时间不会过多,进而可以进一步提高信息获取的效率。
在另一种实施方式中,如图4所示,S113,基于第一链接和第二链接的跳转顺序,生成任务集中的一个任务,可以包括如下步骤:
S113d,确定第一链接和第二链接的处理优先级。
在实际应用中,可以根据实际情况设置第一链接和第二链接的处理优先级。例如,处理时效要求较高的链接的处理优先级可以高于处理时效要求较低的链接。
S113e,基于第一链接和第二链接的处理优先级,调整第一链接和第二链接的跳转顺序。
其中,处理优先级高的链接在跳转顺序中的序号小于处理优先级低的链接在跳转顺序中的序号。
具体的,在确定了第一链接和第二链接的处理优先级后,可以根据第一链接和第二链接的处理优先级来调整第一链接和第二链接的跳转顺序。例如,可以将处理优先级较高的链接调整到处理优先级较低的链接的前面。
S113f,基于调整后的第一链接和第二链接的跳转顺序,生成任务集中的一个任务。
具体的,在按照第一链接和第二链接的处理优先级高低调整了第一链接和第二链接的跳转顺序后,可以根据调整后的第一链接和第二链接的跳转顺序,来生成任务集中的一个任务。这样,所生成的任务可以优先指示通过优先级高的链接来获取目标信息,进而作为执行主体的服务器可以优先获取到优先级高的链接对应的目标信息。
可见,通过本实施方式提供的技术方案,通过第一链接和第二链接的处理优先级来调整第一链接和第二链接的跳转顺序,并将处理优先级较高的链接调整到处理优先级较低的链接的前面,这样,所生成的任务可以优先指示目标信息获取服务器通过优先级高的链接来获取目标信息,进而作为执行主体的服务器可以优先获取到优先级高的链接对应的目标信息。
在上述实施例的基础上,在一种实施方式中,该信息获取方法还可以包括如下两个步骤:
第一个步骤:在接收目标信息获取服务器发送的目标信息之后,将目标任务的任务处理状态由未处理状态更新为已处理状态。
第二个步骤:存储目标任务对应的目标信息获取服务器的服务器标识,目标信息获取服务器处理目标任务的开始时间和结束时间。
具体的,在接收到目标信息获取服务器发送的目标信息之后,说明通过目标任务所指示的多条链接获取完目标信息,即目标信息获取服务器已处理完目标任务,此时可以将目标任务的任务处理状态由未处理状态更新为已处理状态,以便作为执行主体的服务器下次获取任务集中未处理的任务。
并且,任务集还会对如下三种信息进行记录:
第一,完成目标任务的是哪台目标信息获取服务器。在实际应用中,可以记录为目标信息获取服务器的编号Mi。
第二,何时分配的目标信息获取服务器。在实际应用中,可以记录为目标信息获取服务器开始执行目标任务的时间ST。
第三,分配目标信息获取服务器的完成时间。在实际应用中,可以记录为目标信息获取服务器处理目标任务的结束时间ET。
通过记录以上三方面的数据,可以获取到目标信息获取服务器处理历史任务的历史数据,以便基于所获取到的历史数据更新目标信息获取服务的信息处理性能。
可见,通过本实施方式提供的技术方案,在目标任务执行完成后,通过将目标任务的任务处理状态由未处理状态更新为已处理状态;可以便于作为执行主体的服务器下次获取任务集中未处理的任务。并且,通过存储目标任务对应的目标信息获取服务器的服务器标识,目标信息获取服务器处理目标任务的开始时间和结束时间,可以实现获取目标信息获取服务器处理历史任所得的与性能相关的性能数据,以便更新目标信息获取服务的信息处理性能。
在上述实施例的基础上,在一种实施方式中,如图5所示,该信息处理方法还可以包括如下步骤:
S130a,获取各个信息获取服务器处理历史任务所得的与性能相关的第一性能数据和/或第二性能数据。
其中,第一性能数据用于表征信息获取服务器的空闲程度,第二性能数据用于表征信息获取服务器获取信息所消耗的平均时长。
具体的,在冷启动阶段,可以采用轮询的方式,例如有N台信息获取服务器,可以顺序地将任务集的任务分配给编号为M1-MN的信息获取服务器,此时会产生一批任务执行的历史数据,记录着任务分配的信息获取服务器的编号,信息获取服务器执行任务的开始时间和结束时间。
在冷启动一段时间,例如冷启动半小时之后,积累了一定的历史数据,则可以确定用于表征信息获取服务器的空闲程度的第一性能数据,以及,用于表征信息获取服务器获取信息所消耗的平均时长的第二性能数据。为了方案描述清楚,将在下面实施例中,对如何获取第一性能数据和第二性能数据进行详细阐述。
并且,在冷启动阶段后,信息获取服务器处理任务时,还会记录该信息获取服务器执行任务的开始时间和结束时间,以便每隔预设时间段更新信息获取服务器的第一性能数据和第二性能数据。
S130b,基于各个信息获取服务器的第一性能数据和/或第二性能数据,确定各个信息获取服务器的当前信息处理性能。
在确定了各个信息获取服务器的第一性能数据和/或第二性能数据后,对于每一信息获取服务器,可以根据该信息获取服务器的第一性能数据和/或第二性能数据,来确定各个信息获取服务器的当前信息处理性能。
具体的,如果一个信息获取服务器的第一性能数据用于表征该信息获取服务器的空闲程度较高,且该信息获取服务器的第二性能数据用于表征该信息获取服务器获取信息所消耗的平均时长较短,此时,可以确定该信息获取服务器的当前信息处理性能较高。如果一个信息获取服务器的第一性能数据用于表征该信息获取服务器的空闲程度较低,或者,该信息获取服务器的第二性能数据用于表征该信息获取服务器获取信息所消耗的平均时长较长,可以确定该信息获取服务器的当前信息处理性能较低。
可见,通过本实施方式提供的技术方案,通过基于各个信息获取服务器的第一性能数据和/或第二性能数据,确定各个信息获取服务器的当前信息处理性能,这样,对于任务集中的任一目标任务,能够选取到当前信息处理性能高的目标信息获取服务器,可以提高目标任务的处理效率,进而提高了信息获取效率。
在图5所示实施例的基础上,在一种实施方式中,如图6所示,S130a,获取各个信息获取服务器处理历史任务所得的与性能相关的第一性能数据和/或第二性能数据,可以包括如下步骤:
S510,获取各个信息获取服务器处理历史任务过程中的空闲CPU占比、内存空闲率和带宽利用率。
具体的,可以通过信息获取服务器的相关指令来获取空闲CPU占比、存空闲量和机器内存总量;以及,输入流率和输出流率。并且,可以通过查询信息获取服务器接入的网络带宽。
其中,空闲CPU占比可以用P(CPU)进行表示,内存空闲率可以用P(MEM)来表示,带宽利用率可以用P(NET)进行表示,三者的计算方式如下:
P(CPU)=空闲CPU占用百分比;
P(MEM)=内存空闲量/机器内存总量;
P(NET)=流率/带宽,其中,流率包括输入流率和输出流率。
S520,基于各个信息获取服务器的空闲CPU占比、内存空闲率和带宽利用率,确定各个信息获取服务器处理历史任务过程中的第一性能数据。
在计算得到空闲CPU占比、内存空闲量和带宽利用率后,可以通过这三个参数,来确定信息获取服务器的在处理历史任务过程中的第一性能数据。
其中,第一性能数据可以用WM(Mi)表示,WM(Mi)可以为P(CPU)+P(MEM)+(1-P(NET))。当然,这只是第一性能数据的一种计算方式,本公开实施例对此不做具体限定。
S530,获取各个信息获取服务器处理历史任务过程中获取每条信息对应的开始时间和结束时间。
具体的,每一信息获取服务器可以获取多条信息,获取每条信息具有对应的开始时间ST和结束时间ET。
S540,基于每条信息对应的开始时间和结束时间,计算各个信息获取服务器获取每条信息对应的平均时长,并基于获取每条信息对应的平均时长确定相应信息获取服务器的第二性能数据。
具体的,第二性能数据可以用WT(Mi)表示,假设标号为Mi的信息获取服务器共获取了N条信息,可以根据每条信息对应的开始时间ST和结束时间ET,来计算WT(Mi)。
其中,一个信息获取服务器的WT(Mi)越小,说明该信息获取服务器获取每条信息对应的平均时长越短。
在得到信息获取服务器的第一性能数据和第二性能数据后,可以确定信息获取服务器的当前信息处理性能。其中,当前信息处理性能数据可以用WE(Mi)表示。
WE(Mi)可以为WM(Mi)+1/WT(Mi)。
其中,WE(Mi)越大,说明当前信息处理性能越高,否则,说明当前信息处理性能越低。
可见,通过本实施方式提供的技术方案,可以根据信息获取服务器处理历史任务所得到的历史性能数据来动态监测信息获取服务器的信息处理性能,以便后续步骤中,作为执行主体的服务器能够选择信息处理性能较高的目标信息获取服务器来处理目标任务。
根据本公开实施例的第二方面,提供了一种信息获取装置,如图7所示,包括:
任务集生成模块710,被配置为执行生成任务集,所述任务集中的每个任务用于指示通过多条链接获取对应的目标信息;
任务获取模块720,被配置为执行从所述任务集中获取目标任务;
信息获取服务器确定模块730,被配置为执行基于各个信息获取服务器的当前信息处理性能,确定处理所述目标任务的目标信息获取服务器,以使得所述目标信息获取服务器处理所述目标任务;所述目标信息获取服务器的当前信息处理性能高于其他信息获取服务器的当前信息处理性能,每个所述信息获取服务器的当前信息处理性能基于所述信息获取服务器处理历史任务所得的与性能相关的性能数据确定;
信息接收模块740,被配置为执行接收所述目标信息获取服务器发送的目标信息。
本公开实施例提供的技术方案,生成任务集,其中,任务集中的每个任务用于指示通过多条链接获取对应的目标信息;从任务集中获取目标任务;基于各个信息获取服务器的当前信息处理性能,确定处理目标任务的目标信息获取服务器,以使得目标信息获取服务器处理目标任务;其中,目标信息获取服务器的当前信息处理性能高于其他信息获取服务器的当前信息处理性能,每个信息获取服务器的当前信息处理性能基于该信息获取服务器处理历史任务所得的与性能相关的性能数据确定;接收目标信息获取服务器发送的目标信息。
可见,通过本公开实施例提供的技术方案,对于任务集中的任一目标任务,能够选取到当前信息处理性能较高的目标信息获取服务器,可以提高目标任务的处理效率,且由于目标任务用于指示通过多链接获取对应的目标信息,因此提高了信息获取效率。并且,通过将一个目标任务分配到一个目标信息获取服务器,可以最大限度地减少通信的时间,进一步提高了信息获取效率。
可选的,所述任务集生成模块,包括:
第一链接确定单元,被配置为执行确定获取目标信息所需要的第一链接;
第二链接确定单元,被配置为执行确定所述第一链接所对应的第二链接,所述第二链接为获取所述目标信息时所述第一链接的直接跳转链接和/或间接跳转链接;
任务集生成单元,被配置为执行基于所述第一链接和所述第二链接的跳转顺序,生成所述任务集中的一个任务;所述任务集中的一个任务用于指示通过所述第一链接和所述第二链接获取所述目标信息。
可选的,所述任务集生成单元,具体被配置为执行:
确定所述第二链接的数量;
在所述第二链接的数量大于预设数量时,根据所述第一链接和所述第二链接的跳转顺序以及所述预设数量,将所述第一链接和所述第二链接划分为多个链接分组;每个链接分组所包括的链接在所述跳转顺序中的序号具有连续性,且每个链接分组所包括的链接的数量小于等于所述预设数量;
基于所述多个链接分组生成多个子任务,并将所述多个子任务确定为所述任务集的一个任务;每一子任务对应一个链接分组,且每个子任务用于指示通过对应的链接分组中的第一链接和第二链接获取所述目标信息。
可选的,所述任务集生成单元,具体被配置为执行:
确定所述第一链接和所述第二链接的处理优先级;
基于所述第一链接和所述第二链接的处理优先级,调整所述第一链接和所述第二链接的跳转顺序;其中,处理优先级高的链接在所述跳转顺序中的序号小于处理优先级低的链接在所述跳转顺序中的序号;
基于调整后的所述第一链接和所述第二链接的跳转顺序,生成所述任务集中的一个任务。
可选的,还包括:
任务处理状态更新模块,被配置为执行在所述接收所述目标信息获取服务器发送的目标信息之后,将所述目标任务的任务处理状态由未处理状态更新为已处理状态;
数据存储模块,被配置为执行存储所述目标任务对应的所述目标信息获取服务器的服务器标识,所述目标信息获取服务器处理所述目标任务的开始时间和结束时间。
可选的,还包括:
性能数据获取模块,被配置为执行获取各个信息获取服务器处理历史任务所得的与性能相关的第一性能数据和/或第二性能数据,所述第一性能数据用于表征信息获取服务器的空闲程度,所述第二性能数据用于表征信息获取服务器获取信息所消耗的平均时长;
信息处理性能确定模块,被配置为执行基于各个信息获取服务器的第一性能数据和/或第二性能数据,确定各个信息获取服务器的当前信息处理性能。
可选的,所述性能数据获取模块,具体被配置为执行:
获取各个信息获取服务器处理历史任务过程中的空闲CPU占比、内存空闲率和带宽利用率;
基于各个信息获取服务器的空闲CPU占比、内存空闲量和带宽利用率,确定各个信息获取服务器处理历史任务过程中的第一性能数据;
获取各个信息获取服务器处理历史任务过程中获取每条信息对应的开始时间和结束时间;
基于所述每条信息对应的开始时间和结束时间,计算各个信息获取服务器获取每条信息对应的平均时长,并基于获取每条信息对应的平均时长确定相应信息获取服务器的第二性能数据。
根据本公开实施例的第三方面,提供了一种电子设备,如图8所示,包括:
处理器810;
用于存储所述处理器可执行指令的存储器820;
其中,所述处理器被配置为执行所述指令,以实现第一方面所述的方法。
本公开实施例提供的技术方案,生成任务集,其中,任务集中的每个任务用于指示通过多条链接获取对应的目标信息;从任务集中获取目标任务;基于各个信息获取服务器的当前信息处理性能,确定处理目标任务的目标信息获取服务器,以使得目标信息获取服务器处理目标任务;其中,目标信息获取服务器的当前信息处理性能高于其他信息获取服务器的当前信息处理性能,每个信息获取服务器的当前信息处理性能基于该信息获取服务器处理历史任务所得的与性能相关的性能数据确定;接收目标信息获取服务器发送的目标信息。
可见,通过本公开实施例提供的技术方案,对于任务集中的任一目标任务,能够选取到当前信息处理性能较高的目标信息获取服务器,可以提高目标任务的处理效率,且由于目标任务用于指示通过多链接获取对应的目标信息,因此提高了信息获取效率。并且,通过将一个目标任务分配到一个目标信息获取服务器,可以最大限度地减少通信的时间,进一步提高了信息获取效率。
图9是根据一示例性实施例示出的一种信息获取装置900的框图。例如,装置900可以被提供为一服务器。参照图9,装置900包括处理组件922,其进一步包括一个或多个处理器,以及由存储器932所代表的存储器资源,用于存储可由处理组件922的执行的指令,例如应用程序。存储器932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件922被配置为执行指令,以执行第一方面所述的信息获取方法。
装置900还可以包括一个电源组件926被配置为执行装置900的电源管理,一个有线或无线网络接口950被配置为将装置900连接到网络,和一个输入输出(I/O)接口958。装置900可以操作基于存储在存储器932的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本公开实施例提供的技术方案,生成任务集,其中,任务集中的每个任务用于指示通过多条链接获取对应的目标信息;从任务集中获取目标任务;基于各个信息获取服务器的当前信息处理性能,确定处理目标任务的目标信息获取服务器,以使得目标信息获取服务器处理目标任务;其中,目标信息获取服务器的当前信息处理性能高于其他信息获取服务器的当前信息处理性能,每个信息获取服务器的当前信息处理性能基于该信息获取服务器处理历史任务所得的与性能相关的性能数据确定;接收目标信息获取服务器发送的目标信息。
可见,通过本公开实施例提供的技术方案,对于任务集中的任一目标任务,能够选取到当前信息处理性能较高的目标信息获取服务器,可以提高目标任务的处理效率,且由于目标任务用于指示通过多链接获取对应的目标信息,因此提高了信息获取效率。并且,通过将一个目标任务分配到一个目标信息获取服务器,可以最大限度地减少通信的时间,进一步提高了信息获取效率。
根据本公开实施例的第四方面,提供了一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行第一方面所述的方法。
本公开实施例提供的技术方案,生成任务集,其中,任务集中的每个任务用于指示通过多条链接获取对应的目标信息;从任务集中获取目标任务;基于各个信息获取服务器的当前信息处理性能,确定处理目标任务的目标信息获取服务器,以使得目标信息获取服务器处理目标任务;其中,目标信息获取服务器的当前信息处理性能高于其他信息获取服务器的当前信息处理性能,每个信息获取服务器的当前信息处理性能基于该信息获取服务器处理历史任务所得的与性能相关的性能数据确定;接收目标信息获取服务器发送的目标信息。
可见,通过本公开实施例提供的技术方案,对于任务集中的任一目标任务,能够选取到当前信息处理性能较高的目标信息获取服务器,可以提高目标任务的处理效率,且由于目标任务用于指示通过多链接获取对应的目标信息,因此提高了信息获取效率。并且,通过将一个目标任务分配到一个目标信息获取服务器,可以最大限度地减少通信的时间,进一步提高了信息获取效率。
根据本公开实施例的第五方面,提供了一种计算机程序产品,当其在计算机上运行时,使得计算机实现第一方面所述的方法。
本公开实施例提供的技术方案,生成任务集,其中,任务集中的每个任务用于指示通过多条链接获取对应的目标信息;从任务集中获取目标任务;基于各个信息获取服务器的当前信息处理性能,确定处理目标任务的目标信息获取服务器,以使得目标信息获取服务器处理目标任务;其中,目标信息获取服务器的当前信息处理性能高于其他信息获取服务器的当前信息处理性能,每个信息获取服务器的当前信息处理性能基于该信息获取服务器处理历史任务所得的与性能相关的性能数据确定;接收目标信息获取服务器发送的目标信息。
可见,通过本公开实施例提供的技术方案,对于任务集中的任一目标任务,能够选取到当前信息处理性能较高的目标信息获取服务器,可以提高目标任务的处理效率,且由于目标任务用于指示通过多链接获取对应的目标信息,因此提高了信息获取效率。并且,通过将一个目标任务分配到一个目标信息获取服务器,可以最大限度地减少通信的时间,进一步提高了信息获取效率。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (16)

1.一种信息获取方法,其特征在于,包括:
生成任务集,所述任务集中的每个任务用于指示通过多条链接获取对应的目标信息;所述多条链接为将种子链接和由种子链接延伸出来的其他链接串行起来组成的链接组;
从所述任务集中获取目标任务;
基于各个信息获取服务器的当前信息处理性能,确定处理所述目标任务的目标信息获取服务器,以使得所述目标信息获取服务器处理所述目标任务;所述目标信息获取服务器的当前信息处理性能高于其他信息获取服务器的当前信息处理性能,每个所述信息获取服务器的当前信息处理性能基于所述信息获取服务器处理历史任务所得的与性能相关的性能数据确定;
接收所述目标信息获取服务器发送的目标信息。
2.根据权利要求1所述的方法,其特征在于,所述生成任务集,包括:
确定获取目标信息所需要的第一链接;
确定所述第一链接所对应的第二链接,所述第二链接为获取所述目标信息时所述第一链接的直接跳转链接和/或间接跳转链接;
基于所述第一链接和所述第二链接的跳转顺序,生成所述任务集中的一个任务;所述任务集中的一个任务用于指示通过所述第一链接和所述第二链接获取所述目标信息。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一链接和所述第二链接的跳转顺序,生成所述任务集中的一个任务,包括:
确定所述第二链接的数量;
在所述第二链接的数量大于预设数量时,根据所述第一链接和所述第二链接的跳转顺序以及所述预设数量,将所述第一链接和所述第二链接划分为多个链接分组;每个链接分组所包括的链接在所述跳转顺序中的序号具有连续性,且每个链接分组所包括的链接的数量小于等于所述预设数量;
基于所述多个链接分组生成多个子任务,并将所述多个子任务确定为所述任务集的一个任务;每一子任务对应一个链接分组,且每个子任务用于指示通过对应的链接分组中的第一链接和第二链接获取所述目标信息。
4.根据权利要求2所述的方法,其特征在于,所述基于所述第一链接和所述第二链接的跳转顺序,生成所述任务集中的一个任务,包括:
确定所述第一链接和所述第二链接的处理优先级;
基于所述第一链接和所述第二链接的处理优先级,调整所述第一链接和所述第二链接的跳转顺序;其中,处理优先级高的链接在所述跳转顺序中的序号小于处理优先级低的链接在所述跳转顺序中的序号;
基于调整后的所述第一链接和所述第二链接的跳转顺序,生成所述任务集中的一个任务。
5.根据权利要求1至4任一项所述的方法,其特征在于,还包括:
在所述接收所述目标信息获取服务器发送的目标信息之后,将所述目标任务的任务处理状态由未处理状态更新为已处理状态;
存储所述目标任务对应的所述目标信息获取服务器的服务器标识,所述目标信息获取服务器处理所述目标任务的开始时间和结束时间。
6.根据权利要求5所述的方法,其特征在于,还包括:
获取各个信息获取服务器处理历史任务所得的与性能相关的第一性能数据和/或第二性能数据,所述第一性能数据用于表征信息获取服务器的空闲程度,所述第二性能数据用于表征信息获取服务器获取信息所消耗的平均时长;
基于各个信息获取服务器的第一性能数据和/或第二性能数据,确定各个信息获取服务器的当前信息处理性能。
7.根据权利要求6所述的方法,其特征在于,所述获取各个信息获取服务器处理历史任务所得的与性能相关的第一性能数据和/或第二性能数据,包括:
获取各个信息获取服务器处理历史任务过程中的空闲CPU占比、内存空闲率和带宽利用率;
基于各个信息获取服务器的空闲CPU占比、内存空闲量和带宽利用率,确定各个信息获取服务器处理历史任务过程中的第一性能数据;
获取各个信息获取服务器处理历史任务过程中获取每条信息对应的开始时间和结束时间;
基于所述每条信息对应的开始时间和结束时间,计算各个信息获取服务器获取每条信息对应的平均时长,并基于获取每条信息对应的平均时长确定相应信息获取服务器的第二性能数据。
8.一种信息获取装置,其特征在于,包括:
任务集生成模块,被配置为执行生成任务集,所述任务集中的每个任务用于指示通过多条链接获取对应的目标信息;所述多条链接为将种子链接和由种子链接延伸出来的其他链接串行起来组成的链接组;
任务获取模块,被配置为执行从所述任务集中获取目标任务;
信息获取服务器确定模块,被配置为执行基于各个信息获取服务器的当前信息处理性能,确定处理所述目标任务的目标信息获取服务器,以使得所述目标信息获取服务器处理所述目标任务;所述目标信息获取服务器的当前信息处理性能高于其他信息获取服务器的当前信息处理性能,每个所述信息获取服务器的当前信息处理性能基于所述信息获取服务器处理历史任务所得的与性能相关的性能数据确定;
信息接收模块,被配置为执行接收所述目标信息获取服务器发送的目标信息。
9.根据权利要求8所述的装置,其特征在于,所述任务集生成模块,包括:
第一链接确定单元,被配置为执行确定获取目标信息所需要的第一链接;
第二链接确定单元,被配置为执行确定所述第一链接所对应的第二链接,所述第二链接为获取所述目标信息时所述第一链接的直接跳转链接和/或间接跳转链接;
任务集生成单元,被配置为执行基于所述第一链接和所述第二链接的跳转顺序,生成所述任务集中的一个任务;所述任务集中的一个任务用于指示通过所述第一链接和所述第二链接获取所述目标信息。
10.根据权利要求9所述的装置,其特征在于,所述任务集生成单元,具体被配置为执行:
确定所述第二链接的数量;
在所述第二链接的数量大于预设数量时,根据所述第一链接和所述第二链接的跳转顺序以及所述预设数量,将所述第一链接和所述第二链接划分为多个链接分组;每个链接分组所包括的链接在所述跳转顺序中的序号具有连续性,且每个链接分组所包括的链接的数量小于等于所述预设数量;
基于所述多个链接分组生成多个子任务,并将所述多个子任务确定为所述任务集的一个任务;每一子任务对应一个链接分组,且每个子任务用于指示通过对应的链接分组中的第一链接和第二链接获取所述目标信息。
11.根据权利要求9所述的装置,其特征在于,所述任务集生成单元,具体被配置为执行:
确定所述第一链接和所述第二链接的处理优先级;
基于所述第一链接和所述第二链接的处理优先级,调整所述第一链接和所述第二链接的跳转顺序;其中,处理优先级高的链接在所述跳转顺序中的序号小于处理优先级低的链接在所述跳转顺序中的序号;
基于调整后的所述第一链接和所述第二链接的跳转顺序,生成所述任务集中的一个任务。
12.根据权利要求8至11任一项所述的装置,其特征在于,还包括:
任务处理状态更新模块,被配置为执行在所述接收所述目标信息获取服务器发送的目标信息之后,将所述目标任务的任务处理状态由未处理状态更新为已处理状态;
数据存储模块,被配置为执行存储所述目标任务对应的所述目标信息获取服务器的服务器标识,所述目标信息获取服务器处理所述目标任务的开始时间和结束时间。
13.根据权利要求12所述的装置,其特征在于,还包括:
性能数据获取模块,被配置为执行获取各个信息获取服务器处理历史任务所得的与性能相关的第一性能数据和/或第二性能数据,所述第一性能数据用于表征信息获取服务器的空闲程度,所述第二性能数据用于表征信息获取服务器获取信息所消耗的平均时长;
信息处理性能确定模块,被配置为执行基于各个信息获取服务器的第一性能数据和/或第二性能数据,确定各个信息获取服务器的当前信息处理性能。
14.根据权利要求13所述的装置,其特征在于,所述性能数据获取模块,具体被配置为执行:
获取各个信息获取服务器处理历史任务过程中的空闲CPU占比、内存空闲率和带宽利用率;
基于各个信息获取服务器的空闲CPU占比、内存空闲量和带宽利用率,确定各个信息获取服务器处理历史任务过程中的第一性能数据;
获取各个信息获取服务器处理历史任务过程中获取每条信息对应的开始时间和结束时间;
基于所述每条信息对应的开始时间和结束时间,计算各个信息获取服务器获取每条信息对应的平均时长,并基于获取每条信息对应的平均时长确定相应信息获取服务器的第二性能数据。
15.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7任一项所述的方法。
16.一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至7任一项所述的方法。
CN202210646102.5A 2022-06-09 2022-06-09 一种信息获取方法、装置、电子设备及存储介质 Active CN115208890B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210646102.5A CN115208890B (zh) 2022-06-09 2022-06-09 一种信息获取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210646102.5A CN115208890B (zh) 2022-06-09 2022-06-09 一种信息获取方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN115208890A CN115208890A (zh) 2022-10-18
CN115208890B true CN115208890B (zh) 2024-04-30

Family

ID=83576614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210646102.5A Active CN115208890B (zh) 2022-06-09 2022-06-09 一种信息获取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115208890B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298616A (zh) * 2011-07-29 2011-12-28 百度在线网络技术(北京)有限公司 一种用于在搜索结果中提供相关子链接的方法和设备
CN110428124A (zh) * 2019-06-10 2019-11-08 平安科技(深圳)有限公司 任务分配方法、任务分配装置、存储介质及计算机设备
CN110781432A (zh) * 2019-10-08 2020-02-11 北京字节跳动网络技术有限公司 页面跳转方法、装置、电子设备及计算机可读存储介质
CN111767481A (zh) * 2019-11-01 2020-10-13 北京京东尚科信息技术有限公司 访问处理方法、装置、设备和存储介质
CN112035258A (zh) * 2020-08-31 2020-12-04 中国平安财产保险股份有限公司 数据处理方法、装置、电子设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298616A (zh) * 2011-07-29 2011-12-28 百度在线网络技术(北京)有限公司 一种用于在搜索结果中提供相关子链接的方法和设备
CN110428124A (zh) * 2019-06-10 2019-11-08 平安科技(深圳)有限公司 任务分配方法、任务分配装置、存储介质及计算机设备
CN110781432A (zh) * 2019-10-08 2020-02-11 北京字节跳动网络技术有限公司 页面跳转方法、装置、电子设备及计算机可读存储介质
CN111767481A (zh) * 2019-11-01 2020-10-13 北京京东尚科信息技术有限公司 访问处理方法、装置、设备和存储介质
CN112035258A (zh) * 2020-08-31 2020-12-04 中国平安财产保险股份有限公司 数据处理方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN115208890A (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
CN108920153B (zh) 一种基于负载预测的Docker容器动态调度方法
CN112162865A (zh) 服务器的调度方法、装置和服务器
CN110474852B (zh) 一种带宽调度方法及装置
CN111966289B (zh) 基于Kafka集群的分区优化方法和系统
CN111209310B (zh) 基于流计算的业务数据处理方法、装置和计算机设备
WO2013185175A1 (en) Predictive analytics for resource provisioning in hybrid cloud
CN111459641B (zh) 一种跨机房的任务调度和任务处理的方法及装置
CN106815254A (zh) 一种数据处理方法和装置
CN111158892A (zh) 一种任务队列生成方法、装置及设备
GB2463546A (en) Handling malfunction/trouble in an information system comprising prioritising, searching and recommending previously executed trouble handling methods
CN115208890B (zh) 一种信息获取方法、装置、电子设备及存储介质
CN111953567B (zh) 一种配置多集群管理软件参数的方法、系统、设备及介质
CN113220427A (zh) 任务调度方法、装置、计算机设备及存储介质
CN117076133A (zh) 云游戏平台异构资源分配方法、计算机装置及存储介质
CN112347394A (zh) 网页信息的获取方法、装置、计算机设备和存储介质
CN113448747B (zh) 数据传输方法、装置、计算机设备和存储介质
Mansouri An effective weighted data replication strategy for data grid
CN116185578A (zh) 计算任务的调度方法和计算任务的执行方法
CN111813542B (zh) 一种并行处理大规模图分析任务的负载均衡方法及其装置
US10091068B1 (en) System for modeling distributed systems
CN114546631A (zh) 任务调度方法、控制方法、核心、电子设备、可读介质
CN111782688A (zh) 基于大数据分析的请求处理方法、装置、设备及存储介质
US20210216364A1 (en) Method, device, and computer program product for executing a job in an application system
CN115982240A (zh) 时序数据的处理方法、电子设备和存储介质
RU2797263C1 (ru) Система активной доставки информации, способ и устройство, устройство и носитель данных

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant