CN117763247A - 链接下载方法、装置、计算机设备和存储介质 - Google Patents
链接下载方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN117763247A CN117763247A CN202311673467.8A CN202311673467A CN117763247A CN 117763247 A CN117763247 A CN 117763247A CN 202311673467 A CN202311673467 A CN 202311673467A CN 117763247 A CN117763247 A CN 117763247A
- Authority
- CN
- China
- Prior art keywords
- character string
- downloaded
- link
- public
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012790 confirmation Methods 0.000 claims abstract description 37
- 238000004590 computer program Methods 0.000 claims abstract description 25
- 238000004458 analytical method Methods 0.000 claims description 43
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000009193 crawling Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 239000002699 waste material Substances 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本申请涉及一种链接下载方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取待下载链接,获取已下载链接集对应的公共字符串表;将待下载链接与公共字符串表中的各个参考公共字符串进行匹配,得到公共字符串表中与待下载链接匹配的目标公共字符串;基于目标公共字符串,在待下载链接中确定目标关键字符串;将目标关键字符串与目标公共字符串对应的参考关键字符串集进行匹配,得到匹配结果;参考关键字符串集是基于已下载链接集中包含目标公共字符串的已下载链接得到的;基于匹配结果,确定待下载链接对应的下载确认操作。采用本方法能够节约计算机资源。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种链接下载方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着计算机技术的发展,出现了网页链接爬取技术,为了更好地研究某一领域的知识,往往需要爬取相关的网页链接,对爬取得到的网页链接中的网页数据进行下载,基于下载得到的网页数据进行数据分析。
然而,传统方法在爬取网页链接的过程中,需要爬取下载大量的网页数据,带来了很大的带宽资源消耗,并且由于爬取的网页链接存在很大的随机性,存在大量的重复下载情况,导致计算机资源的浪费。
发明内容
基于此,有必要针对上述技术问题,提供一种能够节约计算机资源的链接下载方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
本申请提供了一种链接下载方法。所述方法包括:
获取待下载链接,获取已下载链接集对应的公共字符串表;
将待下载链接与公共字符串表中的各个参考公共字符串进行匹配,得到公共字符串表中与待下载链接匹配的目标公共字符串;
基于目标公共字符串,在待下载链接中确定目标关键字符串;
将目标关键字符串与目标公共字符串对应的参考关键字符串集进行匹配,得到匹配结果;参考关键字符串集是基于已下载链接集中包含目标公共字符串的已下载链接得到的;
基于匹配结果,确定待下载链接对应的下载确认操作。
本申请还提供了一种链接下载装置。所述装置包括:
链接获取模块,用于获取待下载链接,获取已下载链接集对应的公共字符串表;
公共字符串确定模块,用于将待下载链接与公共字符串表中的各个参考公共字符串进行匹配,得到公共字符串表中与待下载链接匹配的目标公共字符串;
关键字符串确定模块,用于基于目标公共字符串,在待下载链接中确定目标关键字符串;
匹配结果确定模块,用于将目标关键字符串与目标公共字符串对应的参考关键字符串集进行匹配,得到匹配结果;参考关键字符串集是基于已下载链接集中包含目标公共字符串的已下载链接得到的;
下载确认操作确定模块,用于基于匹配结果,确定待下载链接对应的下载确认操作。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述链接下载方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述链接下载方法的步骤。
一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现上述链接下载方法的步骤。
上述链接下载方法、装置、计算机设备、存储介质和计算机程序产品,通过获取待下载链接,已下载链接对应的公共字符串表。将待下载链接与公共字符串表中各个参考公共字符串进行匹配,得到公共字符串表中与待下载链接匹配的目标公共字符串。基于目标公共字符串,在待下载链接中确定目标关键字符串。将目标关键字符串与目标公共字符串对应的参考关键字符串集进行匹配,得到匹配结果。参考关键字符串集是基于已下载链接集中包含目标公共字符串的已下载链接得到的。进而根据匹配结果,确定待下载链接对应的下载确认操作。是由于同一链接数据可以对应不同的访问链接,若对同一链接数据对应的不同的访问链接均进行资源下载操作,会导致重复下载相同的链接数据,造成下载资源的浪费。因此对于爬取到的各个链接,可以通过公共字符串将各个链接进行初步分类,进而根据链接中的关键字符串,将包含同一公共字符串的各个链接划分为不同链接数据所对应的链接。是由于针对包含同一公共字符串的各个链接,同一链接数据对应的各个不同的访问链接所包含的关键字符串是相同的,因此可以通过关键字符串对同一公共字符串对应的各个链接进行进一步划分。这样,在获取到待下载链接时,在公共字符串表中查找待下载链接对应的目标公共字符串,进而将待下载链接对应的目标关键字符串与目标公共字符串所对应的参考关键字符串集进行匹配,确定待下载链接是否为首次下载,进而基于匹配结果,确定待下载链接对应的下载确认操作,能够避免对同一链接数据进行重复下载,节约计算机资源。
附图说明
图1为一个实施例中链接下载方法的应用环境图;
图2为一个实施例中链接下载方法的流程示意图;
图3为一个实施例中获取公共字符串表步骤的流程示意图;
图4为另一个实施例中链接下载方法的流程示意图;
图5为一个实施例中链接下载装置的结构框图;
图6为一个实施例中链接下载装置的结构框图;
图7为一个实施例中计算机设备的内部结构图;
图8为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的链接下载方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能电视、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
终端和服务器均可单独用于执行本申请实施例中提供的链接下载方法。
例如,终端获取待下载链接,获取已下载链接集对应的公共字符串表。终端将待下载链接与公共字符串表中的各个参考公共字符串进行匹配,得到公共字符串表中与待下载链接匹配的目标公共字符串。终端基于目标公共字符串,在待下载链接中确定目标关键字符串。终端将目标关键字符串与目标公共字符串对应的参考关键字符串集进行匹配,得到匹配结果,参考关键字符串集是基于已下载链接集中包含目标公共字符串的已下载链接得到的。终端基于匹配结果,确定待下载链接对应的下载确认操作。
终端和服务器也可协同用于执行本申请实施例中提供的链接下载方法。
例如,终端向服务器发送待下载链接。服务器获取已下载链接集对应的公共字符串表。服务器将待下载链接与公共字符串表中的各个参考公共字符串进行匹配,得到公共字符串表中与待下载链接匹配的目标公共字符串。服务器基于目标公共字符串,在待下载链接中确定目标关键字符串。服务器将目标关键字符串与目标公共字符串对应的参考关键字符串集进行匹配,得到匹配结果,参考关键字符串集是基于已下载链接集中包含目标公共字符串的已下载链接得到的。服务器将匹配结果发送至终端。终端基于匹配结果,确定待下载链接对应的下载确认操作。
在一个实施例中,如图2所示,提供了一种链接下载方法,以该方法应用于计算机设备为例进行说明,计算机设备可以是终端或服务器,由终端或服务器自身单独执行,也可以通过终端和服务器之间的交互来实现。链接下载方法包括以下步骤:
步骤S202,获取待下载链接,获取已下载链接集对应的公共字符串表。
其中,待下载链接是指爬取到的、需要分析是否进行链接数据下载处理的链接。例如,待下载链接可以是视频链接、图片链接、文档链接等网页链接,在爬取到链接后,可以下载链接中包含的视频、图片或文档等链接数据用于进行数据分析。已下载链接集是指包含已经爬取到的、并进行了链接数据下载处理的各个链接的集合。公共字符串表是指记录了已下载链接集中各个链接分别对应的公共字符串的数据表。公共字符串表中记录的各个公共字符串即为参考公共字符串。
示例性地,由于同一链接数据可以对应不同的访问链接,在爬取网页链接时,若对同一链接数据对应的不同的访问链接均进行资源下载操作,会导致重复下载相同的链接数据,造成下载资源的浪费。因此,计算机获取到待下载链接后,进一步获取已下载链接集对应的公共字符串表,基于公共字符串表确定是否对待下载链接中包含的链接数据进行下载。
步骤S204,将待下载链接与公共字符串表中的各个参考公共字符串进行匹配,得到公共字符串表中与待下载链接匹配的目标公共字符串。
其中,目标公共字符串是指待下载链接所包含的公共字符串。
示例性地,计算机设备将待下载链接与公共字符串表中的各个参考公共字符串进行匹配,确定与待下载链接匹配度最高的参考公共字符串作为目标公共字符串。具体地,将待下载链接与公共字符串表中的各个参考公共字符串进行比对,在公共字符串表中确定待下载链接所包含的参考公共字符串。若待下载链接仅包含公共字符串表中的一个参考公共字符串,则直接将该参考公共字符串作为目标公共字符串。若待下载链接包含公共字符串表中的多个参考公共字符串,则将字符串长度最长的参考公共字符串作为待下载链接对应的目标公共字符串。
步骤S206,基于目标公共字符串,在待下载链接中确定目标关键字符串。
其中,关键字符串是指链接中包含的字符串,根据链接中的关键字符串,将包含同一公共字符串的各个链接划分为不同链接数据所对应的链接,是由于针对包含同一公共字符串的各个链接,同一链接数据对应的各个不同的访问链接所包含的关键字符串是相同的,因此可以通过关键字符串对同一公共字符串对应的各个链接进行进一步划分。
示例性地,计算机设备在获取到待下载链接对应的目标公共字符串后,基于预设分割字符将待下载链接切分为多个字符串,将目标公共字符串在待下载链接中对应的后向字符串,也就是目标公共字符串在待下载链接中对应的下一个字符串作为目标关键字符串。预设分割字符是指预设的用于切分链接得到多个字符串的字符,例如,可以将“/”作为预设分割字符。例如,针对待下载链接https://www.aaa.com/video/BVdj232xb/?spm_id_fromxxx,若https://www.aaa.com/video/为目标公共字符串,则将BVdj232xb作为目标关键字符串。
步骤S208,将目标关键字符串与目标公共字符串对应的参考关键字符串集进行匹配,得到匹配结果;参考关键字符串集是基于已下载链接集中包含目标公共字符串的已下载链接得到的。
其中,匹配结果用于指示目标公共字符串对应的参考关键字符串集中是否包含与目标关键字符串匹配的参考关键字符串,也就是指示待下载链接对应的链接数据是否已经下载过。目标公共字符串对应的参考关键字符串集是指,包含已下载链接集中、目标公共字符串对应的各个已下载链接分别所对应的关键字符串的集合,用于指示目标公共字符串对应的已经下载过的链接。
示例性地,计算机设备将目标关键字符串与目标公共字符串对应的参考关键字符串集进行匹配,若目标公共字符串对应的参考关键字符串集中包含目标关键字符串,则确定匹配结果为匹配成功,若目标公共字符串对应的参考关键字符串集中不包含目标关键字符串,则确定匹配结果为匹配失败。
步骤S210,基于匹配结果,确定待下载链接对应的下载确认操作。
其中,下载确认操作是指确认是否要下载待下载链接所对应的链接数据的操作。
示例性地,当匹配结果为匹配失败时,表明待下载链接对应的链接数据没有下载过,因此确认需要下载待下载链接对应的链接数据,并下载待下载链接中所包含的链接数据。当匹配结果为匹配成功时,则表明待下载链接对应的链接数据已经下载过,因此,确认无需下载待下载链接对应的链接数据。
上述链接下载方法中,通过获取待下载链接,已下载链接对应的公共字符串表。将待下载链接与公共字符串表中各个参考公共字符串进行匹配,得到公共字符串表中与待下载链接匹配的目标公共字符串。基于目标公共字符串,在待下载链接中确定目标关键字符串。将目标关键字符串与目标公共字符串对应的参考关键字符串集进行匹配,得到匹配结果。参考关键字符串集是基于已下载链接集中包含目标公共字符串的已下载链接得到的。进而根据匹配结果,确定待下载链接对应的下载确认操作。是由于同一链接数据可以对应不同的访问链接,若对同一链接数据对应的不同的访问链接均进行资源下载操作,会导致重复下载相同的链接数据,造成下载资源的浪费。因此对于爬取到的各个链接,可以通过公共字符串将各个链接进行初步分类,进而根据链接中的关键字符串,将包含同一公共字符串的各个链接划分为不同链接数据所对应的链接。是由于针对包含同一公共字符串的各个链接,同一链接数据对应的各个不同的访问链接所包含的关键字符串是相同的,因此可以通过关键字符串对同一公共字符串对应的各个链接进行进一步划分。这样,在获取到待下载链接时,在公共字符串表中查找待下载链接对应的目标公共字符串,进而将待下载链接对应的目标关键字符串与目标公共字符串所对应的参考关键字符串集进行匹配,确定待下载链接是否为首次下载,进而基于匹配结果,确定待下载链接对应的下载确认操作,能够避免对同一链接数据进行重复下载,能够避免对同一链接数据进行重复下载,节约计算机资源。
在一个实施例中,如图3所示,获取已下载链接集对应的公共字符串表,包括:
步骤S302,对已下载链接集中的各个已下载链接进行域名归类,得到多个参考域名分别对应的已下载链接子集。
步骤S304,针对各个参考域名中的当前域名,将当前域名在已下载链接子集中对应的字符串作为当前域名所对应的初始公共字符串。
步骤S306,提取当前域名对应的初始公共字符串在已下载链接子集中所对应的后向字符串集;后向字符串集中的后向字符串基于预设分割字符对已下载链接进行切分得到的。
步骤S308,对当前域名对应的后向字符串集进行共性分析,得到共性分析结果。
步骤S310,当共性分析结果包括非共性字符串集时,将初始公共字符串作为当前域名对应的参考公共字符串。
步骤S312,当共性分析结果包括共性字符串集时,将共性字符串集中的各个后向字符串分别与初始公共字符串拼接,得到当前域名对应的更新公共字符串,将更新公共字符串作为当前域名对应的初始公共字符串,返回提取当前域名对应的初始公共字符串在已下载链接子集中所对应的后向字符串集的步骤执行,直至满足结束条件,将最终的初始公共字符串作为当前域名对应的参考公共字符串。
步骤S314,基于各个参考域名分别对应的参考公共字符串,得到已下载链接集对应的公共字符串表。
其中,参考域名是指各个链接中包含的域名所对应的字符串。例如,对于链接https://www.aaa.com/video/BVdj232xb/?spm_id_fromxxx,www.aaa.com为参考域名。预设分割字符是指预设的用于切分链接得到多个字符串的字符,例如,可以将“/”作为预设分割字符,针对链接https://www.aaa.com/video/xx/yy,基于“/”切分为字符串“https:/”、“www.aaa.com”、“video”、“xx”和“yy”。初始字符串对应的后向字符串是指初始字符串在链接中对应的下一个字符串,例如,针对链接https://www.aaa.com/video/xx/yy,“www.aaa.com”对应的后向字符串为“video”。共性分析结果是指对后向字符串集进行共性分析得到的结果,共性分析结果由共性字符串集、非共性字符串集中至少一者组成。
共性字符串集是指由后向字符串集中具有共性的各个后向字符串组成的数据集,从后向字符串集中提取具有共性的各个后向字符串后,剩余的各个后向字符串组成的数据集即为非共性字符串集。例如,对于链接https://www.aaa.com/video1/x、https://www.aaa.com/video1/x、https://www.aaa.com/video2/x、https://www.aaa.com/video2/x,其中x代表任意字符串,对后向字符串集“video1,video1,video2,video2”进行共性分析,得到共性字符串集“video1,video1”和“video2,video2”,此时,共性字符串集为相同的后向字符串组成的序列,在后向字符串集中的各个后向字符串的语义信息差异较大的情况下,共性字符串集也可以由语义信息相似的各个字符串组成。
示例性地,计算机设备提取已下载链接集中的各个已下载链接分别对应的参考域名,基于已下载链接对应的域名对各个已下载链接进行域名归类,基于同一参考域名对应的各个已下载链接,分别得到各个参考域名对应的已下载链接子集。将各个参考域名中任意一个参考域名作为当前域名,将当前域名在已下载链接中对应的字符串作为当前域名对应的初始公共字符串。例如,www.aaa.com为当前域名,在链接https://www.aaa.com/video/BVdj232xb/?spm_id_fromxxx中,当前域名对应的字符串为https://www.aaa.com/。进而基于预设分割字符,将当前域名对应的已下载链接子集包含的每个已下载链接切分为多个字符串。提取初始公共字符串在当前域名对应的已下载链接子集所包含的各个已下载链接中分别所对应的后向字符串,由各个已下载链接分别对应的后向字符串组成当前域名对应的后向字符串集。进而对当前域名对应的后向字符串集进行共性分析,在后向字符串集中提取共性字符串集和非共性字符串集,得到共性分析结果。
当共性分析结果中包括非共性字符串集时,计算机设备将初始公共字符串作为当前域名对应的一个参考公共字符串。此时,非共性字符串集中的各个后向字符串即为初始公共字符串对应的参考关键字符串集。
当共性分析结果中包括共性字符串集时,计算机设备将共性字符串集中的各个共性字符串分别与初始公共字符串拼接,得到当前域名对应的更新公共字符串。例如,当前域名对应的初始公共字符串为https://www.aaa.com/,若当前域名对应的两个共性字符串集分别为“video1,video1”和“video2,video2”,将共性字符串集中的各个后向字符串与初始公共字符串拼接得到两个更新公共字符串https://www.aaa.com/video1和https://www.aaa.com/video2;若当前域名对应的共性字符串集包含的是语义信息相似的不同的字符串,则将共性字符串集中的各个后向字符串分别与初始公共字符串拼接,得到当前域名对应的多个更新公共字符串。将得到的更新公共字符串作为当前域名对应的初始公共字符串,返回提取当前域名对应的初始公共字符串在已下载链接子集中所对应的后向字符串集的步骤执行,直至满足结束条件,即每个最新的初始公共字符串对应的共性分析结果中只包含非共性字符串集,将最终得到的各个初始公共字符串、即最新的各个初始公共字符串作为当前域名对应的参考公共字符串。当前域名对应的各个参考公共字符串组成当前域名对应的参考公共字符串集。
举例说明,参考域名www.aaa.com对应的已下载链接子集包括https://www.aaa.com/video/ BV1dj411a7xb /x,https://www.aaa.com/video/ rttyh4546 /x,https://www.aaa.com/video/ ggh565s /x,https://www.aaa.com/video1/89jrwerwe /x,https://www.aaa.com/video1/ 356sdd /x其中x代表任意字符串。参考域名对应的初始公共字符串为https://www.aaa.com,对初始公共字符串对应的后向字符串集进行共性分析得到两个共性字符串集“video,video,video”和“video1,video1”。将共性字符串集中的各个字符串分别与初始公共字符串拼接,得到两个更新公共字符串https://www.aaa.com/video/和https://www.aaa.com/video1/。进而将更新公共字符串作为初始公共字符串,继续确定各个初始公共字符串分别对应的后向字符串集。初始公共字符串https://www.aaa.com/video/对应的后向字符串集为“BV1dj411a7xb,rttyh4546”,初始公共字符串https://www.aaa.com/video1/对应的后向字符串集为“ggh565s,89jrwerwe,356sdd”。对各个后向字符串集进行共性分析,得到的共性分析结果表明“BV1dj411a7xb,rttyh4546”和“ggh565s,89jrwerwe,356sdd”均为非共性字符串集,则说明https://www.aaa.com/video/https://www.aaa.com/video1/均为域名www.aaa.com对应的参考公共字符串。针对与参考公共字符串匹配的链接https://www.aaa.com/video/ BV1dj411a7xb /x和链接https://www.aaa.com/video/ rttyh4546 /x,二者分别对应的链接数据是不同的。并且,https://www.aaa.com/video/ BV1dj411a7xb /x中x为任意字符串,也就是只要链接中包含参考公共字符串https://www.aaa.com/video/,并且参考公共字符串在链接中对应的后向字符串为BV1dj411a7xb,满足上述条件的链接均对应相同的链接数据,也就是链接中后向字符串BV1dj411a7xb对应的下一个字符串可以为任何字符串。可以理解,“ggh565s,89jrwerwe,356sdd”为参考公共字符串https://www.aaa.com/video/对应的参考关键字符串集,“ggh565s,89jrwerwe,356sdd”为参考公共字符串https://www.aaa.com/video1/对应的参考关键字符串集。
计算机设备通过同样的方法,将其他各个参考域名分别作为当前域名,通过相同的方法确定其他各个参考域名分别对应的参考公共字符串集。各个参考域名分别对应的参考公共字符串集组成已下载链接集对应的公共字符串表。
上述实施例中,首先基于已下载链接集中的各个已下载链接分别对应的域名,对已下载链接集中的各个已下载链接划分为不同参考域名分别对应的已下载链接子集。基于参考域名对应的已下载链接子集,提取参考域名对应的初始公共字符串对应的后向字符串集,对后向字符串集进行共性分析,能够快速、准确地逐步确定参考域名对应的各个参考公共字符串。进而,在获取到待下载链接时,可以在公共字符串集中查找与待下载链接匹配的目标公共字符串,基于目标公共字符串对应的参考关键字符串集,确定待下载链接对应的链接数据是否已经下载过,从而避免重复下载相同的链接数据,有效节约计算机资源。
在一个实施例中,对当前域名对应的后向字符串集进行共性分析,得到共性分析结果,包括:
提取后向字符串集中各个后向字符串分别对应的语义信息;比对后向字符串集中各个后向字符串分别对应的语义信息,确定各个后向字符串分别对应的字符串类型;字符串类型为共性字符串或非共性字符串;当后向字符串集中不存在非共性字符串时,将后向字符串集中语义信息相同的共性字符串划分至同一字符串集中,得到共性字符串集,将共性字符串集作为共性分析结果;当后向字符串集中存在非共性字符串时,将后向字符串集中语义信息相同的共性字符串划分至同一字符串集中,得到共性字符串集,将后向字符串集中语义信息不同的非共性字符串划分至同一字符串集中,得到非共性字符串集,将共性字符串集和非共性字符串集作为共性分析结果。
示例性地,计算机设备提取并比对后向字符串集中各个后向字符串分别对应的语义信息,确定各个后向字符串分别对应的字符串类型。具体地,针对后向字符串集中的字符串,若后向字符串集中存在其他的与自身语义信息相同的字符串,则该字符串为共性字符串,若后向字符串集中不存在与自身语义信息相同的字符串,则该字符串为非共性字符串。将语义信息相同的各个共性字符串划分至同一字符串集,得到共性字符串集,将各个非共性字符串划分至同一字符串集,得到非共性字符串集。将划分得到的共性字符串集和非共性字符串集作为共性分析结果。
上述实施例中,通过分析后向字符串集中各个字符串的语义信息,将相同语义信息的字符串划分至同一共性字符串集中,将后向字符串集中剩余的各个共性字符串划分至非共性字符串集中。这样能够快速、准确地实现对后向字符串集的共性分析。
在一个实施例中,将待下载链接与公共字符串表中的各个参考公共字符串进行匹配,得到公共字符串表中与待下载链接匹配的目标公共字符串,包括:
识别待下载链接对应的目标资源类型;将待下载链接与目标资源类型在公共字符串表中对应的多个参考公共字符串进行匹配,得到公共字符串表中与待下载链接匹配的目标公共字符串。
其中,目标资源类型是指待下载链接对应的链接数据的类型,例如当待下载链接为图片链接时,目标资源类型为图片类型,当待下载链接为视频链接时,目标资源类型为视频类型,等等。
示例性地,计算机设备在获取到待下载链接后,识别待下载链接对应的资源类型。公共字符串表中可以记录多种资源类型分别对应的参考公共字符串,例如,公共字符串表中可以包括图片链接、视频链接、文本链接等不同资源类型的链接分别对应的参考公共字符串。因此,在获取到待下载链接后,可以根据待下载链接对应的目标资源类型,将待下载链接与公共字符串表中目标资源类型对应的各个参考公共字符串进行匹配,从而得到待下载链接对应的目标公共字符串。
上述实施例中,在爬取的链接包括多种资源类型的链接时,可以根据链接所对应的资源类型,区分公共字符串表中的各个参考公共字符串。在获取到待下载链接时,直接将目标资源类型对应的各个参考公共字符串分别与待下载链接进行匹配,能够缩小匹配范围,提高查找目标公共字符串的效率。
在一个实施例中,链接下载方法还包括:
基于预设分割字符将已下载链接集中的已下载链接切分为多个参考字符串,分别得到已下载链接集中各个已下载链接对应的参考字符串序列;从已下载链接所属参考域名在公共字符串表中对应的参考公共字符串中,确定已下载链接对应的参考公共字符串,分别得到已下载链接集中各个已下载链接对应的参考公共字符串;提取已下载链接对应的参考公共字符串在参考字符串序列中对应的后向字符串,作为已下载链接对应的参考关键字符串,分别得到已下载链接集中各个已下载链接对应的参考关键字符串;基于参考公共字符串对应的各个已下载链接分别对应的参考关键字符串,组成参考公共字符串对应的参考关键字符串集,分别得到公共字符串表中各个参考公共字符串对应的参考关键字符串集。
示例性地,计算机设备基于预设分割字符,将已下载链接集中的每个已下载链接切分为多个字符串,将各个字符串作为已下载链接对应的多个参考字符串,得到各个已下载字符串分别对应的参考字符串序列。进而从已下载链接所属参考域名在公共字符串表中对应的各个参考公共字符串中,确定已下载链接对应的参考公共字符串。具体地,若已下载链接仅包含公共字符串表中的一个参考公共字符串,则直接将该参考公共字符串作为目标公共字符串。若待下载链接包含公共字符串表中的多个参考公共字符串,则将字符串长度最长的参考公共字符串作为已下载链接对应的参考公共字符串。得到各个已下载链接分别对应的参考公共字符串后,提取已下载链接对应的参考公共字符串在参考字符串序列中对应的后向字符串,作为已下载链接对应的参考关键字符串。参考公共字符串对应的各个已下载链接分别对应的参考关键字符串,组成参考公共字符串对应的参考关键字符串集,得到公共字符串表中各个参考公共字符串分别对应的参考关键字符串集。
上述实施例中,基于预设分割字符切分已下载链接,将参考公共字符串在相应的各个已下载链接分别对应的参考字符串序列中所对应的后向字符串作为参考关键字符串,从而得到各个参考公共字符串分别对应的参考关键字符串集。在对待下载链接进行链接下载操作时,将待下载链接对应的目标关键字符串添加至目标公共字符串对应的参考关键字符串集中,能够实现对已下载的链接数据所对应的关键字符串的记录,从而避免重复下载相同的链接数据,有效节约计算机资源。
在一个实施例中,链接下载方法还包括:
当公共字符串表中不存在与待下载链接匹配的目标公共字符串时,基于待下载链接对应的参考域名获取待下载链接对应的多个候选链接;基于待下载链接和各个候选链接,提取待下载链接对应的目标公共字符串;基于待下载链接对应的目标公共字符串,在待下载链接中确定目标关键字符串;将待下载链接对应的目标公共字符串写入公共字符串表,基于待下载链接对应的目标关键字符串,得到待下载链接对应的目标公共字符串所对应的参考关键字符串集;确定待下载链接对应的下载确认操作为允许下载。
其中,待下载链接对应的候选链接是指基于参考域名爬取到的参考域名对应的其他的链接。
示例性地,当公共字符串表中不存在与待下载链接匹配的目标公共字符串时,基于待下载链接对应的参考域名,爬取参考域名对应的多个候选链接。基于参考域名对应的各个候选链接和待下载链接,提取待下载链接对应的目标公共字符串。具体地,将参考域名在链接中对应的字符串作为初始公共字符串,提取初始公共字符串在各个候选链接中分别对应的后向字符串,得到后向字符串集。对后向字符串集中的各个后向字符串进行共性分析,得到共性分析结果。当共性分析结果包括非共性字符串集时,将初始公共字符串作为参考域名对应的参考公共字符串。当共性分析结果包括共性字符串时,将共性字符串集中的各个后向字符串分别与初始公共字符串拼接,得到参考域名对应的更新公共字符串,将更新公共字符串作为参考域名对应的初始公共字符串,返回提取初始公共字符串在各个候选链接中分别对应的后向字符串的步骤执行,每个最新的初始公共字符串对应的共性分析结果中只包含非共性字符串集,将最终得到的各个初始公共字符串、即最新的各个初始公共字符串作为参考域名对应的参考公共字符串。在待下载链接对应的参考域名所对应的各个参考公共字符串中,确定与待下载链接匹配的参考公共字符串,作为待下载链接对应的目标公共字符串。
计算机设备将目标公共字符串在待下载链接中对应的后向字符串作为目标关键字符串。将待下载链接对应的目标公共字符串写入公共字符串表,将待下载链接对应的目标关键字符串记录在待下载链接对应的目标公共字符串所对应的参考关键字符串集中。由于公共字符串表中不存在待下载链接对应的参考公共字符串,可以确定待下载链接对应的链接资源没有下载过,因此确定待下载链接对应的下载确认操作为允许下载。
上述实施例中,在公共字符串表中不存在待下载链接对应的公共字符串时,确定待下载链接对应的链接资源没有下载过,因此基于待下载链接对应的参考域名,获取多个候选链接。基于候选链接和待下载链接,提取待下载链接对应的目标公共字符串,进而确定对应的目标关键字符串,最后记录待下载链接对应的目标公共字符串和目标关键字符串,并确定下载确认操作为允许下载,这样能够实现对每一条下载过的链接进行记录,提高链接数据处理的准确性。
在一个实施例中,基于匹配结果,确定待下载链接对应的下载确认操作,包括:
当匹配结果为匹配成功时,确定待下载链接对应的下载确认操作为取消下载;当匹配结果为匹配失败时,确定待下载链接对应的下载确认操作为允许下载,将待下载链接对应的目标关键字符串写入目标公共字符串对应的参考关键字符串集。
示例性地,当匹配结果为匹配成功时,表明待下载链接对应的链接数据已经下载过,因此确定待下载链接对应的下载确认操作为取消下载。当匹配结果为匹配失败时,表明待下载链接对应的链接数据已经下载过,因此确认待下载链接对应的下载确认操作为允许下载,下载待下载链接中所包含的链接数据。并将待下载链接对应的目标关键字符串写入目标公共字符串对应的参考关键字符串集中。
上述实施例中,将待下载链接对应的目标关键字符串与目标公共字符串所对应的参考关键字符串集进行匹配,确定待下载链接是否为首次下载,进而基于匹配结果,确定待下载链接对应的下载确认操作,能够避免对同一链接数据进行重复下载,节约下载资源,从而提高链接数据处理的效率。
在一个具体的实施例中,本申请提出的链接下载方法还可以用于解决数据爬虫中视频重复下载的场景。如图4所示,链接下载方法包括以下步骤:
1、确定视频下载链接是否命中公共字符串表
计算机设备爬取到待下载的视频下载链接后,将待下载链接与公共字符串表中包含的各个公共字符串进行匹配。
2、命中公共字符串表
当待下载链接命中公共字符串表中的公共字符串时,计算机设备进一步在关键字符串表中查找该公共字符串对应的关键字符串集。若关键字符串集中存在待下载的视频下载链接对应的关键字符串,则说明待下载的视频下载链接已经下载过,无需下载。若关键字符串集中不存在待下载的视频下载链接对应的关键字符串,则说明待下载的视频下载链接没有下载过,下载视频下载链接中的视频素材,存储视频记录(即待下载的视频下载链接的关键字符串)到关键字符串表。
3、未命中公共字符串表
当待下载链接未命中公共字符串表中的公共字符串时,计算机设备获取待下载链接对应的素材链接(即候选链接),基于各个候选链接和待下载的视频下载链接,提取待下载的视频下载链接对应的链接规则(即公共字符串),将公共字符串存储到公共字符串表中,并下载视频下载链接中的视频素材,将待下载链接对应的视频记录(即关键字符串)到关键字符串表中。
上述实施例中,由于同一个视频链接有很多变化的参数,实际是同一个视频,但是无法很好的判断是否之前下载过,导致视频重复下载,给服务器带宽造成了比较大的压力,甚至服务假死,稳定性很差,下载任务也大量积压。因此,对于爬取到的视频链接,可以根据视频链接规律,提取符合实际情况的链接规则,基于链接规则分析并记录视频链接是否下载过。这样,大量降低了需要下载的视频量,减少了任务积压的风险,降低了服务器带宽,提升了服务的稳定性,提高了视频下载的实时性。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的链接下载方法的链接下载装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个链接下载装置实施例中的具体限定可以参见上文中对于链接下载方法的限定,在此不再赘述。
在一个实施例中,如图5所示,提供了一种链接下载装置,包括:链接获取模块502、公共字符串确定模块504、关键字符串确定模块506、匹配结果确定模块508和下载确认操作确定模块510,其中:
链接获取模块502,用于获取待下载链接,获取已下载链接集对应的公共字符串表。
公共字符串确定模块504,用于将待下载链接与公共字符串表中的各个参考公共字符串进行匹配,得到公共字符串表中与待下载链接匹配的目标公共字符串。
关键字符串确定模块506,用于基于目标公共字符串,在待下载链接中确定目标关键字符串。
匹配结果确定模块508,用于将目标关键字符串与目标公共字符串对应的参考关键字符串集进行匹配,得到匹配结果;参考关键字符串集是基于已下载链接集中包含目标公共字符串的已下载链接得到的。
下载确认操作确定模块510,用于基于匹配结果,确定待下载链接对应的下载确认操作。
在一个实施例中,链接获取模块502还用于:
对已下载链接集中的各个已下载链接进行域名归类,得到多个参考域名分别对应的已下载链接子集;针对各个参考域名中的当前域名,将当前域名在已下载链接子集中对应的字符串作为当前域名所对应的初始公共字符串;提取当前域名对应的初始公共字符串在已下载链接子集中所对应的后向字符串集;后向字符串集中的后向字符串基于预设分割字符对已下载链接进行切分得到的;对当前域名对应的后向字符串集进行共性分析,得到共性分析结果;当共性分析结果包括非共性字符串集时,将初始公共字符串作为当前域名对应的参考公共字符串;当共性分析结果包括共性字符串集时,将共性字符串集中的各个后向字符串分别与初始公共字符串拼接,得到当前域名对应的更新公共字符串,将更新公共字符串作为当前域名对应的初始公共字符串,返回提取当前域名对应的初始公共字符串在已下载链接子集中所对应的后向字符串集的步骤执行,直至满足结束条件,将最终的初始公共字符串作为当前域名对应的参考公共字符串;基于各个参考域名分别对应的参考公共字符串,得到已下载链接集对应的公共字符串表。
在一个实施例中,链接获取模块502还用于:
提取后向字符串集中各个后向字符串分别对应的语义信息;比对后向字符串集中各个后向字符串分别对应的语义信息,确定各个后向字符串分别对应的字符串类型;字符串类型为共性字符串或非共性字符串;当后向字符串集中不存在非共性字符串时,将后向字符串集中语义信息相同的共性字符串划分至同一字符串集中,得到共性字符串集,将共性字符串集作为共性分析结果;当后向字符串集中存在非共性字符串时,将后向字符串集中语义信息相同的共性字符串划分至同一字符串集中,得到共性字符串集,将后向字符串集中语义信息不同的非共性字符串划分至同一字符串集中,得到非共性字符串集,将共性字符串集和非共性字符串集作为共性分析结果。
在一个实施例中,公共字符串确定模块504还用于:
识别待下载链接对应的目标资源类型;将待下载链接与目标资源类型在公共字符串表中对应的多个参考公共字符串进行匹配,得到公共字符串表中与待下载链接匹配的目标公共字符串。
在一个实施例中,下载确认操作确定模块510还用于:
当匹配结果为匹配成功时,确定待下载链接对应的下载确认操作为取消下载;当匹配结果为匹配失败时,确定待下载链接对应的下载确认操作为允许下载,将待下载链接对应的目标关键字符串写入目标公共字符串对应的参考关键字符串集。
在一个实施例中,如图6所示,链接下载装置还包括:
关键字符串集确定模块602,用于基于预设分割字符将已下载链接集中的已下载链接切分为多个参考字符串,分别得到已下载链接集中各个已下载链接对应的参考字符串序列;从已下载链接所属参考域名在公共字符串表中对应的参考公共字符串中,确定已下载链接对应的参考公共字符串,分别得到已下载链接集中各个已下载链接对应的参考公共字符串;提取已下载链接对应的参考公共字符串在参考字符串序列中对应的后向字符串,作为已下载链接对应的参考关键字符串,分别得到已下载链接集中各个已下载链接对应的参考关键字符串;基于参考公共字符串对应的各个已下载链接分别对应的参考关键字符串,组成参考公共字符串对应的参考关键字符串集,分别得到公共字符串表中各个参考公共字符串对应的参考关键字符串集。
在一个实施例中,如图6所示,链接下载装置还包括:
下载确认操作确定模块604,用于当公共字符串表中不存在与待下载链接匹配的目标公共字符串时,基于待下载链接对应的参考域名获取待下载链接对应的多个候选链接;基于待下载链接和各个候选链接,提取待下载链接对应的目标公共字符串;基于待下载链接对应的目标公共字符串,在待下载链接中确定目标关键字符串;将待下载链接对应的目标公共字符串写入公共字符串表,基于待下载链接对应的目标关键字符串,得到待下载链接对应的目标公共字符串所对应的参考关键字符串集;确定待下载链接对应的下载确认操作为允许下载。
上述链接下载装置,在获取到待下载链接时,在公共字符串表中查找待下载链接对应的目标公共字符串,进而将待下载链接对应的目标关键字符串与目标公共字符串所对应的参考关键字符串集进行匹配,确定待下载链接是否为首次下载,进而基于匹配结果,确定待下载链接对应的下载确认操作,能够避免对同一链接数据进行重复下载,能够有效节约计算机资源。。
上述链接下载装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待下载链接、公共字符串表等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种链接下载方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种链接下载方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7、8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种链接下载方法,其特征在于,所述方法包括:
获取待下载链接,获取已下载链接集对应的公共字符串表;
将所述待下载链接与所述公共字符串表中的各个参考公共字符串进行匹配,得到所述公共字符串表中与所述待下载链接匹配的目标公共字符串;
基于所述目标公共字符串,在所述待下载链接中确定目标关键字符串;
将所述目标关键字符串与所述目标公共字符串对应的参考关键字符串集进行匹配,得到匹配结果;所述参考关键字符串集是基于所述已下载链接集中包含所述目标公共字符串的已下载链接得到的;
基于所述匹配结果,确定所述待下载链接对应的下载确认操作。
2.根据权利要求1所述的方法,其特征在于,所述获取已下载链接集对应的公共字符串表,包括:
对已下载链接集中的各个已下载链接进行域名归类,得到多个参考域名分别对应的已下载链接子集;
针对各个参考域名中的当前域名,将当前域名在已下载链接子集中对应的字符串作为当前域名所对应的初始公共字符串;
提取当前域名对应的初始公共字符串在已下载链接子集中所对应的后向字符串集;所述后向字符串集中的后向字符串基于预设分割字符对已下载链接进行切分得到的;
对当前域名对应的后向字符串集进行共性分析,得到共性分析结果;
当共性分析结果包括非共性字符串集时,将初始公共字符串作为当前域名对应的参考公共字符串;
当共性分析结果包括共性字符串集时,将共性字符串集中的各个后向字符串分别与初始公共字符串拼接,得到当前域名对应的更新公共字符串,将更新公共字符串作为当前域名对应的初始公共字符串,返回所述提取当前域名对应的初始公共字符串在已下载链接子集中所对应的后向字符串集的步骤执行,直至满足结束条件,将最终的初始公共字符串作为当前域名对应的参考公共字符串;
基于所述各个参考域名分别对应的参考公共字符串,得到所述已下载链接集对应的公共字符串表。
3.根据权利要求2所述的方法,其特征在于,所述对当前域名对应的后向字符串集进行共性分析,得到共性分析结果,包括:
提取所述后向字符串集中各个后向字符串分别对应的语义信息;
比对所述后向字符串集中各个后向字符串分别对应的语义信息,确定各个后向字符串分别对应的字符串类型;所述字符串类型为共性字符串或非共性字符串;
当所述后向字符串集中不存在非共性字符串时,将所述后向字符串集中语义信息相同的共性字符串划分至同一字符串集中,得到共性字符串集,将共性字符串集作为共性分析结果;
当所述后向字符串集中存在非共性字符串时,将所述后向字符串集中语义信息相同的共性字符串划分至同一字符串集中,得到共性字符串集,将所述后向字符串集中语义信息不同的非共性字符串划分至同一字符串集中,得到非共性字符串集,将共性字符串集和非共性字符串集作为共性分析结果。
4.根据权利要求1所述的方法,其特征在于,所述将所述待下载链接与所述公共字符串表中的各个参考公共字符串进行匹配,得到所述公共字符串表中与所述待下载链接匹配的目标公共字符串,包括:
识别所述待下载链接对应的目标资源类型;
将所述待下载链接与所述目标资源类型在所述公共字符串表中对应的多个参考公共字符串进行匹配,得到所述公共字符串表中与所述待下载链接匹配的目标公共字符串。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于预设分割字符将所述已下载链接集中的已下载链接切分为多个参考字符串,分别得到所述已下载链接集中各个已下载链接对应的参考字符串序列;
从已下载链接所属参考域名在所述公共字符串表中对应的参考公共字符串中,确定已下载链接对应的参考公共字符串,分别得到所述已下载链接集中各个已下载链接对应的参考公共字符串;
提取已下载链接对应的参考公共字符串在参考字符串序列中对应的后向字符串,作为已下载链接对应的参考关键字符串,分别得到所述已下载链接集中各个已下载链接对应的参考关键字符串;
基于参考公共字符串对应的各个已下载链接分别对应的参考关键字符串,组成参考公共字符串对应的参考关键字符串集,分别得到所述公共字符串表中各个参考公共字符串对应的参考关键字符串集。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述公共字符串表中不存在与所述待下载链接匹配的目标公共字符串时,基于所述待下载链接对应的参考域名获取所述待下载链接对应的多个候选链接;
基于所述待下载链接和各个候选链接,提取所述待下载链接对应的目标公共字符串;
基于所述待下载链接对应的目标公共字符串,在所述待下载链接中确定目标关键字符串;
将所述待下载链接对应的目标公共字符串写入所述公共字符串表,基于所述待下载链接对应的目标关键字符串,得到所述待下载链接对应的目标公共字符串所对应的参考关键字符串集;
确定所述待下载链接对应的下载确认操作为允许下载。
7.根据权利要求1所述的方法,其特征在于,所述基于所述匹配结果,确定所述待下载链接对应的下载确认操作,包括:
当所述匹配结果为匹配成功时,确定所述待下载链接对应的下载确认操作为取消下载;
当所述匹配结果为匹配失败时,确定所述待下载链接对应的下载确认操作为允许下载,将所述待下载链接对应的目标关键字符串写入所述目标公共字符串对应的参考关键字符串集。
8.一种链接下载装置,其特征在于,所述装置包括:
链接获取模块,用于获取待下载链接,获取已下载链接集对应的公共字符串表;
公共字符串确定模块,用于将所述待下载链接与所述公共字符串表中的各个参考公共字符串进行匹配,得到所述公共字符串表中与所述待下载链接匹配的目标公共字符串;
关键字符串确定模块,用于基于所述目标公共字符串,在所述待下载链接中确定目标关键字符串;
匹配结果确定模块,用于将所述目标关键字符串与所述目标公共字符串对应的参考关键字符串集进行匹配,得到匹配结果;所述参考关键字符串集是基于所述已下载链接集中包含所述目标公共字符串的已下载链接得到的;
下载确认操作确定模块,用于基于所述匹配结果,确定所述待下载链接对应的下载确认操作。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311673467.8A CN117763247A (zh) | 2023-12-07 | 2023-12-07 | 链接下载方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311673467.8A CN117763247A (zh) | 2023-12-07 | 2023-12-07 | 链接下载方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117763247A true CN117763247A (zh) | 2024-03-26 |
Family
ID=90309687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311673467.8A Pending CN117763247A (zh) | 2023-12-07 | 2023-12-07 | 链接下载方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117763247A (zh) |
-
2023
- 2023-12-07 CN CN202311673467.8A patent/CN117763247A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110276002B (zh) | 搜索应用数据处理方法、装置、计算机设备和存储介质 | |
CN114756627B (zh) | 基于联盟链的数字资产处理方法、系统和存储介质 | |
CN108536745B (zh) | 基于Shell的数据表提取方法、终端、设备及存储介质 | |
CN115795000A (zh) | 基于联合相似度算法对比的围标识别方法和装置 | |
US20230315846A1 (en) | System and method for detecting leaked documents on a computer network | |
CN115544183A (zh) | 数据可视化方法、装置、计算机设备和存储介质 | |
CN111753141B (zh) | 一种数据管理方法及相关设备 | |
CN112559913B (zh) | 一种数据处理方法、装置、计算设备及可读存储介质 | |
US10050994B2 (en) | Method and computing device for processing data | |
CN113821676A (zh) | 视频检索方法、装置、设备及存储介质 | |
CN115858471A (zh) | 业务数据变更记录方法、装置、计算机设备及介质 | |
CN115809304A (zh) | 字段级血缘解析方法、装置、计算机设备、存储介质 | |
CN117763247A (zh) | 链接下载方法、装置、计算机设备和存储介质 | |
CN114547066A (zh) | 核电业务数据的标准化方法、装置和计算机设备 | |
US10031811B1 (en) | Systems and methods for enhancing electronic discovery searches | |
CN114971673A (zh) | 基于位图的广告投放方法、装置、设备及存储介质 | |
CN112835886A (zh) | 数据表字段添加方法和装置 | |
US20170154096A1 (en) | Data service system and electronic apparatus | |
CN110825959B (zh) | 数据发送方法及榜单数据获取模型的选择方法及装置 | |
CN114647630A (zh) | 文件同步、信息生成方法、装置、计算机设备和存储介质 | |
CN118069044A (zh) | 芯片数据存储方法、装置、设备、介质和产品 | |
CN115587074A (zh) | 生成特效资源文件的方法、装置、直播系统、设备和介质 | |
CN116562608A (zh) | 一种业务单据状态确定方法及相关产品 | |
CN115665127A (zh) | 资源文件升级方法、装置、计算机设备和存储介质 | |
CN116910069A (zh) | 数据库更新方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |