CN110909270A - 文章迁移方法、装置、计算机可读存储介质及终端设备 - Google Patents
文章迁移方法、装置、计算机可读存储介质及终端设备 Download PDFInfo
- Publication number
- CN110909270A CN110909270A CN201910966535.7A CN201910966535A CN110909270A CN 110909270 A CN110909270 A CN 110909270A CN 201910966535 A CN201910966535 A CN 201910966535A CN 110909270 A CN110909270 A CN 110909270A
- Authority
- CN
- China
- Prior art keywords
- article
- page
- uniform resource
- resource locator
- page address
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005012 migration Effects 0.000 title claims abstract description 57
- 238000013508 migration Methods 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012545 processing Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 2
- 101150035983 str1 gene Proteins 0.000 description 2
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 1
- 101100217298 Mus musculus Aspm gene Proteins 0.000 description 1
- 101100252033 Streptomyces griseus strM gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 101150016581 rmlC gene Proteins 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明属于计算机技术领域,尤其涉及一种文章迁移方法、装置、计算机可读存储介质及终端设备。所述方法包括:接收文章迁移指令,并从所述文章迁移指令中提取源网站的统一资源定位符和登录信息以及目标网站的统一资源定位符和登录信息;根据所述源网站的统一资源定位符和登录信息登录至所述源网站中的文章列表页面;分别确定所述文章列表页中各篇文章的编辑页面地址,并将各篇文章的编辑页面地址构造为编辑页面地址队列;根据所述编辑页面地址队列分别下载各篇文章的内容;根据所述目标网站的统一资源定位符和登录信息登录至所述目标网站中的文章列表页面;将获取到的各篇文章的内容依次上传至所述目标网站中的文章列表页面中。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种文章迁移方法、装置、计算机可读存储介质及终端设备。
背景技术
很多喜欢在网络上发布文章的用户经常都会碰到需要进行文章迁移的情况,例如,用户开始的时候都是在一个论坛上发布文章,但是可能由于某些原因,想把自己在该论坛上的文章迁移到其他的网站上,如果在先前论坛上发布的文章数量很多,一篇篇复制粘贴下来理论上是可行的,但操作起来太过于繁琐,工作量十分庞大,而且极易出现遗漏和错误。
发明内容
有鉴于此,本发明实施例提供了一种文章迁移方法、装置、计算机可读存储介质及终端设备,以解决现有的文章迁移方法工作量十分庞大,而且极易出现遗漏和错误的问题。
本发明实施例的第一方面提供了一种文章迁移方法,可以包括:
接收文章迁移指令,并从所述文章迁移指令中提取源网站的统一资源定位符和登录信息以及目标网站的统一资源定位符和登录信息;
根据所述源网站的统一资源定位符和登录信息登录至所述源网站中的文章列表页面;
分别确定所述文章列表页中各篇文章的编辑页面地址,并将各篇文章的编辑页面地址构造为编辑页面地址队列;
根据所述编辑页面地址队列分别下载各篇文章的内容;
根据所述目标网站的统一资源定位符和登录信息登录至所述目标网站中的文章列表页面;
将获取到的各篇文章的内容依次上传至所述目标网站中的文章列表页面中。
本发明实施例的第二方面提供了一种文章迁移装置,可以包括:
指令接收模块,用于接收文章迁移指令,并从所述文章迁移指令中提取源网站的统一资源定位符和登录信息以及目标网站的统一资源定位符和登录信息;
源网站登录模块,用于根据所述源网站的统一资源定位符和登录信息登录至所述源网站中的文章列表页面;
编辑页面地址确定模块,用于分别确定所述文章列表页中各篇文章的编辑页面地址,并将各篇文章的编辑页面地址构造为编辑页面地址队列;
文章下载模块,用于根据所述编辑页面地址队列分别下载各篇文章的内容;
目标网站登录模块,用于根据所述目标网站的统一资源定位符和登录信息登录至所述目标网站中的文章列表页面;
文章上传模块,用于将获取到的各篇文章的内容依次上传至所述目标网站中的文章列表页面中。
本发明实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如下步骤:
接收文章迁移指令,并从所述文章迁移指令中提取源网站的统一资源定位符和登录信息以及目标网站的统一资源定位符和登录信息;
根据所述源网站的统一资源定位符和登录信息登录至所述源网站中的文章列表页面;
分别确定所述文章列表页中各篇文章的编辑页面地址,并将各篇文章的编辑页面地址构造为编辑页面地址队列;
根据所述编辑页面地址队列分别下载各篇文章的内容;
根据所述目标网站的统一资源定位符和登录信息登录至所述目标网站中的文章列表页面;
将获取到的各篇文章的内容依次上传至所述目标网站中的文章列表页面中。
本发明实施例的第四方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:
接收文章迁移指令,并从所述文章迁移指令中提取源网站的统一资源定位符和登录信息以及目标网站的统一资源定位符和登录信息;
根据所述源网站的统一资源定位符和登录信息登录至所述源网站中的文章列表页面;
分别确定所述文章列表页中各篇文章的编辑页面地址,并将各篇文章的编辑页面地址构造为编辑页面地址队列;
根据所述编辑页面地址队列分别下载各篇文章的内容;
根据所述目标网站的统一资源定位符和登录信息登录至所述目标网站中的文章列表页面;
将获取到的各篇文章的内容依次上传至所述目标网站中的文章列表页面中。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例首先接收文章迁移指令,并从所述文章迁移指令中提取源网站的统一资源定位符和登录信息以及目标网站的统一资源定位符和登录信息,然后根据所述源网站的统一资源定位符和登录信息登录至所述源网站中的文章列表页面,分别确定所述文章列表页中各篇文章的编辑页面地址,并将各篇文章的编辑页面地址构造为编辑页面地址队列,根据所述编辑页面地址队列分别下载各篇文章的内容。在完成了上述下载过程后,可以根据所述目标网站的统一资源定位符和登录信息登录至所述目标网站中的文章列表页面,并将获取到的各篇文章的内容依次上传至所述目标网站中的文章列表页面中。通过本发明实施例,可以全自动的实现文章的批量迁移,无需额外的人工进行重复操作,而且避免了人工操作时可能出现的遗漏和错误。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例中一种文章迁移方法的一个实施例流程图;
图2为分别确定文章列表页中各篇文章的编辑页面地址的示意流程图;
图3为文章列表页的页面底部的翻页区域节点的示意图;
图4为根据编辑页面地址队列分别下载各篇文章的内容的示意流程图;
图5为文章下载任务队列中的第p个文章下载任务的处理过程的示意流程图;
图6为各个文本内容和各个图片内容之间的顺序的示意图;
图7为本发明实施例中一种文章迁移装置的一个实施例结构图;
图8为本发明实施例中一种终端设备的示意框图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例中一种文章迁移方法的一个实施例可以包括:
步骤S101、接收文章迁移指令,并从所述文章迁移指令中提取源网站的统一资源定位符和登录信息以及目标网站的统一资源定位符和登录信息。
本实施例的实施主体可以为手机、平板电脑、桌上型计算机、笔记本等终端设备。用户在需要进行文章迁移时,可以首先通过所述终端设备上预设的人机交互界面向所述终端设备下发文章迁移指令。
具体地,用户可以在人机交互界面的指定区域填写源网站(即待迁移的文章原来所在的网站)的统一资源定位符(Uniform Resource Locator,URL)以及登录信息(包括但不限于用户名、密码等)、目标网站(即用户想要将文章迁移到的新网站)的URL以及登录信息,其中,URL是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。一般地,当用户通过浏览器浏览网页时,在浏览器的地址栏中都会显示当前网页的URL,用户可以从地址栏中直接复制得到该URL。当用户完成相关信息的填写后,点击提交按钮,即可向所述终端设备下发文章迁移指令。所述终端设备在接收到文章迁移指令后,即可从中提取出源网站的统一资源定位符和登录信息以及目标网站的统一资源定位符和登录信息。
步骤S102、根据所述源网站的统一资源定位符和登录信息登录至所述源网站中的文章列表页面。
在本实施例中,所述终端设备可以使用无界面的Chrome工具puppeteer模拟跳转至所述源网站的登录页面,在所述源网站的登录页面输入所述源网站的统一资源定位符和登录信息,并在登录成功后跳转至所述源网站中的文章列表页面。其中,puppeteer的库中提供了一系列的应用程序编程接口(Application Programming Interface,API),适用于爬虫、自动化处理等各种场景,可以在代码中调用这些API来实现相应的操作效果,从而无需用户实际操作就能模拟真实的场景。比如,page.go(url)能跳转至指定URL的页面,page.click(元素id或class)能触发用户的点击操作,登录的流程即是由一系列的这种简单操作构成的。
步骤S103、分别确定所述文章列表页中各篇文章的编辑页面地址,并将各篇文章的编辑页面地址构造为编辑页面地址队列。
具体地,可以通过如图2所示的过程来分别确定所述文章列表页中各篇文章的编辑页面地址:
步骤S1031、获取所述文章列表页中的翻页区域节点,并在所述翻页区域节点内通过遍历获取所述文章列表页的各个分页。
所述终端设备可以通过puppeteer工具获取所述文章列表页的页面底部的翻页区域节点,如图3所示,在此节点内不断模拟点击下一页的操作,可以获取到所述文章列表页的各个分页。假设所述文章列表页的初始页面(即第1个分页)的URL为:http://***************_1.html,则可以通过对其中表示页码的数字进行替换,得到各个分页的URL:
http://***************_2.html(第2个分页的URL)
http://***************_3.html(第3个分页的URL)
………
http://***************_17.html(第17个分页的URL)。
步骤S1032、获取各个分页中的文章列表展示区域节点,并在所述文章列表展示区域节点内通过遍历获取各篇文章的文章标识。
所述文章标识为对一篇文章进行唯一性标记的标识,各篇文章的文章标识各不相同。所述终端设备可以通过puppeteer工具获取各个分页中的文章列表展示区域节点,并在所述文章列表展示区域节点内通过遍历获取各篇文章的文章标识。
步骤S1033、根据预设的初始编辑页面地址和各篇文章的文章标识确定各篇文章的编辑页面地址。
对任意一篇文章而言,在所述初始编辑页面地址之后加上该文章的文章标识即为该文章的编辑页面地址。
在确定出各篇文章的编辑页面地址之后,可以将各篇文章的编辑页面地址按顺序排列在一起,形成所述编辑页面地址队列。
步骤S104、根据所述编辑页面地址队列分别下载各篇文章的内容。
如图4所示,步骤S104具体可以包括如下步骤:步骤S1041、创建与所述编辑页面地址队列对应的文章下载任务队列。
所述文章下载任务队列中包括PN个文章下载任务,每个文章下载任务用于下载一个编辑页面地址所对应的一篇文章,PN为所述编辑页面地址队列中的编辑页面地址的总数。
步骤S1042、调用处理线程组分别执行所述文章下载任务队列中的各个文章下载任务,得到各篇文章的内容。
所述处理线程组中包括两个以上的处理线程,即本实施例中是通过多线程处理的方式来执行任务,同时批量处理多个文章下载任务,从而大大加快了处理速度。
如图5所示,此处以所述文章下载任务队列中的第p个(1≤p≤PN)文章下载任务为例进行详细说明:
步骤S1042a、根据与第p个文章下载任务对应的编辑页面地址打开第p篇文章的编辑页面。
步骤S1042b、分别获取第p篇文章的编辑页面中的各个文本内容和各个图片内容。
针对每篇文章,所述终端设备可以通过puppeteer工具在其编辑页面中获取编辑框的对应节点,从中提取出各个文本内容(每个文本内容即为一段纯文本)和各个图片内容(每个图片内容即为一张图片)。对于文本内容,直接对其进行复制即可,但是,现有网站中的文章大多数都是在文本中夹杂着大量的图片,而且图片中可能会被添加所述源网站的水印,本实施例在下面将以其中的第n个图片内容为例对去除水印的过程进行详细说明,1≤n≤N,N为第p篇文章的编辑页面中的图片内容的数目。
首先,获取第n个图片内容的统一资源定位符。
每个图片内容在编辑页面中是以图片元素(img)的形式呈现的,所述终端设备可以通过puppeteer工具获取图片元素的src属性,它的值即为图片内容的统一资源定位符。
然后,使用预设的正则表达式判断第n个图片内容的统一资源定位符中是否存在预设的第一字符串。若不存在所述第一字符串,则根据第n个图片内容的统一资源定位符获取第n个图片内容;若存在所述第一字符串,则从第n个图片内容的统一资源定位符中截取出新的统一资源定位符,并根据所述新的统一资源定位符获取第n个图片内容,所述新的统一资源定位符为所述第一字符串之前的部分。
具体地,可以通过预设的正则表达式在URL中匹配“?sign/”或者“?watermark/”等字符串(即所述第一字符串),若匹配不成功,则说明该图片内容未加水印,可以直接获取该图片。若匹配成功,则说明该图片内容中加了水印,需要对其做进一步的处理,对URL进行正则匹配截取,获取“?sign/”或者“?watermark/”之前的地址,即为不加水印的图片内容地址。
如下所示为某图片内容的URL:
http://img.blog.csdn.net/20170329144621372?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcXFfMzUyNDY2MjA=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast
在其中可以匹配到“?watermark/”这一字符串,则可判定该图片内容中加了水印,对该URL进行正则匹配截取,获取“?sign/”或者“?watermark/”之前的地址:http://img.blog.csdn.net/20170329144621372,即为不加水印的图片内容地址。
进一步地,考虑到某些网站可能还做了特殊处理,无法直接获取图片链接下载到本地,在这种情况下,可以通过对图片内容所在区域进行截图的方式来获取图片内容。
步骤S1042c、将各个文本内容和各个图片内容之间的顺序记录在与第p篇文章对应的顺序记录表中。
步骤S1042d、将各个文本内容依次存储入与第p篇文章对应的文本序列中,将各个图片内容依次存储入与第p篇文章对应的图片序列中,并将所述文本序列和所述图片序列的集合作为第p篇文章的内容。
对于任意一篇文章,所述终端设备可以通过两个序列分别对其内容进行存储,第一个序列为文本序列,用于存储各个文本内容:
let stringArr=[str1,str2,...,strM]
序列中的每个元素均为记录文本内容的字符串,各个元素之间是被图片分隔开的,如图6所示。
第二个序列为图片序列,用于存储各个图片内容:
let picArr=[img1,img2,...,imgN]。
为了保证后续能将文章内容按顺序还原,所述终端设备还需对各个文本内容和各个图片内容依次出现的顺序记录如下:str1→img1→str2→img2→img3→str3→……..,从而形成所述顺序记录表。
在批量下载过程中,由于各个处理线程处理文章下载任务的速度各不相同,下载完成后的队列顺序与原始的顺序可能存在差异。为了解决这一问题,本实施例可以在根据所述编辑页面地址队列分别下载各篇文章的内容之前,分别计算各篇文章的哈希值,并根据各篇文章在所述文章列表页中的顺序,将各篇文章的哈希值存储在预设的哈希表中。
具体地,可以将每篇文章的编辑页面地址均作为一个字符串,然后使用预设的哈希函数对该字符串进行处理,从而得到该篇文章的哈希值。哈希函数就是把任意长度的输入变换成固定长度的输出,这种转换是一种压缩映射,也就是输出的空间通常远小于输入的空间,简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。本实施例中所使用的哈希函数包括但不限于MD4、MD5、SHA1等。
然后在根据所述编辑页面地址队列分别下载各篇文章的内容之后,可以将已完成的文章下载任务从所述文章下载任务队列中转移至预设的完成队列中,并按照所述哈希表中的顺序,排列已完成的文章下载任务在所述完成队列中的顺序,得到排序后的各篇文章的内容。
当某一文章下载任务完成后,所述终端设备可以将其从所述文章下载任务队列中转移至所述完成队列中。此时,为了确保下载完成的文章的顺序与原始的文章的顺序一致,所述终端设备可以根据已下载的文章,在所述哈希表中查找对应的哈希值,并根据哈希值在所述哈希表中的顺序,来排列已下载文章在所述完成队列中的顺序。由于所述哈希表中哈希值的顺序是按照原始的文章的顺序进行排列的,因此,此时在所述完成队列中的文章的顺序也与原始的文章的顺序一致,有效保证了下载前后文章的顺序性。
步骤S105、根据所述目标网站的统一资源定位符和登录信息登录至所述目标网站中的文章列表页面。
目标网站模拟登录与源网站模拟登录过程类似,具体可参照步骤S102中的内容,此处不再赘述。
步骤S106、将获取到的各篇文章的内容依次上传至所述目标网站中的文章列表页面中。
在进行文章上传时,按照所述完成队列中各篇文章的顺序依次进行上传。对于任一篇文章而言,首先从与其对应的顺序记录表中获取各个文本内容和各个图片内容之间的顺序记录,按照记录中的顺序,对先前存储的文本序列和图片序列中的内容依次进行遍历,拼接获得最终需上传的文章内容,并将其上传至所述目标网站中。当完成队列中的各篇文章均按照顺序上传后,即完成整个文章迁移过程。
综上所述,本发明实施例首先接收文章迁移指令,并从所述文章迁移指令中提取源网站的统一资源定位符和登录信息以及目标网站的统一资源定位符和登录信息,然后根据所述源网站的统一资源定位符和登录信息登录至所述源网站中的文章列表页面,分别确定所述文章列表页中各篇文章的编辑页面地址,并将各篇文章的编辑页面地址构造为编辑页面地址队列,根据所述编辑页面地址队列分别下载各篇文章的内容。在完成了上述下载过程后,可以根据所述目标网站的统一资源定位符和登录信息登录至所述目标网站中的文章列表页面,并将获取到的各篇文章的内容依次上传至所述目标网站中的文章列表页面中。通过本发明实施例,可以全自动的实现文章的批量迁移,无需额外的人工进行重复操作,而且避免了人工操作时可能出现的遗漏和错误。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的一种文章迁移方法,图7示出了本发明实施例提供的一种文章迁移装置的一个实施例结构图。
本实施例中,一种文章迁移装置可以包括:
指令接收模块701,用于接收文章迁移指令,并从所述文章迁移指令中提取源网站的统一资源定位符和登录信息以及目标网站的统一资源定位符和登录信息;
源网站登录模块702,用于根据所述源网站的统一资源定位符和登录信息登录至所述源网站中的文章列表页面;
编辑页面地址确定模块703,用于分别确定所述文章列表页中各篇文章的编辑页面地址,并将各篇文章的编辑页面地址构造为编辑页面地址队列;
文章下载模块704,用于根据所述编辑页面地址队列分别下载各篇文章的内容;
目标网站登录模块705,用于根据所述目标网站的统一资源定位符和登录信息登录至所述目标网站中的文章列表页面;
文章上传模块706,用于将获取到的各篇文章的内容依次上传至所述目标网站中的文章列表页面中。
进一步地,所述文章下载模块可以包括:
文章下载任务队列创建子模块,用于创建与所述编辑页面地址队列对应的文章下载任务队列,所述文章下载任务队列中包括PN个文章下载任务,每个文章下载任务用于下载一个编辑页面地址所对应的一篇文章,PN为所述编辑页面地址队列中的编辑页面地址的总数;
文章下载任务执行子模块,用于调用处理线程组分别执行所述文章下载任务队列中的各个文章下载任务,得到各篇文章的内容,所述处理线程组中包括两个以上的处理线程。
进一步地,所述文章下载模块还可以包括:
哈希值存储子模块,用于分别计算各篇文章的哈希值,并根据各篇文章在所述文章列表页中的顺序,将各篇文章的哈希值存储在预设的哈希表中;
文章排序子模块,用于将已完成的文章下载任务从所述文章下载任务队列中转移至预设的完成队列中,并按照所述哈希表中的顺序,排列已完成的文章下载任务在所述完成队列中的顺序,得到排序后的各篇文章的内容。
进一步地,所述文章下载任务处理子模块可以包括:
编辑页面打开单元,用于根据与第p个文章下载任务对应的编辑页面地址打开第p篇文章的编辑页面,1≤p≤PN;
文章内容获取单元,用于分别获取第p篇文章的编辑页面中的各个文本内容和各个图片内容,并将各个文本内容和各个图片内容之间的顺序记录在与第p篇文章对应的顺序记录表中;
文本内容存储单元,用于将各个文本内容依次存储入与第p篇文章对应的文本序列中;
图片内容存储单元,用于将各个图片内容依次存储入与第p篇文章对应的图片序列中。
进一步地,所述文章内容获取单元可以包括:
统一资源定位符获取子单元,用于获取第n个图片内容的统一资源定位符,1≤n≤N,N为第p篇文章的编辑页面中的图片内容的数目;
字符串判断子单元,用于使用预设的正则表达式判断第n个图片内容的统一资源定位符中是否存在预设的第一字符串;
第一获取子单元,用于若不存在所述第一字符串,则根据第n个图片内容的统一资源定位符获取第n个图片内容;
第二获取子单元,用于若存在所述第一字符串,则从第n个图片内容的统一资源定位符中截取出新的统一资源定位符,并根据所述新的统一资源定位符获取第n个图片内容,所述新的统一资源定位符为所述第一字符串之前的部分。
进一步地,所述编辑页面地址确定模块可以包括:
分页获取子模块,用于获取所述文章列表页中的翻页区域节点,并在所述翻页区域节点内通过遍历获取所述文章列表页的各个分页;
文章标识获取子模块,用于获取各个分页中的文章列表展示区域节点,并在所述文章列表展示区域节点内通过遍历获取各篇文章的文章标识;
编辑页面地址确定子模块,用于根据预设的初始编辑页面地址和各篇文章的文章标识确定各篇文章的编辑页面地址。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置,模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
图8示出了本发明实施例提供的一种终端设备的示意框图,为了便于说明,仅示出了与本发明实施例相关的部分。
在本实施例中,所述终端设备8可以是手机、平板电脑、桌上型计算机、笔记本等计算设备。该终端设备8可包括:处理器80、存储器81以及存储在所述存储器81中并可在所述处理器80上运行的计算机可读指令82,例如执行上述的文章迁移方法的计算机可读指令。所述处理器80执行所述计算机可读指令82时实现上述各个文章迁移方法实施例中的步骤,例如图1所示的步骤S101至S106。或者,所述处理器80执行所述计算机可读指令82时实现上述各装置实施例中各模块/单元的功能,例如图7所示模块701至706的功能。
示例性的,所述计算机可读指令82可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器81中,并由所述处理器80执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令82在所述终端设备8中的执行过程。
所述处理器80可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器81可以是所述终端设备8的内部存储单元,例如终端设备8的硬盘或内存。所述存储器81也可以是所述终端设备8的外部存储设备,例如所述终端设备8上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器81还可以既包括所述终端设备8的内部存储单元也包括外部存储设备。所述存储器81用于存储所述计算机可读指令以及所述终端设备8所需的其它指令和数据。所述存储器81还可以用于暂时地存储已经输出或者将要输出的数据。
在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干计算机可读指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储计算机可读指令的介质。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种文章迁移方法,其特征在于,包括:
接收文章迁移指令,并从所述文章迁移指令中提取源网站的统一资源定位符和登录信息以及目标网站的统一资源定位符和登录信息;
根据所述源网站的统一资源定位符和登录信息登录至所述源网站中的文章列表页面;
分别确定所述文章列表页中各篇文章的编辑页面地址,并将各篇文章的编辑页面地址构造为编辑页面地址队列;
根据所述编辑页面地址队列分别下载各篇文章的内容;
根据所述目标网站的统一资源定位符和登录信息登录至所述目标网站中的文章列表页面;
将获取到的各篇文章的内容依次上传至所述目标网站中的文章列表页面中。
2.根据权利要求1所述的文章迁移方法,其特征在于,所述根据所述编辑页面地址队列分别下载各篇文章的内容包括:
创建与所述编辑页面地址队列对应的文章下载任务队列,所述文章下载任务队列中包括PN个文章下载任务,每个文章下载任务用于下载一个编辑页面地址所对应的一篇文章,PN为所述编辑页面地址队列中的编辑页面地址的总数;
调用处理线程组分别执行所述文章下载任务队列中的各个文章下载任务,得到各篇文章的内容,所述处理线程组中包括两个以上的处理线程。
3.根据权利要求2所述的文章迁移方法,其特征在于,在根据所述编辑页面地址队列分别下载各篇文章的内容之前,还包括:
分别计算各篇文章的哈希值,并根据各篇文章在所述文章列表页中的顺序,将各篇文章的哈希值存储在预设的哈希表中;
在根据所述编辑页面地址队列分别下载各篇文章的内容之后,还包括:
将已完成的文章下载任务从所述文章下载任务队列中转移至预设的完成队列中,并按照所述哈希表中的顺序,排列已完成的文章下载任务在所述完成队列中的顺序,得到排序后的各篇文章的内容。
4.根据权利要求2所述的文章迁移方法,其特征在于,所述调用处理线程组分别执行所述文章下载任务队列中的各个文章下载任务,得到各篇文章的内容包括:
根据与第p个文章下载任务对应的编辑页面地址打开第p篇文章的编辑页面,1≤p≤PN;
分别获取第p篇文章的编辑页面中的各个文本内容和各个图片内容,并将各个文本内容和各个图片内容之间的顺序记录在与第p篇文章对应的顺序记录表中;
将各个文本内容依次存储入与第p篇文章对应的文本序列中;
将各个图片内容依次存储入与第p篇文章对应的图片序列中;
将所述文本序列和所述图片序列的集合作为第p篇文章的内容。
5.根据权利要求4所述的文章迁移方法,其特征在于,所述分别获取第p篇文章的编辑页面中的各个文本内容和各个图片内容包括:
获取第n个图片内容的统一资源定位符,1≤n≤N,N为第p篇文章的编辑页面中的图片内容的数目;
使用预设的正则表达式判断第n个图片内容的统一资源定位符中是否存在预设的第一字符串;
若不存在所述第一字符串,则根据第n个图片内容的统一资源定位符获取第n个图片内容;
若存在所述第一字符串,则从第n个图片内容的统一资源定位符中截取出新的统一资源定位符,并根据所述新的统一资源定位符获取第n个图片内容,所述新的统一资源定位符为所述第一字符串之前的部分。
6.根据权利要求1至5中任一项所述的文章迁移方法,其特征在于,所述分别确定所述文章列表页中各篇文章的编辑页面地址包括:
获取所述文章列表页中的翻页区域节点,并在所述翻页区域节点内通过遍历获取所述文章列表页的各个分页;
获取各个分页中的文章列表展示区域节点,并在所述文章列表展示区域节点内通过遍历获取各篇文章的文章标识;
根据预设的初始编辑页面地址和各篇文章的文章标识确定各篇文章的编辑页面地址。
7.一种文章迁移装置,其特征在于,包括:
指令接收模块,用于接收文章迁移指令,并从所述文章迁移指令中提取源网站的统一资源定位符和登录信息以及目标网站的统一资源定位符和登录信息;
源网站登录模块,用于根据所述源网站的统一资源定位符和登录信息登录至所述源网站中的文章列表页面;
编辑页面地址确定模块,用于分别确定所述文章列表页中各篇文章的编辑页面地址,并将各篇文章的编辑页面地址构造为编辑页面地址队列;
文章下载模块,用于根据所述编辑页面地址队列分别下载各篇文章的内容;
目标网站登录模块,用于根据所述目标网站的统一资源定位符和登录信息登录至所述目标网站中的文章列表页面;
文章上传模块,用于将获取到的各篇文章的内容依次上传至所述目标网站中的文章列表页面中。
8.根据权利要求7所述的文章迁移装置,其特征在于,所述文章下载模块包括:
文章下载任务队列创建子模块,用于创建与所述编辑页面地址队列对应的文章下载任务队列,所述文章下载任务队列中包括PN个文章下载任务,每个文章下载任务用于下载一个编辑页面地址所对应的一篇文章,PN为所述编辑页面地址队列中的编辑页面地址的总数;
文章下载任务执行子模块,用于调用处理线程组分别执行所述文章下载任务队列中的各个文章下载任务,得到各篇文章的内容,所述处理线程组中包括两个以上的处理线程。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至6中任一项所述的文章迁移方法的步骤。
10.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至6中任一项所述的文章迁移方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910966535.7A CN110909270A (zh) | 2019-10-12 | 2019-10-12 | 文章迁移方法、装置、计算机可读存储介质及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910966535.7A CN110909270A (zh) | 2019-10-12 | 2019-10-12 | 文章迁移方法、装置、计算机可读存储介质及终端设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110909270A true CN110909270A (zh) | 2020-03-24 |
Family
ID=69815521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910966535.7A Pending CN110909270A (zh) | 2019-10-12 | 2019-10-12 | 文章迁移方法、装置、计算机可读存储介质及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110909270A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926012A (zh) * | 2021-04-13 | 2021-06-08 | 郑州悉知信息科技股份有限公司 | 资源转移方法、装置和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912613A (zh) * | 2016-04-06 | 2016-08-31 | 江苏中威科技软件系统有限公司 | 一种网站模板快速迁移的方法 |
CN106874389A (zh) * | 2017-01-11 | 2017-06-20 | 腾讯科技(深圳)有限公司 | 数据的迁移方法和装置 |
CN108038233A (zh) * | 2017-12-26 | 2018-05-15 | 福建中金在线信息科技有限公司 | 一种采集文章的方法、装置、电子设备及存储介质 |
CN109670135A (zh) * | 2018-12-28 | 2019-04-23 | 北京金山安全软件有限公司 | 一种多平台文章发布方法、装置及电子设备 |
-
2019
- 2019-10-12 CN CN201910966535.7A patent/CN110909270A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912613A (zh) * | 2016-04-06 | 2016-08-31 | 江苏中威科技软件系统有限公司 | 一种网站模板快速迁移的方法 |
CN106874389A (zh) * | 2017-01-11 | 2017-06-20 | 腾讯科技(深圳)有限公司 | 数据的迁移方法和装置 |
CN108038233A (zh) * | 2017-12-26 | 2018-05-15 | 福建中金在线信息科技有限公司 | 一种采集文章的方法、装置、电子设备及存储介质 |
CN109670135A (zh) * | 2018-12-28 | 2019-04-23 | 北京金山安全软件有限公司 | 一种多平台文章发布方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
KIWI外贸建站笔记: "一键傻瓜式WordPress网站搬家教程", pages 1 - 6, Retrieved from the Internet <URL:https://www.kiwimore.com/all-in-one-wp-migration/> * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926012A (zh) * | 2021-04-13 | 2021-06-08 | 郑州悉知信息科技股份有限公司 | 资源转移方法、装置和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10686788B2 (en) | Developer based document collaboration | |
CN110263275B (zh) | 一种访问网页的方法、装置、移动终端和存储介质 | |
WO2019200783A1 (zh) | 动态图表类页面数据爬取方法、装置、终端及存储介质 | |
CN106951451B (zh) | 一种网页内容提取方法、装置及计算设备 | |
CN103678487B (zh) | 一种网页快照的生成方法和装置 | |
US10496696B2 (en) | Search method and apparatus | |
US10893091B2 (en) | Management of asynchronous content post and media file transmissions | |
US10735793B1 (en) | Recording and playing back image variations | |
CN110851681A (zh) | 爬虫处理方法、装置、服务器及计算机可读存储介质 | |
CN110851756A (zh) | 页面加载方法、装置、计算机可读存储介质及终端设备 | |
CN111813629A (zh) | 一种Web页面的监控数据生成方法、装置及设备 | |
CN108182662A (zh) | 图片处理方法及装置、计算机可读存储介质 | |
CN110365776B (zh) | 图片批量下载方法、装置、电子设备及存储介质 | |
CN110865834B (zh) | 应用程序界面更新方法、装置、可读存储介质及终端设备 | |
JP6505849B2 (ja) | 要素識別子の生成 | |
JP6568985B2 (ja) | バッチ最適化レンダリング及びフェッチアーキテクチャ | |
CN110909270A (zh) | 文章迁移方法、装置、计算机可读存储介质及终端设备 | |
CN116644250A (zh) | 页面检测方法、装置、计算机设备和存储介质 | |
CN112835577A (zh) | 数据处理方法、装置、计算机设备以及可读存储介质 | |
CN107147732A (zh) | 图片处理方法、装置、客户端及服务端 | |
CN113590564B (zh) | 数据存储方法、装置、电子设备及存储介质 | |
US20030159065A1 (en) | Apparatus and method for inspecting the copyright of digital data on a network, and recording medium on which is recorded a copyright inspection program | |
CN116011955A (zh) | 一种机器人流程自动化需求实现方法、装置、设备和存储介质 | |
CN113821676A (zh) | 视频检索方法、装置、设备及存储介质 | |
CN112464127A (zh) | 网页中组件顺序的调整方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |