CN107480297A - 一种文章收录方法及装置 - Google Patents
一种文章收录方法及装置 Download PDFInfo
- Publication number
- CN107480297A CN107480297A CN201710763341.8A CN201710763341A CN107480297A CN 107480297 A CN107480297 A CN 107480297A CN 201710763341 A CN201710763341 A CN 201710763341A CN 107480297 A CN107480297 A CN 107480297A
- Authority
- CN
- China
- Prior art keywords
- article
- script
- default
- pending article
- task list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明实施例提供了一种文章收录方法及装置,方法包括:使用预设的收录脚本,从预设的任务列表中获取待处理文章,所述任务列表包括至少一篇属于预设主题的待处理文章;在获取所述待处理文章之后,从所述任务列表中删除所述待处理文章;使用所述收录脚本,判断所述待处理文章是否已经收录在所述预设主题中;若所述待处理文章尚未收录在所述预设主题中,使用所述收录脚本,将所述待处理文章收录在所述预设主题中。应用本发明实施例能够提高收录脚本对文章的收录效率。
Description
技术领域
本发明涉及网络技术领域,特别是涉及一种文章收录方法及装置。
背景技术
近年来,互联网信息的快速增长使用户享受到了丰富的精神生活,但同时,由于互联网上的信息量过大,用户无法从海量信息中快速查找到所需信息。为了方便用户查找所需信息,各网站均实现了对文章的收录功能,通常情况下,网站会收录特定题材的文章,比如,股票类的网站会收录与股票有关的文章。
在实际应用中,通过执行脚本语言编写的收录脚本,来实现对文章的收录。当待收录文章的数量较多时,可以通过增加收录脚本的数量来解决。使用多个收录脚本对文章进行收录的具体过程为:
第一步:使用收录脚本,从预设的数据库中获取符合预设主题的待处理文章;
第二步:使用收录脚本,判断获取到的待处理文章是否已经收录在该预设主题中;
第三步:若该待处理文章尚未收录在该预设主题中,则使用收录脚本,将该待处理文章收录在该预设主题中。
可见,在上述收录过程中,由于使用多个收录脚本同时从预设的数据库中获取待处理文章,可能导致多个收录脚本获取到同一篇文章,进而使多个收录脚本对同一篇文章重新执行上述第二步的判断过程,影响对待处理文章的收录效率。
发明内容
本发明实施例的目的在于提供一种文章收录方法及装置,以实现提高收录脚本对文章的收录效率。具体技术方案如下:
本发明实施例提供了一种文章收录方法,方法包括:
使用预设的收录脚本,从预设的任务列表中获取待处理文章,任务列表包括至少一篇属于预设主题的待处理文章;
在获取待处理文章之后,从任务列表中删除待处理文章;
使用收录脚本,判断待处理文章是否已经收录在预设主题中;
若为否,使用收录脚本,将待处理文章收录在预设主题中。
可选的,在使用预设的收录脚本,从预设的任务列表中获取待处理文章的步骤之前,方法还包括:
从预设的数据库中获取符合预设主题的待处理文章;
根据获取到的待处理文章,生成任务列表。
可选的,在使用预设的收录脚本,从预设的任务列表中获取待处理文章的步骤之前,方法还包括:
判断预设的任务列表中是否包含高优先级任务;
若为是,所述使用预设的收录脚本,从预设的任务列表中获取待处理文章的步骤,包括:
使用预设的收录脚本,从任务列表中获取高优先级任务对应的待处理文章。
可选的,在使用预设的收录脚本,从预设的任务列表中获取待处理文章的步骤之前,方法还包括:
判断任务列表中是否包含低优先级任务;
若为是,使用预设的收录脚本,从预设的任务列表中获取待处理文章的步骤,包括:
使用预设的收录脚本,从任务列表中获取除低优先级任务以外的其他任务对应的待处理文章。
可选的,任务列表还包括关键字;
在使用收录脚本,将待处理文章收录在预设主题中的步骤之前,方法还包括:
使用收录脚本,判断待处理文章中是否包括关键字;
若为是,则执行所述使用所述收录脚本,将所述待处理文章收录在所述预设主题中的步骤。
本发明实施例还提供了一种文章收录装置,装置包括:
第一获取单元,用于使用预设的收录脚本,从预设的任务列表中获取待处理文章,任务列表包括至少一篇属于预设主题的待处理文章;
删除单元,用于在获取待处理文章之后,从任务列表中删除待处理文章;
第一判断单元,用于使用收录脚本,判断待处理文章是否已经收录在预设主题中;
收录单元,用于若所述第一判断单元的判断结果为所述待处理文章尚未收录在所述预设主题中,使用所述收录脚本,将所述待处理文章收录在所述预设主题中。
可选的,装置还包括:
第二获取单元,用于从预设的数据库中获取符合预设主题的待处理文章;
生成单元,用于根据获取到的待处理文章,生成任务列表。
可选的,装置还包括:
第二判断单元,用于判断预设的任务列表中是否包含高优先级任务;
第一获取单元,具体用于若第二判断单元的判断结果为预设的任务列表中包含高优先级任务,使用预设的收录脚本,从任务列表中获取高优先级任务对应的待处理文章。
可选的,装置还包括:
第三获取单元,用于判断任务列表中是否包含低优先级任务;
第一获取单元,具体用于若第三判断单元的判断结果为预设的任务列表中包含低优先级任务,使用预设的收录脚本,从任务列表中获取除低优先级任务以外的其他任务对应的待处理文章。
可选的,任务列表还包括关键字;
装置还包括:
第四判断单元,用于使用收录脚本,判断待处理文章中是否包括关键字;
执行单元,用于若第三判断单元的判断结果为待处理文章包括关键字,则执行收录单元。
本发明实施例又提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的文章收录方法。
本发明实施例另提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的文章收录方法。
本发明实施例提供的一种文章收录方法及装置,首先,使用预设的收录脚本,从预设的任务列表中获取待处理文章,任务列表包括至少一篇待处理文章;然后,在获取待处理文章之后,从任务列表中删除待处理文章;接下来,使用收录脚本,判断待处理文章是否已经收录在预设主题中;若待处理文章尚未收录在预设主题中,使用收录脚本,将待处理文章收录在预设主题中。
这样,在多个收录脚本同时对文章进行收录的场景下,能够避免多个收录脚本同时获取到同一篇文章,进而避免出现多个收录脚本对同一篇文章进行重复判断,提高了收录脚本对文章的收录效率。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的文章收录方法的一种流程图;
图2为本发明实施例的文章收录方法的又一种流程图;
图3为本发明实施例的文章收录方法的另一种流程图;
图4为本发明实施例的文章收录方法的再一种流程图;
图5为本发明实施例的文章收录装置的结构图;
图6为本发明实施例的电子设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
近年来,互联网信息的快速增长使用户享受到了丰富的精神生活,但同时,由于互联网上的信息量过大,用户无法从海量信息中快速查找到所需信息。为了方便用户查找所需信息,各网站均实现了对文章的收录功能。通常情况下,网站会收录特定主题的文章,比如,股票类的网站会设定一些与股票有关的主题,比如,近一周涨幅较大的股票等,进而将网站上与该主题相关的文章收录在该主题中,不仅方便用户查看,而且能提高文章的浏览量。
在现有技术中,可以通过执行脚本语言编写的收录脚本,来实现对文章的收录。当待收录文章的数量较多时,可以通过增加收录脚本的数量来解决。但是,在上述收录过程中,由于使用多个收录脚本同时从预设的数据库中获取待处理文章,可能导致多个收录脚本获取到同一篇文章,进而使多个收录脚本对同一篇文章重新执行上述第二步的判断过程,影响对待处理文章的收录效率。
为了解决上述问题,本发明实施例通过预设的任务列表,使收录脚本从任务列表中获取待处理文章,并从任务列表中删除获取过的待处理文章的方法,避免出现多个收录脚本重复获取同一篇待处理文章的问题,也不会出现多个收录脚本对同一篇文章重新执行上述第二步的判断过程,提高了脚本收录文章的效率。
本发明实施例公开了一种文章收录方法。参见图1,图1为本发明实施例的文章收录方法的一种流程图,包括如下步骤:
步骤101,使用预设的收录脚本,从预设的任务列表中获取待处理文章。
其中,任务列表包括至少一篇属于预设主题的待处理文章。
在本步骤中,使用预设的收录脚本,从预设的任务列表中获取待处理文章,通常情况下,一个收录脚本一次从任务列表中获取一篇待处理文章,以使收录脚本能够对获取到的待处理文章进行收录处理。
其中,待处理文章可以是属于预设主题的文章、博文、新闻、消息或者任何属于预设主题的文字信息。通常情况下,预设主题与网站类型有关,比如,股票类的网站,预设主题可以是“近期涨幅较大的股票”、“最具潜力的股票”等。
在实际应用中,收录脚本可以由超文本预处理(Hypertext Preprocessor,PHP)语言编译;任务列表中包括多篇待处理文章,任务列表也可以由PHP语言编译。当然,收录脚本和任务列表也可以由动态服务器网页(Active Server Pages,ASP)语言或者JAVA语言等编程语言来实现。
在具体实施过程中,还可以预设一个分配脚本,用于将任务列表中的待分类文章分配给各收录脚本。
可选的,在步骤101之前,方法还可以包括:
从预设的数据库中获取符合预设主题的待处理文章;
根据获取到的待处理文章,生成任务列表。
具体的,预设的数据库中包括大量文章,可以根据预设主题,从数据库中获取多篇符合预设主题的待处理文章,并根据获取到的多篇待处理文章生成任务列表,使收录脚本能够从任务列表中获取待处理文章,进而对待处理文章进行收录。
步骤102,在获取待处理文章之后,从任务列表中删除待处理文章。
在本步骤中,在收录脚本从任务列表中获取待处理文章之后,从任务列表中删除该待处理文章,以免其他收录脚本重复获取该待处理文章。
这样,能够避免多个收录脚本重复获取同一篇待处理文章的问题,进而避免出现多个收录脚本对同一篇文章重复判断是否已经收录在预设主题中,提高了收录脚本收录文章的效率。
步骤103,使用收录脚本,判断待处理文章是否已经收录在预设主题中,若为否,则执行步骤104。
在本步骤中,使用收录脚本,判断待处理文章是否已经收录在预设主题中,若为否,则通过执行步骤104对该待处理文章进行收录,若为是,则不收录该待处理文章,以免在预设主题中出现重复的文章,影响用户体验。
需要说明的是,步骤103的详细过程可以参考现有技术,在此不再赘述。
步骤104,使用收录脚本,将待处理文章收录在预设主题中。
在本步骤中,使用收录脚本,将该待处理文章收录在预设主题中,不仅方便用户查看,而且能够提高文章的浏览量。
需要说明的是,步骤104的详细过程可以参考现有技术,在此不再赘述。
可见,在本发明实施例中,首先,使用预设的收录脚本,从预设的任务列表中获取待处理文章,任务列表包括至少一篇待处理文章;然后,在获取待处理文章之后,从任务列表中删除待处理文章;接下来,使用收录脚本,判断待处理文章是否已经收录在预设主题中;若待处理文章尚未收录在预设主题中,使用收录脚本,将待处理文章收录在预设主题中。这样,在多个收录脚本同时对文章进行收录的场景下,能够避免多个收录脚本同时获取到同一篇文章,进而避免出现多个收录脚本对同一篇文章进行重复判断,提高了收录脚本对文章的收录效率。
在实际应用中,可以通过在任务列表中设置高优先级任务,实现对高优先级任务对应的待处理文章的优先收录。针对这种情况,本发明实施例又提出了一种文章收录方法。参见图2,图2为本发明实施例的文章收录方法的又一种流程图,包括如下步骤:
步骤201,判断预设的任务列表中是否包含高优先级任务;若为是,则执行步骤202。
其中,任务列表包括至少一篇属于预设主题的待处理文章。
在本步骤中,判断预设的任务列表中是否包含高优先级任务,若为是,则执行步骤202,以实现优先对高优先级任务对应的待处理文章进行收录处理。
步骤202,使用预设的收录脚本,从任务列表中获取高优先级任务对应的待处理文章。
在本步骤中,使用预设的收录脚本,从任务列表中获取高优先级任务对应的待处理文章,以实现对高优先级任务对应的待处理文章的优先收录。
步骤203,在获取待处理文章之后,从任务列表中删除待处理文章。
需要说明的是,本步骤的详细过程和技术效果可以参考图1所示的文章收录方法中的步骤102,在此不再赘述。
步骤204,使用收录脚本,判断待处理文章是否已经收录在预设主题中;若为否,则执行步骤205。
需要说明的是,本步骤的详细过程和技术效果可以参考图1所示的文章收录方法中的步骤103,在此不再赘述。
步骤205,使用收录脚本,将待处理文章收录在预设主题中。
需要说明的是,本步骤的详细过程和技术效果可以参考图1所示的文章收录方法中的步骤104,在此不再赘述。
可见,在本发明实施例中,可以通过判断任务列表中是否存在高优先级任务,如果是,则能够对高优先级任务对应的待处理文章进行优先收录处理,使得本发明实施例所述的文章收录方法的应用更加灵活和个性化,使用户体验更佳。
除上述方法以外,还可以通过在任务列表中设置低优先级任务,实现对除低优先级任务以外的其他任务对应的待处理文章的优先收录。针对这种情况,本发明实施例另提出了一种文章收录方法。参见图3,图3为本发明实施例的文章收录方法的另一种流程图,包括如下步骤:
步骤301,判断任务列表中是否包含低优先级任务;若为是,则执行步骤302。
其中,任务列表包括至少一篇属于预设主题的待处理文章。
在本步骤中,判断预设的任务列表中是否包含低优先级任务,若为是,则执行步骤302,以实现优先对除低优先级任务以外的其他任务对应的待处理文章进行收录处理。
步骤302,使用预设的收录脚本,从任务列表中获取除低优先级任务以外的其他任务对应的待处理文章。
在本步骤中,使用预设的收录脚本,从任务列表中获取除低优先级任务以外的其他任务对应的待处理文章,以实现对除低优先级任务以外的其他任务对应的待处理文章的优先收录。
步骤303,在获取待处理文章之后,从任务列表中删除待处理文章。
需要说明的是,本步骤的详细过程和技术效果可以参考图1所示的文章收录方法中的步骤102,在此不再赘述。
步骤304,使用收录脚本,判断待处理文章是否已经收录在预设主题中;若为否,则执行步骤305。
需要说明的是,本步骤的详细过程和技术效果可以参考图1所示的文章收录方法中的步骤103,在此不再赘述。
步骤305,使用收录脚本,将待处理文章收录在预设主题中。
需要说明的是,本步骤的详细过程和技术效果可以参考图1所示的文章收录方法中的步骤104,在此不再赘述。
可见,在本发明实施例中,可以通过判断任务列表中是否存在低优先级任务,如果是,则能够对除低优先级任务以外的其他任务对应的待处理文章进行优先收录处理,使得本发明实施例所述的文章收录方法的应用更加灵活和个性化,提升了用户的使用感受。
此外,还可以通过在任务列表中设置关键字,实现只收录包括该关键字的待处理文章的技术效果。针对这种情况,本发明实施例再提出了一种文章收录方法。参见图4,图4为本发明实施例的文章收录方法的再一种流程图,包括如下步骤:
步骤401,使用预设的收录脚本,从预设的任务列表中获取待处理文章。
其中,任务列表包括至少一篇属于预设主题的待处理文章,任务列表还包括关键字。
在本步骤中,使用预设的收录脚本,从预设的任务列表中获取待处理文章,以使收录脚本能够对获取到的待处理文章进行收录处理。其中,任务列表中除了属于预设主题的待处理文章,还包括关键字。
需要说明的是,相比图1至图3的文章收录方法多了一个对待处理文章的限制条件,只有包括关键字的待处理文章,才会被收录在预设主题中。
步骤402,在获取待处理文章之后,从任务列表中删除待处理文章。
需要说明的是,本步骤的详细过程和技术效果可以参考图1所示的文章收录方法中的步骤102,在此不再赘述。
步骤403,使用收录脚本,判断待处理文章是否已经收录在预设主题中;若为否,则执行步骤404。
需要说明的是,本步骤的详细过程和技术效果可以参考图1所示的文章收录方法中的步骤103,在此不再赘述。
步骤404,使用收录脚本,判断待处理文章中是否包括关键字;若为是,则执行步骤405。
在本步骤中,使用收录脚本,判断待处理文章中是否包含任务列表中的关键字,若为是,则执行步骤405,以使用收录脚本收录该待处理文章,若为否,则不收录该待处理文章。
步骤405,使用收录脚本,将待处理文章收录在预设主题中。
需要说明的是,本步骤的详细过程和技术效果可以参考图1所示的文章收录方法中的步骤104,在此不再赘述。
可见,在本发明实施例中,可以通过在任务列表中设置关键字,实现只有当待处理文章包括关键字时才会被收录到预设主题中的技术效果,使得本发明实施例所述的文章收录方法的应用更加灵活和个性化,提升了用户的使用感受。
本发明实施例再提出了一种文章收录装置。参见图5,图5为本发明实施例的文章收录装置的结构图,文章收录装置包括:
第一获取单元501,用于使用预设的收录脚本,从预设的任务列表中获取待处理文章,任务列表包括至少一篇属于预设主题的待处理文章;
删除单元502,用于在获取待处理文章之后,从任务列表中删除待处理文章;
第一判断单元503,用于使用收录脚本,判断待处理文章是否已经收录在预设主题中;
收录单元504,用于若所述第一判断单元的判断结果为所述待处理文章尚未收录在所述预设主题中,使用所述收录脚本,将所述待处理文章收录在所述预设主题中。
可选的,装置还包括:
第二获取单元,用于从预设的数据库中获取符合预设主题的待处理文章;
生成单元,用于根据获取到的待处理文章,生成任务列表。
可选的,装置还包括:
第二判断单元,用于判断预设的任务列表中是否包含高优先级任务;
第一获取单元501,具体用于若第二判断单元的判断结果为预设的任务列表中包含高优先级任务,使用预设的收录脚本,从任务列表中获取高优先级任务对应的待处理文章。
可选的,装置还包括:
第三获取单元,用于判断任务列表中是否包含低优先级任务;
第一获取单元501,具体用于若第三判断单元的判断结果为预设的任务列表中包含低优先级任务,使用预设的收录脚本,从任务列表中获取除低优先级任务以外的其他任务对应的待处理文章。
可选的,任务列表还包括关键字;
装置还包括:
第四判断单元,用于使用收录脚本,判断待处理文章中是否包括关键字;
执行单元,用于若第三判断单元的判断结果为待处理文章包括关键字,则执行收录单元504。
可见,在本发明实施例中,首先,使用预设的收录脚本,从预设的任务列表中获取待处理文章,任务列表包括至少一篇待处理文章;然后,在获取待处理文章之后,从任务列表中删除待处理文章;接下来,使用收录脚本,判断待处理文章是否已经收录在预设主题中;若待处理文章尚未收录在预设主题中,使用收录脚本,将待处理文章收录在预设主题中。这样,在多个收录脚本同时对文章进行收录的场景下,能够避免多个收录脚本同时获取到同一篇文章,也就不会出现多个收录脚本对同一篇文章进行重复判断,提高了脚本收录文章的效率。
本发明实施例再提供了一种电子设备,参考图6,图6为本发明实施例的电子设备的示意图,在图6中,电子设备包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
存储器603,用于存放计算机程序;
处理器601,用于执行存储器603上所存放的程序时,实现如下步骤:
使用预设的收录脚本,从预设的任务列表中获取待处理文章,任务列表包括至少一篇属于预设主题的待处理文章;
在获取待处理文章之后,从任务列表中删除待处理文章;
使用收录脚本,判断待处理文章是否已经收录在预设主题中;
若待处理文章尚未收录在预设主题中,使用收录脚本,将待处理文章收录在预设主题中。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明实施例再提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的文章收录方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种文章收录方法,其特征在于,所述方法包括:
使用预设的收录脚本,从预设的任务列表中获取待处理文章,所述任务列表包括至少一篇属于预设主题的待处理文章;
在获取所述待处理文章之后,从所述任务列表中删除所述待处理文章;
使用所述收录脚本,判断所述待处理文章是否已经收录在所述预设主题中;
若为否,使用所述收录脚本,将所述待处理文章收录在所述预设主题中。
2.根据权利要求1所述的方法,其特征在于,在所述使用预设的收录脚本,从预设的任务列表中获取待处理文章的步骤之前,所述方法还包括:
从预设的数据库中获取符合预设主题的待处理文章;
根据获取到的所述待处理文章,生成任务列表。
3.根据权利要求1所述的方法,其特征在于,在所述使用预设的收录脚本,从预设的任务列表中获取待处理文章的步骤之前,所述方法还包括:
判断预设的任务列表中是否包含高优先级任务;
若为是,所述使用预设的收录脚本,从预设的任务列表中获取待处理文章的步骤,包括:
使用预设的收录脚本,从所述任务列表中获取所述高优先级任务对应的待处理文章。
4.根据权利要求1所述的方法,其特征在于,在所述使用预设的收录脚本,从预设的任务列表中获取待处理文章的步骤之前,所述方法还包括:
判断所述任务列表中是否包含低优先级任务;
若为是,所述使用预设的收录脚本,从预设的任务列表中获取待处理文章的步骤,包括:
使用预设的收录脚本,从所述任务列表中获取除所述低优先级任务以外的其他任务对应的待处理文章。
5.根据权利要求1所述的方法,其特征在于,所述任务列表还包括关键字;
在所述使用所述收录脚本,将所述待处理文章收录在所述预设主题中的步骤之前,所述方法还包括:
使用所述收录脚本,判断所述待处理文章中是否包括所述关键字;
若为是,则执行所述使用所述收录脚本,将所述待处理文章收录在所述预设主题中的步骤。
6.一种文章收录装置,其特征在于,所述装置包括:
第一获取单元,用于使用预设的收录脚本,从预设的任务列表中获取待处理文章,所述任务列表包括至少一篇属于预设主题的待处理文章;
删除单元,用于在获取所述待处理文章之后,从所述任务列表中删除所述待处理文章;
第一判断单元,用于使用所述收录脚本,判断所述待处理文章是否已经收录在所述预设主题中;
收录单元,用于若所述第一判断单元的判断结果为所述待处理文章尚未收录在所述预设主题中,使用所述收录脚本,将所述待处理文章收录在所述预设主题中。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二获取单元,用于从预设的数据库中获取符合预设主题的待处理文章;
生成单元,用于根据获取到的所述待处理文章,生成任务列表。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二判断单元,用于判断预设的任务列表中是否包含高优先级任务;
所述第一获取单元,具体用于若所述第二判断单元的判断结果为预设的任务列表中包含高优先级任务,使用预设的收录脚本,从所述任务列表中获取所述高优先级任务对应的待处理文章。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第三获取单元,用于判断所述任务列表中是否包含低优先级任务;
所述第一获取单元,具体用于若所述第三判断单元的判断结果为预设的任务列表中包含低优先级任务,使用预设的收录脚本,从所述任务列表中获取除所述低优先级任务以外的其他任务对应的待处理文章。
10.根据权利要求6所述的装置,其特征在于,所述任务列表还包括关键字;
所述装置还包括:
第四判断单元,用于使用所述收录脚本,判断所述待处理文章中是否包括所述关键字;
执行单元,用于若所述第三判断单元的判断结果为所述待处理文章包括所述关键字,则执行所述收录单元。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710763341.8A CN107480297A (zh) | 2017-08-30 | 2017-08-30 | 一种文章收录方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710763341.8A CN107480297A (zh) | 2017-08-30 | 2017-08-30 | 一种文章收录方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107480297A true CN107480297A (zh) | 2017-12-15 |
Family
ID=60603169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710763341.8A Pending CN107480297A (zh) | 2017-08-30 | 2017-08-30 | 一种文章收录方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107480297A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108037950A (zh) * | 2017-12-27 | 2018-05-15 | 福建中金在线信息科技有限公司 | 一种信息删除方法、装置、电子设备及可读存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102355488A (zh) * | 2011-08-15 | 2012-02-15 | 北京星网锐捷网络技术有限公司 | 爬虫种子获取方法与设备及爬虫爬取方法与设备 |
CN103544165A (zh) * | 2012-07-12 | 2014-01-29 | 腾讯科技(深圳)有限公司 | 新词挖掘方法和系统 |
CN103577173A (zh) * | 2012-07-30 | 2014-02-12 | 腾讯科技(深圳)有限公司 | 任务处理方法和装置 |
CN103761279A (zh) * | 2014-01-09 | 2014-04-30 | 北京京东尚科信息技术有限公司 | 一种基于关键词检索的网络爬虫调度方法及系统 |
US20140330575A1 (en) * | 2013-05-02 | 2014-11-06 | Eloquence Communications, Inc. | Method and system for healthcare provider tracking |
CN104615716A (zh) * | 2015-02-05 | 2015-05-13 | 北京航空航天大学 | 基于优先序列的分布式社交网络信息采集方法及系统 |
CN105159657A (zh) * | 2015-06-12 | 2015-12-16 | 北京京东尚科信息技术有限公司 | 处理消息的方法和系统 |
CN105893622A (zh) * | 2016-04-29 | 2016-08-24 | 深圳市中润四方信息技术有限公司 | 一种聚合搜索方法及聚合搜索系统 |
CN106096040A (zh) * | 2016-06-29 | 2016-11-09 | 中国人民解放军国防科学技术大学 | 基于搜索引擎的机构网站归属地判别方法及其装置 |
CN106909637A (zh) * | 2017-02-14 | 2017-06-30 | 国家计算机网络与信息安全管理中心 | 微信公众号的影响力分析方法和系统 |
-
2017
- 2017-08-30 CN CN201710763341.8A patent/CN107480297A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102355488A (zh) * | 2011-08-15 | 2012-02-15 | 北京星网锐捷网络技术有限公司 | 爬虫种子获取方法与设备及爬虫爬取方法与设备 |
CN103544165A (zh) * | 2012-07-12 | 2014-01-29 | 腾讯科技(深圳)有限公司 | 新词挖掘方法和系统 |
CN103577173A (zh) * | 2012-07-30 | 2014-02-12 | 腾讯科技(深圳)有限公司 | 任务处理方法和装置 |
US20140330575A1 (en) * | 2013-05-02 | 2014-11-06 | Eloquence Communications, Inc. | Method and system for healthcare provider tracking |
CN103761279A (zh) * | 2014-01-09 | 2014-04-30 | 北京京东尚科信息技术有限公司 | 一种基于关键词检索的网络爬虫调度方法及系统 |
CN104615716A (zh) * | 2015-02-05 | 2015-05-13 | 北京航空航天大学 | 基于优先序列的分布式社交网络信息采集方法及系统 |
CN105159657A (zh) * | 2015-06-12 | 2015-12-16 | 北京京东尚科信息技术有限公司 | 处理消息的方法和系统 |
CN105893622A (zh) * | 2016-04-29 | 2016-08-24 | 深圳市中润四方信息技术有限公司 | 一种聚合搜索方法及聚合搜索系统 |
CN106096040A (zh) * | 2016-06-29 | 2016-11-09 | 中国人民解放军国防科学技术大学 | 基于搜索引擎的机构网站归属地判别方法及其装置 |
CN106909637A (zh) * | 2017-02-14 | 2017-06-30 | 国家计算机网络与信息安全管理中心 | 微信公众号的影响力分析方法和系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108037950A (zh) * | 2017-12-27 | 2018-05-15 | 福建中金在线信息科技有限公司 | 一种信息删除方法、装置、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6488508B2 (ja) | ウェブページのアクセス方法、装置、デバイス及びプログラム | |
US9454535B2 (en) | Topical mapping | |
CN109829096B (zh) | 一种数据采集方法、装置、电子设备及存储介质 | |
US8468145B2 (en) | Indexing of URLs with fragments | |
CN107220094A (zh) | 页面加载方法、装置和电子设备 | |
CN107291449B (zh) | 一种页面渲染方法、装置及设备 | |
CN104052809B (zh) | 一种网站测试的分流控制方法和装置 | |
CN106339414A (zh) | 网页渲染方法及装置 | |
CN107807937B (zh) | 一种网站seo处理方法、装置及系统 | |
KR20140003415A (ko) | 폰트 스타일 요소의 추출 및 관리 | |
CN105893622A (zh) | 一种聚合搜索方法及聚合搜索系统 | |
CN107590145A (zh) | 一种页面静态资源的处理方法和装置 | |
CN106951451A (zh) | 一种网页内容提取方法、装置及计算设备 | |
CN107391775A (zh) | 一种通用的网络爬虫模型实现方法及系统 | |
CN102375847B (zh) | 形成用于生成文档模板的合并树的方法以及装置 | |
CN110909229A (zh) | 一种基于模拟浏览器访问的网页数据获取和存储的系统 | |
CN107343031A (zh) | 一种自动更新文件的方法、装置、电子设备及存储介质 | |
CN103984743B (zh) | 一种管理内存资源的方法及装置 | |
CN107329991A (zh) | 一种列表页访问和展示方法及其系统 | |
CN104899228A (zh) | 一种发布网页资源的方法及装置 | |
CN113408254A (zh) | 一种页面表单信息填写方法、装置、设备和可读介质 | |
Вакалюк et al. | Development of a web-based system of automatic content retrieval database | |
CN108959293A (zh) | 一种文本数据分类方法及服务器 | |
CN107480297A (zh) | 一种文章收录方法及装置 | |
CN111324725B (zh) | 一种话题获取方法、终端、计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171215 |