CN105843921A

CN105843921A - 一种抓取热歌的方法和装置

Info

Publication number: CN105843921A
Application number: CN201610177779.3A
Authority: CN
Inventors: 陈开登; 马利滨; 刘旺; 林剑宇; 林鎏娟
Original assignee: Fujian Star Net eVideo Information Systems Co Ltd
Current assignee: Fujian Star Net eVideo Information Systems Co Ltd
Priority date: 2016-03-25
Filing date: 2016-03-25
Publication date: 2016-08-10

Abstract

本发明公开一种抓取热歌的方法和装置，其中方法包括如下步骤：根据热歌榜单的网络地址获取热歌榜单的原始数据；根据网络地址对应的解析规则对原始数据进行解析，得到热歌榜单的目录；将热歌榜单的目录与预存的歌曲库进行对比；增加歌曲库中缺少的歌曲。本发明通过获取热歌榜单的原始数据后，自动对热歌榜单进行解析得到热歌榜单目录，并自动与数据库的歌曲进行比对，并显示出对比结果，而后工作人员只需要查看比对结果就可以进行缺歌上报，大大减少了工作人员的工作时间，提高了工作效率。针对该方案，本发明进一步还采用一些特定的工具的组合，可以在最快实现本发明目的的同时大大减少软件开发的时间。

Description

一种抓取热歌的方法和装置

技术领域

本发明涉及信息获取技术领域，尤其涉及一种抓取热歌的方法和装置。

背景技术

热歌就是热门歌曲，热歌榜单就是对热门歌曲的热度进行排名后，得到排名靠前的热歌目录。现有的很多歌曲搜索网站根据歌曲的搜索频次作为歌曲的热度或热门度，而后根据搜索频次高低制作出热歌榜单并在网站上显示出来。由于热歌为当前较为流行的歌曲，用户在数字视听场所(酒吧、KTV场所等)听歌或K歌时，一般也会点播当前的热歌。若点播机中无法点播到这些热歌，会大大影响用户体验。则对于这些数字视听场所的歌曲提供商，就需要实时关注热歌榜单，并查看自己的歌曲库中是否有这些热歌。现有的处理方式绝大多数采用手工操作的方式，首先去互联网的热歌榜单的网站上收集最新最热的歌曲，将这些歌曲制作成表格，而后在歌曲数据库中逐一查询是否有这些热歌。如果歌曲库中不存在某一首热歌，就将缺少的歌曲进行登记。登记后，可以进行后续工作，如去安排歌曲版权获取、音准原声制作等后续工作。

这样在热歌获取阶段，就需要大量的人员去完成这个工作，而且现有的手工操作的方式费时、耗力，造成工作周期比较长，无法及时将当前热歌添加到歌曲库中。

发明内容

为此，需要提供一种抓取热歌的方法和装置，解决现有热歌匹配花费时间长、浪费大量人力、还可能出现更新不及时的问题。

为实现上述目的，发明人提供了一种抓取热歌的方法，包括如下步骤：

根据热歌榜单的网络地址获取热歌榜单的原始数据；

根据网络地址对应的解析规则对原始数据进行解析，得到热歌榜单的目录；

将热歌榜单的目录与预存的歌曲库进行对比；

增加歌曲库中缺少的歌曲。

进一步地，所述解析规则包括：

将原始数据转成字符串；

通过网页脚本解析器将字符串转化成规格文档；

根据正则表达式逐层解析规格文档得到热歌榜单的目录。

进一步地，所述“根据热歌榜单的网络地址获取热歌榜单的原始数据”包括：

采用爬虫工具，获取全部所需的热歌网址的原始数据。

进一步地，所述“根据热歌榜单的网络地址获取热歌榜单的原始数据”步骤前还包括步骤：

检测时间是否到达预设的执行时间点；

在时间到达预设的执行时间点后，执行“根据热歌榜单的网络地址获取热歌榜单的原始数据”的步骤。

进一步地，所述执行“根据热歌榜单的网络地址获取热歌榜单的原始数据”步骤包括：

使用应用开发框架和任务调度框架执行“根据热歌榜单的网络地址获取热歌榜单的原始数据”步骤。

以及本发明还提供一种抓取热歌的装置，包括如下模块：

原始数据获取模块：用于根据热歌榜单的网络地址获取热歌榜单的原始数据；

原始数据解析模块：用于根据网络地址对应的解析规则对原始数据进行解析，得到热歌榜单的目录；

热歌榜单比对模块：用于将热歌榜单的目录与预存的歌曲库进行对比；

榜单歌曲增加模块：用于增加歌曲库中缺少的歌曲。

进一步地，所述解析规则包括：

将原始数据转成字符串；

通过网页脚本解析器将字符串转化成规格文档；

根据正则表达式逐层解析规格文档得到热歌榜单的目录。

进一步地，所述原始数据获取模块还用于采用爬虫工具，获取全部所需的热歌网址的原始数据。

进一步地，还包括模块：

执行时间检测模块：用于检测时间是否到达预设的执行时间点；

抓取动作执行模块：在时间到达预设的执行时间点后，使能原始数据获取模块。

进一步地，所述抓取动作执行模块还用于使用应用开发框架和任务调度框架使能原始数据获取模块。

区别于现有技术，上述技术方案通过获取热歌榜单的原始数据后，自动对热歌榜单进行解析得到热歌榜单目录，并自动与数据库的歌曲进行比对，并显示出对比结果，而后工作人员只需要查看比对结果就可以进行缺歌上报，大大减少了工作人员的工作时间，提高了工作效率。

通过本发明的方法还可以及时增加歌曲库中缺少的当前热歌，满足用户在数字视听场所点播当前热歌的需求，提高用户体验。

针对该方案，本发明进一步还采用一些特定的工具的组合，可以在最快实现本发明目的的同时大大减少软件开发的时间。

附图说明

图1为本发明方法一实施例的流程图；

图2为Quartz的工作原理图；

图3为本发明装置一实施例的结构图。

附图标记说明：

300、抓取热歌的装置，

301、执行时间检测模块，302、抓取动作执行模块，

303、原始数据获取模块，304、原始数据解析模块，

305、热歌榜单比对模块，306、榜单歌曲增加模块。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1到图3，本实施例首先提供一种抓取热歌的方法，该方法可以运行在如图3的装置中，或者也可以运行在具有微处理功能的电子装置中。本方法包括如下步骤，步骤S111根据热歌榜单的网络地址获取热歌榜单的原始数据。在某些实施例中，步骤S111具体可以为打开热歌榜单的网络地址(网址)，获取热歌榜单的原始数据。打开网络地址后，可以从互联网上下载到网络地址对应的原始数据。而后在步骤S112中根据网络地址对应的解析规则对原始数据进行解析，得到热歌榜单的目录。不同的网络地址所对应的原始数据的格式是不同的，需要与之对应的解析规则进行解析。解析后就排除了不需要的数据，得到了热歌榜单的目录。这个目录可以包含有热歌的歌曲名和该热歌的排名。而后在步骤S113中将热歌榜单的目录与预存的歌曲库进行对比。比对的目的是知道数据库中是否存有所有热歌榜单中的歌曲。如果没有，则在步骤S114中增加歌曲库中缺少的歌曲。其中，歌曲库中缺少的歌曲就是在热歌榜单的目录中歌曲库缺少的歌曲，可以在歌曲库中对增加的歌曲进行标记，以确定其就是缺少的歌曲。当然，在步骤S114后也可以将读取数据库后将这个比对结果显示出来。根据缺歌清单，在歌曲库中对应增加缺少的歌曲。具体增加的方法可以是：购买歌曲版权，并将歌曲上传到服务器及在歌曲库中录入。这样通过获取热歌榜单的原始数据后，自动对热歌榜单进行解析得到热歌榜单目录，并自动与歌曲库的歌曲进行比对，显示出对比结果，而后工作人员只需要查看比对结果就可以进行缺歌上报，大大减少了工作人员的工作时间，提高了工作效率。同时，及时在歌曲库中增加缺少的当前热歌，及时更新歌曲库，满足用户点播当前热歌的需求，提高用户体验。

在本发明中，比较重要的就是热歌榜单网址和解析规则的确定。热歌榜单可以从各个音乐榜单网站上获得。解析规则的确定由热歌榜单网址对应的原始数据决定。具体地，可以通过分析数据包的形式对原始数据进行分析，如可以用抓包利器HTTP Analyzer(一款网络抓包工具)来分析数据包。

对于不同的网址，其解析规则也是不同的。在一些网址中，网页中就存有所有的热歌榜单数据，则可以通过如下的解析规则进行直接解析，即所述解析规则包括：将原始数据转成字符串(string)；通过网页脚本解析器将字符串转化成规格文档(Document)；根据正则表达式逐层解析规格文档得到热歌榜单的目录。其中，网页脚本解析器可以采用Jsoup，Jsoup是一款Java的HTML解析器，Jsoup提供了一套非常强大的java解析Html元素的API。对于很多大数量的歌曲榜单信息，其原始数据都是规律性很强的标签，包含有大量重复的html代码。通过Jsoup可以轻松地获取到热歌榜单的目录。本发明中的网页脚本解析器还可以是Htmlparser(java写的html解析的库)、NekoHTML(HTML扫描器和标签补偿器)、JTidy(可做为处理HTML文件的DOM解析器)或HtmlCleaner(Java语言的Html文档解析器)等等。正则表达式(regular expression)描述了一种字符串匹配的模式，可以用来检查一个字符串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等，在本发明中利用正则表达式可以在歌曲榜单的标签中将歌曲的名称和排名提取出来。通过上述的解析规则，可以从各网页中快速获取热歌榜单的热歌目录。

而在某些相对复杂的网址中，其热歌榜单的分页是在后台完成的，每次的分页都是要去请求不同的页面。如热歌榜单前十名存在hostname/1.html，十到二十名存在hostname/2.html中，依次类推。现有的做法很多都是采用循环的做法，如前一百名就循环做十次。但是这样在遇上不同数量的热歌榜单，则需要一个个去设置，这样开发实现起来很麻烦。本发明采用一个软件来解决该问题，即采用java爬虫工具，获取全部所需的热歌网址的原始数据。其中，爬虫工具可以采用Crawler，Crawler是一个简单的Web爬虫软件。Crawler使得软件开发者不用编写枯燥、容易出错的代码，只需专注于抓取网站的结构。此外，Crawler使用比较方便，简单的配置一些参数就能使用，对于上面提到的不同数量的热歌榜单的问题，只要将热歌榜单地址的正则表达式输入到Crawler，Crawler就可以自动执行并获取网页原始数据，即可以获取到相应数量的热歌榜单。Crawler获取完原始数据之后，本发明继续执行“根据网络地址对应的解析规则对原始数据进行解析，得到热歌榜单的目录”的步骤，解析里面的html元素，再通过正则表达式过滤得到想要的热歌榜单的目录。本发明中使用的爬虫工具还可以是GECCO(轻量化网络爬虫工具)等等。通过上述的方法，可快速、便捷的获取各热歌网址的原始数据。

热歌榜单根据歌曲的热门程度或时间等等因素会发生变化，如果没有及时获取到当前的热歌榜单，则可能会错过某些热歌。现有的做法是工作人员有时间就去刷新网址获取榜单数据，这样工作量相对较大。本发明采用定时自动化队列设计的方法，具体地，首先在步骤S101检测时间是否到达预设的执行时间点；而后在步骤S102在时间到达预设的执行时间点后，执行“根据热歌榜单的网络地址获取热歌榜单的原始数据”的步骤。这样只要到达预设的执行时间点，就可以获取到歌曲库中缺少的热歌榜单的目录。如果工作人员在电脑旁，可以直接显示，或者也可以将缺少的热歌榜单的目录存储到歌曲库中，后续再将缺少的歌曲增加到歌曲库中。其中，该预设的执行时间点可以根据不同的时间间隔设置，例如，可以将时间间隔设置为4小时执行一次，第一次预设12点为执行时间点，下一次的执行时间点为16点，再下一次的执行时间点是20点，依次类推。当然，该时间间隔可根据具体情况设置，可以是4-48小时等等。当系统较为空闲时，可以设置较短的时间间隔(例如每隔4小时)执行一次“根据热歌榜单的网络地址获取热歌榜单的原始数据”的步骤；当系统较为繁忙时，可以设置较长的时间间隔(例如每隔24小时)执行一次“根据热歌榜单的网络地址获取热歌榜单的原始数据”的步骤。通过设置定时自动进行获取热歌榜单的原始数据，保证歌曲库更新的及时性。

为了简化软件开发的流程，本发明使用应用开发框架和任务调度框架进行自动队列设计。具体实现的流程包括：搭建应用开发框架和任务调度框架；调配多个抓取热歌的自动化队列，并设置自动化程序开启的时间点；部署程序，当到达预设的执行时间点，自动化队列开始抓歌。在某些实施例中，应用开发框架可以采用Spring，任务调度框架可以是Quartz，则本发明定时进行热歌自动抓取的框架机制可以采用Spring+Quartz任务调度的框架。Spring是个开源的轻量级的Java开发框架，Quartz是一个完全由java编写的开源作业调度框架，本发明优选采用该框架的理由在于JavaWeb的项目通常情况下没有多线程去运行自动的定时任务，然后quartz是一个专门来做作业调度的框架，它还可以完全与JavaWeb相结合，无缝适配Spring框架。Quartz工作原理图如图2，可以根据需要设置不同的trigger(触发)条件，到达触发条件即可以对进程(scheduler)进行动作，包括start(开始)、stop(停止)等。本发明采用多个java工具进行软件实现，同时本发明的方法也可以采用java语言开发，可以实现各个功能模块间的兼容，从而提高开发效率，节省工作时间。本发明中，应用开发框架还可以是Struts2(Struts的下一代产品)、Wicket(开发Java Web应用程序框架)或Tapestry(MVC框架)等等；任务调度框架还可以是jcrontab(由Java语言编写的日程处理程序)、Gos4j(多任务处理顺序软件)或Fulcrum Scheduler等等。

以及本发明还提供一种抓取热歌的装置，如图3所示，包括如下模块：原始数据获取模块303：用于根据热歌榜单的网络地址获取热歌榜单的原始数据；原始数据解析模块304：用于根据网络地址对应的解析规则对原始数据进行解析，得到热歌榜单的目录；热歌榜单比对模块305：用于将热歌榜单的目录与预存的歌曲库进行对比；榜单歌曲增加模块306：用于增加歌曲库中缺少的歌曲。本装置通过获取热歌榜单的原始数据后，自动对热歌榜单进行解析得到热歌榜单目录，并自动与数据库的歌曲进行比对，并显示出对比结果，而后工作人员只需要查看比对结果就可以进行缺歌上报，大大减少了工作人员的工作时间，提高了工作效率。针对该方案，本发明进一步还采用一些特定的工具的组合，可以在最快实现本发明目的的同时大大减少软件开发的时间。

在某些实施例中，所述解析规则包括：将原始数据转成字符串；通过网页脚本解析器将字符串转化成规格文档；根据正则表达式逐层解析规格文档得到热歌榜单的目录。本发明中的网页脚本解析器优选采用Jsoup(一款Java的HTML解析器)，还可以是Htmlparser(java写的html解析的库)、NekoHTML(HTML扫描器和标签补偿器)、JTidy(可做为处理HTML文件的DOM解析器)或HtmlCleaner(Java语言的Html文档解析器)等等。通过这样的解析规则，可以获得热歌榜单的目录。

为了便于不同数量的热歌榜单的获取，所述原始数据获取模块还用于采用爬虫工具，获取全部所需的热歌网址的原始数据。本发明中使用的爬虫工具优选采用Crawler，还可以是GECCO(轻量化网络爬虫工具)等等。

进一步地，还包括模块：执行时间检测模块301：用于检测时间是否到达预设的执行时间点；抓取动作执行模块302：在时间到达预设的执行时间点后，使能原始数据获取模块。这样可以及时获取到当前的热歌榜单的目录。

在某些实施例中，所述抓取动作执行模块还用于使用应用开发框架和任务调度框架使能原始数据获取模块。本发明定时进行热歌自动抓取的框架机制优选采用Spring+Quartz任务调度的框架。应用开发框架Spring和Quartz都是java类的框架，可以实现各个功能模块间的兼容，从而提高开发效率，节省工作时间。其中，应用开发框架还可以是Struts2(Struts的下一代产品)、Wicket(开发Java Web应用程序框架)或Tapestry(MVC框架)等等；任务调度框架还可以是jcrontab(由Java语言编写的日程处理程序)、Gos4j(多任务处理顺序软件)或Fulcrum Scheduler等等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括……”或“包含……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外，在本文中，“大于”、“小于”、“超过”等理解为不包括本数；“以上”、“以下”、“以内”等理解为包括本数。

本领域内的技术人员应明白，上述各实施例可提供为方法、装置、或计算机程序产品。这些实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。上述各实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机设备可读取的存储介质中，用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备，包括但不限于：个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等；所述的存储介质，包括但不限于：RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。

上述各实施例是参照根据实施例所述的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到计算机设备的处理器以产生一个机器，使得通过计算机设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机设备以特定方式工作的计算机设备可读存储器中，使得存储在该计算机设备可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机设备上，使得在计算机设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上所述仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。

Claims

1.一种抓取热歌的方法，其特征在于，包括如下步骤：

根据热歌榜单的网络地址获取热歌榜单的原始数据；

将热歌榜单的目录与预存的歌曲库进行对比，增加歌曲库中缺少的歌曲。

2.根据权利要求1所述的一种抓取热歌的方法，其特征在于，所述解析规则包括：

将原始数据转成字符串；

通过网页脚本解析器将字符串转化成规格文档；

根据正则表达式逐层解析规格文档得到热歌榜单的目录。

3.根据权利要求2所述的一种抓取热歌的方法，其特征在于，所述“根据热歌榜单的网络地址获取热歌榜单的原始数据”包括：

采用爬虫工具，获取全部所需的热歌网址的原始数据。

4.根据权利要求1所述的一种抓取热歌的方法，其特征在于，所述“根据热歌榜单的网络地址获取热歌榜单的原始数据”步骤前还包括步骤：

检测时间是否到达预设的执行时间点；

5.根据权利要求4所述的一种抓取热歌的方法，其特征在于，所述执行“根据热歌榜单的网络地址获取热歌榜单的原始数据”步骤包括：

6.一种抓取热歌的装置，其特征在于，包括如下模块：

榜单歌曲增加模块：用于增加歌曲库中缺少的歌曲。

7.根据权利要求6所述的一种抓取热歌的装置，其特征在于，所述解析规则包括：

将原始数据转成字符串；

通过网页脚本解析器将字符串转化成规格文档；

根据正则表达式逐层解析规格文档得到热歌榜单的目录。

8.根据权利要求7所述的一种抓取热歌的装置，其特征在于，所述原始数据获取模块还用于采用爬虫工具，获取全部所需的热歌网址的原始数据。

9.根据权利要求6所述的一种抓取热歌的装置，其特征在于，还包括模块：

10.根据权利要求9所述的一种抓取热歌的装置，其特征在于，所述抓取动作执行模块还用于使用应用开发框架和任务调度框架使能原始数据获取模块。