CN111460255A

CN111460255A - 一种音乐作品信息数据采集及存储方法

Info

Publication number: CN111460255A
Application number: CN202010222391.7A
Authority: CN
Inventors: 王雷
Original assignee: Diyi Quku Beijing Technology Co ltd
Current assignee: Diyi Quku Beijing Technology Co ltd
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2020-07-28

Abstract

本发明提供了一种音乐作品信息数据采集及存储方法，它包括如下步骤：通过搜索引擎抓取相关网站链接；对相关网站链接进行优化处理，生成目标网站链接；错峰访问目标网站链接，保存有效的网页内容；解析保存的有效网页内容的HTML文件中的HTML DOM树，采集需要的字段信息数据；对采集的信息数据进行整理、哈希处理，建立映射关系写入数据库中。由于本发明对首次通过搜索引擎抓取的网站链接进行优化处理生成目标网站链接，对目标网站链接进行错峰访问，对访问的网页内容进行再次判断筛选，故，本发明从根本上克服了传统的信息数据采集方法浪费网络资源、造成网站服务器负载过大、网站崩溃的弊端，实现高效、快速、准确的数据采集及存储。

Description

一种音乐作品信息数据采集及存储方法

技术领域

本发明涉及一种大数据采集方法，具体地说，本发明涉及一种音乐作品权利人信息数据采集及存储方法。

背景技术

为了保护音乐作品词作者、曲作者及各位演唱者的知识产权，需要建立一庞大的数据库，收录每首音乐作品的各种信息。这些信息有的来源于音乐作品的著作权登记，更多的来源于互联网。

随着互联网技术的飞速发展，出现了越来越多的在线音乐平台，带来了音乐作品权利人信息量的指数性增长。在互联网信息资源充足的条件下，为了快速、针对性获取/采集相关作品权利人信息，通常，借助搜索引擎来进行查询；然后，对查询的结果进行分析、判断，采集有效的数据；最后，将采集到的有效数据保存到数据库中。搜索引擎是指运用特定的计算机程序按照一定的策略自动从互联网上搜集信息，再对信息进行组织和处理以后，将相关信息展示给用户的系统。搜索引擎从互联网上搜集信息的过程，依赖于网络爬虫软件对相关网站信息的抓取。网络爬虫软件是一种自动浏览互联网，抓取网页内容的程序，是搜索引擎的重要组成部分。

在现有技术中，对于普通的搜索引擎，其网络爬虫软件是从一个或若干个初始网页的网站链接开始，浏览网页内容、抓取/采集相关数据，在浏览网页的过程中，不断从当前页面上匹配新的网站链接放入待抓取网站链接队列中，直到满足系统特定的停止条件为止。

这种从互联网上抓取/采集相关信息数据的方法的弊端是：

1、由于网络爬虫是一种机械式的不断抓取网站信息、逐一浏览每个网站的网页内容，直到满足系统设定的停止条件为止的操作，故，这种传统的数据采集/抓取方法会消耗大量的网站资源，易造成网站服务器负载过大，甚至导致网站崩溃。

2、由于目前的网络爬虫抓取到网站信息后，不再对其进行进一步的筛选而是逐一访问每个网站链接，逐一浏览每个网页，信息采集效率低、耗时长。

3、对于网页结构复杂的网站，例如有些采用异步加载的网站，页面数据难以抓取。

因此，如何快速、高效地从互联网上采集音乐作品权利人相关数据成为亟待解决的技术问题。

发明内容

鉴于上述原因，本发明的目的是提供一种快速、高效地采集及存储音乐作品信息数据的方法。

为实现上述目的，本发明采用以下技术方案：一种音乐作品信息数据采集及存储方法，其特征在于：包括如下步骤：

S1：通过搜索引擎抓取相关网站链接并保存；

S2：对相关网站链接进行优化处理，生成目标网站链接；

S3：错峰访问目标网站链接，再次对目标网站链接进行优化处理，保存有效的网页内容；

S4：解析保存的有效网页内容的HTML文件中的HTML DOM树，采集需要的字段信息数据；

S5：对采集的信息数据进行整理、哈希处理，建立映射关系写入数据库中。

进一步地，所述优化处理生成目标网站链接的方法为：

S21:将保存的相关网站链接列表；

S22：对列表中的相关网站链接的响应时间进行排序；

S23：将响应时间超过阈值的网站链接删除；

S24：逐一判断剩余的网站链接的http状态码，删除http状态码异常的网站链接，生成目标网站链接。

在本发明较佳实施例中，错峰访问所述目标网站链接，并在访问目标网站链接时，再次通过关键字的全面检索，判断网页内容是否符合抓取要求，剔除不符合抓取要求的目标网站链接，保存符合抓取要求的被访问目标网站页面内容。

在本发明较佳实施例中，判断目标网站是否存在用异步加载的方式对页面数据隐藏的情况，具体方法如下：

S31：通过模拟浏览器，获取网页源代码，查询网页源代码中是否含有异步请求的内容；如果含有，则执行S32步；如果不含有，则删除该网站链接；

S32：寻找异步请求地址；

S33：向步骤S32找到的异步请求地址发送请求，接收异步请求返回的JSON数据包，解析JSON数据包，采集所需要的数据。

在本发明较佳实施例中，在离线状态下，解析保存有有效网页内容的HTML文件中的 HTML DOM树，查找所需要的字段，采集需要的字段信息数据。

在本发明较佳实施例中，对所述采集的信息数据进行整理、哈希处理，建立映射关系写入数据库中，具体方法是：

S51：对采集的信息数据进行整理；

S52：将整理完的数据通过对目标字段进行哈希处理，建立映射关系写入原始数据库中；

S53：取出原始数据库的哈希集合X和业务数据库的哈希集合Y；计算需要新添加的数据集合S1，即原始数据库的哈希集合X和业务数据库的哈希集合Y的差集S1，将需要添加的数据集合S1映射的数据插入到业务数据库中；

S54：计算需要更新的数据集合S2，即原始数据库的哈希集合X和业务数据库的哈希集合Y的交集S2；根据数据集合S2映射的数据更新业务数据库，供客户/或用户/或业务人员使用。

由于本发明对通过搜索引擎抓取的网站链接先进行优化处理，生成目标网站链接，再对目标网络链接进行错峰访问，对访问的网页内容再次进行判断筛选优化处理，故，本发明从根本上克服了传统的信息数据采集方法浪费网络资源、造成网站服务器负载过大、网站崩溃的弊端，实现高效、快速、准确的数据采集及存储。

附图说明

图1为本发明采集信息数据的方法流程图；

图2为本发明优化管理相关网站链接的方法流程图；

图3为本发明存储采集的信息数据的方法流程图。

具体实施方式

下面结合附图和实施例对本发明的结构及特征进行详细说明。需要说明的是，可以对此处公开的实施例做出各种修改，因此，说明书中公开的实施例不应该视为对本发明的限制，而仅是作为实施例的范例，其目的是使本发明的特征显而易见。

图1为本发明采集及存储音乐作品信息数据的方法流程图，如图所示，该方法为：

S1：通过搜索引擎抓取相关网站链接并保存；

S2：对相关网站链接进行优化处理，生成目标网站链接；

本发明通过设定检索关键词，例如曲名为XXX的歌曲，利用搜索引擎从在线音乐平台或APP上进行搜索，检索出若干个相关的网站链接。为避免网络爬虫软件机械式抓取网站链接后，逐一浏览每个网站消耗大量的网站资源，造成网站服务器负载过大，网站崩溃，本发明将抓取到的相关网站链接先持久化保存在抓取服务器中，然后，对抓取的相关网站链接进行优化处理，生成目标网站链接，优化处理后，再逐一访问目标网站链接，如图2所示，具体方法是：

S21:将保存的相关网站链接列表，生成表B1。

S22：对表B1中的网站链接的响应时间进行排序。

本发明利用Ping软件测试网站服务器响应时间，并对网站服务器的响应时间进行排序。即，通过Ping软件向网站服务器发送ICMP请求，在收到ICMP响应数据包之后，计算发送时间与接收时间之间的差值，得出该网站链接的响应时间。

S23：将响应时间超过阈值的网站链接删除，生成表B2；

假设阈值为1s，将响应时间超过1s的网站链接删除。

S24：逐一判断表B2中的网站链接的http状态码，删除http状态码异常的网站链接，生成目标网站链接。

当浏览者访问一个网页时，浏览器会向网页所在服务器发出请求。当浏览器接收并显示网页前，此网页所在的服务器会返回一个包含http状态码的信息头(serverheader)用以响应浏览器的请求。常见的http状态码有：200–表示请求成功；301–表示资源(网页等)被永久转移到其它URL；404–表示请求的资源(网页等)不存在；500–表示内部服务器错误，故，当被访问网页服务器返回的http状态码不是200时，表明该网站链接异常，从表B2中删除该网站链接。

为了实现快速、高效地信息数据采集，本发明还采取错峰访问目标网站链接的方式采集相关数据，例如，数据采集服务器设定每日凌晨12:00-6:00启动网络爬虫软件访问目标网站链接。在访问目标网站链接，打开被访问目标网页后，再次对目标网站链接进行优化处理，保存有效的网页内容。

为了不遗漏任何有效信息，本发明在步骤S1抓取相关网站链接时，通常只是根据一个或至多两个关键词进行检索，尽可能地抓取到更多的相关网站链接。经步骤S2优化处理后，得到的目标网站链接中可能还存在一些质量不是很好的网站链接，故，本发明在错峰访问目标网站时，对目标网站链接进行再次进行优化处理。

通过关键词的全面检索，判断目标网站链接网页内容是否符合抓取要求，筛选符合抓取要求的网页，保存符合抓取要求的该页面内容，删除不符合抓取要求的网站链接。

例如，抓取2019年第19周全球中文TOP10榜单歌曲名称及权利人。首先，确定TOP10的标准定义(即按点击次数还是播放次数确定TOP10)，然后，确定检索关键词，例如：关键词2019年+全球中文TOP10榜单歌曲；通过搜索引擎在互联网上进行检索，抓取相关网站链接；对相关网站链接进行优化处理，生成目标网站链接；错峰访问目标网站链接，在访问目标网站链接，打开网页后，再次通过关键词对访问页面进行检索，例如：以关键词2019 年+第19周+全球中文TOP10榜单歌曲+歌曲名称+词作者姓名+曲作者姓名+演唱者姓名+ 国籍，判断网页内容是否包含所要抓取的全部内容，如果没有包含所要抓取的全部内容，删除该网站链接；如果包含所要抓取的全部内容，则将该网页内容保存。

由于有些网站采用异步加载的方式将页面数据隐藏，故，如果打开网页，通过关键词的全面检索发现该网页不符合抓取要求时，可进一步查看该网页是否包含有异步加载的内容，具体方法如下：

S41：通过模拟浏览器，获取网页源代码，查询网页源代码中是否含有异步请求的内容；如果含有，则执行S42步；如果不含有，则删除该网站链接；

通过Chrome浏览器，打开开发者工具，访问网站链接；在Elements选项中查看源代码，切换至Network选项卡，重新刷新页面，查看页面加载过程中浏览器与服务器之间发送请求和接收响应的所有记录，其中记录类型Type为XHR的就是异步请求。

S42：寻找异步请求地址；

点击查看该异步请求详情，即可找到异步请求地址；

S43：向步骤S42找到的异步请求地址发送请求，接收异步请求返回的JSON数据包，采集所需要的数据。

Fiddler软件是一款强大且好用的Web调试工具，它能记录客户端和服务器的http和https 请求，允许监视，设置断点，修改输入输出数据。本发明利用Fiddler软件对异步请求返回的JSON格式数据进行解析，采用所需要的信息数据。

由于存储有网页内容的文件通常为HTML格式，在采集数据时，本发明在离线状态下，解析保存有有效网页内容的HTML文件的HTML DOM树，查找所需要的字段，例如歌曲名称、流派语种、表演者、词曲作者、唱片公司等，采集需要的字段信息数据。

为了保证采集的音乐作品信息数据的时效性，需要对已采集并存储的数据进行同步更新、补充完善，故，如图3所示，本发明对采集的信息数据还要进行整理、哈希处理，建立映射关系写入数据库中，具体方法是：

S51：对采集的信息数据进行整理；

数据的整理主要包括删除不完整数据、删除重复的数据、统一数据格式、纠正错误的数据等。例如：统一数据格式，将数据中的半角字符、全角字符、中英文字符统一。删除重复数据，由于各种原因，数据中可能存在重复记录或重复字段(列)，对于这些重复字段(行和列)需要做去重处理。统一规格，例如日期中的长日期、短日期、英文、中文、年月日制式和缩写等格式统一。

S52：将整理好的数据通过对目标字段进行哈希处理，建立映射关系后写入原始数据库中。

为了更好的保存采集的数据，本发明设立两个数据库，一个为原始数据库，一个为业务数据库。本发明将整理好的数据首先进行哈希处理，然后，对哈希处理后的数据建立映射关系，之后，写入原始数据库中。

哈希(Hash)处理即通过Hash算法将输入的任意长度的数据变为固定长度的输出数据。同一Hash算法下，不同的数据得出不同的Hash值，相同的数据会得到相同的Hash值。

输入的任意长度的数据与固定长度输出的数据之间存在一一对应的关系，即映射关系。

例如，服务器预先提供文件的Hash值，用户下载完文件后，本地计算下载文件的Hash 值，然后通过检查这两个校验值是否一致，就能判断下载的文件是否出错。

S53：取出原始数据库的哈希集合X和业务数据库的哈希集合Y；计算需要新添加的数据集合S1，即为X和Y的差集S1，将需要添加的数据集合S1映射的数据插入到业务数据库；

S54：计算需要更新的数据集合S2，即为X和Y的交集S2；将需要更新的数据集合S2映射的数据更新到业务数据库，供客户/或用户/或业务人员使用。

在本发明中，原始数据库中的数据是不能随意访问、更改的。业务人员可以随时访问、使用业务数据库中的数据，以及对业务数据库进行信息扩展。

例如：客户要求统计2019年某一时间段大陆新生代歌手歌曲点击量。业务人员通过本发明从互联网上采集相关数据，存入到原始数据库，根据原始数据库对业务数据库中的数据进行更新；然后，调用业务数据库中的数据进行统计处理，得出客户所要的结果。对于该业务的最后统计结果数据，业务人员可以作为扩展的信息数据写入业务数据库中，以备他用，辅佐业务人员其他任务，例如，通过对业务数据库中的数据进一步挖掘、分析，筛选出未来可能会流行的歌曲，但是，对原始数据库中的信息数据不做任何修改。

建立并不断更新、完善好包括音乐作品各种信息的原始数据库及业务数据库后，在线音乐平台、各APP终端即可直接调用业务数据库内的数据，将收取的费用向相关方支付版权费，尊重音乐作品各相关方的知识产权，维护正常的市场秩序。

本发明的优点是：由于本发明对通过搜索引擎抓取的网站链接先进行优化处理，生成目标网站链接，再对目标网络链接进行错峰访问，对访问的网页内容再次进行判断筛选优化处理，故，本发明从根本上克服了传统的信息数据采集方法浪费网络资源、造成网站服务器负载过大、网站崩溃的弊端，实现高效、快速、准确的数据采集及存储。

最后应说明的是：以上所述的各实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种音乐作品信息数据采集及存储方法，其特征在于：包括如下步骤：

S1：通过搜索引擎抓取相关网站链接并保存；

S2：对相关网站链接进行优化处理，生成目标网站链接；

2.根据权利要求1所述的音乐作品信息数据采集及存储方法，其特征在于：所述优化处理生成目标网站链接的方法为：

S21:将保存的相关网站链接列表；

S22：对列表中的相关网站链接的响应时间进行排序；

S23：将响应时间超过阈值的网站链接删除；

3.根据权利要求2所述的音乐作品信息数据采集及存储方法，其特征在于：错峰访问所述目标网站链接，并在访问目标网站链接时，再次通过关键字的全面检索，判断网页内容是否符合抓取要求，剔除不符合抓取要求的目标网站链接，保存符合抓取要求的被访问目标网站页面内容。

4.根据权利要求3所述的音乐作品信息数据采集及存储方法，其特征在于：判断目标网站是否存在用异步加载的方式对页面数据隐藏的情况，具体方法如下：

S32：寻找异步请求地址；

5.根据权利要求1-4之一所述的音乐作品信息数据采集及存储方法，其特征在于：在离线状态下，解析保存有有效网页内容的HTML文件中的HTML DOM树，查找所需要的字段，采集需要的字段信息数据。

6.根据权利要求5所述的音乐作品信息数据采集及存储方法，其特征在于：对所述采集的信息数据进行整理、哈希处理，建立映射关系写入数据库中，具体方法是：

S51：对采集的信息数据进行整理；