CN100555287C

CN100555287C - 互联网音乐文件排序方法、系统和搜索方法及搜索引擎

Info

Publication number: CN100555287C
Application number: CNB2007101456276A
Authority: CN
Inventors: 邵荣防; 王志平; 熊应; 郭阳
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2007-09-06
Filing date: 2007-09-06
Publication date: 2009-10-28
Anticipated expiration: 2027-09-06
Also published as: WO2009033408A1; US8234284B2; US20100185607A1; CN101105815A

Abstract

本发明实施例公开了一种互联网音乐文件排序方法，包括：计算音乐文件的文本相关性及数值相关性；根据所述文本相关性以及数值相关性，计算音乐文件的综合相关性，并根据所述综合相关性对该音乐文件进行排序。本发明还公开了一种互联网音乐文件排序系统、搜索方法和搜索引擎。应用本发明之后，结合相关性考虑因子评估音乐文件与用户检索请求的相关性，从而使得与用户检索请求相关性较好的音乐文件更容易地呈现给用户。

Description

互联网音乐文件排序方法、系统和搜索方法及搜索引擎

技术领域

本发明涉及互联网搜索技术，更具体地说，本发明涉及一种互联网音乐文件排序方法、系统和搜索方法及搜索引擎。

背景技术

搜索引擎技术是近几年非常热门的技术，以其为核心基础的网页搜索、新闻搜索、多媒体文件搜索、地图搜索等都具有很大的实用价值和商业价值。目前，各种搜索引擎技术层出不穷，与其相关的各种搜索应用也在飞速发展当中。

通常而言，多媒体文件搜索一般包括音乐文件搜索、视频文件搜索和图片文件搜索等。视频文件搜索引擎以搜索技术为基础，检索和提供RM、WMV及其它各种格式视频文件的信息搜索和下载统一资源定位符(URL)；图片文件搜索引擎以搜索技术为基础，检索和提供联合图像专家组(JPEG)及其它各种格式图像文件的信息搜索和URL；音乐文件搜索引擎通常又叫Mp3搜索引擎，它以搜索技术为基础，检索和提供Mp3及其它各种格式音乐文件的信息搜索和下载URL。

音乐搜索引擎是一种互联网服务，通过浏览器为用户提供方便的检索入口。用户可以通过它来检索到自己想要下载/试听的音乐URL源。通常用户根据自己想要检索的歌曲，构造一个到多个关键字，然后向音乐搜索引擎的Web入口提交包含检索关键字的检索请求，音乐搜索引擎根据用户输入的检索关键字进行检索，找到匹配用户检索关键字的音乐URL源记录，并对检索结果进行排序，再将这些URL源记录分页返回给用户。

随着搜索技术的不断成熟，以及互联网用户对多媒体文件下载服务的需求不断增大，近年来音乐搜索引擎的竞争越来越激烈，技术发展也越来越快。因此，除了需要从数量上提高搜索结果(比如增加音乐文件链接的数量、减少死链接等)以外，还必须对搜索质量进行提高，以提供给用户尽可能好的体验。在音乐文件搜索中需要对搜索结果进行排序，而搜索结果的排序是搜索体验中最为关键的部分之一。

然而，现有技术的音乐文件搜索技术中对搜索结果的排序较为随意，检索结果和检索请求的相关性考虑不足，检索结果的考虑因子不健全，从而使得用户使用起来非常不方便。

比如，目前的某些搜索引擎在进行检索结果排序时，没有考虑到同一歌手的歌曲重复相邻出现的问题，而只是简单地根据歌曲的权重对其进行排序，从而如果用户要寻找的歌曲比较生僻，则无法很快的检索到。例如：在某音乐搜索引擎中检索关键词“第一次”，检索结果前三页的结果中，只是出现了三首不同歌手的不同歌曲。

而且，现有技术的音乐文件搜索中，在检索结果的整洁有序性上也存在不足。例如：现有技术的音乐搜索的检索结果没有考虑音乐记录的文本相关性权重中歌曲名称的长度因子的影响，这就造成检索结果也不整洁。举例说明，假设用户要寻找小虎队演唱的“爱”歌曲，在某音乐检索引擎中检索关键词“爱”，检索结果的排序在文字长度方面杂乱无章，用户无法确定该搜索引擎中是否有关于“爱”这首歌的URL源，也无法了解需要翻多少页才可以检索到该歌曲，这就给用户的使用带来了不便。

发明内容

本发明实施例提出一种互联网音乐文件排序方法，结合相关性考虑因子评估音乐文件与用户检索请求的相关性，从而使得与用户检索请求相关性较好的音乐文件更容易地呈现给用户。

本发明实施例提出一种音乐文件排序系统，结合相关性考虑因子评估音乐文件与用户检索请求的相关性，从而使得与用户检索请求相关性较好的音乐文件更容易地呈现给用户。

本发明实施例还提出了一种音乐文件搜索方法，应用该方法能够搜索出与用户检索请求相关性较好的音乐文件。

本发明实施例还提出了一种音乐文件搜索引擎，能够搜索出与用户检索请求相关性较好的音乐文件。

本发明实施例的技术方案是这样实现的：

一种互联网音乐文件排序方法，包括：

设定特定语素，根据所述特定语素在互联网音乐文件的文本字段中的命中情况，计算音乐文件针对该特定语素的文本相关性；或

设定特定语素，由所述特定语素构成特定词组或者特定词句，根据所述特定词组或者特定词句在互联网音乐文件的文本字段中的命中情况，计算音乐文件针对该特定词组或者特定词句的文本相关性；

根据所述音乐文件自身的数值因子及其权重，计算该音乐文件的数值相关性；

根据所述文本相关性以及数值相关性，计算音乐文件的综合相关性，并根据所述综合相关性对该音乐文件进行排序，并将排序后的音乐文件呈现给用户。

一种搜索互联网音乐文件的方法，该方法包括：

根据所述文本相关性以及数值相关性，计算音乐文件的综合相关性；并根据所述综合相关性对该音乐文件进行排序；

将用户输入的检索串分解为多个特定语素或者特定词组或者特定词句，并根据每个特定语素或者特定词组或者特定词句的相关性权重数据和音乐文件排序结果，计算出符合用户检索请求的所有音乐文件针对所述用户输入检索串的相关性权值，然后将所述符合用户检索请求的音乐文件按照所述相关性权值排序后返回给用户。

一种互联网音乐文件排序系统，该系统包括：

文本相关性计算单元，用于设定特定语素，根据所述特定语素在互联网音乐文件的文本字段中的命中情况，计算音乐文件针对该特定语素的文本相关性；或设定特定语素，由所述特定语素构成特定词组或者特定词句，根据所述特定词组或者特定词句在互联网音乐文件的文本字段中的命中情况，计算音乐文件针对该特定词组或者特定词句的文本相关性；

数值相关性计算单元，用于根据所述音乐文件自身的数值因子及其权重，计算该音乐文件的数值相关性；

排序单元，用于根据所述音乐文件的文本相关性以及数值相关性，计算该音乐文件的综合相关性，并根据所述综合相关性对该音乐文件进行排序，并将排序后的音乐文件呈现给用户。

一种互联网音乐文件搜索引擎系统，该搜索引擎包括：

爬虫，从互联网抓取互联网音乐文件，并将所述互联网音乐文件的文本字段和数值因子发送给索引系统；

索引系统，用于根据特定语素在互联网音乐文件的文本字段的命中情况，计算该音乐文件针对该特定语素的文本相关性，根据所述音乐文件自身的数值因子及其权重，计算该音乐文件的数值相关性，并根据所述音乐文件针对该特定语素的文本相关性以及音乐文件的数值相关性，计算所述音乐文件针对该特定语素的综合相关性，并根据所述综合相关性对音乐文件针对该特定语素进行排序；

检索器，用于将用户输入的检索串分解为多个特定语素，并根据每个特定语素的相关性权重数据和针对每个特定语素的排序结果，计算出符合用户检索请求的所有音乐文件针对用户输入检索串的相关性权值，然后将所述符合用户检索请求的音乐文件按照所述相关性权值排序后返回给用户。

从上述技术方案中可以看出，在本发明实施例中，计算音乐文件的文本相关性及数值相关性；然后再计算该音乐文件的综合相关性，最后根据综合相关性对该音乐文件针对该特定语素进行排序。由此可见，应用本发明以后，综合了互联网音乐文件的文本属性和数值属性等因素来对音乐搜索引擎的检索结果进行相关性排序，从而使得与用户检索请求相关性较好的歌曲URL源尽量排列在用户检索结果的前面，因此提高了音乐搜索引擎的相关性排序效果，检索结果的排序能够更好地满足用户需求。

附图说明

图1为根据本发明示范性实施例的音乐文件排序方法的示范性流程示意图；

图2为根据本发明示范性实施例的音乐文件排序系统的示范性结构示意图；

图3为根据本发明示范性实施例的音乐搜索引擎的示范性结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点表达得更加清楚明白，下面结合附图及具体实施例对本发明再作进一步详细的说明。

在本发明实施例中，综合互联网音乐文件的文本属性和数值属性等因素来对音乐搜索引擎的检索结果进行相关性排序。目的在于将与用户检索请求相关性较好的歌曲URL源尽量排列在用户检索结果的前面。

用户在音乐搜索引擎中输入检索关键词列表来查找他(她)想试听/下载的音乐。音乐搜索引擎返回的检索结果由多条音乐记录组成，每个音乐记录包括一个音乐源URL、歌曲名、歌手名、专辑名等文本信息。如果一个音乐记录的文本信息中包括用户提交的所有检索关键词，那么此音乐记录符合用户的检索需求，可能作为检索结果中的一条记录返回。在音乐搜索中，通常用户输入的检索关键词的个数较少，于是符合用户数据检索词的音乐记录的数目会比较多。它们可能是不同歌手的不同歌曲，甚者可能是同一首歌曲的不同URL来源的数据。这些符合用户数据检索词的音乐记录，有的是用户想要检索到的，有的则与用户的需求并不相关。同时，对于同一个歌手演唱的同一首歌曲的不同来源，其歌曲属性(比如数据文件大小、编码率、下载速度、连通率等)也会不同。

为此，本发明实施例定义了歌曲质量的概念。一个歌曲源能够满足用户下载/试听的需求程度，称为该歌曲源的歌曲质量。歌曲质量是多个歌曲属性的综合考虑。通俗的讲，一个歌曲源能够让用户方便快速地连通下载，同时歌曲的播放质量能够比较好地满足用户欣赏试听的需求，则认为此首歌曲的歌曲质量较好。同时，本发明实施例还定义了相关性的概念。一个歌曲源记录的文本信息与用户提交的检索词列表能够比较好的匹配，同时它的歌曲播放质量比较高，则称此歌曲与用户检索请求的文本相关性较好。

对于音乐文件搜索来说，除了需要由搜索引擎搜索出多媒体文件的URL之外，通常还需要提供一些额外的多媒体文件信息。比如：对于Mp3搜索引擎来说，除了提供Mp3文件的URL链接以外，通常还需要提供Mp3文件的歌曲名称、歌手名称、专辑名称等信息。保证这些信息的完整和合理排序，是一个良好的音乐文件搜索引擎的基础。

音乐搜索的检索结果将按照音乐文件数据记录和用户输入的检索串的相关性值来进行排序。

检索串被分解成多个单语素，于是检索串与音乐文件数据记录的相关性也被分解为单语素与音乐文件数据记录的相关性。单语素和指定文档的相关性值由音乐数据文档的一系列文本和数值属性(相关性计算因子)来决定，相关性值在索引建立时就已经计算好。

图1为根据本发明示范性实施例的音乐文件排序方法的示范性流程示意图。

如图1所示，该方法包括：

步骤101：计算音乐文件的文本相关性及数值相关性。

其中，既可以根据特定语素在互联网音乐文件的文本字段中的命中情况，计算该音乐文件针对该特定语素的文本相关性；然后根据所述音乐文件自身的数值因子及其权重，计算该音乐文件的数值相关性。

可选地，还可以首先由特定语素构成特定词组或者特定词句；然后根据所述特定词组或者特定词句在互联网音乐文件的文本字段中的命中情况，计算音乐文件针对该特定词组或者特定词句的文本相关性。

其中，所述文本字段可以包括歌曲名、歌手名、专辑名和歌词中的一种或者多于一种的任意组合，此时计算该音乐文件针对该特定语素的文本相关性包括：

将该特定语素针对歌曲名、歌手名、专辑名和歌词的相关性数值分别乘以权重，然后将各项乘积相加以作为文本相关性数值；或

将该特定语素针对歌曲名、歌手名、专辑名和歌词的相关性数值分别乘以各自权重，然后将各项乘积相加后再乘以对应于音乐文件类型的文档类型系数以作为文本相关性数值。

其中，在决定各权重的大小时，可以采用下述应用准则：

当特定语素对应于歌曲搜索时，歌曲名的权重大于歌手名的权重，歌手名的权重大于专辑名的权重，专辑名的权重大于歌词的权重；

当特定语素对应于歌词搜索时，歌曲名的权重大于歌词的权重，歌词的权重大于专辑名的权重，专辑名的权重大于歌手名的权重；

当特定语素对应于专辑搜索时，专辑名的权重大于歌手名的权重，歌手名的权重大于歌词的权重。

音乐文件自身的数值因子可以包括可访问性因子，可访问性因子可以由下载速度因子和连通率因子来共同确定。

所述音乐文件自身的数值因子可以包括下列因子中的任一个或者多于一个的任意组合：歌曲热门程度因子、歌手热门程度因子、歌曲记录所在的站点因子、文件大小因子、播放时长因子、编码率因子、修正数据的可信度因子、歌曲的新鲜度因子、网络协议因子、文件类型修正因子等等。

下面给出目前考虑的各种相关性因子以及其含义、对检索结果的影响方式和取值范围。

本领域技术人员可以意识到，虽然下面列出了一些具体的相关性因子以及其计算方式，但是这不并构成对本发明保护范围的限定。实质上，对这些具体的相关性因子的描述仅为示范性描述，并不是穷举性描述。

1、可访问性因子W_valid、下载速度因子W_speed和连通率因子W_conn：

下载速度因子W_speed和连通率因子W_conn一起决定音乐数据记录的可访问性W_valid。

可访问性因子W_valid被大致映射到[1，100]的区间。连通率因子W_conn对可访问性W_valid影响较大，只有在连通率因子W_conn满足了一定的要求后，才会考虑下载速度因子W_speed，此时下载速度越快，该音乐文件的数据记录会越靠前。

连通率因子W_conn可以作为一个分级阀值来影响可访问性因子W_valid。下载速度可以有几个分段。通常的wma格式的歌曲试听的码率为32kbps，即当下载速度＞4K时可以满足试听的要求；mp3格式的音乐比较多见的是128kbps，这需要下载速度＞15Kbps才可以较好地满足试听需求。

当下载速度达到一定的值后，下载速度再大对用户的感受作用已经不大。由于码率的不同，可以将下载速度换算为相对值，即fRelSpeed＝歌曲下载速度/歌曲编码率。

下载速度因子W_speed取值由爬虫检测到实际下载速度计算而来，这个值也会与用户在客户端的下载速度有所不同。

另外，以下准则可以作为修正的因素：

如果码率小于64kbps，则相对下载速度值最多只是设置到适合试听；如果连通率很低，但是下载速度很高时，也可以考虑下载速度对连通率因子的影响。

2、歌曲热门程度因子W_pop：

歌曲热门程度因子W_pop由爬虫直接统计得出，取值范围在[0～100]，并且要求平滑。歌曲越热门，则歌曲记录的排序结果优先度越高，歌曲热门程度因子的检索结果的影响程度非常高，其相应权重也应该设置较高。

3、歌手热门程度因子W_sin：

歌手热门程度因子W_sin也是由爬虫统计计算得出，取值范围在[0～100]，并且要求平滑。歌手越热门，则歌曲记录排序结果优先度越高。

4、歌曲记录所在的站点因子W_sit：

例如，可以将歌曲记录所在的站点划分成为5种简单的类型，优先级依次从高到低：

1.编辑推荐的站点；

2.下载试听效果较好的站点；

3.下载试听效果一般的站点；

4.下载试听效果不好的站点；

5.由作弊行为而要惩罚打压的站点。

爬虫负责对站点类型进行判断，对应于上述5种站点类型，W_sit的取值依次可以为100、70、50、30、10等。

5、文件大小因子W_size：

爬虫提供的音乐数据记录中长度字段为链接文件的实际长度，在相关性计算中，将其转换为0-100左右的一个浮点数。其计算公式如下：

W_size＝λ(fSize)×(1+fSize/(20×1024×1024))； (式1)

其中λ为修正参数，fSize为文件大小。

使用此公式(1)的基本思想是：定义不同的长度区间，根据数据文件的长度不同将其划分到其不同级别的分值区间，同时在此区间中再根据文件大小的不同，让其分值也具有微小的差异。对于不同音乐格式的文件其划分区间方式不同，修正参数λ的取值也不相同。

6、播放时长因子W_Len：

对播放时长的处理与文件长度的处理相似，但是不用区分文件数据格式。其统一计算公式如下：

W_Len＝λ(Len)×(1+Len/100000) (式2)

其中λ为修正参数，Len为播放时长，单位为秒。

7、编码率因子W_code：

在音乐文件类型一定时，时长、码率和大小存在一定关系，相关性计算中可以暂时不考虑编码率因子W_code的影响。

8、修正数据的可信度因子W_cred：

爬虫直接下载下来的歌曲记录数据可能许多文本字段不完整或者包括噪声文本。爬虫会根据数据记录文件的属性字段以及相关文本等对数据进行修正去噪，使得记录比较整洁。但是，可能会出现过修正的现象。于是对每个记录提供一个修正可信度因子，表明修正出来的文本是否可信。可信度因子的取值区间未[0，100]，不必平滑。

9、歌曲的新鲜度因子W_prot：

歌曲的新鲜度由歌曲所属专辑的发行时间来确定。发行时间越近的专辑，其包含歌曲越优先显示。如果一个首歌曲属于多个专辑，那么其新鲜度由最近发行的专辑的时间来计算。新鲜度的计算过程由爬虫来完成。

10、网络协议因子W_prot：

根据访问数据记录的协议不同，相关性计算中也会给记录赋予不同的权值。爬虫可以抓取两种协议类型的数据，分别为文件传输协议(FTP)和超文本传输协议(HTTP)。

11、网段因子W_Net：

音乐数据所在的网段位置也会影响结果的排序。在网通用户的检索返回结果中，处于网通网段的音乐数据排在优先的位置；在电信用户的检索返回结果中，处于电信网段的音乐数据排在优先的位置。此处的相关性计算中还没有加上网段的影响因子。显然，根据音乐搜索服务器的部署不同，网段因子的影响会有所不同。

12、文件类型修正因子λ_tyoe：

文件类型修正因子λ_type的重要程度在根据其他数值因子计算出来的综合值之上。对不同的数据文件类型，文件类型修正因子λ_type取不同的值，以区分哪些类型的歌曲优先显示，哪些类型的歌曲次要显示。

目前文件类型修正因子的取值如下：

λ_{type} = \{\begin{matrix} 1.0 & , mp 3 \\ 0.8 & , wma \\ 0.6 & , rm \\ 0.6 & , unknown \\ 0.5 & , swf \\ 0.3 & , ring \\ 0.02 & , lyric \\ 0.01 & , album \end{matrix}

(式3)

文件类型修正因子λ_type用于区分哪些类型的歌曲优先显示。同时，还可以将文件类型修正因子λ_type与文件大小因子相结合，用于将太大或太小的数据记录尽量排在检索结果的最后。比如，可以将文件大小小于1M的mp3、小于0.5M的wma、小于0.5M的rm赋于非常低(例如是0.05或者0.1)的文件类型因子，这样可以保证太小的音乐文件尽量排在检索结果的最后，而不至于影响用户的感受。类似地，也可以将文件大小过大的mp3、wma、rm等音乐文件赋于非常低的文件类型因子，从而保证太大的音乐文件也尽量排在检索结果的最后，而不至于影响用户的感受。

关于文本数据文本相关性计算：

音乐检索包含两种类型的数据：歌曲记录和歌词记录。歌曲数据为包括一个音乐链接URL的记录，其歌词字段为空。歌词记录为没有音乐链接、其歌词字段包含不超过最大长度的歌词信息。文本相关性用来描叙一个音乐数据记录是否与检索串相匹配。所有音乐数据记录可用来检索的文本字段有四个，每个字段有一个固定的权重值，四个字段和相关权重依次为：

字段名权重相关性值

歌曲名 λ_ti W_ti

歌手名 λ_pl W_pl

专辑名 λ_co W_co

歌词/简介 λ_ly W_ly

即文本相关性的值为各个字段文本相关性乘上权重后的最大值再乘上文档类型系数。在进行歌词检索和歌曲检索时，字段的权重关系可以不同，为此，对歌词数据和歌曲数据的字段权重分别赋予不同的比值。例如：

在歌曲检索时，希望各字段的权重关系为：歌曲名＞歌手名＞专辑名＞歌词内容；

那么对于歌曲类型记录，给定的权值顺序为λ_ti＞λ_pl＞λ_co＞λ_ly；

在歌词检索时，希望各字段的权重关系为：歌曲名＞歌词内容＞专辑名＞歌手名；

那么对于歌词类型记录，给定的权值顺序为λ_ti＞λ_ly＞λ_co＞λ_pl；

在专辑检索时，希望各字段的权重关系为：专辑名＞歌手名＞专辑介绍；

那么对于专辑类型记录，给定的权值顺序为λ_co＞λ_pl＞λ_ti；

特定字段的文本相关性计算使用如下公式：

W_{t} = \sqrt{tf} \times 1 / WordNum

(式4)

其中tf为词频，WordNum为词数，即特定字段的文本相关性随着命中词词频的增加而递增，随着字段包含词数的递增而递减(此条可以近似保证精确匹配的结果优先模糊匹配的结果显示)。

关于数值相关性计算：

数值质量，用来描叙一个歌曲记录的数值权重的综合因素的好坏。它由前面的那些数值相关性因子经过线型计算并归一化得出，其取值范围在区间[0，1]。公式如下：

W_quality＝λ_type∑λ_iW_i/MAX_VALUE (式5)

其中W_i为前面列出的所有数值相关性因子，1)～11)，λ_i为相应的修正系数。在相关性调整阶段，可以由开发人员或编辑对结果排序进行调整从而给出比较理想的取值，其中MAX_VALUE为可能的最大取值。

步骤102：根据所述文本相关性以及数值相关性，计算音乐文件的综合相关性，并根据所述综合相关性对该音乐文件进行排序。

其中，既可以根据音乐文件针对该特定语素的文本相关性以及所述音乐文件的数值相关性，计算该音乐文件针对该特定语素的综合相关性，并根据所述综合相关性对该音乐文件针对该特定语素进行排序。也可以，根据音乐文件针对由特定语素所构成的特定词组或者特定词句的文本相关性以及音乐文件的数值相关性，计算该音乐文件针对该特定词组或者特定词句的综合相关性，并根据所述综合相关性对该音乐文件针对该特定词组或者特定词句进行排序。

以上流程中，还可以进一步对歌曲名、歌手名和音乐文件格式相同的歌曲进行聚类，对每类中的歌曲按照数值相关性划分出不同的级别Level，使得每个级别有预定个数的音乐文件，从而得到所有音乐文件的级别排名LevelRank；

然后再根据每个音乐文件的LevelRank及其数值相关性计算出每个音乐文件的综合数值相关性，使得不同类中级别相同的音乐文件的综合数值相关性大小相近，而不同级别Level的音乐文件综合数值相关性相差很大；

根据所述音乐文件针对该特定语素的文件相关性和所述综合数值相关性计算音乐文件针对该特定语素的综合相关性，并根据所述综合相关性对音乐文件针对该特定语素进行排序。

下面对LevelRank进行详细的说明。

关于LevelRank的分析：

如果只是考虑到前面的数值质量，可能出现如下的情况：一些歌曲的歌手名歌曲名相同，他们的数值质量都比其他的歌曲要高。这时，检索结果的前面几十甚至上百条都会被这“相同”的歌曲占据。从而减小了用户对歌曲的可选择面。为此本发明实施例引入浅层聚合和LevelRank的概念，并把之前的数值质量也相对称为QualityRank。

浅层聚合是指只是将歌曲名、歌手名和歌曲文件类型都相同的歌聚成一类的方式。设一次检索到了T个不同聚合类的歌曲，则希望能够综合考虑文本权重和数值的关系，让质量较高的不同聚类的歌曲以两两交错，并且在前几页中包含尽量多聚类的方式排序显示。

举例：假设T个不同聚合一次为T1，T2，T3，....Tn，同时每个聚合中的歌曲按照QualityRank划分为TiS1，TiS2，TiS3，....TiSm，则希望看到的结果是在结果的前几页中出现的歌曲的QualityRank比较高，同时也要保证Ti的数目比较多；质量高的聚类可以多出现一些歌曲，但是不要几乎都是一个聚类的歌曲。

关于LevelRank：对与每一类的所有数据记录，将它们按照计算出来的QualityRank值从大到小进行排序。可以设定一定个数(设为M)的Level，每个Level中允许放置N首歌，将一个类的中排好序的歌一次放入到这些Level中，再设定一个默认Level，将前面所有放不下的歌曲都放入到默认Level中。

举例：假设一个歌曲聚合类别中有100首歌曲，设定5个Level，每个Level可以放2首歌曲，则剩下的90首歌曲都依次放入到默认Level中。执行聚合，同时将数据放置入Level中，然后对不同的Level设定一个Rank分值，称之为LevelRank。第一个Level的LevelRank值最高(比如第一个Level的LevelRank值为1.0)，然后LevelRank值随着Level的递增而依次递减，比如第二个Level为0.7，第三个Level为0.5...最后默认的Level的LevelRank值为0。

因此一首歌曲的最后综合数值相关性Weight(Num)将会是LevelRank和QualityRank的综合值。

即Weight(Num)＝(LevelRank+QualityRank)/2。

W_num＝(W_level+W_quality)/2 (式6)

为了让一个聚合里一个Level中的歌曲可以以顺序相邻的方式出现在结果页面中，可以对Weight(Num)做细微的调整。属于同一聚类的歌曲在进行Level划分时，将同一Level中的歌曲的LevelRank值和QualityRank值都调整为非常相近，并成等差数列递减。非常相近是指所有其他的数值相关性因子的差异所造成的最终权值的差异都比这个等差数列的差值要高出一个数量级。

举例：设有两个聚类的歌曲可以被一次检索所检索到，第一类别中Level中有3首歌曲，原始QualityRank依次为0.984、0.962、0.953。第二个类别中Level1有3首歌曲，原始QualityRank依次为0.972、0.970、0.955。

计算经过修正后的QualityRank。第一个聚类依次为：0.98400、0.98402、0.98404，第二个聚类依次为：0.97200、0.97202、0.97204。从而保证了前面所述需求。

为了保证音乐质量，还可以设置一个Level的阀值(Threshhold)，以保证“宁缺勿滥”的原则(类比于招生中的最低录取分数线)。比如，规定一级wma格式的QualityRank打分必须在0.85以上。如果该歌曲的wma格式的QualityRank打分全部小于0.85，则该歌曲的第1级中就没有wma，可将其放入第2级中参与排序。

单个语素相关性计算公式：

单个语素(包括一元语素和多元语素)的相关性都会在索引建立时计算完成。其计算公式为前面文本相关性和数值相关性的线型叠加结果，公式如下：

Weight(q，d)＝λ_text*W_text(q，d)+λ_num*W_num； (式7)

最终的Weight(q，d)作为一个浮整数(float)保存在倒排索引中，这里还可以尝试选择合适的函数，将Weight(q，d)影射成(0，255]的区间，可以大量节约存储空间。

检索串复合相关性权值计算：

音乐检索中，用户输入的检索请求最后可以分解为多个语素检索请求的交集。用户输入检索串与指定音乐数据记录的相关性，也可认为是单个语素与数据记录的相关性的综合结果。由于音乐搜索检索输入需求较网页搜索更短，语素更少，这里采用简单复合模型，

设对于查询Q，Q＝{q₁ q₂ ...... q_n}，n为检索串切分后的语素个数，d为一个检索单语素q命中的数据记录。

则最终用户输入和指定数据记录的相关性计算公式为：

Weight (Q, d) = 1 / Σ_{i = 1}^{n} (1 / Weight (q_{i}, d))

(式8)

最终的命中结果将按照此计算出的值进行排序。

图2为根据本发明示范性实施例的音乐文件排序系统的示范性结构示意图。

如图2所示，该系统200包括：

文本相关性计算单元201，用于计算音乐文件的文本相关性。

其中，文本相关性计算单元201，既可以根据特定语素在互联网音乐文件的文本字段的命中情况，计算该音乐文件针对该特定语素的文本相关性；也可以根据由特定语素所构成的特定词组或者特定词句在互联网音乐文件的文本字段的命中情况，计算音乐文件针对该特定词组或者特定词句的文本相关性。

数值相关性计算单元202，用于计算音乐文件的数值相关性。

其中，数值相关性计算单元202，可以根据所述音乐文件自身的数值因子及其权重，计算该音乐文件的数值相关性。

排序单元203，用于根据所述音乐文件针对该特定语素的文本相关性以及所述音乐文件的数值相关性，计算该音乐文件针对该特定语素的综合相关性，并根据所述综合相关性对该音乐文件针对该特定语素进行排序。

当特定语素构成特定词组或者特定词句时，排序单元203，可以根据所述音乐文件针对该特定词组或者特定词句的文本相关性以及所述音乐文件的数值相关性，计算该音乐文件针对该特定词组或者特定词句的综合相关性，并根据所述综合相关性对该音乐文件针对该特定词组或者特定词句进行排序。

当特定语素不构成特定词组或者特定词句时，排序单元203还可以根据所述音乐文件针对该特定语素的文本相关性以及所述音乐文件的数值相关性，计算该音乐文件针对该特定语素的综合相关性，并根据所述综合相关性对该音乐文件针对该特定语素进行排序。

其中，所述文本字段可以包括歌曲名、歌手名、专辑名和歌词中的一种或者多于一种的任意组合；其中

文本相关性计算单元201，用于将该特定语素针对歌曲名、歌手名、专辑名和歌词的相关性数值分别乘以权重，然后将乘积相加以作为文本相关性数值；或

文本相关性计算单元202，用于将该特定语素针对歌曲名、歌手名、专辑名和歌词的相关性数值分别乘以权重，然后将乘积相加后再乘以对应于音乐文件类型的文档类型系数以作为文本相关性数值。

本发明实施例还公开了一种互联网音乐文件搜索引擎。

图3为根据本发明示范性实施例的音乐搜索引擎的示范性结构示意图。如图3所示，该音乐搜索引擎包括：

爬虫，从互联网抓取互联网音乐文件，并将所述互联网音乐文件的文本字段和数值因子发送给索引系统。

其中，爬虫从互联网中尽可能多的抓取分析出互联网音乐文件的音乐文件，这些音乐文件包括ID、音乐文件数据的URL、音乐名称、音乐大小、各种属性因子等，然后爬虫将这些巨量音乐记录发送给索引系统。具体而言，爬虫在进行歌曲数据抓取的过程中，会获取一些歌曲数据相关的信息。这些信息用来计算单个语素与指定歌曲记录的相关性值，从而最终影响到用户检索结果的排序，它们统称为相关性计算因子。大部分的相关性因子爬虫已经将其取值映射到[0-100]的区间，另外小部分则为数据的原始值。这一部分字段在索引系统的相关性处理时转换成指定的值，主要包括：歌曲文件的大小、歌曲的时长、歌曲文件类型等。

索引系统，用于根据特定语素在互联网音乐文件的文本字段的命中情况，计算该音乐文件针对该特定语素的文本相关性，根据所述音乐文件自身的数值因子及其权重，计算该音乐文件的数值相关性，并根据所述音乐文件针对该特定语素的文本相关性以及音乐文件的数值相关性，计算所述音乐文件针对该特定语素的综合相关性，并根据所述综合相关性对音乐文件针对该特定语素进行排序。

索引系统对所有这些音乐记录建立倒排索引。在建立索引的过程中计算出每个音乐记录针对特定语素的相关性权重。过程如下：

根据语素在多个文本字段(歌曲名、歌手名、专辑名、歌词)中的命中信息和字段的长度，计算出歌曲记录针对语素的文本相关性；然后根据音乐记录的连通率、文件大小、歌手热门程度、歌曲热门程度、发布时间等数值因子，计算出歌曲记录的QualityRank；再将<歌曲名，歌手名，格式>相同的歌曲进行聚类，对每类中的的歌曲按照数值相关划分出不同的Level，保证每个Level有两首歌，从而给出每首歌的LevelRank；然后再根据LevelRank和Quality计算出每个歌曲的数值相关性，使得不同类总Level相同的歌曲的数值相关性大小相近，而不同Level的歌曲数值相关性相差很大；最后根据文件相关性和数值相关性计算出歌曲记录针对特定语素的综合相关性。

检索器，用于将用户输入的检索串分解为多个特定语素，并根据每个特定语素的相关性权重数据和针对每个特定语素的排序结果，计算出符合用户检索请求的所有音乐文件针对用户输入检索串的相关性权值，然后将所述符合用户检索请求的音乐文件按照相关性权值排序后返回给用户。

具体地，检索器将用户输入的检索串分解为多个建立索引时对应的语素，然后读取相关的语素的倒排数据以及其相关性权重数据，然后计算出符合用户检索请求的所有歌曲针对用户输入检索串的相关性权重，再将结果记录按照相关性权重排序后返回给用户。

其中，图3中的检索代理(CacheBroker)用于接收用户的检索请求，并向后台的检索器进行请求转发和检索结果的收集缓存。

综上所述，在本发明实施例的音乐搜索引擎中，爬虫从互联网抓取音乐相关的网页数据，然后进行相关性参数提取，并把生成的格式化数据提交给索引系统，再由索引系统对格式化数据建立倒排索引，在此过程中，索引系统根据一定的音乐文件相关性计算方法来对倒排索引数据进行排序。

本发明实施例还提供了一种综合互联网音乐文件的文本属性和数值属性以及互联网可访问性等因素来对音乐搜索引擎的检索结果进行相关性排序的方法。

下面，以用户检索歌曲“爱”来举例对本发明进行示范性阐述。

音乐歌曲名(专辑名)中包括“爱”字的歌曲很多，名字长短不一样。而同一个歌手演唱的同一首歌在互联网上也会存在多个源链接。

本发明实施例中，首先将所有相同歌手演唱的同一首歌的不同来源记录聚合成一类。每个音乐记录都会有很多上面本方案中描叙的相关性计算因子属性。比如一个音乐记录包括如下信息：

歌曲名：爱

歌手名：小虎队

专辑名：爱

文件类型：mp3

大小：4.2M

连通率：88

播放时长：3分20秒

歌曲热门程度：80

歌手热门程度：85

将这些因子数值带入到上面实施例描叙的计算过程中，可以得到本音乐记录的QualityRank。

小虎队演唱的《爱》这首歌，会有很多个不同源链接记录，它们的很多相关性因子数值不同。将这些源链接记录全部都聚为一类，分别计算出它们的QualityRank后，按照QualityRank大小进行排序，将它们划分为多个不同的的Level。根据LevelRank的计算方法可以得到不同的LevelRank值。进而根据数值相关性的公式得到这些源链接的数值相关性。LevelRank和QualityRank综合的效果使得在同一个分类中不同Level的源记录的数值相关性值会有较大的不同。

同样，其它歌名中包括“爱”字的歌曲也会被聚成不同的类，每个类按照LevelRank来区分。不同分类的相同Level的记录的数值相关性取值会较为接近，使得最终在对所有检索结果的排序中它们会排列的比较近。即在最后的检索结果中，排在最前面的都是来自不同聚类中第一个Level的那些记录。这样既保证了相关性好的歌曲排在检索结果靠前的位置，又保证前面几页的歌曲的多样性。

最终的排序结果中还把文本相关性和数值相关性进行综合，文本相关性中考虑到歌名的长度信息。使得歌名短的尽量靠前。即在用户检索“爱”字的返回结果的越往后，歌曲名会越长。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1、一种互联网音乐文件排序方法，其特征在于，包括：

根据所述文本相关性以及数值相关性，计算音乐文件的综合相关性；并根据所述综合相关性对该音乐文件进行排序，并将排序后的音乐文件呈现给用户。

2、根据权利要求1所述的互联网音乐文件排序方法，其特征在于，所述文本字段包括歌曲名、歌手名、专辑名和歌词中的一种或者多于一种的任意组合；所述计算该音乐文件针对该特定语素的文本相关性包括：

将该特定语素针对歌曲名、歌手名、专辑名和歌词的相关性数值分别乘以歌曲名、歌手名、专辑名和歌词的各自权重，然后将各项乘积相加以作为文本相关性数值；或

将该特定语素针对歌曲名、歌手名、专辑名和歌词的相关性数值分别乘以歌曲名、歌手名、专辑名和歌词的各自权重，然后将各项乘积相加后再乘以对应于音乐文件类型的文档类型系数以作为文本相关性数值。

3、根据权利要求2所述的互联网音乐文件排序方法，其特征在于，

4、根据权利要求1所述的互联网音乐文件排序方法，其特征在于，所述音乐文件自身的数值因子包括可访问性因子，所述可访问性因子由下载速度因子和连通率因子确定。

5、根据权利要求1所述的互联网音乐文件排序方法，其特征在于，所述音乐文件自身的数值因子包括下列因子中的任一个或者多于一个的任意组合：

歌曲热门程度因子；

歌手热门程度因子；

歌曲记录所在的站点因子；

文件大小因子；

播放时长因子；

编码率因子；

修正数据的可信度因子；

歌曲的新鲜度因子；

网络协议因子；

文件类型修正因子。

6、一种搜索互联网音乐文件的方法，其特征在于，该方法包括：

将用户输入的检索串分解为多个特定语素或者特定词组或者特定词句，并根据每个特定语素或者特定词组或者特定词句的相关性权重数据和所述音乐文件排序结果，计算出符合用户检索请求的所有音乐文件针对所述用户输入检索串的相关性权值，然后按照所述相关性权值排序后将所述符合用户检索请求的音乐文件返回给用户。

7、根据权利要求6所述的搜索互联网音乐文件的方法，其特征在于，所述文本字段包括歌曲名、歌手名、专辑名和歌词中的一种或者多于一种的任意组合；所述计算该音乐文件针对该特定语素的文本相关性包括：

将该特定语素针对歌曲名、歌手名、专辑名和歌词的相关性数值分别乘以歌曲名、歌手名、专辑名和歌词的权重，然后将各项乘积相加以作为文本相关性数值；或

8、一种互联网音乐文件排序系统，其特征在于，该系统包括：

9、根据权利要求8所述的互联网音乐文件排序系统，其特征在于，所述文本字段包括歌曲名、歌手名、专辑名和歌词中的一种或者多于一种的任意组合；其中

文本相关性计算单元，用于将该特定语素针对歌曲名、歌手名、专辑名和歌词的相关性数值分别乘以歌曲名、歌手名、专辑名和歌词的歌曲名、歌手名、专辑名和歌词的权重，然后将乘积相加以作为文本相关性数值；或

文本相关性计算单元，用于将该特定语素针对歌曲名、歌手名、专辑名和歌词的相关性数值分别乘以歌曲名、歌手名、专辑名和歌词的歌曲名、歌手名、专辑名和歌词的权重，然后将乘积相加后再乘以对应于音乐文件类型的文档类型系数以作为文本相关性数值。

10、一种互联网音乐文件搜索引擎系统，其特征在于，该搜索引擎系统包括：