CN106446280A

CN106446280A - 歌曲数据处理方法及装置

Info

Publication number: CN106446280A
Application number: CN201610936145.1A
Authority: CN
Inventors: 杨鹏
Original assignee: Hisense Mobile Communications Technology Co Ltd
Current assignee: Hisense Mobile Communications Technology Co Ltd
Priority date: 2016-11-01
Filing date: 2016-11-01
Publication date: 2017-02-22
Anticipated expiration: 2036-11-01
Also published as: CN106446280B

Abstract

本发明揭示了一种歌曲数据处理方法及装置，歌曲数据处理方法包括获取选定歌曲所对应的歌词数据；读取所述歌词数据中的文字字符的统一码Unicode编码值，根据读取到的统一码Unicode编码值识别所述选定歌曲的语言信息；根据识别的所述语言信息进行所述选定歌曲的分类处理。本发明的歌曲数据处理方法及装置能够有序、准确的对歌曲进行分类。

Description

歌曲数据处理方法及装置

技术领域

本发明涉及计算机应用技术领域，特别涉及一种歌曲数据处理方法及装置。

背景技术

通常人们会在例如手机、电脑等电子设备上存储大量的歌曲，以随时欣赏。为了便于人们能够快速找到自己喜欢的歌曲，电子设备往往会利用音乐播放器的分类功能对歌曲进行分类。音乐播放器可以按歌手、专辑名称、出版时间、风格、文件大小、歌曲时长对歌曲进行分类，其中，音乐播放器通过直接读取歌曲文件中内置的ID3信息实现对歌曲的分类。ID3信息是指，在一个MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3，简称为MP3)等格式的歌曲文件的开头或末尾的若干字节内，附加了关于该歌曲文件的歌手、专辑名称、出版时间、风格、文件大小、歌曲时长等内容的信息。

如前所述，目前主要通过读取歌曲文件中的ID3信息对歌曲进行分类，尽管ID3的相关标准也定义了用于标识语言类型的语言标签帧(TLAN帧，TLAN Language)，但是目前的歌曲文件中并没有在该TLAN帧中预置歌曲的语言类型信息。

因此，现有技术中主要基于文件名、歌曲名或歌手名区分语言类型，但是由于文件名、歌曲名或歌手名的语言类型跟歌曲内容的语言类型相关性不强，例如一首名称为“Amani.mp3”的歌曲往往会被识别为英文歌曲，而实际上，“Amani.mp3”是中文歌曲。又例如，一首名称为“加州旅馆.mp3”的歌曲往往会被识别为中文歌曲，而实际上，“加州旅馆.mp3”是英文歌曲。因此，基于文件名、歌曲名或歌手名识别语言类型的准确率低，进而无法按照语言类型对歌曲进行有序、准确的分类。

发明内容

基于此，本发明提供了一种歌曲数据处理方法，该方法能够按照语言类型对歌曲进行有序、准确的分类。

基于此，本发明另提供了一种歌曲数据处理装置，该装置能够按照语言类型对歌曲进行有序、准确的分类。

本发明提供了一种歌曲数据处理方法，包括：

获取选定歌曲所对应的歌词数据；

读取所述歌词数据中的文字字符的统一码Unicode编码值，根据读取到的统一码Unicode编码值识别所述选定歌曲的语言信息；

根据识别的所述语言信息进行所述选定歌曲的分类处理。

本发明另提供一种歌曲数据处理装置，包括：

歌词数据获取模块，用于获取选定歌曲所对应的歌词数据；

语言信息识别模块，用于读取所述歌词数据中的文字字符的统一码Unicode编码值，根据读取到的统一码Unicode编码值识别所述选定歌曲的语言信息；

分类处理模块，用于根据识别的所述语言信息进行所述选定歌曲的分类处理。

本发明的实施例提供的技术方案可以具有以下有益效果：

本发明的歌曲数据处理方法，通过获取歌词数据，读取歌词数据中的文字字符的统一码Unicode编码值，并根据读取的文字字符对应的统一码Unicode编码值识别歌曲的语言信息，根据歌词中的文字字符的语言信息对歌曲数据进行分类，与现有的基于歌曲名称的分类方式相比，提高了歌词数据分类的准确度。

本发明提供的一种歌曲数据处理装置包括歌词数据获取模块、语言信息识别模块和分类处理模块，本发明通过歌词数据获取模块获取歌词数据，通过语言信息识别模块识别歌曲的语言信息，通过分类处理模块对歌曲按语言信息进行分类，籍此，通过本发明的歌曲数据处理装置根据歌词中的文字字符的语言信息对歌曲数据进行分类，与现有的基于歌曲名称的分类方式相比，提高了歌词数据分类的准确度，进而能够更有针对性的对歌曲进行分类，便于歌曲的快速查找。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据本发明一种实施例的歌曲数据处理方法的流程图；

图2a是一个实施例中读取所述歌词数据中的文字字符的统一码Unicode编码值，根据读取到的统一码Unicode编码值识别所述选定歌曲的语言信息的方法流程图；

图2b是一个实施例中依序读取歌词数据中的文字字符的统一码Unicode编码值，根据读取到的文字字符的统一码Unicode编码值确定所读取的文字字符的语言类型，当读取的文字字符的语言类型为其它语言类型，则终止所述歌词数据库中文字字符的统一码Unicode编码值的读取的方法流程图；

图3是另一个实施例中读取所述歌词数据中的文字字符的统一码Unicode编码值，根据读取到的统一码Unicode编码值识别所述选定歌曲的语言信息的方法流程图；

图4是又一个实施例中读取所述歌词数据中的文字字符的统一码Unicode编码值，根据读取到的统一码Unicode编码值识别所述选定歌曲的语言信息的方法流程图；

图5a是一个实施例中根据时间戳删除歌词数据中的标识信息的方法流程图；

图5b是另一个实施例中根据时间戳删除歌词数据中的标识信息的方法流程图；

图6是另一个实施例中本发明歌曲数据处理方法的流程图；

图7是一个实施例中歌曲数据处理装置的框图；

图8是一个实施例中语言信息识别模块的框图；

图9是另一个实施例中语言信息识别模块的框图；

图10是又一个实施例中语言信息识别模块的框图；

图11是另一个实施例中歌曲数据处理装置的框图；以及

图12是本发明实施例提供的一种装置的框图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

如前所述，目前的电子设备可以按歌手、专辑名称、出版时间、风格、文件大小、歌曲时长对歌曲进行分类，但是不能按语言类型进行分类。基于此，为了使歌曲按语言类型进行有序、准确的分类，本发明特提出一种歌曲数据处理方法，该歌曲数据处理方法由计算机程序实现，与之相对应的，所构建的歌曲数据处理装置运行在例如手机、电脑等电子设备中，进而实现按语言类型对歌曲进行分类。

在一实施例中，如图1所示，本发明的歌曲数据处理方法包括：

步骤110，获取选定歌曲所对应的歌词数据。

选定歌曲是指通过选定方式确定的待分类歌曲。

选定歌曲可以通过电子设备的计算机系统自动选定或手动选定来实现。计算机系统可以将储存在电子设备上的歌曲选定为选定歌曲，也可以将加载在网页上的歌曲选定为选定歌曲，还可以将预设时间内下载的歌曲选定为选定歌曲，例如，将刚下载至本地的歌曲选定为选定歌曲，通过自动选定可以为下载的歌曲自动进行歌曲的语言信息的识别。对于手动选定，可以通过用户触发的选定操作而实现。

歌词数据是指与歌曲对应的歌词内容，其包括文字字符信息。

步骤110可以通过多种途径获取歌词数据，例如，可以包括如下途径：

第一种途径，从歌曲文件的ID3信息中获取歌词数据，例如，通过从ID3信息的SYLT(Synchronized lyric/text)或USLT(Unsychronized lyric/text transcription)或TEXT(Lyricist/Text writer)或TOLY(Original lyricist(s)/text writer(s))等帧中获取歌词数据。

第二种途径，从与歌曲文件对应的歌词文件(例如LRC文件)中的内容获取歌词数据。其中，该歌词文件已预先存储在本地。

第三种途径，通过网络搜索得到歌曲对应的歌词文件，以从歌词文件中的内容获取歌词数据。

步骤110可以采用上述任意一种途径进行歌词数据的获取，并且在当前采用的途径获取失败时，自动选用另一种途径继续获取。

例如，歌词数据获取途径可以是：首先采用从ID3信息中获取歌词数据的第一种途径，若第一种途径获取失败，则自动采用第二种途径，即通过获取存储在本地的与歌曲对应的歌词文件得到歌词数据，若第二种途径获取也失败，则采用第三种途径，即通过网络搜索得到歌曲对应的歌词文件得到歌词数据。

其中，歌曲文件是指按照一定格式存储选定歌曲的文件。歌由文件可以是MP3文件、WMA文件、WAV文件、RM文件等格式文件。

步骤130，读取歌词数据中的文字字符的统一码Unicode编码值，根据读取到的统一码Unicode编码值识别选定歌曲的语言信息。

统一码Unicode是一种在计算机上使用的字符编码，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，即统一码Unicode编码值，统一码Unicode能够满足跨语言、跨平台进行文本转换、处理的要求。

文字字符对应的统一码Unicode编码值是指该文字字符在统一码Unicode中被设定的二进制编码，例如，英文字母“A”在统一码Unicode中设定的二进制编码是0041，则英文字母“A”的统一码Unicode编码值为0041。

每一种语言都有其对应的统一码Unicode的编码范围。例如，英文对应的编码范围为0000-007F，泰文对应的编码范围为0E00-0E7F，阿拉伯文对应的编码范围为0600-06FF。

根据文字字符对应的统一码Unicode编码值所在的编码范围，即可识别该文字字符对应的语言类型。例如，若该文字字符对应的统一码Unicode编码值是0041，根据统一码Unicode的规定，统一码Unicode编码值0041包含在0000-007F的编码范围内，而0000-007F的编码范围对应的语言类型为英文语言，因此，可确定出该文字字符的语言类型为英文语言。

歌词数据中包括多个文字字符，可以按照一定的顺序逐个读取歌词数据中的文字字符的统一码Unicode编码值。

读取文字字符后，根据读取的文字字符对应的统一码Unicode编码值识别出选定歌曲的语言信息，针对选定歌曲的语言信息识别，以下分三种情况说明：

第一种，对其它语言的歌曲的识别，所指的其它语言为区别于英文语言、中文语言、日文语言、韩文语言的语言类型：按一定的顺序(例如，从歌词的开头到结尾的顺序)逐个读取歌词数据中的文字字符的统一码Unicode编码值，根据读取的文字字符对应的统一码Unicode编码值得到文字字符的语言类型，当读取的文字字符的语言类型为其它语言时，终止继续读取的步骤，并根据最后读取的文字字符对应的统一码Unicode编码值识别歌曲的语言类型。

对其它语言的歌曲的识别，因其它语言很少混淆除英文外的其它言语，例如，泰文歌词很少混淆日文歌词，因此，只要歌词数据中有一个区别于英文语言、中文语言、日文语言、韩文语言的其它语言的文字字符，即可识别出歌曲的语言信息。

第二种，对英文语言的歌曲的识别：读取歌词数据中的所有文字字符的统一码Unicode编码，根据读取的文字字符对应的统一码Unicode编码值得到文字字符的语言类型，当读取的所有文字字符对应的语言类型均属于英文语言时，识别出选定歌曲的语言信息为英文语言。

因英文属于国际语言，按照人们对语言的使用习惯，喜欢在例如中文、日文等其它语言中混杂英文，因此，针对英文语言的歌曲识别，只有歌词数据中的所有文字字符均属于英文字符时，才能识别出歌曲的语言信息。

其中，需说明的是，编码范围0000-007F除了包括26个英文字母的大小写对应的统一码Unicode编码值外，还包括阿拉伯数字0～9、常用标点符号、回车等控制字符对应的统一码Unicode编码值，而阿拉伯数字0～9、常用标点符号、回车等控制字符与英文字母一样也会在其它语言中经常出现，因此，若读取的文字字符是阿拉伯数字0～9、常用标点符号、回车等控制字符，其对应的编码值范围也在0000-007F内，则认为读取的文字字符是英文字符。因此，读取到阿拉伯数字0～9、常用标点符号、回车等控制字符时，并不能马上识别出歌曲的语言信息，还需继续读取下一个文字字符，直至读取的文字字符为其它语言类型，或直至读取歌词数据中的所有文字字符，且所有文字字符的编码值范围均在0000-007F内，才能识别出歌曲的语言信息。

第三种，对于中文语言、日文语言、韩文语言的识别，读取歌词数据中的所有文字字符的统一码Unicode编码值，并根据歌词数据中包含的中文语言、日文语言、韩文语言三种语言中至少一种语言的常用字符概率(详细介绍见下文)，识别歌曲的语言信息。因编码范围4E00-9FBF对应的语言类型为中文语言、日文语言、韩文语言三种语言，因此，当读取到的文字字符对应的统一码Unicode编码值在4E00-9FBF内时，可识别出文字字符的语言类型为中文语言、日文语言、韩文语言三种语言中的其中一种语言，对于具体是三种语言中的哪一种语言，则需读取歌词数据中的全部文字字符的统一码Unicode编码值，并根据读取的文字字符计算三种语言中至少一种语言的常用字符概率，进行进一步识别。

步骤150，根据识别的语言信息进行选定歌曲的分类处理。

分类处理是指基于识别的语言信息对歌曲进行归类，以及对归类后的歌曲进行显示。例如，将歌曲移动至用于保存具有相同语言信息的歌曲文件夹中，并在歌曲文件夹中显示歌曲的名称等标识信息。又例如，将歌曲的名称等标识信息移动至具有相同语言信息的歌曲列表中并显示。

本发明的歌曲数据处理方法，通过读取歌词数据中的文字字符的统一码Unicode编码值，并根据文字字符对应的统一码Unicode编码值识别歌曲的语言信息，根据语言信息对歌曲进行分类，实现了按歌词的文字字符的语言类型对歌曲进行分类的功能，进而能够更有针对性的对歌曲进行分类。并且采用本发明的歌曲数据处理方法能够对歌曲进行准确分类，而不会像现有技术中那样出现分类混乱的问题。现有技术中根据ID3信息进行分类时，容易出现分类混乱的问题，主要是因为，因歌曲文件的网络来源不同，有些歌曲文件的ID3信息有内置分类信息，有些歌曲文件中的ID3信息没有内置分类信息，导致无法准确对歌曲进行分类，例如，在按歌手进行分类中，有些歌曲文件的ID3信息有内置歌手名称，有些歌曲文件的ID3信息没有内置歌手名称。

在一个实施例中，如图2a所示，步骤130包括：

步骤131，依序读取歌词数据中的文字字符的统一码Unicode编码值，根据读取到的文字字符的统一码Unicode编码值确定所读取的文字字符的语言类型，当所读取的文字字符的语言类型为其它语言类型，则终止所述歌词数据中的文字字符的统一码Unicode编码值的读取，其它语言类型是区别于英文语言、中文语言、日文语言、韩文语言的语言类型。

如前所述，根据文字字符对应的统一码Unicode编码值所在的编码范围，即可确定出该文字字符对应的语言类型。

依序读取是指按照一定的顺序逐个读取歌词数据中的文字字符的统一码Unicode编码值，例如，按照从头到尾的顺序进行依次读取。

依序读取过程中，当读取到的统一码Unicode编码值对应的文字字符的语言类型是其它语言类型时，终止读取过程。例如，该其它语言可以是泰文、俄文等。

步骤133，根据确定出的文字字符的语言类型生成歌曲的语言信息。

本步骤133中的文字字符的语言类型是指读取到的最后一个统一码Unicode编码值对应的文字字符的语言类型，也即是终止读取时确定出的文字字符的语言类型。

生成的歌曲的语言信息为区别于英文语言、中文语言、日文语言、韩文语言的其它语言信息，例如，泰文、俄文等。

本实施例中，在依序读取的过程中，若读取到的文字字符对应的文字字符的语言类型为其它语言类型时，终止文字字符的统一码Unicode编码值读取，藉此，不必待读取完所有的文字字符的统一码Unicode编码值才进行歌曲语言类型的判断，进而节省了CPU的资源，也加快了语言识别的速度。

在一个实施例中，具体的，如图2b所示，步骤131可包括：

步骤1311，读取歌词数据中的文字字符的统一码Unicode编码值；

步骤1312，根据读取到的文字字符对应的统一码Unicode编码值确定所读取的文字字符的语言类型；

步骤1313，判断该文字字符的语言类型是否为其它语言，若是，则执行步骤1314，若否，则返回至步骤1311；

步骤1314，终止读取。

在一个实施例中，如图3所示，步骤130包括：

步骤132，依序读取歌词数据中的文字字符的统一码Unicode编码值。

步骤134，根据读取到的文字字符的统一码Unicode编码值确定所读取的文字字符的语言类型。

步骤136，当所读取的文字字符的语言类型为英文语言时，继续进行本轮顺序的读取，直至读取到的文字字符对应的语言类型为其它语言类型，或直至歌词数据中的所有文字字符对应的统一码Unicode编码值读取完毕，其它语言类型是区别于英文语言、中文语言、日文语言、韩文语言的语言类型。

依序逐个读取歌词数据中的文字字符的统一码Unicode编码值，若读取到的文字字符的语言类型是英文语言类型，则需继续本轮顺序的读取，即读取所述歌词数据中的下一个文字字符。终止本轮顺序的读取有2种情况，第一种情况，读取到统一码Unicode编码值对应的文字字符的语言类型为其它语言类型，第二种情况，歌词数据中的所有文字字符对应的统一码Unicode编码值读取完毕。

步骤138，当歌词数据中的所有文字字符对应的统一码Unicode编码值都读取完毕，且所有文字字符的语言类型均为英文语言，则根据所有文字字符的语言类型生成选定歌曲的语言信息。

如前所述，英文语言作为一种国际化的语言，其经常被参杂在它语言中。因此，在依序读取的过程中，若读取到的文字字符确定出的语言类型为英文语言时，并不能马上识别出该歌曲的语言信息为英文语言，只有当歌词数据中的所有文字字符都为英文字符时，才能进一步识别出该歌曲的语言信息。

针对前述终止读取的第一种情况，歌曲的语言信息的生成过程参见上一个实施例。

针对前述终止读取的第二种情况，生成的歌曲的语言信息有两种情况，一种生成的英文语言，另一种生成的中日韩语言中的一种。只有当读取的所有文字字符的语言类型均为英文语言时，才识别出歌曲的语言类型为英文语言。针对读取的所有文字字符的语言类型是中日韩语言中的一种时，参照下一个实施例。

本实施例通过依序读取歌词数据中的所有文字字符的统一码Unicode编码值，且歌曲数据中所有文字字符的语言类型均是英文语言时，识别出该歌曲的语言信息为英文，籍此，实现对英文歌曲的语言信息的识别。

在另一个实施例中，如图4所示，步骤130包括：

步骤1301，依序读取歌词数据中的文字字符的统一码Unicode编码值，当读取到的文字字符的统一编Unicode编码值是在中日韩统一表意符号的编码范围内时，则继续读取下一个文字字符的统一码Unicode编码值，直至所述歌词数据中的所有文字字符的统一码Unicode编码值读取完毕。

在统一码Unicode中，将来自于中文、日文、韩文中，本质相同、形状一样或稍异的表意文字(主要为汉字，但也有仿汉字如日本国字、韩国独有汉字)赋予相同的编码，统称为CJK统一表意符号(即中日韩同一表意符号)，对应的编码范围是4E00-9FBF。即在统一码Unicode的规定中，同一个编码值对应的文字字符，可能是中文、日文或韩文。

在对歌词数据中文字字符的统一码Unicode编码值的依序读取过程中，若读取到文字字符对应的统一码Unicode编码值在4E00-9FBF的编码范围内，则依序读取的歌词数据中的所有文字字符的统一码Unicode编码值，并进一步识别各文字字符是否是中文语言、日本语言和韩国语言三种语言中至少一种语言的常用字符。具体是识别哪一种语言或哪几种语言的常用字符可根据实际运营而定。

在任何一种给定的语言中，某些文字字符使用的频率会远远大于其它文字字符。因此，中文语言、日本语言和韩国语言各自均有对应的常用字符集，例如，三种语言的常用字符集均包括512个常用字符。在读取到的文字字符的统一码Unicode编码值时，进一步识别该文字字符是否是某一种语言的常用字符时，将该文字字符与该语言对应的常用字符集内的字符进行匹配，若匹配成功，则识别出该文字字符为该语言的常用字符。

步骤1302，根据中日韩统一表意符号的编码范围对应的语言类型，得到歌曲的语言信息为中文语言、日本语言和韩国语言三种语言中的其中一种。

在对歌词数据中文字字符的的统一码Unicode编码值的依序读取过程中，若读取到一个文字字符对应的统一码Unicode编码值在4E00-9FBF的编码范围内，即可得出歌曲的语言信息为中文语言、日本语言和韩国语言三种语言中的其中一种，因为中文语言、日本语言和韩国语言中很少会参杂泰文或俄文等其他语言。

步骤1303，计算歌词数据中的所有文字字符中包含所述三种语言中至少一种语言的常用字符个数。

计算歌词数据中包含的至少一种语言的常用字符个数。例如，计算歌词数据中包含的中文语言中的常用字符个数。又例如，分别计算歌词数据中包含的中文语言、日本语言和韩国语言的常用字符个数。

步骤1304，根据至少一种语言的常用字符个数和歌词数据中包括的所有文字字符个数，计算出歌词数据中至少一种语言的常用字符概率。

某种语言的常用字符概率＝歌词数据中该种语言的常用字符个数/歌词数据中所有文字字符个数。

在计算常用字符概率时，可以计算一种语言的常用字符概率，也可以计算两种或两种以上语言的常用字符概率。需计算几种语言对应的常用字符概率，可根据实际运营情况而定。

步骤1305，根据常用字符概率，识别歌曲的语言信息。

步骤1305包括两种识别方式，具体如下：

第一种，计算三种语言中其中一种语言的常用字符概率，判断该语言对应的常用字符概率是否超过预设的阈值，若是，识别出歌曲的语言信息。

例如，歌词数据中总共有100个文字字符，歌词数据中的中文语言的常用字符数为51个，预设的阈值为50％，则中文语言的常用字符概率为51/100＝51％，51％大于50％，因此，得出该歌曲的语言信息为中文语言。

当然，也可以计算两种或三种语言的常用字符的概率，判断各种语言的常用字符概率是否超过预设的阈值，以区分歌曲的语言信息具体是三种语言中的哪一种语言。

第二种，分别计算三种语言的常用字符概率，常用字符概率最大的语言对应为歌曲的语言信息。

例如，歌词数据中总共有100个文字字符，计算出歌词数据中中文语言的常用字符数为60个，日文语言的常用字符数为5个，韩文语言的常用字符个数为2个，则中文语言的常用字符概率为60/100＝60％，日文语言的常用字符概率为5/100＝5％，韩文语言的常用字符概率为2/100＝2％，因此，中文语言的常用字符概率大于日文语言和韩文语言的常用字符概率，因此，将歌曲的语言信息识别为中文语言。

通过上述步骤1301至步骤1305，可对中文歌曲、日文歌曲和韩文歌曲进行识别。

在一个实施例中，步骤130之前，本发明的歌曲分类的方法包括：

根据时间戳剔除歌词数据中的标识信息。

歌词数据可以以一定的格式记录在歌词文件中，例如LRC文件。歌词文件分为标准歌词文件和非标准歌词文件，标准歌词文件包括时间戳以及与时间戳对应的文字字符信息，非标准歌词文件除了包括时间戳以及与时间戳对应的文字字符信息外，还包括用于标识歌曲名称、作者、专辑名称等内容的标识信息。对于非标准歌词中的标识信息，并非是歌词内容，属于无效信息，应进行剔除，以避免影响歌曲语言识别的判断结果。

以下以LRC文件为主，说明标准歌词文件和非标准歌词文件内容形式，以及对非标准歌词文件中的标识信息进行剔除：

在标准的LRC文件中，每一行内容包括时间戳和文字字符信息，如下所示：

[00:11.60]关了灯把房间整理好

[00:15.48]凌晨三点还是睡不着

[00:11.60]和[00:11.60]为时间戳，时间戳的格式为[分钟:秒.毫秒]，时间戳后面的信息为文字字符信息。时间戳的作用在于，在歌曲的播放中，根据时间戳显示对应的文字字符。

非标准的歌词文件，主要有以下三种：

第一种非标准的歌词文件，歌词文件的前奏部分中包括含时间戳的标识信息，例如：

[ti:Say you,say me]

[ar:Lionel Richie]

[al:欧美怀旧金曲]

[00:02.50]Say You Say Me

[00:10.00]Lionel Richie

[00:14.29]

[00:18.17]Say you,say me

[00:23.67]Say it for always

上述第一行至第三行是用于标识名称、艺术家、情感类别的标识信息，其不是文字字符信息，是不需要读取的无效内容。

对于第一种非标准的歌词文件标识信息，可根据时间戳进行剔除，具体的：

依序读取歌词数据(即歌词文件)中前奏部分中的一行内容，判断读取的该行内容是否包括时间戳，若是，则执行读取文字字符的步骤(即执行步骤130)，若否，则剔除，并重复读取下一行内容并判断读取的该行内容是否包括时间戳的步骤，直至读取的一行内容包括时间戳。

通过上述方法，可依次剔除包括在歌词文件中的不必要的标识信息，进而避免非标准歌词文件中的标识信息对于歌曲语言信息识别的影响。

第二种非标准的歌词文件，歌词文件中包括含时间戳的标识信息，例如：

[00:01.17]歌手：Lady GaGa

[00:01.46]曲目：Poker Face(Live At The Cherrytree House)(Piano&VoiceVersion)

[00:01.80]

[00:02.47]

[00:02.79]I wanna hold em'like they do in Texas please

[00:06.47]Fold em'let em'hit me raise it baby stay with me

上述歌词文件中的第一行至第二行是用于标识歌手和曲目的标识信息，第三行和第四行是空白行，均不是文字字符信息，因此，需进行剔除。

对于第二种非标准的歌词文件标识信息，可根据时间戳进行剔除，具体的，如图5a所示，剔除的方法如下：

步骤210，读取歌词数据中的一行内容；

步骤220，判断读取的该行内容的时间戳是否大于预设的时间值，若是，则执行步骤130，若否，则执行步骤230；

步骤230，剔除该行内容，并重复步骤210和步骤220，直至读取的一行内容的时间戳大于预设的时间值。

上述步骤210中，读取是指依序按行读取歌词数据中内容，例如，第一次执行步骤210时，读取的是歌词数据中的第一行内容，第二次执行步骤210时，读取的是歌词数据中的第二行内容。

第三种非标准的歌词文件，是第一种非标准形式和第二种非标准形式的组合，即歌词文件中即包括不含时间戳的标识信息，也包括含时间戳的标识信息。

对于第三种非标准的歌词文件标识信息，可根据时间戳进行剔除，具体的，如图5b所示，剔除方法如下：

步骤310，读取歌词数据中的一行内容；

步骤320，判断读取的该行内容是否包括时间戳，若是，则执行步骤330，若否，则剔除，并重复步骤310和步骤320，直至读取的该行内容包括时间戳；

步骤330，判断读取的该行内容的时间戳是否大于预设的时间值，若是，则执行步骤130，若否，则执行步骤340；

步骤340，剔除该行内容；

步骤350，读取歌词数据中的下一行内容；

步骤360，判断读取的一行内容的时间戳大于预设的时间值，若是，则执行步骤130，若否，执行步骤370；

步骤370，剔除该行内容，并重复执行步骤350和步骤360，直至读取的一行内容的时间戳大于预设的时间值。

上述步骤310中，读取是指依序按行读取歌词数据中内容，例如，第一次执行步骤310，读取的是歌词数据中的第一行内容，第二次执行步骤310时，读取的是歌词数据中的第二行内容。

需说明的是，当读取的一行内容的时间戳大于预设的时间值时，表示此次读取的是歌词数据中的文字字符，是有效信息，也即根据时间戳剔除歌词数据中的标识信息的过程已完成，在此之后进行的读取文字字符的过程中，不必再次执行剔除标识信息的步骤。

在本实施例中，根据时间戳剔除歌词数据中的标识信息，可以避免标识信息对歌曲语言信息识别的影响，进而提高歌曲语言信息识别的准确度。

在一个实施例中，识别的语言信息被存储，如图6所示，本发明的方法还包括：

步骤170，选定歌曲被触发再次进行分类处理时，获取为选定歌曲存储的语言信息。

在识别出选定歌曲的语言信息后，将语言信息存储至歌曲文件中，例如，将语言信息存储在歌曲文件中的ID3信息中TLAN帧中。也可以将语言信息存储在一个标识语言信息的文件中，并建立该文件与歌曲文件存储路径的对应关系。例如，语言信息存储在一个a.lan文件，将a.lan文件和歌曲文件存储在同一个文件夹中，或同一数据库中，以建立a.lan文件和歌曲文件存储路径的对应关系。其中，a.lan文件中保存标识语言信息的内容，例如，“中文”、“Chinese”、“0086”或“cn”等内容。

当识别的语言信息被存储后，在选定歌曲被触发再次进行分类处理时，直接从存储该语言信息的歌曲文件中或标识语言信息的文件中，获取歌曲的语言信息。

步骤190，根据获取的语言信息进行选定歌曲的分类处理。

基于获取的语言信息对选定歌曲再次进行分类处理。

在本实施例中，在识别出歌曲的语言信息后，对语言信息进行存储，以便再次对歌曲进行分类时，直接读取存储的语言信息，而不必要重新进行语言信息的识别。籍此，加快歌曲分类的速度，也降低CPU消耗。

在一实施例中，如图7所示，本发明提供一种歌曲数据处理装置，包括歌词数据获取模块410、语言信息识别模块430和分类处理模块450，其中：

歌词数据获取模块410，用于获取选定歌曲所对应的歌词数据；

语言信息识别模块430，用于读取所述歌词数据中的文字字符的统一码Unicode编码值，根据读取到的统一码Unicode编码值识别所述选定歌曲的语言信息；

分类处理模块450，用于根据识别的语言信息进行选定歌曲的分类处理。

在一实施例中，如图8所示，歌曲数据处理装置包括语言信息识别模块430，该语言信息识别模块430读取所述歌词数据中的文字字符的统一码Unicode编码值，根据读取到的统一码Unicode编码值识别所述选定歌曲的语言信息包括：

用于依序读取歌词数据中的文字字符的统一码Unicode编码值，根据读取到的文字字符的统一码Unicode编码值得到所述文字字符的语言类型，当所述文字字符的语言类型为其它语言类型，则终止所述歌词数据库中文字字符的统一码Unicode编码值的读取，所述其它语言类型是区别于所述英文语言、中文语言、日文语言、韩文语言的语言类型，该步骤可由其它语言的读取单元431执行；

用于根据文字字符的语言类型生成选定歌曲的语言信息，该步骤可由其它语言的生成单元433。

在另一个实施例中，如图9所示，歌曲数据处理装置包括语言信息识别模块430，语言信息识别模块430读取所述歌词数据中的文字字符的统一码Unicode编码值，根据读取到的统一码Unicode编码值识别所述选定歌曲的语言信息包括：

用于依序读取歌词数据中的文字字符的统一码Unicode编码值，该步骤可由读取单元432执行；

用于根据读取到的文字字符的统一码Unicode编码值得到所述文字字符的语言类型，该步骤可由文字字符的语言类型得到单元434执行；

用于当所述文字字符的语言类型为英文语言时，继续进行本轮顺序的读取，直至读取到的文字字符对应的语言类型为其它语言，或直至歌词数据中的所有文字字符对应的统一码Unicode编码值读取完毕，所述其它语言类型是区别于所述英文语言、中文语言、日文语言、韩文语言的语言类型，该步骤可由终止读取单元436执行；

用于当歌词数据中的所有文字字符对应的统一码Unicode编码值都读取完毕，且所有文字字符的语言类型均为英文语言，则根据所有文字字符的语言类型生成所述选定歌曲的语言信息，该步骤由英文语言生成单元438执行。

在另一个实施例中，如图10所示，歌曲数据处理装置包括语言信息识别模块430，语言信息识别模块430读取所述歌词数据中的文字字符的统一码Unicode编码值，根据读取到的统一码Unicode编码值识别所述选定歌曲的语言信息包括：

用于依序读取歌词数据中的文字字符的统一码Unicode编码值，当读取到的文字字符的统一编Unicode编码值是在中日韩统一表意符号的编码范围内时，则继续读取下一个文字字符的统一码Unicode编码值，直至所述歌词数据中的所有文字字符的统一码Unicode编码值读取完毕，该步骤可由中日韩语言读取单元4301执行；

用于根据中日韩统一表意符号的编码范围对应的语言类型，得到歌曲的语言信息为中文语言、日本语言和韩国语言三种语言中的其中一种，该步骤可由语言信息得到单元4302执行；

用于计算所述歌词数据中的所有文字字符中包含所述三种语言中至少一种语言的常用字符个数，该步骤可由常用字符计算单元4303执行；

用于根据所述至少一种语言的常用字符个数和所述歌词数据中包括的所有文字字符个数，计算出所述歌词数据中至少一种语言的常用字符概率，该步骤可由常用字符概率计算单元4304执行；

用于根据常用字符概率，识别歌曲的语言信息，该步骤可由语言信息识别单元4305执行。

在一个实施例中，本发明的装置还包括：

剔除模块，用于根据时间戳剔除歌词数据中的标识字符。

在一个实施例中，如图11所示，本发明的装置还包括语言信息获取模块470和分类模块490：

语言信息获取模块470，用于选定歌曲被触发再次进行分类处理时，获取为选定歌曲存储的语言信息；

分类模块490，用于根据获取的语言信息进行选定歌曲的分类处理。

图12是本发明实施例提供的一种装置100的框图。装置100可以是例如智能手机、便携式电脑、台式电脑、平板等电子设备。上述图1至图6任一所示的歌曲数据处理方法的全部或者部分步骤由装置100执行，上述图7至图11中任一所示的装置包括在该装置100内。

装置100可以包括以下一个或多个组件：处理组件101，存储器102，电源组件103，多媒体组件104，音频组件105以及通信组件106。

处理组件101通常装置100的整体操作，诸如与显示，语音播放，数据通信以及记录操作相关联的操作等。处理组件101可以包括一个或多个处理器1011来执行指令，以完成本发明的歌曲数据处理方法的全部或部分步骤。此外，处理组件101可以包括一个或多个模块，便于处理组件101和其他组件之间的交互。例如，处理组件101可以包括多媒体模块，以方便多媒体组件104和处理组件101之间的交互。

存储器102被配置为存储各种类型的数据以支持在装置100的操作。这些数据的示例包括用于在装置100上操作的任何应用程序或方法的指令。存储器102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static RandomAccess Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Red-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。存储器102中还存储有一个或多个模块，该一个或多个模块被配置成由该一个或多个处理器118执行，以完成本发明的歌曲数据处理方法的全部或部分步骤。

电源组件103为装置100的各种组件提供电力。电源组件103可以包括电源管理系统，一个或多个电源，及其他与为装置100生成、管理和分配电力相关联的组件。

多媒体组件104包括在装置100和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(Liquid Crystal Display，简称LCD)和触摸面板((Touch Panel简称TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

音频组件105被配置为输出和/或输入音频信号。例如，音频组件105包括一个麦克风(Microphone，简称MIC)，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或经由通信组件106发送。在一些实施例中，音频组件105还包括一个扬声器，用于输出歌曲等音频信号。

通信组件106被配置为便于装置100和其他设备之间有线或无线方式的通信。装置100可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件106经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件106还包括近距离无线通讯(NearFieldCommunication，简称NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(Radio Frequency Identification，简称RFID)技术，红外数据协会(Infrared DataAssociation，简称IrDA)技术，超宽带(Ultra Wide Band，简称UWB)技术，蓝牙(BlueTooth，简称BT)技术和其他技术来实现。

在示例性实施例中，装置100可以被一个或多个应用专用集成电路(ApplicationSpecific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignalProcessor，简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(programmable logic device，简称PLD)、现场可编程门阵列(Field-ProgrammableGate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种歌曲数据处理方法，其特征在于，包括：

获取选定歌曲所对应的歌词数据；

根据识别的所述语言信息进行所述选定歌曲的分类处理。

2.根据权利要求1所述的方法，其特征在于，所述读取所述歌词数据中的文字字符的统一码Unicode编码值，根据所述读取到的统一码Unicode编码值识别所述选定歌曲的语言信息，包括：

依序读取歌词数据中的文字字符的统一码Unicode编码值，根据读取到的文字字符的统一码Unicode编码值确定所读取的文字字符的语言类型，当所读取的文字字符的语言类型为其它语言类型，则终止所述歌词数据中的文字字符的统一码Unicode编码值的读取，所述其它语言类型是区别于英文语言、中文语言、日文语言、韩文语言的语言类型；

根据确定出的文字字符的语言类型生成所述选定歌曲的语言信息。

3.根据权利要求1所述的方法，其特征在于，所述读取所述歌词数据中的文字字符的统一码Unicode编码值，根据所述读取到的统一码Unicode编码值识别所述选定歌曲的语言信息，包括：

依序读取歌词数据中的文字字符的统一码Unicode编码值；

根据读取到的文字字符的统一码Unicode编码值确定所读取的文字字符的语言类型；

当所读取的文字字符的语言类型为英文语言时，继续进行本轮顺序的读取，直至读取到的文字字符对应的语言类型为其它语言类型，或直至所述歌词数据中的所有文字字符对应的统一码Unicode编码值读取完毕，所述其它语言类型是区别于英文语言、中文语言、日文语言、韩文语言的语言类型；

当歌词数据中的所有文字字符对应的统一码Unicode编码值都读取完毕，且所有文字字符的语言类型均为英文语言，则根据所有文字字符的语言类型生成所述选定歌曲的语言信息。

4.根据权利要求1所述的方法，其特征在于，所述读取所述歌词数据中的文字字符的统一码Unicode编码值，根据所述读取到的统一码Unicode编码值识别所述选定歌曲的语言信息，包括：

依序读取歌词数据中的文字字符的统一码Unicode编码值，当读取到的文字字符的统一编Unicode编码值是在中日韩统一表意符号的编码范围内时，则继续读取下一个文字字符的统一码Unicode编码值，直至所述歌词数据中的所有文字字符的统一码Unicode编码值读取完毕；

根据中日韩统一表意符号的编码范围对应的语言类型，得到所述歌曲的语言信息为中文语言、日本语言和韩国语言三种语言中的其中一种；

计算所述歌词数据中的所有文字字符中包含所述三种语言中至少一种语言的常用字符个数；

根据所述至少一种语言的常用字符个数和所述歌词数据中包括的所有文字字符个数，计算出所述歌词数据中所述至少一种语言的常用字符概率；

根据所述常用字符概率，识别所述歌曲的语言信息。

5.根据权利要求1所述的方法，其特征在于，所述读取所述歌词数据中的文字字符的统一码Unicode编码值，根据所述读取到的统一码Unicode编码值识别所述选定歌曲的语言信息的步骤之前，所述方法还包括：

根据时间戳剔除所述歌词数据中的标识字符。

6.一种歌曲数据处理装置，其特征在于，包括：

歌词数据获取模块，用于获取选定歌曲所对应的歌词数据；

7.根据权利要求6所述的装置，其特征在于，所述语言信息识别模块读取所述歌词数据中的文字字符的统一码Unicode编码值，根据读取到的统一码Unicode编码值识别所述选定歌曲的语言信息包括：

依序读取歌词数据中的文字字符的统一码Unicode编码值，根据读取到的文字字符的统一码Unicode编码值确定所读取的所述文字字符的语言类型，当所述文字字符的语言类型为其它语言类型，则终止所述歌词数据中的文字字符的统一码Unicode编码值的读取，所述其它语言类型是区别于所述英文语言、中文语言、日文语言、韩文语言的语言类型；

根据确定出的所述文字字符的语言类型生成所述选定歌曲的语言信息。

8.根据权利要求6所述的装置，其特征在于，所述语言信息识别模块读取所述歌词数据中的文字字符的统一码Unicode编码值，根据读取到的统一码Unicode编码值识别所述选定歌曲的语言信息包括：

依序读取歌词数据中的文字字符的统一码Unicode编码值；

9.根据权利要求6所述的装置，其特征在于，所述语言信息识别模块读取所述歌词数据中的文字字符的统一码Unicode编码值，根据读取到的统一码Unicode编码值识别所述选定歌曲的语言信息包括：

根据所述至少一种语言的常用字符个数和所述歌词数据中包括的所有文字字符个数，计算出所述歌词数据中至少一种语言的常用字符概率；

根据所述常用字符概率，识别所述歌曲的语言信息。

10.根据权利要求6所述的装置，其特征在于，所述装置还包括：

剔除模块，用于根据时间戳剔除所述歌词数据中的标识字符。