CN108197282B

CN108197282B - 文件数据的分类方法、装置及终端、服务器、存储介质

Info

Publication number: CN108197282B
Application number: CN201810023498.1A
Authority: CN
Inventors: 钟云; 饶孟良; 苏可; 张倩汶
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-01-10
Filing date: 2018-01-10
Publication date: 2020-07-14
Anticipated expiration: 2038-01-10
Also published as: CN108197282A

Abstract

本发明实施例公开了一种文件数据的分类方法、装置及终端、服务器，所述方法包括：获取所述音频数据关联的文本数据，并获取所述音频数据的音频特征数据；根据分类器和所述音频特征数据对所述音频数据进行分类识别，确定所述音频数据的分类类别，得到第一类别信息；对所述文本数据的文本内容中所包括的词语进行分类分析，确定所述文本数据所属的分类类别，得到第二类别信息；如果所述第一类别信息和所述第二类别信息表示了相同的分类类别，则将该相同的分类类别确定为所述音频数据的类别。采用本发明实施例，可以较好地保证音频数据分类的正确性，使得在一些应用场景下，例如音乐推荐等应用场景，能够准确地给用户推荐音乐。

Description

文件数据的分类方法、装置及终端、服务器、存储介质

技术领域

本发明涉及计算机应用技术领域，尤其涉及一种文件数据的分类方法、装置及终端、服务器、存储介质。

背景技术

随着人们生活水平的日益提高，人们的兴趣爱好也越来越广泛。而音乐作为人们最受欢迎的兴趣爱好之一，与人们生活紧紧地绑在了一起。同时，随着现阶段，各种智能音箱的涌现，音乐歌曲的质量受到越来越多人的重视。

目前的音乐存在大量的类型和流派，并且经年累月产生的音乐也是一个巨大的数量，如何对音乐对应的音频数据进行分类成为音乐服务提供者们研究的热点问题。

发明内容

本发明实施例提供一种文件数据的分类方法、装置及终端、服务器，可较为准确地确定音频数据的类别。

一方面，本发明实施例提供了一种文件数据的分类方法，所述文件数据中包括音频数据，所述方法包括：

获取所述音频数据关联的文本数据，并获取所述音频数据的音频特征数据；

根据分类器和所述音频特征数据对所述音频数据进行分类识别，确定所述音频数据的分类类别，得到第一类别信息；

对所述文本数据的文本内容中所包括的词语进行分类分析，确定所述文本数据所属的分类类别，得到第二类别信息；

如果所述第一类别信息和所述第二类别信息表示了相同的分类类别，则将该相同的分类类别确定为所述音频数据的类别。

另一方面，本发明实施例提供了一种文件数据的分类装置，所述文件数据中包括音频数据，所述装置包括：

获取模块，用于获取所述音频数据关联的文本数据，并获取所述音频数据的音频特征数据；

特征分类模块，用于根据分类器和所述音频特征数据对所述音频数据进行分类识别，确定所述音频数据的分类类别，得到第一类别信息；

文本分类模块，用于对所述文本数据的文本内容中所包括的词语进行分类分析，确定所述文本数据所属的分类类别，得到第二类别信息；

确定模块，用于如果所述第一类别信息和所述第二类别信息表示了相同的分类类别，则将该相同的分类类别确定为所述音频数据的类别。

再一方面，本发明实施例还提供了一种服务器，包括：处理器以及存储装置；所述存储装置存储有程序指令，所述处理器调用所述存储装置中存储的程序指令，用于执行如上述的文件数据的分类方法。

相应地，本发明实施例还提供了一种计算机存储介质，所述计算机存储介质中存储有程序指令，所述程序指令被执行时，用于实现上述的文件数据的分类方法。

本发明实施例能够同时对音频数据的特征数据和关联的歌词等文本数据进行分类识别，只有在两者的识别结果相同时，才确定音频数据的分类类别，这样可以保证音频数据分类的正确性，使得在一些应用场景下，例如音乐推荐等应用场景，能够准确地给用户推荐音乐。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的生成分类器的过程示意图；

图2是本发明实施例中对没有进行分类的音频数据进行分类的流程示意图；

图3是本发明实施例的应用系统的结构示意图；

图4是本发明实施例的一种用户界面的示意图；

图5是本发明实施例的另一种用户界面的示意图；

图6是本发明实施例的一种文件数据的分类方法的流程示意图；

图7是本发明实施例的一种对文件数据的分类查询方法的流程示意图；

图8是本发明实施例的对分类器进行训练的方法流程示意图；

图9是本发明实施例的一种文件数据的分类装置的结构示意图；

图10是本发明实施例的一种服务器的结构示意图。

具体实施方式

在本发明实施例中，音频数据可以是一些带有歌词、歌曲评论等文本数据的音乐文件，通过音频数据本身包括的一些音频特征和该音频数据的文本数据，来综合确定音频数据的分类类别。可以通过一个预先训练好的分类器来对音频数据的音频特征进行分类，而对文本数据则可以通过一个类别字典来进行分类，如果分类器的分类结果和类别字典的分类结果相同，均为目标分类类别，则可以将该目标分类类别作为音频数据的类别。

在一个实施例中，为了提高分类器的分类准确性，对于分类器，一方面可以通过支持向量机(Support vector machine，SVM)算法来生成分类器，另一方面还可以结合聚类算法来对训练数据进行处理，以更好地对分类器进行训练。可以由聚类算法先对大量的音频训练数据进行聚类，然后基于聚类中心来对每一条音频训练数据的音频特征训练数据进行相应转换处理，将转换处理后的数据输入到分类器中，以对分类器进行分类，然后再将分类的结果与对音频训练数据进行人工标注时被标注的标注类别进行比较，如果相同，则认为分类器能够对该音频数据进行成功分类，如果不相同，则可以根据需要对分类器进行参数优化，以便于完成对分类器进行优化训练。

请参见图1，是本发明实施例的生成分类器的过程示意图。分类器可以为一个基于SVM算法生成的初始SVM分类器，可以采集大量的音频数据作为音频训练数据，音频训练数据的主要作用在于训练SVM分类器，SVM分类器的训练过程包括以下的流程。

首先，按照指定的分类类别对获取到的作为训练数据的音频训练数据进行人工标注，直接标注这些音频训练数据所属的分类类别，人工标注的分类类别称之为标注类别。在本发明实施例中，指定的分类类别可以根据需要用于表达情感的类别，例如表达“开心”、“忧愁”等情感的类别。

在完成人工标注后，再从音频训练数据中提取出音频特征训练数据。在一个实施例中，提取的音频特征训练数据主要包括：音频的梅尔频率倒谱系数(Mel-frequencycepstral coefficients，MFCC)、常Q变换谐波转换离散(ConstantQ Transform，CQT)特征数据、以及音频节奏Beat特征数据，选择这些音频特征训练数据的理由在于：通过试验发现，这三个特征数据能够较明显地表达音频的情感倾向，表示用户的情感，在其他实施例中，为了保证情感倾向被更好地体现，可以提取其他音频特征，在音频特征训练数据中加入其他音频特征对应的数据。在一个实施例中，在提取音频特征训练数据时，可以仅从音频训练数据中，对20ms的音频范围内的音频数据进行特征提取，得到对应的音频特征训练数据，这样可以避免对整个音频训练数据的特征提取，有效降低计算量。并且在一个实施例中，可以对指定时间范围内的音频数据进行特征提取，例如可以提取音乐数据中，播放时间位于中间时间的时段，因为一般情况下，中间时间段为一首音乐的高潮部分，更能体现音乐的情感趋向。

在提取得到音频特征训练数据后，可以根据提取出的音频特征训练数据，对各个指定的分类类别下音频训练数据进行聚类处理，聚类处理可以采用K-means方法实现，完成聚类后，再确定出各个聚类类别的聚类中心数据。在一个实施例中，可以设置正负类聚类中心数据的个数相等，即正负类的聚类信息赋予权重相同，例如“开心”是正类类别、“忧愁”是负类类别，一个正类类别需要对应一个负类类别。当然，在其他实施例中，一个正类类别也可以对应多个相对的负类类别。

基于聚类中心数据将音频特征训练数据转换为相似度训练数据。利用聚类中心数据将原音频特征训练数据映射到具有数据内在结构信息的新属性空间，在一个实施例中，该新属性空间可以采用欧氏距离进行度量，将原来的音频特征训练数据转换为相似度训练数据即欧氏距离数据，该相似度训练数据作为对应的音频训练数据的新的音频特征，可以看作是音频训练数据对应标签的类属属性。

最后将转换后得到的相似度训练数据输入到初始SVM分类器中，对初始SVM分类器进行训练，得到本发明最终使用的SVM分类模型。

在一个实施例中，以指定的分类类别为“开心”、“忧愁”等五个分类类别为例，确定的音频训练数据为一万首歌曲，基于五个分类类别，通过人工标注的方式将一万首歌曲分类到所述指定的五个分类类别，每一首歌所属的分类类别也被人工标注。在完成人工标注后，可以提取得到每一首歌曲的音频特征训练数据，在本发明实施例中，每一首歌可以用一个72维的数值构成的音频特征训练数据来表示，其中，72维的音频特征训练数据中，CQT特征占24维、NFCC特征占13维，beat特征占6维，其他特征占29维，音频特征训练数据的形式例如可以是(0.1、0.11、0.15、……、1.1)。基于音频特征训练数据通过k-means聚类算法对这一万首歌按照指定的五个分类类别进行聚类处理，并计算出五个分类类别的聚类中心数据，假设聚类到“开心”的分类类别中，有1000首歌曲，将这1000首歌中每一首歌的72维数值中每一维计算得到一个平均值，即可得到一个关于“开心”分类类别的72维的聚类中心数据。得到聚类中心数据后，以“开心”分类类别中的任意一首歌作为目标歌曲为例，计算“开心”分类类别中目标歌曲的音频特征训练数据与这72维聚类中心数据之间的欧氏距离，得到一个72维的欧氏距离数据(即相似度训练数据)，并且采用相同的方式计算目标歌曲相对于其他分类类别的聚类中心数据之间的相似度训练数据。将各个72维的欧氏距离数据输入到等待训练的初始SVM分类器中。初始SVM分类器基于目标歌曲的各个相似度训练数据，确定出目标歌曲属于某个分类类别的概率，例如初始SVM分类器输出的关于目标歌曲的类别概率为：属于“开心”分类类别的概率为50％，而属于“忧愁”的只有10％，还可能属于其他的分类类别，由于属于“开心”分类类别的概率最大且大于预设的概率阈值，则认为目标歌曲属于“开心”的分类类别。将初始SVM分类器对目标歌曲分类后的分类结果与目标歌曲在人工标注时标注的标注类别进行比较，如果相同，则分类成功，否则分类失败。

将“开心”的1000首歌中的每一首歌曲均作为目标歌曲，如果针对“开心”的1000首歌进行上述处理后，得到初始SVM分类器针对这1000首歌识别得到的分类类别的正确率，如果正确率达到95％(或者误差小于5％)则认为初始SVM分类器可以较好地识别“开心”分类类别的歌曲，否则，需要对初始SVM分类器进行参数优化后，再继续对这1000首歌进行上述的训练学习。针对“忧愁”等其他分类类别也进行与该“开心”分类类别相同的训练处理，如果所有分类类别的分类正确率的平均值达到预设的正确率阈值，则可以认为SVM分类器能够较好地对歌曲按照各个指定的分类类别进行分类，可以部署SVM分类器，以便于对未知类别的歌曲按照各个指定的分类类别进行分类，设置情感类别标签。

得到了最终的SVM分类器后，在一个实施例中，请参见图2，是本发明实施例的对没有进行分类的音频数据进行分类的流程示意图，本发明实施例的所述方法可以在一个可用于进行音频数据分类的服务器中实现。

在S201中，录入音频数据，该音频数据为一个没有进行诸如上述提到的“开心”、“忧愁”等分类类别进行分类处理的原始音频数据，在S202中，从音频数据中提取音频特征，得到音频数据的音频特征数据，该音频特征数据可以为如上述的包括了多个用于表示音频特征的数值的72维数据。在S203中，对音频数据进行聚类分析，具体可以采用k-means算法完成聚类处理。在S204中计算音频数据的相似度数据，具体是将音频特征数据与每一个分类类别的聚类中心数据进行欧氏距离计算，得到该音频数据在每一个分类类别下的相似度数据，也就是说，可以得到该音频数据的五个相似度数据，完成分类类别属性的构建。各个指定分类类别的聚类中心数据是在上述训练分类器的过程中计算得到的。在S205中，将得到的相似度数据输入到SVM分类器中，由SVM分类器进行分类识别，得到识别结果，将概率最大且大于预设阈值的分类类别作为该音频数据的分类类别。

在S206中，获取所述音频数据的文本数据，在本发明实施例中，文本数据是指该音频数据的歌词数据，可以通过网络搜索的方式来搜索获取音频数据的歌词数据。在本发明实施例中，基于歌词特征的分类类别预测阶段是一个无监督的过程，不需要训练关于歌词分类的分类模型。在S207中，对获取到歌词进行预处理，进行的预处理主要包括去掉标点符号以及其中的一些不能识别的符号。在S208中对歌词进行分词处理，得到多个单独的词语，可以使用各种有效的分词工具进行分词处理，得到歌词的词语列表。在S209中，基于预设的类别字典对分词得到的每一个词语进行评分，在一个实施例中，可以是进行正负性判断来进行评分，将词语列表中的所有词语与情感字典进行匹配，匹配规则是如果词语列表中的某个词语落在情感正向类别的字典词中，则歌曲的情感正向性值加1，例如落到“开心”分类类别中，则“开心”分类类别的评分加1，反之如果某个词语落在情感负向字典词中，则歌曲的情感负向性加1，例如落到“忧愁”分类类别中，则“忧愁”分类类别的评分加1，最终比较歌曲的情感正向性与负向性值的大小，即判断“开心”、“忧愁”等分类类别的评分，将评分最高的分类类别作为所述文本数据的分类类别。

在S210中，判断音频数据的分类类别与文本数据的分类类别是否相同，如果所述第一类别信息和所述第二类别信息表示了相同的分类类别，均为目标分类类别，则在S211中将该目标分类类别作为所述音频数据的类别，并为该音频数据设置该目标分类类别的情感类别标签，方便后续使用。情感类别标签可以作为音频数据的一个属性，通过设置该属性值的方式来表达情感类别标签。如果某个音频数据的情感类别标签的属性值为空，则表明某个音频数据的分类类别无法被识别，分类识别失败。

通过上述图2对应的方式，可以对大量的音频数据进行准确的分类，为这些音频数据设置分类类别的标签，并存储到音频数据库中。在一个实施例中，结合图3、图4以及图5对设置了标签的音频数据进行使用的场景进行详细描述，图3是本发明实施例的应用系统的结构示意图，图4是本发明实施例的一种用户界面的示意图，图5是本发明实施例的另一种用户界面的示意图。

如图3所示，在本发明实施例的应用场景中，包括用户A及其所使用智能终端301、用户B及其所使用的智能终端302，两个用户的智能终端连接到网络侧的服务器303上，该网络侧的服务器303可以包括多个服务器，也可以为单一服务器，为了描述方便，本发明实施例均描述为服务器。

在一个实施例中，任意一个用户可以通过智能终端与服务器303进行通信，向服务器303发送查询信息，用来查询所需的音频数据，如图4所示，可在智能终端301或智能终端302中显示用户界面，用来实现与用户之间的交互。在一个实施例中，用户可以通过语音或者文字输入等形式，在该用户界面上发起音频数据的搜索查询，以通过服务器303从音频数据库中找到设置了相应分类类别的情感类别标签的音频数据，例如输入“开心”两个字，则服务器303可以从音频数据库中查找“开心”的分类类别所对应的情感类别标签的的音频数据。如果有多个被设置了“开心”的分类类别所对应的情感类别标签的的音频数据，服务器303则可以通过随机选择的方式确定一个音频数据、或者按照存储的先后时间顺序确定出一个最新的音频数据，将确定的音频数据作为查询反馈数据发送给用户。

在一个实施例中，如图5所示，该用户界面可以是一个与虚拟机器人聊天的会话界面，虚拟机器人基于该会话界面上用户发出的聊天消息，自动为用户查询并推荐设置了相应分类类别的情感类别标签的音频数据。针对查询结果，最终确定音频数据的方式可采用上述提及的随机选择的方式或者按照先后顺序的方式。当然，还可以加入其他的用于确定出音频数据的确定策略，例如基于用户的历史搜索数据、或者行为数据、或者用户属性来从多个查询到的音频数据中确定一个合适用户的音频数据，例如，基于用户年龄来确定一个或者多个音频数据。

在一个实施例中，两个智能终端之间可以通过服务器进行即时通讯交流，所述服务器可以为一个即时通信应用服务器，该即时通信应用服务器可以建立到存储有音频数据库且提供音频数据分类查询的服务器的连接。所述音频数据库中包括多个设置了情感类别标签的音频数据。用户A与用户B聊天的过程中，可以根据用户A发出的一条或者多条聊天消息，确定用户A的当前情感，然后基于该情感，到所述音频数据库中查询设置了相应情感类别标签的音频数据，得到查询结果后，在用户A的聊天界面上展示查询到的一个或者多个音频数据。针对用户B可以进行相同的处理。在一个实施例中，还可以同时基于用户A和用户B的聊天消息，确定用户A和用户B共同的情感类别，然后基于该情感到所述音频数据库中查询设置了相应情感类别标签的音频数据，在用户A和用户B的会话界面上显示查询到的一个或者多个音频数据。如果符合要求的音频数据包括多个，则可以通过随机选择、或者其他一些筛选规则从中确定出一个或者多个音频数据提示给用户A和/或用户B。

本发明实施例能够同时对音频数据的特征数据和关联的歌词等文本数据进行分类识别，只有在两者的识别结果相同时，才确定音频数据的分类类别，这样可以保证音频数据分类的正确性，使得在一些应用场景下，例如音乐推荐等应用场景，能够准确地给用户推荐音乐。并且，选择了音频数据中的MFCC、CQT以及Beat来作为表达情感的音频特征，能够较好地对音频数据进行基于情感的分类。在针对分类器进行训练时，没有采用直接基于音频特征进行学习的方式来对分类器进行优化训练，而是先通过k-means算法进行聚类分析，得到各个类别的聚类中心，然后基于聚类中心再对音频特征数据进行转换得到输入参数，再基于该输入参数对分类器进行训练优化，能够得到更为准确的分类器。经过实验发现，使用本方案对超过10万首歌曲进行了关于情感的分类类别的预测，其中励志、开心、甜蜜等分类类别的准确率达到了80％以上，其他情感类别标签的准确率均在75％左右，极大地提高了情感类音乐的分类准确率。

再请参见图6，是本发明实施例的一种文件数据的分类方法的流程示意图，本发明实施例的所述方法可以由一个关于歌曲等音频数据的服务器来实现，例如一些音乐应用的应用服务器。在本发明实施例中，所述文件数据可以是歌曲等音频数据，也可以是某些视频文件，该视频文件中包括音频数据，该视频文件例如可以是音乐短片(Music Video，MV)等类型的文件。本发明实施例的所述方法包括如下步骤。

S601：获取所述音频数据关联的文本数据，并获取所述音频数据的音频特征数据。所述音频数据关联的文本数据可以是指该音频数据的歌词，或者该音频数据对应的MV等视频数据的字幕，还可以是该音频数据对应的点评等评价内容数据，可以基于该音频数据的名称通过网络搜索的方式搜索得到，或者文本数据本身在获取该音频数据的时候已经同时得到并保存，或者也可以通过声音识别等方式从音频数据中识别得到歌词等文本数据。

在本发明实施例中，主要针对用户的情感来进行音频数据的分类，确定了多个关于情感的分类类别。在此基础上，所述音频数据的音频特征数据主要选择了音频数据中的MFCC、CQT以及Beat特征所对应的音频特征数据。为了保证后续能够更准确的对音频数据按照情感进行分类，还可以进一步地补充其他音频特征。在一个实施例中，音频特征数据可以为一个72维的数据集合，也可以称之为72维的音频特征向量。该数据音频特征数据集合用来表示该音频数据的特征。在其他实施例中，还可以划分其他维度的数据集合，维度越多，对音频数据的特征描述越准确，而维度越少，则可以加快分类速度，提高分类效率。

在一个实施例中，可以仅选取部分音频数据，从中确定出音频特征数据，可以根据音频数据的播放时长M，选择中间时段M/2前后的N秒内的音频数据，从中提取音频特征数据，例如，播放时长为100秒，则可以选择第50-10＝40秒到第50+10＝60秒之间的中间时段的视频数据，并从中提取出音频特征数据。仅对部分视频数据进行分析处理可以有效降低计算时间，并且中间时段为整个音频的高潮部分，一般情况下能够能够更好地体现该音频数据的情感表达。

S602：根据分类器和所述音频特征数据对所述音频数据进行分类识别，确定所述音频数据的分类类别，得到第一类别信息。所述分类器可以为基于SVM算法生成的SVM分类器，该SVM分类器可以预先通过大量的音频数据和指定的分类类别来训练优化后得到。在本发明实施例中，该SVM分类器可以以基于音频特征数据和聚类中心数据得到的相似度数据作为输入，以音频数据属于某个分类的概率为输出，确定出音频数据的分类类别，得到第一类别信息。

在一个实施例中，所述S602可以包括：计算所述音频特征数据与指定的分类类别对应的聚类中心数据之间的相似度数据；调用分类器对所述计算得到的相似度数据进行分类，确定所述音频数据属于指定的分类类别的概率；将概率值最大且大于预设的概率阈值的分类类别作为所述音频数据所属的分类类别。

S603：对所述文本数据的文本内容中所包括的词语进行分类分析，确定所述文本数据所属的分类类别，得到第二类别信息。可以对文本数据的文本内容进行预处理，将一些无法识别的符号以及标点符号删除，然后再对剩下的文本内容进行分词处理，得到包括多个词语的词语列表。然后再基于预设的类别字典对词语列表上每一个词进行类别识别，根据每一个类别所包括的词语的数量来确定文本数据的分类类别，得到第二类别信息。

在一个实施例中，所述S603具体可以包括：对所述文本数据的文本内容进行分词处理，得到词语集合；从类别字典中查找所述词语集合中包括的词语所属的类别；根据每一个类别所包括的词语的数量对类别进行计分，并根据计分结果确定所述文本数据所属的分类类别，得到第二类别信息。

类别字典的表现形式可如下表1所示。

词语	类别
		愉快	“开心”
舒畅	“开心”
		发愁	“忧愁”
郁闷	“忧愁”
		……	……

S604：如果所述第一类别信息和所述第二类别信息表示了相同的分类类别，则将该相同的分类类别确定为所述音频数据的类别。只有在第一类别信息所表示的类别和第二类别信息所表示的类别相同时，才能唯一确定所述音频数据的分类类别，可以基于该分类类别为所述音频数据设置情感类别标签，并将设置了情感类别标签的音频数据存储到音频数据库中。可以将情感类别标签作为音频数据的属性信息记录到音频数据中。在一个实施例中，如果第一类别信息所表示的类别和第二类别信息所表示类别不相同，则可以进一步采用其他的分类方式对所述音频数据进行分类，以便于设置相应的情感类别标签。或者直接将该音频数据的类别设置为未知，起情感类别标签的值为空即可。

需要说明的是，在一些实施例中，所说的相同的分类类别是指第一类别信息所指示的类别和第二类别信息所指示的类别可以理解为相同的类别，例如，第一类别信息所指示的类别为“忧愁”类别，第二类别信息所指示的类别为“忧伤”类别，仍然可以认为两者表达的相同的分类类别，该相同的分类类别可以确定是“忧愁”类别或“忧伤”类别，音频文件最终的类别可以确定为“忧愁”类别或“忧伤”类别。

再请参见图7，是本发明实施例的一种对文件数据的分类查询方法的流程示意图，在通过图6所对应的实施例确定了所述音频数据的类别后，为所述音频数据设置表示该类别的情感类别标签，并将设置了标签的音频数据存储音频数据库中。本发明实施例的所述方法包括如下步骤。

S701：从会话界面上接收到聊天消息后，确定所述聊天消息的分类类别。所述聊天消息可以是指两个用户之间基于即时通讯应用交互的消息，也可以是某一个用户与音乐应用中机器人之间交互的聊天消息。在本发明实施例中，实现了一种实际的音乐应用，该音乐应用有用户的智能终端和网络侧的服务器来实现。其中，网络侧的服务器中设置了上述提及存储有设置了情感类别标签的音频数据的音频数据库，该音频数据库中各种音频数据的分类类别可以参考上述实施例的描述，服务器存储了音频数据库中，提供查询服务给用户侧的智能终端，智能终端在安装了音乐应用客户端后，可以通过各种可行的用户界面来查询并接收音频数据。在一个实施例中，所述网络侧的服务器还可以提供音频数据查询服务器给其他应用服务器，例如提供查询功能给即时通讯应用服务器。

聊天消息的分类类别也可以基于上述指定的分类类别来确定。在一个实施例中，可以首先对一条或者多条聊天消息进行预处理，去除掉无法识别的字符和标点符号，然后通过分词工具进行分词，得到聊天的多个词语，再基于上述提到的类别字典确定每一个词语所属的类别，根据每一个类别所包括的词语的数量来确定聊天消息的分类类别。分析的聊天消息的数量越多，对聊天用户的情感分析越准确。

S702：从所述音频数据库中查找目标音频数据，其中，所述目标音频数据的标签所表示的类别与所述聊天消息的分类类别相同；基于音频数据库中音频数据的情感类别标签，以所述聊天消息的分类类别进行查询，找到一个或者多个音频数据。如果只有一个音频数据，则直接将其作为目标音频数据。如果有多个，则可以基于一定的筛选规则从中选择出一个音频数据作为目标音频数据，筛选规则例如可以是随机选择的规则，或者按照音频数据被设置情感类别标签的先后顺序对应的规则，或者以用户属性进行筛选的规定等。

S703：在所述会话界面上显示所述目标音频数据的标识信息。在会话界面上仅仅显示用来表示该目标音频数据的标识信息即可，例如图4和图5所对应界面上显示的标识内容。

S704：如果接收到对所述标识信息的选中事件，则查找所述目标音频数据，并调用音频播放器播放该目标音频数据。在会话界面上显示的标识信息配置有点击操作响应逻辑，在检测到用户的点击操作后，即接收到选中事件，根据该标识信息查找到目标音频数据，或者该标识信息还包括了不需要显示的所述目标音频数据的存储地址，在检测到用户的点击操作后，可以直接根据存储地址打开目标音频数据，并在音频播放器中播放该目标音频数据。

本发明实施例通过上述进行分类训练以及对音频数据的分类识别，能够对音频数据进行较为准确的分类，能够在用户聊天等过程中，快捷、准确地为用户提供与用户当前通过聊天表达的情感相契合的音乐，方便的音乐的推广。

再请参见图8，是本发明实施例的对分类器进行训练的方法流程示意图，本发明实施例的所述方法同样可以由一个服务器来执行。所述方法包括如下步骤。

S801：获取音频训练数据集合，并获取该音频训练数据集合中包括的音频训练数据的音频特征训练数据。可以获取大量的音频数据作为音频训练数据，构成音频训练数据集合。这些音频训练数据可以是从其他音频数据库中获取的，也可以是从一些大型的音乐网站下载的。这些音频训练数据本身能够与本发明实施例所指定的分类类别相对应。例如，本发明实施例主要是以情感的方式来划分类别，包括“开心”、“忧愁”等类别，那么多去到的音频训练数据则可以分别为一些“开心”、轻快的音频，“忧愁”、悲伤的音频，以便于能够更好地对分类器进行训练优化。通过这些音频训练数据训练出来的分类器能够更好更准确地对后续的音频数据进行指定的关于情感的分类。

所述获取的音频特征训练数据主要是指音频训练数据的梅尔频率倒谱系数特征数据、常Q变换谐波转换离散特征数据、音频节奏特征数据中的任意一种或多种。音频特征训练数据可以是上述提及的72维(或者其他维度)的数据集合。

S802：按照指定的至少两个分类类别对所述获取的音频特征训练数据进行聚类计算，得到所述至少两个分类类别中目标类别的音频特征训练数据集合。聚类计算所基于的算法可以为K-means算法，基于k-means算法进行聚类，并计算得到聚类中心数据，聚类中心数据同样可以为一个对应的72维(或者其他维度)的数据集合。

S803：根据音频特征训练数据集合中包括的音频特征训练数据对初始分类器进行训练，得到用于对音频数据进行分类的分类器。

在一个实施例中，所述S803具体可以包括：根据音频特征训练数据集合中包括的音频特征训练数据，得到所述目标类别的聚类中心数据；确定目标音频特征训练数据的相似度训练数据，所述相似度训练数据用于表示所述音频特征训练数据集合中目标音频特征训练数据、与所述聚类中心数据之间的相似度；调用初始分类器对所述相似度训练数据进行分类，确定所述目标音频特征训练数据对应的音频训练数据的训练类别；根据该训练类别对所述初始分类器进行更新，以得到用于对音频数据进行分类的分类器。在一个实施例中，所述相似度训练数据是由目标音频特征训练数据与所述聚类中心数据之间的欧氏距离数据构成。在一个实施例中，聚类中心数据中每一维数值可以为一个平均值。例如，聚类到“开心”类别下的音频特征训练数据为1000个，则聚类中心数据中的第一维数值的值为该1000个音频特征训练数据的第一维数值的平均值，以此类推，得到对应的N维聚类中心数据。

在一个实施例中，将所述音频特征训练数据集合中的至少两个音频特征训练数据分别作为目标音频特征训练数据，得到至少两个音频特征训练数据所对应的音频训练数据的训练类别；所述根据该训练类别对所述初始分类器进行更新，包括：根据得到的训练类别确定初始分类器的识别成功率；如果识别成功率低于预设的阈值，则对所述初始分类器进行更新；其中，所述识别成功率是根据训练类别与为对应的目标音频特征训练数据的音频训练数据所标注的标注类别来确定的，如果训练类别与标注类别相同，则识别成功，如果不相同，则识别失败。标注类别可以是人工标注的，通过人工的方式将音频训练数据标注为各种指定的分类类别，方便后续统计成功率。

本发明实施例在针对分类器进行训练时，没有采用直接基于音频特征进行学习的方式来对分类器进行优化训练，而是先通过k-means算法进行聚类分析，得到各个类别的聚类中心，然后基于聚类中心再对音频特征数据进行转换得到输入参数，再基于该输入参数对分类器进行训练优化，能够得到更为准确的分类器。

再请参见图9，是本发明实施例的一种文件数据的分类装置的结构示意图，本发明实施例的所述装置可以设置在服务器中，诸如一些能够提供音频数据分类分析与查询的服务器中，所述文件数据中包括音频数据，例如可以是一些MP3数据、MV数据等等，所述装置包括如下模块。

获取模块901，用于获取所述音频数据关联的文本数据，并获取所述音频数据的音频特征数据；

特征分类模块902，用于根据分类器和所述音频特征数据对所述音频数据进行分类识别，确定所述音频数据的分类类别，得到第一类别信息；

文本分类模块903，用于对所述文本数据的文本内容中所包括的词语进行分类分析，确定所述文本数据所属的分类类别，得到第二类别信息；

确定模块904，用于如果所述第一类别信息和所述第二类别信息表示了相同的分类类别，则将该相同的分类类别确定为所述音频数据的类别。

在一个实施例中，所述装置还可以包括：

训练模块905，用于获取音频训练数据集合，并获取该音频训练数据集合中包括的音频训练数据的音频特征训练数据；按照指定的至少两个分类类别对所述获取的音频特征训练数据进行聚类计算，得到所述至少两个分类类别中目标类别的音频特征训练数据集合；根据音频特征训练数据集合中包括的音频特征训练数据对初始分类器进行训练，得到用于对音频数据进行分类的分类器。

在一个实施例中，所述训练模块905，在用于根据音频特征训练数据集合中包括的音频特征训练数据对初始分类器进行训练时，用于根据音频特征训练数据集合中包括的音频特征训练数据，得到所述目标类别的聚类中心数据；确定目标音频特征训练数据的相似度训练数据，所述相似度训练数据用于表示所述音频特征训练数据集合中目标音频特征训练数据、与所述聚类中心数据之间的相似度；调用初始分类器对所述相似度训练数据进行分类，确定所述目标音频特征训练数据对应的音频训练数据的训练类别；根据该训练类别对所述初始分类器进行更新，以得到用于对音频数据进行分类的分类器。

在一个实施例中，可以将所述音频特征训练数据集合中的至少两个音频特征训练数据分别作为目标音频特征训练数据，得到至少两个音频特征训练数据所对应的音频训练数据的训练类别；所述训练模块905，在用于根据该训练类别对所述初始分类器进行更新时，用于根据得到的训练类别确定初始分类器的识别成功率；如果识别成功率低于预设的阈值，则对所述初始分类器进行更新；其中，所述识别成功率是根据训练类别与为对应的目标音频特征训练数据的音频训练数据所标注的标注类别来确定的，如果训练类别与标注类别相同，则识别成功，如果不相同，则识别失败。

在一个实施例中，所述相似度训练数据是由目标音频特征训练数据与所述聚类中心数据之间的欧氏距离数据构成。

在一个实施例中，所述特征分类模块902，用于计算所述音频特征数据与指定的分类类别对应的聚类中心数据之间的相似度数据；调用分类器对所述计算得到的相似度数据进行分类，确定所述音频数据属于指定的分类类别的概率；将概率值最大且大于预设的概率阈值的分类类别作为所述音频数据所属的分类类别。

在一个实施例中，所述文本分类模块903，用于对所述文本数据的文本内容进行分词处理，得到词语集合；从类别字典中查找所述词语集合中包括的词语所属的类别；根据每一个类别所包括的词语的数量对类别进行计分，并根据计分结果确定所述文本数据所属的分类类别，得到第二类别信息。

在一个实施例中，对文件数据的分类包括按照指定的用于表示情感的类别对音频数据进行分类，所述获取的所述音频数据的音频特征数据中包括：选定的梅尔频率倒谱系数特征数据、常Q变换谐波转换离散特征数据、音频节奏特征数据中的任意一种或多种。

在一个实施例中，在确定了所述音频数据的类别后，会为所述音频数据设置表示该类别的标签，并将设置了标签的音频数据存储音频数据库中，所述装置还可以包括：交互模块906，用于从会话界面上接收到聊天消息后，确定所述聊天消息的分类类别；从所述音频数据库中查找目标音频数据，其中，所述目标音频数据的标签所表示的类别与所述聊天消息的分类类别相同；在所述会话界面上显示所述目标音频数据的标识信息。

在一个实施例中，所述交互模块906，还用于如果接收到对所述标识信息的选中事件，则查找所述目标音频数据，并调用音频播放器播放该目标音频数据。

本发明实施例能够同时对音频数据的特征数据和关联的歌词等文本数据进行分类识别，可以有效地保证音频数据分类的正确性，使得在一些应用场景下，例如音乐推荐等应用场景，能够准确地给用户推荐音乐。并且，采用的特殊的特征提取与分类器训练的方式，能够得到更为准确的分类器。经过实验发现，使用本方案对超过10万首歌曲进行了关于情感的分类类别的预测，其中励志、开心、甜蜜等分类类别的准确率达到了80％以上，其他情感类别标签的准确率均在75％左右，极大地提高了情感类音乐的分类准确率。

再请参见图10，是本发明实施例的一种服务器的结构示意图，本发明实施例的服务器可以是指一些能够对音频数据进行分类的相关处理，和/或可以根据需要提供音频数据的分类存储与查询等功能的服务器。所述服务器包括各种所需的壳体结构，并包括供电电源、通信接口等。所述服务器还包括处理器1001以及存储装置1002、输入接口1003、输出接口1004。

所述输入接口1003可以是一些提供给用户用于输入待分类的音频数据或者用于对分类器进行训练优化的音频训练数据等数据的用户接口。所述输出接口1004可以是一些网络接口，能够响应用户的音频数据需求将查找到的音频数据发送给用户，所述输出接口1004还可以为存储接口，能够将设置了相应的情感类别标签的音频数据存储到其他一些服务器中。

所述存储装置1002可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储装置1002也可以包括非易失性存储器(non-volatile memory)，例如快闪存储器(flash memory)，固态硬盘(solid-state drive，SSD)等；存储装置1002还可以包括上述种类的存储器的组合。

所述处理器1001可以是中央处理器1001(central processing unit，CPU)。所述处理器1001还可以进一步包括硬件芯片。在一个实施例中，上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmable logic device，PLD)等。上述PLD可以是现场可编程逻辑门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic arraylogic，GAL)等。

在一个实施例中，所述存储装置1002存储有程序指令，所述处理器1001调用所述存储装置1002中存储的程序指令，用于执行上述各个实施例中提及的相关方法和步骤。

在一个实施例中，所述处理器1001调用所述存储装置1002中存储的程序指令，用于获取所述音频数据关联的文本数据，并获取所述音频数据的音频特征数据；根据分类器和所述音频特征数据对所述音频数据进行分类识别，确定所述音频数据的分类类别，得到第一类别信息；对所述文本数据的文本内容中所包括的词语进行分类分析，确定所述文本数据所属的分类类别，得到第二类别信息；如果所述第一类别信息和所述第二类别信息表示了相同的分类类别，则将该相同的分类类别确定为所述音频数据的类别。

在一个实施例中，所述处理器1001，还用于获取音频训练数据集合，并获取该音频训练数据集合中包括的音频训练数据的音频特征训练数据；按照指定的至少两个分类类别对所述获取的音频特征训练数据进行聚类计算，得到所述至少两个分类类别中目标类别的音频特征训练数据集合；根据音频特征训练数据集合中包括的音频特征训练数据对初始分类器进行训练，得到用于对音频数据进行分类的分类器。

在一个实施例中，所述处理器1001，在用于根据音频特征训练数据集合中包括的音频特征训练数据对初始分类器进行训练时，用于根据音频特征训练数据集合中包括的音频特征训练数据，得到所述目标类别的聚类中心数据；确定目标音频特征训练数据的相似度训练数据，所述相似度训练数据用于表示所述音频特征训练数据集合中目标音频特征训练数据、与所述聚类中心数据之间的相似度；调用初始分类器对所述相似度训练数据进行分类，确定所述目标音频特征训练数据对应的音频训练数据的训练类别；根据该训练类别对所述初始分类器进行更新，以得到用于对音频数据进行分类的分类器。

在一个实施例中，可以将所述音频特征训练数据集合中的至少两个音频特征训练数据分别作为目标音频特征训练数据，得到至少两个音频特征训练数据所对应的音频训练数据的训练类别；所述处理器1001，在用于根据该训练类别对所述初始分类器进行更新时，用于根据得到的训练类别确定初始分类器的识别成功率；如果识别成功率低于预设的阈值，则对所述初始分类器进行更新；其中，所述识别成功率是根据训练类别与为对应的目标音频特征训练数据的音频训练数据所标注的标注类别来确定的，如果训练类别与标注类别相同，则识别成功，如果不相同，则识别失败。

在一个实施例中，所述处理器1001，在用于根据分类器和所述音频特征数据对所述音频数据进行分类识别，确定所述音频数据的分类类别时，用于计算所述音频特征数据与指定的分类类别对应的聚类中心数据之间的相似度数据；调用分类器对所述计算得到的相似度数据进行分类，确定所述音频数据属于指定的分类类别的概率；将概率值最大且大于预设的概率阈值的分类类别作为所述音频数据所属的分类类别。

在一个实施例中，所述处理器1001，在用于对所述文本数据的文本内容中所包括的词语进行分类分析，确定所述文本数据所属的分类类别，得到第二类别信息时，用于对所述文本数据的文本内容进行分词处理，得到词语集合；从类别字典中查找所述词语集合中包括的词语所属的类别；根据每一个类别所包括的词语的数量对类别进行计分，并根据计分结果确定所述文本数据所属的分类类别，得到第二类别信息。

在一个实施例中，在确定了所述音频数据的类别后，会为所述音频数据设置表示该类别的标签，并将设置了标签的音频数据存储音频数据库中，所述处理器1001，还用于从会话界面上接收到聊天消息后，确定所述聊天消息的分类类别；从所述音频数据库中查找目标音频数据，其中，所述目标音频数据的标签所表示的类别与所述聊天消息的分类类别相同；在所述会话界面上显示所述目标音频数据的标识信息。

在一个实施例中，所述处理器1001，还用于如果接收到对所述标识信息的选中事件，则查找所述目标音频数据，并调用音频播放器播放该目标音频数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明的部分实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种文件数据的分类方法，其特征在于，所述文件数据中包括音频数据，所述方法包括：

计算所述音频特征数据与指定的分类类别对应的聚类中心数据之间的相似度数据；

调用分类器对所述计算得到的在各个分别类别下的相似度数据进行分类，得到第一类别信息；

如果所述第一类别信息和所述第二类别信息表示了相同的分类类别，则将该相同的分类类别确定为所述音频数据的类别；

在分类器训练阶段对所述分类器进行的分类训练包括：

获取音频训练数据集合，并获取该音频训练数据集合中包括的音频训练数据的音频特征训练数据；

按照指定的至少两个分类类别对所述获取的音频特征训练数据进行聚类计算，得到所述至少两个分类类别中目标类别的音频特征训练数据集合；

基于聚类中心数据将音频特征训练数据集合中包括的音频特征训练数据转换为相似度训练数据，通过相似度训练数据对初始分类器进行训练，得到用于对音频数据进行分类的分类器，其中，所述相似度训练数据用于表示所述音频特征训练数据集合中目标音频特征训练数据、与所述聚类中心数据之间的相似度。

2.如权利要求1所述的方法，其特征在于，所述基于聚类中心数据将音频特征训练数据集合中包括的音频特征训练数据转换为相似度训练数据，通过相似度训练数据对初始分类器进行训练，包括：

根据音频特征训练数据集合中包括的音频特征训练数据，得到所述目标类别的聚类中心数据；

确定目标音频特征训练数据的相似度训练数据；

调用初始分类器对所述相似度训练数据进行分类，确定所述目标音频特征训练数据对应的音频训练数据的训练类别；

根据该训练类别对所述初始分类器进行更新，以得到用于对音频数据进行分类的分类器。

3.如权利要求2所述的方法，其特征在于，将所述音频特征训练数据集合中的至少两个音频特征训练数据分别作为目标音频特征训练数据，得到至少两个音频特征训练数据所对应的音频训练数据的训练类别；

所述根据该训练类别对所述初始分类器进行更新，包括：

根据得到的训练类别确定初始分类器的识别成功率；

如果识别成功率低于预设的阈值，则对所述初始分类器进行更新；

其中，所述识别成功率是根据训练类别与为对应的目标音频特征训练数据的音频训练数据所标注的标注类别来确定的，如果训练类别与标注类别相同，则识别成功，如果不相同，则识别失败。

4.如权利要求2所述的方法，其特征在于，所述相似度训练数据是由目标音频特征训练数据与所述聚类中心数据之间的欧氏距离数据构成。

5.如权利要求1所述的方法，其特征在于，所述调用分类器对所述计算得到的在各个分别类别下的相似度数据进行分类，得到第一类别信息，包括：

调用分类器对所述计算得到的相似度数据进行分类，确定所述音频数据属于指定的分类类别的概率；

将概率值最大且大于预设的概率阈值的分类类别作为所述音频数据所属的分类类别。

6.如权利要求1所述的方法，其特征在于，所述对所述文本数据的文本内容中所包括的词语进行分类分析，确定所述文本数据所属的分类类别，得到第二类别信息，包括：

对所述文本数据的文本内容进行分词处理，得到词语集合；

从类别字典中查找所述词语集合中包括的词语所属的类别；

根据每一个类别所包括的词语的数量对类别进行计分，并根据计分结果确定所述文本数据所属的分类类别，得到第二类别信息。

7.如权利要求1所述的方法，其特征在于，对文件数据的分类包括按照指定的用于表示情感的类别对音频数据进行分类，所述获取的所述音频数据的音频特征数据中包括：选定的梅尔频率倒谱系数特征数据、常Q变换谐波转换离散特征数据、音频节奏特征数据中的任意一种或多种。

8.如权利要求1-7任一项所述的方法，其特征在于，在确定了所述音频数据的类别后，会为所述音频数据设置表示该类别的标签，并将设置了标签的音频数据存储音频数据库中，所述方法还包括：

从会话界面上接收到聊天消息后，确定所述聊天消息的分类类别；

从所述音频数据库中查找目标音频数据，其中，所述目标音频数据的标签所表示的类别与所述聊天消息的分类类别相同；

在所述会话界面上显示所述目标音频数据的标识信息。

9.如权利要求8所述的方法，其特征在于，还包括：

如果接收到对所述标识信息的选中事件，则查找所述目标音频数据，并调用音频播放器播放该目标音频数据。

10.一种文件数据的分类装置，其特征在于，所述文件数据中包括音频数据，所述装置包括：

特征分类模块，用于计算所述音频特征数据与指定的分类类别对应的聚类中心数据之间的相似度数据；调用分类器对所述计算得到的在各个分别类别下的相似度数据进行分类，得到第一类别信息；

确定模块，用于如果所述第一类别信息和所述第二类别信息表示了相同的分类类别，则将该相同的分类类别确定为所述音频数据的类别；

训练模块，用于获取音频训练数据集合，并获取该音频训练数据集合中包括的音频训练数据的音频特征训练数据；按照指定的至少两个分类类别对所述获取的音频特征训练数据进行聚类计算，得到所述至少两个分类类别中目标类别的音频特征训练数据集合；基于聚类中心数据将音频特征训练数据集合中包括的音频特征训练数据转换为相似度训练数据，通过相似度训练数据对初始分类器进行训练，得到用于对音频数据进行分类的分类器，其中，所述相似度训练数据用于表示所述音频特征训练数据集合中目标音频特征训练数据、与所述聚类中心数据之间的相似度。

11.一种服务器，其特征在于，包括：处理器以及存储装置；

所述存储装置存储有程序指令，所述处理器调用所述存储装置中存储的程序指令，用于执行如权利要求1-9任一项所述的文件数据的分类方法。

12.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有程序指令，所述程序指令被执行时，用于实现如权利要求1-9任一项所述的文件数据的分类方法。