CN105843931A

CN105843931A - 一种进行分类的方法和装置

Info

Publication number: CN105843931A
Application number: CN201610191917.3A
Authority: CN
Inventors: 赵忠; 林锡雄; 陈胜凯; 李祖辉
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2016-03-30
Filing date: 2016-03-30
Publication date: 2016-08-10

Abstract

本发明公开了一种进行分类的方法和装置，属于计算机技术领域。所述方法包括：提取待分类对象的文本特征信息和音频特征信息；根据所述待分类对象的文本特征信息和音频特征信息，生成所述待分类对象对应的多模态特征信息；根据预先存储的各类别的类别特征信息，确定与所述待分类对象的多模态特征信息满足预设匹配条件的类别特征信息，以及对应的类别；将所述待分类对象的多模态特征信息对应的类别，确定为所述待分类对象的类别。采用本发明，可以提高进行分类的准确度。

Description

一种进行分类的方法和装置

技术领域

本发明涉及计算机技术领域，特别涉及一种进行分类的方法和装置。

背景技术

随着终端技术的发展，终端的应用越来越广泛，功能也越来越强大，人们可以通过终端来播放歌曲。人们在播放歌曲时，可以打开具有歌曲播放功能的客户端，然后可以选择希望播放的歌曲，终端可以对用户选择的歌曲进行播放。为了方便用户选择歌曲，客户端可以显示歌曲的类别，以使用户可以根据类别选择要播放的歌曲。

技术人员可以预先设置歌曲的类别，如伤感、开心或励志等。技术人员可以选择若干首歌曲作为训练样本集合，训练样本集合中的每首歌曲可以预先设置其对应的类别，服务器可以获取待分类的歌曲，每一首待分类的歌曲可以作为一个待分类对象。对于任意一个类别，服务器可以根据该类别对应的样本的文本特征信息，训练该类别的分类器，该分类器中可以存储有该类别的类别特征信息。对于任一待分类对象，服务器可以根据该待分类对象的文本信息提取文本特征信息，并计算该样本的文本特征信息与各类别的类别特征信息的匹配度，继而可以确定匹配度最大的类别，作为该样本所属的类别。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

由于歌曲中包含的文本信息较少，因此，基于该文本信息提取的文本特征信息，往往不能准确的反映出该歌曲所属的类别，导致分类的准确度较低。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种进行分类的方法和装置。所述技术方案如下：

第一方面，提供了一种进行分类的方法，所述方法包括：

提取待分类对象的文本特征信息和音频特征信息；

根据所述待分类对象的文本特征信息和音频特征信息，生成所述待分类对象对应的多模态特征信息；

根据预先存储的各类别的类别特征信息，确定与所述待分类对象的多模态特征信息满足预设匹配条件的类别特征信息，以及对应的类别；

将所述待分类对象的多模态特征信息对应的类别，确定为所述待分类对象的类别。

可选的，所述提取待分类对象的文本特征信息和音频特征信息，包括：

提取待分类对象的词频向量，基于所述词频向量提取所述待分类对象的文本特征信息；

根据预先设置的音频特征参数，在所述待分类对象中提取所述音频特征参数对应的音频特征值，得到所述待分类对象的音频特征信息。

可选的，所述方法还包括：

根据预先设置的音频特征参数，从训练样本集合包含的各训练样本中提取所述音频特征参数对应的音频特征值；

根据预先存储的训练样本与预设的类别的对应关系，以及从所述各训练样本中提取的音频特征值，在所述音频特征参数中，确定满足预设判别条件的音频特征参数；

所述根据预先设置的音频特征参数，在所述待分类对象中提取所述音频特征参数对应的音频特征值，得到所述待分类对象的音频特征信息，包括：

根据确定出的音频特征参数，在所述待分类对象中提取所述确定出的音频特征参数对应的音频特征值，得到所述待分类对象的音频特征信息。

可选的，所述根据预先存储的训练样本与预设的类别的对应关系，以及所述从每个训练样本中提取所述音频特征参数对应的音频特征值，在所述音频特征参数中，确定满足预设判别条件的音频特征参数，包括：

根据预先存储的训练样本与预设的类别的对应关系，以及每个音频特征参数对应的音频特征值，分别在每个类别中确定所述每个音频特征参数对应的类别平均值，并在训练样本集合中，分别确定所述每个音频特征参数的对应的总体平均值；

根据所述每个音频特征参数对应的总体平均值和类别平均值，确定所述每个音频特征参数对应的判别分数，在所述音频特征参数中，确定对应的判别分数满足预设判别条件的音频特征参数。

可选的，所述根据预先存储的各类别的类别特征信息，确定与所述待分类对象的多模态特征信息满足预设匹配条件的类别特征信息，包括：

确定所述待分类对象的多模态特征信息与预先存储的各类别的类别特征信息的匹配度；

如果所述匹配度中最大的第一匹配大于第一预设阈值，则确定所述第一匹配对应的类别特征信息。

可选的，所述方法还包括：

如果所述匹配度中最大的第一匹配不大于所述第一预设阈值，则根据预先存储的每个类别对应的判别词语，确定所述每个类别对应的判别词语在所述待分类对象中的出现次数，将对应的判别词语的出现次数大于第二预设阈值的类别，确定为所述待分类对象的类别。

可选的，所述方法还包括：

提取训练样本集合中的每个训练样本的词频向量；

根据所述每个训练样本的词频向量，通过卡方检验算法确定每个类别对应的判别词语；

所述根据预先存储的每个类别对应的判别词语，确定所述每个类别对应的判别词语在所述待分类对象中的出现次数，包括：

根据确定出的每个类别对应的判别词语，确定所述每个类别对应的判别词语在所述待分类对象中的出现次数。

第二方面，提供了一种进行分类的装置，所述装置包括：

第一提取模块，用于提取待分类对象的文本特征信息和音频特征信息；

生成模块，用于根据所述待分类对象的文本特征信息和音频特征信息，生成所述待分类对象对应的多模态特征信息；

第一确定模块，用于根据预先存储的各类别的类别特征信息，确定与所述待分类对象的多模态特征信息满足预设匹配条件的类别特征信息，以及对应的类别；

第二确定模块，用于将所述待分类对象的多模态特征信息对应的类别，确定为所述待分类对象的类别。

可选的，所述第一提取模块，包括：

第一提取子模块，用于提取待分类对象的词频向量，基于所述词频向量提取所述待分类对象的文本特征信息；

第二提取子模块，用于根据预先设置的音频特征参数，在所述待分类对象中提取所述音频特征参数对应的音频特征值，得到所述待分类对象的音频特征信息。

可选的，所述装置还包括：

第二提取模块，用于根据预先设置的音频特征参数，从训练样本集合包含的各训练样本中提取所述音频特征参数对应的音频特征值；

第三确定模块，用于根据预先存储的训练样本与预设的类别的对应关系，以及从所述各训练样本中提取的音频特征值，在所述音频特征参数中，确定满足预设判别条件的音频特征参数；

所述第二提取子模块，用于：

可选的，所述第三确定模块，包括：

第一确定子模块，用于根据预先存储的训练样本与预设的类别的对应关系，以及每个音频特征参数对应的音频特征值，分别在每个类别中确定所述每个音频特征参数对应的类别平均值，并在训练样本集合中，分别确定所述每个音频特征参数的对应的总体平均值；

第二确定子模块，用于根据所述每个音频特征参数对应的总体平均值和类别平均值，确定所述每个音频特征参数对应的判别分数，在所述音频特征参数中，确定对应的判别分数满足预设判别条件的音频特征参数。

可选的，所述第一确定模块，包括：

第三确定子模块，用于确定所述待分类对象的多模态特征信息与预先存储的各类别的类别特征信息的匹配度；

第四确定子模块，用于如果所述匹配度中最大的第一匹配大于第一预设阈值，则确定所述第一匹配对应的类别特征信息。

可选的，所述装置还包括：

第四确定模块，用于如果所述匹配度中最大的第一匹配不大于所述第一预设阈值，则根据预先存储的每个类别对应的判别词语，确定所述每个类别对应的判别词语在所述待分类对象中的出现次数，将对应的判别词语的出现次数大于第二预设阈值的类别，确定为所述待分类对象的类别。

可选的，所述装置还包括：

第三提取模块，用于提取训练样本集合中的每个训练样本的词频向量；

第五确定模块，用于根据所述每个训练样本的词频向量，通过卡方检验算法确定每个类别对应的判别词语；

所述第四确定模块，用于：

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例中，提取待分类对象的文本特征信息和音频特征信息，根据待分类对象的文本特征信息和音频特征信息，生成待分类对象对应的多模态特征信息，根据预先存储的各类别的类别特征信息，确定与待分类对象的多模态特征信息满足预设匹配条件的类别特征信息，以及对应的类别，将待分类对象的多模态特征信息对应的类别，确定为待分类对象的类别，这样，可以基于待分类对象的文本特征信息和音频特征信息，来确定其所属的类别，从而可以提高进行分类的准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种进行分类的方法流程图；

图2是本发明实施例提供的一种进行分类的方法流程图；

图3是本发明实施例提供的一种进行分类的装置结构示意图；

图4是本发明实施例提供的一种进行分类的装置结构示意图；

图5是本发明实施例提供的一种进行分类的装置结构示意图；

图6是本发明实施例提供的一种进行分类的装置结构示意图；

图7是本发明实施例提供的一种进行分类的装置结构示意图；

图8是本发明实施例提供的一种进行分类的装置结构示意图；

图9是本发明实施例提供的一种进行分类的装置结构示意图；

图10是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种进行分类的方法，该方法的执行主体为服务器。其中，服务器可以是某应用程序的后台服务器。该服务器可以包括处理器和存储器，其中，存储器可以用于存储各类别的类别特征信息，以及下述处理过程中参数的数据；处理器可以用于提取待分类对象的文本特征信息和音频特征信息，并生成多模态特征信息，还基于待分类对象的多模态特征信息，确定该待分类对象对应的类别。另外，服务器还可以包括电源和收发器等部件。

如图1所示，该方法的处理流程可以包括如下的步骤：

步骤101，提取待分类对象的文本特征信息和音频特征信息。

在实施中，服务器可以获取待分类对象，该待分类对象可以是由技术人员输入的，也可以是服务器从其他存储系统或其他服务器中获取到的。待分类对象可以包括文本信息和音频信息，例如，待分类对象可以为歌曲。服务器可以获取多个待分类对象，对于获取到的每一个待分类对象，服务器可以提取该待分类对象的文本特征信息和音频特征信息。

可选的，服务器提取文本特征信息和音频特征信息的具体方式可以为：提取待分类对象的词频向量，基于词频向量提取待分类对象的文本特征信息；根据预先设置的音频特征参数，在待分类对象中提取音频特征参数对应的音频特征值，得到待分类对象的音频特征信息。

在实施中，服务器可以从待分类对象中提取词频向量，词频向量可以是由待分类对象的文本信息中每个词语出现的次数构成的向量，例如，假设歌词的文本信息为“ABDCBACC”，它包含了4个不同的词语，分别为A，B，C，D，那么这段歌词文本的词频向量为(2，2，3，1)。服务器提取出词频向量后，可以基于该词频向量，以及预设的文本特征信息提取算法，提取该待分类对象的文本特征信息。文本特征信息提取算法可以采用现有技术中的主题模型算法，如LDA(Latent Dirichlet Allocation，三层贝叶斯概率模型)。例如，待分类对象的文本信息包含了1000个不同的词语，它的词频向量就是一个1000维的向量，使用LDA可以将这个1000维的词频向量映射为一个300维的新的向量(即文本特征信息)。文本特征信息中每个分量对应一个主题，分量的值可以为该待分类对象属于该主题的概率。比如，一段新闻文本，通过LDA算法可以提取到300维的向量，其中，第一维可以是属于体育类主题的概率，第二维可以是属于时事类主题的概率，第三维可以是属于娱乐类主题的概率，依次类推。其中，主题的数目可以预先设置的。

服务器中还可以预先存储一个或多个音频特征参数，音频特征参数可以为波长、过零率、低能量率、和MFCC(Mel-frequency cepstral coefficients，频率倒谱系数)等。音频特征参数可以由技术人员进行设备。服务器可以根据预先存储的音频特征参数，在待分类对象中提取各音频特征参数对应的音频特征值，得到待分类对象的音频特征信息。例如，音频特征参数为过零率、低能量率、和MFCC，提取的音频特征信息可以为(0.5，0.2，0.3)

可选的，可以先确定需要提取的音频特征参数，再进行提取，相应的处理过程可以如下：根据预先设置的音频特征参数，从训练样本集合包含的各训练样本中提取音频特征参数对应的音频特征值；根据预先存储的训练样本与预设的类别的对应关系，以及从各训练样本中提取的音频特征值，在音频特征参数中，确定满足预设判别条件的音频特征参数；根据确定出的音频特征参数，在待分类对象中提取确定出的音频特征参数对应的音频特征值，得到待分类对象的音频特征信息。

在实施中，服务器中可以存储有训练样本集合，训练样本集合中可以包括多个训练样本，每个训练样本可以包括文本信息和音频信息，例如，训练样本可以是一首歌曲。训练样本集合可以由技术人员确定，训练样本集合可以从待分类对象中获取，也可以由技术人员预先存储在服务器中。技术人员可以设置每个训练样本对应的类别，如歌曲A的类别为励志，歌曲B的类别为伤感。服务器中可以预先设置多个音频特征参数，服务器可以根据预先设置的音频特征参数，从训练样本集合包含的各训练样本中，提取上述音频特征参数对应的音频特征值，该处理可以与步骤101同时进行，也可以在步骤101之前进行，服务器可以根据预先存储的训练样本与预设的类别的对应关系，以及从各训练样本中提取的音频特征值，计算每个音频特征参数对应的判别分数，判别分数的计算方法可以采用现有技术中的判别分数计算方法。例如，可以采用现有技术的Fisher算法，计算各音频特征参数对应的类间差异度和类内差异度，然后计算各音频特征参数对应的Fisher判别分数。

服务器可以在预先存储的多个音频特征参数中，确定Fisher判别分数最大的预设数目个音频特征参数，或者，服务器可以确定Fisher判别分数大于预设判别分数阈值的音频特征参数。服务器可以基于确定出的音频特征参数，在待分类对象中，提取确定出的音频特征参数对应的音频特征值，得到待分类对象的音频特征信息。在提取音频特征信息时，服务器可以先从待分类对象中提取所有音频特征参数对应的音频特征值，再基于确定出的音频特征参数，进一步提取确定出的音频特征参数对应的音频特征值，也可以基于确定出的音频特征参数，直接从待分类对象中提取音频特征值，从而得到待分类对象的音频特征信息。

可选的，可以根据各音频特征参数对应的总体平均值和类别平均值计算判别分数，相应的处理过程可以如下：根据预先存储的训练样本与预设的类别的对应关系，以及每个音频特征参数对应的音频特征值，分别在每个类别中确定每个音频特征参数对应的类别平均值，并在训练样本集合中，分别确定每个音频特征参数的对应的总体平均值；根据每个音频特征参数对应的总体平均值和类别平均值，确定每个音频特征参数对应的判别分数，在音频特征参数中，确定对应的判别分数满足预设判别条件的音频特征参数。

在实施中，对于任一音频特征参数，服务器可以从训练样本集合包含的每个训练样本中，提取该音频特征参数对应的音频特征值。服务器中可以预先存储训练样本与预设的类别的对应关系，然后可以确定每个类别对应的样本，进而可以确定每个类别中，该音频特征参数对应的音频特征值的和值，这样，服务器可以用每个类别中该音频特征参数对应的音频特征值的和值，除以该和值对应的类别所包含的训练样本数，得到该音频特征参数在每个类别中对应的类别平均值。另外，服务器还可以计算从训练样本集合中提取的该音频特征参数的所有音频特征值的和值，用该和值除以训练集合包含的训练样本数，得到音频特征参数的对应的总体平均值，然后可以用根据该音频特征参数对应的总体平均值和类别平均值，计算该音频特征参数的类间差异度和类内差异度，进而确定该音频特征参数对应的判别分数，这样，服务器可以计算出每个音频特征参数对应的判别分数。服务器可以在预先存储的多个音频特征参数中，确定判别分数最大的预设数目个音频特征参数。上述处理过程即为本实施例提供的Fisher算法，相关的计算公式可以如下：

对于任一音频特征参数，假设它在第i个类的第j个的样本为x_ij，其中，i＝1，2…K；j＝1，2…n_i，n_i为第i类的样本数。

则该音频特征参数在第i类的类别平均值：

该音频特征参数总体平均值：

该音频特征参数的类间差异度：

该音频特征参数的类内差异度：

判别分数：

其中，判别分数F越大，说明该音频特征参数对各个类别中的区分能力越强。

步骤102，根据待分类对象的文本特征信息和音频特征信息，生成待分类对象对应的多模态特征信息。

在实施中，服务器可以根据待分类对象的文本特征信息和音频特征信息，生成该待分类对象对应的多模态特征信息。多模态特征信息中可以包括文本特征信息和音频特征信息，相关的计算公式可以如下：

设音频特征信息为x，文本特征信息为y。另外，还可以设音频特征参数的索引为每个索引可以对应一个预设音频特征参数。服务器确定出满足预设判别条件的音频特征参数后，可以将对应的索引值确定为1，其他的索引值设置为0。然后可以构造出音频特征信息的投影矩阵为其中，p_i为d₁维列向量，当1≤i≤d₁时，p_i的第I_i个元素为1，其余元素为0，当d₁+1≤i≤d₁+d₂时，p_i为零向量。对于文本特征信息，构造对应的投影矩阵为其中，q_i为d₂维列向量，当1≤i≤d₁时，q_i为零向量，当d₁+1≤i≤d₁+d₂时，q_i的第i-d₁个元素为1，其余元素为0。得到投影矩阵P和Q之后，即可将音频特征信息x和文本特征信息y投影到一个d₁+d₂维的公共空间进行特征融合。记融合后的多模态特征信息为z，则有z＝Px+Qy。

步骤103，根据预先存储的各类别的类别特征信息，确定与待分类对象的多模态特征信息满足预设匹配条件的类别特征信息，以及对应的类别。

在实施中，服务器中可以预先存储各类别对应的类别特征信息，服务器生成待分类对象的多模态特征信息后，可以判断预先存储的类别特征信息中，是否存储在与该多模态特征信息满足预设匹配条件的类别特征信息(可称作第一类别特征信息)，如果存在，则可以确定第一类别特征信息对应的类别。如果不存在，则可以通过其他方式来判断该待分类对象对应的类别，具体的判断方式可以采用现有技术中的任意判断方式，本实施例不再赘述。

可选的，可以基于匹配度来确定与该多模态特征信息匹配的类别特征信息，相应的处理过程可以如下：确定待分类对象的多模态特征信息与预先存储的各类别的类别特征信息的匹配度；如果匹配度中最大的第一匹配大于第一预设阈值，则确定第一匹配对应的类别特征信息。

在实施中，对于训练样本集合中的每个训练样本，服务器可以从该训练样本中提取文本特征信息，并可以基于满足预设判别条件的音频特征参数，从该训练样本中提取音频特征信息，该处理可以与步骤101同时进行，也可以在步骤101之前进行。服务器可以根据提取出的文本特征信息和音频特征信息，生成训练样本的多模态特征信息，该处理可以与步骤102同时进行，也可以在步骤102之前进行，具体的处理方式可以参见上述步骤101和步骤102。服务器生成每个训练样本的多模态特征信息后，可以确定某一类别包含的所有训练样本的多模态特征信息，进而可以通过每个训练样本对应的多模态特征信息，训练SVM(Support Vector Machine，支持向量机)分类器，该分类器中可以存储每个类别对应的类别特征信息。具体的训练方式可以采用现有技术中的训练方式，本实施例不再赘述。服务器可以将待分类对象的多模态特征信息作为输入信息，通过分类器分别计算待分类对象的多模态特征信息与各类别的类别特征信息的匹配度，该匹配度可以表示该待分类对象属于该匹配度对应的类别的概率。具体的计算方法也可以采用现有技术中的计算方法。服务器可以在计算得到的匹配度中，确定最大的第一匹配度，进而可以判定第一匹配度是否大于第一预设阈值，如果第一匹配度大于第一预设阈值，则可以确定第一匹配对应的类别特征信息，进而确定该类别特征信息对应的类别。

可选的，对于第一匹配度不大于第一预设阈值的情况，相应的处理过程可以如下：如果第一匹配度不大于第一预设阈值，则根据预先存储的每个类别对应的判别词语，确定每个类别对应的判别词语在待分类对象中的出现次数，将对应的判别词语的出现次数大于第二预设阈值的类别，确定为待分类对象的类别。

在实施中，服务器中可以预先存储每个类别对应的判别词语，每个类别可以对应多个判别词语。如果服务器判定上述匹配度中最大的第一匹配不大于第一预设阈值，则可以基于每个类别对应的判别词语，分别确定每个类别对应的判别词语在待分类对象中的出现次数，该出现次数可以是某个类别对应的判别词语，在该分类对象中出现的总次数。例如，类别A对应的判别词语为a、b、c，a出现3次，b出现5次，c出现10次，则可以确定类别A对应的出现次数为18次。服务器可以计算出每个类别对应的判别词语的出现次数后，可以确定大于第二预设阈值的出现次数，进而可以确定该出现次数对应的类别，然后可以将该类别确定为待分类对象的类别。基于上述处理，待分类对象对应的类别可以是一个，也可以是多个。

可选的，可以通过训练样本来确定每个类别对应的判别词语，相应的处理过程可以如下：提取训练样本集合中的每个训练样本的词频向量；根据每个训练样本的词频向量，通过卡方检验算法确定每个类别对应的判别词语；根据确定出的每个类别对应的判别词语，确定每个类别对应的判别词语在待分类对象中的出现次数。

在实施中，服务器可以获取训练样本集合中每个训练样本的词频向量，对于任一词语，服务器可以在第一类别包含的训练样本中，确定包含该词语的训练样本的数目，以及不包含该词语的训练样本的数目；服务器还可以在除第一类别以外的其他类别包含的训练样本中，确定包含该词语的训练样本的数目，以及不包含该词语的训练样本的数目。服务器中可以预先设置有词语集合，对于该词语集合中的每个词语，都可以进行上述处理，进而可以通过卡方检验算法，筛选满足预设筛选条件的词语，作为第一类别对应的判别词语。相关的计算公式可以如下：

假设一共有K个类别，可以将第一类别称为A类，将第一类别以外的其他类别统称为B类，对于词语集合中的第j个词语w_j，可以分别统计A类和B类中包含w_j的训练样本数，可以分别记为n₁₁和n₂₁，还可以统计A类和B类中不包含w_j的训练样本数，分别记为n₁₂和n₂₂，可以得到如下列表：

	包含词语w_j的训练样本数目	不包含词语w_j的训练样本数目
			A类	n₁₁	n₁₂
B类	n₂₁	n₂₂

服务器可以计算卡方值：

χ^{2} = \frac{n {(n_{11} n_{22} - n_{12} n_{21})}^{2}}{(n_{11} + n_{12}) (n_{11} + n_{21}) (n_{21} + n_{22}) (n_{12} + n_{22})}

其中，n为训练样本集合包含的训练样本的总数目，n＝n₁₁+n₁₂+n₂₁+n₂₂

服务器还可以比较与的大小，服务器可以在上述词语集合中，确定并且对应的卡方值最大的预设数目个词语，得到类别A对应的判别词语。以此类推，服务器可以确定每个类别对应的判别词语。

服务器可以基于待分类对象的词频向量，确定A类对应的每个判别词语在待分类对象中的出现次数，进而可以计算确定出的出现次数的和值，得到A类对应的判别词语在待分类对象中的出现次数，这样，服务器可以计算每个类别对应的判别词语在待分类对象中的出现次数。服务器可以确定对应的出现次数大于第二预设阈值的类别，将确定出的类别确定为待分类对象的类别。其中，第二预设阈值可以是技术人员设置的，也可以通过现有技术中最小化训练集上的错分率来计算得到。

步骤104，将待分类对象的多模态特征信息对应的类别，确定为待分类对象的类别。

在实施中，服务器确定与待分类对象的多模态特征信息满足预设匹配条件的类别特征信息后，可以确定该类别特征信息对应的类别，进而可以将该类别确定为待分类对象的类别，然后可以将该类别与待分类对象的标识进行对应的存储，以使客户端可以对该待分类对象，以及该待分类对象对应的类别进行显示。

本实施例还提供了一种进行分类的方法，如图2所示，该方法的处理过程可以如下：

步骤201，获取待分类对象和训练样本集合。

在实施中，服务器可以获取多个待分类对象，服务器可以从这些待分类对象中，获取预设数目个待分类对象，技术人员可以为预设数目个待分类对象中的每个对象设置其对应的类别，则这些预设数目个待分类对象可以作为训练样本，组成训练样本集合，以便对其余的待分类对象进行分类。

步骤202，从待分类对象和训练样本集合包含的各训练样本中，提取词频向量。

该步骤的处理过程可以参见上述步骤101的相关内容。

步骤203，通过LDA提取待分类对象和各训练样本的文本特征信息

该步骤的处理过程可以参见上述步骤101的相关内容。

步骤204，从待分类对象和训练样本集合包含的各训练样本中，提取底层音频特征信息。

在实施中，服务器可以预先存储多个音频特征参数，服务器可以从待分类对象和训练样本中，提取所有音频特征参数对应的音频特征值，得到待分类对象和训练样本对应的底层音频特征信息。

步骤205，根据各训练样本对应的音频特征信息和Fisher算法，确定满足预设判别条件的音频特征参数，并基于确定出的音频特征参数，提取高层音频特征信息。

在实施中，根据各训练样本对应的音频特征信息和Fisher算法，确定满足预设判别条件的音频特征参数的具体处理过程可以参见上述步骤101的相关内容，服务器提取出底层音频特征信息后，可以基于确定出的音频特征参数，进一步提取确定出的音频特征参数对应的音频特征值，得到待分类对象和各训练样本的高层音频特征信息。

步骤206，生成待分类对象和训练样本的多模态特征信息。

在实施中，服务器可以根据待分类对象对应的文本特征信息和高层音频特征信息，生成待分类对象的多模态特征信息，根据训练样本文本特征信息和高层音频特征信息，生成训练样本的多模态特征信息，具体的生成过程可以参见上述步骤102的相关内容。

步骤207，基于训练样本的多模态特征信息，训练SVM分类器。

该步骤具体的处理过程可以参见上述步骤103的相关内容。

步骤208，根据待分类对象的多模态特征信息，通过SVM分类器确定该待分类对象与各类别的匹配度。

该步骤具体的处理过程可以参见上述步骤103的相关内容。

步骤209，判断最大的第一匹配度是否大于第一预设阈值。

实施中，服务器可以将最大的第一匹配度与第一预设阈值进行比较，如果服务器判定第一匹配度大于第一预设阈值，则执行步骤210；否则，执行步骤211～212。

步骤210，将第一匹配度对应的类别确定为该待分类对象的类别。

该步骤具体的处理过程可以参见上述步骤103和步骤104的相关内容。

步骤211，通过卡方检验算法确定每个类别对应的判别词语。

该步骤具体的处理过程可以参见上述步骤103的相关内容。

步骤212，确定每个类别对应的判别词语在待分类对象中的出现次数，将对应的判别词语的出现次数大于第二预设阈值的类别，确定为待分类对象的类别。

该步骤具体的处理过程可以参见上述步骤103的相关内容。

基于相同的技术构思，本发明实施例还提供了一种进行分类的装置，如图3所示，该装置包括：

第一提取模块310，用于提取待分类对象的文本特征信息和音频特征信息；

生成模块320，用于根据所述待分类对象的文本特征信息和音频特征信息，生成所述待分类对象对应的多模态特征信息；

第一确定模块330，用于根据预先存储的各类别的类别特征信息，确定与所述待分类对象的多模态特征信息满足预设匹配条件的类别特征信息，以及对应的类别；

第二确定模块340，用于将所述待分类对象的多模态特征信息对应的类别，确定为所述待分类对象的类别。

可选的，如图4所示，所述第一提取模块310，包括：

第一提取子模块311，用于提取待分类对象的词频向量，基于所述词频向量提取所述待分类对象的文本特征信息；

第二提取子模块312，用于根据预先设置的音频特征参数，在所述待分类对象中提取所述音频特征参数对应的音频特征值，得到所述待分类对象的音频特征信息。

可选的，如图5所示，所述装置还包括：

第二提取模块350，用于根据预先设置的音频特征参数，从训练样本集合包含的各训练样本中提取所述音频特征参数对应的音频特征值；

第三确定模块360，用于根据预先存储的训练样本与预设的类别的对应关系，以及从所述各训练样本中提取的音频特征值，在所述音频特征参数中，确定满足预设判别条件的音频特征参数；

所述第二提取子模块312，用于：

可选的，如图6所示，所述第三确定模块360，包括：

第一确定子模块361，用于根据预先存储的训练样本与预设的类别的对应关系，以及每个音频特征参数对应的音频特征值，分别在每个类别中确定所述每个音频特征参数对应的类别平均值，并在训练样本集合中，分别确定所述每个音频特征参数的对应的总体平均值；

第二确定子模块362，用于根据所述每个音频特征参数对应的总体平均值和类别平均值，确定所述每个音频特征参数对应的判别分数，在所述音频特征参数中，确定对应的判别分数满足预设判别条件的音频特征参数。

可选的，如图7所示，所述第一确定模块330，包括：

第三确定子模块331，用于确定所述待分类对象的多模态特征信息与预先存储的各类别的类别特征信息的匹配度；

第四确定子模块332，用于如果所述匹配度中最大的第一匹配大于第一预设阈值，则确定所述第一匹配对应的类别特征信息。

可选的，如图8所示，所述装置还包括：

第四确定模块370，用于如果所述匹配度中最大的第一匹配不大于所述第一预设阈值，则根据预先存储的每个类别对应的判别词语，确定所述每个类别对应的判别词语在所述待分类对象中的出现次数，将对应的判别词语的出现次数大于第二预设阈值的类别，确定为所述待分类对象的类别。

可选的，如图9所示，所述装置还包括：

第三提取模块380，用于提取训练样本集合中的每个训练样本的词频向量；

第五确定模块390，用于根据所述每个训练样本的词频向量，通过卡方检验算法确定每个类别对应的判别词语；

所述第四确定模块370，用于：

需要说明的是：上述实施例提供的进行分类的装置在进行分类时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的进行分类的装置与进行分类的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图10是本发明实施例提供的服务器的结构示意图。该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在服务器600上执行存储介质630中的一系列指令操作。

服务器600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，一个或一个以上键盘656，和/或，一个或一个以上操作系统641，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

服务器600可以包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

提取待分类对象的文本特征信息和音频特征信息；

可选的，所述方法还包括：

提取训练样本集合中的每个训练样本的词频向量；

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种进行分类的方法，其特征在于，所述方法包括：

提取待分类对象的文本特征信息和音频特征信息；

2.根据权利要求1所述的方法，其特征在于，所述提取待分类对象的文本特征信息和音频特征信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述根据预先存储的训练样本与预设的类别的对应关系，以及所述从每个训练样本中提取所述音频特征参数对应的音频特征值，在所述音频特征参数中，确定满足预设判别条件的音频特征参数，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据预先存储的各类别的类别特征信息，确定与所述待分类对象的多模态特征信息满足预设匹配条件的类别特征信息，包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

获取训练样本集合中的每个训练样本的词频向量；

8.一种进行分类的装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述第一提取模块，包括：

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

所述第二提取子模块，用于：

11.根据权利要求10所述的装置，其特征在于，所述第三确定模块，包括：

12.根据权利要求8所述的装置，其特征在于，所述第一确定模块，包括：

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

14.根据权利要求13所述的装置，其特征在于，所述装置还包括：

所述第四确定模块，用于：