CN106897428B

CN106897428B - 文本分类特征提取方法、文本分类方法及装置

Info

Publication number: CN106897428B
Application number: CN201710107388.9A
Authority: CN
Inventors: 包恒耀; 苏可; 饶孟良; 陈益
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-02-27
Filing date: 2017-02-27
Publication date: 2022-08-09
Anticipated expiration: 2037-02-27
Also published as: CN106897428A

Abstract

本申请公开了一种文本分类特征提取方法，从训练集中的多个训练文本中获取特征词集合，确定所述特征词集合中每一个特征词与某一类别的属性相关度及每一个特征词在该类别中的词频，从所述特征词集合中选取所述属性相关度符合预设第一条件的特征词及所述词频符合预设第二条件的特征词作为对应类别的分类特征词。本申请还提出了相应的文本分类方法、文本分类特征提取装置及文本分类装置。

Description

文本分类特征提取方法、文本分类方法及装置

技术领域

本申请涉及信息处理技术领域，尤其涉及一种文本分类特征提取方法、装置、文本分类方法及装置。

背景技术

目前，随着互联网技术的发展，互联网上的文本越来越多，大量的文本给用户提供方便的同时也给用户的查找带来了很大的不便。如何有效的管理这些文本是当前的热点问题，面对这个问题，文本分类被提出来了，文本分类能够按照预先定义的主题类别，为文本确定一个类别，将文本按照类别进行分类，从而方便用户查找。文本分类作为管理海量数据的关键技术，已得到广泛的应用。

发明内容

本申请实例提供了一种文本分类特征提取方法，包括：

从训练集中的多个训练文本中获取特征词集合，每一个训练文本带有类别标签，所述类别标签用于表征对应训练文本所属的预设多个类别中的一个类别；

对于所述预设多个类别中的任一类别，通过以下处理确定该类别的分类特征词：

根据所述特征词集合及所述多个训练文本的类别标签，确定所述特征词集合中每一个特征词与该类别的属性相关度及每一个特征词在该类别中的词频，其中，所述属性相关度表征对应特征词与该类别的属性关联程度，所述词频表征在属于该类别的训练文本中，包含对应特征词的训练文本所占的比例；

从所述特征词集合中选取所述属性相关度符合预设第一条件的特征词及所述词频符合预设第二条件的特征词；

将所选取的特征词作为该类别的分类特征词；

其中，所述分类特征词用于在文本分类时获取文本的文本向量。

本申请实例提供了一种文本分类方法，包括：

根据上述的方法，确定预设多个类别中每一个类别的分类特征词；

根据预设多个类别中每一个类别的分类特征词及每一个分类特征词的分类特征词向量，获得训练集中每一个训练文本的训练文本向量及待分类文本的待分类文本向量，其中，所述分类特征词向量的各维度分别对应所述多个类别的分类特征词，每一维度的值为对应分类特征词的特征权重；

根据所述每一个训练文本的训练文本向量及每一个训练文本的类别标签，建立分类模型，所述分类模型用于根据文本的文本向量确定文本属于各类别的概率；

根据所述待分类文本的待分类文本向量及所述分类模型，确定所述待分类文本属于各类别的概率；

根据所述待分类文本属于各类别的概率确定所述待分类文本所属的类别。

本申请实例提供了一种文本分类特征提取装置，包括：

特征词集合获取单元，用于从训练集中多个训练文本中获取特征词集合，每一个训练文本带有类别标签，所述类别标签用于表征对应训练文本所属的预设多个类别中的一个类别；

分类特征词获取单元，用于对于所述预设多个类别中的任一类别，确定该类别的分类特征词，所述分类特征词获取单元包括：

属性相关度及词频计算模块，用于根据所述特征词集合及所述多个训练文本的类别标签，确定所述特征词集合中每一个特征词与该类别的属性相关度及每一个特征词在该类别中的词频，其中，所述属性相关度表征对应特征词与该类别的属性关联程度，所述词频表征在属于该类别的训练文本中，包含对应特征词的训练文本所占的比例；

分类特征词选取模块，用于从所述特征词集合中选取所述属性相关度符合预设第一条件的特征词及所述词频符合预设第二条件的特征词；将所选取的特征词作为该类别的分类特征词；其中，所述分类特征词用于在文本分类时获取文本的文本向量。

本申请实例提供了一种文本分类装置，包括：

根据前述所述的文本分类特征提取装置，确定预设多个类别中每一个类别的分类特征词；

文本向量获取单元，用于根据预设多个类别中每一个类别的分类特征词及每一个分类特征词的分类特征词向量，获得训练集中每一个训练文本的训练文本向量及待分类文本的待分类文本向量，其中，所述分类特征词向量的各维度分别对应所述多个类别的分类特征词，每一维度的值为对应分类特征词的特征权重；

分类模型建立单元，用于根据所述每一个训练文本的训练文本向量及每一个训练文本的类别标签，建立分类模型，所述分类模型用于根据文本的文本向量确定文本属于各类别的概率；

类别确定单元，用于根据所述待分类文本的待分类文本向量及所述分类模型，确定所述待分类文本属于各类别的概率；根据所述待分类文本属于各类别的概率确定所述待分类文本所属的类别。

采用本申请提出的上述方案，可以得到更准确的文本分类。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实例提出的文本分类特征提取方法涉及的系统架构示意图；

图2是本申请实例提出的文本分类特征提取方法的流程示意图；

图3是本申请实例提出的文本分类方法的流程示意图；

图4是本申请实例提出的两层分类模型中确定所述待分类文本所属的类别流程示意图；

图5是本申请实例提出的获取训练文本向量的流程示意图；

图6是本申请实例提出的获取待分类文本向量的流程示意图；

图7是本申请实例提出的文本分类特征提取装置的结构示意图；

图8是本申请实例提出的文本分类装置的结构示意图；以及

图9是本申请实例提出的文本分类特征提取装置及文本分类装置所在的计算机设备的组成结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请涉及文本分类技术，可应用于图1所示的系统构架中。如图1所示，该系统构架包括：终端101、文本分类服务器102，应用服务器104，终端101、文本分类服务器102及应用服务器104通过互联网103进行通信。

终端101可以为智能手机、平板电脑、个人数字助理，也可以是智能电视、智能音箱等各种具有互联网访问能力的智能设备。终端101的显示屏可以是液晶显示屏、电子墨水显示屏等，同时终端101也可以不设置显示屏。终端101的输入装置可以是显示屏上覆盖的触摸层，也可以是终端的外壳上设置的按键、轨迹球、触控板及声音输入单元，也可以是外接的键盘、触控板及鼠标等。终端101上安装有应用客户端，如音乐、视频、新闻、小说阅读等应用客户端，用户通过终端101的输入装置可以输入文本，终端101中的应用客户端接收到用户输入的文本后，向文本分类服务器102发送文本分类请求，文本分类服务器102对所述文本进行分类后，将指示文本所属类别的分类结果发送给应用客户端，应用客户端根据文本所属的类别向应用服务器104发送与该类别相对应的请求。

当上述终端101为智能音箱时，例如智能音箱中的应用客户端可以为用户提供播放音乐，笑话，天气三种服务，应用服务器104为媒体内容服务器。当用户对着智能音箱上的麦克说“我要听音乐”，终端101上的应用客户端接收到用户输入的文本“我要听音乐”时，向文本分类服务器102发送文本分类请求，所述文本分类请求中包括待分类的文本“我要听音乐”，文本分类服务器102将文本“我要听音乐”分类为音乐，同时按照预定规则选取与类别音乐对应的歌曲名，将所述歌曲名发送给终端101上的应用客户端，应用客户端向媒体内容服务器104发送对应歌曲名的音乐播放请求。这里，文本分类服务器102可能与应用服务器104实现在同一个硬件实体中，比如：文本分类服务器102可能为应用服务器104中的一个服务模块；文本分类服务器102也可能与应用服务器104实现在不同的硬件实体中。

在一些实例中，文本分类服务器对文本进行分类时需要选取每个类别的分类特征词，而分类特征词的选取往往不够全面，不能够全面地描述文本信息，从而影响分类结果。

基于上述技术问题，本申请提出一种文本分类特征提取方法，该方法可应用于文本分类服务器102。在一实例中，如图2所示，该方法包括以下步骤：

步骤201：从训练集中的多个训练文本中获取特征词集合。

训练集为包括多个训练文本的集合，该训练集内训练文本的文本类别为已知类别，用于对未知类别的文本进行分类，文本的分类类别为预先设置好的文本列表。每一个训练文本都带有类别标签，所述类别标签用于表征对应训练文本所属的预设多个类别中的一个类别。训练文本可以是具有完整含义的一个句子或者多个句子的组合。

对于上述预设多个类别中的任一类别，通过执行下面步骤202-203确定该类别的分类特征词：

步骤202：根据所述特征词集合及所述多个训练文本的类别标签，确定所述特征词集合中每一个特征词与该类别的属性相关度及每一个特征词在该类别中的词频。

计算特征词集合中的每一个特征词与所述类别的属性相关度及每一个特征词在该类别中的词频，是为了从特征词集合中选取能够很好地表达训练文本所属类别的字或词语。大量的特征词会造成特征向量空间的高维性，即特征向量维数较多，高维的特征向量使得分类模型的学习及分类效率较低、计算量大。而特征词集合中并不是每一个特征词都对分类有贡献，因而有必要在特征词集合中删除与文本内容不相关或冗余的特征词。本申请通过特征词与类别的属性相关度及词频来选择分类特征词。其中，所述属性相关度表征对应特征词与该类别的属性关联程度，例如对于预设的三个类别：音乐、笑话和天气中，训练文本“播放王菲的歌”中的特征词“王菲”与音乐具有较高的属性关联程度，相对的，特征词“播放”与音乐类别的属性关联程度较低。所述词频表征在属于该类别的训练文本中，包含对应特征词的训练文本所占的比例，例如在上述的例子中，在类别标签属于音乐类别的训练文本中，80％的训练文本中都出现了特征词“歌”，特征词“歌”的词频为80％，词频越高，对应特征词与所述类别的相关性越大。

步骤203：从所述特征词集合中选取所述属性相关度符合预设第一条件的特征词及所述词频符合预设第二条件的特征词，将所选取的特征词作为该类别的分类特征词。

将与所述类别的属性相关度高的特征词及词频高的特征词，作为该类别的分类特征词，这些分类特征词更能体现该类别的属性。通过属性相关度选取分类特征词时，预设第一条件，通过词频选取分类特征词时，预设第二条件。所述第一条件及第二条件可以为设置阈值条件，可以将超过阈值的特征词选取出来。所述第一条件也可以是将属性相关度进行从高到低排序，选取前N个特征词，相对应的，所述第二条件可以是将词频进行从高到低排序，选取前M个特征词。选出的分类特征词用于在文本分类时获取文本的文本向量。

通过词频方法选择分类特征词，能够选出在训练文本中出现频率高的特征词，但容易忽略掉虽然出现频率不高，但对于类别比较重要的特征词。例如对于音乐类别来说，某一个唱歌明星的名字在训练文本中出现的频率可能不高，但对于音乐类别来说却是很重要的特征词。采用属性相关度选取特征词能够克服这点不足，属性相关度按照特征词的属性与类别的属性的关联程度来选择分类特征词，更容易选出对类别具有重要意义的低频特征词。但属性相关度选取特征词倾向于低频词，忽视了高频特征词的重要影响。

采用本申请提供的文本分类特征提取方法，通过属性相关度及词频选择每一个类别的分类特征词，通过属性相关度方法弥补词频方法容易漏掉低频有效特征词的不足，词频选词方法能够弥补属性相关度选词方法忽视高频词重要影响的不足，从而使得选出的分类特征词能够更加全面地描述文本信息。

在一些实例中，在上述步骤201中，在执行从训练集中多个训练文本中获取特征词集合时，可以通过对每一训练文本进行分词处理，获得所述特征词集合。

分词处理是中文文本处理的非常重要的文本处理步骤，是将连续的汉字排列按照一定的规则重新切分为词或词组的过程。中文分词的效果对文本分类系统的分类结果影响是比较大的，在文本分类处理的后续流程中，全部都要使用分词之后的特征词，不再参考原始文本，因此如果分词的效果不好，等同于引入了错误的训练数据。在本申请的一实例中，将训练集中所有训练文本都使用2-gram方法进行分词得到所有的两两词组，所有的两两词组构成特征词集合。例如，训练文本“我想听歌”可以分为：#我|我想|想听|听歌|歌#，其中“#”表示句子的开始或结尾。

在一些实例中，在上述步骤203之后，所述文本分类特征词提取方法还包括：为每一个分类特征词构建分类特征词向量。其中，所述分类特征词向量的各维度分别对应所述多个类别的分类特征词，每一维度的值为对应分类特征词的特征权重。例如现在有三个分类，音乐、笑话和天气，对于类别音乐来说，通过属性相关度选取了10个分类特征词，通过词频选取了10个分类特征词，通过属性相关度与词频选取的分类特征词的个数可以相同，也可以不同。相对应的对于类别笑话来说，通过属性相关度选取了10个分类特征词，通过词频选取了10个分类特征词；对应类别天气来说，通过属性相关度选取了10个分类特征词，通过词频选取了10个分类特征词，每一个类别选取的分类特征词数不一定相同，这样可以增加灵活性，突出每个类的特点。这样共选取出了60个分类特征词，对于每一个分类特征词构建一个60维的分类特征词向量(即包括60个维度)，各维度分别对应3个类别的分类特征词，每一维度的值为对应分类特征词的特征权重。例如对于音乐类别来说，通过属性相关度选取的10个分类特征词中的第一个为分类特征词“歌”，该分类特征词对应的分类特征词向量为(m,0,0,0,0,0,0,0,0,0，…)，该分类特征词向量为60维向量，其中m为分类特征词“歌”的特征权重。对于一个类别来说，通过属性相关度及词频很可能选取出相同的分类特征词，但不同方法选取的相同分类特征词的分类特征词向量不同。例如对于类别音乐来说，通过词频也选出分类特征词“歌”，该分类特征词的向量为(0,0,0,0,0,0,0,0,0,0,n,0,0,0,0,0,…)该分类特征词向量为60维向量，其中n为分类特征词“歌”的特征权重。同时不同类别也可能选出相同的分类特征词，该相同分类特征词的分类特征词向量也不同。

在一些实例中，所述分类特征词的特征权重为该分类特征词与对应类别之间的属性相关度或词频。例如在上述例子中，通过属性相关度选取的音乐类别的分类特征词“歌”的分类特征词向量(m,0,0,0,0,0,0,0,0,0，…)中，m的值为特征词“歌”与音乐类别的属性相关度；相对应的通过词频选取的音乐类别的分类特征词“歌”的分类特征词向量(0,0,0,0,0,0,0,0,0,0,n,0,0,0,0,0,…)中，n的值为特征词“歌”在音乐类别中的词频。

在一些实例中，所述属性相关度包括卡方统计量和/或互信息量；其中，所述卡方统计量对应第一子条件，和/或，所述互信息量对应第二子条件；所述选取所述属性相关度符合预设第一条件的特征词包括：选取所述卡方统计量符合所述第一子条件的特征词；和/或选取所述互信息量符合所述第二子条件的特征词。

即通过属性相关度选取分类特征词包括通过卡方统计量选取分类特征词和/或通过互信息量选取分类特征词，卡方统计量是基于显著统计性来选择分类特征词的，比互信息量方式能选出更多的罕见词，但其对于出现频次特别低的特征词，例如只出现一次的特征词容易给出很高的分值，但这些特征词不一定都有效。互信息量虽然也倾向于低频词，但对于低频词计算得到的互信息量值相对较低。

通过卡方方法选取分类特征词是将特征词与对应类别的卡方统计量满足第一子条件的特征词作为该类别的分类特征词，所述第一子条件可以为设置一阈值条件，卡方统计量超过阈值条件的特征词作为分类特征词。所述第一子条件也可以是将卡方统计量从高至低进行排序，选取前N个特征词作为对应类别的分类特征词。卡方统计量用来衡量特征词t与类别c之间的统计相关性强度，特征词对于某类别的卡方统计量值越高，其与该类别之间的相关性越大，携带的类别信息越多。采用下方公式(1)计算每一个特征词的卡方统计量:

其中N表示训练集中训练文本的总数，c表示某一特定类别，t表示某一特征词，A表示属于c类且包含特征词t的文本数，B表示不属于c类但包含特征词t的文本数，C表示属于c类但不包括特征词t的文本数，D表示既不属于c类也不包含特征词t的文本数。

通过互信息方法选取分类特征词是将特征词与对应类别的互信息量满足第二子条件的特征词作为该类别的分类特征词，所述第二子条件可以为设置一阈值条件，互信息量超过阈值条件的特征词作为分类特征词。所述第二子条件也可以是将互信息量从高至低进行排序，选取前M个特征词作为对应类别的分类特征词。互信息量可以衡量某个特征词和类别之间的统计独立关系，使用互信息量进行特征词选择是基于以下假设：在某个特定的类别中出现的频率高，而在其他的类别中出现的频率低的特征词与该类别的互信息值比较大。采用下方公式(2)计算每一个特征词的互信息量:

其中t表示某一特征词，c表示某一特定类别，A表示属于c类且包含特征词t的文本数，B表示属于c类但不包含特征词t的文本数，C表示不属于c类但包括特征词t的文本数，D表示训练集中的文本总数。

例如，对于音乐、笑话和天气三个类别，对每一个类别分别选择卡方、互信息和词频的方式选取分类特征词，每种方式选取10个分类特征词，那么每一个分类特征词的分类特征词向量为90维的向量。每一个类别选取的分类特征词的个数可以相同，也可以不同，对于每一个类别，通过每种方式选取的分类特征词个数也可以相同，也可以不同。

本申请还提出一种文本分类方法，该方法可应用于文本分类服务器102。在一实例中，如图3所示，该方法包括以下步骤：

步骤301：根据本申请提出的文本分类特征提取方法，确定预设多个类别中每一个类别的分类特征词。

根据上述内容中提出的文本分类特征提取方法，对应预设的多个类别，确定每一个类别的分类特征词。

步骤302：根据预设多个类别中每一个类别的分类特征词及每一个分类特征词的分类特征词向量，获得训练集中每一个训练文本的训练文本向量及待分类文本的待分类文本向量。

其中，按照上述内容中的文本分类特征提取方法中的构建分类特征词的分类特征词向量的方式，确定每一个类别下的分类特征词对应的分类特征词向量，所述分类特征词向量的各维度分别对应所述多个类别的分类特征词，每一维度的值为对应分类特征词的特征权重。进而根据每一个分类特征词的分类特征词向量确定每一个训练文本的训练文本向量及待分类文本的待分类文本向量。

步骤303：根据所述每一个训练文本的训练文本向量及每一个训练文本的类别标签，建立分类模型。

其中，所述分类模型用于根据文本的文本向量确定文本属于各类别的概率。分类模型可以采用逻辑回归模型，也可以采用其他机器学习模型，如决策树、随机森林等机器学习模型。以逻辑回归模型为例，所述分类模型采用softmax回归模型，根据每一个训练文本的文本向量以及每一个训练文本的类别标签，基于最大似然法得到softmax回归模型的模型参数，从而得到softmax回归模型，即得到分类模型。

步骤304：根据所述待分类文本的待分类文本向量及所述分类模型，确定所述待分类文本属于各类别的概率。

其中，将待分类文本的文本向量输入分类模型，得到待分类文本属于各个类别的概率。

步骤305：根据所述待分类文本属于各类别的概率确定所述待分类文本所属的类别。

采用本申请提供的文本分类方法，每一个类别的分类特征词通过属性相关度及词频获取，分类特征词能够更加全面地描述文本信息，对文本的分类更加准确。

在一些实例中，所述分类模型包括第一层分类模型及第二层分类模型，所述第一层分类模型用于根据文本的文本向量确定该文本属于各类别的第一概率，所述第二层分类模型用于根据输入的文本属于各类别的概率确定文本属于各类别的第二概率。

其中，所述第一层分类模型用于根据文本的文本向量获得该文本属于各类别的第一概率，所述第二层分类模型用于根据所述第一概率获得该文本属于各类别的第二概率。根据每一个训练文本的文本向量以及每一个训练文本的类别标签，训练第一层分类模型。第一层分类模型训练完成后，将每一个训练文本的训练文本向量输入第一层分类模型，得到每一个训练文本属于各类别的第一概率。根据每一个训练文本属于各类别的第一概率以及每一个训练文本的类别标签训练第二层分类模型，得到第二层分类模型。第一层分类模型及第二层分类模型可以采用逻辑回归模型，也可以采用其他机器学习模型，如决策树、随机森林等机器学习模型。以逻辑回归模型为例，所述第一层分类模型及第二层分类模型采用softmax回归模型，根据每一个训练文本的文本向量以及每一个训练文本的类别标签，基于最大似然法得到第一层softmax回归模型的模型参数，从而得到第一层softmax回归模型。将每一个训练文本的文本向量输入到第一层softmax回归模型，得到每一个训练文本属于每一个类别的第一概率。根据每一个训练文本属于各类别的第一概率以及每一个训练文本的类别标签基于最大似然法得到第二层softmax回归模型的模型参数，从而得到第二层softmax回归模型。

所述确定所述待分类文本所属的类别，如图4所述，主要包括以下步骤：

步骤401：根据所述待分类文本的待分类文本向量及所述第一层分类模型，确定所述待分类文本属于各类别的第一概率。将待分类文本的文本向量输入第一层分类模型，得到待分类文本属于各个类别的第一概率。

步骤402：根据所确定的所述第一概率及第二层分类模型，确定所述待分类文本属于各类别的第二概率；将待分类文本属于各个类别的第一概率输入第二层分类模型，得到待分类文本属于各个类别的第二概率。

步骤403：根据所述第二概率，确定所述待分类文本所属的类别。

第一层分类模型对待分类文本进行初步分类，得到的待分类输入各个类别的第一概率不能明显区分出待分类文本属于哪个类别，例如得到的概率可能出现0.5、0.6的情况。第二层分类模型对待分类文本精确分类，得到的概率基本趋近于0或者趋近于1，进而能够更加准确地对待分类文本进行分类，选择第二概率趋近于1的类别作为待分类文本的类别。

在一些实例中，在执行获取训练文本向量时，如图5所示，主要包括以下步骤：

对于所述训练集中的任一训练文本，执行如下处理：

步骤501：获得训练文本的特征词集合。通过对训练文本分词的方式获得训练文本的特征词集合，所述分词的方式在前述内容中已详细描述，在此步骤赘述。

步骤502：针对所述特征词集合中的每一个特征词，在每一个类别的分类特征词中查找与该特征词相同的分类特征词，并将查找到的分类特征词对应的分类特征词向量合并后作为该特征词的特征向量。

在前述内容中已经介绍了在一个类别中，不同的选词方式可能选出相同的分类特征词，同时不同的类别中也可能选出相同的分类特征词，而这些相同的分类特征词的分类特征词向量是不同的，因而针对一个训练文本的特征词集合中的一个特征词，有可能查找到多个与该特征词相同的分类特征词，那么将该多个分类特征词对应的分类特征词向量进行合并，合并后的向量作为所述特征词的特征向量。所述合并指向量的相同位置处的元素进行加和处理。例如对于训练文本“我要听歌”中的特征词“歌”，在音乐类别中通过属性相关度获得的分类特征词中包括分类特征词“歌”，对应的分类特征词向量为(m,0,0,0,0,0,0,0,0,0，…)，同时在音乐类别中通过词频选取的分类特征词中也包括分类特征词“歌”，对应的分类特征词向量为(0,0,0,0,0,0,0,0,0,0,n,0,0,0,0,0,…)，那么得到特征词“歌”的特征向量为(m,0,0,0,0,0,0,0,0,0,n,0,0,0,0,0,…)。此外训练文本的特征词集合中的有些特征词可能查找不到对应的分类特征词，则忽略掉该特征词。

步骤503：将所述特征词集合中每一个特征词的特征向量合并，以获得所述练文本的训练文本向量。

得到每一个特征词的特征向量后，将每一个特征词的特征向量合并，合并后的向量作为所述训练文本的训练文本向量。所述合并指向量的相同位置处的元素进行加和处理。例如训练文本“我要听歌”的特征词集合为#我|我要|要听|听歌|歌#，其中“#”表示句子的开始或结尾，找到每一个特征词的特征向量，然后合并得到训练文本的训练文本向量。

在一些实例中，在执行获取待分类文本向量时，如图6所示，主要包括以下步骤：

步骤601：获得待分类文本的特征词集合。

步骤602：针对所述特征词集合中的每一个特征词，在每一个类别的分类特征词中查找与该特征词相同的分类特征词，并将查找到的分类特征词对应的分类特征词向量合并后作为该特征词的特征向量。

步骤603：将所述特征词集合中每一个特征词的特征向量合并，以获得所述待分类文本的待分类文本向量。

在该实例中，获得待分类文本的待分类文本向量的方式与获得训练文本的训练文本向量方式相同，在此不再赘述。

在一些实例中，所述分类模型包括多个第三分类模型，所述第三分类模型用于根据文本的文本向量确定该文本属于各类别的第五概率，每一个第三分类模型根据每一个训练文本的训练文本向量及每一个训练文本的类别标签获得。所述多个第三分类模型的类型不同，所述多个第三分类模型可以为逻辑回归模型、决策树模型或随机森林等机器学习模型，通过不同类型的分类模型共同预测，可以弥补单个分类模型的不足，从而进一步提高分类准确率。

在一些实例中，所述确定待分类文本属于各类别的概率包括：

根据所述待分类文本的待分类文本向量，通过所述多个第三分类模型分别得到的多个所述第五概率。将所述待分类文本的文本向量分别输入所述多个第三分类模型，得到多个待分类文本属于各类别的第五概率。

根据所述多个第五概率确定所述待分类文本属于各类别的概率。比如：可以将各个第五概率进行加和、加和求平均或加权求和后的概率作为所述待分类文本属于各类别的概率。

在一些实例中，所述确定所述待分类文本所属的类别包括：

根据所述多个第五概率分别确定多个所述待分类文本所属的候选类别。

根据所述多个候选类别确定所述待分类文本所属的类别，例如可以选用投票的方式，得票最高的候选类别作为待分类文本所属的类别。

在一些实例中，所述第一层分类模型包括多个第一分类模型，所述第一分类模型用于根据文本的文本向量确定该文本属于各类别的第三概率，所述多个第一分类模型的类型不同。每一个第一分类模型根据每一个训练文本的训练文本向量及每一个训练文本的类别标签获得，根据所述多个第一分类模型得到的第三概率确定所述第一层分类模型得到的第一概率。所述多个第一分类模型的类型不同，所述多个第一分类模型可以为逻辑回归模型、决策树模型及随机森林等机器学习模型。通过不同类型的分类模型预测，可以弥补单个分类模型的不足，从而进一步提高分类准确率。

在一些实例中，所述确定所述待分类文本属于各类别的第一概率包括：

根据所述待分类文本的待分类文本向量，通过所述多个第一分类模型分别得到的多个所述第三概率。

根据所述多个第三概率确定所述第一概率。比如：可以将各个第一分类模型预测的概率进行加和、加和求平均或加权求和后的概率作为第一层分类模型得到的第一概率。

在一些实例中，所述第二层分类模型包括多个第二分类模型，所述第二分类模型用于根据输入的文本属于各类别的概率确定该文本属于各类别的第四概率，每一个第二分类模型根据每一个训练文本属于各类别的第一概率及每一个训练文本的类别标签获得。所述多个第二分类模型的类型不同，所述多个第二分类模型可以为逻辑回归模型、决策树模型及随机森林等机器学习模型。通过不同类型的分类模型预测，可以弥补单个分类模型的不足，从而进一步提高分类准确率。

在一些实例中，所述确定所述待分类文本属于各类别的第二概率包括：

根据所述待分类文本属于各类别的第一概率，通过所述多个第二分类模型分别得到多个所述第四概率。

根据所述多个第四概率确定所述第二概率。比如：可以将各个第二分类模型预测的第四概率进行加和、加和求平均或加权求和后的概率作为第二层分类模型得到的第二概率。

在一些实例中，所述确定所述待分类文本所属的类别包括：

根据所述待分类文本属于各类别的第一概率，通过所述多个第二分类模型分别得到多个所述第四概率；

根据所述多个第四概率分别确定多个所述待分类文本所属的候选类别。根据多个第二分类模型得到的多个第四概率进行文本分类，获得待分类文本属于的多个候选类别。

根据所述多个候选类别确定所述待分类文本所属的类别。

在一些实例中，可以在所述多个待分类文本所属的候选类别中，选取占比最高的候选类别作为待分类文本所属的类别。这相当于采用投票方式获得文本分类结果，针对多个第二分类模型得到待分类文本属于的多个候选类别，得票最高的候选类别作为待分类文本所属的类别。例如：共有5个分类模型，其中3个分类模型将文本分到的第一类，剩下2个分类模型将文本分到第二类，则将文本分到第一类作为文本分类结果。

本申请还提出一种文本分类特征提取装置，该方法可应用于文本分类服务器102。在一实例中，如图7所示，所述装置700包括如下组成部分：

特征词集合获取单元701，用于从训练集中多个训练文本中获取特征词集合，每一个训练文本带有类别标签，所述类别标签用于表征对应训练文本所属的预设多个类别中的一个类别。

分类特征词获取单元702，用于对于所述预设多个类别中的任一类别，确定该类别的分类特征词，所述分类特征词获取单元702包括如下模块：

属性相关度及词频计算模块703，用于根据所述特征词集合及所述多个训练文本的类别标签，确定所述特征词集合中每一个特征词与该类别的属性相关度及每一个特征词在该类别中的词频，其中，所述属性相关度表征对应特征词与该类别的属性关联程度，所述词频表征在属于该类别的训练文本中，包含对应特征词的训练文本所占的比例。

分类特征词选取模块704，用于从所述特征词集合中选取所述属性相关度符合预设第一条件的特征词及所述词频符合预设第二条件的特征词；将所选取的特征词作为该类别的分类特征词；其中，所述分类特征词用于在文本分类时获取文本的文本向量。

采用本申请提供的文本分类特征提取装置700，通过属性相关度及词频选择每一个类别的分类特征词，通过属性相关度方法弥补词频方法容易漏掉低频有效特征词的不足，词频选词方法能够弥补属性相关度选词方法忽视高频词重要影响的不足，从而使得选出的分类特征词能够更加全面地描述文本信息。

在一些实例中，所述装置700还包括：

分类特征词向量构建单元705，用于为每一个分类特征词构建分类特征词向量；其中，所述分类特征词向量的各维度分别对应所述多个类别的分类特征词，每一维度的值为对应分类特征词的特征权重。

在一些实例中，所述分类特征词的特征权重为该分类特征词与对应类别之间的属性相关度或词频。

在一些实例中，所述属性相关度包括卡方统计量和/或互信息量；其中，所述卡方统计量对应第一子条件，和/或，所述互信息量对应第二子条件；所述分类特征词选取模块704，用于选取所述卡方统计量符合所述第一子条件的特征词；和/或选取所述互信息量符合所述第二子条件的特征词。

本申请还提出一种文本分类装置，该方法可应用于文本分类服务器102。在一实例中，如图8所示，所述装置800包括：

上述的文本分类特征提取装置801(可以为图7所示的装置700)，用于确定预设多个类别中每一个类别的分类特征词。

文本向量获取单元802，用于根据预设多个类别中每一个类别的分类特征词及每一个分类特征词的分类特征词向量，获得训练集中每一个训练文本的训练文本向量及待分类文本的待分类文本向量，其中，所述分类特征词向量的各维度分别对应所述多个类别的分类特征词，每一维度的值为对应分类特征词的特征权重。

分类模型建立单元803，用于根据所述每一个训练文本的训练文本向量及每一个训练文本的类别标签，建立分类模型，所述分类模型用于根据文本的文本向量确定文本属于各类别的概率。

类别确定单元804，用于根据所述待分类文本的待分类文本向量及所述分类模型，确定所述待分类文本属于各类别的概率；根据所述待分类文本属于各类别的概率确定所述待分类文本所属的类别。

采用本申请提供的文本分类装置，每一个类别的分类特征词通过属性相关度及词频获取，分类特征词能够更加全面地描述文本信息，对文本的分类更加准确。

所述类别确定单元804，用于

根据所述待分类文本的待分类文本向量及所述第一层分类模型，确定所述待分类文本属于各类别的第一概率。

根据所确定的所述第一概率及第二层分类模型，确定所述待分类文本属于各类别的第二概率。

根据所述第二概率，确定所述待分类文本所属的类别。

在一些实例中，所述文本向量获取单元802，用于对于所述训练集中的任一训练文本，执行如下处理：

获得该训练文本的特征词集合。

针对所述特征词集合中的每一个特征词，在每一个类别的分类特征词中查找与该特征词相同的分类特征词，并将查找到的各分类特征词对应的分类特征词向量合并，并将合并得到的分类特征词向量作为该特征词的特征向量。

将所述特征词集合中每一个特征词的特征向量合并，以获得所述训练文本的训练文本向量。

在一些实例中，所述文本向量获取单元802，用于获得该待分类文本的特征词集合。

将所述特征词集合中每一个特征词的特征向量合并，以获得所述待分类文本的待分类文本向量。

上述各装置/单元/模块可能实现在同一个服务器设备或者服务器集群中，也可能分布在不同的服务器设备或者服务器集群中。

上述各装置/单元/模块功能的实现原理前文已有详述，这里不再赘述。

在一实例中，上述文本分类特征提取装置及文本分类装置中的各单元/模块可运行在各种计算设备中，并加载在该计算设备的存储器中。

图9示出了文本分类特征提取装置及文本分类装置所在的计算设备的组成结构图。如图9所示，该计算设备包括一个或者多个处理器(CPU)902、通信模块904、存储器906、用户接口910，以及用于互联这些组件的通信总线908。

处理器902可通过通信模块904接收和发送数据以实现网络通信和/或本地通信。

用户接口910包括一个或多个输出设备912，其包括一个或多个扬声器和/或一个或多个可视化显示器。用户接口910也包括一个或多个输入设备914，其包括诸如，键盘，鼠标，声音命令输入单元或扩音器，触屏显示器，触敏输入板，姿势捕获摄像机或其他输入按钮或控件等。

存储器906可以是高速随机存取存储器，诸如DRAM、SRAM、DDR RAM、或其他随机存取固态存储设备；或者非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备，或其他非易失性固态存储设备。

存储器906存储处理器902可执行的指令集，包括：

操作系统916，包括用于处理各种基本系统服务和用于执行硬件相关任务的程序；

应用918，包括用于文本分类特征提取和/或文本分类的各种应用程序，这种应用程序能够实现上述各实例中的处理流程，比如可以包括图7所示的文本分类特征提取装置700中的部分或全部单元或模块。各单元或模块701-705中的至少一个单元或模块可以存储有机器可执行指令。处理器902通过执行存储器906中各单元或模块701-705中至少一个单元或模块中的机器可执行指令，进而能够实现上述各单元或模块701-705中的至少一个单元或模块的功能。应用918还可以包括图8所示的文本分类装置800中的部分或全部单元或模块。各单元或模块801-804中的至少一个单元或模块可以存储有机器可执行指令。处理器902通过执行存储器906中各单元801-804中至少一个单元中的机器可执行指令，进而能够实现上述各单元801-804中的至少一个模块的功能。

需要说明的是，上述各流程和各结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分，实际实现时，一个模块可以分由多个模块实现，多个模块的功能也可以由同一个模块实现，这些模块可以位于同一个设备中，也可以位于不同的设备中。

各实施例中的硬件模块可以以硬件方式或硬件平台加软件的方式实现。上述软件包括机器可读指令，存储在非易失性存储介质中。因此，各实施例也可以体现为软件产品。

各例中，硬件可以由专门的硬件或执行机器可读指令的硬件实现。例如，硬件可以为专门设计的永久性电路或逻辑器件(如专用处理器，如FPGA或ASIC)用于完成特定的操作。硬件也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。

另外，本申请的每个实例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然，数据处理程序构成了本申请。此外，通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此，这样的存储介质也构成了本申请，本申请还提供了一种非易失性存储介质，其中存储有数据处理程序，这种数据处理程序可用于执行本申请上述方法实例中的任何一种实例。

图9中的模块对应的机器可读指令可以使计算机上操作的操作系统等来完成这里描述的部分或者全部操作。非易失性计算机可读存储介质可以是插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器。安装在扩展板或者扩展单元上的CPU等可以根据指令执行部分和全部实际操作。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种文本分类方法，其特征在于，包括：

从训练集中的多个训练文本中获取特征词集合，每一个训练文本带有类别标签，所述类别标签用于表征音乐、笑话和天气中的一个类别；

对于任一类别，根据所述特征词集合及所述类别标签，确定所述特征词集合中每一个特征词与该类别的属性相关度及在该类别中的词频；从所述特征词集合中，选取所述属性相关度符合预设第一条件的特征词及所述词频符合预设第二条件的特征词，作为该类别的分类特征词；

为每一个分类特征词，构建该分类特征词的分类特征词向量，所述分类特征词向量的各个维度分别对应各个类别的分类特征词，各个维度上的非零值为该分类特征词在对应类别下的属性相关度或词频；

根据每一个类别的分类特征词及每一个分类特征词的分类特征词向量，获得每一个训练文本的训练文本向量，并根据每一个训练文本的训练文本向量及类别标签，建立分类模型，所述分类模型包括第一层分类模型及第二层分类模型，所述第一层分类模型用于根据待分类文本的文本向量，确定所述待分类文本属于各类别的第一概率，所述第二层分类模型用于根据输入的所述第一概率，确定所述待分类文本属于各类别的第二概率，所述第二概率趋近于0或者1。

2.根据权利要求1所述的方法，其中，若各个类别的分类特征词一共包括N个特征词，所述分类特征词向量的维度总数为N，N为正整数。

3.根据权利要求1所述的方法，其中，所述待分类文本为用户通过智能音箱上的麦克输入的文本。

4.根据权利要求1所述的方法，其中，所述属性相关度包括卡方统计量和/或互信息量；其中，所述卡方统计量对应第一子条件，和/或，所述互信息量对应第二子条件；

所述从所述特征词集合中，选取所述属性相关度符合预设第一条件的特征词包括：

选取所述卡方统计量符合所述第一子条件的特征词；和/或

选取所述互信息量符合所述第二子条件的特征词。

5.根据权利要求1所述的方法，其中，所述从训练集中的多个训练文本中获取特征词集合包括：

对每一训练文本进行分词处理，获得所述特征词集合。

6.根据权利要求1所述的方法，还包括：

根据每一个类别的分类特征词及每一个分类特征词的分类特征词向量，获得所述待分类文本的待分类文本向量；

根据所述待分类文本向量及所述分类模型，确定所述待分类文本属于各类别的第二概率；

根据所述待分类文本属于各类别的第二概率，确定所述待分类文本所属的类别。

7.根据权利要求6所述的方法，其中，所述根据所述待分类文本向量及所述分类模型，确定所述待分类文本属于各类别的第二概率包括：

根据所述待分类文本向量及所述第一层分类模型，确定所述待分类文本属于各类别的第一概率；

根据所确定的第一概率及所述第二层分类模型，确定所述待分类文本属于各类别的第二概率。

8.根据权利要求1所述的方法，其中，所述根据每一个类别的分类特征词及每一个分类特征词的分类特征词向量，获得每一个训练文本的训练文本向量包括：

对于所述训练集中的任一训练文本，执行如下处理：

获得该训练文本的特征词集合；

针对该特征词集合中的每一个特征词，在每一个类别的分类特征词中查找与该特征词相同的分类特征词，并将查找到的各分类特征词对应的分类特征词向量合并，将合并得到的分类特征词向量作为该特征词的特征向量；

将该特征词集合中每一个特征词的特征向量合并，获得该训练文本的训练文本向量。

9.根据权利要求6所述的方法，其中，所述根据每一个类别的分类特征词及每一个分类特征词的分类特征词向量，获得所述待分类文本的待分类文本向量包括：

获得所述待分类文本的特征词集合；

针对所述待分类文本的特征词集合中的每一个特征词，在每一个类别的分类特征词中查找与该特征词相同的分类特征词，并将查找到的各分类特征词对应的分类特征词向量合并，将合并得到的分类特征词向量作为该特征词的特征向量；

将所述待分类文本的特征词集合中每一个特征词的特征向量合并，获得所述待分类文本向量。

10.根据权利要求7所述的方法，其中，所述第一层分类模型包括多个第一分类模型，所述多个第一分类模型的类型不同；

所述根据所述待分类文本向量及所述第一层分类模型，确定所述待分类文本属于各类别的第一概率包括：

根据所述待分类文本向量，通过所述多个第一分类模型，分别得到多个第三概率；

根据所述多个第三概率，确定所述待分类文本属于各类别的第一概率。

11.根据权利要求6所述的方法，其中，所述第二层分类模型包括多个第二分类模型，所述多个第二分类模型的类型不同；

所述根据所述待分类文本向量及所述分类模型，确定所述待分类文本属于各类别的第二概率包括：

根据所述待分类文本属于各类别的第一概率，通过所述多个第二分类模型，分别得到多个第四概率；

根据所述多个第四概率，确定所述待分类文本属于各类别的第二概率。

12.根据权利要求6所述的方法，其中，所述第二层分类模型包括多个第二分类模型，所述多个第二分类模型的类型不同；

所述根据所述待分类文本向量及所述分类模型，确定所述待分类文本属于各类别的第二概率；根据所述待分类文本属于各类别的第二概率，确定所述待分类文本所属的类别包括：

根据所述多个第四概率，确定所述待分类文本所属的多个候选类别；

根据所述多个候选类别，确定所述待分类文本所属的类别。

13.根据权利要求10所述的方法，其中，所述多个第一分类模型包括逻辑回归模型、决策树模型、随机森林模型。

14.根据权利要求1所述的方法，其中，所述第二层分类模型为逻辑回归模型。

15.一种文本分类装置，其特征在于，包括：

特征词集合获取单元，用于从训练集中的多个训练文本中获取特征词集合，每一个训练文本带有类别标签，所述类别标签用于表征音乐、笑话和天气中的一个类别；

分类特征词获取单元，用于对于任一类别，根据所述特征词集合及所述类别标签，确定所述特征词集合中每一个特征词与该类别的属性相关度及在该类别中的词频；从所述特征词集合中，选取所述属性相关度符合预设第一条件的特征词及所述词频符合预设第二条件的特征词，作为该类别的分类特征词；

分类特征词向量构建单元，用于为每一个分类特征词，构建该分类特征词的分类特征词向量，所述分类特征词向量的各个维度分别对应各个类别的分类特征词，各个维度上的非零值为该分类特征词在对应类别下的属性相关度或词频；

文本向量获取单元，用于根据每一个类别的分类特征词及每一个分类特征词的分类特征词向量，获得每一个训练文本的训练文本向量；

分类模型建立单元，用于根据每一个训练文本的训练文本向量及类别标签，建立分类模型，所述分类模型包括第一层分类模型及第二层分类模型，所述第一层分类模型用于根据待分类文本的文本向量，确定所述待分类文本属于各类别的第一概率，所述第二层分类模型用于根据输入的所述第一概率，确定所述待分类文本属于各类别的第二概率，所述第二概率趋近于0或者1。

16.根据权利要求15所述的装置，其中，若各个类别的分类特征词一共包括N个特征词，所述分类特征词向量的维度总数为N，N为正整数。

17.根据权利要求15所述的装置，其中，所述属性相关度包括卡方统计量和/或互信息量；其中，所述卡方统计量对应第一子条件，和/或，所述互信息量对应第二子条件；所述分类特征词获取单元用于，选取所述卡方统计量符合所述第一子条件的特征词；和/或选取所述互信息量符合所述第二子条件的特征词。

18.根据权利要求15所述的装置，其中，所述文本向量获取单元进一步用于，根据每一个类别的分类特征词及每一个分类特征词的分类特征词向量，获得所述待分类文本的待分类文本向量；

所述装置还包括：

类别确定单元，用于根据所述待分类文本向量及所述分类模型，确定所述待分类文本属于各类别的第二概率；根据所述待分类文本属于各类别的第二概率，确定所述待分类文本所属的类别。

19.根据权利要求18所述的装置，其中，所述类别确定单元用于，根据所述待分类文本向量及所述第一层分类模型，确定所述待分类文本属于各类别的第一概率；根据所确定的第一概率及所述第二层分类模型，确定所述待分类文本属于各类别的第二概率。

20.根据权利要求15所述的装置，其中，所述文本向量获取单元用于，对于所述训练集中的任一训练文本，执行如下处理：获得该训练文本的特征词集合；针对该特征词集合中的每一个特征词，在每一个类别的分类特征词中查找与该特征词相同的分类特征词，并将查找到的各分类特征词对应的分类特征词向量合并，将合并得到的分类特征词向量作为该特征词的特征向量；将该特征词集合中每一个特征词的特征向量合并，获得该训练文本的训练文本向量。

21.根据权利要求18所述的装置，其中，所述文本向量获取单元用于，获得所述待分类文本的特征词集合；针对所述待分类文本的特征词集合中的每一个特征词，在每一个类别的分类特征词中查找与该特征词相同的分类特征词，并将查找到的各分类特征词对应的分类特征词向量合并，将合并得到的分类特征词向量作为该特征词的特征向量；将所述待分类文本的特征词集合中每一个特征词的特征向量合并，获得所述待分类文本向量。

22.一种计算设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如权利要求1至14中任一项所述的方法。

23.一种计算机可读存储介质，其特征在于，存储有计算机可读指令，所述计算机可读指令被至少一个处理器执行时，实现如权利要求1至14中任一项所述的方法。