CN106202177A

CN106202177A - 一种文本分类方法及装置

Info

Publication number: CN106202177A
Application number: CN201610479035.7A
Authority: CN
Inventors: 卢铮; 段焕中
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-06-27
Filing date: 2016-06-27
Publication date: 2016-12-07
Anticipated expiration: 2036-06-27
Also published as: CN106202177B

Abstract

本申请公开了一种文本分类方法及装置，方法包括：利用语料库中各未标注语料训练词向量模型，得到目标词向量模型；根据目标词向量模型对预设的与指定分类类别对应的关键词进行词扩展，得到指定分类类别对应的词组集合；根据语料库对词组集合中各词组分别训练分类器，得到与各词组分别对应的目标分类器；根据预设的验证集，对各词组对应的目标分类器进行分类准确度检验，选取分类准确度符合第一设定条件的词组作为目标词组；根据语料库中各语料所包含的目标词组，选取满足第二设定条件的语料，将其标记为指定分类类别的正例样本加入训练集。本申请方案只需要在首次生成训练集时人工选取几个关键词及标注若干验证样本，后续即可自动标注新语料。

Description

一种文本分类方法及装置

技术领域

本申请涉及样本分类技术领域，更具体地说，涉及一种文本分类方法及装置。

背景技术

文本分类是指，计算机对文本集合按照一定的分类体系，自动分类标记。文本分类通常包括以下几个环节：分类体系建立、获取标注的训练集、分类模型训练以及利用训练的分类模型预测新文本的类别。

其中，获取标注的训练集的过程即为，对未知类别的语料进行类别标注，标注好的语料组成训练集。训练集的大小以及语料标注的准确度将会直接影响到训练的分类模型的识别精度。现有技术获取标注的训练集的方式一般是，采用人工标注的方式，也即每当出现新的未标注语料时，组织人力对未知类别的语料进行人工标注。

显然，现有人工标注训练集的方式需要耗费大量人力资源。

发明内容

有鉴于此，本申请提供了一种文本分类方法及装置，用于解决现有人工标注训练集浪费大量人力资源的问题。

为了实现上述目的，现提出的方案如下：

一种文本分类方法，包括：

根据语料库中各未标注语料训练词向量模型，得到目标词向量模型；

根据所述目标词向量模型，对预设的与指定分类类别对应的关键词进行词扩展，得到扩展后的所述指定分类类别对应的词组集合；

根据所述语料库对所述词组集合中各词组分别训练分类器，得到与各词组分别对应的目标分类器，目标分类器为二值分类器，分类结果为是所述指定分类类别或不是所述指定分类类别；

根据预设的验证集，对各词组对应的目标分类器进行分类准确度检验，选取分类准确度符合第一设定条件的词组作为目标词组；

根据所述语料库中各语料所包含的目标词组，选取满足第二设定条件的语料，将其标记为所述指定分类类别的正例样本，并加入所述指定分类类别对应的训练集。

一种文本分类方法，包括：

根据主题模型对语料库中各语料进行主题预测，得到若干主题；

根据所述语料库对各所述主题分别训练分类器，得到与各主题分别对应的目标分类器，各主题对应的目标分类器为二值分类器，分类结果为是对应主题或不是对应主题；

根据各主题对应的目标分类器对预设的验证集内各验证样本进行主题识别，所述验证集包括标注有指定分类类别的验证样本；

基于各验证样本主题识别结果及各验证样本的指定分类类别，确定与指定分类类别对应的主题；

根据所述语料库中各语料预测的主题，确定预测的主题与所述指定分类类别对应的语料，将其标记为指定分类类别的正例样本，加入指定分类类别对应的训练集。

一种文本分类装置，包括：

词向量模型训练单元，用于根据语料库中各未标注语料训练词向量模型，得到目标词向量模型；

词扩展单元，用于根据所述目标词向量模型，对预设的与指定分类类别对应的关键词进行词扩展，得到扩展后的所述指定分类类别对应的词组集合；

词组分类器训练单元，用于根据所述语料库对所述词组集合中各词组分别训练分类器，得到与各词组分别对应的目标分类器，目标分类器为二值分类器，分类结果为是所述指定分类类别或不是所述指定分类类别；

验证集验证单元，用于根据预设的验证集，对各词组对应的目标分类器进行分类准确度检验，选取分类准确度符合第一设定条件的词组作为目标词组；

训练集生成单元，用于根据所述语料库中各语料所包含的目标词组，选取满足第二设定条件的语料，将其标记为所述指定分类类别的正例样本，并加入所述指定分类类别对应的训练集。

一种文本分类装置，包括：

主题预测单元，用于根据主题模型对语料库中各语料进行主题预测，得到若干主题；

主题分类器训练单元，用于根据所述语料库对各所述主题分别训练分类器，得到与各主题分别对应的目标分类器，各主题对应的目标分类器为二值分类器，分类结果为是对应主题或不是对应主题；

验证集主题识别单元，用于根据各主题对应的目标分类器对预设的验证集内各验证样本进行主题识别，所述验证集包括标注有指定分类类别的验证样本；

类别与主题映射单元，用于基于各验证样本主题识别结果及各验证样本的指定分类类别，确定与指定分类类别对应的主题；

语料查找单元，用于根据所述语料库中各语料预测的主题，确定预测的主题与所述指定分类类别对应的语料，将其标记为指定分类类别的正例样本，加入指定分类类别对应的训练集。

本申请实施例提供的文本分类方法，利用语料库中各未标注语料训练词向量模型，得到目标词向量模型，进而根据目标词向量模型对预设的与指定分类类别对应的关键词进行词扩展，得到扩展后的指定分类类别对应的词组集合，进一步，根据语料库对所述词组集合中各词组分别训练分类器，得到与各词组分别对应的目标分类器，目标分类器为二值分类器，分类结果为是所述指定分类类别或不是所述指定分类类别，根据预设的验证集，对各词组对应的目标分类器进行分类准确度检验，选取分类准确度符合第一设定条件的词组作为目标词组，根据所述语料库中各语料所包含的目标词组，选取满足第二设定条件的语料，将其标记为所述指定分类类别的正例样本，并加入所述指定分类类别对应的训练集。应用本申请的方案，只需要在首次生成训练集时人工选取与指定分类类别对应的几个关键词，并人工标注若干验证样本组成验证集，后续即可对新语料进行自动标注，不需要人工参与标注过程，极大减少了人力资源的消耗。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种文本分类方法流程图；

图2为本申请实施例公开的一种语料预处理方法流程图；

图3为本申请实施例公开的一种合并词组方法流程图；

图4为本申请实施例公开的另一种文本分类方法流程图；

图5为本申请实施例公开的又一种文本分类方法流程图；

图6为本申请实施例公开的分类模型首次生成方法流程图；

图7为本申请实施例公开的一种文本分类装置结构示意图；

图8为本申请实施例公开的另一种文本分类装置结构示意图；

图9为本申请实施例提供的一种服务器硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的文本分类方法用于针对指定分类类别得到对应的训练集。本申请在首次生成指定分类类别对应的训练集时需要标注一份验证集，验证集中包括若干已标注类别的样本。验证集的数量远远小于训练集。后续对新出现的语料进行标注时，使用首次标注的验证集即可，无需再次生成验证集。

主要流程如下：在首次生成模型及后续更新时，利用词向量和/或主题模型生成部分训练集种子，并在验证集上对训练集种子进行验证，选取最佳的训练集种子，加入训练集中。进一步，还可以对训练集种子进行扩展，将扩展的训练集种子加入训练集。在此基础上，还可以通过人工标注的形式标注训练集，标注的训练集可以加入训练集和验证集中。在确定训练集达到所需量级时，利用训练集训练模型，得到最终的模型。

接下来的实施例中，本申请首先对利用词向量模型获取训练集的过程进行介绍。

参见图1，图1为本申请实施例公开的一种文本分类方法流程图。

如图1所示，该方法包括：

步骤S100、根据语料库中各未标注语料训练词向量模型，得到目标词向量模型；

其中，语料库包含当前获取的未标注语料。本申请可以利用各语料训练词向量模型，得到目标词向量模型。

词向量模型的训练过程可以看作是，将语料库中组成各语料的词组以向量的形式进行表达的过程。这个向量的维度需预先指定，如200，向量的每个元素为0～1的浮点数。

举例如：

“话筒”表示为[0.024 0.748 0.428 0.565 0.248 0.478...]

“麦克”表示为[0.926 0.253 0.535 0.510 0.583 0.267...]

步骤S101、根据所述目标词向量模型，对预设的与指定分类类别对应的关键词进行词扩展，得到扩展后的所述指定分类类别对应的词组集合；

具体地，本申请的目的是获取指定分类类别的训练集。在首次生成训练集时需要人工选取指定分类类别对应的若干关键词。举例如，指定分类类别为“育儿”，则可以人工选取该类别对应的若干关键词，如：“育儿”、“备孕”、“母婴”等。

对于与指定分类类别对应的关键词，利用上述目标词向量模型对其进行扩词，可以得到扩展后的指定分类类别对应的词组集合。

利用目标词向量模型对关键词进行扩词时，主要是计算与关键词的向量距离在设定距离范围内的词组。

步骤S102、根据所述语料库对所述词组集合中各词组分别训练分类器，得到与各词组分别对应的目标分类器；

具体地，训练好的与各词组对应的目标分类器为二值分类器，分类结果为是所述指定分类类别或不是所述指定分类类别。后续利用验证集对目标分类器进行分类准确度检验时，针对输入的验证集，目标分类器可以确定分类结果是所述指定分类类别，或者不是所述指定分类类别。

可选的，在对每个词组训练分类器时，可以利用所述语料库中包含该词组的语料作为正样本，不包含所述指定分类类别对应的词组集合中任意一个词组的语料作为负样本，对分类器进行训练。

分类器可以选用朴素贝叶斯模型，或其它模型。

步骤S103、根据预设的验证集，对各词组对应的目标分类器进行分类准确度检验，选取分类准确度符合第一设定条件的词组作为目标词组；

具体地，上述针对每个词组均得到对应的分类器。对于每个分类器，利用预设的验证集对分类器进行分类准确度检验。预设的验证集中包括标注有目标类别的验证样本。

通过使用验证集对各词组对应的分类器进行检验，可以确定每个词组的分类准确度得分，分类准确度得分高的词组代表对应的目标分类器分类准确度高。本申请可以设置第一设定条件，例如设置第一设定条件为分类准确度得分阈值等。选取分类准确度符合第一设定条件的词组作为目标词组。

本步骤中通过训练分类器及在验证集上对分类器效果进行验证，不需要人工逐个判断词组的好坏，很大程度上减少了人工参与。

步骤S104、根据所述语料库中各语料所包含的目标词组，选取满足第二设定条件的语料，将其标记为所述指定分类类别的正例样本，并加入所述指定分类类别对应的训练集。

具体地，上一步骤中已经筛选得出目标词组，目标词组为能够很好表征指定分类类别的词组。本步骤中根据语料库中各语料所包含的目标词组，选取满足第二设定条件的语料，将其标记为指定分类类别的正例样本加入训练集。

可选的，在上述利用语料库中各未标注语料训练词向量模型之前，本申请方法还可以增加对语料进行预处理的过程。

参见图2，图2为本申请实施例公开的一种语料预处理方法流程图。

如图2所示，该方法包括：

步骤S200、对所述语料库中各语料进行切词，得到若干分词；

具体地，语料切词过程可以采用常见的切词工具，通过切词得到若干分词。

步骤S201、对满足合并条件的分词进行合并，得到合并词组。

可选的，为了保证后续词扩展时能够得到更高的召回率，本申请可以对满足合并条件的分词进行合并，得到合并词组。进而可以基于合并词组进行词扩展，以达到更高的召回率。

基于上述语料预处理过程，所述利用语料库中各未标注语料训练词向量模型的过程具体包括：

利用所述合并词组及未合并的分词，训练词向量模型。

可选的，合并词组的过程可以参照图3所示：

步骤S300、在所述若干分词中选取两个分词进行组合，得到若干分词组；

具体地，对于得到的若干分词，从中选取两个分词进行组合，由此可以得到多个分词组。每个分词组包括两个分词。

步骤S301、对每一个分词组，确定在所述语料库中分词组中两个分词相邻出现的次数，以及分词组中两个分词各自单独出现的次数；

步骤S302、根据所述分词组中两个分词相邻出现的次数，以及分词组中两个分词各自单独出现的次数，确定所述分词组中两个分词是否可以合并；若是，执行步骤S303；

具体地，确定分词组中两个分词是否可以合并可以参考如下两个标准：

第一：判断两个分词相邻出现的次数是否超过设定次数阈值；

以分词组包含A,B两个分词为例，判断N(A,B)是否超过设定次数阈值。

第二：判断两个分词的点互信息是否超过设定点互信息阈值。

以分词组包含A,B两个分词为例，判断A,B的点互信息是否超过设定点互信息阈值。

其中，p(A)为分词A在语料库中出现的概率(A单独出现次数除以总词数)，p(B)为分词B在语料库中出现的概率(B单独出现次数除以总词数)，p(A,B)为分词A和B相邻出现的概率(A和B相邻出现次数除以总词数)。

如果上述两个标准均满足，则确定分词组中两个分词可以合并。

步骤S303、对所述分词组中两个分词进行合并，得到合并词组。

可选的，在本申请的一个实施例中，对上述根据验证集对各词组对应的目标分类器进行分类准确度检验，并选取分类准确度符合第一设定条件的词组作为目标词组的过程进行介绍。

B1、根据预设的验证集，对各词组对应的目标分类器进行分类准确度检验，确定各词组的分类准确度得分值；

具体地，验证集中包括若干标注有指定分类类别的验证样本。本申请可以利用验证样本对各词组对应的目标分类器进行检验。根据目标分类器对不同验证样本的分类结果，确定各词组的分类准确度得分值。

举例如：

验证集中包含200个验证样本。对于某个词组对应的目标分类器，分别对200个验证样本进行分类识别，并确定分类识别结果与验证样本的目标类别是否相同。假如目标分类器正确识别出180个验证样本的类别，则确定该词组的分类准确度得分值为180/200＝0.9。

当然，词组的分类准确度得分值还可以通过其它方式确定，上述仅仅示例了一种可选方式而已。

B2、选取分类准确度得分值超过设定准确度得分阈值的词组，作为目标词组。

具体地，本申请可以预先设定准确度得分阈值，进而选取分类准确度得分超过该准确度得分阈值的词组，作为目标词组。

基于上述选取目标词组的方法，本申请实施例进一步对上述根据所述语料库中各语料所包含的目标词组，选取满足第二设定条件的语料，将其标记为所述指定分类类别的正例样本，并加入所述指定分类类别对应的训练集的过程进行介绍。

B1、将所述语料库中各语料命中不同目标词组的分类准确度得分值相加，得到各语料的语料得分值；

B2、选取语料得分值超过设定语料得分阈值的语料，将其标记为指定分类类别的正例样本加入训练集。

举例说明如下：

假设目标词组包括A-E，分类准确度得分值分别为：v1-v5。设定语料得分阈值为vx。

语料库中存在三份语料，第一份语料包括词组A、B；第二份语料包括词组C、D、E；第三份语料包括词组A、D。

第一份语料的得分值为：v1+v2；

第二份语料的得分值为：v3+v4+v5；

第三份语料的得分值为：v1+v4。

通过比较三份语料的得分值与vx的大小关系，选取得分值超过vx的语料，将其标记为指定分类类别的正例样本加入训练集。

进一步，本申请对利用主题模型获取训练集的过程进行介绍。

参见图4，图4为本申请实施例公开的另一种文本分类方法流程图。

如图4所示，该方法包括：

步骤S400、根据主题模型对语料库中各语料进行主题预测，得到若干主题；

具体地，可以利用LDA(Latent Dirichlet Allocation))主题模型算法或BTM(ABiterm Topic Model for Short Texts)主题模型算法，对语料库中各语料进行主题预测，得到若干主题。

可选的，在进行主题预测之前，也可以对语料库中的语料进行预处理，预处理过程可以参照上述实施例的介绍，此处不再赘述。

步骤S401、根据所述语料库对各所述主题分别训练分类器，得到与各主题分别对应的目标分类器；

其中，各主题对应的目标分类器为二值分类器，分类结果为是对应主题或不是对应主题。

可选的，在对每个主题训练分类器时，可以利用所述语料库中预测主题为该主题的语料作为正样本，预测主题非该主题的语料作为负样本，对分类器进行训练。

步骤S402、根据各主题对应的目标分类器对预设的验证集内各验证样本进行主题识别；

其中，所述验证集包括标注有目标类别的验证样本。

步骤S403、基于各验证样本主题识别结果及各验证样本的指定分类类别，确定与指定分类类别对应的主题；

具体地，各验证样本的类别为指定分类类别，通过使用各主题的目标分类器进行主题识别，可以确定各验证样本的主题。进而，根据主题识别过程所识别出的各验证样本的主题，以及各验证样本的指定分类类别，确定指定分类类别与主题的对应关系。

具体实施时，可以是将验证集中指定分类类别下的各个验证样本分别带入各主题对应的目标分类器，确定各验证样本的主题，将验证样本的主题与验证样本的指定分类类别对应。

举例如：

验证集中包括两个指定分类类别的验证样本，分别如下：

第一指定分类类别：“育儿”，包括验证样本1、验证样本2；

第二指定分类类别：“军事”，包括验证样本3、验证样本4。

主题模型对语料库进行主题预测，总共得出四个主题：“飞机”、“大炮”、“妇婴”、“历史”。针对三个主题分别训练得出的目标分类器为：目标分类器1、目标分类器2、目标分类器3和目标分类器4。

将第一指定分类类别的两个验证样本分别带入四个目标分类器中，得出验证样本1、验证样本2的主题均为“妇婴”；

将第二指定分类类别的两个验证样本分别带入四个目标分类器中，得出验证样本1的主题为“飞机”、验证样本2的主题为“大炮”。

由此可以确定，第一指定分类类别与“妇婴”主题对应；第二指定分类类别与“大炮”和“飞机”主题对应。

步骤S404、根据所述语料库中各语料预测的主题，确定预测的主题与所述指定分类类别对应的语料，将其标记为指定分类类别的正例样本加入训练集。

具体地，在步骤S400中已经利用主题模型对语料库中各语料进行主题预测，根据各语料预测的主题，确定预测的主题与指定分类类别对应的语料，将其标记为指定分类类别的正例样本加入训练集。

举例如，语料库中某条语料的预测主题为“飞机”，由于“飞机”主题与指定分类类别“军事”对应，因此将该条语料标记为指定分类类别“军事”的正例样本加入训练集。

本申请在利用主题模型预测出多个主题后，通过对每个主题训练分类器，并基于验证集确定与指定分类类别对应的主题，进而选取与指定分类类别对应的预测主题的语料，作为指定分类类别的正例样本加入训练集。避免了人工标注主题与指定分类类别的对应关系所带来的工作量大、占用人力资源的问题。

可以理解的是，本申请可以将上述利用词向量获取的训练集以及利用主题模型获取的训练集进行合并，也即通过两种方式获取指定分类类别的训练集。

再进一步，本申请又提出一种针对业务特征获取训练集的方案。

针对某些特定业务，语料库中包括标记有预测类别为指定分类类别的语料。举例如，假设本申请以微信公众号发布的文章为语料，从中获取指定分类类别的训练集。对于某些公众号，其发布的文章总是属于同一指定分类类别，则对于该公众号发布的文章，可以标注预测类别为指定分类类别。如，某个公众号发布的文章总是与军事类相关，则可以将该公众号发布的文章标注为预测类别为“军事”。

基于此，本申请实施例公开了又一种文本分类方法流程图。

如图5所示，该方法包括：

步骤S500、针对预测指定分类类别，利用该预测指定分类类别的语料作为正样本，非该预测指定分类类别的语料作为负样本训练分类器，得到与预测指定分类类别对应的目标分类器；

其中，与预测指定分类类别对应的目标分类器为二值分类器，分类结果为是对应指定分类类别或不是对应指定分类类别。

步骤S501、根据所述验证集，对预测指定分类类别对应的目标分类器进行分类准确度检验，选取分类准确度符合第三设定条件的预测指定分类类别；

其中，验证集中包括标注有指定分类类别的验证样本。通过使用验证集对预测指定分类类别对应的目标分类器进行检验，选取分类准确度符合第三设定条件的预测指定分类类别。

步骤S502、将语料库中，分类准确度符合第三设定条件的预测指定分类类别的语料作为对应指定分类类别的正例样本加入指定分类类别对应的训练集。

具体地，对于分类准确度符合第三设定条件的预测指定分类类别的语料，本申请认定其确实属于指定分类类别，因此可以将其作为指定分类类别的正例样本加入训练集。

举例说明如下：

本申请要对各个公众号发布的文章进行分类，设定的指定分类类别包括：第一指定分类类别：“军事”；第二指定分类类别：“育儿”。

通过对各公众号历史发布文章的总结，发现公众号1和公众号2发布的文章大部分都是属于“军事”类别，公众号3发布的文章大部分都是属于“育儿”类别。

因此，针对公众号1建立分类器，并利用公众号2发布的文章作为正样本，其它公众号发布的文章作为负样本，对分类器进行训练，得到公众号1对应的目标分类器1。同理，得到公众号2和3分别对应的目标分类器2和3。

本申请的验证集中包括第一指定分类类别的样本若干以及第二指定分类类别的样本若干。

利用验证集对目标分类器1-3进行验证，发现目标分类器1和3的分类准确度满足第三设定条件，目标分类器2的分类准确度不满足第三设定条件。因此，将公众号1发布的文章作为第一指定分类类别“军事”的正例样本加入训练集；将公众号3发布的文章作为第二指定分类类别“育儿”的正例样本加入训练集。

可以理解的是，本申请可以将上述利用业务特征获取的训练集与前述利用词向量获取的训练集以及利用主题模型获取的训练集进行合并，也即通过三种方式获取目标类别的训练集。三种方式可以随意组合。

在上述通过三种方式获取指定分类类别的训练集之后，本申请还可以进一步增加对指定分类类别的训练集进行扩展的过程。

本申请实施例提供了两种扩展训练集的方式，分别如下：

1)、利用协同训练co-training算法进行训练集扩展。

该算法适用于二分类问题。利用已有的正负样本训练两个分类器A、B(用不同特征或不同模型)，通过A预测出的较置信的正负例添加到B的训练集中，通过B预测出的较置信的正负例添加到A的训练集中，重复以上两步。每次迭代完，用验证集验证，如果准确率低于阈值则停止迭代。

2)利用正例和无标记样本学习pu-learning算法进行训练集扩展。

该算法适用于多类问题，需预先知道各目标类别的先验分布。对各目标类利用已有正负例(负例为其它类别正例)训练模型。然后对未标注的样本预测各目标类别的概率分布，如果该分布与先验分布的KL散度较大，则将该样本标为概率最大的目标类别。可以为KL散度和最大概率设置阈值，大于阈值才被扩充为正例。最后利用验证集来优化阈值。

可选的，本申请还可以增加人工标注过程。也即，组织人力进行标注，将人工标注的样本加入训练集和验证集。

本申请图6示例了分类模型首次生成的方法流程图。

由图6可知，在首次生成分类模型时，该方法包括：

步骤S600、人工标注验证集；

具体地，针对当前语料，人工从中选取若干语料进行标注，得到验证集。

步骤S601、预处理语料；

具体地，预处理语料包括切词，分词合并，得到词组。

预处理语料之后，通过三种途径获取训练集，分别为步骤S602-S606通过关键词获取训练集、步骤S607-S609通过主题模型获取训练集、步骤S610-步骤S611通过业务特有方案获取训练集。

步骤S602、人工选取关键词；

在首次生成分类模型时，需要人工选取指定分类类别的若干关键词。

步骤S603、训练词向量模型；

具体地，根据当前语料训练词向量模型，得到目标词向量模型。

步骤S604、扩展关键词；

基于训练好的目标词向量模型扩展关键词。

步骤S605、自动筛选关键词；

具体地，利用验证集对关键词进行筛选。

步骤S606、基于关键词生成训练集；

步骤S607、训练主题模型；

具体地，利用当前语料训练主题模型，得到若干主题。

步骤S608、自动映射主题与类别；

步骤S609、基于主题生成训练集；

步骤S610、判断是否有无业务特有方案；

步骤S611、若存在业务特有方案，则利用特有方案生成训练集；

步骤S612、合成训练集；

具体地，将三种途径得到的训练集进行合并。

步骤S613、判断训练集是否充足；若否，执行步骤S614，若是，执行步骤S617；

步骤S614、自动扩展训练集；

步骤S615、判断是否有人力标注；若是，执行步骤S616，若否，执行步骤S617；

步骤S616、主动学习人工标注；

步骤S617、生成最终模型。

具体地，利用指定分类类别对应的训练集生成最终模型。

由上可知，在首次生成模型时，需要人工标注验证集以及人工选取关键词。进而通过词向量、主题模型以及业务特有方案生成训练集，如果训练集已充足，则可以直接生成最终模型。如不够充足，可以进一步对训练集进行扩展。如果有人力，还可以利用主动学习来人工标注，直至获得充足的训练集，利用训练集训练分类模型，得到最终模型。

后续分类模型更新时可以直接使用首次标注的验证集以及关键词即可，无需人工参与。

下面对本申请实施例提供的文本分类装置进行描述，下文描述的文本分类装置与上文描述的文本分类方法可相互对应参照。

参见图7，图7为本申请实施例公开的一种文本分类装置结构示意图。

如图7所示，该装置包括：

词向量模型训练单元10，用于根据语料库中各未标注语料训练词向量模型，得到目标词向量模型；

词扩展单元11，用于根据所述目标词向量模型，对预设的与指定分类类别对应的关键词进行词扩展，得到扩展后的所述指定分类类别对应的词组集合；

词组分类器训练单元12，用于根据所述语料库对所述词组集合中各词组分别训练分类器，得到与各词组分别对应的目标分类器，目标分类器为二值分类器，分类结果为是所述指定分类类别或不是所述指定分类类别；

验证集验证单元13，用于根据预设的验证集，对各词组对应的目标分类器进行分类准确度检验，选取分类准确度符合第一设定条件的词组作为目标词组；

训练集生成单元14，用于根据所述语料库中各语料所包含的目标词组，选取满足第二设定条件的语料，将其标记为所述指定分类类别的正例样本，并加入所述指定分类类别对应的训练集。

其中，上述各单元的具体执行方式可以参照方法项实施例。

本实施例的文本分类装置，通过使用词向量模型获取目标类别的训练集，应用本申请的方案，只需要在首次生成训练集时人工选取与指定分类类别对应的几个关键词，并人工标注若干验证样本组成验证集，后续即可对新语料进行自动标注，不需要人工参与标注过程，极大减少了人力资源的消耗。

进一步地，本申请还提供了另外一种结构的文本分类装置，参见图8：

文本分类装置包括：

主题预测单元20，用于根据主题模型对语料库中各语料进行主题预测，得到若干主题；

主题分类器训练单元21，用于根据所述语料库对各所述主题分别训练分类器，得到与各主题分别对应的目标分类器，各主题对应的目标分类器为二值分类器，分类结果为是对应主题或不是对应主题；

验证集主题识别单元22，用于根据各主题对应的目标分类器对预设的验证集内各验证样本进行主题识别，所述验证集包括标注有指定分类类别的验证样本；

类别与主题映射单元23，用于基于各验证样本主题识别结果及各验证样本的指定分类类别，确定与指定分类类别对应的主题；

语料查找单元24，用于根据所述语料库中各语料预测的主题，确定预测的主题与所述指定分类类别对应的语料，将其标记为指定分类类别的正例样本，加入指定分类类别对应的训练集。

其中，上述各单元的具体执行方式可以参照方法项实施例。

本实施例的文本分类装置，通过使用主题模型获取指定分类类别的训练集，应用本申请的方案，只需要在首次生成训练集时人工标注若干验证样本组成验证集，后续即可对新语料进行自动标注，不需要人工参与标注过程，极大减少了人力资源的消耗。

可选的，上述图7和图8示例的两种文本分类装置可以合并为一个总的文本分类装置，也即通过词向量模型及主题模型共同获取训练集。

上述文本分类装置可以应用于服务器，对于服务器的硬件结构，参照图9，图9为本申请实施例提供的一种服务器硬件结构示意图。

如图9所示，服务器可以包括：

处理器1，通信接口2，存储器3，通信总线4，和显示屏5；

其中处理器1、通信接口2、存储器3和显示屏5通过通信总线4完成相互间的通信；

可选的，通信接口2可以为通信模块的接口，如GSM模块的接口；

处理器1，用于执行程序；

存储器3，用于存放程序；

程序可以包括程序代码，所述程序代码包括处理器的操作指令。

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

其中，程序具体可以用于：

或者，

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述验证集包括标注有指定分类类别的验证样本，该方法还包括：

根据主题模型对所述语料库中各语料进行主题预测，得到若干主题；

根据各主题对应的目标分类器对所述验证集内各验证样本进行主题识别；

3.根据权利要求1所述的方法，其特征在于，所述语料库中包含标记有预测类别为所述指定分类类别的语料，该方法还包括：

针对预测指定分类类别，利用该预测指定分类类别的语料作为正样本，非该预测指定分类类别的语料作为负样本训练分类器，得到与预测指定分类类别对应的目标分类器，与预测指定分类类别对应的目标分类器为二值分类器，分类结果为是对应指定分类类别或不是对应指定分类类别；

根据所述验证集，对预测指定分类类别对应的目标分类器进行分类准确度检验，选取分类准确度符合第三设定条件的预测指定分类类别；

将语料库中，分类准确度符合第三设定条件的预测指定分类类别的语料标记为对应指定分类类别的正例样本，并加入指定分类类别对应的训练集。

4.根据权利要求1-3任一项所述的方法，其特征在于，在所述利用语料库中各未标注语料训练词向量模型之前，该方法还包括：

对所述语料库中各语料进行切词，得到若干分词；

对满足合并条件的分词进行合并，得到合并词组；

则，所述利用语料库中各未标注语料训练词向量模型，包括：

利用所述合并词组及未合并的分词，训练词向量模型。

5.根据权利要求4所述的方法，其特征在于，所述对满足合并条件的分词进行合并，包括：

在所述若干分词中选取两个分词进行组合，得到若干分词组；

对每一个分词组，确定在所述语料库中分词组中两个分词相邻出现的次数，以及分词组中两个分词各自单独出现的次数；

根据所述分词组中两个分词相邻出现的次数，以及分词组中两个分词各自单独出现的次数，确定所述分词组中两个分词是否可以合并；

若是，对所述分词组中两个分词进行合并，得到合并词组。

6.根据权利要求1所述的方法，其特征在于，所述根据所述语料库对所述词组集合中各词组分别训练分类器包括：

在对每个词组训练分类器时，利用所述语料库中包含该词组的语料作为正样本，不包含所述指定分类类别对应的词组集合中任意一个词组的语料作为负样本，对分类器进行训练。

7.根据权利要求1所述的方法，其特征在于，所述根据预设的验证集，对各词组对应的目标分类器进行分类准确度检验，选取分类准确度符合第一设定条件的词组作为目标词组，包括：

根据预设的验证集，对各词组对应的目标分类器进行分类准确度检验，确定各词组的分类准确度得分值；

选取分类准确度得分值超过设定准确度得分阈值的词组，作为目标词组。

8.根据权利要求7所述的方法，其特征在于，所述根据所述语料库中各语料所包含的目标词组，选取满足第二设定条件的语料，将其标记为所述指定分类类别的正例样本，并加入所述指定分类类别对应的训练集，包括：

将所述语料库中各语料命中不同目标词组的分类准确度得分值相加，得到各语料的语料得分值；

选取语料得分值超过设定语料得分阈值的语料，将其标记为所述指定分类类别的正例样本，加入所述指定分类类别对应的训练集。

9.根据权利要求2所述的方法，其特征在于，所述根据所述语料库对各所述主题分别训练分类器，包括：

在对每个主题训练分类器时，利用所述语料库中预测主题为该主题的语料作为正样本，预测主题非该主题的语料作为负样本，对分类器进行训练。

10.根据权利要求2所述的方法，其特征在于，所述基于各验证样本主题识别结果及各验证样本的指定分类类别，确定与指定分类类别对应的主题，包括：

根据主题识别过程所识别出的各验证样本的主题，以及各验证样本的指定分类类别，确定指定分类类别与主题的对应关系。

11.根据权利要求1-3任一项所述的方法，其特征在于，还包括：

利用协同训练co-training算法或者，正例和无标记样本学习pu-learning算法对所述指定分类类别的训练集进行扩展。

12.一种文本分类方法，其特征在于，包括：

13.根据权利要求12所述的方法，其特征在于，在所述利用主题模型对语料库中各语料进行主题预测之前，该方法还包括：

对所述语料库中各语料进行切词，得到若干分词；

对满足合并条件的分词进行合并，得到合并词组；

所述利用主题模型对语料库中各语料进行主题预测，包括：

利用主题模型对所述合并词组及未合并的分词进行主题预测。

14.根据权利要求13所述的方法，其特征在于，所述对满足合并条件的分词进行合并，包括：

若是，对所述分词组中两个分词进行合并，得到合并词组。

15.根据权利要求12所述的方法，其特征在于，所述根据所述语料库对各所述主题分别训练分类器，包括：

16.根据权利要求12所述的方法，其特征在于，所述基于各验证样本主题识别结果及各验证样本的指定分类类别，确定与指定分类类别对应的主题，包括：

17.一种文本分类装置，其特征在于，包括：

18.一种文本分类装置，其特征在于，包括：