CN107402994A

CN107402994A - 一种多元组层次划分的分类方法及装置

Info

Publication number: CN107402994A
Application number: CN201710585101.3A
Authority: CN
Inventors: 晋彤; 李永康
Original assignee: Guangzhou Special Road Mdt Infotech Ltd
Current assignee: Yunrun Da Data Service Co ltd
Priority date: 2017-07-17
Filing date: 2017-07-17
Publication date: 2017-11-28
Anticipated expiration: 2037-07-17
Also published as: CN107402994B

Abstract

本发明公开了一种多元组层次划分的分类方法，包括以下步骤：根据文档主题生成模型进行语料训练，生成多元组特征库；其中，所述多元组特征库包含至少一个元组的元组特征；所述元组特征拥有独属于自身的权重比例；根据所述多元组特征库中的各个元组特征生成对应所述元组特征的分类器；接收输入的待分类数据，通过所述待分类数据的特征选择对应的所述分类器，根据实体权重判别及概率权重判别对所述待分类数据进行判别分类，输出所述待分类数据所属分类。本发明还公开了一种多元组层次划分的分类装置，提高文章归类精度，缩短响应时间，合理利用硬件资源。

Description

一种多元组层次划分的分类方法及装置

技术领域

本发明涉及文本挖掘及自动分类领域，尤其涉及一种多元组层次划分的分类方法及装置。

背景技术

现有的文章分类模型是基于词频和概率把相同主题的文章按预先训练的分类器划分到不同的类别，但是申请人在对文本挖掘及自动分类领域的研究过程中发现，现有的文章分类模型是根据该模型的全局特征利用泛概率模型获取文章权重，不分领域，产生的误差较大，且不支持分布计算，运算量巨大，从而导致文章归类精度不高，响应时间长而且浪费硬件资源。

发明内容

针对上述问题，本发明的目的在于提供一种多元组层次划分的分类方法及装置，提高文章归类精度，缩短响应时间，合理利用硬件资源。

本发明提供了一种多元组层次划分的分类方法，包括以下步骤：

根据文档主题生成模型进行语料训练，生成多元组特征库；其中，所述多元组特征库包含至少一个元组的元组特征；所述元组特征拥有独属于自身的权重比例；

根据所述多元组特征库中的各个元组特征生成对应所述元组特征的分类器；

接收输入的待分类数据，通过所述待分类数据的特征选择对应的所述分类器，根据实体权重判别及概率权重判别对所述待分类数据进行判别分类，输出所述待分类数据所属分类。

优选地，

在所述根据所述多元组特征库中的各个元组特征生成对应所述元组特征的分类器之后，还包括：

根据元组之间的联系建立所述元组之间的跨域的非线性关联规则。

优选地，

在所述接收输入的待分类数据，通过所述待分类数据的特征选择对应的所述分类器，根据实体权重判别及概率权重判别对所述待分类数据进行判别分类，输出所述待分类数据所属分类之后，还包括：

根据所述元组特征及所述待分类数据进行自适应学习以自动调整分类器。

优选地，

根据不同粒度对已分类的所述待分类数据进行多元结果集合归档及分类索引；

其中，所述粒度指所述待分类数据所属分类的范围。

优选地，

所述根据不同粒度对已分类的所述待分类数据进行多元结果集合归档及分类索引具体为：

根据划分的粒度，将属于同一粒度且划分为一类的分类数据进行分布式计算的集合存储归档；

根据粒度的不同，生成特征指纹进行分类索引。

优选地，

所述多元组特征库中的各个元组特征根据实体权重及概率权重模型计算进行权重比例调整。

本发明还提供了一种多元组层次划分的分类装置，包括：

语料训练模块，用于根据文档主题生成模型进行语料训练，生成多元组特征库；其中，所述多元组特征库包含至少一个元组的元组特征；所述元组特征拥有独属于自身的权重比例；

分类器模块，用于根据所述多元组特征库中的各个元组特征生成对应所述元组特征的分类器；

类别输出模块，用于接收输入的待分类数据，通过所述待分类数据的特征选择对应的所述分类器，根据实体权重判别及概率权重判别对所述待分类数据进行判别分类，输出所述待分类数据所属分类。

优选地，还包括：

关联模块，用于根据元组之间的联系建立所述元组之间的跨域的非线性关联规则。

优选地，还包括：

自动调整模块，用于根据所述元组特征及所述待分类数据进行自适应学习以自动调整分类器。

优选地，还包括：

多元结果集合模块，用于根据不同粒度对已分类的所述待分类数据进行多元结果集合归档及分类索引；其中，

所述多元结果集合模块具体包括：

归档单元，用于根据划分的粒度，将属于同一粒度且划分为一类的分类数据进行分布式计算的集合存储归档；

索引单元，用于根据粒度的不同，生成特征指纹进行分类索引。

本发明提供一种多元组层次划分的分类方法及装置，通过文档主题生成模型进行语料训练生成多元组特征库，根据多元组特征库的各元组的元组特征生成对应分类器，再将接收的数据通过分类器进行分类判别输出，取消用泛概率模型获取待分类数据的权重比例，缩短模型训练时间和划分时间，支持大数据分布式计算，减少文章分类的运算量，提高文章归类精度，缩短响应时间，合理利用硬件资源。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的多元组层次划分的分类方法的流程示意图。

图2是本发明实施例提供的多元组层次划分的第二种分类方法的流程示意图。

图3是本发明实施例提供的多元组层次划分的第三种分类方法的流程示意图。

图4是本发明实施例提供的多元组层次划分的第四种分类方法的流程示意图。

图5是本发明实施例提供的多元组层次划分的分类装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供了一种多元组层次划分的分类方法，包括以下步骤：

S10，根据文档主题生成模型进行语料训练，生成多元组特征库；其中，所述多元组特征库包含至少一个元组的元组特征；所述元组特征拥有独属于自身的权重比例。

在本发明实施例中，所述多元组特征库中的各个元组特征根据实体权重及概率权重模型计算进行权重比例调整。

所述实体权重具体指对文档数据进行元组划分，文档实体权重根据元组特征调整权重比例，即不同特征的元组有不同的权重比例。实体即人名、地名、品牌等。

所述概率权重模型具体包括每个元组作为单独的总体进行概率模型计算，每个元组因不同的特征而选择不同的概率模型。

在本发明实施例中，具体地，所述文档主题生成模型具体为LDA文档主题生成模型，即利用LDA文档主题生成模型进行预料训练。

所述生成模型，具体指一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。

所述LDA文档主题生成模型也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。文档到主题服从多项式分布，主题到词服从多项式分布。LDA文档主题生成模型是一种非监督机器学习技术，可以用来识别大规模文档集或语料库中潜藏的主题信息。它采用了词袋的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序，这简化了问题的复杂性，同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。

在本发明实施例中，将大批量数据通过利用LDA文档主题生成模型进行语料训练，根据权重比例计算出不同的数据特征权重来划分元组，则各个元组拥有自己的元组特征，所述元组特征拥有独属于自身的权重比例，将各个元组的元组特征整合得到多元组特征库。例如，专题元组的元组特征为：(人名：地名：品牌)，所述专题元组的元组特征的权重比例为：(人名：地名：品牌＝4:5:1)，语料训练主要是为生成分类模型提供数据基础，减少人工标注工作量。

S20，根据所述多元组特征库中的各个元组特征生成对应所述元组特征的分类器。

在本发明实施例中，例如，存在名为话题的元组，则根据所述话题元组的元组特征生成对应所述话题元组的元组特征的分类器，对未知分类的新文章进行分类，在进行分类的时候，分类器会根据不同的元组，调整权重比例。

S30，接收输入的待分类数据，通过所述待分类数据的特征选择对应的所述分类器，根据实体权重判别及概率权重判别对所述待分类数据进行判别分类，输出所述待分类数据所属分类。

在本发明实施例中，接收输入的待分类数据，对所述待分类数据进行实体权重计算和轻量级的概率权重模型计算得出所述待分类数据的特征，根据所述待分类数据的特征选择对应的所述分类器，根据实体权重判别及概率权重判别对所述待分类数据进行判别分类，得出所述待分类数据的类别并输出所述待分类数据所属分类，通过多元组按领域不同定位来提升领域归类精度。

综上所述，本发明提供一种多元组层次划分的分类方法及装置，通过文档主题生成模型进行语料训练生成多元组特征库，根据多元组特征库的各元组的元组特征生成对应分类器，再将接收的数据通过分类器进行分类判别输出，取消用泛概率模型获取待分类数据的权重比例，缩短模型训练时间和划分时间，支持大数据分布式计算，减少文章分类的运算量，提高文章归类精度，缩短响应时间，合理利用硬件资源。

为了便于对本发明的理解，下面将对本发明的一些优选实施例做更进一步的描述。

第一个优选实施例：

请参阅图2，优选地，在所述S20之后，还包括：

S40，根据元组之间的联系建立所述元组之间的跨域的非线性关联规则。

在本发明优选实施例中，在所述根据所述多元组特征库中的各个元组特征生成对应所述元组特征的分类器之后，即已根据元组的不同特征建立了不同分类器，则可以利用多元组的各元组特征进行跨域的非线性关联规则，不同元组之间必定存在联系，元组间联系的需要跨元组建立关联规则。例如，名为专题的元组特征与名为频道的元组特征相同，都为：(人名：地名：品牌)，但所述专题的元组特征与所述频道的元组特征的权重比例不同。

第二个优选实施例：

请参阅图3，优选地，在所述S30之后，还包括：

S50，根据所述元组特征及所述待分类数据进行自适应学习以自动调整分类器。

在本发明优选实施例中，分类器后期能够根据所述元组特征及所述待分类数据进行自适应学习自动调整自身分类器，通过自动重新对自身所对应元组的实体权重比例调整和重新选择概率权重模型计算分析以调整自身权重比例。

第三个优选实施例：

请参阅图4，优选地，在所述S30之后，还包括：

S60，根据不同粒度对已分类的所述待分类数据进行多元结果集合归档及分类索引；

其中，所述粒度指所述待分类数据所属分类的范围。

优选地，

所述S60具体为：

S601，根据划分的粒度，将属于同一粒度且划分为一类的分类数据进行分布式计算的集合存储归档。

S602，根据粒度的不同，生成特征指纹进行分类索引。

在本发明优选实施例中，数据粒度是指数据仓库中数据的细化和综合程度。此处所述粒度是指文章所属主题范围。所述元组根据分类粒度进行不同划分，例如频道、专题、话题等。频道和专题的特征不用，频道范围大，可以有多个不同的专题，也有不能成为专题的文章。而专题则是主题一样，却有多个不同话题(奥运会、两会都是专题)。

在本发明优选实施例中，根据划分的粒度，将属于同一粒度且划分为一类的分类数据进行分布式计算的集合存储归档，所述分布式计算具体指首先将需要分析的数据存储到服务器集群,这份数据会分割成指定的大小,称为数据块,并且分散存储到该集群的每台服务器中,这份数据对于这个集群来说是一个完整的数据,在分析计算这份数据时候每台服务器会相应的处理指定数据块,每台服务器计算出结果然后再汇聚在一起。将相同主题归为一类的文章进行归档存储。根据粒度的不同，生成特征指纹进行分类索引，例如频道、专题、话题等。

请参阅图5，本发明还提供了一种多元组层次划分的分类装置，包括：

语料训练模块10，用于根据文档主题生成模型进行语料训练，生成多元组特征库；其中，所述多元组特征库包含至少一个元组的元组特征；所述元组特征拥有独属于自身的权重比例。

分类器模块20，用于根据所述多元组特征库中的各个元组特征生成对应所述元组特征的分类器。

类别输出模块30，用于接收输入的待分类数据，通过所述待分类数据的特征选择对应的所述分类器，根据实体权重判别及概率权重判别对所述待分类数据进行判别分类，输出所述待分类数据所属分类。

优选地，还包括：

关联模块40，用于根据元组之间的联系建立所述元组之间的跨域的非线性关联规则。

优选地，还包括：

自动调整模块50，用于根据所述元组特征及所述待分类数据进行自适应学习以自动调整分类器。

优选地，还包括：

多元结果集合模块60，用于根据不同粒度对已分类的所述待分类数据进行多元结果集合归档及分类索引；其中，

所述多元结果集合模块60具体包括：

归档单元，用于根据划分的粒度，将属于同一粒度且划分为一类的分类数据进行分布式计算的集合存储归档。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

Claims

1.一种多元组层次划分的分类方法，其特征在于，包括以下步骤：

接收输入的待分类数据，通过所述待分类数据的特征选择对应的所述分类器，根据所述分类器的实体权重比例及概率权重比例对所述待分类数据进行判别分类，输出所述待分类数据所属分类。

2.根据权利要求1所述的分类方法，其特征在于，在所述根据所述多元组特征库中的各个元组特征生成对应所述元组特征的分类器之后，还包括：

3.根据权利要求1所述的分类方法，其特征在于，在所述接收输入的待分类数据，通过所述待分类数据的特征选择对应的所述分类器，根据所述分类器的实体权重比例及概率权重比例对所述待分类数据进行判别分类，输出所述待分类数据所属分类之后，还包括：

4.根据权利要求1所述的分类方法，其特征在于，在接收输入的待分类数据，通过所述待分类数据的特征选择对应的所述分类器，根据所述分类器的实体权重比例及概率权重比例对所述待分类数据进行判别分类，输出所述待分类数据所属分类之后，还包括：

根据不同粒度对已分类的所述待分类数据进行多元结果集合归档及分类索引；其中，所述粒度指所述待分类数据所属分类的范围。

5.根据权利要求4所述的分类方法，其特征在于，所述根据不同粒度对已分类的所述待分类数据进行多元结果集合归档及分类索引具体为：

根据粒度的不同，生成特征指纹进行分类索引。

6.根据权利要求1所述的分类方法，其特征在于，所述多元组特征库中的各个元组特征根据实体权重及概率权重模型进行权重比例调整。

7.一种多元组层次划分的分类装置，其特征在于，包括：

分类器生成模块，用于根据所述多元组特征库中的各个元组特征生成对应所述元组特征的分类器；

8.根据权利要求7所述的分类装置，其特征在于，还包括：

9.根据权利要求7所述的分类装置，其特征在于，还包括：

分类器自动调整模块，用于根据所述元组特征及所述待分类数据进行自适应学习以自动调整分类器。

10.根据权利要求7所述的分类装置，其特征在于，还包括：

所述多元结果集合模块具体包括：