CN104657422A

CN104657422A - 一种基于分类决策树的内容发布智能分类方法

Info

Publication number: CN104657422A
Application number: CN201510021030.5A
Authority: CN
Inventors: 苏森; 徐鹏; 双锴; 温鉴荣; 王玉龙
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2015-01-16
Filing date: 2015-01-16
Publication date: 2015-05-27
Anticipated expiration: 2035-01-16
Also published as: CN104657422B

Abstract

本发明提供了一种基于分类决策树的内容发布智能分类方法，属于内容管理系统和数据挖掘领域。所述方法应用的系统通用架构包括：内容数据采集模块、分类策略模块、分类决策树训练模块；所述方法结合机器学习的监督学习方法，将内容管理系统中已有的内容信息作为训练数据集合，并利用此训练数据集合基于决策树学习算法生成分类器；所有发布内容都基于相同的发布途径，发布后由所述分类器根据发布内容的特征值判断该发布内容的类型，从而完成整个发布过程。本发明改善了内容发布的用户体验。发布后内容的类别由系统判断，而非用户选择，发布流程更加智能化。

Description

一种基于分类决策树的内容发布智能分类方法

技术领域

本发明属于内容管理系统(Content Management System)和数据挖掘(DataMining)领域，具体涉及一种基于分类决策树的内容发布智能分类方法，应用于并革新内容发布流程的智能分类机制，基于现有内容信息生成的分类决策树配置信息，以实现自动对用户新发布的内容进行智能分类，从而在保证效率的前提下改善用户进行内容发布的体验。

背景技术

随着互联网的广泛普及尤其是社交化网络的快速发展，网络信息不仅在量上呈爆炸性的增长，而且内容的类型亦更加的丰富。对于一个企业、组织、或者一个广义上的社交分享平台而言，内容管理有了新的挑战，比如内容的存储、分类，检索等等。而本发明关注内容管理的发布流程的改善。在传统的多类型内容管理系统中，针对不同类型内容，比如文章、链接、视频、文档等，它们各自的内容发布流程时往往是被显性进行区分，即每一种类型都各有其特殊的发布流程，以人人网(http：//www.renren.com)为例，日志、链接分享、状态等内容的发布途径是不同的。同时，随着智能终端的快速发展，一个应用的访问形式不仅仅只有传统的web形式，还有移动app形式。因此，一个体验良好而且统一的内容发布流程成为了内容管理系统中内容发布部分发展的趋势。

在传统的内容发布流程中，不同类型的内容发布基于不同的发布途径或过程。这些不同的发布途径，带来了许多的不便：1)从前端体验的角度看，用户需手动选择内容类型，同时页面需要为所有类型的内容发布提供入口链接；类型越多，所需要的屏幕空间越大，这点在移动智能终端上影响尤其大。2)从工程实践的角度看，为不同类型的内容提供特殊化的发布流程，架构的扩展性差，每增加一类内容，便要增加相应的代码，同时不同类型的内容发布流程的业务逻辑基本相似，容易造成代码冗余。

分类是一种数据分析形式，也是数据挖掘中一项非常重要的任务(可参考李彦华.决策树分类器的研究、实现及在数据挖掘中的应用[D].上海交通大学，2001.以及黄泽宇.决策树分类器算法的研究[D].北京交通大学，2006.)。它可用于在数据中抽取出决策支持所用的知识，即能在数据中抽取出描述重要数据集合或预测未来数据趋势的模型。在数据挖掘中，分类的应用非常广泛。例如销售部门可以在收集的客户资料上建立一个分类模型，来判断客户是潜在客户还是忠实客户。而在本场景下，可以基于现有的内容类型的信息，建立分类模型，来判断新发布内容的类型。

一般地，分类是依据某种分类模型，在具有类别信息的数据集合中学习出一个分类函数，即分类器。分类器能够基于特征值集合所描述的待分类实例指派一个最适合的类别，从而能够应用于数据分类和预测。

从机器学习方法中监督学习和非监督学习两类方法看，分类器的学习策略还分为急切式学习策略和懒惰式学习策略。前者在分类器训练过程中就建立能将待分类实例映射到具体类别的有清晰假设的分类器，然后随着训练改善分类器；而后者在训练过程中没有建立清晰的假设，分类过程即是利用训练集合将给定实例与其类别匹配起来的过程。一般来说，急切式学习策略在效率上大大优于懒惰式学习策略，然而后者在分类精确度上优于急切式学习策略。

结合机器学习和数据挖掘的理论体系，具体构建分类器的算法亦有许多，如朴素贝叶斯方法、决策树(请参考Quinlan JR.Induction of decision trees.Machine Learning[J]，1：81106，1986，81～106)、神经网络、K-最邻近以及支持向量机等。其中，决策树分类是应用最多的分类方法之一，尤其对由“特征-值”对表达的实例和对目标函数要求具有离散的输出值的场景有着极好的效果，同时对噪声数据有着良好的健壮性，因此非常适合应用于对内容管理系统中内容分类这个场景。

综上所述，在一个富类型的内容管理系统中，传统的内容发布流程存在不良好的体验，如遇到不同类型需拥有其特殊化的内容发布流程，造成不良好的前端用户体验以及发布子系统扩展性差等不足。

发明内容

本发明的目的在于解决上述现有技术中存在的难题，提供一种基于分类决策树的内容发布智能分类方法，基于内容管理系统现有内容信息，运用数据挖掘的分类技术，制定一种针对内容发布的内容智能分类机制，以改善传统内容发布流程。

本发明是通过以下技术方案实现的：

一种基于分类决策树的内容发布智能分类方法，其应用的系统通用架构包括：内容数据采集模块、分类策略模块、分类决策树训练模块；所述方法结合机器学习的监督学习方法，将内容管理系统中已有的内容信息作为训练数据集合，并利用此训练数据集合基于决策树学习算法生成分类器；所有发布内容都基于相同的发布途径，发布后由所述分类器根据发布内容的特征值判断该发布内容的类型，从而完成整个发布过程。

所述方法利用所述内容数据采集模块分析新发布内容的特征值信息；利用分类策略模块加载分类决策树配置信息，以及在其运行过程中根据提供的特征值信息返回类型信息；利用分类决策树训练模块基于所述训练数据集合进行离线处理，输出分类决策树配置信息，形成所述分类器；

所述特征值信息包括：文本长度、是否包含链接、是否包含文档附件、是否包含视频链接和是否包含图片；

发布内容的类型包括：文档、话题、文章、分享链接和视频。

所述方法包括分类决策树训练步骤，具体如下：

(A1)对内容管理系统中已有的内容信息进行预处理，提取所需的特征值信息和类型信息，取1成作为验证数据，9成作为训练数据；

(A2)基于决策树学习算法和算法参数，生成分类决策树配置信息；

(A3)基于所述验证数据，对步骤(A2)生成的决策树配置信息进行测试，输出测试结果；

(A4)输出分类器。

所述方法进一步包括内容发布步骤，具体如下：

(B1)基于统一的页面进行内容发布提交；

(B2)提取特征值：根据用户提供的内容信息提取特征值信息；

(B3)分类器根据步骤(B2)得到的特征值信息判断新发布内容的类型；

(B4)将步骤(B3)判断出的类别的信息存于内容信息数据中，然后存于数据库中。

与现有技术相比，本发明的有益效果是：

(1)从用户层面看，本发明改善了内容发布的用户体验。发布后内容的类别由系统判断，而非用户选择，发布流程更加智能化。

(2)从系统视觉和交互设计层面看，利用本发明讲多种类型的内容发布流程统一后，极大地释放了原来多种类型的内容发布内容对前端页面空间的低效占用，给予前端用户界面在视觉上和交互上更多的优化空间。

(3)从系统实现的层面看，本发明引进了智能业务，同时策略信息与具体的逻辑实现相分离，策略的变化能更加地灵活，而代码结构更加稳定，不再需要跟随内容类型的增加或分类策略的改变而重写。将策略作为单独的面从系统抽离出来，使得内容发布子系统有了更好的可扩展性。

附图说明

图1 是传统的多类型的内容发布过程示意图。

图2 是本发明的统一的内容发布过程示意图。

图3 是本发明的系统通用架构模型。

图4 是本发明的分类决策树训练的总体框架图。

图5 是本发明的内容发布步骤框图。

具体实施方式

下面结合附图对本发明作进一步详细描述：

本发明是一种智能的内容分类机制，能解决传统内容发布流程带来的不便。结合数据挖掘的基本方法，能基于现有的内容信息能训练出一个合适的内容分类器，实现内容发布流程的智能分类，改善传统内容发布流程。

本发明结合机器学习的监督学习方法，将内容管理系统已有的内容信息作为训练数据集合，并基于此数据集合基于决策树的分类模型训练出分类决策树，以实现内容发布流程中能基于分类决策树的分类策略对新内容进行智能分类。

从用户层面上看，本发明节省了用户显性选择内容类型的时间，使内容发布过程更加简单便捷；同时从系统设计和开发人员的层面看，本发明将多种类型的内容发布统一了，不仅给前端页面节省了大量的空间以进行体验优化，同时实现分类策略与内容发布流程的实现相分离，保证了业务逻辑极好的扩展性，避免了代码不必要的冗余。

目前内部的内容管理系统已经聚焦了大规模的多类型的内容数据，如文档、文章、链接、视频、图片等。每次发布资源时，用户都需要显性选择资源的类型，而且针对不同类型的资源页面有其相应的按钮。随着资源类型的增加，业务逻辑和视图逻辑都需要增加相应的代码内容。然而，由于不同类型的资源拥有较显著的特征差异，所以能够能基于一种分类策略对新资源进行智能分类。由于平台已经积累一定规模的资源信息，因此能基于监督学习的方法基于已有数据训练运用决策树学习算法训练出内容分类器。如此便很好地保证了分类器的科学性和效率，而且基于决策树信息二来分类策略能以配置信息的形式提供，而不是写进代码逻辑中，策略规则与实现相分离，从而使代码逻辑有了较好的扩展性，分类策略亦能便于灵活变化。

传统的多类型的内容发布过程如图1所示，在传统资源发布过程中，不同类型的内容对应不同的发布途径，最终存于一张存储内容基本信息的大表，或者针对不同类型的内容子表。

而本发明统一的内容发布过程如图2所示，所有资源都基于相同的发布途径，发布后根据内容的特征值分类器能够判断内容的类型，从而完成整个发布过程。

针对此思路，本发明提出一种基于分类决策树的内容发布智能分类方法。首先，基于已有内容信息进行训练，基于决策树学习算法生成一个分类器；然后，所有新发布的内容由分类器决定其类型。本发明旨在革新内容发布的流程，将分类策略智能化的同时，将分类策略与实现相分离，在改善系统架构的同时提高内容发布的用户体验。

本发明具体如下：

一、系统通用架构

本发明的系统通用架构模型图如图3所示：

该模型中，内容数据采集模块分析新资源的特征信息，如文本长度，是否有链接、是否有视频，是否有附件(就是下面的5个特征值)等。而分类策略模块启动时加载分类决策树配置信息，运行过程中据提供的特征信息返回类型信息。分类决策树训练模块是离线处理模块，它基于现有数据进行离线处理，生成决策树形式的分类器决策树配置信息。分类决策树训练流程和资源发布流程是本发明重点描述对象。其中分类决策树训练流程与图3的内容数据库，分类决策树训练框架和分类决策树配置信息相关，三者分别为输入，处理逻辑和输出；而资源发布流程与图3的内容发布，内容数据采集模块，分类策略模块和分类决策树配置信息相关。

二、分类决策树训练流程

本发明是一种基于分类决策树的资源智能分类机制。其中，决策树学习过程是至关重要的一个流程。

决策树是一个类似于流程图的树形结构，其中每个内部节点表示在一个特征上的测试，每个分枝代表一个测试输出，而每个树叶节点代表类或类分布。树的最顶层节点是根节点。典型的分类决策树算法有ID3(请参考Quinlan JR.Induction of decision trees.Machine Learning[J]，1：81106，1986，81～106.)、C4.5(Quinlan JR.C4.5：Programs for Machine Learning[M].SanMateo，Caiif：Morgan Kaufmann，1993：17-42)和CART等，后两者基于前者发展而来。ID3算法是基于信息论的方法，生成决策树过程中对分裂特征的选择采用了信息增益(Information Gain)的标准。

一个特征的信息增益是由于使用这个特征进行实例分割而导致的期望熵的降低量。例如，特征A相对实例集合S的信息增益gain(S，A)定义为：

gain (S, A) = inf o (S) - \underset{v &Element; Varies (S)}{Σ} \frac{| S_{v} |}{| S |} inf o (S_{v}) - - - (1)

信息熵的定义为：若给定的概念分布P＝(P₁，P₂，…，P_n)，则由该分布传递的信息量称为P的信息熵，记为：

inf o (P) = - Σ_{i = 1}^{n} P_{i} * \log_{2} (P_{i}) - - - (2)

计算出每个非类别特征的信思增益后，选择信思增益最大的特征作为分裂特征去建立决策树。然后继续进行树的分裂。

而C4.5算法是基于ID3算法发展而来，相比ID3算法，C4.5算法能处理非离散值特征，对缺省值特征亦能很好地进行处理，能处理回归模型，同时以信息增益比率作为分裂特征选择的标准。特征A的信息增益比率gain-ratio(A)的定义如下：

gain - ratio (S, A) = \frac{gain (S, A)}{inf o (A)} - - - (3)

基于实际情况，已有的内容管理系统积累了大规模的内容信息，这样就能基于监督学习的策略，将已有信息提取出训练集合，基于决策树算法生成分类器。同时，由于内容的特征较简单，除了文本长度之外，其余都是离散值，这样就能对文本长度此特征拟定出简单几个离散值，采用经典的ID3算法进行决策树的学习，同时基于急切式的学习策略，主观地建立一个分类器作为基分类器。同时，限制叶子的文档数作为前剪枝的策略，现不考虑后剪枝。

在此，本发明提取的作为决策树训练的特征值信息如下：

1.文本长度(小于140字和大于140字)

2.是否包含链接

3.是否包含文档附件

4.是否包含视频链接

5.是否包含图片

预定义的类别如下：

1.文档

2.话题

3.文章

4.分享链接

5.视频

分类决策树训练的总体框架示意图如图4所示：

简要过程描述：

(1)对现有资源信息进行预处理，提取所需的特征值信息和类型信息(即上述的预定义的类别)，取1成作为验证数据，9成作为训练数据；

(2)基于决策树学习算法和算法参数，生成分类决策树配置信息(具体如何实现请参考前面的“二、分类决策树训练流程”部分的内容)；

(3)基于所述验证数据集，对生成的决策树进行测试。输出测试结果；

(4)输出最终的决策树分类器信息。

三、内容发布流程

本发明的内容发布流程如图5所示：

(1)基于统一的页面进行内容发布提交；

(2)提取特征：根据用户提供的内容信息，比如文本长度即计算文本内容的字符数，是否包含链接即判断内容里有无附加链接等；

(3)基于分类决策树判断类型

(4)类别信息存于内容信息数据中，存于数据库。

具体实施时，必须先有训练出的分类决策树信息，才能进行自动的内容分类。

分类决策树进行一次是不足够的，因为分类策略的可信度取决于训练数据的质量(规模和准确性)。为了提供分类策略的可行度，需定期重新训练。数据越多，训练出的分类策略越可信。策略更新周期是一个可配置的参数，一般默认7天。

分类决策树训练流程和内容发布流程这两个流程其实是独立的。之前说到，分类决策树训练模块是离线模块，它不是一直在线进行服务的。对内容发布，它只需要分类策略配置信息；虽然分类策略信息是离线训练模块训练出来的，但是最开始可以是人工配置的一个空策略。这种实现与策略相分离的设计，有利于后期热更新“分类策略”(就换个配置文件)，而不需重写策略逻辑重新构建工程。

相比传统的内容发布流程，本发明新内容的提交基于统一的发布途径，而类别的确定由训练出的分类决策树判断，而不再由人工选择。

本发明引进了一种高效的智能分类机制，设计了一种革新的内容管理系统的内容发布流程。基于已有的内容信息和数据挖掘中分类决策树的分类技术构造了分类决策树的训练框架，保证了智能分类机制的科学性和高效。

本发明统一了多类型内容的发布流程，不同类型的资源发布不再需要特殊的发布途径，而是使用相同的发布途径和业务逻辑代码，简化了业务过程，使内容发布过程再加简单。

本发明针对内部平台资源的特性，抽离出一系列能代表资源特征的特征值变量，以保证训练出来的分类决策树的准确性。

上述技术方案只是本发明的一种实施方式，对于本领域内的技术人员而言，在本发明公开了应用方法和原理的基础上，很容易做出各种类型的改进或变形，而不仅限于本发明上述具体实施方式所描述的方法，因此前面描述的方式只是优选的，而并不具有限制性的意义。

Claims

1.一种基于分类决策树的内容发布智能分类方法，所述方法应用的系统通用架构包括：内容数据采集模块、分类策略模块、分类决策树训练模块；其特征在于：所述方法结合机器学习的监督学习方法，将内容管理系统中已有的内容信息作为训练数据集合，并利用此训练数据集合基于决策树学习算法生成分类器；所有发布内容都基于相同的发布途径，发布后由所述分类器根据发布内容的特征值判断该发布内容的类型，从而完成整个发布过程。

2.根据权利要求1所述的基于分类决策树的内容发布智能分类方法，其特征在于：所述方法利用所述内容数据采集模块分析新发布内容的特征值信息；利用分类策略模块加载分类决策树配置信息，以及在其运行过程中根据提供的特征值信息返回类型信息；利用分类决策树训练模块基于所述训练数据集合进行离线处理，输出决策树配置信息，形成所述分类器；

3.根据权利要求2所述的基于分类决策树的内容发布智能分类方法，其特征在于：所述方法包括分类决策树训练步骤，具体如下：

(A4)输出分类器。

4.根据权利要求3所述的基于分类决策树的内容发布智能分类方法，其特征在于：所述方法进一步包括内容发布步骤，具体如下：

(B1)基于统一的页面进行内容发布提交；

(B2)提取特征值：根据用户提供的内容信息提取特征值信息；