CN103838886A

CN103838886A - 基于代表词知识库的文本内容分类方法

Info

Publication number: CN103838886A
Application number: CN201410126594.0A
Authority: CN
Inventors: 孙宏; 赵晓波; 季海东; 董童霖; 赵宇龙
Original assignee: Liaoning Siwei Science And Technology Development Co Ltd
Current assignee: Guo Lei
Priority date: 2014-03-31
Filing date: 2014-03-31
Publication date: 2014-06-04

Abstract

基于“代表词知识库”的文本内容分类方法，属于数据分析和内容分类领域。本发明采用人工智能专家系统的方法，通过对待分类页面W_Page的构成特征向量，计算与已经分类完的“代表词知识库”W_base(C_K)中知识的最短距离D(C_min)和相似度S_k;，根据预置的阈值来判断W_Page归属哪一类，从而达到分类的目的。对代表词分类知识库的更新，使系统变得越来聪明，不仅提高了内容分类的效率，更重要是提高了内容分类的覆盖面和准确程度。

Description

基于代表词知识库的文本内容分类方法

技术领域

本发明属于文本内容分类领域，特别是涉及到一个基于专家系统代表词分类知识库的文本内容分类方法、系统及装置。

技术背景

随着移动互联网的迅猛发展，特备是3G、4G互联网普及，原本只有专业和时尚人士上网变成草根屌丝们都能上网，带来了全民上网的信息化时代，造成信息爆炸。有效的组织管理好互联网信息，并从这些海量的大数据中快速、准确、全面的获取客户的兴趣特征，是对当今信息科学技术领域的一大挑战。文本分类技术，作为处理海量互联网文本数据的关键技术，可以解决电信运营商智能营销的问题，达到提高效率、降低成本、减少投诉、增加收益精细化运营的目的。

自动文本页面分类方法已经成为研究自然语言处理的热点，其分类方法各种各样，归结为有⑴基于IF-THEN决策树专家规则的分类方法；⑵基于自然语言利用神经网络的学习算法；⑶基于关键词的语言算法等的语义分析；⑷基于一组词或词组在文中出现频率、位置、以及词与词间的亲近程度的模式匹配；⑸通过识别内容中的共性元素进行聚类分类；⑹基于概率统计的贝叶斯分类；⑺遗传算法分类优化技术等等……。但是，这些分类方法只解决某些部分的具体应用、数据规模比较小、没有海量“垃圾”的内容分类

但是，以上这些自动文本页面分类均无法解决海量大数据的文本内容分类问题，然而本发明填补了百亿级海量大数据的分类问题。

发明内容

鉴于以上存在的问题，本发明的目的在于：提供一种通过人工智能专家系统构建的基于代表词知识库的文本内容分类方法，旨在解决电信运营商百亿级海量“有效”访问内容（页面URL）进行准确而高效的分类的问题。

本发明的目的是通过下述技术方案实现的：

基于代表词知识库的文本内容分类方法，其特征在于，包括：

（1）首先对待页面URL的标题Title进行切词，然后与元信息Meta中的关键词进行合并，同时计算出代表词的频度，构成页面特征向量W_Page={(W₁，f₁),(W₂，f₂),…,(W_i，f_i),…}，其中i=1、2、…、M,M为页面中代表词数；若W_Page为空，该页面没有标题和元信息，则对页面正文Bod_y进行切词，用与标题和元信息同样方法构成页面特征向量W_Page：

（2）从“代表词分类知识库”中读取所有的分类知识：

W_{Base} (C_{k}) = {(w_{1}^{k}, f_{1}^{k}), (w_{2}^{k}, f_{2}^{k}), \cdot \cdot \cdot, (w_{j}^{k}, f_{j}^{k}), \cdot \cdot \cdot}

其中,k=1、2、…、L，L为知识库分类数；j=1、2、…、N,N为第C_k类代表词数,为第C_k类第j个代表词，

为第C_k类第j个代表词对应的频度；

（3）计算待文本页面特征向量W_Page与所有类别W_base(C_K)的距离D(C_K)，同时计算出页面距离所有分类中最短的距离D(C_min)和相似度S_k

D (c_{k}) = \sqrt{Σ_{i = 1}^{M} Σ_{j = 1}^{N} {(f_{i} - f_{j}^{k})}^{2}}

D (c_{\min}) = Min {Σ_{k = 1}^{L} D (c_{k})}

S_{k} = \frac{Σ_{j = 1}^{M} f_{j}^{k} - D (c_{\min})}{Σ_{j = 1}^{M} f_{j}^{k}}

（4）进行文本分类：当M_k＜S_k≦1时，内容分类成功，将成功分类结果

W_{new} (C_{k}) = {(w_{1}^{k}, f_{1}^{k}), (w_{2}^{k}, f_{2}^{k}), \cdot \cdot \cdot, (w_{i}^{k}, f_{i}^{k}), \cdot \cdot \cdot}

存储到“内容分类结果”文件中，同时更新维护代表词知识库。当S_k≦M_k时，内容分类失败，结束分类。其中M_k是预先设置在0-1之间的相似度阈值。

所述步骤（2）中的“代表词分类知识库”需要定期进行知识更新，其步骤如下：

（1）根据“新增代表词分类数据”中间文件，提取第C_k类的新增代表词为：

W_{new} (c_{k}) = {w_{1}^{k}, w_{2}^{k}, w_{3}^{k}, \cdot \cdot \cdot, w_{i}^{k}, \cdot \cdot \cdot}

其中：i=1、2、…、N_i,N_i为新增代表词数;k=1、2、…、L，L为内容分类数

（2）从代表词基础知识库中提取第C_k类的基础代表词为：

W_{base} (c_{k}) = {w_{1}^{k}, w_{2}^{k}, w_{3}^{k}, \cdot \cdot \cdot, w_{j}^{k}, \cdot \cdot \cdot}

其中：j=1、2、…、M_j,M_j为基础分类库中代表词数;k=1、2、…、L，L为内容分类数

（3）新增知识的添加：

若

W_{new} (w_{i}^{k}) &Element; W_{base} (w_{j}^{k})

时，

则通过分类基础知识库验证，自动更新代表词知识库，即将新增代表词

特征向量存储到W_base(C_k)中。同时，重新计算该分类中各代表词的置信度，更新知识库；

否则,添加失败；

（4）推理规则的更新：通过客户移动互联网行为分析，重新计算各个分类中代表词在单位时间内的频度和置信度，进行代表词分类推理规则的更新；

（5）陈旧知识的删除：根据“客户行为分析”，若各个分类中的代表词知识N天没有被使用过，则认定为陈旧知识，从“代表词分类知识库”中删除。N为预先设置的阈值。

本发明的理论依据及技术效果：

移动互联网上的内容种类很多，不仅有文本，还有视频、音乐、下载、游戏、图书、客户端应用软件等非文本的内容。本发明涉及到的内容分类是指文本内容的分类。一个文本页面的内容分类包括三部分，一部分是页面的标题Title，一部分是页面的元信息Meta，一部分是页面的正文Body。如果只对标题Title分类，基本上也能代表页面的内容分类，但是标题词汇量少，分类的准确程度有一定的局限。搜索引擎的依据是页面元信息Meta进行检索查询的，元信息中存放的都是能够代表页面内容分类的关键词，针对元信息的页面内容分类更能很好地代表页面的内容分类。根据页面正文Body切出来的词，虽然词汇量大，但是代表页面的语义比较分散，效率也低，准确性也比较差。

因此，本发明的内容分类以标题Title的切词和元信息Meta中的关键词两个内容分类更加准确的方法为主，在页面没有标题和元信息的时候，则用以效率比较低、准确程度不高的正文Body进行内容分类为辅。

代表词知识库说明：本发明涉及到的“代表词分类知识库”中的知识分为若干类，在每类下由若干个具有频度和置信度的代表词组成。其初始集的建立是建立在“移动互联网客户访问行为分析”的基础上，用一天未分类的页面URL，分析其被浏览情况，取其浏览数（PV值）Top排名的页面作为训练集，人工将训练集内的页面进行分类。然后，将训练集中相同类别中的所有页面标题Title中切出来的词和元信息Meta中的关键字进行合并，并计算其频度和置信度，构成该类的特征向量。在构造特征向量的基础上，根据欧式距离，计算第k类所有词到第k类以外所有类别的距离，找出距离最大的n个词作为第k类的代表词，以此类推，确定知识库的初始集。

再用下一天未分类的页面URL浏览数（PV值）的Top排名作为测试集，来检查分析代表词分类提取的准确性和占有率是否达到设计要求。当占有率达到要求时，则“代表词知识库”初始集建立完成。否则将下一天的浏览数Top排名据作为训练集继续训练，直至达到为止。

当“代表词分类知识库”的初始集建立后，还需要定期进行维护，维护知识更新，保持知识库覆盖面和准确性。

本发明的目的是根据“代表词分类知识库”，通过如下推理过程实现：

本发明首先对待页面URL的标题Title进行切词，然后与元信息Meta中的关键词进行合并，并计算合并后代表词的频度，构成页面特征向量：

W_Page={(W₁，f₁),(W₂，f₂),…,(W_i，f_i),…}

其中i=1、2、…、M,M为页面中代表词数

若W_Page为空，说明页面没有标题和元信息，则对页面正文Body进行切词，用与标题和元信息同样方法构成页面特征向量W_Page。

在获取待分类的文本页面特征向量的基础上，从“代表词分类知识库”中读取所有的分类知识。知识库中的代表词特征向量构造如下：

W_{Base} (C_{k}) = {(w_{1}^{k}, f_{1}^{k}), (w_{2}^{k}, f_{2}^{k}), \cdot \cdot \cdot, (w_{j}^{k}, f_{j}^{k}), \cdot \cdot \cdot}

其中，k=1、2、…、L，L为知识库分类数；j=1、2、…、N,N为第Ck类代表词数,

为第Ck类第j个

代表词，

为第C_k类第j个代表词对应的频度。

在获取待分类文本页面特征向量和知识库中代表词特征向量的基础上，计算文本页面特征向量中的每一个代表词到“代表词知识库”每一个分类中代表词的距离，来表示页面与知识库某一分类的相似度：

D (c_{k}) = \sqrt{Σ_{i = 1}^{M} Σ_{j = 1}^{N} {(f_{i} - f_{j}^{k})}^{2}}

其中，D(C_k)为文本页面W_page与“代表词知识库”W_base(C_k)的第C_k类内容分类的距离。然后，确定文本页面与“代表词知识库”内容分类中最短的距离D(C_min)：

D (c_{\min}) = Min {Σ_{k = 1}^{L} D (c_{k})}

根据文本页面与“代表词知识库”内容分类中最短的距离D(C_min)，计算页面W_Page与知识库中第C_k类W_Page(C_k)的相似度S_k：

S_{k} = \frac{Σ_{j = 1}^{M} f_{j}^{k} - D (c_{\min})}{Σ_{j = 1}^{M} f_{j}^{k}}

当相似度S_k=1时，说明页面W_Page与知识库中第C_k类W_Page(C_k)的分类100%相似；当相似度S_k=0时，页面W_Page与知识库中第C_k类W_Page(C_k)的分类相似度为零。

因此，可以判断文本页面归属类别。当M_k＜S_k≦1_k时，内容分类成功，将成功分类结果

W_{new} (C_{k}) = {(w_{1}^{k}, f_{1}^{k}), (w_{2}^{k}, f_{2}^{k}), \cdot \cdot \cdot, (w_{i}^{k}, f_{i}^{k}), \cdot \cdot \cdot}

存储到“内容分类结果”文件，同时更新维护代表词知识库。当S_k≦M_k时，内容分类失败，结束分类。其中M_k是预先设置在0-1之间的相似度阈值。

本发明中的“代表词分类知识库”的更新也包括添加、更新和删除三个模块。第一个模块也是添加新的代表词分类知识，是从代表词分类成功推理获取“新增代表词分类数据”中间文件中提取新增代表词数据，

W_{new} (c_{k}) = {w_{1}^{k}, w_{2}^{k}, w_{3}^{k}, \cdot \cdot \cdot, w_{i}^{k}, \cdot \cdot \cdot}

然后，再从“代表词分类基础库”提取基础代表词

W_{base} (c_{k}) = {w_{1}^{k}, w_{2}^{k}, w_{3}^{k}, \cdot \cdot \cdot, w_{j}^{k}, \cdot \cdot \cdot}

若

W_{new} (w_{i}^{k}) &Element; W_{base} (w_{j}^{k})

时，则将新增代表词

经人工确认后添加到“代表词知识库”中。否则,添加失败；

第二个模块是更新现有代表词分类知识的推理规则，根据客户移动互联网访问行为分析，重新计算各个分类中代表词在单位时间内的频度和置信度，进行代表词分类推理规则的更新；

第三个模块，同样是根据移动互联网用户行为分析，来判断是否删除陈旧的知识、若代表词分类知识N天没有被访问过，则认定为陈旧的知识，从“代表词知识库”中删除，天数N为预先设置的阈值。

本发明采用的技术方案，其特点在于通过已经分类完的“代表词分类知识库”，将待分类的页面进行归类，其内容分类速度、效率、准确率方面与其他分类方法相比，有了极大地提高。

附图说明

图1是基于代表词知识库的文本内容分类方法的流程图。

图2是代表词知识库的更新流程图。

具体实施方式

本发明是在专家系统下，基于代表词知识库，将用户浏览的文本内容自动进行分类，下面结合附图进行详细说明：

在图1中，基于代表词知识库的文本内容分类过程如下：

步骤1：本发明首先调用101模块从102数据文件中读取待分类的文本页面URL。然后，调用103模块将文本页面URL的标题Title进行切词，并与元信息Meta中的关键词进行合并，计算合并后代表词的频度，构成该页面特征向量：

W_Page＝{(w_l，f_l)，(w₂，f₂)，…，(w_i，f_i)，…}

其中i=1、2、…、M,M为页面中代表词数

步骤2：根据104模块判断W_Page是否为空。如果W_Page=“空”，说明页面没有标题和元信息，则调用105模块对页面正文Body进行切词，用与标题和元信息同样方法构成页面特征向量W_Page。

步骤3：调用106模块从107“代表词分类知识库”中读取所有的分类知识。代表词知识库中的知识构造如下：

W_{Base} (C_{k}) = {(w_{1}^{k}, f_{1}^{k}), (w_{2}^{k}, f_{2}^{k}), \cdot \cdot \cdot, (w_{j}^{k}, f_{j}^{k}), \cdot \cdot \cdot}

其中，k=1、2、…、L，L为知识库分类数；j=1、2、…、N,N为第C_k类代表词数,为第C_k类第j个代表词，

为第C_k类第j个代表词对应的频度。

步骤4：调用108模块计算文本页面特征向量W_page中的每一个代表词到“代表词知识库”每一个分类中代表词W_base(C_k)的距离，来表示页面与知识库某一分类的相似度：

D (c_{k}) = \sqrt{Σ_{i = 1}^{M} Σ_{j = 1}^{N} {(f_{i} - f_{j}^{k})}^{2}}

其中：D(C_k)为文本页面W_page与“代表词知识库”W_base(C_k)的第C_k类内容分类的距离。

步骤5：确定文本页面W_page与“代表词知识库”各内容分类W_base(C_k)中最短的距离D(C_min)：

D (c_{\min}) = Min {Σ_{k = 1}^{L} D (c_{k})}

步骤6：根据文本页面与“代表词知识库”内容分类中最短的距离D(C_min)，计算页面与知识库中第C_k类的相似度S_k：

S_{k} = \frac{Σ_{j = 1}^{M} f_{j}^{k} - D (c_{\min})}{Σ_{j = 1}^{M} f_{j}^{k}}

说明：当相似度S_k=0时，说明页面与知识库中的分类一点不相似.当相似度S_k=1时，说明页面与知识库中的分类百分之百的相似；

步骤7：根据109模块判断，当M_k＜S_k≦1_k时，内容分类成功，调用110模块将成功分类结果

W_{new} (C_{k}) = {(w_{1}^{k}, f_{1}^{k}), (w_{2}^{k}, f_{2}^{k}), \cdot \cdot \cdot, (w_{i}^{k}, f_{i}^{k}), \cdot \cdot \cdot}

存储到111“内容分类结果”文件中，同时调用112模块更新维护107“代表词知识库”。当S_k≦M_k时，内容分类失败，结束分类。其中M_k是预先设置在0-1之间的相似度阈值。

在图2中，代表词知识库的知识添加、更新和删除维护过程如下：

步骤1，调用201模块，从202“新增代表词分类数据”中间文件中读取新增代表词数据W_new(C_k);

步骤2，调用203模块，首先从204“代表词基础分类库”中读取已经分类的知识，即代表词W_base(C_k)。然后，匹配W_new（C_k）中的代表词与W_base（C_k）中的代表词。若

时，则将新增代表词

添加到206“代表词分类知识库”中。

步骤3，调用207模块进行代表词推理规则的更新维护，从206“代表词分类知识库”中调出全部的分类知识，根据步骤1的分析结果重新计算所有代表词知识在单位时间内的频度和置信度，重新确定代表词分类推理机的优先级别，即确定各个内容类别、以及各类别中代表词知识的优先顺序，然后调用208模块将更新的知识存回206“代表词分类知识库”中。

步骤4，调用209模块删除陈旧的知识，从206“代表词分类知识库”中调出全部的分类知识，挖掘出N天没有使用过代表词分类的知识，调用210模块从206“代表词分类知识库”中删除。

Claims

1.基于代表词知识库的文本内容分类方法，其特征在于，包括：

（1）首先对待页面URL的标题Title进行切词，然后与元信息Meta中的关键词进行合并，同时计算出合并后代表词的频度，构成页面特征向量W_Page={(W₁，f₁),(W₂，f₂),…,(W_i，f_i),…}，其中i=1、2、…、M,M为页面中代表词数；若W_Page为空，该页面没有标题和元信息，则对页面正文Bod_y进行切词，用与标题和元信息同样方法构成页面特征向量W_Page：

（2）从“代表词分类知识库”中读取所有的分类知识：

W_{Base} (C_{k}) = {(w_{1}^{k}, f_{1}^{k}), (w_{2}^{k}, f_{2}^{k}), \cdot \cdot \cdot, (w_{j}^{k}, f_{j}^{k}), \cdot \cdot \cdot}

其中,k=1、2、…、L，L为知识库分类数；j=1、2、…、N,N为第C_k类代表词数,

为第C_k类第j个代表词，

为第C_k类第j个代表词对应的频度；

（3）计算待文本页面特征向量W_Page与所有类别W_base(C_K)的距离D(C_K)，同时计算出其中最短的距离D(C_min)和相似度S_k

D (c_{k}) = \sqrt{Σ_{i = 1}^{M} Σ_{j = 1}^{N} {(f_{i} - f_{j}^{k})}^{2}}

D (c_{\min}) = Min {Σ_{k = 1}^{L} D (c_{k})}

S_{k} = \frac{Σ_{j = 1}^{M} f_{j}^{k} - D (c_{\min})}{Σ_{j = 1}^{M} f_{j}^{k}}

W_{new} (C_{k}) = {(w_{1}^{k}, f_{1}^{k}), (w_{2}^{k}, f_{2}^{k}), \cdot \cdot \cdot, (w_{i}^{k}, f_{i}^{k}), \cdot \cdot \cdot}

存储到“内容分类结果”文件中，同时更新维护代表词知识库；当S_k≦M_k时，内容分类失败，结束分类。其中M_k是预先设置在0-1之间的相似度阈值。

2.如权利要求1所述的基于代表词知识库的文本内容分类方法，其特征在于：所述步骤（2）中的“代表词分类知识库”需要定期进行知识更新，其步骤如下：

W_{new} (c_{k}) = {w_{1}^{k}, w_{2}^{k}, w_{3}^{k}, \cdot \cdot \cdot, w_{i}^{k}, \cdot \cdot \cdot}

（2）从代表词基础知识库中提取第C_k类的基础代表词为：

W_{base} (c_{k}) = {w_{1}^{k}, w_{2}^{k}, w_{3}^{k}, \cdot \cdot \cdot, w_{j}^{k}, \cdot \cdot \cdot}

其中：j=1、2、…、M_j,M_j为基础分类库中代表词数;k=1、2、…、L，L为内容分类

数

（3）新增知识的添加：

若

W_{new} (w_{i}^{k}) &Element; W_{base} (w_{j}^{k})

时,

特征向量存储到W_base(C_k)中;同时，重新计算该分类中各代表词的置信度，更新知识库；

否则,添加失败；

（4）推理规则的更新：通过客户移动互联网访问行为分析，重新计算各个分类中代表词在单位时间内的频度和置信度，进行代表词分类推理规则的更新；

（5）陈旧知识的删除：根据“客户行为分析”，若各个分类中的代表词知识N天没有被使用过，则认定为陈旧知识，从“代表词分类知识库”中删除，N为预先设置的阈值。