CN106202306A

CN106202306A - 一种信息资源分类方法及系统

Info

Publication number: CN106202306A
Application number: CN201610511439.XA
Authority: CN
Inventors: 刘晓春; 郭良; 孔德龙; 杨春宇; 罗昌英
Original assignee: Dalian Bocai Technology Co Ltd
Current assignee: Dalian Bocai Technology Co Ltd
Priority date: 2016-07-01
Filing date: 2016-07-01
Publication date: 2016-12-07

Abstract

本发明公开了一种信息资源分类方法及系统。该方法包括：获取与预设一级类目的标题对应的待分类信息资源；对所述待分类信息资源进行聚类分析处理，获取至少一个关键词以及分别与所述至少一个关键词关联的数据；分别获取所述至少一个关键词在所述待分类信息资源中的出现率；根据所述出现率，结合预设类目数据结构，对所述至少一个关键词进行分类，获取所述一级类目所属的下级类目。本发明基于聚类分析对信息资源进行分类，具有简单高效的优点。

Description

一种信息资源分类方法及系统

技术领域

本发明涉及通信技术领域，具体涉及一种信息资源分类方法及系统。

背景技术

互联网信息资源作为一种新的信息资源形式，它有着与传统信息资源不同的特质。它的信息量大、増长速度快、内容丰富繁杂，形式多样、传播速度快、查询方便、交互功能强大，同时它又有着由于其存在形式形成缺陷：资源分散无序、片段化、缺乏管理、质量良莠不齐、稳定性差。数量多、内容庞杂：互联网信息没有限制，任何机构、个人都可以发布各类信息。因此成为无所不有的庞杂信息源，并具有跨地区，分布广，多语种，高度共享的特点，互联网信息资源数量巨大，内容庞杂。变化快、稳定性差：互联网信息具有极强的动态性且变化速度快，可以随时发布，也可及时变更修改，不但各种信息都处在不断淘汰、更新的状态。类型多、范围宽、用途广：互联网信息类型多样化，实时动态更新，多种表现形式等；另外还有范围宽泛的特点，它涵盖了人类知识的各个领域；日常可以完成的事物在互联网上基本均可实现，可见其用途广泛。信息组织特殊、控制性差：互联网上信息的组织则以超文本技术链接，构成立体网状文献链，把不同国家地区、不同服务器、各种网页、各类不同的相关信息都通过节点链接起来，形成了一个网状结构。信息的质量是良莠不齐，信息也处于分散、无序、不规范的状态之中。

互联网信息由于其自身的特点以及技术条件、技术环境的不同致使传统的信息资源分类体系对于大量、分散、无序、不规范的信息资源并不实用，其操作复杂而且效率低下。

发明内容

针对现有技术中的缺陷，本发明提供了一种信息资源分类方法及系统，基于聚类分析对信息资源进行分类，具有简单高效的优点。

本发明提出了一种信息资源分类方法，包括：

获取与预设一级类目的标题对应的待分类信息资源；

对所述待分类信息资源进行聚类分析处理，获取至少一个关键词以及分别与所述至少一个关键词关联的数据；

分别获取所述至少一个关键词在所述待分类信息资源中的出现率；

根据所述出现率，结合预设类目数据结构，对所述至少一个关键词进行分类，获取所述一级类目所属的下级类目。

优选地，在所述根据所述出现率，结合预设类目数据结构，对所述至少一个关键词进行分类的步骤之前，该方法还包括：

构建预设层数的数据结构；

分别对各层数据结构设置不同的出现率范围，生成类目数据结构。

优选地，所述根据所述出现率，结合预设类目数据结构，对所述至少一个关键词进行分类的步骤具体包括：

根据各层数据结构对应的出现率范围和关键词的出现率，判断各关键词所属的数据结构的层数。

优选地，所述类目数据结构包括二级类目数据结构和三级类目数据结构；

相应地，所述根据各层数据结构对应的出现率范围和关键词的出现率，判断各关键词所属的数据结构的层数的步骤具体包括：

判断关键词的出现率是否属于第一出现率范围内，若是则将所述关键词分配至二级类目数据结构；

若否，则将所述关键词分配至三级类目数据结构。

优选地，所述对所述待分类信息资源进行聚类分析处理的步骤具体包括：

采用网格聚类分析和/或密度聚类分析对所述待分类信息资源进行聚类分析处理。

本发明还提供了一种信息资源分类系统，包括：

第一获取模块，用于获取与预设一级类目的标题对应的待分类信息资源；

聚类模块，用于对所述待分类信息资源进行聚类分析处理，获取至少一个关键词以及分别与所述至少一个关键词关联的数据；

第二获取模块，用于分别获取所述至少一个关键词在所述待分类信息资源中的出现率；

分类模块，用于根据所述出现率，结合预设类目数据结构，对所述至少一个关键词进行分类，获取所述一级类目所属的下级类目。

优选地，该系统还包括：生成模块；

所述生成模块，用于在所述根据所述出现率，结合预设类目数据结构，对所述至少一个关键词进行分类之前，构建预设层数的数据结构；分别对各层数据结构设置不同的出现率范围，生成类目数据结构。

优选地，所述分类模块，具体用于根据各层数据结构对应的出现率范围和关键词的出现率，判断各关键词所属的数据结构的层数。

相应地，所述分类模块，还用于判断关键词的出现率是否属于第一出现率范围内，若是则将所述关键词分配至二级类目数据结构；

若否，则将所述关键词分配至三级类目数据结构。

优选地，所述聚类模块，还用于采用网格聚类分析和/或密度聚类分析对所述待分类信息资源进行聚类分析处理。

由上述技术方案可知，本发明提出的信息资源分类方法基于聚类分析对信息资源进行分类，具有简单高效的优点。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，在附图中：

图1示出了本发明一实施例提供的信息资源分类方法的流程示意图；

图2示出了本发明另一实施例提供的信息资源分类方法的流程示意图；

图3示出了本发明一实施例提供的信息资源分类方法中分类结构的示意图；

图4示出了本发明一实施例提供的信息资源分类方法中信息资源属性的示意图；

图5示出了本发明一实施例提供的信息资源分类系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明一实施例提供的信息资源分类方法的流程示意图，参照图1，该信息资源分类方法，包括：

110、服务器获取与预设一级类目的标题对应的待分类信息资源；

需要说明的是，此处的一级类目包括：词条，标题等的，本发明优选为标题；进一步地，服务器以标题为关键词进行检索即可获取大量的信息资源，其中，信息资源包括某一网站上的信息，某一报纸上的信息等等。

120、对所述待分类信息资源进行聚类分析处理，获取至少一个关键词以及分别与所述至少一个关键词关联的数据；

可理解的是，本发明采用聚类分析的方法能简单而有效的从数量庞大的信息资源中聚类出一个或多个关键词，可知的是，此处的一个或多个关键词即为上述一级类目对应的标题的下属类目。

130、分别获取所述至少一个关键词在所述待分类信息资源中的出现率；

需要说明的是，在获取到的待分类信息资源中，对每一个关键词进行检测即可获取每一个关键词在待分类信息资源中的出现率；

可理解的是，出现率包括频次信息，密度信息等。

140、根据所述出现率，结合预设类目数据结构，对所述至少一个关键词进行分类，获取所述一级类目所属的下级类目。

需要说明的是，预设类目数据结构包括数据结构的层数，因此对关键词分类后即可获取每层包括哪些关键词。

综上所述，本发明基于聚类分析对信息资源进行分类，以根据预构建的数据结构，生成预设一级类目的下级类目，具有简单高效的优点。

本实施例中，在步骤140之前，该方法还包括：

构建预设层数的数据结构；

本发明基于关键词的出现率进行分类，因此，构建的类目数据结构将基于出现率范围分别将关键词分配至每一层；

需要说明的是，定义资源层级距离：dis_ij(k)＝f_k(O_ikO_jk)，定义资源距离：dis_ij＝f(dis_ij(1),dis_ij(2),dis_ij(3))

其中i、j为资源，O_ik、O_jk分别为资源i、j的k级属性集。

为了突出各层级的简单化、易用性和灵活性的特点。不同层级将使用不同的距离算法，包括：

曼哈顿距离：

切比雪夫距离：dis_ij(O_iO_j)＝max_k(O_ik-O_jk)

皮尔森相似度：

进一步地，对于资源距离，为了平衡各层级不同距离算法所产生的数值差异，采用加权的欧式距离：

其中，S_k为层级权重。

可理解的是，类目数据结构的第一层为多个一级类目，例如：体育；类目数据结构的第二层为体育所属的多个二级类目，例如：专项有足球、篮球、排球、乒乓球、羽毛球、网球、田径、游泳等等；专题有奥运会、世界杯、锦标赛、全运会、大运会等等；类目数据结构的第三层为体育所属的多个三级类目，例如：赛事、运动员、器材、供应商、赞助商等等。

然后基于各层数据结构对应的出现率范围和关键词的出现率，判断各关键词所属的数据结构的层数。

其中，类目数据结构包括二级类目数据结构和三级类目数据结构；

二级类目数据结构即为第二层数据结构，三级类目数据结构即为第三次数据结构；

相应地，根据各层数据结构对应的出现率范围和关键词的出现率，判断各关键词所属的数据结构的层数的步骤具体包括：

若否，则将所述关键词分配至三级类目数据结构。

可理解的是，若二级类目数据结构对应的出现率范围为：50-100；三级类目数据结构对应的出现率范围为：1-50；那么若某一关键词的出现率为60，则将其归为二级类目数据结构。

需要说明的是，此处出现率的范围并一定是以频次为标准，也可以是在信息资源中占用的百分比为准，等等其他能表明关键词在信息资源中比重的方式即可。

在一可行实施例中，步骤120还包括：采用网格聚类分析和/或密度聚类分析对所述待分类信息资源进行聚类分析处理。

需要说明的是，本发明基于密度聚类分析方法和或网格聚类分析方法，对待分类信息资源进行聚类分析处理，以提高分类的精度和效率；

另外，为了优化聚类分析模型，本发明还根据聚类的结果作为反馈信息对采用密度聚类分析方法和或网格聚类分析方法的聚类分析模型中的参数进行改进，以防止聚类出的关键词过少或者过多，亦或者是分布不均的问题。

图2为本发明另一实施例提供的信息资源分类方法的流程示意图，下面参照图2对本发明的分类原理进行详细说明：

所述方法包括：

1、构建一个三级类目的分类的数据结构，包括三层，第一层为一级类目，第二级为二级类目，第三级为三级类目；

可理解的是，构建的数据结构的层数可视情况而定。

2、获取互联网的数据(信息资源)，对获取的数据(信息资源)进行属性标签化处理，并把数据(信息资源)的属性保持到数据库中；

此处的属性标签化处理，即为将数据聚类为一个个的关键词。

3、通过聚类分析的算法，对互联网数据(信息资源)的属性集进行聚类分析；验证聚类分析的结果，优化和调整聚类算法的参数，得到一个最优的聚类分析结果。

4、把最终的分析结果保存在数据库中，这个结果就是碎片化信息资源的分类。

举例说明：

需要建立“一级类目”是“体育”(标题)、二级类目是“专项/专题”(事物)、三级类目是“内容”的信息资源分类。获取互联网数据(信息)和属性,对获取数据的属性集合进行聚类分析，并优化分析模型的参数，得到最优的结果集，保存这个结果集。

这个结果集是这样的形式：

一级类目：体育

二级类目：专项有足球、篮球、排球、乒乓球、羽毛球、网球、田径、游泳等等；专题有奥运会、世界杯、锦标赛、全运会、大运会等等；

三级类目：赛事、运动员、器材、供应商、赞助商等等。

图3为本发明一实施例提供的信息资源分类方法中信息资源属性的示意图，参照图3，其中d1-1第一个一级类目，d1-2为第二个一级类目，d2-1为第一个一级类目的第一个二级类目，d2-2为第一个一级类目的第二个二级类目；

本发明中的方法是类目划分为三级，类目即是动态的，又是相对稳定的；类目的级别越高，稳定性应越强，一级类目是信息域的框架，稳定性最高。除考虑信息域的完整性外，还要考虑互联网上某种信息的重要性与应用需求；聚类的标准不是传统分类法，而是釆用将主题、事物、内容结合起来，以主题、事物、内容为主的聚类方法，类目的层次越高知识属性越强；层次越低，事物属性越强。

图4为本发明一实施例提供的信息资源分类方法的三级类目的立方体图，参照图4，其中，矩阵中d1-x为第x个一级类目，d2-y为第y个一级类目，d3-z为第z个三级类目；

对每一个互联网的数据(信息)资源定义三级属性：

一级属性对应着标题；二级属性对应着事物；三级属性对应着内容。通过属性对资源的特性进行描述：如图4；

其中，每一个属性矩阵可以完整的描述一个(或一类)数据资源的特性，通过对属性的聚类分析分别产生资源分类的类目。

在另一可行实施例中，本发明还可以预定义一级类目和二级类目，仅仅对三级类目以及三级类目以下的类目进行聚类分析，以进一步地提高聚类的效率。

综上所述，本发明通过对一级类目的预定义，即保持知识域的相对完整和一级类目的稳定，又减少了大量的聚类运算，方法简单。易用性：密度加网格的聚类分析方法保证了二级类目的易用性；灵活性：密度加网格的聚类分析方法保证了三级类目的灵活性

对于方法实施方式，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施方式并不受所描述的动作顺序的限制，因为依据本发明实施方式，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施方式均属于优选实施方式，所涉及的动作并不一定是本发明实施方式所必须的。

图5为本发明一实施例提供的信息资源分类系统的结构示意图，参照图5，该系统，包括：

510、第一获取模块，用于获取与预设一级类目的标题对应的待分类信息资源；

520、聚类模块，用于对所述待分类信息资源进行聚类分析处理，获取至少一个关键词以及分别与所述至少一个关键词关联的数据；

530、第二获取模块，用于分别获取所述至少一个关键词在所述待分类信息资源中的出现率；

540、分类模块，用于根据所述出现率，结合预设类目数据结构，对所述至少一个关键词进行分类，获取所述一级类目所属的下级类目。

在一可行实施例中，该系统还包括：生成模块；

生成模块，用于在所述根据所述出现率，结合预设类目数据结构，对所述至少一个关键词进行分类之前，构建预设层数的数据结构；分别对各层数据结构设置不同的出现率范围，生成类目数据结构。

本实施例中，所述分类模块，具体用于根据各层数据结构对应的出现率范围和关键词的出现率，判断各关键词所属的数据结构的层数。

在一可行实施例中，所述类目数据结构包括二级类目数据结构和三级类目数据结构；

若否，则将所述关键词分配至三级类目数据结构。

在一可行实施例中，所述聚类模块，还用于采用网格聚类分析和/或密度聚类分析对所述待分类信息资源进行聚类分析处理。

对于装置实施方式而言，由于其与方法实施方式基本相似，所以描述的比较简单，相关之处参见方法实施方式的部分说明即可。

应当注意的是，在本发明的装置的各个部件中，根据其要实现的功能而对其中的部件进行了逻辑划分，但是，本发明不受限于此，可以根据需要对各个部件进行重新划分或者组合。

本发明的各个部件实施方式可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本装置中，PC通过实现因特网对设备或者装置远程控制，精准的控制设备或者装置每个操作的步骤。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样实现本发明的程序可以存储在计算机可读介质上，并且程序产生的文件或文档具有可统计性，产生数据报告和cpk报告等，能对功放进行批量测试并统计。应该注意的是上述实施方式对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施方式。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种信息资源分类方法，其特征在于，包括：

获取与预设一级类目的标题对应的待分类信息资源；

2.根据权利要求1所述的方法，其特征在于，在所述根据所述出现率，结合预设类目数据结构，对所述至少一个关键词进行分类的步骤之前，该方法还包括：

构建预设层数的数据结构；

3.根据权利要求2所述的方法，其特征在于，所述根据所述出现率，结合预设类目数据结构，对所述至少一个关键词进行分类的步骤具体包括：

4.根据权利要求3所述的方法，其特征在于，所述类目数据结构还包括二级类目数据结构和三级类目数据结构；

若否，则将所述关键词分配至三级类目数据结构。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述对所述待分类信息资源进行聚类分析处理的步骤具体包括：

6.一种信息资源分类系统，其特征在于，包括：

7.根据权利要求6所述的系统，其特征在于，该系统还包括：生成模块；

8.根据权利要求7所述的系统，其特征在于，所述分类模块，具体用于根据各层数据结构对应的出现率范围和关键词的出现率，判断各关键词所属的数据结构的层数。

9.根据权利要求8所述的系统，其特征在于，所述类目数据结构包括二级类目数据结构和三级类目数据结构；

若否，则将所述关键词分配至三级类目数据结构。

10.根据权利要求6-9所述的系统，其特征在于，所述聚类模块，还用于采用网格聚类分析和/或密度聚类分析对所述待分类信息资源进行聚类分析处理。