CN106033444B

CN106033444B - 文本内容的聚类方法和装置

Info

Publication number: CN106033444B
Application number: CN201510114584.XA
Authority: CN
Inventors: 陈俊宏; 余德乐; 杨韬; 赵冬玲
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2015-03-16
Filing date: 2015-03-16
Publication date: 2019-12-10
Anticipated expiration: 2035-03-16
Also published as: CN106033444A

Abstract

本发明公开了一种文本内容的聚类方法和装置。其中，文本内容的聚类方法包括：获取第一文本内容中包含的第一标签和第二文本内容中包含的第二标签；根据第一标签和第二标签，计算得到多个第一关联度；判断多个第一关联度是否均大于每个第一关联度对应的预设阈值；在判断出多个第一关联度均大于每个第一关联度对应的预设阈值的情况下，确定第一文本内容和第二文本内容的归属类别相同；在判断出多个第一关联度中任一第一关联度AA小于第一关联度AA对应的预设阈值的情况下，确定第一文本内容和第二文本内容的归属类别不同。通过本发明，解决了现有技术中对文本内容聚类不够准确的问题，进而达到了提高文本内容聚类准确性的效果。

Description

文本内容的聚类方法和装置

技术领域

本发明涉及文本处理领域，具体而言，涉及一种文本内容的聚类方法和装置。

背景技术

现在的众多舆情监测报系统在对互联网的内容进行数据分析之前，会通过设置网络爬虫抓取到互联网上大量的文章(也可以称为文本)，进而可以对爬取到的文章进行数据分析。为了提高对抓取到的文章进行数据分析的效率和准确性，需要先对抓取到的文章进行聚类，也就是将内容相似的文章归为一类。

现有技术中对文章进行聚类的方式是通过分析不同文章中文本字符的相似度，从而得出文章之间的相似度，进而确定文章之间的关联性，再根据关联性对文章进行聚类。例如：文章A中反复出现了10次“美丽”和8次“虚拟现实”；文章B中反复出现了10次“美丽”；文章C中反复出现了8次“虚拟现实”。按照现有技术对文章进行聚类的逻辑分析得出：文章A与文章B之间的关联性大于文章A与文章C之间，所以将文章A与文章B归为一类，但其实文章A与文章C应该被归为一类，因为文章A与文章C之间关于“虚拟现实”的关联性对于文章聚类更加重要，即，文章A与文章C可能都是在讲解关于虚拟现实技术的一些应用问题，而文章B却可能仅仅是一篇旅游日志。通过上述内容可知，现有技术中对文章聚类的聚类方式不够准确，若不能准确对文章进行聚类，会导致舆情监测系统后续基于聚类后的文章进行数据分析的分析结果有误。

针对现有技术中对文本内容聚类不够准确的问题，目前尚未提出有效的解决方案。

发明内容

本发明的主要目的在于提供一种文本内容的聚类方法和装置，以解决现有技术中对文本内容聚类不够准确的问题。

为了实现上述目的，根据本发明实施例的一个方面，提供了一种文本内容的聚类方法。

根据本发明的文本内容的聚类方法包括：获取第一文本内容中包含的第一标签和第二文本内容中包含的第二标签，其中，所述第一文本内容为第一网页页面的文本内容，所述第二文本内容为第二网页页面的文本内容，所述第一标签为所述第一文本内容中包含的标签，所述第二标签为所述第二文本内容中包含的标签，所述第一网页页面和所述第二网页页面为不同的网页页面；根据所述第一标签和所述第二标签，计算得到多个第一关联度；判断多个所述第一关联度是否均大于每个所述第一关联度对应的预设阈值；在判断出多个所述第一关联度均大于每个所述第一关联度对应的预设阈值的情况下，确定所述第一文本内容和所述第二文本内容的归属类别相同；以及在判断出多个所述第一关联度中任一第一关联度AA小于所述第一关联度AA对应的预设阈值的情况下，确定所述第一文本内容和所述第二文本内容的归属类别不同。

进一步地，多个所述第一关联度包括：总相似关联度、每个目标标签的出现频次关联度和目标标签数关联度，其中，根据所述第一标签和所述第二标签，计算得到多个第一关联度包括：计算所述第一文本内容中包含所述第一标签的数量；计算所述第二文本内容中包含所述第二标签的数量；计算目标标签的数量和每个所述目标标签的目标出现频次，其中，所述目标出现频次包括第一目标出现频次和第二目标出现频次，所述第一目标出现频次为所述目标标签在所述第一文本内容中的出现频次，所述第二目标出现频次为所述目标标签在所述第二文本内容中的出现频次，所述目标标签为所述第一标签与所述第二标签中相同的标签；根据所述第一标签的数量、所述第二标签的数量、所述目标标签的数量以及每个所述目标标签的所述目标出现频次，计算得到所述总相似关联度；根据每个所述目标标签的所述目标出现频次，计算得到每个所述目标标签的出现频次关联度；以及根据所述目标标签的数量，计算得到所述目标标签数关联度。

进一步地，按照公式计算所述总相似关联度，其中，A为所述总相似关联度，V3为所述目标标签的数量，V1为所述第一标签的数量，V2为所述第二标签的数量，P₁D_k为目标标签D_k的第一目标出现频次，P₂D_k为目标标签D_k的第二目标出现频次；按照公式B(D_k)＝P₁D_k*P₂D_k计算所述目标标签D_k的出现频次关联度，其中，B(D_k)为所述目标标签D_k的出现频次关联度；以及按照公式C＝V3计算所述目标标签数关联度，其中，C为所述目标标签数关联度。

进一步地，所述预设阈值包括第一预设阈值、第二预设阈值和第三预设阈值，其中，判断多个所述第一关联度是否均大于每个所述第一关联度对应的预设阈值包括:判断所述总相似关联度是否大于所述第一预设阈值、判断每个所述目标标签的出现频次关联度是否均大于所述第二预设阈值，以及所述目标标签数关联度是否大于第三预设阈值；在判断出多个所述第一关联度均大于每个所述第一关联度对应的预设阈值的情况下，确定所述第一文本内容和所述第二文本内容的归属类别相同包括：在判断出所述总相似关联度大于所述第一预设阈值、每个所述目标标签的出现频次关联度均大于所述第二预设阈值，并且所述目标标签数关联度大于所述第三预设阈值的情况下，确定所述第一文本内容和所述第二文本内容的所述归属类别相同；在判断出多个所述第一关联度中任一所述第一关联度AA小于所述第一关联度AA对应的预设阈值的情况下，确定所述第一文本内容和所述第二文本内容的归属类别不同包括：在判断出所述总相似关联度小于所述第一预设阈值、任一所述目标标签的出现频次关联度小于所述第二预设阈值、或者所述目标标签数关联度小于所述第三预设阈值的情况下，确定所述第一文本内容和所述第二文本内容的所述归属类别不同。

进一步地，在获取第一文本内容中包含的第一标签和第二文本内容中包含的第二标签之前，所述聚类方法还包括：接收设置指令，其中，所述设置指令用于生成标签库，所述标签库中存储多个标签，以及与每个所述标签包含的至少一个关联词。

进一步地，获取第一文本内容中包含的第一标签和所述第二文本内容中包含的第二标签包括：将所述第一文本内容与所述标签库进行匹配，得到多个第一关联词，其中，所述第一关联词为所述第一文本内容中包含的关联词；查找包含每个所述第一关联词的标签，得到多个不同的所述第一标签；根据每个所述第一标签中包含的所述第一关联词在所述第一文本内容中的出现频次，得到每个所述第一标签在所述第一文本内容中的出现频次；将所述第二文本内容与所述标签库进行匹配，得到多个第二关联词，其中，所述第二关联词为所述第二文本内容中包含的关联词；查找包含每个所述第二关联词的标签，得到多个不同的所述第二标签；以及根据每个所述第二标签中包含的所述第二关联词在所述第二文本内容中的出现频次，得到每个所述第二标签在所述第二文本内容中的出现频次。

进一步地，在确定所述第一文本内容和所述第二文本内容的归属类别相同之后，或者在确定所述第一文本内容和所述第二文本内容的归属类别不同之后，所述聚类方法还包括:获取第三文本内容中包含的第三标签，其中，所述第三文本内容为第三网页页面的文本内容，所述第三标签为所述第三文本内容中包含的标签，所述第一网页页面、所述第二网页页面和所述第三网页页面均为不同的网页页面；根据所述第一标签和所述第三标签，计算得到多个第二关联度；判断多个所述第二关联度是否均大于每个所述第二关联度对应的预设阈值；在判断出多个所述第二关联度均大于每个所述第二关联度对应的预设阈值的情况下，确定所述第一文本内容和所述第三文本内容的归属类别相同；在判断出多个所述第二关联度中任一第二关联度BB小于所述第二关联度BB对应的预设阈值的情况下，确定所述第一文本内容和所述第三文本内容的归属类别不同；根据所述第二标签和所述第三标签，计算得到多个第三关联度；判断多个所述第三关联度是否均大于每个所述第三关联度对应的预设阈值；在判断出多个所述第三关联度均大于每个所述第三关联度对应的预设阈值的情况下，确定所述第二文本内容和所述第三文本内容的归属类别相同；以及在判断出多个所述第三关联度中任一第三关联度CC小于所述第三关联度CC对应的预设阈值的情况下，确定所述第二文本内容和所述第三文本内容的归属类别不同，其中，在确定所述第一文本内容和所述第二文本内容的归属类别相同、所述第一文本内容和所述第三文本内容的归属类别相同、并且所述第二文本内容和所述第三文本内容的归属类别相同的情况下，确定所述第一文本内容、所述第二文本内容和所述第三文本内容的所述归属类别相同。

为了实现上述目的，根据本发明实施例的另一方面，提供了一种文本内容的聚类装置。

根据本发明的文本内容的聚类装置包括：第一获取单元，用于获取第一文本内容中包含的第一标签和第二文本内容中包含的第二标签，其中，所述第一文本内容为第一网页页面的文本内容，所述第二文本内容为第二网页页面的文本内容，所述第一标签为所述第一文本内容中包含的标签，所述第二标签为所述第二文本内容中包含的标签，所述第一网页页面和所述第二网页页面为不同的网页页面；第一计算单元，用于根据所述第一标签和所述第二标签，计算得到多个第一关联度；第一判断单元，用于判断多个所述第一关联度是否均大于每个所述第一关联度对应的预设阈值；以及第一确定单元，用于在判断出多个所述第一关联度均大于每个所述第一关联度对应的预设阈值的情况下，确定所述第一文本内容和所述第二文本内容的归属类别相同；在判断出多个所述第一关联度中任一第一关联度AA小于所述第一关联度AA对应的预设阈值的情况下，确定所述第一文本内容和所述第二文本内容的归属类别不同。

进一步地，多个所述第一关联度包括：总相似关联度、每个目标标签的出现频次关联度和目标标签数关联度，其中，所述第一计算单元包括：第一计算模块，用于计算所述第一文本内容中包含所述第一标签的数量；第二计算模块，用于计算所述第二文本内容中包含所述第二标签的数量；第三计算模块，用于计算目标标签的数量和每个所述目标标签的目标出现频次，其中，所述目标出现频次包括第一目标出现频次和第二目标出现频次，所述第一目标出现频次为所述目标标签在所述第一文本内容中的出现频次，所述第二目标出现频次为所述目标标签在所述第二文本内容中的出现频次，所述目标标签为所述第一标签与所述第二标签中相同的标签；第四计算模块，用于根据所述第一标签的数量、所述第二标签的数量、所述目标标签的数量以及每个所述目标标签的所述目标出现频次，计算得到所述总相似关联度；第五计算模块，用于根据每个所述目标标签的所述目标出现频次，计算得到每个所述目标标签的出现频次关联度；以及第六计算模块，用于根据所述目标标签的数量，计算得到所述目标标签数关联度。

进一步地，所述第四计算模块包括第一计算子模块，用于按照公式计算所述总相似关联度，其中，A为所述总相似关联度，V3为所述目标标签的数量，V1为所述第一标签的数量，V2为所述第二标签的数量，P₁D_k为目标标签D_k的第一目标出现频次，P₂D_k为目标标签D_k的第二目标出现频次；所述第五计算模块包括第二计算子模块，用于按照公式B(D_k)＝P₁D_k*P₂D_k计算所述目标标签D_k的出现频次关联度，其中，B(D_k)为所述目标标签D_k的出现频次关联度；以及所述第六计算模块包括第三计算子模块，用于按照公式C＝V3计算所述目标标签数关联度，其中，C为所述目标标签数关联度。

进一步地，所述预设阈值包括第一预设阈值、第二预设阈值和第三预设阈值，其中，所述第一判断单元包括：判断模块，用于判断所述总相似关联度是否大于所述第一预设阈值、判断每个所述目标标签的出现频次关联度是否均大于所述第二预设阈值，以及判断所述目标标签数关联度是否大于第三预设阈值；所述第一确定单元包括：确定模块，用于在判断出所述总相似关联度大于所述第一预设阈值、每个所述目标标签的出现频次关联度均大于所述第二预设阈值，并且所述目标标签数关联度大于所述第三预设阈值的情况下，确定所述第一文本内容和所述第二文本内容的所述归属类别相同；在判断出所述总相似关联度小于所述第一预设阈值、任一所述目标标签的出现频次关联度小于所述第二预设阈值、或者所述目标标签数关联度小于所述第三预设阈值的情况下，确定所述第一文本内容和所述第二文本内容的所述归属类别不同。

进一步地，所述聚类装置还包括：接收单元，用于在获取第一文本内容中包含的第一标签和第二文本内容中包含的第二标签之前，接收设置指令，其中，所述设置指令用于生成标签库，所述标签库中存储多个标签，以及与每个所述标签包含的至少一个关联词。

进一步地，所述第一获取单元包括：第一匹配模块，用于将所述第一文本内容与所述标签库进行匹配，得到多个第一关联词，其中，所述第一关联词为所述第一文本内容中包含的关联词；第一查找模块，用于查找包含每个所述第一关联词的标签，得到多个不同的所述第一标签；第七计算模块，用于根据每个所述第一标签中包含的所述第一关联词在所述第一文本内容中的出现频次，得到每个所述第一标签在所述第一文本内容中的出现频次；第二匹配模块，用于将所述第二文本内容与所述标签库进行匹配，得到多个第二关联词，其中，所述第二关联词为所述第二文本内容中包含的关联词；第二查找模块，用于查找包含每个所述第二关联词的标签，得到多个不同的所述第二标签；以及第八计算模块，用于根据每个所述第二标签中包含的所述第二关联词在所述第二文本内容中的出现频次，得到每个所述第二标签在所述第二文本内容中的出现频次。

进一步地，所述聚类装置还包括：第二获取单元，用于在确定所述第一文本内容和所述第二文本内容的归属类别相同之后，或者在确定所述第一文本内容和所述第二文本内容的归属类别不同之后，获取第三文本内容中包含的第三标签，其中，所述第三文本内容为第三网页页面的文本内容，所述第三标签为所述第三文本内容中包含的标签，所述第一网页页面、所述第二网页页面和所述第三网页页面均为不同的网页页面；第二计算单元，用于根据所述第一标签和所述第三标签，计算得到多个第二关联度；第二判断单元，用于判断多个所述第二关联度是否均大于每个所述第二关联度对应的预设阈值；第二确定单元，用于在判断出多个所述第二关联度均大于每个所述第二关联度对应的预设阈值的情况下，确定所述第一文本内容和所述第三文本内容的归属类别相同；在判断出多个所述第二关联度中任一第二关联度BB小于所述第二关联度BB对应的预设阈值的情况下，确定所述第一文本内容和所述第三文本内容的归属类别不同；第三计算单元，用于根据所述第二标签和所述第三标签，计算得到多个第三关联度；第三判断单元，用于判断多个所述第三关联度是否均大于每个所述第三关联度对应的预设阈值；以及第三确定单元，用于在判断出多个所述第三关联度均大于每个所述第三关联度对应的预设阈值的情况下，确定所述第二文本内容和所述第三文本内容的归属类别相同；在判断出多个所述第三关联度中任一第三关联度CC小于所述第三关联度CC对应的预设阈值的情况下，确定所述第二文本内容和所述第三文本内容的归属类别不同，其中，在确定所述第一文本内容和所述第二文本内容的归属类别相同、所述第一文本内容和所述第三文本内容的归属类别相同、并且所述第二文本内容和所述第三文本内容的归属类别相同的情况下，确定所述第一文本内容、所述第二文本内容和所述第三文本内容的所述归属类别相同。

根据发明实施例，采用获取第一文本内容中包含的第一标签和第二文本内容中包含的第二标签，其中，所述第一文本内容为第一网页页面的文本内容，所述第二文本内容为第二网页页面的文本内容，所述第一标签为所述第一文本内容中包含的标签，所述第二标签为所述第二文本内容中包含的标签，所述第一网页页面和所述第二网页页面为不同的网页页面；根据所述第一标签和所述第二标签，计算得到多个第一关联度；判断多个所述第一关联度是否均大于每个所述第一关联度对应的预设阈值；在判断出多个所述第一关联度均大于每个所述第一关联度对应的预设阈值的情况下，确定所述第一文本内容和所述第二文本内容的归属类别相同；以及在判断出多个所述第一关联度中任一第一关联度AA小于所述第一关联度AA对应的预设阈值的情况下，确定所述第一文本内容和所述第二文本内容的归属类别不同。通过分别获取第一文本内容中的第一标签和第二文本内容中的第二标签，进而根据第一标签和第二标签计算两个文本内容之间的多个关联度，再根据判断出的多个关联度中每个关联度与其对应的预设阈值的大小关系，确定两个文本内容是否归属于同一个归属类别，进而可以将属于相同归属类别的文本内容划分到其对应的归属类别中。此种基于标签对文本内容进行聚类的聚类方式实现了只根据两个文本内容中包含的标签就可以确定两个文本内容之间的相关性，相比较于现有技术中对文本内容进行聚类的聚类方式，忽略了文本格式和文字内容之间的关联性对文本内容聚类的影响，解决了现有技术中对文本内容聚类不够准确的问题，进而达到了提高文本内容聚类准确性的效果。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的文本内容的聚类方法的流程图；

图2是根据本发明优选实施例的文本内容的聚类方法的流程图；以及

图3是根据本发明实施例的文本内容的聚类装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种可以用于实施本申请装置实施例的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本发明实施例，提供了一种文本内容的聚类方法。图1是根据本发明实施例的文本内容的聚类方法的流程图，如图1所示，该方法包括如下的步骤S102至步骤S110：

S102：获取第一文本内容中包含的第一标签和第二文本内容中包含的第二标签，其中，第一文本内容为第一网页页面的文本内容，第二文本内容为第二网页页面的文本内容，第一标签为第一文本内容中包含的标签，第二标签为第二文本内容中包含的标签，第一网页页面和第二网页页面为不同的网页页面。本步骤具体为：对第一网页页面上的文本内容中包含的标签进行获取，获取到的标签即为第一标签；对第二网页页面上的文本内容中包含的标签进行获取，获取到的标签即为第二标签。

S104：根据第一标签和第二标签，计算得到多个第一关联度。在本发明实施例中，多个第一关联度用于表征第一文本内容和第二文本内容之间的关联度，以及第一标签和第二标签之间的关联度，第一关联度也可以称为相关度，第一关联度越高，说明第一文本内容和第二文本内容中的内容越相近。

S106：判断多个第一关联度是否均大于每个第一关联度对应的预设阈值。具体地，每个第一关联度都有与该第一关联度相对应的预设阈值，第一关联度的数量与预设阈值的数量相等，其中，每个第一关联度所对应的预设阈值的大小可以根据需求设置。本步骤也就是，判断每个第一关联度与其对应的预设阈值的大小关系。

S108：在判断出多个第一关联度均大于每个第一关联度对应的预设阈值的情况下，确定第一文本内容和第二文本内容的归属类别相同，也就是，每个第一关联度都大于其所对应的预设阈值的情况下，得到两个文本内容(即，第一文本内容和第二文本内容)属于同一个归属类别的结果。

S110：在判断出多个第一关联度中任一第一关联度AA小于第一关联度AA对应的预设阈值的情况下，确定第一文本内容和第二文本内容的归属类别不同，也就是，多个第一关联度中只要有一个第一关联度小于该第一关联度所对应的预设阈值的情况下，得到两个文本内容(即，第一文本内容和第二文本内容)不属于同一个归属类别的结果。

在本发明实施例中，通过分别获取第一文本内容中的第一标签和第二文本内容中的第二标签，进而根据第一标签和第二标签计算两个文本内容之间的多个关联度，再根据判断出的多个关联度中每个关联度与其对应的预设阈值的大小关系，确定两个文本内容是否归属于同一个归属类别，进而可以将属于相同归属类别的文本内容划分到其对应的归属类别中。此种基于标签对文本内容进行聚类的聚类方式实现了只根据两个文本内容中包含的标签就可以确定两个文本内容之间的相关性，相比较于现有技术中对文本内容进行聚类的聚类方式，忽略了文本格式和文字内容之间的关联性对文本内容聚类的影响，解决了现有技术中对文本内容聚类不够准确的问题，进而达到了提高文本内容聚类准确性的效果。

具体地，在本发明实施例中，多个第一关联度的数量为3，具体为总相似关联度、每个目标标签的出现频次关联度和目标标签数关联度，此时，可以通过步骤1-1至步骤1-6根据第一标签和第二标签，计算得到多个第一关联度(即，总相似关联度、每个目标标签的出现频次关联度和目标标签数关联度)，步骤1-1至步骤1-6具体为：

步骤1-1：计算第一文本内容中包含第一标签的数量。例如：第一文本内容中包含标签a、标签b、标签c、标签d和标签e，那么第一文本内容中包含的第一标签的数量为5。

步骤1-2：计算第二文本内容中包含第二标签的数量。例如：第二文本内容中包含标签a、标签c和标签d，那么第二文本内容中包含的第二标签的数量为3。

步骤1-3：计算目标标签的数量和每个目标标签的目标出现频次，其中，目标出现频次包括第一目标出现频次和第二目标出现频次，第一目标出现频次为目标标签在第一文本内容中的出现频次，第二目标出现频次为目标标签在第二文本内容中的出现频次，目标标签为第一标签与第二标签中相同的标签，本步骤也就是计算第一文本内容和第二文本内容中相同标签的数量，以及每个相同标签分别在第一文本内容和第二文本内容中的出现频次。继续采用上述举例进行说明，假设，第一文本内容中包含标签a、标签b、标签c、标签d和标签e在第一文本内容中的出现频次依次是：12、2、1、3和4，第二文本内容中包含标签a、标签c和标签d在第二文本内容中的出现频次依次是11、5和1，那么目标标签的数量为3，分别是目标标签a、目标标签c和目标标签d，其中，目标标签a的第一目标出现频次为12，第二目标出现频次为11，目标标签c的第一目标出现频次为1，第二目标出现频次为5，目标标签d的第一目标出现频次为3，第二目标出现频次为1。

步骤1-4：根据第一标签的数量、第二标签的数量、目标标签的数量以及每个目标标签的目标出现频次，计算得到总相似关联度。

具体地，可以按照公式计算总相似关联度，其中，A为总相似关联度，V3为目标标签的数量，V1为第一标签的数量，V2为第二标签的数量，P₁D_k为目标标签D_k的第一目标出现频次，P₂D_k为目标标签D_k的第二目标出现频次。仍旧采用上述举例进行说明，那么总相似关联度A＝(12*11+1*5+3*1)*3/5*3/3。

步骤1-5：根据每个目标标签的目标出现频次，计算得到每个目标标签的出现频次关联度。

具体地，按照公式B(D_k)＝P₁D_k*P₂D_k计算目标标签D_k的出现频次关联度，其中，B(D_k)为目标标签D_k的出现频次关联度。仍旧采用之前步骤中的举例进行说明，那么目标标签a的出现频次关联度＝12*11＝132，目标标签c的出现频次关联度＝1*5＝5，目标标签d的出现频次关联度＝3*1＝3。

步骤1-6：根据目标标签的数量，计算得到目标标签数关联度。

具体地，按照公式C＝V3计算目标标签数关联度，其中，C为目标标签数关联度。仍旧采用之前步骤中的举例进行说明，目标标签数关联度C＝3。

具体地，在本发明实施例中，预设阈值包括第一预设阈值、第二预设阈值和第三预设阈值，其中，

判断多个第一关联度是否均大于每个第一关联度对应的预设阈值则为判断总相似关联度是否大于第一预设阈值、判断每个目标标签的出现频次关联度是否均大于第二预设阈值，以及判断目标标签数关联度是否大于第三预设阈值。

在判断出多个第一关联度均大于每个第一关联度对应的预设阈值的情况下，确定第一文本内容和第二文本内容的归属类别相同具体为在判断出总相似关联度大于第一预设阈值、每个目标标签的出现频次关联度均大于第二预设阈值，并且目标标签数关联度大于第三预设阈值的情况下，确定第一文本内容和第二文本内容的归属类别相同。

在判断出多个第一关联度中任一第一关联度AA小于第一关联度AA对应的预设阈值的情况下，确定第一文本内容和第二文本内容的归属类别不同具体为：在判断出总相似关联度小于第一预设阈值、任一目标标签的出现频次关联度小于第二预设阈值、或者目标标签数关联度小于第三预设阈值的情况下，确定第一文本内容和第二文本内容的归属类别不同。

在本发明实施例中，只有满足相同标签之间的总关联度(也就是总相似关联度)大于总相似关联度对应的预设阈值、每个相同标签的关联度(也就是每个目标标签的出现频次关联度)均大于目标标签的出现频次关联度对应的预设阈值，并且相同标签的数量(也就是目标标签数关联度)也大于目标标签数关联度对应的预设阈值的情况下，才确定两个文本内容的归属类别相同，达到了进一步提高文本内容聚类准确性的效果。

可选地，在获取第一文本内容中包含的第一标签和第二文本内容中包含的第二标签之前，本发明实施例所提供的文本内容的聚类方法还包括：接收设置指令，其中，设置指令用于生成标签库，标签库中存储多个标签，以及与每个标签包含的至少一个关联词。具体地，组成标签库的标签以及每个标签所包含的关联词可以根据需求设置，设置指令可以通过键盘等设备输入。需要说明的是，同一关联词只能被一个标签所包含。例如：标签库中可以包括标签“大数据”和标签“金融”，其中，标签“大数据”中可以包含4个关联词，分别是“big data”、“数据流处理”、“数据价值”和“数据应用”；标签“金融”可以包含3个关联词，分别是“华尔街”、“彭博商业”和“纳斯达克”。

在本发明实施例中，通过设置标签库，限定了是基于标签库中的关联词来获取文本内容中包含的标签，进而可以根据用户需求，也就是只根据包含关联词的标签计算多个关联度，达到了提高文本内容聚类准确性的效果。

优选地，可以通过步骤2-1至步骤2-6获取到第一文本内容中包含的第一标签和第二文本内容中包含的第二标签，步骤2-1至步骤2-6具体如下：

步骤2-1：将第一文本内容与标签库进行匹配，得到多个第一关联词，其中，第一关联词为第一文本内容中包含的关联词，本步骤具体为，参照标签库中存储的标签和每个标签包含的关联词，查找第一文本内容中与标签库中的关联词相同的词语，查找到的词语即为第一关联词。

步骤2-2：查找包含每个第一关联词的标签，得到多个不同的第一标签，也就是查找在第一文本内容中每个第一关联词所属的标签，将查找到的多个标签中相同的标签去重后得到的标签即为第一标签。例如：第一文本内容中包含的多个第一关联词分别为数据价值、数据应用、华尔街和纳斯达克，根据上述举例可知，数据价值和数据应用都属于标签“大数据”，华尔街和纳斯达克都属于标签“金融”，那么第一文本内容得到的第一标签有两个，分别是“大数据”和“金融”。

步骤2-3：根据每个第一标签中包含的第一关联词在第一文本内容中的出现频次，得到每个第一标签在第一文本内容中的出现频次，具体地，每个第一标签在第一文本内容中的出现频次等于其所包含的每个第一关联词在第一文本内容中的出现频次之和。继续采用步骤2-2中的举例进行说明，假设第一关联词“数据价值”在第一文本内容中的出现频次为5，第一关联词“数据应用”在第一文本内容中的出现频次为4，那么，第一标签“大数据”在第一文本内容中的出现频次为5+4＝9。

步骤2-4：将第二文本内容与标签库进行匹配，得到多个第二关联词，其中，第二关联词为第二文本内容中包含的关联词，本步骤具体为，参照标签库中存储的标签和每个标签包含的关联词，查找第二文本内容中与标签库中的关联词相同的词语，查找到的词语即为第二关联词。

步骤2-5：查找包含每个第二关联词的标签，得到多个不同的第二标签，也就是查找在第二文本内容中第二关联词所属的标签，将查找到的多个标签中相同的标签去重后得到的标签即为第二标签。例如：第二文本内容中包含的多个第二关联词分别为数据价值、数据流处理、big data、华尔街和彭博商业，根据上述举例可知，数据价值、数据流处理和bigdata都属于标签“大数据”，华尔街和彭博商业都属于标签“金融”，那么第二文本内容得到的第二标签有两个，分别是“大数据”和“金融”。

步骤2-6：根据每个第二标签中包含的第二关联词在第二文本内容中的出现频次，得到每个第二标签在第二文本内容中的出现频次，具体地，每个第二标签在第二文本内容中的出现频次等于其所包含的每个第二关联词在第二文本内容中的出现频次之和。继续采用步骤2-5中的举例进行说明，假设第二关联词“数据价值”在第二文本内容中的出现频次为4，第二关联词“数据流处理”在第二文本内容中的出现频次为8，第二关联词“big data”在第二文本内容中的出现频次为8，那么，第二标签“大数据”在第二文本内容中的出现频次为4+8+8＝20。

在本发明实施例中，通过将文本内容与标签库进行匹配，限定了计算多个关联性的数据来源，避免了根据两个文本内容中都多次重复出现，但却不应被用来做文本内容聚类判断依据的词语来确定两个文本内容之间的关联性，导致影响文本内容聚类准确性的问题。

可选地，在确定第一文本内容和第二文本内容的归属类别相同之后，或者在确定第一文本内容和第二文本内容的归属类别不同之后，本发明实施例所提供的文本内容的聚类方法还包括：

获取第三文本内容中包含的第三标签，其中，第三文本内容为第三网页页面的文本内容，第三标签为第三文本内容中包含的标签，第一网页页面、第二网页页面和第三网页页面均为不同的网页页面。在本发明实施例中，第三标签的获取方式与上述实施例中第一标签或者第二标签的获取方式相同，在此不再重复说明。

根据第一标签和第三标签，计算得到多个第二关联度。在本发明实施例中，多个第二关联度用于表征第一文本内容和第三文本内容之间的关联度，以及第一标签和第三标签之间的关联度，同样的，此处的第二关联度也可以称为相关度，第二关联度越高，说明第一文本内容和第三文本内容中的内容越相近。具体地，多个第二关联度的计算方式同多个第一关联度的计算方式相同，在此不再重复说明。

判断多个第二关联度是否均大于每个第二关联度对应的预设阈值。具体地，每个第二关联度都有与该第二关联度相对应的预设阈值，第二关联度的数量与预设阈值的数量相等。本发明实施例也就是判断每个第二关联度与其对应的预设阈值的大小关系。

在判断出多个第二关联度均大于每个第二关联度对应的预设阈值的情况下，确定第一文本内容和第三文本内容的归属类别相同，也就是，每个第二关联度都大于其所对应的预设阈值的情况下，得到两个文本内容(即，第一文本内容和第三文本内容)属于同一个归属类别的结果。

在判断出多个第二关联度中任一第二关联度BB小于第二关联度BB对应的预设阈值的情况下，确定第一文本内容和第三文本内容的归属类别不同，也就是，多个第二关联度中只要有一个第二关联度小于该第二关联度所对应的预设阈值的情况下，得到两个文本内容(即，第一文本内容和第三文本内容)不属于同一个归属类别的结果。

根据第二标签和第三标签，计算得到多个第三关联度。在本发明实施例中，多个第三关联度用于表征第二文本内容和第三文本内容之间的关联度，以及第二标签和第三标签之间的关联度，同样的，此处的第三关联度也可以称为相关度，第三关联度越高，说明第二文本内容和第三文本内容中的内容越相近。具体地，多个第三关联度的计算方式同多个第一关联度的计算方式相同，在此不再重复说明。

判断多个第三关联度是否均大于每个第三关联度对应的预设阈值，具体地，每个第三关联度都有与该第三关联度相对应的预设阈值，第三关联度的数量与预设阈值的数量相等。本发明实施例也就是判断每个第三关联度与其对应的预设阈值的大小关系。

在判断出多个第三关联度均大于每个第三关联度对应的预设阈值的情况下，确定第二文本内容和第三文本内容的归属类别相同，也就是，每个第三关联度都大于其所对应的预设阈值的情况下，得到两个文本内容(即，第二文本内容和第三文本内容)属于同一个归属类别的结果。并且，在确定第一文本内容和第二文本内容的归属类别相同、确定第一文本内容和第三文本内容的归属类别相同、并且确定第二文本内容和第三文本内容的归属类别相同的情况下，可以确定第一文本内容、第二文本内容和第三文本内容的归属类别相同。

在判断出多个第三关联度中任一第三关联度CC小于第三关联度CC对应的预设阈值的情况下，确定第二文本内容和第三文本内容的归属类别不同，也就是，多个第三关联度中只要有一个第三关联度小于该第二关联度所对应的预设阈值的情况下，得到两个文本内容(即，第二文本内容和第三文本内容)不属于同一个归属类别的结果。

在本发明实施例中，在判断出第一文本内容与第二文本内容的归属类别相同或者不同之后，若还有一个文本内容，即第三文本内容，也就是需要进行聚类的文本内容有三个，那么首先需要判断第一文本内容和第三文本内容的归属类别是否相同，具体为根据第一文本内容中包含的标签和第三文本内容中包含的标签，计算得到多个关联度(也就是第二关联度)，若多个第二关联度中每个第二关联度均大于该第二关联度对应的预设阈值，那么第一文本内容和第三文本内容的归属类别相同，若多个第二关联度中有一个第二关联度小于该关联度对应的预设阈值，那么第一文本内容和第三文本内容的归属类别不同。同样的，在判断出第一文本内容与第三文本内容的归属类别相同或者不同之后，还需要判断第二文本内容和第三文本内容的归属类别是否相同，具体为根据第二文本内容中包含的标签和第三文本内容中包含的标签，计算得到多个关联度(也就是第三关联度)，若多个第三关联度中每个第三关联度均大于该第三关联度对应的预设阈值，那么第二文本内容和第三文本内容的归属类别相同，若多个第三关联度中有一个第三关联度小于该关联度对应的预设阈值，那么第二文本内容和第三文本内容的归属类别不同，所以，对于只有三个文本内容进行聚类的情况下，当第一文本内容和第二文本内容的归属类别相同，第一文本内容和第三文本内容的归属类别相同，并且第二文本内容和第三文本内容的归属类别也相同的情况下，第一文本内容、第二文本内容和第三文本内容的归属类别均相同；当第一文本内容和第二文本内容的归属类别相同，第一文本内容和第三文本内容的归属类别相同，但是第二文本内容和第三文本内容的归属类别不同时，第一文本内容、第二文本内容和第三文本内容不共同归属于一个类别。

在本发明实施例中，当某个文本内容分别与其他几个文本内容的归属类别相同时，需要判断其他几个文本内容之间的归属类别是否两两之间都相同，只有在其他几个文本内容之间是两两文本内容之间的归属类别都相同的情况下，那么上述某个文本内容以及上述其他几个文本内容的归属类别都相同。需要说明的是，一个文本内容可以有一个归属类别，也可以有多个归属类别。

图2是根据本发明优选实施例的文本内容的聚类方法的流程图，如图2所示，该方法主要包括S202至S214，其中：

S202：接收范围指令，其中，范围指令用于限定爬取文本内容的范围。具体地，范围指令可以是待爬取网页页面对应的网址。

S204：根据范围指令，爬取文本内容，得到存储在数据库中的文本库，本步骤具体为，在上述范围指令限定的范围中爬取网页页面上的文本内容，爬取到的文本内容形成文本库，文本库存储在数据库中。具体地，可以通过设置网络爬虫爬取文本内容。

S206：在数据库中配置标签库。本步骤中的标签库同上述实施例中的标签库相同，标签库中包含标签，标签中包含关联词，并且标签库也存储在数据库中。

S208：将文本库中的文本内容与标签库中的标签匹配，具体地，将文本库中的每个文本内容分别于标签库中的标签进行匹配，也就是查找每个文本内容中包含的与标签库中的关联词相同的词语。本步骤相当于对每个文本内容重复执行步骤2-1或者步骤2-4，在此不再重复说明。

S210：确定文本库中的每个文本内容包含的标签，并计算每个文本内容包含的每个标签的权重。具体地，权重为上述实施例中的出现频次。本步骤中的计算每个文本内容包含的每个标签的权重相当于对每个文本内中包含的标签容重复执行步骤2-3：或者步骤2-6，在此不再重复说明。

S212：根据不同文本内容之间的标签以及标签的权重，确定不同文本内容之间的关联性，也就是，关联性为上述实施例中的关联度。本步骤相当于任意两个文本内容之间重复执行步骤S104，在此不再重复说明。

S214：将关联性超过预设阈值的文本内容进行聚类，即，只有关联性(关联度)超过一定阈值的文本内容才划分为一类，也就是属于同一归属类别。本步骤相当于任意两个文本内容之间重复执行步骤S108，在此不再重复说明。

在本发明实施例中，通过设置接收范围指令，限定了文本内容的获取范围，达到了提高对文本内容聚类的效率的效果。并且，上述对文本内容进行聚类的过程可以由机器自动完成，达到了进一步提高对文本内容聚类的效率的效果。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述文本内容的聚类方法的文本内容的聚类装置，该聚类装置主要用于执行本发明实施例上述内容所提供的聚类方法，以下对本发明实施例所提供的文本内容的聚类装置做具体介绍：

图3是根据本发明实施例的文本内容的聚类装置的示意图，如同3所示，该聚类装置主要包括第一获取单元10、第一计算单元20、第一判断单元30和第一确定单元40，其中：

第一获取单元10用于获取第一文本内容中包含的第一标签和第二文本内容中包含的第二标签，其中，第一文本内容为第一网页页面的文本内容，第二文本内容为第二网页页面的文本内容，第一标签为第一文本内容中包含的标签，第二标签为第二文本内容中包含的标签，第一网页页面和第二网页页面为不同的网页页面。本单元具体为：对第一网页页面上的文本内容中包含的标签进行获取，获取到的标签即为第一标签；对第二网页页面上的文本内容中包含的标签进行获取，获取到的标签即为第二标签。

第一计算单元20用于根据第一标签和第二标签，计算得到多个第一关联度。在本发明实施例中，多个第一关联度用于表征第一文本内容和第二文本内容之间的关联度，以及第一标签和第二标签之间的关联度，第一关联度也可以称为相关度，第一关联度越高，说明第一文本内容和第二文本内容中的内容越相近。

第一判断单元30用于判断多个第一关联度是否均大于每个第一关联度对应的预设阈值。具体地，每个第一关联度都有与该第一关联度相对应的预设阈值，第一关联度的数量与预设阈值的数量相等，其中，每个第一关联度所对应的预设阈值的大小可以根据需求设置。本单元也就是，判断每个第一关联度与其对应的预设阈值的大小关系。

第一确定单元40用于在判断出多个第一关联度均大于每个第一关联度对应的预设阈值的情况下，确定第一文本内容和第二文本内容的归属类别相同；多个第一关联度中任一第一关联度AA小于第一关联度AA对应的预设阈值的情况下，确定第一文本内容和第二文本内容的归属类别不同。本发明实施例也就是，在判断出每个第一关联度都大于其所对应的预设阈值的情况下，得到两个文本内容(即，第一文本内容和第二文本内容)属于同一个归属类别的结果；多个第一关联度中只要有一个第一关联度小于该第一关联度所对应的预设阈值的情况下，得到两个文本内容(即，第一文本内容和第二文本内容)不属于同一个归属类别的结果。

具体地，在本发明实施例中，多个第一关联度的数量为3，具体为总相似关联度、每个目标标签的出现频次关联度和目标标签数关联度，此时，第一计算单元20包括第一计算模块、第二计算模块、第三计算模块、第五计算模块和第六计算模块，其中：

第一计算模块用于计算第一文本内容中包含第一标签的数量。例如：第一文本内容中包含标签a、标签b、标签c、标签d和标签e，那么第一文本内容中包含的第一标签的数量为5。

第二计算模块用于计算第二文本内容中包含第二标签的数量。例如：第二文本内容中包含标签a、标签c和标签d，那么第二文本内容中包含的第二标签的数量为3。

第三计算模块用于计算目标标签的数量和每个目标标签的目标出现频次，其中，目标出现频次包括第一目标出现频次和第二目标出现频次，第一目标出现频次为目标标签在第一文本内容中的出现频次，第二目标出现频次为目标标签在第二文本内容中的出现频次，目标标签为第一标签与第二标签中相同的标签，本模块也就是计算第一文本内容和第二文本内容中相同标签的数量，以及每个相同标签分别在第一文本内容和第二文本内容中的出现频次。继续采用上述举例进行说明，假设，第一文本内容中包含标签a、标签b、标签c、标签d和标签e在第一文本内容中的出现频次依次是：12、2、1、3和4，第二文本内容中包含标签a、标签c和标签d在第二文本内容中的出现频次依次是11、5和1，那么目标标签的数量为3，分别是目标标签a、目标标签c和目标标签d，其中，目标标签a的第一目标出现频次为12，第二目标出现频次为11，目标标签c的第一目标出现频次为1，第二目标出现频次为5，目标标签d的第一目标出现频次为3，第二目标出现频次为1。

第四计算模块用于根据第一标签的数量、第二标签的数量、目标标签的数量以及每个目标标签的目标出现频次，计算得到总相似关联度。

具体地，第四计算模块包括第一计算子模块，第一计算子模块用于按照公式计算关联度A，其中，A为总相似关联度，V3为目标标签的数量，V1为第一标签的数量，V2为第二标签的数量，P₁D_k为目标标签D_k的第一目标出现频次，P₂D_k为目标标签D_k的第二目标出现频次。仍旧采用上述举例进行说明，那么总相似关联度A＝(12*11+1*5+3*1)*3/5*3/3。

第五计算模块用于根据每个目标标签的目标出现频次，计算得到每个目标标签的出现频次关联度。

具体地，第五计算模块包括第二计算子模块，第二计算子模块用于按照公式B(D_k)＝P₁D_k*P₂D_k计算目标标签D_k的的出现频次关联度，其中，B(D_k)为目标标签D_k的出现频次关联度。仍旧采用上述举例进行说明，那么目标标签a的出现频次关联度B＝12*11＝132，目标标签c的出现频次关联度＝1*5＝5，目标标签d的出现频次关联度＝3*1＝3。

第六计算模块用于根据目标标签的数量，计算得到目标标签数关联度。

具体地，第六计算模块包括第三计算子模块，第三计算子模块用于按照公式C＝V3计算目标标签数关联度，其中，C为目标标签数关联度。仍旧采用上述举例进行说明，目标标签数关联度C＝3。

具体地，在本发明实施例中，预设阈值包括第一预设阈值、第二预设阈值和第三预设阈值，其中，第一判断单元30包括判断模块，判断模块用于判断总相似关联度是否大于第一预设阈值、判断每个目标标签的出现频次关联度是否均大于第二预设阈值，以及判断目标标签数关联度是否大于第三预设阈值；第一确定单元40包括确定模块，确定模块用于在判断出总相似关联度大于第一预设阈值、每个目标标签的出现频次关联度均大于第二预设阈值，并且目标标签数关联度大于第三预设阈值的情况下，确定第一文本内容和第二文本内容的归属类别相同；在判断出总相似关联度小于第一预设阈值、任一目标标签的出现频次关联度小于第二预设阈值、或者目标标签数关联度小于第三预设阈值的情况下，确定第一文本内容和第二文本内容的归属类别不同。

可选地，本发明实施例所提供的文本内容的聚类装置还包括接收单元，接收单元用于在获取第一文本内容中包含的第一标签和第二文本内容中包含的第二标签之前，接收设置指令，其中，设置指令用于生成标签库，标签库中存储多个标签，以及与每个标签包含的至少一个关联词。具体地，组成标签库的标签以及每个标签所包含的关联词可以根据需求设置，设置指令可以通过键盘等设备输入。需要说明的是，同一关联词只能被一个标签所包含。例如：标签库中可以包括标签“大数据”和标签“金融”，其中，标签“大数据”中可以包含4个关联词，分别是“big data”、“数据流处理”、“数据价值”和“数据应用”；标签“金融”可以包含3个关联词，分别是“华尔街”、“彭博商业”和“纳斯达克”。

具体地，第一获取单元10包括第一匹配模块、第一查找模块、第七计算模块、第二匹配模块、第二查找模块和第八计算模块，其中：

第一匹配模块用于将第一文本内容与标签库进行匹配，得到多个第一关联词，其中，第一关联词为第一文本内容中包含的关联词，本模块具体为，参照标签库中存储的标签和每个标签包含的关联词，查找第一文本内容中与标签库中的关联词相同的词语，查找到的词语即为第一关联词。

第一查找模块用于查找包含每个第一关联词的标签，得到多个不同的第一标签。例如：第一文本内容中包含的多个第一关联词分别为数据价值、数据应用、华尔街和纳斯达克，根据上述举例可知，数据价值和数据应用都属于标签“大数据”，华尔街和纳斯达克都属于标签“金融”，那么第一文本内容得到的第一标签有两个，分别是“大数据”和“金融”。

第七计算模块用于根据每个第一标签中包含的第一关联词在第一文本内容中的出现频次，得到每个第一标签在第一文本内容中的出现频次，具体地，每个第一标签在第一文本内容中的出现频次等于其所包含的每个第一关联词在第一文本内容中的出现频次之和。继续采用第一查找模块中的举例进行说明，假设第一关联词“数据价值”在第一文本内容中的出现频次为5，第一关联词“数据应用”在第一文本内容中的出现频次为4，那么，第一标签“大数据”在第一文本内容中的出现频次为5+4＝9。

第二匹配模块用于将第二文本内容与标签库进行匹配，得到多个第二关联词，其中，第二关联词为第二文本内容中包含的关联词，本模块具体为，参照标签库中存储的标签和每个标签包含的关联词，查找第二文本内容中与标签库中的关联词相同的词语，查找到的词语即为第二关联词。

第二查找模块用于查找包含每个第二关联词的标签，得到多个不同的第二标签，也就是查找在第二文本内容中第二关联词所属的标签，将查找到的多个标签中相同的标签去重后得到的标签即为第二标签。例如：第二文本内容中包含的多个第二关联词分别为数据价值、数据流处理、big data、华尔街和彭博商业，根据上述举例可知，数据价值、数据流处理和big data都属于标签“大数据”，华尔街和彭博商业都属于标签“金融”，那么第二文本内容得到的第二标签有两个，分别是“大数据”和“金融”。

第八计算模块用于根据每个第二标签中包含的第二关联词在第二文本内容中的出现频次，得到每个第二标签在第二文本内容中的出现频次，具体地，每个第二标签在第二文本内容中的出现频次等于其所包含的每个第二关联词在第二文本内容中的出现频次之和。继续采用第二查找模块中的举例进行说明，假设第二关联词“数据价值”在第二文本内容中的出现频次为4，第二关联词“数据流处理”在第二文本内容中的出现频次为8，第二关联词“big data”在第二文本内容中的出现频次为8，那么，第二标签“大数据”在第二文本内容中的出现频次为4+8+8＝20。

可选地，本发明实施例所提供的文本内容的聚类装置还包括第二获取单元、第二计算单元、第二判断单元、第二确定单元、第三计算单元、第三判断单元和第三确定单元，其中：

第二获取单元用于在确定第一文本内容和第二文本内容的归属类别相同之后，或者在确定第一文本内容和第二文本内容的归属类别不同之后，获取第三文本内容中包含的第三标签，其中，第三文本内容为第三网页页面的文本内容，第三标签为第三文本内容中包含的标签，第一网页页面、第二网页页面和第三网页页面均为不同的网页页面。在本发明实施例中，第三标签的获取方式与上述实施例中第一标签或者第二标签的获取方式相同，在此不再重复说明。需要说明的是，第二获取单元和第一获取单元10可以为同一获取单元，也可以为两个独立的获取单元。

第二计算单元用于根据第一标签和第三标签，计算得到多个第二关联度。在本发明实施例中，多个第二关联度用于表征第一文本内容和第三文本内容之间的关联度，以及第一标签和第三标签之间的关联度，同样的，此处的第二关联度也可以称为相关度，第二关联度越高，说明第一文本内容和第三文本内容中的内容越相近。具体地，多个第二关联度的计算方式同多个第一关联度的计算方式相同，在此不再重复说明。需要说明的是，第二计算单元和第一计算单元20可以为同一计算单元，也可以为两个独立的计算单元。

第二判断单元用于判断多个第二关联度是否均大于每个第二关联度对应的预设阈值。具体地，每个第二关联度都有与该第二关联度相对应的预设阈值，第二关联度的数量与预设阈值的数量相等。本发明实施例也就是判断每个第二关联度与其对应的预设阈值的大小关系。需要说明的是，第二判断单元和第一判断单元30可以为同一判断单元，也可以为两个独立的判断单元。

第二确定单元用于在判断出多个第二关联度均大于每个第二关联度对应的预设阈值的情况下，确定第一文本内容和第三文本内容的归属类别相同，在判断出多个第二关联度中任一第二关联度BB小于第二关联度BB对应的预设阈值的情况下，确定第一文本内容和第三文本内容的归属类别不同，也就是，每个第二关联度都大于其所对应的预设阈值的情况下，得到两个文本内容(即，第一文本内容和第三文本内容)属于同一个归属类别的结果；多个第二关联度中只要有一个第二关联度小于该第二关联度所对应的预设阈值的情况下，得到两个文本内容(即，第一文本内容和第三文本内容)不属于同一个归属类别的结果。需要说明的是，第二确定单元和第一确定单元40可以为同一确定单元，也可以为两个独立的确定单元。

第三计算单元用于根据第二标签和第三标签，计算得到多个第三关联度在本发明实施例中，多个第三关联度用于表征第二文本内容和第三文本内容之间的关联度，以及第二标签和第三标签之间的关联度，同样的，此处的第三关联度也可以称为相关度，第三关联度越高，说明第二文本内容和第三文本内容中的内容越相近。具体地，多个第三关联度的计算方式同多个第一关联度的计算方式相同，在此不再重复说明。需要说明的是，第三计算单元和第一计算单元20可以为同一计算单元，也可以为两个独立的计算单元。

第三判断单元用于判断多个第三关联度是否均大于每个第三关联度对应的预设阈值，具体地，每个第三关联度都有与该第三关联度相对应的预设阈值，第三关联度的数量与预设阈值的数量相等。本发明实施例也就是判断每个第三关联度与其对应的预设阈值的大小关系。需要说明的是，第三判断单元和第一判断单元30可以为同一判断单元，也可以为两个独立的判断单元。

第三确定单元用于在判断出多个第三关联度均大于每个第三关联度对应的预设阈值的情况下，确定第二文本内容和第三文本内容的归属类别相同，在判断出多个第三关联度中任一第三关联度CC小于第三关联度CC对应的预设阈值的情况下，确定第二文本内容和第三文本内容的归属类别不同，也就是，每个第三关联度都大于其所对应的预设阈值的情况下，得到两个文本内容(即，第二文本内容和第三文本内容)属于同一个归属类别的结果；多个第三关联度中只要有一个第三关联度小于该第二关联度所对应的预设阈值的情况下，得到两个文本内容(即，第一文本内容和第三文本内容)不属于同一个归属类别的结果。并且，在确定第一文本内容和第二文本内容的归属类别相同、第一文本内容和第三文本内容的归属类别相同、并且第二文本内容和第三文本内容的归属类别相同的情况下，可以确定第一文本内容、第二文本内容和第三文本内容的归属类别相同。需要说明的是，第三确定单元和第一确定单元40可以为同一确定单元，也可以为两个独立的确定单元。

从以上的描述中，可以看出，本发明解决了现有技术中对文本内容聚类不够准确的问题，进而达到了提高文本内容聚类准确性的效果。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本内容的聚类方法，其特征在于，包括：

获取第一文本内容中包含的第一标签和第二文本内容中包含的第二标签，其中，所述第一文本内容为第一网页页面的文本内容，所述第二文本内容为第二网页页面的文本内容，所述第一标签为所述第一文本内容中包含的至少一个标签，所述第二标签为所述第二文本内容中包含的至少一个标签，所述第一网页页面和所述第二网页页面为不同的网页页面；

根据所述第一标签和所述第二标签，计算得到多个第一关联度；

判断多个所述第一关联度是否均大于每个所述第一关联度对应的预设阈值；

在判断出多个所述第一关联度均大于每个所述第一关联度对应的预设阈值的情况下，确定所述第一文本内容和所述第二文本内容的归属类别相同；以及

在判断出多个所述第一关联度中任一第一关联度AA小于所述第一关联度AA对应的预设阈值的情况下，确定所述第一文本内容和所述第二文本内容的归属类别不同；

其中，多个所述第一关联度包括：总相似关联度、每个目标标签的出现频次关联度和目标标签数关联度，其中，根据所述第一标签和所述第二标签，计算得到多个第一关联度包括：

根据所述第一标签的数量、所述第二标签的数量、所述目标标签的数量以及每个所述目标标签的所述目标出现频次，计算得到所述总相似关联度；

根据每个所述目标标签的所述目标出现频次，计算得到每个所述目标标签的出现频次关联度；以及

根据所述目标标签的数量，计算得到所述目标标签数关联度。

2.根据权利要求1所述的聚类方法，其特征在于，通过以下方式确定所述第一标签的数量、所述第二标签的数量、所述目标标签的数量以及每个所述目标标签的所述目标出现频次：

计算所述第一文本内容中包含所述第一标签的数量；

计算所述第二文本内容中包含所述第二标签的数量；

计算目标标签的数量和每个所述目标标签的目标出现频次，其中，所述目标出现频次包括第一目标出现频次和第二目标出现频次，所述第一目标出现频次为所述目标标签在所述第一文本内容中的出现频次，所述第二目标出现频次为所述目标标签在所述第二文本内容中的出现频次，所述目标标签为所述第一标签与所述第二标签中相同的标签。

3.根据权利要求2所述的聚类方法，其特征在于，

按照公式计算所述总相似关联度，其中，A为所述总相似关联度，V3为所述目标标签的数量，V1为所述第一标签的数量，V2为所述第二标签的数量，P₁D_k为目标标签D_k的第一目标出现频次，P₂D_k为目标标签D_k的第二目标出现频次；

按照公式B(D_k)＝P₁D_k*P₂D_k计算所述目标标签D_k的出现频次关联度，其中，B(D_k)为所述目标标签D_k的出现频次关联度；以及

按照公式C＝V3计算所述目标标签数关联度，其中，C为所述目标标签数关联度。

4.根据权利要求2所述的聚类方法，其特征在于，所述预设阈值包括第一预设阈值、第二预设阈值和第三预设阈值，其中，

判断多个所述第一关联度是否均大于每个所述第一关联度对应的预设阈值包括：判断所述总相似关联度是否大于所述第一预设阈值、判断每个所述目标标签的出现频次关联度是否均大于所述第二预设阈值，以及所述目标标签数关联度是否大于第三预设阈值；

在判断出多个所述第一关联度均大于每个所述第一关联度对应的预设阈值的情况下，确定所述第一文本内容和所述第二文本内容的归属类别相同包括：在判断出所述总相似关联度大于所述第一预设阈值、每个所述目标标签的出现频次关联度均大于所述第二预设阈值，并且所述目标标签数关联度大于所述第三预设阈值的情况下，确定所述第一文本内容和所述第二文本内容的所述归属类别相同；

在判断出多个所述第一关联度中任一第一关联度AA小于所述第一关联度AA对应的预设阈值的情况下，确定所述第一文本内容和所述第二文本内容的归属类别不同包括：在判断出所述总相似关联度小于所述第一预设阈值、任一所述目标标签的出现频次关联度小于所述第二预设阈值、或者所述目标标签数关联度小于所述第三预设阈值的情况下，确定所述第一文本内容和所述第二文本内容的所述归属类别不同。

5.根据权利要求1所述的聚类方法，其特征在于，在获取第一文本内容中包含的第一标签和第二文本内容中包含的第二标签之前，所述聚类方法还包括：

接收设置指令，其中，所述设置指令用于生成标签库，所述标签库中存储多个标签，以及与每个所述标签包含的至少一个关联词。

6.根据权利要求5所述的聚类方法，其特征在于，获取第一文本内容中包含的第一标签和所述第二文本内容中包含的第二标签包括：

将所述第一文本内容与所述标签库进行匹配，得到多个第一关联词，其中，所述第一关联词为所述第一文本内容中包含的关联词；

查找包含每个所述第一关联词的标签，得到多个不同的所述第一标签；

根据每个所述第一标签中包含的所述第一关联词在所述第一文本内容中的出现频次，得到每个所述第一标签在所述第一文本内容中的出现频次；

将所述第二文本内容与所述标签库进行匹配，得到多个第二关联词，其中，所述第二关联词为所述第二文本内容中包含的关联词；

查找包含每个所述第二关联词的标签，得到多个不同的所述第二标签；以及

根据每个所述第二标签中包含的所述第二关联词在所述第二文本内容中的出现频次，得到每个所述第二标签在所述第二文本内容中的出现频次。

7.根据权利要求1所述的聚类方法，其特征在于，在确定所述第一文本内容和所述第二文本内容的归属类别相同之后，或者在确定所述第一文本内容和所述第二文本内容的归属类别不同之后，所述聚类方法还包括：

获取第三文本内容中包含的第三标签，其中，所述第三文本内容为第三网页页面的文本内容，所述第三标签为所述第三文本内容中包含的标签，所述第一网页页面、所述第二网页页面和所述第三网页页面均为不同的网页页面；

根据所述第一标签和所述第三标签，计算得到多个第二关联度；

判断多个所述第二关联度是否均大于每个所述第二关联度对应的预设阈值；

在判断出多个所述第二关联度均大于每个所述第二关联度对应的预设阈值的情况下，确定所述第一文本内容和所述第三文本内容的归属类别相同；

在判断出多个所述第二关联度中任一第二关联度BB小于所述第二关联度BB对应的预设阈值的情况下，确定所述第一文本内容和所述第三文本内容的归属类别不同；

根据所述第二标签和所述第三标签，计算得到多个第三关联度；

判断多个所述第三关联度是否均大于每个所述第三关联度对应的预设阈值；

在判断出多个所述第三关联度均大于每个所述第三关联度对应的预设阈值的情况下，确定所述第二文本内容和所述第三文本内容的归属类别相同；以及

在判断出多个所述第三关联度中任一第三关联度CC小于所述第三关联度CC对应的预设阈值的情况下，确定所述第二文本内容和所述第三文本内容的归属类别不同，

其中，在确定所述第一文本内容和所述第二文本内容的归属类别相同、所述第一文本内容和所述第三文本内容的归属类别相同、并且所述第二文本内容和所述第三文本内容的归属类别相同的情况下，确定所述第一文本内容、所述第二文本内容和所述第三文本内容的所述归属类别相同。

8.一种文本内容的聚类装置，其特征在于，包括：

第一获取单元，用于获取第一文本内容中包含的第一标签和第二文本内容中包含的第二标签，其中，所述第一文本内容为第一网页页面的文本内容，所述第二文本内容为第二网页页面的文本内容，所述第一标签为所述第一文本内容中包含的至少一个标签，所述第二标签为所述第二文本内容中包含的至少一个标签，所述第一网页页面和所述第二网页页面为不同的网页页面；

第一计算单元，用于根据所述第一标签和所述第二标签，计算得到多个第一关联度；

第一判断单元，用于判断多个所述第一关联度是否均大于每个所述第一关联度对应的预设阈值；以及

第一确定单元，用于在判断出多个所述第一关联度均大于每个所述第一关联度对应的预设阈值的情况下，确定所述第一文本内容和所述第二文本内容的归属类别相同；在判断出多个所述第一关联度中任一第一关联度AA小于所述第一关联度AA对应的预设阈值的情况下，确定所述第一文本内容和所述第二文本内容的归属类别不同；

其中，多个所述第一关联度包括：总相似关联度、每个目标标签的出现频次关联度和目标标签数关联度，其中，所述第一计算单元包括：

第四计算模块，用于根据所述第一标签的数量、所述第二标签的数量、所述目标标签的数量以及每个所述目标标签的所述目标出现频次，计算得到所述总相似关联度；

第五计算模块，用于根据每个所述目标标签的所述目标出现频次，计算得到每个所述目标标签的出现频次关联度；以及

第六计算模块，用于根据所述目标标签的数量，计算得到所述目标标签数关联度。

9.根据权利要求8所述的聚类装置，其特征在于，所述第一计算单元还包括：

第一计算模块，用于计算所述第一文本内容中包含所述第一标签的数量；

第二计算模块，用于计算所述第二文本内容中包含所述第二标签的数量；

第三计算模块，用于计算目标标签的数量和每个所述目标标签的目标出现频次，其中，所述目标出现频次包括第一目标出现频次和第二目标出现频次，所述第一目标出现频次为所述目标标签在所述第一文本内容中的出现频次，所述第二目标出现频次为所述目标标签在所述第二文本内容中的出现频次，所述目标标签为所述第一标签与所述第二标签中相同的标签。

10.根据权利要求9所述的聚类装置，其特征在于，

所述第四计算模块包括第一计算子模块，用于按照公式计算所述总相似关联度，其中，A为所述总相似关联度，V3为所述目标标签的数量，V1为所述第一标签的数量，V2为所述第二标签的数量，P₁D_k为目标标签D_k的第一目标出现频次，P₂D_k为目标标签D_k的第二目标出现频次；

所述第五计算模块包括第二计算子模块，用于按照公式B(D_k)＝P₁D_k*P₂D_k计算所述目标标签D_k的出现频次关联度，其中，B(D_k)为所述目标标签D_k的出现频次关联度；以及

所述第六计算模块包括第三计算子模块，用于按照公式C＝V3计算所述目标标签数关联度，其中，C为所述目标标签数关联度。

11.根据权利要求9所述的聚类装置，其特征在于，所述预设阈值包括第一预设阈值、第二预设阈值和第三预设阈值，其中，

所述第一判断单元包括：判断模块，用于判断所述总相似关联度是否大于所述第一预设阈值、判断每个所述目标标签的出现频次关联度是否均大于所述第二预设阈值，以及判断所述目标标签数关联度是否大于第三预设阈值；

所述第一确定单元包括：确定模块，用于在判断出所述总相似关联度大于所述第一预设阈值、每个所述目标标签的出现频次关联度均大于所述第二预设阈值，并且所述目标标签数关联度大于所述第三预设阈值的情况下，确定所述第一文本内容和所述第二文本内容的所述归属类别相同；在判断出所述总相似关联度小于所述第一预设阈值、任一所述目标标签的出现频次关联度小于所述第二预设阈值、或者所述目标标签数关联度小于所述第三预设阈值的情况下，确定所述第一文本内容和所述第二文本内容的所述归属类别不同。

12.根据权利要求8所述的聚类装置，其特征在于，所述聚类装置还包括：

接收单元，用于在获取第一文本内容中包含的第一标签和第二文本内容中包含的第二标签之前，接收设置指令，其中，所述设置指令用于生成标签库，所述标签库中存储多个标签，以及与每个所述标签包含的至少一个关联词。

13.根据权利要求12所述的聚类装置，其特征在于，所述第一获取单元包括：

第一匹配模块，用于将所述第一文本内容与所述标签库进行匹配，得到多个第一关联词，其中，所述第一关联词为所述第一文本内容中包含的关联词；

第一查找模块，用于查找包含每个所述第一关联词的标签，得到多个不同的所述第一标签；

第七计算模块，用于根据每个所述第一标签中包含的所述第一关联词在所述第一文本内容中的出现频次，得到每个所述第一标签在所述第一文本内容中的出现频次；

第二匹配模块，用于将所述第二文本内容与所述标签库进行匹配，得到多个第二关联词，其中，所述第二关联词为所述第二文本内容中包含的关联词；

第二查找模块，用于查找包含每个所述第二关联词的标签，得到多个不同的所述第二标签；以及

第八计算模块，用于根据每个所述第二标签中包含的所述第二关联词在所述第二文本内容中的出现频次，得到每个所述第二标签在所述第二文本内容中的出现频次。

14.根据权利要求8所述的聚类装置，其特征在于，所述聚类装置还包括：

第二获取单元，用于在确定所述第一文本内容和所述第二文本内容的归属类别相同之后，或者在确定所述第一文本内容和所述第二文本内容的归属类别不同之后，获取第三文本内容中包含的第三标签，其中，所述第三文本内容为第三网页页面的文本内容，所述第三标签为所述第三文本内容中包含的标签，所述第一网页页面、所述第二网页页面和所述第三网页页面均为不同的网页页面；

第二计算单元，用于根据所述第一标签和所述第三标签，计算得到多个第二关联度；

第二判断单元，用于判断多个所述第二关联度是否均大于每个所述第二关联度对应的预设阈值；

第二确定单元，用于在判断出多个所述第二关联度均大于每个所述第二关联度对应的预设阈值的情况下，确定所述第一文本内容和所述第三文本内容的归属类别相同；在判断出多个所述第二关联度中任一第二关联度BB小于所述第二关联度BB对应的预设阈值的情况下，确定所述第一文本内容和所述第三文本内容的归属类别不同；

第三计算单元，用于根据所述第二标签和所述第三标签，计算得到多个第三关联度；

第三判断单元，用于判断多个所述第三关联度是否均大于每个所述第三关联度对应的预设阈值；以及

第三确定单元，用于在判断出多个所述第三关联度均大于每个所述第三关联度对应的预设阈值的情况下，确定所述第二文本内容和所述第三文本内容的归属类别相同；在判断出多个所述第三关联度中任一第三关联度CC小于所述第三关联度CC对应的预设阈值的情况下，确定所述第二文本内容和所述第三文本内容的归属类别不同，