CN109522410A

CN109522410A - 文档聚类方法及平台、服务器和计算机可读介质

Info

Publication number: CN109522410A
Application number: CN201811333545.9A
Authority: CN
Inventors: 陈亮宇; 郭林森; 肖欣延; 吕雅娟; 佘俏俏
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-11-09
Filing date: 2018-11-09
Publication date: 2019-03-26
Anticipated expiration: 2038-11-09
Also published as: CN109522410B

Abstract

本公开提供了一种文档聚类方法，包括：根据多个待聚类文档构建词共现网络；计算词共现网络中任意的连接同一节点的两个链路间的链路相似度；根据所述链路相似度从所述词共现网络中抽取出多个关键词社区；根据各待聚类文档的文档表示向量和各关键词社区的社群表示向量，分别将各待聚类文档分配至对应的关键词社区，并根据分配结果生成各关键词社区对应的初始文档簇，其中位于同一关键词社区中的全部待聚类文档构成一个初始文档簇。本公开还提供了一种文档聚类平台、服务器和计算机可读介质。

Description

文档聚类方法及平台、服务器和计算机可读介质

技术领域

本公开涉及计算机技术领域，具体地，涉及文档聚类方法及平台、服务器和计算机可读介质。

背景技术

事件是指某日在某地发生了某事，世界上每天都有很多事件发生和被报道，并由此生成海量的互联网资讯新闻。对每天海量的互联网资讯新闻的新闻文档进行聚类以实时自动地检测出细粒度新闻事件(如：天级别的新闻事件)，能够起到帮助和支持舆情分析、实现新闻推荐、或用于文章自动写作的作用。

现有技术多通过LDA+(Latent Dirichlet Allocation，文档主题生成)模型或KeyGraph算法实现新闻文档的文档聚类，但上述方式易聚类出大事件新闻文档簇，从而导致细粒度新闻事件检测的准确率和召回率较低。

应该注意，上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本发明的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

本公开实施例提出了文档聚类方法及平台、服务器和计算机可读介质。

第一方面，本公开实施例提供了一种文档聚类方法，包括：

根据多个待聚类文档构建词共现网络；

计算词共现网络中任意的连接同一节点的两个链路间的链路相似度；

根据所述链路相似度从所述词共现网络中抽取出多个关键词社区；

根据各待聚类文档的文档表示向量和各关键词社区的社群表示向量，分别将各待聚类文档分配至对应的关键词社区，并根据分配结果生成各关键词社区对应的初始文档簇，其中位于同一关键词社区中的全部待聚类文档构成一个初始文档簇。

在一些实施例中，计算连接同一节点的两个链路间的链路相似度的步骤包括：

计算连接同一节点的两个链路间的结构相似度和语义相似度，并根据所述结构相似度和所述语义相似度计算链路相似度。

在一些实施例中，计算连接同一节点的两个链路间的结构相似度和语义相似度的步骤分别包括：

通过公式计算连接同一节点的两个链路间的结构相似度，其中，e_ik表示节点i和节点k形成的链路，e_jk表示节点j和节点k形成的链路，S1(e_ik,e_jk)表示链路e_ik和链路e_jk间的结构相似度，n₊(i)表示由节点i及节点i的邻居节点所构成的集合，n₊(j)表示由节点j及节点j的邻居节点所构成的集合，n₊(i)∩n₊(j)表示n₊(i)与n₊(j)的交集，n₊(i)∪n₊(j)表示n₊(i)与n₊(j)的并集；

通过公式计算连接同一节点的两个链路间的语义相似度，其中，S2(e_ik,e_jk)表示链路e_ik和链路e_jk间的语义相似度，表示链路e_jk的词向量，表示链路e_ik的词向量，表示节点i的词向量，表示节点j的词向量，表示节点k的词向量。

在一些实施例中，将待聚类文档分配至对应的关键词社区的步骤包括：

生成待聚类文档的文档表示向量和各关键词社区的社群表示向量，所述社群表示向量和文档表示向量的维度等于词共现网络中所有节点的总数量；

分别判断各关键词社区的社群表示向量与待聚类文档的文档表示向量间的余弦相似度是否大于第一预设阈值，若判断出关键词社区的社群表示向量与该待聚类文档的文档表示向量间的余弦相似度大于第一预设阈值时，则将该待聚类文档分配至该关键词社区。

在一些实施例中，生成各关键词社区的社群表示向量的步骤包括：

根据关键词社区中每个节点的权重值生成节点的表示向量，所述权重值通过公式计算得出，其中，weight(w_i)表示关键词社区中节点i的权重值，表示链路e_ij的权重值。

在一些实施例中，在所述根据多个待聚类文档构建词共现网络的步骤之前，还包括接收输入的多个待聚类文档；

所述根据多个待聚类文档构建词共现网络的步骤包括：

从多个待聚类文档中抽取出命名实体和关键词；

以各所述命名实体和关键词为节点构建词共现网络，节点之间的链路用于表示命名实体和/或关键词之间的文档共现关系。

在一些实施例中，在根据分配结果生成各关键词社区对应的初始文档簇的步骤之后，还包括：

生成各所述初始文档簇的文档簇表示向量；

计算任意两个初始文档簇的文档簇表示向量间的余弦相似度；

判断是否存在两个初始文档簇的文档簇表示向量间的余弦相似度是否大于第二预设阈值，若判断出存在两个初始文档簇的文档簇表示向量间的余弦相似度大于第二预设阈值时，则将文档簇表示向量间的余弦相似度大于第二预设阈值的两个初始文档簇合并为一个事件文档簇。

在一些实施例中，在将两个初始文档簇合并为一个事件文档簇步骤之后还包括：

根据事件文档簇生成每日文档簇。

在一些实施例中，所述文档为新闻文档。

第二方面，本公开实施例提供了一种文档聚类平台，包括：

构建模块，用于根据多个待聚类文档构建词共现网络；

第一计算模块，用于计算词共现网络中任意的连接同一节点的两个链路间的链路相似度；

抽取模块，用于根据所述链路相似度从所述词共现网络中抽取出多个关键词社区；

分配生成模块，用于根据各待聚类文档的文档表示向量和各关键词社区的社群表示向量，分别将各待聚类文档分配至对应的关键词社区，并根据分配结果生成各关键词社区对应的初始文档簇，其中位于同一关键词社区中的全部待聚类文档构成一个初始文档簇。

在一些实施例中，所述第一计算模块具体用于计算连接同一节点的两个链路间的结构相似度和语义相似度，并根据所述结构相似度和所述语义相似度计算链路相似度。

在一些实施例中，所述第一计算模块具体用于通过公式计算连接同一节点的两个链路间的结构相似度，其中，e_ik表示节点i和节点k形成的链路，e_jk表示节点j和节点k形成的链路，S1(e_ik,e_jk)表示链路e_ik和链路e_jk间的结构相似度，n₊(i)表示由节点i及节点i的邻居节点所构成的集合，n₊(j)表示由节点j及节点j的邻居节点所构成的集合，n₊(i)∩n₊(j)表示n₊(i)与n₊(j)的交集，n₊(i)∪n₊(j)表示n₊(i)与n₊(j)的并集；

在一些实施例中，所述分配生成模块包括：

生成子模块，用于生成待聚类文档的文档表示向量和各关键词社区的社群表示向量，所述社群表示向量和文档表示向量的维度等于词共现网络中所有节点的总数量；

判断子模块，用于分别判断各关键词社区的社群表示向量与待聚类文档的文档表示向量间的余弦相似度是否大于第一预设阈值；

分配子模块，用于若判断出关键词社区的社群表示向量与该待聚类文档的文档表示向量间的余弦相似度大于第一预设阈值时，则将该待聚类文档分配至该关键词社区。

在一些实施例中，所述生成子模块具体用于根据关键词社区中每个节点的权重值生成节点表示向量，所述权重值通过公式计算得出，其中，weight(w_i)表示关键词社区中节点i的权重值，表示链路e_ij的权重值。

在一些实施例中，还包括接收模块，所述接收模块用于接收输入的多个待聚类文档；

所述构建模块具体包括：

抽取子模块，用于从多个待聚类文档中抽取出命名实体和关键词；

构建子模块，用于以各所述命名实体和关键词为节点构建词共现网络，节点之间的链路用于表示命名实体和/或关键词之间的文档共现关系。

在一些实施例中，还包括：

第一生成模块，用于生成各所述初始文档簇的文档簇表示向量；

第二计算模块，用于计算任意两个初始文档簇的文档簇表示向量间的余弦相似度；

判断模块，用于判断是否存在两个初始文档簇的文档簇表示向量间的余弦相似度是否大于第二预设阈值；

合并模块，用于若判断出存在两个初始文档簇的文档簇表示向量间的余弦相似度大于第二预设阈值时，则将文档簇表示向量间的余弦相似度大于第二预设阈值的两个初始文档簇合并为一个事件文档簇。

在一些实施例中，还包括：

第二生成模块，用于根据事件文档簇生成每日文档簇。

在一些实施例中，所述文档为新闻文档。

第三方面，本公开实施例提供了一种服务器，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如第一方面中任一实现方法描述的文档聚类方法。

第四方面，本公开实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，所述程序被执行时实现如第一方面中任一实现方法描述的文档聚类方法。

本公开实施例提供的文档聚类方法及平台、服务器和计算机可读介质，能够对文档进行聚类，以实现对多个文档的细粒度检测，具有较高的细粒度检测准确率和召回率。当其应用于新闻文档聚类时，能够从海量的互联网资讯新闻中实时自动地检测出细粒度新闻事件并生成每日新闻文档簇，有效避免聚类出大事件新闻簇，且每日新闻文档簇可用于舆情分析或用户新闻推荐或文章自动写作。

附图说明

附图用来提供对本公开的实施例作进一步理解，并且构成说明书的一部分，与本公开的实施例一起用于解释本公开，并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述，以上和其他特征和优点对本领域技术人员将变得更加显而易见，在附图中：

图1为本公开实施例提供的一种文档聚类方法的流程图；

图2为本公开中步骤S1的一种可选实现方式的流程图；

图3为本公开中步骤S2的一种可选实现方式的流程图；

图4为本公开中步骤S4的一种可选实现方式的流程图；

图5为本公开中实施例提供的另一种文档聚类方法流程图；

图6为本公开中实施例提供的又一种文档聚类方法流程图；

图7为本公开中实施例提供的再一种文档聚类方法流程图；

图8为本公开实施例提供的一种文档聚类平台的结构示意图；

图9为本公开中分配生成模块的结构示意图；

图10为本公开提供的另一种文档聚类平台的结构示意图；

图11为本公开提供的又一种文档聚类平台的结构示意图；

图12为本公开提供的再一种文档聚类平台的结构示意图。

具体实施方式

为使本领域的技术人员更好地理解本公开的技术方案，下面结合附图对本公开提供的文档聚类方法及平台、服务器和计算机可读介质进行详细描述。

在下文中将参考附图更充分地描述示例实施例，但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之，提供这些实施例的目的在于使本公开透彻和完整，并将使本领域技术人员充分理解本公开的范围。

本文所使用的术语仅用于描述特定实施例，且不意欲限制本公开。如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

图1为本公开实施例提供的一种文档聚类方法的流程图，如图1所示，该方法可以由文档聚类平台来执行，该平台可以通过软件和/或硬件的方式实现，该平台可以集成在服务器中。该方法具体包括：

步骤S1、根据多个待聚类文档构建词共现网络。

本公开中所述的待聚类文档可以为专利文档、学术论文、或新闻文档等。优选地，文档为新闻文档。

词共现网络(Word Co-occurrence Network)中具有多个节点，每个节点表示一个出现词，节点相连形成链路表示两个出现词相关、在同一个待聚类文档中共现。

图2为本公开中步骤S1的一种可选实现方式的流程图，如图2所示，在本实施例的一些可选实现方式中，步骤S1具体包括：

步骤S101、从多个待聚类文档中抽取出命名实体和关键词。

命名实体(Named Entity)是指人名、机构名、地名以及其他所有以名称为标识的实体。关键词(Keywords)不仅限于单个的词，还包括词组和短语。对于新闻待聚类文档，关键词与该新闻待聚类文档的事件相关。

此处，从多个待聚类文档中抽取出命名实体和关键词的具体方式可以为现有的命名实体抽取方式和关键词抽取方式。

步骤S102、以各所述命名实体和关键词为节点构建词共现网络。

词共现网络中的节点用于表示命名实体和关键词，节点之间的链路用于表示命名实体和/或关键词之间的文档共现关系。具体地，根据命名实体和关键词及任意两个命名实体和/或关键词在待聚类文档中的共现关系(是否共现、共现次数)构建词共现网络。词共现网络中每个节点表示的出现词为命名实体或关键词。

可选地，在构建词共现网络时，当两个节点表示的两个命名实体和/或关键词的共现次数小于预设次数阈值时，该两个节点间不形成链路，当两个节点对应的两个共现词的共现次数大于或等于预设次数阈值时，该两个节点间形成链路。如：预设次数阈值可以为5次。这样设置的好处在于：对词共现网络中的不必要链路进行删减，从而提升文档的聚类效率。

步骤S2、计算词共现网络中任意的连接同一节点的两个链路间的链路相似度。

本实施例中，连接同一节点的两个链路间的链路相似度基于该两个链路间的结构相似度和语义相似度定义并生成。结构相似度用于表征词共现网络的网络结构特征，语义相似度用于表征词共现网络的语义相似特征。链路相似度用于表示词共现网络中两个链路间的相关性，两个链路间的相关性越大，该两个链路包括的节点被聚类并生成同一关键词社区的概率越大。

图3为本公开中步骤S2的一种可选实现方式的流程图，如图3所示，在本实施例的一些可选实现方式中，步骤S2具体包括：

步骤S201、计算连接同一节点的两个链路间的结构相似度和语义相似度。

具体地，通过公式计算连接同一节点的两个链路间的结构相似度，其中，e_ik表示节点i和节点k形成的链路，e_jk表示节点j和节点k形成的链路，S1(e_ik,e_jk)表示链路e_ik和链路e_jk间的结构相似度，n₊(i)表示由节点i及节点i的邻居节点所构成的集合，n₊(j)表示由节点j及节点j的邻居节点所构成的集合，n₊(i)∩n₊(j)表示n₊(i)与n₊(j)的交集，n₊(i)∪n₊(j)表示n₊(i)与n₊(j)的并集。本公开中的邻居节点是指与某节点相连接并形成链路的其他节点。

在一些特殊情况下，如：对于链路e_ik和链路e_jk，当节点k表示某个关键词，而节点i和节点j表示两个命名实体时，通过公式计算连接同一节点的两个链路间的结构相似度，其中，ne表示命名实体，kw表示关键词，表示命名实体节点ne_i和关键词节点kw_k形成的链路，表示命名实体节点ne_j和关键词节点kw_k形成的链路，表示链路和链路间的结构相似度，n₊ ^(ne)(ne_i)表示包括命名实体节点ne_i及命名实体节点ne_i的命名实体邻居节点的集合，n₊ ^(ne)(ne_j)表示包括命名实体节点ne_j及命名实体节点ne_j的命名实体邻居节点的集合，n₊ ^(ne)(ne_i)∩n₊ ^(ne)(ne_j)表示n₊ ^(ne)(ne_i)与n₊ ^(ne)(ne_j)的交集，n₊ ^(ne)(ne_i)∪n₊ ^(ne)(ne_j)表示n₊ ^(ne)(ne_i)与n₊ ^(ne)(ne_j)的并集。

在又一些特殊情况下，如：对于链路e_ik和链路e_jk，当节点k表示某个命名实体，而节点i和节点j表示两个关键词时，通过公式计算连接同一节点的两个链路间的结构相似度，其中，ne表示命名实体，kw表示关键词，表示关键词节点kw_i和命名实体节点ne_k形成的链路，表示关键词节点kw_j和命名实体节点ne_k形成的链路，表示链路和链路间的结构相似度，n₊ ^(ne)(kw_i)表示包括关键词节点kw_i及关键词节点kw_i的命名实体邻居节点的集合，n₊ ^(ne)(kw_j)表示关键词节点kw_j及关键词节点kw_j的命名实体邻居节点的集合，n₊ ^(ne)(kw_i)∩n₊ ^(ne)(kw_j)表示n₊ ^(ne)(kw_i)与n₊ ^(ne)(kw_j)的交集，n₊ ^(ne)(kw_i)∪n₊ ^(ne)(kw_j)表示n₊ ^(ne)(kw_i)与n₊ ^(ne)(kw_j)的并集。

具体地，通过公式计算连接同一节点的两个链路间的语义相似度，其中，e_ik表示节点i和节点k形成的链路，e_jk表示节点j和节点k形成的链路，S2(e_ik,e_jk)表示链路e_ik和链路e_jk间的语义相似度，表示链路e_jk的词向量，表示链路e_ik的词向量，表示节点i的词向量，表示节点j的词向量，表示节点k的词向量。

和为预先训练生成的分布式词向量，如其可通过Word2vec(Word ToVector)模型训练生成。

步骤S202、根据连接同一节点的两个链路间的结构相似度和语义相似度生成链路相似度。

具体地，通过公式S＝αS1+(1-α)S2计算连接同一节点的两个链路间的链路相似度，其中，S表示连接同一节点的两个链路间的链路相似度，S1表示连接同一节点的两个链路间的结构相似度，S2表示连接同一节点的两个链路间的语义相似度。

α为预设加权常数，0＜α＜1，其范围大小可根据实际应用场景进行调整。α越大，链路相似度受结构相似度的影响越大，α越小，链路相似度受语义相似度的影响越大。

步骤S3、根据链路相似度从词共现网络中抽取出多个关键词社区。

链路相似度的值越大，表示两个链路越相似。根据链路相似度并基于LinkClustering(链路聚类)算法实现关键词社区抽取。本公开中可采用现有的任意链路聚类算法进行关键词社区抽取，如：从最相似的两个链路开始合并，直到获得整体上最优的分割密度为止，合并的多个链路即形成一个关键词社区。此处，不再一一举例说明。

需要说明的是，在使用链路聚类算法抽取出关键词社区时，会计算出所有链路的权重值。

关键词社区为词共现网络中的一部分，其包括多个节点和链路。每个关键词社区与一个或一类新闻事件对应。

本实施例根据词共现网络中两个链路间的链路相似度抽取出关键词社区，具体地，对链路进行聚类并生成以链路作为分界的多个关键词社区，关键词社区间无重叠社区，避免了重叠社区的检测问题。

步骤S4、根据各待聚类文档的文档表示向量和各关键词社区的社群表示向量，分别将各待聚类文档分配至对应的关键词社区，并根据分配结果生成各关键词社区对应的初始文档簇。

其中位于同一关键词社区中的全部待聚类文档构成一个初始文档簇。

此处的待聚类文档是指步骤S1中用于构建词共现网络的任一待聚类文档。

图4为本公开中步骤S4的一种可选实现方式的流程图，如图4所示，在本实施例的一些可选实现方式中，步骤S4具体包括：

步骤S401、生成待聚类文档的文档表示向量和各关键词社区的社群表示向量。

优选地，社群表示向量和文档表示向量的维度等于词共现网络中所有节点的总数量。如：词共现网络中所有节点的总数量为N，社群表示向量和文档表示向量均为N维向量。

关键词社区的社群表示向量根据关键词社区中所有节点所表示的命名实体及关键词与词共现网络中所有节点所表示的命名实体及关键词生成。社群表示向量等于其所包含的全部节点的节点表示向量的和，节点表示向量用于表示该节点所表示的命名实体或关键词是否与词共现网络中的任意节点所表示的命名实体或关键词相同，节点表示向量有N维，对于节点i，其节点表示向量中除第i维外的其他任意维取值均为0，第i维的取值为节点i的权重值。

节点i的权重值通过公式计算得出，其中，weight(w_i)表示关键词社区中节点i的权重值，表示链路e_ij的权重值。为执行步骤S3时计算出的与链路e_ij对应的权重值。

待聚类文档的文档表示向量根据待聚类文档中所有的命名实体及关键词与词共现网络中所有节点所表示的命名实体及关键词生成。文档表示向量等于其所包含的全部命名实体及关键词的词表示向量的和，词表示向量用于表示该命名实体或关键词是否与词共现网络中的任意节点所表示的命名实体或关键词相同，词表示向量有N维，对于第i个词，其词表示向量中除第i维外的其他任一维取值均为0，第i维的取值为1。

可选地，此处的待聚类文档中的命名实体及关键词为该待聚类文档经由步骤101抽取出的命名实体和关键词。

步骤S402、分别判断各关键词社区的社群表示向量与待聚类文档的文档表示向量间的余弦相似度是否大于第一预设阈值，若是，执行步骤S403；若否，流程结束。

步骤S403、将该待聚类文档分配至该关键词社区。

当判断出关键词社区的社群表示向量和待聚类文档的文档表示向量间的余弦相似度大于第一预设阈值时，表示该待聚类文档与该关键词社区间的内容相似度或内容重合度较高，该待聚类文档属于该关键词社区。

针对每个待聚类文档，均需执行一次上述步骤S401-步骤S403。

需要说明的是，在实际应用中，对于某一个待聚类文档，在步骤S402的判断过程中，可能会出现存在两个或多个关键词社区的社群表示向量与该待聚类文档的文档表示向量间的余弦相似度大于第一预设阈值，则此时需将该待聚类文档分配至对应的两个或多个关键词社区中。

在步骤S402的判断过程结束后，可能会存在某个待聚类文档的文档表示向量与各关键词社区的社群表示向量间的余弦相似度均小于或等于第一预设阈值，则此时需将该待聚类文档删去。位于同一个关键词社区中的全部待聚类文档构成一个初始文档簇。任一初始文档簇中所有待聚类文档均表示一个或一类新闻事件。

值得说明的是，该第一预设阈值可根据实际应用场景、以能够将待聚类文档精准分配至对应的关键词社区为准进行具体设置。

图5为本公开中实施例提供的另一种文档聚类方法流程图，如图5所示，在本实施例的一些可选实现方式中，在步骤S1之前还包括：

步骤S0、接收输入的多个待聚类文档。

可选地，接收输入的新闻流(News Steam)，新闻流中包括多个新闻待聚类文档。如：接收周期性输入的每日新闻流，每日新闻流中包括当天的多个新闻待聚类文档。

进一步可选地，当接收周期性输入的每日新闻流时，步骤S1-步骤S4可根据周期性输入的新闻流周期性执行，或根据当天所输入的全部新闻流执行一次。

图6为本公开中实施例提供的又一种文档聚类方法流程图，如图6所示，在本实施例的一些可选实现方式中，在步骤S4之后还包括：

步骤S5、生成各初始文档簇的文档簇表示向量。

具体地，可通过本实施例中上述的命名实体和关键词抽取方式，将每个初始文档簇表示为一个包括命名实体和关键词的集合。根据集合中包括的命名实体与关键词生成文档簇表示向量。

可选地，文档簇表示向量的维度等于词共现网络中所有节点的总数量。文档簇表示向量根据该文档簇中所有的命名实体及关键词与词共现网络中所有节点所表示的命名实体及关键词生成。文档簇表示向量等于其所包含的全部命名实体及关键词的词表示向量的和，词表示向量用于表示该命名实体或关键词是否与词共现网络中的任意节点所表示的命名实体或关键词相同，词表示向量有N维，对于第i个词，其词表示向量中除第i维外的其他任一维取值均为0，第i维的取值为1。

步骤S6、计算任意两个初始文档簇的文档簇表示向量间的余弦相似度。

步骤S7、判断是否存在两个初始文档簇的文档簇表示向量间的余弦相似度是否大于第二预设阈值，若是，执行步骤S8；若否，流程结束。

当判断出存在两个初始文档簇的文档簇表示向量间的余弦相似度大于第二预设阈值时，表示该两个初始文档簇中的新闻待聚类文档均表示一个或一类新闻事件。

步骤S8、将文档簇表示向量间的余弦相似度大于第二预设阈值的两个初始文档簇合并为一个事件文档簇。

可选地，在一种特殊情况下，在步骤S7结束后，会存在某个初始文档簇的文档簇表示向量与其他初始文档簇的文档簇表示向量间的余弦相似度均小于或等于第二预设阈值，则此时需将该初始文档簇单独生成为事件文档簇。

值得说明的是，该第二预设阈值可根据实际应用场景、以能够有效合并两个内容重叠度较高的初始文档簇为准进行具体设置。

当经步骤S8生成的事件文档簇用于网页新闻搜索时，能够提升网页新闻的搜索效率、精准度及全面性。

可选地，本实施例中所述的各表示向量可通过独热(One Hot)编码的方式生成。

图7为本公开中实施例提供的再一种文档聚类方法流程图，如图7所示，在本实施例的一些可选实现方式中，在步骤S8之后还包括：

步骤S9、根据事件文档簇生成每日文档簇。

每日文档簇是指：其包括的事件文档簇经由当日输入的待聚类文档形成、或经由命名实体中包括当日信息的待聚类文档形成。

优选地，每日文档簇为每日新闻文档簇。

本实施例的文档聚类方法优选地适用于新闻文档，其能够针对新闻流的特性(即时性强、更新量大)对新闻待聚类文档进行处理，并最终生成每日新闻文档簇。

本实施例将输入的新闻流生成每日新闻文档簇，每日新闻文档簇中包括多个事件文档簇，每个事件文档簇表示一个新闻事件，有效实现了从海量的互联网资讯新闻中自动检测出细粒度新闻事件。

本公开实施例提供的文档聚类方法，能够对文档进行聚类，以实现对多个文档的细粒度检测，具有较高的细粒度检测准确率和召回率。当其应用于新闻文档聚类时，能够从海量的互联网资讯新闻中实时自动地检测出细粒度新闻事件并生成每日新闻文档簇，有效避免聚类出大事件新闻簇，且每日新闻文档簇可用于舆情分析或用户新闻推荐或文章自动写作。

应当注意，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

需要说明的是，在本公开中，上述各实施例中所涉及的技术手段在不相违背的情况可以相互结合。

图8为本公开实施例提供的一种文档聚类平台的结构示意图，如图8所示，该文档聚类平台可用于实现上述各实施例所提供的文档聚类方法，该文档聚类平台包括：构建模块11、第一计算模块12、抽取模块13和分配生成模块14。

其中，构建模块11用于根据多个待聚类文档构建词共现网络；

第一计算模块12用于计算词共现网络中任意的连接同一节点的两个链路间的链路相似度。

抽取模块13用于根据所述链路相似度从所述词共现网络中抽取出多个关键词社区。

分配生成模块14用于根据各待聚类文档的文档表示向量和各关键词社区的社群表示向量，分别将各待聚类文档分配至对应的关键词社区，并根据分配结果生成各关键词社区对应的初始文档簇，其中位于同一关键词社区中的全部待聚类文档构成一个初始文档簇。

进一步地，所述第一计算模块12具体用于计算连接同一节点的两个链路间的结构相似度和语义相似度，并根据所述结构相似度和所述语义相似度计算链路相似度。

进一步地，所述第一计算模块12具体用于通过公式计算连接同一节点的两个链路间的结构相似度，其中，e_ik表示节点i和节点k形成的链路，e_jk表示节点j和节点k形成的链路，S1(e_ik,e_jk)表示链路e_ik和链路e_jk间的结构相似度，n₊(i)表示由节点i及节点i的邻居节点所构成的集合，n₊(j)表示由节点j及节点j的邻居节点所构成的集合，n₊(i)∩n₊(j)表示n₊(i)与n₊(j)的交集，n₊(i)∪n₊(j)表示n₊(i)与n₊(j)的并集；

图9为本公开中分配生成模块的结构示意图，如图9所示，在本实施例的一些可选实时方式中，分配生成模块14包括：生成子模块141、判断子模块142、分配子模块143。

其中，生成子模块141用于生成待聚类文档的文档表示向量和各关键词社区的社群表示向量，所述社群表示向量和文档表示向量的维度等于词共现网络中所有节点的总数量。

判断子模块142用于分别判断各关键词社区的社群表示向量与待聚类文档的文档表示向量间的余弦相似度是否大于第一预设阈值。

分配子模块143用于若判断出关键词社区的社群表示向量与该待聚类文档的文档表示向量间的余弦相似度大于第一预设阈值时，则将该待聚类文档分配至该关键词社区。

进一步地，生成子模块141具体用于根据关键词社区中每个节点的权重值生成节点表示向量，所述权重值通过公式计算得出，其中，weight(w_i)表示关键词社区中节点i的权重值，表示链路e_ij的权重值。

图10为本公开提供的另一种文档聚类平台的结构示意图，如图10所示，与上述实施例中不同的是，该文档聚类平台还包括接收模块15，构建模块11包括抽取子模块111和构建子模块112。

其中，所述接收模块15用于接收输入的多个待聚类文档。

抽取子模块111用于从多个待聚类文档中抽取出命名实体和关键词。构建子模块112用于以各所述命名实体和关键词为节点构建词共现网络，节点之间的链路用于表示命名实体和/或关键词之间的文档共现关系。

图11为本公开提供的又一种文档聚类平台的结构示意图，如图11所示，与上述实施例中不同的是，该文档聚类平台还包括：第一生成模块16、第二计算模块17、判断模块18和合并模块19。

第一生成模块16用于生成各所述初始文档簇的文档簇表示向量。

第二计算模块17用于计算任意两个初始文档簇的文档簇表示向量间的余弦相似度。

判断模块18用于判断是否存在两个初始文档簇的文档簇表示向量间的余弦相似度是否大于第二预设阈值。

合并模块19用于若判断出存在两个初始文档簇的文档簇表示向量间的余弦相似度大于第二预设阈值时，则将文档簇表示向量间的余弦相似度大于第二预设阈值的两个初始文档簇合并为一个事件文档簇。

图12为本公开提供的又一种文档聚类平台的结构示意图，如图12所示，与上述实施例中不同的是，该文档聚类平台还包括：第二生成模块10。

第二生成模块10用于根据事件文档簇生成每日文档簇。

进一步地，上所述文档为新闻文档。

需要说明的是，在本公开中，上述各实施例中所涉及的技术手段在不相违背的情况可以相互结合。如：图11中所示的合并模块19可以与图12中所示的第二生成模块10进行结合。

本实施例中提供的文档聚类平台可用于实施本实施例中提供的对应的文档聚类方法。

另外，对于上述各模块和子模块的实现细节和技术效果的描述，可以参见前述方法实施例的说明，此处不再赘述。

本公开实施例还提供了一种服务器，该服务器包括：一个或多个处理器以及存储装置；其中，存储装置上存储有一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如前述各实施例所提供的文档聚类方法。

本公开实施例还提供了一计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被执行时实现如前述各实施例所提供的文档聚类方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

本文已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本公开的范围的情况下，可进行各种形式和细节上的改变。

Claims

1.一种文档聚类方法，包括：

根据多个待聚类文档构建词共现网络；

2.根据权利要求1所述的文档聚类方法，其中，计算连接同一节点的两个链路间的链路相似度的步骤包括：

3.根据权利要求2所述的文档聚类方法，其中，计算连接同一节点的两个链路间的结构相似度和语义相似度的步骤分别包括：

4.根据权利要求1所述的文档聚类方法，其中，将待聚类文档分配至对应的关键词社区的步骤包括：

5.根据权利要求4所述的文档聚类方法，其中，生成各关键词社区的社群表示向量的步骤包括：

根据关键词社区中每个节点的权重值生成节点表示向量，所述权重值通过公式计算得出，其中，weight(w_i)表示关键词社区中节点i的权重值，表示链路e_ij的权重值。

6.根据权利要求1所述的文档聚类方法，其中，

在所述根据多个待聚类文档构建词共现网络的步骤之前，还包括：接收输入的多个待聚类文档；

所述根据多个待聚类文档构建词共现网络的步骤包括：

从多个待聚类文档中抽取出命名实体和关键词；

7.根据权利要求1所述的文档聚类方法，其中，在根据分配结果生成各关键词社区对应的初始文档簇的步骤之后，还包括：

生成各所述初始文档簇的文档簇表示向量；

8.根据权利要求7所述的文档聚类方法，其中，在将两个初始文档簇合并为一个事件文档簇步骤之后还包括：

根据事件文档簇生成每日文档簇。

9.根据权利要求1-8任一所述的文档聚类方法，其中，所述文档为新闻文档。

10.一种文档聚类平台，包括：

构建模块，用于根据多个待聚类文档构建词共现网络；

11.根据权利要求10所述的文档聚类平台，其中，所述第一计算模块具体用于计算连接同一节点的两个链路间的结构相似度和语义相似度，并根据所述结构相似度和所述语义相似度计算链路相似度。

12.根据权利要求11所述的文档聚类平台，其中，所述第一计算模块具体用于通过公式计算连接同一节点的两个链路间的结构相似度，其中，e_ik表示节点i和节点k形成的链路，e_jk表示节点j和节点k形成的链路，S1(e_ik,e_jk)表示链路e_ik和链路e_jk间的结构相似度，n₊(i)表示由节点i及节点i的邻居节点所构成的集合，n₊(j)表示由节点j及节点j的邻居节点所构成的集合，n₊(i)∩n₊(j)表示n₊(i)与n₊(j)的交集，n₊(i)∪n₊(j)表示n₊(i)与n₊(j)的并集；

13.根据权利要求10所述的文档聚类平台，其中，所述分配生成模块包括：

14.根据权利要求13所述的文档聚类平台，其中，所述生成子模块具体用于根据关键词社区中每个节点的权重值生成节点表示向量，所述权重值通过公式计算得出，其中，weight(w_i)表示关键词社区中节点i的权重值，表示链路e_ij的权重值。

15.根据权利要求10所述的文档聚类平台，其中，还包括接收模块，所述接收模块用于接收输入的多个待聚类文档；

所述构建模块具体包括：

16.根据权利要求10所述的文档聚类平台，其中，还包括：

17.根据权利要求10所述的文档聚类平台，其中，还包括：

第二生成模块，用于根据事件文档簇生成每日文档簇。

18.根据权利要求10-17任一所述的文档聚类平台，其中，所述文档为新闻文档。

19.一种服务器，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-9中任一所述的文档聚类方法。

20.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被执行时实现如权利要求1-9中任一所述的文档聚类方法。