CN110968690A

CN110968690A - 词语的聚类划分方法和装置、设备以及存储介质

Info

Publication number: CN110968690A
Application number: CN201811162529.8A
Authority: CN
Inventors: 周旭辉
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2020-04-07
Anticipated expiration: 2038-09-30
Also published as: CN110968690B

Abstract

本发明实施例公开了一种词语的聚类划分方法和装置、设备以及存储介质。所述方法包括：根据样本文本中词语之间的关系确定各个词语的词语向量；根据设定范围内的各词语的词语向量确定各词语的层级聚类划分结果，其中，层级聚类划分结果包括至少两层聚类结果，每层聚类结果对所有词语采用对应的聚类尺度进行聚类，各层聚类结果对应的聚类尺度不同。本发明实施例的技术方案解决了现有技术中词语分类划分费时费力、计算量大的技术缺陷，实现了在引用人类知识的同时，可以省时省力、准确、有效且小计算量地对词语集合进行不同聚合度的划分。

Description

词语的聚类划分方法和装置、设备以及存储介质

技术领域

本发明实施例涉及词语划分技术领域，尤其涉及一种词语的聚类划分方法和装置、设备以及存储介质。

背景技术

一般来说，许多模型的训练样本使用的都是具有不同属性的很多组词语，那么，该具有不同属性的很多组词语的划分准确度对模型的训练结果的好坏有着决定性的影响。

现有技术中的词语分类方法，一种是通过人工分析样本，然后将人类知识融入到计算方法中提取特征，最后分析相关性并引入模型训练查看是否分类结果的有效性；另外一种是根据Ngram方法进行词语分类。

发明人在实现本发明的过程中，发现现有技术存在如下缺陷：通过人工分析方样本的方法费时费力，同时极度依赖开发人员的知识，不能大规模推广；由于Ngram方法在3阶以上算法开销指数级增长。

发明内容

有鉴于此，本发明实施例提供了一种词语的聚类划分方法和装置、设备以及存储介质，以优化现有的词语分类方法，实现了省时省力、准确、有效且小计算量地对词语集合进行不同聚合度的划分。

在第一方面，本发明实施例提供了一种词语的聚类划分方法，包括：

根据样本文本中词语之间的关系确定各个词语的词语向量；

根据设定范围内的各词语的所述词语向量确定各词语的层级聚类划分结果，其中，所述层级聚类划分结果包括至少两层聚类结果，每层聚类结果对所有词语采用对应的聚类尺度进行聚类，各层聚类结果对应的聚类尺度不同。

在第二方面，本发明实施例提供了一种词语的聚类划分装置，包括：

词语向量确定模块，用于根据样本文本中词语之间的关系确定各个词语的词语向量；

层级聚类划分模块，用于根据设定范围内的各词语的所述词语向量确定各词语的层级聚类划分结果，其中，所述层级聚类划分结果包括至少两层聚类结果，每层聚类结果对所有词语采用对应的聚类尺度进行聚类，各层聚类结果对应的聚类尺度不同。

在第三方面，本发明实施例提供了一种设备，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例所述的方法。

在第四方面，本发明实施例提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行本发明任意实施例所述的方法。

本发明实施例提供了一种词语的聚类划分方法和装置、设备以及存储介质，依据根据词语关系所确定的词语向量，将词语集合以不同的聚类尺度进行至少两个层级的整体划分，解决了现有技术中词语分类划分费时费力、计算量大的技术缺陷，实现了在引用人类知识的同时，可以省时省力、准确、有效且小计算量地对词语集合进行不同聚合度的划分。

附图说明

图1是本发明实施例一提供的一种词语的聚类划分方法的流程图；

图2是本发明实施例二提供的一种词语的聚类划分方法的流程图；

图3是本发明实施例三提供的一种词语的聚类划分方法的流程图；

图4是本发明实施例四提供的一种词语的聚类划分方法的流程图；

图5是本发明实施例五提供的一种词语的聚类划分装置的结构图；

图6是本发明实施例六提供的一种设备的结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。

另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1为本发明实施例一提供的一种词语的聚类划分方法的流程图，本实施例的方法可以由词语的聚类划分装置来执行，该装置可通过硬件和/或软件的方式实现，并一般可集成于计算机设备中。本实施例的方法具体包括：

S101、根据样本文本中词语之间的关系确定各个词语的词语向量。

在本实施例中，样本文本具体可以是同属于同一类别的文本(例如文学类、艺术类以及技术知识类等等)，也可以是不同类别的文本，本实施例对此不进行限制。样本文本如何选取具体可以根据步骤202中得到的词语的层级聚类划分结果的应用方式确定。示例性地，如果词语的层级聚类划分结果用于训练可对文本进行技术领域划分的模型，则可以选取不同技术领域的技术知识类文本作为样本文本。

在本实施例中，样本文本中的词语可以是通过对样本文本进行分词并去除虚词、连词、停用词和标点符号后得到的词语。样本文本中词语之间的关系具体可以是由一个样本文本中的语句的前后关系，以及各个语句中词语的前后关系所确定的该样本文本中的词语的前后关系。

在本实施例中，词语向量具体可以是通过神经网络或模型得到的，不同的词语对应不同的词语向量，词语向量之间的距离可以体现两个词语语义关系的远近。

S102、根据设定范围内的各词语的词语向量确定各词语的层级聚类划分结果，其中，层级聚类划分结果包括至少两层聚类结果，每层聚类结果对所有词语采用对应的聚类尺度进行聚类，各层聚类结果对应的聚类尺度不同。

在本实施例中，设定范围具体是指待进行层级聚类划分的词语集合，该设定范围可以仅包括有一个个的词语，也可以在包括有一个个词语的同时，还包括词语之间的关联数据。

在本实施例中，层级聚类划分具体是指对设定范围内的所有词语按照不同的聚类尺度，进行多个层次的整体划分，并且每一层的聚类划分结果都是根据前一层的聚类划分结果确定的。其中，聚类尺度具体是指在每一层对设定范围内的所有词语进行划分时，划分至同一词包的词语所对应的词语向量应满足的关系。其中，词包具体是指每一层的聚类划分结果中包括划分得到的一类词语的词语集合。

进一步地，在本实施例中，层级聚类划分结果中所包括的层级数量可以依据实际情况设定，但是至少应大于等于两层，即至少依据两种聚类尺度对设定范围内的所有词语进行整体划分。

进一步地，层级聚类划分结果中，每一层所包括的划分结果的数量(即词包的数量)应小于前一层所包括的划分结果的数量，由此可知，每一层的聚类尺度应大于前一层的聚类尺度。

本发明实施例提供了一种词语的聚类划分方法，依据根据词语关系所确定的词语向量，将词语集合以不同的聚类尺度进行至少两个层级的整体划分，解决了现有技术中词语分类划分费时费力、计算量大的技术缺陷，实现了在引用人类知识的同时，可以省时省力、准确、有效且小计算量地对词语集合进行不同聚合度的划分。

实施例二

图2是本发明实施例二提供的一种词语的聚类划分方法的流程图。本实施例以上述实施例为基础进行优化，在本实施例中，给出了一种具体化词语向量确定方法的具体实施方式。

相应的，本实施例的方法具体包括：

S201、将至少两个样本文本进行分词处理得到词语序列。

在本实施例中，对样本文本的数量进行了限定，样本文本的数量应至少为两个。可知的是，样本文本的数量越多，所得到的词语向量之间的距离可以更加准确地体现两个词语语义关系的远近。当然，样本文本的数量越多，同时也会增加用于确定词语向量的计算方法的计算量，因此，可以根据所需的准确度以及计算量确定样本文本的数量。

在本实施例中，词语序列具体是指将一个样本文本进行分词处理后得到的所有词语，按照其在样本文本中的先后顺序进行排序，进而得到的词语序列。每一个样本文本对应一个词语序列。

S202、对各词语序列进行拼接，得到样本词语序列。

在本实施例中，在得到每个样本文本对应的词语序列之后，会将所有的词语序列进行拼接，进而确定样本词语序列。其中，拼接具体是指将前一个词语序列的最后一个词语与后一个词语序列的第一个词语相连接，进而将所有词语序列连接起来。

进一步地，词语序列在拼接时的先后顺序是没有任何限定的，可以选取任意顺序进行拼接。

S203、从样本词语序列中顺序截取设定数量的词语形成关联词语集合。

在本实施例中，词语向量是通过自编码器确定的，首先，需要对自编码器进行训练。自编码器的训练样本就是通过样本词语序列获取的，具体的获取方法为：

从样本词语序列中按照从前至后的顺序依次截取设定数量的词语，将截取的结果作为自编码器的一个个训练样本，即关联词语集合。其中，设定数量应该等于自编码器的输入数量减1的结果，且设定数量应该大于等于3。

进一步地，在从样本词语序列中截取词语时，下述三种方法均可：

1、前一次截取的最后一个词语，与下一次截取的第一个词语相邻；

2、后一次截取的第一词语为前一次截取的词语中除第一个词语以外的任意一个词语

3、前一次截取的最后一个词语，与下一次截取的第一个词语之间相隔设定数量个词语

上述三种方法中，第二种方法的计算量最大但是计算结果(即词语向量)的准确度最高，第三种方法的计算量最小但是计算结果(即词语向量)的准确度最低。可以依据实际所需的计算精度、样本词语序列的内容等方面，来确定样本词语序列的截取方法。

S204、采用关联词语集合对自编码器进行训练，其中，每个关联词语集合包括至少三个词语，其中一个词语作为自编码器的编码输出，其他词语作为自编码器的编码输入。

在本实施例中，使用关联词语集合对自编码器的训练方法具体是将不同的关联词语集合分别输入自编码器，输入的顺序既可以与关联词语集合被截取的顺序相同，也可以不同。

关联词语集合输入自编码的方式为关联词语中的一个词语作为自编码器中编码过程的输出，其余词语作为自编码器的编码过程的输入(即自编码的输入)。

可知的是，自编码器中包括有编码和解码两个相对应的过程，其中解码过程用于验证编码过程的正确性，编码过程是一个完整的根据输入确定输出的过程。因此，在本实施例中，使用关联词语集合限定了自编码器的编码过程的输入和输出。

进一步地，关联词语集合中的第一个词语和最后一个词语不易作为自编码器的编码输出词语，因为关联词语集合中不包括第一个词语前面的词语以及最后一个词语后面的词语，可能会导致训练结果不准确。

进一步地，可以选取关联词语集合中除第一个词语以及最后一个词语以外的任意词语作为自编码器的编码输出。当然，当关联词语集合所包括的词语个数为奇数时，选取中间词语作为自编码器的编码输入可以提高训练结果的准确性；当关联词语集合所包括的词语个数为偶数时，选取中间两个词语中的任意词语作为自编码器的编码输入也可以提高训练结果的准确性。

S205、将关联词语集合中的每个不同的词语同时作为自编码器的一个编码输入和编码输出，以提取自编码器的隐层中所有神经元的当前数值，作为该词语的词语向量。

在本实施例中，在自编码器训练完成之后，即可使用自编码器获取样本词语序列中的不同词语分别对应的词语向量，具体方法如下：

首先，将样本词语序列中的不同的词语中的任意一个单独输入自编码器(即作为自编码器的编码输入)，同时该词语也作为自编码器的编码输出，此时自编码器的其他输入均置零；然后提取此时自编码器中编码功能的隐层中所有神经元的当前数值，使用所提取的所有数值组成一个一维向量，该向量即为该输入词语的词语向量。

S206、根据设定范围内的各词语的词语向量确定各词语的层级聚类划分结果，其中，层级聚类划分结果包括至少两层聚类结果，每层聚类结果对所有词语采用对应的聚类尺度进行聚类，各层聚类结果对应的聚类尺度不同。

本发明实施例提供了一种词语的聚类划分方法，该方法具体化了词语向量的确定方法，通过该方法获取的词语向量之间的距离可以更加准确地体现两个词语间语义关系的远近。

在上述各实施例的基础上，将从样本词语序列中顺序截取设定数量的词语形成关联词语集合，具体化为：采用设定数量长度的滑窗，按顺序从样本词语序列中选取设定数量的词语作为关联词语集合。

这样设置的好处是：可以快速、正确地获取关联词语结合。

在上述各实施例的基础上，将词语的数值具体化为唯一性编码规则确定的数值。其中，唯一性编码规则具体是指给不同的词语配置不同的编码，典型的可以是OneHot编码。

这样设置的好处是：提高自编码器训练的准确度，使得所获取的词语向量可以更加准确地体现两个词语间语义关系的远近。

实施例三

图3是本发明实施例三提供的一种词语的聚类划分方法的流程图。本实施例以上述实施例为基础进行优化，在本实施例中，给出了一种具体化层级聚类划分方法的具体实施方式。

相应的，本实施例的方法具体包括：

S301、根据样本文本中词语之间的关系确定各个词语的词语向量。

S302、选取待分类范围内的任一词语作为当前词包的中心词语，并根据待分类范围内的各词语的词语向量，分别计算待分类范围内的其他词语与中心词语的向量距离，其中，待分类范围为设定范围，或为设定范围除去已完成聚类划分的词语得到的词语范围。

在本实施例中，在对设定范围内的词语进行第一层的聚类划分时，首先会选取设定范围内的任意一个词语作为当前的中心词语，该中心词语所位于的词语集合为当前词包。

进一步地，在确定中心词语之后，会分别计算该中心词语与设定范围内的其他所有词语之间的向量距离，具体可以是通过余弦距离算法进行计算等。

进一步地，在本实施例中，如果已经确定第一层中的一个词包之后，那么在获取下一个词包时，中心词的选取就不再是从设定范围内的所有词语中进行选取了，而是应该从设定范围内没有划分至第一个词包中的其他词语中任意选取一个词语作为第二个词包的中心词，依次类推，之后的中心词也是如此选取。

S303、对应于向量距离的递增顺序，对待分类范围内的其他词语进行排序。

可知的是，词语向量之间的距离可以体现两个词语的语义关系的远近，因此，可以根据计算得到的词语向量来选取加入当前词包的词语。

因此，在本实施例中，首先依据计算得到的向量距离的递增顺序，对待分类范围内的其他词语进行排序。可见在排序结果中，与中心词语之间的向量距离最小的词语排在最前面，由此，依据排序结果顺序选取词语加入当前词包可以保证将与中心词语语义最近接的词语都加入当前词包。

S304、从前至后依次从排序结果中选取一个词语加入当前词包，并计算当前词包的词语聚合度。

在本实施例中，词语聚合度具体可以是用于体现当前词包的所有词语的整体语义发散程度的数据，典型的可以是社区发现算法中的模块化度量值等。

在本实施例中，每将一个词语加入到当前词包中都会计算一遍当前词包的词语聚合度。

S305、判断当前词包的词语聚合度是否大于当前层的词语聚合度阈值，若是，则执行步骤307，若否，则执行步骤306。

在本实施例中，每一层的聚类划分都对应一个词语聚合度阈值，不同的层对应的词语聚合度阈值不同，层级越高对应的词语聚合度阈值越小。

S306、将当前词包中最后一个加入的词语去除，其余词语确定为一个聚类词包，并返回执行步骤302，直至将设定范围内的所有词语划分至聚类词包。

在本实施例中，如果当前词包的词语聚合度小于第一层对应的词语聚合度阈值时，则认为当前词包中的所有词语的语义发散度大于第一层所允许的词包的发散度，此时会将最后一个加入当前词包中的词语去除，然后将当前词包中的其余词语确定为一个聚类词包。被去除的词语会在第一层之后的聚类划分过程中，划分至其他聚类词包。

S307、返回执行步骤304，直至将待分类范围内的所有词语划分至聚类词包。

在本实施例中，如果当前词包的词语聚合度大于第一层对应的词语聚合度阈值时，则认为当前词包中的所有词语的语义发散度较小，因此可以继续增加当前词包中的词语，所以此时会返回步骤304，再获取一个词语添加至当前词包，直至将待分类范围内的所有词语划分至聚类词包。

S308、更新下一层为当前层。

S309、从上一层聚类划分结果中的未在当前层完成聚类划分的聚类词包中，选取任意一个聚类词包作为当前词包，选取其余词包作为待聚类词包，并分别计算当前词包与各待聚类词包间的词包聚合度。

在本实施例中，步骤309至步骤314组成的聚类划分过程应用于对第一层以外的其他任意层进行聚类划分。

在本实施例中，在对第一层以外的其他层进行聚类划分时，会以上一层聚类划分得到的聚类词包为最小的聚类单位进行聚类划分，即第一层以外的其它层的聚类划分结果都是上一层中的聚类词包的组合结果。

在本实施例中，当前词包与各待聚类词包间的词包聚合度的计算方法具体可以是将当前词包中的词语与任意一个待聚类词包中的词语合并为一个大词包，然后根据该大词包中的所有词语对应的词语向量计算该大词包的词语聚合度，并将计算结果作为当前词包与该待聚类词包间的词包聚合度。

S310、对应于词包聚合度的递减顺序，对待聚类词包进行排序。

在本实施例中，在词包聚合度计算完成之后，同样需要依据词包聚合度的递减顺序，对待聚类词包进行排序。

S311、从前至后依次从排序结果中选取一个待聚类词包与当前词包合并得到新的当前词包，并计算当前词包的词包聚合度。

在本实施例中，步骤311中计算词包聚合度的方法与步骤309中计算词包聚合度的方法相同。

S312、判断词包聚合度是否大于当前层的词语聚合度阈值，若是，则执行步骤314，若否，则执行步骤313。

S313、将最后加入当前词包中的待聚类词包中的所有词从当前词包中去除后，得到一个当前层的聚类词包，并返回执行步骤309，直至完成对上一层聚类划分结果中的所有聚类词包的聚类划分。

同样地，在本实施例中，如果当前词包的语词聚合度小于当前层对应的词语聚合度阈值时，则认为当前词包中的所有词语的语义发散度大于当前层所允许的词包的发散度，此时会将最后一个加入当前词包中的待聚类词包中的所有词语去除，然后将当前词包中的其余词语确定为一个当前层的聚类词包。被去除的待聚类词包会在当前层之后的聚类划分过程中，划分至其他聚类词包。

S314、返回执行步骤311，直至完成对上一层聚类划分结果中的所有聚类词包的聚类划分。

同样地，在本实施例中，如果当前词包的词包聚合度大于当前层对应的词语聚合度阈值时，则认为当前词包中的所有词语的语义发散度较小，因此可以继续合并待聚类词包至当前词包，所以此时会返回步骤311，再获取一个待聚类词包添加至当前词包，直至完成对上一层聚类划分结果中的所有聚类词包的聚类划分。

S315、返回当前层更新操作，直至上一层聚类划分结果中的任意两个聚类词包间的词语聚合度均大于当前层的词语聚合度阈值时停止聚类。

在本实施例中，会依据每一层对应的词语聚合度阈值对设定范围内的左右词语进行聚类划分，如果下一层中任意两个聚类词包之间的词包聚合度都小于当前层对应的词语聚合度阈值，则结束对设定范围内的词语进行的层级聚类划分操作。

本发明实施例提供了一种词语的聚类划分方法，该方法具体化了层级聚类划分方法，实现了准确、有效地依据词语间的语义关系，对词语集合中的词语进行不同语义分散程度的划分。

在上述各实施例的基础上，将层级聚类划分方法具体化为社区发现方法。

这样设置的好处是：可以更加准确、有效地依据词语间的语义关系，对词语集合中的词语进行不同语义分散程度的划分。

实施例四

图4是本发明实施例四提供的一种词语的聚类划分方法的流程图。本实施例以上述实施例为基础进行优化，在本实施例中，给出了一种将设定范围具体化为词语关系网络，并相应地增加了词语关系网络的获取方法，还增加了层级聚类划分结果的正确性的验证过程的具体实施方式。

相应的，本实施例的方法具体包括：

S401、根据样本文本中词语之间的关系确定各个词语的词语向量。

S402、获取各个待关联词语分别对应的词条搜索结果。

在本实施例中，通过步骤402至步骤405获取了词语关系网络，该词语关系网络即为上述设定范围内，所不同的是本实施例中用于进行层级聚类划分的词语集合(即词语关系网络)中不但包括有词语，还包括有词语之间的关系数据。

在进行层级聚类划分时，如果参照词语之间的关系数据，可以大大减小计算量。例如，在确定当前词包的中心词语之后，无需再计算该中心词语与所有其他词语之间的向量距离，只需计算该中心词相关联的词语与中心词之间的向量距离即可。

在本实施例中，词语关系网络是依据待关联词语的词条搜索结果获取的。其中，待关联词语具体可以是任意词语，但是应尽量选取辐射面较大的词语作为待关联词语，以丰富词语关系网络词语间的关系。其中，词条搜索结果具体可以是在将待关联词语作为搜索词时，各条搜索结果的标题。

S403、根据词条搜索结果的分词结果，确定各个待关联词语分别对应的相关词语。

在本实施例中，在获取待关联词语对应的词条搜索结果之后，将词条搜索结果进行分词处理，然后将分词处理后得到的所有词语均作为待关联词语对应的相关词语。

S404、将每一个待关联词语以及待关联词语对应的相关词语，组成一个词语关系组。

在本实施例中，在确定每一个待关联词语对应的相关词语之后，会将每一个待关联词语及其相关词语组成一个词语关系组。词语关系组中不但包括有待关联词语及其相关词语，同时还包括有待关联词语与相关词语之间的关系数据。

S405、根据所有词语关系组生成词语关系网络。

在本实施例中，词语关系网络是由步骤404中生成的词语关系组组成的。这里需要说明的是，并不是通过将词语关系组简单的合并形成了词语关系网络，在词语关系网络中并没有词语关系组的概念，只有词语之间的关系的概念。

在本实施例中，在将词语关系组加入到词语关系网络之后，会综合参照各个词语关系组中所包括的所有词语以及词语关系，建立一个词语之间的关系网络，该网络中包括有所有不同词语之间关系数据。

S406、根据词语关系网络中的所有词语的词语向量，采用层级聚类划分方法确定所有词语的层级聚类划分结果，其中，层级聚类划分结果包括至少两层聚类结果，每层聚类结果对所有词语采用对应的聚类尺度进行聚类，各层聚类结果对应的聚类尺度不同。

在本实施例中，层级聚类划分的对象是词语关系网络，由于词语关系网络中包括有词语之间的关系，因此在进行第一层的聚类划分时，可以只计算中心词语以及该中心词语相关的其他待划分词语之间的向量距离。由于第一层对应的词语聚合度阈值一般较高，因此在第一层中与中心词语不相关的词语一般不会与中心词语划分至一个词包中，由此，就可以大大降低第一层聚类划分时的计算量。

S407、根据对验证文本进行分词处理得到的分词序列，以及层级聚类划分结果，获取验证文本对应的层级特征。

在本实施例中，验证文本具体可以是与词语关系网络对应的文本。具体来说，如果用于建立词语关系网络的待关联词语均是艺术类词语，那么验证文本也应为艺术类文本，如此才可以对层级聚类划分结果进行有效的验证。

在本实施例中，验证文本对应的层级特征具体是指验证文本中的不同的词语与层级聚类划分结果的关系。

举例来说，验证文本中仅包括有“水杯”、“不锈钢锅”以及“铲子”这三个词语，层级聚类划分结果中仅包含有两层划分结果，第一层包括有1号、2号以及3号共3个词包，第二层中包括有4号以及5号两个词包。“水杯”属于1号和4号词包，“不锈钢锅”属于1号和4号词包，“铲子”属于2号和4号词包，那么验证文本对应的层级特征为击中两次1号词包，击中一次2号词包以及击中三次4号词包。

S408、将层级特征输入聚类结果验证模型，获取验证文本的分类结果。

在本实施例中，聚类结果验证模型具体是指可以依据验证文本对应的层级特征对验证文本的属性进行判断的模型，典型的可以是二分类模型等。

在本实施例中，验证文本的分类结果具体可以是验证文本所属的类别(例如文艺类，技术知识类等)，验证文本是否包括有不良内容等等。

S409、根据分类结果以及验证文本的属性，确定层级聚类划分结果的准确性。

在本实施例中，验证文本的属性具体可以是验证文本的类别、验证文本中是否包括有不良内容、验证文本所属的技术领域等。

进一步地，如果分类结果与验证文本的属性相同，则确定层级聚类划分结果准确；如果分类结果与验证文本的属性不相同，则确定层级聚类划分结果不准确。当然，也可以根据多个验证文本对应的分类结果确定层级聚类划分结果的准确性。例如，如果10个验证文本对应的分类结果中，有8个与验证文本的属性相同，有2个与验证文本的属性不同，则确定层级聚类划分结果准确。

本发明实施例提供了一种词语的聚类划分的方法，该方法将设定范围具体化为词语关系网络，并相应地增加了词语关系网络的获取方法，大大减少了层级聚类划分的计算量以及计算时间，还增加了层级聚类划分结果的正确性的验证过程，以通过验证结果对层级聚类划分的方法进行进一步优化。

在上述各实施例的基础上，将验证文本的属性具体化为至少包括验证文本的类别以及验证文本的撰写者的属性。其中，验证文本的撰写者的属性具体可以是撰写者是否为不良人员。例如，当验证文本中出现了大量的金融诈骗相关词语时，可确定验证文本的撰写者为金融诈骗人员。

这样设置的好处是：如果分类结果与验证文本属性的比对结果较好，可以根据层级聚类结果实现对文本的自动化分类，且分类结果准确度较高。

实施例五

图5是本发明实施例五提供的一种词语的聚类划分装置的结构图。如图5所示，所述装置包括：词语向量确定模块501以及层级聚类划分模块502，其中：

词语向量确定模块501，用于根据样本文本中词语之间的关系确定各个词语的词语向量；

层级聚类划分模块502，用于根据设定范围内的各词语的词语向量确定各词语的层级聚类划分结果，其中，层级聚类划分结果包括至少两层聚类结果，每层聚类结果对所有词语采用对应的聚类尺度进行聚类，各层聚类结果对应的聚类尺度不同。

本发明实施例提供了一种词语的聚类划分装置，该装置首先通过词语向量确定模块501根据样本文本中词语之间的关系确定各个词语的词语向量，然后通过层级聚类划分模块502根据设定范围内的各词语的词语向量确定各词语的层级聚类划分结果，其中，层级聚类划分结果包括至少两层聚类结果，每层聚类结果对所有词语采用对应的聚类尺度进行聚类，各层聚类结果对应的聚类尺度不同。

该装置解决了现有技术中词语分类划分费时费力、计算量大的技术缺陷，实现了在引用人类知识的同时，可以省时省力、准确、有效且小计算量地对词语集合进行不同聚合度的划分。

在上述各实施例的基础上，词语向量确定模块501可以包括：

自编码器训练单元，用于采用关联词语集合对自编码器进行训练，其中，每个关联词语集合包括至少三个词语，其中一个词语作为自编码器的编码输出，其他词语作为自编码器的编码输入；

向量确定单元，用于根据训练完成的自编码器，确定关联词语集合中每个词语的词语向量。

在上述各实施例的基础上，向量确定单元具体可以用于：

将关联词语集合中的每个不同的词语同时作为自编码器的一个编码输入和编码输出，以提取自编码器的隐层中所有神经元的当前数值，作为该词语的词语向量。

在上述各实施例的基础上，还可以包括：

词语序列获取模块，用于采用关联词语集合对自编码器进行训练之前，将至少两个样本文本进行分词处理得到词语序列；

样本词语序列获取模块，用于对各词语序列进行拼接，得到样本词语序列；

关联词语集合获取模块，用于从样本词语序列中顺序截取设定数量的词语形成关联词语集合。

在上述各实施例的基础上，关联词语集合获取模块具体可以用于：

采用设定数量长度的滑窗，按顺序从样本词语序列中选取设定数量的词语作为关联词语集合。

在上述各实施例的基础上，词语的数值可以为唯一性编码规则确定的数值。

在上述各实施例的基础上，层级聚类划分模块502可以包括：

第一层聚类单元，用于根据由设定范围内的各词语的词语向量所确定词语间的向量距离，以及当前层的词语聚合度阈值，将设定范围内的各词语划分为多个聚类词包，其中，多个聚类词包为各词语的层级聚类划分结果中的第一层聚类划分结果；

层更新单元，用于更新下一层为当前层；

其他层聚类单元，用于根据上一层聚类划分结果中的各聚类词包间的词语聚合度，以及当前层词语聚合度阈值，对上一层聚类划分结果中的各聚类词包进行合并，得到当前层的层级聚类划分结果；

返回更新层单元，用于返回当前层更新操作，直至上一层聚类划分结果中的任意两个聚类词包间的词语聚合度均大于当前层的词语聚合度阈值时停止聚类。

在上述各实施例的基础上，第一层聚类单元可以包括：

向量距离获取子单元，用于选取待分类范围内的任一词语作为当前词包的中心词语，并根据待分类范围内的各词语的词语向量，分别计算待分类范围内的其他词语与中心词语的向量距离，其中，待分类范围为设定范围，或为设定范围除去已完成聚类划分的词语得到的词语范围；

词语排序子单元，用于对应于向量距离的递增顺序，对待分类范围内的其他词语进行排序；

第一聚合度计算子单元，用于从前至后依次从排序结果中选取一个词语加入当前词包，并计算当前词包的词语聚合度；

第一聚合度判断子单元，用于判断当前词包的词语聚合度是否大于当前层的词语聚合度阈值；

第一聚类词包确定子单元，用于若当前词包的词语聚合度小于当前层的词语聚合度阈值，则将当前词包中最后一个加入的词语去除，其余词语确定为一个聚类词包，并返回执行选取待分类范围内的任一词语作为当前词包的中心词语，并根据待分类范围内的各词语的词语向量，分别计算待分类范围内的其他词语与中心词语的向量距离的操作，直至将待分类范围内的所有词语划分至聚类词包；

再次获取词语子单元，用于若词语聚合度大于当前层的词语聚合度阈值，则返回执行从前至后依次从排序结果中选取一个词语加入当前词包，并计算当前词包的词语聚合度的操作，直至将设定范围内的所有词语划分至聚类词包。

在上述各实施例的基础上，其他层聚类单元可以包括：

第二聚合度计算子单元，用于从上一层聚类划分结果中的未在当前层完成聚类划分的聚类词包中，选取任意一个聚类词包作为当前词包，选取其余词包作为待聚类词包，并分别计算当前词包与各待聚类词包间的词包聚合度；

词包排序子单元，用于对应于词包聚合度的递减顺序，对待聚类词包进行排序；

第三聚合度计算子单元，用于从前至后依次从排序结果中选取一个待聚类词包与当前词包合并得到新的当前词包，并计算当前词包的词包聚合度；

第二聚合度判断子单元，用于判断词包聚合度是否大于当前层的词语聚合度阈值；

第二聚类词包确定子单元，用于若词包聚合度小于当前层的词语聚合度阈值，则将最后加入当前词包中的待聚类词包中的所有词从当前词包中去除后，得到一个当前层的聚类词包，并返回执行从上一层聚类划分结果中的未在当前层完成聚类划分的聚类词包中，选取任意一个聚类词包作为当前词包，选取其余词包作为待聚类词包，并分别计算当前词包与各待聚类词包间的词包聚合度的操作，直至完成对上一层聚类划分结果中的所有聚类词包的聚类划分；

再次获取词包子单元，用于若词包聚合度大于当前层的词语聚合度阈值，则返回执行从前至后依次从排序结果中选取一个待聚类词包与当前词包合并得到新的当前词包，并计算当前词包的词包聚合度的操作，直至完成对上一层聚类划分结果中的所有聚类词包的聚类划分。

在上述各实施例的基础上，层级聚类划分方法可以为社区发现方法。

在上述各实施例的基础上，层级聚类划分模块502具体可以用于：

根据词语关系网络中的所有词语的词语向量，采用层级聚类划分方法确定所有词语的层级聚类划分结果。

在上述各实施例的基础上，还可以包括：

搜索结果获取模块，用于在根据词语关系网络中的所有词语的词语向量，采用层级聚类划分方法确定所有词语的层级聚类划分结果之前，获取各个待关联词语分别对应的词条搜索结果；

相关词语确定模块，用于根据词条搜索结果的分词结果，确定各个待关联词语分别对应的相关词语；

词语关系组确定模块，用于将每一个待关联词语以及待关联词语对应的相关词语，组成一个词语关系组；

词语关系网络生成模块，用于根据所有词语关系组生成词语关系网络。

在上述各实施例的基础上，还可以包括：

层级特征获取模块，用于在根据词语关系网络中的所有词语的词语向量，采用层级聚类划分方法确定所有词语的层级聚类划分结果之后，根据对验证文本进行分词处理得到的分词序列，以及层级聚类划分结果，获取验证文本对应的层级特征；

分类结果获取模块，用于将层级特征输入聚类结果验证模型，获取验证文本的分类结果；

准确性确定模块，用于根据分类结果以及验证文本的属性，确定层级聚类划分结果的准确性。

在上述各实施例的基础上，验证文本的属性至少可以包括验证文本的类别以及验证文本的撰写者的属性。

本发明实施例所提供的词语的聚类划分装置可用于执行本发明任意实施例提供的词语的聚类划分方法，具备相应的功能模块，实现相同的有益效果。

实施例六

图6为本发明实施例六提供的一种设备的结构示意图。图6示出了适于用来实现本发明实施方式的示例性设备12的框图。图6显示的设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图6未显示，通常称为“硬盘驱动器”)。尽管图6中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该设备12交互的设备通信，和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与设备12的其它模块通信。应当明白，尽管图中未示出，可以结合设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的词语的聚类划分方法。也即：根据样本文本中词语之间的关系确定各个词语的词语向量；根据设定范围内的各词语的所述词语向量确定各词语的层级聚类划分结果，其中，所述层级聚类划分结果包括至少两层聚类结果，每层聚类结果对所有词语采用对应的聚类尺度进行聚类，各层聚类结果对应的聚类尺度不同。

实施例七

本发明实施例七还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行本发明实施例所述的词语的聚类划分方法。也即：根据样本文本中词语之间的关系确定各个词语的词语向量；根据设定范围内的各词语的所述词语向量确定各词语的层级聚类划分结果，其中，所述层级聚类划分结果包括至少两层聚类结果，每层聚类结果对所有词语采用对应的聚类尺度进行聚类，各层聚类结果对应的聚类尺度不同。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种词语的聚类划分方法，其特征在于，包括：

根据样本文本中词语之间的关系确定各个词语的词语向量；

2.根据权利要求1所述的方法，其特征在于，根据样本文本中词语之间的关系确定各个词语的词语向量包括：

采用关联词语集合对自编码器进行训练，其中，每个关联词语集合包括至少三个词语，其中一个词语作为自编码器的编码输出，其他词语作为自编码器的编码输入；

根据训练完成的自编码器，确定关联词语集合中每个词语的词语向量。

3.根据权利要求2所述的方法，其特征在于，根据训练完成的自编码器，确定关联词语集合中每个词语的词语向量包括：

将所述关联词语集合中的每个不同的词语同时作为所述自编码器的一个编码输入和编码输出，以提取所述自编码器的隐层中所有神经元的当前数值，作为该词语的词语向量。

4.根据权利要求2或3所述的方法，其特征在于，采用关联词语集合对自编码器进行训练之前，还包括：

将至少两个样本文本进行分词处理得到词语序列；

对各词语序列进行拼接，得到样本词语序列；

从所述样本词语序列中顺序截取设定数量的词语形成所述关联词语集合。

5.根据权利要求4所述的方法，其特征在于，所述从所述样本词语序列中顺序截取设定数量的词语形成所述关联词语集合，包括：

采用设定数量长度的滑窗，按顺序从所述样本词语序列中选取设定数量的词语作为关联词语集合。

6.根据权利要求2或3所述的方法，其特征在于，所述词语的数值为唯一性编码规则确定的数值。

7.根据权利要求1所述的方法，其特征在于，根据设定范围内的各词语的所述词语向量确定各词语的层级聚类划分结果包括：

根据由设定范围内的各词语的所述词语向量所确定词语间的向量距离，以及当前层的词语聚合度阈值，将所述设定范围内的各词语划分为多个聚类词包，其中，所述多个聚类词包为所述各词语的层级聚类划分结果中的第一层聚类划分结果；

更新下一层为当前层；

根据上一层聚类划分结果中的各聚类词包间的词包聚合度，以及当前层的词语聚合度阈值，对上一层聚类划分结果中的各聚类词包进行合并，得到当前层的层级聚类划分结果；

返回当前层更新操作，直至上一层聚类划分结果中的任意两个聚类词包间的词语聚合度均大于当前层的词语聚合度阈值时停止聚类。

8.根据权利要求7所述的方法，其特征在于，根据由设定范围内的各词语的所述词语向量所确定词语间的向量距离，以及当前层的词语聚合度阈值，将所述设定范围内的各词语划分为多个聚类词包，包括：

选取待分类范围内的任一词语作为当前词包的中心词语，并根据所述待分类范围内的各词语的所述词语向量，分别计算所述待分类范围内的其他词语与所述中心词语的向量距离，其中，所述待分类范围为设定范围，或为所述设定范围除去已完成聚类划分的词语得到的词语范围；

对应于所述向量距离的递增顺序，对所述待分类范围内的其他词语进行排序；

从前至后依次从排序结果中选取一个词语加入所述当前词包，并计算所述当前词包的词语聚合度；

判断所述当前词包的词语聚合度是否大于当前层的词语聚合度阈值；

若所述当前词包的词语聚合度小于所述当前层的词语聚合度阈值，则将所述当前词包中最后一个加入的词语去除，其余词语确定为一个聚类词包，并返回执行选取待分类范围内的任一词语作为当前词包的中心词语，并根据所述待分类范围内的各词语的所述词语向量，分别计算所述待分类范围内的其他词语与所述中心词语的向量距离的操作，直至将所述设定范围内的所有词语划分至聚类词包；

若所述当前词包的词语聚合度大于所述当前层的词语聚合度阈值，则返回执行从前至后依次从排序结果中选取一个词语加入所述当前词包，并计算所述当前词包的词语聚合度的操作，直至将所述待分类范围内的所有词语划分至聚类词包。

9.根据权利要求7所述的方法，其特征在于，根据上一层聚类划分结果中的各聚类词包间的词包聚合度，以及当前层词语聚合度阈值，对上一层聚类划分结果中的各聚类词包进行合并，得到当前层的层级聚类划分结果，包括：

从上一层聚类划分结果中的未在当前层完成聚类划分的聚类词包中，选取任意一个聚类词包作为当前词包，选取其余词包作为待聚类词包，并分别计算所述当前词包与各所述待聚类词包间的词包聚合度；

对应于所述词包聚合度的递减顺序，对所述待聚类词包进行排序；

从前至后依次从排序结果中选取一个待聚类词包与所述当前词包合并得到新的当前词包，并计算所述当前词包的词包聚合度；

判断所述词包聚合度是否大于当前层的词语聚合度阈值；

若所述词包聚合度小于所述当前层的词语聚合度阈值，则将最后加入所述当前词包中的待聚类词包中的所有词从所述当前词包中去除后，得到一个当前层的聚类词包，并返回执行从上一层聚类划分结果中的未在当前层完成聚类划分的聚类词包中，选取任意一个聚类词包作为当前词包，选取其余词包作为待聚类词包，并分别计算所述当前词包与各所述待聚类词包间的词包聚合度的操作，直至完成对上一层聚类划分结果中的所有聚类词包的聚类划分；

若所述词包聚合度大于所述当前层的词语聚合度阈值，则返回执行从前至后依次从排序结果中选取一个待聚类词包与所述当前词包合并得到新的当前词包，并计算所述当前词包的词包聚合度的操作，直至完成对上一层聚类划分结果中的所有聚类词包的聚类划分。

10.根据权利要求7所述的方法，其特征在于，所述层级聚类划分方法为社区发现方法。

11.根据权利要求1所述的方法，其特征在于，根据设定范围内的各词语的所述词语向量确定各词语的层级聚类划分结果包括：

12.根据权利要求11所述的方法，其特征在于，根据词语关系网络中的所有词语的词语向量，采用层级聚类划分方法确定所有词语的层级聚类划分结果之前，还包括：

获取各个待关联词语分别对应的词条搜索结果；

根据所述词条搜索结果的分词结果，确定所述各个待关联词语分别对应的相关词语；

将每一个所述待关联词语以及所述待关联词语对应的相关词语，组成一个词语关系组；

根据所有所述词语关系组生成所述词语关系网络。

13.根据权利要求11所述的方法，其特征在于，在根据词语关系网络中的所有词语的词语向量，采用层级聚类划分方法确定所有词语的层级聚类划分结果之后，还包括：

根据对验证文本进行分词处理得到的分词序列，以及所述层级聚类划分结果，获取所述验证文本对应的层级特征；

将所述层级特征输入聚类结果验证模型，获取所述验证文本的分类结果；

根据所述分类结果以及所述验证文本的属性，确定所述层级聚类划分结果的准确性。

14.根据权利要求13所述的方法，其特征在于，所述验证文本的属性至少包括验证文本的类别以及验证文本的撰写者的属性。

15.一种词语的聚类划分装置，其特征在于，包括：

16.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-14中任一项所述的词语的聚类划分方法。

17.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-14中任一项所述的词语的聚类划分方法。