CN106897309A

CN106897309A - 一种相似词的聚合方法和装置

Info

Publication number: CN106897309A
Application number: CN201510960651.XA
Authority: CN
Inventors: 黄光远; 兰金鹤; 麦港林; 施晓菁
Original assignee: Alibaba Group Holding Ltd
Current assignee: Zhejiang Tmall Technology Co Ltd
Priority date: 2015-12-18
Filing date: 2015-12-18
Publication date: 2017-06-27
Anticipated expiration: 2035-12-18
Also published as: EP3392783A1; CN106897309B; US20180293294A1; JP2019502995A; WO2017101728A1; EP3392783A4

Abstract

本申请实施例提供了一种相似词的聚合方法。所述方法包括：从网络项目的历史标记数据中提取具备相同词性的多个候选词；分别提取与所述候选词在所述历史标记数据中相邻，且具备关联的词性的关联词；根据关联词的相似度聚合多个候选词，并标记为相似词。根据本申请实施例可以挖掘出候选词之间的相似关系，针对于并非结构化、标准化的电子商务相关的评论词，可以有效地进行近义词归类。

Description

一种相似词的聚合方法和装置

技术领域

本申请涉及互联网技术领域，特别是涉及一种相似词的聚合方法和一种相似词的聚合装置。

背景技术

人们通过电子商务平台网站进行购物已相当常见。通常地，用户在购物后会针对商品发表评论，对商品质量、商家服务、快递物流等多个方面进行评论。为了更好地了解用户的真实购物体验，可以针对这些评论进行分析。

由于不同用户会关注于商品的不同特性，不同用户的评论风格也不尽相同，因此有关电子商务的评论文本并非结构化、标准化的数据，增加了分析的难度。而且，即使是对商品同一特性进行评论，用户使用的词语也会有很大差异，如“耗电”、“续航”，利用目前的文本分析方法，从字面语义分析无法将其识别为近义词，然而它们均是描述手机商品的同一特性，在电子商务范畴内可以归类为近义词。

因此，目前的文本分析方法中，存在无法针对电子商务相关的评论进行近义词归类的问题。

发明内容

鉴于上述问题，提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种相似词的聚合方法和相应的一种相似词的聚合装置。

为了解决上述问题，本申请公开了一种相似词的聚合方法，包括：

从网络项目的历史标记数据中提取具备相同词性的多个候选词；

分别提取与所述候选词在所述历史标记数据中相邻，且具备关联的词性的关联词；

根据关联词的相似度聚合多个候选词，并标记为相似词。

可选地，所述从网络项目的历史标记数据中提取具备相同词性的多个候选词的步骤包括：

将所述历史标记数据按照预设分词规则划分为多个基本单元词；

从所述基本单元词中，提取所述词性相同的多个候选词。

可选地，在所述提取所述词性相同的多个候选词的步骤之前，所述方法还包括：

计算各个基本单元词的词频-重要度加权值；

筛选所述词频-重要度加权值符合预设范围的基本单元词。

可选地，在所述根据关联词的相似度聚合多个候选词的步骤之前，所述方法还包括：

将候选词作为节点，并将提取的关联词作为与所述节点的邻居节点，生成记录候选词与关联词之间词性关联关系的节点网络图。

可选地，所述根据关联词的相似度聚合多个候选词的步骤包括：

计算所述节点的邻居节点的相似度，并作为所述节点间的表示所述候选词之间相似的连接链路存在的概率预测值；

在概率预测值大于预设阈值的节点之间添加连接链路，更新所述节点网络图并聚合具有连接链路的节点所对应的候选词。

可选地，所述预设阈值包括第一预设阈值和小于所述第一预设阈值的第二预设阈值，所述在概率预测值大于预设阈值的节点之间添加连接链路，更新所述节点网络图并聚合具有连接链路的节点所对应的候选词的步骤包括：

在概率预测值大于所述第一预设阈值的节点之间添加连接链路，针对不相连的节点和连续相连的节点在更新的节点网络图中形成多个独立的连通图，提取同一个连通图内包含的节点，并聚合所述节点对应的候选词；

在概率预测值大于所述第二预设阈值的节点之间添加连接链路，针对连接链路密度大于预设阈值的区域，提取所述区域内包含的节点，并聚合所述节点对应的候选词。

可选地，在所述更新所述节点网络图的步骤之前，所述方法还包括：

将所述邻居节点之间已经存在的连接链路删除。

可选地，在从网络项目的历史标记数据中提取具备相同词性的多个候选词的步骤之前，所述方法还包括：

针对网络项目所属项目类别标记对应的历史标记数据片段的项目类别，并划分不同项目类别的历史标记数据片段；

收集同一项目类别的历史标记数据片段，并生成所述历史标记数据。

可选地，所述分别提取与所述候选词在所述历史标记数据中相邻，且具备关联的词性的关联词的步骤包括：

提取在所述历史标记数据中与所述候选词相邻的，用于描述所述候选词的关联词。

可选地，在所述从网络项目的历史标记数据中提取具备相同词性的多个候选词的步骤之后，所述方法还包括：

筛选所述词性符合预设属性范围的候选词。

可选地，所述网络项目的历史标记数据为字符数据量少于预设阈值的用于评价所述网络项目的词数据。

为了解决上述问题，本申请还公开了一种相似词的聚合装置，包括：

候选词提取模块，用于从网络项目的历史标记数据中提取具备相同词性的多个候选词；

关联词提取模块，用于分别提取与所述候选词在所述历史标记数据中相邻，且具备关联的词性的关联词；

候选词聚合模块，用于根据关联词的相似度聚合多个候选词，并标记为相似词。

可选地，所述候选词提取模块包括：

基本单元词划分子模块，用于将所述历史标记数据按照预设分词规则划分为多个基本单元词；

候选词提取子模块，用于从所述基本单元词中，提取所述词性相同的多个候选词。

可选地，所述装置还包括：

词频-重要度加权值计算模块，用于计算各个基本单元词的词频-重要度加权值；

基本单元词筛选模块，用于筛选所述词频-重要度加权值符合预设范围的基本单元词。

可选地，所述装置还包括：

节点网络图生成模块，用于将候选词作为节点，并将提取的关联词作为与所述节点的邻居节点，生成记录候选词与关联词之间词性关联关系的节点网络图。

可选地，所述候选词聚合模块包括：

相似度计算子模块，用于计算所述节点的邻居节点的相似度，并作为所述节点间的表示所述候选词之间相似的连接链路存在的概率预测值；

连接链路添加子模块，用于在概率预测值大于预设阈值的节点之间添加连接链路，更新所述节点网络图并聚合具有连接链路的节点所对应的候选词。

可选地，所述预设阈值包括第一预设阈值和小于所述第一预设阈值的第二预设阈值，所述连接链路添加子模块包括：

连通图聚合子单元，用于在概率预测值大于所述第一预设阈值的节点之间添加连接链路，针对不相连的节点和连续相连的节点在更新的节点网络图中形成多个独立的连通图，提取同一个连通图内包含的节点，并聚合所述节点对应的候选词；

区域聚合子单元，用于在概率预测值大于所述第二预设阈值的节点之间添加连接链路，针对连接链路密度大于预设阈值的区域，提取所述区域内包含的节点，并聚合所述节点对应的候选词。

可选地，所述装置还包括：

连接链路删除模块，用于将所述邻居节点之间已经存在的连接链路删除。

可选地，所述装置还包括：

项目类别划分模块，用于针对网络项目所属项目类别标记对应的历史标记数据片段的项目类别，并划分不同项目类别的历史标记数据片段；

历史标记数据生成模块，用于收集同一项目类别的历史标记数据片段，并生成所述历史标记数据。

可选地，所述关联词提取模块包括：

关联词提取子模块，用于提取在所述历史标记数据中与所述候选词相邻的，用于描述所述候选词的关联词。

可选地，所述装置还包括：

候选词筛选模块，用于筛选所述词性符合预设属性范围的候选词。

本申请实施例包括以下优点：

相比起目前的从候选词的字面语义识别近义词的文本分析方法，本申请实施例通过提取与候选词相邻的、且具备关联的词性的关联词，并根据关联词的相似度对候选词进行聚合，从而挖掘出候选词之间的相似关系，针对于并非结构化、标准化的电子商务相关的评论词，可以有效地进行近义词归类。

而且，对相似的候选词进行聚合，可以从内容繁杂的历史标记数据中提炼出关键的评论词，便于用户快速地了解网络项目的总体评论情况，提升了用户获取信息的便捷性。

附图说明

图1是本申请的一种相似词的聚合方法实施例一的步骤流程图；

图2是本申请的一种相似词的聚合方法实施例二的步骤流程图；

图3是本申请的一种相似词的聚合装置实施例一的结构框图；

图4是本申请的一种相似词的聚合装置实施例二的结构框图；

图5是本申请的一种利用链路预测算法聚合近义词的步骤流程图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图1，示出了本申请的一种相似词的聚合方法实施例一的步骤流程图，具体可以包括如下步骤：

步骤101，从网络项目的历史标记数据中提取具备相同词性的多个候选词。

需要说明的是，词可以理解为短文本，其可以表现为一个词，一个短语和多个词组成的短句，或可以是文字、数字、符号等组成的一个句子。其中，文字可以采用各种语言，例如汉字、英文字母、罗马字母等。

网络项目可以是商品、软件、视频、音频等的网络项目。用户通常会针对网络项目进行评论，历史标记数据包含有用户针对网络项目进行评论的文本。针对历史标记数据中的文本，可以针对词性相同的文本进行提取，以获得候选词。词性可以包括“名词”、“副词”、“形容词”和“介词”等多种词性。

实际的应用中，“手机”“手提包”“袜子”等文本的词性均为“名词”，可以将其提取作为词性“名词”的候选词。“很快”、“迅速”等文本的词性均为“形容词”，可以将其提取作为词性“形容词”的候选词。

作为本申请实施例的优选示例，所述网络项目的历史标记数据为字符数据量少于预设阈值的用于评价所述网络项目的词数据。

在电子商务平台网站上针对网络项目的评论通常为短小文本，所包含的文字内容较少，因此网络项目的历史标记数据的字符数据量可以为小于预设阈值的词数据，该词数据用于评价网络项目，评价的描述方式可能千差万别。如果利用一般的如word2vec的自然语言处理方法，需要依赖输入的大量文本资料作为训练样本，并不适合用于处理描述方式差异很大的短小文本。

步骤102，分别提取与所述候选词在所述历史标记数据中相邻，且具备关联的词性的关联词。

需要说明的是，词性的关联是基于语法意义上的关联，例如在惯常的语法规则中，形容词后面会相邻一个名词，如“柔顺的”“布料”；或者名词后面会相邻一个副词，如“物流”“很快”。利用语法规则，可以识别出候选词在历史标记数据中相邻的、词性互相关联的关联词，将识别出的关联词提取。

步骤103，根据关联词的相似度聚合多个候选词，并标记为相似词。

一个候选词可以具有多个关联词，可以比较任意两个候选词的关联词，如果两者的相同的或相似的关联词越多，两个候选词为同义词的可能性则越高。以名词举例，候选词“布料”，与之搭配的形容词有“顺滑”、“柔滑”、“柔顺”等，另一个候选词“面料”，与之搭配的形容词有“顺滑”、“柔顺”等，两者的关联词的相似度较高，可以将其聚合并标记为相似词。

确定关联词的相似度的方式可以有多种，例如通过统计关联词的杰卡德系数，并作为相似度。此外还可以利用PA算法(Preferential Attachment Index,优先连接指数)、AA算法(Adamic-Adar Index，阿当阿达尔指数)等方法计算关联词的相似度。

聚合候选词的方式也可以有多种，例如可以针对候选词之间、候选词与关联词之间，构建文本的节点网络图。具体可以是将候选词作为节点，将关联词作为邻居节点，生成记录候选词与关联词的节点网络图。然后利用链路预测算法，计算两个节点的共同邻居节点的数量，若共同邻居节点的数量越多，表明关联词的相似度越高，节点之间存在连接链路的可能性越高，即节点对应的候选词互为同义词的可能性越高。针对存在连接链路可能性较高的节点进行聚合，从而聚合了具有较高可能性是互为同义词的候选词。

相比起目前的从候选词的字面语义识别近义词的文本分析方法，本申请实施例通过提取与候选词相邻的、且具备关联的词性的关联词，并根据关联词的相似度对候选词进行聚合，从而挖掘出候选词之间的相似关系，针对于并非结构化、标准化的电子商务相关的评论文本，可以有效地进行近义词归类。

而且，对相似的候选词进行聚合，可以从内容繁杂的历史标记数据中提炼出关键的评论文本，便于用户快速地了解网络项目的总体评论情况，提升了用户获取信息的便捷性。

参照图2，示出了本申请的一种相似词的聚合方法实施例二的步骤流程图，具体可以包括如下步骤：

步骤201，针对网络项目所属项目类别标记对应的历史标记数据片段的项目类别，并划分不同项目类别的历史标记数据片段。

步骤202，收集同一项目类别的历史标记数据片段，并生成所述历史标记数据。

因为电子商务相关的评论中，不同网络项目所属项目类别的评论的描述方式和用词可能差别较大，因此可以针对不同的项目类别标记相应的历史标记数据片段，划分成不同项目类别的历史标记数据片段。将同一项目类别的历史标记数据片段收集并生产一个历史标记数据，从而将同一个类别的所有评论文本合并在一起。

步骤203，将所述历史标记数据按照预设分词规则划分为多个基本单元词。

可以根据中文的句法逻辑预设分词规则，针对历史标记数据进行基本单元词的划分。因为在一条评论文本中可能会涉及到对同一网络项目的不同方面进行描述，例如“质量不错，物流很快”，同时描述了网络项目的“质量”和“物流”两方面，可以按照逗号、句号等的标点符号进行拆分，划分成“质量不错”和“物流很快”，再按照名词与副词的搭配规则，划分成“质量”、“不错”、“物流”和“很快”等基本单元词。

步骤204，计算各个基本单元词的词频-重要度加权值。

步骤205，筛选所述词频-重要度加权值符合预设范围的基本单元词。

需要说明的是，词频-重要度加权值(TF-IDF，Term Frequency–InverseDocument Frequency)，是一种用于信息检索与数据挖掘的常用加权技术，可以反映出某个词语在文本中的信息量和重要程度，该值越大，表明该词在文本中的信息量越大，重要程度越高。

计算出各个基本单元词的词频-重要度加权值，具体的计算方式可以如下：

其中，TF值表示词在文档中出现的频率，分子表示该词在所有文档的出现次数，分母表示所有词的出现次数；IDF值表示词在文档集合的重要程度，分子表示总文档的数量，分母表示出现过该词的文档数。

筛选出词频-重要度加权值符合预设范围的基本单元词，从而可以针对重要的文本进行归类，提升了文本聚合的效率。

步骤206，从所述基本单元词中，提取所述词性相同的多个候选词。

步骤207，筛选所述词性符合预设属性范围的候选词。

针对筛选出的词频-重要度加权值符合预设范围的基本单元词，可以针对词性相同的候选词进行提取，并筛选出词性符合预设属性范围的候选词。因为在实际应用中，仅需要挖掘特定词性的候选词之间的相似关系，例如名词、形容词、副词等词性。

步骤208，分别提取与所述候选词在所述历史标记数据中相邻，且具备关联的词性的关联词。

作为本申请实施例的优选示例，所述步骤208可以包括以下子步骤：

子步骤S11，提取在所述历史标记数据中与所述候选词相邻的，用于描述所述候选词的关联词。

词性的关联是基于语法意义上的关联，例如在惯常的语法规则中，名词会相邻一个用于描述名词的形容词，如“柔顺的布料”，关联词“柔顺的”用于描述候选词“布料”，且关联词与候选词在历史标记数据中相邻。

步骤209，将候选词作为节点，并将提取的关联词作为与所述节点的邻居节点，生成记录候选词与关联词之间词性关联关系的节点网络图。

可以将候选词作为节点，关联词作为与节点存在连接的边的邻居节点，从而生成了记录候选词与关联词之间的可以反映词性关联关系的节点网络图。

步骤210，计算所述节点的邻居节点的相似度，并作为所述节点间的表示所述候选词之间相似的连接链路存在的概率预测值。

基于生成的节点网络图，针对节点的共同邻居节点的情况，可以使用链路预测算法进行候选词之间相似关系的挖掘。链路预测算法可以根据现有的网络拓扑结构，预测两个未相连的节点间存在连接的链路的可能性。应用到本申请实施例中，若两个节点的共同邻居节点越多，说明节点之间的关系可能很紧密，存在连接链路的可能性越高。

具体地，可以计算节点的邻居节点的相似度，以此作为表示节点之间连接链路存在的概率预测值。例如，针对节点A和节点B，利用杰卡德计算公式J(A，B)＝|N(A)∩N(B)|/|N(A)∪N(B)|，得到邻居节点的相似度，其中，N(A)和N(B)分别为节点A和节点B的邻居集合。

两个节点的共同邻居节点越多，计算得到的相似度越高，则节点之间连接链路存在的概率预测值越高，节点间有较高可能存在连接链路。

步骤211，在概率预测值大于预设阈值的节点之间添加连接链路，更新所述节点网络图并聚合具有连接链路的节点所对应的候选词，并标记为相似词。

可以针对概率预测值大于预设阈值的节点之间添加连接链路，相应更新添加了连接链路的节点网络图，针对具有连接链路的节点所对应的候选词进行聚合，标记为相似词。

不同的预设阈值可以影响节点网络图的网络结构，本领域技术人员可以根据实际情况设置预设阈值，例如预设阈值可以设置为0，表示只要当节点之间具有相同的邻居节点，则在节点间添加连接链路，从而形成一个连接链路比较密集的节点网络图；也可以将预设阈值设置为较高的值，从而形成一个连接链路比较稀疏的节点网络图。可以根据不同的网络结构采用相应的聚合方式。

作为本申请实施例的优选示例，所述预设阈值包括第一预设阈值和小于所述第一预设阈值的第二预设阈值，所述在概率预测值大于预设阈值的节点之间添加连接链路，更新所述节点网络图并聚合具有连接链路的节点所对应的候选词的步骤可以包括以下子步骤：

子步骤S21，在概率预测值大于所述第一预设阈值的节点之间添加连接链路，针对不相连的节点和连续相连的节点在更新的节点网络图中形成多个独立的连通图，提取同一个连通图内包含的节点，并聚合所述节点对应的候选词。

需要说明的是，连通图是指在无向图中，若任意两个节点均有链路相连，则称为连通图。

在实际的应用中，可以设置一个较大的第一预设阈值，即两个节点所对应的候选词是近义词的可能性很高。由此，仅在概率预测值较高的节点之间添加连接链路，概率预测值较低的节点之间不添加连接链路，产生了若干不相连的节点和连续相连的节点，从而形成了多个相对独立的连通图。可以提取同一个连通图连通包含的节点，将节点所对应的候选词聚合。

子步骤S22，在概率预测值大于所述第二预设阈值的节点之间添加连接链路，针对连接链路密度大于预设阈值的区域，提取所述区域内包含的节点，并聚合所述节点对应的候选词。

在实际应用中，也可以设置一个较小的第二预设阈值，即两个节点所对应的候选词是近义词的可能性很低。由此，在多数节点之间添加连接链路，形成了各个连接链路较密集的区域。分别提取各区域内包含的节点，将节点对应的候选词聚合。

针对形成区域，也可以使用社区发现算法进行区域划分。社区发现算法可以根据图的拓扑结构，将节点网络图划分为多个社区，尽可能使得同一社区内部的节点具有较强的连接关系，从而将社区内部的节点所对应的候选词聚合。

作为本申请实施例的优选示例，在所述更新所述节点网络图的步骤之前，所述方法还包括：将所述邻居节点之间已经存在的连接链路删除。

因为在实际的应用中，用户通常不会用两个以上的同义形容词来描述一个名词，因此可以在更新节点网络图之前，将邻居节点已经存在的共现的连接链路去除。

为了便于本领域技术人员理解本申请实施例，图5示出了一种利用链路预测算法聚合近义词的步骤流程图，从图中可见，首先对电子商务相关评论进行分词处理，并通过TF-IDF获得一个高频词列表，从而构建高频词的节点网络图，然后使用链路预测方法，挖掘电子商务领域中专有的近义词关系，对确定的近义词进行聚合。

根据本申请实施例，对不同项目类别的历史标记数据片段进行分类，将同一个项目类别的历史标记数据片段合并生成历史标记数据，使得历史标记数据中的评论文本可以针对于某一特定的网络项目类别，从而更适宜对具有行业、类目划分的电子商务的相关评论进行相似词聚合。

而且，基于候选词与关联词构建节点网络图，针对节点网络图中节点之间连接链路存在的概率进行预测得到概率预测值，根据概率预测值与预设阈值的比较结果在节点间添加连接链路，形成更新的节点网络图，并从中聚合具有连接链路的节点所对应的候选词，从而挖掘出候选词之间的相似关系。

进一步，本申请实施例针对不同的预设阈值采用相应的聚合方式，从而可以根据实际情况进行相似词的聚合，提升了相似词聚合的灵活性。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

参照图3，示出了本申请的一种相似词的聚合装置实施例一的结构框图，具体可以包括如下模块：

候选词提取模块301，用于从网络项目的历史标记数据中提取具备相同词性的多个候选词。

关联词提取模块302，用于分别提取与所述候选词在所述历史标记数据中相邻，且具备关联的词性的关联词。

候选词聚合模块303，用于根据关联词的相似度聚合多个候选词，并标记为相似词。

相比起目前的从候选词的字面语义识别近义词的文本分析装置，本申请实施例通过提取与候选词相邻的、且具备关联的词性的关联词，并根据关联词的相似度对候选词进行聚合，从而挖掘出候选词之间的相似关系，针对于并非结构化、标准化的电子商务相关的评论文本，可以有效地进行近义词归类。

参照图4，示出了本申请的一种相似词的聚合装置实施例二的结构框图，具体可以包括如下模块：

项目类别划分模块401，用于针对网络项目所属项目类别标记对应的历史标记数据片段的项目类别，并划分不同项目类别的历史标记数据片段。

历史标记数据生成模块402，用于收集同一项目类别的历史标记数据片段，并生成所述历史标记数据。

词频-重要度加权值计算模块403，用于计算各个基本单元词的词频-重要度加权值。

基本单元词筛选模块404，用于筛选所述词频-重要度加权值符合预设范围的基本单元词。

候选词筛选模块405，用于筛选所述词性符合预设属性范围的候选词。

候选词提取模块406，用于从网络项目的历史标记数据中提取具备相同词性的多个候选词。

关联词提取模块407，用于分别提取与所述候选词在所述历史标记数据中相邻，且具备关联的词性的关联词。

节点网络图生成模块408，用于将候选词作为节点，并将提取的关联词作为与所述节点的邻居节点，生成记录候选词与关联词之间词性关联关系的节点网络图。

候选词聚合模块409，用于根据关联词的相似度聚合多个候选词，并标记为相似词。

连接链路删除模块410，用于将所述邻居节点之间已经存在的连接链路删除。

作为本申请实施例的优选示例，所述候选词提取模块406可以包括以下子模块：

基本单元词划分子模块，用于将所述历史标记数据按照预设分词规则划分为多个基本单元词。

作为本申请实施例的优选示例，所述候选词聚合模块409可以包括以下子模块：

相似度计算子模块，用于计算所述节点的邻居节点的相似度，并作为所述节点间的表示所述候选词之间相似的连接链路存在的概率预测值。

作为本申请实施例的优选示例，所述预设阈值包括第一预设阈值和小于所述第一预设阈值的第二预设阈值，所述连接链路添加子模块可以包括以下子单元：

作为本申请实施例的优选示例，所述关联词提取模块407可以包括以下子模块：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

在一个典型的配置中，所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非持续性的电脑可读媒体(transitory media)，如调制的数据信号和载波。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种相似词的聚合方法和一种相似词的聚合装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种相似词的聚合方法，其特征在于，包括：

根据关联词的相似度聚合多个候选词，并标记为相似词。

2.根据权利要求1所述的方法，其特征在于，所述从网络项目的历史标记数据中提取具备相同词性的多个候选词的步骤包括：

从所述基本单元词中，提取所述词性相同的多个候选词。

3.根据权利要求2所述的方法，其特征在于，在所述提取所述词性相同的多个候选词的步骤之前，所述方法还包括：

计算各个基本单元词的词频-重要度加权值；

筛选所述词频-重要度加权值符合预设范围的基本单元词。

4.根据权利要求1所述的方法，其特征在于，在所述根据关联词的相似度聚合多个候选词的步骤之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述根据关联词的相似度聚合多个候选词的步骤包括：

6.根据权利要求5所述的方法，其特征在于，所述预设阈值包括第一预设阈值和小于所述第一预设阈值的第二预设阈值，所述在概率预测值大于预设阈值的节点之间添加连接链路，更新所述节点网络图并聚合具有连接链路的节点所对应的候选词的步骤包括：

7.根据权利要求5所述的方法，其特征在于，在所述更新所述节点网络图的步骤之前，所述方法还包括：

将所述邻居节点之间已经存在的连接链路删除。

8.根据权利要求1所述的方法，其特征在于，在从网络项目的历史标记数据中提取具备相同词性的多个候选词的步骤之前，所述方法还包括：

9.根据权利要求1所述的方法，其特征在于，所述分别提取与所述候选词在所述历史标记数据中相邻，且具备关联的词性的关联词的步骤包括：

10.根据权利要求1所述的方法，其特征在于，在所述从网络项目的历史标记数据中提取具备相同词性的多个候选词的步骤之后，所述方法还包括：

筛选所述词性符合预设属性范围的候选词。

11.根据权利要求1所述的方法，其特征在于，所述网络项目的历史标记数据为字符数据量少于预设阈值的用于评价所述网络项目的词数据。

12.一种相似词的聚合装置，其特征在于，包括：

13.根据权利要求12所述的装置，其特征在于，所述候选词提取模块包括：

14.根据权利要求13所述的装置，其特征在于，所述装置还包括：

15.根据权利要求12所述的装置，其特征在于，所述装置还包括：

16.根据权利要求15所述的装置，其特征在于，所述候选词聚合模块包括：

17.根据权利要求16所述的装置，其特征在于，所述预设阈值包括第一预设阈值和小于所述第一预设阈值的第二预设阈值，所述连接链路添加子模块包括：

18.根据权利要求16所述的方法，其特征在于，所述装置还包括：

19.根据权利要求12所述的装置，其特征在于，所述装置还包括：

20.根据权利要求12所述的装置，其特征在于，所述关联词提取模块包括：

21.根据权利要求12所述的装置，其特征在于，所述装置还包括：

22.根据权利要求12所述的装置，其特征在于，所述网络项目的历史标记数据为字符数据量少于预设阈值的用于评价所述网络项目的词数据。