CN108153735B

CN108153735B - 一种近义词的获取方法及系统

Info

Publication number: CN108153735B
Application number: CN201711453916.2A
Authority: CN
Inventors: 谢忠玉; 鲍新平; 沈一
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2021-05-18
Anticipated expiration: 2037-12-28
Also published as: CN108153735A

Abstract

本发明公开了一种近义词的获取方法及系统，通过确定指定评价词与指定评价对象在文本中的共现频率，构建共现词矩阵，对共现词矩阵中的多个评价词进行降维处理，得到评价词向量，通过第一相似度计算方式计算评价词向量的第一相似度，确定与指定评价词相似度高于预定数值的候选评价词集合，通过第二相似度计算方式对候选评价词集合进行相似度排序，得到相似度排序结果，通过相似度排序结果，以及候选评价词集合与指定评价词的词性是否相同的判断结果来确定指定评价词的词义。本方案通过两次相似性计算，提高了确定的近义词的精度，同时，通过判断词性是否相同来确定近义词，避免了现有技术中可能出现的词性相反却确定为近义词的情况，准确率提高。

Description

一种近义词的获取方法及系统

技术领域

本发明涉及网络数据处理技术领域，尤其涉及一种近义词的获取方法及系统。

背景技术

近年来，随着微博等用户自媒体的爆炸式增长，在网络平台上发表观点、评论的用户群体越来越庞大，利用网络挖掘网民意见变得可行。

其中，在挖掘网民意见所讨论的对象的评价词时，不同用户可能通过不同的词表达同一个意见，例如：针对某一个明星的评价词：帅、帅炸，通过不同的词表达该明星帅的意思。

然而，目前，确定不同的词是否表达同一个意思，通常是基于词共现的方式确定两个不同的词是否为关键词，即首先确定针对一个评价对象的一个评价词，然后找出与该评价对象及该评价词共现的词有哪些，确定高频共现词为候选词，从候选词中选取相似性最高的为近义词。

然而，采用这种方式，其精确度较低，例如：有时候共现词在词性上可能不对等，甚至词义相反，这就降低了选取的近义词的准确度。

发明内容

有鉴于此，本发明提供一种近义词获取方法及系统，以解决现有技术中基于词共现的方式确定近义词，准确度较低的问题，其具体方案如下：

一种近义词的获取方法，包括：

确定指定评价词与指定评价对象在文本中的共现频率；

构建共现词矩阵，所述共现词矩阵包括：多个评价对象，多个评价词，以及所述多个评价对象中每个所述评价对象与所述多个评价词中每个所述评价词的共现频率，其中，所述多个评价对象中至少包括所述指定评价对象，所述多个评价词中至少包括所述指定评价词；

对所述共现词矩阵中的所述多个评价词进行降维处理，得到评价词向量；

通过第一相似度计算方式计算所述评价词向量的第一相似度，确定与所述指定评价词相似度高于预定数值的候选评价词集合；

通过第二相似度计算方式对所述候选评价词集合进行相似度排序，得到相似度排序结果，通过所述相似度排序结果，以及所述候选评价词集合与所述指定评价词的词性是否相同的判断结果确定所述指定评价词的近义词。

进一步的，所述确定指定评价词与指定评价对象在文本中的共现频率，包括：

对包括指定评价对象及指定评价词的文本进行分词处理；

确定所述文本中指定评价对象在指定评价词预定范围内的共现频率。

进一步的，所述确定所述文本中指定评价对象在指定评价词预定范围内的共现频率，包括：

当所述指定评价对象出现在与所述指定评价词相距在预定数量之内的第一评价对象集合中时，确定所述指定评价对象在指定评价词预定范围内；

进一步的，所述确定与所述指定评价词相似度高于预定数值的候选评价词集合，包括：

从与所述指定评价词相似度高于预定数值的多个评价词中确定指定数量的评价词作为候选评价词集合。

进一步的，所述通过所述相似度排序结果，以及所述候选评价词集合与所述指定评价词的词性是否相同的判断结果确定所述指定评价词的近义词，包括：

选取所述候选评价词集合中的各候选评价词与所述指定评价词的词性相同的评价词作为待选评价词集合；

将所述待选评价词集合中的各待选评价词与所述指定评价词进行相似度排序，得到相似度排序结果，根据所述相似度排序结果确定所述待选评价词集合中与所述指定评价词相似度最高的评价词作为所述指定评价词的近义词。

进一步的，所述构建共现词矩阵，所述共现词矩阵包括：多个评价对象，多个评价词，以及所述多个评价对象中每个所述评价对象与所述多个评价词中每个所述评价词的共现频率，其中，所述多个评价对象中至少包括所述指定评价对象，所述多个评价词中至少包括所述指定评价词，包括：

构建词性相同的共现词矩阵，所述词性相同的共现词矩阵包括：多个评价对象，多个评价词，以及所述多个评价对象中每个所述评价对象与所述多个评价词中每个所述评价词的共现频率，其中，所述多个评价对象中至少包括所述指定评价对象，所述多个评价词中至少包括所述指定评价词，其中，所述多个评价词的词性与所述指定评价词词性相同。

进一步的，所述通过所述相似度排序确定所述指定评价词的近义词，包括：

确定所述候选评价词集合中与所述指定评价词相似度最高的评价词为第一评价词；

判断与所述第一评价词相似度最高的评价词是否为所述指定评价词；

若是，将所述第一评价词确定为所述指定评价词的近义词。

一种近义词的获取系统，包括：频率确定单元，构建单元，降维单元，候选评价词集合确定单元及近义词确定单元，其中：

所述频率确定单元用于确定指定评价词与指定评价对象在文本中的共现频率；

所述构建单元用于构建共现词矩阵，所述共现词矩阵包括：多个评价对象，多个评价词，以及所述多个评价对象中每个所述评价对象与所述多个评价词中每个评价词的共现频率，其中，所述多个评价对象中至少包括所述指定评价对象，所述多个评价词中至少包括所述指定评价词；

所述降维单元用于对所述共现词矩阵中的所述多个评价词进行降维处理，得到评价词向量；

所述候选评价词集合确定单元用于通过第一相似度计算方式计算所述评价词向量的第一相似度，确定与所述指定评价词相似度高于预定数值的候选评价词集合；

所述近义词确定单元用于通过第二相似度计算方式对所述候选评价词集合进行相似度排序，得到相似度排序结果，通过所述相似度排序结果，以及所述候选评价词集合与所述指定评价词的词性是否相同的判断结果确定所述指定评价词的近义词。

进一步的，所述频率确定单元用于：

对包括指定评价对象及指定评价词的文本进行分词处理，确定所述文本中指定评价对象在指定评价词预定范围内的共现频率。

进一步的，所述构建单元用于：

构建词性相同的共现词矩阵，所述词性相同的共现词矩阵包括：所述指定评价对象与多个评价词的共现频率，及所述指定评价词与多个评价对象的共现频率，其中，所述多个评价词的词性与所述指定评价词词性相同。

从上述技术方案可以看出，本申请公开的近义词的获取方法及系统，通过确定指定评价词与指定评价对象在文本中的共现频率，构建共现词矩阵，对共现词矩阵中的多个评价词进行降维处理，得到评价词向量，通过第一相似度计算方式计算评价词向量的第一相似度，确定与指定评价词相似度高于预定数值的候选评价词集合，通过第二相似度计算方式对候选评价词集合进行相似度排序，得到相似度排序结果，通过相似度排序结果，以及候选评价词集合与指定评价词的词性是否相同的判断结果来确定指定评价词的词义。本方案通过两次相似性计算，提高了确定的近义词的精度，同时，通过判断词性是否相同来确定近义词，避免了现有技术中可能出现的词性相反却确定为近义词的情况，准确率提高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种近义词获取方法的流程图；

图2为本发明实施例公开的另一种近义词获取方法的流程图；

图3为本发明实施例公开的又一种近义词获取方法的流程图；

图4为本发明实施例公开的一种近义词获取系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明公开了一种近义词的获取方法，其流程图如图1所示，包括：

步骤S11，确定指定评价词与指定评价对象在文本中的共现频率；

指定评价词与指定评价对象在文本中的共现频率，即指定评价词与指定评价对象在同一句话中共同出现的频率。

具体的，还可以为：在文本中指定评价对象出现在指定评价词的预定范围内的共现频率。

具体的，当指定评价对象出现在与指定评价词相距在预定数量之内的第一评价对象集合中时，确定指定评价对象在指定评价词预定范围内。

其中，可以设置一个共现窗口，只有指定评价对象与指定评价词同时出现在该共现窗口内，才认为该指定评价对象与该指定评价词共现，计一次共现频率。

而共现窗口具体是指，以一个指定评价词为基准，与其距离最近的指定数量的评价对象，即与该指定评价词在同一个共现窗口内，例如：在一个文本中，确定一个指定评价词，与该指定评价词距离最近的指定数量的评价对象。例如：共现窗口为4个，即与指定评价词距离最近的4个评价对象在其共现窗口内；

另外，还可以为：指定距离，即与指定评价词在指定距离内的评价对象与该指定评价词在同一个共现窗口内，该指定距离可以具体为比特位。例如：共现窗口为4比特位，即出现在该指定评价词的4比特位之内的评价对象为与该指定评价词在同一个共现窗口内。

当评价对象与评价词同时出现在一句话中，但两者之间距离太远，不在共现窗口内，此时，也不能视为一次共现，不能计共现频率。

具体的，对包括该指定评价对象及指定评价词的文本进行分词处理，对分词处理后的文本进行共现频率的统计。其中，分词处理可以采用NLP技术进行，在此不做具体论述。

步骤S12、构建共现词矩阵，共现词矩阵包括：多个评价对象，多个评价词，以及多个评价对象中每个评价对象与多个评价词中每个评价词的共现频率；

其中，多个评价对象中至少包括指定评价对象，多个评价词中至少包括指定评价词。

共现词矩阵，即评价对象与评价词共同出现的共现频率矩阵，具体的，可以为：横向为评价对象，纵向为评价词，针对每一个评价对象，出现评价词的概率在中间表格中填写，从而得到针对多个评价对象出现的不同的评价词的频率，多个评价对象中包括指定评价对象，多个评价词中包括指定评价词。

其中，共现词矩阵获取的方法，可以具体为：首先确定指定评价对象及指定评价词，之后确定指定评价对象所对应的多个评价词，以及指定评价词所对应的多个评价对象，从而确定一个共现词矩阵。

步骤S13、对共现词矩阵中的多个评价词进行降维处理，得到评价词向量；

评价词可能有很长的向量维度，利用PCA降维来简化评价词的特征，具体的，可以选取特征值大于85％的点作为特征选取的量化标准。

步骤S14、通过第一相似度计算方式计算评价词向量的第一相似度，确定与指定评价词相似度高于预定数值的候选评价词集合；

其中，第一相似度计算方式可以具体为：cos余弦相似度计算，第一相似度即cos余弦相似度。

通过计算评价词向量的cos余弦相似度，可以确定各评价词与指定评价词之间的相似度值，从中选取候选评价词集合。

其中，候选评价词集合可以为：从各评价词中选取与指定评价词的相似度最高的指定数量的评价词作为候选评价词集合，例如：选取各评价词中与指定评价词的相似度值最高的4个评价词作为候选评价词集合；也可以为：从各评价词中选取与指定评价词的相似度值高于预定数值的评价词作为候选评价词集合，例如：选取各评价词中与指定评价词的相似度高于预定数值的多个评价词中选取最高的4个作为候选评价词集合。

步骤S15、通过第二相似度计算方式对候选评价词集合进行相似度排序，得到相似度排序结果，通过相似度排序结果，以及候选评价词集合与指定评价词的词性是否相同的判断结果，确定指定评价词的近义词。

其中，第二相似度计算方式可以具体为：word2vector。

在通过cos余弦相似度计算之后，在选取中的候选评价词集合中再利用word2vector进行二次过滤，当利用word2vector确定的相似度仍然很高时，则认为该评价词与指定评价词的相似度确实很高。

此时，还需要确定候选评价词集合的词性与指定评价词的词性是否相同，具体的，选取候选评价词集合中与指定评价词的词性相同的评价词作为待选评价词集合，将待选评价词集合与指定评价词的相似度进行排序，得到相似度排序结果，根据相似度排序结果确定待选评价词集合中与指定评价词相似度最高的评价词作为指定评价词的近义词。

具体的，确定候选评价词集合中的候选评价词的词性与指定评价词的词性是否相同，如：均为表达正向情感的评价词，或，均为表现负向情感的评价词时，表明该评价词与指定评价词的词性相同；若，其中一个用于表达正向情感，另一个表达负向情感，则这两个评价词为词性不同的评价词，当候选评价词集合中有一个或多个候选评价词与指定评价词的词性不同，则无需再对该一个或多个候选评价词进行后续判断，直接认定该一个或多个候选评价词不为指定评价词的近义词即可。

当确定候选评价词集合中各评价词与指定评价词的词性相同时，再从候选评价词集合中选取通过word2vector确定的与指定评价词相似度最高的评价词作为近义词。

进一步的，也可以为：首先从候选评价词集合中选取通过word2vector确定的与指定评价词相似度最高的评价词，确定该相似度最高的评价词与指定评价词的词性是否相同，若相同，则确定该相似度最高的评价词为近义词。

本实施例公开的近义词的获取方法，通过确定指定评价词与指定评价对象在文本中的共现频率，构建共现词矩阵，对共现词矩阵中的多个评价词进行降维处理，得到评价词向量，通过第一相似度计算方式计算评价词向量的第一相似度，确定与指定评价词相似度高于预定数值的候选评价词集合，通过第二相似度计算方式对候选评价词集合进行相似度排序，得到相似度排序结果，通过相似度排序结果，以及候选评价词集合与指定评价词的词性是否相同的判断结果来确定指定评价词的词义。本方案通过两次相似性计算，提高了确定的近义词的精度，同时，通过判断词性是否相同来确定近义词，避免了现有技术中可能出现的词性相反却确定为近义词的情况，准确率提高。

本实施例公开了一种近义词的获取方法，其流程图如图2所示，包括：

步骤S21、确定指定评价词与指定评价对象在文本中的共现频率；

步骤S22、构建词性相同的共现词矩阵，词性相同的共现词矩阵包括：多个评价对象，多个评价词，以及所述多个评价对象中每个所述评价对象与所述多个评价词中每个所述评价词的共现频率，其中，所述多个评价对象中至少包括所述指定评价对象，所述多个评价词中至少包括所述指定评价词，其中，多个评价词的词性与指定评价词词性相同；

在构建共现词矩阵时，即确定该共现词矩阵中的各评价词是否词性相同，当有词性不同的评价词时，确定该词性不同的评价词词性与指定评价词词性是否相同，若相同，则将该评价词放入共现词矩阵，若不同，则在共现词矩阵中剔除与指定评价词词性不同的一个或多个评价词。也可以为：将各评价词的词性与指定评价词的词性比较，看是否相同，若相同，则将各评价词构建如共现词矩阵，若不同，则将与指定评价词词性不同的评价词剔除出该共现词矩阵，以保持共现词矩阵中所有的评价词的词性均相同。

进一步的，也可以为：在构建共现词矩阵之前，首先确定各评价词的词性，只有词性与指定评价词的词性相同的评价词，才可以被放入该共现词矩阵中，以便于词性相同的各评价词进行比较。

步骤S23、对共现词矩阵中的多个评价词进行降维处理，得到评价词向量；

步骤S24、通过第一相似度计算方式计算评价词向量的第一相似度，确定与指定评价词相似度高于预定数值的候选评价词集合；

步骤S25、通过第二相似度计算方式对候选评价词集合进行相似度排序，得到相似度排序结果，通过相似度排序结果确定指定评价词的近义词。

本实施例公开的近义词的获取方法，通过确定指定评价词与指定评价对象在文本中的共现频率，构建词性相同的共现词矩阵，对共现词矩阵中的多个评价词进行降维处理，得到评价词向量，通过第一相似度计算方式计算评价词向量的第一相似度，确定与指定评价词相似度高于预定数值的候选评价词集合，通过第二相似度计算方式对候选评价词集合进行相似度排序，得到相似度排序结果，通过相似度排序结果来确定指定评价词的词义。本方案中在构建共现词矩阵时，即确定了该共现词矩阵中的多个评价词为词性相同的评价词，以便于在后续最终确定指定评价词的近义词时，仅通过一个相似度结果排序即可确定，无需在最终判断时，需要进行两次判断，当两次判断均符合时，才能确定为近义词，提高了工作效率。

本实施例公开了一种近义词的获取方法，其流程图如图3所示，包括：

步骤S31、确定指定评价词与指定评价对象在文本中的共现频率；

步骤S32、构建词性相同的共现词矩阵，词性相同的共现词矩阵包括：多个评价对象，多个评价词，以及所述多个评价对象中每个所述评价对象与所述多个评价词中每个所述评价词的共现频率，其中，所述多个评价对象中至少包括所述指定评价对象，所述多个评价词中至少包括所述指定评价词，其中，多个评价词的词性与指定评价词词性相同；

步骤S33、对共现词矩阵中的多个评价词进行降维处理，得到评价词向量；

步骤S34、通过第一相似度计算方式计算评价词向量的第一相似度，确定与指定评价词相似度高于预定数值的候选评价词集合；

步骤S35、通过第二相似度计算方式对候选评价词集合进行相似度排序，得到相似度排序结果，根据相似度排序结果确定候选评价词集合中与指定评价词相似度最高的评价词为第一评价词；

步骤S36、判断与第一评价词相似度最高的评价词是否为指定评价词；

步骤S37、若是，将第一评价词确定为指定评价词的近义词。

确定候选评价词集合中各候选评价词及指定评价词中各评价词之间的相似度值，以确定在各候选评价词及指定评价词中各评价词之间相似度最高的是哪个评价词，例如：指定评价词为A，候选评价词集合中包括：B、C、D，其中，与指定评价词A相似度最高的候选评价词为C，将C确定为第一评价词，而与候选评价词C相似度最高的为B，即与第一评价词C相似度最高的并非指定评价词A，则不能将第一评价词C确定为指定评价词A的近义词，只有当在候选评价词集合中，与指定评价词A的相似度最高的是第一评价词C，同时，在各候选评价词及指定评价词中，与第一评价词C相似度最高的为指定评价词A时，才能将第一评价词C确定为近义词，从而提高近义词匹配的准确性。

本实施例公开的近义词获取方法，通过确定指定评价词与指定评价对象在文本中的共现频率，构建共现词矩阵，对共现词矩阵中的多个评价词进行降维处理，得到评价词向量，通过第一相似度计算方式计算评价词向量的第一相似度，确定与指定评价词相似度高于预定数值的候选评价词集合，通过第二相似度计算方式对候选评价词集合进行相似度排序，得到相似度排序结果，通过相似度排序结果确定候选评价词集合中与指定评价词相似度最高的评价词为第一评价词，只有当与第一评价词相似度最高的评价词是指定评价词时，才将第一评价词确定为指定评价词的近义词，即指定评价词与候选评价词互为相似度最高的评价词，提高了近义词匹配的准确性。

本实施例公开了一种近义词获取系统，其结构示意图如图4所示，包括：

频率确定单元41，构建单元42，降维单元43，候选评价词集合确定单元44及近义词确定单元45。

其中，频率确定单元41用于确定指定评价词与指定评价对象在文本中的共现频率；

构建单元42用于构建共现词矩阵，共现词矩阵包括：多个评价对象，多个评价词，以及多个评价对象中每个评价对象与多个评价词中每个评价词的共现频率，其中，多个评价对象中至少包括指定评价对象，多个评价词中至少包括指定评价词；

构建单元42具体用于：构建词性相同的共现词矩阵，词性相同的共现词矩阵包括：多个评价对象，多个评价词，以及所述多个评价对象中每个所述评价对象与所述多个评价词中每个所述评价词的共现频率，其中，所述多个评价对象中至少包括所述指定评价对象，所述多个评价词中至少包括所述指定评价词，其中，多个评价词的词性与指定评价词词性相同。

降维单元43用于对共现词矩阵中的多个评价词进行降维处理，得到评价词向量；

候选评价词集合确定单元44用于通过第一相似度计算方式计算所述评价词向量的第一相似度，确定与指定评价词相似度高于预定数值的候选评价词集合；

近义词确定单元45用于通过第二相似度计算方式对候选评价词集合进行相似度排序，得到相似度排序结果，通过相似度排序结果，以及候选评价词集合与指定评价词的词性是否相同的判断结果确定指定评价词的近义词。

其中，第二相似度计算方式可以具体为：word2vector。

近义词确定单元45具体用于：根据相似度判断结果确定候选评价词集合中与指定评价词相似度最高的评价词为第一评价词，判断与第一评价词相似度最高的评价词是否为指定评价词，若是，将第一评价词确定为指定评价词的近义词。

本实施例公开的近义词的获取系统，通过确定指定评价词与指定评价对象在文本中的共现频率，构建共现词矩阵，对共现词矩阵中的多个评价词进行降维处理，得到评价词向量，通过第一相似度计算方式计算评价词向量的第一相似度，确定与指定评价词相似度高于预定数值的候选评价词集合，通过第二相似度计算方式对候选评价词集合进行相似度排序，得到相似度排序结果，通过相似度排序结果，以及候选评价词集合与指定评价词的词性是否相同的判断结果来确定指定评价词的词义。本方案通过两次相似性计算，提高了确定的近义词的精度，同时，通过判断词性是否相同来确定近义词，避免了现有技术中可能出现的词性相反却确定为近义词的情况，准确率提高。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种近义词的获取方法，其特征在于，包括：

确定指定评价词与指定评价对象在文本中的共现频率；

通过第二相似度计算方式对所述候选评价词集合进行相似度排序，得到相似度排序结果，通过所述相似度排序结果，以及所述候选评价词集合与所述指定评价词的词性是否相同的判断结果确定所述指定评价词的近义词；

所述通过所述相似度排序确定所述指定评价词的近义词，包括：

确定所述候选评价词集合中与所述指定评价词相似度最高的评价词为第一评价词，所述第一评价词与所述指定评价词的词性相同；

若是，将所述第一评价词确定为所述指定评价词的近义词。

2.根据权利要求1所述的方法，其特征在于，所述确定指定评价词与指定评价对象在文本中的共现频率，包括：

对包括指定评价对象及指定评价词的文本进行分词处理；

3.根据权利要求2所述的方法，其特征在于，所述确定所述文本中指定评价对象在指定评价词预定范围内的共现频率，包括：

4.根据权利要求1所述的方法，其特征在于，所述确定与所述指定评价词相似度高于预定数值的候选评价词集合，包括：

5.根据权利要求1所述的方法，其特征在于，所述通过所述相似度排序结果，以及所述候选评价词集合与所述指定评价词的词性是否相同的判断结果确定所述指定评价词的近义词，包括：

6.根据权利要求1所述的方法，其特征在于，所述构建共现词矩阵，所述共现词矩阵包括：多个评价对象，多个评价词，以及所述多个评价对象中每个所述评价对象与所述多个评价词中每个所述评价词的共现频率，其中，所述多个评价对象中至少包括所述指定评价对象，所述多个评价词中至少包括所述指定评价词，包括：

7.一种近义词的获取系统，其特征在于，包括：频率确定单元，构建单元，降维单元，候选评价词集合确定单元及近义词确定单元，其中：

所述近义词确定单元用于通过第二相似度计算方式对所述候选评价词集合进行相似度排序，得到相似度排序结果，通过所述相似度排序结果，以及所述候选评价词集合与所述指定评价词的词性是否相同的判断结果确定所述指定评价词的近义词；

所述近义词确定单元通过所述相似度排序确定所述指定评价词的近义词包括：

若是，将所述第一评价词确定为所述指定评价词的近义词。

8.根据权利要求7所述的系统，其特征在于，所述频率确定单元用于：

9.根据权利要求7所述的系统，其特征在于，所述构建单元用于：

构建词性相同的共现词矩阵，所述词性相同的共现词矩阵包括：多个评价对象，多个评价词，以及所述多个评价对象中每个所述评价对象与所述多个评价词中每个所述评价词的共现频率，其中，所述多个评价对象中至少包括所述指定评价对象，所述多个评价词中至少包括所述指定评价词，其中，

所述多个评价词的词性与所述指定评价词词性相同。