CN106547732A

CN106547732A - 近义词识别方法和近义词识别系统

Info

Publication number: CN106547732A
Application number: CN201610900127.8A
Authority: CN
Inventors: 杨吉雄
Original assignee: ZTE ICT Technologies Co Ltd
Current assignee: ZTE ICT Technologies Co Ltd
Priority date: 2016-10-14
Filing date: 2016-10-14
Publication date: 2017-03-29

Abstract

本发明提出了一种近义词识别方法和近义词识别系统，其中，所述近义词识别方法包括：将实体词作为关键词进行检索；处理步骤：计算检索结果中符合预设条件的词与所述实体词之间的相似度，根据所述相似度，在所述符合预设条件的词中选择出所述实体词的待定近义词；将所述待定近义词作为所述关键词进行检索，并重新执行所述处理步骤，直到接收到停止迭代的信号时为止；根据在接收到所述停止迭代的信号时选择出的所述待定近义词，确定所述实体词的目标近义词。通过本发明的技术方案，可以有效地识别出近义词，且避免花费大量的人力进行近义词的识别。

Description

近义词识别方法和近义词识别系统

技术领域

本发明涉及计算机处理自然语言的技术领域，具体而言，涉及一种近义词识别方法和一种近义词识别系统。

背景技术

近义词的自动识别在信息检索、信息表示(如文本信息自动赋词标引、自动分类等)、以及编制后控制词表等，都具有十分重要的意义。目前近义词识别方法主要侧重于基于词汇字面相似度算法、基于词素的语义相似度算法、以及基于《近义词词林》、《知网》等语义词典的语义相似度算法。这些分类体系和词表资源都是手工构建的，无需机器学习，能够保证一定程度的质量，但是以花费大量的人力为代价的。

所以，有必要提出一种新的近义词识别方法，以解决在互联网应用中不断出现的新词汇，如何自动有效地获取近义词的技术问题。

因此，如何有效地识别出近义词，且避免花费大量的人力进行近义词的识别成为亟待解决的技术问题。

发明内容

本发明正是基于上述问题，提出了一种新的技术方案，可以有效地识别出近义词，且避免花费大量的人力进行近义词的识别。

有鉴于此，本发明的第一方面提出了一种近义词识别方法，包括：将实体词作为关键词进行检索；处理步骤：计算检索结果中符合预设条件的词与所述实体词之间的相似度，根据所述相似度，在所述符合预设条件的词中选择出所述实体词的待定近义词；将所述待定近义词作为所述关键词进行检索，并重新执行所述处理步骤，直到接收到停止迭代的信号时为止；根据在接收到所述停止迭代的信号时选择出的所述待定近义词，确定所述实体词的目标近义词。

在该技术方案中，通过对检索结果进行统计分析，并进行多次迭代确定实体词的目标近义词，在无需人工干预的前提下，自动、高效、准确地识别出近义词，避免花费大量的人力进行识别。

在上述技术方案中，优选地，所述计算检索结果中符合预设条件的词与所述实体词之间的相似度的步骤，具体包括：为所述符合预设条件的词赋予权重值；生成所述符合预设条件的词对应的词向量；根据所述权重值，计算所述词向量与所述实体词之间的距离，以根据所述距离，确定所述相似度。

在该技术方案中，通过计算检索结果中符合预设条件的词对应的词向量与实体词之间的距离，可以准确地确定检索结果中的词与实体词之间的相似度，从而保证了近义词识别的准确性和可靠性。

在上述任一技术方案中，优选地，通过搜索引擎对所述关键词进行检索。

在该技术方案中，通过搜索引擎进行检索，可见，参与检索的数据相当于利用一个超大型的语料库，在一定程度上解决了数据稀疏的问题。而且避免预先标注词典或大规模的预料，从而提高了近义词识别的效率。

在上述任一技术方案中，优选地，在重新执行所述处理步骤的情况下，当前选择出的所述待定近义词与上次选择出的所述待定近义词不同。

在该技术方案中，当前选择出的待定近义词与上次选择出的待定近义词不同，进一步地保证了识别近义词的高效性和准确性。

在上述任一技术方案中，优选地，所述停止迭代的信号包括：执行所述处理步骤的次数达到预设次数时触发的信号、和/或执行完所述处理步骤后所述待定近义词的个数为预设个数时触发的信号。

在该技术方案中，可以在进行迭代的次数为预设次数时停止迭代，也可以在选择出的待定近义词的个数为预设个数(例如一个或者两个)时停止迭代，从而使用户可以根据自己的实际需求来进行近义词识别。

本发明的第二方面提出了一种近义词识别系统，包括：检索单元，用于将实体词作为关键词进行检索；处理单元，用于执行处理步骤：计算检索结果中符合预设条件的词与所述实体词之间的相似度，根据所述相似度，在所述符合预设条件的词中选择出所述实体词的待定近义词；所述检索单元还用于，将所述待定近义词作为关键词进行检索，并所述处理单元重新执行所述处理步骤，直到接收到停止迭代的信号时为止；确定单元，用于根据在接收到所述停止迭代的信号时选择出的所述待定近义词，确定所述实体词的目标近义词。

在上述技术方案中，优选地，所述处理单元包括：赋值子单元，用于为所述符合预设条件的词赋予权重值；生成子单元，用于生成所述符合预设条件的词对应的词向量；确定子单元，用于根据所述权重值，计算所述词向量与所述实体词之间的距离，以根据所述距离，确定所述相似度。

通过本发明的技术方案，可以有效地识别出近义词，且避免花费大量的人力进行近义词的识别。

附图说明

图1示出了根据本发明的一个实施例的近义词识别方法的流程示意图；

图2示出了根据本发明的另一个实施例的近义词识别方法的流程示意图；

图3示出了根据本发明的一个实施例的近义词识别系统的结构示意图。

具体实施方式

为了可以更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了根据本发明的一个实施例的近义词识别方法的流程示意图。

如图1所示，根据本发明的一个实施例的近义词识别方法，包括：

步骤102，将实体词作为关键词进行检索。

步骤104，处理步骤：计算检索结果中符合预设条件的词与所述实体词之间的相似度，根据所述相似度，在所述符合预设条件的词中选择出所述实体词的待定近义词。

符合预设条件的词包括但不限于以下之一或多种的组合：检索结果中的标题、摘要、标红词、相关搜索词。

例如，在符合预设条件的词中选择出相似度最大的前5个作为待定近义词。

步骤106，将所述待定近义词作为所述关键词进行检索，并重新执行所述处理步骤，直到接收到停止迭代的信号时为止。

步骤108，根据在接收到所述停止迭代的信号时选择出的所述待定近义词，确定所述实体词的目标近义词。

例如，在最终的待定近义词中，选择出相似度最大的词作为目标近义词。

例如，对符合预设条件的词进行深度学习训练，利用word2vec(word2vec是一个利用神经网络将词表示为连续空间向量的一个工具包)，采用Skip-gram模型(连续跨词模型)训练生成对应的词向量。标红词的权重值、标题中词的权重值、摘要中词的权重值和相关搜索词的权重值依次降低。

下面通过一个例子来进一步说明上述技术方案。

在该例子中，具有一定规模的词库；具有一定规模的业务知识库，可以从业务知识库中提取一批实体词，采用Mysql数据库，识别业务知识库中的近义词的方案具体如下。其中，在WEB(互联网)应用方面，Mysql是最好的RDBMS(Relational Database ManagementSystem，关系型数据库管理系统)应用软件之一。

第一步：对业务知识库进行分词、词性标注，提取业务知识库中的实体词。实体词是指在段落或短语中有实际意义的词，能体现整个段落或短语意思的少数几个词，提取实体词的算法包括但不限于TF-IDF(Term Frequency-Inverse Document Frequency，词频-逆向文件频率，用于信息检索数据挖掘的常用加权技术)算法或者TextRank算法(TextRank算法是一种用于文本的排序算法)等。

第二步：用实体词作为关键词进行检索，具体使用百度、搜狐、必应等搜索引擎进行检索。

第三步：提取检索结果中的标题、摘要、标红词、相关搜索词等内容。

第四步：对标题、摘要、标红词、相关搜索词等内容进行分词、加权，并与实体词建立关联。

第五步：利用词向量生成工具，对上述语料(即标题、摘要、标红词、相关搜索词的分词)进行训练，生成对应的词向量。

第六步：计算实体词与词向量之间的距离，根据该距离确定实体词与词向量对应的词之间的相似度，取相似度最高的词作为待定近义词。

第七步：用待定近义词作为关键词进行检索，并重复第二步到第七步，以经过多次迭代获取最终的目标近义词。

图2示出了根据本发明的另一个实施例的近义词识别方法的流程示意图。

如图2所示，根据本发明的另一个实施例的近义词识别方法，包括：

步骤202，用中文分词器收集整理实体词。

步骤204，将实体词作为关键词，利用搜索引擎进行检索。

步骤206，抽取搜索结果页面中的标题、摘要、标红词、相关搜索词等内容。

步骤208，建立实体词与提取的标题、摘要、标红词、相关搜索词等内容的关联，并赋予标题、摘要、标红词、相关搜索词不同的权重值。

步骤210，用于word2vec生成标题、摘要、标红词、相关搜索词的词向量。

步骤212，计算向量空间中词向量与实体词之间的距离，提取待定近义词。并重新进入步骤204进行迭代，在进行迭代的过程中，若提取的待定近义词的数量为一个时，停止迭代，并执行步骤214。

步骤214，识别出目标近义词。将停止迭代时所提取的待定近义词作为实体词的目标近义词。

如图3所示，根据本发明的一个实施例的近义词识别系统300，包括：检索单元302、处理单元304和确定单元306。

检索单元302，用于将实体词作为关键词进行检索；处理单元304，用于执行处理步骤：计算检索结果中符合预设条件的词与所述实体词之间的相似度，根据所述相似度，在所述符合预设条件的词中选择出所述实体词的待定近义词；所述检索单元302还用于，将所述待定近义词作为关键词进行检索，并所述处理单元304重新执行所述处理步骤，直到接收到停止迭代的信号时为止；确定单元306，用于根据在接收到所述停止迭代的信号时选择出的所述待定近义词，确定所述实体词的目标近义词。

在上述技术方案中，优选地，所述处理单元304包括：赋值子单元3042，用于为所述符合预设条件的词赋予权重值；生成子单元3044，用于生成所述符合预设条件的词对应的词向量；确定子单元3046，用于根据所述权重值，计算所述词向量与所述实体词之间的距离，以根据所述距离，确定所述相似度。

以上结合附图详细说明了本发明的技术方案，通过本发明的技术方案，可以有效地识别出近义词，且避免花费大量的人力进行近义词的识别。

在本发明中，术语“第一”、“第二”仅用于描述的目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种近义词识别方法，其特征在于，包括：

将实体词作为关键词进行检索；

处理步骤：计算检索结果中符合预设条件的词与所述实体词之间的相似度，根据所述相似度，在所述符合预设条件的词中选择出所述实体词的待定近义词；

将所述待定近义词作为所述关键词进行检索，并重新执行所述处理步骤，直到接收到停止迭代的信号时为止；

根据在接收到所述停止迭代的信号时选择出的所述待定近义词，确定所述实体词的目标近义词。

2.根据权利要求1所述的近义词识别方法，其特征在于，所述计算检索结果中符合预设条件的词与所述实体词之间的相似度的步骤，具体包括：

为所述符合预设条件的词赋予权重值；

生成所述符合预设条件的词对应的词向量；

根据所述权重值，计算所述词向量与所述实体词之间的距离，以根据所述距离，确定所述相似度。

3.根据权利要求1所述的近义词识别方法，其特征在于，

通过搜索引擎对所述关键词进行检索。

4.根据权利要求1至3中任一项所述的近义词识别方法，其特征在于，

在重新执行所述处理步骤的情况下，当前选择出的所述待定近义词与上次选择出的所述待定近义词不同。

5.根据权利要求1至3中任一项所述的近义词识别方法，其特征在于，

所述停止迭代的信号包括：执行所述处理步骤的次数达到预设次数时触发的信号、和/或执行完所述处理步骤后所述待定近义词的个数为预设个数时触发的信号。

6.一种近义词识别系统，其特征在于，包括：

检索单元，用于将实体词作为关键词进行检索；

处理单元，用于执行处理步骤：计算检索结果中符合预设条件的词与所述实体词之间的相似度，根据所述相似度，在所述符合预设条件的词中选择出所述实体词的待定近义词；

所述检索单元还用于，将所述待定近义词作为所述关键词进行检索，并所述处理单元重新执行所述处理步骤，直到接收到停止迭代的信号时为止；

确定单元，用于根据在接收到所述停止迭代的信号时选择出的所述待定近义词，确定所述实体词的目标近义词。

7.根据权利要求6所述的近义词识别系统，其特征在于，所述处理单元包括：

赋值子单元，用于为所述符合预设条件的词赋予权重值；

生成子单元，用于生成所述符合预设条件的词对应的词向量；

确定子单元，用于根据所述权重值，计算所述词向量与所述实体词之间的距离，以根据所述距离，确定所述相似度。

8.根据权利要求6所述的近义词识别系统，其特征在于，

通过搜索引擎对所述关键词进行检索。

9.根据权利要求6至8中任一项所述的近义词识别系统，其特征在于，

10.根据权利要求6至8中任一项所述的近义词识别系统，其特征在于，