CN114491215A

CN114491215A - 基于搜索的近义词库更新方法、装置、设备及存储介质

Info

Publication number: CN114491215A
Application number: CN202111621342.1A
Authority: CN
Inventors: 余文锋
Original assignee: Shenzhen Fan World Technology Co ltd
Current assignee: Shenzhen Fan World Technology Co ltd
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-05-13

Abstract

本发明公开了一种基于搜索的近义词库更新方法、装置、设备及存储介质，涉及自然语言处理领域，该方法包括：获取待对比的第一目标词语和第二目标词语，生成包含第一目标词语的第一语句集合，以及包含第二目标词语的第二语句集合；基于第一语句集合和第二语句集合，计算第一目标词语和第二目标词语的特征相似度；若特征相似度大于目标预设阈值，则获取第一目标词语的第一网络搜索结果，以及第二目标词语的第二网络搜索结果，并根据第一网络搜索结果和第二网络搜索结果，判断第一目标词语和第二目标词语是否为近义词；若第一目标词语和第二目标词语是近义词，则将第一目标词语和第二目标词语绑定至预设近义词库，本发明提高了近义词挖掘的准确度。

Description

基于搜索的近义词库更新方法、装置、设备及存储介质

技术领域

本发明涉及自然语言处理领域，尤其涉及基于搜索的近义词库更新方法、装置、设备及存储介质。

背景技术

在NLP（Natural Language Processing，自然语言处理）领域中，对于待识别的语言数据的预处理是非常重要的，对语言数据的预处理过程包括分词、近义词替换和噪音词清洗等，其中，近义词替换对两个语句的相似度的计算有着很重要的意义，通过近义词替换可以提高语句相似度计算的可靠性。

现有的近义词替换方法需要维持一个近义词数据库，近义词数据库中存储有技术人员挖掘出来的近义词，然而，现有的近义词挖掘方案基于成熟的词典数据或者单纯靠人工挖掘，无法实现对新兴词语或者拥有背景的词语的挖掘，且在现有的近义词挖掘过程中，人工挖掘存在较大的错误率，导致近义词挖掘的准确度不高。

发明内容

本发明的主要目的在于提供一种基于搜索的近义词库更新方法、装置、设备及存储介质，旨在解决现有近义词挖掘过程中由于数据源少导致的挖掘准确度低的技术问题。

此外，为实现上述目的，本发明还提供一种基于搜索的近义词库更新方法，所述基于搜索的近义词库更新方法包括以下步骤：

获取待对比的第一目标词语和第二目标词语，生成包含所述第一目标词语的第一语句集合，以及包含所述第二目标词语的第二语句集合；

基于所述第一语句集合和所述第二语句集合，计算所述第一目标词语和所述第二目标词语的特征相似度；

若所述特征相似度大于目标预设阈值，则获取所述第一目标词语的第一网络搜索结果，以及所述第二目标词语的第二网络搜索结果，并根据所述第一网络搜索结果和所述第二网络搜索结果，判断所述第一目标词语和所述第二目标词语是否为近义词；

若所述第一目标词语和所述第二目标词语是近义词，则将所述第一目标词语和所述第二目标词语绑定至预设近义词库，以更新所述预设近义词库。

可选地，所述获取待对比的第一目标词语和第二目标词语，生成包含所述第一目标词语的第一语句集合，以及包含所述第二目标词语的第二语句集合的步骤之前，包括：

接收第一待对比词语和第二待对比词语，并获取所述第一待对比词语的第一词性和第一组成语素，以及所述第二待对比词语的第二词性和第二组成语素；

将所述第一词性和所述第二词性进行匹配得到第一匹配结果，所述第一组成语素和所述第二组成语素进行匹配得到第二匹配结果；

根据所述第一匹配结果和所述第二匹配结果，确定所述第一待对比词语为第一目标词语，所述第二待对比词语为第二目标词语。

可选地，所述获取待对比的第一目标词语和第二目标词语，生成包含所述第一目标词语的第一语句集合，以及包含所述第二目标词语的第二语句集合的步骤包括：

获取待对比的第一目标词语和第二目标词语，生成包含所述第一目标词语的第一目标语句，以及包含所述第二目标词语的第二目标语句；

根据预设语法规则判断所述第一目标语句和所述第二目标语句是否存在语法错误；

若所述第一目标语句和所述第二目标语句不存在语法错误，则基于所述第一目标语句确定所述第一目标词语的第一属性信息，基于所述第二目标语句确定所述第二目标词语的第二属性信息；

若所述第一属性信息与所述第二属性信息匹配，则将所述第一目标语句加入第一语句集合，所述第二目标语句加入第二语句集合。

可选地，所述基于所述第一语句集合和所述第二语句集合，计算所述第一目标词语和所述第二目标词语的特征相似度的步骤包括：

从所述第一语句集合中随机选出第一待对比语句，基于所述第一待对比语句从所述第二语句集合中选出第二待对比语句，其中，基于所述第一待对比语句确定的所述第一目标词语的第一属性信息，与基于所述第二待对比语句确定的所述第二目标词语的第二属性信息匹配；

将所述第一待对比语句的语义与所述第二待对比语句的语义进行对比，返回所述从所述第一语句集合中随机选出第一待对比语句，基于所述第一待对比语句从所述第二语句集合中选出第二待对比语句的步骤，直至所述第一语句集合和所述第二语句集合中不存在未进行语义对比的待对比语句，得到总对比结果；

根据所述总对比结果计算所述第一目标词语和所述第二目标词语的特征相似度。

可选地，所述根据所述第一网络搜索结果和所述第二网络搜索结果，判断所述第一目标词语和所述第二目标词语是否为近义词的步骤包括：

将所述第一网络搜索结果中的第一网络地址和所述第二网络搜索中的第二网络地址进行对比，得到第一对比结果；

将所述第一网络搜索结果中的第一网址显示信息和所述第二网络搜索中的第二网址显示信息进行对比，得到第二对比结果；

根据所述第一对比结果和所述第二对比结果，判断所述第一目标词语和所述第二目标词语是否为近义词。

可选地，所述第一网络地址的数量与所述第二网络地址的数量相同，所述根据所述第一对比结果和所述第二对比结果，判断所述第一目标词语和所述第二目标词语是否为近义词的步骤包括：

将所述第一网络地址和所述第二网络地址都包含的网络地址作为目标网络地址，计算所述目标网络地址与所述第一网络地址的第一比例；

从所述第一网络地址和所述第二网络地址中筛选出网址显示信息相似的网络地址，并计算所述网址显示信息相似的网络地址与所述第一网络地址的第二比例；

根据所述第一比例和所述第二比例，判断所述第一目标词语和所述第二目标词语是否为近义词。

可选地，所述基于搜索的近义词库更新方法包括以下步骤：

从所述第一网址显示信息和所述第二网址显示信息中筛选出相同字符；

若所述相同字符与所述第一网址显示信息中的总字符数量的比例大于第一预设阈值，且所述相同字符与所述第二网址显示信息中的总字符数量的比例大于第二预设阈值，则确定所述第一网址显示信息与所述第二网址显示信息相似。

此外，为实现上述目的，本发明还提供一种基于搜索的近义词库更新装置，所述基于搜索的近义词库更新装置包括：

语句集合生成模块，用于获取待对比的第一目标词语和第二目标词语，生成包含所述第一目标词语的第一语句集合，以及包含所述第二目标词语的第二语句集合；

特征相似度计算模块，用于基于所述第一语句集合和所述第二语句集合，计算所述第一目标词语和所述第二目标词语的特征相似度；

判断模块，用于若所述特征相似度大于目标预设阈值，则获取所述第一目标词语的第一网络搜索结果，以及所述第二目标词语的第二网络搜索结果，并根据所述第一网络搜索结果和所述第二网络搜索结果，判断所述第一目标词语和所述第二目标词语是否为近义词；

近义词库更新模块，用于若所述第一目标词语和所述第二目标词语是近义词，则将所述第一目标词语和所述第二目标词语绑定至预设近义词库，以更新所述预设近义词库。

此外，为实现上述目的，本发明还提供一种基于搜索的近义词库更新设备，所述基于搜索的近义词库更新设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于搜索的近义词库更新程序，所述基于搜索的近义词库更新程序被所述处理器执行时实现如上述的基于搜索的近义词库更新方法的步骤。

此外，为实现上述目的，本发明还提供一种存储介质，所述存储介质上存储有基于搜索的近义词库更新程序，所述基于搜索的近义词库更新程序被处理器执行时实现如上述的基于搜索的近义词库更新方法的步骤。

本发明实施例提出的一种基于搜索的近义词库更新方法、装置、设备及存储介质。在本发明实施例中，获取待进行近义词对比的第一目标词语和第二目标词语，生成包含第一目标词语的第一语句集合以及包含第二目标词语的第二语句集合，基于第一语句集合和第二语句集合，计算第一目标词语和第二目标词语的特征相似度，若特征相似度大于目标预设阈值，则获取第一目标词语的第一网络搜索结果，以及第二目标词语的第二网络搜索结果，并根据第一网络搜索结果和第二网络搜索结果，判断第一目标词语和第二目标词语是否为近义词，若第一目标词语和第二目标词语是近义词，则将第一目标词语和第二目标词语绑定至预设近义词库，以更新预设近义词库，本发明通过网络搜索，并根据网络搜索的结果进行近义词判断，提高了近义词挖掘的准确度。

附图说明

图1为本发明实施例提供的基于搜索的近义词库更新设备一种实施方式的硬件结构示意图；

图2为本发明基于搜索的近义词库更新方法第一实施例的流程示意图；

图3为本发明基于搜索的近义词库更新方法第二实施例的流程示意图；

图4为本发明基于搜索的近义词库更新装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

本发明实施例基于搜索的近义词库更新终端（又叫终端、设备或者终端设备）可以是PC，也可以是智能手机、平板电脑和便携计算机等具有功能的设备。

如图1所示，该终端可以包括：处理器1001，例如CPU（Central Processing Unit，中央处理器），通信总线1002，存储器1003。其中，通信总线1002用于实现这些组件之间的连接通信。存储器1003可以是高速RAM存储器，也可以是稳定的存储器（non-volatilememory），例如磁盘存储器。存储器1003可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1003中可以包括基于搜索的近义词库更新程序。

在图1所示的终端中，处理器1001可以用于调用存储器1003中存储的基于搜索的近义词库更新程序，并执行以下操作：

基于上述设备硬件结构，提出了本发明基于搜索的近义词库更新方法的实施例。

参照图2，在本发明基于搜索的近义词库更新方法的第一实施例中，所述基于搜索的近义词库更新方法包括：

步骤S10，获取待对比的第一目标词语和第二目标词语，生成包含所述第一目标词语的第一语句集合，以及包含所述第二目标词语的第二语句集合；

在NLP领域中，近义词替换是非常重要的，近义词替换的前提需要确定两个词是否为近义词，本发明实施例首先获取待进行近义词对比的词语（即，本实施例中的第一目标词语和第二目标词语），本实施例中的第一目标词语和第二目标词语是经过初步筛选的，具体地，初步筛选的目的是得到可以进行近义词对比的词语，筛除掉明显不能进行近义词对比的词语，例如，互为反义词的“光明”与“黑暗”，互不相关的人名“鲁迅”和物名“桌子”等，初步自动筛除的方法将在下文中详述。

第一目标词语和第二目标词语是否为近义词还需要结合实例进行判断，具体地，通过对第一目标词语和第二目标词语分别进行组句，并把生成的包含第一目标词语的语句加入到一个集合（即，本实施例中的第一语句集合）中，把生成的包含第二目标词语的语句加入到另一个集合（即，本实施例中的第二语句集合）中。

步骤S20，基于所述第一语句集合和所述第二语句集合，计算所述第一目标词语和所述第二目标词语的特征相似度；

可知地，第一语句集合和第二语句集合中都包含多个语句，为了便于语句对比，第一语句集合中包含的语句数量和第二语句集合中包含的语句数量是相同的，本实施例给出一种基于第一语句集合和第二语句集合，计算第一目标词语和第二目标词语的特征相似度的方法，具体地，从第一语句集合中选出一个待对比语句（以下简称为第一待对比语句），从第二语句集合中选出一个待对比语句（以下简称为第二待对比语句），需要说明的是，第一待对比语句和第二待对比语句的属性信息是匹配的，其中，属性信息是指待对比语句的组成信息，例如，第一目标词语为“理解”第一待对比语句为“我理解这句话了”，第二目标词语为“明白”第一待对比语句为“我明白这个东西的原理了”，在第一待对比语句中第一目标词语“理解”为谓语，第一待对比语句的语法结构为主语、谓语、定语、宾、助词；在第二待对比语句中第二目标词语“明白”为谓语，第二待对比语句的语法结构为主语、谓语、定语、宾、助词，第一待对比语句中第一目标词语的属性与第二待对比语句中第二目标词语的属性相同，且第一待对比语句的属性（即，语法结构）与第二待对比语句的属性也相同，这种情况下，通过对比第一待对比语句的语义与第二待对比语句的语义，得到对比结果，然后循环从第一语句集合和第二语句集合中成对选出待对比语句进行语义对比，直至第一语句集合和第二语句集合中的待对比语句的语义对比全部完成，最终得到总的对比结果，然后根据总对比结果计算第一目标词语和第二目标词语的特征相似度。

步骤S30，若所述特征相似度大于目标预设阈值，则获取所述第一目标词语的第一网络搜索结果，以及所述第二目标词语的第二网络搜索结果，并根据所述第一网络搜索结果和所述第二网络搜索结果，判断所述第一目标词语和所述第二目标词语是否为近义词；

当第一目标词语和第二目标词语之间的特征相似度大于一定值（即，本实施例中的目标预设阈值）时，可以初步确定第一目标词语和第二目标词语符合互为近义词的基本特征，本实施例在此基础上，进一步通过获取第一目标词语的第一网络搜索结果，以及第二目标词语的第二网络搜索结果，并根据第一网络搜索结果和第二网络搜索结果，判断第一目标词语和第二目标词语是否为近义词，具体地，本实施例给出一种根据网络搜索结果判断第一目标词语和第二目标词语是否为近义词的方法，将第一目标词语和第二目标词语分别输入到搜索引擎得到第一网络搜索结果和第二网络搜索结果，其中，网络搜索结果包括URL（Uniform Resource Locator，统一资源定位器），即网址，还包括每个网址下的显示内容（以字符的形式表现），需要说明的是，当第一搜索结果中的网址（以下简称第一网址）与第二搜索结果中的网址（以下简称第二网址）相同时，第一网址显示的内容与第二网址显示的内容是相同的，本发明提出的基于搜索的近义词库更新方法预先设定第一网址与第二网址的数量是相同的，所以，当第一网址与第二网址中相同网址的数量占比越大，第一目标词语和第二目标词语是近义词的概率越高。

需要说明的是，还存在网址不同，但是显示内容相同或者相似的情况，当第一网址与第二网址中显示内容相同的网址的数量占比越大，第一目标词语和第二目标词语是近义词的概率越高。基于网址以及网址显示信息判断第一目标词语和第二目标词语是否为近义词。

步骤S40，若所述第一目标词语和所述第二目标词语是近义词，则将所述第一目标词语和所述第二目标词语绑定至预设近义词库，以更新所述预设近义词库。

若第一目标词语和第二目标词语是近义词，则将第一目标词语和第二目标词语以近义词的形式绑定至预设近义词库，提通过不断绑定近义词并加入预设近义词库，扩大预设近义词库，达到更新预设近义词库的目的，当预设近义词库中近义词的数量达到一定量级时，预设近义词库便可以用于自然语言处理中的数据预处理（近义词替换）阶段。

进一步地，在一种可行的实施例中，上述步骤S10，获取待对比的第一目标词语和第二目标词语，生成包含所述第一目标词语的第一语句集合，以及包含所述第二目标词语的第二语句集合，之前的步骤包括：

步骤a1，接收第一待对比词语和第二待对比词语，并获取所述第一待对比词语的第一词性和第一组成语素，以及所述第二待对比词语的第二词性和第二组成语素；

步骤a2，将所述第一词性和所述第二词性进行匹配得到第一匹配结果，所述第一组成语素和所述第二组成语素进行匹配得到第二匹配结果；

步骤a3，根据所述第一匹配结果和所述第二匹配结果，确定所述第一待对比词语为第一目标词语，所述第二待对比词语为第二目标词语。

需要说明的是，本发明提出的基于搜索的近义词库更新方法是基于计算机程序自动完成的，需要对用户输入的待对比词语进行初步筛查，以筛除掉明显不是近义词的词语，例如，互为反义词的“明白”和“糊涂”，以及毫不相干的“奇怪”与“书本”，这些词语是不能进行近义词判断的，而确定用户输入的词语能否进行近义词判断的方法是基于词语的词性和组成语素来确定的，其中，词语的词性是指词语可以作为名词、动词或者形容词等，词语的语素是指最小的语音和语义结合体，是最小的有意义的语言单位，包括单音节语素、双音节语素和多音节语素。

基于搜索的近义词库更新程序在接收到用户输入的第一待对比词语和第二待对比词语后，首先获取第一待对比词语的第一词性和第一组成语素，以及第二待对比词语的第二词性和第二组成语素，紧接着将第一词性和第二词性进行匹配得到第一匹配结果，将第一组成语素和第二组成语素进行匹配得到第二匹配结果，具体地，第一匹配结果反映的是第一词性和第二词性的相似程度，同理，第二匹配结果反映的是第一组成语素和第二组成语素的相似程度，最终根据第一匹配结果和第二匹配结果，确定第一待对比词语为第一目标词语，第二待对比词语为第二目标词语，可知地，第一词性和第二词性的相似程度高，和第一组成语素和第二组成语素的相似程度高，则可以确定第一待对比词语为第一目标词语，第二待对比词语为第二目标词语，即，可以进行近义词判断的词语。

进一步地，在一种可行的实施例中，上述步骤S10，获取待对比的第一目标词语和第二目标词语，生成包含所述第一目标词语的第一语句集合，以及包含所述第二目标词语的第二语句集合，细化的步骤包括：

步骤S11，获取待对比的第一目标词语和第二目标词语，生成包含所述第一目标词语的第一目标语句，以及包含所述第二目标词语的第二目标语句；

步骤S12，根据预设语法规则判断所述第一目标语句和所述第二目标语句是否存在语法错误；

步骤S13，若所述第一目标语句和所述第二目标语句不存在语法错误，则基于所述第一目标语句确定所述第一目标词语的第一属性信息，基于所述第二目标语句确定所述第二目标词语的第二属性信息；

步骤S14，若所述第一属性信息与所述第二属性信息匹配，则将所述第一目标语句加入第一语句集合，所述第二目标语句加入第二语句集合。

需要说明的是，本实施例提出的基于词语生成语句的方法是通过计算机程序自动完成的，因此，需要对生成的包含第一目标词语的第一目标语句，以及包含第二目标词语的第二目标语句进行初步的筛除，具体地，首先根据预设语法规则判断第一目标语句和第二目标语句是否存在语法错误，由于本实施例提出的基于词语生成语句的方法是通过计算机程序完成的，所以无法识别只有人的大脑才能识别的诸如倒装句和无序语句，例如，“上午吃饭了吗你”和“吃饭了你上午吗”等，人的大脑可以很简单地识别出上述语句是“你上午吃饭了吗”，而计算机程序无法识别，因此，需要先基于预设语法规则判断第一目标语句和第二目标语句是否存在语法错误，然后在第一目标语句和第二目标语句不存在语法错误的情况下，再基于第一目标语句确定第一目标词语的第一属性信息，基于第二目标语句确定第二目标词语的第二属性信息，第一属性信息是指，第一目标词语在第一目标语句中的词性和位置等信息，第二属性信息同上，若第一属性信息与第二属性信息匹配，则将第一目标语句加入第一语句集合，第二目标语句加入第二语句集合。

进一步地，在一种可行的实施例中，上述步骤S20，基于所述第一语句集合和所述第二语句集合，计算所述第一目标词语和所述第二目标词语的特征相似度，细化的步骤包括：

步骤S21，从所述第一语句集合中随机选出第一待对比语句，基于所述第一待对比语句从所述第二语句集合中选出第二待对比语句，其中，基于所述第一待对比语句确定的所述第一目标词语的第一属性信息，与基于所述第二待对比语句确定的所述第二目标词语的第二属性信息匹配；

步骤S22，将所述第一待对比语句的语义与所述第二待对比语句的语义进行对比，返回所述从所述第一语句集合中随机选出第一待对比语句，基于所述第一待对比语句从所述第二语句集合中选出第二待对比语句的步骤，直至所述第一语句集合和所述第二语句集合中不存在未进行语义对比的待对比语句，得到总对比结果；

步骤S23，根据所述总对比结果计算所述第一目标词语和所述第二目标词语的特征相似度。

需要说明的是，将属性信息相匹配的语句进行对比，更能反映出两个词语的特征相似度，首先，从第一语句集合中随机选出第一待对比语句，基于第一待对比语句从第二语句集合中选出第二待对比语句，其中，基于第一待对比语句确定的第一目标词语的第一属性信息，与基于第二待对比语句确定的第二目标词语的第二属性信息匹配，然后，将第一待对比语句的语义与第二待对比语句的语义进行对比，返回从第一语句集合中随机选出第一待对比语句，基于第一待对比语句从第二语句集合中选出第二待对比语句的步骤，直至第一语句集合和第二语句集合中不存在未进行语义对比的待对比语句，最终得到总对比结果，当第一语句集合和第二语句集合中属性信息匹配的语句占比越大，第一目标词语和第二目标词语的特征相似度越高。

本实施例给出一种基于第一语句集合和第二语句集合，计算第一目标词语和第二目标词语的特征相似度的方法，具体地，从第一语句集合中选出一个待对比语句（即，本实施例中的第一待对比语句），从第二语句集合中选出一个待对比语句（即，本实施例中的第二待对比语句），需要说明的是，第一待对比语句和第二待对比语句的属性信息是匹配的，其中，属性信息是指待对比语句的组成信息，例如，第一目标词语为“体会”第一待对比语句为“你体会这种感觉了吗”，第二目标词语为“认识”第一待对比语句为“你认识错误了吗”，在第一待对比语句中第一目标词语“体会”为谓语，第一待对比语句的语法结构为主语、谓语、定语、宾、助词；在第二待对比语句中第二目标词语“认识”为谓语，第二待对比语句的语法结构为主语、谓语、宾、助词，第一待对比语句中第一目标词语的属性与第二待对比语句中第二目标词语的属性相同，且第一待对比语句的属性（即，语法结构）与第二待对比语句的属性也相同，这种情况下，通过对比第一待对比语句的语义与第二待对比语句的语义，得到对比结果，然后循环从第一语句集合和第二语句集合中成对选出待对比语句进行语义对比，直至第一语句集合和第二语句集合中的待对比语句的语义对比全部完成，最终得到总的对比结果，然后根据总对比结果计算第一目标词语和第二目标词语的特征相似度。具体地，语义是指语言所蕴含的意义，通过多组不同语法结构的语句之间的对比，可以计算第一目标词语和第二目标词语的特征相似度。

在本实施例中，获取待进行近义词对比的第一目标词语和第二目标词语，生成包含第一目标词语的第一语句集合以及包含第二目标词语的第二语句集合，基于第一语句集合和第二语句集合，计算第一目标词语和第二目标词语的特征相似度，若特征相似度大于目标预设阈值，则获取第一目标词语的第一网络搜索结果，以及第二目标词语的第二网络搜索结果，并根据第一网络搜索结果和第二网络搜索结果，判断第一目标词语和第二目标词语是否为近义词，若第一目标词语和第二目标词语是近义词，则将第一目标词语和第二目标词语绑定至预设近义词库，以更新预设近义词库，本发明通过网络搜索，并根据网络搜索的结果进行近义词判断，提高了近义词挖掘的准确度。

进一步地，参照图3，在本发明上述实施例的基础上，提出了本发明基于搜索的近义词库更新方法的第二实施例。

本实施例是第一实施例中步骤S30，根据所述第一网络搜索结果和所述第二网络搜索结果，判断所述第一目标词语和所述第二目标词语是否为近义词，细化的步骤，本实施例与本发明上述实施例的区别在于：

步骤S31，将所述第一网络搜索结果中的第一网络地址和所述第二网络搜索中的第二网络地址进行对比，得到第一对比结果；

需要说明的是，本发明提出的基于搜索的近义词库更新方法预先设定搜索得到的第一网络地址与第二网络地址的数量是相同的，本实施例给出一种具体的应用场景，通过将第一目标词语输入搜索引擎得到的第一网络搜索结果中包含100个第一网络地址，通过将第二目标词语输入搜索引擎得到的第二网络搜索结果中包含100个第二网络地址，将100个第一网络地址和100个第二网络地址进行对比，统计第一网络地址和第二网络地址中相同的网络地址的数量，并计算相同网络地址的数量占比，若第一网络地址和第二网络地址中相同的网络地址为5个，则相同网络地址的数量占比为5%，本实施例中的第一对比结果包括相同网络地址的数量占比。

步骤S32，将所述第一网络搜索结果中的第一网址显示信息和所述第二网络搜索中的第二网址显示信息进行对比，得到第二对比结果；

可知地，若两个网络地址相同，则两个网络地址的网址显示信息就相同，需要说明的是，还存在两个网络地址不相同，但是两个网络地址的网址显示信息相同（或者相似）的情况，因此，第一网络地址与第二网络地址中网址显示信息相同的网址数量大于或等于上述第一对比结果中相同网络地址的数量占比，将第一网络搜索结果中的第一网址显示信息和第二网络搜索中的第二网址显示信息进行对比，得到的第二对比结果中包含网址显示信息相同的网址的数量占比，若第一网络地址和第二网络地址中网址显示信息相同的网络地址为7个，则网址显示信息相同的网址的数量占比为7%。

步骤S33，根据所述第一对比结果和所述第二对比结果，判断所述第一目标词语和所述第二目标词语是否为近义词。

在得到第一对比结果和第二对比结果后，根据第一对比结果和第二对比结果，判断第一目标词语和第二目标词语是否为近义词。具体地，举例说明，若第一对比结果中相同网络地址的数量占比大于一个值（第一预设阈值），且第二对比结果中网址显示信息相同的网址的数量占比大于另外一个值（第二预设阈值），则第一目标词语和第二目标词语为近义词的概率更高。

进一步地，在一种可行的实施例中，第一网络地址的数量与第二网络地址的数量相同，上述步骤S33，根据所述第一对比结果和所述第二对比结果，判断所述第一目标词语和所述第二目标词语是否为近义词，细化的步骤包括：

步骤S331，将所述第一网络地址和所述第二网络地址都包含的网络地址作为目标网络地址，计算所述目标网络地址与所述第一网络地址的第一比例；

步骤S332，从所述第一网络地址和所述第二网络地址中筛选出网址显示信息相似的网络地址，并计算所述网址显示信息相似的网络地址与所述第一网络地址的第二比例；

步骤S333，根据所述第一比例和所述第二比例，判断所述第一目标词语和所述第二目标词语是否为近义词。

可知地，本发明提出的基于搜索的近义词库更新方法预先设定搜索得到的第一网络地址与第二网络地址的数量是相同的，本实施例给出一种具体的应用场景，通过将第一目标词语输入搜索引擎得到的第一网络搜索结果中包含100个第一网络地址，通过将第二目标词语输入搜索引擎得到的第二网络搜索结果中包含100个第二网络地址，将100个第一网络地址和100个第二网络地址进行对比，统计第一网络地址和第二网络地址中相同的网络地址的数量，并计算相同网络地址的数量占比，若第一网络地址和第二网络地址中相同的网络地址为5个，则相同网络地址的数量占比为5%，即，本实施例中的第一比例。若两个网络地址相同，则两个网络地址的网址显示信息就相同，需要说明的是，还存在两个网络地址不相同，但是两个网络地址的网址显示信息相同（或者相似）的情况，因此，第一网络地址与第二网络地址中网址显示信息相同的网址数量大于或等于上述第一对比结果中相同网络地址的数量占比，将第一网络搜索结果中的第一网址显示信息和第二网络搜索中的第二网址显示信息进行对比，得到的第二对比结果中包含网址显示信息相同的网址的数量占比，若第一网络地址和第二网络地址中网址显示信息相同的网络地址为7个，则网址显示信息相同的网址的数量占比为7%，即本实施例中的第二比例，根据第一比例和第二比例，判断第一目标词语和第二目标词语是否为近义词。

进一步地，在一种可行的实施例中，上述基于搜索的近义词库更新方法还包括以下步骤：

步骤b1，从所述第一网址显示信息和所述第二网址显示信息中筛选出相同字符；

步骤b2，若所述相同字符与所述第一网址显示信息中的总字符数量的比例大于第一预设阈值，且所述相同字符与所述第二网址显示信息中的总字符数量的比例大于第二预设阈值，则确定所述第一网址显示信息与所述第二网址显示信息相似。

可知地，本实施例给出一种判断两个网络地址的网址显示信息是否相同或者相似的方法，需要说明的是，网址显示信息由字符组成，首先，从第一网址显示信息和第二网址显示信息中筛选出相同字符，若第一网址显示信息和第二网址显示信息中筛选出的相同字符与第一网址显示信息中的总字符数量的比例大于第一预设阈值，且第一网址显示信息和第二网址显示信息中筛选出的相同字符与第二网址显示信息中的总字符数量的比例大于第二预设阈值，则确定第一网址显示信息与第二网址显示信息相似，其中，第一预设阈值与第二预设阈值可以相同，也可以不同。

在本实施例中，通过搜索引擎得到词语的搜索结果，进而根据搜索结果中的相同网址数量占比以及网址显示信息相同的网址数量占比，来判断第一目标词语和第二目标词语是否为近义词，提高了近义词挖掘的准确度。

此外，参照图4，本发明实施例还提出一种基于搜索的近义词库更新装置，所述基于搜索的近义词库更新装置包括：

语句集合生成模块10，用于获取待对比的第一目标词语和第二目标词语，生成包含所述第一目标词语的第一语句集合，以及包含所述第二目标词语的第二语句集合；

特征相似度计算模块20，用于基于所述第一语句集合和所述第二语句集合，计算所述第一目标词语和所述第二目标词语的特征相似度；

判断模块30，用于若所述特征相似度大于目标预设阈值，则获取所述第一目标词语的第一网络搜索结果，以及所述第二目标词语的第二网络搜索结果，并根据所述第一网络搜索结果和所述第二网络搜索结果，判断所述第一目标词语和所述第二目标词语是否为近义词；

近义词库更新模块40，用于若所述第一目标词语和所述第二目标词语是近义词，则将所述第一目标词语和所述第二目标词语绑定至预设近义词库，以更新所述预设近义词库。

可选地，所述基于搜索的近义词库更新装置，还包括：

组成语素获取模块，用于接收第一待对比词语和第二待对比词语，并获取所述第一待对比词语的第一词性和第一组成语素，以及所述第二待对比词语的第二词性和第二组成语素；

匹配结果获取模块，用于将所述第一词性和所述第二词性进行匹配得到第一匹配结果，所述第一组成语素和所述第二组成语素进行匹配得到第二匹配结果；

目标词语确定模块，用于根据所述第一匹配结果和所述第二匹配结果，确定所述第一待对比词语为第一目标词语，所述第二待对比词语为第二目标词语。

可选地，所述语句集合生成模块10，包括：

目标语句生成单元，用于获取待对比的第一目标词语和第二目标词语，生成包含所述第一目标词语的第一目标语句，以及包含所述第二目标词语的第二目标语句；

第一判断单元，用于根据预设语法规则判断所述第一目标语句和所述第二目标语句是否存在语法错误；

属性信息确定单元，用于若所述第一目标语句和所述第二目标语句不存在语法错误，则基于所述第一目标语句确定所述第一目标词语的第一属性信息，基于所述第二目标语句确定所述第二目标词语的第二属性信息；

语句集合加入单元，用于若所述第一属性信息与所述第二属性信息匹配，则将所述第一目标语句加入第一语句集合，所述第二目标语句加入第二语句集合。

可选地，所述特征相似度计算模块20，包括：

随机选择单元，用于从所述第一语句集合中随机选出第一待对比语句，基于所述第一待对比语句从所述第二语句集合中选出第二待对比语句，其中，基于所述第一待对比语句确定的所述第一目标词语的第一属性信息，与基于所述第二待对比语句确定的所述第二目标词语的第二属性信息匹配；

总对比结果获取单元，用于将所述第一待对比语句的语义与所述第二待对比语句的语义进行对比，返回所述从所述第一语句集合中随机选出第一待对比语句，基于所述第一待对比语句从所述第二语句集合中选出第二待对比语句的步骤，直至所述第一语句集合和所述第二语句集合中不存在未进行语义对比的待对比语句，得到总对比结果；

特征相似度计算单元，用于根据所述总对比结果计算所述第一目标词语和所述第二目标词语的特征相似度。

可选地，所述判断模块30，包括：

第一对比单元，用于将所述第一网络搜索结果中的第一网络地址和所述第二网络搜索中的第二网络地址进行对比，得到第一对比结果；

第二对比单元，用于将所述第一网络搜索结果中的第一网址显示信息和所述第二网络搜索中的第二网址显示信息进行对比，得到第二对比结果；

第二判断单元，用于根据所述第一对比结果和所述第二对比结果，判断所述第一目标词语和所述第二目标词语是否为近义词。

可选地，所述第一网络地址的数量与所述第二网络地址的数量相同，所述第二判断单元，包括：

第一比例计算单元，用于将所述第一网络地址和所述第二网络地址都包含的网络地址作为目标网络地址，计算所述目标网络地址与所述第一网络地址的第一比例；

网络地址筛选单元，用于从所述第一网络地址和所述第二网络地址中筛选出网址显示信息相似的网络地址，并计算所述网址显示信息相似的网络地址与所述第一网络地址的第二比例；

第三判断单元，用于根据所述第一比例和所述第二比例，判断所述第一目标词语和所述第二目标词语是否为近义词。

可选地，所述基于搜索的近义词库更新装置，还包括：

字符筛选模块，用于从所述第一网址显示信息和所述第二网址显示信息中筛选出相同字符；

相似确定模块，用于若所述相同字符与所述第一网址显示信息中的总字符数量的比例大于第一预设阈值，且所述相同字符与所述第二网址显示信息中的总字符数量的比例大于第二预设阈值，则确定所述第一网址显示信息与所述第二网址显示信息相似。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有基于搜索的近义词库更新程序，所述基于搜索的近义词库更新程序被处理器执行时实现上述实施例提供的基于搜索的近义词库更新方法中的操作。

上述各程序模块所执行的方法可参照本发明基于搜索的近义词库更新方法各个实施例，此处不再赘述。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体/操作/对象与另一个实体/操作/对象区分开来，而不一定要求或者暗示这些实体/操作/对象之间存在任何这种实际的关系或者顺序；术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的基于搜索的近义词库更新方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于搜索的近义词库更新方法，其特征在于，所述基于搜索的近义词库更新方法包括以下步骤：

2.如权利要求1所述的基于搜索的近义词库更新方法，其特征在于，所述获取待对比的第一目标词语和第二目标词语，生成包含所述第一目标词语的第一语句集合，以及包含所述第二目标词语的第二语句集合的步骤之前，包括：

3.如权利要求2所述的基于搜索的近义词库更新方法，其特征在于，所述获取待对比的第一目标词语和第二目标词语，生成包含所述第一目标词语的第一语句集合，以及包含所述第二目标词语的第二语句集合的步骤包括：

4.如权利要求3所述的基于搜索的近义词库更新方法，其特征在于，所述基于所述第一语句集合和所述第二语句集合，计算所述第一目标词语和所述第二目标词语的特征相似度的步骤包括：

5.如权利要求1所述的基于搜索的近义词库更新方法，其特征在于，所述根据所述第一网络搜索结果和所述第二网络搜索结果，判断所述第一目标词语和所述第二目标词语是否为近义词的步骤包括：

6.如权利要求5所述的基于搜索的近义词库更新方法，其特征在于，所述第一网络地址的数量与所述第二网络地址的数量相同，所述根据所述第一对比结果和所述第二对比结果，判断所述第一目标词语和所述第二目标词语是否为近义词的步骤包括：

7.如权利要求6所述的基于搜索的近义词库更新方法，其特征在于，所述基于搜索的近义词库更新方法包括以下步骤：

8.一种基于搜索的近义词库更新装置，其特征在于，所述基于搜索的近义词库更新装置包括：

9.一种基于搜索的近义词库更新设备，其特征在于，所述基于搜索的近义词库更新设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于搜索的近义词库更新程序，所述基于搜索的近义词库更新程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于搜索的近义词库更新方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有基于搜索的近义词库更新程序，所述基于搜索的近义词库更新程序被处理器执行时实现如权利要求1至7中任一项所述的基于搜索的近义词库更新方法的步骤。