CN111178059A

CN111178059A - 一种基于word2vec技术的相似度比较方法及装置

Info

Publication number: CN111178059A
Application number: CN201911246626.XA
Authority: CN
Inventors: 陈钢; 高波
Original assignee: Wuhan Optics Valley Information Technology Co ltd
Current assignee: Wuhan Optics Valley Information Technology Co ltd
Priority date: 2019-12-07
Filing date: 2019-12-07
Publication date: 2020-05-19
Anticipated expiration: 2039-12-07
Also published as: CN111178059B

Abstract

本发明提出了一种基于word2vec技术的相似度比较方法及装置。包括：获取网络文章以及本地词库，建立word2vec算法，通过word2vec算法对该网络文章进行训练，生成词向量模型文件；获取多个待比较语句，根据词库对多个待比较语句进行查找，将能够在词库中查找到的词语转化为数字编码作为待比较数字编码，记录不能够在词库中查找到的词语为待比较词语；将待比较词语放入词向量模型文件中，获取待比较编码语句的相似度。本发明通过word2vec算法以及数字编码能够有效对不同设备名称的同一设备进行比对，提高工作效率。

Description

一种基于word2vec技术的相似度比较方法及装置

技术领域

本发明涉及计算机软件技术领域，尤其涉及一种基于word2vec技术的相似度比较方法及装置。

背景技术

电网各职能部门在信息系统建设的初期，主要工作是解决各部门的生产需求，这样就导致了各系统之间并没有实现数据互通。但是从2017年开始，电网启动梳理存量设备清册工作，由于各系统中设备名称为手工录入，叫法各异，有全称、有简称、有带地名、有带设备用途等等，给资产的盘点工作造成了极大的困难，最初的方法主要是导出各系统的数据，要么借助EXCEL、要么纯人工的方式进行比对，工作量巨大、比对周期长、效率低，难以为继。且目前行业内没有一款有效的比对工具解决该痛点。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

有鉴于此，本发明提出了一种基于word2vec技术的相似度比较方法及装置，旨在解决现有技术无法通过word2vec技术确定电网行业中不同名称的设备为同一设备的技术问题。

本发明的技术方案是这样实现的：

一方面，本发明提供了一种基于word2vec技术的相似度比较方法，所述基于word2vec技术的相似度比较方法包括以下步骤：

S1，获取网络文章以及本地词库，建立word2vec算法，通过word2vec算法对该网络文章进行训练，生成词向量模型文件；

S2，获取多个待比较语句，根据词库对多个待比较语句进行查找，将能够在词库中查找到的词语转化为数字编码作为待比较数字编码，记录不能够在词库中查找到的词语为待比较词语，将待比较数字编码与待比较词语组合成待比较编码语句；

S3，获取比较编码语句的语句结构，将多个待比较编码语句的语句结构两两进行比较，根据比较结果，将待比较词语放入词向量模型文件中，获取待比较编码语句的相似度。

在以上技术方案的基础上，优选的，步骤S1中，获取网络文章以及本地词库，获取网络文章以及本地词库，建立word2vec算法，通过word2vec算法对该网络文章进行训练，生成词向量模型文件，还包括以下步骤，获取本地历史词语，分配唯一数字编号给每一个历史词语，根据本地历史词语以及对应的数字编码建立本地词库，通过word2vec算法对网络文章进行训练，生成词向量模型文件。

在以上技术方案的基础上，优选的，还包括以下步骤，所述word2vec算法为：

其中，v(w)代表词向量模型文件，C(w)代表包含该词语的网络文章，

代表最大对数似然，w代表词语，u代表另一个词语，j代表节点的索引下标，l^u代表路径包含的节点个数，路径是指利用Huffman树形成的到各词语的通道。

在以上技术方案的基础上，优选的，步骤S2中，获取多个待比较语句，根据词库对多个待比较语句进行查找，将能够在词库中查找到的词语转化为数字编码作为待比较数字编码，记录不能够在词库中查找到的词语为待比较词语，将待比较数字编码与待比较词语组合成待比较编码语句，还包括以下步骤，获取多个待比较语句，根据词库对多个待比较语句进行查找，当待比较语句中的词语在词库中能够被查找到时，根据词库中词语对应的数字编码对该词语进行转化，获取转化后的数字编码作为待比较数字编码，将多个待比较数字编码按照从小到大的顺序进行排列，获取排列后的数字编码组合；当待比较语句中的词语在词库中不能够被查找到时，记录该词语为待比较词语，将待比较数字编码与待比较词语组合成待比较编码语句。

在以上技术方案的基础上，优选的，步骤S3中，获取比较编码语句的语句结构，将多个待比较编码语句的语句结构两两进行比较，根据比较结果，将待比较词语放入词向量模型文件中，获取待比较编码语句的相似度，还包括以下步骤，获取该待比较编码语句的语句结构，将各待比较编码语句的语句结构两两进行比较，当待比较编码语句的语句结构相同时，将待比较词语放入词向量模型文件中，获取待比较编码语句的相似度。

在以上技术方案的基础上，优选的，将待比较词语放入词向量模型文件中，获取待比较编码语句的相似度，还包括以下步骤，将待比较词语放入词向量模型文件中，通过余弦相似度确定待比较词语的相似度，根据待比较编码语句的相似度以及待比较词语的相似度确定待比较编码语句的相似度。

在以上技术方案的基础上，优选的，根据待比较编码语句的相似度以及待比较词语的相似度确定待比较编码语句的相似度，还包括以下步骤，设定预设数值，将待比较编码语句的相似度与待比较词语的相似度组合作为最终相似度，将预设数值与最终相似度进行比较，当最终相似度大于预设数值时，表示最终相似度对应的2个待比较编码语句对应的待比较语句之间相似；当最终相似度小于预设数值时，表示匹配度数值对应的2个待比较编码语句对应的待比较语句之间不相似。

更进一步优选的，所述基于word2vec技术的相似度比较装置包括：

词库建立模块，用于获取网络文章以及本地词库，建立word2vec算法，通过word2vec算法对该网络文章进行训练，生成词向量模型文件；

计算模块，用于获取多个待比较语句，根据词库对多个待比较语句进行查找，将能够在词库中查找到的词语转化为数字编码作为待比较数字编码，记录不能够在词库中查找到的词语为待比较词语，将待比较数字编码与待比较词语组合成待比较编码语句；

比较模块，用于获取比较编码语句的语句结构，将多个待比较编码语句的语句结构两两进行比较，根据比较结果，将待比较词语放入词向量模型文件中，获取待比较编码语句的相似度。

第二方面，所述基于word2vec技术的相似度比较方法还包括一种设备，所述设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于word2vec技术的相似度比较方法程序，所述基于word2vec技术的相似度比较方法程序配置为实现如上文所述的基于word2vec技术的相似度比较方法的步骤。

第三方面，所述基于word2vec技术的相似度比较方法还包括一种介质，所述介质为计算机介质，所述计算机介质上存储有基于word2vec技术的相似度比较方法程序，所述基于word2vec技术的相似度比较方法程序被处理器执行时实现如上文所述的基于word2vec技术的相似度比较方法的步骤。

本发明的一种基于word2vec技术的相似度比较方法相对于现有技术具有以下有益效果：

(1)通过word2vec算法，能够计算出每个词的词向量模型文件，通过词向量模型文件的余弦相似度能够精确对2个词之间的相似度进行判断，提高了判断精度，同时也加快了工作效率；

(2)通过预先设定好数字编码，对词库中的词语进行数字编码，然后将待比较语句中能够在词库找到的词语转换成数字编码，对不能转化成数字编码进行相似度比较，通过这种方式，能够快速去相似度进行判断，节省了数据运算量，提高了运算效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例方案涉及的硬件运行环境的设备的结构示意图；

图2为本发明基于word2vec技术的相似度比较方法第一实施例的流程示意图；

图3为本发明基于word2vec技术的相似度比较方法第一实施例的功能模块示意图。

具体实施方式

下面将结合本发明实施方式，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

如图1所示，该设备可以包括：处理器1001，例如中央处理器(Central ProcessingUnit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory，RAM)存储器，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对设备的限定，在实际应用中设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于word2vec技术的相似度比较方法程序。

在图1所示的设备中，网络接口1004主要用于建立设备与存储基于word2vec技术的相似度比较方法系统中所需的所有数据的服务器的通信连接；用户接口1003主要用于与用户进行数据交互；本发明基于word2vec技术的相似度比较方法设备中的处理器1001、存储器1005可以设置在基于word2vec技术的相似度比较方法设备中，所述基于word2vec技术的相似度比较方法设备通过处理器1001调用存储器1005中存储的基于word2vec技术的相似度比较方法程序，并执行本发明实施提供的基于word2vec技术的相似度比较方法。

结合图2，图2为本发明基于word2vec技术的相似度比较方法第一实施例的流程示意图。

本实施例中，所述基于word2vec技术的相似度比较方法包括以下步骤：

S10：获取网络文章以及本地词库，建立word2vec算法，通过word2vec算法对该网络文章进行训练，生成词向量模型文件。

应当理解的是，获取的网络文章可以分为两类，一类是日常词语，一类是行业专业词语，日常词语通过互联网及线下等方式收集大量的具有上下逻辑关系的新闻素材，如各门户网站发布的新闻、长篇小说、散文等，比如“武汉”、“北京”、“玫瑰”以及“苹果”等以新华字典、现代汉语词典的字、词为分词原则的词语；行业专业词语通过行业渠道收集电网行业的专业训练素材，如电力行业的培训稿、讲话、汇报材料，数据库相关字段组合成的长文本、设备清册目录等行业语料，比如“高压电缆”以及“变压器”等。

应当理解的是，获取网络文章，获取本地分词器，根据本地分词器对网络文章中的词语进行拆分，获取拆分后的各个词语对每一个词语分配数字编码，然后会根据拆分出来的词语建立词库，系统中的词库是由日常词库以及自定义词库组成，其中，日常词库是日常词语组成，自定义词库是由行业专业词语组成，也可以人为添加词语进入自定义词库，这个过程是不断重复更新的过程，最初的词库是由本地历史词语组成，然后系统不断从网络获取文章，然后根据分词器对文章进行拆分，然后获取对应的词语，将这些词语放入词库，对词库进行完善。

应当理解的是，获取网络文章，建立word2vec算法，通过word2vec算法对该网络文章进行训练，主要采用word2vec算法中的Skip-gram模型，素材越多，训练效果越好，训练完成后，生成的词向量模型文件具备日常词语的比较能力，比如输入武汉，系统会自动给出北京、上海这种相似的地名；或输入“武汉”和“北京”，系统会给出较高的相似度值；输入武汉和花朵，则计算出的相似度值很低。

应当理解的是，词语转换成编码主要依赖自定义词库，而自定义词库是通过人工或者写好的程序来不断往里面进行添加和完善，词库越丰富，能转码的词就越多。但我们维护自定义词库的原则是电力行业的一些专业名词，比如变电站、变压器、高压线缆之类的。但是还有一些没什么规律的行业词汇我们是不维护的，比如1#配电箱变，我们可能只会维护箱变，1#配电不是一个固定的词汇，所以我们不会维护，这样的话，还是会有不少词是不会被转码的。而词向量模型的训练，是把整篇文章放进去训练，训练过程中，是根据自定义词库进行拆分词，如果找不到，也会根据通用词库来拆分词，也就是在训练过程中总是会对词进行拆分、然后学习，形成词向量。所以像一些讲话稿、汇报材料里出现的词(也会出现一些简称、别称之类的词)不一定会被维护到自定义词库，但会在词向量模型中存在。

应当理解的是，word2vec是一个用于获取word vector的工具包，所述word2vec算法为：

S20：获取多个待比较语句，根据词库对多个待比较语句进行查找，将能够在词库中查找到的词语转化为数字编码作为待比较数字编码，记录不能够在词库中查找到的词语为待比较词语，将待比较数字编码与待比较词语组合成待比较编码语句。

应当理解的是，获取多个待比较语句，此处待比较词语至少是2个以上，然后会根据建立好的词库对待比较语句中的每一个词进行查找，如果词库中存在相对应的词语，则会获取词库中这个词语相应的数字编码，然后将待比较语句中对应的词语转化成该数字编码，对于待比较语句中的每一个词语都会这样进行转化，然后将多个数字编码按照从小到大的顺序进行排列，获取排列后的数字编码组合，如果词库中没有相对应的词语，则会保留待比较语句中的那个词语。

S30：获取比较编码语句的语句结构，将多个待比较编码语句的语句结构两两进行比较，根据比较结果，将待比较词语放入词向量模型文件中，获取待比较编码语句的相似度。

应当理解的是，将待比较数字编码与待比较词语组合成待比较编码语句，这时，可以通过看两个待比较编码语句的语句结构是否一致或存在包含关系或者完全不同，只有在两个中文短句的语句结构相等或存在包含关系时，才会启动深度学习模型的相似度比对，如果连语句结构都不同，则基本可以判断这两个中文短句不存在相似性或相似度已经很低了，没有继续比对的价值。因为已经对能匹配的中文做了转码，所以在启动深度学习相似度比对时，也只是比对保留的一小部分原中文描述，从而进一步缩减比对字符，降低整个短句的分词风险，提高比对准确率。

应当理解的是，系统会通过余弦相似度来确定待比较词语的相似度，即无法通过词库进行转化的词语的相似度，然后设定预设数值，将待比较编码语句的相似度与待比较词语的相似度组合作为最终相似度，将预设数值与最终相似度进行比较，当最终相似度大于预设数值时，表示最终相似度对应的2个待比较编码语句对应的待比较语句之间相似；当最终相似度小于预设数值时，表示匹配度数值对应的2个待比较编码语句对应的待比较语句之间不相似。

应当理解的是，余弦相似度是通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1，而其他任何角度的余弦值都不大于1；并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时，余弦相似度的值为1；两个向量夹角为90°时，余弦相似度的值为0；两个向量指向完全相反的方向时，余弦相似度的值为-1。这结果是与向量的长度无关的，仅仅与向量的指向方向相关。余弦相似度通常用于正空间，因此给出的值为-1到1之间。

实施例1：

表1自定义词库中词语的编码

待比对中文短句：“10kV华科大1#变压器线路”和“华科1号10kV变压器”。

通过转码，“10kV华科大1#变压器线路”最终变为“_1001_华科大1#_1002_1003_”、“华科1号10kV变压器”最终变为“_华科1号_1001_1002_”，对编码进行排序：

“10kV华科大1#变压器线路”变为“_1001_1002_1003_华科大1#_”。

“华科1号10kV变压器”变为“_1001_1002_华科1号_”。

因为短句1包含短句2的语句结构，可以继续比对，由于能匹配上的已经进行了转码，每匹配上一段，给出一个相似度分值，只需对未匹配上字符串的原中文部分进行中文相似度比对，即对“_华科大1#_”以及“_华科1号_”进行比对，并返回一个相似度值，两者相加，按比例得到一个最终的短句相似度，从而成为“10kV华科大1#变压器线路”和“华科1号10kV变压器”两个短句的相似度结论。

需要说明的是，以上仅为举例说明，并不对本申请的技术方案构成任何限定。

通过上述描述不难发现，本实施例获取网络文章以及本地词库，建立word2vec算法，通过word2vec算法对该网络文章进行训练，生成词向量模型文件；获取多个待比较语句，根据词库对多个待比较语句进行查找，将能够在词库中查找到的词语转化为数字编码作为待比较数字编码，记录不能够在词库中查找到的词语为待比较词语，将待比较数字编码与待比较词语组合成待比较编码语句；获取比较编码语句的语句结构，将多个待比较编码语句的语句结构两两进行比较，根据比较结果，将待比较词语放入词向量模型文件中，获取待比较编码语句的相似度。本实施例通过word2vec算法以及数字转码能够快速对同一设备的不同名称进行比对，精准确定了不同系统中不同叫法的设备确实为同一个设备。

此外，本发明实施例还提出一种基于word2vec技术的相似度比较装置。如图3所示，该基于word2vec技术的相似度比较装置包括：词库建立模块10、计算模块20、比较模块30。

词库建立模块10，用于获取网络文章以及本地词库，建立word2vec算法，通过word2vec算法对该网络文章进行训练，生成词向量模型文件；

计算模块20，用于获取多个待比较语句，根据词库对多个待比较语句进行查找，将能够在词库中查找到的词语转化为数字编码作为待比较数字编码，记录不能够在词库中查找到的词语为待比较词语，将待比较数字编码与待比较词语组合成待比较编码语句；

比较模块30，用于获取比较编码语句的语句结构，将多个待比较编码语句的语句结构两两进行比较，根据比较结果，将待比较词语放入词向量模型文件中，获取待比较编码语句的相似度。

此外，需要说明的是，以上所描述的装置实施例仅仅是示意性的，并不对本发明的保护范围构成限定，在实际应用中，本领域的技术人员可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的，此处不做限制。

另外，未在本实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的基于word2vec技术的相似度比较方法，此处不再赘述。

此外，本发明实施例还提出一种介质，所述介质为计算机介质，所述计算机介质上存储有基于word2vec技术的相似度比较方法程序，所述基于word2vec技术的相似度比较方法程序被处理器执行时实现如下操作：

进一步地，所述基于word2vec技术的相似度比较方法程序被处理器执行时还实现如下操作：

获取本地历史词语，分配唯一数字编号给每一个历史词语，根据本地历史词语以及对应的数字编码建立本地词库，通过word2vec算法对网络文章进行训练，生成词向量模型文件。

所述word2vec算法为：

获取多个待比较语句，根据词库对多个待比较语句进行查找，当待比较语句中的词语在词库中能够被查找到时，根据词库中词语对应的数字编码对该词语进行转化，获取转化后的数字编码作为待比较数字编码，将多个待比较数字编码按照从小到大的顺序进行排列，获取排列后的数字编码组合；当待比较语句中的词语在词库中不能够被查找到时，记录该词语为待比较词语，将待比较数字编码与待比较词语组合成待比较编码语句。

获取该待比较编码语句的语句结构，将各待比较编码语句的语句结构两两进行比较，当待比较编码语句的语句结构相同时，将待比较词语放入词向量模型文件中，获取待比较编码语句的相似度。

将待比较词语放入词向量模型文件中，通过余弦相似度确定待比较词语的相似度，根据待比较编码语句的相似度以及待比较词语的相似度确定待比较编码语句的相似度。

设定预设数值，将待比较编码语句的相似度与待比较词语的相似度组合作为最终相似度，将预设数值与最终相似度进行比较，当最终相似度大于预设数值时，表示最终相似度对应的2个待比较编码语句对应的待比较语句之间相似；当最终相似度小于预设数值时，表示匹配度数值对应的2个待比较编码语句对应的待比较语句之间不相似。

以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于word2vec技术的相似度比较方法，其特征在于：包括以下步骤；

2.如权利要求1所述的基于word2vec技术的相似度比较方法，其特征在于：步骤S1中，获取网络文章以及本地词库，建立word2vec算法，通过word2vec算法对该网络文章进行训练，生成词向量模型文件，还包括以下步骤，获取本地历史词语，分配唯一数字编号给每一个历史词语，根据本地历史词语以及对应的数字编码建立本地词库，通过word2vec算法对网络文章进行训练，生成词向量模型文件。

3.如权利要求2所述的基于word2vec技术的相似度比较方法，其特征在于：还包括以下步骤，所述word2vec算法为：

4.如权利要求2所述的基于word2vec技术的相似度比较方法，其特征在于：步骤S2中，获取多个待比较语句，根据词库对多个待比较语句进行查找，将能够在词库中查找到的词语转化为数字编码作为待比较数字编码，记录不能够在词库中查找到的词语为待比较词语，将待比较数字编码与待比较词语组合成待比较编码语句，还包括以下步骤，获取多个待比较语句，根据词库对多个待比较语句进行查找，当待比较语句中的词语在词库中能够被查找到时，根据词库中词语对应的数字编码对该词语进行转化，获取转化后的数字编码作为待比较数字编码，将多个待比较数字编码按照从小到大的顺序进行排列，获取排列后的数字编码组合；当待比较语句中的词语在词库中不能够被查找到时，记录该词语为待比较词语，将待比较数字编码与待比较词语组合成待比较编码语句。

5.如权利要求4所述的基于word2vec技术的相似度比较方法，其特征在于：步骤S3中，获取比较编码语句的语句结构，将多个待比较编码语句的语句结构两两进行比较，根据比较结果，将待比较词语放入词向量模型文件中，获取待比较编码语句的相似度，还包括以下步骤，获取该待比较编码语句的语句结构，将各待比较编码语句的语句结构两两进行比较，当待比较编码语句的语句结构相同时，将待比较词语放入词向量模型文件中，获取待比较编码语句的相似度。

6.如权利要求5所述的基于word2vec技术的相似度比较方法，其特征在于：将待比较词语放入词向量模型文件中，获取待比较编码语句的相似度，还包括以下步骤，将待比较词语放入词向量模型文件中，通过余弦相似度确定待比较词语的相似度，根据待比较编码语句的相似度以及待比较词语的相似度确定待比较编码语句的相似度。

7.如权利要求6所述的基于word2vec技术的相似度比较方法，其特征在于：根据待比较编码语句的相似度以及待比较词语的相似度确定待比较编码语句的相似度，还包括以下步骤，设定预设数值，将待比较编码语句的相似度与待比较词语的相似度组合作为最终相似度，将预设数值与最终相似度进行比较，当最终相似度大于预设数值时，表示最终相似度对应的2个待比较编码语句对应的待比较语句之间相似；当最终相似度小于预设数值时，表示匹配度数值对应的2个待比较编码语句对应的待比较语句之间不相似。

8.一种基于word2vec技术的相似度比较装置，其特征在于，所述基于word2vec技术的相似度比较装置包括：

9.一种设备，其特征在于，所述设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于word2vec技术的相似度比较方法程序，所述基于word2vec技术的相似度比较方法程序配置为实现如权利要求1至7任一项所述的基于word2vec技术的相似度比较方法的步骤。

10.一种介质，其特征在于，所述介质为计算机介质，所述计算机介质上存储有基于word2vec技术的相似度比较方法程序，所述基于word2vec技术的相似度比较方法程序被处理器执行时实现如权利要求1至7任一项所述的基于word2vec技术的相似度比较方法的步骤。