CN111027315A

CN111027315A - 一种基于Word2Vec模型的WordNet中词语相似度计算方法

Info

Publication number: CN111027315A
Application number: CN201911128515.9A
Authority: CN
Inventors: 王艳娜; 周子力; 张景虎; 陈丹华; 王凯莉; 李天宇; 赵晓函
Original assignee: Qufu Normal University
Current assignee: Qufu Normal University
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2020-04-17
Anticipated expiration: 2039-11-18
Also published as: CN111027315B

Abstract

本发明公开了一种基于Word2Vec模型的WordNet中词语相似度计算方法，该相似度计算方法先从WordNet名词数据集data.noun中提取标号集，然后使用Word2Vec模型训练提取的标号集，然后使用Word2Vec模型从训练过的标号集中提取计算用单词对所对应的标号，然后基于提取的计算用单词对所对应的标号生成标号的词向量，最后基于该词向量计算词语的相似度。该相似度计算方法能够高效准确地计算词语相似度，受人的主观影响比较小，能很好地反映客观事实。

Description

一种基于Word2Vec模型的WordNet中词语相似度计算方法

技术领域

本发明属于词语相似度计算技术领域，具体涉及一种基于Word2Vec模型的WordNet中词语相似度计算方法。

背景技术

随着信息科技的快速发展，自然语言处理技术变得越来越重要。词语相似度作为自然语言处理技术中的一项基本工作发挥着不可或缺的作用，它用来反映一对词语的相似程度。计算词语相似度有着广阔的应用空间，在信息提取、文本聚类、机器翻译和语义消歧等方面都举足轻重。

Word2Vec模型是一种具有简单神经网络的深度学习工具。计算机不能识别自然语言，只能把自然语言数学化。Word2Vec模型使文本语料库中的词语经过训练转化到向量空间中，让每个单词都转化为一个K维的稠密词向量，计算机就可以识别数字形式的词向量进行后续的工作。训练完成后，如果生成的词在向量空间中离得近，就意味着这两个词语语义相似、词向量相关，通过词向量就能获取文本单词之间的一些关系形式。Word2Vec模型中用到了两种重要模型，分别是CBOW模型和Skip-gram模型，还利用了两种用来提高训练性能的关键技术：Hierarchical Softmax和Negative Sampling。

WordNet作为一种研究词语相似度常用的语义词典，在自然语言处理中的应用非常广泛，它最显著的特点就是根据英语单词之间的语义信息来组织排列单词。WordNet的基本概念为同义词集，同义词集相当于一个将语义相同的单词放在一组内的单词集合，每个同义词集都有一个唯一的标号，标号则对应着这个同义词集的语义。WordNet作为一种词语相似度计算中常用的语义词典，它最显著的特点就是根据英语单词之间的语义信息来组织排列单词。如果一个词有多重语义，那么它将会被按照语义放置在语义所属的同义词集中，同义词集之间也由多种关系连接，比如上下位关系、同反义关系、整体部分关系等。该词典把词主要分为名词、动词、形容词和副词等几大类，并将相同词性的词放在一起，也正是由于同义词集之间的连接关系，每个词类内部都形成了一个同义词汇语义网，在语义网中，同义词集处于不同的层次中，根据相互之间的关系上下连接。

目前，针对WordNet中的词语相似度的计算方法主要有以下三种：1、从WordNet同义词集中提取同义词后，在同义词的基础上运用向量空间方法计算词语相似度；2、考虑WordNet同义词集中词语的上下位关系和距离、深度、密度这三个因素来计算词语相似度；3、考察WordNet词义网密度、节点深度、链接类型等因素计算词语相似度。

在上述以WordNet为语义词典的词语相似度的研究中，是根据从WordNet中提取同义词或者根据同义词集中词语的语义关系、距离等因素计算词语相似度的，虽然可以弥补数据稀疏的问题，但这种方法受人的主观影响比较大，不能很好地反映客观事实。

发明内容

为解决现有技术存在的上述问题，本发明提出了一种基于Word2Vec模型的WordNet中词语相似度计算方法，该相似度计算方法能够高效、准确地计算WordNet中的词语相似度，其计算结果更符合客观事实。

本发明采取如下技术方案来实现：

一种相似度计算方法，该计算方法用于计算WordNet中词语的相似度，其特征在于，所述计算方法包括如下步骤：

步骤1：从WordNet名词数据集data.noun中提取标号集；

步骤2：使用Word2Vec模型训练上述步骤1中提取的所述标号集；

步骤3：选取计算用单词对，使用Word2Vec模型从经上述步骤2训练过的所述标号集中提取该计算用单词对所对应的标号；

步骤4：基于上述步骤3中提取的所述计算用单词对所对应的标号，使用Word2Vec模型生成标号的词向量；

步骤5：基于上述步骤4中所生成的所述词向量，使用Word2Vec模型计算词语的相似度。

进一步地，所述WordNet名词数据集data.noun包含多个原始数据行，每个所述原始数据行对应一同义词集，每个所述原始数据行的具体形式为{a1 b1 c1 d1 c2 e1 c2e2}，其中，a1为头标号，b1为第一同义词集，c1为与第一同义词集b1有上位关系的关系符号表示，d1为上位词集标号，c2为与第一同义词集b1有下位关系的关系符号表示，e1、e2均为下位词集标号。

进一步地，所述步骤1进一步包括如下步骤：步骤1.1：针对所述多个原始数据行中的一个原始数据行进行提取，依次提取该一个原始数据行的头标号a1、上位词集标号d1、下位词集标号e1及下位词集标号e2；步骤1.2：将上述步骤1.1中提取的各标号汇集在一起，获得中间数据行{a1 d1 e1 e2}；步骤1.3：对上述步骤1.2中获得的所述中间数据行{a1 d1e1 e2}进行如此处理：除头标号a1外，在上位词集标号d1、下位词集标号e1及下位词集标号e2的后面均插入一头标号a1，得到一标号集数据行{a1 d1 a1 e1 a1 e2 a1}；步骤1.4：针对所述多个原始数据行中的其余原始数据行重复上述步骤1.1至步骤1.3，分别得到其各自对应的一标号集数据行{a1 d1 a1 e1 a1 e2 a1}，最终，共获得多个标号集数据行；步骤1.5：将上述步骤1.4中最终获得的所述多个标号集数据行汇集在一起，获得所述标号集。

或者，所述步骤1进一步包括如下步骤：步骤1.1：针对所述多个原始数据行中的一个原始数据行进行提取，依次提取该一个原始数据行的头标号a1、上位词集标号d1、下位词集标号e1及下位词集标号e2；步骤1.2：将上述步骤1.1中提取的各标号汇集在一起，获得中间数据行{a1 d1 e1 e2}；步骤1.3：对上述步骤1.2中获得的所述中间数据行{a1 d1 e1e2}进行如此处理：分别以上位词集标号d1、下位词集标号e1及下位词集标号e2为中心，在上位词集标号d1的前后位置均插入一头标号a1，分别在下位词集标号e1及下位词集标号e2的前面插入一标号串，该标号串为一头标号a1和所有上位词集标号d1组成的标号串{a1d1}，且分别在下位词集标号e1及下位词集标号e2的后面插入前述标号串{a1 d1}的倒序排列形式的标号串{d1 a1}，得到一标号集数据行{a1 d1 a1 a1 d1 e1 d1 a1 a1 d1 e2 d1a1}；步骤1.4：针对所述多个原始数据行中的其余原始数据行重复上述步骤1.1至步骤1.3，分别得到其各自对应的一标号集数据行{a1 d1 a1 a1 d1 e1 d1 a1 a1 d1 e2 d1 a1}，最终，共获得多个标号集数据行；步骤1.5：将上述步骤1.4中最终获得的所述多个标号集数据行汇集在一起，获得所述标号集。

特别地，对于包含m个上位词集标号d1......dm的中间数据行而言，在所述步骤1.3中，需在每个上位词集标号d1......dm的前后位置均插入一头标号a1，并进而在每个下位词集标号的前后位置分别插入标号串{a1 d1......dm}以及该标号串{a1 d1......dm}的倒序排列形式的标号串{dm......d1 a1}，其中，m为大于零的整数。

进一步地，在所述步骤1.2中，训练时，将Word2Vec模型要训练出来的词向量的维度size设置为300，每一批传递给线程的单词数量batch_words设置为5000个，词向量上下文最大距离window设置为14，词语最低出现次数min_count设置为1，并将sg和hs均设置为1，即采用基于Hierarchical Softmax技术的Skip-gram模型。

或者，在所述步骤1.2中，训练时，将Word2Vec模型要训练出来的词向量的维度size设置为100，每一批传递给线程的单词数量batch_words设置为9个，词向量上下文最大距离window设置为15，词语最低出现次数min_count设置为1，并将sg和hs均设置为1，即采用基于Hierarchical Softmax技术的Skip-gram模型。

进一步地，在所述步骤5中，当使用Word2Vec模型计算出来的词语的相似度为多个时，选取多个相似度中的最大相似度作为最终计算结果。

与现有技术相比，本发明具有以下有益技术效果：

本发明的该种相似度计算方法能够高效、准确地计算WordNet中的词语相似度，受人的主观影响比较小，能很好地反映客观事实。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解。在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，用来提供对本发明的进一步理解，构成本申请的一部分，而不应将其视为是对本发明范围的限制。其中：

图1为本发明提供的相似度计算方法所使用的一种标号集数据提取方法的流程示意图；

图2为上述一种标号集数据提取方法的实际应用的流程示意图；

图3为本发明提供的相似度计算方法所使用的另一种标号集数据提取方法的流程示意图；

图4为上述另一种标号集数据提取方法的实际应用的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本发明做进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，而不能理解为对本发明的限制。

本发明提出了一种基于Word2Vec模型的WordNet中词语相似度计算方法，该相似度计算方法基于WordNet名词数据集data.noun进行，WordNet名词数据集data.noun最显著的特点是根据英文单词之间的语义信息来组织排列单词，也就是说，WordNet名词数据集data.noun相当于一个将语义相同的单词放在一组(即同义词集)内的单词集合，每个同义词集均有一唯一标号，该唯一标号对应着这个同义词集的语义。

当然，如果一个单词有多重语义，那么该单词将会被按照各语义分别放置在相应语义所属的不同同义词集中，这些不同同义词集之间也有多种连接关系，比如：上下位关系、同反义关系、整体与部分关系等，正是由于这些不同同义词集之间的连接关系，名词数据集data.noun内部就形成了一同义词汇语义网，在该语义网中，不同的同义词集处于不同的层次中，根据它们之间的相互关系交互连接。

本领域公知的是，对于集合了N个同义词集的WordNet名词数据集data.noun来说，其可含有N个原始数据行，每个原始数据行即对应着一个同义词集，其具体形式为{a1 b1c1 d1 c2 e1 c2 e2}，其中，a1为头标号，b1为第一同义词集，c1为与第一同义词集b1有上位关系的关系符号表示，d1为上位词集标号，c2为与第一同义词集b1有下位关系的关系符号表示，e1、e2均为下位词集标号。

具体地，本发明实施例所提供的该种相似度计算方法，其具体包括以下步骤：

1)、提取标号集数据

在该步骤中，需要在上述含有N个原始数据行的WordNet名词数据集data.noun中提取能供Word2Vec模型进行训练的标号集数据。

具体地，图1示出了本发明实施例提供的该种相似度计算方法所使用的一种标号集数据提取方法，其具体步骤如下：

1.1.1)首先，针对N个原始数据行中的一个原始数据行{a1 b1 c1 d1 c2 e1 c2e2}进行提取，提取该原始数据行的第一同义词集b1的标号，即头标号a1；

1.1.2)接下来，继续提取所有与第一同义词集b1有上位关系的关系符号表示c1的标号(即上位词集标号d1)以及所有与第一同义词集b1有下位关系的关系符号表示c2的标号(即下位词集标号e1、e2)；

1.1.3)接下来，将上述步骤1.1.1)和步骤1.1.2)中提取到的各标号汇集在一起得到一中间数据行{a1 d1 e1 e2}；

1.1.4)接下来，对上述步骤1.1.3)中获得的中间数据行{a1 d1 e1 e2}进行如此处理：除了头标号a1外，在每个标号d1、e1、e2的后面均插入一头标号a1，得到一标号集数据行{a1 d1 a1 e1 a1 e2 a1}；

1.1.5)针对N个原始数据行中的其它原始数据行{a1 b1 c1 d1 c2 e1 c2 e2}重复上述步骤1.1.1)至步骤1.1.4)，分别得到各自对应的标号集数据行，共N个标号集数据行{a1 d1 a1 e1 a1 e2 a1}；

1.1.6)最后，将上述步骤1.1.5)中获得的N个标号集数据行{a1 d1 a1 e1 a1 e2a1}按顺序汇集在一起，得到一标号集A，该标号集A供Word2Vec模型进行训练。

其中，图2则示出了上述一种标号集数据提取方法的实际应用，如图2所示，假定某一原始数据行为{00024900 03n 01 state 0 073@00024444 n 0000～00026390 n 0000～05648278}，其中，a1为00024900，c1为@，d1为00024444，c2为～，e1为00026390，e2为05648278。

基于上述步骤1.1.1)至步骤1.1.3)可获取一中间数据行{00024900 0002444400026390 05648278}，基于上述步骤1.1.4)可获取对应的一标号集数据行{0002490000024444 00024900 00026390 00024900 05648278 00024900}，基于上述步骤1.1.5)可获取N个标号集数据行，基于上述步骤1.1.6)可得到最终标号集A。

另外，图3还示出了本发明实施例提供的该种相似度计算方法所使用的另一种标号集数据提取方法，其具体步骤如下：

1.2.1)首先，针对N个原始数据行中的一个原始数据行{a1 b1 c1 d1 c2 e1c2e2}进行提取，提取该原始数据行的第一同义词集b1的标号，即头标号a1。

1.2.2)接下来，继续提取所有与第一同义词集b1有上位关系的关系符号表示c1的标号(即上位词集标号d1)以及所有与第一同义词集b1有下位关系的关系符号表示c2的标号(即下位词集标号e1、e2)；

1.2.3)接下来，将上述步骤1.2.1)和步骤1.2.2)中提取到的各标号汇集在一起得到一中间数据行{a1 d1 e1 e2}；

1.2.4)接下来，对上述步骤1.2.3)中获得的中间数据行{a1 d1 e1 e2}进行如此处理：分别以上位词集标号d1和下位词集标号e1、e2为中心，在上位词集标号d1的前后位置均插入一头标号a1，分别在下位词集标号e1、e2的前面插入一标号串，该标号串为一头标号a1和所有上位词集标号d1组成的标号串{a1 d1}，且分别在下位词集标号e1、e2的后面插入前述标号串{a1 d1}的倒序排列形式的标号串{d1 a1}，得到标号集数据行{a1 d1 a1 a1d1 e1 d1 a1 a1 d1 e2 d1 a1}；

1.2.5)针对N个原始数据行中的其它原始数据行{a1 b1 c1 d1 c2 e1 c2 e2}重复上述步骤1.2.1)至步骤1.2.4)，分别得到各自对应的标号集数据行，共N个标号集数据行{a1 d1 a1 a1 d1 e1 d1 a1 a1 d1 e2 d1 a1}；

1.2.6)最后，将上述步骤1.2.5)中获得的N个标号集数据行{a1 d1 a1 a1 d1 e1d1 a1 a1 d1 e2 d1 a1}按顺序汇集在一起，得到一标号集B，该标号集B供Word2Vec模型进行训练。

需要说明的是，本领域技术人员可以理解的是，对于包含m个上位词集标号d1......dm的中间数据行，根据上述步骤1.2.4)，需在每个上位词集标号d1......dm各自的前后位置均插入一头标号a1，并进而为每个下位词集标号的前后位置插入标号串{a1d1......dm}以及该标号串的倒序排列形式的标号串{dm......d1 a1}。

其中，图4则示出了上述另一种标号集数据提取方法的实际应用，如图4所示，假定某一原始数据行为{00024900 03 n 01 state 0 073@00024444 n 0000～00026390 n0000～05648278}，其中，a1为00024900，c1为@，d1为00024444，c2为～，e1为00026390，e2为05648278。

基于上述步骤1.2.1)至步骤1.2.3)可获取一中间数据行{00024900 0002444400026390 05648278}，基于上述步骤1.2.4)可获取对应的一标号集数据行{0002490000024444 00024900 00024900 00024444 00026390 00024444 00024900 0002490000024444 05648278 00024444 00024900}，基于上述步骤1.2.5)可获取N个标号集数据行，基于上述步骤1.2.6)可得到最终标号集B。

2)、计算词语的相似度

2.1)训练标号集

使用Word2Vec模型对所获得的上述标号集A和标号集B进行训练，并不断调整训练时的各项模型参数，各项参数如下表1所示：

参数名称	参数含义
		batch_words	每一批传递给线程的单词数量
size	词向量的维度
		window	词向量上下文最大距离
hs	0代表NegativeSampling，1代表HierarchicalSoftmax
		sg	0代表CBOW模型，1代表Skip-Gram模型
min_count	需要计算词向量的最小词频

表1

训练标号集A时，将Word2Vec模型要训练出来的词向量的维度size设置为300，每一批传递给线程的单词数量batch_words设置为5000个，词向量上下文最大距离window设置为14，词语最低出现次数min_count设置为1，并将sg和hs均设置为1，即采用基于Hierarchical Softmax技术的Skip-gram模型，其他参数均为默认。

训练标号集B时，将Word2Vec模型要训练出来的词向量的维度size设置为100，每一批传递给线程的单词数量batch_words设置为9个，词向量上下文最大距离window设置为15，词语最低出现次数min_count设置为1，并将sg和hs均设置为1，即采用基于Hierarchical Softmax技术的Skip-gram模型，其他参数均为默认。

2.2)计算最大词语相似度

这里，我们选用常用的R&G测试集中的M对英文单词，将该M对英文单词作为测试集，并保留了文献中对英文单词进行人工打分后计算的词语相似度，用来分析对比实验结果。

计算时，由于采用的训练语料为一串串数字形式的标号集而不是传统的英文单词词汇，所以在对测试集中的M对英文单词进行词语相似度计算时，首先使用Word2Vec模型提取M对英文单词中的单词对应于训练后的上述标号集A或标号集B中的数据，该数据中包含了该单词对应的标号，根据该对应的标号生成标号的词向量，从而能计算词语相似度。

本领域公知的是，WordNet名词数据集data.noun中的有些单词是有多重语义的，因此这些单词会出现在多个所属的同义词集中，这样一来，这些单词会对应多个标号，因此，Word2Vec模型会计算出一对单词的多个词语相似度。由此，本发明中，首先使用Word2Vec模型根据M个英文单词对中的每对单词的标号两两计算出词语相似度，一般来讲，对于一对单词而言，Word2Vec模型往往会计算出多个词语相似度，本发明中选取该多个词语相似度中的最大相似度作为最终相似度，即最终计算结果。实验证明，这种方法会使Word2Vec模型的词语相似度计算结果更加准确、有效。

经实验验证，相对于利用人工测评方法获得的词语相似度而言，本发明所提供的该种相似度计算方法所获得的词语相似度与利用谷歌词向量计算获得的词语相似度相比，其结果更加准确、有效，更接近人工测评结果，具体如下表2所示(节选了其中的10对单词的计算结果)：

表2

其中，方法1是基于标号集A得到的计算结果，方法2是基于标号集B的计算结果。

皮尔逊相关系数广泛用于度量两个变量之间的相关程度，本领域公知的是，皮尔逊相关系数越大，则表明计算结果与人工评测结果越相关，也就是说，如果哪种计算方法得到的皮尔逊相关系数大，那么这种方法计算出来的词语相似度效果就更接近于人工测评标准结果，计算结果更加准确、有效。

进一步地，为更好地衡量本发明所提供的该种相似度计算方法的总体性能，我们将实验评测结果指标指定为皮尔逊相关系数，具体如下表3所示：

表3

基于表3所示数据可知，本发明所提供的该种相似度计算方法，其结果更加准确、有效，更接近于人工测评标准结果。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种相似度计算方法，该计算方法用于计算WordNet中词语的相似度，其特征在于，所述计算方法包括如下步骤：

步骤1：从WordNet名词数据集data.noun中提取标号集；

步骤2：使用Word2Vec模型训练上述步骤1中提取的所述标号集；

2.根据权利要求1所述的相似度计算方法，其特征在于，所述WordNet名词数据集data.noun包含多个原始数据行，每个所述原始数据行对应一同义词集，每个所述原始数据行的具体形式为{a1 b1 c1 d1 c2 e1 c2 e2}，其中，a1为头标号，b1为第一同义词集，c1为与第一同义词集b1有上位关系的关系符号表示，d1为上位词集标号，c2为与第一同义词集b1有下位关系的关系符号表示，e1、e2均为下位词集标号。

3.根据权利要求2所述的相似度计算方法，其特征在于，所述步骤1进一步包括如下步骤：

步骤1.1：针对所述多个原始数据行中的一个原始数据行进行提取，依次提取该一个原始数据行的头标号a1、上位词集标号d1、下位词集标号e1及下位词集标号e2；

步骤1.2：将上述步骤1.1中提取的各标号汇集在一起，获得中间数据行{a1 d1 e1e2}；

步骤1.3：对上述步骤1.2中获得的所述中间数据行{a1 d1 e1 e2}进行如此处理：除头标号a1外，在上位词集标号d1、下位词集标号e1及下位词集标号e2的后面均插入一头标号a1，得到一标号集数据行{a1 d1 a1 e1 a1 e2 a1}；

步骤1.4：针对所述多个原始数据行中的其余原始数据行重复上述步骤1.1至步骤1.3，分别得到其各自对应的一标号集数据行{a1 d1 a1 e1 a1 e2 a1}，最终，共获得多个标号集数据行；

步骤1.5：将上述步骤1.4中最终获得的所述多个标号集数据行汇集在一起，获得所述标号集。

4.根据权利要求2所述的相似度计算方法，其特征在于，所述步骤1进一步包括如下步骤：

步骤1.2：将上述步骤1.1中提取的各标号汇集在一起，获得中间数据行{a1d1 e1 e2}；

步骤1.3：对上述步骤1.2中获得的所述中间数据行{a1 d1 e1 e2}进行如此处理：分别以上位词集标号d1、下位词集标号e1及下位词集标号e2为中心，在上位词集标号d1的前后位置均插入一头标号a1，分别在下位词集标号e1及下位词集标号e2的前面插入一标号串，该标号串为一头标号a1和所有上位词集标号d1组成的标号串{a1 d1}，且分别在下位词集标号e1及下位词集标号e2的后面插入前述标号串{a1 d1}的倒序排列形式的标号串{d1a1}，得到一标号集数据行{a1 d1 a1 a1 d1 e1 d1 a1 a1 d1 e2 d1 a1}；

步骤1.4：针对所述多个原始数据行中的其余原始数据行重复上述步骤1.1至步骤1.3，分别得到其各自对应的一标号集数据行{a1 d1 a1 a1 d1 e1 d1 a1 a1 d1 e2 d1 a1}，最终，共获得多个标号集数据行；

5.根据权利要求4所述的相似度计算方法，其特征在于，对于包含m个上位词集标号d1......dm的中间数据行而言，在所述步骤1.3中，需在每个上位词集标号d1......dm的前后位置均插入一头标号a1，并进而在每个下位词集标号的前后位置分别插入标号串{a1d1......dm}以及该标号串{a1 d1......dm}的倒序排列形式的标号串{dm......d1 a1}，其中，m为大于零的整数。

6.根据权利要求1-5中任意一项所述的相似度计算方法，其特征在于，在所述步骤1.2中，训练时，将Word2Vec模型要训练出来的词向量的维度size设置为300，每一批传递给线程的单词数量batch_words设置为5000个，词向量上下文最大距离window设置为14，词语最低出现次数min_count设置为1，并将sg和hs均设置为1，即采用基于Hierarchical Softmax技术的Skip-gram模型。

7.根据权利要求1-5中任意一项所述的相似度计算方法，其特征在于，在所述步骤1.2中，训练时，将Word2Vec模型要训练出来的词向量的维度size设置为100，每一批传递给线程的单词数量batch_words设置为9个，词向量上下文最大距离window设置为15，词语最低出现次数min_count设置为1，并将sg和hs均设置为1，即采用基于Hierarchical Softmax技术的Skip-gram模型。

8.根据权利要求1-7中任意一项所述的相似度计算方法，其特征在于，在所述步骤5中，当使用Word2Vec模型计算出来的词语的相似度为多个时，选取多个相似度中的最大相似度作为最终计算结果。