CN112380844A

CN112380844A - 武器装备属性同义词扩展方法

Info

Publication number: CN112380844A
Application number: CN202011101527.5A
Authority: CN
Inventors: 吕学强; 肖刚; 韩君妹; 游新冬; 田佳来
Original assignee: General Key Laboratory Of Complex System Simulation; Beijing Information Science and Technology University
Current assignee: General Key Laboratory Of Complex System Simulation; Beijing Information Science and Technology University
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2021-02-19

Abstract

本申请公开了一种武器装备属性同义词扩展方法，包括：对爬取的文本进行预处理；对预处理后的文本进行分词；利用Glove模型和Word2Vec模型分别扩展同义词；对Glove模型扩展出的同义词和Word2Vec模型扩展出的同义词取交集，获得扩展结果。本申请实施例提供的武器装备属性同义词扩展方法，对文本分词后，分别采用Word2vec模型和Glove模型训练词向量以扩展同义词，将二者扩展的同义词结果取交集后得到更准确的同义词，扩展结果的查准率、召回率和F1值均较高，扩展效果好。

Description

武器装备属性同义词扩展方法

技术领域

本申请涉及文本处理技术领域，具体涉及一种武器装备属性同义词扩展方法。

背景技术

知识融合是构建武器装备知识图谱中不可缺少的一个环节，而其中构建有效的同义词集是提高知识融合融合力的重要手段。构建武器装备知识图谱的数据源有多种，例如：军事网站、电子文档、军事书籍等。数据一般分为结构化和非结构化数据，但是往往不同的来源对某个装备的属性描述是不同的。将不同来源的数据融合起来，尽可能的减少信息冗余，是有必要的。对武器装备的属性名称扩展同义词，有助于知识融合。但是人工构建属性同义词集往往会花费大量的人工劳动，并且会疏漏某些同义词，如果知识图谱领域一旦变化，需要再次重新人工构建同义词集。人工构建同义词集难以满足实际应用的需求。同义词的自动挖掘对于知识图谱自动构建有着很重要的作用。知识融合技术离不开同义词表的构造，人工构造同义词表需要花费大量的人工劳动。

发明内容

本申请的目的是提供一种武器装备属性同义词扩展方法。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

根据本申请实施例的一个方面，提供一种武器装备属性同义词扩展方法，包括：

对爬取的文本进行预处理；

对预处理后的文本进行分词；

利用Glove模型和Word2Vec模型分别扩展同义词；

对Glove模型扩展出的同义词和Word2Vec模型扩展出的同义词取交集，获得扩展结果。

进一步地，所述对爬取的文本进行预处理，包括：去除所述爬取的文本中的停用词和无关标点符号。

进一步地，所述对预处理后的文本进行分词，包括：选用分词工具对预处理后的文本进行文本分词。

进一步地，所述对预处理后的文本进行分词，还包括：假设分词工具分词错误，将当前词语和前N个词语或者后N个词语组成一个新的候选词语，统计该候选词语在文章中出现的数量，如果出现的数量大于预设阈值，将该候选词语替换掉分错的词语，作为新的分词结果；N为正整数。

进一步地，所述利用Glove模型和Word2Vec模型分别扩展同义词，包括：通过Glove模型和Word2Vec模型对分词后的文本进行预训练；通过计算各个词语的词向量和需要扩展同义词词语的词向量的距离，将距离较近的若干词语作为扩展后的同义词。

进一步地，所述通过Glove模型和Word2Vec模型对分词后的文本进行预训练，包括：训练Glove语言模型和Word2Vec语言模型，将词语转化成一定维度的词向量矩阵。

进一步地，所述距离为欧氏距离、余弦距离或编辑距离。

进一步地，所述Word2vec模型中包含CBOW模型和Skip-gram模型；CBOW模型用于训练词向量；Skip-gram模型用于采用中间词语预测其周围词语。

根据本申请实施例的另一个方面，提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现上述的武器装备属性同义词扩展方法。

根据本申请实施例的另一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以实现上述的武器装备属性同义词扩展方法。

本申请实施例的其中一个方面提供的技术方案可以包括以下有益效果：

本申请实施例提供的武器装备属性同义词扩展方法，对文本分词后，分别采用Word2vec模型和Glove模型训练词向量以扩展同义词，将二者扩展的同义词结果取交集后得到更准确的同义词，扩展结果的查准率、召回率和F1值均较高，扩展效果好。

本申请的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者，部分特征和优点可以从说明书中推知或毫无疑义地确定，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为同义词扩展流程图；

图2为CBOW模型结构图；

图3为Skip-gram模型结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本申请做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

随着NLP技术的发展，自动扩展同义词的技术也随之发展。随着深度学习的发展，自然语言处理学者开始采用深度学习的方法在海量未标注语料中训练语言模型，语言模型可以将文本分布式表示，并且带有大量的语义信息。

本申请实施例采用Glove语言模型、Word2Vec语言模型两种方法相互融合来扩展同义词。首先用爬虫爬取有关军事文本语料，选用召回率最高的开源分词工具jieba进行文本分词，通过N-Gram思想提高分词召回率。训练Glove语言模型和Word2Vec语言模型，将词语转化成一定维度的词向量矩阵。通过计算各个词语的词向量和需要扩展同义词词语的词向量的欧式距离，将欧式距离较近的几个词语作为扩展后同义词。对Word2Vec语言模型扩展出的同义词和Glove语言模型扩展出的同义词取交集获得同义词最终扩展结果。该模型能够扩展出更多和更精确的同义词，从而提高武器装备知识图谱知识融合的能力。

同义词扩展框架

本申请首先对爬取的文本进行预处理，去除停用词、无关标点符号等。选用召回率最高的开源分词工具jieba进行文本分词，为了进一步提高词语分词的准确率，采用N-Gram的思想进行错词合并。通过Glove模型和Word2Vec模型对分词后的文本进行预训练。通过计算各个词语的词向量和需要扩展同义词词语的词向量的欧式距离，将欧式距离较近的几个词语作为扩展后的同义词。将两种模型同义词扩展的结果取交集得出更精确的同义词。完整的同义词扩展流程如图1所示。

N-Gram分词

文本分词是进行NLP任务前重要的数据预处理步骤，在训练语言模型前，正确的分词对模型提供更多的语义信息从而提高模型效果。但是jieba工具包分词错误再所难免，本申请实施例采用N-Gram思想来纠正其分错的词语。N-Gram思想原本用来判断一个由若干个词语组成的句子是否合理，N代表当前词语与左右两端数量N范围内词语是否有关系。通常一个词语会多次出现在一个文章中，借用N-gram的思想，假设分词工具分词错误，将当前词语和前N个词语或者后N个词语组成一个新的候选词语，统计该候选词语在文章中出现的数量，如果出现的数量大于一定的阈值C，将该候选词语替换掉分错的词语，作为新的分词结果。此处N为正整数。

Word2vec模型

Word2vec模型是谷歌在2013年提出的，其能将词语转化成具有语义信息的空间词向量，从而能将一段文本转化成一段有语义的向量，进行多种自然语言处理任务。在同义词挖掘中，可以利用其将词语转化成语义信息的空间词向量这一特点，计算两两词语中的空间距离，计算向量空间距离的方法有很多，例如：欧氏距离，余弦距离，编辑距离等，本申请实施例采用欧氏距离计算词语空间距离。Word2Vec模型具有训练快速，内存消耗低的特点。Word2vec模型中包含CBOW模型和Skip-gram模型。

CBOW模型根据句子中前后若干个词语来预测中间词语是哪个词语。CBOW模型结构如图2所示，CBOW模型总共有三层，第一层为输入层，将词语转化成对应的向量，第二层为投影层，投影层将输入的词向量进行求和，第三层为输出层，输出最可能的预测的词语。CBOW模型目标在于最大化似然函数：

τ＝∑_w∈Clogp(w|content(w)) (1)

其中w为语料库C中的任意一个词语。

Skip-gram模型与CBOW模型预测相反，其采用中间词语预测其周围词语，CBOW模型如图3所示，CBOW模型总共有三层，输入层为某个词语的输入向量表示，投影层为输入向量的句子词数量的n倍，输出层为所有预测的词语。Skip-gram模型目标在于最大化平均对数似然函数：

其中p(w_t+j|w_t)是由Softmax激活函数计算而来：

本申请实施例采用CBOW模型来训练词向量，训练时使用负采样训练方式，节省更多的空间，词向量维度为200维。

Glove模型

Glove模型和Word2vec模型的作用相同，都是将语料库中的词语转化成空间词向量。Glove模型与Word2vec模型有着较大的区别，Word2vec模型建模时只考虑当前文本上下文词语，但是Glove模型通过建立语料库词共现矩阵，能够充分利用全局语料库，将二者同义词扩展结果融合能够提高同义词扩展的查准率。训练Glove模型步骤如下：

(1)读取整个语料库，使用N-Gram分词方法分词，统计语料库分词后词语个数n。

(2)设共现矩阵为X，设置窗口大小为5，其中X_ij为矩阵的数值，X_ij等于在所有语料库中单词i和单词j出现在同一个窗口中的总次数。假设语料库为：辽宁号航空母舰是中国第一艘航空母舰。文本分词后的结果为：辽宁号航空母舰/是/中国/第/一艘/航空母舰/。如果采用窗口大小为5，则会有如表1所示中心词对应的窗口内容，窗口0、1长度小于5因为中心词左侧或右侧词语数量少于2个，同理窗口4、5长度也小于5。所以矩阵X形状为(6，6)，初始X_ij为0，以中心词中国构建共现矩阵为例，语境词为辽宁号航空母舰、是、第、一艘。则依次执行：X_{中国，辽宁号航空母舰}＝X_{中国，辽宁号航空母舰}+1、X_中国，是＝X_中国，是+1、X_中国，第＝X_中国，第+1、X_{中国，一艘}＝X_{中国，一艘}+1，再以语料库中所有其他词语重复此过程，完善共现矩阵。

表1中心词对应的窗口内容

(3)通过不断的优化代价函数：

w_i为i词语的向量，w_j为j词语对应的向量，b_i和b_j分别为偏差项，其是标量，N是语料库中词语数量，X是共现矩阵，维度为(N，N)，f为权重函数其公式为：

其中x_max、a为经验值，本申请实施例分别设置成100，0.75。通过最小化代价函数最终得到每个词语的词向量表示。

同义词判定

基于Glove模型和Word2vec模型训练出的词向量，散落在空间的不同位置，空间距离相近的向量有着相近的语义。计算空间距离常用的方式常常采用欧式距离和余弦距离，由于余弦距离偏向于方向的衡量，所以本申请实施例采用欧式距离衡量向量间的距离，欧式距离计算公式如下：

其中X和Y为空间中任意两个词语，N为向量维度。通过计算各个词语的词向量和需要扩展同义词词语的词向量的欧式距离，将欧式距离较近的10个词语作为扩展后的同义词。

实验

实验数据来源为环球军事网和维基百科军事语料，共计大小为100MB，测试数据为38个武器装备属性词语，每个武器装备属性词语同义词为1到若干条，例如制造厂属性同义词为：制造商、生产商、厂商、制造公司。对文本数据进行预处理，预处理流程如下：

(1)对文本数据进行断句，以句号、分号、感叹号等为分隔符；

(2)判断断句之后的句子长度是否大于50；

(3)如果句子长度大于50，将本句子作为一条单独的句子；

(4)如果句子长度小于50，则将本句子与下一条句子进行拼接，直至长度大于50为止；

(5)对处理好的句子进行N-Gram分词。

经过预处理之后，将句子输入语言模型训练。

评价指标

为了验证本申请实施例模型的有效性，本申请实施例采用查准率和召回率结合之后的F1值来评判模型的优劣，其各个计算公式如式(7)、式(8)、式(9)所示，如果模型预测出的同义词和真实同义词的名称一致时，称之为正确识别同义词。

实验及其结果分析

模型运行在戴尔服务器的Ubuntu16.04操作系统上，运行内存64G。GPU为8块TeslaV100显卡，每块显存16G，编码语言为python3.6，不同的模型参数对同义词扩展的结果会有一定的影响，Glove模型和Word2vec模型参数如下表所示：

表2 Glove模型参数设置

表3 Word2vec模型参数设置

为了验证本申请实施例模型同义词扩展的有效性，设置四组对比实验进行对比分析：

实验1：只采用在语料库训练完成的Word2vec模型进行同义词扩展，取与待扩展词语的词向量欧式距离最近的2个词向量所对应的词语作为扩展结果。

实验2：只采用在语料库训练完成的Glove模型进行同义词扩展，取与待扩展词语的词向量欧式距离最近的2个词向量所对应的词语作为扩展结果。

实验3：采用在语料库训练完成的Glove模型进行同义词扩展，取与待扩展词语的词向量欧式距离最近的10个词向量所对应的词语作为Glove模型的扩展结果。采用在语料库训练完成的Word2vec模型进行同义词扩展，取与待扩展词语的词向量欧式距离最近的10个词向量所对应的词语作为Word2vec模型的扩展结果。将Glove模型的扩展结果和Word2vec模型的扩展结果取交集作为最终同义词扩展的结果。

三组实验结果如表4所示。

表4模型整体实验结果

从表4中展示的查准率、召回率、F1值可以得出，本申请实施例设计的同义词扩展方法的效果较好，能够准确和尽量多的扩展出属性名称的同义词。在实验1中，仅仅采用Word2vec模型扩展同义词的查准率和召回率都在60％左右，说明Word2vec模型稳定性强，具有不错的同义词扩展能力。在实验2中，采Glove模型扩展同义词的查准率和召回率都在37％左右，相比与Word2vec模型降低23个百分点，说明Glove模型由于全局矩阵的原因会识别出更多的错词。实验3采用Glove模型扩展出的10个同义词和Word2vec模型扩展出的10个同义词取交集，召回率达到71.62％，查准率达到了59.79，F1值上升了2.72％，说明Glove模型和Word2vec模型扩展出的10个同义词中，真实同义词的词向量与待扩展词语的词向量之间的欧式距离不一定是最近的2个，说明通过将Glove模型扩展结果和Word2vec模型扩展结果取交集的方式能够发现更多的同义词，提升同义词的扩展效果。

本申请实施例在构建完成的武器装备知识图谱进行知识融合实验，实验结果如表5所示，当两个属性为同义词时，记为融合数量加1。从实验结果可以看出当扩展同义词效果最好的实验3属性融合数量是最多的。说明了本申请实施例知识融合方法是可行的。

表5模型知识融合结果

本申请实施例主要研究武器装备属性名称同义词扩展。提出了采用Glove语言模型、Word2Vec语言模型两种方法相互融合来扩展同义词。首先用N-gram的方法对文本分词，切分句子后，分别采用Word2vec模型和Glove模型训练词向量以便扩展同义词，将二者的扩展的同义词结果取交集后的结果作为最终扩展结果，扩展出更准确的同义词，提高武器装备知识图谱的知识融合能力。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本实施例中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述实施例仅表达了本申请的实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种武器装备属性同义词扩展方法，其特征在于，包括：

对爬取的文本进行预处理；

对预处理后的文本进行分词；

利用Glove模型和Word2Vec模型分别扩展同义词；

2.根据权利要求1所述的方法，其特征在于，所述对爬取的文本进行预处理，包括：去除所述爬取的文本中的停用词和无关标点符号。

3.根据权利要求1所述的方法，其特征在于，所述对预处理后的文本进行分词，包括：选用分词工具对预处理后的文本进行文本分词。

4.根据权利要求3所述的方法，其特征在于，所述对预处理后的文本进行分词，还包括：假设分词工具分词错误，将当前词语和前N个词语或者后N个词语组成一个新的候选词语，统计该候选词语在文章中出现的数量，如果出现的数量大于预设阈值，将该候选词语替换掉分错的词语，作为新的分词结果；N为正整数。

5.根据权利要求1所述的方法，其特征在于，所述利用Glove模型和Word2Vec模型分别扩展同义词，包括：通过Glove模型和Word2Vec模型对分词后的文本进行预训练；通过计算各个词语的词向量和需要扩展同义词词语的词向量的距离，将距离较近的若干词语作为扩展后的同义词。

6.根据权利要求5所述的方法，其特征在于，所述通过Glove模型和Word2Vec模型对分词后的文本进行预训练，包括：训练Glove语言模型和Word2Vec语言模型，将词语转化成一定维度的词向量矩阵。

7.根据权利要求5所述的方法，其特征在于，所述距离为欧氏距离、余弦距离或编辑距离。

8.根据权利要求1所述的方法，其特征在于，所述Word2vec模型中包含CBOW模型和Skip-gram模型；CBOW模型用于训练词向量；Skip-gram模型用于采用中间词语预测其周围词语。

9.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-8中任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以实现如权利要求1-8中任一所述的方法。