CN112214999A

CN112214999A - 一种基于图模型和词向量相结合的词义消歧方法及装置

Info

Publication number: CN112214999A
Application number: CN202011063422.5A
Authority: CN
Inventors: 杜永兴; 牛丽静; 李宝山; 胡伟健; 李灵芳; 周李涌
Original assignee: Inner Mongolia Zhimu Suyuan Technology Development Co ltd; Inner Mongolia University of Science and Technology
Current assignee: Inner Mongolia Zhimu Suyuan Technology Development Co ltd; Inner Mongolia University of Science and Technology
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-01-12

Abstract

一种基于图模型和词向量相结合的词义消歧方法及装置，属于自然语言处理领域，用以解决现有的词义消歧方法准确率不高的问题。本发明的技术要点包括，对数据集进行预处理，获取歧义词；构建图模型，并根据图模型获取上下文背景知识；训练词向量模型，并根据词向量模型对获取的歧义词和上下文背景知识进行词向量表示；将以词向量表示的歧义词和上下文背景知识进行交叉加权相似度计算并取均值，将相似度均值最高的确定为歧义词的正确义项。本发明通过将图模型和词向量结合，提高了词义消歧的正确率，取得了较好的消歧效果。本发明优于传统词义消歧方法，可以很好的满足实际应用的需求。

Description

一种基于图模型和词向量相结合的词义消歧方法及装置

技术领域

本发明涉及自然语言处理领域，具体涉及一种基于图模型和词向量相结合的词义消歧方法及装置。

技术背景

词义消歧主要是为了解决句子中出现的多义词语的词义表达不明确的问题，是根据上下文知识来判断歧义词的具体义项，使计算机能更好的理解用户所表达的意图，增加用户体验。在计算语言领域中，词层面是词义消歧主要解决的问题，是计算机理解句子和篇章文本的基础。词义消歧对机器翻译，文本分类，信息检索，语音处理及问答系统有着直接的影响，所以词义消歧在自然语言处理领域中具有非常关键性的作用。现阶段，文本表示是自然语言处理中的基础工作，文本表示的好坏直接影响到整个自然语言处理系统的性能，在自然语言处理研究领域，文本向量化是文本表示的一种重要方式，文本向量化就是将文本表示成一系列能够表达文本语义的向量，目前对文本向量化都是通过词向量化实现的。现有的基于图模型进行中文词义消歧任务处理的方法主要利用一种或多种中文知识资源，受知识资源不足问题的困扰，词义消歧性能较低。因此，如何提升词义消歧性能是急需解决的技术问题。

发明内容

鉴于以上问题，本发明提出一种基于图模型和词向量相结合的词义消歧方法及装置，用以解决现有的词义消歧方法准确率不高的问题。

根据本发明一方面，提出一种基于图模型和词向量相结合的词义消歧方法，包括以下步骤，

步骤一、对数据集进行预处理，获取歧义词；

步骤二、构建图模型，并根据所述图模型获取上下文背景知识；

步骤三、训练词向量模型，并根据所述词向量模型对步骤一获取的歧义词和步骤二获取的上下文背景知识进行词向量表示；

步骤四、将步骤三中以词向量表示的歧义词和上下文背景知识进行交叉加权相似度计算并取均值，将相似度均值最高的确定为歧义词的正确义项。

进一步地，步骤一的具体步骤包括，首先进行格式转化，获取文本格式数据；然后进行分词、去除标点符号以及去除停用词处理；最后获得歧义句中的歧义词。

进一步地，步骤二的具体步骤包括，首先进行依存句法分析以提取依存关系；然后根据依存关系构建图模型；然后根据图模型获取上下文背景知识与步骤一中获取的歧义词的距离；最后将所述距离和预设最小路径阈值进行比较，获取筛选后的上下文背景知识；其中，依存句法分析表示对句子结构进行分析。

进一步地，步骤二中进行依存句法分析以提取依存关系的具体步骤包括，首先对句子语法结构给予形式化定义；然后根据所述定义自动推导出句子的句法结构，并分析句子所包含的句法单位以及句法单位之间的关系。

进一步地，步骤三中训练词向量模型的具体步骤包括，首先对中文语料库中的数据进行预处理，所述预处理包括格式转换、中文简繁体转换、去除英文和空格以及中文分词处理；然后基于Word2Vector模型对预处理后的数据进行训练。

根据本发明另一方面，提出一种基于图模型和词向量相结合的词义消歧装置，包括，数据预处理模块、图模型构建模块、词向量训练模块和相似度计算模块；其中，所述数据预处理模块用于对数据集进行预处理，获取歧义词；所述图模型构建模块用于构建图模型并根据所述图模型获取上下文背景知识；所述词向量训练模块用于训练词向量模型，并根据所述词向量模型对步骤一获取的歧义词和步骤二获取的上下文背景知识进行词向量表示；所述相似度计算模块用于将以词向量表示的歧义词和上下文背景知识进行交叉加权相似度计算并取均值，将相似度均值最高的确定为歧义词的正确义项。

进一步地，所述数据预处理模块中对数据集进行预处理的具体步骤包括，首先进行格式转化，获取文本格式数据；然后进行分词、去除标点符号以及去除停用词处理；最后获得歧义句中的歧义词。

进一步地，所述图模型构建模块中构建图模型并根据所述图模型获取上下文背景知识的具体步骤包括，首先进行依存句法分析以提取依存关系，即对句子语法结构给予形式化定义，并根据所述定义自动推导出句子的句法结构，并分析句子所包含的句法单位以及句法单位之间的关系；然后在提取依存关系之后根据依存关系构建图模型；然后根据图模型获取上下文背景知识与歧义词的距离，最后将所述距离和预设最小路径阈值进行比较，获取筛选后的上下文背景知识；其中，依存句法分析表示对句子结构进行分析。

进一步地，所述词向量训练模块中训练词向量模型的具体步骤包括，首先对中文语料库中的数据进行预处理，所述预处理包括格式转换、中文简繁体转换、去除英文和空格以及中文分词处理；然后基于Word2Vector模型对预处理后的数据进行训练。

本发明的有益技术效果是：

本发明通过将图模型和词向量结合，与现有词义消歧方法相比较，提高了词义消歧的正确率，取得了较好的消歧效果。

附图说明

本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。

图1示出了根据本发明实施方式一种基于图模型和词向量相结合的词义消歧方法的示意性流程图。

图2示出了根据本发明实施方式一种基于图模型和词向量相结合的词义消歧方法的图模型示例图。

图3示出了根据本发明实施方式一种基于图模型和词向量相结合的词义消歧方法的部分词语消歧效果对比图。

图4示出了根据本发明实施方式一种基于图模型和词向量相结合的词义消歧装置的示意性结构图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本发明内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

本发明实施例提出一种基于图模型和词向量相结合的词义消歧方法，图1示出了根据本发明实施方式一种基于图模型和词向量相结合的词义消歧方法的示意性流程图。

如图1所示，该方法包括以下步骤，步骤一、对数据集进行预处理，获取歧义词；具体步骤包括，首先进行格式转化，获取文本格式数据；然后进行分词、去除标点符号以及去除停用词处理；最后获得歧义句中的歧义词。

根据本发明实施例，数据预处理主要是对SemEval-2007task#5数据集中的数据进行处理，首先将html格式的数据转化成文本数据，然后利用jieba分词工具进行分词、去除标点符号、去除停用词等处理，在歧义句中得到歧义词。

步骤二、构建图模型，包括首先进行依存句法分析以提取依存关系，然后根据依存关系构建图模型，然后根据图模型获取上下文背景知识与步骤一中获取的歧义词的距离，最后将该距离和预设最小路径阈值进行比较，获取筛选后的上下文背景知识；其中，依存句法分析表示对句子结构进行分析。

根据本发明实施例，构建图模型首先提取依存父节点id，然后利用自然语言处理工具pyltp工具进行依存句法分析进行依存关系的提取，为依存父节点构建图模型，确定上下文的背景知识距离歧义词的距离，确定最小路径的阈值，提取关键背景词进而得到上下文背景知识。其中，pyltp工具是哈尔滨工业大学推出的一款基于Python封装的自然语言处理工具，该工具下载网址为：https://pypi.org/project/pyltp/。

本发明使用parser.model(依存句法分析模型)进行句子结构分析，提取依存关系，主要完成以下两方面的内容，一是确定语言的语法体系，即对语言中合法的句子的语法结构给与形式化的定义；另一方面是句法分析技术，即根据给定的语法体系，自动推导出句子的句法结构，分析句子所包含的句法单位和这些句法单位之间的关系，并获得歧义句的上下文依存关系图。

例如，例句“她生养了一双可爱的儿女”中的歧义词即依存父节点是“儿女”，首先，对该例句进行句子结构分析得到词之间的依存关系如下：

SBV(她，生养)；HED(生养，Root)；RAD(了，生养)；ATT(一双，儿女)；ATT(可爱，儿女)；RAD(的，可爱)；VOB(儿女，生养)

然后，根据得到的依存关系，构建如图2所示的网络图模型，并确定上下文的背景知识距离歧义词的距离；最后通过设置上下文背景知识和该歧义词“儿女”的距离阈值来确定上下文背景知识。

步骤三、训练词向量模型，并根据所述词向量模型对步骤一获取的歧义词和步骤二获取的上下文背景知识进行词向量表示。

根据本发明实施例，词向量获取主要是借助词向量模型—Word2Vector模型对91万多条的维基百科数据库中的中文语料库进行训练，该语料库质量高、领域广泛而且开放，从而对应得到每个歧义词及上下文的词向量，有的歧义词和上下文知识没有在维基百科数据中出现，本发明对该类型的词向量设置为unk，初始值为0不参与训练，使得设置为unk的词向量都共享相同的语义信息。

训练词向量模型的具体步骤为，首先对中文语料库中的数据进行预处理，预处理包括将XML的WiKi数据转换为text格式，中文简繁体转换，去除英文和空格以及利用jieba分词工具进行中文分词处理；最后对预处理后的数据进行Word2Vector模型训练并测试，获取词向量。

根据本发明实施例，利用空间向量模型(VSM)将文本内容转换成向量可以如下表示：对上下文背景知识m中的每个词，用W_i,m表示m中第i个词的权重，即歧义句的上下文背景知识表示为：

同理，用W_i,n表示歧义词的词义文本n中第i个词的权重，即歧义词的义项表示为：

然后通过余弦定理计算

和

之间的相似度值作为两个文本之间的相似度，其中，上下文背景知识的权重W_i,m是根据Word2Vector模型训练得来的。相似度计算公式如下所示：

将本发明方法与基于图模型(HowGraph)方法、基于窗口(Win)方法在词义消歧的准确率上进行比较，图3示出了根据本发明实施方式一种基于图模型和词向量相结合的词义消歧方法的部分词语消歧效果对比图。从图中可以看出，本发明方法的平均消歧准确率是0.56，相比于HowGraph方法提高了4.4个百分点，相比于Win方法提高了8个百分点，证明本发明方法在词义消歧准确度上有明显的提升。

本发明的另一实施例提出一种基于图模型和词向量相结合的词义消歧装置，包括，数据预处理模块110、图模型构建模块120、词向量训练模块130和相似度计算模块140；其中，数据预处理模块110用于对数据集进行预处理，获取歧义词，包括首先进行格式转化，获取文本格式数据；然后进行分词、去除标点符号以及去除停用词处理；最后获得歧义句中的歧义词；图模型构建模块120用于构建图模型并根据图模型获取上下文背景知识；词向量训练模块130用于训练词向量模型，并根据词向量模型对获取的歧义词和上下文背景知识进行词向量表示，其中，训练词向量模型的具体步骤包括，首先对中文语料库中的数据进行预处理，所述预处理包括格式转换、中文简繁体转换、去除英文和空格以及中文分词处理；然后基于Word2Vector模型对预处理后的数据进行训练；相似度计算模块140用于将以词向量表示的歧义词和上下文背景知识进行交叉加权相似度计算并取均值，将相似度均值最高的确定为歧义词的正确义项。

进一步地，图模型构建模块120中构建图模型并根据图模型获取上下文背景知识的具体步骤包括，首先进行依存句法分析以提取依存关系，即对句子语法结构给予形式化定义，并根据定义自动推导出句子的句法结构，并分析句子所包含的句法单位以及句法单位之间的关系；然后在提取依存关系之后根据依存关系构建图模型；然后根据图模型获取上下文背景知识与歧义词的距离，最后将距离和预设最小路径阈值进行比较，获取筛选后的上下文背景知识；其中，依存句法分析表示对句子结构进行分析。

本发明实施方式所述的一种基于图模型和词向量相结合的词义消歧装置的功能可以由前述一种基于图模型和词向量相结合的词义消歧方法说明，因此本实施例未详述部分，可参见以上方法实施例，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种基于图模型和词向量相结合的词义消歧方法，其特征在于，包括以下步骤，

步骤一、对数据集进行预处理，获取歧义词；

2.根据权利要求1所述一种基于图模型和词向量相结合的词义消歧方法，其特征在于，步骤一的具体步骤包括，首先进行格式转化，获取文本格式数据；然后进行分词、去除标点符号以及去除停用词处理；最后获得歧义句中的歧义词。

3.根据权利要求1所述一种基于图模型和词向量相结合的词义消歧方法，其特征在于，步骤二的具体步骤包括，首先进行依存句法分析以提取依存关系；然后根据依存关系构建图模型；然后根据图模型获取上下文背景知识与步骤一中获取的歧义词的距离；最后将所述距离和预设最小路径阈值进行比较，获取筛选后的上下文背景知识；其中，依存句法分析表示对句子结构进行分析。

4.根据权利要求3所述一种基于图模型和词向量相结合的词义消歧方法，其特征在于，步骤二中进行依存句法分析以提取依存关系的具体步骤包括，首先对句子语法结构给予形式化定义；然后根据所述定义自动推导出句子的句法结构，并分析句子所包含的句法单位以及句法单位之间的关系。

5.根据权利要求1所述一种基于图模型和词向量相结合的词义消歧方法，其特征在于，步骤三中训练词向量模型的具体步骤包括，首先对中文语料库中的数据进行预处理，所述预处理包括格式转换、中文简繁体转换、去除英文和空格以及中文分词处理；然后基于Word2Vector模型对预处理后的数据进行训练。

6.一种基于图模型和词向量相结合的词义消歧装置，其特征在于，包括，数据预处理模块、图模型构建模块、词向量训练模块和相似度计算模块；其中，所述数据预处理模块用于对数据集进行预处理，获取歧义词；所述图模型构建模块用于构建图模型并根据所述图模型获取上下文背景知识；所述词向量训练模块用于训练词向量模型，并根据所述词向量模型对获取的所述歧义词和所述上下文背景知识进行词向量表示；所述相似度计算模块用于将以词向量表示的歧义词和上下文背景知识进行交叉加权相似度计算并取均值，将相似度均值最高的确定为歧义词的正确义项。

7.根据权利要求6所述一种基于图模型和词向量相结合的词义消歧装置，其特征在于，所述数据预处理模块中对数据集进行预处理的具体步骤包括，首先进行格式转化，获取文本格式数据；然后进行分词、去除标点符号以及去除停用词处理；最后获得歧义句中的歧义词。

8.根据权利要求6所述一种基于图模型和词向量相结合的词义消歧装置，其特征在于，所述图模型构建模块中构建图模型并根据所述图模型获取上下文背景知识的具体步骤包括，首先进行依存句法分析以提取依存关系，即对句子语法结构给予形式化定义，并根据所述定义自动推导出句子的句法结构，并分析句子所包含的句法单位以及句法单位之间的关系；然后在提取依存关系之后根据依存关系构建图模型；然后根据图模型获取上下文背景知识与歧义词的距离，最后将所述距离和预设最小路径阈值进行比较，获取筛选后的上下文背景知识；其中，依存句法分析表示对句子结构进行分析。

9.根据权利要求6所述一种基于图模型和词向量相结合的词义消歧装置，其特征在于，所述词向量训练模块中训练词向量模型的具体步骤包括，首先对中文语料库中的数据进行预处理，所述预处理包括格式转换、中文简繁体转换、去除英文和空格以及中文分词处理；然后基于Word2Vector模型对预处理后的数据进行训练。