CN109325224A

CN109325224A - 一种基于语义元语的词向量表征学习方法及系统

Info

Publication number: CN109325224A
Application number: CN201810883567.6A
Authority: CN
Inventors: 刘超; 姚宏; 李旦; 董理君; 康晓军; 李新川; 郑坤
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2018-08-06
Filing date: 2018-08-06
Publication date: 2019-02-12
Anticipated expiration: 2038-08-06
Also published as: CN109325224B

Abstract

本发明涉及一种基于语义元语的词向量表征学习方法，包括以下三个步骤：输入预设英语词典，获得预设英语词典中所有词汇所对应的语义元语词汇；根据获得的语义元语词汇得到与其对应的基础词向量；在预设英语词典中选取目标词汇，根据目标词汇在原语句或段落中的释义及基础词向量获取目标词汇的目标词向量。获取目标词汇的目标词向量的具体步骤是：将每个词的各个释义代替这个词本身替换到原语句中，并保留语句意义与原语句最接近的一种释义，即得到了目标词汇的准确释义，用准确释义对应的语义元语词汇的词向量来适当地表达目标词，就能得到目标词汇的目标词向量。

Description

一种基于语义元语的词向量表征学习方法及系统

技术领域

本发明具体涉及一种基于语义元语的词向量表征学习方法及系统。

背景技术

表征学习是学习一个特征的技术的集合：将原始数据转换成为能够被机器学习来有效开发的一种形式。它避免了手动提取特征的麻烦，允许计算机学习使用特征的同时，也学习如何提取特征。在现有的表征学习中最直观的词表示方法是One-hotRepresentation，这种方法把每个词表示为一个很长的向量，这个向量的维度是词表大小，其中绝大多数元素为0，只有一个维度的值为1，这个维度就代表了当前的词。除了One-hotRepresentation以外，还有word2vec等许多方法可以获得词向量，一般都需要经过“训练-测试-评价”的过程。尽管这些方法能够获得一些可用的词向量，但是其精度与可用性却不尽人意，有待改进。而本专利采用的方法，充分考虑了词语在不同语境下的不同意义，得到一个表达最为全面的词向量，使得词向量的精度与可用性都有了极大的提高。

发明内容

本发明要解决的技术问题在于，针对上述目前表征学习技术精度不高和可用性不强的不足，提供一种基于语义元语的词向量表征学习方法及系统解决上述问题。

一种基于语义元语的词向量表征学习方法，包括以下三个步骤：

步骤1：输入预设英语词典，获得预设英语词典中所有词汇所对应的语义元语词汇；

步骤2：根据获得的语义元语词汇得到与其对应的基础词向量；

步骤3：在预设英语词典中选取目标词汇，根据目标词汇在原语句或段落中的释义及基础词向量获取目标词汇的目标词向量。

进一步的，步骤3中获取目标词汇的目标词向量的具体步骤是：

S1、将目标词汇所在语句或段落中的所有词汇的向量值进行综合，得到原始特征向量；

S2、将目标词汇的每个释义中的多个语义元语的向量值进行综合得到释义的向量，形成候选特征向量集，其中候选特征向量数目等于释义数目；

S3、依次比对上述原始特征向量与各个候选特征向量，并保留相似度最高的候选特征向量所对应的释义，称为保留释义；

S4、根据保留释义中的语义元语词汇得到与其对应的基础词向量，即为得到目标词汇的词向量。

一种基于语义元语的词向量表征学习系统，能够实现以下功能：

输入模块：用于输入预设英语词典，获得预设英语词典中所有词汇所对应的语义元语词汇；

转换模块：用于根据获得的语义元语词汇得到与其对应的基础词向量；

获取模块：用于在预设英语词典中选取目标词汇，根据目标词汇在原语句或段落中的释义及基础词向量获取目标词汇的目标词向量。

本发明涉及一种基于语义元语获取英文词向量的方法及系统，语义元语指的是英语词典中有这样一个词汇集合，词典中其它所有词都能够由这个集合中的词汇直接或间接地释义。该方法首先从一本英文词典中获得语义元语词汇集合，接着将这些词汇转为词向量；由于任意词可以由这些词汇解释，所以任意词的词向量也可以由这些词的词向量经过适当地运算后得到，即最终得到了所需要的目标词向量。本发明提高了英文词向量在语义方面的表达能力，使得语义上相近的词语所对应的词向量在语义空间中距离更近。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明的一种基于语义元语的词向量表征学习方法流程图；

图2为本发明的获取目标词向量的具体步骤流程图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

一种基于语义元语的词向量表征学习方法，如图1所示，包括以下三个步骤：

步骤2：根据获得的语义元语词汇得到与其对应的基础词向量(如word2vec等)；

在词典中，每个词会有多种释义，而每个词在具体的语句中只会具有一种释义。将每个词的各个释义代替这个词本身替换到原语句中，并保留语句意义与原语句最接近的一种释义，即得到了目标词汇的准确释义，用准确释义对应的语义元语词汇的词向量来适当地表达目标词，就能得到目标词汇的目标词向量，如图2所示，获取目标词向量的具体步骤如下：

S1、将目标词汇所在语句或段落中的所有词汇的向量值进行综合(如计算均值)，得到原始特征向量；

S2、将目标词汇的每个释义中的多个语义元语的向量值进行综合(如均值)得到释义的向量，形成候选特征向量集，其中候选特征向量数目等于释义数目；

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于语义元语的词向量表征学习方法，其特征在于，包括以下三个步骤：

2.根据权利要求1所述的一种基于语义元语的词向量表征学习方法，其特征在于，步骤3中获取目标词汇的目标词向量的具体步骤是：

3.一种基于语义元语的词向量表征学习系统，其特征在于，能够实现以下功能：