CN109582951B

CN109582951B - 一种基于多重cca算法的柬汉双语词向量模型构建方法

Info

Publication number: CN109582951B
Application number: CN201811222172.8A
Authority: CN
Inventors: 严馨; 李思远; 郭剑毅; 周枫; 王红斌
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-10-19
Filing date: 2018-10-19
Publication date: 2021-08-31
Anticipated expiration: 2038-10-19
Also published as: CN109582951A

Abstract

本发明涉及一种基于多重CCA算法的柬汉双语词向量模型构建方法，属于自然语言处理技术领域。本发明首先获取英语、柬语、汉语词向量；其次分别将英语、汉语词向量投影至同一特征空间，将英语、柬语词向量投影至同一特征空间，从而得到各自对应的投影转换矩阵；然后以英语作为多语言向量公共空间，分别将柬语和汉语投影到英语词向量空间中，并根据典型相关分析算法，分析计算投影转换矩阵之间的相关关系，得到多语词向量；多语词向量中便包含有柬汉双语词向量，进而可获得柬汉双语词向量模型。本发明有效的解决了无法直接构建柬汉双语词向量模型的问题，并且通过该方法获得的柬汉双语词向量质量较高，准确率方面有很大的提升。

Description

一种基于多重CCA算法的柬汉双语词向量模型构建方法

技术领域

本发明涉及一种基于多重CCA算法的柬汉双语词向量模型构建方法，属于自然语言处理技术领域。

背景技术

当前，双语词向量的研究工作已被研究者们广泛关注。柬汉双语词向量的构建是柬语与汉语匹配对齐工作中的重要环节，近些年来我国与东南亚地区的政治，经济交流越发频繁，柬埔寨作为东南亚地区的重要国家，其与我国之间的关系也颇为密切，所以对柬语的研究工作对于两国交流也显得十分重要。柬汉双语词向量的构建在研究柬语的工作中占有很大的地位，一个高质量的柬汉双语词向量模型可以为柬汉双语的词对齐、相似度分析、命名实体识别以及平行句对获取等工作产生很大的作用。

发明内容

本发明提供了一种基于多重CCA算法的柬汉双语词向量模型构建方法，用于解决当前无法直接构建柬汉双语词向量模型的问题，并且通过该方法获得的柬汉双语词向量质量较高，准确率方面有很大的提升。

本发明的技术方案是：一种基于多重CCA算法的柬汉双语词向量模型构建方法，所述方法的具体步骤如下：

Step1、获取英语、柬语、汉语词向量；

Step1.1、收集相同领域柬语、英语、汉语单语语料；

Step1.2、对收集到的三种语言的单语语料进行分词处理，并将三种单语语料通过word2vec进行词向量训练，分别获得柬语、英语以及汉语的词向量；

Step2、将柬语和英语词向量投影至同一向量空间中，对应得到英语词向量和柬语词向量在同一向量空间中的投影转换矩阵；将汉语和英语词向量投影至另一个同一向量空间，对应得到英语词向量和汉语词向量在另一个同一向量空间中的投影转换矩阵；

Step3、在上一步完成之后，以英语词向量空间作为多语言词向量公共空间，分别将柬语和汉语词向量映射至英语词向量空间中，并根据典型相关分析CCA算法，分析计算投影转换矩阵之间的相关关系，得到多语词向量；多语词向量中便包含有柬汉双语词向量，进而获得柬汉双语词向量模型。

所述步骤Step2中将柬语和英语词向量投影至同一向量空间中，对应得到英语词向量和柬语词向量在同一向量空间中的投影转换矩阵；将汉语和英语词向量投影至同一向量空间中，对应得到英语词向量和汉语词向量在同一向量空间中的投影转换矩阵的具体步骤如下：

Step2.1、收集到的英语单语语料为15万句，汉语单语语料为10万句，柬语单语语料为5万句，由于所收集到的单语语料规模不同，因此经过第一步后得到的英语、汉语、柬语词向量规模大小并不相同，将其分别记为Σ、Ω以及Φ，Σ为英语词向量集，Ω为汉语词向量集，Φ为柬语词向量集；且

其中d₁为三种语言词向量集矩阵的列数，表示词向量的维度，三种语言词向量的维度相同；n₁，n₂，n₃分别为英语、汉语、柬语词向量集矩阵的行数，n₁表示英语词汇表单词的数量，n₂表示汉语词汇表单词的数量，n₃表示柬语词汇表单词的数量，由于初始单语语料规模的不同，因此在Ω中可能不存在Σ中每个词的对应翻译词，同理，在Φ中可能也不存在Σ中每个词的对应翻译词，因此首先令

且英语词向量空间Σ′中的每一个词都能在汉语词向量空间Ω′中找到具有对应翻译的词；令x和y分别为Σ′和Ω′中的互为翻译的词向量，并将x和y投影到同一特征空间后得到投影词向量x′和y′分别为：

x′＝vx y′＝wy

其中v和w是Σ′和Ω′的投影向量；

Step2.2、将英语词向量x和与其词义对应的汉语词向量y映射至同一特征空间后，根据CCA算法对含有x'和y'之间的相关关系进行计算；

其中，ρ(x',y')为相关系数，cov[x',y']为x'和y'的协方差，Var[x']和Var[y']分别为x'和y'的方差；

CCA算法将映射至同一向量空间的英语和汉语词向量之间的相关系数ρ最大化，并输出投影向量v和w，表示为

Step2.3、得到Σ′和Ω′的投影向量v和w的表示之后，根据以上方法获取英语词向量Σ与汉语词向量Ω两种语言的全部词汇词向量映射至汉英同一向量空间后所得到的英语、汉语投影转换矩阵分别为V、W，表示为

V,W＝CCA(Σ′,Ω′)

其中V∈R^d×d，W∈R^d×d，d是投影转换矩阵V、W的秩，然后d＝d₁，d1的范围值100-200，由于通过CCA算法得到d维度的相关性投影向量大，因此仅通过对前d₁个相关维度进行原始单词词向量的投影进行工作；

Step2.4、同理，令

且英语词向量空间Σ′中的每一个词都能在柬语词向量空间Φ'中找到具有对应翻译的词，与以上步骤Step 2.1至Step 2.3类似，得到Σ′和Φ'的投影向量p和z的表示之后，将英语词向量Σ与柬语词向量Φ两种语言的全部词汇词向量映射至同一向量空间后所得到的英语、柬语投影转换矩阵分别为P、Z，表示为

P,Z＝CCA(Σ',Φ')

其中P∈R^d×d，Z∈R^d×d，d＝d₁。

所述步骤Step3中以英语词向量空间作为多语言词向量公共空间，分别将柬语和汉语词向量映射至英语词向量空间中，并根据典型相关分析CCA算法，分析计算投影转换矩阵之间的相关关系，得到多语词向量；多语词向量中便包含有柬汉双语词向量，进而获得柬汉双语词向量模型的具体步骤如下：

Step3.1、首先将柬语词向量投影至英语词向量空间中，得到在英语词向量空间中柬语的投影转换矩阵：

其中，Σ为英语词向量集，Φ为柬语词向量集，

为英语词向量空间下的英语词向量表示，

为英语词向量空间下的柬语词向量表示，且

Step3.2、然后将汉语词向量投影至英语词向量空间中后，两个投影转换矩阵分别为V以及W；与之前获取柬英词向量的方法相同，将汉语词向量投影至英语词向量空间后，得到汉语在英语词向量空间中的转换投影矩阵：

其中，Σ为英语词向量集，Ω为汉语词向量集，

为英语词向量空间下的英语词向量表示，

为英语词向量空间下的汉语词向量表示，且

Step3.3、经过以上步骤得到多语词向量，多语词向量中便包含有柬汉双语词向量，进而可获得柬汉双语词向量模型。

本发明的有益效果是：本发明通过现有的方法获取单语词向量，并多次映射单语词向量，根据典型相关分析算法(CCA)以英语作为中间语言，分析计算柬语词向量与汉语词向量之间的相关关系，从而得到柬汉双语词向量，生成柬汉双语词向量模型。所提出的方法有效的解决了无法直接构建柬汉双语词向量模型的问题，并且通过该方法获得的柬汉双语词向量质量较高，准确率方面有很大的提升。

附图说明

图1为本发明中构建柬汉双语词向量模型总的流程图；

图2为本发明中根据典型相关分析的双语词向量投影图。

具体实施方式

实施例1：如图1-2所示，一种基于多重CCA算法的柬汉双语词向量模型构建方法，所述方法的具体步骤如下：

Step1、获取英语、柬语、汉语词向量；

Step1.1、收集相同领域柬语、英语、汉语单语语料；

进一步的，所述步骤Step2中将柬语和英语词向量投影至同一向量空间中，对应得到英语词向量和柬语词向量在同一向量空间中的投影转换矩阵；将汉语和英语词向量投影至同一向量空间中，对应得到英语词向量和汉语词向量在同一向量空间中的投影转换矩阵的具体步骤如下：

x′＝vx y′＝wy

其中v和w是Σ′和Ω′的投影向量；

V,W＝CCA(Σ′,Ω′)

Step2.4、同理，令

P,Z＝CCA(Σ',Φ')

其中P∈R^d×d，Z∈R^d×d，d＝d₁。

进一步的，所述步骤Step3中以英语词向量空间作为多语言词向量公共空间，分别将柬语和汉语词向量映射至英语词向量空间中，并根据典型相关分析CCA算法，分析计算投影转换矩阵之间的相关关系，得到多语词向量；多语词向量中便包含有柬汉双语词向量，进而获得柬汉双语词向量模型的具体步骤如下：

其中，Σ为英语词向量集，Φ为柬语词向量集，

为英语词向量空间下的英语词向量表示，

为英语词向量空间下的柬语词向量表示，且

其中，Σ为英语词向量集，Ω为汉语词向量集，

为英语词向量空间下的英语词向量表示，

为英语词向量空间下的汉语词向量表示，且

本发明创新性地引入多次映射单语词向量以及多重CCA算法这两种方法构建柬汉双语词向量模型。首先应用现有的成熟技术word2vec对英、柬、汉三种单语语料进行词向量训练，得到三种语料对应的单语词向量；其次将柬、英词向量投影至同一特征向量空间，将汉、英词向量投影至同一特征向量空间，分别得到各自的投影转换矩阵；然后以英语词向量空间作为公共词向量空间，分别将柬语和汉语词向量映射至英语词向量空间中；并根据典型相关分析(CCA)算法，分析计算投影转换矩阵之间的相关关系，得到柬英以及汉英双语词向量；最终以英语作为中间语言，将同时拥有相同英语单词词向量的柬英双语词向量和汉英双语词向量匹配在一起，得到柬汉双语词向量。本发明与现有技术相比，解决了小语种语料因语料稀缺无法通过现有双语词向量模型获取双语词向量的问题，并且通过本发明提出的方法获得的柬汉双语词向量质量较高，准确率方面有很大的提升。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于多重CCA算法的柬汉双语词向量模型构建方法，其特征在于：所述方法的具体步骤如下：

Step1、获取英语、柬语、汉语词向量；

Step1.1、收集相同领域柬语、英语、汉语单语语料；

Step3、在上一步完成之后，以英语词向量空间作为多语言词向量公共空间，分别将柬语和汉语词向量映射至英语词向量空间中，并根据典型相关分析CCA算法，分析计算投影转换矩阵之间的相关关系，得到多语词向量；多语词向量中便包含有柬汉双语词向量，进而获得柬汉双语词向量模型；

Step2.1、收集到的英语单语语料为15万句，汉语单语语料为10万句，柬语单语语料为5万句，由于所收集到的单语语料规模不同，因此经过第一步后得到的英语、汉语、柬语词向量规模大小并不相同，将其分别记为∑、Ω以及Φ，∑为英语词向量集，Ω为汉语词向量集，Φ为柬语词向量集；且

其中d₁为三种语言词向量集矩阵的列数，表示词向量的维度，三种语言词向量的维度相同；n₁，n₂，n₃分别为英语、汉语、柬语词向量集矩阵的行数，n₁表示英语词汇表单词的数量，n₂表示汉语词汇表单词的数量，n₃表示柬语词汇表单词的数量，由于初始单语语料规模的不同，因此在Ω中可能不存在∑中每个词的对应翻译词，同理，在Φ中可能也不存在∑中每个词的对应翻译词，因此首先令

且英语词向量空间∑′中的每一个词都能在汉语词向量空间Ω′中找到具有对应翻译的词；令x和y分别为∑′和Ω′中的互为翻译的词向量，并将x和y投影到同一特征空间后得到投影词向量x′和y′分别为：

x′＝vx y′＝wy

其中v和w是∑′和Ω′的投影向量；

Step2.3、得到∑′和Ω′的投影向量v和w的表示之后，根据以上方法获取英语词向量∑与汉语词向量Ω两种语言的全部词汇词向量映射至汉英同一向量空间后所得到的英语、汉语投影转换矩阵分别为V、W，表示为

V,W＝CCA(∑′,Ω′)

Step2.4、同理，令

且英语词向量空间∑′中的每一个词都能在柬语词向量空间Φ'中找到具有对应翻译的词，与以上步骤Step 2.1至Step 2.3类似，得到∑′和Φ'的投影向量p和z的表示之后，将英语词向量∑与柬语词向量Φ两种语言的全部词汇词向量映射至同一向量空间后所得到的英语、柬语投影转换矩阵分别为P、Z，表示为

P,Z＝CCA(∑',Φ')

其中P∈R^d×d，Z∈R^d×d，d＝d₁。

2.根据权利要求1所述的基于多重CCA算法的柬汉双语词向量模型构建方法，其特征在于：所述步骤Step3中以英语词向量空间作为多语言词向量公共空间，分别将柬语和汉语词向量映射至英语词向量空间中，并根据典型相关分析CCA算法，分析计算投影转换矩阵之间的相关关系，得到多语词向量；多语词向量中便包含有柬汉双语词向量，进而获得柬汉双语词向量模型的具体步骤如下：

其中，∑为英语词向量集，Φ为柬语词向量集，

为英语词向量空间下的英语词向量表示，

为英语词向量空间下的柬语词向量表示，且

其中，∑为英语词向量集，Ω为汉语词向量集，

为英语词向量空间下的英语词向量表示，

为英语词向量空间下的汉语词向量表示，且