CN109582951B - 一种基于多重cca算法的柬汉双语词向量模型构建方法 - Google Patents

一种基于多重cca算法的柬汉双语词向量模型构建方法 Download PDF

Info

Publication number
CN109582951B
CN109582951B CN201811222172.8A CN201811222172A CN109582951B CN 109582951 B CN109582951 B CN 109582951B CN 201811222172 A CN201811222172 A CN 201811222172A CN 109582951 B CN109582951 B CN 109582951B
Authority
CN
China
Prior art keywords
word
word vector
english
chinese
invitation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811222172.8A
Other languages
English (en)
Other versions
CN109582951A (zh
Inventor
严馨
李思远
郭剑毅
周枫
王红斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201811222172.8A priority Critical patent/CN109582951B/zh
Publication of CN109582951A publication Critical patent/CN109582951A/zh
Application granted granted Critical
Publication of CN109582951B publication Critical patent/CN109582951B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种基于多重CCA算法的柬汉双语词向量模型构建方法,属于自然语言处理技术领域。本发明首先获取英语、柬语、汉语词向量;其次分别将英语、汉语词向量投影至同一特征空间,将英语、柬语词向量投影至同一特征空间,从而得到各自对应的投影转换矩阵;然后以英语作为多语言向量公共空间,分别将柬语和汉语投影到英语词向量空间中,并根据典型相关分析算法,分析计算投影转换矩阵之间的相关关系,得到多语词向量;多语词向量中便包含有柬汉双语词向量,进而可获得柬汉双语词向量模型。本发明有效的解决了无法直接构建柬汉双语词向量模型的问题,并且通过该方法获得的柬汉双语词向量质量较高,准确率方面有很大的提升。

Description

一种基于多重CCA算法的柬汉双语词向量模型构建方法
技术领域
本发明涉及一种基于多重CCA算法的柬汉双语词向量模型构建方法,属于自然语言处理技术领域。
背景技术
当前,双语词向量的研究工作已被研究者们广泛关注。柬汉双语词向量的构建是柬语与汉语匹配对齐工作中的重要环节,近些年来我国与东南亚地区的政治,经济交流越发频繁,柬埔寨作为东南亚地区的重要国家,其与我国之间的关系也颇为密切,所以对柬语的研究工作对于两国交流也显得十分重要。柬汉双语词向量的构建在研究柬语的工作中占有很大的地位,一个高质量的柬汉双语词向量模型可以为柬汉双语的词对齐、相似度分析、命名实体识别以及平行句对获取等工作产生很大的作用。
发明内容
本发明提供了一种基于多重CCA算法的柬汉双语词向量模型构建方法,用于解决当前无法直接构建柬汉双语词向量模型的问题,并且通过该方法获得的柬汉双语词向量质量较高,准确率方面有很大的提升。
本发明的技术方案是:一种基于多重CCA算法的柬汉双语词向量模型构建方法,所述方法的具体步骤如下:
Step1、获取英语、柬语、汉语词向量;
Step1.1、收集相同领域柬语、英语、汉语单语语料;
Step1.2、对收集到的三种语言的单语语料进行分词处理,并将三种单语语料通过word2vec进行词向量训练,分别获得柬语、英语以及汉语的词向量;
Step2、将柬语和英语词向量投影至同一向量空间中,对应得到英语词向量和柬语词向量在同一向量空间中的投影转换矩阵;将汉语和英语词向量投影至另一个同一向量空间,对应得到英语词向量和汉语词向量在另一个同一向量空间中的投影转换矩阵;
Step3、在上一步完成之后,以英语词向量空间作为多语言词向量公共空间,分别将柬语和汉语词向量映射至英语词向量空间中,并根据典型相关分析CCA算法,分析计算投影转换矩阵之间的相关关系,得到多语词向量;多语词向量中便包含有柬汉双语词向量,进而获得柬汉双语词向量模型。
所述步骤Step2中将柬语和英语词向量投影至同一向量空间中,对应得到英语词向量和柬语词向量在同一向量空间中的投影转换矩阵;将汉语和英语词向量投影至同一向量空间中,对应得到英语词向量和汉语词向量在同一向量空间中的投影转换矩阵的具体步骤如下:
Step2.1、收集到的英语单语语料为15万句,汉语单语语料为10万句,柬语单语语料为5万句,由于所收集到的单语语料规模不同,因此经过第一步后得到的英语、汉语、柬语词向量规模大小并不相同,将其分别记为Σ、Ω以及Φ,Σ为英语词向量集,Ω为汉语词向量集,Φ为柬语词向量集;且
Figure BDA0001835061300000021
其中d1为三种语言词向量集矩阵的列数,表示词向量的维度,三种语言词向量的维度相同;n1,n2,n3分别为英语、汉语、柬语词向量集矩阵的行数,n1表示英语词汇表单词的数量,n2表示汉语词汇表单词的数量,n3表示柬语词汇表单词的数量,由于初始单语语料规模的不同,因此在Ω中可能不存在Σ中每个词的对应翻译词,同理,在Φ中可能也不存在Σ中每个词的对应翻译词,因此首先令
Figure BDA0001835061300000022
且英语词向量空间Σ′中的每一个词都能在汉语词向量空间Ω′中找到具有对应翻译的词;令x和y分别为Σ′和Ω′中的互为翻译的词向量,并将x和y投影到同一特征空间后得到投影词向量x′和y′分别为:
x′=vx y′=wy
其中v和w是Σ′和Ω′的投影向量;
Step2.2、将英语词向量x和与其词义对应的汉语词向量y映射至同一特征空间后,根据CCA算法对含有x'和y'之间的相关关系进行计算;
Figure BDA0001835061300000023
其中,ρ(x',y')为相关系数,cov[x',y']为x'和y'的协方差,Var[x']和Var[y']分别为x'和y'的方差;
CCA算法将映射至同一向量空间的英语和汉语词向量之间的相关系数ρ最大化,并输出投影向量v和w,表示为
Figure BDA0001835061300000031
Step2.3、得到Σ′和Ω′的投影向量v和w的表示之后,根据以上方法获取英语词向量Σ与汉语词向量Ω两种语言的全部词汇词向量映射至汉英同一向量空间后所得到的英语、汉语投影转换矩阵分别为V、W,表示为
V,W=CCA(Σ′,Ω′)
其中V∈Rd×d,W∈Rd×d,d是投影转换矩阵V、W的秩,然后d=d1,d1的范围值100-200,由于通过CCA算法得到d维度的相关性投影向量大,因此仅通过对前d1个相关维度进行原始单词词向量的投影进行工作;
Step2.4、同理,令
Figure BDA0001835061300000032
且英语词向量空间Σ′中的每一个词都能在柬语词向量空间Φ'中找到具有对应翻译的词,与以上步骤Step 2.1至Step 2.3类似,得到Σ′和Φ'的投影向量p和z的表示之后,将英语词向量Σ与柬语词向量Φ两种语言的全部词汇词向量映射至同一向量空间后所得到的英语、柬语投影转换矩阵分别为P、Z,表示为
P,Z=CCA(Σ',Φ')
其中P∈Rd×d,Z∈Rd×d,d=d1
所述步骤Step3中以英语词向量空间作为多语言词向量公共空间,分别将柬语和汉语词向量映射至英语词向量空间中,并根据典型相关分析CCA算法,分析计算投影转换矩阵之间的相关关系,得到多语词向量;多语词向量中便包含有柬汉双语词向量,进而获得柬汉双语词向量模型的具体步骤如下:
Step3.1、首先将柬语词向量投影至英语词向量空间中,得到在英语词向量空间中柬语的投影转换矩阵:
Figure BDA0001835061300000033
Figure BDA0001835061300000034
其中,Σ为英语词向量集,Φ为柬语词向量集,
Figure BDA0001835061300000035
为英语词向量空间下的英语词向量表示,
Figure BDA0001835061300000041
为英语词向量空间下的柬语词向量表示,且
Figure BDA0001835061300000042
Step3.2、然后将汉语词向量投影至英语词向量空间中后,两个投影转换矩阵分别为V以及W;与之前获取柬英词向量的方法相同,将汉语词向量投影至英语词向量空间后,得到汉语在英语词向量空间中的转换投影矩阵:
Figure BDA0001835061300000043
Figure BDA0001835061300000044
其中,Σ为英语词向量集,Ω为汉语词向量集,
Figure BDA0001835061300000045
为英语词向量空间下的英语词向量表示,
Figure BDA0001835061300000046
为英语词向量空间下的汉语词向量表示,且
Figure BDA0001835061300000047
Step3.3、经过以上步骤得到多语词向量,多语词向量中便包含有柬汉双语词向量,进而可获得柬汉双语词向量模型。
本发明的有益效果是:本发明通过现有的方法获取单语词向量,并多次映射单语词向量,根据典型相关分析算法(CCA)以英语作为中间语言,分析计算柬语词向量与汉语词向量之间的相关关系,从而得到柬汉双语词向量,生成柬汉双语词向量模型。所提出的方法有效的解决了无法直接构建柬汉双语词向量模型的问题,并且通过该方法获得的柬汉双语词向量质量较高,准确率方面有很大的提升。
附图说明
图1为本发明中构建柬汉双语词向量模型总的流程图;
图2为本发明中根据典型相关分析的双语词向量投影图。
具体实施方式
实施例1:如图1-2所示,一种基于多重CCA算法的柬汉双语词向量模型构建方法,所述方法的具体步骤如下:
Step1、获取英语、柬语、汉语词向量;
Step1.1、收集相同领域柬语、英语、汉语单语语料;
Step1.2、对收集到的三种语言的单语语料进行分词处理,并将三种单语语料通过word2vec进行词向量训练,分别获得柬语、英语以及汉语的词向量;
Step2、将柬语和英语词向量投影至同一向量空间中,对应得到英语词向量和柬语词向量在同一向量空间中的投影转换矩阵;将汉语和英语词向量投影至另一个同一向量空间,对应得到英语词向量和汉语词向量在另一个同一向量空间中的投影转换矩阵;
Step3、在上一步完成之后,以英语词向量空间作为多语言词向量公共空间,分别将柬语和汉语词向量映射至英语词向量空间中,并根据典型相关分析CCA算法,分析计算投影转换矩阵之间的相关关系,得到多语词向量;多语词向量中便包含有柬汉双语词向量,进而获得柬汉双语词向量模型。
进一步的,所述步骤Step2中将柬语和英语词向量投影至同一向量空间中,对应得到英语词向量和柬语词向量在同一向量空间中的投影转换矩阵;将汉语和英语词向量投影至同一向量空间中,对应得到英语词向量和汉语词向量在同一向量空间中的投影转换矩阵的具体步骤如下:
Step2.1、收集到的英语单语语料为15万句,汉语单语语料为10万句,柬语单语语料为5万句,由于所收集到的单语语料规模不同,因此经过第一步后得到的英语、汉语、柬语词向量规模大小并不相同,将其分别记为Σ、Ω以及Φ,Σ为英语词向量集,Ω为汉语词向量集,Φ为柬语词向量集;且
Figure BDA0001835061300000051
其中d1为三种语言词向量集矩阵的列数,表示词向量的维度,三种语言词向量的维度相同;n1,n2,n3分别为英语、汉语、柬语词向量集矩阵的行数,n1表示英语词汇表单词的数量,n2表示汉语词汇表单词的数量,n3表示柬语词汇表单词的数量,由于初始单语语料规模的不同,因此在Ω中可能不存在Σ中每个词的对应翻译词,同理,在Φ中可能也不存在Σ中每个词的对应翻译词,因此首先令
Figure BDA0001835061300000052
且英语词向量空间Σ′中的每一个词都能在汉语词向量空间Ω′中找到具有对应翻译的词;令x和y分别为Σ′和Ω′中的互为翻译的词向量,并将x和y投影到同一特征空间后得到投影词向量x′和y′分别为:
x′=vx y′=wy
其中v和w是Σ′和Ω′的投影向量;
Step2.2、将英语词向量x和与其词义对应的汉语词向量y映射至同一特征空间后,根据CCA算法对含有x'和y'之间的相关关系进行计算;
Figure BDA0001835061300000053
其中,ρ(x',y')为相关系数,cov[x',y']为x'和y'的协方差,Var[x']和Var[y']分别为x'和y'的方差;
CCA算法将映射至同一向量空间的英语和汉语词向量之间的相关系数ρ最大化,并输出投影向量v和w,表示为
Figure BDA0001835061300000061
Step2.3、得到Σ′和Ω′的投影向量v和w的表示之后,根据以上方法获取英语词向量Σ与汉语词向量Ω两种语言的全部词汇词向量映射至汉英同一向量空间后所得到的英语、汉语投影转换矩阵分别为V、W,表示为
V,W=CCA(Σ′,Ω′)
其中V∈Rd×d,W∈Rd×d,d是投影转换矩阵V、W的秩,然后d=d1,d1的范围值100-200,由于通过CCA算法得到d维度的相关性投影向量大,因此仅通过对前d1个相关维度进行原始单词词向量的投影进行工作;
Step2.4、同理,令
Figure BDA0001835061300000062
且英语词向量空间Σ′中的每一个词都能在柬语词向量空间Φ'中找到具有对应翻译的词,与以上步骤Step 2.1至Step 2.3类似,得到Σ′和Φ'的投影向量p和z的表示之后,将英语词向量Σ与柬语词向量Φ两种语言的全部词汇词向量映射至同一向量空间后所得到的英语、柬语投影转换矩阵分别为P、Z,表示为
P,Z=CCA(Σ',Φ')
其中P∈Rd×d,Z∈Rd×d,d=d1
进一步的,所述步骤Step3中以英语词向量空间作为多语言词向量公共空间,分别将柬语和汉语词向量映射至英语词向量空间中,并根据典型相关分析CCA算法,分析计算投影转换矩阵之间的相关关系,得到多语词向量;多语词向量中便包含有柬汉双语词向量,进而获得柬汉双语词向量模型的具体步骤如下:
Step3.1、首先将柬语词向量投影至英语词向量空间中,得到在英语词向量空间中柬语的投影转换矩阵:
Figure BDA0001835061300000063
Figure BDA0001835061300000071
其中,Σ为英语词向量集,Φ为柬语词向量集,
Figure BDA0001835061300000072
为英语词向量空间下的英语词向量表示,
Figure BDA0001835061300000073
为英语词向量空间下的柬语词向量表示,且
Figure BDA0001835061300000074
Step3.2、然后将汉语词向量投影至英语词向量空间中后,两个投影转换矩阵分别为V以及W;与之前获取柬英词向量的方法相同,将汉语词向量投影至英语词向量空间后,得到汉语在英语词向量空间中的转换投影矩阵:
Figure BDA0001835061300000075
Figure BDA0001835061300000076
其中,Σ为英语词向量集,Ω为汉语词向量集,
Figure BDA0001835061300000077
为英语词向量空间下的英语词向量表示,
Figure BDA0001835061300000078
为英语词向量空间下的汉语词向量表示,且
Figure BDA0001835061300000079
Step3.3、经过以上步骤得到多语词向量,多语词向量中便包含有柬汉双语词向量,进而可获得柬汉双语词向量模型。
本发明创新性地引入多次映射单语词向量以及多重CCA算法这两种方法构建柬汉双语词向量模型。首先应用现有的成熟技术word2vec对英、柬、汉三种单语语料进行词向量训练,得到三种语料对应的单语词向量;其次将柬、英词向量投影至同一特征向量空间,将汉、英词向量投影至同一特征向量空间,分别得到各自的投影转换矩阵;然后以英语词向量空间作为公共词向量空间,分别将柬语和汉语词向量映射至英语词向量空间中;并根据典型相关分析(CCA)算法,分析计算投影转换矩阵之间的相关关系,得到柬英以及汉英双语词向量;最终以英语作为中间语言,将同时拥有相同英语单词词向量的柬英双语词向量和汉英双语词向量匹配在一起,得到柬汉双语词向量。本发明与现有技术相比,解决了小语种语料因语料稀缺无法通过现有双语词向量模型获取双语词向量的问题,并且通过本发明提出的方法获得的柬汉双语词向量质量较高,准确率方面有很大的提升。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (2)

1.一种基于多重CCA算法的柬汉双语词向量模型构建方法,其特征在于:所述方法的具体步骤如下:
Step1、获取英语、柬语、汉语词向量;
Step1.1、收集相同领域柬语、英语、汉语单语语料;
Step1.2、对收集到的三种语言的单语语料进行分词处理,并将三种单语语料通过word2vec进行词向量训练,分别获得柬语、英语以及汉语的词向量;
Step2、将柬语和英语词向量投影至同一向量空间中,对应得到英语词向量和柬语词向量在同一向量空间中的投影转换矩阵;将汉语和英语词向量投影至另一个同一向量空间,对应得到英语词向量和汉语词向量在另一个同一向量空间中的投影转换矩阵;
Step3、在上一步完成之后,以英语词向量空间作为多语言词向量公共空间,分别将柬语和汉语词向量映射至英语词向量空间中,并根据典型相关分析CCA算法,分析计算投影转换矩阵之间的相关关系,得到多语词向量;多语词向量中便包含有柬汉双语词向量,进而获得柬汉双语词向量模型;
所述步骤Step2中将柬语和英语词向量投影至同一向量空间中,对应得到英语词向量和柬语词向量在同一向量空间中的投影转换矩阵;将汉语和英语词向量投影至同一向量空间中,对应得到英语词向量和汉语词向量在同一向量空间中的投影转换矩阵的具体步骤如下:
Step2.1、收集到的英语单语语料为15万句,汉语单语语料为10万句,柬语单语语料为5万句,由于所收集到的单语语料规模不同,因此经过第一步后得到的英语、汉语、柬语词向量规模大小并不相同,将其分别记为∑、Ω以及Φ,∑为英语词向量集,Ω为汉语词向量集,Φ为柬语词向量集;且
Figure FDA0003016929480000011
其中d1为三种语言词向量集矩阵的列数,表示词向量的维度,三种语言词向量的维度相同;n1,n2,n3分别为英语、汉语、柬语词向量集矩阵的行数,n1表示英语词汇表单词的数量,n2表示汉语词汇表单词的数量,n3表示柬语词汇表单词的数量,由于初始单语语料规模的不同,因此在Ω中可能不存在∑中每个词的对应翻译词,同理,在Φ中可能也不存在∑中每个词的对应翻译词,因此首先令
Figure FDA0003016929480000012
且英语词向量空间∑′中的每一个词都能在汉语词向量空间Ω′中找到具有对应翻译的词;令x和y分别为∑′和Ω′中的互为翻译的词向量,并将x和y投影到同一特征空间后得到投影词向量x′和y′分别为:
x′=vx y′=wy
其中v和w是∑′和Ω′的投影向量;
Step2.2、将英语词向量x和与其词义对应的汉语词向量y映射至同一特征空间后,根据CCA算法对含有x'和y'之间的相关关系进行计算;
Figure FDA0003016929480000021
其中,ρ(x',y')为相关系数,cov[x',y']为x'和y'的协方差,Var[x']和Var[y']分别为x'和y'的方差;
CCA算法将映射至同一向量空间的英语和汉语词向量之间的相关系数ρ最大化,并输出投影向量v和w,表示为
Figure FDA0003016929480000022
Step2.3、得到∑′和Ω′的投影向量v和w的表示之后,根据以上方法获取英语词向量∑与汉语词向量Ω两种语言的全部词汇词向量映射至汉英同一向量空间后所得到的英语、汉语投影转换矩阵分别为V、W,表示为
V,W=CCA(∑′,Ω′)
其中V∈Rd×d,W∈Rd×d,d是投影转换矩阵V、W的秩,然后d=d1,d1的范围值100-200,由于通过CCA算法得到d维度的相关性投影向量大,因此仅通过对前d1个相关维度进行原始单词词向量的投影进行工作;
Step2.4、同理,令
Figure FDA0003016929480000023
且英语词向量空间∑′中的每一个词都能在柬语词向量空间Φ'中找到具有对应翻译的词,与以上步骤Step 2.1至Step 2.3类似,得到∑′和Φ'的投影向量p和z的表示之后,将英语词向量∑与柬语词向量Φ两种语言的全部词汇词向量映射至同一向量空间后所得到的英语、柬语投影转换矩阵分别为P、Z,表示为
P,Z=CCA(∑',Φ')
其中P∈Rd×d,Z∈Rd×d,d=d1
2.根据权利要求1所述的基于多重CCA算法的柬汉双语词向量模型构建方法,其特征在于:所述步骤Step3中以英语词向量空间作为多语言词向量公共空间,分别将柬语和汉语词向量映射至英语词向量空间中,并根据典型相关分析CCA算法,分析计算投影转换矩阵之间的相关关系,得到多语词向量;多语词向量中便包含有柬汉双语词向量,进而获得柬汉双语词向量模型的具体步骤如下:
Step3.1、首先将柬语词向量投影至英语词向量空间中,得到在英语词向量空间中柬语的投影转换矩阵:
Figure FDA0003016929480000031
Figure FDA0003016929480000032
其中,∑为英语词向量集,Φ为柬语词向量集,
Figure FDA0003016929480000033
为英语词向量空间下的英语词向量表示,
Figure FDA0003016929480000034
为英语词向量空间下的柬语词向量表示,且
Figure FDA0003016929480000035
Step3.2、然后将汉语词向量投影至英语词向量空间中后,两个投影转换矩阵分别为V以及W;与之前获取柬英词向量的方法相同,将汉语词向量投影至英语词向量空间后,得到汉语在英语词向量空间中的转换投影矩阵:
Figure FDA0003016929480000036
Figure FDA0003016929480000037
其中,∑为英语词向量集,Ω为汉语词向量集,
Figure FDA0003016929480000038
为英语词向量空间下的英语词向量表示,
Figure FDA0003016929480000039
为英语词向量空间下的汉语词向量表示,且
Figure FDA00030169294800000310
Step3.3、经过以上步骤得到多语词向量,多语词向量中便包含有柬汉双语词向量,进而可获得柬汉双语词向量模型。
CN201811222172.8A 2018-10-19 2018-10-19 一种基于多重cca算法的柬汉双语词向量模型构建方法 Active CN109582951B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811222172.8A CN109582951B (zh) 2018-10-19 2018-10-19 一种基于多重cca算法的柬汉双语词向量模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811222172.8A CN109582951B (zh) 2018-10-19 2018-10-19 一种基于多重cca算法的柬汉双语词向量模型构建方法

Publications (2)

Publication Number Publication Date
CN109582951A CN109582951A (zh) 2019-04-05
CN109582951B true CN109582951B (zh) 2021-08-31

Family

ID=65920690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811222172.8A Active CN109582951B (zh) 2018-10-19 2018-10-19 一种基于多重cca算法的柬汉双语词向量模型构建方法

Country Status (1)

Country Link
CN (1) CN109582951B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157865B (zh) * 2021-04-25 2023-06-23 平安科技(深圳)有限公司 跨语言词向量生成方法、装置、电子设备及存储介质
CN113627175B (zh) * 2021-08-17 2024-05-28 北京计算机技术及应用研究所 一种利用正交变换计算汉语词向量的方法
CN113627176B (zh) * 2021-08-17 2024-04-19 北京计算机技术及应用研究所 一种利用主元分析计算汉语词向量的方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8229866B2 (en) * 2009-09-04 2012-07-24 Alex Alaniz Method and system for detecting correlation in data sets
CN107315741B (zh) * 2017-05-24 2019-11-22 清华大学 双语词典构建方法和设备
CN107894982A (zh) * 2017-10-25 2018-04-10 昆明理工大学 一种基于柬汉词对齐语料构建柬埔寨语依存树库的方法
CN107861947B (zh) * 2017-11-07 2021-01-05 昆明理工大学 一种基于跨语言资源的柬语命名实体识别的方法

Also Published As

Publication number Publication date
CN109582951A (zh) 2019-04-05

Similar Documents

Publication Publication Date Title
Zhu et al. CAN-NER: Convolutional attention network for Chinese named entity recognition
CN109582951B (zh) 一种基于多重cca算法的柬汉双语词向量模型构建方法
JP4961755B2 (ja) 単語アライメント装置、単語アライメント方法、単語アライメントプログラム
WO2017162134A1 (zh) 用于文本处理的电子设备和方法
CN106021227B (zh) 一种基于状态转移与神经网络的汉语组块分析方法
CN105068997B (zh) 平行语料的构建方法及装置
CN109408814B (zh) 基于释义基元词的中英跨语言词汇表征学习方法及系统
CN107861947B (zh) 一种基于跨语言资源的柬语命名实体识别的方法
CN110717341B (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN110619127B (zh) 一种基于神经网络图灵机的蒙汉机器翻译方法
CN111259768A (zh) 基于注意力机制的结合自然语言的图像目标定位方法
CN107305543B (zh) 对实体词的语义关系进行分类的方法和装置
CN102193912A (zh) 短语划分模型建立方法、统计机器翻译方法以及解码器
CN110347857A (zh) 基于强化学习的遥感影像的语义标注方法
Kumaran et al. Compositional machine transliteration
Abdulmumin et al. Hausa visual genome: A dataset for multi-modal English to Hausa machine translation
Teslya et al. Deep learning for handwriting text recognition: existing approaches and challenges
CN115935959A (zh) 一种低资源黏着语序列标注的方法
CN107229613B (zh) 一种基于向量空间模型的英汉语料提取方法
CN101763403A (zh) 面向多语言信息检索系统的查询翻译方法
Vashistha et al. Active learning for neural machine translation
Ezeani et al. Lexical disambiguation of Igbo using diacritic restoration
JP2017010274A (ja) 対応付け装置及びプログラム
JP5439776B2 (ja) 単語アライメント装置及び単語アライメントプログラム
Deng et al. MTTK: An alignment toolkit for statistical machine translation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant