CN110377918A - 融合句法解析树的汉-越神经机器翻译方法 - Google Patents
融合句法解析树的汉-越神经机器翻译方法 Download PDFInfo
- Publication number
- CN110377918A CN110377918A CN201910635895.9A CN201910635895A CN110377918A CN 110377918 A CN110377918 A CN 110377918A CN 201910635895 A CN201910635895 A CN 201910635895A CN 110377918 A CN110377918 A CN 110377918A
- Authority
- CN
- China
- Prior art keywords
- chinese
- vector
- label
- machine translation
- vietnamese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013519 translation Methods 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000001537 neural effect Effects 0.000 title claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 26
- 230000004927 fusion Effects 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 59
- 238000003780 insertion Methods 0.000 claims description 16
- 230000037431 insertion Effects 0.000 claims description 16
- 210000005036 nerve Anatomy 0.000 claims description 10
- 230000001351 cycling effect Effects 0.000 claims description 2
- 230000003252 repetitive effect Effects 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 230000007812 deficiency Effects 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/47—Machine-assisted translation, e.g. using translation memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及融合句法解析树的汉‑越神经机器翻译方法,属于自然语言处理技术领域。本发明能够实现汉语‑越南语、越南语‑汉语的机器翻译。通过从互联网爬取和人工翻译的方式构建的汉语‑越南语双语平行语料作为训练数据集。为解决目前汉‑越机器翻译中由于训练语料不足导致的翻译错误;本发明首先对源语言进行分词、词性标记以及句法解析,得到源语言的句法树。然后将句法标签向量化并融合到机器翻译模型训练的编码过程,训练机器翻译模型。所得模型可以有效完成汉语和越南语之间的翻译。实验结果表明,相比未融合句法解析树的基准系统该方法得到的译文更加流畅,并获得了0.6个BLEU值的提升。
Description
技术领域
本发明涉及融合句法解析树的汉-越神经机器翻译方法,属于自然语言处理技术领域。
背景技术
机器翻译是利用计算机自动将一种语言转化成另一种语言的过程,属于自然语言处理领域的热点和难点问题。目前存在的机器翻译技术主要有两种:统计机器翻译和神经机器翻译。统计机器翻译是通过对大量的平行语料进行统计分析,从而构建翻译模型。近年来随着深度学习技术的兴起,采用基于深度学习的神经机器翻译方法得到的机器翻译模型性能显著提高。神经机器翻译是Sutskever等人在2014年提出的一种机器翻译方法,采用编码器-解码器的模型架构。首先利用双语平行语料,分别生成源语言与目标语言的词表,根据双语词表生成双语数据的向量化表示。通过编码器将代表源语言的向量编码成隐藏向量表示,再利用解码器将该隐藏向量信息解码还原成目标语言,通过不断训练神经网络最终得到源语言映射到目标语言的翻译模型。
现有的神经机器翻译模型构建过程中需要使用大规模的双语平行语料进行训练,从而使模型充分学习不同语言之间的对齐关系。在语料资源丰富的语言对上,该方法能够取得很好的效果。越南语属于典型的资源稀缺型语言,构建一定规模的汉语-越南语双语平行语料十分困难,目前汉-越机器翻译的效果并不理想。考虑到现有神经机器翻译方法未能有效利用源语言的句法结构信息,得到的译文不符合目标语言的语法规则,本发明提出并实现了一种融合句法解析树的汉-越神经机器翻译方法。
发明内容
本发明提供了融合句法解析树的汉-越神经机器翻译方法,以用于解决双语平行语料不足所导致的汉-越神经机器翻译模型性能不佳的问题。
本发明的技术方案是:融合句法解析树的汉-越神经机器翻译方法,该方法将传统自然语言处理任务中词法、句法解析方法与深度学习技术相结合。利用网络爬虫和人工标注的方法构建一定规模的汉语-越南语双语平行语料库。然后利用汉语-越南语双语平行语料训练神经机器翻译模型。
在神经机器翻译模型构建过程中,首先对源语言进行句法解析,得到源语言的句法解析树,然后利用深度优先遍历,获得源语言句子中每个单词对应的句法标签序列并将句法标签序列转化成向量的表征方式。在神经网络的编码器端,将以上得到的标签序列向量与源语言词嵌入向量及位置嵌入向量拼接,作为训练神经网络的输入。本方法中模型编码器采用了多层卷积神经网络,解码器采用LSTM网络。以上将源语言的词法、句法信息通过向量化表征有效融入到神经机器翻译模型中,使神经机器翻译模型在训练过程中能够学习得到源语言的语法结构信息,得到融合句法解析树的神经机器翻译模型。采用深度学习框架Tensorflow开发神经机器翻译模型的解码引擎。
本发明所述方法的具体步骤如下:
Step1、汉语-越南语双语平行语料主要采用网络爬虫并结合人工标注的方式进行构建,收集汉语-越南语双语平行语料作为训练语料;
Step2、训练语料的预处理:对汉语、越南语的训练语料进行去停用词处理以及使用JIEBA中文分词工具对汉语进行分词,使用基于CRF的越南语分词及词性标记模型对越南语进行分词及词性标记,然后使用MOSES对全部训练数据进行tokenization、lowercase以及clean最终保留长度在80个词以内的句对;
Step3、生成句法解析树:利用斯坦福的汉语句法解析模型(ChinesePCFG)对汉语进行句法解析,得到了汉语句法解析树。采用李英等人提出的越南语短语句法解析工具对越南语进行句法解析,得到越南语句法解析树;
Step4、获取句法标签序列:对得到的汉语、越南语句法解析树进行深度优先遍历,对于每个叶子都存在从根节点到该叶子节点的一条路径,那么通过对句法解析树根节点到叶子节点的深度优先遍历,得到句子中每个单词的句法标签序列;
Step5、对步骤Step4得到的汉语、越南语进行向量化的表示,采用数字为每种句法标签定义特征编码,然后根据定义的特征编码对每个单词对应的句法标签序列进行向量化表示;
作为本发明的进一步方案,所述步骤Step5中,根据句法标签序列生成句法标签向量的具体步骤如下:
(1)为每种句法标签定义唯一的数字表示作为标签的特征编码;
(2)根据定义的标签特征编码将每个单词对应的句法标签序列表示为向量形式;
(3)将所有句法标签序列向量转化为64维的向量表征,采用自左向右的填充方式,空白处用0表示。
Step6、将步骤Step5得到的句法标签向量与源语言词嵌入向量、位置嵌入向量拼接作为编码器的输入,训练汉语-越南语神经机器翻译模型,并采用BLEU值评估模型的性能;
通过步骤Step5的方法获得每个单词对应的句法标签序列。对于输入序列中各单词对应的句法标签序列s=(s1,s2,…,sm)利用GLU方法进行嵌入,其中si∈Rd,计算方法如公式2所示。
在基准模型中,采用向量加法将词向量与位置向量相加作为模型的输入,考虑到不同位置向量与词向量相加之后的结果可能相同会影响模型的性能,因此在编码端将源语言词嵌入向量、位置嵌入向量及句法标签向量进行拼接,然后采用全连接网络对拼接后的向量进行压缩作为编码器的输入,输入向量I表示方法如公式3所示。
I=[(e1+p1+s1),…,(em+pm+sm)] (3)
将以上得到的向量I作为神经机器翻译模型编码器的输入,训练神经机器翻译模型。神经机器翻译模型的编码器与解码器的嵌入维度设置为768维。编码器设置为15层的卷积神经网络,解码器采用LSTM网络。编码器中前9层的隐含单元数为512个,后6层的隐含单元数为1024个,批次大小为64。
Step7、重复循环步骤Step2-Step5,对输入文本进行预处理,得到输入的词向量序列与句法标签向量序列;
Step8、将步骤Step6得到的汉语-越南语神经机器翻译模型载入神经机器翻译解码引擎,将步骤Step7得到的输入的词向量与句法标签向量拼接并输入神经机器翻译解码引擎,输出解码得到的译文。
本发明的有益效果是:
1、本发明将源语言的句法信息融入到神经机器翻译模型中,以常规的神经机器翻译模型为基础,对汉语、越南语进行句法解析,得到句法解析树。然后将句法解析树转换为向量化的表示,并将源语言的词嵌入向量与句法向量拼接作为神经机器翻译模型的输入训练翻译模型。实验结果证明该方法比未融入句法解析树的翻译模型相比获得了0.6个BLEU值的提升,译文在流畅度和准确率方面均得到了改善,充分证明了该方法的有效性。
2、本发明能够实现汉语-越南语、越南语-汉语的机器翻译,在汉-越机器翻译中具有较高的鲁棒性和泛化能力,对构成相对复杂的句子,能够较为准确地翻译。另外,能够根据需求快速实现模型在不同领域之间的迁移与二次开发。使得该技术能够快速在不同应用场景中实现产品化。
附图说明
图1为本发明中的流程框图;
图2为本发明的汉语句法解析树示例图;
图3为本发明的句法标签序列生成图示例图;
图4为本发明的句法标签向量化示例图。
具体实施方式
实施例1:如图1-4所示,融合句法解析树的汉-越神经机器翻译方法,所述方法的具体步骤如下:
模型构建过程:
Step1、通过互联网爬取、人工翻译等方式收集得到的146K平行句对,从中随机抽取144K的平行语料作为训练集和开发集训练翻译模型,2K的平行语料作为测试集,用于评估实验结果;
Step2、训练语料的预处理:首先利用中文分词工具对汉语进行分词,然后对全部训练数据进行tokenization、lowercase以及clean最终保留长度在80个词以内的句对;
Step3、利用斯坦福的汉语句法解析模型(ChinesePCFG)对汉语进行句法解析,得到了汉语句法解析树,如图2所示。采用李英等人提出的越南语短语句法解析工具对越南语进行句法解析,得到越南语句法解析树;
Step4、对得到的汉语、越南语句法解析树进行深度优先遍历,对于每个叶子都存在从根节点到该叶子节点的一条路径.采用这种方法分别得到汉语和越南语句子中每单词的句法标签序列,如图3所述;
Step5、对步骤Step4得到的汉语、越南语进行向量化的表示,采用数字为每种句法标签定义特征编码,然后根据定义的特征编码对每个单词对应的句法标签序列进行向量化表示:通过步骤Step4的方法获得每个单词对应的句法标签序列。为了对以上句法标签进行向量化表示,对每种句法标签定义固定的特征编码,如:{(ROOT,1),(IP,2),(VP,3)……}。根据定义的标签编码可以将每个单词对应的句法标签序列表示为以下形式:
gi=((w1l1+b1),(w2l2+b2),…,(wtlt+bt)) (1)
其中,gi表示原句中第i个单词的句法标签向量,l={l1,l2,…,lt}为句法标签序列中预定义的每个标签编码,t为每个词对应的句法标签数量,b={b1,b2,…,bt}表示偏置项,初始值为0。对于每个句法标签对应的权重wt,根据标签所在句法解析树的层次对权重进行初始化,越靠近叶子节点的标签对当前节点的影响越大,因此将权值w={w1,w2,…,wt}初始化为{0.1,0.2,…,0.1*t}。在本发明中将句法标签向量定义为64维的向量表征,采用自左向右的填充方式,空白处用0表示,如图4所示。
Step6、将步骤Step5得到的句法标签向量与源语言词嵌入向量、通过向量拼接的方式融合输入到机器翻译模型的编码器中,训练汉语-越南语神经机器翻译模型,并采用BLEU值评估模型的性能;
机器翻译过程:
Step7、对于一个需要翻译的句子,预处理过程与模型训练的预处理过程相似,重复循环步骤Step2-Step5;首先对输入的句子进行分词、词性标记、句法解析,然后对句子进行遍历得到每个单词对应的句法标签序列,根据定义的标签编码获得每个单词对应的句法标签序列;得到输入的词向量序列与句法标签向量序列;
Step8、将步骤Step6得到的汉语-越南语神经机器翻译模型载入神经机器翻译解码引擎,将源语言句法标签向量与词嵌入向量相加并输入神经机器翻译解码引擎,输出解码得到的译文。
为了验证本发明的有效性,在实验中将RNNsearch模型、不具有任何外部信息的CNN模型、融入位置信息(位置嵌入向量)的CNN模型(CNN+P)、具有句法解析树信息的CNN模型(CNN+S)以及本发明同时具有位置信息与句法解析树信息的CNN模型(CNN+P+S)进行对比;
采用BLEU值对翻译结果进行评测,由表1可以看出,本文融入句法解析树信息及位置信息能够有效提升神经机器翻译的性能。
表1为实验结果
RNNsearch | CNN | CNN+P | CNN+S | CNN+P+S | |
汉-越 | 20.31 | 18.82 | 21.52 | 21.61 | 22.36 |
越-汉 | 13.92 | 18.07 | 21.02 | 21.16 | 21.65 |
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (6)
1.融合句法解析树的汉-越神经机器翻译方法,其特征在于:
所述方法的具体步骤如下:
Step1、收集汉语-越南语双语平行语料作为训练语料;
Step2、训练语料的预处理:对汉语、越南语的训练语料进行去停用词、分词及词性标记;
Step3、利用句法解析工具对经过预处理的训练语料进行句法解析,得到汉语、越南语的句法解析树;
Step4、对得到的汉语、越南语句法解析树进行深度优先遍历,获得每个单词对应的句法标签序列;
Step5、对步骤Step4得到的汉语、越南语进行向量化的表示,采用数字为每种句法标签定义特征编码,然后根据定义的特征编码对每个单词对应的句法标签序列进行向量化表示;
Step6、将步骤Step5得到的句法标签向量与源语言词嵌入向量、位置嵌入向量拼接作为编码器的输入,训练汉语-越南语神经机器翻译模型,并采用BLEU值评估模型的性能;
Step7、重复循环步骤Step2-Step5,对输入文本进行预处理,得到输入的词向量序列、位置嵌入向量与句法标签向量序列;
Step8、将步骤Step6得到的汉语-越南语神经机器翻译模型载入神经机器翻译解码引擎,将步骤Step7得到的输入的词向量、位置嵌入向量与句法标签向量拼接并输入神经机器翻译解码引擎,输出解码得到的译文。
2.根据权利要求1所述的融合句法解析树的汉-越神经机器翻译方法,其特征在于:所述步骤Step2中,对越南语训练语料进行分词及词性标记时采用了基于CRF的越南语分词及词性标记模型对越南语进行分词及词性标记。
3.根据权利要求1所述的融合句法解析树的汉-越神经机器翻译方法,其特征在于:所述步骤Step4中,获取句法标签序列时,通过对句法解析树根节点到叶子节点的深度优先遍历,得到句子中每个单词的句法标签序列。
4.根据权利要求1所述的融合句法解析树的汉-越神经机器翻译方法,其特征在于:所述步骤Step5中,根据句法标签序列生成句法标签向量的具体步骤如下:
(1)为每种句法标签定义唯一的数字表示作为标签的特征编码;
(2)根据定义的标签特征编码将每个单词对应的句法标签序列表示为向量形式;
(3)将所有句法标签序列向量转化为64维的向量表征,采用自左向右的填充方式,空白处用0表示。
5.根据权利要求4所述的融合句法解析树的汉-越神经机器翻译方法,其特征在于:所述步骤Step5中,通过步骤Step4获得每个单词对应的句法标签序列后,为了对以上句法标签进行向量化表示,对每种句法标签定义固定的特征编码,再根据定义的标签编码将每个单词对应的句法标签序列表示为以下形式:
gi=((w1l1+b1),(w2l2+b2),…,(wtlt+bt)) (1)
其中,gi表示原句中第i个单词的句法标签向量,l={l1,l2,…,lt}为句法标签序列中预定义的每个标签编码,t为每个词对应的句法标签数量,b={b1,b2,…,bt}表示偏置项,初始值为0;对于每个句法标签对应的权重wt,根据标签所在句法解析树的层次对权重进行初始化,越靠近叶子节点的标签对当前节点的影响越大,因此将权值w={w1,w2,…,wt}初始化为{0.1,0.2,…,0.1*t},将句法标签向量定义为64维的向量表征,采用自左向右的填充方式,空白处用0表示。
6.根据权利要求1所述的融合句法解析树的汉-越神经机器翻译方法,其特征在于:所述步骤Step6中,将每个单词的词嵌入向量、位置嵌入向量与句法标签序列向量通过向量拼接的方式融合,然后输入到机器翻译模型的编码器中,训练神经机器翻译模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910635895.9A CN110377918B (zh) | 2019-07-15 | 2019-07-15 | 融合句法解析树的汉-越神经机器翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910635895.9A CN110377918B (zh) | 2019-07-15 | 2019-07-15 | 融合句法解析树的汉-越神经机器翻译方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110377918A true CN110377918A (zh) | 2019-10-25 |
CN110377918B CN110377918B (zh) | 2020-08-28 |
Family
ID=68253172
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910635895.9A Active CN110377918B (zh) | 2019-07-15 | 2019-07-15 | 融合句法解析树的汉-越神经机器翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110377918B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111382574A (zh) * | 2020-03-11 | 2020-07-07 | 中国科学技术大学 | 一种虚拟现实与增强现实场景下结合句法的语义解析系统 |
CN112052692A (zh) * | 2020-08-12 | 2020-12-08 | 内蒙古工业大学 | 一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法 |
CN112232090A (zh) * | 2020-09-17 | 2021-01-15 | 昆明理工大学 | 融合句法结构及Tree-LSTM的汉越平行句对抽取方法 |
CN112257453A (zh) * | 2020-09-23 | 2021-01-22 | 昆明理工大学 | 融合关键词和语义特征的汉越文本相似度计算方法 |
CN112257460A (zh) * | 2020-09-25 | 2021-01-22 | 昆明理工大学 | 基于枢轴的汉越联合训练神经机器翻译方法 |
CN112287699A (zh) * | 2020-12-29 | 2021-01-29 | 南京新一代人工智能研究院有限公司 | 一种基于句法树遍历的信息融合翻译方法 |
CN112329483A (zh) * | 2020-11-03 | 2021-02-05 | 昆明理工大学 | 多机制合并注意力的多路径神经机器翻译方法 |
CN112507733A (zh) * | 2020-11-06 | 2021-03-16 | 昆明理工大学 | 基于依存图网络的汉越神经机器翻译方法 |
CN112541364A (zh) * | 2020-12-03 | 2021-03-23 | 昆明理工大学 | 融合多层次语言特征知识的汉越神经机器翻译的方法 |
CN113901847A (zh) * | 2021-09-16 | 2022-01-07 | 昆明理工大学 | 基于源语言句法增强解码的神经机器翻译方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170053527A (ko) * | 2015-11-06 | 2017-05-16 | 삼성전자주식회사 | 자동 번역의 품질 평가 장치 및 방법, 자동 번역 장치, 분산 표현 모델 구축 장치 |
CN107729326A (zh) * | 2017-09-25 | 2018-02-23 | 沈阳航空航天大学 | 基于Multi‑BiRNN编码的神经机器翻译方法 |
CN108681539A (zh) * | 2018-05-07 | 2018-10-19 | 内蒙古工业大学 | 一种基于卷积神经网络的蒙汉神经翻译方法 |
CN109952580A (zh) * | 2016-11-04 | 2019-06-28 | 易享信息技术有限公司 | 基于准循环神经网络的编码器-解码器模型 |
CN109948162A (zh) * | 2019-03-25 | 2019-06-28 | 北京理工大学 | 融合序列语法标注框架的生成式文本摘要方法 |
CN109977424A (zh) * | 2017-12-27 | 2019-07-05 | 北京搜狗科技发展有限公司 | 一种机器翻译模型的训练方法及装置 |
CN110008467A (zh) * | 2019-03-04 | 2019-07-12 | 昆明理工大学 | 一种基于迁移学习的缅甸语依存句法分析方法 |
-
2019
- 2019-07-15 CN CN201910635895.9A patent/CN110377918B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170053527A (ko) * | 2015-11-06 | 2017-05-16 | 삼성전자주식회사 | 자동 번역의 품질 평가 장치 및 방법, 자동 번역 장치, 분산 표현 모델 구축 장치 |
CN109952580A (zh) * | 2016-11-04 | 2019-06-28 | 易享信息技术有限公司 | 基于准循环神经网络的编码器-解码器模型 |
CN107729326A (zh) * | 2017-09-25 | 2018-02-23 | 沈阳航空航天大学 | 基于Multi‑BiRNN编码的神经机器翻译方法 |
CN109977424A (zh) * | 2017-12-27 | 2019-07-05 | 北京搜狗科技发展有限公司 | 一种机器翻译模型的训练方法及装置 |
CN108681539A (zh) * | 2018-05-07 | 2018-10-19 | 内蒙古工业大学 | 一种基于卷积神经网络的蒙汉神经翻译方法 |
CN110008467A (zh) * | 2019-03-04 | 2019-07-12 | 昆明理工大学 | 一种基于迁移学习的缅甸语依存句法分析方法 |
CN109948162A (zh) * | 2019-03-25 | 2019-06-28 | 北京理工大学 | 融合序列语法标注框架的生成式文本摘要方法 |
Non-Patent Citations (2)
Title |
---|
SHUANGZHI WU ET AL.: "Sequence-to-Dependency Neural Machine Translation", 《PROCEEDINGS OF THE 55TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 * |
王星: "融合结构信息的神经机器翻译模型研究", 《中国博士学位论文全文数据库 信息科技辑(月刊)》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111382574A (zh) * | 2020-03-11 | 2020-07-07 | 中国科学技术大学 | 一种虚拟现实与增强现实场景下结合句法的语义解析系统 |
CN112052692A (zh) * | 2020-08-12 | 2020-12-08 | 内蒙古工业大学 | 一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法 |
CN112232090A (zh) * | 2020-09-17 | 2021-01-15 | 昆明理工大学 | 融合句法结构及Tree-LSTM的汉越平行句对抽取方法 |
CN112257453A (zh) * | 2020-09-23 | 2021-01-22 | 昆明理工大学 | 融合关键词和语义特征的汉越文本相似度计算方法 |
CN112257460A (zh) * | 2020-09-25 | 2021-01-22 | 昆明理工大学 | 基于枢轴的汉越联合训练神经机器翻译方法 |
CN112257460B (zh) * | 2020-09-25 | 2022-06-21 | 昆明理工大学 | 基于枢轴的汉越联合训练神经机器翻译方法 |
CN112329483A (zh) * | 2020-11-03 | 2021-02-05 | 昆明理工大学 | 多机制合并注意力的多路径神经机器翻译方法 |
CN112507733A (zh) * | 2020-11-06 | 2021-03-16 | 昆明理工大学 | 基于依存图网络的汉越神经机器翻译方法 |
CN112541364A (zh) * | 2020-12-03 | 2021-03-23 | 昆明理工大学 | 融合多层次语言特征知识的汉越神经机器翻译的方法 |
CN112287699A (zh) * | 2020-12-29 | 2021-01-29 | 南京新一代人工智能研究院有限公司 | 一种基于句法树遍历的信息融合翻译方法 |
CN113901847A (zh) * | 2021-09-16 | 2022-01-07 | 昆明理工大学 | 基于源语言句法增强解码的神经机器翻译方法 |
CN113901847B (zh) * | 2021-09-16 | 2024-05-24 | 昆明理工大学 | 基于源语言句法增强解码的神经机器翻译方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110377918B (zh) | 2020-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110377918A (zh) | 融合句法解析树的汉-越神经机器翻译方法 | |
CN110334361B (zh) | 一种面向小语种语言的神经机器翻译方法 | |
Barzilay et al. | Bootstrapping lexical choice via multiple-sequence alignment | |
CN109213995A (zh) | 一种基于双语词嵌入的跨语言文本相似度评估技术 | |
CN109408642A (zh) | 一种基于距离监督的领域实体属性关系抽取方法 | |
CN108573411A (zh) | 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法 | |
CN105808530B (zh) | 一种统计机器翻译中的翻译方法和装置 | |
CN108959258A (zh) | 一种基于表示学习的特定领域集成实体链接方法 | |
CN102117270B (zh) | 一种基于模糊树到精确树的统计机器翻译方法 | |
Zhao et al. | Textual entailment with structured attentions and composition | |
CN110427616A (zh) | 一种基于深度学习的文本情感分析方法 | |
CN105868187A (zh) | 多译本平行语料库的构建方法 | |
Zhang et al. | Learning sentiment-inherent word embedding for word-level and sentence-level sentiment analysis | |
CN110222338A (zh) | 一种机构名实体识别方法 | |
Babhulgaonkar et al. | Statistical machine translation | |
CN113901208A (zh) | 融入主题特征的中越跨语言评论情感倾向性分析方法 | |
CN112507733A (zh) | 基于依存图网络的汉越神经机器翻译方法 | |
CN110516230B (zh) | 基于枢轴语言的汉-缅双语平行句对抽取方法及装置 | |
Zhu et al. | Machine learning-based grammar error detection method in English composition | |
Shen et al. | Effective use of linguistic and contextual information for statistical machine translation | |
CN110321568A (zh) | 基于融合词性和位置信息的汉-越卷积神经机器翻译方法 | |
Tiedemann et al. | A discriminative approach to tree alignment | |
CN107391488A (zh) | 一种最小生成树统计融合的汉语依存句法分析方法 | |
Sánchez-Cartagena et al. | The ua-prompsit hybrid machine translation system for the 2014 workshop on statistical machine translation | |
Kondo et al. | Hidden markov tree model for word alignment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |