CN111597827A - 一种提高机器翻译准确度的方法及其装置 - Google Patents
一种提高机器翻译准确度的方法及其装置 Download PDFInfo
- Publication number
- CN111597827A CN111597827A CN202010255766.XA CN202010255766A CN111597827A CN 111597827 A CN111597827 A CN 111597827A CN 202010255766 A CN202010255766 A CN 202010255766A CN 111597827 A CN111597827 A CN 111597827A
- Authority
- CN
- China
- Prior art keywords
- corpus
- key
- semantics
- encoder
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种提高机器翻译准确度的方法及其装置。包括:确定双语平行语料中的源语料和目标语料;根据预设的关键语义要素抽取分类网络,获取所述目标语料中每个句子的关键语义,并确定所述关键语义在句子中的位置信息;根据所述位置信息,基于Encoder‑decoder框架增加所述关键语义在句子中的权重;通过Encoder‑decoder框架对增加权重后的所述目标语料和所述源语料进行训练,确定翻译模型。本发明的有益效果在于降低了原文本中关键语义错翻、漏翻的概率,从而使得翻译文更忠实于原文本的含义,在一定程度上避免因外部资源引入而产生的一些错误判断。
Description
技术领域
本发明涉及机器翻译技术领域,特别涉及一种提高机器翻译准确度的方法及其装置。
背景技术
目前,现有的主流机器翻译方法是基于端到端的神经机器翻译方法,利用大规模双语平行语料,通过Encoder-Decoder神经网络框架进行模型训练。为了更好地表达原文本的含义,许多方法是通过将外部资源,如句法信息、短语信息等融入到模型训练中。神经网络内部操作复杂,无法保证输入文本被正确翻译,容易出现错翻、漏翻等现象;获取的外部资源,例如通过句法分析器获取的句法信息,无法保证其准确性,而错误信息的引入会影响模型翻译的效果。
发明内容
本发明提供一种提高机器翻译准确度的方法及其装置,用以解决神经网络内部操作复杂,无法保证输入文本被正确翻译,容易出现错翻、漏翻的情况。
一种提高机器翻译准确度的方法,其特征在于,包括:
确定双语平行语料中的源语料和目标语料;
根据预设的关键语义要素抽取分类网络,获取所述目标语料中每个句子的关键语义,并确定所述关键语义在句子中的位置信息;
根据所述位置信息,基于Encoder-decoder框架增加所述关键语义在句子中的权重;
通过Encoder-decoder框架对增加权重后的目标语料和源语料进行训练,确定翻译模型。
作为本发明的一种实施例:所述确定双语平行语料中的源语料和目标语料,包括:
获取现有的双语平行语料数据,对所述双语平行语料数据中的句子进行断句分词处理,获取断句分词后的双语语料集;
根据预设的文本转化规则,将所述语料集转化为双语语料文本;
根据所述双语料文本的语义,确定所述双语语料文本中的关键语义和非关键语义;
根据所述关键语义的权重,确定目标语料;
通过所述关键语义和非关键语义和所述现有的双语平行语料数据匹配,确定源语料。
作为本发明的一种实施例:所述根据预设的关键语义要素抽取分类网络,获取所述目标语料中每个句子的关键语义,并确定所述关键语义在句子中的位置信息之前,还包括:
获取现有的单语语料数据,对所述单语语料进行分类处理,确定分类处理后的单语语料文本;
根据所述单语语料文本中的语义,确定所述单语语料文本的关键语义和非关键语义,并对所述关键语义和非关键语义分别进行标记,获取标记单语语料;
将所述标记单语语料作为训练数据构建关键语义要素抽取网络;
根据所述关键语义要素抽取网络,通过双向LSTM来建模所述单语语料文本的词语级的向量表示,然后利用所述向量表示进行所述关键语义和非关键语义的二分类训练,得到关键语义要素抽取分类网络。
作为本发明的一种实施例:所述根据所述位置信息,基于Encoder-decoder框架增加所述关键语义在句子中的权重,包括:
获取端到端的Encoder-decoder框架,通过所述Encoder-decoder框架读取源语料,确定所述源语料的源序列;
通过所述Encoder-decoder框架中的encoder模块将所述源序列转成固定维度的第一向量表示,并输入到所述Encoder-decoder框架的encoder-decoder attention端;
通过所述Encoder-decoder框架读取所述目标语料,确定所述目标语料的目标序列;
经过所述Encoder-decoder框架的decoder模块将输入的所述目标序列转成固定维度的第二向量表示,并输入到所述encoder-decoder attention端,所述encoder-decoder attention端根据所述关键语义,确定所述关键语义在句子中的位置信息,并增加所述关键语义在句子中的权重。
作为本发明的一种实施例:所述通过Encoder-decoder框架对增加权重后的目标语料和所述源语料进行训练,确定翻译模型之前,还包括:
将所述增加权重的关键语义通过下式(1)进行Softmax计算,确定翻译顺序;
其中,所述S(z)i表示翻译第i个单词的概率;所述e表示zi的底数;zi表示第i个词的向量;所述C表示类别个数;所述j表示第j个单词;
根据所述翻译顺序,实现梯度回转。
一种提高机器翻译准确度的装置,其特征在于,包括:
第一确定模块:用于在双语平行语料中确定源语料和目标语料;
第二确定模块:用于根据预设的关键语义要素抽取分类网络,获取所述目标语料中每个句子的关键语义,并确定所述关键语义在句子中的位置信息;
处理模块:用于根据所述位置信息,基于Encoder-decoder框架增加所述关键语义在句子中的权重;
第三确定模块:用于通过Encoder-decoder框架对增加权重后的目标语料和所述源语料进行训练,确定翻译模型。
作为本发明的一种实施例,所述第一确定模块包括:
第一获取单元:用于获取现有的双语平行语料数据,对所述双语平行语料数据中的句子进行断句分词处理,获取断句分词后的双语语料集;
第一转化单元:用于根据预设的文本转化规则,将所述语料集转化为双语语料文本;
第一确定单元:用于根据所述双语料文本的语义,确定所述双语语料文本中的关键语义和非关键语义;
第二确定单元:用于根据所述关键语义的权重,确定目标语料;
第三确定单元:通过所述关键语义和非关键语义和所述现有的双语平行语料数据匹配,确定源语料。
作为本发明的一种实施例,所述第二确定模块包括:
第四确定单元:用于获取现有的单语语料数据,对所述单语语料进行分类处理,确定分类处理后的单语语料文本;
第二获取单元:用于根据所述单语语料文本中的语义,确定所述单语语料文本的关键语义和非关键语义,并对所述关键语义和非关键语义分别进行标记,获取标记单语语料;
第一网络构建单元:用于将所述标记单语语料作为训练数据构建关键语义要素抽取网络;
第一处理单元:根据所述关键语义要素抽取网络,通过双向LSTM来建模所述单语语料文本的词语级的向量表示,然后利用所述向量表示进行所述关键语义和非关键语义的二分类训练,得到关键语义要素抽取分类网络。
作为本发明的一种实施例,所述处理模块包括:
第五确定单元:用于获取端到端的Encoder-decoder框架,通过所述Encoder-decoder框架读取源语料,确定所述源语料的源序列;
第二处理单元:用于通过所述Encoder-decoder框架中的encoder模块将所述源序列转成固定维度的第一向量表示,并输入到所述Encoder-decoder框架的encoder-decoderattention端;
第六确定单元:用于通过所述Encoder-decoder框架读取所述目标语料,确定所述目标语料的目标序列;
第三处理单元:用于通过所述Encoder-decoder框架的decoder模块将输入的所述目标序列转成固定维度的第二向量表示,并输入到所述encoder-decoder attention端,所述encoder-decoder attention端根据所述关键语义,确定所述关键语义在句子中的位置信息,并增加关键语义在句子中的权重。
作为本发明的一种实施例,所述装置还包括:
第二处理模块:用于将所述增加权重的关键语义通过下式(1)进行Softmax计算,确定翻译顺序;
其中,所述S(z)i表示翻译第i个单词的概率;所述e表示zi的底数;zi表示第i个词的向量;所述C表示类别个数;所述j表示第j个单词;
根据所述翻译顺序,实现梯度回转。
本发明的有益效果在于:通过对目标语料中的关键语义进行标记,并在训练中增加其权重,使得Decoder端在解码时更加关注该部分信息,降低了原文本中关键语义错翻、漏翻的概率,从而使得Decoder端更忠实于原文本的含义;关键语义的抽取本质上是句子本身信息的抽取,虽然关键语义要素抽取网络无法做到完成正确地抽取出句子中的关键语义,但抽取出的内容仍然是句子本身的语义,这样可以在一定程度上避免因外部资源引入而产生的一些错误判断。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种提高机器翻译准确度的方法的算法流程图;
图2为本发明实施例中一种提高机器翻译准确度的装置的装置模块图;
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
双语平行语料是原文为一种语言,翻译文为另一种语言,为平行设置的语料库,例如英汉双语平行语料库是以句子为单位,原文为英文,译文为中文的句句对应的双语语料库。
如图1所示本发明实施例中一种提高机器翻译准确度的方法的算法流程图,一种提高机器翻译准确度的方法,包括:
步骤100:确定双语平行语料中的源语料和目标语料;
步骤101:根据预设的关键语义要素抽取分类网络,获取所述目标语料中每个句子的关键语义,并确定所述关键语义在句子中的位置信息;关键语义为翻译句子时,句子的主语。
步骤102:根据所述位置信息,基于Encoder-decoder框架增加所述关键语义在句子中的权重;
步骤103通过Encoder-decoder框架对增加权重后的所述目标语料和所述源语料进行训练,确定翻译模型。
本发明的原理在于:本发明通过双语平行语料的源语料和目标语料,提取关键语义,根据关键语义构建关键语义要素抽取分类网络,从而确定关键语义在句子中的位置,通过Encoder-decoder框架增加关键语义在句子中的权重,增加权重之后,通过Encoder-decoder框架对增加权重之后的源语料和目标语料进行训练,得到最终翻译模型。
本发明的有益效果在于:通过对目标语料中的关键语义进行标记,并在训练中增加其权重,使得Decoder端在解码时更加关注该部分信息,降低了原文本中关键语义错翻、漏翻的概率,从而使得Decoder端更忠实于原文本的含义;关键语义的抽取本质上是句子本身信息的抽取,虽然关键语义要素抽取网络无法做到完成正确地抽取出句子中的关键语义,但抽取出的内容仍然是句子本身的语义,这样可以在一定程度上避免因外部资源引入而产生的一些错误判断。
作为本发明的一种实施例:所述确定双语平行语料中的源语料和目标语料,包括:
获取现有的双语平行语料数据,对所述双语平行语料数据中的句子进行断句分词处理,获取断句分词后的双语语料集;
根据预设的文本转化规则,将所述语料集转化为双语语料文本;
根据所述双语料文本的语义,确定所述双语语料文本中的关键语义和非关键语义;非关键语义是翻译的句子时,句子中除了主语之外的感叹词等不影响翻译效果的词语。
根据所述关键语义的权重,确定目标语料;
通过所述关键语义和非关键语义和所述现有的双语平行语料数据匹配,确定源语料。
本发明的原理在于:本发明通过对现有的双语平行语料数据断句、分词处理,得到双语语料集。基于文本转化的规则,通过转化的语料文本得到关键语义和非关键语义,基于关键语义的权重和关键语义和非关键语义和所述现有的双语平行语料数据匹配结果,从而得到目标语料和源语料。
本发明的有益效果在于:本发明通过分词、断句、文本转化等方式,确定双语平行语料中的关键语义和非关键语义,进而确定目标语料和源语料。本发明获取目标语料和源语料的方式能够准确定位关键语义,进而确定目标语料,可以使得机器翻译时,能够正确翻译,减少错翻译和误翻译。
作为本发明的一种实施例:所述根据预设的关键语义要素抽取分类网络,获取所述目标语料中每个句子的关键语义,并确定所述关键语义在句子中的位置信息之前,还包括:
获取现有的单语语料数据,对所述单语语料进行分类处理,确定分类处理后的单语语料文本;
根据所述单语语料文本中的语义,确定所述单语语料文本的关键语义和非关键语义,并对所述关键语义和非关键语义分别进行标记,获取标记单语语料;
将所述标记单语语料作为训练数据构建关键语义要素抽取网络;
根据所述关键语义要素抽取网络,通过双向LSTM来建模所述单语语料文本的词语级的向量表示,然后利用所述向量表示进行所述关键语义和非关键语义的二分类训练,得到关键语义要素抽取分类网络。
本发明原理在于:本发明通过单语语料数据的分类处理,基于单语语料文本的关键语义和非关键语义,构建关键语义要素抽取网络,再通过双向LSTM得到关键语义要素抽取分类网络。
本发明的有益效果在于:本发明通过单语语料得到关键语义要素抽取分类网络,因为单语语料和双语语料的关键语义具有相似性,根据相似性能够通过关键语义要素抽取分类网络训练双语语料,从而确定双语语料的目标语料,使得翻译的准确度增加。
作为本发明的一种实施例:所述根据所述位置信息,基于Encoder-decoder框架增加所述关键语义在句子中的权重,包括:
获取端到端的Encoder-decoder框架,通过所述Encoder-decoder框架读取源语料,确定所述源语料的源序列;
通过所述Encoder-decoder框架中的encoder模块将所述源序列转成固定维度的第一向量表示,并输入到所述Encoder-decoder框架的encoder-decoder attention端;
通过所述Encoder-decoder框架读取所述目标语料,确定所述目标语料的目标序列;
经过所述Encoder-decoder框架的decoder模块将输入的所述目标序列转成固定维度的第二向量表示,并输入到所述encoder-decoder attention端,所述encoder-decoder attention端根据所述关键语义,确定所述关键语义在句子中的位置信息,并增加所述关键语义在句子中的权重。
本发明的原理在于:基于关键语义的位置信息,通过Encoder-decoder框架的decoder模块以端到端的方式,增加关键语义的权重。
本发明的有益效果在于:本发明通过增加双语语料中目标语料的权重,翻译时,关键语义更加清晰,从而翻译的准确度更高。
作为本发明的一种实施例:所述通过Encoder-decoder框架对增加权重后的所述目标语料和所述源语料进行训练,确定翻译模型之前,还包括:
将所述增加权重的关键语义通过下式(1)进行Softmax计算,确定翻译顺序;
其中,所述S(z)i表示翻译第i个单词的概率;所述e表示zi的底数;zi表示第i个词的向量;所述C表示类别个数;所述j表示第j个单词;
根据所述翻译顺序,实现梯度回转。
如附图2所示本发明实施例中一种提高机器翻译准确度的装置的装置模块图,包括:
第一确定模块:用于在双语平行语料中确定源语料和目标语料;
第二确定模块:用于根据预设的关键语义要素抽取分类网络,获取所述目标语料中每个句子的关键语义,并确定所述关键语义在句子中的位置信息;
第一处理模块:用于根据所述位置信息,基于Encoder-decoder框架增加所述关键语义在句子中的权重;
第三确定模块:用于通过Encoder-decoder框架对增加权重后的所述目标语料和所述源语料进行训练,确定翻译模型。
本发明的原理在于:本发明通过第一确定模块、第二确定模块、第三确定模块和处理模块确定双语平行语料的源语料和目标语料,提取关键语义,根据关键语义构建关键语义要素抽取分类网络,从而确定关键语义在句子中的位置,通过Encoder-decoder框架增加关键语义在句子中的权重,增加权重之后,通过Encoder-decoder框架对增加权重之后的源语料和目标语料进行训练,得到最终翻译模型。
本发明的有益效果在于:通过对目标语料中的关键语义进行标记,并在训练中增加其权重,使得Decoder端在解码时更加关注该部分信息,降低了原文本中关键语义错翻、漏翻的概率,从而使得Decoder端更忠实于原文本的含义;关键语义的抽取本质上是句子本身信息的抽取,虽然关键语义要素抽取网络无法做到完成正确地抽取出句子中的关键语义,但抽取出的内容仍然是句子本身的语义,这样可以在一定程度上避免因外部资源引入而产生的一些错误判断。
作为本发明的一种实施例,所述第一确定模块包括:
第一获取单元:用于获取现有的双语平行语料数据,对所述双语平行语料数据中的句子进行断句分词处理,获取断句分词后的双语语料集;
第一转化单元:用于根据预设的文本转化规则,将所述语料集转化为双语语料文本;
第一确定单元:用于根据所述双语料文本的语义,确定所述双语语料文本中的关键语义和非关键语义;
第二确定单元:用于根据所述关键语义的权重,确定目标语料;
第三确定单元:通过所述关键语义和非关键语义和所述现有的双语平行语料数据匹配,确定源语料。
本发明的原理在于:本发明通过过第一获取单元和第一转化单元对现有的双语平行语料数据断句、分词处理,得到双语语料集。基于文本转化的规则,通过转化的语料文本在第一确定模块处理下得到关键语义和非关键语义,基于关键语义的权重和关键语义和非关键语义和所述现有的双语平行语料数据匹配结果,从而通过第二确定单元和第三确定单元得到目标语料和源语料。
本发明的有益效果在于:本发明通过第一获取单元和第一转化单元以分词、断句、文本转化等方式处理双语语料,再通过第一确定单元双语平行语料中的关键语义和非关键语义,进而确定目标语料和源语料。本发明获取目标语料和源语料的方式能够准确定位关键语义,进而确定目标语料,可以使得机器翻译时,能够正确翻译,减少错翻译和误翻译。
作为本发明的一种实施例,所述第二确定模块包括:
第四确定单元:用于获取现有的单语语料数据,对所述单语语料进行分类处理,确定分类处理后的单语语料文本;
第二获取单元:用于根据所述单语语料文本中的语义,确定所述单语语料文本的关键语义和非关键语义,并对所述关键语义和非关键语义分别进行标记,获取标记单语语料;
第一网络构建单元:用于将所述标记单语语料作为训练数据构建关键语义要素抽取网络;
第一处理单元:根据所述关键语义要素抽取网络,通过双向LSTM来建模所述单语语料文本的词语级的向量表示,然后利用所述向量表示进行所述关键语义和非关键语义的二分类训练,得到关键语义要素抽取分类网络。
本发明原理在于:本发明通过单语语料数据的分类处理,基于单语语料文本的关键语义和非关键语义,通过第一网络构建单元构建关键语义要素抽取网络,再通过第一处理单元的双向LSTM得到关键语义要素抽取分类网络。
本发明的有益效果在于:本发明通过单语语料得到关键语义要素抽取分类网络,因为单语语料和双语语料的关键语义具有相似性,根据相似性能够通过关键语义要素抽取分类网络训练双语语料,从而确定双语语料的目标语料,使得翻译的准确度增加。
作为本发明的一种实施例,所述处理模块包括:
第五确定单元:用于获取端到端的Encoder-decoder框架,通过所述Encoder-decoder框架读取源语料,确定所述源语料的源序列;
第二处理单元:用于通过所述Encoder-decoder框架中的encoder模块将所述源序列转成固定维度的第一向量表示,并输入到所述Encoder-decoder框架的encoder-decoderattention端;
第六确定单元:用于通过所述Encoder-decoder框架读取所述目标语料,确定所述目标语料的目标序列;
第三处理单元:用于通过所述Encoder-decoder框架的decoder模块将输入的所述目标序列转成固定维度的第二向量表示,并输入到所述encoder-decoder attention端,所述encoder-decoder attention端根据所述关键语义,确定所述关键语义在句子中的位置信息,并增加所述关键语义在句子中的权重。
本发明的原理在于:基于关键语义的位置信息,通过Encoder-decoder框架的decoder模块以端到端的方式,增加关键语义的权重。
本发明的有益效果在于:本发明通过增加双语语料中目标语料的权重,翻译时,关键语义更加清晰,从而翻译的准确度更高。
作为本发明的一种实施例,所述装置还包括:
第二处理模块:用于将所述增加权重的关键语义通过下式(1)进行Softmax计算,确定翻译顺序;
其中,所述S(z)i表示翻译第i个单词的概率;所述e表示zi的底数;zi表示第i个词的向量;所述C表示类别个数;所述j表示第j个单词;
根据所述翻译顺序,实现梯度回转。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种提高机器翻译准确度的方法,其特征在于,包括:
确定双语平行语料中的源语料和目标语料;
根据预设的关键语义要素抽取分类网络,获取所述目标语料中每个句子的关键语义,并确定所述关键语义在句子中的位置信息;
根据所述位置信息,基于Encoder-decoder框架增加所述关键语义在句子中的权重;
通过Encoder-decoder框架对增加权重后的目标语料和源语料进行训练,确定翻译模型。
2.根据权利要求1所述的一种提高机器翻译准确度的方法,其特征在于,所述确定双语平行语料中的源语料和目标语料,包括:
获取现有的双语平行语料数据,对所述现有的双语平行语料数据中的句子进行断句分词处理,获取断句分词后的双语语料集;
根据预设的文本转化规则,将所述双语语料集转化为双语语料文本;
根据所述双语料文本的语义,确定关键语义和非关键语义;
根据所述关键语义的权重,确定目标语料;
通过所述关键语义和非关键语义与所述现有的双语平行语料数据匹配,确定源语料。
3.根据权利要求1所述的一种提高机器翻译准确度的方法,其特征在于,所述根据预设的关键语义要素抽取分类网络,获取所述目标语料中每个句子的关键语义,并确定所述关键语义在句子中的位置信息之前,还包括:
获取现有的单语语料数据,对所述单语语料进行分类处理,确定分类处理后的单语语料文本;
根据所述单语语料文本中的语义,确定单语关键语义和单语非关键语义,并根据所述关键语义和非关键语义分别进行标记,获取标记单语语料;
将所述标记单语语料作为训练数据构建关键语义要素抽取网络;
根据所述关键语义要素抽取网络,通过双向LSTM来建模所述单语语料文本的词语级的向量表示,然后利用所述向量表示进行所述关键语义和非关键语义的二分类训练,得到关键语义要素抽取分类网络。
4.根据权利要求1所述的一种提高机器翻译准确度的方法,其特征在于,所述根据所述位置信息,基于Encoder-decoder框架增加所述关键语义在句子中的权重,包括:
获取端到端的Encoder-decoder框架,通过所述Encoder-decoder框架读取源语料,确定所述源语料的源序列;
通过所述Encoder-decoder框架中的encoder模块将所述源序列转成固定维度的第一向量表示,并输入到所述Encoder-decoder框架的encoder-decoder attention端;
通过所述Encoder-decoder框架读取所述目标语料,确定所述目标语料的目标序列;
经过所述Encoder-decoder框架的decoder模块将输入的所述目标序列转成固定维度的第二向量表示,并输入到所述encoder-decoder attention端,所述encoder-decoderattention端根据所述关键语义,确定所述关键语义在句子中的位置信息,并增加所述关键语义在句子中的权重。
6.一种提高机器翻译准确度的装置,其特征在于,包括:
第一确定模块:用于在双语平行语料中确定源语料和目标语料;
第二确定模块:用于根据预设的关键语义要素抽取分类网络,获取所述目标语料中每个句子的关键语义,并确定所述关键语义在句子中的位置信息;
处理模块:用于根据所述位置信息,基于Encoder-decoder框架增加所述关键语义在句子中的权重;
第三确定模块:用于通过Encoder-decoder框架对增加权重后的目标语料和所述源语料进行训练,确定翻译模型。
7.根据权利要求6所述的一种提高机器翻译准确度的装置,其特征在于,所述第一确定模块包括:
第一获取单元:用于获取现有的双语平行语料数据,对所述双语平行语料数据中的句子进行断句分词处理,获取断句分词后的双语语料集;
第一转化单元:用于根据预设的文本转化规则,将所述语料集转化为双语语料文本;
第一确定单元:用于根据所述双语料文本的语义,确定所述双语语料文本中的关键语义和非关键语义;
第二确定单元:用于根据所述关键语义的权重,确定目标语料;
第三确定单元:通过所述关键语义和非关键语义和所述现有的双语平行语料数据匹配,确定源语料。
8.根据权利要求6所述的一种提高机器翻译准确度的装置,其特征在于,所述第二确定模块包括:
第四确定单元:用于获取现有的单语语料数据,对所述单语语料进行分类处理,确定分类处理后的单语语料文本;
第二获取单元:用于根据所述单语语料文本中的语义,确定所述单语语料文本的关键语义和非关键语义,所述关键语义和非关键语义分别进行标记,获取标记单语语料;
第一网络构建单元:用于将所述标记单语语料作为训练数据构建关键语义要素抽取网络;
第一处理单元:根据所述关键语义要素抽取网络,通过双向LSTM来建模所述单语语料文本的词语级的向量表示,然后利用所述向量表示进行关键语义和非关键语义的二分类训练,得到关键语义要素抽取分类网络。
9.根据权利要求6所述的一种提高机器翻译准确度的装置,其特征在于,所述处理模块包括:
第五确定单元:用于获取端到端的Encoder-decoder框架,通过所述Encoder-decoder框架读取源语料,确定所述源语料的源序列;
第二处理单元:用于通过所述Encoder-decoder框架中的encoder模块将所述源序列转成固定维度的第一向量表示,并输入到所述Encoder-decoder框架的encoder-decoderattention端;
第六确定单元:用于通过所述Encoder-decoder框架读取所述目标语料,确定所述目标语料的目标序列;
第三处理单元:用于通过所述Encoder-decoder框架的decoder模块将输入的所述目标序列转成固定维度的第二向量表示,并输入到所述encoder-decoder attention端,所述encoder-decoder attention端根据所述关键语义,确定所述关键语义在句子中的位置信息,并增加所述关键语义在句子中的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010255766.XA CN111597827B (zh) | 2020-04-02 | 2020-04-02 | 一种提高机器翻译准确度的方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010255766.XA CN111597827B (zh) | 2020-04-02 | 2020-04-02 | 一种提高机器翻译准确度的方法及其装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111597827A true CN111597827A (zh) | 2020-08-28 |
CN111597827B CN111597827B (zh) | 2023-05-26 |
Family
ID=72190407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010255766.XA Active CN111597827B (zh) | 2020-04-02 | 2020-04-02 | 一种提高机器翻译准确度的方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111597827B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364668A (zh) * | 2020-11-10 | 2021-02-12 | 内蒙古工业大学 | 一种基于模型无关元学习策略及可微分神经机的蒙汉机器翻译方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018000272A1 (zh) * | 2016-06-29 | 2018-01-04 | 深圳狗尾草智能科技有限公司 | 一种语料生成装置和方法 |
CN110222350A (zh) * | 2019-06-28 | 2019-09-10 | 苏州大学 | 将双语预定义翻译对融入神经机器翻译模型的方法 |
CN110728154A (zh) * | 2019-08-28 | 2020-01-24 | 云知声智能科技股份有限公司 | 一种半监督式通用神经机器翻译模型的构建方法 |
-
2020
- 2020-04-02 CN CN202010255766.XA patent/CN111597827B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018000272A1 (zh) * | 2016-06-29 | 2018-01-04 | 深圳狗尾草智能科技有限公司 | 一种语料生成装置和方法 |
CN110222350A (zh) * | 2019-06-28 | 2019-09-10 | 苏州大学 | 将双语预定义翻译对融入神经机器翻译模型的方法 |
CN110728154A (zh) * | 2019-08-28 | 2020-01-24 | 云知声智能科技股份有限公司 | 一种半监督式通用神经机器翻译模型的构建方法 |
Non-Patent Citations (1)
Title |
---|
姚亮;洪宇;刘昊;刘乐;姚建民;: "基于语义分布相似度的翻译模型领域自适应研究" * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364668A (zh) * | 2020-11-10 | 2021-02-12 | 内蒙古工业大学 | 一种基于模型无关元学习策略及可微分神经机的蒙汉机器翻译方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111597827B (zh) | 2023-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489760A (zh) | 基于深度神经网络文本自动校对方法及装置 | |
JP5356197B2 (ja) | 単語意味関係抽出装置 | |
CN109992775B (zh) | 一种基于高级语义的文本摘要生成方法 | |
WO2009035863A2 (en) | Mining bilingual dictionaries from monolingual web pages | |
CN113268576B (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
CN114676255A (zh) | 文本处理方法、装置、设备、存储介质及计算机程序产品 | |
CN112926345A (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
CN114064901B (zh) | 一种基于知识图谱词义消歧的书评文本分类方法 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN111444704A (zh) | 基于深度神经网络的网络安全关键词抽取方法 | |
CN108959630A (zh) | 一种面向英文无结构文本的人物属性抽取方法 | |
CN111626042A (zh) | 指代消解方法及装置 | |
CN114564912A (zh) | 一种文档格式智能检查校正方法及系统 | |
CN110502759B (zh) | 融入分类词典的汉越混合网络神经机器翻译集外词处理方法 | |
CN113408307B (zh) | 一种基于翻译模板的神经机器翻译方法 | |
CN113297851A (zh) | 一种针对易混淆运动损伤实体词的识别方法 | |
CN111597827B (zh) | 一种提高机器翻译准确度的方法及其装置 | |
CN106776590A (zh) | 一种获取词条译文的方法及系统 | |
CN112989839A (zh) | 一种基于关键词特征嵌入语言模型的意图识别方法及系统 | |
CN114398492B (zh) | 一种在数字领域的知识图谱构建方法、终端及介质 | |
CN114528861A (zh) | 一种基于语料库的外语翻译训练方法及装置 | |
Amini et al. | Central Kurdish machine translation: First large scale parallel corpus and experiments | |
Round et al. | Automated parsing of interlinear glossed text from page images of grammatical descriptions | |
CN116522966B (zh) | 基于多语言词条的文本翻译方法及系统 | |
Gu | Computer Intelligent Proofreading System of Translation Model Based on Improved GLR Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |