CN110489765B - 机器翻译方法、装置及计算机可读存储介质 - Google Patents

机器翻译方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN110489765B
CN110489765B CN201910658774.6A CN201910658774A CN110489765B CN 110489765 B CN110489765 B CN 110489765B CN 201910658774 A CN201910658774 A CN 201910658774A CN 110489765 B CN110489765 B CN 110489765B
Authority
CN
China
Prior art keywords
word
training
machine translation
sentence
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910658774.6A
Other languages
English (en)
Other versions
CN110489765A (zh
Inventor
刘建华
石志娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910658774.6A priority Critical patent/CN110489765B/zh
Publication of CN110489765A publication Critical patent/CN110489765A/zh
Application granted granted Critical
Publication of CN110489765B publication Critical patent/CN110489765B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种人工智能技术,揭露了一种机器翻译方法,包括:获取包含中文语句和英语语句的语句集,对所述语句集进行分词处理,得到词语集,对所述中文语句和英语语句建立对应的标签,产生标签集;通过word2vec模型将所述词语集转化为词向量,将所述词向量作为训练集,并将所述训练集和所述标签集存入数据库中;利用所述训练集和标签集对构建的机器翻译模型进行训练;接收用户待翻译的语句,利用所述训练后的机器翻译模型对所述用户待翻译的语句进行机器翻译,输出翻译后的语句。本发明还提出一种机器翻译装置以及一种计算机可读存储介质。本发明实现了语句的精准翻译。

Description

机器翻译方法、装置及计算机可读存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于知识内容和智能模型的机器翻译方法、装置及计算机可读存储介质。
背景技术
机器翻译是通过计算机来实现不同自然语言之间的转换,也称为自动翻译,一般是指自然语言之间的部分句子或全文的翻译。它作为应用语言学的一个分支,是建立在语言学、数学和计算机科学基础上的跨学科研究。由于需要通过电脑数据库和翻译软件来完成操作,因此,机器翻译的发展与计算机科学、数学、人工智能、语言学等各学科的发展密不可分,可以说,机器翻译的推进需要这些学科的技术支撑和理论支持。现有机器翻译方法主要包括四种:语言学方法、转移法、基于知识的方法、语际法。现有的机器翻译方法主要存在如下缺陷:一是自然语言中普遍存在各种歧义、未知现象,以及层出不穷的新词热词。歧义;导致歧义有两个原因,一是自然语言中固有的歧义现象,包括词汇歧义和语法歧义;另一个是由于语言、文化间的差异产生的歧义。一个句子如果有以上问题,就可能表达两种或多种意思,容易给机器造成理解上的偏差和误解,造成译文与原文表达不同的意思。
发明内容
本发明提供一种机器翻译方法、装置及计算机可读存储介质,其主要目的在于当用户在进行语句翻译时,给用户呈现出精准的翻译结果。
为实现上述目的,本发明提供的一种机器翻译方法,包括:
获取包含中文语句和英语语句的语句集,对所述语句集进行分词处理,得到词语集,对所述中文语句和英语语句建立对应的标签,产生标签集;
通过word2vec模型将所述词语集转化为词向量,将所述词向量作为训练集,并将所述训练集和所述标签集存入数据库中;
通过所述训练集对预先构建的机器翻译模型进行训练,得到训练值,将所述训练值和所述标签集输入至所述机器翻译模型的损失函数中,得到损失函数值,当所述损失函数值小于预设的阈值时,所述机器翻译模型退出训练,完成所述机器翻译模型的训练;
接收用户待翻译的语句,利用训练好的所述机器翻译模型对所述用户待翻译的语句进行机器翻译,输出翻译后的语句。
可选地,所述分词处理包含中文语句分词处理以及英文语句分词处理;
其中,所述中文语句分词处理包括:
通过预设的规则将所述包含中文语句的语句集与词典中的词条进行匹配,得到所述包含中文语句的语句集的分词结果,并将所述分词结果用空格符号隔开;
所述英文语句分词处理包括:
当英语语句中含有大写字母的单词时,将所述大写字母的单词改写为小写字母的单词;
当英语语句的结尾符号为句号时,将句尾结束符与句尾单词用空格分开,并将所述英语语句以空格和其他间隔符号进行拆分;
当英语语句识别不可枚举的数据时,采用特殊名词代替所述不可枚举的数据的方式进行泛化处理。
可选地,所述通过word2vec模型将所述词语集转化为词向量,包括:
利用独热码算法对所述词语集进行量化,得到词汇表向量;
将所述词汇表向量输入至所述word2vec模型中,利用所述word2vec模型中的隐藏层对所述词汇表向量进行压缩处理,形成低维向量,得到所述词向量。
可选地,所述通过word2vec模型将所述词语集转化为词向量,在将所述词汇表向量输入至所述word2vec模型中,利用所述word2vec模型中的隐藏层对所述词汇表向量进行压缩处理,形成低维向量之后还包括:
从所述词语集中选取一个特征词,将所述特征词的上下文相关词的词向量输入至CBOW模型中,输出所述特征词的词向量;
将所述特征词的词向量输入至Skip-Gram模型中,输出所述特征词的上下文相关词的词向量。
可选地,所述机器翻译模型为LSTM模型,以及所述通过所述训练集对预先构建的机器翻译模型进行训练,得到训练值,包括:
根据所述LSTM模型的前向传播算法计算出所述训练集中细胞单元的训练值h,其中,所述前向传播算法公式如下所示:
ft=σ(Wxf+Whfht-1+Wcfct-1+bf);
it=σ(Wxi+Whiht-1+Wcict-1+bi);
ct=ftct-1+it tanh(WxcXt+Whcht-1+bc);
ot=σ(Wxo+Whoht-1+Wcoct-1+bo);
ht=σtanh(ct);
其中,i、f、c、o分别为所述LSTM模型的输入门、遗忘门、细胞状态、输出门的参数;
σ和tanh分别为sigmoid和双曲正切激活函数;
ft为遗忘门在t时刻的输出值,Wxf表示输入层到遗忘门的权重系数矩阵,Whfht-1表示输入层到遗忘门的权重系数矩阵与细胞单元在t-1时刻训练值乘积,Wcfct-1表示细胞状态到遗忘门的权重系数矩阵与细胞单元在t-1时刻的值乘积,bf表示遗忘门的偏置项;
it为输入门在t时刻的输出值,Wxi表示输入层到输入门的权重系数矩阵,Whiht-1表示所述细胞单元在t-1时刻训练值与输入层到输入门的权重系数矩阵乘积,Wcict-1表示细胞状态到输入门的权重系数矩阵与细胞单元在t-1时刻的值乘积,bi表示输入门的偏置项;
ct为细胞状态在t时刻的输出值,ftct-1表示输入门在t时刻的输出值与细胞状态在t-1时刻的输出值,WxcXt表示输入层到细胞状态的权重系数矩阵与输入层在t时刻的值乘积,Whcht-1表示输入层到细胞状态的权重系数矩阵与训练值在t-1时刻训练值乘积,bc表示细胞状态的偏置项;
ot为输出门在t时刻的输出值,Wxo表示输入层到输出门的权重系数矩阵,Whoht-1表示输入层到输入门的权重系数矩阵与细胞单元在t-1时刻训练值乘积,Wcoct-1表示细胞状态到输出门的权重系数矩阵与细胞单元在t-1时刻的值乘积,bo表示输出门的偏置项;
ht为训练值在t时刻的输出值。
此外,为实现上述目的,本发明还提供一种机器翻译装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的机器翻译程序,所述机器翻译程序被所述处理器执行时实现如下步骤:
获取包含中文语句和英语语句的语句集,对所述语句集进行分词处理,得到词语集,对所述中文语句和英语语句建立对应的标签,产生标签集;
通过word2vec模型将所述词语集转化为词向量,将所述词向量作为训练集,并将所述训练集和所述标签集存入数据库中;
通过所述训练集对预先构建的机器翻译模型进行训练,得到训练值,将所述训练值和所述标签集输入至所述机器翻译模型的损失函数中,得到损失函数值,当所述损失函数值小于预设的阈值时,所述机器翻译模型退出训练,完成所述机器翻译模型的训练;
接收用户待翻译的语句,利用训练好的所述机器翻译模型对所述用户待翻译的语句进行机器翻译,输出翻译后的语句。
可选地,所述分词处理包含中文语句分词处理以及英文语句分词处理;
其中,所述中文语句分词处理包括:
通过预设的规则将所述包含中文语句的语句集与词典中的词条进行匹配,得到所述包含中文语句的语句集的分词结果,并将所述分词结果用空格符号隔开;
所述英文语句分词处理包括:
当英语语句中含有大写字母的单词时,将所述大写字母的单词改写为小写字母的单词;
当英语语句的结尾符号为句号时,将句尾结束符与句尾单词用空格分开,并将所述英语语句以空格和其他间隔符号进行拆分;
当英语语句识别不可枚举的数据时,采用特殊名词代替所述不可枚举的数据的方式进行泛化处理。
可选地,所述通过word2vec模型将所述词语集转化为词向量,包括:
利用独热码算法对所述词语集进行量化,得到词汇表向量;
将所述词汇表向量输入至所述word2vec模型中,利用所述word2vec模型中的隐藏层对所述词汇表向量进行压缩处理,形成低维向量,所述低维向量即为所述词向量。
可选地,所述机器翻译模型为LSTM模型,以及所述通过所述训练集对预先构建的机器翻译模型进行训练,得到训练值,包括:
根据所述LSTM模型的前向传播算法计算出所述训练集中细胞单元的训练值h,其中,所述前向传播算法公式如下所示:
ft=σ(Wxf+Whfht-1+Wcfct-1+bf);
it=σ(Wxi+Whiht-1+Wcict-1+bi);
ct=ftct-1+it tanh(WxcXt+Whcht-1+bc);
ot=σ(Wxo+Whoht-1+Wcoct-1+bo);
ht=σtanh(ct);
其中,i、f、c、o分别为所述LSTM模型的输入门、遗忘门、细胞状态、输出门的参数;
σ和tanh分别为sigmoid和双曲正切激活函数;
ft为遗忘门在t时刻的输出值,Wxf表示输入层到遗忘门的权重系数矩阵,Whfht-1表示输入层到遗忘门的权重系数矩阵与细胞单元在t-1时刻训练值乘积,Wcfct-1表示细胞状态到遗忘门的权重系数矩阵与细胞单元在t-1时刻的值乘积,bf表示遗忘门的偏置项;
it为输入门在t时刻的输出值,Wxi表示输入层到输入门的权重系数矩阵,Whiht-1表示所述细胞单元在t-1时刻训练值与输入层到输入门的权重系数矩阵乘积,Wcict-1表示细胞状态到输入门的权重系数矩阵与细胞单元在t-1时刻的值乘积,bi表示输入门的偏置项;
ct为细胞状态在t时刻的输出值,ftct-1表示输入门在t时刻的输出值与细胞状态在t-1时刻的输出值,WxcXt表示输入层到细胞状态的权重系数矩阵与输入层在t时刻的值乘积,Whcht-1表示输入层到细胞状态的权重系数矩阵与训练值在t-1时刻训练值乘积,bc表示细胞状态的偏置项;
ot为输出门在t时刻的输出值,Wxo表示输入层到输出门的权重系数矩阵,Whoht-1表示输入层到输入门的权重系数矩阵与细胞单元在t-1时刻训练值乘积,Wcoct-1表示细胞状态到输出门的权重系数矩阵与细胞单元在t-1时刻的值乘积,bo表示输出门的偏置项;
ht为训练值在t时刻的输出值。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有机器翻译程序,所述机器翻译程序可被一个或者多个处理器执行,以实现如上所述的机器翻译方法的步骤。
本发明提出的机器翻译方法、装置及计算机可读存储介质,在用户进语句翻译时,对获取的语句集进行分析处理,得到所述语句集的训练样本集以及标签集,通过所述训练样本集和标签集完成对预先构架的机器翻译模型的训练,从而在接收用户待翻译的语句时,可以给所述用户呈现出精准的翻译结果。
附图说明
图1为本发明一实施例提供的机器翻译方法的流程示意图;
图2为本发明一实施例提供的机器翻译装置的内部结构示意图;
图3为本发明一实施例提供的机器翻译装置中机器翻译程序的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种机器翻译方法。参照图1所示,为本发明一实施例提供的机器翻译方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,机器翻译方法包括:
S1、获取包含中文语句和英语语句的语句集,对所述语句集进行分词处理,得到词语集,对所述中文语句集和英语语句集建立对应的标签,产生标签集。
本发明较佳实施例中,所述中文语句集通过中文网站搜索得到,所述英语语句通过英语网站搜索得到。
优选地,本发明通过专业中英翻译专家或专业中英翻译网站将所述中文语句集和英语语句集翻译成相对应国际标准的英语语句和中文语句,并建立标签集。本发明较佳实施例中所述标签集可以用于判断一个语句翻译是否标准。例如,给出一个英语语句为:International basketball match,翻译相对应国际标准的中文语句为:国际篮球比赛,于是,对所述翻译后的中文语句建立标签为标准的。
进一步地,本发明较佳实施例所述分词处理包含中文语句分词处理和英文语句分词处理,具体操作步骤如下所示:
a.中文语句分词处理:
中文语句由单个的汉字拼接而成,其中,所述中文语句中所有的单个汉字都是直接连接在一起的,没有对词语进行空间上的划分。本发明通过预设的规则将所述包含中文语句的语句集与词典中的词条进行匹配,得到所述包含中文语句的语句集的分词结果,并将所述分词结果用空格符号隔开。优选地,所述预设的规则为正向最大匹配法,所述正向最大匹配法的思想为从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词。
b.英语语句分词处理:
英语语句中的基本组成单位就是单词,单词之间由空格隔开,可以直接进行拆分。本发明较佳实施例将英语语句分词分为三种情况,具体的如下所示:
1.当英语语句中含有大写字母的单词时,将所述大写字母的单词改写为小写字母的单词;
2.当英语语句的结尾符号为句号时,将句尾结束符与句尾单词用空格分开,并将所述英语语句以空格和其他间隔符号,如逗号进行拆分;
3.当英语语句识别不可枚举的数据时,采用特殊名词代替所述不可枚举的数据的方式进行泛化处理。例如:I bougtht a book on March 10.其预处理结果为:I bought abook on$date.像数字这种可以任意组合的词都是不可枚举的,要使用统一的泛化名词例如:$number来进行代表处理。
S2、通过word2vec模型将所述词语集转化为词向量,将所述词向量作为训练集,并将所述训练集和所述标签集存入数据库中。
本发明较佳实施例利用独热码(one-hot)形式将所述词语集进行量化,得到词汇表向量,将所述词汇表向量输入至所述Word2vec模型中,利用所述word2vec模型中的隐藏层对所述词汇表向量进行压缩处理,形成低维向量。所述one-hot是将世界上所有的词语与一个向量中的元素对应。例如,当出现某个词语时,则在所述词语相应的位置设置为1,其他位置为0,于是所述词语集中词语都可以转化为向量表示,从而形成词汇表向量,优选地,本发明采用的数据库为Oracle数据库。
进一步地,所述word2vec模型应用最为广泛的两种转化模型为CBOW模型与Skip-Gram模型。详细地,本发明从所述词语集中选取一个特征词,将所述特征词的上下文相关词的词向量输入至CBOW模型中,输出所述特征词的词向量;从所述词语集中选取一个特征词,将所述特征词的词向量输入至Skip-Gram模型中,输出所述特征词的上下文相关词的词向量。优选地,本发明较佳实施例采用的为CBOW模型。例如给出一段英文语句为“…anefficient method for learning high quality distributed vector”,预设所述英文语句上下文大小取值为4,特征词是"Learning"。其中,所述上下文对应的词有8个,前后各4个,于是所述8个词的词向量即为所述CBOW模型的输入,所述特征词"Learning"即为所述CBOW模型的输出。
S3、通过所述训练集对预先构建的机器翻译模型进行训练,得到训练值,将所述训练值和所述标签集输入至所述机器翻译模型的损失函数中,得到损失函数值,当所述损失函数值小于预设的阈值时,退出训练,完成所述机器翻译模型的训练。
本发明较佳实施例中,所述机器翻译模型通过长短期记忆网络(Long Short-TermMemory,LSTM)进行构建。所述LSTM是一种时间递归神经网络,用于处理和预测时间序列中间隔和延迟相对较长的重要事件。所述LSTM区别于RNN的地方,主要在于所述LSTM在算法中加入了一个判断信息有用与否的“处理器”,所述处理器作用的结构被称为细胞单元(cell)。一个cell当中被放置了三扇门,分别叫做输入门、遗忘门和输出门。当一个信息进入LSTM的网络当中,可以根据规则来判断是否有用。只有符合算法认证的信息才会留下,不符的信息则通过遗忘门被遗忘。
进一步地,本发明根据所述LSTM模型的前向传播算法计算出所述训练集中细胞单元的训练值h,其中,所述前向传播算法公式如下所示:
ft=σ(Wxf+Whfht-1+Wcfct-1+bf);
it=σ(Wxi+Whiht-1+Wcict-1+bi);
ct=ftct-1+it tanh(WxcXt+Whcht-1+bc);
ot=σ(Wxo+Whoht-1+Wcoct-1+bo);
ht=σtanh(ct);
其中,i、f、c、o分别为所述LSTM模型的输入门、遗忘门、细胞状态、输出门的参数;
σ和tanh分别为sigmoid和双曲正切激活函数;
ft为遗忘门在t时刻的输出值,Wxf表示输入层到遗忘门的权重系数矩阵,Whfht-1表示输入层到遗忘门的权重系数矩阵与细胞单元在t-1时刻训练值乘积,Wcfct-1表示细胞状态到遗忘门的权重系数矩阵与细胞单元在t-1时刻的值乘积,bf表示遗忘门的偏置项;
it为输入门在t时刻的输出值,Wxi表示输入层到输入门的权重系数矩阵,Whiht-1表示所述细胞单元在t-1时刻训练值与输入层到输入门的权重系数矩阵乘积,Wcict-1表示细胞状态到输入门的权重系数矩阵与细胞单元在t-1时刻的值乘积,bi表示输入门的偏置项;
ct为细胞状态在t时刻的输出值,ftct-1表示输入门在t时刻的输出值与细胞状态在t-1时刻的输出值,WxcXt表示输入层到细胞状态的权重系数矩阵与输入层在t时刻的值乘积,Whcht-1表示输入层到细胞状态的权重系数矩阵与训练值在t-1时刻训练值乘积,bc表示细胞状态的偏置项;
ot为输出门在t时刻的输出值,Wxo表示输入层到输出门的权重系数矩阵,Whoht-1表示输入层到输入门的权重系数矩阵与细胞单元在t-1时刻训练值乘积,Wcoct-1表示细胞状态到输出门的权重系数矩阵与细胞单元在t-1时刻的值乘积,bo表示输出门的偏置项;
ht为训练值在t时刻的输出值。
进一步地,本发明通过构建损失函数计算出所述训练值与实际结果的差值。优选地,本发明采用均方误差作为损失函数,所述损失函数计算公式如下所示:
其中,loss为损失函数值,pi为所述LSTM模型中第i个细胞单元的输出的训练值,yi为所述标签集中预设的实际值,L(m-L)表示细胞单元的维度,本发明预设的阈值为0.01。
进一步地,本发明较佳实施例通过随机梯度下降算法对所述LSTM模型的参数进行不断的更新,从而不断进行优化所述LSTM模型。所述随机梯度下降算法是神经网络模型训练最常用的优化算法。优选地根据目标函数J(θ)关于参数w的梯度将是所述目标函数上升最快的方向的原理,本发明对于最小化优化问题将参数沿着梯度相反的方向前进一个步长,实现目标函数的下降。其中,所述步长又称为学习速率α。于是,获取最终的LSTM神经网络参数,从而得到获取LSTM模型进行产量预测的所有参数i、f、c、o。所述参数更新公式为:
S4、接收用户待翻译的语句,利用所述训练好的LSTM模型对所述用户待翻译的语句进行机器翻译,输出翻译后的语句。
发明还提供一种机器翻译装置。参照图2所示,为本发明一实施例提供的机器翻译装置的内部结构示意图。
在本实施例中,所述机器翻译装置1可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。该机器翻译装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是机器翻译装置1的内部存储单元,例如该机器翻译装置1的硬盘。存储器11在另一些实施例中也可以是机器翻译装置1的外部存储设备,例如机器翻译装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括机器翻译装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于机器翻译装置1的应用软件及各类数据,例如机器翻译程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行机器翻译程序01等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置1与其他电子设备之间建立通信连接。
可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在机器翻译装置1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-14以及机器翻译程序01的机器翻译装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对机器翻译装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,存储器11中存储有机器翻译程序01;处理器12执行存储器11中存储的机器翻译程序01时实现如下步骤:
步骤一、获取包含中文语句和英语语句的语句集,对所述语句集进行分词处理,得到词语集,对所述中文语句集和英语语句集建立对应的标签,产生标签集。
本发明较佳实施例中,所述中文语句集通过中文网站搜索得到,所述英语语句通过英语网站搜索得到。
优选地,本发明通过专业中英翻译专家或专业中英翻译网站将所述中文语句集和英语语句集翻译成相对应国际标准的英语语句和中文语句,并建立标签集。本发明较佳实施例中所述标签集可以用于判断一个语句翻译是否标准。例如,给出一个英语语句为:International basketball match,翻译相对应国际标准的中文语句为:国际篮球比赛,于是,对所述翻译后的中文语句建立标签为标准的。
进一步地,本发明较佳实施例所述分词处理包含中文语句分词处理和英文语句分词处理,具体操作步骤如下所示:
a.中文语句分词处理:
中文语句由单个的汉字拼接而成,其中,所述中文语句中所有的单个汉字都是直接连接在一起的,没有对词语进行空间上的划分。本发明通过预设的规则将所述包含中文语句的语句集与词典中的词条进行匹配,得到所述包含中文语句的语句集的分词结果,并将所述分词结果用空格符号隔开。优选地,所述预设的规则为正向最大匹配法,所述正向最大匹配法的思想为从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词。
b.英语语句分词处理:
英语语句中的基本组成单位就是单词,单词之间由空格隔开,可以直接进行拆分。本发明较佳实施例将英语语句分词分为三种情况,具体的如下所示:
1.当英语语句中含有大写字母的单词时,将所述大写字母的单词改写为小写字母的单词;
2.当英语语句的结尾符号为句号时,将句尾结束符与句尾单词用空格分开,并将所述英语语句以空格和其他间隔符号,如逗号进行拆分;
3.当英语语句识别不可枚举的数据时,采用特殊名词代替所述不可枚举的数据的方式进行泛化处理。例如:I bougtht a book on March 10.其预处理结果为:I bought abook on$date.像数字这种可以任意组合的词都是不可枚举的,要使用统一的泛化名词例如:$number来进行代表处理。
步骤二、通过word2vec模型将所述词语集转化为词向量,将所述词向量作为训练集,并将所述训练集和所述标签集存入数据库中。
本发明较佳实施例利用独热码(one-hot)形式将所述词语集进行量化,得到词汇表向量,将所述词汇表向量输入至所述Word2vec模型中,利用所述word2vec模型中的隐藏层对所述词汇表向量进行压缩处理,形成低维向量。所述one-hot是将世界上所有的词语与一个向量中的元素对应。例如,当出现某个词语时,则在所述词语相应的位置设置为1,其他位置为0,于是所述词语集中词语都可以转化为向量表示,从而形成词汇表向量,优选地,本发明采用的数据库为Oracle数据库。
进一步地,所述word2vec模型应用最为广泛的两种转化模型为CBOW模型与Skip-Gram模型。详细地,本发明从所述词语集中选取一个特征词,将所述特征词的上下文相关词的词向量输入至CBOW模型中,输出所述特征词的词向量;从所述词语集中选取一个特征词,将所述特征词的词向量输入至Skip-Gram模型中,输出所述特征词的上下文相关词的词向量。优选地,本发明较佳实施例采用的为CBOW模型。例如给出一段英文语句为“…anefficient method for learning high quality distributed vector”,预设所述英文语句上下文大小取值为4,特征词是"Learning"。其中,所述上下文对应的词有8个,前后各4个,于是所述8个词的词向量即为所述CBOW模型的输入,所述特征词"Learning"即为所述CBOW模型的输出。
步骤三、通过所述训练集对预先构建的机器翻译模型进行训练,得到训练值,将所述训练值和所述标签集输入至所述机器翻译模型的损失函数中,得到损失函数值,当所述损失函数值小于预设的阈值时,退出训练,完成所述机器翻译模型的训练。
本发明较佳实施例中,所述机器翻译模型通过长短期记忆网络(Long Short-TermMemory,LSTM)进行构建。所述LSTM是一种时间递归神经网络,用于处理和预测时间序列中间隔和延迟相对较长的重要事件。所述LSTM区别于RNN的地方,主要在于所述LSTM在算法中加入了一个判断信息有用与否的“处理器”,所述处理器作用的结构被称为细胞单元(cell)。一个cell当中被放置了三扇门,分别叫做输入门、遗忘门和输出门。当一个信息进入LSTM的网络当中,可以根据规则来判断是否有用。只有符合算法认证的信息才会留下,不符的信息则通过遗忘门被遗忘。
进一步地,本发明根据所述LSTM模型的前向传播算法计算出所述训练集中细胞单元的训练值h,其中,所述前向传播算法公式如下所示:
ft=σ(Wxf+Whfht-1+Wcfct-1+bf);
it=σ(Wxi+Whiht-1+Wcict-1+bi);
ct=ftct-1+it tanh(WxcXt+Whcht-1+bc);
ot=σ(Wxo+Whoht-1+Wcoct-1+bo);
ht=σtanh(ct);
其中,i、f、c、o分别为所述LSTM模型的输入门、遗忘门、细胞状态、输出门的参数;
σ和tanh分别为sigmoid和双曲正切激活函数;
ft为遗忘门在t时刻的输出值,Wxf表示输入层到遗忘门的权重系数矩阵,Whfht-1表示输入层到遗忘门的权重系数矩阵与细胞单元在t-1时刻训练值乘积,Wcfct-1表示细胞状态到遗忘门的权重系数矩阵与细胞单元在t-1时刻的值乘积,bf表示遗忘门的偏置项;
it为输入门在t时刻的输出值,Wxi表示输入层到输入门的权重系数矩阵,Whiht-1表示所述细胞单元在t-1时刻训练值与输入层到输入门的权重系数矩阵乘积,Wcict-1表示细胞状态到输入门的权重系数矩阵与细胞单元在t-1时刻的值乘积,bi表示输入门的偏置项;
ct为细胞状态在t时刻的输出值,ftct-1表示输入门在t时刻的输出值与细胞状态在t-1时刻的输出值,WxcXt表示输入层到细胞状态的权重系数矩阵与输入层在t时刻的值乘积,Whcht-1表示输入层到细胞状态的权重系数矩阵与训练值在t-1时刻训练值乘积,bc表示细胞状态的偏置项;
ot为输出门在t时刻的输出值,Wxo表示输入层到输出门的权重系数矩阵,Whoht-1表示输入层到输入门的权重系数矩阵与细胞单元在t-1时刻训练值乘积,Wcoct-1表示细胞状态到输出门的权重系数矩阵与细胞单元在t-1时刻的值乘积,bo表示输出门的偏置项;
ht为训练值在t时刻的输出值。
进一步地,本发明通过构建损失函数计算出所述训练值与实际结果的差值。优选地,本发明采用均方误差作为损失函数,所述损失函数计算公式如下所示:
其中,loss为损失函数值,pi为所述LSTM模型中第i个细胞单元的输出的训练值,yi为所述标签集中预设的实际值,L(m-L)表示细胞单元的维度,本发明预设的阈值为0.01。
进一步地,本发明较佳实施例通过随机梯度下降算法对所述LSTM模型的参数进行不断的更新,从而不断进行优化所述LSTM模型。所述随机梯度下降算法是神经网络模型训练最常用的优化算法。优选地根据目标函数J(θ)关于参数w的梯度将是所述目标函数上升最快的方向的原理,本发明对于最小化优化问题将参数沿着梯度相反的方向前进一个步长,实现目标函数的下降。其中,所述步长又称为学习速率α。于是,获取最终的LSTM神经网络参数,从而得到获取LSTM模型进行产量预测的所有参数i、f、c、o。所述参数更新公式为:
步骤四、接收用户待翻译的语句,利用所述训练好的LSTM模型对所述用户待翻译的语句进行机器翻译,输出翻译后的语句。
可选地,在其他实施例中,机器翻译程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述机器翻译程序在机器翻译装置中的执行过程。
例如,参照图3所示,为本发明机器翻译装置一实施例中的机器翻译程序的程序模块示意图,该实施例中,所述机器翻译程序可以被分割为语句预处理模块10、转化模块20、模型训练模块30以及翻译模块40,示例性地:
所述语句预处理模块10用于:获取包含中文语句和英语语句的语句集,对所述语句集进行分词处理,得到词语集,对所述中文语句和英语语句建立对应的标签,产生标签集。
所述转化模块20用于:通过word2vec模型将所述词语集转化为词向量,将所述词向量作为训练集,并将所述训练集和所述标签集存入数据库中。
所述模型训练模块30用于:通过所述训练集对预先构建的机器翻译模型进行训练,得到训练值,将所述训练值和所述标签集输入至所述机器翻译模型的损失函数中,得到损失函数值,当所述损失函数值小于预设的阈值时,所述机器翻译模型退出训练,完成所述机器翻译模型的训练。
所述搜索模块40用于:接收用户待翻译的语句,利用所述训练好的机器翻译模型对所述用户待翻译的语句进行机器翻译,输出翻译后的语句。
上述语句预处理模块10、转化模块20、模型训练模块30以及翻译模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有机器翻译程序,所述机器翻译程序可被一个或多个处理器执行,以实现如下操作:
获取包含中文语句和英语语句的语句集,对所述语句集进行分词处理,得到词语集,对所述中文语句和英语语句建立对应的标签,产生标签集;
通过word2vec模型将所述词语集转化为词向量,将所述词向量作为训练集,并将所述训练集和所述标签集存入数据库中;
通过所述训练集对预先构建的机器翻译模型进行训练,得到训练值,将所述训练值和所述标签集输入至所述机器翻译模型的损失函数中,得到损失函数值,当所述损失函数值小于预设的阈值时,所述机器翻译模型退出训练,完成所述机器翻译模型的训练;
接收用户待翻译的语句,利用所述训练好的机器翻译模型对所述用户待翻译的语句进行机器翻译,输出翻译后的语句。
本发明计算机可读存储介质具体实施方式与上述机器翻译装置和方法各实施例基本相同,在此不作累述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (4)

1.一种机器翻译方法,其特征在于,所述方法包括:
获取包含中文语句和英语语句的语句集,对所述语句集进行分词处理,得到词语集,对所述中文语句和英语语句建立对应的标签,产生标签集;
通过word2vec模型将所述词语集转化为词向量,将所述词向量作为训练集,并将所述训练集和所述标签集存入数据库中;
通过所述训练集对预先构建的机器翻译模型进行训练,得到训练值,将所述训练值和所述标签集输入至所述机器翻译模型的损失函数中,得到损失函数值,当所述损失函数值小于预设的阈值时,所述机器翻译模型退出训练,完成所述机器翻译模型的训练;
接收用户待翻译的语句,利用训练好的所述机器翻译模型对所述用户待翻译的语句进行机器翻译,输出翻译后的语句;
所述分词处理包含中文语句分词处理以及英文语句分词处理;
其中,所述中文语句分词处理包括:通过预设的规则将所述包含中文语句的语句集与词典中的词条进行匹配,得到所述包含中文语句的语句集的分词结果,并将所述分词结果用空格符号隔开;
所述英文语句分词处理包括:当英语语句中含有大写字母的单词时,将所述大写字母的单词改写为小写字母的单词;当英语语句的结尾符号为句号时,将句尾结束符与句尾单词用空格分开,并将所述英语语句以空格和其他间隔符号进行拆分;当英语语句识别不可枚举的数据时,采用特殊名词代替所述不可枚举的数据的方式进行泛化处理;
所述通过word2vec模型将所述词语集转化为词向量,包括:利用独热码算法对所述词语集进行量化,得到词汇表向量;将所述词汇表向量输入至所述word2vec模型中,利用所述word2vec模型中的隐藏层对所述词汇表向量进行压缩处理,形成低维向量,得到所述词向量;
所述通过word2vec模型将所述词语集转化为词向量时,在将所述词汇表向量输入至所述word2vec模型中,利用所述word2vec模型中的隐藏层对所述词汇表向量进行压缩处理,形成低维向量之后还包括:从所述词语集中选取一个特征词,将所述特征词的上下文相关词的词向量输入至CBOW模型中,输出所述特征词的词向量;将所述特征词的词向量输入至Skip-Gram模型中,输出所述特征词的上下文相关词的词向量。
2.如权利要求1所述的机器翻译方法,其特征在于,所述机器翻译模型为LSTM模型,以及所述通过所述训练集对预先构建的机器翻译模型进行训练,得到训练值,包括:
根据所述LSTM模型的前向传播算法计算出所述训练集中细胞单元的训练值h,其中,所述前向传播算法公式如下所示:
ft=σ(Wxf+Whfht-1+Wcfct-1+bf);
it=σ(Wxi+Whiht-1+Wcict-1+bi);
ct=ftct-1+it tanh(WxcXt+Whcht-1+bc);
ot=σ(Wxo+Whoht-1+Wcoct-1+bo);
ht=σtanh(ct);
其中,i、f、c、o分别为所述LSTM模型的输入门、遗忘门、细胞状态、输出门的参数;
σ和tanh分别为sigmoid和双曲正切激活函数;
ft为遗忘门在t时刻的输出值,Wxf表示输入层到遗忘门的权重系数矩阵,Whfht-1表示输入层到遗忘门的权重系数矩阵与细胞单元在t-1时刻训练值的乘积,Wcfct-1表示细胞状态到遗忘门的权重系数矩阵与细胞单元在t-1时刻的值的乘积,bf表示遗忘门的偏置项;
it为输入门在t时刻的输出值,Wxi表示输入层到输入门的权重系数矩阵,Whiht-1表示所述细胞单元在t-1时刻训练值与输入层到输入门的权重系数矩阵的乘积,Wcict-1表示细胞状态到输入门的权重系数矩阵与细胞单元在t-1时刻的值的乘积,bi表示输入门的偏置项;
ct为细胞状态在t时刻的输出值,ftct-1表示输入门在t时刻的输出值与细胞状态在t-1时刻的输出值的乘积,WxcXt表示输入层到细胞状态的权重系数矩阵与输入层在t时刻的值的乘积,Whcht-1表示输入层到细胞状态的权重系数矩阵与训练值在t-1时刻训练值的乘积,bc表示细胞状态的偏置项;
ot为输出门在t时刻的输出值,Wxo表示输入层到输出门的权重系数矩阵,Whoht-1表示输入层到输入门的权重系数矩阵与细胞单元在t-1时刻训练值的乘积,Wcoct-1表示细胞状态到输出门的权重系数矩阵与细胞单元在t-1时刻的值的乘积,bo表示输出门的偏置项;
ht为训练值在t时刻的输出值。
3.一种机器翻译装置,用于实现如权利要求1至2中任一项所述的机器翻译方法,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的机器翻译程序,所述机器翻译程序被所述处理器执行时实现如下步骤:
获取包含中文语句和英语语句的语句集,对所述语句集进行分词处理,得到词语集,对所述中文语句和英语语句建立对应的标签,产生标签集;
通过word2vec模型将所述词语集转化为词向量,将所述词向量作为训练集,并将所述训练集和所述标签集存入数据库中;
通过所述训练集对预先构建的机器翻译模型进行训练,得到训练值,将所述训练值和所述标签集输入至所述机器翻译模型的损失函数中,得到损失函数值,当所述损失函数值小于预设的阈值时,所述机器翻译模型退出训练,完成所述机器翻译模型的训练;
接收用户待翻译的语句,利用训练好的所述机器翻译模型对所述用户待翻译的语句进行机器翻译,输出翻译后的语句。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有机器翻译程序,所述机器翻译程序可被一个或者多个处理器执行,以实现如权利要求1至2中任一项所述的机器翻译方法的步骤。
CN201910658774.6A 2019-07-19 2019-07-19 机器翻译方法、装置及计算机可读存储介质 Active CN110489765B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910658774.6A CN110489765B (zh) 2019-07-19 2019-07-19 机器翻译方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910658774.6A CN110489765B (zh) 2019-07-19 2019-07-19 机器翻译方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110489765A CN110489765A (zh) 2019-11-22
CN110489765B true CN110489765B (zh) 2024-05-10

Family

ID=68547531

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910658774.6A Active CN110489765B (zh) 2019-07-19 2019-07-19 机器翻译方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110489765B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110727633A (zh) * 2019-09-17 2020-01-24 广东高云半导体科技股份有限公司 基于SoC FPGA的边缘人工智能计算系统构架
CN112836523B (zh) * 2019-11-22 2022-12-30 上海流利说信息技术有限公司 一种单词翻译方法、装置、设备和一种可读存储介质
CN111767390A (zh) * 2020-06-28 2020-10-13 北京百度网讯科技有限公司 技能词评估方法及装置、电子设备、计算机可读介质
CN112949282A (zh) * 2021-02-26 2021-06-11 中国联合网络通信集团有限公司 配置文件检查方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440252A (zh) * 2013-07-25 2013-12-11 北京师范大学 一种中文句子中并列信息提取方法及装置
CN105868184A (zh) * 2016-05-10 2016-08-17 大连理工大学 一种基于循环神经网络的中文人名识别方法
CN106776713A (zh) * 2016-11-03 2017-05-31 中山大学 一种基于词向量语义分析的海量短文本聚类方法
CN106844350A (zh) * 2017-02-15 2017-06-13 广州索答信息科技有限公司 一种短文本语义相似度的计算方法
CN106980683A (zh) * 2017-03-30 2017-07-25 中国科学技术大学苏州研究院 基于深度学习的博客文本摘要生成方法
CN109359294A (zh) * 2018-09-18 2019-02-19 湖北文理学院 一种基于神经机器翻译的古汉语翻译方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440252A (zh) * 2013-07-25 2013-12-11 北京师范大学 一种中文句子中并列信息提取方法及装置
CN105868184A (zh) * 2016-05-10 2016-08-17 大连理工大学 一种基于循环神经网络的中文人名识别方法
CN106776713A (zh) * 2016-11-03 2017-05-31 中山大学 一种基于词向量语义分析的海量短文本聚类方法
CN106844350A (zh) * 2017-02-15 2017-06-13 广州索答信息科技有限公司 一种短文本语义相似度的计算方法
CN106980683A (zh) * 2017-03-30 2017-07-25 中国科学技术大学苏州研究院 基于深度学习的博客文本摘要生成方法
CN109359294A (zh) * 2018-09-18 2019-02-19 湖北文理学院 一种基于神经机器翻译的古汉语翻译方法

Also Published As

Publication number Publication date
CN110489765A (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
CN110489765B (zh) 机器翻译方法、装置及计算机可读存储介质
US11501182B2 (en) Method and apparatus for generating model
CN110688854B (zh) 命名实体识别方法、装置及计算机可读存储介质
CN111951805A (zh) 一种文本数据处理方法及装置
JP6720764B2 (ja) テキスト解析装置及びプログラム
TWI567569B (zh) Natural language processing systems, natural language processing methods, and natural language processing programs
US11170169B2 (en) System and method for language-independent contextual embedding
US10963647B2 (en) Predicting probability of occurrence of a string using sequence of vectors
CN114595327A (zh) 数据增强方法和装置、电子设备、存储介质
Xu et al. Sentence segmentation for classical Chinese based on LSTM with radical embedding
CN111597807B (zh) 分词数据集生成方法、装置、设备及其存储介质
CN116258137A (zh) 文本纠错方法、装置、设备和存储介质
CN114358201A (zh) 基于文本的情感分类方法和装置、计算机设备、存储介质
CN112000778A (zh) 一种基于语义识别的自然语言处理方法、装置和系统
CN116561538A (zh) 问答评分方法、问答评分装置、电子设备及存储介质
EP4170542A2 (en) Method for sample augmentation
CN117271736A (zh) 一种问答对的生成方法和系统、电子设备及存储介质
CN115169361A (zh) 一种情感分析方法及其相关设备
CN114492661A (zh) 文本数据分类方法和装置、计算机设备、存储介质
CN108875024B (zh) 文本分类方法、系统、可读存储介质及电子设备
CN113221553A (zh) 一种文本处理方法、装置、设备以及可读存储介质
CN114613462A (zh) 医疗数据处理方法和装置、电子设备及存储介质
CN111723583B (zh) 基于意图角色的语句处理方法、装置、设备及存储介质
CN113807089A (zh) 文本数据的处理方法、神经网络的训练方法以及相关设备
Gupta et al. A TENGRAM method based part-of-speech tagging of multi-category words in Hindi language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant