CN105279552A - 一种基于字的神经网络的训练方法和装置 - Google Patents

一种基于字的神经网络的训练方法和装置 Download PDF

Info

Publication number
CN105279552A
CN105279552A CN201410273269.7A CN201410273269A CN105279552A CN 105279552 A CN105279552 A CN 105279552A CN 201410273269 A CN201410273269 A CN 201410273269A CN 105279552 A CN105279552 A CN 105279552A
Authority
CN
China
Prior art keywords
word
vector
training
word vector
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410273269.7A
Other languages
English (en)
Other versions
CN105279552B (zh
Inventor
王东
游世学
刘荣
乔亚飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING ZHONGKE HUILIAN INFORMATION TECHNOLOGY Co Ltd
Tsinghua University
Original Assignee
BEIJING ZHONGKE HUILIAN INFORMATION TECHNOLOGY Co Ltd
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING ZHONGKE HUILIAN INFORMATION TECHNOLOGY Co Ltd, Tsinghua University filed Critical BEIJING ZHONGKE HUILIAN INFORMATION TECHNOLOGY Co Ltd
Priority to CN201410273269.7A priority Critical patent/CN105279552B/zh
Publication of CN105279552A publication Critical patent/CN105279552A/zh
Application granted granted Critical
Publication of CN105279552B publication Critical patent/CN105279552B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本申请提供了一种基于字的神经网络的训练方法和装置,包括:将每个训练语句按字获取每个字的字向量;将所述字向量作为第一神经网络的参数输入到所述第一神经网络中进行预训练,获得预训练结果,其中,所述结果包括字向量的上文特征向量和字向量下文的特征向量;将所述字向量的上文特征向量和字向量下文的特征向量作为第二神经网络的参数输入到所述第二神经网络中,训练所述第二神经网络。因此本申请解决了基于词的神经网络语言模型中训练效率低的问题。

Description

一种基于字的神经网络的训练方法和装置
技术领域
本申请涉及自然语言处理领域,特别是涉及一种基于字的神经网络的训练方法和装置。
背景技术
在自然语言处理和语音识别等领域,语言模型用于描述语言内部的词语搭配关系。一个高质量的语言模型对连续语音识别和机器翻译等都具有重要意义。
当前主流的语言模型是基于概率的统计语言模型(n-gram),该统计语言模型显著缺陷是:对于新词或者低频词难以得到有效的概率统计。基于此人们发明了各种平滑算法,如discount,back-off,interpolation等。上述方法在一定程度上改善了n-gram在低频词上的性能,但是由于统计语言模型本身的缺陷,始终无法从根本上解决。
为了解决统计语言模型中存在的问题,提出了基于词的神经网络语言模型统计低频词的概率。目前基于词的神经网络语言模型存在以下缺陷:
1、现有的汉字可以组成数以万计的词表,基于词的神经网络模型需要对组成的数以万计的词表进行训练,导致神经网络语言模型训练时间长,训练效率低。当词表增大到超过10万以上时,训练时间变得难以接受。
2、中文是动态语言,新词不断涌现。目前基于词的神经网络语言模型无法处理这些新词,同时不断增加的新词使得神经网络语言模型的训练越来越复杂,即使要重新训练神经网络语言模型也极为困难。
因此,基于词的神经网络语言模型中存在训练时间长,进而导致训练效率低的问题。
发明内容
本申请提供一种基于字的神经网络的训练方法和装置,以解决基于词的神经网络语言模型中训练效率低的问题。
为了解决上述问题,本申请公开了一种基于字的神经网络的训练方法,包括:将每个训练语句按字获取每个字的字向量;
将所述字向量作为第一神经网络的参数输入到所述第一神经网络中进行预训练,获得预训练结果,其中,所述结果包括字向量的上文特征向量和字向量下文的特征向量;
将所述字向量的上文特征向量和字向量下文的特征向量作为第二神经网络的参数输入到所述第二神经网络中,训练所述第二神经网络。
优选地,所述第一神经网络包括输入层、隐藏层和输出层。
优选地,所述将所述字向量作为第一神经网络的参数输入到所述第一神经网络中进行预训练,获得预训练结果的步骤包括:
为训练语句中每个字随机分配字向量;
输入层接收训练语句中每个字随机分配字向量,所述输入层将接收的每个字的字向量投影到映射层,得到投影后的每个字向量;
计算投影后的每个字向量在字的历史子串中出现的概率,将所述概率作为输出层的预训练结果,所述结果包括字向量的上文特征向量和字向量下文的特征向量。
优选地,通过以下公式计算投影后的每个字向量在字的历史子串中出现的概率:
1 T Σ t = 1 T Σ - c ≤ j ≤ c , j ≠ 0 log p ( e t + j | e t )
其中,T为训练语句的长度,c为上下文窗长,p(et+j|et)为字向量在字的历史子串中出现的概率,p(et+j|et)通过以下公式获得:
p ( e t + j | e t ) = exp ( c e t + j c e t ) Σ e exp ( c e c e t )
其中,ce为训练语句的字向量。
优选地,所述第二神经网络包括输入层、映射层、隐藏层和输出层;
所述第二神经网络的输入层接收第一神经网络的输出层输出的字向量的上文特征向量和字向量下文的特征向量;
所述第二神经网络的所述输入层将接收的字向量的上文特征向量和字向量下文的特征向量进行线性变换投影,将投影后的字向量的上文特征向量和字向量下文的特征向量首尾相接,将拼接后的结果作为所述第二神经网络的映射层的输入;
将映射层的输入进行线性变换和第一非线性激活函数处理后得到所述第二神经网络的隐藏层的输入;
将所述第二神经网络的隐藏层的输入进行线性变换和第二非线性激活函数处理后得到所述第二神经网络的输出层的输出结果,所述输出结果包括字向量在字的历史子串中的概率。
为了解决上述问题,本申请还公开了一种基于字的神经网络的训练装置,包括:获取模块,用于将每个训练语句按字获取每个字的字向量;
预训练模块,用于将所述字向量作为第一神经网络的参数输入到所述第一神经网络中进行预训练,获得预训练结果,其中,所述结果包括字向量的上文特征向量和字向量下文的特征向量;
训练模块,用于将所述字向量的上文特征向量和字向量下文的特征向量作为第二神经网络的参数输入到所述第二神经网络中,训练所述第二神经网络。
优选地,所述第一神经网络包括输入层、隐藏层和输出层。
优选地,所述预训练模块包括:
分配模块,用于为训练语句中每个字随机分配字向量;
投影模块,用于输入层接收训练语句中每个字随机分配字向量,所述输入层将接收的每个字的字向量投影到映射层,得到投影后的每个字向量;
计算模块,用于计算投影后的每个字向量在字的历史子串中出现的概率,将所述概率作为输出层的预训练结果,所述结果包括字向量的上文特征向量和字向量下文的特征向量。
优选地,所述计算模块通过以下公式计算投影后的每个字向量在字的历史子串中出现的概率:
1 T Σ t = 1 T Σ - c ≤ j ≤ c , j ≠ 0 log p ( e t + j | e t )
其中,T为训练语句的长度,c为上下文窗长,p(et+j|et)为字向量在字的历史子串中出现的概率,p(et+j|et)通过以下公式获得:
p ( e t + j | e t ) = exp ( c e t + j c e t ) Σ e exp ( c e c e t )
其中,ce为训练语句的字向量。
优选地,所述第二神经网络包括输入层、映射层、隐藏层和输出层;
所述第二神经网络的输入层接收第一神经网络的输出层输出的字向量的上文特征向量和字向量下文的特征向量;
所述第二神经网络的所述输入层将接收的字向量的上文特征向量和字向量下文的特征向量进行线性变换投影,将投影后的字向量的上文特征向量和字向量下文的特征向量首尾相接,将拼接后的结果作为所述第二神经网络的映射层的输入;
将映射层的输入进行线性变换和第一非线性激活函数处理后得到所述第二神经网络的隐藏层的输入;
将所述第二神经网络的隐藏层的输入进行线性变换和第二非线性激活函数处理后得到所述第二神经网络的输出层的输出结果,所述输出结果包括字向量在字的历史子串中的概率。
与现有技术相比,本申请包括以下优点:
首先,本申请将每个训练语句按字获取每个字的字向量,将获取的字向量通过第一神经网络进行预训练,获得预训练结果,其中,预训练结果包括字向量的上文特征向量和字向量下文的特征向量。将所述字向量的上文特征向量和字向量下文的特征向量作为第二神经网络的参数输入,训练第二神经网络。由于汉语中汉字的数量是固定的,常用的汉字数量大约在6千左右,远远小于词语的数量,因此可以降低神经网络的复杂度,提高了语言模型的训练效率。同时,对于不断涌现的新词,可以通过将新词按字拆分成字串,因此无需对出现的新词进行重新训练语言模型,从而提高了语言模型的训练效率。
其次,本申请将获取的每个字向量通过第一神经网络进行预训练,获得了每个字向量在上下文中的特征向量,然后将获得的特征向量在通过第二神经网络进行训练,由于获取的字向量通过第一神经网络和第二神经网络的双重处理,有效降低了汉字多义出现的概率,从而解决了汉字本身具有多义性的问题。
附图说明
图1是本申请实施例一中的一种基于字的神经网络的训练方法的流程图;
图2是本申请实施例二中的一种基于字的神经网络的训练方法的流程图;
图3是本申请中的第一神经网络的示意图;
图4是本申请中的第二神经网络的示意图;
图5是本申请中的第一神经网络和第二神经网络结合的示意图;
图6是本申请实施例三中的一种基于字的神经网络的训练装置的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
参照图1,示出了本申请实施例一中的一种基于字的神经网络的训练方法,包括:
步骤101:将每个训练语句按字获取每个字的字向量。
例如:训练语句为“电脑手机”,将该训练语句按字识别后的训练语句为:电/脑/手/机/,然后获取每个字的字向量。
步骤102:将所述字向量作为第一神经网络的参数输入到所述第一神经网络中进行预训练,获得预训练结果,其中,所述结果包括字向量的上文特征向量和字向量下文的特征向量。
对字向量进行预处理是为了获得更具有区分性和表达性的字向量。将获取的每个字向量通过第一神经网络进行预训练,获得了每个字向量在上下文中的特征向量,然后将获得的特征向量在通过第二神经网络进行训练,由于获取的字向量通过第一神经网络和第二神经网络的双重处理,从而对字的多义性具有更强的区分能力,有效降低了汉字多义出现的概率。
步骤103:将所述字向量的上文特征向量和字向量下文的特征向量作为第二神经网络的参数输入到所述第二神经网络中,训练所述第二神经网络。
通过本实施例,首先,本申请将每个训练语句按字获取每个字的字向量,将获取的字向量通过第一神经网络进行预训练,获得预训练结果,其中,预训练结果包括字向量的上文特征向量和字向量下文的特征向量。将所述字向量的上文特征向量和字向量下文的特征向量作为第二神经网络的参数输入,训练第二神经网络。由于汉语中汉字的数量是固定的,常用的汉字数量大约在6千左右,远远小于词语的数量,因此可以降低神经网络的复杂度,提高了语言模型的训练效率。同时,对于不断涌现的新词,可以通过将新词按字拆分成字串,因此无需对出现的新词进行重新训练语言模型,从而提高了语言模型的训练效率。
其次,本申请将获取的每个字向量通过第一神经网络进行预训练,获得了每个字向量在上下文中的特征向量,然后将获得的特征向量在通过第二神经网络进行训练,由于获取的字向量通过第一神经网络和第二神经网络的双重处理,有效降低了汉字多义出现的概率,从而解决了汉字本身具有多义性的问题。
参照图2,示出了本申请实施例二中的一种基于字的神经网络的训练方法。
本实施例中,一种基于字的神经网络的训练方法,包括:
步骤201:将每个训练语句按字获取每个字的字向量。
步骤202:将所述字向量作为第一神经网络的参数输入到所述第一神经网络中进行预训练,获得预训练结果,其中,所述结果包括字向量的上文特征向量和字向量下文的特征向量。
如图3所示为本申请中的第一神经网络的示意图。其中,第一神经网络包括输入层、隐藏层和输出层。输入层和映射层的目的是为了训练字向量。
将所述字向量作为第一神经网络的参数输入到所述第一神经网络中进行预训练,获得预训练结果的步骤包括:
子步骤2021:为训练语句中每个字随机分配字向量。
子步骤2022:输入层接收训练语句中每个字随机分配字向量e(t),所述输入层将接收的每个字的字向量投影到映射层,得到投影后的每个字向量。
子步骤2023:计算投影后的每个字向量在字的历史子串中出现的概率,将所述概率作为输出层的预训练结果,所述预训练结果为e(t-1)、e(t+1)、e(t-2)和e(t+2),所述结果包括字向量的上文特征向量和字向量下文的特征向量。
也即,不仅对历史信息进行优化,而且还对未来信息进行优化。
每个字出现的概率依赖于之前出现的所有字,这一子串定义为历史子串。
优选地,通过以下公式计算投影后的每个字向量在字的历史子串中出现的概率:
1 T Σ t = 1 T Σ - c ≤ j ≤ c , j ≠ 0 log p ( e t + j | e t ) - - - ( 1 )
其中,T为训练语句的长度,c为上下文窗长,p(et+j|et)为字向量在字的历史子串中出现的概率,p(et+j|et)通过以下公式获得:
p ( e t + j | e t ) = exp ( c e t + j c e t ) Σ e exp ( c e c e t ) - - - ( 2 )
其中,ce为训练语句的字向量,由第一神经网络中的映射层得到。公式(2)中的∑e表示对所有汉字进行求和。通过映射层的连接权重对第一神经网络进行优化。
下面通过一个具体的实例来说明第一神经网络进行预训练的过程。
例如:训练语句为“我现在干什么呢”
1.首先初始化字向量:随机的分配每个字的字向量。
我:[0.30.70.30.6.....]
现:[0.60.30.670.45...]
.....
2.训练,通过以下公式计算投影后的每个字向量在字的历史子串中出现的概率。
1 T Σ t = 1 T Σ - c ≤ j ≤ c , j ≠ 0 log p ( e t + j | e t )
其中,以“干”为例计算其在训练语句中的上文和下文中出现的概率。
即:logp(我|干)+logp(现|干)+logp(在|干)+logp(什|干)+logp(么|干)+logp(呢|干)取值最大化,通过迭代优化第一神经网络的参数。
p ( e t + j | e t ) = exp ( c e t + j c e t ) Σ e exp ( c e c e t )
P(我|干)=(exp(c(我)*c(干)))/(exp(c(我)*c(干)+exp(c(我)*c(现)+exp(c(我)*c(在)+exp(c(我)*c(什)+exp(c(我)*c(么)+exp(c(我)*c(呢))。其中,c(我)为“我”的字向量,p(我|干)为从第一神经网络输入“干”来预测“我”出现的概率。
依此类推进行计算训练语句中的每个字在历史子串中出现的概率。
需要说明的是,c的值越大,第一神经网络所刻画的预测信息就越复杂,得到的字向量性能越好,代价是训练时间越长。
步骤203:将所述字向量的上文特征向量和字向量下文的特征向量作为第二神经网络的参数输入到所述第二神经网络中,训练所述第二神经网络。
如图4所示为本申请中的第二神经网络的示意图。其中,第二神经网络包括输入层、映射层、隐藏层和输出层。
所述第二神经网络的输入层接收第一神经网络的输出层输出的字向量的上文特征向量和字向量下文的特征向量。其中,将每个字向量的上下文特征向量ej表示为一个维度为|V|的向量,其中V为所有汉字集合,|V|表示这个集合的大小,即汉字总数。
所述第二神经网络的所述输入层将接收的字向量的上文特征向量和字向量下文的特征向量ej对应的|V|维向量,进行一个线性变换投影到一个维度为m的向量cj,cj称为ej的字向量,将投影后的字向量的上文特征向量和字向量下文的特征向量首尾相接,组成一个(n-1)×m的向量b,将拼接后的结果(即图4中的映射层)作为所述第二神经网络的映射层的输入。
将映射层的输入进行线性变换矩阵M和第一非线性激活函数处理后得到所述第二神经网络的隐藏层的输入。其中,第二神经网络的隐藏层的第i个节点记住di,则:
di=tanh(∑jbjMi,j)
其中,Mi,j为线性变换矩阵M的第(i,j)个元素,tanh()为第一非线性激活函数。
将所述第二神经网络的隐藏层的输入进行线性变换矩阵R和第二非线性激活函数处理后得到所述第二神经网络的输出层的输出结果,所述输出结果包括字向量在字的历史子串中的概率。其中,第二神经网络的输出层由|V|个节点组成,其中第i个节点的输出值记为oi(即图4中P(ej=1|hj)…P(ej=N|hj)),则:
oi=softmax(∑jdjRij)
其中Rij为线性变换矩阵R的第(i,j)个元素,softmax()为第二非线性激活函数。
上述过程中,第一神经网络和第二神经网络的结合如图5所示,可见,将获取的每个字的字向量通过第一神经网络预训练,获得预训练的结果,将预训练的结果通过第二神经网络的处理,获得了每个字向量在其历史信息(字向量的上文)和未来信息(字向量的下文)中出现了概率,由于通过第一神经网络和第二神经网络对训练语句的双重处理有效降低了汉字多义出现的概率,从而实现了对训练语句的精准预测。
基于上述方法实施例的说明,本申请还提供了相应的一种基于字的神经网络的训练装置的实施例,来实现上述方法实施例所述的内容。
通过本实施例,首先,本申请将每个训练语句按字获取每个字的字向量,将获取的字向量通过第一神经网络进行预训练,获得预训练结果,其中,预训练结果包括字向量的上文特征向量和字向量下文的特征向量。将所述字向量的上文特征向量和字向量下文的特征向量作为第二神经网络的参数输入,训练第二神经网络。由于汉语中汉字的数量是固定的,常用的汉字数量大约在6千左右,远远小于词语的数量,因此可以降低神经网络的复杂度,提高了语言模型的训练效率。同时,对于不断涌现的新词,可以通过将新词按字拆分成字串,因此无需对出现的新词进行重新训练语言模型,从而提高了语言模型的训练效率。
本申请将获取的每个字向量通过第一神经网络进行预训练,获得了每个字向量在上下文中的特征向量,然后将获得的特征向量在通过第二神经网络进行训练,由于获取的字向量通过第一神经网络和第二神经网络的双重处理,有效降低了汉字多义出现的概率,从而解决了汉字本身具有多义性的问题。
参见图6,示出了本申请实施例三中的一种基于字的神经网络的训练装置的结构框图,具体可以包括:获取模块,用于将每个训练语句按字获取每个字的字向量。
预训练模块,用于将所述字向量作为第一神经网络的参数输入到所述第一神经网络中进行预训练,获得预训练结果,其中,所述结果包括字向量的上文特征向量和字向量下文的特征向量。
训练模块,用于将所述字向量的上文特征向量和字向量下文的特征向量作为第二神经网络的参数输入到所述第二神经网络中,训练所述第二神经网络。
优选地,所述第一神经网络包括输入层、隐藏层和输出层。
优选地,所述预训练模块包括:分配模块,用于为训练语句中每个字随机分配字向量。
投影模块,用于输入层接收训练语句中每个字随机分配字向量,所述输入层将接收的每个字的字向量投影到映射层,得到投影后的每个字向量。
计算模块,用于计算投影后的每个字向量在字的历史子串中出现的概率,将所述概率作为输出层的预训练结果,所述结果包括字向量的上文特征向量和字向量下文的特征向量。
优选地,所述计算模块通过以下公式计算投影后的每个字向量在字的历史子串中出现的概率:
1 T Σ t = 1 T Σ - c ≤ j ≤ c , j ≠ 0 log p ( e t + j | e t )
其中,T为训练语句的长度,c为上下文窗长,p(et+j|et)为字向量在字的历史子串中出现的概率,p(et+j|et)通过以下公式获得:
p ( e t + j | e t ) = exp ( c e t + j c e t ) Σ e exp ( c e c e t )
其中,ce为训练语句的字向量。
优选地,所述第二神经网络包括输入层、映射层、隐藏层和输出层;
所述第二神经网络的输入层接收第一神经网络的输出层输出的字向量的上文特征向量和字向量下文的特征向量。
所述第二神经网络的所述输入层将接收的字向量的上文特征向量和字向量下文的特征向量进行线性变换投影,将投影后的字向量的上文特征向量和字向量下文的特征向量首尾相接,将拼接后的结果作为所述第二神经网络的映射层的输入。
将映射层的输入进行线性变换和第一非线性激活函数处理后得到所述第二神经网络的隐藏层的输入。
将所述第二神经网络的隐藏层的输入进行线性变换和第二非线性激活函数处理后得到所述第二神经网络的输出层的输出结果,所述输出结果包括字向量在字的历史子串中的概率。
综上所述,本申请实施例一种字的神经网络的训练装置主要包括以下优点:
首先,本申请将每个训练语句按字获取每个字的字向量,将获取的字向量通过第一神经网络进行预训练,获得预训练结果,其中,预训练结果包括字向量的上文特征向量和字向量下文的特征向量。将所述字向量的上文特征向量和字向量下文的特征向量作为第二神经网络的参数输入,训练第二神经网络。由于汉语中汉字的数量是固定的,常用的汉字数量大约在6千左右,远远小于词语的数量,因此可以降低神经网络的复杂度,提高了语言模型的训练效率。同时,对于不断涌现的新词,可以通过将新词按字拆分成字串,因此无需对出现的新词进行重新训练语言模型,从而提高了语言模型的训练效率。
本申请将获取的每个字向量通过第一神经网络进行预训练,获得了每个字向量在上下文中的特征向量,然后将获得的特征向量在通过第二神经网络进行训练,由于获取的字向量通过第一神经网络和第二神经网络的双重处理,有效降低了汉字多义出现的概率,从而解决了汉字本身具有多义性的问题。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
以上对本申请所提供的一种基于字的神经网络的训练方法和装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种基于字的神经网络的训练方法,其特征在于,包括:
将每个训练语句按字获取每个字的字向量;
将所述字向量作为第一神经网络的参数输入到所述第一神经网络中进行预训练,获得预训练结果,其中,所述结果包括字向量的上文特征向量和字向量下文的特征向量;
将所述字向量的上文特征向量和字向量下文的特征向量作为第二神经网络的参数输入到所述第二神经网络中,训练所述第二神经网络。
2.根据权利要求1所述的方法,其特征在于,所述第一神经网络包括输入层、隐藏层和输出层。
3.根据权利要求2所述的方法,其特征在于,所述将所述字向量作为第一神经网络的参数输入到所述第一神经网络中进行预训练,获得预训练结果的步骤包括:
为训练语句中每个字随机分配字向量;
输入层接收训练语句中每个字随机分配字向量,所述输入层将接收的每个字的字向量投影到映射层,得到投影后的每个字向量;
计算投影后的每个字向量在字的历史子串中出现的概率,将所述概率作为输出层的预训练结果,所述结果包括字向量的上文特征向量和字向量下文的特征向量。
4.根据权利要求3所述的方法,其特征在于,通过以下公式计算投影后的每个字向量在字的历史子串中出现的概率:
1 T Σ t = 1 T Σ - c ≤ j ≤ c , j ≠ 0 log p ( e t + j | e t )
其中,T为训练语句的长度,c为上下文窗长,p(et+j|et)为字向量在字的历史子串中出现的概率,p(et+j|et)通过以下公式获得:
p ( e t + j | e t ) = exp ( c e t + j c e t ) Σ e exp ( c e c e t )
其中,ce为训练语句的字向量。
5.根据权利要求3所述的方法,其特征在于,所述第二神经网络包括输入层、映射层、隐藏层和输出层;
所述第二神经网络的输入层接收第一神经网络的输出层输出的字向量的上文特征向量和字向量下文的特征向量;
所述第二神经网络的所述输入层将接收的字向量的上文特征向量和字向量下文的特征向量进行线性变换投影,将投影后的字向量的上文特征向量和字向量下文的特征向量首尾相接,将拼接后的结果作为所述第二神经网络的映射层的输入;
将映射层的输入进行线性变换和第一非线性激活函数处理后得到所述第二神经网络的隐藏层的输入;
将所述第二神经网络的隐藏层的输入进行线性变换和第二非线性激活函数处理后得到所述第二神经网络的输出层的输出结果,所述输出结果包括字向量在字的历史子串中的概率。
6.一种基于字的神经网络的训练装置,其特征在于,包括:
获取模块,用于将每个训练语句按字获取每个字的字向量;
预训练模块,用于将所述字向量作为第一神经网络的参数输入到所述第一神经网络中进行预训练,获得预训练结果,其中,所述结果包括字向量的上文特征向量和字向量下文的特征向量;
训练模块,用于将所述字向量的上文特征向量和字向量下文的特征向量作为第二神经网络的参数输入到所述第二神经网络中,训练所述第二神经网络。
7.根据权利要求6所述的装置,其特征在于,所述第一神经网络包括输入层、隐藏层和输出层。
8.根据权利要求7所述的装置,其特征在于,所述预训练模块包括:
分配模块,用于为训练语句中每个字随机分配字向量;
投影模块,用于输入层接收训练语句中每个字随机分配字向量,所述输入层将接收的每个字的字向量投影到映射层,得到投影后的每个字向量;
计算模块,用于计算投影后的每个字向量在字的历史子串中出现的概率,将所述概率作为输出层的预训练结果,所述结果包括字向量的上文特征向量和字向量下文的特征向量。
9.根据权利要求8所述的装置,其特征在于,所述计算模块通过以下公式计算投影后的每个字向量在字的历史子串中出现的概率:
1 T Σ t = 1 T Σ - c ≤ j ≤ c , j ≠ 0 log p ( e t + j | e t )
其中,T为训练语句的长度,c为上下文窗长,p(et+j|et)为字向量在字的历史子串中出现的概率,p(et+j|et)通过以下公式获得:
p ( e t + j | e t ) = exp ( c e t + j c e t ) Σ e exp ( c e c e t )
其中,ce为训练语句的字向量。
10.根据权利要求8所述的装置,其特征在于,所述第二神经网络包括输入层、映射层、隐藏层和输出层;
所述第二神经网络的输入层接收第一神经网络的输出层输出的字向量的上文特征向量和字向量下文的特征向量;
所述第二神经网络的所述输入层将接收的字向量的上文特征向量和字向量下文的特征向量进行线性变换投影,将投影后的字向量的上文特征向量和字向量下文的特征向量首尾相接,将拼接后的结果作为所述第二神经网络的映射层的输入;
将映射层的输入进行线性变换和第一非线性激活函数处理后得到所述第二神经网络的隐藏层的输入;
将所述第二神经网络的隐藏层的输入进行线性变换和第二非线性激活函数处理后得到所述第二神经网络的输出层的输出结果,所述输出结果包括字向量在字的历史子串中的概率。
CN201410273269.7A 2014-06-18 2014-06-18 一种基于字的神经网络的训练方法和装置 Active CN105279552B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410273269.7A CN105279552B (zh) 2014-06-18 2014-06-18 一种基于字的神经网络的训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410273269.7A CN105279552B (zh) 2014-06-18 2014-06-18 一种基于字的神经网络的训练方法和装置

Publications (2)

Publication Number Publication Date
CN105279552A true CN105279552A (zh) 2016-01-27
CN105279552B CN105279552B (zh) 2018-06-22

Family

ID=55148532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410273269.7A Active CN105279552B (zh) 2014-06-18 2014-06-18 一种基于字的神经网络的训练方法和装置

Country Status (1)

Country Link
CN (1) CN105279552B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126507A (zh) * 2016-06-22 2016-11-16 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统
CN106202044A (zh) * 2016-07-07 2016-12-07 武汉理工大学 一种基于深度神经网络的实体关系抽取方法
CN106372107A (zh) * 2016-08-19 2017-02-01 中兴通讯股份有限公司 自然语言文句库的生成方法及装置
CN107168952A (zh) * 2017-05-15 2017-09-15 北京百度网讯科技有限公司 基于人工智能的信息生成方法和装置
CN108268442A (zh) * 2017-12-19 2018-07-10 芋头科技(杭州)有限公司 一种语句意图预测方法及系统
CN109284388A (zh) * 2018-10-29 2019-01-29 深兰科技(上海)有限公司 字符数字唯一可译深度模型的文本分类方法及存储介质
CN110781646A (zh) * 2019-10-15 2020-02-11 泰康保险集团股份有限公司 名称标准化方法、装置、介质及电子设备
CN111666482A (zh) * 2019-03-06 2020-09-15 珠海格力电器股份有限公司 查询方法及装置、存储介质和处理器
WO2021000675A1 (zh) * 2019-07-04 2021-01-07 平安科技(深圳)有限公司 机器阅读理解中文的方法、装置和计算机设备
WO2021155705A1 (zh) * 2020-02-06 2021-08-12 支付宝(杭州)信息技术有限公司 文本预测模型的训练方法及装置
WO2024098373A1 (en) * 2022-11-11 2024-05-16 Nvidia Corporation Techniques for compressing neural networks

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0443976A2 (en) * 1990-02-20 1991-08-28 International Business Machines Corporation Neural network shell for application programs
CN1677388A (zh) * 2004-03-30 2005-10-05 微软公司 用于逻辑形式的统计语言模型
CN103400577A (zh) * 2013-08-01 2013-11-20 百度在线网络技术(北京)有限公司 多语种语音识别的声学模型建立方法和装置
CN103810999A (zh) * 2014-02-27 2014-05-21 清华大学 基于分布式神经网络的语言模型训练方法及其系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0443976A2 (en) * 1990-02-20 1991-08-28 International Business Machines Corporation Neural network shell for application programs
CN1677388A (zh) * 2004-03-30 2005-10-05 微软公司 用于逻辑形式的统计语言模型
CN103400577A (zh) * 2013-08-01 2013-11-20 百度在线网络技术(北京)有限公司 多语种语音识别的声学模型建立方法和装置
CN103810999A (zh) * 2014-02-27 2014-05-21 清华大学 基于分布式神经网络的语言模型训练方法及其系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
T MIKOLOV ETAL.: "Distributed Representations of Words and Phrases and their Compositionality", 《ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS》 *
XIAORONG CHENG ETAL.: "Application of MPSO-Based Neural Network Model in Chinese Word Segmentation", 《INTELLIGENT COMPUTATION TECHNOLOGY AND AUTOMATION, 2009. ICICTA "09. SECOND INTERNATIONAL CONFERENCE ON》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126507B (zh) * 2016-06-22 2019-08-09 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统
CN106126507A (zh) * 2016-06-22 2016-11-16 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统
CN106202044A (zh) * 2016-07-07 2016-12-07 武汉理工大学 一种基于深度神经网络的实体关系抽取方法
CN106372107A (zh) * 2016-08-19 2017-02-01 中兴通讯股份有限公司 自然语言文句库的生成方法及装置
CN106372107B (zh) * 2016-08-19 2020-01-17 中兴通讯股份有限公司 自然语言文句库的生成方法及装置
CN107168952A (zh) * 2017-05-15 2017-09-15 北京百度网讯科技有限公司 基于人工智能的信息生成方法和装置
CN108268442A (zh) * 2017-12-19 2018-07-10 芋头科技(杭州)有限公司 一种语句意图预测方法及系统
CN109284388A (zh) * 2018-10-29 2019-01-29 深兰科技(上海)有限公司 字符数字唯一可译深度模型的文本分类方法及存储介质
CN111666482A (zh) * 2019-03-06 2020-09-15 珠海格力电器股份有限公司 查询方法及装置、存储介质和处理器
CN111666482B (zh) * 2019-03-06 2022-08-02 珠海格力电器股份有限公司 查询方法及装置、存储介质和处理器
WO2021000675A1 (zh) * 2019-07-04 2021-01-07 平安科技(深圳)有限公司 机器阅读理解中文的方法、装置和计算机设备
CN110781646A (zh) * 2019-10-15 2020-02-11 泰康保险集团股份有限公司 名称标准化方法、装置、介质及电子设备
CN110781646B (zh) * 2019-10-15 2023-08-22 泰康保险集团股份有限公司 名称标准化方法、装置、介质及电子设备
WO2021155705A1 (zh) * 2020-02-06 2021-08-12 支付宝(杭州)信息技术有限公司 文本预测模型的训练方法及装置
WO2024098373A1 (en) * 2022-11-11 2024-05-16 Nvidia Corporation Techniques for compressing neural networks

Also Published As

Publication number Publication date
CN105279552B (zh) 2018-06-22

Similar Documents

Publication Publication Date Title
CN105279552A (zh) 一种基于字的神经网络的训练方法和装置
CA3036067C (en) Generating audio using neural networks
US11948066B2 (en) Processing sequences using convolutional neural networks
CN108475505B (zh) 使用部分条件从输入序列生成目标序列
WO2018218705A1 (zh) 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN110023963A (zh) 使用神经网络处理文本序列
CN112767915A (zh) 将文本转换为语音的系统及其存储介质
CN112633010B (zh) 基于多头注意力和图卷积网络的方面级情感分析方法及系统
CN104538028A (zh) 一种基于深度长短期记忆循环神经网络的连续语音识别方法
CN103984681A (zh) 基于时序分布信息和主题模型的新闻事件演化分析方法
CN111699497A (zh) 使用离散潜变量的序列模型的快速解码
CN110334340B (zh) 基于规则融合的语义分析方法、装置以及可读存储介质
CN113806543B (zh) 一种基于残差跳跃连接的门控循环单元的文本分类方法
CN113987162A (zh) 文本摘要的生成方法、装置及计算机设备
CN109902273A (zh) 关键词生成模型的建模方法和装置
CN112100342A (zh) 一种基于知识表示学习技术的知识图谱问答方法
CN113408702B (zh) 音乐神经网络模型预训练方法及电子设备和存储介质
CN115934891A (zh) 问句理解方法及装置
CN117786092B (zh) 一种商品评论关键短语提取方法及系统
CN112951218A (zh) 基于神经网络模型的语音处理方法、装置及电子设备
CN118114651A (zh) 文本纠正方法、装置、设备和可读存储介质
CN116129866A (zh) 语音合成方法、网络训练方法、装置、设备及存储介质
CN113094489A (zh) 基于疑问词分类器的神经网络问题生成方法及生成系统
Finesso et al. Two-step nonnegative matrix factorization algorithm for the approximate realization of hidden Markov models

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant