CN110162783A - 用于语言处理的循环神经网络中隐状态的生成方法和装置 - Google Patents

用于语言处理的循环神经网络中隐状态的生成方法和装置 Download PDF

Info

Publication number
CN110162783A
CN110162783A CN201910309929.5A CN201910309929A CN110162783A CN 110162783 A CN110162783 A CN 110162783A CN 201910309929 A CN201910309929 A CN 201910309929A CN 110162783 A CN110162783 A CN 110162783A
Authority
CN
China
Prior art keywords
term vector
vector
region
target
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910309929.5A
Other languages
English (en)
Inventor
孟凡东
张金超
周杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910309929.5A priority Critical patent/CN110162783A/zh
Publication of CN110162783A publication Critical patent/CN110162783A/zh
Priority to JP2021525643A priority patent/JP7299317B2/ja
Priority to PCT/CN2020/081177 priority patent/WO2020211611A1/zh
Priority to EP20790836.9A priority patent/EP3958148A4/en
Priority to US17/332,318 priority patent/US20210286953A1/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种用于语言处理的循环神经网络中隐状态的生成方法和装置,方法包括:生成当前时刻输入的目标词向量的至少两个维度的区域词向量;将各区域词向量进行组合,得到至少两个维度的组合区域词向量;基于前馈神经网络将各组合区域词向量进行聚集变换处理,得到目标词向量对应的聚集词向量;基于聚集词向量生成目标词向量对应的目标隐状态。采用本申请提供的方案,使得每一时刻的目标词向量都有对应的聚集词向量,这样便可以在聚集词向量的基础上生成目标词向量对应的目标隐状态。由于聚集词向量是对目标词向量进行多维度的转换处理得到的,使得利用该目标隐状态在捕获复杂语言学规律时,对于复杂语言学规律的捕获率高。

Description

用于语言处理的循环神经网络中隐状态的生成方法和装置
技术领域
本申请涉及计算机技术领域,特别是涉及一种用于语言处理的循环神经网络中隐状态的生成方法、装置、计算机可读存储介质和计算机设备。
背景技术
随着计算机技术的发展,出现了自然语言处理(Natural Language Proces sing,NLP)技术。自然语言处理(NLP)技术实现了人们长期以来所追求的“用自然语言与计算机进行通信”。但是,对于自然语言处理(NLP)技术而言,处理变长的词序列仍然是一个很大的挑战。
于是,出现了循环神经网络(Recurrent Neural Network,RNN)。循环神经网络是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。循环神经网络的出现解决了对于变长的词序列的处理。
然而,传统的循环神经网络,都是利用单一空间的组合计算来生成各个时刻的隐状态。例如仅利用当前时刻的词向量和上一时刻的隐状态在单一空间上的组合来生成当前时刻的隐状态,使得对于复杂语言学规律的捕获率低。
发明内容
基于此,有必要针对上述问题,提供一种对于复杂语言学规律的捕获率高的用于语言处理的循环神经网络中隐状态的方法、装置、计算机可读存储介质和计算机设备。
一种用于语言处理的循环神经网络中隐状态的生成方法,包括:
生成当前时刻输入的目标词向量的至少两个维度的区域词向量;
将各所述区域词向量进行组合,得到至少两个维度的组合区域词向量;
基于前馈神经网络将各所述组合区域词向量进行聚集变换处理,得到所述目标词向量对应的聚集词向量;
基于所述聚集词向量生成所述目标词向量对应的目标隐状态。
一种用于语言处理的循环神经网络中隐状态的生成装置,包括:
区域词向量生成模块,用于生成当前时刻输入的目标词向量的至少两个维度的区域词向量;
区域词向量组合模块,用于将各所述区域词向量进行组合,得到至少两个维度的组合区域词向量;
聚集变换处理模块,用于基于前馈神经网络将各所述组合区域词向量进行聚集变换处理,得到所述目标词向量对应的聚集词向量;
目标隐状态生成模块,用于基于所述聚集词向量生成所述目标词向量对应的目标隐状态。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
生成当前时刻输入的目标词向量的至少两个维度的区域词向量;
将各所述区域词向量进行组合,得到至少两个维度的组合区域词向量;
基于前馈神经网络将各所述组合区域词向量进行聚集变换处理,得到所述目标词向量对应的聚集词向量;
基于所述聚集词向量生成所述目标词向量对应的目标隐状态。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
生成当前时刻输入的目标词向量的至少两个维度的区域词向量;
将各所述区域词向量进行组合,得到至少两个维度的组合区域词向量;
基于前馈神经网络将各所述组合区域词向量进行聚集变换处理,得到所述目标词向量对应的聚集词向量;
基于所述聚集词向量生成所述目标词向量对应的目标隐状态。
上述用于语言处理的循环神经网络中隐状态的生成方法、装置、计算机可读存储介质和计算机设备,生成当前时刻输入的目标词向量的至少两个维度的区域词向量,使得单一维度的目标词向量对应有多个维度的区域词向量,并将各区域词向量进行区域组合,得到至少两个维度的组合区域词向量。再基于前馈神经网络将各组合区域词向量进行聚集变换处理,得到目标词向量对应的聚集词向量。采用本申请提供的方案,使得每一时刻的目标词向量都有对应的聚集词向量,这样便可以在聚集词向量的基础上生成目标词向量对应的目标隐状态。由于聚集词向量是对目标词向量进行多维度的转换处理得到的,使得利用该目标隐状态在捕获复杂语言学规律时,对于复杂语言学规律的捕获率高。
附图说明
图1为一个实施例中计算机设备的结构框图;
图2为一个实施例中用于语言处理的循环神经网络中隐状态的生成方法的流程示意图;
图3为另一个实施例中用于语言处理的循环神经网络中隐状态的生成方法的流程示意图;
图4为一个实施例中向量节点的示例图;
图5为一个实施例中邻接矩阵的示例图;
图6为一个实施例中度矩阵的示例图;
图7为一个实施例中区域词向量矩阵的示例图;
图8为再一个实施例中用于语言处理的循环神经网络中隐状态的生成方法的流程示意图;
图9为一个实施例中对目标词向量的区域词向量进行组合计算的示例图;
图10为再一个实施例中用于语言处理的循环神经网络中隐状态的生成方法的流程示意图;
图11为一个实施例中生成区域词向量、对组合区域词向量进行组合计算和基于前馈神经网络将各所述组合区域词向量进行聚集变换处理的示例图;
图12为一个实施例中用于语言处理的循环神经网络中隐状态的生成装置的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的用于语言处理的循环神经网络中隐状态的生成方法,可以应用于如图1所示的计算机设备。该计算机设备包括存储器和处理器,存储器中存储有计算机程序。计算机程序被处理器执行时,可以实现本申请提供的用于语言处理的循环神经网络中隐状态的生成方法。该计算机设备可以是终端,也可以是服务器。可以理解的是,当计算机设备为终端时,该计算机设备还可以包括显示屏和输入装置等。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
如图2所示,在一个实施例中,提供了一种用于语言处理的循环神经网络中隐状态的生成方法。本实施例主要以该方法应用于上述图1中的计算机设备来举例说明。参照图2,该用于语言处理的循环神经网络中隐状态的生成方法具体包括如下步骤:
S202,生成当前时刻输入的目标词向量的至少两个维度的区域词向量。
其中,词向量指对应的词在预定义的向量空间中的实数向量。例如,“狗”在预定义的向量空间中的实数向量可以为(0.2 0.2 0.4),则(0.2 0.2 0.4)便为“狗”的词向量。目标词向量指当前时刻输入的词向量。区域词向量指一个维度的词向量所对应的各个不同维度的词向量。
具体地,当计算机设备在当前时刻检测到有目标词向量输入时,计算机设备读取当前时刻输入的目标词向量,并触发该目标词向量的区域词向量生成指令。计算机设备根据该区域词向量生成指令将低维度的目标词向量转换为至少两个维度的区域词向量。这样计算机设备在各个时刻输入的目标词向量均对应有至少两个维度的区域词向量。
在一个实施例中,计算机设备在T个时刻输入的目标词向量整体为一个向量序列X={X1,X2,……,XT},其中,X1为向量序列X中的第1个目标词向量,X1表示计算机设备在第1个时刻输入的词向量;X2为向量序列X中的第2个目标词向量,X2表示计算机设备在第2个时刻输入的词向量;……;XT为向量序列X中的第T个目标词向量,XT表示计算机设备在第T个时刻输入的词向量。则计算机设备在向量序列X中的每一个时刻均会生成该时刻输入的目标词向量的至少两个维度的区域词向量。
在一个实施例中,向量序列X={X1,X2,……,XT}中的每一个词向量都是预先对文本进行转换得到的。例如计算机设备为终端时,计算机设备中安装有用于通讯的社交应用程序,用于人机对话的子应用程序运行于该用于通讯的社交应用程序中。当计算机设备检测到用于人机对话的子应用程序接收到变长的语音信息时,将每一时刻接收到的语音信息转换为文本信息,并将该文本信息映射为目标词向量,这样变长的语音信息最终会形成一个向量序列,向量序列中包括各个时刻接收到的语音信息的文本信息对应的目标词向量。
当然,当计算机设备为服务器时,该服务器可以接收其他终端已经转换得到的各个目标词向量,生成每一个时刻输入的目标词向量的至少两个维度的区域词向量。当计算机设备为服务器时,该服务器还可以直接接收其他终端通过用于人机对话的子应用程序接收到的变长的语音信息,将每一时刻接收到的语音信息转换为文本信息,并将该文本信息映射为目标词向量,这样变长的语音信息最终会形成一个向量序列,向量序列中包括各个时刻接收到的语音信息的文本信息对应的目标词向量,并生成每一个时刻输入的目标词向量的至少两个维度的区域词向量。
在一个实施例中,区域词向量生成指令中可以携带有第一预设维度,计算机设备根据区域词向量生成指令将低维度的目标词向量转换为至少两个维度的区域词向量时,可以按照第一预设维度将低维度的目标词向量转换为第一预设维度的区域词向量。
例如,当前时刻为T,第一预设维度为N,计算机设备在当前时刻T检测到有目标词向量XT输入。则计算机设备需要将单一维度的目标词向量XT转换为N个维度的区域词向量。计算机设备可以生成目标词向量XT的N个区域词向量Z={Z1,Z2,……,ZN},其中的Z1至ZN均为目标词向量XT的区域词向量。
S204,将各区域词向量进行组合,得到至少两个维度的组合区域词向量。
其中,组合区域词向量指将各区域词向量进行组合计算后所得到的词向量。例如目标词向量有N个维度的区域词向量,则计算机设备对N个维度的区域词向量进行组合计算后可以得到J个维度的组合区域词向量,J大于或等于2。
具体地,计算机设备预先设置有区域向量组合方式。当计算机设备生成目标词向量的区域词向量后,便获取预设的区域向量组合方式,区域向量组合方式中包括第二预设维度。计算机设备按照预设的区域向量组合方式对目标词向量的区域词向量进行组合计算,得到第二预设维度的组合区域词向量。区域向量组合方式指将各区域词向量进行组合计算的方式。
S206,基于前馈神经网络将各组合区域词向量进行聚集变换处理,得到目标词向量对应的聚集词向量。
其中,前馈神经网络是一种各神经元分层排列的神经网络。聚集变换处理指将各组合区域词向量进行聚集处理和变换处理的过程。聚集词向量指对各组合区域词向量进行聚集处理和变换处理后所得到的词向量。
具体地,计算机设备可以基于前馈神经网络分别对各个组合区域词向量进行一次变换,得到与组合区域词向量的维度相同的中间区域词向量。例如目标词向量有J个维度的组合区域词向量O={O1,O2,……,OJ},则计算机设备基于前馈神经网络先对各组合区域词向量进行一次变换时,也可以得到J个维度的中间区域向量F={F1,F2,……,FJ}。计算机设备将得到的各个中间区域词向量进行聚集处理,得到一个中间聚集词向量。计算机设备可以对得到的中间聚集词向量进行一次线性变换,便可以得到目标词向量对应的聚集词向量。
S208,基于聚集词向量生成目标词向量对应的目标隐状态。
其中,隐状态指循环神经网络的隐藏层输出的隐藏状态,隐藏状态指循环神经网络的系统状态(system status)。目标隐状态便指循环神经网络在当前时刻的系统状态(system status)。
具体地,计算机设备可以获取上一时刻的历史词向量的历史隐状态,计算机设备可以在历史隐状态的基础上加入目标词向量的聚集词向量对目标词向量的目标隐状态进行计算,生成目标词向量的目标隐状态。可以理解的是,上一时刻的历史词向量的历史隐状态也是基于历史词向量的聚集词向量生成的,而聚集词向量是对历史词向量进行多维度的转换处理得到的。
上述用于语言处理的循环神经网络中隐状态的生成方法,生成当前时刻输入的目标词向量的至少两个维度的区域词向量,使得单一维度的目标词向量对应有多个维度的区域词向量,并将各区域词向量进行区域组合,得到至少两个维度的组合区域词向量。再基于前馈神经网络将各组合区域词向量进行聚集变换处理,得到目标词向量对应的聚集词向量。
采用本申请提供的方案,使得每一时刻的目标词向量都有对应的聚集词向量,这样便可以在聚集词向量的基础上生成目标词向量对应的目标隐状态。由于聚集词向量是对目标词向量进行多维度的转换处理得到的,使得利用该目标隐状态在捕获复杂语言学规律时,对于复杂语言学规律的捕获率高。例如在计算机设备处理手写识别、序列标注、情感分析、语言模型训练和机器翻译等任务中,即使遇到长距离依赖的语言结构,也可以高效地完成任务。
在一个实施例中,生成当前时刻输入的目标词向量的至少两个维度的区域词向量包括:获取至少两个第一权重矩阵,每个第一权重矩阵用于生成对应的区域词向量;确定当前时刻输入的目标词向量,并获取上一时刻的历史词向量对应的历史隐状态;基于第一权重矩阵和历史隐状态生成目标词向量的至少两个维度的区域词向量。
其中,第一权重矩阵指形式为矩阵的随着系统进行训练的权重参数,用于生成对应的区域词向量。历史词向量指计算机设备在当前时刻的上一时刻输入的词向量。历史隐状态指计算机设备在当前时刻的上一时刻输入的词向量对应的隐状态。
具体地,当计算机设备在当前时刻检测到有目标词向量输入时,计算机设备读取当前时刻输入的目标词向量,并触发该目标词向量的区域词向量生成指令。计算机设备根据该区域词向量生成指令获取用于生成区域词向量的第一权重矩阵,获取的第一权重矩阵的数量与计算机设备需要生成的区域词向量的维度的数量相同。
例如计算机设备需要生成的区域词向量的第一预设维度为N,则计算机设备获取的第一权重矩阵的数量为N。计算机设备在生成每一个维度的区域词向量时都有对应的第一权重矩阵:计算机设备在生成第一个维度的区域词向量Z1时,有对应的第一权重矩阵W1;计算机设备在生成第二个维度的区域词向量Z2时,有对应的第一权重矩阵W2;……;计算机设备在生成第N个维度的区域词向量ZN时,有对应的第一权重矩阵WN
计算机设备确定当前时刻输入的目标词向量,并获取计算机设备在当前时刻的上一时刻输入的历史词向量对应的历史隐状态。可以理解的是,上一时刻不必然是与当前时刻紧密相邻的时刻,上一时刻是计算机设备在当次输入目标词向量的前一次输入词向量时所对应的时刻。
例如计算机设备在T个时刻输入的目标词向量整体为一个向量序列X={X1,X2,……,XT},X1表示计算机设备在第1个时刻输入的词向量,X2表示计算机设备在第2个时刻输入的词向量。第1个时刻与第2个时刻之间可能会有很长的时间间隔,也可能只有很短的时间间隔,因此第1个时刻与第2个时刻间并不必然是在时间表上对应的紧密相邻的时刻。
计算机设备可以基于获取的历史隐状态和第一预设数量的第一权重矩阵生成第一预设维度的区域词向量。第一预设数量与第一预设维度的数量相同。第一预设维度的区域词向量整体可以为一个区域词向量矩阵,例如计算机设备需要将目标词向量XT转换为N个维度的区域词向量,则得到的N个维度的区域词向量可以表示为区域词向量矩阵区域词向量矩阵中的Z1至ZN均为目标词向量XT的区域词向量。
上述实施例中,计算机设备直接利用用于生成对应的区域词向量的第一权重矩阵,高效地将单一维度的目标词向量转换为至少两个维度的区域词向量。并且是在上一时刻的历史隐状态的基础上生成至少两个维度的区域词向量,使得得到的区域词向量更加准确。
在一个实施例中,基于第一权重矩阵和历史隐状态生成目标词向量的至少两个维度的区域词向量包括:将目标词向量与历史隐状态进行拼接,得到拼接词向量;根据拼接词向量和第一权重矩阵生成区域词向量矩阵;区域词向量矩阵包括至少两个维度的区域词向量。
具体地,计算机设备生成的各个时刻的隐状态的形式均为向量,因此,计算机设备在确定目标词向量并获取到上一时刻的历史词向量对应的历史隐状态后,可以将当前时刻的目标词向量与上一时刻的历史隐状态进行拼接,得到拼接词向量。例如目标词向量中包含8个向量元素,历史隐状态中包含5个向量元素,计算机设备直接将目标词向量与历史隐状态进行拼接后,得到的拼接词向量包含13个向量元素。计算机设备将得到的拼接词向量分别与各个第一权重矩阵相乘,便能得到区域向量矩阵。区域向量矩阵中包含多个维度的区域词向量。
在一个实施例中,将目标词向量与历史隐状态进行拼接可以表示为[Xt,ht-1],其中,Xt为计算机设备当前时刻输入的目标词向量,ht-1为当前时刻的上一时刻的历史词向量对应的历史隐状态。则计算机设备可以按照如下公式生成目标词向量的至少两个维度的区域词向量:Zi=Wi[Xt,ht-1]。
其中,Wi表示第一权重矩阵。例如计算机设备需要生成N个区域词向量,则i为1至N,Zi为Z1至ZN,Wi为W1至WN。可以理解的是,在计算Z1时,Zi=Wi[Xt,ht-1]为Z1=W1[Xt,ht-1];在计算Z2时,Zi=Wi[Xt,ht-1]为Z2=W2[Xt,ht-1];……;在计算ZN时,Zi=Wi[Xt,ht-1]为ZN=WN[Xt,ht-1]。这样计算机设备便能得到区域词向量矩阵1至N分别表示对应的区域词向量Z1至ZN所在的维度。
可以理解的是,区域词向量矩阵中的每一个区域词向量分别处于不同的维度,每一个区域词向量包含多个向量元素,每个向量元素均为所属区域词向量所在维度的矩阵元素。例如Z1包含3个向量元素0.3、0.8和0.7,则0.3为Z1所在第一维度的矩阵元素Z11,0.8为Z1所在第一维度的矩阵元素Z12,0.7为Z1所在第一维度的矩阵元素Z13。以每个区域向量均包含3个向量元素为例,则区域词向量矩阵具体可以表示为
上述实施例中,计算机设备直接将目标词向量与上一时刻的隐状态进行拼接,得到拼接词向量,将拼接词向量与至少两个第一权重矩阵分别直接相乘,使得更加高效快捷地得到了至少两个维度的区域词向量。
在一个实施例中,如图3所示,将各区域词向量进行组合,得到至少两个维度的组合区域词向量包括:
S302,确定各区域词向量间的边权重。
其中,边权重指将各区域词向量作为向量节点时,用于连接各向量节点的边的权重。
具体地,计算机设备预设的区域向量组合方式可以为基于图卷积(graphconvolutional networks)的区域向量组合方式,计算机设备按照基于图卷积的区域向量组合方式将各个区域词向量确定为向量节点,各个向量节点之间有连接的边,构建一个图G=(V,E),其中,V表示向量节点集合,E表示边集合。
如图4所示,例如计算机设备生成了目标词向量的3个维度的区域词向量:Z1、Z2和Z3,则计算机设备将Z1、Z2和Z3分别确定为向量节点401。各个向量节点之间连接的边402代表连接的两个向量节点间的关系。计算机设备可以计算各个向量节点之间的相似度,将各个向量节点之间的相似度确定为对应的各个向量节点之间的边的边权重。
在一个实施例中,计算机设备可以按照以下公式计算确定各区域词向量间的边权重:Wij=(Zi TZj)/(‖Zi‖*‖Zj‖),其中,Zi和Zj均为目标词向量的任意一个区域词向量。Zi T指区域词向量Zi的转置向量。“‖Zi‖”指区域词向量Zi的L2范数,“‖Zj‖”指区域词向量Zj的L2范数。这样,计算机设备按照上述公式可以得到各个区域词向量间的相似度,将各个向量节点之间的相似度确定为对应的各个向量节点之间的边的边权重。
S304,按照确定的各边权重生成各区域词向量共同对应的邻接矩阵。
其中,邻接矩阵(Adjacency Matrix)是用于表示向量节点之间相邻关系的矩阵。
具体地,计算机设备可以将确定的各个边权重作为矩阵元素,形成一个邻接矩阵。例如计算机设备生成了目标词向量的N个维度的区域词向量,则计算机设备将N个区域词向量分别确定为向量节点,计算N个向量节点中各个向量节点之间的边权重。这样,计算机设备将确定的各个边权重作为矩阵元素所形成的邻接矩阵A可以如图5所示。
S306,分别将邻接矩阵中各维度的各边权重进行加和,得到度矩阵。
其中,度矩阵指由邻接矩阵各行或各列的向量节点的度形成的矩阵,各行或各列的向量节点的度为邻接矩阵中各行或者各列包含的矩阵元素的和。
具体地,如图5所示,邻接矩阵A中的每一行都包括某一个向量节点与其他向量节点之间的边的边权重。例如图5中的w12可以表示各个向量节点中的第1个节点与第2个节点之间的边的边权重。计算机设备得到邻接矩阵后,便可以将邻接矩阵中各行所包括的边权重进行加和,得到各行对应的向量节点的度。例如邻接矩阵中的第一行包括的是向量节点Z1与其他向量节点之间的边权重:W11,W12,W13,……,W1N,则计算机设备将W11至W1N进行加和,便能得到向量节点Z1的度D11
进一步地,计算机设备计算可以按照以下公式计算各行对应的向量节点的度:Dii=∑jWij,其中,Wij指邻接矩阵中第i行第j列的矩阵参数(该矩阵参数为向量节点中的第i个向量节点与第j个向量节点间的边权重)。例如计算图4中邻接矩阵A的第一行表示的向量节点的度时,D11=∑jWij中的j为1至N,则D11=W11+W12+W13+…+W1N
计算机设备得到的邻接矩阵中各行的向量节点的度可以表示为:D11,D22,D33,……,DNN,计算机设备基于“D11,D22,D33,……,DNN”便可以形成度矩阵D,形成的度矩阵D中D11,D22,D33,……,DNN之外的其他矩阵元素均为0,如图6所示。
S308,基于邻接矩阵和度矩阵生成至少两个维度的组合区域词向量。
具体地,计算机设备可以基于得到的邻接矩阵和度矩阵生成第二预设维度的组合区域词向量,本实施例中的第二预设维度的数量与目标词向量的区域词向量的数量相同。
上述实施例中,计算机设备将目标词向量的各个区域词向量作为图卷积网络中的图结构的向量节点,可以计算出各个向量节点之间的边权重,便得到了各区域词向量间的边权重,利用得到的边权重生成邻接矩阵,并基于邻接矩阵计算出度矩阵。这样计算机设备可以直接利用邻接矩阵和度矩阵高效地生成组合区域词向量。
在一个实施例中,基于邻接矩阵和度矩阵生成至少两个维度的组合区域词向量包括:确定各区域词向量共同对应的区域词向量矩阵;获取用于生成组合区域词向量矩阵的第二权重矩阵;根据邻接矩阵、度矩阵、区域词向量矩阵和第二权重矩阵生成组合区域词向量矩阵;组合区域词向量矩阵中包括至少两个维度的区域词向量。
其中,区域词向量矩阵指由各区域词向量包含的向量元素作为矩阵元素的矩阵。第二权重矩阵指图卷积网络中的形式为矩阵的随着系统进行训练的权重参数,用于生成组合区域词向量矩阵。
具体地,计算机设备将各区域词向量包含的向量元素作为矩阵元素,形成一个区域词向量矩阵。例如计算机设备生成了目标词向量XT的N个区域词向量Z={Z1,Z2,……,ZN},每个区域向量中包含M个向量元素,计算机设备将N个区域词向量Z中各个区域词向量所包含的向量元素作为矩阵元素,形成区域词向量矩阵Z,区域词向量矩阵Z如图7中的700所示。
计算机设备获取用于生成组合区域词向量矩阵的第二权重矩阵Wg,按照以下公式生成组合区域词向量矩阵O:O=σ(D-1/2AD-1/2ZWg)。其中,D指度矩阵,A指邻接矩阵,Z指区域词向量矩阵,σ为激活函数。进一步地,激活函数σ具体可以是sigmoid函数“sigmoid(x)”。sigmoid函数是一个在生物学中常见的S型函数,也称为S型生长曲线,本实施例中,sigmoid函数作为循环神经网络中的阈值函数。
计算机设备利用激活函数σ可以得到与目标词向量的区域词向量维度相同的组合区域词向量矩阵O,组合区域词向量矩阵O的每一行作为一个维度,每一个维度具有一个组合区域词向量。例如N个区域词向量对应的组合区域词向量矩阵包含J个组合区域词向量,J与N的大小相同。则计算机设备可以得到J个组合区域词向量O={O1,O2,……,OJ}。
上述实施例中,将各区域词向量整体作为一个区域词向量矩阵,并利用用于生成组合区域词向量矩阵的第二权重矩阵,基于邻接矩阵和度矩阵生成区域词向量矩阵对应的组合区域词向量矩阵,并且生成的组合区域词向量矩阵包括至少两个维度的区域词向量,进一步提高了生成组合区域词向量的高效性。
在一个实施例中,如图8所示,将各区域词向量进行组合,得到至少两个维度的组合区域词向量包括:
S802,根据用于生成组合区域词向量的第三权重矩阵确定各区域词向量对应的至少两个预测向量。
其中,第三权重矩阵指胶囊网络(capsule networks)中的形式为矩阵的随着系统进行训练的权重参数,用于生成组合区域词向量矩阵。预测向量指生成组合区域词向量矩阵的过程中的形式为向量的中间变量。
具体地,计算机设备预设的区域向量组合方式可以为基于胶囊网络的区域向量组合方式,计算机设备按照基于胶囊网络的区域向量组合方式将各个区域词向量作为胶囊网络中的胶囊,例如计算机设备生成了目标词向量的N个区域词向量Z={Z1,Z2,……,ZN},便有N个胶囊:Z1,Z2,……,ZN
计算机设备获取用于生成组合区域词向量的第三权重矩阵Wc中的各个矩阵元素Wc ij,其中,i为1至N,N为胶囊的总数量,j为1至第二预设维度的数量,本实施例中第二预设维度的数量大于或等于2且小于或等于N,ij表示第三权重矩阵Wc的第i行第j列。
如图9所示,图9中的901-904为计算机设备按照基于胶囊网络的区域向量组合方式对目标词向量的区域词向量进行组合计算的初始化阶段,905-910为计算机设备按照基于胶囊网络的区域向量组合方式对目标词向量的区域词向量进行组合计算的迭代计算阶段。在初始化阶段,如图9中的903所示,计算机设备可以基于胶囊网络中的各个胶囊,生成获取的第三权重矩阵中的各个矩阵元素Wc ij对应的预测向量Zj|i
S804,获取各区域词向量对应的至少两个先验概率对数。
其中,先验概率对数指生成组合区域词向量矩阵的过程中的形式为向量的临时变量。
具体地,计算机设备从先验概率对数矩阵B中获取各个先验概率对数bij,先验概率对数矩阵B中包括的先验概率对数bij的数量为胶囊的总数量*第二预设维度的数量。如图9中的902所示,由于此时处于初始化阶段,先验概率对数矩阵B中的所有先验概率对数bij均为0。
S806,根据先验概率对数确定各区域词向量对应的耦合系数。
具体地,计算机设备进入迭代计算阶段。在迭代计算阶段,如图9中的905所示,计算机设备对获取的各个先验概率对数bij进行归一化处理:得到各个区域词向量分别与对应的各个待生成的组合区域词向量间的耦合系数Cij
S808,基于耦合系数和预测向量生成至少两个维度的组合区域词向量。
具体地,计算机设备得到耦合系数Cij后,如图9中的906所示,按照以下公式计算加权和Sj:Sj=∑iCijZj|i。如图9中的907所示,计算机设备通过非线性激活函数squash(Sj)生成第二预设维度的组合区域词向量Oj。其中,
S810,根据组合区域词向量重新确定区域词向量对应的先验概率对数。
具体地,如图9中的908所示,计算机设备得到组合区域词向量Oj后,按照以下公式重新确定各区域词向量分别与各组合区域词向量之间的先验概率对数:bij=bij+Zj|i·Oj
S812,继续执行根据先验概率对数确定各区域词向量对应的耦合系数,直到符合预设迭代条件时停止迭代。
具体地,重新确定先验概率对数bij后,返回图9中905的步骤,直到符合预设迭代条件时停止迭代,输出最后一次生成的各个组合区域词向量。预设迭代条件例如可以是预设迭代次数,例如预设迭代次数为3次,则计算机设备检测到当前迭代次数已达到预设迭代次数时,停止迭代,输出第3次生成的各个组合区域词向量。
上述实施例中,计算机设备将目标词向量的各个区域词向量作为胶囊网络中的胶囊,利用胶囊网络中用于生成组合区域词向量的第三权重矩阵生成各区域词向量对应的至少两个预测向量,并获取各区域词向量对应的初始化的至少两个先验概率对数。在基于先验概率对数生成至少两个维度的组合区域词向量的过程中,利用胶囊网络中对于先验概率对数的迭代算法更加高效准确地生成最终的组合区域词向量。
在一个实施例中,根据各组合区域词向量重新确定各区域词向量对应的先验概率对数包括:确定各组合区域词向量与对应的各预测向量间的标量积;将各标量积与对应的先验概率对数进行加和,得到重新确定的各区域词向量对应的先验概率对数。
具体地,如图9中的908所示“Zj|i·Oj”指的就是预测向量Zj|i与组合区域词向量Oj之间的标量积,再将得到的标量积分别与当前的各个先验概率对数进行加和,重新得到多个先验概率对数。例如预测向量Z1|1=(a1,a2,…,an),当前得到的组合区域词向量O1=(c1,c2,…,cn),则Z1|1·O1=a1c1+a2c2+……+ancn。将当前的b11与Z1|1·O1进行加和,得到新的b11=b11+Z1|1·O1
上述实施例中,计算机设备将各组合区域词向量与对应的各预测向量间的标量积与当前的先验概率对数进行加和,得到多个重新确定的先验概率对数,经过多次迭代后先验概率对数的准确率更高,这样便可以更加高效准确地生成最终的组合区域词向量。
在一个实施例中,基于前馈神经网络将各组合区域词向量进行聚集变换处理,得到目标词向量对应的聚集词向量包括:基于前馈神经网络对各组合区域词向量进行变换,得到变换后的组合区域词向量;将各变换后的组合区域词向量进行拼接,得到拼接后的词向量;对拼接后的词向量进行线性变换,得到目标词向量对应的聚集词向量。
具体地,计算机设备按照基于前馈神经网络的预设公式对各组合区域词向量O={O1,O2,……,OJ}进行更深层的变换,得到变换后的组合区域词向量F={f1,f2,……,fJ}。计算机设备将F中的所有变换后的组合区域词向量进行拼接,得到一个拼接后的词向量(f1f2……fJ)。再对拼接后的词向量(f1f2……fJ)进行一次线性变换,得到目标词向量对应的聚集词向量。
上述实施例中,计算机设备基于前馈神经网络对各组合区域词向量进行了更深层次的变换,得到聚集词向量。使得利用基于聚集词向量生成的目标隐状态捕获复杂语言学规律时,对于复杂语言学规律的捕获率高。
在一个实施例中,基于前馈神经网络对各组合区域词向量进行变换,得到变换后的组合区域词向量包括:根据第四权重矩阵和第一偏置向量对各组合区域词向量进行线性变换,得到各组合区域词向量对应的临时词向量;分别选取各临时词向量与向量阈值中的最大向量值;根据第五权重矩阵和第二偏置向量对各最大向量值分别进行线性变换,得到变换后的组合区域词向量。
其中,第四权重矩阵指前馈神经网络中的形式为矩阵的随着系统进行训练的权重参数,用于在前馈神经网络中对各组合区域向量进行第一次的线性变换。第五权重矩阵指前馈神经网络中的形式为矩阵的随着系统进行训练的权重参数,用于在前馈神经网络中对各组合区域向量进行第二次的线性变换。第一偏置向量指前馈神经网络中的形式为向量的随着系统进行训练的偏置参数,用于在前馈神经网络中对各组合区域向量进行第一次的线性变换。第二偏置向量指前馈神经网络中的形式为向量的随着系统进行训练的偏置参数,用于在前馈神经网络中对各组合区域向量进行第二次的线性变换。
具体地,计算机设备获取前馈神经网络中的第四权重矩阵W1和第一偏置向量b1,利用第四权重矩阵W1和第一偏置向量b1对各个组合区域词向量Oj进行第一次线性变换:OjW1+b1,得到各组合区域词向量对应的临时词向量。将各临时词变量分别与向量阈值做比较,选取各临时词变量与向量阈值间的最大向量值。
例如向量阈值为0,则计算机设备将各临时词变量分别与向量阈值0做比较,通过Relu函数“max(0,X)”选取最大向量值max(0,OjW1+b1),将大于向量阈值0的临时词变量作为该临时词变量与向量阈值0中的最大向量值,将大于临时词变量的向量阈值0作为该临时词变量与向量阈值0中的最大向量值。
计算机设备获取前馈神经网络中的第五权重矩阵W2和第二偏置向量b2,利用第四权重矩阵W1和第一偏置向量b1对各个组合区域词向量Oj进行第二次线性变换:max(0,OjW1+b1)W2+b2,得到变换后的组合区域词向量F={f1,f2,……,fJ}。
上述实施例中,计算机设备利用前馈神经网络中的第四权重矩阵和第一偏置向量对各组合区域词向量进行了第一次线性变换后,得到临时词向量,并选取临时词向量与向量阈值中的最大向量值,利用前馈神经网络中的第五权重矩阵和第二偏置向量对最大向量值进行第二次线性变换,得到的变换后的组合区域词向量。计算机设备可以利用该组合区域词向量生成聚集词向量,使得利用基于聚集词向量生成的目标隐状态捕获复杂语言学规律时,对于复杂语言学规律的捕获率高。
在一个实施例中,聚集词向量包括第一聚集词向量和第二聚集词向量,第一聚集词向量与第二聚集词向量不同;基于聚集词向量生成目标词向量对应的目标隐状态包括:基于第一聚集词向量和对应的第一激活函数确定目标词向量对应的候选隐状态;基于第二聚集词向量和对应的第二激活函数确定目标词向量对应的门控参数;根据候选隐状态、门控参数和上一时刻的历史词向量的历史隐状态生成目标词向量对应的目标隐状态。
具体地,计算机设备在生成目标词向量的区域词向量时,要分别基于第一聚集词向量对应的第一权重矩阵和第二聚集词向量对应的第一权重矩阵生成聚集词向量。当计算机设备基于第一聚集词向量对应的第一权重矩阵生成区域词向量时,计算机设备最后得到的目标词向量对应的聚集词向量为第一聚集词向量Mh。当计算机设备基于第二聚集词向量对应的第一权重矩阵生成区域词向量时,计算机设备最后得到的目标词向量对应的聚集词向量为第二聚集词向量Mg
计算机设备通过第一激活函数tanh确定目标词向量的候选隐状态h~t:h~t=tanh(Mh)。计算机设备通过第二激活函数σ确定目标词向量的门控参数gt:gt=σ(Mg)。进一步地,
计算机设备得到目标词向量对应的候选隐状态h~t和门控参数gt后,按照以下公式计算目标词向量的目标隐状态ht:ht=(1-gt)⊙ht-1+gt⊙h~t。其中,⊙是元素积运算符,“(1-gt)⊙ht-1”指对(1-gt)和ht-1进行元素积的运算,“gt⊙h~t”指对gt和h~t进行元素积的运算。
上述实施例中,由于第一聚集词向量和第二聚集词向量都是对目标词向量进行多维度的转换处理得到的,这样基于第一聚集词向量得到的候选隐状态和基于第二聚集词向量得到的门控参数更加的精确,这样利用基于更加精确的候选隐状态和门控参数得到的目标隐状态捕获复杂语言学规律时,对于复杂语言学规律的捕获率高。
在一个实施例中,如图10所示,用于语言处理的循环神经网络中隐状态的生成方法可以包括以下步骤:
S1002,计算机设备按照区域词向量生成公式生成第一预设维度的区域词向量。
具体地,如图11中的1101所示,区域词向量生成公式为:Zi=Wi[Xt,ht-1]。例如第一预设维度为N,则i为1至N,计算机设备得到的N个维度的区域词向量可以表示为Z={Z1,Z2,……,ZN}。
S1004,计算机设备按照预设的区域向量组合方式对第一预设维度的区域词向量进行组合计算,得到第二预设维度的组合区域词向量。
具体地,如图11中的1102所示,计算机设备对得到的N个维度的区域词向量Z={Z1,Z2,……,ZN}进行组合计算,例如第二预设维度为J,则计算机设备可以得到J个组合区域词向量O={O1,O2,……,OJ}。J可以等于N,也可以不等于N。例如当预设的区域向量组合方式为基于图卷积的区域向量组合方式时,第二预设维度J等于第一预设维度N。当预设的区域向量组合方式为基于胶囊网络的区域向量组合方式时,第二预设维度J大于或等于2,且小于或等于第一预设维度N。
S1006,基于前馈神经网络对各组合区域词向量进行深层变换,得到第二预设维度的中间区域词向量。
具体地,如图11中的1103所示,FFN指基于前馈神经网络对各组合区域词向量进行深层变换的过程。进一步地,计算机设备对各个组合区域词向量进行FFN处理时,具体可以按照以下公式生成各个中间区域词向量fj:fj=max(0,OjW1+b1)W2+b2。例如第二预设维度为J,则计算机设备可以生成J个中间区域词向量F={f1,f2,……,fJ}。
S1008,计算机设备将第二预设维度的中间区域词向量进行拼接,得到拼接词向量,并对拼接词向量进行一次线性变换,得到聚集词向量。
具体地,如图11中的1103所示,“Concat&Linear”便指计算机设备将J个中间区域词向量F={f1,f2,……,fJ}进行拼接(Concat)后,再进行一次线性变换(Linear)。
S1010,计算机设备基于聚集词向量生成目标词向量对应的目标隐状态。
具体地,聚集词向量分为第一聚集词向量Mh和第二聚集词向量Mg。计算机设备可以基于第一聚集词向量Mh和第二聚集词向量Mg计算候选隐状态h~t和门控参数gt:候选隐状态h~t=tanh(Mh),门控参数gt=σ(Mg)。这样,计算机设备便可以基于候选隐状态h~t和门控参数gt计算目标词向量的目标隐状态ht:目标隐状态ht=(1-gt)⊙ht-1+gt⊙h~t
在一个实施例中,例如在人机对话的应用场景中,计算机设备接收到变长的语音信息,计算机设备将每一时刻接收到的语音信息转换为文本信息,并将该文本信息映射为目标词向量,通过上述任一实施例中用于语言处理的循环神经网络中隐状态的生成方法中的步骤,生成各个目标词向量的目标隐状态。
计算机设备可以计算生成的多个目标隐状态的平均隐状态,将该平均隐状态作为ht-1,Xt为0向量。基于ht-1和Xt计算第一聚集词向量Mh和第二聚集词向量Mg。计算机设备基于第一聚集词向量Mh和第二聚集词向量Mg计算候选隐状态h~t和门控参数gt:候选隐状态h~t=tanh(Mh),门控参数gt=σ(Mg),并按照公式ht=(1-gt)⊙ht-1+gt⊙h~t,得到中间隐状态ht。例如中间隐状态ht为一个包含100个向量元素的向量,则可以用中间隐状态ht与包含100*Y的权重矩阵Wv相乘,得到包含Y个向量元素的中间向量。通过softmax(中间向量),可以得到Y个概率值,每一个概率值代表对应单词表中的一个词的概率。例如Y为10000,则计算机设备可以得到10000个概率值。
计算机设备将Y个概率值中的最大概率值对应的词作为当前人机对话计算机设备需要做出答复的第一个词。计算机设备将计算机设备需要做出答复的第一个词的词向量作为Xt,将中间隐状态ht作为ht-1,继续执行基于ht-1和Xt计算第一聚集词向量Mh和第二聚集词向量Mg的步骤,按照同样的计算步骤,计算机设备可以得到需要做出答复的第二个词、第三个词、第四个词……。直到得到的最大概率值符合结束条件,则结束迭代。进一步地,结束条件可以为最大概率值对应的词为指定的结束符号。
图2、3、8和10为一个实施例中用于语言处理的循环神经网络中隐状态的生成方法的流程示意图。应该理解的是,虽然图2、3、8和10的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、3、8和10中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图12所示,提供了一种用于语言处理的循环神经网络中隐状态的生成装置1200,该装置包括区域词向量生成模块1201、区域词向量组合模块1202、聚集变换处理模块1203和目标隐状态生成模块1204,其中:
区域词向量生成模块1201,用于生成当前时刻输入的目标词向量的至少两个维度的区域词向量。
区域词向量组合模块1202,用于将各区域词向量进行组合,得到至少两个维度的组合区域词向量。
聚集变换处理模块1203,用于基于前馈神经网络将各组合区域词向量进行聚集变换处理,得到目标词向量对应的聚集词向量。
目标隐状态生成模块1204,用于基于聚集词向量生成目标词向量对应的目标隐状态。
在一个实施例中,区域词向量生成模块还用于:获取至少两个第一权重矩阵,每个第一权重矩阵用于生成对应的区域词向量;确定当前时刻输入的目标词向量,并获取上一时刻的历史词向量对应的历史隐状态;基于第一权重矩阵和历史隐状态生成目标词向量的至少两个维度的区域词向量。
在一个实施例中,区域词向量生成模块还用于:将目标词向量与历史隐状态进行拼接,得到拼接词向量;根据拼接词向量和第一权重矩阵生成区域词向量矩阵;区域词向量矩阵包括至少两个维度的区域词向量。
在一个实施例中,区域词向量组合模块还用于:确定各区域词向量间的边权重;按照确定的各边权重生成各区域词向量共同对应的邻接矩阵;分别将邻接矩阵中各维度的各边权重进行加和,得到度矩阵;基于邻接矩阵和度矩阵生成至少两个维度的组合区域词向量。
在一个实施例中,区域词向量组合模块还用于:确定各区域词向量共同对应的区域词向量矩阵;获取用于生成组合区域词向量矩阵的第二权重矩阵;根据邻接矩阵、度矩阵、区域词向量矩阵和第二权重矩阵生成组合区域词向量矩阵;组合区域词向量矩阵中包括至少两个维度的区域词向量。
在一个实施例中,区域词向量组合模块还用于:根据用于生成组合区域词向量的第三权重矩阵确定各区域词向量对应的至少两个预测向量;获取各区域词向量对应的至少两个先验概率对数;根据先验概率对数确定各区域词向量对应的耦合系数;基于耦合系数和预测向量生成至少两个维度的组合区域词向量;根据组合区域词向量重新确定区域词向量对应的先验概率对数;继续执行根据先验概率对数确定各区域词向量对应的耦合系数,直到符合预设迭代条件时停止迭代。
在一个实施例中,区域词向量组合模块还用于:确定各组合区域词向量与对应的各预测向量间的标量积;将各标量积与对应的先验概率对数进行加和,得到重新确定的各区域词向量对应的先验概率对数。
在一个实施例中,聚集变换处理模块还用于:基于前馈神经网络对各组合区域词向量进行变换,得到变换后的组合区域词向量;将各变换后的组合区域词向量进行拼接,得到拼接后的词向量;对拼接后的词向量进行线性变换,得到目标词向量对应的聚集词向量。
在一个实施例中,聚集变换处理模块还用于:根据第四权重矩阵和第一偏置向量对各组合区域词向量进行线性变换,得到各组合区域词向量对应的临时词向量;分别选取各临时词向量与向量阈值中的最大向量值;根据第五权重矩阵和第二偏置向量对各最大向量值分别进行线性变换,得到变换后的组合区域词向量。
在一个实施例中,聚集词向量包括第一聚集词向量和第二聚集词向量,第一聚集词向量与第二聚集词向量不同;目标隐状态生成模块还用于:基于第一聚集词向量和对应的第一激活函数确定目标词向量对应的候选隐状态;基于第二聚集词向量和对应的第二激活函数确定目标词向量对应的门控参数;根据候选隐状态、门控参数和上一时刻的历史词向量的历史隐状态生成目标词向量对应的目标隐状态。
图1示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端或服务器。如图1所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。可以理解的是,当计算机设备为终端时,该计算机设备还可以包括显示屏和输入装置等。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现用于语言处理的循环神经网络中隐状态的生成方法。
该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行用于语言处理的循环神经网络中隐状态的生成方法。当计算机设备为终端时,计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的用于语言处理的循环神经网络中隐状态的生成装置可以实现为一种计算机程序的形式,计算机程序可在如图1所示的计算机设备上运行。计算机设备的存储器中可存储组成该用于语言处理的循环神经网络中隐状态的生成装置的各个程序模块,比如,图12所示的区域词向量生成模块1201、区域词向量组合模块1202、聚集变换处理模块1203和目标隐状态生成模块1204。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的用于语言处理的循环神经网络中隐状态的生成方法中的步骤。
例如,图1所示的计算机设备可以通过如图12所示的用于语言处理的循环神经网络中隐状态的生成装置1200中的区域词向量生成模块1201执行生成当前时刻输入的目标词向量的至少两个维度的区域词向量。计算机设备可通过区域词向量组合模块1202执行将各区域词向量进行组合,得到至少两个维度的组合区域词向量。计算机设备可通过聚集变换处理模块1203执行基于前馈神经网络将各组合区域词向量进行聚集变换处理,得到目标词向量对应的聚集词向量。计算机设备可通过目标隐状态生成模块1204执行基于聚集词向量生成目标词向量对应的目标隐状态。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述用于语言处理的循环神经网络中隐状态的生成方法的步骤。此处用于语言处理的循环神经网络中隐状态的生成方法的步骤可以是上述各个实施例的用于语言处理的循环神经网络中隐状态的生成方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述用于语言处理的循环神经网络中隐状态的生成方法的步骤。此处用于语言处理的循环神经网络中隐状态的生成方法的步骤可以是上述各个实施例的用于语言处理的循环神经网络中隐状态的生成方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施按照预设的,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种用于语言处理的循环神经网络中隐状态的生成方法,包括:
生成当前时刻输入的目标词向量的至少两个维度的区域词向量;
将各所述区域词向量进行组合,得到至少两个维度的组合区域词向量;
基于前馈神经网络将各所述组合区域词向量进行聚集变换处理,得到所述目标词向量对应的聚集词向量;
基于所述聚集词向量生成所述目标词向量对应的目标隐状态。
2.根据权利要求1所述的方法,其特征在于,所述生成当前时刻输入的目标词向量的至少两个维度的区域词向量包括:
获取至少两个第一权重矩阵,每个所述第一权重矩阵用于生成对应的区域词向量;
确定当前时刻输入的目标词向量,并获取上一时刻的历史词向量对应的历史隐状态;
基于所述第一权重矩阵和所述历史隐状态生成所述目标词向量的至少两个维度的区域词向量。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一权重矩阵和所述历史隐状态生成所述目标词向量的至少两个维度的区域词向量包括:
将所述目标词向量与所述历史隐状态进行拼接,得到拼接词向量;
根据所述拼接词向量和所述第一权重矩阵生成区域词向量矩阵;所述区域词向量矩阵包括至少两个维度的区域词向量。
4.根据权利要求1所述的方法,其特征在于,所述将各所述区域词向量进行组合,得到至少两个维度的组合区域词向量包括:
确定各所述区域词向量间的边权重;
按照确定的各所述边权重生成各所述区域词向量共同对应的邻接矩阵;
分别将所述邻接矩阵中各维度的各所述边权重进行加和,得到度矩阵;
基于所述邻接矩阵和所述度矩阵生成至少两个维度的组合区域词向量。
5.根据权利要求4所述的方法,其特征在于,所述基于所述邻接矩阵和所述度矩阵生成至少两个维度的组合区域词向量包括:
确定各所述区域词向量共同对应的区域词向量矩阵;
获取用于生成组合区域词向量矩阵的第二权重矩阵;
根据所述邻接矩阵、所述度矩阵、所述区域词向量矩阵和所述第二权重矩阵生成组合区域词向量矩阵;所述组合区域词向量矩阵中包括至少两个维度的区域词向量。
6.根据权利要求1所述的方法,其特征在于,所述将各所述区域词向量进行组合,得到至少两个维度的组合区域词向量包括:
根据用于生成组合区域词向量的第三权重矩阵确定各所述区域词向量对应的至少两个预测向量;
获取各所述区域词向量对应的至少两个先验概率对数;
根据所述先验概率对数确定各所述区域词向量对应的耦合系数;
基于所述耦合系数和所述预测向量生成至少两个维度的组合区域词向量;
根据所述组合区域词向量重新确定所述区域词向量对应的先验概率对数;
继续执行所述根据所述先验概率对数确定各所述区域词向量对应的耦合系数,直到符合预设迭代条件时停止迭代。
7.根据权利要求6所述的方法,其特征在于,所述根据各所述组合区域词向量重新确定各所述区域词向量对应的先验概率对数包括:
确定各所述组合区域词向量与对应的各预测向量间的标量积;
将各所述标量积与对应的先验概率对数进行加和,得到重新确定的各所述区域词向量对应的先验概率对数。
8.根据权利要求1所述的方法,其特征在于,所述基于前馈神经网络将各所述组合区域词向量进行聚集变换处理,得到所述目标词向量对应的聚集词向量包括:
基于前馈神经网络对各所述组合区域词向量进行变换,得到变换后的组合区域词向量;
将各变换后的组合区域词向量进行拼接,得到拼接后的词向量;
对拼接后的词向量进行线性变换,得到所述目标词向量对应的聚集词向量。
9.根据权利要求8所述的方法,其特征在于,所述基于前馈神经网络对各所述组合区域词向量进行变换,得到变换后的组合区域词向量包括:
根据第四权重矩阵和第一偏置向量对各所述组合区域词向量进行线性变换,得到各组合区域词向量对应的临时词向量;
分别选取各所述临时词向量与向量阈值中的最大向量值;
根据第五权重矩阵和第二偏置向量对各所述最大向量值分别进行线性变换,得到变换后的组合区域词向量。
10.根据权利要求1至9中任一项所述的方法,其特征在于,所述聚集词向量包括第一聚集词向量和第二聚集词向量,所述第一聚集词向量与所述第二聚集词向量不同;所述基于所述聚集词向量生成所述目标词向量对应的目标隐状态包括:
基于所述第一聚集词向量和对应的第一激活函数确定所述目标词向量对应的候选隐状态;
基于所述第二聚集词向量和对应的第二激活函数确定所述目标词向量对应的门控参数;
根据所述候选隐状态、所述门控参数和上一时刻的历史词向量的历史隐状态生成所述目标词向量对应的目标隐状态。
11.一种用于语言处理的循环神经网络中隐状态的生成装置,包括:
区域词向量生成模块,用于生成当前时刻输入的目标词向量的至少两个维度的区域词向量;
区域词向量组合模块,用于将各所述区域词向量进行组合,得到至少两个维度的组合区域词向量;
聚集变换处理模块,用于基于前馈神经网络将各所述组合区域词向量进行聚集变换处理,得到所述目标词向量对应的聚集词向量;
目标隐状态生成模块,用于基于所述聚集词向量生成所述目标词向量对应的目标隐状态。
12.根据权利要求11所述的装置,其特征在于,所述区域词向量生成模块还用于:
获取至少两个第一权重矩阵,每个所述第一权重矩阵用于生成对应的区域词向量;
确定当前时刻输入的目标词向量,并获取上一时刻的历史词向量对应的历史隐状态;
基于所述第一权重矩阵和所述历史隐状态生成所述目标词向量的至少两个维度的区域词向量。
13.根据权利要求12所述的装置,其特征在于,所述区域词向量生成模块还用于:
将所述目标词向量与所述历史隐状态进行拼接,得到拼接词向量;
根据所述拼接词向量和所述第一权重矩阵生成区域词向量矩阵;所述区域词向量矩阵包括至少两个维度的区域词向量。
14.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至10中任一项所述方法的步骤。
15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至10中任一项所述方法的步骤。
CN201910309929.5A 2019-04-17 2019-04-17 用于语言处理的循环神经网络中隐状态的生成方法和装置 Pending CN110162783A (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201910309929.5A CN110162783A (zh) 2019-04-17 2019-04-17 用于语言处理的循环神经网络中隐状态的生成方法和装置
JP2021525643A JP7299317B2 (ja) 2019-04-17 2020-03-25 言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法及び装置
PCT/CN2020/081177 WO2020211611A1 (zh) 2019-04-17 2020-03-25 用于语言处理的循环神经网络中隐状态的生成方法和装置
EP20790836.9A EP3958148A4 (en) 2019-04-17 2020-03-25 METHOD AND DEVICE FOR GENERATION OF HIDDEN STATE IN A NEURAL NETWORK FOR LANGUAGE PROCESSING
US17/332,318 US20210286953A1 (en) 2019-04-17 2021-05-27 Method and apparatus for generating hidden state in recurrent neural network for language processing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910309929.5A CN110162783A (zh) 2019-04-17 2019-04-17 用于语言处理的循环神经网络中隐状态的生成方法和装置

Publications (1)

Publication Number Publication Date
CN110162783A true CN110162783A (zh) 2019-08-23

Family

ID=67639625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910309929.5A Pending CN110162783A (zh) 2019-04-17 2019-04-17 用于语言处理的循环神经网络中隐状态的生成方法和装置

Country Status (5)

Country Link
US (1) US20210286953A1 (zh)
EP (1) EP3958148A4 (zh)
JP (1) JP7299317B2 (zh)
CN (1) CN110162783A (zh)
WO (1) WO2020211611A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274818A (zh) * 2020-01-17 2020-06-12 腾讯科技(深圳)有限公司 词向量的生成方法、装置
WO2020211611A1 (zh) * 2019-04-17 2020-10-22 腾讯科技(深圳)有限公司 用于语言处理的循环神经网络中隐状态的生成方法和装置
CN112036546A (zh) * 2020-08-24 2020-12-04 上海交通大学 序列处理方法及相关设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116363712B (zh) * 2023-03-21 2023-10-31 中国矿业大学 一种基于模态信息度评估策略的掌纹掌静脉识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107358948A (zh) * 2017-06-27 2017-11-17 上海交通大学 基于注意力模型的语言输入关联性检测方法
CN108563624A (zh) * 2018-01-03 2018-09-21 清华大学深圳研究生院 一种基于深度学习的自然语言生成方法
CN108874785A (zh) * 2018-06-01 2018-11-23 清华大学 一种翻译处理方法及系统
US20180357225A1 (en) * 2017-06-13 2018-12-13 Beijing Baidu Netcom Science And Technology Co., Ltd. Method for generating chatting data based on artificial intelligence, computer device and computer-readable storage medium
US20190278835A1 (en) * 2018-03-08 2019-09-12 Adobe Inc. Abstractive summarization of long documents using deep learning

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10152673B2 (en) * 2013-06-21 2018-12-11 Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi Method for pseudo-recurrent processing of data using a feedforward neural network architecture
KR101778679B1 (ko) * 2015-10-02 2017-09-14 네이버 주식회사 딥러닝을 이용하여 텍스트 단어 및 기호 시퀀스를 값으로 하는 복수 개의 인자들로 표현된 데이터를 자동으로 분류하는 방법 및 시스템
US20180129742A1 (en) * 2016-11-10 2018-05-10 Qualcomm Incorporated Natural language object tracking
US10255269B2 (en) * 2016-12-30 2019-04-09 Microsoft Technology Licensing, Llc Graph long short term memory for syntactic relationship discovery
EP3385862A1 (en) * 2017-04-03 2018-10-10 Siemens Aktiengesellschaft A method and apparatus for performing hierarchical entity classification
JP6712973B2 (ja) * 2017-09-01 2020-06-24 日本電信電話株式会社 文生成装置、文生成学習装置、文生成方法、及びプログラム
US10515155B2 (en) * 2018-02-09 2019-12-24 Digital Genius Limited Conversational agent
CN108595601A (zh) * 2018-04-20 2018-09-28 福州大学 一种融入Attention机制的长文本情感分析方法
US11010559B2 (en) * 2018-08-30 2021-05-18 International Business Machines Corporation Multi-aspect sentiment analysis by collaborative attention allocation
CN109492157B (zh) * 2018-10-24 2021-08-31 华侨大学 基于rnn、注意力机制的新闻推荐方法及主题表征方法
CN109472031B (zh) * 2018-11-09 2021-05-04 电子科技大学 一种基于双记忆注意力的方面级别情感分类模型及方法
CN109800294B (zh) * 2019-01-08 2020-10-13 中国科学院自动化研究所 基于物理环境博弈的自主进化智能对话方法、系统、装置
US11880666B2 (en) * 2019-02-01 2024-01-23 Asapp, Inc. Generating conversation descriptions using neural networks
US11461638B2 (en) * 2019-03-07 2022-10-04 Adobe Inc. Figure captioning system and related methods
CN110162783A (zh) * 2019-04-17 2019-08-23 腾讯科技(深圳)有限公司 用于语言处理的循环神经网络中隐状态的生成方法和装置
EP3893163A1 (en) * 2020-04-09 2021-10-13 Naver Corporation End-to-end graph convolution network

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180357225A1 (en) * 2017-06-13 2018-12-13 Beijing Baidu Netcom Science And Technology Co., Ltd. Method for generating chatting data based on artificial intelligence, computer device and computer-readable storage medium
CN107358948A (zh) * 2017-06-27 2017-11-17 上海交通大学 基于注意力模型的语言输入关联性检测方法
CN108563624A (zh) * 2018-01-03 2018-09-21 清华大学深圳研究生院 一种基于深度学习的自然语言生成方法
US20190278835A1 (en) * 2018-03-08 2019-09-12 Adobe Inc. Abstractive summarization of long documents using deep learning
CN108874785A (zh) * 2018-06-01 2018-11-23 清华大学 一种翻译处理方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ASHISH VASWANI: "Attention Is All You Need", HTTPS://ARXIV.ORG/PDF/1706.03762V1.PDF, 12 June 2017 (2017-06-12), pages 3 - 5 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020211611A1 (zh) * 2019-04-17 2020-10-22 腾讯科技(深圳)有限公司 用于语言处理的循环神经网络中隐状态的生成方法和装置
CN111274818A (zh) * 2020-01-17 2020-06-12 腾讯科技(深圳)有限公司 词向量的生成方法、装置
CN111274818B (zh) * 2020-01-17 2023-07-14 腾讯科技(深圳)有限公司 词向量的生成方法、装置
CN112036546A (zh) * 2020-08-24 2020-12-04 上海交通大学 序列处理方法及相关设备
CN112036546B (zh) * 2020-08-24 2023-11-17 上海交通大学 序列处理方法及相关设备

Also Published As

Publication number Publication date
JP7299317B2 (ja) 2023-06-27
US20210286953A1 (en) 2021-09-16
EP3958148A4 (en) 2022-06-15
EP3958148A1 (en) 2022-02-23
WO2020211611A1 (zh) 2020-10-22
JP2022507189A (ja) 2022-01-18

Similar Documents

Publication Publication Date Title
CN110162783A (zh) 用于语言处理的循环神经网络中隐状态的生成方法和装置
CN111078836B (zh) 基于外部知识增强的机器阅读理解方法、系统、装置
CN110472242B (zh) 一种文本处理方法、装置和计算机可读存储介质
CN109992773B (zh) 基于多任务学习的词向量训练方法、系统、设备及介质
CN113535904B (zh) 一种基于图神经网络的方面级情感分析方法
CN110427625A (zh) 语句补全方法、装置、介质及对话处理系统
CN109766557A (zh) 一种情感分析方法、装置、存储介质及终端设备
CN107679225B (zh) 一种基于关键词的回复生成方法
CN110135441A (zh) 一种图像的文本描述方法及装置
CN110264270A (zh) 一种行为预测方法、装置、设备和存储介质
CN112347756A (zh) 一种基于序列化证据抽取的推理阅读理解方法及系统
Prabhudesai et al. Automatic short answer grading using Siamese bidirectional LSTM based regression
CN111444399A (zh) 回复内容的生成方法、装置、设备及可读存储介质
Hong et al. Selective residual learning for visual question answering
CN111882048A (zh) 一种神经网络结构搜索方法及相关设备
Jin et al. Dual low-rank multimodal fusion
CN112241802A (zh) 一种风电功率的区间预测方法
CN117421571A (zh) 一种基于配电网的拓扑实时辨识方法及系统
Gajić et al. Behavior analysis of the new PSO-CGSA algorithm in solving the combined economic emission dispatch using non-parametric tests
Ferreira et al. Investigating the use of reservoir computing for forecasting the hourly wind speed in short-term
CN114792097B (zh) 预训练模型提示向量的确定方法、装置及电子设备
CN114372418A (zh) 一种风电功率时空态势描述模型建立方法
Omarov et al. Bidirectional long-short-term memory with attention mechanism for emotion analysis in textual content
Rathi et al. Visual Question Generation Using Deep Learning
Chen Transform, contrast and tell: Coherent entity-aware multi-image captioning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination