CN115457654A

CN115457654A - 一种基于人体关键点的实时视频流手语识别方法

Info

Publication number: CN115457654A
Application number: CN202211054559.3A
Authority: CN
Inventors: 郑雅羽; 张子涵; 张钦楠
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2022-12-09

Abstract

本发明涉及一种基于人体关键点的实时视频流手语识别方法，逐帧读取手语视频流，采用人体姿态估计网络提取人体关键点；基于累积的差异度判断手语动作开始、动作静止，以卷积神经网络判断结束动作；结束后，保存从手语动作开始到结束的时间段内所有帧的人体关键点数据，以时空图卷积网络对人体关键点序列进行特征提取，将得到的特征序列输入编码器‑解码器网络，输出完整的句子，实现连续手语识别。本发明可以进行实时视频流的连续手语识别，可以避免人物衣着、环境光照等因素对算法的影响，能够有效提升语句级的连续手语识别的精度。

Description

一种基于人体关键点的实时视频流手语识别方法

技术领域

本发明涉及计算；推算或计数的技术领域，特别涉及一种图像处理与模式识别领域的基于人体关键点的实时视频流手语识别方法。

背景技术

听障者无法便捷地获取信息和表达意愿，往往在社交、教育、就业等方面存在诸多困难，这是因为大部分的听障者通常采用手语进行交流，然而能够理解手语的听人是极少的。手语作为一门视觉语言，与普通人使用的听觉语言存在语法、表达上的不同，在不同的国家和地区，手语往往也存在差异。手语识别技术旨在将不同地区和国家的手语翻译为对应的书面语言，解决听障者的沟通难题。

手语识别技术通常以手语图像或视频作为输入，对不同的手语动作进行特征提取和分类，最终输出文本语句。目前手语识别分为孤立词识别和连续语句识别，前者是对单个手语词汇的识别，后者是对一系列手语词汇组成的完整语句的识别。显然，对于连续语句的手语识别更具有实际意义。目前的连续语句手语识别仅关注单个语句的识别，对于视频长度往往有限制，对于包含多句手语语句的视频，需要通过人为的分割，然而实际应用中，往往面临的是视频流信息，通常的连续手语识别方法难以端到端地进行实时手语识别。

论文“Spatial Temporal Graph Convolutional Networks for Skeleton-BasedAction Recognition”将时空图卷积方法引入了动作识别领域，对于手语识别领域的研究具有重要的意义，目前是手语识别的常用方法之一。

编码器-解码器模型常用于序列到序列的转换问题，连续手语识别也可以看作是视频序列到词语序列的转换问题，因此，编码器-解码器模型对于解决手语识别问题非常有效。

申请号为CN202010301154.X的中国专利公开了一种手语识别方法和系统，该方法先将采集的视频帧通过卷积神经网络提取特征帧，再将特征帧输入到预设的分层长短期记忆网络，提取有效帧，最后将有效帧输入到预设的手语识别模型，输出与手语视频对齐的目标语句文本。该方法基于 RGB图像进行特征提取，识别效果可能受环境等因素影响，且仅适用于一定长度内的手语视频的识别，难以处理视频流信息。

申请号为CN202010648991.X的中国专利公开了一种基于时空语义特征的手语识别系统及方法，该方法首先对输入的手语视频数据进行数据预处理及分帧处理，再将分帧后的一系列视频片段通过时空特征模块进行特征提取，接着通过对特征序列的语义挖掘及解码处理，最终输出对应的文本信息。该方法使用长度固定的分帧策略，仅使用于单句话的识别场景，当对视频流进行处理时，不能很好地区分前后语句，容易导致翻译的语义混乱。

发明内容

本发明解决了现有技术中存在的问题，提供了一种基于人体关键点的实时视频流手语识别方法，针对实时的视频流，解决了视频流手语语句分割的问题，基于人体关键点，有效降低任务衣着、环境光照的等因素对算法的影响；通过本发明可以对较长的手语视频流或实时手语视频流进行语句级的手语识别。

本发明所采用的技术方案是，一种基于人体关键点的实时视频流手语识别方法，所述方法包括以下步骤：

步骤1：逐帧读取输入的手语视频流；

步骤2：采用人体姿态估计网络，提取步骤1读取的任一帧图像中的人体关键点，包括但不限于头部、躯干、双手的节点，用于标识人体姿态；

步骤3：逐帧计算当前帧与上一帧的动作差异度并进行累加；

步骤4：当t时间内累积的差异度高于阈值T1时，判定为手语动作开始；当差异度低于阈值T2时，判定为动作静止，采用卷积神经网络判断当前帧动作是否为结束动作；T1>T2＞0；

步骤5：保存从手语动作开始到结束的时间段内，所有帧的人体关键点数据，得到人体关键点序列；

步骤6：采用时空图卷积网络，对步骤5中的人体关键点序列进行特征提取，得到特征序列X；

步骤7：采用编码器-解码器网络，以步骤6中的特征序列X作为输入，输出完整的句子，实现连续手语识别。

优选地，所述步骤2包括以下步骤：

步骤2.1：将任一帧图像输入人体姿态估计网络，输出关键点信息v，

v＝{(x₁，y₁，c₁)，(x₂，y₂，c₂)，…，(x_M，y_M，c_M)}

其中M表示输出的关键点个数，以x_i、yi、c_i分别表示第i个关键点的x坐标、y坐标和预测置信度，M≥1，i为关键点的索引；

步骤2.2：筛选对于手语识别的关键点，记为

v′＝{(x₁，y₁，c₁)，(x₂，y₂，c₂)，…，(x_N，y_N，c_N)}

其中，N为关键点个数，1≤N≤M。

优选地，所述步骤3包括以下步骤：

步骤3.1：读取当前帧的关键点坐标，

P＝{(x₁，y₁)，(x₂，y₂)，…，(x_N，y_N)}

以P_cur为当前帧的关键点坐标集合，以P_pre为上一帧的关键点坐标集合，若当前帧是视频流的第一帧，则令P_cur＝P，P_pre＝P，否则，令P_cur＝P；

步骤3.2：使用当前帧与上一帧对应的关键点之间的欧氏距离计算相邻帧的关键点在空间上的差异度δ，

其中，x_cur_i和y_cur_i分别表示当前帧的关键点坐标集合P_cur中第i个关键点的x坐标和y坐标；x_pre_i和y_pre_i分别表示前一帧关键点坐标集合P_pre中第i个关键点的x坐标和y坐标；

步骤3.3：重复步骤3.2，将差异度δ保存在队列中；队列长度为L， L＝t×fps，其中t表示时间阈值，听障人士在表演手语时，会以短暂的停顿表示一句完整语句的结束，t根据停顿时间进行设置，通常可以取t＝0.3s， fps表示视频流每秒传输的帧数。

优选地，所述步骤4中，对于t时间内累积的差异度S，当S>T1时，表示手语动作开始，当S<T2时，表示动作静止，把当前帧图像输入卷积神经网络中，若判断为无效手语动作，则表示手语动作结束。T1、T2可以根据节点数量选取合适的值，T1＞T2可以防止频繁跳变。

本发明中，所述的卷积神经网络为图像分类网络，对于有效手语动作和无效手语动作进行二分类；其中无效手语动作可以为双手自然放下或双手抱腹等。

优选地，所述步骤5包括以下步骤：

步骤5.1：保存一段手语动作的所有帧的人体关键点信息序列V，

V＝{v₁,v₂,...,v_L}

其中，L表示这一段手语动作的帧数；

步骤5.2：基于时空图卷积模型的输入维度，采用抽帧或补空帧的方法把步骤3.3中关键点信息序列长度调整为T_in，T_in由时空图卷积模型的输入维度决定。

优选地，所述步骤6中，时空图卷积网络对输入数据进行空间图卷积和时间图卷积处理；以步骤2选定的关键点为图的节点，按人体结构连接成边，形成空间边，将邻帧的相同节点连接成边，形成时间边。

优选地，所述时空图卷积网络由10个时空图卷积单元构成，加入全局池化层，得到特征序列，

X＝(x₁,x₂,...,x_T′)

其中，T3＝1,2,...4_in；

任一时空图卷积单元包括空间图卷积网络和时间图卷积网络。

优选地，所述空间图卷积的图划分策略采用空间构型划分，第一个子集连接了空间位置上比根节点更远离整个骨架的邻居节点，表示手语中的离心运动，第二个子集连接了更靠近中心的邻居节点，表示手语中的近心运动，第三个子集为根节点本身，表示手语中的静止运动。

优选地，所述空间图卷积公式为，

其中f_in表示输入特征序列，维度为

其中，C_in表示节点信息数据的维度，T_in表示输入帧数，N表示节点的数量；f_out表示输出特征序列，维度为

其中，C_out表示输出特征维度，Tout表示输出帧数； A_j表示根据图划分策略构成的归一化邻接矩阵；W_j表示权重矩阵。

本发明中，时间图卷积以大小为(kernel_size,1)的卷积核学习与当前帧相邻的kernel_size个关键帧中相同节点的变化特征。

优选地，所述步骤7包括以下步骤：

步骤7.1：将步骤6得到的特征序列X传入编码器的循环层，得到第i 个递归单元的输出o_i，

o_i＝Encoder(x_i,o_i-1)

其中，x_i为X中第i个特征向量，i为正整数，o₀为零向量；

步骤7.2：通过前一时刻的隐藏状态h_j-1和前一时刻输出的词嵌入g_j-1，解码器生成下一时刻的输出y_j，更新隐藏状态h_j，

y_j,h_j＝Decoder(g_j-1,h_j-1)

g_j-1＝wordEmbedding(y_j-1)

其中，初始隐藏状态h₀为步骤7.1中最后一个编码单元o_[对应的隐藏状态，设定初始输出y₀的标识作为序列开始的标识；

步骤7.3：当序列结束标识出现时，完成输出，得到输出的词语序列 Y＝{y₁,y₂,...,y_p}，拼接输出的词语序列，得到句子。

本发明涉及一种基于人体关键点的实时视频流手语识别方法，逐帧读取输入的手语视频流后，采用人体姿态估计网络提取读取的任一帧图像中的人体关键点；逐帧计算当前帧与上一帧的动作差异度并进行累加，基于t 时间内累积的差异度判断手语动作开始、动作静止，并以卷积神经网络判断当前帧动作是否为结束动作；结束后，保存从手语动作开始到结束的时间段内所有帧的人体关键点数据，采用时空图卷积网络对人体关键点序列进行特征提取，将得到的特征序列X输入编码器-解码器网络，输出完整的句子，实现连续手语识别。

本发明的有益效果在于：

(1)通过对实时手语视频流的分割，得到语句级的手语视频片段，从而可以进行实时视频流的连续手语识别；

(2)基于人体关键点，可以避免人物衣着、环境光照等因素对算法的影响；

(3)采用时空图卷积网络结合编码器-解码器结构的方法，能够有效提升语句级的连续手语识别的精度。

附图说明

图1是本发明的整体流程示意图；

图2是本发明中手语识别相关人体关键点示意图；

图3是本发明实施例中步骤4的流程图。

具体实施方式

下面结合实施例对本发明做进一步的详细描述，但本发明的保护范围并不限于此。

如图1所示，本发明涉及一种基于人体关键点的实时视频流手语识别方法流程图，其包括以下步骤：

步骤1：逐帧读取输入的手语视频流；

步骤2：采用人体姿态估计算法提取步骤1读取的图像帧中人体关键点；

所述步骤2包括：

步骤2.1：将当前图像帧输入人体姿态估计网络中，输出关键点信息：

v＝{(x₁,y₁,c₁),(x₂,y₂,c₂),...,(x_M,y_M,c_M)}

其中M表示输出的关键点个数，以x_i、y_i、c_i分别表示第i个关键点的 x坐标、y坐标和预测置信度，M≥1，i为关键点的索引；

本实施例中采用OpenPose进行人体姿态估计。

步骤2.2：筛选对于手语识别影响权重较高的人体关键点，本实施例中，一般来说，保留鼻子、双肩、双肘、双手手腕的7个关键点及左右手各20 个关键点，包括掌根、大拇指2个关节和大拇指尖、食指3个关节和食指尖、中指3个关节和中指尖、无名指3个关节和无名指尖、小拇指3个关节和小拇指尖，共47个关键点，如图2所示，记为：

v′＝{(x₁,y₁,c₁),(x₂,y₂,c₂),...,(x_N,y_N,c_N)}

其中N表示关键点个数，1≤N≤M。

步骤3：逐帧计算当前帧与上一帧的动作差异度并进行累加；

所述步骤3包括：

步骤3.1：读取当前帧的关键点坐标：

P＝{(x₁,y₁),(x₂,y₂),...,(x_N,y_N)}

步骤3.3：重复步骤3.2，将差异度δ保存在队列中；队列长度为L， L＝t×fps，其中t表示时间阈值，fps表示视频流每秒传输的帧数。

步骤3.3和步骤4匹配的程序流程图如图3所示，包括：

队列长度为L，L＝t×fps，其中t表示时间阈值，听障人士在表演手语时，会以短暂的停顿表示一句完整语句的结束，t根据停顿时间进行设置，通常可以取t＝0.3s；fps表示视频流每秒传输的帧数；

所述步骤4中，对于t时间内累积的差异度S，当S>T1时，表示手语动作开始，当S<T2时，表示动作静止，把当前帧图像输入卷积神经网络中，若判断为无效手语动作，则表示手语动作结束。

步骤4.2可以进一步包括：

步骤4.2.1：获取起始标志flag状态，flag＝0时表示未进行手语表演； flag＝1时表示进行手语表演；flag初始为0；

步骤4.2.2：若队列未满，则所述误差和直接与步骤3.2中δ相加， S＝S+δ，并将δ插入到队列的尾部；若队列已满，则弹出队列头部的δ_head，所述误差和S＝S+δ-δ_head，再将δ插入到队列的尾部；

步骤4.2.3：当S>T1，且flag＝0时，表示姿态变化较大且之前未进行手语表演，则判定为一句手语表演的开始，将flag置1；当S<T2，且flag ＝1时，表示姿态基本不变，且正在进行手语表演，则判定为动作静止，将当前图像帧输入卷积神经网络，若输出类别为无效手语动作，则表示手语表演结束，将flag置0；若输出类别为有效手语动作，则表示此处静止不是一句手语语句的结束；

本实施例中，步骤4.2所述的卷积神经网络为图像分类网络，对于有效手语动作和无效手语动作进行二分类；其中无效手语动作可以为双手自然放下或双手抱腹等；以卷积神经网络进行图像分类为本领域公知技术，本领域技术人员可以基于需求自行选择适合的卷积神经网络，如在步骤4.2.3 中采用ResNet作为卷积神经网络，实现图像分类；本实施例将手语表演者双手自然放下或双手抱腹的图片样本标注为无效手语动作，其他样本标注为有效手语动作进行模型训练，选取在验证集上获得最佳精度的网络模型。

本实施例中，T1、T2可以根据节点数量选取合适的值，T1>T2，防止频繁跳变，如取T1＝15，T2＝20。

所述步骤5包括：

步骤5.1：步骤5.1：保存一段手语动作的所有帧的人体关键点信息序列V，

V＝{v₁,v₂,...,v_L}

其中，L表示这一段手语动作的帧数。

本发明中，步骤5.2的抽帧方法为，每L/d帧删除一帧关键点信息，其中d为所需删去的帧数；步骤5.2的补帧方法为，在关键点信息序列的末尾，补充相同维度且值为0的向量，使序列长度补充至T_in。

所述步骤6中，时空图卷积网络对输入数据进行空间图卷积和时间图卷积处理；以步骤2选定的关键点为图的节点，按人体结构连接成边，形成空间边，将邻帧的相同节点连接成边，形成时间边。

所述空间图卷积的图划分策略采用空间构型划分，本实施例中，如图2 所示，以鼻子节点C为骨架中心(根节点)，以手肘关节S的节点为例，第一个子集连接了空间位置上比根节点(鼻子)更远离整个骨架的邻居节点O (手腕)，表示手语中的离心运动，第二个子集连接了更靠近中心的邻居节点I(双肩)，表示手语中的近心运动，第三个子集为根节点S本身，表示手语中的静止运动。此时，对于一个节点的图卷积，其权重矩阵包含三种权重向量，从而更好地关注到离心运动、近心运动和静止运动中重要的部分。

所述时空图卷积网络由10个时空图卷积单元构成，加入全局池化层，在本实施例中，全局池化层对于每个节点计算特征均值，压缩输出矩阵维度，得到特征序列，

X＝(x₁,x₂,...,x_T′)

其中，T′＝1,2,...T_in；

在本实施例中，序列的特征维度为256，序列的长度为38。

所述空间图卷积公式为：

其中f_in表示输入特征序列，维度为

所述时间图卷积以大小为(kernel_size,1)的卷积核，学习与当前帧相邻的kernel_size个关键帧中相同节点的变化特征，本实施例中，取 kernel_size＝9。

所述步骤7中，编码器-解码器网络有编码器、解码器两个部分组成，包括：

o_i＝Encoder(x_i,o_i-1)

其中，x_i为X中第i个特征向量，i为正整数，o₀为零向量；

步骤7.2：通过前一时刻的编码器隐藏状态(Encoder Hidden States)h_j-1和前一时刻输出的词嵌入向量(Word Embedding)g_j-1，解码器生成下一时刻的输出y_j，更新隐藏状态h_j，

y_j,h_j＝Decoder(g_j-1,h_j-1)

g_j-1＝wordEmbedding(y_j-1)

其中，初始隐藏状态h₀为步骤7.1中最后一个编码单元o_T对应的隐藏状态，设定初始输出y₀的标识，如<sos>作为序列开始的标识。

本发明中，步骤7.2的词嵌入方法使用基于全连接的线性映射，将单词对应的one-hot向量转化为密集空间的表示g_j。

本发明中，在编码器-解码器网络中添加注意力机制，为解码器提供额外的状态信息，从而保证手语视频和生成的句子具有一致性。

本发明中，构建上下文向量辅助解码，对于每一次解码，上下文向量通过对编码输出的加权和得到，

其中，

表示注意力权重，描述编码器输入x_i与生成的单词y_j之间的相关性；最终，注意力向量A_j由上下文向量c_j和隐藏状态h_j计算得到，

A_j＝tAnh(W_c[c_j；h_j])

步骤7.2中解码器公式加入注意力机制后可表示为

y_j,h_j＝Decoder′(g_j-1,h_j-1,A_j-1)。

步骤7.3：当序列结束标识，如<eos>出现时，完成输出，得到输出的词语序列Y＝{y₁,y₂,...,y_p}，拼接输出的词语序列，得到句子。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于人体关键点的实时视频流手语识别方法，其特征在于：

所述方法包括以下步骤：

步骤1：逐帧读取输入的手语视频流；

步骤2：采用人体姿态估计网络，提取读取的任一帧图像中的人体关键点；

步骤3：逐帧计算当前帧与上一帧的动作差异度并进行累加；

步骤4：当t时间内累积的差异度高于阈值T1时，判定为手语动作开始；当差异度低于阈值T2时，判定为动作静止，采用卷积神经网络判断当前帧动作是否为结束动作；T1＞T2＞0；

2.根据权利要求1所述的一种基于人体关键点的实时视频流手语识别方法，其特征在于：所述步骤2包括以下步骤：

v＝{(x₁，y₁，c₁)，(x₂，y₂，c₂)，...，(x_M，y_M，c_M)}

其中M表示输出的关键点个数，以x_i、y_i、c_i分别表示第i个关键点的x坐标、y坐标和预测置信度，M≥1，i为关键点的索引；

步骤2.2：筛选对于手语识别的关键点，记为

v′＝{(x₁，y₁，c₁)，(x₂，y₂，c₂)，...，(x_N，y_N，c_N)

其中，N为关键点个数，1≤N≤M。

3.根据权利要求1所述的一种基于人体关键点的实时视频流手语识别方法，其特征在于：所述步骤3包括以下步骤：

步骤3.1：读取当前帧的关键点坐标，

P＝{(x₁，y₁)，(x₂，y₂)，...，(x_N，y_N)}

步骤3.3：重复步骤3.2，将差异度δ保存在队列中；队列长度为L，L＝t×fps，其中t表示时间阈值，fps表示视频流每秒传输的帧数。

4.根据权利要求3所述的一种基于人体关键点的实时视频流手语识别方法，其特征在于：所述步骤4中，对于t时间内累积的差异度S，当S＞T1时，表示手语动作开始，当S＜T2时，表示动作静止，把当前帧图像输入卷积神经网络中，若判断为无效手语动作，则表示手语动作结束。

5.根据权利要求3所述的一种基于人体关键点的实时视频流手语识别方法，其特征在于：所述步骤5包括以下步骤：

V＝{v₁，v₂，...，v_L}

其中，L表示这一段手语动作的帧数；

步骤5.2：基于时空图卷积模型的输入维度，采用抽帧或补空帧的方法把步骤3.3中关键点信息序列长度调整为T_in。

6.根据权利要求1所述的一种基于人体关键点的实时视频流手语识别方法，其特征在于：所述步骤6中，时空图卷积网络对输入数据进行空间图卷积和时间图卷积处理；以步骤2选定的关键点为图的节点，按人体结构连接成边，形成空间边，将邻帧的相同节点连接成边，形成时间边。

7.根据权利要求6所述的一种基于人体关键点的实时视频流手语识别方法，其特征在于：所述时空图卷积网络由10个时空图卷积单元构成，加入全局池化层，得到特征序列，

X＝(x₁，x₂，...，x_T′)

其中，T′＝1，2，...T_in；

8.根据权利要求6所述的一种基于人体关键点的实时视频流手语识别方法，其特征在于：所述空间图卷积的图划分策略采用空间构型划分，第一个子集连接了空间位置上比根节点更远离整个骨架的邻居节点，表示手语中的离心运动，第二个子集连接了更靠近中心的邻居节点，表示手语中的近心运动，第三个子集为根节点本身，表示手语中的静止运动。

9.根据权利要求8所述的一种基于人体关键点的实时视频流手语识别方法，其特征在于：所述空间图卷积公式为，

其中f_in表示输入特征序列，维度为

其中，C_out表示输出特征维度，Tout表示输出帧数；A_j表示根据图划分策略构成的归一化邻接矩阵；W_j表示权重矩阵。

10.根据权利要求7所述的一种基于人体关键点的实时视频流手语识别方法，其特征在于：所述步骤7包括以下步骤：

步骤7.1：将步骤6得到的特征序列X传入编码器的循环层，得到第i个递归单元的输出o_i，

o_i＝Encoder(x_i，o_i-1)

其中，x_i为X中第i个特征向量，i为正整数，o₀为零向量；

步骤7.2：通过前一时刻编码器的隐藏状态h_j-1和前一时刻输出的词嵌入g_j-1，解码器生成下一时刻的输出y_j，更新隐藏状态h_j，

y_j，h_j＝Decoder(g_j-1，h_j-1)

g_j-1＝wordEmbedding(y_j-1)

其中，初始隐藏状态h₀为步骤7.1中最后一个编码单元o_T对应的隐藏状态，设定初始输出y₀的标识作为序列开始的标识；

步骤7.3：当序列结束标识出现时，完成输出，得到输出的词语序列Y＝{y₁，y₂，...，y_p}，拼接输出的词语序列，得到句子。