CN112073749A

CN112073749A - 一种手语视频合成方法、手语翻译系统、介质和电子设备

Info

Publication number: CN112073749A
Application number: CN202010788036.6A
Authority: CN
Inventors: 陈益强; 曾旎; �谷洋
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2020-12-11

Abstract

本发明实施例提供了一种手语视频合成方法、手语翻译系统、介质和电子设备，该方法包括：获取待处理文本中各字词对应的视频索引；根据视频索引从视频库中获取各字词对应的真人手语视频片段作为待拼接片段，其中，每个真人手语视频片段的首尾均包括多个冗余手势帧；将获取的待拼接片段按序拼接为用于表示待处理文本的手语视频，其中，在拼接前至少删除相邻的每两个待拼接片段中的部分冗余手势帧以使手语动作连贯；本发明可以从视频库的真人手语视频片段中选取待拼接片段，并将相邻待拼接片段的至少部分冗余手势帧删除后进行自动拼接以形成连贯的手语动作，具有语义表达真实自然、流畅度高、实用性强的优点。

Description

一种手语视频合成方法、手语翻译系统、介质和电子设备

技术领域

本发明涉及语言翻译及视频处理领域，具体来说涉及手语翻译的视频合成领域，更具体地说，涉及一种手语视频合成方法、手语翻译系统、介质和电子设备。

背景技术

根据世界卫生组织2018年的报告显示，全世界大约有4.66亿听力障碍者，这些听力障碍者在获取信息方面存在诸多不便。手语作为听力障碍者日常生活中用于支持交流的一种特殊语言，为听力障碍者提供了一种沟通的渠道。在社会生活中为听力障碍者提供手语翻译的情形不多，主要是新闻类或者大型节目中才会提供手语翻译，不便于听力障碍者获得相应的信息，使其难以融入正常的社交生活。无效的手语沟通严重危害听力障碍者的身心健康，给日常生活带来了极大的不便。

如何建立让听力障碍者获得外界信息的手语交互信息系统，是信息技术帮助聋人融入社会的重大挑战，对提高听障群体的生活质量具有极大的意义。由于会使用手语的人并不多，而且社会各方面若都配备真人进行手语翻译，其成本将过于巨大，实际应用的可持续性低。因此，目前许多研究者都在进行手语视频合成方法的研究，现有技术中针对手语视频合成的研究主要是借助虚拟人技术，通过动画角色的虚拟合成来对特定文本进行多模式合成，以模拟真实手语合成的效果。

例如，公开号为CN107707726A的专利文献公开了一种用于正常人与聋哑人通讯的终端，其手语合成模块是通过获取到的文本信息用于查找手语动画库，获得文本信息对应的手语动画，整个系统可以分为接收、连接、词汇处理、转换规则等模块将合成的手语动画展示出来；公开号为CN101005574A的专利文献公开了一种视频虚拟人手语编辑系统，其通过支持图像叠加功能的非线性编辑板，记录与每个句子的文本相对应的开始时间和结束时间的语音持续时间同步信息获取模块，根据获取的语音时长信息同步调用相应的文本语句，手语合成模块将其转换为手语数据，通过非线性编辑板叠加在程序上，由虚拟人合成模块通过虚拟人表示；公开号为CN110491250A的专利文献公开了一种聋哑人教学系统，其将手语合成模块分为转换模块、合成模块和回放模块。收集到的文本信息被转换为手语信息，合成模块生成虚拟肖像，虚拟肖像和手语信息被合并为手语动画，回放模块播放手语动画。公开号为CN102497513A的专利文献公开了提出了一种面向视频虚拟人的手语合成系统，其将字幕文本输入虚拟人手语生成模块，虚拟人生成模块根据文本输入从手语数据库中提取相应的手语数据并绘制图形以生成手语框架。

以上基于虚拟人技术的手语视频合成方法存在以下缺点：1.基于虚拟人技术的方法，需要在身体的各个部位设置运动传感器以捕获手语运动，手动设置大量参数，导致实用性较差；2.基于虚拟人技术无法灵活实现实际手语动作表达的空间复杂性，适用于单一类型的手语语言的表达，且面部表情、动作细节表达上存在一定的误差，导致可懂度低；3.由于手语动作行为的多样性，导致其动作收集困难，需要建立庞大的数据库，且合成视频过程中对计算资源要求高，计算资源受限时容易出现流畅度低甚至卡顿的情况。可见，现有的基于虚拟人技术的手语视频合成方法在实际应用中仍存在实用性较差、灵活性差、可懂度低、对计算资源要求高等挑战。

目前，还没有采用基于真人的手语视频进行手语视频合成的技术，主要是因为存在基于真人的手语视频进行合成时面临拼接手势间中不能较好地衔接，导致动作跳跃引起手语视频不连贯问题。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种手语视频合成方法、手语翻译系统、介质和电子设备。

本发明的目的是通过以下技术方案实现的：

根据本发明的第一方面，提供一种手语视频合成方法，包括：获取待处理文本中各字词对应的视频索引；根据视频索引从视频库中获取各字词对应的真人手语视频片段作为待拼接片段，其中，每个真人手语视频片段的首尾均包括多个冗余手势帧；将获取的待拼接片段按序拼接为用于表示待处理文本的手语视频，其中，在拼接前至少删除相邻的每两个待拼接片段中的部分冗余手势帧以使手语动作连贯。

在本发明的一些实施例中，所述视频库中存储有由真人预先录制的真人手语视频片段，表达相同语义的字词和真人手语视频片段之间通过视频索引彼此关联。

在本发明的一些实施例中，每个手语视频片段的开头均包括一段手部从腹部附近位置出发的起始动作构成的多个冗余手势帧，并且每个手语视频片段的结尾均包括一段手部回位到所述腹部附近位置的回位动作构成的多个冗余手势帧。

在本发明的一些实施例中，所述在拼接前至少删除相邻的每两个待拼接片段中的部分冗余手势帧以使手语动作连贯包括：计算相邻的两个待拼接片段中前一个片段的中部以后的每帧和后一个片段的中部以前的每帧的累计拼接成本；将最小累计拼接成本对应的前一个片段的帧和后一个片段的帧作为拼接位置帧；将相邻的两个待拼接片段中前一个片段的拼接位置帧和后一个片段的拼接位置帧之间的冗余手势帧删除。

在本发明的一些实施例中，所述累计拼接成本等于前一个片段的帧中掌心的转移方向向量相对于后一个片段的帧中掌心的转移方向向量的角度转移量和前一个片段的帧中掌心的对于后一个片段的帧中掌心的欧式距离之和。

在本发明的一些实施例中，所述方法还包括：采用光流法在手语视频的片段拼接处插入让相邻片段平滑过渡的过渡帧，得到插帧后的手语视频。

在本发明的一些实施例中，所述采用光流法在手语视频的片段拼接处插入让相邻片段平滑过渡的过渡帧，得到插帧后的手语视频包括：以光流法进行插帧时根据运动像素的加速度计算从拼接处的前一帧的前向光流和拼接处的后一帧的后向光流；根据前向光流和后向光流合成过渡帧，将过渡帧插入拼接处得到插帧后的手语视频。

根据本发明的第二方面，提供一种手语翻译系统，该手语翻译系统采用第一方面的手语视频合成方法。所述手语翻译系统包括：文本提取模块，用于响应于手语翻译请求，从待翻译的资料中提取待处理文本；视频库，用于保存由真人预先录制的手语视频片段，每个手语视频片段的首尾均包括多个冗余手势帧，每个手语视频片段带有视频索引；片段获取模块，用于获取待处理文本中各字词对应的视频索引，以及根据视频索引从视频库中获取各字词对应的真人手语视频片段作为待拼接片段；合成模块，将获取的待拼接片段按序拼接为用于表示待处理文本的手语视频，其中，在拼接前至少删除相邻的每两个待拼接片段中的部分冗余手势帧以使手语动作连贯；展示模块，获取合成模块合成的手语视频进行播放。

根据本发明的第三方面，提供一种电子设备，包括：一个或多个处理器；以及存储器，其中存储器用于存储一个或多个可执行指令；所述一个或多个处理器被配置为经由执行所述一个或多个可执行指令以实现第一方面所述方法的步骤。

与现有技术相比，本发明的优点在于：

本发明可以从视频库的真人手语视频片段中选取待拼接片段，并将相邻待拼接片段的至少部分冗余手势帧删除后进行自动拼接以形成连贯的手语动作，具有语义表达真实自然、流畅度高、实用性强的优点。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为根据本发明实施例的手语视频合成方法的流程示意图；

图2为根据本发明实施例的掌心的转移方向向量的示意图；

图3为根据本发明实施例的运动像素的光流示意图；

图4为根据本发明实施例的手语视频合成方法的原理示意图；

图5为根据本发明实施例的手语翻译系统的应用场景示意图；

图6为根据本发明实施例的手语翻译系统的实现过程示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如在背景技术部分提到的，现有的基于虚拟人技术的手语视频合成方法生成的手语视频在实际应用中仍存在实用性较差、灵活性差、可懂度低、对计算资源要求高等挑战。而现有技术中，还没有采用基于真人的手语视频进行手语视频合成的技术，主要因为基于真人的手语视频进行合成时面临拼接视频间手势不能较好地衔接以导致动作跳跃，引起手语视频的动作不连贯问题。据此，本发明提出了一种手语视频合成方法，基于预先录制字词的真人手语视频片段作为合成的基础视频，在录制时每个手语词的开始动作以及结尾动作均是将手放在腹部形成冗余手势帧，为了合成达到流畅高可懂度的手语视频，在进行拼接前删除至少部分冗余手势帧，将剩余部分拼接在一起形成动作连贯的手语视频。对比传统的基于虚拟人技术的方法在流畅度、灵活性、泛化性等方面都有较大提升。而且，为了进一步提升合成的手语视频的质量，本发明通过引入加速度的光流法预测计算过渡帧，可以进一步合成具有高质量、贴合实际手语运动情况的过渡帧，让合成的手语视频中手语动作更加连贯，片段间动作能更平滑过渡，使得手语合成视频的流畅度和可懂度更强，表达效果更自然，细节还原度更高。

根据本发明的一个实施例，提供一种手语视频合成方法，参见图1，概括说来，该方法包括：S1、响应于手语翻译请求，从待翻译的资料中提取待处理文本；S2、获取待处理文本中各字词对应的视频索引；S3、根据视频索引从视频库中获取各字词对应的真人手语视频片段作为待拼接片段，其中，每个真人手语视频片段的首尾均包括多个冗余手势帧；S4、将获取的待拼接片段按序拼接为用于表示待处理文本的手语视频，其中，在拼接前至少删除相邻的每两个待拼接片段中的部分冗余手势帧以使手语动作连贯；S5、根据光流法在手语视频的片段拼接处插入让相邻片段平滑过渡的过渡帧，得到插帧后的手语视频。为了更好地理解本发明，下面结合具体的实施例针对每一个步骤分别进行详细说明。

在步骤S1中，响应于手语翻译请求，从待翻译的资料中提取待处理文本。

根据本发明的一个实施例，资料例如是视频、音频或者文档。假设一个听力障碍者想要观看一个视频，由于该视频的主要观众是正常人，视频发布者并未准备手语翻译员对该视频内容进行翻译后的手语视频。这时，听力障碍者可以打开基于本发明的方法制作的应用程序，点击翻译当前视频内容按钮，发出对正在播放的视频中的内容进行手语翻译请求，然后返回当前视频所在界面。此时，应用程序响应于手语翻译请求，从待翻译的当前视频中提取待处理文本。再比如，听力障碍者想要了解一个音频文件中的播放的内容，则点击翻译当前音频内容按钮，发出对正在播放的音频中的内容进行手语翻译请求。又比如，某地想组织给当地的听力障碍者们宣传一个政策，但该政策是文档，而该地又没有手语翻译者，这时则可以打开该文档，点击翻译当前文档内容按钮，发出对当前打开的文档的内容进行手语翻译请求。待处理文本可以是视频、音频或者文档当前的局部内容对应的待处理文本。比如，当前播放的视频、音频播放到某处时的内容为：我们明天吃鱼，这时可以从视频的字幕文件中提取当前的待处理文本，或者从音频中通过语音识别提取待处理文本，即“我们明天吃鱼”，而并非将整个视频、音频或者文档中的所有内容整体提取为待处理文本。由此，在播放音频、视频的同时，根据当前内容对应的待处理文本同步地进行手语翻译。

在步骤S2中，获取待处理文本中各字词对应的视频索引。

根据本发明的一个实施例，待处理文本可以是以句子为单位的文本，获得待处理文本后，先对待处理文本进行分词。例如，将待处理文本“我们明天吃鱼”进行分词，得到文本中的字词“我们、明天、吃、鱼”，然后查询获得这字词对应的视频索引，比如，03001、09002、01008、02536。

在步骤S3中，根据视频索引从视频库中获取各字词对应的真人手语视频片段作为待拼接片段，其中，每个真人手语视频片段的首尾均包括多个冗余手势帧。

根据本发明的一个实施例，视频库中存储有由真人预先录制的真人手语视频片段，表达相同语义的字词和真人手语视频片段之间通过视频索引彼此关联。在获得待处理文本中各字词对应的视频索引，比如“我们、明天、吃、鱼”对应的视频索引03001、09002、01008、02536后，根据这些视频索引去获取各字词对应的真人手语视频片段作为待拼接片段作为待拼接片段。优选的，每个手语视频片段的开头均包括一段手部从腹部附近位置出发的起始动作构成的多个冗余手势帧，并且每个手语视频片段的结尾均包括一段手部回位到腹部附近位置的回位动作构成的多个冗余手势帧。本发明通过在各真人手语视频片段的首尾设置多个冗余手势帧，后续根据具体的拼接情况进行删减，从而解决了基于真人的手语视频进行合成时面临拼接手势间不能较好地衔接，导致动作跳跃引起手语视频不连贯问题，而且，该方法相比基于虚拟人的技术而言，无需大量设置参数，实用性、灵活性、可懂度都得到了有效提高，且无需计算机合成每个手语视频的每帧，对计算资源要求相对更低。

在步骤S4中，将获取的待拼接片段按序拼接为用于表示待处理文本的手语视频，其中，在拼接前至少删除相邻的每两个待拼接片段中的部分冗余手势帧以使手语动作连贯。

根据本发明的一个实施例，参见图4，假设获取待拼接片段x和待拼接片段y作为合成手语视频的其中两个相邻片段，则在拼接前会删除其中部分冗余手势帧以使合成视频中的动作连贯。为了获得更好的拼接效果，删除冗余手势帧前可以确认从哪些位置拼接可以尽可能减少动作跳变。因此，进一步地，根据本发明的一个实施例，步骤S4包括：计算相邻的两个待拼接片段中前一个片段的中部以后的每帧和后一个片段的中部以前的每帧的累计拼接成本；将最小累计拼接成本对应的前一个片段的帧和后一个片段的帧作为拼接位置帧；将相邻的两个待拼接片段中前一个片段的拼接位置帧和后一个片段的拼接位置帧之间的冗余手势帧删除。应当注意的是，该步骤删除的是获取的待拼接视频的冗余手势帧，视频库中保存的真人手语视频片段是不会被改动的，可以重复调用，同一个真人手语视频片段在作为待拼接片段和其他不同待拼接片段进行拼接时，拼接的最优位置(最小累积拼接成本对应的两个拼接位置帧)是不同的，如果为各个拼接情况分别保存一份删除了中间冗余手势帧的真人手语视频片段，这样虽然可以不用每次在拼接前执行删除的操作，但是，这种方式中各种拼接的组合情况很多，会导致同一个手语可能会有很多个不同版本(各版本删除的冗余手势帧的帧数不同)的真人手语视频，其占用的存储空间过大。因此，本发明这种保留一个字词对应的真人手语视频片段的所有的冗余手势帧并根据被选为相邻的待拼接片段的拼接成本来执行删除操作的方式，可以极大地节约存储空间，实用性、灵活性更强。此外，还应当注意的是，中部以后包括从中间帧往后或者中间帧之后的特定帧往后的情况。中部以前包括从中间帧往前或者中间帧之前的特定帧往前的情况。比如，假设30帧，从中部以后可以是从15或者16帧往后，也可以是从18帧往后，具体计算范围可以由用户根据拍摄视频的冗余手势帧的数量和经验设定。本发明设置计算范围为前一个片段的中部以后的每帧和后一个片段的中部以前的每帧不仅可以避免删除有实际语义的部分被删除，也可以减少计算量。优选的，累计拼接成本等于前一个片段的帧中掌心(手掌中心)的转移方向向量相对于后一个片段的帧中掌心的转移方向向量的角度转移量和前一个片段的帧中掌心的对于后一个片段的帧中掌心的欧式距离之和。该步骤包括计算相邻的两个待拼接片段中帧与帧之间的累积拼接成本，找到最小累积拼接成本对应的位置的作为待拼接位置帧。最小累积拼接成本说明两帧之间的差异相对最小，以这两帧进行拼接时动作的跳变相对最小，使得合成的手语动作更连贯，表达更加真实、准确。

根据本发明的一个实施例，计算累积拼接成本可以采用以下方式：

cost_total＝cost_L+cost_R,cost_L表示基于左手的掌心计算的拼接成本，cost_R表示基于右手的掌心计算的拼接成本；

cost_L、cost_R可以按照以下方式计算：

该式中，

表示前一个片段S¹的第x帧和后一个片段S²的第y帧之间的基于左手或者右手的掌心计算的拼接成本，

表示第x帧的掌心

和第y帧的掌心

之间的欧式距离，μ表示欧式距离的权重，μ∈(0.3,0.5)，

表示第x帧的掌心的转移方向向量相对于第y帧的掌心的转移方向向量的角度转移量；

其中，

为了便于理解转移方向向量，可以参考图2，该式中，

表示前一个片段S¹的第x帧的掌心的转移方向向量，用从第x帧中的掌心

指向第x+1帧中的掌心

的向量来表示，

表示后一个片段S²的第y帧的掌心的转移方向向量,用从第y帧中的掌心

指向第y+1帧中的掌心

的向量来表示。采用此方式计算时，由于前一个片段的最后一帧缺少可供参考的下一帧形成转移方向向量，可以设置直接赋予前一个片段的最后一帧与后一个片段的每帧之间的累积拼接成本一个较大的默认值，以使其不会被选中作为拼接位置帧。

在步骤S5中，采用光流法在手语视频的片段拼接处插入让相邻片段平滑过渡的过渡帧，得到插帧后的手语视频。

根据本发明的一个实施例，光流表达了图像的变化，由于它包含了目标运动的信息，因此可被观察者用来确定目标的运动情况。由光流的定义可以引申出光流场，它是指图像中所有像素点构成的一种二维(2D)瞬时速度场，其中的二维速度矢量是景物中可见点的三维速度矢量在成像表面的投影。所以光流不仅包含了被观察物体的运动信息，而且还包含有关景物三维结构的丰富信息。为了便于理解，图3给出了一个体现手部运动的运动像素的光流示意图。本发明可以用光流法根据每个像素点的运动信息来预测过渡帧。常规的光流法插帧是通过在两个相邻帧I_t-1和I_t+1之间以线性插帧的光流法来预测并插入生成的过渡帧。例如，为了计算在T＝t时刻的光流，需要计算T＝t-1和T＝t+1的光流变化情况：F_t-1→t＝xF_t-1→t+1，其中，x表示相邻帧光流之间的系数，取值范围是-1到1，F_t-1→t表示帧I_t-1到帧I_t之间的光流，F_t-1→t+1表示帧I_t-1到帧I_t+1之间的光流，xF_t-1→t+1表示用帧I_t-1到帧I_t+1之间的光流表示帧I_t-1到帧I_t之间的光流。在大多数情况下，连续视频帧中的对象运动被认为是连续视频中的线性运动或相对静止的，采用这种线性的光流法进行插帧时，在平滑区域中使用线性表达式逼近效果很好，但是有些运动很难在现实生活中保持恒定的均匀速度，特别是在手语动作过程中，由于实际动作几乎都是非线性的运动，导致这种线性的光流法插帧方式在针对视频中的以非线性运动的手部运动插入的过渡帧不够贴切实际运动，导致插入的过渡帧的质量不高，容易出现伪影。因此，优选地，参见图4，本发明以光流法进行插帧时根据运动像素的加速度计算从拼接处的前一帧的前向光流和拼接处的后一帧的后向光流；根据前向光流和后向光流合成过渡帧，将过渡帧插入拼接处得到插帧后的手语视频。本发明通过引入考虑加速度的光流法在手语视频的片段拼接处插入让相邻片段平滑过渡的过渡帧，可以进一步增加合成的手语视频的运动连贯性，减少视频中以非线性运动的手部的伪影，能够获得较高的流畅度以及高质量的手语视频，便于让听力障碍者更好地获取外界信息。

根据本发明的一个实施例，在计算前向光流和后向光流时，引入加速度计算各运动像素的位移：

该式中，v_t-1表示t-1时刻的某运动像素速度，t表示第t时刻，k表示第k时刻，a_t-1表示t-1时刻的加速度；

根据帧I_t-2、I_t-1、I_t+1来计算I_t-1到I_t的正向光流可以表示为：

该式中，f_t-1→t+1表示某运动像素从帧I_t-1到帧I_t+1之间的位移，f_t-1→t-2表示某运动像素从帧I_t-1到帧I_t-2之间的位移。由于t可以是t-1到t+1之间的任意时刻，则根据所有运动像素在t-1到t+1之间的不同时刻的位移得到从帧I_t-1到帧I_t+1的正向光流F_t-1→t+1。同样地，可以根据帧I_t+2、I_t+1、I_t-1来计算出从帧I_t+1到帧I_t-1的反向光流F_t+1→t-1。然后，再根据正向光流和反向光流来合成过渡帧。

根据本发明的一个实施例，本发明还提供一种手语翻译系统，包括文本提取模块，用于响应于手语翻译请求，从待翻译的资料中提取待处理文本；视频库，用于保存由真人预先录制的手语视频片段，每个手语视频片段的首尾均包括多个冗余手势帧，每个手语视频片段带有视频索引；片段获取模块，用于获取待处理文本中各字词对应的视频索引，以及根据视频索引从视频库中获取各字词对应的真人手语视频片段作为待拼接片段；合成模块，将获取的待拼接片段按序拼接为用于表示待处理文本的手语视频，其中，在拼接前至少删除相邻的每两个待拼接片段中的部分冗余手势帧以使手语动作连贯；展示模块，获取合成模块合成的手语视频进行播放。例如，带翻译的资料例如是视频、音频或者文档，播放时将其以悬浮窗的方式在视频、音频或者文档之上播放。例如，参见图5，在新闻播报时，在画面上通过一个小的悬浮窗在边角处播放合成的手语视频。优选的，合成模块还用于根据光流法在手语视频的片段拼接处插入让相邻片段平滑过渡的过渡帧，得到插帧后的手语视频作为最终合成的手语视频。

根据本发明的一个实施例，合成模块包括拼接子模块和插帧子模块。

优选的，拼接子模块用于将获取的待拼接片段按序拼接为用于表示待处理文本的手语视频，其中，在拼接前至少删除相邻的每两个待拼接片段中的部分冗余手势帧以使手语动作连贯。

优选的，插帧子模块用于根据光流法在手语视频的片段拼接处插入让相邻片段平滑过渡的过渡帧，得到插帧后的手语视频。插帧子模块主要负责对待拼接视频的拼接处插入用于平滑过渡的过渡帧。

优选的，插帧子模块包括光流预测单元和过渡帧合成单元。光流预测单元用于以光流法进行插帧时根据运动像素的加速度计算从拼接处的前一帧的前向光流和拼接处的后一帧的后向光流。即，光流预测单元输出计算得出的后向光流和前向光流。光流预测单元在计算后向光流和前向光流时，相当于是进行加速度预测，从而对手部运动轨迹、角度大小在内的运动信息的计算。过渡帧合成单元用于根据前向光流和后向光流合成过渡帧，将过渡帧插入拼接处得到插帧后的手语视频。过渡帧合成单元可以预测出贴合实际手语动作的过渡帧，提高合成的手语视频的流畅性。

优选的，上述光流预测步骤、光流预测单元和过渡帧合成步骤以及过渡帧合成单元可以采用神经网络来实现。例如，可以使用用于下采样的编码器和用于上采样的解码器进行光流预测。光流预测单元包括用于下采样的编码器和用于上采样的解码器。编码器包括依次相连的8～16个卷积层和4～8个Leaky ReLU。解码器包括依次相连的6～14个卷积和3～7个ReLU，RELU的超参数α的设置范围为0.1～0.15。优选的，编码器包括12个卷积层和6个Leaky ReLU，解码器包括10个卷积和5个ReLU。为了减小空间尺寸，在编码器部分每个卷积的末尾在合并层中使用2～4的步幅。12个卷积层和6个Leaky ReLU是依次相连组成编码器，10个卷积层和5个ReLU是依次相连组成解码器。Leaky ReLU不同于ReLU，Leaky ReLU是为了解决ReLU的缺点(Relu的输入值为负的时候，输出始终为0，其一阶导数也始终为0，这样会导致神经元不能更新参数，也就是神经元不学习了，这种现象叫做“Dead Neuron”)而出现的。参见图6，对于经过预处理的拼接后的手语视频，确定拼接处的前两帧I_t-2、I_t-1和后两帧I_t+1、I_t+2，基于确定的四个相邻帧I_t-2、I_t-1、I_t+1、I_t+2，为了进一步获取到手部运动的相对变化，在进行中间帧合成的时候通过引入加速度预测的光流法计算得到该两帧之间的正向光流F_t-1→t+1和反向光流F_t+1→t-1。过渡帧合成步骤或者过渡帧合成单元根据帧I_t-1和正向光流F_t-1→t+1可以得到以帧I_t-1为基础预测的时刻t-1和时刻t+1之间任意时刻的辅助预测帧I_m，同理，根据帧I_t+1和反向光流F_t+1→t-1可以得到以帧I_t+1为基础预测的时刻t-1和时刻t+1之间任意时刻的辅助预测帧I_n，此时I_m代表了被预测的过渡帧从帧I_t-1根据引入加速度的光流法进行正向预测的辅助预测帧，I_n代表了被预测的过渡帧从帧I_t+1根据引入加速度的光流法进行反向预测的辅助预测帧，对I_m和I_n进行融合得到过渡帧I_t。t的取值可以是单个或者多个值，由此，在两个片段间插入的过渡帧可以是单帧或者多帧。光流预测的损失函数可以采用L1范数损失函数，过渡帧合成的损失函数可以采用感知损失函数，构建好插帧子模块后，训练插帧子模块的神经网络中的损失函数：

该式中，n表示本次训练取出的自定义帧数大小，

表示L1范数损失函数，I_t表示经过神经网络预测合成的时刻t的过渡帧，

表示与过渡帧I_t相邻的真实帧，

表示感知损失函数，ζ表示感知损失函数占的比例系数，

表示使用VGG16模型的conv4_3特征提取器γ去提取的与过渡帧I_t相邻的真实帧的特征，γ(I_t)表示使用VGG16模型的conv4_3特征提取器γ去提取合成的过渡帧I_t的特征。L1范数损失函数，也被称为最小绝对值偏差，最小绝对值误差。简单地说，L1范数损失函数的目标是把目标值与估计值的绝对差值的总和最小化。感知损失函数目标是利用像素级误差来衡量输出图像和目标图像之间的不同。高质量的图像可以通过定义和优化感知损失函数来生成。

在本发明的实验中，我们收集了日常使用的一些高频字词，并由专业的手语使用者来用手语表达各个字词，并且让手语使用者先熟悉起始和回位动作，以人工标定每个手语词的开始动作以及结尾动作均是将手放在腹部附近(比如以肚脐为圆心，10cm为半径的圆内)，每个字词采集三遍并取其中最佳的片段作为该字词对应的真人手语视频片段，共收集有效高清视频84,564段(1080P 30/50FPS)。在进行手语视频词之间的拼接时，不同手语视频词之间手部变化差异较大，若直接拼接会造成视觉突变，因此要进行拼接的平滑过渡处理。本发明采用可变运动光流插帧的方法，传统光流插帧算法针对的是一段完整自然连续的视频，目的是捕获拍摄时候遗漏的细节，进一步强化视频中已有的物体细节。本发明是针对不连续的、运动差异较大的独立视频片段进行拼接后插帧，利用不同手语视频间手部运动信息来预测过渡帧。然后用采集到的高清视频作为训练集来训练手语翻译系统，设置训练上限为200个周期(Epoch)，损失函数的权衡参数ζ初始被设置为0.005，学习率初始化为10^-4，每个周期内结合学习率通过反向传播不断更新神经网络的权重，并设置在第100个和第150个周期结束时将学习率在前期的基础上降低0.1倍，继续训练至手语翻译系统收敛稳定。在训练过程中，通过峰值信噪比(PSNR)以及结构相似度(SSIM)去衡量手语翻译系统是否收敛。随着不断训练发现这几个指标值趋于稳定，可以判断收敛。比如，经历某个训练周期后，相比于该训练周期前，这几个指标值的变化幅度均小于预设幅度阈值，则判断收敛。经过实验，合成帧的峰值信噪比从传统插帧方法的28.94提高到29.90，结构相似度从传统插帧方法的0.8155提高到0.8424，MA指标(运动性指标，越低越好)从11.75降低到9.74。可见，本发明的手语翻译系统的插帧效果得到了较好的提升。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种手语视频合成方法，包括：

获取待处理文本中各字词对应的视频索引；

根据视频索引从视频库中获取各字词对应的真人手语视频片段作为待拼接片段，其中，每个真人手语视频片段的首尾均包括多个冗余手势帧；

将获取的待拼接片段按序拼接为用于表示待处理文本的手语视频，其中，在拼接前至少删除相邻的每两个待拼接片段中的部分冗余手势帧以使手语动作连贯。

2.根据权利要求1所述的一种手语视频合成方法，其特征在于，

所述视频库中存储有由真人预先录制的真人手语视频片段，表达相同语义的字词和真人手语视频片段之间通过视频索引彼此关联。

3.根据权利要求2所述的手语视频合成方法，其特征在于，每个手语视频片段的开头均包括一段手部从腹部附近位置出发的起始动作构成的多个冗余手势帧，并且每个手语视频片段的结尾均包括一段手部回位到所述腹部附近位置的回位动作构成的多个冗余手势帧。

4.根据权利要求3所述的手语视频合成方法，其特征在于，所述在拼接前至少删除相邻的每两个待拼接片段中的部分冗余手势帧以使手语动作连贯包括：

计算相邻的两个待拼接片段中前一个片段的中部以后的每帧和后一个片段的中部以前的每帧的累计拼接成本；

将最小累计拼接成本对应的前一个片段的帧和后一个片段的帧作为拼接位置帧；

将相邻的两个待拼接片段中前一个片段的拼接位置帧和后一个片段的拼接位置帧之间的冗余手势帧删除。

5.根据权利要求4所述的手语视频合成方法，其特征在于，所述累计拼接成本等于前一个片段的帧中掌心的转移方向向量相对于后一个片段的帧中掌心的转移方向向量的角度转移量和前一个片段的帧中掌心的对于后一个片段的帧中掌心的欧式距离之和。

6.根据权利要求1至5任一项所述的手语视频合成方法，其特征在于，所述方法还包括：采用光流法在手语视频的片段拼接处插入让相邻片段平滑过渡的过渡帧，得到插帧后的手语视频。

7.根据权利要求6所述的手语视频合成方法，其特征在于，所述采用光流法在手语视频的片段拼接处插入让相邻片段平滑过渡的过渡帧，得到插帧后的手语视频包括：

以光流法进行插帧时根据运动像素的加速度计算从拼接处的前一帧的前向光流和拼接处的后一帧的后向光流；

根据前向光流和后向光流合成过渡帧，将过渡帧插入拼接处得到插帧后的手语视频。

8.一种手语翻译系统，其特征在于，所述手语翻译系统包括：

文本提取模块，用于响应于手语翻译请求，从待翻译的资料中提取待处理文本；

视频库，用于保存由真人预先录制的手语视频片段，每个手语视频片段的首尾均包括多个冗余手势帧，每个手语视频片段带有视频索引；

片段获取模块，用于获取待处理文本中各字词对应的视频索引，以及根据视频索引从视频库中获取各字词对应的真人手语视频片段作为待拼接片段；

合成模块，将获取的待拼接片段按序拼接为用于表示待处理文本的手语视频，其中，在拼接前至少删除相邻的每两个待拼接片段中的部分冗余手势帧以使手语动作连贯；

展示模块，获取合成模块合成的手语视频进行播放。

9.一种计算机可读存储介质，其特征在于，其上包含有计算机程序，所述计算机程序可被处理器执行以实现权利要求1至7中任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

存储器，其中存储器用于存储一个或多个可执行指令；

所述一个或多个处理器被配置为经由执行所述一个或多个可执行指令以实现权利要求1至7中任一项所述方法的步骤。