CN111488744B

CN111488744B - 多模态语言信息ai翻译方法、系统和终端

Info

Publication number: CN111488744B
Application number: CN202010282698.6A
Authority: CN
Inventors: 连芷萱; 闵松阳; 杨嘉琪; 张瑜佳; 马志; 席跃东; 席跃君; 李敏; 宋蔚旗
Original assignee: Beijing Hualande Technology Consulting Service Co ltd
Current assignee: Beijing Hualande Technology Consulting Service Co ltd
Priority date: 2020-04-12
Filing date: 2020-04-12
Publication date: 2021-07-27
Anticipated expiration: 2040-04-12
Also published as: CN111488744A

Abstract

一种多模态语言信息AI翻译方法、系统和终端，方法包括：在建立通信链路的同时，提示是否进入多模态语言翻译模式，并根据用户的选择确定是否进入多模态语言翻译模式，而后选择翻译类型，所述翻译类型至少包括人工选择模式和自动识别模式；人工选择模式为，建立通信链路后且确定处于多模态语言翻译模式时，根据用户的选择通过AI模块进行多模态语言翻译；自动识别模式为，建立通信链路后且确定处于多语态语言翻译模式时，识别通信双方所使用的语言模态，通过AI模块将对端用户所使用语言模态转换为本端用户所使用的语言模态。本发明提供的AI手语翻译方法、系统和终端，能够克服种种语言障碍，使交流非常方便。

Description

多模态语言信息AI翻译方法、系统和终端

技术领域

本发明涉及一种多模态语言信息AI翻译方法、系统和终端，属于数据处理技术领域。

背景技术

对于移动终端，传统的接打电话功能仅限于用户之间通过语音进行交流，若通信双方用户使用不同模态的语言进行交流，经常不理解对方的语义，交流很困难，甚至产生误解。

发明内容

本发明公开一种多模态语言信息AI翻译方法、系统和终端，其能够将对端所使用的各种模态的语言信息翻译为本端用户所能理解的模态语言信息，使交流非常方便。

为实现所述发明目的，本发明提供一种多模态语言信息AI翻译方法，包括：与对端建立通信链路，其特征在于，还包括：在建立通信链路的同时，提示是否进入多模态语言翻译模式，并根据用户的选择确定是否进入多模态语言翻译模式，而后选择翻译类型，所述翻译类型至少包括人工选择模式和自动识别模式；人工选择模式为，建立通信链路后且确定处于多模态语言翻译模式时，根据用户的选择通过AI模块进行多模态语言翻译，而后通过语音模块转换为声音或通过显示模块转换为文字和/或手语视频；自动识别模式为，建立通信链路后且确定处于多语态语言翻译模式时，识别通信双方所使用的语言模态，通过AI模块将对端用户所使用语言模态转换为本端用户所使用的语言模态而后通过语音模块转换为声音和/或通过显示模块转换为文字和/或手语视频。

优选地，所述方法还包括：在翻译模式时，收到结束翻译模式的指令时结束翻译模式或者收到通信结束的指令时结束翻译模式。

优选地，所述方法还包括：在翻译模式时，更改翻译类型。

优选地，AI模块通过如下过程实现：利用编码单元将各模态语言的单词进行编码生成各语种单词文字-词音-手语图像-编码表并存储于语料库中，不同模态同一词义的单词文本、词音和手语图像-对应相同的编码；通过识别模块识别通信双方的语言模态并将本端的语言模态进行识别形成多个单词；通过码串生成单元对单词根据单词文字-词音-手语图像-编码表进行编码生成码串,而后通过通信子系统发送给对端；通过模型单元查找单词-词音-手语图像-编码表，对通过通信子系统接收的码串进行解码将对端语言模态转换为本端所使用的语言模态。

为实现所述发明目的，本发明还提供一种多模态语言信息AI翻译系统，其包括：通信链路建立模块，被配置为与对端建立通信链路，其特征在于，还包括：判断模块，被配置为在建立通信链路的同时，判断是否进入多模态语言翻译模式，并根据用户的选择确定是否进入多模态语言翻译模式，而后选择语种翻译类型，所述语种翻译类型至少包括人工选择模式和自动识别模式；翻译模块，被配置为建立通信链路后且确定处于多模态语言翻译模式的人工选择模式时，根据用户的选择通过AI模块进行多模态语言翻译；或建立通信链路后且确定处于多模态语言翻译模式的自动识别模式时，识别通信双方所使用的语言模态，并通过AI模块将对端用户所使用语言模态转换为本种所使用的语言模态；输出模块，被配置为将翻译后的语言模式通过语音模块转换为声音和/或通过显示模块转换为文字和/或手语。

优选地，所述系统还包括结束模块，被配置为：在翻译模式时，收到结束翻译模式的指令时结束翻译模式，或者被配置为在翻译模式时，收到通信结束的指令时结束翻译模式。

优选地，所述系统还包括更改模块，被配置为，在多模态语言翻译模式时，更改翻译类型。

优选地，翻译模块包括：编码单元、识别模块、码串生成单元和模型单元，其中，编码单元将各模态语言的单词进行编码生成各语种单词文字-词音-手语图像-编码表并存储于语料库中，不同模态同一词义的单词文本、词音和手语图像-对应相同的编码；识别模块识别通信双方的语言模态并将本端的语言模态进行识别形成多个单词；码串生成单元对单词根据单词文字-词音-手语图像-编码表进行编码生成码串,而后通过通信子系统发送给对端；模型单元查找单词-词音-手语图像-编码表，对通过通信子系统接收的码串进行解码将对端语言模态转换为本端所使用的语言模态。

优选地，所述识别模块至少包括使用卷积神经网络的图像识别装置，所述图像识别装置至少包括：生成单元、获取单元、校正单元和提取单元，其中，生成单元根据输入的图像生成分辨率随着从第1级向第N级而变低的特征图，使用第N级特征图生成第一特征图；获取单元，检测上述图像中拍摄的用于表达手语的人物，获取人物在所述第一特征图上的位置信息；校正单元，其校正所述位置信息，使得位置信息对应于第二特征图的分辨率，第二特征图是在第N级之前生成的特征图上的人物图像的范围；提取单元，用于在所述第一特征图上设置位于由校正后的位置信息表示的位置的关注区域，从所述关注区域中提取人物与表达手语有关的特征的特征信息。

为实现所述发明目的，本发明还提供一种终端，其包括处理器和存储器，其特征在于，将上述的方法利用计算机语言编成处理器可执行的源程序代码，并能够存储于存储器中，处理器调用并执行源程序代码，以实现多模态语言翻译。

本公开的实施例提供的技术方案可以包括以下有益效果：(1)通过在手持终端的UI界面上设置多模态语言翻译模式的选项，能够将通信双方对端所使用的各种语音语种、手语和/或方言翻译为本端用户所能理解的的标准语音、文字和/或手语，使交流和显示非常方便；(2)利用同一编码对各种语种的单词文字、词音、手语单词进行编码，利用编码作为中介进行翻译提高了翻译速度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本发明提供的手持终端的组成框图；

图2是本发明提供的多模态语言信息AI翻译方法的流程图；

图3图是本发明提供的AI模块的工作流程图；

图4是表示附加了表示人物图像范围的图像说明图；

图5是本发明提供图像识别模块的工作流程图；

图6是本发明提供的生成单元的功能框图；

图7是具有人物图像范围的第一特征图；

图8是校正了人物位置信息的第一特征图；

图9是本发明利用RoI池化层对校正后的特征图进行处理的说明图。

具体实施方式

为了更清楚地说明本发明具体实施方式中的技术方案，下面将对具体实施方式描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

本公开实施例提供的技术方案，能够将对端所使用的各种模态的语言信息翻译为本端用户所选择的或者识别的模态的语言信息，使交流非常方便。

图1是本发明提供的手持终端的组成框图。如图1所示，手持终端包括通信子系统和应用子系统，所述通信子系统包括天线、射频收发器、模拟基带处理器、数字基带处理器和SIM接口；应用子系统包括主处理器、功率放大器、扬声器(和/或耳机)、传声器、显示器，触摸屏、键盘、蓝牙、GPS模块、摄像头和存储器,其中，主处理器能够调用存储器的存储的各种应用程序，并以完成显示、电话呼叫、数据通信、摄像、录音、翻译相关联的操作；GPS模块用于获得手持终端的位置信息和时间信息；触摸屏和键盘用于用户输入指令。存储器被配置为存储各种类型的数据和计算机应用程序以支持在手持终端的操作,所述数据的示例至少包括语料库数据。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)，只读存储器(ROM)、磁存储器、快闪存储器磁盘等，所述存储器也包括网盘。将本发明提供的翻译方法利用计算机语言编成处理器可执行的源程序代码，并能够存储于手持终端的存储器中，处理器运行该计算机程序，手持终端的用户界面上显示多模态翻译模式及相关内容的相应图标，供用户根据需要进行选择。

触摸屏可以接收来自用户的输入信号，例如可以获取用户输入的文本信息，触摸屏包括一个或多个触摸传感器以感测触摸、滑动面板上的手势。所述触摸传感器不仅可以感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

摄像头包括一个前置摄像头和/或后置摄像头。当手持终端处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收多媒体数据，本发明中，可以利用摄像头获取通信双方的视频数据，优选例如可以获取通信双方或任一方的手语视频数据。每个前置摄像头和后置摄像头可以是一个固定光学镜头系统或具有光学变焦能力的系统。

当手持终端处于操作模式，如呼叫模式、记录模式、翻译模式时，传声器被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信子系统发送。扬声器和耳机用于输出音频信号。

手持终端还包括I/O接口(图1中未示),其为处理器和外围接口模块之间提供接口，上述外围接口模块可以连接键盘、点击轮、按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

本发明提供的手持终端还包括传感器器模块(图1中未示),其包括一个或多个传感器，用于为手持终端提供各个方面的状态评估。例如，传感器模块可以检测到手持终端的打开/关闭状态，检测手持终端或手持终端的一个组件的位置改变等。

通信子系统被配置为便于手持终端和其他设备之间有线或无线方式的通信。手持终端可以接入基于通信标准的无线网络，如3G、4G、5G、6G或它们的组合。蓝牙模块为近场通信模块，以促使短程通信。

本发明中，主处理器将通过传声器等获取的语音数据通过人工智能模块(AI模块)1处理将语音数据识别为多个文本数据，还将通过摄像头取的获包括手语图像数据识别为多个文本数据，而后输入到编码单元2进行编码，而后通过通信子系统将编码发送给对端；还将接收的编码进行解码，将对端所使用的语言模态转换为用户的选择的语言模态或者本端用户所使用语言模态。

图2是本发明提供的多模态语言信息AI翻译方法的流程图，如图2所示，所述多模态语言信息AI翻译方法包括以下步骤S101-S103：

在步骤S101中，接收对端发来的来电请求并回应以建立通信链路；

在步骤S102中，在建立通信链路的同时，提示本端用户是否进入多模态语言翻译模式，并根据本端用户的选择确定是否进入多模态语言翻译模式，而后选择翻译类型，所述语种翻译类型至少包括人工选择模式和自动识别模式。本发明中，语言的多模态包括：多语种及其文字、语音、手语图像、方言等。

在步骤S103中，建立通信链路后且确定处于多种态语言翻译模式的人工选择模式时，根据用户的选择的翻译类型将接收到的编码翻译为所选择的语言模态，而后通过语音模块转换为声音和/或通过显示模块转换为文字和/或手语图像；或建立通信链路后且确定处于翻译模式的自动识别模式时，识别通信双方所使用的语言模态，通过AI模块将对端发送来的编码转换为本端用户所使用的语言模态，而后通过语音模块转换为声音和/或通过显示模块转换为文字和/或手语图像。

在该实施例中，能够提供用户进行翻译模式的选择，正常情况下可不选择进行翻译模式，即直接使用语音、视频进行双向通信，在听不懂或不能听对方的语种语音、方言时或者看不懂对方的手语时，可选择使用多模态语言翻译模式功能，将收到编码转为用户熟悉的语种语音或标准语言，还可将语音、方言转换为手语图像，通过听筒或外放设备进行播放或者通过显示屏显示文字和/或手语图像，使听力正常的人与听力、语音障碍的人进行正常交流。

在一个实施例中，所述AI语言翻译方法还包括确定进入翻译模式的步骤：.根据用户的设置，默认建立通信链路后自动进入多模态语言翻译模式；或，在接收到对端发送来的来电请求进行来电提示，并在向对端回应以建立通信链路的同时，提示是否进入多模态语言翻译模式，并根据用户的选择确定是否进入多模态语言翻译模式。在该实施例中，可支持用户在任何时间选择进入多模态语言翻译模式。

在一个实施例中，所述方法还包括结束多种态语言翻译模式的步骤，仍如图2所示，所述方法包括以下步骤S104-S106：

在步骤S104中,在通话中,确定是否接收到结束多种态语言翻译模式的指令,若接收到种翻译模式的指令,结束语种翻译处理,进入普通的通话，若没有接收到结束翻译模式的指令，则继续根据之前的选择的翻译类型，对接收到的语言语态进行处理。

在步骤S105中，在通话中,确定是否接收到更改翻译类型的指令,若接收到,根据更改后的翻译类型对接收到的语言语态进行处理；若没接收到，则返回到步骤S104；

在步骤S106中，在通话中,确定是否接收到结束通话的指令,若接收到,则结束多模态语言翻译处理；若没接收到，则返回到步骤S104。

在该实施例中，可支持用户结束使用多模态语言翻译功能，且支持用户随时根据收到的结束翻译模式的指令结束使用多模态语言翻译功能，以应对用户的实际应用需要。比如，可在与对端通过通信链路进行通信的过程中收到结束翻译模式的指令时，结束语种翻译功能，也可以在结束与对端的通信时结束使用翻译功能。

在该实施例中，还可支持用户更改翻译类型的功能，且支持用户随时根需要更改翻译类型，以应对用户的实际应用需要。比如，若确定处于翻译模式的人工选择模式的互译模式时，可以根据需要转换为单译模式，还可转换为智能识别模式。

图3是本发明的AI模块的工作流程图，如图3所示，本发明提供的AI模块通过如下过程实现：利编码单元将各模态语言的单词进行编码生成各语种单词文字-词音-手语图像-编码表并存储于语料库中，不同模态同一词义的单词文本、词音和手语图像对应相同的编码；利用识别模块识别通信双方的语言模态并将本端的语言模态进行识别形成多个单词；利用码串生成单元对单词根据单词文字-词音-手语图像-编码表进行编码生成码串,而后通过通信子系统发送给对端；利用模型单元查找单词-词音-手语图像-编码表，对通过通信子系统接收的码串进行解码将对端语言模态转换为本端所使用的语言模态。

该实施例中，采集世界各国的多种语言、方言的单词词音及手语图像，具有相同或相近词义的单词和手语图像采用相的的编码，并存储于语料库中。例如，需要将第一种语言翻译翻译成第二种语言时，将第一种语言的语音进行分词形成多个词音，并对其进行编码生成码串，而后将码串发送给对端；对端根据码串从语料库查找对应于第二种语言的读音、文本或者手语图像，最后调整单词、读音、手语图像顺序转换成第二种语言的语音或、文本和/或手语视频。如此，可加快处理器的处理速度，进而提高了翻译速度。

本发明还提供一种计算机程序，其将上述任一方法利用计算机语言编成处理器可执行的源程序代码，并能够存储于存储介质中，所述存储介质至少包括存储器。

根据本发明一个实施例，本发明还提供一种与上述方法相应的多模态语言信息AI翻译系统，其包括：通信链路建立模块，被配置为与对端建立通信链路，还包括：判断模块，被配置为在建立通信链路的同时，判断是否进入多模态语言翻译模式，并根据用户的选择确定是否进入多模态语言翻译模式，而后选择语种翻译类型，所述语种翻译类型至少包括人工选择模式和自动识别模式；翻译模块，被配置为建立通信链路后且确定处于多模态语言翻译模式的人工选择模式时，根据用户的选择通过AI模块进行多模态语言翻译；或建立通信链路后且确定处于多模态语言翻译模式的自动识别模式时，识别通信双方所使用的语言模态，并通过AI模块将对端用户所使用语言模态转换为本种所使用的语言模态；输出模块，被配置为将翻译后的语言模式通过语音模块转换为声音和/或通过显示模块转换为文字和/或手语。

在一个实施例中，所述AI语言翻译系统还包括翻译模式切入模块，翻译模式切入模块根据用户的设置，默认建立通信链路后自动进入多模态语言翻译模式；或，在接收到对端发送来的来电请求进行来电提示，并在向对端回应以建立通信链路的同时，提示是否进入多模态语言翻译模式，并根据用户的选择确定是否进入多模态语言翻译模式；或，在与对端建立通信链路后，根据用户的选择，进入多模态语言翻译模式。在该实施例中，可支持用户在任何时间选择进入多模态语言翻译模式。

在一个实施例中，所述系统还包括结束模块，被配置为确定是否接收到结束多种态语言翻译模式的指令,若接收到种翻译模式的指令,结束语种翻译处理,进入普通的通话，若没有接收到结束翻译模式的指令，则继续根据之前的选择的翻译类型，对接收到的语言语态进行处理。还被配置为，在通话中,确定是否接收到结束通话的指令,若接收到,则结束多模态语言翻译处理。

在一个实施例中，所述系统还包括更改模块，被配置为在多模态语言翻译模式时，更改翻译类型，在通话中,确定是否接收到更改翻译类型的指令,若接收到,根据更改后的翻译类型对接收到的语言语态进行处理。

本发明提供的AI模块包括：编码单元、识别模块、码串生成单元和模型单元，其中，编码单元将各模态语言的单词进行编码生成各语种单词文字-词音-手语图像-编码表并存储于语料库中，不同模态同一词义的单词文本、词音和手语图像-对应相同的编码；识别模块识别通信双方的语言模态并将本端的语言模态进行识别形成多个单词；码串生成单元对单词根据单词文字-词音-手语图像-编码表进行编码生成码串,而后通过通信子系统发送给对端；模型单元查找单词-词音-手语图像-编码表，对通过通信子系统接收的码串进行解码将对端语言模态转换为本端所使用的语言模态。

本发明中，模型单元例如通过下列模型调整词序:

式中,P(w_i|w_i-1)为以前一单词w_i-1、第k个语言模态模型的第i-1个中间层输出s_i-1 ^k、第k个语言模态模型的模型参数θ_k为输入的当前单词w_i的概率；K是语言模态数量；λ_k为第k个语言模态模型的混合权重,K种语言模态的混合权重存在如下的约束:

混合权重λ_k可根据EM算法,根据下式采用递归法求出：

式中,w₁...w_i...w_L是自适应数据的词序列,s_i-1 ^k是第k个语种模型的第i-1个中间层输出,θ_k是第k个语言模态模型的模型参数；等式右侧的λ_k为前一次求出的混合权重，等式左边的λ_k为更新后的混合权重，在EM算法中，初始混合权重通常等于所有混合权重。L为词串长度，其为词串中单词的数量。

根据本发明一个实施例，所述识别模块至少包括使用卷积神经网络(CNN)的图像识别模块，图像识别模块使用摄像头输入的图像帧作为图像Im，检测在图像Im中示出的人OB，并且估计检测到的人的每个关节的位置，根据个的每个关节的位置生成相应于手语图像的文本。所述图像Im如图4所示，分辨率例如为1024像素*1024像素，虚线框表示包含了人物OB的范围S，其分辨率例如为96像素×96像素。

图5是本发明提供图像识别模块的工作流程图，如图5所示，所述识别模块至少包括使用卷积神经网络的图像识别模块，所述图像识别模块至少包括：生成单元、获取单元、校正单元和提取单元，其中，生成单元根据输入的图像生成分辨率随着从第1级向第N级而变低的特征图，使用第N级特征图生成第一特征图；获取单元，检测上述图像中拍摄的用于表达手语的人物，获取人物在所述第一特征图上的位置信息；校正单元，其校正所述位置信息，使得位置信息对应于第二特征图的分辨率，第二特征图是在第N级之前生成的特征图上的人物图像的范围；提取单元，用于在所述第一特征图上设置位于由校正后的位置信息表示的位置的关注区域，从所述关注区域中提取人物与表达手语有关的特征的特征信息。

例如，生成单元包括输入层51及N级特征提取单元,所述N大于等于2，例如N＝5，卷积层52-1和池化层53-1的组成第1级，卷积层52-1对输入层51输入的图像进行卷积生成10个特征图M1-M10，这些特征图的尺寸与图像Im的尺寸1024像素×1024像素相同，池化层53-1分别对10个特征图进行池化生成1O个特征图M11-M20，这些特征图的尺寸比特征图M1-M10要小，为512像素×512像素；卷积层52-2和池化层53-2的组成第2级，卷积层52-2分别对10个特征图M11-M20进行卷积处理，生成10个特征图M21-M30，尺寸为512像素×512像素，池化层53-2分别对10个特征图M21-M30进行池化生成1O个的特征图M31-M40，尺寸为256像素×256像素；卷积层52-3和池化层53-3的组成第3级，卷积层52-3分别对10个特征图M31-M40进行卷积处理，生成10个特征图M41-M50，尺寸为256像素×256像素，池化层53-3分别对10个特征图M41-M50进行池化生成1O个特征图M51-M60，尺寸为128像素×128像素；卷积层52-4和池化层53-4的组成第4级，卷积层52-4分别对10个特征图M51-M60进行卷积处理，生成10个特征图M61-M70，尺寸为128像素×128像素，池化层53-4分别对10个特征图M61-M70进行池化生成10特征图为M71-M80，尺寸为64像素×64像素；卷积层52-5和池化层53-5的组成第5级，卷积层52-5分别对10个特征图M71-M80进行卷积处理，生成10个特征图M81-M90，尺寸为64像素×64像素，池化层53-5分别对10个特征图M81-M90进行池化生成10个特征图M91-M100，尺寸为32像素×32像素。在可选的实施例中，可不具有池化层53。随着从第1级到第5级，特征图M的分辨率变低，如果特征图M的纵向尺寸和横向尺寸变为一半，则范围S的纵向尺寸和横向尺寸变为一半。

RPN层54根据特征图M91-M100的特征，检测出的人物OB及其位置信息P。RPN层54具有获取单元的功能，使用在多级中的最后一级生成的第一特征图，检测上述图像Im中拍摄的人物OB，获取人物在所述第一特征图上的位置信息P。在实施方例中，第一特征图是特征图M91-M100。

参照图5，选择单元59从除了在最后级获得的第一特征图之外的级获得第二特征图。更具体地，第二特征图是在位于第5级之前的级中生成的特征图M上的人物图像范围S。选择单元59通过切换开关，由第1级的池化层53-1得到的特征图M11-M20上的人物图像范围S(48像素×48像素)，第2级的池化层53-2得到的特征图M31-M40上的人物图像范围S(24像素×24像素)，第3级的池化层53-3得到的特征图M51-M60的人物图像范围S(12像素×12像素)，以及第4级的池化层53-4得到的特征图M71-M80上的人物图像范围S(6像素×6像素)。

例如，选择由第3级的池化层53-3得到的特征图M51-M60上的人物图像范围S(12像素×12像素)作为第二特征图，记为关注区域R。如果关注区域R的尺寸过小，则在特征信息F中不包含与位置相关的信息，所以预先决定关注区域R的尺寸的下限值，使得与位置相关的信息包含在特征信息F中。随着从第1级朝向第5级，特征图M的分辨率变低，因此在图像Im中拍摄的人物OB的范围S(成为检测对象的范围)也随着从第1级朝向第5级而变小。

参照图7，校正单元58修正RPN层54生成的位置信息P。原因如下：位置信息P为特征图M91-M100上的人物图像范围S的位置信息。位置信息P例如设为坐标C1、C2、C3和C4。

在实施方式中，特征图M51-M60的分辨率高于特征图M91-M100。因此，图5所示的校正单元58修正第一特征图上的位置信息P，使其与特征图M51-M60上的人物图像范围(第二特征图)的分辨率对应。如图6中说明的那样，M11-M20特征图上人物图像范围分辨率为48像素×48像素；M31-M40特征图上人物图像范围S的分辨率为24像素×24像素；M51-M60特征图上人物图像范围S的分辨率为12像素×12像素；M71-M80特征图上人物图像范围S的分辨率为6像素×6像素；M91-M100特征图像上人物图像范围的分辨率为3像素×3像素。

校正单元58对第一特征图上的位置信息P进行校正，使得由位置信息P表示的关注区域R的面积扩大到4倍，如图8所示。具体而言，修正单元58将坐标C1修正为坐标C5，将坐标C2修正为坐标C6，将坐标C3修正为坐标C7，将坐标C4修正为坐标C8。由坐标C5、C6、C7和C8确定位置的关注区域R以由坐标C1、C2、C3和C4所形成的位置区域为中心。

校正单元58将修正了位置信息P的第一特征图向RoI池化层55输送。RoI池化层55作为提取单元发挥功能，从所述关注区域R中提取人物OB与表达手语有关的特征的特征信息F。

图9是本发明利用RoI池化层对校正后的特征图进行处理的说明图。如图9所示，RoI池化层55通过对关注区域R分别进行池化，来表示与人物OB相关的特征信息F1-F10，通过池化处理被整形为全部相同的尺寸，如都是4像素×4像素。

进一步详细说明以上说明的RoI池化。如上所述，RoI池化是提取关注区域R，将其作为固定尺寸(例如4像素×4像素)的特征图的处理，该特征图M成为特征信息F。例如，在关注区域R的尺寸为12像素×12像素，将其设为4像素×4像素的特征图(特征信息F)的情况下，RoI池化层55将12像素×12像素的关注区域R分割为3×3的网格。在关注区域R的尺寸不能被网格的尺寸整除的情况下，也进行同样的处理。

参照图5，RoI池化层55将特征信息F1-F10送往全结合层56。全结合层56对特征信息F1-F10进行回归分析，生成回归结果RR。更具体地，全耦合层56用作估计单元。估计单元使用特征信息F来估计人物OB的预定部位的位置。在此，全结合层56对特征信息F1-F10进行回归分析，推定人物OB的规定的关节的位置。规定的关节例如是颈关节、左肩关节，左肘关节，左手腕关节，左手各指关节，右肩关节，右肘关节，右手腕关节，右手各指关节。在回归分析中，也可以使用一般的回归分析的算法(例如，线性模型)。全结合层56将表示推定的关节位置的回归结果形成文本RR，而后送往输出层57。输出层57将回归结果RR送往图1所示的编码单元。

本发明中，第二特征图的分辨率比第一特征图上的人物OB范围S的分辨率高。因此，从设定在第二特征图上的关注区域R中抽出的特征信息F，与从设定在第一特征图上的人物图像范围S中抽出特征信息F相比，包含更多的与位置相关的信息。因此，如果使用从设定在第二特征图中的关注区域R中提取出的特征信息F，则能够估计人物手语所需的规定的关节的位置。

如上所述，在图像Im中拍摄有人物的情况下，检测该人物的手姿。在推定手的姿势的情况下，推定手指关节的位置，进一步推定相应于手语的文本。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种多模态语言信息AI翻译方法，包括：与对端建立通信链路，其特征在于，还包括：

在建立通信链路的同时，提示是否进入多模态语言翻译模式，并根据用户的选择确定是否进入多模态语言翻译模式，而后选择翻译类型，所述翻译类型至少包括人工选择模式和自动识别模式；人工选择模式为，建立通信链路后且确定处于多模态语言翻译模式时，根据用户的选择通过AI模块进行多模态语言翻译，而后通过语音模块转换为声音或通过显示模块转换为手语视频；自动识别模式为，建立通信链路后且确定处于多语态语言翻译模式时，识别通信双方所使用的语言模态，通过AI模块将对端用户所使用语言模态转换为本端用户所使用的语言模态，而后通过语音模块转换为声音和/或通过显示模块转换手语视频，AI模块包括识别模块，其被配置为识别通信双方的语言模态并将本端的语言模态进行识别形成多个单词，所述识别模块至少包括使用卷积神经网络的图像识别装置，所述图像识别装置至少包括：生成单元、获取单元、校正单元和提取单元，其中，生成单元根据输入的图像生成分辨率随着从第1级向第N级而变低的特征图，使用第N级特征图生成第一特征图；获取单元检测上述图像中拍摄的用于表达手语的人物，获取人物在所述第一特征图上的位置信息；校正单元校正所述位置信息，使得校正后的位置信息对应于第二特征图的分辨率，第二特征图是在第N级之前生成的特征图上的人物图像的范围；提取单元，用于在所述第一特征图上设置位于由校正后的位置信息表示的位置的关注区域，从所述关注区域中提取人物与表达手语有关的特征的特征信息。

2.根据权利要求1所述的方法，其特征在于，还包括：在翻译模式时，收到结束翻译模式的指令时结束翻译模式或者收到通信结束的指令时结束翻译模式。

3.根据权利要求1-2任一所述的方法，其特征在于，还包括：在翻译模式时，更改翻译类型。

4.根据权利要求3所述的方法，其特征在于，利用编码单元将各模态语言的单词进行编码生成各语种单词文字-词音-手语图像-编码表并存储于语料库中，不同模态同一词义的单词文本、词音和手语图像-对应相同的编码,AI模块还包括：码串生成单元和模型单元，码串生成单元被配置为对单词根据单词文字-词音-手语图像-编码表进行编码生成码串,而后通过通信子系统发送给对端；模型单元被配置为查找单词-词音-手语图像-编码表，对通过通信子系统接收的码串进行解码将对端语言模态转换为本端所选择或使用的语言模态。

5.一种多模态语言信息AI翻译系统，其包括：通信链路建立模块，被配置为与对端建立通信链路，其特征在于，还包括：

判断模块，被配置为在建立通信链路的同时，判断是否进入多模态语言翻译模式，并根据用户的选择确定是否进入多模态语言翻译模式，而后选择语种翻译类型，所述语种翻译类型至少包括人工选择模式和自动识别模式；

翻译模块，被配置为建立通信链路后且确定处于多模态语言翻译模式的人工选择模式时，根据用户的选择通过AI模块进行多模态语言翻译；或建立通信链路后且确定处于多模态语言翻译模式的自动识别模式时，识别通信双方所使用的语言模态，并通过AI模块将对端用户所使用语言模态转换为本种所使用的语言模态；AI模块包括识别模块，其被配置识别通信双方的语言模态并将本端的语言模态进行识别形成多个单词，所述识别模块至少包括使用卷积神经网络的图像识别装置，所述图像识别装置至少包括：生成单元、获取单元、校正单元和提取单元，其中，生成单元根据输入的图像生成分辨率随着从第1级向第N级而变低的特征图，使用第N级特征图生成第一特征图；获取单元，检测上述图像中拍摄的用于表达手语的人物，获取人物在所述第一特征图上的位置信息；校正单元用于校正所述位置信息，使得位置信息对应于第二特征图的分辨率，第二特征图是在第N级之前生成的特征图上的人物图像的范围；提取单元用于在所述第一特征图上设置位于由校正后的位置信息表示的位置的关注区域，从所述关注区域中提取人物与表达手语有关的特征的特征信息；

输出模块，被配置为将翻译后的语言模式通过语音模块转换为声音和/或通过显示模块转换为手语视频。

6.根据权利要求5所述的系统，其特征在于，还包括结束模块，被配置为：在翻译模式时，收到结束翻译模式的指令时结束翻译模式，或者被配置为在翻译模式时，收到通信结束的指令时结束翻译模式。

7.根据权利要求5-6任一所述的系统，其特征在于，还包括更改模块，被配置为，在多模态语言翻译模式时，更改翻译类型。

8.根据权利要求7所述的系统，其特征在于，包括语料库，将各模态语言的单词进行编码生成各语种单词文字-词音-手语图像-编码表并存储于语料库中，不同模态同一词义的单词文本、词音和手语图像-对应相同的编码, AI模块还包括：码串生成单元和模型单元，其中，码串生成单元被配置为对单词根据单词文字-词音-手语图像-编码表进行编码生成码串,而后通过通信子系统发送给对端；模型单元被配置为查找单词-词音-手语图像-编码表，对通过通信子系统接收的码串进行解码将对端语言模态转换为本端所选择或使用的语言模态。

9.一种终端，其包括处理器和存储器，其特征在于，将权利要求1-4任一所述的方法利用计算机语言编成处理器可执行的源程序代码，并能够存储于存储器中，处理器调用并执行源程序代码，以实现多模态语言翻译。