CN111507115A

CN111507115A - 多模态语言信息人工智能翻译方法、系统和设备

Info

Publication number: CN111507115A
Application number: CN202010282700.XA
Authority: CN
Inventors: 连芷萱; 闵松阳; 杨嘉琪; 张瑜佳; 马志; 席跃东; 席跃君; 李敏; 宋蔚旗
Original assignee: Beijing Hualande Technology Consulting Service Co ltd
Current assignee: Beijing Hualande Technology Consulting Service Co ltd
Priority date: 2020-04-12
Filing date: 2020-04-12
Publication date: 2020-08-07
Anticipated expiration: 2040-04-12
Also published as: CN111507115B

Abstract

一种多模态语言信息人工智能翻译方法、系统和设备，方法包括：多个用户至少通过服务器建立通信群，服务器根据用户的选择通过人工智能模块进行多模态语言翻译，将存储于存储器的第一用户的留言语言模态转换为第二用户所选择的语言模态而后通过用户终端的语音模块转换为声音和/或通过显示模块转换为文字和/或手语视频。本发明提供的多模态语言信息人工智能翻译方法、系统和设备，其能够将留言用户所使用的各种语言信息模态翻译为接听用户所能理解的语言信息模态，使交流非常方便。

Description

多模态语言信息人工智能翻译方法、系统和设备

技术领域

本发明涉及一种多模态语言信息人智能工翻译方法、系统和设备，属于数据处理技术领域。

背景技术

现今社会,人们通过建立通信群而进行交流，如人们通过微信、QQ进行文字、图像和声音的交流。但是这些通信群只对视力、听力和发音正常的人来说是非常方便，而现实生活中存在如下情况：在某些场合某些用户不适合接收给其发送的信息的语言模态，需要转换成另一种形式；对听力有障碍的人来说，根本不能听声音；对视力有障碍人来说，根本不能不能看视频；对聋哑人来说,既不能听声音也不能发语音,其只能用手语进行交流,因此,需要一种工具,将手语、方字和语音彼此进行相互转换，以促使残疾人之间，残疾人和正常人交流畅通。

发明内容

本发明公开一种多模态语言信息人智能工翻译方法、系统和设备，其能够将留言用户所使用的各种模态的语言信息翻译为接听用户所能理解的模态语言信息，使交流非常方便。

为实现所述发明目的，一种多模态语言信息人工智能翻译方法，包括：多个用户至少通过服务器建立通信群，其特征在于，服务器根据用户的选择通过人工智能模块进行多模态语言翻译，将存储于服务器的第一用户的留言模态转换为第二用户所选择的语言模态而后通过语音模块转换为声音和/或通过显示模块转换为文字和/或手语视频，人工智能模块至少包括识别模块，所述识别模块通过包括使用卷积神经网络的图像识别装置进行图像识别，其通过如下步骤实现，根据输入的图像生成分辨率随着从第1级向第N级而变低的特征图，使用第N级特征图生成第一特征图；检测上述图像中拍摄的用于表达手语的人物，获取人物在所述第一特征图上的位置信息；校正所述位置信息，使得位置信息对应于第二特征图的分辨率，第二特征图是在第N级之前生成的特征图上的包含人物图像的区域范围；在所述第一特征图上设置位于由校正后的位置信息表示的位置的关注区域，从所述关注区域中提取人物与表达手语有关的特征的特征信息。

为实现所述发明目的，本发明还提供一种多模态语言信息人工智能翻译系统，包括：多个用户端及服务器，多个用户端通过服务器建立通信群，其特征在于，服务器包括人工智能模块，其根据用户的选择进行多模态语言翻译，将存储于服务器的第一用户的多模态留言转换为第二用户所选择的语言模态而后通过语音模块转换为声音和/或通过显示模块转换为文字和/或手语视频，人工智能模块至少包括识别模块，识别模块识别第一用户所存储的语言的模态并进行识别形成多个单词，所述识别模块至少包括使用卷积神经网络的图像识别装置，所述图像识别装置至少包括：生成单元、获取单元、校正单元和提取单元，其中，生成单元根据输入的图像生成分辨率随着从第1级向第N级而变低的特征图，使用第N级特征图生成第一特征图；获取单元，检测上述图像中拍摄的用于表达手语的人物，获取人物在所述第一特征图上的位置信息；校正单元，其校正所述位置信息，使得位置信息对应于第二特征图的分辨率，第二特征图是在第N级之前生成的特征图上的包含人物图像的区域范围；提取单元，用于在所述第一特征图上设置位于由校正后的位置信息表示的位置的关注区域，从所述关注区域中提取人物与表达手语有关的特征的特征信息。

优选地，服务器还包括语料库，各语种单词文字-词音-手语图像-编码表并存储于语料库中，不同模态同一词义的单词文本、词音和手语图像-对应相同的编码。

优选地，人工智能模块还包括编码单元和模型单元，编码单元对识别单元所识别的单词根据单词文字-词音-手语图像-编码表进行编码生成码串；模型单元根据第二用户所选择的语言模态查找单词-词音-手语图像-编码表，对码串进行解码将第一用户所存储的语言模态转换为第二用户所选择的语言模态。

优选地，语言模态包括多语种及其文字、语音、方言和手语图像。

为实现所述发明目的，本发明还提供一种设备，其包括处理器和存储器，其特征在于，将上述的方法利用计算机语言编成处理器可执行的源程序代码，并能够存储于存储器中，处理器调用并执行源程序代码，以实现多模态语言翻译。

本公开的实施例提供的技术方案可以包括以下有益效果：(1)可将手语视频率转换为文字；(2)能够将留言用户所使用的各种模态的语言信息翻译为接听用户所能理解的模态语言信息，使交流非常方便；(3)利用同一编码对各种语种的单词文字、词音、手语单词进行编码，利用编码作为中介进行翻译提高了翻译速度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本发明提供的手持终端的组成框图；

图2是本发明提供的多模态语言信息人工智能翻译方法的流程图；

图3是本发明变形例提供的多模态语言信息人工智能翻译方法的流程图；

图4图是本发明提供的人工智能模块的工作流程图；

图5是表示附加了表示人物图像范围的图像说明图；

图6是本发明提供图像识别模块的工作流程图；

图7是本发明提供的生成单元的功能框图；

图8是具有人物图像范围的第一特征图；

图9是校正了人物位置信息的第一特征图；

图10是本发明利用RoI池化层对校正后的特征图进行处理的说明图。

具体实施方式

为了更清楚地说明本发明具体实施方式中的技术方案，下面将对具体实施方式描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的手持终端的组成框图。如图1所示，手持终端包括通信子系统和应用子系统，所述通信子系统包括天线、射频收发器、模拟基带处理器、数字基带处理器和SIM接口；应用子系统包括主处理器、功率放大器、扬声器(和/或耳机)、传声器、显示器，触摸屏、键盘、蓝牙、GPS模块、摄像头和存储器,其中，主处理器能够调用存储器的存储的各种应用程序，并以完成显示、电话呼叫、数据通信、摄像、录音等相关联的操作；GPS模块用于获得手持终端的位置信息和时间信息；触摸屏和键盘用于用户输入指令。存储器被配置为存储各种类型的数据和计算机应用程序以支持在手持终端的操作。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)，只读存储器(ROM)、磁存储器、快闪存储器磁盘等，所述存储器也包括网盘。将本发明提供的翻译方法利用计算机语言编成处理器可执行的源程序代码，并能够存储于手持终端的存储器中，处理器运行该计算机程序，可在通信应用程序的界面上显示多模态翻译模式及相关内容的相应图标，供用户根据需要进行选择。

触摸屏可以接收来自用户的输入信号，例如可以获取用户输入的文本信息，触摸屏包括一个或多个触摸传感器以感测触摸、滑动面板上的手势。所述触摸传感器不仅可以感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

摄像头包括一个前置摄像头和/或后置摄像头。当手持终端处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收多媒体数据，本发明中，可以利用摄像头获取通信双方的视频数据，优选例如可以获取通信双方或任一方的手语视频数据。每个前置摄像头和后置摄像头可以是一个固定光学镜头系统或具有光学变焦能力的系统。

当手持终端处于操作模式，如呼叫模式、记录模式、翻译模式时，传声器被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信子系统发送。扬声器和耳机用于输出音频信号。

手持终端还包括I/O接口(图1中未示),其为处理器和外围接口模块之间提供接口，上述外围接口模块可以连接键盘、点击轮、按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

本发明提供的手持终端还包括传感器器模块(图1中未示),其包括一个或多个传感器，用于为手持终端提供各个方面的状态评估。例如，传感器模块可以检测到手持终端的打开/关闭状态，检测手持终端或手持终端的一个组件的位置改变等。

通信子系统被配置为便于手持终端和其他设备之间有线或无线方式的通信。手持终端可以接入基于通信标准的无线网络，如4G、5G、6G或它们的组合。蓝牙模块为近场通信模块，以促使短程通信。

图2是本发明提供的多模态语言信息人工智能翻译方法的流程图，如图2所示，所述多模态语言信息人工智能翻译方法包括以下步骤S101-S103：

在步骤S101中，多个用户通过服务器建立通信群，每个用户在通信群的应用界面上标识每个用户的图像，示例性，用户由用户A和用户B表示，但通信群中并不限于两个用户，多模态留言包括多语种及其文字、语音、手语图像、方言等。

在步骤S102中，服务器接收用户A发送的多模态信息，并保存在存储器指定的位置，而后通过人工智能模块进行识别，若为文字信息，将文字信息发送给用户A意欲发送的通信群以供群中任一用户阅读；若为语音和/或视频，则将存储语音和/或视频的存储器地址链接到用户A意欲发送的通信群。

在步骤S103中，用户A意欲发送的通信群的其它用户，如用户B阅读用户A发送的信息，并确定是否进入多模态翻译模式，如果确定进入翻译模式，选择其想要的语言模态，如，手语视频，则向服务器发送翻译请求；服务器接收到用户B的翻译请求后，通过人工智能模块，将存储于服务器的用户A的留言语言模态转换为用户B所选择的语言模态并存储于存储器的第二地址，而后将第二地址链接到用户B，翻译后的语音模态通过用户B的终端的语音模块转换为声音和/或通过显示模块转换为文字和/或手语视频。

图3是本发明变形例提供的多模态语言信息人工智能翻译方法的流程图，如图3所示，所述多模态语言信息人工智能翻译方法包括以下步骤S201-S203：

在步骤S201中，两个用户通过服务器建立通信；

在步骤S102中，服务器接收用户A发送的多模态信息，并保存在存储器指定的位置，而后通过人工智能模块进行识别，若为文字信息，将文字信息发送给用户A和B以供双方阅读；若为语音和/或视频，则将存储语音和/或视频的存储器地址链接到用户A和用户B。

在步骤S103中，用户B阅读用户A发送的信息，并确定是否进入多模态翻译模式，如果确定进入翻译模式，选择其想要的语言模态，如，手语视频，则向服务器发送翻译请求；服务器接收到用户B的翻译请求后，通过人工智能模块，将存储于服务器的用户A的留言语言模态转换为用户B所选择的语言模态并存储于存储器的第二地址，而后将第二地址链接到用户B，翻译后的语音模态通过用户B终端的语音模块转换为声音和/或通过显示模块转换为文字和/或手语视频。

本发明中，能够给通信群的用户或者通信双方提供多模态语言信息翻译模式的选择，正常情况下可不选择进行翻译模式，即直接使用语音、视频进行通信，在听不懂或不能听对方的语种语音、方言时或者看不懂对方的手语时，可选择使用多模态语言翻译模式功能，使功能健全的正常人、听力障碍人、语音障碍人、视力障碍人彼此都能进行正常交流。

本发明中，服务器至少包括用于存储语料库的大型存储器和处理器，将各模态语言的单词进行编码生成各语种单词文字-词音-手语图像-编码表并存储于语料库中，不同模态同一词义的单词文本、词音和手语图像对应相同的编码，处理器至少包括人工智能模块，以对用户发送的信息进行识别、处理、转发或者链接。

图4是本发明的人工智包括模块的工作流程图，如图4所示，本发明提供的智能模块通过如下过程实现：服务器通过识别模块识别第一用户所存储的语言的模态并分成多个单词；通过编码单元对单词根据单词文字-词音-手语图像-编码表进行编码生成码串；根据第二用户所选择的语言模态，通过模型单元查找单词-词音-手语图像-编码表，对码串进行解码将第一用户所存储的语言模态转换为第二用户所选择的语言模态。

本发明中，模型单元例如通过下列模型调整词序:

式中,P(w_i|w_i-1)为以前一单词w_i-1、第k个语言模态模型的第i-1个中间层输出s_i-1 ^k、第k个语言模态模型的模型参数θ_k为输入的当前单词w_i的概率；K是语言模态数量；λ_k为第k个语言模态模型的混合权重,K种语言模态的混合权重存在如下的约束:

混合权重λ_k可根据EM算法,根据下式采用递归法求出：

式中,w₁...w_i...w_L是自适应数据的词序列,s_i-1 ^k是第k个语种模型的第i-1个中间层输出,θ_k是第k个语言模态模型的模型参数；等式右侧的λ_k为前一次求出的混合权重，等式左边的λ_k为更新后的混合权重，在EM算法中，初始混合权重通常等于所有混合权重。L为词串长度，其为词串中单词的数量。

根据本发明一个实施例，所述识别模块至少包括使用卷积神经网络(CNN)的图像识别模块，图像识别模块使用摄像头输入的图像帧作为图像Im，检测在图像Im中示出的人物OB，并且估计检测到的人物的每个关节的位置，根据个的每个关节的位置生成相应于手语图像的文本。所述图像Im如图5所示，分辨率例如为1024像素×1024像素，虚线框表示包含了人物OB的范围S，其分辨率例如为96像素×96像素。

图6是本发明提供图像识别模块的工作流程图，如图6所示，所述图像识别模块至少包括：生成单元、获取单元、校正单元和提取单元，其中，生成单元根据输入的图像生成分辨率随着从第1级向第N级而变低的特征图，使用第N级特征图生成第一特征图；获取单元，检测上述图像中拍摄的用于表达手语的人物，获取人物在所述第一特征图上的位置信息；校正单元，其校正所述位置信息，使得位置信息对应于第二特征图的分辨率，第二特征图是在第N级之前生成的特征图上的人物图像的范围；提取单元，用于在所述第一特征图上设置位于由校正后的位置信息表示的位置的关注区域，从所述关注区域中提取人物与表达手语有关的特征的特征信息。

例如，生成单元包括输入层51及N级特征提取单元,所述N大于等于2，例如N＝5，参考图6和图7，卷积层52-1和池化层53-1的组成第1级，卷积层52-1对输入层51输入的图像进行卷积生成10个特征图M1-M10，这些特征图的尺寸与图像Im的尺寸1024像素×1024像素相同，其上的人物图像范围S的尺寸为96像素×96像素，池化层53-1分别对10个特征图进行池化生成1O个特征图M11-M20，这些特征图的尺寸比特征图M1-M10要小，为512像素×512像素，其上的人物图像尺寸为48像素×48像素；卷积层52-2和池化层53-2的组成第2级，卷积层52-2分别对10个特征图M11-M20进行卷积处理，生成10个特征图M21-M30，尺寸为512像素×512像素，池化层53-2分别对10个特征图M21-M30进行池化生成1O个的特征图M31-M40，尺寸为256像素×256像素，其上的人物图像尺寸为24像素×24像素；卷积层52-3和池化层53-3的组成第3级，卷积层52-3分别对10个特征图M31-M40进行卷积处理，生成10个特征图M41-M50，尺寸为256像素×256像素，池化层53-3分别对10个特征图M41-M50进行池化生成1O个特征图M51-M60，尺寸为128像素×128像素，其上的人物图像尺寸为12像素×12像素；卷积层52-4和池化层53-4的组成第4级，卷积层52-4分别对10个特征图M51-M60进行卷积处理，生成10个特征图M61-M70，尺寸为128像素×128像素，池化层53-4分别对10个特征图M61-M70进行池化生成10特征图为M71-M80，尺寸为64像素×64像素，其上的人物图像尺寸为6像素×6像素；卷积层52-5和池化层53-5的组成第5级，卷积层52-5分别对10个特征图M71-M80进行卷积处理，生成10个特征图M81-M90，尺寸为64像素×64像素，池化层53-5分别对10个特征图M81-M90进行池化生成10个特征图M91-M100，尺寸为32像素×32像素，其上的人物图像尺寸为3像素×3像素。在可选的实施例中，可不具有池化层53。随着从第1级到第5级，特征图M的分辨率变低，如果特征图M的纵向尺寸和横向尺寸变为一半，则范围S的纵向尺寸和横向尺寸变为一半。

RPN层54根据特征图M91-M100的特征，检测出的人物OB及其位置信息P。RPN层54具有获取单元的功能，使用在多级中的最后一级生成的第一特征图，检测上述图像Im中拍摄的人物OB，获取人物在所述第一特征图上的位置信息P。在实施方例中，第一特征图是特征图M91-M100。

参照图6，选择单元59从除了在最后级获得的第一特征图之外的级获得第二特征图。更具体地，第二特征图是在位于第5级之前的级中生成的特征图M上的人物图像范围S。选择单元59通过切换开关，由第1级的池化层53-1得到的特征图M11-M20上的人物图像范围S(48像素×48像素)，第2级的池化层53-2得到的特征图M31-M40上的人物图像范围S(24像素×24像素)，第3级的池化层53-3得到的特征图M51-M60的人物图像范围S(12像素×12像素)，以及第4级的池化层53-4得到的特征图M71-M80上的人物图像范围S(6像素×6像素)。

例如，选择由第3级的池化层53-3得到的特征图M51-M60上的人物图像范围S(12像素×12像素)作为第二特征图，记为关注区域R。如果关注区域R的尺寸过小，则在特征信息F中不包含与位置相关的信息，所以预先决定关注区域R的尺寸的下限值，使得与位置相关的信息包含在特征信息F中。随着从第1级朝向第5级，特征图M的分辨率变低，因此在图像Im中拍摄的人物OB的范围S(成为检测对象的范围)也随着从第1级朝向第5级而变小。

参照图6，校正单元58修正RPN层54生成的位置信息P。原因如下：位置信息P为特征图M91-M100上的人物图像范围S的位置信息。位置信息P例如设为坐标C1、C2、C3和C4。

在实施方式中，特征图M51-M60的分辨率高于特征图M91-M100。因此，图6所示的校正单元58修正第一特征图上的位置信息P，使其与特征图M51-M60上的人物图像范围(第二特征图)的分辨率对应。如图7中说明的那样，M11-M20特征图上人物图像范围分辨率为48像素×48像素；M31-M40特征图上人物图像范围S的分辨率为24像素×24像素；M51-M60特征图上人物图像范围S的分辨率为12像素×12像素；M71-M80特征图上人物图像范围S的分辨率为6像素×6像素；M91-M100特征图像上人物图像范围的分辨率为3像素×3像素。

校正单元58对第一特征图上的位置信息P进行校正，使得由位置信息P表示的关注区域R的面积扩大到4倍，如图8-9所示。具体而言，修正单元58将坐标C1修正为坐标C5，将坐标C2修正为坐标C6，将坐标C3修正为坐标C7，将坐标C4修正为坐标C8。由坐标C5、C6、C7和C8确定位置的关注区域R以由坐标C1、C2、C3和C4所形成的位置区域为中心。

校正单元58将修正了位置信息P的第一特征图向RoI池化层55输送。RoI池化层55作为提取单元发挥功能，从所述关注区域R中提取人物OB与表达手语有关的特征的特征信息F。

图10是本发明利用RoI池化层对校正后的特征图进行处理的说明图。如图10所示，RoI池化层55通过对关注区域R分别进行池化，来表示与人物OB相关的特征信息F1-F10，通过池化处理被整形为全部相同的尺寸，如都是4像素×4像素。

进一步详细说明以上说明的RoI池化。如上所述，RoI池化是提取关注区域R，将其作为固定尺寸(例如4像素×4像素)的特征图的处理，该特征图M成为特征信息F。例如，在关注区域R的尺寸为12像素×12像素，将其设为4像素×4像素的特征图(特征信息F)的情况下，RoI池化层55将12像素×12像素的关注区域R分割为3×3的网格。在关注区域R的尺寸不能被网格的尺寸整除的情况下，也进行同样的处理。

参照图6，RoI池化层55将特征信息F1-F10送往全结合层56。全结合层56对特征信息F1-F10进行回归分析，生成回归结果RR。更具体地，全耦合层56用作估计单元。估计单元使用特征信息F来估计人物OB的预定部位的位置。在此，全结合层56对特征信息F1-F10进行回归分析，推定人物OB的规定的关节的位置。规定的关节例如是颈关节、左肩关节，左肘关节，左手腕关节，左手各指关节，右肩关节，右肘关节，右手腕关节，右手各指关节。在回归分析中，也可以使用一般的回归分析的算法(例如，线性模型)。全结合层56将表示推定的关节位置的回归结果形成文本RR，而后送往输出层57。输出层57将回归结果RR送往图1所示的编码单元。

本发明中，第二特征图的分辨率比第一特征图上的人物OB范围S的分辨率高。因此，从设定在第二特征图上的关注区域R中抽出的特征信息F，与从设定在第一特征图上的人物图像范围S中抽出特征信息F相比，包含更多的与位置相关的信息。因此，如果使用从设定在第二特征图中的关注区域R中提取出的特征信息F，则能够估计人物手语所需的规定的关节的位置。

如上所述，在图像Im中拍摄有人物的情况下，检测该人物的手姿。在推定手的姿势的情况下，推定手指关节的位置，进一步推定相应于手语的文本。

根据本发明一个实施例，还提供一种多模态语言信息人工智能翻译系统，包括：多个用户端及服务器，多个用户端通过服务器建立通信群，其特征在于，服务器包括人工智能模块，其根据用户的选择进行多模态语言翻译，将存储于服务器的第一用户的多模态留言转换为第二用户所选择的语言模态而后通过语音模块转换为声音和/或通过显示模块转换为文字和/或手语视频，人工智能模块至少包括识别模块，识别模块识别第一用户所存储的语言的模态并进行识别形成多个单词，所述识别模块至少包括使用卷积神经网络的图像识别装置，所述图像识别装置至少包括：生成单元、获取单元、校正单元和提取单元，其中，生成单元根据输入的图像生成分辨率随着从第1级向第N级而变低的特征图，使用第N级特征图生成第一特征图；获取单元，检测上述图像中拍摄的用于表达手语的人物，获取人物在所述第一特征图上的位置信息；校正单元，其校正所述位置信息，使得位置信息对应于第二特征图的分辨率，第二特征图是在第N级之前生成的特征图上的包含人物图像的区域范围；提取单元，用于在所述第一特征图上设置位于由校正后的位置信息表示的位置的关注区域，从所述关注区域中提取人物与表达手语有关的特征的特征信息。

根据本发明一个实施例，服务器还包括语料库，各语种单词文字-词音-手语图像-编码表并存储于语料库中，不同模态同一词义的单词文本、词音和手语图像-对应相同的编码。

根据本发明一个实施例，人工智能模块还包括编码单元和模型单元，编码单元对识别单元所识别的单词根据单词文字-词音-手语图像-编码表进行编码生成码串；模型单元根据第二用户所选择的语言模态查找单词-词音-手语图像-编码表，对码串进行解码将第一用户所存储的语言模态转换为第二用户所选择的语言模态。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种多模态语言信息人工智能翻译方法，包括：多个用户通过服务器建立通信群或者两个用户通过服务器进行通信，其特征在于，服务器根据用户的选择通过人工智能模块进行多模态语言翻译，将存储于存储器的第一用户的留言语言模态转换为第二用户所选择的语言模态而后通过语音模块转换为声音和/或通过显示模块转换为文字和/或手语视频，人工智能模块至少包括识别模块，所述识别模块通过包括使用卷积神经网络的图像识别装置进行图像识别，其通过如下步骤实现，根据输入的图像生成分辨率随着从第1级向第N级而变低的特征图，使用第N级特征图生成第一特征图；检测上述图像中拍摄的用于表达手语的人物，获取人物在所述第一特征图上的位置信息；校正所述位置信息，使得位置信息对应于第二特征图的分辨率，第二特征图是在第N级之前生成的特征图上的包含人物图像的区域范围；在所述第一特征图上设置位于由校正后的位置信息表示的位置的关注区域，从所述关注区域中提取人物与表达手语有关的特征的特征信息。

2.根据权利要求1所述的方法，其特征在于，还包括将各模态语言的单词进行编码生成各语种单词文字-词音-手语图像-编码表并存储于语料库中，不同模态同一词义的单词文本、词音和手语图像-对应相同的编码。

3.根据权利要求2所述的方法，其特征在于，服务器通过识别模块识别第一用户所存储的语言的模态并分成多个单词；通过编码单元对单词根据单词文字-词音-手语图像-编码表进行编码生成码串；根据第二用户所选择的语言模态，通过模型单元查找单词-词音-手语图像-编码表，对码串进行解码将第一用户所存储的语言模态转换为第二用户所选择的语言模态。

4.根据权利要求1-3任一所述的方法，其特征在于，语言模态包括多语种及其文字、语音、方言和手语图像。

5.一种多模态语言信息人工智能翻译系统，包括：多个用户端及服务器，多个用户通过服务器建立通信群或者两个用户通过服务器进行通信，其特征在于，服务器包括人工智能模块，其根据用户的选择进行多模态语言翻译，将存储于存储器的第一用户的多模态留言转换为第二用户所选择的语言模态而后通过语音模块转换为声音和/或通过显示模块转换为文字和/或手语视频，人工智能模块至少包括识别模块，识别模块识别第一用户所存储的语言的模态并进行识别形成多个单词，所述识别模块至少包括使用卷积神经网络的图像识别装置，所述图像识别装置至少包括：生成单元、获取单元、校正单元和提取单元，其中，生成单元根据输入的图像生成分辨率随着从第1级向第N级而变低的特征图，使用第N级特征图生成第一特征图；获取单元，检测上述图像中拍摄的用于表达手语的人物，获取人物在所述第一特征图上的位置信息；校正单元，其校正所述位置信息，使得位置信息对应于第二特征图的分辨率，第二特征图是在第N级之前生成的特征图上的包含人物图像的区域范围；提取单元，用于在所述第一特征图上设置位于由校正后的位置信息表示的位置的关注区域，从所述关注区域中提取人物与表达手语有关的特征的特征信息。

6.根据权利要求5所述的系统，其特征在于，服务器还包括语料库，各语种单词文字-词音-手语图像-编码表并存储于语料库中，不同模态同一词义的单词文本、词音和手语图像-对应相同的编码。

7.根据权利要求6所述的系统，其特征在于，人工智能模块还包括编码单元和模型单元，编码单元对识别单元所识别的单词根据单词文字-词音-手语图像-编码表进行编码生成码串；模型单元根据第二用户所选择的语言模态查找单词-词音-手语图像-编码表，对码串进行解码将第一用户所存储的语言模态转换为第二用户所选择的语言模态。

8.根据权利要求5-6任一所述的系统，其特征在于，语言模态包括多语种及其文字、语音、方言和手语图像。

9.一种设备，其包括处理器和存储器，其特征在于，将权利要求1-4任一所述的方法利用计算机语言编成处理器可执行的源程序代码，并能够存储于存储器中，处理器调用并执行源程序代码，以实现多模态语言翻译。