CN111562815B

CN111562815B - 无线头戴装置及语言翻译系统

Info

Publication number: CN111562815B
Application number: CN202010369212.2A
Authority: CN
Inventors: 来春丽; 郭振峰; 张海滨; 连芷萱; 应忠于; 闵松阳; 宋绍鑫; 王忠斌
Original assignee: Beijing Hualande Technology Consulting Service Co ltd
Current assignee: Beijing Hualande Technology Consulting Service Co ltd
Priority date: 2020-05-04
Filing date: 2020-05-04
Publication date: 2021-07-13
Anticipated expiration: 2040-05-04
Also published as: CN111562815A

Abstract

一种无线头戴装置及翻译系统。无线头戴装置及智能终端分开设置并通过短程协议连接，无线头戴装置佩戴于使用者头上，给智能终端传送的是特征图和/词单元的编码信息，能大大节省无线资源。

Description

无线头戴装置及语言翻译系统

技术领域

本发明涉及一种无线头戴装置及语言翻译系统，属于人工智能技术领域。

背景技术

现有技术中提供的图像传输，传输是一幅图像的每个像素的编码信息，现有技术提供语音传送，传送是的语音信号的编码信息，如此导致传送的信息量大。

发明内容

本发明提供一种无线头戴装置及翻译系统，使无线头戴装置与智能终端分体设置，可将无线头戴装置配戴于使用者头部，传送的是特征图或词单元的编码信息，大大节省了无线资源。

为实现所述发明目的，本发明提供一种无线头戴装置，其包括拾音器、电声转换器、转换器、摄像头、第一处理器和第一存储器，其中，拾音器用于将获取的第一语言声音信息转换为声频电信号并传送给转换器，转换器用于将拾音器提供的声频电信号转换为时间-频率-强度3D谱图并传送给第一处理器，摄像头将获取的图像信号传送给第一处理器，电声转换器用于将处理器提供的声频电信号转换为声音，其特征在于，还包括匹配电路，第一处理器用于控制匹配电路以与智能终端进行匹配连接，并用于调用第一存储器存储的图像识别程序对摄像机输入的图像信息进行图像处理生成特征图，调用第一存储器中存储的声音识别程序对转换器提供的时间-频率-强度3D谱图的时间-频率2D图谱进行处理生成多个词单元，对特征图和词单元编码生成待发送的字符串，而后经匹配电路发送给与其匹配成功的终端。

优选地，所述图像识别通过包括使用卷积神经网络的图像识别模块实现，所述图像识别模块至少包括：生成单元、获取单元、校正单元和提取单元，其中，生成单元根据输入的图像生成分辨率随着从第1级向第N级而变低的特征图，使用第N级特征图生成第一特征图；获取单元，检测上述图像中拍摄的包含关注对象的图像，获取关注对象在所述第一特征图上的位置信息；校正单元，其校正所述位置信息，使得位置信息对应于第二特征图的分辨率，第二特征图是在第N级之前生成的特征图上的关注对象图像的范围；提取单元，用于在所述第一特征图上设置位于由校正后的位置信息表示的位置的关注区域，从所述关注区域中提取与关注对象有关的特征信息。

优选地，无线头戴装置还包括眼镜框，所述摄像头设置于眼镜框上鼻梁的上端，所述电声转换器通过第一连接装置设置在眼镜腿上，并可绕眼镜腿旋转，在使用时，使电声转换器对准佩戴者耳孔；所述拾音器可通过第二连接装置固定地设置在眼镜框上。

为实现所述发明目的，本发明提供一种语言翻译系统，其包括上述无线头戴装置和智能终端，所述头戴翻译装置和智能终端通过短程协议进行通信。

优选地，智能终端包括第二匹配电路、第二处理器、显示器和第二存储器，其中，第二存储器用于存储图像、声音合成程序和图像语料库；第二匹配电路用于与头戴翻译装置进行连接与通信，将接收的字符串传送给第二处理器；第二处理器用于控制第二匹配电路以与头戴翻译装置进行匹配连接，将通过第二匹配电路获取的相应于特征图的字符串进行处理并与从图像语料库中获取的图像，合成背景与无线头戴装置拍摄的关注对象背景不同，而关注对象相同的图像；将通过第二匹配电路获取的相应于词单元的字符串进行解码处理翻译成第二语言的语音和/或文本。

为实现所述发明目的，本发明还提供一种无线头戴装置，其包括拾音器、电声转换器、转换器、摄像头、第一处理器和第一存储器，其中，拾音器用于将获取的第一语言声音信息转换为声频电信号并传送给转换器，转换器用于将拾音器提供的声频电信号转换为时间-频率-强度3D谱图并传送给第一处理器，摄像头将获取的图像信号传送给第一处理器，电声转换器用于将处理器提供的声频电信号转换为声音，其特征在于，还包括匹配电路，第一处理器用于控制匹配电路以与智能终端进行匹配连接，并用于调用第一存储器存储的图像识别程序对摄像机输入的包含手语的人体图像信息进行图像处理生成多个词单元，调用第一存储器中存储的声音识别程序对转换器提供的时间-频率-强度3D谱图的时间-频率2D图谱进行处理生成多个词单元，对词单元编码生成待发送的字符串，而后经匹配电路发送给与其匹配成功的终端。

优选地，所述图像识别通过包括使用卷积神经网络的图像识别模块实现，所述图像识别模块至少包括：生成单元、获取单元、校正单元和提取单元，其中，生成单元根据输入的图像生成分辨率随着从第1级向第N级而变低的特征图，使用第N级特征图生成第一特征图；获取单元，检测上述图像中拍摄的表述手语的人体的图像，获取表达手语的人体在所述第一特征图上的位置信息；校正单元，其校正所述位置信息，使得位置信息对应于第二特征图的分辨率，第二特征图是在第N级之前生成的特征图上的表述手语的人体图像的范围；提取单元，用于在所述第一特征图上设置位于由校正后的位置信息表示的关注区域，从所述关注区域中提取对应于手语的词单元。

优选地，无线头戴装置还包括眼镜框，所述摄像头设置于眼镜框上鼻梁的上端，所述电声转换器通过第一连接装置地设置在眼镜腿上，并可绕眼镜腿旋转，在使用时，使电声转换器对准佩戴者耳孔；所述拾音器可通过第二连接装置固定地设置在眼镜框上。

为实现所述发明目的，本发明还提供一种语言翻译系统，其包括上述无线头戴装置和智能终端，所述头戴翻译装置和智能终端通过短程协议进行通信。

优选地，智能终端包括第二匹配电路、第二处理器、显示器和第二存储器，其中，第二存储器用于存储图像、声音合成程序和语料库；第二匹配电路用于与头戴翻译装置进行连接与通信，将接收的字符串传送给第二处理器；第二处理器用于控制第二匹配电路以与头戴翻译装置进行匹配连接，将通过第二匹配电路获取的字符串在语料库中查找对应于第二语言的语音和/或文本。

与现有技术相比，本发明提供的无线头戴装置及翻译系统，使无线头戴装置与智能终端分体设置，可将无线头戴装置配戴于使用者头部，传送的是特征图和/或词单元的编码信息，大大节省了无线资源。

附图说明

图1是本发明提供的语言翻译系统的组成框图；

图2是本发明提供的无线头戴装置的组成示意图；

图3是本发明提供的无线头戴装置的电路组成框图；

图4是本发明提供的智能终端的组成框图；

图5是本发明提供图像识别模块的工作流程图；

图6是本发明具有关注对象图像范围的第一特征图；

图7是本发明提供的校正了关注对象位置信息的第一特征图；

图8是本发明提供的时间-频率-强度3D图谱；

图9是本发明提供的语音识别模块的工作流程图。

具体实施方式

下面结合附图详细地说明本发明。

本发明中，单数形式“一”，“一个”，“所述”和“该”包括复数引用，除非上下文另外明确指出。除非另有定义，本文所用的所有技术和科学术语具有与本领域普通技术人员通常理解的相同的含义。本发明中，术语"包括"是指"包括但不限于"，除非另有定义。

术语"语音识别模块"、“编码模块”、“解码模块”、“语音、图像识别模块”中的每一个都指被配置可通过为具有编程功能的集成电路硬件或者软件来实现，集成电路"包含半导体材料(例如硅)上的电子电路，用于执行某些功能。例如，集成电路可以是微处理器，可编程阵列逻辑(PAL)器件、专用集成电路(ASIC)或其它。

图1是本发明提供的语言翻译系统的组成框图，如图1所示，语言翻译系统包括无线头戴装置1及智能终端2，它们通过短程协议，如蓝牙协议进行通信。

图2是本发明提供的无线头戴装置的组成示意图，如图2所示，本发明提供的无线头戴装置包括眼镜框5、摄像头4、拾音器3、声电转换器6和声电转换器7,其中，摄像头4可以为红外摄像头，设置于眼镜框5上鼻梁的上端，声电转换器6和声电转换器7分别通过连接装置活动地设置在眼镜腿上，并可绕眼镜腿旋转，在使用时，使电声转换器对准佩戴者耳孔，收纳时，使声电转换器6和声电转换器7紧贴眼镜腿侧部。所述拾音器3可通过连接装置设置眼镜框上。本发明提供的无线头戴装置，在使用者与和其语言不通的人进行交流时，可方便获取对方的图像和声音。

图3是本发明提供的无线头戴装置的电路组成框图，如图3所示，无线头戴装置的电路包括拾音器3、处理器21、摄像头4、匹配电路24和存储器25，其中，拾音器3用于将音频信息转换为音频波形电信息，其例如为麦克风。摄像头4用于将光信息转换为电图像，其例如可以为红外摄像机。存储器25用于存储程序和数据。处理器21调用程序并实现语音识别、文本编码、图像识别、图像编码等功能，其包括语音/图像识别模块211、编码模块212和解码模块213。无线头戴装置还包括转换器22,其用于将拾音器5产生的音频波形转换为时间-频率-强度3D图谱语音数据，即转换器22对语音源的时域信号进行分帧、加窗、傅里叶变换、取对数得到3D图谱。语音图像识别模块211中的语音识别模块根据3D图谱中的时间-频率2D图谱生成独立的多个词单元，编码模块212中的文本编码模块用于对词单元进行编码生成二进制字符串。语音图像识别模块211中的图像识别模块将所摄取的图像生成关注对象的特征信息或者根据包含表达手语的人体姿态图像生成多个词单元。编码模块212中的图像编码模块对关注对象的特征信息或者词单元进行编码生成待发送二进制字符串。解码模块213用于对智能终端发送来的二进制信息进行译码生成控制摄像头4的调焦机构26的指令信息，调整电声转换器6和7的音量的指令信息及翻译成目标语言的音频信息。处理器21还用于控制匹配电路24以与智能终端2进行匹配连接。

图4是本发明提供的智能终端的组成框图，如图4所示，智能终端3包括匹配电路32、处理器31、触摸显示屏38和存储器37，其中，存储器37用于存储图像语料库及合成程序；匹配电路32用于与无线头戴装置1进行连接与通信，将接收的字符串传送给处理器31；处理器31用于控制匹配电路32以与无线头戴装置1进行匹配连接，将通过匹配电路32获取的无线头戴装置1传送来的信息存储于第二存储器37、对信息进行处理在触摸显示屏38上进行显示和/或经通信模块36通过网络传送给服务器或其它终端。

根据本发明一个实施例，智能终端2还包括内置摄像头35、内置电声转换器34和选择模块314，选择模块314被配置为根据用户的选择，选择采用内置摄像头35获取图像还是采用外置无线头戴装置1获取图像，选择采用内置电声转换器播放声音还是采用无线头戴装置1播放声音。

根据本发明一个实施例，智能终端2还包括切换模块313，切换模块313被配置当检测到无线头戴装置1与智能终端2匹配成功且无线头戴装置1工作正常时，切断内置摄像头35和/或内置电声转与处理器31的连接，仅采用外置图像输入装置获取图像。

根据本发明一个实施例，存储器37中存储有图像数据库和语料数据库，智能终端3还包括图像合成模块312，其被配置为根据接收的无线头戴装置1提供的信息及图像数据库中提供的信息进行图像合成，合成背景与图像输入装置拍摄的背景不同，而关注对象相同的图像。智能终端3还包括翻译模块，其根据接收的相对无线头戴装置发送来的对应于词单元的二进制字符串从语料数据库中查找目标语言的词或语音，从而将无线头戴装置所接收的源语言翻译成目标语言的语音数据和/或文字，翻译后的语音数据发送给无线头戴装置1通过其电声转换器转换为声音或者通过内置的电转换器转换为声音；翻译后的文字在触摸显示屏38上进行显示。

根据本发明一个实施例，智能终端2还包括拾音器33,其用于将声音信息转换为电信息并提供给处理器31。切换模块313还被配置当检测到无线头戴装置1与智能终端2匹配成功且无线头戴装置1工作正常时，切断内置拾音器33与处理器31的连接，仅采用无线头戴装置1的拾音器获取音频数据。

根据本发明一个实施例，智能终端2还包括调整模块316,其被配置为用于调整无线头戴装置1的摄像头4的焦距等光学参数，调整电声转换器6和7的音量，也用于调整其内置的摄像头35的光学参数，内置的电声转换器的音量等。

根据本发明一个实施例，无线头戴装置的图像识别模块使用拾音器输入的图像帧作为图像Im，检测在图像Im中示出的关注对象或者与表达手语相关的人体姿态相关的图像区域，并且估计检测到的关注对象位置，根据关注对象的位置生成特征信息或者根据表达手语的人体姿态图像区域确定词单元。

图5是本发明提供图像识别模块的工作流程图，如图5所示，无线头戴装置1识别模块至少包括使用卷积神经网络的图像识别模块，所述图像识别模块至少包括：生成单元、获取单元、校正单元和提取单元，其中，生成单元根据输入的图像生成分辨率随着从第1级向第N级而变低的特征图，使用第N级特征图生成第一特征图；获取单元，检测上述图像中拍摄的关注对象或表达手语的人体，获取关注对象或表达手语的人体在所述第一特征图上的位置信息；校正单元，其校正所述位置信息，使得位置信息对应于第二特征图的分辨率，第二特征图是在第N级之前生成的特征图上的关注对象图像或表达手语的人体图像的范围；提取单元，用于在所述第一特征图上设置位于由校正后的位置信息表示的位置的关注区域，从所述关注区域中提取与关注对象相关的特征信息或对应于手语的词单元。

例如，生成单元包括输入层51及N级特征提取单元,所述N大于等于2，例如N＝5，卷积层52-1和池化层53-1的组成第1级，卷积层52-1对输入层51输入的图像进行卷积生成10个特征图M1-M10，这些特征图的尺寸与图像Im的尺寸1024像素×1024像素相同，池化层53-1分别对10个特征图进行池化生成1O个特征图M11-M20，这些特征图的尺寸比特征图M1-M10要小，为512像素×512像素；卷积层52-2和池化层53-2的组成第2级，卷积层52-2分别对10个特征图M11-M20进行卷积处理，生成10个特征图M21-M30，尺寸为512像素×512像素，池化层53-2分别对10个特征图M21-M30进行池化生成1O个的特征图M31-M40，尺寸为256像素×256像素；卷积层52-3和池化层53-3的组成第3级，卷积层52-3分别对10个特征图M31-M40进行卷积处理，生成10个特征图M41-M50，尺寸为256像素×256像素，池化层53-3分别对10个特征图M41-M50进行池化生成1O个特征图M51-M60，尺寸为128像素×128像素；卷积层52-4和池化层53-4的组成第4级，卷积层52-4分别对10个特征图M51-M60进行卷积处理，生成10个特征图M61-M70，尺寸为128像素×128像素，池化层53-4分别对10个特征图M61-M70进行池化生成10特征图为M71-M80，尺寸为64像素×64像素；卷积层52-5和池化层53-5的组成第5级，卷积层52-5分别对10个特征图M71-M80进行卷积处理，生成10个特征图M81-M90，尺寸为64像素×64像素，池化层53-5分别对10个特征图M81-M90进行池化生成10个特征图M91-M100，尺寸为32像素×32像素。在可选的实施例中，可不具有池化层53。随着从第1级到第5级，特征图M的分辨率变低，如果特征图M的纵向尺寸和横向尺寸变为一半，则范围S的纵向尺寸和横向尺寸变为一半。

RPN层54根据特征图M91-M100的特征，检测出的关注对象及其位置信息P。RPN层54具有获取单元的功能，使用在多级中的最后一级生成的第一特征图，检测上述图像Im中拍摄的关注对象，获取关注对象在所述第一特征图上的位置信息P。在实施方例中，第一特征图是特征图M91-M100。

参照图5，选择单元59从除了在最后级获得的第一特征图之外的级获得第二特征图。更具体地，第二特征图是在位于第5级之前的级中生成的特征图M上的关注对象图像范围S。选择单元59通过切换开关，由第1级的池化层53-1得到的特征图M11-M20上的关注对象图像范围S(48像素×48像素)，第2级的池化层53-2得到的特征图M31-M40上的关注对象图像范围S(24像素×24像素)，第3级的池化层53-3得到的特征图M51-M60的关注对象图像范围S(12像素×12像素)，以及第4级的池化层53-4得到的特征图M71-M80上的关注对象图像范围S(6像素×6像素)。

例如，选择由第3级的池化层53-3得到的特征图M51-M60上的关注对象图像范围S(12像素×12像素)作为第二特征图，记为关注区域R。如果关注区域R的尺寸过小，则在特征信息F中不包含与位置相关的信息，所以预先决定关注区域R的尺寸的下限值，使得与位置相关的信息包含在特征信息F中。随着从第1级朝向第5级，特征图M的分辨率变低，因此在图像Im中拍摄的关注对象的范围S(成为检测对象的范围)也随着从第1级朝向第5级而变小。

参照图6，校正单元58修正RPN层54生成的位置信息P。原因如下：位置信息P为特征图M91-M100上的关注对象图像范围S的位置信息。位置信息P例如设为坐标C1、C2、C3和C4。

在实施方式中，特征图M51-M60的分辨率高于特征图M91-M100。因此，图5所示的校正单元58修正第一特征图上的位置信息P，使其与特征图M51-M60上的人物图像范围(第二特征图)的分辨率对应。M11-M20特征图上关注对象图像范围分辨率为48像素×48像素；M31-M40特征图上关注对象图像范围S的分辨率为24像素×24像素；M51-M60特征图上关注对象图像范围S的分辨率为12像素×12像素；M71-M80特征图上关注对象图像范围S的分辨率为6像素×6像素；M91-M100特征图像上关注图像范围的分辨率为3像素×3像素。

校正单元58对第一特征图上的位置信息P进行校正，使得由位置信息P表示的关注区域R的面积扩大到4倍，如图7所示。具体而言，修正单元58将坐标C1修正为坐标C5，将坐标C2修正为坐标C6，将坐标C3修正为坐标C7，将坐标C4修正为坐标C8。由坐标C5、C6、C7和C8确定位置的关注区域R以由坐标C1、C2、C3和C4所形成的位置区域为中心。

校正单元58将修正了位置信息P的第一特征图向RoI池化层55输送。RoI池化层55作为提取单元发挥功能，从所述关注区域R中提取与关注对象的特征信息F。

RoI池化层55通过对关注区域R分别进行池化，来表示与关注对象相关的特征信息F1-F10，通过池化处理被整形为全部相同的尺寸，如都是4像素×4像素。

进一步详细说明以上说明的RoI池化。如上所述，RoI池化是提取关注区域R，将其作为固定尺寸(例如4像素×4像素)的特征图的处理，该特征图M成为特征信息F。例如，在关注区域R的尺寸为12像素×12像素，将其设为4像素×4像素的特征图(特征信息F)的情况下，RoI池化层55将12像素×12像素的关注区域R分割为3×3的网格。在关注区域R的尺寸不能被网格的尺寸整除的情况下，也进行同样的处理。

参照图4，RoI池化层55将特征信息F1-F10送往全结合层56。全结合层56对特征信息F1-F10进行回归分析，生成回归结果RR，而后送往输出层57。输出层57将回归结果RR送往图2所示的编码模块。

本发明中，第二特征图的分辨率比第一特征图上的关注对象范围S的分辨率高。因此，从设定在第二特征图上的关注区域R中抽出的特征信息F，与从设定在第一特征图上的关注对象图像范围S中抽出特征信息F相比，包含更多的与位置相关的信息。因此，如果使用从设定在第一特征图中的关注区域R中提取出的特征信息F，则能够精确估计人体每个关节的姿态，从而能够精确地确定手语表示的词意。

根据本发明一个实施例，语音图像识别模块211至少包括利用卷积神经网络(CNN)进行语音识别的语音识别模块，卷积神经网络包括多个卷积层，其根据3D谱图中的时间-频率2D谱图，将接收的语音数据或音频波形转换成多个词单元。

本发明中，无线头戴装置1利用转换器22将收到的语音生成时间-频率-强度3D序列。例如，每个时间-频率-强度3D序列可以是谱图。如图8所示，3D谱图可以包括像素(x，y，z)的阵列,x表示音频波形的段中的时间，y表示音频波形的段中的频率，z表示每个像素(x，y)具有表示音频波形的段在时间x和频率y处的音频强度的值。另外，可选地，本发明提供的语音识别模块可以基于时间-频率阵列生成梅尔频率倒谱(MFC)，使得时间-频率阵列中的每个像素变为MFC系数(MFCC)，即z值。在一些情况下，MFCC阵列可以为数据编码提供均匀分布的功率谱，这可以允许语音别模块提取独立于说话者的特征。每个时间-频率2D阵列可以表示在时间步长处的语音信号的2D谱图。在声音场景中，在语音识别中，时间-频率2D阵列序列中的每个时间步长可以被选择为较小，以捕获语音信号的某些瞬态特性。

本发明在非限制性示例中，在语音应用中，时间-频率2D谱图中时间轴x的时间步长可以相等地间隔，例如10ms或50ms，换句话说，序列中的每个2D谱图可以表示10ms或50ms跨度中的时间-频率阵列。该持续时间表示语音信号的音频波形中的时间周期。时间-频率2D阵列的序列可以被加载到语音识别模块的CNN的第一层。强度轴z中的时间步长可以允许CNN中的第一层能够在小时间窗口中看到更多样本。然而，序列中的每个时间-频率2D阵列可以具有低分辨率，这将允许CNN层包括覆盖音频波形中的较长时间跨度的数据，结果是，可以提高语音识别的精度。因为CNN中的滤波器能够覆盖较长的时间帧，所以它可以捕获语音的一些瞬态特性，例如"音调"，短或长的声音等。

本发明中，CNN训练方法可以包括：接收一组样本训练语音数据，其可以包括一个或多个片段音频波形；以及使用该组样本训练语音数据来生成样本3D时间-频率-强度的一个或多个序列。CNN训练过程还可以包括：使用样本3D谱图的一个或多个序列来训练CNN的一个或多个权重，经训练的权重将用于生成语音识别结果。在训练CNN的一个或多个权重时，识别方法可以包括：对于每组样本训练语音数据，接收所述样本训练语音数据所属类别的指示。类的类型和类的数量取决于语音识别任务。例如，被设计成识别语音是来自男性还是女性说话者。语音识别任务可以包括将任何输入数据分配给男性或女性说话者类别的二进制分类器，相应地，训练过程可以包括接收每个训练样本的样本是来自男性还是女性说话者的指示。语音识别任务还可以被设计成基于说话者的语音来验证说话者身份。语音识别任务可以被设计成识别语音输入的内容，例如音节、单词、短语或句子。在这些情况的每一种中，CNN可以包括将每个输入语音数据段分配到多个类别之一中的多类别分类器。

可替换地，在一些场景中，语音识别任务可以包括特征提取，其中语音识别结果可以包括向量，该向量对于给定类别的样本可以是不变的。在CNN中，训练和识别都可以使用类似的方法。例如，该系统可以使用CNN中的任何完全连接层。

本发明的语音识别模块可以采用现有技术中的任一语音识别模块，图9是本明提供的语音识别模块的组成框图，如图9所示，语音识别模块包括卷积神经网络(CNN)，其利用时间-频率2D谱图作为输入，通过较多的卷积层和池化层的组合，实现对整个语句的建模以将语音片段分解成文本单元串。

卷积神经网络(CNN)具有五个卷积层、三个池化层、两个全连接层和回归层，第一卷积层21-1使用Con 3×3的卷积核对2D谱图进行卷积，其具有32个滤波器，输出32个特征，然后使用第一最大池化22-1提取最大参数；第二卷积层22-1使用Con3×3的卷积核对第一最大池化层输出的谱图进行卷积，其具有64个滤波器，输出64个特征，然后使用第二最大池化22-2提取最大参数；第三卷积层23-1使用Con3×3的卷积核对第二最大池化层输出的谱图进行卷积，其具有128个滤波器，输出128个特征；第四卷积层23-2使用Con3×3的卷积核对第三卷积层输出的谱图进行卷积，其具有128个滤波器，输出128个特征；第五卷积层23-3使用Con3×3的卷积核对第四卷积层输出的谱图进行卷积，其具有128个滤波器，输出128个特征，然后使用第三最大池化23-4提取最大参数，最后接入依次相连的两个全连接层24-1和24-2，最后进入回归层25回归进行文本单元区分。语音识别模块62可以使用最后一完全连接层来存储特征向量。根据特征向量的大小可以有各种配置。大的特征向量可能导致分类任务的大容量和高精度，而过大的特征向量可能降低执行语音识别任务的效率。

本发明中，无线头戴装置给智能终端传送的是文本编码信息和关注区域中提取的与关注对象有关的特征信息的编码信息，因此需要传送的二进制码流大大减小，从而节省了无线频谱资源。

容易理解的是，本发明在说明书和附图的总体描述总体解决方案可以被设计成多种不同的结构。因此，如说明书和附图中所表示的各种实现方式更详细的描述并非旨在限制本公开的范围，而仅表示各种示例性的实现方式。虽然在附图中示出了本解决方案的各个方面，但是除非特别指出，否则附图不必按比例绘制。本发明所描述的实施例在所有方面都被认为仅仅是说明性的而不是限制性的。因此，本发明的保护范围是：由权利要求而不是该说明书的详细描述确定。在权利要求的等同物的含义和范围内的所有改变都包括在其范围内。

Claims

1.一种无线头戴装置，其包括拾音器、电声转换器、转换器、摄像头、第一处理器和第一存储器，其中，拾音器用于将获取的第一语言声音信息转换为声频电信号并传送给转换器，转换器用于将拾音器提供的声频电信号转换为时间-频率-强度3D谱图并传送给第一处理器，摄像头将获取的图像信号传送给第一处理器，电声转换器用于将处理器提供的声频电信号转换为声音，其特征在于，还包括匹配电路，第一处理器用于控制匹配电路以与智能终端进行匹配连接，并用于调用第一存储器存储的图像识别程序对摄像头输入的图像信号进行图像处理生成特征图，调用第一存储器中存储的声音识别程序对转换器提供的时间-频率-强度3D谱图的时间-频率2D图谱进行处理生成多个词单元，对特征图和词单元编码生成待发送的字符串，而后经匹配电路发送给与其匹配成功的智能终端；所述图像识别通过包括使用卷积神经网络的图像识别模块实现，所述图像识别模块至少包括：生成单元、获取单元、校正单元和提取单元，其中，生成单元根据输入的图像生成分辨率随着从第1级向第N级而变低的特征图，使用第N级特征图生成第一特征图；获取单元检测上述图像中拍摄的包含关注对象的图像，获取关注对象在所述第一特征图上的位置信息；校正单元校正所述位置信息，使得校正后的位置信息对应于第二特征图的分辨率，第二特征图是在第N级之前生成的特征图上的关注对象图像的范围；提取单元用于在所述第一特征图上设置位于由校正后的位置信息表示的位置的关注区域，从所述关注区域中提取与关注对象有关的特征信息。

2.根据权利要求1所述的无线头戴装置，其特征在于，包括眼镜框，所述摄像头设置于眼镜框上鼻梁的上端，所述电声转换器通过第一连接装置设置在眼镜腿上，并可绕眼镜腿旋转，在使用时，使电声转换器对准佩戴者耳孔；所述拾音器可通过第二连接装置固定地设置在眼镜框上。

3.一种语言翻译系统，其包括权利要求1-2任一所述的无线头戴装置和智能终端，所述无线头戴装置和智能终端通过短程协议进行通信。

4.根据权利要求3所述的翻译系统，其特征在于，智能终端包括第二匹配电路、第二处理器、显示器和第二存储器，其中，第二存储器用于存储图像、声音合成程序和图像语料库；第二匹配电路用于与无线头戴装置进行连接与通信，将接收的字符串传送给第二处理器；第二处理器用于控制第二匹配电路以与无线头戴装置进行匹配连接，将通过第二匹配电路获取的相应于特征图的字符串进行处理并与从图像语料库中获取的图像，合成背景与无线头戴装置拍摄的关注对象背景不同，而关注对象相同的图像；将通过第二匹配电路获取的相应于词单元的字符串进行解码处理翻译成第二语言的语音和/或文本。

5.一种无线头戴装置，其包括拾音器、电声转换器、转换器、摄像头、第一处理器和第一存储器，其中，拾音器用于将获取的第一语言声音信息转换为声频电信号并传送给转换器，转换器用于将拾音器提供的声频电信号转换为时间-频率-强度3D谱图并传送给第一处理器，摄像头将获取的图像信号传送给第一处理器，电声转换器用于将处理器提供的声频电信号转换为声音，其特征在于，还包括匹配电路，第一处理器用于控制匹配电路以与智能终端进行匹配连接，并用于调用第一存储器存储的图像识别程序对摄像机输入的包含手语的人体图像信息进行图像处理生成多个词单元，调用第一存储器中存储的声音识别程序对转换器提供的时间-频率-强度3D谱图的时间-频率2D图谱进行处理生成多个词单元，对词单元编码生成待发送的字符串，而后经匹配电路发送给与其匹配成功的智能终端；所述图像识别通过包括使用卷积神经网络的图像识别模块实现，所述图像识别模块至少包括：生成单元、获取单元、校正单元和提取单元，其中，生成单元根据输入的图像生成分辨率随着从第1级向第N级而变低的特征图，使用第N级特征图生成第一特征图；获取单元检测上述图像中拍摄的表述手语的人体的图像，获取表达手语的人体在所述第一特征图上的位置信息；校正单元校正所述位置信息，使得校正后的位置信息对应于第二特征图的分辨率，第二特征图是在第N级之前生成的特征图上的表述手语的人体图像的范围；提取单元用于在所述第一特征图上设置位于由校正后的位置信息表示的关注区域，从所述关注区域中提取对应于手语的词单元。

6.根据权利要求5所述的无线头戴装置，其特征在于，包括眼镜框，所述摄像头设置于眼镜框上鼻梁的上端，所述电声转换器通过第一连接装置地设置在眼镜腿上，并可绕眼镜腿旋转，在使用时，使电声转换器对准佩戴者耳孔；所述拾音器可通过第二连接装置固定地设置在眼镜框上。

7.一种语言翻译系统，其包括权利要求5-6任一所述的无线头戴装置和智能终端，所述无线头戴装置和智能终端通过短程协议进行通信。

8.根据权利要求7所述的翻译系统，其特征在于，智能终端包括第二匹配电路、第二处理器、显示器和第二存储器，其中，第二存储器用于存储图像、声音合成程序和语料库；第二匹配电路用于与无线头戴装置进行连接与通信，将接收的字符串传送给第二处理器；第二处理器用于控制第二匹配电路以与无线头戴装置进行匹配连接，将通过第二匹配电路获取的字符串在语料库中查找对应于第二语言的语音和/或文本。