CN207408959U

CN207408959U - 具有文本及语音处理功能的混合现实智能眼镜

Info

Publication number: CN207408959U
Application number: CN201721518437.XU
Authority: CN
Inventors: 杜晶; 陈清甫; 范懿文; 张弦
Original assignee: Visual Interactive (beijing) Technology Co Ltd
Current assignee: Visual Interactive (beijing) Technology Co Ltd
Priority date: 2017-11-14
Filing date: 2017-11-14
Publication date: 2018-05-25
Anticipated expiration: 2027-11-14

Abstract

本实用新型技术方案提供的具有文本及语音处理功能的混合现实智能眼镜，通过深度双目图像采集模组和语音采集输出模组同时获取外部信息，OCR处理器对所述外部信息进行识别，综合判断是否含有文字信息。SLAM处理器结合外部信息，对文字进行定位。数据处理器将文字信息翻译目标语言，根据定位将其在数字光显示呈像装置上进行显示，并同时语音播报。使得用户能够在不分散注意力的情况下接收所需要的翻译或者文字信息。相对于现有技术，避免了用户在接收信息时需要一心二用。

Description

具有文本及语音处理功能的混合现实智能眼镜

技术领域

本实用新型涉及文本处理技术领域，特别涉及具有文本及语音处理功能的混合现实智能眼镜。

背景技术

翻译文本技术主要应用在桌面电脑端和手机移动端，通常需要用户使用键盘或鼠标，将需要翻译的文字输入到设备中，设备通过离线或在线方式查询出翻译结果，再通过屏幕展现给用户。后续有了屏幕取词的交互方式，它在原有翻译文本技术的基础上增加了识别文本技术。在桌面电脑端即用户使用鼠标指定屏幕中的文字区域，设备自动框定鼠标位置处的文本，将该文本进行翻译；在手机移动端即用户打开摄像头拍摄文本区域，设备通过识别图片或者视频中的文本，再进行翻译。

使用上述应用或设备时大多需要用户手动输入文字或手持设备拍摄等方式进行交互，会打断用户当前正在进行的手头工作，并且以上识别及翻译过程大多是非实时和异步的。进一步，上述识别文本并翻译的技术通常只能针对规范的印刷体文字、背景干净、文本方正无倾斜、文本排版简单等特定情境下有较好的效果，因为随意在自然场景下指定或拍摄的图像可能会遇到背景复杂、视角倾斜导致文本块透视畸变、艺术装饰字体形态和排版复杂等情况，导致文本检测运算量大、文本识别过程噪声大导致误识别，进而导致翻译错误。再次，翻译结果通常以平面的图文显示在设备屏幕或以语音播放，无法以更直观更生动更立体的方式展现。

目前有直接可在近眼数字光显示呈像装置上实时展现虚拟结合的图文声翻译结果的技术方案，但是在一般情况下，用户看翻译或文字识别结果时候，四肢的动作不会停，由于注意力的分散，很可能会不注意周围环境，如果周围环境有障碍物，轻则磕碰，重则导致人身安全。如何能够使用户在注意力不分散的时候接收所需要的翻译或者文字信息成为亟待解决的问题。

实用新型内容

本实用新型的实施例提供具有文本及语音处理功能的混合现实智能眼镜，用于解决现有技术中的问题。

为达到上述目的，本实用新型的实施例采用如下技术方案：

第一方面，本实用新型实施例提供具有文本及语音处理功能的混合现实智能眼镜，第一方面，包括：混合现实智能眼镜至少包括，深度双目图像采集模组，SLAM处理器(SLAM(Simultaneous Localization and Mapping,即时定位与地图构建)，数字光显示呈像装置，数据处理器，语音采集输出模组，OCR处理器(Optical Character Recognition，光学字符识别)。深度双目图像采集模组获取外部信息，OCR处理器对所述外部信息进行识别，判断是否含有文字信息；若含有所述文字信息，则所述SLAM处理器结合所述外部信息，对所述文字信息对应的文字进行定位；所述数据处理器将文字信息翻译为用户需要的目标语言，根据定位将其在所述数字光显示呈像装置上进行显示，同时可进行语音播报；其中，所述混合现实智能眼镜至少有一组所述深度双目图像采集模组，所述语音采集输出模组包括：语音输入组件、语音识别组件、语音输出组件。

在第一种可能的实现方式中，结合第一方面的实现方式，所述深度双目图像采集模组获取外部信息，OCR处理器对所述外部信息进行识别，判断是否含有文字信息，具体包括：深度双目图像采集模组拍摄当前环境状态，得到外部信息，所述语音输入组件记录当前环境声音。OCR处理器提取特征库中的文字特征，用于对外部信息进行检测，若检测结果为所述外部信息具有文字特征，则提取文本区域。数据处理器根据文字特征，结合语音识别组件对所述语音输入组件记录的环境声音进行识别，得到语音识别结果。

在第二种可能的实现方式中，结合第一方面的第一种可能，数据处理器根据所述文字特征，结合所述语音识别组件对所述语音输入组件记录的环境声音进行识别，得到语音识别结果，具体包括：语音识别组件通过声音特征提取的方式对所述环境声音提取声音帧，将所述声音帧发送给所述数据处理器，所述数据处理器根据声纹模型，得到所述环境声音包含的具体内容。OCR处理器将环境声音包含的具体内容显示在数字光显示呈像装置上，同时数据处理器根据用户需求将所述具体内容翻译为目标语言，OCR处理器将目标语言进行显示。

在第三种可能的实现方式中，结合第一方面的实现方式，若含有所述文字信息，则所述SLAM处理器结合所述外部信息，对所述文字信息对应的文字进行定位，包括：SLAM处理器根据深度双目图像采集模组获取的外部信息，并通过深度双目图像采集模组中的光飞传感器和三维重建算法对外部环境进行建立，之后对文字信息中的文字进行坐标建立，将文字坐标放入已经建立的外部环境中，从而对所述文字进行定位。

在第四种可能的实现方式中，结合第一方面的实现方式，处理器将文字信息翻译为用户需要的目标语言，根据定位将其在所述数字光显示呈像装置上进行显示，同时可进行语音播报，包括：混合现实智能眼镜上的所述语音输出组件根据用户需求可直接将所述目标语言以声音的形式输出。

在第五种可能的实现方式中，结合第一方面的第三种可能，对所述文字进行定位，还包括：计算所述文字的三维位置，根据该三维位置信息和外部信息对所述文字的位置跟踪。

在第六种可能的实现方式中，结合第一方面的第二种可能，语音识别组件通过声音特征提取的方式对所述环境声音提取声音帧，将所述声音帧发送给所述数据处理器，所述数据处理器根据声纹模型，得到所述环境声音包含的具体内容，包括：建立声纹模型，声纹模型用于对环境声音进行识别，判断是否包含文字信息；其中，声纹模型中有音素帧，大于自然数零的音素帧数量组成文字。通过机器学习、深度学习、神经网络的学习方式对以上每次识别的结果进行深度学习，并在后续识别时结合深度学习结果对声音进行识别。

在第七种可能的实现方式中，结合第一方面的第二种可能，将翻译结果以混合现实的呈现方式在数字光显示呈像装置上显示。

根据本实用新型实施例的用于头戴式智能设备的视频流实时文本识别及翻译的方法，具有以下有益效果：

本实用新型通过深度双目图像采集模组与语音识别结合的方式对文本信息识别，增加了识别的准确率。将文本识别和翻译技术应用在混合现实智能眼镜上，并同时输出语音和文本的识别和翻译结果，使得用户能够在不分散注意力的情况下接收所需要的翻译或者文字信息。相对于现有技术，避免了用户在接收信息时需要一心二用。

附图说明

为了更清楚地说明本实用新型实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单介绍，显而易见地，下面描述中的附图是本实用新型的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本实用新型实施例提供的具有文本及语音处理功能的混合现实智能眼镜的流程图；

图2为本实用新型实施例二提供的具有文本及语音处理功能的混合现实智能眼镜的流程图；

图3为本实用新型实施例二提供的具有文本及语音处理功能的混合现实智能眼镜的结构示意图。

具体实施方式

下面详细描述本实用新型的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本实用新型，而不能理解为对本实用新型的限制。

本实用新型提出具有文本及语音处理功能的混合现实智能眼镜，属于自然场景下文本检测、文字识别技术(OCR)，文本翻译，语音播报在混合现实技术领域内的一种应用。本实用新型通过视频流进行实时文本识别和翻译的技术是应用于头戴式智能设备上的，通过使用深度双目图像采集模组获取外部信息同时语音采集输出模组对其进行识别，用于自然场景下的文本检测计算。

本实用新型技术方案提供的混合现实智能眼镜至少包括，深度双目图像采集模组(至少一组)，SLAM处理器，数字光显示呈像装置，数据处理器，语音采集输出模组，OCR处理器。语音采集输出模组包括：语音输入组件、语音识别组件、语音输出组件。

如图1为本实用新型实施例提供的具有文本及语音处理功能的混合现实智能眼镜的流程图。如图所示：

步骤101、深度双目图像采集模组获取外部信息，OCR处理器对其进行识别，同时语音输入组件获取外部信息，综合判断是否含有文字信息。

深度双目图像采集模组获取外部信息后，处理器将外部信息处理为帧图像，之后OCR处理器根据文字库对每个帧图像中包含的可能是文字的图像进行比对，从而得到比对结果一。语音输入组件在深度双目图像采集模组获取外部信息时，同时对当前环境录音，并根据声纹模型对环境录音进行比对，得到比对结果二。只要比对结果一和/或二得到的是有匹配文字结果，则执行步骤102或103，否则结束。

步骤102、若含有所述文字信息，则所述SLAM处理器结合所述外部信息，对所述文字信息对应的文字进行定位。

SLAM处理器根据外部信息中的动态数据，感知环境深度，之后通过三维重建算法对环境进行三维重建，之后对文字信息进行定位，以便于在翻译后显示翻译内容。

步骤103、数据处理器将文字信息翻译为用户需要的目标语言，根据定位将其在所述数字光显示呈像装置上进行显示，同时可进行语音播报。

在本实用新型技术方案中，每一次的识别都会通过机器学习、深度学习、神经网络学习的方式对以上识别结果进行记忆，并在后续识别时结合学习记忆结果对声音和文字进行识别，从而提高识别效率。

现用一具体实施例描述本实用新型技术方案，图2为本实用新型实施例二提供的具有文本及语音处理功能的混合现实智能眼镜的流程图，如图2所示：

本实用新型实施例二中的混合现实智能眼镜至少具有：至少一组深度双目图像采集模组，SLAM处理器，数字光显示呈像装置，数据处理器，语音采集输出模组包括：麦克风阵列、语音识别SDK(Software Development Kit，软件开发工具包)、左右立体声扬声器，OCR处理器。在本实施例中，数据处理器以CPU(Central Processing Unit，中央处理器)为例进行具体说明，深度双目图像采集模组以深度摄像头组，语音采集输出模组中的语音输入组件、语音识别组件、语音输出组件分别以：麦克风阵列、语音识别SDK、左右立体声扬声器为例，外部信息以环境视频流为例进行说明，以上举例并非用以对本实用新型技术方案涉及的硬件设备和获取的识别信息种类进行限制。其中，外部信息也可以仅是静态的图像信息；深度双目图像采集模组中至少有一组深度摄像头组。本实施例中，数字光显示呈像装置以在眼镜的镜片位置装置有一对数字光显示介质为例，此介质在本实用新型实施例中作为显示文字和/或图像的载体，用以对本实用新型技术方案进行说明。

步骤201、深度摄像头组获取环境视频流同时麦克风阵列记录环境声音。

麦克风阵列为：数字硅MIC阵列，具有降噪功能

步骤202、语音识别SDK从环境声音中提取声音帧，CPU从环境视频流中提取视频帧。声音帧处理见步骤203，视频帧处理见步骤204。

CPU接收麦克风阵列记录的环境声音。具体的，CPU将接收的环境声音分割为若干小段，每小段称为一帧。分帧操作一般不是简单的切开，而是使用移动窗函数来实现分帧后，语音就变成了很多小段。但其波形在时域上几乎没有描述能力，因此必须将波形作变换。常见的一种变换方法是提取MFCC(Mel-frequency cepstral coefficients，梅尔频率倒谱系数)特征，根据人耳的生理特性，把每一帧波形变成一个多维向量，这个向量包含了这帧语音的内容信息。上述过程叫做声学特征提取。麦克风阵列在记录环境声音时会对记录的声音进行抑噪处理，从而提高后续识别的准确度。

步骤203、CPU根据声纹模型对声音帧进行处理，判断是否包含文字信息。若是执行步骤205，否则结束。

根据声纹模型，得到所述环境声音包含的具体内容：建立声纹模型，声纹模型用于对所述环境声音进行识别，用于CPU判断声音帧中是否包含文字信息。其中，声纹模型中有音素帧，大于自然数零的音素帧数量组成文字。声纹模型中的声纹以采集各种语言的人声为主。

步骤204、OCR处理器根据文字特征对视频帧中内容进行检测视频帧中是否含有文字信息，若检测结果为是，执行步骤207，否则结束。

具体地，文本检测，包括如下步骤：视频流数据进行图像预处理，对预处理后的图像进行文本特征判断和文本切割，以判断用户所视范围内是否有文本，包括采用极值区域法进行文本特征判断，以判断是否有文本以及文本在平面图像中的位置。

通过神经网络对以上每次识别检测的结果进行深度学习，并在后续识别时结合深度学习结果以便于提高检测效率。

步骤205，CPU对文字信息进行整合，并翻译为目标语言。其中，文字信息包含多个音素帧。

同时OCR处理器可将以上文字信息显示在数字光显示介质上。

步骤206、左右立体声扬声器输出目标语言。

包括，CPU将目标语言合成为语音，耳麦对其输出。

步骤207、SLAM处理器对外部环境进行建立。

SLAM处理器获取深度摄像头组中光飞传感器感应的视频流中各个物体与摄头的距离，从而结合三维重建算法对外部环境进行建立。光飞传感器又叫TOF传感器(Time ofFlight Sensor)具体：TOF是飞行时间技术的缩写，即传感器发出经调制的近红外光，遇物体后反射，传感器通过计算光线发射和反射时间差或相位差，来换算被拍摄景物的距离，以产生深度信息。

具体的，SLAM处理器自动确定基线长度，根据基线长度结合上述光飞传感器获去的距离设置被摄物体的参考点，得到参考点信息，根据参考点信息得到三维点云数据集合。具体的，深度摄像头组根据参考点信息对被摄物体进行拍摄获取被摄物体信息，光飞传感器获取被摄物体与摄头直接的距离，SLAM处理器对被摄物体信息进行综合数据处理，从而得到三维点云数据集合。SLAM处理器对三维测量数据进行数据建立，得到初始物体。对初始物体进行持续数据跟踪，得到三维数据模型。

步骤208、OCR处理器提取文本区域并识别。

文本识别包括如下步骤：在获取文本位置后，将包围该文本的部分图像从视频流数据中截取出来，根据用户使用的语言进行文本识别计算，具体流程如下：

建立字库特征中心，字库特征中心用于存储各种字库数据，利用字库管理中心对截取出的文本图像进行一次识别。字库特征中心中的字库数据，包括中文、英文等各国文字，以及艺术字、多方向文本等特殊字体或排版方式。字库特征中心加载哪些字库数据可根据用户的需求进行定制，同时也支持匹配本专利方法的第三方字库。字库数据可以是离线的也可以是在线的。

使用深度学习方法对截取出的文本图像进行端到端的二次识别，学习用户的偏好模式对端到端的文本识别计算结果和一次识别结果进行评估，得到优化的文本识别结果。

具体地，首先使用深度学习方法可对判定出的文本区域进行端到端的文本识别计算。在本实用新型的一个实施例中，采用基于卷积神经网络深度学习框架的端到端文本识别方法，进行端到端的文本识别计算。

然后，分析用户的历史翻译文本、使用行为和个人习惯，学习出用户的偏好模式，对端到端的文本识别结果和利用字库管理中心一次识别的文本识别结果进行评估，将可信度更高的文本识别结果优化出来。

步骤209、SLAM处理器对文本区域建立坐标，得到文本坐标。

具体的，SLAM处理器结合光飞传感器运用三维重建算法将文本区域坐标放入已经建立的外部环境坐标系中，从而得到文本内容的具体坐标，以便于后续在其周围显示翻译结果。还通过文本的三维位置，结合环境视频流对文字的位置跟踪。

步骤210、CPU对识别结果进行翻译。所述识别结果是在步骤208中得到的。

文本翻译，包括如下步骤：根据用户的需求进行目标语言的翻译,利用语言库对文本识别结果进行文本翻译，将得到的翻译结果根据具体应用需求合成出多媒体形式的翻译结果，至少图片、文字、视频形式的翻译结果。

步骤211、CPU将翻译结果显示在数字光显示介质上。

需要说明的是，文本翻译需要语言库的支持，语言库中至少包括中英、中日、中法互译等多语言数据。用户可设置语言库加载语言种类，语言库中数据可以是存储在本地也可是云端。

OCR处理器将所述环境声音包含的具体内容显示在数字光显示介质上，同时根据用户需求将所述具体内容翻译为目标语言，并将所述目标语言进行显示。

所述混合现实智能眼镜上具有发声装置，所述发声装置根据用户需求可直接将所述目标语言以声音的形式输出。

将翻译结果以混合现实的呈现方式在所述数字光显示介质上显示。

本实用新型技术方案中涉及的显示技术包括但不限于：、LED(Light-EmittingDiode发光二极管简称为LED)、DLP(Digital Light Processing，数字光处理)。

在步骤211的显示过程中，由于SLAM处理器对文本和周围环境进行了三维建模并跟踪，从而能够对目标文本的位置进行跟踪。这样，即使用户在走动中，显示的翻译内容也会随着目标文本的移动而移动。具体的，将翻译结果以贴合、标志或覆盖的方式叠加在用户视角中的目标文本处，将合成的翻译语音进行直接播放。虚拟合成的数据呈现的形式根据具体应用情景的变化而变化。

在本实用新型技术方案中涉及的数字光显示介质，包括但不限于：LCOS(LiquidCrystal on Silicon，硅基液晶)，LCD(Liquid Crystal Display，液晶显示器)、贴有光波导光栅的镜片，棱镜组半透/全透显示光学组件，自由曲面光学棱镜半透/全透显示组件，波导光学半透/全透显示镜片组件、DMD(Digital Micromirror Device，数据微镜装置)等。

图3为本实用新型技术方案提供的具有文本及语音处理功能的混合现实智能眼镜的结构示意，具体，如图3所示：

混合现实智能眼镜包括：深度双目图像采集模组31，SLAM处理器32，数据处理器33，语音采集输出模组34包括：语音输入组件34a、语音识别组件34b、语音输出组件34c，OCR处理器35，数字光显示呈像装置36，网络模块37；

深度双目图像采集模组31获取外部信息，OCR处理器35对所述外部信息进行识别，判断是否含有文字信息。具体包括：深度双目图像采集模组31拍摄当前环境状态(暨外部信息)，得到多媒体数据，同时，语音采集输出模组34中的语音输入组件34a记录当前环境声音，之后发送给语音识别组件34b。数据处理器33从外部信息中提取视频帧，OCR处理器35提取特征库中的文字特征，从而对视频帧进行检测，若检测结果为外部信息具有文字特征，则OCR处理器35提取文本区域。OCR处理器35还根据文字特征，结合语音采集输出模组34中语音识别组件34b对所述环境声音进行识别，得到语音识别结果。

得到语音识别结果的过程，包括：语音采集输出模组34中的语音识别组件34b通过声音特征提取的方式提取声音帧，将声音帧发送给数据处理器33，其根据声纹模型，得到环境声音包含的具体内容。具体包括：建立声纹模型，用于对环境声音进行识别，判断是否包含文字信息；其中，声纹模型中有音素帧，大于自然数零的音素帧数量组成文字。

通过通过机器学习、深度学习、神经网络的学习方式对以上识别的结果进行学习，将学习结果存储在本地存储空间内或者云端服务器，并在后续识别时结合学习结果对声音进行识别。若存储在云端服务器中，在识别过程中，数据处理器33会指示网络模块37获取学习结果。网络模块37还用于实现传输用户指令，传输翻译过程中相关数据等功能。

若OCR处理器35对外部信息识别后，得到的识别结果是外部信息不含有文字信息，则没有一下进程。

若OCR处理器35对外部信息识别后，得到的识别结果是外部信息含有文字信息，则SLAM处理器32结合外部信息和OCR处理器35的识别结果，对文字信息对应的文字进行定位。包括：SLAM处理器32以外部信息为基础，通过深度双目图像采集模组中的光飞传感器和三维重建算法对外部环境进行建立，之后以相同的方法获取文字信息中的文字进行坐标建立，将文字坐标放入已经建立的外部环境中，从而对所述文字进行定位。具体包括：SLAM处理器32通过坐标算法得到文字的三维位置，根据该三维位置信息和之前建立外部环境坐标对文字的位置跟踪。以便于后续显示翻译结果时，显示内容与外部信息含有的文字信息相对应。

数据处理器33将文字信息翻译为用户需要的目标语言，根据SLAM处理器32得到的定位信息将其在数字光显示呈像装置36上进行显示。

OCR处理器35将环境声音包含的具体内容显示在数字光显示呈像装置36上。同时数据处理器33据用户需求将所述具体内容翻译为目标语言，OCR处理器35将目标语言混合现实的呈现方式在数字光显示呈像装置36上进行显示。混合现实智能眼镜上语音采集输出模组34中的语音输出组件34c根据用户需求，将通过数据处理器33翻译成的目标语言进行语音输出。

需要说明的是，本实用新型实施例的具有文本及语音处理功能的混合现实智能眼镜中的文本和语音处理功能是实时运行的，单次“检测-识别-翻译-显示/播放”的功能具有实时性。

后应说明的是：以上各实施例仅用以说明本实用新型的技术方案，而非对其限制；尽管参照前述各实施例对本实用新型进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本实用新型各实施例技术方案的范围。

Claims

1.具有文本及语音处理功能的混合现实智能眼镜，其特征在于，包括：所述混合现实智能眼镜至少包括，深度双目图像采集模组，SLAM处理器，数字光显示呈像装置，数据处理器，语音采集输出模组，OCR处理器；

深度双目图像采集模组获取外部信息，OCR处理器对所述外部信息进行识别，判断是否含有文字信息；

若含有所述文字信息，则所述SLAM处理器结合所述外部信息，对所述文字信息对应的文字进行定位；

所述数据处理器将文字信息翻译为用户需要的目标语言，根据定位将其在所述数字光显示呈像装置上进行显示，同时可进行语音播报；

其中，所述混合现实智能眼镜至少有一组所述深度双目图像采集模组，所述语音采集输出模组包括：语音输入组件、语音识别组件、语音输出组件。

2.如权利要求1所述的混合现实智能眼镜，其特征在于，所述深度双目图像采集模组获取外部信息，OCR处理器对所述外部信息进行识别，判断是否含有文字信息，具体包括：

所述深度双目图像采集模组拍摄当前环境状态，得到所述外部信息，所述语音输入组件记录当前环境声音；

所述OCR处理器提取特征库中的文字特征，用于对外部信息进行检测，若检测结果为所述外部信息具有文字特征，则提取文本区域；

所述数据处理器根据所述文字特征，结合所述语音识别组件对所述语音输入组件记录的环境声音进行识别，得到语音识别结果。

3.如权利要求2所述的混合现实智能眼镜，其特征在于，所述数据处理器根据所述文字特征，结合所述语音识别组件对所述语音输入组件记录的环境声音进行识别，得到语音识别结果，具体包括：

所述语音识别组件通过声音特征提取的方式对所述环境声音提取声音帧，将所述声音帧发送给所述数据处理器，所述数据处理器根据声纹模型，得到所述环境声音包含的具体内容；

OCR处理器将所述环境声音包含的具体内容显示在所述数字光显示呈像装置上，同时所述数据处理器根据用户需求将所述具体内容翻译为目标语言，所述OCR处理器将所述目标语言进行显示。

4.如权利要求1所述混合现实智能眼镜，其特征在于，所述若含有所述文字信息，则所述SLAM处理器结合所述外部信息，对所述文字信息对应的文字进行定位，包括：

SLAM处理器根据所述深度双目图像采集模组获取的外部信息，通过深度双目图像采集模组中的光飞传感器和三维重建算法对外部环境进行建立，之后对文字信息中的文字进行坐标建立，将文字坐标放入已经建立的外部环境中，从而对所述文字进行定位。

5.如权利要求1所述的混合现实智能眼镜，其特征在于，所述处理器将文字信息翻译为用户需要的目标语言，根据定位将其在所述数字光显示呈像装置上进行显示，同时可进行语音播报，包括：

所述混合现实智能眼镜上的所述语音输出组件根据用户需求可直接将所述目标语言以声音的形式输出。

6.如权利要求4所述的混合现实智能眼镜，其特征在于，所述对所述文字进行定位，还包括：

计算所述文字的三维位置，根据该三维位置信息和所述外部信息对所述文字的位置跟踪。

7.如权利要求3所述的混合现实智能眼镜，其特征在于，所述语音识别组件通过声音特征提取的方式对所述环境声音提取声音帧，将所述声音帧发送给所述数据处理器，所述数据处理器根据声纹模型，得到所述环境声音包含的具体内容，包括：

建立声纹模型，所述声纹模型用于对所述环境声音进行识别，判断是否包含文字信息；其中，所述声纹模型中有音素帧，大于自然数零的音素帧数量组成文字；

通过机器学习、深度学习、神经网络的学习方式对以上识别结果进行学习，并在后续识别时结合学习结果对声音进行识别。

8.根据权利要求1-7任一所述的混合现实智能眼镜，其特征在于，将翻译结果以混合现实的呈现方式在所述数字光显示呈像装置上显示。