CN107273895A

CN107273895A - 用于头戴式智能设备的视频流实时文本识别及翻译的方法

Info

Publication number: CN107273895A
Application number: CN201710451054.3A
Authority: CN
Inventors: 范懿文; 杜晶; 陈清甫
Original assignee: Visual Interactive (beijing) Technology Co Ltd
Current assignee: Visual Interactive (beijing) Technology Co Ltd
Priority date: 2017-06-15
Filing date: 2017-06-15
Publication date: 2017-10-20
Anticipated expiration: 2037-06-15
Also published as: CN107273895B

Abstract

本发明提出了用于头戴式智能设备的视频流实时文本识别及翻译的方法，包括：获取视频流数据、用户头部运动的动态数据；根据视频流数据和用户头部运动的动态数据分析用户操作，对用户视区内环境进行感知，获取感知结果，并利用感知结果使用双目视频三维重建算法对环境进行三维重建；将视频流数据根据用户视点区域进行文本检测和文本识别、文本翻译；根据文本检测和三维重建获得的三维位置信息和目标文本的图像信息进行目标文本的位置跟踪；采用增强现实技术，将绘制的翻译结果以贴合、指示或覆盖的方式叠加在用户视角下的目标文本处。本发明将文本识别和翻译技术应用在头戴式智能设备上，避免了用户手持移动端设备的不便性。

Description

用于头戴式智能设备的视频流实时文本识别及翻译的方法

技术领域

本发明涉及视频处理技术领域，特别涉及一种用于头戴式智能设备的视频流实时文本识别及翻译的方法。

背景技术

翻译文本技术主要应用在桌面电脑端和手机移动端，通常需要用户使用键盘或鼠标，将需要翻译的文字输入到设备中，设备通过离线或在线方式查询出翻译结果，再通过屏幕展现给用户。后续有了屏幕取词的交互方式，它在原有翻译文本技术的基础上增加了识别文本技术。在桌面电脑端即用户使用鼠标指定屏幕中的文字区域，设备自动框定鼠标位置处的文本，将该文本进行翻译；在手机移动端即用户打开摄像头拍摄文本区域，设备通过识别图片或者视频中的文本，再进行翻译。

使用上述应用或设备时大多需要用户手动输入文字或手持设备拍摄等方式进行交互，会打断用户当前正在进行的手头工作，并且以上识别及翻译过程大多是非实时和异步的。进一步，上述识别文本并翻译的技术通常只能针对规范的印刷体文字、背景干净、文本方正无倾斜、文本排版简单等特定情境下有较好的效果，因为随意在自然场景下指定或拍摄的图像可能会遇到背景复杂、视角倾斜导致文本块透视畸变、艺术装饰字体形态和排版复杂等情况，导致文本检测运算量大、文本识别过程噪声大导致误识别，进而导致翻译错误。再次，翻译结果通常以平面的图文显示在设备屏幕或以语音播放，无法以更直观更生动更立体的方式展现。

对所见的环境和物件上的文字进行识别和翻译的技术更适合应用在头戴式智能设备上，可在近眼显示屏上实时展现虚拟结合的图文声翻译结果。但是，通过视频流进行实时文本识别和翻译技术当前尚没有应用在头戴式智能设备上的成熟方案或典型案例。

发明内容

本发明的目的旨在至少解决所述技术缺陷之一。

为此，本发明的目的在于提出一种用于头戴式智能设备的视频流实时文本识别及翻译的方法。

为了实现上述目的，本发明的实施例提供一种用于头戴式智能设备的视频流实时文本识别及翻译的方法，包括如下步骤：

步骤S1，利用头戴式智能设备的双目摄像头获取视频流数据，利用头戴式智能设备的传感器装置获取用户头部运动的动态数据；

步骤S2，根据所述视频流数据和用户头部运动的动态数据分析用户操作，判断用户行为是否符合启动服务条件，以及利用所述视频流数据和用户头部运动的动态数据对用户视区内环境进行感知，获取感知结果，并利用所述感知结果使用双目视频三维重建算法对环境进行三维重建，从空间离散的深度信息点云优化出空间的三维信息；

步骤S3，当判断用户行为符合启动服务条件时，将所述视频流数据根据用户视点区域进行文本检测和文本识别，将识别出的文字根据用户需求进行目标语言的翻译，绘制多媒体形式的翻译结果，包括：绘制翻译结果和合成翻译语音；

步骤S4，将步骤S2中的空间三维信息联合步骤S3中的文本检测区域，计算得到目标文本的三维位置，根据该三维位置信息和目标文本的图像信息进行目标文本的位置跟踪；

步骤S5，根据所述步骤S3中的多媒体形式的翻译结构和步骤S4中的目标文本的位置跟踪结果，采用增强现实技术，将绘制的翻译结果以贴合、指示或覆盖的方式叠加在用户视角下的目标文本处，或将合成的翻译语音进行直接播放或根据定位信息以不同的方式进行播放。

进一步，在所述步骤S2中，所述分析用户操作，包括如下步骤：分析所述视频流数据中相邻帧图像的差异大小、计算用户头部在空间中的运动速度、判断用户行为是否符合启动服务的条件。

进一步，在所述步骤S2中，所述对用户视点区域内环境进行感知，包括如下步骤：通过所述视频流数据分析估算环境的光照度和环境色，通过双目视频的视差及用户头部运动的动态数据感知环境深度。

进一步，在所述步骤S3中，所述文本检测，包括如下步骤：

视频流数据进行图像预处理，对预处理后的图像进行文本特征判断和文本切割，以判断用户所视范围内是否有文本，包括采用极值区域法进行文本特征判断，以判断是否有文本以及文本在平面图像中的位置。

在所述步骤S4中，所述目标文本的位置跟踪，包括如下步骤：

计算目标文本的三维位置，根据该三维位置信息和目标文本的图像信息进行目标文本的位置跟踪。

进一步，在所述步骤S3中，所述文本识别，包括如下步骤：在获取文本位置后，将包围该文本的部分图像从视频流数据中截取出来，根据用户使用的语言进行文本识别计算，包括：

建立字库管理中心，所述字库管理中心用于管理各种字库数据，利用所述字库管理中心对截取出的文本图像进行一次识别；

使用深度学习方法对截取出的文本图像进行端到端的二次识别，学习用户的偏好模式对所述端到端的文本识别计算结果和一次识别结果进行评估，得到优化的文本识别结果。

进一步，在所述步骤S3中，还包括如下步骤：当因视角和尺度问题导致文本出现透视畸变时，利用三维重建获得的空间三维信息对被裁切下来的文本图像数据进行畸变修正之后，再进行文本识别计算。

进一步，在所述步骤S3中，所述文本翻译，包括如下步骤：

利用语言库管理中心对文本识别结果进行文本翻译，将得到的翻译结果根据具体应用需求合成出多媒体形式的翻译结果，包括图片、文字、视频、语音形式的翻译结果。

进一步，在所述步骤S5中，还包括如下步骤：采用增强现实技术，将绘制的翻译结果以贴合、指示或覆盖的方式叠加在用户视角下的目标文本处，或将合成的翻译语音进行直接播放或根据定位信息以不同的方式进行播放。

根据本发明实施例的用于头戴式智能设备的视频流实时文本识别及翻译的方法，具有以下有益效果：

第一，本发明将文本识别和翻译技术应用在头戴式智能设备上，避免了用户手持移动端设备的不便性。用户带上头戴式智能设备后，只需关注需要翻译的文本，即可启动算法进行文本识别和翻译工作。这种交互方式更为便捷，不会打断用户当前手头正在进行的工作，并且结合视频信息和传感器信息能使对用户操作的判定更为多样和精确。

第二，本发明使用增强现实技术，将翻译结果用文字，图像、视频、音频以虚实结合的方式展现给用户，信息的呈现形式更为自然和直观。

第三，本发明涉及的学习功能可使用深度学习方法进行端到端的文本识别计算，能应付如背景复杂、视角倾斜导致文本块透视畸变等情景，还可分析用户的历史翻译文本、使用行为和个人习惯，学习出用户的偏好模式，以优化识别效果和提供个性化的智能服务。第四，该方法中支持多种字库的加载，能更好地应对多语言、专业领域术语、艺术装饰字体、文本块排版复杂等情景，增强了方法的实用性。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的用于头戴式智能设备的视频流实时文本识别及翻译的方法流程图；

图2为根据本发明实施例的用于头戴式智能设备的视频流实时文本识别及翻译的方法示意图；

图3为根据本发明实施例的基于极值区域的文本检测方法的流程图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

本发明提出一种用于头戴式智能设备的视频流实时文本识别及翻译的方法，属于自然场景下文本检测、文字识别技术(OCR)，文本翻译，增强现实技术领域内的一种应用。本发明通过视频流进行实时文本识别和翻译的技术是应用于头戴式智能设备上的，通过使用双目摄像头获取视频流数据，同时用于环境三维重建和自然场景下的文本检测计算。

如图1和图2所示，本发明实施例的用于头戴式智能设备的视频流实时文本识别及翻译的方法，包括如下步骤：

步骤S1，利用头戴式智能设备的双目摄像头获取视频流数据，利用头戴式智能设备的传感器装置获取用户头部运动的动态数据。

步骤S2，根据视频流数据和用户头部运动的动态数据分析用户操作，判断用户行为是否符合启动服务条件。

具体地，分析用户操作，包括如下步骤：分析视频流数据中相邻帧图像的差异大小、计算用户头部在空间中的运动速度、判断用户行为是否符合启动服务的条件。例如，用户注目某个区域静止一段时间或用户视点沿着文本方向以一定速度滑行等。判定用户操作的条件可按具体应用情景进行定制。

利用视频流数据和用户头部运动的动态数据对用户视区内环境进行初步感知，即通过视频流数据分析估算环境的光照度和环境色，通过双目视频的视差及传感器获取的运动数据感知环境深度，获取感知结果，并利用感知结果使用双目视频三维重建算法对环境进行三维重建，从空间离散的深度信息点云优化出空间的三维信息。

步骤S3，当判断用户行为符合启动服务条件时，将视频流数据根据用户视点区域进行文本检测和文本识别，将识别出的文字根据用户需求进行目标语言的翻译，绘制多媒体形式的翻译结果，包括：绘制翻译结果和合成翻译语音。

具体地，文本检测，包括如下步骤：视频流数据进行图像预处理，对预处理后的图像进行文本特征判断和文本切割，以判断用户所视范围内是否有文本，包括采用极值区域法进行文本特征判断，以判断是否有文本以及文本在平面图像中的位置。

下面参考图3对极值区域的文本检测方法流程进行说明。

文本检测是将图片中的文字部分区域定位出来的过程。复杂背景下的文本检测有着字体的变换，大小，颜色，方向变换以及类字符图案等一些干扰，复杂的背景或者光线的变化都会导致图像中文本的失真和变形。

在复杂背景下检测文本区域的问题可基于一种满足绝大都数情景的假定：图片中文本的颜色灰度一致，并且有别于背景的颜色灰度。极值区域(Extremal Regions，ER)是图像在一定颜色灰度阈值的过滤下，具有明显区分于背景的连通区域。ER对于光照、方向有着极强的不变形，对文本检测是很好的特征候选。在ER的基础上，还有一种用于文本检测更为稳定的特征——最大稳定极值区域(Maximally Stable Extremal Regions，MSER)。MSER对图像灰度具有仿射变换不变性，可以实现多尺度检测，具有更高的稳定性。

下面是对ER和MSER的形式化定义：

图像I，是一种映射其中S通常为{0,1,…,255}(对于灰度图)。

定义一种相邻关系即p，q∈D在当时为相邻，并表示为(pAq)。

图像I中的区域是D的一个连续子集，满足

区域边界则为

极值区域(ER)Q即一个区域边界的值严格稳定地高于区域值本身，即这里θ表示ER的阈值。

令Q₁，Q₂，...，Q_i-1，Q_i...是一系列嵌套的极值区域，即满足如果q(i)＝|Q_i+Δ\Q_i-Δ|/|Q_i|在i^*处具有局部最小值，则Q_1’是最大稳定极值区域。其中|·|表示集合的势，对于离散图像来说就是像素面积，Δ∈ε是具体计算时的参数。

具体编程实现提取MSER时，可使用基于改进的分水岭算法，并把面积的计算方法从上述的双边检测简化为单边检测，即q(i)＝|Q_i\Q_i-1|/|Q_i-Δ|。

如图3所示，首先初始化堆和栈，然后标记源像素为已访问，将空组件推入栈。判断当前像素的相邻像素是否未访问，如果是则将相邻像素标记为已访问，并判断相邻像素的灰度值是否大于当前像素，如果大于则将当前像素放入堆顶并将相邻像素作为当前像素，将空组件推入栈。如果相邻像素的灰度值小于当前像素，则将相邻像素放入堆顶。

如果当前像素的相邻像素未访问，则累计栈顶组块的像素个数，即计算区域面积，弹出堆中的边界像素，判断堆是否为空，如果是，则结束流程，否则判断弹出的边界像素灰度值是否等于当前值，如果否则处理栈顶的组件。

对于上述两个过程，在将相邻像素放入堆顶，以及处理栈顶的组件之后，均执行如下步骤：判断当前组件灰度值是否大于栈顶第二的组件，如果是，则返回判断弹出的边界像素灰度值是否等于当前值；如果否则将栈顶组件的灰度值更改为边界像素的灰度值，判断当前组件灰度值是否大于栈顶，如果是则返回处理栈顶的组件，否则继续判断当前像素的相邻像素是否为未访问。

文本识别包括如下步骤：在获取文本位置后，将包围该文本的部分图像从视频流数据中截取出来，根据用户使用的语言进行文本识别计算，具体流程如下：

建立字库管理中心，字库管理中心用于管理各种字库数据，利用字库管理中心对截取出的文本图像进行一次识别。字库管理中心中的字库数据，包括中文、英文等各国文字，以及艺术字、多方向文本等特殊字体或排版方式。字库管理中心加载哪些字库数据可根据用户的需求进行定制，同时也支持匹配本专利方法的第三方字库。字库数据可以是离线的也可以是在线的。

使用深度学习方法对截取出的文本图像进行端到端的二次识别，学习用户的偏好模式对端到端的文本识别计算结果和一次识别结果进行评估，得到优化的文本识别结果。

具体地，首先使用深度学习方法可对判定出的文本区域进行端到端的文本识别计算。在本发明的一个实施例中，采用基于卷积神经网络深度学习框架的端到端文本识别方法，进行端到端的文本识别计算。

然后，分析用户的历史翻译文本、使用行为和个人习惯，学习出用户的偏好模式，对端到端的文本识别结果和利用字库管理中心一次识别的文本识别结果进行评估，将可信度更高的文本识别结果优化出来。

下面对基于卷积神经网络深度学习框架的端到端文本识别方法进行说明。

具体来说，与通过扫描的标准印刷文本图片相比，自然场景下的文字识别，文字的特征更加难以确定和提取。深度学习方法能自适应地学习特征从而更准确地抽象出数据的表达。借助这一点，使用深度学习方法进行自然场景下的文字识别可以在一定程度上解决人工特征设计和抽取的难题。近年来，随着深度学习的发展，卷积神经网络在文本识别等领域获得了突出的成绩。卷积运算可以使原始信号特征增强并且降低噪音，这对自然场景下对文本的检测和识别具有有益作用。

本方法的实现分为两大过程，一个是使用训练样本对卷积神经网络进行训练，一个是使用训练好的模型对新的输入文本图片进行识别。

1、训练过程

1.1首先对收集到的文本训练样本图片进行预处理，包括转化为灰度图、图像二值化、图像归一化等。

1.2设定迭代次数上限C和误差阈值E，作为迭代终止条件的参数，设定学习率λ以控制每次迭代的修正量。

1.3初始化卷积神经网络中各分层中第i个神经元和第j个神经元间连接的卷积权重w_ij，以及隐含层各神经元i的偏置值b_j＝O。

1.4计算隐含层各节点j的加权卷积输出为I_j＝∑_iw_ij×O_i+b_j，经过激活函数计算后节点j的输出为O_j＝f(I_j)。

1.5计算节点j的误差值，其中δ_j＝O_j×(1-O_j)×(T_j-O_i)是输出单元的计算公式，δ_j＝O_j×(1-O_j)×∑_keN(i)δ_k×w_jk是隐含层节点的计算公式。T_j表示j节点的目标值，N(j)表示下一层中与节点j连接的神经元集合。

1.6对卷积权重进行修正w_ij ^*＝w_ij+λ×δ_j×O_i，对偏置进行修正b_j′＝b_j+λ×δ_i。

1.7针对训练样本d计算误差O(all)表示输出层中所有输出单元的集合。如果E_J＜E或者迭代次数大于C则停止训练，否则转入步骤5再次进行迭代。

2、识别过程

2.1对于新输入的文本图片，首先经过本专利提出的文本检测处理获取包围文本的部分图像数据。

2.2对上述步骤得到的图像进行预处理，包括转化为灰度图、图像二值化、图像归一化等。

2.3输入层的输出即输入，O₁＝L₁。

2.4隐含层各节点j的加权卷积输出为I_j＝∑_iw_ij×O_i+b_j，经过激活函数计算后节点j的输出为O_j＝f(I_i)，其中w_ij是训练好的卷积神经网络中第i个神经元和第j个神经元间连接的卷积权重，b_j是训练好的卷积神经网络中神经元j的偏置值。

2.5各层神经元按2.4计算最终得到输出层所有单元的集合O(all)。

2.6找到O(all)在样本空间中误差值最小时对应的样本d，则d为识别结果。

此外，如果当因视角和尺度问题导致文本出现透视畸变时，利用三维重建获得的空间三维信息对被裁切下来的文本图像数据进行畸变修正之后，再进行文本识别计算，这样能大大降低文本误识别的风险。

文本翻译，包括如下步骤：根据用户的需求进行目标语言的翻译,利用语言库管理中心对文本识别结果进行文本翻译，将得到的翻译结果根据具体应用需求合成出多媒体形式的翻译结果，包括图片、文字、视频、语音形式的翻译结果。

需要说明的是，文本翻译计算需要语言库数据的支持，语言库管理中心用于管理各种语言库数据，包括中英互译等多语言翻译数据库。语言库管理中心加载哪些语言库数据可根据用户的需求进行定制。语言库数据可以是离线的也可以是在线的。

翻译结果可根据具体应用需求合成出图片、文字、视频、语音等，根据输出端设备不同，可概括为绘制翻译结果和合成翻译语音两种。

步骤S4，将步骤S2中的空间三维信息联合步骤S3中的文本检测区域，计算得到目标文本的三维位置，根据该三维位置信息和目标文本的图像信息进行目标文本的位置跟踪。

具体地，在步骤S4中，目标文本的位置跟踪，包括如下步骤：计算目标文本的三维位置，根据该三维位置信息和目标文本的图像信息进行目标文本的位置跟踪。

步骤S5，根据步骤S3中的多媒体形式的翻译结构和步骤S4中的目标文本的位置跟踪结果，采用增强现实技术，将绘制的翻译结果以贴合、指示或覆盖的方式叠加在用户视角下的目标文本处，或将合成的翻译语音进行直接播放或根据定位信息以不同的方式进行播放。虚拟合成的数据以什么形式与现实所见的实像进行虚实融合将根据具体应用情景的变化而变化。

需要说明的是，本发明实施例的用于头戴式智能设备的视频流实时文本识别及翻译的方法是实时运行的，实现单次“检测-识别-翻译-显示”功能具有实时性。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

Claims

1.一种用于头戴式智能设备的视频流实时文本识别及翻译的方法，其特征在于，包括如下步骤：

2.如权利要求1所述的用于头戴式智能设备的视频流实时文本识别及翻译的方法，其特征在于，在所述步骤S2中，所述分析用户操作，包括如下步骤：分析所述视频流数据中相邻帧图像的差异大小、计算用户头部在空间中的运动速度、判断用户行为是否符合启动服务的条件。

3.如权利要求1所述的用于头戴式智能设备的视频流实时文本识别及翻译的方法，其特征在于，在所述步骤S2中，所述对用户视点区域内环境进行感知，包括如下步骤：通过所述视频流数据分析估算环境的光照度和环境色，通过双目视频的视差及用户头部运动的动态数据感知环境深度。

4.如权利要求1所述的用于头戴式智能设备的视频流实时文本识别及翻译的方法，其特征在于，在所述步骤S3中，所述文本检测，包括如下步骤：

5.如权利要求1所述的用于头戴式智能设备的视频流实时文本识别及翻译的方法，其特征在于，在所述步骤S4中，所述目标文本的位置跟踪，包括如下步骤：

6.如权利要求4所述的用于头戴式智能设备的视频流实时文本识别及翻译的方法，其特征在于，在所述步骤S3中，所述文本识别，包括如下步骤：在获取文本位置后，将包围该文本的部分图像从视频流数据中截取出来，根据用户使用的语言进行文本识别计算，包括：

7.如权利要求6所述的用于头戴式智能设备的视频流实时文本识别及翻译的方法，其特征在于，在所述步骤S3中，还包括如下步骤：当因视角和尺度问题导致文本出现透视畸变时，利用三维重建获得的空间三维信息对被裁切下来的文本图像数据进行畸变修正之后，再进行文本识别计算。

8.如权利要求6所述的用于头戴式智能设备的视频流实时文本识别及翻译的方法，其特征在于，在所述步骤S3中，所述文本翻译，包括如下步骤：

9.如权利要求6所述的用于头戴式智能设备的视频流实时文本识别及翻译的方法，其特征在于，在所述步骤S5中，还包括如下步骤：采用增强现实技术，将绘制的翻译结果以贴合、指示或覆盖的方式叠加在用户视角下的目标文本处，或将合成的翻译语音进行直接播放或根据定位信息以不同的方式进行播放。