CN111709414A

CN111709414A - Ar设备及其文字识别方法、装置和计算机可读存储介质

Info

Publication number: CN111709414A
Application number: CN202010605097.4A
Authority: CN
Inventors: 段强; 李锐; 金长新
Original assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Current assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2020-09-25

Abstract

本发明公开了一种AR设备的文字识别方法，包括：AR设备获取文字识别指令；其中，文字识别指令包括目标信息；在AR设备的摄像头采集的图像中检测目标信息对应的目标区域图像；对目标区域图像进行文本检测和识别，获取识别文本信息；本发明通过在AR设备的摄像头采集的图像中检测目标信息对应的目标区域图像，便捷准确地检测AR设备视野中用户需要进行文字识别的目标区域的图像；通过对目标区域图像进行文本检测和识别，获取识别文本信息，实现符合用户需求的文字识别，从而能够标注显示用户需求识别的识别文本信息，提升了用户体验。此外，本发明还公开了一种AR设备的文字识别装置、AR设备及计算机可读存储介质，同样具备上述有益效果。

Description

AR设备及其文字识别方法、装置和计算机可读存储介质

技术领域

本发明涉及增强现实技术领域，特别涉及一种AR设备的文字识别方法、装置、AR设备及计算机可读存储介质。

背景技术

随着现代社会科技的发展，AR(Augmented Reality，增强现实)技术的应用逐渐普及与推广。虽然传统的二维图像OCR(Optical Character Recognition，光学字符识别)任务已经被大量研究，且形成了整套的理论体系和各式各样的方法，但是传统的OCR任务是对预设或手动设置的文字区域进行文字的检测和识别，如通过CTPN(Connectionist TextProposal Network)和EAST(An Efficient and Accurate Scene Text Detector)等基于深度学习的文字检测算法先将文字检测出来，并使用CRNN(卷积循环神经网络)和DenseNet(密集卷积网络)+CTC(Connectionist Temporal Classifier，联接时间分类器)等算法进行识别。

现有技术中，AR设备(如AR眼镜)的使用过程中，无法便捷的检测用户需要进行文字识别的区域，难以实现符合用户需求的文字识别，不利于用户体验。因此，如何能够使AR设备能够便捷准确的检测到用户需要进行文字识别的区域，实现符合用户需求的文字识别，提升用户体验，是现今急需解决的问题。

发明内容

本发明的目的是提供一种AR设备的文字识别方法、装置、AR设备及计算机可读存储介质，以使AR设备能够便捷准确的检测到用户需要进行文字识别的区域，实现符合用户需求的文字识别，提升用户体验。

为解决上述技术问题，本发明提供一种AR设备的文字识别方法，包括：

AR设备获取文字识别指令；其中，所述文字识别指令包括目标信息；

在所述AR设备的摄像头采集的图像中检测所述目标信息对应的目标区域图像；

对所述目标区域图像进行文本检测和识别，获取识别文本信息。

可选的，所述AR设备获取文字识别指令，包括：

对AR设备的麦克风采集到的语音信息进行语音识别，获取所述文字识别指令。

可选的，所述在所述AR设备的摄像头采集的图像中检测所述目标信息对应的目标区域图像，包括：

利用目标检测算法，识别所述图像中的所述目标信息对应的目标区域图像。

可选的，所述对所述目标区域图像进行文本检测和识别，获取识别文本信息，包括：

利用所述AR设备的显示器，在所述目标区域图像对应的显示区域按预设显示方式显示所述识别文本信息。

可选的，所述预设显示方式包括：增强显示和/或翻译显示。

本发明还提供了一种AR设备的文字识别装置，包括：

获取模块，用于获取文字识别指令；其中，所述文字识别指令包括目标信息；

检测模块，用于在AR设备的摄像头采集的图像中检测所述目标信息对应的目标区域图像；

识别模块，用于对所述目标区域图像进行文本检测和识别，获取识别文本信息。

可选的，所述获取模块，包括：

语音识别子模块，用于对AR设备的麦克风采集到的语音信息进行语音识别，获取所述文字识别指令。

可选的，该装置还包括：

成像模块，用于利用所述AR设备的显示器，在所述目标区域图像对应的显示区域按预设显示方式显示所述识别文本信息。

本发明还提供了一种AR设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述所述的AR设备的文字识别方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述的AR设备的文字识别方法的步骤。

本发明所提供的一种AR设备的文字识别方法，包括：AR设备获取文字识别指令；其中，文字识别指令包括目标信息；在AR设备的摄像头采集的图像中检测目标信息对应的目标区域图像；对目标区域图像进行文本检测和识别，获取识别文本信息；

可见，本发明通过在AR设备的摄像头采集的图像中检测目标信息对应的目标区域图像，便捷准确地检测AR设备视野中用户需要进行文字识别的目标区域的图像；通过对目标区域图像进行文本检测和识别，获取识别文本信息，实现符合用户需求的文字识别，从而能够标注显示用户需求识别的识别文本信息，提升了用户体验。此外，本发明还提供了一种AR设备的文字识别装置、AR设备及计算机可读存储介质，同样具备上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例所提供的一种AR设备的文字识别方法的流程图；

图2为本发明实施例所提供的另一种AR设备的文字识别方法的流程示意图；

图3为本发明实施例所提供的一种AR设备的文字识别装置的结构框图；

图4为本发明实施例所提供的一种AR设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明实施例所提供的一种AR设备的文字识别方法的流程图。该方法可以包括：

步骤101：AR设备获取文字识别指令；其中，文字识别指令包括目标信息。

可以理解的是，本步骤中的AR设备可以为能够实现增强现实功能的设备，如AR眼镜、AR头盔以及支持如ARCore(一种增强现实应用程序的软件平台)和ARKit(一种增强现实应用程序的软件平台)等AR框架的手机等。本步骤中AR设备的处理器获取的文字识别指令可以为用户需要进行文字识别的目标信息对应的文字识别指令，例如处理器可以根据用户语音输入的“左边的广告牌上写了什么内容”生成相应的文字识别指令，即左边和广告牌这两个目标信息对应的文字识别指令。

具体的，对于本步骤中的文字识别指令的具体内容和类型，可以由设计人员根据使用场景和用户需求自行设置，如可以采用与现有技术中文字识别指令相同或相似的方式实现，文字识别指令中的目标信息可以为AR设备的摄像头采集的图像(即AR设备视野)中的部分区域对应的信息，如目标信息可以包括方位信息和/或物体信息；目标信息也可以为AR设备的摄像头采集的图像中的全部区域对应的信息。只要保证本实施例中的文字识别指令与目标信息相对应，即文字识别指令不仅包含文字识别信息，还包括目标信息，本实施例对此不做任何限制。

需要说明的是，对于本步骤中处理器获取文字识别指令的具体方式，可以由设计人员根据实用场景和用户需求自行设置，如处理器可以直接获取AR设备的无线接收设备(如蓝牙设备或WIFI设备)接收的文字识别指令；例如用户可以通过终端(如手机和蓝牙耳机等)向AR设备无线发送文字识别指令，控制AR设备的文字识别。处理器也可以对AR设备的麦克风采集到的语音信息进行语音识别，获取文字识别指令；即用户可以通过语音(声波)，控制AR设备的文字识别；如图2所示，AR设备可以利用麦克风接收用户的语音输入，使用现有技术中基于深度学习的语音识别算法结合自然语言处理的相关技术，对语音进行分析与处理，得到语音识别后的目标信息，即文字识别的目标的描述信息。本实施例对此不做任何限制。

步骤102：在AR设备的摄像头采集的图像中检测目标信息对应的目标区域图像。

可以理解的是，本步骤的目的可以为AR设备的处理器利用AR设备上设置的摄像头采集的图像，检测AR设备视野中需要进行文字识别的目标区域的图像(即目标区域图像)。

具体的，对于本步骤中处理器在AR设备的摄像头采集的图像中检测目标信息对应的目标区域图像的具体方式，可以由设计人员自行设置，如处理器可以利用目标检测算法，识别AR设备的摄像头采集的图像中的目标信息对应的目标区域图像；例如处理器可以使用Faster R-CNN(一种目标检测算法)、YOLOv4(一种目标检测算法)和CenterNet(一种目标检测算法)等目标检测算法，检测AR设备的摄像头采集的图像中目标信息对应的目标，并将目标所在区域的图像作为目标信息对应的目标区域图像。处理器也可以利用现有技术中的其他图像检测技术，在AR设备的摄像头采集的图像中检测目标信息对应的目标区域图像，本实施例对此不做任何限制。

步骤103：对目标区域图像进行文本检测和识别，获取识别文本信息。

可以理解的是，本步骤的目的可以为AR设备的处理器通过对用户需要进行文字识别区域的图像(即目标区域图像)进行文本检测和文本识别，得到用户需要识别的文字识别结果(即识别文本信息)，从而实现符合用户需求的文字识别。

具体的，对于本步骤中处理器对目标区域图像进行文本检测和识别，获取识别文本信息的具体方式，可以由设计人员自行设置，如处理器可以利用文字检测算法，对目标区域图像进行文字检测，检测目标区域图像中的文字区域；利用OCR算法对检测到的文字区域进行文字识别，得到识别文本信息；例如处理器可以先使用CTPN和EAST等基于深度学习的文字检测算法，检测目标区域图像中的文字区域，再使用CRNN和DenseNet+CTC等OCR算法对检测到的文字区域进行文字识别，得到识别文本信息。本实施例对此不做任何限制。

对应的，为了方便用户可以及时了解文本识别得到的识别文本信息，本步骤还可以包括输出识别文本信息的步骤，如处理器可以利用AR设备的扬声器，语音输出识别文本信息；处理器也可以利用AR设备的显示器(即成像设备)，显示输出识别文本信息。

具体的，对于上述处理器利用AR设备的显示器显示输出识别文本信息的具体方式，可以由设计人员根据使用场景和用户需求自行设置，如对于识别文本信息的显示位置，处理器利用AR设备的显示器在一个预先设置的固定位置显示识别文本信息；处理器也可以利用AR设备的显示器在目标区域图像对应的显示区域显示识别文本信息，如在显示目标区域图像的位置同时增强显示识别文本信息。对于识别文本信息的显示方式，处理器可以利用AR设备的显示器增强显示(如增大文字对比度)识别文本信息，以使用户可以更好的查看识别文本信息；处理器也可以利用AR设备的显示器翻译显示识别文本信息，即处理器可以先对识别文本信息进行预设语言(如英语)的翻译，再显示识别文本信息和相应的翻译结果。本实施例对此不做任何限制。

对应的，如图2所示，本实施例中处理器可以预设时间段内持续进行目标区域图像的定位和跟踪，以保证目标区域图像的需要进行文字识别的目标的完整性，提高文字识别的准确性，保证用户可以更好的查看AR设备的成像显示的识别文本信息。

具体的，本步骤之后还可以包括存储识别得到的识别文本信息的步骤，通过将识别得到的识别文本信息存储到数据库，方便便后续用户对识别文本信息的使用。

本实施例中，本发明实施例通过在AR设备的摄像头采集的图像中检测目标信息对应的目标区域图像，便捷准确地检测AR设备视野中用户需要进行文字识别的目标区域的图像；通过对目标区域图像进行文本检测和识别，获取识别文本信息，实现符合用户需求的文字识别，从而能够标注显示用户需求识别的识别文本信息，提升了用户体验。

请参考图3，图3为本发明实施例所提供的一种AR设备的文字识别装置的结构框图。该装置可以包括：

获取模块10，用于获取文字识别指令；其中，文字识别指令包括目标信息；

检测模块20，用于在AR设备的摄像头采集的图像中检测目标信息对应的目标区域图像；

识别模块30，用于对目标区域图像进行文本检测和识别，获取识别文本信息。

可选的，获取模块10可以包括：

语音识别子模块，用于对AR设备的麦克风采集到的语音信息进行语音识别，获取文字识别指令。

可选的，检测模块20可以具体用于利用目标检测算法，识别图像中的目标信息对应的目标区域图像。

可选的，该装置还可以包括：

成像模块，用于利用AR设备的显示器，在目标区域图像对应的显示区域按预设显示方式显示识别文本信息。

可选的，成像模块可以包括：

增强显示子模块，用于利用AR设备的显示器，在目标区域图像对应的显示区域增强显示识别文本信息；和/或

翻译显示子模块，用于利用AR设备的显示器，在目标区域图像对应的显示区域翻译显示识别文本信息。

本实施例中，本发明实施例通过检测模块20在AR设备的摄像头采集的图像中检测目标信息对应的目标区域图像，便捷准确地检测AR设备视野中用户需要进行文字识别的目标区域的图像；通过识别模块30对目标区域图像进行文本检测和识别，获取识别文本信息，实现符合用户需求的文字识别，从而能够标注显示用户需求识别的识别文本信息，提升了用户体验。

请参考图4，图4为本发明实施例所提供的一种AR设备的结构示意图。

该设备1可以包括：

存储器11，用于存储计算机程序；处理器12，用于执行该计算机程序时实现如上述实施例所提供的AR设备的文字识别方法的步骤。

设备1可以包括存储器11、处理器12和总线13。

其中，存储器11至少包括一种类型的可读存储介质，该可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是设备1的内部存储单元。存储器11在另一些实施例中也可以是设备1的外部存储设备，例如设备1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括设备1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于设备1的应用软件及各类数据，例如：执行AR设备的文字识别方法的程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行AR设备的文字识别方法的程序的代码等。

该总线13可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

进一步地，设备还可以包括网络接口14，网络接口14可选的可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该设备1与其他电子设备之间建立通信连接。

可选地，该设备1还可以包括用户接口15，用户接口15可以包括显示器(Display)和输入单元比如麦克风(Keyboard)，可选的用户接口15还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在设备1中处理的信息以及用于显示可视化的用户界面。

图4仅示出了具有组件11-15的设备1，本领域技术人员可以理解的是，图4示出的结构并不构成对设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

此外，本发明实施例还公开了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如上述实施例所提供的AR设备的文字识别方法的步骤。

其中，该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、AR设备及计算机可读存储介质而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

以上对本发明所提供的一种AR设备的文字识别方法、装置、AR设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种AR设备的文字识别方法，其特征在于，包括：

2.根据权利要求1所述的AR设备的文字识别方法，其特征在于，所述AR设备获取文字识别指令，包括：

3.根据权利要求1所述的AR设备的文字识别方法，其特征在于，所述在所述AR设备的摄像头采集的图像中检测所述目标信息对应的目标区域图像，包括：

4.根据权利要求1至3任一项所述的文字识别方法，其特征在于，所述对所述目标区域图像进行文本检测和识别，获取识别文本信息，包括：

5.根据权利要求4所述的文字识别方法，其特征在于，所述预设显示方式包括：增强显示和/或翻译显示。

6.一种AR设备的文字识别装置，其特征在于，包括：

7.根据权利要求6所述的AR设备的文字识别装置，其特征在于，所述获取模块，包括：

8.根据权利要求6或7所述的AR设备的文字识别装置，其特征在于，还包括：

9.一种AR设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至5任一项所述的AR设备的文字识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的AR设备的文字识别方法的步骤。