CN107423392A

CN107423392A - 基于ar技术的字、词典查询方法、系统及装置

Info

Publication number: CN107423392A
Application number: CN201710605885.1A
Authority: CN
Inventors: 孔祥顺
Original assignee: Shanghai Ming Digital Publishing Technology Co Ltd
Current assignee: Shanghai Ming Digital Publishing Technology Co Ltd
Priority date: 2017-07-24
Filing date: 2017-07-24
Publication date: 2017-12-01

Abstract

本发明公开了一种基于AR技术的字、词典查询方法、系统及装置，通过将字、词典查询系统与增强现实的结合，在AR场景内选取目标字或词，利用光学字符识别技术识别选取的目标字符，对识别出的字或词进行数据库查询并在场景内返回查询结果，实现在AR场景内查询字、词释义信息，本发明还提供了基于本发明方法的字、词典阅读查询用的AR眼镜。本发明可以即时进行字/词典的检索，一方面可以提升学习的兴趣，另一方面可以大大提高查询的便利性、趣味性。

Description

基于AR技术的字、词典查询方法、系统及装置

技术领域

本发明涉及一种字符的检索方法，尤其涉及一种利用AR技术对字符进行字、词典查询的方法，本发明还提供了一种基于增强现实的字、词典查询系统，特别地，本发明还提供了一种利用本方法进行字、词典查询的AR眼镜。

背景技术

近年来，随着数字技术的发展，增强现实技术( AR技术)开始在各个行业中摸索应用，增强现实技术将计算机生成的信息同真实世界中的场景结合起来，以达到直观、逼真和身临其境的效果，为更好的体验现实中的环境提供了非常大的帮助。目前AR的应用多集中在医疗、游戏和工程领域中，为此本发明人将AR技术与字/词典查询技术相结合，进行传统字/词典检索方法的升级研究。

目前电子字典或电子词典类数据库检索都是采用传统的模式进行，在工作及学习中遇到不认识的字、词时，需要查字典、词典或用查询软件，而借助工具书或软件一方面查找非常繁琐，另一方面会因此耽误时间影响工作或学习。

目前传统的字典、词典检索在应用场景及使用方便性上有待提高。

发明内容

为了解决现有技术中存在的不足，本发明提供了一种基于AR技术进行字、词典查询的方法、系统以及利用了本方法的装置，本发明通过与AR技术的结合，可以即时进行字/词典的检索，一方面可以提升学习的兴趣，另一方面可以大大提高查询的便利性、趣味性。

本发明的目的是通过如下的技术方案实现的。

一方面，本发明提供一种基于AR技术的字、词典查询方法，包括：

10.在AR场景内选取目标字符区域；

11.识别选取的目标字符区域内的字符；

12.返回查询结果页，呈现在AR场景中。

所述步骤10，在AR场景内选取目标字符的方式有多种，包括：手指触发目标识别区域/热键区域，手势触击目标字符区域；手动绘制识别范围；手指移动或缩放识别框覆盖目标字符，优选地识别框刚好覆盖目标字符。

所述的识别框，采用透明选择框，通过拖动预设的一个识别框至目标字符区域，所述识别框可以移动或缩放。

所述步骤11，通过光学字符识别技术（OCR）对选取的目标字符区域进行识别，将识别的字符呈现在AR场景中供用户进一步选择或直接返回一个最大可能的识别结果。

如果步骤11中识别的字符不是目标字符，则重新调整视角进行步骤10。

所述步骤10和步骤11之间、步骤11中或者步骤11之后还包括接收操作指令；用摄像头捕捉操作指令并返回交互单元，对目标字符进行查询操作。

所述的步骤12，连接数据库对识别的目标字符进行查询操作，将操作结果页呈现于AR场景内。

所述的操作结果页，采用二维页面或三维页面浮动显示。

所述的数据库，内置于字符查询系统内或存储于服务器或云端，可以是字典、词典、网络词典、语料库、知识库等中的一种或多种，是可以提供检索的数据库。

本发明可以在AR场景内查字典、查词典，查询即可以离线实现，也可以在线连接网络实现。

另一方面，本发明提供一种基于增强现实的字、词典查询系统，包括选取模块、识别模块、查询模块、输出模块、数据库模块。

所述选取模块，用来选取增强现实场景中的目标字符区域；

所述识别模块，用来对选取模块选取的目标字符区域内的字符进行识别；

所述查询模块，接收查询指令，从数据库中查询与目标字符对应的信息；

所述输出模块，将查询到的信息输出，利用AR系统呈现在增强现实场景中；

所述数据库模块，存储有字符对应的数据信息，供用户查询。

再一方面，本发明提供一种利用本发明方法进行字、词典查询的AR眼镜，包括镜架、镜片、摄像头、主机、数据库，镜片安装于镜架上或与镜架一体成型，主机设置于镜架上，主机内预装有字符查询系统和AR平台，摄像头安装于镜架或镜片上并与主机相连，数据库内置于字符查询系统内或存储于服务器或云端。

所述的AR眼镜，设置有无线上网模块或蓝牙模块，可以通过通信协议与外部网络实现通信，用于汉语或外语的字、词的在线查询。

所述镜片，是一个显示装置，采用光学显示镜片，用来呈现视线内的AR场景。

所述的AR眼镜，其使用方法包括：

利用手势在AR场景内选取目标字符区域。

利用光学字符识别技术识别选取的目标字符区域内的字符。

用摄像头捕捉操作指令，接收识别的目标字符的操作指令，利用字符查询系统对字符进行查字、查词等查询操作。

将查询的结果页通过光学显示镜片呈现在AR场景中。

由于采用了以上的技术方案，本发明具有如下的有益效果：

1）可以大大提高用户尤其是学生用户的学习兴趣；

2）检索、学习的便捷性大大提高，可以随时随地的对字、词进行字/词典检索；

3）通过融合AR技术，可以在工作或学习过程中即时的查询字符的含义或释义，从而不影响正常的工作或学习。

附图说明

图1为实施例一本发明字、词典查询方法的流程图；

图2为实施例二本发明字/词典查询系统的系统结构示意图；

图3为实施例三本发明的AR眼镜结构示意图；

图4为利用本发明方法进行操作的选取页一实施例示意图；

图5为本发明选取模块一实施例识别框示意图；

图6为本发明选取模块一实施例识别框示意图；

图7为本发明一实施例识别区域执行放大指令的状态示意图。

具体实施方式

下面结合附图及实施例对本发明进一步进行说明和描述。

实施例一：基于AR技术的字、词典查询方法。

如图1所示，一种基于AR技术的字、词典查询方法，实现方法包括：

10.在AR场景内选取目标字符区域。

在选取目标字符区域之前，先完成字符查询系统与AR场景的融合，利用AR系统将真实场景与虚拟场景进行坐标系对齐，将真实场景与虚拟场景进行渲染融合，坐标系包括原点、一组轴（如用于AR目标的平面中的水平移动的X，用于相同平面中的竖直移动的Y和用于垂直于AR目标平面的移动的Z），以及尺寸（例如：AR目标宽度=0.30m），通过指定用于对应于或构成 AR坐标系的分量的AR目标区参数的期望值来定义 AR目标区。因此，AR系统平台可以使用AR目标区定义中的值来相对于AR坐标系呈现AR内容；AR坐标系还可以简单地称为AR原点，具有Z 轴的坐标系被用于三维AR内容，并且没有Z轴的坐标系被用于二维AR 内容。

在AR场景内选取目标字符区域的方式有多种，包括：

101：手指触发目标识别区域/热键区域，手势点击或触发目标字符区域；或

102：手动绘制识别线或一个识别范围；或

103：手指移动或缩放识别框覆盖目标字符，优选地识别框刚好覆盖目标字符。

所述目标字符区域选取方式101：在增强现实眼镜的显示界面中生成一目标识别区/热键区，获取摄像头通过实时拍摄增强现实眼镜前方的场景而获得的图像，从获取图像计算指尖的深度值、以及图像中指尖的二维坐标；对所述图像中指尖的二维坐标进行转换，并根据转换得到的二维坐标；实时分析指尖的深度值的大小变化情况，以及显示界面中目标识别区/热键区的位置变化情况，以触发目标识别区/热键区，触发目标识别区/热键区后实时的截取目标识别区/热键区的图像传至光学字符识别模块。或

利用摄像头获取指尖的三维信息，将增强现实定位的指尖位置转换为人眼视角下的指尖位置，使融合后的场景与真实场景下的位置更匹配，将确定后的指尖位置与实时拍摄的图像中的字符坐标位置进行匹配完成目标字符的选择。

所述目标字符区域选取方式102：借助深度传感器获取用户手部的深度图像，预先采集用户多个手部样本数据而得到用户手部的形状，用户手部基本都是包含一个手掌部和五个手指的形状，而且，手的各个部位等对应到深度传感器的特征值是不同的，不同的深度特征值可以作为区分可各个部位的空间位置，再根据预先设置的手部形状及深度特征值就可以把手从深度图中分割出来，得到手的大概轮廓，并进一步确定大概轮廓上预置点(即第一位置点)的位置信息，捕捉手的运动轨迹得到对应的位置信息，将运动轨迹的位置信息实时的采集并用线条标识出来，将线条内或线条位置上方的字符图像提取至后台，待利用光学字符识别模块识别出对应的字符。

所述的深度传感器是深度相机，本发明所述的摄像头即一个深度相机，拍摄场景内的图像并传送至后台处理。

所述目标字符区域选取方式103：对识别框进行移动或缩放的方法：

接收手指在AR场景内的手势，判断是移动还是缩放指令。

接收手指对所述识别框的触摸轨迹，将识别框移动至所述触摸轨迹的终点位置。

判断方式为：根据手势读取，单手指或手指间不相对运动则为移动，双指聚拢或分开为缩放，具体地，

当用户想对增强现实中的识别框范围大小进行调整时，可以通过手指触摸屏幕来进行调整，如当用户的两个手指向中间聚集时，为缩小识别框的指令；当用户的两个手指从中间向相反方向滑动时，为放大识别框的指令；接收到的触摸轨迹，即为所述缩放指令。

当用户想对增强现实中的识别框进行移动时，可以通过手指拖动识别框进行，手指点击拖动识别框至目标字符区域以选取目标字符。

所述的识别框，采用透明选择框，通过拖动预设的一个识别框至目标字符区域选取目标字符，所述识别框可以移动、放大或缩小。

如图6所示识别框，在识别框的各边上显示可以进行范围大小调节的点，当识别框形状为矩形时，在该识别框的各边上设有可调节的点（点10、点20、点30、点40)，当拖动点10或点30时，该单点10或30的触摸轨迹作为拉伸指令，根据该移动指令对该单点连接的识别框的边（边2和边4）进行拉伸或缩短，当拖动点20或40时，该单点20或40的触摸轨迹作为拉伸指令，根据该移动指令对该单点连接的识别框的边(边1、边3)进行拉伸或缩短，从而改变识别框的范围大小。

所述识别框也可以改变为其他多边形。

如图7所示识别框，在识别框的拐角处显示可以进行范围大小调节的点，当识别框形状为矩形时，在该识别框的边与边交汇处设有可调节的点（点1、点2、点3、点4)，当拖动点1时，该单点1的触摸轨迹作为拉伸指令，根据该移动指令对该单点连接的识别框的边(边13、边12 )进行拉伸或缩短，当拖动点2时，该单点2的触摸轨迹作为拉伸指令，根据该移动指令对该单点连接的识别框的边(边12、边24)进行拉伸或缩短，当拖动点3时，该单点3的触摸轨迹作为拉伸指令，根据该移动指令对该单点连接的识别框的边(边13、边34)进行拉伸或缩短，当拖动点4时，该单点4的触摸轨迹作为拉伸指令，根据该移动指令对该单点连接的识别框的边(边34、边24)进行拉伸或缩短，从而改变识别框的范围大小以及形状。

优选地，选取目标字符区域后，监测到识别框不再移动或者晃动幅度小于一定阈值，则利用识别模块开始对识别框内的字符进行识别。

如图7所示实施示例，在实际应用时，如果字符难以辨识或者难以选取时，可以将目标字符区域切出执行放大指令或通过手势对目标字符区域等比例放大，以便字符的选取，放大的识别区域可以方便的进行字符选取。

11.识别选取的目标字符区域内的字符或目标字符。

通过光学字符识别技术（OCR）对选取的目标字符区域进行识别，将识别的字符呈现在AR场景中供用户进一步选择或直接返回一个最大可能的识别结果。

如果识别的字符是目标字符，则选择目标字符进行检索操作；如果识别的字符不是目标字符，则重新调整视角进行步骤10。

所述步骤10之前开启AR系统完成字符查询系统和现实场景的融合；AR系统包括虚拟场景生成单元、显示装置、跟踪系统和交互单元，虚拟场景生成单元负责虚拟场景的建模、管理、绘制和其它外设的管理；显示装置负责显示虚拟和现实融合后的信号；跟踪系统跟踪用户视线变化；交互单元用于实现感官信号及环境控制操作信号的输入输出。

步骤11识别的是一个完整字符，不识别不完整的字符，如图4所示实施例，不识别“灵”和“一”。

12.返回查询结果页，呈现在AR场景中。

所述的步骤12，连接对应的数据库对识别的目标字符进行查询操作，将操作的结果页呈现于AR场景内。

所述的操作结果页，采用二维页面或三维页面显示，优选的采用二维页面浮动显示。

所述步骤10和步骤11之间、步骤11中或者步骤11之后还包括接收操作指令；用摄像头捕捉操作指令并返回交互单元，对目标字符进行检索操作。

本发明所述的数据库，也可以是互联网实时检索的数据信息。

本发明所采用的AR系统是现有的AR技术构建的AR系统，AR系统包括微处理器单元、虚拟场景生成单元、显示装置、跟踪系统和交互单元；整个计算利用微处理器单元完成，显示装置采集真实场景的视频或者图像，传入AR平台的虚拟场景生成单元对其进行分析和重构，并结合跟踪系统的数据来分析虚拟场景和真实场景的相对位置，实现坐标系的对齐并进行虚拟场景的融合计算；交互单元采集外部控制信号，实现对虚实融合场景的交互操作，系统融合后的信息会实时地显示在显示装置中，展现在人的视野中。

实施例二：基于增强现实的字、词典查询系统。

见图2，一种基于增强现实的字、词典查询系统，包括选取模块201、识别模块202、查询模块203、输出模块204、数据库模块205。

所述的选取模块201，用来选取增强现实场景中的目标字符区域。

所述的识别模块202，用来对选取模块选取的目标字符区域的字符进行识别。

所述的查询模块203，接收查询指令，根据识别模块202识别得到的目标字符从数据库中查询对应的信息。

所述的输出模块204，将查询到的信息输出，利用AR系统呈现在增强现实场景中。

所述的数据库模块205，存储有字符对应的数据信息，供用户查询。

还可以包括监测模块（图中未标示），用来监测识别框的晃动幅度。

选取模块201选取AR场景内的目标字符区域并发送至后台的识别模块202，识别模块202把识别出来的字符输出，用户选择目标字符查询模块203从数据库模块205内查询对应数据，通过输出模块204输出呈现在AR场景中，数据库模块205是利用现有简易数据库技术构建的一个或多个数据库。

实施例三：利用本发明方法进行字、词典查询的AR眼镜。

如图3所示，一种利用本发明方法进行字符查询的AR眼镜，包括镜架2、镜片3、摄像头4、主机1、数据库，镜片3安装于镜架2上或与镜架2一体成型，主机1设置于镜架2上，主机1内预装有字符查询系统和AR平台，摄像头4安装于镜架2或镜片上并与主机1相连，数据库内置于字符查询系统内或存储于服务器或云端。

所述的AR眼镜，设置有无线上网模块或蓝牙模块，可以通过通信协议与外部网络实现通信，用于汉语或外语的字、词在线查询。

所述镜片，是一个显示装置，采用光学显示镜片，用来显示视线内的AR场景。

所述的镜片，其上可以根据需要附加一层近视镜片或远视镜片，不用于字符查询时，可以有其他用途。

所述摄像头，至少为一个，摄像头还配置有闪光灯。

主机开启后，字符查询系统进入字符的选取界面。

所述的主机，其上设置有USB接口，可以充电和存读数据。

通过摄像头采集真实场景的视频或者图像，传入AR平台的虚拟场景生成单元对其进行分析和重构，并结合跟踪系统的数据来分析虚拟场景和真实场景的相对位置，实现坐标系的对齐并进行虚拟场景的融合计算；交互单元采集外部控制信号，实现对虚实融合场景的交互操作，系统融合后的信息会实时地显示在显示装置中，展现在的AR视野中；打开主机开启字符查询系统，AR场景内选取目标字符、识别字符、查询操作、返回操作结果页，完成字符的查询。

所述的AR眼镜，其进行字符查询的方法为：

打开主机电源，开启字符查询系统或客户端，完成虚实场景融合。

选取模块在AR场景内选取目标字符区域。

识别模块采用光学字符识别技术识别选取的识别框内的字符。

用摄像头捕捉手势操作指令，接收识别的目标字符的操作指令，利用字符查询系统对字符进行查字、查词等查询操作。

将查询操作的结果页利用光学显示镜片呈现在AR场景中。

所述数据库为字典、词典、语料库、知识库等数据库中的一种或多种，可以内置于字符查询系统内也可以外置于服务器或云端。

实施例四：利用本发明方法进行汉字的字典检索。

手指移动或缩放识别框101选取目标汉字，识别识别框内完整的汉字，见图4，将识别的汉字执行字典检索操作，对字典数据库进行目标汉字的查字检索，将查字检索结果页返回呈现在AR场景中。

手指触发AR场景内处于热键区中的目标汉字，识别热键区内的目标汉字，将识别的目标汉字执行字典检索操作，对字典数据库进行目标汉字的查字检索，将查字检索结果页返回，通过显示装置实时的呈现在AR场景中。

实施例五：利用本发明方法进行英语的词典检索。

手指触及热区内的英语单词，或手动绘制一个识别范围覆盖目标英语单词，识别范围内需是完整的目标英语单词，将识别的英语单词执行词典检索操作，对词典数据库进行目标英语单词的查词检索，将查词检索结果页返回，通过显示装置实时的呈现在AR场景中。

实施例六：利用AR眼镜进行字、词典检索。

在阅读过程中，尤其是学生，常会遇到不认识的汉字或单词，此种情况下：

打开AR眼镜上的主机，启动字、词典查询系统按本发明的方法进行查询操作，通过内置的数据库或无线网络连接的外置数据库，获得对应的信息页，通过显示装置实时的呈现在AR场景中。

AR眼镜结构设计上可以有各种变化，本发明所设计的AR眼镜可以进行字、词典查询，通过预装的字、词典查询系统或字、词典查询客户端实现字、词典的AR查询，查询方式新颖、流程简化、查询便利、趣味性高。

本发明所采用的方法，选取和识别目标字符的方式也可以有多种变化，如采用语音进行目标字符的选取、识别等等，在此也不再说明和描述。

以上所述实施例仅是本发明的示例性实施例，仅用于帮助本领域普通技术人员理解本发明，并不用于限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于AR技术的字、词典查询方法，包括：

10.在AR场景内选取目标字符区域；

11.利用OCR技术识别选取的目标字符区域内的字符；

12.返回查询结果页，呈现在AR场景中。

2.根据权利要求1所述的一种基于AR技术的字、词典查询方法，其特征在于，在AR场景内选取目标字符区域的方式为：

手指触发目标识别区域/热键区域，手势触击目标字符区域；或

手动绘制识别范围；或

手指移动或缩放识别框覆盖目标字符。

3.根据权利要求1所述的一种基于AR技术的字、词典查询方法，其特征在于，在AR场景内选取目标字符区域的方式为：

在增强现实眼镜的显示界面中生成一目标识别区/热键区，获取摄像头通过实时拍摄增强现实眼镜前方的场景而获得的图像，从获取图像计算指尖的深度值以及图像中指尖的二维坐标；对所述图像中指尖的二维坐标进行转换，并根据转换得到的二维坐标；实时分析指尖的深度值的大小变化情况，以及显示界面中目标识别区/热键区的位置变化情况，触发目标识别区/热键区，实时的截取目标识别区/热键区的图像；或

利用摄像头获取指尖的三维信息，将增强现实定位的指尖位置转换为人眼视角下的指尖位置，使融合后的场景与真实场景下的位置更匹配，将确定后的指尖位置与实时拍摄的图像中的字符坐标位置进行匹配完成目标字符的选择；或

借助深度传感器获取用户手部的深度图像，预先采集用户多个手部样本数据而得到用户手部的形状，根据预先设置的手部形状及深度特征值就可以把手从深度图中分割出来，并进一步确定大概轮廓上预置点的位置信息，捕捉手的运动轨迹得到对应的位置信息，将运动轨迹的位置信息实时的采集并用线条标识出来，将线条内或线条位置上方的字符图像提取至后台；或

接收手指在AR场景内的手势，判断是移动还是缩放指令；

接收手指对所述识别框的触摸轨迹，将识别框移动或缩放至目标字符区域即触摸轨迹的终点位置；

所述判断方法为：单手指或手指间不相对运动则为移动，双指聚拢或分开为缩放。

4.根据权利要求2或3所述的一种基于AR技术的字、词典查询方法，其特征在于，所述的识别框各边中间或边与边连接处设置有可调节的点，通过移动调节这些点，实现识别框的放大或缩小。

5.根据权利要求1所述的一种基于AR技术的字、词典查询方法，其特征在于，所述的操作结果页，采用二维页面或三维页面浮动显示。

6.根据权利要求1所述的一种基于AR技术的字、词典查询方法，其特征在于，用于查询的数据库内置于字符查询系统内或存储于服务器或云端，可以是字典、词典、网络词典、语料库、知识库等中的一种或多种。

7.根据权利要求1所述的一种基于AR技术的字、词典查询方法，其特征在于，本发明用于在AR场景内对字符进行查字典、查词典。

8.根据权利要求1所述的一种基于AR技术的字、词典查询方法，其特征在于，本发明即可以离线查询，也可以在线连接网络查询。

9.一种基于增强现实的字、词典查询系统，其特征在于，包括选取模块、识别模块、查询模块、输出模块、数据库模块；

所述选取模块，用来选取增强现实场景中的目标字符区域；

所述数据库模块，存储有字符对应的数据信息，供用户查询；

选取模块（201）选取AR场景内的目标字符区域并发送至后台的识别模块（202），识别模块(202)把识别出来的字符输出，用户选择目标字符查询模块(203)从数据库模块(205)内查询对应数据，通过输出模块(204)输出呈现在AR场景中。

10.一种利用权1所述方法进行字、词典查询的AR眼镜，包括镜架、镜片、摄像头、主机、数据库，镜片安装于镜架上或与镜架一体成型，主机设置于镜架上，摄像头安装于镜架或镜片上并与主机相连，其特征在于，主机内预装有字、词典查询系统，数据库内置于字、词典查询系统内或存储于服务器或云端，AR眼镜还设置有无线上网模块或蓝牙模块。