CN113272873A - 用于增强现实的方法和设备 - Google Patents
用于增强现实的方法和设备 Download PDFInfo
- Publication number
- CN113272873A CN113272873A CN201980081812.4A CN201980081812A CN113272873A CN 113272873 A CN113272873 A CN 113272873A CN 201980081812 A CN201980081812 A CN 201980081812A CN 113272873 A CN113272873 A CN 113272873A
- Authority
- CN
- China
- Prior art keywords
- information
- unit
- user
- image
- auxiliary information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1475—Inclination or skew detection or correction of characters or of image to be recognised
- G06V30/1478—Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/274—Converting codes to words; Guess-ahead of partial word inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/36—Matching; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本公开提供一种增强现实系统(200),其中,所述增强现实系统包括输入单元(204)、文本识别单元(206)、自然语言处理单元(208)、定位单元(210)和输出单元(212)。输入单元(204)捕获图像。文本识别单元(206)识别所述图像中描绘的表面上的信息,并基于所述信息生成输入数据。自然语言处理单元(208)确定所述输入数据的上下文并基于所述上下文生成至少一条辅助信息。定位单元(210)基于所述图像确定一个或更多个空间属性,并基于所述空间属性生成定位信息。输出单元(212)基于所述定位信息显示所述辅助信息。
Description
技术领域
本公开总体上涉及增强现实,并且具体地但非排它地涉及用于在增强现实系统中书写时辅助用户的设备和方法。
背景技术
书写作为一种艺术自公元前3200年以来一直被人类珍视。用于书写的工具从史前时代开始已经有很大发展。现代书写工具(诸如钢笔、纸和铅笔)在当今被人们广泛使用。然而,书写的体验仍然保持不变。当用笔和纸书写时,常用于在键盘上打字的诸如拼写校正和词预测的特殊功能是不可用的。这些特征的可用性促使大多数用户更喜欢打字而不是书写。
然而,触控笔和笔与智能电话和平板电脑的集成使得书写重新普及。此外,在世界主要地区,书写仍然是学校作业和考试的优选交流模式。已经尝试了几种常规技术来在用笔和纸书写时为用户提供上述特殊功能。
一种常规技术是检测语法错误和拼写错误并相应地向用户提供警报的智能笔。智能笔使用移动检测来识别由用户书写的字符和词。然而,警报是通过振动提供的,因此对于用户来说不直观。智能笔使用昂贵的硬件,因此对于大量的人来说在经济上是不可行的。智能笔一次仅检查一个错误。因此,当书写中存在大量错误时,智能笔可能漏掉一个或更多个错误。此外,智能笔不提供对错误的视觉指示,从而使得用户极难识别错误。
另一种智能笔允许用户以大笔迹书写词并检查词的拼写。智能笔具有通过按钮或通过语音识别进行操作的内置显示器。当用户向智能笔的麦克风说出词时,词被显示在智能笔的显示器上。智能笔还在显示器上显示手写词的含义和拼写。然而,智能笔不推荐或建议词。智能笔依赖于用户的正确发音。智能笔在错误的情况下不通知用户。智能笔打断了书写的自然流畅。
另一种智能笔对手写内容进行数字化。智能笔记录手写内容并将记录上传到计算机或智能电话。此后,智能笔将其与记录的音频同步。这允许用户通过敲击他们在记录进行时正在书写的手写文本来重放记录的部分。然而,智能笔不是可行的解决方案,因为它在普通表面上不工作并且需要特殊的纸来书写。智能笔仅对手写内容进行数字化。智能笔体积庞大,重量比普通圆珠笔重五倍。与普通圆珠笔相比,智能笔是昂贵的。
没有在用普通笔在普通纸上书写时提供书写辅助的常规技术。
因此,需要一种在书写时向用户提供辅助的系统。
发明内容
技术问题
本公开的一方面在于提供一种在增强现实系统中的用于在书写时辅助用户的设备和方法。
技术方案
本公开提供了介绍与用于增强现实的系统和方法相关的构思。本公开既不旨在识别本公开的必要特征,也不旨在用于确定或限制本公开的范围。
在本公开的实施例中,提供一种增强现实系统。所述增强现实系统包括输入单元、文本识别单元、自然语言处理单元、定位单元和输出单元。输入单元被配置为捕获图像。文本识别单元被配置为识别图像中描绘的表面上的信息。文本识别单元基于所述信息生成输入数据。自然语言处理单元被配置为确定输入数据的上下文。自然语言处理单元基于上下文生成至少一条辅助信息。定位单元被配置为基于图像确定一个或更多个空间属性。定位单元基于空间属性生成定位信息。输出单元被配置为基于定位信息显示辅助信息。
在本公开的另一实施例中,提供一种增强现实服务器。所述增强现实服务器包括输入单元、文本识别单元、自然语言处理单元、定位单元和输出单元。输入单元被配置为接收图像。文本识别单元被配置为识别图像中描绘的表面上的信息。文本识别单元基于所述信息生成输入数据。自然语言处理单元被配置为确定输入数据的上下文。自然语言处理单元基于上下文生成至少一条辅助信息。定位单元被配置为基于图像确定一个或更多个空间属性。定位单元基于空间属性生成定位信息。输出单元被配置为发送辅助信息和定位信息。
在本公开的另一实施例中,提供一种增强现实方法。所述增强现实方法在增强现实系统中被实现。所述增强现实方法包括捕获图像并识别图像中描绘的表面上的信息。所述方法还包括确定输入数据的上下文并基于上下文生成至少一条辅助信息。此后,基于图像确定一个或更多个空间属性。基于空间属性生成定位信息。基于定位信息显示辅助信息。
在示例性实施例中,空间属性包括以下项中的至少一项:所述增强现实系统与所述表面之间的角度、所述增强现实系统与所述表面之间的距离、以及所述增强现实系统与所述表面之间的视场中的障碍物。
在另一示例性实施例中,定位单元还被配置为基于所述距离、所述角度和设置的平面来确定位置。定位单元基于以下项中的至少一项来确定样式:辅助信息、所述距离、所述角度、所述信息的背景和预定义的样式偏好。定位单元还生成指示所述平面、所述位置和所述样式中的至少一个的定位信息。
在另一示例性实施例中,定位单元还被配置为将所述角度与预定阈值角度进行比较。如果所述角度小于所述阈值角度,则定位单元设置二维平面,并且如果角度不小于所述阈值角度,则定位单元设置三维平面。
在另一示例性实施例中,自然语言处理单元还被配置为基于输入数据的上下文来确定辅助信息的类型。自然语言处理单元基于输入数据的上下文来确定辅助信息的内容。此外,自然语言处理单元生成辅助信息。辅助信息包括所述类型和所述内容。
在另一示例性实施例中,辅助信息的类型包括以下项中的一项或更多项:文本、音频、视频、图像和动画。
在另一示例性实施例中,辅助信息的内容包括以下项中的一项或更多项:上下文相关信息、所述信息的解释、文本校正、文本预测、语法错误、句法错误和抄袭的指示。
在示例性实施例中,所述增强现实系统是头戴式装置和手持式装置中的至少一个。
在示例性实施例中,所述表面包括非数字书写表面。
在另一示例性实施例中,所述表面包括用户设备的数字显示器。
在另一示例性实施例中,所述增强现实系统还包括与用户设备进行通信的通信单元。通信单元被配置为:从用户设备接收用户输入。通信单元基于用户输入将辅助信息发送到用户设备。
在另一示例性实施例中,笔迹重建单元被配置为检测所述信息的笔迹样式并重建笔迹样式。
在另一示例性实施例中,样式包括以下项中的一项或更多项:大小、字体和视觉效果。
在另一示例性实施例中,辅助信息以所述笔迹样式的形式被显示。
在另一示例性实施例中,所述增强现实系统还包括用户交互单元。用户交互单元被配置为检测指示与辅助信息或与图像中描绘的表面上的信息的交互的一个或更多个用户手势。此外,用户交互单元促使基于用户手势显示更新的辅助信息。
在另一示例性实施例中,所述信息是以下项中的至少一项:手写信息、打印信息、电子显示信息和虚拟投影信息。
在另一示例性实施例中,输入单元实时捕获多个图像。
在另一示例性实施例中,定位单元基于实时的图像动态地更新定位信息。
有益效果
本公开的各种实施例提供提高通过电子装置作笔记的用户的便利性的效果。
附图说明
参照附图描述了详细描述。在整个附图中使用相同的标号来指相同的特征和模块。
图1是根据本公开的实施例的增强现实(AR)系统的示意性框图。
图2是根据本公开的实施例的AR系统的示意性框图。
图3是根据本公开的实施例的AR服务器的示意性框图。
图4是根据本公开的实施例的自然语言处理单元的示意性框图。
图5是根据本公开的实施例的定位单元的示意性框图。
图6是示出根据本公开的实施例的错误校正的方法的流程图。
图7是示出根据本公开的实施例的词预测的方法的流程图。
图8是示出根据本公开的实施例的词推荐的方法的流程图。
图9是示出根据本公开的实施例的AR方法的流程图。
图10是示出根据本公开的实施例的地图点的提取的图形表示。
图11是示出根据本公开的实施例的错误突出显示和校正显示的技术的图形表示。
图12A至图12C是示出根据本公开的实施例的改变辅助信息的样式的图形表示。
图13是示出根据本公开的实施例的上下文词预测的技术的图形表示。
图14是示出根据本公开的实施例的以3D格式显示词预测的技术的图形表示。
图15是示出根据本公开的实施例的突出显示不同错误并以用户的书写样式显示相应的校正的技术的图形表示。
图16是示出根据本公开的实施例的相似性检查的技术的图形表示。
图17是示出根据本公开的实施例的检查重复信息的技术的图形表示。
图18是示出根据本公开的实施例的通过虚拟网格线和边距向用户提供书写辅助的技术的图形表示。
图19是示出根据本公开的实施例的向用户显示可读性度量的技术的图形表示。
图20是示出根据本公开的实施例的在数字表面上向用户同时显示词推荐和错误校正的技术的图形表示。
图21是示出根据本公开的实施例的交互式辅助信息的图形表示。
图22A至图22B是示出根据本公开的实施例的显示三维(3D)辅助信息的技术的图形表示。
图23A至图23B是示出根据本公开的实施例的显示交互式辅助信息的技术的图形表示。
本领域技术人员应理解,本文中的任何框图表示实现本公开的原理的例示性系统的构思示图。
类似地,将理解,任何流程图、流示图等表示可基本上在计算机可读介质中表示并且因此由计算机或处理器执行的各种处理,无论这样的计算机或处理器是否被明确示出。
具体实施方式
在以下描述中,出于解释的目的,阐述了具体细节以便提供对本公开的理解。然而,对于本领域技术人员将清楚的是,可在没有这些细节的情况下实践本公开。本领域技术人员将认识到,本公开的实施例(其中,一些实施例在下面被描述)可被合并到多个系统中。
此外,附图中的组件和/或模块之间的连接不旨在限于直接连接。相反,这些组件和模块可被修改、重新格式化或通过中间组件和模块以其它方式被改变。
本公开中对“一个实施例”或“实施例”的引用意味着结合实施例描述的特定特征、结构、特性或功能被包括在本发明的至少一个实施例中。在说明书的各种地方中出现的短语“在一个实施例中”不一定都指同一实施例。
本公开的各种实施例提供一种用于增强现实的系统和方法。
在本公开的实施例中提供一种增强现实系统。所述增强现实系统包括输入单元、文本识别单元、自然语言处理单元、定位单元和输出单元。输入单元被配置为捕获图像。文本识别单元被配置为识别图像中描绘的表面上的信息。文本识别单元基于所述信息生成输入数据。自然语言处理单元被配置为确定输入数据的上下文。自然语言处理单元基于上下文生成至少一条辅助信息。定位单元被配置为基于图像确定一个或更多个空间属性。定位单元基于空间属性生成定位信息。输出单元被配置为基于定位信息显示辅助信息。
在本公开的另一实施例中提供一种增强现实服务器。所述增强现实服务器包括输入单元、文本识别单元、自然语言处理单元、定位单元和输出单元。输入单元被配置为接收图像。文本识别单元被配置为识别图像中描绘的表面上的信息。文本识别单元基于所述信息生成输入数据。自然语言处理单元被配置为确定输入数据的上下文。自然语言处理单元基于上下文生成至少一条辅助信息。定位单元被配置为基于图像确定一个或更多个空间属性。定位单元基于空间属性生成定位信息。输出单元被配置为发送辅助信息和定位信息。
在本公开的另一实施例中提供一种增强现实方法。所述增强现实方法在增强现实系统中被实现。所述增强现实方法包括捕获图像并识别图像中描绘的表面上的信息。所述方法还包括确定输入数据的上下文并基于上下文生成至少一条辅助信息。此后,基于图像确定一个或更多个空间属性。基于空间属性生成定位信息。基于定位信息显示辅助信息。
空间属性包括以下项中的至少一项:所述增强现实系统与所述表面之间的角度、所述增强现实系统与所述表面之间的距离、以及所述增强现实系统与所述表面之间的视场中的障碍物。
定位单元还被配置为基于所述距离、所述角度和设置的平面来确定位置。定位单元基于以下项中的至少一项来确定样式:辅助信息、所述距离、所述角度、所述信息的背景和预定义的样式偏好。定位单元还生成指示所述平面、所述位置和所述样式中的至少一个的定位信息。定位单元还被配置为将所述角度与预定阈值角度进行比较。如果所述角度小于阈值角度,则定位单元设置二维平面,并且如果所述角度不小于阈值角度,则定位单元设置三维平面。
自然语言处理单元还被配置为基于输入数据的上下文来确定辅助信息的类型。自然语言处理单元基于输入数据的上下文来确定辅助信息的内容。此外,自然语言处理单元生成辅助信息。辅助信息包括所述类型和所述内容。
辅助信息的类型包括以下项中的一项或更多项:文本、音频、视频、图像和动画。辅助信息的内容包括以下项中的一项或更多项:上下文相关信息、所述信息的解释、文本校正、文本预测、语法错误、句法错误和抄袭的指示。
所述增强现实系统是头戴式装置和手持式装置中的至少一个。在示例中,所述表面包括非数字书写表面。在另一示例中,所述表面包括用户设备的数字显示器。
所述增强现实系统还包括与用户设备进行通信的通信单元。通信单元被配置为:从用户设备接收用户输入。通信单元基于用户输入将辅助信息发送到用户设备。
笔迹重建单元被配置为检测所述信息的笔迹样式并重建所述笔迹样式。所述样式包括以下项中的一项或更多项:大小、字体和视觉效果。在示例中,辅助信息以所述笔迹样式的形式被显示。
所述增强现实系统还包括用户交互单元。用户交互单元被配置为检测指示与辅助信息或与图像中描绘的所述表面上的所述信息的交互的一个或更多个用户手势。此外,用户交互单元促使基于用户手势显示更新的辅助信息。
在示例中,所述信息是以下项中的至少一项:手写信息、打印信息、电子显示信息和虚拟投影信息。
输入单元实时捕获多个图像。定位单元基于实时图像动态地更新定位信息。
现在参照图1,示出了根据本公开的实施例的增强现实(AR)系统(100)的示意性框图。AR系统(100)包括应用处理单元(102)、通信模块(104)、输入装置(106)、显示器(108)、接口(110)、多个传感器(112)、存储器(114)、音频模块(116)、电力管理模块(118)、电池(120)、用户识别模块(SIM)卡(122)、扬声器(124)、受话器(126)、耳机(128)、麦克风(130)、相机模块(132)、指示器(134)和电机(136)。
通信模块(104)包括蜂窝模块(138)、Wi-Fi模块(140)、蓝牙(BT)模块(142)、全球导航卫星系统(GNSS)模块(144)、近场通信(NFC)模块(146)和射频(RF)模块(148)。
输入装置(106)包括触摸面板(150)、笔传感器(152)、键(154)和手势输入(156)。
显示器(108)包括面板(158)和投影仪(160)。
接口(110)包括高清晰度多媒体接口(HDMI)(164)、光学接口(166)和通用串行总线(USB)(168)。
传感器(112)包括手势传感器(112a)、陀螺仪传感器(112b)、大气压力传感器(112c)、磁性传感器(112d)、握持传感器(112e)、加速度传感器(112f)、接近传感器(112g)、RGB传感器(112h)、光传感器(112i)、生物特征传感器(112j)、温度/湿度传感器(112k)、UV传感器(112l)。
存储器(114)包括内部存储器(170)和外部存储器(172)。
应用处理单元(102)包括文本识别单元(174)、自然语言处理单元(176)、定位单元(178)和笔迹重建单元(162)。在示例中,定位单元(178)被实现为同步定位和地图构建(SLAM)模块。
现在参照图2,示出了根据本公开的实施例的增强现实(AR)系统(200)的示意性框图。AR系统(200)包括处理单元(202)、输入单元(204)、文本识别单元(206)、自然语言处理单元(208)、定位单元(210)、输出单元(212)、通信单元(214)、用户交互单元(216)和笔迹重建单元(218)。
AR系统(200)可以是诸如眼镜的头戴式装置或诸如智能电话的手持式装置的形式。在示例中,当读取在任何数字或非数字表面上书写或打印的文本信息时,或者当在表面上书写文本信息时,用户佩戴智能眼镜形式的AR系统(200)。在另一示例中,用户使用智能电话形式的AR系统(200)来查看表面上呈现的信息。
AR系统(200)的示例包括用于接收现实世界或物理环境的实况视频的装置。AR系统(200)包括能够支持AR显示器的电子装置,包括但不限于个人计算机、移动电话、电子平板电脑、游戏控制台、媒体播放器等。在一些实施方式中,AR系统(200)可以是具有触敏表面的电子平板电脑或电子智能电话。
输入单元(204)包括用于实时地动态捕获表面的图像的传感器。在示例中,输入单元(204)是与AR系统(200)连接的相机。可选地,输入单元(204)可捕获一系列图像或实时视频。输入单元(204)将图像发送到文本识别单元(206)。
文本识别单元(206)从输入单元(204)接收图像。文本识别单元(206)处理图像以识别表面和表面上呈现的信息。可在表面上打印、书写、投影、压刻或绘制信息。信息可以是手写的或手绘的。信息可存在于无源表面(诸如纸)或有源表面(诸如数字显示器)上。文本识别单元(206)基于信息生成输入数据。例如,文本识别单元(206)识别表面上呈现的词,并且使用字符识别方法来生成指示表面上呈现的词的文本串作为输入数据。在示例中,输入数据是文本或字符串格式。文本识别单元(206)将输入数据发送到自然语言处理单元(208)。
自然语言处理单元(208)接收输入数据并确定输入数据的上下文。在示例中,当输入信息包含与单个主题(诸如,“污染”)相关的词时,自然语言处理单元(208)确定输入信息的上下文可能是关于“污染”主题的笔记或文章。自然语言处理单元(208)基于上下文生成一个或更多个辅助信息。辅助信息包括辅助信息的类型和辅助信息的内容。自然语言处理单元(208)基于输入数据的上下文来确定辅助信息的类型和内容。辅助信息的类型包括文本、音频、视频、图像和动画。本领域普通技术人员将理解,辅助信息不限于上述类型,并且还可包括其它数据格式。辅助信息的内容包括但不限于上下文相关信息、信息的解释、文本校正、文本预测、语法错误、句法错误、相似性指示、文本投影以及与上下文相关的附加信息。例如,在上述示例中,自然语言处理单元(208)将辅助信息的类型确定为文本,并且将辅助信息的内容确定为词“污染”的词典含义。自然语言处理单元(208)将辅助信息发送到输出单元(212)。
定位单元(210)从输入单元(204)接收图像,并基于图像确定一个或更多个空间属性。空间属性的示例包括增强现实系统与表面之间的角度、增强现实系统与表面之间的距离以及增强现实系统与表面之间的视场中的障碍物。定位单元(210)基于空间属性生成定位信息。定位信息指示用于显示辅助信息的位置、平面和样式。
在示例性实施例中,定位单元(210)将角度与预定阈值角度进行比较。如果角度小于阈值角度,则定位单元(210)设置二维平面。如果角度不小于阈值角度,则定位单元(210)设置三维平面。例如,当定位单元(210)设置三维平面时,以三维(3D)方式显示辅助信息,并且当定位单元(210)设置二维平面时,以二维(2D)方式显示辅助信息。
定位单元(210)基于距离、角度和平面来确定位置。定位单元(210)基于以下项中的至少一项来确定样式:辅助信息、距离、角度、信息的背景和预定义的样式偏好。样式包括大小、字体和辅助信息的视觉效果。此后,定位单元(210)生成指示平面、位置和样式的定位信息。定位单元(210)将定位信息发送到输出单元(212)。
输出单元(212)接收来自定位单元(210)的定位信息和来自自然语言处理单元(208)的辅助信息。基于定位信息,输出单元(212)向用户显示辅助信息。在示例性实施例中,输出单元(212)通过经由智能眼镜将信息投影给用户来虚拟地显示辅助信息。
在实施例中,表面是数字显示器,诸如用户设备的触摸屏显示器。通信单元(214)被配置为与用户设备无线通信。通信单元(214)从用户设备接收用户输入,并基于用户输入将辅助信息发送给用户。在示例中,用户设备可向AR系统(200)通信地传送指示提供与显示的辅助信息相关的进一步信息的用户输入。在另一示例中,用户设备可向AR系统(200)通信地传送指示打开或关闭辅助信息的显示的用户输入。
用户交互单元(216)将用户做出的一个或更多个手势检测为与辅助信息或与表面上呈现的信息的交互。用户交互单元(216)基于检测到的手势来更新辅助信息,并向用户显示更新的辅助信息。
笔迹重建单元检测用户的笔迹并重建用户的笔迹。此后,AR系统(200)以用户的笔迹显示辅助信息。
AR系统(200)实时进行操作。输入单元(204)实时捕获图像。定位单元(210)基于实时图像动态地更新定位信息。因此,辅助信息被动态定位。在示例中,辅助信息的位置与用户的位置或视角的移动或改变同步。
现在参照图3,示出了根据本公开的另一实施例的AR服务器(304)的示意性框图。AR服务器(304)与用户装置(302)进行通信。用户装置(302)包括输入单元(306)、输出单元(308)、通信单元(310)和处理单元(312)。AR服务器(304)包括自然语言处理单元(312)、用户交互单元(314)、文本识别单元(316)、定位单元(318)、输入/输出单元(320)、处理单元(322)和笔迹重建单元(324)。
AR服务器(304)通过有线、无线或蜂窝通信网络(诸如但不限于Wi-Fi、蓝牙和长期演进(LTE))与用户装置(302)进行通信。用户装置(302)的示例包括智能眼镜。可由用户在表面上书写信息时使用用户装置(302)。
用户装置的输入单元(306)包括用于实时地动态地捕获表面的图像的传感器。在示例中,输入单元(306)是与用户装置(302)连接的相机。可选地,输入单元(306)可捕获一系列图像或实时视频。用户装置(302)经过通信单元(310)将图像发送到AR服务器(304)。
AR服务器(304)通过输入/输出单元(320)接收图像。文本识别单元(316)处理图像以识别表面和表面上呈现的信息。文本识别单元(316)基于该信息生成输入数据。例如,文本识别单元(316)识别表面上呈现的词,并且使用字符识别方法来生成指示表面上呈现的词的文本串作为输入数据。在示例中,输入数据是文本或字符串格式。文本识别单元(316)将输入数据发送到自然语言处理单元(312)。
自然语言处理单元(312)接收输入数据并确定输入数据的上下文。自然语言处理单元(312)基于上下文生成一个或更多个辅助信息。辅助信息包括辅助信息的类型和辅助信息的内容。自然语言处理单元(312)基于输入数据的上下文来确定辅助信息的类型和内容。自然语言处理单元(312)将辅助信息发送到输入/输出单元(320)。
定位单元(318)基于图像确定空间属性。定位单元(318)基于空间属性生成定位信息。定位信息指示用于显示辅助信息的位置、平面和样式。在实施例中,定位单元(318)在结构上和功能上类似于定位单元(210)。
输入/输出单元(320)接收来自定位单元(318)的定位信息和来自自然语言处理单元(312)的辅助信息。输入/输出单元(320)将定位信息和辅助信息发送到用户装置(302)。
用户装置(302)接收定位信息和辅助信息。用户装置(302)通过输出单元(308)基于接收到的定位信息向用户显示辅助信息。
现在参照图4,示出了根据本公开的实施例的自然语言处理单元(208、312)的示意性框图。自然语言处理单元(208、312)包括存储器(402)、语言检测单元(404)、上下文检测单元(406)、数据库更新器单元(408)、错误检测和校正单元(410)、词预测单元(412)和词推荐单元(414)。存储器(402)存储词典(416)和语法规则(418)。
语言检测单元(404)接收输入数据并检测输入数据的语言。在示例中,语言检测单元(404)确定输入数据的词汇和输入数据的语言特性,并与存储在存储器(402)中的词典(416)和语法规则(418)进行比较,并基于比较来确定语言。
上下文检测单元(406)确定输入数据的上下文。输入数据的上下文的示例包括但不限于与输入数据相关的概念、事件或陈述。在示例中,上下文检测单元(406)确定相似性度量和PoS(词性)标记以确定输入数据的上下文。上下文检测单元(406)可用于向用户提供个性化推荐。
错误检测和校正单元(410)处理输入数据以确定输入数据中的错误或差错,诸如语法错误、标点符号错误、样式错误和拼写错误。此后,错误检测和校正单元(410)确定针对识别出的错误或差错的一个或更多个校正。在示例中,错误检测和校正单元(410)还向用户提供虚拟边距或虚拟网格线,以用于提供书写辅助。在示例中,辅助信息是虚拟边距或虚拟网格线的形式。
词预测单元(412)预测用户正在表面上书写的词。在示例中,词预测单元(412)基于用户的书写历史和/或输入数据的上下文来预测词。
词推荐单元(414)基于输入数据推荐词。推荐的词可以是用户正在书写的句子中紧接着的下一个词。词推荐单元(414)可基于用户的书写历史和/或输入数据的上下文来推荐词。
数据库更新器单元(408)更新存储在存储器(402)中的词典(416)。在示例中,数据库更新器单元(408)通过向远程服务器查询词汇更新来更新词典(416)。在可选的示例中,远程服务器将词汇更新推送到数据库更新器单元(408)。数据库更新器单元(416)还可用用户定义的词更新词典(416)。
在本公开的实施例中,自然语言处理单元(208)提供以下校正:拼写校正、语法校正和样式校正。对于拼写校正,自然语言处理单元(208)在词典(416)中搜索提取的词,并且相应地通过输出单元(212)突出显示拼写错误和正确的拼写。对于语法校正,自然语言处理单元(208)检查提取的完整句子是否遵循语法规则(418)。如果自然语言处理单元(208)确定输入数据中存在任何语法错误,则通过输出单元(212)突出显示错误和校正。对于样式校正,自然语言处理单元(208)检查输入数据中存在的样式错误。样式错误的示例包括在句子中的时态之间的切换、相等句子长度(单调)等。自然语言处理单元(208)还检测用户是否需要确定外边距或网格线以使词彼此更加对齐的辅助。
在本公开的另一实施例中,自然语言处理单元(208)执行词预测。在词预测中,自然语言处理单元(208)检测不完整的词并预测用户正在书写的完整的词。这里,已知词以树数据结构(例如,搜索树(关键字通常是字符串的用于存储动态集合或关联数组的有序树数据结构))的形式被存储在存储器(402)内的数据库中。树中节点的位置定义了相应的关键字。当用户书写字符时,在数据库中搜索与字母相应的词。由于可存在与书写的字母相应的多个词,因此已经书写的输入数据的上下文用于减小搜索空间并过滤掉与用户不相关的词。有时,用户可能不正确地拼写词,这可能导致不正确的词预测或甚至根本没有预测。在这种情况下,使用模糊匹配/搜索。当找到输入数据的部分与先前翻译的数据库中的条目之间的对应关系时,模糊匹配/搜索以可能低于100%完美的匹配起作用。设置阈值百分比值,并且当未找到精确匹配时,自然语言处理单元(208)搜索超过阈值百分比值的匹配。
在本公开的另一实施例中,自然语言处理单元(208)向用户提供词推荐以智能地推荐句子中下一个可被书写的词。这里,根据由上下文检测单元(406)确定的输入数据的上下文来推荐词。基于输入数据的上下文,自然语言处理单元(208)搜索数据库以获取遵循语言的语法的相关词。自然语言处理单元(208)可使用诸如N-Gram模型、Unigram模型/有限状态自动机(FSA)或神经语言模型的模型来提供词推荐。
N-Gram模型尝试基于句子中的(n-1)个先前词来猜测句子中的下一个词。该模型猜测没有任何上下文的给定词的概率以及给定了最近的(n-1)个词的词的概率。二元模型和三元模型分别表示n=2和n=3的n-gram模型。
一元模型/有限状态自动机(FSA)是N-Gram模型的特殊情况,其中,n=1。在信息检索中使用的一元模型可被视为若干FSA的组合。这里,每个词的概率取决于该词在文档中自身的概率。
Puni(t1t2t3)=P(t1)P(t2)P(t3)
神经语言模型也被称为连续空间语言模型。神经语言模型使用词的连续表示或嵌入来使用神经网络进行预测。神经网络以分布式方式将词表示为神经网络中的权重的非线性组合,并且被训练为在给定一些语言上下文的情况下预测词汇上的概率分布。神经网络架构可以是前馈的或递归的。
现在参照图5,示出了根据本公开的实施例的定位单元(210、318)的示意性框图。定位单元(210、318)包括跟踪单元(502)、局部地图构建单元(504)、环检测单元(506)、地点识别单元(510)和地图(512)。地图(512)被存储在存储器(未示出)中。在示例性实施例中,定位单元(210、318)是同步定位与地图构建(SLAM)模块。跟踪单元(502)包括特征提取单元(514)、书写表面识别单元(516)、位姿预测或重定位单元(518)、视角计算单元(520)、视距计算单元(522)、局部地图跟踪单元(524)和新关键帧判定单元(528)。局部地图构建单元(504)包括关键帧插入单元(530)、地图点剔除单元(532)、新点创建单元(534)和局部光束调整(BA)单元(536)。地图(512)包括一个或更多个关键帧(552)、一个或更多个地图点(554)、共视图(556)和生成树(558)。
在实施例中,定位单元(210、318)具有三个主并行线程:跟踪线程、局部地图构建线程和环闭合线程。
在跟踪单元(502)中执行跟踪线程。跟踪单元(502)利用每一帧定位输入单元(204)的相机。它检测书写表面,连续跟踪装置与书写表面之间的距离和角度,并判定插入新的关键帧。位置识别单元(510)用于在由于一些突然移动而丢失跟踪的情况下执行相机和书写表面的全局重定位。在相机位姿和特征匹配的初始估计之后,使用关键帧(552)的共视图(556)来检索局部可视地图。然后,通过重投影搜索与局部地图点(554)的匹配以优化相机位姿。
特征提取单元(514)从每个捕获的帧中根据其分辨率提取FAST角(1000~2000)。随着分辨率的增大,需要更多的角。在示例中,对于分辨率为640×480的图像,适合于提取1000个角。
局部地图跟踪单元(524)在估计相机位姿和初始特征匹配的集合之后跟踪局部地图。局部地图包含与当前帧共享地图点(554)的关键帧的集合,以及在共视图(556)中所述关键帧的邻近者的集合。局部地图还具有与当前帧共享大多数地图点(554)的参考关键帧。
新关键帧判定单元(528)判定当前帧是否作为新关键帧产生。如果当前帧具有多于50个地图点并且跟踪参考帧的少于90%的地图点,则当前帧被计算为新关键帧。
在局部地图构建单元(504)中执行局部地图构建线程。局部地图构建单元(504)处理新的关键帧(552)并优化地图点以实现相机位姿的环境中的最佳重建。它试图通过将新关键帧中的特征与共视图(556)中存在的关键帧(552)的特征进行匹配来对新点进行三角测量。然后,它对提取的地图点应用点剔除策略,以仅保留质量高的点。
关键帧插入单元530为每个关键帧在共视图556中添加节点,并根据与其它关键帧552共享的地图点用其它节点更新其边界,此后,通过将插入的关键帧与具有最多公共点的关键帧链接来更新生成树558
地图点剔除单元(532)确保帧是可跟踪的并且不被错误地进行三角测量。对于将被认为是可跟踪的点,它一定存在于它被预测为可视的帧的四分之一中。地图点剔除单元还检测并去除冗余关键帧。如果关键帧的90%的地图点已经存在于至少三个其它关键帧中,则它被认为是冗余的。
新点创建单元(534)在共视图(556)中从连接的关键帧创建新的地图点(554)。针对关键帧中的每个不匹配的特征搜索匹配,并且丢弃不符合对极约束的匹配。
局部BA单元(536)优化通过当前处理的关键帧和与其连接的关键帧(552)看到的所有地图点,
在环检测单元(506)中执行环闭合线程。环检测单元在每个新的关键帧中搜索环。如果检测到环,则对齐环的两侧,并且对重复的点进行融合。使用来自当前关键帧和环关键帧的相似性变换来验证环。
现在参照图6,根据本公开的实施例示出了描绘错误校正的方法的流程图。下面参照图2的AR系统(200)解释图6的流程图。
在步骤602,输入单元(204)动态且实时地捕获图像。
在步骤604,处理单元(202)处理图像以确定图像是否清晰。
如果在步骤604处理单元(202)确定图像是清晰的,则执行步骤606。
在步骤606,文本识别单元(206)从图像中提取输入数据的笔迹信息。
如果在步骤604处理单元(202)确定图像不清晰,则执行步骤602。
在步骤608,自然语言处理单元(208)确定输入数据中是否存在任何错误。
如果在步骤608文本自然语言处理单元(208)确定输入数据中存在错误,则执行步骤610。
在步骤610,输出单元(212)突出显示图像中的错误。在图像上虚拟地向用户显示突出显示。
在步骤612,输出单元(212)显示输入数据的错误校正。在图像上虚拟地向用户显示校正。
现在参照图7,根据本公开的实施例示出了描绘词预测的方法的流程图。下面参照图2的AR系统(200)解释图7的流程图。
在步骤702,输入单元(204)动态且实时地捕获图像。
在步骤704,处理单元(202)处理图像以确定图像是否清晰。
如果在步骤704处理单元(202)确定图像是清晰的,则执行步骤706。
在步骤706文本识别单元(206)从图像中提取输入数据的笔迹信息。
如果在步骤704处理单元(202)确定图像不清晰,则执行步骤702。
在步骤708,自然语言处理单元(208)确定输入数据中是否存在任何不完整的词。
如果在步骤708自然语言处理单元(208)确定输入数据中存在不完整的词,则执行步骤710。
在步骤710,自然语言处理单元(208)预测不完整的词。
在步骤712,输出单元(212)在图像上虚拟地向用户显示词预测。
现在参照图8,根据本公开的实施例示出了描绘词推荐的方法的流程图。下面参照图2的AR系统(200)解释图8的流程图。
在步骤802,输入单元(204)动态且实时地捕获图像。
在步骤804,处理单元(202)处理图像以确定图像是否清晰。
如果在步骤804处理单元(202)确定图像是清晰的,则执行步骤806。
在步骤806,文本识别单元(206)从图像中提取输入数据的笔迹信息。
如果在步骤804处理单元(202)确定图像不清晰,则执行步骤802。
在步骤808,自然语言处理单元(208)确定输入数据中是否存在任何不完整的句子。
如果在步骤808自然语言处理单元(208)确定输入数据中存在不完整的句子,则执行步骤810。
在步骤810,自然语言处理单元(208)确定针对不完整的句子的词推荐。
在步骤812,输出单元(212)在图像上虚拟地向用户显示词推荐。
现在参照图9,根据本公开的实施例示出了描绘AR方法的流程图。下面参照图2的AR系统(200)解释图9的流程图。
在步骤902,输入单元(204)捕获图像。
在步骤904,文本识别单元(206)识别图像中描绘的表面上的信息。
在步骤906,文本识别单元(206)基于该信息生成输入数据。
在步骤908,自然语言处理单元(208)确定输入数据的上下文。
在步骤910,自然语言处理单元(208)基于上下文生成至少一条辅助信息。
在步骤912,定位单元(210)基于图像确定一个或更多个空间属性。
在步骤914,定位单元(210)基于空间属性生成定位信息。
在步骤916,输出单元(212)基于定位信息显示辅助信息。
现在参照图10,根据本公开的实施例描绘了地图点的提取。
定位单元(210)从用户的视场中的图像提取特征。这些特征被称为地图点(554),并且用于跟踪相机位姿。在初始位姿估计之后,使用匀速模型来预测相机位姿并执行对用户正在观察的地图点(554)的引导搜索。
现在参照图11,根据本公开的实施例描绘了错误突出显示和校正显示的技术。
可以以许多方式显示辅助信息,诸如错误检测、错误校正、词预测或词推荐。可通过多种方式向用户通知错误,例如,对错误加下划线、改变错误的颜色、划掉错误、圈出错误以及通过语音通知错误。对错误校正、词预测和词推荐的显示可以是通过在书写表面上叠加辅助信息、非叠加显示辅助信息、通过语音向用户通知以及在其它用户装置(诸如智能电话、可穿戴装置等)上显示。
现在参照图12A至图12C,根据本公开的实施例描绘了根据视角改变辅助信息的样式。
在图12中描绘的示例中,用户(1202)已经在表面(1204)上书写了信息“There isa Mestake”。该信息包含拼写错误,即,用户(1202)错误地将“Mistake”拼写为“Mestake”。
AR系统(200)通过输入单元(204)捕获由用户(1202)书写的信息的图像。文本识别单元(206)处理图像以识别由用户(1202)书写的文本。自然语言处理单元(208)识别由用户(1202)书写的文本的上下文,并生成合适的辅助信息(1206)。在该示例中,辅助信息是错误校正的形式,即“Mistake”。定位单元(210)确定用户(1202)与表面(1204)所成的角度。定位单元(210)将角度与阈值角度进行比较,并确定辅助信息(1206)的定位信息。根据由定位单元(210)计算的位置和取向来显示辅助信息(1206)。定位单元(210)连续监测用户(1202)的视场,并相应地更新显示的辅助信息(1206)的位置和取向。
在图12A中,用户(1202)与表面(1204)之间的角度为60°。定位单元(210)确定角度是大于阈值角度还是小于阈值角度,并且相应地设置用于显示辅助信息(1206)的平面。这里,定位单元(210)设置3D平面,并且因此,辅助信息(1206)以3D格式和倾斜的方式被显示给用户(1202)。
在图12B中,用户(1202)与表面(1204)之间的角度为30°。这里,定位单元(210)设置3D平面,并且因此,辅助信息(1206)以3D格式和直立方式被显示给用户(1202)。
在图12C中,用户(1202)与表面(1204)之间的角度是90°。定位单元(210)确定角度是大于阈值角度还是小于阈值角度,并且因此设置用于显示辅助信息的平面(1206)。这里,定位单元(210)设置2D平面,并且因此,辅助信息(1206)以2D格式被显示给用户(1202)。
现在参照图13,根据本公开的实施例描绘了上下文词预测的技术。
这里,AR系统(200)检测以“conta”开始的不完整的词。AR系统(200)搜索数据库并推断用户正试图写入的词是“contamination”。AR系统(200)还计算视觉方面,如显示词预测的尺寸和位置。然后由输出单元(212)显示预测的词,使得用户在访问结果提示时不会遇到问题。
现在参照图14,根据本公开的实施例描绘了以3D格式显示词预测的技术。
AR系统(200)还可利用z轴或3D平面来显示词预测。
现在参照图15,根据本公开的实施例描绘了突出显示不同错误并以用户的书写样式显示相应校正的技术。
现在参照图16,根据本公开的实施例描绘了相似性检查的技术。
AR系统(200)从用户的视场的图像提取输入数据。将输入数据与互联网和其它可用信息源上可用的信息进行比较,来获得相似性。用户书写的文本与可用信息之间的相似性以相似性百分比的形式被显示给用户。
现在参照图17,根据本公开的实施例描绘了检查重复信息的技术。
AR系统(200)检测在用户的输入数据中重复的一个或更多个词/句子,并向用户突出显示重复的信息。
现在参照图18,根据本公开的实施例描绘了通过虚拟网格线和边距向用户提供书写辅助的技术。
AR系统(200)通过输入单元(204)捕获由用户(未示出)书写的信息的图像。文本识别单元(206)处理图像以识别由用户书写的文本。自然语言处理单元(208)确定用户正在练习书写英语字母。自然语言处理单元(208)确定将向用户显示的辅助信息应该是网格线的形式(诸如虚拟边界或虚拟边距),以辅助用户书写字母。
自然语言处理单元(208)还确定由用户书写的字母中的错误。这里,自然语言处理单元(208)确定由用户书写的字母“E”未对准或者越过虚拟边界。
自然语言处理单元(208)还预测一系列字母中的下一个字母,即,字母“H”。预测的字母作为辅助信息被显示给用户。这里,由AR系统(200)虚拟地投影字母“H”。用户可跟踪投影的字母“H”来在表面上书写。
现在参照图19,根据本公开的实施例描绘了向用户显示可读性度量的技术。
AR系统(200)通过输入单元(204)捕获由用户(未示出)书写的信息的图像。文本识别单元(206)处理图像以识别由用户书写的文本。处理单元(202)确定用户手写文本的可读性程度,并生成指示用户笔迹的可读性百分比的辅助信息。辅助信息以可读性百分比的形式被显示给用户。
此外,处理单元(202)确定书写词是否易读。AR系统(200)突出显示不易读的词。
现在参照图20和图21,根据本公开的实施例描绘了向用户同时显示词推荐和错误校正的技术。
在图21中,显示信息的表面是用户装置(未示出)的数字屏幕,诸如智能电话屏幕。AR系统(200)与用户装置进行通信。AR系统(200)在用户装置的数字屏幕上投影交互式辅助信息。用户装置从用户接收用户输入并将用户输入发送到AR系统(200)。AR系统(200)接收在装置中来自用户的用户输入。
如图21中描绘的,用户输入指示用户是否希望自动校正错误。如果用户输入是肯定的,则AR系统(200)自动校正错误。如果用户输入是否定的,则AR系统(200)不校正由用户键入或书写的文本中的错误。因此,AR系统(200)基于响应于显示的交互式辅助信息的用户输入来动态地修改辅助信息。
现在参照图22A至图22B,根据本公开的实施例描绘了显示3D辅助信息的技术。
AR系统(200)确定用户正在书写的文本的上下文。在示例中,根据用户正在书写的句子或词来具体地确定文本的上下文。因此,根据用户书写的词或句子动态地确定辅助内容。
在图22A中描绘的示例中,用户正在书写关于足球比赛和足球场的尺寸的信息。因此,AR系统(200)将上下文确定为“足球场”。因此,AR系统(200)呈现具有足球场(足球场上有运动员)的3D模型的视觉示意。3D足球场描绘了如足球场的尺寸(100码×130码)和角球的细节。
在图22B描绘的另一示例中,用户正在书写关于自然灾害的文章。当用户书写词“hurricane”时,AR系统(200)显示具有诸如119km/h的高速的3D飓风,其中,该3D飓风是自然灾害。当用户书写“earthquakes”时,AR系统(200)显示由从火山喷发出的熔岩和气体排放物引起的地震,并且还显示引起地震的地壳的图像。
如图22A至图22B中描绘的,3D辅助伴随有诸如飓风的速度、熔岩、气体排放物、地壳等的文本解释性词语。这有助于用户的快速且容易的理解。
现在参照图23A至图23B,根据本公开的实施例描绘了显示交互式辅助信息的技术。
当用户开始书写时,AR系统(200)确定由用户书写的文本的上下文。这里,AR系统(200)将上下文确定为“足球”或“FIFA”。此后,AR系统(200)从互联网获取与足球相关的数据并呈现给用户。AR系统(200)将辅助信息分类为不同的类别或子主题,以使用户更便利。当用户选择子主题时,显示与子主题相关的辅助信息。当用户选择“FIFA世界杯2018”时,显示与世界杯相关的辅助信息,并向用户推荐相应的词。
应注意,说明书仅示出了本公开的原理。因此,将理解,本领域技术人员将能够设计出尽管未在本文中明确描述但实现本公开的原理的各种布置。
此外,本文所述的所有示例主要明确地旨在仅用于说明目的,以帮助读者理解本发明的原理和构思,其中,本发明的原理和构思是由发明人为进一步发展本领域而贡献的并且将被解释为不限于这些具体叙述的示例和情况。
此外,本文中叙述本发明的原理、方面和实施例以及其具体示例的所有陈述旨在涵盖其等同物。
Claims (15)
1.一种增强现实系统中的电子装置,所述电子装置包括:
输入单元,被配置为捕获图像;
文本识别单元,被配置为:
从所述图像识别所述图像中描绘的表面上的信息,并且
基于所述信息生成输入数据;
自然语言处理单元,被配置为:
确定所述输入数据的上下文,并且
基于所述上下文生成至少一条辅助信息;
定位单元,被配置为:
基于所述图像确定一个或更多个空间属性,并且
基于所述空间属性生成定位信息;以及
输出单元,被配置为:
基于所述定位信息显示所述辅助信息。
2.根据权利要求1所述的电子装置,其中,所述空间属性包括以下项中的至少一项:
所述增强现实系统与所述表面之间的角度,
所述增强现实系统与所述表面之间的距离,以及
所述增强现实系统与所述表面之间的视场中的障碍物。
3.根据权利要求2所述的电子装置,其中,定位单元还被配置为:
基于所述距离、所述角度和设置的平面来确定位置,
基于以下项中的至少一项来确定样式:所述辅助信息、所述距离、所述角度、所述信息的背景和预定义的样式偏好,并且
生成指示所述平面、所述位置和所述样式中的至少一个的所述定位信息。
4.根据权利要求1所述的电子装置,其中,自然语言处理单元还被配置为:
基于所述输入数据的所述上下文来确定所述辅助信息的类型,
基于所述输入数据的所述上下文来确定所述辅助信息的内容,并且
生成所述辅助信息,其中,所述辅助信息包括所述类型和所述内容。
5.根据权利要求1所述的电子装置,其中,所述增强现实系统是头戴式装置和手持式装置中的至少一个。
6.根据权利要求1所述的电子装置,其中,所述表面包括非数字书写表面。
7.根据权利要求1所述的电子装置,其中,所述表面包括用户设备的数字显示器。
8.根据权利要求1所述的电子装置,还包括:笔迹重建单元,被配置为:
检测所述信息的笔迹样式,并且
重建所述笔迹样式。
9.根据权利要求1所述的电子装置,其中,所述增强现实系统还包括:用户交互单元,被配置为:
检测指示与所述辅助信息或与所述图像中描绘的所述表面上的所述信息的交互的一个或更多个用户手势,并且
基于所述用户手势显示更新的辅助信息。
10.根据权利要求1所述的电子装置,其中,所述信息是以下项中的至少一项:手写信息、打印信息、电子显示信息和虚拟投影信息。
11.一种由增强现实系统中的电子装置执行的方法,所述方法包括:
捕获图像;
识别所述图像中描绘的表面上的信息;
基于所述信息生成输入数据;
确定所述输入数据的上下文;
基于所述上下文生成至少一条辅助信息;
基于所述图像确定一个或更多个空间属性;
基于所述空间属性生成定位信息;并且
基于所述定位信息显示所述辅助信息。
12.根据权利要求11所述的方法,其中,所述空间属性包括以下项中的至少一项:
所述增强现实系统与所述表面之间的角度,
所述增强现实系统与所述表面之间的距离,以及
所述增强现实系统与所述表面之间的视场中的障碍物。
13.根据权利要求11所述的方法,还包括:
基于所述输入数据的所述上下文来确定所述辅助信息的类型;
基于所述输入数据的所述上下文来确定所述辅助信息的内容;并且
生成所述辅助信息,其中,所述辅助信息包括所述类型和所述内容。
14.根据权利要求11所述的方法,还包括:
检测所述信息的笔迹样式;
重建所述笔迹样式;并且
以所述笔迹样式的形式显示所述辅助信息。
15.根据权利要求11所述的方法,其中,所述信息是以下项中的至少一项:手写信息、打印信息、电子显示信息和虚拟投影信息。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IN201811048302 | 2018-12-20 | ||
IN201811048302 | 2018-12-20 | ||
PCT/KR2019/018188 WO2020130708A1 (en) | 2018-12-20 | 2019-12-20 | Method and apparatus for augmented reality |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113272873A true CN113272873A (zh) | 2021-08-17 |
Family
ID=71102611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980081812.4A Pending CN113272873A (zh) | 2018-12-20 | 2019-12-20 | 用于增强现实的方法和设备 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11501504B2 (zh) |
EP (1) | EP3881296A4 (zh) |
CN (1) | CN113272873A (zh) |
WO (1) | WO2020130708A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115376051B (zh) * | 2022-10-25 | 2023-03-24 | 杭州华橙软件技术有限公司 | 关键帧的管理方法及管理装置、slam方法、电子设备 |
US12014044B1 (en) * | 2023-01-16 | 2024-06-18 | Htc Corporation | Control device, control method and virtual image display system |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4401728B2 (ja) * | 2003-09-30 | 2010-01-20 | キヤノン株式会社 | 複合現実空間画像生成方法及び複合現実感システム |
US7639387B2 (en) | 2005-08-23 | 2009-12-29 | Ricoh Co., Ltd. | Authoring tools using a mixed media environment |
US8358320B2 (en) * | 2007-11-02 | 2013-01-22 | National University Of Singapore | Interactive transcription system and method |
WO2010020085A1 (en) | 2008-08-18 | 2010-02-25 | Xingke Medium And Small Enterprises Service Center Of Northeastern University | Writing assistive system |
KR20110024880A (ko) * | 2009-09-03 | 2011-03-09 | 한국가상현실 (주) | 증강현실 기술을 이용한 문장 학습 방법 및 시스템 |
US8782556B2 (en) | 2010-02-12 | 2014-07-15 | Microsoft Corporation | User-centric soft keyboard predictive technologies |
US8209183B1 (en) | 2011-07-07 | 2012-06-26 | Google Inc. | Systems and methods for correction of text from different input types, sources, and contexts |
US9182815B2 (en) * | 2011-12-07 | 2015-11-10 | Microsoft Technology Licensing, Llc | Making static printed content dynamic with virtual data |
US10067568B2 (en) * | 2012-02-28 | 2018-09-04 | Qualcomm Incorporated | Augmented reality writing system and method thereof |
US8756052B2 (en) | 2012-04-30 | 2014-06-17 | Blackberry Limited | Methods and systems for a locally and temporally adaptive text prediction |
US9519640B2 (en) | 2012-05-04 | 2016-12-13 | Microsoft Technology Licensing, Llc | Intelligent translations in personal see through display |
US9384389B1 (en) * | 2012-09-12 | 2016-07-05 | Amazon Technologies, Inc. | Detecting errors in recognized text |
US11397462B2 (en) | 2012-09-28 | 2022-07-26 | Sri International | Real-time human-machine collaboration using big data driven augmented reality technologies |
US10824310B2 (en) | 2012-12-20 | 2020-11-03 | Sri International | Augmented reality virtual personal assistant for external representation |
US8713433B1 (en) | 2012-10-16 | 2014-04-29 | Google Inc. | Feature-based autocorrection |
US9524036B1 (en) | 2013-03-11 | 2016-12-20 | Amazon Technologies, Inc. | Motions for displaying additional content |
US8761513B1 (en) | 2013-03-15 | 2014-06-24 | Translate Abroad, Inc. | Systems and methods for displaying foreign character sets and their translations in real time on resource-constrained mobile devices |
KR102065417B1 (ko) * | 2013-09-23 | 2020-02-11 | 엘지전자 주식회사 | 웨어러블 이동단말기 및 그 제어방법 |
CN104751688A (zh) | 2013-12-25 | 2015-07-01 | 步步高教育电子有限公司 | 一种识别字迹并发音和纠错的方法及装置 |
JP6331777B2 (ja) | 2014-07-01 | 2018-05-30 | コニカミノルタ株式会社 | 拡張現実情報提供システム、拡張現実情報提供方法、及び、拡張現実情報提供プログラム |
KR20160005899A (ko) * | 2014-07-08 | 2016-01-18 | 엘지전자 주식회사 | 디지털 이미지 처리 장치, 시스템 및 제어 방법 |
US10032071B2 (en) | 2014-12-23 | 2018-07-24 | Lenovo (Singapore) Pte. Ltd. | Candidate handwriting words using optical character recognition and spell check |
JP2016158108A (ja) | 2015-02-24 | 2016-09-01 | 株式会社リコー | 頭部装着型表示装置、情報処理システム、および情報処理方法 |
US20160371250A1 (en) | 2015-06-16 | 2016-12-22 | Microsoft Technology Licensing, Llc | Text suggestion using a predictive grammar model |
JP6432553B2 (ja) | 2016-03-29 | 2018-12-05 | 京セラドキュメントソリューションズ株式会社 | 文書読解支援システム |
US10409903B2 (en) | 2016-05-31 | 2019-09-10 | Microsoft Technology Licensing, Llc | Unknown word predictor and content-integrated translator |
JP2018067159A (ja) * | 2016-10-19 | 2018-04-26 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置及び画像形成装置 |
KR101865362B1 (ko) * | 2016-12-08 | 2018-06-07 | 동명대학교산학협력단 | 발 제스처를 이용한 혼합현실 제어 시스템 및 방법 |
US10657326B2 (en) | 2017-05-23 | 2020-05-19 | International Business Machines Corporation | Removable spell checker device |
US10679048B2 (en) * | 2017-09-18 | 2020-06-09 | Microsoft Technology Licensing, Llc | Preserving styles and ink effects in ink-to-text |
US20200143773A1 (en) * | 2018-11-06 | 2020-05-07 | Microsoft Technology Licensing, Llc | Augmented reality immersive reader |
US10783323B1 (en) * | 2019-03-14 | 2020-09-22 | Michael Garnet Hawkes | Analysis system |
-
2019
- 2019-12-20 US US17/415,336 patent/US11501504B2/en active Active
- 2019-12-20 EP EP19900042.3A patent/EP3881296A4/en active Pending
- 2019-12-20 CN CN201980081812.4A patent/CN113272873A/zh active Pending
- 2019-12-20 WO PCT/KR2019/018188 patent/WO2020130708A1/en unknown
Also Published As
Publication number | Publication date |
---|---|
US11501504B2 (en) | 2022-11-15 |
US20220058879A1 (en) | 2022-02-24 |
EP3881296A1 (en) | 2021-09-22 |
WO2020130708A1 (en) | 2020-06-25 |
EP3881296A4 (en) | 2022-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11188711B2 (en) | Unknown word predictor and content-integrated translator | |
US10156981B2 (en) | User-centric soft keyboard predictive technologies | |
CN111178123A (zh) | 图像中的对象检测 | |
US20170228366A1 (en) | Rule-based dialog state tracking | |
CN107436691B (zh) | 一种输入法进行纠错的方法、客户端、服务器及装置 | |
US11640503B2 (en) | Input method, input device and apparatus for input | |
JP6361351B2 (ja) | 発話ワードをランク付けする方法、プログラム及び計算処理システム | |
US20110106805A1 (en) | Method and system for searching multilingual documents | |
CN105210055B (zh) | 根据跨语种短语表的断词器 | |
US20210406453A1 (en) | Mapping annotations to ranges of text across documents | |
JP2014229091A (ja) | 文字入力用のプログラム | |
CN113596601A (zh) | 一种视频画面的定位方法、相关装置、设备及存储介质 | |
US11501504B2 (en) | Method and apparatus for augmented reality | |
KR20150027885A (ko) | 전자 필기 운용 방법 및 이를 지원하는 전자 장치 | |
CN107424612B (zh) | 处理方法、装置和机器可读介质 | |
WO2016088411A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
CN114090766A (zh) | 视频文本筛选方法、装置及电子设备 | |
KR20210050484A (ko) | 정보 처리 방법, 장치 및 저장 매체 | |
CN112612442A (zh) | 一种输入方法、装置和电子设备 | |
KR20140113780A (ko) | 스마트 안경 및 이의 번역 방법 | |
CN117591804A (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
CN114510154A (zh) | 一种输入方法、装置和用于输入的装置 | |
CN113435185A (zh) | 输入纠错方法、装置和用于输入纠错的装置 | |
CN116089569A (zh) | 样本构建方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |