CN108681393A - 基于增强现实的翻译显示方法、装置、计算设备及介质 - Google Patents

基于增强现实的翻译显示方法、装置、计算设备及介质 Download PDF

Info

Publication number
CN108681393A
CN108681393A CN201810339735.5A CN201810339735A CN108681393A CN 108681393 A CN108681393 A CN 108681393A CN 201810339735 A CN201810339735 A CN 201810339735A CN 108681393 A CN108681393 A CN 108681393A
Authority
CN
China
Prior art keywords
identified
language
image
translation
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810339735.5A
Other languages
English (en)
Inventor
翁粤东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Ucweb Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ucweb Inc filed Critical Ucweb Inc
Priority to CN201810339735.5A priority Critical patent/CN108681393A/zh
Publication of CN108681393A publication Critical patent/CN108681393A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/012Walk-in-place systems for allowing a user to walk in a virtual environment while constraining him to a given position in the physical environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种基于增强现实的翻译显示方法、装置、计算设备及介质,包括:获取实时拍摄的图像;识别获取的所述图像中包含的待识别对象;将识别出的待识别对象翻译成目标语言对象;以及使用AR技术将目标语言对象叠加在当前图像中所述待识别对象的位置上进行显示。由此,通过AR技术的引入提升翻译显示的实时性与沉浸程度,从而改善用户体验。

Description

基于增强现实的翻译显示方法、装置、计算设备及介质
技术领域
本发明涉及增强现实(AR)技术,尤其涉及一种基于增强现实的翻译显示方法、装置、计算设备及存储介质。
背景技术
近年来,业已开发出关于从照相机所拍摄的图像中提取、识别出文字后将其翻译成规定的语言进行显示的翻译显示装置的技术。当前主流的翻译类软件的交互主要有两种,一种是用户输入文本后,实时给出对应的译文。另一种是用户输入图像后,软件给出图片中文字对应的译文。
图1示出了现有技术中翻译显示的一个例子。如图1所示,将西班牙的源词“APAGUE”、一一对应地翻译成英语“TURN OFF”、“TELEPHONE”和“MOBILE”(即,“关闭移动电话”)。由上可知,现有翻译软件适用于简单背景中的逐词翻译。换句话说,现有技术多是针对单词的逐条翻译,翻译效果差,精度低,用户体验不佳,且无法适应跨语系的实时场景下的翻译。
有鉴于此,需要一种改进的翻译显示方案。
发明内容
为了解决如上的至少一个问题,本发明提出了一种基于增强现实的翻译显示方案,该方案通过对待识别对象及其相关属性的识别以及对目标语言对象的增强显示,提升了翻译显示的实时性与沉浸程度,从而改善了用户体验。
根据本发明的一个方面,提供了一种基于增强现实(AR)的翻译显示方法,包括:获取实时拍摄的图像;识别获取的所述图像中包含的待识别对象;将识别出的待识别对象翻译成目标语言对象;以及使用AR技术将目标语言对象叠加在当前图像中所述待识别对象的位置上进行显示。
由此,通过AR技术的引入提升翻译显示的实时性与沉浸度,提升用户体验。
在一个实施例中,获取实时拍摄的图像包括:获取实时拍摄的视频的图像帧,并且所述方法还包括:对所述图像帧进行处理以对所述图像帧中的待识别对象进行追踪,从而确定在所述当前图像中待识别对象的位置。在另一个实施例中,所述翻译显示方法还可以包括:对拍摄并显示所述图像的设备位移进行持续修正,以确定在所述当前图像中待识别对象的位置。由此,可以基于对象追踪或位置修正实现显示对象的准确覆盖与替换。
优选地,识别获取的所述图像中包含的待识别对象可以包括:基于如下至少一项,确定所述图像中要识别的待识别对象的范围和/或语言:所述实时拍摄所处的地理位置;载有所述待识别对象的物体;以及所述物体在所述图像中的位置。由此,可以基于对实时翻译所处具体情景的判定,进行更为准确的翻译显示。
优选地,所述翻译显示方法还可以包括:基于用户后续操作,修改所述图像中待识别对象的范围和/或语言。由此,可以依用户选择对上述判定进行修改。
优选地,待识别对象包括源语言的句子或词组,并且,将识别出的待识别对象翻译成目标语言对象包括:根据目标语言的语法规则重排所述目标语言对象。由此,提升对全文翻译,尤其是跨语系全文翻译的正确显示的概率。
优选地,使用AR技术将目标语言对象叠加在当前图像中所述待识别对象的位置上进行显示可以包括:基于所述待识别对象的格式显示叠加的所述目标语言对象。从而最大化地保留源语言信息。
优选地,识别获取的所述图像中包含的待识别对象还包括:识别所述待识别对象的背景;并且使用AR技术将目标语言对象叠加在当前图像中所述待识别对象的位置上进行显示包括:以所述待识别对象的背景显示叠加的所述目标语言对象。由此提升AR显示的融入程度。
优选地,根据如下至少一项确定使用AR技术显示所述目标语言对象的样式:当前用户选择;大数据用户选择;所述实时拍摄所处的地理位置;以及载有所述待识别对象的物体。由此,通过样式的恰当设置,提升用户的使用体验。
根据本发明的另一个方面,提供了一种基于增强现实(AR)的翻译显示装置,包括:图像获取单元,用于获取实时拍摄的图像;对象识别单元,用于识别获取的所述图像中包含的待识别对象;翻译单元,用于将识别出的待识别对象翻译成目标语言对象;以及显示单元,用于使用AR技术将目标语言对象叠加在当前图像中所述待识别对象的位置上进行显示。
优选地,所述图像获取单元获取实时拍摄的视频的图像帧,并且所述装置还包括:对象追踪单元,用于对所述图像帧进行处理以对所述图像帧中的待识别对象进行追踪,从而确定在所述当前图像中待识别对象的位置。
优选地,所述装置还包括:位移修正单元,用于对拍摄并显示所述图像的设备位移进行持续修正,以确定在所述当前图像中待识别对象的位置。
优选地,所述对象识别单元基于如下至少一项,确定所述图像中要识别的待识别对象的范围、所属语言和/或语言属性:所述实时拍摄所处的地理位置;载有所述待识别对象的物体;以及所述物体在所述图像中的位置。
优选地,所述装置还包括:对象修改单元,用于基于用户后续操作,修改所述图像中待识别对象的范围和/或语言。
优选地,所述待识别对象包括源语言的句子或词组,并且,所述翻译单元根据目标语言的语法规则重排所述目标语言对象。
优选地,所述显示单元基于所述待识别对象的格式显示叠加的所述目标语言对象。
优选地,所述识别单元还用于识别所述待识别对象的背景;并且所述显示单元以所述待识别对象的背景显示叠加的所述目标语言对象。
优选地,所述显示单元根据如下至少一项确定使用AR技术显示所述目标语言对象的样式:当前用户选择;大数据用户选择;所述实时拍摄所处的地理位置;载有所述待识别对象的物体。
根据本发明的另一方面,还提供了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。
根据本发明的另一方面,还提供了一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。
由此,通过对待识别对象及其相关属性的识别以及对目标语言对象的增强显示,提升了翻译显示的实时性与沉浸程度,从而改善用户体验。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了现有技术中翻译显示的一个例子。
图2示出了用于实现本发明实施例的环境的示意图。
图3示出了根据本发明一个实施例的基于AR技术的翻译显示方法的流程示意图。
图4示出了根据本发明一个实施例的翻译显示装置的结构示意图。
图5示出了根据本发明一个实施例的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
随着对外交流的日益增多,在越来越多的场景中涉及不同语言之间的翻译。近年来,业已开发出关于从照相机所拍摄的图像中提取、识别出文字后将其翻译成规定的语言进行显示的翻译显示装置的技术。当前主流的翻译类软件的交互主要有两种,一种是用户输入文本后,实时给出对应的译文。另一种是用户输入图像后,软件给出图片中文字对应的译文。
现有的翻译实现有着诸多问题。例如,针对用户通常连字母都不认识的阿拉伯语,就无法通过文本输入进行翻译。另外,针对图像输入的翻译具有译文对应不准确,背景覆盖生硬等问题。
有鉴于此,本发明通过创造性地引入AR技术,提升实时翻译显示的精确性和沉浸程度。在此,增强现实技术(Augmented Reality,下文简称AR)指的是透过摄影机影像的位置及角度精算并加上图像分析技术,让屏幕上的虚拟世界能够与现实世界进行结合与互动的技术。通过AR技术的引入,能够让翻译后的目标语言译文更完美地契合原始图像,并且能够基于外部条件进行合理的样式选择,从而满足各类翻译显示的场景需求。
本发明实施例所提出的翻译显示方案可应用于如图2所示的环境中。图2是用于实现本发明实施例的环境200的示意图。在一个实施例中,环境200中的移动终端10可以经由网络40实现与服务器20的信息收发。服务器20可以通过访问数据库30来获取移动终端10所需的内容。在一个实施例中,该数据库30可以是存储有海量翻译信息的翻译信息数据库,服务器20可以是翻译服务器,通过基于海量在前翻译数据的计算来获取移动端10所请求的目标语言译文信息。移动终端之间(例如,10_1与10_2或10_N之间)优选地可以经由网络40彼此通信。网络40可以是广义上的用于信息传递的网络,可以包括一个或多个通信网络,诸如无线通信网络、因特网、私域网、局域网、城域网、广域网或是蜂窝数据网络等。在一个实施例中,网络40也可以包括卫星网络,由此将移动终端10的GPS信号传送给服务器20。应当注意,如果向图示200中添加或从图示200中去除附加模块,不会改变本发明的示例实施例的底层概念。另外,虽然为了方便说明而在图中示出了从数据库30到服务器20的双向箭头,但本领域技术人员可以理解的上,上述数据的收发也是可以通过网络40实现的。
移动终端10是可用来进行网络访问且具备摄像功能的任何合适的便携式电子设备,包括但不限于智能电话、平板电脑或是其他便携式客户端。服务器20则是能够通过网络访问的提供交互服务所需信息的任何服务器。图中虽然示出了多个移动终端10-1…N以及单个服务器20和数据库30,并且在随后的描述中会选择其中的一个或部分移动终端加以描述(例如,移动终端10-1),但是本领域技术人员应该立即的是,上述1…N个移动终端旨在表示真实网络中存在的多个移动终端,示出的单个服务器20和数据库30旨在表示本发明的技术方案涉及服务器及数据库的操作。对特定编号的移动端以及单个服务器和数据库加以详述至少为了说明方便,而非暗示对移动端和服务器的类型或是位置等具有限制。
图3示出了根据本发明一个实施例的基于AR技术的翻译显示方法的流程示意图。该翻译显示方法可以由例如图2所示的移动终端10通过实施拍摄图像并与翻译服务器20通信,以将翻译结果结合在移动终端10的屏幕上显示来实现。
如图3所示,在步骤S310,获取实时拍摄的图像。在此,按照具体应用场景,获取的可以是实时拍摄的视频的图像帧,也可以是视频图像帧的某一截图,或是按照预定设置降帧提取的图像。
在步骤S320,识别获取的所述图像中包含的待识别对象。在此,待识别对象指的是待翻译的文本对象。例如,用户使用便携式电子设备正拍摄图像中所包含的文本对象。该待识别对象不仅包括逐词获取的单词,还可以包括词组或句子,或由句子组成的段落。下文会对词组或句子的获取、分析和翻译进行详细描述。
在步骤S330,将识别出的待识别对象翻译成目标语言对象。在此,待识别对象可以是源语言的文本对象,目标语言对象则是源语言文本对象的对应翻译信息对象。
在步骤S340,使用AR技术将目标语言对象叠加在当前图像中待识别对象的位置上进行显示。
在一个实施例中,识别可以在移动终端10中进行,移动终端10将识别出的文本信息上传至服务器20,由服务器20完成翻译并将译文发送回移动终端10。在另一个实施例中,移动终端10可以直接将图像信息发送给服务器20,并在服务器侧进行对象识别与翻译,随后由服务器20将译文等信息回传给移动终端10。基于AR技术叠加显示的目标语言对象的具体显示信息也可以根据实现在移动终端10或服务器20侧确定。本发明对此不做限制。
由于从待识别对象提取、翻译和返回到目标语言对象的显示之间通常存在一定的时间间隔(例如,一两秒),而便携式电子设备在通常的手持场景下会发生一定的抖动,因此为了在步骤S340中实现目标语言对象对原始待识别对象的准确覆盖,需要知晓待识别对象在当前显示图像中的确切位置。
在一个实施例中,上述准确覆盖可以从位置修正的角度来实现。因此,本发明的翻译显示方法还包括对拍摄并显示所述图像的设备位移进行持续修正,以确定在所述当前图像中待识别对象的位置。可以利用移动终端中配备的陀螺仪和加速度计等实体装置的测定值来确定该移动终端从送入的图像到当前显示图像之间发生了多少位移,由此对目标语言对象在图像中要显示的位置加以修正。
在另一个实施例中,可以对图像帧进行处理以对图像帧中的待识别对象进行追踪,从而确定在所述当前图像中待识别对象的位置。例如,可以利用特征提取等手段确定待识别对象在最初获取进行识别的图像中的具体位置,以及在要使用目标识别对象进行覆盖显示的图像中的具体位置,由此实现对待识别对象的精确覆盖。
在一个实施例中,步骤S320可以包括:基于如下至少一项,确定所述图像中要识别的待识别对象的范围、所属语言和/或语言属性:所述实时拍摄所处的地理位置;载有所述待识别对象的物体;以及所述物体在所述图像中的位置。由此,可以基于对实时翻译所处具体情景的判定,实现对翻译显示的进一步优化。
可以根据拍摄当时所处的地理位置确定拍摄所处地区使用的语言,从而实现对待识别对象本身及其所属语言的正确判断。可以根据拍摄当时所处的具体地点,确定待识别对象自身的属性。例如,可以通过移动终端的定位信息确定用户现正在博物馆参观或在公园游玩,用户拍摄进行翻译的内容是展品信息或是公园的游览说明,由此可以确定待识别对象自身的例如书面语或是说明文属性,从而为后续的精确翻译打好基础,例如,选择相应的说明文语料库。
可以对包括待识别对象的图像进行特征提取,以判断载有待识别对象的物体,从而为待识别对象精准获取与翻译提供进一步的信息。例如,如果通过特征提取判断出待识别对象是路边标识牌上的文字,则能够出于对待识别对象出现场景的准确把握而实现更为精确的翻译。再例如,在判断载体是商品标签的情况下,可以仅选择特定内容进行翻译(例如,仅翻译商品名和使用说明,暂不翻译成分表等),从而提升翻译返回速度并防止译文画面过于混乱。
还可以根据具体构图来对待识别对象的范围进行判断。例如,通常人们习惯于将拍摄目标放置在构图中央,因此在复杂背景下,可以提取图像中央物体,并且仅翻译该物体上的文字。这同样可以提升翻译返回速度并防止译文画面过于混乱。
在一个实施例中,用户可以对机器端基于对实时翻译所处具体情景的判定而进行的翻译显示加以修正。由此,本发明的翻译显示方法还包括基于用户后续操作,修改所述图像中待识别对象的范围和/或语言。例如,用户可以通过触摸屏幕上图像的其他部分来激活对这些部分的翻译或显示。还可以通过点选语言标签等方式更改源语言和/或目标语言。
另外,针对现有技术中的实时翻译多是针对单词的逐个替换的技术问题,本发明的翻译显示方案还能够通过对全文合理获取与显示,来实现更为准确的翻译,尤其是跨语系翻译。如上图1所示,对于同属印欧语系的西班牙语和英语,一一对应的逐词翻译通常并不影响对语义的理解。但对于跨语系的翻译,例如从属于印欧语系的英语到属于汉藏语系的汉语,或是从汉语到孤立语系的日语,倘若仍然进行如上所述的逐词翻译,则会面临分词需要以及语法结构不同而导致的语义混乱。
为了解决上述问题,本发明的翻译显示方案还涉及对全文的获取、翻译以及整体显示。在一个实施例中,待识别对象可以包括源语言的句子或词组。换句话说,针对对象的识别不再仅以单词为基础,而是涉及句子或词组(以及由句子组成的段落)的全文获取。在一个实施例中,全文获取包括对跨行文本的获取,并按照语义确定是否需要将跨行文本识别为同一词组、句子或段落中的内容。由此,可以通过对全文进行语法及句法上的分析,从而将识别出的待识别对象翻译成目标语言对象则可以包括根据目标语言的语法规则重排目标语言对象。重排的目标语言对象与待识别对象的原始文本可能并非是一一对应的关系,但为了显示的一致性,可以基于待识别对象的格式显示叠加的所述目标语言对象。例如,按照原始文本的分行、居中等规则进行相同或类似格式的显示。
除了上述显示格式的灵活设置之外,本发明的翻译显示方法还是使用AR技术对目标语音对象进行更为生动且符合用户需求的显示。
在一个实施例中,为了将目标语言对象与当前图像良好融合,可以将识别待识别对象的文本颜色及其所处背景色,并将翻译后的文本无痕地叠加在原始文本上。由此,识别获取的所述图像中包含的待识别对象还可以包括:识别所述待识别对象的背景;并且使用AR技术将目标语言对象叠加在当前图像中所述待识别对象的位置上进行显示包括:以所述待识别对象的背景显示叠加的所述目标语言对象。对上述目标语言对象的显示还可以包括获取原始图像显示的帧率,并以相同的帧率显示目标语言对象,从而避免由于叠加对象与背景图像闲书的帧率不同而导致的闪烁等不自然的问题。
为了进一步进行无痕翻译转换,目标语言对象的样式,例如,字体、大小、间距、分行等都可以与参照待识别对象进行选择。但在其他实施例中,由于用户进行拍摄的目的在于获取译文,因此可以对译文进行一定程度的加强显示。例如,可以通过自动或经用户点选的方式,局部放大译文部分,或是加下划线、以其他的字体、动画等突出显示。使用AR技术显示所述目标语言对象的样式可以根据如下至少一项确定:当前用户选择;大数据用户选择;所述实时拍摄所处的地理位置;以及载有所述待识别对象的物体。还可以从样式模板数据库中随机选择针对目标语言对象的样式模板。由此,能够进行更为贴合所处场景和/或流行趋势等的样式显示。
至此,已经结合附图及实施例详细说明了本发明的基于增强现实(AR)的翻译显示方法。另外,本发明的翻译显示方案还可以由一种基于增强现实的翻译显示装置实现。
图4是示出了根据本发明一实施例的基于增强现实的翻译显示装置(如下简称翻译显示装置)的结构框图。其中,翻译显示装置400的功能模块可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是,图4所描述的功能模块可以组合起来或者划分成子模块,从而实现上述发明的原理。因此,本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。
图4所示的翻译显示装置400可以用来实现图3所示的翻译显示方法,下面仅就翻译显示装置400可以具有的功能模块以及各功能模块可以执行的操作做简要说明,对于其中涉及的细节部分可以参见上文结合图3的描述,这里不再赘述。
如图4所示,本发明的翻译显示装置400可以包括:图像获取单元410、对象识别单元420、翻译单元430和显示单元440。
图像获取单元410可以用于获取实时拍摄的图像。例如,图像获取单元410可以获取实时拍摄的视频的图像帧。
对象识别单元420可以用于识别获取的所述图像中包含的待识别对象。其中,所述对象识别单元可以基于如下至少一项,确定所述图像中要识别的待识别对象的范围、所属语言和/或语言属性:所述实时拍摄所处的地理位置;载有所述待识别对象的物体;以及所述物体在所述图像中的位置。
翻译单元430可以用于将识别出的待识别对象翻译成目标语言对象。在一个优选实施例中,所述待识别对象包括源语言的句子或词组,并且,所述翻译单元430可以根据目标语言的语法规则重排所述目标语言对象。
显示单元440可以用于使用AR技术将目标语言对象叠加在当前图像中所述待识别对象的位置上进行显示。其中,所述显示单元440可以基于所述待识别对象的格式显示叠加的所述目标语言对象。在一个优选实施例中,所述识别单元420还可以用于识别所述待识别对象的背景,所述显示单元440可以以所述待识别对象的背景显示叠加的所述目标语言对象。
显示单元440可以根据如下至少一项确定使用AR技术显示所述目标语言对象的样式:当前用户选择;大数据用户选择;所述实时拍摄所处的地理位置;载有所述待识别对象的物体。
此外,如图4所示,本发明如上所述的翻译显示装置400可选地还可以包括对象追踪单元450。
对象追踪单元450可以用于对所述图像帧进行处理以对所述图像帧中的待识别对象进行追踪,从而确定在所述当前图像中待识别对象的位置。
本发明如上所述的翻译显示装置400可选地还可以包括位移修正单元460。
位移修正单元460可以用于对拍摄并显示所述图像的设备位移进行持续修正,以确定在所述当前图像中待识别对象的位置。
本发明如上所述的翻译显示装置400可选地还可以包括对象修改单元470。
对象修改单元470可以基于用户后续操作,修改所述图像中待识别对象的范围和/或语言。
至此,已经结合附图4简要介绍了本发明的基于增强现实的翻译显示装置。
图5示出了根据本发明一实施例可用于实现上述基于增强现实的翻译显示方法的数据处理的计算设备的结构示意图。
参见图5,计算设备500包括存储器510和处理器520。
处理器520可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,处理器520可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中,处理器520可以使用定制的电路实现,例如特定用途集成电路(ASIC,Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA,Field Programmable Gate Arrays)。
存储器510可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM),和永久存储装置。其中,ROM可以存储处理器520或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器510可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器510可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器510上存储有可处理代码,当可处理代码被处理器520处理时,可以使处理器520执行上文述及的基于增强现实的翻译显示方法。
上文中已经参考附图详细描述了根据本发明的翻译显示方案。通过引入AR技术,能够使得翻译译文的植入更加符合用户的多样化需求。同时,通过对原始文本进行全文获取并分析,能够获取更为准确的译文并将其进行更为符合用户需求的显示。
此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。
或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本发明的上述方法的各个步骤。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (20)

1.一种基于增强现实(AR)的翻译显示方法,包括:
获取实时拍摄的图像;
识别获取的所述图像中包含的待识别对象;
将识别出的待识别对象翻译成目标语言对象;以及
使用AR技术将目标语言对象叠加在当前图像中所述待识别对象的位置上进行显示。
2.如权利要求1所述的方法,其中,获取实时拍摄的图像包括:
获取实时拍摄的视频的图像帧,并且
所述方法还包括:
对所述图像帧进行处理以对所述图像帧中的待识别对象进行追踪,从而确定在所述当前图像中待识别对象的位置。
3.如权利要求1所述的方法,还包括:
对拍摄并显示所述图像的设备位移进行持续修正,以确定在所述当前图像中待识别对象的位置。
4.如权利要求1所述的方法,其中,识别获取的所述图像中包含的待识别对象包括:
基于如下至少一项,确定所述图像中要识别的待识别对象的范围、所属语言和/或语言属性:
所述实时拍摄所处的地理位置;
载有所述待识别对象的物体;以及
所述物体在所述图像中的位置。
5.如权利要求4所述的方法,还包括:
基于用户后续操作,修改所述图像中待识别对象的范围和/或语言。
6.如权利要求1所述的方法,其中,所述待识别对象包括源语言的句子或词组,并且,将识别出的待识别对象翻译成目标语言对象包括:
根据目标语言的语法规则重排所述目标语言对象。
7.如权利要求6所述的方法,其中,使用AR技术将目标语言对象叠加在当前图像中所述待识别对象的位置上进行显示包括:
基于所述待识别对象的格式显示叠加的所述目标语言对象。
8.如权利要求1所述的方法,其中,识别获取的所述图像中包含的待识别对象还包括:
识别所述待识别对象的背景;并且
使用AR技术将目标语言对象叠加在当前图像中所述待识别对象的位置上进行显示包括:
以所述待识别对象的背景显示叠加的所述目标语言对象。
9.如权利要求1所述的方法,其中,根据如下至少一项确定使用AR技术显示所述目标语言对象的样式:
当前用户选择;
大数据用户选择;
所述实时拍摄所处的地理位置;
载有所述待识别对象的物体。
10.一种基于增强现实(AR)的翻译显示装置,包括:
图像获取单元,用于获取实时拍摄的图像;
对象识别单元,用于识别获取的所述图像中包含的待识别对象;
翻译单元,用于将识别出的待识别对象翻译成目标语言对象;以及
显示单元,用于使用AR技术将目标语言对象叠加在当前图像中所述待识别对象的位置上进行显示。
11.如权利要求10所述的装置,其中,所述图像获取单元获取实时拍摄的视频的图像帧,并且
所述装置还包括:
对象追踪单元,用于对所述图像帧进行处理以对所述图像帧中的待识别对象进行追踪,从而确定在所述当前图像中待识别对象的位置。
12.如权利要求10所述的装置,还包括:
位移修正单元,用于对拍摄并显示所述图像的设备位移进行持续修正,以确定在所述当前图像中待识别对象的位置。
13.如权利要求10所述的装置,其中,所述对象识别单元基于如下至少一项,确定所述图像中要识别的待识别对象的范围、所属语言和/或语言属性:
所述实时拍摄所处的地理位置;
载有所述待识别对象的物体;以及
所述物体在所述图像中的位置。
14.如权利要求13所述的装置,还包括:
对象修改单元,用于基于用户后续操作,修改所述图像中待识别对象的范围和/或语言。
15.如权利要求10所述的装置,其中,所述待识别对象包括源语言的句子或词组,并且,所述翻译单元根据目标语言的语法规则重排所述目标语言对象。
16.如权利要求15所述的装置,其中,所述显示单元基于所述待识别对象的格式显示叠加的所述目标语言对象。
17.如权利要求10所述的装置,其中,所述识别单元还用于识别所述待识别对象的背景;并且
所述显示单元以所述待识别对象的背景显示叠加的所述目标语言对象。
18.如权利要求10所述的装置,其中,所述显示单元根据如下至少一项确定使用AR技术显示所述目标语言对象的样式:
当前用户选择;
大数据用户选择;
所述实时拍摄所处的地理位置;
载有所述待识别对象的物体。
19.一种计算设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-9中任何一项所述的方法。
20.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至9中任一项所述的方法。
CN201810339735.5A 2018-04-16 2018-04-16 基于增强现实的翻译显示方法、装置、计算设备及介质 Pending CN108681393A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810339735.5A CN108681393A (zh) 2018-04-16 2018-04-16 基于增强现实的翻译显示方法、装置、计算设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810339735.5A CN108681393A (zh) 2018-04-16 2018-04-16 基于增强现实的翻译显示方法、装置、计算设备及介质

Publications (1)

Publication Number Publication Date
CN108681393A true CN108681393A (zh) 2018-10-19

Family

ID=63799528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810339735.5A Pending CN108681393A (zh) 2018-04-16 2018-04-16 基于增强现实的翻译显示方法、装置、计算设备及介质

Country Status (1)

Country Link
CN (1) CN108681393A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800652A (zh) * 2018-12-20 2019-05-24 武汉璞华大数据技术有限公司 文字翻译方法及装置
CN110276349A (zh) * 2019-06-24 2019-09-24 腾讯科技(深圳)有限公司 视频处理方法、装置、电子设备及存储介质
CN111462279A (zh) * 2019-01-18 2020-07-28 阿里巴巴集团控股有限公司 图像显示方法、装置、设备及可读存储介质
CN111507112A (zh) * 2019-01-31 2020-08-07 搜狗(杭州)智能科技有限公司 一种翻译方法、装置和用于翻译的装置
WO2021120420A1 (zh) * 2019-12-16 2021-06-24 成都极米科技股份有限公司 阅读辅助方法、装置及电子设备
CN113255377A (zh) * 2021-06-08 2021-08-13 北京有竹居网络技术有限公司 一种翻译方法、装置、电子设备及存储介质
CN114402354A (zh) * 2019-09-25 2022-04-26 深圳传音控股股份有限公司 一种图片识别翻译方法、装置、终端及介质
CN115797815A (zh) * 2021-09-08 2023-03-14 荣耀终端有限公司 Ar翻译的处理方法及电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090048820A1 (en) * 2007-08-15 2009-02-19 International Business Machines Corporation Language translation based on a location of a wireless device
CN101647031A (zh) * 2007-03-22 2010-02-10 索尼爱立信移动通讯股份有限公司 图像中的文本的翻译和显示
CN103051945A (zh) * 2012-12-31 2013-04-17 广东欧珀移动通信有限公司 一种视频播放终端的字幕翻译方法、系统
CN103699527A (zh) * 2013-12-20 2014-04-02 上海合合信息科技发展有限公司 图像翻译系统及图像翻译方法
CN105706077A (zh) * 2013-11-08 2016-06-22 谷歌公司 呈现图像中描绘的文本的翻译
CN107273895A (zh) * 2017-06-15 2017-10-20 幻视互动(北京)科技有限公司 用于头戴式智能设备的视频流实时文本识别及翻译的方法
CN107273106A (zh) * 2016-04-08 2017-10-20 北京三星通信技术研究有限公司 物体信息翻译、以及衍生信息获取方法和装置
CN107609553A (zh) * 2017-09-12 2018-01-19 网易有道信息技术(北京)有限公司 图像处理方法、介质、装置和计算设备
CN109460556A (zh) * 2017-09-06 2019-03-12 北京搜狗科技发展有限公司 一种翻译方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101647031A (zh) * 2007-03-22 2010-02-10 索尼爱立信移动通讯股份有限公司 图像中的文本的翻译和显示
US20090048820A1 (en) * 2007-08-15 2009-02-19 International Business Machines Corporation Language translation based on a location of a wireless device
CN103051945A (zh) * 2012-12-31 2013-04-17 广东欧珀移动通信有限公司 一种视频播放终端的字幕翻译方法、系统
CN105706077A (zh) * 2013-11-08 2016-06-22 谷歌公司 呈现图像中描绘的文本的翻译
CN103699527A (zh) * 2013-12-20 2014-04-02 上海合合信息科技发展有限公司 图像翻译系统及图像翻译方法
CN107273106A (zh) * 2016-04-08 2017-10-20 北京三星通信技术研究有限公司 物体信息翻译、以及衍生信息获取方法和装置
CN107273895A (zh) * 2017-06-15 2017-10-20 幻视互动(北京)科技有限公司 用于头戴式智能设备的视频流实时文本识别及翻译的方法
CN109460556A (zh) * 2017-09-06 2019-03-12 北京搜狗科技发展有限公司 一种翻译方法和装置
CN107609553A (zh) * 2017-09-12 2018-01-19 网易有道信息技术(北京)有限公司 图像处理方法、介质、装置和计算设备

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800652A (zh) * 2018-12-20 2019-05-24 武汉璞华大数据技术有限公司 文字翻译方法及装置
CN111462279B (zh) * 2019-01-18 2023-06-09 阿里巴巴集团控股有限公司 图像显示方法、装置、设备及可读存储介质
CN111462279A (zh) * 2019-01-18 2020-07-28 阿里巴巴集团控股有限公司 图像显示方法、装置、设备及可读存储介质
CN111507112B (zh) * 2019-01-31 2024-02-02 北京搜狗科技发展有限公司 一种翻译方法、装置和用于翻译的装置
CN111507112A (zh) * 2019-01-31 2020-08-07 搜狗(杭州)智能科技有限公司 一种翻译方法、装置和用于翻译的装置
CN110276349B (zh) * 2019-06-24 2023-08-18 腾讯科技(深圳)有限公司 视频处理方法、装置、电子设备及存储介质
CN110276349A (zh) * 2019-06-24 2019-09-24 腾讯科技(深圳)有限公司 视频处理方法、装置、电子设备及存储介质
CN114402354A (zh) * 2019-09-25 2022-04-26 深圳传音控股股份有限公司 一种图片识别翻译方法、装置、终端及介质
WO2021120420A1 (zh) * 2019-12-16 2021-06-24 成都极米科技股份有限公司 阅读辅助方法、装置及电子设备
CN113255377A (zh) * 2021-06-08 2021-08-13 北京有竹居网络技术有限公司 一种翻译方法、装置、电子设备及存储介质
CN115797815A (zh) * 2021-09-08 2023-03-14 荣耀终端有限公司 Ar翻译的处理方法及电子设备
CN115797815B (zh) * 2021-09-08 2023-12-15 荣耀终端有限公司 Ar翻译的处理方法及电子设备
EP4287045A4 (en) * 2021-09-08 2024-07-10 Honor Device Co Ltd AR TRANSLATION PROCESSING METHOD AND ELECTRONIC DEVICE

Similar Documents

Publication Publication Date Title
CN108681393A (zh) 基于增强现实的翻译显示方法、装置、计算设备及介质
CN104111954B (zh) 一种获取位置信息的方法、装置和系统
US8489993B2 (en) Storage medium storing information processing program, information processing apparatus and information processing method
CN104794171B (zh) 标记图片地理位置信息的方法及装置
CN107391500A (zh) 文本翻译方法、装置及设备
JP5063392B2 (ja) スクリーンショット管理装置、およびスクリーンショット管理プログラム
CN110446063A (zh) 视频封面的生成方法、装置及电子设备
CN104881860A (zh) 基于照片进行定位的方法和装置
CN110276023A (zh) Poi变迁事件发现方法、装置、计算设备和介质
KR102005907B1 (ko) 증강현실 번역 어플리케이션을 이용한 표지판 및 간판 번역 서비스 시스템
CN113591437B (zh) 游戏文本翻译方法、电子设备及存储介质
CN110489674B (zh) 页面处理方法、装置及设备
CN112069347A (zh) 游记生成方法、装置、计算机设备及可读存储介质
CN111143708A (zh) 搜索装置、搜索方法、搜索程序以及记录介质
Herumurti et al. iARTour for Indonesia tourism object
CN117892140B (zh) 视觉问答及其模型训练方法、装置、电子设备、存储介质
CN108268138A (zh) 增强现实的处理方法、装置及电子设备
CN110020429A (zh) 语义识别方法及设备
CN117671426A (zh) 基于概念蒸馏和clip的可提示分割模型预训练方法及系统
CN111709418B (zh) 一种扫码过程中的提示方法、装置及设备
CN111881900A (zh) 语料生成、翻译模型训练、翻译方法、装置、设备及介质
US10657692B2 (en) Determining image description specificity in presenting digital content
Beder Language learning via an android augmented reality system
CN115018866A (zh) 一种边界确定方法、装置、存储介质及电子设备
CN110287310B (zh) 基于用户标记生成定制化电子书的方法及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201228

Address after: 310052 room 508, 5th floor, building 4, No. 699 Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: 100083 12 / F, block a, Yousheng building, 28 Chengfu Road, Haidian District, Beijing

Applicant before: UC MOBILE Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20181019

RJ01 Rejection of invention patent application after publication