CN109840465A - 识别图像中的文本的电子装置 - Google Patents

识别图像中的文本的电子装置 Download PDF

Info

Publication number
CN109840465A
CN109840465A CN201811441387.9A CN201811441387A CN109840465A CN 109840465 A CN109840465 A CN 109840465A CN 201811441387 A CN201811441387 A CN 201811441387A CN 109840465 A CN109840465 A CN 109840465A
Authority
CN
China
Prior art keywords
text
processor
character
electronic device
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811441387.9A
Other languages
English (en)
Inventor
崔株溶
金珍铉
金美秀
崔廷印
崔显硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN109840465A publication Critical patent/CN109840465A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/17Image acquisition using hand-held instruments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

提供了一种电子装置。该电子装置包括外壳、显示器、图像传感器、无线通信电路、处理器和耦接到处理器的存储器。存储器存储指令。指令在被执行时使得处理器:从图像传感器接收图像数据;基于图像数据的至少部分确定第一文本;在显示器上显示所确定的第一文本;通过无线通信电路将图像数据发送到外部服务器;从外部服务器接收包括第二文本的非图像数据并与第一文本一起在显示器上显示第二文本和/或在显示所确定的第一文本之后,基于第二文本的至少部分来改变在显示器上显示的第一文本的至少部分。

Description

识别图像中的文本的电子装置
相关申请的交叉引用
本申请基于并要求于2017年11月29日在韩国知识产权局提交的韩国专利申请第10-2017-0162238号的优先权,其公开内容在此通过引用方式被整体并入。
技术领域
本公开涉及识别图像中包含的文本的电子装置。
背景技术
诸如智能电话机、平板个人计算机(PC)等的电子装置可以执行诸如呼叫、视频回放、因特网搜索等的各种功能。电子装置可以配备有相机模块(包含镜头、图像传感器等)。电子装置可以通过使用相机模块来捕获照片或视频。
近来,已经开发了识别(例如光学字符识别(OCR))通过相机模块捕获的图像中包含的文本并且将识别出的文本翻译成易于用户识别的语言的技术。
以上信息被提供作为背景信息,仅用于帮助理解本公开。没有做出任何确定并且没有断言上述任何一个是否可用作本公开的现有技术。
发明内容
相关技术的电子装置可以使用通过内部计算来识别字符的方法。在这种情况下,可以通过在不使用外部服务器的情况下执行字符识别处理来显示相对快速的翻译结果。但是,翻译的准确性可能会降低。
相关技术的另一电子装置可以使用通过外部服务器的计算来识别字符的方法。在这种情况下,翻译的准确性可能会增加。但是,可能会延迟显示翻译结果的时间。
相关技术的另一电子装置可通过组合通过内部计算来识别字符的方法和通过外部服务器的计算来识别字符的方法来识别字符。在这种情况下,难以像实时视图图像那样实时地向用户显示翻译结果,这是因为仅辅助地使用一种方法。
本公开各方面旨在解决至少上述问题和/或缺点并提供至少下述优点。因此,本公开一方面提供一种用于处理图像数据以便以多种语言之一提供文本的装置和方法。
其它方面将部分地在下面描述中阐述,并且部分地将从描述中清楚或者可以通过实践所提供的实施例来了解。
根据本公开一方面,提供一种电子装置。所述电子装置包括:外壳;通过外壳的第一部分暴露的显示器;通过外壳的第二部分暴露的图像传感器;无线通信电路;耦接到显示器、图像传感器和无线通信电路的处理器;及耦接到处理器的存储器。存储器可以存储指令。当所述指令被执行时,可以使得处理器从图像传感器接收图像数据,基于图像数据的至少部分确定第一文本,在显示器上显示所确定的第一文本,通过无线通信电路向外部服务器发送图像数据、从外部服务器接收包含第二文本的非图像数据并在显示器上显示第二文本和第一文本和/或在显示所确定的第一文本后基于第二文本的至少部分而改变在显示器上显示的第一文本的至少部分。
根据本公开各种实施例的电子装置可以通过同时使用通过内部计算来识别字符的过程和使用外部服务器来识别字符的过程来提高字符识别的速度和字符识别的准确性。
根据本公开各种实施例的电子装置可以存储与通过服务器在先前图像帧中执行的字符识别相关联的语言,并且可以通过使用所存储的翻译语言通过内部计算来提高字符识别过程的速度。
根据本公开各种实施例的电子装置可以自然地将通过内部计算的字符识别结果切换到使用外部服务器的字符识别结果,从而在字符识别过程中减少用户可以感测的差异。
通过以下结合附图进行的公开了本公开各种实施例的详细描述,本公开的其它方面、优点和显着特征对于本领域技术人员来说将变得清楚。
附图说明
通过以下结合附图的描述,本公开的某些实施例的以上和其它方面、特征和优点将更加清楚,在附图中:
图1示出了根据本公开各种实施例的能够识别图像中的字符的电子装置;
图2是根据本公开各种实施例的电子装置的内部框图;
图3是示出根据本公开各种实施例的字符识别过程的流程图;
图4示出根据本公开各种实施例的本地字符识别结果和服务器字符识别结果之间的差异;
图5是示出根据本公开各种实施例的通过翻译服务器的对第一文本的翻译过程的信号流程图;
图6是根据本公开各种实施例的与识别目标语言的设置相关联的流程图;
图7是根据本公开各种实施例的与识别目标语言的设置相关联的视图;
图8是根据本公开各种实施例的电子装置的内部框图;
图9是示出根据本公开各种实施例的图像转换效果的屏幕视图;
图10是根据本公开各种实施例的与多种语言的感测相关联的公开视图的屏幕;和
图11是根据本公开各种实施例的网络环境中的电子装置的框图。
贯穿附图,相同附图标记将被理解为表示相同部件、组件和结构。
具体实施方式
提供以下参考附图的描述以帮助全面理解由权利要求及其等同限定的本公开的各种实施例。它包括各种特定细节以帮助理解,但这些仅被视为示例性的。因此,本领域普通技术人员将认识到,在不脱离本公开的范围的情况下,可以对本文描述的各种实施例进行各种改变和修改。另外,为了清楚和简明,可以省略对公知功能和结构的描述。
在以下描述和权利要求中使用的术语和词语不限于书面含义,而是仅由发明人使用以使得能够清楚和一致地理解本公开。因此,对于本领域技术人员来说清楚的是,提供下列的对本公开各种实施例的描述仅用于说明目的,而不是为了限制由所附权利要求及其等同限定的本公开的目的。
应当理解,除非上下文另有明确规定,否则单数形式“一”、“一个”和“该”包括复数指代。因此,例如,对“一个组件表面”的引用包括对一个或多个这样的表面的引用。
在本文公开的公开中,这里使用的表达“具有”、“可以具有”、“包括”和“包含”或“可以包括”和“可以包含”表示存在相应的特征(例如诸如数值、函数、操作或组件)但不排除存在其他功能。
在本文公开的公开内容中,本文使用的表达“A或B”、“A或/和B中的至少一个”或“A或/和B中的一个或多个”等可包括相关所列项目的一个或多个的任何和所有组合。例如,术语“A或B”、“A和B中的至少一个”或“A或B中的至少一个”可以指以下所有情况:(1)其中包括至少一个A;(2)其中包括至少一个B;或(3)其中包括至少一个A和至少一个B两者。
这里使用的诸如“第一”、“第二”等术语可以指代本公开各种实施例的各种元件,但是不限制这些元件。例如,这些术语仅用于将一个元件与另一元件区分开,并且不限制元件的顺序和/或优先级。例如,第一用户设备和第二用户设备可以表示不同的用户设备,而不管顺序或重要性。例如,在不脱离本公开的范围的情况下,第一元件可以被称为第二元件,并且类似地,第二元件可以被称为第一元件。
应当理解,当一个元件(例如第一元件)被称为“(可操作地或通信地)与另一元件(例如第二元件)耦接”或“连接”到“另一元件”时。它可以直接与另一元件耦接/连接或连接到另一元件,或者可以存在插入元件(例如第三元件)。相反,当一个元件(例如第一元件)被称为“与另一元件直接耦接”或“直接连接到”另一元件(例如第二元件)时,应该理解不存在介入元件(例如第三元件)。
根据情况,这里使用的表达“被配置为”可用作例如“适合于”、“具有能力”、“被设计为”、“适应于”、“被使得”、或“能够”的表述。术语“被配置为(或被设置为)”不得仅表示在硬件上“被专门设计为”。相反,表述“被配置为”的设备可以意味着该设备“能够”与另一设备或其他组件一起操作。例如,“被配置为(或被设置为)执行A、B和C”的处理器可以表示用于执行相应操作的专用处理器(例如嵌入式处理器)或通用处理器(例如中央处理单元(CPU)或应用处理器),其可以通过执行存储在存储装置中的一个或多个软件程序来执行相应的操作。
除非本文另有定义,否则本文使用的所有术语(包括技术或科学术语)可具有本领域技术人员通常理解的相同含义。将进一步理解,在字典中定义并且通常使用的术语也应当按照相关领域中的惯例来解释,而不是以理想化或过于正式的含义来解释,除非在本公开的各种实施例中明确地如此定义。在一些情况下,即使术语是在说明书中定义的术语,也可以不将它们解释为排除本公开的实施例。
根据本公开的各种实施例的电子装置可以包括智能手机、平板个人计算机(PC)、移动电话、视频电话、电子书阅读器、台式PC、膝上型PC、上网本计算机、工作站、服务器、个人数字助理(PDA)、便携式多媒体播放器(PMP)、运动图像专家组第1阶段或第2阶段(MPEG-1或MPEG-2)音频第3层(MP3)播放器、移动医疗设备、相机和可穿戴设备中的至少之一。根据本公开的各种实施例,可穿戴设备可包括附件(例如手表、戒指、手镯、脚镯、眼镜、隐形眼镜或头戴式设备(HMD))、服装集成类型(例如电子服装),身体附着类型(例如皮肤垫或纹身)或可植入类型(例如可植入电路)。
在下文中,将参考附图描述根据本公开的实施例的电子装置。这里使用的术语“用户”可以指使用电子装置的人或可以指使用电子装置的设备(例如人工智能电子装置)。
图1示出了根据本公开各种实施例的能够识别图像中的字符的电子装置。
参见图1,字符识别系统100可以包括电子装置101、字符识别服务器102和翻译服务器103。字符识别系统100可以识别由电子装置101捕获的图像中的字符(例如光学字符识别(OCR)),可以将字符翻译成另一种语言,并且可以将翻译结果显示在电子装置101的显示器110上。
根据各种实施例,电子装置101可以包括显示器110、外壳(或主体单元)120、相机模块(或图像传感器)130、通信电路(未示出)、处理器160和存储器170。
显示器110可以输出诸如文本、图像等的内容。例如,显示器110可以基于通过相机模块130收集的图像数据输出实时视图(或预览图像)。用户可以在验证通过实时视图图像捕获的对象105的同时捕获照片或视频。
根据各种实施例,显示器110可以显示与实时视图图像中包括的字符相关联的翻译的文本(下文中称为“翻译文本”)。例如,当用户想要知道在对象105中写入的外语的含义时,用户可以通过使用相机模块130来捕获对象105。用户可以验证显示器110的实时视图图像中显示的翻译文本并且可以理解所显示的外语的含义。
外壳(或主体单元)120可以固定显示器110并且可以保护各种内部部件。外壳120可包括位于外壳120的外部的按钮(未示出)、传感器窗口(未示出)、扬声器(未示出)、相机模块130等,。
外壳(或主体单元)120可包括位于外壳内部并且是驱动电子装置101所需的各种组件,诸如通信电路(未示出)、处理器160、存储器170、印刷电路板(未示出)、电池(未示出)等。
处理器160可以执行用于驱动电子装置101的各种数据处理和计算。根据各种实施例,处理器160可以感测通过相机模块130收集的图像中包括的字符(例如OCR)。处理器160可以在显示器110上显示通过将感测的字符翻译成另一种语言而获得的翻译文本。
根据各种实施例,处理器160可以通过使用电子装置101内部的数据处理的字符识别过程(在下文中,称为“本地字符识别过程”)或者通过使用外部字符识别服务器102的字符识别过程(以下称为“服务器字符识别过程”)识别包括在通过相机模块130收集的图像中的字符。
例如,处理器160可通过显示器110输出与对象105相关联的实时视图图像111。实时视图图像111可以包括第一字符区域150和第二字符区域155。
在本地字符识别过程中,处理器160可以不识别在其上执行图形处理的第二字符区域155中的字符,并且可以将第二字符区域155作为一般图像区域处理。处理器160可以确定第一字符区域150是包括字符的区域并且可以执行本地字符识别过程。
处理器160可以分别将包括在第一字符区域150中的‘S’、‘o’、‘f’、‘t’、‘&’、‘c’、‘l’、‘e’、‘a’、‘n’、‘F’、‘a’、‘c’、‘i’、‘a’、‘l’、‘T’、‘i’、‘s’、‘s’、‘u’、‘e’和‘s’识别为字符。处理器160可以组合识别出的字符以分别将“Soft”、“&”、“Clean”、“Facial”和“Tissues”识别为单词。处理器160可以组合识别出的单词以将“Soft&Clean FacialTissues”识别为一行。处理器160可以显示实时视图图像112,该实时视图图像112主要显示通过翻译“Soft&Clean Facial Tissues”获得的150a。
当从外部字符识别服务器102接收到其上执行图形处理的第二字符区域155的识别结果时,处理器160可以显示实时视图图像113,该实时视图图像113显示通过翻译包括在第二字符区域155中的“New Face”获得的155a。
将通过图2-10提供关于本地字符识别过程或服务器字符识别过程的附加信息。
存储器170可以存储用于字符识别所需的信息、字符识别结果、翻译结果等。
字符识别服务器102可以从电子装置101接收图像数据。字符识别服务器102可以感测包括在所接收的图像数据中的字符。字符识别服务器102可以向电子装置101发送通过字符识别过程感测的第二文本和第二文本的放置信息(例如坐标信息、尺寸信息、形状信息等)。
翻译服务器103可以从电子装置101接收要翻译的文本(下文中称为原始文本)(例如第一文本或第二文本)和语言信息(例如原始语言和翻译目标语言)。翻译服务器103可以向电子装置101发送通过将原始文本翻译成翻译目标语言而获得的文本(下文中称为“翻译文本”)。
根据各种实施例,字符识别服务器102可以直接向翻译服务器103发送服务器字符识别结果。翻译服务器103可以向电子装置101发送与从字符识别服务器102接收的文本相对应的翻译文本。翻译服务器103可以从字符识别服务器102或电子装置101接收关于翻译目标语言的信息,或者可以基于预定的语言信息生成翻译文本。
图2是根据本公开各种实施例的电子装置的内部框图。图2中举例说明了作为字符识别所需的组件实施例。然而,各种实施例不限于此。
参见图2,相机模块130可以收集图像数据。相机模块130可以将通过镜头输入的光转换为电信号以生成图像数据。
根据实施例,所生成的图像数据可以用于通过显示器110输出实时视图图像(例如图1中的实时视图图像111)。可以根据显示器110的分辨率来改变实时视图图像的质量。例如,可以生成在全高清(HD)(FHD)的显示器110上显示的图像作为预览图像,其分辨率被转换为FHD分辨率。
根据一个实施例,所生成的图像数据可以存储在存储器170中。可以存储其分辨率根据用户的定义而改变的存储图像。例如,可以在存储器170中存储具有5兆字节、3兆字节等容量的图像。
根据各种实施例,通过相机模块130收集的用于字符识别的图像数据(下文中称为“视觉输入”)可以被发送到处理器160中的字符识别单元210。字符识别单元210可以基于所接收的图像数据执行本地字符识别过程。可以通过本地字符识别过程来提取第一文本和第一文本的放置信息(例如坐标信息、尺寸信息、形状信息等)。
根据各种实施例,通过相机模块130收集的用于字符识别的图像数据(视觉输入)可以通过通信电路140发送到外部的字符识别服务器102。字符识别服务器102可以基于所接收的图像数据执行服务器字符识别过程。可以通过服务器字符识别过程来提取第二文本和第二文本的放置信息(例如坐标信息、大小信息、形状信息等)。
根据各种实施例,处理器160可包括字符识别单元210、语言设置单元220、识别数据解析器230、翻译数据解析器240和图像处理单元250。字符识别单元210、语言设置单元220、识别数据解析器230、翻译数据解析器240和图像处理单元250可以是由处理器160执行的程序或一组指令。
字符识别单元210可以执行本地字符识别过程。字符识别单元210可以从相机模块130接收视觉输入并且可以从视觉输入中提取字符。字符识别单元210可以将所提取的字符转换为结构化数据。
在一个实施例中,字符识别单元210可以以字符、单词、行、块和页面为单位构造字符。例如,当视觉输入中包括“Good morning”时,字符识别单元210可以分别识别‘G’、‘o’、‘o’、‘d’、‘m’、‘o’、‘r’、‘n’、‘i’、‘n’和‘g’作为字符。字符识别单元210可以将所识别的字符组合以分别将“Good”和“morning”识别为单词。字符识别单元210可以将所识别的单词组合以将“Good morning”识别为一行。当视觉输入中包含一行时,块和页面可以与该行相同。
语言设置单元220可以设置字符识别单元210执行本地字符识别过程所需的识别目标语言。例如,当语言设置单元220将识别目标语言设置为英语时,字符识别单元210可以识别包括在视觉输入中的英语字符。根据各种实施例,语言设置单元220可以根据对先前图像帧执行服务器字符识别过程的结果来改变识别目标语言。可以通过图6和图7提供关于识别目标语言的设置的附加信息。
存储器170可以存储字符识别过程所需的信息。例如,存储器170可以存储与语言设置相关联的翻译结果存储器DB 225。语言设置单元220可以参考存储在翻译结果存储器DB 225中的识别目标语言。
识别数据解析器(第一数据管理器)230可以以能够被翻译服务器103容易识别的形式来转换根据本地字符识别结果的第一文本或者根据服务器字符识别结果的第二文本。例如,识别数据解析器230可以以行为单位转换所接收的第一文本,使得翻译服务器103容易地翻译所接收的第一文本。
识别数据解析器230可以通过通信电路140将转换的第一文本或转换的第二文本发送到翻译服务器103。可以通过图5提供关于识别数据解析器230的附加信息。
翻译数据解析器(第二数据管理器)240可以通过通信电路140接收由翻译服务器103翻译的文本(下文中称为“翻译文本”)。翻译数据解析器240可以从所接收的翻译文本中删除不必要的数据(例如符号识别标记、根据传输添加的数据等)并且可以提取要通过显示器110显示的数据。
例如,当请求翻译服务器103将韩语单词“&”翻译成英语时,翻译数据解析器240可以从翻译服务器103接收“Snack&Candy”作为翻译文本。翻译数据解析器240可以将在“Snack&Candy”中的“&”转换成“&”。
图像处理单元250可以从翻译数据解析器240接收要通过显示器110显示的文本和放置信息。图像处理单元250可以基于接收到的信息生成要在显示器110上显示的输出图像。
通信电路140可以从字符识别服务器102和翻译服务器103接收数据和/或向字符识别服务器102和翻译服务器103发送数据。
根据各种实施例,通信电路140可以将从相机模块130接收的视觉输入发送到字符识别服务器102。例如,通信电路140可以将JPEG图像和识别分类信息发送到字符识别服务器102。
通信电路140可以将字符识别服务器102执行服务器字符识别过程的结果发送到识别数据解析器230。通信电路140可以从字符识别服务器102接收识别的第二文本和第二文本的放置信息以将第二文本和第二文本的放置信息发送到识别数据解析器230。
根据各种实施例,通信电路140可以将通过本地字符识别过程或服务器字符识别过程识别的原始文本发送到翻译服务器103。通信电路140可以接收与原始文本相关联的翻译文本以将翻译文本传送到翻译数据解析器240。
字符识别服务器102可以从电子装置101接收视觉输入(图像数据)。字符识别服务器102可以感测包括在接收的视觉输入中的字符。字符识别服务器102可以向电子装置101发送通过字符识别过程感测的第二文本和第二文本的放置信息(例如坐标信息、尺寸信息、形状信息等)。在一个实施例中,字符识别服务器102可以直接将服务器字符识别结果发送到翻译服务器103。
翻译服务器103可以从电子装置101接收原始文本(第一文本或第二文本)和语言信息(例如原始语言和翻译目标语言)。翻译服务器103可以向电子装置101发送通过将原始文本翻译成翻译目标语言而获得的翻译文本。
根据实施例,翻译服务器103可以将与从字符识别服务器102接收的文本相对应的翻译文本发送到电子装置101。翻译服务器103可以基于关于从字符识别服务器102或电子装置101接收的翻译目标语言的信息或预定语言信息来生成与从字符识别服务器102接收的文本相对应的翻译文本。
图3是示出根据本公开各种实施例的字符识别过程的流程图。
参见图3,在方法300的操作310中,处理器160可以从相机模块130接收第一图像数据。第一图像数据可以是用于执行字符识别过程的视觉输入。
根据各种实施例,当出现单独的用户输入时或者当执行指定的应用时,处理器160可以执行字符识别过程。例如,当在执行用于捕获照片或视频的相机应用时(在输出实时视图图像时)生成单独的用户输入(例如按钮输入或语音输入)时,处理器160可以执行字符识别过程。又例如,处理器160可以响应于支持字符翻译的另一个应用(例如旅行应用)的调用而自动执行字符识别过程。
在操作320中,处理器160可以基于第一图像数据的至少部分来确定第一文本。第一文本可以是根据本地字符识别过程感测的文本。处理器160可以生成第一文本,该第一文本是通过从视觉输入中提取字符而构造的数据。
在一个实施例中,第一文本可以是字符、单词、行、块或页面中的一个单元。例如,第一文本可以是一个字符单元,例如‘A’、‘B’或‘C’。又例如,第一文本可以是单词单元,例如“Father”、“Mon”、“Man”、“Woman”等。
处理器160可以识别每个字符;并且处理器160可以基于放置关系的信息、每一字符的位置、大小等来确定是否将所识别的字符保持为一个字符或者是否将所识别的字符构造为单词、行等。
根据各种实施例,处理器160可以将第一文本的放置信息(例如坐标信息、尺寸信息、形状信息等)与第一文本组合。
根据各种实施例,处理器160可以请求翻译服务器103翻译作为原始文本的第一文本。
在操作330中,处理器160可以在显示器110上显示第一文本。在一实施例中,处理器160可以基于第一文本的放置信息(例如坐标信息、尺寸信息、形状信息等)组合实时视图图像和第一文本以在显示器110上显示组合结果。
在服务器字符识别过程终止之前,处理器160可以在显示器110上显示根据本地字符识别过程感测到的第一文本,从而减少用户的等待时间。
根据各种实施例,当在本地字符识别过程进行之后电子装置101在移动指定范围时,处理器160可以基于电子装置101的移动范围来校正第一文本的放置信息(例如坐标信息、尺寸信息、形状信息等)。
在操作340中,处理器160可以通过通信电路140将第一图像数据(视觉输入)发送到外部字符识别服务器102。处理器160可以在操作320和操作330之前执行操作340;或者,处理器160可以在操作320和操作330之间执行操作340。
在操作350中,处理器160可以通过通信电路140从字符识别服务器102接收包括第二文本的非图像数据。第二文本可以是根据服务器字符识别过程而感测到的文本。字符识别服务器102可以生成第二文本,该第二文本是通过从视觉输入中提取字符而构造的数据。
根据各种实施例,字符识别服务器102可以将第二文本的放置信息(例如坐标信息、尺寸信息、形状信息等)与第二文本组合。字符识别服务器102可以将感测到的第二文本和第二文本的放置信息发送到电子装置101。
根据各种实施例,处理器160可以请求翻译服务器103翻译作为原始文本的第二文本。
在操作360中,处理器160可以在显示器110上一起显示第一文本和第二文本。服务器字符识别过程的第二文本可以是在本地字符识别过程中未被感测到的文本。处理器160可以一起输出根据本地字符识别过程的识别结果和根据服务器字符识别过程的结果,从而提高字符识别的准确性。
在一个实施例中,处理器160可以基于第一文本和第二文本中的每一个的放置信息(例如坐标信息、尺寸信息、形状信息等)将实时视图图像与第一文本和第二文本组合以在显示器110上显示组合的结果。
根据实施例,处理器160可以将根据本地字符识别过程的识别结果与根据服务器字符识别过程的结果进行比较,以在显示器110上显示添加的文本。处理器160可以附加地在一个区域中显示文本,在该区域中,在本地字符识别过程中未检测到字符,从而提高字符识别的准确性。根据各种实施例,处理器160可以将图像转换效果(例如在模糊之后锐化第二文本的效果)应用于添加的文本以在显示器110上显示添加的文本。可以通过图9提供关于图像转换效果的附加信息。
根据另一实施例,处理器160可以基于第二文本的至少部分来改变在显示器110上显示的第一文本的至少部分。例如,处理器160可以将根据本地字符识别过程的识别结果与根据服务器字符识别过程的结果进行比较;当结果表明根据本地字符识别过程的识别结果和根据服务器字符识别过程的结果彼此不同时,处理器160可以优先显示第二文本。
根据另一实施例,处理器160可以仅在显示器110上显示作为服务器字符识别结果的第二文本,而不显示作为本地字符识别结果的第一文本。
图4是示出根据本公开各种实施例的本地字符识别结果与服务器字符识别结果之间的差异的屏幕视图。
参见图4,在视图400中,相机模块130可以收集用于字符识别的图像数据(视觉输入)401。收集的图像数据401可以被发送到处理器160。图像数据401可以包括第一字符区域411和第二字符区域412。
处理器160可以基于接收的图像数据401执行本地字符识别过程。处理器160可以从图像数据401中提取字符。处理器160可以将提取的字符转换为结构化数据。例如,处理器160可以不识别在其上执行图形处理的第一字符区域411中的字符,并且可以将第一字符区域411作为一般图像区域处理。处理器160可以确定第二字符区域412是包括字符的区域并且可以执行本地字符识别过程。
关于包括在第二字符区域412中的“的2括在第二字符区域以执行本地字符识别,处理器160可以分别识别出‘I’、‘a’、‘m’、‘a’、‘b’、‘u’、‘s’、‘i’、‘n’、‘e’、‘s’、‘s’、‘m’、‘a’、‘n’和‘.’是字符421。处理器160可以将识别出的字符421组合以分别识别“I”、“am”、“a”、“businessman”和“.”为单词422。处理器160可以组合识别出的单词422以识别“I am abusinessman”是一行423。
在第一翻译屏幕402中,处理器160可以基于本地字符识别结果输出本地翻译文本412a。本地翻译文本412a可以是通过翻译在本地字符识别过程中感测到的第一文本420而获得的文本。
通过相机模块130收集的图像数据401也可以被发送到外部字符识别服务器102。图像数据401可以包括第一字符区域411和第二字符区域412。
字符识别服务器102可以基于接收的图像数据401执行服务器字符识别过程。字符识别服务器102可以从图像数据401中提取字符。字符识别服务器102可以将提取的字符转换为结构化数据。
例如,字符识别服务器102可以确定在其上执行图形处理的第一字符区域411和第二字符区域412是包括字符的区域,并且可以执行服务器字符识别过程。
关于包括在第一字符区域411中的“的1括在第一字符区域可以执行服务器字符识别,字符识别服务器102可以分别识别‘L’、‘a’、‘d’、‘i’、‘e’、‘s’、‘a’、‘n’、‘d’、‘G’、‘e’、‘n’、‘t’、‘l’、‘e’、‘m’、‘e’和‘n’作为字符431。字符识别服务器102可以组合识别出的字符431以分别识别“Ladies”、“and”、“Gentlemen”为单词432。字符识别服务器102可以组合识别出的单词432以识别“Ladies and Gentlemen”是一行433。
关于包括在第二字符区域412中的“I am a businessman.”,字符识别服务器102可以分别识别‘I’、‘a’、‘m’、‘a’、‘b’、‘u’、‘s’、‘i’、‘n’、‘e’、‘s’、‘s’、‘m’、‘a’、‘n’和‘.’为字符441。字符识别服务器102可以组合识别的字符441以分别识别“I”、“am”、“a”、“businessman”和“.”为单词442。字符识别服务器102可以组合识别的单词442以识别“I ama businessman.”是一行443。
根据各种实施例,在第二翻译屏幕403中,处理器160可以基于本地字符识别结果和服务器字符识别结果输出服务器翻译文本411a和本地翻译文本412a。本地翻译文本412a可以是通过翻译在本地字符识别过程中感测到的第一文本420而获得的文本,并且服务器翻译文本411a可以是通过翻译在服务器字符识别过程中感测到的第二文本430和440而获得的文本。
根据各种实施例,处理器160可以将图像转换效果(例如在对第一字符区域411执行模糊处理之后锐化服务器翻译文本411a的效果)应用于添加的服务器翻译文本411a以显示添加服务器翻译文本411a。
根据各种实施例,当从字符识别服务器102接收到服务器字符识别结果时,处理器160可以将服务器字符识别结果与本地字符识别结果进行比较。例如,当服务器字符识别结果和本地字符识别结果彼此相同时,处理器160可以保持根据本地字符识别过程的翻译结果。当服务器字符识别结果和本地字符识别结果彼此不同时,处理器160可以基于根据服务器字符识别过程的翻译结果而输出翻译文本。
图5是示出根据本公开各种实施例的通过翻译服务器的第一文本的翻译过程的信号流程图。
参见图5,在方法500的操作510中,字符识别单元210可将在本地字符识别过程中感测到的第一文本发送到识别数据解析器230。
在操作520中,识别数据解析器230可以以能够由翻译服务器103容易识别的形式来转换根据本地字符识别结果的第一文本。例如,识别数据解析器230可以以行为单位来转换所接收的第一文本使得翻译服务器103容易地翻译所接收的第一文本。
在操作530中,识别数据解析器230可以将第一文本和语言信息发送到翻译服务器103。语言信息可以包括第一文本的原始语言和关于翻译请求语言的信息。例如,识别数据解析器230可以将“./ko/en”的形式的数据发送到翻译服务器103。
在操作540中,翻译数据解析器240可以从翻译服务器103接收翻译的文本。例如,翻译数据解析器240可以从翻译服务器接收“Hibiscus have bloomed.”形式的数据。
在操作550中,翻译数据解析器240可以转换所接收的翻译文本。翻译数据解析器240可以删除不必要的数据,并且可以提取要通过显示器110显示的数据。翻译数据解析器240可以将接收的翻译文本与坐标信息、语言信息等组合。例如,翻译数据解析器240可以将“Hibiscus have bloomed.”形式的翻译文本转换为“(10.10-100.30)/Hibiscus havebloomed./ko/en”的形式。
在操作560中,翻译数据解析器240可以将转换后的翻译文本发送到图像处理单元250。
在操作570中,图像处理单元250可以通过显示器110显示接收的翻译文本。
根据各种实施例,识别数据解析器230可以接收根据服务器字符识别结果的第二文本。识别数据解析器230可以以与操作520-570相同或类似的方式翻译第二文本。
图6是根据本公开各种实施例的与识别目标语言的设置相关联的流程图。
参见图6,在方法600的操作610中,处理器160可以通过相机模块130接收用于字符识别的图像帧(视觉输入)。
在操作620中,处理器160可以确定在先前图像帧中通过字符识别服务器102接收的识别语言信息是否包括在存储器170中(例如翻译结果存储器DB)。
当存储的识别语言信息不存在时,在操作630,处理器160可以基于根据缺省设置的识别语言信息执行本地字符识别过程以感测第一文本。例如,根据缺省设置的识别语言信息可以是英语,并且处理器160可以执行检测英语语言字符(字母表)的过程。
根据各种实施例,当通过单独执行的服务器字符识别过程从字符识别服务器102接收识别语言信息时,处理器160可以将识别语言信息存储在存储器170中。可以基于存储在存储器170中的识别语言信息,快速地对后续图像帧执行本地字符识别过程。
当存储了关于先前图像帧的识别语言信息时,在操作640,处理器160可以基于存储的识别语言信息执行本地字符识别过程以感测第一文本。例如,当存储的识别语言信息是日语时,处理器160可以执行感测日语字符(平假名或片假名)的过程。
在操作650中,处理器160可以在显示器110上显示感测到的第一文本(或第一文本的翻译文本)。
根据各种实施例的字符识别方法可以由电子装置执行;字符识别方法可包括:从相机模块的图像传感器接收图像数据;基于图像数据的至少部分确定第一文本;在显示器上显示所确定的第一文本;通过通信电路将图像数据发送到外部服务器;从外部服务器接收包括第二文本的非图像数据;在显示了确定的第一文本之后,与第一文本一起在显示器上显示第二文本和/或基于第二文本的至少部分改变显示器上显示的第一文本的至少部分。
图7是根据本公开各种实施例的与识别目标语言的设置相关联的视图。
参见图7,字符识别系统700可以识别由电子装置101捕获的图像中的字符,以在电子装置101的显示器110上显示识别的字符。电子装置101的处理器160可以接收连续帧的图像数据。处理器160可以在显示器110上顺序输出图像数据以输出实时视图图像。处理器160可以将通过本地字符识别过程或服务器字符识别过程在图像帧中识别的文本添加到实时视图图像以显示添加的结果。
根据各种实施例,处理器160可以确定在其上执行本地字符识别过程或服务器字符识别过程的图像帧。例如,处理器160可以对连续的第一图像帧F0和第二图像帧F1执行本地字符识别过程或服务器字符识别过程。
作为另一示例,处理器160可以对具有特定时间间隔(或帧间隔)的第一图像帧F0和第二图像帧F1执行本地字符识别过程或服务器字符识别过程。
根据各种实施例,处理器160可以动态地确定在其上执行本地字符识别过程或服务器字符识别过程的图像帧。例如,当图像帧之间的图像变化不大或者当电子装置的移动距离小时,处理器160可以加宽其上执行字符识别过程的第一图像帧F0和第二图像帧F1之间的时间间隔。再例如,当图像帧之间的图像变化很大或者当电子装置的移动距离很大时,处理器160可以缩小其上执行字符识别过程的第一图像帧F0和第二图像帧F1之间的时间间隔。
处理器160可以从相机模块130接收与在其上执行字符识别过程的第一图像帧F0相关联的数据。处理器160可以基于第一图像帧F0的数据执行本地字符识别过程。本地字符识别过程可以是通过电子装置101的内部计算而不使用外部字符识别服务器102分析包括在第一图像帧F0中的文本的过程。
处理器160可以确定识别语言信息是否存储在翻译结果存储器DB 225中。当在第一图像帧F0之前没有执行字符识别过程时,单独的识别语言信息可以不存储在翻译结果存储器DB 225中。在这种情况下,处理器160可以基于根据缺省设置的识别语言信息执行本地字符识别过程以感测第一文本。可以通过显示器110输出所感测的第一文本。
除了本地字符识别过程之外,可以将第一图像帧F0的数据发送到外部字符识别服务器102。可以在本地字符识别过程之前或者在执行本地字符识别过程时执行该发送。
当终止与第一图像帧F0相关联的服务器字符识别过程时,处理器160可以从字符识别服务器102接收识别语言信息。对于后续图像帧中的本地字符识别过程,处理器160可以将识别语言信息存储在翻译结果存储器DB 225中。
处理器160可以从相机模块130接收与在其上执行字符识别过程的第二图像帧F1相关联的数据。处理器160可以基于第二图像帧F1的数据来执行本地字符识别过程。关于先前已经在其上执行了字符识别的第一图像帧F0的识别语言信息可以存储在翻译结果存储器DB 225中。存储的识别语言信息可以在与第一图像帧F0相关联的服务器字符识别过程被终止之后存储。
处理器160可以根据存储的识别语言信息执行本地字符识别过程以感测第一文本。可以通过显示器110输出所感测的第一文本。
处理器160可以以与第二图像帧F1相同的方式对第三图像帧F2和第四图像帧F3执行本地字符识别过程。
可以根据与先前图像帧相关联的服务器字符识别结果而将识别语言信息存储在翻译结果存储器DB 225中。处理器160可以不使用自动语言感测方法来执行本地字符识别过程。处理器160可以基于缺省设置或预先存储的识别语言信息来执行本地字符识别过程。这样,本地字符识别过程的速度可以增加,用户的等待时间可以减少。
图8是根据本公开各种实施例的验证翻译历史的电子装置的内部框图。
参见图8,字符识别系统800可以包括电子装置701、字符识别服务器702和翻译服务器703。字符识别系统800可以识别由电子装置701捕获的图像中的字符、可以将字符翻译成另一种语言,并且可以在电子装置701的显示器710上显示翻译的字符。字符识别系统800的操作可以与图1或2中的字符识别系统100相同或相似。
根据各种实施例,电子装置701可以包括显示器710、相机模块730、通信电路740、处理器760和存储器770。处理器760可以包括字符识别单元810、语言设置单元820、识别数据解析器830、翻译数据解析器840、翻译结果比较器860和图像处理单元850。字符识别单元810、语言设置单元820、识别数据解析器830、翻译数据解析器840、转换结果比较器860和图像处理单元850可以是由处理器760执行的程序或一组指令。
显示器710、相机模块730、通信电路740和存储器770的功能和操作可以与图1中的相应配置的功能和操作相同或相似。
根据各种实施例,存储器170可以存储与翻译历史相关联的数据库825。数据库825可以存储用于通过电子装置701的内部计算执行翻译的数据。例如,数据库825可以通过缺省设置或先前执行的翻译历史来存储原始文本、翻译文本、翻译请求语言等。
字符识别单元810、语言设置单元820、识别数据解析器830、翻译数据解析器840和图像处理单元850的功能和操作可以与图2中的配置的功能和操作相同或相似。
根据各种实施例,识别数据解析器830可以以能够由翻译服务器703容易识别的形式来转换根据本地字符识别结果的第一文本。例如,识别数据解析器830可以以行为单位转换所接收的第一文本使得翻译服务器703容易地翻译所接收的第一文本。
识别数据解析器830可以将第一文本和语言信息发送到翻译结果比较器860。语言信息可以包括第一文本的原始语言和关于翻译请求语言的信息。例如,识别数据解析器830可以发送“/ko/en”形式的数据到翻译结果比较器860。
翻译结果比较器860可以确定在数据库825中是否包括第一文本和对应于翻译请求语言的翻译文本。翻译结果比较器860可以发送第一文本和其语言与翻译请求语言相同的翻译文本到翻译数据解析器840。例如,当接收到“/ko/en”时,翻译结果比较器860可以将“forsythia”语发送到翻译数据解析器840。
翻译结果比较器860可以存储翻译文本,该翻译文本的翻译通过翻译服务器703完成。翻译结果比较器860可以存储在先前图像帧上执行翻译的结果,以便使用该结果用于后续图像帧中相同形式的翻译。在这种情况下,通过在电子装置701中执行翻译,可以增加翻译速度而不需要向翻译服务器703请求翻译。
字符识别服务器702可以从电子装置701接收视觉输入(图像数据)。字符识别服务器702可以感测包括在接收的视觉输入中的字符。字符识别服务器702可以向电子装置701发送通过字符识别处理感测的第二文本和第二文本的放置信息(例如坐标信息、尺寸信息、形状信息等)。
翻译服务器703可以从电子装置701接收原始文本(例如第一文本或第二文本)和语言信息(例如原始语言和翻译目标语言)。翻译服务器703可以发送翻译通过将原始文本翻译成翻译目标语言而获得的文本到电子装置701。
根据各种实施例,处理器760可以通过使用与翻译历史相关联的数据库825,生成与根据本地字符识别结果的第一文本相关联的翻译文本。例如,字符识别单元810可以向翻译结果比较器860提供根据本地字符识别的第一文本。翻译结果比较器860可以确定与第一文本相对应的匹配翻译文本是否存在于与翻译历史相关联的数据库825中。当存储了匹配的翻译文本时,翻译结果比较器860可以向翻译数据解析器840提供与第一文本相对应的翻译文本。
处理器760可以通过翻译服务器703接收与根据服务器字符识别结果的第二文本相关联的翻译文本。服务器字符识别结果可以通过电子装置101从字符识别服务器702发送到翻译服务器703。在一个实施例中,当在字符识别服务器702和翻译服务器703之间建立单独的通信信道时,服务器字符识别结果可以直接从字符识别服务器702发送到翻译服务器703。处理器760可以从翻译服务器703接收与根据服务器字符识别结果的第二文本相关联的翻译文本。
图9是示出根据本公开各种实施例的图像转换效果的屏幕视图。
参见图9,在屏幕视图900中,处理器160可以基于根据本地字符识别过程的识别结果的可靠性来调整图像效果的级别(例如模糊处理)。
图像数据901可以包括第一字符区域911和第二字符区域912。处理器160可以对第一字符区域911和第二字符区域912中的每一个执行本地字符识别过程。
处理器160可以确定每个区域中的字符识别的可靠性。作为在拍摄过程中聚焦的区域,由于图像的高锐度,第一字符区域911可以是字符识别可靠性相对较高的区域。作为在拍摄过程中不被聚焦的区域,由于图像的锐度低,第二字符区域912可以是字符识别可靠性相对较低的区域。
在第一翻译图像902中,处理器160可以显示第一字符区域911的本地字符识别结果911a。例如,处理器160可以将包括在第一字符区域911中的英语翻译成韩语以显示韩语。处理器160可以在第二字符区域912上执行模糊处理以显示模糊结果,而不显示本地字符识别结果。用户可以快速验证感兴趣区域的翻译文本。
在第二翻译图像903中,当通过服务器字符识别过程的第二字符区域912的字符识别可靠性不小于临界值时,处理器160可以显示服务器字符识别结果912a。例如,处理器160可以逐渐降低模糊处理的级别,并且可以根据第二字符区域912中的服务器字符识别结果清楚地显示翻译文本。这样,这可以防止用户感觉到根据屏幕切换的差异。
图10是根据本公开各种实施例的与感测多种语言相关联的屏幕视图。
参见图10,在屏幕视图1000中,相机模块130可以收集用于字符识别的图像数据(视觉输入)1001。收集的图像数据1001可以被发送到处理器160。图像数据1001可以包括第一字符区域1011、第二字符区域1012和第三字符区域1013。
处理器160可以基于所接收的图像数据1001执行本地字符识别过程。处理器160可以从图像数据1001中提取字符。处理器160可以将提取的字符转换为结构化数据。例如,处理器160可以不识别包括字符的第三字符区域1013中的字符(该字符不是预定的识别目标语言(例如英语))并且可以将第三字符区域1013作为一般图像区域处理。处理器160可以不识别第一字符区域1011(其包括作为预定识别目标语言(例如英语)中的字符的字符但是在其上执行图形处理)并且可以将第一字符区域1011作为一般图像区域处理。处理器160可以确定第二字符区域1012是包括预定识别目标语言的字符(例如英语)的区域并且可以执行本地字符识别过程。
在第一翻译屏幕1002中,处理器160可以输出基于本地字符识别结果的本地翻译文本1012a。处理器160可以通过本地字符识别过程输出关于第二字符区域1012的翻译文本并且可以不输出关于第一字符区域1011和第三字符区域1013的翻译文本。
通过相机模块130收集的图像数据1001也可以被发送到外部字符识别服务器102。图像数据1001可以包括第一字符区域1011、第二字符区域1012和第三字符区域1013。
字符识别服务器102可以基于接收的图像数据1001执行服务器字符识别过程。字符识别服务器102可以从图像数据1001中提取字符。字符识别服务器102可以将提取的字符转换为结构化数据。
字符识别服务器102可以确定包括第一语言(例如英语)的字符的第一字符区域1011和第二字符区域1012以及包括第二语言的字符的第三字符区域1013(例如中文)是包括字符的区域并且可以执行服务器字符识别过程。
在第二翻译屏幕1003中,处理器160可以输出基于服务器字符识别结果的第一服务器翻译文本1011a和第二服务器翻译文本1013a。本地翻译文本1012a可以是通过翻译通过本地字符识别过程翻译感测的文本而获得的文本,并且第一服务器翻译文本1011a和第二服务器翻译文本1013a中的每一个可以是翻译通过经由服务器字符识别过程感测的文本而获得的文本。
处理器160可以主要根据缺省设置的翻译目标语言来执行本地字符识别过程,并且可以通过服务器字符识别过程来补充翻译文本。
根据实施例,处理器160可以在本地字符识别过程中在可识别范围内显示本地翻译文本;之后,当接收到服务器翻译文本时,处理器160可以将本地翻译文本改变为服务器翻译文本。
例如,当将“Ladies”部分识别为第一字符区域1011的“Ladies and Gentlemen”中的文本并且当不将“and Gentlemen”部分识别为文本时,处理器160可以根据关于第一字符区域1011的本地字符识别结果而显示“and Gentlemen”。当接收到服务器翻译文本时,处理器160可以根据服务器识别结果而将“and Gentlemen”改变为
图11是示出根据各种实施例的网络环境1100中的电子装置1101的框图。
参照图11,网络环境1100中的电子装置1101可经由第一网络1198(例如,短距离无线通信网络)与电子装置1102进行通信,或者经由第二网络1199(例如,长距离无线通信网络)与电子装置1104或服务器1108进行通信。根据实施例,电子装置1101可经由服务器1108与电子装置1104进行通信。根据实施例,电子装置1101可包括处理器1120、存储器1130、输入装置1150、声音输出装置1155、显示装置1160、音频模块1170、传感器模块1176、接口1177、触觉模块1179、相机模块1180、电力管理模块1188、电池1189、通信模块1190、用户识别模块1196或天线模块1197。在任一实施例中,可从电子装置1101中省略所述部件中的至少一个(例如,显示装置1160或相机模块1180),或者可将一个或更多个其它部件进一步包含到电子装置1101中。在任一实施例中,可将所述部件中的一些部件实现为单个集成电路。例如,可将传感器模块1176(例如,指纹传感器、虹膜传感器、或照度传感器)实现为嵌入在显示装置1160(例如,显示器)中。
处理器1120可运行例如软件(例如,程序1140)来控制电子装置1101的与处理器1120连接的至少一个其它部件(例如,硬件部件或软件部件),并可执行各种数据处理或计算。根据一个实施例,作为所述数据处理或操作的至少部分,处理器1120可将从任何其它部件(例如,传感器模块1176或通信模块1190)接收到的命令或数据加载到易失性存储器1132中,对存储在易失性存储器1132中的命令或数据进行处理,并将处理后的数据存储在非易失性存储器1134中。根据实施例,处理器1120可包括主处理器1121(例如,中央处理器(CPU)或应用处理器(AP))以及与主处理器1121在操作上独立的或者相结合的辅助处理器1123(例如,图形处理单元、图像信号处理器、传感器中枢处理器或通信处理器)。另外地或者可选择地,辅助处理器1123可被适配为比主处理器1121耗电更少,或者被适配为具体用于指定的功能。可将辅助处理器1123实现为与主处理器1121分离,或者实现为主处理器1121的部分。
在主处理器1121处于未激活(例如,睡眠)状态时,辅助处理器1123可控制与电子装置1101(而非主处理器1121)的部件之中的至少一个部件(例如,显示装置1160、传感器模块1176或通信模块1190)相关的功能或状态中的至少一些,或者在主处理器1121处于激活状态(例如,运行应用)时,辅助处理器1123可与主处理器1121一起来控制与电子装置1101的部件之中的至少一个部件(例如,显示装置1160、传感器模块1176或通信模块1190)相关的功能或状态中的至少一些。根据实施例,可将辅助处理器1123(例如,图像信号处理器或通信处理器)实现为在功能上与辅助处理器1123相关的任何其它部件(例如,相机模块1180或通信模块1190)中的一部分。
存储器1130可存储由电子装置1101的至少一个部件(例如,处理器1120或传感器模块1176)使用的各种数据。所述数据可包括例如软件(例如,程序1140)以及与软件的命令相关联的输入数据或输出数据。存储器1130可包括易失性存储器1132或非易失性存储器1134。所述非易失性存储器1134可以包括内部存储器1136和外部存储器1138。
可将程序1140作为软件存储在存储器1130中,并且程序1140可包括例如操作系统1142、中间件1144或应用1146。
输入装置1150可从电子装置1101的外部(例如,用户)接收将由电子装置1101的部件(例如,处理器1120)使用的命令或数据。输入装置1150可包括例如麦克风、鼠标或键盘。
声音输出装置1155可将声音信号输出到电子装置1101的外部。声音输出装置1155可包括例如扬声器或接收器。扬声器可用于诸如播放多媒体或播放唱片的通用目的,接收器可用于呼入呼叫。根据实施例,可将接收器实现为与扬声器分离,或实现为扬声器的部分。
显示装置1160可向电子装置1101的外部(例如,用户)视觉地提供信息。显示装置1160可包括例如显示器、全息装置或投影仪以及用于控制显示器、全息装置和投影仪中的相应一个的控制电路。根据实施例,显示装置1160可包括被适配为检测触摸的触摸电路或被适配为测量由触摸引起的力的强度的传感器电路(例如,压力传感器)。
音频模块1170可将声音转换为电信号,或相反,可将电信号转换为声音。根据实施例,音频模块1170可经由输入装置1150获得声音,或者经由声音输出装置1155或与电子装置1101直接(例如,有线地)连接或无线连接的外部电子装置(例如,电子装置1102)(例如,扬声器或耳机)输出声音。
传感器模块1176可检测电子装置1101的操作状态(例如,功率或温度)或电子装置1101外部的环境状态(例如,用户的状态),然后产生与检测到的状态相应的电信号或数据值。根据实施例,传感器模块1176可包括例如手势传感器、陀螺仪传感器、大气压力传感器、磁性传感器、加速度传感器、握持传感器、接近传感器、颜色传感器、红外(IR)传感器、生物特征传感器、温度传感器、湿度传感器或照度传感器。
接口1177可支持将用来使电子装置1101与外部电子装置(例如,电子装置1102)直接(例如,有线地)或无线连接的一个或更多个特定协议。根据实施例,接口1177可包括例如高清晰度多媒体接口(HDMI)、通用串行总线(USB)接口、安全数字(SD)卡接口或音频接口。
连接端1178可包括连接器,其中,电子装置1101可经由所述连接器与外部电子装置(例如,电子装置1102)物理连接。根据实施例,连接端1178可包括例如HDMI连接器、USB连接器、SD卡连接器或音频连接器(例如,耳机连接器)。
触觉模块1179可将电信号转换为可被用户经由他的触觉或动觉识别的机械刺激(例如,振动或运动)或电刺激。根据实施例,触觉模块1179可包括例如电机、压电元件或电刺激器。
相机模块1180可拍摄静止图像和视频。根据实施例,相机模块1180可包括一个或更多个透镜、图像传感器、图像信号处理器或闪光灯。
电力管理模块1188可管理对电子装置1101的供电。根据实施例,可将电力管理模块1188实现为例如电力管理集成电路(PMIC)的至少部分。
电池1189可对电子装置1101的至少一个部件供电。根据实施例,电池1189可包括例如不可再充电的原电池、可再充电的蓄电池、或燃料电池。
通信模块1190可支持在电子装置1101与外部电子装置(例如,电子装置1102、电子装置1104或服务器1108)之间建立直接(或有线)通信信道或无线通信信道,并经由建立的通信信道执行通信。通信模块1190可包括能够与处理器1120(例如,应用处理器(AP))独立操作的一个或更多个通信处理器,并支持直接(或有线)通信或无线通信。根据实施例,通信模块1190可包括无线通信模块1192(例如,蜂窝通信模块、短距离无线通信模块或全球导航卫星系统(GNSS)通信模块)或有线通信模块1194(例如,局域网(LAN)通信模块或电力线通信(PLC)模块)。这些通信模块中的相应一个可经由第一网络1198(例如,短距离通信网络,诸如蓝牙、无线保真(Wi-Fi)直连或红外数据协会(IrDA))或第二网络1199(例如,长距离通信网络,诸如蜂窝网络、互联网、或计算机网络(例如,LAN或广域网(WAN)))与外部电子装置进行通信。可将上述各种类型的通信模块实现为单个部件(例如,单个芯片),或可将上述各种类型的通信模块实现为彼此分离的多个部件(例如,多个芯片)。无线通信模块1192可使用存储在用户识别模块1196中的用户信息(例如,国际移动用户识别码(IMSI))识别并验证通信网络(诸如第一网络1198或第二网络1199)中的电子装置1101。
天线模块1197可将信号或电力发送到电子装置1101的外部(例如,外部电子装置)或者从电子装置1101的外部(例如,外部电子装置)接收信号或电力。根据实施例,天线模块1197可包括一个或多个天线,可由例如通信模块1190从所述一个或多个天线中选择适合于在计算机网络(诸如第一网络1198或第二网络1199)中使用的通信方案的至少一个天线。可经由所选择的至少一个天线在通信模块1190和外部电子装置之间交换信号或电力,或者可以经由所选择的至少一个天线和通信模块1190从外部电子装置接收信号或电力。
上述部件中的至少一些可经由外设间通信方案(例如,总线、通用输入输出(GPIO)、串行外设接口(SPI)或移动工业处理器接口(MIPI))相互连接并在它们之间交换信号(例如,命令或数据)。
根据实施例,可经由与第二网络1199连接的服务器1108在电子装置1101和外部电子装置1104之间发送或接收(或交换)命令或数据。电子装置1102和电子装置1104中的每一个可以是与电子装置1101相同类型的装置,或者是与电子装置1101不同类型的装置。根据实施例,将在电子装置1101运行的全部操作或一些操作可在外部电子装置1102、外部电子装置1104或服务器1108中的一个或更多个外部装置中运行。例如,如果电子装置1101应该自动执行功能或服务或者应该响应于来自用户或任何其它装置的请求执行功能或服务,则电子装置1101可请求所述一个或更多个外部电子装置执行所述功能或服务中的至少部分,而不是运行所述功能或服务,或者电子装置1101除了运行所述功能或服务以外,还可请求所述一个或更多个外部电子装置执行所述功能或服务中的至少部分。接收到所述请求的所述一个或更多个外部电子装置可执行所述功能或服务中的所请求的所述至少部分,或者执行与所述请求相关的另外功能或另外服务,并将执行的结果传送到电子装置1101。电子装置1101可在对所述结果进行进一步处理的情况下或者在不对所述结果进行进一步处理的情况下将所述结果提供作为对所述请求的至少部分答复。为此,可使用例如云计算技术、分布式计算技术或客户机-服务器计算技术。
根据一个实施例,一种电子装置,包括:外壳;通过外壳的第一部分暴露的显示器;通过外壳的第二部分暴露的图像传感器;无线通信电路;耦接到显示器、图像传感器和无线通信电路的处理器;及耦接到处理器的存储器,其中存储器存储指令,并且当指令被执行时,使得处理器:从图像传感器接收图像数据;基于图像数据的至少部分来确定第一文本;在显示器上显示确定的第一文本;通过无线通信电路将图像数据发送到外部服务器;从外部服务器接收包括第二文本的非图像数据;并在显示器上与第一文本一起显示第二文本和/或在显示所确定的第一文本之后,基于第二文本的至少部分改变显示器上显示的第一文本的至少部分。
根据一个实施例,指令使得处理器对图像数据执行OCR以确定至少一个字符。
根据一个实施例,指令使得处理器对所确定的字符执行语言翻译以确定第一文本。指令使得处理器通过通信电路请求外部翻译服务器翻译所确定的字符、从外部翻译服务器接收翻译文本并将翻译文本确定为第一文本。指令使得处理器参考与存储在存储器中的翻译历史相关联的数据库对所确定的字符执行语言翻译。指令使得处理器在数据库中未验证与所确定的字符匹配的翻译信息时,通过通信电路请求外部翻译服务器翻译所确定的字符。指令使得处理器在通过通信电路从外部翻译服务器接收与所确定的字符相关联的翻译文本时,更新数据库。
根据实施例,存储器存储关于与从外部服务器接收的先前图像帧相关联的识别目标语言的信息,并且指令使得处理器参考关于识别目标语言的信息来确定第一文本。
根据实施例,指令使得处理器在要显示第二文本的区域上执行模糊处理,并在显示第二文本时增加所述区域的锐度。
根据实施例,指令使得处理器通过使用图像数据在显示器上显示预览图像。
根据一个实施例,一种电子装置,包括:外壳;通过外壳的第一部分暴露的显示器;通过外壳的第二部分暴露的图像传感器;无线通信电路;耦接到显示器、图像传感器和无线通信电路的处理器;以及耦接到处理器的存储器,其中,存储器存储指令,并且其中指令在被执行时使得处理器在显示器上显示从图像传感器获得的预览图像、在显示器上显示包括与预览图像上的文本的至少部分相关联的语言翻译的第一文本、并且在显示器上显示第一文本之外和/或在显示第一文本之后通过替换第一文本的至少一部分而显示包括与预览图像上的文本的至少部分相关联的语言翻译的第二文本。指令使得处理器显示第一文本和/或第二文本,以便至少部分地与预览图像上的文本重叠和/或覆盖预览图像上的文本。
根据一个实施例,一种电子装置,包括:图像传感器、显示器、存储器、通信电路和处理器,其中,所述处理器被配置为:通过图像传感器收集图像数据;通过通信电路将图像数据发送到外部服务器;感测图像数据中的第一文本;获得与第一文本相关联的第一翻译文本;在图像数据中在对应于第一文本的位置输出第一翻译文本;通过通信电路从外部服务器接收第二文本;获得与第二文本相关联的第二翻译文本;并在图像数据中在对应于第二文本的位置输出第二翻译文本。
根据一个实施例,当通过图像传感器收集附加图像数据时,指令使得处理器从外部服务器接收关于识别目标语言的信息、参考识别目标语言来感测附加图像数据中的第三文本。
根据一个实施例,图像数据和附加图像数据中的每一个是连续图像帧或以指定时间间隔收集的图像帧。
根据一个实施例,指令使得处理器通过通信电路请求外部翻译服务器将第一文本翻译成指定语言,并从外部翻译服务器接收翻译文本以确定第一翻译文本。
根据一个实施例,指令使得处理器参考与存储在存储器中的翻译历史相关联的数据库来确定第一翻译文本。指令使得处理器在数据库中未验证与第一文本匹配的翻译信息时,通过通信电路请求外部翻译服务器翻译第一文本。指令使得处理器在通过通信电路从外部翻译服务器接收与所确定的第一文本相关联的翻译文本时,更新数据库。
根据实施例,一种字符识别方法,包括:从相机模块的图像传感器接收图像数据;基于图像数据的至少部分确定第一文本;在显示器上显示所确定的第一文本;通过通信电路将图像数据发送到外部服务器;从外部服务器接收包括第二文本的非图像数据并在显示器上显示第二文本和第一文本和/或在显示所确定的第一文本之后,基于第二文本的至少部分来改变显示器上显示的第一文本的至少部分。
根据实施例,所述方法还包括:从外部服务器接收关于识别目标语言的信息;通过图像传感器收集附加图像数据以及参考目标识别语言来感测附加图像数据中的第三文本。收集附加图像数据包括收集由连续图像帧或者以指定时间间隔收集的图像帧组成的附加图像数据。
根据实施例,所述方法还包括:当所接收的图像是图像序列并且在图像帧之间的图像变化小于预定变化量或所述电子装置的移动距离小于预定距离时,增加用于处理所述图像序列中的下一图像的时间。
尽管已经参考本公开的各种实施例示出和描述了本公开,但是本领域技术人员将理解,在不脱离由所附权利要求及其等同限定的本公开的范围的情况下,可以在其中进行形式和细节上的各种改变。

Claims (15)

1.一种电子装置,包括:
外壳;
显示器,通过所述外壳的第一部分被暴露;
图像传感器,通过所述外壳的第二部分被暴露;
无线通信电路;
至少一个处理器,耦接到所述显示器、所述图像传感器和所述无线通信电路;和
存储器,耦接到所述至少一个处理器,
其中,所述存储器存储指令,以及
其中,所述指令在被执行时使得所述至少一个处理器:
从所述图像传感器接收图像数据,
基于所述图像数据的至少部分确定第一文本,
在所述显示器上显示所确定的第一文本,
通过所述无线通信电路向外部服务器发送所述图像数据,
从所述外部服务器接收包含第二文本的非图像数据,并且
在显示所确定的第一文本后,在所述显示器上与所述第一文本一起显示所述第二文本和/或基于所述第二文本的至少部分来改变在所述显示器上显示的所述第一文本的至少部分。
2.如权利要求1所述的电子装置,其中,所述指令使得所述至少一个处理器:
对所述图像数据执行光学字符识别(OCR)以确定至少一个字符。
3.如权利要求2所述的电子装置,其中,所述指令使得所述至少一个处理器:
对所确定的字符执行语言翻译以确定所述第一文本。
4.如权利要求3所述的电子装置,其中,所述指令使得所述至少一个处理器:
通过所述无线通信电路来请求外部翻译服务器翻译所确定的字符,
从所述外部翻译服务器接收翻译文本,并且
将所述翻译文本确定为所述第一文本。
5.如权利要求3所述的电子装置,其中,所述指令使得所述至少一个处理器:
参考与存储在所述存储器中的翻译历史相关联的数据库,对所确定的字符执行语言翻译。
6.如权利要求5所述的电子装置,其中,所述指令使得所述至少一个处理器:
当在所述数据库中未验证与所确定的字符匹配的翻译信息时,通过所述无线通信电路请求外部翻译服务器翻译所确定的字符。
7.如权利要求6所述的电子装置,其中,所述指令使得所述至少一个处理器:
当通过所述无线通信电路从所述外部翻译服务器接收到与所确定的字符相关联的翻译文本时,更新所述数据库。
8.如权利要求1所述的电子装置,
其中,所述存储器存储关于与从所述外部服务器接收的先前图像帧相关联的识别目标语言的信息,以及
其中,所述指令使得所述至少一个处理器:
参考关于所述识别目标语言的信息来确定所述第一文本。
9.如权利要求1所述的电子装置,其中,所述指令使得所述至少一个处理器:
对在其上要显示所述第二文本的区域执行模糊处理,并且
当显示所述第二文本时,增加所述区域的锐度。
10.如权利要求1所述的电子装置,其中,所述指令使得所述至少一个处理器:
通过使用所述图像数据在所述显示器上显示预览图像。
11.一种电子装置,包括:
图像传感器;
显示器;
存储器;
通信电路;和
至少一个处理器,
其中,所述至少一个处理器被配置为:
通过所述图像传感器收集图像数据,
通过所述通信电路向外部服务器发送所述图像数据,
感测所述图像数据中的第一文本,
获取与所述第一文本相关联的第一翻译文本,
在所述图像数据中与所述第一文本对应的位置处输出所述第一翻译文本,
通过所述通信电路从所述外部服务器接收第二文本,
获得与所述第二文本相关联的第二翻译文本,并且
在所述图像数据中与所述第二文本对应的位置处输出所述第二翻译文本。
12.如权利要求11所述的电子装置,其中,所述至少一个处理器还被配置为:
从所述外部服务器接收有关识别目标语言的信息,并且
当通过所述图像传感器收集附加图像数据时,参考所述识别目标语言来感测所述附加图像数据中的第三文本。
13.一种电子装置的字符识别方法,所述方法包括:
从相机模块的图像传感器接收图像数据;
基于所述图像数据的至少部分确定第一文本;
在显示器上显示所确定的第一文本;
通过通信电路向外部服务器发送所述图像数据;
从所述外部服务器接收包括第二文本的非图像数据;并且
在显示所确定的第一文本后,与所述第一文本一起在所述显示器上显示所述第二文本和/或基于所述第二文本的至少部分改变显示在所述显示器上的所述第一文本的至少部分。
14.如权利要求13所述的方法,还包括:
从所述外部服务器接收关于识别目标语言的信息;
通过所述图像传感器收集附加图像数据;并且
参考所述识别目标语言,感测所述附加图像数据中的第三文本。
15.如权利要求14所述的方法,其中,所述附加图像数据的收集包括:
收集由连续图像帧或以指定时间间隔收集的图像帧组成的所述附加图像数据。
CN201811441387.9A 2017-11-29 2018-11-29 识别图像中的文本的电子装置 Pending CN109840465A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170162238A KR102478396B1 (ko) 2017-11-29 2017-11-29 이미지에서 텍스트를 인식할 수 있는 전자 장치
KR10-2017-0162238 2017-11-29

Publications (1)

Publication Number Publication Date
CN109840465A true CN109840465A (zh) 2019-06-04

Family

ID=64559538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811441387.9A Pending CN109840465A (zh) 2017-11-29 2018-11-29 识别图像中的文本的电子装置

Country Status (5)

Country Link
US (1) US20190164002A1 (zh)
EP (1) EP3493110A1 (zh)
KR (1) KR102478396B1 (zh)
CN (1) CN109840465A (zh)
WO (1) WO2019107981A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569830A (zh) * 2019-08-01 2019-12-13 平安科技(深圳)有限公司 多语言文本识别方法、装置、计算机设备及存储介质
CN110705497A (zh) * 2019-10-11 2020-01-17 Oppo广东移动通信有限公司 图像帧处理方法、装置、终端设备及计算机可读存储介质

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021029627A1 (en) * 2019-08-13 2021-02-18 Samsung Electronics Co., Ltd. Server that supports speech recognition of device, and operation method of the server
JPWO2021075306A1 (zh) * 2019-10-17 2021-04-22
DE102019133535A1 (de) * 2019-12-09 2021-06-10 Fresenius Medical Care Deutschland Gmbh Medizinisches System und Verfahren zum Darstellen von Informationen betreffend eine Blutbehandlung
CN112085090A (zh) * 2020-09-07 2020-12-15 百度在线网络技术(北京)有限公司 翻译方法、装置以及电子设备
CN112148124A (zh) * 2020-09-10 2020-12-29 维沃移动通信有限公司 图像处理方法、装置及电子设备
KR102313272B1 (ko) * 2021-05-25 2021-10-14 최인환 증강 현실 기반 실시간 음성 번역 서비스 제공 방법, 장치 및 시스템
CN115543495A (zh) * 2021-06-30 2022-12-30 腾讯科技(深圳)有限公司 界面管理方法、装置、设备及可读存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7738706B2 (en) * 2000-09-22 2010-06-15 Sri International Method and apparatus for recognition of symbols in images of three-dimensional scenes
JP2007065994A (ja) * 2005-08-31 2007-03-15 Ricoh Co Ltd 文書ocr実行装置
US7707485B2 (en) * 2005-09-28 2010-04-27 Vixs Systems, Inc. System and method for dynamic transrating based on content
US20070143736A1 (en) * 2005-12-09 2007-06-21 Microsystems Technology, Inc. Workflow Development Platform
US20090119091A1 (en) * 2007-11-01 2009-05-07 Eitan Chaim Sarig Automated pattern based human assisted computerized translation network systems
US20100042399A1 (en) * 2008-08-12 2010-02-18 David Park Transviewfinder
EP2189926B1 (en) 2008-11-21 2012-09-19 beyo GmbH Method for providing camera-based services using a portable communication device of a user and portable communication device of a user
GB2485833A (en) * 2010-11-26 2012-05-30 S3 Res & Dev Ltd Improved OCR Using Configurable Filtering for Analysing Set Top Boxes
US9092674B2 (en) * 2011-06-23 2015-07-28 International Business Machines Corportion Method for enhanced location based and context sensitive augmented reality translation
US9082035B2 (en) * 2011-08-29 2015-07-14 Qualcomm Incorporated Camera OCR with context information
KR20140142116A (ko) * 2013-06-03 2014-12-11 삼성전자주식회사 텍스트 변환 서비스를 제공하는 전자장치 및 방법
US9514377B2 (en) * 2014-04-29 2016-12-06 Google Inc. Techniques for distributed optical character recognition and distributed machine language translation
US9798943B2 (en) * 2014-06-09 2017-10-24 I.R.I.S. Optical character recognition method
US9436682B2 (en) * 2014-06-24 2016-09-06 Google Inc. Techniques for machine language translation of text from an image based on non-textual context information from the image
KR20160071144A (ko) * 2014-12-11 2016-06-21 엘지전자 주식회사 이동단말기 및 그 제어 방법
KR20170006014A (ko) * 2015-07-07 2017-01-17 엘지전자 주식회사 이동단말기 및 그 제어방법
KR20170018562A (ko) * 2015-08-10 2017-02-20 엘지전자 주식회사 디지털 디바이스 및 상기 디지털 디바이스에서 데이터 처리 방법
US10303777B2 (en) * 2016-08-08 2019-05-28 Netflix, Inc. Localization platform that leverages previously translated content

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569830A (zh) * 2019-08-01 2019-12-13 平安科技(深圳)有限公司 多语言文本识别方法、装置、计算机设备及存储介质
WO2021017260A1 (zh) * 2019-08-01 2021-02-04 平安科技(深圳)有限公司 多语言文本识别方法、装置、计算机设备及存储介质
CN110569830B (zh) * 2019-08-01 2023-08-22 平安科技(深圳)有限公司 多语言文本识别方法、装置、计算机设备及存储介质
CN110705497A (zh) * 2019-10-11 2020-01-17 Oppo广东移动通信有限公司 图像帧处理方法、装置、终端设备及计算机可读存储介质

Also Published As

Publication number Publication date
EP3493110A1 (en) 2019-06-05
US20190164002A1 (en) 2019-05-30
KR102478396B1 (ko) 2022-12-19
KR20190063277A (ko) 2019-06-07
WO2019107981A1 (en) 2019-06-06

Similar Documents

Publication Publication Date Title
CN109840465A (zh) 识别图像中的文本的电子装置
CN109684980B (zh) 自动阅卷方法及装置
CN110807361A (zh) 人体识别方法、装置、计算机设备及存储介质
CN109190509B (zh) 一种身份识别方法、装置和计算机可读存储介质
WO2020032487A1 (ko) 우선 순위에 기반하여 상품과 관련된 정보를 제공하는 방법 및 그 전자 장치
CN112749613B (zh) 视频数据处理方法、装置、计算机设备及存储介质
CN111476783A (zh) 基于人工智能的图像处理方法、装置、设备及存储介质
CN109871843A (zh) 字符识别方法和装置、用于字符识别的装置
CN112257552B (zh) 图像处理方法、装置、设备及存储介质
CN112947755A (zh) 手势控制方法与装置、电子设备及存储介质
US11284020B2 (en) Apparatus and method for displaying graphic elements according to object
WO2021169351A1 (zh) 指代消解的方法、装置及电子设备
CN110647881A (zh) 确定图像对应的卡片类型的方法、装置、设备及存储介质
CN113515987B (zh) 掌纹识别方法、装置、计算机设备及存储介质
CN111930964A (zh) 内容处理方法、装置、设备及存储介质
CN113325948B (zh) 隔空手势的调节方法及终端
WO2020197070A1 (en) Electronic device performing function according to gesture input and operation method thereof
CN112256868A (zh) 零指代消解方法、训练零指代消解模型的方法及电子设备
EP3983951A1 (en) Multi-task fusion neural network architecture
CN115115679A (zh) 一种图像配准方法及相关设备
CN112037305B (zh) 对图像中的树状组织进行重建的方法、设备及存储介质
CN112287070A (zh) 词语的上下位关系确定方法、装置、计算机设备及介质
CN112818979A (zh) 文本识别方法、装置、设备及存储介质
CN115168643B (zh) 音频处理方法、装置、设备及计算机可读存储介质
CN113343709B (zh) 意图识别模型的训练方法、意图识别方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination