CN108062301A

CN108062301A - 文字翻译方法及其装置

Info

Publication number: CN108062301A
Application number: CN201610982718.4A
Authority: CN
Inventors: 池昌真; 赵畅洙
Original assignee: Heath Atlanta International
Current assignee: Heath Atlanta International
Priority date: 2016-11-08
Filing date: 2016-11-08
Publication date: 2018-05-22
Anticipated expiration: 2036-11-08
Also published as: CN108062301B

Abstract

本发明提供一种文字翻译方法及其装置。根据本发明的一个实施例，由文字翻译装置执行的文字翻译方法可包括获取图像内容的步骤；识别所述图像内容上的第一语言的文字及所述第一语言的文章确定符号的步骤；根据识别的所述文章确定符号提取由识别的所述文字构成的第一语言的文章的步骤；利用用户事件信息，根据提取的所述第一语言的文章生成翻译对象文章的步骤；以及将生成的所述翻译对象文章翻译成第二语言，并显示翻译成所述第二语言的文章的步骤。本发明的文字翻译方法及其装置能够为用户提供更为准确的翻译结果。

Description

文字翻译方法及其装置

技术领域

本发明涉及文字翻译方法及其装置，更具体是涉及一种识别输入的图像上的文字，并对识别的文字提供以文章为单位的翻译的方法及其装置。

背景技术

在识别图像或数字文稿上的文字方面广泛使用光学文字识别(OpticalCharacter Reco gnition，以下称为‘OCR’)技术。

根据OCR技术，比较通过OCR程序读取的文字与预先存储的文字执行文字识别。即，对于OCR技术来讲，用于文字识别的考虑对象仅仅是个别文字的形状，并未考虑识别的文字构成的单词及文章。

对于通过这种OCR技术识别的文字，翻译程序机器翻译成其他语言的情况下，翻译程序对OCR程序的文字识别结果单纯地执行翻译，因此具有翻译准确度低的问题。例如，通过OCR技术识别的文字构成的一个文章分成多个行输入的情况下，翻译程序不考虑文章单位，而是以输入的行为单位执行翻译，因此执行的并不是对一个文章的翻译。

尽管如此，目前还没有对通过OCR程序识别的文字以文章单位确定翻译单位的方法。

并且，没有将用户事件信息反映到OCR程序的文字识别结果以提高对翻译对象的可信度的方法。

发明内容

技术问题

本发明的目的在于提供一种识别输入的图像内容上的文字，对识别出的文字执行以文章为单位的翻译的方法及其装置。

具体来讲，本发明的目的在于提供一种识别通过OCR程序识别的文字构成的文章，并以识别的文章为基准提供翻译服务的方法。

并且，本发明的目的在于提供一种提供显示翻译对象及翻译结果的图形用户接口(Gr aphic User Interface，以下称为‘GUI’)的方法及其装置。

本发明的另一目的在于提供一种根据输入的图像内容的种类确定适配型翻译单位的方法及其装置。

本发明的又一目的在于提供一种根据用户事件信息补正翻译对象或翻译结果的方法及其装置。

本发明目的不限于以上提及的目的，本发明所属技术领域的普通技术人员可根据以下记载明确理解未记载的其他目的。

技术方案

根据用于达成上述目的的文字翻译装置执行的文字翻译方法的一个实施例，可包括获取图像内容的步骤；识别所述图像内容上的第一语言的文字及所述第一语言的文章确定符号的步骤；根据识别的所述文章确定符号提取由识别的所述文字构成的第一语言的文章的步骤；利用用户事件信息，根据提取的所述第一语言的文章生成翻译对象文章的步骤；以及将生成的所述翻译对象文章翻译成第二语言，并显示翻译成所述第二语言的文章的步骤。

并且，根据用于达成上述目的的文字翻译装置的一个实施例，文字翻译装置可包括：摄像头，其获取图像内容；输入部，其用于输入用户事件信息；显示部，其显示获取的所述图像内容的全部或一部分；以及控制部，其识别所述图像内容上的第一语言的文字及所述第一语言的文章确定符号，根据识别的所述文章确定符号提取由识别的所述文字构成的第一语言的文章，利用所述用户事件信息，根据提取的所述第一语言的文章生成翻译对象文章，随着生成的所述翻译对象文章翻译成第二语言而控制使得显示翻译成所述第二语言的文章。

根据用于达成上述目的的存储于存储介质的一个实施例，计算机程序可以通过与计算机装置结合以运行以下步骤：识别图像内容上的第一语言的文字及所述第一语言的文章确定符号的步骤；根据识别的所述文章确定符号提取识别的所述文字构成的第一语言的文章的步骤；利用用户事件信息，根据提取的所述第一语言的文章生成翻译对象文章的步骤；以及将生成的所述翻译对象文章翻译成第二语言，显示翻译成所述第二语言的文章的步骤。

技术效果

根据本发明的一个实施例，对OCR处理的文字执行以文章为单位的翻译，因此能够为用户提供更为准确的翻译结果。

根据本发明的一个实施例，根据输入内容的种类确定适配型翻译单位，并以确定的翻译单位执行翻译，因此能够为用户提供更为准确的翻译结果。

根据本发明的一个实施例，根据用户事件信息补正翻译对象或翻译结果，因此能够为用户提供更为准确的翻译结果。

并且，根据本发明的一个实施例，通过GUI显示翻译对象文章，因此能够为用户提供对翻译准确性的预测可能性，能够为用户提供关于翻译对象的修正功能。

附图说明

图1为根据本发明一个实施例的文字翻译程序的示意图；

图2为根据本发明另一实施例的文字翻译装置的框图；

图3a为根据本发明又一实施例的文字翻译方法的流程图；

图3b为根据本发明又一实施例的上下文识别方法的流程图；

图4为本发明几个实施例所参见的图像内容的示意图；

图5为本发明的几个实施例所参见的翻译对象文章的示意图；

图6及图7a为用于说明本发明的几个实施例所参见的文章提取方式的示意图；

图7b为用于说明图7a示出的文章提取过程中利用的数据标准的示意图；

图8为本发明的几个实施例所参见的GUI的示意图；

图9为用于说明根据本发明又一实施例的翻译对象文章的修正方法的示意图；

图10为本发明的几个实施例所参见的文字翻译装置的输出UI的示意图；

图11为本发明的几个实施例所参见的文字翻译装置的音译输出UI的示意图；

图12为本发明的几个实施例所参见的基于布局识别的翻译对象文章确定方式的示意图。

具体实施方式

以下参见附图具体说明根据本发明的优选实施例。参见附图及以下说明的实施例便可明确本发明的优点、特征及实现方法。但是，本发明并非限定于以下公开的实施例，而是以不同的多种形态实现，本实施例只是使本发明的公开更加完整，使本发明所属技术领域的普通技术人员容易理解发明的范畴，本发明由技术方案的范畴定义。在整篇说明书中，同一附图标记表示同一构成要素。

若无其他定义，则本说明书中使用的所有术语(包括技术及科学术语)可按照本发明所属技术领域的普通技术人员普遍理解的意思来使用。并且，关于通常使用的词典定义的术语，在没有明确的特殊定义的前提下不得理想解释或过度解释。本说明书中使用的术语用于说明实施例，而并非在于限定本发明。本说明书中单数型在语句中没有特殊记载的情况下还包括复数型。

本说明书中，文章确定符号是指排列有文字列或连接的多个文字的情况下，用于从其他文字区分出连续文字组，能够确定区分出的文字组为文章的符号。例如，罗列的多个文字中间出现标点符号“.”、“？”、“！”、“：”“/”等的情况下，以所述符号为分界区分前面的文字组与后面的文字组。并且，如上区分出的文字组构成文章。此处，本说明书将区分所述文字组的符号称为文章确定符号。另外，本说明书的文章确定符号不限于以上举例介绍的文章确定符号。例如，′(单引号)或″(双引号)成对排列的情况下，单引号对或双引号对内部的文字组区分于外部的文字组，因此相当于本说明书的文章确定符号。

另外，多个文字组上的文章并不仅限于通过文章确定符号区分。例如，多个文字组以预定的空间，例如以空格、跳格(tab)、行等为分界区分的情况下，或将文字组所在布局从空间上进行区分的情况下，位于所述分界的前后或不同布局上的文字组可以是不同的文章。并且，所述预定的空间按预定图案重复出现于多个文字组内的情况下，所述空间可能是用于区分文章内的单词的空间而并非用于确定文章。

因此，应理解本说明书中所指的文章是通过文章确定符号区分的一个文字组单位。或者，应理解多个文字组内通过预定的空间区分的一个文字组单位也是根据本发明一个实施例的文章。即，在本说明书中文章并非必须包括主语与动词，具有特定意思的题目、标语等情况下也可以理解为本说明书的文章。因此，文章内的段落、包括具有特定主题的单词的文字组也应理解为根据本发明另一实施例的文章。

本说明书所指的用户事件信息包括输入到根据本发明实施例的文字翻译装置的所有用户信息。即，用户向根据本发明实施例的文字翻译装置输入关于文字识别对象即图像内容的信息或用户输入特定场所信息的情况下，用户事件信息可包括输入的所述信息。

此处，文字翻译装置可以以多种方式接收用户事件信息。例如，包括通过文字翻译装置的输入部、摄像头、感测部等多种构成要素输入的信息。

具体来讲，用户的活动相当于特定事件的情况下，例如，用户为用餐而到达特定西餐厅或位于机场的情况下，用户事件信息可包括文字翻译装置的感测部接收到的位置信息。此处，文字翻译装置感测到所述文字翻译装置的位置信息以预先设定的时间为基准发生临界范围以上的变动的情况下，例如感测到用户正在旅行的事件的情况下，如上关于位置信息的变动的信息也可包含于本说明书的用户事件信息。

图1为根据本发明一个实施例的文字翻译程序的示意图。

参见图1，文字翻译程序由文字翻译装置100执行。尤其，图1显示的例子为通过文字翻译装置100，在步骤S10中用户拍摄图像内容以识别文字，对识别的文字执行机器翻译的情况。文字翻译装置100拍摄图像内容之前，用户可以输入语言选择信息及/或用户事件信息。

通过拍摄获取的图像内容可包括通过至少一种语言记载的文字组。用户可以在文字翻译装置100指定获取的图像内容上的文字组的全部或一部分为文字识别范围。此处，图1显示将OCR技术作为文字识别方法的例子。以下，关于本说明书涉及的文字识别方式，假设将OCR技术作为文字识别方式的一个例子。

然后在步骤S20，文字翻译装置100执行OCR后处理过程。

文字翻译装置100可以利用按语言预先定义的文章分割规则按语言学习多种字体，识别输入的图像内容上的文字。例如，文字翻译装置100可以利用SRX(Segmentation Rule eXchange format)-LISA.org规定的文章分割规则。

并且，根据本发明的实施例，文字翻译装置100可以按所述语言学习多种字体以识别文字组内的文章确定符号。

即，在OCR后处理过程即步骤S20，文字翻译装置100可以识别图像内容上的文字及/或文章确定符号。

并且，文字翻译装置100可识别图像内容上的文字列，可以利用以下图6说明的关于翻译对象文章生成方法的实施例分别以一个文章单位提取一个文字列或多个文字列。后续将在关于图6的说明中对此进行具体说明。

并且，文字翻译装置100在文字识别方面，可利用各文字之间的概率性结合关系提高文字识别准确度。例如，文字翻译装置100可以利用N-Best搜索算法判断所述文字之间的概率性结合关系。后续将在关于图7的说明中对此进行具体说明。

然后在步骤S30，文字翻译装置100执行翻译预处理过程。

在翻译预处理过程，文字翻译装置100可以对从识别的文字提取的文章单位的文章，利用预先设定的语言模型检查文章的准确性。即，在利用通过OCR识别的文字构成的文章执行翻译方面，若想提高翻译准确度，那么作为翻译对象的文章必须是正确的文章，因此翻译预处理过程是在执行机器翻译之前确保翻译对象文章的可靠性的程序。

此处，文字翻译装置100可以利用预先设定的语言模型，根据网页上出现频度、各语言模型中预先学习的文字结合关系等最终确定翻译对象文章。即，在OCR后处理过程即步骤S20经过OCR识别的文字被提取为文章单位的文章，提取的文章单位的文章在翻译预处理过程即步骤S30经过加工得以确定翻译对象文章。

最后在步骤S40，文字翻译装置100对翻译对象文章执行机器翻译，通过显示部输出翻译结果。

图2为根据本发明另一实施例的文字翻译装置的框图。

以下参见图2具体说明文字翻译装置100的结构与动作。

文字翻译装置100可以由输入部110、摄像头120、显示部130及控制部140构成。

输入部110接收用户输入的各种数据、命令及/或信息。尤其，输入部110可以接收用户向文字翻译装置100输入的用户事件信息及/或关于图像内容的信息。并且，输入部110可以接收根据本发明的实施例的关于文字识别范围的用户指定，也可以接收对翻译对象文章修正输入。

输入部110的构成可以包括本发明所属技术领域公知的任意形态的输入装置。例如，输入部110可包括用于接收用户输入的键盘、按键、触摸屏中至少一个。并且，输入部110可包括用于接收用户语音的麦克风。

摄像头120可以根据本发明的实施例获取图像内容。摄像头120可包括本发明所属技术领域公知的任意的图像传感器。文字翻译装置100可包括一个以上的摄像头。

显示部130向用户显示各种数据、命令、信息及/或GUI。显示部130可显示从摄像头120获取的图像内容的全部或一部分。并且，显示部130还可以显示通过OCR得到的文字识别结果、提取出的文章、翻译对象文章及/或翻译结果。

本发明的显示部130还可以包括本发明所属技术领域公知的任意形态的显示装置。例如，显示部130可以由具有触摸传感器的触摸屏构成，该情况下，显示部130可起到输入部110的功能。

控制部140控制文字翻译装置100的各构成部分的整体动作。控制部140的构成可包括中央处理器(CPU：Central Processing Unit)、微处理器(MPU：Micro ProcessorUnit)、微控制器(MCU：Micro Controller Unit)或本发明的技术领域公知的任意形态的处理器。控制部140还可以包括存储器，例如包括RAM。并且，控制部140还可以存储用于运行根据本发明实施例的方法的至少一个应用软件或程序。例如，控制部140可以存储根据本发明实施例的文字翻译程序且运行该程序。控制部140可以通过运行文字翻译程序执行根据本发明实施例的文字翻译方法。

具体来讲，控制部140可以随着用户输入、文字识别、文章提取及/或翻译等根据本发明实施例的文字翻译程序的运行变更显示部130的显示客体。

根据本发明的实施例，控制部140可以存储用于执行根据本发明实施例的功能的多个下部模块。

例如，控制部140包括检测部，可以以此识别图像内容上的文字的语言。即，检测部可以识别图像内容上的一个以上的语言。因此，文字翻译装置100可以将从一个图像内容上识别的语言确定为作为翻译对象的第一语言。例如，所述第一语言也可以是中国语、英语等多个。例如，控制部140可包括上下文(context)确定部。上下文确定部可以对检测部识别的语言利用语言模型判断文字列的文字组为单词还是文章。此处，内容确定部可以检测文字列内部的空白，可以根据检测结果确定文字组为单词还是文章。

并且，上下文检测部还可以利用文章提取算法判断文字列的文字组为单行文章还是多行文章。

例如，控制部140还可以包括转换部。转换部可以对上下文检测部判断的单词、文章执行翻译预处理、音译生成、翻译功能。转换部可以利用N-best搜索算法确定包含于最终翻译对象中应包含的单词或文章。该情况下，在OCR后处理及翻译预处理过程用N-best搜索算法确定包含于翻译对象的单词或文章，转换部可以为此而生成文字组合数据。所述文字组合数据可以具有基于预先定义的协议的数据结构。后续将在关于图7b的说明中对此进行具体说明。

并且，转换部确定第二语言，对确定的文章执行从第一语言到第二语言的自动翻译，也可以对确定的翻译对象生成第二语言的音译。

另外，虽未示出，但文字翻译装置100还可以包括通信部。通信部支持文字翻译装置100的有线无线网络通信或内联网通信，可以与外部装置收发各种信息。通信部还可以从外部装置接收语言模型及预先定义的文章分割规则。或者，为了在外部装置处理语言模型、OCR、预先定义的文章分割规则，通信部可以向外部装置发送关于文字识别的数据，还可以从外部装置接收处理结果。具体来讲，通信部可以向外部装置发送具有基于预先定义的协议的结构的文字组合数据并接收对此处理结果。

并且，通信部也可以从外部装置接收作为根据本发明实施例的文字识别对象的图像内容，根据这些实施例，通信部可以起到输入部110的功能。通信部的构成可以包括本发明所属技术领域公知的各种通信模块中至少一个。

并且，虽未示出，但文字输入装置100可包括存储部。存储部存储各种数据、命令及/或信息。存储部可存储用于得到根据本发明实施例的文字识别方法的一个以上的应用软件。并且，存储部还可以存储通过通信部接收的各种信息、通过输入部输入的各种信息。

存储部可临时或非临时存储从外部装置接收的数据等。存储部的构成可包括ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、闪存等非挥发性存储器、硬盘、可拆卸磁盘或本发明所属技术领域公知的任意形态的计算机可读存储介质。

图3a为根据本发明又一实施例的文字翻译方法的流程图，图3b为根据本发明又一实施例的上下文识别方法的流程图。

以下假设文字翻译方法随着控制部140运行文字翻译程序而由文字翻译装置100执行。

参见图3a，在步骤S11，文字翻译装置100可获取图像内容。此处，图像内容可以用通过摄像头120输入或通过通信部接收的方式获取。

在步骤S21，文字翻译装置100可识别图像内容上的第一语言的文字及所述第一语言的文章确定符号。例如，第一语言可以是中国语。该情况下，文字翻译装置100可接收包括语言选择信息的用户事件信息。

用户可以对文字翻译装置100进行设置，将中国语设为识别对象文字的语言以作为语言识别信息。并且，文字翻译装置100也可以在识别出识别对象文字后，接收关于作为翻译的对象的其他语言的设置。

文字翻译装置100也可以在接收语言选择信息的同时接收其他信息作为用户事件信息。例如，图像内容为用中国语记载的餐饮菜单的情况下，可以将中国语设为语言选择信息，接收用于表示图像种类为菜单的信息作为用户事件信息。该情况下，文字翻译装置100可以利用识别的文字之间的概率性结合关系识别相当于餐饮菜单的文字，根据识别的文字更加准确地执行文章提取及翻译对象文章的生成。

文字翻译装置100可以根据输入的语言选择信息识别所述第一语言的文字，根据预先定义的各语言的文章分割规则识别第一语言的文章确定符号。所述例子中，文字翻译装置100中中国语被设置成识别对象文字，因此将图像内容上的文字识别为中国语。并且，文字翻译装置100可以根据预先定义的各语言的文章分割规则，通过与学习的多种中国语字体进行比较的过程识别文字及文章确定符号。在图像内容上的文字含有未学习的中国语字体的情况下，文字翻译装置100可以通过通信部执行网络搜索完善预先定义的文章分割规则。具体来讲，参见图3b，在步骤S23，文字翻译装置100可以识别图像内容上的由第一语言的文字构成的文字列，并判断由所述第一语言的文字构成的文字列的上下文(Context)。即，文字翻译装置100可以判断识别的第一语言的文字构成的文字列为单词还是文章，是文章的情况下是单行文章还是多行文章。

首先在步骤S25，文字翻译装置100可以判断文字列为单词还是文章。此处，文字翻译装置100在包含于文字列的多个文字组之间的空白为预先设定的宽度区域以上的情况下，可以判断通过空白区分的文字组为不同的单词。文字翻译装置100也可以在所述空白具有图案且重复的情况下，判断通过空白区分的文字组为不同的单词。此处所指的单词可以表示具有词典上的意思的单词，而根据本发明的实施例则不限于此。即，单词可包括由词典性意思的单词与助词构成的文章内段落。尤其，具有意思单位的关键词、题目、标语等本说明书上定义为文章且作为一个翻译单位的文字组也可以包含于所述单词。

在步骤S31′，文字翻译装置100在判断出文字列为单词的情况下，可以将此提取为第一语言的文章。

相反，文字翻译装置100在未识别到预先设定的宽度区域以上的空白或未识别到所述空白以图案重复的情况下，可以判断文字列为文章而不是单词。在步骤S27，文字翻译装置100在判断出文字列为文章时可以对文字列适用预先设定的文章提取算法。

在步骤S29，文字翻译装置100可以执行所述文章提取算法以判断文字列的文章为单行文章还是多行文章。后续将在关于图6的说明中具体说明关于文章提取算法的具体实施例。

在步骤S31′，文字翻译装置100可以通过判断文字列内部是否存在空白以判断文字列为单词，或利用文章提取算法识别文章为多行还是单行，以此提取第一语言的文章。

根据本发明的实施例，此处，在判断文章为单行还是多行时可以利用文章确定符号。即，文字翻译装置100可以识别文章确定符号，以识别的文章确定符号为基准将位于前后的文字组识别为不同的文章。对此，一个行上的文字组以文章确定符号为基准区分的情况下，一个行上可以存在多个文章。

该情况下，对位于行的前端、后端的文字组，文字翻译装置100可以将直至行的上端或下端出现其他文字确定符号为止的多个行判断为不断连接的一个文章。

在步骤S31，文字翻译装置100可以根据识别的文章确定符号提取由识别的文字构成的第一语言的文章。即，文字翻译装置100可以以文章确定符号为基准以文章单位识别文字组。因此，文字翻译装置100可以判断出由识别的文字构成的文字列是构成一个文章还是相当于构成一个文章的部分构成。通过如上判断，文字翻译装置100可以将一个文字列提取成一个文章或将多个文字列提取成一个文章。并且在步骤S35，文字翻译装置100可以利用用户事件信息，根据提取的第一语言的文章生成翻译对象文章。此处，文字翻译装置100可以利用预先设定的语言模型将提取的文章加工成翻译对象文章。提取的文章可以与翻译对象文章相同或发生变更。

最后在步骤S41，文字翻译装置100可以将生成的翻译对象文章翻译成第二语言，并显示翻译成所述第二语言的文章。

图4为本发明几个实施例所参见的图像内容的示意图。

参见图4，文字翻译装置100可通过通信部、输入部110或摄像头120中任意一个获取图像内容。并且，文字翻译装置100可以通过显示部130显示获取的图像内容。图4显示的图像401及图像402是通过显示部130输出的图像内容的例子。

参见图像内容401，显示有作为文字翻译装置100的识别对象的文字组410。文字组410的各文字列相当于一个文章单位。文字翻译装置100可以识别图像内容401上的文字，尤其，可以将文字组410内的各文字列分别提取成一个文章。

参见图像内容402，显示有作为文字翻译装置100的识别对象的文字组420。文字组420的各文字列不相当于一个文章单位。即，文字组420内的文字列构成一个文章的一部分。该情况下，文字翻译装置100可识别图像内容402上的文字，尤其，可以将文字组420内的多个文字列提取成一个文章。

图5为本发明的几个实施例所参见的翻译对象文章的示意图。

参见图5，文字翻译装置100可以在步骤S21识别第一语言的文字，识别图像内容上的至少一个文字列。

并且，文字翻译装置100可以在步骤S31识别所述识别的文字列中第一文字列及第二文字列的文字大小或文字的粗度。即，如图5所示，属于文字组510的文字列与属于文字组520的文字列具有不同的字体大小或文字列的文字粗度不同的情况下，文字翻译装置100能够识别这些。

文字翻译装置100可以根据识别的文字大小将第一文字列提取成所述第一语言的文章。即，图5中属于文字组510的文字列是表示图像内容500的主题的题目，作为强调语句具有相对大的字体大小，文字翻译装置100可以将此识别成一个文章单位并提取成文章。

相反，文字翻译装置100可以将属于字体大小相对小的文字组520的文字列识别为一个文字列构成文章的一部分。该情况下，文字翻译装置100可以根据图6说明的文章提取方式将多个文字列提取成一个文章。

图5主要说明了图像内容包括具有不同字体大小的文字列，文字翻译装置100根据字体大小将文字列提取成文章的方式，但本发明的实施例不限于此。即，文字翻译装置100可以根据图像内容的类型将一个文字列提取成文章，或者将多个文字列提取成一个文章。

在步骤S11，文字翻译装置100可以从用户接收其输入的含图像内容的类型信息的用户事件信息。例如，图像内容为招牌、菜单的情况下，一个文字列构成一个文章，因此接收到其相关信息的情况下，文字翻译装置100可以将识别的文字列提取成一个文章。该情况下，文字翻译装置100不执行用于提取文章的另外的算法，因此能够最小化用于提取文章的运算过程。

相反，文字翻译装置100在输入的图像内容的类型为具有多个段落的新闻、小说等类型的情况下，可以识别为识别的多个文字列组合构成文章。因此，文字翻译装置100可以将多个文字列提取成一个文章，试图适用预先设定的语言模型。因此，翻译对象文章的准确度上升，从而能够确保翻译结果准确性。

图6及图7a为用于说明本发明的几个实施例所参见的文章提取方式的示意图。

参见图6，文字翻译装置100可以在步骤S21识别第一语言的文字并识别图像内容上的至少一个文字列。图6显示包括文字翻译装置100识别的文字列的情况的多个例子。以下，以图像内容601、602、603、604、605为例说明根据本发明实施例的文章提取算法。

在步骤S31，文字翻译装置100可以选择识别的所述文字列上的文字中包括位于右侧末端的文字的文字列。

因此，对于图像内容601、602的情况，选择分别包括位于右侧末端的文字611、612的最下端的文字列，对于图像内容603、605的情况，选择分别包括位于右侧末端的文字613、615的中端的文字列即第三行的文字列。并且，对于图像内容604的情况，选择包括位于右侧末端的文字614的最上端的文字列。

文字翻译装置100可以以位于右侧末端的文字611、612、613、614、615的x轴坐标为基准执行第一判断，即判断是否存在选择的文字列的上位文字列上的文字。

因此，对于图像内容602、604、605的情况，文字翻译装置100可以判断不存包括文字612、614、615的选择的文字列的上位文字列上的文字。

该情况下，文字翻译装置100可以将选择的所述文字列提取成第一语言的文章。

但参见图像内容602、604、605，就图像内容602、604的情况而言，一个文字列可以是一个文章，但图像内容604的情况下两个文字列是连续的，因此将一个文字列提取成一个文章的情况下可能会发生文章提取错误。为防止这种情况下发生文章提取错误，文字翻译装置100可以以位于选择的所述文字列的左侧末端的文字的x轴坐标为基准执行第二判断，即判断是否存在选择的所述文字列的下位文字列上的文字。

例如，文字翻译装置100可以以选择的文字列的左侧末端的文字621、622、623、624、625的x轴坐标为基准判断是否存在下位文字列上的文字。

就判断结果而言，对于图像内容602、605的情况，不存在下位文字列上的文字，但对于图像内容604的情况，下位文字列上存在文字。

该情况下，文字翻译装置100对于图像内容602、605的情况，可以像所述第一判断的结果一样将选择的文字列提取成一个文章。

相反，文字翻译装置100对于图像内容604的情况，可以将所述第一判断的结果修正为第二判断的结果，不将选择的文字列提取成一个文章。文字翻译装置100将包括选择的文字列与下位文字列的多个文字列提取成一个文章。

另外，文字翻译装置100对于图像内容601、603的情况，可以判断为存在包括文字611、613的选择的文字列的上位文字列上的文字。

该情况下，文字翻译装置100可以将包括选择的文字列及选择的所述文字列的上位文字列的多个文字列提取成第一语言的文章。即，对于图像内容601、603的情况，文字翻译装置100可以提取包括多个文字列的文章。

根据本发明的实施例，上述文章提取算法可以与在图5的说明中说明的利用字体大小识别、图像内容类型信息的文章提取方式一起适用。例如，对于图像内容601的情况，由于区域610的文字列的字体大小相对大，因此文字翻译装置100可以将一个文字列提取成一个文章，仅对字体大小相对小的区域620的文字列适用上述文章提取算法。并且，文字翻译装置100可以接收图像内容601的类型为新闻报道，对区域620将多个文字列提取成一个文章，并尝试适用预先设定的语言模型。

图7a显示文字翻译装置100对图像内容700利用OCR技术作为文字识别方法识别文字并对识别的文字执行N-Best搜索算法的情况。

以将中国语设为语言选择信息的情况为例进行说明。文字翻译装置100可以根据语言选择信息识别中国语文字作为OCR处理结果，确定图像内容700上的中国语文字中第一文字701的后补文字711。并且，文字翻译装置100可以确定图像内容700上的文字中与第一文字701相邻的第二文字702的后补文字712。后补文字711可包括第一文字701，后补文字712可包括第二文字702。

各后补文字711、712可以是多个，根据N-Best搜索算法的运行结果，后补文字711及后补文字712分别具有被选为第一文字的概率值及被选为第二文字的概率值。

文字翻译装置100可生成至少一个由第一文字701的后补文字711与第二文字702的后补文字712之间的组合。

文字翻译装置100可以根据语言选择信息选择生成的所述组合中被识别为第一文字及第二文字的概率最高的文字组合720。

文字翻译装置100可以根据选择的文字组合识别图像内容700上的中国语文字。图7b为用于说明图7a示出的文章提取过程中利用的数据标准的示意图。尤其，图7b显示根据本发明实施例的文字组合数据的结构。

参见图7b，文字翻译装置100可以生成包括图7a的各后补文字711、712、各后补文字结合的情况下关于各后补文字711、712的信息、各后补文字的位置即用于表示是第一文字还是第二文字的信息及各后补文字711、712的概率值信息的文字组合数据。文字翻译装置100可以在OCR后处理过程即在步骤S20利用包括这种概率值的文字组合数据识别文字，可以在翻译预处理过程即在步骤S30利用所述文字组合数据生成翻译对象文章。

图7b的数据结构只是举例示出而已，本发明的实施例不限于此，数据结构可根据多种实施例进行变形，可以适用本发明所属技术领域广泛使用的数据结构。

根据本发明的另一实施例，文字翻译装置100可以将图7b的数据发送到执行翻译预处理过程的服务器。该情况下，服务器端可以在确定将各第一语言的文字翻译成第二语言所需的翻译对象文章时利用接收的文字组合数据。

另外，文字翻译装置100也可以在翻译预处理过程利用图7所示的N-Best搜索算法生成翻译对象文章。后续将在关于图9的说明中对此进行具体说明。

图8为本发明的几个实施例所参见的GUI的示意图。

参见图8，在步骤S11，文字翻译装置100可以接收用户输入的获取的图像中的翻译对象区域。因此如画面801所示，文字翻译装置100可以在显示部130的第一区域810显示翻译对象区域。

在步骤S21，文字翻译装置100可以在显示部130的第二区域820显示如画面801识别的第一语言的文字及所述第一语言的文章确定符号。

在步骤S41，文字翻译装置100在生成翻译对象文章后，可以如画面802一样在第二区域820上显示翻译成第二语言的文章。即，文字翻译装置100在画面801的第二区域820的显示对象生成为翻译对象文章，随着执行翻译变成如画面802所示。

文字翻译装置100可以对翻译对象区域中生成的翻译对象文章进行识别处理815并显示在第一区域810。此处，文字翻译装置100也可以接收对识别处理815的文章的修正请求。所述修正请求可通过用户的触摸手势或文字翻译装置100的按键操作接收。

文字翻译装置100可以响应所述修正请求生成经修正的翻译对象文章。即，当用户输入移动或扩大识别处理815部分的修正请求的情况下，翻译对象文章可以得到修正，文字翻译装置100可移动或扩大识别处理815部分并显示在第一区域810。

文字翻译装置100可以将经修正的翻译对象文章翻译成第二语言并将翻译结果显示在第二区域820上。

图9为用于说明根据本发明又一实施例的对象文章的修正方法的示意图。

文字翻译装置100可以在步骤S35利用用户事件信息，根据提取的第一语言的文章生成翻译对象文章的后补文章。参见图9，可以生成包括在图7说明的文字组合的后补文章。

此处，文字翻译装置100可以利用用户事件信息940预测提取的文章的状况，利用预先设定的语言模型930生成后补文章910、920。

并且，文字翻译装置100可以从图7中生成的至少一个文字组合中选择包含于提取的文章的概率最高的文字组合，并将包括选择的文字组合的文章确定为最终翻译对象文章950。具体来讲，文字翻译装置100可以从预先设定的语言模型930获取数据900，通过与后补文章910、920上的单词与文字组合进行比较，选择文字组合中包含于提取的文章的概率最高的文字组合。所述语言模型930可以由单词、包括该单词的文章等构成，有时单词本身可以构成一个文章，整个文章为常用句时整个文章可以与文字组合匹配。

可以通过比较生成的组合与从预先设定的语言模型获取的一个以上的文章中的单词，根据所述比较的结果，将与获取的所述一个以上的文章或该文章中的单词匹配的概率最高的文章组合选为被识别为所述第一文字及所述第二文字的概率最高的文字组合。

另外，文字翻译装置100在步骤S11，可以根据文字翻译装置100的位置信息感测用户事件信息。即，文字翻译装置100可以感测携带文字翻译装置100的用户位于机场、国外、餐厅等信息。为此，文字翻译装置100还可以包括用于感测位置信息的GPS模块。并且，文字翻译装置100还可以感测漫游信息等通信信息作为用户事件信息。

在步骤S31，文字翻译装置100可以根据用户事件信息自动确定第一语言。即，位置信息为中国的情况下，文字翻译装置100可以自动地将中国语确定为第一语言。并且，在步骤S41，文字翻译装置100可以根据用户事件信息自动确定所述第二语言。例如，文字翻译装置100可以将文字翻译装置100的固有识别信息作为用户事件信息来利用以自动确定文字翻译装置100的用户的使用语言。或者，文字翻译装置100可以将位置信息的变更明细用作用户事件信息。

文字翻译装置100可以根据用户事件信息感测到文字翻译装置100位于餐厅，因此，生成翻译对象文章时可以利用预先设定的语言模型选择关于菜单的文字组合。

图10为本发明的几个实施例所参见的文字翻译装置的输出UI的示意图。

图10显示在步骤S41中文字翻译装置100选定翻译对象并显示翻译出的文章的情况的UI画面例子即1001、1002、1003。

参见画面1001，文字翻译装置100可以显示在步骤S35生成的翻译对象文章1020的识别标识。文字翻译装置100可以显示指定翻译区域的对象1010。

参见画面1002，从用户接收到将所述对象1010覆盖到包括所述翻译对象文章1020的区域1030的输入的情况下，文字翻译装置100可以将包含于覆盖的区域1030的翻译对象文章1020选为翻译请求文章。对象1010可以在随着接收到用户输入而将区域1030指定为翻译区域的过程中移动。例如，从用户接收到关于对象1010的触摸输入及拖动输入时，文字翻译装置100控制使得对象1010沿着拖动输入方向扩张的同时移动，将随着对象1010的移动而包括的区域识别为翻译区域。并且，文字翻译装置100可以将包含于翻译区域的文章选为翻译请求文章。

文字翻译装置100可以将选择的翻译请求文章发送到服务器，并接收对此翻译结果。因此，文件翻译装置100可以在与翻译区域1030相邻的区域显示翻译结果1040。

参见画面1003，接收到对显示的图像内容的滚动输入的情况下，文字翻译装置100可以移动翻译区域，随着翻译区域的移动，包含于翻译区域1030的翻译对象文章1025发生变更。文字翻译装置100可以将所述翻译区域1030上的翻译对象文章1025选为翻译请求文章。

另外，根据本发明的实施例，文字翻译装置100可以根据对所述对象1010的滚动输入滚动所述图像内容。

图11为本发明的几个实施例所参见的文字翻译装置的音译输出UI的示意图。

参见图11，文字翻译装置100在显示翻译结果1040时，不仅显示翻译结果即第二语言的文章1043，还可以用第二语言显示关于第一语言的音译1045。

即，在步骤S41，文字翻译装置100可以识别第二语言，在图11中第一语言为中国语、第二语言为韩语的情况下，文字翻译装置100可以识别这些并用第二语言显示第一语言的音译。

例如，对于第一语言的文章“我是学生。”，显示的第二语言的翻译结果为“ ”，此处，还可以同时显示对于第一语言用第二语言表示的音译“”。

其中，所述“”是“我是学生”的韩文，所述“”是“wo shixue sheng”的韩文读法。

图12为说明根据本发明的几个实施例所参见的基于布局识别的翻译对象文章确定方式的示意图。

另外，以上主要说明了文字翻译装置100通过在图像内容上检测文章确定符号或预先设定区域的空白以确定翻译对象文章的方法。但是，本发明的实施例不限于此，不仅文字的字体、大小，文字翻译装置100还可以根据图像内容的布局，即，图像内容上的各区域区分成文字列时将各区域上的文字组判断为不同的文章。

图12显示图像内容1200包括从视觉上区分的多个区域的情况。该情况下，文字翻译装置100可以识别划分图像内容的多个区域的线、阴影、颜色中至少一个，可以识别划分的各区域。

并且，文字翻译装置100可分别识别多个区域上的文字组。图12显示图像内容1200包括区域1210、1220、1230，各区域包括文字组1215、1225、1235的情况。

文字翻译装置100可以将各文字组1215、1225、1235判断为不同的文章并生成为翻译对象文章。

尤其，即使各区域存在不同语言的文字组，文字翻译装置100也能够通过检测部识别各语言。

文字翻译装置100可以翻译生成的文章，可以在各区域上重叠地显示翻译结果。

以上参见附图说明的根据本发明实施例的方法可以通过计算机可读代码构成的计算机程序的运行来执行。所述计算机程序可以通过因特网等网络从第一计算装置发送到第二计算装置并安装在所述第二计算装置上，从而在所述第二计算装置上使用。服务器装置、台式计算机等固定式计算装置、笔记本电脑、智能手机、平板电脑等移动计算装置均包含于所述第一计算装置及所述第二计算装置。

以上参见附图说明了本发明的实施例，但本领域所属技术领域的普通技术人员应当理解在不变更其技术思想或必要特征的前提下可以通过其他具体形态实施。因此应理解以上记载的实施例为在所有方面中的举例而不是进行限定。

Claims

1.一种文字翻译方法，其由文字翻译装置执行，其特征在于，包括：

获取图像内容的步骤；

识别所述图像内容上的第一语言的文字及所述第一语言的文章确定符号的步骤；

根据识别的所述文章确定符号提取由识别的所述文字构成的第一语言的文章的步骤；

利用用户事件信息，根据提取的所述第一语言的文章生成翻译对象文章的步骤；以及

将生成的所述翻译对象文章翻译成第二语言，并显示翻译成所述第二语言的文章的步骤。

2.根据权利要求1所述的文字翻译方法，其特征在于：

获取所述图像内容的步骤包括：

接收用户输入的包括语言选择信息的用户事件信息的步骤，

识别所述第一语言的文字及所述第一语言的文章确定符号的步骤包括：

根据所述语言选择信息识别所述第一语言的文字的步骤；以及

根据预先定义的各语言的文章分割规则识别所述第一语言的文章确定符号的步骤。

3.根据权利要求2所述的文字翻译方法，其特征在于：

识别所述第一语言的文字的步骤包括：

识别所述图像内容上的至少一个文字列的步骤，

提取由识别的所述文字构成的第一语言的文章的步骤包括：

从识别的所述文字列中识别出第一文字列及第二文字列的文字大小的步骤；以及

根据识别的所述文字大小，将所述第一文字列提取成所述第一语言的文章的步骤。

4.根据权利要求2所述的文字翻译方法，其特征在于：

识别所述第一语言的文字的步骤包括：

识别所述图像内容上的至少一个文字列的步骤，

提取由识别的所述文字构成的第一语言的文章的步骤包括：

从识别的所述文字列上的文字中选择包括位于右侧末端的文字的文字列的步骤；

第一判断步骤，以位于所述右侧末端的文字的x轴坐标为基准，判断是否存在选择的所述文字列的上位文字列上的文字；以及

所述第一判断步骤的结果为不存在所述上位文字列上的文字的情况下，将选择的所述文字列提取成所述第一语言的文章的步骤。

5.根据权利要求4所述的文字翻译方法，其特征在于：

所述第一判断步骤的结果为存在所述上位文字列上的文字的情况下，将包括选择的所述文字列及所述上位文字列的多个文字列提取成所述第一语言的文章的步骤。

6.根据权利要求4所述的文字翻译方法，其特征在于：

将选择的所述文字列提取成所述第一语言的文章的步骤包括：

第二判断步骤，以位于选择的所述文字列的左侧末端的文字的x轴坐标为基准，判断是否存在选择的所述文字列的下位文字列上的文字；以及

所述第二判断步骤的结果为不存在所述下位文字列上的文字的情况下，将选择的所述文字列提取成所述第一语言的文章的步骤。

7.根据权利要求6所述的文字翻译方法，其特征在于：

所述第二判断步骤的结果为存在所述下位文字列上的文字的情况下，将包括选择的所述文字列及所述下位文字列的多个文字列提取成所述第一语言的文章的步骤。

8.根据权利要求2所述的文字翻译方法，其特征在于，根据所述语言选择信息识别所述第一语言的文字的步骤包括：

确定所述图像内容上的第一语言的文字中第一文字的后补文字的步骤；

确定所述图像内容上的第一语言的文字中与所述第一文字相邻的第二文字的后补文字的步骤；

生成至少一个所述第一文字的后补文字与所述第二文字的后补文字之间的组合的步骤；

根据所述语言选择信息，从生成的所述组合中选择被识别为所述第一文字及所述第二文字的概率最高的文字组合的步骤；以及

根据选择的所述文字组合识别所述第一语言的文字的步骤。

9.根据权利要求8所述的文字翻译方法，其特征在于：

生成的所述文字组合包括所述第一文字的后补文字与所述第二文字的后补文字在生成的所述文字组合的位置信息、关于所述第一文字的后补文字被识别为所述第一文字的概率值与所述第二文字的后补文字被识别为所述第二文字的概率值的信息。

10.根据权利要求8所述的文字翻译方法，其特征在于，生成所述翻译对象文章的步骤包括：

利用所述用户事件信息，根据提取的所述第一语言的文章生成所述翻译对象文章的后补文章的步骤；

根据生成的所述后补文章，从生成的所述文字组合中选择包含于文章的概率最高的文字组合的步骤；以及

将包括包含于所述文章的概率最高的文字组合的文章确定为翻译对象文章的步骤。

11.根据权利要求8所述的文字翻译方法，其特征在于，根据所述语言选择信息，从生成的所述组合中选择被识别为所述第一文字及所述第二文字的概率最高的文字组合的步骤包括：

比较生成的所述文字组合与从预先设定的语言模型获取的一个以上的文章或包含于所述文章的单词的步骤；以及

根据比较结果，将与获取的所述一个以上的文章或包含于所述文章的单词匹配的概率最高的文字组合选为被识别为所述第一文字及所述第二文字的概率最高的文字组合的步骤。

12.根据权利要求1所述的文字翻译方法，其特征在于：

获取包括所述第一语言的文字的图像内容的步骤包括：

接收用户输入的包括所述图像内容的类型信息的用户事件信息的步骤，

提取由识别的所述文字构成的第一语言的文章的步骤包括：

根据所述图像内容的类型信息，将由识别的所述文字构成的一个文字列提取成所述第一语言的文章的步骤。

13.根据权利要求1所述的文字翻译方法，其特征在于：

获取所述图像内容的步骤包括：

从用户接收获取的所述图像中的翻译对象区域的步骤；以及

在第一区域显示所述翻译对象区域的步骤，

将识别的所述第一语言的文字及所述第一语言的文章确定符号显示在第二区域的步骤，

显示翻译成所述第二语言的文章的步骤包括：

随着所述翻译对象文章的生成，在所述第二区域上显示翻译成所述第二语言的文章的步骤。

14.根据权利要求13所述的文字翻译方法，其特征在于：

生成所述翻译对象文章的步骤包括：

识别处理所述翻译对象区域中生成的所述翻译对象文章并显示在所述第一区域的步骤，

识别处理生成的所述翻译对象文章并显示在所述第一区域的步骤包括：

接收对识别处理的所述文章的修正请求的步骤；以及

响应所述修正请求以生成经过修正的翻译对象文章的步骤，

将翻译成所述第二语言的文章显示在所述第二区域上的步骤包括：

将经过修正的所述翻译对象文章翻译成所述第二语言进行显示的步骤。

15.根据权利要求1所述的文字翻译方法，其特征在于：

生成所述翻译对象文章的步骤包括：

显示包括至少一个生成的所述翻译对象文章的第一区域，显示用于设定翻译区域的对象的步骤；

接收到关于对象的用户输入的情况下，将所述对象根据所述用户输入指定的第二区域重叠地显示在所述第一区域上的步骤；

将包含于所述第二区域与所述第一区域重叠的区域的翻译对象文章翻译成所述第二语言，并显示翻译成所述第二语言的文章的步骤。

16.根据权利要求15所述的文字翻译方法，其特征在于，包括：

从用户接收对所述图像内容的滚动输入的步骤；

随着所述图像内容的滚动，变更所述第一区域上的至少一个翻译对象文章，并将包括变更的所述翻译对象文章的所述第二区域重叠地显示在所述第一区域上的步骤；以及

将变更的所述翻译对象文章翻译成所述第二语言，并显示翻译成所述第二语言的文章的步骤。

17.根据权利要求1所述的文字翻译方法，其特征在于：

获取所述图像内容的步骤包括：

根据所述文字翻译装置的位置信息感测用户事件信息的步骤，

根据所述用户事件信息自动地确定所述第一语言的步骤，

显示翻译成所述第二语言的文章的步骤包括：

根据所述用户事件信息自动地确定所述第二语言的步骤。

18.根据权利要求1所述的文字翻译方法，其特征在于：

所述文章确定符号是能够从识别的所述第一语言的文字构成的文字列上的文字区分出连续的文字组且能够确定区分的所述文字组为文章的符号。

19.根据权利要求1所述的文字翻译方法，其特征在于：

识别所述图像内容上的第一语言的文字及所述第一语言的文章确定符号的步骤包括：

检测识别的所述第一语言的文字构成的文字列上的多个文字组之间的预先设定的宽度区域以上的空白的步骤，

根据识别的所述文章确定符号提取由识别的所述文字构成的第一语言的文章的步骤包括：

将位于检测到的所述空白的前后的文字组识别为不同的文章，并提取所述第一语言的文章的步骤。

20.一种文字翻译装置，其特征在于，包括：

摄像头，其获取图像内容；

输入部，其用于接收用户事件信息的输入；

显示部，其显示获取的所述图像内容的全部或一部分；以及

控制部，其识别所述图像内容上的第一语言的文字及所述第一语言的文章确定符号，根据识别的所述文章确定符号提取由识别的所述文字构成的第一语言的文章，利用所述用户事件信息，根据提取的所述第一语言的文章生成翻译对象文章，随着生成的所述翻译对象文章翻译成第二语言而控制使得显示翻译成所述第二语言的文章。

21.一种计算机程序，其存储于存储介质，其特征在于，与计算机装置结合以运行以下步骤：

识别图像内容上的第一语言的文字及所述第一语言的文章确定符号的步骤；

根据识别的所述文章确定符号提取识别的所述文字构成的第一语言的文章的步骤；

将生成的所述翻译对象文章翻译成第二语言，显示翻译成所述第二语言的文章的步骤。