JP2019537103A

JP2019537103A - 文字を翻訳する方法及びその装置

Info

Publication number: JP2019537103A
Application number: JP2019517043A
Authority: JP
Inventors: ジンジ，チャン; スチョ，チャン
Original assignee: Systran International Co ltd
Current assignee: Systran International Co ltd
Priority date: 2016-09-28
Filing date: 2016-09-28
Publication date: 2019-12-19
Also published as: EP3522038A4; WO2018062580A1; EP3522038A1; US20200026766A1

Abstract

本発明の一実施例によれば、文字翻訳装置が行う文字を翻訳する方法は、イメージコンテンツを取得するステップと、前記イメージコンテンツ上の第１言語の文字及び前記第１言語の文章決定記号を認識するステップと、前記認識された文章決定記号に基づいて、前記認識された文字で構成された第１言語の文章を抽出するステップと、ユーザイベント情報を用いて、前記抽出された第１言語の文章に基づいて、翻訳対象文章を生成するステップと、前記生成された翻訳対象文章を第２言語に翻訳し、前記第２言語に翻訳された文章をディスプレイするステップとを含むことができる。

Description

本発明は、文字を翻訳する方法及びその装置に関する。より詳細には、入力されたイメージ上の文字を認識し、認識された文字に対する文章単位の翻訳を提供する方法及びその装置に関する。

イメージ又はデジタル文書上の文字を認識するにおいて、光学的文字認識（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ、以下、ＯＣＲという）技術が広く利用されている。

ＯＣＲ技術によれば、ＯＣＲプログラムを介して読み取られた文字と予め格納されている文字との比較を通じて文字の認識が行われる。すなわち、ＯＣＲ技術において、文字の認識のための考慮対象は、個別の文字の形状であるだけで、認識される文字が構成する単語及び文章は考慮されない。

このようなＯＣＲ技術で認識された文字に対して、翻訳プログラムが他の言語に機械翻訳を行う場合、翻訳プログラムは、ＯＣＲプログラムの文字認識の結果に対して単に翻訳を行うだけであるので、翻訳の正確度が低下するという問題が発生する。例えば、ＯＣＲ技術で認識された文字が構成する一つの文章が複数の行に分割されて入力される場合、翻訳プログラムは、文章単位と関係なく入力された行単位で翻訳を行うため、一つの文章に対する翻訳が行われない。

それにもかかわらず、ＯＣＲプログラムを介して認識された文字に対する翻訳単位を文章単位として決定する方法は提供されていない。

また、ユーザイベント情報をＯＣＲプログラムの文字認識結果に反映させることによって翻訳対象に対する信頼度を向上させる方法は提供されていない。

本発明が解決しようとする技術的課題は、入力されたイメージコンテンツ上の文字を認識し、認識された文字に対して文章単位の翻訳を行う方法及びその装置を提供することである。

具体的に、本発明が解決しようとする技術的課題は、ＯＣＲプログラムによって認識された文字で構成された文章を識別し、識別された文章を基準として翻訳サービスを提供する方法を提供することである。

また、本発明が解決しようとする技術的課題は、翻訳対象及び翻訳結果を表示するグラフィックユーザインターフェース（ＧｒａｐｈｉｃＵｓｅｒＩｎｔｅｒｆａｃｅ、以下、ＧＵＩという）を提供する方法及びその装置を提供することである。

本発明が解決しようとする他の技術的課題は、入力されたイメージコンテンツの種類に応じて最適な翻訳単位を決定する方法及びその装置を提供することである。

本発明が解決しようとする更に他の技術的課題は、ユーザイベント情報に基づいて翻訳対象または翻訳結果を補正する方法及びその装置を提供することである。

本発明の技術的課題は、以上で言及した技術的課題に制限されず、言及されていない他の技術的課題は、以下の記載から、本発明の技術分野における通常の技術者に明確に理解されるであろう。

上記技術的課題を解決するために、文字翻訳装置が行う文字を翻訳する方法の一実施例によれば、文字翻訳方法は、イメージコンテンツを取得するステップと、前記イメージコンテンツ上の第１言語の文字及び前記第１言語の文章決定記号を認識するステップと、前記認識された文章決定記号に基づいて、前記認識された文字で構成された第１言語の文章を抽出するステップと、ユーザイベント情報を用いて、前記抽出された第１言語の文章に基づいて、翻訳対象文章を生成するステップと、前記生成された翻訳対象文章を第２言語に翻訳し、前記第２言語に翻訳された文章をディスプレイするステップとを含むことができる。

また、上記技術的課題を解決するための文字翻訳装置の一実施例によれば、文字翻訳装置は、イメージコンテンツを取得するカメラと、ユーザイベント情報の入力を受ける入力部と、前記取得されたイメージコンテンツの全部又は一部をディスプレイするディスプレイ部と、前記イメージコンテンツ上の第１言語の文字及び前記第１言語の文章決定記号を認識し、前記認識された文章決定記号に基づいて、前記認識された文字で構成された第１言語の文章を抽出し、前記ユーザイベント情報を用いて、前記抽出された第１言語の文章に基づいて、翻訳対象文章を生成し、前記生成された翻訳対象文章を第２言語に翻訳するに伴って、前記第２言語に翻訳された文章がディスプレイされるように制御する制御部とを含むことができる。

上記技術的課題を解決するための、記録媒体に格納されたコンピュータプログラムの一実施例によれば、コンピュータプログラムは、コンピューティング装置と結合して、イメージコンテンツ上の第１言語の文字及び前記第１言語の文章決定記号を認識するステップと、前記認識された文章決定記号に基づいて、前記認識された文字で構成された第１言語の文章を抽出するステップと、ユーザイベント情報を用いて、前記抽出された第１言語の文章に基づいて、翻訳対象文章を生成するステップと、前記生成された翻訳対象文章を第２言語に翻訳し、前記第２言語に翻訳された文章をディスプレイするステップとを実行させることができる。

本発明の一実施例によれば、ＯＣＲ処理された文字に対して文章単位の翻訳が行われるので、ユーザに、より正確な翻訳結果が提供される効果がある。

本発明の一実施例によれば、入力されるコンテンツの種類に応じて最適な翻訳単位が決定され、決定された翻訳単位で翻訳が行われるので、ユーザに、より正確な翻訳結果が提供される効果がある。

本発明の一実施例によれば、ユーザイベント情報に基づいて翻訳対象又は翻訳結果が補正されるので、ユーザに、より正確な翻訳結果が提供される効果がある。

また、本発明の一実施例によれば、ＧＵＩを介して翻訳対象文章が表示されるので、ユーザに、翻訳の正確性に対する予測可能性が提供され、翻訳対象に対する修正機能が提供されるという利点がある。

本発明の一実施例に係る、文字翻訳プロセスの例示である。本発明の他の実施例に係る、文字翻訳装置のブロック図である。本発明の更に他の実施例に係る、文字翻訳方法のフローチャートである。本発明の更に他の実施例に係る、コンテキスト識別方法のフローチャートである。本発明のいくつかの実施例で参照される、イメージコンテンツの例示である。本発明のいくつかの実施例で参照される、翻訳対象文章の例示である。本発明のいくつかの実施例で参照される、文章抽出方式を説明するための例示図である。本発明のいくつかの実施例で参照される、文章抽出方式を説明するための例示図である。図７Ａで例示された文章抽出過程で用いられるデータの規格を説明するための例示図である。本発明のいくつかの実施例で参照される、ＧＵＩの例示図である。本発明の更に他の実施例に係る、翻訳対象文章の修正方法を説明するための例示図である。本発明のいくつかの実施例で参照される、文字翻訳装置の出力ＵＩの例示である。本発明のいくつかの実施例で参照される、文字翻訳装置の音借出力ＵＩの例示である。本発明のいくつかの実施例で参照される、レイアウト識別による翻訳対象文章決定方式を説明するための例示図である。

以下、添付の図面を参照して、本発明の好ましい実施例を詳細に説明する。本発明の利点及び特徴、そして、それらを達成する方法は、添付の図面と共に詳細に後述されている実施例を参照すると明確になるであろう。しかし、本発明は、以下に開示される実施例に限定されるものではなく、互いに異なる様々な形態で具現可能であり、単に本実施例は、本発明の開示が完全になるようにし、本発明の属する技術分野における通常の知識を有する者に発明の範疇を完全に知らせるために提供されるものであり、本発明は、請求項の範疇によって定義されるだけである。明細書全体にわたって同一の参照符号は同一の構成要素を指す。

別の定義がなければ、本明細書で使用されるすべての用語（技術及び科学的用語を含む）は、本発明の属する技術分野で通常の知識を有する者に共通して理解される意味として使用され得る。また、一般に使用される辞書に定義されている用語は、明らかに特に定義されていない限り、理想的又は過度に解釈されない。本明細書で使用された用語は、実施例を説明するためのものであり、本発明を制限するためのものではない。本明細書において、単数型は文句で特に言及しない限り、複数型も含む。

本明細書において、文章決定記号とは、文字列又は連結された複数の文字が配列された場合、他の文字から一連の文字グループを区別し、区別された文字グループが文章であることを決定できる記号を意味する。例えば、複数の文字が並んでいる途中で、句読点として、記号“。”、“？”、“！”、“：”、“／”などが出る場合、前記記号を境界として前の文字グループは、後に来る文字グループと区別される。また、このように区別された文字グループは文章を構成する。このとき、前記文字グループを区別する記号を、本明細書において「文章決定記号」と称することにする。一方、本明細書の文章決定記号が前記例示的に紹介された文章決定記号に限定されるものではない。例えば、‘（シングルクォーテーション）又は“（ダブルクォーテーション）が対をなして配列された場合、シングルクォーテーションの対又はダブルクォーテーションの対の内部の文字グループは、外部の文字グループと区別されるので、本明細書の文章決定記号に該当する。

一方、複数の文字グループ上の文章は、必ずしも文章決定記号のみで区別されるものではない。例えば、複数の文字グループが所定の空間、例えば、空白、タブ（ｔａｂ）、行などを境界として区別される場合、又は、文字グループが位置するレイアウトを異ならせて空間的に区別される場合、前記境界の前後に位置するか、または互いに異なるレイアウト上の文字グループは、互いに異なる文章であり得る。また、複数の文字グループ内に前記所定の空間が一定のパターンで繰り返される場合、前記空間は文章を決定するものではなく、文章内の単語を区別する空間であることもある。

したがって、本明細書において文章とは、特に、文章決定記号で区別される一つの文字グループ単位として理解されなければならない。または、複数の文字グループ内に所定の空間によって区別される一つの文字グループ単位もまた、本発明の一実施例に係る文章として理解されなければならない。すなわち、本明細書において文章は、必ずしも主語と動詞を構成要素として含まなければならないものではなく、特定の意味を有する題目、標語のような場合にも本明細書の文章として理解され得る。したがって、文章内の段落、特定の主題を有する単語を含む文字グループもまた、本発明の他の実施例に係る文章として理解されなければならない。

本明細書においてユーザイベント情報とは、本発明の実施例に係る文章翻訳装置に入力される全てのユーザ情報を含む。すなわち、本発明の実施例に係る文字翻訳装置に、ユーザから、文字認識対象であるイメージコンテンツに関する情報が入力されるか、またはユーザが特定の場所の情報を入力する場合、ユーザイベント情報は前記入力される情報を含むことができる。

このとき、文字翻訳装置は、様々な方式でユーザイベント情報の入力を受けることができる。例えば、文字翻訳装置の入力部、カメラ、センサ部などの様々な構成要素を介して入力される情報を含む。

具体的には、ユーザの活動が特定のイベントに該当する場合、例えば、ユーザが食事のために特定のレストランに位置するか、または空港に位置する場合に、ユーザイベント情報は、文字翻訳装置のセンサ部に入力される位置情報を含むこともできる。このとき、文字翻訳装置が、前記文字翻訳装置の位置情報が予め設定された時間を基準として臨界範囲以上変動することを感知すると、例えば、ユーザが旅行中であるイベントが感知されると、このように、位置情報の変動に関する情報もまた、本明細書のユーザイベント情報に含まれ得る。

図１は、本発明の一実施例に係る、文字翻訳プロセスの例示である。

図１を参照すると、文字翻訳プロセスは、文字翻訳装置１００によって行われる。特に、図１において、文字翻訳装置１００を介して、ユーザがイメージコンテンツを撮影して（Ｓ１０）文字を認識し、認識された文字に対する機械翻訳を行う場合が例として示されている。文字翻訳装置１００は、イメージコンテンツを撮影する前に、ユーザから、言語選択情報及び／又はユーザイベント情報の入力を受けることもできる。

撮影によって取得されたイメージコンテンツは、少なくとも１つの言語で記載された文字グループを含むことができる。文字翻訳装置１００は、取得されたイメージコンテンツ上の文字グループの全部又は一部が、ユーザから文字認識範囲として指定され得る。このとき、文字認識方法としてＯＣＲ技術を用いることが、図１に例として示されている。以下、本明細書で提示される文字認識方式は、文字認識方式の一例であるＯＣＲ技術であると仮定する。

次に、文字翻訳装置１００はＯＣＲ後処理過程を行う（Ｓ２０）。

文字翻訳装置１００は、言語別に予め定義された文章分割規則を用いて、言語別の様々なフォントを学習し、入力されるイメージコンテンツ上の文字を認識することができる。例えば、文字翻訳装置１００は、ＳＲＸ（ＳｅｇｍｅｎｔａｔｉｏｎＲｕｌｅｅＸｃｈａｎｇｅｆｏｒｍａｔ）−ＬＩＳＡ．ｏｒｇで規定した文章分割規則を用いることができる。

また、本発明の実施例によれば、文字翻訳装置１００は、前記言語別の様々なフォントを学習することによって、文字グループ内で文章決定記号を認識することができる。すなわち、ＯＣＲ後処理過程（Ｓ２０）において、文字翻訳装置１００はイメージコンテンツ上の文字及び／又は文章決定記号を認識することができる。

また、文字翻訳装置１００は、イメージコンテンツ上の文字列を認識することができ、以下、図６で説明される翻訳対象文章生成方法に関する実施例を用いて、一つの文字列、または複数の文字列を、それぞれ一つの文章単位として抽出することができる。これについての具体的な説明は、図６に関する説明で後述する。

また、文字翻訳装置１００は、文字認識において、各文字間の確率的結合関係を用いて文字認識の正確度を向上させることができる。例えば、文字翻訳装置１００は、Ｎ−Ｂｅｓｔ探索アルゴリズムを用いて、前記文字間の確率的結合関係を判断することができる。これについての詳細な説明は、図７に関する説明で後述する。

次に、文字翻訳装置１００は翻訳前処理過程を行う（Ｓ３０）。

翻訳前処理過程において、文字翻訳装置１００は、認識された文字から抽出された文章単位の文章に対して、予め設定された言語モデルを用いて文章の正確性を検査することができる。すなわち、ＯＣＲで認識された文字で構成された文章を用いて翻訳を行う際に翻訳の正確度を高めるためには、翻訳対象となる文章が正確な文章でなければならないので、翻訳前処理過程は、機械翻訳を行う前に翻訳対象文章の信頼性を確保するためのプロセスである。

このとき、文字翻訳装置１００は、予め設定された言語モデルを用いて、ウェブ上の出現頻度、各言語モデルで予め学習された文字結合関係などに基づいて翻訳対象文章を最終的に決定することができる。すなわち、ＯＣＲ後処理過程（Ｓ２０）でＯＣＲ認識を経た文字が文章単位の文章として抽出され、抽出された文章単位の文章が翻訳前処理過程（Ｓ３０）で加工されることで、翻訳対象文章が確定される。

最後に、文字翻訳装置１００は、翻訳対象文章に対して機械翻訳を行い（Ｓ４０）、ディスプレイ部を介して翻訳結果を出力する。

図２は、本発明の他の実施例に係る、文字翻訳装置のブロック図である。

以下、図２を参照して、文字翻訳装置１００の構造及び動作について詳細に説明する。

文字翻訳装置１００は、入力部１１０、カメラ１２０、ディスプレイ部１３０、及び制御部１４０で構成することができる。

入力部１１０は、ユーザから、各種データ、命令及び／又は情報の入力を受ける。特に、入力部１１０は、文字翻訳装置１００にユーザから入力されるユーザイベント情報及び／又はイメージコンテンツに関する情報の入力を受けることができる。また、入力部１１０は、本発明の実施例に係る、文字認識範囲に関するユーザ指定の入力を受けることができ、翻訳対象文章に対する修正入力の入力を受けることもできる。

入力部１１０は、本発明の属する技術分野でよく知られた任意の形態の入力手段を含んで構成され得る。例えば、入力部１１０は、ユーザ入力を受信するためのキーパッド、ボタン、及びタッチスクリーンのうちの少なくとも１つを含んで構成されてもよい。また、入力部１１０は、ユーザの音声を受信するためのマイクを含んで構成されてもよい。

カメラ１２０は、本発明の実施例によってイメージコンテンツを取得することができる。カメラ１２０は、本発明の属する技術分野でよく知られた任意のイメージセンサを備えて構成され得る。文字翻訳装置１００は１つ以上のカメラを含むこともできる。

ディスプレイ部１３０は、ユーザに各種データ、命令、情報、及び／又はＧＵＩをディスプレイする。ディスプレイ部１３０は、カメラ１２０から取得されたイメージコンテンツの全部又は一部をディスプレイすることができる。また、ディスプレイ部１３０は、ＯＣＲを介した文字認識の結果、抽出された文章、翻訳対象文章、及び／又は翻訳の結果をディスプレイすることもできる。

本発明のディスプレイ部１３０は、本発明の属する技術分野でよく知られた任意の形態のディスプレイ手段をさらに含んで構成され得る。例えば、ディスプレイ部１３０は、タッチセンサを備えたタッチスクリーンで構成されてもよく、この場合、ディスプレイ部１３０は、入力部１１０として機能することもできる。

制御部１４０は、文字翻訳装置１００の各構成の全般的な動作を制御する。制御部１４０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｏｒＵｎｉｔ）、ＭＣＵ（ＭｉｃｒｏＣｏｎｔｒｏｌｌｅｒＵｎｉｔ）、または本発明の技術分野でよく知られた任意の形態のプロセッサを含んで構成されてもよい。制御部１４０は、メモリ、例えばＲＡＭを構成として含むこともできる。また、制御部１４０は、本発明の実施例による方法を実行するための少なくとも１つのアプリケーションまたはプログラムを格納することもできる。例えば、制御部１４０は、本発明の実施例による文字翻訳プログラムを格納し、これを実行することができる。制御部１４０が文字翻訳プログラムを実行することによって、本発明の実施例による文字翻訳方法が行われ得る。

具体的に、制御部１４０は、ユーザ入力、文字認識、文章の抽出、及び／又は翻訳のような本発明の実施例による文字翻訳プロセスが行われるに伴い、ディスプレイ部１３０のディスプレイオブジェクトを変更させることができる。

本発明の実施例によれば、制御部１４０は、本発明の実施例による機能を行うために、複数の下部モジュールを格納することができる。

例えば、制御部１４０は検出部を含むことで、イメージコンテンツ上の文字の言語を識別することができる。すなわち、検出部は、イメージコンテンツ上の１つ以上の言語を識別することができる。これによって、文字翻訳装置１００は、一つのイメージコンテンツ上で識別された言語を、翻訳対象である第１言語として決定することができる。例えば、前記第１言語は、中国語、英語のように複数個であってもよい。例えば、制御部１４０は、コンテキスト（ｃｏｎｔｅｘｔ）決定部を含むことができる。コンテキスト決定部は、検出部で識別された言語に対して、言語モデルを用いて、文字列の文字グループが単語であるか文章であるかを判断することができる。このとき、コンテキスト決定部は、文字列の内部の空白に対する検出を行うことができ、検出結果に基づいて、文字グループが単語であるか文章であるかを決定することができる。

また、コンテキスト検出部は、文章抽出アルゴリズムを用いて、文字列の文字グループが単行の文章であるか複数行の文章であるかを判断することもできる。

例えば、制御部１４０は変換部を含むこともできる。変換部は、コンテキスト検出部で判断された単語、文章に対する翻訳前処理、音借生成、及び翻訳機能を行うことができる。変換部は、Ｎ−ｂｅｓｔ探索アルゴリズムを用いて、最終の翻訳対象に含まれる単語または文章を決定することができる。この場合、ＯＣＲ後処理及び翻訳前処理過程においてＮ−ｂｅｓｔ探索アルゴリズムを用いて翻訳対象に含まれた単語または文章が決定され、変換部は、そのために、文字組み合わせデータを生成することができる。前記文字組み合わせデータは、予め定義されたプロトコルに従うデータ構造を有することができる。これについての説明は、図７Ｂに関する説明で後述する。

また、変換部は、第２言語を決定し、決定された文章に対して、第１言語から第２言語に自動翻訳を行い、決定された翻訳対象に対して第２言語の音借を生成することもできる。

一方、図示していないが、文字翻訳装置１００は通信部を含むこともできる。通信部は、文字翻訳装置１００の有無線インターネット通信またはイントラネット通信を支援し、外部装置と各種情報を送受信することができる。通信部は、外部装置から、言語モデル及び予め定義された文章分割規則が提供されてもよい。または、通信部は、言語モデル、ＯＣＲ、予め定義された文章分割規則を外部装置で処理するために、文字認識に関連するデータを外部装置に送信することができ、処理結果を外部装置から受信することもできる。具体的に、通信部は、予め定義されたプロトコルに従う構造を有する文字組み合わせデータを外部装置に送信し、これに対する処理結果を受信することもできる。

また、通信部は、本発明の実施例による文字認識の対象となるイメージコンテンツを外部装置から受信することもでき、このような実施例において、通信部は入力部１１０として機能することもできる。通信部は、本発明の属する技術分野でよく知られた各種通信モジュールを少なくとも１つ備えて構成され得る。

また、図示していないが、文字入力装置１００は格納部を含むことができる。格納部は、各種データ、命令、及び／又は情報を格納する。格納部は、本発明の実施例による文字認識方法の提供を受けるための１つ以上のアプリケーションを格納することができる。また、格納部は、通信部を介して受信される各種情報、入力部を介して入力される各種情報を格納することもできる。

格納部は、外部装置から伝達されたデータなどを一時的又は非一時的に格納することができる。格納部は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、フラッシュメモリなどのような非揮発性メモリ、ハードディスク、着脱型ディスク、または本発明の属する技術分野でよく知られた任意の形態のコンピュータで読み取り可能な記録媒体を含んで構成されてもよい。

図３Ａは、本発明の更に他の実施例に係る、文字翻訳方法のフローチャートである。図３Ｂは、本発明の更に他の実施例に係る、コンテキスト識別方法のフローチャートである。

以下、文字翻訳方法は、制御部１４０が文字翻訳プログラムを実行することによって文字翻訳装置１００によって行われるものと仮定する。

図３Ａを参照すると、文字翻訳装置１００はイメージコンテンツを取得することができる（Ｓ１１）。このとき、イメージコンテンツは、カメラ１２０を介して入力されるか、または通信部を介して受信されることによって取得することができる。

文字翻訳装置１００は、イメージコンテンツ上の第１言語の文字及び前記第１言語の文章決定記号を認識することができる（Ｓ２１）。例えば、第１言語は中国語であってもよい。この場合、文字翻訳装置１００は、言語選択情報を含むユーザイベント情報の入力を受けることができる。

文字翻訳装置１００は、言語選択情報として、ユーザから認識対象文字の言語として中国語が設定され得る。また、文字翻訳装置１００は、認識対象文字が認識された後、翻訳の対象となる他の言語に対する設定が入力されてもよい。

文字翻訳装置１００は、言語選択情報と共に、他の情報がユーザイベント情報として入力されてもよい。例えば、イメージコンテンツが中国語で記載された飲食メニューである場合、言語選択情報として中国語が設定され、イメージの種類がメニューであることを示す情報がユーザイベント情報として入力されてもよい。この場合、文字翻訳装置１００は、認識された文字間の確率的結合関係を用いて飲食メニューに該当する文字を認識し、認識された文字から文章の抽出及び翻訳対象文章の生成をさらに正確に行うことができる。

文字翻訳装置１００は、入力された言語選択情報に基づいて、前記第１言語の文字を認識することができ、予め定義された言語別の文章分割規則に従って、第１言語の文章決定記号を認識することができる。前記例において、文字翻訳装置１００は、中国語が認識対象文字として設定されたので、イメージコンテンツ上の文字を中国語として認識する。また、文字翻訳装置１００は、予め定義された言語別の文章分割規則に従って、学習された様々な中国語フォントとの比較過程を通じて、文字及び文章決定記号を認識することができる。文字翻訳装置１００は、イメージコンテンツ上の文字が学習されていない中国語フォントを含む場合、通信部を介してウェブ検索を行うことによって、予め定義された文章分割規則を補完することもできる。具体的には、図３Ｂを参照すると、文字翻訳装置１００は、イメージコンテンツ上の第１言語の文字で構成された文字列を認識し、前記第１言語の文字で構成された文字列のコンテキスト（Ｃｏｎｔｅｘｔ）を判断することができる（Ｓ２３）。すなわち、文字翻訳装置１００は、認識された第１言語の文字で構成された文字列が単語であるか文章であるか、文章であれば、単行の文章であるか複数行の文章であるかを判断することができる。

まず、文字翻訳装置１００は、文字列が単語であるか文章であるかを判断することができる（Ｓ２５）。このとき、文字翻訳装置１００は、文字列に含まれた複数の文字グループ間の空白が、予め設定された広さの領域以上である場合、空白で区別される文字グループは、互いに異なる単語と判断することができる。文字翻訳装置１００は、前記空白がパターンを有して繰り返される場合、空白で区別される文字グループを互いに異なる単語と判断することもできる。ここで、単語とは、辞書的な意味の単語を意味してもよいが、本発明の実施例によれば、これに限定されない。すなわち、単語とは、辞書的な意味の単語及び助詞で構成された文章内の段落を含むことができる。特に、意味単位を有する主題語、題目、標語など、本明細書上で文章と定義されて一つの翻訳単位となる文字グループもまた、前記単語に含まれ得る。

文字翻訳装置１００は、文字列が単語と判断される場合、これを第１言語の文章として抽出することができる（Ｓ３１’）。

反面、文字翻訳装置１００は、予め設定された広さの領域以上の空白が識別されないか、または前記空白がパターンを有して繰り返されない場合、文字列を、単語ではなく文章と判断することができる。文字翻訳装置１００は、文字列が文章と判断される場合、文字列に対して予め設定された文章抽出アルゴリズムを適用することができる（Ｓ２７）。

文字翻訳装置１００は、前記文章抽出アルゴリズムを行うことで、文字列の文章が単行の文章であるか、複数行の文章であるかを判断することができる（Ｓ２９）。文章抽出アルゴリズムについての具体的な実施例は、図６に関する説明で後述する。

文字翻訳装置１００は、文字列の内部に空白が存在するか否かを判断して、文字列を単語と判断するか、または文章抽出アルゴリズムを用いて複数行又は単行の文章を識別することによって、第１言語の文章を抽出することができる（Ｓ３１’）。

本発明の実施例によれば、このとき、文章が単行であるか複数行であるかを判断する際に文章決定記号を用いることができる。すなわち、文字翻訳装置１００は、文章決定記号を識別し、識別された文章決定記号を基準に前後に位置する文字グループを互いに異なる文章として識別することができる。これによって、一つの行上の文字グループが文章決定記号を基準として区別される場合、一つの行には複数個の文章が存在し得る。

この場合、文字翻訳装置１００は、行の前端、後端に位置する文字グループに対して、行の上段又は下段に他の文字決定記号が登場するまで、複数の行が一つの文章として継続して連結されていると判断することができる。

文字翻訳装置１００は、認識された文章決定記号に基づいて、認識された文字で構成された第１言語の文章を抽出することができる（Ｓ３１）。すなわち、文字翻訳装置１００は、文章決定記号を基準として、文章単位で文字グループを識別することができる。したがって、文字翻訳装置１００は、認識された文字で構成された文字列が一つの文章を構成するか、一つの文章の一部の構成に該当するかを判断することができる。このような判断を通じて、文字翻訳装置１００は、一つの文字列を一つの文章として抽出するか、または複数の文字列を一つの文章として抽出することができる。また、文字翻訳装置１００は、ユーザイベント情報を用いて、抽出された第１言語の文章に基づいて、翻訳対象文章を生成することができる（Ｓ３５）。このとき、文字翻訳装置１００は、予め設定された言語モデルを用いて、抽出された文章を翻訳対象文章に加工することができる。抽出された文章は、翻訳対象文章と同一であってもよく、変更されてもよい。

最後に、文字翻訳装置１００は、生成された翻訳対象文章を第２言語に翻訳し、前記第２言語に翻訳された文章をディスプレイすることができる（Ｓ４１）。

図４は、本発明のいくつかの実施例で参照される、イメージコンテンツの例示である。

図４を参照すると、文字翻訳装置１００は、通信部、入力部１１０及びカメラ１２０のいずれか１つを介してコンテンツイメージを取得することができる。また、文字翻訳装置１００は、ディスプレイ部１３０を介して、取得されたコンテンツイメージを出力することができる。図４において、ディスプレイ部１３０を介して出力されたコンテンツイメージの例として、イメージ４０１及びイメージ４０２が示されている。

イメージ４０１を参照すると、文字翻訳装置１００の認識対象として文字グループ４１０が示されている。文字グループ４１０のそれぞれの文字列は一つの文章単位に該当する。文字翻訳装置１００は、イメージ４０１上の文字を認識することができ、特に、文字グループ４１０内の各文字列をそれぞれ一つの文章として抽出することができる。

イメージ４０２を参照すると、文字翻訳装置１００の認識対象として文字グループ４２０が示されている。文字グループ４２０のそれぞれの文字列は一つの文章単位に該当しない。すなわち、文字グループ４２０内の文字列は一つの文章の一部を構成する。この場合、文字翻訳装置１００は、イメージ４０２上の文字を認識することができ、特に、文字グループ４２０内の複数の文字列を一つの文章として抽出することができる。

図５は、本発明のいくつかの実施例で参照される、翻訳対象文章の例示である。

図５を参照すると、文字翻訳装置１００は、ステップＳ２１において、第１言語の文字を認識し、イメージコンテンツ上の文字列を少なくとも１つ認識することができる。

また、文字翻訳装置１００は、ステップＳ３１において、前記認識された文字列のうち、第１文字列及び第２文字列の文字サイズ又は文字の太さを識別することができる。すなわち、図５に示されたように、文字グループ５１０に属する文字列と文字グループ５２０に属する文字列とが互いに異なるフォントサイズを有するか、または文字列の文字の太さが異なる場合、文字翻訳装置１００はこれを識別することができる。

文字翻訳装置１００は、識別された文字サイズに基づいて、第１文字列を前記第１言語の文章として抽出することができる。すなわち、図５において、文字グループ５１０に属する文字列は、イメージコンテンツ５００の主題を示す題目、強調語句であって、相対的に大きいフォントサイズを有し、文字翻訳装置１００は、これを一つの文章単位として認識し、文章として抽出することができる。

反面、文字翻訳装置１００は、相対的に小さいフォントサイズを有する文字グループ５２０に属する文字列は、一つの文字列が文章の一部を構成するものと認識することができる。この場合、文字翻訳装置１００は、図６で説明される文章抽出方式によって、複数の文字列を一つの文章として抽出することができる。

図５において、イメージコンテンツに互いに異なるフォントサイズを有する文字列が含まれ、文字翻訳装置１００がフォントサイズに基づいて、文字列を文章として抽出する方式が主に説明されたが、本発明の実施例はこれに限定されない。すなわち、文字翻訳装置１００は、イメージコンテンツのタイプに応じて、一つの文字列を文章として抽出するか、または複数の文字列を一つの文章として抽出することもできる。

ステップＳ１１において、文字翻訳装置１００は、ユーザから、イメージコンテンツのタイプ情報を含むユーザイベント情報が入力され得る。例えば、イメージコンテンツが看板、メニューである場合、主に一つの文字列が一つの文章であるので、これに関する情報が入力された場合、文字翻訳装置１００は、認識される文字列を一つの文章として抽出することができる。この場合、文字翻訳装置１００は、文章の抽出のための別途のアルゴリズムを行わないので、文章の抽出のための演算過程を最小化することができる。

反面、文字翻訳装置１００は、イメージコンテンツのタイプが、多数の段落を有する新聞、小説のようなタイプとして入力された場合、認識された文字列が複数個組み合わされて文章を構成するものと認識することができる。したがって、文字翻訳装置１００は、複数個の文字列を一つの文章として抽出し、予め設定された言語モデルの適用を試みることができる。これによって、翻訳対象文章の正確度が高くなるので、翻訳結果の正確性を期待することができる。

図６及び図７Ａは、本発明のいくつかの実施例で参照される、文章抽出方式を説明するための例示図である。

図６を参照すると、文字翻訳装置１００は、ステップＳ２１において、第１言語の文字を認識し、イメージコンテンツ上の文字列を少なくとも１つ認識することができる。図６において、文字翻訳装置１００が認識した文字列を含む場合が多数の例として示されている。以下、イメージコンテンツ６０１，６０２，６０３，６０４，６０５を例に挙げて本発明の実施例に係る文章抽出アルゴリズムを説明する。

ステップＳ３１において、文字翻訳装置１００は、前記認識された文字列上の文字のうち、右端に位置した文字を含む文字列を選択することができる。

これによって、イメージコンテンツ６０１，６０２の場合、それぞれ、右端に位置した文字６１１，６１２を含む最下段の文字列が選択され、イメージコンテンツ６０３，６０５の場合、それぞれ、右端に位置した文字６１３，６１５を含む中段の文字列、すなわち３番目の行の文字列が選択される。また、イメージコンテンツ６０４の場合、右端に位置した文字６１４を含む最上段の文字列が選択される。

文字翻訳装置１００は、右端に位置した文字６１１，６１２，６１３，６１４，６１５のｘ軸座標を基準として、選択された文字列の上位文字列上の文字が存在するか否かを第１判断することができる。

これによって、文字翻訳装置１００は、イメージコンテンツ６０２，６０４，６０５の場合、文字６１２，６１４，６１５を含む選択された文字列の上位文字列上の文字が存在しないと判断することができる。

このような場合、文字翻訳装置１００は、前記選択された文字列を第１言語の文章として抽出することができる。

しかし、イメージコンテンツ６０２，６０４，６０５を参照すると、イメージコンテンツ６０２，６０４の場合、一つの文字列が一つの文章であり得るが、イメージコンテンツ６０４の場合、２つの文字列がつながっているので、一つの文字列を一つの文章として抽出する場合、文章抽出の誤りが発生することがある。このような場合の文章抽出の誤りを防止するために、文字翻訳装置１００は、前記選択された文字列の左端に位置した文字のｘ軸座標を基準として、前記選択された文字列の下位文字列上の文字が存在するか否かを第２判断することができる。

例えば、文字翻訳装置１００は、選択された文字列の左端に位置する文字６２１，６２２，６２３，６２４，６２５のｘ軸座標を基準として下位文字列上の文字が存在するか否かを判断することができる。

判断の結果、イメージコンテンツ６０２，６０５の場合、下位文字列上に文字が存在しないが、イメージコンテンツ６０４の場合、下位文字列上に文字が存在する。

この場合、文字翻訳装置１００は、イメージコンテンツ６０２，６０５の場合、前記第１判断の結果と同様に、選択された文字列を一つの文章として抽出することができる。

反面、文字翻訳装置１００は、イメージコンテンツ６０４の場合、前記第１判断の結果を第２判断の結果に修正して、選択された文字列を一つの文章として抽出しない。文字翻訳装置１００は、選択された文字列及び下位文字列を含む複数の文字列を一つの文章として抽出する。

一方、文字翻訳装置１００は、イメージコンテンツ６０１，６０３の場合、文字６１１，６１３を含む選択された文字列の上位文字列上の文字が存在すると判断することができる。

この場合、文字翻訳装置１００は、選択された文字列及び前記選択された文字列の上位文字列を含む複数の文字列を第１言語の文章として抽出することができる。すなわち、イメージコンテンツ６０１，６０３の場合、文字翻訳装置１００は、複数の文字列を含む文章を抽出することができる。

本発明の実施例によれば、上述した文章抽出アルゴリズムは、図５に関する説明で説明されたフォントサイズの識別、イメージコンテンツのタイプ情報を用いた文章抽出方式と共に適用することができる。例えば、イメージコンテンツ６０１の場合、文字翻訳装置１００は、領域６１０の文字列はフォントサイズが相対的に大きいので、一つの文字列を一つの文章として抽出し、フォントサイズが相対的に小さい領域６２０の文字列に対してのみ上述した文章抽出アルゴリズムを適用することもできる。また、文字翻訳装置１００は、イメージコンテンツ６０１のタイプが新聞記事であることが入力され、領域６２０に対して複数個の文字列を一つの文章として抽出して、予め設定された言語モデルの適用を試みることもできる。

図７Ａには、イメージコンテンツ７００に対して、文字翻訳装置１００が文字認識方法としてＯＣＲ技術を用いて文字を認識し、認識された文字に対してＮ−Ｂｅｓｔ探索アルゴリズムを行う場合が例として示されている。

言語選択情報として中国語が設定された場合を例に挙げて説明する。文字翻訳装置１００は、言語選択情報に基づいて、ＯＣＲ処理の結果、中国語の文字を認識し、イメージコンテンツ７００上の中国語の文字のうち、第１文字７０１の候補文字７１１を決定することができる。また、文字翻訳装置１００は、イメージコンテンツ７００上の文字のうち、第１文字７０１に隣接する第２文字７０２の候補文字７１２を決定することができる。候補文字７１１は第１文字７０１を含み、候補文字７１２は第２文字７０２を含むことができる。

各候補文字７１１，７１２は複数個であってもよく、Ｎ−Ｂｅｓｔ探索アルゴリズムの実行の結果、候補文字７１１及び候補文字７１２は、それぞれ、第１文字として選択される確率値及び第２文字として選択される確率値を有する。

文字翻訳装置１００は、第１文字７０１の候補文字７１１と第２文字７０２の候補文字７１２との組み合わせを少なくとも１つ生成することができる。

文字翻訳装置１００は、言語選択情報に基づいて、前記生成された組み合わせのうち、第１文字及び第２文字として認識される確率が最も高い文字の組み合わせ７２０を選択することができる。

文字翻訳装置１００は、選択された文字の組み合わせに基づいて、イメージコンテンツ７００上の中国語文字を認識することができる。図７Ｂは、図７Ａで例示された文章抽出過程で用いられるデータの規格を説明するための例示図である。特に、図７Ｂには、本発明の実施例による文字組み合わせデータの構造が例示されている。

図７Ｂを参照すると、文字翻訳装置１００は、図７Ａの各候補文字７１１，７１２、各候補文字が結合される場合、各候補文字７１１，７１２に関する情報、各候補文字の位置、すなわち、第１文字であるか第２文字であるかに関する情報、及び各候補文字７１１，７１２の確率値の情報を含む文字組み合わせデータを生成することができる。文字翻訳装置１００は、ＯＣＲ後処理過程（Ｓ２０）において、このような確率値を含む文字組み合わせデータを用いて文字を認識することができ、翻訳前処理過程（Ｓ３０）において、前記文字組み合わせデータを用いて翻訳対象文章を生成することもできる。

図７Ｂのデータ構造は例示に過ぎず、本発明の実施例はこれに限定されず、データ構造は、様々な実施例による変形が可能であり、本発明の属する技術分野で広く利用されるデータ構造が適用されてもよい。

本発明の他の実施例において、文字翻訳装置１００は、図７Ｂのデータを、翻訳前処理過程を行うサーバに送信することができる。この場合、サーバ団は、各第１言語の文字を第２言語に翻訳するのに必要な翻訳対象文章の確定に受信された文字組み合わせデータを用いることができる。

一方、文字翻訳装置１００は、翻訳前処理過程において、図７で例示されたＮ−Ｂｅｓｔ探索アルゴリズムを用いて、翻訳対象文章を生成することもできる。これについての詳細な説明は図９に関する説明で後述する。

図８は、本発明のいくつかの実施例で参照される、ＧＵＩの例示図である。

図８を参照すると、ステップＳ１１において、文字翻訳装置１００は、取得したイメージ中の翻訳対象領域がユーザから入力され得る。これによって、画面８０１のように、文字翻訳装置１００は、翻訳対象領域をディスプレイ部１３０の第１領域８１０にディスプレイすることができる。

ステップＳ２１において、文字翻訳装置１００は、画面８０１のように認識された第１言語の文字及び前記第１言語の文章決定記号を、ディスプレイ部１３０の第２領域８２０にディスプレイすることもできる。

ステップＳ４１において、文字翻訳装置１００は、翻訳対象文章が生成されるに伴って、画面８０２のように第２言語に翻訳された文章を第２領域８２０上でディスプレイすることができる。すなわち、文字翻訳装置１００は、画面８０１の第２領域８２０のディスプレイの対象を、翻訳対象文章が生成されて翻訳が行われるにつれて画面８０２のように変更することができる。

文字翻訳装置１００は、翻訳対象領域中、生成された翻訳対象文章を識別処理８１５して第１領域８１０にディスプレイすることができる。このとき、文字翻訳装置１００は、識別処理８１５された文章に対する修正要求を受信することができる。前記修正要求は、ユーザのタッチジェスチャー、または文字翻訳装置１００のボタン操作によって受信され得る。

文字翻訳装置１００は、前記修正要求に応答して、修正された翻訳対象文章を生成することができる。すなわち、ユーザが識別処理８１５の部分を移動または拡張させる修正要求を入力することによって、翻訳対象文章は修正され得、文字翻訳装置１００は、識別処理８１５の部分を移動または拡張させて第１領域８１０上にディスプレイすることができる。

文字翻訳装置１００は、修正された翻訳対象文章を第２言語に翻訳し、翻訳結果を第２領域８２０上にディスプレイすることができる。

図９は、本発明の更に他の実施例に係る、翻訳対象文章の修正方法を説明するための例示図である。

文字翻訳装置１００は、ステップＳ３５において、ユーザイベント情報を用いて、抽出された第１言語の文章に基づいて、翻訳対象文章の候補文章を生成することができる。図９を参照すると、図７で説明された文字の組み合わせを含む候補文章を生成することができる。

このとき、文字翻訳装置１００は、ユーザイベント情報９４０を用いて、抽出された文章の状況を予測し、予め設定された言語モデル９３０を用いて候補文章９１０，９２０を生成することができる。

また、文字翻訳装置１００は、図７で生成された少なくとも１つの文字の組み合わせのうち、抽出された文章に含まれる可能性が確率的に最も高い文字の組み合わせを選択し、選択された文字の組み合わせを含む文章を最終の翻訳対象文章として決定９５０することができる。具体的には、文字翻訳装置１００は、予め設定された言語モデル９３０からデータ９００を取得して、候補文章９１０，９２０上の単語と文字の組み合わせとの比較を通じて、文字の組み合わせのうち、抽出された文章に含まれる可能性が確率的に最も高い文字の組み合わせを選択することができる。前記言語モデル９３０は、単語、その単語が含まれた文章などで構成され得、単語自体が一つの文章からなる場合もあり、文章全体が常用句であるので、文章全体が文字の組み合わせとマッチングされる場合もある。

一方、文字翻訳装置１００は、ステップＳ１１において、文字翻訳装置１００の位置情報に基づいて、ユーザイベント情報を感知することもできる。すなわち、文字翻訳装置１００は、文字翻訳装置１００を所持しているユーザが空港にいるのか、国外にいるのか、飲食店にいるのかなどの情報を感知することができる。文字翻訳装置１００は、このために、位置情報の感知のためのＧＰＳモジュールをさらに備えることもできる。また、文字翻訳装置１００は、ローミング情報などの通信情報をユーザイベント情報として感知することもできる。

ステップＳ３１において、文字翻訳装置１００は、ユーザイベント情報に基づいて、第１言語を自動で決定することができる。すなわち、位置情報が中国である場合、文字翻訳装置１００は、第１言語として中国語を自動で決定することができる。また、ステップＳ４１において、文字翻訳装置１００は、ユーザイベント情報に基づいて、前記第２言語を自動で決定することもできる。例えば、文字翻訳装置１００は、ユーザイベント情報として文字翻訳装置１００の固有識別情報を用いることで、文字翻訳装置１００のユーザの使用言語を自動で決定することができる。又は、文字翻訳装置１００は、位置情報の変更内訳をユーザイベント情報として活用することもできる。

文字翻訳装置１００は、ユーザイベント情報に基づいて、文字翻訳装置１００が飲食店に位置したことを感知できるので、翻訳対象文章の生成において、予め設定された言語モデルを用いて、メニューに関連する文字の組み合わせを選択することもできる。

図１０は、本発明のいくつかの実施例で参照される、文字翻訳装置の出力ＵＩの例示である。

図１０において、ステップＳ４１で文章翻訳装置１００が翻訳対象を選定して翻訳された文章をディスプレイする場合の、ＵＩ画面１００１，１００２，１００３が例として示されている。

画面１００１を参照すると、文字翻訳装置１００は、ステップＳ３５で生成された翻訳対象文章１０２０に対する識別表示をディスプレイすることができる。文字翻訳装置１００は、翻訳領域を指定するオブジェクト１０１０をディスプレイすることができる。

画面１００２を参照すると、ユーザから、前記オブジェクト１０１０を前記翻訳対象文章１０２０を含む領域１０３０にオーバーレイさせる入力を受信することによって、文字翻訳装置１００は、オーバーレイされた領域１０３０に含まれた翻訳対象文章１０２０を翻訳要求文章として選択することができる。オブジェクト１０１０は、ユーザ入力を受信するに伴って領域１０３０を翻訳領域に指定する過程で移動することができる。例えば、ユーザから、オブジェクト１０１０に対するタッチ入力及びドラッグ入力を受信すると、文字翻訳装置１００は、ドラッグ入力方向に沿ってオブジェクト１０１０が拡張されつつ移動するように制御し、オブジェクト１０１０が移動することによって含まれる領域を翻訳領域として認識することができる。また、文字翻訳装置１００は、翻訳領域に含まれた文章を翻訳要求文章として選択することができる。

文字翻訳装置１００は、選択された翻訳要求文章をサーバに送信し、これに対する翻訳結果を受信することができる。これによって、文書翻訳装置１００は、翻訳領域１０３０に隣接する領域に翻訳結果１０４０をディスプレイすることができる。

画面１００３を参照すると、ディスプレイされたイメージコンテンツに対するスクロール入力が受信されることによって、文字翻訳装置１００は翻訳領域を移動することができ、翻訳領域が移動されることによって、翻訳領域１０３０に含まれる翻訳対象文章１０２５が変更される。文字翻訳装置１００は、前記翻訳領域１０３０上の翻訳対象文章１０２５を翻訳要求文章として選択することができる。

一方、本発明の実施例によれば、文字翻訳装置１００は、前記オブジェクト１０１０に対するスクロール入力によって前記イメージコンテンツをスクロールすることもできる。

図１１は、本発明のいくつかの実施例で参照される、文字翻訳装置の音借出力ＵＩの例示である。

図１１を参照すると、文字翻訳装置１００は、翻訳結果１０４０をディスプレイするとき、翻訳結果である第２言語の文章１０４３だけでなく、第１言語に対する音借１０４５を第２言語で表示してディスプレイすることもできる。

すなわち、ステップＳ４１において、文字翻訳装置１００は第２言語を識別することができ、図１１において、第１言語が中国語、第２言語が韓国語である場合、文字翻訳装置１００はこれを識別し、第１言語の音借を第２言語でディスプレイすることができる。

例えば、第１言語の文章「我是学生。」に対して、ディスプレイされた第２言語の翻訳結果は「私は学生です。」であり、このとき、第１言語に対して第２言語で表現された音借「ウォーシーシュエション」が共にディスプレイされ得る。

図１２は、本発明のいくつかの実施例で参照される、レイアウト識別による翻訳対象文章決定方式を説明するための例示図である。

一方、以上では文字翻訳装置１００がイメージコンテンツ上で文章決定記号または予め設定された領域の空白を検出することによって翻訳対象文章を決定する方法について主に説明した。しかし、本発明の実施例はこれに限定されるものではなく、文字のフォント、サイズだけでなく、文字翻訳装置１００は、イメージコンテンツのレイアウト、すなわち、イメージコンテンツ上の各領域により文字列が区別されることによって各領域上の文字グループを互いに異なる文章として判断することもできる。

図１２を参照すると、イメージコンテンツ１２００が視覚的に区分された複数の領域を含む場合が例示されている。この場合、文字翻訳装置１００は、イメージコンテンツの複数の領域を区画する線、陰影、及び色のうちの少なくとも１つを識別することができ、区画された各領域を識別することができる。

また、文字翻訳装置１００は、複数の領域上の文字グループをそれぞれ識別することができる。図１２には、イメージコンテンツ１２００が領域１２１０，１２２０，１２３０を含み、各領域が文字グループ１２１５，１２２５，１２３５を含む場合が例として示されている。

文字翻訳装置１００は、各文字グループ１２１５，１２２５，１２３５を互いに異なる文章として判断し、翻訳対象文章として生成することができる。

文字翻訳装置１００は特に、各領域別に互いに異なる言語の文字グループが存在しても、検出部を介して各言語を識別することができる。

文字翻訳装置１００は、生成された文章を翻訳することができ、翻訳された結果を各領域上にオーバーレイされるようにディスプレイすることもできる。

以上、添付の図面を参照して説明された本発明の実施例による方法は、コンピュータが読み取り可能なコードで具現されたコンピュータプログラムの実行によって行われ得る。前記コンピュータプログラムは、インターネットなどのネットワークを介して第１コンピューティング装置から第２コンピューティング装置に送信されて前記第２コンピューティング装置にインストールされ得、これによって、前記第２コンピューティング装置で使用され得る。前記第１コンピューティング装置及び前記第２コンピューティング装置は、サーバ装置、デスクトップＰＣのような固定式コンピューティング装置、ノートパソコン、スマートフォン、タブレットＰＣのようなモバイルコンピューティング装置を全て含む。

以上、添付の図面を参照して本発明の実施例を説明したが、本発明の属する技術分野における通常の知識を有する者は、本発明がその技術的思想や必須の特徴を変更せずに他の具体的な形態で実施できるということを理解できるはずである。したがって、以上で記述した実施例は、すべての面で例示的なものであり、限定的なものではないと理解しなければならない。

本発明は、文字を翻訳する方法及びその装置に関するもので、産業上の利用可能性がある。

Claims

文字翻訳装置が行う方法において、
イメージコンテンツを取得するステップと、
前記イメージコンテンツ上の第１言語の文字及び前記第１言語の文章決定記号を認識するステップと、
前記認識された文章決定記号に基づいて、前記認識された文字で構成された第１言語の文章を抽出するステップと、
ユーザイベント情報を用いて、前記抽出された第１言語の文章に基づいて、翻訳対象文章を生成するステップと、
前記生成された翻訳対象文章を第２言語に翻訳し、前記第２言語に翻訳された文章をディスプレイするステップとを含む、文字翻訳方法。
前記イメージコンテンツを取得するステップは、
ユーザから、言語選択情報を含むユーザイベント情報の入力を受けるステップを含み、
前記第１言語の文字及び前記第１言語の文章決定記号を認識するステップは、
前記言語選択情報に基づいて、前記第１言語の文字を認識するステップ、及び予め定義された言語別の文章分割規則に従って、前記第１言語の文章決定記号を認識するステップを含む、請求項１に記載の文字翻訳方法。
前記第１言語の文字を認識するステップは、
前記イメージコンテンツ上の文字列を少なくとも１つ認識するステップを含み、
前記認識された文字で構成された第１言語の文章を抽出するステップは、
前記認識された文字列のうち、第１文字列及び第２文字列の文字サイズを識別するステップと、
前記識別された文字サイズに基づいて、前記第１文字列を前記第１言語の文章として抽出するステップとを含む、請求項２に記載の文字翻訳方法。
前記第１言語の文字を認識するステップは、
前記イメージコンテンツ上の文字列を少なくとも１つ認識するステップを含み、
前記認識された文字で構成された第１言語の文章を抽出するステップは、
前記認識された文字列上の文字のうち、右端に位置した文字を含む文字列を選択するステップと、
前記右端に位置した文字のｘ軸座標を基準として、前記選択された文字列の上位文字列上の文字が存在するか否かを第１判断するステップと、
前記第１判断の結果、前記上位文字列上の文字が存在しない場合、前記選択された文字列を前記第１言語の文章として抽出するステップとを含む、請求項２に記載の文字翻訳方法。
前記第１判断の結果、前記上位文字列上の文字が存在する場合、前記選択された文字列及び前記上位文字列を含む複数の文字列を前記第１言語の文章として抽出するステップを含む、請求項４に記載の文字翻訳方法。
前記選択された文字列を前記第１言語の文章として抽出するステップは、
前記選択された文字列の左端に位置した文字のｘ軸座標を基準として、前記選択された文字列の下位文字列上の文字が存在するか否かを第２判断するステップと、
前記第２判断の結果、前記下位文字列上の文字が存在しない場合、前記選択された文字列を前記第１言語の文章として抽出するステップとを含む、請求項４に記載の文字翻訳方法。
前記第２判断の結果、前記下位文字列上の文字が存在する場合、前記選択された文字列及び前記下位文字列を含む複数の文字列を前記第１言語の文章として抽出するステップを含む、請求項６に記載の文字翻訳方法。
前記言語選択情報に基づいて、前記第１言語の文字を認識するステップは、
前記イメージコンテンツ上の第１言語の文字のうち、第１文字の候補文字を決定するステップと、
前記イメージコンテンツ上の第１言語の文字のうち、前記第１文字に隣接する第２文字の候補文字を決定するステップと、
前記第１文字の候補文字と前記第２文字の候補文字との組み合わせを少なくとも１つ生成するステップと、
前記言語選択情報に基づいて、前記生成された組み合わせのうち、前記第１文字及び前記第２文字として認識される確率が最も高い文字の組み合わせを選択するステップと、
前記選択された文字の組み合わせに基づいて前記第１言語の文字を認識するステップとを含む、請求項２に記載の文字翻訳方法。
前記生成された文字の組み合わせは、
前記第１文字の候補文字と前記第２文字の候補文字の前記生成された文字の組み合わせでの位置情報、前記第１文字の候補文字が前記第１文字として認識される確率値及び前記第２文字の候補文字が前記第２文字として認識される確率値に関する情報を含む、請求項８に記載の文字翻訳方法。
前記翻訳対象文章を生成するステップは、
前記ユーザイベント情報を用いて、前記抽出された第１言語の文章に基づいて、前記翻訳対象文章の候補文章を生成するステップと、
前記生成された候補文章に基づいて、前記生成された文字の組み合わせのうち、文章に含まれる確率が最も高い文字の組み合わせを選択するステップと、
前記文章に含まれる確率が最も高い文字の組み合わせを含む文章を翻訳対象文章として決定するステップとを含む、請求項８に記載の文字翻訳方法。
前記言語選択情報に基づいて、前記生成された組み合わせのうち、前記第１文字及び前記第２文字として認識される確率が最も高い文字の組み合わせを選択するステップは、
前記生成された組み合わせを、予め設定された言語モデルから取得された１つ以上の文章または該文章に含まれた単語と比較するステップと、
前記比較の結果、前記取得された１つ以上の文章または該文章に含まれた単語にマッチングされる確率が最も高い文字の組み合わせを、前記第１文字及び前記第２文字として認識される確率が最も高い文字の組み合わせとして選択するステップとを含む、請求項８に記載の文字翻訳方法。
前記第１言語の文字を含むイメージコンテンツを取得するステップは、
ユーザから、前記イメージコンテンツのタイプ情報を含むユーザイベント情報の入力を受けるステップを含み、
前記認識された文字で構成された第１言語の文章を抽出するステップは、
前記イメージコンテンツのタイプ情報に基づいて、前記認識された文字で構成された一つの文字列を前記第１言語の文章として抽出するステップを含む、請求項１に記載の文字翻訳方法。
前記イメージコンテンツを取得するステップは、
前記取得したイメージ中の翻訳対象領域がユーザから入力されるステップと、
前記翻訳対象領域を第１領域にディスプレイするステップとを含み、
前記第１言語の文字及び前記第１言語の文章決定記号を認識するステップは、
前記認識された第１言語の文字及び前記第１言語の文章決定記号を第２領域にディスプレイするステップを含み、
前記第２言語に翻訳された文章をディスプレイするステップは、
前記翻訳対象文章が生成されるに伴って、前記第２言語に翻訳された文章を前記第２領域上でディスプレイするステップを含む、請求項１に記載の文字翻訳方法。
前記翻訳対象文章を生成するステップは、
前記翻訳対象領域中、前記生成された翻訳対象文章を識別処理して前記第１領域にディスプレイするステップを含み、
前記生成された翻訳対象文章を識別処理して前記第１領域にディスプレイするステップは、
前記識別処理された文章に対する修正要求を受信するステップと、
前記修正要求に応答して、修正された翻訳対象文章を生成するステップとを含み、
前記第２言語に翻訳された文章を前記第２領域上でディスプレイするステップは、
前記修正された翻訳対象文章を前記第２言語に翻訳してディスプレイするステップを含む、請求項１３に記載の文字翻訳方法。
前記翻訳対象文章を生成するステップは、
前記生成された翻訳対象文章を少なくとも１つ含む第１領域をディスプレイし、翻訳領域の設定のためのオブジェクトをディスプレイするステップと、
オブジェクトに対するユーザ入力を受信するに伴って、前記オブジェクトが前記ユーザ入力に従って指定する第２領域を前記第１領域上にオーバーレイしてディスプレイするステップと、
前記第２領域と前記第１領域とが重なる領域に含まれた翻訳対象文章を前記第２言語に翻訳し、前記第２言語に翻訳された文章をディスプレイするステップとを含む、請求項１に記載の文字翻訳方法。
ユーザから、前記イメージコンテンツに対するスクロール入力を受信するステップと、
前記イメージコンテンツがスクロールされることによって、前記第１領域上の少なくとも１つの翻訳対象文章が変更され、前記変更された翻訳対象文章を含む前記第２領域を前記第１領域上にオーバーレイしてディスプレイするステップと、
前記変更された翻訳対象文章を前記第２言語に翻訳し、前記第２言語に翻訳された文章をディスプレイするステップとを含む、請求項１５に記載の文字翻訳方法。
前記イメージコンテンツを取得するステップは、
前記文字翻訳装置の位置情報に基づいて、ユーザイベント情報を感知するステップを含み、
前記第１言語の文字及び前記第１言語の文章決定記号を認識するステップは、
前記ユーザイベント情報に基づいて、前記第１言語を自動で決定するステップを含み、
前記第２言語に翻訳された文章をディスプレイするステップは、
前記ユーザイベント情報に基づいて、前記第２言語を自動で決定するステップを含む、請求項１に記載の文字翻訳方法。
前記文章決定記号は、
前記認識された第１言語の文字で構成された文字列上の文字から一連の文字グループを区別し、前記区別された文字グループが文章であることを決定できる記号である、請求項１に記載の文字翻訳方法。
前記イメージコンテンツ上の第１言語の文字及び前記第１言語の文章決定記号を認識するステップは、
前記認識された第１言語の文字で構成された文字列上の複数の文字グループの間に予め設定された広さの領域以上の空白を検出するステップを含み、
前記認識された文章決定記号に基づいて、前記認識された文字で構成された第１言語の文章を抽出するステップは、
前記検出された空白の前後に位置した文字グループを互いに異なる文章として認識することによって前記第１言語の文章を抽出するステップを含む、請求項１に記載の文字翻訳方法。
イメージコンテンツを取得するカメラと、
ユーザイベント情報の入力を受ける入力部と、
前記取得されたイメージコンテンツの全部又は一部をディスプレイするディスプレイ部と、
前記イメージコンテンツ上の第１言語の文字及び前記第１言語の文章決定記号を認識し、前記認識された文章決定記号に基づいて、前記認識された文字で構成された第１言語の文章を抽出し、前記ユーザイベント情報を用いて、前記抽出された第１言語の文章に基づいて、翻訳対象文章を生成し、前記生成された翻訳対象文章を第２言語に翻訳するに伴って、前記第２言語に翻訳された文章がディスプレイされるように制御する制御部とを含む、文字翻訳装置。
コンピューティング装置と結合して、
イメージコンテンツ上の第１言語の文字及び前記第１言語の文章決定記号を認識するステップと、
前記認識された文章決定記号に基づいて、前記認識された文字で構成された第１言語の文章を抽出するステップと、
ユーザイベント情報を用いて、前記抽出された第１言語の文章に基づいて、翻訳対象文章を生成するステップと、
前記生成された翻訳対象文章を第２言語に翻訳し、前記第２言語に翻訳された文章をディスプレイするステップとを実行させる、記録媒体に格納された、コンピュータプログラム。