JP2019537103A - 文字を翻訳する方法及びその装置 - Google Patents
文字を翻訳する方法及びその装置 Download PDFInfo
- Publication number
- JP2019537103A JP2019537103A JP2019517043A JP2019517043A JP2019537103A JP 2019537103 A JP2019537103 A JP 2019537103A JP 2019517043 A JP2019517043 A JP 2019517043A JP 2019517043 A JP2019517043 A JP 2019517043A JP 2019537103 A JP2019537103 A JP 2019537103A
- Authority
- JP
- Japan
- Prior art keywords
- character
- language
- sentence
- translation
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000013519 translation Methods 0.000 claims abstract description 256
- 239000000284 extract Substances 0.000 claims description 22
- 238000012937 correction Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 20
- 238000012015 optical character recognition Methods 0.000 description 19
- 238000000605 extraction Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000010845 search algorithm Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012805 post-processing Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 235000013305 food Nutrition 0.000 description 2
- 235000013361 beverage Nutrition 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/158—Segmentation of character regions using character size, text spacings or pitch estimation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
本発明の一実施例によれば、文字翻訳装置が行う文字を翻訳する方法は、イメージコンテンツを取得するステップと、前記イメージコンテンツ上の第1言語の文字及び前記第1言語の文章決定記号を認識するステップと、前記認識された文章決定記号に基づいて、前記認識された文字で構成された第1言語の文章を抽出するステップと、ユーザイベント情報を用いて、前記抽出された第1言語の文章に基づいて、翻訳対象文章を生成するステップと、前記生成された翻訳対象文章を第2言語に翻訳し、前記第2言語に翻訳された文章をディスプレイするステップとを含むことができる。
Description
本発明は、文字を翻訳する方法及びその装置に関する。より詳細には、入力されたイメージ上の文字を認識し、認識された文字に対する文章単位の翻訳を提供する方法及びその装置に関する。
イメージ又はデジタル文書上の文字を認識するにおいて、光学的文字認識(Optical Character Recognition、以下、OCRという)技術が広く利用されている。
OCR技術によれば、OCRプログラムを介して読み取られた文字と予め格納されている文字との比較を通じて文字の認識が行われる。すなわち、OCR技術において、文字の認識のための考慮対象は、個別の文字の形状であるだけで、認識される文字が構成する単語及び文章は考慮されない。
このようなOCR技術で認識された文字に対して、翻訳プログラムが他の言語に機械翻訳を行う場合、翻訳プログラムは、OCRプログラムの文字認識の結果に対して単に翻訳を行うだけであるので、翻訳の正確度が低下するという問題が発生する。例えば、OCR技術で認識された文字が構成する一つの文章が複数の行に分割されて入力される場合、翻訳プログラムは、文章単位と関係なく入力された行単位で翻訳を行うため、一つの文章に対する翻訳が行われない。
それにもかかわらず、OCRプログラムを介して認識された文字に対する翻訳単位を文章単位として決定する方法は提供されていない。
また、ユーザイベント情報をOCRプログラムの文字認識結果に反映させることによって翻訳対象に対する信頼度を向上させる方法は提供されていない。
本発明が解決しようとする技術的課題は、入力されたイメージコンテンツ上の文字を認識し、認識された文字に対して文章単位の翻訳を行う方法及びその装置を提供することである。
具体的に、本発明が解決しようとする技術的課題は、OCRプログラムによって認識された文字で構成された文章を識別し、識別された文章を基準として翻訳サービスを提供する方法を提供することである。
また、本発明が解決しようとする技術的課題は、翻訳対象及び翻訳結果を表示するグラフィックユーザインターフェース(Graphic User Interface、以下、GUIという)を提供する方法及びその装置を提供することである。
本発明が解決しようとする他の技術的課題は、入力されたイメージコンテンツの種類に応じて最適な翻訳単位を決定する方法及びその装置を提供することである。
本発明が解決しようとする更に他の技術的課題は、ユーザイベント情報に基づいて翻訳対象または翻訳結果を補正する方法及びその装置を提供することである。
本発明の技術的課題は、以上で言及した技術的課題に制限されず、言及されていない他の技術的課題は、以下の記載から、本発明の技術分野における通常の技術者に明確に理解されるであろう。
上記技術的課題を解決するために、文字翻訳装置が行う文字を翻訳する方法の一実施例によれば、文字翻訳方法は、イメージコンテンツを取得するステップと、前記イメージコンテンツ上の第1言語の文字及び前記第1言語の文章決定記号を認識するステップと、前記認識された文章決定記号に基づいて、前記認識された文字で構成された第1言語の文章を抽出するステップと、ユーザイベント情報を用いて、前記抽出された第1言語の文章に基づいて、翻訳対象文章を生成するステップと、前記生成された翻訳対象文章を第2言語に翻訳し、前記第2言語に翻訳された文章をディスプレイするステップとを含むことができる。
また、上記技術的課題を解決するための文字翻訳装置の一実施例によれば、文字翻訳装置は、イメージコンテンツを取得するカメラと、ユーザイベント情報の入力を受ける入力部と、前記取得されたイメージコンテンツの全部又は一部をディスプレイするディスプレイ部と、前記イメージコンテンツ上の第1言語の文字及び前記第1言語の文章決定記号を認識し、前記認識された文章決定記号に基づいて、前記認識された文字で構成された第1言語の文章を抽出し、前記ユーザイベント情報を用いて、前記抽出された第1言語の文章に基づいて、翻訳対象文章を生成し、前記生成された翻訳対象文章を第2言語に翻訳するに伴って、前記第2言語に翻訳された文章がディスプレイされるように制御する制御部とを含むことができる。
上記技術的課題を解決するための、記録媒体に格納されたコンピュータプログラムの一実施例によれば、コンピュータプログラムは、コンピューティング装置と結合して、イメージコンテンツ上の第1言語の文字及び前記第1言語の文章決定記号を認識するステップと、前記認識された文章決定記号に基づいて、前記認識された文字で構成された第1言語の文章を抽出するステップと、ユーザイベント情報を用いて、前記抽出された第1言語の文章に基づいて、翻訳対象文章を生成するステップと、前記生成された翻訳対象文章を第2言語に翻訳し、前記第2言語に翻訳された文章をディスプレイするステップとを実行させることができる。
本発明の一実施例によれば、OCR処理された文字に対して文章単位の翻訳が行われるので、ユーザに、より正確な翻訳結果が提供される効果がある。
本発明の一実施例によれば、入力されるコンテンツの種類に応じて最適な翻訳単位が決定され、決定された翻訳単位で翻訳が行われるので、ユーザに、より正確な翻訳結果が提供される効果がある。
本発明の一実施例によれば、ユーザイベント情報に基づいて翻訳対象又は翻訳結果が補正されるので、ユーザに、より正確な翻訳結果が提供される効果がある。
また、本発明の一実施例によれば、GUIを介して翻訳対象文章が表示されるので、ユーザに、翻訳の正確性に対する予測可能性が提供され、翻訳対象に対する修正機能が提供されるという利点がある。
以下、添付の図面を参照して、本発明の好ましい実施例を詳細に説明する。本発明の利点及び特徴、そして、それらを達成する方法は、添付の図面と共に詳細に後述されている実施例を参照すると明確になるであろう。しかし、本発明は、以下に開示される実施例に限定されるものではなく、互いに異なる様々な形態で具現可能であり、単に本実施例は、本発明の開示が完全になるようにし、本発明の属する技術分野における通常の知識を有する者に発明の範疇を完全に知らせるために提供されるものであり、本発明は、請求項の範疇によって定義されるだけである。明細書全体にわたって同一の参照符号は同一の構成要素を指す。
別の定義がなければ、本明細書で使用されるすべての用語(技術及び科学的用語を含む)は、本発明の属する技術分野で通常の知識を有する者に共通して理解される意味として使用され得る。また、一般に使用される辞書に定義されている用語は、明らかに特に定義されていない限り、理想的又は過度に解釈されない。本明細書で使用された用語は、実施例を説明するためのものであり、本発明を制限するためのものではない。本明細書において、 単数型は文句で特に言及しない限り、複数型も含む。
本明細書において、文章決定記号とは、文字列又は連結された複数の文字が配列された場合、他の文字から一連の文字グループを区別し、区別された文字グループが文章であることを決定できる記号を意味する。例えば、複数の文字が並んでいる途中で、句読点として、記号“。”、“?”、“!”、“:”、“/”などが出る場合、前記記号を境界として前の文字グループは、後に来る文字グループと区別される。また、このように区別された文字グループは文章を構成する。このとき、前記文字グループを区別する記号を、本明細書において「文章決定記号」と称することにする。一方、本明細書の文章決定記号が前記例示的に紹介された文章決定記号に限定されるものではない。例えば、‘(シングルクォーテーション)又は“(ダブルクォーテーション)が対をなして配列された場合、シングルクォーテーションの対又はダブルクォーテーションの対の内部の文字グループは、外部の文字グループと区別されるので、本明細書の文章決定記号に該当する。
一方、複数の文字グループ上の文章は、必ずしも文章決定記号のみで区別されるものではない。例えば、複数の文字グループが所定の空間、例えば、空白、タブ(tab)、行などを境界として区別される場合、又は、文字グループが位置するレイアウトを異ならせて空間的に区別される場合、前記境界の前後に位置するか、または互いに異なるレイアウト上の文字グループは、互いに異なる文章であり得る。また、複数の文字グループ内に前記所定の空間が一定のパターンで繰り返される場合、前記空間は文章を決定するものではなく、文章内の単語を区別する空間であることもある。
したがって、本明細書において文章とは、特に、文章決定記号で区別される一つの文字グループ単位として理解されなければならない。または、複数の文字グループ内に所定の空間によって区別される一つの文字グループ単位もまた、本発明の一実施例に係る文章として理解されなければならない。すなわち、本明細書において文章は、必ずしも主語と動詞を構成要素として含まなければならないものではなく、特定の意味を有する題目、標語のような場合にも本明細書の文章として理解され得る。したがって、文章内の段落、特定の主題を有する単語を含む文字グループもまた、本発明の他の実施例に係る文章として理解されなければならない。
本明細書においてユーザイベント情報とは、本発明の実施例に係る文章翻訳装置に入力される全てのユーザ情報を含む。すなわち、本発明の実施例に係る文字翻訳装置に、ユーザから、文字認識対象であるイメージコンテンツに関する情報が入力されるか、またはユーザが特定の場所の情報を入力する場合、ユーザイベント情報は前記入力される情報を含むことができる。
このとき、文字翻訳装置は、様々な方式でユーザイベント情報の入力を受けることができる。例えば、文字翻訳装置の入力部、カメラ、センサ部などの様々な構成要素を介して入力される情報を含む。
具体的には、ユーザの活動が特定のイベントに該当する場合、例えば、ユーザが食事のために特定のレストランに位置するか、または空港に位置する場合に、ユーザイベント情報は、文字翻訳装置のセンサ部に入力される位置情報を含むこともできる。このとき、文字翻訳装置が、前記文字翻訳装置の位置情報が予め設定された時間を基準として臨界範囲以上変動することを感知すると、例えば、ユーザが旅行中であるイベントが感知されると、このように、位置情報の変動に関する情報もまた、本明細書のユーザイベント情報に含まれ得る。
図1は、本発明の一実施例に係る、文字翻訳プロセスの例示である。
図1を参照すると、文字翻訳プロセスは、文字翻訳装置100によって行われる。特に、図1において、文字翻訳装置100を介して、ユーザがイメージコンテンツを撮影して(S10)文字を認識し、認識された文字に対する機械翻訳を行う場合が例として示されている。文字翻訳装置100は、イメージコンテンツを撮影する前に、ユーザから、言語選択情報及び/又はユーザイベント情報の入力を受けることもできる。
撮影によって取得されたイメージコンテンツは、少なくとも1つの言語で記載された文字グループを含むことができる。文字翻訳装置100は、取得されたイメージコンテンツ上の文字グループの全部又は一部が、ユーザから文字認識範囲として指定され得る。このとき、文字認識方法としてOCR技術を用いることが、図1に例として示されている。以下、本明細書で提示される文字認識方式は、文字認識方式の一例であるOCR技術であると仮定する。
次に、文字翻訳装置100はOCR後処理過程を行う(S20)。
文字翻訳装置100は、言語別に予め定義された文章分割規則を用いて、言語別の様々なフォントを学習し、入力されるイメージコンテンツ上の文字を認識することができる。例えば、文字翻訳装置100は、SRX(Segmentation Rule eXchange format)−LISA.orgで規定した文章分割規則を用いることができる。
また、本発明の実施例によれば、文字翻訳装置100は、前記言語別の様々なフォントを学習することによって、文字グループ内で文章決定記号を認識することができる。すなわち、OCR後処理過程(S20)において、文字翻訳装置100はイメージコンテンツ上の文字及び/又は文章決定記号を認識することができる。
また、文字翻訳装置100は、イメージコンテンツ上の文字列を認識することができ、以下、図6で説明される翻訳対象文章生成方法に関する実施例を用いて、一つの文字列、または複数の文字列を、それぞれ一つの文章単位として抽出することができる。これについての具体的な説明は、図6に関する説明で後述する。
また、文字翻訳装置100は、文字認識において、各文字間の確率的結合関係を用いて文字認識の正確度を向上させることができる。例えば、文字翻訳装置100は、N−Best探索アルゴリズムを用いて、前記文字間の確率的結合関係を判断することができる。これについての詳細な説明は、図7に関する説明で後述する。
次に、文字翻訳装置100は翻訳前処理過程を行う(S30)。
翻訳前処理過程において、文字翻訳装置100は、認識された文字から抽出された文章単位の文章に対して、予め設定された言語モデルを用いて文章の正確性を検査することができる。すなわち、OCRで認識された文字で構成された文章を用いて翻訳を行う際に翻訳の正確度を高めるためには、翻訳対象となる文章が正確な文章でなければならないので、翻訳前処理過程は、機械翻訳を行う前に翻訳対象文章の信頼性を確保するためのプロセスである。
このとき、文字翻訳装置100は、予め設定された言語モデルを用いて、ウェブ上の出現頻度、各言語モデルで予め学習された文字結合関係などに基づいて翻訳対象文章を最終的に決定することができる。すなわち、OCR後処理過程(S20)でOCR認識を経た文字が文章単位の文章として抽出され、抽出された文章単位の文章が翻訳前処理過程(S30)で加工されることで、翻訳対象文章が確定される。
最後に、文字翻訳装置100は、翻訳対象文章に対して機械翻訳を行い(S40)、ディスプレイ部を介して翻訳結果を出力する。
図2は、本発明の他の実施例に係る、文字翻訳装置のブロック図である。
以下、図2を参照して、文字翻訳装置100の構造及び動作について詳細に説明する。
文字翻訳装置100は、入力部110、カメラ120、ディスプレイ部130、及び制御部140で構成することができる。
入力部110は、ユーザから、各種データ、命令及び/又は情報の入力を受ける。特に、入力部110は、文字翻訳装置100にユーザから入力されるユーザイベント情報及び/又はイメージコンテンツに関する情報の入力を受けることができる。また、入力部110は、本発明の実施例に係る、文字認識範囲に関するユーザ指定の入力を受けることができ、翻訳対象文章に対する修正入力の入力を受けることもできる。
入力部110は、本発明の属する技術分野でよく知られた任意の形態の入力手段を含んで構成され得る。例えば、入力部110は、ユーザ入力を受信するためのキーパッド、ボタン、及びタッチスクリーンのうちの少なくとも1つを含んで構成されてもよい。また、入力部110は、ユーザの音声を受信するためのマイクを含んで構成されてもよい。
カメラ120は、本発明の実施例によってイメージコンテンツを取得することができる。カメラ120は、本発明の属する技術分野でよく知られた任意のイメージセンサを備えて構成され得る。文字翻訳装置100は1つ以上のカメラを含むこともできる。
ディスプレイ部130は、ユーザに各種データ、命令、情報、及び/又はGUIをディスプレイする。ディスプレイ部130は、カメラ120から取得されたイメージコンテンツの全部又は一部をディスプレイすることができる。また、ディスプレイ部130は、OCRを介した文字認識の結果、抽出された文章、翻訳対象文章、及び/又は翻訳の結果をディスプレイすることもできる。
本発明のディスプレイ部130は、本発明の属する技術分野でよく知られた任意の形態のディスプレイ手段をさらに含んで構成され得る。例えば、ディスプレイ部130は、タッチセンサを備えたタッチスクリーンで構成されてもよく、この場合、ディスプレイ部130は、入力部110として機能することもできる。
制御部140は、文字翻訳装置100の各構成の全般的な動作を制御する。制御部140は、CPU(Central Processing Unit)、MPU(Micro Processor Unit)、MCU(Micro Controller Unit)、または本発明の技術分野でよく知られた任意の形態のプロセッサを含んで構成されてもよい。制御部140は、メモリ、例えばRAMを構成として含むこともできる。また、制御部140は、本発明の実施例による方法を実行するための少なくとも1つのアプリケーションまたはプログラムを格納することもできる。例えば、制御部140は、本発明の実施例による文字翻訳プログラムを格納し、これを実行することができる。制御部140が文字翻訳プログラムを実行することによって、本発明の実施例による文字翻訳方法が行われ得る。
具体的に、制御部140は、ユーザ入力、文字認識、文章の抽出、及び/又は翻訳のような本発明の実施例による文字翻訳プロセスが行われるに伴い、ディスプレイ部130のディスプレイオブジェクトを変更させることができる。
本発明の実施例によれば、制御部140は、本発明の実施例による機能を行うために、複数の下部モジュールを格納することができる。
例えば、制御部140は検出部を含むことで、イメージコンテンツ上の文字の言語を識別することができる。すなわち、検出部は、イメージコンテンツ上の1つ以上の言語を識別することができる。これによって、文字翻訳装置100は、一つのイメージコンテンツ上で識別された言語を、翻訳対象である第1言語として決定することができる。例えば、前記第1言語は、中国語、英語のように複数個であってもよい。例えば、制御部140は、コンテキスト(context)決定部を含むことができる。コンテキスト決定部は、検出部で識別された言語に対して、言語モデルを用いて、文字列の文字グループが単語であるか文章であるかを判断することができる。このとき、コンテキスト決定部は、文字列の内部の空白に対する検出を行うことができ、検出結果に基づいて、文字グループが単語であるか文章であるかを決定することができる。
また、コンテキスト検出部は、文章抽出アルゴリズムを用いて、文字列の文字グループが単行の文章であるか複数行の文章であるかを判断することもできる。
例えば、制御部140は変換部を含むこともできる。変換部は、コンテキスト検出部で判断された単語、文章に対する翻訳前処理、音借生成、及び翻訳機能を行うことができる。変換部は、N−best探索アルゴリズムを用いて、最終の翻訳対象に含まれる単語または文章を決定することができる。この場合、OCR後処理及び翻訳前処理過程においてN−best探索アルゴリズムを用いて翻訳対象に含まれた単語または文章が決定され、変換部は、そのために、文字組み合わせデータを生成することができる。前記文字組み合わせデータは、予め定義されたプロトコルに従うデータ構造を有することができる。これについての説明は、図7Bに関する説明で後述する。
また、変換部は、第2言語を決定し、決定された文章に対して、第1言語から第2言語に自動翻訳を行い、決定された翻訳対象に対して第2言語の音借を生成することもできる。
一方、図示していないが、文字翻訳装置100は通信部を含むこともできる。通信部は、文字翻訳装置100の有無線インターネット通信またはイントラネット通信を支援し、外部装置と各種情報を送受信することができる。通信部は、外部装置から、言語モデル及び予め定義された文章分割規則が提供されてもよい。または、通信部は、言語モデル、OCR、予め定義された文章分割規則を外部装置で処理するために、文字認識に関連するデータを外部装置に送信することができ、処理結果を外部装置から受信することもできる。具体的に、通信部は、予め定義されたプロトコルに従う構造を有する文字組み合わせデータを外部装置に送信し、これに対する処理結果を受信することもできる。
また、通信部は、本発明の実施例による文字認識の対象となるイメージコンテンツを外部装置から受信することもでき、このような実施例において、通信部は入力部110として機能することもできる。通信部は、本発明の属する技術分野でよく知られた各種通信モジュールを少なくとも1つ備えて構成され得る。
また、図示していないが、文字入力装置100は格納部を含むことができる。格納部は、各種データ、命令、及び/又は情報を格納する。格納部は、本発明の実施例による文字認識方法の提供を受けるための1つ以上のアプリケーションを格納することができる。また、格納部は、通信部を介して受信される各種情報、入力部を介して入力される各種情報を格納することもできる。
格納部は、外部装置から伝達されたデータなどを一時的又は非一時的に格納することができる。格納部は、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、フラッシュメモリなどのような非揮発性メモリ、ハードディスク、着脱型ディスク、または本発明の属する技術分野でよく知られた任意の形態のコンピュータで読み取り可能な記録媒体を含んで構成されてもよい。
図3Aは、本発明の更に他の実施例に係る、文字翻訳方法のフローチャートである。図3Bは、本発明の更に他の実施例に係る、コンテキスト識別方法のフローチャートである。
以下、文字翻訳方法は、制御部140が文字翻訳プログラムを実行することによって文字翻訳装置100によって行われるものと仮定する。
図3Aを参照すると、文字翻訳装置100はイメージコンテンツを取得することができる(S11)。このとき、イメージコンテンツは、カメラ120を介して入力されるか、または通信部を介して受信されることによって取得することができる。
文字翻訳装置100は、イメージコンテンツ上の第1言語の文字及び前記第1言語の文章決定記号を認識することができる(S21)。例えば、第1言語は中国語であってもよい。この場合、文字翻訳装置100は、言語選択情報を含むユーザイベント情報の入力を受けることができる。
文字翻訳装置100は、言語選択情報として、ユーザから認識対象文字の言語として中国語が設定され得る。また、文字翻訳装置100は、認識対象文字が認識された後、翻訳の対象となる他の言語に対する設定が入力されてもよい。
文字翻訳装置100は、言語選択情報と共に、他の情報がユーザイベント情報として入力されてもよい。例えば、イメージコンテンツが中国語で記載された飲食メニューである場合、言語選択情報として中国語が設定され、イメージの種類がメニューであることを示す情報がユーザイベント情報として入力されてもよい。この場合、文字翻訳装置100は、認識された文字間の確率的結合関係を用いて飲食メニューに該当する文字を認識し、認識された文字から文章の抽出及び翻訳対象文章の生成をさらに正確に行うことができる。
文字翻訳装置100は、入力された言語選択情報に基づいて、前記第1言語の文字を認識することができ、予め定義された言語別の文章分割規則に従って、第1言語の文章決定記号を認識することができる。前記例において、文字翻訳装置100は、中国語が認識対象文字として設定されたので、イメージコンテンツ上の文字を中国語として認識する。また、文字翻訳装置100は、予め定義された言語別の文章分割規則に従って、学習された様々な中国語フォントとの比較過程を通じて、文字及び文章決定記号を認識することができる。文字翻訳装置100は、イメージコンテンツ上の文字が学習されていない中国語フォントを含む場合、通信部を介してウェブ検索を行うことによって、予め定義された文章分割規則を補完することもできる。具体的には、図3Bを参照すると、文字翻訳装置100は、イメージコンテンツ上の第1言語の文字で構成された文字列を認識し、前記第1言語の文字で構成された文字列のコンテキスト(Context)を判断することができる(S23)。すなわち、文字翻訳装置100は、認識された第1言語の文字で構成された文字列が単語であるか文章であるか、文章であれば、単行の文章であるか複数行の文章であるかを判断することができる。
まず、文字翻訳装置100は、文字列が単語であるか文章であるかを判断することができる(S25)。このとき、文字翻訳装置100は、文字列に含まれた複数の文字グループ間の空白が、予め設定された広さの領域以上である場合、空白で区別される文字グループは、互いに異なる単語と判断することができる。文字翻訳装置100は、前記空白がパターンを有して繰り返される場合、空白で区別される文字グループを互いに異なる単語と判断することもできる。ここで、単語とは、辞書的な意味の単語を意味してもよいが、本発明の実施例によれば、これに限定されない。すなわち、単語とは、辞書的な意味の単語及び助詞で構成された文章内の段落を含むことができる。特に、意味単位を有する主題語、題目、標語など、本明細書上で文章と定義されて一つの翻訳単位となる文字グループもまた、前記単語に含まれ得る。
文字翻訳装置100は、文字列が単語と判断される場合、これを第1言語の文章として抽出することができる(S31’)。
反面、文字翻訳装置100は、予め設定された広さの領域以上の空白が識別されないか、または前記空白がパターンを有して繰り返されない場合、文字列を、単語ではなく文章と判断することができる。文字翻訳装置100は、文字列が文章と判断される場合、文字列に対して予め設定された文章抽出アルゴリズムを適用することができる(S27)。
文字翻訳装置100は、前記文章抽出アルゴリズムを行うことで、文字列の文章が単行の文章であるか、複数行の文章であるかを判断することができる(S29)。文章抽出アルゴリズムについての具体的な実施例は、図6に関する説明で後述する。
文字翻訳装置100は、文字列の内部に空白が存在するか否かを判断して、文字列を単語と判断するか、または文章抽出アルゴリズムを用いて複数行又は単行の文章を識別することによって、第1言語の文章を抽出することができる(S31’)。
本発明の実施例によれば、このとき、文章が単行であるか複数行であるかを判断する際に文章決定記号を用いることができる。すなわち、文字翻訳装置100は、文章決定記号を識別し、識別された文章決定記号を基準に前後に位置する文字グループを互いに異なる文章として識別することができる。これによって、一つの行上の文字グループが文章決定記号を基準として区別される場合、一つの行には複数個の文章が存在し得る。
この場合、文字翻訳装置100は、行の前端、後端に位置する文字グループに対して、行の上段又は下段に他の文字決定記号が登場するまで、複数の行が一つの文章として継続して連結されていると判断することができる。
文字翻訳装置100は、認識された文章決定記号に基づいて、認識された文字で構成された第1言語の文章を抽出することができる(S31)。すなわち、文字翻訳装置100は、文章決定記号を基準として、文章単位で文字グループを識別することができる。したがって、文字翻訳装置100は、認識された文字で構成された文字列が一つの文章を構成するか、一つの文章の一部の構成に該当するかを判断することができる。このような判断を通じて、文字翻訳装置100は、一つの文字列を一つの文章として抽出するか、または複数の文字列を一つの文章として抽出することができる。また、文字翻訳装置100は、ユーザイベント情報を用いて、抽出された第1言語の文章に基づいて、翻訳対象文章を生成することができる(S35)。このとき、文字翻訳装置100は、予め設定された言語モデルを用いて、抽出された文章を翻訳対象文章に加工することができる。抽出された文章は、翻訳対象文章と同一であってもよく、変更されてもよい。
最後に、文字翻訳装置100は、生成された翻訳対象文章を第2言語に翻訳し、前記第2言語に翻訳された文章をディスプレイすることができる(S41)。
図4は、本発明のいくつかの実施例で参照される、イメージコンテンツの例示である。
図4を参照すると、文字翻訳装置100は、通信部、入力部110及びカメラ120のいずれか1つを介してコンテンツイメージを取得することができる。また、文字翻訳装置100は、ディスプレイ部130を介して、取得されたコンテンツイメージを出力することができる。図4において、ディスプレイ部130を介して出力されたコンテンツイメージの例として、イメージ401及びイメージ402が示されている。
イメージ401を参照すると、文字翻訳装置100の認識対象として文字グループ410が示されている。文字グループ410のそれぞれの文字列は一つの文章単位に該当する。文字翻訳装置100は、イメージ401上の文字を認識することができ、特に、文字グループ410内の各文字列をそれぞれ一つの文章として抽出することができる。
イメージ402を参照すると、文字翻訳装置100の認識対象として文字グループ420が示されている。文字グループ420のそれぞれの文字列は一つの文章単位に該当しない。すなわち、文字グループ420内の文字列は一つの文章の一部を構成する。この場合、文字翻訳装置100は、イメージ402上の文字を認識することができ、特に、文字グループ420内の複数の文字列を一つの文章として抽出することができる。
図5は、本発明のいくつかの実施例で参照される、翻訳対象文章の例示である。
図5を参照すると、文字翻訳装置100は、ステップS21において、第1言語の文字を認識し、イメージコンテンツ上の文字列を少なくとも1つ認識することができる。
また、文字翻訳装置100は、ステップS31において、前記認識された文字列のうち、第1文字列及び第2文字列の文字サイズ又は文字の太さを識別することができる。すなわち、図5に示されたように、文字グループ510に属する文字列と文字グループ520に属する文字列とが互いに異なるフォントサイズを有するか、または文字列の文字の太さが異なる場合、文字翻訳装置100はこれを識別することができる。
文字翻訳装置100は、識別された文字サイズに基づいて、第1文字列を前記第1言語の文章として抽出することができる。すなわち、図5において、文字グループ510に属する文字列は、イメージコンテンツ500の主題を示す題目、強調語句であって、相対的に大きいフォントサイズを有し、文字翻訳装置100は、これを一つの文章単位として認識し、文章として抽出することができる。
反面、文字翻訳装置100は、相対的に小さいフォントサイズを有する文字グループ520に属する文字列は、一つの文字列が文章の一部を構成するものと認識することができる。この場合、文字翻訳装置100は、図6で説明される文章抽出方式によって、複数の文字列を一つの文章として抽出することができる。
図5において、イメージコンテンツに互いに異なるフォントサイズを有する文字列が含まれ、文字翻訳装置100がフォントサイズに基づいて、文字列を文章として抽出する方式が主に説明されたが、本発明の実施例はこれに限定されない。すなわち、文字翻訳装置100は、イメージコンテンツのタイプに応じて、一つの文字列を文章として抽出するか、または複数の文字列を一つの文章として抽出することもできる。
ステップS11において、文字翻訳装置100は、ユーザから、イメージコンテンツのタイプ情報を含むユーザイベント情報が入力され得る。例えば、イメージコンテンツが看板、メニューである場合、主に一つの文字列が一つの文章であるので、これに関する情報が入力された場合、文字翻訳装置100は、認識される文字列を一つの文章として抽出することができる。この場合、文字翻訳装置100は、文章の抽出のための別途のアルゴリズムを行わないので、文章の抽出のための演算過程を最小化することができる。
反面、文字翻訳装置100は、イメージコンテンツのタイプが、多数の段落を有する新聞、小説のようなタイプとして入力された場合、認識された文字列が複数個組み合わされて文章を構成するものと認識することができる。したがって、文字翻訳装置100は、複数個の文字列を一つの文章として抽出し、予め設定された言語モデルの適用を試みることができる。これによって、翻訳対象文章の正確度が高くなるので、翻訳結果の正確性を期待することができる。
図6及び図7Aは、本発明のいくつかの実施例で参照される、文章抽出方式を説明するための例示図である。
図6を参照すると、文字翻訳装置100は、ステップS21において、第1言語の文字を認識し、イメージコンテンツ上の文字列を少なくとも1つ認識することができる。図6において、文字翻訳装置100が認識した文字列を含む場合が多数の例として示されている。以下、イメージコンテンツ601,602,603,604,605を例に挙げて本発明の実施例に係る文章抽出アルゴリズムを説明する。
ステップS31において、文字翻訳装置100は、前記認識された文字列上の文字のうち、右端に位置した文字を含む文字列を選択することができる。
これによって、イメージコンテンツ601,602の場合、それぞれ、右端に位置した文字611,612を含む最下段の文字列が選択され、イメージコンテンツ603,605の場合、それぞれ、右端に位置した文字613,615を含む中段の文字列、すなわち3番目の行の文字列が選択される。また、イメージコンテンツ604の場合、右端に位置した文字614を含む最上段の文字列が選択される。
文字翻訳装置100は、右端に位置した文字611,612,613,614,615のx軸座標を基準として、選択された文字列の上位文字列上の文字が存在するか否かを第1判断することができる。
これによって、文字翻訳装置100は、イメージコンテンツ602,604,605の場合、文字612,614,615を含む選択された文字列の上位文字列上の文字が存在しないと判断することができる。
このような場合、文字翻訳装置100は、前記選択された文字列を第1言語の文章として抽出することができる。
しかし、イメージコンテンツ602,604,605を参照すると、イメージコンテンツ602,604の場合、一つの文字列が一つの文章であり得るが、イメージコンテンツ604の場合、2つの文字列がつながっているので、一つの文字列を一つの文章として抽出する場合、文章抽出の誤りが発生することがある。このような場合の文章抽出の誤りを防止するために、文字翻訳装置100は、前記選択された文字列の左端に位置した文字のx軸座標を基準として、前記選択された文字列の下位文字列上の文字が存在するか否かを第2判断することができる。
例えば、文字翻訳装置100は、選択された文字列の左端に位置する文字621,622,623,624,625のx軸座標を基準として下位文字列上の文字が存在するか否かを判断することができる。
判断の結果、イメージコンテンツ602,605の場合、下位文字列上に文字が存在しないが、イメージコンテンツ604の場合、下位文字列上に文字が存在する。
この場合、文字翻訳装置100は、イメージコンテンツ602,605の場合、前記第1判断の結果と同様に、選択された文字列を一つの文章として抽出することができる。
反面、文字翻訳装置100は、イメージコンテンツ604の場合、前記第1判断の結果を第2判断の結果に修正して、選択された文字列を一つの文章として抽出しない。文字翻訳装置100は、選択された文字列及び下位文字列を含む複数の文字列を一つの文章として抽出する。
一方、文字翻訳装置100は、イメージコンテンツ601,603の場合、文字611,613を含む選択された文字列の上位文字列上の文字が存在すると判断することができる。
この場合、文字翻訳装置100は、選択された文字列及び前記選択された文字列の上位文字列を含む複数の文字列を第1言語の文章として抽出することができる。すなわち、イメージコンテンツ601,603の場合、文字翻訳装置100は、複数の文字列を含む文章を抽出することができる。
本発明の実施例によれば、上述した文章抽出アルゴリズムは、図5に関する説明で説明されたフォントサイズの識別、イメージコンテンツのタイプ情報を用いた文章抽出方式と共に適用することができる。例えば、イメージコンテンツ601の場合、文字翻訳装置100は、領域610の文字列はフォントサイズが相対的に大きいので、一つの文字列を一つの文章として抽出し、フォントサイズが相対的に小さい領域620の文字列に対してのみ上述した文章抽出アルゴリズムを適用することもできる。また、文字翻訳装置100は、イメージコンテンツ601のタイプが新聞記事であることが入力され、領域620に対して複数個の文字列を一つの文章として抽出して、予め設定された言語モデルの適用を試みることもできる。
図7Aには、イメージコンテンツ700に対して、文字翻訳装置100が文字認識方法としてOCR技術を用いて文字を認識し、認識された文字に対してN−Best探索アルゴリズムを行う場合が例として示されている。
言語選択情報として中国語が設定された場合を例に挙げて説明する。文字翻訳装置100は、言語選択情報に基づいて、OCR処理の結果、中国語の文字を認識し、イメージコンテンツ700上の中国語の文字のうち、第1文字701の候補文字711を決定することができる。また、文字翻訳装置100は、イメージコンテンツ700上の文字のうち、第1文字701に隣接する第2文字702の候補文字712を決定することができる。候補文字711は第1文字701を含み、候補文字712は第2文字702を含むことができる。
各候補文字711,712は複数個であってもよく、N−Best探索アルゴリズムの実行の結果、候補文字711及び候補文字712は、それぞれ、第1文字として選択される確率値及び第2文字として選択される確率値を有する。
文字翻訳装置100は、第1文字701の候補文字711と第2文字702の候補文字712との組み合わせを少なくとも1つ生成することができる。
文字翻訳装置100は、言語選択情報に基づいて、前記生成された組み合わせのうち、第1文字及び第2文字として認識される確率が最も高い文字の組み合わせ720を選択することができる。
文字翻訳装置100は、選択された文字の組み合わせに基づいて、イメージコンテンツ700上の中国語文字を認識することができる。図7Bは、図7Aで例示された文章抽出過程で用いられるデータの規格を説明するための例示図である。特に、図7Bには、本発明の実施例による文字組み合わせデータの構造が例示されている。
図7Bを参照すると、文字翻訳装置100は、図7Aの各候補文字711,712、各候補文字が結合される場合、各候補文字711,712に関する情報、各候補文字の位置、すなわち、第1文字であるか第2文字であるかに関する情報、及び各候補文字711,712の確率値の情報を含む文字組み合わせデータを生成することができる。文字翻訳装置100は、OCR後処理過程(S20)において、このような確率値を含む文字組み合わせデータを用いて文字を認識することができ、翻訳前処理過程(S30)において、前記文字組み合わせデータを用いて翻訳対象文章を生成することもできる。
図7Bのデータ構造は例示に過ぎず、本発明の実施例はこれに限定されず、データ構造は、様々な実施例による変形が可能であり、本発明の属する技術分野で広く利用されるデータ構造が適用されてもよい。
本発明の他の実施例において、文字翻訳装置100は、図7Bのデータを、翻訳前処理過程を行うサーバに送信することができる。この場合、サーバ団は、各第1言語の文字を第2言語に翻訳するのに必要な翻訳対象文章の確定に受信された文字組み合わせデータを用いることができる。
一方、文字翻訳装置100は、翻訳前処理過程において、図7で例示されたN−Best探索アルゴリズムを用いて、翻訳対象文章を生成することもできる。これについての詳細な説明は図9に関する説明で後述する。
図8は、本発明のいくつかの実施例で参照される、GUIの例示図である。
図8を参照すると、ステップS11において、文字翻訳装置100は、取得したイメージ中の翻訳対象領域がユーザから入力され得る。これによって、画面801のように、文字翻訳装置100は、翻訳対象領域をディスプレイ部130の第1領域810にディスプレイすることができる。
ステップS21において、文字翻訳装置100は、画面801のように認識された第1言語の文字及び前記第1言語の文章決定記号を、ディスプレイ部130の第2領域820にディスプレイすることもできる。
ステップS41において、文字翻訳装置100は、翻訳対象文章が生成されるに伴って、画面802のように第2言語に翻訳された文章を第2領域820上でディスプレイすることができる。すなわち、文字翻訳装置100は、画面801の第2領域820のディスプレイの対象を、翻訳対象文章が生成されて翻訳が行われるにつれて画面802のように変更することができる。
文字翻訳装置100は、翻訳対象領域中、生成された翻訳対象文章を識別処理815して第1領域810にディスプレイすることができる。このとき、文字翻訳装置100は、識別処理815された文章に対する修正要求を受信することができる。前記修正要求は、ユーザのタッチジェスチャー、または文字翻訳装置100のボタン操作によって受信され得る。
文字翻訳装置100は、前記修正要求に応答して、修正された翻訳対象文章を生成することができる。すなわち、ユーザが識別処理815の部分を移動または拡張させる修正要求を入力することによって、翻訳対象文章は修正され得、文字翻訳装置100は、識別処理815の部分を移動または拡張させて第1領域810上にディスプレイすることができる。
文字翻訳装置100は、修正された翻訳対象文章を第2言語に翻訳し、翻訳結果を第2領域820上にディスプレイすることができる。
図9は、本発明の更に他の実施例に係る、翻訳対象文章の修正方法を説明するための例示図である。
文字翻訳装置100は、ステップS35において、ユーザイベント情報を用いて、抽出された第1言語の文章に基づいて、翻訳対象文章の候補文章を生成することができる。図9を参照すると、図7で説明された文字の組み合わせを含む候補文章を生成することができる。
このとき、文字翻訳装置100は、ユーザイベント情報940を用いて、抽出された文章の状況を予測し、予め設定された言語モデル930を用いて候補文章910,920を生成することができる。
また、文字翻訳装置100は、図7で生成された少なくとも1つの文字の組み合わせのうち、抽出された文章に含まれる可能性が確率的に最も高い文字の組み合わせを選択し、選択された文字の組み合わせを含む文章を最終の翻訳対象文章として決定950することができる。具体的には、文字翻訳装置100は、予め設定された言語モデル930からデータ900を取得して、候補文章910,920上の単語と文字の組み合わせとの比較を通じて、文字の組み合わせのうち、抽出された文章に含まれる可能性が確率的に最も高い文字の組み合わせを選択することができる。前記言語モデル930は、単語、その単語が含まれた文章などで構成され得、単語自体が一つの文章からなる場合もあり、文章全体が常用句であるので、文章全体が文字の組み合わせとマッチングされる場合もある。
一方、文字翻訳装置100は、ステップS11において、文字翻訳装置100の位置情報に基づいて、ユーザイベント情報を感知することもできる。すなわち、文字翻訳装置100は、文字翻訳装置100を所持しているユーザが空港にいるのか、国外にいるのか、飲食店にいるのかなどの情報を感知することができる。文字翻訳装置100は、このために、位置情報の感知のためのGPSモジュールをさらに備えることもできる。また、文字翻訳装置100は、ローミング情報などの通信情報をユーザイベント情報として感知することもできる。
ステップS31において、文字翻訳装置100は、ユーザイベント情報に基づいて、第1言語を自動で決定することができる。すなわち、位置情報が中国である場合、文字翻訳装置100は、第1言語として中国語を自動で決定することができる。また、ステップS41において、文字翻訳装置100は、ユーザイベント情報に基づいて、前記第2言語を自動で決定することもできる。例えば、文字翻訳装置100は、ユーザイベント情報として文字翻訳装置100の固有識別情報を用いることで、文字翻訳装置100のユーザの使用言語を自動で決定することができる。又は、文字翻訳装置100は、位置情報の変更内訳をユーザイベント情報として活用することもできる。
文字翻訳装置100は、ユーザイベント情報に基づいて、文字翻訳装置100が飲食店に位置したことを感知できるので、翻訳対象文章の生成において、予め設定された言語モデルを用いて、メニューに関連する文字の組み合わせを選択することもできる。
図10は、本発明のいくつかの実施例で参照される、文字翻訳装置の出力UIの例示である。
図10において、ステップS41で文章翻訳装置100が翻訳対象を選定して翻訳された文章をディスプレイする場合の、UI画面1001,1002,1003が例として示されている。
画面1001を参照すると、文字翻訳装置100は、ステップS35で生成された翻訳対象文章1020に対する識別表示をディスプレイすることができる。文字翻訳装置100は、翻訳領域を指定するオブジェクト1010をディスプレイすることができる。
画面1002を参照すると、ユーザから、前記オブジェクト1010を前記翻訳対象文章1020を含む領域1030にオーバーレイさせる入力を受信することによって、文字翻訳装置100は、オーバーレイされた領域1030に含まれた翻訳対象文章1020を翻訳要求文章として選択することができる。オブジェクト1010は、ユーザ入力を受信するに伴って領域1030を翻訳領域に指定する過程で移動することができる。例えば、ユーザから、オブジェクト1010に対するタッチ入力及びドラッグ入力を受信すると、文字翻訳装置100は、ドラッグ入力方向に沿ってオブジェクト1010が拡張されつつ移動するように制御し、オブジェクト1010が移動することによって含まれる領域を翻訳領域として認識することができる。また、文字翻訳装置100は、翻訳領域に含まれた文章を翻訳要求文章として選択することができる。
文字翻訳装置100は、選択された翻訳要求文章をサーバに送信し、これに対する翻訳結果を受信することができる。これによって、文書翻訳装置100は、翻訳領域1030に隣接する領域に翻訳結果1040をディスプレイすることができる。
画面1003を参照すると、ディスプレイされたイメージコンテンツに対するスクロール入力が受信されることによって、文字翻訳装置100は翻訳領域を移動することができ、翻訳領域が移動されることによって、翻訳領域1030に含まれる翻訳対象文章1025が変更される。文字翻訳装置100は、前記翻訳領域1030上の翻訳対象文章1025を翻訳要求文章として選択することができる。
一方、本発明の実施例によれば、文字翻訳装置100は、前記オブジェクト1010に対するスクロール入力によって前記イメージコンテンツをスクロールすることもできる。
図11は、本発明のいくつかの実施例で参照される、文字翻訳装置の音借出力UIの例示である。
図11を参照すると、文字翻訳装置100は、翻訳結果1040をディスプレイするとき、翻訳結果である第2言語の文章1043だけでなく、第1言語に対する音借1045を第2言語で表示してディスプレイすることもできる。
すなわち、ステップS41において、文字翻訳装置100は第2言語を識別することができ、図11において、第1言語が中国語、第2言語が韓国語である場合、文字翻訳装置100はこれを識別し、第1言語の音借を第2言語でディスプレイすることができる。
例えば、第1言語の文章「 我是学生。」に対して、ディスプレイされた第2言語の翻訳結果は「私は学生です。」であり、このとき、第1言語に対して第2言語で表現された音借「ウォーシーシュエション」が共にディスプレイされ得る。
図12は、本発明のいくつかの実施例で参照される、レイアウト識別による翻訳対象文章決定方式を説明するための例示図である。
一方、以上では文字翻訳装置100がイメージコンテンツ上で文章決定記号または予め設定された領域の空白を検出することによって翻訳対象文章を決定する方法について主に説明した。しかし、本発明の実施例はこれに限定されるものではなく、文字のフォント、サイズだけでなく、文字翻訳装置100は、イメージコンテンツのレイアウト、すなわち、イメージコンテンツ上の各領域により文字列が区別されることによって各領域上の文字グループを互いに異なる文章として判断することもできる。
図12を参照すると、イメージコンテンツ1200が視覚的に区分された複数の領域を含む場合が例示されている。この場合、文字翻訳装置100は、イメージコンテンツの複数の領域を区画する線、陰影、及び色のうちの少なくとも1つを識別することができ、区画された各領域を識別することができる。
また、文字翻訳装置100は、複数の領域上の文字グループをそれぞれ識別することができる。図12には、イメージコンテンツ1200が領域1210,1220,1230を含み、各領域が文字グループ1215,1225,1235を含む場合が例として示されている。
文字翻訳装置100は、各文字グループ1215,1225,1235を互いに異なる文章として判断し、翻訳対象文章として生成することができる。
文字翻訳装置100は特に、各領域別に互いに異なる言語の文字グループが存在しても、検出部を介して各言語を識別することができる。
文字翻訳装置100は、生成された文章を翻訳することができ、翻訳された結果を各領域上にオーバーレイされるようにディスプレイすることもできる。
以上、添付の図面を参照して説明された本発明の実施例による方法は、コンピュータが読み取り可能なコードで具現されたコンピュータプログラムの実行によって行われ得る。前記コンピュータプログラムは、インターネットなどのネットワークを介して第1コンピューティング装置から第2コンピューティング装置に送信されて前記第2コンピューティング装置にインストールされ得、これによって、前記第2コンピューティング装置で使用され得る。前記第1コンピューティング装置及び前記第2コンピューティング装置は、サーバ装置、デスクトップPCのような固定式コンピューティング装置、ノートパソコン、スマートフォン、タブレットPCのようなモバイルコンピューティング装置を全て含む。
以上、添付の図面を参照して本発明の実施例を説明したが、本発明の属する技術分野における通常の知識を有する者は、本発明がその技術的思想や必須の特徴を変更せずに他の具体的な形態で実施できるということを理解できるはずである。したがって、以上で記述した実施例は、すべての面で例示的なものであり、限定的なものではないと理解しなければならない。
本発明は、文字を翻訳する方法及びその装置に関するもので、産業上の利用可能性がある。
Claims (21)
- 文字翻訳装置が行う方法において、
イメージコンテンツを取得するステップと、
前記イメージコンテンツ上の第1言語の文字及び前記第1言語の文章決定記号を認識するステップと、
前記認識された文章決定記号に基づいて、前記認識された文字で構成された第1言語の文章を抽出するステップと、
ユーザイベント情報を用いて、前記抽出された第1言語の文章に基づいて、翻訳対象文章を生成するステップと、
前記生成された翻訳対象文章を第2言語に翻訳し、前記第2言語に翻訳された文章をディスプレイするステップとを含む、文字翻訳方法。 - 前記イメージコンテンツを取得するステップは、
ユーザから、言語選択情報を含むユーザイベント情報の入力を受けるステップを含み、
前記第1言語の文字及び前記第1言語の文章決定記号を認識するステップは、
前記言語選択情報に基づいて、前記第1言語の文字を認識するステップ、及び予め定義された言語別の文章分割規則に従って、前記第1言語の文章決定記号を認識するステップを含む、請求項1に記載の文字翻訳方法。 - 前記第1言語の文字を認識するステップは、
前記イメージコンテンツ上の文字列を少なくとも1つ認識するステップを含み、
前記認識された文字で構成された第1言語の文章を抽出するステップは、
前記認識された文字列のうち、第1文字列及び第2文字列の文字サイズを識別するステップと、
前記識別された文字サイズに基づいて、前記第1文字列を前記第1言語の文章として抽出するステップとを含む、請求項2に記載の文字翻訳方法。 - 前記第1言語の文字を認識するステップは、
前記イメージコンテンツ上の文字列を少なくとも1つ認識するステップを含み、
前記認識された文字で構成された第1言語の文章を抽出するステップは、
前記認識された文字列上の文字のうち、右端に位置した文字を含む文字列を選択するステップと、
前記右端に位置した文字のx軸座標を基準として、前記選択された文字列の上位文字列上の文字が存在するか否かを第1判断するステップと、
前記第1判断の結果、前記上位文字列上の文字が存在しない場合、前記選択された文字列を前記第1言語の文章として抽出するステップとを含む、請求項2に記載の文字翻訳方法。 - 前記第1判断の結果、前記上位文字列上の文字が存在する場合、前記選択された文字列及び前記上位文字列を含む複数の文字列を前記第1言語の文章として抽出するステップを含む、請求項4に記載の文字翻訳方法。
- 前記選択された文字列を前記第1言語の文章として抽出するステップは、
前記選択された文字列の左端に位置した文字のx軸座標を基準として、前記選択された文字列の下位文字列上の文字が存在するか否かを第2判断するステップと、
前記第2判断の結果、前記下位文字列上の文字が存在しない場合、前記選択された文字列を前記第1言語の文章として抽出するステップとを含む、請求項4に記載の文字翻訳方法。 - 前記第2判断の結果、前記下位文字列上の文字が存在する場合、前記選択された文字列及び前記下位文字列を含む複数の文字列を前記第1言語の文章として抽出するステップを含む、請求項6に記載の文字翻訳方法。
- 前記言語選択情報に基づいて、前記第1言語の文字を認識するステップは、
前記イメージコンテンツ上の第1言語の文字のうち、第1文字の候補文字を決定するステップと、
前記イメージコンテンツ上の第1言語の文字のうち、前記第1文字に隣接する第2文字の候補文字を決定するステップと、
前記第1文字の候補文字と前記第2文字の候補文字との組み合わせを少なくとも1つ生成するステップと、
前記言語選択情報に基づいて、前記生成された組み合わせのうち、前記第1文字及び前記第2文字として認識される確率が最も高い文字の組み合わせを選択するステップと、
前記選択された文字の組み合わせに基づいて前記第1言語の文字を認識するステップとを含む、請求項2に記載の文字翻訳方法。 - 前記生成された文字の組み合わせは、
前記第1文字の候補文字と前記第2文字の候補文字の前記生成された文字の組み合わせでの位置情報、前記第1文字の候補文字が前記第1文字として認識される確率値及び前記第2文字の候補文字が前記第2文字として認識される確率値に関する情報を含む、請求項8に記載の文字翻訳方法。 - 前記翻訳対象文章を生成するステップは、
前記ユーザイベント情報を用いて、前記抽出された第1言語の文章に基づいて、前記翻訳対象文章の候補文章を生成するステップと、
前記生成された候補文章に基づいて、前記生成された文字の組み合わせのうち、文章に含まれる確率が最も高い文字の組み合わせを選択するステップと、
前記文章に含まれる確率が最も高い文字の組み合わせを含む文章を翻訳対象文章として決定するステップとを含む、請求項8に記載の文字翻訳方法。 - 前記言語選択情報に基づいて、前記生成された組み合わせのうち、前記第1文字及び前記第2文字として認識される確率が最も高い文字の組み合わせを選択するステップは、
前記生成された組み合わせを、予め設定された言語モデルから取得された1つ以上の文章または該文章に含まれた単語と比較するステップと、
前記比較の結果、前記取得された1つ以上の文章または該文章に含まれた単語にマッチングされる確率が最も高い文字の組み合わせを、前記第1文字及び前記第2文字として認識される確率が最も高い文字の組み合わせとして選択するステップとを含む、請求項8に記載の文字翻訳方法。 - 前記第1言語の文字を含むイメージコンテンツを取得するステップは、
ユーザから、前記イメージコンテンツのタイプ情報を含むユーザイベント情報の入力を受けるステップを含み、
前記認識された文字で構成された第1言語の文章を抽出するステップは、
前記イメージコンテンツのタイプ情報に基づいて、前記認識された文字で構成された一つの文字列を前記第1言語の文章として抽出するステップを含む、請求項1に記載の文字翻訳方法。 - 前記イメージコンテンツを取得するステップは、
前記取得したイメージ中の翻訳対象領域がユーザから入力されるステップと、
前記翻訳対象領域を第1領域にディスプレイするステップとを含み、
前記第1言語の文字及び前記第1言語の文章決定記号を認識するステップは、
前記認識された第1言語の文字及び前記第1言語の文章決定記号を第2領域にディスプレイするステップを含み、
前記第2言語に翻訳された文章をディスプレイするステップは、
前記翻訳対象文章が生成されるに伴って、前記第2言語に翻訳された文章を前記第2領域上でディスプレイするステップを含む、請求項1に記載の文字翻訳方法。 - 前記翻訳対象文章を生成するステップは、
前記翻訳対象領域中、前記生成された翻訳対象文章を識別処理して前記第1領域にディスプレイするステップを含み、
前記生成された翻訳対象文章を識別処理して前記第1領域にディスプレイするステップは、
前記識別処理された文章に対する修正要求を受信するステップと、
前記修正要求に応答して、修正された翻訳対象文章を生成するステップとを含み、
前記第2言語に翻訳された文章を前記第2領域上でディスプレイするステップは、
前記修正された翻訳対象文章を前記第2言語に翻訳してディスプレイするステップを含む、請求項13に記載の文字翻訳方法。 - 前記翻訳対象文章を生成するステップは、
前記生成された翻訳対象文章を少なくとも1つ含む第1領域をディスプレイし、翻訳領域の設定のためのオブジェクトをディスプレイするステップと、
オブジェクトに対するユーザ入力を受信するに伴って、前記オブジェクトが前記ユーザ入力に従って指定する第2領域を前記第1領域上にオーバーレイしてディスプレイするステップと、
前記第2領域と前記第1領域とが重なる領域に含まれた翻訳対象文章を前記第2言語に翻訳し、前記第2言語に翻訳された文章をディスプレイするステップとを含む、請求項1に記載の文字翻訳方法。 - ユーザから、前記イメージコンテンツに対するスクロール入力を受信するステップと、
前記イメージコンテンツがスクロールされることによって、前記第1領域上の少なくとも1つの翻訳対象文章が変更され、前記変更された翻訳対象文章を含む前記第2領域を前記第1領域上にオーバーレイしてディスプレイするステップと、
前記変更された翻訳対象文章を前記第2言語に翻訳し、前記第2言語に翻訳された文章をディスプレイするステップとを含む、請求項15に記載の文字翻訳方法。 - 前記イメージコンテンツを取得するステップは、
前記文字翻訳装置の位置情報に基づいて、ユーザイベント情報を感知するステップを含み、
前記第1言語の文字及び前記第1言語の文章決定記号を認識するステップは、
前記ユーザイベント情報に基づいて、前記第1言語を自動で決定するステップを含み、
前記第2言語に翻訳された文章をディスプレイするステップは、
前記ユーザイベント情報に基づいて、前記第2言語を自動で決定するステップを含む、請求項1に記載の文字翻訳方法。 - 前記文章決定記号は、
前記認識された第1言語の文字で構成された文字列上の文字から一連の文字グループを区別し、前記区別された文字グループが文章であることを決定できる記号である、請求項1に記載の文字翻訳方法。 - 前記イメージコンテンツ上の第1言語の文字及び前記第1言語の文章決定記号を認識するステップは、
前記認識された第1言語の文字で構成された文字列上の複数の文字グループの間に予め設定された広さの領域以上の空白を検出するステップを含み、
前記認識された文章決定記号に基づいて、前記認識された文字で構成された第1言語の文章を抽出するステップは、
前記検出された空白の前後に位置した文字グループを互いに異なる文章として認識することによって前記第1言語の文章を抽出するステップを含む、請求項1に記載の文字翻訳方法。 - イメージコンテンツを取得するカメラと、
ユーザイベント情報の入力を受ける入力部と、
前記取得されたイメージコンテンツの全部又は一部をディスプレイするディスプレイ部と、
前記イメージコンテンツ上の第1言語の文字及び前記第1言語の文章決定記号を認識し、前記認識された文章決定記号に基づいて、前記認識された文字で構成された第1言語の文章を抽出し、前記ユーザイベント情報を用いて、前記抽出された第1言語の文章に基づいて、翻訳対象文章を生成し、前記生成された翻訳対象文章を第2言語に翻訳するに伴って、前記第2言語に翻訳された文章がディスプレイされるように制御する制御部とを含む、文字翻訳装置。 - コンピューティング装置と結合して、
イメージコンテンツ上の第1言語の文字及び前記第1言語の文章決定記号を認識するステップと、
前記認識された文章決定記号に基づいて、前記認識された文字で構成された第1言語の文章を抽出するステップと、
ユーザイベント情報を用いて、前記抽出された第1言語の文章に基づいて、翻訳対象文章を生成するステップと、
前記生成された翻訳対象文章を第2言語に翻訳し、前記第2言語に翻訳された文章をディスプレイするステップとを実行させる、記録媒体に格納された、コンピュータプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/KR2016/010831 WO2018062580A1 (ko) | 2016-09-28 | 2016-09-28 | 문자를 번역하는 방법 및 그 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019537103A true JP2019537103A (ja) | 2019-12-19 |
Family
ID=61760811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019517043A Pending JP2019537103A (ja) | 2016-09-28 | 2016-09-28 | 文字を翻訳する方法及びその装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20200026766A1 (ja) |
EP (1) | EP3522038A4 (ja) |
JP (1) | JP2019537103A (ja) |
WO (1) | WO2018062580A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210107473A (ko) * | 2020-02-24 | 2021-09-01 | 김세중 | 창작자 및 다중참여자에게 수익을 분배하는 이야기 콘텐츠 플랫폼 서비스 제공 시스템 |
JP7356332B2 (ja) | 2019-12-03 | 2023-10-04 | ポケトーク株式会社 | 翻訳結果表示制御システム、翻訳結果表示制御方法及びプログラム |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108650419A (zh) * | 2018-05-09 | 2018-10-12 | 深圳市知远科技有限公司 | 基于智能手机的电话翻译系统 |
JP7105210B2 (ja) | 2019-03-26 | 2022-07-22 | 富士フイルム株式会社 | 画像処理方法、プログラム、及び画像処理システム |
US11763098B2 (en) * | 2019-08-07 | 2023-09-19 | 7299362 Canada Inc. | System and method for language translation |
CN110781688B (zh) * | 2019-09-20 | 2023-11-07 | 华为技术有限公司 | 机器翻译的方法和电子设备 |
CN111382748B (zh) * | 2020-02-28 | 2024-03-19 | 北京小米松果电子有限公司 | 图像翻译方法、装置及存储介质 |
US11461988B2 (en) * | 2020-07-23 | 2022-10-04 | Suresh Babu Revoled Konti | Method of transferring data between unconnected computing devices |
JP7164651B2 (ja) * | 2020-09-07 | 2022-11-01 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | 翻訳方法、装置、電子機器及びコンピュータプログラム製品 |
CN112989846B (zh) * | 2021-03-10 | 2023-06-16 | 深圳创维-Rgb电子有限公司 | 文字翻译方法、文字翻译装置、文字翻译设备及存储介质 |
CN116522966B (zh) * | 2023-06-30 | 2023-09-15 | 天津华来科技股份有限公司 | 基于多语言词条的文本翻译方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0935006A (ja) * | 1995-07-18 | 1997-02-07 | Fujitsu Ltd | 文字認識装置 |
JPH09138802A (ja) * | 1995-11-15 | 1997-05-27 | Hitachi Ltd | 文字認識翻訳システム |
JP2005267380A (ja) * | 2004-03-19 | 2005-09-29 | Advanced Telecommunication Research Institute International | 表示文字翻訳装置及びコンピュータプログラム |
JP2007018166A (ja) * | 2005-07-06 | 2007-01-25 | Nec Corp | 情報検索装置、情報検索システム、情報検索方法及び情報検索プログラム |
JP2013122634A (ja) * | 2011-12-09 | 2013-06-20 | Fuji Xerox Co Ltd | 情報処理装置及び情報処理プログラム |
JP2014044555A (ja) * | 2012-08-27 | 2014-03-13 | Fuji Xerox Co Ltd | 画像処理装置、画像処理システム及びプログラム |
US20140081619A1 (en) * | 2012-09-18 | 2014-03-20 | Abbyy Software Ltd. | Photography Recognition Translation |
US20150169971A1 (en) * | 2012-09-07 | 2015-06-18 | Mark Joseph Cummins | Character recognition using search results |
JP2016021086A (ja) * | 2014-07-11 | 2016-02-04 | コニカミノルタ株式会社 | 電子文書生成システム、電子文書生成装置およびプログラム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW347503B (en) * | 1995-11-15 | 1998-12-11 | Hitachi Ltd | Character recognition translation system and voice recognition translation system |
US6721697B1 (en) * | 1999-10-18 | 2004-04-13 | Sony Corporation | Method and system for reducing lexical ambiguity |
KR100805190B1 (ko) * | 2006-09-07 | 2008-02-21 | 한국전자통신연구원 | 영어 문장 분리 장치 및 방법 |
KR100912502B1 (ko) * | 2007-07-27 | 2009-08-17 | 한국전자통신연구원 | Pdf 파일을 대상으로 하는 자동 번역 방법 |
US20090198486A1 (en) * | 2008-02-05 | 2009-08-06 | National Tsing Hua University | Handheld electronic apparatus with translation function and translation method using the same |
JP5434586B2 (ja) * | 2009-12-29 | 2014-03-05 | オムロン株式会社 | 単語認識方法および単語認識用のプログラムならびに情報処理装置 |
US9082035B2 (en) * | 2011-08-29 | 2015-07-14 | Qualcomm Incorporated | Camera OCR with context information |
-
2016
- 2016-09-28 US US16/337,861 patent/US20200026766A1/en not_active Abandoned
- 2016-09-28 EP EP16917782.1A patent/EP3522038A4/en not_active Withdrawn
- 2016-09-28 JP JP2019517043A patent/JP2019537103A/ja active Pending
- 2016-09-28 WO PCT/KR2016/010831 patent/WO2018062580A1/ko unknown
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0935006A (ja) * | 1995-07-18 | 1997-02-07 | Fujitsu Ltd | 文字認識装置 |
JPH09138802A (ja) * | 1995-11-15 | 1997-05-27 | Hitachi Ltd | 文字認識翻訳システム |
JP2005267380A (ja) * | 2004-03-19 | 2005-09-29 | Advanced Telecommunication Research Institute International | 表示文字翻訳装置及びコンピュータプログラム |
JP2007018166A (ja) * | 2005-07-06 | 2007-01-25 | Nec Corp | 情報検索装置、情報検索システム、情報検索方法及び情報検索プログラム |
JP2013122634A (ja) * | 2011-12-09 | 2013-06-20 | Fuji Xerox Co Ltd | 情報処理装置及び情報処理プログラム |
JP2014044555A (ja) * | 2012-08-27 | 2014-03-13 | Fuji Xerox Co Ltd | 画像処理装置、画像処理システム及びプログラム |
US20150169971A1 (en) * | 2012-09-07 | 2015-06-18 | Mark Joseph Cummins | Character recognition using search results |
US20140081619A1 (en) * | 2012-09-18 | 2014-03-20 | Abbyy Software Ltd. | Photography Recognition Translation |
JP2016021086A (ja) * | 2014-07-11 | 2016-02-04 | コニカミノルタ株式会社 | 電子文書生成システム、電子文書生成装置およびプログラム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7356332B2 (ja) | 2019-12-03 | 2023-10-04 | ポケトーク株式会社 | 翻訳結果表示制御システム、翻訳結果表示制御方法及びプログラム |
KR20210107473A (ko) * | 2020-02-24 | 2021-09-01 | 김세중 | 창작자 및 다중참여자에게 수익을 분배하는 이야기 콘텐츠 플랫폼 서비스 제공 시스템 |
KR102372429B1 (ko) * | 2020-02-24 | 2022-03-08 | 김세중 | 창작자 및 다중참여자에게 수익을 분배하는 이야기 콘텐츠 플랫폼 서비스 제공 시스템 |
Also Published As
Publication number | Publication date |
---|---|
EP3522038A4 (en) | 2020-06-03 |
WO2018062580A1 (ko) | 2018-04-05 |
EP3522038A1 (en) | 2019-08-07 |
US20200026766A1 (en) | 2020-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2019537103A (ja) | 文字を翻訳する方法及びその装置 | |
US9411801B2 (en) | General dictionary for all languages | |
TWI475406B (zh) | 取決於上下文之輸入方法 | |
US20140081619A1 (en) | Photography Recognition Translation | |
US10872207B2 (en) | Determining translation similarity of reverse translations for a plurality of languages | |
US9946704B2 (en) | Tone mark based text suggestions for chinese or japanese characters or words | |
CN108062301B (zh) | 文字翻译方法及其装置 | |
CN111353501A (zh) | 一种基于深度学习的书本点读方法及系统 | |
JP2017511917A (ja) | 音楽記号を認識するための方法および装置 | |
US20150205781A1 (en) | Systems and methods for using tone indicator in text recognition | |
RU2665274C2 (ru) | Всплывающая панель верификации | |
JP2013206141A (ja) | 文字入力装置、文字入力方法、及び文字入力プログラム | |
JP7481999B2 (ja) | 辞書編集装置、辞書編集方法及び辞書編集プログラム | |
JP7164651B2 (ja) | 翻訳方法、装置、電子機器及びコンピュータプログラム製品 | |
JP5634972B2 (ja) | テキストセグメンテーションのための方法、コンピュータプログラム製品およびシステム | |
CN105843414B (zh) | 输入法的输入修正方法和输入法装置 | |
JP6081606B2 (ja) | 電子機器および方法 | |
JP2012173959A (ja) | 文字認識装置及びプログラム | |
US20200334421A1 (en) | System and method for translating text | |
KR20170132643A (ko) | 문자 디스플레이 방법 및 그 장치 | |
US10127478B2 (en) | Electronic apparatus and method | |
KR101727953B1 (ko) | 문자를 번역하는 방법 및 그 장치 | |
JP2023043910A (ja) | 文字列抽出装置、文字列抽出方法、および文字列抽出プログラム | |
WO2018053695A1 (zh) | 基于压力来选择附加符号 | |
JP6325218B2 (ja) | 文字認識結果検証装置及び文字読取システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190927 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201009 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201117 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20210615 |