JP2016519797A - 外国語の文字セットおよびそれらの翻訳を資源に制約のあるモバイル機器上にリアルタイムで表示するためのシステムおよび方法 - Google Patents

外国語の文字セットおよびそれらの翻訳を資源に制約のあるモバイル機器上にリアルタイムで表示するためのシステムおよび方法 Download PDF

Info

Publication number
JP2016519797A
JP2016519797A JP2015562415A JP2015562415A JP2016519797A JP 2016519797 A JP2016519797 A JP 2016519797A JP 2015562415 A JP2015562415 A JP 2015562415A JP 2015562415 A JP2015562415 A JP 2015562415A JP 2016519797 A JP2016519797 A JP 2016519797A
Authority
JP
Japan
Prior art keywords
language
text
frame
translation
video feed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015562415A
Other languages
English (en)
Other versions
JP6317772B2 (ja
JP2016519797A5 (ja
Inventor
ロゴスキー,ライアン,リオン
ウー,フアン‐ユ
クラーク,ケビン,アンソニー
Original Assignee
トランスレート アブロード,インコーポレイテッド
トランスレート アブロード,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by トランスレート アブロード,インコーポレイテッド, トランスレート アブロード,インコーポレイテッド filed Critical トランスレート アブロード,インコーポレイテッド
Publication of JP2016519797A publication Critical patent/JP2016519797A/ja
Publication of JP2016519797A5 publication Critical patent/JP2016519797A5/ja
Application granted granted Critical
Publication of JP6317772B2 publication Critical patent/JP6317772B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/22Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of characters or indicia using display control signals derived from coded signals representing the characters or indicia, e.g. with a character-code memory
    • G09G5/24Generation of individual character patterns
    • G09G5/246Generation of individual character patterns of ideographic or arabic-like characters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computer Hardware Design (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本発明は、モバイルカメラ装置上で、インターネットにアクセスすることなく、オフラインで、言語テキストを翻訳するためのシステムおよび方法に関する。より詳細には、本発明は、表示されている第1の言語のテキストおよび第1の言語テキストの第2の言語テキストへの翻訳を、モバイル機器上に拡張現実でリアルタイムに表示するためのシステムおよび方法に関する。処理は、モーションジッターのない、正確なリアルタイム翻訳を確実にするために、複数の処理技術革新を用いて設計された単一行または複数行アルゴリズムを使用できる。本発明は、その国の現地語で書かれたテキストを読んで理解することが困難な外国内の旅行者を助けるために使用され得る。本発明は、ウェアラブルコンピュータまたは眼鏡で利用されて、シームレスな拡張現実の外国語翻訳を生成し得る。いくつかの実施形態は、アジア言語から英語への翻訳において特に有用である。【選択図】図11

Description

関連出願の参照
本出願は、非仮出願であり、2013年3月15日に出願された「Recognition System」という名称の米国仮出願第61/791,584号からの優先権を主張し、その全体が参照により本明細書に組み込まれる。
著作権およびトレードドレスの表示
本特許に関連した文書の開示の一部は、著作権保護の対象となる材料を含む。本特許関連文書は、所有者のトレードドレスであるか、またはトレードドレスになり得る内容を示し、かつ/または記述し得る。著作権およびトレードドレスの所有者は、特許開示が、米国特許商標局の特許ファイルまたはレコード内に出現するとおり、あらゆる人による複製に異議はないが、それ以外ではその如何に係わらず全ての著作権およびトレードドレス権を留保する。
発明の分野
本発明は、一般に、アジア文字セットを翻訳するためのシステムおよび方法に関する。より詳細には、本発明は、資源に制約のあるモバイル機器上でのアジア文字セットの画像処理および認識の後に、アジア文字セットおよびそれらの翻訳をリアルタイムで表示するためのシステムおよび方法に関する。本発明は、その国の現地語で書かれたテキストを読んで理解することが困難な外国内の旅行者を支援するために使用され得る。より一般的には、本発明は、任意の2言語間の翻訳にも適用可能である。
本節の記述は、本開示に関連した背景情報を提供するだけであり、従来技術を構成するものではない。
外国内の旅行者は、しばしば、レストランの名前もしくは住所、レストランのメニュー、道路標識、本、地図、列車の時刻表、または新聞などの、外国語で書かれた何らかのテキストを読んで理解できる必要がある。慣例的に、旅行者は、外国語の翻訳本を使用するか、ガイドを雇うか、または現地の人々に助けを求め得る。これらのアプローチは厄介であり、世界中で、外国人が彼らの第2言語として次第に英語を使うようになっても、この言語バリアは終わりそうにない。
複雑な画像処理および光学式文字認識(OCR)ソフトウェアを使用する、翻訳装置が知られている。OCRは、1990年代初めにおけるその開始以来、著しく改善されてきて、インターネット上で使用されるが;外国人旅行者は、一般に、外国でのインターネット接続を備えたモバイル機器を有していない。従って、旅行者用の翻訳装置は、オフラインで、すなわち、インターネットへの接続およびオンラインサーバーへのアクセスによって提供される資源なしで、十分に機能する必要がある。
モバイルカメラ装置用のオフラインOCRアプリケーションは、プログラムコードのサイズに関してサイズ制限がある。画像処理速度およびオフラインのOCRアルゴリズムにも制限がある。モバイルカメラ装置内のプロセッサのタイプおよびメモリ資源における制限がある。オフラインのモバイル翻訳装置は、翻訳精度および再現性の欠如にも悩まされる。一般に、モバイル翻訳装置は、翻訳する外国語テキストの単一の画像フレームを捕捉するために使用される。OCRは、外国語テキストの捕捉された画像フレームに関して実行されて、その外国語テキストを、旅行者によって読むことができる言語に翻訳する。しかし、スマートフォンなどのハンドヘルドモバイルカメラ装置を使用した外国語テキストの画像捕捉中に、カメラ移動、不十分なテキスト画像のフォーカス、および不適切な外国語テキストの照明を含む画像捕捉の問題がある。OCRは、正確で安定した外国語テキストの翻訳のために、明瞭に区別できるテキスト画像を必要とするため、不明瞭なテキスト画像がOCRソフトウェアの判断を誤らせ、その結果、不完全な言語翻訳を生じるであろう。従って、スマートフォンなどのモバイルカメラ装置用のオフライン翻訳アプリは、しばしば、正確で安定した翻訳を実行しないことが知られている。翻訳は、変動するか、揺らぐか、または全く意味をなさない可能性さえある。
このような理由で、翻訳において改善された速度、精度、および意味をもたらすために、モバイルカメラ装置のための現在の翻訳技術に関連したこられの問題に対する解決策の重要な必要性がある。外国でのより良い旅行経験を可能にするために、リアルタイムで、言語学的文法に基づく翻訳に対する必要性がある。必要とされるものは、インターネット接続を必要とすることなく、資源に制約のあるモバイル機器上で、外国語テキストの迅速で意味のある翻訳をリアルタイムで行うための方法、システムおよび装置である。
従って、既存の解決策の欠点を解決するために、リアルタイムで正確に、外国語を迅速で正確に翻訳するための方法を提供することは、最高水準の技術における進歩であろう。旅行者に意味のある情報を自動的に提供するために、インターネット接続を必要とすることなく、外国語をリアルタイムで翻訳できる、モバイル機器でのこの翻訳方法を提供することも、最高水準の技術における進歩であろう。かかる翻訳が、費用効率が高く、翻訳者もしくは辞書、またはテキストのモバイル機器への手入力を必要としないことは、さらに進歩であろう。本発明の様々な実施形態が開発されたのは、こういう背景においてである。
本発明の実施形態は、モバイルカメラ装置を使用して、第1の言語の1つ以上の語を第2の言語の1つ以上の語に翻訳するための方法およびシステムを含む。
それに応じて、一実施形態によれば、本発明は、モバイルカメラ装置を使用して、第1の言語から第2の言語に翻訳するための方法であり、本方法は:(a)翻訳する必要のある第1の言語の1つ以上の語のビデオ画像を表示するためにモバイルカメラ装置を位置付けて、モバイルカメラ装置が、第1の言語の1つ以上の語のビデオフィードのフレームを翻訳のために捕捉できるようにすること;(b)ビデオフィードのフレームを画像処理のために画像処理境界ボックスの内部に適合するように切り取ること;(c)ビデオフィードの切り取られたフレームをメモリ装置に格納すること;(d)画像処理境界ボックス内のビデオフィードの切り取られたフレームを前処理すること;(e)画像処理境界ボックス内のビデオフィードの前処理されたフレームに関して文字セグメント認識を実行すること;(f)画像処理境界ボックス内のビデオフィードの文字セグメント認識されたフレームに関して認識フィードバックを用いて水平マージ(horizontal merging)を実行すること;(g)画像処理境界ボックス内のビデオフィードの水平マージされた文字セグメント認識済みフレームに関して二値またはグレースケール文字認識を実行すること;(h)第1の言語の1つ以上の語の第2の言語の1つ以上の語への翻訳を生成するために画像処理境界ボックス内のビデオフィードの文字認識されたフレームを処理すること;(i)第2の言語の1つ以上の翻訳された語を、言語翻訳ビデオ画像の現在のフレームとしてメモリ装置内の位置に格納すること;(j)画像処理境界ボックスが、言語翻訳ビデオ画像の現在のフレームおよび以前のフレームについて、同じ第1の言語のテキスト文字上に継続してあることを確認すること;(k)言語翻訳ビデオ画像の現在のフレーム内の情報品質を、言語翻訳ビデオ画像の以前のフレーム内の情報品質と比較すること(言語翻訳ビデオ画像の現在のフレームと言語翻訳ビデオ画像の以前のフレームの両方がメモリ装置内に保存されている);(l)メモリ装置内のストレージから削除すべき、言語翻訳ビデオ画像の1つ以上の低品質のフレームを選択すること;および(m)第2の言語の1つ以上の語の言語翻訳ビデオ画像の1つ以上のより高品質のフレームを表示し、同時に、翻訳されている第1の言語の1つ以上の語のビデオ画像も表示するために、モバイルカメラ装置を使用すること;の各ステップを含む。
本発明の別の実施形態は、第2の言語の1つ以上の語の言語翻訳ビデオ画像の1つ以上のより高品質のフレームをリアルタイム拡張現実で表示するための方法も含む。
本発明の別の実施形態は、中国語、韓国語、日本語、ベトナム語、クメール語、ラオ語、タイ語、英語、フランス語、スペイン語、ドイツ語、イタリア語、ポルトガル語、ロシア語、ヒンディー語、ギリシャ語、ヘブライ語、およびアラビア語から成るグループから選択された第1の言語を翻訳するための方法も含む。いくつかの実施形態では、プロセスは、ユーザーが1つを選択する必要なく、どの言語がビデオフィード内に存在しているかを自動検出することができる。
本発明の別の実施形態は、第1の言語を第2の言語に翻訳する前に、第1の言語の方言を第1の言語のさらに少ない数の方言に変換するための変換テーブルを使用するための方法も含む。
本発明の別の実施形態は、第1の言語を第2の言語に翻訳する前に、全ての繁体字中国語テキスト文字を簡体字中国語テキスト文字に変換するために変換テーブルを使用するための方法も含む。
本発明の別の実施形態は、中国語、韓国語、日本語、ベトナム語、クメール語、ラオ語、タイ語、英語、フランス語、スペイン語、ドイツ語、イタリア語、ポルトガル語、ロシア語、ヒンディー語、ギリシャ語、ヘブライ語、およびアラビア語から成るグループから選択された第2の言語への翻訳を得るための方法も含む。
本発明の別の実施形態は、第1の言語のビデオ画像を表示するモバイルカメラ装置上の境界ボックスのサイズを変更することにより、第2の言語への翻訳のために、第1の言語の単一行または第1の言語の複数行を選択するための方法も含む。
本発明の別の実施形態は、モバイルカメラ装置が移動すると、翻訳を再計算することなく、画面上の第2の言語の翻訳を自動的に移動させるための方法も含む。
本発明の別の実施形態は、表示されている言語翻訳を変更することなく、モバイルカメラ装置の移動を可能にするために、モバイルカメラ装置上に表示されている言語翻訳を一時停止することも含む。
本発明の別の実施形態は、第1の言語および第1の言語の第2の言語への翻訳を含む、一時停止された言語翻訳を、後で再検討するためにメモリ装置に格納することも含む。
本発明の別の実施形態は、言語翻訳ビデオ画像の現在のフレーム内の情報品質を、言語翻訳ビデオ画像の以前のフレーム内の情報品質と比較するための方法も含み、言語翻訳ビデオ画像の情報品質は、第1の言語の文字列がいかにうまく翻訳されるかによって判断できる。
本発明の別の実施形態は、画像処理境界ボックスが、言語翻訳ビデオ画像の現在のフレームおよび以前のフレームについて、同じ第1の言語のテキスト文字上に継続してあることを確認するための方法も含み、本方法は:(a)現在の言語テキスト翻訳画像文字列内および以前の言語翻訳画像文字列内の、類似した言語テキスト文字数をカウントすること;ならびに(b)こられの類似した言語テキスト文字のどれくらいの割合が、現在および以前の言語翻訳画像文字列内で重複しているかを計算すること(その割合が高ければ、処理境界ボックスが、現在および以前の言語翻訳テキスト画像について、同じ言語テキスト上に留まっている度合いが大きい);の各ステップを含む。
本発明の別の実施形態は、翻訳されている第1の言語の1つ以上の語の発音を表示するための方法も含む。
本発明の別の実施形態は、モバイルカメラ装置上で外国語を翻訳するためのコンピュータシステムであって、本システムは:第1の言語の1つ以上の語のビデオ画像を、第1の言語テキストの翻訳のために捕捉するためのモバイルカメラ;プログラムコード;プログラムコードを処理するためのプロセッサ;プログラムコードを格納するための、プロセッサに接続された1つ以上のメモリを含み、そのプログラムコードは、プロセッサによって実行される際に、プロセッサにプロセスを実行させ、プロセスは:(a)翻訳する必要のある第1の言語の1つ以上の語のビデオ画像を表示するためにモバイルカメラ装置を位置付けて、モバイルカメラ装置が、第1の言語の1つ以上の語のビデオフィードのフレームを翻訳のために捕捉できるようにすること;(b)ビデオフィードのフレームを、画像処理のために画像処理境界ボックスの内部に適合するように切り取ること;(c)ビデオフィードの切り取られたフレームをメモリ装置に格納すること;(d)画像処理境界ボックス内のビデオフィードの切り取られたフレームを前処理すること;(e)画像処理境界ボックス内のビデオフィードの前処理されたフレームに関して文字セグメント認識を実行すること;(f)画像処理境界ボックス内のビデオフィードの文字セグメント認識されたフレームに関して認識フィードバックを用いて水平マージを実行すること;(g)画像処理境界ボックス内のビデオフィードの水平マージされた文字セグメント認識済みフレームに関して二値またはグレースケール文字認識を実行すること;(h)第1の言語の1つ以上の語の第2の言語の1つ以上の語への翻訳を生成するために画像処理境界ボックス内のビデオフィードの文字認識されたフレームを処理すること;(i)第2の言語の1つ以上の翻訳された語を、言語翻訳ビデオ画像の現在のフレームとしてメモリ装置内の位置に格納すること;(j)画像処理境界ボックスが、言語翻訳ビデオ画像の現在のフレームおよび以前のフレームについて、同じ第1の言語テキスト文字上に継続してあることを確認すること;(k)言語翻訳ビデオ画像の現在のフレーム内の情報品質を、言語翻訳ビデオ画像の以前のフレーム内の情報品質と比較すること(言語翻訳ビデオ画像の現在のフレームと言語翻訳ビデオ画像の以前のフレームの両方がメモリ装置内に保存されている);(l)メモリ装置内のストレージから削除すべき、言語翻訳ビデオ画像の1つ以上の低品質のフレームを選択すること;および(m)第2の言語の1つ以上の語の言語翻訳ビデオ画像の1つ以上のより高品質のフレームを表示し、同時に、翻訳されている第1の言語の1つ以上の語のビデオ画像も表示するために、モバイルカメラ装置を使用すること;の各ステップを含む。
本発明は、実行され得る本発明の他の方法を含む、関連したシステム実施形態も含む。かかるシステムは、モバイルカメラ装置に内蔵されたコンピュータシステムとして実装され得る。本発明の様々な実施形態の他の特徴および利点は、添付の図に例示されるように、本発明の実施形態の以下のさらに具体的な記述からさらに明らかであろう。
前述の概要は、本発明の好ましい実施形態の以下の詳細な記述に加えて、添付の図と併せて読むと、より良く理解されるであろう。本発明の例示を目的として、現在好ましい実施形態が図に示されている。しかし、本発明は、示されている詳細な構成および手段に制限されないことが理解されるべきである。
本発明の一実施形態に従って、言語の単一行を翻訳するためのプロセスの流れ図のプロセスステップ100〜120を示す。 本発明の一実施形態に従って、言語の単一行を翻訳するための図1Aのプロセスの流れ図のプロセスステップ122〜136を示す。 本発明の一実施形態に従って、ビデオフィードの切り取られたフレームを前処理するためのプロセスの流れ図を示す。 本発明の一実施形態に従って、文字セグメント認識を実行するためのプロセスの流れ図を示す。 本発明の一実施形態に従って、水平マージされた文字セグメント認識済みフレームに関して二値文字認識を実行するためのプロセスの流れ図を示す。 本発明の一実施形態に従って、言語の複数行を翻訳するためのプロセスの流れ図のプロセスステップ302〜318を示す。 本発明の一実施形態に従って、言語の複数行を翻訳するための図3Aからのプロセスの流れ図のプロセスステップ352〜382を示す。 本発明の一実施形態に従い、図3Bのブロック368および376におけるサブルーチンとしての、画像処理境界ボックス内のビデオフィードの切り取られたフレームの複数行認識のためのプロセスの流れ図を示す。 本発明の一実施形態に従った、明るい背景と暗いテキストをもつ二値画像の複数行認識のため、および暗い背景と明るいテキストをもつ二値画像の複数行認識のためのプロセスの流れ図を示す。 本発明の一実施形態に従い、明るい背景と暗いテキストをもつ二値画像に関してサブルーチンとしての複数行認識のため、および暗い背景と明るいテキストをもつ二値画像に関する認識のための、代替プロセスの流れ図を示す。 本発明の一実施形態に従い、重複する文字のある二値画像タイプに関して認識の後、複数行テキスト取消しを実行するためのプロセスの流れ図のプロセスステップ602〜612を示す。 本発明の一実施形態に従い、重複する文字のある二値画像タイプに関して認識の後、テキスト取消しを実行するための図6Aのプロセスの流れ図のプロセスステップ652〜660を示す。 本発明の一実施形態に従い、各二値閾値タイプに対して複数行テキストグループ化を実行するためのプロセスの流れ図のプロセスステップ702〜722を示す。 本発明の一実施形態に従い、各二値閾値タイプに対して複数行テキストグループ化を実行するための図7Aのプロセスの流れ図のプロセスステップ752〜784を示す。 本発明の一実施形態に従い、複数行言語翻訳および単一行言語翻訳を必要とする中国語文字で書かれた例示的な中国レストランのメニューを示す。 本発明の一実施形態に従い、境界ボックスの下部にあるタブアイコンを指先で触れて、指先を下方にスライドすることにより、境界ボックスのサイズを拡大するために使用されているモバイルカメラ装置のユーザーインタフェースの一例を示す。 本発明の一実施形態に従い、図9で示された動作の結果の一例を示し、境界ボックスのサイズが、図9と比較して図10で拡大されている。 本発明の一実施形態に従い、境界ボックス内に第1の言語の中国語文字のアルゴリズム生成された文字を表示し、境界ボックスの下に、第1の言語の中国語文字の第2の言語への翻訳を表示している、モバイルカメラ装置のユーザーインタフェースの一例を示す。 本発明の一実施形態に従い、境界ボックスの内部に、中国語文字(フェードされた)の翻訳の複数行を英語の翻訳(太字)とともに表示するモバイルカメラ装置のユーザーインタフェースの一例を示す。 ユーザーが本発明の一実施形態を実施する場合のように、第1の言語の中国語文字がより容易に見られる、図12の一部を示す。 本発明の別の実施形態に従って、第1の言語の中国語文字の発音を表示している、図12の一部を示す。 スマートフォンおよびウェアラブルコンピュータを含む、本発明の実施形態を利用し得る、様々な代替エンドユーザー装置を示す。
本発明は、一実施形態では、第1の言語の第2の言語への翻訳をリアルタイムで提供するためにモバイルカメラ装置を使用するための方法およびシステムである。本発明は、一実施形態では、スマートフォン上で動作するアプリケーションであり、ある言語で印刷されたオブジェクトテキストに焦点を合わせるためにスマートフォンのカメラ要素およびソフトウェアを使用し、そのテキストが次いで、スマートフォンのディスプレイ内で見られて、ある言語のオブジェクトテキストを別の言語に翻訳し得る。翻訳されたテキストが、同じディスプレイ内で、オブジェクトテキストの表示に隣接して、ユーザーに対して表示される。一実施態様では、翻訳されたテキストは、表示されたオブジェクトテキストの上に浮くように見える。代替実施形態では、本発明は、スマートフォン以外のデジタル装置上で動作し得る。例えば、いくつかの実施形態は、iPad、ラップトップコンピュータ、および他のコンピュータ制御の器具に適合し得る。一実施形態では、デジタル装置は、コンピュータ制御の眼鏡であり得、眼鏡の着用者は、ある言語でテキストを見ながら、元のテキストに近接して重ねられた別の言語でテキストを見得る。いくつかの実施形態では、機能は、デジタル装置に完全にローカルであり得、装置は、本発明の実施形態をオフラインで実施するように動作し得る。他の実施形態では、本発明を実施可能なデジタル装置は、オンラインサーバーとのデータ接続をオープンし得、何らかの機能がオンラインサーバーにおけるソフトウェアおよびデータによって提供され得る。
第1の言語の1つ以上の行が翻訳のために選択されている場合、本発明の処理システムは、選択された第1の言語のテキストに焦点を合わせる。これは、ユーザーが、翻訳される第1の言語テキストのモバイルカメラのターゲットボックスビューをさらに容易に位置付けるのを可能にする。いくつかの実施形態では、ターゲットボックス内の第1の言語テキストの焦点合わせは自動プロセスである。モバイルカメラ装置の位置をタップすることを含む、追加の焦点合わせ方法が随意にあり得る。いくつかの実施形態では、第1の言語のテキストを照らすために光源が使用されて、その焦点合わせ、処理、および翻訳を支援する。いくつかの実施形態では、選択されたテキストをターゲットボックスに適合するように縮小できる、ディスプレイ上での縮小のためのズーム制御がある。ズームは、ターゲットボックス内のテキストを、テキスト処理に必要な最小平均サイズまで拡大して、翻訳につなげるためにも使用され得る。一旦、第1の言語のテキストがターゲットボックス内に置かれると、テキストは、処理および第2の言語テキストへの翻訳のために利用可能にされる。モバイルカメラ装置の境界ボックス内に表示される第1の言語の単語が、第2の言語に翻訳される単語である。
いくつかの実施形態では、ターゲットボックスは、第1の言語テキストの単一行を含むようにサイズ調整される。この場合、第2の言語テキストへの翻訳は、ターゲットボックスの外側に表示される。別の実施形態では、ユーザーインタフェースは、第1の言語テキストの発音を表示する。境界ボックス内の第1の言語の画像が暗すぎる場合、モバイルカメラ装置上のライト、または別の照明源が、より良い翻訳を実行するために使用できる。
本発明の方法およびシステムは、正確で、変動の少ない翻訳を作成する高レベルのアルゴリズム処理を有する。本発明の実施において含まれ得る第1および第2の言語の予期される例は、中国語、韓国語、日本語、ベトナム語、クメール語、ラオ語、タイ語、英語、フランス語、スペイン語、ドイツ語、イタリア語、ポルトガル語、ロシア語、ヒンディー語、ギリシャ語、ヘブライ語、およびアラビア語から成るグループから選択された言語を含む。本発明の実施において含まれる好ましい言語は、アジアの言語、とりわけ中国語、韓国語、および日本語を翻訳することを含む。本発明の特に好ましい実施は、中国語を英語に翻訳するための方法およびシステムを伴う。ここにリストされていない他の人間の言語も、当業者によって認識され得るように、本発明の範囲内であると考えられる。
本発明のいくつかの実施形態に対して、翻訳処理のためのコンテキスト情報が、翻訳処理速度に影響を及ぼさない程度まで、使用される。例えば、食べ物の翻訳の場合には、食べ物に関する用語が、翻訳において間違った連結を防ぐために、近くの接頭辞または接尾辞を一緒にまとめることができるように要素を抽出することにより、まとめられ得る。本発明のアルゴリズムは、いくつかの実施形態では、文字列が食料品と判断される場合、食べ物の用語ではない単一文字の翻訳を回避する。かかるプログラミングは、OCR結果の特質により、単一文字が間違っているかも知れない可能性を制御する。複数文字の単語は、間違っている可能性がはるかに低い。第1の言語における1つの単語は、その単語が使用されるコンテキストのため、とりわけ、その単語が第1の言語において複数の意味を有する場合、または第2の言語への翻訳の流動性のために、第2の言語において複数の翻訳を有し得る。1つの好ましい実施形態では、本発明プロセスは、食べ物の翻訳に重点を置き、次いで、標識および旅行翻訳に重点を置く。
以下の記述では、説明のために、多数の具体的詳細が、本発明の完全な理解を提供するために記載されている。しかし、当業者には、本発明はこれらの具体的詳細なしで実施できることが明らかであろう。他の場合には、本発明を曖昧にするのを避けるために、構造、装置、活動、および方法が、略図、使用事例、および/またはフロー図を使用して示されている。
本明細書内での「1つの実施形態」または「一実施形態」への参照は、実施形態に関連して記述される特定の特徴、構造、または特性が、本発明の少なくとも1つの実施形態内に含まれることを意味する。本明細書の様々な場所で使用される句「一実施形態では」は、必ずしも、全て同じ実施形態を参照しているとは限らず、また、他の実施形態と相互に排他的な別個または代替実施形態でもない。その上、いくつかの実施形態によって示され得るが、他によっては示されない、様々な特徴が記述される。同様に、いくつかの実施形態に対する要件であり得るが、他の実施形態に対する要件ではない、様々な要件が記述される。
以下の記述は、例示を目的として多数の詳細を含むが、当業者は、提案された詳細に対する多数の変形および/または代替は、本発明の範囲内であることを理解するであろう。同様に、本発明の特徴の多くは、相互に関して、または相互に組み合わせて、説明されるが、当業者は、これらの特徴の多くは、他の特徴とは関係なく提供できることを理解するであろう。それに応じて、本発明の本記述は、本発明に対して、いかなる一般性も失うことなく、また本発明に制限を課すことなく、記載される。
定義
本明細書では、用語「第1の言語」は、本発明の一実施形態を使用して、モバイルカメラ装置によって翻訳される言語を指す。翻訳される第1の言語の単語または複数の単語は、翻訳が生じ得る前に、モバイルカメラ装置のターゲットボックス内に焦点が合って現れる必要がある。
本明細書では、用語「第2の言語」は、本発明の一実施形態を使用して、翻訳がモバイルカメラ装置によって表示される言語を意味する。第2の言語での翻訳は、拡張現実画像としてモバイルカメラ装置上に表示される。
本明細書では、用語「翻訳」は、言語の翻訳、より具体的には、第1の言語テキストから第2の言語テキストへの翻訳を伴う、言語テキストの翻訳を指す。このコンテキストで、用語「翻訳」は、第1の言語の単語テキストを、同じ意味を有する第2の言語の単語テキストにするためのプロセスを意味する。前述したように、第1の言語の単語、または句が、レストランメニュー、本、列車の時刻表、道路標識、店舗の看板、および同様のものの印刷された単語を含む、様々な場所および形態で、本発明のユーザーの前に出現し得る。第2の言語のテキスト伝達が、図11〜図14に示すように、モバイルカメラ装置のディスプレイ上でユーザーによって読まれ得る。
本明細書では、「拡張現実」は、ウェアラブルコンピュータまたはスマートフォンなどのハンドヘルド装置の使用を通したコンピュータ介在現実(computer−mediated reality)を意味し、コンピュータは、人の現実認識に情報を追加するか、もしくは情報を差し引くか、または他の方法で人の現実認識を操作するために使用される。通常、介在されるのは、ユーザーによる環境の視覚認識である。これは、現実の世界とユーザーが認識するものとの間で視覚フィルタとして機能できる、スマートフォンなどの、ある種の電子装置の使用を通して行われる。ウェアラブルコンピュータの例は、GOOGLE GLASS(商標)および同様のものを含む。
本明細書では、用語「ターゲットボックス」は、モバイルカメラ装置のユーザーインタフェース上のビューファインダーボックスである。ターゲットボックスの高さは、図11にターゲットボックス1104で示すように、第1の言語のテキストの単一行のみを表示して翻訳するのを可能にするように設定できる。ターゲットボックスの高さは、図13にターゲットボックス1306で示すように、第1の言語のテキストの複数行を表示して翻訳するのを可能にするように拡張できる。本発明は、ターゲットボックス内に出現する第1の言語の単語を翻訳のために処理する。
本発明は、言語テキスト翻訳をリアルタイムで実行できる。本明細書では、「リアルタイム」は、リアルタイム、またはほぼリアルタイムで、を意味し、ユーザーは、著しい時間遅延なしで、翻訳を見ることができる。リアルタイムは、必ずしも、数学的または物理的な意味での即時を意味するのではなく、ユーザーの前に即座に現れるだけである。
本明細書では、「文字」は、字(letter)、複数の字、単語、複数の単語、文字(character)、複数の文字、文字セット、複数の文字セット、または言語テキストに関連する任意の他の用語として、視覚的に認識され得る、第1の言語テキストの従来型のテキスト特徴を意味する。
本明細書では、「ビデオフィード」は、ビデオ画像のフレームを意味する。
本明細書では、「モバイルカメラ装置」は、プロセッサ、メモリ装置、およびプログラムコード(アプリケーション)を用いてシステムとして、および本発明を使用するための方法を達成するために機能するカメラを有する携帯型ハードウェア装置を意味する。
本明細書では、「格納されたフレーム」は、ビデオカメラからの複数の捕捉された画像(すなわち、フレーム)のメモリ装置内に保存されたデジタル情報を意味する。
本明細書では、「グレースケール」は、各画素の値が、単一サンプルである、すなわち、光度情報のみを保持する、画像である、グレースケールまたはグレースケール二値画像を意味する。また、この種の画像は、白黒として知られており、最も弱い輝度の黒から最も強い輝度の白まで変動する、グレーの色調から構成されるとして知られている。
本明細書では、「カラースケール」は、コンピューティング装置上で使用され得る画像カラースケールを意味する。パーソナルコンピュータは、通常、24ビットの色深度を有することが知られているが、色深度は、装置の機能によって異なるであろう。
本明細書では、「翻訳エンジン」は、プログラムコードを格納するメモリ装置を備えたプロセッサを伴うシステムを意味し、プロセッサは、翻訳を実行するプログラムを実行するためのプログラムコードを実行する。
本明細書では、「連結成分分析(CCA)」は、画像をそのセグメントに分割するために、画像処理アプリケーションで使用される分析を意味する。画像は、連結された成分のセットから成るセグメントを有し、連結された成分は、全て黒または全て白のいずれかである画素フィールドを有する画像内の領域である。連結された成分では、画素フィールドは境界によって分離されていない。
本明細書では、「ノイズ除去」は、全て黒または全て白のいずれかである画素フィールドを含む、連結された成分と何の関係もないランダムな画素を除去することを意味する。このノイズ除去は、連結成分分析に続いて起こり、連結成分分析は、全て黒または全て白のいずれかである画素フィールドを識別する。
本明細書では、「現在のフレーム」は、2つの処理されたビデオ画像フレームのうちの2番目であり、最も直前に翻訳されたビデオフレームである、処理されたビデオ画像フレームを意味する。
本明細書では、「以前のフレーム」は、2つの処理されたビデオ画像フレームのうちの1番目であり、処理されている現在のフレームとしてメモリ装置内に格納されたビデオフレームである、処理されたビデオ画像フレームを意味する。
本明細書では、「情報品質」は、翻訳される第1の言語テキスト内の単語数に関して、翻訳として第2の言語テキスト内に出現する単語の評価を指す。
本明細書では、「低品質フレーム」は、翻訳される第1の言語テキスト内の単語数に関して、翻訳として第2の言語テキスト内に出現する単語の低い評価を意味する。
本明細書では、「高品質フレーム」は、翻訳される第1の言語テキスト内の単語数に関して、翻訳として第2の言語テキスト内に出現する単語の高い評価を意味する。
本明細書では、「画像文字列」は、本発明のプロセスを通じて、第1の言語テキストのビデオフレーム画像の一節を意味する。
本明細書では、「空白文字列」は、第2の言語テキスト翻訳をもたらさない、本発明のアルゴリズムを通じて、第1の言語テキストのビデオフレーム画像の一節を意味する。
本明細書では、「水平方向に重複する」は、2つの別個のテキストプレカーソル(text precursor)が、ビデオ画像フレームの中心水平線に関して、異なる垂直座標を有するが、共通の水平座標を有する部分を有することを意味する。
本明細書では、「垂直方向にマージする」は、水平方向に重複しているテキストプレカーソルを結合することを意味する。
本明細書では、「翻訳テキスト」は、1つの単語、複数の単語、1つの言語文字、複数の言語文字、1つの文字セット、または複数の文字セットとして存在する第2の言語のコンテンツを指す。第2の言語のコンテンツは、モバイルカメラ装置上に拡張現実画像テキストとして表示される。
本明細書では、「繁体字中国語文字」は、より多くの字画数を含み得、ほとんどの外国人が簡体字中国語と区別できない、中国語文字の一形式を意味する。
本明細書では、「簡体字中国語文字」は、翻訳のプロセスステップで、本発明によって使用される中国語文字の形式を指す。本発明は、繁体字中国語文字であり得る第1の言語テキストから認識された全ての中国語文字をそれらの対応する簡体字中国語文字に変換して、翻訳のステップ中にソートする必要のある中国語文字の数を少なくとも半分に減らす。
本明細書では、「変形変換」は、翻訳を行う前に、全ての中国語文字を簡体字中国語文字に変換することを意味する。本発明のために、第1の言語の第2の言語への翻訳中に検索される必要のあり得る辞書のサイズを半分にするために変換テーブルが作成され、その結果、翻訳速度が2倍になるであろう。また、繁体字中国語文字の簡体字中国語文字への変換、次いで簡体字中国語文字の第2の言語テキストへの変換は、両方の形式の中国語を直接第2の言語テキストに変換するよりも正確であり得る。
本明細書では、「アスペクト比」は、高さと横幅との間の比を意味する。中国語文字はほぼ正方形であるので、中国語文字のアスペクト比は通常、1に近い。
本明細書では、「平均文字サイズ」は、テキスト文字の大部分が、第2の言語への翻訳前に有するサイズとして推定され得る。このサイズは、文字の寸法(高さおよび水平方向の長さ)、および面積(高さ×水平方向の長さ)に関して推定できる。
本明細書では、「正規化」は、画像処理の分野に関し、正規化は、同じクラスの画像の変形を削減するため、画像の形状を固定サイズに調整するために使用される。正規化プロセスは、同じ一定寸法を作成するのに役立ち得、そのため、異なる条件下の2つの画像が同じ特長を有する。
本明細書では、「特徴抽出」は、入力データを特徴のセットに変換することを意味する。これは、アルゴリズムに対する入力データが大きい場合に有用である。次いで、入力データは、削減された特徴の代表となるセットに変換されるであろう。特徴セットは、ビデオストリームの様々な特徴を検出して分離するために、関連情報を入力データから抽出して、本発明のアルゴリズム内で満足のいくように実行できる。
本明細書では、「次元縮退」は、分類の前に、特徴の数をさらに管理可能な数に減らすためのパターン認識処理を指す。
本明細書では、「クラスタリングでの分類」は、いくつかのタイプの凝縮型階層的クラスタリングを実行することを意味する。このプロセスは、クラスタのペアを見つけることにより機能して、経路が相互に類似したクラスのペアで終了するまで、クラスタの分類グラフ内の経路に従うことにより統合する。
本明細書では、「翻訳スコア」は、より多くの単語が翻訳されたことを意味する、より良い翻訳を表す数学関数を指す。
単一行翻訳実施形態の詳細な説明
図は本発明の実施形態のためのプロセス例を提供するのに過ぎない。アルゴリズム例は、第1の言語が中国語で、英語への翻訳である場合に有用な翻訳プロセスを対象とするが、本発明人は、任意の2言語間での両方向への翻訳を予期する。図1Aおよび図1Bは、本発明の一実施形態に従い、第1の言語の単一行を第2の言語に翻訳するために、ビデオモードで実行するアルゴリズムまたはプロセスの流れ図150を示す。図1Aで、プロセス150はステップ100から始まる。プロセス150はビデオモードで実行する。プロセスが終了するたびに、プロセスはトップに戻って、新しいフレームをビデオから捕捉して、再度プロセスを実行する。このプロセスは、認識された処理文字列(process string)を作成して、対応する翻訳がモバイルカメラ装置のディスプレイ画面上に現れる。ステップ102で、本発明のモバイルカメラ装置のディスプレイ上の画像に焦点が合っているかを判断するために、プロセスによって判断が実行される。プロセスは、ユーザー装置上のカメラがオートフォーカス機能を操作するのを可能にする。カメラが焦点を合わせている間、プロセスは、カメラが焦点合わせを終了するまで、いかなる処理も行うことなく、ステップ102を繰り返してチェックする。次いで、プロセスはステップ104に進んで、処理を行う。カメラは、時々、既に焦点が合っていると考え得るため、焦点を合わせようとすることなく、ぼやけた画像を処理する。その結果、プロセスは、ユーザーがそれに再度焦点を合わせるようにさせるための、タップしてフォーカス(tap−to−focus)機能を提供する。ステップ104で、プロセスは、ユーザーが、翻訳するためにテキストの単一行またはテキストの複数行を選択しているかを判断する。ユーザーが複数行を選択している場合には、プロセスはステップ106に進み、そこで、図3で説明する複数行翻訳プロセスが呼ばれ;そうでない場合、プロセスは単一行翻訳に進む。
ステップ108で、プロセスは、ユーザーによって選択された画像処理境界ボックスから画像を切り取る。画像を切り取ることは、文字を強調するために、境界ボックス内の第1の言語文字の画像の外側部分を取り除くことを指す。ステップ110で、図2Aに関して以下で説明するように、文字検出のための前処理が生じる。ステップ112で、前処理によって、テキスト文字を示唆する何らかの予備的なテキスト情報があることを示し得るテキストプレカーソルが明らかにされているか否かの判断が行われる。ステップ110でテキストプレカーソルに対する指標がない場合、プロセスは、ステップ114で、黒いボックスを示して、リセットするか、または、同様のものを示して、開始ステップ100に戻る。
テキストプレカーソルがステップ112で識別されている場合、ステップ116のプロセスは、以下の図2Bでさらに詳細に説明するように、文字セグメント認識を実行する。ステップ118で、プロセスは、以前のステップで認識された文字が小さすぎるかを判断する。認識された文字が小さすぎるとプロセスが判断する場合、プロセスは、ステップ120に進み、そこで、「拡大するか、または近づいてください」または同様のメッセージをユーザーに表示して、プロセスは開始ステップ100に戻る。ステップ118で、認識された文字が十分に大きいと判断される場合には、プロセスは、図1Bのステップ122に進む。ステップ122で、プロセスは、非中国語文字を除去してステップ124に進み、そこで、処理文字列内に翻訳の対象となる言語文字が見つからないことを意味する、処理文字列が空白であるかに関して判断が行われて、プロセスはステップ126に進み、そこで、「画像が不明瞭」、「フラッシュを使用してください」、または同様のメッセージがユーザーに対して表示される。プロセスは、次いで、ステップ126から、プロセス150の初めの開始ステップ100に戻る。
ステップ124の判断で、文字が見つかっていることを示している場合、プロセスはステップ130に進み、そこで、プロセスは変形変換を実行する。ステップ130での変形変換は、繁体字中国語文字を簡体字中国語文字に変換することにより、辞書内の用語数を減らす。全ての中国語文字を簡体字中国語文字に変換することは、時々、翻訳すべき中国語テキストが簡体字および繁体字中国語文字の組合せであるために実行される。繁体字を簡体字に変換することは、簡体字を繁体字に変換することよりもずっと簡単である。ほとんどの外国人は、簡体字と繁体字中国語文字を区別できない。ステップ130のプロセスは、ステップ132の文字の翻訳処理でスキャンする必要のある中国語文字辞書のサイズを減らす。処理およびメモリ容量が、いくつかのモバイルカメラ装置に対する処理速度制限であり得るので、小さい中英辞書は、大幅に処理量を減らし、従って、モバイルカメラ装置内の単一行アルゴリズムの処理速度を向上させる。ステップ132で、プロセスは、簡体字中国語文字を英単語に翻訳するために、光学式文字認識(OCR)プロセスからの結果を使用する。ステップ132の翻訳プロセスが完了すると、プロセスはステップ134に進む。
ステップ134で、プロセスは、画像処理境界ボックスが、以前の文字列と比べて現在の文字列内の同じテキスト上に留まっているかをチェックする。[ステップ134のプロセスは:a)現在の文字列内の文字特徴の類似点を、重複について、以前の処理文字列内の文字特徴と比較すること、またはb)現在の画像および以前の画像の安定性をチェックするためのトラッキング方法、のいずれかのプロセスによってこれをチェックする]。ステップ134のプロセスは、境界ボックスが同じテキスト上に留まっていることを確認するために、一致した文字数が総文字数に対して十分に多いかを計算する。プロセスは134からステップ136に進み、そこで、現在の翻訳が以前の翻訳と比較される。より良い翻訳が保存されて、劣った翻訳がステップ136でプロセスによって削除される。流れ図150が処理文字列を終えるたびに、プロセスは、流れ図150の初めに戻って、新しいフレームをビデオから捕捉する。このプロセスは、認識された文字列を生成して、対応する翻訳が、モバイルカメラ装置のディスプレイ上に示される。
図2Aは、ステップ202から始まる文字認識のための前処理に対する流れ図を示す。ステップ202で、切り取られたグレースケール画像がプロセスステップ110から入力されている。ステップ202はステップ206に進み、そこで、切り取られたグレースケール画像が固定サイズにアップサンプルされ、次いで、プロセスはステップ208に進む。
ステップ208で、プロセスは、グレースケール画像の二値化における閾値タイプの判断を実行する。テキストおよび背景の輝度値が、閾値タイプが明るいプレカーソル文字をもつ暗い背景か、または暗いプレカーソル文字をもつ明るい背景かを判断するために利用される。閾値タイプを判断するために、プロセスは、各行内の画素の輝度値を判断する。プロセスは、次いで、輝度値の線形結合を比較して、閾値タイプを判断する。二値化における閾値タイプを判断した後、ステップ208のプロセスは、次いで、適応閾値二値化処理に進んで、画像の領域上の照明状態における変化、例えば、強い照明または影の結果として生じるもの、を制御するために、テキストおよび背景の輝度値を比較する。二値化および二値化プロセスおける閾値タイプを判断した後、プロセスはステップ210に進む。
図2Aでの処理およびそれ以後に対して、本発明の代替実施形態として、ステップ110からの切り取られた画像の処理が、グレースケールではなくカラースケールであり得る。モバイルカメラ装置のユーザーインタフェース上の英語に翻訳された単語が、赤、オレンジ、黄、緑、青、ピンク、紫、および任意の他の色の組合せから成るグループから選択されたフォント色で提示され得る。
ステップ210で、処理文字列の二値化画像をそのセグメントに分割するために連結成分分析(CCA)が実行される。連結された成分は、全て黒または全て白のいずれかの画素のフィールドを有する。プロセスが連結成分分析(CCA)を完了した後、プロセスはステップ212に進む。ステップ212で、プロセスは、連結成分のサイズおよび形状情報を検査することにより、画素の個々の小さいクラスタを除去することにより二値化された連結成分をノイズ除去し、次いで、プロセスは、ステップ214に進み、そこで流れ図200のプロセスが終了して処理文字列を図1Aのステップ112に返す。
図2Bは、流れ図200の続きであり、図2Bのプロセスは、ステップ216で文字セグメント認識のプロセスを開始する。プロセスはステップ218に進み、そこで、テキストプレカーソル情報がメモリ装置に格納される。ステップ218から、プロセスは、次いで、ステップ220に進んで、水平方向に重複しているテキストプレカーソルを識別して結合することにより、垂直マージ(vertical merging)を実行する。水平方向に重複しているテキストプレカーソルは、画像フレームの中心水平線に関して、異なる垂直座標をもつ部分を有するが、共通の水平座標を共有する、別個のテキストプレカーソルである。この場合、重複している水平座標を有していない、近接しているが、別個のテキストプレカーソルは、この段階では同じ中国語テキスト文字の副次成分として処理されないであろう。テキストプレカーソルの垂直マージのプロセスの後、プロセスはステップ222に進んで、単一行内で処理されているテキストプレカーソルの明らかな単一行に対する外れ値であるアーチファクトのテキストプレカーソルを除外する。
プロセスステップ222で、処理は、単一行の中国語テキストの3つの共通特性によって誘導される。第1に、中国語テキスト文字は、文字内の全てのセグメント部分の外側縁において正方形のようなアスペクト比を有する。第2に、中国語テキスト文字は、同様の垂直方向の高さを有する。第3に、中国語文字の単一行は、常に、文字の真っ直ぐな単一行であり、そのため、テキストの単一行内に別の中国語文字よりも高い中国語文字はない。従って、単一行としてのステップ222のプロセスは、中国語テキストの単一行を、中心水平線から延びる領域の外側のテキストプレカーソルについて、任意のデータを削除するための処理で処理し、この領域では、あらゆる行が、現在の画像文字列内の少なくとも1つのテキストプレカーソルに重なる。その結果、プロセスが、ステップ222で、画像フレームの中心水平線から垂直方向に延びる領域の外側のアーチファクトのテキストプレカーソルを除去した後、プロセスはステップ224に進む。ステップ224で、プロセスは、テキスト文字を左から右への順番でソートし、次いで、プロセスはステップ226に進み、そこで、中国語文字は全体として四角い箱の形状を有すると仮定して、文字サイズが検査される。ステップ226から、プロセスは、判断ステップ228に進み、そこで、プロセスは、平均文字サイズが小さいかを判断する。プロセスがステップ228で、平均文字サイズが小さすぎると判断すると、プロセスは文字セグメント認識を終了して、図1Aの流れ図150のステップ120に戻る。プロセスがステップ228で、平均文字サイズが小さすぎないと判断する場合には、プロセスはステップ230に進む。
ステップ230で、プロセスは、ステップ228からの二値化された垂直マージ済みテキストプレカーソルに関する文字認識フィードバックを使用した水平マージでの処理を実行する。水平マージプロセスは、単一行内の左端のテキストプレカーソルについて始まる。プロセスは、テキストプレカーソル全体でのテキストの組合せについて境界ボックス形状をチェックして、それらの各々に対する形状スコアを取得する。画像処理境界ボックスが言語プロファイルに適合するアスペクト比を有する場合、組合せの距離スコアを判断するために、組合せが、図2C(以下で説明する)に示される文字認識フィードバックプロセス内で処理される。プロセスは、最高の形状スコアおよび距離スコアを有するテキストプレカーソルの最善の組合せを選択して、この「オブジェクト」を除外し、次いで、単一行の画像文字列内で右端のオブジェクトがなくなるまで、最も近い右側のオブジェクトについて文字認識フィードバック処理を用いて水平マージを繰り返す。統合された形状および距離スコアのいずれも文字であると十分に確信しない場合、1つのオブジェクトだけが除外される。多くの中国語文字は、いくつかの他の文字から成り、そのため、文字自体およびその副次成分の距離スコアが類似している場合、形状情報を使用すると、処理が最も可能性の高い文字を見つけるのに役立つ。これは、文字列内の文字がともに近接していて、分割するのが困難な場合の問題も解決する。所与の文字列を分割するためのこの「欲張り」アルゴリズムは、大域的最適解を計算する必要なく、モバイル機器上での計算要件を減らす。ステップ230のプロセスが完了すると、プロセスはステップ232に進み、そこで、プロセスは、図1B内のステップ122に戻るように指示される。
図2Cは、水平マージ処理されたテキストプレカーソルの結合の適合性をチェックするサブルーチンとして機能する文字認識フィードバックプロセスを示し、テキストプレカーソルの結合は、図2Bのステップ230から供給されている。文字認識プロセスのための図2Bのステップ230からのテキストプレカーソルの結合の処理が、図2Cに示すステップ234で始まる。ステップ234の二値文字認識プロセスはステップ238に進む。ステップ238で、処理は、処理文字列の二値画像上で関心領域(ROI)を判断する。ステップ238での二値画像上の関心領域(ROI)は、連結成分の集合を含む。ステップ238のプロセスは、ステップ240に進み、そこでは、画像正規化を引き起こすための処理がある。二値画像の正規化は、同じクラスの画像のばらつきを削減するために、ROI内の画像の形状を固定サイズに正規化するプロセスである。ステップ240のプロセスが完了すると、プロセスは242に進んで、特徴抽出処理を実行する。特徴抽出のプロセスは、入力データを特徴のセットに変換する。正規化された画像データである処理文字列の入力データは非常に大きい。従って、特徴抽出は、アルゴリズムの後続のプロセスステップにおいてデータのサイズを削減するために重要である。正規化された関心領域の特徴抽出を実行するための処理の後、文字認識プロセスはステップ244に進む。ステップ244で、プロセスは、次元縮退を実行する。次元縮退処理は、分類の前に、特徴の数をさらに管理可能な数に減らすために、ステップ244で使用される。次元縮退の後、プロセスは、削減された文字特徴のクラスタリング処理での分類のためにステップ246に進む。クラスタ処理での分類のプロセスは、クラスタの分類グラフ内の経路を、その経路が類似したクラスのペアで終了するまで、辿ることにより、マージする、クラスタのペアを見つける凝縮型階層的クラスタリングを引き起こす。ステップ246が完了すると、プロセスはプロセスステップ248に進み、ステップ248は、認識された二値文字データをもつ処理文字列に、図2Bのステップ230に戻るように指示する。
複数行翻訳実施形態の詳細な説明
本発明は、トラッキングおよびサブサンプリングされた画像処理を使用する、複数行テキスト翻訳プロセスを提供する。複数行テキスト認識処理は、フレームを処理するために、単一行テキスト認識処理よりも多くのコンピュータ使用を必要とする。リアルタイムのユーザーエクスペリエンスを提供するために、言語翻訳がテキスト上に拡張現実画像として重ね合わされ、トラッキング方法が、テキストの移動を検出するために使用される。トラッキングは、2つの目的を果たす:1つは、カメラが同じテキストに焦点を合わせているかどうかを確認する。画像文字処理は、2つの連続した動かない画像が捕捉される場合に限り行われる。トラッキングのもう1つの目的は、テキストの移動方向を取得して、テキスト位置がそれに応じて調整できるようにすることである。リアルタイムトラッキングのために、処理がトラッキングを行う前に、画像をサブサンプリングする。トラッキングは、xおよびy移動をもつベクトルを取得するために、現在のフレームおよび以前のフレームについて実行される。ユーザーは、通常、平坦な領域上のテキストに焦点を合わせるので、処理は、ベクトルが一貫性があって小さいかどうかを確認することにより、ユーザーがスマートフォンをしっかりと保持しているかを判断する。ベクトルが一貫性があって小さい場合、文字認識が、捕捉されたビデオフレームを使用するか、または画面上のテキスト位置を調整することにより、実行できる。
翻訳を画像内のテキスト上にリアルタイムで重ね合わせるために、マルチスレッドプログラミングが使用される:テキスト位置のトラッキングが、1つのスレッド内で行われ、その間に文字認識が別のスレッド内で行われる。トラッキングを経由するループは、認識と比較して非常に高速であり、従ってテキスト位置がリアルタイムで調整できる。認識結果が準備できると、認識結果が抽出され、画面上で更新されて、テキスト位置で更新される。必要ならば、別の認識が別のスレッド内で行われる。この更新で、以前の結果が検査され、より良い結果が各テキスト位置に対して保存される。
複数行文字認識方法は、2方法の二値化;水平ぼかし(horizontal blurring);疑わしい文字部分を有するビデオフレームの認識の回避;テキスト取消しおよび水平行グループ化:を実行する。複数行プロセスは、2つのタイプの二値化:暗いテキスト/明るい背景および明るいテキスト/暗い背景を使用する。次いで、水平方向のテキストを検出するために、水平ぼかし処理が二値化画像について使用される。これは、効果的に、かつ、おそらくはテキスト位置を失うことなく、行われ得る。水平ぼかしの後、テキスト認識がこれらの領域について行われる。適切なサイズまたはアスペクト比を有していない領域が、処理速度を向上するためにスキップされる。次いで、重複する異なるタイプの二値化から文字列の1つを取り消すために、テキスト取消しが行われる。2つの文字列が重複する場合、多くの文字を有する方が保存される。最後に、文字が、同じ領域内になく、バラバラに離れている場合、テキストのグループ化が行われる。文字の2つの領域が、間隔および位置情報に従って、一緒にグループ化される。
図に従った複数行プロセスのプロセス説明がここから始まる。図1Aのステップ104での判断プロセスが、翻訳のための複数行テキストの第1のフレームをステップ106に送り、そこで、プロセスは、複数行のテキストの第1のフレームを図3Aのステップ302に送り、そこで、複数行テキスト翻訳プロセス300の処理が開始する。ステップ302のプロセスはステップ304に進み、そこで、プロセスは、画像処理境界ボックス内の画像フレームの外側部分を除去するために、複数行テキストの第1のフレームを切り取る。プロセスは、次いで、複数行テキストの第1の切り取られたフレームをステップ306に送る。ステップ306で、プロセスは、切り取られたフレームが、複数行のテキストの第1のフレームであるかを確認する。複数行テキストの切り取られたフレームが第1のフレームであれば、プロセスは、複数行テキストの切り取られた第1のフレームをステップ308に送る。ステップ308のプロセスは、複数行テキストの第1のフレームをメモリ装置に保存する。ステップ308における処理文字列は、次いで、ステップ304に戻る。ステップ304で、プロセスは、複数行テキストの第2のフレームを切り取って、その切り取られた第2のフレームをステップ306に送る。ステップ306のプロセスは、切り取られたフレームが複数行テキストの第1のフレームかを判断する。ステップ306における現在の切り取られたフレームが第1の切り取られたフレームではない場合、ステップ306のプロセスは、複数行テキストの切り取られた第1のフレームおよび第2のフレームをステップ310に送る。判断ステップ310で、プロセスは、モバイルカメラ装置のユーザーインタフェース上の一時停止ボタンが押されているかどうかを確認する。ユーザーインタフェース上で一時停止が押されていない場合、ステップ310の判断プロセスは、第1の切り取られたフレームおよび第2の切り取られたフレームをステップ312に送る。ユーザーインタフェース上で一時停止ボタンが押されている場合、ステップ310の判断プロセスは、ステップ380に進み、そこで、プロセスは、図3Bに示すステップ378からの画像の処理を一時停止する。
ステップ312で、プロセスは、以前および現在のフレームの両方に対して切り取られた画像のサイズ変更を実行してから、切り取られて、サイズ変更された以前のフレームおよび現在のフレームについてトラッキングを実行する。ステップ312で、プロセスは、現在および以前のフレームのトラッキングを実行する。トラッキング位置の各々で、プロセスは、以前のフレームから現在のフレームへの画像の位置における変化を計算し、プロセスは、各トラッキング位置における以前のフレームから現在のフレームへの移動を、XおよびY値を持つベクトルに関して定義する。プロセスは、以前のフレームを基準トラッキングフレームとして使用して、処理は最終的に現在の複数行テキストフレームのみを継続する。プロセスは、ステップ312からステップ314に進み、そこで、ステップ314でのトラッキングからのベクトル結果が検査される。
プロセスは判断ステップ316に進み、そこで、トラッキングからのベクトル結果が、モーションブラーのある不安定な画像を処理するのを防ぐために使用される。ステップ316の処理は、まず、(a)トラッキング位置のベクトルが類似しているか否かを判断する。ステップ316の処理は、(b)認識結果更新間で累算されたトラッキング位置の平均ベクトルが小さいか否かも判断する。加えて、ステップ316の処理は、(c)現在の画像サイズが以前のフレームの画像サイズと一致するか否かを判断する。ステップ316の処理が判断(a〜c)に基づき、以前のフレームに比べて現在のフレームの著しい動きがあることを示す場合、ステップ316の処理は、複数行テキストの現在および以前のフレームの両方をステップ318に送る。ステップ318で、プロセスは、複数行テキストの現在および以前のフレームをメモリから削除して、処理文字列を開始ステップ302に戻す。従って、プロセスが、(1)トラッキングアルゴリズムのベクトルが一貫して類似している;(2)認識結果更新間で累算されたトラッキングされた位置の平均ベクトルが小さい;かつ(3)現在のフレームの画像サイズが以前のフレームの画像サイズと一致する;と判断する場合に限り、現在のフレームが、図3Bに示すように、ステップ352に進められる。ステップ316のプロセスが現在のフレームの処理文字列をステップ352に送る場合、316ステップのプロセスは、以前のフレームを廃棄する。
判断ステップ352で、ステップ368において以前の複数行認識結果があるか否かについて判断が行われる。プロセスが、ステップ368において複数行認識結果がなかったと判断すると、プロセスは、複数行テキスト画像フレームをステップ356でのオートフォーカスのために送る。プロセスは、焦点合わせが完了するまで、ステップ358で待機する。プロセスはステップ366に進み、そこで、プロセスは、フル解像度の画像を得るために、複数行テキストフレームを切り取る。ステップ366の後、プロセスはステップ368に進み、そこで、焦点が合って、切り取られた複数行テキストフレームが、後に説明する、図4のステップ402から始まる複数行テキスト認識プロセスに進む。ステップ368、次いでステップ352において複数行認識結果がある場合、判断は、現在のフレームが複数行認識処理に対する第1のフレームではないということであり、従って、現在のフレームは、別のスレッドが実行しているか否かをプロセスが判断する、判断ステップ354に送られるであろう。
ステップ354のプロセスが、スレッドカウントがゼロであると判断すると、処理は複数行テキスト画像の現在のフレームをステップ362に送る。ステップ362のプロセスは、モバイルカメラ装置上に表示された翻訳テキスト結果を更新する。ステップ362の処理は、複数行テキスト画像のフレーム内でテキストの各個々の行を別々に確認し;テキストが境界ボックス内に留まっているかを確認し;かつ以前の翻訳結果が現在の翻訳結果よりも良いかどうかを確認し、そうである場合は、以前のフレーム翻訳結果を使用する。プロセスステップ362の後、プロセスはステップ372に進み、そこで、プロセスは、ベクトルデータの過剰累算を処理するのを防ぐために、累算された小さいトラッキングベクトルをゼロにリセットする。プロセスはステップ374に進み、そこで、プロセスは、より高い解像度の画像を得るために画像フレームを切り取り、次いで、処理はステップ376に進み、そこで、図4に示すように、複数行認識処理のためのスレッドが作成される。ステップ378で、現在の画像フレームが保存される。現在のフレームはステップ304で切り取られたことに留意されたい。
ステップ354で、判断が、スレッドカウントがゼロではないという場合、ステップ354のプロセスは、ステップ360に進んで、モバイルカメラ装置の画像ディスプレイ上に現れる翻訳されたテキストの以前のフレームからのテキスト位置を調整する。調整では、現在のフレームを以前のフレームと比較するためのベクトル計算プロセスを使用して、モバイルカメラ装置の画像ディスプレイ上に現れる翻訳されたテキストを移動させるが、以前のフレームはステップ312においてトラッキング結果を提供した。ステップ360の後、プロセスはステップ364に進み、そこで、シフトベクトルがステップ360から累算される。
ステップ368、364、および376からの複数行テキスト画像処理のためのプロセス経路がステップ378で集束され、そこで、現在の画像フレームが切り取られた複数行テキスト画像として保存される。ステップ38で一時停止ボタンが押されている場合、プロセスは画像処理を一時停止する。翻訳を失うことなくモバイルカメラ装置を移動できるために、適切な翻訳が得られている場合に一時停止ボタンが頻繁に押される。ステップ380のプロセスは、次いで、ステップ382に進み、そこで、処理が、画面の位置の座標を、処理が生じる画像バッファ(メモリ)の位置と一致させる。図3Bに示すステップ368および376のプロセスは、プロセス400内の図4に示す複数行認識サブルーチンプロセスである。
より詳細には、プロセス400はステップ402から開始する。ステップ404で、プロセスは、明るい背景と暗いテキストがある、第1のタイプの二値化を実行する。ステップ406のプロセスは、次いで、後に説明する図5Aに示すサブルーチンプロセス500を使用するか、または後に説明する図5Bに示すサブルーチンプロセス550のいずれかを使用して、第1のタイプの二値複数行画像について認識処理を実行する。プロセス500または550内の処理が完了した後、プロセスは図4内のステップ408に戻り、そこで、プロセスは、暗い背景と明るいテキストがある、第2のタイプの二値化を実行する。ステップ410のプロセスは、次いで、図5Aに示すサブルーチンプロセス500を使用するか、または図5Bに示すサブルーチンプロセス550のいずれかを使用して、第2のタイプの二値複数行画像について認識処理を実行する。プロセス500または550内の処理が完了した後、プロセスは図4内のステップ412に戻り、そこで、プロセスは、図6Aおよび6Bに示すサブルーチンプロセス600を使用して、重複したテキストを検出するためにテキスト取消しを実行する。プロセス600内の処理が完了した後、プロセスは図4内のステップ414に戻り、そこで、プロセスは、第1のタイプ(「タイプ1」)の二値閾値に対するテキストのグループ化および第2のタイプ(「タイプ2」)の二値閾値に対するテキストのグループ化を実行する。ステップ414が、後に説明する図7Aおよび7B内のサブルーチンプロセス700で処理される。二値閾値の各タイプに対するテキストのグループ化が完了した後、プロセスは、図4内のステップ416に戻る。ステップ416内の翻訳プロセスは、光学式文字認識からの結果を使用して、第1の言語のテキストである中国語文字を、第2の言語のテキストである英単語に翻訳する。翻訳の出力が、モバイルカメラ装置上に、リアルタイム拡張現実画像として表示される。
翻訳エンジンはステップ416で、翻訳エンジン結果スコアを計算する。翻訳エンジンスコアは、中国語文字が良好に認識されて、中国語文字の英語への良好な翻訳の確率が高い兆候がある場合に、高い。現在のフレームのテキスト行が、以前のフレームに対してそのままであって、動いていないことを確認した後、現在および以前のフレームの翻訳に対する行の複数行翻訳エンジンスコアが比較されて、以前の翻訳エンジンスコアの方が高い場合、行の以前のフレームの翻訳が保持されて、現在の翻訳は保存されない。翻訳エンジン結果は、翻訳結果の認識された有効性を計算し、次いで、結果として生じた語全体にわたってそれらを合計することにより、得点される。複数行での翻訳プロセスは、複数行テキスト画像の処理および翻訳において一度に1行を処理する。
別の実施形態では、垂直テキスト認識がプロセスとして、水平テキスト認識プロセスのプロセスに追加され得る。処理は、第1のフレーム認識において、テキスト方向を、垂直および水平方向の両方で自動的に決定するであろう。翻訳スコアは、各方向で合計され得、高い方のスコア翻訳は、その方向でより多くの意味のある句を有し得るので、高い方の翻訳スコアがさらなる処理のために選択されるであろう。時々、プロセスは、翻訳のために認識される多数の文字がないことを示す低翻訳スコアを有し得る。いくつかの翻訳スコアは単にノイズであり得る。従って、ユーザーが焦点を合わせ始め得るのは画像の中心からなので、プロセスは、画像の中心周囲のテキスト行の翻訳スコアの合計に焦点を合わせるであろう。
前述のように、ステップ410のプロセスは、次いで、図5Aに示すサブルーチンプロセス500を使用するか、または図5Bに示すサブルーチンプロセス550のいずれかを使用して、第2のタイプの二値複数行画像について認識処理を実行する。図5Aのステップ502は、二値複数行画像の1つのタイプについて認識処理のプロセスを開始する。このプロセスは、ステップ504に進み、そこで、プロセスは連結成分を見つけて、複数行テキスト画像のノイズ除去を行う。プロセスは次いで、プロセスステップ506に進み、そこでテキスト位置を見つけるために水平ぼかしが実行される。
プロセスは次いで、ステップ508に進み、そこで、処理文字列の二値化画像をそのセグメントに分割するために、連結成分分析が、水平方向にぼやけた画像について実行される。連結成分は、全部黒または全部白のいずれかの画素フィールドを有する。プロセスが連結成分分析を完了した後、プロセスはステップ510に進み、そこで、プロセスは、水平ぼかしによって画定された各連結成分の単一行領域の内部に位置する連結成分について、光学式文字認識(OCR)を実行する。ステップ510での処理は、二値認識された文字のサイズが小さすぎる場合、またはアスペクト比が水平方向のテキスト行を形成する可能性が低い場合、単一行領域についてOCRを行わない。
二値画像複数行画像についての認識に対する代替経路550が図5Bに示されており、ステップ560から始まる。ステップ562で、二値画像複数行画像がノイズ除去される。プロセスはステップ564に進み、そこで水平ぼかしが実行され、ステップ566で、元の画像内の対応する領域の切取りを用いた連結成分分析が続く。連結成分分析は、処理文字列の二値化画像をそのセグメントに分割するために実行される。連結成分は、全て黒または全て白のいずれかの画素のフィールドを有する。プロセスが連結成分分析を完了した後、処理はステップ566からステップ568に進み、そこで、各連結成分の領域に対して単一行のように、プロセスは、二値認識された文字のサイズが小さすぎるか、またはアスペクト比が水平方向のテキスト行を形成する可能性が低くない場合に限り、OCRを実行する。次いで、プロセスは、複数行テキスト画像の各単一行をさらに細かい解像度にサイズを変更して、二値化を繰り返す。認識されている画像がより良い解像度を有し、従って、文字のさらなる細部を含むので、図5Bのプロセス550は、図5Aのプロセスよりも精度が良いが、処理速度は、図5Aのプロセス500における処理よりも遅い可能性がある。
前述のように、図4のプロセスはステップ412で、部分6Aおよび6Bを有する図6に示されるサブルーチンプロセス600を使用して、重複したテキストを検出するためにテキスト取消しを実行する。図6Aのプロセス600で、文字認識後のテキスト取消しがステップ602で開始して、ステップ604に進み、そこで、プロセスが、タイプ1の二値化およびタイプ2の二値化における文字数をカウントする。定義により、タイプ1の二値化は白い背景上に出現する黒いテキストから成り、タイプ2の二値化は逆の二値化、すなわち、黒い背景上に出現する白いテキストである。ステップ604のプロセスは、判断ステップ606に進み、そこで、タイプ1の二値化を通る処理ループが終了されているかに関して判断する。タイプ1の二値化を通る処理ループが終了されている場合、処理文字列が、図7A内のプロセス700の開始ステップ702でテキストのグループ化を開始するために送られる。タイプ1の二値化を通る処理ループが終了されていない場合、プロセスは判断ステップ608に進んで、複数行テキスト画像フレームの単一行内に中国語文字があるかどうかを判断する。
ステップ608で、ステップ608における行内に中国語文字がないと判断される場合、処理文字列はステップ606に戻されて、複数行テキスト画像の別の単一行内についてタイプ1の二値化を繰り返す。ステップ608で、複数行テキスト画像フレームの単一行内に中国語文字があると判断する場合、プロセスは610に進んで、その単一行の高さおよび長さの境界を計算する。ステップ610のプロセスは次いで、判断ステップ612に進み、そこで、プロセスは、タイプ2の二値化を通る処理ループが終了されているかを判断する。タイプ2の二値化を通る処理ループがステップ612で終了されている場合、処理文字列がステップ606に戻って、複数行テキスト画像の別の単一行を処理する。タイプ2の二値化を通る処理ループがステップ612で終了されていない場合、処理文字列は図6B内のステップ652に進む。ステップ652は、複数行テキスト画像フレームの単一行内に中国語文字があるかどうかを判断する判断ステップである。複数行テキスト画像フレームのこの単一行内に中国語文字がない場合、処理は、処理文字列をステップ612に送って、複数行テキスト画像フレームの別の単一行についてタイプ2の二値化を繰り返す。複数行テキスト画像フレームの単一行内に中国語文字がある場合、プロセスはステップ654に進んで、複数行テキスト画像フレームの特定の単一行の長さおよび高さの境界を識別する。
ステップ654のプロセスは、判断ステップ656に進み、そこで、ステップはタイプ1およびタイプ2の二値化の文字列が重複するかどうかを判断する。タイプ1およびタイプ2の二値化が重複しない場合、プロセスは判断ステップ612に戻って、複数行テキストの別の単一行を、タイプ2の二値化プロセスを経由して処理する。タイプ1およびタイプ2の二値化が重複する場合、プロセスはステップ658で、文字数が少ない方の二値化のタイプの文字列を除去する。ステップ658のプロセスは、2つの重複するテキスト行の文字数が等しい場合に限り、図6A内のステップ604からの二値化のタイプの各々に対する文字数カウントを使用する。ステップ658のプロセスは、判断ステップ660に進んで、タイプ1の二値化の文字列またはタイプ2の二値化の文字列が除去されたかどうかを判断する。タイプ1の二値化が除去された場合、処理文字列が判断ステップ606に送られて、タイプ1の二値化を通る処理ループが終了されているかを判断する。タイプ2の二値化が除去された場合、処理文字列が判断ステップ612に送られて、タイプ2の二値化を通る処理ループが終了されているかを判断する。タイプ1の文字列が全てループを通過すると、テキスト取消しが図6Aおよび図6B内で完了し、プロセスは図7Aのステップ702でのプロセス700に進む。前述のように、図4のプロセスはステップ414で、各二値閾値タイプに対してテキストのグループ化プロセスを実行し、この処理は、部分7Aおよび7Bを有し、以下で説明する図7で実行される。1つの中国語テキスト文字が単一の英単語に翻訳され得る。2つの中国語テキスト文字または3つの中国語テキスト文字は、それらが幅広く離れている場合、翻訳のためにグループ化される必要があり得る。図7に示すプロセス700は、各複数行二値化テキストビデオ画像フレーム内で一度に1つの単一テキスト行についてテキストのグループ化を判断する。
図7Aのプロセス700が、タイプ1の二値化画像のテキストグループ化を開始するために、ステップ702から始まる。ステップ702での処理が、ステップ704に進み、そこで、プロセスがタイプ1におけるテキストの行数をカウントする。ステップ704のプロセスが、判断ステップ706に進んで、処理文字列がタイプ1のテキストのグループ化を終了しているかどうかを判断する。タイプ1のテキストのグループ化がステップ706で終了している場合、処理文字列がタイプ2を実行するために送られる。ステップ706のプロセスが、タイプ1のテキストのグループ化を終了していない場合、処理はステップ708を継続する。
ステップ708で、プロセスは、複数行テキスト画像フレームの単一のタイプ1のテキスト行の垂直範囲に対する上限および下限を計算する。プロセスは判断ステップ710に進んで、タイプ1テキストのテキストグループ化が実行されるべきかどうかを判断する。ステップ710のプロセスが、タイプ1テキストのテキストグループ化が可能でないと判断する場合、ステップ710のプロセスは処理文字列をステップ706に戻して、タイプ1のテキストグループ化を通るループが終了しているかどうかを判断する。ステップ710のプロセスが、タイプ1テキストのテキストグループ化が可能であると判断する場合、プロセスはステップ712に進み、そこで、プロセスは、単一のテキスト行内のタイプ1のテキスト文字に対して位置情報の全てを計算する。プロセスはまず、タイプ1テキスト行の水平位置の中心点Xiを判断し、次いで、タイプ1テキスト行の2つの左端の文字の左間隔および2つの右端の文字の右間隔を判断する。図7Aでは、左間隔は、ステップ712の右に示す、テキスト文字716とテキスト文字718との間の距離であることに留意されたい。右間隔は、ステップ712の右に示す、テキスト文字720とテキスト文字722との間の距離であることに留意されたい。712のプロセスは、判断ステップ714に進み、そこで、プロセスは、残りの行jまでの文字列プロセスループが終了されているかを判断する。
ステップ714の判断プロセスが、残りの行jまでの文字列プロセスループが終了されていると判断した場合、プロセスはステップ752に進み、そこで、処理は、行「i」の中心点Xiの右側のテキストをグループ化する場合、行iの位置情報を修正する。次いで、プロセスは、ステップ752からステップ756に進み、そこで、処理は、中心点Xiの左側のテキストをグループ化する場合、行iの位置情報を修正する。プロセスは次いで、ステップ760に進んで、グループ化されているテキスト行(複数可)を除去し、次いで、プロセスは判断ステップ762に進み、そこで、ステップ762の処理は、現在の行iのテキストのグループ化が生じたかどうかを判断する。行iのテキストのグループ化が生じなかった場合、行iのテキストのグループ化が、偽の可能なテキストグループ化としてメモリ内に設定される。行iのテキストのグループ化が生じた場合には、タイプ1のテキストグループ化の処理文字列がステップ710に戻り、可能なテキストグループ化がまだ真に設定されているので、ステップ712に進んで、テキスト行(複数可)を現在の行iにグループ化するさらなる可能性を見つけるであろう。(本発明人は、シンボル「i」および「j」を、我々が焦点を合わせているテキスト行を指し示すために使用する。プロセスは、行「j」を行「i」にグループ化する可能性を検査し、そのため、行「i」から始めて、残りの行(「j」)までループし、その後、次の行「i」に進んで、残りの行(「j」)までループする、などと続く)。
ステップ714の判断ステップが、残りの行jまでの文字列プロセスループが終了されていないと判断した場合、プロセスはステップ754に進んで、行jの中心点Xjを計算する。(判断ステップは、行jの中心点Yjが行iの上限と下限との間にあるかどうかを判断する。そうである場合には754に進む。そうでない場合は、714に戻る)。プロセスは次いで、判断ステップ758に進み、そこで、プロセスは、行Jの中心点Xjが、行iの中心点Xi未満であるかどうかを判断する。判断ステップ758が、行Jの中心点Xjが、行Iの中心点Xi未満であると判断した場合、プロセスはステップ766に進んで、行iの左境界と行jの右境界との間の左の距離を計算する。
判断ステップ758が、行jの中心点Xjが行iの中心点Xi未満ではないと判断した場合、プロセスはステップ764に進んで、行iの右境界と行jの左境界との間の右の距離を計算する。
ステップ766のプロセスが、行iの左境界と行jの右境界との間の左の距離を計算した後。次いでプロセスは、判断ステップ768に進み、そこで、プロセスは、(1)行iが単一の中国語文字であるか、または左の距離が行iの左間隔の2倍未満であるかのいずれか;および(2)行iの左境界と行jの右境界との間の左の距離が最小の格納値未満である、かどうかを判断する。
ステップ768のプロセスが、前述の(1)または(2)のいずれかの条件が維持されていないと判断すると、処理文字列はステップ714に戻って、残りの行jまでの処理文字列ループが終了しているかどうかに関する別の判断を実行する。
ステップ768のプロセスが、前述の(1)および(2)の条件が両方維持されていると判断すると、プロセスはステップ776に進んで、行iの左境界と行jの右境界との間の左の距離の最小の格納値を更新する。次いで、ステップ776からの処理文字列が、ステップ714に戻って、残りの行jまでの処理文字列ループが終了しているかどうかに関する別の判断を実行する。
判断ステップ758でXjがXi未満でないと判断される場合、プロセスはステップ764に進み、そこで、ステップ764のプロセスが、行iの右境界と行jの左境界との間の右の距離を計算し、次いで、プロセスは判断ステップ770に進み、そこで、プロセスは、(3)行iが単一の中国語文字であるか、または右の距離が行iの右間隔の2倍未満であるかのいずれか;および(4)行iの右境界と行jの左境界との間の右の距離が最小の格納値未満である、かどうかを判断する。
770のプロセスが、前述の(3)または(4)のいずれかの条件が維持されていないと判断すると、処理文字列はステップ714に戻って、残りの行jまでの処理文字列ループが終了しているかどうかに関する別の判断を実行する。
ステップ770のプロセスが、前述の(3)および(4)の条件が両方維持されていると判断すると、プロセスはステップ774に進んで、行iの右境界と行jの左境界との間の右の距離の最小の格納値を更新する。次いで、ステップ774からの処理文字列が、ステップ714に戻って、残りの行jまでの処理文字列ループが終了しているかどうかに関する別の判断を実行する。
図7Aの判断ステップ706で、タイプ1のテキストグループ化が終了していると判断されている場合、タイプ2のテキストグループ化が、図7Aおよび図7Bのプロセス700の同じ種類のプロセスステップに従って実行される。しかし、タイプ2のテキストグループ化のためのプロセスステップは、図7Aおよび図7Bを考慮して、本発明が、タイプ2のテキストグループ化を実行する方法に関係するものがどのようなものであり得るかは当業者には明らかであるので、図には具体的には示されない。
ユーザーインタフェース実施形態および使用事例の詳細な説明
図8は、中華料理メニューの一例を示す。ラベル802で囲まれているのは、英語への翻訳を必要とする4行の中国語文字である。ラベル804で囲まれているのは、英語への翻訳を必要とする単一行の中国語文字である。
図9は、本発明の一実施形態の動作プロセス中である、モバイルカメラ装置の一例上のユーザーインタフェース900を示す。ターゲットボックス902の一実施形態が、ユーザーインタフェースディスプレイ上に示されている。ターゲットボックスは、任意のサイズにでき、モバイルカメラ装置上のどこにでも配置できる。指先906でタッチされているとして描かれている、ターゲットボックスのプルダウンディスプレイアイコン904は、矢印の方向にスライドできて、ターゲットボックスのサイズを拡大させる。「ライト」とラベルの付けられた光照射スイッチアイコン908は、カメラが、第2の言語への翻訳のために選択された第1の言語テキストに焦点を合わせている間に、光照射を加えるためにタップできる。第1の言語テキストは、ターゲットボックス内に表示されるであろう。「固定する(freeze)」とラベルの付けられた一時停止ボタン910は、翻訳の表示を一時停止または固定するためにタップできる。プルダウンアイコン904上を指先でスライドすることによって生じるターゲットボックスのサイズへの効果例については図10を参照する。
図10は、本発明の一実施形態の動作プロセス中である、モバイルカメラ装置の一例上のユーザーインタフェース1000を示す。ここでは、1002とラベル付けされたターゲットボックスの実施形態が、ユーザーインタフェースディスプレイ上に示されている。図9のターゲットボックス902と比較すると、図10のターゲットボックスのサイズの方が大きい。ターゲットボックスの上に、「テキストをボックスの中心に置いて、翻訳が現れるまで待つ」という指示がある。スライダーアイコン1004は、ボタンを有し、ターゲットボックス内の画像を必要に応じて拡大するためにスライドできる。
図11は、本発明の一実施形態の動作プロセス中である、モバイルカメラ装置の一例上のユーザーインタフェース1100を示す。ターゲットボックスのサイズが、本発明による翻訳のために焦点を合わされた中国語テキスト文字1104の単一行に適合する。これらは、図8に示す中国語メニュー上でラベル804の内部に示されたのと同じ中国語文字である。ターゲットボックスの上は、中国語文字の単一行の処理された画像1102である。ターゲットボックスの下は、英語翻訳1106である。プルダウンタブアイコンは、1108とラベル付けされている。一時停止アイコンは1110とラベル付けされている。光照射アイコン1112は、ライトが「オフ」であることを示している。ユーザーインタフェースの第2のビューは、ターゲットボックスのプルダウンアイコン1114上の指を示す。
図12は、本発明の一実施形態の動作プロセス中である、モバイルカメラ装置の一例上のユーザーインタフェース1200を示す。ターゲットボックスのサイズは、ターゲットボックスの内部に非常に薄いグレーで示された、焦点を合わされている中国語テキスト文字の4行に適合する。英語翻訳1202は、本発明のこの実施形態でターゲットボックスの内部に、中国語文字の各行およびその英語翻訳を重ね合わせて表示されている。一実施形態では、英語翻訳は、中国語文字の上である。一実施形態では、英語翻訳は、リアルタイムで拡張現実として表示される。
図13は、ユーザーインタフェース1300の拡大図を示しており、図12の拡大した部分を示す。本発明のこの実施形態例では、ターゲットボックスは1306とラベル付けされ、プルダウンアイコンタブは1312とラベル付けされている。第1の言語テキストはここでは中国語テキスト文字である。それらの第2の言語への翻訳が英語テキスト文字として表示されている。複数行翻訳の4行の各々が英語テキストであり、各行がここでは、例えば、行1302、1304、1308、および1310と番号付けされている。一実施形態では、英語テキストは、黒のフォントであり、他方、中国語テキストの4行は、本発明の一実施形態に従い、グレー(元の色)のフォントであるが、フォントの色として任意の色が使用され得る。他の実施形態では、英語テキストは、白のフォント色である。外国語および翻訳されたテキストの色は、本発明の精神または範囲から逸脱することなく変更され得る。
図14は、本発明の別の実施形態による単一行翻訳動作を表示する、ユーザーインタフェース1400の拡大図を示す。中国語テキスト文字1404の中国語発音1406がターゲットボックスの下に表示されている。ターゲットボックスのサイズは、本発明による翻訳のために焦点を合わされた中国語テキスト文字1404の単一行に適合する。ターゲットボックスの上は、中国語文字の単一行処理された画像1402である。ターゲットボックスの下は、英語翻訳1408である。
図15は、本発明がその上で実施され得る、様々なモバイル機器1502、1504、1506、および1508を示す。示されているのは、モバイルスマートフォン1502、1504、および1506、ならびにGOOGLE GLASS(商標)などであるが、それに制限されない、ウェアラブルコンピュータ1508である。本発明は、様々なモバイルおよびウェアラブル機器上で実施され得、そのいくつかの実例が本明細書で提供されている。しかし、本発明の適用可能性は、本明細書に示すか、または説明する、モバイル機器またはウェアラブルコンピュータに決して制限されない。かかるモバイル機器およびウェアラブルコンピュータは、1つ以上のメモリに結合された、1つ以上のプロセッサを有し、メモリは、プログラムコードを格納し、図に示して説明するように、本発明のプロセスを実行するためのプログラムコードを格納するために使用され得ることが知られている。
日本語の実施形態
日本語には3つの異なる書記体系(平仮名、片仮名、および漢字)があるという事実のために、(へ−ヘ)、(ロ−口)など、これらの体系にわたる2、3の文字が文字レベルで区別するのが困難であり得る。従って、プロセスは、それらを区別するためにコンテキスト情報を使用する。プロセスは、より高い精度を達成するために、言語モデルおよびいくつかの発見的規則を利用する。プロセスは、最も可能性の高い文字列を評価するために、文字の形状類似性情報を翻訳スコアと一緒に組み合わせることもできる。
結論
本発明は、ハードウェアおよび/またはソフトウェアで実装され得る。例えば、ネットワークインタフェースなどの、システムの多くの構成要素は、本発明を曖昧にしないために、示されていない。しかし、当業者は、システムは、必ずこれらの構成要素を含むことを理解するであろう。ユーザー装置は、メモリに結合された少なくとも1つのプロセッサを含むハードウェアである。プロセッサは、1つ以上のプロセッサ(例えば、マイクロプロセッサ)を表し得、メモリは、ハードウェアの主記憶装置、ならびに任意の補足レベルのメモリ、例えば、キャッシュメモリ、不揮発性またはバックアップメモリ(例えば、プログラム可能またはフラッシュメモリ)、読取り専用メモリなど、を含むランダムアクセスメモリ(RAM)装置を表し得る。加えて、メモリは、ハードウェア内のどこにでも、例えば、プロセッサ内の任意のキャッシュメモリに、物理的に配置されたメモリ記憶、ならびに、例えば、大容量記憶装置上に格納されるような、仮想メモリとして使用される任意の記憶容量、を含むと考えられ得る。
ユーザー装置のハードウェアは、通常、外部と情報をやりとりするために、いくつかの入力および出力も受信する。ユーザーとのインタフェースのために、ハードウェアは1つ以上のユーザー入力装置(例えば、キーボード、マウス、スキャナ、マイクロホン、ウェブカメラなど)およびディスプレイ(例えば、液晶ディスプレイ(LCD)パネル)を含み得る。追加の記憶装置として、ハードウェアは、1つ以上の大容量記憶装置、例えば、とりわけ、フロッピィもしくは他の取外し可能ディスクドライブ、ハードディスクドライブ、直接アクセス記憶装置(DASD)、光学式ドライブ(例えば、コンパクトディスク(CD)ドライブ、デジタル多用途ディスク(DVD)ドライブなど)および/またはテープドライブも含み得る。さらに、ハードウェアは、ネットワークに結合された他のコンピュータとの情報の伝達を可能にするために、1つ以上のネットワーク(例えば、とりわけ、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、無線ネットワーク、および/またはインターネット)とのインタフェースを含み得る。ハードウェアは通常、プロセッサ間の適切なアナログおよび/またはデジタルインタフェースを含むことが理解されるべきである。
ハードウェアは、オペレーティングシステムの制御下で動作して、前述のプロセス技術を実行するための、参照番号によって全体として示される、様々なコンピュータソフトウェアアプリケーション、構成要素、プログラム、コード、ライブライ、オブジェクト、モジュールなどを実行する。
一般に、本発明の実施形態を実装するために実行される方法は、オペレーティングシステムの一部、または「コンピュータプログラム(複数可)」もしくは「コンピュータコード(複数可)」と呼ばれる特定のアプリケーション、構成要素、プログラム、オブジェクト、モジュールもしくは命令の連続として実装され得る。コンピュータプログラムは、通常、1つ以上の命令セットをコンピュータ内の様々なメモリおよび記憶装置内に様々な時に含み、それは、コンピュータ内の1つ以上のプロセッサによって読み取られて実行される場合に、コンピュータに、本発明の様々な態様を伴う要素を実行するために必要な動作を実行させる。その上、本発明は、完全に機能するコンピュータおよびコンピュータシステムのコンテキストで説明されているが、当業者は、本発明の様々な実施形態は、プログラム製品として様々な形式で分散されることが可能であり、本発明は、実際に分散を達成するために使用されるマシンまたはコンピュータ可読媒体の特定のタイプに関わらず、均等に適用されることを理解するであろう。コンピュータ可読媒体の例は、揮発性および不揮発性のメモリ装置、フロッピィおよび他の取外し可能ディスク、ハードディスクドライブ、光ディスク(例えば、コンパクトディスク読取り専用メモリ(CD ROM)、デジタル多用途ディスク(DVD)など)などの記憶可能タイプ媒体、および、時々、モバイル機器に対する「アプリストア」として知られる、オンラインストアを通じた無線媒体経由を含む、デジタルおよびアナログ通信媒体を含むがそれらに制限されない。
本発明は特定の例示的な実施形態を参照して説明されているが、様々な実施形態および変更がこれらの実施形態に対して、本発明のより広範な精神から逸脱することなく、行われ得ることが明らかであろう。それに応じて、明細書および図は、制限的な意味ではなく、例示的な意味で考えられるべきである。前述の実施形態は、教示される個別の記述のいずれよりも大きい範囲を有し得る単一のより幅広い発明の特定例であることも当業者には明らかであろう。本発明の精神および範囲から逸脱することなく、多くの変更が記述において行われ得る。

Claims (30)

  1. モバイルカメラ装置を使用して、第1の言語から第2の言語に翻訳するための方法であって、
    (a)翻訳する必要のある前記第1の言語の1つ以上の語のビデオ画像を表示し、前記モバイルカメラ装置を使用して、前記第1の言語の前記1つ以上の語のビデオフィードのフレームを翻訳のために捕捉するステップと、
    (b)前記ビデオフィードの前記フレームを画像処理のために境界ボックスの内部に適合するように切り取るステップと、
    (c)前記ビデオフィードの切り取られたフレームをメモリ装置に格納するステップと、
    (d)前記境界ボックス内の前記ビデオフィードの切り取られたフレームを前処理するステップと、
    (e)前記境界ボックス内の前記ビデオフィードの前処理されたフレームに関して文字セグメント認識を実行するステップと、
    (f)前記境界ボックス内の前記ビデオフィードの文字セグメント認識されたフレームに関して認識フィードバックを用いて水平マージを実行するステップと、
    (g)前記境界ボックス内の前記ビデオフィードの水平マージされた文字セグメント認識済みフレームに関して文字認識を実行するステップと、
    (h)前記第1の言語の前記1つ以上の語の前記第2の言語の1つ以上の語への翻訳を生成するために、前記境界ボックス内の前記ビデオフィードの文字認識されたフレームを処理するステップと、
    (i)前記第2の言語の前記1つ以上の翻訳された語を、翻訳されたビデオフィードの現在のフレームとして前記メモリ装置に格納するステップと、
    (j)前記境界ボックスが、前記翻訳されたビデオフィードの前記現在のフレームおよび以前のフレームに対して、同じ第1の言語テキスト文字上に継続してあることを確認するステップと、
    (k)前記翻訳されたビデオフィードの前記現在のフレーム内の情報品質を、前記翻訳されたビデオフィードの前記以前のフレーム内の情報品質と比較するステップであって、前記翻訳されたビデオフィードの前記現在のフレームおよび前記翻訳されたビデオフィードの前記以前のフレームの両方が前記メモリ装置内に保存されている、前記翻訳されたビデオフィードの前記現在のフレーム内の情報品質を、前記翻訳されたビデオフィードの前記以前のフレーム内の情報品質と比較するステップと、
    (l)前記メモリ装置内のストレージから削除すべき、前記翻訳されたビデオフィードの1つ以上の低品質のフレームを選択するステップと、
    (m)前記モバイルカメラ装置を使用して、前記第2の言語の前記1つ以上の語を有する、前記翻訳されたビデオフィードの1つ以上のより高品質のフレームを、翻訳されている前記第1の言語の前記1つ以上の語の上に重ねてか、またはその隣に表示するステップと
    を含む、方法。
  2. 前記第2の言語の前記1つ以上の語の前記翻訳されたビデオフィードの前記1つ以上のより高品質のフレームをリアルタイム拡張現実で表示すること
    をさらに含む、請求項1に記載の方法。
  3. 前記第1の言語が、中国語、韓国語、日本語、ベトナム語、クメール語、ラオ語、タイ語、英語、フランス語、スペイン語、ドイツ語、イタリア語、ポルトガル語、ロシア語、ヒンディー語、ギリシャ語、ヘブライ語、およびアラビア語から成る群から選択される、請求項1に記載の方法。
  4. 前記第1の言語が中国語であり、前記第2の言語が英語である、請求項1に記載の方法。
  5. 前記第1の言語を前記第2の言語に翻訳する前に、前記第1の言語の方言を前記第1の言語のさらに少ない数の方言に変換するための変換テーブルを利用すること
    をさらに含む、請求項1に記載の方法。
  6. 前記第1の言語を前記第2の言語に翻訳する前に、繁体字中国語文字を簡体字中国語文字に変換するための変換テーブルを利用すること
    をさらに含む、請求項1に記載の方法。
  7. 前記第2の言語が、中国語、韓国語、日本語、ベトナム語、クメール語、ラオ語、タイ語、英語、フランス語、スペイン語、ドイツ語、イタリア語、ポルトガル語、ロシア語、ヒンディー語、ギリシャ語、ヘブライ語、およびアラビア語から成る群から選択される、請求項1に記載の方法。
  8. 前記第1の言語の前記ビデオフィードを表示する前記モバイルカメラ装置上の境界ボックスのサイズを変更することにより、前記第2の言語への翻訳のために、前記第1の言語の単一行と前記第1の言語の複数行との間で選択すること
    をさらに含む、請求項1に記載の方法。
  9. 前記第1の言語の単一行が前記第2の言語の単一行に翻訳される、請求項1に記載の方法。
  10. 前記第1の言語の複数行が前記第2の言語の複数行に翻訳される、請求項1に記載の方法。
  11. 前記モバイルカメラ装置が移動されると、翻訳を再計算することなく、第2の言語翻訳を移動させること
    をさらに含む、請求項1に記載の方法。
  12. 表示されている言語翻訳を変更することなく、前記モバイルカメラ装置の移動を可能にするために、前記モバイルカメラ装置上に表示されている翻訳を一時停止すること
    をさらに含む、請求項1に記載の方法。
  13. 前記第1の言語および前記第2の言語を含む、一時停止された言語翻訳を、後で再検討するために前記メモリ装置に格納すること
    をさらに含む、請求項12に記載の方法。
  14. 前記翻訳されたビデオフィードの前記情報品質が、前記第1の言語の前記文字列がいかにうまく翻訳されるかによって判断される、請求項1に記載の方法。
  15. ステップ(j)が、
    前記翻訳されたビデオフィードの前記現在のフレームの現在の言語テキスト翻訳文字列内および前記翻訳されたビデオフィードの前記以前のフレーム内の以前の言語翻訳文字列内の類似した言語テキスト文字の数をカウントすることと、
    前記現在および前記以前の言語翻訳文字列内で重複している、前記類似した言語テキスト文字の割合を判断することであって、より高い割合は、前記境界ボックスが、前記現在のフレームおよび前記以前のフレームに対して前記同じ第1の言語テキスト上に留まっていることを示す、より高いスコアとなる、前記現在および前記以前の言語翻訳文字列内で重複している、前記類似した言語テキスト文字の割合を判断することと
    をさらに含む、請求項1に記載の方法。
  16. 翻訳されている前記第1の言語の前記1つ以上の語の発音を表示すること
    をさらに含む、請求項1に記載の方法。
  17. 第1の言語の第2の言語へのビデオモードでの翻訳を、モバイルカメラ装置を使用して提供するための方法であって、前記方法が、
    (a)前記モバイルカメラ装置のディスプレイを、前記第1の言語の翻訳のために選択されたビデオ画像に適合するように、サイズを調整するステップと、
    (b)境界ボックスの内部の前記第1の言語の前記選択されたビデオ画像のフレームを切り取るステップと、
    (c)前記切り取られたフレームに関して文字セグメント認識を実行するステップと、
    (d)前記文字セグメント認識されたフレームに関して認識フィードバックを用いて水平マージを実行するステップと、
    (e)前記水平マージされた文字セグメントに関して文字認識を実行するステップと、
    (f)前記翻訳を実行するための文字が前記文字認識されたセグメント内にあるかを決定するステップと、
    (g)前記文字認識されたセグメント内で、前記第1の言語の1つ以上の語を前記第2の言語の1つ以上の語に翻訳するために、光学式文字認識からの結果を使用して前記翻訳を実行するステップと、
    (h)前記第2の言語での前記翻訳を前記モバイルカメラ装置上に表示するステップと
    を含む、方法。
  18. 前記切り取られたフレームに関して前記文字セグメント認識を実行する前記ステップ(c)の前に、前記境界ボックス内部の前記第1の言語の前記選択されたビデオ画像のフレームを切り取るための前プロセスステップ
    をさらに含む、請求項17に記載の方法。
  19. 前記前プロセスステップ自体が、
    グレースケール画像の格納されたフレームを固定サイズにアップサンプリングするステップと、
    閾値タイプを決定して、アップサンプリングされた格納済みフレームに関して二値化を実行するステップと、
    二値フレームに関して連結成分分析を実行するステップと、
    前記二値フレーム内の分析された連結成分のノイズ除去を行うステップと
    いった追加ステップを含む、請求項18に記載の方法。
  20. 文字セグメント認識を実行する前記ステップ(c)を進める前に、切り取られたフレームに関して前処理を実行した後に、テキストプレカーソルが検出されるかどうかを判断すること
    をさらに含む、請求項18に記載の方法。
  21. 前記切り取られたフレームに関して文字セグメント認識を実行する前記ステップ(c)自体が、
    テキストプレカーソル情報を前記メモリ装置に格納するステップと、
    任意の2つのテキストプレカーソルが、水平方向に重なり合い、かつ垂直方向に隣接している場合に、前記2つのテキストプレカーソルの垂直マージを実行するステップと、
    前記格納された切り取られたフレームの中心水平線から延びる領域の外側のテキストプレカーソルを除去するステップと、
    前記テキストプレカーソルを左から右の順にソートするステップと、
    テキストプレカーソルの文字サイズを検査するステップと、
    小さいテキストプレカーソル文字に対する文字セグメント認識を終了するステップと
    いった追加ステップを含む、請求項17に記載の方法。
  22. 水平マージされた文字セグメントに関して文字認識を実行する前記ステップ(d)自体が、
    テキストプレカーソルを有する前記フレームに関して二値文字認識を開始するステップと、
    テキストプレカーソルを有する前記フレーム内の二値文字上に関心領域を設定するステップと、
    テキストプレカーソルを有する前記フレーム内の前記二値文字の前記関心領域を正規化するステップと、
    テキストプレカーソルを有する前記フレーム内の前記二値文字の前記正規化された関心領域の特徴を抽出するステップと、
    テキストプレカーソルを有する前記フレーム内の前記二値文字の前記正規化された関心領域の前記特徴に関して次元縮退を実行するステップと、
    テキストプレカーソルを有する前記フレーム内の前記二値文字の前記正規化された関心領域の次元縮退された特徴に関してクラスタ分析での分類を実行するステップと
    いった追加ステップを含む、請求項17に記載の方法。
  23. 前記第2の言語での前記1つ以上の語の前記翻訳が、白、黒、グレー、赤、オレンジ、黄、緑、青、ピンク、紫、およびそれらの任意のフォント色の組合せから成る群から選択されたフォント色で表示される、請求項17に記載の方法。
  24. 第1の言語から第2の言語に翻訳するための装置であって、前記装置が、
    前記第1の言語の翻訳のために、前記第1の言語の前記1つ以上の語のビデオ画像を捕捉するためのモバイルカメラと、
    プログラムコードを処理するためのプロセッサと、
    前記プログラムコードを格納するために前記プロセッサに動作可能に接続された1つ以上のメモリであって、前記プログラムコードが前記プロセッサによって実行される場合に、前記プロセッサに:
    (a)翻訳する必要のある前記第1の言語の1つ以上の語のビデオ画像を表示し、前記モバイルカメラを使用して、前記第1の言語の前記1つ以上の語のビデオフィードのフレームを翻訳のために捕捉することと、
    (b)前記ビデオフィードの前記フレームを画像処理のために境界ボックスの内部に適合するように切り取ることと、
    (c)前記ビデオフィードの切り取られたフレームを前記1つ以上のメモリに格納することと、
    (d)前記境界ボックス内の前記ビデオフィードの切り取られたフレームを前処理することと、
    (e)前記境界ボックス内の前記ビデオフィードの前処理されたフレームに関して文字セグメント認識を実行することと、
    (f)前記境界ボックス内の前記ビデオフィードの文字セグメント認識されたフレームに関して認識フィードバックを用いて水平マージを実行することと、
    (g)前記境界ボックス内の前記ビデオフィードの水平マージされた文字セグメント認識済みフレームに関して文字認識を実行することと、
    (h)前記第1の言語の前記1つ以上の語の前記第2の言語の1つ以上の語への翻訳を生成するために、前記境界ボックス内の前記ビデオフィードの文字認識されたフレームを処理することと、
    (i)前記第2の言語の前記1つ以上の翻訳された語を、翻訳されたビデオフィードの現在のフレームとして前記1つ以上のメモリに格納することと、
    (j)前記境界ボックスが、前記翻訳されたビデオフィードの前記現在のフレームおよび以前のフレームに対して、同じ第1の言語テキスト文字上に継続してあることを確認することと、
    (k)前記翻訳されたビデオフィードの前記現在のフレーム内の情報品質を、前記翻訳されたビデオフィードの前記以前のフレーム内の情報品質と比較することであって、前記翻訳されたビデオフィードの前記現在のフレームおよび前記翻訳されたビデオフィードの前記以前のフレームの両方が前記メモリ装置内に保存されている、前記翻訳されたビデオフィードの前記現在のフレーム内の情報品質を、前記翻訳されたビデオフィードの前記以前のフレーム内の情報品質と比較することと、
    (l)前記メモリ装置内のストレージから削除すべき、前記翻訳されたビデオフィードの1つ以上の低品質のフレームを選択することと、
    (m)前記モバイルカメラ装置を使用して、前記第2の言語の前記1つ以上の語を有する、前記翻訳されたビデオフィードの1つ以上のより高品質のフレームを、翻訳されている前記第1の言語の前記1つ以上の語の上に重ねてか、またはその隣に表示することと
    を行うためのプロセスを実行させる、1つ以上のメモリと
    を備えた、装置。
  25. 前記第1の言語が、中国語、韓国語、日本語、ベトナム語、クメール語、ラオ語、タイ語、英語、フランス語、スペイン語、ドイツ語、イタリア語、ポルトガル語、ロシア語、ヒンディー語、ギリシャ語、ヘブライ語、およびアラビア語から成る群から選択される、請求項24に記載の装置。
  26. 前記第1の言語が中国語であり、前記第2の言語が英語である、請求項24に記載の装置。
  27. 前記メモリが追加のプログラムコードを含み、前記プログラムコードが前記プロセッサによって実行される場合に、前記プロセッサに:
    前記第1の言語を前記第2の言語に翻訳する前に、繁体字中国語文字を簡体字中国語文字に変換するための変換テーブルを利用させる、
    請求項24に記載の装置。
  28. 前記第2の言語が、中国語、韓国語、日本語、ベトナム語、クメール語、ラオ語、タイ語、英語、フランス語、スペイン語、ドイツ語、イタリア語、ポルトガル語、ロシア語、ヒンディー語、ギリシャ語、ヘブライ語、およびアラビア語から成る群から選択される、請求項24に記載の装置。
  29. 前記メモリが追加のプログラムコードを含み、前記プログラムコードが前記プロセッサによって実行される場合に、前記プロセッサに:
    前記第1の言語の前記ビデオ画像を表示する前記モバイルカメラ装置上の境界ボックスのサイズを変更することにより、前記第2の言語への翻訳のために、前記第1の言語の単一行と前記第1の言語の複数行との間で選択させる、
    請求項24に記載の装置。
  30. 前記メモリが追加のプログラムコードを含み、前記プログラムコードが前記プロセッサによって実行される場合に、前記プロセッサに:
    前記モバイルカメラ装置が移動されると、翻訳を再計算することなく、前記第2の言語翻訳を移動させる、
    請求項24に記載の装置。
JP2015562415A 2013-03-15 2014-03-12 外国語の文字セットおよびそれらの翻訳を資源に制約のあるモバイル機器上にリアルタイムで表示するためのシステムおよび方法 Active JP6317772B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361791584P 2013-03-15 2013-03-15
US61/791,584 2013-03-15
PCT/IB2014/001371 WO2014162211A2 (en) 2013-03-15 2014-03-12 Systems and methods for displaying foreign character sets and their translations in real time on resource-constrained mobile devices

Publications (3)

Publication Number Publication Date
JP2016519797A true JP2016519797A (ja) 2016-07-07
JP2016519797A5 JP2016519797A5 (ja) 2017-04-20
JP6317772B2 JP6317772B2 (ja) 2018-04-25

Family

ID=50944135

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015562415A Active JP6317772B2 (ja) 2013-03-15 2014-03-12 外国語の文字セットおよびそれらの翻訳を資源に制約のあるモバイル機器上にリアルタイムで表示するためのシステムおよび方法

Country Status (4)

Country Link
US (2) US8761513B1 (ja)
JP (1) JP6317772B2 (ja)
CA (1) CA2906399A1 (ja)
WO (1) WO2014162211A2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10528852B2 (en) 2017-03-22 2020-01-07 Kabushiki Kaisha Toshiba Information processing apparatus, method and computer program product
US10832100B2 (en) 2017-03-22 2020-11-10 Kabushiki Kaisha Toshiba Target recognition device
KR20230053178A (ko) * 2021-10-14 2023-04-21 네이버 주식회사 이미지 번역 방법 및 시스템

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USD762674S1 (en) * 2012-11-15 2016-08-02 Lg Electronics Inc. Display of a mobile phone with transitional graphical user interface
US9037450B2 (en) * 2012-12-14 2015-05-19 Microsoft Technology Licensing, Llc Text overlay techniques in realtime translation
US9256798B2 (en) * 2013-01-31 2016-02-09 Aurasma Limited Document alteration based on native text analysis and OCR
JP2015069365A (ja) * 2013-09-27 2015-04-13 シャープ株式会社 情報処理装置、および制御プログラム
KR102135358B1 (ko) * 2013-11-05 2020-07-17 엘지전자 주식회사 이동 단말기 및 이의 제어방법
US10147212B2 (en) 2014-08-29 2018-12-04 Carrier Corporation Method to create display screens for a controller used in a building automation system
US9507775B1 (en) 2014-10-17 2016-11-29 James E. Niles System for automatically changing language of a traveler's temporary habitation by referencing a personal electronic device of the traveler
US9690781B1 (en) 2014-10-17 2017-06-27 James E. Niles System for automatically changing language of an interactive informational display for a user by referencing a personal electronic device of the user
USD771666S1 (en) * 2014-12-09 2016-11-15 Jpmorgan Chase Bank, N.A. Display screen or portion thereof with a graphical user interface
KR20160071144A (ko) * 2014-12-11 2016-06-21 엘지전자 주식회사 이동단말기 및 그 제어 방법
US9836456B2 (en) * 2015-01-12 2017-12-05 Google Llc Techniques for providing user image capture feedback for improved machine language translation
USD749115S1 (en) * 2015-02-20 2016-02-09 Translate Abroad, Inc. Mobile device with graphical user interface
USD818471S1 (en) * 2015-02-27 2018-05-22 Oracle International Corporation Display screen or portion thereof with animated graphical user interface
USD816679S1 (en) * 2015-02-27 2018-05-01 Oracle International Corporation Display screen or portion thereof with animated graphical user interface
US9483465B2 (en) * 2015-03-06 2016-11-01 Ricoh Company, Ltd. Language translation for multi-function peripherals
US10963651B2 (en) 2015-06-05 2021-03-30 International Business Machines Corporation Reformatting of context sensitive data
US10095034B1 (en) 2015-07-23 2018-10-09 Snap Inc. Eyewear with integrated heads-up display
KR20170014589A (ko) * 2015-07-30 2017-02-08 삼성전자주식회사 번역 서비스를 제공하는 사용자 단말 장치 및 그 제어 방법
CN105159893A (zh) * 2015-08-31 2015-12-16 小米科技有限责任公司 字符串保存方法及装置
US10354340B2 (en) * 2015-10-13 2019-07-16 Dell Products L.P. Workflow to amplify content over a plurality of social media platforms in different regions
US10102202B2 (en) 2015-12-17 2018-10-16 Mastercard International Incorporated Systems and methods for independent computer platform language conversion services
US10579741B2 (en) * 2016-08-17 2020-03-03 International Business Machines Corporation Proactive input selection for improved machine translation
US10311330B2 (en) 2016-08-17 2019-06-04 International Business Machines Corporation Proactive input selection for improved image analysis and/or processing workflows
KR20210060676A (ko) * 2016-09-13 2021-05-26 매직 립, 인코포레이티드 감각 안경류
US10275459B1 (en) 2016-09-28 2019-04-30 Amazon Technologies, Inc. Source language content scoring for localizability
US10261995B1 (en) 2016-09-28 2019-04-16 Amazon Technologies, Inc. Semantic and natural language processing for content categorization and routing
US10235362B1 (en) * 2016-09-28 2019-03-19 Amazon Technologies, Inc. Continuous translation refinement with automated delivery of re-translated content
US10089523B2 (en) * 2016-10-05 2018-10-02 Intuit Inc. Automating creation of accurate OCR training data using specialized UI application
EP3333688B1 (en) * 2016-12-08 2020-09-02 LG Electronics Inc. Mobile terminal and method for controlling the same
KR102637338B1 (ko) 2017-01-26 2024-02-16 삼성전자주식회사 번역 보정 방법 및 장치와 번역 시스템
CN107451127B (zh) * 2017-07-04 2020-11-06 广东小天才科技有限公司 一种基于图像的单词翻译方法及系统、移动设备
US10089305B1 (en) * 2017-07-12 2018-10-02 Global Tel*Link Corporation Bidirectional call translation in controlled environment
USD916098S1 (en) * 2017-09-18 2021-04-13 Huawei Technologies Co., Ltd. Display screen or portion thereof with graphical user interface
KR102446387B1 (ko) 2017-11-29 2022-09-22 삼성전자주식회사 전자 장치 및 그의 텍스트 제공 방법
US10990755B2 (en) * 2017-12-21 2021-04-27 International Business Machines Corporation Altering text of an image in augmented or virtual reality
USD890774S1 (en) * 2018-02-22 2020-07-21 Samsung Electronics Co., Ltd. Display screen or portion thereof with transitional graphical user interface
KR102598104B1 (ko) * 2018-02-23 2023-11-06 삼성전자주식회사 외부 전자 장치로부터 텍스트 정보를 수신하는 시간 동안에 발생된 움직임을 보상하여 이미지에 포함된 객체 위에 텍스트 정보를 표시하는 방법 및 그 전자 장치
CN108920469A (zh) * 2018-06-12 2018-11-30 深圳市合言信息科技有限公司 一种提高多语言互译准确度的方法
US10834455B2 (en) 2018-06-27 2020-11-10 At&T Intellectual Property I, L.P. Integrating real-time text with video services
CN109034145B (zh) * 2018-07-06 2021-11-09 西安电子科技大学 基于OpenCV的银行卡号识别方法
US10346549B1 (en) * 2018-08-28 2019-07-09 Read TwoGether Ltd. Single-line display of composite-text
US10817677B2 (en) * 2018-08-28 2020-10-27 Read Twogether Ltd Single-line display of composite-text
EP3660733B1 (en) * 2018-11-30 2023-06-28 Tata Consultancy Services Limited Method and system for information extraction from document images using conversational interface and database querying
WO2020130708A1 (en) 2018-12-20 2020-06-25 Samsung Electronics Co., Ltd. Method and apparatus for augmented reality
CN111800671B (zh) * 2019-04-08 2022-08-12 百度时代网络技术(北京)有限公司 用于对齐段落和视频的方法和装置
CN110276349B (zh) * 2019-06-24 2023-08-18 腾讯科技(深圳)有限公司 视频处理方法、装置、电子设备及存储介质
US11373048B2 (en) 2019-09-11 2022-06-28 International Business Machines Corporation Translation of multi-format embedded files
US11093691B1 (en) * 2020-02-14 2021-08-17 Capital One Services, Llc System and method for establishing an interactive communication session
US11494567B2 (en) * 2020-03-03 2022-11-08 Dell Products L.P. Content adaptation techniques for localization of content presentation
US11443122B2 (en) * 2020-03-03 2022-09-13 Dell Products L.P. Image analysis-based adaptation techniques for localization of content presentation
CN113392847B (zh) * 2021-06-17 2023-12-05 拉萨搻若文化艺术产业开发有限公司 一种藏汉英三语ocr手持扫描翻译装置及翻译方法
CN115797815B (zh) * 2021-09-08 2023-12-15 荣耀终端有限公司 Ar翻译的处理方法及电子设备
US11961317B2 (en) * 2021-11-24 2024-04-16 Oracle Financial Services Software Limited Extracting textual information from image documents
WO2023218217A1 (en) * 2022-05-13 2023-11-16 Innopeak Technology, Inc. Text rendering on mobile devices

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000023012A (ja) * 1998-07-06 2000-01-21 Olympus Optical Co Ltd 翻訳機能付カメラ
JP2000207487A (ja) * 1999-01-20 2000-07-28 Sony Corp 情報処理装置および方法、並びに提供媒体
JP2001056446A (ja) * 1999-08-18 2001-02-27 Sharp Corp ヘッドマウントディスプレイ装置
JP2003323693A (ja) * 2002-04-30 2003-11-14 Matsushita Electric Ind Co Ltd 道端の標識およびオブジェクトを自動的に翻訳する車両ナビゲーションシステム
JP2006085461A (ja) * 2004-09-16 2006-03-30 Casio Hitachi Mobile Communications Co Ltd 情報処理装置、情報処理方法及び情報処理プログラム
JP2006146454A (ja) * 2004-11-18 2006-06-08 Sony Corp 情報変換装置および情報変換方法
JP2006302091A (ja) * 2005-04-22 2006-11-02 Konica Minolta Photo Imaging Inc 翻訳装置及びそのプログラム
US20100331043A1 (en) * 2009-06-23 2010-12-30 K-Nfb Reading Technology, Inc. Document and image processing
US20110090253A1 (en) * 2009-10-19 2011-04-21 Quest Visual, Inc. Augmented reality language translation system and method
JP2011134144A (ja) * 2009-12-25 2011-07-07 Square Enix Co Ltd リアルタイムなカメラ辞書
US20120330643A1 (en) * 2010-06-04 2012-12-27 John Frei System and method for translation
WO2013003242A1 (en) * 2011-06-30 2013-01-03 Qualcomm Incorporated Efficient blending methods for ar applications

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09128397A (ja) 1995-11-06 1997-05-16 Sharp Corp 通訳機
US5782640A (en) * 1996-05-03 1998-07-21 Sandlin; Brad A. Language translation note pad
USD453766S1 (en) 1999-03-02 2002-02-19 Transaction Technology, Inc. Icon for a personal computer
US7046848B1 (en) * 2001-08-22 2006-05-16 Olcott Peter L Method and system for recognizing machine generated character glyphs and icons in graphic images
JP4000844B2 (ja) * 2001-12-11 2007-10-31 日本電気株式会社 コンテンツ配信システム、コンテンツ配信システムの配信サーバ及び表示端末、コンテンツ配信プログラム
USD486499S1 (en) 2002-03-01 2004-02-10 Coato Workshop, Inc. Selection screen display for motor vehicle
USD479531S1 (en) 2002-05-21 2003-09-09 Sanyo Electric Co., Ltd. Menu display for a mobile phone
US20050010392A1 (en) * 2003-07-10 2005-01-13 International Business Machines Corporation Traditional Chinese / simplified Chinese character translator
US7310605B2 (en) * 2003-11-25 2007-12-18 International Business Machines Corporation Method and apparatus to transliterate text using a portable device
USD541291S1 (en) 2004-03-19 2007-04-24 Google Inc. Graphic user interface for a display screen
USD533561S1 (en) 2004-03-26 2006-12-12 Google, Inc. Graphical user interface
USD523440S1 (en) 2004-06-23 2006-06-20 Dellco Partnership Menu screen for a cellularly communicative electronic device
USD553140S1 (en) 2005-05-05 2007-10-16 Espeed Inc. User interface for an electronic trading system for a computer screen
US20070050183A1 (en) 2005-08-26 2007-03-01 Garmin Ltd. A Cayman Islands Corporation Navigation device with integrated multi-language dictionary and translator
US7992085B2 (en) * 2005-09-26 2011-08-02 Microsoft Corporation Lightweight reference user interface
US8175388B1 (en) * 2009-01-30 2012-05-08 Adobe Systems Incorporated Recognizing text at multiple orientations
US9262403B2 (en) 2009-03-02 2016-02-16 Sdl Plc Dynamic generation of auto-suggest dictionary for natural language translation
US8515185B2 (en) * 2009-11-25 2013-08-20 Google Inc. On-screen guideline-based selective text recognition
US8775156B2 (en) 2010-08-05 2014-07-08 Google Inc. Translating languages in response to device motion
USD680109S1 (en) 2010-09-01 2013-04-16 Apple Inc. Electronic device with graphical user interface
CA2818004C (en) 2010-12-02 2020-07-14 Accessible Publishing Systems Pty Ltd Text conversion and representation system
USD678894S1 (en) 2010-12-16 2013-03-26 Cisco Technology, Inc. Display screen with graphical user interface
USD682854S1 (en) 2010-12-16 2013-05-21 Cisco Technology, Inc. Display screen for graphical user interface
US8738355B2 (en) 2011-01-06 2014-05-27 Qualcomm Incorporated Methods and apparatuses for providing predictive translation information services to mobile stations
US8484218B2 (en) 2011-04-21 2013-07-09 Google Inc. Translating keywords from a source language to a target language
WO2012174308A1 (en) 2011-06-14 2012-12-20 Urban Translations, Llc Multi-language electronic menu system and method
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US20130030789A1 (en) 2011-07-29 2013-01-31 Reginald Dalce Universal Language Translator
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
USD687846S1 (en) 2011-08-31 2013-08-13 Samsung Electronics Co., Ltd. Display screen or portion thereof with generated image
US9229929B2 (en) 2011-09-13 2016-01-05 Monk Akarshala Inc. Modular translation of learning applications in a modular learning system
US9251144B2 (en) * 2011-10-19 2016-02-02 Microsoft Technology Licensing, Llc Translating language characters in media content
EP2587389A1 (en) 2011-10-28 2013-05-01 Alcatel Lucent A system and method for generating translated touristic information
USD697077S1 (en) 2011-11-29 2014-01-07 Microsoft Corporation Display screen with graphical user interface
USD697078S1 (en) 2011-12-01 2014-01-07 Google Inc. Portion of a display panel with graphical user interface
USD694258S1 (en) 2012-01-06 2013-11-26 Samsung Electronics Co., Ltd. Display screen or portion thereof with generated image
USD681657S1 (en) 2012-01-20 2013-05-07 Huawei Device Co., Ltd. Display screen with graphical user interface
US8903708B2 (en) 2012-02-10 2014-12-02 Microsoft Corporation Analyzing restaurant menus in view of consumer preferences
US8838459B2 (en) 2012-02-29 2014-09-16 Google Inc. Virtual participant-based real-time translation and transcription system for audio and video teleconferences
EP2637128B1 (en) 2012-03-06 2018-01-17 beyo GmbH Multimodal text input by a keyboard/camera text input module replacing a conventional keyboard text input module on a mobile device
WO2013134090A1 (en) 2012-03-07 2013-09-12 Ortsbo Inc. Method for providing translations to an e-reader and system thereof
US9129591B2 (en) 2012-03-08 2015-09-08 Google Inc. Recognizing speech in multiple languages
US8862456B2 (en) 2012-03-23 2014-10-14 Avaya Inc. System and method for automatic language translation for applications
US9519640B2 (en) 2012-05-04 2016-12-13 Microsoft Technology Licensing, Llc Intelligent translations in personal see through display
JP5653392B2 (ja) 2012-06-29 2015-01-14 株式会社東芝 音声翻訳装置、方法およびプログラム
WO2014001937A1 (en) 2012-06-30 2014-01-03 Geller Gidi Mobile tourism services translation
USD706803S1 (en) 2014-03-12 2014-06-10 Translate Abroad Inc. Smartphone with graphical user interface for a text selection box

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000023012A (ja) * 1998-07-06 2000-01-21 Olympus Optical Co Ltd 翻訳機能付カメラ
JP2000207487A (ja) * 1999-01-20 2000-07-28 Sony Corp 情報処理装置および方法、並びに提供媒体
JP2001056446A (ja) * 1999-08-18 2001-02-27 Sharp Corp ヘッドマウントディスプレイ装置
JP2003323693A (ja) * 2002-04-30 2003-11-14 Matsushita Electric Ind Co Ltd 道端の標識およびオブジェクトを自動的に翻訳する車両ナビゲーションシステム
JP2006085461A (ja) * 2004-09-16 2006-03-30 Casio Hitachi Mobile Communications Co Ltd 情報処理装置、情報処理方法及び情報処理プログラム
JP2006146454A (ja) * 2004-11-18 2006-06-08 Sony Corp 情報変換装置および情報変換方法
JP2006302091A (ja) * 2005-04-22 2006-11-02 Konica Minolta Photo Imaging Inc 翻訳装置及びそのプログラム
US20100331043A1 (en) * 2009-06-23 2010-12-30 K-Nfb Reading Technology, Inc. Document and image processing
US20110090253A1 (en) * 2009-10-19 2011-04-21 Quest Visual, Inc. Augmented reality language translation system and method
JP2011134144A (ja) * 2009-12-25 2011-07-07 Square Enix Co Ltd リアルタイムなカメラ辞書
US20120330643A1 (en) * 2010-06-04 2012-12-27 John Frei System and method for translation
WO2013003242A1 (en) * 2011-06-30 2013-01-03 Qualcomm Incorporated Efficient blending methods for ar applications

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
戸津 弘貴: "独断ゴメン、今月の一押しはこれだ! iPad/iPhoneアプリ勝手にランキング", MAC FAN, vol. 第19巻 第3号, JPN6018007003, 1 March 2011 (2011-03-01), JP, pages 194, ISSN: 0003748271 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10528852B2 (en) 2017-03-22 2020-01-07 Kabushiki Kaisha Toshiba Information processing apparatus, method and computer program product
US10832100B2 (en) 2017-03-22 2020-11-10 Kabushiki Kaisha Toshiba Target recognition device
KR20230053178A (ko) * 2021-10-14 2023-04-21 네이버 주식회사 이미지 번역 방법 및 시스템
KR102575743B1 (ko) * 2021-10-14 2023-09-06 네이버 주식회사 이미지 번역 방법 및 시스템

Also Published As

Publication number Publication date
JP6317772B2 (ja) 2018-04-25
CA2906399A1 (en) 2014-10-09
US9275046B2 (en) 2016-03-01
WO2014162211A3 (en) 2015-07-16
US20160004692A1 (en) 2016-01-07
WO2014162211A2 (en) 2014-10-09
US8761513B1 (en) 2014-06-24

Similar Documents

Publication Publication Date Title
JP6317772B2 (ja) 外国語の文字セットおよびそれらの翻訳を資源に制約のあるモバイル機器上にリアルタイムで表示するためのシステムおよび方法
US8965129B2 (en) Systems and methods for determining and displaying multi-line foreign language translations in real time on mobile devices
CN107656922B (zh) 一种翻译方法、装置、终端及存储介质
Arai et al. Method for real time text extraction of digital manga comic
JP5774558B2 (ja) 手書き文書処理装置、方法及びプログラム
CN107273895B (zh) 用于头戴式智能设备的视频流实时文本识别及翻译的方法
Ramiah et al. Detecting text based image with optical character recognition for English translation and speech using Android
Ponsard et al. An ocr-enabled digital comic books viewer
WO2017197593A1 (en) Apparatus, method and computer program product for recovering editable slide
CN112001394A (zh) 基于ai视觉下的听写交互方法、系统、装置
Pu et al. Framework based on mobile augmented reality for translating food menu in Thai language to Malay language
JP7389824B2 (ja) オブジェクト識別方法と装置、電子機器及び記憶媒体
KR100667156B1 (ko) 휴대형 카메라로 획득한 문자영상의 문자영역선택을 통한문자인식 장치 및 그 방법
Hsueh Interactive text recognition and translation on a mobile device
Chavre et al. Scene text extraction using stroke width transform for tourist translator on android platform
Sandnes Lost in OCR-translation: pixel-based text reflow to the rescue: magnification of archival raster image documents in the browser without horizontal scrolling
Baloun et al. ChronSeg: Novel Dataset for Segmentation of Handwritten Historical Chronicles.
KR20200058026A (ko) 증강 현실을 이용한 한자 공부를 위한 전자 장치의 동작 방법
Ma et al. Mobile camera based text detection and translation
Badla Improving the efficiency of Tesseract OCR Engine
Zheng et al. Chinese/English mixed character segmentation as semantic segmentation
Quehl et al. Improving text recognition by distinguishing scene and overlay text
Henke Building and Improving an OCR Classifier for Republican Chinese Newspaper Text
CN112801046B (zh) 图像处理方法、装置、电子设备和计算机存储介质
Singh et al. Deep Learning Based Enhanced Text Recognition System

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170313

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170313

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180306

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180330

R150 Certificate of patent or registration of utility model

Ref document number: 6317772

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150