JP2015522877A - 画像認識のための適応閾値処理 - Google Patents

画像認識のための適応閾値処理 Download PDF

Info

Publication number
JP2015522877A
JP2015522877A JP2015516152A JP2015516152A JP2015522877A JP 2015522877 A JP2015522877 A JP 2015522877A JP 2015516152 A JP2015516152 A JP 2015516152A JP 2015516152 A JP2015516152 A JP 2015516152A JP 2015522877 A JP2015522877 A JP 2015522877A
Authority
JP
Japan
Prior art keywords
character
pixel
pixels
computing device
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015516152A
Other languages
English (en)
Other versions
JP6046808B2 (ja
Inventor
イバンチェンコ、ボロディミル・ブイ.
ヘラー、ジェフリー・スコット
スプリー・ザ・サード、リチャード・ハワード
ビビレータ、ダニエル
Original Assignee
アマゾン・テクノロジーズ、インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アマゾン・テクノロジーズ、インコーポレイテッド filed Critical アマゾン・テクノロジーズ、インコーポレイテッド
Publication of JP2015522877A publication Critical patent/JP2015522877A/ja
Application granted granted Critical
Publication of JP6046808B2 publication Critical patent/JP6046808B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/50Service provisioning or reconfiguring

Abstract

アプリケーション、システム、またはサービスにテキスト情報を提供するための種々の手法が開示される。具体的には、種々の実施形態は、ユーザが携帯型コンピューティングデバイスのカメラによって画像をキャプチャすることを可能にする。コンピューティングデバイスは、テキストを転送してアクションを実質的にリアルタイムで実施するために、画像を取り込み、これを処理してテキストを認識、特定、および/または分離する能力を持つ。テキストは、Eメール、電話番号、URL、アドレスおよび同等物を含み得、アプリケーションまたは機能は、電話番号をダイヤルすること、URLへ誘導すること、アドレス帳を開いて連絡先情報を保存すること、地図を表示してアドレスを示すことなどであり得る。適応閾値処理は、テキスト認識工程の正確性および効率性を向上させるために、画像全体にわたる変化を説明するために用いられ得る。【選択図】 図3A

Description

人々がタブレットコンピュータおよびスマートフォンなどの携帯型デバイスを含むさまざまなコンピューティングデバイスをますます利用していることに伴い、人々がこれらのデバイスとやりとりする方途に適応することが好都合であり得る。ユーザは、電話番号を手動で入力して電話をかけること、Eメールアドレスを手動でタイプしてEメールを送信すること、ウェブアドレスをウェブブラウザに手動でタイプしてウェブページを閲覧することなどに慣れている。これらのタスクはしばしば単調であり、かつ時間がかかる。種々のデバイスにおいて、電話番号をお気に入りリストに割り当てる、ウェブアドレスをブックマークするなど、ユーザの時間を節約するための種々の方法が提供されてきた。技術が進歩するにつれて、および携帯型コンピューティングデバイス上に提供される機能およびサービスが進歩および拡張するにつれて、手早い方法および他の時間短縮方法が提供される方途は変化している。
本開示に従う種々の実施形態が図面を参照して記載される。
一実施形態に従う、携帯型コンピューティングデバイスを保持するユーザが地図アプリケーションにテキストを提供する実施例を説明したものである。 一実施形態に従う、携帯型コンピューティングデバイスを保持するユーザが地図アプリケーションにテキストを提供する実施例を説明したものである。 一実施形態に従う、携帯型コンピューティングデバイスを保持するユーザが地図アプリケーションにテキストを提供する実施例を説明したものである。 一実施形態に従う、携帯型コンピューティングデバイスを保持するユーザが電話アプリケーションに電話番号を提供する実施例を説明したものである。 一実施形態に従う、携帯型コンピューティングデバイスを保持するユーザが電話アプリケーションに電話番号を提供する実施例を説明したものである。 一実施形態に従う、携帯型コンピューティングデバイスを保持するユーザが電話アプリケーションに電話番号を提供する実施例を説明したものである。 一実施形態に従う、携帯型コンピューティングデバイスを保持するユーザがブラウザにテキストを提供する実施例を説明したものである。 一実施形態に従う、携帯型コンピューティングデバイスを保持するユーザがブラウザにテキストを提供する実施例を説明したものである。 種々の実施形態に従う、携帯型コンピューティングデバイス上のアプリケーションにテキストを提供するための工程の例を説明したものである。 種々の実施形態に従う、テキスト検出のための画像を前処理する実施例を説明したものである。 種々の実施形態に従う、ピクセル領域の拡大図を示したものである。 種々の実施形態に従う、距離対勾配の輝度グラフの例を説明したものである。 種々の実施形態に従う、距離対勾配の輝度グラフの例を説明したものである。 種々の実施形態に従う、距離対勾配の輝度グラフの例を説明したものである。 種々の実施形態に従う、テキスト検出の工程の例を説明したものである。 種々の実施形態に従う、テキスト検出のための画像を前処理する実施例を説明したものである。 種々の実施形態に従って利用され得るコンピューティングデバイスの正面図および後面図の例を示したものである。 種々の実施形態に従って利用され得るコンピューティングデバイスの正面図および後面図の例を示したものである。 種々の実施形態に従って利用され得るコンピューティングデバイスのコンポーネントレベルの例を説明したものである。 種々の実施形態が実施され得る環境を説明したものである。
本開示の種々の実施形態に従うシステムおよび方法は、テキスト情報をアプリケーション、システム、またはサービスに提供するための従来の手法において経験される、前述の、および他の欠陥の1つ以上を克服し得る。具体的には、種々の実施形態は、携帯型コンピューティングデバイスが、テキストを含む画像情報を取得すること、画像内のテキストの場所を特定すること、テキストの種類またはパターン(例えば、Eメール、電話番号、URLなど)を特定すること、テキストに関連付けられる機能またはアプリケーション(例えば、電話番号に電話する、インターネットブラウザを開くなど)を判定すること、および/またはテキストに関連付けられる機能またはアプリケーションを実施することなどのタスクを実施することを可能にする。少なくともこれらのタスクのうちのいくつかは、ネットワークを通して利用可能な少なくとも1つの資源をも用いて実施され得る。
種々の実施形態は、ユーザがテキストを含むオブジェクトに、このオブジェクトの画像をキャプチャするためにカメラを向けることを可能にする。カメラは、テキストを認識、特定、および/または分離してテキストをアプリケーションまたは機能に送信するために、画像を取り込み、かつ画像を処理する(または処理のために画像を提供する)能力をもつ携帯型コンピューティングデバイスと一体化され得る。アプリケーションまたは機能は次に、テキストを利用して実質的にリアルタイムでアクションを実施することができる。例えば、通りを歩いているユーザは、電話番号を含む広告を見る可能性がある。ユーザは、本明細書に記載の教示を用いて、例えば、スマートフォンのカメラを例えば番号に向けて、この番号を手動で入力することなく、この番号を電話アプリケーションに入力することにより、この電話番号に電話することができる。一例において、デバイスは、画像から番号を入力し、通話を開始するというユーザの指示を待ち得、または他の例において、電話はデバイスによって自動的にかけられ得る。本例は、ウェブアドレスまたはURLをウェブブラウザ、新規のメッセージウィンドウを開くためのEメールアドレス、地図アプリケーションを開いて道順を表示するための物理的な住所、およびさまざまな他のアクション可能なデータ種類を入力することに拡張され得る。
種々の実施形態は、照明、陰影、コントラスト、または他のかかる側面における変形に対してロバストな手法を用いて1つの画像の中のテキストを検出および認識することができる。例えば、カメラは、部分的に影で覆われた看板の画像をキャプチャし得る。少なくとも部分的にこの影によって、テキスト文字の色値と背景領域との間の分離は、影になっている領域と影になっていない領域との間で異なる。さらに、分離に影響を与え得る陰影における変化が存在し得る。ゆえに、その画像についての単一の閾は、ピクセル色値などの側面に基づいてテキスト領域から背景領域を分離するには不十分であり得る。本明細書に記載の手法は、それぞれの場所のための適切な閾を判定するために、1つの画像にわたってさまざまな場所で分離値を分析し得る。閾は、よって、1つの画像にわたってさまざまに異なり得、および照明条件、コントラストなどにおける変更に適合し得る。かかる手法は、いくつかの状況においてテキスト検出の正確性を向上させ得、また他の状況においてテキスト認識工程の速度および効率性を少なくとも増加させ得る。
種々の他のアプリケーション、処理、および使用が種々の実施形態に関して以下に提示される。
図1は、イベントのチラシ106の上で携帯型コンピューティングデバイス102を保持しているユーザを示す状況の例100を説明したものである。イベントのチラシ106は、イベントの場所の物理的な住所を含み、かつこの例において、ユーザはその場所への道順を探している。道順を取得するために、ユーザはデバイス102のカメラをアドレスを含むチラシの一部分に向けて、図1Aの画面104を通して見ることができるように、そのアドレスの画像をキャプチャまたは取得し得る。一実施形態において、画像を取得し、および/またはテキストの存在を示すプロパティを有する1つ以上の一部分を特定すると、デバイス102上のアプリケーションが光学的文字認識(OCR)アルゴリズムを自動的に実行して、チラシの画像化されたテキストを認識する。OCRアルゴリズムは、種々の実施形態において、種々の技術を活用する機械視覚アルゴリズムおよび他の画像前処理アルゴリズムを含み得る。OCRアルゴリズムは、テキストまたは文字の文字列を含み得る1つの画像の1つ以上の領域を特定および分析するために実行する。任意の特定された文字列は、Eメールアドレス、URL/ウェブアドレス、電話番号、および同等物などの関与するデータオブジェクトまたは種類の存在を示し得るパターンをさらに特定するために分析される。再び図1を参照して、物理的な住所の存在を示す文字列が特定されている。この例において、ユーザは、図1Bに示されるように、特定のアクションを実施する、または物理的な住所に関連付けられる既定のルーチンまたはワークフローを実行するユーザの意図を確定するように促される。この例において、既定のルーチンは地図アプリケーションを開かせ、住所への道順を表示させる。この例において、ユーザは第1に、「はい」ボタンを押すことによって意図を確定することができ、これにより図1Cに示されるように、イベントへの道順を記した地図が携帯型コンピューティングデバイス102の画面104上に表示される。
図2は、図2Aに示される名刺206の上で携帯型コンピューティングデバイスを保持しているユーザ202を示す状況の例200を説明したものである。上述のとおり、デバイス202、またはデバイスと通信しているサービスは、キャプチャした名刺の画像の中のテキストの場所を特定し、テキストの種類またはパターン(例えば、Eメールアドレス、電話番号、URLなど)を特定し、テキストの種類に関連付けられる機能またはアプリケーション(例えば、電話番号に電話する、インターネットブラウザを開くなど)を判定し、アプリケーションまたは機能に場所を特定されたテキストの少なくとも関連のある一部分を送信してそれとともに操作を実行する。この例において、名刺206は、関与する複数のデータオブジェクトを含み、これらは電話番号、Eメール、および物理的な住所である。一例において、ユーザは、複数のデータ種類が特定された場合に、1つのデータ種類を別のものよりも優先させる、種々の機能またはアプリケーションに優先度を割り当てることができる。別の例において、デバイス202は、さまざまな利用可能な機能またはアプリケーションの中からの選択をユーザに促し得る。
再び図2を参照して、2つ以上のデータオブジェクトを特定するデバイスは、図2Bに示されるように、オブジェクトを連絡先情報として保存するためのアドレス帳アプリケーションを立ち上げるという選択肢をユーザに促し得る。代替的に、ユーザは、「この番号に電話するには1を、道順を探すには2を、Eメールを送信するには3を、連絡先を保存するには4を押してください」などのメッセージを持つ画面204を介して促され得る。一例において、データ種類のテキストは、自動的に各々のデータフィールドの種類へと追加され得る。さらに、種々の実施形態において、デバイス202は、名刺などのオブジェクトを認識し、これにデフォルトのワークフローを関連付けるためのダウンロード可能なプラグインをプログラムされ、あらかじめ組み込まれ、または含み得、これはいくつかの例において、データを連絡先として保存するためであり得る。図2の例において、ユーザは、図2Bに示されるように、名刺206に関連付けられる連絡先を保存するように促される。この場合、しかしながら、ユーザは名刺上の電話番号に電話することを所望し、「いいえ」を選択する。一例において、デバイス202は、個々の選択肢をユーザに再び促し得るか、またはユーザは、既定のルーチンを自動的に実行するか、または所定の操作を実行するというアプリケーションの優先度を設定した場合がある。ここで図2Cを参照して、ユーザは、この電話番号に電話をかけるという選択肢を選択したか、またはユーザは、電話番号をダイヤルすることを優先操作として割り当て、この番号に電話をかけているデバイス202が示される。
図3は、ユーザが携帯型コンピューティングデバイス302を窓308の方に向けている状況の例300を説明したものである。窓308は、この例において、図3Aに示される、その上に印刷されたウェブアドレスを有する。種々の実施形態に従い、道を歩いているユーザは、アドレスを手動でウェブブラウザの中へとタイピングする代わりに、ウェブアドレスに移動するための近道として、デバイス302に関連付けられるカメラをウェブアドレスに向け得る。この例において、ユーザは、ウェブアドレスを含む窓の画像を手動でキャプチャするために、画面304上のアイコン306を選択するか、または別のかかる入力を提供しなければならない。前の例において、カメラは、画像をキャプチャしてルーチンを開始する、または特定のデータオブジェクトに関連付けられる動作を実行するというユーザの意図を予測するために、例えば、ジャイロスコープ、加速度計、光センサ、またはそれらの組み合わせを含んでいた場合がある。この例において、ユーザはデバイス302をかざし、カメラで窓308を狙い、アイコン306を押してウェブアドレスの画像をキャプチャする。次に、上述のとおり、デバイスまたはサービスは、図3Bに示されるように、OCRアルゴリズムを通じて実行し、画像の中のテキストの場所を特定し、テキストの種類またはパターン、この例においてはウェブアドレスを特定し、ブラウザアプリケーションを立ち上げ、ユーザをレストランのウェブアドレスへと誘導する。
図4は、種々の実施形態に従うコンピューティングデバイス上のアプリケーションまたは機能に文字情報を提供するための工程の例400を説明したものである。本明細書において検討されるあらゆる工程について、別様に記載のない限り、種々の実施形態の範囲内で、追加的な、より少ない、または代替的なステップが、類似のまたは代替的な順序で、または並行して実施され得るということが理解されるべきである。この例において、画像または画像情報(例えば、ビデオストリーム)が取得される402。種々の実施形態において、画像または画像情報は、携帯型コンピューティングデバイスのカメラアプリケーションから取得される。一例において、カメラに面したオブジェクトの上にデバイスを空中停止すると、カメラに少なくとも1つの画像を自動的にキャプチャさせるか、または一連の画像を記録し得る。別の例において、カメラは、画像をキャプチャするために、例えば、ユーザがタッチ画面上のアイコンを選択するなどによるユーザからの入力を必要とする。取得された画像情報は、処理されてテキストまたは文字の文字列のプロパティを有する少なくとも1つの領域の場所を特定する404。一例において、処理は画像情報を受信すると自動的に開始される。カメラはまた、連続画像キャプチャモードであることもできる。これは、しかしながら、エネルギー集約型であるため、ユーザは、デバイスを連続的に画像キャプチャおよび処理モードで動作させる、またはこれを無効にする、さまざまな選択肢または環境を選択し得る。例えば、設定は、バッテリが特定のレベルまで消耗したときに、連続的なキャプチャおよび処理モードが自動的にオフにされるように選択され得る。この例において、テキストの文字列は、テキストの文字列406の中のテキストを認識するための光学式文字認識アルゴリズムを用いて分析される。OCRアルゴリズムは、機械視覚アルゴリズムおよび他の画像処理技術またはアルゴリズムを含むことができる。認識されたテキスト408に対応するテキストパターン(例えば、Eメール、電話番号、URLなど)が特定される。この例において、判定されたテキストパターン410に関連付けられるアプリケーションおよび認識されたテキストが自動的にアプリケーションに提供される。
一実施形態において、デバイスは、テキストの一部分内の関与するデータオブジェクトを認識しない場合がある。この場合、デバイスは、ユーザにウェブ検索を実施する、プラグインを検索して認識されていないパターンを認識するなどのさまざまな他の選択肢を提供するようにプログラムされ得る。ユーザは、テキストの一部分を選択して、このテキストをEメール、ノートパッド、または種々の他のアプリケーションにコピー/ペーストするように促される場合がある。
種々の実施形態は、照明、陰影、コントラスト、または他のかかる側面における変化に対してロバストな画像の中のテキストを検出および認識する手法を提供する。例えば、図5は、コンピューティングデバイスのカメラを用いてキャプチャされる(または別様に取得される)ことができる画像の一部分の例500を説明したものである。画像部分の例500は、図3に関して上述した、「Good Food Cafe」のURLに対応する。図示される画像部分500は、文字「o」502aおよび502bの2つの例を含む。図示されるように、キャプチャされた画像部分は、文字のうちの一方502bの一部分にかかる影の領域504を含む。この例において、部分500は、他のかかる選択肢の中でもとりわけ、画像がカラー画像であるか、またはグレースケール画像に変換されたカラー画像であっても、グレースケール画像であると仮定される。領域が論理的に複数のセグメント506に分割されると、影の領域の外にあり、かつテキスト文字の一部分を持たないセグメントは、黒のテキスト文字であれば0の色値を有する場合、実質的に白(例えば、1の色値を有する)であると見なされ得る(他のかかる選択肢の中でもとりわけ)。影の領域504内のセグメントにおいて、しかしながら、背景色は白ではなくグレーに見える。ゆえに、一例において、黒の値はすべての領域において実質的に同一(例えば、0)のまま留まるが、背景の色値は、影になっていない領域(例えば、0の色値)と影になっている領域504(例えば、0.5の色値)との間で実質的に変化し得る。単一の閾が用いられ得る従来の閾値処理手法を用いる場合、影になっていない領域については0.4の閾が十分であり得るが、すべての色値がカットオフ閾を超える場合、すべての影になっている領域の中のすべてのセグメントが背景を含むように判定されることを招き得るので、情報の一部分が失われる。
それにより、種々の実施形態に従う手法は、セグメントまたは領域のために適切な局所の閾を判定することを試みるために、1つの画像にわたって複数のセグメントまたは領域のうちのいくつかまたはすべてを分析することができる。かかる適応できる手法は、照明、彩色、陰影、または他のかかる変化が大きい画像での、改善されたテキスト検出を提供することができる。検討されたように、他の手法においては、1つの画像にわたる位置の複数の領域が代替的に選択されるが、1つのかかる手法は、他のかかる選択肢の中でもとりわけ、1つの画像(または、例えば、テキストを含む可能性が高いと判定された画像部分)を複数のセグメントにセグメント分けすることができる。
画像が複数のセグメントにセグメント分けされる一例において、それぞれのセグメントが、そのセグメントが文字またはテキストに対応し得るエッジ領域を含むかどうかを判定することを試みるために分析され得る。例えば、図6の拡大図600において説明されているセグメント508を考察する。セグメントは、背景部分602および文字「o」の一部分に対応する文字部分604の2つの主要部分を含む。この例では背景部分602と文字部分602との間に明らかなエッジ境界が存在するが、アンチエイリアス処理、ぼやけ、および他のかかる問題のために、移行箇所がそれほど明確でないことが多い。画像セグメントの1組の勾配が分析され得、この勾配はセグメントのピクセル606の間の色値の量の変化を表す。この例において、領域間の移行箇所の近くに1組の勾配の大きい値が存在し得る。それにより、このセグメントは、テキスト部分を含むか分析される候補として選択され得る。少なくともいくつかの実施形態において、勾配の閾は、セグメントをテキストの候補とするためにどのくらいの変更が必要であるかを判定するように設定され得る。検討されたように、画像は、この判定を支援するために、分析前にグレースケールまたは単色の画像に変換され得る。
エッジ位置を含むと判定されたそれぞれのセグメントまたは領域について、さまざまなピクセルのための色値のサンプリング(または「ピクセル値」)が判定され得、このサンプリングは、エッジ境界のそれぞれの側のピクセルを含む。例えば、エッジの第1の側の一連のいくつかのピクセルおよびエッジの他方側の一連のいくつかのピクセル(同一のまたは異なる)が判定され得る。これは、例えば、エッジ領域を中心とした20×20のピクセル配列、エッジの所与の距離の範囲内の無作為の選択などを含むことができる。ピクセルの数、エッジ領域からの距離、および他のかかる側面は、実施形態の間でさまざまであることができる。ピクセル値は、セグメントに対する背景ピクセル値およびセグメントに対する文字ピクセル値を判定することを試みるために分析され得る。例えば、理想的な背景が1の値を持つ白である場合、エッジの背景側のピクセル値は0.4〜0.8の範囲の値を戻し得る。同様に、テキスト側のピクセル値は、0.0に近い値を戻し得る。それにより、システムは、背景の値がこれらのピクセル値の最大値(例えば、0.9)(または平均値、加重値など)であること、およびテキストの値が約0.0であることを判定することができる。ゆえに、0.5の閾は、背景領域からテキストを分離するために十分でない場合がある。この例において、アルゴリズムは、値の間の差異の割合に閾を設定することができる。いくつかの実施形態において、アルゴリズムは、最大点の中間点に閾を設定し得、ここで約0.4の色値を設定する。システムが保守的であることを望み、背景としてより少ないデータを排除する実施形態において、閾はより高く、およびその逆に設定され得る。エッジ領域を含むセグメントのそれぞれのピクセルが次に分析され得、対応するピクセル値がそれぞれ、セグメント閾に合致するか、セグメント閾を超過するか、またはセグメント閾未満であるかどうかに応じて(カラースケールなどの要因に応じる)、ピクセルがテキストまたは背景ピクセルとして指定され得る。
セグメント分けは、1つの画像のより小さい領域上で照明および他のかかる側面がより均一となるという仮定の上で機能する。セグメントの大きさまたはピクセル区域は、しかしながら、十分な範囲の前景および背景ピクセルを覆う程度に大きくなければならず、そうでなければ芳しくない閾値が選ばれ得る。他方、大きすぎる領域を選ぶと、大きい領域がかなりの変化を含み得る場合、変化を的確に説明する処理能力を制限する場合がある。
図7A、7B、および7Cは、走査線、ピクセル行、または種々の実施形態に従って生成され得る、異なる画像セグメントを通じた他のかかる横断面について取得され得るピクセル値の例を説明している。種々の実施形態において、ピクセル値は、グレースケールピクセル輝度値、カラーピクセル輝度値、ピクセル飽和値、ピクセル飽和レベル、および同等物を指す。コンピュータ内に保存された画像を表すそれぞれのピクセルが、そのピクセルがどのくらい明るいか、および/またはピクセルがどの色であるべきかを記述するピクセル値を有する。グレースケール画像について、ピクセル値は典型的に、ピクセルの明るさを表す単数である。例えば、一般的なピクセル形式はバイト画像であり、ピクセル値の数が0〜255の範囲の可能な値を付与する8ビットの整数として保存される。この例において、ゼロは黒と解釈され、255は白と解釈され、その間の値は異なるグレーを構成する。図7Aは、図5の領域508を水平に横切る個々のピクセルによって測定される、輝度の変化を説明するグレースケール画像のための距離対輝度のグラフの例である。左から開始して右へ移動する(図5において線で示される)領域508は、例えば、高い輝度の白いピクセル領域で開始し、文字の一部分に対応する低い輝度の暗いまたは黒いピクセル領域で終了する。簡単にするために、以下の例についての可能なピクセル値の範囲は0〜1の値で表される。700Aのグラフを参照して、白いピクセル領域の輝度は実質的に完全に明るくしたものに近く、1.0の値で示される。領域508を右へさらに移動すると、最終的には0.0に近いレベルに対応する輝度における急激な低下がある。この例において、0.5の輝度以上のすべてが画像背景の一部と見なされ、かつ0.5以下のすべてが、テキストであり得る関与するオブジェクトの一部と見なされるように、0.5の閾値702Aが選ばれ得る。
ここで、図5の領域510に対応する図7Bを参照して、この例において、領域510の最も左側は影の領域504で開始し、これは最も右の端のテキスト領域よりも相対的に高いが、影の領域のために、図7Aに関して記載される初期の輝度と比較すると輝度が初期にはそれほど高くない。グラフ700Bを参照して、より明るいピクセル領域の輝度は、領域の影の領域504との近さのため、輝度において低く、これは0.5の初期値を付与する。領域510を右へ移動すると、最終的には0.0に近い値に対応する輝度における急激な低下がある。この例において、0.3の輝度より大きいもののすべてが画像背景の一部と見なされ、かつ0.3未満のすべてが、テキストであり得る関与するオブジェクトの一部と見なされるように、0.3の閾値702Bが選ばれ得る。閾値はよって、ピクセル輝度のより低い相対変化の結果として、領域508のものよりも低くなる。
図7Cは、図5の領域512を水平に横切る個々のピクセルによって測定される輝度の変化を図で説明したものである。この例において、グラフ700Cは、領域512からの初期の輝度の値1.0を示し、領域512を右に移動すると、やはり0.0に近い輝度の値に対応して輝度の急激な低下がある。継続して右に沿って、文字部位の他方側の輝度に別の大きな上昇があり、結果として再び約1.0の輝度の値となる。図7Cにおいて説明されるように、線が影の領域504に到達すると、輝度は再度下落して領域512の右側へと移動する。この例において、照射された部位とより暗い文字部位との間に著しく十分なコントラストがあるため、0.4の輝度の値を有する閾702Cが選ばれる。図5の例に広範囲な閾値処理が適用され、かつ、例えば、全体の画像部分について0.5の閾が選ばれていた場合、領域512を含む画像の右側の領域は0.0値にフィルタをかけていたことになる。適応閾値処理技術を活用することで、しかしながら、文字および背景領域の正しい特定が可能となった。
図8は、種々の実施形態に従って用いられ得るテキスト認識アルゴリズムまたはエンジンにテキストデータを提供するための処理の例800を説明したものである。本明細書において検討されるあらゆる工程について、別様に記載のない限り、種々の実施形態の範囲内で、追加的な、より少ない、または代替的なステップが、類似のまたは代替的な順序で、または並行して実施され得るということが理解されるべきである。この例において、携帯型コンピューティングデバイスのカメラによってキャプチャされた画像が取得される802。少なくともいくつかの実施形態において、画像はグレースケール画像に変換され得、他のかかる前処理は、テキスト認識および他のかかる目的のために当技術分野で既知であるように実施され得る。画像における複数の領域の画像輝度勾配が分析されて1組のエッジ位置804を特定する。エッジを輝度における変化がいくつかのピクセルにわたって発生していると解釈すると、例えば、この輝度変化の導関数を計算することおよび計算された値がエッジ選択閾に合致するか超過する領域を選択することにより、エッジ検出アルゴリズムがエッジを判定することができる。1組のエッジ位置のそれぞれに隣接する、または1組のエッジ位置のそれぞれからの所定距離の範囲内のピクセル値が分析される806。複数の領域の少なくとも一部分のための、画像の文字部分および背景部分についての相対ピクセル値が判定される808。この相対ピクセル値に少なくとも部分的に基づいて、複数の領域の少なくとも一部分についての文字の閾(または背景の閾)が判定される810。各々のピクセルの閾に少なくとも合致するピクセル値を有するピクセルに少なくとも部分的に基づいて、文字領域が次に判定される812。
適用可能な局所の閾を用いて可能性のある文字領域が判定された後、結合コンポーネントアルゴリズムを用いて、領域が複数の結合されたコンポーネントに組み立てられ得る。結合されたコンポーネントは、例えば、ピクセルの輝度および関与するピクセルの間の既定の距離を基本として結合されたピクセルであることができる。ゆえに、その領域内に小さい点または染みを含むセグメントは、点が類似の輝度または色値を有する他の領域の中のピクセルと近接していないため、隣接する領域の中のエッジと連結されない可能性が高い。結合コンポーネントアルゴリズム、または他のかかる処理はまた、いったん判定されると、それぞれの結合されたコンポーネントが少なくとも1つの文字制約を満たすかどうかを判定するために、結合されたコンポーネントを分析することもできる。この制約は、形状および寸法などの情報を含むことができ、隣接するテキストのプロパティに少なくとも部分的に基づくことができる。隣接するテキスト文字がとりわけ、かかる文字の間の相対的に一定の間隔、類似のアスペクト比、および類似の垂直および水平配列などのある特定のプロパティを共有すると推測され得る。共有のプロパティは、例えば、隣接する結合されたコンポーネントの重心(またはそれぞれの文字の上部または下部)が同一の線にほぼ沿っているかどうか、隣接する文字の高さおよび幅が割合の特定の範囲に収まるかどうか、および文字の間の間隔が実質的に類似するかどうかを判定することによって確認され得る。これらの決定を行うためのパラメータは、経験的であるか、そうであることができる。上記に記載したプロパティおよび技術に基づいて、結合コンポーネントアルゴリズムはまた、形状、結合の配向、および正面画像から取り込まれていない、または画像にわたり対角線である1つの画像の中のテキストの行の方向をほぼ判定することもできる。
図9は、画像900にわたり対角線上にキャプチャされたテキストの複数の行の画像部分900を説明したものである。画像部分900はやはり、図3において説明される「Good Food Cafe」のURLに対応する。この例において、テキストの一番上の行904には「Good Food Cafe」と記載され、テキストの2番目の行908には「www.goodfood.com」と記載されている。この例において、アルゴリズムは、それぞれの結合されたコンポーネントの重心の位置を判定することができ、かつ相対位置およびこれらの重心の間隔を分析して、画像部分の中の可能性のあるテキストの配向を判定することができる。例えば、隣接する結合されたコンポーネントの重心(図において点線で表される)は、線が所定量の偏差内でこれらの点を通り抜けることができた場合、同一の線上にあると見なされ得、この適合線に沿った点は許容可能な偏差の量の範囲内と一致する。しかしながら、文字の上部または下部の点は、他の実施形態において、重心の点の代わりに、またはこれを用いて判定され、用いられ得る。ある特定の文字の組み合わせは、異なる点の位置を使用するとよりうまく処理し得るので、十分な結果が別様には得られない場合、異なる点が用いられ判定される。
この例において、「Good Food Cafe」についてのテキストまたは文字の文字列は、重心の平均線906の周りに大まかに配列し、「www.goodfood.com」についての文字列は、重心の平均線908の周りに大まかに配列する。テキストライン構成アルゴリズムは、テキストの方向およびどのコンポーネントが同一の線に沿うかを判定するために実装され得る。中心の平均線906および908の近くの対角線上にあるより多くの重心点の存在に基づいて、アルゴリズムは、例えば、ほぼ水平である、「Good」の1番目の「o」とURLの2番目の「w」の2つの重心点を通る仮想線を無視することを知り得る。
加えて、文字が2つ以上の結合されたコンポーネントに分かれることを可能にするために、単一のユニットとして扱われて上記の制約を満たすことができる複数のコンポーネントを判定するための追加的な確認が行われることができる。文字制約のうちの少なくとも1つを満たさないコンポーネントは除去される。文字は近くにあってともに語を形成する他の文字に近く、かつ類似していなければならないと推測されるため、長い直線および長方形ならびに交差線およびボックスなどの制約のうちの少なくとも1つを満たさないコンポーネントは除去される。交差線およびボックスの除去は、長い直線、長方形、および交差線ならびにボックスがテキストに対応しないという考えに基づく。加えて、結合アルゴリズムは、画像中に表れるテキストの形状をほぼ判定するために適用され得る。
いったん結合されたコンポーネントが分離されると、ストローク幅変換(SWT)アルゴリズムまたは他のかかる処理は、光学式文字リーダの入力を削除するために、1つの画像からのテキストの可能性のある領域のセグメント分けを試みるために提供され得る。アルゴリズムは、ピクセル毎に値を含むものからもっとも可能性の高いストローク幅を含むものへと画像データを転換することができ、その結果は、縮尺、方向、フォント、および言語に関わらずテキストを検出することができる。ある場面の他の要素からテキストを分離する1つの機能は、そのほぼ一定のストローク幅である。これは、テキストを含む可能性のある領域を正確に特定するために利用され得る。続いて、文字領域内のフィルタされかつ処理されたテキストを認識するために、光学式文字認識アルゴリズムを用いて文字の領域が分析される。テキスト位置および配列データをSWT(または他のそのようなもの)アルゴリズムに提供することの利点は、データがこの処理に開始点を提供し、よって処理の速度および正確性を向上させることである。
種々の実施形態において、オブジェクトの複数の画像が分析されて、ノイズ、ぼやけ、およびかかる他の同種のものなどの画像の不完全さを補正することができる。この技術は、統計的に、ノイズ、ぼやけ、およびさまざまな照明の変化が、複数の画像フレームにわたり一定でなく、かつこれらの不完全さが容易に廃棄またはフィルタで取り除くことができ、よって画像処理の効率性を増大させるという仮定に基づいて用いられる。いくつかの実施形態において、1組の画像が分析され、次にその結果がもっとも可能性のある入力へと進む。他の実施形態において、画像は、許容できる結果が判定されるまで一度に1つ分析され得、この後画像は廃棄される。種々の実施形態の範囲内で種々の他の手法も用いられ得る。
種々の実施形態において、図2に関して上述した通り、機能またはアプリケーションは、テキストパターンが電話番号を示す場合、番号をダイヤルすることを、またはテキストパターンが電話番号および物理的な住所の存在を示す場合、連絡先情報を保存するためのアドレス帳を開くことを伴い得る。アプリケーションは、図3で説明されるようにテキストパターンがウェブアドレスを示す場合、URLへの誘導であり得る。アプリケーションは、図1で説明されるようにテキストパターンが物理的な住所を示す場合、地図を表示してアドレスを示し得る。機能またはアプリケーションはまた、種々の言語翻訳をも実施し得る。アプリケーションはまた、計算機であり得、数学の方程式を解く能力を有し得、または友人とレストランで食事をする場合に、チップを計算するまたは複数の方途で勘定を折半するための勘定書の特性を特定するためのプラグインに関連付けられ得る。一実施形態において、ユーザは、一次的アクションと、特定のデータオブジェクトに関連付けられる少なくとも二次的アクションからを選ぶことを促され得る。名刺の例を再び参照して、名刺の認識に関連付けられる所定の一次的アクションは、名刺上の情報を新規の連絡先としてアドレス帳アプリケーションの中に保存することであり得る。二次的アクションは、カード上の電話番号に電話をかけることであり得、および三次的アクションは、住所への道順を調べることであり得る。
一実施形態において、多くの実施形態の携帯型コンピューティングデバイスと通信しているシステムまたはサービスは、ユーザの活動を長期間監視して、アプリケーションによって実施されるアクションを調整することができる。例えば、ユーザが常に名刺上の番号に電話することを選び、この連絡先を保存することを決して選ばない場合、デバイスはアルゴリズムを調整して自動的に電話するか、またはユーザにその番号にまず電話することを促す。この例はまた、他のデータの種類に拡張されることもできる。他の実施形態において、デバイスは、さまざまな状況においてユーザの意図を予測するために、さまざまな挙動予想アルゴリズムまたはインテントウェアをリロードされ得る。例えば、デバイスは、ユーザ対面のカメラ、ジャイロスコープ、加速度計、光センサ、またはそれらの組み合わせを含み得る。ユーザ対面のカメラは、顔面認識およびジェスチャ追跡アルゴリズムを用いてユーザが見詰めている方向を判定し得る。光センサは、ユーザのカバンまたはポケットのなかにある可能性を判定し得る。この例において、デバイスは、エネルギー節約モードに入り得、センサによって十分な量の光が検出されるまで画像をキャプチャまたは処理することを控え得る。ジャイロスコープおよび加速度計は、ユーザがデバイスをどのように保持し、動かしているかを検出するために用いられ得る。いくつかの例において、ユーザは、画像の取り込みまたはキャプチャを暗示する特定の様式で予測運動を行うか、またはデバイスを保持する。一例において、動きを記録するジャイロスコープおよび加速度計は、やはりデバイスエネルギー節約モードにし得る。この例において、よい画像をキャプチャすることが難しい場合があり、デバイスはこれらが正常な画像キャプチャ条件でないことを合理的に推察するようにプログラムされ得る。種々の他の方法またはユーザの意図を予測することもまた本開示の範囲内で利用され得る。
種々の実施形態は、画像前処理アルゴリズムおよび/または技術を利用して特定および/または認識のためにテキストを標準化する。実世界のテキストは、異なる大きさの、歪曲した、ぼやけた場合のある多くの色、形状、フォント種類および同等物である。機械視覚画像処理技術が用いられることができ、これは、閾値処理(グレースケール画像を白黒に変換する、またはグレースケール値に基づいて分離を用いる)、セグメント化、斑点抽出、パターン認識、バーコードおよびデータマトリクスコード読込、計測(オブジェクトの直径を測定する)、位置付け、エッジ検出、色分析、フィルタリング(例えば、形態的フィルタリング)、およびテンプレートマッチング(特定のパターンを発見、マッチング、および/または勘定する)を含むことができる。OCRによってより容易に認識可能である、テキストを処理するためのさまざまな他の技術もまた本開示の範囲内で利用され得る。
図10は、種々の実施形態に従って用いられ得る、携帯型コンピューティングデバイス1000の正面図および後面図の例を説明したものである。1つの種類の携帯型コンピューティングデバイス(例えば、スマートフォン、電子書籍リーダ、またはタブレットコンピュータ)が示されるが、判定、処理、および入力を提供する能力があるさまざまな他の種類の電子デバイスが本明細に記載の種々の実施形態に従って用いられ得るということが理解されるべきである。デバイスは、例えば、ノート型コンピュータ、携帯情報端末、携帯電話、ビデオゲーム機またはコントローラ、および携帯型メディアプレーヤをとりわけ含むことができる。
この例において、携帯型コンピューティングデバイス1000は、画像コンテンツをデバイスの1人以上のユーザまたは閲覧者に表示するように動作可能な表示画面1002(例えば、液晶画面(LCD)要素)を有する。少なくともいくつかの実施形態において、表示画面は、例えば、容量性または抵抗性のタッチ技術を用いてタッチまたはスワイプをベースとした入力を提供する。かかる表示要素は、例えば、ユーザが、右または左のマウスのボタン、タッチポイントなどのボタンの画像に対応する画面のある部位を押すことによって入力を提供することを可能にするために用いられ得る。デバイスはまた、デバイスの側面または背面上などのデバイスの他の部位上に接触感知式および/または感圧式材料1010を有することもできる。少なくともいくつかの実施形態において、かかる材料に接触するまたは握ることによってユーザが入力を適用することができるが、他の実施形態において、材料は、材料に関するパターン模様入りの表面の動きを通じてデバイスの運動を検出するために用いられ得る。
携帯型コンピューティングデバイスの例は、従来の画像および/またはビデオキャプチャなどの目的のために1つ以上の画像キャプチャ要素を含むことができる。本明細書に記載したように、画像キャプチャ要素はまた、動きを判定し、ジェスチャ入力を受信する目的のために用いられることもできる。この例における携帯型コンピューティングデバイスは、デバイスの「前面」に1つの画像キャプチャ要素1004を含み、デバイスの「背面」に1つの画像キャプチャ要素1012を含むが、画像キャプチャ要素はまた、または代替的に、デバイスの側面または角に置かれ得、および類似のまたは異なる種類の任意の適切な数のキャプチャ要素が存在することができるということが理解されるべきである。それぞれの画像キャプチャ要素が、例えば、カメラ、電荷結合素子(CCD)、動き検出センサ、または赤外線センサであり得、または別の画像キャプチャ技術を利用することができる。
携帯型コンピューティングデバイスはまた、少なくとも1つのマイク1006またはある特定の実施形態において位置の変化を判定する、またはユーザ入力を受信するために用いられ得るものなどの音声データキャプチャする能力がある他の音声キャプチャ要素を含むこともできる。いくつかのデバイスにおいて、1つのマイクのみが存在し得るが、他のデバイスにおいては、デバイスのそれぞれの側面および/または角に、または他の適切な場所に少なくとも1つのマイクが存在し得る。
この例におけるデバイス1000はまた、デバイスの位置、方向、動き、または配向などの情報を提供するように動作可能な、少なくとも1つの動きまたは位置判定要素1008を含む。これらの要素は、例えば、加速度計、内部センサ、電子ジャイロスコープ、電子コンパス、およびGPS要素を含むことができる。別のデバイスのための少なくとも1つの制御信号をトリガすることができるさまざまな種類の動きまたは配向の変更が、デバイスに入力を提供するために用いられ得る。このデバイスの例はまた、1つ以上の携帯型コンピューティングデバイスと通信するように動作可能な、少なくとも1つの有線または無線コンポーネントを含み得るなどの少なくとも1つの通信機構1014を含む。デバイスはまた、従来のプラグイン手法を通じて、または電力マットまたは他のかかるデバイスとの近接を通じた容量性充電などの他の手法を通じて再充電されるように動作可能なバッテリを含み得るなどの電力システム1016を含む。種々の実施形態の範囲内でさまざまな他の要素および/または組み合わせもまた可能である。
図10、図11に関して記載したような機能性を提供するために、図10に関して記載したデバイス1000などの携帯型コンピューティングデバイス1100の1組の基本コンポーネントの例を説明する。この例において、デバイスは、少なくとも1つの記憶デバイスまたは要素1104内に格納され得る命令を実行するための少なくとも1つのプロセッサ1102を含む。当業者には明白であるように、デバイスは、プロセッサ1102によって実行されるためのプログラム命令のための第1のデータ記憶装置などの多くの種類のメモリ、データ記憶装置またはコンピュータ可読の記憶媒体を含むことができ、画像またはデータのために同一または別個の記憶装置が用いられることができ、取り外し可能な記憶メモリは他のデバイスなどと情報を共有するために利用可能である。
携帯型メディアプレーヤなどのデバイスは音声スピーカなどの他の手段を介して情報を伝達し得るが、デバイスは典型的に、タッチ画面、電子インク(eインク)、有機発光ダイオード(OLED)または液晶画面(LCD)などのいくつかの種類の表示要素1106を含み得る。検討されたように、多くの実施形態において、デバイスは、ユーザ、人々、またはオブジェクトをデバイスの近くに撮像することができる1つ以上のカメラなどの少なくとも1つの画像キャプチャ要素1108を含み得る。少なくともいくつかの実施形態において、デバイスは、画像情報を用いてユーザによるジェスチャまたはモーションを判定することができ、これはユーザが実際に携帯型デバイスに接触する、および/または動かすことなく、携帯型デバイスを通じて入力を提供することを可能にする。画像キャプチャ要素はまた、本明細書に記載されるように、デバイスの周囲環境を判定するために用いられ得る。画像キャプチャ要素は、ユーザがデバイスを操作しているときに、ユーザの画像をキャプチャするために十分な解像度、集束範囲および可視領域を有するCCD画像キャプチャ要素などの任意の適切な技術を含むことができる。
デバイス、は、多くの実施形態において、1つ以上の音声スピーカおよび/またはマイクなどの少なくとも1つの音声要素1110を含み得る。マイクは、声認識、デジタル録音など、声で可能となる機能を促進するために用いられ得る。音声スピーカは音声出力を実施し得る。いくつかの実施形態において、音声スピーカ(複数可)は、デバイスから分離して存在し得る。
デバイスは、ユーザから従来の入力を受信することができる少なくとも1つの追加的な入力デバイス1112を含むことができる。この従来の入力は、例えば、これらによってユーザがデバイスにコマンドを入力することができる押しボタン、タッチパッド、タッチ画面、ホイール、ジョイスティック、キーボード、マウス、トラックボール、キーパッドまたは任意の他のかかるデバイスまたは要素を含むことができる。これらのI/Oデバイスは、いくつかの実施形態において、無線赤外線またはBluetooth(登録商標)または他のリンクによってさえも接続され得る。いくつかの実施形態において、しかしながら、かかるデバイスはいかなるボタンも含まない場合があり、ユーザがデバイスと接触することなくデバイスを制御することができるように、視覚および音声コマンドの組み合わせによってのみ制御され得る場合がある。
デバイスの例はまた、特定の無線チャネルの通信範囲内で1つ以上の携帯型コンピューティングデバイスと通信するように動作可能な1つ以上の無線コンポーネント1114を含む。無線チャネルは、デバイスが無線で通信することを可能にするために用いられる、Bluetooth、セルラー、またはWi−Fiチャネルなどの任意の適切なチャネルであることができる。デバイスが、当技術分野で既知であるような1つ以上の従来の有線通信接続を有することができるということが理解されるべきである。デバイスの例は、携帯型コンピューティングデバイスに電力を提供するための、当技術分野で既知のさまざまな電力コンポーネント1116を含み、これは電力パッドまたは本明細書に記載に記載される類似のデバイスとともに用いられるための容量性充電要素を含むことができる。デバイスの例はまた、デバイスのケーシングの周りの接触感知式材料などの少なくとも1つの接触感知式および/または感圧式要素1118、握ることに基づく入力をデバイスに提供する能力がある少なくとも1つの領域を含むことができる。いくつかの実施形態において、この材料は、例えば、デバイスのまたはユーザの指などの動きを判定するために用いられ得るが、一方他の実施形態において、材料は、特定の入力またはコマンドを提供するために用いられ得る。
いくつかの実施形態において、デバイスは、ユーザまたはアプリケーションからのコマンドを受け取ったとき、または音声入力またはビデオ入力を判定しようと再試行しているときなどに、検出および/またはコマンドモードを起動および/または解除する能力を含むことができる。いくつかの実施形態において、デバイスは、赤外線検出器または運動センサを含むことができ、例えば、これらは1つ以上の検出モードを起動するために用いられ得る。例えば、その部屋にユーザが存在しないとき、あるデバイスは、デバイスを検出したり、またはデバイスと通信したりすることを試みない可能性がある。赤外線検出器(すなわち、状態の変化を検出する1ピクセル分解能を持つ検出器)が、例えば、ユーザがその部屋に入ってきたことを検出した場合、デバイスは、ユーザによって必要とされたときにデバイスの準備ができているようにするが、ユーザが近くにいないときは電力および資源を節約することができるように、検出または制御モードを起動することができる。
種々の実施形態に従うコンピューティングデバイスは、デバイスが周辺光に曝露しているか、または相対的または完全な暗闇にあるのかを判定することができる光検出要素を含み得る。かかる要素は、いくつかの方途において有益である場合がある。ある特定の従来のデバイスにおいて、光検出要素は、電話の表示要素を一時的に切る(デバイスをユーザの耳に当てている間、ユーザが表示要素を見ることができないため)アクションをトリガする、いつユーザが携帯電話をユーザの顔に向けて保持しているか(光検出要素を実質的に周辺光から遮断させる)を判定するために用いられる。光検出要素は、デバイスの機能を調整するための他の要素からの情報を合わせて用いられ得る。例えば、デバイスがユーザの視覚位置を検出することができず、ユーザがデバイスを保持していないが、デバイスが周辺光に曝露している場合、デバイスは、ユーザによって下に置かれたということを判定し、表示要素をオフにし、ある特定の機能性を無効にし得る。デバイスがユーザの視覚位置を検出することができず、ユーザがデバイスを保持しておらず、デバイスがさらに周辺光に曝露している場合、デバイスは、デバイスがユーザの手が届かない可能性があるバッグまたは他の仕切りに置かれたということを判定し、よって別様には利用可能であった追加的な機能をオフまたは無効にし得る。いくつかの実施形態において、ユーザはデバイスを見ているか、デバイスを保持しているか、またはデバイスのあるいくつかの機能性を有効にするためにデバイスを光の中へ取り出したかのいずれかであるはずである。他の実施形態において、デバイスは、反射(明るい状況)および放射(暗い状況)などの異なるモードにおいて動作することができる表示要素を含み得る。検出された光に基づいて、デバイスはモードを変更し得る。マイクを用いて、デバイスは、電気の節約に実質的に関係のない理由により、他の機能を無効にすることができる。例えば、デバイスは、声認識を用いて、子供などのデバイスの近くにいる人を判定し、これに基づいてインターネットアクセスまたはペアレンタルコントロールなどの機能を無効または有効にすることができる。さらに、デバイスは、録音されたノイズを分析して、デバイスが車内にあるか飛行機内にあるかなどの環境を判定することを試みることができ、この判定は他の入力に基づいて、どの機能を有効/無効にするか、またはどのアクションが取られるかを決定することを支援することができる。声認識が用いられる場合、デバイスに直接的に話されるか、または会話を通じて間接的に拾った言葉が入力として用いられ得る。例えば、デバイスが、デバイスは車内にあり、ユーザの方を向いていると判定し、「おなかがすいた」または「食べる」などの言葉を検出した場合、次にデバイスは表示要素をオンにして近くのレストランなどの情報を表示し得る。ユーザは、プライバシーおよび他のかかる目的のために、声の記録および会話のモニタリングをオフにする選択肢を有する。
上記の例のうちのいくつかにおいて、デバイスによって取られたアクションは、電力消費を低減する目的のために、ある特定の機能性を解除にすることに関する。しかしながら、デバイスを用いることについての類似の他の可能性のある課題を調整することができるアクションが他の機能に対応することができることが理解されるべきである。例えば、ウェブページのコンテンツを要求する、ハードドライブ上のコンテンツを検索する、およびさまざまなアプリケーションを開くなどのある特定の機能は、完了までにいくらかの時間を要する。資源の限られたデバイス、または多用されるデバイスについては、いくつかのかかる操作が同時に発生することが、デバイスの動作を遅くしたり、または動かなくなったりすることを招く場合があり、これは非効率性に繋がり、ユーザの体験を悪化させ、より多く電力を使用する場合がある。
少なくともこれらおよび他のかかる問題のうちのいくつかに対処するため、種々の実施形態に従う手法はまた、ユーザの見つめる方向などの情報を利用して、処理容量、メモリの空きおよび他のかかる資源の必要性を広げるために用いられる可能性がある資源を起動することもできる。
いくつかの実施形態において、デバイスは、十分な処理容量を有することができ、撮像要素および関連付けられる解析アルゴリズム(複数可)は、キャプチャされた画像のみに基づいてデバイスの動き、ユーザの頭の動き、ユーザの目の動き、および他のかかる動きを区別するために十分な程に感受性が高い。極めて単純な撮像要素および分析手法を利用することが処理のために望ましい場合がある他の実施形態において、デバイスの現在の配向を判定することができる、少なくとも1つの配向判定要素を含むことが望ましい場合がある。一例において、この少なくとも1つの配向判定要素は、デバイスの3D位置およびデバイスの動きの大きさおよび方向、ならびに振動、衝撃などの因子を検出することができる、少なくとも1つの単軸または多軸加速度計である。加速度計などの要素を用いてデバイスの配向または動きを判定するための方法もまた当技術分野で既知であり、本明細書では詳細に記載しない。配向および/または動きを判定するための他の要素もまた、種々の実施形態の範囲内で配向判定要素として用いるために用いられ得る。加速度計または同様の要素からの入力がカメラからの入力とともに用いられたとき、相対的な動きはより正確に解釈され得、さらに精密な入力および/またはより複雑性の低い画像分析アルゴリズムを可能にする。
コンピューティングデバイスの撮像要素を用いて、例えばデバイスおよび/またはユーザの動きを検出するとき、コンピューティングデバイスは、画像中の背景を用いて動きを判定することができる。例えば、ユーザがデバイスを固定された配向(例えば、距離、角度など)でユーザにかざし、ユーザが配向を周囲の環境に変更した場合、ユーザの画像のみを分析することはデバイスの配向における変更を検出する結果とならない。そうではなく、いくつかの実施形態において、コンピューティングデバイスは、ユーザの後方にある背景画像における変化を認識することによってデバイスの動きをやはり検出することができる。そのため、例えば、オブジェクト(例えば、窓、絵、木、茂み、建物、車など)が画像の左または右へ移動すると、デバイスは、ユーザに関するデバイスの配向が変更されていないにも関わらず、デバイスが配向を変更したと判定することができる。他の実施形態において、デバイスは、デバイスに関して移動したことを判定し、それに応じて調整し得る。例えば、ユーザがデバイスに関して頭を左または右に傾けた場合、表示要素上にレンダリングされるコンテンツは、同様に傾いてコンテンツをユーザの配向に保ち得る。
検討されたように、記載の実施形態に従う異なる手法がさまざまな環境において実装され得る。例えば、図12は、種々の実施形態に従う側面を実装するための環境の例1200を説明したものである。理解されるように、説明を目的としてウェブベースの環境が用いられるが、種々の実施形態を実装するために異なる環境が適切に用いられ得る。システムは、電子クライアントデバイス1202を含み、これは、要求、メッセージまたは情報を適切なネットワーク1204で送受信し、情報をデバイスのユーザへ戻し伝えるように動作可能な任意の適切なデバイスを含むことができる。かかるクライアントデバイスの例は、パソコン、携帯電話、手持ち式のメッセージングデバイス、ラップトップ型パソコン、セットトップボックス、携帯情報端末、電子書籍リーダおよび同等物を含む。ネットワークは、イントラネット、インターネット、セルラーネットワーク、ローカルエリアネットワーク、または任意の他のかかるネットワーク、またはそれらの組み合わせを含む任意の適切なネットワークを含むことができる。ネットワークは、「プッシュ」型ネットワーク、「プル」型ネットワーク、またはそれらの組み合わせであり得る。「プッシュ」型ネットワークにおいて、サーバのうちの1つ以上がクライアントデバイスにデータをプッシュする。「プル」型ネットワークにおいて、サーバのうちの1つ以上が、クライアントデバイスからデータについての要求があると、クライアントデバイスにデータを送信する。かかるシステムのために用いられるコンポーネントは、少なくとも部分的に選択されたネットワークおよび/または環境の種類に依存する。かかるネットワークを介して通信するためのプロトコルおよびコンポーネントはよく知られており、本明細書において詳細に記載されない。ネットワークでの通信は、有線または無線接続およびそれらの組み合わせを介して有効とされ得る。この例において、環境が要求を受信し、それに応じてコンテンツを提供するためのウェブサーバ1206を含むため、ネットワークはインターネットを含むが、他のネットワークについては、当業者に明確となるように、類似の目的を果たす代替的なデバイスが用いられ得る。
例示的な環境は、少なくとも1つのアプリケーションサーバ1208およびデータストア1210を含む。相互にやり取りして適切なデータストアからデータを取得するなどのタスクを実施することができる、繋がれるか別様に構成されるいくつかのアプリケーションサーバ、レイヤ、または他の要素、処理またはコンポーネントが存在することができるということが理解されるべきである。本明細書で用いられる場合、「データストア」という用語は、任意のデバイスまたはデータの格納、アクセス、および読み出しの能力を持つデバイスの組み合わせを指し、これらは任意の標準、分散、またはクラスタ環境において、任意の組み合わせおよび数のデータサーバ、データベース、データ記憶デバイスおよびデータ記憶媒体を含み得る。アプリケーションサーバ1208は、クライアントデバイスのための1つ以上のアプリケーションの側面を実行する必要に応じてデータストア1210と統合するための、およびアプリケーションのためのデータアクセスおよびビジネス論理の大部分を扱うための、任意の適切なハードウェアおよびソフトウェアを含むことができる。アプリケーションサーバは、データストアと協働してアクセス制御サービスを提供し、テキスト、図形、ユーザに転送される音声および/またはビデオなどのコンテンツを生成することができ、これはこの例においてはウェブサーバ1206によってHTML、XML、または他の適切な構造化言語の形式でユーザに提供される。すべての要求および応答の扱い、ならびにクライアントデバイス1202とアプリケーションサーバ1208との間のコンテンツの配信は、ウェブサーバ1206によって扱われることができる。本明細書に記載に記載されるように、本明細書に記載の構造化コードが任意の適切なデバイスまたはホストマシン上で実行され得るため、ウェブおよびアプリケーションサーバは必要とされず、および単にコンポーネントの例であるということが理解されるべきである。
データストア1210は、特定の側面に関連するデータを格納するためのいくつかの別個のデータテーブル、データベースまたは他のデータ記憶機構および媒体を含むことができる。例えば、説明されるデータストアは、コンテンツ(例えば、生産データ)1212およびユーザ情報1216を格納するための機構を含み、これらは生産側にコンテンツを提供するために用いられ得る。データストアはまた、ログまたはセッションデータ1214を格納するための機構を含むようにも示される。ページ画像情報およびアクセス権情報などの、データストア内に格納される必要があり得る多くの他の側面が存在することができるということが理解されるべきであり、これらは上記に列挙された機構のうちの任意のものに適切に、またはデータストア1210内の追加的な機構に格納され得る。データストア1210は、これに関連付けられる論理を通じて、アプリケーションサーバ1208から命令を受信し、かつそれに応じてデータを取得、更新、または別様に処理するように動作可能である。一例において、ユーザは、ある特定の種類の項目について検索要求を提出し得る。この場合、データストアは、ユーザ情報にアクセスしてユーザの身元を確認し、得、かつカタログ詳細情報にアクセスしてその種類の項目についての情報を取得することができる。情報は次に、ユーザがユーザデバイス1202上のブラウザを介して閲覧することができるウェブページ上に列挙される結果の中でユーザに戻される。関与する特定の項目についての情報は、専用のページまたはブラウザのウィンドウの中で閲覧され得る。
それぞれのサーバが典型的に、そのサーバの一般管理および操作のために実行可能なプログラム命令を提供するオペレーティングシステムを含み、典型的にサーバのプロセッサによって実行されると、サーバがその意図する機能を実施することを可能にする命令を格納するコンピュータ可読の媒体を含む。オペレーティングシステムのための適切な実装およびサーバの一般的な機能性は既知であるか市販されており、特に本開示を考慮して当業者によって容易に実装される。
一実施形態における環境は、1つ以上のコンピュータネットワークまたは直接接続を用いた通信リンクを介して相互接続された、いくつかのコンピュータシステムおよびコンポーネントを利用した分散型コンピューティング環境である。しかしながら、図12において説明されたものよりも少ないまたは多い数のコンポーネントを有するシステムにおいて、かかるシステムが同等に良好に動作し得るということは当業者によって認識されるであろう。ゆえに、システム1200の図12における描写は、例示的な性質であり、本開示の範囲を制限しないと見なされるべきである。
種々の実施形態は、多種多様な動作環境においてさらに実装され得、いくつかの場合において、いくつかのアプリケーションのうちの任意のものを操作するために用いられ得る1つ以上のユーザコンピュータまたはコンピューティングデバイスを含むことができる。ユーザまたはクライアントデバイスは、標準オペレーティングシステムを実行するデスクトップ型またはラップトップ型パソコン、ならびにモバイルソフトウェアを実行し、いくつかのネットワーキングおよびメッセージングプロトコルに対応する能力を持つセルラー、無線および手持ち型デバイスなどのいくつかの汎用パソコンを含むことができる。かかるシステムはまた、開発およびデータベース管理などの目的のために、さまざまな市販のオペレーティングシステムおよび他の知られているアプリケーションを実行するいくつかのワークステーションを含むこともできる。これらのデバイスはまた、疑似ターミナル、シンクライアント、ゲームシステム、およびネットワークを介して通信する能力を持つ他のデバイスなどの他の電子デバイスを含むこともできる。
ほとんどの実施形態が、TCP/IP、OSI、FTP、UPnP、NFS、CIFS、およびAppleTalkなどのさまざまな市販のプロトコルのうちの任意のものを用いて通信に対応するために、当業者に周知の少なくとも1つのネットワークを利用する。ネットワークは、例えば、ローカルエリアネットワーク、広域ネットワーク、仮想プライベートネットワーク、インターネット、イントラネット、エクストラネット、公衆交換電話ネットワーク、赤外線ネットワーク、無線ネットワーク、およびそれらの組み合わせであることができる。
ウェブサーバを利用する実施形態において、ウェブサーバは、HTTPサーバ、FTPサーバ、CGIサーバ、データサーバ、Java(登録商標)サーバ、およびビジネスアプリケーションサーバを含むさまざまなサーバまたはミッドティアアプリケーションの任意のものを実行することができる。サーバ(複数可)はまた、Java(登録商標)、C、C#もしくはC++などの任意のプログラミング言語、またはPerl、Python、もしくはTCLなどの任意のスクリプト言語、またはそれらの組合せで記述された1つ以上のスクリプトまたはプログラムとして実装され得る1つ以上のウェブアプリケーションを実行することによって、ユーザデバイスからの要求に応じてプログラムまたはスクリプトを実行する能力を持ち得る。サーバ(複数可)はまた、Oracle(登録商標)、Microsoft(登録商標)、Sybase(登録商標)、およびIBM(登録商標)から市販されているものを含むデータベースサーバを含み得るがこれらに限定されない。
環境は、上述のとおり、さまざまなデータストアおよび他のメモリおよび記憶媒体を含むことができる。これらはコンピュータのうちの1つ以上にとってローカルの(および/または常駐の)、またはネットワークにわたる任意のまたはすべてのコンピュータからリモートの記憶媒体上などのさまざまな場所に存在することができる。特定の1組の実施形態において、情報は当業者に周知のストレージエリアネットワーク(SAN)内に存在し得る。同様に、コンピュータ、サーバまたは他のネットワークデバイスに帰属する機能を実施するために必要な任意のファイルは、ローカルまたはリモートに適切に格納され得る。システムがコンピュータ化されたデバイスを含む場合、それぞれのかかるデバイスが、バスを介して電気的に接続され得る、例えば、少なくとも1つの中央処理装置(CPU)、少なくとも1つの入力デバイス(例えば、マウス、キーボード、コントローラ、タッチ感応式表示要素、またはキーパッド)、および少なくとも1つの出力デバイス(例えば、表示デバイス、プリンタ、またはスピーカ)を含むハードウェア要素を含むことができる。かかるシステムは、ディスクドライブ、光学式記憶デバイス、およびランダムアクセスメモリ(RAM)または読み取り専用メモリ(ROM)などのソリッドステート記憶デバイス、ならびに取り外し可能な媒体デバイス、メモリカード、フラッシュカードなどの1つ以上の記憶デバイスを含み得る。
かかるデバイスはまた、上述の通り、コンピュータ可読の記憶媒体リーダ、通信デバイス(例えば、モデム、ネットワークカード(無線または有線)、赤外線通信デバイス)、およびワーキングメモリを含むこともできる。コンピュータ可読の記憶媒体リーダは、リモート、ローカル、固定、および/または取り外し可能な記憶デバイスを表すコンピュータ可読の記憶媒体、ならびに一時的におよび/または永続的にコンピュータ可読の情報を含む、格納する、送信する、および読み出すための記憶媒体と接続されるか、または受信するように構成され得る。システムおよびさまざまなデバイスはまた典型的に、オペレーティングシステムおよびクライアントアプリケーションまたはウェブブラウザなどのアプリケーションプログラムを含む少なくとも1つのワーキングメモリデバイス内に位置するいくつかのソフトウェアアプリケーション、モジュール、サービス、または他の要素を含み得る。代替の実施形態が上述のものからの多くの変化を有することが理解されるべきである。例えば、カスタマイズされたハードウェアもまた用いられ得、および/またはハードウェア、ソフトウェア(アプレットなどの携帯型ソフトウェアを含む)またはその両方に特定の要素が実装され得る。さらに、ネットワーク入力/出力デバイスなどの他のコンピューティングデバイスへの接続が採用され得る。
コードまたはコードの一部分を含む記憶媒体およびコンピュータ可読媒体は、RAM、ROM、EEPROM、フラッシュメモリもしくは他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)もしくは他の光学式記憶、磁気カセット、磁気テープ、磁気ディスク記憶もしくは他の磁気記憶デバイスまたは任意の他の媒体を含む、コンピュータ可読命令、データ構造、プログラムモジュールもしくは他のデータなどの情報の記憶および/または送信のための、任意の方法または技術で実装された、これらに限定されないが揮発性および不揮発性の、取り外し可能および取り外し可能でない媒体などの記憶媒体および通信媒体を含む、当技術分野で既知または使用されている任意の適切な媒体を含むことができ、これらは所望の情報を格納するために用いられることができ、これらはシステムデバイスによってアクセスされ得る。本開示および本明細書に提供される教示に基づき、当業者は種々の実施形態を実装するための他の方途および/または方法を認識するであろう。
明細書および図面は、それにより、制限的意味でなく例示的意味と見なされる。しかしながら、特許請求の範囲に記載の本発明の広範な精神および範囲から逸脱することなくこれらに対しさまざまな修正および変更がなされ得ることは明白となろう。
付記
付記1. コンピュータ実装方法であって、
実行可能な命令で構成される1つ以上のコンピュータシステムの制御下において、
携帯型コンピューティングデバイスのカメラによってキャプチャされた画像であって、前記カメラの複数のピクセルについてのピクセル値を含む画像を取得することと、
前記領域内の1つ以上の画像輝度勾配を分析することにより、前記画像の1つの領域内の1つ以上の可能性のあるエッジ位置を特定することと、
前記1つ以上の可能性のあるエッジ位置の両側の1組のピクセルのピクセル値を分析して前記領域のための文字ピクセル値および背景ピクセル値を判定することと、
前記領域のための前記文字ピクセル値および前記背景ピクセル値に少なくとも部分的に基づいて、前記領域のための文字ピクセル値の閾を判定することと、
前記領域の中のピクセルについてのピクセル値が前記文字ピクセル値の閾より高いか低いに少なくとも部分的に基づいて前記領域内の1つ以上の文字部分を判定することと、を含む、方法。
付記2. 結合コンポーネントアルゴリズムを用いて、前記文字ピクセル値の閾に少なくとも合致するピクセル値を有する前記複数のピクセルの隣接するピクセルを関連付けて、文字部分の少なくとも一部分を形成することを可能にすることと、
前記1つ以上の文字部分の少なくとも一部分を文字認識エンジンに提供することと、をさらに含む、付記1に記載のコンピュータ実装方法。
付記3. 文字認識エンジンを用いて前記1つ以上の文字部分を分析して、前記1つ以上の文字部分に関連付けられる少なくとも一文字を認識することを分析することをさらに含む、付記2に記載のコンピュータ実装方法。
付記4. 前記認識された少なくとも1つの文字に対応する文字パターンを特定することと、前記文字パターンに関連付けられる前記携帯型コンピューティングデバイス上のアプリケーションを判定することと、
前記認識された少なくとも1つの文字を前記判定されたアプリケーションに送信することと、をさらに含む、付記3に記載のコンピュータ実装方法。
付記5. コンピュータ実装方法であって、
実行可能な命令で構成される1つ以上のコンピュータシステムの制御下において、
1つの画像であって、複数のピクセルについてのピクセル値を含む、画像中の1つの領域の1つ以上の輝度勾配を分析して1つ以上の可能性のあるエッジ位置を特定することと、
前記1つ以上の可能性のあるエッジ位置の所定距離の範囲内にある1組のピクセルについてのピクセル値を分析することと、
前記1つ以上の可能性のあるエッジ位置のそれぞれの前記所定距離の範囲内にある前記ピクセル値に少なくとも部分的に基づいて、前記領域のための文字ピクセル値の閾を判定することと、
前記文字ピクセル値の閾と少なくとも合致するピクセル値を有する前記1組のピクセルの一部分に少なくとも部分的に基づいて、1つ以上の文字部分を判定することと、を含む、方法。
付記6. 文字認識アルゴリズムを用いて前記1つ以上の文字部分を分析して、前記1つ以上の文字部分に関連付けられる少なくとも一文字を認識することをさらに含む、付記5に記載のコンピュータ実装方法。
付記7. エッジ位置が、前記所定距離の範囲内の前記文字ピクセル値の閾に少なくとも合致する値を有するピクセル輝度勾配またはピクセル飽和勾配に対応する、付記5に記載のコンピュータ実装方法。
付記8. 前記ピクセル値を分析することは、前記1つ以上の可能性のあるエッジ位置の第1の側にある第1の組のピクセルを分析することと、前記1つ以上の可能性のあるエッジ位置の第2の側にある第2の組のピクセルを分析することとを含む、付記5に記載のコンピュータ実装方法。
付記9. 前記ピクセル値は、グレースケールピクセル輝度値、カラーピクセル輝度値、ピクセル飽和値、またはピクセル飽和レベルのうちの少なくとも1つに対応する、付記5に記載のコンピュータ実装方法。
付記10. テキストライン構成アルゴリズムを用いて、前記1つ以上の文字部分の関連する個別の文字要素を判定することをさらに含む、付記5に記載のコンピュータ実装方法。
付記11. 結合コンポーネントアルゴリズムを用いて、前記文字ピクセル値の閾に少なくとも合致するピクセル値を有する前記複数のピクセルのピクセルを関連付けることと、
ストローク幅変換アルゴリズムを前記関連付けられるピクセルに適用することと、
前記ストローク幅変換アルゴリズムを適用した結果を文字認識アルゴリズムに提供することと、をさらに含む、付記5に記載のコンピュータ実装方法。
付記12. 関連する個別の文字要素を判定した後に、前記個別の文字要素の支配的方向を判定することをさらに含む、付記10に記載のコンピュータ実装方法。
付記13. 前記個別の文字要素が少なくとも1つの既定の文字制約を満たすかどうかを判定することと、
個別の文字要素が前記既定の文字制約のうちの前記少なくとも1つを満たさない場合に、個別の文字要素を検討の対象から外すことと、をさらに含む、付記10に記載のコンピュータ実装方法。
付記14. 前記既定の文字制約は、文字要素間の間隔、隣接する文字要素の高さと幅の比率、または文字要素の垂直配列のうちの1つを含む、付記13に記載のコンピュータ実装方法。
付記15. プロセッサと、
前記プロセッサによって実行されると、前記プロセッサに、
1つの画像内の1つの領域の1つ以上の輝度勾配を分析して、1つ以上の可能性のある文字エッジ位置を特定させ、
前記1つ以上の可能性のあるエッジ位置の所定距離の範囲内にある1組のピクセルについてのピクセル値を分析させ、
前記1つ以上のエッジ位置のそれぞれの前記所定距離の範囲内にある前記ピクセル値に少なくとも部分的に基づいて、前記領域のための文字ピクセル値の閾を判定させ、
前記文字ピクセル値の閾と少なくとも合致するピクセル値を有する前記1組のピクセルの一部分に少なくとも部分的に基づいて、1つ以上の文字部分を判定させる命令を含む記憶デバイスと、を備える、携帯型コンピューティングデバイス。
付記16. 前記命令は、前記プロセッサによって実行されると、前記携帯型コンピューティングデバイスが、
文字認識アルゴリズムを用いて前記文字部分を分析して、前記1つ以上の文字部分に関連付けられる少なくとも1つの文字を認識することをさらに可能にする、付記15に記載の携帯型コンピューティングデバイス。
付記17. 前記命令は、前記プロセッサによって実行されると、前記携帯型コンピューティングデバイスが、
少なくとも1つの追加の画像を取得し、
少なくとも1つの文字が認識され得ない場合に、前記少なくとも1つの追加の画像を分析することをさらに可能にする、付記16に記載の携帯型コンピューティングデバイス。
付記18. 前記命令は、前記プロセッサによって実行されると、前記携帯型コンピューティングデバイスが、
前記認識された少なくとも1つの文字に対応する文字パターンを特定し、
前記文字パターンに関連付けられる前記携帯型コンピューティングデバイス上のアプリケーションを判定し、
前記判定されたアプリケーションに前記認識された少なくとも1つの文字を提供することをさらに可能にする、付記16に記載の携帯型コンピューティングデバイス。
付記19. プロセッサによって実行されると、前記プロセッサに、
1つの画像であって、複数のピクセルについてのピクセル値を含む、画像中の1つの領域の1つ以上の輝度勾配を分析させて1つ以上の可能性のある1つ以上の可能性のあるエッジ位置を特定させ、
前記1つ以上の可能性のあるエッジ位置の所定距離の範囲内にある前記画像の1組のピクセルについてのピクセル値を分析させ、
前記1つ以上の可能性のあるエッジ位置のそれぞれの前記所定距離の範囲内にある前記ピクセル値に少なくとも部分的に基づいて、前記領域のための文字ピクセル値の閾を判定させ、
前記文字ピクセル値の閾と少なくとも合致するピクセル値を有する前記1組のピクセルの一部分に少なくとも部分的に基づいて、1つ以上の文字部分を判定させる命令を格納する、持続性コンピュータ可読記憶媒体。
付記20. プロセッサによって実行されると、前記プロセッサにさらに、
文字認識アルゴリズムを用いて前記1つ以上の文字部分をさらに分析して、前記1つ以上の文字部分に関連付けられる少なくとも一文字を認識させる命令を格納する、付記19に記載の持続性コンピュータ可読記憶媒体。
付記21. 前記ピクセル値は、グレースケールピクセル輝度値、カラーピクセル輝度値、ピクセル飽和値、またはピクセル飽和レベルのうちの少なくとも1つに対応する、付記19に記載の持続性コンピュータ可読記憶媒体。
付記22. 前記ピクセル値を分析することは、前記1つ以上の可能性のあるエッジ位置の第1の側にある第1の組のピクセルを分析することと、前記1つ以上の可能性のあるエッジ位置の第2の側にある第2の組のピクセルを分析することとを含む、付記19に記載の持続性コンピュータ可読記憶媒体。
付記23. プロセッサによって実行されると、前記プロセッサにさらに、
前記1つ以上の輝度勾配を分析する前に、前記画像をグレースケール画像にさらに変換させる命令を格納する、付記19に記載の持続性コンピュータ可読記憶媒体。
付記24. プロセッサによって実行されると、前記プロセッサにさらに、
命令前記文字ピクセル値の閾を下回るピクセル値を持つ前記領域の一部分をさらに削除させる命令を格納する、付記19に記載の持続性コンピュータ可読記憶媒体。
付記25. プロセッサによって実行されると、前記プロセッサが、
結合コンポーネントアルゴリズムを用いて、前記文字ピクセル値の閾に少なくとも合致するピクセル値を有する前記複数のピクセルの隣接するピクセルを関連付けて、文字の少なくとも一部分を形成することをさらに可能にする命令を格納する、付記19に記載の持続性コンピュータ可読記憶媒体。
付記26. プロセッサによって実行されると、前記プロセッサにさらに、
ストローク幅変換アルゴリズムを前記文字の少なくとも一部分に適用させ、
前記ストローク幅変換アルゴリズムを適用した結果を文字認識アルゴリズムに提供させる命令を格納する、付記25に記載の持続性コンピュータ可読記憶媒体。

Claims (15)

  1. コンピュータ実装方法であって、
    実行可能な命令で構成される1つ以上のコンピュータシステムの制御下において、
    複数のピクセルについてのピクセル値を含む1つの画像中の1つの領域の1つ以上の輝度勾配を分析して、1つ以上の可能性のあるエッジ位置を特定することと、
    前記1つ以上の可能性のあるエッジ位置の所定距離の範囲内にある1組のピクセルについてのピクセル値を分析することと、
    前記1つ以上の可能性のあるエッジ位置のそれぞれの前記所定距離の範囲内にある前記ピクセル値に少なくとも部分的に基づいて、前記領域のための文字ピクセル値の閾を判定することと、
    前記文字ピクセル値の閾と少なくとも合致するピクセル値を有する前記1組のピクセルの一部分に少なくとも部分的に基づいて、1つ以上の文字部分を判定することと、を含む、コンピュータ実装方法。
  2. 文字認識アルゴリズムを用いて前記1つ以上の文字部分を分析して、前記1つ以上の文字部分に関連付けられる少なくとも一文字を認識することをさらに含む、請求項1に記載のコンピュータ実装方法。
  3. エッジ位置が、前記所定距離の範囲内の前記文字ピクセル値の閾に少なくとも合致する値を有するピクセル輝度勾配またはピクセル飽和勾配に対応する、請求項1に記載のコンピュータ実装方法。
  4. 前記ピクセル値を分析することは、前記1つ以上の可能性のあるエッジ位置の第1の側にある第1の組のピクセルを分析することと、前記1つ以上の可能性のあるエッジ位置の第2の側にある第2の組のピクセルを分析することとを含む、請求項1に記載のコンピュータ実装方法。
  5. 前記ピクセル値は、グレースケールピクセル輝度値、カラーピクセル輝度値、ピクセル飽和値、またはピクセル飽和レベルのうちの少なくとも1つに対応する、請求項1に記載のコンピュータ実装方法。
  6. テキストライン構成アルゴリズムを用いて前記1つ以上の文字部分の関連する個別の文字要素を判定することをさらに含む、請求項1に記載のコンピュータ実装方法。
  7. 関連する個別の文字要素を判定した後に、前記個別の文字要素の支配的方向を判定することをさらに含む、請求項6に記載のコンピュータ実装方法。
  8. 前記個別の文字要素が少なくとも1つの既定の文字制約を満たすかどうかを判定することと、
    個別の文字要素が既定の文字制約のうちの前記少なくとも1つを満たさない場合に、個別の文字要素を検討の対象から外すことと、をさらに含む、請求項6に記載のコンピュータ実装方法。
  9. 前記既定の文字制約は、文字要素間の間隔、隣接する文字要素の高さと幅の比率、または文字要素の垂直配列のうちの1つを含む、請求項8に記載のコンピュータ実装方法。
  10. 結合コンポーネントアルゴリズムを用いて、前記文字ピクセル値の閾に少なくとも合致するピクセル値を有する前記複数のピクセルのピクセルを関連付けることと、
    ストローク幅変換アルゴリズムを前記関連付けられたピクセルに適用することと、
    前記ストローク幅変換アルゴリズムを適用した結果を文字認識アルゴリズムに提供することと、をさらに含む、請求項5に記載のコンピュータ実装方法。
  11. プロセッサと、
    前記プロセッサによって実行されると、前記プロセッサにさらに、
    1つの画像内の1つの領域の1つ以上の輝度勾配を分析して、1つ以上の可能性のある文字エッジ位置を特定させ、
    前記1つ以上の可能性のあるエッジ位置の所定距離の範囲内にある1組のピクセルについてのピクセル値を分析させ、
    前記1つ以上のエッジ位置のそれぞれの前記所定距離の範囲内にある前記ピクセル値に少なくとも部分的に基づいて、前記領域のための文字ピクセル値の閾を判定させ、
    前記文字ピクセル値の閾と少なくとも合致するピクセル値を有する前記1組のピクセルの一部分に少なくとも部分的に基づいて、1つ以上の文字部分を判定させる命令を含む記憶デバイスと、を備える、携帯型コンピューティングデバイス。
  12. 前記命令は、前記プロセッサによって実行されると、
    前記携帯型コンピューティングデバイスが、文字認識アルゴリズムを用いて前記文字部分を分析して、前記1つ以上の文字部分に関連付けられる少なくとも1つの文字を認識することをさらに可能にする、請求項11に記載の携帯型コンピューティングデバイス。
  13. 前記命令は、前記プロセッサによって実行されると、
    前記携帯型コンピューティングデバイスが、
    前記認識された少なくとも1つの文字に対応する文字パターンを特定し、
    前記文字パターンに関連付けられる前記携帯型コンピューティングデバイス上のアプリケーションを判定し、
    前記判定されたアプリケーションに前記認識された少なくとも1つの文字を提供することをさらに可能にする、請求項12に記載の携帯型コンピューティングデバイス。
  14. ピクセル値を分析する前記命令は、
    前記プロセッサによって実行されると、前記携帯型コンピューティングデバイスが、前記1つ以上の可能性のあるエッジ位置の第1の側にある第1の組のピクセルを分析することと、前記1つ以上の可能性のあるエッジ位置の第2の側にある第2の組のピクセルを分析することとをさらに可能にする命令をさらに含む、請求項11に記載の携帯型コンピューティングデバイス。
  15. 前記命令は、前記プロセッサによって実行されると、
    前記携帯型コンピューティングデバイスが、結合コンポーネントアルゴリズムを用いて、前記文字ピクセル値の閾に少なくとも合致するピクセル値を有する前記複数のピクセルの隣接するピクセルを関連付けて、文字の少なくとも一部分を形成することをさらに可能にする、請求項11に記載の携帯型コンピューティングデバイス。
JP2015516152A 2012-06-07 2013-06-04 画像認識のための適応閾値処理 Expired - Fee Related JP6046808B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/491,398 2012-06-07
US13/491,398 US8606011B1 (en) 2012-06-07 2012-06-07 Adaptive thresholding for image recognition
PCT/US2013/044182 WO2013184726A2 (en) 2012-06-07 2013-06-04 Adaptive thresholding for image recognition

Publications (2)

Publication Number Publication Date
JP2015522877A true JP2015522877A (ja) 2015-08-06
JP6046808B2 JP6046808B2 (ja) 2016-12-21

Family

ID=49681601

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015516152A Expired - Fee Related JP6046808B2 (ja) 2012-06-07 2013-06-04 画像認識のための適応閾値処理

Country Status (5)

Country Link
US (2) US8606011B1 (ja)
EP (1) EP2859504A4 (ja)
JP (1) JP6046808B2 (ja)
CN (1) CN104685462B (ja)
WO (1) WO2013184726A2 (ja)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8121618B2 (en) 2009-10-28 2012-02-21 Digimarc Corporation Intuitive computing methods and systems
US9484046B2 (en) 2010-11-04 2016-11-01 Digimarc Corporation Smartphone-based methods and systems
US9129400B1 (en) * 2011-09-23 2015-09-08 Amazon Technologies, Inc. Movement prediction for image capture
US20140067631A1 (en) * 2012-09-05 2014-03-06 Helix Systems Incorporated Systems and Methods for Processing Structured Data from a Document Image
US9081413B2 (en) * 2012-11-20 2015-07-14 3M Innovative Properties Company Human interaction system based upon real-time intention detection
US9342930B1 (en) 2013-01-25 2016-05-17 A9.Com, Inc. Information aggregation for recognized locations
US20140228073A1 (en) * 2013-02-14 2014-08-14 Lsi Corporation Automatic presentation of an image from a camera responsive to detection of a particular type of movement of a user device
US9256795B1 (en) * 2013-03-15 2016-02-09 A9.Com, Inc. Text entity recognition
US9696810B2 (en) * 2013-06-11 2017-07-04 Microsoft Technology Licensing, Llc Managing ink content in structured formats
US9104940B2 (en) * 2013-08-30 2015-08-11 Konica Minolta Laboratory U.S.A., Inc. Line segmentation method applicable to document images containing handwriting and printed text characters or skewed text lines
US9547644B2 (en) * 2013-11-08 2017-01-17 Google Inc. Presenting translations of text depicted in images
US9424598B1 (en) 2013-12-02 2016-08-23 A9.Com, Inc. Visual search in a controlled shopping environment
US9354778B2 (en) 2013-12-06 2016-05-31 Digimarc Corporation Smartphone-based methods and systems
US9311639B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods, apparatus and arrangements for device to device communication
US9036083B1 (en) * 2014-05-28 2015-05-19 Gracenote, Inc. Text detection in video
US9536161B1 (en) 2014-06-17 2017-01-03 Amazon Technologies, Inc. Visual and audio recognition for scene change events
CN109460265A (zh) * 2014-06-30 2019-03-12 华为技术有限公司 一种激活应用程序的方法、用户终端和服务器
US9460517B2 (en) 2014-10-22 2016-10-04 Pointivo, Inc Photogrammetric methods and devices related thereto
US9430766B1 (en) 2014-12-09 2016-08-30 A9.Com, Inc. Gift card recognition using a camera
US10127439B2 (en) 2015-01-15 2018-11-13 Samsung Electronics Co., Ltd. Object recognition method and apparatus
CN104597057B (zh) * 2015-02-02 2017-06-06 东华大学 一种基于机器视觉的柱状二极管表面缺陷检测装置
US10318907B1 (en) * 2015-05-22 2019-06-11 Walgreen Co. Autonomous vehicle for mapping store layout
CN105739832A (zh) * 2016-03-10 2016-07-06 联想(北京)有限公司 信息处理方法及电子设备
CN107220579B (zh) * 2016-03-21 2020-02-04 杭州海康威视数字技术股份有限公司 一种车牌检测方法及装置
CN107368826B (zh) * 2016-05-13 2022-05-31 佳能株式会社 用于文本检测的方法和装置
CN108090405B (zh) * 2016-11-23 2020-08-14 腾讯科技(深圳)有限公司 一种人脸识别方法及终端
CN107765966A (zh) * 2017-10-13 2018-03-06 广州视源电子科技股份有限公司 基于图片的事件触发方法、装置、智能终端及存储介质
WO2019084898A1 (en) 2017-11-03 2019-05-09 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for new road determination
US10318803B1 (en) * 2017-11-30 2019-06-11 Konica Minolta Laboratory U.S.A., Inc. Text line segmentation method
US10699140B2 (en) * 2018-05-04 2020-06-30 Qualcomm Incorporated System and method for capture and distribution of information collected from signs
JP7145215B2 (ja) * 2018-07-05 2022-09-30 バリューコマース株式会社 ブラウザ管理システム、ブラウザ管理方法、ブラウザ管理プログラム、およびクライアントプログラム
US10402673B1 (en) 2018-10-04 2019-09-03 Capital One Services, Llc Systems and methods for digitized document image data spillage recovery
US10963742B2 (en) * 2018-11-02 2021-03-30 University Of South Florida Leveraging smart-phone cameras and image processing techniques to classify mosquito genus and species
CN109272968A (zh) * 2018-11-21 2019-01-25 维沃移动通信有限公司 一种屏幕均匀性校准方法及终端设备
US11379534B2 (en) 2019-11-19 2022-07-05 International Business Machines Corporation Document feature repository management
US11074473B1 (en) 2020-01-21 2021-07-27 Capital One Services, Llc Systems and methods for digitized document image text contouring
US11048928B1 (en) 2020-02-04 2021-06-29 University Of South Florida Systems and methods of entomology classification based on extracted anatomies
US20210406965A1 (en) * 2020-06-29 2021-12-30 Snap Inc. Providing travel-based augmented reality content relating to user-submitted reviews
US11822844B2 (en) 2020-11-19 2023-11-21 Zembula, Inc. Just in time data-based generation of graphical content
US20220230372A1 (en) * 2021-01-20 2022-07-21 Zembula, Inc. Alternate text and audio description for graphical content
CN117409226B (zh) * 2023-12-15 2024-03-19 中国空气动力研究与发展中心高速空气动力研究所 一种压敏漆图像标记点自动识别与配准方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61141087A (ja) * 1984-12-14 1986-06-28 Hitachi Ltd 画像処理方法及び装置
JPH03192476A (ja) * 1989-10-27 1991-08-22 Nippon Sheet Glass Co Ltd 画像の2値化方法
JPH096957A (ja) * 1995-06-23 1997-01-10 Toshiba Corp 濃度画像の2値化方法および画像2値化装置
JPH1125221A (ja) * 1997-06-30 1999-01-29 Oki Electric Ind Co Ltd 光学式文字読取装置
JP2008217833A (ja) * 1997-11-28 2008-09-18 Fujitsu Ltd 文書画像認識装置および文書画像認識プログラムの記憶媒体
JP2010244211A (ja) * 2009-04-02 2010-10-28 Nippon Telegr & Teleph Corp <Ntt> 情報入力装置および情報入力方法
JP2013042415A (ja) * 2011-08-18 2013-02-28 Pfu Ltd 画像処理装置、画像処理方法及びコンピュータプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4876457A (en) * 1988-10-31 1989-10-24 American Telephone And Telegraph Company Method and apparatus for differentiating a planar textured surface from a surrounding background
IL107603A (en) * 1992-12-21 1997-01-10 Johnson & Johnson Vision Prod Ophthalmic lens inspection method and apparatus
EP1304626A1 (en) * 2001-10-18 2003-04-23 Sun Microsystems, Inc. Managing modified documents
US7003161B2 (en) * 2001-11-16 2006-02-21 Mitutoyo Corporation Systems and methods for boundary detection in images
US6941016B1 (en) * 2001-12-31 2005-09-06 Cognex Technology And Investment Method for finding contours in an image of an object
US7587308B2 (en) * 2005-11-21 2009-09-08 Hewlett-Packard Development Company, L.P. Word recognition using ontologies
US7949191B1 (en) * 2007-04-04 2011-05-24 A9.Com, Inc. Method and system for searching for information on a network in response to an image query sent by a user from a mobile communications device
US8249306B2 (en) * 2008-03-18 2012-08-21 Certusview Technologies, Llc Virtual white lines for delimiting planned excavation sites
US7996571B2 (en) * 2008-03-25 2011-08-09 Nokia Corporation Wireless coordination of apparatus interaction
CN101639917A (zh) * 2008-07-30 2010-02-03 国际商业机器公司 硬拷贝信息处理系统和方法
US8526732B2 (en) * 2010-03-10 2013-09-03 Microsoft Corporation Text enhancement of a textual image undergoing optical character recognition
US8582727B2 (en) * 2010-04-21 2013-11-12 Angel.Com Communication of information during a call

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61141087A (ja) * 1984-12-14 1986-06-28 Hitachi Ltd 画像処理方法及び装置
JPH03192476A (ja) * 1989-10-27 1991-08-22 Nippon Sheet Glass Co Ltd 画像の2値化方法
JPH096957A (ja) * 1995-06-23 1997-01-10 Toshiba Corp 濃度画像の2値化方法および画像2値化装置
JPH1125221A (ja) * 1997-06-30 1999-01-29 Oki Electric Ind Co Ltd 光学式文字読取装置
JP2008217833A (ja) * 1997-11-28 2008-09-18 Fujitsu Ltd 文書画像認識装置および文書画像認識プログラムの記憶媒体
JP2010244211A (ja) * 2009-04-02 2010-10-28 Nippon Telegr & Teleph Corp <Ntt> 情報入力装置および情報入力方法
JP2013042415A (ja) * 2011-08-18 2013-02-28 Pfu Ltd 画像処理装置、画像処理方法及びコンピュータプログラム

Also Published As

Publication number Publication date
WO2013184726A2 (en) 2013-12-12
US9055384B2 (en) 2015-06-09
US20130330003A1 (en) 2013-12-12
JP6046808B2 (ja) 2016-12-21
CN104685462B (zh) 2019-01-29
US20140187223A1 (en) 2014-07-03
EP2859504A4 (en) 2016-04-20
CN104685462A (zh) 2015-06-03
WO2013184726A3 (en) 2014-03-27
EP2859504A2 (en) 2015-04-15
US8606011B1 (en) 2013-12-10

Similar Documents

Publication Publication Date Title
JP6046808B2 (ja) 画像認識のための適応閾値処理
JP6275706B2 (ja) テキスト認識駆動の機能性
US9058644B2 (en) Local image enhancement for text recognition
US9390340B2 (en) Image-based character recognition
US10013624B2 (en) Text entity recognition
US9131150B1 (en) Automatic exposure control and illumination for head tracking
US9269009B1 (en) Using a front-facing camera to improve OCR with a rear-facing camera
US9436883B2 (en) Collaborative text detection and recognition
US9165406B1 (en) Providing overlays based on text in a live camera view
US9160993B1 (en) Using projection for visual recognition
US9792708B1 (en) Approaches to text editing
US9058536B1 (en) Image-based character recognition
US8965117B1 (en) Image pre-processing for reducing consumption of resources
US9298980B1 (en) Image preprocessing for character recognition
US20130246954A1 (en) Approaches for highlighting active interface elements
US9569679B1 (en) Adaptive image sampling for text detection
US9229526B1 (en) Dedicated image processor
US9436870B1 (en) Automatic camera selection for head tracking using exposure control
US9223415B1 (en) Managing resource usage for task performance
US9645789B1 (en) Secure messaging
US9262689B1 (en) Optimizing pre-processing times for faster response
KR20200127928A (ko) 전자장치에서 이미지 내의 특정 객체를 인식하기 위한 방법 및 장치
US9507429B1 (en) Obscure cameras as input

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160105

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160405

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161018

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161117

R150 Certificate of patent or registration of utility model

Ref document number: 6046808

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees