JP5529082B2 - レンダリングされた文書からのハンドヘルド装置を用いたデータ取得 - Google Patents

レンダリングされた文書からのハンドヘルド装置を用いたデータ取得 Download PDF

Info

Publication number
JP5529082B2
JP5529082B2 JP2011154626A JP2011154626A JP5529082B2 JP 5529082 B2 JP5529082 B2 JP 5529082B2 JP 2011154626 A JP2011154626 A JP 2011154626A JP 2011154626 A JP2011154626 A JP 2011154626A JP 5529082 B2 JP5529082 B2 JP 5529082B2
Authority
JP
Japan
Prior art keywords
document
text
mobile phone
user
movement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011154626A
Other languages
English (en)
Other versions
JP2012009033A (ja
Inventor
マーティン ティー. キング,
クリフォード エー. クシュラー,
ジェームス クエンティン スタッフフォード−フレイザー,
デール ローレンス グローバー,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US11/004,637 external-priority patent/US7707039B2/en
Application filed by Google LLC filed Critical Google LLC
Publication of JP2012009033A publication Critical patent/JP2012009033A/ja
Application granted granted Critical
Publication of JP5529082B2 publication Critical patent/JP5529082B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本開示は、概して携帯データ取得装置に関し、より具体的には、画像および/または音声クリップを取得する能力を有する携帯機器に関する。
(関連出願への相互参照)
本願は、米国特許出願第11/004,637号(2004年12月3日出願)の一部継続出願であり、その出願は、本明細書において、参考によりその全容が援用される。
本願は、以下の米国特許出願(同日出願)に関連し、それらの出願の全容は、参考により本明細書において援用される。米国特許出願第 号(タイトル「METHODS AND SYSTEMS FOR INITIATING APPLICATION PROCESSES BY DATA CAPTURE FROM RENDERED DOCUMENTS」(代理人整理番号:435188104US1)、米国特許出願第 号(タイトル「DETERMINING ACTIONS INVOLVING CAPTURED INFORMATION AND ELECTRONIC CONTENT ASSOCIATED WITH RENDERED DOCUMENTS」)(代理人整理番号:435188075US1)、米国特許出願第 号(タイトル「CONTENT ACCESS WITH HANDHELD DOCUMENT DATA CAPTURE DEVICES」)(代理人整理番号:435188018US1)、米国特許出願第 号(タイトル「SEARCH ENGINES AND SYSTEMS WITH HANDHELD DOCUMENT DATA CAPTURE DEVICES」)(代理人整理番号:435188021 US1)、米国特許出願第 号(タイトル「TRIGGERING ACTIONS IN RESPONSE TO OPTICALLY OR ACOUSTICALLY CAPTURING KEYWORDS FROM A RENDERED DOCUMENT」)(代理人整理番号:435188003US1)、米国特許出願第 号(タイトル「SEARCHING AND ACCESSING DOCUMENTS ON PRIVATE NETWORKS FOR USE WITH CAPTURES FROM RENDERED DOCUMENTS」)(代理人整理番号:435188001US1)、米国特許出願第 号(タイトル「INFORMATION GATHERING SYSTEM AND METHOD」)(代理人整理番号:435188005US1)、米国特許出願第 号(タイトル「DOCUMENT ENHANCEMENT SYSTEM AND METHOD」)(代理人整理番号:435188009US1)、米国特許出願第 号(タイトル「PUBLISHING TECHNIQUES FOR ADDING VALUE TO A RENDERED DOCUMENT」)(代理人整理番号:435188115US)、米国特許出願第 号(タイトル「ARCHIVE OF TEXT CAPTURES FROM RENDERED DOCUMENTS」)(代理人整理番号:435188116US)、米国特許出願第 号(タイトル「ADDING INFORMATION OR FUNCTIONALITY TO A RENDERED DOCUMENT VIA ASSOCIATION WITH AN ELECTRONIC COUNTERPART」)(代理人整理番号:435188118US)、米国特許出願第 号(タイトル「AGGREGATE ANALYSIS OF TEXT CAPTURES PERFORMED BY MULTIPLE USERS FROM RENDERED DOCUMENTS」)(代理人整理番号:435188122US)、米国特許出願第 号(タイトル「ESTABLISHING AN INTERACTIVE ENVIRONMENT FOR RENDERED DOCUMENTS」(代理人整理番号:435188123US)、および米国特許出願第 号(タイトル「CAPTURING TEXT FROM RENDERED DOCUMENTS USING SUPPLEMENTAL INFORMATION」)(代理人整理番号:435188120US)。
本願は、以下の米国仮特許出願の優先権を主張し、本明細書において、それらの全容を参考により援用する。米国仮特許出願第60/559,226号(2004年4月1日出願)、出願番号第60/558,893号(2004年4月1日出願)、出願番号第60/558,968号(2004年4月1日出願)、出願番号第60/558,867号(2004年4月1日出願)、出願番号第60/559,278号(2004年4月1日出願)、出願番号第60/559,279号(2004年4月1日出願)、出願番号第60/559,265号(2004年4月1日出願)、出願番号第60/559,277号(2004年4月1日出願)、出願番号第60/558,969号(2004年4月1日出願)、出願番号第60/558,892号(2004年4月1日出願)、出願番号第60/558,760号(2004年4月1日出願)、出願番号第60/558,717号(2004年4月1日出願)、出願番号第60/558,499号(2004年4月1日出願)、出願番号第60/558,370号(2004年4月1日出願)、出願番号第60/558,789号(2004年4月1日出願)、出願番号第60/558,791号(2004年4月1日出願)、出願番号第60/558,527号(2004年4月1日出願)、出願番号第60/559,125号(2004年4月2日出願)、出願番号第60/558,909号(2004年4月2日出願)、出願番号第60/559,033号(2004年4月2日出願)、出願番号第60/559,127号(2004年4月2日出願)、出願番号第60/559,087号(2004年4月2日出願)、出願番号第60/559,131号(2004年4月2日出願)、出願番号第60/559,766号(2004年4月6日出願)、出願番号第60/561,768号(2004年4月12日出願)、出願番号第60/563,520号(2004年4月19日出願)、出願番号第60/563,485号(2004年4月19日出願)、出願番号第60/564,688号(2004年4月23日出願)、出願番号第60/564,846号(2004年4月23日出願)、出願番号第60/556,667号(2004年4月30日出願)、出願番号第60/571,381号(2004年5月14日出願)、出願番号第60/571,560号(2004年5月14日出願)、出願番号第60/571,715号(2004年5月17日出願)、出願番号第60/589,203号(2004年7月19日出願)、出願番号第60/589,201号(2004年7月19日出願)、出願番号第60/589,202号(2004年7月19日出願)、出願番号第60/598,821号(2004年8月2日出願)、出願番号第60/602,956号(2004年8月18日出願)、出願番号第60/602,925号(2004年8月18日出願)、出願番号第60/602,947号(2004年8月18日出願)、出願番号第60/602,897号(2004年8月18日出願)、出願番号第60/602,896号(2004年8月18日出願)、出願番号第60/602,930号(2004年8月18日出願)、出願番号第60/602,898号(2004年8月18日出願)、出願番号第60/603,466号(2004年8月19日出願)、出願番号第60/603,082号(2004年8月19日出願)、出願番号第60/603,081号(2004年8月19日出願)、出願番号第60/603,498号(2004年8月20日出願)、出願番号第60/603,358号(2004年8月20日出願)、出願番号第60/604,103号(2004年8月23日出願)、出願番号第60/604,098号(2004年8月23日出願)、出願番号第60/604,100号(2004年8月23日出願)、出願番号第60/604,102号(2004年8月23日出願)、出願番号第60/605,229号(2004年8月27日出願)、出願番号第60/605,105号(2004年8月27日出願)、出願番号第60/613,243号(2004年9月27日出願)、出願番号第60/613,628号(2004年9月27日出願)、出願番号第60/613,632号(2004年9月27日出願)、出願番号第60/613,589号(2004年9月27日出願)、出願番号第60/613,242号(2004年9月27日出願)、出願番号第60/613,602号(2004年9月27日出願)、出願番号第60/613,340号(2004年9月27日出願)、出願番号第60/613,634号(2004年9月27日出願)、出願番号第60/613,461号(2004年9月27日出願)、出願番号第60/613,455号(2004年9月27日出願)、出願番号第60/613,460号(2004年9月27日出願)、出願番号第60/613,400号(2004年9月27日出願)、出願番号第60/613,456号(2004年9月27日出願)、出願番号第60/613,341号(2004年9月27日出願)、出願番号第60/613,361号(2004年9月27日出願)、出願番号第60/613,454号(2004年9月27日出願)、出願番号第60/613,339号(2004年9月27日出願)、出願番号第60/613,633号(2004年9月27日出願)、出願番号第60/615,378号(2004年10月1日出願)、出願番号第60/615,112号(2004年10月1日出願)、出願番号第60/615,538号(2004年10月1日出願)、出願番号第60/617,122号(2004年10月7日出願)、出願番号第60/622,906号(2004年10月28日出願)、出願番号第60/633,452号(2004年12月6日出願)、出願番号第60/633,678号(2004年12月6日出願)、出願番号第60/633,486号(2004年12月6日出願)、出願番号第60/633,453号(2004年12月6日出願)、出願番号第60/634,627号(2004年12月9日出願)、出願番号第60/634,739号(2004年12月9日出願)出願番号第60/647,684号(2005年1月26日出願)、出願番号第60/648,746号1月31日出願)、出願番号第60/653,372号(2005年2月15日出願)、出願番号第60/653,663号(2005年2月16日出願)、出願番号第60/653,669号(2005年2月16日出願)、出願番号第60/653,899号(2005年2月16日出願)、出願番号第60/653,679号(2005年2月16日出願)、出願番号第60/653,847号(2005年2月16日出願)、出願番号第60/654,379号(2005年2月17日出願)、出願番号第60/654,368号(2005年2月18日出願)、出願番号第60/654,326号(2005年2月18日出願)、出願番号第60/654,196号(2005年2月18日出願)、出願番号第60/655,279号(2005年2月22日出願)、出願番号第60/655,280号(2005年2月22日出願)、出願番号第60/655,987号(2005年2月22日出願)、出願番号第60/655,697号(2005年2月22日出願)、出願番号第60/655,281号(2005年2月22日出願)、および出願番号第60/657,309号(2005年2月28日出願)。
紙の文書は、コンピュータ時代における紙の文書の急増によりわかるように、揺るぎない魅力を有する。現在ほど紙の文書を印刷し発行することが容易なときはない。複写、伝送、検索、および編集するのに電子文書のほうが容易であっても、紙の文書は普及している。
紙の文書の人気および電子文書の利点を鑑みて、両方の利益を組み合わせることが有用であろう。
レンダリングされた文書に含まれるテキストを取得し、そのテキストに作用する携帯機器(「機器」)を、場合によっては、当該携帯機器によって取得されたテキストを処理するためのより広範囲なシステム(「システム」)の一部として説明する。
いくつかの実施形態において、スキャン機能を有する携帯機器は、文書を一意に識別するために、ユーザがテキストまたは他の情報を十分にスキャンしたことを当該ユーザに知らせる。いくつかの実施形態において、携帯機器は、画像を取得するための画像取得装置と、画像を処理するためのプロセッサと、データおよび/またはロジック(コンピュータプログラム等)を格納するための記憶装置と、他のデバイスと通信を行うための入力/出力通信インターフェースと、電源と、スキャンされている情報を照らすための照明源と、ロケーションモジュールとを有する。
いくつかの実施形態において、視覚スキャン機能を有する代わりに、またはそれに加えて、携帯機器は、レンダリングされた文書から読み上げるユーザの音声クリップをデバイスが取得することを可能にする、音声テキスト取得機能を有する。システムは一般に、音声テキスト取得操作からテキストのコンテンツを導出するため、該当する音声クリップに音声認識技術を適用させる。
本明細書において参照する携帯テキスト取得装置は視覚スキャン特有のものである場合があるが、当業者であれば、該当する参考文献を含んでなされた記述は、音声テキスト取得等、他のテキスト取得技術を使用する携帯テキスト取得装置にも同様に当てはまることを十分に理解するであろう。
いくつかの実施形態において、スキャナによってスキャンされたテキストまたはシンボルは、スキャナの制御ロジックまたは制御ソフトウェアによる、ソフトウェアプログラムをスキャナに実行させる、またはある一定の所定のアクション(記憶装置からデータを消去する、オン/オフにする、金融取引を開始および/または完了する等)を実行するための制御コマンドとして使用および解釈される。
いくつかの実施形態において、携帯スキャナは、電子コピーが位置を特定されることができるように、文書を識別するために十分なテキストがスキャンされたことをユーザに知らせる。携帯スキャナは、十分な情報がスキャンされたか否かを判定するために、スキャンされた情報量を所定の閾値レベルと比較することができる。(この閾値法は、特にスキャナがコンピュータと通信を行っていない場合に有用である。)携帯スキャナがリモートコンピュータと通信を行っている場合、リモートコンピュータはテキストがスキャンされた文書が識別されたことを示すメッセージをスキャナに送信することができる。メッセージの受信を受けて、携帯スキャナは、文書が識別されユーザがスキャンを停止してよいことをユーザに知らせる。様々な実施形態において、表示は視覚的(例えば、発光素子(LED)、ディスプレイ等)、聴覚的(例えば、スピーカ、ポケットベル等)または触覚的(触覚への刺激)である。
いくつかの実施形態において、携帯スキャナはロケーションおよび/または時刻決定機能を有し、スキャンされたデータとともにスキャンがいつおよび/またはどこで行われたかについてのロケーションおよび/または時刻情報を格納することができる。時刻情報は、特定のスキャンイベントに関連するタイムスタンプであってよい。ロケーション情報は、特定のスキャンイベントに関連するロケーションスタンプであってよい。
いくつかの実施形態において、携帯スキャナ等の携帯機器の操作は、速度、繰り返し、方向等、スキャンの特性によって制御される。また、スキャナ内の制御プログラムまたはロジックは、特別なシンボルに応答するものであってよい。これらの特別なシンボルは、携帯機器によって実行される特定のアクション、または実行されるプログラムに関連してよい。
いくつかの実施形態において、携帯スキャナは、記憶装置内に課金、サブスクリプション、および/または装置識別子情報を格納している。サブスクリプション情報は、例えばプリペイドアカウント等、識別された文書の電子コピーへのユーザのアクセス権を検証するために使用することができる。課金情報は、識別された文書の電子コピーへのアクセス料を支払うために使用することができる。装置識別子は、ユーザIDの検証を支援するためのセキュリティ特徴として使用することができる。
図1は、コアシステムの一実施形態における情報の流れを示すデータフロー図である。 図2は、一般的な動作環境という状況におけるシステムの一般的な実装に含まれるコンポーネントのコンポーネント図である。 図3は、スキャナの実施形態のブロック図である。 図4は、携帯スキャン装置の一般的な使用を示す透視図である。 図5は、一般的な携帯スキャン装置の実施形態の機能ブロック図である。 図6は、システムによって一般に使用されるデータ記録用のフォーマットを示すデータ構造図である。 図7は、携帯機器を使用して文書がスキャンされたロケーションおよび/または時刻についての情報を検出および格納するために、システムによって一般に実行されるステップを示すフロー図を示す。 図8は、ユーザがサークルジェスチャを行ったことを検出するために、システムによって一般に実行されるステップを示すフロー図である。 図9は、サークルジェスチャの実行におけるユーザの試みのいくつかの例を示す。 図10は、ラビングジェスチャを検出するために、システムによって一般に実行されるステップを示すフロー図である。 図11は、文書全体を後方に(右から左へ)移動するスキャナを示す。 図12は、隣接するデバイスを携帯スキャナによって関連付けるための一システム構成のブロック図を示す。 図13は、スキャン装置とサービスプロバイダを関連付ける一般的なクエリーセッションを示すブロック図である。 図14は、スキャナ関連機器にコンテンツを提供するために、システムによって一般にデバイス間で実行されるインタラクションを示すアクションフロー図である。 図15は、2行の文書からテキストを取得する携帯スキャナを示す。 図16は、文字オフセットを決定するための畳み込みの一実施形態を示す。 図17は、畳み込み処理を概念化するための一手法の説明図である。 図18は、別の手法である。ここで、なぜ一致がわかるかがより明瞭になるように、記憶装置内のコピーの上にスライスコピーが示されている。 図19は、画像に対して畳み込み処理を実行するために、システムによって一般に実行されるステップを示すフロー図である。 図20は、マウスの下の面を見せるためのビューウィンドウを持つスキャナ/マウスを示す。 図21は、何がスキャンされているのかをユーザが見ることができるように、筐体の上部に搭載されたディスプレイ(LCD、LED等)を持つスキャナ/マウスを示す。 図22は、従来の機械的x/y機構および光学スキャナを持つマウス等、個々の位置検出およびスキャン機構を持つマウスブロック図を示す。 図23は、x/y動作を検出するため、およびレンダリングされた文書からデータをスキャンするために使用され得る任意のセンサアセンブリを持つマウスのブロック図を示す。 図24は、画像をスキャナヘッドの下にあるもののファインダーに反映させるために一連の鏡を使用するマウス/スキャナの側面図を示す。 図25は、光感知半導体チップ(CMOS、CCD等)と動作可能に接続された画像ルートを使用するマウス/スキャナの例を示す。 図26は、スキャンヘッドの下を通過しようとするテキストをユーザが見ることができるように、実質的に、スキャン機構の両側にあるウィンドウであるファインダーを持つマウス/スキャナの平面図を示す。 図27は、サンプル携帯用文書データ取得装置の図を示す透視図である。 図28は、注釈入力装置の一実施形態のブロック図を示す。 図29は、通信ポート、一般にはUSBポートを介してPC等の処理装置に接続されたデバイスを示す。 図30は、一般にコンピュータシステムおよびシステムが実行される他のデバイスの少なくともいくつかに組み込まれたコンポーネントのいくつかを示すブロック図である。 図31は、電子文書に注釈を入力するために、システムによって使用される一般的なプロセスを示すフロー図である。 図32は、ユーザによって入力された注釈を表すために、システムによって使用されるサンプル注釈テーブルを示すテーブル図である。
第1部‐導入部
1.システムの性質
電子副本を有するすべての紙の文書について、電子副本を識別することができる情報が紙の文書内に離散的な量で存在する。いくつかの実施形態において、システムは、例えば携帯用スキャナを使用して、文書の電子副本を識別し位置を特定するために、紙の文書から取得したテキストのサンプルを使用する。ほとんどの場合、設備によって必要とされるテキストの量は極めて少なく、そのうち紙の文書のための識別子およびその電子副本へのリンクとして頻繁に機能することができるのは、文書からのテキストのうち数単語である。また、システムはそれらの数単語を使用して、文書だけでなく、文書内のロケーションも識別することができる。
したがって、紙の文書およびそれらのデジタル副本は、本明細書において論じるシステムを使用して、多数の有用な方法で関連することができる。
1.1.将来の俯瞰
システムが、紙の文書内にあるテキストの一部分を確立された特定のデジタルエンティティと関連付けると、システムは当該関連付けにおいて膨大な機能性を築くことができる。
ほとんどの紙の文書が、ワールドワイドウェブ上で、もしくは他の何らかのオンラインデータベースまたは文章集合からアクセス可能である、あるいは、手数料またはサブスクリプション料の支払い等を受けてアクセス可能にされることができる。電子副本を有するケースがますます増えている。そこで、最も単純なレベルでは、ユーザが紙の文書内の数単語をスキャンする場合、システムは当該電子文書またはその一部を取り込む、もしくは表示する、それを誰かに電子メールで送る、購入する、印刷する、またはウェブページに掲載することができる。さらなる例として、ある人物が朝食をとりながら読んでいる本の数単語をスキャンすることにより、当該人物の車内にあるオーディオブック版に、当該人物が仕事に向かうために車を発進させた時点から読み始めさせることができ、または、プリンタカートリッジの製造番号をスキャンすることにより、交換品注文のプロセスを始めることができる。
システムは、文書を書き、印刷し、発行する現在のプロセスを変更する必要なく、該当する従来のレンダリングされた文書にデジタル機能性の全く新しい層を与えて、「紙/デジタル統合」のこれらおよび他の多数の例を実装する。
1.2用語
システムの一般的な使用は、紙の文書からテキストをスキャンするために光学スキャナを使用することから始まるが、他のタイプの文書から取得する他の方法も同様に適用できることに留意することが重要である。したがってシステムは、レンダリングされた文書からテキストをスキャンまたは取得することとして説明される場合があり、ここでそれらの用語を以下のように定義する。
レンダリングされた文書は、印刷された文書もしくはディスプレイまたはモニタに示された文書である。永続的な形態であっても一時的な表示であっても、人間が知覚できるのが文書である。
スキャンまたは取得は、レンダリングされた文書から情報を取得するための系統的検査のプロセスである。当該プロセスは、スキャナまたはカメラ(例えば、携帯電話のカメラ)を使用する光取得を含んでよく、もしくは、文書から音声取得装置への読み上げ、またはキーパッドまたはキーボードへの打ち込みを含んでもよい。それ以上の例については、第15項を参照のこと。
2.システムへの導入
この項では、紙/デジタル統合のためのシステムの構成要素となるデバイス、プロセス、およびシステムのいくつかを説明する。様々な実施形態において、システムは、基本機能を提供するこの基本コア上に、多種多様なサービスおよびアプリケーションを築く。
2.1.プロセス
図1は、コアシステムの一実施形態における情報の流れを示すデータフロー図である。他の実施形態は、本明細書において図示されている段階または要素のすべてを使用することはできないが、さらに多くを使用するものもある。
レンダリングされた文書から、一般に光学スキャナによる光学形態またはボイスレコーダによる音声形態でテキストが取得100され、次いでこの画像またはサウンドデータが、例えば取得プロセスのアーチファクトを除去するため、または信号対ノイズ比を改善するために処理102される。次いで、OCR、スピーチ認識、または自己相関等の認識プロセス104は、データを、いくつかの実施形態ではテキスト、テキストオフセット、または他のシンボルを含む署名に変換する。あるいは、システムは、レンダリングされた文書からの文書署名抽出の代替形態を実行する。署名は、いくつかの実施形態において可能なテキスト転写のセットを表す。このプロセスは、例えば、検索プロセスおよびコンテクスト解析110が、取得が起こり得るいくつかの候補文書を識別し、したがって元の取得の可能な解釈を狭めた場合等、他の段階からのフィードバックに影響され得る。
後処理106段階は、認識プロセスの出力を獲得し、有用となるように、それをフィルタまたはそれに対して他の該当する操作を実行することができる。実装されている実施形態によって、この段階において、例えば、ユーザの意図を伝達するために十分な情報をそれ自体に含むフレーズまたはシンボルが取得された場合等、後の段階と無関係に直ちにとられるいくつかの直接実行107を推測することができることがある。これらの場合にはデジタル副本文書を参照する必要も、またシステムに知らせる必要さえない。
しかしながら、一般に、次の段階は検索に使用するためのクエリー108またはクエリーのセットを構築することであろう。クエリー構築のいくつかの側面は使用される検索プロセスによる場合があり、そのため次の段階まで実行できないが、明らかに誤認識された、または不適切な文字の除去等、一般には事前に実行され得るいくつかの操作があるだろう。
クエリーは、検索およびコンテクスト解析段階110に渡される。ここで、システムは任意で、元のデータが取得された文書を識別しようと試みる。そうするために、システムは一般に、検索インデックスおよび検索エンジン112、ユーザについての知識114およびユーザコンテクストまたは取得が行われたコンテクストについての知識116を使用する。検索エンジン112は、特にレンダリングされた文書について、それらのデジタル副本文書について、およびウェブ(インターネット)プレゼンスを有する文書についての情報を用いる、かつ/またはインデックスを付けることができる。これらのソースの多くから読み出すのに加えてこれらに書き込むこともでき、既に述べたように、例えば、候補文書についてのその知識に基づいて、認識システム104に言語、フォント、レンダリングおよび次に来そうな単語についての情報を与えることによって、プロセスの他の段階へ情報を供給することができる。
状況次第で、次の段階は識別された文書のコピーを取り込む120。文書124のソースは、例えばローカルファイリングシステムまたはデータベースもしくはウェブサーバから直接的にアクセス可能であるか、もしくは、認証、セキュリティ、または支払いを強制するかもしれない、または文書の所望のフォーマットへの変換等、他のサービスを提供できる、いくつかのアクセスサービス122を介して接触される必要がある場合がある。
システムのアプリケーションは、余分の機能またはデータの、文書の一部またはすべてとの関連付けを利用することができる。例えば、第10.4項で論じられる広告アプリケーションは、特定の広告メッセージまたはサブジェクトの、文書の一部との関連付けを使用することができる。この余分の関連機能性またはデータは、文書における1つ以上のオーバーレイと考えることができ、本明細書では「マークアップ」と称される。次いで、プロセス130の次の段階は、取得されたデータに関連するあらゆるマークアップを識別することである。該当するマークアップは、文書のユーザ、起案者、または発行者、もしくは他の何らかの関係者によって提供されることができ、いくつかのソース132から直接的にアクセス可能であってよく、あるいはいくつかのサービス134によって発生してよい。様々な実施形態において、マークアップは、レンダリングされた文書および/またはレンダリングされた文書に対する、もしくはこれらの文書のいずれかまたは両方の群に対するデジタル副本に関連してよく、またはそれらに適用されてよい。
最後に、初期段階の結果として、いくつかのアクションがとられてもよい140。これらは見つかった情報を単に記録する等のデフォルトアクションであってよく、データまたは文書に依存してよく、またはマークアップ解析から導出されたものであってよい。時にはアクションが単にデータを別のシステムに渡す場合もあるであろう。レンダリングされた文書内の一定時点における取得に適した様々な可能なアクションが、関連ディスプレイ上、例えばローカルディスプレイ332上、コンピュータディスプレイ212上もしくは携帯電話またはPDAディスプレイ216上に、メニューとしてユーザに対して提示される場合があるであろう。ユーザがメニューに応答しない場合、デフォルトアクションがとられる場合がある。
2.2.コンポーネント
図2は、一般的な動作環境という状況におけるシステムの一般的な実装に含まれるコンポーネントのコンポーネント図である。図示するように、動作環境は、1つ以上の光学スキャン取得装置202または音声取得装置204を含む。いくつかの実施形態において、同一のデバイスは両方の機能を実行する。各取得装置は、直接配線または無線接続のいずれかを使用して、もしくは、有線または無線接続を使用して通信を行うことができ、後者は一般的に無線基地局214を含むネットワーク220を介して、コンピュータ212および移動局216(例えば、携帯電話またはPDA)等システムの他の部分と通信を行うことができる。いくつかの実施形態において、取得装置は移動局に統合され、音声通信および写真撮影のためにデバイスで使用されるいくつかの音声および/または光学コンポーネントを任意で共有する。
コンピュータ212は、スキャン装置202および204からの指令を処理するためのコンピュータで実行可能な命令を含む記憶装置を含んでよい。例のように、指令は、識別子(スキャン装置202/204の製造番号もしくはスキャナのユーザを部分的にまたは一意に識別する識別子等)、スキャンコンテクスト情報(例えば、スキャン時刻、スキャン位置等)および/またはスキャンされている文書を一意に識別するために使用されるスキャンされた情報(テキスト文字列等)を含んでよい。代替の実施形態において、動作環境は多かれ少なかれコンポートを含んでよい。
検索エンジン232、文書ソース234、ユーザアカウントサービス236、マークアップサービス238、および他のネットワークサービス239も、ネットワーク220上で利用可能である。ネットワーク220は、企業イントラネット、公衆インターネット、携帯電話ネットワークまたは他の何らかのネットワーク、もしくは上記のいかなる相互接続であってもよい。
デバイスが互いに連結される方式にかかわらず、それらは既知の商取引および通信プロトコル(例えば、インターネットプロトコル(IP))に従って動作可能である。様々な実施形態において、スキャン装置202、コンピュータ212、および移動局216の機能および性能は、完全に、または部分的に、1つのデバイスに統合されてよい。したがって、スキャン装置、コンピュータ、および移動局という用語は、当該デバイスが、スキャン装置202、コンピュータ212、および移動局216の機能または性能を組み込むか否かによって、同一のデバイスをいうことができる。また、検索エンジン232、文書ソース234、ユーザアカウントサービス236、マークアップサービス238、および他のネットワークサービスのいくつかまたはすべての機能は、これらのデバイスおよび/または図示されていない他のデバイスのいずれにおいて実装されてもよい。
2.3.取得装置
上述のように、取得装置は、レンダリングされた文書から画像データを取得する光学スキャナを使用して、もしくはユーザの口頭によるテキストの読み上げを取得する音声記録装置、または他の方法を使用して、テキストを取得することができる。取得装置のいくつかの実施形態は、バーコード等の機械可読コードを含む、画像、グラフィカルシンボルおよびアイコン等を取得することもできる。当該デバイスは非常に単純で、ただトランデューサ、いくつかの記憶領域、およびデータインターフェースのみからなり、システムのどこか他の場所にある他の機能性に依存しているか、またはさらにフル装備のデバイスであってよい。例として、この項では、光学スキャナに基づき、適当な数の特徴を持つデバイスを説明する。
スキャナは、画像を取得しデジタル化する既知のデバイスである。写真式複写機業界の副産物である最初のスキャナは、文書のページ全体を一度に取得する比較的大きなデバイスであった。近年、ペン型の携帯用デバイス等、便利なフォームファクタの携帯光学スキャナが導入されてきた。
いくつかの実施形態において、携帯スキャナを使用して、レンダリングされた文書から、テキスト、グラフィック、またはシンボルをスキャンすることができる。携帯スキャナは、レンダリングされた文書から、テキスト、シンボル、グラフィック等を取得するスキャン要素を有する。紙に印刷された文書に加えて、いくつかの実施形態では、レンダリングされた文書は、CRTモニタまたはLCDディスプレイ等の画面上に表示された文書を含む。
図3は、スキャナ302の実施形態のブロック図である。スキャナ302は、レンダリングされた文書から情報をスキャンし、それを機械互換性のあるデータに変換するための光学スキャンヘッド308および光学経路306、一般に、レンダリングされた文書からスキャンヘッドへ画像を伝達するためのレンズ、口径または画像ルートを備える。スキャンヘッド308は、電荷結合素子(CCD)、相補型金属酸化膜半導体(CMOS)撮像素子、または別のタイプの光センサを組み込んでよい。
マイクロホン310および関連回路は環境の音(話されている言葉を含む)を機械互換性のある信号に変換し、他の入力設備は、ボタン、スクロールホイール、またはタッチパッド314等他の接触センサの形態で存在する。
視覚ディスプレイまたは表示ライト332を介して、拡声器または他の音声変換器334を介して、および振動モジュール336を介して、ユーザへのフィードバックが可能である。
スキャナ302は、場合によっては受信した信号を異なるフォーマットおよび/または解釈に処理する、他の様々なコンポーネントと情報をやりとりするためのロジック326を備える。ロジック326は、RAM、ROM、フラッシュ、または他の適合する記憶装置等、関連する記憶領域330に格納されているデータおよびプログラム命令を読み出しおよび書き込みするために動作可能であってよい。また、クロックユニット328からのタイムシグナルを読み出してもよい。スキャナ302は、スキャンされた情報および他の信号をネットワークおよび/または関連コンピュータ機器に伝えるためのインターフェース316も含む。いくつかの実施形態において、スキャナ302はオンボード電源332を有してよい。他の実施形態において、スキャナ302は、ユニバーサルシリアルバス(USB)接続等、別のデバイスへのテザー接続を動力源としてよい。
スキャナ302の一使用例として、読者は、スキャナ302で新聞記事からいくつかのテキストをスキャンすることができる。テキストは、スキャンヘッド308を介してビットマップ画像としてスキャンされる。ロジック326は、クロックユニット328から読み出された関連するタイムスタンプとともにビットマップ画像を記憶装置330に格納させる。ロジック326は、それをテキストに変換するために、ビットマップ画像について光学式文字認識(OCR)または他のスキャン後処理を実行してもよい。ロジック326は、任意で、例えば繰り返し発生する文字、シンボル、またはオブジェクトの位置を特定するための畳み込みのようなプロセスを実行することによって画像から署名を抽出し、これらの繰り返される要素の間にある他の文字、シンボル、またはオブジェクトの距離または数を決定することができる。読者は次いでビットマップ画像(または、スキャン後処理がロジック326によって実行された場合、テキストまたは他の署名)を、インターフェース316を介して関連するコンピュータにアップロードすることができる。
スキャナ302の別の使用例として、読者は、マイクロホン310を音響取得ポートとして使用して、記事からいくつかのテキストを音声ファイルとして取得することができる。ロジック326は、音声ファイルを記憶装置328に格納させる。ロジック326は、それをテキストに変換するために、音声ファイルについて音声認識または他のスキャン後処理を実行することもできる。上記のように、読者は次いで音声ファイル(または、ロジック326により実行されたスキャン後処理によって作り出されたテキスト)を、インターフェース316を介して関連するコンピュータにアップロードすることができる。
第2部‐コアシステムのエリアの概要
紙‐デジタル統合が一般的になるにつれて、現行の技術にはこの統合をさらにうまく利用するため、またはそれをさらに効率的に実装できるようにするために変更され得る多くの側面がある。この項では、それらの問題を明らかにする。
3.検索
文書の集合を検索することは、ワールドワイドウェブのように大きな集合でさえ、一般ユーザにとって普通のことになってきて、ユーザはキーボードを使用して検索エンジンに送信される検索クエリーを構築する。この項および次項では、レンダリングされた文書からの取得に由来するクエリーの構築および該当するクエリーを扱う検索エンジンの両方の側面について論じる。
3.1.スキャン/スピーク/検索クエリー時のタイプ
説明したシステムの使用は、一般に、上記の第1.2項で述べたものを含むいくつかの方法のうちいずれかを使用して、レンダリングされた文書から取得される数単語で始まる。入力が、それをテキストに変換するために何らかの解釈を必要とする場合、例えばOCRまたはスピーチ入力の場合、文書集合を使用して認識プロセスを促進できるように、システム内においてエンドツーエンドフィードバックがあってよい。エンドツーエンドフィードバックは、認識または解釈の近似を実行し、文書と一致する1つ以上の候補のセットを識別し、次いで、候補文書内の可能な一致からの情報を使用して認識または解釈をさらに洗練および制限することによって適用できる。候補文書は、推定関連性に従って(例えば、これらの文書内のスキャンを行った他のユーザの数、またはインターネット上でのそれらの人気に基づいて)重み付けされることができ、これらの重み付けはこの反復認識プロセスに適用されることができる。
3.2.短いフレーズの検索
数単語に基づく検索クエリーの選択力はこれらの単語の相対位置が既知である場合に大幅に強化されるため、システムが集合内のテキストのロケーションを識別するために取得される必要があるのは少量のテキストのみである。通常、入力テキストは、短いフレーズ等の連続的な単語の配列であろう。
3.2.1.短い取得から文書および文書内のロケーションを見つける
フレーズが由来する文書の位置を特定することに加えて、システムは当該文書内のロケーションを識別し、この知識に基づいてアクションをとることができる。
3.2.2.ロケーションを見つける他の方法
システムは、レンダリングされた文書において透かしまたは他の特別なマーキングを使用する等による、文書およびロケーションを発見する他の方法を用いてもよい。
3.3.検索クエリーへの他のファクタの組み込み
取得されたテキストに加えて、他のファクタ(すなわち、ユーザID、プロファイル、コンテクストについての情報)が、取得時刻、ユーザのIDおよび地理的位置、ユーザの習慣および最近のアクティビティについての知識等、検索クエリーの一部を形成してよい。
文書IDおよび前回の取得に関する他の情報は、特にそれらがごく最近のものである場合、検索クエリーの一部を形成することができる。
ユーザのIDは、取得装置、および/もしくはバイオメトリックまたは他の補足情報(話し方、指紋等)に関連する一意識別子から判定することができる。
3.4.検索クエリーにおける不信頼性の性質についての知識(OCRエラー等)
検索クエリーは、使用される特定の取得方法において発生しそうなエラーのタイプを考慮して構築されてよい。これの一例は、特定文字の認識において疑わしいエラーの表示であり、この場合には、検索エンジンはこれらの文字をワイルドカードとして処理するか、それらに低い優先順位を割り当てることができる。
3.5.パフォーマンスのためのインデックスのローカルキャッシング/オフライン使用
時に、取得装置は、データ取得時に検索エンジンまたは集合と通信を行えない場合がある。このため、デバイスのオフライン使用に役立つ情報は事前にデバイスへ、またはデバイスが通信を行える何らかのエンティティへダウンロードすることができる。集合に関連するインデックスのすべてまたは実質的部分をダウンロードできる場合もある。このトピックについては、第15.3項でさらに論じる。
3.6.いかなる形態であれ、クエリーは記録され後に作用できる
クエリーの通信および結果の受信に関連して遅延および費用が発生しそうな場合、このプリロードされた情報は、ローカルデバイスのパフォーマンスを改善し、通信費を削減し、役に立ち、かつ時宜を得たユーザフィードバックを提供することができる。
通信が利用不可能である(ローカルデバイスが「オフライン」である)状況において、クエリーは、保存され、通信が復旧すると同時にシステムの残りへ伝送されることができる。
これらの場合、クエリーごとにタイムスタンプを伝送することが重要になり得る。取得時刻は、クエリーの解釈において重大なファクタとなり得る。例えば、第13.1項では、取得時刻の重要性を初期取得に関連して論じている。取得時刻は常にクエリーが実行される時刻と同一ではないことに留意することが重要である。
3.7.パラレル検索
パフォーマンス上の理由から、単一の取得を受けて複数のクエリーが順に、または同時に開始される場合がある。単一の取得を受けて、例えば新しい単語が取得に追加された際に、または複数の検索エンジンを同時にクエリーするために、いくつかのクエリーが送信される場合がある。
例えば、いくつかの実施形態において、システムは、現在の文書の特別なインデックス、ローカルマシン上の検索エンジン、企業ネットワーク上の検索エンジン、およびインターネット上のリモート検索エンジンにクエリーを送信する。
特定の検索の結果は、他の検索の結果よりも高い優先順位を与えられる場合がある。
与えられたクエリーに対する応答は、他の保留中のクエリーが過剰であることを示す場合があり、これらは完了前に取り消される場合がある。
4.紙と検索エンジン
多くの場合、従来のオンラインクエリーを扱う検索エンジンは、レンダリングされた文書に由来するクエリーも扱うことが望ましい。従来の検索エンジンは、説明したシステムでそれらを使用するのにより適合するようにするために、多くの手法で強化または修正されることができる。
検索エンジンおよび/またはシステムの他のコンポーネントは、異なる、または余分の特徴を有するインデックスを作成し、保持することができる。システムは、着信する紙由来のクエリーを修正する、または結果として生じた検索においてクエリーが扱われる手法を変更することができ、したがって、これらの紙由来のクエリーをウェブブラウザおよび他のソースに打ち込まれたクエリーから生じたクエリーと区別することができる。また、システムは、紙由来の検索によって結果が返された際に、他のソースからのものと比べて異なるアクションをとるか、異なるオプションを提案することができる。これらのアプローチのそれぞれについて以下で論じる。
4.1.インデックス作成
多くの場合、紙由来または従来のクエリーを使用して同一のインデックスが検索され得るが、インデックスは現在のシステムにおいて様々な手法で使用するために強化される場合がある。
4.1.1.紙形態についての知識
紙ベースの検索の場合に役立つ該当するインデックスに、余分のフィールドを追加することができる。
紙形態で文書アベイラビリティを表示するインデックスエントリ
第1の例は、文書が存在すること、または紙形態で配布されていることが既知である、フィールド表示である。システムは、クエリーが紙から生じたものである場合、該当する文書に高い優先順位を与える場合がある。
紙形態人気についての知識
この例では、紙の文書の人気に関する(および、任意でこれらの文書内のサブ領域に関する)統計データ―例えばスキャンアクティビティの量、発行者および他のソースによって提供される発行部数等―を、該当する文書に高い優先順位を与える、デジタル副本文書の優先順位を高める(例えば、ブラウザベースのクエリーまたはウェブ検索)等のために使用する。
レンダリングされたフォーマットについての知識
別の重要な例は、文書の特別なレンダリングのレイアウトについての情報を記録することであってよい。
例えば、ある本の特定の版に関して、インデックスは、改行および改ページがどこで発生するか、どのフォントが使用されたか、あらゆる例外的な大文字化についての情報を含んでよい。
インデックスは、例えば画像、テキストボックス、テーブル、および広告等、ページ上にある他の項目の近接についての情報を含んでもよい。
元の意味情報の使用
最後に、テキストの特定の部分が市場に出される項目に言及している、またはある段落がプログラムコードを含む等、ソースマークアップから推測され得るが紙の文書において明らかではない意味情報をインデックスに記録することもできる。
4.1.2.取得方法の知識におけるインデックス作成
インデックスの性質を修正できる第2のファクタは、使用されそうな取得のタイプについての知識である。光学スキャンによって開始された検索は、インデックスがOCRプロセスにおいて混同しやすい文字を考慮に入れる場合、または文書内で使用されたフォントについての何らかの知識を含む場合に利益となり得る。同様に、クエリーがスピーチ認識から生じたものである場合、同音素に基づくインデックスは、はるかに効率的に検索され得る。説明したモデルにおけるインデックスの使用に影響を及ぼし得るさらなるファクタは、認識プロセス中の反復フィードバックの重要性である。テキストが取得されている際に検索エンジンがインデックスからのフィードバックを提供できる場合、取得の精度を大幅に向上させることができる。
オフセットを使用するインデックス作成
第9項において説明したオフセットベース/自己相関OCR方法を使用してインデックスが検索される可能性が高い場合、いくつかの実施形態において、システムは適切なオフセットまたは署名情報をインデックス内に格納する。
4.1.3.複数のインデックス
最後に、説明したシステムにおいて、多数のインデックスについて検索を行うことが一般的であってよい。インデックスは、いくつかの機械または企業ネットワーク上で保持されることができる。部分的なインデックスは、取得装置または取得装置に近い機械にダウンロードされてよい。特定の関心、習慣、または許可を持つユーザまたはユーザの群について、分離インデックスが作成される場合がある。インデックスは、各ファイルシステム、各ディレクトリ、ユーザのハードディスク上の各ファイルにさえ存在し得る。インデックスは、ユーザおよびシステムによって発行およびサブスクライブされる。そこで、効率的に配布、更新、マージ、および分離できるインデックスを構築することが重要になる。
4.2.クエリーを扱う
4.2.1.紙からの取得であることを知る
検索エンジンは、紙の文書に由来する検索クエリーを認識した場合に異なるアクションをとることができる。当該エンジンは、例えば、ある取得方法において現われそうなエラーのタイプに対して、より耐性がある手法でクエリーを扱うかもしれない。
クエリーに含まれる何らかの表示(例えば取得の性質を示すフラグ)からこれを推測できる場合があり、またはクエリー自体からこれを推測することができる(例えば、OCRプロセスに一般的なエラーまたは不確実性を認識することができる)。
あるいは、取得装置から生じたクエリーは、他のソースから生じたクエリーとは異なるチャネルまたはポートもしくは接続のタイプによってエンジンに到達することができ、そのように区別されることができる。例えば、システムのいくつかの実施形態では、クエリーを専用ゲートウェイで検索エンジンへ送るであろう。したがって、検索エンジンは、紙の文書由来の、専用ゲートウェイを通過するすべてのクエリーを把握している。
4.2.2.コンテクストの使用
以下の第13項では、取得されたテキスト自体の外側にあるが、文書の識別において大きな助力となり得る様々な異なるファクタについて説明する。これらは、最近のスキャンの履歴、特定のユーザの長期的な読書習慣、ユーザの地理的位置およびユーザの特定の電子文書の最近の使用等を含む。該当するファクタを、本明細書においては「コンテクスト」と称する。
コンテクストの一部は、検索エンジン自体によって扱われる場合があり、検索結果に反映される場合がある。例えば、検索エンジンはユーザのスキャン履歴を追跡記録することができ、このスキャン履歴を、従来のキーボードベースのクエリーと相互参照することもできる。そのような場合、検索エンジンは、従来の検索エンジンのほとんどが行うよりも多くの各個人ユーザについての状態情報を保持および使用し、検索エンジンとの各インタラクションは、いくつかの検索および現在一般的であるよりも長い期間にわたり拡張すると考えられてよい。
コンテクストの一部は検索クエリー内において検索エンジンへ伝送されることができ(第3.3項)、場合によっては、将来のクエリーにおいて役割を果たすよう、当該エンジンに格納されることができる。最後に、コンテクストの一部はどこか別の場所で扱われることが最も良く、検索エンジンによって生じた結果に適用されるフィルタまたは第2検索となる。
検索のために入力されるデータストリーム
検索プロセスへの重要な入力は、ユーザのコミュニティが文書のレンダリング版とどのように情報のやりとりをするか―例えば、どの文書が最も広く、誰によって読まれているか―の、より広範なコンテクストである。最も頻繁にリンクされるページ、または過去の検索結果から最も頻繁に選択されるページを返す検索エンジンには類似性がある。このトピックに関するこれ以上の議論については、第13.4および14.2項を参照のこと。
4.2.3.文書サブ領域
説明したシステムは、文書全体についての情報だけでなく、文書のサブ領域についての情報、個別の単語に至るまでも発し使用することができる。現存する多くの検索エンジンは、単純に文書または特定のクエリーに関連するファイルを位置付けることに集中する。細粒なことに取り組み、文書内でロケーションを識別することができる検索エンジンは、説明したシステムに重大な利益を提供するであろう。
4.3.結果を返す
検索エンジンは、現在保持しているさらなる情報の一部を使用して、返される結果に影響を及ぼすことができる。
システムは、ユーザがアクセスしたある文書を紙のコピーを所有していることの結果としてのみ返すこともできる(第7.4項)。
検索エンジンは、単なるテキストの取り込み以外にも、説明したシステムに適切な新しいアクションおよびオプションを提案してもよい。
5.マークアップ、注釈入力およびメタデータ
取得‐検索‐取り込みプロセスを実行することに加えて、説明したシステムはまた、余分の機能性を文書、特に文書内にあるテキストの特定のロケーションおよびセグメントと関連付ける。この余分の機能は多くの場合、これに限らないが、その電子副本と関連付けられることにより、レンダリングされた文書と関連付けられる。例として、ウェブページにおけるハイパーリンクは、当該ウェブページのプリントアウトがスキャンされる際に同一の機能性を有する場合がある。電子文書においては定義されていないが、どこか他の場所で格納されるまたは発生する機能性もある。
追加された機能性のこの層を、「マークアップ」と称する。
5.1.オーバーレイ、静的と動的
文書においてマークアップが「オーバーレイ」であるとして考える一手法は、文書またはその一部についての情報をさらに提供し、またそれに関連するアクションを特定することができる。マークアップは人間に解読可能なコンテンツを含むことができるが、多くの場合、ユーザに対して不可視であり、かつ/または機械使用を意図されている。例として、レンダリングされた文書内の特定のエリアからユーザがテキストを取得する場合に付近のディスプレイ上のポップアップメニューに表示されるオプション、または特定のフレーズの発音を示す音声サンプルが挙げられる。
5.1.1.場合によりいくつかのソースから考えられる、いくつかの層
いかなる文書も複数のオーバーレイを同時に有することができ、これらは様々なロケーションをソースとするものであってよい。マークアップデータは、文書の著者により、またはユーザにより、もしくは他の何らかの関係者により、作成または提供されることができる。
マークアップデータは、電子文書に添付されてもよく、またはそれに埋め込まれてもよい。従来のロケーション(例えば、文書と同一の場所ではあるが異なるファイル名接尾辞を持つ)で見つかる場合もある。マークアップデータは、元の文書を位置付けるクエリーの検索結果内に含まれる場合もあるし、同一の、または別の検索エンジンへの別々のクエリーによって見つかる場合もある。マークアップデータは、元の取得されたテキストもしくは他の取得情報またはコンテクスト情報を使用して見つかる場合もあるし、文書および取得位置についてのすでに推測された情報を使用して見つかる場合もある。マークアップデータは、マークアップ自体が文書内に含まれていない場合であっても、文書内の特定されたロケーションで見つかる場合がある。
マークアップは、従来のHTMLウェブページ上でリンクする手法が多くの場合静的データとしてHTML文書内に埋め込まれているのと同様に、大部分は静的かつ文書に特有であってよいが、マークアップは動的に発生し、かつ/または多数の文書に適用されてもよい。動的マークアップの例は、当該文書内で言及されている企業の最新の株価を含む文書に添付された情報である。広く適用されているマークアップの例は、特定の言語の複数の文書または文書の項において自動的に利用可能な翻訳情報である。
5.1.2.パーソナル「プラグイン」層
ユーザは、マークアップデータをインストール、またはその特定のソースをサブスクライブし、したがって、特定の取得に対するシステムの応答をパーソナル化することもできる。
5.2.キーワードとフレーズ、商標とロゴ
文書内のいくつかの要素は、特定の文書内におけるそれらのロケーションよりもむしろそれら自体の特性に基づいて、特定の「マークアップ」またはそれらに関連する機能性を有することができる。例としては、ユーザを関心のある組織についてのさらなる情報にリンクさせることができるロゴおよび商標に加えて、純粋にスキャンされることを目的として文書内に印刷される特別なマークが挙げられる。これはテキスト中の「キーワード」または「キーフレーズ」にも当てはまる。組織は、それが関連する、または関連付けたい特定のフレーズを登録し、それらに当該フレーズがスキャンされる場所であればどこでも利用可能なある一定のマークアップを添付するかもしれない。
いかなる単語、フレーズ等も、関連するマークアップを有してよい。例えば、システムは、ユーザが「本」という単語、または本のタイトル、または本に関連するトピックを取得した場合にはいつでも、ある一定の項目をポップアップメニュー(例えば、オンライン書店へのリンク等)に追加してよい。システムのいくつかの実施形態において、デジタル副本文書またはインデックスは、「本」という単語、または本のタイトル、または本に関連するトピックの付近で取得が発生したか否か―およびシステム挙動がキーワード要素へのこの近接に従って修正されたか否かを判定するために閲覧される。先の例において、マークアップは、非売テキストまたは文書を商取引のきっかけにできることに留意されたい。
5.3.ユーザ定義のコンテンツ
5.3.1.マルチメディアを含む、ユーザコメントおよび注釈
注釈は、文書に関連し得る別のタイプの電子情報である。例えば、ユーザは、後に音声注釈として取り込むために、特定の文書についての当該ユーザの考えの音声ファイルを添付することができる。マルチメディア注釈の別の例として、ユーザは、文書内で言及された場所の写真を添付することができる。ユーザは、概して文書に注釈を提供するが、システムは他のソースからの注釈を関連付けることができる(例えば、ワークグループ内の他のユーザは注釈を共有することができる)。
5.3.2.校正による注記
ユーザソースのマークアップの重要な例は、校正、編集、またはレビュープロセスの一部としての、紙の文書の注釈である。
5.4.第三者コンテンツ
先に述べたように、マークアップデータは多くの場合、文書の他の読者等、第三者によって提供されることができる。オンラインディスカッションおよびレビューは、特定の仕事、ボランティアで寄稿される翻訳および説明に関するコミュニティ管理の情報として、良い例である。
第三者マークアップの別の例は、広告主により提供されるものである。
5.5.他のユーザデータストリームに基づく動的マークアップ
システムの何人かまたはすべてのユーザにより文書から取得したデータを解析することによって、コミュニティのアクティビティおよび関心に基づいてマークアップが発生し得る。例として、実際に「この本を楽しんだ人は、・・・も楽しんだ」とユーザに教えるマークアップまたは注釈を作成するオンライン書店が挙げられるかもしれない。マークアップは匿名性が低くてもよく、ユーザに、当該ユーザが持つ連絡先リストの中でこの文書を最近読んだ人を教えてもよい。データストリーム解析の他の例を、第14項に含む。
5.6.外部イベントおよびデータソースに基づくマークアップ
マークアップは、多くの場合、企業データベースからの入力、公衆インターネットからの情報、またはローカルオペレーティングシステムにより収集された統計等、外部イベントおよびデータソースに基づくものであろう。
データソースはもっとローカルであってもよく、特にユーザのコンテクスト―当該ユーザのID、ロケーション、およびアクティビティについての情報を提供してよい。例えば、システムは、ユーザの携帯電話と通信を行い、ユーザが最近電話で話した誰かに文書を送信するためのオプションをユーザに与えるマークアップ層を提供するかもしれない。
6.認証、パーソナル化およびセキュリティ
多くの場合、ユーザのIDは知られることになる。これが「匿名ID」である場合があり、その場合ユーザは例えば取得装置の製造番号のみで識別される。しかしながら、一般に、システムがユーザについてはるかに詳細な知識を有し、システムをパーソナル化し、ユーザ名でアクティビティおよび取引の実行を可能にするためにそれを使用することができると予期される。
6.1.ユーザ履歴および「ライフライブラリ」
最も単純かつ最も有用な機能の1つは、ユーザのために、当該ユーザが取得したテキスト、ならびに、見つかったあらゆる文書の詳細、当該文書内のロケーション、および結果としてとられるあらゆるアクションを含む、当該取得に関するさらなる情報を記録に留めることである。
この格納された履歴は、ユーザおよびシステムの両方にとって有益なものである。
6.1.1.ユーザに関して
ユーザには、「ライフライブラリ」という当該ユーザが読んで取得したすべての記録が提示される場合がある。これは、単純に個人的関心のためのものであってもよいが、例えば、次の論文の参考文献となる資料を収集している研究者によってライブラリ内で使用されてもよい。
状況次第で、ユーザは、自身が読んでいて関心があるものを他の人々が見ることができるように、ウェブログと同様の方式でそれを発行すること等により、ライブラリを公共のものにしたいと希望してもよい。
最後に、ユーザが何らかのテキストを取得し、システムが直ちに取得に作用できない状況において(例えば、文書の電子版がまだ利用可能でないため)、取得はライブラリに格納され、自動的にまたはユーザ要求を受けて後に処理されることができる。ユーザは、新しいマークアップサービスにサブスクライブし、それらを以前に取得されたスキャンに適用することもできる。
6.1.2.システムに関して
ユーザの過去の取得に関する記録は、システムにも有用である。システム操作の多くの側面は、ユーザの読書習慣および履歴を知ることによって強化されることができる。最も単純な例は、ユーザによって行われるいかなるスキャンも当該ユーザが最近においてスキャンした文書から生じている可能性が高いことであり、特に前回のスキャンが過去数分の間だった場合には、同一の文書からのものである可能性が極めて高い。同様に、文書が最初から最後という順序で読まれている可能性も高い。したがって、英語の文書の場合、後のスキャンは文書のずっと下で発生する可能性も高い。該当するファクタは、システムが、曖昧な場合の取得のロケーションを確立するのを助けることができ、取得される必要があるテキストの量を削減することもできることである。
6.2.支払い、識別、および認証装置としてのスキャナ
取得プロセスは概してある種のデバイス、一般には光学スキャナまたはボイスレコーダから始まるため、このデバイスは、ユーザを識別しある一定のアクションを許可するキーとして使用されることができる。
6.2.1.スキャナを電話または他のアカウントと関連付ける
デバイスは、携帯電話または携帯電話アカウントに関連する他の何らかの手法に埋め込まれてよい。例えば、スキャナはアカウントに関連するSIMカードをスキャナに挿入することによって、携帯電話アカウントに関連することができる。同様に、デバイスは、クレジットカードまたは他の支払いカードに埋め込まれてよく、または該当するカードがそれに接続されるための設備を有してもよい。したがって、デバイスは支払いトークンとして使用されることができ、レンダリングされた文書からの取得によって金融取引を開始することができる。
6.2.2.スキャナ入力を認証に使用する
スキャナは、特定のユーザまたはアカウントと関連する何らかのトークン、シンボル、またはテキストをスキャンするプロセスを通じて、当該ユーザまたはアカウントに関連してもよい。また、スキャナは、例えばユーザの指紋をスキャンすることによって、バイオメトリック認証に使用されてもよい。音声ベースの取得装置の場合、システムは、ユーザの声紋を一致させることによって、またはユーザにある一定のパスワードまたはフレーズを言うよう要求することによって、ユーザを識別することができる。
例えば、ユーザが本からの引用をスキャンし、オンライン小売業者からその本を買うためのオプションを提案された場合、ユーザはこのオプションを選択することができ、次いで取引を確認するために当該ユーザの指紋をスキャンするよう促される。
第15.5および15.6項も参照のこと。
6.2.3.セキュアスキャン装置
ユーザを識別および認証するため、ならびにユーザに代わって取引を開始するために取得装置が使用される場合、デバイスとシステムの他の部分との間の通信がセキュアであることが重要である。デバイスと他のコンポーネントとの間の通信が傍受される、スキャナをまねた別のデバイス、いわゆる「中間者」攻撃のような状況に対して保護することも重要である。
該当するセキュリティを提供するための技術は当該技術分野において十分に理解され、様々な実施形態において、システム内のデバイスまたは他の場所にあるハードウェアおよびソフトウェアは該当する技術を実装するように構成される。
7.モデルおよび要素を発行する
説明したシステムの利点は、多くのシステムの利益を得るために、文書を作成、印刷、または発行する従来のプロセスを変更する必要がないことである。しかしながら、文書の作成者または発行者―以後、単純に「発行者」と称する―は、説明したシステムをサポートするための機能性の作成を希望する場合があるという理由がある。
この項では、主として発行された文書自体について考察する。広告等、関連する他の商取引についての情報は、「Pコマース」と題した第10項を参照のこと。
7.1.印刷された文書のための電子ガイド
システムは、印刷された文書が関連する電子存在を有するのを可能にする。従来、発行者はCD‐ROMを、さらなるデジタル情報、チュートリアルムービーおよび他のマルチメディアデータ、サンプルコードまたは文書、もしくはさらなる参考資料を含む本とともに出荷することが多い。また、一部の発行者は、正誤表、追加コメント、更新された参考資料、参考文献および関連データのさらなるソース、ならびに他の言語への翻訳等、発行後に更新され得る情報に加え、該当する資料を提供する特定の発行物に関連するウェブサイトを保持する。オンラインフォーラムによって、読者は発行物に関するコメントを寄稿することができる。
説明したシステムは、該当する資料をレンダリングされた文書とかつてないほど密接に関係させることができ、それらの発見およびそれらとのインタラクションをユーザにとってより容易なものにすることができる。文書からテキストの一部を取得することにより、システムは、文書に関連する、より具体的には文書の特定部分に関連するデジタル文書にユーザを自動的に接続することができる。同様に、ユーザは、テキストの項について論じるオンラインコミュニティ、または、他の読者による注釈および解説に接続されることができる。過去において、該当する情報は、一般に特定のページ番号または章を検索することにより、見つける必要があったと思われる。
これのアプリケーション例は、学術書のエリアにある(第17.5項)。
7.2.印刷された文書に対する「サブスクライブ」
いくつかの発行者は、新しい関連事項の通知を受けたい場合、また本の新版が発行された際、読者がサブスクライブできるメーリングストを有することができる。説明したシステムを使用すると、ユーザは特定の文書または文書の一部への関心をより容易に登録することができ、発行者が該当するいかなる機能性の提供を検討する前であっても登録できる場合がある。読者の関心は発行者へ提供され、場合によっては更新、さらなる情報、新版、または、現存する本において関心を持たれていると確認されたトピックに関する全く新しい発行物の提供する時期および場所についても影響を及ぼす。
7.3.特別な意味を持つ、または特別なデータを含む印刷マーク
単純に文書内に既に存在するテキストの使用を通じて、システムの多くの側面が可能となる。しかしながら、システムと連動して使用され得る知識のもとに文書が作り出される場合、特別なマークの形態で余分の情報を印刷することにより、余分の機能性を追加してもよく、これを使用してテキストまたは要求されたアクションをより密接に識別することができ、またはシステムとの文書のインタラクションを強化することができる。最も単純かつ最も重要な例は、文書がシステムを通じて確かにアクセス可能であるという読者への表示である。例えば、この文書はそれに関連するオンラインディスカッションフォーラムを有するということを示すために、特別なアイコンを使用してもよい。
該当するシンボルは純粋に読者を対象とすることができ、またはスキャンおよび何らかのアクションを開始するために使用される際、システムによって認識されることができる。シンボル内には、単なるシンボル以上のものを識別するために十分なデータを符号化することができる。例えば、文書、編集、およびシンボルのロケーションについての情報を格納することもでき、これらはシステムによって認識および読み出しされることができる。
7.4.紙の文書の所有による権限付与
印刷された文書への所有またはそれへのアクセスが、ユーザにある一定の特権、例えば文書の電子コピーまたは追加資料へのアクセス等を与えるであろう状況がいくつかある。説明したシステムを使用すると、該当する特権は、ユーザが単純に文書からテキストの一部を取得した、または特別に印刷されたシンボルをスキャンした結果として付与されることができる。ユーザが文書全体を所有していたことをシステムが確認する必要がある場合、特定のページから特定の項目またはフレーズ、例えば「46ページ2行目」をスキャンするよう、ユーザに促すかもしれない。
7.5.期限切れの文書
印刷された文書が余分の資料および機能性へのゲートウェイである場合、該当する特徴へのアクセスも期限付きである場合がある。有効期限後、ユーザはその特徴に再度アクセスするために、手数料を支払うか文書の新版を取得することを要求される場合がある。当然ながら、紙の文書は依然として使用可能であるが、強化された電子機能性の一部を喪失してしまう。これは、例えば、電子資料へのアクセスに対する手数料を受け取る、またはユーザに時々新版を購入するよう要求することで発行者に利潤があるため、または、まだ流通している旧版の印刷された文書に関連する不都合があるため、望ましい場合がある。クーポンは、有効期限を有し得る商業文書のタイプの例である。
7.6.人気解析および発行決定
第10.5項では、著者への報酬と広告価格に影響する、システムの統計の使用について論じる。
いくつかの実施形態において、システムは、紙の文書の使用からに加え、発行物に関連する電子コミュニティにおけるアクティビティから発行物の人気を推測する。これらのファクタは、発行者が将来発行するものに関する決定を行う助力となることができる。例えば、現存する本において、ある章の人気が非常に高いと判明した場合、別冊を展開する価値があり得る。
8.文書アクセスサービス
説明したシステムの重要な側面は、文書のレンダリングされたコピーにアクセスできるユーザに、当該文書の電子版へのアクセスを提供する能力である。文書は、ユーザがアクセスできるパブリックネットワークまたはプライベートネットワーク上で自由に利用できる場合がある。システムは、取得されたテキストを使用して文書を識別し、位置付け、かつ取り込み、場合によってはそれをユーザの画面に表示するか、またはユーザの電子メール受信箱へ預ける。
文書を電子形態で利用可能であっても、様々な理由によりユーザからアクセスできない場合がある。可能性としていくつか挙げるなら、文書を取り込むために十分な接続性がない場合がある、ユーザがそれを取り込む権利を与えられない場合がある、それに対するアクセスを得ることに関連して費用がかかる場合がある、または文書が絶版になり、場合によっては新版に取って代わられる場合がある、等である。システムは、一般にこれらの状況についてユーザへフィードバックを提供する。
第7.4項で述べたように、特定のユーザに対して付与されたアクセスの程度または性質は、ユーザが既に文書の印刷されたコピーにアクセスできることが既知である場合には、異なってよい。
8.1.認証された文書アクセス
文書へのアクセスは、例えばユーザがセキュアなネットワークに接続されている場合、特別なユーザ、または特定の基準を満たすユーザ、に制限される場合があり、もしくは、ある一定の環境においてのみ利用可能な場合がある。第6項では、ユーザおよびスキャナの証明書が確立され得る手法のいくつかについて説明している。
8.2.文書購入‐著作権所有者の報酬
一般の人々には自由に利用できない文書は、多くの場合、発行者または著作権保持者への報酬として、手数料を支払うことによってアクセス可能であり続ける場合がある。システムは、支払い設備を直接的に実装するか、または、第6.2項で説明したものを含む、ユーザに関連する他の支払い方法を活用することができる。
8.3.文書エスクローおよび積極的な取り込み
電子文書は一時的なものである場合が多く、レンダリングされた文書のデジタルソース版は、現在は利用可能であるが、将来はアクセス不可能となる。システムは、ユーザがそれを要求していない場合であっても、ユーザに代わって現行版を取り込み、格納することができ、したがって、ユーザが将来それを要求するはずのアベイラビリティを保証する。これは、システムの使用、例えば、将来の取得を識別するプロセスの一部として検索するためにもそれを利用可能にする。
文書にアクセスするために支払いが要求されるイベントにおいて、信頼できる「文書エスクロー」サービスは、わずかな手数料の支払い時等に、ユーザがサービスから文書を要求するならば、著作権保持者は将来、完全に報酬を得るという確約とともに、ユーザに代わって文書を取り込むことができる。
文書が取得時に電子形態で利用可能でない場合、この趣旨での変形が実装され得る。ユーザは、電子文書が後に利用可能になる必要がある場合、サービスが自身に代わって文書の要求を提示する、またはその文書に対する支払いを行うことを許可することができる。
8.4.他のサブスクライブおよびアカウントとの関連付け
支払いは、ユーザの現存する別のアカウントまたはサブスクライブとの関連付けに基づいて、放棄、削減または充足される場合がある。例えば、新聞の印刷版へのサブスクライバは、自動的に電子版を取り込む権利を与えられるかもしれない。
別の場合において、関連付けはそれほど直接的でない場合があり、ユーザはその雇用者によって確立されたアカウントに基づいて、またはサブスクライバである友人が所有する印刷されたコピーのスキャンに基づいて、アクセス権を付与される場合がある。
8.5.写真式複写をスキャンおよび印刷に置き換える
紙の文書からテキストを取得し、電子オリジナルを識別し、当該オリジナル、または取得と関連する当該オリジナルの一部を印刷するプロセスは、以下のような多くの利点を持つ従来の写真式複写の代替を形成する。
紙の文書は最終プリントアウトと同一のロケーションにある必要はなく、いかなる場合でも同時にそこにある必要はない。
写真式複写プロセスによって文書、特に古く、脆弱で貴重な文書に生じた磨耗および損傷は、回避され得る。
一般にコピーの質がずっと高い。
どの文書、または文書のどの部分が最も頻繁にコピーされているかについて記録に留めることができる。
プロセスの一部として、著作権保有者に支払いが行われる場合がある。
権限のないコピーは禁止されている場合がある。
8.6.写真式複写から貴重なオリジナルの位置を特定する
法律文書、もしくは歴史的または他の特別な意義を有する文書の場合等、文書が特に貴重な場合、人々は一般に、多くの場合何年もの間、それらの文書のコピーを使い、一方、オリジナルは安全な場所に保管しておく。
説明したシステムは、例えばアーカイブ倉庫内に元の文書のロケーションを記録するデータベースに連結されることができ、アーカイブされた元の文書を位置付けるために誰かがコピーにアクセスするのを容易にしている。
9.テキスト認識技術
光学式文字認識(OCR)技術は従来、例えばページ全体を取得するフラットベッドスキャナ等による、大量のテキストを含む画像に焦点を当ててきた。OCR技術は、多くの場合、有用なテキストを作り出すためにユーザによる相当な訓練および補正を必要とする。OCR技術は多くの場合、OCRを行う機械に相当な処理能力を要求し、一方、多くのシステムは辞書を使用し、それらは概して事実上無限の語彙について動作すると予期される。
説明したシステムにおいて、上記の従来の特性はすべて改善され得る。
この項ではOCRに焦点を当てるが、論じた問題の多くは、他の認識技術、特にスピーチ認識において直接的にマップすることができる。第3.1項で述べたように、紙から取得するプロセスは、音声を取得するデバイスにユーザがテキストを読み上げることよって実現できる。当業者であれば、画像、フォント、およびテキスト断片に関連して本明細書で論じた原理は、多くの場合、音声サンプル、ユーザスピーチモデルおよび音素にも当てはまることをよく理解するであろう。
9.1.適切なデバイスへの最適化
説明したシステムとともに使用するためのスキャン装置は、多くの場合小型で、携帯型で、かつ低電力であろう。スキャン装置は、一度に数単語しか取得できず、いくつかの実装においては、一度に文字全体どころか、テキストを横断する水平スライスを取得することさえできず、該当するスライスは、テキストを推測できる認識可能な信号を形成するために綴じられているものである。スキャン装置は、極めて限られた処理能力または記憶領域等を有する場合もあり、一方、いくつかの実施形態においては、OCRプロセス自体のすべてを実行することができ、多くの実施形態は、場合によっては後で、取得した信号をテキストに変換するための、より強力なデバイスへの接続に依存するであろう。最後に、スキャン装置は、ユーザインタラクションのための極めて限られた設備を有する場合があり、そのため、いかなるユーザ入力の要求も後に延期する、または、現在一般的であるよりも大いに「最良推定」モードで動作する必要がある。
9.2.「不確実な」OCR
説明したシステム内のOCRの主な新しい特性は、一般に、どこか別の場所に存在するテキストの画像を調べ、これをデジタル形態で取り込むことができるという事実である。テキストの正確な転写は、したがって常にOCRエンジンから要求されるとは限らない。OCRシステムは、場合によっては確率加重を含む、考えられる一致のセットまたはマトリクスを出力することができ、デジタルオリジナルを検索するためにこれをまた使用することができる。
9.3.反復OCR‐推定する、明確にする、推定する・・・
認識を実行するデバイスが、処理時に文書インデックスと接触できる場合、OCRプロセスは、それが進行するにつれて文書集合のコンテンツにより知らされることができ、実質的により高い認識精度を提供する可能性がある。
該当する接続により、デジタルソースを識別するために十分なテキストが取得されたのはいつであるかをデバイスがユーザに知らせることも可能となるであろう。
9.4.起こりそうなレンダリングの知識を使用する
システムが文書の起こりそうな印刷レンダリングの側面についての知識を有する場合―例えば、印刷に使用されるフォント書体、またはページのレイアウト、またはどの項がイタリック体になっているか等―これも認識プロセスにおいて助力となり得る。(第4.1.1項)
9.5.フォントキャッシュ‐ホスト上でフォントを決定する、クライアントにダウンロードする
文書集合内の候補ソーステキストが識別されると、フォントまたはそのレンダリングは認識を助けるためにデバイスへダウンロードされることができる。
9.6.自己相関および文字オフセット
テキスト断片のコンポーネント文字は、文書署名として使用されるテキストの断片を表すための最も評価されている手法であり得るが、テキスト断片の実際のテキストが使用される必要がないテキストのその他の代表例は、デジタル文書および/またはデータベースにおいてテキスト断片の位置を特定しようとする際、もしくはテキスト断片の代表例を可読形態にして明確にする際に、十分よく作用することができる。テキスト断片の他の代表例は、実際のテキストが不足を表す利益を提供することができる。例えば、テキスト断片の光学式文字認識は、断片全体の光学式文字認識に頼ることなくテキスト断片を検索および/または再作成するために使用され得る、取得されたテキスト断片のその他の代表例とは異なり、多くの場合エラーを起こしやすい。該当する方法は、現在のシステムで使用されているいくつかのデバイスにより適切である場合がある。
当業者他は、テキスト断片の外観を説明する多くの手法があることを十分に理解するであろう。該当するテキスト断片の特徴付けは、ワード長、相対ワード長、文字高さ、文字幅、文字形状、文字頻度、トークン頻度等を含むことができるが、これらに限定されない。いくつかの実施形態において、一致テキストトークン間のオフセット(すなわち、間にあるトークンの数プラス1)は、テキストの断片を特徴付けるために使用される。
従来のOCRは、フォント、文字構造および形状についての知識を使用してスキャンされたテキストにおいて文字を判定しようと試みる。本発明の実施形態では異なり、認識プロセスにおいて支援するためにレンダリングされた文書自体を使用する様々な方法を用いる。これらの実施形態では「互いを認識する」ために文字(またはトークン)を使用する。該当する自己認識を指す一手法は「テンプレートマッチング」であり、「畳み込み」と類似している。該当する自己認識を実行するために、システムは、システム自体の上でテキストのコピーを水平にスライドさせ、テキスト画像のマッチング領域に気付く。先のテンプレートマッチングおよび畳み込み技術は、様々な関連技術を包含する。トークン化するため、および/または文字/トークンを認識するためのこれらの技術を、文字/トークンを一致させる際にそれ自体のコンポーネント部分と直接相関するためにテキストが使用される場合、本明細書では「自己相関」と総称する。
自動相関を行う際は、一致する完全に接続された領域が関心対象である。これは、文字(または文字の群)が同一の文字(または群)の他のインスタンスをオーバーレイする場合に発生する。一致する完全に接続された領域は、コンポーネントトークンにテキストのトークン化を自動的に提供する。テキストの2つのコピーが互いにすれ違う際、完璧な一致が生じる領域(すなわち、垂直スライス中の全ピクセルが一致する)に気付かれる。文字/トークンがそれ自体と一致する場合、このマッチングの水平延長(例えば、テキストの接続されたマッチング部分)も一致する。
この段階においては、スキャンされたテキスト内における同一のトークンの次の発生に対するオフセットだけで、各トークンの実際のID(すなわち、トークン画像に対応する特定の文字、数字またはシンボル、あるいはこれらの群)を判定する必要がないことに留意すべきである。オフセット番号は、同一のトークンが次に発生するまでの距離(トークンの数)である。トークンがテキスト文字列内において一意的である場合、オフセットはゼロ(0)である。このようにして発生したトークンオフセット配列は、スキャンされたテキストを識別するために使用され得る署名である。
いくつかの実施形態において、スキャンされたトークンの文字列を決定されたトークンオフセットは、それらのコンテンツのトークンオフセットに基づいて電子文書の集合にインデックスを付けるインデックスと比較される(第4.1.2項)。他の実施形態において、スキャンされたトークンの文字列を決定されたトークンオフセットはテキストに変換され、それらのコンテンツに基づいて、電子文書の集合にインデックスを付けるより従来型のインデックスと比較される。
先に述べたように、取得プロセスが話された言葉の音声サンプルからなる場合、同様のトークン相関プロセスをスピーチ断片に適用することができる。
9.7.フォント/文字「自己認識」
従来のテンプレートマッチングOCRは、スキャンされた画像を文字画像のライブラリと比較する。要するに、アルファベットは各フォントで格納され、新しくスキャンされた画像は一致する文字を見つけるために格納された画像と比較される。プロセスは、概して、正しいフォントが識別されるまで初期遅延を有する。ほとんどの文書が初めから終わりまで同一のフォントを使用するため、その後のOCRプロセスは比較的迅速である。したがって、その後の画像は、最近識別されたフォントライブラリとの比較によってテキストに変換されることができる。
最も一般的に使用されるフォントの文字の形状は関連している。例えば、ほとんどのフォントにおいて、「c」という文字と「e」という文字は、「t」と「f」等のように視覚的に関連している。OCRプロセスは、まだスキャンされていない文字のテンプレートを構築するためにこの関係を使用することによって強化される。例えば、システムがスキャンされた画像を比較するための画像テンプレートのセットを有さないような、以前は遭遇したことのないフォントのテキストの短い文字列を、読者が紙の文書からスキャンする場合、システムは、アルファベットの文字のすべてに遭遇したことがなくても、フォントテンプレートライブラリを構築するために、ある一定の文字間の推定関係を活用することができる。システムはその後、構築されたフォントテンプレートライブラリを使用して、その後にスキャンされたテキストを認識し、構築されたフォントライブラリをさらに洗練することができる。
9.8.認識されていない何か(グラフィックを含む)をサーバへ送信する
検索プロセスにおいて、画像を使用に適合する形態に機械転写できない場合、後にユーザが使用するため、考えられる手動転写のため、または、後に異なるリソースがシステムに利用可能になった際に処理するために、画像自体を保存することができる。
10.Pコマース
システムによって可能になるアクションの多くは、結果として何らかの商取引を引き起こす。システムを介して紙から開始される商業活動を説明するために、本明細書では「Pコマース」というフレーズを使用する。
10.1.物理的に印刷されたコピーから生じた文書の販売
ユーザが文書からテキストを取得した場合、ユーザは当該文書を紙または電子形態のいずれかで購入するよう提案される場合がある。ユーザは、紙の文書において引用または言及されたもの、または同様のサブジェクトものの、または同一の著者によるものといった関連文書を提供される場合もある。
10.2.紙によって開始または補助される他のものの販売
テキストの取得は、他の商業活動と様々な手法でリンクされている場合がある。取得されたテキストは、アイテムを販売するために明確にデザインされているカタログ内にあってよく、この場合、テキストはアイテムの購入とかなり直接的に関連しているであろう(第18.2項)。テキストは広告の一部であってもよく、この場合、広告されているアイテムの販売が結果として起こり得る。
その他の場合において、ユーザは、推測され得る商取引への潜在的関心からその他のテキストを取得する。例えば、特定の国の小説セットの読者は、その国の祝日に関心があるかもしれない。新車のレビューを読んでいる誰かは、その購入を検討しているかもしれない。ユーザは、結果として何らかの商業機会が自分に提示されること、または、それがその取得アクティビティの副次的結果となり得ることがわかっているテキストの特定の断片を取得する場合がある。
10.3.販売を引き起こすアイテムのラベル、アイコン、製造番号、バーコードの取得
テキストまたはシンボルが、実際にアイテムまたはその包装に印刷されている場合がある。例としては、電子機器の後部または底面にあるラベル上に見られる製造番号または製品IDが挙げられる。システムは、当該テキストを取得することにより、1つ以上の同一アイテムを購入するための便利な手法をユーザに提案することができる。また、マニュアル、サポート、または修理サービスが提供されることもある。
10.4.コンテクスト広告
広告からのテキストの直接取得に加えて、システムは、レンダリングされた文書において必ずしも明確ではないが、人々が読んでいるものに基づいた新しい種類の広告を可能にする。
10.4.1.スキャンコンテクストおよび履歴に基づく広告
従来の紙の発行物において、広告には概して新聞記事のテキストと比較して大幅なスペースを費やし、限られた数のそれらが配置されるのは特定の記事の周辺である。説明したシステムにおいて、広告は個別の単語またはフレーズと関連してよく、当該テキストを取得すること、および場合によっては過去のスキャンの履歴を考慮することによって、ユーザが示した特定の関心に従って選択されてよい。
説明したシステムを使用すると、購入を特定の印刷された文書と関係付け、広告主が特定の印刷された文書における広告の効果についてさらに多くのフィードバックを得ることが可能である。
10.4.2.ユーザコンテクストおよび履歴に基づく広告
システムは、自身が使用するためのユーザコンテクストの他の側面についての大量の情報を収集しており(第13項)、ユーザの地理的位置の推定値がよい例である。該当するデータを使用して、システムのユーザに対して提示される広告を調整することもできる。
10.5.報酬モデル
システムは、広告主および販売業者への報酬の新しいモデルをいくつか可能にする。広告主を含む、印刷された文書の発行者は、文書から発生した購入からいくらかの収入を受け取ることができる。これは、元の印刷された形態で存在する広告であってもなくても真実であってよく、発行者、広告主またはある第三者のいずれかによって電子的に追加されたものであってよく、該当する広告のソースはユーザがサブスクライブしたものであってよい。
10.5.1.人気ベースの報酬
システムによって発生した統計の解析は、発行物のある部分の人気を示すことができる(第14.2項)。例えば、新聞において、システムは、特定のページまたは記事を見るのに読者が費やしている時間、もしくは特定のコラムニストの人気を示すかもしれない。状況次第で、著者または発行者にとって、書かれた単語または配布されたコピーの数等のもっと従来の評価指数よりも、読者のアクティビティに基づいて報酬を受け取ることが適切である場合がある。あるサブジェクトについてのその著作物が頻繁に読まれる権威となりつつある著者は、将来のサブスクライブでは、同一数のコピーを販売したがめったに開かれない著者とは違うと考えられるかもしれない。(第7.6項も参照のこと)
10.5.2.人気ベースの広告
文書における広告についての決定は、読者層についての統計に基づくものであってもよい。最も人気のあるコラムニストの周辺の広告スペースは、割増料金で販売される場合がある。広告主は、文書が発行された後、それがどのように受け取られたかについての知識に基づいて、何度か請求される、または報酬を支払われることさえあるかもしれない。
10.6.ライフライブラリに基づくマーケティング
第6.1および16.1項で説明した「ライフライブラリ」またはスキャン履歴は、ユーザの関心および習慣についての極めて価値のある情報のソースであってよい。適切なコンテンツおよびプライバシーの問題に適用させて、該当するデータは商品またはサービスの提供をユーザに知らせることができる。匿名の形態であっても、収集された統計は非常に有用となり得る。
10.7.後日の販売/情報(利用可能な場合)
広告および他の商取引の機会は、テキスト取得時、直ちにユーザに提示されない場合がある。例えば、小説の続編を購入する機会はユーザが小説を読んでいる時に利用可能となり得ないが、システムは続編が発行される当該機会をユーザに提示することができる。
ユーザは、購入または他の商取引に関するデータを取得することができるが、取得が行われたときに取引を開始および/または完了しないことを選ぶことはできない。いくつかの実施形態において、取得に関するデータはユーザのライフライブラリに格納され、これらのライフライブラリエントリは「アクティブ」のままであってよい(すなわち、取得が行われると同時に利用可能なものと同様に次のインタラクションができる)。したがって、ユーザはしばらく後に取得をレビューすることができ、任意で、当該取得に基づいて取引を完了することができる。システムは元の取得がいつどこで発生したかを追跡記録することができるため、取引に関わるすべての関係者が相応に報酬を支払われることができる。例えば、ユーザがデータを取得した広告の隣に出た物語を書いた著者―および物語を発行した発行者は、ユーザがそのライフライブラリを訪問し、履歴から当該特定の取得を選択し、ポップアップメニュー(取得時刻に任意で提示されたメニューと同様または同一であってよい)から「アマゾンでこのアイテムを購入する」を選んだ6ヶ月後に、報酬を支払われることができる。
11.オペレーティングシステムとアプリケーションの統合
現代のオペレーティングシステム(OS)および他のソフトウェアパッケージは、説明されたシステムの使用に有利に利用されることができる。多くの特性を有し、その使用のためにより良いプラットフォームを提供するために様々な手法で修正してもよい。
11.1.メタデータおよびインデックス作成へのスキャンおよび印刷関連情報の組み込み
現在およびこれからのファイルシステム、ならびにそれらの関連データベースは、多くの場合、各ファイルに関連する様々なメタデータを格納する能力を有する。従来、このメタデータは、ファイルを作成したユーザのID、作成日時、最終修正、および最終使用等を含んでいた。より新しいファイルシステムは、キーワード、画像特性、文書ソース、および格納されるユーザコメント等の余分の情報を可能にし、いくつかのシステムにおいて、このメタデータは恣意的に拡張されることができる。したがって、ファイルシステムを使用して、現在のシステムを実装するのに有用となり得る情報を格納することができる。例えば、説明したシステムを使用してどのテキストが、いつ、および誰によって紙から取得されたかについての詳細のように、ある文書が前回印刷された日時はファイルシステムによって格納されることができる。
オペレーティングシステムは、ユーザがローカルファイルをより容易に見つけることを可能にする検索エンジン設備を組み込むことも始めている。これらの設備はシステムによって有利に使用されることができる。第3および4項で論じた検索関連の概念の多くは、今日のインターネットベースおよび同様の検索エンジンだけでなく、すべてのパーソナルコンピュータにも当てはまることを意味する。
特定のソフトウェアアプリケーションは、OSによって提供される設備に加えて、システムのサポートも含む場合がある。
11.2.1取得装置をサポートするOS
取得装置の適用性は単一のソフトウェアアプリケーションを超えて拡張しているため、ペンスキャナ等の取得装置の使用が増加するにつれて、マウスおよびプリンタへのサポートが提供されたのとほぼ同一の手法で、それらのオペレーティングシステムへのサポートを築くことが望ましくなるであろう。システムの動作の他の側面に関しても、同じことが言えるであろう。以下に例をいくつか挙げる。いくつかの実施形態において、説明したシステムの全体、またはそのコアは、OSによって提供される。いくつかの実施形態において、システムのサポートは、システムの側面を直接的に実装するものを含む他のソフトウェアパッケージにより使用され得るアプリケーションプログラミングインターフェース(API)によって提供される。
11.2.1.OCRおよび他の認識技術のサポート
レンダリングされた文書からテキストを取得する方法のほとんどは、ソースデータ、一般にスキャンされた画像または何らかの話された言葉を、システムにおいて私用するのに適合するテキストとして解釈するために、何らかの認識ソフトウェアを必要とする。過去においてOCRの使用は一般に狭い範囲のアプリケーションに限られていたため、OSがOCRのサポートを含むことはあまり一般的でないが、一部のOSは、スピーチまたは手書き文字認識のサポートを含む。
認識コンポーネントがOSの一部となるにつれて、OSによって提供される他の設備をもっとうまく利用することができるようになる。多くのシステムは、例えばスペリング辞書、文法解析ツール、国際化および地方化設備を含み、特に、よく遭遇する単語およびフレーズを含むよう特定のユーザのためにカスタマイズされ得たため、それらはすべてその認識プロセスのために、説明したシステムによって有利に用いられることができる。
オペレーティングシステムがフルテキストインデックス作成設備を含む場合、第9.3項で説明したように、これらを使用して認識プロセスに知らせることもできる。
11.2.2.スキャン時にとられるアクション
光学スキャンまたは他の取得が発生し、OSに対して提示された場合、取得の所有権を請求するサブシステムが他にないイベントにおいて、そのような状況でとられるデフォルトアクションを有する場合がある。デフォルトアクションの例としては、代替の選択肢をユーザに提示すること、または、取得したテキストを検索設備に内蔵されたOSに提示することが挙げられる。
11.2.3.OSは特定の文書または文書タイプ用のデフォルトアクションを有する レンダリングされた文書のデジタルソースが見つかった場合、OSは、特定の文書、または当該分類の文書がスキャンされる場合にとる標準アクションを有する場合がある。アプリケーションおよび他のサブシステムは、ある一定のファイルタイプを扱うための能力についてアプリケーションによって知らされるのと同様の方式で、特定タイプの取得の潜在的なハンドラとしてOSに登録することができる。
レンダリングされた文書、または文書からの取得に関連するマークアップデータは、特別なアプリケーション、パスアプリケーション引数、パラメータ、またはデータ等を開始するための、オペレーティングシステムへの命令を含むことができる。
11.2.4.標準アクションへのジェスチャおよびマッピングの解釈
第12.1.3項では、特に光学スキャンの場合における「ジェスチャ」の使用について論じており、ここで、携帯用スキャナによって行われる特定の動きはテキストの領域の開始および終了をマーキングする等の標準アクションを表すかもしれない。
これは、カーソルキーを使用してテキストの領域を選択しながらキーボード上のシフトキーを押下すること、または、文書をスクロールするためにマウスにホイールを使用すること等のアクションに類似している。ユーザによる該当するアクションは、OSによってシステムワイドな手法で解釈される、十分に標準的なものであり、したがって一貫した挙動を確実にする。スキャナジェスチャおよび他のスキャナ関連アクションについても同じであるのが望ましい。
11.2.5.標準(および非標準)アイコン/テキスト印刷メニュー項目への応答を設定する
同様に、テキストのある一定のアイテムおよび他のシンボルは、スキャンされる際に標準アクションを引き起こすことができ、OSはこれらの選択を提供することができる。例としては、いかなる文書におけるテキスト「[印刷]」のスキャンも、OSに当該文書のコピーを取り込み印刷させるだろうということが挙げられるかもしれない。OSは、該当するアクションを登録し、それらを特定のスキャンと関連付けるための手法を提供することもできる。
11.3.スキャンに起因する一般的なアクティビティ用のシステムGUIコンポーネントにおけるサポート
ほとんどのソフトウェアアプリケーションは、実質的に、OSによって提供される標準的なグラフィカルユーザインターフェースコンポーネントに基づく。
開発者がこれらのコンポーネントを使用することは、すべてのプログラマが単独で同一の機能性を実装する必要なく、例えば、任意のテキスト編集コンテクストにおいて左カーソルキーを押下するとカーソルは左へ移動するはずであるというように、複数のパッケージにわたり一貫した挙動を確実にするのに役立つ。
これらのコンポーネントにおける同様の一貫性は、テキスト取得または説明したシステムの他の側面によってアクティビティが開始される場合に望ましい。以下に例をいくつか挙げる。
11.3.1.特定のテキストコンテンツを見つけるためのインターフェース
システムの一般的な使用は、ユーザが紙の文書のあるエリアをスキャンすること、ならびに、システムがそれを表示または編集できるソフトウェアパッケージにおいて電子副本を開き、スキャンされたテキストを当該パッケージにスクロールおよびハイライトさせることであってよい(第12.2.1項)。このプロセスの第1の部分、電子文書を見つけて開くことは一般にOSによって提供され、ソフトウェアパッケージにわたって標準である。しかしながら、第2の部分―文書内においてテキストの特定の一部分の位置を特定し、パッケージにそれをスクロールおよびハイライトさせること―は未だ標準化されておらず、パッケージごとに異なる実装をされていることが多い。この機能性に関する標準APIのアベイラビリティは、システムのこの側面の操作を大幅に強化することが可能である。
11.3.2.テキストインタラクション
テキストの一部分が文書内において位置付けられると、システムは当該テキストにおいて様々な操作を実行することを望む場合がある。例として、システムは周囲のテキストを要求する場合があり、そのため、ユーザによる数単語の取得は結果としてシステムにそれらを含む文または段落全体へアクセスさせる可能性がある。ここでも、この機能性は、テキストを扱うソフトウェアの全部において実装されるのではなく、OSによって有効に提供され得る。
11.3.3.コンテクスト(ポップアップ)メニュー
システムによって可能になる操作のいくつかはユーザフィードバックを要求し、これはデータを扱うアプリケーションのコンテクスト内において任意で要求される場合がある。いくつかの実施形態において、システムは、従来は同一のテキストにおいて右マウスボタンをクリックすることに関連するアプリケーションポップアップメニューを使用する。システムは、該当するメニューに余分のオブションを挿入し、それらを紙の文書のスキャン等のアクティビティの結果として表示させる。
11.4.ウェブ/ネットワークインターフェース
次第にネットワーク化されている今日の世界では、個別の機械において利用可能な機能性のほとんどにネットワーク上でアクセスすることもでき、説明したシステムに関連する機能性も例外ではない。例として、オフィス環境においては、ユーザが受け取った多くの紙の文書は同一の企業ネットワーク上にある他のユーザの機械によって印刷されたものである場合がある。1つのコンピュータ上のシステムは、取得を受けて、適切な許可制御を適用し、当該取得に対応し得る文書用にそれらの他の機械をクエリーすることができる。
11.5.文書の印刷が保存を引き起こす
紙とデジタル文書の統合において重要なファクタは、両者の間の取引についてできる限り多くの情報を保持することである。いくつかの実施形態において、OSは、あらゆる文書がいつ誰によって印刷されたかを簡単な記録に留める。いくつかの実施形態において、OSは、システムによる使用により適したものにする1つ以上のアクションをさらに行う。例として以下のものが挙げられる。
それが印刷されたソースについての情報とともに印刷されたすべての文書のデジタルレンダリング版を保存する。
将来スキャン解釈の助力となるかもしれない印刷版についての有効な情報―たとえば使用されたフォントおよび改行が生じる場所―のサブセットを保存する。
あらゆる印刷されたコピーに関連するソース文書の版を保存する。
印刷時に自動的に文書のインデックス作成をし、将来の検索のために結果を格納する。
11.6.(印刷済み/スキャン済み)マイドキュメント
OSは多くの場合、特定の意義を有するある一定のカテゴリのフォルダおよびファイルを保持している。ユーザの文書は、仕様およびデザインによって、例えば「マイドキュメント」フォルダ内で見つかる。標準ファイルオープンダイアログは、最近開かれた文書のリストを自動的に含むことができる。
説明したシステムで使用するために最適化されたOSにおいて、該当するカテゴリは、格納されたファイルの紙版とのユーザインタラクションを考慮に入れるという手法で強化または増強され得る。「印刷済みマイドキュメント」または「最近読んだマイドキュメント」等のカテゴリは、有効に識別され、その操作に組み込まれるかもしれない。
11.7.OSレベルマークアップ階層
システムの重要な側面は一般に第5項で論じた「マークアップ」概念を使用して提供されるため、OS自体に加えて複数のアプリケーションにアクセス可能な手法でOSによって提供される該当するマークアップのサポートを有することは明らかに有利であろう。また、マークアップの層は、その制御下における文書についての知識および提供可能な設備に基づいて、OSによって提供されることができる。
11.8.OS DRM装置の使用
増えつつあるオペレーティングシステムは、何らかの形で「デジタル権利管理」、つまり、特定のユーザ、ソフトウェアエンティティ、または機械に付与された権利に従って特定のデータの使用を制御するための能力をサポートしている。それにより、例えば権限のないコピーまたは特定の文書の配布を阻止することができる。
12.ユーザインターフェース
システムのユーザインターフェースは、取得装置が比較的ダムでありケーブルによってそれに接続されている場合には完全にPC上にあってよく、または、それが高性能でありそれ自体が大きな処理能力を持つ場合には完全にデバイス上にあってよい。何らかの機能性が各コンポーネントに備わっている場合がある。システムの機能性の一部または全部が、携帯電話またはPDA等の他のデバイス上で実装される場合もある。
したがって以下の項の説明は、ある一定の実装において望ましい場合があるものを表示したものであるが、これらはすべてに必ずしも適切ではなく、いくつかの手法で修正されることができる。
12.1.取得装置上で
すべての取得装置について、しかし特に光学スキャナの場合、スキャン時のユーザの注意は概してデバイスおよび紙に注がれるであろう。そこで、スキャンプロセスの一部として必要とされるいかなる入力およびフィードバックも、ユーザの注意がどこか、例えばコンピュータの画面上にあることを必要以上に要求しないことが極めて望ましい。
12.1.1.スキャナにおけるフィードバック
携帯型スキャナは、特定の状況についてユーザにフィードバックを提供する様々な手法を有することができる。最も明らかなタイプは、スキャナが表示ライトまたはフルディスプレイまで組み込む直接視覚的なもの、およびスキャナがビープ音、クリック音、または他の音を鳴らすことができる聴覚的なものである。重要な代替としては、スキャナが振動したり、ブンブンうなったり、またはユーザの触覚を刺激したりできる触覚フィードバック、および高性能のディスプレイへの光の有色点から何かを紙に投影することによりステータスを示す投影フィードバックが挙げられる。
デバイスにおいて提供され得る重要な即時フィードバックは、以下を含む。
スキャンプロセスにおけるフィードバック―ユーザが速すぎる速度で、大きすぎる角度でスキャンする、もしくは特定の行の上でのドリフトが高すぎるまたは低すぎる
十分なコンテンツ―存在する場合、一致するものを見つけるために十分なスキャンが行われた―非接続操作に重要
既知のコンテクスト―位置を特定されたテキストのソース
既知の固有コンテクスト―位置を特定されたテキストの1つの固有ソース
コンテンツのアベイラビリティ―コンテンツがユーザに自由に利用可能か、または費用がかかるかの表示
通常システムの後の段階に関連するユーザインタラクションの多くは、例えば文書の一部または全部を表示するための十分な能力を有する場合、取得装置において行われることもできる。
12.1.2.スキャナの制御
デバイスは、基本的なテキスト取得に加えて、入力を提供するための様々な手法をユーザに提供することができる。デバイスが、キーボードおよびマウス等の入力オプションを有するホストマシンと密接に関連している場合であっても、ユーザが例えばスキャナを操作することとマウスを使用することとの間で切り替えるのに混乱を生じさせる場合がある。
携帯用スキャナは、ボタン、スクロール/ジョグホイール、タッチパネル、および/またはデバイスの動きを検出するための加速度計を有してよい。これらのいくつかにより、スキャナを保持しながらインタラクションのより豊富なセットが可能になる。
例えば、何らかのテキストのスキャンを受けて、システムはいくつかの一致することが可能な文書のセットをユーザに提示する。ユーザは、スキャナの側面にあるスクロールホイールを使用してリストから1つを選択し、ボタンをクリックして選択を確認する。
12.1.3.ジェスチャ
紙全体にわたってスキャナを移動させる主な理由はテキストを取得することであるが、いくつかの動きはデバイスによって検出され、ユーザの他の意図を示すために使用されることができる。該当する動きを、本明細書においては「ジェスチャ」と称する。
例として、ユーザは、従来の左から右の順序で最初の数単語を、最後の数単語を逆の順序、すなわち右から左へスキャンすることによって、テキストの広範な領域を示すことができる。ユーザは、ページ内で数行にわたってスキャナを下に移動させることによって、関心のあるテキストの垂直延長を示すこともできる。後方スキャンは前回のスキャン操作の取り消しを示すかもしれない。
12.1.4.オンライン/オフライン挙動
システムの多くの側面は、スキャナとラップトップ型ホストコンピュータ等のシステムのコンポーネント間の、または企業データベースおよびインターネット検索との接続の形態で外部との、いずれかのネットワーク接続性に依存する場合がある。しかしながら、この接続性は常に存在することはできず、したがってシステムの一部または全部が「オフライン」であると見なされる場合もあるということになる。システムがそれらの状況で有効に機能し続けられるようにすることが望ましい。
システムの他の部分と接触していない場合、デバイスを使用してテキストを取得することができる。極めて単純なデバイスは、取得に関連する、理想を言えばいつ取得されたかを示すタイムスタンプに関連する画像または音声データを単に格納できるものである。様々な取得は、デバイスが次に接触した際にシステムの残りの部分にアップロードされ、扱われることができる。デバイスは、例えば光学スキャンに関連するボイス注釈、またはロケーション情報等、取得に関連する他のデータをアップロードすることもできる。
より高性能なデバイスは、それら自体が接続を切られているにもかかわらず、システム操作の一部または全部を実行することができる。そうするためのそれらの能力を改善するための様々な技術を、第15.3項で論じる。オフライン中に所望のアクションの全部ではなく一部が実行され得る場合も多くあるだろう。例えば、テキストは認識されることができるが、ソースの識別はインターネットベースの検索エンジンとの接続に依存する場合がある。したがっていくつかの実施形態において、デバイスは接続性が復旧された際に効率的に進めるために、残りのシステムに関して各操作がどの程度進行したかについて十分な情報を格納する。
システムの操作は概して即時利用可能な接続性から利益を得るが、いくつかの取得を実行し、その後それらをバッチとして処理することに利点があるという状況がいくつかある。例えば、以下の第13項で論じるように、特定の取得のソースの識別は、ほぼ同時にユーザによって行われた他の取得を調べることによって大幅に強化され得る。ユーザに生のフィードバックが提供されている完全に接続されたシステムにおいて、現在のものを処理している場合、システムは過去の取得を使用することしかできない。しかしながら、取得がオフライン時にデバイスによって格納されたバッチの1つである場合、システムは、その解析を行っている際に、初期の取得に加えて後の取得から利用可能なあらゆるデータを考慮に入れることができるであろう。
12.2.ホスト装置において
スキャナは多くの場合、ユーザとのより詳細なインタラクションを含むシステムの機能の多くを実行するために、PC、PDA、電話、またはデジタルカメラ等、他の何らかのデバイスと通信を行うであろう。
12.2.1.取得を受けて実行されるアクティビティ
取得を受け取ると、ホストデバイスは様々なアクティビティを開始することができる。位置を特定した後にシステムによって実行される可能なアクティビティのリスト、ならびに、取得および当該文書内のロケーションに関連する電子副本を以下に挙げる。
取得の詳細をユーザ履歴に格納することができる。(第6.1項)
ローカル記憶領域またはリモートロケーションから文書を取り込むことができる。(第8項)
オペレーティングシステムのメタデータおよび文書に関連する他の記録を更新することができる。(第11.1項)
次の関連操作を判定するために、文書に関連するマークアップを調べることができる。(第5項)
文書においてソフトウェアアプリケーションを編集、ビュー、または操作開始することができる。アプリケーションの選択は、ソース文書、またはスキャンのコンテンツ、または取得の他の何らかの側面に依存する場合がある。(第11.2.2、11.2.3項) アプリケーションは、取得のロケーションへスクロール、そこをハイライト、挿入ポイントをそこへ移動、またはそこを表示することができる。(第11.3項)
取得されたテキストの正確な範囲は、例えば、取得されたテキストの周囲の単語、文、または段落全体を選択するように修正されることができる。(第11.3.2項)
取得テキストをクリップボードにコピーするため、もしくは、他の標準的なオペレーティングシステムまたはその上でのアプリケーション固有の操作を実行するためのオプションをユーザに与えることができる。
注釈入力は、文書または取得されたテキストに関連していてよい。これらは即時ユーザ入力から生じてもよく、または、例えば光学スキャンに関連するボイス注釈の場合、初期に取得されたものであってもよい。(第19.4項)
ユーザが選択するための将来可能な操作のセットを判定するために、マークアップを調べることができる。
12.2.2.コンテクストポップアップメニュー
システムによってとられる適切なアクションは、明らかな場合もあるが、ユーザによって行われる選択を必要とする場合もある。これを行うための1つの良い手法は、「ポップアップメニュー」の使用によるもの、または、コンテンツが画面にも表示されている場合には、コンテンツ付近に現われるいわゆる「コンテクストメニュー」を使用するものである(第11.3.3項を参照)。いくつかの実施形態において、スキャナ装置は紙の文書にポップアップメニューを投影する。ユーザは、キーボードおよびマウス等の従来の方法を使用して、または取得装置の制御(第12.1.2項)、ジェスチャ(第12.1.3項)を使用して、またはスキャナを使用してコンピュータディスプレイと情報をやりとりすることによって(第12.2.4項)、該当するメニューを選択することができる。いくつかの実施形態において、取得の結果として現われ得るポップアップメニューは、ユーザが応答しない場合―例えば、ユーザがメニューを無視し、別の取得を行った場合―に生じるアクションを表すデフォルト項目を含む。
12.2.3.曖昧性の除去におけるフィードバック
ユーザがテキスト取得を開始すると、始めはいくつかの文書または一致しそうな他のテキストロケーションがあるであろう。テキストの取得が進んで他のファクタが考慮に入れられると(第13項)、候補ロケーションの数は実際のロケーションが識別されるまで減少し、またはさらなる曖昧性の除去はユーザ入力なしには不可能である。いくつかの実施形態において、システムは、例えばリスト、サムネイル画像、またはテキストセグメント形態で、見つかった文書またはロケーションのリアルタイム表示を、および取得が継続するにつれて数を減少させるため、当該ディスプレイ内の要素の数を提供する。いくつかの実施形態において、システムはすべての候補文書のサムネイルを表示し、ここでサムネイルのサイズまたは場所は、それが正しい一致であるという可能性に依存する。
取得が一義的に識別されると、例えば音声フィードバックを使用して、この事実をユーザに対して強調することができる。
取得されたテキストが多くの文書に生じ、引用文として認識される場合がある。システムは、例えば、元のソース文書の周辺に引用された参考資料を含む文書を分類することによって、これを画面上に示すことができる。
12.2.4.画面からのスキャン
いくつかの光学スキャナは、紙の上に加えて、画面上に表示されたテキストを取得することができる。したがって、レンダリングされた文書という用語は、本明細書においては、紙への印刷がレンダリングの唯一の形態ではないこと、および、システムによって使用するためのテキストまたはシンボルの取得は、電子ディスプレイ上に当該テキストが表示された際と等しく価値があり得ることを示すために使用される。
説明したシステムのユーザは、オプションのリストから選択するため等様々な他の理由により、コンピュータ画面と情報をやりとりすることが必要な場合がある。スキャナを下に置き、マウスまたはキーボードの使用を開始することは、ユーザにとって不便な場合がある。他の項では、スキャナ(第12.1.2項)またはジェスチャ(第12.1.3項)における物理制御を、このツールの変更を要求しない入力の方法として説明したが、何らかのテキストまたはシンボルをスキャンするために画面自体の上でスキャナを使用することは、システムによって提供される重要な代替である。
いくつかの実施形態において、スキャナの光は、実際にテキストをスキャンする必要なく、場合によってはコンピュータ上の特別なハードウェアまたはソフトウェアの助力によって、画面上でその場所を直接的に感知する、ライトペンと同様の方式での使用を可能にする。
13.コンテクスト解釈
説明したシステムの重要な側面は、使用中の文書を識別するのを助けるための、テキストの文字列の単純な取得以外のファクタの使用である。適量のテキストの取得は、多くの場合、文書を一意に識別することができるが、多くの状況において識別するのは少数の候補文書である。1つの解決策は、スキャンされている文書を確認するようユーザに促すことであるが、好ましい代替は、可能性を自動的に絞り込むために他のファクタを活用することである。該当する補足情報は、取得される必要があるテキストの量を劇的に削減し、かつ/または、電子副本内においてロケーションを識別できる信頼性および速度を高めることができる。この余分の資料を「コンテクスト」と称し、これについては第4.2.2項で簡単に論じた。ここではそれをさらに深く考察する。
13.1.システムおよび取得コンテクスト
おそらく、該当する情報の最も重要な例は、ユーザの取得履歴である。
特に前回の取得がここ数分の間に行われた場合、いかなる取得も前回と同一の文書、または関連文書から生じたものであることがほぼ確実である(第6.1.2項)。逆に、2回のスキャンの間でフォントが変化したことをシステムが検出した場合、それらは異なる文書から生じたものである可能性が高い。
ユーザの長期取得履歴および読書習慣も有用である。これらを使用して、ユーザの関心および関連付けのモデルを開発することもできる。
13.2.ユーザの実世界コンテクスト
有用なコンテクストの別の例は、ユーザの地理的位置である。例えば、パリにいるユーザは「Seattle Times」よりも「Le Monde」を読む傾向が強い。したがって、文書の印刷版のタイミング、サイズ、地理的配布が重要となる場合があり、システムの操作からある程度の推定が可能である。
例えば、通勤中にいつも1つのタイプの発行物を読み、昼食時または帰宅中の電車内で異なる発行物を読むユーザの場合、時間帯も関連し得る。
13.3.関連するデジタルコンテクスト
より従来の手段により検索または取り込みされたものを含み、電子文書のユーザによる最近の使用も役立つ表示となり得る。
企業ネットワーク上等では、他のファクタが有用であると見なされる場合がある。
最近印刷されたのはどの文書か
企業ファイルサーバ上で最近修正されたのはどの文書か
最近電子メールで送られたのはどの文書か
これらの例はすべて、ユーザがそれらの文書の紙版を読んでいる可能性が高いことを示唆しているかもしれない。対照的に、文書が備わっている収納庫が、その文書が印刷されたことがない、または、印刷されるかもしれない場所へ送信されたことがないと断言することができる場合、紙から発生するいかなる検索においても安全に削除されることができる。
13.4.他の統計―グローバルコンテクスト
第14項では紙ベースの検索から結果として生じるデータストリームの解析について取り上げているが、本明細書において、他の読者への文書の人気について、人気のタイミングについて、および最も頻繁にスキャンされる文書の部分についての統計はすべて、検索プロセスにおいて有益となり得るさらなるファクタの例であることに留意すべきである。システムは、紙の世界にGoogleタイプのページランキングの可能性をもたらす。
検索エンジンのためのコンテクストの使用に関する他の何らかの意味合いについては、第4.2.2項を参照のこと。
14.データストリーム解析
システムの使用は、副次的な結果として非常に価値のあるデータストリームを発生させる。このストリームは、ユーザがいつ何を読んでいるかについての記録であり、多くの場合、ユーザが読んだものの中で特に価値があると感じるものについての記録である。該当するデータは、紙の文書について以前は実際に利用可能ではなかった。
このデータがシステムにとって、およびシステムのユーザにとって有用となり得るいくつかの手法については、第6.1項で説明する。この項では、その他の使用法に集中する。当然ながら、人々が読んでいるものについてのデータの配布に関して考慮すべき実質的なプライバシーの問題があるが、匿名性保護の問題は、当業者には既知である。
14.1.文書追跡
ある任意のユーザがどの文書を読んでいるかシステムが知っている場合、あるに任意の文書を誰が読んでいるかをシステムが推測することもできる。これにより、例えば、誰がいつそれを読んでいるか、どの程度広範にわたって配布されたか、配布にどのくらい時間がかかったか、および、誰が現在版を見ていて、誰が未だ旧版のコピーを使っているかの解析を可能にするための、組織を通じた文書の追跡が可能になる。
より広範に配布される発行された文書に関して、個別のコピーの追跡はより困難であるが、読者層の分布の解析は依然として可能である。
14.2.読書ランキング―文書とサブ領域の人気
ユーザが特に関心のあるテキストまたは他のデータを取得している状況において、システムは、ある文書およびそれらの文書の特定のサブ領域の人気を推測することができる。これは、システム自体に対し価値のある入力(第4.2.2項)、ならびに、著者、発行者、および広告主にとって重要な情報ソース(第7.6項、第10.5項)を形成する。このデータは、検索エンジンおよび検索インデックスに統合されている―例えば、レンダリングされた文書から生じるクエリーの検索結果のランキングを助力するため、および/または、ウェブブラウザに打ち込まれた従来のクエリーをランキングするのを助力するため―場合にも有用である。
14.3.ユーザの解析―プロファイルを築く
ユーザが何を読んでいるかという知識は、システムが、ユーザの関心およびアクティビティの極めて詳細なモデルを作成することを可能にする。これは、抽象的な統計的基礎―「この新聞を買うユーザの35%は当該著者の最新本も読む」―において有用であり得るが、以下で論じるような個人ユーザとの他のインタラクションも可能にする。
14.3.1.ソーシャルネットワーキング
例を1つ挙げると、1人のユーザを、関連の関心を有する他のユーザと接続するというものである。これらは、ユーザにとって既知の人々であってよい。システムは、大学教授に「XYZ大学のあなたの同僚もこの新聞を読んだばかりだということを知っていましたか」と尋ねることができる。システムは、ユーザに「近隣で“Jane Eyre”を読んでいる他の人とリンクすることを希望しますか」と尋ねることができる。該当するリンクは、物質世界またはオンラインのいずれかにおいて、ブッククラブまたは同様の社会構造の自動形成の基礎となり得る。
14.3.2.マーケティング
第10.6項では、製品およびサービスを、それらのシステムとのインタラクションに基づいて、個人ユーザに提供するという考えについて既に述べた。例えば、現在のオンライン書籍販売業者は、多くの場合、ユーザの前回の書籍販売業者とのインタラクションに基づいてユーザに推薦を行う。該当する推薦は、それらが実際の本とのインタラクションに基づいたものである場合に、よりいっそう有用となる。
14.4.データストリームの他の側面に基づいたマーケティング
システムが、文書を発行する人々、それらを通じて広告をする人々、および紙から開始される他の販売に影響を及ぼし得る、いくつかの手法について論じてきた(第10項)。一部の商業活動は、紙の文書との直接的なインタラクションを全く持たないが、それにも関わらずそれらから影響を受ける場合がある。例えば、ある1つのコミュニティにいる人々は、経済面よりもスポーツ面を読むのに時間を費やすという知識は、ヘルスクラブを設立しようとしている誰かにとっては関心のあるものかもしれない。
14.5.取得可能なデータのタイプ
どの文書のどの部分を誰がいつどこで読んでいるか等の論じた統計に加えて、文書の位置が特定されたか否かにかかわらず、取得されたテキストの実際のコンテンツを調べることも関心を集める場合がある。
多くの場合、ユーザは何らかのテキストを取得しているだけでもなく、結果として何らかのアクションを起こしているであろう。例えば、文書を参照して電子メールを送ろうとしているかもしれない。ユーザまたは電子メールの受信者のIDについての情報がない場合であっても、誰かがその文書を電子メールで送る価値があると見なしているという知識は、極めて有用である。
特定の文書またはテキストの一部分の価値を推測するための上記様々な方法に加えて、ユーザは状況次第で、それに格付けを割り当てることにより、価値を明確に示すであろう。
最後に、ユーザの特定のセットが群を形成することが既知である場合、例えば、特定の会社の従業員であることが既知である場合、当該群の集合統計を使用して、当該群にとっての特定の文書の重要性を推測することができる。
15.デバイス特徴および機能
システムで使用する取得装置は、レンダリングされた文書からテキストを取得する手法を必要とするにすぎない。前述したように(第1.2項)、この取得は、文書の一部の写真を撮影すること、および、いくつかの単語を携帯電話キーパッドに打ち込むことを含む様々な方法によって実現できる。この取得は、1〜2行のテキストを同時に記録できる小型携帯用光学スキャナ、または、ユーザが文書からテキストを読み込むボイスレコーダ等の音声取得装置を使用して実現できる。使用されるデバイスは、これらの組み合わせ―例えば、ボイス注釈も記録できる光学スキャナ―であってよく、取得機能性は、携帯電話、PDA、デジタルカメラ、または携帯音楽プレーヤー等の他のデバイスに内蔵されてもよい。
15.1.入力および出力
該当するデバイスのための、場合によっては有益となる追加の入力および出力設備の多くについて、第12.1項で説明した。それらは、入力用のボタン、スクロールホイールおよびタッチパッド、ならびに、出力用のディスプレイ、表示ライト、音声および触覚変換器を含む。デバイスがそれらのうちの多くを組み込む場合もあれば、極めて少ない場合もあるであろう。時に取得装置は、例えば無線リンクを使用して、既にそれらを有する別のデバイスと通信を行うことができるであろうし(第15.6)、時に取得機能性は、該当する他のデバイスに組み込まれるであろう(第15.7項)。
15.2.接続性
いくつかの実施形態において、デバイスは、システム自体の大部分を実装する。しかしながら、いくつかの実施形態において、多くの場合デバイスは、PCまたは他のコンピュータ機器と、および通信設備を使用してより広範な世界と通信を行う。
多くの場合、これらの通信設備は、イーサネット(登録商標)、802.11、またはUWB等の汎用データネットワーク、もしくは、USB、IEEE−1394(ファイヤワイヤ)、Bluetooth(商標)、または赤外線等の標準的な周辺機器接続ネットワークの形態である。ファイヤワイヤまたはUSB等の有線接続が使用されている場合、デバイスは同一の接続を通じて電力を受け取ることができる。状況次第で、取得装置は、接続された機械がUSB記憶域装置等の従来の周辺機器であるように思われる場合がある。
最後に、デバイスは、当該デバイスと連動して使用するため、または便利な記憶領域用に、状況次第で別のデバイスと「ドッキング」する場合がある。
15.3.キャッシングおよび他のオンライン/オフライン機能性
第3.5および12.1.4項では、非接続操作のトピックを取り上げた。取得装置がシステムの全機能性の限られたサブセットしか有しておらず、システムの他の部分と通信を行っていない場合、利用可能な機能性は削減される可能性があるが、デバイスは依然として有用であり得る。最も単純なレベルでは、デバイスは取得されている生画像または音声データを記録することができ、これは後に処理されることができる。しかしながら、ユーザの利益のためには、可能であれば、取得されたデータは進行中のタスクに十分でありそうか、それは識別されることができる、または識別可能でありそうか、および、データのソースは識別されることができる、または後に識別可能でありそうか、についてフィードバックを与えることが重要である。その後ユーザは、それらの取得アクティビティが有意義なものか否かを知るであろう。上記の事柄すべてが不明の場合であっても、ユーザが後にそれらを参照することができるように、最低限でもやはり生データを格納することができる。例えばOCRプロセスによってスキャンを認識することができない場合、ユーザにスキャンの画像が提示される場合がある。
利用可能なオプションの範囲の一部を示すために、幾分単純な光学スキャン装置およびさらにいっそうフル装備のものの両方を以下に説明する。多くのデバイスが両者の間の中間地点を占める。
15.3.1.シンプルスキャナ―ローエンドオフライン例
シンプルスキャナは、テキストの行の長さに沿って移動する際にページからピクセルを読み出すことができるスキャンヘッドを有する。スキャンヘッドは、ページに沿ってその動きを検出し、動きについての何らかの情報とともにピクセルを記録することができる。シンプルスキャナは、各スキャンをタイムスタンプすることを可能にするクロックも有する。クロックは、シンプルスキャナが接続性を有する場合、ホスト装置と同期される。クロックは、実際の時間帯を表すことはできないが、ホストがスキャンの実際の時刻、または最悪の場合でもスキャン間での経過時間を推測できるように、そこから相対的時間を決定することはできる。
シンプルスキャナは、任意のOCR自体を実行するために十分な処理能力を有さないが、一般的なワード長、ワード間隔、およびフォントサイズに対するそれらの関係についての基本知識はいくらか有している。シンプルスキャナは、スキャンが可読でありそうか、ヘッドが紙全体にわたってあまりにも速く、遅く、または不正確に移動されていないか、および、識別される文書に対し所定サイズの十分な単語がスキャンされたようであるといつ判定するのかをユーザに知らせる基本的な表示ライトを有する。
シンプルスキャナはUSBコネクタを有し、コンピュータ上のUSBポートに差し込まれることができ、そこで再充電される。コンピュータには、タイプスタンプされたデータファイルが記録されたUSB記憶域装置であると思われ、システムソフトウェアの残りの部分はこの時点から引き継ぐ。
15.3.2.シンプルスキャナ―ハイエンドオフライン例
シンプルスキャナは、そのフル操作のための接続性にも依存するが、かなりの量のオンボードストレージ、および、オフライン中に取得されたデータについてよりよい判断をするのを助けることができる処理を有する。
テキストの行に沿って移動する際、取得されたピクセルは縫合され、テキストを認識しようと試みているOCRエンジンへ渡される。ユーザが最も読む発行物から生じたものを含む多数のフォントは、PC上にあるユーザのスペルチェッカー辞書と同期される辞書を有しているため、このタスクを実行するのを助けるためにそれをダウンロードしており、そのため頻繁に遭遇する多くの単語を含む。一般的な使用頻度である単語およびフレーズのリストもスキャナに格納される―これは辞書と組み合わせられる場合がある。スキャナは、認識プロセスを助けること、および、十分な量のテキストが取得されたのがいつかについての判断を通知することの両方のために頻度統計を使用することができ、さらに頻繁に使用されるフレーズは検索クエリーの基礎として有用である可能性が低い。
また、新聞の最近の号における記事および最も一般にユーザに読まれている定期刊行物のためのフルインデックスは、ユーザが最近オンライン書籍販売業者から購入した本のためのインデックス、またはユーザがそこから数ヶ月以内にスキャンしたもののように、デバイスに格納されている。最後に、システムで利用可能なデータを有する数千の最も人気のある発行物のタイトルは、他の情報がない場合、ユーザがタイトルをスキャンでき、特定の作品からの取得が後に電子形態で取り込み可能でありそうか否かについての良い考えを有することができるように、格納される。
スキャンプロセス中、システムは、取得されたデータが、接続性が復旧された際には電子コピーを取り込むことができることを推定可能にするために十分な質と十分な性質であったことをユーザに通知する。多くの場合、システムは、スキャンが成功したことは既知であり、オンボードインデックスの1つにおいてコンテクストが認識されたこと、または、関係する発行物がそのデータをシステムで利用可能なようにしていることは既知であり、そのため後の取り込みは成功するはずであることをユーザに示す。
スーパースキャナは、PCのファイヤワイヤまたはUSBポートに接続されたクレードル内でドッキングされ、そのポイントでは、取得されたデータの更新に加えて、その様々なオンボードインデックスおよび他のデータベースが、最近のユーザアクティビティおよび新しい発行物に基づいて更新される。スーパースキャナは、無線パブリックネットワークに接続するための、または、Bluetoothを介して携帯電話と、そこから該当する設備が利用可能な際にパブリックネットワークと通信を行うための設備も有する。
15.4.光学スキャンのための特徴
次に、光学スキャナ装置において特に望ましい場合がある特徴の一部について検討する。
15.4.1.柔軟な位置決めと便利な光学素子
紙の人気を継続させている理由の1つは、例えばコンピュータが実行不可能または不便である多種多様な状況におけるその使用の容易さである。ユーザの紙とのインタラクションの実質的部分を取得することを目的としているデバイスは、したがって使用時も同様に便利であるはずである。過去のスキャナはこうだったわけではなく、最も小型の携帯用デバイスでさえ、少々扱いにくいものであった。ページに接触するようにデザインされたものは、紙に対して正確な角度で支え、スキャンされるテキストの長さに沿って極めて慎重に移動させる必要がある。これは事務机で営業報告書をスキャンする際には許容可能であるが、電車を待ちながら小説からフレーズをスキャンする際には実行不可能な場合がある。紙から離れて動作するカメラタイプの光学素子に基づくスキャナも、状況に応じて同様に有用となり得る。
システムのいくつかの実施形態では、紙と接触してスキャンするスキャナを使用し、当該スキャナは、画像をページから光センサデバイスへ伝送するため、レンズの代わりに画像ルート、光ファイバの束を使用する。該当するデバイスは、自然な位置で支えることができるように形作られることができ、例えば、いくつかの実施形態において、ページに接触する部分は、ユーザの手が蛍光ペンを使用するのと同様の動きでページ上をより自然に移動できるようにする楔形である。ルートは、紙に直接接触しているか、近接近しているかのいずれかであり、考えられる損傷からルートを守ることができる交換式の透明な選択を有する場合がある。第12.2.4項で述べたように、スキャナを使用して紙からに加えて画面からスキャンすることができ、先端の材料は、該当するディスプレイへの損傷が生じる確率を下げるように選ぶことができる。
最後に、デバイスのいくつかの実施形態は、ユーザがあまりにも速く、遅く、または不規則にスキャンしている、もしくはスキャンされている行の上でのドリフトが高すぎるまたは低すぎる場合、光、音、または触覚フィードバックの使用を通じて、スキャンプロセス中にフィードバックをユーザに提供するであろう。
15.5.セキュリティ、ID認証、パーソナライズ、および課金
第6項で説明したように、取得装置は、セキュアな取引、購入、および他の様々な操作のための識別および権限付与の重要な部分を形成することができる。したがって取得装置は、該当する役割のため必要な回路およびソフトウェアに加えて、スマートカードリーダ、RFID、またはPINを打ち込むためのキーパッド等、それをよりセキュアにすることができる様々なハードウェア特徴を組み込むことができる。
取得装置は、ユーザを識別するのに役立つ様々なバイオメトリックセンサを含んでもよい。例えば、光学スキャナの場合、スキャンヘッドは指紋を読み出すこともできる場合がある。ボイスレコーダの場合、ユーザの声紋を使用することができる。
15.6.デバイス接続
いくつかの実施形態において、デバイスは、隣接する他のデバイスとの関連付けを形成し、自身の、またはそれらの機能性のいずれかを改善することができる。いくつかの実施形態において、例えば、デバイスは、その操作についてより詳細なフィードバックを与えるために、隣接するPCまたは電話を使用するか、またはそれらのネットワーク接続性を使用する。一方、デバイスは、その役割において、他のデバイスによって実行される操作を認証するためのセキュリティおよび識別装置として動作することができる。または単純に、当該デバイスへの周辺機器として機能するための関連付けを形成することができる。
該当する関連付けの興味深い側面は、デバイスの取得設備を使用して開始および認証されることができることである。例えば、公共コンピュータ端末に対しセキュアに自身の識別を行いたいユーザは、端末画面の特定のエリアに表示されたコードまたはシンボルをスキャンするために、スキャン設備を使用し、そのためキー転送をもたらすことができる。音声記録装置によって拾い上げられた音声信号を使用して、類似のプロセスを実行することができる。
15.7.他のデバイスとの統合
いくつかの実施形態において、取得装置の機能性は、既に使用中である他の何らかのデバイスに統合される。統合されたデバイスは、電源、データ取得および記憶領域、ならびにネットワークインターフェースを共有することができる場合がある。該当する統合は、単に便宜上、費用を削減するため、または、他の形では利用不可能な機能性を可能にするために行われる場合がある。
取得機能性が統合され得るデバイスのいくつかの例は、以下を含む。
マウス、スタイラス、USB「ウェブカム」カメラ、Bluetooth(商標)ヘッドセットまたはリモートコントロール等の現存する周辺機器
PDA、MP3プレーヤー、ボイスレコーダ、デジタルカメラまたは携帯電話等の別の処理/記憶域装置
利便性のためだけによく持ち運ばれる他のアイテム―時計、宝石、ペン、車のキーケース
15.7.1.携帯電話統合
統合の利益の例として、取得装置として修正された携帯電話の使用を検討する。
いくつかの実施形態において、電話ハードウェアは、テキスト取得が音声認識を通じて的確に行われ得る場合、およびそれらが携帯電話自体によって処理される、または通話の相手側のシステムによって扱われる、または将来の処理のために電話の記憶装置に格納されることができる場合、システムをサポートするようには修正されない。現代の電話の多くは、システムのいくつかの部分を実装することができるソフトウェアをダウンロードする能力を有する。しかしながら、該当する音声取得は、多くの場合、例えば相当な暗騒音があり、最も良い状態であっても正確な音声認識が困難なタスクである場合、次善最適である可能性が高い。音声設備は、音声注釈を取得するために使用するには最良であり得る。
いくつかの実施形態において、多くの携帯電話に内蔵されているカメラを使用して、テキストの画像を取得することができる。通常はカメラのファインダーとして作用するであろう携帯電話のディスプレイは、画像の質およびそのOCRへの適合性についてのライブカメラ情報にオーバーレイすることができ、テキストのセグメント、およびOCRが電話機上において実行され得る場合はテキストの転写さえ、取得されている。
いくつかの実施形態において、電話機は、専用取得設備を追加するよう、もしくは、電話機と通信を行っているクリップ式アダプタまたはBluetooth接続周辺機器において該当する機能性を提供するよう、修正される。取得機構の性質がどのようなものであっても、現代の携帯電話との統合はその他多くの利点を有する。電話機はより広範な世界との接続性を有し、このことは、クエリーはリモート検索エンジンまたはシステムの他の部分に提示されることができ、また、文書のコピーは即時記憶またはビューのために取り込まれることができることを意味する。電話機は、一般に、ローカルで実行されるシステムの多くの機能のために十分な処理能力および適度な量のデータを取得するために十分な記憶領域を有する。記憶領域の量は、多くの場合、ユーザによって拡張されることもできる。電話機は、ユーザにフィードバックを提供するための適度に優良なディスプレイおよび音声設備および、多くの場合、触覚フィードバックのための振動機能を有する。それらは優良な電源も有する。
とくに重大なことに、それらはほとんどのユーザが既に持ち運んでいるデバイスである。
第3部‐システムのアプリケーション例
この項では、システムおよびその上に築かれ得るアプリケーションの使用例を列挙する。このリストは、純粋に例示的なものであって、包括的な意味ではないことを目的としている。
16.パーソナルアプリケーション
16.1.ライフライブラリ
ライフライブラリ(第6.1.1項も参照)は、サブスクライバが保存を希望するあらゆる重要な文書のデジタルアーカイブ、および、このシステムのサービスの実施形態のセットである。重要な本、雑誌記事、新聞の切り抜き等は、すべてライフライブラリにデジタル形態で保存されることができる。また、サブスクライバの注釈、コメント、および注記は、文書とともに保存されることができる。ライフライブラリには、インターネットおよびワールドワイドウェブを介してアクセスできる。
システムは、サブスクライバのためにライフライブラリ文書アーカイブを作成し管理する。サブスクライバは、文書から情報をスキャンすることによって、または、サブスクライバのライフライブラリに特定の文書を追加すべきであるとシステムに示すことによって、サブスクライバがどの文書をライフライブラリに保存したいかを示す。スキャンされた情報は、一般に文書からのテキストであるが、バーコードまたは文書を識別する他のコードであってもよい。システムは、コードを受け入れ、それを使用してソース文書を識別する。文書が識別された後、システムは、ユーザのライフライブラリに文書のコピーを格納するか、文書が取得され得るソースにリンクすることができる。
ライフライブラリシステムの一例は、サブスクライバが電子コピーを取得することを許可されているか否かをチェックすることができる。例えば、記事が読者のライフライブラリに追加されるように、読者がNew York Times(NYT)の記事のコピーからテキストまたは識別子をスキャンした場合、ライフライブラリシステムは、読者がNYTのオンライン版をサブスクライブしているか否かNYTを検証し;そうである場合、読者は自身のライフライブラリアカウントに格納されている記事のコピーを入手し;そうでない場合、文書を識別する情報および自身のライフライブラリアカウントに格納されている注文の仕方を入手する。
いくつかの実施形態において、システムは、アクセス権限情報を含む各サブスクライバのサブスクライバプロファイルを保持する。文書アクセス情報はいくつかの方法でコンパイルされることができ、そのうちの2つは、1)サブスクライバが、自身のアカウント名およびパスワード等とともに文書アクセス情報をライフライブラリシステムへ提供する方法、または、2)ライフライブラリサブスクライバが資料へのアクセスを許可されている場合、ライフライブラリサービスプロバイダがサブスクライバの情報によって発行者にクエリーし、電子コピーへのアクセスを提供することによって発行者が応答する方法である。ライフライブラリサブスクライバが文書の電子コピーを有することを許可されていない場合、発行者はライフライブラリサービスプロバイダに価格を提供し、次いで当該プロバイダは電子文書を購入するためのオプションを顧客に提供する。許可されている場合、ライフライブラリサービスプロバイダが発行者に直接支払い、後に顧客に請求するか、またはライフライブラリサービスプロバイダが購入に対して直ちに顧客のクレジットカードに請求するかのいずれかである。ライフライブラリサービスプロバイダは、取引を円滑にするために、購入価格の1パーセントまたは小額の固定料金を得ることになる。
システムは、文書をサブスクライバの個人ライブラリおよび/またはサブスクライバがアーカイブできる特権を有するその他任意のライブラリにアーカイブすることができる。例えば、ユーザが印刷された文書からテキストをスキャンする際に、ライフライブラリシステムはレンダリングされた文書およびその電子副本を識別することができる。ソース文書が識別された後、ライフライブラリシステムは、ソース文書についての情報を、ユーザの個人ライブラリおよびサブスクライバがアーカイブできる特権を有するグループライブラリに記録するかも知れない。グループライブラリは、あるプロジェクトについて共同作業する群、学術研究者の群、ブループウェブログ等のための文書収納庫等の共同アーカイブである。
ライフライブラリは、年代順、トピックごと、サブスクライバの関心のレベルごと、発行物のタイプごと(新聞、本、雑誌、専門誌等)、どこで読まれるか、いつ読まれるか、ISBN(国際標準図書番号)によって、またはデューイ10進法によって等、多くの手法で整理されることができる。一代替において、システムは、他のサブスクライバが同一の文書をどのように分類したかに基づいて分類を学習することができる。システムは、ユーザに分類を提供するか、ユーザのために文書を自動的に分類することができる。
様々な実施形態において、注釈は文書に直接挿入されてもよいし、別々のファイルに保持されてもよい。例えば、サブスクライバが新聞記事からテキストをスキャンする場合、記事はスキャンされたテキストをハイライトすることによって当該サブスクライバのライフライブラリにアーカイブされる。あるいは、記事は関連注釈ファイルとともに当該サブスクライバのライフライブラリにアーカイブされる(したがって、アーカイブされた文書は修正されないままである)。システムの実施形態は、各サブスクライバのライブラリ内のソース文書のコピー、多くのサブスクライバがアクセスできるマスターライブラリ内のコピー、または発行者により保持されるコピーへのリンクを保管することができる。
いくつかの実施形態において、ライフライブラリは、ユーザの文書に対する修正(例えば、ハイライト等)および文書のオンライン版(どこか他の場所に格納されている)へのリンクのみを格納する。システムまたはサブスクライバは、サブスクライバがその後に文書を取り込む際に変更を文書にマージする。
注釈が別々のファイルに保管されている場合、ソース文書および注釈ファイルがサブスクライバに提供され、サブスクライバはそれらを組み合わせて修正された文書を作成する。あるいは、システムは、サブスクライバに提示する前に、2つのファイルを組み合わせる。別の代替において、注釈ファイルは文書ファイルに対するオーバーレイであり、サブスクライバのコンピュータにおいてソフトウェアにより文書にオーバーレイされることができる。
ライフライブラリサービスへのサブスクライバは、システムにサブスクライバのアーカイブを保持させるために月額を支払う。あるいは、サブスクライバはアーカイブに格納されている各文書に対して小額(例えば、小額決済)を支払う。あるいは、サブスクライバは自身のアーカイブにアクセスするために、アクセスごとの料金を支払う。あるいは、サブスクライバはライブラリをコンパイルすることができ、他者がライフライブラリサービスプロバイダおよび著作権保持者によって収益共有モデル上の資料/注釈にアクセスすることを可能にする。あるいは、ライフライブラリサービスプロバイダは、ライフライブラリサブスクライバが文書を注文した際に発行者から支払いを受け取る(発行者を持つ収益共有モデル、ここでライフライブラリサービスプロバイダは発行者の収益の分配を得る)。
いくつかの実施形態において、ライフライブラリサービスプロバイダは、著作権のある資料に対する課金および請求を容易にするために、サブスクライバと著作権保持者(または、Copyright Clearance Center、a.k.a.CCC等、著作権保持者の代理店)との間の媒介として作用する。ライフライブラリサービスプロバイダは、サブスクライバの課金情報および他のユーザアカウント情報を使用して、この媒介サービスを提供することができる。本来、ライフライブラリサービスプロバイダは、サブスクライバに代わって著作権のある資料の購入を可能にするために、サブスクライバとの既存の関係を活用する。
いくつかの実施形態において、ライフライブラリシステムは文書からの抜粋を格納することができる。例えば、サブスクライバが紙の文書からテキストをスキャンする場合、ライフライブラリにアーカイブされた文書全体よりも、スキャンされたテキストの周囲の領域が抜粋されてライフライブラリに置かれる。これは、元のスキャンの状況を保つことによって、興味深い部分を見つけるためにサブスクライバが文書を再読するのを防止するため、文書が長い場合に特に有利である。当然ながら、紙の文書の電子副本全体へのハイパーリンクは、抜粋資料に付属していてよい。
いくつかの実施形態において、システムは、著者、発行物タイトル、刊行日、発行者、著作権保持者(または著作権保持者のライセンス代理店)、ISBN、文書のパブリック注釈へのリンク、読書ランク等、ライフライブラリ内の文書についての情報も格納する。文書についてのこのさらなる情報の一部は、紙の文書メタデータの形態である。第三者が、一般の人々等自分たち以外の人によるアクセスのためにパブリック注釈ファイルを作成することができる。他のユーザの注釈ファイルを読むことはサブスクライバの文書の理解を促進するため、文書における第三者の解説にリンクすることは利点である。
いくつかの実施形態において、システムは分類によって資料をアーカイブする。この特徴は、ライフライブラリサブスクライバが各紙の文書にアクセスすることなく紙の文書の分類全体に迅速に電子副本を格納することを可能にする。例えば、サブスクライバがナショナルジオグラフィック誌のコピーから何らかのテキストをスキャンする場合、システムはサブスクライバにナショナルジオグラフィックのバックナンバーをすべてアーカイブするためのオプションを提供する。サブスクライバがバックナンバーをすべてアーカイブすることを選んだ場合、ライフライブラリサービスプロバイダはナショナルジオグラフィック協会によってサブスクライバがそうすることを許可されているか否か検証する。許可されていない場合、ライフライブラリサービスプロバイダはナショナルジオグラフィック誌コレクションをアーカイブする権利の購入を仲介することができる。
16.2.ライフセーバ
ライフライブラリ概念の変形、またはその強化が「ライフセーバ」であり、ここでシステムはユーザによって取得されたテキストを使用して、ユーザのアクティビティについてさらに推測する。特定のレストランのメニュー、劇場パフォーマンスのプログラム、特定の鉄道駅の時刻表、または地方紙の記事のスキャンは、システムがユーザのロケーションおよび社会活動についてさらに推測を行うことを可能にし、それらを記した自動日程表を例えばウェブサイトとして構築する場合がある。ユーザは、日程表を編集および修正し、写真等のさらなる資料を追加し、当然ながら、スキャンされた項目を再度見ることができるであろう。
17.学術アプリケーション
説明したシステムにサポートされている携帯スキャナは、学術的設定における多くの強力な使用法を有する。それらは、生徒/教師インタラクションを強化し、学習経験を増強することができる。いくつかある使用法の中で、生徒は自身の独自の必要性を適合するために教材に注釈を入力することができ;教師は学業成績を監視することができ;また教師は生徒の課題に引用されているソース資料を自動的に検証することができる。
17.1.子供向けの本
本等の紙の文書との子供のインタラクションは、このシステムの実施形態の特別なセットを用いるリテラシー獲得システムによって監視される。子供は、リテラシー獲得システムの他の要素と通信を行う携帯スキャナを使用する。携帯スキャナに加えて、リテラシー獲得システムは、ディスプレイおよびスピーカを有するコンピュータ、ならびにコンピュータによってアクセス可能なデータベースを含む。スキャナは、コンピュータ(ハードワイヤド、短距離RF等)と連結されている。本の中で未知の単語を見ると、子供はスキャナでそれをスキャンする。一実施形態において、リテラシー獲得システムは、単語を識別するためにスキャンされたテキストをそのデータベース内のリソースと比較する。データベースは、辞書、類語辞典、および/またはマルチメディアファイル(例えば、サウンド、グラフィック等)を含む。単語が識別された後、システムはコンピュータスピーカを使用して単語およびその定義を子供に対して発音する。別の実施形態において、単語およびその定義はリテラシー獲得システムによってコンピュータのモニタ上に表示される。スキャンされた単語についてのマルチメディアファイルは、コンピュータおよびスピーカを通じて再生されることもできる。例えば、「Goldilocks and the Three Bears」を読んでいる子供が「bear(熊)」という単語をスキャンした場合、システムは「bear」という単語を発音し、熊についての短いビデオをコンピュータのモニタ上に再生するかもしれない。このようにして、子供は書かれた単語の発音を学習し、マルチメディアプレゼンテーションを介して単語が意味するものを視覚的に教わる。
リテラシー獲得システムは、学習プロセスを強化するために即時の聴覚的および/または視覚的情報を提供する。子供はこの補足情報を使用して、書かれた資料のより深い理解を迅速に獲得する。システムを使用して、読書初心者に読むことを教える、子供がより豊富な語彙を獲得するのに役立つこと等ができる。このシステムは、子供がよく知らない単語についての情報、または子供がさらなる情報を希望するものについての情報を子供に提供する。
17.2.リテラシー獲得
いくつかの実施形態において、システムは個人辞書をコンパイルする。読者が、新しい、興味深い、もしくは特に有用または厄介なある単語を見た場合、当該読者は、それを(その定義とともに)コンピュータファイルに保存する。このコンピュータファイルは読者のパーソナル化された辞書となる。この辞書は、概して一般辞書よりサイズが小さいため、移動局または関連デバイスにダウンロードすることができ、したがって、システムが直ちにアクセス可能でない場合でも利用することができる。いくつかの実施形態において、個人辞書エントリは、適切な単語の発音を支援するための音声ファイルおよび単語がスキャンされた紙の文書がどれであるかを識別する情報を含む。
いくつかの実施形態において、システムは、生徒のためにカスタマイズされたスペルおよび語彙テストを作成する。例えば、課題を読む際、生徒は携帯スキャナを使用してよく知らない単語をスキャンすることができる。システムは、生徒がスキャンしたすべての単語のリストを格納する。その後、システムは生徒のためにカスタマイズされたスペル/語彙テストを関連モニタ上で行う(または関連プリンタ上で該当するテストを印刷する)。
17.3.音楽指導
譜表上の音符の配置は、テキストの行における文字の配列と同様である。このシステムにおいてテキストを取得するためのものとして論じた同一のスキャン装置を使用して楽譜を取得することができ、既知の楽曲のデータベースに対して検索を構築する類似のプロセスは、取得が発生した曲が識別され、次いで取り込まれ、再生される、または何らかのさらなるアクションの基礎となることを可能にするであろう。
17.4.盗用を検出する
教師は、生徒の論文からテキストをスキャンして、スキャンされたテキストをシステムに提示することにより、システムを使用して盗用を検出すること、またはソースを検証することができる。例えば、生徒の論文内の引用が、当該生徒が引用したソースのものであることを検証したいと希望する教師は、引用の一部をスキャンして、システムによって識別された文書のタイトルと生徒によって引用された文書のタイトルを比較することができる。同様に、システムは、生徒のオリジナル作品として提出された課題からのテキストのスキャンを使用して、テキストがオリジナルではなくコピーされたものであるか否かを暴くことができる。
17.5.高度な教科書
いくつかの実施形態において、学術書からテキストを取得することは、生徒または職員をさらに詳細な説明、さらなる練習問題、生徒と職員の教材についての議論、関連する過去の例題、サブジェクトのさらなる読み上げ、サブジェクトについての講義の録音等にリンクさせる(第7.1項も参照)。
17.6.言語学習
いくつかの実施形態において、システムは外国語を教えるために使用される。例えば、スペイン語の単語をスキャンすることで、その英語での定義とともに単語をスペイン語で読み上げさせるかもしれない。
システムは、新しい言語獲得プロセスを強化するために即時の聴覚的および/または視覚的情報を提供する。読者はこの補足情報を使用して、資料のより深い理解を迅速に獲得する。システムを使用して、学習初心者に外国語の読み方を教えること、生徒がより豊富な語彙を獲得するのに役立つこと等ができる。システムは、読者がよく知らない、または読者がさらなる情報を求める外国語の単語について情報を提供する。
新聞または本等の紙の文書との読者インタラクションは、言語スキルシステムにより監視される。読者は、言語スキルシステムと通信を行う携帯スキャナを有する。いくつかの実施形態において、言語スキルシステムは、ディスプレイおよびスピーカを有するコンピュータ、ならびにコンピュータによってアクセス可能なデータベースを含む。スキャナは、コンピュータ(ハードワイヤド、短距離RF等)と通信を行う。記事の中で未知の単語を見ると、読者はスキャナでそれをスキャンする。データベースは、外国語辞書、類語辞典、および/またはマルチメディアファイル(サウンド、グラフィック等)を含む。一実施形態において、システムはスキャンされた単語を識別するために、スキャンされたテキストをそのデータベース内のリソースと比較する。単語が識別された後、システムはコンピュータスピーカを使用して単語およびその定義を読者に対して発音する。いくつかの実施形態において、単語およびその定義はいずれもコンピュータのモニタ上に表示される。スキャンされた単語に関連する文法ルールについてのマルチメディアファイルは、コンピュータおよびスピーカを通じて再生されることもできる。例えば、「speak」という単語がスキャンされた場合、システムは「hablar」という単語を発音し、適切なスペイン語の発音を実演する短い音声クリップを再生し、「hablar」の様々な活用の完全なリストを表示するかもしれない。このようにして、生徒は書かれた単語の発音を学習し、マルチメディアプレゼンテーションを介して単語のスペルを視覚的に教わり、動詞の活用の仕方を学習する。システムは、よく使われるフレーズとともに「hablar」の適切な使用法についての文法ルールを提示することもできる。
いくつかの実施形態において、ユーザは、当該ユーザの母国語以外の言語(またはユーザがまあまあよく知っている他の何らかの言語)で、レンダリングされた文書から単語または短いフレーズをスキャンする。いくつかの実施形態において、システムは、ユーザの「好ましい」言語の優先リストを保持する。システムは、レンダリングされた文書の電子副本を識別し、文書内でスキャンのロケーションを判定する。システムはまた、ユーザの好ましい言語の1つに翻訳された文書の第2の電子副本を識別し、元の文書内のスキャンのロケーションに対応する翻訳された文書内のロケーションを判定する。対応するロケーションが正確にわからない場合、システムは、スキャンされたロケーションの対応するロケーションを含む小さな領域(例えば、段落)を識別する。対応する翻訳されたロケーションは次いでユーザに提示される。これは、ユーザにあらゆる俗語または単語対単語基準で正確に翻訳するのが多くの場合難しい他の慣用語法を含む、スキャンされたロケーションにおける特定の使用法の正確な翻訳を提供する。
17.7.研究資料を収集する
特定のトピックを研究しているユーザは、印刷および画面上両方において、何らかの個人アーカイブ内のトピックに関連するように記録したいと希望するかもしれないあらゆる種類の資料に遭遇する場合がある。システムは、資料の任意の部分内にある短いフレーズをスキャンした結果として、このプロセスを自動にすることができ、そのサブジェクトについての発行物への挿入に適合する参考文献を作成することもできるであろう。
18.商用アプリケーション
明らかに、商業活動はこの文書において論じられたほとんどすべてのプロセスから作り上げられることができるが、本明細書においては、数少ない明らかな収益ストリームに集中する。
18.1.有料検索およびインデックス作成
従来のインターネット検索エンジンは一般に電子文書の無料検索を提供し、インデックス内にコンテンツを含むコンテンツプロバイダへの請求も行わない。いくつかの実施形態において、システムは、ユーザに対して請求を、かつ/もしくは検索エンジンおよび/またはシステムの操作および使用に関連するコンテンツプロバイダに支払いを提供する。
いくつかの実施形態において、システムのサービスへのサブスクライバは、紙の文書のスキャンから生じる検索のための使用料を支払う。例えば、株式仲買人は、X社によって売り出される新製品についてのウォールストリートジャーナルの記事を読んでいる場合がある。紙の文書からX社の社名をスキャンし、必要な手数料の支払いに同意することにより、株式仲買人はシステムを使用して、アナリスト報告書等、会社についてのプレミアム情報を取得するために、特殊なまたは独占のデータベースを検索する。システムは、例えば特定の日に発行された新聞のすべてがインデックスを作成され、街へ繰り出す時間までに利用可能となることを確認することによって、配置に紙形態で読まれる可能性が最も高い文書のインデックス作成を優先させることもできる。
コンテンツプロバイダは、紙の文書から提示された検索クエリー内のある用語と関連するために手数料を支払う場合がある。例えば、一実施形態において、システムはプロバイダについての追加コンテクスト(この場合、コンテンツプロバイダが結果リストを情報へ移動するために使用料を支払ったコンテクスト)に基づいて、最も好ましいコンテンツプロバイダを選ぶ。要するに、検索プロバイダは、コンテンツプロバイダとの既存の支払協定に基づいて、紙の文書の検索結果を調節しているのである。第5.2項のキーワードおよびキーフレーズの説明も参照のこと。
人々のある一定の群(クライアントまたは従業員等)に制限されるべき特定のコンテンツにアクセスする場合、該当するコンテンツはファイアウォールによって守られ、したがって、概して第三者によるインデックス作成が不可能である場合がある。それにもかかわらず、コンテンツプロバイダは守られたコンテンツへインデックスを提供することを希望する場合がある。そのような場合、コンテンツプロバイダはサービスプロバイダに支払いをして、システムサブスクライバにコンテンツプロバイダのインデックスを提供することができる。例えば、法律事務所はクライアントの文書すべてにインデックスを作成することができる。文書は、法律事務所のファイアウォールの後ろに格納されている。しかしながら、法律事務所はその従業員およびクライアントが携帯スキャナを介して文書へのアクセスを有し、それによってサービスプロバイダにインデックス(またはインデックスへのポインタ)を提供することを希望し、法律事務所の従業員またはクライアントが携帯スキャナを介して紙をスキャンした検索用語を提示した場合、これが同様に法律事務所のインデックスを検索する。法律事務所は、この機能を可能にするために、従業員および/またはクライアントのリストをサービスプロバイダのシステムに提供することができる、もしくは、システムは、法律事務所のインデックスを検索する前に法律事務所にクエリーすることによってアクセスを検証することができる。先の例において、法律事務所によって提供されたインデックスは、当該クライアントの文書にすぎず、法律事務所にあるすべての文書のインデックスではないことに留意すべきである。したがって、サービスプロバイダは、法律事務所のクライアントに、法律事務所がクライアントのためにインデックス作成した文書へのアクセスを付与することができるだけである。
紙の文書から生じる検索の結果となり得る少なくとも2つの別個の収益ストリームがあり、一方は検索機能からの、他方はコンテンツ配信機能からの収益ストリームである。検索機能収益はスキャナユーザから支払われたサブスクリプション料から発生し得るが、検索ごとの請求でも発生し得る。コンテンツ配信収益は、コンテンツプロバイダまたは著作権保持者と共有され得る(サービスプロバイダは、配信ごとに、販売の歩合または小額決済等の固定料金をとることができる)が、サブスクライバがオンラインカタログから注文したすべてのアイテムに対してシステムが手数料または歩合を得て、サービスプロバイダが取引を媒介するか否かにかかわらず、システムが配信または寄稿した「照会」モデルによって発生する場合もある。いくつかの実施形態において、システムサービスプロバイダは、サブスクライバがコンテンツプロバイダから行ったすべての購入について、所定期間の間、または識別された製品の購入が行われた後の任意の時に、収益を受け取る。
18.2.カタログ
顧客は、携帯スキャナを使用して紙のカタログから購入を行うことができる。サブスクライバは、カタログを識別する情報をカタログからスキャンする。この情報は、カタログからのテキスト、バーコード、またはカタログの別の識別子である。サブスクライバは購入を希望する製品を識別する情報をスキャンする。カタログ郵送ラベルは、カタログベンダに対して顧客を識別する顧客識別番号を含んでよい。その場合、サブスクライバはこの顧客識別番号もスキャンすることができる。システムは、顧客の選択および顧客識別番号をベンダに提供することによってカタログ購入を容易にするために、サブスクライバとベンダとの間の媒介として作用する。
18.3.クーポン
顧客は、紙のクーポンをスキャンし、クーポンの電子コピーを後の取り込みおよび使用のためにスキャナ、またはコンピュータ等のリモートデバイスに保存する。電子記憶装置の利点は、顧客が紙のクーポンを持ち運ぶ負担から解放されることである。さらなる利点は、電子クーポンはいかなるロケーションからでも取り込みできることである。いくつかの実施形態において、システムはクーポン有効期限を追跡し、まもなく期限切れとなるクーポンについて消費者に警告し、かつ/または期限切れのクーポンを記憶領域から削除することができる。クーポンの発行者にとっての利点は、誰がクーポンを使用しているか、ならびに、いつどこでそれらが取得および使用されたかについてさらにフィードバックを受け取る可能性である。
19.一般アプリケーション
19.1.形態
システムを使用して、紙の形態に対応する電子文書を自動投入することができる。ユーザは、紙の形態を一意に識別する何らかのテキストおよびバーコードにおいてスキャンする。スキャナは、形態の識別およびユーザを識別する情報を、隣接するコンピュータに伝える。隣接するコンピュータはインターネット接続を有する。隣接するコンピュータは、形態の第1のデータベースおよびスキャナのユーザについての情報を有する第2のデータベース(サービスプロバイダのサブスクライバ情報データベース等)にアクセスすることができる。隣接するコンピュータは、第1のデータベースから紙の形態の電子版にアクセスし、第2のデータベースから取得したユーザの情報から、形態のフィールドを自動投入する。隣接するコンピュータはその後、完成した形態を、対象とする受信者に電子メールで送る。あるいは、コンピュータは、隣接するプリンタで完成した形態を印刷することができる。
いくつかの実施形態において、外部データベースにアクセスするよりも、システムは、識別モジュール、SIM、またはセキュリティカード等にユーザの情報を含む携帯スキャナを有する。スキャナは、形態を識別する情報を隣接するPCに提供する。隣接するPCは、電子形態にアクセスし、形態に記入するために必要な任意の情報をスキャナにクエリーする。
19.2.名刺
システムを使用して、紙の文書から電子アドレス帳または他の連絡先リストを自動的に投入することができる。例えば、新しい知人の名刺を受け取った際、ユーザは名刺の画像を当該知人の電話番号とともに取得することができる。システムは、名刺の電子コピーの位置を特定し、携帯電話のオンボードアドレス帳を新しい知人の連絡先情報によって更新するためにこれを使用することができる。電子コピーは、新しい知人について、名刺に詰め込める以上の情報を含むことができる。さらに、オンボードアドレス帳は、電子コピーへのいかなる変化も携帯電話のアドレス帳において自動的に更新されるように、電子コピーへのリンクも格納することができる。この例において、名刺は任意で電子コピーの存在を示すシンボルまたはテキストを含む。電子コピーが存在しない場合、携帯電話はOCRおよび標準的な名刺フォーマットの知識を使用して、アドレス帳のエントリに新しい知人を記入することができる。シンボルは、画像から直接的に情報を抽出するプロセスにおいても助力となり得る。例えば、名刺の電話番号の隣にある電話アイコンは、電話番号のロケーションを決定するために認識されることができる。
19.3.校正/編集
システムは、校正および編集プロセスを強化することができる。システムが編集プロセスを強化する一手法は、紙の文書との編集者のインタラクションを、その電子副本にリンクさせることによるものである。編集者が紙の文書を読み、文書の様々な部分をスキャンする際、システムは紙の文書の電子副本に対して適切な注釈入力または編集を行うであろう。例えば、編集者がテキストの一部をスキャンし、スキャナで「新しい段落」制御ジェスチャを行う場合、スキャナと通信を行っているコンピュータは、文書の電子コピー内のスキャンされたテキストのロケーションに「新しい段落」改行を挿入するであろう。
19.4.ボイス注釈
ユーザは、文書からテキストの一部をスキャンし、次いでスキャンされたテキストと関連するボイス録音を行うことにより、文書に対してボイス注釈入力を行うことができる。いくつかの実施形態において、スキャナはユーザのボイス注釈を録音するためのマイクロホンを有する。口頭での注釈が録音された後、システムはテキストがスキャンされた文書を識別し、文書内においてスキャンされたテキストの位置を特定し、当該地点にボイス注釈を添付する。いくつかの実施形態において、システムはスピーチをテキストに変換し、テキストのコメントとして注釈を添付する。
いくつかの実施形態において、システムは、文書とともに保管されている注釈のみを参照し、注釈を文書から離したままに保つ。注釈はその後、特定のサブスクライバまたはユーザの群のための文書への注釈マークアップ層となる。
いくつかの実施形態において、各取得または関連注釈に関して、システムは文書を識別し、ソフトウェアパッケージを使用してそれを開き、スキャンのロケーションまでスクロールしてボイス注釈を再生する。その後ユーザは、ボイス注釈、推奨されている変更、もしくは、自身または誰か他の人によって録音された他のコメントを参照しながら文書と情報をやりとりすることができる。
19.5.テキスト内のヘルプ
説明したシステムを使用して、電子ヘルプメニューで紙の文書を強化することができる。いくつかの実施形態において、紙の文書に関連するマークアップ層は、文書のためのヘルプメニュー情報を含む。例えば、ユーザが文書のある部分からテキストをスキャンする場合、システムは文書に関連するマークアップをチェックし、ユーザにヘルプメニューを提示する。ヘルプメニューは、スキャナのディスプレイ上または関連の隣接するディスプレイ上に提示される。
19.6.ディスプレイでの使用
場合によっては、テレビ、コンピュータモニタ、または他の同様のディスプレイから情報をスキャンできることが利点となり得る。いくつかの実施形態において、携帯スキャナはコンピュータモニタおよびテレビから情報をスキャンするために使用される。いくつかの実施形態において、携帯光学スキャナは、ラスタライジング、画面ブランキング等の従来のブラウン管(CRT)ディスプレイ技術と連動するように最適化された明るさセンサを有する。
ユーザが文書からテキストを読み上げる音声を取得することによって動作する音声取得装置は、一般に、当該文書が紙上、ディスプレイ上、または他の何らかの媒体上にあるか否かにかかわらず動作するであろう。
19.6.1.公衆ブースおよび動的セッションID
ディスプレイの直接的スキャンの一使用法は、第15.6項において説明したようなデバイスの関連付けである。例えば、いくつかの実施形態において、公衆ブースはそのモニタ上に動的セッションIDを表示する。ブースは、インターネットまたは企業イントラネット等の通信ネットワークに接続されている。セッションIDは定期的に、しかし、新しいセッションIDがすべてのユーザに対して表示されるよう、少なくともブースが使用されるごとに変化する。ブースを使用するためには、サブスクライバはブースにおいて表示されているセッションIDをスキャンし、セッションIDをスキャンすることによって、ユーザはシステムに、印刷された文書からのスキャン、またはブース画面自体から生じたコンテンツ配信のため、自身のスキャナを一時的にブースに関連付けたいと希望していることを告げる。スキャナは、セッションIDおよびスキャナを認証する他の情報(製造番号、アカウント番号、または他の識別情報等)をシステムに直接伝えることができる。例えば、スキャナは、ユーザの携帯電話(Bluetooth(商標)を介してユーザのスキャナと対になっている)を通じてセッション開始メッセージを送信することによってシステムと直接的に(ここで「直接的に」はメッセージにブースを通過させずにという意味である)通信を行うことができる。あるいは、スキャナは、ブースとの無線リンクを確立し、(場合によってはBluetooth(商標)等の短距離RFを介して)セッション開始情報をブースに転送することによってブースの通信リンクを使用することができ;それに応えて、ブースはインターネット接続を介してシステムにセッション開始情報を送信する。
システムは、デバイスがスキャナに関連する期間(またはセッション)中に、既にスキャナに関連しているデバイスを他者が使用するのを防止することができる。この特徴は、別の人物のセッションが終了する前に公衆ブースを他者が使用するのを防止するために有用である。インターネットカフェにあるコンピュータの使用に関するこの概念の例として、ユーザは自身が使用したいPCのモニタ上のバーコードをスキャンし;それに応えて、システムは表示しているモニタにセッションIDを送信し;ユーザはモニタからセッションIDをスキャンする(または、携帯スキャナ上のキーパッドまたはタッチスクリーンまたはマイクロホンを介してそれを入力する)ことによってセッションを開始し;システムはそのデータベース内において、当該ユーザのスキャナのセッションIDを製造番号(または、ユーザのスキャナを一意に識別する他の識別子)と関連付けるため、当該ユーザのセッション中は、別のスキャナがセッションIDをスキャンしモニタを使用することができない。スキャナは、(Bluetooth(商標)等の無線リンク、ドッキングステーション等のハードワイヤドリンク等を通じて)モニタに関連するPCと通信を行っている、または、携帯電話等の別の手段を介して直接的に(すなわち、PCを通過せずに)システムと通信を行っている。
第4部‐システムおよび携帯機器詳細
図4は、携帯スキャン装置の一般的な使用を示す透視図である。図示した例において、ユーザはスキャン機能を有する携帯機器500を介して新聞410からテキストをスキャンする。ユーザは携帯スキャナ500を使用してテキスト420の行の一部をスキャンした。テキスト420の行の一部の画像は、スキャナ500によって格納され、リモート記憶域用に別のデバイスへ伝送される、圧縮される、または様々な手法で処理される。いくつかの実施形態において、携帯スキャナ500は、新聞記事を一意に識別するために十分な情報がスキャンされた時を示す。
図4に示す例において、携帯機器500はペンフォームファクタのスキャナである。しかしながら、デジタルカメラ等、画像取得機能を有するあらゆる携帯機器が、図4に示す携帯機器400と同等に適合し得る。
図5は、一般的な携帯スキャン装置500の実施形態の機能ブロック図である。携帯スキャン装置500は、グラフィックまたはテキスト等、スキャンされるオブジェクトを照らす光源505を有する。スキャンされたオブジェクトから反射した光はレンズ510を通過し、その性質(色、強度等)は、電荷結合素子(CCD)配列515等の適合するデバイスによって登録される。CCD配列515に格納されたアナログデータは、アナログ・デジタル(A/D)コンバータ520によってデジタル形態に変換される。
図5に示す実施形態において、DSP575は、電源540を動力源とし、システムクロック570、A/Dコンバータ520、画像圧縮ロジック525、記憶装置530、課金/サブスクリプション/装置識別子記憶装置580、電力管理ロジック535、ロケーションモジュール545、通信インターフェース550およびユーザインターフェース560と動作可能なように接続される。画像データがA/Dコンバータ520によってデジタル化された後、デジタルシグナルプロセッサ(DSP)575は、記憶装置530に格納されたプログラムに従って、画像データに様々な操作を実行することができる。
デジタルシグナルプロセッサ575は、デジタル画像データを記憶装置530に格納することができる。記憶装置530内の記憶空間を節約するために、DSP575は、記憶する前にデジタル画像データを圧縮するために画像圧縮ロジック525にアクセスすることによって、画像圧縮スキームを実装することができる。既知のJoint Photographic Experts Group(JPEG)またはJoint Bi−level experts Group(JBIG)圧縮スキーム等、多くの種類の画像圧縮スキームを使用することができる。場合によって、DSP575は代替として、スキャンされた画像データを記憶装置530に記憶する前にテキストに変換するために、光学式文字認識(OCR)を使用してもよい。
電力管理ロジック535は、携帯スキャン装置500の様々なコンポーネントによって、電源540および電力消費率のステータスを監視する。電源540がバッテリ等の内部電源である場合、電力管理ロジック535は、バッテリ寿命を延ばすために、あるコンポーネントにハイバネートさせる、または低電力モードにさせることができる。また、電力管理ロジック535は、ユーザインターフェース560に、赤色発光ダイオード(LED)を照らして、警報音を鳴らして、または、液晶ディスプレイ(LCD)に「バッテリ残量不足」アイコンを表示して、「バッテリ残量不足」警告を伝えさせることができる。
記憶装置530は、DSP575へのプログラム命令を含んでよい。また、テキストおよび/または画像データを圧縮または非圧縮フォーマットで格納するために使用してもよい。また、画像データに関連するタイムスタンプおよびロケーションスタンプを、記憶装置530に格納することができる。
クロック570は、携帯スキャナ500の様々なコンポーネントの動作を同期させるためにクロックシグナルを提供する。クロック570は、画像データにタイムスタンプするための時間基準を提供することもできる。例えば、ユーザがテキストの一部をスキャンする場合、DSP575は、スキャンデータにOCRを実行し、結果として生じたテキストをクロック570から取得されたタイムスタンプとともに記憶装置530に格納することができる。あるいは、タイムスタンプは、特に全地球測位システム(GPS)受信機がロケーションモジュール545に含まれる場合、ロケーションモジュール545から取得できる。
ロケーションモジュール545は、携帯機器500にロケーション決定機能を提供する。ロケーションモジュール545は、GPSネットワークによりブロードキャストされる信号を監視することにより、ロケーションおよび時刻情報を提供する全地球測位システム(GPS)受信機を含んでよく、これは衛星および地上の伝送器からなる。このロケーション情報を使用して、特定のスキャンが行われた場所を示すロケーションスタンプを提供することができる。例えば、ユーザがテキストの一部をスキャンする場合、DSP575は、スキャンデータにOCRを実行し、結果として生じたテキストをロケーションモジュール545から取得されたロケーションスタンプとともに記憶装置530に格納することができる。ロケーションスタンプは、国、州、地域、都市、サービングネットワークアクセスポイント、100メートル内のロケーション、正確なロケーション等、様々なレベルの特定性にあってよい。
通信インターフェース550は、携帯機器500が他のデバイスと通信を行えるようにするトランシーバを含む。通信インターフェース550は、短距離RF(Bluetooth、IEEE802.11等)、携帯電話または光学素子(赤外線等)等の無線インターフェースであってよい。通信インターフェース550が無線機能を含む場合、携帯スキャン装置は無線機能を実装するために必要なアンテナまたはレンズも含む。
通信インターフェース550は、ユニバーサルシリアルバス(USB)および同様のスキーム等の有線インターフェースも含んでよい。通信インターフェース550がUSB等の有線インターフェースである場合、通信インターフェース550は、内部電源540を再充電するため、または携帯スキャン装置500を操作するための電力を提供することができる。
ユーザインターフェース560は、スピーカおよびマイクロホン等の聴覚機能、LCDまたはLED等の視覚機能、ならびに/もしくは、ブザーおよびトランデューサ等の触覚(接触)機能を含んでよい。
図6は、システムによって一般に使用されるデータ記録600用のフォーマットを示すデータ構造図である。データ記録600は、スキャンされたデータ630を含む。スキャンされたデータ630は、テキスト、画像、シンボル、または適合するいかなるデータタイプであってもよい。データ記録600は、スキャンされたデータ630に関連するタイムスタンプ610も含む。いくつかの実施形態において、タイムスタンプ610は、スキャンされたデータ630がデバイス500によって取得された時刻を示す。データ記録600は、スキャンされたデータ630に関連するロケーションスタンプ620を含む。いくつかの実施形態において、ロケーションスタンプ620は、スキャンされたデータ630が取得されたロケーションを示す。いくつかの実施形態において、時刻およびロケーションごとにスキャンされたデータ630にインデックス作成を行うタイムスタンプ610およびロケーションスタンプ620は、それによって、スキャンの時刻および/またはロケーションごとに格納されたデータの検索をそれぞれ可能にする。
図7は、携帯機器500を使用して文書がスキャンされたロケーションおよび/時刻についての情報を検出および格納するために、システムによって一般に実行されるステップを示すフロー図を示す。ステップ710において、携帯機器500はスキャンされた画像またはテキスト等のデータ630を取得する。携帯機器500は、データ記録600内にタイムスタンプ610またはロケーションスタンプ620を含むか否かについての所定の命令を有することができる。ステップ715において、携帯機器500は、タイムスタンプ610がデータ記録600において望ましいか否かを判定する。タイムスタンプがデータ記録600において望ましい場合、ステップ720において携帯機器500はクロック570から(または、場合により、GPS対応であればロケーションモジュール545から)タイムスタンプ情報610を取得し、ステップ725へ進む。ステップ715においてタイムスタンプが望ましくない場合、携帯機器500はステップ725へ進む。ステップ725において、携帯機器500は、ロケーションスタンプ620がデータ記録600において望ましいか否かを判定する。ロケーションスタンプがデータ記録600において望ましい場合、携帯機器500はロケーションモジュール255からロケーションスタンプ情報620を取得し、ステップ735へ進む。ステップ725においてロケーションスタンプが望ましくない場合、携帯機器500はステップ735へ進む。ステップ735において、携帯機器500は、データ630を任意の関連するタイムスタンプ610またはロケーションスタンプ620とともに記憶装置530に格納する。
文書を識別するために十分な情報がスキャンされたことをユーザに示す
いくつかの実施形態において、携帯スキャナ500は、文書を識別するために十分な情報がスキャンされたことをユーザに示すことができる。例えば、携帯スキャナ500は、文書を一意に識別する特定のスキャンを示す所定の閾値を有してよい。閾値を満たす、または超える場合、携帯スキャナ500は、ユーザインターフェース560を介して、文書を識別するために十分な情報がスキャンされたことをユーザに示す。これらの所定の閾値は、ヒューリスティックス(すなわち、経験則)、統計的解析、または他の適合する方法に基づいて決定され得る。
いくつかの実施形態において、閾値を決定するためにシステムによって使用される1つのヒューリスティックスは、文章表現の一意の文字の観測に基づく。ほとんどの文書は、極めて大きな集合―例えば、100万の文書を含むもの―内で、4〜10単語(英語では、約20〜50文字またはシンボル)のスキャンにより、一意に識別されることができる。このヒューリスティックスは、テストされたすべての言語にわたって有効である。4〜10単語の範囲におけるスキャンが文書を複写するという結果をもたらすイベントにおいて、ユーザは結果をさらに狭めるためにさらなる単語をスキャンするよう促される場合がある。
携帯機器500は、ユーザインターフェース560の視覚、音声、触覚機能を介して十分な情報がスキャンされたことをユーザに示すことができる。スキャンされた情報が所定の閾値を満たす、または超えると判定されると、DSP575は、情報がスキャンされた文書を識別するために十分な情報がスキャンされたことをユーザに伝えるようユーザインターフェース560に命令する。
タイムスタンプおよびロケーションスタンプを使用して文書を識別することもできる。例えば、Associated Press社の記事は多くの新聞に現われる場合があるが、正しい新聞はロケーションスタンプによって判定される。スキャンがシアトルで実行されたことをロケーションスタンプが示す場合、シアトル新聞はスキャンされたAPの記事のソースである可能性が高い。同様に、いくつかの実施形態において、システムは、タイムスタンプを使用して、タイプスタンプより前に発行されたものに候補文書の範囲を狭める。
文書または文書の群のロケーションを識別するために十分な情報がスキャンされたことをユーザに示す
いくつかの実施形態において、携帯スキャナ500は、文書または文書の群のロケーションを識別するために十分な情報がスキャンされたことをユーザに示す。例えば、携帯スキャナ500は、文書または文書の群内のロケーションを一意に識別する特定のスキャンを示す閾値を有してよい。閾値を満たす、または超える場合、携帯スキャナ500は、ユーザインターフェース560を介して、文書または文書の群内のロケーションを識別するために十分な情報がスキャンされたことをユーザに示すであろう。これらの閾値は、ヒューリスティックス(すなわち、経験則)、統計的解析、特別な文書または文書の群についての情報(例えば、インデックス)、または他の適合する方法に基づいて決定され得る。
設備によって使用される位置決定のための1つのアプローチは、文書または文書の群を表すインデックスを閲覧することを含み、取得がインデックス内において一意でない場合、現在の取得のロケーションについてのシステムの推論を制限し洗練するためにさらなるコンテクスト情報(例えば、最終取得のロケーション、最終取得からの経過時間等)を使用することを含む。
いくつかの実施形態において、システムのロケーション決定は確率的である。特別な取得が文書または文書の群内のいくつかのロケーションと一致する場合、システムは、より高い可能性はユーザの最新の取得に近いロケーションの結果であると考えることができる。閾値は、取得ロケーションが既知であるという表示に関連していてよい。この閾値は、潜在的に一致するロケーションと関連する確率を含んでよい。例えば、いくつかの実施形態において、1つのロケーションがユーザのロケーションである確率が少なくとも80%ある場合、システムは当該ロケーションを選択する。
携帯機器500は、ユーザインターフェース560の視覚、音声、触覚機能を介して、ロケーションが既知であることをユーザに示すことができる。スキャンされた情報が所定の閾値を満たす、または超えると判定されると、DSP575は、情報がスキャンされたロケーションを識別するために十分な情報がスキャンされたことをユーザに伝えるようユーザインターフェース560に命令する。
スキャンされた画像および/またはジェスチャを介してスキャナアクションを制御する いくつかの実施形態において、携帯スキャナ500はユーザインターフェース560を介したユーザ入力によって制御される。例えば、ユーザインターフェース560がユーザにメニューを示すことができるディスプレイを含む場合、ユーザはメニュー選択肢を選択して携帯スキャナ500のアクションを制御することができる。
いくつかの実施形態において、携帯機器500は、ユーザによって実行されるジェスチャにより制御される。例えば、前方にテキストをスキャンすることで、ユーザがテキストを記憶装置に格納したいと希望していることを示すことができる。同一のテキストを逆方向にスキャンすることは、ユーザがテキストをメモリから消去したいと希望していることを示すことができる。文書内のテキスト上を前後にラビングすることは、ユーザが文書の電子コピーにおいて当該テキストをハイライトしたいことを示すことができる。システムは、円運動、振動運動等、携帯機器500のアクションを制御するために使用される多くのジェスチャを可能にする。可能なアクションとしては、スキャンプロセスを開始すること、ユーザが特定の記事または文書からのスキャンを終えたこと(および、したがって次にスキャンされるデータは新しい記事または文書からであること)を信号で知らせること等が挙げられる。
いくつかの実施形態において、携帯スキャナ500は、速度または方向における変化を感知するために加速度計等の加速度センサ(図5には明瞭に図示せず)を含み、それによって制御ジェスチャを決定する。
携帯スキャナ500は、画像取得機構を介してDSP575に入力された制御コマンドに応答するようにプログラムされてもよい。(図5に示す実施形態において、画像取得機構は、光源505、レンズ510、CCD配列515、およびA/Dコンバータ520を含む。)これらのコマンドは、スキャナ、バイオメトリック情報(指紋等)、または普通テキストをスキャンするパターン(データ記憶領域を上述のように制御するために、テキストを逆にスキャンすること等)によって認識される特別なシンボルであってよい。例えば、カタログ等の文書は、携帯機器500に対して特別な意義を有するコマンドシンボルのメニューを含んでよい。制御プログラムを実行するために、ユーザは特別なシンボルの1つをスキャンする。それに応じてDSP575は特別な制御信号に関連する制御プログラムにアクセスし、実行する。カタログの例において、特別なシンボルの1つは、スキャナを介してカタログから製品を注文するために使用できる購入プログラムを開始することができる。ユーザは注文される製品についての情報をスキャンし、携帯スキャナはそれらの製品および販売を完了するために必要な他の情報(課金および出荷情報)を、インターネットと通信インターフェース550との間の接続を介してカタログベンダに伝えるであろう。
課金/サブスクリプション/装置識別子を持つスキャナ
携帯機器500は、課金、サブスクリプション、および/または装置識別子に関する情報を格納するための記憶装置580を含んでよい。この記憶装置580は、サブスクライバ識別モジュール(SIM)またはスマートカードのように取り外し可能であってよく、もしくは、プログラム可能な読み取り専用記憶装置(PROM)等のように取り外し不可能であってもよい。スキャンされたデータに基づいて文書の電子コピーの位置が特定されている場合、サブスクリプション情報を使用して、当該ユーザに電子コピーへのアクセスを許可するべきか否かを検証することができる。例えば、新聞はそのオンライン版へのアクセスに対して追加手数料を請求することができる。ユーザのサブスクリプション情報は、当該ユーザがオンライン版にサブスクライブしているか否かを示すアカウント番号を含む場合がある。
同様に、課金情報を使用して、携帯スキャナ500による購入を行うことができる。いくつかの実施形態において、記憶装置580は、ユーザのクレジットカードまたは他の金融情報を含む。例えば、ユーザが文書からテキストをスキャンし、(例えば上記で開示したユーザインターフェース560またはジェスチャ制御を介して)当該ユーザが文書の電子コピーへのアクセスを購入したいと希望していることを示す場合、課金情報を使用して著作権保持者またはコンテンツプロバイダへの支払いを提供することができる。
携帯機器500は、製造番号等の装置識別子を記憶装置580に格納することができる。これらの装置識別子は、携帯機器500を一意に識別する役割を果たし、消去できないように一般にPROMに格納される。取引へのさらなるセキュリティは、デバイス製造番号をネットワークデータベース内にあるユーザのアカウントおよびサブスクリプションと相関させることによって携帯機器を1人のユーザのみと関連付けることにより取得できる。いくつかの実施形態において、さらなるセキュリティは、スキャナをスマートカードに対してロックするために、装置識別子をスマートカードに格納すること(または携帯スキャナ500にスマートカード識別子を格納すること)によって実現される。これらの実施形態において、DSP575は、正しいスマートカードが携帯スキャナ500機能の前に挿入されたことを検証する。
同等のロケーション技術
主にオンボードGPS受信機を参照してロケーションモジュール545を論じてきたが、その他多くのロケーション技術を使用することができる。これらの技術としては、強化観測時間差(EOTD)、アシステッドGPS(A−GPS)、ディファレンシャルGPS(DGPS)、到来時間差(TDOA)、到来角、三角測量およびローカルトランシーバ・パイロット信号の監視が挙げられる。EOTD、TDOAおよび到来角は、ネットワーク内のロジックが、携帯装置の場所を推定するために各基地局において受信した信号についてのデータを相関させるよう、携帯機器がネットワーク基地局に信号を伝送する際に最も適合する。三角測量は、内部であっても外部であってもよい。携帯装置は、少なくとも3つの外部伝送器(IEEE802.11基地局等)から信号を受信した際に内部三角測量を実行し、受信した信号の特性に基づいておおよそのロケーションを計算する。外部三角測量は、携帯機器の外側にあるネットワークレシーバが、携帯機器から受信した信号の特性に基づいて携帯機器のロケーションを推定するために使用される場合に発生する。いくつかの実施形態において、システムは、外部レシーバからの携帯機器の距離を推定するために、1つを超える外部レシーバにおいて受信した信号強度を使用する。固定伝送器は、多くの場合、モバイルレシーバが所望の伝送器からの信号に「ロックオン」できるように特定の伝送器を識別するパイロット信号をブロードキャストする。固定伝送器のロケーションおよびおおよそのサービスエリアが既知である場合、携帯機器のロケーションは、「連絡が来る」伝送器がどれであるかに基づいて推定され得る。例えば、携帯装置がIEEE802.11無線アクセスポイントから信号を受信している場合、携帯機器は、無線アクセスポイントの300フィート以内(現在、IEEE802.11g伝送器のおおよその屋外範囲)にあると想定され得る。
携帯用文書データ取得装置
様々な実施形態においてシステムで使用される携帯データ取得装置は、本文書全体を通して様々な点で説明されている。この点から、様々なタイプの携帯データ取得装置の性能および機能について詳述するためのさらなる議論が提供される。
いくつかの実施形態において、データ取得機能を有する携帯機器は、ユーザが文書を一意に識別するために十分なテキストまたは他の情報を取得したことをユーザに示すことができる。携帯機器は、十分な情報がスキャンされたか否かを判定するために、スキャンされた情報量を所定の閾値レベルと比較することができる(この閾値法は、特にスキャナがコンピュータと通信を行っていない場合に有用である)。携帯機器がリモートコンピュータと通信を行っている場合、リモートコンピュータはテキストがスキャンされた文書が識別されたことを示すメッセージをデバイスに送信することができる。携帯機器は、画像を取得するための画像取得装置、画像を処理するためのプロセッサ、データおよび/またはロジック(ソフトウェアプログラム)を格納するための記憶装置、他のデバイスと通信を行うための入力/出力通信インターフェース、電源、スキャンされている情報を照らすための照明源、およびロケーションモジュールを有することができる。
いくつかの実施形態において、携帯データ取得装置によって取得されたテキストまたはシンボルは、ソフトウェアプログラムまたはある一定の所定アクション(データを記憶装置から消去する、オン/オフにする、金融取引を開始および/または完了する等)をスキャナに実行させるために、デバイスの制御ロジックまたは制御ソフトウェアによって制御コマンドとして使用され解釈されることができる。
いくつかの実施形態において、紙の文書からデータを取得した後、携帯データ取得装置は紙の文書の1つ以上の電子副本が認識された、またはその位置を特定されたことをユーザに示す。携帯機器がリモートコンピュータと通信を行っている場合、リモートコンピュータは、テキストがスキャンされた文書の電子副本に位置が特定されたことを示すメッセージを携帯機器に送信することができる。メッセージの受信を受けて、携帯機器は、電子副本の位置が特定され、ユーザはスキャンを停止してよいことをユーザに示す。多くの可能性の中でも、表示は視覚的(例えば、発光素子(LED)、ディスプレイ等)、聴覚的(例えば、スピーカ、ポケットベル等)または触覚的(触覚への刺激)であってよい。
いくつかの実施形態において、携帯データ取得装置は、ロケーションおよび/または時刻決定機能を有し、どこでおよび/いつ取得が行われたかについてのロケーションおよび/または時刻情報を取得されたデータとともに格納することができる。時刻情報は、特定のデータ取得イベントに関連するタイムスタンプであってよい。ロケーション情報は、特定のデータ取得イベントに関連するロケーションスタンプであってよい。
いくつかの実施形態において、携帯スキャナ等の携帯データ取得装置の動作は、速度、繰り返し、方向等のスキャンの特性によって制御される。また、スキャナ内の制御プログラムまたはロジックは、商標シンボル等の特別なシンボルに応答してよい。これらの特別なシンボルは、携帯機器によって実行される特定のアクションまたはプログラムに関連してよい。
いくつかの実施形態において、スキャナ等の携帯データ取得装置は、記憶装置に格納された課金/サブスクリプション/装置識別子情報を有する。サブスクリプション情報は、例えばプリペイドアカウント等、識別された文書の電子コピーへのユーザのアクセス権を検証するために使用することができる。課金情報は、識別された文書の電子コピーへのアクセス料を支払うために使用することができる。装置識別子は、ユーザIDの検証を支援するためのセキュリティ特徴として使用することができる。
いくつかの実施形態において、携帯データ取得装置は、インクペンおよび/または物理的な蛍光ペンと組み合わせられる。この組み合わせにより、ユーザが紙の文書および電子文書において同時に注釈入力またはハイライトすることが可能となる。また、いくつかの実施形態は、紙の文書にデジタル署名を追加するために、インクジェットプリンタ等の印刷機構を組み込む。
入力/出力
携帯データ取得装置は、情報および命令を入力および出力するための様々な手段を含む。ユーザ、通信サービスプロバイダ、リモートネットワークデバイス、および取得された情報は、情報および命令(操作命令等)の潜在的ソースの一部である。
ユーザインターフェース
いくつかの実施形態において、ユーザインターフェース(UI)は、携帯データ取得装置とのユーザのインタラクションの主な手段である。情報および制御コマンドは、ユーザインターフェースを通じて携帯データ取得装置へ入力される。ユーザはユーザインターフェースを通じて携帯データ取得装置と情報をやりとりする。ユーザは、UIを介して携帯データ取得装置に制御コマンドおよび情報を提示する。同様に、ユーザはUIを介して携帯データ取得装置から情報を受け取る。例えば、ユーザは、デバイス上のキーパッドを通じてテキストを入力し、デバイスのディスプレイ上でキーパッドエントリの視覚的確認を受け取ることができる。
入力
データを入力するためのUI手段は、大きく分けると、聴覚、触覚、ジェスチャおよび光学という4つのカテゴリで説明できる。様々な実施形態において、携帯データ取得装置はこれらのカテゴリの一部または全部からのUI手段による様々な組み合わせを有する。
聴覚
聴覚UIは、スピーチ等のサウンド信号を携帯データ取得装置に入力する手段からなる。音信号の電気エネルギーへの変換には、マイクロホン等の音声‐電気トランデューサが必要である。携帯機器は、デジタル化された波形として格納すること、伝送すること、またはテキストに変換し、デジタル化されたテキストとして格納することを含む、音信号に対する多くのアクションを実行することができる。
マイクロホン
いくつかの実施形態において、携帯機器はスピーチを取得するためのマイクロホンを含む。この特徴は、ボイス注釈を文章に入力するため、メッセージを記録するため、および他のユーザと話すため(例えば、データ取得装置が携帯電話機能を有する場合)に有用である。
触覚(接触)
いくつかの実施形態において、携帯データ取得装置は、機械的または触覚(接触)的入力を受け入れる。いくつかの実施形態において、携帯データ取得装置は、ユーザが押下できる、データ取得プロセスを開始するスイッチを含む。チップスイッチのある実施形態において、ユーザは紙にデバイスを押し付けてスキャンプロセスを開始する。他の実施形態において、携帯データ取得装置は、スキャンターゲットへの近接を検出するためにセンサを用いる。
ジョグ(サム)ホイール
ジョグホイールは、いくつかのコンピュータマウス上のホイールと同様に、コンピュータアプリケーションまたはメニューと情報をやりとりするために有用である。例えば、いくつかの実施形態において、システムは隣接するディスプレイ上にスキャナユーザに対する選択肢のメニューを提示する。携帯スキャナを紙から持ち上げてメニュー項目の1つをスキャンせずに、ユーザはサムホイールを移動させてメニュー選択肢をスクロールさせることができる。
キーパッド
いくつかの実施形態において、携帯データ取得装置は、データをデバイスに入力するためのキーパッドおよび/またはボタンを有する。いくつかの実施形態において、取得装置は、選択を元に戻すまたは消去するための取り消しボタン、および、選択を確認する(例えば、購入を確認する)ための確認ボタンを有する。いくつかの実施形態において、取得装置は、コンテクストスイッチを示す、またはコンテクストを設定することを望むためのボタンを有する。例えば、第1の文書からテキストをスキャンした後、ユーザは、コンテクストボタンを押下することによって自身が第1の文書からのスキャンを終えたことを示すことができ、次に―コンテクストボタンを押下することによって―第2の文書からテキストをスキャンし、ユーザは自身のスキャンコンテクストが変更していることをシステムに通知する。
チップスイッチ/近似センサ
いくつかの実施形態において、携帯データ取得装置は、チップスイッチまたは近似センサを有する。ペン型のスキャナにおいて、チップスイッチは、スキャナの先端が文書に押し付けられた際に起動されるスイッチである。ユーザが紙にスキャナを押し付けることがどのくらい難しいかに基づいてスキャナがその挙動を修正できるように、チップスイッチは圧力感知機能を含んでよい。例えば、スキャナは(コンピュータおよび文書処理ソフトウェアと組み合わせて)紙にしっかりと押し付けられている場合、ハイライト機能を実行することができる。別の例として、スキャナは、紙にスキャナ先端を押し付け、チップスイッチを起動することによって、オン/オフを切り替えることができる。
顆粒/表面テクスチャセンサ
いくつかの実施形態において、携帯データ取得装置は、文書における表面変化を検出するために、平行な2つの顆粒/表面テクスチャセンサを有する。この種の入力センサの一般的使用法は、点字テキストを取得することである。平行な表面テクスチャセンサは、平行なセンサが伝播する相対速度/距離からセンサの角度を決定することができる。非接触光学センサは、携帯データ取得装置の実施形態での使用にとても適している、よくあるタイプの表面テクスチャセンサである。
ジェスチャ(運動ベース)
ユーザは、携帯データ取得装置に、それを使ってジェスチャすることによってデータおよびコマンドを入力することができる。デバイスは、スキャンヘッドの下を通過するデータを観測すること、運動センサにおける変化を監視すること、または、機械的運動感知手段によって、ジェスチャを検出することができる。
光学データの観測
表面および光学素子の下を通過するデータを観測することによって、携帯データ取得装置は、光学コンピュータマウスがするのとほぼ同一の手法で相対運動を計算することができる。デバイスの相対運動を解析することにより、デバイスは、デバイスを使ってユーザがどのジェスチャを行ったかを判定することができる。いくつかの実施形態において、レンダリングされた文書の表面におけるパターンを観測することによって、光学系が相対運動を検出することもできる。いくつかの実施形態において、携帯データ取得装置は、レンダリングされた文書の表面における絶対位置コードをチェックすることによって、絶対位置を検出することができる。
ジャイロ/加速度計運動センサ
いくつかの実施形態において、携帯取得装置は、速度または方向における変化を感知するために加速度計等の加速度センサを含み、それによって制御ジェスチャを決定する。いくつかの実施形態において、携帯取得装置は、運動およびジェスチャを検出するためにジャイロスコープを使用する。単一チップリングレーザジャイロスコープは、このタスクに特に適している。
機械的(ボールポイント、ローラー等)
いくつかの実施形態において、携帯データ取得装置は、転動体または光学的に符号化されたインクペンのボールポイントと同様のボールを含む。紙の表面に沿ってボールが移動すると、光学センサは、光学的に符号化された要素の運動を検出する。
いくつかの実施形態において、携帯取得装置は、相対運動を記録するために、ボールポイント上に帯電したインクの流れを計測する。ボールに向かって流れるインクには、これらのプローブによって検出される電荷が与えられる。ボールペン筐体に埋め込まれた電流感知プローブは、ボール上のインクの流れを検出する。複数のプローブがある場合、インクの流れの方向―したがってボールの運動―および、その結果、表面にわたる実際の運動を推論することができる。この帯電したインク技術は、運動が留意され記録されている間、汎用入力記録装置―ユーザは従来のインクで書き込む―としての役割を果たすことができる。ボールがその筐体から現われる境界、またはその付近にあるガードリングを使用して、レシーバを流れ出る帯電したインクだけがセンサにわかるように、帯電したインクの放電をすることができる。
光学素子
ユーザは、光学感知システムによって、携帯データ取得装置にデータおよびコマンドを入力することができる。
スキャナ/撮像システム
キーワードまたはシンボルをスキャンすることによって、ユーザはコマンドおよびデータをデバイスに入力することができる。携帯機器は、ある特定のグラフィカルシンボルをコマンドとして認識するようにプログラムされることができる。例えば、ユーザが「$」というシンボルをスキャンした場合、携帯機器はそれを購入等の金融取引を開始するためのコマンドとして認識する。
出力
携帯データ取得装置のUIは、情報をユーザに提示することもできる。通常、この情報はデバイスの動作ステータスにかかわるものである。情報をユーザに提示するためのUI出力手段は、大きく分けて、聴覚、触覚、および光学という3つのカテゴリに格納できる。携帯データ取得装置の実施形態は、これらのカテゴリの一部または全部からのUI出力手段の様々な組み合わせを有するであろう。
いくつかの実施形態において、携帯取得装置は、スキャン結果をホストコンピュータに伝送し、ディスプレイによって動作ステータスまたはモードをユーザに伝えることができる。ディスプレイは、携帯取得装置にオンボードであってよく、またはホストコンピュータに関連付けられてよい。いくつかの実施形態において、携帯機器は、有線または無線通信媒体を使用する。いくつかの実施形態において、ユーザは、ホストコンピュータに関連付けられたモニタを使用して情報を見ることができる。適合する有線接続の例としては、RS−232;PS/2;シリアル;USB;イーサネット(登録商標);トークンリング;プリンタ接続(例えば、IEEE1284);ファイヤワイヤ;RJ45(電話線);ホームプラグおよび光ファイバが挙げられる。適合する無線接続の例としては、イーサネット(登録商標)(例えば、IEEE802.11a,b,g);Bluetooth(商標);赤外線(テレビのリモートコントロール等のIrDA);およびウルトラワイドバンドが挙げられる。携帯機器は、ユーザと通信を行うために、聴覚的(例えば、圧電スピーカ)、触覚的(携帯電話の振動を含む)、または視覚的警告を使用することができる。
様々な実施形態において、UIは、エラーが発生し、ユーザは再スキャンすべきであること;別のデバイスへの通信リンクがオープンかつアクティブであること;携帯機器がオンになっていること;ジェスチャが検出されたこと;またはスキャナが現在どのモードであるかを示すことができる。例えば、いくつかの実施形態において、スキャンを繰り返す必要がある場合、スキャナは単純に振動する。
聴覚
多くの実施形態において、携帯データ取得装置は、ユーザに警報を提供する能力を有する。これらの警報は、電気信号を音に変換するために、スピーカ等の電気音響変換器を必要とする。
スピーカ
いくつかの実施形態において、携帯取得装置は、音を発生させるためのスピーカまたは圧電素子を有する。これらのスピーカを使用して、ユーザにテキストを読み聞かせる、またはデバイスのステータスの変更に対してユーザに警告することができる。例えば、いくつかの実施形態において、デバイスはスキャン中に、紙の文書が識別され、紙の文書の電子副本の位置が特定されたことをユーザに警告するためにビープ音を発する。別の例として、テキストが紙の文書からスキャンされる際、取得装置は、スキャンされたテキストにテキストトゥースピーチプロセスを適用し、結果として生じた音声を再生する。
触覚
いくつかの実施形態において、携帯データ取得装置は、振動によりユーザと通信を行う。触覚UIは、環境雑音レベルのために警報が聞こえない環境、または警報が社会的に許容不可能な場所(例えば、映画館の中)において特に有用である。
振動
いくつかの実施形態において、携帯データ取得装置は、デバイスのステータスの変化をユーザに警告するための振動素子を有する。いくつかの携帯電話実施形態において、この振動素子は電話機の電池パックに含まれる。いくつかの実施形態において、携帯機器は、スキャンヘッドがオフラインで移動する場合、車線の外側をドリフトしていることを運転者に警告する「ランブルストリップ」と同様に振動する。
光学素子
いくつかの実施形態において、携帯データ取得装置は、UIを介し視覚的手段でユーザと通信を行う。いくつかの実施形態において、デバイスは、スキャンされている紙にメニューまたは他の情報を投影する。例えば、取得装置がコンピュータ上の文書処理プログラムと連動している場合、デバイスは、文書処理プログラムにおいて、システムがオープン文書内でスキャンされたテキストを黄色でハイライトすることを示すために、紙に黄色の光を投影することができる。
ディスプレイ
携帯データ取得装置はディスプレイを含むことができる。場合によっては、隣接するディスプレイは、携帯機器のための情報がディスプレイに至り、そこに示されるように、携帯データ取得装置と関連付けられる場合がある。コンピュータモニタ等の隣接するディスプレイを使用することは、携帯機器がディスプレイを有さない場合、または、情報が携帯機器の小型ディスプレイに提示するのに適合しない場合に特に役立つ。
LED
ユーザと視覚的に通信を行うために、発光ダイオード(LED)を使用することもできる。例えば、いくつかの実施形態において、デバイスは、取得装置がオンになり、データを取得する準備が整ったことを示すために、緑色LEDを起動する。
他のデバイスとの通信
携帯データ取得装置の通信インターフェースは、携帯データ取得装置が他のデバイスと通信を行うのを可能にするトランシーバを含む。携帯データ取得装置は、コンピュータ、携帯電話、および無線トランシーバ等、他の互換性のある電子デバイスと通信を行うことができる。
有線
いくつかの実施形態において、携帯取得装置は、有線接続を使用して他の電子デバイスと通信を行う。コンピュータにテザー接続されている場合、適合するいかなるプロトコルを使用して通信を行ってもよい。いくつかの実施形態において、携帯取得装置は、テザー接続を介してホストコンピュータと通信を行うために、ユニバーサルシリアルバス(USB)プロトコルを使用する。
USB
ユニバーサルシリアルバス(USB)は、いくつかの実施形態において携帯データ取得装置によって使用されるプロトコルである。いくつかの実施形態において、コンピュータと携帯取得装置との間の通信チャネルを提供することに加えて、USBは携帯機器のバッテリを再充電するための電力を提供する。いくつかの実施形態において、USBインターフェースはユーザが携帯取得装置にUSB記憶装置デバイスを取り付けることを可能にする。
光ファイバ
光ファイバ通信チャネルは、携帯データ取得装置のいくつかの実施形態によって使用されてもよい。異なる実施形態に適合するファイバタイプは、シングルモードとマルチモードである。マルチモードファイバの1つの利点は、安価なLED光源の使用が可能であることである。コネクタカップリングおよび配置も、マルチモードファイバにとってはあまり重大ではない。
無線
いくつかの実施形態において、携帯機器の通信インターフェースは、無線インターフェースである。適合する無線技術は、短距離RF(Bluetooth、IEEE802.11等)、携帯電話、または光学素子(赤外線等)である。通信インターフェースが無線機能を含む場合、一般に、無線機能を実装するために必要なアンテナまたはレンズも含む。
WLAN、移動電話、BT等
いくつかの実施形態において、携帯データ取得装置は、IEEE 802.11規格のトランシーバを用いた、無線ローカルエリアネットワーク(WLAN)機能を実装する。携帯機器は、一般にWLAN「ホットスポット」を使用して、リモートコンピュータとの通信を行う。いくつかの実施形態において、携帯データ取得装置は、携帯電話またはパーソナルコンピュータのような隣接する装置との通信を行い、またそれらと組み合わせるために、Bluetooth(BT)の短距離無線周波(RF)手法を使用する。携帯データ取得機能を実装する携帯電話はまた、リモートコンピュータに取得したデータを伝送するために、携帯電話通信ネットワークも使用することができる。
データ取得サブシステム
携帯データ取得装置は、データ取得サブシステムを備える。このデータ取得サブシステムは、音声、光学、および/または磁気帯データを取得する機能を有する。取得したデータは、以降の処理および送信のために記憶装置内に格納される。いくつかの実施形態において、取得した情報は、記憶装置の空間および通信チャネル帯域幅を節約するために、圧縮および/または自動的に削除することができる。自動削除の一例では、OCR処理によって取得した情報が文字に変換されたときに、スキャンされた画像を削除している。取得した情報の全てを含まない画像を格納することによって、記憶装置を節約することができる。その例として、GIFまたはJPG等の圧縮フォーマットが挙げられる。別の方法では、不必要な色情報を格納しない。例えば、一般的なCCD画像センサでは、各ピクセルに対して、24段階の色情報を取得する(すなわち、1,600万以上の異なる色を識別する)。標準的なOCRのために、携帯取得装置では、白、ほぼ白、ほぼ黒、および黒の識別(2ビット)ができればよい。この24から2ビットへの削減によって、およそ92%の記憶領域のスペースが節約される。
音声
携帯データ取得装置は、光学データ取得システムを備えているが、いくつかの実施形態において、音声取得サブシステムは多くの状況において有用である。音声取得サブシステムによって、ユーザは、一般にレンダリングされた文書からテキストを読み出すことができる。まず、オンボードマイクロホンが、話された言葉を取得する。続いて、スピーチ−テキストアプリケーションが、スピーチをテキスト形態に変換する。次いでそのテキストは、例えば、レンダリングされた文書の電子副本の位置の特定に使用される。いくつかの実施形態において、データ取得は、携帯電話または以下に述べるスキャノテータ(scannotator)である。
光学データ取得サブシステム
いくつかの実施形態において、携帯データ取得装置は、光学データ取得サブシステムを備える。光学データ取得システムは、一般に画像センサおよび光学経路を備える。光学経路は、携帯機器の筐体内のアパーチャを通っている。いくつかの実施形態において、光学要素は、携帯機器の筐体の一部を含む。光学経路は、光の焦点を合わせるためのレンズまたはアパーチャ、および/または光学経路を保護するための透明なカバーを備えることができる。いくつかの実施形態において、画像ルートは、光学経路の一部であり、レンダリングされた文書から画像センサに光を導く。
いくつかの実施形態において、携帯スキャナは、アパーチャの後ろにその画像センサを備える。いくつかの実施形態において、アパーチャは、画像センサおよび装置の内部の光学経路をほこりおよび損傷から保護するように、透明なカバーを備える。いくつかの実施形態において、カバーは、プラスチックまたはガラス製である。形態スキャナがレンズを備えている場合、そのレンズは、一般にアパーチャから紙の一部分まで距離を、アパーチャから画像センサまで距離に応じて変化させられるように、焦点を合わせることができる。この関係は、1/f=1/u+1/vで表される(ここで、fはレンズの焦点距離、uはアパーチャから文書までの距離、vはセンサからアパーチャまでの距離である)。いくつかの実施形態において、携帯スキャナは、複数の合焦レンズを使用する。
いくつかの実施形態において、光学系は、ユーザがレンダリングされた文書の方へ携帯取得装置を移動させたときに、データを取得することができる。レンダリングされた文書に携帯機器が接近したときのデータを取得することによって、携帯機器に広い視野を提供することが可能であるので、取得の視覚的なコンテクストに関する更なる情報を提供することが可能である。このタイプの光学系を備えた携帯スキャナでは、スキャナが文書の表面に接触する前であっても、スキャナは文書からデータを取得する。ある場合には、スキャナが文書に接近するときにデータを取得することによって、ユーザは、1行のテキストに沿ってなぞるのではなく、その場所に触れるかまたは軽くたたくことによって、その紙と情報をやり取りすることが可能になる。ユーザは、一行のテキストに沿ってスキャンするのではなく、テキストを指示す(「触れる」)。
光取得サブシステムの構成
光取得サブシステムは、様々な構成により実装され、それぞれが特定のアプリケーションに対して特定の利点を有する。
一次元センサアレイ
いくつかの実施形態において、光検出要素は、一次元の線形センサアレイである。一次元アレイは、光情報を取得する1列のセンサで構成されている。一次元アレイは、いくつかのバイオメトリックアプリケーション、特に指紋スキャンに適している。いくつかの実施形態において、センサは、電荷結合素子(CCD)または相補型金属酸化膜半導体(CMOS)装置のいずれかである。しかし、あらゆる好適な光検出装置と置き換えることができる。
二次元センサアレイ
二次元センサは一次元アレイに類似しているが、センサ要素の列は、互いに2次元の同一平面上のオフセットを有する。二次元アレイは、それらが距離、スキャン角度、およびスキューに関する情報を生成するという利点を有する。いくつかの実施形態において、二次元アレイは、少なくとも平行する2行または2列のセンサ要素から構成される。しかし、二次元センサアレイでは、多くのトポロジの変化が起こりうる。
光学センサ要素の二次元アレイは、文字アーチファクト、(先端、アセンダ/ディセンダの垂直要素)、タイミング、およびロケーションの相関関係によって、動作およびデスキューを検出することができる。アセンダ/ディセンダは、平均テキストキャラクタよりもテキスト列の中央線のさらに上/下におよぶ、テキストキャラクタである。アセンダの一例は、文字「t」であるディセンダの一例は、文字「p」である。
処理ロジックは、光学的に取得されたデータの画像のスキューを決定することができる。例えば、ヘッドの角度は、印刷テキストの強い垂直要素と光学的に取得したデータとを相関させることによって、決定される。フォントに依存するが、強い垂直要素は、「abcdefghijklmnopqrstuvwxyz」で構成されるアルファベットからの、文字「bdhiklmnpqrtu」内に存在する。さらに、「y」は、垂直のストロークのない唯一のアセンダ/ディセンダである。また、デスキュー処理に使用することができる、残りのアルファベット文字の右端および左端に関連付けた垂直情報も存在する。
レンズ
いくつかの実施形態において、光学データ取得サブシステムは、光検出要素に光の焦点を合わせるためのレンズを備える。レンズ系は、二次元アレイ光センサへの非常に有用な追加物である。
光ファイバ画像ルート
いくつかの実施形態において、画像ルートは、光学取得システムの一部を形成する。いくつかの実施形態において、光ファイバ画像ルートは、情報を取得している面と接触している。いくつかの実施形態において、光ファイバ画像ルートは、スキャンされた面の上に配置され、より多くの周辺光がスキャン領域に入ることができる。この構成では、個々のファイバの許容する制限角が、画像ルートの先端が文書の表面からわずかに外れていても、高品質な画像が保証される。データ取得端(スキャンされた面に最も近い端)上の透明なプラスチックセパレータまたはキャップを備えた画像ルートは、光ファイバ画像ルート自体がスキャンされた面と接触しないので、周辺光がその表面を照らして、ユーザにスキャンされた材料の良好な視界を提供することができる、一実施態様である。画像ルートの先端と撮像される画像の表面との間の分離間隔は、一般に、0.001インチ乃至0.1インチである。画像ルートは、画像ルートがレンダリングされた文書に対して垂直に保持されていない場合であっても、データ取得を可能にするように形成することが可能である。いくつかの実施形態において、画像ルートは、くさび形の先端を有するように形成される。いくつかの実施形態において、光学経路を横切るように見る場合に、光ファイバの画像ルートは、透明または半透明であるため、ユーザは、その束を介してレンダリングされた文書を見ることができる。したがって、画像ルートは、光センサにスキャンした画像を搬送するための手段に加えて、ファインダーとしての機能を果たすことができる。
一般に、画像の搬送には、複数群の光ファイバを使用することが可能である。これらの光ファイバは、一次元アレイ、複数列のファイバ、または厳密に配置されていない複数の群または束のファイバ、のような単列のファイバであってよい。柔軟なブラシ様の多数のファイバを使用することもできる。ファイバが固定配置されていない場合、いくつかの画像を取得した時点での個々のファイバの一端と、センサ要素に接続された多端との間の関係は、製造時または使用中のいずれかにおいて、経験的に決定することが可能である。
外側ファイバの照明
概して、光ファイバ画像ルートは、周辺光を介して取得することができるが、いくつかの実施形態において、画像ルートファイバのサブセットのような光学要素は、光源から文書の表面に光を搬送することができる。これらのファイバは、基本的に、レンダリングされた文書の面を照明するための、小さなフラッシュ光としての役割を果たす。残りのファイバは、照明されたデータを取得し、画像センサに搬送する。一般に画像ルートの外側のファイバは、特に、文書の表面全体に容易に引き込まれるように、光ファイバ画像ルートが形成されている実施形態において、文書に光を搬送するために使用される。
CCD/CMOS光センサ
いくつかの実施形態において、携帯データ取得装置は、画像センサを備える。固体光学画像センサは、コンピュータディスプレイから情報を取得することができ、最新のデジタルカメラの主要なコンポーネントである。好適な画像センサの一例には、CMOS(相補型金属酸化膜半導体)画像センサが挙げられる。別の例には、電荷結合素子(CCD)画像センサが挙げられる。これらのすべての技術によって、一般にコンピュータチップは、センサのグリッドにわたる電気的な信号として、光を決定することができる。別の例には、線形配列の光感応フォトトランジスタが挙げられる。
不可視スペクトラム
いくつかの実施形態において、光学スキャンサブシステムは、不可視スペクトラムにおいて動作する。不可視スペクトラムにおける光検出能力によって、携帯スキャン装置は、UVまたはIR特性を有するインクで印刷された隠し制御シンボルを取得することができる。適切な「書き込み可能」領域を含む文書に関して、いくつかの実施形態において、携帯データ取得装置は、(例えば、化学的、熱的、または光学的に)この領域の読み出しおよび変更の両方を行うことによって、情報を残す。いくつかの実施形態において、携帯データ取得装置は、スキャナが確認できる特殊なインク(例、IR)を使用し、この文書または文書の一部がスキャンされたことを知らせる。
人間/機械に解読可能であること
いくつかの実施形態において、携帯データ取得装置は、人間および機械に解読可能なデータを取得する。人間に解読可能なデータの一例には、テキストが挙げられる。機械に解読可能なデータの例には、バーコード、アイコン、および隠しデータ(グラフィック内に埋め込まれたもの、不可視スペクトラムにおける特性を有するインクで書き込まれたもの等)が挙げられる。
ディスプレイからのデータ取得
いくつかの実施形態において、携帯取得装置はまた、ディスプレイ装置から直接読み出すこともできるので、ディスプレイ画面上での直接的な指示、ハイライト、抜粋、下線、コピー、ペースト、消去等に使用することができる。この機能によって、ユーザが文書を印刷し、印刷された版に携帯スキャナで直接作業を行い(場合により、動的な表示と情報のやり取りも行う)、そしてより新しい版を印刷する、といった強力な文書編集システムがもたらされる。この方法は、紙およびデジタルの両側面の最良の特長のうちのいくつかを組み合わせる。
画面からのデータ取得は、ディスプレイに示される画像を光学的に取得するか、または携帯機器がデータの取得を試みているディスプレイ上のロケーションを決定することによって達成することができる。ロケーション方法では、ディスプレイに関連付けた記憶装置、通常はビデオ記憶装置から画像を取り込む。いくつかの実施形態において、携帯機器は、ディスプレイに関連付けたコンピュータに、そのディスプレイ上の絶対ロケーションを報告する。次いでコンピュータは、その画面ロケーションにおいてそのビデオ記憶装置から示される情報を取り出す。ビデオ記憶装置内の情報は、携帯機器によって直接取得される画像の処理と同様に、OCRアプリケーションによって処理することができる。
バイオメトリック検出
いくつかの実施形態において、携帯取得装置は、セキュリティおよび権限付与のためのバイオメトリック(音声、指紋、網膜、DNA)情報を取得する。上述のように、一次元の線形光学アレイは、ユーザの指をアレイに通すことによって、指紋スキャナとして機能することができる。
磁気帯(クレジットカード)
いくつかの実施形態において、携帯データ取得装置は、一般的にクレジットカードに使用される磁気帯からデータを取得し、pコマース(購入)アプリケーションに特に有用である。
機能/動作の挙動
処理装置または他の制御ロジックは、携帯データ取得装置全体の動作を協調させる。通常、処理装置は、記憶装置内に格納されるプログラムによって動作する。処理装置の機能および動作の挙動に対する特定の関連性のうち、記憶装置は、光センサによって取得されるデータの取り込み、格納、および処理に関するプログラム命令を格納する。処理装置は、レンダリングされた文書の取得、格納、および処理のために、記憶装置から命令を取得することができる。
携帯データ取得装置の様々な実施形態における処理機能は、データの取得、特に画像データの処理、データ圧縮および他の画像操作、記憶装置に関連付けたキャッシングアルゴリズムおよび他の機能、通信、および暗号化/解読アルゴリズム等のセキュリティアプリケーション、に使用することができる。
いくつかの実施形態において、携帯データ取得装置は、ネットワークおよび関連付けたコンピュータと情報をやりとりするための様々なモードおよび状態を有する。例えば、いくつかの実施形態において、コンピュータおよび文書処理用ソフトで作業を行う場合、携帯スキャナは、紙の文書からスキャンされるテキストが電子文書においてハイライトされるハイライトモード、紙の文書からスキャンされるテキストに電子文書において下線が引かれる下線モード、紙の文書からスキャンされるテキストをカーソルの位置で電子文書に挿入するコピーモード等を有する。
ユーザは、ユーザインターフェースを介して携帯データ取得装置を制御することができる。例えば、ユーザインターフェースは、ユーザにメニューを示すことができるディスプレイを備えることができる。ユーザは、携帯スキャナのアクションを制御するメニューオプションの中から選択することができる。
携帯データ取得装置のいくつかの主なタスクには、レンダリングされた文書からのデータの取得、他の電子装置の制御、状態の表示、データ保護およびユーザのプライバシ、ネットワークデータのローカルキャッシング、キーワード処理、検索、およびOCRが挙げられる。
取得/スキャン
いくつかの実施形態において、処理装置は、光センサによって取得した画像を取り込み、もしあれば、どの文字が画像内に現れているのかを判断するために、従来の光学式文字認識(OCR)技術を実行することが可能である。
タイム/ロケーションスタンプ
いくつかの実施形態において、携帯データ取得装置は、特定のアクションが行われたタイムおよびロケーションの注記に使用される、タイムおよび/またはロケーションスタンプを作成する。例えば、ユーザが文書からテキストをスキャンするとき、携帯機器は、スキャンされたテキストに関連付けたタイムスタンプおよび/またはロケーションスタンプを作成する。携帯機器は、ホストコンピュータまたはサービスプロバイダのネットワークに、スキャンされたテキストとともにこのタイム/ロケーションを伝送して、スキャンに対するコンテキストを確立する。携帯機器は、ネットワークからのタイムシグナルが利用可能な場合に、タイムデータまたはネットワークタイムのために内部クロックを使用することができる。携帯機器のロケーションの判定には、GPSおよび他の多くの方法が利用可能である。いくつかの実施形態において、携帯機器は、タイム/ロケーションデータのための内部クロックおよびGPS技術を使用する。
ロケーション機能は、主にオンボードのGPS受信機において述べられているが、他の多くのロケーション技術を使用することができる。これらの技術のうちのいくつかには、強化観測時間差法(EOTD)、アシストGPS(A−GPS)、デファレンシャルGPS(DGPS)、到達時間差(TDOA)、到来角、三角測量、およびローカルトランシーバ・パイロット信号の監視が挙げられる。ネットワーク内のロジックが、携帯機器の位置を推定するために、各基地局で受信した信号に関するデータを相関させることが可能なように、携帯機器がネットワーク化された基地局に信号を伝送する場合に、EOTD、TDOA、および到来角は最適である。三角測量は、内部または外部のいずれかであってよい。いくつかの実施形態において、携帯機器は、少なくとも3つの外部トランスミッタ(IEEE 802.11の基地局等)から信号を受信したときに、内部三角測量を行い、受信した信号の特徴に基づいておおよそのロケーションを計算する。外部三角測量は、携帯機器の外部のネットワーク化された受信機が、携帯機器から受信した信号の特徴に基づいた携帯機器のロケーションの推定に使用された場合に生じる。外部三角測量の一例では、外部受信機から携帯機器までの距離を推定するために、少なくとも1つ以上の外部受信機における受信信号強度を使用する。固定送信機は、移動受信機が、所望の送信機からの信号に「ロックオン」可能なように、特定の送信機を識別するパイロット信号をしばしばブロードキャストする。固定送信機およびおおよそのサービスエリアのロケーションが分かっているので、携帯機器のロケーションは、どの送信機が「聴取」しているのかに基づいて推定することができる。例えば、携帯機器がIEEE 802.11の無線アクセスポイントから信号を受信している場合、その携帯機器は、その無線アクセスポイントの300フィート以内(現在のIEEE802.11gの送信機のおおよその戸外の範囲)にあるとみなすことができる。
取得したデータを介した制御
取得したデータは、上述の一義化および電子副本のロケーションに加えて、様々な用途に使用することができる。いくつかの実施形態において、携帯データ取得装置は、スキャンされたデータを介して制御およびプログラムされる。ユーザは、プレーンテキストからの、またはマップキーに類似するコマンドの印刷されたメニューからのコマンドでスキャンすることができる。例えば、ユーザは、次の取得したデータを制御コマンドとして扱わなければならない、携帯スキャナを通知する、特殊なアイコンをスキャンすることができる。次いでユーザは、携帯機器に予めコマンドに関連付けたアクションを実行させる、この例では、Fredに電話をするという、「Call Fred」のようなコマンドをスキャンする。同様に、いくつかの実施形態において、携帯機器は、それ自体によってスキャンされた場合(文字の一部としてではなく)に、ユーザが、pコマースでの購入取引を始めたい旨を示す、「purchase」という単語を認識するようにプログラムすることができる。
いくつかの実施形態において、携帯機器は、ユーザによって描画される制御シンボルを認識する。したがって、ユーザは、単に所望のアイコンまたは単語を描画することによって、あらゆる紙の上にコマンドメニューを作成することができる。いくつかの実施形態において、システムによって認識される制御アイコンには、「$」(pコマースでの購入の開始)、「!」(ハイライトモードに入る)、および電話器のアイコン(以下の番号が、ダイヤルするか、またはアドレス帳に格納することができる電話番号であることを示す)、が挙げられる。
この文書の他の場所に述べられる、携帯機器がキーワードをスキャンするときの挙動は、取得された制御データを用いて利用可能な、挙動の一部である。
ジェスチャを介した制御
ユーザが、携帯データ取得装置と情報のやり取りをするための直感的な方法は、その装置によるジェスチャによるものである。ユーザの経験は、所定のアクションおよび挙動を特定のジェスチャに関連付けることによって大きく強化される。これらのジェスチャのうちのいくつかを、それらの検出方法とともに、以下に述べる。
発明者らは、十分な長さの文字列を、プールからの文書または文書の「コーパス」を一義化するために使用することが可能であることを発見した。携帯用データ取得装置は、レンダリングされた文書内の特長の画像(テキスト、アイコン等)を取得する。画像は、オンボードの携帯用文書撮像装置によって(例えば、特長抽出技術を適用して)処理することができる。または、携帯用撮像装置と通信するコンピュータによって処理することが可能である。概して、取得された画像は、テキストフラグメント等の、英数字の連続的な文字列に対応する。システムは、紙の文書を識別し、その紙の文書の電子副本の位置を特定するために、テキストフラグメントを使用する。一般に、これは、少なくとも第1の所定の長さのテキストフラグメントを必要とする。レンダリングされた文書が一義化されると、紙の文書の電子副本と情報をやり取りすることが可能である。インタラクションは、ユーザに電子文書の写しを送付させることから、ソース文書に関連する追加的な内容の送付、文書マップ(マークアップ)情報の送付、電子副本の文書に関してナビゲートするためのソース文書の使用、電子副本の編集、複雑な金融取引の実行、まで様々である。これらのインタラクションは、コマンド入力装置として携帯用文書撮像装置を使用して達成されることが好ましい。そのユーザインターフェースが複数のコマンド入力を提供する携帯用文書撮像装置を備え、コンパクトなサイズを維持しながら、直感的に使用できることが望ましい。
いくつかの実施形態において、携帯用機器は、ユーザのジェスチャによって制御される。例えば、前進方向にテキストをスキャンすることによって、ユーザが、記憶装置にテキストを格納したいことを示すことが可能である。同じテキストを逆方向にスキャンすることによって、ユーザが、テキストを記憶装置から消去したいことを示すことが可能である。文書内のテキストの上を前後にラビングすることによって、ユーザが、その文書の電子コピー内のテキストのハイライトしたいことを示すことが可能である。システムによって、円動作、振動させる動作等の、携帯機器のアクションの制御に、多くのジェスチャを使用することが可能になる。スキャン処理の開始、ユーザが、特定の記事または文書からスキャン(したがって、以降のスキャンされたデータは、新しい記事または文書を形成する)を行ったことを示すシグナリング、ハイライト、直前のエントリの削除等の多数の挙動を所定のジェスチャに関連付けることができる。
発明者らは、文書が一義化される(したがって、文書内の以降のスキャンに対するコンテキストを設定する)と、より短いテキストフラグメントを使用して、文書内のロケーションを識別することが可能である、ということを見出した。これらの識別されたロケーションは、次いで、例えば、文書に注釈をつける、文書を編集する、または文書からの文字および/または画像の抽出、のような文書と情報をやり取りするためのアンカーポイントとして使用することが可能である。
いくつかの実施形態において、携帯用文書データ取得装置は、携帯用文書撮像装置がソース文書の表面を横切って移動するときに、画像データの一連のフレームを取得するように構成される。いくつかの実施形態において、携帯用文書データ取得装置は、所定の制限速度内で使用される場合に、少なくとも部分的に重なっている一連の画像を取得するように構成される。重なりの量は、一般に、計算されるフレーム間の相対的なX−Y動作を行うのに十分でなければならない。携帯用機器は、取得された画像データのフレームから特長を抽出するように構成される。携帯用文書撮像装置は、取得された画像を文字へ変換するために、光学式文字認識スキームを使用し、次いで、取得された画像データからテキスト文字列を構成するために、ステッチングアルゴリズムを使用することが可能である。または、テキスト文字列の表現を高めるために、互いにステッチングを行った画像データのフレームに字オフセット法を使用することが可能である。あるいは、相対的な位置を計算するために、画像データの逐次的なフレームのピクセル化における差異を使用することが可能である。テキスト文字列を生成するために光学式文字認識を使用する場合、そのテキスト文字列は、そのページに対して水平であっても垂直であってもよい。携帯用文書データ取得装置は、コマンド入力に、ソース文書に関連する携帯用文書撮像装置の所定の動作(ジェスチャ)を関連付ける、データベースに操作可能に接続される。携帯用文書データ取得装置は、ライブラリを組み合わせたジェスチャ/コマンド入力を予め構成するか、またはユーザによって訓練可能にすることが可能である。加えて、ジェスチャは、同じジェスチャが、例えばタイムフレームまたは文書内のロケーション等の、ジェスチャのコンテクストに基づいて、異なるコマンド入力を実行させるような、「オーバーロード」された状態とすることが可能である。
いくつかの実施形態において、ユーザは、取得するソース文書のテキストラインに沿って、左から右に携帯用文書撮像装置を移動させることによって、ソース文書の部分の画像を取得する。携帯用文書撮像装置は、最初に、ソース文書が一義化されているかどうかを判定する。ソース文書が一義化されていなかった場合には、画像データの取得されたフレームから文書の特徴を抽出し、ソース文書を一義化するために、抽出した特徴を次に使用するコンピュータに、抽出した特長を通信する。ソース文書がすでに一義化されている場合には、携帯用文書撮像装置は、文書の特徴を抽出し、文書内の位置を確立し、電子文書内の対応する領域/テキストを選択するために、抽出した特徴を使用する。
ジェスチャが、文書内のロケーションに関してどのようにオーバーロードされうるかという一例では、ソース文書の実質的に同じ領域上を左から右に携帯用文書撮像装置を2回移動させることによって、選択した領域内のテキストに下線が引かれる。同じジェスチャが、文書内のロケーションに関してどのようにオーバーロードされうるかという一例では、ソース文書の実質的に同じ領域上を左から右に携帯用文書撮像装置を3回移動させることによって、選択した領域内のテキストがボールド体になる。
いくつかの実施形態において、ソース文書の実質的にすべての予め選択された領域上を左から右に携帯用文書撮像装置を移動させることによって、前述のコマンド入力が取り消される。例えば、前述の、オーバーロードされた左から右への直線的なジェスチャによる場合、選択した領域上を左から右に携帯用文書撮像装置を1度移動させて、選択した領域をボールド体にしたユーザは、選択した領域内のテキストをホールド体から下線付きに変更させる。選択した領域上を右から左に携帯用文書撮像装置を1回移動させることによって、選択した領域内のテキストを最初のフォーマットに戻させ、右から左への移動を3度繰り返すことによって、選択した領域全体を非選択状態にさせる。
オーバーロードの有効な性質をさらに示すために、いくつかの実施形態において、ソース文書の予め選択した領域の一部の上を右から左に携帯用文書撮像装置を移動させることによって、予め選択された領域/テキストの部分が削除される。
ユーザは、例えば単一または複数のパラグラフのコピーまたは削除等のような、比較的大きなブロックのテキストとの情報のやり取りを望む場合がある。いくつかの実施形態において、ユーザは、左から右に携帯用文書撮像装置を移動させて、開始ロケーションを確立し、また左から右に移動させて終了ロケーションを確立することが可能である。携帯用文書撮像装置は、選択した領域の開始および終了を確立するために、テキスト文字列(または、その記号的な表現)を使用する。以降のコマンド入力は、次いで選択された領域に作用する。例えば、いくつかの実施形態において、ユーザが、開始ロケーションと終了ロケーションとの間で、携帯用文書撮像装置を「X」状に移動させた場合には、ソース文書の開始ロケーションと終了ロケーションとの間の領域が削除される。同様に、いくつかの実施形態において、ユーザが、選択した領域内で、携帯用文書撮像装置を前後に移動させながら、例えばジグザグ状にページを下に移動させた場合、選択した領域が削除される。ユーザが、選択した領域内で、携帯用文書撮像装置を下方に移動させた場合、選択した領域をハイライトすることが可能である。いくつかの実施形態において、ユーザが、選択した領域内で、携帯用文書撮像装置を円形に移動させた場合、選択した領域がコピーされる。
いくつかの実施形態において、ユーザは、円動作によってソース文書の領域を選択する。システムは、一般に電子文書内になければならないソース文書のフォーマットを実質的に保持するか、または、マークアップ文書内の翻訳情報を使用して、電子副本に紙の文書のレイアウトをマップする。携帯用文書撮像装置は、携帯用文書撮像装置が円パターンで移動したことを判定するために、画像データの一連のフレームから抽出した特徴を使用する。また、文字マッピングスキームを使用して、電子文書内の選択した領域のロケーションを判定するために、抽出した特徴を使用する。いくつかの実施形態において、異なるコマンド入力は、時計回りの円動作、および反時計回りの円動作に関連付けられる。
いくつかの実施形態において、携帯スキャナは、ジェスチャベースの制御を認識し、これに基づいて動作する。例えば、いくつかの実施形態において、携帯スキャナは、テキスト上に光センサを通過させて、テキスト内をスキャンし、次いでスキャナ内の記憶装置に格納する。テキストは、テキスト上に光センサを逆方向に通過させることによって、記憶装置から消去される。円形にスキャンすることによって、いくつかの実施形態において、ユーザは、スキャナのホストコンピュータ上の文書処理用プログラムにおいて、電子文書内の円で囲まれたテキストをハイライトすることができる。
検出動作
ジェスチャベースのコマンドを検出し、これに基づいて動作するために、携帯用文書データ取得装置は、動作を検出および解釈することができなければならない。動作を検出し、ジェスチャコマンドに動作をマップする様々な方法を以下に述べる。いくつかの実施形態において、携帯機器は、ジェスチャを識別するために、逐次的な画像取得の間の動作ベクトルを計算する。
いくつかの実施形態において、携帯スキャナは、動作が検出されたときは常に、ジェスチャの翻訳アプリケーションを起動する。動作を検出する1つの方法には、光学マウスとほぼ同様に、逐次的に取得した画像を比較するものがある。いくつかの実施形態において、第1の画像は、パターンのために分析される。処理装置は、この画像を記憶装置に搬送し、次いで背景とは異なるこの画像の部分を見つける(例、白い背景上に黒いテキストを識別する)。処理装置は、これらのパターンの位置がどこに決められたか、またそれらが何であるかを、記憶装置に記録する。処理装置は、次いで第2の画像をロードし、これらの元のパターンの検出を試みる。処理装置は、次いで、これらのパターンのロケーションが、どのくらい第1の画像から変化したのかを比較することが可能である。その差異は、ベクトルとして符合化される。この処理を繰り返すことによって、一連のベクトルを形成することが可能である。「点を結ぶ」のと同様に、これらのラインセグメントまたはベクトルは、動作シーケンスの跡をたどることができる。
いくつかの実施形態において、処理装置は、第1および第2の画像内のピクセル間(または、いくつかの代表的なピクセル間)のベクトルを見つけることができる。画像間のベクトルを計算するために、処理装置は、最初に水平軸に沿って、次いで垂直軸に沿って画像を比較して、第1の画像取得と第2の画像取得との間の期間中の、装置の移動経路を決定する。処理装置は、次いで、第1の画像のすべてのピクセルを1ピクセル分右に移動させる(いくつかのピクセルによってこの画像の一部ではない)。処理装置は、次いでこれらのベクトルを再計算する。これらのベクトルがより短い場合、処理装置は、ピクセル間の水平距離がなくなるまで、ピクセルを右に移動させ続ける。これらのベクトルがより長い場合、この処理装置は、ピクセルを左に移動させ始める。移動ベクトルの水平方向の構成要素が決定された後に、処理装置は、移動ベクトルの垂直成分を決定するために、垂直軸に沿った比較を繰り返す。処理装置が、移動ベクトルの水平および垂直成分を計算したとき、第1の画像と第2の画像との間の相対的な線形動作は公知である。
対象とするジェスチャの判定
いくつかの実施形態において、動作ベクトルの計算は、どのジェスチャが対象とされたかを判定するための試みに従う。このステップの複雑さは、どのジェスチャ分類が存在するかに左右される場合がある。例えば、スキャナが、例えば後方等の1つのジェスチャだけを認識する場合、分類の試みは、動作のあらゆる垂直成分を考慮する必要がない場合がある。スキャナが後方へのジェスチャだけを認識するような、いくつかの実施形態において、複数のベクトルを、本願明細書に説明されるように、単一の代表的なベクトルに置き換えることが可能である。例えば、ユーザが水平方向の完全なスキャンを試みるが、代わりに垂直方向の振動が少ない場合、スキャナは、このユーザが、水平方向のラインを対象としており、無数のベクトルを1つの水平方向のベクトルに置き換えることを、判定することが可能である。
前方および後方
携帯用データ取得装置によるジェスチャの直感的かつ基本的な方法では、テキストのラインに沿って前後方向にスキャンする。いくつかの実施形態において、携帯用データ取得装置は、スキャンされたテキスト画像を、格納した文字テンプレートと比較することによって、テキストのラインに沿った前後方向の動きを認識する。一例として、アルファベットを使用するとき、スキャンされた文字がテンプレートと一致する場合、スキャナは右から左(前方)へ移動している。スキャンされた文字がテンプレートの鏡像である場合、スキャナは右から左(逆方向)に移動している。いくつかの実施形態において、前後方向の動作は、前述のベクトル法で決定される。
サークル
携帯用データ取得装置によるジェスチャの別の直感的かつ基本的な方法では、テキストの領域を円で囲む。いくつかの実施形態において、サークルジェスチャは、前述のベクトル法によって識別される。いくつかの実施形態において、携帯機器は、円動作を検出するために、絶対位置情報を使用する。1つの方法では、例えば、符号化されたグリッドが印刷された文書から絶対位置情報が得られる。装置によって撮影される画像には、文書面に対する装置の動作を判定するために使用することができる、絶対位置情報が含まれる。
ベクトル法を使用する場合、1つのベクトルがこれまでに別のベクトル、特に第1の開始点を横断したかどうかを判定するために、プロセッサは、動作ベクトルを互いに加算する。これらの円形ジェスチャ検出技術は、横断があるかどうかを判定するために、ベクトルが使用され、次いで、当該の横断が実際に生じたかどうかを判定するために、絶対位置分析が使用される場合に組み合わせることができる。
図8は、ユーザが、サークルジェスチャを行ったことを検出するために、システムによって一般に実行されるステップを示すフロー図である。ステップ800で、システムが新しい基本的なジェスチャを検出したときに、これらのステップを開始する。ステップ810で、システムは、このジェスチャがそれ自体と交差しているかどうかを検出する。図9は、サークルジェスチャを実行におけるユーザの試みのいくつかの例を示す。第1のジェスチャ900は、910で交差する。この例では、この動作の開始および終了が互いに交差しているので、交点として検出することが可能である。第2のジェスチャ920は、円であると判定されうるジェスチャを示す。ジェスチャの開始と終了は、930で互いに最接近している。いくつかの実施形態において、この距離は、交点であるとみなされる許容可能なマージン以内にあるとすることが可能である。第3のジェスチャ940は、円とみなすことができないジェスチャを示す。いくつかの実施形態において、(いくつかの実施形態では、この状態であっても許容するようにプログラムされている場合があるが)2つの最接近位置950、960を交差しているとみなすには離れすぎている場合がある。このジェスチャがそれ自体と交差した場合、この円を検出する処理は、システムが垂直成分であるとみなす、図8のステップ820に引き継がれる。このジェスチャがそれ自体と交差しなかった場合、この繰り返しは、新しいジェスチャを待つ状態に戻る。いくつかの実施形態において、垂直成分は、このジェスチャがラビングジェスチャではなく、ユーザが円として解釈させたくない可能性がある、ことを確認するものとみなすことが可能である。いくつかの実施形態において、垂直成分は、ジェスチャ中に到達する最高点と最低点との間の差とすることが可能である。いくつかの実施形態において、この段階は、この差と閾値を比較することによって判定することができる。垂直成分が、閾値を満たすには十分大きくないか、または閾値を超えている場合、この処理は、そのジェスチャが円ではないと判定する。この成分が閾値を満たした場合、システムは、水平成分を考慮することが可能である、ステップ830に引き継がれる。水平の評価は、垂直の評価に類似して実行される。ジェスチャが、これらの3つの基準(交点、垂直、水平)のすべてが満たした場合、システムは、ステップ840で、それを円として分類する。これらの基準のうちの1つが満たされなかった場合、処理は、ステップ800に戻って新しいジェスチャを待つ。
ラビング
テキストの文字列を横切って前後にラビングすることは、携帯用画像データ取得装置の制御に使用することが可能な、別の直感的かつ基本的なジェスチャである。いくつかの実施形態において、ラビングまたは前後のジェスチャは、ハイライトコマンドとして解釈することが可能である。例えば、ユーザは、前方へのジェスチャによる一連のスキャンを行い、ラビングジェスチャによって1つのスキャンターゲットを指定することが可能である。それに応じて、スキャナは、以降の検索において文字がハイライトされる(例えば、「ラビング」されたテキストが明るい色のフィールド上にある)ように、ラビング動作によって識別された文字にフラグをたてることができる。別の実施形態では、前方へのジェスチャで示されたテキストに、下線を引くことが可能である。
図10は、ラビングジェスチャを検出するために、システムによって一般に実行されるステップを示すフロー図である。ここで述べられるように、ラビングジェスチャは垂直の上下動作である。しかし、テキストの文字列を横切って水平方向に前後にラビングする場合がある。図10に示される処理において、新しい基本的なジェスチャは、ステップ1000において開始される。ステップ1070で、他の場所に述べられているように、システムは方向を検出する。ステップ1020で、システムは、方向変更を検出する。ステップ1030で、システムは、それが直前の動作の方向の逆であるかどうかを確かめるために、方向変更を評価する。いくつかの実施形態において、逆とは、直前のベクトルの終点から170°乃至190°(180°が正反対の方向である)の位置である、新しいベクトルとして定義される。
この新しい方向が逆ではない場合(いくつかの実施形態では、スキャンの終了を含む)、次いでシステムはステップ1000に引き継ぎ、新しいジェスチャを待つ。この新しい方向が逆である場合、次いでシステムはステップ1040に引き継ぎ、別の方向変更を検出する。システムは、ステップ1040から、この新しい方向が第2の方向の逆であるかどうかを判定する、ステップ1050に引き継ぐ。第3の方向の動作が、第2の方向の逆である場合、システムは1060に引き継ぎ、ラビングジェスチャに関連付けられた所定の挙動を行う。
消去のための後進
いくつかの実施形態において、前方へのスキャンによって、スキャナは、スキャンした情報を記憶装置に格納させる。このスキャンまたはその一部が、後方へのジェスチャによって続けてスキャンされる場合、後方にスキャンされたこの部分は記憶装置から除去される。一例として、図11は、文書1120を横切って後方(右から左)1110に移動するスキャナ1100を示す。以前の前方へのスキャンによって取得され、記憶装置に格納されたテキストを、ボックス1130で示す。ボックス0は、後方へのスキャンによって取得された「第1」の文字である、最も右の文字とともに、後方にスキャンされたテキストを示す。ボックス0内にあるテキストが、後方へのスキャンによって取得されたときに、各文字は、予めスキャンされた文字列と比較される。スキャナ1100は、後方へのスキャンのうちの第1(最も右)の文字と、前方へのスキャンのうちの最後(最も右)の文字とを比較し、後方へのスキャンによる文字が、スキャンされた文字列に一致しなくなるまで、同じ方法を継続する。スキャナは、前方へのスキャンに対応する位置でその文字と一致しない、後方へのスキャンにおける文字に遭遇した場合に、2つの文字列の比較を止める。比較を止めた後、スキャナは、記憶装置から一致する文字を削除する。
スキャンセンサが互いに各文字の画像のステッチングを行う方向を監視することによって、スキャナは、回文を検出し、それらを消去ジェスチャとして解釈されないようにする。システムは、スキャンが生じる方向を監視することによって、回文を検出する。前方(左から右)にスキャンされた回文は、逐次的な左から右への画像を互いにステッチングすることによって構成される、文字画像を有する。右から左(後方)のスキャンでは、文字の右側で開始する文字画像を取得し、左に移動する。英語の場合、この右から左への動きによって、最初の左から右へのスキャンの鏡像である画像をもたらす。回文文字は、鏡像ではないので、逆スキャンによって識別することができる。
ジェスチャおよびコンピュータモニタ
いくつかの実施形態において、ジェスチャコマンドは、コンピュータディスプレイにレンダリングされた文書に使用することができる。例えば、ユーザは、テキストを挿入するロケーションを識別するために、コンピュータモニタ上でキャレット(「^」)スキャンのジェスチャを行うことが可能である。この例では、スキャナは、コンピュータと通信を行い、示されたロケーションでテキストを挿入するためのコマンドとして、キャレットジェスチャを認識する。それに応じて、コンピュータは、最後の前方へのスキャンによるテキストを挿入する。
いくつかの実施形態において、スキャナは、マウス、ジョイスティック、または他のポインティング装置に類似した方法での、コンピュータとの情報のやり取りに使用することが可能である。例えば、スキャナは、垂直に押し下げることによって、ジョイスティックとし機能することが可能である。ユーザが、傾斜または移動によって、所与の方向にこのジョイスティックを移動させるとき、これらの動きは、スキャナ画像における変化として反映される。例えば、スキャナが前方に傾いた場合、画像センサは、反対方向へ進む一連の画像を記録することが可能であり、それぞれがより多くのスキューを有する。これらの画像の移動またはスキュー部分をどのようにマップするかによって、スキャナは、それがどのくらい移動したのかを決定することができる。これらの動作は、次いでコンピュータに通信することが可能である。更なる一例として、ユーザは、コンピュータポインティングアクセサリとして携帯用スキャナを使用することによって、コンピュータモニタ上で文書を通してスクロールを行うことができる。
他の装置の関連付けおよび制御
いくつかの実施形態において、携帯用データ取得装置は、他の電子装置を制御すること、(例えば、コンピュータディスプレイを使用することによって)それ自体のユーザインターフェースを強化するために他の電子装置を使用すること、および、例えばスキャンされたデータを入力できるようにすることによって、他の電子装置のユーザインターフェースを強化すること、ができる。
レンダリングされた文書からタイトルまたは他の識別子をスキャンすることによって、(必要に応じて)コンテクストを確立した後、携帯機器は、スキャンによって所望される動作を知らせるために使用される。例えば、ユーザは、VCR+コードのスキャンに従って、テレビガイドとして文書を識別するコードでスキャンすることによって、ユーザのビデオレコーダ(VCR)をプログラムすることができる。VCR+コードは、IR通信によってVCRに通信を行い、VCRにそのコードに関連付けられた所定のアクションを実行させる。
特にBluetooth、USB、またはIEEE 802.11接続を備えた装置に近接するスキャナは、プログラムの挙動の定義にも使用することができる。電子レンジの近くにある冷凍食品のパッケージのスキャンによって、適切な調理時間を設定することが可能である。自動車においては、アドレスをスキャンすることによって、スキャナは、その自動車のオンボードナビゲーションシステムを、そのアドレスにプログラムすることができる。
別の装置のユーザ制御インターフェースは、携帯用データ取得装置の機能によって強化することができる。本質的には、携帯用データ取得装置は、紙から情報をスキャンすることによって他の装置を制御する。一般的なシステムにおいて、携帯機器は、BluetoothTMを組み合わせた別の装置の命令に、スキャンされた情報を変換する。
隣接する装置との関連付け
いくつかの実施形態において、携帯データ取得装置は、ホストマシンと組み合わされる。ホストマシンは、コンピュータ、携帯情報端末(PDA)装置、または、携帯電話またはBlackberryTMテキストメッセージング装置のような、移動通信装置であることが好ましい。認証およびセキュリティ情報の交換は、携帯機器とホスト装置との間の組み合わせ処理の一部である。携帯機器は、現在組み合わせられていないホスト装置との情報のやり取りに先立って、認証およびセキュリティプロシージャを実行する。セキュリティプロシージャは、バイオメトリック認証のようなユーザ識別プロシージャを任意に含むことができる。
図12は、隣接するデバイスを携帯スキャナと関連付けるための一システム構成のブロック図を示す。携帯装置1218は、携帯スキャナの機能1210を組み込むか、またはこれと情報をやりとりすることが可能である。携帯スキャナ1210は、ある人物による持ち運びが便利なように設計されたスキャナであり、2、3の可能性を挙げると、ペン型のデバイス、マウス、リモートコントローラ、携帯電話等がある。携帯スキャナ1210は、携帯機器1218との通信に使用することが可能な、短距離通信機能(例、BluetoothTMのような短距離RF、USBのような短距離ワイヤーライン等)を備えることが可能である。スキャナは、システムが知っている他の当該のスキャナの間でスキャナを一意に識別する、ユーザIDコード1222を含む。
携帯機器1218の例には、ラップトップ型、ノートブック型、またはサブノートブック型コンピュータ、携帯情報端末(PDA)のような携帯型コンピュータ、または、携帯電話または他の無線電話等が挙げられる。いくつかの実施形態において、スキャナ機能1210および携帯機器1218は、同じ装置である。
携帯スキャナ1210の1つ以上のスキャンによって、場合により他の情報とともに取得された情報は、ネットワーク1202に通信され、そこからコンテンツのロケーションおよび検索サービス1206に通信される。いくつかの実施形態において、この情報は、コンテンツリクエスト/ロケーション/検索アクションを開始させることが可能である。スキャンのうちの少なくとも1つからの情報は、例えば、新聞、雑誌、フライヤ、書籍、マニュアル、パンフレット、ラベル、または広告等の、印刷されたソースに由来するものであってよい。スキャンのうちの1つ以上からの情報は、例えば、テキスト、バーコード、アイコン、シンボル、または電子ディスプレイからの他の情報等の、電子的またはデジタル的に表示される情報に由来するものであってよい。
携帯機器1218は、ネットワーク1202に、より長距離の通信機能を提供する。当該の通信の例では、(例えば、ダイヤルアップモデムを使用する)標準的な公衆交換電話網、デジタル加入者回線、非同期デジタル加入者回線、ケーブルモデム、イーサネット(登録商標)、広域LAN技術、IEEE 802.11のような無線LAN技術、および無線携帯電話技術を備える。
ネットワーク1202は、通信交換、ルーティング、およびデータの記憶機能を備える。ネットワーク1202は、とりわけ、システムのコンポーネント間で情報を送り、伝播させる。ネットワーク1202は、インターネット、イントラネットまたはイントラネット、ワイヤーライン、および/または無線ネットワークの一部を備えることが可能である。
デバイスデータベース1204は、携帯スキャナ1210、およびいくつかの実施形態において、および/またはいくつかの条件下で、携帯機器1218に関連付けることが可能なデバイスに関する情報を有する。いくつかの実施形態において、デバイスデータベース1204は、デバイスアドレスを有する装置識別子の関連付けを提供する。デバイスデータベース1204はまた、サポートされたコンテンツタイプを有する装置識別子の関連付けを提供することも可能である。いくつかの実施形態において、デバイスデータベース1204は、1つ以上のリレーショナルデータベース、インデックス、マップテーブル、拡張ドメインネームサービスを含む。
デバイス接続1208は、携帯スキャナと、入出力(I/O)、記憶領域、または処理装置との間の接続を有する。いくつかの実施形態において、デバイスデータベース1204およびデバイス接続1208は、例えばコンテンツ検索1206等の他の機能によって、別々にアクセスすることが可能な、相異なる機能である。いくつかの実施形態において、デバイス接続1208およびデバイスデータベース1204は、共通の機能コンポーネントに組み込むことが可能である。
コンテンツ検索1206は、とりわけ、デバイス情報およびデバイス接続情報を取得するために、デバイスデータベース1204およびデバイス接続1208と通信する。いくつかの実施形態において、デバイスデータベース1204および/またはデバイス接続1208は、ネットワーク1202等のネットワークを使用して、コンテンツ検索1206と通信することが可能である。
デバイスデータベース1204、デバイス接続1208、およびコンテンツ検索1206は、「サービスプロバイダ」を含むことが可能である。サービスプロバイダは、クライアントのリクエストの達成における、情報および/またはサービスのネットワークアクセス可能なプロバイダである。サービスプロバイダは、サブスクリプションベースの、広告にサポートされた、ペイパー使用の、および/またはペイパー取引による、コンテンツおよび/または通信サービスの利用を提供することが可能である。
コンテンツ検索1206は、コンテンツロケーションおよび検索機能を備える。コンテンツは、少なくとも1つのテキスト、デジタル音声、または音楽、または1つ以上のデジタル画像またはビデオである。コンテンツ検索1206は、携帯スキャナ1210によってスキャンされた情報に対応する、関連する、および/またはこれによって識別されるコンテンツの位置を特定する。
コンテンツ検索1206は、ネットワーク1202と通信して、位置を特定されたコンテンツをI/O、記憶領域、または携帯スキャナ1210に関連付けられた処理装置に提供する。
関連付けられた装置は、とりわけ、画像/ビデオレンダリングシステム1212または音声レンダリングシステム1214であってよい。いくつかの装置(例、組み合わせ装置1216)は、音声、および撮像/ビデオシステム1212、1214の両方を備えることが可能である。当該の組み合わせ装置1216の例には、ラップトップ型コンピュータ、デスクトップ型コンピュータ、テレビ、マルチユーザのコンピュータシステム、またはキオスクが挙げられる。
携帯スキャナ1210と関連付けることが可能な他の装置には、データ記憶装置1220またはプリンタが挙げられる。データ記憶装置1220の例では、コンピュータハードディスク装置、携帯フラッシュ記憶装置、携帯音楽および/またはビデオおよび/またはe−ブックプレーヤ(例、携帯コンテンツプレーヤ)、および光記憶媒体を備える。ラップトップ型、デスクトップ型、またはネットワークベースのコンピュータまたはコンピュータ群のような、計算リソースはまた、スキャナ1210に関連する処理機能を強化するために、携帯スキャナ1210に関連付けることも可能である。
コンテンツが配信されるデバイスの識別は、関連づけられたデバイスの装置識別子の受信を伴うことが可能である。装置識別子は、スキャナ1210またはスキャナに関連付けられた携帯機器1218によって提供することが可能である。装置識別子の例には、バーコード、一意の装置製造番号、インターネットプロトコル(IP)アドレスのようなネットワークアドレス、英数字コード、または一意のデバイス名が挙げられる。
いくつかの実施形態では、関連づけられたデバイスのネットワークアドレスが必要であるが、関連づけられたデバイスの識別子は不要である。システムは、関連づけられたデバイスの機能の完全な情報が無くても、機能することが可能な場合がある。他の場合には、機能を推定することが可能である。例えば、デバイスが、ウェブブラウザを介して通信セッション識別子をリクエストし、続いてスキャナが、そのデバイスに通信セッション識別子をサブミットする場合、そのデバイスは、そのデバイスからスキャンされたセッション識別子を有する可能性がある。
いくつかの実施形態において、1つ以上のデバイスは、それらがスキャナを識別する一意のユーザ(またはデバイス)IDに関連付けられるように、スキャナのユーザによって「登録」される。例えば、スキャナのユーザが所有するラップトップ型コンピュータは、スキャナの一意のユーザよび/またはデバイスIDに関連付けられた「デバイス#1」として登録することが可能である。(したがって、関連づけられた装置識別子は、単一のユーザによって限られた数のデバイスが登録されたと仮定すると、非常に簡単になりうる。)関連づけられたデバイスは、(例えば、ラップトップが新しいロケーションに移動され、インターネットとの新しい接続を確立する場合に、ネットワークアドレスを頻繁に変更する場合があるので)現在のネットワークアドレスをサービスプロバイダに自動的に登録する、ロジックを備えることが可能である。これによって、サービスプロバイダで新しいセッションを開始するときのユーザの作業が簡素化される。これは、ユーザは、関連付けられたデバイスの識別子だけをスキャンすればよく、また関連付けられたデバイスをルックアップするために、サービスプロバイダにコマンドを自動的に通信し、その現在のネットワークアドレスを取り込み、指示されたデバイスに以降のシステムの応答を通信することによるものである。さらに、サービスプロバイダに公知のすべてのデバイスの中で一意である、一組の識別子を作成および維持する必要が無いので、サービスプロバイダのシステムの管理が簡素化される。サービスの各ユーザは、冗長な製造番号のような、より複雑な装置識別子を適用する(およびその後適用する)ことを必要とせずに使用される、あらゆるデバイスを簡単に登録することが可能である。
さらに、所与のスキャナ(および/またはユーザ)に関連付けられたデバイスの小さなドメインからデバイスを選択することによって、所望のデバイスを識別するための代替方法の使用が可能になる。例えば、デバイスは、選択されたアイコンをスキャンすることによって、またはスキャナによって相異なるジェスチャを実行することによって、識別することが可能である。
装置識別子は、それをスキャンし、次いでコンテンツロケーションおよび検索1206(サービスプロバイダ)システムに通信することによって、提供することが可能である。いくつかの実施形態において、システムは、携帯スキャナ1210によってスキャンできるように、装置識別子を表示装置上に出現させる。ユーザは、装置識別子の、デバイスに添付された製造番号からのスキャン、デバイスに添付されたバーコードからのスキャン等が可能である。関連づけられたデバイスの識別子は、スキャナ1210によるコンテンツリクエスト/ロケーション/検索アクションを備える、またはその前に提供することが可能である。
いくつかの実施形態において、システムは、1つ以上のデバイスが携帯スキャナ1210のロケーションに隣接しているので、それらのデバイスを、少なくとも部分的に、携帯スキャナ1210と関連付けるために、1つ以上のデバイスを選択する。いくつかの実施形態において、システムは、GPS衛星位置情報を使用して携帯スキャナ1210のロケーションを識別し、複数のRFトランシーバを使用して三角測量された情報を識別し、および/または携帯スキャナ1210が使用する、またはこれに隣接する、Wi−Fiまたは他の無線アクセスポイントのロケーションを識別する。
いくつかの実施形態において、システムは、位置を特定されたコンテンツタイプ(例えば、テキスト、ビデオ、または音声)の特徴を調査することによって、また隣接するデバイスの候補がそのコンテンツタイプのレンダリングをサポートするかどうかを判定することによって、携帯スキャナに関連付ける1つ以上のデバイスを選択する。
いくつかの実施形態において、関連づけられたデバイスのための識別子は、関連づけられたデバイスのネットワークアドレスの識別に使用される。装置識別子は、システムに公知の他のすべてのデバイスからそのデバイスを識別する一意のIDであってよい。または、装置識別子は、スキャナ1210に関連付けられた一意のユーザおよび/またはデバイスID1222と組み合わせて、システムに対して、そのデバイスを一意に識別する機能を果たすものであってよい。ネットワークアドレスは、他の可能なものの中で、IPアドレス、MACアドレス、URL(Uniform Resource Locator)、またはデバイス名、あるいは、情報が送信される特定のデバイスとなるような、ネットワーク1202によって識別される識別子を含むことが可能である。
いくつかの実施形態において、システムは、携帯スキャナ1210がデバイスに関連付けられている限り、携帯スキャナを使用するある人物による専用の関連付けられたデバイスを構成することによって、関連付けられたデバイスに位置を特定されたコンテンツを配信する。スキャナ1210を使用している人物による排他的アクセスのための関連付けられたデバイスの構成は、公衆または半公衆の環境において特に重要である。
いくつかの実施形態において、システムは、アクセスが関連づけられたI/Oまたは記憶装置によって制御される情報へのアクセスとともに、携帯スキャナ1210および関連づけられた携帯機器1218を提供する。当該の情報の例には、場合によりキーワード定義、文書インデックス、テーブル、およびOCRおよび/または音声認識を容易にするパラメータを含む、スキャナ1210の機能を可能にする、および/または容易にする情報が挙げられる。
図13は、スキャン装置とサービスプロバイダを関連付ける一般的なクエリーセッションを示すブロック図である。この例では、セッション指向のアプリケーションは、ウェブブラウザである。
携帯スキャナ1210は、ディスプレイ1302を備えるコンピュータシステムと情報をやりとりし、情報を取得する。コンピュータシステムの例には、デスクトップ型、ラップトップ型、またはPDA、あるいは、携帯電話または他の無線電話が挙げられる。コンピュータシステムは、ウェブブラウザ1304ロジックを備える。ウェブブラウザ1304は、サーバーを有するネットワークを介して、一般に通信する。サーバーは、とりわけ、ウェブサーバ、CGIスクリプトサーバー、プライベートネットワーク(イントラネット)サーバー、またはワイヤーラインまたは無線電話サポートネットワークのサーバーを備えることが可能である。
ウェブブラウジングセッションは、セッション識別子(セッションID1306)によって特徴づけることが可能である。セッションID1306は、ブラウザ通信セッションを一意に識別するコードである。セッションID1306の例には、HTTPセッションIDおよび他のプロトコルセッションIDが挙げられる。いくつかの実施形態において、ウェブブラウザ1304は、サービスプロバイダ1308に属するウェブサイトを指定しているURLから、ウェブページをロードするように命令され、サービスプロバイダ1308は、ウェブブラウザ1304からのリクエストに関連付けられたネットワークアドレスを記録し、一意のセッションIDコード1306が表示されるウェブページを返す。サービスプロバイダ1308は、(例えば、デバイス接続データベース1208において)一意のセッションIDコード1306と、ウェブブラウザ1304のアプリケーションを提供するデバイスのネットワークアドレスとの間の関連付けを記録する。
セッション識別子1306は、ブラウザ1304のユーザに表示することが可能である。ウェブブラウザ1304には、セッション識別子1306を表示することが可能なように、特定の機能を与えることが可能である。携帯スキャナ1210は、表示されたセッションID 1306コードをスキャンすることが可能である。スキャナ1210は、スキャナ1210がサービスプロバイダ1308と通信する1つ以上のネットワーク通信チャネルのうちのいずれかを使用して、一意のスキャナおよび/またはユーザID1222とともに、スキャンされた一意のセッションIDコード1306をサービスプロバイダ1308に通信する。これには、クエリーセッションを開始するための、サービスプロバイダ1308へのリクエストを含むことが可能である。以降のスキャンに対する応答(例、以降のクエリー)は、セッションID1306に予め関連付けられたネットワークアドレスで、ウェブブラウザ1304に通信される。いくつかの実施形態において、システムは、システムが適切に識別したユーザであり、関連付けられたデバイス1302を介してクエリーセッションを開始しようとするユーザに確認している、ウェブブラウザ1304上に表示することが可能な、クエリーセッション開始リクエストの確認応答によって応答することが可能である。ユーザがクエリーセッションを終了した場合、例えば、「終了セッション」アイコンまたはコマンドを、関連付けられたデバイス1302のディスプレイからスキャンし、現在のセッションを終了するために、サービスプロバイダ1308に通信することが可能である。サービスプロバイダ1308は、次いで、ディスプレイをクリアする(セッションにおいて以前に表示された、あらゆる潜在的に機密上重要な情報を除去する)ために、コマンドをウェブブラウザ1304に通信し、新しいクエリーセッションを開始するためにスキャンすることが可能な、新しい一意のセッションIDコード1306を表示することが可能である。同様に、所定の期間、サービスプロバイダ1308が受信するスキャナ1210からの通信がまったく無ければ、セッションを自動的にタイムアウトとして、同様に終了することが可能である。
クエリーセッション開始リクエストを通信した後に、携帯スキャナ1210は、印刷されたソースから情報をスキャンすることが可能である。
スキャンされた情報には、テキスト、バーコード、シンボル、および/または印刷されたソースの他の識別子を含むことが可能である。スキャンされた情報には、製品名、バーコード、会社名、ロゴ、商標、または製品の他の識別子を含むことが可能である。スキャンされた情報には、曲名、アーティスト名、作品集名、および/または音楽コンテンツの他の識別子を含むことが可能である。スキャンされた情報には、画像名、キャプション、見出し、および/または画像コンテンツの他の識別子、またはムービー名、出演者名、監督名、ディレクタ名、スタジオ名、製品名、またはビデオコンテンツの他の識別子を含むことが可能である。
場合により更なる情報とともに、少なくとも1つのスキャンによって取得された情報(スキャンされたセッションID1306を含む)は、コンテンツリクエストに組み込むことが可能である。スキャンされた情報は、1つ以上の通信において、サービスプロバイダ1308へ通信することが可能である。サービスプロバイダ1308は、少なくとも部分的に、コンテンツをブラウザ1304に戻すために、セッションIDコード1306を適用することが可能である。これによって、ウェブブラウザ1304は、携帯スキャナ1210のアクションの結果として通信されるコンテンツを受信することが可能となる。
通信されるコンテンツには、情報がスキャンされた電子版の印刷された文書、スキャンの情報に関連付けられたデジタル音楽、デジタル音声録音、音声ニュースまたは解説、音声製品情報、または他の録音された、または合成された音声、少なくとも1つのデジタル画像、デジタル写真、製品の画像またはビデオ、ニュース報道または解説のビデオ、または他のデジタル画像またはビデオ、が挙げられる。
図14は、スキャナ関連機器にコンテンツを提供するために、システムによって一般にデバイス間で実行されるインタラクションを示すアクションフロー図である。
インタラクション1402において、ウェブブラウザロジックを有するディスプレイ装置(例、デバイス接続および/またはデバイスデータベースを備えたシステム)は、一意のセッションIDを生成するために、サービスプロバイダにリクエストを通信し、一意のセッションIDは、ブラウザに関連付けられたネットワークアドレスとともに、デバイス接続データベースに記録される。インタラクション1404において、一意のセッションIDが生成され、その関連付けられたネットワークアドレスで、ブラウザに通信される。インタラクション1406において、一意のセッションIDは、その表示されたロケーションからスキャンされる。インタラクション1408において、クエリーセッション開始リクエストは、一意のユーザおよび/またはスキャナID、および一意のセッションIDコードを含む、サービスプロバイダへ通信される。サービスプロバイダは、デバイス接続データベースに記録されたネットワークアドレスを識別するために、インタラクション1408において発行されたリクエストに含まれる一意のセッションIDコードを適用し、クエリーセッションの確認応答は、インタラクション1410において、識別されたネットワークアドレスでデバイスに通信される。ブラウザは、クエリーセッションリクエストの確認応答を、スキャナのユーザに表示する。サービスプロバイダはまた、一意のセッションIDが現在スキャナのユーザによって「所有」されており、例えば、他の携帯スキャン装置がこのセッションIDに関連付けられない、デバイス接続データベースにおいて記録する。サービスプロバイダは、一意のユーザおよび/またはスキャナIDを、現在アクティブなセッションIDおよび関連付けられたネットワークアドレスに関連付ける。
インタラクション1412において、スキャナは、スキャンされた情報(REQ)をコンテンツ検索機能に通信する。コンテンツ検索は、スキャンされた情報に応えて提供するために、コンテンツを判定する。
いくつかの実施形態において、コンテンツのタイプは、インタラクション1414において、デバイスデータベースへ通信される。コンテンツタイプは、1つ以上のデバイスが現在アクティブにスキャナに関連付けられている場合に、どの関連付けられたデバイスまたはデバイス群が、コンテンツのレンダリングに最適であるのかを判定するために使用することが可能である。好適な現在利用可能なデバイスが無いコンテンツが識別された場合、その後に適切なレンダリングデバイスが利用可能になったときに、当該のコンテンツへのアクセスが可能になるように、当該のコンテンツへのリンクまたはコンテンツ自体をデータベースに格納し、ユーザの所定のアドレスに電子メールを送ることが可能である。
インタラクション1416において、デバイスデータベースは、コンテンツ検索に、関連づけられたデバイスアドレスまたはアドレス群、またはネットワークアドレスまたはアドレス群を通信する。インタラクション1418において、コンテンツ検索は、関連づけられたデバイスにコンテンツを提供する。
いくつかの実施形態において、システムは、印刷された文書のスキャンに応えて、システムによって配信される電子コンテンツ(音声、ビデオ、デジタル文書等)を格納するために、記憶装置をユーザのスキャナと関連づけることが可能である。例えば、記憶機能を有するデバイス(ハードディスク装置、書き込み可能なDVD、CD―ROM等を有するコンピュータ等)を一意に識別する識別子をスキャンすることによって、システムは、印刷された文書(携帯スキャナによって生じる)のスキャンに応えて、今後のコンテンツの配信が、対応する記憶装置に配信され、後の検索のためにアーカイブされるように、そのデータベースを修正することが可能である。
いくつかの実施形態において、システムは、ユーザのロケーション、およびどの隣接するデバイスが、ユーザの携帯電子機器に関連付けることが可能であるのかを判定する。システムは、携帯機器のオンボードのGPSを経由して、無線信号の三角測量によって、デバイスのサービスを行う通信ネットワークトランシーバのロケーションを決定することによって、ユーザにクエリーを行うことによって、または他の好適な方法によって、ユーザのロケーションを決定することが可能である。
いくつかの実施形態において、システムは、携帯スキャン装置とともに使用することが可能な、I/O機器の位置情報を有するデバイスデータベースを保持する。システムがI/O機器との関連付けのためのリクエストを携帯スキャナから受信するとき、システムは、携帯スキャナのロケーションを決定に、次いで、デバイスデータベースを参照することによって適切な候補を識別する。
いくつかの実施形態において、システムによって、ユーザは、デバイスと携帯スキャナとの関連付けをプリセットすることが可能になる。一例として、ユーザは、自分のスキャナからのコンテンツリクエストの受信者として指定された、自分のホームコンピュータを有するように所望することが可能である。これを達成するために、ユーザは、サービスプロバイダのウェブサイト二アクセスし、デバイスおよび、自分のスキャンされたクエリーに対する応答を受信するための、データリポジトリ(例、ホームコンピュータ)の識別子を手動で入力する。別様には、システムは、受信装置を自動的に識別するために、本明細書を通じて説明される様々なスキャン方法を使用する。
いくつかの実施形態において、公衆のキオスクは、動的なセッションIDを表示する。キオスクは、インターネットまたは企業内イントラネットのような通信ネットワークに接続される。接続は、ケーブルモデム、電話システム(PSTN、ADSL、DSL、移動体等)、無線ローカルエリアネットワーク(WLAN、IEEE 802.11等)、あらゆる他の好適なアクセス方法を介して行うことが可能である。セッションIDは、定期的であるが、新しいセッションIDがすべての新しいユーザに表示されるように、キオスクが使用される毎に変更される。キオスクを使用するために、ユーザは、キオスクによって表示されるセッションIDをスキャンする。セッションIDをスキャンすることによって、ユーザは、印刷された文書のスキャンの結果のコンテンツの配信のために、キオスクを自分のスキャナと一時的に関連付けたい旨を、システムに通知する。スキャナは、セッションIDおよびスキャナを認証する他の情報(製造番号、アカウント番号、または他の識別情報)を(おそらくは、携帯電話のショートメッセージサービス(SMS)メッセージのような、無線通信を介して)直接システムに通信するか、または通信ネットワークへのキオスクのリンクを使用することによって通信する。例えば、スキャナは、キオスクにセッション開始情報を(おそらくは、BlootoothTM等ののような短距離RFを介して)転送することによって、キオスクの通信リンクを適用することが可能である。キオスクは、次いで、そのインターネット接続を介して、サービスプロバイダのシステムにセッション開始情報を通信する。スキャナは、ユーザの携帯電話(Bluetoothを介してユーザのスキャナと組み合わせることが可能である)または他の無線通信装置を介して、セッション開始メッセージを通信することによって、サービスプロバイダのシステムと直接通信することが可能である(ここでの「直接」は、メッセージがキオスクを介して通過しないことを意味する)。
いくつかの実施形態において、システムは、デバイスがスキャナに関連付けられている期間(セッション)中に、スキャナに関連付けられたデバイスを他の人に使用させないようにする。この機能は、直前のセッションが終了する前に、他の人に公衆のキオスクを使用させないようにするのに特に有用である。インターネットカフェでのコンピュータの使用に関連するこの概念の一例として、ユーザは、キオスクのディスプレイからセッションIDをスキャンすることによって、(または、携帯スキャナ上のキーパッドまたはタッチスクリーンを介してセッションIDを入力することによって)セッションを開始することができる。また、システムは、そのデータベースにおいて、セッションIDとユーザのスキャナの製造番号(または、一意にユーザおよび/またはユーザのスキャナを識別する他の識別子)を関連付けるので、他のスキャナはセッションIDをスキャンできず、また、自分のセッション中にキオスクを使用することができない。スキャナは、(BluetoothTM、ドッキングステーションのような物理的に組み込まれたリンク等のような無線リンクを介して)ディスプレイに関連付けられたコンピュータと通信すること、または携帯電話等のような他の方法を介して、サービスプロバイダのシステムと直接(つまりコンピュータを介さずに)通信することが可能である。
いくつかの実施形態において、携帯スキャナの機能は、関連づけられた装置によって変化する。例えば、携帯スキャナが、光学式文字認識(OCR)機能を備えた隣接するコンピュータに関連付けられた場合、スキャナは、コンピュータにスキャンした画像データを通信することが可能である。一方で、関連づけられたコンピュータがOCR機能を備えていない場合、携帯スキャナは、テキストをサービスプロバイダに通信する前に、スキャンされた画像をテキストに変換するために、オンボードのOCR機能を適用することが可能である。
いくつかの実施形態において、スキャナは、スキャンではなく無線通信(例、BluetoothTMリンク)によって、コンピュータから通信セッション識別子を取得する。例えば、携帯スキャナがコンピュータによってBluetoothTM接続を行った後に、コンピュータは、ユーザが携帯スキャナでスキャンするためにコンピュータディスプレイ上に通信セッション識別子を表示するのではなく、Bluetooth接続を使用して通信セッション識別子をスキャナに通信することが可能である。
いくつかの実施形態において、システムは、携帯電子機器よりも優れたビデオまたは音声機能を備えた、他のデバイスを関連付けることによって、携帯電子機器のためのユーザインターフェースを強化する。例えば、空港で飛行機の出発を待っているサブスクライバは、テレビガイドおよび自分が見たい番組の通知を閲覧することが可能である。自分のコンピュータ上のウェブブラウザをサービスプロバイダのウェブサイトの閲覧に使用することによって、サブスクライバは、自分のラップトップ型コンピュータに通信される通信セッション識別子を取得することが可能である。テレビガイドから番組を識別する通信セッション識別子および情報をスキャンすることによって、サブスクライバは、ビデオコンテンツ(テレビ番組)の配信を望むロケーションとして、ラップトップ型コンピュータを識別する。システムは、コンテンツをラップトップ型コンピュータに送信する前に、サブスクライバが、そのコンテンツにアクセスするための適せるな許可を持っているかどうか(例えば、サブスクライバが、「ケーブルテレビ」サービスのサブスクリプションを有する、また、ビデオの配信にブロードバンドインターネットアクセスが必要な場合に、インターネットサービスプロバイダとのブロードバンドサービスサブスクリプションを有する、等)を確認することが可能である。
パーソナルコンピュータ
いくつかの実施形態において、携帯用文書データ取得装置は、パーソナルコンピュータ(PC)の動作を制御する。携帯用機器は、PCにソフトウェアを開始させる、および/または他のアクションを行わせる、データおよび命令をPCにサブミットする。例えば、コンピュータおよびLCDプロジェクタによってPower PointTMのプレゼンテーションを行う場合、ユーザは、Power PointTMのスライドの紙コピーをスキャンすることによって、コンピュータの動作を制御することができる。ユーザは、スライドから情報をスキャンして、コンピュータにスライドを進めさせる。携帯用機器はまた、レンダリングされた文書から、文書処理用ソフトウェア、ウェブブラウザ、および他のソフトウェアアプリケーションを制御するためにも使用することができる。ユーザは、携帯用機器を備えたパーソナルコンピュータを制御することによって、電子文書の編集、インターネット上での購入、およびメッセージの送信を行うことができる。
編集
いくつかの実施形態において、携帯用データ取得装置は、ホストコンピュータのデータ入力装置としての機能を果たす。携帯用機器およびホストコンピュータは、文書処理用ソフトウェアと組み合わせて、強力な文書編集システムを構成する。
文書編集システムは、コンピュータの文書処理アプリケーション内の文書のための編集コマンドとして、印刷された面上にユーザの動作を反映および/または解釈する。携帯用機器を用いて、ユーザは、文書処理用ソフトウェアに、ブックマーク、文字のハイライト/下線/太字化/イタリック体化、切り取り、コピー、ペースト、検索、保存、および印刷、のような様々な機能を実行させる。
いくつかの実施形態において、携帯用機器上のハイライトインジケータの色は、デジタルコピーに生じるハイライトの色を示す。いくつかの実施形態において、デジタルコピー、取得装置の状態等で現れる、ハイライトの色をユーザに示すために、有色光を紙上に反映させることができる。
VCR
いくつかの実施形態において、携帯データ取得装置は、ビデオ録画装置を制御することができる。例えば、携帯機器は、テレビガイドからデータを取得することによって、所定のテレビ番組を録画するようにビデオ録画装置をプログラムするためのコマンドを伝送することができる。いくつかの実施形態において、携帯機器は、赤外線(IR)通信によってビデオ録画装置にコマンドを伝送する。
状況インジケータ
携帯用データ取得装置のユーザインターフェースは、デバイスの現在の状態について、ユーザに通知することができる。このデバイスは、ユーザに視覚、聴覚、または触覚のインジケータによって通知することができる。より有用なユーザインターフェースの状態インジケータのうちのいくつかを後述するが、それらは可能性のあるものの包括的なリストではない。
十分なスキャンインジケータ
いくつかの実施形態において、携帯取得装置は、ユーザに、文書を識別するに十分な情報が取得されたことを示す。例えば、携帯用スキャナは、特定のスキャンが一意に文書を識別することを示す、所定の閾値を格納することが可能である。閾値に一致、またはこれを超えた場合、携帯スキャナは、ユーザインターフェースを介してユーザに、文書を識別するに十分な情報が取得されたことを示す。これらの所定の閾値は、発見的手法(すなわち経験則)、統計分析、または他の好適な方法に基づいて決定することができる。
携帯用データ取得装置は、ユーザインターフェースの視覚、音声、または触覚機能を介して、ユーザに、十分な情報がスキャンされたことを示すことが可能である。スキャンされた情報が所定の閾値に一致、またはこれを超えたと判定されると、デバイスのプロセッサは、情報のスキャンによって、文書を識別するに十分な情報がスキャンされたことをユーザに通信するよう、ユーザインターフェースに命令する。
いくつかの実施形態において、スキャンの「十分性」に対する様々な段階の信頼性を示す。例えば、赤色光が、十分なテキストが取得されていないことを示し、黄色光が、50%の確率で十分なテキストが取得されたことを示し、緑色光が、ほぼ確実に十分なテキストが取得されたことを示すようにすることが可能である。
十分性の判定方法
いくつかの実施形態において、システムは、書き込まれた表記の一意の文字の観察に基づいた、十分性の閾値を決定するために、発見的手法を使用する。大部分の文書は、10語足らずの単語(およそ20乃至50の文字またはシンボル)をスキャンすることによって、一意的に識別することができる。この発見的手法は、試験されるすべての言語にわたって保持される。4乃至10語の範囲のスキャンによって複製文書がもたらされるイベントにおいて、ユーザに、結果を絞り込むために更なる端号をスキャンするように促すことができる。
携帯機器における処理ロジックは、スキャンが、ソース文書を一意に識別しそうであるかどうかを判定することができる。いくつかの実施形態において、十分性の閾値は、直前のスキャンの観察に基づくパラメータ化された経験則である。例えば、スキャナは、8つの単語が一意であるようにプログラムすることが可能である(ここでの「単語」とは、スペース間の一連の文字である)。別様には、スキャナは、取得されたテキストが、すべてがそれぞれ3文字よりも多い、少なくとも6つの単語を有することを必要とする、十分性の閾値によってプログラムすることが可能である。別の方法では、特定の物理的な距離をスキャンした後に(例えば、4インチのテキストのスキャンは、標準的な幅のページ上の一連のテキストの半分以上である)、スキャンが一意であることを判定する。別の方法では、単語ではなく、スキャンされる文字に基づいて閾値を設定する(例えば、40文字以降にスキャンが一意となる)。他の方法として、スキャンの十分性は、検索エンジンにスキャンされたテキストを送信して、検索結果を受信することによって判定することができる。検索エンジンが一意の一致を返せば、スキャンは十分である。スキャンが一意であることを判定できる別の方法は、二次元バーコードのようないくつかの組み込まれたデータが見つかった場合に、一意に識別した情報を伝達するように設計することである。
コンテクストは、文書または文書内の特定のロケーションの識別に必要な、取得される情報の量に影響を及ぼす。システムが特定のスキャンに関して知るコンテクストが増えるほど、一意性に必要なフレーズが短くなる。既知の文書内で、システムは、その文書内で何が一意であるべきかを示す、サブインデックスを計算することができる。すなわち、システムは、文書内のすべてのテキストを知っているので、システムは、文字または単語のどの組み合わせが曖昧であるかないかを判定することができる。特定の文書において、曖昧ではないテキストをどのくらい取得しなければならないかは、文書内の総文字数、単語長、および、ある単語がその文書内で何回使用されているか、の関数である。数学的に表される、この関係の一実施形態は、十分性=f(総文字数、繰り返された文字数、単語長)で表される。
閾値法によって、携帯用データ取得装置は、ユーザに、取得したテキストが一意であるかどうかをリアルタイムで示すことが可能になる。
検索を検索エンジンにサブミットする方法を使用する場合、一意性は、1つまたはゼロヒット−すなわち、他のいかなるインデックス付き文書も検索クエリーに一致するコンテンツを持たない−によって判定する。
スキャンの十分性の判定に単語カウントの閾値を使用する場合、スキャンされた単語長は、文書または領域を十分に識別するに必要な単語数に影響を及ぼす。長い単語は、短い単語よりも概してより多くの一義化値を有する。したがって、「amalgamation」という単語は、「the」という単語よりも多くの一義化値を有する。単語長は、OCRの前であっても、文字列に空白があるかどうかを観察することによって、決定することができる。間に入る空白が無い多数の文字は、大きな単語を示し、おそらくは高い一義化値を有する。2、3文字で分離される多数の空白は、一義化値の少ない短い単語を意味する。
フォントのサイズ、色、および、フォントタイプに関する情報は、一義化に有用である。これらの特性を知ることによって、文書または領域の識別に必要とされる、テキストの量を削減することができる。
内蔵制御データインジケータ
いくつかの実施形態において、携帯用データ取得装置は、ユーザが文書に組み込まれた制御データに遭遇したときに、ユーザに通知する。例えば、携帯機器は、既知のキーワードに遭遇したときにユーザに通知することができる。別の例として、携帯用機器は、ユーザに、マークアップレイヤーによって文書内に定義されたアクティブな領域を通知することができる。更なる例として、デバイスは、不可視特性を有するインク(例、UV/IRインク)で組み込まれた制御データ、または二次元バーコードに遭遇したときに、ユーザに通知することができる。
コンテクストインジケータ
いくつかの実施形態において、携帯機器は、デバイスが現在のコンテキストを認識しているかどうか(例えば、ユーザが、現在既知の文書等の領域内で作業している文書のIDを、デバイスが知っているかどうか)をユーザに示す。コンテクスト「ロック」は、特にpコマースのアプリケーションに有用である。例えば、コンテクストインジケータは、どのカタログからアイテムを調べているかを、ユーザに通知することができる。したがって、適切なアイテムの適切なベンダーからの購入を確保する。いくつかの実施形態において、コンテクストインジケータは、レンダリングされた文書の名前または他の識別情報を表示する。
オンライン/オフラインインジケータ
いくつかの実施形態において、携帯機器は、オンラインまたはオフラインモードで動作していることを、ユーザに通知する。デバイスがオンラインである場合、デバイスは、ホストコンピュータまたはサービスプロバイダのネットワークへのアクティブな接続を有する。デバイスがオフラインである場合、デバイスは、現在他のシステムデバイスと通信していない。
データ取得インジケータ
いくつかの実施形態において、デバイスは、データを取得していること、それ以外ならば適切に機能していることを、ユーザに通知する。
エラーインジケータ
いくつかの実施形態において、デバイスは、ユーザにエラーを通知する。例えば、デバイスは、紙の文書が識別されたが、ユーザはその紙の文書の電子副本の利用が許可されていないことを、警告音を出してユーザに通知することが可能である。更なる例として、デバイスは、最後のスキャンを繰り返さなければならないこと、ホストコンピュータまたはサービスプロバイダネットワークへのアクセスが拒否されたこと、文書の配信が行われなかったこと(例えば、ユーザのライフライブラリアーカイブが、文書を受信/承認しなかった)、携帯機器の記憶容量不足、バッテリ容量の低下等を、ユーザに通知することができる。
ハイライトカラーインジケータ
いくつかの実施形態において、携帯機器は、どの色でハイライト機能を生成するのかを、ユーザに示す。いくつかの実施形態において、ホストコンピュータは、ディスプレイ上に、現在のハイライトモードの色を示す(例えば、黄色は、文書処理用ソフトウェアが黄色でハイライトしていることを意味する)。
セキュリティ/プライバシ
いくつかの実施形態において、携帯データ取得装置は、無許可の個人がそのデバイスを使用できない、データ伝送がプライベートである、およびユーザIDが商取引のために検証できる、セキュリティおよびプライバシ処理を有する。
いくつかの実施形態において、携帯機器は、ユーザのデータのプライバシおよびセキュリティを確保するために、暗号化処理を使用する。デバイスの記憶装置に格納されたデータは、他のデバイスに伝送されるデータとともに、暗号化することができる。加えて、ユーザは、他のデバイスと共有する情報の量および種類を制限するように、デバイスのプロファイルを設定することができる。いくつかの実施形態では、システムによって、ユーザは、すべての検索結果が携帯機器に返され、システムまたはサービスプロバイダのネットワークに格納されないように指定することができる。
いくつかの実施形態において、スキャナは、コンピュータ、PDA、または携帯電話のようなホストマシンに組み合わされる。システムは、ホストマシンの識別子(例、製造番号等)を携帯機器の記憶装置にプログラミングすることによって、特定のホストマシンによってのみ機能するように、携帯データ取得装置をロックすることができる。別の装置と通信する前に、携帯機器は、どのマシンがその割り当てられたホストであるかを確認するために、所定も記憶装置のロケーションを確認する。誰かが別のデバイスによってスキャナの使用を試みた場合、システム(または、そのスキャナ自体)は、新しい通信の組み合わせが動作する前に、ユーザに、自分のIDを検証/認証するように要求する。
バイオメトリックの使用
いくつかの実施形態において、携帯用データ取得装置およびその関連づけられたシステムは、セキュリティおよびプライバシのためにバイオメトリックを使用する。例えば、ユーザは、携帯機器で自分の指紋をスキャンすることによって、自分のIDを検証することができる。別の例として、いくつかの実施形態において、デバイスは、楕円形の曲線暗号化のための指紋スキャンを使用する等、プライバシのためのデータの暗号化のためにバイオメトリック情報を使用する。いくつかの実施形態において、携帯用機器は、テキストおよびバイオメトリックをスキャンするために、同じ光学経路を使用する。
オンライン/オフラインの挙動
いくつかの実施形態において、携帯用文書データ取得装置は、デバイスがオンラインか、オフラインかによって異なる挙動を示す。ホストコンピュータ、通信ネットワーク、またはデータ取得サービスプロバイダのネットワークのような他のデバイスと通信していない場合、デバイスはオンラインである。スキャナサービスプロバイダのネットワークとも称される、データ取得サービスプロバイダのネットワークは、ライフライブラリアーカイブプロバイダのような携帯用文書データ取得装置をサポートする、サービスプロバイダである。
いくつかの実施形態において、携帯機器は、それがオフラインの場合であっても、機能し続ける。ユーザは、それでも、レンダリングされた文書からデータをスキャンして、音声注釈の作成、文書の検索を行い、またpコマース取引を開始することができる。これらの機能(取引、注釈作成、および検索等)のうちのいくつかは、ネットワーク接続が復元されるまで完了されない。
オフラインの挙動の1つの形態は、文書が電子的形態において現在利用可能でない場合に生じる。したがって、文書から取得されるデータに基づいた検索は、不一致を返す。この場合、システムは、検索クエリーを保存して、文書が将来いくつかの時点で利用可能になるまで、定期的に再サブミットすることができる。システムはまた、電子副本が現在利用可能でないことを、ユーザに通知することもできる。
いくつかの実施形態において、携帯データ取得装置は、その後の検索のために、記憶装置内に、取得された未加工のデータ(画像または音声)を保持する。この機能によって、システムは、更なる処理のために、データを「取得されたものとして」回復することができる。例えば、ユーザがテキストを携帯スキャナでスキャンする場合、スキャンされた画像が記憶装置に保存され、OCR処理はスキャンされた画像上で実行される。画像がOCR処理によって認識できない場合は、更なる処理のために、ホストコンピュータまたはサービスプロバイダに未加工の画像データを送信することができる。いくつかの実施形態において、スキャンされた画像データは、新しいデータによって上書きされるまで、記憶装置内に保持される。例えば、デバイスは、記憶装置がいっぱいになるまで、未加工の画像および処理された画像(例、OCRされたテキスト)を保存し、その時点で、デバイスのいくつかの実施形態は、処理された画像だけを保存し、未加工の画像を上書きして、一般に処理された画像よりもさらに多くの記憶空間を使用する。
携帯機器は、オフラインモードの場合、ローカルにキャッシュされたデータにアクセスすることができる。また、いくつかの実施形態において、携帯データ取得装置は、いつホストコンピュータおよび/またはネットワークへの接続が利用可能になるのか、およびそれに応じて自動的に挙動が変化することを検出する。例えば、このオンライン/オフラインの検出を有する携帯機器は、接続が失われたときに、取得したデータの自動的なキャッシングをはじめることができる。
ローカルキャッシング
ユーザが必要とするであろう情報のローカルキャッシングによって、システムは、待ち時間を削減し、ネットワークの帯域幅を節約することができる。ローカルにキャッシュされた検索インデックス、キーワードライブラリ、マークアップ情報、およびフォントライブラリは、ユーザ経験およびネットワークの動作を強化する。フォントライブラリのローカルキャッシングによって、携帯機器は、それがオフラインモードであっても、テンプレートベースのOCRを実行することが可能になる。
いくつかの実施形態において、50%ものネットワークトラフィックが、同じ資料、特に最近発行された資料に繰り返しヒットするため、文書データ取得装置は、ネットワークトラフィックを削減するために、最近のスキャンの結果をローカルにキャッシュする。
ユーザのライフライブラリはまた、携帯機器に関連付けられたホストコンピュータにキャッシュすることもできる。ユーザのライフライブラリ内の文書を表すトークンは、携帯機器内にローカルにキャッシュすることができる。ユーザのライフライブラリをローカルにキャッシングすることによって、ユーザは、自分のライフライブラリをオフラインモードにすることさえできる。
いくつかの実施形態において、システムは、紙の文書を十分に識別するか、または電子副本の位置を特定するためのスキャンにどのくらいのテキストが必要であるかという表現を携帯機器にキャッシュする。このローカルキャッシュはまた、決まり文句、および平均的なテキストよりも一義化値の少ない決まり文句のリストも含むことができる。取得したデータが共通の表現または決まり文句を含む場合、最小の一義化の閾値が増加し、文書を十分に識別するために更なるテキストを必要とする。したがって、共通のフレーズは、文書を識別するためにスキャンしなければならないテキストの量を増加させる。これらの共通のフレーズをローカルにキャッシングすることによって、携帯機器は、その文書を識別するに十分なテキストが取得されたことを、ユーザに示す能力を強化する。
システムによってインデックスが付けられたことが分かっている、文書(例、新聞、雑誌等)のリストをローカルにキャッシングすることによって、スキャナは、オフラインモードであっても、コンテキストを知っていることを示すことができる。
いくつかの実施形態において、携帯機器がローカルにキャッシュされていないフォントに遭遇したとき、携帯機器は、そのホストコンピュータまたはサービスプロバイダから、適切なフォントライブラリをダウンロードする。
文書が識別されたとき、その文書に関連付けられたマークアップ文書は、スキャナにダウンロードすることができる。マークアップ文書のローカルなキャッシングによって、その文書に対するスキャナの挙動のローカルな判定が可能になる。
いくつかの実施形態において、システムは、ユーザが遭遇しそうな文書について、インデックスまたは他のデータを予めキャッシュする。例えば、いくつかの実施形態において、システムは、ユーザが新聞からデータをスキャンすることを予想して、毎朝ユーザの携帯スキャナに置かれる地方紙のために、インデックスおよびマークアップ文書をプッシュする。
フォントテンプレート
いくつかの実施形態において、携帯用文書データ取得装置は、フォントライブラリおよびフォントテンプレートをローカルにキャッシュする。フォントテンプレートは、そのフォントが認識された後に、デバイスにダウンロードすることができる。携帯用機器がアルファベットで各文字の一例を取得するまで待つ必要はない。システムがいくつかの取得された文字のフォントを認識した後、ローカルキャッシュ機能を備えたデータ取得装置に、フォントライブラリをダウンロードすることができる。システムは、フォントテンプレートを携帯データ取得装置にローカルにキャッシングすることによって、OCRの待ち時間を削減することができる。
インデックス
いくつかの実施形態において、システムは、携帯データ取得装置上の検索インデックスをキャッシュする。いくつかの実施形態において、システムは、ユーザが必要としそうなインデックスを予めキャッシュすることができる。例えば、システムは、携帯機器に地方紙の最新のインデックスを毎日予めキャッシュすることが可能である。
キーワードライブラリ
キーワードのライブラリは、携帯データ取得装置の好適な実施形態に、ローカルにキャッシュすることができる。キーワードをローカルにキャッシングすることによって、携帯機器は、キーワードの取得に応えて、その挙動をローカルに判定することが可能になる。挙動のローカルな判定は、携帯機器がホストマシンまたはサービスプロバイダのネットワークに接続されていない場合に、特に有用である。
マークアップ情報
いくつかの実施形態において、携帯データ取得装置は、文書のマークアップデータをダウンロードする。この機能によって、携帯機器は、文書からのデータ取得に応えて、その挙動のうちの少なくともいくつかのローカルな判断が可能になる。
キーワード処理
いくつかの実施形態において、携帯スキャナは、取得したデータ内のキーワードを認識して、キーワードのアプリケーションをサポートする。キーワードに応えて行われるアクションは、システムおよびキーワードを取得したレンダリングされた文書に関連付けられたマークアップ文書によって予め定められる。概して、グローバルなキーワードの定義は、システムレベルで保持され、ローカルなキーワードの定義は、マークアップ文書に保持される。マークアップ文書において特に定めのない限り、ローカルな定義は、グローバルな定義をオーバーライドする。
キーワードは、スキャナ(Apple ComputersTMの商標シンボルとして使用される、アップルアイコン等)または標準的なテキストによって識別される、特殊なシンボルとすることができる。例えば、カタログのような文書には、携帯機器に対する特別な意味を持つコマンドシンボルのメニューを含むことが可能である。キーワードに関連付けられた制御プログラムを実行するために、ユーザは、特殊シンボルのうちの1つをスキャンする。それに応じて、デバイスの処理装置は、そのキーワードに関連付けられた制御プログラムにアクセスして実行する。カタログの例において、特殊シンボルのうちの1つは、スキャナを介してカタログから商品を注文するために使用することができる、購入プログラムを開始することが可能である。ユーザは、注文する商品に関する情報をスキャンして、携帯スキャナは、インターネットと通信インターフェースとの間の接続を介して、カタログのベンダーに、販売の完了に必要なそれらの商品および他の情報(課金および配送情報等)を通信する。
検索挙動
いくつかの実施形態において、携帯用文書データ取得は、検索アプリケーションをサポートする。検索クエリーに対する入力は、特に紙の文書からの光学スキャンによって、レンダリングされた文書から取得される。
いくつかの実施形態において、システムは、検索語が紙の文書からのものであることを示すために、携帯データ取得装置から生じた検索クエリーにタグをつける。
データ取得を介した文書ID/ロケーション
システムは、レンダリングされた文書を識別して、そのレンダリングされた文書の電子副本の位置を特定するために、レンダリングされた文書から取得されたデータを使用することができる。システムは、文書のコーパスのインデックスを検索することによって、文書の識別および位置の特定を行う。システムは、検索エンジンまたは検索アプリケーションソフトウェアに検索クエリーをサブミットすることによって、検索を実行する。
検索クエリー
検索クエリーは、携帯データ取得装置内、またはネットワーク内に構成することが可能である。いくつかの実施形態において、検索クエリーのメッセージは、携帯機器の識別子を含む。
コンテクストを有する検索クエリー
検索に関するコンテクストは、検索結果の精度を高めることができる。いくつかの実施形態において、携帯用文書データ取得装置は、コンテクスト情報を含む検索クエリーをサブミットする。コンテクストは、ユーザの履歴から、ユーザの集団の総計的な過去の挙動から、文書の特性から、または検索の状況から、導出することができる。
時刻
検索語が文書から取得された時刻は、一義化のための有用なコンテクストである。例えば、検索クエリーが文書から取得された日付を検索エンジンが知っている場合、検索エンジンは、文書が取得されたデータのソースにはなりえないので、取得日時以降に発行されたあらゆる文書を無視することができる。いくつかの実施形態において、検索クエリーは、いつ検索文字列がレンダリングされた文書から取得されたかを示す、タイムスタンプを含む。
ロケーション
検索語が文書から取得されたロケーションは、一義化のための有用なコンテクストである。例えば、検索クエリーが文書から取得された地理的位置を検索エンジンが知っている場合、検索エンジンは、取得されたデータのソースにはなりえそうにないので、そのロケーションにおいて発行または配信されたあらゆる文書を無視することができる。いくつかの実施形態において、検索クエリーは、どの地理的位置において検索文字列がレンダリングされた文書から取得されたかを示す、ロケーションスタンプを含む。
ユーザの履歴(サブスクライバアカウントによる)
ユーザの履歴は、文書の識別および位置の特定のための有用なコンテキストである。例えば、毎朝Seattle Times紙から、および午後にEconomist誌からテキストをスキャンするパターンを有する場合、朝にサブミットされた検索クエリーは、Economist誌のものではなく、Seattle Times紙からのものである可能性がより高い。いくつかの実施形態において、システムは、ユーザの履歴に基づいて、検索クエリーをランク付けする。
統合的なユーザ集団のメタデータ
携帯文書データ取得装置の全ての使用の凝集挙動はまた、一義化のための有用なコンテキストを提供する。ユーザは、どちらかと言えば類似した文書から類似した情報をスキャンする。例えば、ユーザ集団が、最近、最新の小説Harry Potterから多数の検索クエリーをサブミットし、最新の書籍Sean Hannityからはサブミットしていない場合がある。したがって、検索クエリーが複数の一致を返す場合、ソース文書は、書籍Sean Hannityではなく、最新の小説Harry Potterである可能性がより高い。故に、いくつかの実施形態において、システムは、ユーザ集団の凝集挙動に基づいて、検索クエリーの結果をランク付けする。
検索クエリーの構築
いくつかの実施形態において、携帯機器は、紙の文書から逐次的なテキストを取得して、そのテキストに基づいて検索クエリーを構成する。検索クエリーは、次いで検索エンジンまたは他の検索ソフトウェアにサブミットされる。検索エンジンは、紙の文書の識別およびその紙の文書の電子副本を見つけるために、そのデータインデックスの検索を実行する。いくつかの実施形態において、携帯取得装置は、より多くの情報が紙の文書から取得されても、単に電子副本の識別に十分な情報をサブミットすることによって、通信帯域幅を節約する。無線帯域幅が制限されているので、これは、無線システムが必要な情報だけを送信することにおける利点である。いくつかの実施形態において、システムによって、ユーザは、デバイスのキーパッドからより多くのテキストを入力することによって、検索クエリーの修正または強化を可能にする。
部分的な単語の一義化
いくつかの実施形態において、携帯用機器およびシステムは、部分的な単語の一義化をサポートする。テキストがレンダリングされた文書から取得される場合、ユーザが単語の境界上で取得を開始および終了することを困難にする。取得された文字列の始めと終わりの単語は、概して省略される。検索インデックスは、因習的に全ての単語から構成されているので、部分的な単語では、従来の検索アプリケーションに対する価値がほとんどまたはまったく無い。しかし、これらの省略された、または「部分的な」単語は、それでも大きな一義化値を有する場合がある。いくつかの実施形態において、検索エンジンは、複数の検索結果の中から選択するために、部分的な単語を使用する。例えば、検索エンジンは、検索インデックスを検索するためにすべての単語を使用し、その結果の中から選択するために検索文字列の終わりの部分的な単語を使用する。したがって、これらのエンジンに対する検索クエリーは、部分的な単語の情報を含むことが好ましい。
複数行のスキャン
いくつかの実施形態において、携帯データ取得装置は、1つの動作中に、複数の行を取得することができる。ページの一部を撮影するために内蔵カメラを使用する携帯電話、2行のテキストを取得する光学ヘッドを備えたペンベースのスキャナ等は、光学スキャナが1行以上のテキストを取得することができる、シナリオの例である。図15は、文書1520のうちの2行からテキストを取得する携帯スキャナ1510を示す。ボックス1500は、取得されたテキストを示す。1行以上のテキストが取得される場合、各行は、「行1のテキスト」AND「行2のテキスト」フォーマットで、検索クエリーにサブミットすることができる。別様には、おおよその列幅が分かっている場合、検索クエリーは、「行1のテキスト」WITHIN X WORDS「行2のテキスト」として構成することができる。ここで、Xは、概しておおよその列幅よりも小さい。図15に示される例に関して、一義化の検索クエリーは、「study of law commeiited to」AND「and public service the」として構成することができる。
スタンプ(コンテクスト、スキャナID、ユーザID)
いくつかの実施形態において、システムは、文書を識別するためにタイムスタンプおよびロケーションスタンプを使用する。例えば、Associated Press社の記事は、多くの新聞で見られるが、適切な新聞社は、そのロケーションスタンプによって判定することができる。ロケーションスタンプが、そのスキャンがSeattleで行われたことを示す場合、スキャンされたAP社の記事のソースはSeattleの新聞社である可能性がより高い。同様に、タイムスタンプは、タイムスタンプの前に発行されたものに対して、候補となる文書の範囲を狭くするために使用することができる。いくつかの実施形態において、携帯用機器は、タイムおよび/またはロケーションスタンプを含む、検索クエリーを構成することができる。
ワード長/畳み込みクエリー
いくつかの実施形態において、システムは、単語長によって文書にインデックスを付けて検索する。最も簡単な場合において、長い、短い、および不確定な、3つの単語長が使用される。長い、および短い単語の逐次的なパターンは、十分な長さの各文書に対する一意の識別子を形成する。したがって、文書は、従来のテキストに基づいた検索クエリーではなく、単語長に基づいた検索クエリーをサブミットすることによって、位置を特定することができる。単語長の検索クエリーの例には、11001110?010??10110が挙げられ、ここで、1=短い単語、2=長い単語、3=不確定な単語である。不確定なあらゆるオブジェクトは、基本的に、検索エンジンによってワイルドカードとして扱われる。単語長の検索は、取得された画像において個々の文字を識別することができない、撮像装置に特に有用である。例えば、低解像度の携帯電話のカメラは、レンダリングされた文書の撮像に使用されるが、その画像を文字レベルでは解像することができない。文書は、それでも、長い、および短い単語の一致する逐次的なパターンを検索することによって、識別することができる。同様に、文書は、本明細書の他の場所で説明したように、文字の繰り返し頻度を示す、畳み込みベースのクエリーによってインデックスを付けて検索することができる。
テキストの特性
スキャンされたテキストから生じる検索クエリーは、フォントのタイプ、サイズ、および色等の、テキストに関する情報を含むことができる。これらのテキストは、そのテキストが取得された文書の一義化に使用することができる。しかし、従来の検索クエリーでは、この情報を無駄にしている。
文書の識別子
ユーザが既知の文書内を検索している場合、検索クエリーには、その文書の識別子を含むことができる。検索エンジンは、対象とする文書に検索結果を制限するために、文書の識別子を使用することができる。従来の検索クエリーは、文書の識別子を含まない。
並行検索
ユーザの経験を強化するために、検索を、ローカルの装置とネットワークとに並行して行うことができる。1つの検索が結果を返すときに、他の検索を終了させることができる。
ネットワーク化された挙動
いくつかの実施形態において、携帯文書データ取得装置のスキャナとスキャンサービスプロバイダのネットワークとの間のメッセージは、一意の取引コードを含む。取引コードによって、システムは各取引を識別することができる。いくつかの実施形態において、取引コードは、スキャナID、スキャンされた情報、文書情報、およびタイム/ロケーション情報のハッシュから作成される。
いくつかの実施形態において、携帯用文書データ取得装置は、スキャンサービスプロバイダがデバイスを認識できるように、電子製造番号(ESN)またはネットワークアドレスのような一意の識別子を有する。いくつかの実施形態において、携帯用機器は、暗号化された課金およびアカウント情報を有する、加入者識別モジュール(SIM)を含む。いくつかの実施形態では、着脱可能な識別モジュールによって、別のユーザは、データ取得装置を借りることができ、その識別モジュールを挿入することによって、データ取得装置を一時的にそのアカウントに関連付けることができる。
スキャンサービスプロバイダのサブスクライバのそれぞれは、サービスプロバイダのネットワークのデータベースに格納される、サブスクライバアカウントを有する。サブスクライバアカウントデータレコードには、課金/サブスクリプション情報、サブスクライバの氏名および住所、サブスクライバがアクセスを許可された電子文書に関する情報、紙の文書に対するサブスクライバに関する情報、ユーザの履歴情報、サブスクライバの携帯データ取得装置の識別子(ESN等)、セキュリティ/暗号鍵、およびユーザのライフライブラリおよび/または個人用ウェブページ(ブログ)のロケーション、を含むことができる。例えば、ユーザは、自分の携帯用機器によって文書からデータを取得して、UIを介して「この文書をブログに載せる」コマンドを入力することができる。システムは、文書を一義化して、ユーザのアカウントに予め指定された、ユーザのブログページ上の文書へのリンクを発行する。
いくつかの実施形態において、ネットワークは、サブスクライバの携帯用文書データ取得装置の、無線の起動(OAA)およびプログラミング(OAP)のような、リモートの起動およびプログラミングを実行する。データ取得装置の電源が入ると、データ取得装置は、サービスプロバイダのネットワークに登録する。データ取得装置が登録されると、サービスプロバイダは、その装置に起動データをダウンロードすることができる。起動データには、ネットワークアドレス、またはサービスプロバイダがメッセージをその装置に送るために使用できる、他の一意の識別子を含むことができる。その装置が起動された後、サービスプロバイダは、あらゆる必要な最新情報(例、ローカルにキャッシュされたマークアップデータ)によってその装置を更新するために、リモートプログラミングを使用することができる。
その装置をサービスプロバイダのシステムによって登録するとき、サービスプロバイダは、サブスクライバアカウントに対するその装置の識別子を確認することによって、その装置がサブスクライバに属していることを検証することができる。
いくつかの実施形態において、システムは、待ち時間を削減し、またネットワークリソースを節約するために、携帯用機器に(物理的または接続速度的に)近いネットワーク要素にインデックスおよび他のデータを移動させる。携帯用機器の近くに頻繁に利用されるデータを移動させることによって、携帯用機器へ進む途中で情報を処理しなければならないネットワーク数が削減される。
ネットワークによって強化された一義化
いくつかの実施形態において、ネットワークおよび携帯用文書データ取得装置は、一義化処理を繰り返す。例えば、ユーザは、紙の文書から取得されるデータによって構成される検索クエリーをサブミットする。サービスプロバイダは、検索クエリーを検索エンジンにサブミットするが、文書を一義化することができない。それに応じて、ネットワークは、レンダリングされた文書から更なる情報を取得するようにユーザを促す。ユーザは、更なる情報をサブミットし、サービスプロバイダは、予めサブミットされた情報とともに新しい情報を使用してレンダリングされた文書を一義化する。サービスプロバイダおよびユーザは、文書を一義化するために必要な回数だけこの処理を繰り返す。サービスプロバイダは、一般に予めサブミットされた情報を保持して、その情報を新しくサブミットされた情報と統合して文書を一義化する。
サブスクライバアカウント/記録
いくつかの実施形態において、携帯用文書データ取得装置は、課金、サブスクリプション、および/または装置識別子に関する情報を格納するための記憶装置を備える。この記憶装置は、加入者識別モジュール(SIM)またはスマートカードのような着脱可能なものであるか、またはプログラマブル読み出し専用記憶装置(PROM)のような着脱不可能なものであってよい。いくつかの実施形態において、SIM記憶装置は、ユーザの携帯電話のサービスアカウントに関連付けられる。文書の電子コピーが取得されたデータに基づいている場合、サブスクリプション情報は、ユーザにその電子コピーの利用を許可するべきかどうかを検証するために使用することができる。例えば、新聞は、そのオンライン版へのアクセスに追加料金を課す場合がある。サービスプロバイダのユーザアカウントは、新聞のような紙の文書のサブスクリプション情報を含むことができ、その情報はユーザが紙の文書のオンライン版を購読しているかどうかを示す。
いくつかの実施形態において、システムは、ユーザのサブスクライバアカウント内の課金情報を使用して、携帯スキャナによる購入を行う。記憶装置は、ユーザの暗号化クレジットカードまたは他の金融情報を含む。例えば、ユーザが文書からテキストをスキャンして、(おそらくは、ユーザインターフェースまたは上述のジェスチャコントロールを介して)その文書の電子コピーへのアクセスを購入を希望する旨を示した場合、課金情報は、著作権保持者またはコンテンツプロバイダへの支払いを提供するために使用することができる。
いくつかの実施形態において、携帯用機器は、記憶装置内の製造番号のような装置識別子を含む。これらの装置識別子は、携帯機器を位置に識別する役割を果たし、それらが消去されないように一般にPROMに格納される。取引のための更なるセキュリティは、ネットワークデータベースにおけるユーザのアカウントまたはサブスクライブにデバイスの製造番号を相関させる等、携帯機器をただ1人のユーザと関連付けることによって取得することができる。別様には、システムは、スマートカードにスキャナをロックするために、スマートカード内に装置識別子を格納する(または、携帯スキャナ内にスマートカード識別子を格納する)。デバイスの処理装置は、携帯スキャナ200が動作を許可される前に、適切なスマートカードが挿入されたことを検証する。内蔵処理装置を備えたスマートカードはまた、スマートカード内のあらゆる情報へのアクセスを許可する前に、スマートカードがロックされている携帯機器に挿入されたことも検証する。
注釈
いくつかの実施形態において、携帯用文書データ取得装置は、注釈アプリケーションを含む。注釈ソフトウェアによって、デバイスは、音声またはテキストの注釈を、文書内のロケーション、マーク、またはテキストに添付することが可能になる。注釈は、文書内のテキスト文字列または絶対的なロケーションに関連付けることができる。注釈がテキスト文字列に関連付けられている場合、システムは、注釈が添付されたテキストを編集または削除するかどうかをサブスクライバに通知することができる。編集または削除に進む前に、システムは、続行したいかどうかの確認をユーザに求める。
テキスト
テキスト注釈は、携帯機器のキーパッドを介して、または音声データのテキストへの変換によって、レンダリングされた文書からテキストをスキャンすることによって入力することができる。
音声
いくつかの実施形態において、携帯用文書データ取得装置は、音声を取得するためのマイクロホンを備える。取得されたスピーチは、以下のスキャノテータ(scannotator)の項で詳述するように、ユーザによって指定されたロケーションで、音声ファイルとして文書に注釈を入力することができる。
OCR
いくつかの実施形態において、携帯用文書データ取得装置は、オンボードのOCR機能を有する。いくつかの実施形態において、システムは、ホストコンピュータまたはサービスプロバイダ上でOCRを実行する。OCRは、テンプレートマッチング、畳み込み、および単語長OCRを含む、多数の好適な方法によって達成することができる。
商標シンボルのコードへの変換
いくつかの実施形態において、携帯データ取得装置は、コードまたはプレーンテキストに商標シンボルを変換する。携帯機器は、認識することができる商標シンボルのデータベースを有する。携帯機器が認識する商標をスキャンする場合、携帯機器は、コードを商標画像の代わりに用いることができる。次いで携帯機器は、サービスプロバイダのネットワークにコードを送信する。サービスプロバイダは、商標コードに関連付けられた所定のアクションを行う。例えば、ユーザは、MitsubishiTMの「3つの菱形」の商標の画像をスキャンする場合がある。携帯スキャナは、その画像をオンボードの商標シンボルのライブラリと比較し、その3つの菱形のシンボルをMitsubishi社の商標として識別する。ライブラリは、システムのサービスプロバイダに対してその商標を一意に識別する、各商標に関連付けられた一意のコードを有する。携帯スキャナは、画像ファイル全体をサービスプロバイダに伝送するのではなく、コードを置換してそのコードを伝送する。画像の代わりにコードを用いることによって、ネットワークへのメッセージのサイズが削減され、無線通信の重要な利点となる。いくつかの実施形態において、システムは、画像ファイルを許可しない、いくつかの通信チャネル(携帯電話のSMSチャネル等)を通じて英数字コードを送信する。当然、商標の画像はまた、アスキーテキストにも変換することができる。例えば、MitsubishiTMの3つの菱形のロゴは、テキスト文字列「Mitsubishi社の商標」に変換することができる。
単語長
いくつかの実施形態において、光学スキャンサブシステムは、個々の文字が何であっても、単語長を適切な近似に区別する。幸いにも、単語長のパターンはまた、文書の識別にも使用することができる。文書の画像内の単語をカテゴリにソートすることによって、携帯スキャナは、文書の識別に使用することができるコードを構成することができる。最も簡単な場合において、長い、短い、および未知の、3つのカテゴリが使用される。短い単語は、ある所定の文字数よりも文字が少なく、長い単語は、所定の文字数よりも文字が多い。すなわち、短い単語<X<長い単語、である。ここで、Xは、長い単語と短い単語をと区別する所定の文字数である。単語長によって文書に付けられる特殊なインデックスを検索することによって、レンダリングされた文書を識別する。電子副本の位置が特定された後、電子副本内の長い/短い/未知の連続的な文字列の一致を見つけることによって、また単語長のパターンをその単語の個々の文字に変換することによって、スキャンされた文字列にOCRを実行するために、電子副本を使用することができる。
テンプレートマッチング
テンプレートマッチングOCRは、取得された画像と格納された文字イメージを比較する。一致が見つかったとき、その文字は識別される。テンプレートマッチングOCRは、フォントのスタイル、サイズ、イタリック等の変化に影響されやすい。基本的に、取得された文字を、格納されたテンプレートとは異なって見せる可能性があるものは、テンプレートマッチングシステム内にあると考えなければならない。テンプレートマッチングは、商標およびグラフィカルアイコンの画像の認識に非常に有用である。
畳み込み
図16は、文字オフセットを決定するための畳み込みの一実施形態を示す。概略的に、この実施形態は、それ自体を横切るテキストの画像をスライドさせるものと想定することが可能である。テキストの文字列に対して畳み込みパターンが決定されると、OCRは、統計学的な分析によって、または畳み込みを強化したインデックスの検索を介してソース文書を識別することによって、実行することができる。この実施形態は、センサ画像が画像を取得した後、1610より始まる。このスキャナの処理装置は、この元の画像と比較するために、ピクセルのキューを作成することが可能である。このキューは、この元の画像のコピーを垂直にスライスしたものとすることが可能である。別の方法では、比較すべき垂直スライスのトラックを保持するためにアドレスポインタを使用し、次いでプロセッサ内にこれらのスライスの一時的なコピーを作成する。次のステップ1620は、1つの長さを比較する。長さとは、垂直スライスの水平方向の幅のことである。
長さは、1ピクセルまたは複数のピクセルであってよい。長さは、余白に基づいて発見的に決定することが可能である。このスライスは、全体の画像であってよい。このスライスは、元の画像からのスライスと比較される。これは、このスライスを元の画像からのスライスと逐次的に比較することによって行うことが可能である。いくつかの実施形態において、この比較スライスは、対応するスライスと1ステップ毎に逐次的に比較される。ステップは、水平方向の幅と同じ距離であってよい。ステップは、1ピクセルまたは複数のピクセルであってよい。この処理1630の次の段階において、この処理装置は、それ自体がこの画像のどこに一致するのかを記憶装置に記録する。このデータは、どの垂直スライスが、この元の画像の他の垂直スライスに一致するのかを含むことが可能である。一致部分は、1つの文字であるかどうか分からない(例えば、順番に現れる2つの文字である場合がある)。次のステップ1640は、この比較が終了しているかどうかを判定する。比較は、必ずしも1つのスライスではなく、このより大きな処理を参照する。畳み込み処理が完了したかどうかを判定する1つの方法は、それ以上比較するスライスが無いかどうかを判定することである。
図17は、畳み込み処理を概念化するため一手法の説明図である。これは、文字オフセットを見つけるために単一のスライスの使用を段階的に分割することを示す。例示的なステップには、1700に示される1のような番号が付される。ライン1710は、ステップの分割に使用される。「determinative」という単語の画像が比較されている。左側はスライス1720であり、右側は記憶装置内のコピー1730である。重なりが見つかると、その部分は三角1740で指定される。
図18は、別の説明図である。ここで、スライスコピー1820は、1840の一致がなぜ見つけられたのかを明らかにできるように、記憶装置1830内のコピーの上に示される。
図19は、画像に対して畳み込み処理を実行するために、システムによって一般に実行されるステップを示すフロー図である。画像のどの一部が文字であるかを判定することが困難になりうる場合がある。1つの方法では、この画像を、離散的な文字数を有する部分に再分割する。いくつかの実施形態において、この処理は、一致が見つかったものとして反復的に完了されるか、またはすべての一致が見つかった後に開始される。ステップ1910で、この画像は、1つのセグメント、すなわち、離散的な文字数の画像である(この画像は、余白で囲まれた部分に切り取ることが可能である)。ステップ1920で、処理する一致サブセクションがさらにある場合、システムはステップ1930に引き継がれ、それ以外ならばステップ1970で終了する。ステップ1930で、これらの部分が記録される。一次元のロケーションの決定値は、記憶装置に送信することが可能である。これらのセグメントを一致する対応部分に関連付ける1つの方法では、識別子を使用する。別の方法では、セグメントの関連するロケーションが、どのくらい一致するのかに関する情報を提供する(例えば、一致する組のそれぞれが逐次的に格納され、偶数が存在するように、奇数の一致が1つの繰り返し領域を有する)。ステップ1940で、システムは、これらの一致セグメントのうちのいずれかが任意のセグメントと重なっているかどうかを判定する。この重なりは、1つのセグメントが別のセグメントを完全に包含する場合か、またはそれぞれの部分だけが重なっている場合、に生じる。ステップ1950で、システムは、これらのセグメントを再分割する。この再分割ステップは、第1のセグメントが複数の文字を有し、第2のセグメントがそれらの文字数よりも少ない場合に生じる。例えば、第1の一致セグメントは「ing」を含み、第2のセグメントは「in」を含む場合がある。この処理は、次いでこれらのセグメントを「in」(すなわち、一致しているもの)および「g」(すなわち、残りのもの)を含むセグメントに再分割することが可能である。全てのセグメントが、離散的な文字数で始まる場合、個別的な文字数の除去はまた、個別的な文字数も残す。ステップ1960で、システムは、完全に重なっているか、またはまったく重なりが無い最大のセグメントとして、これらのセグメントのそれぞれを格納する。この処理は、ステップ1930でロケーションが格納される場合に類似しうる。いくつかの実施形態において、一致セグメントを相関させる同じシステムが使用される。この処理の後、元の画像は、識別された複数の一致セグメントを有する。システムは、これらのセグメント間(または、これらのセグメントとこの画像の少なくとも1つの周縁部との間)の空間を、他のいずれのセグメントとも一致しない新しいセグメントとして扱う。各文字が、それ自体のセグメントを有する場合がある。いくつかの実施形態において、システムは、セグメントをさらに再分割するために、ブロブ分析または関連性分析のような文字分析技術を使用する。これらのセグメントは、次いで、それらが基づいているテキストの判定に使用される。いくつかの実施形態において、システムは、これらのセグメントをオフセットとして表し、これらのオフセットを使用して、どのテキストがこれらのオフセットを生成するのかを調べる。いくつかの実施形態において、この情報を含む記憶領域は、複数の文字を含むセグメントを占めることができるデータを格納する。
デバイス内のウェブサーバ
MicrosoftTM Internet Explorerのようなコンピュータ実行のウェブブラウザソフトウェアは、携帯データ取得装置のいくつかの実施形態に含まれる。コンピュータが携帯機器の内蔵ウェブページを利用することができるように、携帯機器は、USBケーブルのような通信チャネルによってコンピュータに接続される。
例示的な実施形態
以下、携帯用文書データ取得装置の例示的な実施形態を説明する。これらの例では、すべての可能な実施形態を説明できないが、何が可能であるかという概要の提供を意図するものである。
携帯電話
携帯文書データ取得装置の携帯電話での実施形態では、携帯電話およびスキャナの機能を含む。携帯電話は、専用のスキャンサブシステムまたは統合型カメラによって、画像データを取得することができる。音声注釈は、携帯電話のマイクロホンで取得することができる。ユーザは、携帯電話のキーパッドから、携帯電話のスキャナを介して、またはマイクロホンを介して、検索クエリーテキストを入力することができる。
いくつかの実施形態において、紙の文書が携帯電話のカメラによって投影され、携帯電話のディスプレイに表示される場合、携帯電話は、紙の文書の画像にオーバーレイされるマークアップレイヤーを示す、ソフトウェアを有することが可能である。電話器のカメラを介して紙の文書を見る場合、画像はマークアップ文書のデータによって画質が向上される。
そのページと物理的に接触していないスキャナによって、ページ上のどのテキストがスキャンされるのかを識別する方法
携帯電話のカメラをスキャン装置として使用することによる1つの問題点は、どのテキストがスキャンされるのかをユーザに示すことである。いくつかの実施形態において、携帯電話は、スキャンされる表面におおよそのスキャン領域をハイライトする光線を投影する。いくつかの実施形態において、携帯電話は、スキャンされる領域を携帯電話のディスプレイ上に表示する。ディスプレイは、ユーザに画像のどのサブセットがスキャンされるのか、またはOCRされるのかを示すための、様々な方法において画質が向上される。例えば、ディスプレイは、テキストが取得される領域の周囲に、ボックスを描画することができる。別様には、携帯電話は、例えば、ディスプレイ上の赤いライン、または陰影を付けた背景等をカメラまたは文書ソースから文書の画像上に重ね合わせることによって、ディスプレイ上にスキャン領域の境界を示すことができる。
スキャンされたテキストに基づいてアクションを実行し、ユーザに選択肢を提示する方法
いくつかの実施形態において、システムは、以下によって携帯電話のコンテクストにおける紙の文書を一義化する。
−紙の文書の一部の画像の取得。
−任意に、OCR画像、オフセット発見、圧縮等。
−携帯電話ネットワークを通じた、サーバーへの画像の伝送。
−文書または文書群、および(もしあれば)関連づけられたマークアップの位置の特定。
−無線ハンドセットへの挙動/プレゼンテーションデータの伝送。
−ユーザへのデータの提示。
−任意に、ユーザからの命令の受信。
−ユーザからの命令の格納または伝送。
いくつかの実施形態において、メニュー(例えば「マークアップデータ」)および文書のインデックスのための少なくとも一部のデータを、携帯電話にダウンロードして、常駐させている。メニュー/マークアップ情報は、ユーザに対して、携帯電話のディスプレイ上に表される。任意に、メニューは、ユーザが聞き取れるように表すことができる。
いくつかの実施形態において、携帯電話データ取得装置は、文書を一義化するために携帯電話の音声設備を使用する。ユーザは、音声スキャン、DTMFトーン等を受け入れるサーバーにダイヤルするために、無線ハンドセットまたは陸線電話器を使用して、既存の電話の音声チャネルを使用した紙−デジタル文書システムの利益のうちのいくつかを享受することができる。
例えば、ユーザは、文書識別子、タイトル等の文書のいくつかの代表的な部分を読み出す。システムは曖昧さに関するフィードバックを、任意に画面上に提供し、いくつかの実施形態において、ユーザは、一致するデジタル文書が見つかったかどうかの確認応答を受信する。ユーザは、曖昧さを分析するために、関連する更なる項目をスキャンする等の、任意のアクションを実行することができる。ユーザは、読み上げることでコンテクストを設定し、システムに一義化データを示すことができる。例えば、ユーザは、「NY Times、Yesterday」に続けて、一義化データ「...said we need this war to achieve peace ...」と言うことによって、コンテクストを設定することができる。システムは、次いで、一義化データに一致するテキストのために、New York Timesの昨日の版を検索する。
携帯電話カメラシステムを用いたスキャン方法
簡単なスキャンでは、すべての実施形態において、携帯電話のカメラの全解像度が必要ではない場合がある。カメラのセンサ領域の選択された部分だけを使用することによって、データ転送率がより高くなり、消費電力がより少なくなる。
いくつかの実施形態において、光ファイバ画像ルートは、スキャンサブシステムの一部である。スキャンサブシステムは、既存のカメラの画像センサに光学的に接続することができる。いくつかの実施形態において、カメラの画像センサ部分は、スキャンサブシステム専用に予約される。
アクション、電子取引、または検索に対するコンテキストの設定方法
携帯電話のサービスプロバイダを有する携帯電話サブスクライバのアカウントは、pコマース購入取引に対するアカウント/課金情報に使用することができる。
携帯電話の機能の他の側面は、コンテクストの設定に使用することができる。例えば、通話のアクティビティおよび履歴は、コンテクストの確立、入力の優先順位付け、および検索クエリーの増強に使用することができる。加えて、携帯電話ネットワークの他の用途は、ウェブ/WAP/電子メール/IMアクティビティおよびその履歴への携帯電話ネットワークの使用、携帯電話の地理的ロケーションおよびその履歴等のコンテクストの設定に使用することができる。
携帯電話のテキストメッセージングディクショナリは、OCR処理の強化に使用することができる。多くの携帯電話にあるテキストメッセージングのためのT9予測テキストソフトウェアはまた、OCRおよび一義化処理の強化にも使用することができる。例えば、T9予測テキストソフトウェアは、OCRのエラーを訂正するために使用することができる。テキスト入力およびSMSメッセージングの履歴は、OCRのための辞書として使用することができる。
いくつかの実施形態において、携帯電話は、アイコンの隣に印刷された番号をダイヤルするための命令として、アイコンを認識する。いくつかの実施形態において、携帯電話は、電話番号を認識して、電話番号をスキャンしたときに所定のアクションを実行する。可能な所定のアクションのうちのいくつかには、電話をかけること、携帯電話のアドレス帳に電話番号を格納すること、が挙げられる。いくつかの実施形態において、携帯電話は、電話番号の認識を支援するために、携帯電話の地理的位置をコンテクストとして使用する。例えば、北アメリカのシステムによる電話番号は、10桁で構成されている。携帯電話が、その番号が電話番号であるかどうかを判定するために番号をスキャンするとき、携帯電話は、それらのロケーションコンテクストを使用することができる。携帯電話が北アメリカにある場合、11桁の数字は電話番号として自動的に格納されない。携帯電話がヨーロッパにある場合は、同じ11桁の数字を、電話番号として自動的に格納することが可能である。
レンダリングされた文書のスキャンによって開始される、またはこれを使用した、携帯電話の商取引
携帯電話は、レンダリングされた文書から情報を取得することによって、商取引を開始することができる。例えば、ユーザは、自分の携帯電話のカメラによって文書から、2、3行のテキストの画像を取得し、携帯電話は、取得したデータ内のキーワードを認識し、そのキーワードは、携帯電話内のソフトウェアアプリケーションを起動させるが、このアプリケーションは、キーワードに関連付けられた製品の販売の提案の配信を携帯電話に行わせる。ユーザは、その取引を完了させたいかどうかを(おそらくは携帯電話のキーパッドで)示すことができる。YESの場合は、ユーザの携帯電話アカウントに、購入費用が課金される。
携帯電話(またはサービスプロバイダとのサブスクライブを必要とするあらゆる無線通信装置)は、レンダリングされた文書に基づいた、取引の認証および完了に使用することができる。例えば、サブスクライバは、ウェブページの購入フォームの記入およびサブミットを行うことができる。それに応じて、ウェブ商店は、サブスクライバのコンピュータにコードを送信し、それをコンピュータのモニタ上に表示する。サブスクライバは、次いで、自分の携帯電話でそのコンピュータのモニタを撮影して、携帯電話ネットワークを通じて商店にその画像を伝送する。商店が携帯電話のメッセージを受信すると、その商店は、携帯電話のアカウントが、ウェブページにサブミットされた情報と一致することを検証することができるので、ユーザを認証し、取引を完了することができる。
いくつかの実施形態において、サブスクライバは、DTMFまたは音声入力によって、pコマース取引を完了させることができるサーバにサブスクライバを接続する、ダイヤルアップ番号に電話をすることができる。
携帯電話と組み合わせたスキャナの機能の使用方法
いくつかの実施形態において、携帯電話は、スキャンするための中間プラットホーム(ホスト装置)である。例えば、当該の状態は、BlueToothTMスキャナを携帯電話に接続した場合に生じさせることができる。中間プラットフォームとして機能している場合、携帯電話は、文書のインデックス、マークアップ文書、および携帯電話とともに使用されるユーザ/スキャナに特有に、ユーザアカウントのデータを格納することができる。
いくつかの実施形態において、携帯電話システムは、あらゆる音声通話によってデータチャネルを開く。発信者は、自分の携帯電話で文書の写真を撮影する(それ以外ならば、文書からテキストの文字列をスキャンする等、文書を識別するに十分なデータを取得する)。取得されたデータは、音声チャネルにパンクチャされる。受信者の携帯電話内のソフトウェアは、文字列を回復させて、文字列が発信者によってスキャンされた文書の電子コピーの位置を特定するために、その文字列を使用する。
いくつかの実施形態において、携帯電話が電話番号および名前を取得する場合、携帯電話は、その両方を携帯電話のアドレス帳に格納するようにプログラムされる。電話番号だけが取得された場合、その携帯電話は、自動的にその電話番号をダイヤルするようにプログラムされる。
SMS、MMS
検索クエリーは、携帯電話ネットワークのショートメッセージサービス(SMS)の携帯電話のためのテキストメッセージングシステムを使用することによって、サービスプロバイダまたはネットワークに効率的に伝送することができる。画像および音声ファイルは、携帯電話のマルチメディアメッセージサービス(MMS)によって送信することができ、MMSによって、携帯電話は、マルチメディアメッセージの送受信を行うことができる。
携帯電話の実施形態の興味深い側面が、ロケーションの識別に、小さなフラグメントのデータしか必要としない(特にそのフラグメントがさらに*コンテクストによって資格が与えられている場合*)、観察に存在する。この短いフラグメントによる方法によって、以前は文書画像を伝送できなかった、制限された帯域幅チャネルを通じて文書のスキャンデータを送信するという、意外な能力がもたらされる。
コンピュータマウス
携帯データ取得装置の一実施形態には、スキャナ機能を備えた光学マウスが挙げられる。いくつかの実施形態において、光学マウスは、スキャンおよび動作検出に、同じ光学経路を使用する。いくつかの実施形態において、光学マウスは、スキャンされるテキストを観察するためのファインダーを備える。
ファインダーによって、ユーザは、スキャナがどこで対象にされているのかを確認することができる。ファインダーを実装するために使用することができるいくつかの技術には、マウスの下に文書を示す透明プラスチックのウィンドウ、ペリスコープに類似した一連のミラー、スキャナのリアルタイムの出力を示すディスプレイ、または光ファイバの画像ルート、が挙げられる。
図20は、マウスの下の面を見せるためのビューウィンドウ2104を備えたスキャナ/マウス2100を示す。スキャナ/マウス2100は、ビューウィンドウ2104がある筐体2102を備える。ビューウィンドウは、スキャナ/マウス2100がどのテキストを取得しているのかを示すための、ターゲット2106を備えることが可能である。ビューウィンドウは、図24に示されるミラー配置と組み合わせて使用することができる。
図21は、何がスキャンされているのかをユーザが見ることができるように、筐体2104の上部に搭載されたディスプレイ(LCD、LED等)2102を備えたスキャナ/マウス2100を示す。ディスプレイ2102は、リアルタイムで光学スキャンサブシステムの出力を示すことが可能である。いくつかの実施形態において、処理装置(ホストコンピュータの処理装置またはオンボードの処理装置のいずれか)は、光学機構の出力がディスプレイ2102に送信される前に、その出力を操作することができる。図25も参照のこと。
図22は、従来の機械的x/y機構および光学スキャナを備えたマウス等、個々の位置検出2210およびスキャン機構2220を備えたマウスのブロック図を示す。制御ロジック2240は、位置検出機構2210、走査機構2220、ディスプレイ2230、入出力サブシステム2250、および記憶装置2260に動作可能に接続される。任意のディスプレイ2230は、ユーザにスキャンされたデータを示すことができる。記憶装置2260は、スキャンされたデータおよび命令を格納することができる。入出力サブシステム2250は、BluetoothトランシーバまたはUSBポートのような無線または有線の通信手段によって、ホストコンピュータと通信する。いくつかの実施形態において、入出力サブシステム2250はまた、スイッチ、キーパッド、またはボタンのようなユーザ入力機器を備える。
図23は、x/y動作の検出およびレンダリングされた文書からのデータのスキャンに使用することが可能な光センサアセンブリ2310を備えたマウスのブロック図を示す。制御ロジック2320は、光学アセンブリ2310、入出力サブシステム2330、ディスプレイ2350、および記憶装置2340に操作可能に接続される。制御ロジック/処理装置2320は、どの機能(スキャンまたは動作検出)が必要であるのかを判定することができる。別様には、入出力サブシステム2330は、x/y動作とスキャン機能とを切り替える、ユーザ選択可能なスイッチを備えることができる。記憶装置2340は、データおよび命令を格納することができる。ディスプレイ2350は、ユーザにスキャンされたデータおよび/またはデバイス状態(例えば、デバイスが現在スキャナモードにあるのか、マウスモードにあるのか、等)を示す。
図24は、スキャナヘッドの下にある物をファインダーに反映させるための一連のミラー2410を使用するマウス/スキャナ2400の側面図を示す。光源2420は、ユーザによってスキャンされるレンダリングされた文書2430の一部を照らす。光源2420からの光の少なくとも一部は、文書2430に反射され、光学経路2440に沿って、ユーザが見ることができるファインダー窓2450に移動する。別の実施形態では、マウス通る直線の開口部は、ミラー2410を必要としない。この別の実施形態において、ファインダー窓2450は、スキャナヘッド/光源2420の両側に配置することが可能である(図26を参照)。
図25は、光感知半導体チップ(CMOS、CCD等)2520と操作可能に接続された画像ルート2510を使用する、マウス/スキャナ2500の例を示す。CCD2520の出力は、ディスプレイ2530および処理装置2540に直接適用することができる(代わりに、ディスプレイ2530に送られる前に処理することもできる)。処理装置2540は、CCD2520、ディスプレイ2530、記憶装置2550、および入出力サブシステム2560に操作可能に接続される。
図26は、ユーザがスキャンヘッドの下を通ろうとするテキストを見ることができるように、本来スキャン機構2620の両側にあるウィンドウ2610である、ファインダーを備えたマウス/スキャナ2600の平面図を示す。処理装置2630は、走査機構2620、記憶装置2640、入出力サブシステム2650、および電源2660に操作可能に接続される。電源2660は、無線で通信するスキャナに一般に含まれるが、有線のマウスに対しては任意である。
スキャンヘッドアクセサリ(USBポートを含む)
アダプタポートを備えたスキャンアクセサリは、携帯データ取得装置の別の例である。スキャンアクセサリは、携帯電話またはPDAのような別のデバイス上の適切なコネクタにプラグ接続され、それによって、スキャン機能を備えたデバイスをアップグレードする。いくつかの実施形態において、アクセサリは、単に光取得サブシステムおよびアダプタ(アダプタを介して電力を取り出す)を有する。いくつかの実施形態において、アクセサリには、制御ロジック、記憶装置、および電源が挙げられる。
スキャノテータ(Scannotator)
いくつかの実施形態において、システムは、音声注釈をレンダリングされた文書の電子副本内の選択された位置(「システム」)の標的とする。口頭による注釈を紙の文書内の選択された位置の標的とするために、ユーザは、携帯用光学スキャナを使用して、その選択された位置のテキストの部分をスキャンする。ユーザは、次いで注釈を話し、その注釈は、光学スキャナ内のマイクロホンによって取得され、スキャンされたテキストの部分とともに格納される。
スキャナは、様々な種類の無線または有線接続を介して、コンピュータシステムまたは類似したデバイスに、接続するか、それ以外ならばそれらと通信することが可能である。接続されると、格納された関連付けは、例えば、再生する電子版の文書内の選択された位置を示しながら注釈を再生するため、電子版の文書内の選択された位置に関連する音声認識を介して取得された注釈のテキスト版を表示するため、注釈に基づいて選択された位置で電子版の文書を自動的に修正するため、選択された位置で電子文書内に音声ファイルとして注釈を埋め込むため、音声注釈を含む関連づけられた音声ファイルにポインタ(例えばハイパーリンク等)を挿入するため、等に使用することができる。いくつかの実施形態において、スキャンされたテキストは、電子文書のより大きな領域の中からの文書の識別および/または位置の特定に使用することが可能である。別様には、他の方法を文書の識別に使用することが可能である。
いくつかの実施形態において、スキャナは、注釈間をナビゲートする制御等の制御を含む。スキャナがコンピュータシステムに接続されている場合、ナビゲーション制御は、コンピュータシステムに表示される文書の注釈間をナビゲートすることができる。スキャナがコンピュータシステムに接続されていない場合、ナビゲーション制御は、スキャナの記憶装置内の当該の注釈を再検討、修正、または削除するために、スキャナ内に格納された注釈間をナビゲートすることができる。
上述の機能のいくつかまたはすべてを提供することによって、システムは、ユーザが、電子文書のレンダリングされたコピーを使用して、電子文書に好都合かつ正確に注釈を入力できるようにする。
図27は、サンプル携帯用文書データ取得装置の概観を示す透視図である。ユーザは、紙の文書を読み出している間に、タイプまたはスペルミス、事実に関する誤り、または電子文書の原本の編集、あるいは電子文書の原本の他のインタラクションを必要とする文書内の他の問題に気付くことが可能である。ユーザは、注釈入力装置上のSCANボタン2701を押して、光センサ2711を使用して、コンテクストを取得するために文書の2、3の単語をスキャンする。いくつかの実施形態において、視覚インジケータ2721は、スキャンされたテキストが認識されたかどうか、および/または、レンダリングされた文書および/またはこの文書内の単一のロケーションに対応する電子文書を識別するに十分であるか、またはおそらく十分であるかどうか、を示す。ユーザは、次いでRECボタン2702を押して、内蔵マイクロホンを使用して音声注釈を記録する。ボタン2703を押すことによって、ユーザは、内臓スピーカ2731を使用して注釈を再検討でき、一方で、RECボタン2702を再び押すことによってそれに上書きすることができる。
ユーザが印刷された文書の再検討を終了した場合、ユーザ(またはアシスタント)は、注釈入力装置のUSBコネクタ2741をコンピュータのUSBポート(音声入力装置の内蔵バッテリの再充電も行うことができる)に、直接またはUSBポートが不便な場所にあれば延長ケーブルを介して接続する。簡単に接続することによって、文書を編集するための適切なソフトウェアパッケージを開始させ、適切な文書をロードさせ、場合によりスキャンされた単語を選択していても、第1の注釈の位置に編集カーソルを配置させることが可能である。ユーザは、次いでPLAYボタン103を押して記録された注釈を聞いて、通常の方法でそのテキストに何らかの必要な編集を行う。ユーザは、NEXTボタン2705を押して次の注釈にスキップし、次いでPLAYボタンを再び押す、等を行うことができる。
RECボタン2702は、例えば、アシスタントが元の注釈またはそれらの編集版の適合性に疑問がある場合に、同じロケーションに更なる注釈を追加するために使用することができる。
SCANボタン2701は、PCに接続されている場合に、注釈が入力されて、それ以上必要ではないことを示すために、「DONE」ボタンとして使用することが可能である。いくつかの実施形態では、同じボタンが、デバイスが紙と接触している場合にスキャンを起動し、接触していない場合に音声の記録を起動する。いくつかの実施形態において、装置は、いつ光センサ2711が紙と接触したのかを検出するために、光センサ2711の近くにセンサまたはボタン(明確にするため図示せず)を備えることが可能である。
いくつかの実施形態において、注釈入力装置は、裏側にクリップを備え、これによって、一組の音声Post−It(登録商標)ノートとして機能するように、注釈が入力された文書にクリップすることができる。
図28は、注釈入力装置2800の一実施形態のブロック図を示す。注釈入力装置は、紙の文書からテキストの画像を取得するための光学スキャンヘッド2816と、そのテキストに関連する音声注釈を取得するためのマイクロホン2802とを組み込む。これらの入力装置から取得されるデータは、場合により中央制御装置2810によって処理されて、記憶装置2814に格納される。1つ以上のボタン2812は、ユーザが処理を制御するために備えられ、ここではLEDとして示されているいくつかの視覚インジケータ2804が、ユーザにフィードバックを提供する。当然、視覚インジケータは、例えば液晶ディスプレイ(LCD)等のような、あらゆる好適なユーザインターフェースであってよい。
任意に、注釈入力装置はまた、音声注釈の再生およびユーザに提供される他の音声のフィードバックができる、スピーカ2806も備える。
インターフェース2808には、データをPCまたは他の処理装置に伝送することができる、USB(図示)が挙げられるが、ファイヤワイヤ、BluetoothTM、802.11、赤外線、イーサネット(登録商標)または他の有線または無線通信技術であってよい。USBのようなワイヤベースの通信技術はまた、即座の動作のために、またはバッテリのような内臓電源を充電するために、デバイスに電力を供給することも可能である。
図29は、通信ポート2902、一般にはUSBポートを介してPC 2900のような処理装置に接続されたデバイス2800を示す。監視システム2904は、デバイスが接続されているときに、通信していること、およびその結果の動作を強調させていることを検出する役割を果たす。一般に、この役割は、分析のために、取得された画像をデバイスからサブシステム2906に取り込んでシンボルまたはテキストの形態に変換すること、適切な文書の位置を特定する検索サブシステム2908にその結果のテキストを渡すこと、およびユーザがそれらの文書の閲覧、編集、または情報のやりとりを可能にするアプリケーション2910に渡されるそれらの文書の詳細を渡すこと、を伴う。監視システム2904はまた、そのアプリケーションを制御して、例えば、以前のスキャンのロケーションに文書をスクロールさせることも可能である。取得された音声注釈は、ユーザに再生するために、PCの音声システム2912に渡すことが可能である。オーディオシステム2912は、アナログ音声をデジタル形式およびその逆に変換するために、デジタル−アナログおよび/またはアナログ−デジタル変換機能を備えることが可能である。
基本レベル以上に高度化されていれば、この処理の多くのコンポーネントは、デバイス2800上で行うことが可能である。PC上に2906で示されるように、画像の分析および組み込まれたテキストの認識は、例えば、画像自体の代わりに、またはそれらとともにPC2900に渡されるテキストまたは他の何らかの派生データであるように、PC2900への接続前またはその間に、デバイス2800上で完了、または部分的に完了することが可能である。同様に、音声注釈は、デバイスに内蔵された音声設備2906を介してユーザに再生することが可能であり、その処理のためのユーザインターフェースを、デバイス2800上のボタンを介して部分的に、または全体的に動作させることが可能である。
再度図28を参照する。いくつかの実施形態において、デバイスのスキャンヘッド2816は、コンピュータディスプレイのようなディスプレイ装置、および紙から画像を取得することができる。
また、注釈が入力されるテキストは、紙の上の単語をスキャンおよび解釈する代わりに、ユーザがマイクロホン2802に読み上げるスピーチフラグメントを取得および認識することによって、識別することも可能である。
別の実施形態において、マイクロホン2802は、テキストおよび注釈両方の取得に使用され、これによって、スキャンヘッド2816を省略することができ、また上述の画像処理およびOCRの段階を、音声処理および音声認識に置き換えることができる。本実施形態では、ユーザは、注釈入力および注釈入力のために、所望のロケーションでマイクロホンにテキストを読み上げる。いくつかの実施形態において、ユーザは、デバイスのユーザインターフェース(ユーザに情報を表し、ユーザからの入力を受信するための、ボタン、ディスプレイ、キーパッド、マイクロホン等)を操作して、どの音声がロケーションをマークしているか、およびどれが注釈であるのかを示すことができる。PC2900は、後で適切な音声をテキストに変換することができ、そのテキストをレンダリングされた文書に関連付けられた電子文書の識別に使用することができる。電子文書が、注釈のロケーションをマークするテキスト文字列を介して識別された後に、PC2900によって、適切な挿入位置において電子文書に注釈を挿入することができる。
図30は、一般にコンピュータシステムおよびシステムが実行される他のデバイスのうちの少なくともいくつかに組み込まれたコンポーネントのうちのいくつかを示すブロック図である。これらのコンピュータシステムおよびデバイス3000は、コンピュータプログラムを実行するための1つ以上の中央演算処理装置(「CPU」)3001と、プログラムおよびデータ(データ構造を含む)が使用されている間に、それらを格納するためのコンピュータ記憶装置3002と、永続的にプログラムおよびデータを格納するためのハードディスク装置のような永続的な記憶装置3003と、コンピュータ可読媒体に格納されるプログラムおよびデータを読み出すためのCD−ROMドライブのようなコンピュータ可読のメディアドライブ3004と、プログラムおよび/またはデータ(データ構造を含む)を交換するために、インターネット等を介して、他のコンピュータシステムにコンピュータシステムを接続するためのネットワーク接続3005と、USBコネクタまたは他の好適なバスコネクタのようなデスクトップ型バスコネクタ3006と、を備えることが可能である。CPUによって実行されるプログラムは、システムに関連付けられたプログラムおよび本願明細書の他の場所で説明したプログラムと、光学式文字認識(「OCR」)ソフトウェアのようなスキャンされた画像を認識するためのソフトウェアおよび/または音声認識ソフトウェアのような音声を認識するためのソフトウェアと、を備えることが可能である。上述のように構成されたコンピュータシステムは、一般にシステムの動作をサポートするために使用されるが、当業者は、そのシステムを、様々な種類および構成のデバイス、および様々なコンポーネントを使用して実行することが可能であると理解されよう。
図31は、電子文書に注釈を入力するために、システムによって使用される一般的な処理を示すフロー図である。ステップ3101で、システムは、小さな連続的なシーケンスの単語の一部をスキャンする。ステップ3102で、システムは、レンダリングされた文書のスキャンされた部分に関して音声注釈を入力する。ステップ3103で、より多くの注釈がある場合、システムは、次いでステップ3101に引き継いで別の注釈を構成し、それ以外ならば、ステップ3104に引き継ぐ。ステップ3104で、システムは、ステップ3101でスキャンされた文書の部分、およびステップ3102で入力されたそれらの音声注釈を、コンピュータシステムにアップロードする。ステップ3105で、システムは、レンダリングされた文書に対応するデジタル文書を識別する。いくつかの実施形態において、システムは、レンダリングされた文書からスキャンされた1つ以上の文書の部分内のテキストを、電子文書の領域のコンテンツと比較することによって、レンダリングされた文書に対応するデジタル文書を識別する。
ステップ3106で、システムは、アップロードされた注釈に基づいて、ステップ3105で識別されたデジタル文書を修正する。いくつかの実施形態において、ステップ3106は、対応するスキャンされた部分に隣接するデジタル文書の位置に、各注釈を音声クリップとして添付することを伴う。いくつかの実施形態において、ステップ3106は、当該の位置での音声認識されたテキスト版の注釈のデジタル文書への添付を伴う。いくつかの実施形態において、ステップ3106は、音声認識された注釈のコンテンツに基づいた、識別されたデジタル文書のスキャンされた部分への自動的な編集の実行を伴う。音声認識を使用する場合は、注釈がアップロードされる前、またはその後のいずれかで実行することが可能である。ステップ3106の後、これらのステップは完了する。
当然、ステップ3106は、すべての実施形態に見られるわけではなく、他の実施形態においては上述のものとは異なる場合がある。例えば、いくつかの実施形態において、今後の使用のための注釈のアップロードおよび格納が十分であり、それらはデジタル原本とは別に格納する場合がある。特に、例えば、注釈入力には十分な権利が無いため(例えば、原本がほかの誰かによって作成された)、またはCDのような書き込み不可能な媒体であるため、原本を修正できない場合がある。
当業者は、図31に示されるステップは、様々な方法に変更することが可能であると理解されよう。例えば、ステップの順序は、組み直すこと、サブステップを並行して実行すること、示されたステップを省略すること、または他のステップを含めること、等が可能である。
図32は、ユーザによって入力された注釈を表すために、システムによって使用されるサンプル注釈テーブル3200を示すテーブル図である。いくつかの実施形態において、システムは、注釈入力装置2800および/またはコンピュータシステム2900に注釈テーブル3200のバージョンを格納する。いくつかの実施形態において、システムは、注釈入力装置2800からコンピュータシステム2900に、注釈テーブル3200のバージョンをアップロードする。
テーブル3200は、行3201乃至3203のような、作成された注釈のそれぞれに対する行を含む。列と交差する注釈テーブル3200の行は、異なるレンダリングされた文書に関する注釈を区別しているシーケンス番号を含む文書シーケンス番号の列3211と、注釈のためにスキャンされた認識されたテキスト版のテキスト、またはスキャン中に取得された未加工のまたは処理された画像データのいずれかを含むスキャンされたテキストの列3212と、音声認識されたテキスト版の注釈、または注釈のために取得された処理された音声データのいずれかを含む注釈の列3213と、を含む。例えば、行3201は、第1の注釈入力された文書において、ユーザがこのレンダリングされた文書においてスキャンしたテキスト「idealized husbandry practices」、および添付された音声注釈「add citation to Huff reference」を示す。
図32は、そのコンテンツおよび編成は、人間の読者がより分かりやすいように構成されているが、当業者は、この情報を格納するためにシステムによって使用される実際のデータ構造が、例えば、それらが異なる方法で構成される場合があること、示された以上の、またはそれ以下の情報を含む場合があること、圧縮および/または暗号化される場合があること等の点において、示されるテーブルとは異なる場合があることを理解されよう。例えば、いくつかの実施形態において、システムは、各スキャンのためのタイムスタンプおよび/またはロケーションスタンプを含む。必要なタイムおよびロケーション情報は、オンボードの全地球測位システム(GPS)機能から、または、デバイス2800が無線通信機能を備えている場合は、無線通信ネットワークから取得することができる。
システムは、いかに説明されるサンプルモードのうちのいずれかを含む、1つ以上の様々なモードで使用することが可能である。1つのサンプルモードにおいて、注釈入力装置2800は、識別された文書に、注釈およびスキャンされた情報のすべてを自動的にダウンロードする。注釈は、注記、マルチメディア(音声)注記ファイル等として、文書の一部になる。例えば、ユーザが紙の文書(ユーザのコンピュータ上に対応する電子文書を有する)からいくつかのテキストをスキャンすることによって、文書のどこに注釈が属しているかを示し、またこの位置に含まれるべきいくつかの追加情報に関する音声注釈を作成する。後に、ユーザは、コンピュータのUSBポートに注釈入力装置を接続する。いくつかの実施形態において、ユーザは、文書編集アプリケーション(Microsoft Word等)で文書を開き、注釈をダウンロードするためのマクロを開始させ、それをテキストまたは組み込まれた音声ファイルのいずれかとしてWord文書に添付する。
別のサンプルモードにおいて、コンピュータは、検索インデックスにアクセスし、スキャンされたテキストをその検索インデックスと比較することによって、注釈が属する文書を自動的に認識し、それによって、ユーザがさらに介入すること無く、適切な文書の識別にスキャンされたテキストを使用する。自動ダウンロードおよび「注釈」としての文書への組み込みは、作業グループによる文書も共同編集を可能にするために使用することが可能である。このように使用する場合、コンピュータは、その文書における各作業グループのメンバーの個々の編集および注釈を格納する。あるいは、コンピュータは、それらを別々に格納および処理して、必要に応じてそれらを組み合わせる。
例示的な使用
以下は、携帯用文書データ取得装置のいくつかの例示的な使用である。これらの例では、すべての可能な実施形態を説明できないが、いくつかの使用の概要の提供を意図するものである。
Pコマース
いくつかの実施形態において、携帯用文書データ取得装置は、pコマース機能、および、アプリケーションを備える。例えば、いくつかの実施形態では、pコマースアクティビティに関するアイコンおよびキーワードを認識することができる。これらのキーワードおよびアイコンは、紙の文書からデータを取得することによって、商品およびサービスを購入するためのpコマース取引ソフトウェアを開始させることができる。いくつかの実施形態において、デバイスは、$(購入)マークに遭遇すると、購入状態またはモードに入る。購入処理が自動化されているので、いくつかの実施形態によって、サブスクライバは、カタログまたは広告から単一のスキャンによる購入取引の完了が可能になる。いくつかの実施形態において、デバイスは、クレジットカードの処理装置と直接情報のやりとりができるように、オンボードの記憶装置に金融情報を格納することができる。
キーワード
いくつかの実施形態において、携帯用文書データ取得装置は、レンダリングされた文書とともにキーワードおよびマークアップ文書の使用をサポートする。いくつかの実施形態は、特定のスキャンが特に処理されることを示す、テキスト内の様々な補足的マーク(例、下線、フォント、テキストの色、トークン、アイコン等)を認識する。これらの補足的マークのうちの1つに遭遇した場合、デバイスは、検出されたマークに関連付けられたアプリケーションを実行する。様々な実施形態によってサポートされるキーワードには、会社名、および商標が挙げられる。いくつかの商標およびアイコンは、携帯電話においてコードまたはテキストに変換され、SMSまたは他のテキストベースのメッセージングを介して、サービスプロバイダに送信される。携帯電話におけるキーワードリストのローカルなキャッシングは、グラフィックのテキストへのローカルな変換に有用である。別様には、グラフィカルな商標およびアイコンを、マルチメディアメッセージングを介して、画像として伝送することができる。
プリペイド
いくつかの実施形態において、携帯データ取得装置は、スキャンサービスプロバイダからのサービスに対するプリペイドサブスクリプションを有する。プリペイドアカウントには、2の主な利点がある。第1の利点は、プリペイドアカウントによって、匿名でのシステムの使用が可能になる、サブスクライバのプライバシが保護されることである。第2の利点は、プリペイドアカウントは、潜在的なサブスクライバ数が、クレジット履歴の乏しい、または無い人々に拡大されることである。前もって代金を払うことによって、サブスクライバは、自分のクレジット履歴に関係なく、システムサービスを使用することができる。
例えば、顧客は、商店で携帯データ取得装置を購入する場合がある。その装置は、特定の数のプリペイド取引をもたらす。その装置で実行される一般的な取引は、電子文書を利用している。したがって、顧客は、プリペイド装置によって地方紙からテキストをスキャンすることができ、補足的電子物品への匿名のアクセスを即座に得ることができる。スキャンサービスプロバイダは、各取引が引き落とされるプリペイド装置に関連付けられた、アカウントファイルを有する。顧客がすべてのプリペイド取引を使用した場合、本人は、その装置を商店に返却するか、または(おそらくは銀行のATM機器を介して)電子決済を行うことによって、更なるプリペイド取引を任意に購入することができる。サービスプロバイダは、携帯機器のプリペイドアカウントファイルに、新しく購入された取引を組み入れる。
結び
当業者には、上述のシステムが、様々な方法での適用および拡張が可能であると理解されよう。上述の説明は特定の実施態様について言及しているが、本発明の範囲は、専ら以下の請求項およびそこに詳述される要素によって定義される。

Claims (14)

  1. 携帯電話によって実行される方法であって、
    前記携帯電話によって、文書の所定領域からテキストをスキャンするステップであって、前記文書は、印刷された文書またはモニターに表示された文書である、ステップと、
    前記携帯電話によって、前記文書の電子コピーをオープンするステップであって、前記電子コピー内のテキストが、前記文書の前記所定領域内でスキャンされた前記テキストに対応する、ステップと、
    前記携帯電話によって、前記携帯電話によって取得された逐次的に取得した画像の比較に基づいて、前記文書の前記所定領域内でスキャンされた前記テキストの上の前記携帯電話の第1の動きを検知するステップであって、前記第1の動きは所定方向で発生し、前記所定方向は、逐次的に取得した画像の前記比較に基づいて計算される運動ベクトルに基づいて判定される、ステップと、
    前記携帯電話によって、前記運動ベクトルに基づいて、前記携帯電話の前記第1の動きが、前記携帯電話上の事前設定された動きのライブラリに保存された事前設定された動きに適合する動きであることを解釈するステップであって、前記事前設定された動きが、前記文書の電子コピー内のテキストを選択するコマンドに関連する、ステップと、
    前記携帯電話によって、前記携帯電話の前記第1の動きの解釈に応答して、前記文書の前記電子コピー内の前記テキストを選択するステップと、を備える方法。
  2. 前記携帯電話によって、前記携帯電話によって取得された逐次的に取得した第2の画像の第2の比較に基づいて、前記文書の前記所定領域内でスキャンされた前記テキストの上の前記携帯電話の第2の動きを検知するステップであって、前記第2の動きは、前記所定方向で発生し、前記所定方向は、逐次的に取得した第2の画像の前記第2の比較に基づいて計算される第2の運動ベクトルに基づいて判定される、ステップと、
    前記携帯電話によって、前記第2の運動ベクトルに基づいて、前記携帯電話の前記第2の動きが、前記携帯電話上の事前設定された動きの前記ライブラリに保存された第2の事前設定された動きに適合する動きであることを解釈するステップであって、前記第2の事前設定された動きが、前記文書の電子コピー内のテキストを修正するコマンドに関連する、ステップと、
    前記携帯電話によって、前記携帯電話の前記第2の動きの解釈に応答して、前記文書の前記電子コピー内で選択された前記テキストを修正するステップと、をさらに備える請求項1に記載の方法。
  3. 前記携帯電話によって、前記携帯電話によって取得された逐次的に取得した第3の画像の第3の比較に基づいて、前記文書の前記所定領域内でスキャンされた前記テキストの上の前記携帯電話の第3の動きを検知するステップであって、前記第3の動きは、前記所定方向で発生し、前記所定方向は、逐次的に取得した第3の画像の前記第3の比較に基づいて計算される第3の運動ベクトルに基づいて判定される、ステップと、
    前記携帯電話によって、前記第2の運動ベクトルに基づいて、前記携帯電話の前記第3の動きが、前記携帯電話上の事前設定された動きの前記ライブラリに保存された第3の事前設定された動きに適合する動きであることを解釈するステップであって、前記第3の事前設定された動きが、前記文書の電子コピー内のテキストを修正するコマンドに関連する、ステップと、
    前記携帯電話によって、前記携帯電話の前記第3の動きの解釈に応答して、前記文書の前記電子コピー内で選択された前記テキストを修正するステップと、をさらに備える請求項2に記載の方法。
  4. 前記携帯電話によって、前記携帯電話によって取得された逐次的に取得した第4の画像の第4の比較に基づいて、前記文書の前記所定領域内でスキャンされた前記テキストの上の前記携帯電話の第4の動きを検知するステップであって、前記第4の動きは、前記所定方向と反対の方向で発生し、前記反対の方向は、逐次的に取得した第4の画像の前記第4の比較に基づいて計算される第4の運動ベクトルに基づいて判定される、ステップと、
    前記携帯電話によって、前記第4の運動ベクトルに基づいて、前記携帯電話の前記第4の動きが、前記携帯電話上の事前設定された動きの前記ライブラリに保存された第4の事前設定された動きに適合する動きであることを解釈するステップであって、前記第4の事前設定された動きが、前記文書の電子コピー内のテキストを修正するコマンドに関連する、ステップと、
    前記携帯電話によって、前記携帯電話の前記第4の動きの解釈に応答して、前記文書の前記電子コピー内で選択された前記テキストを修正するステップと、をさらに備える請求項3に記載の方法。
  5. 前記携帯電話によって、前記携帯電話によって取得された逐次的に取得した第5の画像の第5の比較に基づいて、前記文書の前記所定領域内でスキャンされた前記テキストの上の前記携帯電話の第5の動きを検知するステップであって、前記第5の動きは、前記所定方向と反対の方向で発生し、前記反対の方向は、逐次的に取得した第5の画像の前記第5の比較に基づいて計算される第5の運動ベクトルに基づいて判定される、ステップと、
    前記携帯電話によって、前記第5の運動ベクトルに基づいて、前記携帯電話の前記第5の動きが、前記携帯電話上の事前設定された動きの前記ライブラリに保存された第5の事前設定された動きに適合する動きであることを解釈するステップであって、前記第5の事前設定された動きが、前記文書の電子コピー内のテキストを修正するコマンドに関連する、ステップと、
    前記携帯電話によって、前記携帯電話の前記第5の動きの解釈に応答して、前記文書の前記電子コピー内で選択された前記テキストを修正するステップと、をさらに備える請求項4に記載の方法。
  6. 前記携帯電話の前記第1の動きは、前記文書の前記所定領域内でスキャンされた前記テキストの上の前記携帯電話の円運動を含み、
    前記第1の動きを検知するステップは、前記携帯電話の前記円運動を検知するステップを含み、
    前記文書の前記電子コピー内の前記テキストを選択するステップは、前記文書の前記電子コピー内の前記テキストをハイライトすることを含む、請求項1に記載の方法。
  7. 前記円運動を検知するステップは、
    前記文書に印刷されたグリッドを検知するステップであって、印刷された前記グリッドは、前記文書の前記所定領域の前記テキストの上の前記円運動の情報を提供する、ステップ、
    前記円運動によって作成された運動ベクトルから交点を検知するステップ、および、
    前記携帯電話によってスキャンされた前記テキストから前記円運動の垂直方向および水平方向の成分を計算するステップ、のうち少なくとも1つを含む、請求項6に記載の方法。
  8. 前記円運動は、少なくとも時計回り又は反時計回りを含む、請求項6に記載の方法。
  9. 前記所定方向は、左から右への方向、右から左への方向、時計回り、及び反時計回りのうち少なくとも1つを含む、請求項1に記載の方法。
  10. 前記文書の前記電子コピー内で選択された前記テキストを修正するステップは、前記文書の前記電子コピー内で選択された前記テキストをハイライトすることを含み、
    前記方法は、さらに、前記文書の前記電子コピーをライブラリに保存するステップを含み、前記電子コピーは、前記ハイライトされたテキストとともに保存される、請求項1に記載の方法。
  11. 前記携帯電話をオンラインに接続し、前記文書の前記電子コピーを一意的に識別するために、前記文書の前記所定領域からスキャンされた前記テキストを使用することをさらに含む、請求項1に記載の方法。
  12. 前記文書の所定領域からテキストをスキャンするステップは、前記携帯電話がオフラインの間に実行され、
    前記方法は、前記携帯電話に対するオンライン接続が回復した時に、前記電子コピーを一意的に識別するために、前記文書の前記所定領域からスキャンされた前記テキストを使用することをさらに含む、請求項1に記載の方法。
  13. 携帯電話であって、
    文書の所定領域からテキストをスキャンするように構成された光学スキャンデバイスと、
    前記携帯電話によって取得された逐次的に取得した画像の比較に基づいて、前記携帯電話の1つ又は複数の動きを検知するように構成された動きセンサと、を有し、
    前記文書の電子コピーをオープンし、前記電子コピー内のテキストが、前記文書の前記所定領域内でスキャンされた前記テキストに対応するものであり、
    逐次的に取得した画像の前記比較に基づいて計算される運動ベクトルに基づいて、前記携帯電話の1つ又は複数の動きが、前記携帯電話上の事前設定された動きのライブラリに保存された事前設定された動きに適合する動きであることを解釈し、前記事前設定された動きが、前記文書の電子コピー内のテキストを修正するコマンドに関連するものであり、
    前記携帯電話の前記1つ又は複数の動きの解釈に応答して、前記文書の前記電子コピー内の前記テキストを修正する、ように構成されている、携帯電話。
  14. 前記携帯電話は、さらに、
    前記文書の前記電子コピー内の前記テキストをハイライトし、
    前記文書の前記電子コピーをライブラリに保存するように構成され、前記電子コピーは、前記ハイライトされたテキストとともに保存されるものである、請求項13に記載の携帯電話。
JP2011154626A 2004-04-01 2011-07-13 レンダリングされた文書からのハンドヘルド装置を用いたデータ取得 Active JP5529082B2 (ja)

Applications Claiming Priority (198)

Application Number Priority Date Filing Date Title
US55927904P 2004-04-01 2004-04-01
US55837004P 2004-04-01 2004-04-01
US55889304P 2004-04-01 2004-04-01
US55876004P 2004-04-01 2004-04-01
US55878904P 2004-04-01 2004-04-01
US55886704P 2004-04-01 2004-04-01
US55927704P 2004-04-01 2004-04-01
US55927804P 2004-04-01 2004-04-01
US55871704P 2004-04-01 2004-04-01
US55849904P 2004-04-01 2004-04-01
US55922604P 2004-04-01 2004-04-01
US55926504P 2004-04-01 2004-04-01
US55896904P 2004-04-01 2004-04-01
US55879104P 2004-04-01 2004-04-01
US55896804P 2004-04-01 2004-04-01
US55852704P 2004-04-01 2004-04-01
US55889204P 2004-04-01 2004-04-01
US60/558,527 2004-04-01
US60/559,277 2004-04-01
US60/558,892 2004-04-01
US60/558,370 2004-04-01
US60/558,717 2004-04-01
US60/558,968 2004-04-01
US60/558,499 2004-04-01
US60/558,969 2004-04-01
US60/559,226 2004-04-01
US60/558,867 2004-04-01
US60/558,893 2004-04-01
US60/559,278 2004-04-01
US60/558,791 2004-04-01
US60/558,789 2004-04-01
US60/559,279 2004-04-01
US60/559,265 2004-04-01
US60/558,760 2004-04-01
US55890904P 2004-04-02 2004-04-02
US55903304P 2004-04-02 2004-04-02
US55912704P 2004-04-02 2004-04-02
US55908704P 2004-04-02 2004-04-02
US55912504P 2004-04-02 2004-04-02
US55913104P 2004-04-02 2004-04-02
US60/559,127 2004-04-02
US60/559,033 2004-04-02
US60/559,087 2004-04-02
US60/559,131 2004-04-02
US60/558,909 2004-04-02
US60/559,125 2004-04-02
US55976604P 2004-04-06 2004-04-06
US60/559,766 2004-04-06
US56176804P 2004-04-12 2004-04-12
US60/561,768 2004-04-12
US56348504P 2004-04-19 2004-04-19
US56352004P 2004-04-19 2004-04-19
US60/563,485 2004-04-19
US60/563,520 2004-04-19
US56468804P 2004-04-23 2004-04-23
US56484604P 2004-04-23 2004-04-23
US60/564,846 2004-04-23
US60/564,688 2004-04-23
US56666704P 2004-04-30 2004-04-30
US60/566,667 2004-04-30
US57138104P 2004-05-14 2004-05-14
US57156004P 2004-05-14 2004-05-14
US60/571,381 2004-05-14
US60/571,560 2004-05-14
US57171504P 2004-05-17 2004-05-17
US60/571,715 2004-05-17
US58920204P 2004-07-19 2004-07-19
US58920304P 2004-07-19 2004-07-19
US58920104P 2004-07-19 2004-07-19
US60/589,202 2004-07-19
US60/589,203 2004-07-19
US60/589,201 2004-07-19
US59882104P 2004-08-02 2004-08-02
US60/598,821 2004-08-02
US60289604P 2004-08-18 2004-08-18
US60289804P 2004-08-18 2004-08-18
US60293004P 2004-08-18 2004-08-18
US60295604P 2004-08-18 2004-08-18
US60292504P 2004-08-18 2004-08-18
US60294704P 2004-08-18 2004-08-18
US60289704P 2004-08-18 2004-08-18
US60/602,956 2004-08-18
US60/602,896 2004-08-18
US60/602,898 2004-08-18
US60/602,947 2004-08-18
US60/602,925 2004-08-18
US60/602,897 2004-08-18
US60/602,930 2004-08-18
US60308204P 2004-08-19 2004-08-19
US60346604P 2004-08-19 2004-08-19
US60308104P 2004-08-19 2004-08-19
US60/603,466 2004-08-19
US60/603,082 2004-08-19
US60/603,081 2004-08-19
US60335804P 2004-08-20 2004-08-20
US60349804P 2004-08-20 2004-08-20
US60/603,358 2004-08-20
US60/603,498 2004-08-20
US60410204P 2004-08-23 2004-08-23
US60409804P 2004-08-23 2004-08-23
US60410304P 2004-08-23 2004-08-23
US60410004P 2004-08-23 2004-08-23
US60/604,102 2004-08-23
US60/604,103 2004-08-23
US60/604,100 2004-08-23
US60/604,098 2004-08-23
US60510504P 2004-08-27 2004-08-27
US60522904P 2004-08-27 2004-08-27
US60/605,229 2004-08-27
US60/605,105 2004-08-27
US61340004P 2004-09-27 2004-09-27
US61363304P 2004-09-27 2004-09-27
US61346004P 2004-09-27 2004-09-27
US61346104P 2004-09-27 2004-09-27
US61333904P 2004-09-27 2004-09-27
US61334104P 2004-09-27 2004-09-27
US61363204P 2004-09-27 2004-09-27
US61336104P 2004-09-27 2004-09-27
US61362804P 2004-09-27 2004-09-27
US61324204P 2004-09-27 2004-09-27
US61360204P 2004-09-27 2004-09-27
US61363404P 2004-09-27 2004-09-27
US61358904P 2004-09-27 2004-09-27
US61324304P 2004-09-27 2004-09-27
US61334004P 2004-09-27 2004-09-27
US61345604P 2004-09-27 2004-09-27
US61345404P 2004-09-27 2004-09-27
US61345504P 2004-09-27 2004-09-27
US60/613,341 2004-09-27
US60/613,361 2004-09-27
US60/613,456 2004-09-27
US60/613,633 2004-09-27
US60/613,242 2004-09-27
US60/613,634 2004-09-27
US60/613,243 2004-09-27
US60/613,632 2004-09-27
US60/613,460 2004-09-27
US60/613,589 2004-09-27
US60/613,339 2004-09-27
US60/613,340 2004-09-27
US60/613,461 2004-09-27
US60/613,602 2004-09-27
US60/613,628 2004-09-27
US60/613,454 2004-09-27
US60/613,400 2004-09-27
US60/613,455 2004-09-27
US61553804P 2004-10-01 2004-10-01
US61537804P 2004-10-01 2004-10-01
US61511204P 2004-10-01 2004-10-01
US60/615,378 2004-10-01
US60/615,112 2004-10-01
US60/615,538 2004-10-01
US61712204P 2004-10-07 2004-10-07
US60/617,122 2004-10-07
US62290604P 2004-10-28 2004-10-28
US60/622,906 2004-10-28
US11/004,637 US7707039B2 (en) 2004-02-15 2004-12-03 Automatic modification of web pages
US11/004,637 2004-12-03
US63345204P 2004-12-06 2004-12-06
US63345304P 2004-12-06 2004-12-06
US63367804P 2004-12-06 2004-12-06
US63348604P 2004-12-06 2004-12-06
US60/633,486 2004-12-06
US60/633,453 2004-12-06
US60/633,452 2004-12-06
US60/633,678 2004-12-06
US63473904P 2004-12-09 2004-12-09
US63462704P 2004-12-09 2004-12-09
US60/634,739 2004-12-09
US60/634,627 2004-12-09
US64768405P 2005-01-26 2005-01-26
US60/647,684 2005-01-26
US64874605P 2005-01-31 2005-01-31
US60/648,746 2005-01-31
US65337205P 2005-02-15 2005-02-15
US60/653,372 2005-02-15
US65366305P 2005-02-16 2005-02-16
US65366905P 2005-02-16 2005-02-16
US65367905P 2005-02-16 2005-02-16
US65384705P 2005-02-16 2005-02-16
US65389905P 2005-02-16 2005-02-16
US60/653,899 2005-02-16
US60/653,679 2005-02-16
US60/653,847 2005-02-16
US60/653,663 2005-02-16
US60/653,669 2005-02-16
US65437905P 2005-02-17 2005-02-17
US60/654,379 2005-02-17
US65419605P 2005-02-18 2005-02-18
US65432605P 2005-02-18 2005-02-18
US65436805P 2005-02-18 2005-02-18
US60/654,326 2005-02-18
US60/654,196 2005-02-18
US60/654,368 2005-02-18
US65528005P 2005-02-22 2005-02-22
US65569705P 2005-02-22 2005-02-22
US60/655,280 2005-02-22
US60/655,697 2005-02-22

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2007506296A Division JP5238249B2 (ja) 2004-04-01 2005-04-01 レンダリングされた文書からのハンドヘルド装置を用いたデータ取得

Publications (2)

Publication Number Publication Date
JP2012009033A JP2012009033A (ja) 2012-01-12
JP5529082B2 true JP5529082B2 (ja) 2014-06-25

Family

ID=43365214

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2007506296A Expired - Fee Related JP5238249B2 (ja) 2004-04-01 2005-04-01 レンダリングされた文書からのハンドヘルド装置を用いたデータ取得
JP2011154626A Active JP5529082B2 (ja) 2004-04-01 2011-07-13 レンダリングされた文書からのハンドヘルド装置を用いたデータ取得

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2007506296A Expired - Fee Related JP5238249B2 (ja) 2004-04-01 2005-04-01 レンダリングされた文書からのハンドヘルド装置を用いたデータ取得

Country Status (1)

Country Link
JP (2) JP5238249B2 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9769354B2 (en) 2005-03-24 2017-09-19 Kofax, Inc. Systems and methods of processing scanned data
JP2008129713A (ja) * 2006-11-17 2008-06-05 Fujitsu Ltd 複数のモダリティを関連付けるための方法、そのプログラムおよび複数モダリティを関連付けるマルチモーダルシステム
US10095375B2 (en) 2008-07-09 2018-10-09 Apple Inc. Adding a contact to a home screen
US9767354B2 (en) 2009-02-10 2017-09-19 Kofax, Inc. Global geographic information retrieval, validation, and normalization
US9576272B2 (en) 2009-02-10 2017-02-21 Kofax, Inc. Systems, methods and computer program products for determining document validity
US10146795B2 (en) 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
TWI492166B (zh) 2012-01-12 2015-07-11 Kofax Inc 行動影像擷取和處理的系統和方法
US10354004B2 (en) 2012-06-07 2019-07-16 Apple Inc. Intelligent presentation of documents
EP2973226A4 (en) 2013-03-13 2016-06-29 Kofax Inc CLASSIFICATION OF OBJECTS ON DIGITAL IMAGES RECORDED BY MOBILE DEVICES
US9355312B2 (en) 2013-03-13 2016-05-31 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US9208536B2 (en) 2013-09-27 2015-12-08 Kofax, Inc. Systems and methods for three dimensional geometric reconstruction of captured image data
US20140316841A1 (en) 2013-04-23 2014-10-23 Kofax, Inc. Location-based workflows and services
DE202014011407U1 (de) 2013-05-03 2020-04-20 Kofax, Inc. Systeme zum Erkennen und Klassifizieren von Objekten in durch Mobilgeräte aufgenommenen Videos
US9386235B2 (en) 2013-11-15 2016-07-05 Kofax, Inc. Systems and methods for generating composite images of long documents using mobile video data
US9760788B2 (en) 2014-10-30 2017-09-12 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
US10242285B2 (en) 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
CN105376412A (zh) * 2015-12-01 2016-03-02 小米科技有限责任公司 信息处理的方法及装置
US11055552B2 (en) * 2016-01-12 2021-07-06 Disney Enterprises, Inc. Systems and methods for detecting light signatures and performing actions in response thereto
US9779296B1 (en) 2016-04-01 2017-10-03 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
US10803350B2 (en) 2017-11-30 2020-10-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3398981B2 (ja) * 1992-07-31 2003-04-21 ソニー株式会社 手書き入力情報処理装置
JPH0887378A (ja) * 1994-09-19 1996-04-02 Nec Corp マウス動作認識によるコマンド実行方式
US5757360A (en) * 1995-05-03 1998-05-26 Mitsubishi Electric Information Technology Center America, Inc. Hand held computer control device
GB9922214D0 (en) * 1999-09-20 1999-11-17 Ncr Int Inc Creation transmission and retrieval of information
JP2001203837A (ja) * 2000-01-19 2001-07-27 Masamitsu Ishihara ファクシミリ機能付携帯電話機
GB2366033B (en) * 2000-02-29 2004-08-04 Ibm Method and apparatus for processing acquired data and contextual information and associating the same with available multimedia resources
JP2002176674A (ja) * 2000-12-05 2002-06-21 Nec Corp 撮像手段付き携帯電話装置
JP2002232532A (ja) * 2001-01-09 2002-08-16 Bisuketto Networks Inc 手持操作型電子機器
GB2382879A (en) * 2001-12-06 2003-06-11 Hewlett Packard Co Image capture device with capture field illumination

Also Published As

Publication number Publication date
JP2012009033A (ja) 2012-01-12
JP2010536188A (ja) 2010-11-25
JP5238249B2 (ja) 2013-07-17

Similar Documents

Publication Publication Date Title
US10769431B2 (en) Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
JP5529082B2 (ja) レンダリングされた文書からのハンドヘルド装置を用いたデータ取得
KR101257206B1 (ko) 렌더링된 문서를 식별하기 위한 디바이스 및 방법
US9143638B2 (en) Data capture from rendered documents using handheld device
US8619147B2 (en) Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US9684902B2 (en) Processing techniques for text capture from a rendered document
US8903759B2 (en) Determining actions involving captured information and electronic content associated with rendered documents
JP2010536188A6 (ja) レンダリングされた文書からのハンドヘルド装置を用いたデータ取得
US20100278453A1 (en) Capture and display of annotations in paper and electronic documents
WO2006036853A2 (en) Handheld device for capturing
US10504162B2 (en) Processing techniques for text capture from a rendered document
JP2008516297A6 (ja) レンダリングされた文書からの視覚的取得データに対する処理技術
JP2008516297A (ja) レンダリングされた文書からの視覚的取得データに対する処理技術
KR101178302B1 (ko) 헨드헬드 디바이스를 사용한, 렌더링된 문서로부터의데이터 캡쳐
EP1759282A2 (en) Data capture from rendered documents using handheld device

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130221

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130520

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130523

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130620

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130625

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130722

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130826

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140206

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140317

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140416

R150 Certificate of patent or registration of utility model

Ref document number: 5529082

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250