JP5496987B2 - レンダリングされた文書からの視覚的取得データに対する処理技術 - Google Patents

レンダリングされた文書からの視覚的取得データに対する処理技術 Download PDF

Info

Publication number
JP5496987B2
JP5496987B2 JP2011248290A JP2011248290A JP5496987B2 JP 5496987 B2 JP5496987 B2 JP 5496987B2 JP 2011248290 A JP2011248290 A JP 2011248290A JP 2011248290 A JP2011248290 A JP 2011248290A JP 5496987 B2 JP5496987 B2 JP 5496987B2
Authority
JP
Japan
Prior art keywords
document
text
user
documents
rendered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011248290A
Other languages
English (en)
Other versions
JP2012094156A5 (ja
JP2012094156A (ja
Inventor
マーティン ティー. キング,
クリフォード エー. クシュラー,
ジェームス クエンティン スタッフォード−フレーザー,
デール ローレンス グローバー,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US11/004,637 external-priority patent/US7707039B2/en
Priority claimed from US11/097,093 external-priority patent/US20060041605A1/en
Priority claimed from US11/097,961 external-priority patent/US20060041484A1/en
Priority claimed from US11/098,043 external-priority patent/US20060053097A1/en
Application filed by Google LLC filed Critical Google LLC
Publication of JP2012094156A publication Critical patent/JP2012094156A/ja
Publication of JP2012094156A5 publication Critical patent/JP2012094156A5/ja
Application granted granted Critical
Publication of JP5496987B2 publication Critical patent/JP5496987B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9554Retrieval from the web using information identifiers, e.g. uniform resource locators [URL] by using bar codes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled

Description

(関連出願の相互参照)
本願は、以下の出願の一部継続出願であり、これら出願のそれぞれは、参考によりその全容が援用される。米国特許出願第11/004,637号(2004年12月3日出願)、米国特許出願第11/097,961号(タイトル「METHODS AND SYSTEMS FOR INITIATING APPLICATION PROCESSES BY DATA CAPTURE FROM RENDERED DOCUMENTS」)、米国特許出願第11/097,093号(タイトル「DETERMINING ACTIONS INVOLVING CAPTURED INFORMATION AND ELECTRONIC CONTENT ASSOCIATED WITH RENDERED DOCUMENTS」)、米国特許出願第11/098,038号(タイトル「CONTENT ACCESS WITH HANDHELD DOCUMENT DATA CAPTURE DEVICES」)、米国特許出願第11/098,014号(タイトル「SEARCH ENGINES AND SYSTEMS WITH HANDHELD DOCUMENT DATA CAPTURE DEVICES」)、米国特許出願第11/097,103号(タイトル「TRIGGERING ACTIONS IN RESPONSE TO OPTICALLY OR ACOUSTICALLY CAPTURING KEYWORDS FROM A RENDERED DOCUMENT」)、米国特許出願第11/098,043号(タイトル「SEARCHING AND ACCESSING DOCUMENTS ON PRIVATE NETWORKS FOR USE WITH CAPTURES FROM RENDERED DOCUMENTS」)、米国特許出願第11/097,981号(タイトル「INFORMATION GATHERING SYSTEM AND METHOD」)、米国特許出願第11/097,089号(タイトル「DOCUMENT ENHANCEMENT SYSTEM AND METHOD」)、米国特許出願第11/097,835号(タイトル「PUBLISHING TECHNIQUES FOR ADDING VALUE TO A RENDERED DOCUMENT」)、米国特許出願第11/098,016号(タイトル「ARCHIVE OF TEXT CAPTURES FROM RENDERED DOCUMENTS」)、米国特許出願第11/097,828号(タイトル「ADDING INFORMATION OR FUNCTIONALITY TO A RENDERED DOCUMENT VIA ASSOCIATION WITH AN ELECTRONIC COUNTERPART」)、米国特許出願第11/097,833号(タイトル「AGGREGATE ANALYSIS OF TEXT CAPTURES PERFORMED BY MULTIPLE USERS FROM RENDERED DOCUMENTS」)、米国特許出願第 11/097,836号(タイトル「ESTABLISHING AN INTERACTIVE ENVIRONMENT FOR RENDERED DOCUMENTS」)、米国特許出願第11/098,042号(タイトル「DATA CAPTURE FROM RENDERED DOCUMENTS USING HANDHELD DEVICE」)、および米国特許出願第11/096,704号(タイトル「CAPTURING TEXT FROM RENDERED DOCUMENTS USING SUPPLEMENTAL INFORMATION」)。
本願は、以下の米国仮特許出願に対する優先権を主張し、参照することにより、それら出願の全容を援用する。出願番号第60/563,520号(2004年4月19日出願)、出願番号第60/563,485号(2004年4月19日出願)、出願番号第60/564,688号(2004年4月23日出願)、出願番号第60/564,846号(2004年4月23日出願)、出願番号第60/556,667号(2004年4月30日出願)、出願番号第60/571,381号(2004年5月14日出願)、出願番号第60/571,560号(2004年5月14日出願)、出願番号第60/571,715号(2004年5月17日出願)、出願番号第60/589,203号(2004年7月19日出願)、出願番号第60/589,201号(2004年7月19日出願)、出願番号第60/589,202号(2004年7月19日出願)、出願番号第60/598,821号(2004年8月2日出願)、出願番号第60/602,956号(2004年8月18日出願)、出願番号第60/602,925号(2004年8月18日出願)、出願番号第60/602,947号(2004年8月18日出願)、出願番号第60/602,897号(2004年8月18日出願)、出願番号第60/602,896号(2004年8月18日出願)、出願番号第60/602,930号(2004年8月18日出願)、出願番号第60/602,898号(2004年8月18日出願)、出願番号第60/603,466号(2004年8月19日出願)、出願番号第60/603,082号(2004年8月19日出願)、出願番号第60/603,081号(2004年8月19日出願)、出願番号第60/603,498号(2004年8月20日出願)、出願番号第60/603,358号(2004年8月20日出願)、出願番号第60/604,103号(2004年8月23日出願)、出願番号第60/604,098号(2004年8月23日出願)、出願番号第60/604,100号(2004年8月23日出願)、出願番号第60/604,102号(2004年8月23日出願)、出願番号第60/605,229号(2004年8月27日出願)、出願番号第60/605,105号(2004年8月27日出願)、出願番号第60/613,243号(2004年9月27日出願)、出願番号第60/613,628号(2004年9月27日出願)、出願番号第60/613,632号(2004年9月27日出願)、出願番号第60/613,589号(2004年9月27日出願)、出願番号第60/613,242号(2004年9月27日出願)、出願番号第60/613,602号(2004年9月27日出願)、出願番号第60/613,340号(2004年9月27日出願)、出願番号第60/613,634号(2004年9月27日出願)、出願番号第60/613,461号(2004年9月27日出願)、出願番号第60/613,455号(2004年9月27日出願)、出願番号第60/613,460号(2004年9月27日出願)、出願番号第60/613,400号(2004年9月27日出願)、出願番号第60/613,456号(2004年9月27日出願)、出願番号第60/613,341号(2004年9月27日出願)、出願番号第60/613,361号(2004年9月27日出願)、出願番号第60/613,454号(2004年9月27日出願)、出願番号第60/613,339号(2004年9月27日出願)、出願番号第60/613,633号(2004年9月27日出願)、出願番号第60/615,378号(2004年10月1日出願)、出願番号第60/615,112号(2004年10月1日出願)、出願番号第60/615,538号(2004年10月1日出願)、出願番号第60/617,122号(2004年10月7日出願)、出願番号第60/622,906号(2004年10月28日出願)、出願番号第60/633,452号(2004年12月6日出願)、出願番号第60/633,678号(2004年12月6日出願)、出願番号第60/633,486号(2004年12月6日出願)、出願番号第60/633,453号(2004年12月6日出願)、出願番号第60/634,627号(2004年12月9日出願)、出願番号第60/634,739号(2004年12月9日出願)、出願番号第60/647,684号(2005年1月26日出願)、出願番号第60/648,746号(2005年1月31日出願)、出願番号第60/653,372号(2005年2月15日出願)、出願番号第60/653,663号(2005年2月16日出願)、出願番号第60/653,669号(2005年2月16日出願)、出願番号第60/653,899号(2005年2月16日出願)、出願番号第60/653,679号(2005年2月16日出願)、出願番号第60/653,847号(2005年2月16日出願)、出願番号第60/654,379号(2005年2月17日出願)、出願番号第60/654,368号(2005年2月18日出願)、出願番号第60/654,326号(2005年2月18日出願)、出願番号第60/654,196号(2005年2月18日出願)、出願番号第60/655,279号(2005年2月22日出願)、出願番号第60/655,280号(2005年2月22日出願)、出願番号第60/655,987号(2005年2月22日出願)、出願番号第60/655,697号(2005年2月22日出願)、出願番号第60/655,281号(2005年2月22日出願)、および出願番号第60/657,309号(2005年2月28日出願)。
(技術分野)
記載技術は、文書処理の分野を対象とするものである。
紙の文書は、コンピュータ時代における紙の文書の急増によりわかるように、揺るぎない魅力を有する。現在ほど紙の文書を印刷し発行することが容易なときはない。複写、伝送、検索、および編集するのに電子文書のほうが容易であっても、紙の文書は普及している。
紙の文書の人気および電子文書の利点を鑑みて、両方の利益を組み合わせることが有用であろう。
概要
レンダリングされた文書(例えば、印刷または表示された文書)、およびこれらの文書の関連デジタル「ソース」、「副本」、または「参考資料」版を解釈し、それと情報をやりとりするためのシステム(「システム」)について説明する。いくつかの実施形態において、システム自体は、場合によってはこの機能を実行することがあるが、文字の認識および解釈に直接的に関与しておらず、印刷された文字を認識および理解することに関わっていない。むしろ、システムは、文書の版が既知であること、機械可読(例えば、ASCIIまたは他の何らかの機械可読テキスト)ソースまたは参考資料版文書が手元にある、または機械アクセス可能である、もしくは将来利用可能にされるであろうことを想定している。システムは、ナビゲーション(すなわち、文書内でロケーションを測定すること)のためにレンダリングされた文書内において様々な特徴(テキストを含む)を使用する。ロケーションは次にユーザ機能およびインタラクションの豊富なセットを可能にするために使用され、そのうちの一部を以下で説明する。
システムは、ロケーション情報を測定するため、部分的に、文書内においてマーク(例えば、テキストおよび任意のレンダリングされた補足情報マーク)のパターンを解釈および解読するプロセスに基づいている。様々な実施形態において、このロケーション情報は、文書自体―例えば、文書内のロケーションから、多くの場合、単一の段落、文、単語および単一の文字に至るまで―に関連している。しかしながら、文書の特別なレンダリングの物理的なレイアウトも既知である場合、ロケーション情報は、ディスプレイ画面または印刷されたページ等の上のロケーションに変換される場合がある。
システムの様々な実施形態を論じる上で、「印刷されたテキスト」という用語が用いられる。「印刷された」は、人間に可読であるあらゆる形態(例えば、紙上、ディスプレイ画面上、点字フォーマット等)でレンダリングする文書に対する一般的な意味で使用される。多くの場合、システムの様々な特徴およびアプリケーションは、句読点、グラフィックおよび画像、特別なマーク等、非英数字のレンダリングされたコンテンツによく当てはまることを理解すべきである。システムの実施形態は、これらのさらなる使用法を含む。
図1は、コアシステムの一実施形態における情報の流れを示すデータフロー図である。 図2は、一般的な動作環境という状況におけるシステムの一般的な実装に含まれるコンポーネントのコンポーネント図である。 図3は、スキャナの実施形態のブロック図である。 図4は、システムの実施形態が動作する一般的な環境を示す図である。 図5は、ブックマークを実装するために、システムによって一般に実行されるステップを示すフロー図である。 図6は、統合された蛍光ペンとペンを有するスキャン装置を示す図である。 図7は、テキスト取得アクションを処理するために、システムによって一般に実行されるステップを示すフロー図である。 8a〜8dは、2文字のアルファベットがどのようにしてしばしば複数のフォントでほぼ同一の「相対」形状を有するかを示す。 図9は、自己認識を使用して新しいシンボルのセット全体を学習するために、いくつかの実施形態において機能によって使用されるアプローチを示す図である。 図10は、垂直および水平延長を自己定義する、図9に示されるシンボルのサブセットを示す図である。 図11は、図9に示すシンボルのいくつかの間の関係を示す図である。
第1部‐導入部
1.システムの性質
電子副本を有するすべての紙の文書について、電子副本を識別することができる情報が紙の文書内に離散的な量で存在する。いくつかの実施形態において、システムは、例えば携帯用スキャナを使用して、文書の電子副本を識別し位置を特定するために、紙の文書から取得(capture)したテキストのサンプルを使用する。ほとんどの場合、機能によって必要とされるテキストの量は極めて少なく、そのうち紙の文書のための識別子およびその電子副本へのリンクとして頻繁に機能することができるのは、文書からのテキストのうち数単語である。また、システムはそれらの数単語を使用して、文書だけでなく、文書内のロケーションも識別することができる。
したがって、紙の文書およびそれらのデジタル副本は、本明細書において論じるシステムを使用して、多数の有用な方法で関連することができる。
1.1.将来の俯瞰
システムが、紙の文書内にあるテキストの一部分を確立された特定のデジタルエンティティと関連付けると、システムは当該関連付けにおいて膨大な機能性を築くことができる。
ほとんどの紙の文書が、ワールドワイドウェブ上で、もしくは他の何らかのオンラインデータベースまたは文章集合からアクセス可能である、あるいは、手数料またはサブスクリプション料の支払い等を受けてアクセス可能にされることができる。そこで、最も単純なレベルでは、ユーザが紙の文書内の数単語をスキャンする場合、システムは当該電子副本またはその一部を取り出す、もしくは表示する、それを誰かに電子メールで送る、購入する、印刷する、またはウェブページに掲載することができる。さらなる例として、ある人物が朝食をとりながら読んでいる本の数単語をスキャンすることにより、当該人物の車内にあるオーディオブック版に、当該人物が仕事に向かうために車を発進させた時点から読み始めさせることができ、または、プリンタカートリッジの製造番号をスキャンすることにより、交換品注文のプロセスを始めることができる。
システムは、文書を書き、印刷し、発行する現在のプロセスを変更する必要なく、該当する従来のレンダリングされた文書にデジタル機能性の全く新しい層を与えて、「紙/デジタル統合」のこれらおよび他の多数の例を実装する。
1.2.用語
システムの一般的な使用は、紙の文書からテキストをスキャンするために光学スキャナを使用することから始まるが、他のタイプの文書から取得する他の方法も同様に適用できることに留意することが重要である。したがってシステムは、レンダリングされた文書からテキストをスキャンまたは取得することとして説明される場合があり、ここでそれらの用語を以下のように定義する。
レンダリングされた文書は、印刷された文書もしくはディスプレイまたはモニタに示された文書である。永続的な形態であっても一時的な表示であっても、人間が知覚できるのが文書である。
スキャンまたは取得は、レンダリングされた文書から情報を取得するための系統的検査のプロセスである。当該プロセスは、スキャナまたはカメラ(例えば、携帯電話のカメラ)を使用する光取得を含んでよく、もしくは、文書から音声取得装置への読み上げ、またはキーパッドまたはキーボードへの打ち込みを含んでもよい。それ以上の例については、第15項を参照のこと。
2.システムへの導入
この項では、紙/デジタル統合のためのシステムの構成要素となるデバイス、プロセス、およびシステムのいくつかを説明する。様々な実施形態において、システムは、基本機能を提供するこの基本コア上に、多種多様なサービスおよびアプリケーションを築く。
2.1.プロセス
図1は、コアシステムの一実施形態における情報の流れを示すデータフロー図である。他の実施形態は、本明細書において図示されている段階または要素のすべてを使用することはできないが、さらに多くを使用するものもある。
レンダリングされた文書から、一般に光学スキャナによる光学形態またはボイスレコーダによる音声形態でテキストが取得100され、次いでこの画像またはサウンドデータが、例えば取得プロセスのアーチファクトを除去するため、または信号対ノイズ比を改善するために処理102される。次いで、OCR、スピーチ認識、または自己相関等の認識プロセス104は、データを、いくつかの実施形態ではテキスト、テキストオフセット、または他のシンボルを含む署名に変換する。あるいは、システムは、レンダリングされた文書からの文書署名抽出の代替形態を実行する。署名は、いくつかの実施形態において可能なテキスト転写のセットを表す。このプロセスは、例えば、検索プロセスおよびコンテキスト解析110が、取得が起こり得るいくつかの候補文書を識別し、したがって元の取得の可能な解釈を狭めた場合等、他の段階からのフィードバックに影響され得る。
後処理106段階は、認識プロセスの出力を獲得し、有用となるように、それをフィルタまたはそれに対して他の該当する操作を実行することができる。実装されている実施形態によって、この段階において、例えば、ユーザの意図を伝達するために十分な情報をそれ自体に含むフレーズまたはシンボルが取得された場合等、後の段階と無関係に直ちにとられるいくつかの直接実行107を推測することができることがある。これらの場合にはデジタル副本文書を参照する必要も、またシステムに知らせる必要さえない。
しかしながら、一般に、次の段階は検索に使用するためのクエリー108またはクエリーのセットを構築することであろう。クエリー構築のいくつかの側面は使用される検索プロセスによる場合があり、そのため次の段階まで実行できないが、明らかに誤認識された、または不適切な文字の除去等、一般には事前に実行され得るいくつかの操作があるだろう。
クエリーは、検索およびコンテキスト解析段階110に渡される。ここで、システムは任意で、元のデータが取得された文書を識別しようと試みる。そうするために、システムは一般に、検索インデックスおよび検索エンジン112、ユーザ114についての知識およびユーザコンテキストまたは取得が行われたコンテキスト116についての知識を使用する。検索エンジン112は、特にレンダリングされた文書について、それらのデジタル副本文書について、およびウェブ(インターネットプレゼンス)を有する文書についての情報を用いる、かつ/またはインデックスを付けることができる。これらのソースの多くから読み出すのに加えてこれらに書き込むこともでき、既に述べたように、例えば、候補文書についてのその知識に基づいて、認識システム104に言語、フォント、レンダリングおよび次に来そうな単語についての情報を与えることによって、プロセスの他の段階へ情報を供給することができる。
状況次第で、次の段階は識別された文書のコピーを取り出す120。文書124のソースは、例えばローカルファイリングシステムまたはデータベースもしくはウェブサーバから直接的にアクセス可能であるか、もしくは、認証、セキュリティ、または支払いを強制するかもしれない、または文書の所望のフォーマットへの変換等、他のサービスを提供できる、いくつかのアクセスサービス122を介して接触される必要がある場合がある。
システムのアプリケーションは、余分の機能またはデータの、文書の一部またはすべてとの関連付けを利用することができる。例えば、第10.4項で論じられる広告アプリケーションは、特定の広告メッセージまたはサブジェクトの、文書の一部との関連付けを使用することができる。この余分の関連機能性またはデータは、文書における1つ以上のオーバーレイと考えることができ、本明細書では「マークアップ」と称される。次いで、プロセス130の次の段階は、取得されたデータに関連するあらゆるマークアップを識別することである。該当するマークアップは、文書のユーザ、起案者、または発行者、もしくは他の何らかの関係者によって提供されることができ、いくつかのソース132から直接的にアクセス可能であってよく、あるいはいくつかのサービス134によって発生してよい。様々な実施形態において、マークアップは、レンダリングされた文書および/またはレンダリングされた文書に対する、もしくはこれらの文書のいずれかまたは両方の群に対するデジタル副本に関連してよく、またはそれらに適用されてよい。
最後に、初期段階の結果として、いくつかのアクションがとられる140。これらは見つかった情報を単に記録する等のデフォルトアクションであってよく、データまたは文書に依存してよく、またはマークアップ解析から導出されたものであってよい。時にはアクションが単にデータを別のシステムに渡す場合もあるであろう。レンダリングされた文書内の一定時点における取得に適した様々な可能なアクションが、関連ディスプレイ上、例えばローカルディスプレイ332上、コンピュータディスプレイ212上もしくは携帯電話またはPDAディスプレイ216上に、メニューとしてユーザに対して提示される場合があるであろう。ユーザがメニューに応答しない場合、デフォルトアクションがとられる場合がある。
2.2.コンポーネント
図2は、一般的な動作環境という状況におけるシステムの一般的な実装に含まれるコンポーネントのコンポーネント図である。図示するように、動作環境は、1つ以上の光学スキャン取得装置202または音声取得装置204を含む。いくつかの実施形態において、同一のデバイスは両方の機能を実行する。各取得装置は、直接配線または無線接続のいずれかを使用して、もしくは、有線または無線接続を使用して通信を行うことができ、後者は一般的に無線基地局214を含むネットワーク220を介して、コンピュータ212および移動局216(例えば、携帯電話またはPDA)等システムの他の部分と通信を行うことができる。いくつかの実施形態において、取得装置は移動局に統合され、音声通信および写真撮影のためにデバイスで使用されるいくつかの音声および/または光学コンポーネントを任意で共有する。
コンピュータ212は、スキャン装置202および204からの指令を処理するためのコンピュータで実行可能な命令を含む記憶装置を含んでよい。例のように、指令は、識別子(スキャン装置202/204の製造番号もしくはスキャナのユーザを部分的にまたは一意に識別する識別子等)、スキャンコンテキスト情報(例えば、スキャン時刻、スキャン位置等)および/またはスキャンされている文書を一意に識別するために使用されるスキャンされた情報(テキスト文字列等)を含んでよい。代替の実施形態において、動作環境は多かれ少なかれコンポートを含んでよい。
検索エンジン232、文書ソース234、ユーザアカウントサービス236、マークアップサービス238、および他のネットワークサービス239も、ネットワーク220上で利用可能である。ネットワーク220は、企業イントラネット、公衆インターネット、携帯電話ネットワークまたは他の何らかのネットワーク、もしくは上記のいかなる相互接続であってもよい。
デバイスが互いに連結される方式にかかわらず、それらは既知の商取引および通信プロトコル(例えば、インターネットプロトコル(IP))に従って動作可能である。様々な実施形態において、スキャン装置202、コンピュータ212、および移動局216の機能および性能は、完全に、または部分的に、1つのデバイスに統合されてよい。したがって、スキャン装置、コンピュータ、および移動局という用語は、当該デバイスが、スキャン装置202、コンピュータ212、および移動局216の機能または性能を組み込むか否かによって、同一のデバイスをいうことができる。また、検索エンジン232、文書ソース234、ユーザアカウントサービス236、マークアップサービス238、および他のネットワークサービス239のいくつかまたはすべての機能は、これらのデバイスおよび/または図示されていない他のデバイスのいずれにおいて実装されてもよい。
2.3.取得装置
上述のように、取得装置は、レンダリングされた文書から画像データを取得する光学スキャナを使用して、もしくはユーザの口頭によるテキストの読み上げを取得する音声記録装置、または他の方法を使用して、テキストを取得することができる。取得装置のいくつかの実施形態は、バーコード等の機械可読コードを含む、画像、グラフィカルシンボルおよびアイコン等を取得することもできる。当該デバイスは非常に単純で、ただトランデューサ、いくつかの記憶領域、およびデータインターフェースのみからなり、システムのどこか他の場所にある他の機能性に依存しているか、またはさらにフル装備のデバイスであってよい。例として、この項では、光学スキャナに基づき、適当な数の特徴を持つデバイスを説明する。
スキャナは、画像を取得しデジタル化する既知のデバイスである。写真式複写機業界の副産物である最初のスキャナは、文書のページ全体を一度に取得する比較的大きなデバイスであった。近年、ペン型の携帯用デバイス等、便利なフォームファクタの携帯光学スキャナが導入されてきた。
いくつかの実施形態において、携帯スキャナを使用して、レンダリングされた文書から、テキスト、グラフィック、またはシンボルをスキャンすることができる。携帯スキャナは、レンダリングされた文書から、テキスト、シンボル、グラフィック等を取得するスキャン要素を有する。紙に印刷された文書に加えて、いくつかの実施形態では、レンダリングされた文書は、CRTモニタまたはLCDディスプレイ等の画面上に表示された文書を含む。
図3は、スキャナ302の実施形態のブロック図である。スキャナ302は、レンダリングされた文書から情報をスキャンし、それを機械互換性のあるデータに変換するための光学スキャンヘッド308および光学経路306、一般に、レンダリングされた文書からスキャンヘッドへ画像を伝達するためのレンズ、口径または画像ルートを備える。スキャンヘッド308は、電荷結合素子(CCD)、相補型金属酸化膜半導体(CMOS)撮像素子、または別のタイプの光センサを組み込んでよい。
マイクロホン310および関連回路は環境の音(話されている言葉を含む)を機械互換性のある信号に変換し、他の入力機能は、ボタン、スクロールホイール、またはタッチパッド314等他の接触センサの形態で存在する。
視覚ディスプレイまたはインジケータライト332を介して、拡声器または他の音声変換器334を介して、および振動モジュール336を介して、ユーザへのフィードバックが可能である。
スキャナ302は、場合によっては受信した信号を異なるフォーマットおよび/または解釈に処理する、他の様々なコンポーネントと情報をやりとりするためのロジック326を備える。ロジック326は、RAM、ROM、フラッシュ、または他の適合する記憶装置等、関連する記憶領域330に格納されているデータおよびプログラム命令を読み出しおよび書き込みするために動作可能であってよい。また、クロックユニット328からのタイムシグナルを読み出してもよい。スキャナ302は、スキャンされた情報および他の信号をネットワークおよび/または関連コンピュータ機器に伝えるためのインターフェース316も含む。いくつかの実施形態において、スキャナ302はオンボード電源332を有してよい。他の実施形態において、スキャナ302は、ユニバーサルシリアルバス(USB)接続等、別のデバイスへのテザー接続を動力源としてよい。
スキャナ302の一使用例として、読者は、スキャナ302で新聞記事からいくつかのテキストをスキャンすることができる。テキストは、スキャンヘッド308を介してビットマップ画像としてスキャンされる。ロジック326は、クロックユニット328から読み出された関連するタイムスタンプとともにビットマップ画像を記憶装置330に格納させる。ロジック326は、それをテキストに変換するために、ビットマップ画像について光学式文字認識(OCR)または他のスキャン後処理を実行してもよい。ロジック326は、任意で、例えば繰り返し発生する文字、シンボル、またはオブジェクトの位置を特定するための畳み込みのようなプロセスを実行することによって画像から署名を抽出し、これらの繰り返される要素の間にある他の文字、シンボル、またはオブジェクトの距離または数を測定することができる。読者は次いでビットマップ画像(または、スキャン後処理がロジック326によって実行された場合、テキストまたは他の署名)を、インターフェース316を介して関連するコンピュータにアップロードすることができる。
スキャナ302の別の使用例として、読者は、マイクロホン310を音響取得ポートとして使用して、記事からいくつかのテキストを音声ファイルとして取得することができる。ロジック326は、音声ファイルを記憶装置328に格納させる。ロジック326は、それをテキストに変換するために、音声ファイルについて音声認識または他のスキャン後処理を実行することもできる。上記のように、読者は次いで音声ファイル(または、ロジック326により実行されたスキャン後処理によって作り出されたテキスト)を、インターフェース316を介して関連するコンピュータにアップロードすることができる。
第2部‐コアシステムのエリアの概要
紙‐デジタル統合が一般的になるにつれて、現行の技術にはこの統合をさらにうまく利用するため、またはそれをさらに効率的に実装できるようにするために変更され得る多くの側面がある。この項では、それらの問題を明らかにする。
3.検索
文書の集合を検索することは、ワールドワイドウェブのように大きな集合でさえ、一般ユーザにとって普通のことになってきて、ユーザはキーボードを使用して検索エンジンに送信される検索クエリーを構築する。この項および事項では、レンダリングされた文書からの取得に由来するクエリーの構築および該当するクエリーを扱う検索エンジンの両方の側面について論じる。
3.1.スキャン/スピーク/検索クエリー時のタイプ
説明したシステムの使用は、一般に、上記の第1.2項で述べたものを含むいくつかの方法のうちいずれかを使用して、レンダリングされた文書から取得される数単語で始まる。入力が、それをテキストに変換するために何らかの解釈を必要とする場合、例えばOCRまたはスピーチ入力の場合、文書集合を使用して認識プロセスを促進できるように、システム内においてエンドツーエンドフィードバックがあってよい。エンドツーエンドフィードバックは、認識または解釈の近似を実行し、文書と一致する1つ以上の候補のセットを識別し、次いで、候補文書内の可能な一致からの情報を使用して認識または解釈をさらに洗練および制限することによって適用できる。候補文書は、推定関連性に従って(例えば、これらの文書内のスキャンを行った他のユーザの数、またはインターネット上でのそれらの人気に基づいて)重み付けされることができ、これらの重み付けはこの反復認識プロセスに適用されることができる。
3.2.短いフレーズの検索
数単語に基づく検索クエリーの選択力はこれらの単語の相対位置が既知である場合に大幅に強化されるため、システムが集合内のテキストのロケーションを識別するために取得される必要があるのは少量のテキストのみである。通常、入力テキストは、短いフレーズ等の連続的な単語の配列であろう。
3.2.1.短い取得から文書および文書内のロケーションを見つける
フレーズが由来する文書の位置を特定することに加えて、システムは当該文書内のロケーションを識別し、この知識に基づいてアクションをとることができる。
3.2.2.ロケーションを見つける他の方法
システムは、レンダリングされた文書において透かしまたは他の特別なマーキングを使用する等による、文書およびロケーションを発見する他の方法を用いてもよい。
3.3.検索クエリーへの他のファクタの組み込み
取得されたテキストに加えて、他のファクタ(すなわち、ユーザID、プロファイル、コンテキストについての情報)が、取得時刻、ユーザのIDおよび地理的位置、ユーザの習慣および最近のアクティビティについての知識等、検索クエリーの一部を形成してよい。
文書IDおよび前回の取得に関する他の情報は、特にそれらがごく最近のものである場合、検索クエリーの一部を形成することができる。
ユーザのIDは、取得装置、および/もしくはバイオメトリックまたは他の補足情報(話し方、指紋等)に関連する一意識別子から判定することができる。
3.4.検索クエリーにおける不信頼性の性質についての知識(OCRエラー等)
検索クエリーは、使用される特定の取得方法において発生しそうなエラーのタイプを考慮して構築されてよい。これの一例は、特定文字の認識において疑わしいエラーの表示であり、この場合には、検索エンジンはこれらの文字をワイルドカードとして処理するか、それらに低い優先順位を割り当てることができる。
3.5.パフォーマンスのためのインデックスのローカルキャッシング/オフライン使用
時に、取得装置は、データ取得時に検索エンジンまたは集合と通信を行えない場合がある。このため、デバイスのオフライン使用に役立つ情報は事前にデバイスへ、またはデバイスが通信を行える何らかのエンティティへダウンロードすることができる。集合に関連するインデックスのすべてまたは実質的部分をダウンロードできる場合もある。このトピックについては、第15.3項でさらに論じる。
3.6.いかなる形態であれ、クエリーは記録され後に作用できる
クエリーの通信および結果の受信に関連して遅延および費用が発生しそうな場合、このプリロードされた情報は、ローカルデバイスのパフォーマンスを改善し、通信費を削減し、役に立ち、かつ時宜を得たユーザフィードバックを提供することができる。
通信が利用不可能である(ローカルデバイスが「オフライン」である)状況において、クエリーは、保存され、通信が復旧すると同時にシステムの残りへ伝送されることができる。
これらの場合、クエリーごとにタイムスタンプを伝送することが重要になり得る。取得時刻は、クエリーの解釈において重大なファクタとなり得る。例えば、第13.1項では、取得時刻の重要性を初期取得に関連して論じている。取得時刻は常にクエリーが実行される時刻と同一ではないことに留意することが重要である。
3.7.パラレル検索
パフォーマンス上の理由から、単一の取得を受けて複数のクエリーが順に、または同時に開始される場合がある。単一の取得を受けて、例えば新しい単語が取得に追加された際に、または複数の検索エンジンを同時にクエリーするために、いくつかのクエリーが送信される場合がある。
例えば、いくつかの実施形態において、システムは、現在の文書の特別なインデックス、ローカルマシン上の検索エンジン、企業ネットワーク上の検索エンジン、およびインターネット上のリモート検索エンジンにクエリーを送信する。
特定の検索の結果は、他の検索の結果よりも高い優先順位を与えられる場合がある。
与えられたクエリーに対する応答は、他の保留中のクエリーが過剰であることを示す場合があり、これらは完了前に取り消される場合がある。
4.紙と検索エンジン
多くの場合、従来のオンラインクエリーを扱う検索エンジンは、レンダリングされた文書に由来するクエリーも扱うことが望ましい。従来の検索エンジンは、説明したシステムでそれらを使用するのにより適合するようにするために、多くの手法で強化または修正されることができる。
検索エンジンおよび/またはシステムの他のコンポーネントは、異なる、または余分の特徴を有するインデックスを作成し、保持することができる。システムは、着信する紙由来のクエリーを修正する、または結果として生じた検索においてクエリーが扱われる手法を変更することができ、したがって、これらの紙由来のクエリーをウェブブラウザおよび他のソースに打ち込まれたクエリーから生じたクエリーと区別することができる。また、システムは、紙由来の検索によって結果が返された際に、他のソースからのものと比べて異なるアクションをとるか、異なるオプションを提案することができる。これらのアプローチのそれぞれについて以下で論じる。
4.1.インデックス作成
多くの場合、紙由来または従来のクエリーを使用して同一のインデックスが検索され得るが、インデックスは現在のシステムにおいて様々な手法で使用するために強化される場合がある。
4.1.1.紙形態についての知識
紙ベースの検索の場合に役立つ該当するインデックスに、余分のフィールドを追加することができる。
紙形態で文書アベイラビリティを表示するインデックスエントリ
第1の例は、文書が存在すること、または紙形態で配布されていることが既知であることを示すフィールドである。システムは、クエリーが紙から生じたものである場合、該当する文書に高い優先順位を与える場合がある。
紙形態人気についての知識
この例では、紙の文書の人気に関する(および、任意でこれらの文書内のサブ領域に関する)統計データ―例えばスキャンアクティビティの量、発行者および他のソースによって提供される発行部数等―を、該当する文書に高い優先順位を与える、デジタル副本文書の優先順位を高める(例えば、ブラウザベースのクエリーまたはウェブ検索)等のために使用する。
レンダリングされたフォーマットについての知識
別の重要な例は、文書の特別なレンダリングのレイアウトについての情報を記録することであってよい。
例えば、ある本の特定の版に関して、インデックスは、改行および改ページがどこで発生するか、どのフォントが使用されたか、あらゆる例外的な大文字化についての情報を含んでよい。
インデックスは、例えば画像、テキストボックス、テーブル、および広告等、ページ上にある他の項目の近接についての情報を含んでもよい。
元の意味情報の使用
最後に、テキストの特定の部分が市場に出される項目に言及している、またはある段落がプログラムコードを含む等、ソースマークアップから推測され得るが紙の文書において明らかではない意味情報をインデックスに記録することもできる。
4.1.2.取得方法の知識におけるインデックス作成
インデックスの性質を修正できる第2のファクタは、使用されそうな取得のタイプについての知識である。光学スキャンによって開始された検索は、インデックスがOCRプロセスにおいて混同しやすい文字を考慮に入れる場合、または文書内で使用されたフォントについての何らかの知識を含む場合に利益となり得る。同様に、クエリーがスピーチ認識から生じたものである場合、同音素に基づくインデックスは、はるかに効率的に検索され得る。説明したモデルにおけるインデックスの使用に影響を及ぼし得るさらなるファクタは、認識プロセス中の反復フィードバックの重要性である。テキストが取得されている際に検索エンジンがインデックスからのフィードバックを提供できる場合、取得の精度を大幅に向上させることができる。
オフセットを使用するインデックス作成
第9項において説明したオフセットベース/自己相関OCR方法を使用してインデックスが検索される可能性が高い場合、いくつかの実施形態において、システムは適切なオフセットまたは署名情報をインデックス内に格納する。
4.1.3.複数のインデックス
最後に、説明したシステムにおいて、多数のインデックスについて検索を行うことが一般的であってよい。インデックスは、いくつかの機械または企業ネットワーク上で保持されることができる。部分的なインデックスは、取得装置または取得装置に近い機械にダウンロードされてよい。特定の関心、習慣、または許可を持つユーザまたはユーザの群について、分離インデックスが作成される場合がある。インデックスは、各ファイルシステム、各ディレクトリ、ユーザのハードディスク上の各ファイルにさえ存在し得る。インデックスは、ユーザおよびシステムによって発行およびサブスクライブされる。そこで、効率的に配布、更新、マージ、および分離できるインデックスを構築することが重要になる。
4.2.クエリーを扱う
4.2.1.紙からの取得であることを知る
検索エンジンは、紙の文書に由来する検索クエリーを認識した場合に異なるアクションをとることができる。当該エンジンは、例えば、ある取得方法において現われそうなエラーのタイプに対して、より耐性がある手法でクエリーを扱うかもしれない。
クエリーに含まれる何らかのインジケータ(例えば取得の性質を示すフラグ)からこれを推測できる場合があり、またはクエリー自体からこれを推測することができる(例えば、OCRプロセスに一般的なエラーまたは不確実性を認識することができる)。
あるいは、取得装置から生じたクエリーは、他のソースから生じたクエリーとは異なるチャネルまたはポートもしくは接続のタイプによってエンジンに到達することができ、そのように区別されることができる。例えば、システムのいくつかの実施形態では、クエリーを専用ゲートウェイで検索エンジンへ送るであろう。したがって、検索エンジンは、紙の文書由来の、専用ゲートウェイを通過するすべてのクエリーを把握している。
4.2.2.コンテキストの使用
以下の第13項では、取得されたテキスト自体の外側にあるが、文書の識別において大きな助力となり得る様々な異なるファクタについて説明する。これらは、最近のスキャンの履歴、特定のユーザの長期的な読書習慣、ユーザの地理的位置およびユーザの特定の電子文書の最近の使用等を含む。該当するファクタを、本明細書においては「コンテキスト」と称する。
コンテキストの一部は、検索エンジン自体によって扱われる場合があり、検索結果に反映される場合がある。例えば、検索エンジンはユーザのスキャン履歴を追跡記録することができ、このスキャン履歴を、従来のキーボードベースのクエリーと相互参照することもできる。そのような場合、検索エンジンは、従来の検索エンジンのほとんどが行うよりも多くの各個人ユーザについての状態情報を保持および使用し、検索エンジンとの各インタラクションは、いくつかの検索および現在一般的であるよりも長い期間にわたり拡張すると考えられてよい。
コンテキストの一部は検索クエリー内において検索エンジンへ伝送されることができ(第3.3項)、場合によっては、将来のクエリーにおいて役割を果たすよう、当該エンジンに格納されることができる。最後に、コンテキストの一部はどこか別の場所で扱われることが最も良く、検索エンジンによって生じた結果に適用されるフィルタまたは第2検索となる。
検索のために入力されるデータストリーム
検索プロセスへの重要な入力は、ユーザのコミュニティが文書のレンダリング版とどのように情報のやりとりをするか―例えば、どの文書が最も広く、誰によって読まれているか―の、より広範なコンテキストである。最も頻繁にリンクされるページ、または過去の検索結果から最も頻繁に選択されるページを返す検索エンジンには類似性がある。このトピックに関するこれ以上の議論については、第13.4および14.2項を参照のこと。
4.2.3.文書サブ領域
説明したシステムは、文書全体についての情報だけでなく、文書のサブ領域についての情報、個別の単語に至るまでも発し使用することができる。現存する多くの検索エンジンは、単純に文書または特定のクエリーに関連するファイルを位置付けることに集中する。細粒なことに取り組み、文書内でロケーションを識別することができる検索エンジンは、説明したシステムに重大な利益を提供するであろう。
4.3.結果を返す
検索エンジンは、現在保持しているさらなる情報の一部を使用して、返される結果に影響を及ぼすことができる。
システムは、ユーザがアクセスしたある文書を紙のコピーを所有していることの結果としてのみ返すこともできる(第7.4項)。
検索エンジンは、単なるテキストの取り出し以外にも、説明したシステムに適切な新しいアクションおよびオプションを提案してもよい。
5.マークアップ、注釈入力およびメタデータ
取得‐検索‐取り出しプロセスを実行することに加えて、説明したシステムはまた、余分の機能性を文書、特に文書内にあるテキストの特定のロケーションおよびセグメントと関連付ける。この余分の機能は多くの場合、これに限らないが、その電子副本と関連付けられることにより、レンダリングされた文書と関連付けられる。例として、ウェブページにおけるハイパーリンクは、当該ウェブページのプリントアウトがスキャンされる際に同一の機能性を有する場合がある。電子文書においては定義されていないが、どこか他の場所で格納されるまたは発生する機能性もある。
追加された機能性のこの層を、「マークアップ」と称する。
5.1.オーバーレイ、静的と動的
文書においてマークアップが「オーバーレイ」であるとして考える一手法は、文書またはその一部についての情報をさらに提供し、またそれに関連するアクションを特定することができる。マークアップは人間に解読可能なコンテンツを含むことができるが、多くの場合、ユーザに対して不可視であり、かつ/または機械使用を意図されている。例として、レンダリングされた文書内の特定のエリアからユーザがテキストを取得する場合に付近のディスプレイ上のポップアップメニューに表示されるオプション、または特定のフレーズの発音を示す音声サンプルが挙げられる。
5.1.1.場合によりいくつかのソースから考えられる、いくつかの層
いかなる文書も複数のオーバーレイを同時に有することができ、これらは様々なロケーションをソースとするものであってよい。マークアップデータは、文書の著者により、またはユーザにより、もしくは他の何らかの関係者により、作成または提供されることができる。
マークアップデータは、電子文書に添付されてもよく、またはそれに埋め込まれてもよい。従来のロケーション(例えば、文書と同一の場所ではあるが異なるファイル名接尾辞を持つ)で見つかる場合もある。マークアップデータは、元の文書を位置付けるクエリーの検索結果内に含まれる場合もあるし、同一の、または別の検索エンジンへの別々のクエリーによって見つかる場合もある。マークアップデータは、元の取得されたテキストもしくは他の取得情報またはコンテキスト情報を使用して見つかる場合もあるし、文書および取得位置についてのすでに推測された情報を使用して見つかる場合もある。マークアップデータは、マークアップ自体が文書内に含まれていない場合であっても、文書内の特定されたロケーションで見つかる場合がある。
マークアップは、従来のHTMLウェブページ上でリンクする手法が多くの場合静的データとしてHTML文書内に埋め込まれているのと同様に、大部分は静的かつ文書に特有であってよいが、マークアップは動的に発生し、かつ/または多数の文書に適用されてもよい。動的マークアップの例は、当該文書内で言及されている企業の最新の株価を含む文書に添付された情報である。広く適用されているマークアップの例は、特定の言語の複数の文書または文書の項において自動的に利用可能な翻訳情報である。
5.1.2.パーソナル「プラグイン」層
ユーザは、マークアップデータをインストール、またはその特定のソースをサブスクライブし、したがって、特定の取得に対するシステムの応答をパーソナル化することもできる。
5.2.キーワードとフレーズ、商標とロゴ
文書内のいくつかの要素は、特定の文書内におけるそれらのロケーションよりもむしろそれら自体の特性に基づいて、特定の「マークアップ」またはそれらに関連する機能性を有することができる。例としては、ユーザを関心のある組織についてのさらなる情報にリンクさせることができるロゴおよび商標に加えて、純粋にスキャンされることを目的として文書内に印刷される特別なマークが挙げられる。これはテキスト中の「キーワード」または「キーフレーズ」にも当てはまる。組織は、それが関連する、または関連付けたい特定のフレーズを登録し、それらに当該フレーズがスキャンされる場所であればどこでも利用可能なある一定のマークアップを添付するかもしれない。
いかなる単語、フレーズ等も、関連するマークアップを有してよい。例えば、システムは、ユーザが「本」という単語、または本のタイトル、または本に関連するトピックを取得した場合にはいつでも、ある一定の項目をポップアップメニュー(例えば、オンライン書店へのリンク等)に追加してよい。システムのいくつかの実施形態において、デジタル副本文書またはインデックスは、「本」という単語、または本のタイトル、または本に関連するトピックの付近で取得が発生したか否か―およびシステム挙動がキーワード要素へのこの近接に従って修正されたか否かを判定するために閲覧される。先の例において、マークアップは、非売テキストまたは文書を商取引のきっかけにできることに留意されたい。
5.3.ユーザ定義のコンテンツ
5.3.1.マルチメディアを含む、ユーザコメントおよび注釈
注釈は、文書に関連し得る別のタイプの電子情報である。例えば、ユーザは、後に音声注釈として取り出すために、特定の文書についての当該ユーザの考えの音声ファイルを添付することができる。マルチメディア注釈の別の例として、ユーザは、文書内で言及された場所の写真を添付することができる。ユーザは、概して文書に注釈を提供するが、システムは他のソースからの注釈を関連付けることができる(例えば、ワークグループ内の他のユーザは注釈を共有することができる)。
5.3.2.校正による注記
ユーザソースのマークアップの重要な例は、校正、編集、またはレビュープロセスの一部としての、紙の文書の注釈である。
5.4.第三者コンテンツ
先に述べたように、マークアップデータは多くの場合、文書の他の読者等、第三者によって提供されることができる。オンラインディスカッションおよびレビューは、特定の仕事、ボランティアで寄稿される翻訳および説明に関するコミュニティ管理の情報として、良い例である。
第三者マークアップの別の例は、広告主により提供されるものである。
5.5.他のユーザデータストリームに基づく動的マークアップ
システムの何人かまたはすべてのユーザにより文書から取得したデータを解析することによって、コミュニティのアクティビティおよび関心に基づいてマークアップが発生し得る。例として、実際に「この本を楽しんだ人は、・・・も楽しんだ」とユーザに教えるマークアップまたは注釈を作成するオンライン書店が挙げられるかもしれない。マークアップは匿名性が低くてもよく、ユーザに、当該ユーザが持つ連絡先リストの中でこの文書を最近読んだ人を教えてもよい。データストリーム解析の他の例を、第14項に含む。
5.6.外部イベントおよびデータソースに基づくマークアップ
マークアップは、多くの場合、企業データベースからの入力、公衆インターネットからの情報、またはローカルオペレーティングシステムにより収集された統計等、外部イベントおよびデータソースに基づくものであろう。
データソースはもっとローカルであってもよく、特にユーザのコンテキスト当該ユーザのID、ロケーション、およびアクティビティについての情報を提供してよい。例えば、システムは、ユーザの携帯電話と通信を行い、ユーザが最近電話で話した誰かに文書を送信するためのオプションをユーザに与えるマークアップ層を提供するかもしれない。
6.認証、パーソナル化およびセキュリティ
多くの場合、ユーザのIDは知られることになる。これが「匿名ID」である場合があり、その場合ユーザは例えば取得装置の製造番号のみで識別される。しかしながら、一般に、システムがユーザについてはるかに詳細な知識を有し、システムをパーソナル化し、ユーザ名でアクティビティおよび取引の実行を可能にするためにそれを使用することができると予期される。
6.1.ユーザ履歴および「ライフライブラリ」
最も単純かつ最も有用な機能の1つは、ユーザのために、当該ユーザが取得したテキスト、ならびに、見つかったあらゆる文書の詳細、当該文書内のロケーション、および結果としてとられるあらゆるアクションを含む、当該取得に関するさらなる情報を記録に留めることである。
この格納された履歴は、ユーザおよびシステムの両方にとって有益なものである。
6.1.1.ユーザに関して
ユーザには、「ライフライブラリ」という当該ユーザが読んで取得したすべての記録が提示される場合がある。これは、単純に個人的関心のためのものであってもよいが、例えば、次の論文の参考文献となる資料を収集している研究者によってライブラリ内で使用されてもよい。
状況次第で、ユーザは、自身が読んでいて関心があるものを他の人々が見ることができるように、ウェブログと同様の方式でそれを発行すること等により、ライブラリを公共のものにしたいと希望してもよい。
最後に、ユーザが何らかのテキストを取得し、システムが直ちに取得に作用できない状況において(例えば、文書の電子版がまだ利用可能でないため)、取得はライブラリに格納され、自動的にまたはユーザ要求を受けて後に処理されることができる。ユーザは、新しいマークアップサービスにサブスクライブし、それらを以前に取得されたスキャンに適用することもできる。
6.1.2.システムに関して
ユーザの過去の取得に関する記録は、システムにも有用である。システム操作の多くの側面は、ユーザの読書習慣および履歴を知ることによって強化されることができる。最も単純な例は、ユーザによって行われるいかなるスキャンも当該ユーザが最近においてスキャンした文書から生じている可能性が高いことであり、特に前回のスキャンが過去数分の間だった場合には、同一の文書からのものである可能性が極めて高い。同様に、文書が最初から最後という順序で読まれている可能性も高い。したがって、英語の文書の場合、後のスキャンは文書のずっと下で発生する可能性も高い。該当するファクタは、システムが、曖昧な場合の取得のロケーションを確立するのを助けることができ、取得される必要があるテキストの量を削減することもできることである。
6.2.支払い、識別、および認証装置としてのスキャナ
取得プロセスは概してある種のデバイス、一般には光学スキャナまたはボイスレコーダから始まるため、このデバイスは、ユーザを識別しある一定のアクションを許可するキーとして使用されることができる。
6.2.1.スキャナを電話または他のアカウントと関連付ける
デバイスは、携帯電話または携帯電話アカウントに関連する他の何らかの手法に埋め込まれてよい。例えば、スキャナはアカウントに関連するSIMカードをスキャナに挿入することによって、携帯電話アカウントに関連することができる。同様に、デバイスは、クレジットカードまたは他の支払いカードに埋め込まれてよく、または該当するカードがそれに接続されるための機能を有してもよい。したがって、デバイスは支払いトークンとして使用されることができ、レンダリングされた文書からの取得によって金融取引を開始することができる。
6.2.2.スキャナ入力を認証に使用する
スキャナは、特定のユーザまたはアカウントと関連する何らかのトークン、シンボル、またはテキストをスキャンするプロセスを通じて、当該ユーザまたはアカウントに関連してもよい。また、スキャナは、例えばユーザの指紋をスキャンすることによって、バイオメトリック認証に使用されてもよい。音声ベースの取得装置の場合、システムは、ユーザの声紋を一致させることによって、またはユーザにある一定のパスワードまたはフレーズを言うよう要求することによって、ユーザを識別することができる。
例えば、ユーザが本からの引用をスキャンし、オンライン小売業者からその本を買うためのオプションを提案された場合、ユーザはこのオプションを選択することができ、次いで取引を確認するために当該ユーザの指紋をスキャンするよう促される。
第15.5および15.6項も参照のこと。
6.2.3.セキュアスキャン装置
ユーザを識別および認証するため、ならびにユーザに代わって取引を開始するために取得装置が使用される場合、デバイスとシステムの他の部分との間の通信がセキュアであることが重要である。デバイスと他のコンポーネントとの間の通信が傍受される、スキャナをまねた別のデバイス、いわゆる「中間者」攻撃のような状況に対して保護することも重要である。
該当するセキュリティを提供するための技術は当該技術分野において十分に理解され、様々な実施形態において、システム内のデバイスまたは他の場所にあるハードウェアおよびソフトウェアは該当する技術を実装するように構成される。
7.モデルおよび要素を発行する
説明したシステムの利点は、多くのシステムの利益を得るために、文書を作成、印刷、または発行する従来のプロセスを変更する必要がないことである。しかしながら、文書の作成者または発行者―以後、単純に「発行者」と称する―は、説明したシステムをサポートするための機能性の作成を希望する場合があるという理由がある。
この項では、主として発行された文書自体について考察する。広告等、関連する他の商取引についての情報は、「Pコマース」と題した第10項を参照のこと。
7.1.印刷された文書のための電子ガイド
システムは、印刷された文書が関連する電子存在を有するのを可能にする。従来、発行者はCD‐ROMを、さらなるデジタル情報、チュートリアルムービーおよび他のマルチメディアデータ、サンプルコードまたは文書、もしくはさらなる参考資料を含む本とともに出荷することが多い。また、一部の発行者は、正誤表、追加コメント、更新された参考資料、参考文献および関連データのさらなるソース、ならびに他の言語への翻訳等、発行後に更新され得る情報に加え、該当する資料を提供する特定の発行物に関連するウェブサイトを保持する。オンラインフォーラムによって、読者は発行物に関するコメントを寄稿することができる。
説明したシステムは、該当する資料をレンダリングされた文書とかつてないほど密接に関係させることができ、それらの発見およびそれらとのインタラクションをユーザにとってより容易なものにすることができる。文書からテキストの一部を取得することにより、システムは、文書に関連する、より具体的には文書の特定部分に関連するデジタル文書にユーザを自動的に接続することができる。同様に、ユーザは、テキストの項について論じるオンラインコミュニティ、または、他の読者による注釈および解説に接続されることができる。過去において、該当する情報は、一般に特定のページ番号または章を検索することにより、見つける必要があったと思われる。
これのアプリケーション例は、学術書のエリアにある(第17.5項)。
7.2.印刷された文書に対する「サブスクリプション」
いくつかの発行者は、新しい関連事項の通知を受けたい場合、また本の新版が発行された際、読者がサブスクライブできるメーリングストを有することができる。説明したシステムを使用すると、ユーザは特定の文書または文書の一部への関心をより容易に登録することができ、発行者が該当するいかなる機能性の提供を検討する前であっても登録できる場合がある。読者の関心は発行者へ提供され、場合によっては更新、さらなる情報、新版、または、現存する本において関心を持たれていると確認されたトピックに関する全く新しい発行物の提供する時期および場所についても影響を及ぼす。
7.3.特別な意味を持つ、または特別なデータを含む印刷マーク
単純に文書内に既に存在するテキストの使用を通じて、システムの多くの側面が可能となる。しかしながら、システムと連動して使用され得る知識のもとに文書が作り出される場合、特別なマークの形態で余分の情報を印刷することにより、余分の機能性を追加してもよく、これを使用してテキストまたは要求されたアクションをより密接に識別することができ、またはシステムとの文書のインタラクションを強化することができる。最も単純かつ最も重要な例は、文書がシステムを通じて確かにアクセス可能であるという読者への表示である。例えば、この文書はそれに関連するオンラインディスカッションフォーラムを有するということを示すために、特別なアイコンを使用してもよい。
該当するシンボルは純粋に読者を対象とすることができ、またはスキャンおよび何らかのアクションを開始するために使用される際、システムによって認識されることができる。シンボル内には、単なるシンボル以上のものを識別するために十分なデータを符号化することができる。例えば、文書、編集、およびシンボルのロケーションについての情報を格納することもでき、これらはシステムによって認識および読み出しされることができる。
7.4.紙の文書の所有による権限付与
印刷された文書への所有またはそれへのアクセスが、ユーザにある一定の特権、例えば文書の電子コピーまたは追加資料へのアクセス等を与えるであろう状況がいくつかある。説明したシステムを使用すると、該当する特権は、ユーザが単純に文書からテキストの一部を取得した、または特別に印刷されたシンボルをスキャンした結果として付与されることができる。ユーザが文書全体を所有していたことをシステムが確認する必要がある場合、特定のページから特定の項目またはフレーズ、例えば「46ページ2行目」をスキャンするよう、ユーザに促すかもしれない。
7.5.期限切れの文書
印刷された文書が余分の資料および機能性へのゲートウェイである場合、該当する特徴へのアクセスも期限付きである場合がある。有効期限後、ユーザはその特徴に再度アクセスするために、手数料を支払うか文書の新版を取得することを要求される場合がある。当然ながら、紙の文書は依然として使用可能であるが、強化された電子機能性の一部を喪失してしまう。これは、例えば、電子資料へのアクセスに対する手数料を受け取る、またはユーザに時々新版を購入するよう要求することで発行者に利潤があるため、または、まだ流通している旧版の印刷された文書に関連する不都合があるため、望ましい場合がある。クーポンは、有効期限を有し得る商業文書のタイプの例である。
7.6.人気解析および発行決定
第10.5項では、著者への報酬と広告価格に影響する、システムの統計の使用について論じる。
いくつかの実施形態において、システムは、紙の文書の使用からに加え、発行物に関連する電子コミュニティにおけるアクティビティから発行物の人気を推測する。これらのファクタは、発行者が将来発行するものに関する決定を行う助力となることができる。例えば、現存する本において、ある章の人気が非常に高いと判明した場合、別冊を展開する価値があり得る。
8.文書アクセスサービス
説明したシステムの重要な側面は、文書のレンダリングされたコピーにアクセスできるユーザに、当該文書の電子版へのアクセスを提供する能力である。文書は、ユーザがアクセスできるパブリックネットワークまたはプライベートネットワーク上で自由に利用できる場合がある。システムは、取得されたテキストを使用して文書を識別し、位置付け、かつ取り出し、場合によってはそれをユーザの画面に表示するか、またはユーザの電子メール受信箱へ預ける。
文書を電子形態で利用可能であっても、様々な理由によりユーザからアクセスできない場合がある。可能性としていくつか挙げるなら、文書を取り出すために十分な接続性がない場合がある、ユーザがそれを取り出す権利を与えられない場合がある、それに対するアクセスを得ることに関連して費用がかかる場合がある、または文書が絶版になり、場合によっては新版に取って代わられる場合がある、等である。システムは、一般にこれらの状況についてユーザへフィードバックを提供する。
第7.4項で述べたように、特定のユーザに対して付与されたアクセスの程度または性質は、ユーザが既に文書の印刷されたコピーにアクセスできることが既知である場合には、異なってよい。
8.1.認証された文書アクセス
文書へのアクセスは、例えばユーザがセキュアなネットワークに接続されている場合、特別なユーザ、または特定の基準を満たすユーザ、に制限される場合があり、もしくは、ある一定の環境においてのみ利用可能な場合がある。第6項では、ユーザおよびスキャナの証明書が確立され得る手法のいくつかについて説明している。
8.2.文書購入‐著作権所有者の報酬
一般の人々には自由に利用できない文書は、多くの場合、発行者または著作権保持者への報酬として、手数料を支払うことによってアクセス可能であり続ける場合がある。システムは、支払い機能を直接的に実装するか、または、第6.2項で説明したものを含む、ユーザに関連する他の支払い方法を活用することができる。
8.3.文書エスクローおよび積極的な取り出し
電子文書は一時的なものである場合が多く、レンダリングされた文書のデジタルソース版は、現在は利用可能であるが、将来はアクセス不可能となる。システムは、ユーザがそれを要求していない場合であっても、ユーザに代わって現行版を取り出し、格納することができ、したがって、ユーザが将来それを要求するはずのアベイラビリティを保証する。これは、システムの使用、例えば、将来の取得を識別するプロセスの一部として検索するためにもそれを利用可能にする。
文書にアクセスするために支払いが要求されるイベントにおいて、信頼できる「文書エスクロー」サービスは、わずかな手数料の支払い時等に、ユーザがサービスから文書を要求するならば、著作権保持者は将来、完全に報酬を得るという確約とともに、ユーザに代わって文書を取り出すことができる。
文書が取得時に電子形態で利用可能でない場合、この趣旨での変形が実装され得る。ユーザは、電子文書が後に利用可能になる必要がある場合、サービスが自身に代わって文書の要求をサブミットする、またはその文書に対する支払いを行うことを許可することができる。
8.4.他のサブスクリプションおよびアカウントとの関連付け
支払いは、ユーザの現存する別のアカウントまたはサブスクリプションとの関連付けに基づいて、放棄、削減または充足される場合がある。例えば、新聞の印刷版へのサブスクライバは、自動的に電子版を取り出す権利を与えられるかもしれない。
別の場合において、関連付けはそれほど直接的でない場合があり、ユーザはその雇用者によって確立されたアカウントに基づいて、またはサブスクライバである友人が所有する印刷されたコピーのスキャンに基づいて、アクセス権を付与される場合がある。
8.5.写真式複写をスキャンおよび印刷に置き換える
紙の文書からテキストを取得し、電子オリジナルを識別し、当該オリジナル、または取得と関連する当該オリジナルの一部を印刷するプロセスは、以下のような多くの利点を持つ従来の写真式複写の代替を形成する;
紙の文書は最終プリントアウトと同一のロケーションにある必要はなく、いかなる場合でも同時にそこにある必要はない;
写真式複写プロセスによって文書、特に古く、脆弱で貴重な文書に生じた磨耗および損傷は、回避され得る;
一般にコピーの質がずっと高い;
どの文書、または文書のどの部分が最も頻繁にコピーされているかについて記録に留めることができる;
プロセスの一部として、著作権保有者に支払いが行われる場合がある。
権限のないコピーは禁止されている場合がある。
8.6.写真式複写から貴重なオリジナルの位置を特定する
法律文書、もしくは歴史的または他の特別な意義を有する文書の場合等、文書が特に貴重な場合、人々は一般に、多くの場合何年もの間、それらの文書のコピーを使い、一方、オリジナルは安全な場所に保管しておく。
説明したシステムは、例えばアーカイブ倉庫内に元の文書のロケーションを記録するデータベースに連結されることができ、アーカイブされた元の文書を位置付けるために誰かがコピーにアクセスするのを容易にしている。
9.テキスト認識技術
光学式文字認識(OCR)技術は従来、例えばページ全体を取得するフラットベッドスキャナ等による、大量のテキストを含む画像に焦点を当ててきた。OCR技術は、多くの場合、有用なテキストを作り出すためにユーザによる相当な訓練および補正を必要とする。OCR技術は多くの場合、OCRを行う機械に相当な処理能力を要求し、一方、多くのシステムは辞書を使用し、それらは概して事実上無限の語彙について動作すると予期される。
説明したシステムにおいて、上記の従来の特性はすべて改善され得る。
この項ではOCRに焦点を当てるが、論じた問題の多くは、他の認識技術、特にスピーチ認識において直接的にマップすることができる。第3.1項で述べたように、紙から取得するプロセスは、音声を取得するデバイスにユーザがテキストを読み上げることよって実現できる。当業者であれば、画像、フォント、およびテキストフラグメントに関連して本明細書で論じた原理は、多くの場合、音声サンプル、ユーザスピーチモデルおよび音素にも当てはまることをよく理解するであろう。
9.1.適切なデバイスへの最適化
説明したシステムとともに使用するためのスキャン装置は、多くの場合小型で、携帯型で、かつ低電力であろう。スキャン装置は、一度に数単語しか取得できず、いくつかの実装においては、一度に文字全体どころか、テキストを横断する水平スライスを取得することさえできず、該当するスライスは、テキストを推測できる認識可能な信号を形成するために綴じられているものである。スキャン装置は、極めて限られた処理能力または記憶領域等を有する場合もあり、一方、いくつかの実施形態においては、OCRプロセス自体のすべてを実行することができ、多くの実施形態は、場合によっては後で、取得した信号をテキストに変換するための、より強力なデバイスへの接続に依存するであろう。最後に、スキャン装置は、ユーザインタラクションのための極めて限られた機能を有する場合があり、そのため、いかなるユーザ入力の要求も後に延期する、または、現在一般的であるよりも大いに「最良推定」モードで動作する必要がある。
9.2.「不確実な」OCR
説明したシステム内のOCRの主な新しい特性は、一般に、どこか別の場所に存在するテキストの画像を調べ、これをデジタル形態で取り出すことができるという事実である。テキストの正確な転写は、したがって常にOCRエンジンから要求されるとは限らない。OCRシステムは、場合によっては確率加重を含む、考えられる一致のセットまたはマトリクスを出力することができ、デジタルオリジナルを検索するためにこれをまた使用することができる。
9.3.反復OCR‐推定する、明確にする、推定する・・・
認識を実行するデバイスが、処理時に文書インデックスと接触できる場合、OCRプロセスは、それが進行するにつれて文書集合のコンテンツにより知らされることができ、実質的により高い認識精度を提供する可能性がある。
該当する接続により、デジタルソースを識別するために十分なテキストが取得されたのはいつであるかをデバイスがユーザに知らせることも可能となるであろう。
9.4.起こりそうなレンダリングの知識を使用する
システムが文書の起こりそうな印刷レンダリングの側面についての知識を有する場合―例えば、印刷に使用されるフォント書体、またはページのレイアウト、またはどの項がイタリック体になっているか等―これも認識プロセスにおいて助力となり得る。(第4.1.1項)
9.5.フォントキャッシュ‐ホスト上でフォントを決定する、クライアントにダウンロードする
文書集合内の候補ソーステキストが識別されると、フォントまたはそのレンダリングは認識を助けるためにデバイスへダウンロードされることができる。
9.6.自己相関および文字オフセット
テキストフラグメントのコンポーネント文字は、文書署名として使用されるテキストのフラグメントを表すための最も評価されている手法であり得るが、テキストフラグメントの実際のテキストが使用される必要がないテキストのその他の表示は、デジタル文書および/またはデータベースにおいてテキストフラグメントの位置を特定しようとする際、もしくはテキストフラグメントの表示を可読形態にして明確にする際に、十分よく作用することができる。テキストフラグメントの他の表示は、実際のテキストが不足を表す利益を提供することができる。例えば、テキストフラグメントの光学式文字認識は、フラグメント全体の光学式文字認識に頼ることなくテキストフラグメントを検索および/または再作成するために使用され得る、取得されたテキストフラグメントのその他の表示とは異なり、多くの場合エラーを起こしやすい。該当する方法は、現在のシステムで使用されているいくつかのデバイスにより適切である場合がある。
当業者他は、テキストフラグメントの外観を説明する多くの手法があることを十分に理解するであろう。該当するテキストフラグメントの特徴付けは、ワード長、相対ワード長、文字高さ、文字幅、文字形状、文字頻度、トークン頻度等を含むことができるが、これらに限定されない。いくつかの実施形態において、一致テキストトークン間のオフセット(すなわち、間にあるトークンの数プラス1)は、テキストのフラグメントを特徴付けるために使用される。
従来のOCRは、フォント、文字構造および形状についての知識を使用してスキャンされたテキストにおいて文字を判定しようと試みる。本発明の実施形態では異なり、認識プロセスにおいて支援するためにレンダリングされた文書自体を使用する様々な方法を用いる。これらの実施形態では「互いを認識する」ために文字(またはトークン)を使用する。該当する自己認識を指す一手法は「テンプレートマッチング」であり、「畳み込み」と類似している。該当する自己認識を実行するために、システムは、システム自体の上でテキストのコピーを水平にスライドさせ、テキスト画像のマッチング領域に気付く。先のテンプレートマッチングおよび畳み込み技術は、様々な関連技術を包含する。トークン化するため、および/または文字/トークンを認識するためのこれらの技術を、文字/トークンを一致させる際にそれ自体のコンポーネント部分と直接相関するためにテキストが使用される場合、本明細書では「自己相関」と総称する。
自動相関を行う際は、一致する完全に接続された領域が関心対象である。これは、文字(または文字の群)が同一の文字(または群)の他のインスタンスをオーバーレイする場合に発生する。一致する完全に接続された領域は、コンポーネントトークンにテキストのトークン化を自動的に提供する。テキストの2つのコピーが互いにすれ違う際、完璧な一致が生じる領域(すなわち、垂直スライス中の全ピクセルが一致する)に気付かれる。文字/トークンがそれ自体と一致する場合、このマッチングの水平延長(例えば、テキストの接続されたマッチング部分)も一致する。
この段階においては、スキャンされたテキスト内における同一のトークンの次の発生に対するオフセットだけで、各トークンの実際のID(すなわち、トークン画像に対応する特定の文字、数字またはシンボル、あるいはこれらの群)を判定する必要がないことに留意すべきである。オフセット番号は、同一のトークンが次に発生するまでの距離(トークンの数)である。トークンがテキスト文字列内において一意的である場合、オフセットはゼロ(0)である。このようにして発生したトークンオフセット配列は、スキャンされたテキストを識別するために使用され得る署名である。
いくつかの実施形態において、スキャンされたトークンの文字列を測定されたトークンオフセットは、それらのコンテンツのトークンオフセットに基づいて電子文書の集合にインデックスを付けるインデックスと比較される(第4.1.2項)。他の実施形態において、スキャンされたトークンの文字列を測定されたトークンオフセットはテキストに変換され、それらのコンテンツに基づいて、電子文書の集合にインデックスを付けるより従来型のインデックスと比較される。
先に述べたように、取得プロセスが話された言葉の音声サンプルからなる場合、同様のトークン相関プロセスをスピーチフラグメントに適用することができる。
9.7.フォント/文字「自己認識」
従来のテンプレートマッチングOCRは、スキャンされた画像を文字画像のライブラリと比較する。要するに、アルファベットは各フォントで格納され、新しくスキャンされた画像は一致する文字を見つけるために格納された画像と比較される。プロセスは、概して、正しいフォントが識別されるまで初期遅延を有する。ほとんどの文書が初めから終わりまで同一のフォントを使用するため、その後のOCRプロセスは比較的迅速である。したがって、その後の画像は、最近識別されたフォントライブラリとの比較によってテキストに変換されることができる。
最も一般的に使用されるフォントの文字の形状は関連している。例えば、ほとんどのフォントにおいて、「c」という文字と「e」という文字は、「t」と「f」等のように視覚的に関連している。OCRプロセスは、まだスキャンされていない文字のテンプレートを構築するためにこの関係を使用することによって強化される。例えば、システムがスキャンされた画像を比較するための画像テンプレートのセットを有さないような、以前は遭遇したことのないフォントのテキストの短い文字列を、読者が紙の文書からスキャンする場合、システムは、アルファベットの文字のすべてに遭遇したことがなくても、フォントテンプレートライブラリを構築するために、ある一定の文字間の推定関係を活用することができる。システムはその後、構築されたフォントテンプレートライブラリを使用して、その後にスキャンされたテキストを認識し、構築されたフォントライブラリをさらに洗練することができる。
9.8.認識されていない何か(グラフィックを含む)をサーバへ送信する
検索プロセスにおいて、画像を使用に適合する形態に機械転写できない場合、後にユーザが使用するため、考えられる手動転写のため、または、後に異なるリソースがシステムに利用可能になった際に処理するために、画像自体を保存することができる。
10.Pコマース
システムによって可能になるアクションの多くは、結果として何らかの商取引を引き起こす。システムを介して紙から開始される商業活動を説明するために、本明細書では「Pコマース」というフレーズを使用する。
10.1.物理的に印刷されたコピーから生じた文書の販売
ユーザが文書からテキストを取得した場合、ユーザは当該文書を紙または電子形態のいずれかで購入するよう提案される場合がある。ユーザは、紙の文書において引用または言及されたもの、または同様のサブジェクトもの、または同一の著者によるものといった関連文書を提供される場合もある。
10.2.紙によって開始または補助される他のものの販売
テキストの取得は、他の商業活動と様々な手法でリンクされている場合がある。取得されたテキストは、アイテムを販売するために明確にデザインされているカタログ内にあってよく、この場合、テキストはアイテムの購入とかなり直接的に関連しているであろう(第18.2項)。テキストは広告の一部であってもよく、この場合、広告されているアイテムの販売が結果として起こり得る。
その他の場合において、ユーザは、推測され得る商取引への潜在的関心からその他のテキストを取得する。例えば、特定の国の小説セットの読者は、その国の祝日に関心があるかもしれない。新車のレビューを読んでいる誰かは、その購入を検討しているかもしれない。ユーザは、結果として何らかの商業機会が自分に提示されること、または、それがその取得アクティビティの副次的結果となり得ることがわかっているテキストの特定のフラグメントを取得する場合がある。
10.3.販売を引き起こすアイテムのラベル、アイコン、製造番号、バーコードの取得
テキストまたはシンボルが、実際にアイテムまたはその包装に印刷されている場合がある。例としては、電子機器の後部または底面にあるラベル上に見られる製造番号または製品IDが挙げられる。システムは、当該テキストを取得することにより、1つ以上の同一アイテムを購入するための便利な手法をユーザに提案することができる。また、マニュアル、サポート、または修理サービスが提供されることもある。
10.4.コンテキスト広告
広告からのテキストの直接取得に加えて、システムは、レンダリングされた文書において必ずしも明確ではないが、人々が読んでいるものに基づいた新しい種類の広告を可能にする。
10.4.1.スキャンコンテキストおよび履歴に基づく広告
従来の紙の発行物において、広告には概して新聞記事のテキストと比較して大幅なスペースを費やし、限られた数のそれらが配置されるのは特定の記事の周辺である。説明したシステムにおいて、広告は個別の単語またはフレーズと関連してよく、当該テキストを取得すること、および場合によっては過去のスキャンの履歴を考慮することによって、ユーザが示した特定の関心に従って選択されてよい。
説明したシステムを使用すると、購入を特定の印刷された文書と関係付け、広告主が特定の印刷された文書における広告の効果についてさらに多くのフィードバックを得ることが可能である。
10.4.2.ユーザコンテキストおよび履歴に基づく広告
システムは、自身が使用するためのユーザコンテキストの他の側面についての大量の情報を収集しており(第13項)、ユーザの地理的位置の推定値がよい例である。該当するデータを使用して、システムのユーザに対して提示される広告を調整することもできる。
10.5.報酬モデル
システムは、広告主および販売業者への報酬の新しいモデルをいくつか可能にする。広告主を含む、印刷された文書の発行者は、文書から発生した購入からいくらかの収入を受け取ることができる。これは、元の印刷された形態で存在する広告であってもなくても真実であってよく、発行者、広告主またはある第三者のいずれかによって電子的に追加されたものであってよく、該当する広告のソースはユーザがサブスクライブしたものであってよい。
10.5.1.人気ベースの報酬
システムによって発生した統計の解析は、発行物のある部分の人気を示すことができる(第14.2項)。例えば、新聞において、システムは、特定のページまたは記事を見るのに読者が費やしている時間、もしくは特定のコラムニストの人気を示すかもしれない。状況次第で、著者または発行者にとって、書かれた単語または配布されたコピーの数等のもっと従来の評価指数よりも、読者のアクティビティに基づいて報酬を受け取ることが適切である場合がある。あるサブジェクトについてのその著作物が頻繁に読まれる権威となりつつある著者は、将来のサブスクライブでは、同一数のコピーを販売したがめったに開かれない著者とは違うと考えられるかもしれない。(第7.6項も参照のこと)
10.5.2.人気ベースの広告
文書における広告についての決定は、読者層についての統計に基づくものであってもよい。最も人気のあるコラムニストの周辺の広告スペースは、割増料金で販売される場合がある。広告主は、文書が発行された後、それがどのように受け取られたかについての知識に基づいて、何度か請求される、または報酬を支払われることさえあるかもしれない。
10.6.ライフライブラリに基づくマーケティング
第6.1および16.1項で説明した「ライフライブラリ」またはスキャン履歴は、ユーザの関心および習慣についての極めて価値のある情報のソースであってよい。適切なコンテンツおよびプライバシーの問題に適用させて、該当するデータは商品またはサービスの提供をユーザに知らせることができる。匿名の形態であっても、収集された統計は非常に有用となり得る。
10.7.後日の販売/情報(利用可能な場合)
広告および他の商取引の機会は、テキスト取得時、直ちにユーザに提示されない場合がある。例えば、小説の続編を購入する機会はユーザが小説を読んでいる時に利用可能となり得ないが、システムは続編が発行される当該機会をユーザに提示することができる。
ユーザは、購入または他の商取引に関するデータを取得することができるが、取得が行われたときに取引を開始および/または完了しないことを選ぶことはできない。いくつかの実施形態において、取得に関するデータはユーザのライフライブラリに格納され、これらのライフライブラリエントリは「アクティブ」のままであってよい(すなわち、取得が行われると同時に利用可能なものと同様に次のインタラクションができる)。したがって、ユーザはしばらく後に取得をレビューすることができ、任意で、当該取得に基づいて取引を完了することができる。システムは元の取得がいつどこで発生したかを追跡記録することができるため、取引に関わるすべての関係者が相応に報酬を支払われることができる。例えば、ユーザがデータを取得した広告の隣に出た物語を書いた著者―および物語を発行した発行者は、ユーザがそのライフライブラリを訪問し、履歴から当該特定の取得を選択し、ポップアップメニュー(取得時刻に任意で提示されたメニューと同様または同一であってよい)から「アマゾンでこのアイテムを購入する」を選んだ6ヶ月後に、報酬を支払われることができる。
11.オペレーティングシステムとアプリケーションの統合
現代のオペレーティングシステム(OS)および他のソフトウェアパッケージは、説明されたシステムの使用に有利に利用されることができる。多くの特性を有し、その使用のためにより良いプラットフォームを提供するために様々な手法で修正してもよい。
11.1.メタデータおよびインデックス作成へのスキャンおよび印刷関連情報の組み込み
現在およびこれからのファイルシステム、ならびにそれらの関連データベースは、多くの場合、各ファイルに関連する様々なメタデータを格納する能力を有する。従来、このメタデータは、ファイルを作成したユーザのID、作成日時、最終修正、および最終使用等を含んでいた。より新しいファイルシステムは、キーワード、画像特性、文書ソース、および格納されるユーザコメント等の余分の情報を可能にし、いくつかのシステムにおいて、このメタデータは恣意的に拡張されることができる。したがって、ファイルシステムを使用して、現在のシステムを実装するのに有用となり得る情報を格納することができる。例えば、説明したシステムを使用してどのテキストが、いつ、および誰によって紙から取得されたかについての詳細のように、ある文書が前回印刷された日時はファイルシステムによって格納されることができる。
オペレーティングシステムは、ユーザがローカルファイルをより容易に見つけることを可能にする検索エンジン機能を組み込むことも始めている。これらの機能はシステムによって有利に使用されることができる。第3および4項で論じた検索関連の概念の多くは、今日のインターネットベースおよび同様の検索エンジンだけでなく、すべてのパーソナルコンピュータにも当てはまることを意味する。
特定のソフトウェアアプリケーションは、OSによって提供される機能に加えて、システムのサポートも含む場合がある。
11.2.取得装置をサポートするOS
取得装置の適用性は単一のソフトウェアアプリケーションを超えて拡張しているため、ペンスキャナ等の取得装置の使用が増加するにつれて、マウスおよびプリンタへのサポートが提供されたのとほぼ同一の手法で、それらのオペレーティングシステムへのサポートを築くことが望ましくなるであろう。システムの動作の他の側面に関しても、同じことが言えるであろう。以下に例をいくつか挙げる。いくつかの実施形態において、説明したシステムの全体、またはそのコアは、OSによって提供される。いくつかの実施形態において、システムのサポートは、システムの側面を直接的に実装するものを含む他のソフトウェアパッケージにより使用され得るアプリケーションプログラミングインターフェース(API)によって提供される。
11.2.1.OCRおよび他の認識技術のサポート
レンダリングされた文書からテキストを取得する方法のほとんどは、ソースデータ、一般にスキャンされた画像または何らかの話された言葉を、システムにおいて私用するのに適合するテキストとして解釈するために、何らかの認識ソフトウェアを必要とする。過去においてOCRの使用は一般に狭い範囲のアプリケーションに限られていたため、OSがOCRのサポートを含むことはあまり一般的でないが、一部のOSは、スピーチまたは手書き文字認識のサポートを含む。
認識コンポーネントがOSの一部となるにつれて、OSによって提供される他の機能をもっとうまく利用することができるようになる。多くのシステムは、例えばスペリング辞書、文法解析ツール、国際化および地方化機能を含み、特に、よく遭遇する単語およびフレーズを含むよう特定のユーザのためにカスタマイズされ得たため、それらはすべてその認識プロセスのために、説明したシステムによって有利に用いられることができる。
オペレーティングシステムがフルテキストインデックス作成機能を含む場合、第9.3項で説明したように、これらを使用して認識プロセスに知らせることもできる。
11.2.2.スキャン時にとられるアクション
光学スキャンまたは他の取得が発生し、OSに対して提示された場合、取得の所有権を請求するサブシステムが他にないイベントにおいて、そのような状況でとられるデフォルトアクションを有する場合がある。デフォルトアクションの例としては、代替の選択肢をユーザに提示すること、または、取得したテキストを検索機能に内蔵されたOSにサブミットすることが挙げられる。
11.2.3.OSは特定の文書または文書タイプ用のデフォルトアクションを有する レンダリングされた文書のデジタルソースが見つかった場合、OSは、特定の文書、または当該分類の文書がスキャンされる場合にとる標準アクションを有する場合がある。アプリケーションおよび他のサブシステムは、ある一定のファイルタイプを扱うための能力についてアプリケーションによって知らされるのと同様の方式で、特定タイプの取得の潜在的なハンドラとしてOSに登録することができる。
レンダリングされた文書、または文書からの取得に関連するマークアップデータは、特別なアプリケーション、パスアプリケーション引数、パラメータ、またはデータ等を開始するための、オペレーティングシステムへの命令を含むことができる。
11.2.4.標準アクションへのジェスチャおよびマッピングの解釈
第12.1.3項では、特に光学スキャンの場合における「ジェスチャ」の使用について論じており、ここで、携帯用スキャナによって行われる特定の動きはテキストの領域の開始および終了をマーキングする等の標準アクションを表すかもしれない。
これは、カーソルキーを使用してテキストの領域を選択しながらキーボード上のシフトキーを押下すること、または、文書をスクロールするためにマウスにホイールを使用すること等のアクションに類似している。ユーザによる該当するアクションは、OSによってシステムワイドな手法で解釈される、十分に標準的なものであり、したがって一貫した挙動を確実にする。スキャナジェスチャおよび他のスキャナ関連アクションについても同じであるのが望ましい。
11.2.5.標準(および非標準)アイコンテキスト印刷メニュー項目への応答を設定する
同様に、テキストのある一定のアイテムおよび他のシンボルは、スキャンされる際に標準アクションを引き起こすことができ、OSはこれらの選択を提供することができる。例としては、いかなる文書におけるテキスト「[印刷]」のスキャンも、OSに当該文書のコピーを取り出し印刷させるだろうということが挙げられるかもしれない。OSは、該当するアクションを登録し、それらを特定のスキャンと関連付けるための手法を提供することもできる。
11.3.スキャンに起因する一般的なアクティビティ用のシステムGUIコンポーネントにおけるサポート
ほとんどのソフトウェアアプリケーションは、実質的に、OSによって提供される標準的なグラフィカルユーザインターフェースコンポーネントに基づく。
開発者がこれらのコンポーネントを使用することは、すべてのプログラマが単独で同一の機能性を実装する必要なく、例えば、任意のテキスト編集コンテキストにおいて左カーソルキーを押下するとカーソルは左へ移動するはずであるというように、複数のパッケージにわたり一貫した挙動を確実にするのに役立つ。
これらのコンポーネントにおける同様の一貫性は、テキスト取得または説明したシステムの他の側面によってアクティビティが開始される場合に望ましい。以下に例をいくつか挙げる。
11.3.1.特定のテキストコンテンツを見つけるためのインターフェース
システムの一般的な使用は、ユーザが紙の文書のあるエリアをスキャンすること、ならびに、システムがそれを表示または編集できるソフトウェアパッケージにおいて電子副本を開き、スキャンされたテキストを当該パッケージにスクロールおよびハイライトさせることであってよい(第12.2.1項)。このプロセスの第1の部分、電子文書を見つけて開くことは一般にOSによって提供され、ソフトウェアパッケージにわたって標準である。しかしながら、第2の部分―文書内においてテキストの特定の一部分の位置を特定し、パッケージにそれをスクロールおよびハイライトさせること―は未だ標準化されておらず、パッケージごとに異なる実装をされていることが多い。この機能性に関する標準APIのアベイラビリティは、システムのこの側面の操作を大幅に強化することが可能である。
11.3.2.テキストインタラクション
テキストの一部分が文書内において位置付けられると、システムは当該テキストにおいて様々な操作を実行することを望む場合がある。例として、システムは周囲のテキストを要求する場合があり、そのため、ユーザによる数単語の取得は結果としてシステムにそれらを含む文または段落全体へアクセスさせる可能性がある。ここでも、この機能性は、テキストを扱うソフトウェアの全部において実装されるのではなく、OSによって有効に提供され得る。
11.3.3.コンテキスト(ポップアップ)メニュー
システムによって可能になる操作のいくつかはユーザフィードバックを要求し、これはデータを扱うアプリケーションのコンテキスト内において任意で要求される場合がある。いくつかの実施形態において、システムは、従来は同一のテキストにおいて右マウスボタンをクリックすることに関連するアプリケーションポップアップメニューを使用する。システムは、該当するメニューに余分のオブションを挿入し、それらを紙の文書のスキャン等のアクティビティの結果として表示させる。
11.4.ウェブ/ネットワークインターフェース
次第にネットワーク化されている今日の世界では、個別の機械において利用可能な機能性のほとんどにネットワーク上でアクセスすることもでき、説明したシステムに関連する機能性も例外ではない。例として、オフィス環境においては、ユーザが受け取った多くの紙の文書は同一の企業ネットワーク上にある他のユーザの機械によって印刷されたものである場合がある。1つのコンピュータ上のシステムは、取得を受けて、適切な許可制御を適用し、当該取得に対応し得る文書用にそれらの他の機械をクエリーすることができる。
11.5.文書の印刷が保存を引き起こす
紙とデジタル文書の統合において重要なファクタは、両者の間の取引についてできる限り多くの情報を保持することである。いくつかの実施形態において、OSは、あらゆる文書がいつ誰によって印刷されたかを簡単な記録に留める。いくつかの実施形態において、OSは、システムによる使用により適したものにする1つ以上のアクションをさらに行う。例として以下のものが挙げられる。
それが印刷されたソースについての情報とともに印刷されたすべての文書のデジタルレンダリング版を保存する;
将来スキャン解釈の助力となるかもしれない印刷版についての有効な情報―例えば使用されたフォントおよび改行が生じる場所―のサブセットを保存する;
あらゆる印刷されたコピーに関連するソース文書の版を保存する;
印刷時に自動的に文書のインデックス作成をし、将来の検索のために結果を格納する。
11.6.(印刷済み/スキャン済み)マイドキュメント
OSは多くの場合、特定の意義を有するある一定のカテゴリのフォルダおよびファイルを保持している。ユーザの文書は、仕様およびデザインによって、例えば「マイドキュメント」フォルダ内で見つかる。標準ファイルオープンダイアログは、最近開かれた文書のリストを自動的に含むことができる。
説明したシステムで使用するために最適化されたOSにおいて、該当するカテゴリは、格納されたファイルの紙版とのユーザインタラクションを考慮に入れるという手法で強化または増強され得る。「印刷済みマイドキュメント」または「最近読んだマイドキュメント」等のカテゴリは、有効に識別され、その操作に組み込まれるかもしれない。
11.7.OSレベルマークアップ階層
システムの重要な側面は一般に第5項で論じた「マークアップ」概念を使用して提供されるため、OS自体に加えて複数のアプリケーションにアクセス可能な手法でOSによって提供される該当するマークアップのサポートを有することは明らかに有利であろう。また、マークアップの層は、その制御下における文書についての知識および提供可能な機能に基づいて、OSによって提供されることができる。
11.8.OS DRM装置の使用
増えつつあるオペレーティングシステムは、何らかの形で「デジタル権利管理」、つまり、特定のユーザ、ソフトウェアエンティティ、または機械に付与された権利に従って特定のデータの使用を制御するための能力をサポートしている。それにより、例えば権限のないコピーまたは特定の文書の配布を阻止することができる。
12.ユーザインターフェース
システムのユーザインターフェースは、取得装置が比較的ダムでありケーブルによってそれに接続されている場合には完全にPC上にあってよく、または、それが高性能でありそれ自体が大きな処理能力を持つ場合には完全にデバイス上にあってよい。何らかの機能性が各コンポーネントに備わっている場合がある。システムの機能性の一部または全部が、携帯電話またはPDA等の他のデバイス上で実装される場合もある。
したがって以下の項の説明は、ある一定の実装において望ましい場合があるものを表示したものであるが、これらはすべてに必ずしも適切ではなく、いくつかの手法で修正されることができる。
12.1.取得装置上で
すべての取得装置について、しかし特に光学スキャナの場合、スキャン時のユーザの注意は概してデバイスおよび紙に注がれるであろう。そこで、スキャンプロセスの一部として必要とされるいかなる入力およびフィードバックも、ユーザの注意がどこか、例えばコンピュータの画面上にあることを必要以上に要求しないことが極めて望ましい。
12.1.1.スキャナにおけるフィードバック
携帯型スキャナは、特定の状況についてユーザにフィードバックを提供する様々な手法を有することができる。最も明らかなタイプは、スキャナがインジケータライトまたはフルディスプレイまで組み込む直接視覚的なもの、およびスキャナがビープ音、クリック音、または他の音を鳴らすことができる聴覚的なものである。重要な代替としては、スキャナが振動したり、ブンブンうなったり、またはユーザの触覚を刺激したりできる触覚フィードバック、および高性能のディスプレイへの光の有色点から何かを紙に投影することによりステータスを示す投影フィードバックが挙げられる。
デバイスにおいて提供され得る重要な即時フィードバックは、以下を含む。
スキャンプロセスにおけるフィードバック―ユーザが速すぎる速度で、大きすぎる角度でスキャンする、もしくは特定の行の上でのドリフトが高すぎるまたは低すぎる;
十分なコンテンツ―存在する場合、一致するものを見つけるために十分なスキャンが行われた―非接続操作に重要;
既知のコンテキスト位置を特定されたテキストのソース;
既知の固有コンテキスト位置を特定されたテキストの1つの固有ソース;
コンテンツのアベイラビリティ―コンテンツがユーザに自由に利用可能か、または費用がかかるかの表示;
通常システムの後の段階に関連するユーザインタラクションの多くは、例えば文書の一部または全部を表示するための十分な能力を有する場合、取得装置において行われることもできる。
12.1.2.スキャナの制御
デバイスは、基本的なテキスト取得に加えて、入力を提供するための様々な手法をユーザに提供することができる。デバイスが、キーボードおよびマウス等の入力オプションを有するホストマシンと密接に関連している場合であっても、ユーザが例えばスキャナを操作することとマウスを使用することとの間で切り替えるのに混乱を生じさせる場合がある。
携帯用スキャナは、ボタン、スクロール/ジョグホイール、タッチパネル、および/またはデバイスの動きを検出するための加速度計を有してよい。これらのいくつかにより、スキャナを保持しながらインタラクションのより豊富なセットが可能になる。
例えば、何らかのテキストのスキャンを受けて、システムはいくつかの一致することが可能な文書のセットをユーザに提示する。ユーザは、スキャナの側面にあるスクロールホイールを使用してリストから1つを選択し、ボタンをクリックして選択を確認する。
12.1.3.ジェスチャ
紙全体にわたってスキャナを移動させる主な理由はテキストを取得することであるが、いくつかの動きはデバイスによって検出され、ユーザの他の意図を示すために使用されることができる。該当する動きを、本明細書においては「ジェスチャ」と称する。
例として、ユーザは、従来の左から右の順序で最初の数単語を、最後の数単語を逆の順序、すなわち右から左へスキャンすることによって、テキストの広範な領域を示すことができる。ユーザは、ページ内で数行にわたってスキャナを下に移動させることによって、関心のあるテキストの垂直延長を示すこともできる。後方スキャンは前回のスキャン操作の取り消しを示すかもしれない。
12.1.4.オンライン/オフライン挙動
システムの多くの側面は、スキャナとラップトップ型ホストコンピュータ等のシステムのコンポーネント間の、または企業データベースおよびインターネット検索との接続の形態で外部との、いずれかのネットワーク接続性に依存する場合がある。しかしながら、この接続性は常に存在することはできず、したがってシステムの一部または全部が「オフライン」であると見なされる場合もあるということになる。システムがそれらの状況で有効に機能し続けられるようにすることが望ましい。
システムの他の部分と接触していない場合、デバイスを使用してテキストを取得することができる。極めて単純なデバイスは、取得に関連する、理想を言えばいつ取得されたかを示すタイムスタンプに関連する画像または音声データを単に格納できるものである。様々な取得は、デバイスが次に接触した際にシステムの残りの部分にアップロードされ、扱われることができる。デバイスは、例えば光学スキャンに関連するボイス注釈、またはロケーション情報等、取得に関連する他のデータをアップロードすることもできる。
より高性能なデバイスは、それら自体が接続を切られているにもかかわらず、システム操作の一部または全部を実行することができる。そうするためのそれらの能力を改善するための様々な技術を、第15.3項で論じる。オフライン中に所望のアクションの全部ではなく一部が実行され得る場合も多くあるだろう。例えば、テキストは認識されることができるが、ソースの識別はインターネットベースの検索エンジンとの接続に依存する場合がある。したがっていくつかの実施形態において、デバイスは接続性が復旧された際に効率的に進めるために、残りのシステムに関して各操作がどの程度進行したかについて十分な情報を格納する。
システムの操作は概して即時利用可能な接続性から利益を得るが、いくつかの取得を実行し、その後それらをバッチとして処理することに利点があるという状況がいくつかある。例えば、以下の第13項で論じるように、特定の取得のソースの識別は、ほぼ同時にユーザによって行われた他の取得を調べることによって大幅に強化され得る。ユーザに生のフィードバックが提供されている完全に接続されたシステムにおいて、現在のものを処理している場合、システムは過去の取得を使用することしかできない。しかしながら、取得がオフライン時にデバイスによって格納されたバッチの1つである場合、システムは、その解析を行っている際に、初期の取得に加えて後の取得から利用可能なあらゆるデータを考慮に入れることができるであろう。
12.2.ホスト装置において
スキャナは多くの場合、ユーザとのより詳細なインタラクションを含むシステムの機能の多くを実行するために、PC、PDA、電話、またはデジタルカメラ等、他の何らかのデバイスと通信を行うであろう。
12.2.1.取得を受けて実行されるアクティビティ
取得を受け取ると、ホストデバイスは様々なアクティビティを開始することができる。位置を特定した後にシステムによって実行される可能なアクティビティのリスト、ならびに、取得および当該文書内のロケーションに関連する電子副本を以下に挙げる。
取得の詳細をユーザ履歴に格納することができる。(第6.1項)
ローカル記憶領域またはリモートロケーションから文書を取り出すことができる。(第8項)
オペレーティングシステムのメタデータおよび文書に関連する他の記録を更新することができる。(第11.1項)
次の関連操作を判定するために、文書に関連するマークアップを調べることができる。(第5項)
文書においてソフトウェアアプリケーションを編集、ビュー、または操作開始することができる。アプリケーションの選択は、ソース文書、またはスキャンのコンテンツ、または取得の他の何らかの側面に依存する場合がある。(第11.2.2、11.2.3項) アプリケーションは、取得のロケーションへスクロール、そこをハイライト、挿入ポイントをそこへ移動、またはそこを表示することができる。(第11.3項)
取得されたテキストの正確な範囲は、例えば、取得されたテキストの周囲の単語、文、または段落全体を選択するように修正されることができる。(第11.3.2項)
取得テキストをクリップボードにコピーするため、もしくは、他の標準的なオペレーティングシステムまたはその上でのアプリケーション固有の操作を実行するためのオプションをユーザに与えることができる。
注釈入力は、文書または取得されたテキストに関連していてよい。これらは即時ユーザ入力から生じてもよく、または、例えば光学スキャンに関連するボイス注釈の場合、初期に取得されたものであってもよい。(第19.4項)
ユーザが選択するための将来可能な操作のセットを判定するために、マークアップを調べることができる。
12.2.2.コンテキストポップアップメニュー
システムによってとられる適切なアクションは、明らかな場合もあるが、ユーザによって行われる選択を必要とする場合もある。これを行うための1つの良い手法は、「ポップアップメニュー」の使用によるもの、または、コンテンツが画面にも表示されている場合には、コンテンツ付近に現われるいわゆる「コンテキストメニュー」を使用するものである(第11.3.3項を参照)。いくつかの実施形態において、スキャナ装置は紙の文書にポップアップメニューを投影する。ユーザは、キーボードおよびマウス等の従来の方法を使用して、または取得装置の制御(第12.1.2項)、ジェスチャ(第12.1.3項)を使用して、またはスキャナを使用してコンピュータディスプレイと情報をやりとりすることによって(第12.2.4項)、該当するメニューを選択することができる。いくつかの実施形態において、取得の結果として現われ得るポップアップメニューは、ユーザが応答しない場合―例えば、ユーザがメニューを無視し、別の取得を行った場合―に生じるアクションを表すデフォルト項目を含む。
12.2.3.曖昧性の除去におけるフィードバック
ユーザがテキスト取得を開始すると、始めはいくつかの文書または一致しそうな他のテキストロケーションがあるであろう。テキストの取得が進んで他のファクタが考慮に入れられると(第13項)、候補ロケーションの数は実際のロケーションが識別されるまで減少し、またはさらなる曖昧性の除去はユーザ入力なしには不可能である。いくつかの実施形態において、システムは、例えばリスト、サムネイル画像、またはテキストセグメント形態で、見つかった文書またはロケーションのリアルタイム表示を、および取得が継続するにつれて数を減少させるため、当該ディスプレイ内の要素の数を提供する。いくつかの実施形態において、システムはすべての候補文書のサムネイルを表示し、ここでサムネイルのサイズまたは場所は、それが正しい一致であるという可能性に依存する。
取得が一義的に識別されると、例えば音声フィードバックを使用して、この事実をユーザに対して強調することができる。
取得されたテキストが多くの文書に生じ、引用文として認識される場合がある。システムは、例えば、元のソース文書の周辺に引用された参考資料を含む文書を分類することによって、これを画面上に示すことができる。
12.2.4.画面からのスキャン
いくつかの光学スキャナは、紙の上に加えて、画面上に表示されたテキストを取得することができる。したがって、レンダリングされた文書という用語は、本明細書においては、紙への印刷がレンダリングの唯一の形態ではないこと、および、システムによって使用するためのテキストまたはシンボルの取得は、電子ディスプレイ上に当該テキストが表示された際と等しく価値があり得ることを示すために使用される。
説明したシステムのユーザは、オプションのリストから選択するため等様々な他の理由により、コンピュータ画面と情報をやりとりすることが必要な場合がある。スキャナを下に置き、マウスまたはキーボードの使用を開始することは、ユーザにとって不便な場合がある。他の項では、スキャナ(第12.1.2項)またはジェスチャ(第12.1.3項)における物理制御を、このツールの変更を要求しない入力の方法として説明したが、何らかのテキストまたはシンボルをスキャンするために画面自体の上でスキャナを使用することは、システムによって提供される重要な代替である。
いくつかの実施形態において、スキャナの光は、実際にテキストをスキャンする必要なく、場合によってはコンピュータ上の特別なハードウェアまたはソフトウェアの助力によって、画面上でその場所を直接的に感知する、ライトペンと同様の方式での使用を可能にする。
13.コンテキスト解釈
説明したシステムの重要な側面は、使用中の文書を識別するのを助けるための、テキストの文字列の単純な取得以外のファクタの使用である。適量のテキストの取得は、多くの場合、文書を一意に識別することができるが、多くの状況において識別するのは少数の候補文書である。1つの解決策は、スキャンされている文書を確認するようユーザに促すことであるが、好ましい代替は、可能性を自動的に絞り込むために他のファクタを活用することである。該当する補足情報は、取得される必要があるテキストの量を劇的に削減し、かつ/または、電子副本内においてロケーションを識別できる信頼性および速度を高めることができる。この余分の資料を「コンテキスト」と称し、これについては第4.2.2項で簡単に論じた。ここではそれをさらに深く考察する。
13.1.システムおよび取得コンテキスト
おそらく、該当する情報の最も重要な例は、ユーザの取得履歴である。
特に前回の取得がここ数分の間に行われた場合、いかなる取得も前回と同一の文書、または関連文書から生じたものであることがほぼ確実である(第6.1.2項)。逆に、2回のスキャンの間でフォントが変化したことをシステムが検出した場合、それらは異なる文書から生じたものである可能性が高い。
ユーザの長期取得履歴および読書習慣も有用である。これらを使用して、ユーザの関心および関連付けのモデルを開発することもできる。
13.2.ユーザの実世界コンテキスト
有用なコンテキストの別の例は、ユーザの地理的位置である。例えば、パリにいるユーザは「Seattle Times」よりも「Le Monde」を読む傾向が強い。したがって、文書の印刷版のタイミング、サイズ、地理的配布が重要となる場合があり、システムの操作からある程度の推定が可能である。
例えば、通勤中にいつも1つのタイプの発行物を読み、昼食時または帰宅中の電車内で異なる発行物を読むユーザの場合、時間帯も関連し得る。
13.3.関連するデジタルコンテキスト
より従来の手段により検索または取り出しされたものを含み、電子文書のユーザによる最近の使用も役立つインジケータとなり得る。
企業ネットワーク上等では、他のファクタが有用であると見なされる場合がある。
最近印刷されたのはどの文書か
企業ファイルサーバ上で最近修正されたのはどの文書か
最近電子メールで送られたのはどの文書か
これらの例はすべて、ユーザがそれらの文書の紙版を読んでいる可能性が高いことを示唆しているかもしれない。対照的に、文書が備わっている収納庫が、その文書が印刷されたことがない、または、印刷されるかもしれない場所へ送信されたことがないと断言することができる場合、紙から発生するいかなる検索においても安全に削除されることができる。
13.4.他の統計―グローバルコンテキスト
第14項では紙ベースの検索から結果として生じるデータストリームの解析について取り上げているが、本明細書において、他の読者への文書の人気について、人気のタイミングについて、および最も頻繁にスキャンされる文書の部分についての統計はすべて、検索プロセスにおいて有益となり得るさらなるファクタの例であることに留意すべきである。システムは、紙の世界にGoogleタイプのページランキングの可能性をもたらす。
検索エンジンのためのコンテキストの使用に関する他の何らかの意味合いについては、第4.2.2項を参照のこと。
14.データストリーム解析
システムの使用は、副次的な結果として非常に価値のあるデータストリームを発生させる。このストリームは、ユーザがいつ何を読んでいるかについての記録であり、多くの場合、ユーザが読んだものの中で特に価値があると感じるものについての記録である。該当するデータは、紙の文書について以前は実際に利用可能ではなかった。
このデータがシステムにとって、およびシステムのユーザにとって有用となり得るいくつかの手法については、第6.1項で説明する。この項では、その他の使用法に集中する。当然ながら、人々が読んでいるものについてのデータの配布に関して考慮すべき実質的なプライバシーの問題があるが、匿名性保護の問題は、当業者には既知である。
14.1.文書追跡
ある任意のユーザがどの文書を読んでいるかシステムが知っている場合、ある任意の文書を誰が読んでいるかをシステムが推測することもできる。これにより、例えば、誰がいつそれを読んでいるか、どの程度広範にわたって配布されたか、配布にどのくらい時間がかかったか、および、誰が現在版を見ていて、誰が未だ旧版のコピーを使っているかの解析を可能にするための、組織を通じた文書の追跡が可能になる。
より広範に配布される発行された文書に関して、個別のコピーの追跡はより困難であるが、読者層の分布の解析は依然として可能である。
14.2.読書ランキング―文書とサブ領域の人気
ユーザが特に関心のあるテキストまたは他のデータを取得している状況において、システムは、ある文書およびそれらの文書の特定のサブ領域の人気を推測することができる。これは、システム自体に対し価値のある入力(第4.2.2項)、ならびに、著者、発行者、および広告主にとって重要な情報ソース(第7.6項、第10.5項)を形成する。このデータは、検索エンジンおよび検索インデックスに統合されている―例えば、レンダリングされた文書から生じるクエリーの検索結果のランキングを助力するため、および/または、ウェブブラウザに打ち込まれた従来のクエリーをランキングするのを助力するため―場合にも有用である。
14.3.ユーザの解析―プロファイルを築く
ユーザが何を読んでいるかという知識は、システムが、ユーザの関心およびアクティビティの極めて詳細なモデルを作成することを可能にする。これは、抽象的な統計的基礎―「この新聞を買うユーザの35%は当該著者の最新本も読む」―において有用であり得るが、以下で論じるような個人ユーザとの他のインタラクションも可能にする。
14.3.1.ソーシャルネットワーキング
例を1つ挙げると、1人のユーザを、関連の関心を有する他のユーザと接続するというものである。これらは、ユーザにとって既知の人々であってよい。システムは、大学教授に「XYZ大学のあなたの同僚もこの新聞を読んだばかりだということを知っていましたか」と尋ねることができる。システムは、ユーザに「近隣で”Jane Eyre”を読んでいる他の人とリンクすることを希望しますか」と尋ねることができる。該当するリンクは、物質世界またはオンラインのいずれかにおいて、ブッククラブまたは同様の社会構造の自動形成の基礎となり得る。
14.3.2.マーケティング
第10.6項では、製品およびサービスを、それらのシステムとのインタラクションに基づいて、個人ユーザに提供するという考えについて既に述べた。例えば、現在のオンライン書籍販売業者は、多くの場合、ユーザの前回の書籍販売業者とのインタラクションに基づいてユーザに推薦を行う。該当する推薦は、それらが実際の本とのインタラクションに基づいたものである場合に、よりいっそう有用となる。
14.4.データストリームの他の側面に基づいたマーケティング
システムが、文書を発行する人々、それらを通じて広告をする人々、および紙から開始される他の販売に影響を及ぼし得る、いくつかの手法について論じてきた(第10項)。一部の商業活動は、紙の文書との直接的なインタラクションを全く持たないが、それにも関わらずそれらから影響を受ける場合がある。例えば、ある1つのコミュニティにいる人々は、経済面よりもスポーツ面を読むのに時間を費やすという知識は、ヘルスクラブを設立しようとしている誰かにとっては関心のあるものかもしれない。
14.5.取得可能なデータのタイプ
どの文書のどの部分を誰がいつどこで読んでいるか等の論じた統計に加えて、文書の位置が特定されたか否かにかかわらず、取得されたテキストの実際のコンテンツを調べることも関心を集める場合がある。
多くの場合、ユーザは何らかのテキストを取得しているだけでもなく、結果として何らかのアクションを起こしているであろう。例えば、文書を参照して電子メールを送ろうとしているかもしれない。ユーザまたは電子メールの受信者のIDについての情報がない場合であっても、誰かがその文書を電子メールで送る価値があると見なしているという知識は、極めて有用である。
特定の文書またはテキストの一部分の価値を推測するための上記様々な方法に加えて、ユーザは状況次第で、それに格付けを割り当てることにより、価値を明確に示すであろう。
最後に、ユーザの特定のセットが群を形成することが既知である場合、例えば、特定の会社の従業員であることが既知である場合、当該群の集合統計を使用して、当該群にとっての特定の文書の重要性を推測することができる。
15.デバイス特徴および機能
システムで使用する取得装置は、レンダリングされた文書からテキストを取得する手法を必要とするにすぎない。前述したように(第1.2項)、この取得は、文書の一部の写真を撮影すること、および、いくつかの単語を携帯電話キーパッドに打ち込むことを含む様々な方法によって実現できる。この取得は、1〜2行のテキストを同時に記録できる小型携帯用光学スキャナ、または、ユーザが文書からテキストを読み込むボイスレコーダ等の音声取得装置を使用して実現できる。使用されるデバイスは、これらの組み合わせ―例えば、ボイス注釈も記録できる光学スキャナ―であってよく、取得機能性は、携帯電話、PDA、デジタルカメラ、または携帯音楽プレーヤー等の他のデバイスに内蔵されてもよい。
15.1.入力および出力
該当するデバイスのための、場合によっては有益となる追加の入力および出力機能の多くについて、第12.1項で説明した。それらは、入力用のボタン、スクロールホイールおよびタッチパッド、ならびに、出力用のディスプレイ、インジケータライト、音声および触覚変換器を含む。デバイスがそれらのうちの多くを組み込む場合もあれば、極めて少ない場合もあるであろう。時に取得装置は、例えば無線リンクを使用して、既にそれらを有する別のデバイスと通信を行うことができるであろうし(第15.6)、時に取得機能性は、該当する他のデバイスに組み込まれるであろう(第15.7項)。
15.2.接続性
いくつかの実施形態において、デバイスは、システム自体の大部分を実装する。しかしながら、いくつかの実施形態において、多くの場合デバイスは、PCまたは他のコンピュータ機器と、および通信設備を使用してより広範な世界と通信を行う。
多くの場合、これらの通信設備は、イーサネット(登録商標)、802.11、またはUWB等の汎用データネットワーク、もしくは、USB、IEEE−1394(ファイヤワイヤ)、Bluetooth(商標)、または赤外線等の標準的な周辺機器接続ネットワークの形態である。ファイヤワイヤまたはUSB等の有線接続が使用されている場合、デバイスは同一の接続を通じて電力を受け取ることができる。状況次第で、取得装置は、接続された機械がUSB記憶域装置等の従来の周辺機器であるように思われる場合がある。
最後に、デバイスは、当該デバイスと連動して使用するため、または便利な記憶領域用に、状況次第で別のデバイスと「ドッキング」する場合がある。
15.3.キャッシングおよび他のオンライン/オフライン機能性
第3.5および12.1.4項では、非接続操作のトピックを取り上げた。取得装置がシステムの全機能性の限られたサブセットしか有しておらず、システムの他の部分と通信を行っていない場合、利用可能な機能性は削減される可能性があるが、デバイスは依然として有用であり得る。最も単純なレベルでは、デバイスは取得されている生画像または音声データを記録することができ、これは後に処理されることができる。しかしながら、ユーザの利益のためには、可能であれば、取得されたデータは進行中のタスクに十分でありそうか、それは識別されることができる、または識別可能でありそうか、および、データのソースは識別されることができる、または後に識別可能でありそうか、についてフィードバックを与えることが重要である。その後ユーザは、それらの取得アクティビティが有意義なものか否かを知るであろう。上記の事柄すべてが不明の場合であっても、ユーザが後にそれらを参照することができるように、最低限でもやはり生データを格納することができる。例えばOCRプロセスによってスキャンを認識することができない場合、ユーザにスキャンの画像が提示される場合がある。
利用可能なオプションの範囲の一部を示すために、幾分単純な光学スキャン装置およびさらにいっそうフル装備のものの両方を以下に説明する。多くのデバイスが両者の間の中間地点を占める。
15.3.1.SimpleScanner−ローエンドオフラインの例
SimpleScannerは、テキスト行に沿って移動するときにページからピクセルを読み込むことができる、スキャンヘッドを有する。SimpleScannerは、そのページに沿った動きを検出すること、およびその動きに関するいくつかの情報を有するピクセルを記録することができる。また、クロックを有し、それぞれのスキャンをタイムスタンプすることができる。SimpleScannerが接続性を有する場合、クロックはホスト装置と同期する。クロックは実際の時刻を表すことができないが、ホストが、スキャンの実際の時間、または最悪の場合でも、スキャン間の経過時間を導き出すことができるように、実際の時間から相対的時間を判断することが可能である。
SimpleScannerは、OCR自体を実行するための十分な処理能力を持たないが、代表的なワード長、ワード間隔、およびフォントサイズに対するそれらの関係に関するいくつかの情報を有する。SimpleScannerは、いくつかの基本的なインジケータライトを有し、スキャンが読み取り可能となりうるかどうか、ヘッドの動きが早すぎるか、遅すぎるか、または不正確に紙面を横断しているかどうか、および識別すべき文書に対して所与のサイズの十分な単語がスキャンされていると判断したのはいつか、などをユーザに知らせる。
SimpleScannerは、USBコネクタを備えており、コンピュータ上のUSBポートに接続され、再充電される。コンピュータに対して、SimpleScannerは、タイムスタンプされたデータファイルが記録され、残りのシステムソフトウェアがその場所からデータファイルを引き継ぐ、USB記憶装置のよう見える。
15.3.2.SuperScanner−ハイエンドオフラインの例
SuperScannerも、その完全な動作のための接続性に依存するが、オフラインの間に取得されたデータに関してのより良い判断を助力できる、大量のオンボードの記憶装置および処理を有する。
SuperScannerがテキスト行に沿って移動するとき、取得したピクセルは、互いにステッチされ、そのテキストを認識しようとするOCRエンジンに渡される。ユーザのPCのスペルチェッカ用辞書と同期し、ユーザが頻繁に遭遇する単語のうちの多くを含む、辞書を有するように、ユーザが最も読んでいる刊行物からのものを含む、複数のフォントが、このタスクの実行を助力するようにSuperScannerにダウンロードされている。また、スキャナには、辞書と組み合わせることが可能な、標準的な使用頻度の単語およびフレーズのリストが格納される。スキャナは、認識プロセスを助力するために、またいつ十分な量のテキストを取得したのかに関する判断を通知するために、頻度の統計を使用することができる。より頻繁に使われるフレーズは、検索クエリーの基準としてはあまり有用ではない。
さらに、ユーザがオンライン書店から最近購入した本のインデックスのような、またはユーザが過去数ヶ月内にスキャンしたものからの、最近の新聞記事の完全なインデックス、およびユーザが最も一般的に読んでいる定期刊行物が装置に格納される。最後に、他の情報を使用せずに、ユーザがタイトルをスキャンすることができ、特定の作業から取得したものが、後に電子フォームで取り出すことができるかどうかに関して良い案を持つように、システムで利用可能なデータを有する数千の最も人気のある刊行物のタイトルが格納される。
スキャンプロセス中、システムは、取得したデータが十分な品質のものであること、および接続が復元されたときに電子コピーを取り出すことができるようにするための十分な性質のものであること、をユーザに通知する。しばしば、システムは、スキャンが成功したことを知っていること、およびそのコンテキストがオンボードのインデックスのうちの1つにおいて認識されていること、または関係する刊行物は、そのデータがシステムで利用可能であることが知られていて、後の取り出しが成功するはずであること、をユーザに示す。
SuperScannerは、PCのファイアワイヤまたはUSBポートに接続されたクレードルにドッキングし、その場所において、取得したデータのアップロードに加えて、様々なオンボードのインデックスおよび他のデータベースが、最近のユーザのアクティビティおよび新刊書に基づいて更新される。また、SuperScannerは、無線公衆ネットワークへの接続、またはBluetoothを介した携帯電話への通信、および当該の機能が利用可能である場合に公衆ネットワークと通信を行うための機能も有する。
15.4.光学スキャンのための機能
以下、特に光スキャナ装置に望ましいとされるいくつかの機能を考察する。
15.4.1.柔軟な位置決めおよび便利な光学系
紙が継続的に普及している理由の1つは、例えばコンピュータが非実用的または不便であるような様々な状況での使用が容易だからである。したがって、ユーザの情報のやりとりの本質的部分を紙によって取得しようとする装置は、同じように使用時に便利でなければならない。これは、過去にスキャナには無かった事例である。最も小型の携帯型装置でさえ、幾分扱いにくかった。ページと接触することを目的としたスキャナは、紙に対して正確な角度で保持しなければならず、またスキャンするテキストに沿って非常に慎重に移動させる必要がある。これは、オフィスの机上でビジネスレポートをスキャンする場合には許容できるが、電車を待っている間に小説からフレーズをスキャンする場合には非実用的である。紙から少し離れて操作する、カメラタイプの光学系をベースにしたスキャナは、状況によっては同じく有用となりうる。
システムのいくつかの実施形態では、紙と接触させてスキャンし、レンズの代わりに光ファイバの束の画像ルートを使用して画像をページから光センサ装置に送信する、スキャナを使用する。当該の装置は、それが自然な位置に保持できるように形成することができる。例えば、いくつかの実施形態において、ページと接触する部分はくさび形であり、ユーザの手が、マーカーペンを使用したときと同じような動きで、ページ上をより自然に移動できる。画像ルートは、紙と直接接触するか、またはその近傍にあり、画像ルートを可能な損傷から保護することができる交換式の透明な先端を備えることが可能である。12.2.4項で述べたように、スキャナは、スクリーンおよび紙からのスキャンに使用することが可能であり、先端の材料は、当該の表示を損なう可能性を減じるように選択することができる。
最後に、装置のいくつかの実施形態では、ユーザのスキャンが、早すぎる、遅すぎる、またはスキャンするラインよりも高すぎたり低すぎたりする場合に、光、音、または触覚のフィードバックを使用して、スキャン処理中にユーザにフィードバックを提供する。
15.5.セキュリティ、アイデンティティ、認証、個人化、および課金
6項にて説明したように、取得装置は、安全な取引、購入、および様々な他の工程に対する識別および承認の重要な部分を形成する場合がある。したがって、取得装置は、当該の役割に必要な回路およびソフトウェアに加えて、装置をより安全にできる、スマートカードリーダ、RFID、またはPINを入力するためのキーパッドのような様々なハードウェア機能を組み込むことが可能である。
また、ユーザの識別を助力するための様々な生体認証センサーを含むことが可能である。例えば、光スキャナの場合、スキャンヘッドはまた、指紋を読み込むことが可能である。音声記録装置の場合、ユーザの音声パターンを使用することが可能である。
15.6.デバイス接続
いくつかの実施形態では、デバイスは、それ自体の、またはそれらの機能を向上させるために、他の隣接するデバイスとの関連付けを形成することができる。いくつかの実施形態では、例えば、デバイスは、その操作に関するより詳細なフィードバックを提供するために、隣接するPCのディスプレイまたは電話器を使用するか、あるいはネットワーク接続を使用する。一方で、デバイスは、他のデバイスによって実行される動作を認証するために、デバイスのセキュリティおよび識別装置としての役割における動作を行うことが可能である。または、単純にそのデバイスの周辺機器として機能するように関連付けることが可能である。
当該の関連付けの興味深い側面は、デバイスの取得機能を使用して、関連付けを開始および認証することが可能なことである。例えば、自分を公衆のコンピュータ端末に安全に識別させたいユーザは、デバイスのスキャン機能を使用して、端末の画面の特定の領域に表示されるコードまたはシンボルをスキャンすることによって、キーの転送を達成することが可能である。類似した処理は、音声記録装置によって取り出される音声信号を使用して実行することが可能である。
15.7.他の装置との統合
いくつかの実施形態では、取得装置の機能は、すでに使用中のいくつかの他のデバイスに統合される。統合装置は、電源、データ取得および記憶機能、およびネットワークインターフェースを共有できるようにすることが可能である。当該の統合は、コストの削減、またはそれ以外ならば利用できない機能を有効にするために、便宜上単純に行うことが可能である。
取得機能を統合することができる装置のいくつかの例を以下に挙げる。
マウス、スタイラス、USB「webcam」カメラ、BluetoothTMヘッドセットまたは遠隔制御のような既存の周辺機器;
PDA、MP3プレーヤ、音声記録装置、デジタルカメラまたは携帯電話のような別の処理/記憶装置;
腕時計、宝石、ペン、自動車のキーのフォブなどの、他の便宜上しばしば持ち運ぶアイテム。
15.7.1.携帯電話の統合
統合の利点の一例として、取得装置として改良された携帯電話の使用を考察する。
いくつかの実施形態では、電話器のハードウェアは、テキストの取得が音声認識を介して十分に行うことができる場合、電話器自体で処理するか、または通話の他端でのシステムによって処理できる場合、あるいは今後の処理のために電話器のメモリに格納されている場合などでは、システムをサポートするように改良されていない。多くの最新の電話器は、システムのいくつかの部分を実行することができるソフトウェアをダウンロードするための機能を備えている。当該の音声取得は多くの状況において次善であるが、例えば実質的な暗騒音がある場合、正確な音声認識は最良の状況にあっても困難なタスクである。音声機能は、音声コメントの取得に使用される最良の機能となりうる。
いくつかの実施形態では、多くの携帯電話に組み込まれるカメラは、テキストの画像を取得するために使用される。通常はカメラのファインダとしての役割を果たす、電話器のディスプレイは、画像の品質およびテキストのセグメントが取得されるOCRの適合性に関する、ライブのカメラ画像情報にオーバーレイすることが可能であり、OCRが電話器上で実行できればテキストの書き換えさえも可能である。
いくつかの実施形態では、電話器は、専用の取得機能を追加するか、または電話器と通信するクリップ式のアダプタまたはBluetooth接続した周辺機器における当該の機能を提供するように改良される。取得機構の性質が何であっても、最新の携帯電話との統合は多くの他の利点を有する。電話器は、より広い世界との接続性を有するが、これは、リモート検索エンジンまたはシステムの他の部分にクエリーをサブミットすることができ、文書のコピーは、即時の記憶または表示のために取り出すことが可能である。電話器は、一般にローカルに実行されるシステムの機能の多くに対して十分な処理能力を有し、適切な量のデータ取得するための十分な記憶装置を備える。記憶量は、しばしばユーザによって拡張することもできる。電話器は、ユーザにフィードバックを提供し、しばしば触覚のフィードバックのための振動機能を提供するための、かなり優れたディスプレイおよび音声機能を備える。電話器はまた、優れた電源も有する。
すべてのうちで最も注目すべきは、大部分のユーザがすでに持ち運んでいるデバイスであるということである。
第3部システムのアプリケーション例
この項では、意ステムおよびシステムに組み込むことが可能なアプリケーションの使用例を挙げる。このリストは、単に例証を示すことを意図したものであり、網羅的な感覚のものではない。
16.個人用アプリケーション
16.1.ライフライブラリ
ライフライブラリ(6.1.1項も参照のこと)は、サブスクライバが保存を望むあらゆる重要な文書のデジタルアーカイブであり、また本システムの一組のサービスの実施形態である。重要な書籍、雑誌記事、新聞切り抜きなどは、すべてデジタル形式でライフライブラリに保存することができる。加えて、サブスクライバの注釈、コメント、および注記は、文書とともに保存することができる。ライフライブラリは、インターネット、および、ワールドワイドウェブを介して利用することができる。
システムは、サブスクライバのためのライフライブラリの文書アーカイブを作成および管理する。サブスクライバは、文書から情報をスキャンすることによって、それ以外ならば、サブスクライバのライフライブラリに特定の文書を追加することをシステムに示すことによって、どの文書を自分のライフライブラリに保存させたいのかを示す。スキャンした情報は、一般に文書からのテキストであるが、バーコードまたは文書を識別する他のコードとすることもできる。システムはコードを承認し、ソース文書を識別するためにそのコードを使用する。文書が識別された後、システムは、ユーザのライフライブラリ内の文書のコピーか、または文書を入手することが可能なソースへのリンクを格納することができる。
ライフライブラリの一実施形態では、サブスクライバがその電子コピーの入手することを許可されているかどうかを確認することができる。例えば、記事が読者のライフライブラリに追加されるように、読者がNew York Times(NYT)の記事のコピーからテキストまたは識別子をスキャンする場合、ライフライブラリシステムは、その読者がNYTのオンライン版をサブスクライブしているかどうかをNYTによって検証する。サブスクライブしている場合、読者は、自分のライフライブラリのアカウントに格納されている記事のコピーを入手する。サブスクライブしていなければ、その文書を識別する情報およびどのように注文するのかが読者のライフライブラリに格納される。
いくつかの実施形態では、システムは、アクセス権情報を含む各サブスクライバのサブスクライバプロファイルを保持する。文書アクセス情報は幾通りかの方法でコンパイルすることができる。そのうちの2つを以下に示す。1)サブスクライバは、自分のアカウント名、パスワードなどとともに、ライブラリシステムに文書のアクセス情報を供給する。2)ライフライブラリのサービスプロバイダは、サブスクライバの情報について出版社にクエリーを行い、出版社は、ライフライブラリのサブスクライバがその資料の利用を許可されていれば、電子コピーの利用を提供することによって応答する。ライフライブラリのサブスクライバが、文書の電子コピーを所有することを許可されていない場合、出版社は、ライフライブラリのサービスプロバイダに価格を提供し、次いで顧客にその電子文書を購入するためのオプションを提供する。その場合、ライフライブラリのサービスプロバイダは、出版社に直接支払ってからライフライブラリの顧客に請求するか、またはライフライブラリのサービスプロバイダが、その購入に対して顧客のクレジットカードに請求する。ライフライブラリのサービスプロバイダは、購入価格の一定の割合、または取引を容易にするための小額の固定手数料を受け取る。
システムは、サブスクライバの個人用ライブラリおよび/またはサブスクライバがアーカイブの権利を有する他のライブラリの文書をアーカイブすることができる。例えば、ユーザが印刷文書からテキストをスキャンするとき、ライフライブラリシステムはレンダリングされた文書およびその電子副本を識別することができる。ソース文書が識別された後、ライフライブラリシステムは、ユーザの個人用ライブラリおよびサブスクライバがアーカイブの権利を有するグループライブラリのソース文書に関する情報を記録する場合がある。グループライブラリは、あるプロジェクトについて互いに作業しているグループ、学術研究者グループ、ウェブロググループなどのための、文書レポジトリのような共同のアーカイブである。
ライフライブラリは、時系列、トピックごと、サブスクライバの関心の度合いごと、出版物(新聞紙、書籍、雑誌、技術論文など)の種類ごと、読み込んだ場所、読み込んだ時間、ISBNごと、またはデューイ10進ごと、など、様々に構成することができる。1つの代替案では、システムは、他のサブスクライバが同じ文書をどのように分類したかに基づいて、分類を学習することができる。システムは、ユーザに分類を提案するか、またはユーザのためにその文書を自動的に分類することができる。
種々の実施形態では、注釈は、直接文書に挿入するか、または別のファイルに保持することが可能である。例えば、サブスクライバが新聞記事からテキストをスキャンする場合、その記事は、スキャンされたテキストをハイライトして、サブスクライバのライフライブラリにアーカイブされる。別様には、記事は、関連するコメントファイルとともにサブスクライバのライフライブラリにアーカイブされる(したがって、アーカイブされた文書は未変更のままである)。システムの実施形態では、各サブスクライバのライブラリのソース文書のコピー、多数のサブスクライバが利用できるマスターライブラリ内のコピー、または出版社が保持するコピーへのリンク、を保持することができる。
いくつかの実施形態では、ライフライブラリは、ユーザの文書への変更(例、ハイライトなど)および(他の場所に格納されている)オンライン版の文書へのリンクだけを格納する。システムまたはサブスクライバは、サブスクライバが続いて文書を取り出す場合、その変更を文書とマージする。
コメントが別のファイルに保持されている場合、ソース文書およびコメントファイルがサブスクライバに提供され、サブスクライバはそれらを組み合わせて変更文書を作成する。別様には、システムは、それらをサブスクライバに示す前に2つのファイルを組み合わせる。別の代替案では、コメントファイルは、文書ファイルへのオーバーレイであり、サブスクライバのコンピュータ内のソフトウェアによって文書にオーバーレイすることができる。
ライフライブラリのサブスクライバは、システムにサブスクライバのアーカイブを保持させるために、毎月の手数料を支払う。別様には、サブスクライバは、アーカイブに格納される各文書に対して小額(例、マイクロペイメント)を支払う。別様には、サブスクライバは、サブスクライバのアーカイブの利用に対してアクセスごとの使用料で支払う。別様には、サブスクライバは、ライブラリをコンパイルすることができ、ライフライブラリのサービスプロバイダおよび著作権保持者による収益割当てモデル上の資料/注釈を、他人が利用できるようにする。別様には、ライフライブラリのサービスプロバイダは、ライフライブラリのサブスクライバが文書を注文する場合、出版社からの支払いを受け取る(ライフライブラリのサービスプロバイダは、出版社の収益の割当てを受ける、出版社との収益割当モデル)。
いくつかの実施形態では、ライフライブラリのサービスプロバイダは、版権のある資料への課金および支払いを容易にするために、サブスクライバと著作権保持者との間の仲介者(または、CCCとして知られるCopyright Clearance Center;著作権料清算センター)としての役割を果たす。ライフライブラリのサービスプロバイダは、この仲介サービスを提供するために、サブスクライバの課金情報および他のユーザアカウント情報を使用する。基本的に、ライフライブラリのサービスプロバイダは、サブスクライバに代わって版権のある資料を購入できるようにするために、サブスクライバとの既存の関係を活用する。
いくつかの実施形態では、ライフライブラリシステムは、文書からの抜粋を格納することができる。例えば、サブスクライバが紙の文書からテキストをスキャンする場合、文書全体がライフライブラリにアーカイブされるのではなく、スキャンされたテキストの周囲の領域が抜粋され、ライフライブラリに配置される。これは、原本のスキャンの状況を保存することによってサブスクライバが興味のある部分を見つけるためにその文書を再読しないようにするので、文書が長い場合に特に好都合である。当然、紙の文書の全体の電子副本へのハイパーリンクを、抜粋資料とともに含めることができる。
いくつかの実施形態では、システムはまた、著者、出版タイトル、出版日付、出版社、著作権保持者(または著作権保持者のライセンスエージェント)、ISBN、文書の一般の注釈へのリンク、読書ランキングなどのような文書に関する情報もライフライブラリに格納する。文書に関するこの追加情報のうちのいくつかは、紙の文書のメタデータの形態である。第三者は、一般の人々のような自分自身以外の個人によるアクセスに対する一般のコメントファイルを作成することが可能である。文書に関する第三者のコメントにリンクすることは、他のユーザのコメントファイルを読むことによって、その文書に対するサブスクライバの理解が高まるので、好都合である。
いくつかの実施形態では、システムは、クラスによって資料をアーカイブする。この機能によって、ライフライブラリのサブスクライバは、それぞれの紙の文書を利用せずに、紙の文書のクラス全体に電子副本を迅速に格納することが可能になる。例えば、サブスクライバがNational Geographic誌のコピーからいくつかのテキストをスキャンする場合、システムは、サブスクライバにNational Geographic誌のすべてのバックナンバーをアーカイブするオプションを提供する。サブスクライバがすべてのバックナンバーのアーカイブを選択した場合、ライフライブラリのサービスプロバイダは、そのサブスクライバがアーカイブすることを許可されているかどうかを、米国地理学協会に確認する。そうでない場合には、ライフライブラリのサービスプロバイダは、National Geographic誌のコレクションをアーカイブする権利の購入を取り次ぐことができる。
16.2.ライフセーバー
ライフライブラリの概念のバリエーションまたは強化は「ライフセーバー」であり、システムは、それらの他のアクティビティについてさらに導き出すために、ユーザによって取得されるテキストを使用する。特定のレストランからメニューをスキャンする、劇場公演からプログラムをスキャンする、特定の駅の時刻表をスキャンする、または地方紙から記事をスキャンすることによって、システムは、ユーザのロケーションおよび社会活動について推理することができるようになり、例えばウェブサイトのような社会活動の自動的な日誌を構成することができる。ユーザは、日誌の編集および変更、写真などの追加資料の添付、および、当然ながら、スキャンしたアイテムを再び見ることができるようになる。
17.学問的なアプリケーション
上述のシステムによってサポートされる携帯スキャナは、学問的な環境において必要不可欠であることが多い。携帯スキャナは、生徒/教師間の情報のやりとりを強化し、また学習体験を増大させることができる。他の使用の中で、生徒たち固有のニーズに適するように研究資料にコメントを付けることができる。教師は、教室での授業を監視することができる。また、教師は、生徒の課題に引用したソース資料を自動的に検証することができる。
17.1.児童書
子供と、本のような紙の文書との情報のやりとりは、本システムの特定の組の実施形態を用いた読解力習得システムによって監視する。子供は、読解力習得システムの他の要素と通信する携帯スキャナを使用する。携帯スキャナに加えて、読解力習得システムは、ディスプレイおよびスピーカを有するコンピュータ、およびコンピュータによってアクセス可能なデータベースを含む。スキャナは、コンピュータ(ハードワイアード、短距離RFなど)に接続される。子供が書籍内の未知の単語を調べる場合、子供はその単語をスキャナでスキャンする。一実施形態では、読解力習得システムは、スキャンされたテキストとそのデータベース内のリソースを比較して、その単語を識別する。データベースは、辞書、シソーラス、および/またはマルチメディアファイル(例、音声、グラフィックスなど)を含む。単語が識別された後で、システムは、コンピュータのスピーカを使用して、単語の発音およびその定義を子供に伝える。別の実施形態では、単語およびその定義は、読解力習得システムによってコンピュータのモニター上に示される。スキャンされた単語に関するマルチメディアファイルはまた、コンピュータのモニターおよびスピーカを介して再生することもできる。例えば、「Goldilocks and the Three Bears」を読んでいる子供が、「bear」という単語をスキャンした場合、システムは、その単語「bear」を発音し、熊に関する短い映像をコンピュータのモニター上に再生することが可能である。このように、子供は、書き言葉の発音を学習し、マルチメディアによる表示を介してその単語の意味を視覚的に教わる。
読解力習得システムは、学習プロセスを強化するために、聴覚的および/または視覚的な情報を提供する。子供は、書かれた資料を迅速により深く理解するために、この補足情報を使用する。システムは、初歩の読者に読むことを教えること、子供がより多くの語彙を取得することを助力すること、などのために使用することができる。本システムは、子供がよく知らない単語に関する情報、または子供が更なる情報を所望する単語に関する情報を子供に提供する。
17.2.読解力の習得
いくつかの実施形態では、システムは、個人用辞書をコンパイルする。読者が、新しい、興味のある、または特に有用である、あるいは特に問題となっている単語を調べる場合、読者はその単語を(その定義とともに)コンピュータファイルに保存する。このコンピュータファイルは、読者のパーソナライズされた辞書になる。この辞書は、概して一般的な辞書よりもサイズが小さいので、移動局または関連する装置にダウンロードすることができ、したがって、システムに直ちにアクセスできない場合であっても利用することができる。いくつかの実施形態では、個人用辞書のエントリは、適切な単語の発音を支援するための音声ファイル、およびその単語がスキャンされた紙の文書を識別する情報を含む。
いくつかの実施形態では、システムは、カスタマイズされたスペル、および、生徒に対する語彙力テストを作成する。例えば、生徒が課題を読むときに、その生徒は携帯スキャナでよく知らない単語をスキャンすることが可能である。システムは、生徒がスキャンしたすべての単語のリストを格納する。後に、システムは、生徒へのカスタマイズされたスペル/語彙力テストを関連するモニターで管理する(または、当該のテストを関連するプリンタに印刷する)。
17.3.音楽教育
五線譜の符号の配置は、テキスト行における文字の配置に類似している。本システムにおいてテキストを取得するための上述の同じスキャン装置を、楽譜の取得に使用することができ、既知の音楽作品に対する検索を構成する類似した処理によって、取得が発生した作品を認識できるようになり、次いで取り出すこと、再生することができるか、またはいくつかの更なるアクションのための基準とすることができる。
17.4.盗用の検出
教師は、生徒の書類からテキストをスキャンし、スキャンしたテキストをシステムにサブミットすることによって、盗用を検出するために、またはソースを検証するためにシステムを使用することができる。例えば、生徒の書類における引用が、その生徒が引用したソースからのものであることを検証することを望む教師は、その引用部分をスキャンして、システムによって識別された文書のタイトルと、生徒が引用した文書のタイトルを比較することができる。同様に、システムは、生徒の原作としてサブミットされた課題からスキャンしたテキストを使用して、そのテキストが代わりにコピーされたものであるかどうかを明らかにすることができる。
17.5.強化された教科書
いくつかの実施形態では、教科書からのテキストの取得は、生徒または職員を、さらに詳細な説明、更なる課題、その資料に関する生徒と職員との議論、過去の試験問題の関連する例、その主題の更なる読み込み、その主題の講義の記録、などとリンクする(7.1項も参照のこと)。
17.6.言語のチーム化
いくつかの実施形態では、システムは、外国語を教えるために使用される。例えば、スペイン語の単語のスキャンは、その英語での定義とともに、その単語をスペイン語で音読することになる場合がある。
システムは、新しい言語習得処理を強化するために、直接の聴覚的および/または視覚的な情報を提供する。読者は、資料を迅速により深く理解するために、この補足の情報を使用する。システムは、初歩の生徒に外国語を読むことを教える、生徒がより多くの語彙を取得することを助力する、などのために使用することができる。システムは、読者が良く知らない単語に関する、または読者が更なる情報を所望する単語に関する情報を提供する。
読者と、新聞または書籍のような紙の文書との情報のやりとりは、言語技能システムによって監視される。読者は、言語技能システムと通信する携帯スキャナを有する。いくつかの実施形態では、言語技能システムは、ディスプレイおよびスピーカを有するコンピュータ、およびコンピュータによってアクセス可能なデータベースを含む。スキャナは、コンピュータ(ハードワイアード、短距離RFなど)と通信する。読者が記事内の未知の単語を調べる場合、読者はその単語をスキャナでスキャンする。データベースは、外国語辞書、シソーラス、および/またはマルチメディアファイル(例、音声、グラフィックスなど)を含む。一実施形態では、システムは、スキャンされたテキストとそのデータベース内のリソースを比較して、スキャンされた単語を識別する。単語が識別された後で、システムは、コンピュータのスピーカを使用して、単語は発音およびその定義を読者に伝える。いくつかの実施形態では、単語およびその定義は、どちらもコンピュータのモニターに表示される。スキャンした単語に関連する文法的ヒントに関するマルチメディアファイルはまた、コンピュータのモニターおよびスピーカを介して再生することもできる。例えば、単語「to speak」をスキャンした場合、システムは、「hablar」という単語を発音し、適切なスペイン語の発音を示す短いオーディオクリップを再生し、「hablar」の種々の語形変化の完全なリストを表示することが可能である。このように、生徒は、書き言葉の発音を学習し、マルチメディアによる表示を書いてその単語のスペルを視覚的に教わり、その動詞がどのように語形変化するのかを学習する。システムはまた、一般的なフレーズとともに「hablar」の適切な使用に関する文法的ヒントも示すことができる。
いくつかの実施形態では、ユーザは、ユーザの母国語(またはユーザがかなり良く知っている他のいくつかの言語)以外の言語のレンダリングされた文書から単語または短いフレーズをスキャンする。いくつかの実施形態では、システムは、ユーザの「好む」言語の優先リストを保持する。システムは、レンダリングされた文書の電子副本を識別し、文書内のスキャンのロケーションを判断する。システムはまた、ユーザの好む言語のうちの1つに翻訳された文書の第2の電子副本を識別し、原本内のスキャンのロケーションに対応する、翻訳された文書のロケーションを判断する。対応するロケーションが正確にわかっていない場合、システムは、スキャンされたロケーションに対応するロケーションを含む、小さな領域(例、パラグラフ)を識別する。対応する翻訳されたロケーションは、次いでユーザに示される。これは、ユーザに、しばしば語順を基準にした正確な翻訳が困難なあらゆる俗語または他の慣用的用法を含む、スキャンされたロケーションでの特定の用法の正確な翻訳を提供する。
17.7.研究資料の収集
特定のトピックを調査しているユーザは、印刷物またはスクリーン上の両方で各種の資料に遭遇する場合があり、そのトピックに関連するものとしていくつかの個人用アーカイブに記録することを望む場合がある。システムによって、この処理は、資料のいずれかの部分において短い語句をスキャンした結果として、自動的に行うことが可能であり、その主題に関する出版物への挿入に適した参考文献を作成することができる。
18.市販のアプリケーション
明らかに、商業活動は、本願明細書で述べられるほとんどすべての処理を行うが、ここでは2、3の明らかな収益の流れに重点を置く。
18.1.手数料ベースの検索およびインデックス作成
従来のインターネット検索エンジンは、一般に電子文書の無料検索を提供し、また、コンテンツプロバイダにもインデックス内にそれらのコンテンツを含むための支払い請求も行わない。いくつかの実施形態では、システムの操作および使用に関連して、システムは、ユーザへの支払い請求、および/またはサーチエンジンおよび/またはコンテンツプロバイダへの支払いを設けている。
いくつかの実施形態では、サブスクライバは、システムのサービスに、紙の文書のスキャンから生じる検索の手数料を支払う。例えば、株式仲買人は、会社Xによって提供される新しい製品に関するWall Street Journalの記事を読んでいる場合がある。紙の文書から会社Xの名前をスキャンし、必要な手数料を支払うことに同意することによって、この株式仲買人は、特別な、または専用のデータベースを検査して、アナリストのレポートのような、企業に関する特別な情報を入手するために、システムを使用する。システムはまた、例えば、特定の日に発行されたすべての新聞にインデックスが付けられ、街に出かけるときまでに確実に利用できるようにすることによって、紙の形態で読む可能性が高い文書のインデックス作成が優先されるように、処理することもできる。
コンテンツプロバイダは、紙の文書からサブミットされる検索クエリーにおける特定の用語と関連付けられる手数料を支払う場合がある。例えば、一実施形態では、システムは、プロバイダに関する更なるコンテキストに基づいて、最も好適なコンテンツプロバイダを選択する(この場合、コンテキストは、コンテンツプロバイダが、結果リストを繰り上げてもらうために手数料を支払ったことである)。本質的に、検索プロバイダは、コンテンツプロバイダによる先在する支払協定に基づいて、紙の文書の検索結果を調整している。第5.2項のキーワードおよびキーフレーズの説明も参照のこと。
特定のコンテンツへのアクセスが、特定のグループの人々(クライアントまたは従業員など)に対して制限されている場合、当該のコンテンツはファイアウォールによって保護されるので、概して第三者によるインデックス付けができない。コンテンツプロバイダは、それでも保護されたコンテンツにインデックスを提供したいと望む場合がある。そのような場合、コンテンツプロバイダは、サービスプロバイダに支払って、システムのサブスクライバにコンテンツプロバイダのインデックスを提供することができる。例えば、法律事務所は、すべてのクライアントの文書にインデックスを付けることが可能である。文書は、法律事務所のファイアウォールに隠れて格納される。しかし、法律事務所は、その従業員およびクライアントに、携帯スキャナを介して文書を利用させたいと望むので、インデックス(またはインデックスへのポインタ)をサービスプロバイダに提供し、次いで、法律事務所の従業員またはクライアントが、紙をスキャンした検索語を携帯スキャナを介してサブミットするときに、法律事務所のインデックスを検索する。法律事務所は、従業員および/またはクライアントのリストをサービスプロバイダのシステムに提供して、この機能を有効にすることができ、またはシステムは、法律事務所のインデックスの検索に先立って、法律事務所にクエリーを行うことによって、アクセス権を検証することができる。上述の例において、法律事務所によって提供されるインデックスは、法律事務所における全ての文書のインデックスではなく、クライアントの文書だけのものであることに留意されたい。したがって、サービスプロバイダは、法律事務所がクライアントに対してインデックスを付けた文書を、法律事務所のクライアントが利用することを許可することしかできない。
紙の文書から生じる検索からの結果となりうる、少なくとも2つの別々の収益の流れがあり、1つは検索機能によるものであり、もう1つはコンテンツの配信機能によるものである。検索機能の収益は、スキャナのユーザから支払われたサブスクリプションによって発生しうるが、事前検索の手数料に関しても発生しうる。コンテンツの配信の収益は、コンテンツプロバイダまたは著作権保持者と分け合うことができるが(サービスプロバイダは、各配信に対して、販売の一定の割合、またはマイクロペイメントのような固定の手数料を取ることができる)、サービスプロバイダが取引を仲介するがどうかに関わらず、サブスクライバがオンラインカタログから注文し、システムが配達または提供する、各品目に対する手数料または一定の割合をシステムが得る、「照会」モデルによっても発生しうる。いくつかの実施形態では、システムのサービスプロバイダは、識別された製品の購入が行われたときに、ある所定の期間に対して、またはそれ以降のある時間において、サブスクライバがコンテンツプロバイダから行ったすべての購入に対する収益を受け取る。
18.2.カタログ
需要者は、紙のカタログから購入を行うために、携帯スキャナを使用することができる。サブスクライバは、カタログを識別する情報をカタログからスキャンする。この情報は、カタログ、バーコード、またはカタログの別の識別子からのテキストである。サブスクライバは、サブスクライバが購入を望む商品を識別する情報をスキャンする。カタログの宛名ラベルは、カタログベンダーに対する、顧客を識別する識別番号を含むことが可能である。その場合は、サブスクライバはまた、この顧客識別番号をスキャンすることもできる。システムは、顧客の選択および顧客識別番号をベンダーに提供することによって、カタログでの購入を容易にするために、サブスクライバとベンダーとの間の仲介者としての役割を果たす。
18.3.クーポン
消費者は、後の取り出しおよび使用のために、紙のクーポンをスキャンして、スキャナか、またはコンピュータのようなリモート装置にそのクーポンの電子コピーを保存する。電子記憶装置の利点は、消費者が紙のクーポンを持ち歩くという負担から開放されることである。更なる利点は、電子クーポンがあらゆるロケーションから取り出すことが可能なことである。いくつかの実施形態では、システムは、クーポンの有効期限を追跡すること、まもなく期限切れとなるクーポンに関して消費者に通知すること、および/または期限の切れたクーポンを記憶装置から削除することができる。クーポンの発行者に対する利点は、誰がそのクーポンを使用し、またいつどこでそれらが取得および使用されたのかに関して、より多くのフィードバックを受ける可能性である。
19.一般的なアプリケーション
19.1.フォーム
システムは、紙の形態に対応する電子文書を自動ポピュレートするために使用することが可能である。ユーザは、紙の形態を一意に識別するいくつかのテキストまたはバーコードをスキャンする。スキャナは、隣接するコンピュータに、フォームのアイデンティティ、およびユーザを識別する情報を通信する。隣接するコンピュータは、インターネット接続を有する。隣接するコンピュータは、第1のデータベースのフォーム、およびスキャナのユーザに関する情報を有する第2のデータベース(サービスプロバイダのサブスクライバ情報データベースなど)を利用することができる。隣接するコンピュータは、第1のデータベースから紙の形態の電子版を利用し、第2のデータベースから得られたユーザの情報からフィールドのフォームを自動ポピュレートする。隣接するコンピュータは、次いで完成したフォームを、対象とする受信者に電子メールで送る。別様には、コンピュータは、完成したフォームを隣接するプリンタで印刷することができる。
外部のデータベースを利用するのではなく、いくつかの実施形態では、システムは、アイデンティティモジュール、SIM、またはセキュリティカードなどに、ユーザの情報を含んだ、携帯スキャナを有する。スキャナは、フォームを識別する情報を隣接するPCに提供する。隣接するPCは、電子フォームを利用して、そのフォームに記入するために必要なあらゆる情報に対してスキャナにクエリーを行う。
19.2.名刺
システムは、紙の文書から電子アドレス帳または他の連絡先リストを自動的にポピュレートするために使用することができる。例えば、新しい知人の名刺を受信すると、ユーザは、自分の携帯電話でカードの画像を取得することができる。システムは、カードの電子コピーの位置を特定し、携帯電話のオンボードのアドレス帳を、新しい知人の連絡先で更新するために使用することができる。電子コピーは、新しい知人に関して、1枚の名刺に詰め込むことができる情報よりも、多くを含むことが可能である。さらに、オンボードのアドレス帳は、電子コピーへのあらゆる変更が、携帯電話のアドレス帳において自動的に更新されるように、電子コピーへのリンクを格納することも可能である。この例では、名刺は、状況に応じて、電子コピーの存在を示すシンボルまたはテキストを含む。電子コピーが存在しない場合、携帯電話は、新しい知人のためのアドレス帳内のエントリに記入するために、OCRまたは標準的な名刺のフォーマットの情報を使用することができる。シンボルは、画像から直接に情報を取り出す処理を補助することも可能である。例えば、名刺の電話番号の隣にあるアイコンは、電話番号のロケーションを判断するために認識することができる。
19.3.校正/編集
システムは、校正および編集処理を強化することができる。1つの方法として、システムは、エディタの紙の文書とその電子副本の情報のやりとりをリンクすることによって、編集処理を強化することができる。エディタが紙の文書を読み込んで、文書のいろいろな部分をスキャンするとき、システムは、紙の文書の電子副本に対して、適切な注釈付け、または編集を行う。例えば、エディタがテキストの一部をスキャンして、スキャナで「新しいパラグラフ」の制御ジェスチャを行った場合、スキャナと通信するコンピュータは、文書の電子コピー内のスキャンされたテキストのロケーションに、「新しいパラグラフ」のブレークを挿入する。
19.4.音声コメント
ユーザは、文書からテキストの一部をスキャンし、次いでスキャンされたテキストに関連する音声録音を行うことによって、その文書に音声コメントを付けることができる。いくつかの実施形態では、スキャナは、ユーザの言葉のコメントを記録するためのマイクロホンを有する。言葉によるコメントが記録された後に、システムは、テキストがスキャンされた文書を識別し、その文書内のスキャンされたテキストの位置を特定し、その場所に音声コメントを添付する。いくつかの実施形態では、システムは、スピーチをテキストに変換して、テキストコメントとしてその注釈を添付する。
いくつかの実施形態では、システムは、文書とともに保持される注釈だけに関連して、文書とは別に注釈を保持する。注釈は、次いで特定のサブスクライバまたはユーザグループのための文書に対する注釈のマークアップ層となる。
いくつかの実施形態では、各取得および関連する注釈に対して、システムは、文書を識別し、ソフトウェアパッケージを使用してその文書を開き、スキャンするロケーションまでスクロールして、音声コメントを再生する。ユーザは、次いで、文書と情報をやりとりし、一方で、音声コメントを参照し、変更または自身あるいは他の誰かによって録音された他のコメントを提案する。
19.5.テキストにおけるヘルプ
上述のシステムは、電子ヘルプメニューによって紙の文書を強化するために使用することができる。いくつかの実施形態では、紙の文書に関連するマークアップ層は、文書のためのヘルプメニュー情報を含む。例えば、ユーザが文書の特定の部分からテキストをスキャンする場合、システムは、文書に関連するマークアップを確認して、ユーザにヘルプメニューを示す。ヘルプメニューは、スキャナのディスプレイまたは関連づけられた隣接するディスプレイに示される。
19.6.ディスプレイとの使用
状況によっては、テレビ、コンピュータ用モニター、または他の類似したディスプレイから情報をスキャンできるようにすることは好都合である。いくつかの実施形態では、携帯スキャナは、コンピュータ用モニターおよびテレビから情報をスキャンするために使用される。いくつかの実施形態では、携帯光スキャナは、ラスタライズ、画面のブランキングなどのような、従来のブラウン管(CRT)ディスプレイ技術との連携するように最適化された、照明センサーを有する。
文書からユーザが読むテキストの音声を取得することによって操作する音声取得装置は、その文書が紙上、ディスプレイ上、またはいくつかの他の媒体上にあるかどうかに関わらず、一般に機能する。
19.6.1.パブリックキオスクおよび動的セッションID
ディスプレイの直接スキャンの使い方の1つは、第15.6項において説明したように、デバイスの関連付けである。例えば、いくつかの実施形態では、パブリックキオスクは、動的セッションIDをそのモニターに表示する。キオスクは、インターネットまたは企業内イントラネットのような通信ネットワークに接続される。セッションIDは定期的に変わるが、少なくとも、新しいセッションIDがすべてのユーザに表示されるようにキオスクが使用されるたびに変わる。キオスクを使用するために、サブスクライバは、キオスクに表示されるセッションIDをスキャンする。セッションIDをスキャンすることによって、ユーザは、文書のスキャンまたはキオスクの画面自体からのコンテンツの配信のために、キオスクと自分のスキャナを一時的に関連付けたい旨をシステムに告げる。スキャナは、セッションIDおよびスキャナを認証する他の情報(製造番号、アカウント番号、または他の識別情報など)を直接システムに通信することが可能である。例えば、スキャナは、ユーザの携帯電話(BluetoothTMを介してユーザのスキャナと対になっている)を介して、セッション開始メッセージを送信することによって、システムと直接通信することができる(ここでの「直接」とは、メッセージがキオスクを通過しないことを意味する)。別様には、スキャナは、キオスクとの無線リンクを確立し、キオスクにセッション開始情報を転送することによって(あるいはBluetoothTMなどのような短距離RFを介して)、キオスクの通信リンクを使用することができる。それに応じて、キオスクは、そのインターネット接続を介してシステムにセッション開始情報を送信する。
システムは、デバイスがスキャナと関連付けられている期間(またはセッション)中に、すでにスキャンと関連付けられているスキャナを、他人が使用できないようにすることができる。この機能は、別の人のセッションが終了する前に、他人がパブリックキオスクを使用できないようにするのに有用である。インターネットカフェでのコンピュータの使用に関するこの概念の例として、ユーザは、自分が使用したいPCのモニター上のバーコードをスキャンする。それに応じて、システムは、バーコードを表示しているモニターにセッションIDを送信する。ユーザは、そのモニターからセッションIDをスキャンすることによって(またはキーパッド、タッチ画面、または形態スキャナ上のマイクロホンを介してセッションIDを入力することによって)そのセッションを開始する。そして、システムは、そのデータベースにおいて、セッションIDと自分のスキャナの製造番号(またはユーザのスキャナを一意に識別する他の識別子)を関連付けるので、自分のセッション中に、別のスキャナがセッションIDをスキャンすること、およびモニターを使用することができない。スキャナは、例えば、(BluetoothTMのような無線リンク、ドッキングステーションのようなハードワイアードリンクなどを介して)モニターに関連付けられたPCと通信するか、または携帯電話のような別の手段を介してシステムと直接(つまり、PCを通ることなく)通信する。
第4部 システムの詳細
図4は、システムの実施形態が動作する一般的な環境を示す図である。システムは、無線ネットワーク401、インターネット402、または他のネットワーク(図示せず)によって相互接続された複数の装置を含む、分散コンピューティング環境400内で機能する。これらすべての通信および接続は、好適なネットワーク通信プロトコルを使用した、好適なネットワーク接続を介して相互接続される。様々な実施形態において、サーバおよび他のデバイスは、それぞれのAPIに従って互いに通信し、システムの更なる実施形態を形成する。別の実施形態では、装置およびサーバは、オープン/標準プロトコルに従って、通信することが可能である。
サーバおよび他のデバイスは、OCR装置411またはレンダリングされた文書412からテキストを取得するために使用される他のテキスト取得装置と、無線装置421および/または取得されたテキストおよび他のユーザ入力の種々の表示をテキスト取得装置がアップロードし、それを介してシステムがユーザに様々なタイプのフィードバックを提供できる、ユーザ装置422と、ユーザアカウントサーバ431およびシステムがユーザに対するユーザアカウント情報を管理する、関連するユーザアカウントデータベース432と、検索エンジンのサーバ441およびテキストの取得が生じる電子文書内の位置を識別するために、システムがレンダリングされた文書から取得されるテキストを含むクエリーを行うために使用する、関連する検索データベース442と、文書サーバ451および取得されたテキストを含むと判断された文書のコピーをシステムが取り出す、関連する文書データベース452と、を含む。また、これらのサーバは、単一のデバイスとして示されているが、各サーバは、システムの実施形態を実施する実際のシステムにおいて、実際に1つ以上のデバイスを備えることが可能であると理解されたい。また、サーバには、ファイルサーバ、データベースサーバ、またはファイルサーバおよびデータベースサーバを組み合わせたものが含まれると理解されたい。さらに、種々のサーバが独立したデバイスとして述べられているが、当業者は、システムの他の実施形態では、サーバは単一の装置に存在する場合があることを理解されたい。
スキャナが磁気センサーを組み込んでいる場合、データは、磁気的に文書内にコード化することができ、同様に光学的、音響的、および触覚的にコード化することもできる。
電子文書を印刷された形態に変える処理は、ほぼコンピューティングの最初から存在するが、印刷された文書の原本のデジタルソースを参照し直す効率的な方法が欠如している。いくつかの実施形態では、システムは、特有のテキスト「署名」を識別するために、文書内の所望の位置をスキャンすることによってこれを達成し、この署名は、原本のデジタルソース文書内の対応するロケーションを特定するために使用することができる情報を提供する。システムは、電子文書のデータベースへのアクセスを有するサーバにこのデジタル署名を送信するが、(後述するように、これ以外の場合であっても有用な結果を得ることができるが)当該の紙の文書の電子版を含むことが望ましい。サーバは、次いで電子ソース文書内の対応するロケーション(またはロケーション群)を識別し、それを紙の文書の原本のスキャンと結びつける。この関係を確立することによって、様々なコンテキストにおける印刷された文書に使用に関する多数の有用な革新が可能になる。システムの種々の実施形態を以下に述べる。
1つの観点において、システムは、文書の認識を文書のナビゲーション(例、文書のロケーションおよび交差部分の発見、および交差に対する情報の生成)に変換するための補助的または増補的情報を使用するものとみなされる。システムが用いる/発見することができる多数の「ヒント」のうちのいくつかは以下を含む。
ユーザは、どれくらい速く読むか
ユーザは、どの方向に読むか
ユーザは、どのような定期刊行物をサブスクライブしているか
ユーザの日々および毎週の行動(例、日曜日の朝に日曜版を読みなど)
ユーザがこの文書および他の文書に行った最近のマーク
ユーザが歴史的に関心を持った資料/主題のタイプ
明示的なユーザプロファイル
現在のユーザのロケーション(ユーザのPCの近く、および/またはそのPCでのアクティビティなど、無線環境によって与えられる)
テキストの性質
その他。
多くの場合、ユーザが文書において行う第1のマークは、書体またはフォントを取得するために使用される。これらの文字オブジェクトの意味は、次いで他の場所で述べられる一義化手法を加えた(オフセットベースの)テンプレートマッチングによって、またはより慣習的な手法によって判断することができる。現在の書体またはフォントがわかると、デバイスは、実際のテキスト(例、ASCII)を取得および送信するか、または他の場所で述べられる(オフセットベースの)テンプレートマッチングの表示を使用することができる。
まれに大文字が生じるので、いくつかの実施形態では、システムは、特殊な方法でそれらを処理する。システムは、概して利用可能な文書のソースまたは参照コピーを有するので、システムは、どこに大文字(および句読点)が生じる可能性があるか、または生じるかを予想することができる。
多くの場合、文書がソースまたは参照コピーに現れたときに、必ずしも文書の特定のインスタンスがレンダリングされるという保証はない。それでもシステムは、レンダリングされたコピーがどのようにこれらのマーク(大文字)を処理するのかを、しばしば推定することができる。
良い例には、通常英語の文を始める際の大文字がある。これらは稀であるので、これらの最初の大文字を判断するには、テンプレートマッチングおよび一義化は一般に使い易くない。1つの代替案として、新しいパラグラフ、文などの最初の文字を無視することによって、基本的に大文字を無視することが挙げられる。
そして、一義化処理において、大文字および他のまれなマークは、適切に自動的に処理される。1度しか生じない(繰り返さない)文字には、特別なデフォルトのオフセット(例、0のコード)が与えられる。
オフセットベースの表示(または他の曖昧な表示)から特別なインデックスが構成される場合、先頭の文字に関する不確実性を予想することができる。すなわち、システムは、ソース文書から、大文字が特定のロケーションで生じ、それが一致しないことを知っている、ということに留意されたい。
この大文字の問題は、システムがどのように先のOCRシステムから区別されるのかという良い例である。システムは、ソース文書を(現在または今後)利用可能であるとみなす(および場合によっては依存する)ので、種々の不確実性および問題は、容易に取り扱われる。そして、解釈ではなく、主に文書のナビゲーションに焦点を当てているので、従来のOCRシステムをつまづかせるような課題(すべてのフォントにおいて、すべての大文字の形状に関する特別な情報を持たなければならない、など)は、システムに対する問題を生じさせない。
一例として、ユーザが、レンダリングされた文書に生じる「Take as an example this sentense.(例としてこの文を使用する)」を示したいと望む場合を挙げる。従来のOCRシステムは、最初の単語が「Take」、「Make」、「Fake」、「Rake」などのいずれかであるかどうかを確認するために、文字「T」を理解および解釈しようとする。しかし、システムは、ナビゲーションのために特徴的な参照機能を探しているだけである。システムは、単純に「T」を省略して、「ake as an example」に対してソース文書を検索することができる。このフレーズは、文字、オフセット、または他の形態で表される場合がある。フレーズの残りが識別署名を構成する限り、最初の文字の解釈は重要でない。
この問題および区別についての別の考え方は、従来のOCRは、テキスト文字を認識する(すなわち、解釈する)ために用いられた、ということを理解することによって得られる。例えば、OCRペンのユーザは、そのテキストを取得および解釈するために、テキスト行上でペンを移動させる。システムのユーザは、異なる目的を持っている。ユーザは、テキスト行上でワンドまたはスキャン装置を移動させて、文書内のこのロケーションを*示す*か、または「指し示す」。したがって、文書内のそのロケーションに関連する多くの特徴および機能を有効にする。
さらに、ユーザが特定の基本的なテキストに関心がある場合、ユーザのアクションは、そのテキストを取得および解釈するためではなく、概してテキストに作用するものである。したがって、ユーザは、このテキストに下線を引く、イタリック体に変更する、それを抜粋する、そこにブックマークを配置する、などを行う場合がある。
ブックマークの配置は、システムの1つの有用な機能であり、それぞれレンダリングされた文書内のロケーションを示す。概して、これらは、後に文書内のロケーションを発見するために使用することができる。単純だが興味深いアプリケーションの1つは、ユーザが読んでいた文書の最後がどこなのかをマークするためのものであり、「ブックマーク」という従来の意味に非常に良く一致する。そのアプリケーションは、ユーザがこの情報(ユーザが書籍または文書のどこで読むのを止めたのか)を容易に利用するのに有用となりうる。このデータは、ユーザのPCまたはPDA、あるいは移動電話上に発生する場合がある。いくつかの実施形態では、デバイス自体の小型LCDディスプレイを使用するなどによって、デバイス自体が最後に読んだロケーションを示す。いくつかの実施形態では、ディスプレイは、二進数である。例えば、オンまたはオフのLEDである。このLEDは、ユーザがすでに読み込んだテキストをスキャンする場合にはオンにして、新しいテキストをスキャンする場合にはオフにすることが可能である。このように、ユーザは、読み終えた場所を「捜す」ことができる。
図5は、ブックマークを実装するために、システムによって一般に実行されるステップを示すフロー図である。ステップ501で、システムは、ユーザによってスキャンされたテキストを受信する。ステップ502で、システムは、ステップ501でスキャンされたテキストを前処理する。ステップ503で、システムは、スキャンされたテキストを、ユーザのために保持した文書履歴と比較する。ステップ504で、スキャンされたテキストがユーザによって以前にスキャンされたものである場合、ステップ505に進み、以前のスキャンの指示を返し、それ以外ならば、ステップ506に進み、文書内のスキャンの位置を特定する。ステップ507で、そのスキャンが最後のブックマークより前に位置を特定されている場合、ステップ508に進み、以前読み込んだ指示を返し、それ以外ならば、ステップ509に進み、以前に読み込まれなかった指示を返す。
いくつかの実施形態において、システムに提供された新しい機能の印象的な例は、図書館の書籍、学校教科書、などの歴史的な使用に見られる。欄外の注、アンダーライン、およびハイライト、または他の形態に関わらず、書籍への書き込みは、常に読者が望むものである。しかし、上述の場合(およびユーザ自身の書籍内であっても)、これらのマークの作成には大きな障害がある。それらは他人(およびユーザ自身)の今後の作業の楽しみを妨げる。システムによって、ユーザは、書籍または文書にマークまたはコメントを付すことができ、同時に、原本には手を付けないままにすることを選択することができる。
特定の文書におけるユーザのアクションを見るための1つの方法には、オーバーレイまたはトランスペアレンシが挙げられる。ユーザは文書の物理的なレンダリングと情報をやりとりしているが、それらのマークは仮想的である。すなわち、マークは電子的に取得および保存されるので、どの物理的なマークもレンダリングされた版で表示する必要がない。しかし、いくつかの実施形態では、システムは、統合型マーカーまたはペンを有するテキスト取得装置を用いる。図6は、統合型マーカーおよびペンを有するスキャン装置を示す図である。スキャン装置600は、マーカー601およびペン602を含み、状況に応じて格納式であることがわかる。
したがって、このオーバーレイは、抽象的な仮想層であると考えられる。この層は、次いで文書のソースまたは参照版とマージすること、またはこれに「オーバーレイする」ことができる。一例では、これは、ユーザがコンピュータの画面上で参照文書を見るときに生じ、ユーザのアクションによりオーバーレイされたデータは、参照文書の上に表示されるか、またはこれに統合される。このように、参照文書は、表示するために変更する必要がないことに留意されたい。いくつかの実施形態では、オーバーレイ情報は、ユーザが文書を印刷するときに、参照またはソース文書と組み合わせられる。いくつかの実施形態では、システムは、ユーザにソース文書が電子的に配信される場合、ソース文書にオーバーレイを適用するか、またはこれにマージする。例えば、ソース文書およびオーバーレイは、PDF文書に組み合わせられて、ユーザに電子メールで送信される場合がある。
これらの例のいずれかでは、ユーザのオーバーレイされた情報は、別の層として格納することができるので、ソース文書を変更する必要がない。したがって、ユーザは、すべてをマークし、文書の単一のコピーと情報をやりとりすることができる。ユーザのマークおよび注記は別々に格納されるので、原本を変更する必要はない。
各ユーザのデータは、基本的な文書と比較して一般に少ない。ハイライトする場合を考察すると、格納が必要なのは、文書内のハイライトされたテキストの開始および終了ロケーション、およびハイライト色である。このデータを格納する1つの方法には、文書の最初からの文字のオフセットが挙げられる。別の方法には、文書:ページ:行のようなアドレスが挙げられる。別様には、システムは、レンダリングされた文書におけるユーザのアクションの実際のx−y座標を格納する。
システムによって時折使用される文書は、どの刊行物または文書のコピーがスキャンされているのかを示すために、ユーザがスキャンすることができる、特別なマーク(例、バーコードなど)を伴う。この更なる識別情報によって、システムは、ユーザがどの文書を持っているのか、およびそれがどのようにレンダリングされたのか、を判断することが可能になる。
場合によっては、システムは、ユーザがそのシステムを使用して文書と情報をやりとりできるように、ユーザに識別コードまたはマークのスキャンを要求することが可能である。これは、ユーザが文書の他の部分でそのデバイスを使用する前に要求することが可能である。別様には、システムは、ユーザに文書と情報のやりとりをさせることが可能であるが、将来のある時点での識別スキャンの実行を必要とする。または、さらに別の代替案では、識別スキャンは、任意であってよい。識別スキャンがなければ、システムは、更なる曖昧さを有する場合がある。すなわち使用される特定の文書に関してあまり明確ではない。追加のスキャンによって、システムは、特定の文書についてより多くを知ることになる。
いくつかの実施形態では、取得装置は、この文書は認識されていないこと、または有効でないこと、すなわち識別スキャンを望むか、または必要としていることをユーザに示す、エラーインジケータまたは信号(例、LEDまたは可聴音)を提供する。この識別スキャンは、特に、ユーザがどの文書を持っているのか(例、地方の朝刊紙など)を示すために使用することが可能であり、それによって、システムは、スキャンの一義化およびロケーションを判断するために、文書のキャッシュされたコピーまたは関連する辞書を参照することが可能になる。
スキャンされた特別なマークは、一次元または二次元のバーコード、あるいは特定の領域の人間が読めるテキスト、それ以外ならばコード化データとすることが可能である。いくつかの実施形態では、レンダリングされた文書内のテキストの領域は、文書の認識のために、この領域をスキャンしなければならないことをユーザに示すために、(例えば、マージンマーク、ハイライト、アンダーライン、特別な色のインクなどによって)特にマークされる。
上記説明のすべては、文書内の複数のマークにも適用することができる。例えば、雑誌または新聞紙、雑誌の個々の広告、個々のページなどにおける異なる記事は、特別なマークを伴うことが可能であり、または文書の小領域内の1つ以上の項目を明示的にスキャンするようユーザに要求することが可能である。したがって、文書の個々の部分は、ユーザの明示的なアクションによって、明確に識別することができる。
いくつかの場合において、これらのスキャンは、ユーザのコンテキストをシステムが知ることを助力するために使用することが可能である。他の場合には、これらのスキャンは、それ以外ならば利用できないシステムの機能を有効にするか、またはアンロックすることが可能である。例えば、印刷されたカタログからの購入は、ユーザがカタログ上の識別コードを有する宛名ラベルをスキャンしない限り、許可されない場合がある。
いくつかの実施形態では、ユーザは、特にコンテキスト(どの文書のどのロケーションであるか)を確立するために、テキストの領域をスキャンすることが可能である。このために、端末装置は、この所望の機能(設定コンテキスト)を示すために、特別なスイッチまたは入力を有することが可能である。別様には、ユーザは、テキストを逆方向にスキャンするなどによって、コンテキスト−設定参照スキャン機能を示すことが可能な、デバイスによる特別なジェスチャを実行することが可能である。別様には、デバイスによる当該の動作またはジェスチャは、直前のアクションの「消去」または「取り消し」を示すことが可能である。
一般に、デバイスの動作およびアクションは、ユーザの目的を示すために使用することができる。以下に、可能な動作の長いリストを挙げる。
読む方向へのスキャン=文書の署名の生成;
逆方向へのスキャン=コンテキストの設定;
ページの垂直(上下)方向のドラッグ(システムは、横断した行を計数すること、および横断した行からデータフラグメントを取得することができる)=領域の設定;
前後方向の動作または上下方向の動作=直前のアクションの取り消し。;
テキストの領域の回転動作=領域の選択;
タップまたはクリック(レンダリングされた文書と接触するデバイスの端部のスイッチまたはセンサーを介して、またはユーザが制御できる別のスイッチを介して)=コンテキスト関連のメニューのリクエスト;
これは部分的なリストでしかないことに留意されたい。また、これらの動作を2つ以上組み合わせること、および実行される動作の順序は様々であることに起因する高い可能性にも留意されたい。
システムの1つの興味のある使用法には、文書への署名が挙げられる。デバイスは、どの部分がスキャンされたかを含めて、特定の文書がスキャンされた特定の時間、場所などを記録できることに留意されたい。装置の光学系は、署名の画像を取得および格納することも可能である。システムにおいて、文書は、1つ以上のロケーションにおいて特別なマークまたはコードを備える(あるいは、文書全体に対する一意の識別コードを含む)。これらのマークは、特別にマークまたは示される人間が読めるテキストを含むことが可能である(例えば、太字、アンダーライン付きなどで印刷された、法的な文書の部分、など)。ユーザは、次いでユーザが文書の様々な部分をスキャンして、それを読んだことを示すことができる。さらに、ユーザは、状況に応じて文書に署名し、端末装置によってその署名をスキャンすることが可能である。デバイス自体は、図6に示されるように、書き込み手段を組み込むことが可能であり、その場合、ユーザは、1つのデバイスでスキャンと署名の両方を行うことができる。
特別なコード(例、バーコード)を有する文書および文書のサブ部分のコード化は、長い間必要とされていた。しかし、歴史的に、これを解決するための取り組みは、これまで十分に功を奏していない。その1つの理由は、デバイス自体のバーコードスキャナが、エンドユーザに対して十分なユーティリティを持ったものではないことである。これは、次のような因果関係の分からない状況を生じさせる。つまり、ユーザがスキャナを持ち歩かないので、出版社はコードを印刷しない。そして、出版社がコードを印刷しないので、ユーザはコードスキャン装置を入手して使用しない。
しかし、文書ナビゲーションツールと、コードスキャナ(さらに、状況に応じて、OCRを実行するツール)との独特な組み合わせによって、この障害を解決することができる。ユーティリティおよびテキストのスキャン能力および/またはOCR能力の価値によって、ユーザには、端末装置を入手して持ち運ぶか、または使用するという動機が生じる。端末装置は、コード化された情報(例、バーコード)を読み込むことができる、ハードウェアおよび/またはソフトウェアを含むことができる。バーコードを処理するためのすべての追加コンポーネントは、サーバか、またはシステム内の他の場所に配置することが可能であることに留意されたい。端末装置は、単純に読み込むバーコードの画像を取得し、解釈のためにそれを転送することが可能である。
いくつかの実施形態では、デバイスは、画像をスキャンしているときに、その画像がバーコードにあるような一次元であることを認識する。例えば、情報を持たない1つの軸があるかどうかを(ソフトウェアで、またはハードウェアで電子的に、あるいはこれらを組み合わせて)確認することが可能である。一次元バーコードは、y軸に並行するとみなされる平行線から構成されるという特性を有する。この場合、x軸(x方向において、行と交差し、行に垂直である)に沿った変化だけが、情報を含む。デバイスが、この一次元の特性を有するデータを参照する場合、y軸を折り畳む/無視することによってこのスキャンされたデータを減じるために、ローカルな知能(ハードウェアおよび/またはソフトウェア)を有することが可能である。すなわち、(例えば、サーバで通信する前に)部分的にまたは完全にコードを解釈することが可能である。
バーコードに関するこの説明は、大部分のOCRまたはシステムの興味深い技術的なコンポーネント「デスキュー」を生じさせる。デスキューとは、スキャンまたは撮像されたデータからあらゆる人工的な角度成分を取り除く処理である。ハンドスキャナによってしばしば生じる状況には、取得されたデータが人工的な角度または傾斜を有するように、ユーザがある角度でスキャナを保持し、ページに垂直な軸の周りを回転させることが挙げられる。例えば、ユーザの手がページを横切るときに、角度が経時的に変化する場合があることに留意されたい。この人工的なスキューが、データまたは画像の処理のステップのうちの1つにおいて取り除かれれば、有用である。
システムがテンプレートマッチングまたは畳み込みベースの手法(他の場所に記述)を用いる場合、まず、人工的なスキューまたは角度が問題にならないことが、1つの利点である。すなわち、同じ角度でそれぞれスキューされた文字またはシンボルは、このスキューコンポーネントを取り除かずに互いに一致する。
多くのタイプフォントは、複数の強い垂直の要素を持っている。これらは、しばしばベースラインに垂直な直線である。いくつかの実施形態では、システムは、スキュー角を容易に判断することができる、データへの数学的変換を実行することによって、テキストをデスキューする。この変換は、スキューの変化(例えば、単一のテキスト行と交差する)が、ローカルに検出および測定できるように、ローカルに適用される。
テンプレートマッチング(オフセットベース)、システムにおいて使用することができる畳み込み手法は、テンプレートとしてのこれらのオブジェクトの以前の発生を使用して、一致するオブジェクトを発見する能力を有する。この能力の1つの興味深い結果には、あらゆる反復オブジェクトが、容易に読み取り可能な情報を搬送できることが挙げられ、この情報を表すトークンは、事前に定義したり、システムに知らせたりする必要がない。
一例として、文書は、「100101001」のような、1および0(例、二進数のデータ表記)の文字列を含む。
テンプレートマッチング手法では、システムは、「1」または「0」の意味を認識および理解する必要が無い。むしろ、サンプル文字列を、「第1のタイプの1つのオブジェクト、続けて第2のタイプの2つのオブジェクト、続けて第1のタイプの1つのオブジェクト、...など」として解釈することができる。サンプル文字列のこの情報は、好都合に「abbababba」または「011010110」によって表すことができる。
データは、複数の相異なるオブジェクトまたはシンボルを使用して符号化することができ、スペースは、これらのオブジェクトのうちの1つとして扱うことができる(スペースを使用する場合、測定された距離を、隣接するスペースの計数に使用することが可能であり、または各スペースオブジェクトが、例えば、「1 11 111 1」が、「1 11 111 1」と同一であるものとして解釈されるように、1の計数を常に有するように制限することが可能である。この観点からすれば、26文字のローマ字(すべて小文字とする)で書き込まれる言語は、この符号化の特別なインスタンスであり、シンボル数は26となる。
いくつかの実施形態では、システムは、上述の「011010110」の例をオフセット(各シンボルの繰り返されているインスタンスを切り離す文字位置の数)などとして、データをシーケンスで表す。この表記では、「011010110」は、3、1、2、2、2、3、1、?、?として表され、各数字は、元の文字列の文字に対応し、その数字の値は、この同じ文字の次の発生に対する距離すなわちオフセットである。
この表記には、特定の欠落した要素および/または禁止コードが存在する。例えば、最初の数字「3」の後の数字「2」は、決して自然には生じない。これは、「3」が「1」となるような場合に、この2番目の文字が最初の文字と同じになる、などによるものである。
また、最後の2つのエントリ(「?」と注記)は冗長であり、これらの位置の文字は、そのエントリに対する以前のオフセット/参照によって公知であるので、これらの2つの終了位置にはほとんど、またはまったく情報が無い。すなわち、文字がmのオフセットを有する場合−右に移動させて右方向にオフセットを測定するものとする−、次の文字はオフセットm−1を有することができず、またその後ろの文字はオフセットm−2を有することができない。これは、これらの「禁止された」オフセットが、以前の所与のオフセットと衝突および矛盾するからである。
いくつかの実施形態では、システムは、データを復号化する、および/または表す際に禁止コードを利用する。例えば、いくつかの実施形態では、機能は禁止コードをたくみに活用し、それらを使用することにより、例外コードのような追加データを格納する。したがって、オフセットのシーケンスがコード「m、m−1」を含むときは常に、システムは、特別なモードまたはルーチンを入力するか、あるいは次に続くコードを特別に扱うことが可能である。
この効果は累積的となりうる。すなわち、各オフセットは、事前に見たすべてのオフセットの制約を満たさなければならない。一例として、オフセット「5、2、4、1、5、5、1、1、?、?、?」を有する、入力データ文字列「xyzyyxzzzyx」を考察する。これらのエントリのそれぞれは以下のような制約を有する。
5−何であってもよい、事前の情報なし
2−4にはなり得ない(他に、前述のエントリは5ではなく1となる)
4−3または1にはなり得ない(これらが前述の5および2と矛盾するとき)
1−2(5と衝突する)または3(4と衝突する)にはなり得ない
5−2(4と衝突する)にはなり得ない
5−4または1(4および5と衝突する)にはなり得ない
1−4または3(5および5と衝突する)にはなり得ない
1−3または2(5および5と衝突する)にはなり得ない
?−2または1(5および5と衝突する)にはなり得ない
?−1(5と衝突する)にはなり得ない
?−この位置を越えて何も参照されないので、何であってもよい。
前記別の方法では、1つの文字位置を越えて延びるあらゆるオフセットは、すべての介在している位置に論理的な制約を課す。
この見地の1つの使用法は、エラー検出の実行である。例えば、禁止コードを受信した場合、システムは、これをエラーと解釈し、それを報告するか、またはそれに対する処理を行う。
別の使用法には、追加データの符合化が挙げられる。いくつかの実施形態では、システムは、特別なアクションまたは処理を起動する「エスケープシーケンス」として禁止コードを解釈するか、またはストリームから以降の内蔵データを読み込む。その後、システムは、(エスケープシーケンスは、シーケンス長に関する情報を搬送するか、またはシステムが知るか、推定することができるので)入力ストリームに再同期して、処理を継続することができる。
これらの禁止コードのさらに別の使用法には、データの符号化における情報量の低減が挙げられる。ここでの1つのアルゴリズムは、「これが第1(最小)の禁止コードであれば、それを第1の許容/有効コードとして扱い、第2の(次に小さい)禁止コードであれば、それを第2の許容/有効コードとして扱う」ことが可能である。このように、より少ない(禁止)数でより大きな(許容)コードを表すことができるので、データの格納および送信に使用されるビット数が減じられる。
禁止コードを使用するこれらのいくつかの例では、例えば、第1(最小)の禁止コードをエスケープシーケンスとして解釈することが可能であり、一方で、高次のコードを次の利用可能な有効コードにマップする、などとして組み合わせることができる。また、これらのコードの他の使用法も、同様に適用することができる。
一般に、追加情報は、反復シーケンスによってほとんど搬送されない。したがって、例えば、文字シーケンス「abcabcabcabcabc」は、「5(abc)」のように、より簡潔に表される。反復シーケンスのオフセット表記もまた同じである。「abcabcabcabcabc」は、「333333333333???」としてオフセットに表され、「12(3)???」と表すことが可能である。
別の例では、シーケンス「abcbcbcabcbcbcabcbcbc」は、最初にオフセット「72222337222233?2222??」としてコード化され、次いで「74(2)2(3)74(2)2(3)?4(2)2(?)」に縮小され、さらに次のように縮小される。
「2(74(2)2(3))?4(2)2(?)」。(ここで示される規則は、括弧がオブジェクトを区切る「計数(オブジェクト)」であるが、データシステムでは多数の方法で表すことができる。)
いくつかの実施形態では、システムが作成する反復数は総計であり、オブジェクト自体のみが格納または送信される。上述の例において反復する一連のオフセットに適用された「abcabcabcabcabc」は、最初にオフセット「333333333333???」としてコード化され、そしてまた計数(オブジェクト)12(3)???として表すことができる。−これは、単純に「+3???」として格納または送信することができる。ここで、「+」は、オブジェクトが反復することを示すインジケータである。別様には、システムは、反復数へのあらゆる参照を省略して、単に「3」を格納または送信する。
反復シーケンスのこの問題が重要である1つの理由は、システムは、ユーザがどの程度スキャンするのかを知らない場合があることである。一例として、ユーザは、一連のダッシュ「−−−−−−−−−−−−−−−−−−−−−−」をスキャンすることができる。
システムが、これらのダッシュがある長さ続くとみなした場合、ユーザは、それらを最後までスキャンすることを望まない場合があるので、どのくらいのダッシュが示されているのかを知らない場合がある。この場合、いくつかの実施形態では、システムは、単純に「長さ1の反復シーケンス」を格納または送信する。
これは、より複雑なシーケンスにも有効である。あるいは、ユーザが読み込んでいる層の部分は、以下の境界マーカーを含む。
「−−***−−***−−***−−***−−***−−***−−***−−***−−***」
いくつかの実施形態では、システムは、認識するために、このマーカーの完全なスキャンを必要としない。このシーケンスからオフセットは、「31641153164115...」として表すことができる(スペースをオブジェクトとして計数)。これは、計数プラスオブジェクトとして、または「複数のインジケータ」(「+3164115」‐上述のプラス記号の使用を参照のこと)、あるいは複数であることを示さずに(単に「3164115」)として、格納または送信することができる。
これらの後者の2つの例は、標準的な表現におけるマッチングのコンストラクトにほぼ類似している。「+3164115」の例は、「1より大きい一致の発生」に対応し、「3164115」の例は、「1以上の一致の発生」に対応する。最後の場合では、インデックスまたはデータベースにおいてシーケンスを検索する場合、合意した規則は、あらゆるシーケンスが、それ自体の1以上の連続的な発生によって一致されたものとなる。
文書のソースまたは参照コピーがシステム内にある場合、このコンストラクトのユーティリティの一部が生じ、システムは、ユーザの位置を見つけようとする。ターミナルおよび/またはローカルシステムコンポーネント、およびバックエンドコンポーネント(例、アーカイブ、インデックスなど、あるいはサーバベースのもの)は、反復シーケンスがどのように扱われるかに関してどちらも理解および合意し、次いで冗長データは記憶および通信から省略することができる。前述のパラグラフの「1以上」の例において、データにインデックスを付けるサーバは、反復シーケンスの単一の最初のインスタンス(未加工のデータまたは導出されたオフセット)だけを格納することが可能であり、スキャン端末装置は、反復シーケンスの1のインスタンスだけを格納または送信することが可能である。
本処理を説明する別の方法では、あらゆる反復シーケンスは、計数によって表されるか、またはより単純な別のモデルにおいて、完全に無視される。したがって、フレーズ「*** buy cheap cheap tools here!!! ***」(格安ツール有り)は、「* buy cheap tools here! *」とインデックスを付けたり、表したりするか、またはそのオフセットを同じように「*** buy cheap cheap tools here!!! ***」と圧縮することができる。
「11*4???6666666?**??6?1???8?2??11??11?」(9より大きいオフセットを「*」で示す)は、以下のように圧縮する。
「2(1)*43(?)7(6)?**2(?)6?13(?)8?22(?)2(1)2(?)2(1)?」。または、すべての反復を取り除いて(9を超えるオフセットに対しては「*」を残す)以下のようにする。
「1*4?6?**?6?1?8?2?1?1?」。
リモートサーバ上で動作するような、独立したシステムは、次いで、この圧縮された表記を一致させるシーケンスを検索するか、または探しているインデックスを調べることができる。そうするために、シーケンス内の各オブジェクトを、潜在的に生じている「1以上の回数」として扱い、標準的な表現と同様に、これらの一致を見つけるために、コードおよびアルゴリズムを実行する。
記憶および/または送信における類似した効率は、文字オフセットを用いた場合、テキストのすべてのスキャンが未知のオフセット(上記「???」で示される)で終わることに留意することによって得ることができる。これは、ユーザが左から右にスキャンし、オフセットが右側の次の一致する文字に対するものであると仮定すると、いくつかの場所でスキャンを終了させなければならないので、最後の文字のいくつかが、公知のオフセットを持たず、その次の発生がスキャンに含まれないからである。1つのデータ符号化技術では、これらの未知のものはゼロとして表されるが、別の実施形態では、これらの不明な末尾は、送信または格納されたデータから省略する。
テンプレートマッチングおよび/または自己相関関係は、トークン、オブジェクト、文字、またはシンボルの1つのインスタンスを、この同じオブジェクトの以降の発生を認識するためのテンプレートとして使用する。ここでは、簡略化した概要を提供する。
ユーザが端末装置によって単一の水平方向のテキスト行をスキャンしていると仮定する。
ユーザが取得装置によって単一の水平方向のテキスト行をスキャンする場合、いくつかの実施形態では、システムは、テキストの画像を取得し、それをメモリに格納する、および/またはそれを送信する。いくつかの実施形態では、システムは、一致するオブジェクトのオフセットを直ちに計算して、個々のテンプレートだけを格納することによって、オンザフライでテンプレートマッチングを実行する。そして、オフセットがわかったときにこれらを廃棄することが可能である。
最初に、システムは、スキャンしているオブジェクトの形状について(何かあるとすれば)多くを知る必要はない。テンプレートマッチングの処理では、これらの形状は、種々のテンプレートが発見されたときに現れる。
これは、文字の水平方向の範囲に対しても適用する。空白および文字の幅に関する特別な情報(例えば、大部分の文字の幅対高さの比率が約xであること、または平均単語長が約yである、など)は有用となりうるが、必須ではない。実際に、いくつかの実施形態では、取得装置は、全体的に余白を無視する。
いくつかの実施形態では、ユーザが水平方向のテキスト行の部分をスキャンするとき(またはその後)、システムは行を畳み込む。すなわち、それ自体が過ぎた行のコピーを水平方向に有効にスライドさせ、適切に一致する領域を探す。この処理の開始時において、畳み込みは、テキストのベースラインの判断、およびそれをデスキューするために有用となりうる。どちらも文書撮像の分野において公知の技術である。しかし、これらのステップのいずれも用いずに、一致領域を検索する方法があることに留意されたい。
一致または略一致する領域として、それらの水平方向の範囲に留意する。この例では、一致の垂直範囲が文字の全体の高さであると仮定する(後に、「自己認識」と呼ばれるいくつかのマッチング技術を考察する)。
この処理は、状況に応じて連結領域分析の使用を選択することが可能であり、トークン/オブジェクト/文字/シンボルは、「連結された」(すなわち連続的な)ピクセルまたはインクであると仮定される。したがって、この場合、一致する連結領域を探す。定義により、インクの連結領域の外部の領域は空白であるので、これが空白の情報に関することに留意されたい。
いくつかの実施形態では、システムは、(別の複数の手法として)単純な水平方向の範囲を使用する。ずなわち、処理を支援するためにこれらのコンポーネントを導入することができるが、連結領域または余白にほとんど、またはまったく留意せずに、水平方向の幅およびインクまたはピクセルの領域のマッチング領域の位置に留意する。
図7は、テキスト取得アクションを処理するために、システムによって一般に実行されるステップを示すフロー図である。ステップ701で、システムは、ユーザによって取得されたテキストを受信する。ステップ702で、システムは、ステップ701でスキャンされたテキストを前処理する。ステップ703で、システムは、スキャンされたテキストの単語および行の境界を識別する。ステップ706で、システムは、上述のようにテキストを畳み込む。ステップ705で、システムは、テキスト内の未知の領域の境界を判断するために、区切りを使用する。ステップ706で、システムは、取得されたテキストの表示を生成するために、スキャンを処理する。ステップ707で、システムは、電子文書の集合内のマッチングテキストの表示を検索する。ステップ708で、システムは、ステップ707の検索が成功した場合に、ステップ709で、検索成功の通知を返し、それ以外ならば、システムは、ステップ710に引き継ぐ。ステップ710で、システムは、検索を精緻化することができる場合に、ステップ711に引き継ぎ、それ以外ならば、システムは、ステップ712に引き継ぎ、検索失敗の通知を返す。ステップ711で、システムは、ユーザに精緻化が必要であることを示す。ステップ711の後、システムは、ステップ701に引き継ぎ、ステップ711の指示に応えて、ユーザによって取得された追加テキストを受信する。
レンダリングされた文書から取り込まれるテキストの2つの領域の一致において、システムは、「一致度」の問題に遭遇する。すべての物理的な測定はエラーを含むので、システムのマッチング処理は基本的に正確でない。したがって、いくつかの実施形態では、システムは、1つの領域がどのくらい他の領域と一致するのかに関して判断を行う。これを達成するには複数のツールを使用することが可能であり、その多くは、OCR、文書撮像、およびマシンビジョンの分野においてすでに公知である。いくつかの実施形態において、システムによって使用されるフィットまたは一致を推定する1つの方法では、最初に比較すべきオブジェクトの最良のアラインメントを見つけ出し、次いでオブジェクト上の差異を計算する。例えば、単純な白黒のピクセルの(グレースケールがない)場合、システムは、単純に、一方の画像/オブジェクトにおいてオンであり、他方の画像/オブジェクトにおいてオフであるピクセルを見つける。これらの「エラー」の計数は、フィットの概算である。
この計数概算は、含まれる総ピクセル数によって「それを正規化する」(それを分割する)ことによって向上させることができる。したがって、種々の実施形態では、システムは以下のいずれかを使用する。
fit_error=#_bad_pixels/#_pixels_in_x_y_region_compared
または
fit_error=#_bad_pixels/#_pixels_in_object
前者は、比較される領域と比較したエラーピクセルの数を考慮する。後者は、エラーの無いピクセルの数または一致と比較したエラーピクセルの数を考慮する。種々の実施形態では、システムは、例えば、これらの技術に種々の精緻化を追加するか、またはOCRからの他のマッチング技術を使用する。
上述のマッチング処理では、エラーおよびマッチングピクセルの物理的な分布(例えばx−y座標)は、潜在的に重要である。短縮された類似の言語では、マッチングピクセルが「集結」され(すなわち、連続的で密接して生じる)、エラーピクセルが「分配」される(すなわち、非連続的で遠く離れて生じる)場合に、より良くフィットする場合がある。
この一例として、2つの状況を考察する。1つの場合では、システムは、「r」の画像を「n」の画像と比較する。画像の小さな部分だけがエラーピクセルを含み、[n]の右側は基線まで下がるが、「r」は下がらない。エラーピクセルの数は多くならないかもしれないが、密接して連続的に生じることに留意されたい。次に、文字[n]の2つの画像を比較することを考察する。その文字の質は、ぼやけていたり、不鮮明であったり、または曖昧であったりして、良好な状態ではない。この場合、非常に多くのエラーピクセルが存在する場合があるが、文字周辺の多数の場所に分配されて生じる可能性があることに留意されたい。これは、広く分配されたエラーピクセルが密接にまとめられたピクセルよりもエラーが少ないことを示唆することを立証するものである。
マッチングに関するこの説明は、「自己マッチング」と呼ばれる別の関連する新発明をもたらす。歴史的に、OCRは、様々な文字を認識するために、絶対的な文字の形状およびフォントに関する直接的な情報を用いている。いくつかの実施形態では、システムは、文字を認識するために、*相対的な*文字の形状に関する非間接的な情報を使用する。
図8A〜8Dは、2文字のアルファベットがどのようにしてしばしば複数のフォントでほぼ同一の*相対的な*形状を有するかを示す図である。図8Aは、Arialの小文字フォントの文字「D」、「C」、および「L」を示し、図8Cは、これらの文字のTimes New Romanの小文字フォントを示す図である。フォントは非常に異なり独特であるが、特定のフォント*内の*これらの文字間の関係はほぼ同一である。
図8Bおよび8Dは、いずれかのフォントにおいて、「d」は、「c」および「I」を合わせることによって、ある程度の精度で構築することができることを示す図である。または、疑似代数的なステートメントでは、「d=c+I」である。「e=c+−」、「P=B−b+I」、「8=6+9」のような、多くのフォントに当てはまる、多数の他の類似した関係が存在する。これらの関係は、正確であることを意味するものではなく、むしろ、異なるフォントの様々な文字の相対的な形状が、*ほぼ*同一であることを意味するものである。これらの関係は類似するものであるが、その関係によって、追加文字を認識(または実際に構成する)ために、1つのフォントにおいて1つのグループの文字を使用することが可能になる。
この技術の1つのアプリケーションには、OCRにおけるものが挙げられる。システムが、あるフォントの2、3の文字を判断すると(あるいは、その文字に関する情報が無いもの)、システムは、残りの未知の文字を予測および/または認識することが可能である。
これは、文字の頻度およびn−gram分析のような単純な暗号技術を使用して、いくつかの文字のアイデンティティを確立することがしばしば可能である。他の文字が何であるかに関連して、単語内のどの位置に、どのくらい頻繁に文字が現れるかに関する観察は、その文字に関する情報が無いフォントで現れたとしても、文字に関する初期の情報を提供することができる。最も単純な例は、単一の文字「a」および「I」であり、1文字の単語を参照した場合に、それがおそらくは2つの文字のうちの1つであることが直ちにわかる。同様に、反復する文字(例、ee、ooなど)は、「hh」または「qq」となる可能性が低い。
システムが、文字「d」および「o」を学習していて、文字「c」に遭遇した(それが何であるかまだ知らない)と仮定する。文字「C」の形状を学習した文字の形状と比較することによって、システムは、垂直の軸を除いて、それが「d」と一致し、右側の先端部を除いて、それが「o」と一致する、と判断する。これらが大部分のフォントにおける「d」、「o」、および「c」の相対的特性であるということを知ることによって、システムは、新しい文字「c」を識別する。そのようにすることによって、システムは、システムが知っているシンボルのレパートリにその文字を追加し、更なる文字の解読に使用する。したがって、特定の情報の無いフォントに関するシステムの情報は、その*相対的な*文字形状の*一般的な*情報に基づいて、逐次に増加および拡張させることができる。
この自己認識システムを実行する1つの方法には、m×mのマトリックスの一般的な関係があり、ここで、mはアルファベットにおける文字の番号である。このテーブルの各エントリは、どのくらい文字iが文字jに関連しているのかを記述し、場合により一般的な相対的形状および規則(「文字iはベース来より下に伸びているが、文字jは伸びていない」)を含み、また場合により、アルファベットの追加文字への参照(例えば、行「d」および列「c」に対するエントリは、「I」となる可能性があり−「d」から「I」を差し引いて「c」を形成する−、行「c」および列「d」に対するエントリは、「+I」となる可能性があり−「I」を加えて「c」から「d」を形成する)。
自己認識の特別な場合では、一組のシンボルまたはトークン(すなわち新しいフォント)が、上述のように自己認識可能である明示的な目的によって構成される。すなわち、これらのシンボルのサブセットを鑑みて、他を導出または推定することができる。これらのシンボルは、それらのコンポーネント/デザインが相互に関係するので、互いのエラーチェックに使用することができる。この冗長性は、ノイズに対する信頼性も提供する。
当該の手法を用いるために、シンボルのうちの*いずれか*をシステムが予め知っておく必要は無い。上述の手法のテンプレートマッチングまたは相関関係のうちの1つを使用することによって、システムは、マッチングおよび非マッチングシンボルに基づいて使用される、シンボルのセット全体を判断することができる。システムは、このシンボルのセットを今まで見たことがなくても、次いで、シンボル間の公知の関係を使用して、シンボルのそれぞれを確認するか、または、場合によっては、欠落した/未使用のシンボルを生成する。
図9は、自己認識を使用して新しいシンボルのセット全体を学習するために、いくつかの実施形態において、機能によって使用されるアプローチを示す図である。図は、2×2のアレイの小さな「ボックス」を備えた一組のシンボル900を示す。余白およびベースラインの情報を使用して、垂直および水平の間隔を確立し、それらには以下の16種類の可能なシンボルがある。四隅に単一のボックスがあるものが4種類、2つのボックスを伴う置き換えが6種類、それぞれ3つのボックスを有する置き換えが4種類、および全部で4つのボックスを有するシンボルが1種類、またボックスを持たない空白のシンボルが1種類。
図10は、垂直および水平範囲を自己定義する、図9に示されるシンボルのサブセットを示す図である。サブセット1000の各シンボルは、幅がボックス2つ分であり、高さがボックス2つ分である。
図11は、図9に示されるシンボルのいくつかの間の関係を示す図である。例えば、関係1101および1102のそれぞれは、その組の1つのシンボルを、2つの他のシンボルから構成することができる関係を示す。最良の冗長性および/またはエラー訂正特性を有するそれらのシンボルを、サブセットとして選択できることに留意されたい。いくつかのシンボルは、その組のシンボルの組み合わせとは異なる少なくとも2つの方法で構成できることに留意されたい。
消費市場に向けられる複数の専用バーコードスキャン装置は、おそらくはバーコードスキャン単独では、幅広く消費者に採用されるための十分な価値または機能を提供していないので、市販に失敗している。一方で、文書マーキング/スキャンおよびバーコードスキャンの組み合わせは、幅広い消費者の役に立ち興味を引く、組み合わせ機能を作り出す。テキストおよびバーコードの撮像のこの組み合わせは、多くの同じコンポーネント、ハードウェア、およびソフトウェアによって達成することができる。しかし、1つの非常に興味深い新しい要素は、スキャンされているレンダリングされた文書の参照またはソースコピーを使用する、スキャン装置であるが、それによって、レンダリングされた文書におけるユーザのアクションは、ソースまたは参照文書に関して解釈し、それにマップすることが可能になる。
ソース文書の位置を特定するための別の手段は、マーキングされた版が、文書を識別し、および/またはこのソース文書(例えばURL)を取り出すための命令を提供する、機械可読コードを搬送するかどうかである。このコードは、この情報を伝達するためのバーコード、機械可読のフォント、またはあらゆる機械可読の手段であってよい。
機械可読の文書IDおよび文書ロケータの興味深い拡張は、このデータのためのアクセス情報を含むことである。すなわち、例えばパスワードで保護されている場合、企業のファイアウォールに隠れているなどの場合に、機械可読コードに含まれるのは情報であり、それによってシステムが、文書を利用できるようになる。この文書の利用するためのリクエストを確認するユーザまたは別の個人によって、追加データが必要になる場合があることに留意されたい。
いくつかの実施形態では、システムは、ユーザの注記とマークとの関係、文書のコンテンツ、およびこれらの注記およびマークに関連する機能を保持する。これは、例えば、ソース文書が異なるスタイルまたはフォーマットで再レンダリングされる場合、およびシステムがユーザのマークを適切なロケーションに再表示させたい場合に重要になりうる。一例として、ユーザがテキストの文字を介して線を引く場合、システムは、以降のレンダリングにおいて、同じテキストを介してその線を示すことを望む場合がある。
これを達成する1つの手段には、ユーザのマークのそれぞれまたはマークのグループを、文書内のいくつかの認識可能な特徴(例、単一の単語、句読点マーク、画像など)と「アンカー」することが挙げられる。いくつかの実施形態では、システムは、最も近いソース文書を見つけることによって(例えば、幾何学的な距離によって)アンカーし、そのマークをこの特徴と関連付ける。
いくつかの実施形態では、システムは、隣接する機能を見つけてそれらに重みまたはランクを付けて、次いでユーザのマークを高い評価を受ける機能と関連付ける。一例として、システムがユーザによる欄外の注に遭遇する場合、すべての隣接する単語を調査し、そのマークを最も関連性の高い単語と関連付ける(例えば、キーワードではなく、おそらくはあるいはソース文書のテキストのトピックに関連するストップワード、など)。システムのこの側面は、文書内の重要な要素を識別することで公知の、多くの技術のうちのいくつかを使用することができる。
したがって、関連付けられたアンカーポイントを有する注記およびマークは、(例えばワードプロセッサによって)文書を見たり編集したりする場合に、関連する注記またはマークを利用することができるように、デジタル文書に関連付けることができる。例えば、全ての当該の注記は、文書に埋め込まれた(および任意で文書に格納された)特別なシンボルとして表すことが可能である。ユーザは、次いでこれらのシンボル上をマウスを通過させるか、またはマウスをクリックして、埋め込まれた、または関連付けられた注記またはマークを出現させることが可能である。同様に、ユーザの注記は、メニューコマンドを介して表示をオンまたはオフすることが可能である。
結び
当業者は、上述のシステムが、様々な方法での適用および拡張が可能であると理解されよう。上述の説明は特定の実施形態について言及しているが、本発明の範囲は、専ら以下の請求項およびそこに詳述される要素によって定義される。

Claims (10)

  1. レンダリングされたテキストとのインタラクションを処理するコンピュータシステムにおける方法であって、
    レンダリングされたテキストからハンドヘルド取得装置を使用して取得された一連の画像を受信するステップと、
    前記一連の画像の少なくともいくつかに基づいて、前記取得が行われた文書及び前記取得が行われた文書内の位置を識別するステップと、
    前記一連の画像によって描かれたテキストを表すオフセットのシーケンスを判定するステップであって、各オフセットが、前記一連の画像によって描かれた前記テキスト内の各文字の繰り返されているインスタンスを切り離す文字位置の数を表す、ステップと、
    前記オフセットのシーケンスに基づいて、前記レンダリングされたテキストに関して運動経路を判定するステップと、
    前記判定された運動経路に整合する経路パターンに関連するコマンドを識別するステップと、
    前記識別された文書内の前記識別された位置に関して前記識別されたコマンドを実行するステップと、を含む方法。
  2. 前記レンダリングされたテキストに関して運動経路を判定するステップは、前記一連の画像の画像フレーム内の前記取得されたレンダリングされたテキストの視覚的特徴の運動をトラッキングすることを含む、請求項1に記載の方法。
  3. 前記レンダリングされたテキストは、機械によってレンダリングされたテキストを含む、請求項1に記載の方法。
  4. 前記レンダリングされたテキストは、印刷されたテキストを含む、請求項1に記載の方法。
  5. 前記識別されたコマンドは、前記識別された位置に対応する位置における前記識別された文書の電子バージョンの内容を修正するための編集コマンドを含む、請求項1に記載の方法。
  6. 前記判定された運動経路は、開始ラインから終了ラインまでの垂直経路を含み、
    前記識別されたコマンドは、前記開始ラインから前記終了ラインまでの前記レンダリングされた文書の領域を選択することを含む、請求項1に記載の方法。
  7. 前記判定された運動経路は、開始ワードで始まる右から左への運動に続いて、終了ワードで始まる左から右への運動を含み、
    前記識別されたコマンドは、前記開始ワードから前記終了ワードまでの前記レンダリングされた文書の領域を選択することを含む、請求項1に記載の方法。
  8. 前記判定された運動経路は、前記ページに対して直交する運動と、前記レンダリングされたテキスト内のポイントへ向けた運動とを含み、
    前記識別されたコマンドは、前記ポイントを取り囲む前記レンダリングされたテキストの領域に関して可能なアクションのリストを表示することを含む、請求項1に記載の方法。
  9. 前記判定された運動経路は、先行コマンドの実行の後に続く交互方向の運動のシーケンスを含み、
    前記識別されたコマンドは、前記先行コマンドの実行を取り消すことを含む、請求項1に記載の方法。
  10. 前記判定された運動経路は、前記レンダリングされたテキストのセクションを取り囲む閉鎖された経路を含み、
    前記識別されたコマンドは、前記取り囲まれたテキストのセクションを選択することを含む、請求項1に記載の方法。
JP2011248290A 2004-04-19 2011-11-14 レンダリングされた文書からの視覚的取得データに対する処理技術 Active JP5496987B2 (ja)

Applications Claiming Priority (186)

Application Number Priority Date Filing Date Title
US56352004P 2004-04-19 2004-04-19
US56348504P 2004-04-19 2004-04-19
US60/563,485 2004-04-19
US60/563,520 2004-04-19
US56468804P 2004-04-23 2004-04-23
US56484604P 2004-04-23 2004-04-23
US60/564,688 2004-04-23
US60/564,846 2004-04-23
US56666704P 2004-04-30 2004-04-30
US60/566,667 2004-04-30
US57138104P 2004-05-14 2004-05-14
US57156004P 2004-05-14 2004-05-14
US60/571,381 2004-05-14
US60/571,560 2004-05-14
US57171504P 2004-05-17 2004-05-17
US60/571,715 2004-05-17
US58920304P 2004-07-19 2004-07-19
US58920104P 2004-07-19 2004-07-19
US58920204P 2004-07-19 2004-07-19
US60/589,203 2004-07-19
US60/589,202 2004-07-19
US60/589,201 2004-07-19
US59882104P 2004-08-02 2004-08-02
US60/598,821 2004-08-02
US60289604P 2004-08-18 2004-08-18
US60289704P 2004-08-18 2004-08-18
US60294704P 2004-08-18 2004-08-18
US60293004P 2004-08-18 2004-08-18
US60289804P 2004-08-18 2004-08-18
US60292504P 2004-08-18 2004-08-18
US60295604P 2004-08-18 2004-08-18
US60/602,896 2004-08-18
US60/602,947 2004-08-18
US60/602,898 2004-08-18
US60/602,897 2004-08-18
US60/602,956 2004-08-18
US60/602,930 2004-08-18
US60/602,925 2004-08-18
US60346604P 2004-08-19 2004-08-19
US60308104P 2004-08-19 2004-08-19
US60308204P 2004-08-19 2004-08-19
US60/603,081 2004-08-19
US60/603,082 2004-08-19
US60/603,466 2004-08-19
US60335804P 2004-08-20 2004-08-20
US60349804P 2004-08-20 2004-08-20
US60/603,498 2004-08-20
US60/603,358 2004-08-20
US60410204P 2004-08-23 2004-08-23
US60410304P 2004-08-23 2004-08-23
US60409804P 2004-08-23 2004-08-23
US60410004P 2004-08-23 2004-08-23
US60/604,100 2004-08-23
US60/604,103 2004-08-23
US60/604,098 2004-08-23
US60/604,102 2004-08-23
US60522904P 2004-08-27 2004-08-27
US60510504P 2004-08-27 2004-08-27
US60/605,105 2004-08-27
US60/605,229 2004-08-27
US61324204P 2004-09-27 2004-09-27
US61358904P 2004-09-27 2004-09-27
US61345404P 2004-09-27 2004-09-27
US61346004P 2004-09-27 2004-09-27
US61346104P 2004-09-27 2004-09-27
US61362804P 2004-09-27 2004-09-27
US61345604P 2004-09-27 2004-09-27
US61334104P 2004-09-27 2004-09-27
US61363204P 2004-09-27 2004-09-27
US61360204P 2004-09-27 2004-09-27
US61363304P 2004-09-27 2004-09-27
US61345504P 2004-09-27 2004-09-27
US61334004P 2004-09-27 2004-09-27
US61363404P 2004-09-27 2004-09-27
US61324304P 2004-09-27 2004-09-27
US61340004P 2004-09-27 2004-09-27
US61333904P 2004-09-27 2004-09-27
US61336104P 2004-09-27 2004-09-27
US60/613,632 2004-09-27
US60/613,339 2004-09-27
US60/613,633 2004-09-27
US60/613,242 2004-09-27
US60/613,400 2004-09-27
US60/613,341 2004-09-27
US60/613,634 2004-09-27
US60/613,454 2004-09-27
US60/613,340 2004-09-27
US60/613,243 2004-09-27
US60/613,628 2004-09-27
US60/613,361 2004-09-27
US60/613,589 2004-09-27
US60/613,455 2004-09-27
US60/613,602 2004-09-27
US60/613,460 2004-09-27
US60/613,456 2004-09-27
US60/613,461 2004-09-27
US61511204P 2004-10-01 2004-10-01
US61553804P 2004-10-01 2004-10-01
US61537804P 2004-10-01 2004-10-01
US60/615,538 2004-10-01
US60/615,112 2004-10-01
US60/615,378 2004-10-01
US61712204P 2004-10-07 2004-10-07
US60/617,122 2004-10-07
US62290604P 2004-10-28 2004-10-28
US60/622,906 2004-10-28
US11/004,637 2004-12-03
US11/004,637 US7707039B2 (en) 2004-02-15 2004-12-03 Automatic modification of web pages
US63345204P 2004-12-06 2004-12-06
US63345304P 2004-12-06 2004-12-06
US63367804P 2004-12-06 2004-12-06
US63348604P 2004-12-06 2004-12-06
US60/633,452 2004-12-06
US60/633,453 2004-12-06
US60/633,486 2004-12-06
US60/633,678 2004-12-06
US63462704P 2004-12-09 2004-12-09
US63473904P 2004-12-09 2004-12-09
US60/634,627 2004-12-09
US60/634,739 2004-12-09
US64768405P 2005-01-26 2005-01-26
US60/647,684 2005-01-26
US64874605P 2005-01-31 2005-01-31
US60/648,746 2005-01-31
US65337205P 2005-02-15 2005-02-15
US60/653,372 2005-02-15
US65366305P 2005-02-16 2005-02-16
US65366905P 2005-02-16 2005-02-16
US65389905P 2005-02-16 2005-02-16
US65384705P 2005-02-16 2005-02-16
US65367905P 2005-02-16 2005-02-16
US60/653,847 2005-02-16
US60/653,679 2005-02-16
US60/653,669 2005-02-16
US60/653,899 2005-02-16
US60/653,663 2005-02-16
US65437905P 2005-02-17 2005-02-17
US60/654,379 2005-02-17
US65436805P 2005-02-18 2005-02-18
US65432605P 2005-02-18 2005-02-18
US65419605P 2005-02-18 2005-02-18
US60/654,326 2005-02-18
US60/654,196 2005-02-18
US60/654,368 2005-02-18
US65528005P 2005-02-22 2005-02-22
US65527905P 2005-02-22 2005-02-22
US65569705P 2005-02-22 2005-02-22
US65528105P 2005-02-22 2005-02-22
US65598705P 2005-02-22 2005-02-22
US60/655,697 2005-02-22
US60/655,987 2005-02-22
US60/655,280 2005-02-22
US60/655,279 2005-02-22
US60/655,281 2005-02-22
US65730905P 2005-02-28 2005-02-28
US60/657,309 2005-02-28
US11/097,836 2005-04-01
US11/097,089 US8214387B2 (en) 2004-02-15 2005-04-01 Document enhancement system and method
US11/098,042 2005-04-01
US11/097,833 2005-04-01
US11/097,093 US20060041605A1 (en) 2004-04-01 2005-04-01 Determining actions involving captured information and electronic content associated with rendered documents
US11/097,835 US7831912B2 (en) 2004-02-15 2005-04-01 Publishing techniques for adding value to a rendered document
US11/097,103 2005-04-01
US11/097,833 US8515816B2 (en) 2004-02-15 2005-04-01 Aggregate analysis of text captures performed by multiple users from rendered documents
US11/098,042 US7593605B2 (en) 2004-02-15 2005-04-01 Data capture from rendered documents using handheld device
US11/098,016 2005-04-01
US11/097,089 2005-04-01
US11/096,704 2005-04-01
US11/097,836 US20060041538A1 (en) 2004-02-15 2005-04-01 Establishing an interactive environment for rendered documents
US11/097,828 2005-04-01
US11/097,961 US20060041484A1 (en) 2004-04-01 2005-04-01 Methods and systems for initiating application processes by data capture from rendered documents
US11/097,981 2005-04-01
US11/098,014 US8019648B2 (en) 2004-02-15 2005-04-01 Search engines and systems with handheld document data capture devices
US11/097,103 US7596269B2 (en) 2004-02-15 2005-04-01 Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US11/097,828 US7742953B2 (en) 2004-02-15 2005-04-01 Adding information or functionality to a rendered document via association with an electronic counterpart
US11/098,043 US20060053097A1 (en) 2004-04-01 2005-04-01 Searching and accessing documents on private networks for use with captures from rendered documents
US11/097,981 US7606741B2 (en) 2004-02-15 2005-04-01 Information gathering system and method
US11/098,043 2005-04-01
US11/098,038 US7599844B2 (en) 2004-02-15 2005-04-01 Content access with handheld document data capture devices
US11/098,014 2005-04-01
US11/097,835 2005-04-01
US11/096,704 US7599580B2 (en) 2004-02-15 2005-04-01 Capturing text from rendered documents using supplemental information
US11/097,093 2005-04-01
US11/098,038 2005-04-01
US11/097,961 2005-04-01
US11/098,016 US7421155B2 (en) 2004-02-15 2005-04-01 Archive of text captures from rendered documents

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2007509565A Division JP5102614B2 (ja) 2004-04-19 2005-04-19 レンダリングされた文書からの視覚的取得データに対する処理技術

Publications (3)

Publication Number Publication Date
JP2012094156A JP2012094156A (ja) 2012-05-17
JP2012094156A5 JP2012094156A5 (ja) 2013-04-11
JP5496987B2 true JP5496987B2 (ja) 2014-05-21

Family

ID=37684666

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2007509565A Expired - Fee Related JP5102614B2 (ja) 2004-04-19 2005-04-19 レンダリングされた文書からの視覚的取得データに対する処理技術
JP2011248290A Active JP5496987B2 (ja) 2004-04-19 2011-11-14 レンダリングされた文書からの視覚的取得データに対する処理技術

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2007509565A Expired - Fee Related JP5102614B2 (ja) 2004-04-19 2005-04-19 レンダリングされた文書からの視覚的取得データに対する処理技術

Country Status (4)

Country Link
EP (1) EP1759278A4 (ja)
JP (2) JP5102614B2 (ja)
KR (1) KR101174536B1 (ja)
WO (1) WO2005101192A2 (ja)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US20060041484A1 (en) 2004-04-01 2006-02-23 King Martin T Methods and systems for initiating application processes by data capture from rendered documents
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US8799303B2 (en) 2004-02-15 2014-08-05 Google Inc. Establishing an interactive environment for rendered documents
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US8081849B2 (en) 2004-12-03 2011-12-20 Google Inc. Portable scanning and memory device
US8793162B2 (en) 2004-04-01 2014-07-29 Google Inc. Adding information or functionality to a rendered document via association with an electronic counterpart
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US20080313172A1 (en) 2004-12-03 2008-12-18 King Martin T Determining actions involving captured information and electronic content associated with rendered documents
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US20060081714A1 (en) 2004-08-23 2006-04-20 King Martin T Portable scanning device
US20070300142A1 (en) 2005-04-01 2007-12-27 King Martin T Contextual dynamic advertising based upon captured rendered text
US20060098900A1 (en) 2004-09-27 2006-05-11 King Martin T Secure data gathering from rendered documents
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US8621349B2 (en) 2004-04-01 2013-12-31 Google Inc. Publishing techniques for adding value to a rendered document
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US9460346B2 (en) 2004-04-19 2016-10-04 Google Inc. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
US9275052B2 (en) * 2005-01-19 2016-03-01 Amazon Technologies, Inc. Providing annotations of a digital work
US8300261B2 (en) 2006-02-24 2012-10-30 Avery Dennison Corporation Systems and methods for retrieving printable media templates
WO2007141020A1 (en) * 2006-06-06 2007-12-13 Exbiblio B.V. Contextual dynamic advertising based upon captured rendered text
EP2067119A2 (en) 2006-09-08 2009-06-10 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
US9672533B1 (en) 2006-09-29 2017-06-06 Amazon Technologies, Inc. Acquisition of an item based on a catalog presentation of items
US8725565B1 (en) 2006-09-29 2014-05-13 Amazon Technologies, Inc. Expedited acquisition of a digital item following a sample presentation of the item
US9665529B1 (en) 2007-03-29 2017-05-30 Amazon Technologies, Inc. Relative progress and event indicators
US7716224B2 (en) 2007-03-29 2010-05-11 Amazon Technologies, Inc. Search and indexing on a user device
US7921309B1 (en) 2007-05-21 2011-04-05 Amazon Technologies Systems and methods for determining and managing the power remaining in a handheld electronic device
JP5299625B2 (ja) * 2009-02-13 2013-09-25 日本電気株式会社 操作支援装置、操作支援方法、及びプログラム
KR101015740B1 (ko) * 2009-02-18 2011-02-24 삼성전자주식회사 문자 인식 방법 및 장치
DE202010018601U1 (de) 2009-02-18 2018-04-30 Google LLC (n.d.Ges.d. Staates Delaware) Automatisches Erfassen von Informationen, wie etwa Erfassen von Informationen unter Verwendung einer dokumentenerkennenden Vorrichtung
WO2010105245A2 (en) 2009-03-12 2010-09-16 Exbiblio B.V. Automatically providing content associated with captured information, such as information captured in real-time
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
US8832584B1 (en) 2009-03-31 2014-09-09 Amazon Technologies, Inc. Questions on highlighted passages
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
US8340429B2 (en) 2010-09-18 2012-12-25 Hewlett-Packard Development Company, Lp Searching document images
US9378290B2 (en) 2011-12-20 2016-06-28 Microsoft Technology Licensing, Llc Scenario-adaptive input method editor
WO2014000143A1 (en) 2012-06-25 2014-01-03 Microsoft Corporation Input method editor application platform
US9767156B2 (en) 2012-08-30 2017-09-19 Microsoft Technology Licensing, Llc Feature-based candidate selection
WO2014100172A1 (en) * 2012-12-18 2014-06-26 Thomson Reuters, Plc Mobile-enabled systems and processes for intelligent research platform
CN105580004A (zh) 2013-08-09 2016-05-11 微软技术许可有限责任公司 提供语言帮助的输入方法编辑器
US9514376B2 (en) * 2014-04-29 2016-12-06 Google Inc. Techniques for distributed optical character recognition and distributed machine language translation
US20170116194A1 (en) * 2015-10-23 2017-04-27 International Business Machines Corporation Ingestion planning for complex tables
KR101995540B1 (ko) * 2016-06-03 2019-07-15 주식회사 허브케이 판독/입력 오류 단어 정정 장치 및 방법
CN108960365A (zh) * 2018-06-28 2018-12-07 睿思易(成都)科技有限责任公司 一种基于二维码的数据整合方法及系统
JP7029434B2 (ja) * 2019-10-23 2022-03-03 サウンドハウンド,インコーポレイテッド コンピュータによって実行される方法、サーバ装置、情報処理システム、プログラム、およびクライアント端末

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5146552A (en) * 1990-02-28 1992-09-08 International Business Machines Corporation Method for associating annotation with electronically published material
JP3017851B2 (ja) * 1991-07-31 2000-03-13 キヤノン株式会社 画像記憶装置
JPH06282375A (ja) * 1993-03-29 1994-10-07 Casio Comput Co Ltd 情報処理装置及び電子ペン
US5640193A (en) * 1994-08-15 1997-06-17 Lucent Technologies Inc. Multimedia service access by reading marks on an object
JPH10134004A (ja) * 1996-10-28 1998-05-22 Casio Comput Co Ltd 画像データ処理システム
JP4183311B2 (ja) * 1997-12-22 2008-11-19 株式会社リコー 文書の注釈方法、注釈装置および記録媒体
JPH11212691A (ja) * 1998-01-21 1999-08-06 Fuji Xerox Co Ltd ペン入力方法及び装置
JP2000123114A (ja) * 1998-10-15 2000-04-28 Casio Comput Co Ltd 手書き文字入力装置及び記憶媒体
CA2373511C (en) * 1999-05-19 2014-07-08 Digimarc Corporation Methods and systems for controlling computers or linking to internet resources from physical and electronic objects
GB9922214D0 (en) * 1999-09-20 1999-11-17 Ncr Int Inc Creation transmission and retrieval of information
US7337389B1 (en) * 1999-12-07 2008-02-26 Microsoft Corporation System and method for annotating an electronic document independently of its content
GB2366033B (en) * 2000-02-29 2004-08-04 Ibm Method and apparatus for processing acquired data and contextual information and associating the same with available multimedia resources
JP4261779B2 (ja) * 2000-03-31 2009-04-30 富士通株式会社 データ圧縮装置および方法
US20010053252A1 (en) * 2000-06-13 2001-12-20 Stuart Creque Method of knowledge management and information retrieval utilizing natural characteristics of published documents as an index method to a digital content store
WO2002021413A2 (en) * 2000-09-05 2002-03-14 Zaplet, Inc. Methods and apparatus providing electronic messages that are linked and aggregated
JP2002269253A (ja) * 2001-03-13 2002-09-20 Ricoh Co Ltd 電子文書変換サービスシステムおよび電子文書変換サービスシステムの課金方法
WO2003063067A1 (en) * 2002-01-24 2003-07-31 Chatterbox Systems, Inc. Method and system for locating positions in printed texts and delivering multimedia information
JP2003216631A (ja) * 2002-01-25 2003-07-31 Canon Inc 情報処理装置、情報配信装置、検索装置、情報取得システム、情報取得方法、コンピュータ読み取り可能な記録媒体及びコンピュータプログラム
JP2004050722A (ja) * 2002-07-23 2004-02-19 Canon Inc 印刷装置

Also Published As

Publication number Publication date
EP1759278A4 (en) 2009-05-06
WO2005101192A3 (en) 2007-10-11
KR101174536B1 (ko) 2012-08-16
JP5102614B2 (ja) 2012-12-19
WO2005101192A2 (en) 2005-10-27
JP2008516297A (ja) 2008-05-15
EP1759278A2 (en) 2007-03-07
KR20070092596A (ko) 2007-09-13
JP2012094156A (ja) 2012-05-17

Similar Documents

Publication Publication Date Title
JP5496987B2 (ja) レンダリングされた文書からの視覚的取得データに対する処理技術
US9684902B2 (en) Processing techniques for text capture from a rendered document
US7702624B2 (en) Processing techniques for visual capture data from a rendered document
KR101212929B1 (ko) 렌더링된 문서로부터의 보안 데이터 수집
JP2008516297A6 (ja) レンダリングされた文書からの視覚的取得データに対する処理技術
US8874504B2 (en) Processing techniques for visual capture data from a rendered document
US9811728B2 (en) Adding value to a rendered document
US20180096203A1 (en) Adding value to a rendered document
US8713418B2 (en) Adding value to a rendered document
US9323784B2 (en) Image search using text-based elements within the contents of images
JP5529082B2 (ja) レンダリングされた文書からのハンドヘルド装置を用いたデータ取得
US20100278453A1 (en) Capture and display of annotations in paper and electronic documents
US20140236978A1 (en) Publishing techniques for adding value to a rendered document
US10504162B2 (en) Processing techniques for text capture from a rendered document
WO2007141020A1 (en) Contextual dynamic advertising based upon captured rendered text
WO2005106643A2 (en) Adding value to a rendered document
JP2010536188A6 (ja) レンダリングされた文書からのハンドヘルド装置を用いたデータ取得
EP1741028A2 (en) Adding value to a rendered document

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130522

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130822

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130827

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130924

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140305

R150 Certificate of patent or registration of utility model

Ref document number: 5496987

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250