JP2008276736A

JP2008276736A - インタラクティブシステムおよび画像検索性能を高めるプログラム

Info

Publication number: JP2008276736A
Application number: JP2007333333A
Authority: JP
Inventors: Laurent Denoue; ドゥヌローラン; John Adcock; アドコックジョン; David M Hilbert; エム．ヒルバートデイピット; Daniel A Billsus; エー．ビルサスダニエル
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2007-04-26
Filing date: 2007-12-25
Publication date: 2008-11-13
Anticipated expiration: 2027-12-25
Also published as: US8261200B2; US20080267503A1; JP5018459B2

Abstract

【課題】画像内の単語画像へ関連フィードバックを提供して、画像の画像検索性能を高めること。
【解決手段】システム２００は、一つ以上のメモリ２１０、一つ以上のプロセッサ２２０、一つ以上の記憶装置またはリポジトリ２３０を含み、インストラクタのラップトップ２９０、またはプロジェクタ２５０から、マルチメディアを自動捕捉するソフトウェア２４０を含み、更に、記憶装置２３０内に、マルチメディアスライド画像２６０、テキスト２７０、およびオーディオ２８０を含む。ソフトウェア２４０は、プレゼンテーションマルチメディアを索引付けし、管理することにより、システムに学生ユーザのインストラクタのスライドを問い合わせるため、ユーザのラップトップ２９０から、インターネットによるインターラクション、単語画像提案の選択、インストラクタースライドの得られたグループの検索を可能とする。
【選択図】図１５

Description

本発明は、画像内に含まれる単語画像を適切にフィードバックすることによって、画像の画像検索性能を高めることに関する。

光学的文字認識（ＯＣＲ）を介してラスター画像からテキストを修復する情報検索システムにおいて、最も正確なシステムにおいても、認識されたテキストにおいてエラーが発生する。これらのエラーは、キーワード検索の効果的な検索性能を低下させる。ＯＣＲはプリントされた文字の機械認識である。例えば、ＯＣＲは、銀行産業において、小切手やクレジットカードスリップを処理するために使用される。ＯＣＲシステムは、多数の異なるＯＣＲフォントのみならず、タイプライタやコンピュータプリントされた文字を認識することができる。テキストドキュメントがコンピュータ内で走査される時、これらが「撮影」され、コンピュータにおいて写真として保存される。これらの写真は、ＧＩＦ、ＪＰＥＧ、およびＭＰＥＧ画像などのすべてのビットマップ画像およびビデオフレームが含まれる画像のカテゴリであるラスター画像である。

ＯＣＲソフトウェアは、アルファベットの文字および数字桁のそれぞれを識別するために、ラスター画像の明部と暗部を解析する。ＯＣＲソフトウェアが文字を認識する時、該文字を実際のＡＳＣＩＩ（アスキー）テキスト文字へ変換する。実際のテキストの文字がコンピュータディスク上で占める余白が画像が占める余白よりかなり少ないためにＯＣＲ変換が実行される。

ユーザは、クエリ（問い合わせ）用語が配置される複数のページドキュメントのフルページの画像を発見し、検索するために、ユーザは、ＯＣＲ上で問い合わせを行うことができる。ＯＣＲデータにおけるエラーは、キーワードサーチの効果的な検索性能を低下させる。また、ＯＣＲテキストを検索するためにＯＣＲソフトウェアが使用されると、認識の上では、システマチックエラーが存在する。例えば、ネーム “Ｈｉｌｂｅｒｔ”は、正しいスペルの“Ｈｉｌｂｅｒｔ”ではなく、 “Ｈｕｂｅｒｔ”として誤って認識されることが非常に頻繁に発生する。この特定の例において、ユーザは、関連する結果の大部分を抜かすことになる。

不完全なＯＣＲデータの検索性能を改良するために使用され得る自動アプローチは多数あるが、これらは、例えば、問い合わせが５単語以上と、長い時、ドキュメントのコンテクストおよび用語の冗長性が長い時、および語彙（ボキャブラリ)が相対的に静的である時、最良に作用する。

いくつかの方法は、ユーザが問い合わせを発する前にＯＣＲエラーを補正しようとする。例えば、該システムの大部分から得られるテキストを出力することによって、「正しい」スペルを自動的に決定するために、「ｎ」個の異なるＯＣＲシステムから得られるＯＣＲの結果の大部分を使用する。これらの方法は、異なるＯＣＲシステムがさまざまな間違いをするという前提に基づいて提供されている。「ｎ」回数分遅延している以外に、使用されているＯＣＲシステムはすべて所与の画像に対して不正確なテキストを生成する場合もあるので、該方法は全てのエラーを取り除くことはできない。

他の方法は、辞書で見つからない単語を自動的に補正するために使用されるであろう辞書の存在を想定する。辞書に載っていそうもない新しい単語については、これらの方法は、新しい単語を辞書からの単語の一つとなるように強制する。これらの新しい単語を辞書からの単語の一つとなるように強制することによって、これらの方法は、過剰補正する。即ち、ＯＣＲが一単語を正確に認識するが、この単語が辞書に載っていない場合、この単語は、ＯＣＲによって生成されるテキストに最も近い辞書に載っている単語へ変更する。過剰補正（オーバーコレクション）は、スライドにおいて、新しい用語が、例えば、プロジェクトネーム、人物の名前、および頭字語などとして、定義付けられる可能性が高い科学的定義域（ドメイン）において、特に好ましくない。また、過少補正する方法もある。例えば、単語が辞書に載っていたという理由だけでその単語が正確に認識されたと想定することは正しくない。

更に他の方法は、ＯＣＲデータが実際に情報検索システムの性能をそれほど大きく低下させないことを示す。あいにく、これらの方法による結果は、問い合わせが長くて、ドキュメントが数百または数千の用語を有するときにのみ有効である。長い問い合わせの例としては、５つ以上の用語を有するテキスト検索会議（ＴＲＥＣ）問い合わせが挙げられる。

スキャンされたドキュメントにおいてＯＣＲエラーを手動的に補正するために、いくつかのＯＣＲツールにおいては、誤って認識されたテキストベースバージョンの代わりに、ユーザへ本来の画像を示すこともある。しかしながら、これらのシステムは、一度の単一の用語を構成するために使用され、ドキュメント検索設定、特に、ユーザへ多数の用語が提示されるドキュメント検索設定としては、設計されていない。
ベイテル、スティーブンＭ他著、「ＯＣＲテキストコレクションのため検索戦略の調査」ドキュメント画像理解技術（ＳＤＩＵＴ）のシンポジウムより、２００３年、ダウンロード：ｐ７（２００７年４月１８日）。カラン、ジェイミー他著、「情報検索およびＯＣＲ：コンテンツ変換から意味の把握まで」、ＳＩＧＩＲ２００２ワークショップ、テンペレ大学、２００２年８月１５日、ダウンロード：ｐ６（２００７年４月１８日）。ドゥヌー、ローレン他著、「プロジェクターボックス：教室のためのシームレスプレゼンテーション捕捉」、ダウンロード：ｐ６（２００７年４月１８日）。ドワーマン、デービッド著、「ドキュメント画像の索引付けと検索：調査」、テクニカルレポート、ＬＡＭＰ−ＴＲ−０１３／ＣＦＡＲ−ＴＲ−８７８／ＣＳ−ＴＲ−３８７６、メリーランド大学、カレッジパーク、ＵＳＡ、ｐ３９（１９９８年２月）。ホン、タオ他著、「単語画像等価によるＯＣＲ性能の改良」、ドキュメント解析および情報検索における第４回シンポジウムより、米国、ＮＶ、ラスベガス、１９９５年４月２４日〜２６日、（１９９５年４月）、２１頁。カンター、ポールＢ他著、「ＴＲＥＣ−５コンフュージョン追跡におけるレポート」、第５回テキスト検索会議ＴＲＥＣ−５の手順、ＮＩＳＴ特別公開５００−２３８、ｐ１０、１９９６年、ダウンロード：ｐ１０（２００７年４月１９日）。クラインＳ．Ｔ．他著、「自動ＯＣＲ補正のための投票システム」、ＳＩＧＩＲ２００２ワークショップ、２００２年８月１５日、テンペレ大学、ダウンロード：ｐ１９（２００７年４月１８日）。コーラック、オーカン他著、「雑音のあるチャネルモデルを用いたＯＣＲエラー補正」、人類言語技術会議、ＨＬＴ２００２、米国、カリフォルニア州、サンディエゴ市、（２００２年）、ｐ６。「スキャンソフトオムニページ１５ユーザガイド」９４ｐ、２００５年。タグバ、カゼム他著、「ＯＣＲ出力を自動補正するためのエキスパートシステム」、ＩＳ＆Ｔ／ＳＰＩＥの手引き、電子画像科学および技術における国際シンポジウム、プロシーディスプレイスクリーン（フィンランド、ヘルシンキ）、プリントセミナー、ダウンロード：ｐ１９（２００７年４月１８日）。タグバ、カゼム他著、「ハイリーツ：ＯＣＲドキュメントのための検索エンジン」、ドキュメント解析システム、Ｖ、２００２年、ｐ１０（２００２年１月１０日）。タグバ、カゼム他著、「近似およびグローバル補正によるポスト編集」、パターン認識および人工知能の国際ジャーナル」、１９９５年、１２ｐ（１９９３年３月）。

問い合わせが、１〜２単語と、短い場合、ドキュメントがコンテクストや用語冗長性がほとんどなくて短い場合、ボキャブラリが相対的に動的である場合に良好に作用する画像の検索性を高めるためのインタラクティブな解決法が必要とされている。ユーザに単語画像へ関連フィードバックを提供させることによって、検索性能を高めるためのユーザインタフェースを作成することが更に望ましい。

ユーザに画像に含まれる単語へ関連フィードバックを提供させることによって、テキストを記述する画像の検索性能を高めるためのインタラクティブシステムが提供される。システムは、ユーザインタフェースであって、該ユーザインタフェースを介して、ユーザが、一つ以上の問い合わせ用語によって、該システム内に含まれる一つ以上の画像について、該システムに問い合わせをする、前記ユーザインタフェースを含む。単語画像提案はユーザインタフェースを介してユーザへ提示される。前記単語画像から該システムが認識する場合、各単語画像提案が前記一つ以上の問い合わせ用語と同じかあるいは僅かに異なるテキストの一つを含む。前記一つ以上の問い合わせ用語に対する画像のシステム想起を高めるために、ユーザが前記一つ以上の問い合わせ用語と視覚的に整合する一つ以上の単語画像提案をシステム内に含有することができる一方、特定の問い合わせ用語に対する画像検索結果の精度を高めるために、ユーザが単語画像提案をシステムから除外することができる。

本発明による第１の実施態様は、画像として取り込まれた単語をユーザへ適切にフィードバックすることによって、テキストを描画する画像の検索性能を高めるためのインタラクティブシステムであって、システムに取り込まれた一つ以上の画像について一つ以上の問い合わせ用語によってユーザが該システムに問い合わせをするためのユーザインタフェースと、前記ユーザインタフェースを介してユーザへ提示される一つ以上の単語画像提案であって、前記単語画像から該システムが認識する場合、前記一つ以上の問い合わせ用語と同じかあるいは僅かに異なるテキストのいずれかを含む一つ以上の単語画像提案と、前記一つ以上の問い合わせ用語について画像のシステム認識性能を高めるために、前記一つ以上の問い合わせ用語と視覚的に整合する一つ以上のユーザにより選択された単語画像提案についてのシステムへの取込、を含むインタラクティブシステムである。

本発明の第２の実施態様は、第１の実施態様において、各単語画像提案が単語画像を含み、該単語画像が一単語として取り込まれた一つ以上の画像の一部を含む、請求項１に記載のインタラクティブシステムである。

本発明の第３の実施態様は、第１の実施態様において、前記一つ以上の問い合わせ用語に対する画像検索結果の精度を高めるために、ユーザによって選択された一つ以上の単語画像提案をシステムから除外することを更に含むインタラクティブシステムである。

本発明の第４の実施態様は、第１の実施態様において、前記システムのユーザ問い合わせに先立って前記一つ以上の画像から変換されたテキストのｎ−グラムの索引付けを更に含み、ｎ−グラムが長さｎの文字の連結を含む（ｎは任意の正の整数である）インタラクティブシステムである。

本発明の第５の実施態様は、第１の実施態様において、前記一つ以上の画像内の単語画像の境界ボックスが所与の閾値以上でオーバーラップする場合、前記一つ以上の単語画像提案の場所と大きさによって、グルーピングすることを更に含み、グループの代表的な単語画像提案がユーザへ提示されるインタラクティブシステムである。

本発明の第６の実施態様は、第１の実施態様において、前記各単語画像が同一テキストと関連しており、該単語画像のテキストがそれぞれの画像内で同一の文脈で使用される場合、前記一つ以上の単語画像提案を原文の文脈でグルーピングすることを更に含み、該グループの代表的な単語画像提案がユーザへ提示されるインタラクティブシステムである。

本発明の第７の実施態様は、第１の実施態様において、前記単語画像が同様の画像である場合、前記一つ以上の単語画像提案の類似度によってグルーピングすることを更に含み、二つの画像の画素間の全体的な差がある閾値未満である場合、該二つの画像は類似しており、該グループの代表的な単語画像提案がユーザへ提示されることを更に含むインタラクティブシステムである。

本発明の第８の実施態様は、第１の実施態様において、ユーザへ提示するために、前記単語画像提案が単一均一サイズへ拡大縮小されたバージョンの単語画像提案を含むインタラクティブシステムである。

本発明の第９の実施態様は、第１の実施態様において、ユーザへ提示するために、各個別の単語画像提案に対して代表的な単語画像提案を選択することによって、一つ以上の単語画像提案の数を削減することを更に含むインタラクティブシステムである。

本発明の第１０の実施態様は、第１の実施態様において、認識される単語画像のうち前記一つ以上の画像の数をユーザへ提示することによって、各単語画像提案をランク付けすることを更に含むインタラクティブシステムである。

本発明の第１１の実施態様は、第１の実施態様において、前記問い合わせが二つ以上の用語を含む場合、該問い合わせにおける全用語に対する単語画像提案に関連するテキストを含まない画像に対する単語画像提案が除去されるインタラクティブシステムである。

本発明の第１２の実施態様は、第１の実施態様において、該システムに、問い合わせ用語、関連するユーザ除外単語画像提案、および関連ユーザ含有単語画像提案に関する情報が保存されるインタラクティブシステムである。

本発明の第１３の実施態様は、画像として取り込まれた単語をユーザへ適切にフィードバックすることによって、テキストを描画する画像の検索性能を高めるための方法であって、ユーザインタフェースを介して、ユーザの指示に応じて、一つ以上の問い合わせ用語によって、該システム内に取り込まれた一つ以上の画像について該システムに問い合わせをするステップと、前記単語画像から該システムが認識する時、前記一つ以上の問い合わせ用語と同じかあるいは僅かに異なるテキストのいずれかを含む一つ以上の単語画像提案を、前記ユーザインタフェースを介してユーザへ提示するステップと、前記一つ以上の問い合わせ用語に対する画像のシステム認識性能を高めるために、ユーザが前記一つ以上の問い合わせ用語と視覚的に整合する一つ以上の単語画像提案を、前記システム内に取り込むようにユーザの指示に応じて選択するステップと、を含む方法である。

本発明の第１４の実施態様は、第１３の実施態様において、各単語画像提案が単語画像を含み、該単語画像が一単語として取り込まれた一つ以上の画像の一部を含む方法である。

本発明の第１５の実施態様は、第１３の実施態様において、前記一つ以上の問い合わせ用語に対する画像検索結果の精度を高めるために、ユーザによって選択された一つ以上の単語画像提案をシステムから除外することを更に含む方法である。

本発明の第１６の実施態様は、第１３の実施態様において、前記システムのユーザ問い合わせに先立って前記一つ以上の画像から変換されたテキストのｎ−グラムの索引付けを更に含み、ｎ−グラムが長さｎの文字の連結を含む（ｎは任意の正の整数である）方法である。

本発明の第１７の実施態様は、第１３の実施態様において、前記一つ以上の画像中の前記単語画像の境界ボックスが所与の閾値より大きい値とオーバーラップする場合、前記一つ以上の単語画像提案を位置および大きさによってグルーピングすることをさらに含む方法である。

本発明の第１８の実施態様は、第１３の実施態様において、前記各単語画像が同一テキストと関連しており、該単語画像のテキストがそれぞれの画像内で同一の文脈で使用される場合、前記一つ以上の単語画像提案を原文の文脈でグルーピングすることを更に含み、該グループの代表的な単語画像提案がユーザへ提示される方法である。

本発明の第１９の実施態様は、第１３の実施態様において、前記単語画像が同様の画像である場合、前記一つ以上の単語画像提案の類似度によってグルーピングすることを更に含み、二つの画像の画素間の全体的な差がある閾値未満である場合、該二つの画像は類似しており、該グループの代表的な単語画像提案がユーザへ提示されることを更に含む方法である。

本発明の第２０の実施態様は、第１３の実施態様において、前記ユーザインタフェースによって一つ以上の単語画像提案を提示することが、前記単語画像提案を単一均一サイズへ拡大縮小することを含む方法である。

本発明の第２１の実施態様は、第１３の実施態様において、各個別の単語画像提案に対して代表的な単語画像提案を選択することによって一つ以上の単語画像提案の数を削減することを更に含み、前記代表的な単語画像提案がユーザへ提示される方法である。

本発明の第２２の実施態様は、第１３の実施態様において、認識される単語画像のうち前記一つ以上の画像の数を前記ユーザへ提示するとによって、各単語画像提案をランク付けすることを更に含む方法である。

本発明の第２３の実施態様は、第１３の実施態様において、前記問い合わせが二つ以上の用語を含む場合、該問い合わせにおける全用語に対する単語画像提案に関連するテキストを含まない画像に対する単語画像提案が除去される方法である。

第１３の実施態様において、本発明の第２４の実施態様は該システムに、問い合わせ用語、関連するユーザ除外単語画像提案、および関連ユーザ含有単語画像提案に関する情報が保存される方法である。

本発明の第２５の実施態様は、画像として取り込まれた単語をユーザに適切にフィードバックすることによって、テキストを描画する画像の検索性能を高めるための機能を実行するために、コンピュータによって実行可能な命令のプログラムであって、前記コンピュータに、ユーザインタフェースを介して、ユーザの指示に応じて、一つ以上の問い合わせ用語によって、該システム内に取り込まれた一つ以上の画像についてシステムに問い合わせをするステップと、前記単語画像から該システムが認識する時、前記一つ以上の問い合わせ用語と同じかあるいは僅かに異なるテキストのいずれかを含む一つ以上の単語画像提案を、前記ユーザインタフェースを介してユーザへ提示するステップと、前記一つ以上の問い合わせ用語に対する画像のシステム認識性能を高めるために、ユーザが前記一つ以上の問い合わせ用語と視覚的に整合する一つ以上の単語画像提案を、前記システム内に取り込むようにユーザの指示に応じて選択するステップと、を実行させるプログラムである。

本発明による好ましい実施の形態は、以下の図面を参照することによって、より詳細に説明され得る。

検索性能が改良されるべきであるＯＣＲ（光学的文字認識）デバイスの一つの例として、プロプラエタリな（所有権を主張できる）“プロジェクタ・ボックス（ＰｒｏｊｅｃｔｏｒＢｏｘ）”システムが挙げられる。しかしながら、以下の説明において、プロジェクタ・ボックスに適用される基本原理は、他のタイプのＯＣＲデバイスにも適用され得る。プロジェクタ・ボックスは、学生、インストラクタおよび教育機関のために講義内容を自動的にキャプチャ（捕捉）するように作成された。講義内容を捕捉した後、プロジェクタ・ボックスは、プレゼンテーションマルチメディアを索引付けし、管理する。プロジェクタ・ボックスは、例えば、インストラクタのラップトップ、または、プロジェクタなどのディスプレイデバイスなどのプレゼンテーションデバイスから送られた赤緑青（ＲＧＢ）情報を記録するために連続的に動作する。プロジェクタ・ボックス・システムは、二つの主要コンポーネント：捕捉コンポーネントとサーバからなる。捕捉コンポーネントは、高解像度のスライド画像、テキストおよびオーディオをシームレス（継ぎ目なし）に捕捉する。ビデオおよびオーディオ捕捉ハードウェアに加えて、捕捉コンポーネントは、更なる解析および記憶のためにサーバへ周期的にデータを転送するソフトウェアアプリケーションからなる。捕捉コンポーネントは、サーバへ画像を送り、オーディオクリップは、外部マイクロフォンから記録され、圧縮ＭＰ３ファイルとしてサーバへ記憶される。

サーバ上のウェブベースのユーザインタフェースによって、学生は、捕捉されたプレゼンテーションをブラウザで表示し、検索し、再生し、転送することができる。プロジェクタ・ボックスによって、学生はコンテンツに基づいて講義を検索することができ、ビデオによって、順次、再生しなければならないのとは逆に、捕捉された媒体に非線形的にアクセスすることができる。捕捉された媒体は、ウェブ−ベースのユーザインタフェースへの問い合わせを使用することによって、非線形にアクセスされる。結果的に、ＯＣＲは、スライド画像へ用いられ、テキストを抽出し、フルテキスト索引（インデックス）を生成して、学生による検索および非線形アクセスを可能とする。

図１は、本発明の実施の形態による、スライドの例示的なコーパスに対して “Ｈｉｌｂｅｒｔ”と“Ｈｕｂｅｒｔ”を整合させるスライドの数のヒストグラムの例を示す。プロジェクタ・ボックスは、ＯＣＲソフトウェアを用いて、約２００，０００画像を獲得し、ＯＣＲを実行した。プロジェクタ・ボックスからのＯＣＲテキストには、システマチックな認識エラーが存在する。プロジェクタ・ボックスによって認識される用語の発生が経時的にチャート化されてもよい。図３の例においては、スライドの例において、用語“Ｈｉｌｂｅｒｔ”は、スライドのコーパスの多数のスライドに出現する。しかしながら、用語“Ｈｕｂｅｒｔ”はスライドに出現しない。ヒストグラムの最上列は、プロジェクタ・ボックスが“Ｈｉｌｂｅｒｔ”として正確に整合したスライドの数を示す。ヒストグラムの最下列は、プロジェクタ・ボックスが“Ｈｕｂｅｒｔ”であると誤って整合してしまった “Ｈｉｌｂｅｒｔ”を含むスライドの数を示す。 “Ｈｉｌｂｅｒｔ”は、プロジェクタ・ボックス・ソフトウェアによって、正確に“Ｈｉｌｂｅｒｔ”と（４６回）認識されるよりも、むしろ“Ｈｕｂｅｒｔ”と非常に頻繁に（３０７回）誤って認識される。この特定の例が示すように、問い合わせ用語“Ｈｕｂｅｒｔ”について、プロジェクタ・ボックスによって捕捉されるＯＣＲデータを取り込むように問い合わせをしているユーザは、関連する認識結果の大部分を見落としてしまう。

プロジェクタ・ボックス・システムによって捕捉されるデータは、関連する技術によって捕捉されるデータとはいくつかの点で異なる。第１に、プロジェクタ・ボックスに送られる問い合わせの大部分（８９％）は、一個または二個の用語しか含まない。２００５年においてプロジェクタ・ボックスによって受信された３２７５個の問い合わせのうち、１６１９個（４９％）の問い合わせは一個の用語を含んでいたが、１３１０個（４０％）の問い合わせは二個の用語を含んでいた。第２に、例えば、授業の講義におけるＭｉｃｒｏｓｏｆｔＰｏｗｅｒＰｏｉｎｔ（登録商標）のプレゼンテーションに使用されるたぐいのスライドであるので、プロジェクタ・ボックスによって使用される「ドキュメント」は非常に短い。図２は、本発明の実施の形態による、８年間、プロジェクタ・ボックスによって使用された図１のスライドのコーパスの例に対して一年あたりのスライドにおける平均単語数を示すグラフの例である。この例のコーパスは、５０，９１７枚のスライドを含む。グラフから、スライドあたりの平均単語数が３２個であることが分かる。第３に、用語は、ドキュメント内へたった一回、定常的に出現する。スライドにおける冗長的な用語の欠落は、あたかも、ＯＣＲが、初めて、用語毎に用語を処理している行為に類似することを意味する。したがって、冗長的な用語の欠落はＯＣＲ性能を効果的に改良しない。第４に、同一あるいは略同一のドキュメントは共通である。これは、スライド内のテキストボックスの大きさまたは位置が、回復したテキストボックスを複数のスライドに関連付けるために使用され得ることを意味する。関連付けられたテキストボックスは、問い合わせを実行したユーザへプレゼンテーション（提示）するために、まとめてグループ分けされ得る。

画像の検索精度を高めるためには、特定のドキュメントにおいて問い合わせ中のすべての用語が発見されなくても、長い問い合わせであれば、問い合わせ用語の一つ以上が発見できたドキュメントを検索エンジンが整合させることを可能とするので、問い合わせの大きさに左右される。問い合わせの大きさは問い合わせの用語の数に等しい。また、ドキュメントの大きさにも左右される。ユーザが「情報」を検索する場合、長いドキュメントは「情報」の多数の例を含む傾向が強く、したがって、これらの例のいくつかは正確に認識されている可能性が高い。

プロジェクタ・ボックスの場合、スライドが一般に短いドキュメントであるので、一般的に、用語は一ドキュメントに対して一回発生するだけである。したがって、ドキュメントが「情報」の一例のみを含む場合、この情報の唯一の例がＯＣＲソフトウェアによって誤って認識された場合、該ドキュメントはユーザによって検索されない。

誤って認識された単語に代わる単語画像を提示する手段
ＯＣＲソフトウェアによって画像ドキュメント内の単語が誤って認識されたという問題を正すために、ＯＣＲソフトウェアを経て画像ドキュメントから変換されたテキストは、最初に、ｎ−グラムを用いて索引付けされる。ｎ−グラム（索引語）は、与えられたシーケンス（順序）のアイテムからのｎ番目のアイテムのサブシーケンスである。例えば、“ａｂｉｇｃａｔ”は、索引付けするために、以下の１０個のバイグラム、即ち、「２−グラム」：“ ａ”、“ａ ”、“ ｂ”、“ｂｉ”、“ｉｇ”、“ｇ ”、“ ｃ”、“ｃａ”、“ａｔ”、および“ｔ ”（“ ”が単語の境界を表す）へ分解される。ユーザが、例えば、“ａｂｉｇｃａｔ”の問い合わせを実行する時、ｎ−グラムの索引付けによって、認識性能が高められる。即ち、ｎ−グラムの索引付けによって、問い合わせ用語を含む正確に検索されたドキュメントの数が増加することを意味する。しかしながら、これらの同じ問い合わせ用語について、ｎ−グラムの索引付けは、該ｎ−グラムの索引付けが不正確に検索されたドキュメント数も増加させるので、残念ながら、精度を低下させてしまう。だが、問い合わせにおける単語数、つまり問い合わせのサイズが十分に大きい場合、精度のロスもそれほど多くない。問い合わせのサイズが大きくなればなるほど、該問い合わせが正しいドキュメントを検索することに成功したことが一層確実とされる。しかしながら、本発明の実施の形態において、問い合わせの大部分が非常に短い。ｎ−グラムの索引付けは、音や言語（スピーチ）を検索するために使用される音声ベースの検索エンジンに使用されてもよい。

図１において、ｎ−グラムの索引付けを行なわない場合、“Ｈｉｌｂｅｒｔ”を検索するユーザは、コーパスにおける用語“Ｈｉｌｂｅｒｔ”の配分が過小評価されていることが分かる。ｎ−グラムの索引付けを行った場合、ユーザは、コーパスにおける用語“Ｈｉｌｂｅｒｔ”の配分が過大評価されていることが分かる。上記の例において、バイグラム索引付けが使用されているが、本発明の実施の形態においては、任意の整数“ｎ”に対して、ｎ−グラムの索引付けが使用されてもよい。

“Ｈｉｌｂｅｒｔ”の代わりに“Ｈｕｂｅｒｔ”を使用することをユーザが考え付くことはありえないので、この問題を克服することができる検索の仕方を作り出すことをユーザに期待することは妥当ではない。したがって、システムが自動的に代替案を提案すれば、それが最も理想的である。

システムに自動的に代替単語を提案させるために、スペルチェッカーシステムが設計されている。これらのシステムは、スペルミスのある単語に類似した代替単語を提案する。代替単語によって、次に、問い合わせはより多くのドキュメントを検索するために拡張され、これによって、該システムの想起を潜在的に改良する。しかしながら、精度を高く維持するために、提案された用語は良好に選択されなければならない。問い合わせ用語にユーザによる単純なスペルミスがあった場合、および、コーパスが問い合わせ単語に対して正しいスペルを含む場合には、正しい提案を選択することに、問題はない。例えば、コーパスが含まない用語“ｌｅｔｔｉｃｅ”を用いて問い合わせをした場合、そして、コーバスが用語“ｌｅｔｔｕｃｅ”を含む場合、システムは提案単語“ｌｅｔｔｕｃｅ”を選択し、この単語を、提案された問い合わせ用語として、ユーザへ提示することができる。ユーザは問い合わせにミススペルがあっても問題にならない場合が多く、かれらは正しい提案を簡単に選択することができる。

しかしながら、プロジェクタ・ボックスの場合、問い合わせ用語が正しく綴られる可能性が高いが、誤って認識された単語によって「ノイジー」になる可能性も高い。例えば、ユーザが “Ｈｉｌｂｅｒｔ”で問い合わせを実行する場合、プロジェクタ・ボックスは、コーパスにおいて“Ｈｉｌｂｅｒｔ”の誤って認識された単語の例を検索しないだけでなく、Ｈｉｌｂｅｒｔを含むすべてのドキュメントがユーザのために検索されるわけではない。プロジェクタ・ボックスは、ユーザへ提案することはできるが、これらの提案単語は、例えば、 “ｉｎｆｏｒｍａｔｉｏｎ”を“ｉｆｏｒｍａｔｉｏｎ”と誤って認識された単語であるので、これらの提案単語の多くが意味を成さない。従って、ユーザが、提案単語が意味を成すかどうかを判断することは非常に困難である。

本発明の実施の形態によれば、図３は、問い合わせ用語“Ｈｉｌｂｅｒｔ”に対して、図１のコーパスの例から、プロジェクタ・ボックスのＯＣＲソフトウェアによって認識されたテキスト提案の例を示す。テキスト提案の後の数は、用語がコーパスに出現する回数である。図３において、ユーザが “Ｈｉｌｂｅｒｔ”で問い合わせを行う場合にプロジェクタ・ボックスが作成し得る提案単語が示されている。これらの提案において、最初の２列には、“ｋｉｍｂｅｒ”、“１−ｆｉｌｂｅｒｔ”、“ｉｌｂｅｒｔ”、および“ｄｈｉｉｂｅｒｔ”などの多数の意味を成さない単語が現れている。これらの提案のテキストが示されている場合、ユーザは、とても「正確な」提案単語を選択することができない。

図４は、本発明の実施の形態による、図３のテキスト提案のいくつかの単語画像バージョンの例を示している。プロジェクタ・ボックスは、正確に認識された単語および誤って認識された単語の両方に対応するテキスト提案をユーザへ提示する代わりに、これらの単語画像を提案単語としてユーザへ提示する。単語画像は、基本的に、単一スライド上で単語を示すＯＣＲデータの一部である。ＯＣＲソフトウェアは、ＯＣＲソフトウェアによって認識されるオリジナル画像全体、テキスト単語ではなく、テキスト単語周辺の切り取られた領域がユーザへ表示されるように、スライド画像上のテキスト単語の位置を規定する。多少の議論の余地があるにしても、図４における単語画像のリストが提示されたユーザにとって、正確な提案を選択することは図３の正確なテキスト提案を選択するよりもはるかに簡単である。しかしながら、ユーザは、いまなお、多数の画像によって翻弄されている。

図５は、本発明の実施の形態による、図３のテキスト提案の単語画像バージョンのより大きなセットの例を示している。図５は、図３の“Ｈｉｌｂｅｒｔ”に対して誤って認識されたテキスト提案の多くが、図５においては、“Ｈｉｌｂｅｒｔ”単語画像として正確に示されることができることを示している。また、図５は、図３の“Ｄｏｇｂｅｒｔ”および “Ａｌｐｅｒｔ”などの“Ｈｉｌｂｅｒｔ”以外の他の提案単語も正確に認識された単語であり、これらが単語画像提案としてユーザへ提示されることを示している。

単語画像のグループ分け手段
“Ｈｉｌｂｅｒｔ”の問い合わせ例について、図５は、単語画像がグループ分けされない場合、ユーザが分類する必要がある４６７個の単語画像提案の例も示している。ＯＣＲソフトウェアは、所定の単語を何通りにも誤って認識する。スペルミスの数は、単語の長さに比例して増加する。例えば、単語“ｉｎｆｏｒｍａｔｉｏｎ”は、“ａｄｄ”に比べて誤って認識される頻度が多い。一般に、該ＯＣＲソフトウェアは、ユーザへ数百個の単語画像提案を示すので、より長い単語に対するすべての単語画像提案を示された場合、ユーザはこれらの提案に翻弄されてしまう。

ＯＣＲソフトウェアが同一の画像表示下にあるいくかの提案をグループ分けし、これによって、ユーザがブラウジングする必要のある単語画像のリストを効果的に削減することができる。単語画像間の類似度を見つけるために、グループ分けはいくつかの類似度測定を用いることによって実行される。

図６は、本発明の実施の形態による、図５の単語画像提案を場所によってグループ分けした後で得られた単語画像提案の例を示す。単語画像提案を場所によってグループ分けした後、ユーザが検討する必要のある単語画像の数は、図５の４６７個から図６の１０７個へと大幅に削減される。この最初の類似度測定は、スライド内の単語画像の位置に基づく。２つの画像の関連性がＯＣＲソフトウェアによって同一であると認識され、２つの画像の境界ボックスの位置がそれぞれのスライド上で所定の閾値以上の値でオーバーラップする場合、二つの単語画像は類似する。境界ボックスは、単語画像の周辺のボックスあるいはテキスト単語を含むスライド画像の切り取り領域である。境界ボックスの位置は、単語画像の高さおよび幅の外に、スライド画像内の単語画像の中心の（ｘ，ｙ）座標によって定義付けられる。本発明の実施の形態においては、８０％は予め定められた閾値であるが、本発明は、この数値に限定されない。

図７は、本発明の実施の形態による、テキストの文脈（コンテクスト）によって、図６の単語画像提案をグループ分けした後に得られる単語画像提案の例を示す。この第２の類似度測定によって、図６の例の１０７個から、図７の例の３９個まで、単語画像提案の数が削減される。この第２の類似度測定は、それぞれのスライドのコンテクストにおける単語画像のテキストの類似度に基づく。例えば、“ＤａｖｉｄＨｉｌｂｅｒｔ”と “ＤａｖｉｄＨｉｌｂｅｒｔ”は同一の左側のコンテクスト“Ｄａｖｉｄ ”を共有しているので、一致する二つの単語画像“Ｈｉｌｂｅｒｔ”のグループ分けが実行される。他の例において、“ＤｏｎＨｉｌｂｅｒｔｉｓ” と“ＤａｖｉｄＨｉｌｂｅｒｔｄｏｅｓ”は左右のコンテクストのいずれかを共有しないので、一致する二つの単語画像“Ｈｉｌｂｅｒｔ”のグループ分けは実行されない。

図８は、本発明による画像の類似度によって図７の単語画像提案をグループ分けした後に得られる単語画像提案の例を示す。この第３の類似度測定によって、図７の例の３９個から、図８の例の３３個まで、単語画像提案の数が削減される。現在の技術は、画像の類似度によるグループ分けを実行するために使用され得る。例えば、本発明の実施の形態においては、全体的な画素間の差が、ある閾値未満である場合、これらの二つの画像は類似していると考えられる。他の例において、本発明の実施の形態において、画像間で異なる画素数が全画素のある比率未満である場合、二つの画像は類似していると考えられる。本発明の実施の形態において、画素間の平方根の差がある閾値を超過している場合、二つの画像間の画素が異なると考えられる。本発明の実施の形態において、性能上の理由で、頻出単語または頻繁に問い合わせされる単語のための単語画像とこれらの類似度は、予め演算することができる。

他の実施の形態において、誤って認識された単語に対してグループ分けが許可された場合、単語画像提案のリストは更に削減され得る。この場合、テキストのコンテクストを用いたグループ分けが最適に作用する。例えば、 “ｔｅｘｔ”の誤って認識された単語が“ｔｘｔ”であると仮定する。“ｔｘｔ”が、第１のスライドにおいて“ｔｈｅｔｘｔｉｓｇｏｏｄ”として現れ、第２のスライドでも、 “ｔｈｅｔｘｔｉｓｇｏｏｄ”で現れると仮定する。“ｔｘｔ”に対する単語画像は、二つのスライドのうちの両スライドに対してではなく、片方のスライドに対してのみ、示される。この仮定は、これらの二つの“ｔｘｔ”用語が、両スライドにおいて、同じコンテクスト（“ｔｈｅ”．．．”ｉｓｇｏｏｄ”）によって囲まれているので、同じ用語である確率が高いという仮定である。従って、ユーザが単語画像を補正することを選択する場合、単語画像のうちの一つだけがユーザに示されるので、ユーザは、二つの単語画像提案のうちの一つを補正するだけですむ。

単語画像提案の拡大縮小、削減、分類、およびランク付け手段
図９（Ａ）および図９（Ｂ）は、本発明の実施の形態による、図７の単語画像提案を拡大縮小した後に得られる単語画像提案の例を示す。ユーザへ単語画像を提示する前に、単語画像は、最初に同一サイズに拡大縮小され、これによって、単語画像のユーザがより迅速にスキミング（拾い読み）できるようにする。図９（Ａ）において、図７からのボックスが同じ幅と高さに拡大縮小される。ただし、図８からのボックスは、図９（Ａ）に使用することもできたが、図解することが目的であるので、この例においては、図７からのボックスを利用した。図９（Ｂ）では、図７からのボックスは、高さのみが同じ高さに拡大縮小されている。しかしながら、図９（Ｂ）においては、図解のみを目的としているため、図７からのボックスの主要部分のみが選択され、図示されている。

図１０は、本発明の実施の形態において、図９（Ａ）の弁別された提案ごとに代表的な単語画像提案を選択した後に得られる削減された数の単語画像提案の例を示す。図９（Ａ）の３９個の画像は、図１０に示すように、１７個の異なる画像提案に対応している。提案ごとに一つの単語画像を選択することによって、ユーザに示される画像の数を更に削減することができる。本発明の実施の形態において、ユーザインタフェースによって、ユーザは、各グループ内の画像の実際のリストを見て、必要があれば、該グループを拡大することができる。「ポップアップ」ウィンドウには都合がよいことに、画像のグループ分けは不完全であってもよい。例えば、図１０のポップアップウィンドウに見られるように、該ポップアップウィンドウは、“Ｈｉｌｂｅｒｔ’ｓ”と“：Ｈｕｂｅｒｔ．”の異なる提案を示しており、画像のグループ分けが不完全であった。グループの視覚化は、代表的なグループ上でユーザがマウスを動かしている時点で、ポップアップウィンドウを用いて行われてもよい。また、グループの視覚化は、グループ内の画像とマウスの位置をリンクすることによっても実施され得る。ユーザがグループをクリックする場合、各グループ内の画像は、ワードプロセッサを用いて文章に単語を付け加えるのと同様に、マウス位置においてフラットリストまたはレイアウト内へ拡大される。

本発明の実施の形態において、単語画像は異なる基準に応じて分類され、この分類に基づく特定の順番で、ユーザへ提示される。本発明の実施の形態において、ユーザは認識性能について最も影響のある提案により高い関心を持つことから、分類基準は特定の単語画像にマッピングされているスライドの数に基づいていてもよい。本発明の実施の形態において、分類基準は、実際のスライド／ドキュメントにおける画像の単語の大きさに基づいていてもよい。ユーザは、大きな単語画像に比べて、小さな単語画像は、スライドの文脈においてあまり重要ではないので、小さな単語画像に対する提案単語にあまり関心を示さない。

本発明の実施の形態において、システムは、提案をランク付けし、特定の提案を含むスライドやドキュメントの数を提示する。例えば、結果的に１００個以上の画像を検索する単語画像提案をユーザが選択した場合、それは、システムに対して、結果的に一個の更なる画像のみを検索する結果となる単語画像提案よりも大きなインパクトを与える。ユーザの作業は提案を選択することによってシステムの認識性能を迅速に改良することであるから、特定の提案によってもたされる認識性能の効果をユーザに示すことは有用である。ランク付けの番号は、ユーザが特定の提案を選択した後、問い合わせ結果が追加されたスライドまたはドキュメントの数を示すので、提案のランク付けによって、ユーザは、認識性能に直接的な効果を及ぼすような最も重要な提案を決定することができる。また、このような提案の分類は、ユーザが最も重要な提案を決定するときに役立つ。

ユーザインタフェース
プロジェクタ・ボックスのソフトウェアのユーザインタフェースによって、学生などのユーザは、彼らのホームコンピュータやラップトップのインターネットを介してプロジェクタ・ボックスとインターフェースすることができる。上述したように、ユーザインタフェースを介して、ユーザは、彼らのインストラクタのスライド用のシステムに問い合わせをし、単語画像提案を選択し、インストラクタのスライドの得られたグループを検索することができる。ユーザは、クリックして単語画像提案を選択し、もう一度クリックして非選択とすることができる。

図１１は、本発明の実施の形態による、ユーザに、問い合わせ結果リストから誤って認識された用語を除外させるプロジェクタ・ボックス・ユーザインタフェースのスクリーンショットの例を示す。ユーザは、プロジェクタ・ボックス・ユーザインタフェースを用いて、問い合わせ結果リストから正確に認識された用語を含むこともできる。ユーザがプロジェクタ・ボックス・ユーザインタフェース１１０を対話的に操作（インタラクト）する時、該ユーザが、問い合わせの結果からスライドを除外したいとする場合もある。例えば、ユーザは、プロジェクタ・ボックス・ユーザインタフェース１１０の問い合わせにテキストフィールド１２０内で検索用語“Ｈｕｂｅｒｔ”を用いて問い合わせを実行する。問い合わせが、画像１３０のように、“Ｈｉｌｂｅｒｔ”を含むいくつかのスライド画像をユーザへ返した場合、ユーザは、スライドが “Ｈｉｌｂｅｒｔ”に関するものであり、“Ｈｕｂｅｒｔ”ではないことをすぐに理解する。ユーザは、それらの結果から誤って認識された画像を除外することを選択できる。ユーザは、画像サムネイル“Ｈｉｌｂｅｒｔ”１４０のハイライト部分を直接クリックすることによって、結果リストから、この用語を削除することができる。

図１２は、本発明の実施の形態によって、「ラバーバンド」ツールが、単語画像提案のサブセットをどのようにして選択するかを例示的に示す。ユーザは、結果セットの単語画像提案をクリックすることによって、あるいは、図１２のドットボックスによって最初の５個の単語画像提案を選択することによって示されるように、一つ以上の画像を選択するためにラバーバンドをドラッグしたりすることによって、単語画像提案の結果セットのための画像を選択することができる。ユーザによって選択された問い合わせの結果は、結果セットに追加される。或いは、“ａｃｃｅｐｔ” （受容）および“ｒｅｊｅｃｔ”（拒絶）ボタンまたはチェックボックスが提案画像に関連付けられ、提案結果画像の追加および除外の両方を可能とする。

本発明の実施の形態において、システムは、ユーザの選択された提案を追跡することができる。問い合わせ用語、関連付けられたユーザ除外単語画像提案、および関連付けられたユーザ含有単語画像提案に関する情報がシステムに保存され得る。本発明の実施の形態において、システムはこれらの選択された提案に基づいてテキストを自動的に補正することができる。“Ｈｉｌｂｅｒｔ”を問い合わせ用語の例とすれば、システムが“Ｈｕｂｅｒｔ”として誤って認識する“Ｈｉｌｂｅｒｔ”のすべての例に対して、ユーザがテキスト“Ｈｕｂｅｒｔ”に対応する“Ｈｉｌｂｅｒｔ”の提案を選択した場合、該システムは、誤って認識されたテキスト“Ｈｕｂｅｒｔ”を“Ｈｉｌｂｅｒｔ”に置き換えることができる。ユーザによって選択された提案は、提案のリストを再ランク付けするために使用され得る。時間が経つにつれて、コーパスの品質が向上し、ユーザが提案選択に費やす時間が短縮される。

複数の用語による問い合わせ手段
図１３は、本発明の実施の形態による、複数の問い合わせ用語に対して、これらの問い合わせ用語が発見されたスライドを示す表の例を示す。ユーザの問い合わせが複数の用語を含む時、各用語に対して提案技術が適用される。プロジェクタ・ボックスにおける省略時（デフォルトな）行動が問い合わせ用語のＡＮＤ演算を実行することであるから、すべての他の用語の提案と同時発生しない提案は削除される。この際、提案は、問い合わせ用語の本来のスペルを含む。

例えば、問い合わせが“Ｉｎｆｏｒｍａｔｉｏｎｒｅｔｒｉｅｖａｌ（情報検索）”である場合、プロジェクタ・ボックスは、“Ｉｎｆｏｒｍａｔｉｏｎ”の変形と“ｒｅｔｒｉｅｖａｌ”の変形に対して提案を返す。図１３は、スライドＮｏ．７において、本来の問い合わせ用語“Ｉｎｆｏｒｍａｔｉｏｎ”が現れたり、発生したりすることを示す。提案単語“ｎｆｏｒｍａｔｉｏｎ”は、スライドＮｏ．１、２および５に現れる。提案“ｆｏｒｉｉａｔｉｏｎ”が、スライドＮｏ．４および６に現れる。同様に、本来の問い合わせ用語“ｒｅｔｒｉｅｖａｌ”がスライドＮｏ．１に現れる。提案“ｒｅｔｒｌｖａｌ”がスライドＮｏ．２、４および８に現われ、提案“ｒｅｔｒｉｖａｌ”がスライドＮｏ．３および７へ現れる。

図１４は、本発明の実施の形態による、問い合わせ結果からスライドが除去された図１３の複数の問い合わせ用語を示す表の例を示す。用語ごとに提案（単語）が整合するスライドから候補のみが保持される。この例において、スライドＮｏ．３、５、６および８は、本来の問い合わせ用語のうちの一つのみに対する提案に整合する。コラム２に示されるように、スライドＮｏ．３および８は、“Ｉｎｆｏｒｍａｔｉｏｎ”に対する提案に整合しない。コラム３に示されるように、スライドＮｏ．５および６は、“ｒｅｔｒｉｅｖａｌ”に対する提案に整合しない。従って、スライドＮｏ．３、５、６および８は、問い合わせ結果から削除される。第４のコラムに示されているように、スライドＮｏ．１、２、４および７は、“Ｉｎｆｏｒｍａｔｉｏｎｒｅｔｒｉｅｖａｌ”に対するユーザの問い合わせの結果としてユーザへ提示される。

システムのハードウェア、ソフトウェア、およびコンポーネント
上記の解決が、プロジェクタ・ボックス・システムによって捕捉されるＯＣＲデータに対する検索を改良するために設計されているが、この解決は、他の走査されたドキュメントのタイプに適用されてもよい。また、この解決は、プロジェクタ・ボックス・システム以外の他のシステムによって捕捉されるデータに適用され得る。

図１５は、本発明の実施の形態による、プロジェクタ・ボックス・システムの例を示す。一般に、システム２００は、一つ以上のメモリ２１０、一つ以上のプロセッサ２２０、および数種類の一つ以上の記憶装置またはリポジトリ２３０を含む。該システム２００は、例えば、インストラクタのラップトップから、またはプロジェクタ２５０から、マルチメディアを自動的に捕捉するソフトウェア２４０を更に含む。システム２００は、記憶装置２３０内に、マルチメディアスライド画像２６０、テキスト２７０、およびオーディオ２８０を含む。ソフトウェア２４０は、プレゼンテーションマルチメディアを索引付けし、管理する。また、ソフトウェア２４０は、学生ユーザが、システムに彼らのインストラクタのスライドを問い合わせるために、彼らのホームコンピュータまたはラップトップ２９０から、インターネットを介して、インタラクトし、単語画像提案を選択し、彼らのインストラクタースライドの得られたグループを検索することができる、ウェブベースのユーザインタフェースを含む。

本発明の実施の形態は、本開示の教示に従ってプログラムされた従来の汎用のまたは専用ディジタルコンピュータまたはマイクロプロセッサを用いて、実施され得るコンピュータベースの方法およびシステムを含むことができる。適切なソフトウェアの符号化（コーディング）は、本開示の教示に基づいて、プログラマによって、すぐに準備することができる。本発明の実施の形態は、本明細書中に提示されている特徴のいずれかを実行するためにコンピュータによって実施可能な命令のプログラムを含むことができる。

本発明の実施の形態は、コンピュータ読み出し可能記憶媒体などのコンピュータ読み出し可能媒体を含んでいてもよい。コンピュータ読み出し可能記憶媒体は、本明細書中に提示されている特徴のいずれかを実行するためにコンピュータをプログラムするために使用され得る記憶された命令を有することができる。記憶媒体は、限定はされないが、フロッピー（登録商標）ディスク、光ディスク、ＤＶＤ、ＣＤ−ＲＯＭ、マイクロドライブ、および光磁気ディスク、ＲＯＭ、ＲＡＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、ＤＲＡＭ、フラッシュメモリを含む任意のタイプのディスク、または命令やデータを記憶するために好適な任意の媒体またはデバイスを含むことができる。本発明は、汎用／専用コンピュータまたはマイクロプロセッサなどのコンピュータのハードウェアをコントロールするだけでなく、本発明の結果を利用してコンピュータのハードウェアを人間ユーザまたは他のメカニズムとインタラクトすることを可能とするソフトウェアを含むことができる。このようなソフトウェアは、限定はされないが、デバイスドライバ、オペレーティングシステム、実施環境／コンテナ、ユーザインタフェース、およびユーザアプリケーションを含んでいてもよい。

本発明の実施の形態には、本発明のプロセスを実施するためのコードを提供することが含まれる。この提供には、任意の方法においてユーザへコードを提供することが含まれる。例えば、この提供には、ユーザへのコードを含むディジタル信号を送信すること、物理的な媒体上のコードをユーザへ提供すること、およびコードを入手可能とさせる任意の他の方法が含まれる。

本発明の実施の形態には、本発明の実施の形態の任意のプロセスを実行するために、コンピュータにおいて実施することができるコードを送信するためのコンピュータ実施方法が含まれ得る。該送信には、インターネットなどのネットワークの任意の部分を介して、大気または空間など、ワイヤ回線を介して、または任意の他のタイプの送信を介しての転送が含まれ得る。該送信には、コードの送信の開始、コードを他の領域や国から任意の領域や国へ手渡すことが含まれ得る。ユーザへの送信には、任意の領域や国において、送信が送られる場所とは無関係に、該ユーザによって受信される任意の送信が含まれ得る。

本発明の実施の形態には、本発明の実施の形態の任意のプロセスを実行するためにコンピュータにおいて実行可能なコードを含む信号が含まれ得る。該信号は、インターネットなどのネットワークを介して、大気または空間など、ワイヤ回線を介して、または任意の他のタイプの送信を介して、送られる。信号全体が同時にトランジットされる必要はない。信号は、その転送の期間にわたって、時間を超過させ得る。信号は、現在トランジットされているもののスナップショットとして考えるべきではない。

本発明の好ましい実施の形態についての以上の説明は、図解および説明を目的として提供されているのであって、本発明の実施の形態によって開示されている具体的な形態以外の形態を排除したり、本発明を限定したりすることを意図するものではない。多くの変更および変形が関連技術における当業者にとって明白であろう。例えば、開示されている本発明の実施の形態において実行された工程は、順序を変えてもよいし、いくつかの工程は省略されてもよいし、更なる工程を追加することも可能である。本発明の他の実施の形態が開発され、本発明および請求の範囲の精神および範囲を逸脱しないことも理解されよう。本発明の実施の形態は、本発明の基本原理とその実践的応用を最適に説明するために選択され、記載されており、これによって、関連技術における他の当業者が種々の実施の形態について、および考案される特定の用途に適した種々の変更によって、本発明を理解することを可能とする。本発明の範囲は、以下の請求の範囲およびこれらと同等ものによって定義付けられることを意図するものである。

本発明の実施の形態による、スライドの例示的なコーパスに対してネーム “Ｈｉｌｂｅｒｔ”と“Ｈｕｂｅｒｔ”を整合させるスライド数のヒストグラムの例を示す図である。本発明の実施の形態による、８年間にわたってプロジェクタ・ボックスで使用された図１のスライドのコーパスの例に対して、一年あたりのスライドにおける平均単語数を示す例示的なグラフである。本発明の実施の形態による、問い合わせ用語“Ｈｉｌｂｅｒｔ”に対して、図１のコーパスの例から、プロジェクタ・ボックスのＯＣＲソフトウェアによって認識されたテキスト提案の例を示す図である。本発明の実施の形態による、図３のテキスト提案のいくつかの単語画像バージョンの例を示す図である。本発明の実施の形態による、図３のテキスト提案の単語画像のバージョンのより大きなセットを示す図である。本発明の実施の形態による、図５の単語画像提案を場所によってグループ分けした後で得られた単語画像提案の例を示す図である。本発明の実施の形態による、テキストのコンテクストによって図６の単語画像提案をグループ分けした後で得られた単語画像提案の例を示す図である。本発明の実施の形態による、図７の単語画像提案を画像の類似度によってグループ分けした後に得られた単語画像提案の例を示す図である。本発明の実施の形態による、図７の単語画像提案を拡大縮小した後に得られた単語画像提案の例を示す図である。本発明の実施の形態による、図９（Ａ）の弁別された提案ごとに代表的な単語画像提案を選択した後で得られた削減した数の単語画像提案を示す図である。本発明の実施の形態による、問い合わせ結果リストから誤って認識された用語を除外させるプロジェクタ・ボックス・ユーザインタフェースのスクリーンショットの例を示す図である。本発明の実施の形態による、「ラバーバンド」ツールの例が、単語画像提案の例のサブセットをどのようにして選択するかを示す図である。本発明の実施の形態による、複数の問い合わせ用語に対して、該複数の問い合わせ用語が発見されたスライドを示す表である。本発明の実施の形態による、前記複数の問い合わせ用語に対して、問い合わせ結果からどのスライドが除外されたかを示す表の例を示す図である。本発明の実施の形態による、プロジェクタ・ボックス・システムの例を示す図である。

符号の説明

２００：システム
２１０：メモリ
２２０：プロセッサ
２３０：リポジトリ
２４０：マルチメディアスライド画像
２５０：プロジェクタ
２５０: インストラクタのラップトップ
２９０：ユーザのコンピュータ

Claims

画像として取り込まれた単語をユーザへ適切にフィードバックすることによって、テキストを描画する画像の検索性能を高めるためのインタラクティブシステムであって、
システムに取り込まれた一つ以上の画像について一つ以上の問い合わせ用語によってユーザが該システムに問い合わせをするためのユーザインタフェースと、
前記単語画像から該システムが認識する場合、前記一つ以上の問い合わせ用語と同じかあるいは僅かに異なるテキストのいずれかを含む一つ以上の単語画像提案を、前記ユーザインタフェースを介してユーザへ表示する表示手段と、
前記一つ以上の問い合わせ用語について画像のシステム認識性能を高めるために、前記一つ以上の問い合わせ用語と視覚的に整合する一つ以上のユーザにより選択された単語画像提案をシステムに取り込む取込手段と、
を含むインタラクティブシステム。
各単語画像提案が単語画像を含み、該単語画像が一単語として取り込まれた一つ以上の画像の一部を含む、請求項１に記載のインタラクティブシステム。
前記一つ以上の問い合わせ用語に対する画像検索結果の精度を高めるために、ユーザによって選択された一つ以上の単語画像提案をシステムから除外することを更に含む、請求項１に記載のインタラクティブシステム。
前記システムのユーザ問い合わせに先立って前記一つ以上の画像から変換されたテキストのｎ−グラムの索引付けを更に含み、ｎ−グラムが長さｎの文字の連結を含む（ｎは任意の正の整数である）、請求項１に記載のインタラクティブシステム。
前記一つ以上の画像内の単語画像の境界ボックスが所定の閾値以上でオーバーラップする場合、前記一つ以上の単語画像提案の場所と大きさによってグルーピングすることを更に含み、グループの代表的な単語画像提案がユーザへ提示される、請求項１に記載のインタラクティブシステム。
前記各単語画像が同一テキストと関連しており、該単語画像のテキストがそれぞれの画像内で同一の文脈で使用される場合、前記一つ以上の単語画像提案を原文の文脈でグルーピングすることを更に含み、該グループの代表的な単語画像提案がユーザへ提示される、請求項１に記載のインタラクティブシステム。
前記単語画像が類似する画像である場合、前記一つ以上の単語画像提案の類似度によってグルーピングすることを更に含み、二つの画像の画素間の全体的な差がある閾値未満である場合、該二つの画像は類似しており、該グループの代表的な単語画像提案がユーザへ提示されることを更に含む、請求項１に記載のインタラクティブシステム。
ユーザへ提示するために、前記単語画像提案が単一均一サイズへ拡大縮小されたバージョンの単語画像提案を含む、請求項１に記載のインタラクティブシステム。
ユーザへ提示するために、各個別の単語画像提案に対して代表的な単語画像提案を選択することによって、一つ以上の単語画像提案の数を削減することを更に含む、請求項１に記載のインタラクティブシステム。
認識される単語画像のうち前記一つ以上の画像の数をユーザへ提示することによって、各単語画像提案をランク付けすることを更に含む、請求項１に記載のインタラクティブシステム。
前記問い合わせが二つ以上の用語を含む場合、該問い合わせにおける全用語に対する単語画像提案に関連するテキストを含まない画像に対する単語画像提案が除去される、請求項１に記載のインタラクティブシステム。
該システムに、問い合わせ用語、関連するユーザ除外単語画像提案、および関連ユーザ含有単語画像提案に関する情報が保存される、請求項１に記載のインタラクティブシステム。
画像として取り込まれた単語をユーザへ適切にフィードバックすることによって、テキストを描画する画像の検索性能を高めるためのプログラムであって、
コンピュータに、
ユーザインタフェースを介して、ユーザの指示に応じて、一つ以上の問い合わせ用語によって、該システム内に取り込まれた一つ以上の画像について該システムに問い合わせをするステップと、
前記単語画像から該システムが認識する時、前記一つ以上の問い合わせ用語と同じかあるいは僅かに異なるテキストのいずれかを含む一つ以上の単語画像提案を、前記ユーザインタフェースを介してユーザへ提示するステップと、
前記一つ以上の問い合わせ用語に対する画像のシステム認識性能を高めるために、ユーザが前記一つ以上の問い合わせ用語と視覚的に整合する一つ以上の単語画像提案を、前記システム内に取り込むようにユーザの指示に応じて選択するステップと、
を実行させるプログラム。
各単語画像提案が単語画像を含み、該単語画像が一単語として取り込まれた一つ以上の画像の一部を含む、請求項１３に記載のプログラム。
前記一つ以上の問い合わせ用語に対する画像検索結果の精度を高めるために、ユーザによって選択された一つ以上の単語画像提案をシステムから除外することを更に含む、請求項１３に記載のプログラム。
前記システムのユーザ問い合わせに先立って前記一つ以上の画像から変換されたテキストのｎ−グラムの索引付けを更に含み、ｎ−グラムが長さｎの文字の連結を含む（ｎは任意の正の整数である）、請求項１３に記載のプログラム。
前記一つ以上の画像中の前記単語画像の境界ボックスが所与の閾値より大きい値とオーバーラップする場合、前記一つ以上の単語画像提案を位置および大きさによってグルーピングすることをさらに含む、請求項１３に記載のプログラム。
前記各単語画像が同一テキストと関連しており、該単語画像のテキストがそれぞれの画像内で同一の文脈で使用される場合、前記一つ以上の単語画像提案を原文の文脈でグルーピングすることを更に含み、該グループの代表的な単語画像提案がユーザへ提示される、請求項１３に記載のプログラム。
前記単語画像が同様の画像である場合、前記一つ以上の単語画像提案の類似度によってグルーピングすることを更に含み、二つの画像の画素間の全体的な差がある閾値未満である場合、該二つの画像は類似しており、該グループの代表的な単語画像提案がユーザへ提示されることを更に含む、請求項１３に記載のプログラム。
前記ユーザインタフェースによって一つ以上の単語画像提案を提示することが、前記単語画像提案を単一均一サイズへ拡大縮小することを含む、請求項１３に記載のプログラム。
各個別の単語画像提案に対して代表的な単語画像提案を選択することによって一つ以上の単語画像提案の数を削減することを更に含み、前記代表的な単語画像提案がユーザへ提示される、請求項１３に記載のプログラム。
認識される単語画像のうち前記一つ以上の画像の数を前記ユーザへ提示するとによって、各単語画像提案をランク付けすることを更に含む、請求項１３に記載のプログラム。
前記問い合わせが二つ以上の用語を含む場合、該問い合わせにおける全用語に対する単語画像提案に関連するテキストを含まない画像に対する単語画像提案が除去される、請求項１３に記載のプログラム。
該システムに、問い合わせ用語、関連するユーザ除外単語画像提案、および関連ユーザ含有単語画像提案に関する情報が保存される、請求項１３に記載のプログラム。