JP6303669B2

JP6303669B2 - 資料検索装置、資料検索システム、資料検索方法、及び、プログラム

Info

Publication number: JP6303669B2
Application number: JP2014056283A
Authority: JP
Inventors: 伊藤　直之; 直之伊藤; 茂春富樫
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2014-03-19
Filing date: 2014-03-19
Publication date: 2018-04-04
Anticipated expiration: 2034-03-19
Also published as: JP2015179385A

Description

本発明は、資料を検索する技術に関し、特に、利用者が提示する資料との関連度が高い書籍・資料を検索する資料検索技術に関する。

従来、利用者が知識を得るために、キーワードを入力し、関連書籍を検索したり、あるいは、表示されている文章中のキーワードを選択することで、そのキーワードを含む書籍を検索したりする技術がある。

例えば、特許文献１には、端末から利用者が入力した検索キーワードが含まれる書籍を効率良く、また、重要度の高い順に提示するシステムが提案されている。

特開２０１３−２０６３８８号公報

しかしながら、特許文献１は、利用者がキーワードを入力する必要があり、利用者にとって煩雑であるという問題がある。また、入力されたキーワードの組み合せによっては、書籍数が絞り込めない、あるいは、適切な書籍が提示されないという問題がある。

本発明は、前述した問題点に鑑みてなされたもので、その目的とするところは、利用者が持参する書込み入りのドキュメントの内容に関連した利用者の興味・関心に合った書籍・資料を提示することが可能な資料検索装置等を提供することにある。

前述した目的を達成するために、第１の発明は、特徴語データとの関連度に基づいて資料を検索する資料検索装置において、書込みを含むドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出手段と、前記書込みの種類と位置を抽出する書込み抽出手段と、検索対象資料の第１の特徴語とその重要度を含む検索用インデックスを記憶する記憶手段と、前記テキストデータから第２の特徴語を抽出する特徴語抽出手段と、前記書込みの位置の前記第２の特徴語に対して、当該書込みの種類に応じた重要度を算出するとともに、前記書込みの種類に応じて該当する前記第２の特徴語を削除して、前記テキストデータの第２の特徴語とその重要度を含む前記特徴語データを作成する特徴データ作成手段と、前記検索用インデックスと前記特徴語データとの関連度を計算する関連度計算手段と、を具備することを特徴とする資料検索装置である。

第１の発明により、図書館等が所蔵する書籍や資料から成る検索対象資料について、予め、それぞれの検索対象資料に含まれる第１の特徴語の重要度からなる検索用インデックスを記憶手段により記憶しておき、読み取らせた利用者の書込みを含むドキュメントに含まれる第２の特徴語との関連度を求め、関連度の大きい検索対象資料を提示することが可能になる。

その際、書込み抽出手段により、ドキュメントに書き込まれた書込みの位置と種類を抽出し、特徴データ作成手段により、書込みの位置の第２の特徴語の重要度に、書込みの種類に応じた重み付けを行うことにより、利用者の興味・関心に合致する検索対象資料を提示することが可能となる。
また、前記特徴データ作成手段は、前記書込みの種類に応じて該当する前記第２の特徴語を削除することにより、書込みの種類により第２の特徴語から外すことが可能になり、より利用者の興味・関心に合致する資料を提示することが可能になる。
書込みの種類は、例えば、下線。マーカー、囲み、×印、手書き文字等であり、複数の書込みの種類を設けることにより、利用者が興味・関心の有無を容易に表現することが可能になる。

前記書込み抽出手段は、前記書込みに対して、文字認識処理を施し、認識結果を前記テキストデータに加える。
これにより、利用者の手書きによるメモをテキストデータに加えて、メモ部分の第２の特徴語を検索に用いることが可能になる。

前記特徴データ作成手段は、前記書込みの種類に応じて該当する第２の特徴語の重要度を変化することが望ましい。
これにより、書込みの種類により重要度を大きくまたは小さくして利用者の興味・関心に応じた特徴語データを作成し、より的確な資料を提示することが可能になる。

前記検索対象資料の検索用インデックスを作成するインデックス作成手段を更に具備することが望ましい。
これにより、新たな検索対象資料について検索用インデックスを更新していくことが可能になる。

前記ドキュメント画像を読み取る画像読み取り手段を更に備えることが望ましい。
利用者が、持参したドキュメントを例えばスキャナで読み込ませることにより、検索キーワード等を利用者が入力することなく、ドキュメントの内容に適した資料を提示することが可能になり、利用者の負担を減じることが可能になる。
また、例えば、携帯端末等のカメラ機能を使用して利用者が撮影したドキュメント画像を、インターネット等のネットワークを介して画像読み取り手段により資料検索装置に取り込むことにより、ドキュメントの内容に適した資料を提示することが可能になる。

以上のように、第１の発明により、利用者が検索キーワードを装置に入力することなく、利用者のドキュメントを資料検索装置に画像として取り込むだけで、当該ドキュメントの内容に適した資料を検索することが可能になり、利用者の負担を軽減することが可能になる。
また、利用者の書込みに応じてドキュメントの特徴語の重要度を変化することにより、利用者の興味・関心により適合する資料を検索することが可能になる。

第２の発明は、特徴語データとの関連度に基づいて資料を検索する資料検索システムにおいて、書込みを含むドキュメント画像を読み取り、読み取った画像を送信する画像読み取り装置と、前記ドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出手段と、前記書込みの種類と位置を抽出する書込み抽出手段と、を備え、抽出したデータを送信する抽出装置と、検索対象資料の第１の特徴語とその重要度を含む検索用インデックスを記憶する記憶手段と、前記テキストデータから第２の特徴語を抽出する特徴語抽出手段と、前記書込みの位置の前記第２の特徴語に対して、当該書込みの種類に応じた重要度を算出するとともに、前記書込みの種類に応じて該当する前記第２の特徴語を削除して、前記テキストデータの第２の特徴語とその重要度を含む前記特徴語データを作成する特徴データ作成手段と、前記検索用インデックスと前記特徴語データとの関連度を計算する関連度計算手段と、を備えるサーバと、を具備することを特徴とする資料検索システムである。

第２の発明により、利用者が検索キーワードをシステムに入力することなく、利用者のドキュメント画像を読み取らせるだけで、当該ドキュメントの内容に適した資料を提示することが可能になり、利用者の負担を軽減することが可能になる。
また、利用者の書込みに応じてドキュメントの特徴語の重要度を変化することにより、利用者の興味・関心により適合する資料を検索することが可能になる。

第３の発明は、特徴語データとの関連度に基づいて資料を検索する資料検索装置で行う資料検索方法であって、書込みを含むドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出ステップと、前記書込みの種類と位置を抽出する書込み抽出ステップと、検索対象資料の第１の特徴語とその重要度を含む検索用インデックスを記憶する記憶ステップと、前記テキストデータから第２の特徴語を抽出する特徴語抽出ステップと、前記書込みの位置の前記第２の特徴語に対して、当該書込みの種類に応じた重要度を算出するとともに、前記書込みの種類に応じて該当する前記第２の特徴語を削除して、前記テキストデータの第２の特徴語とその重要度を含む前記特徴語データを作成する特徴データ作成ステップと、前記検索用インデックスと前記特徴語データとの関連度を計算する関連度計算ステップと、を含むことを特徴とする資料検索方法である。

第４の発明は、コンピュータを、特徴語データとの関連度に基づいて資料を検索する資料検索装置として機能させるためのプログラムであって、前記コンピュータを、書込みを含むドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出手段と、前記書込みの種類と位置を抽出する書込み抽出手段と、検索対象資料の第１の特徴語とその重要度を含む検索用インデックスを記憶する記憶手段と、前記テキストデータから第２の特徴語を抽出する特徴語抽出手段と、前記書込みの位置の前記第２の特徴語に対して、当該書込みの種類に応じた重要度を算出するとともに、前記書込みの種類に応じて該当する前記第２の特徴語を削除して、前記テキストデータの第２の特徴語とその重要度を含む前記特徴語データを作成する特徴データ作成手段と、前記検索用インデックスと前記特徴語データとの関連度を計算する関連度計算手段、として機能させるためのプログラムである。

第４の発明に係るプログラムを汎用コンピュータにインストールすることによって、第１の発明に係る資料検索装置を得て、第３の発明に係る資料検索方法を実行することができる。

本発明の資料検索装置等によって、利用者が持参する書込み入りのドキュメントの内容に関連する書籍・資料を提示することが可能になる。

本実施形態に係る資料検索装置１のハードウエア構成を示すブロック図本実施形態に係る資料検索装置１の機能構成を示すブロック図検索対象資料の特徴語データベース１５の構成例を示す図入力ドキュメント３３の例を示す図本実施形態に係る資料検索装置１の処理の流れを示すフローチャート書込みマーク・データ４１の例を示す図入力ドキュメント３３から抽出された特徴語の例を示す図書込みマークの重み付け倍率４５の例を示す図入力ドキュメント３３の特徴データの例を示す図特徴語データと検索対象資料の検索インデックスの関連度を説明する図検索結果出力画面５５の例を示す図資料検索システム１０のシステム構成例を示す図

以下、本発明の実施形態を、図面を参照しながら詳細に説明する。

図１は、資料検索装置１のハードウエア構成例を示すブロック図である。資料検索装置１は、図１に示すように、コンピュータシステムで構成することが可能である。図１の構成は、あくまで一例であり、用途、目的に応じて様々な構成を採ることが可能である。

資料検索装置１は、例えば、制御部２１、記憶部２２、メディア入出力部２３、通信制御部２４、入力部２５、表示部２６、周辺機器Ｉ／Ｆ（インタフェース）部２７等がバス２８を介して接続されて構成される。

制御部２１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等で構成される。

ＣＰＵは、ＲＯＭ、記憶部２２等に格納されるプログラムをＲＡＭ上のワークメモリ領域に呼び出して実行し、バス２８を介して接続された各装置を駆動制御し、コンピュータが行う処理を実現する。
ＲＯＭは、不揮発性メモリであり、コンピュータのブートプログラムやＢＩＯＳ等のプログラム、データ等を恒久的に保持している。
ＲＡＭは、揮発性メモリであり、記憶部２２、ＲＯＭ、記憶媒体等からロードしたプログラム、データ等を一時的に保持するとともに、制御部２１が各種処理を行うために使用するワークエリアを備える。

記憶部２２は、制御部２１が実行するプログラム、プログラム実行に必要なデータ、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）等が格納される。記憶部２２には、後述する検索対象資料の特徴語データベース１５及び辞書データベース１８や、本実施形態の資料検索装置１のプログラム及びデータが格納される。

メディア入出力部２３（ドライブ装置）は、データの入出力を行い、例えば、ＣＤドライブ（−ＲＯＭ、−Ｒ、−ＲＷ等）、ＤＶＤドライブ（−ＲＯＭ、−Ｒ、−ＲＷ等）等のメディア入出力装置を有する。
通信制御部２４は、通信制御装置、通信ポート等を有し、ネットワークを介して、他の装置との通信制御を行う。ネットワークは、有線、無線を問わない。

入力部２５は、データの入力を行い、例えば、キーボード、マウス、タッチパネル等のポインティングデバイス、テンキー等の入力装置を有する。
表示部２６は、ＣＲＴモニタ、液晶パネル等のディスプレイ装置であり、表示部２６には、本実施形態の資料検索装置１において検索結果等が表示される。

周辺機器Ｉ／Ｆ（インタフェース）部２７は、周辺機器を接続させるためのポートであり、ＵＳＢ、ＩＥＥＥ１３９４、ＲＳ−２３２Ｃ等で構成され、接続形態は有線、無線を問わない。
周辺機器Ｉ／Ｆ部２７を介して、例えば、スキャナが接続され、利用者が持参したドキュメントの画像入力データを取り込むことが可能である。
バス２８は、各装置間の制御信号、データ信号等の授受を媒介する経路である。

資料検索装置１は、その他、画像データの入力用に、図示しないカメラを備えていてもよく、また、周辺機器Ｉ／Ｆ（インタフェース）部２７に、図示しないスキャナが接続されていてもよい。

図２は、本発明の実施形態に係る資料検索装置１の機能構成例を示すブロック図である。
資料検索装置１は、ドキュメント入力部１１、文字認識・書込み抽出部１２、特徴語抽出部１３、特徴語重み付け部１４、検索対象資料の特徴語データベース１５、関連度計算部１６、検索結果表示部１７、辞書データベース１８等で構成される。

検索対象資料の特徴語データベース１５は、例えば、大学等の図書館が所蔵する書籍や資料を本実施の形態の資料検索装置１で検索するための検索インデックスを記憶するデータベースである。
詳しくは後述するが、検索インデックスは、各書籍、資料の特徴となる単語（特徴語）の重要度に関するデータであり、予め、各書籍や資料の書誌データや全文から辞書データベース１８を使用して特徴語を抽出し、その重要度を求めることにより作成する。

辞書データベース１８は、例えば、何冊かの辞書に収録されている見出しを記憶したデータベースであり、特徴語の抽出に使用する。辞書データベース１８に記憶する見出しの品詞は名詞のみでよいが、その他の品詞（動詞、形容詞等）も記憶させて使用してもよい。

ドキュメント入力部１１は、例えば、スキャナ又はカメラで構成することができる。
ドキュメント入力部１１は、利用者が持ち込むドキュメントを画像データとして取り込む。

ドキュメントは、例えば、大学等の授業のシラバスやレジュメ、関連資料、講義ノート、書籍のなかの１ページ、新聞や雑誌の記事等であり、印刷文字の印刷物であるが、利用者による手書きの書込みがあってもよい。
書込みは、例えば、下線やマーカーによるマーキング、囲み、手書き文字、不要な部分を除外するための×印等である。

文字認識・書込み抽出部１２は、ドキュメント入力部１１により資料検索装置１に取り込まれたドキュメントの画像データに文字認識処理を実行し、テキストデータに変換するとともに、利用者が手書きで書き込んだ書込みの種類と位置を抽出する。
また、書込みが手書き文字の場合には、手書き文字に対して文字認識処理を実行し、手書き文字もテキストデータに変換する。

特徴語抽出部１３は、文字認識・書込み抽出部１２によって変換されたテキストデータから辞書データベース１８を参照して特徴語を抽出する。
特徴語は、例えば、名詞の単語、及び、辞書データベース１８にはない未知語等である。

特徴語抽出部１３は、まず、テキストデータを形態素解析し、そのなかの名詞の部分について辞書データベース１８を検索して一致する単語（例えば、「歴史」、「女性」、「フェミニズム」、「日本」等）を特徴語として抽出する。また、形態素解析において名詞と判別され、辞書データベース１８に一致する単語がない場合（例えば、「アベノミクス」等）には、未知語として特徴語に加える。

次に、特徴語重み付け部１４は、特徴語抽出部１３によって抽出された特徴語について重要度を求めるとともに、利用者による書込みの内容に応じて重要度に重み付けを行う。
重要度は、例えば、特徴語の出現頻度や、ＴＦ・ＩＤＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ・ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）値など、各種の重要度算出方法を利用できる。

重要度に出現頻度を用いる場合、例えば、下線やマーキング、囲み、手書き文字の書込みの場合、利用者が重要な部分、あるいは、興味・関心のある部分として書き込んでいると判断して、その部分に含まれる特徴語について、例えば２倍というように、正係数の重みをかけて出現頻度を計数する。
一方、ドキュメント中で×印の書込みがある部分については、その部分に含まれる特徴語は計数しないようにしてもよい。

特徴語重み付け部１４による書込み部分についての特徴語の重要度の重み付けにより、利用者の興味・関心に合った適切な資料検索が可能になる。

関連度計算部１６は、特徴語重み付け部１４により求められた利用者のドキュメントについての特徴データ（特徴語とその重要度のデータ）と、検索対象資料の特徴語データベース１５に格納されている各検索対象資料の関連度を計算する。

検索結果表示部１７は、関連度計算部１６で計算された関連度を元に、関連度の大きい検索対象資料の名称等を表示する。

次に、図３に沿って検索対象資料の特徴語データベース１５について説明する。
図３は、検索対象資料の特徴語データベース１５の構成例を示す図である。

検索対象資料の特徴語データベース１５は、検索対象となる各書籍や資料についての検索用インデックス３１から成る。Ｐ冊の検索対象資料についてＰ個の検索用インデックス３１−１〜３１−Ｐが特徴語データベース１５に格納される。
検索用インデックス３１は、図書館等の蔵書・資料が増えると、その都度、作成・追加され、特徴語データベース１５が更新される。

検索用インデックス３１は、例えば、検索対象資料ＩＤ、及び、特徴語の見出しとその重要度で構成される。
図３に示すように、例えば、検索対象資料ＩＤ「１」の検索用インデックス３１−１は、特徴語として「女性」、「職業」、「カルチャー」、「日本」等の特徴語と、その重要度から成る。

検索用インデックス３１における特徴語の重要度は、検索対象資料の書誌データや資料の全文に含まれる特徴語の出現頻度を基本とするが、例えば、ＴＦ・ＩＤＦ法等による重み付けを行ったものであることが望ましい。

ＴＦ・ＩＤＦ法は公知の技術であり、詳細な説明は省略するが、ＴＦ・ＩＤＦ法は、特定の文書に含まれる全単語の出現頻度における特定の単語の出現頻度の割合に関する値（ＴＦ）と、全文書数のなかの当該特定の単語を含む文書数の割合に関する値（ＩＤＦ）とに基づいた出現頻度を求める方法である。ＴＦ・ＩＤＦ法によれば、例えば、「これ」、「その」のようにどの文書にでも多く出現する単語の出現頻度は抑えられ、特定の文書にのみ多く出現する単語の出現頻度は大きくなる。

図４は、利用者が資料検索装置１に入力する入力ドキュメント３３の例を示す図である。
入力ドキュメント３３には、印刷文字３５による記事が印刷されているとともに、利用者が手書きで書き込んだ書込みマーク３７、手書き文字３９が描画されている。

図４の入力ドキュメント例３３は、記事Ａ〜Ｄが印刷されており、利用者が書込みマーク３７ａ〜３７ｄ、手書き文字３９を書き込んだものである。
書込みマーク３７は、例えば、マーカーによるマーキング３７ａ（書込みマークａ）、下線３７ｂ（書込みマークｂ）、囲み３７ｃ（書込みマークｃ）、×印３７ｄ（書込みマークｄ）等である。

マーキング３７ａ、下線３７ｂ、囲み３７ｃは、利用者が重要と考えた部分に書き込むものであり、その部分に含まれる特徴語の重要度は大きくなるよう重み付けすればよい。
また、×印３７ｄは、利用者が必要ないと考えた部分に書き込むものであり、その部分に含まれる特徴語は除外するようにすればよい。

また、手書き文字３９は、利用者が重要と考えた文または文章と考えられ、そのなかに含まれる特徴語は重要であり、重要度が大きくなるよう重み付けする。

次に、本実施の形態に係る資料検索装置１の処理の流れを説明する。
図５は、資料検索装置１の処理の流れを示すフローチャートである。

まず、資料検索装置１の制御部２１は、入力ドキュメント３３の画像を取り込む（ステップ１０１）。
例えば、周辺機器Ｉ／Ｆ部２７に接続されたスキャナにより入力ドキュメント３３の画像を読み取り、記憶部２２に格納する。

入力ドキュメント３３の取り込み方は、スキャナに限ることなく、例えば、利用者に携帯端末等のカメラで入力ドキュメント３３を撮影させ、ネットワークを介してその画像を資料検索装置１に送らせ、通信制御部２４を介して受信し、記憶部２２に格納するようにしてもよい。

次に、制御部２１は、取り込んだ画像データに対して文字認識処理を実行し、入力ドキュメント３３の印刷文字３５及び手書き文字３９をテキストデータに変換する（ステップ１０２）。
文字認識処理は、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）等の公知の技術を使用すればよい。
手書き文字に対する文字認識処理により抽出されたテキストデータには、手書き文字であることを示すフラグを付しておくとよい。

次に、制御部２１は、利用者が書き込んだ書込みマーク３７を抽出し、その種類と位置を求める（ステップ１０３）。
書込みの種類（マーキング３７ａ、下線３７ｂ、囲み３７ｃ、×印３７ｄ）を想定して入力ドキュメント３３の画像から抽出を行う。

例えば、マーキング３７ａの場合は、テキスト部分と重なったほぼ矩形の形状を抽出する。
また、下線３７ｂの場合は、テキストに重ならないほぼ直線の形状を抽出する。
また、囲み３７ｃの場合は、文字以外の閉曲線の形状を抽出する。
また、×印３７ｄの場合は、斜めの交わる２直線の形状を抽出する。

ステップ１０３で抽出した書込みマーク３７の種類と位置のデータは、書込みマーク・データ４１として記憶部２２に格納する。
図６は、書込みマーク・データ４１の構成例を示す図である。
書込みマーク・データ４１は、入力ドキュメント３３の識別番号である入力ドキュメントＩＤ、及び、当該入力ドキュメント３３に含まれる書込みの識別番号を示すマークＮｏ、書込みマーク３７の種類を示す書込みマークＩＤ、当該書込みマークの位置データ等で構成される。

位置データは、例えば、入力ドキュメント３３の左上部を原点とする二次元座標である。
マーキング３７ａの場合、ほぼ矩形の対角の頂点の座標、下線３７ｂの場合、直線の両端の座標、囲み３７ｃの場合、囲みの閉曲線の（最小ｘ座標、最小ｙ座標）と（最大ｘ座標、最大ｙ座標）、×印３７ｄの場合、２直線の（最小ｘ座標、最小ｙ座標）と（最大ｘ座標、最大ｙ座標）を位置データとすることができる。

次に、制御部２１は、テキストデータを形態素解析する（ステップ１０４）。
すなわち、テキストデータを意味のある単語に区切り、辞書データベース１８を利用して品詞を識別する。

次に、制御部２１は、形態素解析された単語のなかの名詞、及び、辞書データベース１８で検索できない未知語を特徴語として抽出する（ステップ１０５）。
図７は、入力ドキュメント３３のテキストデータから抽出された特徴語４３の例を示す図である。
図７に示すように、テキストデータに含まれる特徴語が抽出される。
また、手書き文字３９の部分のテキストデータから抽出された特徴語には、その旨のフラグを付しておく。

次に、制御部２１は、各特徴語の重み付け重要度を計数し、入力ドキュメント３３の特徴データを作成する（ステップ１０６）。
重み付け重要度は、図６に示した書込みマーク・データ４１及び、図８に示す重み付け倍率４５を元に、テキストデータから抽出された特徴語の出現頻度を求めて計数し、重要度を求める。

図８は、重み付け倍率４５の例を示す図である。
例えば、書込みマーク３７がマーキング３７ａ及び下線３７ｂの場合、マーキング３７ａ及び下線３７ｂの位置に含まれる特徴語の出現頻度を２．０倍として、書込みマーク３７が囲み３７ｃの場合、囲みの位置に含まれる特徴語の出現頻度を１．７倍として計数する。
また、書込みマーク３７が×印３７ｄの場合、×印の位置の範囲に含まれる特徴語の重み付け倍率を０にして、計数しないようにする。
更に、手書き文字３９の場合、手書き文字としてフラグが付されている特徴語の出現頻度に、例えば、２．５倍の重み付けをして計数する。

図９は、ステップ１０６により作成された特徴語データ４７の例を示す図である。重要度として出現頻度を使用した場合について示している。
入力ドキュメント３３の特徴データ４７は、特徴語と重み付け出現頻度（重み付け重要度）で構成される。
重みを付すことにより、重み付け出現頻度の値は、実際に入力ドキュメント３３に含まれる特徴語の出現頻度（カッコ内の数値）と異なり、増減した数値になる。

以上のように、本実施形態の資料検索装置１における特徴データ４７は、利用者の書込みマーク３７及び手書き文字３９に応じて重み付けされ、利用者の興味・関心、重要と考えている特徴語をより的確に現わすデータとなり、より的確な資料検索が可能になる。

次に、制御部２１は、入力ドキュメント３３の特徴データ４７と、特徴語データベース１５の各検索対象資料の検索用インデックス３１の関連度を算出する（ステップ１０７）。
関連度の計算には、例えば、公知の技術であるコサイン類似度を用いればよい。

図１０は、特徴語データ４７と検索対象資料の検索用インデックス３１の関連度を説明する図である。
コサイン類似度は、検索用インデックス３１のベクトル５１と、特徴データ４７のベクトル５３が成す角度θであり、この角度θが小さいほど類似度、すなわち、２つのベクトルの関連度が高いことを示す。

図１０では、説明を簡単化するために、３種類の特徴語についての３次元のベクトルを例に説明しているが、各ベクトル５１、５３の要素は、検索対象資料、及び、入力ドキュメント３３に含まれる複数の特徴語の重要度（重み付き）である。
関連度を示す角度θの大きさは、検索用インデックス３１のベクトル５１と、入力ドキュメント３３の特徴データ４７のベクトル５３の内積を計算することにより求める。

次に、制御部２１は、ステップ１０７で計算された関連度の値を比較し、関連度の高い検索対象資料の識別番号を元に資料名等を検索し、表示部２６に表示する（ステップ１０８）。

図１１は、検索結果の出力画面５５の例を示す図である。
資料検索装置１の表示部２６に、利用者が提示した入力ドキュメント３３との関連度が高い文献、書籍、資料の名称等が表示される。

以上のように、本実施形態に係る資料検索装置１は、利用者が持参したドキュメント３３をスキャナで読み取ることにより、当該ドキュメントとの関連度が高い検索対象資料を、特徴語の重み付き出現頻度を尺度として検索し、表示することが可能になる。

また、本実施形態に係る資料検索装置１は、利用者がドキュメントに書込みマーク３７や手書き文字３９を書き込むことにより、その部分の特徴語の出現頻度に書込みマーク３７の種類に応じた重みを付け、より利用者の関心・興味に合致した検索対象資料を検索することを可能にする。

以上の説明において、本実施の形態に係る資料検索装置１は１台の装置として説明したが、スキャナ等の画像読み取り装置１１０と、ＯＣＲ等の抽出装置１２０と、検索処理を行うサーバ１３０からなる資料検索システム１０として構成してもよい。

図１２は、資料検索システム１０のシステム構成例を示す図である。
図１２に示すように、資料検索システム１０は、画像読み取り装置１１０、抽出装置１２０、サーバ１３０が、例えばネットワーク１４０を介して通信可能に接続された構成である。

画像読み取り装置１１０は、例えば、スキャナで構成でき、利用者が持参する書込みを含むドキュメント３３を読み取る。
読み取られたドキュメント画像データは、ネットワーク１４０を介して抽出装置１２０に送られる。

抽出装置１２０は、例えば、ＯＣＲ装置で構成できる。
抽出装置１２０は、ドキュメント画像データを受信し、印刷文字３５の認識処理及び手書き文字３９の認識処理を行い、テキストデータを作成するとともに、ドキュメント３３に書き込まれた書込みマーク３７を抽出し書込みマーク・データ４１を作成する。
作成したテキストデータ及び書込みマーク・データ４１は、ネットワーク１４０を介してサーバ３に送られる。

サーバ３は、検索対象資料から作成された特徴語データベース１５及び辞書データベース１８を具備する。
サーバ３は、汎用コンピュータ等で構成でき、図５のフローチャートのステップ１０４〜１０８の処理を実行する。

すなわち、サーバ３は、抽出装置１２０から受信したテキストデータから、辞書データベース１８を用いて特徴語を抽出する処理を行い（ステップ１０４、１０５）、抽出装置１２０から受信した書込みマーク・データ４１を元に、抽出した特徴語の重み付き重要度を算出して特徴データを作成し（ステップ１０６）、特徴語データベース１５の各検索インデックスと特徴データの関連度を計算し（ステップ１０７）、関連度の高い検索対象資料を利用者に提示する（ステップ１０８）。

以上の説明において、利用者が、携帯端末やパーソナルコンピュータ等からドキュメント３３の画像をインターネット等のネットワークを介して資料検索システム１０に送り、送られたドキュメント画像を抽出装置１２０、サーバ１３０で処理し、検索結果をインターネット等のネットワークを介して携帯端末やパーソナルコンピュータに送り、表示部に検索結果を表示させるようにしてもよい。

また、以上の説明においては、特徴語として名詞及び未知語を使用すると説明したが、その他の品詞の単語も使用するようにしてもよい。

また、検索対象資料の特徴語データベース１５における特徴語の出現頻度は、ＴＦ・ＩＤＦ法による重み付けを行なうことが望ましいが、特徴語の出現頻度を用いずに、特徴語の出現の有無を示す２値ベクトルで表現してもよい。
また、特徴語の出現頻度の代わりに、隣り合って出現する特徴語の共起頻度（単語Ｎグラム）を要素とするベクトルを用いるようにしてもよい。

以上、添付図を参照しながら、本発明の実施の形態を説明したが、本発明の技術的範囲は、前述した実施の形態に左右されない。当業者であれば、特許請求の範囲に記載された技術的思想の範疇内において各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。

１………資料検索装置
１０………資料検索システム
１１………ドキュメント入力部
１２………文字認識・書込み抽出部
１３………特徴語抽出部
１４………特徴語重み付け部
１５………検索対象資料の特徴語データベース
１６………関連度計算部
１７………検索結果表示部
１８………辞書データベース
３１………検索用インデックス
３３………入力ドキュメント
３５………印刷文字
３７………書込みマーク
３９………手書き文字
４１………書込みマーク・データ
４５………重み付き倍率
４７………入力ドキュメント３３の特徴データ

Claims

特徴語データとの関連度に基づいて資料を検索する資料検索装置において、
書込みを含むドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出手段と、
前記書込みの種類と位置を抽出する書込み抽出手段と、
検索対象資料の第１の特徴語とその重要度を含む検索用インデックスを記憶する記憶手段と、
前記テキストデータから第２の特徴語を抽出する特徴語抽出手段と、
前記書込みの位置の前記第２の特徴語に対して、当該書込みの種類に応じた重要度を算出するとともに、前記書込みの種類に応じて該当する前記第２の特徴語を削除して、前記テキストデータの第２の特徴語とその重要度を含む前記特徴語データを作成する特徴データ作成手段と、
前記検索用インデックスと前記特徴語データとの関連度を計算する関連度計算手段と、
を具備することを特徴とする資料検索装置。
前記書込み抽出手段は、前記書込みに対して、文字認識処理を施し、認識結果を前記テキストデータに加えることを特徴とする請求項１に記載の資料検索装置。
前記特徴データ作成手段は、前記書込みの種類に応じて前記第２の特徴語の重要度を変化することを特徴とする請求項１または請求項２に記載の資料検索装置。
前記検索対象資料の検索用インデックスを作成するインデックス作成手段を更に具備することを特徴とする請求項１乃至請求項３のいずれかに記載の資料検索装置。
前記ドキュメント画像を読み取る画像読み取り手段を更に備えることを特徴とする請求項１乃至請求項４のいずれかに記載の資料検索装置。
特徴語データとの関連度に基づいて資料を検索する資料検索システムにおいて、
書込みを含むドキュメント画像を読み取り、読み取った画像を送信する画像読み取り装置と、
前記ドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出手段と、前記書込みの種類と位置を抽出する書込み抽出手段と、を備え、抽出したデータを送信する抽出装置と、
検索対象資料の第１の特徴語とその重要度を含む検索用インデックスを記憶する記憶手段と、前記テキストデータから第２の特徴語を抽出する特徴語抽出手段と、前記書込みの位置の前記第２の特徴語に対して、当該書込みの種類に応じた重要度を算出するとともに、前記書込みの種類に応じて該当する前記第２の特徴語を削除して、前記テキストデータの第２の特徴語とその重要度を含む前記特徴語データを作成する特徴データ作成手段と、前記検索用インデックスと前記特徴語データとの関連度を計算する関連度計算手段と、を備えるサーバと、
を具備することを特徴とする資料検索システム。
特徴語データとの関連度に基づいて資料を検索する資料検索装置で行う資料検索方法であって、
書込みを含むドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出ステップと、
前記書込みの種類と位置を抽出する書込み抽出ステップと、
検索対象資料の第１の特徴語とその重要度を含む検索用インデックスを記憶する記憶ステップと、
前記テキストデータから第２の特徴語を抽出する特徴語抽出ステップと、
前記書込みの位置の前記第２の特徴語に対して、当該書込みの種類に応じた重要度を算出するとともに、前記書込みの種類に応じて該当する前記第２の特徴語を削除して、前記テキストデータの第２の特徴語とその重要度を含む前記特徴語データを作成する特徴データ作成ステップと、
前記検索用インデックスと前記特徴語データとの関連度を計算する関連度計算ステップと、
を含むことを特徴とする資料検索方法。
コンピュータを、特徴語データとの関連度に基づいて資料を検索する資料検索装置として機能させるためのプログラムであって、
前記コンピュータを、
書込みを含むドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出手段と、
前記書込みの種類と位置を抽出する書込み抽出手段と、
検索対象資料の第１の特徴語とその重要度を含む検索用インデックスを記憶する記憶手段と、
前記テキストデータから第２の特徴語を抽出する特徴語抽出手段と、
前記書込みの位置の前記第２の特徴語に対して、当該書込みの種類に応じた重要度を算出するとともに、前記書込みの種類に応じて該当する前記第２の特徴語を削除して、前記テキストデータの第２の特徴語とその重要度を含む前記特徴語データを作成する特徴データ作成手段と、
前記検索用インデックスと前記特徴語データとの関連度を計算する関連度計算手段、
として機能させるためのプログラム。