JP6303669B2 - 資料検索装置、資料検索システム、資料検索方法、及び、プログラム - Google Patents

資料検索装置、資料検索システム、資料検索方法、及び、プログラム Download PDF

Info

Publication number
JP6303669B2
JP6303669B2 JP2014056283A JP2014056283A JP6303669B2 JP 6303669 B2 JP6303669 B2 JP 6303669B2 JP 2014056283 A JP2014056283 A JP 2014056283A JP 2014056283 A JP2014056283 A JP 2014056283A JP 6303669 B2 JP6303669 B2 JP 6303669B2
Authority
JP
Japan
Prior art keywords
feature word
writing
data
feature
importance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014056283A
Other languages
English (en)
Other versions
JP2015179385A (ja
Inventor
伊藤 直之
直之 伊藤
茂春 富樫
茂春 富樫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2014056283A priority Critical patent/JP6303669B2/ja
Publication of JP2015179385A publication Critical patent/JP2015179385A/ja
Application granted granted Critical
Publication of JP6303669B2 publication Critical patent/JP6303669B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、資料を検索する技術に関し、特に、利用者が提示する資料との関連度が高い書籍・資料を検索する資料検索技術に関する。
従来、利用者が知識を得るために、キーワードを入力し、関連書籍を検索したり、あるいは、表示されている文章中のキーワードを選択することで、そのキーワードを含む書籍を検索したりする技術がある。
例えば、特許文献1には、端末から利用者が入力した検索キーワードが含まれる書籍を効率良く、また、重要度の高い順に提示するシステムが提案されている。
特開2013−206388号公報
しかしながら、特許文献1は、利用者がキーワードを入力する必要があり、利用者にとって煩雑であるという問題がある。また、入力されたキーワードの組み合せによっては、書籍数が絞り込めない、あるいは、適切な書籍が提示されないという問題がある。
本発明は、前述した問題点に鑑みてなされたもので、その目的とするところは、利用者が持参する書込み入りのドキュメントの内容に関連した利用者の興味・関心に合った書籍・資料を提示することが可能な資料検索装置等を提供することにある。
前述した目的を達成するために、第1の発明は、特徴語データとの関連度に基づいて資料を検索する資料検索装置において、書込みを含むドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出手段と、前記書込みの種類と位置を抽出する書込み抽出手段と、検索対象資料の第1の特徴語とその重要度を含む検索用インデックスを記憶する記憶手段と、前記テキストデータから第2の特徴語を抽出する特徴語抽出手段と、前記書込みの位置の前記第2の特徴語に対して、当該書込みの種類に応じた重要度を算出するとともに、前記書込みの種類に応じて該当する前記第2の特徴語を削除して、前記テキストデータの第2の特徴語とその重要度を含む前記特徴語データを作成する特徴データ作成手段と、前記検索用インデックスと前記特徴語データとの関連度を計算する関連度計算手段と、を具備することを特徴とする資料検索装置である。
第1の発明により、図書館等が所蔵する書籍や資料から成る検索対象資料について、予め、それぞれの検索対象資料に含まれる第1の特徴語の重要度からなる検索用インデックスを記憶手段により記憶しておき、読み取らせた利用者の書込みを含むドキュメントに含まれる第2の特徴語との関連度を求め、関連度の大きい検索対象資料を提示することが可能になる。
その際、書込み抽出手段により、ドキュメントに書き込まれた書込みの位置と種類を抽出し、特徴データ作成手段により、書込みの位置の第2の特徴語の重要度に、書込みの種類に応じた重み付けを行うことにより、利用者の興味・関心に合致する検索対象資料を提示することが可能となる。
また、前記特徴データ作成手段は、前記書込みの種類に応じて該当する前記第2の特徴語を削除することにより、書込みの種類により第2の特徴語から外すことが可能になり、より利用者の興味・関心に合致する資料を提示することが可能になる。
書込みの種類は、例えば、下線。マーカー、囲み、×印、手書き文字等であり、複数の書込みの種類を設けることにより、利用者が興味・関心の有無を容易に表現することが可能になる。
前記書込み抽出手段は、前記書込みに対して、文字認識処理を施し、認識結果を前記テキストデータに加える。
これにより、利用者の手書きによるメモをテキストデータに加えて、メモ部分の第2の特徴語を検索に用いることが可能になる。
前記特徴データ作成手段は、前記書込みの種類に応じて該当する第2の特徴語の重要度を変化することが望ましい。
これにより、書込みの種類により重要度を大きくまたは小さくして利用者の興味・関心に応じた特徴語データを作成し、より的確な資料を提示することが可能になる。
前記検索対象資料の検索用インデックスを作成するインデックス作成手段を更に具備することが望ましい。
これにより、新たな検索対象資料について検索用インデックスを更新していくことが可能になる。
前記ドキュメント画像を読み取る画像読み取り手段を更に備えることが望ましい。
利用者が、持参したドキュメントを例えばスキャナで読み込ませることにより、検索キーワード等を利用者が入力することなく、ドキュメントの内容に適した資料を提示することが可能になり、利用者の負担を減じることが可能になる。
また、例えば、携帯端末等のカメラ機能を使用して利用者が撮影したドキュメント画像を、インターネット等のネットワークを介して画像読み取り手段により資料検索装置に取り込むことにより、ドキュメントの内容に適した資料を提示することが可能になる。
以上のように、第1の発明により、利用者が検索キーワードを装置に入力することなく、利用者のドキュメントを資料検索装置に画像として取り込むだけで、当該ドキュメントの内容に適した資料を検索することが可能になり、利用者の負担を軽減することが可能になる。
また、利用者の書込みに応じてドキュメントの特徴語の重要度を変化することにより、利用者の興味・関心により適合する資料を検索することが可能になる。
第2の発明は、特徴語データとの関連度に基づいて資料を検索する資料検索システムにおいて、書込みを含むドキュメント画像を読み取り、読み取った画像を送信する画像読み取り装置と、前記ドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出手段と、前記書込みの種類と位置を抽出する書込み抽出手段と、を備え、抽出したデータを送信する抽出装置と、検索対象資料の第1の特徴語とその重要度を含む検索用インデックスを記憶する記憶手段と、前記テキストデータから第2の特徴語を抽出する特徴語抽出手段と、前記書込みの位置の前記第2の特徴語に対して、当該書込みの種類に応じた重要度を算出するとともに、前記書込みの種類に応じて該当する前記第2の特徴語を削除して、前記テキストデータの第2の特徴語とその重要度を含む前記特徴語データを作成する特徴データ作成手段と、前記検索用インデックスと前記特徴語データとの関連度を計算する関連度計算手段と、を備えるサーバと、を具備することを特徴とする資料検索システムである。
第2の発明により、利用者が検索キーワードをシステムに入力することなく、利用者のドキュメント画像を読み取らせるだけで、当該ドキュメントの内容に適した資料を提示することが可能になり、利用者の負担を軽減することが可能になる。
また、利用者の書込みに応じてドキュメントの特徴語の重要度を変化することにより、利用者の興味・関心により適合する資料を検索することが可能になる。
第3の発明は、特徴語データとの関連度に基づいて資料を検索する資料検索装置で行う資料検索方法であって、書込みを含むドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出ステップと、前記書込みの種類と位置を抽出する書込み抽出ステップと、検索対象資料の第1の特徴語とその重要度を含む検索用インデックスを記憶する記憶ステップと、前記テキストデータから第2の特徴語を抽出する特徴語抽出ステップと、前記書込みの位置の前記第2の特徴語に対して、当該書込みの種類に応じた重要度を算出するとともに、前記書込みの種類に応じて該当する前記第2の特徴語を削除して、前記テキストデータの第2の特徴語とその重要度を含む前記特徴語データを作成する特徴データ作成ステップと、前記検索用インデックスと前記特徴語データとの関連度を計算する関連度計算ステップと、を含むことを特徴とする資料検索方法である。
第4の発明は、コンピュータを、特徴語データとの関連度に基づいて資料を検索する資料検索装置として機能させるためのプログラムであって、前記コンピュータを、書込みを含むドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出手段と、前記書込みの種類と位置を抽出する書込み抽出手段と、検索対象資料の第1の特徴語とその重要度を含む検索用インデックスを記憶する記憶手段と、前記テキストデータから第2の特徴語を抽出する特徴語抽出手段と、前記書込みの位置の前記第2の特徴語に対して、当該書込みの種類に応じた重要度を算出するとともに、前記書込みの種類に応じて該当する前記第2の特徴語を削除して、前記テキストデータの第2の特徴語とその重要度を含む前記特徴語データを作成する特徴データ作成手段と、前記検索用インデックスと前記特徴語データとの関連度を計算する関連度計算手段、として機能させるためのプログラムである。
第4の発明に係るプログラムを汎用コンピュータにインストールすることによって、第1の発明に係る資料検索装置を得て、第3の発明に係る資料検索方法を実行することができる。
本発明の資料検索装置等によって、利用者が持参する書込み入りのドキュメントの内容に関連する書籍・資料を提示することが可能になる。
本実施形態に係る資料検索装置1のハードウエア構成を示すブロック図 本実施形態に係る資料検索装置1の機能構成を示すブロック図 検索対象資料の特徴語データベース15の構成例を示す図 入力ドキュメント33の例を示す図 本実施形態に係る資料検索装置1の処理の流れを示すフローチャート 書込みマーク・データ41の例を示す図 入力ドキュメント33から抽出された特徴語の例を示す図 書込みマークの重み付け倍率45の例を示す図 入力ドキュメント33の特徴データの例を示す図 特徴語データと検索対象資料の検索インデックスの関連度を説明する図 検索結果出力画面55の例を示す図 資料検索システム10のシステム構成例を示す図
以下、本発明の実施形態を、図面を参照しながら詳細に説明する。
図1は、資料検索装置1のハードウエア構成例を示すブロック図である。資料検索装置1は、図1に示すように、コンピュータシステムで構成することが可能である。図1の構成は、あくまで一例であり、用途、目的に応じて様々な構成を採ることが可能である。
資料検索装置1は、例えば、制御部21、記憶部22、メディア入出力部23、通信制御部24、入力部25、表示部26、周辺機器I/F(インタフェース)部27等がバス28を介して接続されて構成される。
制御部21は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等で構成される。
CPUは、ROM、記憶部22等に格納されるプログラムをRAM上のワークメモリ領域に呼び出して実行し、バス28を介して接続された各装置を駆動制御し、コンピュータが行う処理を実現する。
ROMは、不揮発性メモリであり、コンピュータのブートプログラムやBIOS等のプログラム、データ等を恒久的に保持している。
RAMは、揮発性メモリであり、記憶部22、ROM、記憶媒体等からロードしたプログラム、データ等を一時的に保持するとともに、制御部21が各種処理を行うために使用するワークエリアを備える。
記憶部22は、制御部21が実行するプログラム、プログラム実行に必要なデータ、OS(Operating System)等が格納される。記憶部22には、後述する検索対象資料の特徴語データベース15及び辞書データベース18や、本実施形態の資料検索装置1のプログラム及びデータが格納される。
メディア入出力部23(ドライブ装置)は、データの入出力を行い、例えば、CDドライブ(−ROM、−R、−RW等)、DVDドライブ(−ROM、−R、−RW等)等のメディア入出力装置を有する。
通信制御部24は、通信制御装置、通信ポート等を有し、ネットワークを介して、他の装置との通信制御を行う。ネットワークは、有線、無線を問わない。
入力部25は、データの入力を行い、例えば、キーボード、マウス、タッチパネル等のポインティングデバイス、テンキー等の入力装置を有する。
表示部26は、CRTモニタ、液晶パネル等のディスプレイ装置であり、表示部26には、本実施形態の資料検索装置1において検索結果等が表示される。
周辺機器I/F(インタフェース)部27は、周辺機器を接続させるためのポートであり、USB、IEEE1394、RS−232C等で構成され、接続形態は有線、無線を問わない。
周辺機器I/F部27を介して、例えば、スキャナが接続され、利用者が持参したドキュメントの画像入力データを取り込むことが可能である。
バス28は、各装置間の制御信号、データ信号等の授受を媒介する経路である。
資料検索装置1は、その他、画像データの入力用に、図示しないカメラを備えていてもよく、また、周辺機器I/F(インタフェース)部27に、図示しないスキャナが接続されていてもよい。
図2は、本発明の実施形態に係る資料検索装置1の機能構成例を示すブロック図である。
資料検索装置1は、ドキュメント入力部11、文字認識・書込み抽出部12、特徴語抽出部13、特徴語重み付け部14、検索対象資料の特徴語データベース15、関連度計算部16、検索結果表示部17、辞書データベース18等で構成される。
検索対象資料の特徴語データベース15は、例えば、大学等の図書館が所蔵する書籍や資料を本実施の形態の資料検索装置1で検索するための検索インデックスを記憶するデータベースである。
詳しくは後述するが、検索インデックスは、各書籍、資料の特徴となる単語(特徴語)の重要度に関するデータであり、予め、各書籍や資料の書誌データや全文から辞書データベース18を使用して特徴語を抽出し、その重要度を求めることにより作成する。
辞書データベース18は、例えば、何冊かの辞書に収録されている見出しを記憶したデータベースであり、特徴語の抽出に使用する。辞書データベース18に記憶する見出しの品詞は名詞のみでよいが、その他の品詞(動詞、形容詞等)も記憶させて使用してもよい。
ドキュメント入力部11は、例えば、スキャナ又はカメラで構成することができる。
ドキュメント入力部11は、利用者が持ち込むドキュメントを画像データとして取り込む。
ドキュメントは、例えば、大学等の授業のシラバスやレジュメ、関連資料、講義ノート、書籍のなかの1ページ、新聞や雑誌の記事等であり、印刷文字の印刷物であるが、利用者による手書きの書込みがあってもよい。
書込みは、例えば、下線やマーカーによるマーキング、囲み、手書き文字、不要な部分を除外するための×印等である。
文字認識・書込み抽出部12は、ドキュメント入力部11により資料検索装置1に取り込まれたドキュメントの画像データに文字認識処理を実行し、テキストデータに変換するとともに、利用者が手書きで書き込んだ書込みの種類と位置を抽出する。
また、書込みが手書き文字の場合には、手書き文字に対して文字認識処理を実行し、手書き文字もテキストデータに変換する。
特徴語抽出部13は、文字認識・書込み抽出部12によって変換されたテキストデータから辞書データベース18を参照して特徴語を抽出する。
特徴語は、例えば、名詞の単語、及び、辞書データベース18にはない未知語等である。
特徴語抽出部13は、まず、テキストデータを形態素解析し、そのなかの名詞の部分について辞書データベース18を検索して一致する単語(例えば、「歴史」、「女性」、「フェミニズム」、「日本」等)を特徴語として抽出する。また、形態素解析において名詞と判別され、辞書データベース18に一致する単語がない場合(例えば、「アベノミクス」等)には、未知語として特徴語に加える。
次に、特徴語重み付け部14は、特徴語抽出部13によって抽出された特徴語について重要度を求めるとともに、利用者による書込みの内容に応じて重要度に重み付けを行う。
重要度は、例えば、特徴語の出現頻度や、TF・IDF(Term Frequency・Inverse Document Frequency)値など、各種の重要度算出方法を利用できる。
重要度に出現頻度を用いる場合、例えば、下線やマーキング、囲み、手書き文字の書込みの場合、利用者が重要な部分、あるいは、興味・関心のある部分として書き込んでいると判断して、その部分に含まれる特徴語について、例えば2倍というように、正係数の重みをかけて出現頻度を計数する。
一方、ドキュメント中で×印の書込みがある部分については、その部分に含まれる特徴語は計数しないようにしてもよい。
特徴語重み付け部14による書込み部分についての特徴語の重要度の重み付けにより、利用者の興味・関心に合った適切な資料検索が可能になる。
関連度計算部16は、特徴語重み付け部14により求められた利用者のドキュメントについての特徴データ(特徴語とその重要度のデータ)と、検索対象資料の特徴語データベース15に格納されている各検索対象資料の関連度を計算する。
検索結果表示部17は、関連度計算部16で計算された関連度を元に、関連度の大きい検索対象資料の名称等を表示する。
次に、図3に沿って検索対象資料の特徴語データベース15について説明する。
図3は、検索対象資料の特徴語データベース15の構成例を示す図である。
検索対象資料の特徴語データベース15は、検索対象となる各書籍や資料についての検索用インデックス31から成る。P冊の検索対象資料についてP個の検索用インデックス31−1〜31−Pが特徴語データベース15に格納される。
検索用インデックス31は、図書館等の蔵書・資料が増えると、その都度、作成・追加され、特徴語データベース15が更新される。
検索用インデックス31は、例えば、検索対象資料ID、及び、特徴語の見出しとその重要度で構成される。
図3に示すように、例えば、検索対象資料ID「1」の検索用インデックス31−1は、特徴語として「女性」、「職業」、「カルチャー」、「日本」等の特徴語と、その重要度から成る。
検索用インデックス31における特徴語の重要度は、検索対象資料の書誌データや資料の全文に含まれる特徴語の出現頻度を基本とするが、例えば、TF・IDF法等による重み付けを行ったものであることが望ましい。
TF・IDF法は公知の技術であり、詳細な説明は省略するが、TF・IDF法は、特定の文書に含まれる全単語の出現頻度における特定の単語の出現頻度の割合に関する値(TF)と、全文書数のなかの当該特定の単語を含む文書数の割合に関する値(IDF)とに基づいた出現頻度を求める方法である。TF・IDF法によれば、例えば、「これ」、「その」のようにどの文書にでも多く出現する単語の出現頻度は抑えられ、特定の文書にのみ多く出現する単語の出現頻度は大きくなる。
図4は、利用者が資料検索装置1に入力する入力ドキュメント33の例を示す図である。
入力ドキュメント33には、印刷文字35による記事が印刷されているとともに、利用者が手書きで書き込んだ書込みマーク37、手書き文字39が描画されている。
図4の入力ドキュメント例33は、記事A〜Dが印刷されており、利用者が書込みマーク37a〜37d、手書き文字39を書き込んだものである。
書込みマーク37は、例えば、マーカーによるマーキング37a(書込みマークa)、下線37b(書込みマークb)、囲み37c(書込みマークc)、×印37d(書込みマークd)等である。
マーキング37a、下線37b、囲み37cは、利用者が重要と考えた部分に書き込むものであり、その部分に含まれる特徴語の重要度は大きくなるよう重み付けすればよい。
また、×印37dは、利用者が必要ないと考えた部分に書き込むものであり、その部分に含まれる特徴語は除外するようにすればよい。
また、手書き文字39は、利用者が重要と考えた文または文章と考えられ、そのなかに含まれる特徴語は重要であり、重要度が大きくなるよう重み付けする。
次に、本実施の形態に係る資料検索装置1の処理の流れを説明する。
図5は、資料検索装置1の処理の流れを示すフローチャートである。
まず、資料検索装置1の制御部21は、入力ドキュメント33の画像を取り込む(ステップ101)。
例えば、周辺機器I/F部27に接続されたスキャナにより入力ドキュメント33の画像を読み取り、記憶部22に格納する。
入力ドキュメント33の取り込み方は、スキャナに限ることなく、例えば、利用者に携帯端末等のカメラで入力ドキュメント33を撮影させ、ネットワークを介してその画像を資料検索装置1に送らせ、通信制御部24を介して受信し、記憶部22に格納するようにしてもよい。
次に、制御部21は、取り込んだ画像データに対して文字認識処理を実行し、入力ドキュメント33の印刷文字35及び手書き文字39をテキストデータに変換する(ステップ102)。
文字認識処理は、OCR(Optical Character Recognition)等の公知の技術を使用すればよい。
手書き文字に対する文字認識処理により抽出されたテキストデータには、手書き文字であることを示すフラグを付しておくとよい。
次に、制御部21は、利用者が書き込んだ書込みマーク37を抽出し、その種類と位置を求める(ステップ103)。
書込みの種類(マーキング37a、下線37b、囲み37c、×印37d)を想定して入力ドキュメント33の画像から抽出を行う。
例えば、マーキング37aの場合は、テキスト部分と重なったほぼ矩形の形状を抽出する。
また、下線37bの場合は、テキストに重ならないほぼ直線の形状を抽出する。
また、囲み37cの場合は、文字以外の閉曲線の形状を抽出する。
また、×印37dの場合は、斜めの交わる2直線の形状を抽出する。
ステップ103で抽出した書込みマーク37の種類と位置のデータは、書込みマーク・データ41として記憶部22に格納する。
図6は、書込みマーク・データ41の構成例を示す図である。
書込みマーク・データ41は、入力ドキュメント33の識別番号である入力ドキュメントID、及び、当該入力ドキュメント33に含まれる書込みの識別番号を示すマークNo、書込みマーク37の種類を示す書込みマークID、当該書込みマークの位置データ等で構成される。
位置データは、例えば、入力ドキュメント33の左上部を原点とする二次元座標である。
マーキング37aの場合、ほぼ矩形の対角の頂点の座標、下線37bの場合、直線の両端の座標、囲み37cの場合、囲みの閉曲線の(最小x座標、最小y座標)と(最大x座標、最大y座標)、×印37dの場合、2直線の(最小x座標、最小y座標)と(最大x座標、最大y座標)を位置データとすることができる。
次に、制御部21は、テキストデータを形態素解析する(ステップ104)。
すなわち、テキストデータを意味のある単語に区切り、辞書データベース18を利用して品詞を識別する。
次に、制御部21は、形態素解析された単語のなかの名詞、及び、辞書データベース18で検索できない未知語を特徴語として抽出する(ステップ105)。
図7は、入力ドキュメント33のテキストデータから抽出された特徴語43の例を示す図である。
図7に示すように、テキストデータに含まれる特徴語が抽出される。
また、手書き文字39の部分のテキストデータから抽出された特徴語には、その旨のフラグを付しておく。
次に、制御部21は、各特徴語の重み付け重要度を計数し、入力ドキュメント33の特徴データを作成する(ステップ106)。
重み付け重要度は、図6に示した書込みマーク・データ41及び、図8に示す重み付け倍率45を元に、テキストデータから抽出された特徴語の出現頻度を求めて計数し、重要度を求める。
図8は、重み付け倍率45の例を示す図である。
例えば、書込みマーク37がマーキング37a及び下線37bの場合、マーキング37a及び下線37bの位置に含まれる特徴語の出現頻度を2.0倍として、書込みマーク37が囲み37cの場合、囲みの位置に含まれる特徴語の出現頻度を1.7倍として計数する。
また、書込みマーク37が×印37dの場合、×印の位置の範囲に含まれる特徴語の重み付け倍率を0にして、計数しないようにする。
更に、手書き文字39の場合、手書き文字としてフラグが付されている特徴語の出現頻度に、例えば、2.5倍の重み付けをして計数する。
図9は、ステップ106により作成された特徴語データ47の例を示す図である。重要度として出現頻度を使用した場合について示している。
入力ドキュメント33の特徴データ47は、特徴語と重み付け出現頻度(重み付け重要度)で構成される。
重みを付すことにより、重み付け出現頻度の値は、実際に入力ドキュメント33に含まれる特徴語の出現頻度(カッコ内の数値)と異なり、増減した数値になる。
以上のように、本実施形態の資料検索装置1における特徴データ47は、利用者の書込みマーク37及び手書き文字39に応じて重み付けされ、利用者の興味・関心、重要と考えている特徴語をより的確に現わすデータとなり、より的確な資料検索が可能になる。
次に、制御部21は、入力ドキュメント33の特徴データ47と、特徴語データベース15の各検索対象資料の検索用インデックス31の関連度を算出する(ステップ107)。
関連度の計算には、例えば、公知の技術であるコサイン類似度を用いればよい。
図10は、特徴語データ47と検索対象資料の検索用インデックス31の関連度を説明する図である。
コサイン類似度は、検索用インデックス31のベクトル51と、特徴データ47のベクトル53が成す角度θであり、この角度θが小さいほど類似度、すなわち、2つのベクトルの関連度が高いことを示す。
図10では、説明を簡単化するために、3種類の特徴語についての3次元のベクトルを例に説明しているが、各ベクトル51、53の要素は、検索対象資料、及び、入力ドキュメント33に含まれる複数の特徴語の重要度(重み付き)である。
関連度を示す角度θの大きさは、検索用インデックス31のベクトル51と、入力ドキュメント33の特徴データ47のベクトル53の内積を計算することにより求める。
次に、制御部21は、ステップ107で計算された関連度の値を比較し、関連度の高い検索対象資料の識別番号を元に資料名等を検索し、表示部26に表示する(ステップ108)。
図11は、検索結果の出力画面55の例を示す図である。
資料検索装置1の表示部26に、利用者が提示した入力ドキュメント33との関連度が高い文献、書籍、資料の名称等が表示される。
以上のように、本実施形態に係る資料検索装置1は、利用者が持参したドキュメント33をスキャナで読み取ることにより、当該ドキュメントとの関連度が高い検索対象資料を、特徴語の重み付き出現頻度を尺度として検索し、表示することが可能になる。
また、本実施形態に係る資料検索装置1は、利用者がドキュメントに書込みマーク37や手書き文字39を書き込むことにより、その部分の特徴語の出現頻度に書込みマーク37の種類に応じた重みを付け、より利用者の関心・興味に合致した検索対象資料を検索することを可能にする。
以上の説明において、本実施の形態に係る資料検索装置1は1台の装置として説明したが、スキャナ等の画像読み取り装置110と、OCR等の抽出装置120と、検索処理を行うサーバ130からなる資料検索システム10として構成してもよい。
図12は、資料検索システム10のシステム構成例を示す図である。
図12に示すように、資料検索システム10は、画像読み取り装置110、抽出装置120、サーバ130が、例えばネットワーク140を介して通信可能に接続された構成である。
画像読み取り装置110は、例えば、スキャナで構成でき、利用者が持参する書込みを含むドキュメント33を読み取る。
読み取られたドキュメント画像データは、ネットワーク140を介して抽出装置120に送られる。
抽出装置120は、例えば、OCR装置で構成できる。
抽出装置120は、ドキュメント画像データを受信し、印刷文字35の認識処理及び手書き文字39の認識処理を行い、テキストデータを作成するとともに、ドキュメント33に書き込まれた書込みマーク37を抽出し書込みマーク・データ41を作成する。
作成したテキストデータ及び書込みマーク・データ41は、ネットワーク140を介してサーバ3に送られる。
サーバ3は、検索対象資料から作成された特徴語データベース15及び辞書データベース18を具備する。
サーバ3は、汎用コンピュータ等で構成でき、図5のフローチャートのステップ104〜108の処理を実行する。
すなわち、サーバ3は、抽出装置120から受信したテキストデータから、辞書データベース18を用いて特徴語を抽出する処理を行い(ステップ104、105)、抽出装置120から受信した書込みマーク・データ41を元に、抽出した特徴語の重み付き重要度を算出して特徴データを作成し(ステップ106)、特徴語データベース15の各検索インデックスと特徴データの関連度を計算し(ステップ107)、関連度の高い検索対象資料を利用者に提示する(ステップ108)。
以上の説明において、利用者が、携帯端末やパーソナルコンピュータ等からドキュメント33の画像をインターネット等のネットワークを介して資料検索システム10に送り、送られたドキュメント画像を抽出装置120、サーバ130で処理し、検索結果をインターネット等のネットワークを介して携帯端末やパーソナルコンピュータに送り、表示部に検索結果を表示させるようにしてもよい。
また、以上の説明においては、特徴語として名詞及び未知語を使用すると説明したが、その他の品詞の単語も使用するようにしてもよい。
また、検索対象資料の特徴語データベース15における特徴語の出現頻度は、TF・IDF法による重み付けを行なうことが望ましいが、特徴語の出現頻度を用いずに、特徴語の出現の有無を示す2値ベクトルで表現してもよい。
また、特徴語の出現頻度の代わりに、隣り合って出現する特徴語の共起頻度(単語Nグラム)を要素とするベクトルを用いるようにしてもよい。
以上、添付図を参照しながら、本発明の実施の形態を説明したが、本発明の技術的範囲は、前述した実施の形態に左右されない。当業者であれば、特許請求の範囲に記載された技術的思想の範疇内において各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
1………資料検索装置
10………資料検索システム
11………ドキュメント入力部
12………文字認識・書込み抽出部
13………特徴語抽出部
14………特徴語重み付け部
15………検索対象資料の特徴語データベース
16………関連度計算部
17………検索結果表示部
18………辞書データベース
31………検索用インデックス
33………入力ドキュメント
35………印刷文字
37………書込みマーク
39………手書き文字
41………書込みマーク・データ
45………重み付き倍率
47………入力ドキュメント33の特徴データ

Claims (8)

  1. 特徴語データとの関連度に基づいて資料を検索する資料検索装置において、
    書込みを含むドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出手段と、
    前記書込みの種類と位置を抽出する書込み抽出手段と、
    検索対象資料の第1の特徴語とその重要度を含む検索用インデックスを記憶する記憶手段と、
    前記テキストデータから第2の特徴語を抽出する特徴語抽出手段と、
    前記書込みの位置の前記第2の特徴語に対して、当該書込みの種類に応じた重要度を算出するとともに、前記書込みの種類に応じて該当する前記第2の特徴語を削除して、前記テキストデータの第2の特徴語とその重要度を含む前記特徴語データを作成する特徴データ作成手段と、
    前記検索用インデックスと前記特徴語データとの関連度を計算する関連度計算手段と、
    を具備することを特徴とする資料検索装置。
  2. 前記書込み抽出手段は、前記書込みに対して、文字認識処理を施し、認識結果を前記テキストデータに加えることを特徴とする請求項1に記載の資料検索装置。
  3. 前記特徴データ作成手段は、前記書込みの種類に応じて前記第2の特徴語の重要度を変化することを特徴とする請求項1または請求項2に記載の資料検索装置
  4. 前記検索対象資料の検索用インデックスを作成するインデックス作成手段を更に具備することを特徴とする請求項1乃至請求項3のいずれかに記載の資料検索装置。
  5. 前記ドキュメント画像を読み取る画像読み取り手段を更に備えることを特徴とする請求項1乃至請求項4のいずれかに記載の資料検索装置。
  6. 特徴語データとの関連度に基づいて資料を検索する資料検索システムにおいて、
    書込みを含むドキュメント画像を読み取り、読み取った画像を送信する画像読み取り装置と、
    前記ドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出手段と、前記書込みの種類と位置を抽出する書込み抽出手段と、を備え、抽出したデータを送信する抽出装置と、
    検索対象資料の第1の特徴語とその重要度を含む検索用インデックスを記憶する記憶手段と、前記テキストデータから第2の特徴語を抽出する特徴語抽出手段と、前記書込みの位置の前記第2の特徴語に対して、当該書込みの種類に応じた重要度を算出するとともに、前記書込みの種類に応じて該当する前記第2の特徴語を削除して、前記テキストデータの第2の特徴語とその重要度を含む前記特徴語データを作成する特徴データ作成手段と、前記検索用インデックスと前記特徴語データとの関連度を計算する関連度計算手段と、を備えるサーバと、
    を具備することを特徴とする資料検索システム。
  7. 特徴語データとの関連度に基づいて資料を検索する資料検索装置で行う資料検索方法であって、
    書込みを含むドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出ステップと、
    前記書込みの種類と位置を抽出する書込み抽出ステップと、
    検索対象資料の第1の特徴語とその重要度を含む検索用インデックスを記憶する記憶ステップと、
    前記テキストデータから第2の特徴語を抽出する特徴語抽出ステップと、
    前記書込みの位置の前記第2の特徴語に対して、当該書込みの種類に応じた重要度を算出するとともに、前記書込みの種類に応じて該当する前記第2の特徴語を削除して、前記テキストデータの第2の特徴語とその重要度を含む前記特徴語データを作成する特徴データ作成ステップと、
    前記検索用インデックスと前記特徴語データとの関連度を計算する関連度計算ステップと、
    を含むことを特徴とする資料検索方法。
  8. コンピュータを、特徴語データとの関連度に基づいて資料を検索する資料検索装置として機能させるためのプログラムであって、
    前記コンピュータを、
    書込みを含むドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出手段と、
    前記書込みの種類と位置を抽出する書込み抽出手段と、
    検索対象資料の第1の特徴語とその重要度を含む検索用インデックスを記憶する記憶手段と、
    前記テキストデータから第2の特徴語を抽出する特徴語抽出手段と、
    前記書込みの位置の前記第2の特徴語に対して、当該書込みの種類に応じた重要度を算出するとともに、前記書込みの種類に応じて該当する前記第2の特徴語を削除して、前記テキストデータの第2の特徴語とその重要度を含む前記特徴語データを作成する特徴データ作成手段と、
    前記検索用インデックスと前記特徴語データとの関連度を計算する関連度計算手段、
    として機能させるためのプログラム。
JP2014056283A 2014-03-19 2014-03-19 資料検索装置、資料検索システム、資料検索方法、及び、プログラム Active JP6303669B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014056283A JP6303669B2 (ja) 2014-03-19 2014-03-19 資料検索装置、資料検索システム、資料検索方法、及び、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014056283A JP6303669B2 (ja) 2014-03-19 2014-03-19 資料検索装置、資料検索システム、資料検索方法、及び、プログラム

Publications (2)

Publication Number Publication Date
JP2015179385A JP2015179385A (ja) 2015-10-08
JP6303669B2 true JP6303669B2 (ja) 2018-04-04

Family

ID=54263390

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014056283A Active JP6303669B2 (ja) 2014-03-19 2014-03-19 資料検索装置、資料検索システム、資料検索方法、及び、プログラム

Country Status (1)

Country Link
JP (1) JP6303669B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10102206B2 (en) * 2016-03-31 2018-10-16 Dropbox, Inc. Intelligently identifying and presenting digital documents
CN107291871B (zh) * 2017-06-15 2021-02-19 北京百度网讯科技有限公司 基于人工智能的多域信息的匹配度评估方法、设备及介质
JP7324577B2 (ja) * 2018-10-24 2023-08-10 Solize株式会社 テキスト処理方法及び、テキスト処理装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3746233B2 (ja) * 2001-12-26 2006-02-15 株式会社東芝 知識分析システムおよび知識分析方法
JP2006133880A (ja) * 2004-11-02 2006-05-25 Canon Inc 情報処理装置及び情報処理方法
JP2006190060A (ja) * 2005-01-06 2006-07-20 Kyocera Mita Corp データベース検索方法、データベース検索プログラムおよび原稿処理機
JP5205028B2 (ja) * 2007-10-15 2013-06-05 株式会社日立製作所 手書き注釈管理装置およびインタフェース

Also Published As

Publication number Publication date
JP2015179385A (ja) 2015-10-08

Similar Documents

Publication Publication Date Title
Jockers et al. Text‐mining the humanities
JP5159772B2 (ja) 文書検索装置及び文書検索方法
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
US20180181544A1 (en) Systems for Automatically Extracting Job Skills from an Electronic Document
US20130036076A1 (en) Method for keyword extraction
US11023721B2 (en) Document information evaluating device, document information evaluating method, and document information evaluating program
US20130036113A1 (en) System and Method for Automatically Providing a Graphical Layout Based on an Example Graphic Layout
Mutuvi et al. Evaluating the impact of OCR errors on topic modeling
JP4997892B2 (ja) 検索システム、検索方法及び検索プログラム
US9507805B1 (en) Drawing based search queries
EP2806336A1 (en) Text prediction in a text input associated with an image
CN110032734B (zh) 近义词扩展及生成对抗网络模型训练方法和装置
KR102059743B1 (ko) 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템
CN106980664A (zh) 一种双语可比较语料挖掘方法及装置
Wei et al. LDA-based word image representation for keyword spotting on historical Mongolian documents
JP6303669B2 (ja) 資料検索装置、資料検索システム、資料検索方法、及び、プログラム
López-Escobedo et al. Analysis of intertextual distances using multidimensional scaling in the context of authorship attribution
JP2008129793A (ja) 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
Dahlberg et al. A distributional semantic online lexicon for linguistic explorations of societies
Singh et al. A benchmark dataset of online handwritten gurmukhi script words and numerals
JP2012230544A (ja) 画像検索装置およびプログラム
JP5414334B2 (ja) 擬似文書検索システム及び擬似文書検索方法
Dinov et al. Natural language processing/text mining
Yeh et al. A case for query by image and text content: searching computer help using screenshots and keywords
Saabni et al. Keywords image retrieval in historical handwritten Arabic documents

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170124

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171205

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180116

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180219

R150 Certificate of patent or registration of utility model

Ref document number: 6303669

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150