JP5652299B2 - 書籍情報検索装置、書籍情報検索システム、書籍情報検索方法およびプログラム - Google Patents

書籍情報検索装置、書籍情報検索システム、書籍情報検索方法およびプログラム Download PDF

Info

Publication number
JP5652299B2
JP5652299B2 JP2011077210A JP2011077210A JP5652299B2 JP 5652299 B2 JP5652299 B2 JP 5652299B2 JP 2011077210 A JP2011077210 A JP 2011077210A JP 2011077210 A JP2011077210 A JP 2011077210A JP 5652299 B2 JP5652299 B2 JP 5652299B2
Authority
JP
Japan
Prior art keywords
search
illustration
information
book
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011077210A
Other languages
English (en)
Other versions
JP2012212290A (ja
Inventor
侑吾 西川
侑吾 西川
伊藤 直之
直之 伊藤
和久 大野
和久 大野
貴浩 平山
貴浩 平山
忠明 大西
忠明 大西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2011077210A priority Critical patent/JP5652299B2/ja
Publication of JP2012212290A publication Critical patent/JP2012212290A/ja
Application granted granted Critical
Publication of JP5652299B2 publication Critical patent/JP5652299B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、書籍情報を検索する書籍情報検索装置、書籍情報検索システム、書籍情報検索方法およびプログラムに関し、特に、書籍の図版やその図版の説明箇所を利用して書籍を容易に検索する書籍情報検索装置等に関するものである。
従来の書籍情報検索では、ユーザが知らない知識を得るために関連する書籍を検索する場合、書籍の全文検索が可能なシステムに対して、調べたい分野や関係しそうな単語を入力する自由入力方式が採用されている。そして、自由入力方式の検索結果としては、入力された分野や単語(以下、ユーザが検索のために入力する文字列を「入力キーワード」という)を本文に含む書籍の所在情報(実在する図書館や書店等の場合には書籍が存在する棚の情報、インターネットにおける仮想書店等の場合には書籍の詳細情報に係るウエブページのURL(Uniform Resource Locator))が提示される。
このような書籍情報検索の仕組みでは、ユーザが適切な入力キーワードを知らなければ、ユーザが所望する検索結果を得ることが難しい。つまり、知識が全くない分野に関する書籍を検索することは難しい。
このような問題を解決するための従来技術として、入力キーワードを用いて検索を行った後、検索結果を分析してユーザに有益と思われる関連語を提示するという仕組みがある(特許文献1参照)。
特許文献1では、書籍の本文のテキストデータ全体から単語の抽出を行い、単語間の関連度を統計的に算出し、関連度に基づいて入力キーワードに対して関連語を選出する。
特許第3099756号公報
しかしながら、特許文献1に記載の仕組みを含めて従来の技術では、書籍の本文のテキストデータ全体から抽出される単語が、書籍が対象としている分野における基本的かつ重要な用語とは限らない。つまり、書籍の内容に関係ない語まで検索されてしまうという課題があった。
そこで、書籍の内容を適切に説明したキーワードや文章を人手で作成し、検索用メタデータとして書誌データに加えるという方法も考えられるが、作業コストが大きいという課題があった。
本発明は、前述した問題点に鑑みてなされたもので、その目的とすることは、書籍の図版やその図版の説明箇所を利用して書籍を容易に検索することができる書籍情報検索装置等を提供することである。
前述した目的を達成するために、第1の発明は、書籍の図版を特定する図版特定情報および図版説明文を抽出するパターンである抽出パターンを記憶する抽出パターン記憶手段と、前記抽出パターンに従って、前記図版特定情報および前記図版説明文を抽出する抽出手段と、前記抽出手段により抽出された前記図版特定情報および前記図版説明文を、検索用メタ情報として記憶する検索用メタ情報記憶手段と、入力される検索キーワードによって前記検索用メタ情報記憶手段を検索し、前記検索キーワードを含む前記検索用メタ情報に対応付けられている書籍の書誌情報を検索結果として提示する検索手段と、を備え、前記抽出パターンは、予め定められている文字パターン及び抽出ルールの組み合わせによって構成され、前記抽出手段は、前記抽出ルールに従って、前記文字パターンを前記図版特定情報とし、前記図版特定情報を含む一文及び次の一文を前記図版説明文とする、又は、かっこ書きの中に含まれる前記文字パターンを前記図版特定情報とし、前記図版特定情報を含む前記かっこ書きの直前の一文を前記図版説明文とすることを特徴とする書籍情報検索装置である。
第1の発明によって、書籍の中の図版と図版を説明している箇所を利用して書籍を容易に検索することができる。
前記抽出手段は、前記図版説明文のキーワードである図版キーワードを抽出し、前記検索用メタ情報記憶手段は、更に、前記図版キーワードを記憶し、前記検索手段は、前記図版キーワードを、前記検索結果とともに提示する。
これにより、ユーザは、提示された書籍と図版キーワードから、所望の書籍であるか否かを容易に判定することが可能となる。
前記検索用メタ情報記憶手段は、更に、前記図版特定情報によって特定される図版を記憶し、前記検索手段は、前記図版を、前記検索結果とともに提示する。
これにより、ユーザは、提示された書籍と図版から、所望の書籍であるか否かを容易に判定することが可能となる。
第2の発明は、サーバと端末とがネットワークを介して接続される書籍情報検索システムであって、前記サーバは、書籍の図版を特定する図版特定情報および図版説明文を抽出するパターンである抽出パターンを記憶する抽出パターン記憶手段と、前記抽出パターンに従って、前記図版特定情報および前記図版説明文を抽出する抽出手段と、前記抽出手段により抽出された前記図版特定情報および前記図版説明文を、検索用メタ情報として記憶する検索用メタ情報記憶手段と、入力される検索キーワードによって前記検索用メタ情報記憶手段を検索し、前記検索キーワードを含む前記検索用メタ情報に対応付けられている書籍の書誌情報を検索結果として提示する検索手段と、を備え、前記端末は、前記書籍データの検索条件を入力するための検索条件入力画面を表示し、前記検索条件入力画面に入力される前記入力キーワードを前記サーバに送信するキーワード入力手段と、前記サーバから提示される前記追加キーワードを受信し、前記検索結果表示画面に表示するキーワード表示手段と、を備え、前記抽出パターンは、予め定められている文字パターン及び抽出ルールの組み合わせによって構成され、前記抽出手段は、前記抽出ルールに従って、前記文字パターンを前記図版特定情報とし、前記図版特定情報を含む一文及び次の一文を前記図版説明文とする、又は、かっこ書きの中に含まれる前記文字パターンを前記図版特定情報とし、前記図版特定情報を含む前記かっこ書きの直前の一文を前記図版説明文とすることを特徴とする書籍情報検索システムある。
第2の発明によって、書籍の中の図版と図版を説明している箇所を利用して書籍を容易に検索することができる。
第3の発明は、コンピュータの制御部が、書籍の図版を特定する図版特定情報および図版説明文を抽出するパターンである抽出パターンを前記コンピュータの記憶部に記憶する抽出パターン記憶ステップと、前記制御部が、、前記抽出パターンに従って、前記図版特定情報および前記図版説明文を抽出する抽出ステップと、前記制御部が、前記抽出ステップで抽出された前記図版特定情報および前記図版説明文を、検索用メタ情報として前記記憶部に記憶する検索用メタ情報記憶ステップと、前記制御部が、前記コンピュータの入力部によって入力される検索キーワードによって前記検索用メタ情報を検索し、前記検索キーワードを含む前記検索用メタ情報に対応付けられている書籍の書誌情報を検索結果として前記コンピュータの表示部に提示する検索ステップと、を含み、前記抽出パターンは、予め定められている文字パターン及び抽出ルールの組み合わせによって構成され、前記抽出ステップにおいて、前記制御部は、前記抽出ルールに従って、前記文字パターンを前記図版特定情報とし、前記図版特定情報を含む一文及び次の一文を前記図版説明文とする、又は、かっこ書きの中に含まれる前記文字パターンを前記図版特定情報とし、前記図版特定情報を含む前記かっこ書きの直前の一文を前記図版説明文とすることを特徴とする書籍情報検索方法である。
第3の発明によって、書籍の中の図版と図版を説明している箇所を利用して書籍を容易に検索することができる。
第4の発明は、コンピュータを、書籍の図版を特定する図版特定情報および図版説明文を抽出するパターンである抽出パターンを記憶する抽出パターン記憶手段と、前記抽出パターンに従って、前記図版特定情報および前記図版説明文を抽出する抽出手段と、前記抽出手段により抽出された前記図版特定情報および前記図版説明文を、検索用メタ情報として記憶する検索用メタ情報記憶手段と、入力される検索キーワードによって前記検索用メタ情報を検索し、前記検索キーワードを含む前記検索用メタ情報に対応付けられている書籍の書誌情報を検索結果として提示する検索手段として機能させ、前記抽出パターンは、予め定められている文字パターン及び抽出ルールの組み合わせによって構成され、前記抽出手段は、前記抽出ルールに従って、前記文字パターンを前記図版特定情報とし、前記図版特定情報を含む一文及び次の一文を前記図版説明文とする、又は、かっこ書きの中に含まれる前記文字パターンを前記図版特定情報とし、前記図版特定情報を含む前記かっこ書きの直前の一文を前記図版説明文とするためのコンピュータ読み取り可能なプログラムである。
第4の発明におけるプログラムを汎用のコンピュータにインストールすることによって、第1の発明における書籍情報検索装置、又は、第2の発明における書籍情報検索システムを得ることができる。
本発明により、書籍の図版やその図版の説明箇所を利用して書籍を容易に検索する書籍情報検索装置、書籍情報検索システム、書籍情報検索方法およびプログラムを提供することができる。
本発明の実施の形態に係る書籍情報検索システムの構成例を示す図である。 サーバのハードウェアの構成例を示すブロック図である。 本実施の形態における書籍の検索用メタデータの作成例の概要を説明するための図である。 サーバの記憶部に記憶されるデータベースを示す図である。 書籍データのデータ構造例を示す図である。 書誌データの一例を示す図である。 目次データの一例を示す図である。 本文データの一例を示す図である。 図版データの一例を示す図である。 抽出パターンデータの一例を示す図である。 検索用メタデータの一例を示す図である。 書籍情報検索処理の概要を示すフローチャートである。 図12に示すステップS102の検索用メタ情報作成処理の詳細について説明するフローチャートである。 図版特定情報と図版説明文を抽出する例を説明するための図である。 図版特定情報と図版説明文を抽出する他の例を説明するための図である。 図12のステップS103の検索処理の詳細を説明するフローチャートである。 検索条件入力画面および検索結果表示画面の一例を示す図である。
以下、図面に基づいて、本発明の実施形態を詳細に説明する。
[本発明の実施の形態]
図1は、本発明の実施の形態に係る書籍情報検索システム1の構成例を示す図である。
図1に示す書籍情報検索システムは、サーバ2と端末3とがネットワーク5を介して相互に接続されることで構成される。なお、サーバ2および端末3の数は、任意であり、それぞれ複数設けることも勿論可能である。
サーバ2は、CPU(Central
Processing Unit)、ROM(Read Only
Memory)、RAM(Random Access
Memory)、HDD(Hard Disc Drive)等からなるコンピュータシステムであり、端末3から書籍情報の検索要求を受信して、端末3に書籍情報の検索結果等を送信する。
端末3は、CPU、ROM、RAM、HDD、入力部、および表示画面などを実装したコンピュータである。端末3は、ユーザによる入力情報を受け付けて、ネットワーク5を介してサーバ2に検索要求として送信し、サーバ2から検索結果等を受信して、検索結果等をユーザに提示する。
ネットワーク5は、LAN(Local
Area Network)やインターネット等のネットワークであり、有線、無線は特に問わない。
図2は、サーバ2のハードウェアの構成例を示すブロック図である。なお、図2のハードウェア構成は一例であり、用途、目的に応じて様々な構成を採ることが可能である。また、端末3も基本的にサーバ2と同様の構成を有する。
サーバ2(端末3)を実現するコンピュータは、制御部11、記憶部12、メディア入出力部13、通信制御部14、入力部15、表示部16、周辺機器I/F(インターフェイス)部17等が、バス18を介して接続される。
制御部11は、CPU、ROM、RAM等で構成される。CPUは、記憶部12、ROM、記録媒体等に格納されるプログラムをRAM上のワークメモリ領域に呼び出して実行し、バス18を介して接続された各装置を駆動制御し、サーバ2(端末3)が行う後述する処理を実現する。ROMは、不揮発性メモリであり、コンピュータのブートプログラムやBIOS(Basic Input/Output System)等のプログラム、データ等を恒久的に保持している。RAMは、揮発性メモリであり、記憶部12、ROM、記録媒体等からロードしたプログラム、データ等を一時的に保持するとともに、制御部11が各種処理を行う為に使用するワークエリアを備える。
記憶部12は、HDDであり、制御部11が実行するプログラム、プログラム実行に必要なデータ、OS(オペレーティングシステム)等が格納される。プログラムに関しては、OS(オペレーティングシステム)に相当する制御プログラムや、後述する処理をコンピュータに実行させるためのアプリケーションプログラムが格納されている。これらの各プログラムコードは、制御部11により必要に応じて読み出されてRAMに移され、CPUに読み出されて各種の手段として実行される。
メディア入出力部13(ドライブ装置)は、データの入出力を行い、例えば、CDドライブ(−ROM、−R、−RW等)、DVDドライブ(−ROM、−R、−RW等)等のメディア入出力装置を有する。通信制御部14は、通信制御装置、通信ポート等を有し、コンピュータとネットワーク間の通信を媒介する通信インターフェイスであり、ネットワーク5を介して、他のコンピュータ間との通信制御を行う。
入力部15は、データの入力を行い、例えば、キーボード、マウス等のポインティングデバイス、テンキー等の入力装置を有する。入力部15を介して、コンピュータに対して、操作指示、動作指示、データ入力等を行うことができる。
表示部16は、液晶パネル等のディスプレイ装置、ディスプレイ装置と連携してコンピュータのビデオ機能を実現するための論理回路等(ビデオアダプタ等)を有する。
周辺機器I/F部17は、コンピュータに周辺機器を接続させるためのポートであり、周辺機器I/F部17を介してコンピュータは周辺機器とのデータの送受信を行う。周辺機器I/F部17は、USB(Universal Serial Bus)やIEEE(The Institute of Electrical and
Electronics Engineers)1394やRS(Recommended Standard)−232C等で構成されており、通常複数の周辺機器I/Fを有する。周辺機器との接続形態は有線、無線を問わない。バス18は、各装置間の制御信号、データ信号等の授受を媒介する経路である。
図3は、本実施の形態における書籍の検索用メタデータの作成例の概要を説明するための図である。
図3の例では、「最新ゲーム業界動向」という書籍名を有する書籍Aにおいて、「図1」の図版、および「A社のゲーム機・・・発売できた。」の図1の説明箇所が判定される。そして、書籍Aの中の「A社のゲーム機・・・発売できた。」の図版説明箇所、および、図版説明箇所内における「A社」、「ゲーム機×××」、「売上推移」、「新規参入」、「ゲームソフト」、「発売」のキーワード群、および図1の図版データ(ファイル)が、書籍Aの検索用メタデータとして抽出され、書籍Aに付与される。つまり、書籍Aの中の図版データおよびその図版の説明箇所内のキーワード群は、書籍Aの内容を適切に説明しているため、検索用メタデータとして有効に利用することができる。その検索用メタデータを用いてユーザの希望する書籍を適切に探し出すことができる。
図4は、サーバ2の記憶部12に記憶されるデータベースを示す図である。図4に示すように、サーバ2の記憶部12には、書籍情報データベース21、抽出パターン情報データベース22、および検索用メタ情報データベース23が記憶される。
書籍情報データベース21は、少なくとも、書誌データ、目次データ、および本文データを、書籍ごとに書籍データとして記憶する。抽出パターン情報データベース22は、書籍のなかの図版およびその図版の説明箇所を抽出するための抽出ルールや文字パターンを、抽出パターン情報として記憶する。検索用メタ情報データベース23は、サーバ2によって登録されたキーワードや文章を、検索用メタ情報として記憶する。検索用メタ情報データベース23に記憶される検索用メタ情報は、後述する図13のフローチャートに示す処理によってサーバ2が登録するものである。
次に、図5〜図11を参照しながら、本発明の実施の形態に用いられるデータについて説明する。
図5は、書籍データ31のデータ構造例を示す図である。書籍データ31は、書籍情報データベース21に記憶されるデータであり、書籍1冊分のデータである。図5に示すように、書籍データ31は、書誌データ41、目次データ51、本文データ61、および図版データ71を含む。
書誌データ41は、書籍の題号、著者、出版社、出版年月等を含む。書誌データ41は、書籍を探す為の一般的な情報である。目次データ51は、書籍の本文の内容を示す見出し、および、見出しに対応する先頭ページ又は最終ページを含む。本文データ61は、書籍の本文に関する電子データ(コンピュータが利用可能なデータ)である。図版データ71は、図番、図版のファイル等を含む。図版データ71は、図版を示す為の一般的な情報である。
一般に、目次は、著者や編集者により作成されることから、目次に含まれる各見出しによって、書籍の内容が細かい区切り単位によって適切に区切られていると考えられる。したがって、本文は、見出しによる、書籍の単位よりも細かい区切り単位によって、その内容が適切に区切られていると考えられる。また、書籍では、紙面の制約や編集コストの制限があるため、掲載される図版は限定される。そのため、実際に書籍に掲載された図版群は、著者や編集者が当該書籍の内容を説明するために特に選定したものであると考えられる。換言すれば、書籍に掲載された図版群は、書籍の内容を適切に表現していると言える。
本発明の技術的思想は、このような目次で区切られる本文および図版の性質に着目し、書誌データ41〜図版データ71を含む書籍データ31を利用して、検索精度を高めるというものである。
図6は、書誌データ41の一例を示す図である。図6に示すように、書誌データ41は、例えば、ISBN(International Standard Book Number)42、題号43、著者44、出版社45、出版年月46等を含む。ISBN42は、世界共通で図書(書籍)を特定するための番号である。尚、書誌データ41に含まれるデータは、これらに限定されるわけではない。
図6に示す書誌データ41の例では、ISBN42が「書籍A」、題号43が「最新Java(登録商標)script応用」、著者44が「人名A」、出版社45が「出版社名A」、出版年月46が「2010年9月」のデータ、および、ISBN42が「書籍B」、題号43が「かんたんJava(登録商標)script」、著者44が「人名B」、出版社45が「出版社名B」、出版年月46が「2011年2月」のデータが示されている。
図7は、目次データ51の一例を示す図である。図7に示すように、目次データ51は、項番52、見出し53、先頭ページ54を含む。
見出し53は、書籍の区切り単位での本文の内容を示す題名である。項番52は、見出し53の項を示す番号である。先頭ページ54は、見出し53で区切られた本文のページ範囲の中で最も小さいページ番号である。尚、先頭ページ54に代えて、最終ページ(見出し53で区切られた本文のページ範囲の中で最も大きいページ番号)としても良い。
図7に示す目次データ51の例では、項番52が「1.」、見出し53が「主要企業の動向」、先頭ページ54が「p2」のデータ、および、項番52が「1.1」、見出し53が「A社の動向」、先頭ページ54が「p2」のデータが示されている。
図8は、本文データ61の一例を示す図である。図8に示すように、本文データ61は、ページ62およびテキスト63を含む。
ページ62は、書籍の本文のひとまとまりのデータ(1枚の紙の1つの面に組み込まれるデータ)が示される位置に相当するものである。テキスト63は、ページ62のページ内に含まれる書籍の本文に関する電子データである。図8に示す例では、ページ62が「p3」、テキスト63が「・・・A社のゲーム機・・・発売できた。・・・」のデータが示されている。
図9は、図版データ71の一例を示す図である。図9に示すように、図版データ71は、ページ72、図番73、および図版74を含む。
ページ72は、書籍内において図版74が示される位置に相当するものである。図番73は、図版74を特定するための番号である。図版74は、図版を特定するためのファイル名である。図9に示す例では、ページ72が「p3」、図番73が「図1」、図版74が「書籍A_図1.jpg」のデータが示されている。
図10は、抽出パターンデータ81の一例を示す図である。抽出パターンデータ81は、抽出パターン情報データベース22に記憶されるデータである。図10に示すように、抽出パターンデータ81は、No82、抽出ルール83、および文字パターン84を含む。
No82は、抽出ルール83と文字パターン84からなる抽出パターンの項を示す番号である。文字パターン84は、図版を抽出するための文字列や記号等の条件である。抽出ルール83は、文字パターン84に基づく抽出方法である。
図10に示す例では、No82が「1」の抽出パターンが選択された場合には、図X、表X、グラフX、写真X等の文字列(文字パターン)を「図版特定情報」とし、図版特定情報を含む一文および次の一文を「図版説明文」として抽出することができる。No82が「2」の抽出パターンが選択された場合には、かっこ書き等によって囲まれた一文の中に含まれる図X、表X、グラフX、写真X等の文字列(文字パターン)を「図版特定情報」とし、かっこ書きの直前の一文を「図版説明文」として抽出することができる。
図11は、検索用メタデータ91の一例を示す図である。検索用メタデータ91は、検索用メタ情報データベース23に記憶されるデータである。図11に示すように、検索用メタデータ91は、ISBN92、図版説明文93、図版キーワード94、および図版95を含む。
ISBN92は、検索用メタデータ91の付与先の書籍を特定するための番号である。このISBN92は、書籍情報データベース21に記憶されている書籍データ31の書誌データ41のISBN42と関連付けられる。図版説明文93は、書籍内の本文中における図版の説明文である。図版キーワード94は、図版説明文93内におけるキーワード(文字列)である。図版95は、図版を特定するためのファイル名である。
図11に示すような検索用メタデータ91のデータ構造により、書籍と図版が関連付けられ、検索精度を向上させることができる。尚、検索用メタデータ91には、図版説明文93と図版キーワード94が含まれているが、これに限らず、いずれか一方のみでも良い。
次に、図12〜図17を参照しながら、本発明の実施の形態における処理の詳細について説明する。
図12は、書籍情報検索処理の概要を示すフローチャートである。図12は、書籍情報検索システム1によって実行される書籍情報検索処理を示している。
図12に示すステップS101およびステップS102は、検索処理に利用される抽出パターン情報データベース22および検索用メタ情報データベース23を構築するための事前処理である。ステップS103は、ユーザからの入力を受け付けて書籍情報を検索する検索処理である。
ステップS101において、サーバ2の制御部11は、入力部15からユーザの入力(登録)に応じて供給される入力信号を受け付けて、抽出パターンデータ81(図10)を、記憶部12の抽出パターン情報データベース22に登録(記憶)する処理を実行する。
ステップS102において、サーバ2の制御部11は、ステップS101で抽出パターン情報データベース22に登録された抽出パターンデータ81に基づいて、検索用メタ情報を作成する処理を実行する。サーバ2の制御部11は、作成した検索用メタデータ91を、記憶部12の検索用メタ情報データベース23に記憶する。
ステップS103において、サーバ2の制御部11は、ユーザからの検索要求に応じて、ステップS102で作成した検索用メタデータ91を用いて、記憶部12の書籍情報データベース21を検索し、検索結果をユーザに提示する。その詳細は、図16のフローチャートを参照して後述するが、例えば、端末3の制御部11が、書籍データ31の図版を検索するための検索条件入力画面を表示し、検索条件入力画面に入力される検索キーワードを、ネットワーク5を介してサーバ2に送信する。この検索キーワードを受信したサーバ2の制御部11は、検索キーワードに対応する検索用メタデータ91に基づいて書籍データ31の図版を検索し、検索結果を端末3に送信する。
以上のようにして、書籍に関連する図版を容易に検索することが可能となる。
図13は、図12に示すステップS102の検索用メタ情報作成処理の詳細について説明するフローチャートである。図13の説明に当たり、図5〜図11、図14、図15を参照し、具体的なデータに対応する処理内容も説明する。図14、図15は、抽出パターン例を説明する図である。
ステップS201において、サーバ2の制御部11は、書籍情報データベース21から書籍データ31を1件読み込む。サーバ2の制御部11は、例えば、図5に示すような書籍データ31を読み込む。読み込まれた書籍データ31は、図6に示す書誌データ41、図7に示す目次データ51、図8に示す本文データ61、および図9に示す図版データ71を含む。
ステップS202において、サーバ2の制御部11は、抽出パターン情報データベース22から、図10に示すような抽出パターンデータ81を1つ選択する。ステップS203において、サーバ2の制御部11は、ステップS202で選択した抽出パターンに従って、ステップS201で読み込んだ書籍データ31の中から図版特定情報と図版説明文を抽出する。
図14は、図10に示す抽出パターンデータ81のうち、No82が「1」の抽出パターンを選択した場合の図版特定情報と図版説明文を抽出する例を説明するための図である。
サーバ2の制御部11は、書籍データ31の中から、文字パターン84(図X、表X、グラフX、写真X等)を「図版特定情報」とし、図版特定情報を含む一文および次の一文を「図版説明文」として抽出する。図14の例では、図版特定情報の「図1」を含む一文および次の一文である「A社のゲーム機・・・ゲームソフトを発売できた。」が検索される。そして、矢印A1の先に示されるように、「図1」が図版特定情報として抽出され、「A社のゲーム機・・・ゲームソフトを発売できた。」が図版説明文として抽出され、「書籍A_図1.jpg」が図版データ(ファイル)として抽出される。
図15は、図10に示す抽出パターンデータ81のうち、No82が「2」の抽出パターンを選択した場合の図版特定情報と図版説明文を抽出する例を説明するための図である。
サーバ2の制御部11は、書籍データ31の中から、かっこ書き等によって囲まれた一文に含まれる文字パターン84(図X、表X、グラフX、写真X等)を「図版特定情報」とし、かっこ書きの直前の一文を「図版説明文」として抽出する。図15の例では、「A社のゲーム機・・・分かる(図1)。」が検索される。そして、矢印A2の先に示されるように、「図1」が図版特定情報として抽出され、「A社のゲーム機・・・分かる」が図版説明文として抽出され、「書籍A_図1.jpg」が図版データとして抽出される。
図13の説明に戻る。ステップS204において、サーバ2の制御部11は、ステップS203で抽出した図版説明文からキーワードを抽出する。キーワード抽出には、形態素解析や構文解析等が用いられ、例えば、図14および図15に示した参照文からは、「A社」、「ゲーム機×××」、「売上推移」、「新規参入」、「ゲームソフト」、「発売」がキーワードとして抽出される。尚、ステップS204のキーワードを抽出する処理は必須ではない。
ステップS205において、サーバ2の制御部11は、ステップS203で抽出した図版特定情報および図版説明文、ステップS204で抽出したキーワードに基づいて、検索用メタデータ91を作成し、記憶部12の検索用メタ情報データベース23に登録する。サーバ2の制御部11は、例えば、図11に示すような検索用メタデータ91を作成し、検索用メタ情報データベース23に登録する。
ステップS206において、サーバ2の制御部11は、全抽出パターンの処理が終了したか否か、すなわち、図10に示した抽出パターンデータ81の全ての抽出パターンについて処理を行ったか否かを判定し、未だ全抽出パターンの処理が終了していないと判定した場合、ステップS202に戻り、上述した処理を繰り返し実行する。
ステップS206において、サーバ2の制御部11は、全抽出パターンの処理が終了したと判定した場合、ステップS207に進み、全書籍データの処理が終了したか否か、すなわち、図5に示した書籍データ31に含まれる全ての書誌データ41について処理を行ったか否かを判定し、未だ全書籍データの処理が終了していないと判定した場合、ステップS201に戻り、上述した処理を繰り返し実行する。
ステップS207において、サーバ2の制御部11は、全書籍データの処理が終了したと判定した場合、検索用メタ情報作成処理を終了し、図12のステップS103に戻る。
図16は、図12のステップS103の検索処理の詳細を説明するフローチャートである。図16の説明に当たり、図11、図17を参照し、具体的なデータに対する処理内容も説明する。図17は、検索条件入力画面100および検索結果表示画面110の一例を示す図である。
ステップS301において、端末3の制御部11は、検索条件入力画面100を表示部16に表示させる。ステップS302において、入力部15は、ユーザからの検索キーワードの入力を受け付ける。ステップS303において、端末3の制御部11は、ステップS302で入力された検索キーワードを、通信制御部14およびネットワーク5を介してサーバ2に送信する。
図17(a)は、S302における検索条件入力画面100を示している。図17(a)に示す検索条件入力画面100には、テキスト全文検索を行うための検索キーワードを入力するキーワード入力用テキストボックス101、図版情報検索を行うための検索キーワードを入力するキーワード入力用テキストボックス102が表示されている。また検索条件入力画面100には、キーワード入力用テキストボックス101、102に入力された検索キーワードを用いて検索を実行する場合に選択(押下)される検索ボタン103、および検索処理を終了する場合に選択される終了ボタン104も表示されている。
図17(a)の例では、キーワード入力用テキストボックス102に、検索キーワードとして「A社」が入力されている。ユーザが、入力部15を介して検索ボタン103を選択すると、端末3の制御部11は、検索キーワード「A社」を、ネットワーク5を介してサーバ2に送信する。
図16の説明に戻る。ステップS304において、サーバ2の制御部11は、端末3から送信されてきた検索キーワードを受信し、受信した検索キーワードに基づいて、記憶部12の書籍情報データベース21を検索する。例えば、図8に示す本文データ61を含む書籍データ31が検索される。そして検索結果である書籍データ31は、RAMに記憶しておく。
ステップS305において、サーバ2の制御部11は、記憶部12の検索用メタ情報データベース23の検索用メタデータ91から、受信した検索用キーワードに対する図版キーワード、図版を取得する。例えば、図11に示す検索用メタデータ91から、「A社」、「ゲーム機×××」、「売上推移」、「新規参入」、「ゲームソフト」、「発売」が図版キーワードとして取得されるとともに、「書籍A_図1.jpg」が図版として取得される。そして取得された図版キーワード、図版は、RAMに記憶しておく。
ステップS306において、サーバ2の制御部11は、通信制御部14およびネットワーク5を介して、RAMに記憶されている検索結果、図版キーワード、図版を端末3に送信する。
ステップS307において、端末3の制御部11は、ネットワーク5を介してサーバ2から送信されてきた検索結果、図版キーワード、図版に基づいて、検索結果表示画面110を表示部16に表示させる。
図17(b)は、ステップS307における検索結果表示画面110を示している。図17(b)に示す検索結果表示画面110の例では、検索メニュー111が「図版情報検索」、検索キーワード112が「A社」、検索結果が「最新ゲーム業界動向」、図版キーワードが「A社」、「ゲーム機×××」、「売上推移」、「新規参入」、「ゲームソフト」、「発売」、図版データ115がA社のゲーム機×××の売上推移のグラフであることが示されている。また検索結果表示画面110には、再検索を実行する場合に選択(押下)される再検索ボタン116、および検索処理を終了する場合に選択される終了ボタン117も表示されている。
ステップS308において、端末3の制御部11は、ユーザが入力部15を用いて検索終了を入力したか、すなわち、ユーザが検索条件入力画面100の終了ボタン104または検索結果表示画面110の終了ボタン117を選択したか否かを判定し、未だ検索終了ではないと判定した場合、ステップS309に進む。
ステップS309において、端末3の入力部15は、ユーザからの検索キーワードの変更を受け付ける。その後、端末3の制御部11は、ステップS303に戻り、上述した処理を繰り返し実行する。そして、ステップS308において、端末3の制御部11は、ユーザが入力部15を用いて検索終了を入力したと判定した場合、処理を終了する。
以上のように、書籍の図版特定情報および図版説明文の抽出パターンを予め記憶しておき、その抽出パターンに従って、図版特定情報および図版説明文を抽出し、抽出されたそれらの情報を、書籍の検索用メタ情報として関連付けることによって、キーワードに対する検索用メタ情報を検索し、検索した検索用メタ情報に対応付けられている書籍の図版特定情報および図版説明文に含まれるキーワード群を検索結果として提示することができる。これにより、書籍を精度良く検索することができる。
ところで、図10に示すような抽出パターンデータ81を用いなかった場合(テキスト全文検索の場合)の検索処理について考えてみる。
(例1)
書籍Aの中に「日本の二輪車出荷台数とA社の販売台数の推移」を示す図Aが掲載されていたとする。その書籍Aの本文では、「B社」、「C社」などのその他の二輪車メーカも登場するため、テキスト全文検索では、「B社」、「販売台数」などの検索キーワードが入力された場合、当該書籍Aが検索されてしまう。
(例2)
書籍Bの中に「タッチパネルの市場規模の予測」を示す図Bが掲載されていたとする。その書籍Bの本文では、「ゲーム機」、「3D」などの語も登場するため、テキスト全文検索では、「ゲーム機」、「市場規模」などの検索キーワードが入力された場合でも、当該書籍Bが検索されてしまう。
(例3)
書籍Cの中に「行動ターゲティング広告」の詳細を解説するための図Cが掲載されていたとする。「行動ターゲティング広告」という言葉を知らない検索ユーザが、この「行動ターゲティング広告」について知りたい場合、テキスト全文検索では、「ユーザ」、「関心」、「広告」などの、あらゆる書籍に頻出する検索キーワードを入力して検索するため、書籍Cに辿り着くことが困難になる。
以上のように、抽出パターンデータ81を用いない場合には、テキスト全文検索の機能しか提供することができず、ユーザが所望する書籍を検索することができない。一方、本発明の実施の形態のように、抽出パターンデータ81を用いることにより、図版情報検索の機能を提供し、不要な書籍を排除して、図版説明箇所内のキーワード群を検索することができ、ユーザが所望する書籍を適切に検索することが可能となる。
[発明の実施の形態における効果]
1.以上、本発明の実施の形態における書籍情報検索システム1によれば、書籍の中の図版と図版を説明している箇所が、当該書籍の内容を適切に説明していることから、書籍の中の図版と図版を説明している箇所を検索用メタデータとして利用することで、書籍を精度良く検索することが可能となる。
2.ユーザが予め抽出パターンデータ81を登録しておくことで、その抽出パターンに従って効率良く図版特定情報および図版説明文を抽出することができ、抽出された図版特定情報および図版説明文に基づいて検索用メタデータを作成することができる。
3.検索された書籍がユーザにとって所望の書籍であるか否かを判定する際に、書籍に掲載された図版データ115、図版説明箇所内のキーワード群のリストを図版キーワード114として検索結果表示画面110に提示することで、ユーザは、所望の書籍であるか否かを容易に判定することができる。
以上、添付図面を参照しながら、本発明に係る書籍情報検索装置等の好適な実施形態について説明したが、本発明はかかる例に限定されない。当業者であれば、本願で開示した技術的思想の範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
1………書籍情報検索システム
2………サーバ
3………端末
5………ネットワーク
21………書籍情報データベース
22………抽出パターン情報データベース
23………検索用メタ情報データベース
31………書籍データ
41………書誌データ
51………目次データ
61………本文データ
71………図版データ

Claims (6)

  1. 書籍の図版を特定する図版特定情報および図版説明文を抽出するパターンである抽出パターンを記憶する抽出パターン記憶手段と、
    前記抽出パターンに従って、前記図版特定情報および前記図版説明文を抽出する抽出手段と、
    前記抽出手段により抽出された前記図版特定情報および前記図版説明文を、検索用メタ情報として記憶する検索用メタ情報記憶手段と、
    入力される検索キーワードによって前記検索用メタ情報記憶手段を検索し、前記検索キーワードを含む前記検索用メタ情報に対応付けられている書籍の書誌情報を検索結果として提示する検索手段と、
    を備え
    前記抽出パターンは、予め定められている文字パターン及び抽出ルールの組み合わせによって構成され、
    前記抽出手段は、前記抽出ルールに従って、前記文字パターンを前記図版特定情報とし、前記図版特定情報を含む一文及び次の一文を前記図版説明文とする、又は、かっこ書きの中に含まれる前記文字パターンを前記図版特定情報とし、前記図版特定情報を含む前記かっこ書きの直前の一文を前記図版説明文とする
    ことを特徴とする書籍情報検索装置。
  2. 前記抽出手段は、前記図版説明文のキーワードである図版キーワードを抽出し、
    前記検索用メタ情報記憶手段は、更に、前記図版キーワードを記憶し、
    前記検索手段は、前記図版キーワードを、前記検索結果とともに提示する
    ことを特徴とする請求項1に記載の書籍情報検索装置。
  3. 前記検索用メタ情報記憶手段は、更に、前記図版特定情報によって特定される図版を記憶し、
    前記検索手段は、前記図版を、前記検索結果とともに提示する
    ことを特徴とする請求項1または請求項2に記載の書籍情報検索装置。
  4. サーバと端末とがネットワークを介して接続される書籍情報検索システムであって、
    前記サーバは、
    書籍の図版を特定する図版特定情報および図版説明文を抽出するパターンである抽出パターンを記憶する抽出パターン記憶手段と、
    前記抽出パターンに従って、前記図版特定情報および前記図版説明文を抽出する抽出手段と、
    前記抽出手段により抽出された前記図版特定情報および前記図版説明文を、検索用メタ情報として記憶する検索用メタ情報記憶手段と、
    入力される検索キーワードによって前記検索用メタ情報記憶手段を検索し、前記検索キーワードを含む前記検索用メタ情報に対応付けられている書籍の書誌情報を検索結果として提示する検索手段と、
    を備え、
    前記端末は、
    前記書籍データの検索条件を入力するための検索条件入力画面を表示し、前記検索条件入力画面に入力される前記入力キーワードを前記サーバに送信するキーワード入力手段と、
    前記サーバから提示される前記追加キーワードを受信し、前記検索結果表示画面に表示するキーワード表示手段と、
    を備え
    前記抽出パターンは、予め定められている文字パターン及び抽出ルールの組み合わせによって構成され、
    前記抽出手段は、前記抽出ルールに従って、前記文字パターンを前記図版特定情報とし、前記図版特定情報を含む一文及び次の一文を前記図版説明文とする、又は、かっこ書きの中に含まれる前記文字パターンを前記図版特定情報とし、前記図版特定情報を含む前記かっこ書きの直前の一文を前記図版説明文とする
    ことを特徴とする書籍情報検索システム。
  5. コンピュータの制御部が、書籍の図版を特定する図版特定情報および図版説明文を抽出するパターンである抽出パターンを前記コンピュータの記憶部に記憶する抽出パターン記憶ステップと、
    前記制御部が、前記抽出パターンに従って、前記図版特定情報および前記図版説明文を抽出する抽出ステップと、
    前記制御部が、前記抽出ステップで抽出された前記図版特定情報および前記図版説明文を、検索用メタ情報として前記記憶部に記憶する検索用メタ情報記憶ステップと、
    前記制御部が、前記コンピュータの入力部によって入力される検索キーワードによって前記検索用メタ情報を検索し、前記検索キーワードを含む前記検索用メタ情報に対応付けられている書籍の書誌情報を検索結果として前記コンピュータの表示部に提示する検索ステップと、
    を含み、
    前記抽出パターンは、予め定められている文字パターン及び抽出ルールの組み合わせによって構成され、
    前記抽出ステップにおいて、前記制御部は、前記抽出ルールに従って、前記文字パターンを前記図版特定情報とし、前記図版特定情報を含む一文及び次の一文を前記図版説明文とする、又は、かっこ書きの中に含まれる前記文字パターンを前記図版特定情報とし、前記図版特定情報を含む前記かっこ書きの直前の一文を前記図版説明文とする
    ことを特徴とする書籍情報検索方法。
  6. コンピュータを、
    書籍の図版を特定する図版特定情報および図版説明文を抽出するパターンである抽出パターンを記憶する抽出パターン記憶手段と、
    前記抽出パターンに従って、前記図版特定情報および前記図版説明文を抽出する抽出手段と、
    前記抽出手段により抽出された前記図版特定情報および前記図版説明文を、検索用メタ情報として記憶する検索用メタ情報記憶手段と、
    入力される検索キーワードによって前記検索用メタ情報を検索し、前記検索キーワードを含む前記検索用メタ情報に対応付けられている書籍の書誌情報を検索結果として提示する検索手段
    として機能させ、
    前記抽出パターンは、予め定められている文字パターン及び抽出ルールの組み合わせによって構成され、
    前記抽出手段は、前記抽出ルールに従って、前記文字パターンを前記図版特定情報とし、前記図版特定情報を含む一文及び次の一文を前記図版説明文とする、又は、かっこ書きの中に含まれる前記文字パターンを前記図版特定情報とし、前記図版特定情報を含む前記かっこ書きの直前の一文を前記図版説明文とする
    ためのコンピュータ読み取り可能なプログラム。
JP2011077210A 2011-03-31 2011-03-31 書籍情報検索装置、書籍情報検索システム、書籍情報検索方法およびプログラム Expired - Fee Related JP5652299B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011077210A JP5652299B2 (ja) 2011-03-31 2011-03-31 書籍情報検索装置、書籍情報検索システム、書籍情報検索方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011077210A JP5652299B2 (ja) 2011-03-31 2011-03-31 書籍情報検索装置、書籍情報検索システム、書籍情報検索方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2012212290A JP2012212290A (ja) 2012-11-01
JP5652299B2 true JP5652299B2 (ja) 2015-01-14

Family

ID=47266192

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011077210A Expired - Fee Related JP5652299B2 (ja) 2011-03-31 2011-03-31 書籍情報検索装置、書籍情報検索システム、書籍情報検索方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5652299B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7491002B2 (ja) 2020-03-19 2024-05-28 Toppanホールディングス株式会社 拡張情報提供装置、拡張情報提供端末、拡張情報提供方法及びプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04287168A (ja) * 1991-03-15 1992-10-12 Ricoh Co Ltd ファイリングの自動キーワード抽出方法
JP3694149B2 (ja) * 1997-07-07 2005-09-14 株式会社リコー 画像検索装置、画像検索用キーテキストの生成方法、並びにその装置としてコンピュータを機能させるためのプログラムおよびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002132786A (ja) * 2000-10-23 2002-05-10 Daisuke Hirao 図書検索装置、図書検索システム、及び図書検索方法
US20030130994A1 (en) * 2001-09-26 2003-07-10 Contentscan, Inc. Method, system, and software for retrieving information based on front and back matter data
JP2003346161A (ja) * 2002-05-23 2003-12-05 Kansai Electric Power Co Inc:The 図表内テキスト・図表キャプション・図表説明文・図表種類抽出プログラム、及び当該抽出プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに図表内テキスト・図表キャプション・図表説明文・図表種類抽出装置
JP2009200699A (ja) * 2008-02-20 2009-09-03 Pfu Ltd 画像処理装置および画像処理方法
JP5226553B2 (ja) * 2009-02-06 2013-07-03 キヤノン株式会社 画像処理装置、画像処理方法、プログラムおよび記録媒体
US9135249B2 (en) * 2009-05-29 2015-09-15 Xerox Corporation Number sequences detection systems and methods

Also Published As

Publication number Publication date
JP2012212290A (ja) 2012-11-01

Similar Documents

Publication Publication Date Title
KR102006396B1 (ko) 브라우징 액티비티에 기초하여 정합 애플리케이션을 식별하는 기법
RU2501079C2 (ru) Визуализация структуры сайта и разрешение переходов сайта для результата поиска или связанной страницы
CN102426607B (zh) 可扩展搜索项建议引擎
US9342233B1 (en) Dynamic dictionary based on context
JP5025808B1 (ja) 情報処理装置及び情報処理プログラム
CN106462632B (zh) 具有内容规范层的媒体商店
WO2016094101A1 (en) Webpage content storage and review
US9141867B1 (en) Determining word segment boundaries
US20120046937A1 (en) Semantic classification of variable data campaign information
JP5687312B2 (ja) デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
KR102277240B1 (ko) 키워드 관계 구조를 이용한 동의어 추출 방법 및 시스템
JP6622319B2 (ja) 検索語リスト提供装置、及びそれを利用した方法
KR20160100316A (ko) 전자 책들에 대한 엔티티 기반의 요약
JP5652299B2 (ja) 書籍情報検索装置、書籍情報検索システム、書籍情報検索方法およびプログラム
JP5247741B2 (ja) 文字入力支援装置及び方法
JP6978736B2 (ja) 特許文章管理装置、特許文章管理方法、および特許文章管理プログラム
JP5880637B2 (ja) 情報処理装置、その制御方法、及びプログラム、並びに情報処理システム、その制御方法、及びプログラム
JP2022059523A (ja) 情報処理装置、及び情報処理プログラム
JP5870776B2 (ja) リンク付与装置、リンク付与方法、およびプログラム
JP2012212289A (ja) 書籍情報検索装置、書籍情報検索システム、書籍情報検索方法およびプログラム
CN104063416A (zh) 商品比较装置、方法、以及程序
JPWO2020245887A1 (ja) 文章生成装置、文章生成方法、および文章生成プログラム
JP7485894B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP5870815B2 (ja) 書籍情報検索装置、書籍情報検索システム、書籍情報検索方法およびプログラム
JP6796337B2 (ja) 評釈データベース作成装置、評釈データベース作成方法、評釈データベース作成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140131

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140605

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140708

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140901

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141021

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141103

R150 Certificate of patent or registration of utility model

Ref document number: 5652299

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees