JP5541014B2 - 書籍情報検索装置、書籍情報検索システム、書籍情報検索方法及びプログラム - Google Patents

書籍情報検索装置、書籍情報検索システム、書籍情報検索方法及びプログラム Download PDF

Info

Publication number
JP5541014B2
JP5541014B2 JP2010200507A JP2010200507A JP5541014B2 JP 5541014 B2 JP5541014 B2 JP 5541014B2 JP 2010200507 A JP2010200507 A JP 2010200507A JP 2010200507 A JP2010200507 A JP 2010200507A JP 5541014 B2 JP5541014 B2 JP 5541014B2
Authority
JP
Japan
Prior art keywords
index
heading
page
word
book
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010200507A
Other languages
English (en)
Other versions
JP2012058936A (ja
Inventor
直之 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2010200507A priority Critical patent/JP5541014B2/ja
Publication of JP2012058936A publication Critical patent/JP2012058936A/ja
Application granted granted Critical
Publication of JP5541014B2 publication Critical patent/JP5541014B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、書籍情報を検索する書籍情報検索装置、特に、ユーザによって入力されたキーワードに関連するキーワードをユーザに提示する書籍情報検索装置等に関するものである。
従来の書籍情報検索では、ユーザが知らない知識を得るために関連する書籍を検索する場合、書籍の全文検索が可能なシステムに対して、調べたい分野や関係しそうな単語を入力する自由入力方式が採用されている。そして、自由入力方式の検索結果としては、入力された分野や単語(以下、ユーザが検索のために入力する文字列を「入力キーワード」という。)を本文に含む書籍の所在情報(実在する図書館や書店等の場合には書籍が存在する棚の情報、インターネットにおける仮想書店等の場合には書籍の詳細情報に係るウエブページのURL)が提示される。
このような書籍情報検索の仕組みでは、ユーザが適切な入力キーワードを知らなければ、ユーザが所望する検索結果を得ることが難しい。つまり、知識が全くない分野に関する書籍を検索することは難しい。
このような問題を解決するための従来技術として、入力キーワードを用いて検索を行った後、検索結果を分析してユーザに有益と思われる関連語を提示するという仕組みがある(特許文献1参照)。
特許文献1では、書籍の本文のテキストデータ全体から単語の抽出を行い、単語間の関連度を統計的に算出し、関連度に基づいて入力キーワードに対して関連語を選出する。
特許第3099756号公報
しかしながら、特許文献1に記載の仕組みを含めて従来の技術では、書籍の本文のテキストデータ全体から抽出される単語が、書籍が対象としている分野における基本的かつ重要な用語とは限らない。そして、基本的かつ重要な用語ではない単語を関連語として提示された場合、ユーザは、提示された関連語の重要度を判別できないので、提示された関連語を1つずつ検索条件として追加して検索を繰り返すことになる。結果として、ユーザが所望する分野と関係が薄い書籍が検索され続けることになり、ユーザが所望する検索結果を得ることができない。このように、従来の技術では、依然として、知識が全くない分野に関する書籍の検索精度が不十分である。
本発明は、前述した問題点に鑑みてなされたもので、その目的とすることは、知識が全くない分野に関する書籍を精度良く検索することができる書籍情報検索装置等を提供することである。
前述した目的を達成するために第1の発明は、書籍の本文の内容を示す見出し及び前記見出しに対応する先頭ページ又は最終ページを含む目次データ、並びに、前記書籍の本文に出現する語句を示す索引語及び前記索引語が出現するページを示す出現ページを含む索引データを、前記書籍ごとに書籍データとして記憶する書籍情報データベースと、前記書籍情報データベースから前記書籍データを順次読み込み、前記見出しごとに、当該見出しに対応するページ範囲に入る前記出現ページに係る前記索引語を抽出し、抽出された前記索引語群を索引グループとしてグループ化するグループ化手段と、前記索引データから任意の前記索引語を2つずつ順次読み込み、前記索引グループによって示される前記索引語の共起情報に基づいて、読み込まれた2つの前記索引語の関連度合を示す関連度スコアを算出する関連度算出手段と、読み込まれた2つの前記索引語を第1関連語及び第2関連語とし、前記関連度スコアと対応付けて記憶する関連語データベースと、前記関連語データベースを検索することで、入力キーワードと一致する前記第1関連語又は前記第2関連語を抽出し、前記関連度スコアに基づいて、抽出された前記第1関連語又は前記第2関連語の中から前記入力キーワードに対する追加キーワードを提示する追加キーワード提示手段と、を具備し、前記グループ化手段は、前記目次データが前記先頭ページを含む場合、当該見出しに対応するページ範囲は、当該見出しに対応する前記先頭ページから直後の前記見出しに対応する前記先頭ページまでとし、又は、前記目次データが前記最終ページを含む場合、直前の前記見出しに対応する前記最終ページから当該見出しに対応する前記最終ページまでとし、前記見出しの区切り単位が複数存在する場合において、前記グループ化手段は、前記見出しの区切り単位ごとに、前記索引グループをグループ化し、前記関連度算出手段は、前記見出しの区切り単位ごとに、前記関連度スコアを算出し、前記関連語データベースは、前記見出しの区切り単位ごとに、複数構築され、前記追加キーワード提示手段は、複数の前記関連語データベースを切り替えて処理を実行することを特徴とする書籍情報検索装置である。
第1の発明によって、入力キーワードと追加キーワードが、多くの見出しに共に出現する(共起する)2つの索引語であることから、書籍の本文の一部が対象とする分野を的確に示し、かつ、関連度が高い単語の組合せとなっている。従って、ユーザは、提示された追加キーワードを検索キーワードとすることで、知識が全くない分野に関する書籍を精度良く検索することができる。また、見出しが変わるごとに「改ページ」をしない書籍に対して、必ず、索引語が正しい見出しに対応するページ範囲に含まれるものとして、関連度スコアが算出されることになる。そして、ひいては、検索精度を向上することができる。更に、各分野における書籍数に応じて、最適な検索結果を得ることができる。
第2の発明は、サーバと端末とがネットワークを介して接続される書籍情報検索システムであって、前記サーバは、書籍の本文の内容を示す見出し及び前記見出しに対応する先頭ページ又は最終ページを含む目次データ、並びに、前記書籍の本文に出現する語句を示す索引語及び前記索引語が出現するページを示す出現ページを含む索引データを、前記書籍ごとに書籍データとして記憶する書籍情報データベースと、前記書籍情報データベースから前記書籍データを順次読み込み、前記見出しごとに、当該見出しに対応するページ範囲に入る前記出現ページに係る前記索引語を抽出し、抽出された前記索引語群を索引グループとしてグループ化するグループ化手段と、前記索引データから任意の前記索引語を2つずつ順次読み込み、前記索引グループによって示される前記索引語の共起情報に基づいて、読み込まれた2つの前記索引語の関連度合を示す関連度スコアを算出する関連度算出手段と、読み込まれた2つの前記索引語を第1関連語及び第2関連語とし、前記関連度スコアと対応付けて記憶する関連語データベースと、前記関連語データベースを検索することで、入力キーワードと一致する前記第1関連語又は前記第2関連語を抽出し、前記関連度スコアに基づいて、抽出された前記第1関連語又は前記第2関連語の中から前記入力キーワードに対する追加キーワードを提示する追加キーワード提示手段と、を具備し、前記端末は、前記書籍データの検索条件を入力するための検索条件入力画面を表示し、前記検索条件入力画面に入力される前記入力キーワードを前記サーバに送信するキーワード入力手段と、前記サーバから提示される前記追加キーワードを受信し、前記検索結果表示画面に表示するキーワード表示手段と、を具備し、前記グループ化手段は、前記目次データが前記先頭ページを含む場合、当該見出しに対応するページ範囲は、当該見出しに対応する前記先頭ページから直後の前記見出しに対応する前記先頭ページまでとし、又は、前記目次データが前記最終ページを含む場合、直前の前記見出しに対応する前記最終ページから当該見出しに対応する前記最終ページまでとし、前記見出しの区切り単位が複数存在する場合において、前記グループ化手段は、前記見出しの区切り単位ごとに、前記索引グループをグループ化し、前記関連度算出手段は、前記見出しの区切り単位ごとに、前記関連度スコアを算出し、前記関連語データベースは、前記見出しの区切り単位ごとに、複数構築され、前記追加キーワード提示手段は、複数の前記関連語データベースを切り替えて処理を実行することを特徴とする書籍情報検索システムである。
第2の発明によって、知識が全くない分野に関する書籍を精度良く検索することができる。また、見出しが変わるごとに「改ページ」をしない書籍に対して、必ず、索引語が正しい見出しに対応するページ範囲に含まれるものとして、関連度スコアが算出されることになる。そして、ひいては、検索精度を向上することができる。更に、各分野における書籍数に応じて、最適な検索結果を得ることができる。
第3の発明は、書籍の本文の内容を示す見出し及び前記見出しに対応する先頭ページ又は最終ページを含む目次データ、並びに、前記書籍の本文に出現する語句を示す索引語及び前記索引語が出現するページを示す出現ページを含む索引データを、前記書籍ごとに書籍データとして記憶する書籍情報データベースを具備するコンピュータによる書籍情報検索方法であって、前記書籍情報データベースから前記書籍データを順次読み込み、前記見出しごとに、当該見出しに対応するページ範囲に入る前記出現ページに係る前記索引語を抽出し、抽出された前記索引語群を索引グループとしてグループ化するグループ化ステップと、前記索引データから任意の前記索引語を2つずつ順次読み込み、前記索引グループによって示される前記索引語の共起情報に基づいて、読み込まれた2つの前記索引語の関連度合を示す関連度スコアを算出する関連度算出ステップと、読み込まれた2つの前記索引語を第1関連語及び第2関連語とし、前記関連度スコアと対応付けて関連語データベースとして記憶するステップと、前記関連語データベースを検索することで、入力キーワードと一致する前記第1関連語又は前記第2関連語を抽出し、前記関連度スコアに基づいて、抽出された前記第1関連語又は前記第2関連語の中から前記入力キーワードに対する追加キーワードを提示する追加キーワード提示ステップと、を含み、前記グループ化ステップは、前記目次データが前記先頭ページを含む場合、当該見出しに対応するページ範囲は、当該見出しに対応する前記先頭ページから直後の前記見出しに対応する前記先頭ページまでとし、又は、前記目次データが前記最終ページを含む場合、直前の前記見出しに対応する前記最終ページから当該見出しに対応する前記最終ページまでとし、前記見出しの区切り単位が複数存在する場合において、前記グループ化ステップは、前記見出しの区切り単位ごとに、前記索引グループをグループ化し、前記関連度算出ステップは、前記見出しの区切り単位ごとに、前記関連度スコアを算出し、前記関連語データベースは、前記見出しの区切り単位ごとに、複数構築され、前記追加キーワード提示ステップは、複数の前記関連語データベースを切り替えて処理を実行することを特徴とする書籍情報検索方法である。
第3の発明によって、知識が全くない分野に関する書籍を精度良く検索することができる。また、見出しが変わるごとに「改ページ」をしない書籍に対して、必ず、索引語が正しい見出しに対応するページ範囲に含まれるものとして、関連度スコアが算出されることになる。そして、ひいては、検索精度を向上することができる。更に、各分野における書籍数に応じて、最適な検索結果を得ることができる。
第4の発明は、コンピュータを、書籍の本文の内容を示す見出し及び前記見出しに対応する先頭ページ又は最終ページを含む目次データ、並びに、前記書籍の本文に出現する語句を示す索引語及び前記索引語が出現するページを示す出現ページを含む索引データを、前記書籍ごとに書籍データとして記憶する書籍情報データベースと、前記書籍情報データベースから前記書籍データを順次読み込み、前記見出しごとに、当該見出しに対応するページ範囲に入る前記出現ページに係る前記索引語を抽出し、抽出された前記索引語群を索引グループとしてグループ化するグループ化手段と、前記索引データから任意の前記索引語を2つずつ順次読み込み、前記索引グループによって示される前記索引語の共起情報に基づいて、読み込まれた2つの前記索引語の関連度合を示す関連度スコアを算出する関連度算出手段と、読み込まれた2つの前記索引語を第1関連語及び第2関連語とし、前記関連度スコアと対応付けて記憶する関連語データベースと、前記関連語データベースを検索することで、入力キーワードと一致する前記第1関連語又は前記第2関連語を抽出し、前記関連度スコアに基づいて、抽出された前記第1関連語又は前記第2関連語の中から前記入力キーワードに対する追加キーワードを提示する追加キーワード提示手段と、して機能させ、前記グループ化手段は、前記目次データが前記先頭ページを含む場合、当該見出しに対応するページ範囲は、当該見出しに対応する前記先頭ページから直後の前記見出しに対応する前記先頭ページまでとし、又は、前記目次データが前記最終ページを含む場合、直前の前記見出しに対応する前記最終ページから当該見出しに対応する前記最終ページまでとし、前記見出しの区切り単位が複数存在する場合において、前記グループ化手段は、前記見出しの区切り単位ごとに、前記索引グループをグループ化し、前記関連度算出手段は、前記見出しの区切り単位ごとに、前記関連度スコアを算出し、前記関連語データベースは、前記見出しの区切り単位ごとに、複数構築され、前記追加キーワード提示手段は、複数の前記関連語データベースを切り替えて処理を実行するためのプログラムである。
第4の発明におけるプログラムを汎用のコンピュータにインストールすることによって、第1の発明における書籍情報検索装置、又は、第2の発明におけるサーバを得ることができる。
本発明により、知識が全くない分野に関する書籍を精度良く検索することができる。
書籍情報検索システム1の概要を示す図 サーバ2(端末3)のハードウェア構成図 サーバ2の記憶部12に記憶されるデータベースを示す図 書籍データ31を示す図 書誌データ41の一例を示す図 目次データ51の一例を示す図 索引データ61の一例を示す図 関連語データ71の一例を示す図 書籍情報検索処理の概要を示すフローチャート 索引語のグループ化処理の詳細を示すフローチャート 索引語のグループ化処理を説明する図 関連度算出処理の詳細を示すフローチャート 関連度算出処理を説明する図 検索結果提示処理及び追加キーワード提示処理の詳細を示すフローチャート 検索条件入力画面100及び検索結果表示画面110の一例を示す図 索引語のグループ化処理の変形例を説明する図 検索条件入力画面100及び検索結果表示画面130の一例を示す図
以下図面に基づいて、本発明の実施形態を詳細に説明する。
最初に、図1〜図3を参照しながら、本発明の実施の形態に係る基本的構成について説明する。
図1は、書籍情報検索システム1の概要を示す図である。図1に示すように、書籍情報検索システム1は、サーバ2と端末3とがネットワーク5を介して接続されている。ネットワーク5は、LAN(Local Area Network)、インターネット等である。
サーバ2は、端末3から書籍情報の検索要求を受信して、端末3に書籍情報の検索結果等を送信する。
端末3は、ユーザによる入力情報を受け付けて、サーバ2に検索要求として送信し、サーバ2から検索結果等を受信して、検索結果等をユーザに提示する。
尚、本発明の実施形態は、図1に示すようにクライアントサーバ型の構成に限られず、スタンドアローン型の構成であっても良い。すなわち、書籍情報検索装置として、後述するサーバ2及び端末3の機能を有する1台のコンピュータによる構成であっても良い。
図2は、サーバ2(端末3)のハードウェア構成図である。尚、図2のハードウェア構成は一例であり、用途、目的に応じて様々な構成を採ることが可能である。
サーバ2(端末3)を実現するコンピュータは、制御部11、記憶部12、メディア入出力部13、通信制御部14、入力部15、表示部16、周辺機器I/F部17等が、バス18を介して接続される。
制御部11は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等で構成される。
CPUは、記憶部12、ROM、記録媒体等に格納されるプログラムをRAM上のワークメモリ領域に呼び出して実行し、バス18を介して接続された各装置を駆動制御し、サーバ2(端末3)が行う後述する処理を実現する。
ROMは、不揮発性メモリであり、コンピュータのブートプログラムやBIOS等のプログラム、データ等を恒久的に保持している。
RAMは、揮発性メモリであり、記憶部12、ROM、記録媒体等からロードしたプログラム、データ等を一時的に保持するとともに、制御部11が各種処理を行う為に使用するワークエリアを備える。
記憶部12は、HDD(ハードディスクドライブ)であり、制御部11が実行するプログラム、プログラム実行に必要なデータ、OS(オペレーティングシステム)等が格納される。プログラムに関しては、OS(オペレーティングシステム)に相当する制御プログラムや、後述する処理をコンピュータに実行させるためのアプリケーションプログラムが格納されている。
これらの各プログラムコードは、制御部11により必要に応じて読み出されてRAMに移され、CPUに読み出されて各種の手段として実行される。
メディア入出力部13(ドライブ装置)は、データの入出力を行い、例えば、CDドライブ(−ROM、−R、−RW等)、DVDドライブ(−ROM、−R、−RW等)等のメディア入出力装置を有する。
通信制御部14は、通信制御装置、通信ポート等を有し、コンピュータとネットワーク間の通信を媒介する通信インタフェースであり、ネットワーク5を介して、他のコンピュータ間との通信制御を行う。ネットワーク5は、有線、無線を問わない。
入力部15は、データの入力を行い、例えば、キーボード、マウス等のポインティングデバイス、テンキー等の入力装置を有する。
入力部15を介して、コンピュータに対して、操作指示、動作指示、データ入力等を行うことができる。
表示部16は、CRTモニタ、液晶パネル等のディスプレイ装置、ディスプレイ装置と連携してコンピュータのビデオ機能を実現するための論理回路等(ビデオアダプタ等)を有する。
周辺機器I/F(インタフェース)部17は、コンピュータに周辺機器を接続させるためのポートであり、周辺機器I/F部17を介してコンピュータは周辺機器とのデータの送受信を行う。周辺機器I/F部17は、USBやIEEE1394やRS−232C等で構成されており、通常複数の周辺機器I/Fを有する。周辺機器との接続形態は有線、無線を問わない。
バス18は、各装置間の制御信号、データ信号等の授受を媒介する経路である。
図3は、サーバ2の記憶部12に記憶されるデータベースを示す図である。図3に示すように、サーバ2の記憶部12には、書籍情報データベース21及び関連語データベース22が記憶される。
書籍情報データベース21は、少なくとも、目次データ及び索引データを、書籍ごとに書籍データとして記憶する。
関連語データベース22は、第1関連語及び第2関連語と対応付けて、関連度スコアを記憶する。
次に、図4〜図8を参照しながら、本発明の実施の形態に用いられるデータについて説明する。
図4は、書籍データ31を示す図である。書籍データ31は、書籍情報データベース21に記憶されるデータであり、書籍1冊分のデータである。
図4に示すように、書籍データ31は、書誌データ41、目次データ51及び索引データ61を含む。
書誌データ41は、書籍の題号、著者、出版社、出版年月等を含む。書誌データ41は、書籍を探す為の一般的な情報である。
目次データ51は、書籍の本文の内容を示す見出し、及び、見出しに対応する先頭ページ又は最終ページを含む。以下では、目次データ51は、見出しに対応する先頭ページを含むものとして説明する。
索引データ61は、書籍の本文に出現する語句を示す索引語及び索引語が出現するページを示す出現ページを含む。
一般に、目次は、著者や編集者により作成されることから、目次に含まれる各見出しによって、書籍の内容が細かい区切り単位によって適切に区切られていると考えられる。すなわち、本文の対象分野が、書籍の単位よりも細かい区切り単位によって適切に区切られていると考えられる。
また、索引は、著者や編集者により作成されることから、著者や編集者が読者に理解して欲しい又は伝えたい用語が、索引語として選択されていると考えられる。すなわち、本文の内容に対して基本的かつ重要な用語が、索引語として選択されていると考えられる。
そうすると、ある見出しに対応するページ範囲に、共に出現する(共起する)2つの索引語は、書籍の本文の一部が対象とする分野を的確に示し、かつ、関連度が高い単語の組合せであると言える。
本発明の技術的思想は、このような目次及び索引の性質に着目し、目次データ51及び索引データ61を含む書籍データ31を利用して、検索精度を高めるというものである。ここで、書籍データ31には、書籍の本文に関する電子データ(コンピュータが利用可能なデータ)が含まれないことを付言しておく。本発明の実施の形態では、書籍の本文に関する電子データがなくても、検索精度を高めることが可能である。
図5は、書誌データ41の一例を示す図である。図5に示すように、書誌データ41は、例えば、題号42、著者43、出版社44、出版年月45等を含む。尚、書誌データ41に含まれるデータは、これらに限定されるわけではない。
図5に示す書誌データ41は、題号42が「ウェブの歴史」、著者43が「○○」、出版社44が「○○出版」、出版年月45が「○年○月」である。
図6は、目次データ51の一例を示す図である。図6に示すように、目次データ51は、項番52、見出し53、先頭ページ54を含む。
見出し53は、書籍の本文の内容を示すデータである。項番52は、見出し53の項を示す番号である。先頭ページ54は、見出し53に対応するページ範囲の中で最も小さいページ番号である。尚、前述したように、先頭ページ54に代えて、最終ページ(見出し53に対応するページ範囲の中で最も大きいページ番号)としても良い。
図6に示す例では、区切り単位が異なる見出し53が共存する。すなわち、項番52が「1.」、「2.」等の見出しは、区切り単位が「大」である。また、項目52が「1.1」、「1.2」等の見出しは、区切り単位が「中」である。また、書籍によっては、更に低い区切り単位の見出し53を含むものも存在する場合がある。
以下では、区切り単位が「中」の見出し53を対象として処理を実行するものとして説明する。但し、これに代えて、区切り単位が「大」の見出し53を対象としても良いし、更に低い区切り単位の見出し53を対象としても良い。また、区切り単位が「大」及び「中」の見出し53の両方を対象としても良い。
図7は、索引データ61の一例を示す図である。図7に示すように、索引データ61は、索引語62、出現ページ63を含む。
索引語62は、書籍の本文に出現する語句を示すデータである。出現ページ63は、索引語62が出現するページを示すデータである。出現ページ63は、索引語62が出現する全てのページ番号を含む。
図7に示す例では、例えば、索引語62である「RSS」の出現ページ63は「p14」である。また、例えば、索引語62である「ブログ」の出現ページ63は「p5、p14」である。
図8は、関連語データ71の一例を示す図である。関連語データ71は、関連語データベース22に記憶されるデータであり、検索対象の書籍全てに係るデータである。図8に示すように、関連語データ71は、第1関連語72、第2関連語73、関連度スコア74を含む。
第1関連語72及び第2関連語73は、索引データ61に含まれる索引語62のいずれかである。関連度スコア74は、第1関連語72及び第2関連語73の共起情報(同じ見出し53に共に出現することを示す情報)に基づいて算出され、第1関連語72及び第2関連語73の関連度合を示すデータである。
尚、「第1」及び「第2」は、順位を示すものではなく、両者が互いに異なる索引語62であることを示すものに過ぎない。また、例えば、第1関連語72が「A」かつ第2関連語73が「B」というデータと、第1関連語72が「B」かつ第2関連語73が「A」というデータとは、いずれか1つのデータとして統合されて記憶される。
次に、図9〜図15を参照しながら、本発明の実施の形態における処理の詳細について説明する。
図9は、書籍情報検索処理の概要を示すフローチャートである。図9は、書籍情報検索システム1によって実行される書籍情報検索処理を示している。
図9に示すS101及びS102は、検索処理に利用される関連語データベース22を構築する為の事前処理である。S103及びS104は、ユーザからの入力を受け付けて書籍情報を検索する検索処理である。
図9に示すように、サーバ2は、索引語のグループ化処理を実行する(S101)。索引語のグループ化処理は、サーバ2の制御部11が、書籍情報データベース21から書籍データ31を順次読み込み、見出し53ごとに、当該見出し53に対応するページ範囲に入る出現ページ63に係る索引語62を抽出し、抽出された複数の索引語62を索引グループとしてグループ化する処理である。
次に、サーバ2は、関連度算出処理を実行する(S102)。関連度算出処理は、サーバ2の制御部11が、索引データ61から任意の索引語62を2つずつ順次読み込み、索引グループによって示される索引語62の共起情報に基づいて、読み込まれた2つの索引語62、すなわち、第1関連語72及び第2関連語73の関連度合を示す関連度スコア74を算出する処理である。
次に、サーバ2及び端末3は、検索結果提示処理及び追加キーワード提示処理を実行する(S103及びS104)。説明の都合上、S103及びS104の処理を2つに分けたが、これらの処理を実現する為のプログラムが2つに分かれている必要はない。また、ユーザに対しては、両方の処理の実行結果が同時に提示されることになる。
検索結果提示処理は、端末3の制御部11が、書籍データ31の検索条件を入力するための検索条件入力画面を表示し、検索条件入力画面に入力される入力キーワードをサーバ2に送信する処理を含む。また、検索結果提示処理は、サーバ2の制御部11が、入力キーワード及び/又は追加キーワードに基づいて書籍データ31を検索し、入力キーワード及び/又は追加キーワードと一致する索引語62に係る出現ページ63を抽出し、抽出された出現ページ63に基づいて見出し53を検索し、書誌データ41とともに、検索された見出し53を端末3に送信する処理を含む。また、検索結果提示処理は、端末3の制御部11が、サーバ2から書誌データ41及び見出し53を受信し、検索結果表示画面に表示する処理を含む。
追加キーワード提示処理は、サーバ2の制御部11が、関連語データベース22を検索することで、入力キーワードと一致する第1関連語72又は第2関連語73を抽出し、関連度スコア74に基づいて、抽出された第1関連語72又は第2関連語73の中から入力キーワードに対する追加キーワードを提示する処理を含む。また、追加キーワード提示処理は、サーバから提示される追加キーワードを受信し、検索結果表示画面に表示する処理を含む。
図10は、索引語のグループ化処理の詳細を示すフローチャートである。図10の説明に当たり、図5〜図7、図11を参照し、具体的なデータに対する処理内容も説明する。図11は、索引語のグループ化処理を説明する図である。
サーバ2の制御部11は、書籍情報データベース21から書籍データ31を1件読み込む(S201)。サーバ2の制御部11は、例えば、図5に示す書籍データ51を読み込む。読み込まれた書籍データ51は、図6に示す目次データ51及び図7に示す索引データ61を含む。
次に、サーバ2の制御部11は、読み込まれた書籍データ51の中から見出し53を1つ選択し(S202)、選択された見出し53に出現する索引語62を抽出し(S203)、抽出された複数の索引語62を索引グループとしてグループ化する(S204)。
全ての見出しの処理が終了していなければ(S205のNo)、S202から繰り返し、全ての見出しの処理が終了していれば(S205のYes)、S206に進む。
更に、全ての書籍データ31の処理が終了していなければ(S206のNo)、S201から繰り返し、全ての書籍データ31の処理が終了していれば(S206のYes)、処理を終了する。
例えば、サーバ2の制御部11は、図6に示す見出し53の1つである「ドットコムバブル」を選択し、当該見出し53に対応するページ範囲に入る出現ページ63に係る索引語62を抽出する。当該見出し53「ドットコムバブル」に対応するページ範囲は、当該見出し53「ドットコムバブル」に対応する先頭ページ54「p9」から、1つ後(直後)の見出し53「検索エンジン」に対応する先頭ページ54「p11」から1を引いたページである「p10」までとなる。
尚、目次データ51が、先頭ページ54に代えて、最終ページを含む場合、当該見出し53「ドットコムバブル」に対応するページ範囲は、1つ前(直前)の見出し53「ブラウザ」に対応する最終ページから1を加えたページから、当該見出し53「ドットコムバブル」に対応する最終ページまでとなる。
図11(a)では、81aが「当該見出し53」、82aが「当該見出し53に対応するページ範囲」、83aが「抽出された複数の索引語62」、すなわち「索引グループ」を示している。
81aは「1.5 ドットコムバブル」であり、82aは「p9〜p10」である。また、83aには、「シリコンバレー」、「ニューエコノミー」、「A社」の3つの索引語62が含まれる。これは、例えば、「シリコンバレー」について言えば、サーバ2の制御部11が、索引語62「シリコンバレー」に係る出現ページ63「p9」(図7の5行目)を参照し、「p9〜p10」に入ると判断した結果である。
同様に、サーバ2の制御部11が、図6に示す見出し53の1つである「検索エンジン」を選択し、索引グループとしてグループ化した結果が、図11(b)の83bである。
また、同様に、サーバ2の制御部11が、図6に示す見出し53の1つである「ウェブ 2.0」を選択し、索引グループとしてグループ化した結果が、図11(c)の83cである。
図12は、関連度算出処理の詳細を示すフローチャートである。図12の説明に当たり、図8、図13を参照し、具体的なデータに対する処理内容も説明する。図13は、関連度算出処理を説明する図である。図13では、書籍ごとにグループ化された索引グループ83(83a〜83i)を示している。尚、関連度算出処理では、索引グループ83を書籍ごとに区別しない。
サーバ2の制御部11は、索引語62を2つ読み込み(S301)、索引グループ83によって示される索引語62の共起情報を集計し(S302)、関連度スコア74を算出し(S303)、関連語データベース22に1件分のデータを追加する(S304)。
全ての索引語62の組合せについて処理が終了していなければ(S305のNo)、S301から繰り返し、全ての索引語62の組合せについて処理が終了していれば(S305のYes)、処理を終了する。
以下、2通りの関連度スコア74の算出式を説明する。
第1の算出式は、関連度スコア(w1、w2)=w1及びw2が共に出現する索引グループ83の数である。
例えば、図13の例において、w1=RSS、w2=ブログとすると、RSS及びブログが共に出現する索引グループ83は、83c、83f、83iであるから、関連度スコア(RSS、ブログ)=3である。
また、例えば、図13の例において、w1=G社、w2=A社とすると、G社及びA社が共に出現する索引グループ83は、83dであるから、関連度スコア(RSS、ブログ)=1である。尚、同じ書籍Aに係る索引グループ83a、83bにおいて、それぞれ、A社、G社が含まれるが、このような場合は、「G社及びA社が共に出現する索引グループ83」に含まれない。
第2の算出式は、関連度スコア(w1、w2)=2・prob(w1、w2)/{prob(w1)・prob(w2)}である。ここで、prob(w1、w2)=w1及びw2が共に出現する索引グループ83の数/索引グループ83の総数、prob(w1)=w1が出現する索引グループ83の数/索引グループ83の総数、prob(w2)=w2が出現する索引グループ83の数/索引グループ83の総数である。
出現確率に基づく第2の算出式は、多くの書籍に含まれるような一般的な用語は関連度スコア74が高くならないことから、第1の算出式よりも望ましい。
例えば、図13の例において、w1=RSS、w2=ブログとすると、prob(w1、w2)=1/3、prob(w1)=1/3、prob(w2)=1/3であるから、関連度スコア(w1、w2)=6である。
また、例えば、図13の例において、w1=G社、w2=A社とすると、prob(w1、w2)=1/9、prob(w1)=1/3、prob(w2)=2/9であるから、関連度スコア(w1、w2)=3である。
尚、本発明の実施の形態に係る関連度スコア74の算出式は、これらに限定されるわけではなく、少なくとも、算出式の中に、「w1及びw2が共に出現する索引グループ83の数」が含まれていれば良い。
サーバ2の制御部11は、前述の通り、関連度スコア74を算出し、関連語データベース22に関連語データ71を追加する。
図8に示す例では、1行目及び3行目に、第2の算出式による算出結果が示されている。
図14は、検索結果提示処理及び追加キーワード提示処理の詳細を示すフローチャートである。図14の説明に当たり、図8、図15を参照し、具体的なデータに対する処理内容も説明する。図15は、検索条件入力画面100及び検索結果表示画面110の一例を示す図である。
端末3の制御部11は、検索条件入力画面100を表示部16に表示する(S401)。ユーザが、入力部15を介して入力キーワードを入力すると(S402)、端末3の制御部11は、通信制御部14を介して入力キーワードをサーバ2に送信する(S403)。
図15(a)は、S402における検索条件入力画面100を示している。図15(a)では、キーワード入力用テキストボックス101に入力キーワードとして「ブログ」が入力されている。ユーザが、入力部15を介して検索ボタン102を押下すると、端末3の制御部11は、入力キーワード「ブログ」をサーバ2に送信する。
図14の説明に戻る。
サーバ2の制御部11は、端末3から受信する入力キーワードを検索条件として、書籍情報データベース21を検索する(S404)。検索結果は、RAMに記憶しておく。
また、サーバ2の制御部11は、端末3から受信する入力キーワードに対する追加キーワードを取得する(S405)。具体的には、サーバ2の制御部11は、関連語データベースを検索することで、入力キーワードと一致する第1関連語72又は第2関連語73を抽出し、関連度スコア74に基づいて、抽出された第1関連語72又は第2関連語73の中から入力キーワードに対する追加キーワードを取得する。取得された追加キーワードは、RAMに記憶しておく。
そして、サーバ2の制御部11は、通信制御部14を介して、RAMに記憶されている検索結果及び追加キーワードを端末3に送信する(S406)。
端末3の制御部11は、検索結果表示画面110を表示部16に表示する(S407)。
図15(b)は、1回目のS407における検索結果表示画面110aを示している。図15(b)では、検索キーワード111aが「ブログ」、検索結果112aが「インターネット入門」、「ウェブの歴史」及び「コンピュータとは」の3件(いずれも書誌データ41の題号42)、追加キーワード113aが「RSS」、「RDF」及び「セマンティックウェブ」の3件であることを示している。
ここで、図8を参照し、追加キーワードの取得処理について説明する。サーバ2の制御部11は、入力キーワード「ブログ」と一致する第1関連語72又は第2関連語73を抽出する。例えば、「関連度スコア74の値が2.0以上」を取得条件として追加キーワードを取得する場合、図8に示す例では、サーバ2の制御部11は、「ブログ」と対になる第1関連語72又は第2関連語73として、「RSS」、「RDF」及び「セマンティックウェブ」を追加キーワード113aとして取得する。
尚、関連度スコア74に基づく取得条件は、「関連度スコア74の値が2.0以上」に限定されるわけではなく、例えば、「上位3位まで」等、関連度スコア74の順位を取得条件としても良い。
図14の例に戻る。
ユーザが検索終了と判断した場合(S408のYes)、処理を終了する。
ユーザが検索続行と判断した場合(S408のNo)、S409に進む。
ユーザが、入力部15を介して選択キーワードを1つ選択すると(S409)、端末3の制御部11は、選択された追加キーワード113を入力キーワードとして入力し(S410)、S403から処理を繰り返し、S407の検索結果表示画面の表示までを行う。
図15(c)は、2回目のS407における検索結果表示画面110bを示している。図15(c)では、検索キーワード111bが「ブログ セマンティックウェブ」(AND条件)、検索結果112bが「セマンティックウェブとWeb2.0」、「Webプログラミング」及び「セマンティックWeb入門」の3件(いずれも書誌データ41の題号42)、追加キーワード113bが「RSS」及び「RDF」の2件であることを示している。
以上、本発明の実施の形態における書籍情報検索システム1によれば、入力キーワードと追加キーワード113が、多くの見出しに共に出現する(共起する)2つの索引語62であることから、書籍の本文の一部が対象とする分野を的確に示し、かつ、関連度が高い単語の組合せとなっている。従って、ユーザは、提示された追加キーワード113を検索キーワード111とすることで、知識が全くない分野に関する書籍を精度良く検索することができる。
<変形例1>
次に、図16を参照しながら、本発明の実施の形態の変形例1について説明する。図16は、索引語のグループ化処理の変形例を説明する図である。
図11(a)を参照して前述した索引語のグループ化処理では、当該見出し53「ドットコムバブル」に対応するページ範囲は、当該見出し53「ドットコムバブル」に対応する先頭ページ54「p9」から、1つ後(直後)の見出し53「検索エンジン」に対応する先頭ページ54「p11」から1を引いたページである「p10」までとしたが、変形例1における索引語のグループ化処理では、ページ範囲を変更する。
変形例1における索引語のグループ化処理では、目次データ51が、先頭ページ54を含む場合、当該見出し53に対応するページ範囲は、当該見出し53に対応する先頭ページ54から、1つ後(直後)の見出し53「検索エンジン」に対応する先頭ページ54までとする。
また、目次データ51が、先頭ページ54に代えて、最終ページを含む場合、当該見出し53に対応するページ範囲は、1つ前(直前)の見出し53に対応する最終ページから、当該見出し53に対応する最終ページまでとする。
一般に、書籍の本文は、複数の見出し53に対応する内容が、同一のページに配置されることがある。つまり、見出し53が変わるごとに、「改ページ」をしない書籍がある。
変形例1では、このような書籍に対して、必ず、索引語62が正しい見出し53に対応するページ範囲に含まれるものとして、関連度スコア75が算出されることになる。そして、ひいては、検索結果の精度を向上することができる。
尚、変形例1では、先頭ページ54又は最終ページに出現する索引語62が、異なる見出し53に対応するページ範囲にも含まれるものとして、関連度スコア75が算出されることになる。しかしながら、追加キーワードの取得処理において、関連度スコア75が高いものを追加キーワードとして取得するようにすれば、このような誤りが、追加キーワードの取得処理に対して大きな影響を与えることはない。
例えば、図16(a)に示す例では、当該見出し53「ドットコムバブル」に対応するページ範囲は、当該見出し53「ドットコムバブル」に対応する先頭ページ54「p9」から、1つ後(直後)の見出し53「検索エンジン」に対応する先頭ページ54「p11」までとなる。従って、図16(a)の122aは「p9〜p11」となる。
図11(a)の83aと図16(a)の123aを比較すると、123aでは、「G社」が追加されている。
同様に、図16(b)の122bは「p11〜p14」となる。つまり、「ドットコムバブル」に対応するページ範囲と、「検索エンジン」に対応するページ範囲は、「p11」が重複することになる。
同様に、図16(c)の122cは「p14〜p16」となる。つまり、「検索エンジン」に対応するページ範囲と、「ウェブ 2.0」に対応するページ範囲は、「p14」が重複することになる。
<変形例2>
次に、図17を参照しながら、本発明の実施の形態の変形例2について説明する。図17は、検索条件入力画面100及び検索結果表示画面130の一例を示す図である。
図15を参照して前述した説明では、追加キーワード113を1つだけ選択し、入力キーワードとのAND条件として検索条件を設定したが、変形例2では、追加キーワード113の選択処理と検索条件設定処理を変更する。
図17(a)では、図15(a)と同様の検索条件入力画面100を示している。
図17(b)は、変形例2における検索結果表示画面130を示している。図17(b)では、検索キーワード131が「ブログ」、検索結果132が「インターネット入門」、「ウェブの歴史」及び「コンピュータとは」の3件(いずれも書誌データ41の題号42)、追加キーワード133が「RSS」、「RDF」及び「セマンティックウェブ」の3件であることを示している。ここで、追加キーワード133は、チェックボックスとともに表示されている。
ユーザは、入力部15を介して、複数のチェックボックスをチェックすることによって、複数の追加キーワード133を選択する。
端末3の制御部11は、これら複数の追加キーワード133を入力し、サーバ2に送信する。
ここで、図17(b)の例において、2通りの検索条件を説明する。
第1の検索条件は、「ブログ AND (RSS OR セマンティックウェブ)」である。
第2の検索条件は、「ブログ AND RSS AND セマンティックウェブ」である。
サーバ2の制御部11は、これら2通りの検索条件を、事前の設定値又はユーザの指示により変更する。
<変形例3>
前述の説明では、区切り単位が「中」の見出し53を対象、即ち、1つの区切り単位を対象として処理を実行するものとして説明したが、変形例3では、複数の区切り単位を対象として処理を実行する。
例えば、見出し53の区切り単位が「大」、「中」、「小」の3通りである場合、それぞれの区切り単位ごとに、索引グループのグループ化処理及び関連度算出処理を実行し、関連語データベース22を構築する。そして、サーバ2の制御部11は、これら3通りの関連語データベース22を、事前の設定値又はユーザの指示により切り替えて、前述の検索結果提示処理及び追加キーワード提示処理を実行する。
区切り単位が「大」の見出し53を利用して構築された関連語データベース22は、検索対象の分野が新しい分野やマイナーな分野、すなわち書籍数が少ない分野に好適である。
また、区切り単位が「小」の見出し53を利用して構築された関連語データベース22は、検索対象の分野が成熟した分野やメジャーな分野、すなわち書籍数が多い分野に好適である。
以上、添付図面を参照しながら、本発明に係る書籍検索システム等の好適な実施形態について説明したが、本発明はかかる例に限定されない。当業者であれば、本願で開示した技術的思想の範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
1………書籍情報検索システム
2………サーバ
3………端末
5………ネットワーク
21………書籍情報データベース
22………関連語データベース
31………書籍データ
41………書誌データ
51………目次データ
61………索引データ

Claims (4)

  1. 書籍の本文の内容を示す見出し及び前記見出しに対応する先頭ページ又は最終ページを含む目次データ、並びに、前記書籍の本文に出現する語句を示す索引語及び前記索引語が出現するページを示す出現ページを含む索引データを、前記書籍ごとに書籍データとして記憶する書籍情報データベースと、
    前記書籍情報データベースから前記書籍データを順次読み込み、前記見出しごとに、当該見出しに対応するページ範囲に入る前記出現ページに係る前記索引語を抽出し、抽出された前記索引語群を索引グループとしてグループ化するグループ化手段と、
    前記索引データから任意の前記索引語を2つずつ順次読み込み、前記索引グループによって示される前記索引語の共起情報に基づいて、読み込まれた2つの前記索引語の関連度合を示す関連度スコアを算出する関連度算出手段と、
    読み込まれた2つの前記索引語を第1関連語及び第2関連語とし、前記関連度スコアと対応付けて記憶する関連語データベースと、
    前記関連語データベースを検索することで、入力キーワードと一致する前記第1関連語又は前記第2関連語を抽出し、前記関連度スコアに基づいて、抽出された前記第1関連語又は前記第2関連語の中から前記入力キーワードに対する追加キーワードを提示する追加キーワード提示手段と、
    を具備し、
    前記グループ化手段は、前記目次データが前記先頭ページを含む場合、当該見出しに対応するページ範囲は、当該見出しに対応する前記先頭ページから直後の前記見出しに対応する前記先頭ページまでとし、又は、前記目次データが前記最終ページを含む場合、直前の前記見出しに対応する前記最終ページから当該見出しに対応する前記最終ページまでとし、
    前記見出しの区切り単位が複数存在する場合において、
    前記グループ化手段は、前記見出しの区切り単位ごとに、前記索引グループをグループ化し、
    前記関連度算出手段は、前記見出しの区切り単位ごとに、前記関連度スコアを算出し、
    前記関連語データベースは、前記見出しの区切り単位ごとに、複数構築され、
    前記追加キーワード提示手段は、複数の前記関連語データベースを切り替えて処理を実行することを特徴とする書籍情報検索装置。
  2. サーバと端末とがネットワークを介して接続される書籍情報検索システムであって、
    前記サーバは、
    書籍の本文の内容を示す見出し及び前記見出しに対応する先頭ページ又は最終ページを含む目次データ、並びに、前記書籍の本文に出現する語句を示す索引語及び前記索引語が出現するページを示す出現ページを含む索引データを、前記書籍ごとに書籍データとして記憶する書籍情報データベースと、
    前記書籍情報データベースから前記書籍データを順次読み込み、前記見出しごとに、当該見出しに対応するページ範囲に入る前記出現ページに係る前記索引語を抽出し、抽出された前記索引語群を索引グループとしてグループ化するグループ化手段と、
    前記索引データから任意の前記索引語を2つずつ順次読み込み、前記索引グループによって示される前記索引語の共起情報に基づいて、読み込まれた2つの前記索引語の関連度合を示す関連度スコアを算出する関連度算出手段と、
    読み込まれた2つの前記索引語を第1関連語及び第2関連語とし、前記関連度スコアと対応付けて記憶する関連語データベースと、
    前記関連語データベースを検索することで、入力キーワードと一致する前記第1関連語又は前記第2関連語を抽出し、前記関連度スコアに基づいて、抽出された前記第1関連語又は前記第2関連語の中から前記入力キーワードに対する追加キーワードを提示する追加キーワード提示手段と、
    を具備し、
    前記端末は、
    前記書籍データの検索条件を入力するための検索条件入力画面を表示し、前記検索条件入力画面に入力される前記入力キーワードを前記サーバに送信するキーワード入力手段と、
    前記サーバから提示される前記追加キーワードを受信し、前記検索結果表示画面に表示するキーワード表示手段と、
    を具備し、
    前記グループ化手段は、前記目次データが前記先頭ページを含む場合、当該見出しに対応するページ範囲は、当該見出しに対応する前記先頭ページから直後の前記見出しに対応する前記先頭ページまでとし、又は、前記目次データが前記最終ページを含む場合、直前の前記見出しに対応する前記最終ページから当該見出しに対応する前記最終ページまでとし、
    前記見出しの区切り単位が複数存在する場合において、
    前記グループ化手段は、前記見出しの区切り単位ごとに、前記索引グループをグループ化し、
    前記関連度算出手段は、前記見出しの区切り単位ごとに、前記関連度スコアを算出し、
    前記関連語データベースは、前記見出しの区切り単位ごとに、複数構築され、
    前記追加キーワード提示手段は、複数の前記関連語データベースを切り替えて処理を実行することを特徴とする書籍情報検索システム。
  3. 書籍の本文の内容を示す見出し及び前記見出しに対応する先頭ページ又は最終ページを含む目次データ、並びに、前記書籍の本文に出現する語句を示す索引語及び前記索引語が出現するページを示す出現ページを含む索引データを、前記書籍ごとに書籍データとして記憶する書籍情報データベースを具備するコンピュータによる書籍情報検索方法であって、
    前記書籍情報データベースから前記書籍データを順次読み込み、前記見出しごとに、当該見出しに対応するページ範囲に入る前記出現ページに係る前記索引語を抽出し、抽出された前記索引語群を索引グループとしてグループ化するグループ化ステップと、
    前記索引データから任意の前記索引語を2つずつ順次読み込み、前記索引グループによって示される前記索引語の共起情報に基づいて、読み込まれた2つの前記索引語の関連度合を示す関連度スコアを算出する関連度算出ステップと、
    読み込まれた2つの前記索引語を第1関連語及び第2関連語とし、前記関連度スコアと対応付けて関連語データベースとして記憶するステップと、
    前記関連語データベースを検索することで、入力キーワードと一致する前記第1関連語又は前記第2関連語を抽出し、前記関連度スコアに基づいて、抽出された前記第1関連語又は前記第2関連語の中から前記入力キーワードに対する追加キーワードを提示する追加キーワード提示ステップと、
    を含み、
    前記グループ化ステップは、前記目次データが前記先頭ページを含む場合、当該見出しに対応するページ範囲は、当該見出しに対応する前記先頭ページから直後の前記見出しに対応する前記先頭ページまでとし、又は、前記目次データが前記最終ページを含む場合、直前の前記見出しに対応する前記最終ページから当該見出しに対応する前記最終ページまでとし、
    前記見出しの区切り単位が複数存在する場合において、
    前記グループ化ステップは、前記見出しの区切り単位ごとに、前記索引グループをグループ化し、
    前記関連度算出ステップは、前記見出しの区切り単位ごとに、前記関連度スコアを算出し、
    前記関連語データベースは、前記見出しの区切り単位ごとに、複数構築され、
    前記追加キーワード提示ステップは、複数の前記関連語データベースを切り替えて処理を実行することを特徴とする書籍情報検索方法。
  4. コンピュータを、
    書籍の本文の内容を示す見出し及び前記見出しに対応する先頭ページ又は最終ページを含む目次データ、並びに、前記書籍の本文に出現する語句を示す索引語及び前記索引語が出現するページを示す出現ページを含む索引データを、前記書籍ごとに書籍データとして記憶する書籍情報データベースと、
    前記書籍情報データベースから前記書籍データを順次読み込み、前記見出しごとに、当該見出しに対応するページ範囲に入る前記出現ページに係る前記索引語を抽出し、抽出された前記索引語群を索引グループとしてグループ化するグループ化手段と、
    前記索引データから任意の前記索引語を2つずつ順次読み込み、前記索引グループによって示される前記索引語の共起情報に基づいて、読み込まれた2つの前記索引語の関連度合を示す関連度スコアを算出する関連度算出手段と、
    読み込まれた2つの前記索引語を第1関連語及び第2関連語とし、前記関連度スコアと対応付けて記憶する関連語データベースと、
    前記関連語データベースを検索することで、入力キーワードと一致する前記第1関連語又は前記第2関連語を抽出し、前記関連度スコアに基づいて、抽出された前記第1関連語又は前記第2関連語の中から前記入力キーワードに対する追加キーワードを提示する追加キーワード提示手段と、
    して機能させ
    前記グループ化手段は、前記目次データが前記先頭ページを含む場合、当該見出しに対応するページ範囲は、当該見出しに対応する前記先頭ページから直後の前記見出しに対応する前記先頭ページまでとし、又は、前記目次データが前記最終ページを含む場合、直前の前記見出しに対応する前記最終ページから当該見出しに対応する前記最終ページまでとし、
    前記見出しの区切り単位が複数存在する場合において、
    前記グループ化手段は、前記見出しの区切り単位ごとに、前記索引グループをグループ化し、
    前記関連度算出手段は、前記見出しの区切り単位ごとに、前記関連度スコアを算出し、
    前記関連語データベースは、前記見出しの区切り単位ごとに、複数構築され、
    前記追加キーワード提示手段は、複数の前記関連語データベースを切り替えて処理を実行するためのプログラム。
JP2010200507A 2010-09-08 2010-09-08 書籍情報検索装置、書籍情報検索システム、書籍情報検索方法及びプログラム Active JP5541014B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010200507A JP5541014B2 (ja) 2010-09-08 2010-09-08 書籍情報検索装置、書籍情報検索システム、書籍情報検索方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010200507A JP5541014B2 (ja) 2010-09-08 2010-09-08 書籍情報検索装置、書籍情報検索システム、書籍情報検索方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2012058936A JP2012058936A (ja) 2012-03-22
JP5541014B2 true JP5541014B2 (ja) 2014-07-09

Family

ID=46055975

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010200507A Active JP5541014B2 (ja) 2010-09-08 2010-09-08 書籍情報検索装置、書籍情報検索システム、書籍情報検索方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5541014B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5870815B2 (ja) * 2012-03-29 2016-03-01 大日本印刷株式会社 書籍情報検索装置、書籍情報検索システム、書籍情報検索方法およびプログラム
CN109408822A (zh) * 2018-10-30 2019-03-01 中译语通科技股份有限公司 一种跨语言图书相关度分析方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002230037A (ja) * 2001-01-31 2002-08-16 Kddi Corp 検索システム、方法及びプログラム
JP5374881B2 (ja) * 2008-02-05 2013-12-25 日本電気株式会社 情報検索システム、情報検索方法およびプログラム
JP5193669B2 (ja) * 2008-05-08 2013-05-08 株式会社野村総合研究所 検索システム
JP2010108427A (ja) * 2008-10-31 2010-05-13 Dainippon Printing Co Ltd 検索サーバ及び方法

Also Published As

Publication number Publication date
JP2012058936A (ja) 2012-03-22

Similar Documents

Publication Publication Date Title
US10565273B2 (en) Tenantization of search result ranking
JP5316158B2 (ja) 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
KR102408082B1 (ko) 질문문 생성 장치 및 컴퓨터 프로그램
JP5116775B2 (ja) 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
US9384245B2 (en) Method and system for assessing relevant properties of work contexts for use by information services
JP3820242B2 (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
CN109564573B (zh) 来自计算机应用元数据的平台支持集群
US20040230570A1 (en) Search processing method and apparatus
US20120278302A1 (en) Multilingual search for transliterated content
US7752557B2 (en) Method and apparatus of visual representations of search results
US20040098385A1 (en) Method for indentifying term importance to sample text using reference text
US20130268554A1 (en) Structured document management apparatus and structured document search method
Anthony AntConc (Windows, Macintosh OS X, and Linux)
JP2015106354A (ja) 検索サジェスト装置、検索サジェスト方法、及び、プログラム
JP4631795B2 (ja) 情報検索支援システム、情報検索支援方法および情報検索支援プログラム
JP5541014B2 (ja) 書籍情報検索装置、書籍情報検索システム、書籍情報検索方法及びプログラム
JP6533876B2 (ja) 商品情報表示システム、商品情報表示方法、及びプログラム
JP2001265774A (ja) 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
US9122727B1 (en) Identification of related search queries that represent different information requests
JP2019200582A (ja) 検索装置、検索方法及び検索プログラム
US10810236B1 (en) Indexing data in information retrieval systems
Wolff et al. Self-selection bias of similarity metrics in translation memory evaluation
JP5041802B2 (ja) クエリ分析サーバ、評価観点語データベース及び語句データベース生成方法
JP6707410B2 (ja) 文献検索装置、文献検索方法およびコンピュータプログラム
JP5870815B2 (ja) 書籍情報検索装置、書籍情報検索システム、書籍情報検索方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130712

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140128

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140324

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140408

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140421

R150 Certificate of patent or registration of utility model

Ref document number: 5541014

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150