JP6226314B2 - 検索用インデックス構築装置、検索用インデックス構築方法、及び、検索用インデックス構築装置のプログラム - Google Patents

検索用インデックス構築装置、検索用インデックス構築方法、及び、検索用インデックス構築装置のプログラム Download PDF

Info

Publication number
JP6226314B2
JP6226314B2 JP2012214227A JP2012214227A JP6226314B2 JP 6226314 B2 JP6226314 B2 JP 6226314B2 JP 2012214227 A JP2012214227 A JP 2012214227A JP 2012214227 A JP2012214227 A JP 2012214227A JP 6226314 B2 JP6226314 B2 JP 6226314B2
Authority
JP
Japan
Prior art keywords
keyword
document
search
search index
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012214227A
Other languages
English (en)
Other versions
JP2014067374A (ja
Inventor
鈴木 卓也
卓也 鈴木
小笠原 健
健 小笠原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konami Digital Entertainment Co Ltd
Original Assignee
Konami Digital Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konami Digital Entertainment Co Ltd filed Critical Konami Digital Entertainment Co Ltd
Priority to JP2012214227A priority Critical patent/JP6226314B2/ja
Publication of JP2014067374A publication Critical patent/JP2014067374A/ja
Application granted granted Critical
Publication of JP6226314B2 publication Critical patent/JP6226314B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、検索用インデックスを構築する技術に関する。
インターネット上でウェブページの検索を行う際には、ウェブページの一部のデータを検索用のキーワードとして利用し、検索の効率を上げる技術がよく知られている(例えば、特許文献1)。
具体的には、HTML(HyperText Markup Language)データにおけるヘッダーと呼ばれる表示されないデータ領域に、ウェブページに関係するキーワードを埋め込んでおく。検索エンジンのシステムでは、周期的にインターネット上で公開されているウェブページを巡回し、ヘッダーに埋め込まれたキーワードを収集して、そのウェブページと収集したキーワードとを関連付けてデータベース化する。
そして、インターネットの利用者が検索エンジンを使用して検索ワードを入力すると、検索エンジンは、入力された検索ワードとデータベースに記憶させたキーワードとが合致するかどうかを判断し、合致した場合には、入力された検索ワードに関係するウェブページとして、キーワードと関連付けてデータベースに記憶させたウェブページのリンク先等を検索結果として表示する。
したがって、ヘッダーに埋め込まれたキーワードを適切に採用することにより、特定のウェブページを検索結果として表示させやすくすることができる。
楽曲を紹介するウェブページを例にとると、ヘッダーに、楽曲名及びアーティスト名等の楽曲の基本情報のキーワードや、楽曲を紹介するウェブページの本文を要約したキーワードを埋め込むことにより、例えば利用者がその曲名を検索ワードとして検索した際に、その楽曲を紹介するウェブページを検索結果として表示させることができる。
特開2011−54102号公報
しかし、ヘッダーに埋め込むキーワードは、ウェブページの作成時点において採用したキーワードなので、インターネットの利用者が用いる最新の検索ワードには対応できないことがあった。
例えば、ある楽曲がリリースされた際にその楽曲を紹介するウェブページが作成され、リリース後に、あるCMでその楽曲が使用されたとする。この場合、そのCMに関するワードを検索ワードとして検索が行われた場合に、検索結果として前記楽曲を紹介するウェブページが表示されることが望ましい。
しかし、前記楽曲を紹介するウェブページの作成時点においては、前記CMに関するワードはヘッダーに埋め込まれていないため、前記CMに関するワードを検索ワードとして検索が行われても、検索結果として前記楽曲を紹介するウェブページは表示されない。
本発明は、この点に鑑みてなされたものであり、ウェブページの作成後において、そのウェブページと関連付けるべきキーワードが増えた場合であっても、そのキーワードを当該ウェブページの検索用のキーワードとして機能させることなどを解決課題とする。
以上の課題を解決するために本発明が採用する手段を以下に説明する。なお、本発明の理解を容易にするために以下では図面の参照符号を便宜的に括弧書で付記するが、本発明を図示の形態に限定する趣旨ではない。
上述した課題を解決するため、本発明に係る検索用インデックス構築装置は、検索装置(3)によって第1文書の検索に利用される検索用インデックスを構築する検索用インデックス構築装置(1)であって、前記第1文書とは異なる第2文書に、前記第1文書と関連付けて記憶された所定のメインキーワードが含まれているか否かを判断する判断部(10)と、前記判断部(10)により前記メインキーワードが含まれていると判断した前記第2文書から前記メインキーワードに対応するキーワードを抽出する抽出部(11)と、前記抽出部(11)により抽出したキーワードを前記第1文書の関連キーワードとして前記検索用インデックスを更新する更新部(12)とを備えることを特徴とする。
この発明において、検索用インデックスは汎用の検索装置よって利用されるものであってもよく、また、専用の検索装置よって利用されるものであってもよい。汎用の検索装置とは、例えばインターネット上で検索可能なすべてのウェブページを対象とする検索装置であって、専用の検索装置とは、例えば本発明の実施形態で特定されるような特定のウェブページ(楽曲紹介ページ)のみを対象とする検索装置である。専用の検索装置の詳細については後述する。検索用インデックスは関連キーワード群を含むものであれば、設けられる場所は第1文書の内部であっても、外部のデータベース等でもよい。検索用インデックスが第1文書の内部に設けられる場合には、第1文書のヘッダー部分だけでなく、その他の部分であってもよい。第1文書は、検索結果として表示させようとする文書であればどのような内容のものでもよく、メインキーワードは、第1文書に主に関連するキーワードであればどのようなキーワードでもよい。
上述した検索用インデックス構築装置(1)において、前記更新部(12)は、前記抽出部(11)により抽出したキーワードを前記第1文書の関連キーワードとして前記第1文書内の前記検索用インデックスを更新するようにしてもよい。
上述した検索用インデックス構築装置(1)において、前記第1文書及び前記第2文書は、マークアップ言語で記述されたウェブページであり、前記更新部(12)は、前記抽出部(11)により抽出したキーワードを前記第1文書の関連キーワードとして前記ウェブページのヘッダー内の前記検索用インデックスを更新するようにしてもよい。
上述した検索用インデックス構築装置(1)において、前記更新部(12)は、前記抽出部(11)により抽出したキーワードを前記第1文書の関連キーワードとしてデータベース(4)に記憶された前記検索用インデックスを更新するようにしてもよい。
上述した検索用インデックス構築装置(1)において、前記抽出部(11)は、固有名詞をキーワードとして抽出するようにしてもよい。
上述した検索用インデックス構築装置(1)において、前記第2文書として、質問に対する回答を投稿可能な質問ページを用い、前記判断部(10)により前記質問ページの回答部分にメインキーワードが含まれていると判断された場合は、前記抽出部(11)は、前記メインキーワードに対応するキーワードを質問部分から抽出し、前記判断部により前記質問ページの質問部分にメインキーワードが含まれていると判断された場合は、前記抽出部は、前記メインキーワードに対応するキーワードを回答部分から抽出するようにしてもよい。
上述した課題を解決するため、本発明に係る検索用インデックス構築方法は、検索装置によって第1文書の検索に利用される検索用インデックスを構築する検索用インデックス構築方法であって、前記第1文書とは異なる第2文書に、前記第1文書と関連付けて記憶された所定のメインキーワードが含まれているか否かを判断し、前記判断部により前記メインキーワードが含まれていると判断した前記第2文書から前記メインキーワードに対応するキーワードを抽出し、前記抽出したキーワードを前記第1文書の関連キーワードとして前記検索用インデックスを更新することを特徴とする。
上述した課題を解決するため、本発明に係る検索用インデックス構築装置のプログラムは、検索装置(3)によって第1文書の検索に利用される検索用インデックスを構築する検索用インデックス構築装置(1)としてコンピュータを機能させるためのプログラムであって、前記コンピュータを、前記第1文書とは異なる第2文書に、前記第1文書と関連付けて記憶された所定のメインキーワードが含まれているか否かを判断する判断部(10)と、前記判断部(10)により前記メインキーワードが含まれていると判断した前記第2文書から前記メインキーワードに対応するキーワードを抽出する抽出部(11)と、前記抽出部(11)により抽出したキーワードを前記第1文書の関連キーワードとして前記検索用インデックスを更新する更新部(12)として機能させることを特徴とする。
上記プログラムは、コンピュータが読み取り可能な記録媒体に記憶させても良い。この記録媒体を用いれば、例えば上記コンピュータに上記プログラムをインストールすることができる。ここで、上記プログラムを記憶した記録媒体は、CD−ROM等の非一過性の記録媒体であっても良い。
本発明の第1実施形態に係る検索用インデックス構築装置が使用される環境を説明するためのブロック図である。 楽曲DBに記憶されるデータの構造を示す説明図である。 検索用インデックス構築装置の構成を示すブロック図である。 検索用インデックス構築装置の動作を示すフローチャートである。 検索用インデックス構築装置の動作を示すフローチャートである。 Q&Aページの一例を示す説明図である。 楽曲紹介ページのHTMLデータの一部の一例を示す説明図である。 本発明の第2実施形態に係る検索用インデックス構築装置が使用される環境を説明するためのブロック図である。 第2実施形態の楽曲DBに記憶されるデータの構造を示す説明図である。 変形例における検索用インデックス構築装置の動作を示すフローチャートである。
以下、実施形態として、本発明に係る検索用インデックス構築装置について、図面を参照しつつ説明する。
<第1実施形態>
<1.検索用インデックス構築装置の概要>
図1は、本発明の第1実施形態に係る検索用インデックス構築装置1が用いられる環境を説明するためのブロック図である。ここで、検索用インデックスとは、検索装置3によって第1文書の検索に利用される情報であり、メインキーワードと関連キーワードとで構成される。メインキーワードは検索対象としての第1文書の主題を表すキーワードであり、関連キーワードは検索対象としての第1文書の内容に関連するキーワードのことである。検索用インデックスの詳細については後述する。図1に示すように、検索用インデックス構築装置1は、インターネットなどの通信網NETを介して、楽曲DB(データベース)4、公開サーバ5、ホスティングサーバ6のそれぞれに対して通信可能になっている。また、利用者端末2は、通信網NETを介して、汎用の検索装置3、公開サーバ5、ホスティングサーバ6のそれぞれに対して通信可能になっている。さらに、汎用の検索装置3は、通信網NETを介して、公開サーバ5及びホスティングサーバ6のそれぞれに対して通信可能になっている。
利用者端末2は、通信網NETを介した通信が可能であり、例えば、パーソナルコンピュータ、携帯電話機、スマートフォン、タブレット端末などが該当する。利用者端末2には、通信網NET上で公開されているウェブページを表示可能なブラウザソフトウェアがインストールされており、ブラウザソフトウェアを用いることにより、HTMLデータ等を利用者端末2上にウェブページとして表示させることができる。また、利用者端末2に備えられたキーボード等を利用して、ウェブページの入力欄等に文字データ等を入力することができる。なお、図1においては、一つの利用者端末2のみを示しているが、複数の利用者端末2が通信網NETに接続されている。
汎用の検索装置3は、周期的に公開サーバ5やホスティングサーバ6を巡回し、これらのサーバにおいて公開されているウェブページにアクセスすることで、当該ウェブページのHTMLデータから、検索装置3が当該ウェブページを検索する際に利用するためのキーワードを収集する。そして、そのウェブページと収集したキーワードとを関連付けてDB(データベース)3aに記録する。また、検索装置3には、利用者がウェブページを検索するための検索ワードの入力等を可能にするユーザインターフェースとしての検索用ウェブページのHTMLデータが備えられており、利用者が利用者端末2のブラウザソフトウェアを用いてこの検索用ウェブページにアクセスすることにより、検索ワードを入力することが可能になっている。検索用ウェブページの入力欄に検索ワードが入力され、検索の実行を指示するボタン等が押下されると、検索装置3は、DB3aに記録されたキーワードと、入力された検索ワード等が合致するかどうかを判断し、合致する場合には、そのキーワードと関連付けられたウェブページのリンク先等を検索結果として検索用ウェブページに表示させる。したがって、利用者は、検索ワードに関連するウェブページにアクセスすることが可能となる。
公開サーバ5は、通信網NETを介してアクセスすることが可能なサーバであり、プログラムやデータ等を記録可能なHDD(ハードディスクドライブ)5aを備えている。本実施形態では、一例としてHDD5aには、楽曲を紹介するためのウェブページである楽曲紹介ページ(第1文書の一例)のHTMLデータが記録されているものとする。したがって、利用者は、利用者端末2のブラウザソフトウェアを用いてこの楽曲紹介ページにアクセスすることにより、その楽曲に関する情報を入手することができる。
なお、図1においては、一つの公開サーバ5のみを示しているが、複数の公開サーバ5に楽曲紹介ページのHTMLデータを格納するようにしてもよい。また、公開サーバ5は、ホスティングサーバに置き換えることも可能である。
ホスティングサーバ6は、通信網NETを介してアクセスすることが可能なサーバであり、プログラムやデータ等を記録可能なHDD(ハードディスクドライブ)6aを備えている。本実施形態では、一例としてHDD6aには、Q&Aページ(第2文書の一例)のHTMLデータが記録されているものとする。Q&Aページとは、ある利用者が質問を投稿すると、その質問に対する回答を他の利用者が記入可能なサービスに用いられるウェブページである。なお、Q&Aページは、ある特定のサービスにおける一つのページだけを指すものではなく、質問に対する回答が掲載される形式のページであればどのような形態のものでもよく、複数種類のQ&Aページが存在している。これらの複数種類のQ&Aページは、一つのホスティングサーバ6に格納されていてもよいし、複数のホスティングサーバ6に格納されていてもよい。図1においては、一つのホスティングサーバ6のみを示しているが、複数のホスティングサーバ6を用いてもよい。また、ホスティングサーバ6は、公開サーバに置き換えることも可能である。
図1を参照して、検索用インデックス構築装置1の機能を説明する。検索用インデックス構築装置1は、判断部10と、抽出部11と、更新部12と、記憶部13とを備える。判断部10、抽出部11、及び、更新部12は、検索用インデックス構築装置1が検索用インデックス構築のためのプログラムを実行することにより発揮される機能ブロックである。
判断部10は、Q&AページのHTMLデータに、楽曲紹介ページの参照情報(ファイル名またはURL等のロケーション情報)と関連付けて記憶された所定のメインキーワード(楽曲名等)が含まれているか否かを判断する。
抽出部11は、判断部10により前記メインキーワードがQ&Aページの回答欄に含まれていると判断した場合には、Q&Aページの質問欄からメインキーワードに対応するキーワードを抽出する。メインキーワードに対応するキーワードとは、メインキーワードとの関連で質問欄に記載されているキーワードである。詳しくは後述する。
更新部12は、抽出部11により抽出したキーワードを楽曲紹介ページの関連キーワードとして、検索用インデックスを更新する。本実施形態では、一例として、検索用インデックスは楽曲紹介ページのHTMLデータのヘッダー内に設けられている。検索装置3は、各ウェブページにアクセスして、当該ウェブページのHTMLデータから、各ウェブページに関連するキーワードを様々な方法により収集するが、その一つとして、各ウェブページのHTMLデータのヘッダー内に設けられている検索用インデックスに含まれるワードを収集することにより行われる。したがって、抽出部11が抽出したキーワードを当該楽曲紹介ページの関連キーワードとして、検索用インデックスを更新することにより、その抽出したキーワードを検索ワードとして検索装置3により検索した際に、検索結果として当該楽曲紹介ページが表示されることが期待される。
記憶部13には、検索用インデックス構築装置1を制御するプログラムが記憶され、さらに、一または複数のQ&AページのURLが記憶されている。したがって、検索用インデックス構築装置1は、このように記憶されたQ&AページのURLを参照して当該Q&Aページにアクセスし、判断部10により上述のように、当該Q&Aページに、楽曲紹介ページと関連付けて記憶された所定のメインキーワード(楽曲名等)が含まれているか否かを判断する。
楽曲DB4は、通信網NETを介して検索用インデックス構築装置1と通信可能であり、楽曲DB4には、図2に示すように、メインキーワード(楽曲名等)と、関連キーワードとが関連付けられて記憶されている。本実施形態では、楽曲紹介ページが予め複数用意されており、それらの楽曲紹介ページで紹介されている楽曲の楽曲名がメインキーワードとして楽曲DB4に記憶されている。検索用インデックス構築装置1は、楽曲DB4を随時参照することにより、上述したQ&Aページにおけるメインキーワードの有無の判断、あるいは、楽曲紹介ページに対応する検索用インデックスの更新を行う。詳しくは後述する。
なお、本実施形態では、楽曲DB4が、検索用インデックス構築装置1と別体に構成された例について説明したが、検索用インデックス構築装置1の構成要素の一つして楽曲DB4を備えるようにしてもよい。
図3に検索用インデックス構築装置1の構成を示す。この図に示すように、検索用インデックス構築装置1は、装置全体を制御するCPU(Central Processing Unit)30、CPU30の作業領域として機能するRAM(Random Access Memory)31、ブートプログラムなどを記憶したROM(Read Only Memory)32、各種のプログラムやデータを記憶するハードディスクドライブ(HDD)33、キーボードやマウスなどを含む入力部34、画像を表示するディスプレイ35、通信網NETを介して外部の装置と通信を行う通信インターフェース36、及びコンパクトディスクなどの情報記録媒体を読み取る読取装置37を備える。HDD33は、上述した記憶部13の一例である。
本実施形態において、CPU30は判断部10、抽出部11、及び、更新部12として動作し得る。
<2.検索用インデックス構築装置の動作>
以下、図4乃至図7を参照して、本実施形態の検索用インデックス構築装置1の動作について説明する。
<2−1:キーワード抽出処理>
まず、図4のフローチャートを参照して、キーワード抽出処理について説明する。検索用インデックス構築装置1のCPU30は、楽曲DB4に対して、どのような楽曲名が登録されているのかを問い合わせる(S200)。検索用インデックス構築装置1のCPU30から問合せ要求を受けた楽曲DB4は、登録されている情報の中から、楽曲名だけを抽出して、楽曲リストの作成を行う(S300)。本実施形態の場合は、図2に示すように、楽曲名として、「DDD」、「EEE」、「FFF」等が記憶されており、これらの楽曲名を抽出して楽曲リストを作成する。楽曲リストの作成が完了すると、楽曲DB4は、検索用インデックス構築装置1に対して、作成した楽曲リストを通知する(S301)。
検索用インデックス構築装置1のCPU30は、楽曲DB4から楽曲リストを取得すると(S201)、記憶部13に記憶されたQ&AページのURLを参照して当該Q&Aページにアクセスし、Q&AページのHTMLデータに含まれる日付データの確認を行う(S202)。日付データは、当該Q&Aページが最後に更新された日付を示している。検索用インデックス構築装置1の記憶部13には、当該Q&Aページに最後にアクセスした際に取得した日付データが記憶されるようになっている。検索用インデックス構築装置1のCPU30は、この記憶された日付データと、今回アクセスしたQ&Aページに対応するHTMLデータに含まれる日付データとを比較して、当該Q&Aページが、前回アクセスした時点よりも後に更新されたかどうかを判断する(S203)。前回アクセスした時点よりも後に更新されていないと判断した場合には(S203;NO)、他の処理へ移行する。
しかし、Q&Aページが前回アクセスした時点よりも後に更新されていると判断した場合には(S201;YES)、検索用インデックス構築装置1のCPU30は、Q&AページのHTMLデータに含まれる文書テキストデータを取得する(S204)。そして、文書テキストデータの中から回答欄に相当する箇所を参照し、その中から楽曲名を検索する(S205)。
図6にQ&Aページの一例を示す。図6に示すように、Q&AページP1は、質問欄A1と回答欄A2とを備えており、ある利用者が質問記入欄(図示せず)に質問を記入すると、その質問は質問欄A1に表示されるようになっている。また、質問欄A1に表示された質問を閲覧した他の利用者がその質問に対する回答を回答記入欄(図示せず)に記入すると、その回答は回答欄A2に表示されるようになっている。図6に示す例では、質問欄A1のタイトル部分には「Q:」というテキストデータが記載され、回答欄A2のタイトル部分には「A:」というテキストデータが記載されている。したがって、Q&Aページの文書テキストデータの中から、「A:」というテキストデータを検索することにより、回答欄A2に記載された回答の内容を参照することができる。図6には、「○○○」というユーザ名の利用者が「A社のBBB(車名)のCMに使用されている曲が知りたいのですが、ご存知の方がいらっしゃいましたら教えてください。」という質問を投稿した例を示している。また、この質問に対して、「△△△」というユーザ名の別の利用者が「CCC(アーティスト名)のDDD(楽曲名)という曲です。」という回答を投稿した例を示している。
文章の中から楽曲名を抽出するには、形態素解析という自然言語処理技術や、TD−IF法という周知のアルゴリズム等が用いられ、具体的には、文章の中から固有名詞が抽出される。図6に示す例では、検索結果として、アーティスト名の「CCC」と、楽曲名の「DDD」が固有名詞として抽出される。
検索用インデックス構築装置1のCPU30は、抽出した固有名詞と、ステップS201で取得した楽曲リストとを比較して、抽出した固有名詞の中に楽曲名が含まれているかどうかを判断する(S206)。楽曲名が含まれていなかったと判断した場合には(S206:NO)、他の処理へ移行する。しかし、楽曲名が含まれていたと判断した場合には(S206:YES)、検索用インデックス構築装置1のCPU30は、質問欄A1からキーワードを抽出する(S207)。上述した例では、抽出された固有名詞は「CCC」と「DDD」であるが、このうち、メインキーワード(楽曲名)として「DDD」が楽曲リストに含まれているので、検索用インデックス構築装置1のCPU30は、抽出した固有名詞の中に楽曲名が含まれていたと判断することになる。
質問欄A1からキーワードを抽出するには、文書テキストから楽曲名の検索を行う場合と同様に、形態素解析という自然言語処理技術や、TD−IF法という周知のアルゴリズム等を用いて質問欄A1から固有名詞が抽出される。図6に示す例では、質問欄A1に「A社のBBB(車名)のCMに使用されている曲が知りたいのですが、ご存知の方がいらっしゃいましたら教えてください。」と記載されているので、この中から、「BBB(車名)のCM」をキーワードとして抽出する。
検索用インデックス構築装置1のCPU30は、キーワードを抽出すると、その抽出したキーワードを楽曲DB4に通知する(S208)。通知を受けた楽曲DB4は、そのキーワードが新しいキーワードかどうか、つまり、既に登録されているキーワードではないかどうかを判断する(S302)。具体的には、登録されているメインキーワード(楽曲名)に関連付けられて記憶されている関連キーワードの中に、通知されたキーワードが含まれているかどうかを判断する。その結果、新しいキーワードである場合には(S302:YES)、関連キーワードとして登録を行い(S303)、その結果を検索用インデックス構築装置1に通知する(S304)。図2には、楽曲名「DDD」に関連付けられて、キーワード「BBB(車名)のCM」が登録された例を示す。しかし、新しいキーワードではない場合には、登録の処理を行わず、その結果を検索用インデックス構築装置1に通知する(S304)。そして、検索用インデックス構築装置1のCPU30は、楽曲DB4から登録結果について取得する(S209)。
<2−2:楽曲紹介ページ更新処理>
次に、図5を参照して本実施形態の楽曲紹介ページの更新処理について説明する。楽曲紹介ページの更新処理は、図4に示すキーワードの取得処理が終了した後に続けて行うようにしてもよいし、あるいは、キーワードの取得処理とは独立に行うようにしてもよい。本実施形態では、図4に示すキーワードの取得処理が終了した後に続けて行う例について説明する。
検索用インデックス構築装置1の記憶部13には、楽曲紹介ページのURLが予め記憶されており、検索用インデックス構築装置1のCPU30は、この楽曲紹介ページのURLを参照することにより、楽曲紹介ページにアクセスする。そして、楽曲紹介ページの文書テキストデータを取得する(S221)。
検索用インデックス構築装置1のCPU30は、取得した文書テキストデータの中から楽曲名を取得する(S222)。図7に楽曲紹介ページのHTMLデータの一例を示す。図7に示すように、楽曲紹介ページのHTMLデータP2は、<head>と</head>のタグで囲まれたヘッダー部分B1と、<body>と</body>のタグで囲まれた本文の部分B2とを備えている。なお、前述した検索用インデックスはヘッダー部分B1に該当する。本実施形態で予め用意している楽曲紹介ページは、本文の部分の最初に「DDD(曲名)紹介ページ」とタイトルが付けられているため、このタイトルにおける「紹介ページ」の前の部分を読み取って楽曲名を取得している。
検索用インデックス構築装置1のCPU30は、取得した楽曲名についてのキーワードが登録されているかどうかを楽曲DB4に問い合わせる(S223)。問い合わせを受けた楽曲DB4は、問い合わせのあった楽曲名に対応する関連キーワードが登録されているかどうかを検索する(S310)。そして、その検索結果を検索用インデックス構築装置1に通知し(S311)、検索用インデックス構築装置1のCPU30は、その検索結果を取得する(S224)。上述した例では、図2に示すように、楽曲名「DDD」に関連付けられて「BBB(車名)のCM」という関連キーワードが登録されているので、楽曲DB4は、「BBB(車名)のCM」という関連キーワードが登録されていたことを検索用インデックス構築装置1に通知することになる。
検索用インデックス構築装置1のCPU30は、取得した検索結果に基づいて、楽曲DB4に関連キーワードが登録されていたかどうかを判断する(S225)。上述した例では、「BBB(車名)のCM」という関連キーワードが登録されていたので、この「BBB(車名)のCM」という関連キーワードを<head>と</head>のタグで囲まれたヘッダー部分に埋め込む(S226)。具体的には、図7に示すように、ヘッダー部分には、<meta name="keywords" content="キーワード1, キーワード2,キーワード3">と記載された箇所があり、この「キーワード1, キーワード2,キーワード3」の部分に、楽曲DB4から通知された関連キーワードを埋め込んでいく。例えば、楽曲紹介ページが作成された時点においては、キーワード1として楽曲名が埋め込まれ、 キーワード2としてアーティスト名が埋め込まれていたとする。このように楽曲紹介ページの作成時点では2つのキーワードが埋め込まれた状態で、本実施形態の楽曲紹介ページの更新処理により、3つのめのキーワードとして、キーワード3の部分に「BBB(車名)のCM」を埋め込む。このように、図4に示すキーワード抽出処理によって、Q&Aページの質問欄から新たなキーワードを抽出し、図5に示す楽曲紹介ページの更新処理により、楽曲紹介ページのヘッダー部分に、抽出した新たなキーワードが追加されていく。
したがって、楽曲紹介ページが作成された当初においては、ある利用者が検索装置3を用いて楽曲名あるいはアーティスト名を検索ワードとして検索を行った場合には、これらの楽曲名及びアーティスト名は、楽曲紹介ページのヘッダー部分に埋め込まれているため、この楽曲紹介ページが検索結果として表示されることになる。この時点では、仮に「BBB(車名)のCM」という検索ワードで検索を行っても、この検索ワードは楽曲紹介ページのヘッダー部分にまだ埋め込まれていないので、検索装置3の検索結果としてこの楽曲紹介ページが表示されることはない。
しかし、本実施形態においては、上述のように、Q&Aページを参照して新たなキーワードである「BBB(車名)のCM」を楽曲紹介ページのヘッダー部分に追加するので、ある利用者が検索装置3を用いて「BBB(車名)のCM」という検索ワードで検索すると、検索結果としてこの楽曲紹介ページが表示されることになる。
以上のように本実施形態によれば、Q&Aページの回答欄に楽曲名が含まれていた場合には、質問欄から新たなキーワードを抽出し、その楽曲を紹介するページである楽曲紹介ページのヘッダー部分に関連キーワードとして追加するので、楽曲紹介ページの作成後において、その楽曲紹介ページと関連付けるべきキーワードが増えた場合であっても、汎用の検索装置に対して、そのキーワードを当該楽曲紹介ページの関連キーワードとして有効に機能させることができる。
<第2実施形態>
次に、図8及び図9を参照して、本発明の第2実施形態について説明する。第1実施形態においては、検索装置として汎用の検索装置を用いる例について説明したが、第2実施形態は、図8に示すように、DB(データベース)3bを備えた楽曲紹介ページ用の専用の検索装置3Aを用いる構成が第1実施形態とは異なる。
また、第2実施形態における楽曲DB4Aは、図9に示すように、メインキーワード(楽曲名)と関連付けて関連キーワードを記憶しているだけでなく、楽曲紹介ページの参照情報(URL)についても楽曲名と関連付けて記憶している。
第2実施形態においても、図4に示すキーワード抽出処理は第1実施形態と同様に行うが、第2実施形態では、図5に示した楽曲紹介ページの更新処理は行わない。検索用インデックスの更新処理は、図4に示すキーワード抽出処理において楽曲DB4Aの関連キーワードを更新する処理だけとなっている。つまり、第1実施形態においては、楽曲紹介ページのHTMLデータのヘッダー部分が検索用インデックスとして機能している例を説明したが、第2実施形態においては、楽曲DB4A自体が検索用インデックスとして機能している。
第2実施形態では、ある利用者が、専用の検索装置3A用いて、「BBB(車名)のCM」を検索ワードとして検索を行うと、検索装置3Aは、この「BBB(車名)のCM」が、楽曲DB4Aに関連キーワードとして登録されているかどうかを判断する。そして、関連キーワードとして登録されていた場合には、その関連キーワードと関連付けて記憶されている楽曲紹介ページのURLを検索結果として表示する。
従って、本実施形態においても、Q&Aページの回答欄に楽曲名が含まれていた場合には、質問欄から新たなキーワードを抽出し、楽曲DBにおいてその楽曲を紹介するページである楽曲紹介ページのURLと関連付けて、関連キーワードとして追加するので、楽曲紹介ページの作成後において、その楽曲紹介ページと関連付けるべきキーワードが増えた場合であっても、上述した専用の検索装置に対して、そのキーワードを当該楽曲紹介ページの関連キーワードとして有効に機能させることができる。
<変形例>
本発明は、上述した実施形態に限定されるものではなく、以下に述べる各種の変形が可能である。また、各変形例及び実施形態は、適宜、組み合わせてもよいことは勿論である。
上述した実施形態においては、楽曲DB4及び楽曲DB4Aを、検索用インデックス構築装置1と別体とし、検索用インデックス構築装置1と通信網NETを介して通信可能とした例について説明したが、本発明はこのような例に限定されるものではない。つまり、楽曲DB4及び楽曲DB4Aの機能を、検索用インデックス構築装置1内に持たせるようにしてもよい。あるいは、楽曲DB4及び楽曲DB4Aに記憶される情報を、テーブルとして検索用インデックス構築装置1の記憶部13に記憶させ、検索用インデックス構築装置1において当該テーブルの検索を行うようにしてもよい。また、テーブルとして記憶する楽曲DB4及び楽曲DB4Aの情報における個々の要素は、互いに参照可能なように関連付けられている限りにおいて、複数の異なる記憶装置、または同一の記憶装置における複数の異なる記憶領域に分離した状態で記憶されてもよい。
また、第1実施形態においては、HTMLデータのヘッダー部分を検索用インデックスとして更新する例について説明したが、汎用の検索装置によっては、HTMLデータのヘッダー部分以外の部分を参照して関連キーワードの抽出を行うことが考えられるので、そのような汎用の検索装置の使用を想定する場合には、HTMLデータのヘッダー部分以外の部分を検索用インデックスとして更新すればよい。
上述した実施形態においては、Q&Aページの回答欄から楽曲名を抽出し、質問欄からキーワードを抽出する例について説明したが、例えば、所定の楽曲について、どのようなCMに使用されているかについて質問し、回答として所定のCM名が投稿されることも考えられるので、このような場合には、図10に示すように、Q&Aページの質問欄から楽曲名を抽出し(S230)、回答欄からキーワードを抽出する(S231)ようにしてもよい。
また、上述した実施形態においては、新たなキーワードを抽出する対象のページとして、Q&Aページを用いる例について説明したが、本発明はこのような例に限定されるものではなく、検索結果として表示させようとするページのメインキーワードに関連したページであれば、例えば、ブログ等のページであってもよい。つまり、上述の実施形態では検索結果として表示させようとするページが楽曲紹介ページであり、当該楽曲紹介ページのメインキーワードが楽曲名であるから、楽曲名に関連するページであれば、Q&Aページ以外のブログ等のページ、ニュース関連のページ等であってもよい。
さらに、検索結果として表示させようとするページは楽曲紹介ページに限定されるものではなく、例えば、商品を紹介するようページ等、どのようなページであってもよい。また、ページの概念は、HTMLデータとして形成されたウェブページに限定されない。上述した実施形態と同様の方法を用いることが可能な限りにおいて、利用者による検索対象やキーワードの抽出対象は、例えばテキストファイルや任意のアプリケーションで読込可能な文書ファイル等であってもよい。
なお、本発明における機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することとしてもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、インターネットやWAN、LAN、専用回線等の通信回線を含むネットワークを介して接続された複数のコンピュータ装置を含んでもよい。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、ネットワークを介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、上述した機能の一部を実現するためのものであってもよい。さらに、上述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。また、本発明における機能またはその一部を実現するためのプログラムを配信する配信サーバ及び当該配信サーバに備えられた記憶媒体、及び当該配信サーバの外部に存在し、当該プログラムを前記配信サーバにより配信するために記憶している記憶媒体も、本発明の範囲に含まれる。
また、上述した機能の一部または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。上述した各機能は個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
なお、本発明は上述の実施形態及び変形例に限定されるものではなく、本発明の趣旨の範囲内での変更は本発明に含まれるものである。
NET……通信網、1……検索用インデックス構築装置、2……利用者端末、3,3A……検索装置、4,4A……楽曲DB、5……公開サーバ、6……ホスティングサーバ、10……判断部、11……抽出部、12……更新部、13……記憶部。

Claims (10)

  1. 予め定められた第1文書の検索装置による検索に利用される検索用インデックスを構築する検索用インデックス構築装置であって、
    前記第1文書とは異なる予め定められた第2文書に、前記第1文書と関連付けて記憶されたキーワードから読み取った所定のメインキーワードが含まれているか否かを判断する判断部と、前記判断部により前記メインキーワードが含まれていると判断した前記第2文書から前記メインキーワードに対応するキーワードを抽出する抽出部と、前記抽出部により抽出したキーワードを前記第1文書の関連キーワードとして前記検索用インデックスを更新する更新部とを備え、
    前記第2文書として、質問に対する回答を投稿可能な質問ページを用い、前記判断部により前記質問ページの回答部分にメインキーワードが含まれていると判断された場合は、前記抽出部は、前記メインキーワードに対応するキーワードを質問部分から抽出する
    ことを特徴とする検索用インデックス構築装置。
  2. 予め定められた第1文書の検索装置による検索に利用される検索用インデックスを構築する検索用インデックス構築装置であって、
    前記第1文書とは異なる予め定められた第2文書に、前記第1文書と関連付けて記憶されたキーワードから読み取った所定のメインキーワードが含まれているか否かを判断する判断部と、前記判断部により前記メインキーワードが含まれていると判断した前記第2文書から前記メインキーワードに対応するキーワードを抽出する抽出部と、前記抽出部により抽出したキーワードを前記第1文書の関連キーワードとして前記検索用インデックスを更新する更新部とを備え、
    前記第2文書として、質問に対する回答を投稿可能な質問ページを用い、前記判断部により前記質問ページの質問部分にメインキーワードが含まれていると判断された場合は、前記抽出部は、前記メインキーワードに対応するキーワードを回答部分から抽出する
    ことを特徴とする検索用インデックス構築装置。
  3. 前記更新部は、前記抽出部により抽出したキーワードを前記第1文書の関連キーワードとして前記第1文書内の前記検索用インデックスを更新することを特徴とする請求項1または請求項2に記載の検索用インデックス構築装置。
  4. 前記第1文書及び前記第2文書は、マークアップ言語で記述されたウェブページであり、前記更新部は、前記抽出部により抽出したキーワードを前記第1文書の関連キーワードとして前記ウェブページのヘッダー内の前記検索用インデックスを更新することを特徴とする請求項に記載の検索用インデックス構築装置。
  5. 前記更新部は、前記抽出部により抽出したキーワードを前記第1文書の関連キーワードとしてデータベースに記憶された前記検索用インデックスを更新することを特徴とする請求項1ないし請求項のいずれか一に記載の検索用インデックス構築装置。
  6. 前記抽出部は、固有名詞をキーワードとして抽出することを特徴とする請求項1ないし請求項のいずれか一に記載の検索用インデックス構築装置。
  7. 予め定められた第1文書の検索装置による検索に利用される検索用インデックスを構築し、判断部、抽出部、および更新部を備える検索用インデックス構築装置による検索用インデックス構築方法であって、
    前記判断部により、前記第1文書とは異なる予め定められた第2文書に、前記第1文書と関連付けて記憶されたキーワードから読み取った所定のメインキーワードが含まれているか否かを判断し、
    前記抽出部により、前記判断部により前記メインキーワードが含まれていると判断した前記第2文書から前記メインキーワードに対応するキーワードを抽出し、
    前記更新部により、前記抽出したキーワードを前記第1文書の関連キーワードとして前記検索用インデックスを更新
    前記第2文書として、質問に対する回答を投稿可能な質問ページを用い、前記判断部により前記質問ページの回答部分にメインキーワードが含まれていると判断された場合は、前記抽出部により、前記メインキーワードに対応するキーワードを質問部分から抽出する
    ことを特徴とする検索用インデックス構築方法。
  8. 予め定められた第1文書の検索装置による検索に利用される検索用インデックスを構築し、判断部、抽出部、および更新部を備える検索用インデックス構築装置による検索用インデックス構築方法であって、
    前記判断部により、前記第1文書とは異なる予め定められた第2文書に、前記第1文書と関連付けて記憶されたキーワードから読み取った所定のメインキーワードが含まれているか否かを判断し、
    前記抽出部により、前記判断部により前記メインキーワードが含まれていると判断した前記第2文書から前記メインキーワードに対応するキーワードを抽出し、
    前記更新部により、前記抽出したキーワードを前記第1文書の関連キーワードとして前記検索用インデックスを更新
    前記第2文書として、質問に対する回答を投稿可能な質問ページを用い、前記判断部により前記質問ページの質問部分にメインキーワードが含まれていると判断された場合は、前記抽出部により、前記メインキーワードに対応するキーワードを回答部分から抽出する
    ことを特徴とする検索用インデックス構築方法。
  9. 予め定められた第1文書の検索装置による検索に利用される検索用インデックスを構築するコンピュータを備える検索用インデックス構築装置のプログラムであって、
    前記コンピュータを、
    前記第1文書とは異なる予め定められた第2文書に、前記第1文書と関連付けて記憶されたキーワードから読み取った所定のメインキーワードが含まれているか否かを判断する判断部と、
    前記判断部により前記メインキーワードが含まれていると判断した前記第2文書から前記メインキーワードに対応するキーワードを抽出する抽出部と、
    前記抽出部により抽出したキーワードを前記第1文書の関連キーワードとして前記検索用インデックスを更新する更新部として機能させ、
    前記第2文書として、質問に対する回答を投稿可能な質問ページを用い、前記判断部により前記質問ページの回答部分にメインキーワードが含まれていると判断された場合は、前記抽出部は、前記メインキーワードに対応するキーワードを質問部分から抽出する
    ことを特徴とする検索用インデックス構築装置のプログラム。
  10. 予め定められた第1文書の検索装置による検索に利用される検索用インデックスを構築するコンピュータを備える検索用インデックス構築装置のプログラムであって、
    前記コンピュータを、
    前記第1文書とは異なる予め定められた第2文書に、前記第1文書と関連付けて記憶されたキーワードから読み取った所定のメインキーワードが含まれているか否かを判断する判断部と、
    前記判断部により前記メインキーワードが含まれていると判断した前記第2文書から前記メインキーワードに対応するキーワードを抽出する抽出部と、
    前記抽出部により抽出したキーワードを前記第1文書の関連キーワードとして前記検索用インデックスを更新する更新部として機能させ、
    前記第2文書として、質問に対する回答を投稿可能な質問ページを用い、前記判断部により前記質問ページの質問部分にメインキーワードが含まれていると判断された場合は、前記抽出部は、前記メインキーワードに対応するキーワードを回答部分から抽出する
    ことを特徴とする検索用インデックス構築装置のプログラム。
JP2012214227A 2012-09-27 2012-09-27 検索用インデックス構築装置、検索用インデックス構築方法、及び、検索用インデックス構築装置のプログラム Active JP6226314B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012214227A JP6226314B2 (ja) 2012-09-27 2012-09-27 検索用インデックス構築装置、検索用インデックス構築方法、及び、検索用インデックス構築装置のプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012214227A JP6226314B2 (ja) 2012-09-27 2012-09-27 検索用インデックス構築装置、検索用インデックス構築方法、及び、検索用インデックス構築装置のプログラム

Publications (2)

Publication Number Publication Date
JP2014067374A JP2014067374A (ja) 2014-04-17
JP6226314B2 true JP6226314B2 (ja) 2017-11-08

Family

ID=50743666

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012214227A Active JP6226314B2 (ja) 2012-09-27 2012-09-27 検索用インデックス構築装置、検索用インデックス構築方法、及び、検索用インデックス構築装置のプログラム

Country Status (1)

Country Link
JP (1) JP6226314B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7179630B2 (ja) * 2019-01-28 2022-11-29 ヤフー株式会社 決定装置、決定方法及び決定プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008204227A (ja) * 2007-02-21 2008-09-04 Fuji Xerox Co Ltd キーワード付与装置およびキーワード付与プログラム
JP2009140089A (ja) * 2007-12-04 2009-06-25 Internatl Business Mach Corp <Ibm> ウェブコンテンツに検索用キーワードを付加するシステムおよび方法

Also Published As

Publication number Publication date
JP2014067374A (ja) 2014-04-17

Similar Documents

Publication Publication Date Title
JP5264892B2 (ja) 多言語情報検索
US9218414B2 (en) System, method, and user interface for a search engine based on multi-document summarization
JP6423845B2 (ja) 検索クエリに応答してコンテンツとマッチングしようとする画像を動的にランキングする方法及びシステム
CN101809572B (zh) 在搜索结果页面上包括交互式元素的系统和方法
US20150088846A1 (en) Suggesting keywords for search engine optimization
US8631097B1 (en) Methods and systems for finding a mobile and non-mobile page pair
US10783192B1 (en) System, method, and user interface for a search engine based on multi-document summarization
CN106471497B (zh) 使用上下文的辅助浏览
CN104090757A (zh) 针对浏览器的富媒体信息展示方法
CN104090923A (zh) 一种浏览器中的富媒体信息的展示方法和装置
JP6226314B2 (ja) 検索用インデックス構築装置、検索用インデックス構築方法、及び、検索用インデックス構築装置のプログラム
JP4796527B2 (ja) ドキュメント絞り込み検索装置、方法及びプログラム
WO2013047512A1 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
Witte et al. Connecting wikis and natural language processing systems
JP5072792B2 (ja) 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ
JP5228529B2 (ja) データ検索プログラム、データ検索装置およびデータ検索方法
JP4477931B2 (ja) 検索リクエスト装置、検索リクエスト方法、検索リクエストプログラムおよび検索リクエストプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2006236221A (ja) ウエブページ検索のための管理サーバ装置
US11150871B2 (en) Information density of documents
JP2007025753A (ja) ウェブログサーバ及びウェブログサービス提供システム
Ke et al. Advanced information retrieval Web services for digital libraries
JP7323484B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2011192222A (ja) 情報処理装置、データ抽出方法、及びプログラム
JP2008165785A (ja) 検索システムおよびその方法
US10783199B2 (en) Web site presentation method, non-transitory computer-readable recording medium, and web site presentation device

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150414

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150819

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160824

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20161011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161228

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20170106

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20170310

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170406

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171003

R150 Certificate of patent or registration of utility model

Ref document number: 6226314

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250