JP2014191550A

JP2014191550A - コンテンツ検索サーバ、コンテンツ検索装置及びコンテンツの検索方法

Info

Publication number: JP2014191550A
Application number: JP2013065685A
Authority: JP
Inventors: Osamu Aoki; 修青木; Shinji Matsumoto; 信次松本; Daisuke Sato; 大介佐藤; Yojiro Sonoda; 葉二朗園田; Hiroaki Kono; 裕晃河野
Original assignee: Intelligent Wave Inc
Current assignee: Intelligent Wave Inc
Priority date: 2013-03-27
Filing date: 2013-03-27
Publication date: 2014-10-06

Abstract

【課題】検索に用いられるメタデータにコンテンツの提供者等が想定していないキーワードを設定することが可能であり、かつ、コンテンツに対する評判の変化にも対応し得るコンテンツ検索サーバを提供する。
【解決手段】コンテンツ検索サーバのコンテンツＤＢには検索対象となるコンテンツのメタデータが格納され、メタデータには検索の際に各々のコンテンツの特定に用いられるキーワードが設定されている。このキーワードには、構造化されたコンテンツのインデックス情報から抽出したワードのみでなく、コンテンツ検索サーバによってブログ、ミニブログ、口コミサイトなどを運営する他のＷｅｂサーバから対象となるコンテンツへの評価やコメントなどの非構造化データであるコンテンツ関連情報が収集され、収集された情報から抽出した出現頻度の高いワードなども、コンテンツのキーワードに設定され、多様な検索要求に対応できる構成となっている。
【選択図】図１

Description

本発明は、商品情報、質問への回答、動画ファイルなど、様々なコンテンツの検索に用いることができるコンテンツ検索サーバ、コンテンツ検索装置及びコンテンツの検索方法に関するものである。

インターネットのユーザは、Ｗｅｂページにアクセスして、様々なコンテンツを検索している。例えば、企業のホームページや電子商取引のＷｅｂページでは商品情報を検索し、ＦＡＱが掲載されたＷｅｂページでは自らの疑問点に合致する質問への回答を検索する。動画配信サイトでは、興味をもっているアーティスト等の動画を検索する。

こうした検索対象となるコンテンツを提供するコンテンツ提供者側のＷｅｂサーバでは、コンテンツに関する情報をメタデータとして管理し、ユーザからの検索要求を受け付けると、検索要求に指定された検索キーが、メタデータにキーワードとして含まれているコンテンツを検索して、該当するコンテンツを検索結果として出力する構成となることが多い。このように検索に用いられるコンテンツのメタデータは、コンテンツの名称、制作者などのインデックス情報から生成され、コンテンツの登録時にあわせて設定されることが一般的である（例えば、特許文献１の段落００２１、特許文献２の７ｐ．１〜１６行目等）。

特開２００６−０２４００１号公報国際公開第２００３／０６０７６４号

商品情報等のコンテンツの検索に用いられるメタデータは、上記の例のように、コンテンツのインデックス情報などの構造化されている情報から生成され、キーワードが設定されることが通常である。こうした場合に問題となるのが、検索用のキーワードのソースがインデックス情報などの構造化されている情報の範囲に固定されてしまうため、ユーザがコンテンツの制作者や提供者が想定していなかったキーワードを検索キーに指定した場合には、検索に引っ掛からなくなってしまうことである。

こうした問題は、ユーザが検索キーに特定のキーワードを指定して検索するケースより、ユーザが入力した質問文や依頼文からキーワードを抽出して検索を行うようなケースにおいて、より出現しやすくなると予測される。例えば、Ｗｅｂ上であたかもコンシェルジュのようにユーザの質問に答えるサービスを提供しようとすると、ユーザは口頭で質問するかのように口語文を入力することになるが、こうした口語文から検索キーとして抽出されるキーワードには、コンテンツの名称のような具体的なワードだけでなく、感情を表す抽象的なワードや、コンテンツの中で特に印象に残ったシーンを示すワードなど、コンテンツの制作者や提供者が事前に想定しきれなかったようなワードも含まれることが予想される。

また、メタデータに含まれるキーワードが当初から固定されたままだと、その後の状況の変化に対応することができないが、例えば、コンテンツに対して新たな見方や評判が生じた場合には、ユーザによって指定される検索キーも変化していく可能性があると考えられる。こうした状況にも対応できるようにするためには、メタデータに含まれるキーワードが、コンテンツに対する最新の評判などを反映して更新されるものであることが望ましい。

本発明は、このような課題に対応するためになされたものであり、検索に用いられるメタデータにコンテンツの提供者等が想定していないキーワードを設定することが可能であり、かつ、コンテンツに対する評判の変化にも対応し得る、コンテンツ検索サーバ、コンテンツ検索装置及びコンテンツの検索方法を提供することを目的とするものである。

このような課題を解決する本発明は、検索対象となるコンテンツを特定するキーワードを含むコンテンツのメタデータを格納する格納手段と、ユーザの操作するユーザ端末からコンテンツの検索要求を受信すると、前記検索要求から検索キーとなるキーワードを抽出し、前記格納手段を検索して前記検索要求に合致するコンテンツを選択し、前記ユーザ端末に検索結果として返信する検索手段と、前記格納手段にメタデータが格納されたコンテンツに関するコンテンツ関連情報を、ネットワークで接続された他のコンピュータから収集する収集手段と、前記収集手段によって収集されたコンテンツ関連情報から、所定の条件に合致するワードを抽出し、抽出したワードを、前記格納手段に格納された前記コンテンツのメタデータに、前記コンテンツを特定するキーワードとして設定する設定手段と、を備えることを特徴とするコンテンツ検索サーバである。

このように、本発明では、検索に用いられるメタデータに、コンテンツに対する評価やコメントなどのコンテンツに関連する情報を、ネットワークで接続された他のコンピュータ、例えば、ブログや口コミサイトを提供するＷｅｂサーバなどから収集し、収集した情報から抽出したワードをキーワードとして設定するので、コンテンツの制作者や提供者から提供されたインデックス情報等により設定されたキーワード以外にも、コンテンツの評判などから多様なキーワードを設定することが可能な構成となっている。

また、本発明において、前記収集手段及び前記設定手段は、いずれも所定のタイミングで繰り返し起動され、前記設定手段は、前記格納手段に格納されたメタデータを繰り返し更新することを特徴とすることもできる。

このように構成すると、コンテンツに対する評価やコメントなどのコンテンツに関連する最新の情報を反映して、検索用のキーワードを設定することができるので、コンテンツに対する評判の変化にも対応することが可能になる。

また、本発明において、前記設定手段によってキーワードに設定されるワードには、前記コンテンツ関連情報において出現頻度の高いワードが抽出されることを特徴とすることもできる。

このように構成すると、コンテンツに対する評価やコメントなどから抽出して設定されるキーワードを特定の意味のワードに固定することなく、幅広いワードをキーワードに設定することが可能になる。

また、本発明は、前記設定手段によってキーワードに設定されるワードには、キーワードの候補として登録された予約語に該当するワードのうち、前記コンテンツ関連情報において出現頻度の高いワードが抽出されることを特徴とすることもできる。

このように構成すると、コンテンツに対する評価やコメントなどから抽出して設定されるキーワードの少なくとも一部を、特定の意味をもつワードに固定することによって、コンテンツの提供者がキーワードに用いたいと考えているワードをキーワードに設定することが可能になる。

また、本発明は、前記設定手段は、前記コンテンツ関連情報において出現頻度の高いワードとして抽出されたワードから、キーワードに登録されない語に指定された語を除外したワードを選択してキーワードに設定することを特徴とすることもできる。

このように構成すると、コンテンツに対する評価やコメントなどから出現頻度の高いワードを抽出してキーワードに設定する際に、コンテンツの特定に有効でないワードなど、キーワードに用いるには不適切なワードを、メタデータにキーワードとして設定する対象から除外することが可能になる。

また、本発明は、前記ユーザ端末又は管理者の操作する管理者端末から、前記格納手段にメタデータが格納されるコンテンツのインデックス情報の入力を受け付ける受付手段を備えていて、前記格納手段に格納されるメタデータに含まれるコンテンツを特定するキーワードには、前記コンテンツのインデックス情報に含まれるワード、又は前記コンテンツのインデックス情報に含まれる値から特定されるワードの少なくとも一つが含まれることを特徴とすることもできる。

このように構成すると、インデックス情報から生成して設定される固定されたキーワードについても、コンテンツの名称、制作者といった単にインデックス情報に含まれるワードをそのまま用いるだけでなく、例えば、インデックス情報に含まれるコンテンツの文字数が閾値以下である場合には「読み易い」というキーワードを設定するなど、インデックス情報に含まれる値からキーワードを生成することによって、インデックス情報から特定できるキーワードの範囲を拡大することが可能になる。

以上に説明した、ネットワークを介して受信した検索要求に検索結果を返信するよう構成されるコンテンツ検索サーバの他に、本発明は、装置に直接入力された検索要求に検索結果を出力するよう構成されるコンテンツ検索装置として特定することもできる。

すなわち、本願にかかる課題を解決するコンテンツ検索装置に関する発明は、検索対象となるコンテンツを特定するキーワードを含むコンテンツのメタデータを格納する格納手段と、コンテンツの検索要求の入力を受け付けると、前記検索要求から検索キーとなるキーワードを抽出し、前記格納手段を検索して前記検索要求に合致するコンテンツを選択し、検索結果として出力する検索手段と、前記格納手段にメタデータが格納されたコンテンツに関するコンテンツ関連情報を、ネットワークで接続された他のコンピュータから収集する収集手段と、前記収集手段によって収集されたコンテンツ関連情報から、所定の条件に合致するワードを抽出し、抽出したワードを、前記格納手段に格納された前記コンテンツのメタデータに、前記コンテンツを特定するキーワードとして設定する設定手段と、を備えることを特徴とするコンテンツ検索装置である。

また、コンテンツ検索装置として特定される本発明も、先に説明したコンテンツ検索サーバの各々の構成に対応する構成を備えた、コンテンツ検索装置に関する発明として特定することもできる。

また、本発明は、本発明にかかるコンテンツ検索サーバによって実行される、コンテンツの検索方法として特定することもできる。

すなわち、本願にかかる課題を解決するコンテンツの検索方法に関する発明は、コンテンツの検索処理を実行するコンテンツ検索サーバが、ユーザの操作するユーザ端末からコンテンツの検索要求を受信するステップと、前記サーバが、前記検索要求から検索キーとなるキーワードを抽出し、検索対象となるコンテンツを特定するキーワードを含むコンテンツのメタデータを格納する格納手段を検索して前記検索要求に合致するコンテンツを選択し、前記ユーザ端末に検索結果として返信するステップと、前記サーバが、前記格納手段にメタデータが格納されたコンテンツに関するコンテンツ関連情報を、ネットワークで接続された他のコンピュータから収集するステップと、前記サーバが、前記ステップにおいて収集されたコンテンツ関連情報から、所定の条件に合致するワードを抽出し、抽出したワードを、前記格納手段に格納された前記コンテンツのメタデータに、前記コンテンツを特定するキーワードとして設定するステップと、を有することを特徴とするコンテンツの検索方法である。

また、コンテンツの検索方法として特定される本発明も、コンテンツ検索サーバの各々の構成に対応する構成を備えたコンテンツ検索サーバによって実行される、コンテンツの検索方法に関する発明として特定することもできる。

また、本発明は、本発明にかかるコンテンツ検索装置によって実行される、コンテンツの検索方法として特定することもできる。

すなわち、本願にかかる課題を解決するコンテンツの検索方法に関する発明は、コンテンツの検索処理を実行するコンテンツ検索装置が、コンテンツの検索要求の入力を受け付けるステップと、前記装置が、前記検索要求から検索キーとなるキーワードを抽出し、検索対象となるコンテンツを特定するキーワードを含むコンテンツのメタデータを格納する格納手段を検索して前記検索要求に合致するコンテンツを選択し、検索結果として出力するステップと、前記装置が、前記格納手段にメタデータが格納されたコンテンツに関するコンテンツ関連情報を、ネットワークで接続された他のコンピュータから収集するステップと、前記装置が、前記ステップにおいて収集されたコンテンツ関連情報から、所定の条件に合致するワードを抽出し、抽出したワードを、前記格納手段に格納された前記コンテンツのメタデータに、前記コンテンツを特定するキーワードとして設定するステップと、を有することを特徴とするコンテンツの検索方法である。

また、コンテンツの検索方法として特定される本発明も、コンテンツ検索装置の各々の構成に対応する構成を備えたコンテンツ検索装置によって実行される、コンテンツの検索方法に関する発明として特定することもできる。

本発明によって、商品情報、質問への回答、動画ファイルなどの様々なコンテンツを検索するシステムを構築する際に、検索に用いられるメタデータにコンテンツの提供者等が想定していないキーワードを設定することが可能になるとともに、コンテンツに対する評判の変化にも対応してキーワードを更新することが可能になる。

これによって、コンテンツの提供者等が構造化された情報から設定した固定されたキーワードのみでなく、ブログや口コミサイトでの最新の評判などの非構造化データから抽出したキーワードの設定が可能になるので、例えば、Ｗｅｂ上であたかもコンシェルジュのようにユーザの質問に答えるサービスに本発明を用いると、ユーザが口頭で質問するかのように入力された口語文の中からも、一般的なユーザがそのコンテンツに自然に用いることが多いキーワードを抽出することができるので、特に口語文に対して精度の高い検索の実現が期待できる。

本発明の実施形態の一例を示す図である。本発明にかかるコンテンツ検索サーバの構成を示すブロック図である。本発明におけるメタデータの構成と、キーワードを抽出するソースの関係を示す図である。本発明におけるメタデータの各々のフィールドの関係を示す図である。本発明によって、質問文に対応するコンテンツを検索する第１の例を示す図である。本発明によって、質問文に対応するコンテンツを検索する第２の例を示す図である。本発明によって、質問文に対応するコンテンツを検索する第３の例を示す図である。本発明によって、コンテンツ関連情報からキーワードを設定する第１の例の処理フローを示すフローチャートである。本発明によって、コンテンツ関連情報からキーワードを設定する第２の例の処理フローを示すフローチャートである。

本発明を実施するための形態について、図面を用いて以下に詳細に説明する。尚、以下の説明は本発明の実施形態の一例を示したものであって、本発明はかかる実施形態に限定されるものではない。

図１は、本発明の実施形態の一例を示している。図１では、コンテンツ検索サーバにユーザ端末からコンテンツの検索要求が送信されると、検索要求に合致するコンテンツをコンテンツデータベースで検索して、検索結果をユーザ端末に返信する構成となっている。

コンテンツデータベースには検索対象となるコンテンツのメタデータが格納され、メタデータには検索の際に各々のコンテンツの特定に用いられるキーワードが設定されている。このキーワードには、コンテンツのインデックス情報から抽出したワードのみでなく、コンテンツ検索サーバによってブログ、ミニブログ、口コミサイトなどを運営する他のＷｅｂサーバから対象となるコンテンツへの評価やコメントなどのコンテンツ関連情報が収集され、収集された情報から抽出した出現頻度の高いワードなども、コンテンツのキーワードに設定される。

これによって、コンテンツの検索に用いられるキーワードが、コンテンツの制作者や提供者から提供される構造化されたインデックス情報等に含まれる情報に固定されるのではなく、ブログ、ミニブログ、口コミサイトなどから収集したコンテンツの評判情報などの多様なソースを用いて設定され、ユーザからの様々な検索要求にも対応しやすい構成となっている。

尚、本発明において検索対象となるコンテンツの種別は特に限定されるものではなく、商品情報、店舗情報、株式の銘柄情報、質問への回答、動画ファイル、音楽ファイルや画像ファイルなど、様々なコンテンツを対象にすることができる。提供されるコンテンツ自体は、コンテンツ検索サーバに保存されていることを要件とするものではなく、ネットワークで接続された他のコンピュータに保存されているコンテンツを検索対象とするものであってもよい。

また、図１では、検索要求はユーザ端末に入力され、インターネットを介してコンテンツ検索サーバに送信され、検索結果はユーザ端末に返信される構成となっているが、検索要求はネットワークを介することなくコンテンツの検索処理を実行するコンピュータに入力され、検索結果もネットワークを介さず出力される構成となってもよい。但し、この場合もコンピュータはスタンドアローンで運用されるのではなく、インターネットに接続されてコンテンツ関連情報を収集するよう構成されることが必要である。

図２は、本発明にかかるコンテンツ検索サーバの構成の一例を示している。本発明にかかるコンテンツ検索サーバは、図２のコンテンツ検索サーバ１０に対応するものである。

コンテンツ検索サーバ１０は、ユーザ端末２０から送信された検索要求に対して検索結果を返信する、インターネットに接続されたサーバコンピュータである。コンテンツ検索サーバ１０には、ＣＰＵ、メインメモリ、ハードディスク等の補助記憶装置が備えられ、補助記憶装置に格納されたプログラムがメインメモリに読み出され、ＣＰＵで演算処理を実行することによって、所定の機能が実現される。

尚、図２は、本発明にかかるコンテンツ検索サーバの構成の一例を示したものであり、コンテンツ検索サーバ１０に備えられる機能や、コンテンツ検索サーバ１０を構成するコンピュータの物理的な構成は特に限定されるものではない。例えば、コンテンツ検索サーバ１０は、コンテンツの検索処理を実行する機能の他に、コンテンツの送受信や、編集、再生などの機能を備えるものであってもよい。これらの機能を含めたコンテンツを管理するサーバとしての機能が、物理的には複数のコンピュータで処理される構成となっていてもよい。

ユーザ端末２０には、パーソナルコンピュータの他、タブレット端末、スマートフォンなどのインターネットに接続可能なネットワーク端末が用いられる。ユーザ端末１０には、ＣＰＵ、メインメモリ、ハードディスク等の補助記憶装置が備えられ、補助記憶装置にはＷｅｂブラウザが少なくとも格納されている。ユーザ端末２０では、Ｗｅｂブラウザのプログラムがメインメモリに読み出され、ＣＰＵで演算処理を実行することによって、コンテンツ検索サーバ１０にアクセスするために必要な所定の機能が実現される。

Ｗｅｂサーバ３０〜３２は、ブログ、ミニブログ、口コミサイトなどのように、様々な評判情報の書込みが可能なＷｅｂサーバである。Ｗｅｂサーバ３０〜３２には、インターネットを介して受け付けたリクエストに対して所定のレスポンスを返信する機能、ユーザから書き込まれた評判情報等を記憶する機能が備えられている。

検索処理部１１、関連情報収集部１２は、いずれも機能的に特定されるものであって、ハードディスク等の補助記憶装置に格納されたプログラムがメインメモリに読み出され、ＣＰＵで演算処理を実行することによって、各々に対応する機能が実現される。

コンテンツ情報格納部１３には、ハードディスク等の補助記憶装置の記憶領域が割り当てられる。この記憶領域は物理的に一台のコンピュータに備えられることを要件とするものではなく、データベースサーバ等の他のサーバを構成する他のコンピュータに設けられてもよいし、複数のコンピュータに分散して設けられるものであってもよい。

また、コンテンツ情報格納部１３には、メタデータ１３１、１３３等、コンテンツファイル１３２、１３４等が格納されている。メタデータは、検索対象となるコンテンツの数だけ格納されている。メタデータ１３１には、標準インデックス１３１１、固定メタフィールド１３１２、インテリジェントメタフィールド１３１３が設けられ、標準インデックス１３１１には、コンテンツファイル１３２を特定する情報が含まれている。

尚、コンテンツファイル１３２、１３４等は、検索対象となるコンテンツに該当するが、ファイル形式のコンテンツに限定されるものではない。また、コンテンツ情報格納部１３に格納されることを必須の要件とするものではなく、インターネットを介して接続されたＷｅｂサーバも含め、他のコンピュータに格納されるものであってもよく、その場合は、標準インデックス１３１１には、コンテンツファイル１３２が格納されているＵＲＬ等のアドレス情報が含まれることになる。

図３は、コンテンツ情報格納部１３に格納されるメタデータ１３１、１３３等のコンテンツのメタデータの構成と、キーワードを抽出するソースとの関係を示したものである。本発明に用いられるコンテンツのメタデータ（メタデータ１３１、１３３）には、標準インデックス（標準インデックス１３１１、１３３１）、固定メタフィールド（固定メタフィールド１３１２、１３３２）、インテリジェントメタフィールド（インテリジェントメタフィールド１３１３、１３３３）の各々の記憶領域に、それぞれに対応するキーワードが記憶される。

標準インデックスには、コンテンツの制作者や提供者等によって入力された、構造化されたコンテンツのインデックス情報に含まれるワード、例えば書籍であれば、タイトル、著者、出版社、発行年月等の書籍のインデックス情報から抽出されたワードが、検索に用いられるキーワードに設定され、所定の記憶領域（標準インデックス１３１１、１３３１）に記憶される。

固定メタフィールドには、コンテンツの制作者や提供者等によって入力された、構造化されたコンテンツのインデックス情報に含まれる値から特定されるワード、例えば書籍について、インデックス情報に書籍の内容について「難易度が２」という値が含まれていれば、難易度が３以下という条件に該当するので「読み易い」というワードが、「単語数が１２，０００語」という値が含まれていれば、１０，０００語以上という条件に該当するので「難しい」というワードが、検索に用いられるキーワードに設定され、所定の記憶領域（固定メタフィールド１３１２、１３３２）に記憶される。

そして、インテリジェントメタフィールドには、関連情報収集部１２が所定のタイミングで起動されて、Ｗｅｂサーバ３０等から収集したコンテンツへの評価やコメントなどの非構造化データであるコンテンツ関連情報から、所定の条件に合致するワード、例えば書籍であれば、書評において出現頻度が高い「神戸」「ラブストーリー」といったワードが抽出されて、検索に用いられるキーワードに設定され、所定の記憶領域（インテリジェントメタフィールド１３１３、１３３３）に記憶される。

本発明では、このようにして、標準インデックス（標準インデックス１３１１、１３３１）、固定メタフィールド（固定メタフィールド１３１２、１３３２）、インテリジェントメタフィールド（インテリジェントメタフィールド１３１３、１３３３）に記憶された全てのキーワードを用いてコンテンツを検索することによって、インデックス情報から生成されたキーワードのみを用いる場合に比べて、精度の高い検索を可能にするとともに、インテリジェントメタフィールド（インテリジェントメタフィールド１３１３、１３３３）に記憶されるキーワードは新たな情報を反映して随時更新されるため、検索に用いられるキーワードに最新の評判情報等を反映することも可能になっている。

すなわち、コンテンツ検索サーバ１０では、図４に示したように、メタデータに３つのフィールドを設ける構成とすることによって、より精度の高い検索処理を実現している。

まず、コンテンツの制作者や提供者等によってコンテンツ検索サーバ１０で入力を受け付けた構造化されたインデックス情報から、「Ｘ（タイトル）」「Ａ（著者）」「Ｐ（出版社）」などの検索用のキーワードを抽出し、標準インデックスに、コンテンツの格納されたＵＲＬと関連付けて記憶させる。これによって、図５の例に示したように、ユーザ端末２０から「Ａ（著者）のＸ（タイトル）はありますか？」という質問文を検索要求として受信した場合には、「Ａ（著者）」と「Ｘ（タイトル）」のキーワードを検索して、対象となるコンテンツ（書籍）を特定することができる。但し、これだけの情報では、ユーザが具体的な著者やタイトルを指定できる場合であればよいが、やや漠然とした内容の質問文には対応することができない。

そこで、標準インデックスに加えて、コンテンツの制作者や提供者等によってコンテンツ検索サーバ１０で入力を受け付けた構造化されたインデックス情報に含まれる値から、所定のルールに基づいて「読み易い」「難しい」などの検索用のキーワードを特定し、固定メタフィールドに、コンテンツの格納されたＵＲＬと関連付けて記憶させることとする。これによって、図６の例に示したように、ユーザ端末２０から「Ａ（著者）の読み易い作品を紹介してください。」といったやや曖昧な内容の依頼文を検索要求として受信した場合にも、「Ａ（著者）」と「読み易い」のキーワードを検索して、対象となるコンテンツ（書籍）を特定することができる。但し、これによって広げられるキーワードも、あくまで構造化されたインデックス情報を前提にするものであるため、コンテンツの提供者等が想定しなかったようなキーワードまで設定することはできない。

そこで、標準インデックスと固定メタフィールドに加えて、Ｗｅｂサーバ３０等から収集した非構造化データであるコンテンツ関連情報から、「神戸」「ラブストーリー」などの所定の条件に合致する検索用のキーワードを抽出し、インテリジェントメタフィールドに、コンテンツの格納されたＵＲＬと関連付けて記憶させる。これによって、図７の例に示したように、ユーザ端末２０から「Ａ（著者）の神戸が舞台の作品はありますか？」という質問文を検索要求として受信した場合に、「Ａ（著者）」の他に、インデックス情報からは特定できない「神戸」もキーワードとして検索の対象に含め、対象となるコンテンツ（書籍）を特定することが可能になる。

以上の図４〜図７に例示したように、本発明では、コンテンツの名称、制作者などの構造化されたインデックス情報から決定されるキーワードのみでなく、非構造化データである評判情報などのコンテンツ関連情報から、ユーザがコンテンツについて感じたテイストやアスペクト、コンテンツに関連する人物や地域などのリレーションも、検索用のキーワードに設定できるよう構成されているため、多様な質問文や依頼文、特に口語で自然に記述された文章に基づく検索要求に対しても、精度の高い検索を行うことが可能になっている。

こうした本発明に特徴的なインテリジェントメタフィールドに設定されるキーワードは、図８や図９のフローチャートに示した処理フローによって、インターネット上で収集したコンテンツ関連情報から設定される。尚、図８と図９に示した処理フローは、非構造化データであるコンテンツ関連情報から所定の条件に合致するワードを抽出してキーワードに設定するフローの一例を示したものであって、本発明におけるコンテンツ関連情報からのキーワードの設定方法は、これらの処理フローに限定されるものではない。

図８は、特定の意味を固定することなく、キーワードに設定するワードを抽出する場合の処理フローを示したものである。ブログ、ミニブログ、口コミサイトなどのＷｅｂサーバから収集されたコンテンツへの評価やコメントなどのコンテンツ関連情報を受信すると（Ｓ０１）、受信したコンテンツ関連情報のテキストデータを形態素解析し（Ｓ０２）、所定の抽出条件に合致するワードをカウントして、出現数が多い順にランキングする（Ｓ０３）。

ランキングのうち最上位のワードを選択して（Ｓ０４）、あらかじめ定められた最低出現数以上の出現数があるか（Ｓ０５）、キーワードから除外することが指定された無視語に該当しないか（Ｓ０６）を確認し、最低出現数以上、かつ無視語に該当しない場合には、インテリジェントメタフィールドのキーワードに設定される（Ｓ０７）。コンテンツ関連情報から抽出された全てのワードについて、以上の処理を繰り返す（Ｓ０８）。

尚、以上に説明したフローでは、抽出されたワードを出現数でランキングし、出現数の多いものから順にＳ０５〜Ｓ０７の処理を実行することとしているが、この処理順は特に限定されるものではなく、例えば、出現数の少ないものから順にＳ０５〜Ｓ０７の処理を実行することとしてもよいし、五十音順にソートしてＳ０５〜Ｓ０７の処理を実行することとしてもよい。

図９は、特定の固定された意味のワードに限定して、キーワードに設定するワードを抽出する場合の処理フローを示したものである。ブログ、ミニブログ、口コミサイトなどのＷｅｂサーバから収集されたコンテンツへの評価やコメントなどのコンテンツ関連情報を受信すると（Ｓ１１）、受信したコンテンツ関連情報のテキストデータを形態素解析し（Ｓ１２）、所定の抽出条件に合致するワードを抽出する（Ｓ１３）。

次に、抽出したワードの中から、あらかじめ設定された予約語に該当するワードのみを選択して（Ｓ１４）、予約語に該当するワードの出現数を記憶する（Ｓ１５）。コンテンツ関連情報から抽出された全てのワードについて、以上の処理を繰り返す（Ｓ１６）。尚、ここで予約語に該当するか否かの判断は、完全一致を要求するのではなく、表記ゆれや類似語などの調整を行うことが好ましい。

コンテンツ関連情報から抽出された全てのワードについて、予約語に該当するワードを選択し、それぞれの出現数が記憶されると、出現数が多い順にランキングする（Ｓ１７）。ランキングのうち最上位のワードを選択して（Ｓ１８）、あらかじめ定められた最低出現数以上の出現数があるか（Ｓ１９）、キーワードから除外することが指定された無視語に該当しないか（Ｓ２０）を確認し、最低出現数以上、かつ無視語に該当しない場合には、インテリジェントメタフィールドのキーワードに設定される（Ｓ２１）。コンテンツ関連情報から抽出された全てのワードについて、以上の処理を繰り返す（Ｓ２２）。

尚、以上に説明したフローでは、抽出されたワードを出現数でランキングし、出現数の多いものから順にＳ１９〜Ｓ２１の処理を実行することとしているが、この処理順は特に限定されるものではなく、例えば、出現数の少ないものから順にＳ１９〜Ｓ２１の処理を実行することとしてもよいし、五十音順にソートしてＳ１９〜Ｓ２１の処理を実行することとしてもよい。

尚、上記の処理フローのうち、無視語に該当しないかを確認するステップ（Ｓ２０）については、すでに予約語に該当する語への絞込み（Ｓ１４）が行われていることから、図９に示したような処理フローにおいては必ずしも必要とされるものではないが、例えば、予約語を「名詞」のように品詞レベルで指定するような場合には、名詞の中でも明らかに不要な語を除外するために、無視語に該当しないかの確認を行うことが好ましい。

１０コンテンツ検索サーバ
１１検索処理部
１２関連情報収集部
１３コンテンツ情報格納部
１３１メタデータ
１３１１標準インデックス
１３１２固定メタフィールド
１３１３インテリジェントメタフィールド
１３２コンテンツファイル
１３３メタデータ
１３３１標準インデックス
１３３２固定メタフィールド
１３３３インテリジェントメタフィールド
１３４コンテンツファイル
２０ユーザ端末
３０Ｗｅｂサーバ
３１Ｗｅｂサーバ
３２Ｗｅｂサーバ

Claims

検索対象となるコンテンツを特定するキーワードを含むコンテンツのメタデータを格納する格納手段と、
ユーザの操作するユーザ端末からコンテンツの検索要求を受信すると、前記検索要求から検索キーとなるキーワードを抽出し、前記格納手段を検索して前記検索要求に合致するコンテンツを選択し、前記ユーザ端末に検索結果として返信する検索手段と、
前記格納手段にメタデータが格納されたコンテンツに関するコンテンツ関連情報を、ネットワークで接続された他のコンピュータから収集する収集手段と、
前記収集手段によって収集されたコンテンツ関連情報から、所定の条件に合致するワードを抽出し、抽出したワードを、前記格納手段に格納された前記コンテンツのメタデータに、前記コンテンツを特定するキーワードとして設定する設定手段と、
を備えることを特徴とするコンテンツ検索サーバ。
前記収集手段及び前記設定手段は、いずれも所定のタイミングで繰り返し起動され、前記設定手段は、前記格納手段に格納されたメタデータを繰り返し更新すること
を特徴とする請求項１記載のコンテンツ検索サーバ。
前記設定手段によってキーワードに設定されるワードには、前記コンテンツ関連情報において出現頻度の高いワードが抽出されること
を特徴とする請求項１又は２記載のコンテンツ検索サーバ。
前記設定手段によってキーワードに設定されるワードには、キーワードの候補として登録された予約語に該当するワードのうち、前記コンテンツ関連情報において出現頻度の高いワードが抽出されること
を特徴とする請求項１乃至３いずれかに記載のコンテンツ検索サーバ。
前記設定手段は、前記コンテンツ関連情報において出現頻度の高いワードとして抽出されたワードから、キーワードに登録されない語に指定された語を除外したワードを選択してキーワードに設定すること
を特徴とする請求項３又は４記載のコンテンツ検索サーバ。
前記ユーザ端末又は管理者の操作する管理者端末から、前記格納手段にメタデータが格納されるコンテンツのインデックス情報の入力を受け付ける受付手段を備えていて、
前記格納手段に格納されるメタデータに含まれるコンテンツを特定するキーワードには、前記コンテンツのインデックス情報に含まれるワード、又は前記コンテンツのインデックス情報に含まれる値から特定されるワードの少なくとも一つが含まれること
を特徴とする請求項１乃至５いずれかに記載のコンテンツ検索サーバ。
検索対象となるコンテンツを特定するキーワードを含むコンテンツのメタデータを格納する格納手段と、
コンテンツの検索要求の入力を受け付けると、前記検索要求から検索キーとなるキーワードを抽出し、前記格納手段を検索して前記検索要求に合致するコンテンツを選択し、検索結果として出力する検索手段と、
前記格納手段にメタデータが格納されたコンテンツに関するコンテンツ関連情報を、ネットワークで接続された他のコンピュータから収集する収集手段と、
前記収集手段によって収集されたコンテンツ関連情報から、所定の条件に合致するワードを抽出し、抽出したワードを、前記格納手段に格納された前記コンテンツのメタデータに、前記コンテンツを特定するキーワードとして設定する設定手段と、
を備えることを特徴とするコンテンツ検索装置。
コンテンツの検索処理を実行するコンテンツ検索サーバが、ユーザの操作するユーザ端末からコンテンツの検索要求を受信するステップと、
前記サーバが、前記検索要求から検索キーとなるキーワードを抽出し、検索対象となるコンテンツを特定するキーワードを含むコンテンツのメタデータを格納する格納手段を検索して前記検索要求に合致するコンテンツを選択し、前記ユーザ端末に検索結果として返信するステップと、
前記サーバが、前記格納手段にメタデータが格納されたコンテンツに関するコンテンツ関連情報を、ネットワークで接続された他のコンピュータから収集するステップと、
前記サーバが、前記ステップにおいて収集されたコンテンツ関連情報から、所定の条件に合致するワードを抽出し、抽出したワードを、前記格納手段に格納された前記コンテンツのメタデータに、前記コンテンツを特定するキーワードとして設定するステップと、
を有することを特徴とするコンテンツの検索方法。
コンテンツの検索処理を実行するコンテンツ検索装置が、コンテンツの検索要求の入力を受け付けるステップと、
前記装置が、前記検索要求から検索キーとなるキーワードを抽出し、検索対象となるコンテンツを特定するキーワードを含むコンテンツのメタデータを格納する格納手段を検索して前記検索要求に合致するコンテンツを選択し、検索結果として出力するステップと、
前記装置が、前記格納手段にメタデータが格納されたコンテンツに関するコンテンツ関連情報を、ネットワークで接続された他のコンピュータから収集するステップと、
前記装置が、前記ステップにおいて収集されたコンテンツ関連情報から、所定の条件に合致するワードを抽出し、抽出したワードを、前記格納手段に格納された前記コンテンツのメタデータに、前記コンテンツを特定するキーワードとして設定するステップと、
を有することを特徴とするコンテンツの検索方法。