JP2014191550A - コンテンツ検索サーバ、コンテンツ検索装置及びコンテンツの検索方法 - Google Patents

コンテンツ検索サーバ、コンテンツ検索装置及びコンテンツの検索方法 Download PDF

Info

Publication number
JP2014191550A
JP2014191550A JP2013065685A JP2013065685A JP2014191550A JP 2014191550 A JP2014191550 A JP 2014191550A JP 2013065685 A JP2013065685 A JP 2013065685A JP 2013065685 A JP2013065685 A JP 2013065685A JP 2014191550 A JP2014191550 A JP 2014191550A
Authority
JP
Japan
Prior art keywords
content
search
word
keyword
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013065685A
Other languages
English (en)
Inventor
Osamu Aoki
修 青木
Shinji Matsumoto
信次 松本
Daisuke Sato
大介 佐藤
Yojiro Sonoda
葉二朗 園田
Hiroaki Kono
裕晃 河野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intelligent Wave Inc
Original Assignee
Intelligent Wave Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intelligent Wave Inc filed Critical Intelligent Wave Inc
Priority to JP2013065685A priority Critical patent/JP2014191550A/ja
Publication of JP2014191550A publication Critical patent/JP2014191550A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 検索に用いられるメタデータにコンテンツの提供者等が想定していないキーワードを設定することが可能であり、かつ、コンテンツに対する評判の変化にも対応し得るコンテンツ検索サーバを提供する。
【解決手段】 コンテンツ検索サーバのコンテンツDBには検索対象となるコンテンツのメタデータが格納され、メタデータには検索の際に各々のコンテンツの特定に用いられるキーワードが設定されている。このキーワードには、構造化されたコンテンツのインデックス情報から抽出したワードのみでなく、コンテンツ検索サーバによってブログ、ミニブログ、口コミサイトなどを運営する他のWebサーバから対象となるコンテンツへの評価やコメントなどの非構造化データであるコンテンツ関連情報が収集され、収集された情報から抽出した出現頻度の高いワードなども、コンテンツのキーワードに設定され、多様な検索要求に対応できる構成となっている。
【選択図】 図1

Description

本発明は、商品情報、質問への回答、動画ファイルなど、様々なコンテンツの検索に用いることができるコンテンツ検索サーバ、コンテンツ検索装置及びコンテンツの検索方法に関するものである。
インターネットのユーザは、Webページにアクセスして、様々なコンテンツを検索している。例えば、企業のホームページや電子商取引のWebページでは商品情報を検索し、FAQが掲載されたWebページでは自らの疑問点に合致する質問への回答を検索する。動画配信サイトでは、興味をもっているアーティスト等の動画を検索する。
こうした検索対象となるコンテンツを提供するコンテンツ提供者側のWebサーバでは、コンテンツに関する情報をメタデータとして管理し、ユーザからの検索要求を受け付けると、検索要求に指定された検索キーが、メタデータにキーワードとして含まれているコンテンツを検索して、該当するコンテンツを検索結果として出力する構成となることが多い。このように検索に用いられるコンテンツのメタデータは、コンテンツの名称、制作者などのインデックス情報から生成され、コンテンツの登録時にあわせて設定されることが一般的である(例えば、特許文献1の段落0021、特許文献2の7p.1〜16行目等)。
特開2006−024001号公報 国際公開第2003/060764号
商品情報等のコンテンツの検索に用いられるメタデータは、上記の例のように、コンテンツのインデックス情報などの構造化されている情報から生成され、キーワードが設定されることが通常である。こうした場合に問題となるのが、検索用のキーワードのソースがインデックス情報などの構造化されている情報の範囲に固定されてしまうため、ユーザがコンテンツの制作者や提供者が想定していなかったキーワードを検索キーに指定した場合には、検索に引っ掛からなくなってしまうことである。
こうした問題は、ユーザが検索キーに特定のキーワードを指定して検索するケースより、ユーザが入力した質問文や依頼文からキーワードを抽出して検索を行うようなケースにおいて、より出現しやすくなると予測される。例えば、Web上であたかもコンシェルジュのようにユーザの質問に答えるサービスを提供しようとすると、ユーザは口頭で質問するかのように口語文を入力することになるが、こうした口語文から検索キーとして抽出されるキーワードには、コンテンツの名称のような具体的なワードだけでなく、感情を表す抽象的なワードや、コンテンツの中で特に印象に残ったシーンを示すワードなど、コンテンツの制作者や提供者が事前に想定しきれなかったようなワードも含まれることが予想される。
また、メタデータに含まれるキーワードが当初から固定されたままだと、その後の状況の変化に対応することができないが、例えば、コンテンツに対して新たな見方や評判が生じた場合には、ユーザによって指定される検索キーも変化していく可能性があると考えられる。こうした状況にも対応できるようにするためには、メタデータに含まれるキーワードが、コンテンツに対する最新の評判などを反映して更新されるものであることが望ましい。
本発明は、このような課題に対応するためになされたものであり、検索に用いられるメタデータにコンテンツの提供者等が想定していないキーワードを設定することが可能であり、かつ、コンテンツに対する評判の変化にも対応し得る、コンテンツ検索サーバ、コンテンツ検索装置及びコンテンツの検索方法を提供することを目的とするものである。
このような課題を解決する本発明は、検索対象となるコンテンツを特定するキーワードを含むコンテンツのメタデータを格納する格納手段と、ユーザの操作するユーザ端末からコンテンツの検索要求を受信すると、前記検索要求から検索キーとなるキーワードを抽出し、前記格納手段を検索して前記検索要求に合致するコンテンツを選択し、前記ユーザ端末に検索結果として返信する検索手段と、前記格納手段にメタデータが格納されたコンテンツに関するコンテンツ関連情報を、ネットワークで接続された他のコンピュータから収集する収集手段と、前記収集手段によって収集されたコンテンツ関連情報から、所定の条件に合致するワードを抽出し、抽出したワードを、前記格納手段に格納された前記コンテンツのメタデータに、前記コンテンツを特定するキーワードとして設定する設定手段と、を備えることを特徴とするコンテンツ検索サーバである。
このように、本発明では、検索に用いられるメタデータに、コンテンツに対する評価やコメントなどのコンテンツに関連する情報を、ネットワークで接続された他のコンピュータ、例えば、ブログや口コミサイトを提供するWebサーバなどから収集し、収集した情報から抽出したワードをキーワードとして設定するので、コンテンツの制作者や提供者から提供されたインデックス情報等により設定されたキーワード以外にも、コンテンツの評判などから多様なキーワードを設定することが可能な構成となっている。
また、本発明において、前記収集手段及び前記設定手段は、いずれも所定のタイミングで繰り返し起動され、前記設定手段は、前記格納手段に格納されたメタデータを繰り返し更新することを特徴とすることもできる。
このように構成すると、コンテンツに対する評価やコメントなどのコンテンツに関連する最新の情報を反映して、検索用のキーワードを設定することができるので、コンテンツに対する評判の変化にも対応することが可能になる。
また、本発明において、前記設定手段によってキーワードに設定されるワードには、前記コンテンツ関連情報において出現頻度の高いワードが抽出されることを特徴とすることもできる。
このように構成すると、コンテンツに対する評価やコメントなどから抽出して設定されるキーワードを特定の意味のワードに固定することなく、幅広いワードをキーワードに設定することが可能になる。
また、本発明は、前記設定手段によってキーワードに設定されるワードには、キーワードの候補として登録された予約語に該当するワードのうち、前記コンテンツ関連情報において出現頻度の高いワードが抽出されることを特徴とすることもできる。
このように構成すると、コンテンツに対する評価やコメントなどから抽出して設定されるキーワードの少なくとも一部を、特定の意味をもつワードに固定することによって、コンテンツの提供者がキーワードに用いたいと考えているワードをキーワードに設定することが可能になる。
また、本発明は、前記設定手段は、前記コンテンツ関連情報において出現頻度の高いワードとして抽出されたワードから、キーワードに登録されない語に指定された語を除外したワードを選択してキーワードに設定することを特徴とすることもできる。
このように構成すると、コンテンツに対する評価やコメントなどから出現頻度の高いワードを抽出してキーワードに設定する際に、コンテンツの特定に有効でないワードなど、キーワードに用いるには不適切なワードを、メタデータにキーワードとして設定する対象から除外することが可能になる。
また、本発明は、前記ユーザ端末又は管理者の操作する管理者端末から、前記格納手段にメタデータが格納されるコンテンツのインデックス情報の入力を受け付ける受付手段を備えていて、前記格納手段に格納されるメタデータに含まれるコンテンツを特定するキーワードには、前記コンテンツのインデックス情報に含まれるワード、又は前記コンテンツのインデックス情報に含まれる値から特定されるワード の少なくとも一つが含まれることを特徴とすることもできる。
このように構成すると、インデックス情報から生成して設定される固定されたキーワードについても、コンテンツの名称、制作者といった単にインデックス情報に含まれるワードをそのまま用いるだけでなく、例えば、インデックス情報に含まれるコンテンツの文字数が閾値以下である場合には「読み易い」というキーワードを設定するなど、インデックス情報に含まれる値からキーワードを生成することによって、インデックス情報から特定できるキーワードの範囲を拡大することが可能になる。
以上に説明した、ネットワークを介して受信した検索要求に検索結果を返信するよう構成されるコンテンツ検索サーバの他に、本発明は、装置に直接入力された検索要求に検索結果を出力するよう構成されるコンテンツ検索装置として特定することもできる。
すなわち、本願にかかる課題を解決するコンテンツ検索装置に関する発明は、検索対象となるコンテンツを特定するキーワードを含むコンテンツのメタデータを格納する格納手段と、コンテンツの検索要求の入力を受け付けると、前記検索要求から検索キーとなるキーワードを抽出し、前記格納手段を検索して前記検索要求に合致するコンテンツを選択し、検索結果として出力する検索手段と、前記格納手段にメタデータが格納されたコンテンツに関するコンテンツ関連情報を、ネットワークで接続された他のコンピュータから収集する収集手段と、前記収集手段によって収集されたコンテンツ関連情報から、所定の条件に合致するワードを抽出し、抽出したワードを、前記格納手段に格納された前記コンテンツのメタデータに、前記コンテンツを特定するキーワードとして設定する設定手段と、を備えることを特徴とするコンテンツ検索装置である。
また、コンテンツ検索装置として特定される本発明も、先に説明したコンテンツ検索サーバの各々の構成に対応する構成を備えた、コンテンツ検索装置に関する発明として特定することもできる。
また、本発明は、本発明にかかるコンテンツ検索サーバによって実行される、コンテンツの検索方法として特定することもできる。
すなわち、本願にかかる課題を解決するコンテンツの検索方法に関する発明は、コンテンツの検索処理を実行するコンテンツ検索サーバが、ユーザの操作するユーザ端末からコンテンツの検索要求を受信するステップと、前記サーバが、前記検索要求から検索キーとなるキーワードを抽出し、検索対象となるコンテンツを特定するキーワードを含むコンテンツのメタデータを格納する格納手段を検索して前記検索要求に合致するコンテンツを選択し、前記ユーザ端末に検索結果として返信するステップと、前記サーバが、前記格納手段にメタデータが格納されたコンテンツに関するコンテンツ関連情報を、ネットワークで接続された他のコンピュータから収集するステップと、前記サーバが、前記ステップにおいて収集されたコンテンツ関連情報から、所定の条件に合致するワードを抽出し、抽出したワードを、前記格納手段に格納された前記コンテンツのメタデータに、前記コンテンツを特定するキーワードとして設定するステップと、を有することを特徴とするコンテンツの検索方法である。
また、コンテンツの検索方法として特定される本発明も、コンテンツ検索サーバの各々の構成に対応する構成を備えたコンテンツ検索サーバによって実行される、コンテンツの検索方法に関する発明として特定することもできる。
また、本発明は、本発明にかかるコンテンツ検索装置によって実行される、コンテンツの検索方法として特定することもできる。
すなわち、本願にかかる課題を解決するコンテンツの検索方法に関する発明は、コンテンツの検索処理を実行するコンテンツ検索装置が、コンテンツの検索要求の入力を受け付けるステップと、前記装置が、前記検索要求から検索キーとなるキーワードを抽出し、検索対象となるコンテンツを特定するキーワードを含むコンテンツのメタデータを格納する格納手段を検索して前記検索要求に合致するコンテンツを選択し、検索結果として出力するステップと、前記装置が、前記格納手段にメタデータが格納されたコンテンツに関するコンテンツ関連情報を、ネットワークで接続された他のコンピュータから収集するステップと、前記装置が、前記ステップにおいて収集されたコンテンツ関連情報から、所定の条件に合致するワードを抽出し、抽出したワードを、前記格納手段に格納された前記コンテンツのメタデータに、前記コンテンツを特定するキーワードとして設定するステップと、を有することを特徴とするコンテンツの検索方法である。
また、コンテンツの検索方法として特定される本発明も、コンテンツ検索装置の各々の構成に対応する構成を備えたコンテンツ検索装置によって実行される、コンテンツの検索方法に関する発明として特定することもできる。
本発明によって、商品情報、質問への回答、動画ファイルなどの様々なコンテンツを検索するシステムを構築する際に、検索に用いられるメタデータにコンテンツの提供者等が想定していないキーワードを設定することが可能になるとともに、コンテンツに対する評判の変化にも対応してキーワードを更新することが可能になる。
これによって、コンテンツの提供者等が構造化された情報から設定した固定されたキーワードのみでなく、ブログや口コミサイトでの最新の評判などの非構造化データから抽出したキーワードの設定が可能になるので、例えば、Web上であたかもコンシェルジュのようにユーザの質問に答えるサービスに本発明を用いると、ユーザが口頭で質問するかのように入力された口語文の中からも、一般的なユーザがそのコンテンツに自然に用いることが多いキーワードを抽出することができるので、特に口語文に対して精度の高い検索の実現が期待できる。
本発明の実施形態の一例を示す図である。 本発明にかかるコンテンツ検索サーバの構成を示すブロック図である。 本発明におけるメタデータの構成と、キーワードを抽出するソースの関係を示す図である。 本発明におけるメタデータの各々のフィールドの関係を示す図である。 本発明によって、質問文に対応するコンテンツを検索する第1の例を示す図である。 本発明によって、質問文に対応するコンテンツを検索する第2の例を示す図である。 本発明によって、質問文に対応するコンテンツを検索する第3の例を示す図である。 本発明によって、コンテンツ関連情報からキーワードを設定する第1の例の処理フローを示すフローチャートである。 本発明によって、コンテンツ関連情報からキーワードを設定する第2の例の処理フローを示すフローチャートである。
本発明を実施するための形態について、図面を用いて以下に詳細に説明する。尚、以下の説明は本発明の実施形態の一例を示したものであって、本発明はかかる実施形態に限定されるものではない。
図1は、本発明の実施形態の一例を示している。図1では、コンテンツ検索サーバにユーザ端末からコンテンツの検索要求が送信されると、検索要求に合致するコンテンツをコンテンツデータベースで検索して、検索結果をユーザ端末に返信する構成となっている。
コンテンツデータベースには検索対象となるコンテンツのメタデータが格納され、メタデータには検索の際に各々のコンテンツの特定に用いられるキーワードが設定されている。このキーワードには、コンテンツのインデックス情報から抽出したワードのみでなく、コンテンツ検索サーバによってブログ、ミニブログ、口コミサイトなどを運営する他のWebサーバから対象となるコンテンツへの評価やコメントなどのコンテンツ関連情報が収集され、収集された情報から抽出した出現頻度の高いワードなども、コンテンツのキーワードに設定される。
これによって、コンテンツの検索に用いられるキーワードが、コンテンツの制作者や提供者から提供される構造化されたインデックス情報等に含まれる情報に固定されるのではなく、ブログ、ミニブログ、口コミサイトなどから収集したコンテンツの評判情報などの多様なソースを用いて設定され、ユーザからの様々な検索要求にも対応しやすい構成となっている。
尚、本発明において検索対象となるコンテンツの種別は特に限定されるものではなく、商品情報、店舗情報、株式の銘柄情報、質問への回答、動画ファイル、音楽ファイルや画像ファイルなど、様々なコンテンツを対象にすることができる。提供されるコンテンツ自体は、コンテンツ検索サーバに保存されていることを要件とするものではなく、ネットワークで接続された他のコンピュータに保存されているコンテンツを検索対象とするものであってもよい。
また、図1では、検索要求はユーザ端末に入力され、インターネットを介してコンテンツ検索サーバに送信され、検索結果はユーザ端末に返信される構成となっているが、検索要求はネットワークを介することなくコンテンツの検索処理を実行するコンピュータに入力され、検索結果もネットワークを介さず出力される構成となってもよい。但し、この場合もコンピュータはスタンドアローンで運用されるのではなく、インターネットに接続されてコンテンツ関連情報を収集するよう構成されることが必要である。
図2は、本発明にかかるコンテンツ検索サーバの構成の一例を示している。本発明にかかるコンテンツ検索サーバは、図2のコンテンツ検索サーバ10に対応するものである。
コンテンツ検索サーバ10は、ユーザ端末20から送信された検索要求に対して検索結果を返信する、インターネットに接続されたサーバコンピュータである。コンテンツ検索サーバ10には、CPU、メインメモリ、ハードディスク等の補助記憶装置が備えられ、補助記憶装置に格納されたプログラムがメインメモリに読み出され、CPUで演算処理を実行することによって、所定の機能が実現される。
尚、図2は、本発明にかかるコンテンツ検索サーバの構成の一例を示したものであり、コンテンツ検索サーバ10に備えられる機能や、コンテンツ検索サーバ10を構成するコンピュータの物理的な構成は特に限定されるものではない。例えば、コンテンツ検索サーバ10は、コンテンツの検索処理を実行する機能の他に、コンテンツの送受信や、編集、再生などの機能を備えるものであってもよい。これらの機能を含めたコンテンツを管理するサーバとしての機能が、物理的には複数のコンピュータで処理される構成となっていてもよい。
ユーザ端末20には、パーソナルコンピュータの他、タブレット端末、スマートフォンなどのインターネットに接続可能なネットワーク端末が用いられる。ユーザ端末10には、CPU、メインメモリ、ハードディスク等の補助記憶装置が備えられ、補助記憶装置にはWebブラウザが少なくとも格納されている。ユーザ端末20では、Webブラウザのプログラムがメインメモリに読み出され、CPUで演算処理を実行することによって、コンテンツ検索サーバ10にアクセスするために必要な所定の機能が実現される。
Webサーバ30〜32は、ブログ、ミニブログ、口コミサイトなどのように、様々な評判情報の書込みが可能なWebサーバである。Webサーバ30〜32には、インターネットを介して受け付けたリクエストに対して所定のレスポンスを返信する機能、ユーザから書き込まれた評判情報等を記憶する機能が備えられている。
検索処理部11、関連情報収集部12は、いずれも機能的に特定されるものであって、ハードディスク等の補助記憶装置に格納されたプログラムがメインメモリに読み出され、CPUで演算処理を実行することによって、各々に対応する機能が実現される。
コンテンツ情報格納部13には、ハードディスク等の補助記憶装置の記憶領域が割り当てられる。この記憶領域は物理的に一台のコンピュータに備えられることを要件とするものではなく、データベースサーバ等の他のサーバを構成する他のコンピュータに設けられてもよいし、複数のコンピュータに分散して設けられるものであってもよい。
また、コンテンツ情報格納部13には、メタデータ131、133等、コンテンツファイル132、134等が格納されている。メタデータは、検索対象となるコンテンツの数だけ格納されている。メタデータ131には、標準インデックス1311、固定メタフィールド1312、インテリジェントメタフィールド1313が設けられ、標準インデックス1311には、コンテンツファイル132を特定する情報が含まれている。
尚、コンテンツファイル132、134等は、検索対象となるコンテンツに該当するが、ファイル形式のコンテンツに限定されるものではない。また、コンテンツ情報格納部13に格納されることを必須の要件とするものではなく、インターネットを介して接続されたWebサーバも含め、他のコンピュータに格納されるものであってもよく、その場合は、標準インデックス1311には、コンテンツファイル132が格納されているURL等のアドレス情報が含まれることになる。
図3は、コンテンツ情報格納部13に格納されるメタデータ131、133等のコンテンツのメタデータの構成と、キーワードを抽出するソースとの関係を示したものである。本発明に用いられるコンテンツのメタデータ(メタデータ131、133)には、標準インデックス(標準インデックス1311、1331)、固定メタフィールド(固定メタフィールド1312、1332)、インテリジェントメタフィールド(インテリジェントメタフィールド1313、1333)の各々の記憶領域に、それぞれに対応するキーワードが記憶される。
標準インデックスには、コンテンツの制作者や提供者等によって入力された、構造化されたコンテンツのインデックス情報に含まれるワード、例えば書籍であれば、タイトル、著者、出版社、発行年月等の書籍のインデックス情報から抽出されたワードが、検索に用いられるキーワードに設定され、所定の記憶領域(標準インデックス1311、1331)に記憶される。
固定メタフィールドには、コンテンツの制作者や提供者等によって入力された、構造化されたコンテンツのインデックス情報に含まれる値から特定されるワード、例えば書籍について、インデックス情報に書籍の内容について「難易度が2」という値が含まれていれば、難易度が3以下という条件に該当するので「読み易い」というワードが、「単語数が12,000語」という値が含まれていれば、10,000語以上という条件に該当するので「難しい」というワードが、検索に用いられるキーワードに設定され、所定の記憶領域(固定メタフィールド1312、1332)に記憶される。
そして、インテリジェントメタフィールドには、関連情報収集部12が所定のタイミングで起動されて、Webサーバ30等から収集したコンテンツへの評価やコメントなどの非構造化データであるコンテンツ関連情報から、所定の条件に合致するワード、例えば書籍であれば、書評において出現頻度が高い「神戸」「ラブストーリー」といったワードが抽出されて、検索に用いられるキーワードに設定され、所定の記憶領域(インテリジェントメタフィールド1313、1333)に記憶される。
本発明では、このようにして、標準インデックス(標準インデックス1311、1331)、固定メタフィールド(固定メタフィールド1312、1332)、インテリジェントメタフィールド(インテリジェントメタフィールド1313、1333)に記憶された全てのキーワードを用いてコンテンツを検索することによって、インデックス情報から生成されたキーワードのみを用いる場合に比べて、精度の高い検索を可能にするとともに、インテリジェントメタフィールド(インテリジェントメタフィールド1313、1333)に記憶されるキーワードは新たな情報を反映して随時更新されるため、検索に用いられるキーワードに最新の評判情報等を反映することも可能になっている。
すなわち、コンテンツ検索サーバ10では、図4に示したように、メタデータに3つのフィールドを設ける構成とすることによって、より精度の高い検索処理を実現している。
まず、コンテンツの制作者や提供者等によってコンテンツ検索サーバ10で入力を受け付けた構造化されたインデックス情報から、「X(タイトル)」「A(著者)」「P(出版社)」などの検索用のキーワードを抽出し、標準インデックスに、コンテンツの格納されたURLと関連付けて記憶させる。これによって、図5の例に示したように、ユーザ端末20から「A(著者)のX(タイトル)はありますか?」という質問文を検索要求として受信した場合には、「A(著者)」と「X(タイトル)」のキーワードを検索して、対象となるコンテンツ(書籍)を特定することができる。但し、これだけの情報では、ユーザが具体的な著者やタイトルを指定できる場合であればよいが、やや漠然とした内容の質問文には対応することができない。
そこで、標準インデックスに加えて、コンテンツの制作者や提供者等によってコンテンツ検索サーバ10で入力を受け付けた構造化されたインデックス情報に含まれる値から、所定のルールに基づいて「読み易い」「難しい」などの検索用のキーワードを特定し、固定メタフィールドに、コンテンツの格納されたURLと関連付けて記憶させることとする。これによって、図6の例に示したように、ユーザ端末20から「A(著者)の読み易い作品を紹介してください。」といったやや曖昧な内容の依頼文を検索要求として受信した場合にも、「A(著者)」と「読み易い」のキーワードを検索して、対象となるコンテンツ(書籍)を特定することができる。但し、これによって広げられるキーワードも、あくまで構造化されたインデックス情報を前提にするものであるため、コンテンツの提供者等が想定しなかったようなキーワードまで設定することはできない。
そこで、標準インデックスと固定メタフィールドに加えて、Webサーバ30等から収集した非構造化データであるコンテンツ関連情報から、「神戸」「ラブストーリー」などの所定の条件に合致する検索用のキーワードを抽出し、インテリジェントメタフィールドに、コンテンツの格納されたURLと関連付けて記憶させる。これによって、図7の例に示したように、ユーザ端末20から「A(著者)の神戸が舞台の作品はありますか?」という質問文を検索要求として受信した場合に、「A(著者)」の他に、インデックス情報からは特定できない「神戸」もキーワードとして検索の対象に含め、対象となるコンテンツ(書籍)を特定することが可能になる。
以上の図4〜図7に例示したように、本発明では、コンテンツの名称、制作者などの構造化されたインデックス情報から決定されるキーワードのみでなく、非構造化データである評判情報などのコンテンツ関連情報から、ユーザがコンテンツについて感じたテイストやアスペクト、コンテンツに関連する人物や地域などのリレーションも、検索用のキーワードに設定できるよう構成されているため、多様な質問文や依頼文、特に口語で自然に記述された文章に基づく検索要求に対しても、精度の高い検索を行うことが可能になっている。
こうした本発明に特徴的なインテリジェントメタフィールドに設定されるキーワードは、図8や図9のフローチャートに示した処理フローによって、インターネット上で収集したコンテンツ関連情報から設定される。尚、図8と図9に示した処理フローは、非構造化データであるコンテンツ関連情報から所定の条件に合致するワードを抽出してキーワードに設定するフローの一例を示したものであって、本発明におけるコンテンツ関連情報からのキーワードの設定方法は、これらの処理フローに限定されるものではない。
図8は、特定の意味を固定することなく、キーワードに設定するワードを抽出する場合の処理フローを示したものである。ブログ、ミニブログ、口コミサイトなどのWebサーバから収集されたコンテンツへの評価やコメントなどのコンテンツ関連情報を受信すると(S01)、受信したコンテンツ関連情報のテキストデータを形態素解析し(S02)、所定の抽出条件に合致するワードをカウントして、出現数が多い順にランキングする(S03)。
ランキングのうち最上位のワードを選択して(S04)、あらかじめ定められた最低出現数以上の出現数があるか(S05)、キーワードから除外することが指定された無視語に該当しないか(S06)を確認し、最低出現数以上、かつ無視語に該当しない場合には、インテリジェントメタフィールドのキーワードに設定される(S07)。コンテンツ関連情報から抽出された全てのワードについて、以上の処理を繰り返す(S08)。
尚、以上に説明したフローでは、抽出されたワードを出現数でランキングし、出現数の多いものから順にS05〜S07の処理を実行することとしているが、この処理順は特に限定されるものではなく、例えば、出現数の少ないものから順にS05〜S07の処理を実行することとしてもよいし、五十音順にソートしてS05〜S07の処理を実行することとしてもよい。
図9は、特定の固定された意味のワードに限定して、キーワードに設定するワードを抽出する場合の処理フローを示したものである。ブログ、ミニブログ、口コミサイトなどのWebサーバから収集されたコンテンツへの評価やコメントなどのコンテンツ関連情報を受信すると(S11)、受信したコンテンツ関連情報のテキストデータを形態素解析し(S12)、所定の抽出条件に合致するワードを抽出する(S13)。
次に、抽出したワードの中から、あらかじめ設定された予約語に該当するワードのみを選択して(S14)、予約語に該当するワードの出現数を記憶する(S15)。コンテンツ関連情報から抽出された全てのワードについて、以上の処理を繰り返す(S16)。尚、ここで予約語に該当するか否かの判断は、完全一致を要求するのではなく、表記ゆれや類似語などの調整を行うことが好ましい。
コンテンツ関連情報から抽出された全てのワードについて、予約語に該当するワードを選択し、それぞれの出現数が記憶されると、出現数が多い順にランキングする(S17)。ランキングのうち最上位のワードを選択して(S18)、あらかじめ定められた最低出現数以上の出現数があるか(S19)、キーワードから除外することが指定された無視語に該当しないか(S20)を確認し、最低出現数以上、かつ無視語に該当しない場合には、インテリジェントメタフィールドのキーワードに設定される(S21)。コンテンツ関連情報から抽出された全てのワードについて、以上の処理を繰り返す(S22)。
尚、以上に説明したフローでは、抽出されたワードを出現数でランキングし、出現数の多いものから順にS19〜S21の処理を実行することとしているが、この処理順は特に限定されるものではなく、例えば、出現数の少ないものから順にS19〜S21の処理を実行することとしてもよいし、五十音順にソートしてS19〜S21の処理を実行することとしてもよい。
尚、上記の処理フローのうち、無視語に該当しないかを確認するステップ(S20)については、すでに予約語に該当する語への絞込み(S14)が行われていることから、図9に示したような処理フローにおいては必ずしも必要とされるものではないが、例えば、予約語を「名詞」のように品詞レベルで指定するような場合には、名詞の中でも明らかに不要な語を除外するために、無視語に該当しないかの確認を行うことが好ましい。
10 コンテンツ検索サーバ
11 検索処理部
12 関連情報収集部
13 コンテンツ情報格納部
131 メタデータ
1311 標準インデックス
1312 固定メタフィールド
1313 インテリジェントメタフィールド
132 コンテンツファイル
133 メタデータ
1331 標準インデックス
1332 固定メタフィールド
1333 インテリジェントメタフィールド
134 コンテンツファイル
20 ユーザ端末
30 Webサーバ
31 Webサーバ
32 Webサーバ

Claims (9)

  1. 検索対象となるコンテンツを特定するキーワードを含むコンテンツのメタデータを格納する格納手段と、
    ユーザの操作するユーザ端末からコンテンツの検索要求を受信すると、前記検索要求から検索キーとなるキーワードを抽出し、前記格納手段を検索して前記検索要求に合致するコンテンツを選択し、前記ユーザ端末に検索結果として返信する検索手段と、
    前記格納手段にメタデータが格納されたコンテンツに関するコンテンツ関連情報を、ネットワークで接続された他のコンピュータから収集する収集手段と、
    前記収集手段によって収集されたコンテンツ関連情報から、所定の条件に合致するワードを抽出し、抽出したワードを、前記格納手段に格納された前記コンテンツのメタデータに、前記コンテンツを特定するキーワードとして設定する設定手段と、
    を備えることを特徴とするコンテンツ検索サーバ。
  2. 前記収集手段及び前記設定手段は、いずれも所定のタイミングで繰り返し起動され、前記設定手段は、前記格納手段に格納されたメタデータを繰り返し更新すること
    を特徴とする請求項1記載のコンテンツ検索サーバ。
  3. 前記設定手段によってキーワードに設定されるワードには、前記コンテンツ関連情報において出現頻度の高いワードが抽出されること
    を特徴とする請求項1又は2記載のコンテンツ検索サーバ。
  4. 前記設定手段によってキーワードに設定されるワードには、キーワードの候補として登録された予約語に該当するワードのうち、前記コンテンツ関連情報において出現頻度の高いワードが抽出されること
    を特徴とする請求項1乃至3いずれかに記載のコンテンツ検索サーバ。
  5. 前記設定手段は、前記コンテンツ関連情報において出現頻度の高いワードとして抽出されたワードから、キーワードに登録されない語に指定された語を除外したワードを選択してキーワードに設定すること
    を特徴とする請求項3又は4記載のコンテンツ検索サーバ。
  6. 前記ユーザ端末又は管理者の操作する管理者端末から、前記格納手段にメタデータが格納されるコンテンツのインデックス情報の入力を受け付ける受付手段を備えていて、
    前記格納手段に格納されるメタデータに含まれるコンテンツを特定するキーワードには、前記コンテンツのインデックス情報に含まれるワード、又は前記コンテンツのインデックス情報に含まれる値から特定されるワードの少なくとも一つが含まれること
    を特徴とする請求項1乃至5いずれかに記載のコンテンツ検索サーバ。
  7. 検索対象となるコンテンツを特定するキーワードを含むコンテンツのメタデータを格納する格納手段と、
    コンテンツの検索要求の入力を受け付けると、前記検索要求から検索キーとなるキーワードを抽出し、前記格納手段を検索して前記検索要求に合致するコンテンツを選択し、検索結果として出力する検索手段と、
    前記格納手段にメタデータが格納されたコンテンツに関するコンテンツ関連情報を、ネットワークで接続された他のコンピュータから収集する収集手段と、
    前記収集手段によって収集されたコンテンツ関連情報から、所定の条件に合致するワードを抽出し、抽出したワードを、前記格納手段に格納された前記コンテンツのメタデータに、前記コンテンツを特定するキーワードとして設定する設定手段と、
    を備えることを特徴とするコンテンツ検索装置。
  8. コンテンツの検索処理を実行するコンテンツ検索サーバが、ユーザの操作するユーザ端末からコンテンツの検索要求を受信するステップと、
    前記サーバが、前記検索要求から検索キーとなるキーワードを抽出し、検索対象となるコンテンツを特定するキーワードを含むコンテンツのメタデータを格納する格納手段を検索して前記検索要求に合致するコンテンツを選択し、前記ユーザ端末に検索結果として返信するステップと、
    前記サーバが、前記格納手段にメタデータが格納されたコンテンツに関するコンテンツ関連情報を、ネットワークで接続された他のコンピュータから収集するステップと、
    前記サーバが、前記ステップにおいて収集されたコンテンツ関連情報から、所定の条件に合致するワードを抽出し、抽出したワードを、前記格納手段に格納された前記コンテンツのメタデータに、前記コンテンツを特定するキーワードとして設定するステップと、
    を有することを特徴とするコンテンツの検索方法。
  9. コンテンツの検索処理を実行するコンテンツ検索装置が、コンテンツの検索要求の入力を受け付けるステップと、
    前記装置が、前記検索要求から検索キーとなるキーワードを抽出し、検索対象となるコンテンツを特定するキーワードを含むコンテンツのメタデータを格納する格納手段を検索して前記検索要求に合致するコンテンツを選択し、検索結果として出力するステップと、
    前記装置が、前記格納手段にメタデータが格納されたコンテンツに関するコンテンツ関連情報を、ネットワークで接続された他のコンピュータから収集するステップと、
    前記装置が、前記ステップにおいて収集されたコンテンツ関連情報から、所定の条件に合致するワードを抽出し、抽出したワードを、前記格納手段に格納された前記コンテンツのメタデータに、前記コンテンツを特定するキーワードとして設定するステップと、
    を有することを特徴とするコンテンツの検索方法。
JP2013065685A 2013-03-27 2013-03-27 コンテンツ検索サーバ、コンテンツ検索装置及びコンテンツの検索方法 Pending JP2014191550A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013065685A JP2014191550A (ja) 2013-03-27 2013-03-27 コンテンツ検索サーバ、コンテンツ検索装置及びコンテンツの検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013065685A JP2014191550A (ja) 2013-03-27 2013-03-27 コンテンツ検索サーバ、コンテンツ検索装置及びコンテンツの検索方法

Publications (1)

Publication Number Publication Date
JP2014191550A true JP2014191550A (ja) 2014-10-06

Family

ID=51837757

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013065685A Pending JP2014191550A (ja) 2013-03-27 2013-03-27 コンテンツ検索サーバ、コンテンツ検索装置及びコンテンツの検索方法

Country Status (1)

Country Link
JP (1) JP2014191550A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572906A (zh) * 2014-12-26 2015-04-29 华为软件技术有限公司 一种事件特征的获取方法和设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01112331A (ja) * 1987-10-26 1989-05-01 Nippon Telegr & Teleph Corp <Ntt> キーワード重要度自動評価装置
JP2006236228A (ja) * 2005-02-28 2006-09-07 Kazuhiko Mori 評価情報提供システムおよびその方法
JP2007122442A (ja) * 2005-10-28 2007-05-17 Victor Co Of Japan Ltd 楽曲分類装置及び楽曲分類プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01112331A (ja) * 1987-10-26 1989-05-01 Nippon Telegr & Teleph Corp <Ntt> キーワード重要度自動評価装置
JP2006236228A (ja) * 2005-02-28 2006-09-07 Kazuhiko Mori 評価情報提供システムおよびその方法
JP2007122442A (ja) * 2005-10-28 2007-05-17 Victor Co Of Japan Ltd 楽曲分類装置及び楽曲分類プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
小林 大祐、長尾 俊一、須藤 大輔、井上 潮: "Webページの文章解析によるユーザレビューの収集・分析システムの提案", 電子情報通信学会 第19回データ工学ワークショップ論文集, JPN6017003088, 7 April 2008 (2008-04-07), JP *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572906A (zh) * 2014-12-26 2015-04-29 华为软件技术有限公司 一种事件特征的获取方法和设备
CN104572906B (zh) * 2014-12-26 2018-05-18 华为软件技术有限公司 一种事件特征的获取方法和设备

Similar Documents

Publication Publication Date Title
US9659278B2 (en) Methods, systems, and computer program products for displaying tag words for selection by users engaged in social tagging of content
JP5281405B2 (ja) 表示のための高品質レビューの選択
US9201880B2 (en) Processing a content item with regard to an event and a location
CN101454781B (zh) 扩展的摘录
US11580181B1 (en) Query modification based on non-textual resource context
US20160034514A1 (en) Providing search results based on an identified user interest and relevance matching
Marine-Roig Online travel reviews: A massive paratextual analysis
US20170212899A1 (en) Method for searching related entities through entity co-occurrence
CA2932401A1 (en) Systems and methods for in-memory database search
US20150331847A1 (en) Apparatus and method for classifying and analyzing documents including text
Blatchford Searching for online news content: The challenges and decisions
Sundaramoorthy et al. Newsone—an aggregation system for news using web scraping method
JP2006073012A (ja) 予め定められた個数の予め定義された質問に応答することによって情報を管理するシステムおよび方法
JP2015525929A (ja) 検索品質を改善するための重みベースのステミング
KR101607468B1 (ko) 콘텐츠에 대한 키워드 태깅 방법 및 시스템
US20160299951A1 (en) Processing a search query and retrieving targeted records from a networked database system
JP2006318398A (ja) ベクトル生成方法及び装置及び情報分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記憶媒体
US9811592B1 (en) Query modification based on textual resource context
JP6653169B2 (ja) キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム
US20110252313A1 (en) Document information selection method and computer program product
Khan et al. Metadata for Efficient Management of Digital News Articles in Multilingual News Archives
Sateli et al. Semantic user profiles: Learning scholars’ competences by analyzing their publications
US20160117352A1 (en) Apparatus and method for supporting visualization of connection relationship
KR102434880B1 (ko) 멀티미디어 플랫폼 기반 지식 공유 서비스 제공 시스템
JP2014191550A (ja) コンテンツ検索サーバ、コンテンツ検索装置及びコンテンツの検索方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160318

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170206

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180118