JP6219967B2

JP6219967B2 - ラベル付非テキスト系アイテムを検索するためのシステム及び方法

Info

Publication number: JP6219967B2
Application number: JP2015548797A
Authority: JP
Inventors: バルビエリ　マウロ; マウロバルビエリ; ヨハネスヘンリクスマリアコルスト; セルベリウスペトルスパウルスプロンク; ラモンアントワーヌウィロクルート
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2012-12-20
Filing date: 2013-09-29
Publication date: 2017-10-25
Anticipated expiration: 2033-09-29
Also published as: WO2014097000A1; EP2936348A1; US9940382B2; JP2016509703A; BR112015014319A2; CN104854588A; CN104854588B; RU2015129559A; US20150324446A1

Description

本発明は、ラベル付非テキスト系アイテムのコレクションの範囲内で、ラベル付非テキスト系アイテムを検索するためのシステムに関する。

本発明は、更に、ラベル付非テキスト系アイテムのコレクションの範囲内で、ラベル付非テキスト系アイテムを検索するための方法に関する。

非テキスト系アイテム（predominantly non-textual items）は、テキストが情報コンテンツに軽微な寄与しか形成しないアイテムと見なされる。その特定の例は、映画及び曲のような、デジタルメディア再生デバイスによる再生のための再生アイテムである。再生アイテムは話された又は歌われたテキストを含んでいるが、その中にあるテキストの用語は、極めて小さな量のデータコンテンツにしか寄与しない。非テキスト系アイテムは、簡単な説明、例えば表題及び場合によりそのコンテンツの概要を有し得る。（更にｌｐｎｔ（labeled predominantly non-textual）アイテムとして示される）ラベル付非テキスト系アイテムは、分類を有する非テキスト系アイテムである。

再生アイテムは、メディアプレーヤ上で再生され得る、映画のようなアイテムである。探索エンジンは、ユーザが再生アイテムのコレクションの範囲内で特定の再生アイテムを見つけるのを促進するために提供される。典型的には、これらのアイテムは、例えば、アクション、アドベンチャー、アニメーション、バイオグラフィー、コメディ、クライム、ドキュメンタリー、ドラマ、ファミリー、ファンタジー、フィルムノアール、ゲームショー、ヒストリー、ホラー、ミュージック、ミュージカル、ミステリー、ニュース、リアリティＴＶ、ロマンス、Ｓｃｉ−Ｆｉ、スポーツ、トークショー、スリラー、戦争及び西部劇というジャンルを有するＩＭＤＢジャンル指標を用いて、ラベル付けされる。再生アイテムは例えば会話又は歌詞の形式でテキストコンテンツを含み得るが、テキストコンテンツは、通常、検索目的で利用可能ではない。制限された範囲において、再生アイテムのメタデータは、テキストコンテンツ、例えば、表題、アーティスト及び時には簡単な説明を有してもよい。

その関係において、ＵＳ２００５１６０４６０は、ユーザが放送コンテンツを検索するのを可能にするための情報処理装置及び情報処理方法を開示している。この装置は、ユーザ端末から来る検索情報に基づいて検索キーワードを取得し、検索キーワードに関連した検索関連キーワードのための検索キーワード辞書データベースを検索する検索空間処理部を有する。検索キーワード及び検索関連キーワードデータに基づいて、検索空間処理部は、検索キーワード空間を生成し、生成された空間を修正プロセスに提出する。検索処理部は、マッチングのために、修正検索キーワード空間、ＥＰＧデータ及びＥＰＧキーワード空間を比較する。検索表示処理部は、マッチングの結果から表示準備情報のリストを準備し、そのリストをユーザ端末に送る。

しかしながら、既知の検索エンジンは、依然として、以下の例により示されるような欠点を有する。ユーザが大きなビデオオンデマンド貯蔵所においてイタリアのマフィア映画を捜したい、及び、前記貯蔵所がマフィア映画のための特定のジャンルラベルを有しないが、その代わりに、これらの映画は、典型的には、"アクション"、"ギャング"及び"イタリアン"というジャンルによってラベル付けされていると仮定する。ユーザは、フルテキスト検索におけるクエリとして"マフィア"という用語を単純に用いることができた。潜在的に、映画"ゴッドファーザー"の説明は、"マフィア"という用語を実際に含まないかもしれず、結果として、この映画は、としてフルテキスト検索における結果として返されないだろう。

一般に、ユーザは、再生アイテムの説明に対してフルテキスト検索を適用することによりユーザの現在の興味にマッチする興味深い再生アイテムを逃し得る。単純に、ユーザが所与の再生アイテムと典型的に関連付けるキーワード、又は、辞書から取り出された検索関連キーワードが、再生アイテムの説明において明示的に与えられていないためである。

本発明の目的は、前述の欠点を少なくとも部分的に軽減するシステムを提供することにある。本発明の目的は、前述の欠点を少なくとも部分的に軽減する方法を提供することにある。

本発明の第１の態様によれば、請求項１に記載のシステムが提供される。本発明の第２の態様によれば、請求項１１に記載の方法が提供される。

本発明の第１の態様によるシステム及び本発明の第２の態様による方法において、ユーザにより提供されるキーワードのセットは、ジャンル仕様から取得される更なるキーワードにより強化される。

この寄与のための手段は、ｌｐｎｔアイテムをエンコードするために使用されるデータの全体の量により除算される、ａｓｃｉｉコードにおけるｌｐｎｔアイテムにおいて生じるテキストをエンコードするのに必要なデータの量の間の割合である。

これらの及び他の態様は、図面を参照してより詳細に述べられる。

第１の本発明の態様によるデータベースシステムの一実施形態を図式的に示す。クラスをｌｐｎｔアイテムに割り当てるための第１のアプローチを図式的に示す。クラスをｌｐｎｔアイテムに割り当てるための第２のアプローチを図式的に示す。図１のデータベースシステムの実施形態の一部分を示す。前記部分をより詳細に示す。図１のデータベースシステムの実施形態の他の部分を示す。図１のデータベースシステムの他の実施形態における部分を示す。本発明の第１の態様によるデータベースシステムの更なる実施形態を図式的に示す。本発明の第１の態様によるデータベースシステムの更なる実施形態を図式的に示す。本発明の第１の態様によるデータベースシステムの更なる実施形態を図式的に示す。本発明の第２の態様による方法の一実施形態を図式的に示す。本発明の第２の態様による更なる方法の態様をより詳細に示す。

種々の図面における同様の参照シンボルは、特に明記しない限り同様の要素を示す。

図１は、ラベル付非テキスト系アイテム（ｌｐｎｔアイテム）のコレクションにおけるラベル付非テキスト系アイテムについてのメタデータを格納するための本発明の第１の態様によるデータベースシステムを図式的に示している。上記のように、ｌｐｎｔアイテムにおいて、テキストは、情報コンテンツに対して軽微な寄与しか有さない。この寄与のための手段は、ｌｐｎｔアイテムをエンコードするために使用されるデータの全体の量により除算される、ａｓｃｉｉコードにおけるｌｐｎｔアイテムにおいて生じるテキストをエンコードするのに必要なデータの量の間の割合である。

例えば、ｍｐ３アイテムとしてエンコードされる３分の曲は、約１〜１０メガバイトの格納空間を用いる。大雑把な推定によれば、曲のテキストは、２キロバイトにより表され得る最大２０００文字を有してもよい。従って、テキストは、曲の情報コンテンツ全体に対してせいぜい約０．２％しか寄与しない。

別の例として、２時間の長さを有する映画は、約１ＧＢでエンコードされ得る。話される又はクローズドキャプションとして映画に含まれるテキストは、８０ｋＢでエンコードされ得る。従って、テキストは、映画の情報コンテンツ全体に対してせいぜい約０．００００８％しか寄与しない。

一般に、ａｓｃｉｉコードにおけるｌｐｎｔアイテムにおいて生じるテキストをエンコードするのに必要なデータの量は、ｌｐｎｔアイテムをエンコードするために使用されるデータの全体量の多くても１％である。

ｌｐｎｔアイテムにおける情報コンテンツに対するテキストの軽微な寄与は、文書検索システムにおけるアイテムとはかなり異なることに留意されたい。

典型的には、ｌｐｎｔアイテムは、簡単な説明、即ちせいぜい数百ワードしか有さない（例えば１００ワードに満たない）。一部の状況において、アイテムの表題のみが説明として利用可能で有り得る。これは、通常１０未満のワードしか含まない。

コレクションにおける各ｌｐｎｔアイテムは、関連付けられた１又はそれ以上のラベルを有する。全てのラベルＧ＝｛ｇ１，ｇ２，...，ｇｎ｝のセットが与えられると仮定すると、或るｌｐｎｔアイテムｉに関して、これらのラベルを、

により与えられるｉに関連付ける。更に、Ｉ（ｃ）を、クラスｃに属しているｌｐｎｔアイテムのセットにする。異なるアプローチは、クラスを規定する、及び、各クラスに属しているｌｐｎｔアイテムを決定するために考えられる。図１Ａに示される１つの極端な場合において、各クラスは、単一のラベルにより規定される。その場合、ｌｐｎｔアイテムが１又はそれ以上のラベルに割り当てられ得る場合、クラスは重複している。例えば、第１のクラスｃ１は、ラベルｇ１を有する全てのｌｐｎｔアイテムにより規定され、第２のクラスｃ２は、ラベルｇ２を有する全てのｌｐｎｔアイテムにより規定され、同様に、ラベルｇｎにより規定されるｎ番目のクラスｃｎまで行われる。この場合、ラベルｇ１，ｇ２を有するｌｐｎｔアイテムは、例えば、クラスｃ１，ｃ２の各々に属している。

他の極端な場合において、ｌｐｎｔアイテムｉのクラスｃは、ラベルＧｉのセットにより決定される。その場合、各ｌｐｎｔアイテムは、正確に１つのクラスに属しており、複数のクラスは、相互に非重複である。これは、図１Ｂに示されている。ここにおいて、７つのクラスを規定する３つのラベルｇ１，ｇ２，ｇ３が与えられる。最初の３つのクラスは、ラベルｇ１，ｇ２，ｇ３のみをそれぞれ有するｌｐｎｔアイテムを含むｃ１，ｃ２，ｃ３である。４つの残りのクラスは、ラベルｇ１及びｇ２を有する全てのｌｐｎｔアイテムのｃ４、ラベルｇ１及びｇ３を有する全てのｌｐｎｔアイテムのクラスｃ５、ラベルｇ２及びｇ３を有する全てのｌｐｎｔアイテムのクラスｃ６、並びに、ラベルｇ１，ｇ２及びｇ３を有する全てのｌｐｎｔアイテムのクラスｃ７である。この手法において、ラベルの同じセットにより、より細分化された分類が得られる。例えば各クラスがｌｐｎｔアイテムの同じ数を大雑把に含むことを実現するために、ハイブリッドなアプローチが考えられる。例えば、図１Ｂに示される状況において、クラスｃ７が１つ又は２つのｌｐｎｔアイテムしか含まないことが見つけられた場合、クラスｃ７は削除されてもよく、その代わりに、これらのｌｐｎｔアイテムがクラスｃ４，ｃ５，ｃ６の各々に割り当てられてもよい。

図１のデータベースシステムは、表１に概略的に示されるような、前記コレクションの範囲内のｌｐｎｔアイテムｉのためのメタデータＧｉ，Ｔｉを格納している格納機能１０を有する。メタデータは、少なくとも１つのｌｐｎｔアイテムラベル、即ち１又はそれ以上のラベルのサブセットＧｉとしてのｌｐｎｔアイテムラベルと、ｌｐｎｔアイテムｉに割り当てられるｌｐｎｔアイテムの説明Ｔｉとを有する。格納機能１０は、ｌｐｎｔアイテムのコンテンツの位置までのポインタを更に有してもよい。幾つかの場合において、コンテンツは、前記格納機能１０の範囲内に格納されてもよい。

図１のデータベースシステムは、それぞれのクラスｃのためのキーワードデータを生成するためのキーワード生成機能２０を更に含む。図２において更に詳細に示されるように、キーワード生成機能２０は、前記クラスに関連付けられるｌｐｎｔアイテムのｌｐｎｔアイテム−説明から用語を検索するための検索モジュール２２を有する。従って、各クラスに対して、検索モジュール２２は、どのｌｐｎｔアイテムがそのクラスに属しているかを決定し、これらのｌｐｎｔアイテムの説明に含まれる用語を決定する。キーワード生成機能２０は、前記クラスに対する前記用語の関連性Ｒ（ｔ，ｃ）を割り当てるための用語関連性決定モジュール２４を更に有する。割り当てられた関連性Ｒ（ｔ，ｃ）に基づいて、用語は、これらの割り当てられた関連性Ｒ（ｔ，ｃ）に基づく取り出された用語Ｔ（ｃ）から選択され、選択された用語がキーワードＫ（ｃ）として供給される。従って、クラスｃのために供給されたキーワードＫ（ｃ）は、関連した文書の説明から前記クラスｃのために取り出された用語Ｔ（ｃ）のサブセットである。典型的には、用語Ｔ（ｃ）のほんの一部（例えば１０％未満）だけが、キーワードＫ（ｃ）として選択される。

多くの場合、ｌｐｎｔアイテムの分類のために使用されるラベルは予め規定されている。例えば、映画のデータベースにおいて、映画は、上で規定されたＩＭＤＢジャンルラベルを割り当ててもよい。しかしながら、上記のように、クラスは、ジャンル−ラベルの組み合わせに基づいて規定されてもよく、例えば、分離したクラスは、ラベル"ドラマ"及び"ロマンス"の双方を有する映画のために規定されてもよい。これは、ｌｐｎｔアイテムのより制限されたサブセットのみが解析されなければならない、及び、見つけられた用語は、用語が１つのラベルにのみ基づくクラスからの用語リストからの用語を組み合わせることにより得られる場合よりも、これらのｌｐｎｔアイテムのコンテンツをより適切に反映してもよいという利点を有する。それにも関わらず、ジャンル−ラベルの組み合わせに基づくクラスが極めて制限された数のｌｐｎｔアイテムのみを有する場合に、このクラスを除去する、及び、その代わりに、ｌｐｎｔアイテムを、個々のラベルにより又はこれらのラベルの下位の組み合わせにより規定されるクラスに割り当てるとみなされてもよい。

種々のオプションは、クラスのための用語Ｔ（ｃ）の関連性を決定するために考えられる。例えば、関連性決定モジュール２４は、これらの説明に用語を含むクラスにおけるｌｐｎｔアイテムの数を計数し、この数を、通常の使用における用語の既知の頻度に基づく用語を含むのを期待されるｌｐｎｔアイテムの数と比較してもよい。その目的のために、関連性決定モジュール２４は、後者の情報を含むルックアップテーブルを有してもよい。

図２Ａは、データベースシステムの一実施形態における関連性決定モジュール２４の特定の装置を示している。それに関して、関連性決定モジュール２４は、前記分類に応じてそれぞれのクラスｃを有するｌｐｎｔアイテムのための用語Ｔ（ｃ）の頻度を示す頻度指標Ｆｔｃを与えるための用語頻度分析ユニット２４１を有する。キーワード生成デバイス２４は、全体としてのｌｐｎｔアイテムのコレクションにおける用語Ｔ（ｃ）の頻度を示す基準指標Ｆｒｅｆを供給するための基準ユニット２４２を更に有する。キーワード生成デバイス２４は、前記頻度指標Ｆｔｃに応じたクラスｃのための用語と前記基準指標Ｆｒｅｆとの関連性を決定するための正規化ユニット２４３を更に有する。関連性決定モジュール２４により割り当てられた関連性に基づいて、クラスｃのためのキーワードＫ（ｃ）のセットは、クラスｃのｌｐｎｔアイテムｉの説明の範囲内で見つけられる用語Ｔ（ｃ）から選択される。選択されたキーワードＫｗは、例えば、予め決められた値より高い関連性を有する全ての用語Ｔ（ｃ）であってもよい。代わりに、関連性の減少に従ってランク付けされる用語Ｔ（ｃ）のリストから上位Ｎｔ個の用語が選択されてもよい。ここで、Ｎｔは予め決められた数である。他の実施形態において、選択は、基準の組み合わせに従って行われてもよく、例えば、リストの上位Ｎｔにあるか又は或る閾値より高い関連性を有する全ての用語が選択される。前と同じように他の実施形態において、キーワードＫ（ｃ）は、リストの上位Ｎｔにおいて現れ、加えて、閾値より高い関連性を有する用語Ｔ（ｃ）から選択される。

種々のオプションは、頻度指標Ｆｔｃを決定するために考えられることに留意されたい。

第１のアプローチによれば、頻度指標Ｆｔｃは、元の頻度（即ち、用語Ｔ（ｃ）がクラスｃのｌｐｎｔアイテムの説明において発生する回数）である。

第２のアプローチによれば、頻度指標Ｆｔｃは、"ブール頻度"に基づく。ブール頻度では、用語がｌｐｎｔアイテムの説明中に現れる場合にはｌｐｎｔアイテムに関する用語が１に設定され、現れない場合には用語頻度が０に設定される。従って、頻度指標Ｆｔｃは、少なくとも１回は用語Ｔ（ｃ）を含む説明を有するｌｐｎｔアイテムの数である。一実施形態において、１とは異なる他の閾値は、この手段のために用いられてもよい。

第３のアプローチによれば、頻度指標は、対数的にスケールされた頻度（即ち、Ｆｔｃ＝１＋ｌｏｇｆ（ｔ，ｃ）（及び、ｆ（ｔ，ｃ）＝０のときに０））である。それに関して、ｆ（ｔ，ｃ）は、クラスｃにおける用語の元の頻度である。

頻度指標Ｆｔｃは、クラスにおけるｌｐｎｔアイテムの数及び／又は説明の長さの差を構成するようスケールされてもよい。その目的のために、元の頻度ｆ（ｔ，ｃ）は、そのクラスにおける任意の用語の最大の元の頻度により、又は、クラスにおける用語の全体数によりスケールされてもよい。ｌｐｎｔアイテムが実質的に同等にサイズ設定されたクラス及び実質的に同等の長さの説明に従って分類された場合、これは必要ではない。更に、説明の長さは、頻度指標Ｆｔｃが"ブール頻度"に基づくかどうかについて考慮される必要はない。選択されたキーワードが、関連性の減少に従ってランク付けされた用語Ｔ（ｃ）のリストから上位Ｎｔ個の用語である場合には、説明のサイズ及びクラスサイズを考慮するためのスケーリングは必要でない。

また、特定のクラスに対して関連性を有しない一般に頻繁に出現する用語を除外するために、基準指標Ｆｒｅｆが、用語Ｔ（ｃ）のために決定される。指標Ｆｒｅｆは、頻度指標ＦＴｃのための重み付け因子として用いられる。基準指標は、用語がｌｐｎｔアイテムのコレクション全体に渡って一般的か又は珍しいかを示す手段である。用語は、典型的には、用語を含むｌｐｎｔアイテムの数により除算されるｌｐｎｔアイテムの全体数の商の対数を決定することにより取得される。この手段は、代わりに、コレクション全体の代表的なサブセットから推定されてもよいことに留意されたい。前と同じように他の実施形態において、重み付け因子として用いられるべき基準指標Ｆｒｅｆは、コレクション全体における用語の全体のカウントの逆数値であってもよい。代わりに、重み付け因子として使用される基準指標Ｆｒｅｆは、用語の通常の使用における用語の逆頻度であってもよい。このデータは、ルックアップテーブルとして利用可能であってもよい。

データベースシステムは、キーワードとしてクラスｃのために見つけられた与えられた候補キーワードＫ（ｃ）のそれぞれのサブセットをクラスのｌｐｎｔアイテムｉのメタデータに追加するためのメタデータ強化機能３０を更に有する。１つだけのクラスに割り当てられるｌｐｎｔアイテムに関して、これらのｌｐｎｔアイテムのメタデータにそのクラスのために見つけられた候補キーワードＫ（ｃ）を追加することが十分である。与えられた候補キーワードＫ（ｃ）のサブセットは、全ての候補キーワードを有してもよい。しかしながら、典型的には、サブセットは、与えられた候補キーワードの選択を与える。例えば、ｌｐｎｔアイテムのｌｐｎｔアイテム説明においてすでに存在する候補キーワードは、そのｌｐｎｔアイテムのために除外されてもよい。また、他の候補キーワードは、その後において更に詳細に述べられるようなクラスの特定のｌｐｎｔアイテムのための生ずるサブセットにおいて除外されてもよい。

上記のように、異なるアプローチは、クラスを規定し、各クラスに属しているｌｐｎｔアイテムを決定することを可能にする。或る場合において、ｌｐｎｔアイテムｉは、１つを超えるクラスｃに割り当てられてもよい。これは、ｌｐｎｔアイテムが１つを超えるラベルを有し、各ラベルが別個のクラスを規定する場合に当てはまり得る。例えば、映画は、ラベル'ロマンス'及び'ドラマ'を有してもよく、双方ラベルの組み合わせは、別個のクラスとしてはみなされない。その場合において、１つを超えるクラスからのキーワードＫ（ｃ）は、斯様なｌｐｎｔアイテムに対して利用可能である。異なるアプローチが考えられる。第１のアプローチによれば、ｌｐｎｔアイテムが属しているクラスの各々のための用語Ｔ（ｃ）から選択される全てのキーワードＫｗは、ｌｐｎｔアイテムのメタデータに追加される。他のアプローチによれば、更なる選択がキーワードから行われる。例えば、メタデータ強化機能３０は、ｌｐｎｔアイテムのための関連したクラスの各々から取得されるキーワードの組み合わせられたリストを構成し、これらの関連性に従って全体のランキングを与えてもよい。そして、最も高いランキングを有するキーワードのサブセットが、組み合わせられたリスト中のキーワードから選択されてもよい。この場合、キーワード生成機能２０がキーワードに割り当てられた関連性指標をメタデータ強化機能３０に供給することが必要である。代わりに、キーワード生成機能２０は、（これらの関連性を特定することなく）これらの関連性ランキングに対応する予め決められた順序についての各クラスのためのキーワードのリストをメタデータ強化機能３０に供給し、メタデータ強化機能３０は、予め決められたサイズのサブセットをリストの各々から選択する。

再び他のアプローチにおいて、メタデータ強化機能３０は、各クラスに割り当てられたキーワードのセットの横断部分を選択する。即ち、メタデータ強化機能３０は、ｌｐｎｔアイテムｉが属しているクラスｃの各々に共通しているキーワードを選択する。

（ｌｐｎｔアイテムが属しているクラスのためのキーワードＫ（ｃ）のセットと同じであってもよい）ｌｐｎｔアイテムのために選択されるキーワードＫｉのセットは、説明に追加されてもよい。この手法において、キーワードは、既存の検索エンジンにより見つけられ得る。代わりに、キーワードＫｉは、以下の表２に示されるように別々のフィールドに含まれてもよい。

検索エンジンが、ｌｐｎｔアイテムの元の説明において実際に生じるキーワードと追加されたキーワードとの間を識別するのを可能にするので、ｌｐｎｔアイテムｉのためのメタデータの別個のフィールドにおけるｌｐｎｔアイテム特有のキーワードＫｉを供給することが有利である。例えば、ｌｐｎｔアイテムがクッキングレシピの準備を示すビデオであり、検索が"パルメザン"ではなく"イタリアン"を特定すると仮定する。イタリアンクッキングレシピが原料として頻繁にパルメザンチーズを含むという事実からみて、これが追加のキーワードとして生じる可能性が非常に高い。その場合、検索はヒットを明らかにしないだろう。しかしながら、追加のキーワードがメタデータの別個の入力において追加された場合において、検索エンジンは、元の説明がキーワード'パルメザン'を含まないときに、レシピがクエリに適合することを決定する。

図３Ａは、データベースシステムの一実施形態におけるメタデータ強化機能３０を示している。示された実施形態において、メタデータ強化機能３０は、第１のクエリｑ１及び第２のクエリｑ２を汎用検索エンジンＧＳＥ（general search engine）に発行するためのクエリ発行機能３１を有する。第１のクエリｑ１は、ｌｐｎｔアイテムの表題Ｔｉ及びキーワード生成機能２０により供給される候補キーワードＫ（ｃ）に基づいて実行される。従って、このクエリは、表題Ｔｉ及び候補キーワードＫ（ｃ）を双方含むターゲットを検索するように向けられる。与えられた候補キーワードＫ（ｃ）を特定することなく、第２のクエリｑ２は、ｌｐｎｔアイテムの表題Ｔｉに基づいて実行される。いずれの場合においても、クエリは、（例えば引用符の間の表題を特定することにより）ここに現れている個々のワードではなく、全体としての表題に向けられるべきであることに留意されたい。クエリｑ１，ｑ２は、検索を特定の領域に限定するために共通の１又はそれ以上の更なる用語を含んでもよい。例えば、コレクションにおけるｌｐｎｔアイテムが映画である場合、クエリｑ１，ｑ２はキーワード"映画"を更に含んでもよい。メタデータ強化機能３０は、第１のクエリｑ１のための推定されたヒットの数Ｎ（ｑ１）と第２のクエリｑ２のための推定されたヒットの数Ｎ（ｑ２）とを用いて候補キーワードＫ（ｃ）のｌｐｎｔアイテム特有の関連性を決定するための追加の関連性指示機能３２を更に有する。"推定される"という用語は、全ての検索結果が、関連するｌｐｎｔアイテムに実際に本当に関連している必要があるとは限らないことを示すためにここで用いられる。例えば、クエリが映画に明示的に限定されない場合、検索用語"ゴッドファーザー"を有するクエリは、本及びゲームを明らかにしてもよいが、"洗礼の子供の命名者"としての名づけ親の元の意味に結果であってもよい。それにもかかわらず、クエリ１及び２のクエリ結果を比較するために、一般的な検索エンジンにより見つけられた結果の数は、多くの場合、適切な基準である。候補キーワードのｌｐｎｔアイテム特有の関連性は、割合Ｎ（ｑ１）／Ｎ（ｑ２）に基づいてもよく、これは、

という条件で、０〜１の範囲にある数である。ここでは、割合が１に等しい場合、候補キーワードは、とりわけ関連しているとみなされ、割合が０に等しい場合、無関係であるとみなされる。

メタデータ強化機能３０は、候補キーワードのｌｐｎｔアイテム特有の関連性が予め決められた値をより小さい場合に、与えられた候補キーワードがｌｐｎｔアイテムのメタデータに割り当てられるのを阻止するためのブロッキング機能３３を更に有する。この手法において、追加の選択が、候補キーワード（即ち、クラスのメンバである特定のｌｐｎｔアイテムに特に関連しているキーワードのサブセットを実現するためのクラスに関連したキーワード）から行われる。

図３Ｂは、本発明の第１の態様によるデータベースシステムの他の実施形態のメタデータ強化機能３０を示している。ここでは、クエリ発行機能３１は、第３のクエリｑ３を汎用検索エンジンに発行するように更に構成される。この第３のクエリは、生成機能２０により供給された候補キーワードに基づいて実行される。ｌｐｎｔアイテムの表題Ｔｉは、このクエリには含まれない。この実施形態において、候補キーワードのために決定されたｌｐｎｔアイテム特有の関連性は、前記第３のクエリｑ３のための推定されたヒットの数Ｎ（ｑ３）に更に依存する。この場合、割合Ｎ（ｑ１）／Ｎ（ｑ３）は、表題Ｔｉを有するｌｐｎｔアイテムのための候補キーワードの関連性の更なる指標を供給する。図３Ｂに示された実施例では、割合Ｎ（ｑ１）／Ｎ（ｑ２）は、追加の関連性指標部分３２ａにより計算され、割合Ｎ（ｑ１）／Ｎ（ｑ３）は、追加の関連性指標部分３２ｂにより計算され、追加の関連性指標部分３２ｃは、ブール関連性インジケータＲを決定する。ブロッキング機能３３は、Ｒがｔｒｕｅである場合、ｌｐｎｔアイテムｉのための特定のキーワードＫｉとしてキーワードＫ（ｃ）のみを供給する。一実施形態において、追加の関連指標部分３２ｃは、Ｎ（ｑ1）／Ｎ（ｑ2）＞Ｔｈｒ１２及びＮ（ｑ１）／Ｎ（ｑ３）＞Ｔｈｒ１３の場合にＲ＝ｔｒｕｅであることを決定する。ここで、Ｔｈｒ１２およびＴｈｒ１３は、予め決められた閾値である。

図４に示されたような第１の態様によるデータベースシステムの一実施形態は、１又はそれ以上のキーワードのセットＫｕを含む、検索されたｌｐｎｔアイテムのためのユーザ検索要求ＵＳＲを受信するための通信機能４０を更に有する。示された実施形態では、データベースシステムは、検索要求に含まれる１又はそれ以上のキーワードのセットに基づいて、前記強化されたメタデータにおいてクエリを実行するための検索機能５０を更に有する。

また、図５に示されたデータベースシステムの更なる実施形態は、新たなｌｐｎｔアイテムｉについてのメタデータを受信するための入力機能６０を有する。その実施形態のデータベースシステムは、前記メタデータを格納機能１０に格納し、コレクションにおけるｌｐｎｔアイテムのメタデータを更新するための更新機能７０を追加的に有する。メタデータを更新するプロセスは、バッチ式で生じ得る、即ち、例えば予め決められた数のｌｐｎｔアイテム（例えば、１００のｌｐｎｔアイテム）がコレクションに追加された後に毎回、キーワードの割り当てが新たに生じ得る。

しかしながら、好ましくは、メタデータは、繰り返して更新される。これを可能にするために、クラス−用語−頻度テーブル（表３参照）が以下に示すように維持される。クラス−用語−頻度テーブルは、各クラス（Ｃ１,Ｃ２,・・・,Ｃｎ）に対して、用語｛Ｔ１１,・・・，Ｔ１ｎ１｝,｛Ｔ２１,・・・,Ｔ２ｎ２｝,・・・,｛Ｔｍ１,・・・,Ｔｍ,ｎｍ｝等のリスト（Ｔｅｒｍ）を有する。用語のリストの各々は、用語頻度｛Ｆ１１,・・・Ｆ１ｎ１｝の対応するリスト、及び、基準頻度｛ＦＲ１１,・・・ＦＲ１ｎ１｝のリストを有する。加えて、正規化された頻度｛ＦＮ１１，・・・ＦＮ１ｎ１｝のリストが維持されてもよい。しかしながら、これは、後者のリストがテーブルにおいて既に利用可能な割合ＦＴｃ／Ｆｒｅｆから計算されるので、必要ではない。

それぞれの追加されたｌｐｎｔアイテムｉ_ｎｅｗに関して、これは、以下のものを必要とする。
− 用語リストは、ｌｐｎｔアイテムの説明（例えば、表題）において生じる用語を有するｌｐｎｔアイテムｉ_ｎｅｗに対して決定される。
− 用語頻度リストは、前記用語リストの用語が発生する頻度のための指標を有するｌｐｎｔアイテムに対して決定される。
− 用語頻度リストに基づいて、関連したクラス／複数のクラスのための用語頻度Ｆｔｃが更新される。即ち、新たなｌｐｎｔアイテムｉｎｅｗが属している各クラスに関して、用語頻度Ｆｔｃは、用語頻度リストにおいて示された頻度によりカウントをインクリメントすることにより更新される。
− また、この情報に基づいて、用語のための基準頻度ＦＲｉｊが更新されてもよい。代わりに、各用語のためのそれぞれの固定された基準頻度が推定されてもよい。しかしながら、新たな用語が経時的に取り込まれるので、基準頻度は、新たな用語のために経時的に追加されるべきである。加えて、幾つかの用語に関して頻度が経時的に増大し、他のものに関しては頻度が経時的に減少するので、基準頻度を経時的に更新することは、１年につき数回行われるのが恐らく好ましいだろう。
− その後、正規化された周波数は、用語統計が新たなｌｐｎｔアイテムの加算により変更されるクラス（即ち、新たなｌｐｎｔアイテムが属しているクラス）に対して更新される。基準頻度がまた更新された場合、新たなｌｐｎｔアイテムから取り出された用語リストにおいて１又はそれ以上の用語を含む他のクラスも更新される。
− ｌｐｎｔアイテムのメタデータは、新たなｌｐｎｔアイテムが属しているクラスのための手順において以前に選択したキーワードのセットＫｗに基づいて強化される。
− 他のキーワードが１又はそれ以上のクラスに関連しているように見える正規化された頻度を更新するステップから続く場合、その後、全てのｌｐｎｔアイテムのメタデータが適宜更新され得る。

同様に、本発明の第１の態様によるデータベースシステムの他の実施形態は図６に示される。ここに示されたデータベースシステムは、ユーザプロファイルを格納するためのユーザプロファイル格納機能８０を更に有する。ユーザプロファイルは、少なくとも、ユーザ指定されたキーワードを有する。ユーザ指定されたキーワードは、ユーザにより明示的に特定されてもよい（Ｋｅｘｐ）。代わりに、システムは、どのキーワードがユーザにより頻繁に用いられるかを検出し、黙示的なキーワード（Ｋｉｍｐ）としてこれらをユーザプロファイルに追加してもよい。図６に示されたデータベースシステムの実施形態は、推薦機能９０を更に有する。新たなｌｐｎｔアイテムについてのメタデータを受信すると、及び、新たなｌｐｎｔアイテムのメタデータを更新した後に、推薦機能９０は、新たなｌｐｎｔアイテムの更新されたメタデータを、各ユーザのためのそれぞれのユーザ指定されたキーワードと比較する。そして、推薦機能９０は、プロファイルが新たなｌｐｎｔアイテムの更新されたメタデータにマッチするそれらのユーザに対して新たなｌｐｎｔアイテムを推薦する。

図７は、本発明の第２の態様による方法を図式的に示している。ラベル付けされたｌｐｎｔアイテムのコレクションにおけるｌｐｎｔアイテムについてのメタデータを格納するための発明の方法は、第１のステップＳ１を有し、それぞれのメタデータが、コレクションの範囲内でｌｐｎｔアイテムのために格納される。メタデータは、少なくとも１つのｌｐｎｔアイテム分類及びｌｐｎｔアイテム説明を有する。上で述べられるように、ｌｐｎｔアイテムは、１つを超えるｌｐｎｔアイテム分類に割り当てられてもよい。ｌｐｎｔアイテム分類はクラスを規定する。種々の代替手段は、ｌｐｎｔアイテム分類とクラス定義との間の関係のために考えられる。１つの定義によれば、各分類は、クラスと関連付けられ、従って、１つを超える分類を有するｌｐｎｔアイテムが異なるクラスに属している。他の定義によれば、分類のそれぞれの組み合わせはクラスを規定する。その場合、各ｌｐｎｔアイテムは、１つのクラスにのみ属している。代わりに、ハイブリッドな定義が考えられる。例えば、クラスは、充分なｌｐｎｔアイテムが分類のこの組み合わせを有するのであれば、第２の定義におけるような分類の組み合わせにより規定されてもよい。この組み合わせを伴うｌｐｎｔアイテムの数が閾値より小さい場合（例えば１０未満）、その後、ｌｐｎｔアイテムは、個々の分類により又はこれらの分類のそれぞれのサブセットにより形成されるクラスに割り当てられる。本発明による方法は、ｌｐｎｔアイテムのために動作する。即ち、ａｓｃｉｉコードにおけるｌｐｎｔアイテムにおいて生じるテキストをエンコードするのに必要なデータの量は、ｌｐｎｔアイテムをエンコードするために使用されるデータの全体量の多くても１％である。典型的には、コレクションにおけるｌｐｎｔアイテムの説明におけるワードの平均数も低い（例えば数百ワード、例えば多くても１００、又はせいぜい１０ワード）。

方法は、前記クラスと関連付けられたｌｐｎｔアイテムのｌｐｎｔアイテム説明からそれぞれのクラスのための用語を取り出す第２のステップＳ２を有する。従って、各クラスに関して、どのｌｐｎｔアイテムがそれに属しているかが決定され、どの用語がこれらのｌｐｎｔアイテムの説明において現れるかが決定される。事前選択ステップは、"the"や"ａ"のような、極めて一般的なワードをフィルタリングするために適用されてもよい。

次のステップＳ３において、関連性は、クラスのための取り出された用語に割り当てられる。

ステップＳ４において、用語は、これらの割り当てられた関連性に基づいて取り出された用語から選択され、候補キーワードとして供給される。典型的には、ｔｒｕｅのサブセットのみが選択されるだろう。しかしながら、少数の用語だけが利用可能な場合、これらの全てが候補キーワードとして供給されてもよい。

ステップＳ５において、供給された候補キーワードのサブセットは、クラスのｌｐｎｔアイテムのメタデータに追加される。クラスの全ての候補キーワードをそのクラスのｌｐｎｔアイテムの全てに追加することが考えられ得るが、これは、実際には有益ではないかもしれない。例えば、ｌｐｎｔアイテムに追加される供給された候補キーワードのサブセットは、ｌｐｎｔアイテム説明において既に生じたものではない候補キーワードを有してもよい。

更に、供給された候補キーワードのサブセットは、図８を参照して述べられるような追加の選択手順により追加的に制限されてもよい。この追加の選択手順において、第１及び第２のクエリｑ１，ｑ２は、ステップＳ５１，Ｓ５２のそれぞれにおいて汎用検索エンジンに発行される。クエリは、任意の順序で又は同時に発行され得る。ステップＳ５１における第１のクエリｑ１は、ｌｐｎｔアイテムの表題及び候補キーワード（即ち、ｌｐｎｔアイテムが属しているクラスのために生成されたキーワード）に基づいて実行される。ステップＳ５２における第２のクエリｑ２は、その候補キーワードを特定することなくｌｐｎｔアイテムの表題に基づいて実行される。そして、ステップＳ５４において、候補キーワードのｌｐｎｔアイテム特有の関連性は、第１のクエリ（ｑ１）から生ずる推定されたヒットの数と第２のクエリ（ｑ２）から生ずる推定されたヒットの数とを用いて決定される。ステップＳ５５において、キーワードのｌｐｎｔアイテム特有の関連性が予め決められた値をより小さいことがステップＳ５４において決定された場合、供給された候補キーワードは、ｌｐｎｔアイテムのメタデータに割り当てられるべきキーワードのサブセットから除外される。

方法の一実施形態において、第３のクエリ（ｑ３）は、ステップＳ５３における汎用検索エンジンに発行される。第３のクエリｑ３は、ｌｐｎｔアイテムの表題を特定することなく候補キーワードに基づいて実行される。クエリｑ１，ｑ２，ｑ３は、任意の順序で又は同時に発行され得る。後続のステップＳ５４において、ｌｐｎｔアイテム特有の関連性は、前記第３のクエリ（ｑ３）のための推定されたヒットの数に更に依存する候補キーワードに対して決定される。

Claims

ラベル付非テキスト系アイテム（ｌｐｎｔ（labeled predominantly non-textual）アイテム）のコレクションにおけるラベル付非テキスト系アイテムについてのメタデータを格納するためのデータベースシステムであって、
前記コレクションの範囲内でｌｐｎｔアイテムに対するそれぞれのメタデータを格納している格納部であって、前記メタデータは、ｌｐｎｔアイテム説明及びラベルのセットから選択される少なくとも１つのｌｐｎｔアイテムラベルを有し、前記ラベルのセットはクラスを規定し、ａｓｃｉｉコードにおける前記ｌｐｎｔアイテムにおいて生じているテキストをエンコードするのに必要なデータの量は、前記ｌｐｎｔアイテムをエンコードするために使用されるデータの全体量の多くても１％である、格納部と、
それぞれのクラスに対するキーワードデータを生成するためのキーワード生成部であって、前記キーワード生成部は、前記クラスと関連付けられるｌｐｎｔアイテムのｌｐｎｔアイテム説明から用語を取り出すための検索モジュールと、前記クラスに対する前記用語の関連性を割り当て、これらの割り当てられた関連性に基づいて前記の取り出された用語から用語を選択し、これらの選択された用語を候補キーワードとして供給するための用語関連性決定モジュールとを有する、キーワード生成部と、
クラスに対して生成された候補キーワードのそれぞれのサブセットを選択されたキーワードとしてクラスのｌｐｎｔアイテムのメタデータに追加するためのメタデータ強化部とを有する、データベースシステム。
前記ｌｐｎｔアイテムは、メディア再生デバイスによる再生のための再生アイテムである、請求項１に記載のデータベースシステム。
前記用語関連性決定モジュールは、前記クラスを規定する分類に応じてそれぞれのクラスを有するｌｐｎｔアイテムに対する用語の頻度を示す頻度指標を供給するための用語頻度解析ユニットを有し、
前記キーワード生成部は、ｌｐｎｔアイテムのコレクションにおける前記用語の頻度を示す基準指標を供給するための基準ユニットと、前記頻度指標及び前記基準指標に従って前記用語の関連性を決定するための正規化ユニットとを更に有する、請求項１に記載のデータベースシステム。
前記メタデータ強化部は、第１のクエリ及び第２のクエリを汎用検索エンジンに発行するためのクエリ発行部を有し、前記第１のクエリは、ｌｐｎｔアイテムの表題及び前記キーワード生成部により供給された候補キーワードに基づいて実行され、前記第２のクエリは、供給された候補キーワードを特定することなく、前記ｌｐｎｔアイテムの表題に基づいて実行され、
前記メタデータ強化部は、前記第１のクエリに対して推定されたヒットの数と前記第２のクエリに対して推定されたヒットの数とを用いて前記候補キーワードのｌｐｎｔアイテム特有の関連性を決定するための追加の関連性指示部を更に有し、
前記メタデータ強化部は、ｌｐｎｔアイテムに対する前記候補キーワードの前記ｌｐｎｔアイテム特有の関連性が予め決められた値より小さい場合に、供給された候補キーワードが前記ｌｐｎｔアイテムの前記メタデータに割り当てられるのを阻止するためのブロッキング部を更に有する、請求項１〜３のうちいずれか一項に記載のデータベースシステム。
前記クエリ発行部は、第３のクエリを前記汎用検索エンジンに発行するように更に構成され、前記第３のクエリは、前記ｌｐｎｔアイテムの表題を特定することなく前記候補キーワードに基づいて実行され、
前記候補キーワードに対して決定された前記ｌｐｎｔアイテム特有の関連性は、前記第３のクエリに対して推定されたヒットの数に更に依存する、請求項４に記載のデータベースシステム。
前記メタデータ強化部は、選択されたキーワードを、前記説明を格納するための入力とは別個の入力における前記メタデータに追加するように構成される、請求項１〜５のうちいずれか一項に記載のデータベースシステム。
１又はそれ以上のユーザ指定されたキーワードのセットを含むユーザ検索要求を受信するための通信部と、
前記１又はそれ以上のユーザ指定されたキーワードのセットに基づいて、強化されたメタデータにおけるクエリを実行するための検索部とを更に有する、請求項１〜６のうちいずれか一項に記載のデータベースシステム。
新たなｌｐｎｔアイテムについてのメタデータを受信するための入力部と、
受信される当該メタデータを前記格納部に格納し、前記コレクションにおける前記ｌｐｎｔアイテムの前記メタデータを更新するための更新部とを更に有する、請求項７に記載のデータベースシステム。
ユーザプロファイルを格納するためのユーザプロファイル格納部であって、ユーザプロファイルは、少なくともユーザ指定されたキーワードを有する、ユーザプロファイル格納部と、
新たなｌｐｎｔアイテムについてのメタデータを受信すると、及び、前記新たなｌｐｎｔアイテムの前記メタデータを更新した後に、前記新たなｌｐｎｔアイテムの更新されたメタデータを、各ユーザに対するそれぞれのユーザ指定されたキーワードと比較し、前記ユーザ指定されたキーワードが前記新たなｌｐｎｔアイテムの前記更新されたメタデータにマッチするユーザに前記新たなｌｐｎｔアイテムを推薦するための推薦部とを更に有する、請求項８に記載のデータベースシステム。
ラベル付非テキスト系アイテム（ｌｐｎｔ（labeled predominantly non-textual）アイテム）のコレクションにおけるラベル付非テキスト系アイテムについてのメタデータを格納するためのデータベースシステムの作動方法であって、
前記データベースシステムの格納部が、前記コレクションの範囲内でｌｐｎｔアイテムに対するそれぞれのメタデータを格納するステップであって、前記メタデータは、ｌｐｎｔアイテム説明及びラベルのセットから選択される少なくとも１つのｌｐｎｔアイテムラベルを有し、前記ラベルのセットはクラスを規定し、ａｓｃｉｉコードにおける前記ｌｐｎｔアイテムにおいて生じているテキストをエンコードするのに必要なデータの量は、前記ｌｐｎｔアイテムをエンコードするために使用されるデータの全体量の多くても１％である、ステップと、
前記データベースシステムのキーワード生成部が、前記クラスと関連付けられるｌｐｎｔアイテムのｌｐｎｔアイテム説明からそれぞれのクラスに対する用語を取り出すステップと、
前記キーワード生成部が、前記それぞれのクラスに対する前記用語の関連性を割り当てるステップと、
前記キーワード生成部が、これらの割り当てられた関連性に基づいて前記の取り出された用語から用語を選択し、これらの選択された用語を候補キーワードとして供給するステップと、
前記データベースシステムのメタデータ強化部が、供給された候補キーワードのサブセットをキーワードとしてクラスのｌｐｎｔアイテムのメタデータに追加するステップとを有する、方法。
前記ｌｐｎｔアイテムは、メディア再生デバイスによる再生のための再生アイテムである、請求項１０に記載の方法。
前記用語の関連性を割り当てるステップは、前記クラスを規定する分類に応じてそれぞれのクラスを有するｌｐｎｔアイテムに対する用語の頻度を示す頻度指標を供給し、ｌｐｎｔアイテムのコレクションにおける前記用語の頻度を示す基準指標を供給し、前記頻度指標及び前記基準指標に従って前記用語の関連性を決定する、請求項１１に記載の方法。
前記メタデータ強化部が、
第１のクエリ及び第２のクエリを汎用検索エンジンに発行するステップであって、前記第１のクエリは、ｌｐｎｔアイテムの表題及び供給された候補キーワードに基づいて実行され、前記第２のクエリは、供給された候補キーワードを特定することなく、前記ｌｐｎｔアイテムの表題に基づいて実行される、ステップと、
前記第１のクエリに対して推定されたヒットの数と前記第２のクエリに対して推定されたヒットの数とを用いて前記候補キーワードのｌｐｎｔアイテム特有の関連性を決定するステップと、
前記候補キーワードの前記ｌｐｎｔアイテム特有の関連性が予め決められた値より小さい場合に、供給された候補キーワードが前記ｌｐｎｔアイテムの前記メタデータにキーワードとして割り当てられるのを阻止するステップとを更に有する、請求項１１又は請求項１２に記載の方法。
前記メタデータ強化部が、第３のクエリを前記汎用検索エンジンに発行するステップであって、前記第３のクエリは、前記ｌｐｎｔアイテムの表題を特定することなく前記候補キーワードに基づいて実行され、前記候補キーワードに対して決定された前記ｌｐｎｔアイテム特有の関連性は、前記第３のクエリに対して推定されたヒットの数に更に依存する、ステップを更に有する、請求項１３に記載の方法。
前記候補キーワードから選択されるサブセットは、前記説明を格納するための入力とは別個の入力における前記メタデータに追加される、請求項１１に記載の方法。
前記データベースシステムの通信部が、１又はそれ以上のユーザ指定されたキーワードのセットを含むユーザ検索要求を受信するステップと、
前記データベースシステムの検索部が、前記１又はそれ以上のユーザ指定されたキーワードのセットに基づいて、強化されたメタデータにおけるクエリを実行するステップとを更に有する、請求項１１に記載の方法。
ラベル付非テキスト系アイテム（ｌｐｎｔ（labeled predominantly non-textual）アイテム）のコレクションの範囲内でｌｐｎｔアイテムに対するそれぞれのメタデータを格納するステップであって、前記メタデータは、少なくとも１つのｌｐｎｔアイテムラベル及びｌｐｎｔアイテム説明を有し、前記ラベルのセットはクラスを規定し、ａｓｃｉｉコードにおける前記ｌｐｎｔアイテムにおいて生じているテキストをエンコードするのに必要なデータの量は、前記ｌｐｎｔアイテムをエンコードするために使用されるデータの全体量の多くても１％である、ステップと、
前記クラスと関連付けられるｌｐｎｔアイテムのｌｐｎｔアイテム説明からそれぞれのクラスに対する用語を取り出すステップと、
前記それぞれのクラスに対する取り出された用語の関連性を割り当てるステップと、
これらの割り当てられた関連性に基づいて前記取り出された用語から用語を選択し、これらの選択された用語を候補キーワードとして供給するステップと、
供給された候補キーワードのサブセットをキーワードとしてクラスのｌｐｎｔアイテムのメタデータに追加するステップとを、
データ処理デバイスに実行させるための命令を有する、コンピュータプログラム。