JP2014500528A

JP2014500528A - Ｔｏｐ−ｋ処理を活用した意味の充実

Info

Publication number: JP2014500528A
Application number: JP2013513358A
Authority: JP
Inventors: ジョンウクキム; エス．カシャップアシュウィン; デカイリー; バミディパティサンディリャ; エー．パテルバンキム; スリダールアビナシュ; マーサーソーラブ
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2010-06-03
Filing date: 2011-06-03
Publication date: 2014-01-09
Anticipated expiration: 2031-06-03
Also published as: EP2691845A2; JP5894149B2; KR101811468B1; WO2011153392A3; US20130268261A1; KR20130120381A; CN103384883A; EP2691845A4; WO2011153392A2; CN103384883B

Abstract

テキストの意味を適切に再解釈することは、クラスタリング、テキスト間の意味の関連性の計算、検索などの、多くのデータマイニングタスクや情報検索タスクの強化に必須である。ウィキペディア由来の概念空間でテキストを表すことは、ウィキペディアの包括性と専門的知識のために、近年、ますます注目を浴びている。この概念ベースの表示によって、語の袋モデルを用いてでは推定できないテキスト間の意味の関連性を抽出することができる。しかしながら、ウィキペディアを意味解釈部として使うことに関する主な障害は、ウィキペディア由来の概念の圧倒的な大きさが、テキストの概念空間への効率的なマッピングを困難にしていることである。そのテキストに最も一致する概念を用いてテキストの意味を表すことができる効率的なアルゴリズムを示す。詳細には、この手法は、最初に、所与のテキストに最も関連のある上位の近似的概念を計算する。次に、これらの概念を活用して、所与のテキストの意味を表す。

Description

［関連出願の参照］
この出願は、２０１０年６月３日に出願された米国仮出願番号６１／３５１２５２、２０１０年６月１５日に出願された米国仮出願番号６１／３９７７８０、および、２０１０年１１月１２日に出願された米国仮出願番号６１／４５６７７４の利益を主張し、当該出願の内容は引用することによりここに組み込まれているものとする。

本発明は、データマイニング及び情報検索に関する。より詳細には、データマイニング及び情報検索に用いられるキーワードの意味解釈に関する。

従来のテキストベースのアプリケーションからウェブやソーシャルメディアまで幅広い範囲にわたる多様な分野で、語の袋（ＢＯＷ:ｂａｇｏｆｗｏｒｄｓ：単語の集合）モデルは、非常に有効であることが分かっている。語の袋を用いた情報検索システムには、ブールモデル、確率モデル、ファジーモデルなど、多くのモデルがあるが、ワードベースのベクトルモデルが、文献では最もよく用いられている。ワードベースのベクトルモデルにおいては、ｕ個の異なるワードを有する辞書Ｕの場合、ドキュメントは、ｕ次元のベクトル、

として表され、ここで、ベクトル

中、ドキュメント中のワードに該当する位置のみが、＞０と設定され、他は全て０に設定される、その結果、高次元空間においては極端に疎らなベクトルの集まりとなる。

ＢＯＷベースのベクトルモデルは最も人気のあるスキームであるが、ベクトルが疎らであることや、ワード間の意味の関連性を欠くなどの限界がある。これらの限界を克服する１つの方法は、ドキュメントのキーワードをコーパス内で分析して、コーパス内で優位な潜在的概念を抽出し、得られた潜在的概念空間にドキュメントをモデル化することである。これらの技術は、テキストベースのアプリケーションドメインにおいては、素晴らしい結果を出すが、得られた潜在的概念は、人間が整理した知識とは異なるという限界があり、人間の知識では解釈できない。

この問題の解決法としては、人間によって作成された既存の知識データベース、すなわち、ウィキペディア（Ｗｉｋｉｐｅｄｉａ）、ワードネット（ＷｏｒｄＮｅｔ）、オープンディレクトリプロジェクト（ＯｐｅｎＤｉｒｅｃｔｏｒｙＰｒｏｊｅｃｔ）から得た背景知識で個々のドキュメントを充実させるなどが考えられる。例えば、ウィキペディアは、ウェブ上で最大の無料百科事典の１つで、英語版では４００万以上の項目を含んでいる。ウィキペディアの各項目は、ある概念（トピック）について記載しており、各概念は、少なくとも１つのカテゴリに属する。ウィキペディアは、ある概念を別の概念にリダイレクトするページのリダイレクトを用いる。他方、概念が多義の場合、ウィキペディアは、曖昧性解消のページに、多義語の概念のあり得る意味を表示する。

ウィキペディアは、その包括性と専門的知識によって、クラスタリング、分類、ワードの曖昧性解消、ユーザプロファイル作成、リンク解析、トピック検出など、多様なアプリケーションに適用され、ウィキペディアの概念に基づいて、元のドキュメントを再解釈する（充実させる）意味解釈部として用いられている。図５に示すように、このような意味再解釈５００は、元のドキュメントをキーワード空間５１０から概念空間５２０にマッピングすることに等しい、すなわち、マッピングすることに該当する。一般的に、元の辞書と概念の間のマッピングは、（ａ）概念をキーワードに一致させることと、（ｂ）キーワードをこれらの一致した概念で置き換えること、によって行われる。文献においては、このプロセスは、通常、元のキーワード行列とキーワード・概念行列との行列乗算として定義される（図５）。このようなウィキペディアベースの意味再解釈は、ウィキペディアの概念空間にマッピングされたキーワードを意味的に知らせることを確実にする可能性があり、テキストのカテゴリ化やクラスタリングを含む様々なタスクに関する有効性を著しく改善する。

ウィキペディアのようなソースを意味解釈部として活用することにおける主な障害は、効率性に関する懸念から生じている。ウィキペディアの項目（４００万以上の概念）の圧倒的な大きさを考えると、ウィキペディアの全てのあり得る概念に基づいて元のドキュメントを再解釈することは、膨大な費用がかかり得る。従って、このような意味の再解釈に用いられる技術は速いことが不可欠である。

より重要なことには、例えば、ウィキペディアの全てのあり得る概念で元のドキュメントを充実させると、充実したドキュメントは、とても高い次元に対応する拡張された概念空間に表されるので、アプリケーションレベルで追加のオーバーヘッドを課すことになる。たいていのアプリケーションでは、全てのあり得るウィキペディア概念が、所与のドキュメントに対して等しく重要なわけではないので、その概念全てでドキュメントを表す必要はない。実際に、重要でない概念はノイズになりがちである。よって、ウィキペディア内で、所与の元のドキュメントに一致する最適のｋ個の概念を効率的に見つけ、そのようなｋ個の概念に基づいて、そのドキュメントを意味的に再解釈する必要がある。

キーワードの集まりを表すキーワード行列を考えると、所与のキーワードクエリに一致する最適のｋ個の結果を効率的に識別することは、簡単なことではない。第一に、キーワード行列の大きさは巨大である。第二に、キーワード行列が疎らであることによって、最もよく知られたｔｏｐ−ｋ処理手法を課題に適用しなければならないという制限を受ける。よって、目的は、所与のドキュメントクエリに最も関連のある近似的な上位ｋ個のキーワードを計算する効率的な機構を開発することである。詳細には、ユーザ（アプリケーション）が提供する許容可能な精度で、見えないオブジェクトのスコアを有効に推定でき、この予測スコアに基づいて、近似的な上位ｋ個の結果を計算する、ＳｐａｒｓｅＴｏｐｋアルゴリズムを提示する。

一実施形態に従って、キーワードの意味解釈の方法を提供する。その方法は、意味解釈のための１つまたは複数のキーワードを取得するステップと、知識データベース内の、その１つまたは複数のキーワードに関する上位ｋ個の概念を計算するステップと、その上位ｋ個の概念を用いて、その１つまたは複数のキーワードを概念空間にマッピングするステップと、を含む。

別の実施形態に従って、表示されたコンテンツの画像を自動的に発見するシステムを提供する。そのシステムは、トピック検出モジュール、キーワード抽出モジュール、画像発見モジュール、および、制御装置を含む。トピック検出モジュールは、表示されているコンテンツのトピックを検出するように構成されている。キーワード抽出モジュールは、表示されているコンテンツのトピックからクエリ語を抽出するように構成されている。画像発見モジュールは、クエリ語に基づいて画像を発見するように構成されている。制御装置は、トピック検出モジュール、キーワード抽出モジュール、および画像発見モジュールを制御するように構成されている。

本原理の上記態様、特徴、長所、および、他の態様、特徴、長所は、例示的な実施形態に関する下記の詳細な記載を、添付の図面と関連付けて読み進むことで明らかとなろう。

下記の例示的な図によって本原理をよりよく理解されよう。
一実施形態による映像コンテンツおよび音声コンテンツの配信の概略を示す系統図である。一実施形態による典型的なセットトップボックス受信機の詳細を示す系統図である。一実施形態によるセットトップボックス受信機で行われるプロセスを示す図である。一実施形態による意味解釈のプロセスを示すフロー図である。一実施形態による、意味解釈部がキーワード空間から概念空間へキーワードをマッピングする方法を示す図である。一実施形態による、順位付け処理スキームに依存する、意味解釈部の一般的なフレームワークである。一実施形態による、近似的な上位ｋ個の近似的概念を計算する疑似コードの例である。キーワード空間から概念空間にキーワードをマッピングするための疑似コードの例である。

本原理は、コンテンツ検索に関し、より詳細には、Ｔｏｐ−ｋ技術を用いた検索に使用するキーワードの意味解釈に関する。

本明細書に明示されていないが、本発明の精神および範囲内で本発明を実現する様々な形態を当業者が考案することは当然である。

本明細書に記載の全ての例および条件を示す文言は、本発明と、本発明者が技術を進めるために提供した概念とを読者が理解することを助けるためのものであり、具体的に記載された例および条件には限定されないと解釈されたい。

さらに、本発明の原理、態様、実施形態に関する本明細書中の記載の全て、および、具体的な例は、その構造的等価物および機能的等価物を包含する。また、このような等価物は、現在知られている等価物と、将来、開発される等価物、すなわち、構造にかかわらず、同じ機能を果たす、任意の開発される要素を含む。

従って、例えば、本明細書に示すブロック図は、本発明を実現する例証的な回路を概念的に表したものであることを、当業者は理解されよう。同様に、フローチャート、フロー図、状態遷移図、疑似コードなどは、実質的にコンピュータ可読媒体に表され、コンピュータまたはプロセッサ（コンピュータ、プロセッサが明示的に示されていてもいなくても）によって実行される様々なプロセスを表すことは、理解されたい。

図に示される様々な要素の機能は、専用ハードウェア、および適切なソフトウェアと共同してソフトウェアを実行することができるハードウェアの使用によって、提供してよい。機能がプロセッサによって提供される場合、単一の専用プロセッサ、単一の共用プロセッサ、または、複数の個々のプロセッサで提供してよく、個々のプロセッサの一部は共用されてよい。さらに、「プロセッサ」または「制御装置」という用語の明示的使用は、ソフトウェアを実行することができるハードウェアのみを指すのではなく、デジタル信号プロセッサ（「ＤＳＰ」）ハードウェア、ソフトウェアを記憶するためのリードオンリメモリ（「ＲＯＭ」）、ランダムアクセスメモリ（「ＲＡＭ」）、不揮発性記憶装置を暗に含むが、それらに限定されない。

他のハードウェア、つまり、従来のハードウェアおよび／またはカスタムメイドのハードウェアも含まれてよい。同様に、図に示されているスイッチは、概念的なものにすぎない。その機能は、プログラム論理演算を通して、専用論理で、プログラム制御と専用論理の対話を通して、または、手動で、実行されてよく、文脈からより詳細に理解できるように、実施者が特定の技術を選択することができる。

本出願の請求項においては、特定の機能を行う手段として表されている要素は全て、例えば、ａ）その機能を行う回路素子の組み合わせ、または、ｂ）ファームウェア、マイクロコードなどの任意の形態のソフトウェアと、そのソフトウェアを実行して機能を提供するための適切な回路構成との組み合わせなど、その機能を行う任意の方法を含むものとする。このような請求項で定義される本発明は、記載した様々な手段が提供する機能を、請求項が要求する方法で、組み合わせ、まとめるということにある。従って、これらの機能を提供することができるいかなる手段も、本明細書に記載のものと等価であるとみなされる。

本明細書において、本発明の「一実施形態」または「実施形態」、およびそれらの変更形態に言及することは、その実施形態に関連して記載された特定の機能、構造、特徴などは、本発明の少なくとも１つの実施形態に含まれることを意味する。従って、本明細書の様々な箇所に書かれた、「一実施形態において」または「実施形態において」というフレーズ、および、任意の他の変更形態は、必ずしも、全て、同一の実施形態を指しているわけではない。

図１を参照すると、ホームユーザまたはエンドユーザにコンテンツを配信するシステム１００の実施形態のブロック図が示されている。コンテンツは、映画スタジオや製作会社などのコンテンツソース１０２から来ている。コンテンツは、２つの形態の少なくとも１つの形式で、供給されてよい。１つは、コンテンツを放送する形態であってよい。放送コンテンツは放送管理者１０４に提供される。放送管理者１０４は、典型的にはＡＢＣ放送（ＡｍｅｒｉｃａｎＢｒｏａｄｃａｓｔｉｎｇＣｏｍｐａｎｙ）、ＮＢＣ（ＮａｔｉｏｎａｌＢｒｏａｄｃａｓｔｉｎｇＣｏｍｐａｎｙ）、コロンビア放送（ＣＢＳ）などの、全国的な放送サービスである。放送管理者は、コンテンツを集めて、記憶し、配信ネットワーク１（１０６）として示す配信ネットワークを介して、コンテンツの配信をスケジュールしてよい。配信ネットワーク１（１０６）は、全国的なセンターから１つまたは複数の地域センターまたはローカルセンターへの衛星通信を含んでよい。配信ネットワーク１（１０６）は、地上波放送、衛星放送、またはケーブル放送などのローカル配信システムを用いて、ローカルのコンテンツ配信を含んでよい。ローカルに配信されたコンテンツは、ユーザの家庭にある受信装置１０８に提供され、次に、ユーザはそのコンテンツを検索する。受信装置１０８は、多くの形態をとってよく、セットトップボックス／デジタルビデオレコーダ（ＤＶＲ）、ゲートウェイ、モデムなどとして実現してよいことを理解されたい。また、受信装置１０８は、ホームネットワーク内でクライアント装置またはピアデバイスとして構成された追加の装置を含むホームネットワークシステムのエントリポイントまたはゲートウェイの機能を果たしてもよい。

コンテンツの第２の形態は、スペシャルコンテンツと呼ばれる。スペシャルコンテンツは、映画、テレビゲームまたは他の映像要素などの、プレミアム・ビュー、ペイ・パー・ビュー、または、放送管理者に提供されない他のコンテンツとして配信されるコンテンツを含んでよい。多くの場合、スペシャルコンテンツは、ユーザのリクエストによって配信されるコンテンツであってよい。スペシャルコンテンツは、コンテンツマネージャ１１０に配信されてよい。コンテンツマネージャ１１０は、例えば、コンテンツプロバイダ、放送サービス、または、配信ネットワークサービスと提携している、インターネットウェブサイトなどのサービスプロバイダであってよい。コンテンツマネージャ１１０は、インターネットのコンテンツを配信システムに組み込んでもよい。コンテンツマネージャ１１０は、別個の配信ネットワーク、すなわち、配信ネットワーク２（１１２）を介して、コンテンツをユーザの受信装置１０８に配信してよい。配信ネットワーク２（１１２）は、高速ブロードバンドインターネット型の通信システムを含んでよい。放送管理者１０４からのコンテンツも、配信ネットワーク２（１１２）の全てまたは一部を用いて配信してもよく、コンテンツマネージャ１１０からのコンテンツも、配信ネットワーク１（１０６）の全てまたは一部を用いて配信してよいことに注目することは重要である。さらに、ユーザは、コンテンツマネージャ１１０に必ずしもコンテンツを管理させずに、配信ネットワーク２（１１２）を介してインターネットから直接コンテンツを得てもよい。

別個に配信されたコンテンツを利用するための適合方法が幾つか考えられる。可能な方法の１つは、放送コンテンツを拡張させるものとして、スペシャルコンテンツを提供し、代替の表示を行ったり、購入や販売促進の選択肢を提供したり、拡張材料などを提供することである。別の実施形態においては、スペシャルコンテンツが、放送コンテンツとして提供された番組内容に完全に置き換わってよい。最後に、スペシャルコンテンツは、放送コンテンツから完全に切り離し、単に、ユーザが選択して利用可能な代替媒体としもよい。例えば、スペシャルコンテンツは、放送コンテンツとしてはまだ視聴できない映画のライブラリであってよい。

受信装置１０８は、配信ネットワーク１および配信ネットワーク２の片方または両方から、異なった種類のコンテンツを受信してよい。受信装置１０８は、ユーザ選択やユーザ命令に基づいて、コンテンツを処理し、コンテンツの分離を行う。受信装置１０８は、音声コンテンツおよび映像コンテンツを記録、再生するための、ハードドライブまたは光ディスクドライブなどの記憶装置も含んでよい。受信装置１０８の操作と記憶されたコンテンツの再生に関する機能は、図２を参照しながら、さらに詳細に後述する。処理されたコンテンツは、主表示装置１１４に供給される。主表示装置１１４は、従来の２−Ｄディスプレイであっても、進化した３−Ｄディスプレイであってもよい。

受信装置１０８は、第２の画面制御装置などの第２の画面、例えば、タッチスクリーン制御装置１１６にインタフェースをとってよい。第２の画面制御装置１１６は、受信装置１０８および／または表示装置１１４をユーザが制御できるように適合されてよい。第２の画面装置１１６は、映像コンテンツを表示できるようにしてもよい。映像コンテンツは、ユーザインタフェース入力などのグラフィックス入力でもよく、表示装置１１４に配信される映像コンテンツの一部でもよい。第２の画面制御装置１１６は、赤外線（ＩＲ）通信または無線周波数（ＲＦ）通信などの任意の周知の信号伝送システムを用いて、受信装置１０８にインタフェースを取ってよく、赤外線通信協会（ＩＲＤＡ）規格、Ｗｉ−Ｆｉ、ブルートゥースなどの標準プロトコル、または任意の他の独自のプロトコルを含んでよい。タッチスクリーン制御装置１１６の操作については、下記にさらに詳しく述べる。

図１の例においては、システム１００は、バックエンドサーバ１１８と利用データベース１２０も含む。バックエンドサーバ１１８は、ユーザの使用習慣を分析して、その使用習慣に基づいて推薦を行うパーソナライズエンジンを含む。利用データベース１２０は、ユーザの使用習慣を記憶する場所である。一部の例では、利用データベース１２０は、バックエンドサーバ１１８の一部であってよい。本例においては、バックエンドサーバ１１８（及び利用データベース１２０）は、システム１００に接続され、配信ネットワーク２（１１２）を介してアクセスされる。

図２を参照すると、受信装置２００の実施形態のブロック図が示されている。受信装置２００は、図１に示す受信装置と同様に動作してよく、ゲートウェイ装置、モデム、セットトップボックス、または他の類似の通信装置の一部として含まれてよい。図示の受信装置２００は、音声装置または表示装置を含む他のシステムに組み込んでもよい。どちらの場合においても、システムが完全に動作するために必要な数個のコンポーネントは、当業者には周知であるため、簡潔さを優先して図示していない。

図２に示す受信装置２００においては、コンテンツは、入力信号受信機２０２によって受信される。入力信号受信機２０２は、地上波、ケーブル、衛星、イーサネット（登録商標）、ファイバー線、および、電話回線のネットワークを含む可能な数種類のネットワークの１つを介して供給される信号を、受信し、復調し、復号するために用いられる幾つかの既知の受信機回路の１つであってよい。制御インタフェース２２２を介して供給されたユーザ入力に基づいて、入力信号受信機２０２が、望ましい入力信号を選択し、回収してよい。制御インタフェース２２２は、タッチスクリーン装置のインタフェースを含んでよい。タッチパネルインタフェース２２２は、携帯電話、タブレット、マウス、ハイエンドリモコンなどへのインタフェースに適合されてもよい。

復号された出力信号は、入力ストリームプロセッサ２０４に供給される。入力ストリームプロセッサ２０４は、最終的な信号選択と処理を行い、コンテンツストリームのために声コンテンツから映像コンテンツを分離することを含む。音声コンテンツは、圧縮デジタル信号などの受信フォーマットからアナログ波形信号に変換するために、音声プロセッサ２０６に供給される。アナログ波形信号は、音声インタフェース２０８に供給され、さらに、表示装置または音声増幅器に供給される。あるいは、音声インタフェース２０８は、高精細度マルチメディアインタフェース（ＨＤＭＩ）ケーブルまたはソニー／フィリップスデジタルインターコネクトフォーマット（ＳＰＤＩＦ）などの他の音声インタフェースを用いて、デジタル信号を音声出力装置または表示装置に供給してよい。音声インタフェースは、さらに一組のスピーカを駆動する増幅器を含んでもよい。音声プロセッサ２０６は、音声信号を記憶するために必要な変換も行ってよい。

入力ストリームプロセッサ２０４からの映像出力は、映像プロセッサ２１０に供給される。映像信号は、数種のフォーマットのうちの１つであってよい。映像プロセッサ２１０は、必要があれば、入力信号フォーマットに基づいて、映像コンテンツを変換する。映像プロセッサ２１０は、映像信号を記憶するために必要な変換も行う。
記憶装置２１２は、入力で受信した音声コンテンツ、映像コンテンツを記憶する。記憶装置２１２によって、制御装置２１４の制御の下で、ユーザインタフェース２１６および／または制御インタフェース２２２から受信した命令、例えば、早送り（ＦＦ）や巻き戻し（Ｒｅｗ）などの操作指示に基づいて、記憶したコンテンツを後に検索したり、再生したりすることが可能になる。記憶装置２１２は、ハードディスクドライブや、スタティックＲＡＭ（ＳＲＡＭ）またはダイナミックＲＡＭ（ＤＲＡＭ）などの１つまたは複数の大容量の集積電子メモリであってよく、コンパクトディスク（ＣＤ）ドライブまたはデジタル多用途ディスク（ＤＶＤ）ドライブなどの交換可能な光ディスク記憶装置であってよい。

変換された映像信号は、入力によるものでも、記憶装置２１２からのものでも、映像プロセッサ２１０からディスプレイインタフェース２１８に供給される。ディスプレイインタフェース２１８は、さらに、上述の表示装置に表示信号を供給する。ディスプレイインタフェース２１８は、ＲＧＢ（赤、緑、青）インタフェース等のアナログ信号インタフェースであってもよく、ＨＤＭＩ等のデジタルインタフェースであってもよい。ディスプレイインタフェース２１８は、より詳しく後述するように、３次元グリッドで検索結果を示す様々な画面を生成することを理解されたい。

制御装置２１４は、入力ストリームプロセッサ２０２、音声プロセッサ２０６、映像プロセッサ２１０、記憶装置２１２、およびユーザインタフェース２１６を含む、受信装置２００のコンポーネントの幾つかにバスを介して相互接続される。制御装置２１４は、入力ストリーム信号を、記憶装置に記憶するための、または、表示するための信号に変換する変換プロセスを管理する。制御装置２１４は、記憶されたコンテンツの検索および再生も管理する。さらに、後述するように、制御装置２１４は、コンテンツを検索し、記憶、または、上述の配信ネットワークを介して配信するために、そのコンテンツを表すグリッド表示を、作成、調整する。

制御装置２１４は、制御装置２１４に関する情報および命令コードを記憶するために、さらに、制御メモリ２２０（例えば、ＲＡＭ、ＳＲＡＭ、ＤＲＡＭ、ＲＯＭ、プログラマブルＲＯＭ（ＰＲＯＭ）、フラッシュメモリ、電気的プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ）などの揮発性または不揮発性メモリ）に接続される。制御メモリ２２０は、制御装置２１４に関する指示を記憶してよい。制御メモリは、コンテンツを含むグラフィック要素などの要素のデータベースも記憶してよい。データベースは、グラフィック要素のパターンとして記憶されてよい。あるいは、メモリは、識別されたまたはグループ化されたメモリ位置にグラフィック要素を記憶し、アクセステーブルまたは位置テーブルを用いてグラフィック要素に関する情報の様々な部分のメモリ位置を識別してよい。グラフィック要素の記憶装置に関しては、さらに詳しく後述する。また、制御メモリ２２０の実装は、単一のメモリ装置、あるいは、共有のまたは共通のメモリを形成するように通信可能に接続または互いに連結された複数のメモリ回路など、幾つかの可能な実施形態を含んでよい。さらに、メモリは、バス通信回路の部分などの他の回路と共に、より大きい回路に含まれてよい。

本開示のユーザインタフェースプロセスは、早送り、巻き戻しなどの機能を表すのに使用可能な入力装置を採用する。これを可能にするために、タッチパネル装置などの第２の画面制御装置が、受信装置２００のユーザインタフェース２１６および／または制御インタフェース２２２を介して、インタフェースを取られてよい。

図３は、図１および図２に関して上述した受信装置１０６、２００などのセットトップボックス（ＳＴＢ）３１０において意味解釈の実行に関するプロセス３００の可能な１つの実施形態を示す。ここで、ＳＴＢ３１０は、コンテンツソース１０２からコンテンツ３０５を受信する。次に、コンテンツ３０５は、１）キーワード収集３２０、２）概念収集３４０、３）概念処理３６０の３つの部分で処理される。キーワード収集３２０においては、クローズドキャプション抽出部３２５を用いて、コンテンツ３０５の一部として供給されたクローズドキャプションデータを受信、取得、抽出する。次に、文分割部３３０を用いて、クローズドキャプションデータ内の文の構造を識別して、文の主語または目的語、及び、フレーズ全体など、候補となるフレーズやキーワードを探す。クローズドキャプション中の多くの文に関して、主語の入ったフレーズは、とても重要である。そのため、文頭を見つけるのに係り受け解析部を用いることができ、文頭が候補フレーズでもあれば、文頭により高いプライオリティを与えることができる。次に、候補キーワードを用いて、概念収集３４０において、関連のある概念を見つける。ここは、意味解釈部３５０を用いて、候補キーワードを概念にマッピングする所でもある。次に、概念蓄積部３４０によって、概念をグループ化することができる。結果として得られる蓄積された概念を、次に処理３６０する。この処理は、順位付け３６５、やユーザプロファイル３７０の作成などの他の機能を含むことができる。

例えば、ユーザのＴＶ視聴プロファイルの作成にセグメントのクローズドキャプションを用いることができ、その結果、コンテンツをユーザに合わせてカスタマイズすることができ、ユーザに提供する推薦の質を向上させることができる。広告を一致させることができる、または、同じような関心を持つ友人に勧めることができるなど、正確かつ有益なユーザプロファイルを作成する他の多くのアプリケーションがある。ユーザのテレビ視聴習慣からプロファイルを作成する現在のシステムが直面する主な課題は、正確なデータが疎らで不足していることである。この問題を軽減するために、視聴されたテレビ番組のセグメントに対応するクローズキャプションのセグメントを、視聴時間や番組のＥＰＧ情報などの他のメタデータと共に、取得することができる。クローズドキャプションを取得することによって、ユーザが興味を持つものを理解し、コンテンツベースの推薦をするための基準を提供することが可能になる。さらに、取得したクローズドキャプションを、意味解釈部を用いて概念空間にマッピングすると、得られるプロファイルは、より直観的に理解、活用できるものとなる。さらなる長所として、クローズドキャプションのセグメントの全てを記憶しないので、記憶が必要なデータ量が減る。クローズドキャプションのセグメントが表す上位ｋ個の概念のみが記憶される。

別の例において、意味解釈部によってマッピングされた概念を用いて、オンライン（例えば、ライブ／放送）およびオフライン（例えば、デジタルビデオに記録）の両方で、クローズドキャプションデータに基づいて映像を分割することができる。各セグメントは、１つのコヒーレントな単位（例えば、イブニングニュースのタイガー・ウッズに関するセグメント）である概念セットを含まなければならない。映像が分割されると、対応するクローズドキャプションのセグメントは、概念空間と、得られた上位ｋ個の概念の注釈が付いた映像とにマッピングすることができる。このアプリケーションによって、これらのミニクリップを友人と共有したり、ＤＶＲに保存したり、興味があるとして単にタグをつけたりが可能になる。これは、ユーザが映像全体に興味があるわけではない場合、または、映像全体だと大きすぎて共有できない場合、著作権の問題がある場合などに、有用である。現代のＤＶＲは、ライブポーズ／巻き戻し機能を提供するために既に、視聴中の番組を記録する。これを、さらに、分割化と概念マッピングアルゴリズムをトリガするように拡張することができる。その結果、得られるセグメントにタグを付けることができる、および／または保存することができ、および／または検出したセグメントの前後短い時間間隔（＋／− ｔ秒）で共有することができる。

別の例においては、この技術を用いて検索を向上させることができる。現在、ユーザは、興味のある番組を見つけるために完全に一致するキーワードを用いて情報を検索する必要がある。この方法は、ユーザが自分の探しているものがはっきり分かっている場合は役立つが、完全に一致するキーワードによる検索は、ユーザが興味を持つかもしれない、新しい、心躍るようなコンテンツの発見を妨げる。意味解釈部を用いて、この問題を解決することができる。人間の知識の全てを表すという実用的な目的のためにあるとみなされているウィキペディアから概念空間を引き出すことができる。従って、この空間内で表されるドキュメントは同じ概念を用いてクエリを行うことができる。例えば、ユーザは、「ねずみ講（ＰｏｎｚｉＳｃｈｅｍｅ）」または「サプライチェーン（ＳｕｐｐｌｙＣｈａｉｎ）」などの高度な知識を用いて、その概念に最も関連のある媒体を発見することができるはずである。対応する媒体に「ねずみ講」または「サプライチェーン」に完全に一致するキーワードがなくても、この発見は可能である。さらに、常設のフィルタを設定することによって、あらゆる受信する媒体を概念空間にマッピングすることができ、その概念が常設のフィルタに一致すれば、システムが、その媒体にさらなるアクションのためのタグを付けることができる。ユーザのフィルタルールに一致する番組が放送されると、ユーザに通知され、ユーザはその番組を保存、関連性を閲覧、共有または視聴する。

図３の例においては、ＳＴＢ３１０でそのプロセスが行われているが、同じプロセスを、コンテンツソース１０２またはサービスプロバイダ１０４、１１０で行うこともできることは理解されたい。一部の例では、そのプロセスは、必要に応じて、異なる装置または場所に分割することもできる。実際、多くの例において、意味解釈はリモートサーバで行われ、得られた概念は、さらなる処理のため、ＳＴＢ３１０、コンテンツソース１０２、またはサービスプロバイダ１０４、１１０に戻される。

コンテンツソース１０２で処理が行われる場合は、コンテンツが作成されると、該当するクローズドキャプションまたはサブタイトルデータが、概念空間にマッピングされる。次に、推定された概念が、別個のストリーム（例えば、ＭＰＥＧ−７規格を用いて）としてメディア多重部に埋め込まれる。長所は、メディアファイルごとに、複数回ではなく、一度処理を行えばよいことである。短所は、埋め込み、さらには、メタデータの処理および消費のために規格の開発が必要なことである。

サービスプロバイダ１０４または１１０の場合は、サービスプロバイダのネットワークまたはクラウドを介してコンテンツが送信されるとき、処理が行われる。例えば、サービスプロバイダは、意味解釈部を用いて全ての受信チャネルを処理し、適切な方法（ＭＰＥＧ−７、独自の、または、ウェブベースの技術を用いて）で、メタデータを埋め込むことができる。サービスプロバイダは、ＳＴＢがこのメタデータを解釈でき、さらに処理できれば、標準スキームを用いる必要がない。この手法の大きな長所は、精巧な規格を開発する必要がなく、また、これらのスキームを用いて、異なるサービスプロバイダを区別することができることである。

図４を参照すると、フロー図４００は、上位ｋ個の概念を用いた意味解釈の実行に関するプロセスの一実施形態を示している。最初に、１つまたは複数のキーワードを意味解釈（ステップ４１０）のために取得する。次に、その１つまたは複数のキーワードを用いて、知識データベース内の上位ｋ個の概念を計算する（ステップ４２０）。次に、上位ｋ個の概念を用いてキーワードを概念空間にマッピングすることができる（ステップ４３０）。

１つまたは複数のキーワードは、任意の数の方法で取得することができる。キーワードは、図３を参照して上述したクローズドキャプションデータに関するキーワード抽出を用いて取得してよい。他の実施形態においては、キーワードは、概要、番組の説明、要約、粗筋などの各コンテンツに関するデータから抽出することができる。さらに別の実施形態においては、ユーザは、検索語を供給することができる。下記のプロセスの記載においては、キーワードは、ドキュメントの一部として供給される。

上位ｋ個の概念を計算するステップ（ステップ４２０）および概念空間へのマッピングのステップ（ステップ４３０）は、ＳｐａｒｓｅＴｏｐｋアルゴリズムの記載と共に、図５から図８を参照して後述する。

問題の定義
このセクションでは、問題を正式に定義し、アルゴリズムの開発、記述に使用する表記法を紹介する。

可能な全てのウィキペディアの概念を用いて意味を再解釈
Ｕをｕ個の異なるワードを有する辞書とする。ウィキペディアの概念は、例えばｕ×ｍのｃ概念行列Ｃ（５３０）の形で表される。ここで、ｍは、ウィキペディアの項目に該当する概念の数で、ｕは、辞書中の異なるキーワードの数である。Ｃ_i,rは、ｒ番目の概念ｃ_r中のｉ番目のキーワードｔ_iの重みを表す。Ｃ_-,r ＝［ｗ_1,r，ｗ_2,r ．… ｗ_u,r］^Tをｒ番目の概念ベクトルとする。一般性をなくさないように、各概念ベクトルＣ_-,rは単位長さに正規化すると仮定する。

辞書Ｕの場合、ドキュメントｄは、ｌ次元のベクトル

＝［ｗ₁，ｗ₂．… ｗ_u,］（５１５）として表される。

キーワード・概念行列をＣ（５３０）、ドキュメントベクトルを

とすると、あらゆる可能なウィキペディア概念で意味を再解釈した（充実した）ドキュメントベクトル

’ ＝［ｗ’₁，ｗ’₂．… ｗ’_m］（５２５）は、

＝

Ｃと定義される。

行列乗算の定義によると、ベクトル

’中の概念ｃ_rの寄与は、次のように計算される。

上位ｋ個のウィキペディア概念を用いた意味の再解釈
導入部で述べたように、

’全ての可能なウィキペディア概念を計算すると、膨大な費用がかかる可能性がある。従って、目標は、そのドキュメントに関連するウィキペディア内の最適なｋ個の概念でドキュメントを再解釈することである。

再解釈されたドキュメント

’ ＝［ｗ’₁，ｗ’₂… ｗ’_m］の場合、Ｓ_kをｋ個の概念のセットとすると、下記のようになる。

言い換えれば、Ｓ_kは、

’への寄与が他の概念より大きいまたは他の概念と同等のｋ個の概念を含む。次に、ウィキペディア内で

’に一致する上位ｋ個の概念に基づいた

の意味の再解釈は、

’ ＝［ｗ’₁，ｗ’₂… ｗ’_m］として定義され、式中、

の場合、

それ以外の場合は、ｗ’ｒ＝０となる。

問題の定義：上位ｋ個のウィキペディアの近似的概念を用いた意味再解釈
所与のドキュメントに関連する最適のｋ個の概念を正確に計算するためには、キーワード・概念行列の全てをスキャンすることが必要となることが多く、非常に費用がかかる。従って、さらに効率を向上させるために、Ｓ_kを次のように緩和する。すなわち、ドキュメント

において、Ｓ_k,αを、Ｓ_k,α中の少なくともαｋ個の答えがＳ_kに属するようなｋ個の概念のセットとし、ここで、

とする。そうすると、目的は、次のように定義される。

問題１（Ｓ_k,αを用いて意味再解釈）キーワード・概念行列をＣ、ドキュメントベクトルを

、対応するｋ個の近似的な最適の概念をＳ_k,αとすると、ウィキペディア内で

に一致する上位ｋ個の近似的概念に基づいた

の意味再解釈は、次のように定義される。

の場合、

それ以外の場合は、ｗ’_r ＝０となる。

言い換えると、元のドキュメントｄは、ワード空間５１０から、ウィキペディア内でドキュメントｄに最も一致するｋ個の近似的概念からなる概念空間５２０にほとんどマッピングされる。従って、この問題に関する主な課題は、このようなｋ個の近似的概念Ｓ_k,αを効率的に識別する方法である。この問題に対処するために、所与のドキュメントに関して効率的にＳ_k,αを計算する新規の順位付け処理アルゴリズムを提示する。

Ｓ_kへの単純な解決法
このセクションにおいて、所与のドキュメントの上位ｋ個の概念Ｓ_kを正確に計算するための単純なスキーム（すなわち、非実用的な解決法）を最初に記載する。
全てのデータをスキャン
この問題の明らかな解決法は、ｕ×ｍ個のキーワード・概念行列Ｃ５３０の全てをスキャンし、ドキュメントベクトル

に各概念ベクトルＣ_-rを掛け、得られたスコア

を降順にソートし、ｋ個の最適な解のみを選択する方法である。この問題のより有望な解決法は、ＩＲシステムでよく使われる逆索引を活用することである。そうすると、キーワード・概念行列内の該当する値が０より大きいエントリのみをスキャンすることができる。どちらのスキームを用いても、最適のｋ個の結果に属さないであろう見込みのないデータの処理に資源のほとんどを使うので、非常に費用がかかる。

閾値ベースの順位付け処理スキーム
順位付けまたはｔｏｐ−ｋ処理に関しては多くの提案がされてきた。上述のように、閾値アルゴリズム（ＴＡ）、Ｆａｇｉｎのアルゴリズム（ＦＡ）、非反復アルゴリズム（ＮＲＡ）などの閾値ベースのアルゴリズムが、最もよく知られている方法である。これらのアルゴリズムは、所与のソートリストにおいて、各オブジェクトが各リスト内に１つだけスコアを有し、各リスト内の個々のオブジェクトのスコアを合算する集合関数（ａｇｇｒｅｇａｔｉｏｎｆｕｎｃｔｉｏｎ）が、最低（ｍｉｎ）、最大（ｍａｘ）、重みの合計（（ｗｅｉｇｈｔ）ｓｕｍ）および積（ｐｒｏｄｕｃｔ）のように単調であると、仮定する。これらの単調なスコア関数によって、サブスコア内で他の候補に優越する候補は、当該他の候補よりも合算したスコアが良くなることが確実になり、ｔｏｐ−ｋ計算の途中で、早めに計算を停止して、全てのリストをスキャンすることを避けることができる。一般的に、ＴＡ（およびＦＡ）アルゴリズムは、ランダムアクセスとソートアクセスという２つのアクセス方法を必要とする。しかしながら、ドキュメント用語行列などの高次元データへのランダムアクセスを支援すると、膨大な費用がかかることになる。従って、ＮＲＡは、ソートアクセス方法しか必要とせず、概念行列Ｃなどの高次元データに適しているので、基本の枠組みとしてＮＲＡを採用する。

概念行列に関するソートされた逆リスト
ｕ×ｍ個のキーワード・概念行列Ｃ５３０へのソートアクセスを支援するために、ｕ個のリストを含む逆索引６１０を作成する（図６）。各キーワードｔ_iに関して、該当するリストＬ_iは、＜ｃ_r，Ｃ_i,r＞のセットを含む。ここで、Ｃ_i,rは、ウィキペディアの概念ｃ_r中のキーワードｔ_iの重みである。図６に示すように、各逆リストは、重みが０を超える概念のみを保持している。この逆リストは、ソートアクセスを支持するように、重みの降順に作成されている。

Ｓ_kを計算するＮＲＡベースのスキーム
上記ｗ’_rの定義から、スコア関数は重みの合計として定義されるので、ｕ個の独立したリスト内では単調であることが明らかである。ドキュメント

＝［ｗ₁，ｗ₂．… ｗ_u］の場合、ＮＲＡは、ラウンドロビン方式で入力リストにあたり、閾値ベクトル

＝［Ｔ₁，Ｔ₂，…，Ｔ_u］を更新する。ここで、Ｔ_iは、リストＬ_iで読み取られた最後の重みである。言い換えれば、閾値ベクトルは、入力リストの見えないインスタンスの重みの上限からなる。リストＬ_i内のインスタンス＜ｃ_r，Ｃ_i,r＞を読み取った後、ｔｈｅｐｏｓｓｉｂｌｅｗｏｒｓｔｓｃｏｒｅｏｆｔｈｅｒ−ｔｈｐｏｓｉｔｉｏｎｉｎ意味を再解釈したドキュメントベクトル

＝［ｗ’₁，ｗ’₂，… ，ｗ’_r… ，ｗ’_m］のｒ番目の位置が取り得るワーストスコアは次のように計算される。

式中、ＫＮｒは、該当する重みがアルゴリズムによって以前読まれたことのある概念ベクトルＣ_-,r，中の位置のセットである。他方、ｒ番目の位置が取り得るベストスコアは次のように計算される。

まとめると、取り得るワーストスコアは、概念ベクトルの見えないエントリが０であるという仮定に基づいて計算され、取り得るベストスコアは、概念ベクトルの見えないエントリが全て各リストの最後のスキャン位置の後に出会うものであると仮定されている。ＮＲＡは、現在の上位ｋ個の候補のうち最低のスコアに値するカットオフスコアｍｉｎ_k，を保持する。カットオフスコアｍｉｎ_kが、現在の上位ｋ個の候補に属さない概念の最高のベストスコアより大きく（または等しく）なると、ＮＲＡは計算を停止する。この停止条件によって、正確な上位ｋ個の結果（すなわち、ここでは、Ｓ_k）が必ず生成されるが、各概念ベクトルの未知の値は全て、各リストの現在のスキャン位置の後に読み取られると仮定すると、このような停止条件はあまりにも悲観的である。しかしながら、各概念ベクトルの未知の値がかなり高い確率で０になる疎らなキーワード・概念行列に関しては特に、これは当てはまらない。よって、ＮＲＡは、結局全てのリストをスキャンすることになる可能性があり、膨大な費用がかかる。

ウィキペディアの概念を用いたドキュメントの効率的な解釈
このセクションにおいては、ウィキペディアを用いた効率的な意味解釈部のためのアルゴリズムについて述べる。提案のアルゴリズムは２段階からなる。すなわち、（１）所与のドキュメントの上位ｋ個の近似的概念Ｓ_k、αを計算する段階と、（２）Ｓ_k、αを用いて元のドキュメントを概念空間にマッピングする段階である。

段階１：上位ｋ個の近似的概念Ｓ_k、αを識別
上述のように、閾値ベースのアルゴリズムは、所与のソートされたリストにおいて、各オブジェクトは、各リスト内に１つだけスコアを有するという仮定に基づいている。ＮＲＡアルゴリズムにおける見えないオブジェクトの取り得るスコアは、この仮定に基づいて計算される。しかしながら、この仮定は、エントリのほとんどが０である疎らなキーワード・概念行列には適用できない。従って、このサブセクションにおいては、最初に、疎らなキーワード・概念行列を用いて見えないオブジェクトのスコアを推定する方法を記載し、次に、推定したスコアを活用して、所与のドキュメントの上位ｋ個の近似的概念を取得する方法を示す。

入力リストの数の限界を推定
各オブジェクトは各入力リスト内に１つだけスコアを有するという仮定は、疎らなキーワード・概念行列に関しては有効でないので、このサブセクションにおいては、目的は、各オブジェクトが計算中に発見されると予測される入力リストの数の限界を正確に推測することである。ヒストグラムは、通常、データ分布（すなわち、確率密度関数）を近似するために用いられる。多くの既存の近似的ｔｏｐ−ｋ処理アルゴリズムは、入力リストのヒストグラムを保持し、ヒストグラムを用いることで、未知のオブジェクトのスコアを推定する。一般的に、近似法は、完全一致のスキームよりも効率がよい。しかし、キーワード・概念行列の膨大な数のリストがあることを考えると、このようなヒストグラムを保持し、取り得る合計スコアを計算するためにランタイム中にそのヒストグラムを活用することは、実行可能な解決法ではない。従って、さらに効率よくするためには、各逆リストのデータ分布を、逆リストが所与の概念を含む場合、または、含まない場合という、二項分布によって単純化する。このように単純化されたデータ分布でも、概念行列が極度に疎らなので、上位ｋ個の結果の質が大きく減じられることはない。

キーワードをｔ_i、キーワード・概念行列をＣとすると、該当するソートリストＬ_iの長さは、次のように定義される。

ｕ×ｍ個のキーワード・概念行列をＣとすると、インスタンス＜ｃ_r，Ｃ_i,r＞がＬ_i内にある確率は、次のようになる。

一般に、閾値ベースのアルゴリズムは、各ソートリストを順次スキャンする。アルゴリズムは、ソートリストＬ_iから最初のｆ_iインスタンスを順次スキャンし、インスタンス＜ｃ_r，Ｃ_i,r＞は、スキャン中に見つからなかったと仮定する。次に、インスタンス＜ｃ_r，Ｃ_i,r＞がリストＬ_iのスキャンしていない部分（すなわち、残りの（｜Ｌ_i｜−ｆ_i）インスタンス中に見つかる確率Ｐ＜ｃ_i,r，ｆ_i＞は、次のように計算することができる。

各オブジェクトは各入力リストに１つだけスコアを有する（すなわち、｜Ｌ_i｜＝ｍ）という仮定の下では、Ｐ＜ｃ_i,r，ｆ_i＞は１となることに注意。しかしながら、キーワード・概念行列が極めて疎らである、従って、大抵の場合、Ｐ＜ｃ_i,r，ｆ_i＞は０に近い。

ドキュメントをｄとし、対応するｕ次元のベクトルを

＝［ｗ₁，ｗ₂，… ，ｗ_u］とする。さらに、

において、Ｌをソートリストのセットとすると次のようになる。

言い換えれば、Ｌは、該当するワードが所与のドキュメントｄに現れるソートリストのセットである。Ｌに含まれない他のリストは、元のベクトル

の該当する重みが０に等しいので、意味を再解釈したベクトル

’の計算には寄与しない（図２）。

さらに、ドキュメント内のワードの出現は、互いに独立していると仮定できる。ワードの独立という仮定は、簡単なので、多くのアプリケーションで長く用いられてきた。Ｐ_{found_exact(L,cr,n)}を、今までどのリストでも見られていない概念ｃ_rがその後、Ｌ中の正確にｎ個のリストで発見される確率とすると、その確率は次のように計算される。

式中、

さらに、全く見えない概念ｃ_rが、計算中、Ｌ中、ｎ個以下のリストで発見される確率Ｐ_{found_upto(L,cr,n)}は、次のように計算できる。

Ｐ_{found_upto(L,cr,|L|)}は、常に１であることに注意。

上述のように、目的は、Ｓ_k,α中の少なくともαｋ個の答えが完全一致の上位ｋ個の結果に属するような上位ｋ個の近似的概念Ｓ_k,αを求めることである。アプリケーション（またはユーザ）が提供した容認できる精度をαとし、全く利用できない概念ｃ_rが見つかるであろうリストの数の限界ｂ_rを計算するために、選択された値は、下式を満足する最小値ｂ_rである。

まとめると、ｂ_rは、ｂ_r個の入力リストより小さい見えない概念ｃ_rの確率は容認できる精度αよりも高いという条件を満足する最も小さい値である。

全くまたは部分的に見えないオブジェクトの予測スコアを計算
全く見えないオブジェクトを発見するであろうリストの数を推定すると、全く（または部分的に）見えないオブジェクトの予測スコアを計算することができる。

現在の閾値ベクトルを

＝［Ｔ₁，Ｔ₂，…，Ｔ_u］および元のドキュメントのベクトルを

＝［ｗ₁，ｗ₂，… ，ｗ_u］とすると、Ｗは次のように定義される。

次に、全く見えない概念ｃ_rの予測したスコアは、下記のように制限される。

式中、Ｗ_hはＷ内でｈ番目に大きい値である。

逆索引の各リストは、概念ＩＤよりも重みでソートされ、結果として、ｔｏｐ−ｋ計算中、所与の概念ｃ_rの部分的に利用可能な（見える）概念ベクトルとなる。従って、部分的に見えるオブジェクトの予測スコアも推定する必要がある。ｃ_rを部分的に見える概念とする。さらに、ＫＮ_rをアルゴリズムによって既に重みが見られた概念ベクトルＣ_-,r内の位置のセットとする。そうすると、部分的に見える概念ｃ_rの予測スコアは次のように定義される。

の場合、

それ以外の場合、

ｃ_rが見つかるであろう入力リストの数の限界ｂ_rがＬと同じになるとき、完全に見えるまたは部分的に見える任意の概念ｃ_rの予測スコアが、上述の可能なベストスコアｂ_rに等しくなることに注意。しかしながら、キーワード・概念行列が疎らであると、確実に、予測スコアは可能なベストスコアより常に小さくなる。

アルゴリズム
図７は、所与のドキュメントの上位ｋ個の近似的概念Ｓ_k,αのセットを効率的に計算するために提案されたアルゴリズム用の疑似コードを記載している。最初に、アルゴリズムは、上位ｋ個の近似的概念Ｓ_k,αのセット、カットオフスコアｍｉｎ_k、および候補セットＣ_ndを初期値にする。閾値ベクトルｔｈは、最初は［１，１，・・・１］にセットする。まず、上述のように、任意の完全に見えない概念の予測スコアを計算する（１〜５行目）。

一般的に、閾値アルゴリズムは、ラウンドロビン方式で入力リストにアクセスする。しかしながら、入力リストの長さが異なる場合は、該当するスコアが比較的低いにもかかわらず、短いリストに属しているので早く読まれる、見込みのないオブジェクトを処理するのにリソースを消費するので、このスキームは非効率である。この問題を解決するために、入力リストは、全く利用できない概念の予測スコアを最小化する方法でアクセスされる。直観的に、こうすることによって、アルゴリズムは、より高いカットオフスコアｍｉｎ_kを供給して、早い段階で計算を停止することができる。

元のドキュメントベクトルを

＝［ｗ₁，ｗ₂，… ，ｗ_u］とし、現在の閾値ベクトルを

＝［Ｔ₁，Ｔ₂，…，Ｔ_u］とすると、アルゴリズムが次回に読み取る入力リスト、リストＬ_i（８行目）は、次のようになる。

上の条件を満足するリストによって、任意の利用できない概念の予測スコアを確実に最小にして、早期に停止する条件をアルゴリズムに与える。

リストＬ_i中の新規の見えるインスタンス＜ｃ_r，Ｃ_i,r＞に関して、該当するワーストスコアＷ‘_r,wstを計算し、候補リストを＜ｃ_r，Ｗ‘_r,wst＞で更新する（９〜１１行）。カットオフスコアｍｉｎ_kは、現在の候補セットＣｎｄのワーストスコアのうちｋ番目に高い値と等しくなるように選択される（１２行目）。そして、閾値ベクトルを更新する（１３行目）。

１５行目から２０行目で、高い確率を有する上位ｋ個の結果には含まれないであろう見込みのない概念が候補セットから削除される。現在の候補セット中の各概念Ｃ_pに関して、該当する予測スコアＷ’_p,expが上述のように計算される。現在の候補セット中の各概念は、部分的に見える概念に該当することに注意されたい。部分的に見える概念Ｃ_pの予測スコアＷ_'p.expがカットオフスコアより小さい場合、この概念は、高い確率で最終的な上位ｋ個の結果に入るとは予測されないので、＜ｃ_p，Ｗ’_p,wst＞のペアは、現在の候補セットから削除される（１８行目）。２１行目で、任意の完全に見えない概念の予測スコアを計算する。現在の候補セットがｋ個の要素を含み、完全に見えない概念の予測スコアが、カットオフスコアより小さくなる見込みのときのみ、ｔｏｐ−ｋ計算は終了する（７行目）。

段階２：キーワード空間から概念空間へのドキュメントのマッピング
所与のドキュメントの上位ｋ個の近似的概念を識別すると、次のステップは、元のドキュメントをキーワード空間から概念空間にマッピングすることである。図８は、Ｓ_k,αを用いて、元のドキュメントをキーワード空間から概念空間にマッピングするための疑似コードを記載している。

最初に、意味を再解釈したベクトル

’を［０，０，・・・］と設定する（１行目）。図４のアルゴリズムは、全ての入力リストをスキャンする前に停止しているので、Ｓ_k,α中の概念の概念ベクトルは、部分的に利用可能である。よって、Ｓ_k,α中の各概念に関して、上記のように、部分的に見える概念ベクトルを用いて予測スコアを推定することが必要である（３行目）。そして、意味を再解釈したベクトル

’中の該当するエントリを、推定したスコアで更新する（４行目）。最後に、アルゴリズムは、意味を再解釈したドキュメントベクトル

’に戻る（６行目）。

新しい意味解釈部は、ウィキペディアの概念に基づいて元のドキュメントを効率的に充実させるために記述される。提案した手法によって、所与のドキュメントにとってウィキペディア内の最も重要なｋ個の概念を効率的に識別することができ、これらの概念を活用して、元のドキュメントをキーワード空間から概念空間にマッピングすることにより、元のドキュメントを意味的に充実させることができる。提案した技術は、正確さを大きく減じることなしに、意味の再解釈の効率性を大いに向上させることが、実験結果より分かる。

本原理のこれらの特徴および長所、また他の特徴および長所は、本明細書に記載の教示に基づいて、関連技術分野の当業者には容易に理解されるであろう。本原理の教示は、ハードウェア、ソフトウェア、ファームウェア、専用プロセッサ、またはそれらの組み合わせなどの様々な形態で実践してよいことは理解されよう。

本原理の教示は、ハードウェアおよびソフトウェアの組み合わせとして実践されるのが、より好ましい。さらに、ソフトウェアは、プログラム記憶装置上で具体的に実現されるアプリケーションプログラムとして実践してよい。アプリケーションプログラムは、任意の適切なアーキテクチャを備える機械にアップロードし、その機械によって実行されてよい。機械は、１つまたは複数の中央処理装置（「ＣＰＵ」）、ランダムアクセスメモリ（「ＲＡＭ」）および入出力（「Ｉ／Ｏ」）インタフェースなどのハードウェアを有するコンピュータプラットフォーム上で実践されるのが好ましい。コンピュータプラットフォームは、オペレーティングシステムやマイクロ命令コードも含んでよい。本明細書に記載の様々なプロセスや機能は、マイクロ命令コードの一部、アプリケーションプログラムの一部、または、その任意の組み合わせであってよく、それらはＣＰＵによって実行してよい。さらに、追加のデータ記憶装置や印刷装置などの様々な他の周辺機器をコンピュータプラットフォームに接続してよい。

添付図面に記載された、構成要素となっているシステムコンポーネントの一部、および、方法の一部は、ソフトウェアで実践されるのが好ましいので、システムコンポーネント間、または、プロセスの機能ブロック間の実際の接続は、本原理をプログラムする方法に応じて異なって良いことも理解されたい。本明細書の教示を前提として、関連技術分野の当業者は、本原理の記載した実装または構成、および類似の実装または構成を考案することができるであろう。

添付の図面を参照して本明細書に実施形態を例示したが、本原理は、これらの具体的な実施形態に限定されず、本原理の範囲、精神から逸脱することなく、関連技術分野の当業者は、様々な変更や修正を行ってよいことは理解されたい。このような変更および修正は全て、請求項に記載する本原理の範囲に含まれるものとする。

Claims

意味解釈のために１つまたは複数のキーワードを取得するステップと、
知識データベース内にある、前記１つまたは複数のキーワードに関する上位ｋ個の概念を計算するステップと、
前記上位ｋ個の概念を用いて、前記１つまたは複数のキーワードを概念空間にマッピングするステップと、
を含むキーワードの意味解釈を行う方法。
上位ｋ個の概念を計算する前記ステップは、
入力行の数の限界を推定することと、
完全に見えないオブジェクトまたは部分的に見えないオブジェクトの予測スコアを計算することを含む請求項１に記載の方法。
意味解釈のために１つまたは複数のキーワードを取得する前記ステップは、コンテンツと共に含まれたクローズドキャプションデータからキーワードを抽出することを含む請求項１に記載の方法。
前記１つまたは複数のキーワードを概念空間にマッピングするステップによって得られる概念をさらに処理することを含む請求項１に記載の方法。
前記処理は、概念の順位付けを含む請求項４に記載の方法。
前記処理は、前記得られる概念に基づいてユーザプロファイルを作成することを含む請求項４に記載の方法。
前記処理は、前記得られる概念に基づいて分割されたコンテンツを作成することを含む請求項４に記載の方法。
前記処理は、前記得られる概念に基づいてフィルタリングすることを含む請求項４に記載の方法。
前記処理は、前記得られる概念に基づいて検索することを含む請求項４に記載の方法。
キーワード収集と、
概念収集と、
概念処理と、
を含むキーワードの意味解釈を行うシステム。
キーワード収集は、
クローズドキャプション抽出部と、
文分割部と
を含む請求項１０に記載のシステム。
概念収集は、
意味解釈部と、
概念蓄積部と、
を含む請求項１０に記載のシステム。
概念処理は、
順位付けと、
ユーザプロファイルと、
を含む請求項１０に記載のシステム。
コンピュータ可読プログラムを有するコンピュータが使える媒体を含むコンピュータプログラム製品であって、前記コンピュータ可読プログラムは、コンピュータで実行されて、前記コンピュータに、
意味解釈のための１つまたは複数のキーワードを取得するステップと、
知識データベース内にある、前記１つまたは複数のキーワードに関する上位ｋ個の概念を計算するステップと、
前記上位ｋ個の概念を用いて、前記１つまたは複数のキーワードを概念空間にマッピングするステップと、
を含む方法を行わせるコンピュータプログラム製品。