JP2006139783A

JP2006139783A - 照会から得られる１以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法及びシステム

Info

Publication number: JP2006139783A
Application number: JP2005326733A
Authority: JP
Inventors: John Adcock; アドコックジョン; Matthew Cooper; クーパーマシュー; Andreas Girgensohn; ガーゲンソンアンドレアス; Lynn D Wilcox; ディー．ウィルコックスリン
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2004-11-12
Filing date: 2005-11-10
Publication date: 2006-06-01
Also published as: US7440947B2; US20060106767A1

Abstract

【課題】潜在意味解析を使用して、検索で検出される文書内で照会に関係するキーワードを識別するためのシステム及び方法を提供すること。
【解決手段】１つまたは複数の文書用語−重みベクトルｄを含む用語−重み行列Ｍを作成する。この場合、各文書用語−重みベクトルｄが前記照会の前記用語から得られる前記１つまたは複数の文書中の前記頻度に関する情報を含む。さらに、前記照会用語−重みベクトルｑと前記用語−重み行列Ｍから展開された照会用語−重みベクトルｑ_expandedを作成する。さらにまた、前記展開された照会用語−重みベクトルｑ_expandedと前記文書用語−重みベクトルｄを使用し、前記照会に関係し、前記文書の少なくとも１つにも含まれる用語として識別されるキーワードの集合の位置を突き止める。なお、前記照会が前記キーワードを含む必要がない。
【選択図】図２

Description

本発明は自動媒体分析の分野にあり、キーワードを識別するためのシステム及び方法に関し、特に潜在意味分析で文書中の照会関連キーワードを識別するためのシステム及び方法に関する。

従来のテキスト検索システム（例えばグーグル（Ｇｏｏｇｌｅ））においては、ユーザにフィードバックを与えるために検索された文書中で発生する照会用語を強調（ハイライト）することが一般的である。しかしながら、この手法は潜在意味解析（ＬＳＡ）を使用するときにはうまく行かない。ＬＳＡは種々の文書解析及び検索技法の基礎である。テキストをベースにした検索のためにＬＳＡを使用することの１つの態様は、文書が指定された照会用語にきわめて関連性があると見なされてよいが、実際にはそれらの用語を含まない可能性があるということである。

非特許文献１は、関連する文書の間の類似および差異を要約することを開示しており、非特許文献２は、潜在意味解析によるインデッキシングを開示しており、非特許文献３は、知的情報検索のために線形代数を用いることを開示しており、非特許文献４は、知識の取得、誘導および表示についての潜在意味解析理論を開示している。
マミ、インダージート及びエリックブロードーン、「サマライジングシミラリテイズアンドデファレンシズアマングリレイテッドドキュメンツ」インフォーメイションリトリーバル、第１巻、第１−２号、ページ３５−６７（１９９９）（MANI, Inderjeet and Eric Bloedprn, "Summarizing Similarities and Differences among Related Documents", Information Retrieval, Vol. 1, Nos. 1-2, pp. 35-67 (1999)）デアウエスター、エス．、デユメス、エス．テイー．、ファーナス、ジー．ダブリュウ．、ランドー、テイー．ケイ．、ハーシュマン、アール．、「インデキシングバイラテントセマンテイックアナリシス」、ジャーナルオブザアメリカンソサイエテイフォアインフォーメーションサイエンス、４１−６、ページ３９１−４０７（１９９０）（DEERWESTER, S., Dumais, S.T., Furnas, G.W., Landauer, T.K., Harshman, R., "Indexing by Latent Semantic Analysis." Journal of the American Society for Information Science, 41-6, pp.391-407 (1990)）ベリー、エム．ダブリュウ．、デユメス、エス．テイー．、アンドジー．ダブリュウ．オーブライエン、「ユージングリニアアルジブラフォアインテリジェントインフォーメーションリトリーバル」、レビュー３７：４、ページ５７３−５９５（１９９５（BERY, M.W., S.T. Dumais and G.W. O'Brien, "Using Linear Algebra for Intelligent Information Retrieval, Review 37:4, pp. 573-595 (1995)）ランドー、テイー．ケイ．アンドエス．テイー．デユメス、「アソリューションツープラトーズプロブレム：ザラテントセマンテイックアナリシスセオリオブアクイジッション、インダクションアンドリプリゼンテーションオブナリッジ」、サイコロジカルレビュー、１０４、ページ２１１−２４０（１９９７）（LANDAUER, T.K. and S.T. Dumais, "A Solution to Plato's Problem: The Latent Semantic Analysis Theory of Aquisition, Induction and Representation of Knowledge", Psychological Review, 104, pp. 211-240 (1997)）

テキスト処理及び情報検索における多大な研究があり、その内の多くはＬＳＡ及び照会関係要約と一般的に呼ばれる研究の主題を含む類似した技法に基づいている。ここに説明されている本発明は、一般的には、その領域にあるものであり、別の文書Ｂに関連する文書Ａの中の用語を検索することが、ある意味ではＡの要約の形である。一般的には、この分野における研究はより伝統的な形式の要約、つまり要約として使用するために原始テキスト内でキーセンテンスを識別することを対象にする。

ＬＳＡは、潜在意味空間内で密接に関係する用語を検索することによる単一検索用語照会のために同義語を識別するように使用される。

照会が複数の検索用語を備えてよい潜在意味解析で文書中の照会関連キーワードを識別するためのシステム及び方法を開発することが望ましい。照会の文脈に従って照会関連キーワードの結果として生じるリストをフィルタにかけることも望ましい。キーワードが照会用語の集合の中に出現するかどうかに関わりなく、照会用語に最も密接に関係する検索された文書中のキーワードを識別することも望ましい。

潜在意味解析（ＬＳＡ）または別のファジー検索技法が文書検索システムの基礎として使用されるとき、用語の集合として指定される照会が、照会で使用された正確な用語のどれも含まない関連性のある文書を生じさせることがある。なぜある特定の文書がその照会に関連性があると見なされたのかを示すためにユーザにフィードバックを提供することが有用である。照会用語の集合にキーワードが出現するかどうかに関わりなく、照会用語に最も密接に関係する、検索された文書中のキーワードを識別するための方法が説明される。

本発明の方法は、単一ワード照会だけではなく複数ワード照会も展開する。結果として生じる同義語リストが、検索文書の文脈によってフィルタにかけられる。本発明によれば、文書の集合体は、文書用語−頻度（ｔｆ）ベクトルあるいは文書用語−頻度逆数−文書−頻度（ｔｆ−ｉｄｆ）ベクトルであってよい文書用語−重みベクトルｄの行列Ｍとして表現される。用語−重み行列Ｍは文書ごとに１つの列、及び用語ごとに１つの行を有する。

文書用語−重みベクトルｄを含む用語−重み行列Ｍは、各文書が文書のどれかで発生する用語の部分集合だけを含むためにまばらである。行列は、それを構築するために使用される文書についての意味論的な情報を捕捉すると仮定される縮約次元空間の中に投影できる。

文書用語−重みベクトルｄの用語−重み行列Ｍは不完全な特異値分解（ＳＶＤ）を受ける。すなわち元の用語−重み行列Ｍは、Ｓが正方対角行列であり、ＵとＶがユニタリ行列である３つの行列ＵＳＶ’の積によって近似される。結果として生じる変換行列Ｕは、新しい照会用語−重みベクトルを縮約Ｎ次元空間の中に投影するために使用できる。

（ユーザが入力する大部分の照会はほとんど用語を使用しないためほとんどエントリを有さない可能性がある）照会用語−重みベクトルｑが行列Ｕを使用して縮約次元潜在意味空間の中に投影され、縮約照会用語―重みベクトルｑ_reducedを生じさせる。続いて、縮約照会用語−重みベクトルｑ_reducedは、Ｕがユニタリであるために等式ｑ_expanded＝ｑ_reduced＊Ｕ’＝（ｑ’＊Ｕ）＊Ｕ’に従ってＵ’であるＵの逆数を使用して完全用語−重みベクトル空間の中に展開して戻され、この場合ｑ_expandedは展開され、高密度で平滑化された最終的な結果である。

次に、キーワードを識別するために、展開された照会用語−重みベクトルｑ_expandedから検索文書中で発生しない用語が排除される。続いて、ｑ_expandedの中で対応する最高値を有する多くの残りの用語が照会関係キーワードとして選択される。これらの用語は、ここで照会と返される文書の間の類似性の文脈を強調するために使用できる。

このプロセスを表すための等価的な方法は、照会と辞書全体の中のあらゆる用語との間の類似性を最初に計算することである。これが、潜在意味空間を使用するｑ_expandedの計算が達成することである。次のステップは、照会関係キーワードの集合として照会結果文書中でも発生する照会に最も類似した用語を選ぶことである。１つの考えられる類似性関数はドット積である。つまり、縮約次元照会用語−重みベクトルがＵ’で乗算されると、結果として生じる類似性ベクトルはドット積のベクトルである。代わりにコサイン類似性などの別の類似性の基準がここで使用できる。このケースでは、ｑ_expandedベクトルの中のｎ番目の用語は、縮約次元用語−重みベクトル（ｑ_reduced ’＊Ｕ）とＵの行ｎの間のコサイン類似性（または他の類似性関数）を計算することにより形成されるであろう。

代わりに、展開された照会用語−重みベクトルｑ_expandedと文書用語−重みベクトルｄの用語毎の積が取られ、結果として生じる最大値のなんらかの数に対応する用語がキーワードとして使用される。積を取ることにより、照会と文書の両方に対する各用語の相対的な重要性が組み込まれる。

本発明の実施形態は、各ビデオのショットとストーリーへの検索前セグメンテーションを利用する。ストーリーは時間整合されたテキスト内でのトピックの変化を検出することにより作成される。ストーリーはビデオ検索のための文書として使用される。

本発明の請求項１の態様は、照会から得られる１以上の（１つまたは複数の）文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法であって、ａ）１以上の文書用語−重みベクトルｄを含む用語−重み行列Ｍを作成し、各文書用語−重みベクトルｄが前記照会の前記用語から得られる前記１以上の文書中の前記頻度に関する情報を含むことと、ｂ）前記照会用語−重みベクトルｑと前記用語−重み行列Ｍから展開された照会用語−重みベクトルｑ_expandedを作成することと、ｃ）前記展開された照会用語−重みベクトルｑ_expandedと前記文書用語−重みベクトルｄを使用し、前記照会に関係し、前記文書の少なくとも１つにも含まれる用語として識別されるキーワードの集合の位置を突き止め、前記照会が前記キーワードを含む必要がないことと、を含む方法を提供する。

本発明の請求項２の態様では、前記請求項１の態様の方法において、前記文書用語−重みベクトルｄが用語−頻度ベクトルである。

本発明の請求項３の態様では、請求項１の態様の方法において、前記文書用語−重みベクトルｄが用語−頻度逆数−文書頻度（ｔｆ−ｉｄｆ）ベクトルであり、そのｎ番目の構成要素がａ）前記ｎ番目の用語の文書ｄの中の用語−頻度と、ｂ）前記ｎ番目の用語を含む前記文書の断片の関数として計算される。

本発明の請求項４の態様では、請求項３の態様の方法において、前記関数が等式ｔｆ−ｉｄｆ＝（１．０＋ｌｏｇ（ｔｆ））＊ｌｏｇ（１／ｄｆ）に従って計算され、ここではｔｆが文書ｄの中のｎ番目の用語の用語−頻度であり、ｄｆがｎ番目の用語を含む文書の断片である。

本発明の請求項５の態様では、請求項１の態様の方法において、キーワードの集合の位置を突き止める前記ステップが、前記文書の少なくとも１つの中に含まれ、前記展開された照会用語−重みベクトルｑ_expandedの中で最高値を有するキーワードを選択することを含む。

本発明の請求項６の態様では、請求項１の態様の方法において、キーワードの集合の位置を突き止めるステップは、ｃ１）文書ごとに、展開された照会用語−重みベクトルｑ_expanded及び前記対応する文書用語−重みベクトルｄの用語ごとの積を計算することと、ｃ２）前記計算された積の中で最高値を有するキーワードを選択することとを含む。

本発明の請求項７の態様では、請求項１の態様の方法において、前記展開された照会用語−重みベクトルｑ_expandedを作成することは、ｂ１）前記照会用語に対応する照会用語−重みベクトルｑを潜在意味空間に投影し、縮約された照会用語−重みベクトルｑ_reducedを作成することと、ｂ２）潜在意味空間の中から前記照会用語−重みベクトルを展開して戻し、前期展開された照会用語−重みベクトルｑ_expandedを作成することと、を含む。

本発明の請求項８の態様では、請求項７の態様の方法において、前記投影するステップが、ｂ１１）Ｓが正方対角行列であり、Ｕがユニタリ変換行列であり、Ｖがユニタリ行列である３つの行列ＵＳＶ’の積として用語−重み行列Ｍを近似することと、を含む。

本発明の請求項９の態様では、請求項８の態様の方法において、前記投影するステップが、ｂ１２）縮約された照会用語−重みベクトルｑ_reduced＝ｑ’＊Ｕを作成することをさらに含む。

本発明の請求項１０の態様では、請求項８の態様の方法において、前記照会用語−重みベクトルｑを展開する前記ステップが、ｂ２１）前記等式ｑ_expanded＝ｑ_reduced＊Ｕ’＝（ｑ’＊Ｕ）＊Ｕ’に従って前記展開された照会用語−重みベクトルを作成することを含む。

本発明の請求項１１の態様では、請求項７の態様の方法において、前記照会用語−重みベクトルｑを展開する前記ステップが、ｂ２１）縮約された照会用語−重みベクトルｑ_reducedと前記ユニタリ変換行列Ｕの行ｎの類似性関数を計算することによりｑ_expandedのｎ個の用語のそれぞれを計算することを含む。

本発明の請求項１２の態様では、請求項１１の態様の方法において、前記類似性関数がコサイン類似性関数である。

本発明の請求項１３の態様では、請求項１の態様の方法において、展開された照会用語−重みベクトルｑ_expandedを作成することが、ｂ１）Ｓが正方対角行列であり、Ｕがユニタリ変換行列であり、Ｖがユニタリ行列である３つの行列ＵＳＶ’の積として前記用語−重み行列Ｍを近似することを含む。

本発明の請求項１４の態様では、請求項１３の態様の方法において、展開された照会用語−重みベクトルｑ_expandedを作成することが、ｂ２）等式ｑ_expanded＝Ｕ’Ｕｑに従って照会用語−重みベクトルｑを使用して前記展開された照会用語−重みベクトルｑ_expandedを作成することをさらに含む。

本発明の請求項１５の態様では、請求項１の態様の方法において、ｄ）前記キーワードを強調することをさらに含む。

本発明の請求項１６の態様では、請求項１の態様の方法において、前記文書がテキスト文書である。

本発明の請求項１７の態様では、請求項１の態様の方法において、前記文書がビデオセグメントに関連付けられるテキストである。

本発明の請求項１８の態様は、照会から１以上の文書の中に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法であって、ａ）１以上の文書用語−重みベクトルｄを含む用語−重み行列Ｍを作成し、各文書用語−重みベクトルｄが前記照会の前記用語から得られる前記１以上の文書の１つの前記頻度に関する情報を含むことと、ｂ）前記照会用語に対応する照会用語−重みベクトルｑを潜在意味空間の中に投影し、縮約された照会用語−重みベクトルｑ_reducedを作成することと、ｃ）潜在意味空間の中から前記照会用語−重みベクトルを展開し、前記展開された用語−重みベクトルｑ_expandedを作成することと、ｄ）前記展開された照会用語−重みベクトルｑ_expanded及び文書用語−重みベクトルｄを使用し、前記照会に関係する用語として識別され、前記文書の内の少なくとも１つにも含まれるキーワードの集合の位置を突き止め、前記照会が前記キーワードを含む必要がないこととを含む方法である。

本発明の請求項１９の態様は、照会から得られる１以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法であって、ａ）１以上の文書用語−重みベクトルｄを含む用語−重み行列Ｍを作成し、各文書用語−重みベクトルｄが前記照会の前記用語から得られる前記１以上の文書の１つにおける前記頻度に関する情報を含むことと、ｂ）Ｓが正方対角行列であり、Ｕがユニタリ変換行列であり、Ｖがユニタリ行列である３つの行列ＵＳＶ’の積として前記用語−重み行列Ｍを近似することと、ｃ）潜在意味空間の中から前記照会用語−重みベクトルを展開し、前記展開された照会用語−重みベクトルｑ_expandedを作成することと、ｄ）前記展開された照会用語−重みベクトルｑ_expanded及び文書用語−重みベクトルｄを使用し、前記商会に関係する用語として識別され、前記文書の少なくとも１つにも含まれるキーワードの集合の位置を突き止め、前記照会が前記キーワードを含む必要がないことと、を含む方法である。

本発明の請求項２０の態様は、コンピュータにおいて、照会から得られる１以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法であって、ａ）ユーザごとに前記コンピュータにより作成される用語−重み行列Ｍを受け取り、１以上の文書用語−重みベクトルｄを含み、各文書が用語−重みベクトルｄが前記照会の前記用語から得られる前記１以上の文書の１つにおける前記頻度に関する情報を含むことと、ｂ）ユーザごとに、前記照会用語−重みベクトルｑ及び用語−重み行列Ｍからコンピュータにより作成される展開された照会用語−重みベクトルｑ_expandedを受け取ることと、ｃ）ユーザごとに、前記コンピュータによって識別されるキーワードの集合を受け取り、前記展開された照会用語−重みベクトルｑ_expanded及び前記文書用語−重みベクトルｄを、前記照会に関係し、前記文書の少なくとも１つにも含まれる用語として使用し、前記照会が前記キーワードを含む必要のないことと、を含む方法である。

本発明の請求項２１の態様は、コンピュータにおいて、１以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法であって、ａ）ユーザごとに前記選択された照会の用語の前記１以上の文書における前記頻度に関する情報を含み、Ｓが正方対角行列であり、Ｕがユニタリ変換行列であり、Ｖがユニタリ行列である３つの行列ＵＳＶ’の積として前記コンピュータによって近似される用語重み行列Ｍを受け取ることと、ｂ）ユーザごとに、前記等式ｑ_expanded＝Ｕ’Ｕｑに従って照会用語−重みベクトルｑを使用して該コンピュータによって作成される展開された照会用語−重みベクトルｑ_expandedを受け取ることと、ｃ）ユーザごとに、前記コンピュータによって識別されるキーワードの集合を受け取り、前記照会に関係し、前記文書の少なくとも１つにも含まれる用語として前記展開された照会用語−重みベクトルｑ_expanded及び前記文書用語−重みベクトルｄを使用し、前記照会が前記キーワードを含む必要のないことと、を含む方法である。

本発明の請求項２２の態様は、１以上の選択された文書中にも含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、システムであって、ａ）各文書用語−重みベクトルｄが前記照会の前記用語から得られる前記１以上の文書の１つにおける前記頻度に関する情報を含む１以上の文書用語−重みベクトルｄを含む用語−重み行列Ｍを作成することができ、前記照会用語−重みベクトルｑ及び前記用語−重み行列Ｍから展開された照会用語−重みベクトルｑ_expandedを作成することができ、前記展開された照会用語−重みベクトルｑ_expanded及び前記文書用語−重みベクトルｄを使用して、前記照会に関係し、前記文書の少なくとも１つにも含まれる用語として識別されるキーワードの集合の位置を突き止めることができ、前記照会が前記キーワードを含む必要のない１台または複数台のプロセッサと、ｂ）前記１台または複数台のプロセッサによって処理されるときにシステムに、各文書用語−重みベクトルｄが前記照会の前記用語から得られる前記１以上の文書の１つにおける前記頻度に関する情報を含む１以上の文書用語−重みベクトルｄを含む、用語−重み行列Ｍを作成する前記ステップと、前記照会用語−重みベクトルｑ及び前記用語−重み行列Ｍから展開された照会用語−重みベクトルｑ_expandedを作成する前記ステップと、前記展開された照会用語−重みベクトルｑ_expanded及び前記文書用語−重みベクトルｄを使用して、前記照会に関係し、前記文書の少なくとも１つにも含まれる用語として識別されるキーワードの集合の位置を突き止める前記ステップとを実行させ、前記照会が前記キーワードを含む必要がない、その上に記憶される動作を含む機械可読媒体とを備えるシステムである。

本発明の請求項２３の態様は、１以上の選択された文書に含まれる照会関連キーワードの集合を識別するための方法を実行するためにコンピュータによって実行可能であり、前記照会が前記キーワードを含む必要のない、コンピュータ・プログラムであって、ａ）１以上の文書用語−重みベクトルｄを含む用語−重み行列Ｍを作成し、各文書用語−重みベクトルｄが前記照会の前記用語から得られる前記１以上の文書の１つにおける前記頻度に関する情報を含む命令と、ｂ）前記照会用語−重みベクトルｑ及び前記用語−重み行列Ｍから展開された照会用語−重みベクトルｑ_expandedを作成する命令と、ｃ）前記展開された照会用語−重みベクトルｑ_expanded及び前記文書用語−重みベクトルｄを使用し、前記照会に関係し、前記文書の少なくとも１つにも含まれる用語としてキーワードの集合の位置を突き止め、前記照会が前記キーワードを含む必要のない命令と、を含むコンピュータ・プログラムである。

本発明の請求項２４の態様は、１以上の選択された文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要のない、システムまたは装置であって、ａ）１以上の用語−重みベクトルｄを含む用語−重み行列Ｍを作成するための手段であって、各文書用語−重みベクトルｄが前記選択された照会の中の用語の前記１以上の文書における前記頻度に関する情報を含む手段と、ｂ）前記照会用語−重みベクトルｑ及び前記用語−重み行列Ｍから展開された照会用語−重みベクトルｑ_expandedを作成するための手段と、ｃ）前記展開された照会用語−重みベクトルｑ_expanded及び前記用語−重み行列Ｍを使用して、前記照会に関係し、前記文書の少なくとも１つにも含まれる用語として識別されるキーワードの集合の位置を突き止め、前記照会が前記キーワードを含む必要のない手段と、を備えるシステムまたは装置である。

本発明によれば、キーワードが照会用語の集合に出現するかどうかに関わりなく、照会用語に最も密接に関係する、検索された文書中の用語を識別することが出来る等の優れた効果が得られる。

潜在意味解析（ＬＳＡ）または別のファジー検索技法が文書検索システムの基礎として使用されるとき、用語の集合として指定される照会が、照会で使用される正確な用語のどれも含まない関連性のある文書を生じさせることがある。なぜある特定の文書がその当該照会に関連性があると見なされたのかを示すためにユーザにフィードバックを提供することが有用である。一例として、照会「オレンジ」がこの用語を含まないが、それらが「リンゴ」や「食べた」などの非常に強く相互に関連付けられた用語を含むために当該照会に密接に関係する文書を返す可能性があるのは道理に適っている。ユーザに、返された文書からのこれらの用語が該照会にきわめて関連性があったことを伝達することは有用である。

キーワードが照会用語の集合に出現するかどうかに関わりなく、照会用語に最も密接に関係する、検索された文書中の用語を識別するための方法が説明される。

本方法は、単一ワード照会だけではなく複数ワード照会も展開する。結果として生じる同義語リスト、は検索文書の文脈によってフィルタにかけられる。本発明によれば、文書の集合体は、文書用語−頻度（ｔｆ）ベクトルあるいは文書用語−頻度逆数−文書−頻度（ｔｆ−ｉｄｆ）ベクトルであってよい文書用語−重みベクトルｄの行列Ｍとして表される。

用語−頻度（ｔｆ）を含む実施形態においては、行列の各列は文書を表し、行列の各行は用語を表す。したがって、行列は集合の中の文書数と同じ数の列、及び少なくとも１つの文書中で発生する一意の用語の数と同じ行を有する。行列中の各列は１つの文書中の用語頻度を説明するベクトルである。行ｔ及び列ｄでの値は文書ｄの中のテキスト＃ｔの用語−頻度である（ｔｆケース）。

ｔｆ−ｉｄｆ実施形態では、用語−頻度逆数−文書−頻度行列中の各値は、文書の完全な集合の中の用語−頻度及び用語＃ｔの全体の頻度の関数である。ｔｆ−ｉｄｆ関数は多くの形を取りうる。この関数の１つの例示的な形は、ｔｆ−ｉｄｆ＝（１．０＋ｌｏｇ（ｔｆ））＊ｌｏｇ（ｉｄｆ）＝（１．０＋ｌｏｇ（ｔｆ））＊ｌｏｇ（１／ｄｆ）であり、この場合、ｔｆは用語＃ｔが文書ｄの中で発生する回数であり、ｄｆは用語＃ｔが発生する文書の断片である。ｔｆ−ｉｄｆベクトルを作成する上で、最初に、ｔｆベクトルと逆数−文書−用語−頻度ベクトルｉｄｆが作成され、次に該ｔｆ−ｉｄｆベクトルの要素を求めるために適切な公式が適用される。

用語−重み行列Ｍは、各文書が文書の中のどれかで発生する用語の部分集合だけを含むためにまばらである。その行列は、用語の組み合わせが複数の文書に出現する共起性のパターンも含む。その行列は、それを構築するために使用される文書についての意味論的な情報を捕捉すると仮定される縮約次元空間の中に投影できる。

１つの組の実施形態によれば、文書用語−重みベクトルｄの用語−重み行列Ｍは、不完全な特異値分解（ＳＶＤ）を受ける。すなわち、Ｔ行及びＤ列の元の用語−重み行列Ｍは、３つの行列ＵＳＶ’の積によって近似され、この場合、Ｓは、Ｎの選択肢が任意であるが、通常はＮ＜＜Ｔ及びＮ＜＜ＤであるサイズＮの正方対角行列であり、ＵとＶは、それぞれ次元ＮバイＴおよび次元ＤバイＮのユニタリ行列である。結果として生じる変換行列Ｕは、新しい照会用語−重みベクトルを縮約Ｎ次元空間の中に投影するために使用できる。

各文書用語−重みベクトルｄ及び結果として生じる行列Ｍは、一度計算されてから、次に記憶される。この行列または類似する表現を記憶することは、標準的なテキスト検索方法に類似した目的を果たす。新しい文書は、旧い文書の少なくとも１つに存在しない、新しい文書中のすべての用語を無視することの近似により行列に増分的に加えることができる。したがって新しい文書は用語−重み行列Ｍの計算には寄与しないが、旧い文書だけを使用した計算により確立されるマッピングを使用するであろう。文書用語−重み行列Ｍ及び変換行列Ｕは、新しい文書をさらに完全に組み込むために、定期的に最初から計算し直すことができる。

ユーザが入力する大部分の照会はほとんど用語を使用しないため、照会用語−重みベクトルｑはほとんどエントリを有さない、つまりまったくまばらである可能性がある。照会用語−重みベクトルｑは行列Ｕを使用して縮約次元潜在意味空間の中に投影され、縮尺照会用語−重みベクトルｑ_reducedを生じさせる。続いて、照会用語−重みベクトルｑは、Ｕがユニタリであるために、等式ｑ_expanded＝ｑ_reduced＊Ｕ’＝（ｑ’＊Ｕ）＊Ｕ’に従ってＵ’である逆数Ｕを使用して完全用語−重みベクトル空間の中に展開して戻され、この場合ｑは元に照会用語から形成される（おそらくきわめてまばらな）照会用語−重みベクトルであり、ｑ_reducedは潜在意味解析空間の中への投影の縮約された結果であり、ｑ_expandedは展開され、高密度で平滑化された最終的な結果である。

次に、キーワードを識別するために、検索文書では発生しない用語が、展開された照会用語−重みベクトルｑ_expandedから排除される。続いて、ｑ_expandedの中の対応する最高値の付いた多くの残りの用語、つまり照会に対する最高の類似性をもった用語が照会関係キーワードとして選択される。これらの用語は、ここでは照会と返される文書の間の類似性の文脈を強調するために使用できる。

このプロセスを表すための同等な方法は、最初に照会と辞書の中のあらゆる用語の間の類似性を計算することである。これが、潜在意味空間を使用するｑ_expandedの計算が達成することである。次のステップは、照会関係キーワードの集合としてやはり検索結果文書に発生する照会に最も類似する用語を選ぶことである。ある実施形態によると、使用される類似性関数はドット積である、つまり、縮約次元照会用語−重みベクトルがＵ’を乗算されると、結果として生じる類似性ベクトルはドット積のベクトルである。代わりに、コサイン類似性などの別の類似性基準がここで使用できる。この場合には、ｑ_expandedのベクトルの中のｎ番目の用語が、縮約次元照会用語−重みベクトル（ｑ_reduced’＊Ｕ）とＵの行ｔの間のコサイン類似性（または他の類似性関数）を計算することによって形成されるであろう。

他の組の実施形態では、展開された照会用語−重みベクトルｑ_expandedと用語−重みベクトルとの用語毎の積が取られ、結果として生じる最大値のうちのある数に対応する用語がキーワードとして使用される。この実施形態では、積を取ることによって、照会と文書の両方に対する各用語の相対的な重要性が組み込まれる。

他の組の実施形態によると、照会から一致するキーワードが、文書と照会が一致した文脈の表示を提供するために検索結果で強調されてよい。

図１は、文書の集合体の中で含まれる１つの特定の文書１３０のための用語−頻度ベクトル１１０及び用語頻度−逆数文書頻度（ｔｆ−ｉｄｆ）ベクトル１２０の作成を描く概略図である。文書１３０は、「そのシマウマは火曜日に２個のリンゴを食べ、そして今日１個のリンゴを食べた」という文章で構成されている。このテキストは、照会で検出される１以上の文書１３０に出現するすべての関連性のある用語１５０を含む辞書１４０を作成するために標準テキスト前処理１３２を経験する。関連性のある用語１５０は「その」と「そして」などの余分な用語が排除され、他の用語１５０が該当する場合に一般的な形式に縮約された後に残っているすべての用語１５０である。余分な用語は、辞書１４０の中へのそれらの包含を正当化するほど十分にキーワード識別で役立たない。それらの共通な形式への他の用語１５０の縮約は、単数名詞と複数名詞の違いなどの、明白であるが助けにならない「差異」を排除することによりキーワード識別の精度を高める。例えば、「リンゴ（ａｐｐｌｅｓ）」などの複数名詞は通常「リンゴ（ａｐｐｌｅ）」という単数形に変更される。各用語１５０が発生する回数が数えられ１５２、辞書１４０と一致する用語頻度ベクトル１１０がそれにより作成される。この例では、１より大きい頻度を有する唯一の用語は用語「リンゴ（ａｐｐｌｅ）」である。文書頻度ベクトル１６０は、各辞書用語を含む検索で検出される文書の断片を決定することによりコンパイルされる。この例では、辞書の中の第１の用語１５０「リンゴ（ａｐｐｌｅ）」は全文書の．１で発生し、最後の用語１５０、「シマウマ」は全文書の．９で発生する。ｔｆ−ｉｄｆ関数の計算１７０は、１つの例示的な公式に従って描かれる。ｔｆ−ｉｄｆベクトル１２０はそれにより生成される。このプロセスの効果とは、最終的なｔｆ−ｉｄｆベクトル１２０では、用語「リンゴ（ａｐｐｌｅ）」のための値が、それが検索で２回出現するため、及びそれが文書の集合体では相対的にまれであるため増幅され、用語「シマウマ」のための値は、この用語が文書１３０の集合体の中で大変広く行き渡っているために減衰されているという点である。

図２は、１以上の選択された文書に含まれる照会関連キーワードの集合を識別するための方法を描く概略図であり、照会はキーワードを含む必要はない。予備的なステップとして、文書用語−重みベクトルｄの用語−重み行列Ｍは不完全な特異値分解（ＳＶＤ）を受ける。すなわち、Ｔ行及びＤ列の元の用語−重み行列Ｍは、３つの行列ＵＳＶ’の積によって近似され、Ｓは、Ｎの選択肢が任意であるが、通常はＮ＜＜Ｔ及びＮ＜＜ＤであるサイズＮの正方対角行列であり、ＵとＶは、それぞれ、次元ＮバイＴ及び次元ＤバイＮのユニタリ行列である、。結果として生じる変換行列Ｕは、新しい照会用語−重みベクトルを縮約Ｎ次元空間の中に投影するために使用できる。

照会用語−重みベクトル２７０は、やはりＵとして記述される行列２７２を使用して縮約次元空間の中に投影され、次に、Ｕがユニタリであるから、Ｕ’：ｑ_expanded＝（ｑ_reduced’＊Ｕ）＊Ｕ’であるＵの逆数である行列２７４を使用して完全用語−重みベクトル空間の中に展開して戻される。

次に、キーワードを識別するために、並べ替え及び選択プロセス２８５が発生する。検索文書中で発生しない用語はｑ_expandedから排除される。続いて、ｑ_expandedの中の最高値が付いた残りの用語のうちの多くのものが、最終的な結果、つまり照会関係キーワード２９０の集合を生じさせるために選択される。ある実施形態では、これらのステップは、この場合にもｄとして記述される文書用語−重みベクトル２８３内でもゼロ以外であるｑ_expandedの中の最高値の付いた用語を選択することにより、行われてもよい。結果として生じるキーワード２９０は、ここでは照会と返される文書の間の類似性の文脈を強調するために使用できる。

図３は、キーワードを選択するプロセスの概要を示すフローチャートである。照会用語はステップ３００で受け取られる。ステップ３１０では、照会用語に関係する用語が識別される。ステップ３４５では、文書が用語、つまり照会用語と関係する用語の両方について検索される。ステップ３６０では、文書用語情報及び照会用語に関係する用語に関する情報が結合される。ステップ３７０では、キーワードが結果から作成される。

図４は、用語−重みベクトルが、用語−頻度ベクトル、すなわち照会用語−頻度ベクトルであり、かつ文書用語−頻度ベクトルが生成されるケースについてキーワードを選択するプロセスを示すフローチャートである。照会用語はステップ４００で受け取られる。ステップ４１２では、照会用語は照会用語頻度ベクトルｑに変換される。ステップ４１４では、照会用語−頻度ベクトルｑは縮約次元潜在意味空間の中に投影される。ステップ４１６では、照会用語−頻度ベクトルｑが照会意味空間の中から展開し直され、展開された照会用語―頻度ベクトルｑ_expandedを生じさせる。この図におけるステップ４１２、４１４、及び４１６、つまり破線４１７の内側に位置する３つのステップは、図３におけるステップ３１０の特殊なケースを集合的に構成する。ステップ４４５では、文書は、用語、つまり照会用語と関係する用語の両方について検索される。ステップ４５０では、文書用語−頻度ベクトルは検索の結果に基づいて作成される。ステップ４６０では、文書用語−頻度ベクトルは、展開された照会用語−頻度ベクトルｑ_expandedを参照することによりフィルタにかけられ、各候補文書用語−頻度ベクトルの類似性は展開された照会用語−頻度ベクトルｑ_expandedに関して測定される。例示的な類似性関数はドット積とコサイン類似性である。大部分の類似する文書の構成可能な数が検索の結果として返される。ステップ４６０は図３のステップ３６０の特殊なケースを構成する。ステップ４７０では、キーワードが結果から生成される。

図５は、用語−重みベクトルがｔｆ−ｉｄｆベクトル、即ち照会ｔｆ−ｉｄｆベクトルであり、かつ文書ｔｆ−ｉｄｆベクトルが生成されるケースについてキーワードを選択するプロセスを示すフローチャートである。図５は、キーワードベクトルがどのようにして生成されるのかについての、さらに詳細をも提示している。使用される照会は、一例として示される文書中には出現しない「オレンジ」である。用語「リンゴ」及び「オレンジ」はこの特定の意味空間内で密接に関係している。照会用語はステップ５００において受け取られる。ステップ５１２では、照会用語は照会ｔｆ−ｉｄｆベクトルｑに変換される。ステップ５１４では、照会ｔｆ−ｉｄｆベクトルｑが縮約次元潜在意味空間の中に投影され、縮約された照会ｔｆ−ｉｄｆベクトルｑ_reducedを生じさせる。ステップ５１６では、縮約された照会ｔｆ−ｉｄｆベクトルｑ_reducedは潜在意味空間の中から展開し直され、例示的な値が描かれた状態で、ｑ_expandedとしても知られる展開された照会ｔｆ−ｉｄｆベクトル５１８を生じさせる。この図のステップ５１２、５１４、及び５１６、つまり破線５１７の内側に位置する３つのステップが図３のステップ３１０の特殊なケースを集合的に構成する。ステップ５４５では、文書は辞書５４０の中の用語、つまり照会用語と関係用語両方について検索される。ステップ５５０では、例示的な値が示されているような状態で、文書ｔｆ−ｉｄｆベクトル５５５が検索の結果に基づいて作成される。このステップは図１にさらに詳細に表示される。ステップ５６０では、文書ｔｆ−ｉｄｆベクトル５５５は、展開された照会ｔｆ−ｉｄｆベクトル５１８を参照してフィルタにかけられ、各候補文書ｔｆ−ｉｄｆベクトル５５の類似性は展開された照会ｔｆ−ｉｄｆベクトル５１８に関して測定される。例示的な類似性関数はドット積及びコサイン類似性である。１つの他の例として、用語が少なくとも１つの文書で発生する場合、用語はキーワードベクトルの構成要素となり、用語が任意の文書に含まれていない場合には、次にキーワードベクトルの対応する値がゼロである。この実施形態は、フィルタステップ５６０の後に、例示的な値が示されているような状態で、得られたキーワードベクトル５６５によって示されている。設定可能な数の殆どの類似する文書が、検索の結果として返される。ステップ５６０は、図３のステップ３６０の特殊なケースを構成する。

ステップ５６６では、文書用語の並べられたリストが、辞書５４０にキーワードベクトル５６５を適用することにより作成される。ステップ５６８では、上位にランクされた用語（複数の場合がある）が選択される。ステップ５６９では、「リンゴ」などのこれらの上位にランクされた用語（複数の場合がある）を使用してキーワードベクトルが作成される。この図におけるステップ５６６、５６７及び５６９、つまり点線５６９の内側に位置する３つのステップは、集合的に図４におけるステップ４７０の、及び図３のステップ３７０のさらに詳細な特殊なケースを構成する。
＜システムの実現＞
図６は、本発明による方法を実施するために適した汎用コンピュータシステム６００を示すブロック図である。汎用コンピュータシステム６００は１または複数のプロセッサ６０２を含む。カーソル制御装置６０５はマウス、ジョイスティック、一連のボタン、あるいはユーザがカーソルまたポインタのディスプレイモニタ６０４上での位置を制御できるようにする任意の他の入力装置として実現される。汎用コンピュータは、ランダム・アクセス・メモリ６０７、外部記憶装置６０３、ＲＯＭメモリ６０８、キーボード６０６、モデム６１０及びグラフィックス・コプロセッサ６０９をも含んでいてもよい。カーソル制御装置６０５及び／またはキーボード６０６は、本発明に従ってユーザ入力を受け取るための例示的なユーザインタフェースである。汎用コンピュータ６００の要素のすべては多様な要素間でデータをトランスポートするために共通なバス６０１によって必要に応じて接続される。バス６０１は、通常、データ、アドレス、及び制御信号を含む。図６に示されている汎用コンピュータ６００は、この汎用コンピュータ６００の要素のすべてを互いに接続する単一のデータバス６０１を含んでいるが、汎用コンピュータ６００の種々の要素を接続する単一の通信バス６０１があるということは要求されていない。例えば、１または複数のプロセッサ６０２、ＲＡＭ６０７、ＲＯＭ６０８及びグラフィックスコプロセッサ６０９が代替としてデータバスに一緒に接続され、他方、ハードディスク６０３、モデム６１０、キーボード６０６、ディスプレイモニタ６０４及びカーソル制御装置６０５は、第２のデータバス（図示せず）に接続される。この場合には、第１のデータバス６０１及び第２のデータバス（図示せず）は双方向バスインタフェースによりリンクされる。あるいは、１または複数のプロセッサ６０２及びグラフィックスコプロセッサ６０９などの要素のいくつかは、第１のデータバス６０１と第２のデータバス（図示せず）の両方に接続されており、第１のデータバスと第２のデータバスの間の通信は、１または複数のプロセッサ６０２とグラフィックス・コプロセッサ６０９を経由して生ずる。本発明の方法は、このようにして図６に示されている６００などの任意の汎用コンピュータシステムで実行可能であるが、このコンピュータシステムは本発明の方法を実行できる唯一のコンピュータシステムであるという限定のないことは明白である。

典型的な実施では、オペレータはコンピュータディスプレイ、及び例えばユニックス・ウインドウズ（Ｕｎｉｘ（登録商標）Ｗｉｎｄｏｗｓ（登録商標））環境、マック・オーエス（ＭａｃＯＳ）、またはマイクロソフト・ウインドウズ（ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標））環境、または他のなんらかのグラフィックアプリケーション環境などその上で実行するなんらかの形のグラフィックインタフェースを含むコンピュータシステムを使用する。本発明の実施形態が、他の形式のグラフィックユーザインタフェース（ＧＵＩ）とともに等しく使用できることは当業者に明らかであろう。

適切なソフトウェアコーディングは、ソフトウェア技術の当業者に明らかとなるように本開示の教示に基づいて熟練したプログラマにより容易に作成できる。本発明の実施形態は、当業者に容易に明らかとなるように、特定用途向け集積回路の作成によって、あるいは従来の構成要素回路の適切なネットワークを相互接続することによって実現されてもよい。

本発明の実施形態は、命令を記憶させる１つの記憶媒体（複数の媒体）である／本発明のプロセスのどれかを実行するようにコンピュータをプログラミングするために使用できるコンピュータプログラム製品を含む。その記憶媒体は、フロッピー（登録商標）ディスク、光ディスク、ＤＶＤ、ＣＤ−ＲＯＭ、マイクロドライブ、磁気光学ディスクを含む任意のタイプのディスク、ＲＯＭ、ＲＡＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、ＤＲＡＭ、ＶＲＡＭ、フラッシュメモリデバイス、磁気カードまたは光カード、（分子メモリＩＣを含む）ナノシステム、あるいは命令及び／またはデータを記憶するために適切な任意のタイプの媒体またはデバイスを含みうるが、これらに限定されない。

本発明の実施形態は、汎用／専用コンピュータまたはマイクロプロセッサの両方のハードウェアを制御するため、及びコンピュータまたはマイクロプロセッサが人間のオペレータまたは本発明の結果を活用する他の機構と対話できるようにするために、１つのコンピュータ可読媒体（複数の媒体）のどれか１つに記憶されるソフトウェアを含む。このようなソフトウェアは、デバイスドライバ、オペレーティングシステム及びユーザアプリケーションを含んでよいが、これらに限定されない。究極的には、このようなコンピュータ可読媒体はさらに前述されたように本発明を実行するためのソフトウェアを含む。

１つのコンピュータ可読媒体（複数の媒体）のどれか１つに記憶され、本発明の実施形態は汎用／特化コンピュータまたはプロセッサの両方のハードウェアを制御するため、及びコンピュータまたはプロセッサが人間のユーザまたは本発明の実施形態の結果を活用する他の機構と対話できるようにするためのソフトウェアを含む。このようなソフトウェアは、デバイスドライバ、オペレーティングシステム、及びユーザアプリケーションを含んでよいが、これらに限定されない。究極的には、このようなコンピュータ可読媒体は、上述のように、本発明の実施形態を実行するためのソフトウェアをさらに含む。

汎用／専用コンピュータまたはプロセッサのソフトウェアには、有用な画像を検出すること、それぞれの画像が「ビネット」にどれほど密接に似ているのかに基づいた有効性の順序で画像をランク付けすること、及び本発明の実施形態のプロセスに従って結果を通信することを含むが、これらに限定されない本発明の教示を実現するためのソフトウェアモジュールが含まれる。

本発明の実施形態は、コンピュータ技術の当業者に明らかとなるように、本開示の教示に従ってプログラムされた汎用または専用デジタルコンピュータまたはプロセッサを使用して便利に実現されうる。

本発明の前述の説明は、例示及び説明の目的で提示された。この説明は、網羅的でもなければ、本発明を開示された正確な形態に制限するものでもない。多くの修正及び変更が当業者に明らかとなるであろう。特に、画像を検出し、ビネットスコアに基づいた有効性の順序での数値ランクでランク付けするという前述の特徴は、上述したものを凌ぐ他のタイプのソフトウェアアプリケーションに組み込むことができることは明らかであろう。上記の実施形態は、本発明の原理及びその実際適用について最もよく説明するために選択されかつ記述され、それにより、種々の実施形態について、及び意図された特定の使用に適した種々の修正について、当業者が本発明を理解できるようにしたものである。本発明の範囲は、以下の請求項及びその同等物により定義されるものと意図されている。

本発明の好適実施形態（複数の場合がある）は、以下の図に基づいて詳細に説明される。
従来の技術に従って、文書の集合体の中に含まれる１つの特定の文書１３０のための用語−頻度ベクトル１１０及び用語頻度−逆数文書頻度（ｔｆ−ｉｄｆ）ベクトル１２０の生成を示す概略図である。行列Ｕを使用する縮約次元空間の中への照会用語−重みベクトルｑの投影と、その後に続くＵの逆を使用する完全用語−重みベクトル空間への展開とを示す概略図である。キーワードを選択するプロセスの概要を示すフローチャートである。用語−重みベクトルが用語−頻度ベクトルであるケースについてキーワードを選択するプロセスを示すフローチャートである。用語−重みベクトルがｔｆ−ｉｄｆベクトルであるケースについてキーワードを選択するプロセスを示し、かつキーワードベクトルがどのようにして生成されるかについてのさらなる詳細を提示するフローチャートである。本発明の方法を実行するために適した汎用コンピュータアーキテクチャを示すブロック図である。

符号の説明

６００汎用コンピュータ
６０１バス
６０２マイクロプロセッサ
６０３デイスプレイ
６０４デイスプレイ
６０５カ−ソル制御
６０６キーボード
６０９グラフィックス・コプロッセサ
６１０モデム

Claims

照会から得られる１以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法であって、
ａ）１以上の文書用語−重みベクトルｄを含む用語−重み行列Ｍを作成し、各文書用語−重みベクトルｄが前記照会の前記用語から得られる前記１以上の文書中の前記頻度に関する情報を含むことと、
ｂ）前記照会用語−重みベクトルｑと前記用語−重み行列Ｍから展開された照会用語−重みベクトルｑ_expandedを作成することと、
ｃ）前記展開された照会用語−重みベクトルｑ_expandedと前記文書用語−重みベクトルｄを使用し、前記照会に関係し、前記文書の少なくとも１つにも含まれる用語として識別されるキーワードの集合の位置を突き止め、前記照会が前記キーワードを含む必要がないことと、
を含む方法。
前記文書用語−重みベクトルｄが用語−頻度ベクトルである請求項１に記載の方法。
前記文書用語−重みベクトルｄが用語−頻度逆数−文書頻度（ｔｆ−ｉｄｆ）ベクトルであり、そのｎ番目の構成要素がａ）前記ｎ番目の用語の文書ｄの中の用語−頻度と、ｂ）前記ｎ番目の用語を含む前記文書の断片の関数として計算される請求項１に記載の方法。
前記関数が等式ｔｆ−ｉｄｆ＝（１．０＋ｌｏｇ（ｔｆ））＊ｌｏｇ（１／ｄｆ）に従って計算され、ここではｔｆが文書ｄの中のｎ番目の用語の用語−頻度であり、ｄｆがｎ番目の用語を含む文書の断片である請求項３に記載の方法。
キーワードの集合の位置を突き止める前記ステップが、前記文書の少なくとも１つの中に含まれ、前記展開された照会用語−重みベクトルｑ_expandedの中で最高値を有するキーワードを選択することを含む請求項１に記載の方法。
キーワードの集合の位置を突き止めるステップは、
ｃ１）文書ごとに、展開された照会用語−重みベクトルｑ_expanded及び前記対応する文書用語−重みベクトルｄの用語ごとの積を計算することと、
ｃ２）前記計算された積の中で最高値を有するキーワードを選択することと、
を含む請求項１に記載の方法。
前記展開された照会用語−重みベクトルｑ_expandedを作成することは、
ｂ１）前記照会用語に対応する照会用語−重みベクトルｑを潜在意味空間に投影し、縮約された照会用語−重みベクトルｑ_reducedを作成することと、
ｂ２）潜在意味空間の中から前記照会用語−重みベクトルを展開して戻し、前期展開された照会用語−重みベクトルｑ_expandedを作成することと、
を含む請求項１に記載の方法。
前記投影するステップが、
ｂ１１）Ｓが正方対角行列であり、Ｕがユニタリ変換行列であり、Ｖがユニタリ行列である３つの行列ＵＳＶ’の積として用語−重み行列Ｍを近似することと、
を含む請求項７に記載の方法。
前記投影するステップが、
ｂ１２）縮約された照会用語−重みベクトルｑ_reduced＝ｑ’＊Ｕを作成することと、
をさらに含む請求項８に記載の方法。
前記照会用語−重みベクトルｑを展開する前記ステップが、
ｂ２１）前記等式ｑ_expanded＝ｑ_reduced＊Ｕ’＝（ｑ’＊Ｕ）＊Ｕ’に従って前記展開された照会用語−重みベクトルを作成することと、
を含む請求項８に記載の方法。
前記照会用語−重みベクトルｑを展開する前記ステップが、
ｂ２１）縮約された照会用語−重みベクトルｑ_reducedと前記ユニタリ変換行列Ｕの行ｎの類似性関数を計算することによりｑ_expandedのｎ個の用語のそれぞれを計算することと、
を含む請求項７に記載の方法。
前記類似性関数がコサイン類似性関数である請求項１１に記載の方法。
展開された照会用語−重みベクトルｑ_expandedを作成することが、
ｂ１）Ｓが正方対角行列であり、Ｕがユニタリ変換行列であり、Ｖがユニタリ行列である３つの行列ＵＳＶ’の積として前記用語−重み行列Ｍを近似することと、
を含む請求項１に記載の方法。
展開された照会用語−重みベクトルｑ_expandedを作成することが、
ｂ２）等式ｑ_expanded＝Ｕ’Ｕｑに従って照会用語−重みベクトルｑを使用して前記展開された照会用語−重みベクトルｑ_expandedを作成することと、
をさらに含む請求項１３に記載の方法。
次に示すステップ、
ｄ）前記キーワードを強調することと、
をさらに含む請求項１に記載の方法。
前記文書がテキスト文書である請求項１に記載の方法。
前記文書がビデオセグメントに関連付けられるテキストである請求項１に記載の方法。
照会から１以上の文書の中に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法であって、
ａ）１以上の文書用語−重みベクトルｄを含む用語−重み行列Ｍを作成し、各文書用語−重みベクトルｄが前記照会の前記用語から得られる前記１以上の文書の１つの前記頻度に関する情報を含むことと、
ｂ）前記照会用語に対応する照会用語−重みベクトルｑを潜在意味空間の中に投影し、縮約された照会用語−重みベクトルｑ_reducedを作成することと、
ｃ）潜在意味空間の中から前記照会用語−重みベクトルを展開し、前記展開された用語−重みベクトルｑ_expandedを作成することと、
ｄ）前記展開された照会用語−重みベクトルｑ_expanded及び文書用語−重みベクトルｄを使用し、前記照会に関係する用語として識別され、前記文書の内の少なくとも１つにも含まれるキーワードの集合の位置を突き止め、前記照会が前記キーワードを含む必要がないことと、
を含む方法。
照会から得られる１以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法であって、
ａ）１以上の文書用語−重みベクトルｄを含む用語−重み行列Ｍを作成し、各文書用語−重みベクトルｄが前記照会の前記用語から得られる前記１以上の文書の１つにおける前記頻度に関する情報を含むことと、
ｂ）Ｓが正方対角行列であり、Ｕがユニタリ変換行列であり、Ｖがユニタリ行列である３つの行列ＵＳＶ’の積として前記用語−重み行列Ｍを近似することと、
ｃ）潜在意味空間の中から前記照会用語−重みベクトルを展開し、前記展開された照会用語−重みベクトルｑ_expandedを作成することと、
ｄ）前記展開された照会用語−重みベクトルｑ_expanded及び文書用語−重みベクトルｄを使用し、前記商会に関係する用語として識別され、前記文書の少なくとも１つにも含まれるキーワードの集合の位置を突き止め、前記照会が前記キーワードを含む必要がないことと、
を含む方法。
コンピュータにおいて、照会から得られる１以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法であって、
ａ）ユーザごとに前記コンピュータにより作成される用語−重み行列Ｍを受け取り、１以上の文書用語−重みベクトルｄを含み、各文書が用語−重みベクトルｄが前記照会の前記用語から得られる前記１以上の文書の１つにおける前記頻度に関する情報を含むことと、
ｂ）ユーザごとに、前記照会用語−重みベクトルｑ及び用語−重み行列Ｍからコンピュータにより作成される展開された照会用語−重みベクトルｑ_expandedを受け取ることと、
ｃ）ユーザごとに、前記コンピュータによって識別されるキーワードの集合を受け取り、前記展開された照会用語−重みベクトルｑ_expanded及び前記文書用語−重みベクトルｄを、前記照会に関係し、前記文書の少なくとも１つにも含まれる用語として使用し、前記照会が前記キーワードを含む必要のないことと、
を含む方法。
コンピュータにおいて、１以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法であって、
ａ）ユーザごとに前記選択された照会の用語の前記１以上の文書における前記頻度に関する情報を含み、Ｓが正方対角行列であり、Ｕがユニタリ変換行列であり、Ｖがユニタリ行列である３つの行列ＵＳＶ’の積として前記コンピュータによって近似される用語重み行列Ｍを受け取ることと、
ｂ）ユーザごとに、前記等式ｑ_expanded＝Ｕ’Ｕｑに従って照会用語−重みベクトルｑを使用して該コンピュータによって作成される展開された照会用語−重みベクトルｑ_expandedを受け取ることと、
ｃ）ユーザごとに、前記コンピュータによって識別されるキーワードの集合を受け取り、前記照会に関係し、前記文書の少なくとも１つにも含まれる用語として前記展開された照会用語−重みベクトルｑ_expanded及び前記文書用語−重みベクトルｄを使用し、前記照会が前記キーワードを含む必要のないことと、
を含む方法。
１以上の選択された文書中にも含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、システムであって、
ａ）各文書用語−重みベクトルｄが前記照会の前記用語から得られる前記１以上の文書の１つにおける前記頻度に関する情報を含む１以上の文書用語−重みベクトルｄを含む用語−重み行列Ｍを作成することができ、前記照会用語−重みベクトルｑ及び前記用語−重み行列Ｍから展開された照会用語−重みベクトルｑ_expandedを作成することができ、前記展開された照会用語−重みベクトルｑ_expanded及び前記文書用語−重みベクトルｄを使用して、前記照会に関係し、前記文書の少なくとも１つにも含まれる用語として識別されるキーワードの集合の位置を突き止めることができ、前記照会が前記キーワードを含む必要のない１台または複数台のプロセッサと、
ｂ）前記１台または複数台のプロセッサによって処理されるときにシステムに、各文書用語−重みベクトルｄが前記照会の前記用語から得られる前記１以上の文書の１つにおける前記頻度に関する情報を含む１以上の文書用語−重みベクトルｄを含む、用語−重み行列Ｍを作成する前記ステップと、前記照会用語−重みベクトルｑ及び前記用語−重み行列Ｍから展開された照会用語−重みベクトルｑ_expandedを作成する前記ステップと、前記展開された照会用語−重みベクトルｑ_expanded及び前記文書用語−重みベクトルｄを使用して、前記照会に関係し、前記文書の少なくとも１つにも含まれる用語として識別されるキーワードの集合の位置を突き止める前記ステップとを実行させ、前記照会が前記キーワードを含む必要がない、その上に記憶される動作を含む機械可読媒体と、
を備えるシステム。
１以上の選択された文書に含まれる照会関連キーワードの集合を識別するための方法を実行するためにコンピュータによって実行可能であり、前記照会が前記キーワードを含む必要のない、コンピュータ・プログラムであって、
ａ）１以上の文書用語−重みベクトルｄを含む用語−重み行列Ｍを作成し、各文書用語−重みベクトルｄが前記照会の前記用語から得られる前記１以上の文書の１つにおける前記頻度に関する情報を含む命令と、
ｂ）前記照会用語−重みベクトルｑ及び前記用語−重み行列Ｍから展開された照会用語−重みベクトルｑ_expandedを作成する命令と、
ｃ）前記展開された照会用語−重みベクトルｑ_expanded及び前記文書用語−重みベクトルｄを使用し、前記照会に関係し、前記文書の少なくとも１つにも含まれる用語としてキーワードの集合の位置を突き止め、前記照会が前記キーワードを含む必要のない命令と、
を含むコンピュータ・プログラム。
１以上の選択された文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要のない、システムまたは装置であって、
ａ）１以上の用語−重みベクトルｄを含む用語−重み行列Ｍを作成するための手段であって、各文書用語−重みベクトルｄが前記選択された照会の中の用語の前記１以上の文書における前記頻度に関する情報を含む手段と、
ｂ）前記照会用語−重みベクトルｑ及び前記用語−重み行列Ｍから展開された照会用語−重みベクトルｑ_expandedを作成するための手段と、
ｃ）前記展開された照会用語−重みベクトルｑ_expanded及び前記用語−重み行列Ｍを使用して、前記照会に関係し、前記文書の少なくとも１つにも含まれる用語として識別されるキーワードの集合の位置を突き止め、前記照会が前記キーワードを含む必要のない手段と、
を備えるシステムまたは装置。