JP2006139783A - 照会から得られる1以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法及びシステム - Google Patents
照会から得られる1以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法及びシステム Download PDFInfo
- Publication number
- JP2006139783A JP2006139783A JP2005326733A JP2005326733A JP2006139783A JP 2006139783 A JP2006139783 A JP 2006139783A JP 2005326733 A JP2005326733 A JP 2005326733A JP 2005326733 A JP2005326733 A JP 2005326733A JP 2006139783 A JP2006139783 A JP 2006139783A
- Authority
- JP
- Japan
- Prior art keywords
- term
- query
- expanded
- weight vector
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99937—Sorting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】 潜在意味解析を使用して、検索で検出される文書内で照会に関係するキーワードを識別するためのシステム及び方法を提供すること。
【解決手段】 1つまたは複数の文書用語−重みベクトルdを含む用語−重み行列Mを作成する。この場合、各文書用語−重みベクトルdが前記照会の前記用語から得られる前記1つまたは複数の文書中の前記頻度に関する情報を含む。さらに、前記照会用語−重みベクトルqと前記用語−重み行列Mから展開された照会用語−重みベクトルqexpandedを作成する。さらにまた、前記展開された照会用語−重みベクトルqexpandedと前記文書用語−重みベクトルdを使用し、前記照会に関係し、前記文書の少なくとも1つにも含まれる用語として識別されるキーワードの集合の位置を突き止める。なお、前記照会が前記キーワードを含む必要がない。
【選択図】 図2
【解決手段】 1つまたは複数の文書用語−重みベクトルdを含む用語−重み行列Mを作成する。この場合、各文書用語−重みベクトルdが前記照会の前記用語から得られる前記1つまたは複数の文書中の前記頻度に関する情報を含む。さらに、前記照会用語−重みベクトルqと前記用語−重み行列Mから展開された照会用語−重みベクトルqexpandedを作成する。さらにまた、前記展開された照会用語−重みベクトルqexpandedと前記文書用語−重みベクトルdを使用し、前記照会に関係し、前記文書の少なくとも1つにも含まれる用語として識別されるキーワードの集合の位置を突き止める。なお、前記照会が前記キーワードを含む必要がない。
【選択図】 図2
Description
本発明は自動媒体分析の分野にあり、キーワードを識別するためのシステム及び方法に関し、特に潜在意味分析で文書中の照会関連キーワードを識別するためのシステム及び方法に関する。
従来のテキスト検索システム(例えばグーグル(Google))においては、ユーザにフィードバックを与えるために検索された文書中で発生する照会用語を強調(ハイライト)することが一般的である。しかしながら、この手法は潜在意味解析(LSA)を使用するときにはうまく行かない。LSAは種々の文書解析及び検索技法の基礎である。テキストをベースにした検索のためにLSAを使用することの1つの態様は、文書が指定された照会用語にきわめて関連性があると見なされてよいが、実際にはそれらの用語を含まない可能性があるということである。
非特許文献1は、関連する文書の間の類似および差異を要約することを開示しており、非特許文献2は、潜在意味解析によるインデッキシングを開示しており、非特許文献3は、知的情報検索のために線形代数を用いることを開示しており、非特許文献4は、知識の取得、誘導および表示についての潜在意味解析理論を開示している。
マミ、インダージート及びエリック ブロードーン、「サマライジング シミラリテイズ アンド デファレンシズ アマング リレイテッド ドキュメンツ」インフォーメイション リトリーバル、第1巻、第1−2号、ページ35−67(1999)(MANI, Inderjeet and Eric Bloedprn, "Summarizing Similarities and Differences among Related Documents", Information Retrieval, Vol. 1, Nos. 1-2, pp. 35-67 (1999)) デアウエスター、エス.、デユメス、エス.テイー.、ファーナス、ジー.ダブリュウ.、ランドー、テイー.ケイ.、ハーシュマン、アール.、「インデキシング バイ ラテント セマンテイック アナリシス」、ジャーナル オブ ザ アメリカン ソサイエテイ フォア インフォーメーション サイエンス、41−6、ページ391−407(1990)(DEERWESTER, S., Dumais, S.T., Furnas, G.W., Landauer, T.K., Harshman, R., "Indexing by Latent Semantic Analysis." Journal of the American Society for Information Science, 41-6, pp.391-407 (1990)) ベリー、エム.ダブリュウ.、デユメス、エス.テイー.、アンド ジー.ダブリュウ.オーブライエン、「ユージング リニア アルジブラ フォア インテリジェント インフォーメーション リトリーバル」、レビュー 37:4、ページ573−595(1995(BERY, M.W., S.T. Dumais and G.W. O'Brien, "Using Linear Algebra for Intelligent Information Retrieval, Review 37:4, pp. 573-595 (1995)) ランドー、テイー.ケイ.アンド エス.テイー.デユメス、「ア ソリューション ツー プラトーズ プロブレム:ザ ラテント セマンテイック アナリシス セオリ オブ アクイジッション、インダクション アンド リプリゼンテーション オブ ナリッジ」、サイコロジカル レビュー、104、ページ211−240(1997)(LANDAUER, T.K. and S.T. Dumais, "A Solution to Plato's Problem: The Latent Semantic Analysis Theory of Aquisition, Induction and Representation of Knowledge", Psychological Review, 104, pp. 211-240 (1997))
マミ、インダージート及びエリック ブロードーン、「サマライジング シミラリテイズ アンド デファレンシズ アマング リレイテッド ドキュメンツ」インフォーメイション リトリーバル、第1巻、第1−2号、ページ35−67(1999)(MANI, Inderjeet and Eric Bloedprn, "Summarizing Similarities and Differences among Related Documents", Information Retrieval, Vol. 1, Nos. 1-2, pp. 35-67 (1999)) デアウエスター、エス.、デユメス、エス.テイー.、ファーナス、ジー.ダブリュウ.、ランドー、テイー.ケイ.、ハーシュマン、アール.、「インデキシング バイ ラテント セマンテイック アナリシス」、ジャーナル オブ ザ アメリカン ソサイエテイ フォア インフォーメーション サイエンス、41−6、ページ391−407(1990)(DEERWESTER, S., Dumais, S.T., Furnas, G.W., Landauer, T.K., Harshman, R., "Indexing by Latent Semantic Analysis." Journal of the American Society for Information Science, 41-6, pp.391-407 (1990)) ベリー、エム.ダブリュウ.、デユメス、エス.テイー.、アンド ジー.ダブリュウ.オーブライエン、「ユージング リニア アルジブラ フォア インテリジェント インフォーメーション リトリーバル」、レビュー 37:4、ページ573−595(1995(BERY, M.W., S.T. Dumais and G.W. O'Brien, "Using Linear Algebra for Intelligent Information Retrieval, Review 37:4, pp. 573-595 (1995)) ランドー、テイー.ケイ.アンド エス.テイー.デユメス、「ア ソリューション ツー プラトーズ プロブレム:ザ ラテント セマンテイック アナリシス セオリ オブ アクイジッション、インダクション アンド リプリゼンテーション オブ ナリッジ」、サイコロジカル レビュー、104、ページ211−240(1997)(LANDAUER, T.K. and S.T. Dumais, "A Solution to Plato's Problem: The Latent Semantic Analysis Theory of Aquisition, Induction and Representation of Knowledge", Psychological Review, 104, pp. 211-240 (1997))
テキスト処理及び情報検索における多大な研究があり、その内の多くはLSA及び照会関係要約と一般的に呼ばれる研究の主題を含む類似した技法に基づいている。ここに説明されている本発明は、一般的には、その領域にあるものであり、別の文書Bに関連する文書Aの中の用語を検索することが、ある意味ではAの要約の形である。一般的には、この分野における研究はより伝統的な形式の要約、つまり要約として使用するために原始テキスト内でキーセンテンスを識別することを対象にする。
LSAは、潜在意味空間内で密接に関係する用語を検索することによる単一検索用語照会のために同義語を識別するように使用される。
照会が複数の検索用語を備えてよい潜在意味解析で文書中の照会関連キーワードを識別するためのシステム及び方法を開発することが望ましい。照会の文脈に従って照会関連キーワードの結果として生じるリストをフィルタにかけることも望ましい。キーワードが照会用語の集合の中に出現するかどうかに関わりなく、照会用語に最も密接に関係する検索された文書中のキーワードを識別することも望ましい。
潜在意味解析(LSA)または別のファジー検索技法が文書検索システムの基礎として使用されるとき、用語の集合として指定される照会が、照会で使用された正確な用語のどれも含まない関連性のある文書を生じさせることがある。なぜある特定の文書がその照会に関連性があると見なされたのかを示すためにユーザにフィードバックを提供することが有用である。照会用語の集合にキーワードが出現するかどうかに関わりなく、照会用語に最も密接に関係する、検索された文書中のキーワードを識別するための方法が説明される。
本発明の方法は、単一ワード照会だけではなく複数ワード照会も展開する。結果として生じる同義語リストが、検索文書の文脈によってフィルタにかけられる。本発明によれば、文書の集合体は、文書用語−頻度(tf)ベクトルあるいは文書用語−頻度逆数−文書−頻度(tf−idf)ベクトルであってよい文書用語−重みベクトルdの行列Mとして表現される。用語−重み行列Mは文書ごとに1つの列、及び用語ごとに1つの行を有する。
文書用語−重みベクトルdを含む用語−重み行列Mは、各文書が文書のどれかで発生する用語の部分集合だけを含むためにまばらである。行列は、それを構築するために使用される文書についての意味論的な情報を捕捉すると仮定される縮約次元空間の中に投影できる。
文書用語−重みベクトルdの用語−重み行列Mは不完全な特異値分解(SVD)を受ける。すなわち元の用語−重み行列Mは、Sが正方対角行列であり、UとVがユニタリ行列である3つの行列U S V’の積によって近似される。結果として生じる変換行列Uは、新しい照会用語−重みベクトルを縮約N次元空間の中に投影するために使用できる。
(ユーザが入力する大部分の照会はほとんど用語を使用しないためほとんどエントリを有さない可能性がある)照会用語−重みベクトルqが行列Uを使用して縮約次元潜在意味空間の中に投影され、縮約照会用語―重みベクトルqreducedを生じさせる。続いて、縮約照会用語−重みベクトルqreducedは、Uがユニタリであるために等式qexpanded=qreduced*U’=(q’*U)*U’に従ってU’であるUの逆数を使用して完全用語−重みベクトル空間の中に展開して戻され、この場合qexpandedは展開され、高密度で平滑化された最終的な結果である。
次に、キーワードを識別するために、展開された照会用語−重みベクトルqexpandedから検索文書中で発生しない用語が排除される。続いて、qexpandedの中で対応する最高値を有する多くの残りの用語が照会関係キーワードとして選択される。これらの用語は、ここで照会と返される文書の間の類似性の文脈を強調するために使用できる。
このプロセスを表すための等価的な方法は、照会と辞書全体の中のあらゆる用語との間の類似性を最初に計算することである。これが、潜在意味空間を使用するqexpandedの計算が達成することである。次のステップは、照会関係キーワードの集合として照会結果文書中でも発生する照会に最も類似した用語を選ぶことである。1つの考えられる類似性関数はドット積である。つまり、縮約次元照会用語−重みベクトルがU’で乗算されると、結果として生じる類似性ベクトルはドット積のベクトルである。代わりにコサイン類似性などの別の類似性の基準がここで使用できる。このケースでは、qexpandedベクトルの中のn番目の用語は、縮約次元用語−重みベクトル(qreduced ’*U)とUの行nの間のコサイン類似性(または他の類似性関数)を計算することにより形成されるであろう。
代わりに、展開された照会用語−重みベクトルqexpandedと文書用語−重みベクトルdの用語毎の積が取られ、結果として生じる最大値のなんらかの数に対応する用語がキーワードとして使用される。積を取ることにより、照会と文書の両方に対する各用語の相対的な重要性が組み込まれる。
本発明の実施形態は、各ビデオのショットとストーリーへの検索前セグメンテーションを利用する。ストーリーは時間整合されたテキスト内でのトピックの変化を検出することにより作成される。ストーリーはビデオ検索のための文書として使用される。
本発明の請求項1の態様は、照会から得られる1以上の(1つまたは複数の)文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法であって、a)1以上の文書用語−重みベクトルdを含む用語−重み行列Mを作成し、各文書用語−重みベクトルdが前記照会の前記用語から得られる前記1以上の文書中の前記頻度に関する情報を含むことと、b)前記照会用語−重みベクトルqと前記用語−重み行列Mから展開された照会用語−重みベクトルqexpandedを作成することと、c)前記展開された照会用語−重みベクトルqexpandedと前記文書用語−重みベクトルdを使用し、前記照会に関係し、前記文書の少なくとも1つにも含まれる用語として識別されるキーワードの集合の位置を突き止め、前記照会が前記キーワードを含む必要がないことと、を含む方法を提供する。
本発明の請求項2の態様では、前記請求項1の態様の方法において、前記文書用語−重みベクトルdが用語−頻度ベクトルである。
本発明の請求項3の態様では、請求項1の態様の方法において、前記文書用語−重みベクトルdが用語−頻度逆数−文書頻度(tf−idf)ベクトルであり、そのn番目の構成要素がa)前記n番目の用語の文書dの中の用語−頻度と、b)前記n番目の用語を含む前記文書の断片の関数として計算される。
本発明の請求項4の態様では、請求項3の態様の方法において、前記関数が等式tf−idf=(1.0+log(tf))*log(1/df)に従って計算され、ここではtfが文書dの中のn番目の用語の用語−頻度であり、dfがn番目の用語を含む文書の断片である。
本発明の請求項5の態様では、請求項1の態様の方法において、キーワードの集合の位置を突き止める前記ステップが、前記文書の少なくとも1つの中に含まれ、前記展開された照会用語−重みベクトルqexpandedの中で最高値を有するキーワードを選択することを含む。
本発明の請求項6の態様では、請求項1の態様の方法において、キーワードの集合の位置を突き止めるステップは、c1)文書ごとに、展開された照会用語−重みベクトルqexpanded及び前記対応する文書用語−重みベクトルdの用語ごとの積を計算することと、c2)前記計算された積の中で最高値を有するキーワードを選択することとを含む。
本発明の請求項7の態様では、請求項1の態様の方法において、前記展開された照会用語−重みベクトルqexpandedを作成することは、b1)前記照会用語に対応する照会用語−重みベクトルqを潜在意味空間に投影し、縮約された照会用語−重みベクトルqreducedを作成することと、b2)潜在意味空間の中から前記照会用語−重みベクトルを展開して戻し、前期展開された照会用語−重みベクトルqexpandedを作成することと、を含む。
本発明の請求項8の態様では、請求項7の態様の方法において、前記投影するステップが、b11)Sが正方対角行列であり、Uがユニタリ変換行列であり、Vがユニタリ行列である3つの行列U S V’の積として用語−重み行列Mを近似することと、を含む。
本発明の請求項9の態様では、請求項8の態様の方法において、前記投影するステップが、b12)縮約された照会用語−重みベクトルqreduced=q’*Uを作成することをさらに含む。
本発明の請求項10の態様では、請求項8の態様の方法において、前記照会用語−重みベクトルqを展開する前記ステップが、b21)前記等式qexpanded=qreduced*U’=(q’*U)*U’に従って前記展開された照会用語−重みベクトルを作成することを含む。
本発明の請求項11の態様では、請求項7の態様の方法において、前記照会用語−重みベクトルqを展開する前記ステップが、b21)縮約された照会用語−重みベクトルqreducedと前記ユニタリ変換行列Uの行nの類似性関数を計算することによりqexpandedのn個の用語のそれぞれを計算することを含む。
本発明の請求項12の態様では、請求項11の態様の方法において、前記類似性関数がコサイン類似性関数である。
本発明の請求項13の態様では、請求項1の態様の方法において、展開された照会用語−重みベクトルqexpandedを作成することが、b1)Sが正方対角行列であり、Uがユニタリ変換行列であり、Vがユニタリ行列である3つの行列U S V’の積として前記用語−重み行列Mを近似することを含む。
本発明の請求項14の態様では、請求項13の態様の方法において、展開された照会用語−重みベクトルqexpandedを作成することが、b2)等式qexpanded=U’Uqに従って照会用語−重みベクトルqを使用して前記展開された照会用語−重みベクトルqexpandedを作成することをさらに含む。
本発明の請求項15の態様では、請求項1の態様の方法において、d)前記キーワードを強調することをさらに含む。
本発明の請求項16の態様では、請求項1の態様の方法において、前記文書がテキスト文書である。
本発明の請求項17の態様では、請求項1の態様の方法において、前記文書がビデオセグメントに関連付けられるテキストである。
本発明の請求項18の態様は、照会から1以上の文書の中に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法であって、a)1以上の文書用語−重みベクトルdを含む用語−重み行列Mを作成し、各文書用語−重みベクトルdが前記照会の前記用語から得られる前記1以上の文書の1つの前記頻度に関する情報を含むことと、b)前記照会用語に対応する照会用語−重みベクトルqを潜在意味空間の中に投影し、縮約された照会用語−重みベクトルqreducedを作成することと、c)潜在意味空間の中から前記照会用語−重みベクトルを展開し、前記展開された用語−重みベクトルqexpandedを作成することと、d)前記展開された照会用語−重みベクトルqexpanded及び文書用語−重みベクトルdを使用し、前記照会に関係する用語として識別され、前記文書の内の少なくとも1つにも含まれるキーワードの集合の位置を突き止め、前記照会が前記キーワードを含む必要がないこととを含む方法である。
本発明の請求項19の態様は、照会から得られる1以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法であって、a)1以上の文書用語−重みベクトルdを含む用語−重み行列Mを作成し、各文書用語−重みベクトルdが前記照会の前記用語から得られる前記1以上の文書の1つにおける前記頻度に関する情報を含むことと、b)Sが正方対角行列であり、Uがユニタリ変換行列であり、Vがユニタリ行列である3つの行列U S V’の積として前記用語−重み行列Mを近似することと、c)潜在意味空間の中から前記照会用語−重みベクトルを展開し、前記展開された照会用語−重みベクトルqexpandedを作成することと、d)前記展開された照会用語−重みベクトルqexpanded及び文書用語−重みベクトルdを使用し、前記商会に関係する用語として識別され、前記文書の少なくとも1つにも含まれるキーワードの集合の位置を突き止め、前記照会が前記キーワードを含む必要がないことと、を含む方法である。
本発明の請求項20の態様は、コンピュータにおいて、照会から得られる1以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法であって、a)ユーザごとに前記コンピュータにより作成される用語−重み行列Mを受け取り、1以上の文書用語−重みベクトルdを含み、各文書が用語−重みベクトルdが前記照会の前記用語から得られる前記1以上の文書の1つにおける前記頻度に関する情報を含むことと、b)ユーザごとに、前記照会用語−重みベクトルq及び用語−重み行列Mからコンピュータにより作成される展開された照会用語−重みベクトルqexpandedを受け取ることと、c)ユーザごとに、前記コンピュータによって識別されるキーワードの集合を受け取り、前記展開された照会用語−重みベクトルqexpanded及び前記文書用語−重みベクトルdを、前記照会に関係し、前記文書の少なくとも1つにも含まれる用語として使用し、前記照会が前記キーワードを含む必要のないことと、を含む方法である。
本発明の請求項21の態様は、コンピュータにおいて、1以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法であって、a)ユーザごとに前記選択された照会の用語の前記1以上の文書における前記頻度に関する情報を含み、Sが正方対角行列であり、Uがユニタリ変換行列であり、Vがユニタリ行列である3つの行列U S V’の積として前記コンピュータによって近似される用語重み行列Mを受け取ることと、b)ユーザごとに、前記等式qexpanded=U’Uqに従って照会用語−重みベクトルqを使用して該コンピュータによって作成される展開された照会用語−重みベクトルqexpandedを受け取ることと、c)ユーザごとに、前記コンピュータによって識別されるキーワードの集合を受け取り、前記照会に関係し、前記文書の少なくとも1つにも含まれる用語として前記展開された照会用語−重みベクトルqexpanded及び前記文書用語−重みベクトルdを使用し、前記照会が前記キーワードを含む必要のないことと、を含む方法である。
本発明の請求項22の態様は、1以上の選択された文書中にも含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、システムであって、a)各文書用語−重みベクトルdが前記照会の前記用語から得られる前記1以上の文書の1つにおける前記頻度に関する情報を含む1以上の文書用語−重みベクトルdを含む用語−重み行列Mを作成することができ、前記照会用語−重みベクトルq及び前記用語−重み行列Mから展開された照会用語−重みベクトルqexpandedを作成することができ、前記展開された照会用語−重みベクトルqexpanded及び前記文書用語−重みベクトルdを使用して、前記照会に関係し、前記文書の少なくとも1つにも含まれる用語として識別されるキーワードの集合の位置を突き止めることができ、前記照会が前記キーワードを含む必要のない1台または複数台のプロセッサと、b)前記1台または複数台のプロセッサによって処理されるときにシステムに、各文書用語−重みベクトルdが前記照会の前記用語から得られる前記1以上の文書の1つにおける前記頻度に関する情報を含む1以上の文書用語−重みベクトルdを含む、用語−重み行列Mを作成する前記ステップと、前記照会用語−重みベクトルq及び前記用語−重み行列Mから展開された照会用語−重みベクトルqexpandedを作成する前記ステップと、前記展開された照会用語−重みベクトルqexpanded及び前記文書用語−重みベクトルdを使用して、前記照会に関係し、前記文書の少なくとも1つにも含まれる用語として識別されるキーワードの集合の位置を突き止める前記ステップとを実行させ、前記照会が前記キーワードを含む必要がない、その上に記憶される動作を含む機械可読媒体とを備えるシステムである。
本発明の請求項23の態様は、1以上の選択された文書に含まれる照会関連キーワードの集合を識別するための方法を実行するためにコンピュータによって実行可能であり、前記照会が前記キーワードを含む必要のない、コンピュータ・プログラムであって、a)1以上の文書用語−重みベクトルdを含む用語−重み行列Mを作成し、各文書用語−重みベクトルdが前記照会の前記用語から得られる前記1以上の文書の1つにおける前記頻度に関する情報を含む命令と、b)前記照会用語−重みベクトルq及び前記用語−重み行列Mから展開された照会用語−重みベクトルqexpandedを作成する命令と、c)前記展開された照会用語−重みベクトルqexpanded及び前記文書用語−重みベクトルdを使用し、前記照会に関係し、前記文書の少なくとも1つにも含まれる用語としてキーワードの集合の位置を突き止め、前記照会が前記キーワードを含む必要のない命令と、を含むコンピュータ・プログラムである。
本発明の請求項24の態様は、1以上の選択された文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要のない、システムまたは装置であって、a)1以上の用語−重みベクトルdを含む用語−重み行列Mを作成するための手段であって、各文書用語−重みベクトルdが前記選択された照会の中の用語の前記1以上の文書における前記頻度に関する情報を含む手段と、b)前記照会用語−重みベクトルq及び前記用語−重み行列Mから展開された照会用語−重みベクトルqexpandedを作成するための手段と、c)前記展開された照会用語−重みベクトルqexpanded及び前記用語−重み行列Mを使用して、前記照会に関係し、前記文書の少なくとも1つにも含まれる用語として識別されるキーワードの集合の位置を突き止め、前記照会が前記キーワードを含む必要のない手段と、を備えるシステムまたは装置である。
本発明によれば、キーワードが照会用語の集合に出現するかどうかに関わりなく、照会用語に最も密接に関係する、検索された文書中の用語を識別することが出来る等の優れた効果が得られる。
潜在意味解析(LSA)または別のファジー検索技法が文書検索システムの基礎として使用されるとき、用語の集合として指定される照会が、照会で使用される正確な用語のどれも含まない関連性のある文書を生じさせることがある。なぜある特定の文書がその当該照会に関連性があると見なされたのかを示すためにユーザにフィードバックを提供することが有用である。一例として、照会「オレンジ」がこの用語を含まないが、それらが「リンゴ」や「食べた」などの非常に強く相互に関連付けられた用語を含むために当該照会に密接に関係する文書を返す可能性があるのは道理に適っている。ユーザに、返された文書からのこれらの用語が該照会にきわめて関連性があったことを伝達することは有用である。
キーワードが照会用語の集合に出現するかどうかに関わりなく、照会用語に最も密接に関係する、検索された文書中の用語を識別するための方法が説明される。
本方法は、単一ワード照会だけではなく複数ワード照会も展開する。結果として生じる同義語リスト、は検索文書の文脈によってフィルタにかけられる。本発明によれば、文書の集合体は、文書用語−頻度(tf)ベクトルあるいは文書用語−頻度逆数−文書−頻度(tf−idf)ベクトルであってよい文書用語−重みベクトルdの行列Mとして表される。
用語−頻度(tf)を含む実施形態においては、行列の各列は文書を表し、行列の各行は用語を表す。したがって、行列は集合の中の文書数と同じ数の列、及び少なくとも1つの文書中で発生する一意の用語の数と同じ行を有する。行列中の各列は1つの文書中の用語頻度を説明するベクトルである。行t及び列dでの値は文書dの中のテキスト#tの用語−頻度である(tfケース)。
tf−idf実施形態では、用語−頻度逆数−文書−頻度行列中の各値は、文書の完全な集合の中の用語−頻度及び用語#tの全体の頻度の関数である。tf−idf関数は多くの形を取りうる。この関数の1つの例示的な形は、tf−idf=(1.0+log(tf))*log(idf)=(1.0+log(tf))*log(1/df)であり、この場合、tfは用語#tが文書dの中で発生する回数であり、dfは用語#tが発生する文書の断片である。tf−idfベクトルを作成する上で、最初に、tfベクトルと逆数−文書−用語−頻度ベクトルidfが作成され、次に該tf−idfベクトルの要素を求めるために適切な公式が適用される。
用語−重み行列Mは、各文書が文書の中のどれかで発生する用語の部分集合だけを含むためにまばらである。その行列は、用語の組み合わせが複数の文書に出現する共起性のパターンも含む。その行列は、それを構築するために使用される文書についての意味論的な情報を捕捉すると仮定される縮約次元空間の中に投影できる。
1つの組の実施形態によれば、文書用語−重みベクトルdの用語−重み行列Mは、不完全な特異値分解(SVD)を受ける。すなわち、T行及びD列の元の用語−重み行列Mは、3つの行列U S V’の積によって近似され、この場合、Sは、Nの選択肢が任意であるが、通常はN<<T及びN<<DであるサイズNの正方対角行列であり、UとVは、それぞれ次元NバイTおよび次元DバイNのユニタリ行列である。結果として生じる変換行列Uは、新しい照会用語−重みベクトルを縮約N次元空間の中に投影するために使用できる。
各文書用語−重みベクトルd及び結果として生じる行列Mは、一度計算されてから、次に記憶される。この行列または類似する表現を記憶することは、標準的なテキスト検索方法に類似した目的を果たす。新しい文書は、旧い文書の少なくとも1つに存在しない、新しい文書中のすべての用語を無視することの近似により行列に増分的に加えることができる。したがって新しい文書は用語−重み行列Mの計算には寄与しないが、旧い文書だけを使用した計算により確立されるマッピングを使用するであろう。文書用語−重み行列M及び変換行列Uは、新しい文書をさらに完全に組み込むために、定期的に最初から計算し直すことができる。
ユーザが入力する大部分の照会はほとんど用語を使用しないため、照会用語−重みベクトルqはほとんどエントリを有さない、つまりまったくまばらである可能性がある。照会用語−重みベクトルqは行列Uを使用して縮約次元潜在意味空間の中に投影され、縮尺照会用語−重みベクトルqreducedを生じさせる。続いて、照会用語−重みベクトルqは、Uがユニタリであるために、等式qexpanded=qreduced*U’=(q’*U)*U’に従ってU’である逆数Uを使用して完全用語−重みベクトル空間の中に展開して戻され、この場合qは元に照会用語から形成される(おそらくきわめてまばらな)照会用語−重みベクトルであり、qreducedは潜在意味解析空間の中への投影の縮約された結果であり、qexpandedは展開され、高密度で平滑化された最終的な結果である。
次に、キーワードを識別するために、検索文書では発生しない用語が、展開された照会用語−重みベクトルqexpandedから排除される。続いて、qexpandedの中の対応する最高値の付いた多くの残りの用語、つまり照会に対する最高の類似性をもった用語が照会関係キーワードとして選択される。これらの用語は、ここでは照会と返される文書の間の類似性の文脈を強調するために使用できる。
このプロセスを表すための同等な方法は、最初に照会と辞書の中のあらゆる用語の間の類似性を計算することである。これが、潜在意味空間を使用するqexpandedの計算が達成することである。次のステップは、照会関係キーワードの集合としてやはり検索結果文書に発生する照会に最も類似する用語を選ぶことである。ある実施形態によると、使用される類似性関数はドット積である、つまり、縮約次元照会用語−重みベクトルがU’を乗算されると、結果として生じる類似性ベクトルはドット積のベクトルである。代わりに、コサイン類似性などの別の類似性基準がここで使用できる。この場合には、qexpandedのベクトルの中のn番目の用語が、縮約次元照会用語−重みベクトル(qreduced’*U)とUの行tの間のコサイン類似性(または他の類似性関数)を計算することによって形成されるであろう。
他の組の実施形態では、展開された照会用語−重みベクトルqexpandedと用語−重みベクトルとの用語毎の積が取られ、結果として生じる最大値のうちのある数に対応する用語がキーワードとして使用される。この実施形態では、積を取ることによって、照会と文書の両方に対する各用語の相対的な重要性が組み込まれる。
他の組の実施形態によると、照会から一致するキーワードが、文書と照会が一致した文脈の表示を提供するために検索結果で強調されてよい。
本発明の実施形態は、各ビデオのショットとストーリーへの検索前セグメンテーションを利用する。ストーリーは時間整合されたテキスト内でのトピックの変化を検出することにより作成される。ストーリーはビデオ検索のための文書として使用される。
図1は、文書の集合体の中で含まれる1つの特定の文書130のための用語−頻度ベクトル110及び用語頻度−逆数文書頻度(tf−idf)ベクトル120の作成を描く概略図である。文書130は、「そのシマウマは火曜日に2個のリンゴを食べ、そして今日1個のリンゴを食べた」という文章で構成されている。このテキストは、照会で検出される1以上の文書130に出現するすべての関連性のある用語150を含む辞書140を作成するために標準テキスト前処理132を経験する。関連性のある用語150は「その」と「そして」などの余分な用語が排除され、他の用語150が該当する場合に一般的な形式に縮約された後に残っているすべての用語150である。余分な用語は、辞書140の中へのそれらの包含を正当化するほど十分にキーワード識別で役立たない。それらの共通な形式への他の用語150の縮約は、単数名詞と複数名詞の違いなどの、明白であるが助けにならない「差異」を排除することによりキーワード識別の精度を高める。例えば、「リンゴ(apples)」などの複数名詞は通常「リンゴ(apple)」という単数形に変更される。各用語150が発生する回数が数えられ152、辞書140と一致する用語頻度ベクトル110がそれにより作成される。この例では、1より大きい頻度を有する唯一の用語は用語「リンゴ(apple)」である。文書頻度ベクトル160は、各辞書用語を含む検索で検出される文書の断片を決定することによりコンパイルされる。この例では、辞書の中の第1の用語150「リンゴ(apple)」は全文書の.1で発生し、最後の用語150、「シマウマ」は全文書の.9で発生する。tf−idf関数の計算170は、1つの例示的な公式に従って描かれる。tf−idfベクトル120はそれにより生成される。このプロセスの効果とは、最終的なtf−idfベクトル120では、用語「リンゴ(apple)」のための値が、それが検索で2回出現するため、及びそれが文書の集合体では相対的にまれであるため増幅され、用語「シマウマ」のための値は、この用語が文書130の集合体の中で大変広く行き渡っているために減衰されているという点である。
図2は、1以上の選択された文書に含まれる照会関連キーワードの集合を識別するための方法を描く概略図であり、照会はキーワードを含む必要はない。予備的なステップとして、文書用語−重みベクトルdの用語−重み行列Mは不完全な特異値分解(SVD)を受ける。すなわち、T行及びD列の元の用語−重み行列Mは、3つの行列U S V’の積によって近似され、Sは、Nの選択肢が任意であるが、通常はN<<T及びN<<DであるサイズNの正方対角行列であり、UとVは、それぞれ、次元NバイT及び次元DバイNのユニタリ行列である、。結果として生じる変換行列Uは、新しい照会用語−重みベクトルを縮約N次元空間の中に投影するために使用できる。
照会用語−重みベクトル270は、やはりUとして記述される行列272を使用して縮約次元空間の中に投影され、次に、Uがユニタリであるから、U’:qexpanded=(qreduced’*U)*U’であるUの逆数である行列274を使用して完全用語−重みベクトル空間の中に展開して戻される。
次に、キーワードを識別するために、並べ替え及び選択プロセス285が発生する。検索文書中で発生しない用語はqexpandedから排除される。続いて、qexpandedの中の最高値が付いた残りの用語のうちの多くのものが、最終的な結果、つまり照会関係キーワード290の集合を生じさせるために選択される。ある実施形態では、これらのステップは、この場合にもdとして記述される文書用語−重みベクトル283内でもゼロ以外であるqexpandedの中の最高値の付いた用語を選択することにより、行われてもよい。結果として生じるキーワード290は、ここでは照会と返される文書の間の類似性の文脈を強調するために使用できる。
図3は、キーワードを選択するプロセスの概要を示すフローチャートである。照会用語はステップ300で受け取られる。ステップ310では、照会用語に関係する用語が識別される。ステップ345では、文書が用語、つまり照会用語と関係する用語の両方について検索される。ステップ360では、文書用語情報及び照会用語に関係する用語に関する情報が結合される。ステップ370では、キーワードが結果から作成される。
図4は、用語−重みベクトルが、用語−頻度ベクトル、すなわち照会用語−頻度ベクトルであり、かつ文書用語−頻度ベクトルが生成されるケースについてキーワードを選択するプロセスを示すフローチャートである。照会用語はステップ400で受け取られる。ステップ412では、照会用語は照会用語頻度ベクトルqに変換される。ステップ414では、照会用語−頻度ベクトルqは縮約次元潜在意味空間の中に投影される。ステップ416では、照会用語−頻度ベクトルqが照会意味空間の中から展開し直され、展開された照会用語―頻度ベクトルqexpandedを生じさせる。この図におけるステップ412、414、及び416、つまり破線417の内側に位置する3つのステップは、図3におけるステップ310の特殊なケースを集合的に構成する。ステップ445では、文書は、用語、つまり照会用語と関係する用語の両方について検索される。ステップ450では、文書用語−頻度ベクトルは検索の結果に基づいて作成される。ステップ460では、文書用語−頻度ベクトルは、展開された照会用語−頻度ベクトルqexpandedを参照することによりフィルタにかけられ、各候補文書用語−頻度ベクトルの類似性は展開された照会用語−頻度ベクトルqexpandedに関して測定される。例示的な類似性関数はドット積とコサイン類似性である。大部分の類似する文書の構成可能な数が検索の結果として返される。ステップ460は図3のステップ360の特殊なケースを構成する。ステップ470では、キーワードが結果から生成される。
図5は、用語−重みベクトルがtf−idfベクトル、即ち照会tf−idfベクトルであり、かつ文書tf−idfベクトルが生成されるケースについてキーワードを選択するプロセスを示すフローチャートである。図5は、キーワードベクトルがどのようにして生成されるのかについての、さらに詳細をも提示している。使用される照会は、一例として示される文書中には出現しない「オレンジ」である。用語「リンゴ」及び「オレンジ」はこの特定の意味空間内で密接に関係している。照会用語はステップ500において受け取られる。ステップ512では、照会用語は照会tf−idfベクトルqに変換される。ステップ514では、照会tf−idfベクトルqが縮約次元潜在意味空間の中に投影され、縮約された照会tf−idfベクトルqreducedを生じさせる。ステップ516では、縮約された照会tf−idfベクトルqreducedは潜在意味空間の中から展開し直され、例示的な値が描かれた状態で、qexpandedとしても知られる展開された照会tf−idfベクトル518を生じさせる。この図のステップ512、514、及び516、つまり破線517の内側に位置する3つのステップが図3のステップ310の特殊なケースを集合的に構成する。ステップ545では、文書は辞書540の中の用語、つまり照会用語と関係用語両方について検索される。ステップ550では、例示的な値が示されているような状態で、文書tf−idfベクトル555が検索の結果に基づいて作成される。このステップは図1にさらに詳細に表示される。ステップ560では、文書tf−idfベクトル555は、展開された照会tf−idfベクトル518を参照してフィルタにかけられ、各候補文書tf−idfベクトル55の類似性は展開された照会tf−idfベクトル518に関して測定される。例示的な類似性関数はドット積及びコサイン類似性である。1つの他の例として、用語が少なくとも1つの文書で発生する場合、用語はキーワードベクトルの構成要素となり、用語が任意の文書に含まれていない場合には、次にキーワードベクトルの対応する値がゼロである。この実施形態は、フィルタステップ560の後に、例示的な値が示されているような状態で、得られたキーワードベクトル565によって示されている。設定可能な数の殆どの類似する文書が、検索の結果として返される。ステップ560は、図3のステップ360の特殊なケースを構成する。
ステップ566では、文書用語の並べられたリストが、辞書540にキーワードベクトル565を適用することにより作成される。ステップ568では、上位にランクされた用語(複数の場合がある)が選択される。ステップ569では、「リンゴ」などのこれらの上位にランクされた用語(複数の場合がある)を使用してキーワードベクトルが作成される。この図におけるステップ566、567及び569、つまり点線569の内側に位置する3つのステップは、集合的に図4におけるステップ470の、及び図3のステップ370のさらに詳細な特殊なケースを構成する。
<システムの実現>
図6は、本発明による方法を実施するために適した汎用コンピュータシステム600を示すブロック図である。汎用コンピュータシステム600は1または複数のプロセッサ602を含む。カーソル制御装置605はマウス、ジョイスティック、一連のボタン、あるいはユーザがカーソルまたポインタのディスプレイモニタ604上での位置を制御できるようにする任意の他の入力装置として実現される。汎用コンピュータは、ランダム・アクセス・メモリ607、外部記憶装置603、ROMメモリ608、キーボード606、モデム610及びグラフィックス・コプロセッサ609をも含んでいてもよい。カーソル制御装置605及び/またはキーボード606は、本発明に従ってユーザ入力を受け取るための例示的なユーザインタフェースである。汎用コンピュータ600の要素のすべては多様な要素間でデータをトランスポートするために共通なバス601によって必要に応じて接続される。バス601は、通常、データ、アドレス、及び制御信号を含む。図6に示されている汎用コンピュータ600は、この汎用コンピュータ600の要素のすべてを互いに接続する単一のデータバス601を含んでいるが、汎用コンピュータ600の種々の要素を接続する単一の通信バス601があるということは要求されていない。例えば、1または複数のプロセッサ602、RAM607、ROM608及びグラフィックスコプロセッサ609が代替としてデータバスに一緒に接続され、他方、ハードディスク603、モデム610、キーボード606、ディスプレイモニタ604及びカーソル制御装置605は、第2のデータバス(図示せず)に接続される。この場合には、第1のデータバス601及び第2のデータバス(図示せず)は双方向バスインタフェースによりリンクされる。あるいは、1または複数のプロセッサ602及びグラフィックスコプロセッサ609などの要素のいくつかは、第1のデータバス601と第2のデータバス(図示せず)の両方に接続されており、第1のデータバスと第2のデータバスの間の通信は、1または複数のプロセッサ602とグラフィックス・コプロセッサ609を経由して生ずる。本発明の方法は、このようにして図6に示されている600などの任意の汎用コンピュータシステムで実行可能であるが、このコンピュータシステムは本発明の方法を実行できる唯一のコンピュータシステムであるという限定のないことは明白である。
<システムの実現>
図6は、本発明による方法を実施するために適した汎用コンピュータシステム600を示すブロック図である。汎用コンピュータシステム600は1または複数のプロセッサ602を含む。カーソル制御装置605はマウス、ジョイスティック、一連のボタン、あるいはユーザがカーソルまたポインタのディスプレイモニタ604上での位置を制御できるようにする任意の他の入力装置として実現される。汎用コンピュータは、ランダム・アクセス・メモリ607、外部記憶装置603、ROMメモリ608、キーボード606、モデム610及びグラフィックス・コプロセッサ609をも含んでいてもよい。カーソル制御装置605及び/またはキーボード606は、本発明に従ってユーザ入力を受け取るための例示的なユーザインタフェースである。汎用コンピュータ600の要素のすべては多様な要素間でデータをトランスポートするために共通なバス601によって必要に応じて接続される。バス601は、通常、データ、アドレス、及び制御信号を含む。図6に示されている汎用コンピュータ600は、この汎用コンピュータ600の要素のすべてを互いに接続する単一のデータバス601を含んでいるが、汎用コンピュータ600の種々の要素を接続する単一の通信バス601があるということは要求されていない。例えば、1または複数のプロセッサ602、RAM607、ROM608及びグラフィックスコプロセッサ609が代替としてデータバスに一緒に接続され、他方、ハードディスク603、モデム610、キーボード606、ディスプレイモニタ604及びカーソル制御装置605は、第2のデータバス(図示せず)に接続される。この場合には、第1のデータバス601及び第2のデータバス(図示せず)は双方向バスインタフェースによりリンクされる。あるいは、1または複数のプロセッサ602及びグラフィックスコプロセッサ609などの要素のいくつかは、第1のデータバス601と第2のデータバス(図示せず)の両方に接続されており、第1のデータバスと第2のデータバスの間の通信は、1または複数のプロセッサ602とグラフィックス・コプロセッサ609を経由して生ずる。本発明の方法は、このようにして図6に示されている600などの任意の汎用コンピュータシステムで実行可能であるが、このコンピュータシステムは本発明の方法を実行できる唯一のコンピュータシステムであるという限定のないことは明白である。
典型的な実施では、オペレータはコンピュータディスプレイ、及び例えばユニックス・ウインドウズ(Unix(登録商標) Windows(登録商標))環境、マック・オーエス(Mac OS)、またはマイクロソフト・ウインドウズ(Microsoft Windows(登録商標))環境、または他のなんらかのグラフィックアプリケーション環境などその上で実行するなんらかの形のグラフィックインタフェースを含むコンピュータシステムを使用する。本発明の実施形態が、他の形式のグラフィックユーザインタフェース(GUI)とともに等しく使用できることは当業者に明らかであろう。
適切なソフトウェアコーディングは、ソフトウェア技術の当業者に明らかとなるように本開示の教示に基づいて熟練したプログラマにより容易に作成できる。本発明の実施形態は、当業者に容易に明らかとなるように、特定用途向け集積回路の作成によって、あるいは従来の構成要素回路の適切なネットワークを相互接続することによって実現されてもよい。
本発明の実施形態は、命令を記憶させる1つの記憶媒体(複数の媒体)である/本発明のプロセスのどれかを実行するようにコンピュータをプログラミングするために使用できるコンピュータプログラム製品を含む。その記憶媒体は、フロッピー(登録商標)ディスク、光ディスク、DVD、CD−ROM、マイクロドライブ、磁気光学ディスクを含む任意のタイプのディスク、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、フラッシュメモリデバイス、磁気カードまたは光カード、(分子メモリICを含む)ナノシステム、あるいは命令及び/またはデータを記憶するために適切な任意のタイプの媒体またはデバイスを含みうるが、これらに限定されない。
本発明の実施形態は、汎用/専用コンピュータまたはマイクロプロセッサの両方のハードウェアを制御するため、及びコンピュータまたはマイクロプロセッサが人間のオペレータまたは本発明の結果を活用する他の機構と対話できるようにするために、1つのコンピュータ可読媒体(複数の媒体)のどれか1つに記憶されるソフトウェアを含む。このようなソフトウェアは、デバイスドライバ、オペレーティングシステム及びユーザアプリケーションを含んでよいが、これらに限定されない。究極的には、このようなコンピュータ可読媒体はさらに前述されたように本発明を実行するためのソフトウェアを含む。
1つのコンピュータ可読媒体(複数の媒体)のどれか1つに記憶され、本発明の実施形態は汎用/特化コンピュータまたはプロセッサの両方のハードウェアを制御するため、及びコンピュータまたはプロセッサが人間のユーザまたは本発明の実施形態の結果を活用する他の機構と対話できるようにするためのソフトウェアを含む。このようなソフトウェアは、デバイスドライバ、オペレーティングシステム、及びユーザアプリケーションを含んでよいが、これらに限定されない。究極的には、このようなコンピュータ可読媒体は、上述のように、本発明の実施形態を実行するためのソフトウェアをさらに含む。
汎用/専用コンピュータまたはプロセッサのソフトウェアには、有用な画像を検出すること、それぞれの画像が「ビネット」にどれほど密接に似ているのかに基づいた有効性の順序で画像をランク付けすること、及び本発明の実施形態のプロセスに従って結果を通信することを含むが、これらに限定されない本発明の教示を実現するためのソフトウェアモジュールが含まれる。
本発明の実施形態は、コンピュータ技術の当業者に明らかとなるように、本開示の教示に従ってプログラムされた汎用または専用デジタルコンピュータまたはプロセッサを使用して便利に実現されうる。
本発明の前述の説明は、例示及び説明の目的で提示された。この説明は、網羅的でもなければ、本発明を開示された正確な形態に制限するものでもない。多くの修正及び変更が当業者に明らかとなるであろう。特に、画像を検出し、ビネットスコアに基づいた有効性の順序での数値ランクでランク付けするという前述の特徴は、上述したものを凌ぐ他のタイプのソフトウェアアプリケーションに組み込むことができることは明らかであろう。上記の実施形態は、本発明の原理及びその実際適用について最もよく説明するために選択されかつ記述され、それにより、種々の実施形態について、及び意図された特定の使用に適した種々の修正について、当業者が本発明を理解できるようにしたものである。本発明の範囲は、以下の請求項及びその同等物により定義されるものと意図されている。
本発明の好適実施形態(複数の場合がある)は、以下の図に基づいて詳細に説明される。
従来の技術に従って、文書の集合体の中に含まれる1つの特定の文書130のための用語−頻度ベクトル110及び用語頻度−逆数文書頻度(tf−idf)ベクトル120の生成を示す概略図である。
行列Uを使用する縮約次元空間の中への照会用語−重みベクトルqの投影と、その後に続くUの逆を使用する完全用語−重みベクトル空間への展開とを示す概略図である。
キーワードを選択するプロセスの概要を示すフローチャートである。
用語−重みベクトルが用語−頻度ベクトルであるケースについてキーワードを選択するプロセスを示すフローチャートである。
用語−重みベクトルがtf−idfベクトルであるケースについてキーワードを選択するプロセスを示し、かつキーワードベクトルがどのようにして生成されるかについてのさらなる詳細を提示するフローチャートである。
本発明の方法を実行するために適した汎用コンピュータアーキテクチャを示すブロック図である。
600 汎用コンピュータ
601 バス
602 マイクロプロセッサ
603 デイスプレイ
604 デイスプレイ
605 カ−ソル制御
606 キーボード
609 グラフィックス・コプロッセサ
610 モデム
601 バス
602 マイクロプロセッサ
603 デイスプレイ
604 デイスプレイ
605 カ−ソル制御
606 キーボード
609 グラフィックス・コプロッセサ
610 モデム
Claims (24)
- 照会から得られる1以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法であって、
a)1以上の文書用語−重みベクトルdを含む用語−重み行列Mを作成し、各文書用語−重みベクトルdが前記照会の前記用語から得られる前記1以上の文書中の前記頻度に関する情報を含むことと、
b)前記照会用語−重みベクトルqと前記用語−重み行列Mから展開された照会用語−重みベクトルqexpandedを作成することと、
c)前記展開された照会用語−重みベクトルqexpandedと前記文書用語−重みベクトルdを使用し、前記照会に関係し、前記文書の少なくとも1つにも含まれる用語として識別されるキーワードの集合の位置を突き止め、前記照会が前記キーワードを含む必要がないことと、
を含む方法。 - 前記文書用語−重みベクトルdが用語−頻度ベクトルである請求項1に記載の方法。
- 前記文書用語−重みベクトルdが用語−頻度逆数−文書頻度(tf−idf)ベクトルであり、そのn番目の構成要素がa)前記n番目の用語の文書dの中の用語−頻度と、b)前記n番目の用語を含む前記文書の断片の関数として計算される請求項1に記載の方法。
- 前記関数が等式tf−idf=(1.0+log(tf))*log(1/df)に従って計算され、ここではtfが文書dの中のn番目の用語の用語−頻度であり、dfがn番目の用語を含む文書の断片である請求項3に記載の方法。
- キーワードの集合の位置を突き止める前記ステップが、前記文書の少なくとも1つの中に含まれ、前記展開された照会用語−重みベクトルqexpandedの中で最高値を有するキーワードを選択することを含む請求項1に記載の方法。
- キーワードの集合の位置を突き止めるステップは、
c1)文書ごとに、展開された照会用語−重みベクトルqexpanded及び前記対応する文書用語−重みベクトルdの用語ごとの積を計算することと、
c2)前記計算された積の中で最高値を有するキーワードを選択することと、
を含む請求項1に記載の方法。 - 前記展開された照会用語−重みベクトルqexpandedを作成することは、
b1)前記照会用語に対応する照会用語−重みベクトルqを潜在意味空間に投影し、縮約された照会用語−重みベクトルqreducedを作成することと、
b2)潜在意味空間の中から前記照会用語−重みベクトルを展開して戻し、前期展開された照会用語−重みベクトルqexpandedを作成することと、
を含む請求項1に記載の方法。 - 前記投影するステップが、
b11)Sが正方対角行列であり、Uがユニタリ変換行列であり、Vがユニタリ行列である3つの行列U S V’の積として用語−重み行列Mを近似することと、
を含む請求項7に記載の方法。 - 前記投影するステップが、
b12)縮約された照会用語−重みベクトルqreduced=q’*Uを作成することと、
をさらに含む請求項8に記載の方法。 - 前記照会用語−重みベクトルqを展開する前記ステップが、
b21)前記等式qexpanded=qreduced*U’=(q’*U)*U’に従って前記展開された照会用語−重みベクトルを作成することと、
を含む請求項8に記載の方法。 - 前記照会用語−重みベクトルqを展開する前記ステップが、
b21)縮約された照会用語−重みベクトルqreducedと前記ユニタリ変換行列Uの行nの類似性関数を計算することによりqexpandedのn個の用語のそれぞれを計算することと、
を含む請求項7に記載の方法。 - 前記類似性関数がコサイン類似性関数である請求項11に記載の方法。
- 展開された照会用語−重みベクトルqexpandedを作成することが、
b1)Sが正方対角行列であり、Uがユニタリ変換行列であり、Vがユニタリ行列である3つの行列U S V’の積として前記用語−重み行列Mを近似することと、
を含む請求項1に記載の方法。 - 展開された照会用語−重みベクトルqexpandedを作成することが、
b2)等式qexpanded=U’Uqに従って照会用語−重みベクトルqを使用して前記展開された照会用語−重みベクトルqexpandedを作成することと、
をさらに含む請求項13に記載の方法。 - 次に示すステップ、
d)前記キーワードを強調することと、
をさらに含む請求項1に記載の方法。 - 前記文書がテキスト文書である請求項1に記載の方法。
- 前記文書がビデオセグメントに関連付けられるテキストである請求項1に記載の方法。
- 照会から1以上の文書の中に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法であって、
a)1以上の文書用語−重みベクトルdを含む用語−重み行列Mを作成し、各文書用語−重みベクトルdが前記照会の前記用語から得られる前記1以上の文書の1つの前記頻度に関する情報を含むことと、
b)前記照会用語に対応する照会用語−重みベクトルqを潜在意味空間の中に投影し、縮約された照会用語−重みベクトルqreducedを作成することと、
c)潜在意味空間の中から前記照会用語−重みベクトルを展開し、前記展開された用語−重みベクトルqexpandedを作成することと、
d)前記展開された照会用語−重みベクトルqexpanded及び文書用語−重みベクトルdを使用し、前記照会に関係する用語として識別され、前記文書の内の少なくとも1つにも含まれるキーワードの集合の位置を突き止め、前記照会が前記キーワードを含む必要がないことと、
を含む方法。 - 照会から得られる1以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法であって、
a)1以上の文書用語−重みベクトルdを含む用語−重み行列Mを作成し、各文書用語−重みベクトルdが前記照会の前記用語から得られる前記1以上の文書の1つにおける前記頻度に関する情報を含むことと、
b)Sが正方対角行列であり、Uがユニタリ変換行列であり、Vがユニタリ行列である3つの行列U S V’の積として前記用語−重み行列Mを近似することと、
c)潜在意味空間の中から前記照会用語−重みベクトルを展開し、前記展開された照会用語−重みベクトルqexpandedを作成することと、
d)前記展開された照会用語−重みベクトルqexpanded及び文書用語−重みベクトルdを使用し、前記商会に関係する用語として識別され、前記文書の少なくとも1つにも含まれるキーワードの集合の位置を突き止め、前記照会が前記キーワードを含む必要がないことと、
を含む方法。 - コンピュータにおいて、照会から得られる1以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法であって、
a)ユーザごとに前記コンピュータにより作成される用語−重み行列Mを受け取り、1以上の文書用語−重みベクトルdを含み、各文書が用語−重みベクトルdが前記照会の前記用語から得られる前記1以上の文書の1つにおける前記頻度に関する情報を含むことと、
b)ユーザごとに、前記照会用語−重みベクトルq及び用語−重み行列Mからコンピュータにより作成される展開された照会用語−重みベクトルqexpandedを受け取ることと、
c)ユーザごとに、前記コンピュータによって識別されるキーワードの集合を受け取り、前記展開された照会用語−重みベクトルqexpanded及び前記文書用語−重みベクトルdを、前記照会に関係し、前記文書の少なくとも1つにも含まれる用語として使用し、前記照会が前記キーワードを含む必要のないことと、
を含む方法。 - コンピュータにおいて、1以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法であって、
a)ユーザごとに前記選択された照会の用語の前記1以上の文書における前記頻度に関する情報を含み、Sが正方対角行列であり、Uがユニタリ変換行列であり、Vがユニタリ行列である3つの行列U S V’の積として前記コンピュータによって近似される用語重み行列Mを受け取ることと、
b)ユーザごとに、前記等式qexpanded=U’Uqに従って照会用語−重みベクトルqを使用して該コンピュータによって作成される展開された照会用語−重みベクトルqexpandedを受け取ることと、
c)ユーザごとに、前記コンピュータによって識別されるキーワードの集合を受け取り、前記照会に関係し、前記文書の少なくとも1つにも含まれる用語として前記展開された照会用語−重みベクトルqexpanded及び前記文書用語−重みベクトルdを使用し、前記照会が前記キーワードを含む必要のないことと、
を含む方法。 - 1以上の選択された文書中にも含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、システムであって、
a)各文書用語−重みベクトルdが前記照会の前記用語から得られる前記1以上の文書の1つにおける前記頻度に関する情報を含む1以上の文書用語−重みベクトルdを含む用語−重み行列Mを作成することができ、前記照会用語−重みベクトルq及び前記用語−重み行列Mから展開された照会用語−重みベクトルqexpandedを作成することができ、前記展開された照会用語−重みベクトルqexpanded及び前記文書用語−重みベクトルdを使用して、前記照会に関係し、前記文書の少なくとも1つにも含まれる用語として識別されるキーワードの集合の位置を突き止めることができ、前記照会が前記キーワードを含む必要のない1台または複数台のプロセッサと、
b)前記1台または複数台のプロセッサによって処理されるときにシステムに、各文書用語−重みベクトルdが前記照会の前記用語から得られる前記1以上の文書の1つにおける前記頻度に関する情報を含む1以上の文書用語−重みベクトルdを含む、用語−重み行列Mを作成する前記ステップと、前記照会用語−重みベクトルq及び前記用語−重み行列Mから展開された照会用語−重みベクトルqexpandedを作成する前記ステップと、前記展開された照会用語−重みベクトルqexpanded及び前記文書用語−重みベクトルdを使用して、前記照会に関係し、前記文書の少なくとも1つにも含まれる用語として識別されるキーワードの集合の位置を突き止める前記ステップとを実行させ、前記照会が前記キーワードを含む必要がない、その上に記憶される動作を含む機械可読媒体と、
を備えるシステム。 - 1以上の選択された文書に含まれる照会関連キーワードの集合を識別するための方法を実行するためにコンピュータによって実行可能であり、前記照会が前記キーワードを含む必要のない、コンピュータ・プログラムであって、
a)1以上の文書用語−重みベクトルdを含む用語−重み行列Mを作成し、各文書用語−重みベクトルdが前記照会の前記用語から得られる前記1以上の文書の1つにおける前記頻度に関する情報を含む命令と、
b)前記照会用語−重みベクトルq及び前記用語−重み行列Mから展開された照会用語−重みベクトルqexpandedを作成する命令と、
c)前記展開された照会用語−重みベクトルqexpanded及び前記文書用語−重みベクトルdを使用し、前記照会に関係し、前記文書の少なくとも1つにも含まれる用語としてキーワードの集合の位置を突き止め、前記照会が前記キーワードを含む必要のない命令と、
を含むコンピュータ・プログラム。 - 1以上の選択された文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要のない、システムまたは装置であって、
a)1以上の用語−重みベクトルdを含む用語−重み行列Mを作成するための手段であって、各文書用語−重みベクトルdが前記選択された照会の中の用語の前記1以上の文書における前記頻度に関する情報を含む手段と、
b)前記照会用語−重みベクトルq及び前記用語−重み行列Mから展開された照会用語−重みベクトルqexpandedを作成するための手段と、
c)前記展開された照会用語−重みベクトルqexpanded及び前記用語−重み行列Mを使用して、前記照会に関係し、前記文書の少なくとも1つにも含まれる用語として識別されるキーワードの集合の位置を突き止め、前記照会が前記キーワードを含む必要のない手段と、
を備えるシステムまたは装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/987,377 US7440947B2 (en) | 2004-11-12 | 2004-11-12 | System and method for identifying query-relevant keywords in documents with latent semantic analysis |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006139783A true JP2006139783A (ja) | 2006-06-01 |
Family
ID=36387633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005326733A Pending JP2006139783A (ja) | 2004-11-12 | 2005-11-10 | 照会から得られる1以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法及びシステム |
Country Status (2)
Country | Link |
---|---|
US (1) | US7440947B2 (ja) |
JP (1) | JP2006139783A (ja) |
Families Citing this family (80)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8312021B2 (en) * | 2005-09-16 | 2012-11-13 | Palo Alto Research Center Incorporated | Generalized latent semantic analysis |
US8065286B2 (en) * | 2006-01-23 | 2011-11-22 | Chacha Search, Inc. | Scalable search system using human searchers |
US20070174258A1 (en) * | 2006-01-23 | 2007-07-26 | Jones Scott A | Targeted mobile device advertisements |
WO2008059515A2 (en) * | 2006-08-01 | 2008-05-22 | Divyank Turakhia | A system and method of generating related words and word concepts |
US20080127270A1 (en) * | 2006-08-02 | 2008-05-29 | Fuji Xerox Co., Ltd. | Browsing video collections using hypervideo summaries derived from hierarchical clustering |
US20080086490A1 (en) * | 2006-10-04 | 2008-04-10 | Sap Ag | Discovery of services matching a service request |
US9075864B2 (en) | 2006-10-10 | 2015-07-07 | Abbyy Infopoisk Llc | Method and system for semantic searching using syntactic and semantic analysis |
US9189482B2 (en) | 2012-10-10 | 2015-11-17 | Abbyy Infopoisk Llc | Similar document search |
US9892111B2 (en) | 2006-10-10 | 2018-02-13 | Abbyy Production Llc | Method and device to estimate similarity between documents having multiple segments |
US9495358B2 (en) | 2006-10-10 | 2016-11-15 | Abbyy Infopoisk Llc | Cross-language text clustering |
US9098489B2 (en) | 2006-10-10 | 2015-08-04 | Abbyy Infopoisk Llc | Method and system for semantic searching |
US9069750B2 (en) | 2006-10-10 | 2015-06-30 | Abbyy Infopoisk Llc | Method and system for semantic searching of natural language texts |
US8280877B2 (en) * | 2007-02-22 | 2012-10-02 | Microsoft Corporation | Diverse topic phrase extraction |
US20080222018A1 (en) * | 2007-03-08 | 2008-09-11 | Alejandro Backer | Financial instruments and methods for the housing market |
CN101286150B (zh) | 2007-04-10 | 2010-09-15 | 阿里巴巴集团控股有限公司 | 生成更新参数的方法和装置、展示相关关键词的方法和装置 |
US7818278B2 (en) * | 2007-06-14 | 2010-10-19 | Microsoft Corporation | Large scale item representation matching |
KR20090112095A (ko) * | 2008-04-23 | 2009-10-28 | 삼성전자주식회사 | 방송 컨텐츠의 저장 방법, 디스플레이 방법 및 그 장치 |
US8290946B2 (en) * | 2008-06-24 | 2012-10-16 | Microsoft Corporation | Consistent phrase relevance measures |
US7730061B2 (en) * | 2008-09-12 | 2010-06-01 | International Business Machines Corporation | Fast-approximate TFIDF |
US20100094835A1 (en) * | 2008-10-15 | 2010-04-15 | Yumao Lu | Automatic query concepts identification and drifting for web search |
US20100114878A1 (en) * | 2008-10-22 | 2010-05-06 | Yumao Lu | Selective term weighting for web search based on automatic semantic parsing |
US8166051B1 (en) | 2009-02-03 | 2012-04-24 | Sandia Corporation | Computation of term dominance in text documents |
TWI393018B (zh) * | 2009-02-06 | 2013-04-11 | Inst Information Industry | 關鍵詞彙即時擴展方法與系統以及儲存關鍵詞彙即時擴展程式的電腦可讀寫記錄媒體 |
US8041729B2 (en) * | 2009-02-20 | 2011-10-18 | Yahoo! Inc. | Categorizing queries and expanding keywords with a coreference graph |
US8250053B2 (en) * | 2009-02-24 | 2012-08-21 | Microsoft Corporation | Intelligent enhancement of a search result snippet |
US10564721B2 (en) | 2009-03-12 | 2020-02-18 | Immersion Corporation | Systems and methods for using multiple actuators to realize textures |
US9696803B2 (en) | 2009-03-12 | 2017-07-04 | Immersion Corporation | Systems and methods for friction displays and additional haptic effects |
US9746923B2 (en) | 2009-03-12 | 2017-08-29 | Immersion Corporation | Systems and methods for providing features in a friction display wherein a haptic effect is configured to vary the coefficient of friction |
KR101670109B1 (ko) * | 2009-03-12 | 2016-10-27 | 임머숀 코퍼레이션 | 표면-기반 햅틱 효과를 특징으로 하는 인터페이스에 대한 시스템 및 방법 |
US10007340B2 (en) * | 2009-03-12 | 2018-06-26 | Immersion Corporation | Systems and methods for interfaces featuring surface-based haptic effects |
US8316039B2 (en) * | 2009-05-18 | 2012-11-20 | Microsoft Corporation | Identifying conceptually related terms in search query results |
US9208259B2 (en) * | 2009-12-02 | 2015-12-08 | International Business Machines Corporation | Using symbols to search local and remote data stores |
US8375021B2 (en) | 2010-04-26 | 2013-02-12 | Microsoft Corporation | Search engine data structure |
US8463786B2 (en) | 2010-06-10 | 2013-06-11 | Microsoft Corporation | Extracting topically related keywords from related documents |
US20150248698A1 (en) | 2010-06-23 | 2015-09-03 | Google Inc. | Distributing content items |
US8548989B2 (en) | 2010-07-30 | 2013-10-01 | International Business Machines Corporation | Querying documents using search terms |
US10431336B1 (en) | 2010-10-01 | 2019-10-01 | Cerner Innovation, Inc. | Computerized systems and methods for facilitating clinical decision making |
US10734115B1 (en) | 2012-08-09 | 2020-08-04 | Cerner Innovation, Inc | Clinical decision support for sepsis |
US11398310B1 (en) | 2010-10-01 | 2022-07-26 | Cerner Innovation, Inc. | Clinical decision support for sepsis |
US11348667B2 (en) | 2010-10-08 | 2022-05-31 | Cerner Innovation, Inc. | Multi-site clinical decision support |
US10628553B1 (en) | 2010-12-30 | 2020-04-21 | Cerner Innovation, Inc. | Health information transformation system |
US9158841B2 (en) * | 2011-06-15 | 2015-10-13 | The University Of Memphis Research Foundation | Methods of evaluating semantic differences, methods of identifying related sets of items in semantic spaces, and systems and computer program products for implementing the same |
US8533195B2 (en) * | 2011-06-27 | 2013-09-10 | Microsoft Corporation | Regularized latent semantic indexing for topic modeling |
US8856156B1 (en) | 2011-10-07 | 2014-10-07 | Cerner Innovation, Inc. | Ontology mapper |
CN103294684B (zh) * | 2012-02-24 | 2016-08-24 | 浙江易网科技股份有限公司 | 关联词汇搜索系统及方法 |
US10249385B1 (en) | 2012-05-01 | 2019-04-02 | Cerner Innovation, Inc. | System and method for record linkage |
US9208254B2 (en) * | 2012-12-10 | 2015-12-08 | Microsoft Technology Licensing, Llc | Query and index over documents |
US10692591B2 (en) * | 2013-02-01 | 2020-06-23 | B-Line Medical, Llc | Apparatus, method and computer readable medium for tracking data and events |
US11894117B1 (en) | 2013-02-07 | 2024-02-06 | Cerner Innovation, Inc. | Discovering context-specific complexity and utilization sequences |
US10769241B1 (en) | 2013-02-07 | 2020-09-08 | Cerner Innovation, Inc. | Discovering context-specific complexity and utilization sequences |
US10946311B1 (en) | 2013-02-07 | 2021-03-16 | Cerner Innovation, Inc. | Discovering context-specific serial health trajectories |
US9600529B2 (en) * | 2013-03-14 | 2017-03-21 | Wal-Mart Stores, Inc. | Attribute-based document searching |
US9402101B2 (en) * | 2013-03-15 | 2016-07-26 | Panasonic Intellectual Property Corporation Of America | Content presentation method, content presentation device, and program |
US9256687B2 (en) | 2013-06-28 | 2016-02-09 | International Business Machines Corporation | Augmenting search results with interactive search matrix |
US10854334B1 (en) | 2013-08-12 | 2020-12-01 | Cerner Innovation, Inc. | Enhanced natural language processing |
US10483003B1 (en) | 2013-08-12 | 2019-11-19 | Cerner Innovation, Inc. | Dynamically determining risk of clinical condition |
US10114823B2 (en) | 2013-11-04 | 2018-10-30 | Ayasdi, Inc. | Systems and methods for metric data smoothing |
US10042936B1 (en) * | 2014-07-11 | 2018-08-07 | Google Llc | Frequency-based content analysis |
US11182433B1 (en) * | 2014-07-25 | 2021-11-23 | Searchable AI Corp | Neural network-based semantic information retrieval |
US9767169B1 (en) | 2014-09-26 | 2017-09-19 | Google Inc. | Enhancing search results for improved readability |
CN104765769B (zh) * | 2015-03-06 | 2018-04-27 | 大连理工大学 | 一种基于词矢量的短文本查询扩展及检索方法 |
CA3020921A1 (en) * | 2016-04-15 | 2017-10-19 | 3M Innovative Properties Company | Query optimizer for combined structured and unstructured data records |
CN106095737A (zh) * | 2016-06-07 | 2016-11-09 | 杭州凡闻科技有限公司 | 文档相似度计算方法及相似文档全网检索跟踪方法 |
CN106776741A (zh) * | 2016-11-18 | 2017-05-31 | 北京奇虎科技有限公司 | 一种搜索方法和装置 |
US10956409B2 (en) | 2017-05-10 | 2021-03-23 | International Business Machines Corporation | Relevance model for session search |
CN107145476A (zh) * | 2017-05-23 | 2017-09-08 | 福建师范大学 | 一种基于改进tf‑idf关键词提取算法 |
US11003996B2 (en) * | 2017-05-24 | 2021-05-11 | Facebook, Inc. | Determining navigation patterns associated with a social networking system to provide content associated with a destination page on a starting page |
US20180341686A1 (en) * | 2017-05-26 | 2018-11-29 | Nanfang Hu | System and method for data search based on top-to-bottom similarity analysis |
CN107402960B (zh) * | 2017-06-15 | 2020-11-10 | 成都优易数据有限公司 | 一种基于语义语气加权的倒排索引优化算法 |
US10733220B2 (en) | 2017-10-26 | 2020-08-04 | International Business Machines Corporation | Document relevance determination for a corpus |
US20180260481A1 (en) * | 2018-04-01 | 2018-09-13 | Yogesh Rathod | Displaying search result associated identified or extracted unique identity associated structured contents or structured website |
CN108717459B (zh) * | 2018-05-24 | 2019-05-21 | 哈尔滨工程大学 | 一种面向用户评论信息的移动应用缺陷定位方法 |
US11294974B1 (en) * | 2018-10-04 | 2022-04-05 | Apple Inc. | Golden embeddings |
US11238103B2 (en) * | 2019-09-13 | 2022-02-01 | Ebay Inc. | Binary coding for improved semantic search |
US11468240B2 (en) | 2019-12-16 | 2022-10-11 | Raytheon Company | System and method for using machine learning supporting natural language processing analysis |
US11730420B2 (en) | 2019-12-17 | 2023-08-22 | Cerner Innovation, Inc. | Maternal-fetal sepsis indicator |
US11567981B2 (en) * | 2020-04-15 | 2023-01-31 | Adobe Inc. | Model-based semantic text searching |
US11818091B2 (en) | 2020-05-10 | 2023-11-14 | Salesforce, Inc. | Embeddings-based discovery and exposure of communication platform features |
CN112347758B (zh) * | 2020-11-06 | 2024-05-17 | 中国平安人寿保险股份有限公司 | 文本摘要的生成方法、装置、终端设备及存储介质 |
US11416562B1 (en) | 2021-04-23 | 2022-08-16 | International Business Machines Corporation | Corpus expansion using lexical signatures |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000137738A (ja) * | 1998-11-03 | 2000-05-16 | Nec Corp | 複数の細分度のインデックス付けとクエリ―処理を効果的に用いてクエリ―の拡張を支援する方法、及び装置 |
JP2002014999A (ja) * | 2000-06-28 | 2002-01-18 | Matsushita Electric Ind Co Ltd | 類似文書検索装置及び関連キーワード抽出装置 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5694594A (en) * | 1994-11-14 | 1997-12-02 | Chang; Daniel | System for linking hypermedia data objects in accordance with associations of source and destination data objects and similarity threshold without using keywords or link-difining terms |
US5703655A (en) * | 1995-03-24 | 1997-12-30 | U S West Technologies, Inc. | Video programming retrieval using extracted closed caption data which has been partitioned and stored to facilitate a search and retrieval process |
US6718535B1 (en) * | 1999-07-30 | 2004-04-06 | Accenture Llp | System, method and article of manufacture for an activity framework design in an e-commerce based environment |
US6985876B1 (en) * | 2000-02-07 | 2006-01-10 | National Instruments Corporation | System and method for enabling a user of an E-commerce system to visually view and/or configure a product for purchase |
US7284008B2 (en) * | 2000-08-30 | 2007-10-16 | Kontera Technologies, Inc. | Dynamic document context mark-up technique implemented over a computer network |
US20020111870A1 (en) * | 2000-09-26 | 2002-08-15 | I2 Technologies, Inc. | System and method for identifying a product |
US20020073001A1 (en) * | 2000-12-13 | 2002-06-13 | Itt Manufacturing Enterprises, Inc. | System and process for assisting a user to configure a configurable product |
US20020087432A1 (en) * | 2000-12-29 | 2002-07-04 | Ivette Muniz | Product configurator method and system |
US20050022114A1 (en) * | 2001-08-13 | 2005-01-27 | Xerox Corporation | Meta-document management system with personality identifiers |
US6970863B2 (en) * | 2001-09-18 | 2005-11-29 | International Business Machines Corporation | Front-end weight factor search criteria |
US6847966B1 (en) * | 2002-04-24 | 2005-01-25 | Engenium Corporation | Method and system for optimally searching a document database using a representative semantic space |
US7451395B2 (en) * | 2002-12-16 | 2008-11-11 | Palo Alto Research Center Incorporated | Systems and methods for interactive topic-based text summarization |
US7376893B2 (en) * | 2002-12-16 | 2008-05-20 | Palo Alto Research Center Incorporated | Systems and methods for sentence based interactive topic-based text summarization |
US7584221B2 (en) * | 2004-03-18 | 2009-09-01 | Microsoft Corporation | Field weighting in text searching |
-
2004
- 2004-11-12 US US10/987,377 patent/US7440947B2/en not_active Expired - Fee Related
-
2005
- 2005-11-10 JP JP2005326733A patent/JP2006139783A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000137738A (ja) * | 1998-11-03 | 2000-05-16 | Nec Corp | 複数の細分度のインデックス付けとクエリ―処理を効果的に用いてクエリ―の拡張を支援する方法、及び装置 |
JP2002014999A (ja) * | 2000-06-28 | 2002-01-18 | Matsushita Electric Ind Co Ltd | 類似文書検索装置及び関連キーワード抽出装置 |
Also Published As
Publication number | Publication date |
---|---|
US7440947B2 (en) | 2008-10-21 |
US20060106767A1 (en) | 2006-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006139783A (ja) | 照会から得られる1以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法及びシステム | |
US6876998B2 (en) | Method for cross-linguistic document retrieval | |
JP3820242B2 (ja) | 質問応答型文書検索システム及び質問応答型文書検索プログラム | |
JP5611390B2 (ja) | 対話型サーチクエリーを改良するためのシステム及び方法 | |
JP3270783B2 (ja) | 複数の文書検索方法 | |
US5907840A (en) | Overlapping subdocuments in a vector space search process | |
US5995962A (en) | Sort system for merging database entries | |
KR101004515B1 (ko) | 문장 데이터베이스로부터 문장들을 사용자에게 제공하는 컴퓨터 구현 방법 및 이 방법을 수행하기 위한 컴퓨터 실행가능 명령어가 저장되어 있는 유형의 컴퓨터 판독가능 기록 매체, 문장 데이터베이스로부터 확인 문장들을 검색하는 시스템이 저장되어 있는 컴퓨터 판독가능 기록 매체 | |
KR100396826B1 (ko) | 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법 | |
JPH11102377A (ja) | データベースからドキュメントを検索する方法および装置 | |
US11853331B2 (en) | Specialized search system and method for matching a student to a tutor | |
JP4325370B2 (ja) | 文書関連語彙獲得装置及びプログラム | |
JP2001184358A (ja) | カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体 | |
JP2009086903A (ja) | 検索サービス装置 | |
Li et al. | Complex query recognition based on dynamic learning mechanism | |
Rastogi et al. | Performance comparison of word sense disambiguation (wsd) algorithm on hindi language supporting search engines | |
US6473755B2 (en) | Overlapping subdocuments in a vector space search process | |
JPH064584A (ja) | 文章検索装置 | |
JP3222193B2 (ja) | 情報検索装置 | |
JP2002132789A (ja) | 文書検索方法 | |
WO2011011777A2 (en) | Pre-computed ranking using proximity terms | |
JPH1069490A (ja) | 文書絞り込み検索装置、文書絞り込み検索方法及び文書検索装置 | |
JPH0793345A (ja) | 文書検索装置 | |
JPH03123971A (ja) | 索引付け支援装置 | |
JPH09101951A (ja) | 文書検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081022 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110311 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110329 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110816 |