JP2006139783A - 照会から得られる1以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法及びシステム - Google Patents

照会から得られる1以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法及びシステム Download PDF

Info

Publication number
JP2006139783A
JP2006139783A JP2005326733A JP2005326733A JP2006139783A JP 2006139783 A JP2006139783 A JP 2006139783A JP 2005326733 A JP2005326733 A JP 2005326733A JP 2005326733 A JP2005326733 A JP 2005326733A JP 2006139783 A JP2006139783 A JP 2006139783A
Authority
JP
Japan
Prior art keywords
term
query
expanded
weight vector
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005326733A
Other languages
English (en)
Inventor
John Adcock
アドコック ジョン
Matthew Cooper
クーパー マシュー
Andreas Girgensohn
ガーゲンソン アンドレアス
Lynn D Wilcox
ディー.ウィルコックス リン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of JP2006139783A publication Critical patent/JP2006139783A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 潜在意味解析を使用して、検索で検出される文書内で照会に関係するキーワードを識別するためのシステム及び方法を提供すること。
【解決手段】 1つまたは複数の文書用語−重みベクトルdを含む用語−重み行列を作成する。この場合、各文書用語−重みベクトルdが前記照会の前記用語から得られる前記1つまたは複数の文書中の前記頻度に関する情報を含む。さらに、前記照会用語−重みベクトルqと前記用語−重み行列から展開された照会用語−重みベクトルqexpandedを作成する。さらにまた、前記展開された照会用語−重みベクトルqexpandedと前記文書用語−重みベクトルdを使用し、前記照会に関係し、前記文書の少なくとも1つにも含まれる用語として識別されるキーワードの集合の位置を突き止める。なお、前記照会が前記キーワードを含む必要がない。
【選択図】 図2

Description

本発明は自動媒体分析の分野にあり、キーワードを識別するためのシステム及び方法に関し、特に潜在意味分析で文書中の照会関連キーワードを識別するためのシステム及び方法に関する。
従来のテキスト検索システム(例えばグーグル(Google))においては、ユーザにフィードバックを与えるために検索された文書中で発生する照会用語を強調(ハイライト)することが一般的である。しかしながら、この手法は潜在意味解析(LSA)を使用するときにはうまく行かない。LSAは種々の文書解析及び検索技法の基礎である。テキストをベースにした検索のためにLSAを使用することの1つの態様は、文書が指定された照会用語にきわめて関連性があると見なされてよいが、実際にはそれらの用語を含まない可能性があるということである。
非特許文献1は、関連する文書の間の類似および差異を要約することを開示しており、非特許文献2は、潜在意味解析によるインデッキシングを開示しており、非特許文献3は、知的情報検索のために線形代数を用いることを開示しており、非特許文献4は、知識の取得、誘導および表示についての潜在意味解析理論を開示している。
マミ、インダージート及びエリック ブロードーン、「サマライジング シミラリテイズ アンド デファレンシズ アマング リレイテッド ドキュメンツ」インフォーメイション リトリーバル、第1巻、第1−2号、ページ35−67(1999)(MANI, Inderjeet and Eric Bloedprn, "Summarizing Similarities and Differences among Related Documents", Information Retrieval, Vol. 1, Nos. 1-2, pp. 35-67 (1999)) デアウエスター、エス.、デユメス、エス.テイー.、ファーナス、ジー.ダブリュウ.、ランドー、テイー.ケイ.、ハーシュマン、アール.、「インデキシング バイ ラテント セマンテイック アナリシス」、ジャーナル オブ ザ アメリカン ソサイエテイ フォア インフォーメーション サイエンス、41−6、ページ391−407(1990)(DEERWESTER, S., Dumais, S.T., Furnas, G.W., Landauer, T.K., Harshman, R., "Indexing by Latent Semantic Analysis." Journal of the American Society for Information Science, 41-6, pp.391-407 (1990)) ベリー、エム.ダブリュウ.、デユメス、エス.テイー.、アンド ジー.ダブリュウ.オーブライエン、「ユージング リニア アルジブラ フォア インテリジェント インフォーメーション リトリーバル」、レビュー 37:4、ページ573−595(1995(BERY, M.W., S.T. Dumais and G.W. O'Brien, "Using Linear Algebra for Intelligent Information Retrieval, Review 37:4, pp. 573-595 (1995)) ランドー、テイー.ケイ.アンド エス.テイー.デユメス、「ア ソリューション ツー プラトーズ プロブレム:ザ ラテント セマンテイック アナリシス セオリ オブ アクイジッション、インダクション アンド リプリゼンテーション オブ ナリッジ」、サイコロジカル レビュー、104、ページ211−240(1997)(LANDAUER, T.K. and S.T. Dumais, "A Solution to Plato's Problem: The Latent Semantic Analysis Theory of Aquisition, Induction and Representation of Knowledge", Psychological Review, 104, pp. 211-240 (1997))
テキスト処理及び情報検索における多大な研究があり、その内の多くはLSA及び照会関係要約と一般的に呼ばれる研究の主題を含む類似した技法に基づいている。ここに説明されている本発明は、一般的には、その領域にあるものであり、別の文書Bに関連する文書Aの中の用語を検索することが、ある意味ではAの要約の形である。一般的には、この分野における研究はより伝統的な形式の要約、つまり要約として使用するために原始テキスト内でキーセンテンスを識別することを対象にする。
LSAは、潜在意味空間内で密接に関係する用語を検索することによる単一検索用語照会のために同義語を識別するように使用される。
照会が複数の検索用語を備えてよい潜在意味解析で文書中の照会関連キーワードを識別するためのシステム及び方法を開発することが望ましい。照会の文脈に従って照会関連キーワードの結果として生じるリストをフィルタにかけることも望ましい。キーワードが照会用語の集合の中に出現するかどうかに関わりなく、照会用語に最も密接に関係する検索された文書中のキーワードを識別することも望ましい。
潜在意味解析(LSA)または別のファジー検索技法が文書検索システムの基礎として使用されるとき、用語の集合として指定される照会が、照会で使用された正確な用語のどれも含まない関連性のある文書を生じさせることがある。なぜある特定の文書がその照会に関連性があると見なされたのかを示すためにユーザにフィードバックを提供することが有用である。照会用語の集合にキーワードが出現するかどうかに関わりなく、照会用語に最も密接に関係する、検索された文書中のキーワードを識別するための方法が説明される。
本発明の方法は、単一ワード照会だけではなく複数ワード照会も展開する。結果として生じる同義語リストが、検索文書の文脈によってフィルタにかけられる。本発明によれば、文書の集合体は、文書用語−頻度(tf)ベクトルあるいは文書用語−頻度逆数−文書−頻度(tf−idf)ベクトルであってよい文書用語−重みベクトルdの行列Mとして表現される。用語−重み行列Mは文書ごとに1つの列、及び用語ごとに1つの行を有する。
文書用語−重みベクトルdを含む用語−重み行列Mは、各文書が文書のどれかで発生する用語の部分集合だけを含むためにまばらである。行列は、それを構築するために使用される文書についての意味論的な情報を捕捉すると仮定される縮約次元空間の中に投影できる。
文書用語−重みベクトルdの用語−重み行列Mは不完全な特異値分解(SVD)を受ける。すなわち元の用語−重み行列Mは、Sが正方対角行列であり、UとVがユニタリ行列である3つの行列U S V’の積によって近似される。結果として生じる変換行列Uは、新しい照会用語−重みベクトルを縮約N次元空間の中に投影するために使用できる。
(ユーザが入力する大部分の照会はほとんど用語を使用しないためほとんどエントリを有さない可能性がある)照会用語−重みベクトルqが行列Uを使用して縮約次元潜在意味空間の中に投影され、縮約照会用語―重みベクトルqreducedを生じさせる。続いて、縮約照会用語−重みベクトルqreducedは、Uがユニタリであるために等式qexpanded=qreduced*U’=(q’*U)*U’に従ってU’であるUの逆数を使用して完全用語−重みベクトル空間の中に展開して戻され、この場合qexpandedは展開され、高密度で平滑化された最終的な結果である。
次に、キーワードを識別するために、展開された照会用語−重みベクトルqexpandedから検索文書中で発生しない用語が排除される。続いて、qexpandedの中で対応する最高値を有する多くの残りの用語が照会関係キーワードとして選択される。これらの用語は、ここで照会と返される文書の間の類似性の文脈を強調するために使用できる。
このプロセスを表すための等価的な方法は、照会と辞書全体の中のあらゆる用語との間の類似性を最初に計算することである。これが、潜在意味空間を使用するqexpandedの計算が達成することである。次のステップは、照会関係キーワードの集合として照会結果文書中でも発生する照会に最も類似した用語を選ぶことである。1つの考えられる類似性関数はドット積である。つまり、縮約次元照会用語−重みベクトルがU’で乗算されると、結果として生じる類似性ベクトルはドット積のベクトルである。代わりにコサイン類似性などの別の類似性の基準がここで使用できる。このケースでは、qexpandedベクトルの中のn番目の用語は、縮約次元用語−重みベクトル(qreduced ’*U)とUの行nの間のコサイン類似性(または他の類似性関数)を計算することにより形成されるであろう。
代わりに、展開された照会用語−重みベクトルqexpandedと文書用語−重みベクトルdの用語毎の積が取られ、結果として生じる最大値のなんらかの数に対応する用語がキーワードとして使用される。積を取ることにより、照会と文書の両方に対する各用語の相対的な重要性が組み込まれる。
本発明の実施形態は、各ビデオのショットとストーリーへの検索前セグメンテーションを利用する。ストーリーは時間整合されたテキスト内でのトピックの変化を検出することにより作成される。ストーリーはビデオ検索のための文書として使用される。
本発明の請求項1の態様は、照会から得られる1以上の(1つまたは複数の)文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法であって、a)1以上の文書用語−重みベクトルdを含む用語−重み行列Mを作成し、各文書用語−重みベクトルdが前記照会の前記用語から得られる前記1以上の文書中の前記頻度に関する情報を含むことと、b)前記照会用語−重みベクトルqと前記用語−重み行列Mから展開された照会用語−重みベクトルqexpandedを作成することと、c)前記展開された照会用語−重みベクトルqexpandedと前記文書用語−重みベクトルdを使用し、前記照会に関係し、前記文書の少なくとも1つにも含まれる用語として識別されるキーワードの集合の位置を突き止め、前記照会が前記キーワードを含む必要がないことと、を含む方法を提供する。
本発明の請求項2の態様では、前記請求項1の態様の方法において、前記文書用語−重みベクトルdが用語−頻度ベクトルである。
本発明の請求項3の態様では、請求項1の態様の方法において、前記文書用語−重みベクトルdが用語−頻度逆数−文書頻度(tf−idf)ベクトルであり、そのn番目の構成要素がa)前記n番目の用語の文書dの中の用語−頻度と、b)前記n番目の用語を含む前記文書の断片の関数として計算される。
本発明の請求項4の態様では、請求項3の態様の方法において、前記関数が等式tf−idf=(1.0+log(tf))*log(1/df)に従って計算され、ここではtfが文書dの中のn番目の用語の用語−頻度であり、dfがn番目の用語を含む文書の断片である。
本発明の請求項5の態様では、請求項1の態様の方法において、キーワードの集合の位置を突き止める前記ステップが、前記文書の少なくとも1つの中に含まれ、前記展開された照会用語−重みベクトルqexpandedの中で最高値を有するキーワードを選択することを含む。
本発明の請求項6の態様では、請求項1の態様の方法において、キーワードの集合の位置を突き止めるステップは、c1)文書ごとに、展開された照会用語−重みベクトルqexpanded及び前記対応する文書用語−重みベクトルdの用語ごとの積を計算することと、c2)前記計算された積の中で最高値を有するキーワードを選択することとを含む。
本発明の請求項7の態様では、請求項1の態様の方法において、前記展開された照会用語−重みベクトルqexpandedを作成することは、b1)前記照会用語に対応する照会用語−重みベクトルqを潜在意味空間に投影し、縮約された照会用語−重みベクトルqreducedを作成することと、b2)潜在意味空間の中から前記照会用語−重みベクトルを展開して戻し、前期展開された照会用語−重みベクトルqexpandedを作成することと、を含む。
本発明の請求項8の態様では、請求項7の態様の方法において、前記投影するステップが、b11)Sが正方対角行列であり、Uがユニタリ変換行列であり、Vがユニタリ行列である3つの行列U S V’の積として用語−重み行列Mを近似することと、を含む。
本発明の請求項9の態様では、請求項8の態様の方法において、前記投影するステップが、b12)縮約された照会用語−重みベクトルqreduced=q’*Uを作成することをさらに含む。
本発明の請求項10の態様では、請求項8の態様の方法において、前記照会用語−重みベクトルqを展開する前記ステップが、b21)前記等式qexpanded=qreduced*U’=(q’*U)*U’に従って前記展開された照会用語−重みベクトルを作成することを含む。
本発明の請求項11の態様では、請求項7の態様の方法において、前記照会用語−重みベクトルqを展開する前記ステップが、b21)縮約された照会用語−重みベクトルqreducedと前記ユニタリ変換行列Uの行nの類似性関数を計算することによりqexpandedのn個の用語のそれぞれを計算することを含む。
本発明の請求項12の態様では、請求項11の態様の方法において、前記類似性関数がコサイン類似性関数である。
本発明の請求項13の態様では、請求項1の態様の方法において、展開された照会用語−重みベクトルqexpandedを作成することが、b1)Sが正方対角行列であり、Uがユニタリ変換行列であり、Vがユニタリ行列である3つの行列U S V’の積として前記用語−重み行列Mを近似することを含む。
本発明の請求項14の態様では、請求項13の態様の方法において、展開された照会用語−重みベクトルqexpandedを作成することが、b2)等式qexpanded=U’Uqに従って照会用語−重みベクトルqを使用して前記展開された照会用語−重みベクトルqexpandedを作成することをさらに含む。
本発明の請求項15の態様では、請求項1の態様の方法において、d)前記キーワードを強調することをさらに含む。
本発明の請求項16の態様では、請求項1の態様の方法において、前記文書がテキスト文書である。
本発明の請求項17の態様では、請求項1の態様の方法において、前記文書がビデオセグメントに関連付けられるテキストである。
本発明の請求項18の態様は、照会から1以上の文書の中に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法であって、a)1以上の文書用語−重みベクトルdを含む用語−重み行列Mを作成し、各文書用語−重みベクトルdが前記照会の前記用語から得られる前記1以上の文書の1つの前記頻度に関する情報を含むことと、b)前記照会用語に対応する照会用語−重みベクトルqを潜在意味空間の中に投影し、縮約された照会用語−重みベクトルqreducedを作成することと、c)潜在意味空間の中から前記照会用語−重みベクトルを展開し、前記展開された用語−重みベクトルqexpandedを作成することと、d)前記展開された照会用語−重みベクトルqexpanded及び文書用語−重みベクトルdを使用し、前記照会に関係する用語として識別され、前記文書の内の少なくとも1つにも含まれるキーワードの集合の位置を突き止め、前記照会が前記キーワードを含む必要がないこととを含む方法である。
本発明の請求項19の態様は、照会から得られる1以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法であって、a)1以上の文書用語−重みベクトルdを含む用語−重み行列Mを作成し、各文書用語−重みベクトルdが前記照会の前記用語から得られる前記1以上の文書の1つにおける前記頻度に関する情報を含むことと、b)Sが正方対角行列であり、Uがユニタリ変換行列であり、Vがユニタリ行列である3つの行列U S V’の積として前記用語−重み行列Mを近似することと、c)潜在意味空間の中から前記照会用語−重みベクトルを展開し、前記展開された照会用語−重みベクトルqexpandedを作成することと、d)前記展開された照会用語−重みベクトルqexpanded及び文書用語−重みベクトルdを使用し、前記商会に関係する用語として識別され、前記文書の少なくとも1つにも含まれるキーワードの集合の位置を突き止め、前記照会が前記キーワードを含む必要がないことと、を含む方法である。
本発明の請求項20の態様は、コンピュータにおいて、照会から得られる1以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法であって、a)ユーザごとに前記コンピュータにより作成される用語−重み行列Mを受け取り、1以上の文書用語−重みベクトルdを含み、各文書が用語−重みベクトルdが前記照会の前記用語から得られる前記1以上の文書の1つにおける前記頻度に関する情報を含むことと、b)ユーザごとに、前記照会用語−重みベクトルq及び用語−重み行列Mからコンピュータにより作成される展開された照会用語−重みベクトルqexpandedを受け取ることと、c)ユーザごとに、前記コンピュータによって識別されるキーワードの集合を受け取り、前記展開された照会用語−重みベクトルqexpanded及び前記文書用語−重みベクトルdを、前記照会に関係し、前記文書の少なくとも1つにも含まれる用語として使用し、前記照会が前記キーワードを含む必要のないことと、を含む方法である。
本発明の請求項21の態様は、コンピュータにおいて、1以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法であって、a)ユーザごとに前記選択された照会の用語の前記1以上の文書における前記頻度に関する情報を含み、Sが正方対角行列であり、Uがユニタリ変換行列であり、Vがユニタリ行列である3つの行列U S V’の積として前記コンピュータによって近似される用語重み行列Mを受け取ることと、b)ユーザごとに、前記等式qexpanded=U’Uqに従って照会用語−重みベクトルqを使用して該コンピュータによって作成される展開された照会用語−重みベクトルqexpandedを受け取ることと、c)ユーザごとに、前記コンピュータによって識別されるキーワードの集合を受け取り、前記照会に関係し、前記文書の少なくとも1つにも含まれる用語として前記展開された照会用語−重みベクトルqexpanded及び前記文書用語−重みベクトルdを使用し、前記照会が前記キーワードを含む必要のないことと、を含む方法である。
本発明の請求項22の態様は、1以上の選択された文書中にも含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、システムであって、a)各文書用語−重みベクトルdが前記照会の前記用語から得られる前記1以上の文書の1つにおける前記頻度に関する情報を含む1以上の文書用語−重みベクトルdを含む用語−重み行列Mを作成することができ、前記照会用語−重みベクトルq及び前記用語−重み行列Mから展開された照会用語−重みベクトルqexpandedを作成することができ、前記展開された照会用語−重みベクトルqexpanded及び前記文書用語−重みベクトルdを使用して、前記照会に関係し、前記文書の少なくとも1つにも含まれる用語として識別されるキーワードの集合の位置を突き止めることができ、前記照会が前記キーワードを含む必要のない1台または複数台のプロセッサと、b)前記1台または複数台のプロセッサによって処理されるときにシステムに、各文書用語−重みベクトルdが前記照会の前記用語から得られる前記1以上の文書の1つにおける前記頻度に関する情報を含む1以上の文書用語−重みベクトルdを含む、用語−重み行列Mを作成する前記ステップと、前記照会用語−重みベクトルq及び前記用語−重み行列Mから展開された照会用語−重みベクトルqexpandedを作成する前記ステップと、前記展開された照会用語−重みベクトルqexpanded及び前記文書用語−重みベクトルdを使用して、前記照会に関係し、前記文書の少なくとも1つにも含まれる用語として識別されるキーワードの集合の位置を突き止める前記ステップとを実行させ、前記照会が前記キーワードを含む必要がない、その上に記憶される動作を含む機械可読媒体とを備えるシステムである。
本発明の請求項23の態様は、1以上の選択された文書に含まれる照会関連キーワードの集合を識別するための方法を実行するためにコンピュータによって実行可能であり、前記照会が前記キーワードを含む必要のない、コンピュータ・プログラムであって、a)1以上の文書用語−重みベクトルdを含む用語−重み行列Mを作成し、各文書用語−重みベクトルdが前記照会の前記用語から得られる前記1以上の文書の1つにおける前記頻度に関する情報を含む命令と、b)前記照会用語−重みベクトルq及び前記用語−重み行列Mから展開された照会用語−重みベクトルqexpandedを作成する命令と、c)前記展開された照会用語−重みベクトルqexpanded及び前記文書用語−重みベクトルdを使用し、前記照会に関係し、前記文書の少なくとも1つにも含まれる用語としてキーワードの集合の位置を突き止め、前記照会が前記キーワードを含む必要のない命令と、を含むコンピュータ・プログラムである。
本発明の請求項24の態様は、1以上の選択された文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要のない、システムまたは装置であって、a)1以上の用語−重みベクトルdを含む用語−重み行列Mを作成するための手段であって、各文書用語−重みベクトルdが前記選択された照会の中の用語の前記1以上の文書における前記頻度に関する情報を含む手段と、b)前記照会用語−重みベクトルq及び前記用語−重み行列Mから展開された照会用語−重みベクトルqexpandedを作成するための手段と、c)前記展開された照会用語−重みベクトルqexpanded及び前記用語−重み行列Mを使用して、前記照会に関係し、前記文書の少なくとも1つにも含まれる用語として識別されるキーワードの集合の位置を突き止め、前記照会が前記キーワードを含む必要のない手段と、を備えるシステムまたは装置である。
本発明によれば、キーワードが照会用語の集合に出現するかどうかに関わりなく、照会用語に最も密接に関係する、検索された文書中の用語を識別することが出来る等の優れた効果が得られる。
潜在意味解析(LSA)または別のファジー検索技法が文書検索システムの基礎として使用されるとき、用語の集合として指定される照会が、照会で使用される正確な用語のどれも含まない関連性のある文書を生じさせることがある。なぜある特定の文書がその当該照会に関連性があると見なされたのかを示すためにユーザにフィードバックを提供することが有用である。一例として、照会「オレンジ」がこの用語を含まないが、それらが「リンゴ」や「食べた」などの非常に強く相互に関連付けられた用語を含むために当該照会に密接に関係する文書を返す可能性があるのは道理に適っている。ユーザに、返された文書からのこれらの用語が該照会にきわめて関連性があったことを伝達することは有用である。
キーワードが照会用語の集合に出現するかどうかに関わりなく、照会用語に最も密接に関係する、検索された文書中の用語を識別するための方法が説明される。
本方法は、単一ワード照会だけではなく複数ワード照会も展開する。結果として生じる同義語リスト、は検索文書の文脈によってフィルタにかけられる。本発明によれば、文書の集合体は、文書用語−頻度(tf)ベクトルあるいは文書用語−頻度逆数−文書−頻度(tf−idf)ベクトルであってよい文書用語−重みベクトルdの行列Mとして表される。
用語−頻度(tf)を含む実施形態においては、行列の各列は文書を表し、行列の各行は用語を表す。したがって、行列は集合の中の文書数と同じ数の列、及び少なくとも1つの文書中で発生する一意の用語の数と同じ行を有する。行列中の各列は1つの文書中の用語頻度を説明するベクトルである。行t及び列dでの値は文書dの中のテキスト#tの用語−頻度である(tfケース)。
tf−idf実施形態では、用語−頻度逆数−文書−頻度行列中の各値は、文書の完全な集合の中の用語−頻度及び用語#tの全体の頻度の関数である。tf−idf関数は多くの形を取りうる。この関数の1つの例示的な形は、tf−idf=(1.0+log(tf))*log(idf)=(1.0+log(tf))*log(1/df)であり、この場合、tfは用語#tが文書dの中で発生する回数であり、dfは用語#tが発生する文書の断片である。tf−idfベクトルを作成する上で、最初に、tfベクトルと逆数−文書−用語−頻度ベクトルidfが作成され、次に該tf−idfベクトルの要素を求めるために適切な公式が適用される。
用語−重み行列Mは、各文書が文書の中のどれかで発生する用語の部分集合だけを含むためにまばらである。その行列は、用語の組み合わせが複数の文書に出現する共起性のパターンも含む。その行列は、それを構築するために使用される文書についての意味論的な情報を捕捉すると仮定される縮約次元空間の中に投影できる。
1つの組の実施形態によれば、文書用語−重みベクトルdの用語−重み行列Mは、不完全な特異値分解(SVD)を受ける。すなわち、T行及びD列の元の用語−重み行列Mは、3つの行列U S V’の積によって近似され、この場合、Sは、Nの選択肢が任意であるが、通常はN<<T及びN<<DであるサイズNの正方対角行列であり、UとVは、それぞれ次元NバイTおよび次元DバイNのユニタリ行列である。結果として生じる変換行列Uは、新しい照会用語−重みベクトルを縮約N次元空間の中に投影するために使用できる。
各文書用語−重みベクトルd及び結果として生じる行列Mは、一度計算されてから、次に記憶される。この行列または類似する表現を記憶することは、標準的なテキスト検索方法に類似した目的を果たす。新しい文書は、旧い文書の少なくとも1つに存在しない、新しい文書中のすべての用語を無視することの近似により行列に増分的に加えることができる。したがって新しい文書は用語−重み行列Mの計算には寄与しないが、旧い文書だけを使用した計算により確立されるマッピングを使用するであろう。文書用語−重み行列M及び変換行列Uは、新しい文書をさらに完全に組み込むために、定期的に最初から計算し直すことができる。
ユーザが入力する大部分の照会はほとんど用語を使用しないため、照会用語−重みベクトルqはほとんどエントリを有さない、つまりまったくまばらである可能性がある。照会用語−重みベクトルqは行列Uを使用して縮約次元潜在意味空間の中に投影され、縮尺照会用語−重みベクトルqreducedを生じさせる。続いて、照会用語−重みベクトルqは、Uがユニタリであるために、等式qexpanded=qreduced*U’=(q’*U)*U’に従ってU’である逆数Uを使用して完全用語−重みベクトル空間の中に展開して戻され、この場合qは元に照会用語から形成される(おそらくきわめてまばらな)照会用語−重みベクトルであり、qreducedは潜在意味解析空間の中への投影の縮約された結果であり、qexpandedは展開され、高密度で平滑化された最終的な結果である。
次に、キーワードを識別するために、検索文書では発生しない用語が、展開された照会用語−重みベクトルqexpandedから排除される。続いて、qexpandedの中の対応する最高値の付いた多くの残りの用語、つまり照会に対する最高の類似性をもった用語が照会関係キーワードとして選択される。これらの用語は、ここでは照会と返される文書の間の類似性の文脈を強調するために使用できる。
このプロセスを表すための同等な方法は、最初に照会と辞書の中のあらゆる用語の間の類似性を計算することである。これが、潜在意味空間を使用するqexpandedの計算が達成することである。次のステップは、照会関係キーワードの集合としてやはり検索結果文書に発生する照会に最も類似する用語を選ぶことである。ある実施形態によると、使用される類似性関数はドット積である、つまり、縮約次元照会用語−重みベクトルがU’を乗算されると、結果として生じる類似性ベクトルはドット積のベクトルである。代わりに、コサイン類似性などの別の類似性基準がここで使用できる。この場合には、qexpandedのベクトルの中のn番目の用語が、縮約次元照会用語−重みベクトル(qreduced’*U)とUの行tの間のコサイン類似性(または他の類似性関数)を計算することによって形成されるであろう。
他の組の実施形態では、展開された照会用語−重みベクトルqexpandedと用語−重みベクトルとの用語毎の積が取られ、結果として生じる最大値のうちのある数に対応する用語がキーワードとして使用される。この実施形態では、積を取ることによって、照会と文書の両方に対する各用語の相対的な重要性が組み込まれる。
他の組の実施形態によると、照会から一致するキーワードが、文書と照会が一致した文脈の表示を提供するために検索結果で強調されてよい。
本発明の実施形態は、各ビデオのショットとストーリーへの検索前セグメンテーションを利用する。ストーリーは時間整合されたテキスト内でのトピックの変化を検出することにより作成される。ストーリーはビデオ検索のための文書として使用される。
図1は、文書の集合体の中で含まれる1つの特定の文書130のための用語−頻度ベクトル110及び用語頻度−逆数文書頻度(tf−idf)ベクトル120の作成を描く概略図である。文書130は、「そのシマウマは火曜日に2個のリンゴを食べ、そして今日1個のリンゴを食べた」という文章で構成されている。このテキストは、照会で検出される1以上の文書130に出現するすべての関連性のある用語150を含む辞書140を作成するために標準テキスト前処理132を経験する。関連性のある用語150は「その」と「そして」などの余分な用語が排除され、他の用語150が該当する場合に一般的な形式に縮約された後に残っているすべての用語150である。余分な用語は、辞書140の中へのそれらの包含を正当化するほど十分にキーワード識別で役立たない。それらの共通な形式への他の用語150の縮約は、単数名詞と複数名詞の違いなどの、明白であるが助けにならない「差異」を排除することによりキーワード識別の精度を高める。例えば、「リンゴ(apples)」などの複数名詞は通常「リンゴ(apple)」という単数形に変更される。各用語150が発生する回数が数えられ152、辞書140と一致する用語頻度ベクトル110がそれにより作成される。この例では、1より大きい頻度を有する唯一の用語は用語「リンゴ(apple)」である。文書頻度ベクトル160は、各辞書用語を含む検索で検出される文書の断片を決定することによりコンパイルされる。この例では、辞書の中の第1の用語150「リンゴ(apple)」は全文書の.1で発生し、最後の用語150、「シマウマ」は全文書の.9で発生する。tf−idf関数の計算170は、1つの例示的な公式に従って描かれる。tf−idfベクトル120はそれにより生成される。このプロセスの効果とは、最終的なtf−idfベクトル120では、用語「リンゴ(apple)」のための値が、それが検索で2回出現するため、及びそれが文書の集合体では相対的にまれであるため増幅され、用語「シマウマ」のための値は、この用語が文書130の集合体の中で大変広く行き渡っているために減衰されているという点である。
図2は、1以上の選択された文書に含まれる照会関連キーワードの集合を識別するための方法を描く概略図であり、照会はキーワードを含む必要はない。予備的なステップとして、文書用語−重みベクトルdの用語−重み行列Mは不完全な特異値分解(SVD)を受ける。すなわち、T行及びD列の元の用語−重み行列Mは、3つの行列U S V’の積によって近似され、Sは、Nの選択肢が任意であるが、通常はN<<T及びN<<DであるサイズNの正方対角行列であり、UとVは、それぞれ、次元NバイT及び次元DバイNのユニタリ行列である、。結果として生じる変換行列Uは、新しい照会用語−重みベクトルを縮約N次元空間の中に投影するために使用できる。
照会用語−重みベクトル270は、やはりUとして記述される行列272を使用して縮約次元空間の中に投影され、次に、Uがユニタリであるから、U’:qexpanded=(qreduced’*U)*U’であるUの逆数である行列274を使用して完全用語−重みベクトル空間の中に展開して戻される。
次に、キーワードを識別するために、並べ替え及び選択プロセス285が発生する。検索文書中で発生しない用語はqexpandedから排除される。続いて、qexpandedの中の最高値が付いた残りの用語のうちの多くのものが、最終的な結果、つまり照会関係キーワード290の集合を生じさせるために選択される。ある実施形態では、これらのステップは、この場合にもdとして記述される文書用語−重みベクトル283内でもゼロ以外であるqexpandedの中の最高値の付いた用語を選択することにより、行われてもよい。結果として生じるキーワード290は、ここでは照会と返される文書の間の類似性の文脈を強調するために使用できる。
図3は、キーワードを選択するプロセスの概要を示すフローチャートである。照会用語はステップ300で受け取られる。ステップ310では、照会用語に関係する用語が識別される。ステップ345では、文書が用語、つまり照会用語と関係する用語の両方について検索される。ステップ360では、文書用語情報及び照会用語に関係する用語に関する情報が結合される。ステップ370では、キーワードが結果から作成される。
図4は、用語−重みベクトルが、用語−頻度ベクトル、すなわち照会用語−頻度ベクトルであり、かつ文書用語−頻度ベクトルが生成されるケースについてキーワードを選択するプロセスを示すフローチャートである。照会用語はステップ400で受け取られる。ステップ412では、照会用語は照会用語頻度ベクトルqに変換される。ステップ414では、照会用語−頻度ベクトルqは縮約次元潜在意味空間の中に投影される。ステップ416では、照会用語−頻度ベクトルqが照会意味空間の中から展開し直され、展開された照会用語―頻度ベクトルqexpandedを生じさせる。この図におけるステップ412、414、及び416、つまり破線417の内側に位置する3つのステップは、図3におけるステップ310の特殊なケースを集合的に構成する。ステップ445では、文書は、用語、つまり照会用語と関係する用語の両方について検索される。ステップ450では、文書用語−頻度ベクトルは検索の結果に基づいて作成される。ステップ460では、文書用語−頻度ベクトルは、展開された照会用語−頻度ベクトルqexpandedを参照することによりフィルタにかけられ、各候補文書用語−頻度ベクトルの類似性は展開された照会用語−頻度ベクトルqexpandedに関して測定される。例示的な類似性関数はドット積とコサイン類似性である。大部分の類似する文書の構成可能な数が検索の結果として返される。ステップ460は図3のステップ360の特殊なケースを構成する。ステップ470では、キーワードが結果から生成される。
図5は、用語−重みベクトルがtf−idfベクトル、即ち照会tf−idfベクトルであり、かつ文書tf−idfベクトルが生成されるケースについてキーワードを選択するプロセスを示すフローチャートである。図5は、キーワードベクトルがどのようにして生成されるのかについての、さらに詳細をも提示している。使用される照会は、一例として示される文書中には出現しない「オレンジ」である。用語「リンゴ」及び「オレンジ」はこの特定の意味空間内で密接に関係している。照会用語はステップ500において受け取られる。ステップ512では、照会用語は照会tf−idfベクトルqに変換される。ステップ514では、照会tf−idfベクトルqが縮約次元潜在意味空間の中に投影され、縮約された照会tf−idfベクトルqreducedを生じさせる。ステップ516では、縮約された照会tf−idfベクトルqreducedは潜在意味空間の中から展開し直され、例示的な値が描かれた状態で、qexpandedとしても知られる展開された照会tf−idfベクトル518を生じさせる。この図のステップ512、514、及び516、つまり破線517の内側に位置する3つのステップが図3のステップ310の特殊なケースを集合的に構成する。ステップ545では、文書は辞書540の中の用語、つまり照会用語と関係用語両方について検索される。ステップ550では、例示的な値が示されているような状態で、文書tf−idfベクトル555が検索の結果に基づいて作成される。このステップは図1にさらに詳細に表示される。ステップ560では、文書tf−idfベクトル555は、展開された照会tf−idfベクトル518を参照してフィルタにかけられ、各候補文書tf−idfベクトル55の類似性は展開された照会tf−idfベクトル518に関して測定される。例示的な類似性関数はドット積及びコサイン類似性である。1つの他の例として、用語が少なくとも1つの文書で発生する場合、用語はキーワードベクトルの構成要素となり、用語が任意の文書に含まれていない場合には、次にキーワードベクトルの対応する値がゼロである。この実施形態は、フィルタステップ560の後に、例示的な値が示されているような状態で、得られたキーワードベクトル565によって示されている。設定可能な数の殆どの類似する文書が、検索の結果として返される。ステップ560は、図3のステップ360の特殊なケースを構成する。
ステップ566では、文書用語の並べられたリストが、辞書540にキーワードベクトル565を適用することにより作成される。ステップ568では、上位にランクされた用語(複数の場合がある)が選択される。ステップ569では、「リンゴ」などのこれらの上位にランクされた用語(複数の場合がある)を使用してキーワードベクトルが作成される。この図におけるステップ566、567及び569、つまり点線569の内側に位置する3つのステップは、集合的に図4におけるステップ470の、及び図3のステップ370のさらに詳細な特殊なケースを構成する。
<システムの実現>
図6は、本発明による方法を実施するために適した汎用コンピュータシステム600を示すブロック図である。汎用コンピュータシステム600は1または複数のプロセッサ602を含む。カーソル制御装置605はマウス、ジョイスティック、一連のボタン、あるいはユーザがカーソルまたポインタのディスプレイモニタ604上での位置を制御できるようにする任意の他の入力装置として実現される。汎用コンピュータは、ランダム・アクセス・メモリ607、外部記憶装置603、ROMメモリ608、キーボード606、モデム610及びグラフィックス・コプロセッサ609をも含んでいてもよい。カーソル制御装置605及び/またはキーボード606は、本発明に従ってユーザ入力を受け取るための例示的なユーザインタフェースである。汎用コンピュータ600の要素のすべては多様な要素間でデータをトランスポートするために共通なバス601によって必要に応じて接続される。バス601は、通常、データ、アドレス、及び制御信号を含む。図6に示されている汎用コンピュータ600は、この汎用コンピュータ600の要素のすべてを互いに接続する単一のデータバス601を含んでいるが、汎用コンピュータ600の種々の要素を接続する単一の通信バス601があるということは要求されていない。例えば、1または複数のプロセッサ602、RAM607、ROM608及びグラフィックスコプロセッサ609が代替としてデータバスに一緒に接続され、他方、ハードディスク603、モデム610、キーボード606、ディスプレイモニタ604及びカーソル制御装置605は、第2のデータバス(図示せず)に接続される。この場合には、第1のデータバス601及び第2のデータバス(図示せず)は双方向バスインタフェースによりリンクされる。あるいは、1または複数のプロセッサ602及びグラフィックスコプロセッサ609などの要素のいくつかは、第1のデータバス601と第2のデータバス(図示せず)の両方に接続されており、第1のデータバスと第2のデータバスの間の通信は、1または複数のプロセッサ602とグラフィックス・コプロセッサ609を経由して生ずる。本発明の方法は、このようにして図6に示されている600などの任意の汎用コンピュータシステムで実行可能であるが、このコンピュータシステムは本発明の方法を実行できる唯一のコンピュータシステムであるという限定のないことは明白である。
典型的な実施では、オペレータはコンピュータディスプレイ、及び例えばユニックス・ウインドウズ(Unix(登録商標) Windows(登録商標))環境、マック・オーエス(Mac OS)、またはマイクロソフト・ウインドウズ(Microsoft Windows(登録商標))環境、または他のなんらかのグラフィックアプリケーション環境などその上で実行するなんらかの形のグラフィックインタフェースを含むコンピュータシステムを使用する。本発明の実施形態が、他の形式のグラフィックユーザインタフェース(GUI)とともに等しく使用できることは当業者に明らかであろう。
適切なソフトウェアコーディングは、ソフトウェア技術の当業者に明らかとなるように本開示の教示に基づいて熟練したプログラマにより容易に作成できる。本発明の実施形態は、当業者に容易に明らかとなるように、特定用途向け集積回路の作成によって、あるいは従来の構成要素回路の適切なネットワークを相互接続することによって実現されてもよい。
本発明の実施形態は、命令を記憶させる1つの記憶媒体(複数の媒体)である/本発明のプロセスのどれかを実行するようにコンピュータをプログラミングするために使用できるコンピュータプログラム製品を含む。その記憶媒体は、フロッピー(登録商標)ディスク、光ディスク、DVD、CD−ROM、マイクロドライブ、磁気光学ディスクを含む任意のタイプのディスク、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、フラッシュメモリデバイス、磁気カードまたは光カード、(分子メモリICを含む)ナノシステム、あるいは命令及び/またはデータを記憶するために適切な任意のタイプの媒体またはデバイスを含みうるが、これらに限定されない。
本発明の実施形態は、汎用/専用コンピュータまたはマイクロプロセッサの両方のハードウェアを制御するため、及びコンピュータまたはマイクロプロセッサが人間のオペレータまたは本発明の結果を活用する他の機構と対話できるようにするために、1つのコンピュータ可読媒体(複数の媒体)のどれか1つに記憶されるソフトウェアを含む。このようなソフトウェアは、デバイスドライバ、オペレーティングシステム及びユーザアプリケーションを含んでよいが、これらに限定されない。究極的には、このようなコンピュータ可読媒体はさらに前述されたように本発明を実行するためのソフトウェアを含む。
1つのコンピュータ可読媒体(複数の媒体)のどれか1つに記憶され、本発明の実施形態は汎用/特化コンピュータまたはプロセッサの両方のハードウェアを制御するため、及びコンピュータまたはプロセッサが人間のユーザまたは本発明の実施形態の結果を活用する他の機構と対話できるようにするためのソフトウェアを含む。このようなソフトウェアは、デバイスドライバ、オペレーティングシステム、及びユーザアプリケーションを含んでよいが、これらに限定されない。究極的には、このようなコンピュータ可読媒体は、上述のように、本発明の実施形態を実行するためのソフトウェアをさらに含む。
汎用/専用コンピュータまたはプロセッサのソフトウェアには、有用な画像を検出すること、それぞれの画像が「ビネット」にどれほど密接に似ているのかに基づいた有効性の順序で画像をランク付けすること、及び本発明の実施形態のプロセスに従って結果を通信することを含むが、これらに限定されない本発明の教示を実現するためのソフトウェアモジュールが含まれる。
本発明の実施形態は、コンピュータ技術の当業者に明らかとなるように、本開示の教示に従ってプログラムされた汎用または専用デジタルコンピュータまたはプロセッサを使用して便利に実現されうる。
本発明の前述の説明は、例示及び説明の目的で提示された。この説明は、網羅的でもなければ、本発明を開示された正確な形態に制限するものでもない。多くの修正及び変更が当業者に明らかとなるであろう。特に、画像を検出し、ビネットスコアに基づいた有効性の順序での数値ランクでランク付けするという前述の特徴は、上述したものを凌ぐ他のタイプのソフトウェアアプリケーションに組み込むことができることは明らかであろう。上記の実施形態は、本発明の原理及びその実際適用について最もよく説明するために選択されかつ記述され、それにより、種々の実施形態について、及び意図された特定の使用に適した種々の修正について、当業者が本発明を理解できるようにしたものである。本発明の範囲は、以下の請求項及びその同等物により定義されるものと意図されている。
本発明の好適実施形態(複数の場合がある)は、以下の図に基づいて詳細に説明される。
従来の技術に従って、文書の集合体の中に含まれる1つの特定の文書130のための用語−頻度ベクトル110及び用語頻度−逆数文書頻度(tf−idf)ベクトル120の生成を示す概略図である。 行列Uを使用する縮約次元空間の中への照会用語−重みベクトルqの投影と、その後に続くUの逆を使用する完全用語−重みベクトル空間への展開とを示す概略図である。 キーワードを選択するプロセスの概要を示すフローチャートである。 用語−重みベクトルが用語−頻度ベクトルであるケースについてキーワードを選択するプロセスを示すフローチャートである。 用語−重みベクトルがtf−idfベクトルであるケースについてキーワードを選択するプロセスを示し、かつキーワードベクトルがどのようにして生成されるかについてのさらなる詳細を提示するフローチャートである。 本発明の方法を実行するために適した汎用コンピュータアーキテクチャを示すブロック図である。
符号の説明
600 汎用コンピュータ
601 バス
602 マイクロプロセッサ
603 デイスプレイ
604 デイスプレイ
605 カ−ソル制御
606 キーボード
609 グラフィックス・コプロッセサ
610 モデム

Claims (24)

  1. 照会から得られる1以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法であって、
    a)1以上の文書用語−重みベクトルdを含む用語−重み行列を作成し、各文書用語−重みベクトルdが前記照会の前記用語から得られる前記1以上の文書中の前記頻度に関する情報を含むことと、
    b)前記照会用語−重みベクトルqと前記用語−重み行列から展開された照会用語−重みベクトルqexpandedを作成することと、
    c)前記展開された照会用語−重みベクトルqexpandedと前記文書用語−重みベクトルdを使用し、前記照会に関係し、前記文書の少なくとも1つにも含まれる用語として識別されるキーワードの集合の位置を突き止め、前記照会が前記キーワードを含む必要がないことと、
    を含む方法。
  2. 前記文書用語−重みベクトルdが用語−頻度ベクトルである請求項1に記載の方法。
  3. 前記文書用語−重みベクトルdが用語−頻度逆数−文書頻度(tf−idf)ベクトルであり、そのn番目の構成要素がa)前記n番目の用語の文書dの中の用語−頻度と、b)前記n番目の用語を含む前記文書の断片の関数として計算される請求項1に記載の方法。
  4. 前記関数が等式tf−idf=(1.0+log(tf))*log(1/df)に従って計算され、ここではtfが文書dの中のn番目の用語の用語−頻度であり、dfがn番目の用語を含む文書の断片である請求項3に記載の方法。
  5. キーワードの集合の位置を突き止める前記ステップが、前記文書の少なくとも1つの中に含まれ、前記展開された照会用語−重みベクトルqexpandedの中で最高値を有するキーワードを選択することを含む請求項1に記載の方法。
  6. キーワードの集合の位置を突き止めるステップは、
    c1)文書ごとに、展開された照会用語−重みベクトルqexpanded及び前記対応する文書用語−重みベクトルdの用語ごとの積を計算することと、
    c2)前記計算された積の中で最高値を有するキーワードを選択することと、
    を含む請求項1に記載の方法。
  7. 前記展開された照会用語−重みベクトルqexpandedを作成することは、
    b1)前記照会用語に対応する照会用語−重みベクトルqを潜在意味空間に投影し、縮約された照会用語−重みベクトルqreducedを作成することと、
    b2)潜在意味空間の中から前記照会用語−重みベクトルを展開して戻し、前期展開された照会用語−重みベクトルqexpandedを作成することと、
    を含む請求項1に記載の方法。
  8. 前記投影するステップが、
    b11)が正方対角行列であり、がユニタリ変換行列であり、がユニタリ行列である3つの行列 V’の積として用語−重み行列を近似することと、
    を含む請求項7に記載の方法。
  9. 前記投影するステップが、
    b12)縮約された照会用語−重みベクトルqreduced=q’*を作成することと、
    をさらに含む請求項8に記載の方法。
  10. 前記照会用語−重みベクトルqを展開する前記ステップが、
    b21)前記等式qexpanded=qreduced’=(q’*)*’に従って前記展開された照会用語−重みベクトルを作成することと、
    を含む請求項8に記載の方法。
  11. 前記照会用語−重みベクトルqを展開する前記ステップが、
    b21)縮約された照会用語−重みベクトルqreducedと前記ユニタリ変換行列の行nの類似性関数を計算することによりqexpandedのn個の用語のそれぞれを計算することと、
    を含む請求項7に記載の方法。
  12. 前記類似性関数がコサイン類似性関数である請求項11に記載の方法。
  13. 展開された照会用語−重みベクトルqexpandedを作成することが、
    b1)が正方対角行列であり、がユニタリ変換行列であり、がユニタリ行列である3つの行列 ’の積として前記用語−重み行列を近似することと、
    を含む請求項1に記載の方法。
  14. 展開された照会用語−重みベクトルqexpandedを作成することが、
    b2)等式qexpandedqに従って照会用語−重みベクトルqを使用して前記展開された照会用語−重みベクトルqexpandedを作成することと、
    をさらに含む請求項13に記載の方法。
  15. 次に示すステップ、
    d)前記キーワードを強調することと、
    をさらに含む請求項1に記載の方法。
  16. 前記文書がテキスト文書である請求項1に記載の方法。
  17. 前記文書がビデオセグメントに関連付けられるテキストである請求項1に記載の方法。
  18. 照会から1以上の文書の中に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法であって、
    a)1以上の文書用語−重みベクトルdを含む用語−重み行列を作成し、各文書用語−重みベクトルdが前記照会の前記用語から得られる前記1以上の文書の1つの前記頻度に関する情報を含むことと、
    b)前記照会用語に対応する照会用語−重みベクトルqを潜在意味空間の中に投影し、縮約された照会用語−重みベクトルqreducedを作成することと、
    c)潜在意味空間の中から前記照会用語−重みベクトルを展開し、前記展開された用語−重みベクトルqexpandedを作成することと、
    d)前記展開された照会用語−重みベクトルqexpanded及び文書用語−重みベクトルdを使用し、前記照会に関係する用語として識別され、前記文書の内の少なくとも1つにも含まれるキーワードの集合の位置を突き止め、前記照会が前記キーワードを含む必要がないことと、
    を含む方法。
  19. 照会から得られる1以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法であって、
    a)1以上の文書用語−重みベクトルdを含む用語−重み行列Mを作成し、各文書用語−重みベクトルdが前記照会の前記用語から得られる前記1以上の文書の1つにおける前記頻度に関する情報を含むことと、
    b)が正方対角行列であり、がユニタリ変換行列であり、がユニタリ行列である3つの行列 ’の積として前記用語−重み行列を近似することと、
    c)潜在意味空間の中から前記照会用語−重みベクトルを展開し、前記展開された照会用語−重みベクトルqexpandedを作成することと、
    d)前記展開された照会用語−重みベクトルqexpanded及び文書用語−重みベクトルdを使用し、前記商会に関係する用語として識別され、前記文書の少なくとも1つにも含まれるキーワードの集合の位置を突き止め、前記照会が前記キーワードを含む必要がないことと、
    を含む方法。
  20. コンピュータにおいて、照会から得られる1以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法であって、
    a)ユーザごとに前記コンピュータにより作成される用語−重み行列を受け取り、1以上の文書用語−重みベクトルdを含み、各文書が用語−重みベクトルdが前記照会の前記用語から得られる前記1以上の文書の1つにおける前記頻度に関する情報を含むことと、
    b)ユーザごとに、前記照会用語−重みベクトルq及び用語−重み行列からコンピュータにより作成される展開された照会用語−重みベクトルqexpandedを受け取ることと、
    c)ユーザごとに、前記コンピュータによって識別されるキーワードの集合を受け取り、前記展開された照会用語−重みベクトルqexpanded及び前記文書用語−重みベクトルdを、前記照会に関係し、前記文書の少なくとも1つにも含まれる用語として使用し、前記照会が前記キーワードを含む必要のないことと、
    を含む方法。
  21. コンピュータにおいて、1以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法であって、
    a)ユーザごとに前記選択された照会の用語の前記1以上の文書における前記頻度に関する情報を含み、が正方対角行列であり、がユニタリ変換行列であり、がユニタリ行列である3つの行列 ’の積として前記コンピュータによって近似される用語重み行列を受け取ることと、
    b)ユーザごとに、前記等式qexpandedqに従って照会用語−重みベクトルqを使用して該コンピュータによって作成される展開された照会用語−重みベクトルqexpandedを受け取ることと、
    c)ユーザごとに、前記コンピュータによって識別されるキーワードの集合を受け取り、前記照会に関係し、前記文書の少なくとも1つにも含まれる用語として前記展開された照会用語−重みベクトルqexpanded及び前記文書用語−重みベクトルdを使用し、前記照会が前記キーワードを含む必要のないことと、
    を含む方法。
  22. 1以上の選択された文書中にも含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、システムであって、
    a)各文書用語−重みベクトルdが前記照会の前記用語から得られる前記1以上の文書の1つにおける前記頻度に関する情報を含む1以上の文書用語−重みベクトルdを含む用語−重み行列を作成することができ、前記照会用語−重みベクトルq及び前記用語−重み行列から展開された照会用語−重みベクトルqexpandedを作成することができ、前記展開された照会用語−重みベクトルqexpanded及び前記文書用語−重みベクトルdを使用して、前記照会に関係し、前記文書の少なくとも1つにも含まれる用語として識別されるキーワードの集合の位置を突き止めることができ、前記照会が前記キーワードを含む必要のない1台または複数台のプロセッサと、
    b)前記1台または複数台のプロセッサによって処理されるときにシステムに、各文書用語−重みベクトルdが前記照会の前記用語から得られる前記1以上の文書の1つにおける前記頻度に関する情報を含む1以上の文書用語−重みベクトルdを含む、用語−重み行列を作成する前記ステップと、前記照会用語−重みベクトルq及び前記用語−重み行列から展開された照会用語−重みベクトルqexpandedを作成する前記ステップと、前記展開された照会用語−重みベクトルqexpanded及び前記文書用語−重みベクトルdを使用して、前記照会に関係し、前記文書の少なくとも1つにも含まれる用語として識別されるキーワードの集合の位置を突き止める前記ステップとを実行させ、前記照会が前記キーワードを含む必要がない、その上に記憶される動作を含む機械可読媒体と、
    を備えるシステム。
  23. 1以上の選択された文書に含まれる照会関連キーワードの集合を識別するための方法を実行するためにコンピュータによって実行可能であり、前記照会が前記キーワードを含む必要のない、コンピュータ・プログラムであって、
    a)1以上の文書用語−重みベクトルdを含む用語−重み行列を作成し、各文書用語−重みベクトルdが前記照会の前記用語から得られる前記1以上の文書の1つにおける前記頻度に関する情報を含む命令と、
    b)前記照会用語−重みベクトルq及び前記用語−重み行列Mから展開された照会用語−重みベクトルqexpandedを作成する命令と、
    c)前記展開された照会用語−重みベクトルqexpanded及び前記文書用語−重みベクトルdを使用し、前記照会に関係し、前記文書の少なくとも1つにも含まれる用語としてキーワードの集合の位置を突き止め、前記照会が前記キーワードを含む必要のない命令と、
    を含むコンピュータ・プログラム。
  24. 1以上の選択された文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要のない、システムまたは装置であって、
    a)1以上の用語−重みベクトルdを含む用語−重み行列Mを作成するための手段であって、各文書用語−重みベクトルdが前記選択された照会の中の用語の前記1以上の文書における前記頻度に関する情報を含む手段と、
    b)前記照会用語−重みベクトルq及び前記用語−重み行列から展開された照会用語−重みベクトルqexpandedを作成するための手段と、
    c)前記展開された照会用語−重みベクトルqexpanded及び前記用語−重み行列を使用して、前記照会に関係し、前記文書の少なくとも1つにも含まれる用語として識別されるキーワードの集合の位置を突き止め、前記照会が前記キーワードを含む必要のない手段と、
    を備えるシステムまたは装置。
JP2005326733A 2004-11-12 2005-11-10 照会から得られる1以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法及びシステム Pending JP2006139783A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/987,377 US7440947B2 (en) 2004-11-12 2004-11-12 System and method for identifying query-relevant keywords in documents with latent semantic analysis

Publications (1)

Publication Number Publication Date
JP2006139783A true JP2006139783A (ja) 2006-06-01

Family

ID=36387633

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005326733A Pending JP2006139783A (ja) 2004-11-12 2005-11-10 照会から得られる1以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法及びシステム

Country Status (2)

Country Link
US (1) US7440947B2 (ja)
JP (1) JP2006139783A (ja)

Families Citing this family (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8312021B2 (en) * 2005-09-16 2012-11-13 Palo Alto Research Center Incorporated Generalized latent semantic analysis
US8065286B2 (en) * 2006-01-23 2011-11-22 Chacha Search, Inc. Scalable search system using human searchers
US20070174258A1 (en) * 2006-01-23 2007-07-26 Jones Scott A Targeted mobile device advertisements
WO2008059515A2 (en) * 2006-08-01 2008-05-22 Divyank Turakhia A system and method of generating related words and word concepts
US20080127270A1 (en) * 2006-08-02 2008-05-29 Fuji Xerox Co., Ltd. Browsing video collections using hypervideo summaries derived from hierarchical clustering
US20080086490A1 (en) * 2006-10-04 2008-04-10 Sap Ag Discovery of services matching a service request
US9075864B2 (en) 2006-10-10 2015-07-07 Abbyy Infopoisk Llc Method and system for semantic searching using syntactic and semantic analysis
US9189482B2 (en) 2012-10-10 2015-11-17 Abbyy Infopoisk Llc Similar document search
US9892111B2 (en) 2006-10-10 2018-02-13 Abbyy Production Llc Method and device to estimate similarity between documents having multiple segments
US9495358B2 (en) 2006-10-10 2016-11-15 Abbyy Infopoisk Llc Cross-language text clustering
US9098489B2 (en) 2006-10-10 2015-08-04 Abbyy Infopoisk Llc Method and system for semantic searching
US9069750B2 (en) 2006-10-10 2015-06-30 Abbyy Infopoisk Llc Method and system for semantic searching of natural language texts
US8280877B2 (en) * 2007-02-22 2012-10-02 Microsoft Corporation Diverse topic phrase extraction
US20080222018A1 (en) * 2007-03-08 2008-09-11 Alejandro Backer Financial instruments and methods for the housing market
CN101286150B (zh) 2007-04-10 2010-09-15 阿里巴巴集团控股有限公司 生成更新参数的方法和装置、展示相关关键词的方法和装置
US7818278B2 (en) * 2007-06-14 2010-10-19 Microsoft Corporation Large scale item representation matching
KR20090112095A (ko) * 2008-04-23 2009-10-28 삼성전자주식회사 방송 컨텐츠의 저장 방법, 디스플레이 방법 및 그 장치
US8290946B2 (en) * 2008-06-24 2012-10-16 Microsoft Corporation Consistent phrase relevance measures
US7730061B2 (en) * 2008-09-12 2010-06-01 International Business Machines Corporation Fast-approximate TFIDF
US20100094835A1 (en) * 2008-10-15 2010-04-15 Yumao Lu Automatic query concepts identification and drifting for web search
US20100114878A1 (en) * 2008-10-22 2010-05-06 Yumao Lu Selective term weighting for web search based on automatic semantic parsing
US8166051B1 (en) 2009-02-03 2012-04-24 Sandia Corporation Computation of term dominance in text documents
TWI393018B (zh) * 2009-02-06 2013-04-11 Inst Information Industry 關鍵詞彙即時擴展方法與系統以及儲存關鍵詞彙即時擴展程式的電腦可讀寫記錄媒體
US8041729B2 (en) * 2009-02-20 2011-10-18 Yahoo! Inc. Categorizing queries and expanding keywords with a coreference graph
US8250053B2 (en) * 2009-02-24 2012-08-21 Microsoft Corporation Intelligent enhancement of a search result snippet
US10564721B2 (en) 2009-03-12 2020-02-18 Immersion Corporation Systems and methods for using multiple actuators to realize textures
US9696803B2 (en) 2009-03-12 2017-07-04 Immersion Corporation Systems and methods for friction displays and additional haptic effects
US9746923B2 (en) 2009-03-12 2017-08-29 Immersion Corporation Systems and methods for providing features in a friction display wherein a haptic effect is configured to vary the coefficient of friction
KR101670109B1 (ko) * 2009-03-12 2016-10-27 임머숀 코퍼레이션 표면-기반 햅틱 효과를 특징으로 하는 인터페이스에 대한 시스템 및 방법
US10007340B2 (en) * 2009-03-12 2018-06-26 Immersion Corporation Systems and methods for interfaces featuring surface-based haptic effects
US8316039B2 (en) * 2009-05-18 2012-11-20 Microsoft Corporation Identifying conceptually related terms in search query results
US9208259B2 (en) * 2009-12-02 2015-12-08 International Business Machines Corporation Using symbols to search local and remote data stores
US8375021B2 (en) 2010-04-26 2013-02-12 Microsoft Corporation Search engine data structure
US8463786B2 (en) 2010-06-10 2013-06-11 Microsoft Corporation Extracting topically related keywords from related documents
US20150248698A1 (en) 2010-06-23 2015-09-03 Google Inc. Distributing content items
US8548989B2 (en) 2010-07-30 2013-10-01 International Business Machines Corporation Querying documents using search terms
US10431336B1 (en) 2010-10-01 2019-10-01 Cerner Innovation, Inc. Computerized systems and methods for facilitating clinical decision making
US10734115B1 (en) 2012-08-09 2020-08-04 Cerner Innovation, Inc Clinical decision support for sepsis
US11398310B1 (en) 2010-10-01 2022-07-26 Cerner Innovation, Inc. Clinical decision support for sepsis
US11348667B2 (en) 2010-10-08 2022-05-31 Cerner Innovation, Inc. Multi-site clinical decision support
US10628553B1 (en) 2010-12-30 2020-04-21 Cerner Innovation, Inc. Health information transformation system
US9158841B2 (en) * 2011-06-15 2015-10-13 The University Of Memphis Research Foundation Methods of evaluating semantic differences, methods of identifying related sets of items in semantic spaces, and systems and computer program products for implementing the same
US8533195B2 (en) * 2011-06-27 2013-09-10 Microsoft Corporation Regularized latent semantic indexing for topic modeling
US8856156B1 (en) 2011-10-07 2014-10-07 Cerner Innovation, Inc. Ontology mapper
CN103294684B (zh) * 2012-02-24 2016-08-24 浙江易网科技股份有限公司 关联词汇搜索系统及方法
US10249385B1 (en) 2012-05-01 2019-04-02 Cerner Innovation, Inc. System and method for record linkage
US9208254B2 (en) * 2012-12-10 2015-12-08 Microsoft Technology Licensing, Llc Query and index over documents
US10692591B2 (en) * 2013-02-01 2020-06-23 B-Line Medical, Llc Apparatus, method and computer readable medium for tracking data and events
US11894117B1 (en) 2013-02-07 2024-02-06 Cerner Innovation, Inc. Discovering context-specific complexity and utilization sequences
US10769241B1 (en) 2013-02-07 2020-09-08 Cerner Innovation, Inc. Discovering context-specific complexity and utilization sequences
US10946311B1 (en) 2013-02-07 2021-03-16 Cerner Innovation, Inc. Discovering context-specific serial health trajectories
US9600529B2 (en) * 2013-03-14 2017-03-21 Wal-Mart Stores, Inc. Attribute-based document searching
US9402101B2 (en) * 2013-03-15 2016-07-26 Panasonic Intellectual Property Corporation Of America Content presentation method, content presentation device, and program
US9256687B2 (en) 2013-06-28 2016-02-09 International Business Machines Corporation Augmenting search results with interactive search matrix
US10854334B1 (en) 2013-08-12 2020-12-01 Cerner Innovation, Inc. Enhanced natural language processing
US10483003B1 (en) 2013-08-12 2019-11-19 Cerner Innovation, Inc. Dynamically determining risk of clinical condition
US10114823B2 (en) 2013-11-04 2018-10-30 Ayasdi, Inc. Systems and methods for metric data smoothing
US10042936B1 (en) * 2014-07-11 2018-08-07 Google Llc Frequency-based content analysis
US11182433B1 (en) * 2014-07-25 2021-11-23 Searchable AI Corp Neural network-based semantic information retrieval
US9767169B1 (en) 2014-09-26 2017-09-19 Google Inc. Enhancing search results for improved readability
CN104765769B (zh) * 2015-03-06 2018-04-27 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法
CA3020921A1 (en) * 2016-04-15 2017-10-19 3M Innovative Properties Company Query optimizer for combined structured and unstructured data records
CN106095737A (zh) * 2016-06-07 2016-11-09 杭州凡闻科技有限公司 文档相似度计算方法及相似文档全网检索跟踪方法
CN106776741A (zh) * 2016-11-18 2017-05-31 北京奇虎科技有限公司 一种搜索方法和装置
US10956409B2 (en) 2017-05-10 2021-03-23 International Business Machines Corporation Relevance model for session search
CN107145476A (zh) * 2017-05-23 2017-09-08 福建师范大学 一种基于改进tf‑idf关键词提取算法
US11003996B2 (en) * 2017-05-24 2021-05-11 Facebook, Inc. Determining navigation patterns associated with a social networking system to provide content associated with a destination page on a starting page
US20180341686A1 (en) * 2017-05-26 2018-11-29 Nanfang Hu System and method for data search based on top-to-bottom similarity analysis
CN107402960B (zh) * 2017-06-15 2020-11-10 成都优易数据有限公司 一种基于语义语气加权的倒排索引优化算法
US10733220B2 (en) 2017-10-26 2020-08-04 International Business Machines Corporation Document relevance determination for a corpus
US20180260481A1 (en) * 2018-04-01 2018-09-13 Yogesh Rathod Displaying search result associated identified or extracted unique identity associated structured contents or structured website
CN108717459B (zh) * 2018-05-24 2019-05-21 哈尔滨工程大学 一种面向用户评论信息的移动应用缺陷定位方法
US11294974B1 (en) * 2018-10-04 2022-04-05 Apple Inc. Golden embeddings
US11238103B2 (en) * 2019-09-13 2022-02-01 Ebay Inc. Binary coding for improved semantic search
US11468240B2 (en) 2019-12-16 2022-10-11 Raytheon Company System and method for using machine learning supporting natural language processing analysis
US11730420B2 (en) 2019-12-17 2023-08-22 Cerner Innovation, Inc. Maternal-fetal sepsis indicator
US11567981B2 (en) * 2020-04-15 2023-01-31 Adobe Inc. Model-based semantic text searching
US11818091B2 (en) 2020-05-10 2023-11-14 Salesforce, Inc. Embeddings-based discovery and exposure of communication platform features
CN112347758B (zh) * 2020-11-06 2024-05-17 中国平安人寿保险股份有限公司 文本摘要的生成方法、装置、终端设备及存储介质
US11416562B1 (en) 2021-04-23 2022-08-16 International Business Machines Corporation Corpus expansion using lexical signatures

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000137738A (ja) * 1998-11-03 2000-05-16 Nec Corp 複数の細分度のインデックス付けとクエリ―処理を効果的に用いてクエリ―の拡張を支援する方法、及び装置
JP2002014999A (ja) * 2000-06-28 2002-01-18 Matsushita Electric Ind Co Ltd 類似文書検索装置及び関連キーワード抽出装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5694594A (en) * 1994-11-14 1997-12-02 Chang; Daniel System for linking hypermedia data objects in accordance with associations of source and destination data objects and similarity threshold without using keywords or link-difining terms
US5703655A (en) * 1995-03-24 1997-12-30 U S West Technologies, Inc. Video programming retrieval using extracted closed caption data which has been partitioned and stored to facilitate a search and retrieval process
US6718535B1 (en) * 1999-07-30 2004-04-06 Accenture Llp System, method and article of manufacture for an activity framework design in an e-commerce based environment
US6985876B1 (en) * 2000-02-07 2006-01-10 National Instruments Corporation System and method for enabling a user of an E-commerce system to visually view and/or configure a product for purchase
US7284008B2 (en) * 2000-08-30 2007-10-16 Kontera Technologies, Inc. Dynamic document context mark-up technique implemented over a computer network
US20020111870A1 (en) * 2000-09-26 2002-08-15 I2 Technologies, Inc. System and method for identifying a product
US20020073001A1 (en) * 2000-12-13 2002-06-13 Itt Manufacturing Enterprises, Inc. System and process for assisting a user to configure a configurable product
US20020087432A1 (en) * 2000-12-29 2002-07-04 Ivette Muniz Product configurator method and system
US20050022114A1 (en) * 2001-08-13 2005-01-27 Xerox Corporation Meta-document management system with personality identifiers
US6970863B2 (en) * 2001-09-18 2005-11-29 International Business Machines Corporation Front-end weight factor search criteria
US6847966B1 (en) * 2002-04-24 2005-01-25 Engenium Corporation Method and system for optimally searching a document database using a representative semantic space
US7451395B2 (en) * 2002-12-16 2008-11-11 Palo Alto Research Center Incorporated Systems and methods for interactive topic-based text summarization
US7376893B2 (en) * 2002-12-16 2008-05-20 Palo Alto Research Center Incorporated Systems and methods for sentence based interactive topic-based text summarization
US7584221B2 (en) * 2004-03-18 2009-09-01 Microsoft Corporation Field weighting in text searching

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000137738A (ja) * 1998-11-03 2000-05-16 Nec Corp 複数の細分度のインデックス付けとクエリ―処理を効果的に用いてクエリ―の拡張を支援する方法、及び装置
JP2002014999A (ja) * 2000-06-28 2002-01-18 Matsushita Electric Ind Co Ltd 類似文書検索装置及び関連キーワード抽出装置

Also Published As

Publication number Publication date
US7440947B2 (en) 2008-10-21
US20060106767A1 (en) 2006-05-18

Similar Documents

Publication Publication Date Title
JP2006139783A (ja) 照会から得られる1以上の文書に含まれる照会関連キーワードの集合を識別するための、前記照会が前記キーワードを含む必要がない、方法及びシステム
US6876998B2 (en) Method for cross-linguistic document retrieval
JP3820242B2 (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
JP5611390B2 (ja) 対話型サーチクエリーを改良するためのシステム及び方法
JP3270783B2 (ja) 複数の文書検索方法
US5907840A (en) Overlapping subdocuments in a vector space search process
US5995962A (en) Sort system for merging database entries
KR101004515B1 (ko) 문장 데이터베이스로부터 문장들을 사용자에게 제공하는 컴퓨터 구현 방법 및 이 방법을 수행하기 위한 컴퓨터 실행가능 명령어가 저장되어 있는 유형의 컴퓨터 판독가능 기록 매체, 문장 데이터베이스로부터 확인 문장들을 검색하는 시스템이 저장되어 있는 컴퓨터 판독가능 기록 매체
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
JPH11102377A (ja) データベースからドキュメントを検索する方法および装置
US11853331B2 (en) Specialized search system and method for matching a student to a tutor
JP4325370B2 (ja) 文書関連語彙獲得装置及びプログラム
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
JP2009086903A (ja) 検索サービス装置
Li et al. Complex query recognition based on dynamic learning mechanism
Rastogi et al. Performance comparison of word sense disambiguation (wsd) algorithm on hindi language supporting search engines
US6473755B2 (en) Overlapping subdocuments in a vector space search process
JPH064584A (ja) 文章検索装置
JP3222193B2 (ja) 情報検索装置
JP2002132789A (ja) 文書検索方法
WO2011011777A2 (en) Pre-computed ranking using proximity terms
JPH1069490A (ja) 文書絞り込み検索装置、文書絞り込み検索方法及び文書検索装置
JPH0793345A (ja) 文書検索装置
JPH03123971A (ja) 索引付け支援装置
JPH09101951A (ja) 文書検索装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081022

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110329

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110816