JP4465274B2 - 関連する単語のクラスタに基づいて、文書を特徴付けるための方法および装置 - Google Patents
関連する単語のクラスタに基づいて、文書を特徴付けるための方法および装置 Download PDFInfo
- Publication number
- JP4465274B2 JP4465274B2 JP2004541690A JP2004541690A JP4465274B2 JP 4465274 B2 JP4465274 B2 JP 4465274B2 JP 2004541690 A JP2004541690 A JP 2004541690A JP 2004541690 A JP2004541690 A JP 2004541690A JP 4465274 B2 JP4465274 B2 JP 4465274B2
- Authority
- JP
- Japan
- Prior art keywords
- node
- cluster
- words
- probability
- active
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 78
- 230000004913 activation Effects 0.000 claims description 49
- 230000007246 mechanism Effects 0.000 claims description 40
- 230000008569 process Effects 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 26
- 238000010276 construction Methods 0.000 claims description 20
- 238000003860 storage Methods 0.000 claims description 19
- 230000009194 climbing Effects 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 7
- 230000002493 climbing effect Effects 0.000 claims description 3
- 230000001174 ascending effect Effects 0.000 claims description 2
- 230000004075 alteration Effects 0.000 claims 3
- 238000001994 activation Methods 0.000 description 43
- 150000001875 compounds Chemical class 0.000 description 39
- 238000009826 distribution Methods 0.000 description 28
- 238000012545 processing Methods 0.000 description 18
- 241000406668 Loxodonta cyclotis Species 0.000 description 17
- 239000000243 solution Substances 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 13
- 238000013459 approach Methods 0.000 description 12
- 239000012634 fragment Substances 0.000 description 12
- 238000005457 optimization Methods 0.000 description 12
- 238000010304 firing Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 9
- 238000010411 cooking Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000001960 triggered effect Effects 0.000 description 6
- 238000013329 compounding Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 230000001568 sexual effect Effects 0.000 description 4
- 241000282372 Panthera onca Species 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 210000003128 head Anatomy 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 230000003750 conditioning effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 206010003805 Autism Diseases 0.000 description 1
- 208000020706 Autistic disease Diseases 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 241000555745 Sciuridae Species 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 230000006993 memory improvement Effects 0.000 description 1
- 230000003121 nonmonotonic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000000284 resting effect Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000004148 unit process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99943—Generating database or data structure, e.g. via user interface
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
根底にある意味(セマンティック)をとらえる方法でテキストを処理することは、しばしば行われているが、不明点が多い作業である。この機能は、もっとも頻繁にサーチエンジンのからみで行われている。サーチエンジンは、ユーザにより問い合わせに対してあるレジストリにおける文書を一致させようと試みる。これはまた、時々、例えば、同様な内容を有する文書を見つけ出すために図書館のような他の情報ソースによって用いられる。一般的に、テキストの意味を理解することは、このようなシステムの大変有用な一部の構成要素である。あいにく、過去に書かれた大半のシステムは、基本的な理解しか有せず、テキストに用いられている単語にだけに着眼し、単語の背後にある意味には着眼していない。
本発明の1つの実施形態は、システムが概念的に関連した単語のクラスタに対して文書を特徴付けることを提供する。単語のセットを包含する文書を受け取ると、このシステムは、単語のセットに関連する概念的に関連した単語の「候補クラスタ(candidate cluster)」を選択する。この単語のセットが概念的に関連した単語のクラスタからどのように生成されるのかを説明するモデルを用いて、これらの候補クラスタが選択される。次に、このシステムは、文書を特徴付けるように(ベクトルといった)構成要素のセットを構築する。構成要素のセットは、候補クラスタに対する構成要素を含む。この構成要素のセットにおける各構成要素は、対応する候補クラスタが単語のセットに関連付けられている度合いを示している。
本発明の1つの実施形態は、例示的なモデルのテキストを学習することによって概念を学習するシステムを提供する。このシステムから見て、わずかなテキストが、確率ネットワークの実行を介してかなり単純ではあるが、信じられない程強力な態様で生成される。このシステムは、わずかなテキストを有する多くの例を調べることによってこのネットワークのパラメータを学習する。
単語のセットとしてテキストを生成したシステムがどのようなものであるか参照する。図1は、1つのこのようなモデルを示す。ここでは、円は、モデルノードと呼ばれる。これらのノードは、ランダムな変数を表しており、各ランダムな変数は、概念またはターミナルの存在性または非存在性をモデル化する。このモデルにおいて我々が考慮するターミナルは、「象」、「灰色」および「空」だけである。C1とC2と呼ばれる2つの概念がある(なぜなら、これらは、関連した単語を生成するように用いられるため、概念は、時々クラスタと呼ばれる)。
さまざまな理由のために、上記の単純なタイプのモデルは、テキストを処理するためにわずかながら適していない。これに対する簡単な説明としては、概念のそれぞれはある数の単語を生成するが、例えば、リンク上の重みが小さいとき、多くの単語を生成することが、より難しくなることである。例えば、概念が指し示すターミナルから、わずか、または多くの単語のいずれかを生成し得ることが所望される。
先に進む前に、ここで、我々が話しているモデルと、ベイジアンネットワークと呼ばれる確率モデルのあるクラスとの間の双対関係について記述する価値がある。
この点では、我々は、現存のモデルがどのようにテキストを生成するように用いられたかを考察した。我々は、この作業のいくつかの側面を詳述しなかった。(1)我々のモデルはどのように学習されるのか(2)我々のモデルは、テキストに存在している概念をどのように推測するために用いられるか、および(3)我々のモデルは、実際的な状況でどのように用いられるか。このセクションでは、我々は、我々のモデルがどのように学習されるのかということと、このために用いられ得る様々な技術を詳述する。
卒業(the graduate)
ダスティン・ホフマン(dustin hoffman)
レインマン(rain main)
自閉症(autism)
クールジャンク(cool junk)
高速車(fast cars)
トム・クルーズ ニコール・キッドマン(tom cruise nicole kidman)
ここでの各問い合わせは、別々の行の上にある。大半の単語がある点で関連している。第1の単語および第3の単語は、ダスティン・ホフマン出演の映画である。第2の単語は、ダスティン・ホフマン自信である。第4の単語は、映画で取り上げられた問題に関する。第5の問い合わせの「ジャンククール」は、このセッションのメイントピックに関連していない。第6の単語も同様である。最後の単語は少し関連している。なぜなら、トム・クルーズは、レインマンの中でダスティン・ホフマンと競演した。一般的に、このようなテキストにおいても多くの情報があり、我々は、これらを用いて推論することができる。しかしまた、多くの相互に関連していないジャンクもある。我々のシステムの主なタスクは、大量(億もの)のこのようなテキストを考察する一方で、ジャンクから適切な関連性のあるものを選択することである。
実際には、このモデル上の分布は、我々がこのようなテキストの生成に関してすべての質問に応答することを可能にする。
十分に大きなネットワークが50億のセッション×(百万のターミナルローカルノード+5百万の概念ローカルノード)=300億×百万のローカルターミナルノードを有することを意味し、これは、簡単な部分である。ここでリンクを数えてみる。グローバルモデルは、5百万のノードを有し、グローバルノードのそれぞれは、百万のターミナルにリンクし得る。ターミナルのそれぞれは、ローカルネットワークにおいて、5百万回複製され得る。ローカルネットワークのそれぞれは、数を倍にする適切なグローバルノードからリンクを有する。つまり、
百万ターミナル×5百万クラスタ×50億セッション×2=5千万×百万×10億リンクである。
このサイズのネットワーク上で指数関数的な数の正しい推測技術を行うことが一番厄介な部分である。したがって、基本的には、このような単刀直入なやりかたを行うことは、途方もなく高くつく。本開示の次のセクションでは、このシステムが可能であるようにするために、なされ得るさまざまなこと、およびなされるべきさまざまなことを記載する。
我々の大きなネットワークの問題を解決する際に我々が有する第1の問題は、完全なる推論はこのネットワークのサイズにおいて、指数関数的になることである。ここでは、我々は、いくらかショートカットを使う。急速で不正確な態様で、確率ネットワークに証拠を伝播させる(一般的にルーピーと呼ばれる)「ルーピー確度伝播(loopy belief propagation)と呼ばれる推論技術がある。これは、速いという利点を有するが、不正確であるという不都合を有する。しかしながら、これは、しばしば、さまざまな確度のネットワークに対して十分な概算を求めるものである。
大きなネットワークにおけるグローバル/ローカルの境界を越えて、ルーピーメッセージが用いられる。ここで、グローバルノードは、特定のローカルネットワークにそれらの確度を伝播する。ネットワークは何十億分のたった1であるので、通常、これは、いかなる所において伝播されたものと同一の考えである。またしかしながら、そのトリガーノードについて他のすべてが既知であるとすると、トリガーノードはネットワークの確率を伝播する。
1−e−a1q1e−a2q2であり、
したがって、ネットワーク全体の確率は、
p1p2(1−e−a1q1e−a2q2)である。
C1が真であり、C2が偽であるとき、このことが起こる確率は、p1(1−p2)である。Tが真である確率は、
1−e−a1q1であり、
したがって、ネットワーク全体の確率は、
p1(1−p2)(1−e−a1q1)である。
同様に、C2が真であり、C1が偽であるとき、このネットワークの確率は、
p2(1−p1)(1−e−a2q2)である。
最後に、C1およびC2のいずれもが真でないとき、Tが真であることはあり得ない。したがって、グローバルノード(C1→T)へ送信される関数のメッセージは、
p1p2(1−e−a1q1e−a2q2)+
p1(1−p2)(1−e−a1q1)+
p2(1−p1)(1−e−a2q2)である。
a+be−a1q1
ここで、aは、すべての上記の定数項の和であり、bは、上記和におけるe−a1q1の係数である。q2、p1、p2が、メッセージをノード(C1→T)へ送信するためにすべて一定であることが考慮されることに留意する。実際には、この関数が乗算する一定の因子は重要ではないので、この等式は、以下のように書き換えられ得る。
1+ke−a1q1
グローバルモデルに送信される2つの数(kおよびal)だけが残る。我々は、グローバルノードへのこれらのアップメッセージをリンクメッセージと呼ぶ。
リンクの重みの最適化
さて、我々は、ルーピーがどのようにグローバルノードをとらえるかを考慮する準備ができている。つまり、ルーピーの各反復において、我々のモデルが、そのモデルにおける各リンクに対する存在および最良の値の双方をどのように再考するかである。任意のグローバルノードへのアップメッセージは、以下の形式であることを思い出してください。
1+ke−a1q1
さて、この変数に対するもっとも可能性が高い重み値を選択するために、我々のモデルは、これらのすべてのアップメッセージを単純に組み合わせ、グローバルノードに対する最良の値を選ぶだけでよい。便宜上、我々の表記を少しだけ変えてみる。ノードが、(1+kiexp(aix))形式のN個のアップメッセージを受信するとする。ここでは、我々は、1からNに移動する添え字としてiを用いている。kiは一定の因子であり、aiはx上の係数である。ここでXに対して解かれるべき変数であるxは、その変数に対する可能な選択を表しており、一方、関数メッセージは、xに対する異なる値を用いて、さまざまなセッションの確率を表している。
我々のモデルは、そのモデルが理解する限定された単語または複合語のセット(レキシコンと呼ばれる)を取り扱う。前処理の段階がこのレキシコンを決定するために必要とされる。この前処理段階は、我々のモデルに対して処理され得る重要な単語および複合語を決定する。大まかに述べると、ユーザセッションにおける時間のある特定の一部分に見られるすべての単語が含まれている。複合語を含むことは、より複雑である。ここでは2つの方法が可能である。1)複合語をより含み、ランタイムで複合化を行う。2)複合化をそれ程含まずに、スタティック(static)時間で複合化を行う。
red car
blue car
yellow car
スプリットは同様の概念である。ここでは、複合語は、その両端でスプリットされる。2語の複合語にとって、ブレークはまた、スプリットでありが、「this is the time for all men」のようなより長い複合語に対しては、セッションの他の単語「the time」がブレークと見なされる。さて、この情報は、ブレークが意図的ではなく、偶然的である可能性を考慮するために、ブレークの可能性に関する情報と組み合わせられ得る。例えば、ユーザは、以下のユーザセッションを見る。
new york cars
new magazines
我々のモデルは、これが「new york」に対してのブレークであると結論付ける。しかしながら、「new」は、比較的頻繁に使用される単語であるので、ブレークの重み、つまり我々のモデルが、その単語をどれだけ重要であると思っているのかが、その単語がどれだけ一般的な単語であるのかによって重み付けされる。この情報のすべて(複合語の頻出度、ブレークおよびスプリット頻度、およびスプリットまたはブレークされた単語の頻出度)が、レキシコンに対する適切な複合語のセットを決定する際に用いられる。このレキシコンがユーザセッションに基づく必要はなく、実際には、ウェブの文書、本等を含む任意のテキストの態様が、適切な複合語のレキシコンを作成するように用いられ得る。
我々のモデルについて記載した上述の大半は、独断で大きな数の概念を仮定したが、これは技術が初期化される態様である必要はない。実際には、我々のモデルは、特定の1つのクラスタだけで始まる。それは、普遍クラスタUである。これはまた記憶を増進させる理由だけのために、CANADAとも呼ばれる(これは国のCanadaとは違うことに留意する)。
カリフォルニア(california)
パロアルト(palo alto)
バークレー(berkeley)
さて、我々が新しいローカルネットワーク上でトレーニングするにつれて、我々は以下のセッションを観察する。
カリフォルニア(california)
バークレー(berkeley)
サンフランシスコ(san francisco)
図14は、このようなネットワークがどのようなものであるかを示す(ここで、我々は、美的な理由のためにトリガーを削除した)。このセッションにおいて、我々の新しいクラスタCはカリフォルニアおよびバークレーの双方を差し示す。ターミナルの希薄を用いることにより、他のすべてのターミナルは、しっかりとは考慮されないことに留意する。クラスタの希薄を用いたときも同様である。また、低い確率であるモデルリンクにおいて格納されないので、Cとサンフランシスコとの間にははっきりとしたリンクが存在しない(それ故に、それらの間は点線になっている)。また、モデルの希薄のためにグローバルノード(C→サンフランシスコ)がまた、はっきりと存在しないことに留意すること。ここでは、このセッションにおいて、Cが、起こりそうであると決定されるとき、存在しないノード(C→サンフランシスコ)にアップメッセージを送信することは好都合である。我々のモデルがこのメッセージを受信するとき、我々のモデルは、(C→サンフランシスコ)リンクに対する最適値を計算し、このリンクが十分重大であるとき(このリンクは存在し、十分に高い最高値を有する)、(C→サンフランシスコ)ノードがグローバルモデルに追加される。まさにこのようにして、グローバルノードは、クラスタからターミナルへの新しいリンクを成長させる。しかしながら、行われ得る1つの最適化は、局所的にルーピーを実行させた後でクラスタが十分に高い確率を有するとき、これらの新しいノードリンクメッセージを送信するだけである。
この点では、我々は、我々のモデルを実用的にするために用いられるいくつかの希薄技術と同様に我々のモデルの仕様の双方を取り囲む多くの理論的な詳細を考察した。このセクションは、我々のモデルの実行を網羅する。つまり、我々のモデルの実行は、前記の理論的モデル上で動作する的確なステップおよび処理である。このセッションにおいて依然重要な理論的な紹介がある。なぜなら、我々のモデルを実際に実行する観点からして、説明可能ないくつかの一時的な効果しかないからである。
格納される構成要素
先ず、我々は、モデルが学習することを可能にするために1つの反復から次の反復までに、我々のモデルが格納し得る情報の構成要素を網羅することから始める。
先ず、我々のモデルは主にメモリにロードされて、ファイルシステムのアクセスを保存する。第2に、我々のモデルは、ファイルシステムからトレーニングセッションを読み出す。このモデルが、上記の希薄の原理を用いて、これらのセッションに対してローカルネットワークを形成する。それから、このモデルは、ローカルセッション上で推論(ルーピー)を実行する。なぜなら、それは、さまざまなクラスタの確率を決定するために必要とされるからである。これは、(上述されるように)リンクメッセージを抽出するために重要である。
この段階は、新しいクラスタメッセージを受信し、クラスタが我々のモデルにどのように適合するのかを決定する。この決定がこのときまで延ばされる。なぜなら、この決定は、O1段階で計算される情報が必要であるからである。これは、重要な動態論的な理由のためである。新しいクラスタが導入されるとき、新しいクラスタへのすべてのリンクの可能性および最良の値について決定がされ得る。一般的に、このようなクラスタは、それが基づいている「新しいクラスタメッセージ」における他のリンクと同様にCANADAからリンクされる。
この段階は、処理セッション段階からすべてのリンクメッセージおよびすべての概算されたノードメッセージを受信し、リンク最適化のセクションで上記される態様でリンクの可能性および確率を最適化する。この段階の出力はまた、ターゲットidによってかけらにされる「エントリメッセージ」のセットである。
この段階は、すべてのエントリメッセージを受信し、1つの特定のターゲットに対してそれらをひとまとめにする。この段階はまた、セットされている数Nに対する特定のターゲットを示し得るソースの数を制限する。Nに対する一般的な値は100くらいである。ターゲットを指し示すN個のソースは、ターゲットにとって最も重要なソースである。ここでは、重要さは、ソースに対するO1の値と、そのリンク沿いのリンクの重みと、そのリンク沿いのリンクの可能性との積によって決定される。この簡略化は、効率化のために特定の小さなノードを指し示す親の数を保つために行われる。これはまた、別のスケーラビリティ技術であり、我々は、これを「行の希薄」と呼ぶ。
この段階は、親インデックスデータを反転させて、子インデックスを構築する。子インデックスの入力は、リンクのターゲットによってかけられにされ、その出力は、ソースによってかけらにされる。各処理ユニットは、並列に、多くの結果ファイルを付加する。
数回の反復ごとに起こる「リナンバリング」と呼ばれる特別なステップがある。クラスタC1は、クラスタC2にリンクし得るが、逆は起こらないことを思い出してください。一般的に、iがjより小さいとき、id=iのクラスタはid=jのクラスタにリンクし得る。特別関係および一般関係を学習するために、より大きなクラスタがより小さいクラスタにリンクすることが所望される。概念は、通常、一般化より特別化を有するので、前もってより大きなクラスタをid空間に配置することは理にかなっている。これは、関係が学習されるあいにく必要でない順序である。このために、我々は、ときどき(数回の反復毎に)、クラスタのすべてをリナンバリングする。
w’p2=wp1
または
w’=wp1/p2
を満たす新しいリンク重みw’用いて達成される。
セッションを分析するとき、本発明の1つの実施形態は、我々が明らかにするローカル確度ネットワークにおいて何千にもおよぶすべてのクラスタを含んでいない。我々は、先ず、どのクラスタがアクティブある可能性が一番低いのかを決定し、残りがオフであると仮定する。我々は、我々が考慮するクラスタを「候補クラスタ」と呼ぶ。どのクラスタが候補であるのかを決定するために、我々は、モデルにおける高さの昇順でクラスタの優先待ち行列を評価するために、それらを保つ(クラスタidを減少させ、一般性を増加させる)。我々は、セッションに対するターミナルのすべての親にその行列を加える。我々は、それから、行列のクラスタを除き、それを評価する。所定のクラスタC1に対して、我々は、図15.1に示される確度ネットワークを構築する。我々は、C1およびC1によってリンクされるセッションにおけるすべてのターミナルを含む。C1がある定数(我々は、3.0を用いる)と同等のアクチベーションをまるで有するように、我々は、これらの複数のノードの間のリンクの重みを計る。我々は、セッションにおける単語の数によって乗算されたターミナルのo1モデルと同等の重みを有するターミナルであって、どこからともなくそのターミナルにリンクを追加する。このリンクは、そのターミナルが他のものによって引き起こされる可能性をおおよそ概算する。我々は、どこからともなくリンクをC1のo1モデルと同等の重みを有するC1に追加する。それから、我々は、このネットワークを解いて、C1の確率を獲得する。ネットワークはツリーであるので、我々は、これを直ちに解決し得る。ネットワークにおけるC1の確率があるしきい値(我々は、0.05を用いる)を超えると、我々は、C1は、候補クラスタであると判断する。この場合には、我々は、C1のすべて親を、評価されるべきクラスタの行列に追加する。
我々は、問い合わせセッションに照らして我々のモデルを述べてきた。しかしながら、本開示の最初に指摘されるように、我々のモデルは、ウェブ文書といった任意のテキストソース上で実行され得る。我々が発達させた当該の1つの技術は、1つのデータのソース上で我々のモデルをトレーニングし、一方で、別のソース上でそれを適用することである。
この点では、図16の我々のモデルからのある出力を見てみる。「Model of 1378939 clusters」の列より下の情報を一瞥する。このデータは、2カラムフォーマットである。左側のカラムは、クラスタに対してo1モデルを報告する。つまり、我々のモデルの最後の反復におけるすべてのセッションにおいてクラスタの存在の確率の和である。右側のカラムは、クラスタに対する現在の我々の名前である。CANADA(普遍ノード)がすべてのセッションにおいて存在するので、番号595417600はまた、このモデルがトレーニングされているユーザセッションの番号である。
「Outlink Sum:0.848506」は、重みの合計とクラスタに対するリンクの可能性を乗算が0.848506であることを意味する。「Activated Outlink Sum:0.521899」は、重みの合計をターミナルへの可能性を乗算が0.521899であることを意味する。さて、それより下の情報がまた、2カラムフォーマットになっている。CHILDRENとPARENTSセクションと同様に、次のセクションは、このクラスタとターミナルとの間のリンクを詳細する。
このようにして、我々のモデルは、さまざまな概念が任意のテキストに存在する確率を推定するように用いられ得る。同じことが、ウェブページおよび問い合わせにおいて存在する同一の概念を考察することにより、同様にウェブページに対して行われ得る。我々のモデルの使用の1つは、ウェブページ上の検索のためである。次のセクションでは、我々のモデルの使用のいくつかを話す。
このセクションは、我々のモデルの可能な使用のいくつかを詳述する。
(1)テキストの裏側にある概念を推測する。それから、この概念がユーザに表示されて、ユーザがこのテキストの裏側にある意味をより理解することできる。
(2)文書と問い合わせの単語および概念を比較する。これは、文書がウェブページである特別な場合を含んでいる任意の文書サーチエンジンにおいて必要とされる情報取り出しスコアリング機能である。
(3)ウェブ検索に対して我々のモデルを用いる異なる方法は、クラスタの分布が問い合わせに及ぶと仮定することである。例えば、単語「ジャガー(jaguar)」に対すると問い合わせは、不明瞭である。その単語は、動物または車のいずれかを意味し得る。我々のモデルは、この検索に応答して双方の意味に関連するクラスタを識別する。この場合には、我々は、ユーザが2つの問い合わせのうちのいずれか1つ(ジャガー(車)の問い合わせ、またはジャガー(動物)問い合わせをタイプしたと考慮し得る。我々は、それから、それぞれのクラスタの確率の比率を考慮して、これらの問い合わせの双方に対する文書を取り出し得る。我々が各意味に対してどれだけの数の結果を戻すかを慎重にバランスを取ることにより、我々は、検索に対する結果のある程度の多様性を確実にし得る。
(4)文書と広告の単語および概念の比較を行う。広告はあるコンテンツに添付されたとき、広告がどれ程うまく遂行されていかに対するプロキシとして用いられ得る。この特殊化は、広告をウェブページに添付することである。
(5)問い合わせと広告(または広告に対するターゲット基準)の単語および概念の比較を行う。サーチエンジンでは、広告主は、しばしば「ターゲット基準」のセットを選択する。ターゲット基準がユーザの問い合わせに現れるとき、広告が提供される。これらの基準を有するこれらのテキスト(および広告そのもの)が、我々のモデルにおけるクラスタの使用によって、問い合わせと比較され得る。問い合わせから結果生じる検索ページ上に提供されるとき、この比較はどれ程広告がうまく遂行されているかに対するプロキシであり得る。
(6)2つの文書間の単語および概念の比較を行う。これは、文書の概念のクラスタ化に対する距離の測定基準として用いられ得る。ここで、同様な文書がグループ化される。
(7)クラスタの領域にテキストを発射する。このテキストにおけるクラスタの確率は、任意の分類タスクのための特徴として用いられ得る。例えば、クラスタ上にページのテキストを発射し、クラスタおよび単語を入力として用いる分類器を構築することによって、ポルノグラフィー用のフィルターが生成され得る。
(8)親クラスタが与えられているとき、ビットコストまたは単語およびターミナルのセットの確率を用いて、より多くの結果を取り出すようにウェブの問い合わせを一般化する。
(9)2つの単語によって生じた概念を考察することによって特定の単語が別の単語の綴り間違いであるかを推測する。
グローバルノード上では、ルーピーを用いるが、ルーピー以外のアプローチを用いてローカルネットワークを解くことは可能である。このようなアプローチの利点は、これはアプローチがルーピーより速く、かつ、より正確に解決を見つけ出し得る。続く2つのセクションは、ローカルネットワーク上で用いられ得る代替の推測技術を詳述する。
ローカルネットワークにおいて推論する別の方法は、ルーピーを実行する代わりに、問題に対して2つ、3つの優れた解決を探すことである。我々は、完璧にインスタンス化されたネットワークの領域を検索して、我々のネットワークに対する優れた解決のセットを見つけ出す。我々は、これらをまるでネットワークに対する解決の完全なる一覧表であると見なす。我々は、ルーピーが送信するものと同様なリンクメッセージを送信するが、我々が十分優れた解決のセットを考慮するとき、リンクメッセージはより正確である。我々のシステムの残りの部分は主に同じである。
ローカルネットワークにおいて推論を行うもう1つの方法は、しばらくの間ルーピーを実行させ、それが即座に解決を見つけ出すかを確かめることである。ルーピーが即座に解決を見つけ出すとき、ローピーがより正確に解決を見つけ出すことを示す理論結果がある。この場合には、ルーピーが即座に解決を見つけ出さないとき、1つ以上のノードが「条件付き」であり得る。つまり、ルーピーが、これらの変数の真および偽の値の双方に対して実行される。ネットワークが、十分な条件付きであるとき、ルーピーは、より安定する。これは、ループの上または側面の条件付けが、(さまざまな理論的理由のために)ルーピーにおいてループしているメッセージの循環を破壊するからである。ルーピーが即座に解決を見つけ出すまでこの条件付けは再帰的に適用される。条件付きのルーピーを実行した後の結果は、さまざまな条件であり、それらさまざまな条件下では、すべてのリンクメッセージが既知である。
図21は、本発明の実施形態に従って文書を特徴付ける際に関わるデータ構造を示す。これらのデータ構造は、オーダー1の確率テーブル2102、親テーブル2104、子テーブル2106およびリンクテーブル2108を含む。
Guess(Ci)=O1(Ci)・Score(Ci)
ここで
ここで、アクチベーションCiは、ノードCiが発火するとき、発火するリンクの数のインジケータである。P(Ci)は、文書における単語のセットを生成する際に、Ciがアクティブである確率である。
Claims (42)
- 概念的に関連した単語のクラスタに対して文書を特徴付ける方法であって、該方法は、受信する機構と選択機構と構成要素構築機構を含む装置によって実行され、
該方法は、
該受信する機構が、該文書を受け取ることであって、該文書は単語のセットを含む、ことと、
該選択機構が、該単語のセットに関連する概念的に関連した単語の候補クラスタを選択することであって、概念的に関連した単語のクラスタから単語のセットがどのように生成されるのかを説明するモデルを用いて、該候補クラスタが選択される、ことと
を包含し、
該モデルは、確率モデルであり、該確率モデルは、単語に対するランダムな変数および概念的に関連した単語のクラスタに対するランダムな変数を表しているノードを含み、該確率モデルにおける複数のノードは、重み付けられたリンクによって互いに結合されており、該確率モデルにおけるクラスタノードが発火するとき、該クラスタノードから他のノードへの重み付けられたリンクが該他のノードを発火させることができ、
アクティブである複数の親ノードをノードが有するとき、該ノードが発火しない確率は、該アクティブな親ノードからの複数のリンクが発火しない確率の積であり、
該候補クラスタを選択することは、
該選択機構が、該文書における該単語のセットに関連付けられたターミナルノードで始まるエビデンスツリーであって、親クラスタノードの方向に向かうリンクに続くエビデンスツリーを構築することと、
該選択機構が、該エビデンスツリーを用いることにより、該単語のセットを生成する際に、各親クラスタノードがアクティブであった可能性を推定することと、
該選択機構が、該推定された可能性に基づいて、候補クラスタノードであるべき親クラスタノードを選択することと
を包含し、
該方法は、
該構成要素構築機構が、該文書を特徴付けるために構成要素のセットを構築することであって、該構成要素のセットは、候補クラスタに対する構成要素を含み、各構成要素は、対応する候補クラスタが該単語のセットに関連する概算確率を示す、ことをさらに包含し、
該構成要素のセットにおける各構成要素は、対応する候補クラスタが該単語のセットを生成する際にアクティブである概算確率を示し、
該構成要素のセットを構築することは、該構成要素構築機構が、該単語のセットを生成できたはずである該確率モデルの状態に対して、所与の候補クラスタがアクティブである確率を概算することを包含する、方法。 - 前記確率モデルは、常にアクティブである普遍ノードであって、すべてのクラスタノードに対して重み付けられたリンクを有する普遍ノードを含む、請求項1に記載の方法。
- 前記単語のセットを生成する際に所与の親ノードがアクティブである可能性を推定することは、前記選択機構が、該所与の親ノードがアクティブである無条件的な確率と、該所与の親ノードの親ノードがアクティブであると仮定した際に、該所与の親ノードがアクティブである条件的な確率と、該所与の親ノードの子ノードがアクティブであると仮定した際に、該所与の親ノードがアクティブである条件的な確率とを考慮することを包含し得る、請求項1に記載の方法。
- 前記条件的な確率を考慮することは、前記選択機構が、複数のノードの間のリンク上の重みを考慮することを包含する、請求項3に記載の方法。
- 前記単語のセットを生成する際に所与の親ノードがアクティブである可能性を推定することは、前記選択機構が、推定処理中に、ターミナルノードに印を付けて、ターミナルノードが1度より多く推測する際に計算に入れられないことを確実にすることを包含する、請求項1に記載の方法。
- 前記エビデンスツリーを構築することは、前記選択機構が、該エビデンスツリーから可能性の低いノードを取り除くことを包含する、請求項1に記載の方法。
- 前記構成要素のセットの構築中に、前記単語のセットを生成する際に候補クラスタがアクティブである度合いは、該単語のセットを生成する際に候補クラスタがアクティブである確率を前記構成要素構築機構が計算することによって決定される、請求項1に記載の方法。
- 前記構成要素のセットの構築中に、前記単語のセットを生成する際に候補クラスタがアクティブである度合いは、該単語のセットを生成する際に候補クラスタがアクティブである確率と該候補クラスタに対するアクチベーションとを前記構成要素構築機構が乗算することによって決定され、該アクチベーションは、該候補クラスタから他のノードにどれだけの数のリンクが発火する可能性があるのかを示す、請求項1に記載の方法。
- 前記構成要素のセットを構築することは、前記構成要素構築機構が、該構成要素のセットを標準化することを包含する、請求項1に記載の方法。
- 前記確率を概算することは、
前記構成要素構築機構が、前記文書において前記単語のセットを生成した可能性があった前記確率モデルに対する状態を選択することと、
該構成要素構築機構が、選択された状態だけを考慮し、一方で、前記所与の候補クラスタがアクティブである確率を計算することと
を包含する、請求項1に記載の方法。 - 前記単語のセットを生成した可能性のあった状態を選択することは、
前記構成要素構築機構が、前記確率モデルに対する開始時の状態をランダムに選択することと、
該構成要素構築機構が、該単語のセットを生成した可能性のあった状態に到達するように該開始時の状態から登坂動作を行うことと
を包含する、請求項10に記載の方法。 - 前記登坂動作を行うことは、前記構成要素構築機構が、該登坂動作に対する目的関数に関わらず個々の候補クラスタの状態を周期的に変化させることにより、さもなくば、登坂動作を介して到達不可能である前記確率モデルの状態を探ることを包含する、請求項11に記載の方法。
- 前記個々の候補クラスタの状態を変化させることは、前記構成要素構築機構が、該変化した状態を一時的に固定することにより、該変化した状態を含む前記目的関数に対する局所的最適値を生成することを包含する、請求項12に記載の方法。
- 前記文書は、ウェブページ、または問い合わせからの用語のセットを含み得る、請求項1に記載の方法。
- 命令を格納するコンピュータ読み取り可能格納媒体であって、該命令は、コンピュータによって実行されると、該コンピュータに、概念的に関連した単語のクラスタに対して文書を特徴づけるための方法を実行させ、
該方法は、
該文書を受け取ることであって、該文書は単語のセットを含む、ことと、
該単語のセットに関連する概念的に関連した単語の候補クラスタを選択することであって、概念的に関連した単語のクラスタから単語のセットがどのように生成されるのかを説明するモデルを用いて、該候補クラスタが選択される、ことと
を包含し、
該モデルは、確率モデルであり、該確率モデルは、単語に対するランダムな変数および概念的に関連した単語のクラスタに対するランダムな変数を表しているノードを含み、該確率モデルにおける複数のノードは、重み付けられたリンクによって互いに結合されており、該確率モデルにおけるクラスタノードが発火するとき、該クラスタノードから他のノードへの重み付けられたリンクが該他のノードを発火させることができ、
アクティブである複数の親ノードをノードが有するとき、該ノードが発火しない確率は、該アクティブな親ノードからの複数のリンクが発火しない確率の積であり、
該候補クラスタを選択することは、
該文書における該単語のセットに関連付けられたターミナルノードで始まるエビデンスツリーであって、親クラスタノードの方向に向かうリンクに続くエビデンスツリーを構築することと、
該エビデンスツリーを用いることにより、該単語のセットを生成する際に、各親クラスタノードがアクティブであった可能性を推定することと、
該推定された可能性に基づいて、候補クラスタノードであるべき親クラスタノードを選択することと
を包含し、
該方法は、
該文書を特徴付けるために構成要素のセットを構築することであって、該構成要素のセットは、候補クラスタに対する構成要素を含み、各構成要素は、対応する候補クラスタが該単語のセットに関連する概算確率を示す、ことをさらに包含し、
該構成要素のセットにおける各構成要素は、対応する候補クラスタが該単語のセットを生成する際にアクティブである概算確率を示し、
該構成要素のセットを構築することは、該単語のセットを生成できたはずである該確率モデルの状態に対して、所与の候補クラスタがアクティブである確率を概算することを包含する、コンピュータ読み取り可能格納媒体。 - 前記確率モデルは、常にアクティブである普遍ノードであって、すべてのクラスタノードに対して重み付けられたリンクを有する普遍ノードを含む、請求項15に記載のコンピュータ読み取り可能格納媒体。
- 前記単語のセットを生成する際に所与の親ノードがアクティブである可能性を推定することは、該所与の親ノードがアクティブである無条件的な確率と、該所与の親ノードの親ノードがアクティブであると仮定した際に、該所与の親ノードがアクティブである条件的な確率と、該所与の親ノードの子ノードがアクティブであると仮定した際に、該所与の親ノードがアクティブである条件的な確率とを考慮することを包含し得る、請求項15に記載のコンピュータ読み取り可能格納媒体。
- 前記条件的な確率を考慮することは、複数のノードの間のリンク上の重みを考慮することを包含する、請求項17に記載のコンピュータ読み取り可能格納媒体。
- 所与の親ノードがアクティブである可能性を推定することは、推定処理中に、ターミナルノードに印を付けて、ターミナルノードが1度より多く推測する際に計算に入れられないことを確実にすることを包含する、請求項15に記載のコンピュータ読み取り可能格納媒体。
- 前記エビデンスツリーを構築することは、該エビデンスツリーから可能性の低いノードを取り除くことを包含する、請求項15に記載のコンピュータ読み取り可能格納媒体。
- 前記構成要素のセットの構築中に、前記単語のセットを生成する際に候補クラスタがアクティブである度合いは、該単語のセットを生成する際に候補クラスタがアクティブである確率を計算することによって決定される、請求項15に記載のコンピュータ読み取り可能格納媒体。
- 前記構成要素のセットの構築中に、前記単語のセットを生成する際に候補クラスタがアクティブである度合いは、該単語のセットを生成する際に候補クラスタがアクティブである確率と該候補クラスタに対するアクチベーションとを乗算することによって決定され、該アクチベーションは、該候補クラスタから他のノードにどれだけの数のリンクが発火する可能性があるのかを示す、請求項15に記載のコンピュータ読み取り可能格納媒体。
- 前記構成要素のセットを構築することは、該構成要素のセットを標準化することを包含する、請求項15に記載のコンピュータ読み取り可能格納媒体。
- 前記確率を概算することは、
前記文書において前記単語のセットを生成した可能性があった前記確率モデルに対する状態を選択することと、
選択された状態だけを考慮し、一方で、前記所与の候補クラスタがアクティブである確率を計算することと
を包含する、請求項15に記載のコンピュータ読み取り可能格納媒体。 - 前記単語のセットを生成した可能性のあった状態を選択することは、
前記確率モデルに対する開始時の状態をランダムに選択することと、
該単語のセットを生成した可能性のあった状態に到達するように該開始時の状態から登坂動作を行うことと
を包含する、請求項24に記載のコンピュータ読み取り可能格納媒体。 - 前記登坂動作を行うことは、該登坂動作に対する目的関数に関わらず個々の候補クラスタの状態を周期的に変化させることにより、さもなくば、登坂動作を介して到達不可能である前記確率モデルの状態を探ることを包含する、請求項25に記載のコンピュータ読み取り可能格納媒体。
- 前記個々の候補クラスタの状態を変化させることは、該変化した状態を一時的に固定することにより、該変化した状態を含む前記目的関数に対する局所的最適値を生成することを包含する、請求項26に記載のコンピュータ読み取り可能格納媒体。
- 前記文書は、ウェブページ、または問い合わせからの用語のセットを含み得る、請求項15に記載のコンピュータ読み取り可能格納媒体。
- 概念的に関連した単語のクラスタに対して文書を特徴付ける装置であって、
該装置は、
該文書を受け取るように構成されている受信する機構であって、該文書は単語のセットを含む、受信する機構と、
該単語のセットに関連する概念的に関連した単語の候補クラスタを選択するように構成されている選択機構であって、概念的に関連した単語のクラスタから単語のセットがどうのように生成されるのかを説明するモデルを用いて、該候補クラスタが選択される、選択機構と
を備え、
該モデルは、確率モデルであり、該確率モデルは、単語に対するランダムな変数および概念的に関連した単語のクラスタに対するランダムな変数を表しているノードを含み、該確率モデルにおける複数のノードは、重み付けられたリンクによって互いに結合されており、該確率モデルにおけるクラスタノードが発火するとき、該クラスタノードから他のノードへの重み付けられたリンクが該他のノードを発火させることができ、
アクティブである複数の親ノードをノードが有するとき、該ノードが発火しない確率は、該アクティブな親ノードからの複数のリンクが発火しない確率の積であり、
該選択機構は、
該文書における該単語のセットに関連付けられたターミナルノードで始まるエビデンスツリーであって、親クラスタノードの方向に向かうリンクに続くエビデンスツリーを構築することと、
該エビデンスツリーを用いることにより、該単語のセットを生成する際に、各親クラスタノードがアクティブであった可能性を推定することと、
該推定された可能性に基づいて、候補クラスタノードであるべき親クラスタノードを選択することと
を実行するように構成されており、
該装置は、
該文書を特徴付けるために構成要素のセットを構築するように構成されている構成要素構築機構であって、該構成要素のセットは、候補クラスタに対する構成要素を含み、各構成要素は、対応する候補クラスタが該単語のセットに関連する概算確率を示す、構成要素構築機構をさらに備え、
該構成要素のセットにおける各構成要素は、対応する候補クラスタが該単語のセットを生成する際にアクティブである概算確率を示し、
該構成要素構築機構は、該単語のセットを生成できたはずである該確率モデルの状態に対して、所与の候補クラスタがアクティブである確率を概算するように構成されている、装置。 - 前記確率モデルは、常にアクティブである普遍ノードであって、すべてのクラスタノードに対して重み付けられたリンクを有する普遍ノードを含む、請求項29に記載の装置。
- 前記単語のセットを生成する際に所与の親ノードがアクティブである可能性を推定する一方で、前記選択機構が、該所与の親ノードがアクティブである無条件的な確率と、該所与の親ノードの親ノードがアクティブであると仮定した際に、該所与の親ノードがアクティブである条件的な確率と、該所与の親ノードの子ノードがアクティブであると仮定した際に、該所与の親ノードがアクティブである条件的な確率とのうちの少なくとも1つを考慮するように構成されている、請求項29に記載の装置。
- 前記条件的な確率を考慮する一方で、前記選択機構は、複数のノードの間のリンク上の重みを考慮するように構成されている、請求項31に記載の装置。
- 前記単語のセットを生成する際に所与の親ノードがアクティブである可能性を推定する一方で、前記選択機構は、推定処理中に、ターミナルノードに印を付けて、ターミナルノードが1度より多く推測する際に計算に入れられないことを確実にするように構成されている、請求項29に記載の装置。
- 前記エビデンスツリーを構築する一方で、前記選択機構は、該エビデンスツリーから可能性の低いノードを取り除くように構成されている、請求項29に記載の装置。
- 前記構成要素のセットにおける所与の構成要素を構築する一方で、前記構成要素構築機構は、前記単語のセットを生成する際に候補クラスタがアクティブである確率を計算することによって、該単語のセットを生成する際に候補クラスタがアクティブである度合いを決定するように構成されている、請求項29に記載の装置。
- 前記構成要素のセットにおける所与の構成要素を構築する一方で、前記構成要素構築機構は、該単語のセットを生成する際に候補クラスタがアクティブである確率と該候補クラスタに対するアクチベーションとを乗算することによって、該単語のセットを生成する際に候補クラスタがアクティブである度合いを決定するように構成されており、該アクチベーションは、該候補クラスタから他のノードにどれだけの数のリンクが発火する可能性があるのかを示す、請求項29に記載の装置。
- 前記構成要素構築機構は、前記構成要素のセットを標準化するように構成されている、請求項29に記載の装置。
- 前記確率を概算する一方で、前記構成要素構築機構は、前記文書において前記単語のセットを生成した可能性があった前記確率モデルに対する状態を選択し、かつ、選択された状態だけを考慮し、一方で、前記所与の候補クラスタがアクティブである確率を計算するように構成されている、請求項29に記載の装置。
- 前記単語のセットを生成した可能性のあった状態を選択する一方で、前記構成要素構築機構は、前記確率モデルに対する開始時の状態をランダムに選択し、かつ、該単語のセットを生成した可能性のあった状態に到達するように該開始時の状態から登坂動作を行うように構成されている、請求項38に記載の装置。
- 前記登坂動作を行う一方で、前記構成要素構築機構は、該登坂動作に対する目的関数に関わらず個々の候補クラスタの状態を周期的に変化させることにより、さもなくば、登坂動作を介して到達不可能である前記確率モデルの状態を探るように構成されている、請求項39に記載の装置。
- 前記個々の候補クラスタの状態を変化させる一方で、前記構成要素構築機構は、該変化した状態を一時的に固定することにより、該変化した状態を含む前記目的関数に対する局所的最適値を生成するように構成されている、請求項40に記載の装置。
- 前記文書は、ウェブページ、または問い合わせからの用語のセットを含み得る、請求項29に記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US41614402P | 2002-10-03 | 2002-10-03 | |
PCT/US2003/031545 WO2004031916A2 (en) | 2002-10-03 | 2003-10-03 | Method and apparatus for characterizing documents based on clusters of related words |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006502480A JP2006502480A (ja) | 2006-01-19 |
JP4465274B2 true JP4465274B2 (ja) | 2010-05-19 |
Family
ID=32069938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004541690A Expired - Lifetime JP4465274B2 (ja) | 2002-10-03 | 2003-10-03 | 関連する単語のクラスタに基づいて、文書を特徴付けるための方法および装置 |
Country Status (7)
Country | Link |
---|---|
US (2) | US7383258B2 (ja) |
EP (1) | EP1546932A4 (ja) |
JP (1) | JP4465274B2 (ja) |
KR (1) | KR101014895B1 (ja) |
CN (1) | CN100504856C (ja) |
CA (1) | CA2500914C (ja) |
WO (1) | WO2004031916A2 (ja) |
Families Citing this family (127)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8229957B2 (en) * | 2005-04-22 | 2012-07-24 | Google, Inc. | Categorizing objects, such as documents and/or clusters, with respect to a taxonomy and data structures derived from such categorization |
US7231393B1 (en) * | 2003-09-30 | 2007-06-12 | Google, Inc. | Method and apparatus for learning a probabilistic generative model for text |
US7020593B2 (en) * | 2002-12-04 | 2006-03-28 | International Business Machines Corporation | Method for ensemble predictive modeling by multiplicative adjustment of class probability: APM (adjusted probability model) |
GB0322600D0 (en) * | 2003-09-26 | 2003-10-29 | Univ Ulster | Thematic retrieval in heterogeneous data repositories |
US7617205B2 (en) | 2005-03-30 | 2009-11-10 | Google Inc. | Estimating confidence for query revision models |
US8015119B2 (en) | 2004-01-21 | 2011-09-06 | Google Inc. | Methods and systems for the display and navigation of a social network |
US8010459B2 (en) * | 2004-01-21 | 2011-08-30 | Google Inc. | Methods and systems for rating associated members in a social network |
EP1562111B1 (en) * | 2004-02-03 | 2017-04-26 | Sap Se | A context modeller for modelling a context representation and a method of modelling a context representation |
US7313552B2 (en) * | 2004-03-19 | 2007-12-25 | Sybase, Inc. | Boolean network rule engine |
US7409383B1 (en) | 2004-03-31 | 2008-08-05 | Google Inc. | Locating meaningful stopwords or stop-phrases in keyword-based retrieval systems |
US8019875B1 (en) | 2004-06-04 | 2011-09-13 | Google Inc. | Systems and methods for indicating a user state in a social network |
US8832132B1 (en) | 2004-06-22 | 2014-09-09 | Google Inc. | Personalizing search queries based on user membership in social network communities |
US9223868B2 (en) | 2004-06-28 | 2015-12-29 | Google Inc. | Deriving and using interaction profiles |
US7860314B2 (en) * | 2004-07-21 | 2010-12-28 | Microsoft Corporation | Adaptation of exponential models |
US8015019B1 (en) | 2004-08-03 | 2011-09-06 | Google Inc. | Methods and systems for providing a document |
US20060074910A1 (en) * | 2004-09-17 | 2006-04-06 | Become, Inc. | Systems and methods of retrieving topic specific information |
US9031898B2 (en) * | 2004-09-27 | 2015-05-12 | Google Inc. | Presentation of search results based on document structure |
JP2008525896A (ja) * | 2004-12-23 | 2008-07-17 | ビカム, インコーポレイテッド | リンクされた文書の集合に相対的品質スコアを割り当てるための方法 |
US7668822B2 (en) * | 2004-12-23 | 2010-02-23 | Become, Inc. | Method for assigning quality scores to documents in a linked database |
US7716140B1 (en) | 2004-12-31 | 2010-05-11 | Google Inc. | Methods and systems for controlling access to relationship information in a social network |
US7567946B2 (en) * | 2005-03-14 | 2009-07-28 | Xerox Corporation | Method, apparatus, and article of manufacture for estimating parameters of a probability model on shared device usage probabilistic semantic analysis |
US7870147B2 (en) * | 2005-03-29 | 2011-01-11 | Google Inc. | Query revision using known highly-ranked queries |
US8412780B2 (en) | 2005-03-30 | 2013-04-02 | Google Inc. | Methods and systems for providing current email addresses and contact information for members within a social network |
CN100470544C (zh) | 2005-05-24 | 2009-03-18 | 国际商业机器公司 | 用于链接文档的方法、设备和系统 |
US7818208B1 (en) | 2005-06-28 | 2010-10-19 | Google Inc. | Accurately estimating advertisement performance |
US8028337B1 (en) | 2005-08-30 | 2011-09-27 | Sprint Communications Company L.P. | Profile-aware filtering of network traffic |
US8204974B1 (en) * | 2005-08-30 | 2012-06-19 | Sprint Communications Company L.P. | Identifying significant behaviors within network traffic |
US8316292B1 (en) * | 2005-11-18 | 2012-11-20 | Google Inc. | Identifying multiple versions of documents |
US8095876B1 (en) | 2005-11-18 | 2012-01-10 | Google Inc. | Identifying a primary version of a document |
US10600090B2 (en) | 2005-12-30 | 2020-03-24 | Google Llc | Query feature based data structure retrieval of predicted values |
US7827060B2 (en) * | 2005-12-30 | 2010-11-02 | Google Inc. | Using estimated ad qualities for ad filtering, ranking and promotion |
US20070156887A1 (en) * | 2005-12-30 | 2007-07-05 | Daniel Wright | Predicting ad quality |
US20070157228A1 (en) | 2005-12-30 | 2007-07-05 | Jason Bayer | Advertising with video ad creatives |
US8065184B2 (en) * | 2005-12-30 | 2011-11-22 | Google Inc. | Estimating ad quality from observed user behavior |
US7725417B2 (en) * | 2006-02-09 | 2010-05-25 | Ebay Inc. | Method and system to analyze rules based on popular query coverage |
WO2007095075A2 (en) * | 2006-02-09 | 2007-08-23 | Ebay Inc. | Methods and systems to communicate information |
US8380698B2 (en) * | 2006-02-09 | 2013-02-19 | Ebay Inc. | Methods and systems to generate rules to identify data items |
US9443333B2 (en) * | 2006-02-09 | 2016-09-13 | Ebay Inc. | Methods and systems to communicate information |
US7739226B2 (en) * | 2006-02-09 | 2010-06-15 | Ebay Inc. | Method and system to analyze aspect rules based on domain coverage of the aspect rules |
US7640234B2 (en) * | 2006-02-09 | 2009-12-29 | Ebay Inc. | Methods and systems to communicate information |
US7739225B2 (en) | 2006-02-09 | 2010-06-15 | Ebay Inc. | Method and system to analyze aspect rules based on domain coverage of an aspect-value pair |
US7849047B2 (en) | 2006-02-09 | 2010-12-07 | Ebay Inc. | Method and system to analyze domain rules based on domain coverage of the domain rules |
US8019754B2 (en) * | 2006-04-03 | 2011-09-13 | Needlebot Incorporated | Method of searching text to find relevant content |
US8856145B2 (en) * | 2006-08-04 | 2014-10-07 | Yahoo! Inc. | System and method for determining concepts in a content item using context |
US7660804B2 (en) * | 2006-08-16 | 2010-02-09 | Microsoft Corporation | Joint optimization of wrapper generation and template detection |
US7831472B2 (en) | 2006-08-22 | 2010-11-09 | Yufik Yan M | Methods and system for search engine revenue maximization in internet advertising |
US20080066107A1 (en) | 2006-09-12 | 2008-03-13 | Google Inc. | Using Viewing Signals in Targeted Video Advertising |
EP1903457B1 (en) * | 2006-09-19 | 2012-05-30 | Exalead | Computer-implemented method, computer program product and system for creating an index of a subset of data |
US7747607B2 (en) * | 2006-09-21 | 2010-06-29 | Yahoo! Inc. | Determining logically-related sub-strings of a string |
US9189482B2 (en) | 2012-10-10 | 2015-11-17 | Abbyy Infopoisk Llc | Similar document search |
US9075864B2 (en) | 2006-10-10 | 2015-07-07 | Abbyy Infopoisk Llc | Method and system for semantic searching using syntactic and semantic analysis |
US9098489B2 (en) | 2006-10-10 | 2015-08-04 | Abbyy Infopoisk Llc | Method and system for semantic searching |
US9892111B2 (en) | 2006-10-10 | 2018-02-13 | Abbyy Production Llc | Method and device to estimate similarity between documents having multiple segments |
US9069750B2 (en) | 2006-10-10 | 2015-06-30 | Abbyy Infopoisk Llc | Method and system for semantic searching of natural language texts |
US9495358B2 (en) | 2006-10-10 | 2016-11-15 | Abbyy Infopoisk Llc | Cross-language text clustering |
JP5011947B2 (ja) * | 2006-10-19 | 2012-08-29 | オムロン株式会社 | Fmeaシートの作成方法およびfmeaシート自動作成装置 |
US7945854B2 (en) * | 2006-10-30 | 2011-05-17 | Palo Alto Research Center Incorporated | Systems and methods for the combination and display of social and textual content |
US20080172293A1 (en) * | 2006-12-28 | 2008-07-17 | Yahoo! Inc. | Optimization framework for association of advertisements with sequential media |
US20080159114A1 (en) * | 2007-01-02 | 2008-07-03 | Dipietro Richard Anthony | High density data storage medium, method and device |
US9507858B1 (en) * | 2007-02-28 | 2016-11-29 | Google Inc. | Selectively merging clusters of conceptually related words in a generative model for text |
US8584013B1 (en) | 2007-03-20 | 2013-11-12 | Google Inc. | Temporal layers for presenting personalization markers on imagery |
US8271476B2 (en) * | 2007-03-30 | 2012-09-18 | Stuart Donnelly | Method of searching text to find user community changes of interest and drug side effect upsurges, and presenting advertisements to users |
US8103707B2 (en) * | 2007-03-30 | 2012-01-24 | Verizon Patent And Licensing Inc. | Method and system for presenting non-linear content based on linear content metadata |
US8275773B2 (en) * | 2007-03-30 | 2012-09-25 | Stuart Donnelly | Method of searching text to find relevant content |
US8229942B1 (en) | 2007-04-17 | 2012-07-24 | Google Inc. | Identifying negative keywords associated with advertisements |
US8086624B1 (en) * | 2007-04-17 | 2011-12-27 | Google Inc. | Determining proximity to topics of advertisements |
US8667532B2 (en) * | 2007-04-18 | 2014-03-04 | Google Inc. | Content recognition for targeting video advertisements |
US20080276266A1 (en) * | 2007-04-18 | 2008-11-06 | Google Inc. | Characterizing content for identification of advertising |
US8433611B2 (en) * | 2007-06-27 | 2013-04-30 | Google Inc. | Selection of advertisements for placement with content |
US20090006190A1 (en) * | 2007-06-28 | 2009-01-01 | Google Inc. | Determining location-based commercial information |
US8073803B2 (en) * | 2007-07-16 | 2011-12-06 | Yahoo! Inc. | Method for matching electronic advertisements to surrounding context based on their advertisement content |
US20090024470A1 (en) * | 2007-07-20 | 2009-01-22 | Google Inc. | Vertical clustering and anti-clustering of categories in ad link units |
US8180725B1 (en) * | 2007-08-01 | 2012-05-15 | Google Inc. | Method and apparatus for selecting links to include in a probabilistic generative model for text |
US8799285B1 (en) | 2007-08-02 | 2014-08-05 | Google Inc. | Automatic advertising campaign structure suggestion |
US9064024B2 (en) | 2007-08-21 | 2015-06-23 | Google Inc. | Bundle generation |
WO2009046130A1 (en) * | 2007-10-01 | 2009-04-09 | Wand, Inc. | Method for resolving failed search queries |
CN101493823B (zh) * | 2007-10-05 | 2012-06-13 | 富士通株式会社 | 根据单词相关度识别单词聚类 |
US8572087B1 (en) * | 2007-10-17 | 2013-10-29 | Google Inc. | Content identification |
US9824372B1 (en) | 2008-02-11 | 2017-11-21 | Google Llc | Associating advertisements with videos |
US8255948B1 (en) | 2008-04-23 | 2012-08-28 | Google Inc. | Demographic classifiers from media content |
US8214346B2 (en) * | 2008-06-27 | 2012-07-03 | Cbs Interactive Inc. | Personalization engine for classifying unstructured documents |
US20100037149A1 (en) * | 2008-08-05 | 2010-02-11 | Google Inc. | Annotating Media Content Items |
US8583618B2 (en) * | 2008-11-24 | 2013-11-12 | Business Objects S.A. | Determination of graphical format to present search results |
US8234274B2 (en) * | 2008-12-18 | 2012-07-31 | Nec Laboratories America, Inc. | Systems and methods for characterizing linked documents using a latent topic model |
US8099453B2 (en) * | 2009-01-22 | 2012-01-17 | Hewlett-Packard Development Company, L.P. | System and method for data clustering |
US20100211894A1 (en) * | 2009-02-18 | 2010-08-19 | Google Inc. | Identifying Object Using Generative Model |
US8296257B1 (en) | 2009-04-08 | 2012-10-23 | Google Inc. | Comparing models |
US8060512B2 (en) * | 2009-06-05 | 2011-11-15 | Xerox Corporation | Hybrid tensor-based cluster analysis |
DE102009031872A1 (de) | 2009-07-06 | 2011-01-13 | Siemens Aktiengesellschaft | Verfahren und Vorrichtung zur automatischen Suche nach Dokumenten in einem Datenspeicher |
US8326820B2 (en) | 2009-09-30 | 2012-12-04 | Microsoft Corporation | Long-query retrieval |
US8229959B1 (en) | 2009-11-11 | 2012-07-24 | Google Inc. | Sharable search result labels |
US9152708B1 (en) | 2009-12-14 | 2015-10-06 | Google Inc. | Target-video specific co-watched video clusters |
US9002866B1 (en) | 2010-03-25 | 2015-04-07 | Google Inc. | Generating context-based spell corrections of entity names |
CN102236664B (zh) * | 2010-04-28 | 2016-04-13 | 百度在线网络技术(北京)有限公司 | 基于语义归一化的检索系统、检索方法以及信息处理方法 |
US8161073B2 (en) | 2010-05-05 | 2012-04-17 | Holovisions, LLC | Context-driven search |
AU2010202901B2 (en) * | 2010-07-08 | 2016-04-14 | Patent Analytics Holding Pty Ltd | A system, method and computer program for preparing data for analysis |
JP5403696B2 (ja) * | 2010-10-12 | 2014-01-29 | 株式会社Nec情報システムズ | 言語モデル生成装置、その方法及びそのプログラム |
US8751496B2 (en) | 2010-11-16 | 2014-06-10 | International Business Machines Corporation | Systems and methods for phrase clustering |
US9026479B1 (en) | 2011-02-02 | 2015-05-05 | Google Inc. | Predicting user interests |
US8811726B2 (en) * | 2011-06-02 | 2014-08-19 | Kriegman-Belhumeur Vision Technologies, Llc | Method and system for localizing parts of an object in an image for computer vision applications |
US8869208B2 (en) * | 2011-10-30 | 2014-10-21 | Google Inc. | Computing similarity between media programs |
US8997008B2 (en) | 2012-07-17 | 2015-03-31 | Pelicans Networks Ltd. | System and method for searching through a graphic user interface |
US9245024B1 (en) * | 2013-01-18 | 2016-01-26 | Google Inc. | Contextual-based serving of content segments in a video delivery system |
US9390383B2 (en) * | 2013-01-28 | 2016-07-12 | Georges Harik | Method for an optimizing predictive model using gradient descent and conjugate residuals |
US9600777B2 (en) | 2013-03-11 | 2017-03-21 | Georges Harik | Configuring and optimizing computational structure for a machine learning application using a tuple of vectors |
US11336648B2 (en) | 2013-11-11 | 2022-05-17 | Amazon Technologies, Inc. | Document management and collaboration system |
US9542391B1 (en) | 2013-11-11 | 2017-01-10 | Amazon Technologies, Inc. | Processing service requests for non-transactional databases |
US10599753B1 (en) | 2013-11-11 | 2020-03-24 | Amazon Technologies, Inc. | Document version control in collaborative environment |
US10540404B1 (en) * | 2014-02-07 | 2020-01-21 | Amazon Technologies, Inc. | Forming a document collection in a document management and collaboration system |
US9652554B2 (en) * | 2013-12-26 | 2017-05-16 | Facebook, Inc. | Systems and methods for adding users to a networked computer system |
US20160335674A1 (en) * | 2014-01-15 | 2016-11-17 | Intema Solutions Inc. | Item classification method and selection system for electronic solicitation |
CN103810266B (zh) * | 2014-01-27 | 2017-04-05 | 中国电子科技集团公司第十研究所 | 语义网络目标识别判证方法 |
US10691877B1 (en) | 2014-02-07 | 2020-06-23 | Amazon Technologies, Inc. | Homogenous insertion of interactions into documents |
WO2015145555A1 (ja) * | 2014-03-25 | 2015-10-01 | 株式会社日立製作所 | 確率推論システム |
US9811931B2 (en) | 2014-06-02 | 2017-11-07 | Business Objects Software Limited | Recommendations for creation of visualizations |
US9807073B1 (en) | 2014-09-29 | 2017-10-31 | Amazon Technologies, Inc. | Access to documents in a document management and collaboration system |
US9928232B2 (en) | 2015-02-27 | 2018-03-27 | Microsoft Technology Licensing, Llc | Topically aware word suggestions |
CN104881400B (zh) * | 2015-05-19 | 2018-01-19 | 上海交通大学 | 基于联想网络的语义相关性计算方法 |
US9684842B2 (en) | 2015-10-29 | 2017-06-20 | The Nielsen Company (Us), Llc | Methods and apparatus to extract text from imaged documents |
EP3398091B1 (en) * | 2016-02-19 | 2022-05-11 | Huawei Technologies Co., Ltd. | System and method for unified access control on federated database |
US10803245B2 (en) * | 2016-09-06 | 2020-10-13 | Microsoft Technology Licensing, Llc | Compiling documents into a timeline per event |
US20190347281A1 (en) | 2016-11-11 | 2019-11-14 | Dennemeyer Octimine Gmbh | Apparatus and method for semantic search |
CN108075959B (zh) * | 2016-11-14 | 2021-03-12 | 腾讯科技(深圳)有限公司 | 一种会话消息处理方法和装置 |
JP6751064B2 (ja) * | 2017-09-20 | 2020-09-02 | 株式会社東芝 | データ検索システム、データ検索方法、及びプログラム |
JP6652986B2 (ja) * | 2018-05-02 | 2020-02-26 | 株式会社Fronteo | 危険行動予測装置、予測モデル生成装置および危険行動予測用プログラム |
US11205179B1 (en) | 2019-04-26 | 2021-12-21 | Overstock.Com, Inc. | System, method, and program product for recognizing and rejecting fraudulent purchase attempts in e-commerce |
CN116821053B (zh) * | 2023-08-30 | 2023-11-21 | 之江实验室 | 数据上报方法、装置、计算机设备和存储介质 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5675819A (en) * | 1994-06-16 | 1997-10-07 | Xerox Corporation | Document information retrieval using global word co-occurrence patterns |
US6460036B1 (en) * | 1994-11-29 | 2002-10-01 | Pinpoint Incorporated | System and method for providing customized electronic newspapers and target advertisements |
GB9426165D0 (en) | 1994-12-23 | 1995-02-22 | Anthony Andre C | Method of retrieving and displaying data |
US5794050A (en) | 1995-01-04 | 1998-08-11 | Intelligent Text Processing, Inc. | Natural language understanding system |
US7013298B1 (en) | 1996-07-30 | 2006-03-14 | Hyperphrase Technologies, Llc | Method and system for automated data storage and retrieval |
US6820093B2 (en) | 1996-07-30 | 2004-11-16 | Hyperphrase Technologies, Llc | Method for verifying record code prior to an action based on the code |
US6078914A (en) | 1996-12-09 | 2000-06-20 | Open Text Corporation | Natural language meta-search system and method |
US6137911A (en) | 1997-06-16 | 2000-10-24 | The Dialog Corporation Plc | Test classification system and method |
US6606143B1 (en) | 1998-03-13 | 2003-08-12 | Sharp Kabushiki Kaisha | Liquid crystal display device with phase element |
US6108662A (en) | 1998-05-08 | 2000-08-22 | Allen-Bradley Company, Llc | System method and article of manufacture for integrated enterprise-wide control |
US6161130A (en) * | 1998-06-23 | 2000-12-12 | Microsoft Corporation | Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set |
US7181438B1 (en) | 1999-07-21 | 2007-02-20 | Alberti Anemometer, Llc | Database access system |
GB9925741D0 (en) | 1999-10-30 | 1999-12-29 | Ibm | Interaction with database reports |
US20020120619A1 (en) | 1999-11-26 | 2002-08-29 | High Regard, Inc. | Automated categorization, placement, search and retrieval of user-contributed items |
US6868525B1 (en) | 2000-02-01 | 2005-03-15 | Alberti Anemometer Llc | Computer graphic display visualization system and method |
JP2001273293A (ja) | 2000-03-23 | 2001-10-05 | Nippon Telegr & Teleph Corp <Ntt> | 単語推定方法及び装置及び単語推定プログラムを格納した記録媒体 |
US6684205B1 (en) | 2000-10-18 | 2004-01-27 | International Business Machines Corporation | Clustering hypertext with applications to web searching |
US7363308B2 (en) * | 2000-12-28 | 2008-04-22 | Fair Isaac Corporation | System and method for obtaining keyword descriptions of records from a large database |
US20020087310A1 (en) | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented intelligent dialogue control method and system |
US8001118B2 (en) | 2001-03-02 | 2011-08-16 | Google Inc. | Methods and apparatus for employing usage statistics in document retrieval |
US6751611B2 (en) | 2002-03-01 | 2004-06-15 | Paul Jeffrey Krupin | Method and system for creating improved search queries |
GB2391967A (en) | 2002-08-16 | 2004-02-18 | Canon Kk | Information analysing apparatus |
US7231393B1 (en) | 2003-09-30 | 2007-06-12 | Google, Inc. | Method and apparatus for learning a probabilistic generative model for text |
US7685236B1 (en) | 2003-09-24 | 2010-03-23 | Google Inc. | Methods and systems for developing an instant messaging network |
US8224964B1 (en) | 2004-06-30 | 2012-07-17 | Google Inc. | System and method of accessing a document efficiently through multi-tier web caching |
US7437364B1 (en) | 2004-06-30 | 2008-10-14 | Google Inc. | System and method of accessing a document efficiently through multi-tier web caching |
US9820658B2 (en) | 2006-06-30 | 2017-11-21 | Bao Q. Tran | Systems and methods for providing interoperability among healthcare devices |
US7558622B2 (en) | 2006-05-24 | 2009-07-07 | Bao Tran | Mesh network stroke monitoring appliance |
-
2003
- 2003-09-30 US US10/676,571 patent/US7383258B2/en active Active
- 2003-10-03 EP EP03774573A patent/EP1546932A4/en not_active Ceased
- 2003-10-03 CA CA2500914A patent/CA2500914C/en not_active Expired - Fee Related
- 2003-10-03 WO PCT/US2003/031545 patent/WO2004031916A2/en active Application Filing
- 2003-10-03 JP JP2004541690A patent/JP4465274B2/ja not_active Expired - Lifetime
- 2003-10-03 KR KR1020057005832A patent/KR101014895B1/ko active IP Right Grant
- 2003-10-03 CN CNB2003801030451A patent/CN100504856C/zh not_active Expired - Lifetime
-
2008
- 2008-06-02 US US12/131,637 patent/US8688720B1/en active Active
Also Published As
Publication number | Publication date |
---|---|
US7383258B2 (en) | 2008-06-03 |
CA2500914C (en) | 2010-12-21 |
AU2003282688A1 (en) | 2004-04-23 |
EP1546932A2 (en) | 2005-06-29 |
KR20050065578A (ko) | 2005-06-29 |
CN100504856C (zh) | 2009-06-24 |
KR101014895B1 (ko) | 2011-02-15 |
WO2004031916A2 (en) | 2004-04-15 |
CN1711536A (zh) | 2005-12-21 |
CA2500914A1 (en) | 2004-04-15 |
JP2006502480A (ja) | 2006-01-19 |
US20040068697A1 (en) | 2004-04-08 |
EP1546932A4 (en) | 2008-04-09 |
US8688720B1 (en) | 2014-04-01 |
WO2004031916A3 (en) | 2004-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4465274B2 (ja) | 関連する単語のクラスタに基づいて、文書を特徴付けるための方法および装置 | |
US7231393B1 (en) | Method and apparatus for learning a probabilistic generative model for text | |
CN109657054B (zh) | 摘要生成方法、装置、服务器及存储介质 | |
Kumar et al. | Fake news detection using machine learning and natural language processing | |
JP2019504413A (ja) | 絵文字を提案するためのシステムおよび方法 | |
US20170103324A1 (en) | Generating responses using memory networks | |
CN112182230B (zh) | 一种基于深度学习的文本数据分类方法和装置 | |
US10326863B2 (en) | Speed and accuracy of computers when resolving client queries by using graph database model | |
JPWO2007099812A1 (ja) | 質問回答装置、質問回答方法および質問回答用プログラム | |
US11809506B1 (en) | Multivariant analyzing replicating intelligent ambience evolving system | |
US20230306205A1 (en) | System and method for personalized conversational agents travelling through space and time | |
Çetinkaya et al. | Developing a Twitter bot that can join a discussion using state-of-the-art architectures | |
CN112328778A (zh) | 确定用户特征和模型训练的方法、装置、设备及介质 | |
GB2601884A (en) | Intelligent chat channel processor | |
Volkova et al. | Online bayesian models for personal analytics in social media | |
US9547701B2 (en) | Method of discovering and exploring feature knowledge | |
CN117236410A (zh) | 一种可信的电子文件大语言模型训练、推理方法和装置 | |
EP4322066A1 (en) | Method and apparatus for generating training data | |
JP4539616B2 (ja) | 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム | |
Preotiuc-Pietro | Temporal models of streaming social media data | |
AU2003282688B2 (en) | Method and apparatus for characterizing documents based on clusters of related words | |
Nguyen et al. | Determination of user interfaces in adaptive systems using a rough classification-based method | |
Pilgrim | Adaptive rationality in communication | |
Lim et al. | Spoofing Tweet Generator Considering Points of Interest of Target User | |
CN116186220A (zh) | 信息检索方法、问答处理方法、信息检索装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061002 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090907 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091207 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100208 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100222 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130226 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4465274 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130226 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140226 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |