JP2008052732A - 類似性計算方法、文脈モデル導出方法、類似性計算プログラム、文脈モデル導出プログラム - Google Patents
類似性計算方法、文脈モデル導出方法、類似性計算プログラム、文脈モデル導出プログラム Download PDFInfo
- Publication number
- JP2008052732A JP2008052732A JP2007212218A JP2007212218A JP2008052732A JP 2008052732 A JP2008052732 A JP 2008052732A JP 2007212218 A JP2007212218 A JP 2007212218A JP 2007212218 A JP2007212218 A JP 2007212218A JP 2008052732 A JP2008052732 A JP 2008052732A
- Authority
- JP
- Japan
- Prior art keywords
- text object
- context model
- term
- calculation method
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/912—Applications of a database
- Y10S707/917—Text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】第1テキストオブジェクトを使用して、該第1テキストオブジェクトに関連する文脈モデルを導出する。導出された前記文脈モデルを使用して、前記第1テキストオブジェクトと前記第2テキストオブジェクトとの間の類似性を計算する。前記第1テキストオブジェクトは少なくとも1つのキーワードを含んでいてもよいし、少なくとも1つの熟語を含んでいてもよい。
【選択図】図5
Description
A. L. バーガー(A. L. Berger)、S. A. デラ ピエトラ(S. A. Della Pietra)およびV. J. デラ ピエトラ(V. J. Della Pietra)、「自然言語処理への最大エントロピーアプローチ(A maximum entropy approach to natural language processing)」、コンピュータ言語学(Computational Linguistics)、1996年、22(1)、頁39〜71 S. デラ ピエトラ(S. Della Pietra)、V. デラ ピエトラ(V. Della Pietra)およびJ.ラファーティ(J. Lafferty)、「確率場の特徴の導出(Inducing features of random fields)」、パターン解析および人工知能に関するIEEEトランザクション(IEEE Transaction on Pattern Analysis and Machine Intelligence)、1997年、19、頁380〜393 D. ビーファーマン(D. Beeferman)、A. バーガー(A. Berger)およびJ. ラファーティ(J. Lafferty)、「指数モデルを使用するテキストセグメント化(Text segmentation using exponential models)」、自然言語処理における経験的方法に関する第2回会議抄録(Proceedings of the Second Conference on Empirical Methods in Natural Language Processing) R. ローゼンフェルド(R. Rosenfeld)、「適応統計言語モデルへの最大エントロピーアプローチ(A maximum entropy approach to adaptive statistical language modeling)」、コンピュータ、スピーチおよび言語(Computer, Speech, and Language)、1996年、10、頁187〜228 A. マクカルム(A. McCallum)およびN. ガムラヴィ(N. Ghamrawi)、「収集多重レベルテキスト分類(Collective multi−label text classification)」、CIKM抄録(Proceedings of CIKM)、独、ブレーメン(Bremen、Germany)、2005年、頁195〜200 M. ポーター(M. Porter)、「接尾子の除去アルゴリズム(An algorithm for suffix stripping)」、プログラム(Program)、1980年、14、頁130〜137 S. ロバートソン(S. Robertson)、S. ウォーカー(S. Walker)、S. ジョーンズ(S. Jones)、M. ハンコック−ビューリュー(M. Hancock−Beaulieu)およびM. ガットフォード(M. Gatford)、「TREC−3におけるOkapi(Okapi at TREC−3)」、第三回テキスト検索年次会議(3rd annual Text Retrieval Conference)、NIST、米、メリーランド(MD)、1994年 E. ヴーアヒーズ(E. Voorhees)およびD. ハーマン(D. Harman)、「第6回テキスト検索会議(TREC−6)の概要(Overview of the sixth text retrieval conference(TREC−6))」、情報処理および管理(Information Processing and Management)、2000年、36(1)、頁3〜35
「技術の詳細」
本発明の方法の実施形態は、少なくとも一部は、「0次」条件の確率場として特徴付けられる、最大エントロピー計算を基礎とする。このモデルは、非特許文献1、非特許文献2、非特許文献3、非特許文献4、非特許文献5に記載されており、これらすべては参照により本明細書に引用するものとする。
「パラメータ形式」
確率P(yi|Hi)を計算するために選択される多数の様々な形式が存在する。本発明の実施形態は、最大エントロピーフレームワークにより与えられる、確率場に対する分散の一般公式を使用する。場の構造を定義する特徴関数セットFが提供されると仮定する。最大エントロピーの原理は、(i)Fにより課せられる構造と一致する、および(ii)最小量の保証されない仮定を行う――すなわち、Fに一致するすべての分散の最大の均一性である、パラメータの形式が選択されなければならないことを示している。これら2つの基準を満たす関数グループは指数関数(または対数線形)グループであり、下記の式で表される。
「目的関数」
以下の説明は、文書内の用語yiの存在を正確に予測する確率分布P(yi|Hi)を求める方法を示している。予測の品質を示す多数の様々な評価基準が存在する。以下の説明は最も簡単なものの1つであるトレーニングデータの対数尤度に焦点を当てる。当業者には明らかなとおり、他の適切な評価基準も同様に使用できる。文書dのトレーニングデータセットTが与えられると、対数尤度は単にT内における用語iの発生確率の平均対数である。
本発明の実施形態による記載のモデルは2つの推定値に依存することに注意しなければならない。第1および最も重要なものは、一連の制限または特徴関数f∈Fとして表される場Fの構造である。これらの制限は、場の変数間の最も重要な従属性を表す。決定される第2要素は、各特徴f∈Fに対しての重みのセットΛ={λf}である。ΛおよびFは密接に関連し、同時に学習する必要があるが、明瞭化のために、説明は2つのセクションに分割される。このセクションは、場の構造Fが徐々に導き出され、極めて均一の無意味な構造で開始し、より関心のある関係に一般化する方法を説明する。
前のセクションでは、最も見込みのある候補特徴g∈Gを除々に追加することにより、自動的に確率場の構造を導出する方法を説明した。場における他の特徴の重みにgを追加する効果は以前には説明していない。特徴f∈Fは互いに独立していないため、新しい特徴の追加は既存の特徴の均衡、すなわち対象関数に影響を与える。現在場に存在するすべての関数に対する重みを再最適化することにより目的をさらに改善できる。
「場を導出するアルゴリズム」
先のサブセクションの構成要素は、用語yiに対する文脈モデルを自動的に導出するための1つのアルゴリズムを生成する。
a.非文脈を用いて、用語自体の特徴のみを含むように特徴セットF0を選択する:F0={yi}。
(II)重みの更新
a.勾配を計算し、勾配の方向における小さなステップでλfを調整する。
(III)特徴の導出
a.候補特徴セットを数える。
「最終詳細」
汎用モデル生成アルゴリズムは先に述べているが、評価については、要求される強力な計算リソースに起因して、いくつかの制限が課せられる。第1の制限は、ステップ(IIb)が12回実行され、ステップ(IIIe)が30回実行されて、合計30の特徴を導出することである。
「モデルの例」
用語文脈モデルの2つの例は、それぞれ図2および3に示されている表200および300に示されている。これらのモデルは、ほぼ131,000個のロサンジェルスタイムズ(Los Angeles Times)の新聞記事でトレーニングされた。表200および300の左側の列には、対応する特徴に割当てられるλ重みがある。中間の列はモデル用語の予測に役立つサポート特徴を含む。比較のために、右側の列は、サポート特徴とモデル用語との標準的同時出現値を含む。負の特徴重みは、この特徴の存在が、モデル用語が文書内に存在してはならないことの適当な表示であることを意味する。図3から分かるとおり、本発明のモデルは、モデル用語homeの1つだけの意味ではなく、2つの意味:「house」および「baseball」を取得する。
「方法の一般的特性」
前述の技術では、導出される特徴の数、導出される特徴のサイズ、ブーリアン用語の存在に基づく特徴、情報利得による強引に導出される特徴、単集合の単語と定義される「用語」等、のような複数の方法でパラメータ化された、ある特定のタイプの用語文脈モデルを説明した。
systems」AND NOT Windows(登録商標)}のような、否定用語を含むモデルをトレーニングできる。
「評価」
用語についての文脈モデルを生成するフレームワークが構成された後に、これをアドホックな情報検索タスクに適用することによって評価がされる。これは、このフレームワークの適用だけではなく、本発明の方法の実施形態の価値を実証できるものである。
「文脈モデルを利用した文書−クエリスコアリング」
アドホックな検索は以下のように機能する。本発明のシステムは、ユーザのクエリと収集内のすべての文書との間の類似性の評価基準を求める。文書はその後このスコアにより分類されユーザに提示される。システムは、ユーザの情報の必要性に関連する文書のランクを調べることにより比較される。1つのシステムが、別のシステムより高いランクのより関連する文書を有する場合、そのシステムがより優れていると考えられる。
「文脈モデルスコアと既存の方法との統合」
スタンドアロンのランキング機能として、本発明の概念の実施形態によるモデルは適正な検索には十分ではない。用語の頻度および文書の頻度は依然として必要である。しかし、前述のとおり、用語の高頻度および文脈の低スコアを備える文書は、用語の高頻度および文脈の高スコアを備える文書と同様には扱えない。文脈モデルのスコアは、今では優れた検索結果を強化する方法として役立つ。
当業者には公知の、標準のTRECデータセットを用いて、モデルを評価した。実験は150のクエリから成り、TRECのアドホックなトピック301〜450に対する表題のみ使用する。モデルは、TRECのボリューム(volume)5において、ロサンジェルスタイムズ(LA Times)からの略131,000個の文書を使用して、クエリ用語のそれぞれに対して構築した。150のクエリはこの同一コーパス上で実行した。(このコーパスにおいて、150のクエリのうちの143のみが関連性文書を有し、したがって、実際には前述の実験に対して143のクエリのみ使用した、ことを注記しておく。しかし、これはなお、統計的有意性を確立するために使用される標準の量である50のクエリよりはるかに多い)。
「追加実験」
本発明の方法の価値に対する証拠の最終的な1つとして、クエリ用語が存在しない関連文書のみが見られる、補足実験を用いて評価した。ロサンジェルスタイムズ(LA Times)は、クエリに共通する用語を有さない、66のクエリにわたる489の関連文書を含む。tfベースの方法の使用は機能せず、489の関連文書の1つのみがBM25を使用して上位1000にランクされる。さらに、脱落したクエリ用語の正規化された収集頻度を使用して平滑化された言語モデルを試験した。クエリ用語を含まないすべての文書は、文書の相対ランキングに影響しない文脈に無関係に、等しく円滑化されるため、これは同様に(また上位1000の内の489の関連文書のまさに1つ)無効である。
「例示的なコンピュータ化システム」
図5は、本発明の方法の実施形態を実現できるコンピュータ/サーバシステム500の実施形態を示したブロック図である。システム500はコンピュータ/サーバプラットフォーム501、周辺装置502およびネットワークリソース503を含む。
501 コンピュータ/サーバプラットフォーム
502 周辺装置
503 ネットワークリソース
Claims (21)
- 第1テキストオブジェクトと第2テキストオブジェクトとの間の類似性を計算する方法であって、
a.前記第1テキストオブジェクトを使用して、該第1テキストオブジェクトに関する文脈モデルを導出し、
b.導出された前記文脈モデルを使用して、前記第1テキストオブジェクトと前記第2テキストオブジェクトとの間の類似性を計算する、
類似性計算方法。 - 前記第1テキストオブジェクトは少なくとも1つのキーワードを含む、請求項1に記載の類似性計算方法。
- 前記第1テキストオブジェクトは少なくとも1つの熟語を含む、請求項1に記載の類似性計算方法。
- 前記文脈モデルは前記第2テキストオブジェクト内の前記第1テキストオブジェクトの出現を予測する少なくとも1つの用語を含む、請求項1に記載の類似性計算方法。
- 前記文脈モデルは前記第2テキストオブジェクト内の前記第1テキストオブジェクトの出現を予測する複数の用語を含む、請求項1に記載の類似性計算方法。
- 前記文脈モデルは前記第2テキストオブジェクト内の前記第1テキストオブジェクトの出現を予測する少なくとも1つの熟語を含む、請求項1に記載の類似性計算方法。
- 前記文脈モデルは前記第2テキストオブジェクト内の前記第1テキストオブジェクトの出現を予測する複数の熟語を含む、請求項1に記載の類似性計算方法。
- 前記文脈モデルは前記第2テキストオブジェクト内の前記第1テキストオブジェクトの出現を予測する少なくとも1つのキーワードおよび少なくとも1つの熟語を含む、請求項1に記載の類似性計算方法。
- 前記文脈モデルは前記第2テキストオブジェクト内の前記第1テキストオブジェクトの出現を予測する少なくとも1つの用語近似条件を含む、請求項1に記載の類似性計算方法。
- 前記文脈モデルは前記第2テキストオブジェクト内の前記第1テキストオブジェクトの出現を予測する少なくとも1つの用語関係条件を備える、請求項1に記載の類似性計算方法。
- 前記第1テキストオブジェクトと前記第2テキストオブジェクトとの間の前記類似性は確率スコアの計算を用いて求められる、請求項1に記載の類似性計算方法。
- 計算された前記類似性に基づいて少なくとも1つの文書を検索することをさらに含む、請求項1に記載の類似性計算方法。
- 計算された前記類似性に基づいて検索された文書をランク付けすることをさらに含む、請求項12に記載の類似性計算方法。
- 前記第1テキストオブジェクトはモデル用語を含み、
前記文脈モデルは前記モデル用語の予測を支援するサポート特徴を含む、
請求項1に記載の類似性計算方法。 - 前記文脈モデルはさらに前記サポート特徴に割り当てられる重みを含む、請求項14に記載の類似性計算方法。
- テキストの本体を使用して前記文脈モデルのトレーニングを行うことをさらに含む、請求項1に記載の類似性計算方法。
- 用語に対する文脈モデルを自動的に導出する方法であって、
a.文脈のない用語の特徴のみを含む特徴セットを選択し、
b.前記特徴に対して初期重みを1に設定し、
c.前記特徴に対する前記重みを更新し、
d.特徴の導出を実行する、
文脈モデル導出方法。 - cは、
i.勾配を計算し、初期重みを前記勾配の方向に小さなステップで調整し、
ii.所定の条件に適合するまでaを繰返す、
請求項17に記載の文脈モデル導出方法。 - dは、
i.候補の特徴セットを数え、
ii.前記候補の特徴セットのそれぞれに対して最適な重みを計算し、
iii.前記候補の特徴セットのそれぞれに対して、前記特徴セットへの前記候補の特徴セットのそれぞれを追加することにより情報利得を計算し、
iv.最も高い利得を生じる、前記候補の特徴セットの候補特徴を選び、前記特徴セットに前記候補特徴を加え、
v.所定の条件に適合するまで、cに戻る、
請求項17に記載の文脈モデル導出方法。 - 第1テキストオブジェクトと第2テキストオブジェクトとの間の類似性を計算する機能をコンピュータに実行させるためのコンピュータプログラムであって、
a.前記第1テキストオブジェクトを使用して、該第1テキストオブジェクトに関する文脈モデルを導出する機能と、
b.導出された前記文脈モデルを使用して、前記第1テキストオブジェクトと前記第2テキストオブジェクトとの間の類似性を計算する機能と、
を実行させるためのコンピュータプログラム。 - 用語に対する文脈モデルを自動的に導出する機能をコンピュータに実行させるためのコンピュータプログラムであって、
a.文脈のない用語の特徴のみを含む特徴セットを選択する機能と、
b.前記特徴の初期重みを1に設定する機能と、
c.前記特徴の重みを更新する機能と、
d.特徴の導出を実行する機能と、
を実行させるためのコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/508476 | 2006-08-22 | ||
US11/508,476 US7937397B2 (en) | 2006-08-22 | 2006-08-22 | Apparatus and method for term context modeling for information retrieval |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008052732A true JP2008052732A (ja) | 2008-03-06 |
JP5157314B2 JP5157314B2 (ja) | 2013-03-06 |
Family
ID=39197883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007212218A Expired - Fee Related JP5157314B2 (ja) | 2006-08-22 | 2007-08-16 | 類似性計算方法、文脈モデル導出方法、類似性計算プログラム、文脈モデル導出プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US7937397B2 (ja) |
JP (1) | JP5157314B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100986404B1 (ko) | 2008-06-30 | 2010-10-08 | 한양대학교 산학협력단 | 블로그 환경에서 중복포스트의 검출 방법 및 그 장치 |
KR101212795B1 (ko) | 2009-12-28 | 2012-12-14 | 주식회사 케이티 | 다중 목적 영역의 통계적 대화 정책 추론 방법 |
WO2020060161A1 (ko) * | 2018-09-17 | 2020-03-26 | 유진바이오소프트 주식회사 | 대화형 인터페이스를 이용한 통계 분석 시스템과 통계분석 방법 |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7505964B2 (en) | 2003-09-12 | 2009-03-17 | Google Inc. | Methods and systems for improving a search ranking using related queries |
US8661029B1 (en) | 2006-11-02 | 2014-02-25 | Google Inc. | Modifying search result ranking based on implicit user feedback |
US9110975B1 (en) | 2006-11-02 | 2015-08-18 | Google Inc. | Search result inputs using variant generalized queries |
US20080114750A1 (en) * | 2006-11-14 | 2008-05-15 | Microsoft Corporation | Retrieval and ranking of items utilizing similarity |
US20080147579A1 (en) * | 2006-12-14 | 2008-06-19 | Microsoft Corporation | Discriminative training using boosted lasso |
US8280877B2 (en) * | 2007-02-22 | 2012-10-02 | Microsoft Corporation | Diverse topic phrase extraction |
US8938463B1 (en) | 2007-03-12 | 2015-01-20 | Google Inc. | Modifying search result ranking based on implicit user feedback and a model of presentation bias |
US8694374B1 (en) | 2007-03-14 | 2014-04-08 | Google Inc. | Detecting click spam |
US9092510B1 (en) | 2007-04-30 | 2015-07-28 | Google Inc. | Modifying search result ranking based on a temporal element of user feedback |
US8694511B1 (en) | 2007-08-20 | 2014-04-08 | Google Inc. | Modifying search result ranking based on populations |
US8909655B1 (en) | 2007-10-11 | 2014-12-09 | Google Inc. | Time based ranking |
US8542748B2 (en) | 2008-03-28 | 2013-09-24 | Sharp Laboratories Of America, Inc. | Methods and systems for parallel video encoding and decoding |
US20100076978A1 (en) * | 2008-09-09 | 2010-03-25 | Microsoft Corporation | Summarizing online forums into question-context-answer triples |
US8396865B1 (en) | 2008-12-10 | 2013-03-12 | Google Inc. | Sharing search engine relevance data between corpora |
US8175388B1 (en) * | 2009-01-30 | 2012-05-08 | Adobe Systems Incorporated | Recognizing text at multiple orientations |
US8527500B2 (en) * | 2009-02-27 | 2013-09-03 | Red Hat, Inc. | Preprocessing text to enhance statistical features |
US8396850B2 (en) * | 2009-02-27 | 2013-03-12 | Red Hat, Inc. | Discriminating search results by phrase analysis |
US9009146B1 (en) | 2009-04-08 | 2015-04-14 | Google Inc. | Ranking search results based on similar queries |
US10891659B2 (en) | 2009-05-29 | 2021-01-12 | Red Hat, Inc. | Placing resources in displayed web pages via context modeling |
US8447760B1 (en) | 2009-07-20 | 2013-05-21 | Google Inc. | Generating a related set of documents for an initial set of documents |
US8498974B1 (en) | 2009-08-31 | 2013-07-30 | Google Inc. | Refining search results |
US8972391B1 (en) | 2009-10-02 | 2015-03-03 | Google Inc. | Recent interest based relevance scoring |
KR101089450B1 (ko) | 2009-11-03 | 2011-12-07 | 포항공과대학교 산학협력단 | 사용자 시뮬레이션 시스템 및 방법 |
US8874555B1 (en) | 2009-11-20 | 2014-10-28 | Google Inc. | Modifying scoring data based on historical changes |
US8615514B1 (en) | 2010-02-03 | 2013-12-24 | Google Inc. | Evaluating website properties by partitioning user feedback |
US8924379B1 (en) | 2010-03-05 | 2014-12-30 | Google Inc. | Temporal-based score adjustments |
US8959093B1 (en) | 2010-03-15 | 2015-02-17 | Google Inc. | Ranking search results based on anchors |
US9623119B1 (en) | 2010-06-29 | 2017-04-18 | Google Inc. | Accentuating search results |
US8832083B1 (en) | 2010-07-23 | 2014-09-09 | Google Inc. | Combining user feedback |
US8671040B2 (en) * | 2010-07-23 | 2014-03-11 | Thomson Reuters Global Resources | Credit risk mining |
US8344917B2 (en) * | 2010-09-30 | 2013-01-01 | Sharp Laboratories Of America, Inc. | Methods and systems for context initialization in video coding and decoding |
US9313514B2 (en) | 2010-10-01 | 2016-04-12 | Sharp Kabushiki Kaisha | Methods and systems for entropy coder initialization |
US8645364B2 (en) | 2010-12-13 | 2014-02-04 | Google Inc. | Providing definitions that are sensitive to the context of a text |
US9002867B1 (en) | 2010-12-30 | 2015-04-07 | Google Inc. | Modifying ranking data based on document changes |
US20130212095A1 (en) * | 2012-01-16 | 2013-08-15 | Haim BARAD | System and method for mark-up language document rank analysis |
US9122681B2 (en) | 2013-03-15 | 2015-09-01 | Gordon Villy Cormack | Systems and methods for classifying electronic information using advanced active learning techniques |
US9183499B1 (en) | 2013-04-19 | 2015-11-10 | Google Inc. | Evaluating quality based on neighbor features |
JP6468364B2 (ja) * | 2015-04-24 | 2019-02-13 | 日本電気株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
US10229117B2 (en) | 2015-06-19 | 2019-03-12 | Gordon V. Cormack | Systems and methods for conducting a highly autonomous technology-assisted review classification |
US10706048B2 (en) * | 2017-02-13 | 2020-07-07 | International Business Machines Corporation | Weighting and expanding query terms based on language model favoring surprising words |
JP2019204246A (ja) * | 2018-05-23 | 2019-11-28 | 株式会社日立製作所 | 学習データ作成方法及び学習データ作成装置 |
EP3665543A1 (en) * | 2018-10-18 | 2020-06-17 | Google LLC. | Contextual estimation of link information gain |
CN110413878B (zh) * | 2019-07-04 | 2022-04-15 | 五五海淘(上海)科技股份有限公司 | 基于自适应弹性网络的用户-商品偏好的预测装置和方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005302042A (ja) * | 2004-04-15 | 2005-10-27 | Microsoft Corp | マルチセンスクエリについての関連語提案 |
JP2006072787A (ja) * | 2004-09-03 | 2006-03-16 | Advanced Telecommunication Research Institute International | 自動質問解答方法、そのためのモデル作成方法、およびコンピュータプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5404514A (en) * | 1989-12-26 | 1995-04-04 | Kageneck; Karl-Erbo G. | Method of indexing and retrieval of electronically-stored documents |
US6611825B1 (en) * | 1999-06-09 | 2003-08-26 | The Boeing Company | Method and system for text mining using multidimensional subspaces |
US7392174B2 (en) * | 2000-03-20 | 2008-06-24 | Freeman Robert J | Natural-language processing system using a large corpus |
US7295965B2 (en) * | 2001-06-29 | 2007-11-13 | Honeywell International Inc. | Method and apparatus for determining a measure of similarity between natural language sentences |
US7720675B2 (en) * | 2003-10-27 | 2010-05-18 | Educational Testing Service | Method and system for determining text coherence |
-
2006
- 2006-08-22 US US11/508,476 patent/US7937397B2/en active Active
-
2007
- 2007-08-16 JP JP2007212218A patent/JP5157314B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005302042A (ja) * | 2004-04-15 | 2005-10-27 | Microsoft Corp | マルチセンスクエリについての関連語提案 |
JP2006072787A (ja) * | 2004-09-03 | 2006-03-16 | Advanced Telecommunication Research Institute International | 自動質問解答方法、そのためのモデル作成方法、およびコンピュータプログラム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100986404B1 (ko) | 2008-06-30 | 2010-10-08 | 한양대학교 산학협력단 | 블로그 환경에서 중복포스트의 검출 방법 및 그 장치 |
KR101212795B1 (ko) | 2009-12-28 | 2012-12-14 | 주식회사 케이티 | 다중 목적 영역의 통계적 대화 정책 추론 방법 |
WO2020060161A1 (ko) * | 2018-09-17 | 2020-03-26 | 유진바이오소프트 주식회사 | 대화형 인터페이스를 이용한 통계 분석 시스템과 통계분석 방법 |
Also Published As
Publication number | Publication date |
---|---|
US7937397B2 (en) | 2011-05-03 |
JP5157314B2 (ja) | 2013-03-06 |
US20080052273A1 (en) | 2008-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5157314B2 (ja) | 類似性計算方法、文脈モデル導出方法、類似性計算プログラム、文脈モデル導出プログラム | |
TWI732271B (zh) | 人機對話方法、裝置、電子設備及電腦可讀媒體 | |
Yan et al. | Building task-oriented dialogue systems for online shopping | |
CN107832414B (zh) | 用于推送信息的方法和装置 | |
Tang et al. | Sentiment embeddings with applications to sentiment analysis | |
Liu et al. | Exploring the context of locations for personalized location recommendations. | |
CN116775847B (zh) | 一种基于知识图谱和大语言模型的问答方法和系统 | |
US20230111582A1 (en) | Text mining method based on artificial intelligence, related apparatus and device | |
US9239875B2 (en) | Method for disambiguated features in unstructured text | |
US9110985B2 (en) | Generating a conceptual association graph from large-scale loosely-grouped content | |
CN110457708B (zh) | 基于人工智能的词汇挖掘方法、装置、服务器及存储介质 | |
US20150052098A1 (en) | Contextually propagating semantic knowledge over large datasets | |
KR102685008B1 (ko) | 검색 모델의 훈련 방법, 목표 대상의 검색 방법 및 그 장치 | |
KR20160149978A (ko) | 검색 엔진 및 그의 구현 방법 | |
CN104471568A (zh) | 对自然语言问题的基于学习的处理 | |
He et al. | Efficient collective entity linking with stacking | |
CN112000776B (zh) | 基于语音语义的话题匹配方法、装置、设备及存储介质 | |
JP6729095B2 (ja) | 情報処理装置及びプログラム | |
CN110147494A (zh) | 信息搜索方法、装置,存储介质及电子设备 | |
CN109977292A (zh) | 搜索方法、装置、计算设备和计算机可读存储介质 | |
CN112989208A (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
CN111325018A (zh) | 一种基于web检索和新词发现的领域词典构建方法 | |
CN117494815A (zh) | 面向档案的可信大语言模型训练、推理方法和装置 | |
US20170124090A1 (en) | Method of discovering and exploring feature knowledge | |
CN112330387B (zh) | 一种应用于看房软件的虚拟经纪人 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100713 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120619 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120626 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120810 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121113 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121126 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5157314 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151221 Year of fee payment: 3 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |