JP5391633B2 - オントロジー空間を規定するタームの推奨 - Google Patents
オントロジー空間を規定するタームの推奨 Download PDFInfo
- Publication number
- JP5391633B2 JP5391633B2 JP2008259629A JP2008259629A JP5391633B2 JP 5391633 B2 JP5391633 B2 JP 5391633B2 JP 2008259629 A JP2008259629 A JP 2008259629A JP 2008259629 A JP2008259629 A JP 2008259629A JP 5391633 B2 JP5391633 B2 JP 5391633B2
- Authority
- JP
- Japan
- Prior art keywords
- similarity
- document
- terms
- tag
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3325—Reformulation based on results of preceding query
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
[関連出願]
本願は、デイビッド・マービットらにより2007年10月5日に出願された米国仮出願第60/977,934号、発明の名称「改善されたタグ付け方法」、代理人管理番号第073338.0554号の米国特許法第119条(e)項の利益を主張するものである。
差分類似性は様々な応用ができる。一例では、人の名前の間の差分類似性を用いて社会的ネットワークを研究できる。他の例では、言語要素間の差分類似性を用いて自然言語処理を研究できる。他の例では、製品間の差分類似性を用いてマーケティングを研究できる。
ある実施形態では、深さエンジン230は文書の類似性(affinity)によりその文書の深さを計算する。文書間の類似性はその文書間の関係を示す。実施形態では、ワードの平均類似性がそのワードの深さを示すのと同様に、文書の平均類似性はその文書の深さを示す。文書の類似性は任意の適切な方法で定義することができる。一例では、共通ワード数P(D1&D2)は文書D1とD2の両方にあるワードの数を示し、個別ワード数P(D1+D2)は文書D1またはD2のいずれかにあるワードの数を示す。文書D1とD2の間の文書類似性DocAffは次式で定義できる:
図9は、文書に付与するタグを選択するタギングモジュール35の一実施形態を示す図である。タグは任意の適切な方法で選択することができる。ある実施形態では、タギングモジュール35はトピックス(またはテーマ)をそれに関係するワードの統計的分布としてモデル化する。タギングモジュール35は統計的分布を用いて、文書のランキングが高いワードが出現する確率が最も高いトピックスを特定し、そのトピックスに応じてその文書のタグを選択する。図示した実施形態では、タギングモジュール35はトピックモデル部310と文書タグ部314とを含む。ある実施形態では、トピックモデル部310はトピックスをモデル化する統計的分布を生成し、文書タグ部314はその統計的分布に基づきタグを選択する。トピックモデル部310と文書タグ部314は任意の適切な方法を用いてトピックのモデル化とタグの選択を行う。図10を参照して方法の例を説明する。
ステップ414において、ランキングの高いタームをその文書のキーワードとして選択する。例としては、ランキングがトップN個のタームを用いる。Nは1乃至5、5乃至10、または10以上でもよい。他の例では、文書の平均ランキングより所定量(例えば標準偏差)上のタームを用いる。
他の例では、文書タグ部314は必ずしもコーパス中にない文書にタグを付与してもよい。統計分布を用いて文書の選択されたワードが高い出現確率を有するトピックスを特定し、特定したトピックスをタグとして選択する。上記の例では、文書タグ部314は、上で説明したように、任意の適切なランキング方法により文書のワードをランク付けする。ランキングが最も高いワードから始めて、文書タグ部314は各トピックスのワードの頻度をそのトピックスの統計分布から決定する。文書タグ部314は、そのワードが最も頻出率の高いトピックから、最も頻出率が低いトピックスまで、トピックスをランク付けする。トピックスに関するワードの統計的分布を作成する。
ステップ510において段落Piを選択する。ステップ514において、段落Piに対してタグtkのタグ候補集合Si=<t1,t2...tm>を決定(establish)する。ある実施形態では、ランキングが高いワードをタグ候補として選択する。(ワードは任意の適切なランキング方法でランク付けできる。)ある実施形態では、結果として望ましいタグ候補数に応じて、最初のタグ候補数を選択する。例えば、結果として望ましい数をkとすると、最初の数はc*k(c>1)である。パラメータcはc=2,3,4または5など任意の適切な値でよい。ランキングが高いタグ候補を選択し、集合Siのルートriとする。
(付記1) 有体媒体に記憶された文書にアクセスする段階と、
前記文書に対する一組の目標タグを受け取る段階と、
複数のタームを選択する段階であって、前記文書のオントロジー空間を減縮するようにタームを選択する段階と、
前記タームをタグとして推奨するコンピュータに前記タームを送る段階とを含む方法。
(付記2) 前記複数のタームを選択する段階は、類似性に応じて前記複数のタームを選択する段階であって、目標タグとの類似性が高く、その他のタームとの類似性が低いタームを選択する段階を含む、付記1に記載の方法。
(付記3) 前記推奨されたタームのうちの1つ以上のタームの選択を受け取る段階と、
前記選択された1つ以上のタームを前記目標タグの集合に追加する段階と、
前記目標タグの集合により次の複数のタームを選択する段階とをさらに含む、付記1に記載の方法。
(付記4) 前記推奨されたタームのうちの1つ以上のタームの選択を受け取る段階と、
前記選択された1つ以上のタームとの類似度が高い次の複数のタームを選択する段階とをさらに含む、付記1に記載の方法。
(付記5) 前記推奨されたタームのうちの1つ以上のタームの選択を受け取る段階と、
拒絶された1つ以上のタームを特定する段階と、
前記拒絶された1つ以上のタームとの類似度が低い次の複数のタームを選択する段階とをさらに含む、付記1に記載の方法。
(付記6) 前記文書の前記目標タグの集合にアクセスする段階は、
ユーザ入力とコンピュータ分析とよりなるグループから選択されたソースから前記目標タグの集合の一目標タグを受け取る段階と、
前記目標タグの前記ソースを記録する段階とをさらに含む、
付記1に記載の方法。
(付記7) 前記目標タグの集合の各目標タグのソースを決定(establish)する段階と、
目標タグと関連する複数の検索結果を検索する段階と、
前記目標タグのソースに応じて前記検索結果をランク付けする段階とをさらに含む、
付記1に記載の方法。
(付記8) 前記目標タグの集合から冗長タームを削除する段階をさらに含む、
付記1に記載の方法。
(付記9) タグが特定のタームに対して有すべき要求される関係性の程度を受け取るグラフィカル要素を表示する段階をさらに含む、付記1に記載の方法。
(付記10) 前記目標タグに対応するクラスターから目標タグとの類似性が高いタームを特定することにより、類似性に応じて前記複数のタームを選択する段階をさらに含む、
付記1に記載の方法。
(付記11) 類似性に応じて前記複数のタームを選択する段階であって、前記類似性は、類似性、平均類似性、有向類似性、及び差分類似性よりなるグループから選択した1つ以上の類似性を含む段階を含む、付記1に記載の方法。
(付記12) 実行したとき、
有体媒体に記憶された文書にアクセスする段階と、
前記文書に対する一組の目標タグを受け取る段階と、
複数のタームを選択する段階であって、前記文書のオントロジー空間を減縮するようにタームを選択する段階と、
前記タームをタグとして推奨するコンピュータに前記タームを送る段階と
を実行するソフトウェアをエンコードしたコンピュータ読み取り可能有体媒体。
(付記13) 前記ソフトウェアは、類似性に応じて前記複数のタームを選択する段階であって、目標タグとの類似性が高く、その他のタームとの類似性が低いタームを選択する段階により複数のタームを選択する、付記12に記載のコンピュータ読み取り可能有体媒体。
(付記14) 前記ソフトウェアは実行されたとき、
前記推奨されたタームのうちの1つ以上のタームの選択を受け取る段階と、
前記選択された1つ以上のタームを前記目標タグの集合に追加する段階と、
前記目標タグの集合により次の複数のタームを選択する段階と
を実行する、付記12に記載のコンピュータ読み取り可能有体媒体。
(付記15) 前記ソフトウェアは実行されたとき、
前記推奨されたタームのうちの1つ以上のタームの選択を受け取る段階と、
前記選択された1つ以上のタームとの類似度が高い次の複数のタームを選択する段階と
を実行する、付記12に記載のコンピュータ読み取り可能有体媒体。
(付記16) 前記ソフトウェアは実行されたとき、
前記推奨されたタームのうちの1つ以上のタームの選択を受け取る段階と、
拒絶された1つ以上のタームを特定する段階と、
前記拒絶された1つ以上のタームとの類似度が低い次の複数のタームを選択する段階と
をさらに実行する、付記12に記載のコンピュータ読み取り可能有体媒体。
(付記17) 前記ソフトウェアは
ユーザ入力とコンピュータ分析とよりなるグループから選択されたソースから前記目標タグの集合の一目標タグを受け取る段階と、
前記目標タグの前記ソースを記録する段階と
により前記文書の前記目標タグの集合にアクセスする、付記12に記載のコンピュータ読み取り可能有体媒体。
(付記18) 前記ソフトウェアは実行されたとき、
前記目標タグの集合の各目標タグのソースを決定(establish)する段階と、
目標タグと関連する複数の検索結果を検索する段階と、
前記目標タグのソースに応じて前記検索結果をランク付けする段階と
をさらに実行する、付記12に記載のコンピュータ読み取り可能有体媒体。
(付記19) 前記ソフトウェアは実行されたとき、前記目標タグの集合から冗長タームを削除する段階をさらに実行する、付記12に記載のコンピュータ読み取り可能有体媒体。
(付記20) 前記ソフトウェアは実行されたとき、タグが特定のタームに対して有すべき要求される関係性の程度を受け取るグラフィカル要素を表示する段階をさらに実行する、付記12に記載のコンピュータ読み取り可能有体媒体。
(付記21) 前記ソフトウェアは、実行されたとき、前記目標タグに対応するクラスターから目標タグとの類似性が高いタームを特定する段階により類似性に応じて前記複数のタームを選択する、付記12に記載のコンピュータ読み取り可能有体媒体。
(付記22) 前記ソフトウェアは、実行されたとき、類似性に応じて前記複数のタームを選択し、前記類似性は、類似性、平均類似性、有向類似性、及び差分類似性よりなるグループから選択した1つ以上の類似性をさらに含む、付記12に記載のコンピュータ読み取り可能有体媒体。
(付記23) 検索のための一組の目標検索タームを受け取る段階と、
複数の候補タームを選択する段階であって、前記検索のオントロジー空間を減縮するように候補タームを選択する段階と、
前記候補タームを検索タームとして推奨するコンピュータに前記候補タームを送る段階とを含む方法。
(付記24) 前記複数の候補タームを選択する段階は、類似性に応じて前記複数の候補タームを選択する段階であって、目標検索タームとの類似性が高く、その他のタームとの類似性が低い候補タームを選択する段階を含む、付記23に記載の方法。
(付記25) 前記候補タームのうちの1つ以上のタームの選択を受け取る段階と、
前記選択された1つ以上のタームを前記目標検索タームの集合に追加する段階と、
前記目標検索タームの集合により次の複数のタームを選択する段階と
を含む、付記23に記載の方法。
(付記26) 前記候補タームのうちの1つ以上のタームの選択を受け取る段階と、
前記選択された1つ以上のタームとの類似度が高い次の複数のタームを選択する段階とをさらに含む、付記23に記載の方法。
(付記27) 前記候補タームのうちの1つ以上のタームの選択を受け取る段階と、
拒絶された1つ以上のタームを特定する段階と、
前記拒絶された1つ以上のタームとの類似度が低い次の複数のタームを選択する段階とをさらに含む、付記23に記載の方法。
(付記28) 前記検索のための前記目標検索タームの集合を受け取る段階は、
ユーザ入力とコンピュータ分析とよりなるグループから選択されたソースから前記目標検索タームの集合の一目標検索タームを受け取る段階と、
前記目標検索タームの前記ソースを記録する段階と、
をさらに含む、付記23に記載の方法。
(付記29) 前記目標検索タームの集合の各目標検索タームのソースを決定(establish)する段階と、
目標検索タームと関連する複数の検索結果を検索する段階と、
前記目標検索タームのソースに応じて前記検索結果をランク付けする段階とをさらに含む、付記23に記載の方法。
(付記30) 前記目標検索タームの集合から冗長タームを削除する段階をさらに含む、付記23に記載の方法。
(付記31) 候補タームが検索タームに対して有すべき要求される関係性の程度を受け取るグラフィカル要素を表示する段階をさらに含む、付記23に記載の方法。
(付記32) 前記目標検索タームに対応するクラスターから目標検索タームとの類似性が高い候補タームを特定する段階により、前記複数の候補タームを選択する段階をさらに含む、付記23に記載の方法。
(付記33) 類似性に応じて前記複数の候補タームを選択する段階であって、前記類似性は、類似性、平均類似性、有向類似性、及び差分類似性よりなるグループから選択した1つ以上の類似性をさらに含む段階を含む、付記23に記載の方法。
(付記34) 実行したとき
検索のための一組の目標検索タームを受け取る段階と、
複数の候補タームを選択する段階であって、前記検索のオントロジー空間を減縮するように候補タームを選択する段階と、
前記候補タームを検索タームとして推奨するコンピュータに前記候補タームを送る段階と
を実行するソフトウェアをエンコードしたコンピュータ読み取り可能有体媒体。
(付記35) 前記ソフトウェアは、
類似性に応じて前記複数の候補タームを選択する段階であって、目標検索タームとの類似性が高く、その他のタームとの類似性が低い候補タームを選択する段階により複数の候補タームを選択する、付記34に記載のコンピュータ読み取り可能有体媒体。
(付記36) 前記ソフトウェアは実行されたとき、
前記候補タームのうちの1つ以上のタームの選択を受け取る段階と、
前記選択された1つ以上のタームを前記目標検索タームの集合に追加する段階と、
前記目標検索タームの集合により次の複数のタームを選択する段階とを含む、
付記34に記載のコンピュータ読み取り可能有体媒体。
(付記37) 前記ソフトウェアは実行されたとき、
前記候補タームのうちの1つ以上のタームの選択を受け取る段階と、
前記選択された1つ以上のタームとの類似度が高い次の複数のタームを選択する段階とを実行する、付記34に記載のコンピュータ読み取り可能有体媒体。
(付記38) 前記ソフトウェアは実行されたとき、
前記候補タームのうちの1つ以上のタームの選択を受け取る段階と、
拒絶された1つ以上のタームを特定する段階と、
前記拒絶された1つ以上のタームとの類似度が低い次の複数のタームを選択する段階とをさらに実行する、付記34に記載のコンピュータ読み取り可能有体媒体。
(付記39) 前記ソフトウェアは
ユーザ入力とコンピュータ分析とよりなるグループから選択されたソースから前記目標検索タームの集合の一目標検索タームを受け取る段階と、
前記目標検索タームの前記ソースを記録する段階と
により前記検索の前記目標検索タームの集合を受け取る、付記34に記載のコンピュータ読み取り可能有体媒体。
(付記40) 前記ソフトウェアは実行されたとき、
前記目標検索タームの集合の各目標検索タームのソースを決定(establish)する段階と、
目標検索タームと関連する複数の検索結果を検索する段階と、
前記目標検索タームのソースに応じて前記検索結果をランク付けする段階とをさらに実行する、付記34に記載のコンピュータ読み取り可能有体媒体。
(付記41) 前記ソフトウェアは実行されたとき、
前記目標検索タームの集合から冗長タームを削除する段階をさらに実行する、付記34に記載のコンピュータ読み取り可能有体媒体。
(付記42) 前記ソフトウェアは実行されたとき、
候補タームが検索タームに対して有すべき要求される関係性の程度を受け取るグラフィカル要素を表示する段階をさらに含む、付記34に記載のコンピュータ読み取り可能有体媒体。
(付記43) 前記ソフトウェアは、実行されたとき、
前記目標検索タームに対応するクラスターから目標検索タームとの類似性が高い候補タームを特定する段階により類似性に応じて前記複数の候補タームを選択する、付記34に記載のコンピュータ読み取り可能有体媒体。
(付記44) 前記ソフトウェアは、実行されたとき、類似性に応じて前記複数の候補タームを選択し、前記類似性は、類似性、平均類似性、有向類似性、及び差分類似性よりなるグループから選択した1つ以上の類似性をさらに含む、付記34に記載のコンピュータ読み取り可能有体媒体。
22 サーバ
24 メモリ
26 ディシジョン・ダイアグラム・エンジン
30 類似性モジュール
31 クラスタリングモジュール
32 オントロジー特性モジュール
34 類似性計算器
35 タギングモジュール
38 オントロジー生成器
42 類似性マトリックス生成器
46 類似性グラフ生成器
48 ワード推奨器
50 ページ
54 レコード
58 インデックス
62 逆インデックス
66 オントロジー
67 クラスター
210 クラスタリングエンジン
214 クラスタ分析器
230 深さエンジン
240 テーマエンジン
244 具体性エンジン
250 オントロジー特性アプリケーションモジュール
310 トピックモデル部
314 タグ部
Claims (7)
- 第1のコンピュータが、
有体媒体に記憶された文書にアクセスする段階と、
前記文書に対する一組の目標タグを受け取る段階と、
類似性に応じて複数のタームを選択する段階であって、前記複数のタームの各々は、前記目標タグとの類似性が高く、前記複数のタームに含まれる他のタームとの類似性が低く、前記複数のタームを選択することにより前記文書のオントロジー空間を減縮し、前記類似性は、有向類似性、及び差分類似性よりなるグループから選択した1つ以上の類似性を含む、段階と、
前記タームをタグとして推奨する第2のコンピュータに前記タームを送る段階とを含む方法。 - 前記第1のコンピュータが、
前記推奨されたタームのうちの1つ以上のタームの選択を受け取る段階と、
前記選択された1つ以上のタームを前記目標タグの集合に追加する段階と、
前記目標タグの集合により次の複数のタームを選択する段階とをさらに含む、請求項1に記載の方法。 - 前記第1のコンピュータが、
前記推奨されたタームのうちの1つ以上のタームの選択を受け取る段階と、
前記選択された1つ以上のタームとの類似度が高い次の複数のタームを選択する段階とをさらに含む、請求項1に記載の方法。 - 前記第1のコンピュータが、
前記推奨されたタームのうちの1つ以上のタームの選択を受け取る段階と、
拒絶された1つ以上のタームを特定する段階と、
前記拒絶された1つ以上のタームとの類似度が低い次の複数のタームを選択する段階とをさらに含む、請求項1に記載の方法。 - 前記文書に対する一組の目標タグを受け取る段階は、
前記第1のコンピュータが、
ユーザ入力とコンピュータ分析とよりなるグループから選択されたソースから前記目標タグの集合の一目標タグを受け取る段階と、
前記目標タグの前記ソースを記録する段階とをさらに含む、
請求項1に記載の方法。 - 前記第1のコンピュータが、
前記目標タグの集合の各目標タグのソースを決定する段階と、
目標タグと関連する複数の検索結果を検索する段階と、
前記目標タグのソースに応じて前記検索結果をランク付けする段階とをさらに含む、
請求項1に記載の方法。 - 実行したとき、
有体媒体に記憶された文書にアクセスする段階と、
前記文書に対する一組の目標タグを受け取る段階と、
類似性に応じて複数のタームを選択する段階であって、前記複数のタームの各々は、前記目標タグとの類似性が高く、前記複数のタームに含まれる他のタームとの類似性が低く、前記複数のタームを選択することにより前記文書のオントロジー空間を減縮し、前記類似性は、有向類似性、及び差分類似性よりなるグループから選択した1つ以上の類似性を含む、段階と、
前記タームをタグとして推奨するコンピュータに前記タームを送る段階と
を実行するソフトウェアを記録したコンピュータ読み取り可能記録媒体。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US97793407P | 2007-10-05 | 2007-10-05 | |
US60/977,934 | 2007-10-05 | ||
US12/243,050 US9081852B2 (en) | 2007-10-05 | 2008-10-01 | Recommending terms to specify ontology space |
US12/243,050 | 2008-10-01 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009093649A JP2009093649A (ja) | 2009-04-30 |
JP5391633B2 true JP5391633B2 (ja) | 2014-01-15 |
Family
ID=40139943
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008259629A Active JP5391633B2 (ja) | 2007-10-05 | 2008-10-06 | オントロジー空間を規定するタームの推奨 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9081852B2 (ja) |
EP (1) | EP2045740A1 (ja) |
JP (1) | JP5391633B2 (ja) |
CN (1) | CN101408887B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019153056A (ja) * | 2018-03-02 | 2019-09-12 | 富士ゼロックス株式会社 | 情報処理装置、及び情報処理プログラム |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8452725B2 (en) * | 2008-09-03 | 2013-05-28 | Hamid Hatami-Hanza | System and method of ontological subject mapping for knowledge processing applications |
US8606796B2 (en) * | 2008-09-15 | 2013-12-10 | Kilac, LLC | Method and system for creating a data profile engine, tool creation engines and product interfaces for identifying and analyzing files and sections of files |
US10318603B2 (en) * | 2008-12-04 | 2019-06-11 | International Business Machines Corporation | Reciprocal tags in social tagging |
JP5292336B2 (ja) * | 2010-02-19 | 2013-09-18 | 日本電信電話株式会社 | 検索システムユーザの分野ごとにおける知識量推定装置、知識量推定方法および知識量推定プログラム |
US20130185099A1 (en) * | 2010-09-30 | 2013-07-18 | Koninklijke Philips Electronics N.V. | Medical query refinement system |
CN102541921A (zh) * | 2010-12-24 | 2012-07-04 | 华东师范大学 | 一种通过扩展标签推荐资源的控制方法及装置 |
CN102637173B (zh) * | 2011-02-10 | 2015-09-02 | 北京百度网讯科技有限公司 | 网络百科内容形成方法、网络服务器和客户端 |
CN103392177B (zh) * | 2011-02-25 | 2018-01-05 | 英派尔科技开发有限公司 | 本体扩展 |
CN102768661B (zh) * | 2011-05-05 | 2014-12-17 | 株式会社理光 | 从多个网页中抽取对象和网页的方法和设备 |
US8843497B2 (en) * | 2012-02-09 | 2014-09-23 | Linkshare Corporation | System and method for association extraction for surf-shopping |
US9336302B1 (en) | 2012-07-20 | 2016-05-10 | Zuci Realty Llc | Insight and algorithmic clustering for automated synthesis |
CN102831185A (zh) * | 2012-08-01 | 2012-12-19 | 北京百度网讯科技有限公司 | 一种词条推荐方法及装置 |
US20140250376A1 (en) * | 2013-03-04 | 2014-09-04 | Microsoft Corporation | Summarizing and navigating data using counting grids |
US9262510B2 (en) | 2013-05-10 | 2016-02-16 | International Business Machines Corporation | Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries |
CN103218458B (zh) * | 2013-05-13 | 2016-12-28 | 百度在线网络技术(北京)有限公司 | 推荐方法及推荐服务器 |
CN104252487B (zh) * | 2013-06-28 | 2019-05-03 | 百度在线网络技术(北京)有限公司 | 一种用于生成词条信息的方法和装置 |
US9251136B2 (en) | 2013-10-16 | 2016-02-02 | International Business Machines Corporation | Document tagging and retrieval using entity specifiers |
US9235638B2 (en) | 2013-11-12 | 2016-01-12 | International Business Machines Corporation | Document retrieval using internal dictionary-hierarchies to adjust per-subject match results |
US9444819B2 (en) * | 2014-01-16 | 2016-09-13 | International Business Machines Corporation | Providing context-based visibility of cloud resources in a multi-tenant environment |
US9390196B2 (en) | 2014-06-03 | 2016-07-12 | International Business Machines Corporation | Adjusting ranges of directed graph ontologies across multiple dimensions |
CN104317867B (zh) * | 2014-10-17 | 2018-02-09 | 上海交通大学 | 对搜索引擎返回的网页图片进行实体聚类的系统 |
JP6429382B2 (ja) * | 2015-01-05 | 2018-11-28 | 日本放送協会 | コンテンツ推薦装置、及びプログラム |
JP2016157290A (ja) * | 2015-02-25 | 2016-09-01 | 富士通株式会社 | 文書検索装置、文書検索方法、および文書検索プログラム |
US10248718B2 (en) * | 2015-07-04 | 2019-04-02 | Accenture Global Solutions Limited | Generating a domain ontology using word embeddings |
US10496691B1 (en) | 2015-09-08 | 2019-12-03 | Google Llc | Clustering search results |
US10650305B2 (en) * | 2016-07-08 | 2020-05-12 | Baidu Usa Llc | Systems and methods for relation inference |
CN106452855B (zh) * | 2016-09-28 | 2020-03-17 | 网易(杭州)网络有限公司 | 一种文章标签添加方法和装置 |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
US10402491B2 (en) | 2016-12-21 | 2019-09-03 | Wipro Limited | System and method for creating and building a domain dictionary |
CN110019656A (zh) * | 2017-07-26 | 2019-07-16 | 上海颐为网络科技有限公司 | 一种新建词条相关内容智能推送方法和系统 |
CN111316259A (zh) * | 2017-08-10 | 2020-06-19 | 邓白氏公司 | 用于反馈和裁定的语义属性的动态合成和瞬时聚簇的系统和方法 |
US10747756B2 (en) * | 2017-09-28 | 2020-08-18 | Oracle International Corporation | Recommending fields for a query based on prior queries |
WO2019228065A1 (en) * | 2018-06-01 | 2019-12-05 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for processing queries |
US11416562B1 (en) | 2021-04-23 | 2022-08-16 | International Business Machines Corporation | Corpus expansion using lexical signatures |
Family Cites Families (65)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5907836A (en) * | 1995-07-31 | 1999-05-25 | Kabushiki Kaisha Toshiba | Information filtering apparatus for selecting predetermined article from plural articles to present selected article to user, and method therefore |
US6484168B1 (en) * | 1996-09-13 | 2002-11-19 | Battelle Memorial Institute | System for information discovery |
US6023676A (en) * | 1996-12-12 | 2000-02-08 | Dspc Israel, Ltd. | Keyword recognition system and method |
US6038560A (en) * | 1997-05-21 | 2000-03-14 | Oracle Corporation | Concept knowledge base search and retrieval system |
US6175829B1 (en) | 1998-04-22 | 2001-01-16 | Nec Usa, Inc. | Method and apparatus for facilitating query reformulation |
US6832350B1 (en) * | 1998-09-30 | 2004-12-14 | International Business Machines Corporation | Organizing and categorizing hypertext document bookmarks by mutual affinity based on predetermined affinity criteria |
US6397205B1 (en) * | 1998-11-24 | 2002-05-28 | Duquesne University Of The Holy Ghost | Document categorization and evaluation via cross-entrophy |
US6665681B1 (en) | 1999-04-09 | 2003-12-16 | Entrieva, Inc. | System and method for generating a taxonomy from a plurality of documents |
US7225182B2 (en) | 1999-05-28 | 2007-05-29 | Overture Services, Inc. | Recommending search terms using collaborative filtering and web spidering |
US6990628B1 (en) * | 1999-06-14 | 2006-01-24 | Yahoo! Inc. | Method and apparatus for measuring similarity among electronic documents |
US6519586B2 (en) | 1999-08-06 | 2003-02-11 | Compaq Computer Corporation | Method and apparatus for automatic construction of faceted terminological feedback for document retrieval |
US6587848B1 (en) * | 2000-03-08 | 2003-07-01 | International Business Machines Corporation | Methods and apparatus for performing an affinity based similarity search |
JP2001256253A (ja) * | 2000-03-13 | 2001-09-21 | Kddi Corp | 文書フィルタリング方法および装置 |
WO2001090921A2 (en) * | 2000-05-25 | 2001-11-29 | Kanisa, Inc. | System and method for automatically classifying text |
US6687696B2 (en) * | 2000-07-26 | 2004-02-03 | Recommind Inc. | System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models |
US6675159B1 (en) * | 2000-07-27 | 2004-01-06 | Science Applic Int Corp | Concept-based search and retrieval system |
US6895406B2 (en) * | 2000-08-25 | 2005-05-17 | Seaseer R&D, Llc | Dynamic personalization method of creating personalized user profiles for searching a database of information |
AUPR033800A0 (en) * | 2000-09-25 | 2000-10-19 | Telstra R & D Management Pty Ltd | A document categorisation system |
US6766316B2 (en) * | 2001-01-18 | 2004-07-20 | Science Applications International Corporation | Method and system of ranking and clustering for document indexing and retrieval |
US7133862B2 (en) * | 2001-08-13 | 2006-11-07 | Xerox Corporation | System with user directed enrichment and import/export control |
US7096218B2 (en) | 2002-01-14 | 2006-08-22 | International Business Machines Corporation | Search refinement graphical user interface |
JP2003241790A (ja) * | 2002-02-13 | 2003-08-29 | Internatl Business Mach Corp <Ibm> | 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム |
US20030182168A1 (en) * | 2002-03-22 | 2003-09-25 | Martha Lyons | Systems and methods for virtual, real-time affinity diagramming collaboration by remotely distributed teams |
US7139695B2 (en) * | 2002-06-20 | 2006-11-21 | Hewlett-Packard Development Company, L.P. | Method for categorizing documents by multilevel feature selection and hierarchical clustering based on parts of speech tagging |
JP4093012B2 (ja) * | 2002-10-17 | 2008-05-28 | 日本電気株式会社 | ハイパーテキスト検査装置および方法並びにプログラム |
US7398269B2 (en) * | 2002-11-15 | 2008-07-08 | Justsystems Evans Research Inc. | Method and apparatus for document filtering using ensemble filters |
US6873996B2 (en) | 2003-04-16 | 2005-03-29 | Yahoo! Inc. | Affinity analysis method and article of manufacture |
US7734627B1 (en) * | 2003-06-17 | 2010-06-08 | Google Inc. | Document similarity detection |
GB2403636A (en) | 2003-07-02 | 2005-01-05 | Sony Uk Ltd | Information retrieval using an array of nodes |
US7634482B2 (en) * | 2003-07-11 | 2009-12-15 | Global Ids Inc. | System and method for data integration using multi-dimensional, associative unique identifiers |
US8014997B2 (en) * | 2003-09-20 | 2011-09-06 | International Business Machines Corporation | Method of search content enhancement |
US8676830B2 (en) * | 2004-03-04 | 2014-03-18 | Yahoo! Inc. | Keyword recommendation for internet search engines |
US8788492B2 (en) * | 2004-03-15 | 2014-07-22 | Yahoo!, Inc. | Search system and methods with integration of user annotations from a trust network |
US20060155751A1 (en) * | 2004-06-23 | 2006-07-13 | Frank Geshwind | System and method for document analysis, processing and information extraction |
US7266548B2 (en) * | 2004-06-30 | 2007-09-04 | Microsoft Corporation | Automated taxonomy generation |
US20060053382A1 (en) * | 2004-09-03 | 2006-03-09 | Biowisdom Limited | System and method for facilitating user interaction with multi-relational ontologies |
US20060074836A1 (en) * | 2004-09-03 | 2006-04-06 | Biowisdom Limited | System and method for graphically displaying ontology data |
US7496593B2 (en) * | 2004-09-03 | 2009-02-24 | Biowisdom Limited | Creating a multi-relational ontology having a predetermined structure |
US20060080315A1 (en) * | 2004-10-08 | 2006-04-13 | The Greentree Group | Statistical natural language processing algorithm for use with massively parallel relational database management system |
US7805300B2 (en) | 2005-03-21 | 2010-09-28 | At&T Intellectual Property Ii, L.P. | Apparatus and method for analysis of language model changes |
US8346757B1 (en) * | 2005-03-28 | 2013-01-01 | Google Inc. | Determining query terms of little significance |
US7870147B2 (en) | 2005-03-29 | 2011-01-11 | Google Inc. | Query revision using known highly-ranked queries |
US7636714B1 (en) * | 2005-03-31 | 2009-12-22 | Google Inc. | Determining query term synonyms within query context |
US7844566B2 (en) | 2005-04-26 | 2010-11-30 | Content Analyst Company, Llc | Latent semantic clustering |
US7912701B1 (en) * | 2005-05-04 | 2011-03-22 | IgniteIP Capital IA Special Management LLC | Method and apparatus for semiotic correlation |
US20060259475A1 (en) * | 2005-05-10 | 2006-11-16 | Dehlinger Peter J | Database system and method for retrieving records from a record library |
WO2007002412A2 (en) * | 2005-06-22 | 2007-01-04 | Affiniti, Inc. | Systems and methods for retrieving data |
US20080005064A1 (en) * | 2005-06-28 | 2008-01-03 | Yahoo! Inc. | Apparatus and method for content annotation and conditional annotation retrieval in a search context |
US9715542B2 (en) | 2005-08-03 | 2017-07-25 | Search Engine Technologies, Llc | Systems for and methods of finding relevant documents by analyzing tags |
US8312021B2 (en) * | 2005-09-16 | 2012-11-13 | Palo Alto Research Center Incorporated | Generalized latent semantic analysis |
US8688673B2 (en) * | 2005-09-27 | 2014-04-01 | Sarkar Pte Ltd | System for communication and collaboration |
US7792858B2 (en) * | 2005-12-21 | 2010-09-07 | Ebay Inc. | Computer-implemented method and system for combining keywords into logical clusters that share similar behavior with respect to a considered dimension |
US7685198B2 (en) * | 2006-01-25 | 2010-03-23 | Yahoo! Inc. | Systems and methods for collaborative tag suggestions |
US8630627B2 (en) * | 2006-02-14 | 2014-01-14 | Sri International | Method and apparatus for processing messages in a social network |
US20070282684A1 (en) * | 2006-05-12 | 2007-12-06 | Prosser Steven H | System and Method for Determining Affinity Profiles for Research, Marketing, and Recommendation Systems |
KR20090028713A (ko) * | 2006-05-19 | 2009-03-19 | 마이 버추얼 모델 아이엔씨. | 시뮬레이션 보조형 검색 |
US8196039B2 (en) * | 2006-07-07 | 2012-06-05 | International Business Machines Corporation | Relevant term extraction and classification for Wiki content |
WO2008032780A1 (fr) * | 2006-09-14 | 2008-03-20 | Nec Corporation | Procédé de recherche, procédé de calcul de similarité, calcul de similarité, système d'appariement de mêmes documents et programme de ceux-ci |
US7895210B2 (en) | 2006-09-29 | 2011-02-22 | Battelle Memorial Institute | Methods and apparatuses for information analysis on shared and distributed computing systems |
US7974976B2 (en) * | 2006-11-09 | 2011-07-05 | Yahoo! Inc. | Deriving user intent from a user query |
US20080201632A1 (en) * | 2007-02-16 | 2008-08-21 | Palo Alto Research Center Incorporated | System and method for annotating documents |
US7685200B2 (en) * | 2007-03-01 | 2010-03-23 | Microsoft Corp | Ranking and suggesting candidate objects |
US20080235216A1 (en) * | 2007-03-23 | 2008-09-25 | Ruttenberg Steven E | Method of predicitng affinity between entities |
US8019707B2 (en) * | 2007-09-20 | 2011-09-13 | Deutsche Telekom Ag | Interactive hybrid recommender system |
US7536637B1 (en) * | 2008-02-07 | 2009-05-19 | International Business Machines Corporation | Method and system for the utilization of collaborative and social tagging for adaptation in web portals |
-
2008
- 2008-10-01 US US12/243,050 patent/US9081852B2/en active Active
- 2008-10-03 EP EP08165841A patent/EP2045740A1/en not_active Withdrawn
- 2008-10-06 CN CN200810166182.4A patent/CN101408887B/zh active Active
- 2008-10-06 JP JP2008259629A patent/JP5391633B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019153056A (ja) * | 2018-03-02 | 2019-09-12 | 富士ゼロックス株式会社 | 情報処理装置、及び情報処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
CN101408887B (zh) | 2015-06-17 |
US20090094020A1 (en) | 2009-04-09 |
US9081852B2 (en) | 2015-07-14 |
JP2009093649A (ja) | 2009-04-30 |
CN101408887A (zh) | 2009-04-15 |
EP2045740A1 (en) | 2009-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5391633B2 (ja) | オントロジー空間を規定するタームの推奨 | |
JP5391634B2 (ja) | 文書の段落分析によるその文書のタグの選択 | |
US9317593B2 (en) | Modeling topics using statistical distributions | |
JP5423030B2 (ja) | ワードセットに関係するワードの決定 | |
JP5353173B2 (ja) | 文書の具体性の決定 | |
JP5332477B2 (ja) | ターム階層の自動生成 | |
US8108405B2 (en) | Refining a search space in response to user input | |
JP5391632B2 (ja) | ワードと文書の深さの決定 | |
Lin et al. | Knowledge map creation and maintenance for virtual communities of practice | |
Kaptein et al. | Exploiting the category structure of Wikipedia for entity ranking | |
Wang et al. | Answer selection and expert finding in community question answering services: A question answering promoter | |
Zaware et al. | Text summarization using tf-idf and textrank algorithm | |
Irshad et al. | SwCS: Section-Wise Content Similarity Approach to Exploit Scientific Big Data. | |
EP2090992A2 (en) | Determining words related to a given set of words | |
Kathiria et al. | DOCUMENT ANALYSIS FOR TREND ESTIMATION OF RESEARCH SCENARIO IN INDIAN UNIVERSITIES | |
Basili et al. | Automatic text categorization | |
Birkute | Amharic Document Categorization Using Itemsets Method | |
Huang et al. | Solving the “Who’s Mark Johnson Puzzle”: Information Extraction Based Cross Document Coreference |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110708 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130305 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130502 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130625 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130816 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130917 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130930 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5391633 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |