JP5391634B2 - 文書の段落分析によるその文書のタグの選択 - Google Patents
文書の段落分析によるその文書のタグの選択 Download PDFInfo
- Publication number
- JP5391634B2 JP5391634B2 JP2008259630A JP2008259630A JP5391634B2 JP 5391634 B2 JP5391634 B2 JP 5391634B2 JP 2008259630 A JP2008259630 A JP 2008259630A JP 2008259630 A JP2008259630 A JP 2008259630A JP 5391634 B2 JP5391634 B2 JP 5391634B2
- Authority
- JP
- Japan
- Prior art keywords
- tag
- relationship
- similarity
- document
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Description
[関連出願]
本願は、デイビッド・マービットらにより2007年10月5日に出願された米国仮出願第60/977,877号、発明の名称「段落及びカテゴリー分析に基づくタグ付け」、代理人管理番号第073338.0553号の米国特許法第119条(e)項の利益を主張するものである。
一実施形態では、文書へのタグの付与はその文書へのアクセスを含む。文書はワードを含むテキスト単位よりなる。各テキスト単位に対して次の段階を実行する。一テキスト単位のワードの一部をタグ候補として選択し、タグ候補間の関係性(relatedness)を求め、求めた関係性の程度に応じてタグ候補を選択し、そのテキスト単位のタグ候補集合を生成する。各タグ候補集合のタグ候補と他のタグ候補集合のタグ候補の間の関係性(relatedness)を決定する。決定した関係性に応じて、少なくとも1つのタグ候補を文書に付与する。例えば、その文書に最も関係するある数のタグ候補を選択し、そのタグ候補をその文書に付与することにより、一組のタグを付与する。
実施形態
図1は、文書のタグを選択するシステム10の一実施形態を示す図である。ある実施形態では、システム10は文書のテキスト単位(段落など)を分析することによりタグを選択する。この実施形態では、システム10はテキスト単位のワードから各テキストの一組のタグ候補を特定する。システム10は、相異なるタグ候補集合のタグ候補の関係性を比較して、その関係性によりその文書のタグを選択する。
図9は、文書に付与するタグを選択するタギングモジュール35の一実施形態を示す図である。タグは任意の適切な方法で選択することができる。ある実施形態では、タギングモジュール35はトピックス(またはテーマ)をそれに関係するワードの統計的分布としてモデル化する。タギングモジュール35は統計的分布を用いて、文書のランキングが高いワードが出現する確率が最も高いトピックスを特定し、そのトピックスに応じてその文書のタグを選択する。図示した実施形態では、タギングモジュール35はトピックモデル部310と文書タグ部314とを含む。ある実施形態では、トピックモデル部310はトピックスをモデル化する統計的分布を生成し、文書タグ部314はその統計的分布に基づきタグを選択する。トピックモデル部310と文書タグ部314は任意の適切な方法を用いてトピックのモデル化とタグの選択を行う。図10を参照して方法の例を説明する。
ステップ462における発展段階では、文書タグ部314は推奨されたタームと選択されたタームとの差を評価して、新しいタームを推奨する。文書タグ部314は、選択されたタームとの類似性(例えば有向類似性や差分類似性)が高いターム、または拒絶されたタームとの類似性が低いタームを推奨し、拒絶されたタームとの類似性が高いタームや選択されたタームとの類似性が低いタームは推奨しない。ある実施形態では、文書タグ部314はオントロジ的に冗長なタグは削除する。タグは、任意の適切な繰り返し回数(例えば、1回乃至5回、6回乃至10回、10回以上)で推奨及び選択される。
(付記1) 有体媒体に格納された文書にアクセスする段階であって、前記文書は複数のテキスト単位よりなり、前記テキスト単位は複数のワードを含み、前記複数のワードは複数のキーワードを含む段階と、
各テキスト単位に対して、各テキスト単位のキーワード間の関係性を求め、求めた関係性によりタグ候補としてキーワードを選択し、各テキスト単位のタグ候補集合を生成する段階と、
各タグ候補集合のタグ候補と他のタグ候補集合のタグ候補との間の関係性を決定する段階と、
決定した関係性により前記文書に少なくとも1つのタグ候補を付与する段階とを含む
方法。
(付記2) 一ランキング法により各テキスト単位の前記複数のワードをランキングする段階と、
各テキスト単位の前記キーワードとしてランキングが高いワードを選択する段階とをさらに含む、
付記1に記載の方法。
(付記3) 関係性により各テキスト単位のキーワードを選択する段階は、
前記キーワードをクラスタ化して複数のクラスタを生成する段階と、
クラスタのキーワードの関係性が高いと示す段階とを含む、
付記1に記載の方法。
(付記4) 各テキスト単位に対して、各テキスト単位のキーワード間の関係性を求め、求めた関係性によりタグ候補としてキーワードを選択し、各テキスト単位のタグ候補集合を生成する段階は、
一ランキング法により前記キーワードをランキングする段階と、
ランキングが最も高いキーワードをルートタグとして選択する段階とを含む、
付記1に記載の方法。
(付記5) 各テキスト単位に対して、各テキスト単位のキーワード間の関係性を求め、求めた関係性によりタグ候補としてキーワードを選択し、各テキスト単位のタグ候補集合を生成する段階は、他のタグ候補との関係性が十分高くないタグ候補を削除する段階を含む、
付記1に記載の方法。
(付記6) 各タグ候補集合のタグ候補と他のタグ候補集合のタグ候補との間の関係性を決定する段階は、各タグ候補集合のタグ候補のプロファイルであって、前記タグ候補と、他のタグ候補集合のタグ候補との間の関係性を示すプロファイルを生成する段階を含む、
付記1に記載の方法。
(付記7) 各タグ候補集合のタグ候補と他のタグ候補集合のタグ候補との間の関係性を決定する段階は、
タグ候補を含むタグ候補集合の数を決定し、
前記数から前記プロファイルを生成する
ことにより各タグ候補集合の候補タグのプロファイルを生成する、
付記1に記載の方法。
(付記8) 各タグ候補集合のタグ候補と他のタグ候補集合のタグ候補との間の関係性を決定する段階は、
第2のルートタグを有する前記他のタグ候補集合のそれぞれについて、第1のルートタグが与えられたときの前記第2のルートタグの類似性を決定し、前記重みと前記類似性を乗算して関係性値を計算し、複数の関係性値を求め、
前記複数の関係性値から前記プロファイルを生成することにより、
前記第1のルートタグを有する各タグ候補集合の、重みを付与された候補タグのプロファイルを生成する段階をさらに含む、
付記1に記載の方法。
(付記9) 各タグ候補集合のタグ候補と他のタグ候補集合のタグ候補との間の関係性を決定する段階は、
前記他のタグ候補集合のそれぞれについて、前記他のタグ候補集合の第2のタグ候補に対して、前記第1のタグ候補を与えられたときに、前記第2のタグ候補の類似性を決定して複数の類似性を求め、前記類似性を結合し、
前記結合した類似性から前記プロファイルを生成することにより
各タグ候補集合の第1の候補タグのプロファイルを生成する段階を含む、
付記1に記載の方法。
(付記10) 決定した関係性により前記文書に少なくとも1つのタグ候補を付与する段階は、前記他のタグ候補との関係性が最も高い少なくとも1つのタグ候補を付与する段階をさらに含む、
付記1に記載の方法。
(付記11) 実行したとき、
有体媒体に格納された文書にアクセスする段階であって、前記文書は複数のテキスト単位よりなり、前記テキスト単位は複数のワードを含み、前記複数のワードは複数のキーワードを含む段階と、
各テキスト単位に対して、各テキスト単位のキーワード間の関係性を求め、求めた関係性によりタグ候補としてキーワードを選択し、各テキスト単位のタグ候補集合を生成する段階と、
各タグ候補集合のタグ候補と他のタグ候補集合のタグ候補との間の関係性を決定する段階と、
決定した関係性により前記文書に少なくとも1つのタグ候補を付与する段階と
を実行するソフトウェアをエンコードしたコンピュータ読み取り可能有体媒体。
(付記12) 一ランキング法により各テキスト単位の前記複数のワードをランキングする段階と、
各テキスト単位の前記キーワードとしてランキングが高いワードを選択する段階とをさらに実行させる、
付記11に記載のコンピュータ読み取り可能有体媒体。
(付記13) 前記キーワードをクラスタ化して複数のクラスタを生成し、
クラスタのキーワードの関係性が高いと示すことにより、
関係性により各テキスト単位のキーワードを選択する、
付記11に記載のコンピュータ読み取り可能有体媒体。
(付記14) 一ランキング法により前記キーワードをランキングし、
ランキングが最も高いキーワードをルートタグとして選択することにより、
各テキスト単位に対して、各テキスト単位のキーワード間の関係性を求め、求めた関係性によりタグ候補としてキーワードを選択し、各テキスト単位のタグ候補集合を生成する、付記11に記載のコンピュータ読み取り可能有体媒体。
(付記15) 他のタグ候補との関係性が十分高くないタグ候補を削除することにより、各テキスト単位に対して、各テキスト単位のキーワード間の関係性を求め、求めた関係性によりタグ候補としてキーワードを選択し、各テキスト単位のタグ候補集合を生成する、
付記11に記載のコンピュータ読み取り可能有体媒体。
(付記16) 各タグ候補集合のタグ候補のプロファイルであって、前記タグ候補と、他のタグ候補集合のタグ候補との間の関係性を示すプロファイルを生成することにより、各タグ候補集合のタグ候補と他のタグ候補集合のタグ候補との間の関係性を決定する、付記11に記載のコンピュータ読み取り可能有体媒体。
(付記17) タグ候補を含むタグ候補集合の数を決定し、
前記数から前記プロファイルを生成することにより、
各タグ候補集合のタグ候補のプロファイルを生成することにより、前記タグ候補集合のタグ候補と、前記他のタグ候補集合のタグ候補との間の関係性を決定する、
付記11に記載のコンピュータ読み取り可能有体媒体。
(付記18) 第2のルートタグを有する前記他のタグ候補集合のそれぞれについて、前記第1のルートタグが与えられたときの前記第2のルートタグの類似性を決定し、前記重みと前記類似性を乗算して関係性値を計算して複数の関係性値を求め、
前記複数の関係性値から前記プロファイルを生成することにより
第1のルートタグを有する各タグ候補集合の、重みを付与された候補タグのプロファイルを生成することにより、各タグ候補集合のタグ候補と他のタグ候補集合のタグ候補との間の関係性を決定する、
付記11に記載のコンピュータ読み取り可能有体媒体。
(付記19) 前記他のタグ候補集合のそれぞれについて、前記他のタグ候補集合の第2のタグ候補に対して、前記第1のタグ候補を与えられたときに、前記第2のタグ候補の類似性を決定して複数の類似性を求め、前記類似性を結合し、
前記結合した類似性から前記プロファイルを生成することにより、
各タグ候補集合の候補タグのプロファイルを生成することにより、各タグ候補集合のタグ候補と他のタグ候補集合のタグ候補との間の関係性を決定する、
付記11に記載のコンピュータ読み取り可能有体媒体。
(付記20) 前記他のタグ候補との関係性が最も高い少なくとも1つのタグ候補を付与することにより、決定した関係性により前記文書に少なくとも1つのタグ候補を付与する、
付記11に記載のコンピュータ読み取り可能有体媒体。
(付記21) 有体媒体に格納された文書にアクセスする手段であって、前記文書は複数のテキスト単位よりなり、前記テキスト単位は複数のワードを含み、前記複数のワードは複数のキーワードを含む手段と、
各テキスト単位に対して、各テキスト単位のキーワード間の関係性を求め、求めた関係性によりタグ候補としてキーワードを選択し、各テキスト単位のタグ候補集合を生成する手段と、
各タグ候補集合のタグ候補と他のタグ候補集合のタグ候補との間の関係性を決定する手段と、
決定した関係性により前記文書に少なくとも1つのタグ候補を付与する手段と
を含むシステム。
20 クライアント
22 サーバ
24 メモリ
30 類似性モジュール
31 クラスタリングモジュール
32 オントロジ特性モジュール
34 類似性計算器
35 タギングモジュール
38 オントロジ生成器
42 類似性マトリクス生成器
46 類似性グラフ生成器
48 ワード推奨器
50 ページ
54 レコード
58 インデックス
62 逆インデックス
66 オントロジ
67 クラスタ
210 クラスタリングエンジン
214 クラスタ分析器
230 深さエンジン
240 テーマエンジン
244 具体性エンジン
250 オントロジ特性アプリケーションエンジン
310 トピックモデル部
314 タグ部
Claims (8)
- コンピュータが、
有体媒体に格納された文書にアクセスする段階であって、前記文書は複数のテキスト単位よりなり、前記テキスト単位は複数のワードを含み、前記複数のワードは複数のキーワードを含む段階と、
各テキスト単位に対して、各テキスト単位のキーワード間の関係性を求め、求めた関係性によりタグ候補としてキーワードを選択し、各テキスト単位のタグ候補集合を生成する段階と、
各タグ候補集合のタグ候補と他のタグ候補集合のタグ候補との間の関係性を決定する段階と、
決定した関係性により前記文書に少なくとも1つのタグ候補を付与する段階とを実行する方法であって、
各テキスト単位に対して、各テキスト単位のキーワード間の関係性を求め、求めた関係性によりタグ候補としてキーワードを選択し、各テキスト単位のタグ候補集合を生成する段階は、
一ランキング法により前記キーワードをランキングする段階と、
ランキングが最も高いキーワードをルートタグとして選択する段階とを含み、
各タグ候補集合のタグ候補と他のタグ候補集合のタグ候補との間の関係性を決定する段階は、
第2のルートタグを有する前記他のタグ候補集合のそれぞれについて、第1のルートタグが与えられたときの前記第2のルートタグの類似性を決定し、重みと前記類似性を乗算して関係性値を計算し、複数の関係性値を求め、
前記複数の関係性値からプロファイルを生成することにより、
前記第1のルートタグを有する各タグ候補集合の、重みを付与された候補タグのプロファイルを生成する段階をさらに含む、
方法。 - 各テキスト単位に対して、各テキスト単位のキーワード間の関係性を求め、求めた関係性によりタグ候補としてキーワードを選択し、各テキスト単位のタグ候補集合を生成する段階は、
一ランキング法により各テキスト単位の前記複数のワードをランキングする段階と、
各テキスト単位の前記キーワードとしてランキングが高いワードを選択する段階とを含む、
請求項1に記載の方法。 - 関係性により各テキスト単位のキーワードを選択する段階は、
前記キーワードをクラスタ化して複数のクラスタを生成する段階と、
クラスタを形成するキーワードは関係性が高いと示す段階とを含む、
請求項1に記載の方法。 - 各テキスト単位に対して、各テキスト単位のキーワード間の関係性を求め、求めた関係性によりタグ候補としてキーワードを選択し、各テキスト単位のタグ候補集合を生成する段階は、他のタグ候補との関係性が十分高くないタグ候補を削除する段階を含む、
請求項1に記載の方法。 - コンピュータが、
有体媒体に格納された文書にアクセスする段階であって、前記文書は複数のテキスト単位よりなり、前記テキスト単位は複数のワードを含み、前記複数のワードは複数のキーワードを含む段階と、
各テキスト単位に対して、各テキスト単位のキーワード間の関係性を求め、求めた関係性によりタグ候補としてキーワードを選択し、各テキスト単位のタグ候補集合を生成する段階と、
各タグ候補集合のタグ候補と他のタグ候補集合のタグ候補との間の関係性を決定する段階と、
決定した関係性により前記文書に少なくとも1つのタグ候補を付与する段階とを実行する方法であって、
各タグ候補集合のタグ候補と他のタグ候補集合のタグ候補との間の関係性を決定する段階は、
前記他のタグ候補集合のそれぞれについて、前記他のタグ候補集合の第2のタグ候補に対して、前記第1のタグ候補を与えられたときに、前記第2のタグ候補の類似性を決定して複数の類似性を求め、前記類似性を結合し、
前記結合した類似性からプロファイルを生成することにより
各タグ候補集合の第1の候補タグのプロファイルを生成する段階を含む、
方法。 - 決定した関係性により前記文書に少なくとも1つのタグ候補を付与する段階は、前記他のタグ候補との関係性が最も高い少なくとも1つのタグ候補を付与する段階をさらに含む、
請求項1に記載の方法。 - 実行したとき、
有体媒体に格納された文書にアクセスする段階であって、前記文書は複数のテキスト単位よりなり、前記テキスト単位は複数のワードを含み、前記複数のワードは複数のキーワードを含む段階と、
各テキスト単位に対して、各テキスト単位のキーワード間の関係性を求め、求めた関係性によりタグ候補としてキーワードを選択し、各テキスト単位のタグ候補集合を生成する段階と、
各タグ候補集合のタグ候補と他のタグ候補集合のタグ候補との間の関係性を決定する段階と、
決定した関係性により前記文書に少なくとも1つのタグ候補を付与する段階と
をコンピュータに実行させるソフトウェアを記録したコンピュータ読み取り可能記録媒体であって、
各テキスト単位に対して、各テキスト単位のキーワード間の関係性を求め、求めた関係性によりタグ候補としてキーワードを選択し、各テキスト単位のタグ候補集合を生成する段階は、
一ランキング法により前記キーワードをランキングする段階と、
ランキングが最も高いキーワードをルートタグとして選択する段階とを含み、
各タグ候補集合のタグ候補と他のタグ候補集合のタグ候補との間の関係性を決定する段階は、
第2のルートタグを有する前記他のタグ候補集合のそれぞれについて、第1のルートタグが与えられたときの前記第2のルートタグの類似性を決定し、重みと前記類似性を乗算して関係性値を計算し、複数の関係性値を求め、
前記複数の関係性値からプロファイルを生成することにより、
前記第1のルートタグを有する各タグ候補集合の、重みを付与された候補タグのプロファイルを生成する段階をさらに含む、
コンピュータ読み取り可能記録媒体。 - 有体媒体に格納された文書にアクセスする手段であって、前記文書は複数のテキスト単位よりなり、前記テキスト単位は複数のワードを含み、前記複数のワードは複数のキーワードを含む手段と、
各テキスト単位に対して、各テキスト単位のキーワード間の関係性を求め、求めた関係性によりタグ候補としてキーワードを選択し、各テキスト単位のタグ候補集合を生成する手段と、
各タグ候補集合のタグ候補と他のタグ候補集合のタグ候補との間の関係性を決定する手段と、
決定した関係性により前記文書に少なくとも1つのタグ候補を付与する手段と
を含むシステムであって、
各テキスト単位に対して、各テキスト単位のキーワード間の関係性を求め、求めた関係性によりタグ候補としてキーワードを選択し、各テキスト単位のタグ候補集合を生成する手段は、
一ランキング法により前記キーワードをランキングする手段と、
ランキングが最も高いキーワードをルートタグとして選択する手段とを含み、
各タグ候補集合のタグ候補と他のタグ候補集合のタグ候補との間の関係性を決定する手段は、
第2のルートタグを有する前記他のタグ候補集合のそれぞれについて、第1のルートタグが与えられたときの前記第2のルートタグの類似性を決定し、重みと前記類似性を乗算して関係性値を計算し、複数の関係性値を求め、
前記複数の関係性値からプロファイルを生成することにより、
前記第1のルートタグを有する各タグ候補集合の、重みを付与された候補タグのプロファイルを生成する手段をさらに含む、
システム。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US97787707P | 2007-10-05 | 2007-10-05 | |
US60/977,877 | 2007-10-05 | ||
US12/242,984 US8280892B2 (en) | 2007-10-05 | 2008-10-01 | Selecting tags for a document by analyzing paragraphs of the document |
US12/242,984 | 2008-10-01 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009093650A JP2009093650A (ja) | 2009-04-30 |
JP5391634B2 true JP5391634B2 (ja) | 2014-01-15 |
Family
ID=40524170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008259630A Active JP5391634B2 (ja) | 2007-10-05 | 2008-10-06 | 文書の段落分析によるその文書のタグの選択 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8280892B2 (ja) |
EP (1) | EP2045737A3 (ja) |
JP (1) | JP5391634B2 (ja) |
CN (1) | CN101408886B (ja) |
Families Citing this family (68)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090094189A1 (en) * | 2007-10-08 | 2009-04-09 | At&T Bls Intellectual Property, Inc. | Methods, systems, and computer program products for managing tags added by users engaged in social tagging of content |
US7941399B2 (en) | 2007-11-09 | 2011-05-10 | Microsoft Corporation | Collaborative authoring |
US8862622B2 (en) * | 2007-12-10 | 2014-10-14 | Sprylogics International Corp. | Analysis, inference, and visualization of social networks |
US8825758B2 (en) | 2007-12-14 | 2014-09-02 | Microsoft Corporation | Collaborative authoring modes |
US20090198654A1 (en) * | 2008-02-05 | 2009-08-06 | Microsoft Corporation | Detecting relevant content blocks in text |
US8301588B2 (en) | 2008-03-07 | 2012-10-30 | Microsoft Corporation | Data storage for file updates |
US8352870B2 (en) | 2008-04-28 | 2013-01-08 | Microsoft Corporation | Conflict resolution |
US8825594B2 (en) * | 2008-05-08 | 2014-09-02 | Microsoft Corporation | Caching infrastructure |
US8429753B2 (en) * | 2008-05-08 | 2013-04-23 | Microsoft Corporation | Controlling access to documents using file locks |
US8417666B2 (en) * | 2008-06-25 | 2013-04-09 | Microsoft Corporation | Structured coauthoring |
US20110087670A1 (en) * | 2008-08-05 | 2011-04-14 | Gregory Jorstad | Systems and methods for concept mapping |
US8606796B2 (en) * | 2008-09-15 | 2013-12-10 | Kilac, LLC | Method and system for creating a data profile engine, tool creation engines and product interfaces for identifying and analyzing files and sections of files |
EP2332066A4 (en) * | 2008-10-03 | 2013-07-31 | Benefitfocus Com Inc | SYSTEMS AND METHOD FOR THE AUTOMATIC PRODUCTION OF AGENT-BASED SYSTEMS |
KR101040119B1 (ko) * | 2008-10-14 | 2011-06-09 | 한국전자통신연구원 | 콘텐츠 검색 장치 및 방법 |
US8346768B2 (en) * | 2009-04-30 | 2013-01-01 | Microsoft Corporation | Fast merge support for legacy documents |
US8738361B2 (en) * | 2009-07-01 | 2014-05-27 | International Business Machines Corporation | Systems and methods for extracting patterns from graph and unstructered data |
CN101694666B (zh) * | 2009-07-17 | 2011-03-30 | 刘二中 | 文件内容的特征词的输入和处理方法 |
US20110035210A1 (en) * | 2009-08-10 | 2011-02-10 | Benjamin Rosenfeld | Conditional random fields (crf)-based relation extraction system |
KR101071700B1 (ko) | 2009-11-04 | 2011-10-11 | 동국대학교 산학협력단 | 온톨로지를 이용한 문서의 주제어 및 관련어 측정 방법 및 장치 |
JP2012027723A (ja) * | 2010-07-23 | 2012-02-09 | Sony Corp | 情報処理装置、情報処理方法及び情報処理プログラム |
US8572760B2 (en) | 2010-08-10 | 2013-10-29 | Benefitfocus.Com, Inc. | Systems and methods for secure agent information |
US8666927B2 (en) * | 2011-04-19 | 2014-03-04 | Yahoo! Inc. | System and method for mining tags using social endorsement networks |
WO2013043160A1 (en) * | 2011-09-20 | 2013-03-28 | Hewlett-Packard Development Company, L.P. | Text summarization |
US8620854B2 (en) * | 2011-09-23 | 2013-12-31 | Fujitsu Limited | Annotating medical binary decision diagrams with health state information |
US8719214B2 (en) * | 2011-09-23 | 2014-05-06 | Fujitsu Limited | Combining medical binary decision diagrams for analysis optimization |
KR20130063589A (ko) * | 2011-12-07 | 2013-06-17 | 한국전자통신연구원 | 태그 그래프를 이용한 파일 검색 장치 및 방법 |
US8909643B2 (en) * | 2011-12-09 | 2014-12-09 | International Business Machines Corporation | Inferring emerging and evolving topics in streaming text |
CN103198057B (zh) * | 2012-01-05 | 2017-11-07 | 深圳市世纪光速信息技术有限公司 | 一种自动给文档添加标签的方法和装置 |
MX2014008560A (es) | 2012-01-23 | 2014-09-26 | Microsoft Corp | Procesador de deteccion de formula. |
US8762324B2 (en) * | 2012-03-23 | 2014-06-24 | Sap Ag | Multi-dimensional query expansion employing semantics and usage statistics |
TWI548980B (zh) * | 2012-07-18 | 2016-09-11 | 宏碁股份有限公司 | 電子裝置與其電源管理方法 |
US9336302B1 (en) | 2012-07-20 | 2016-05-10 | Zuci Realty Llc | Insight and algorithmic clustering for automated synthesis |
CN102929975A (zh) * | 2012-10-15 | 2013-02-13 | 西安电子科技大学 | 基于文档标签表征的推荐方法 |
US20140149215A1 (en) * | 2012-11-29 | 2014-05-29 | Giridhar Rajaram | Determining keywords for content items |
US9330070B2 (en) | 2013-03-11 | 2016-05-03 | Microsoft Technology Licensing, Llc | Detection and reconstruction of east asian layout features in a fixed format document |
US9116894B2 (en) * | 2013-03-14 | 2015-08-25 | Xerox Corporation | Method and system for tagging objects comprising tag recommendation based on query-based ranking and annotation relationships between objects and tags |
US20140280178A1 (en) * | 2013-03-15 | 2014-09-18 | Citizennet Inc. | Systems and Methods for Labeling Sets of Objects |
CN103235773B (zh) * | 2013-04-26 | 2019-02-12 | 百度在线网络技术(北京)有限公司 | 基于关键词的文本的标签提取方法及装置 |
WO2015030214A1 (ja) * | 2013-08-29 | 2015-03-05 | コグニティ株式会社 | 情報処理装置、情報処理方法およびプログラム |
US11238056B2 (en) * | 2013-10-28 | 2022-02-01 | Microsoft Technology Licensing, Llc | Enhancing search results with social labels |
US9444819B2 (en) * | 2014-01-16 | 2016-09-13 | International Business Machines Corporation | Providing context-based visibility of cloud resources in a multi-tenant environment |
US9870432B2 (en) | 2014-02-24 | 2018-01-16 | Microsoft Technology Licensing, Llc | Persisted enterprise graph queries |
US10255563B2 (en) | 2014-03-03 | 2019-04-09 | Microsoft Technology Licensing, Llc | Aggregating enterprise graph content around user-generated topics |
CN104035995B (zh) * | 2014-06-11 | 2018-04-06 | 小米科技有限责任公司 | 群标签生成方法及装置 |
US10430501B2 (en) | 2015-09-18 | 2019-10-01 | International Business Machines Corporation | Mapping of documents with global tagging map |
US10748116B2 (en) * | 2015-10-16 | 2020-08-18 | Dell Products L.P. | Test vector generation from documentation |
US10725800B2 (en) | 2015-10-16 | 2020-07-28 | Dell Products L.P. | User-specific customization for command interface |
US10608879B2 (en) | 2015-10-16 | 2020-03-31 | Dell Products L.P. | Validation using natural language processing |
US10013404B2 (en) * | 2015-12-03 | 2018-07-03 | International Business Machines Corporation | Targeted story summarization using natural language processing |
US10013450B2 (en) | 2015-12-03 | 2018-07-03 | International Business Machines Corporation | Using knowledge graphs to identify potential inconsistencies in works of authorship |
US10248738B2 (en) | 2015-12-03 | 2019-04-02 | International Business Machines Corporation | Structuring narrative blocks in a logical sequence |
CN105573968A (zh) * | 2015-12-10 | 2016-05-11 | 天津海量信息技术有限公司 | 基于规则的文本标引方法 |
CN105740404A (zh) * | 2016-01-28 | 2016-07-06 | 上海晶赞科技发展有限公司 | 标签关联方法及装置 |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
CN107436922B (zh) * | 2017-07-05 | 2021-06-08 | 北京百度网讯科技有限公司 | 文本标签生成方法和装置 |
US11163817B2 (en) * | 2018-05-24 | 2021-11-02 | Spotify Ab | Descriptive media content search |
CN109241529B (zh) * | 2018-08-29 | 2023-05-02 | 中国联合网络通信集团有限公司 | 观点标签的确定方法和装置 |
US10867338B2 (en) | 2019-01-22 | 2020-12-15 | Capital One Services, Llc | Offering automobile recommendations from generic features learned from natural language inputs |
US11328004B2 (en) * | 2019-03-22 | 2022-05-10 | Microsoft Technology Licensing, Llc | Method and system for intelligently suggesting tags for documents |
US10489474B1 (en) | 2019-04-30 | 2019-11-26 | Capital One Services, Llc | Techniques to leverage machine learning for search engine optimization |
US10565639B1 (en) | 2019-05-02 | 2020-02-18 | Capital One Services, Llc | Techniques to facilitate online commerce by leveraging user activity |
US11232110B2 (en) * | 2019-08-23 | 2022-01-25 | Capital One Services, Llc | Natural language keyword tag extraction |
US10796355B1 (en) | 2019-12-27 | 2020-10-06 | Capital One Services, Llc | Personalized car recommendations based on customer web traffic |
CN111324738B (zh) * | 2020-05-15 | 2020-08-28 | 支付宝(杭州)信息技术有限公司 | 一种确定文本标签的方法和系统 |
CN114997120B (zh) * | 2021-03-01 | 2023-09-26 | 北京字跳网络技术有限公司 | 文档标签的生成方法、装置、终端和存储介质 |
CN113507632B (zh) * | 2021-08-12 | 2023-02-28 | 北京字跳网络技术有限公司 | 视频的处理方法、装置、终端和存储介质 |
CN113688229B (zh) * | 2021-08-31 | 2024-04-23 | 济南大学 | 一种文本推荐方法、系统、存储介质和设备 |
CN115409130B (zh) * | 2022-10-11 | 2023-08-15 | 北京睿企信息科技有限公司 | 一种更新分类标签的优化方法及系统 |
Family Cites Families (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61117658A (ja) * | 1984-11-13 | 1986-06-05 | Fujitsu Ltd | 文章抄録装置 |
US7051024B2 (en) * | 1999-04-08 | 2006-05-23 | Microsoft Corporation | Document summarizer for word processors |
US6038560A (en) | 1997-05-21 | 2000-03-14 | Oracle Corporation | Concept knowledge base search and retrieval system |
US6996572B1 (en) * | 1997-10-08 | 2006-02-07 | International Business Machines Corporation | Method and system for filtering of information entities |
US6175829B1 (en) * | 1998-04-22 | 2001-01-16 | Nec Usa, Inc. | Method and apparatus for facilitating query reformulation |
JP3641363B2 (ja) * | 1998-06-03 | 2005-04-20 | 富士通株式会社 | テキスト情報分析装置及び記録媒体 |
US6665681B1 (en) * | 1999-04-09 | 2003-12-16 | Entrieva, Inc. | System and method for generating a taxonomy from a plurality of documents |
US7225182B2 (en) | 1999-05-28 | 2007-05-29 | Overture Services, Inc. | Recommending search terms using collaborative filtering and web spidering |
US6519586B2 (en) * | 1999-08-06 | 2003-02-11 | Compaq Computer Corporation | Method and apparatus for automatic construction of faceted terminological feedback for document retrieval |
US6587848B1 (en) | 2000-03-08 | 2003-07-01 | International Business Machines Corporation | Methods and apparatus for performing an affinity based similarity search |
US7028250B2 (en) | 2000-05-25 | 2006-04-11 | Kanisa, Inc. | System and method for automatically classifying text |
US6675159B1 (en) | 2000-07-27 | 2004-01-06 | Science Applic Int Corp | Concept-based search and retrieval system |
US6895406B2 (en) | 2000-08-25 | 2005-05-17 | Seaseer R&D, Llc | Dynamic personalization method of creating personalized user profiles for searching a database of information |
US6766316B2 (en) | 2001-01-18 | 2004-07-20 | Science Applications International Corporation | Method and system of ranking and clustering for document indexing and retrieval |
US7133862B2 (en) | 2001-08-13 | 2006-11-07 | Xerox Corporation | System with user directed enrichment and import/export control |
US7096218B2 (en) * | 2002-01-14 | 2006-08-22 | International Business Machines Corporation | Search refinement graphical user interface |
US20040123233A1 (en) * | 2002-12-23 | 2004-06-24 | Cleary Daniel Joseph | System and method for automatic tagging of ducuments |
US20040133560A1 (en) * | 2003-01-07 | 2004-07-08 | Simske Steven J. | Methods and systems for organizing electronic documents |
US6873996B2 (en) * | 2003-04-16 | 2005-03-29 | Yahoo! Inc. | Affinity analysis method and article of manufacture |
GB2403636A (en) | 2003-07-02 | 2005-01-05 | Sony Uk Ltd | Information retrieval using an array of nodes |
US8014997B2 (en) | 2003-09-20 | 2011-09-06 | International Business Machines Corporation | Method of search content enhancement |
CN1629835A (zh) * | 2003-12-17 | 2005-06-22 | 国际商业机器公司 | 电子文档的计算机辅助写作和浏览的方法及装置 |
US8676830B2 (en) | 2004-03-04 | 2014-03-18 | Yahoo! Inc. | Keyword recommendation for internet search engines |
US8788492B2 (en) | 2004-03-15 | 2014-07-22 | Yahoo!, Inc. | Search system and methods with integration of user annotations from a trust network |
US20060155751A1 (en) | 2004-06-23 | 2006-07-13 | Frank Geshwind | System and method for document analysis, processing and information extraction |
US20060053382A1 (en) | 2004-09-03 | 2006-03-09 | Biowisdom Limited | System and method for facilitating user interaction with multi-relational ontologies |
US7496593B2 (en) | 2004-09-03 | 2009-02-24 | Biowisdom Limited | Creating a multi-relational ontology having a predetermined structure |
US20060080315A1 (en) | 2004-10-08 | 2006-04-13 | The Greentree Group | Statistical natural language processing algorithm for use with massively parallel relational database management system |
US7805300B2 (en) * | 2005-03-21 | 2010-09-28 | At&T Intellectual Property Ii, L.P. | Apparatus and method for analysis of language model changes |
US7870147B2 (en) | 2005-03-29 | 2011-01-11 | Google Inc. | Query revision using known highly-ranked queries |
US7636714B1 (en) | 2005-03-31 | 2009-12-22 | Google Inc. | Determining query term synonyms within query context |
US7844566B2 (en) * | 2005-04-26 | 2010-11-30 | Content Analyst Company, Llc | Latent semantic clustering |
US7912701B1 (en) | 2005-05-04 | 2011-03-22 | IgniteIP Capital IA Special Management LLC | Method and apparatus for semiotic correlation |
US20060259475A1 (en) | 2005-05-10 | 2006-11-16 | Dehlinger Peter J | Database system and method for retrieving records from a record library |
WO2007002412A2 (en) | 2005-06-22 | 2007-01-04 | Affiniti, Inc. | Systems and methods for retrieving data |
US20080005064A1 (en) | 2005-06-28 | 2008-01-03 | Yahoo! Inc. | Apparatus and method for content annotation and conditional annotation retrieval in a search context |
US9715542B2 (en) * | 2005-08-03 | 2017-07-25 | Search Engine Technologies, Llc | Systems for and methods of finding relevant documents by analyzing tags |
US7685198B2 (en) | 2006-01-25 | 2010-03-23 | Yahoo! Inc. | Systems and methods for collaborative tag suggestions |
US20070282684A1 (en) | 2006-05-12 | 2007-12-06 | Prosser Steven H | System and Method for Determining Affinity Profiles for Research, Marketing, and Recommendation Systems |
CA2652762A1 (en) | 2006-05-19 | 2008-02-07 | My Virtual Model Inc. | Simulation-assisted search |
US8271266B2 (en) * | 2006-08-31 | 2012-09-18 | Waggner Edstrom Worldwide, Inc. | Media content assessment and control systems |
US7895210B2 (en) * | 2006-09-29 | 2011-02-22 | Battelle Memorial Institute | Methods and apparatuses for information analysis on shared and distributed computing systems |
US7974976B2 (en) | 2006-11-09 | 2011-07-05 | Yahoo! Inc. | Deriving user intent from a user query |
US7685200B2 (en) | 2007-03-01 | 2010-03-23 | Microsoft Corp | Ranking and suggesting candidate objects |
US7536637B1 (en) | 2008-02-07 | 2009-05-19 | International Business Machines Corporation | Method and system for the utilization of collaborative and social tagging for adaptation in web portals |
-
2008
- 2008-10-01 US US12/242,984 patent/US8280892B2/en active Active
- 2008-10-03 EP EP08165829.6A patent/EP2045737A3/en not_active Ceased
- 2008-10-06 CN CN200810166181XA patent/CN101408886B/zh active Active
- 2008-10-06 JP JP2008259630A patent/JP5391634B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
US20090094231A1 (en) | 2009-04-09 |
JP2009093650A (ja) | 2009-04-30 |
CN101408886A (zh) | 2009-04-15 |
US8280892B2 (en) | 2012-10-02 |
EP2045737A3 (en) | 2013-07-03 |
CN101408886B (zh) | 2012-12-19 |
EP2045737A2 (en) | 2009-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5391634B2 (ja) | 文書の段落分析によるその文書のタグの選択 | |
JP5391633B2 (ja) | オントロジー空間を規定するタームの推奨 | |
US9317593B2 (en) | Modeling topics using statistical distributions | |
JP5423030B2 (ja) | ワードセットに関係するワードの決定 | |
JP5353173B2 (ja) | 文書の具体性の決定 | |
JP5332477B2 (ja) | ターム階層の自動生成 | |
US8108405B2 (en) | Refining a search space in response to user input | |
JP5391632B2 (ja) | ワードと文書の深さの決定 | |
Lin et al. | Knowledge map creation and maintenance for virtual communities of practice | |
Kaptein et al. | Exploiting the category structure of Wikipedia for entity ranking | |
Zhang et al. | A generic pseudo relevance feedback framework with heterogeneous social information | |
Sharma et al. | A trend analysis of significant topics over time in machine learning research | |
Chakraborti et al. | Product news summarization for competitor intelligence using topic identification and artificial bee colony optimization | |
EP2090992A2 (en) | Determining words related to a given set of words | |
Pandi et al. | Reputation based online product recommendations | |
Dhokar et al. | Cliques detection vs maximum spanning tree for tweet contextualization | |
Kathiria et al. | DOCUMENT ANALYSIS FOR TREND ESTIMATION OF RESEARCH SCENARIO IN INDIAN UNIVERSITIES | |
Basili et al. | Automatic text categorization | |
Huang et al. | Solving the “Who’s Mark Johnson Puzzle”: Information Extraction Based Cross Document Coreference | |
HUNG et al. | Finding and Recommending Interesting Contents from Document Archives |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110708 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130305 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130430 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130618 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130816 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130917 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130930 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5391634 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |