JP2009093652A - ターム階層の自動生成 - Google Patents
ターム階層の自動生成 Download PDFInfo
- Publication number
- JP2009093652A JP2009093652A JP2008259632A JP2008259632A JP2009093652A JP 2009093652 A JP2009093652 A JP 2009093652A JP 2008259632 A JP2008259632 A JP 2008259632A JP 2008259632 A JP2008259632 A JP 2008259632A JP 2009093652 A JP2009093652 A JP 2009093652A
- Authority
- JP
- Japan
- Prior art keywords
- parent
- terms
- term
- similarity
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】実施形態では、タームの階層の生成は、タームを含むコーパスへのアクセスを含む。タームに対して、親子関係を作成(yield)するために、有向類似性により一タームの1つまたは複数の親タームを特定し、その親タームと各タームから1つまたは複数の親子関係を決定する。その親子関係から階層グラフを自動的に生成する。
【選択図】図1
Description
[関連出願]
本願は、デイビッド・マービットらにより2007年10月5日に出願された米国仮出願第60/977,840号、発明の名称「ターム階層の自動生成」、代理人管理番号第073338.0551号の米国特許法第119条(e)項の利益を主張するものである。
1. ドメイン内の文書の収集実施形態では、文書はタームの集まり(collection of terms)である。文書とは、例えば新約聖書などの可読テキストである。文書は、必ずしも物語形式のテキストでなくてもよく、例えば画像コンテンツを個別かつ集合的に記述する一組のユーザ入力タグであってもよい。文書の集まりを「ドメイン・コーパス(domain corpus)」と呼ぶ。
1. 基本類似性
a) タームAとタームBとの間の基本類似性を、そのタームAまたはBのいずれかを含むコンテキスト数に対する、タームA及びBを両方とも含むコンテキスト数の比として定義する。
タームAとタームBとの間の有向類似性(DAff)を、コンテキスト中にタームAが出現することを条件として、タームBが出現する条件付き確率として定義してもよい。
タームAとタームBとの間の差分有向類似性(DiffDAff)は、タームAとBとの間の有向類似性から、コーパスにおけるタームBの一般性(common-ness)を示すファクタを引いたものとして定義してもよい。コーパスにおけるタームBの一般性は、そのコーパス中の他のタームに対するタームBの基本類似性または有向類似性の統計値である。一実施形態では、コーパスにおけるタームBの一般性(common-ness)は、タームBの平均類似性(AA)である。その場合、差分有向類似性の定義は次のようになる:
前記複数のタームの一以上のタームのうちの各タームについて、有向類似性により前記各タームの一以上の親タームを特定し、前記一以上の親タームと前記各タームとから一以上の親子関係を決定して、複数の親子関係を求める段階と、
前記複数の親子関係から階層グラフを自動的に生成する段階とを含む方法。
(付記2) 有向類似性により前記各タームの一以上の親タームを特定する段階は、さらに、
前記各タームから親ターム候補への有向類似性が高いと決定する段階と、
前記親ターム候補から前記各タームへの有向類似性がゼロではないが低いと決定する段階と、
前記各タームの親タームとして前記親ターム候補を特定する段階とを含む、
付記1に記載の方法。
(付記3) 有向類似性により前記各タームの一以上の親タームを特定する段階は、さらに、
前記各タームから親ターム候補への有向類似性が0.6より高いと決定する段階と、
前記親ターム候補から前記各タームへの有向類似性が0.4より小さく、0.1より大きいと決定する段階と、
前記各タームの親タームとして前記親ターム候補を特定する段階とを含む、
付記1に記載の方法。
(付記4) 前記複数の親子関係から前記階層グラフを自動的に生成する段階は、
親子関係と前記階層グラフの冗長な親子関係を特定する段階と、
前記階層グラフから前記冗長な親子関係を削除する段階と
により前記階層グラフを縮小する段階をさらに含む、
付記1に記載の方法。
(付記5) 前記コーパスは複数の文書を含み、前記部句数の文書は前記複数のタームを含み、
前記階層グラフは前記複数の文書のカタログを表す、
付記1に記載の方法。
(付記6) 前記コーパスは複数の検索結果を含み、
前記一以上のタームのうちの一タームは検索結果の一トピックを表し、
前記階層グラフは前記複数の検索結果の前記複数の親子関係を記述する、
付記1に記載の方法。
(付記7) 前記コーパスは複数のクラスタに整理された複数の検索結果を含み、
前記一以上のタームのうちの一タームはクラスタの一トピックを表し、
前記階層グラフは前記複数の検索結果の前記複数の親子関係を記述する、
付記1に記載の方法。
(付記8) 前記階層グラフの複数の親タームをクライアントに送る段階と、
複数の子タームを有する親タームの選択を受け取る段階と、
前記複数の子タームを前記クライアントに送る段階とを含む、
付記1に記載の方法。
(付記9) 前記階層グラフの親タームを含む検索クエリを受け取る段階と、
前記親タームの一以上の子タームを特定する段階と、
前記親タームと前記一以上の子タームとを用いて前記コーパスを検索する段階とを
付記1に記載の方法。
(付記10) 前記コーパスは複数の文書を含み、前記複数の文書は前記複数のタームを含み、
前記階層グラフの各グラフタームに前記各グラフタームを含む文書を関連づける段階と、
親タームを含む検索クエリを受け取る段階と、
前記親タームの子と関連する一以上の文書を検索する段階とを含む、
付記1に記載の方法。
(付記11) 実行したとき、
有体媒体に格納された、複数のタームを含むコーパスにアクセス段階と、
前記複数のタームの一以上のタームのうちの各タームについて、有向類似性により前記各タームの一以上の親タームを特定し、前記一以上の親タームと前記各タームとから一以上の親子関係を決定して、複数の親子関係を求める段階と、
前記複数の親子関係から階層グラフを自動的に生成する段階と
を実行するソフトウェアをエンコードしたコンピュータ読み取り可能有体媒体。
(付記12) 前記ソフトウェアは、
前記各タームから親ターム候補への有向類似性が高いと決定する段階と、
前記親ターム候補から前記各タームへの有向類似性が低いと決定する段階と、
前記親ターム候補から前記各タームへの有向類似性が最小閾値より高いと決定する段階と、
前記各タームの親タームとして前記親ターム候補を特定する段階とにより、有向類似性により前記各タームの一以上の親タームを特定する、付記11に記載のコンピュータ読み取り可能有体媒体。
(付記13) 前記ソフトウェアは、
前記各タームから親ターム候補への有向類似性が0.6より高いと決定する段階と、
前記親ターム候補から前記各タームへの有向類似性が0.4より小さく、0.1より大きいと決定する段階と、
前記各タームの親タームとして前記親ターム候補を特定する段階と
により、有向類似性により前記各タームの一以上の親タームを特定する、付記11に記載のコンピュータ読み取り可能有体媒体。
(付記14) 前記ソフトウェアは、
親子関係と前記階層グラフの冗長な親子関係を特定する段階と、
前記階層グラフから前記冗長な親子関係を削除する段階と
により、前記階層グラフを縮小することにより、前記複数の親子関係から前記階層グラフを自動的に生成する、付記11に記載のコンピュータ読み取り可能有体媒体。
(付記15) 前記コーパスは複数の文書を含み、前記部句数の文書は前記複数のタームを含み、
前記階層グラフは前記複数の文書のカタログを表す、
付記11に記載のコンピュータ読み取り可能有体媒体。
(付記16) 前記コーパスは複数の検索結果を含み、
前記一以上のタームのうちの一タームは検索結果の一トピックを表し、
前記階層グラフは前記複数の検索結果の前記複数の親子関係を記述する、
付記11に記載のコンピュータ読み取り可能有体媒体。
(付記17) 前記コーパスは複数のクラスタに整理された複数の検索結果を含み、
前記一以上のタームのうちの一タームはクラスタの一トピックを表し、
前記階層グラフは前記複数の検索結果の前記複数の親子関係を記述する、
付記11に記載のコンピュータ読み取り可能有体媒体。
(付記18) 前記ソフトウェアは、さらに、
前記階層グラフの複数の親タームをクライアントに送る段階と、
複数の子タームを有する親タームの選択を受け取る段階と、
前記複数の子タームを前記クライアントに送る段階とを実行する、
付記11に記載のコンピュータ読み取り可能有体媒体。
(付記19) 前記ソフトウェアは、さらに、
前記階層グラフの親タームを含む検索クエリを受け取る段階と、
前記親タームの一以上の子タームを特定する段階と、
前記親タームと前記一以上の子タームとを用いて前記コーパスを検索する段階とを実行する、
付記11に記載のコンピュータ読み取り可能有体媒体。
(付記20) 前記コーパスは複数の文書を含み、前記部句数の文書は前記複数のタームを含み、
前記ソフトウェアは、さらに、
前記階層グラフの各グラフタームに前記各グラフタームを含む文書を関連づける段階と、
親タームを含む検索クエリを受け取る段階と、
前記親タームの子と関連する一以上の文書を検索する段階とを実行する、
付記11に記載のコンピュータ読み取り可能有体媒体。
(付記21) 有体媒体に格納された、複数のタームを含むコーパスにアクセスする手段と、
前記複数のタームの一以上のタームのうちの各タームについて、有向類似性により前記各タームの一以上の親タームを特定し、前記一以上の親タームと前記各タームとから一以上の親子関係を決定して、複数の親子関係を求める手段と、
前記複数の親子関係から階層グラフを自動的に生成する手段とを含むシステム。
20 クライアント
22 サーバ
24 メモリ
30 類似性モジュール
31 クラスタリングモジュール
32 オントロジ特性モジュール
34 類似性計算器
37 階層モジュール
38 オントロジ生成器
42 類似性マトリクス生成器
46 類似性グラフ生成器
48 ワード推奨器
50 ページ
54 レコード
58 インデックス
62 逆インデックス
66 オントロジ
67 クラスタ
68 階層グラフ
210 クラスタリングエンジン
214 クラスタ分析器
230 深さエンジン
240 テーマエンジン
244 具体性エンジン
250 オントロジ特性アプリケーションエンジン
320 グラフエンジン
322 階層アプリケーションモジュール
324 親子識別子
328 グラフ縮小器
Claims (12)
- 有体媒体に格納された、複数のタームを含むコーパスにアクセス段階と、
前記複数のタームの一以上のタームのうちの各タームについて、有向類似性により前記各タームの一以上の親タームを特定し、前記一以上の親タームと前記各タームとから一以上の親子関係を決定して、複数の親子関係を求める段階と、
前記複数の親子関係から階層グラフを自動的に生成する段階とを含む方法。 - 有向類似性により前記各タームの一以上の親タームを特定する段階は、さらに、
前記各タームから親ターム候補への有向類似性が高いと決定する段階と、
前記親ターム候補から前記各タームへの有向類似性がゼロではないが低いと決定する段階と、
前記各タームの親タームとして前記親ターム候補を特定する段階とを含む、
請求項1に記載の方法。 - 有向類似性により前記各タームの一以上の親タームを特定する段階は、さらに、
前記各タームから親ターム候補への有向類似性が0.6より高いと決定する段階と、
前記親ターム候補から前記各タームへの有向類似性が0.4より小さく、0.1より大きいと決定する段階と、
前記各タームの親タームとして前記親ターム候補を特定する段階とを含む、
請求項1に記載の方法。 - 前記複数の親子関係から前記階層グラフを自動的に生成する段階は、
親子関係と前記階層グラフの冗長な親子関係を特定する段階と、
前記階層グラフから前記冗長な親子関係を削除する段階と
により前記階層グラフを縮小する段階をさらに含む、
請求項1に記載の方法。 - 前記コーパスは複数の文書を含み、前記部句数の文書は前記複数のタームを含み、
前記階層グラフは前記複数の文書のカタログを表す、
請求項1に記載の方法。 - 前記コーパスは複数の検索結果を含み、
前記一以上のタームのうちの一タームは検索結果の一トピックを表し、
前記階層グラフは前記複数の検索結果の前記複数の親子関係を記述する、
請求項1に記載の方法。 - 前記コーパスは複数のクラスタに整理された複数の検索結果を含み、
前記一以上のタームのうちの一タームはクラスタの一トピックを表し、
前記階層グラフは前記複数の検索結果の前記複数の親子関係を記述する、
請求項1に記載の方法。 - 前記階層グラフの複数の親タームをクライアントに送る段階と、
複数の子タームを有する親タームの選択を受け取る段階と、
前記複数の子タームを前記クライアントに送る段階とを含む、
請求項1に記載の方法。 - 前記階層グラフの親タームを含む検索クエリを受け取る段階と、
前記親タームの一以上の子タームを特定する段階と、
前記親タームと前記一以上の子タームとを用いて前記コーパスを検索する段階とを
請求項1に記載の方法。 - 前記コーパスは複数の文書を含み、前記複数の文書は前記複数のタームを含み、
前記階層グラフの各グラフタームに前記各グラフタームを含む文書を関連づける段階と、
親タームを含む検索クエリを受け取る段階と、
前記親タームの子と関連する一以上の文書を検索する段階とを含む、
請求項1に記載の方法。 - 実行したとき、
有体媒体に格納された、複数のタームを含むコーパスにアクセス段階と、
前記複数のタームの一以上のタームのうちの各タームについて、有向類似性により前記各タームの一以上の親タームを特定し、前記一以上の親タームと前記各タームとから一以上の親子関係を決定して、複数の親子関係を求める段階と、
前記複数の親子関係から階層グラフを自動的に生成する段階と
を実行するソフトウェアをエンコードしたコンピュータ読み取り可能有体媒体。 - 有体媒体に格納された、複数のタームを含むコーパスにアクセスする手段と、
前記複数のタームの一以上のタームのうちの各タームについて、有向類似性により前記各タームの一以上の親タームを特定し、前記一以上の親タームと前記各タームとから一以上の親子関係を決定して、複数の親子関係を求める手段と、
前記複数の親子関係から階層グラフを自動的に生成する手段とを含むシステム。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US97784007P | 2007-10-05 | 2007-10-05 | |
US60/977,840 | 2007-10-05 | ||
US12/242,965 US8332439B2 (en) | 2007-10-05 | 2008-10-01 | Automatically generating a hierarchy of terms |
US12/242,965 | 2008-10-01 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009093652A true JP2009093652A (ja) | 2009-04-30 |
JP5332477B2 JP5332477B2 (ja) | 2013-11-06 |
Family
ID=40524152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008259632A Active JP5332477B2 (ja) | 2007-10-05 | 2008-10-06 | ターム階層の自動生成 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8332439B2 (ja) |
EP (1) | EP2045734A3 (ja) |
JP (1) | JP5332477B2 (ja) |
CN (1) | CN101404015B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020113049A (ja) * | 2019-01-11 | 2020-07-27 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8275866B2 (en) * | 2007-11-13 | 2012-09-25 | At&T Intellectual Property I, L.P. | Assigning telecommunications nodes to community of interest clusters |
US7949657B2 (en) * | 2007-12-11 | 2011-05-24 | Microsoft Corporation | Detecting zero-result search queries |
US8584047B2 (en) * | 2010-05-18 | 2013-11-12 | Microsoft Corporation | Orbital representation of hierarchical navigation |
CN102768661B (zh) * | 2011-05-05 | 2014-12-17 | 株式会社理光 | 从多个网页中抽取对象和网页的方法和设备 |
US8719214B2 (en) * | 2011-09-23 | 2014-05-06 | Fujitsu Limited | Combining medical binary decision diagrams for analysis optimization |
US8620854B2 (en) * | 2011-09-23 | 2013-12-31 | Fujitsu Limited | Annotating medical binary decision diagrams with health state information |
TWI456412B (zh) * | 2011-10-11 | 2014-10-11 | Univ Ming Chuan | 製作知識地圖的方法 |
CN102779143B (zh) * | 2012-01-31 | 2014-08-27 | 中国科学院自动化研究所 | 知识谱系的可视化方法 |
WO2013179317A1 (en) * | 2012-05-30 | 2013-12-05 | Naddeo Giuseppe | A method for generating a graphical user interface for the optimization of a research on databases |
US9336302B1 (en) | 2012-07-20 | 2016-05-10 | Zuci Realty Llc | Insight and algorithmic clustering for automated synthesis |
CN103150667B (zh) * | 2013-03-14 | 2016-06-15 | 北京大学 | 一种基于本体结构的个性化推荐方法 |
CN103236074B (zh) * | 2013-03-25 | 2015-12-23 | 深圳超多维光电子有限公司 | 一种2d/3d图像处理方法及装置 |
US9286289B2 (en) * | 2013-04-09 | 2016-03-15 | Softwin Srl Romania | Ordering a lexicon network for automatic disambiguation |
US9460140B2 (en) * | 2013-04-29 | 2016-10-04 | Microsoft Technology Licensing, Llc | Automated librarian as contributor to a collection of content |
US9355163B2 (en) | 2013-06-07 | 2016-05-31 | Vmware, Inc. | Using a graph database of a virtualization infrastructure |
US9460187B2 (en) * | 2013-06-07 | 2016-10-04 | Vmware, Inc. | Creation of a graph database of a virtualization infrastructure |
US10248718B2 (en) * | 2015-07-04 | 2019-04-02 | Accenture Global Solutions Limited | Generating a domain ontology using word embeddings |
GB201514249D0 (en) * | 2015-08-12 | 2015-09-23 | Trw Ltd | Processing received radiation reflected from a target |
US10410008B2 (en) | 2016-03-08 | 2019-09-10 | Oracle International Corporation | Thick client policy caching |
CN105869056A (zh) * | 2016-03-31 | 2016-08-17 | 比美特医护在线(北京)科技有限公司 | 信息处理方法和装置 |
US10810241B2 (en) | 2016-06-12 | 2020-10-20 | Apple, Inc. | Arrangements of documents in a document feed |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
CN110888977B (zh) * | 2018-09-05 | 2024-05-10 | 广州视源电子科技股份有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
MX2022002421A (es) * | 2019-08-30 | 2022-04-11 | Lisa Michelle Shoeibi | Metodo de indexacion y recuperacion de textos. |
US20240097983A1 (en) * | 2022-09-16 | 2024-03-21 | Juniper Networks, Inc. | Translation of a source intent policy model to a target intent policy model |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008152324A (ja) * | 2006-12-14 | 2008-07-03 | National Institute Of Information & Communication Technology | 語彙階層構造抽出方法,装置,およびプログラム |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6996572B1 (en) * | 1997-10-08 | 2006-02-07 | International Business Machines Corporation | Method and system for filtering of information entities |
US6651096B1 (en) * | 1999-04-20 | 2003-11-18 | Cisco Technology, Inc. | Method and apparatus for organizing, storing and evaluating access control lists |
US6587848B1 (en) * | 2000-03-08 | 2003-07-01 | International Business Machines Corporation | Methods and apparatus for performing an affinity based similarity search |
US6925460B2 (en) * | 2001-03-23 | 2005-08-02 | International Business Machines Corporation | Clustering data including those with asymmetric relationships |
US7225183B2 (en) * | 2002-01-28 | 2007-05-29 | Ipxl, Inc. | Ontology-based information management system and method |
US7165024B2 (en) * | 2002-02-22 | 2007-01-16 | Nec Laboratories America, Inc. | Inferring hierarchical descriptions of a set of documents |
US6847966B1 (en) * | 2002-04-24 | 2005-01-25 | Engenium Corporation | Method and system for optimally searching a document database using a representative semantic space |
US7231379B2 (en) * | 2002-11-19 | 2007-06-12 | Noema, Inc. | Navigation in a hierarchical structured transaction processing system |
US7149748B1 (en) * | 2003-05-06 | 2006-12-12 | Sap Ag | Expanded inverted index |
US20040243613A1 (en) * | 2003-05-30 | 2004-12-02 | Mohammad Pourheidari | System and method for creating a custom view from information in a managed data store |
US8676830B2 (en) | 2004-03-04 | 2014-03-18 | Yahoo! Inc. | Keyword recommendation for internet search engines |
US7698270B2 (en) * | 2004-12-29 | 2010-04-13 | Baynote, Inc. | Method and apparatus for identifying, extracting, capturing, and leveraging expertise and knowledge |
US7805300B2 (en) * | 2005-03-21 | 2010-09-28 | At&T Intellectual Property Ii, L.P. | Apparatus and method for analysis of language model changes |
WO2006125271A1 (en) | 2005-05-27 | 2006-11-30 | Damit Australia Pty Ltd | A digital asset management system |
US7693836B2 (en) * | 2005-12-27 | 2010-04-06 | Baynote, Inc. | Method and apparatus for determining peer groups based upon observed usage patterns |
-
2008
- 2008-10-01 US US12/242,965 patent/US8332439B2/en active Active
- 2008-10-02 EP EP08165783A patent/EP2045734A3/en not_active Ceased
- 2008-10-06 JP JP2008259632A patent/JP5332477B2/ja active Active
- 2008-10-06 CN CN2008101661773A patent/CN101404015B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008152324A (ja) * | 2006-12-14 | 2008-07-03 | National Institute Of Information & Communication Technology | 語彙階層構造抽出方法,装置,およびプログラム |
Non-Patent Citations (6)
Title |
---|
CSNG200501025007; 馬勉、外1名: '補完情報の検索に基づくコンテンツ統合' 電子情報通信学会技術研究報告 第104巻、第177号, 20040707, pp.37〜42(DE2004-54), 社団法人電子情報通信学会 * |
CSNG200600575020; 山本英子、外2名: '出現状況の包含関係による語彙の階層構造の構築' 情報処理学会論文誌 第47巻、第6号, 20060615, pp.1872〜1883, 社団法人情報処理学会 * |
CSNG201000460096; 山本英子、外2名: '共起語の包含関係に基づく語彙の階層化への頻度情報の影響' 言語処理学会第11回年次大会発表論文集 , 20050315, pp.400〜403, 言語処理学会 * |
JPN6012029449; 山本英子、外2名: '共起語の包含関係に基づく語彙の階層化への頻度情報の影響' 言語処理学会第11回年次大会発表論文集 , 20050315, pp.400〜403, 言語処理学会 * |
JPN6013014685; 山本英子、外2名: '出現状況の包含関係による語彙の階層構造の構築' 情報処理学会論文誌 第47巻、第6号, 20060615, pp.1872〜1883, 社団法人情報処理学会 * |
JPN6013014686; 馬勉、外1名: '補完情報の検索に基づくコンテンツ統合' 電子情報通信学会技術研究報告 第104巻、第177号, 20040707, pp.37〜42(DE2004-54), 社団法人電子情報通信学会 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020113049A (ja) * | 2019-01-11 | 2020-07-27 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
JP7200683B2 (ja) | 2019-01-11 | 2023-01-10 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP2045734A3 (en) | 2009-08-12 |
EP2045734A2 (en) | 2009-04-08 |
CN101404015A (zh) | 2009-04-08 |
US8332439B2 (en) | 2012-12-11 |
US20090094208A1 (en) | 2009-04-09 |
CN101404015B (zh) | 2012-03-21 |
JP5332477B2 (ja) | 2013-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5332477B2 (ja) | ターム階層の自動生成 | |
JP5353173B2 (ja) | 文書の具体性の決定 | |
JP5423030B2 (ja) | ワードセットに関係するワードの決定 | |
JP5391634B2 (ja) | 文書の段落分析によるその文書のタグの選択 | |
JP5391633B2 (ja) | オントロジー空間を規定するタームの推奨 | |
Azad et al. | Query expansion techniques for information retrieval: a survey | |
US8108405B2 (en) | Refining a search space in response to user input | |
JP5391632B2 (ja) | ワードと文書の深さの決定 | |
US9317593B2 (en) | Modeling topics using statistical distributions | |
Deveaud et al. | Accurate and effective latent concept modeling for ad hoc information retrieval | |
US9483532B1 (en) | Text processing system and methods for automated topic discovery, content tagging, categorization, and search | |
US8108392B2 (en) | Identifying clusters of words according to word affinities | |
Kaptein et al. | Exploiting the category structure of Wikipedia for entity ranking | |
Moradi | Frequent itemsets as meaningful events in graphs for summarizing biomedical texts | |
Lee et al. | Reducing noises for recall-oriented patent retrieval | |
Moradi | Small-world networks for summarization of biomedical articles | |
Ren et al. | Role-explicit query extraction and utilization for quantifying user intents | |
Jain et al. | A theoretical study of text document clustering | |
EP2090992A2 (en) | Determining words related to a given set of words | |
Tiwari | Entity identification on the web | |
Chen et al. | USING GOOGLE'S KEYWORD RELATION IN MULTI-DOMAIN DOCUMENT CLASSIFICATION |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110708 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130402 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130531 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130702 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130715 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5332477 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |