JP2008204374A - クラスタ生成装置およびクラスタ生成プログラム - Google Patents
クラスタ生成装置およびクラスタ生成プログラム Download PDFInfo
- Publication number
- JP2008204374A JP2008204374A JP2007042519A JP2007042519A JP2008204374A JP 2008204374 A JP2008204374 A JP 2008204374A JP 2007042519 A JP2007042519 A JP 2007042519A JP 2007042519 A JP2007042519 A JP 2007042519A JP 2008204374 A JP2008204374 A JP 2008204374A
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- clusters
- dividing
- documents
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】クラスタ生成装置10は、K’個のクラスタを取得するクラスタ取得部11と、分割処理を行ってK’個から(K’+1)個のクラスタを生成するクラスタ生成部12とを有する。分割処理では、上記各クラスタを、分割用キーワードを含む文書の集合である第1のクラスタと、含まない文書の集合である第2のクラスタとに仮想的に分割し、各第2のクラスタについて、当該第2のクラスタに含まれる各キーワードの、当該第2のクラスタの特徴を表す度合いを示す第2の度合い値を算出し、第2の度合い値に基づき1個のクラスタを仮想的に分割した通りに分割する。クラスタを分割する分割用キーワードは、当該クラスタに含まれるキーワードのうち、当該クラスタ内の全ての文書に含まれるものを除く、当該クラスタ内の最も多くの文書に含まれるキーワードである。
【選択図】図1
Description
図1は、第1の実施の形態に係るクラスタ生成装置10の構成の一例を示すブロック図である。図1において、クラスタ生成装置10は、クラスタ取得部11とクラスタ生成部12とを有する。
図8は、第2の実施の形態に係るクラスタ生成装置20の構成の一例を示すブロック図である。図8において、クラスタ生成装置20は、文書群取得部21、キーワード取得部22、第1のクラスタ生成部23、第2のクラスタ生成部24、スコア算出部25、および出力部26を有する。
キーワード取得部22は、元の文書群に属する各文書から抽出されるキーワードを取得し、取得されたキーワードを変数KWi(i=1,2,・・・,M)に代入する。ここで、Mはキーワードの総数であり、キーワードKWiに重複はない。すなわち、i≠jであれば、KWi≠KWjである。ここで、キーワード取得部22は、上記キーワード群KWiを作成する際に、事前に関連語辞書(シソーラス)などでキーワードをまとめる処理を実施してもよい。
図10は、第1のクラスタ生成部23によるクラスタリング処理の第1の例を示すフローチャートである。図10において、クラスタリング処理は、処理S51と処理S52とを含む。
(a)(K−1)個のクラスタが生成されたこと
(b)未分類文書がなくなったこと
があり、第1のクラスタ生成部23は、上記条件(a)または(b)のいずれかが満たされると単位クラスタリング処理の繰り返しを停止させる。
(a)K個のクラスタが生成されたこと
(b)未分類文書がなくなったこと
があり、第1のクラスタ生成部23は、上記条件(a)または(b)のいずれかが満たされると単位クラスタリング処理の繰り返しを停止させる。
例えば、キーワードの総数が少ない場合や、ユーザにより指定されたクラスタ数Kが大きい場合、小さいクラスタの生成を抑制する観点より単位クラスタリング処理が停止された場合などに、第1のクラスタ生成部23により生成されるクラスタの個数K’が予め指定されたクラスタ数Kに満たない場合が生じ得る。このような場合には、第2のクラスタ生成部24による分割処理が行われる。
Claims (14)
- 文書群がクラスタリングされて得られるK’個(K’は2以上の整数)のクラスタを取得するクラスタ取得手段と、
分割処理を行って、前記取得されたK’個のクラスタから(K’+1)個のクラスタを生成するクラスタ生成手段と、を有し、
前記分割処理は、
前記K’個のクラスタの各々を、分割用キーワードを含む文書の集合である第1のクラスタと、前記分割用キーワードを含まない文書の集合である第2のクラスタとに仮想的に分割する処理と、
前記第2のクラスタの各々について、当該第2のクラスタに含まれる各キーワードの、当該第2のクラスタの特徴を表す度合いを示す第2の度合い値を算出する処理と、
前記第2の度合い値に基づき、前記K’個のクラスタのうち1個のクラスタを、前記仮想的に分割した通りに2つのクラスタに分割する処理と、を含み、
前記クラスタを仮想的に分割するための分割用キーワードは、当該クラスタに含まれるキーワードのうち、当該クラスタ内の全ての文書に含まれるキーワードを除く、当該クラスタ内の最も多くの文書に含まれるキーワードである、
ことを特徴とするクラスタ生成装置。 - 文書群を所定のクラスタリング処理によりクラスタリングして、予め指定されたクラスタ数K(Kは2以上の整数)以下のK’個(K’は2以上の整数)のクラスタを生成する第1のクラスタ生成手段と、
前記生成されたクラスタの個数K’が前記指定されたクラスタ数Kに満たない場合に、分割処理を(K−K’)回行って、前記K’個のクラスタからK個のクラスタを生成する第2のクラスタ生成手段と、を有し、
前記1回目の分割処理では、前記K’個のクラスタが処理対象とされ、前記n回目(2≦n≦(K−K’))の分割処理では、(n−1)回目の分割処理後の(K’+n−1)個のクラスタが処理対象とされ、
前記分割処理は、
前記処理対象の複数のクラスタの各々を、分割用キーワードを含む文書の集合である第1のクラスタと、前記分割用キーワードを含まない文書の集合である第2のクラスタとに仮想的に分割する処理と、
前記第2のクラスタの各々について、当該第2のクラスタに含まれる各キーワードの、当該第2のクラスタの特徴を表す度合いを示す第2の度合い値を算出する処理と、
前記第2の度合い値に基づき、前記処理対象の複数のクラスタのうち1個のクラスタを、前記仮想的に分割した通りに2つのクラスタに分割する処理と、を含み、
前記クラスタを仮想的に分割するための分割用キーワードは、当該クラスタに含まれるキーワードのうち、当該クラスタ内の全ての文書に含まれるキーワードを除く、当該クラスタ内の最も多くの文書に含まれるキーワードである、
ことを特徴とするクラスタ生成装置。 - 請求項1または2に記載のクラスタ生成装置であって、
前記2つのクラスタに分割する処理では、前記第2の度合い値のうち最大のものに対応するクラスタを分割することを特徴とするクラスタ生成装置。 - 請求項1または2に記載のクラスタ生成装置であって、
前記分割処理は、前記第1のクラスタの各々について、当該第1のクラスタに含まれる各キーワードの、当該第1のクラスタの特徴を表す度合いを示す第1の度合い値を算出する処理をさらに含み、
前記2つのクラスタに分割する処理では、前記第1および第2の度合い値に基づいて分割を行う、
ことを特徴とするクラスタ生成装置。 - 請求項4に記載のクラスタ生成装置であって、
前記2つのクラスタに分割する処理は、
前記処理対象の複数のクラスタの各々について、前記第1の度合い値の最大値と前記第2の度合い値の最大値との和を算出する処理と、
前記算出された和のうち最大のものに対応するクラスタを分割する処理と、
を含むことを特徴とするクラスタ生成装置。 - 文書群がクラスタリングされて得られるK’個(K’は2以上の整数)のクラスタを取得するクラスタ取得手段と、
分割処理を行って、前記取得されたK’個のクラスタから(K’+1)個のクラスタを生成するクラスタ生成手段と、を有し、
前記分割処理は、
前記K’個のクラスタの各々を、分割用キーワードを含む文書の集合である第1のクラスタと、前記分割用キーワードを含まない文書の集合である第2のクラスタとに仮想的に分割する処理と、
前記第1のクラスタの各々について、当該第1のクラスタに含まれる各キーワードの、当該第1のクラスタの特徴を表す度合いを示す第1の度合い値を算出する処理と、
前記第1の度合い値に基づき、前記K’個のクラスタのうち1個のクラスタを、前記仮想的に分割した通りに2つのクラスタに分割する処理と、を含み、
前記クラスタを仮想的に分割するための分割用キーワードは、当該クラスタに含まれるキーワードのうち、当該クラスタ内の全ての文書に含まれるキーワードを除く、当該クラスタ内の最も多くの文書に含まれるキーワードである、
ことを特徴とするクラスタ生成装置。 - 文書群を所定のクラスタリング処理によりクラスタリングして、予め指定されたクラスタ数K(Kは2以上の整数)以下のK’個(K’は2以上の整数)のクラスタを生成する第1のクラスタ生成手段と、
前記生成されたクラスタの個数K’が前記指定されたクラスタ数Kに満たない場合に、分割処理を(K−K’)回行って、前記K’個のクラスタからK個のクラスタを生成する第2のクラスタ生成手段と、を有し、
前記1回目の分割処理では、前記K’個のクラスタが処理対象とされ、前記n回目(2≦n≦(K−K’))の分割処理では、(n−1)回目の分割処理後の(K’+n−1)個のクラスタが処理対象とされ、
前記分割処理は、
前記処理対象の複数のクラスタの各々を、分割用キーワードを含む文書の集合である第1のクラスタと、前記分割用キーワードを含まない文書の集合である第2のクラスタとに仮想的に分割する処理と、
前記第1のクラスタの各々について、当該第1のクラスタに含まれる各キーワードの、当該第1のクラスタの特徴を表す度合いを示す第1の度合い値を算出する処理と、
前記第1の度合い値に基づき、前記処理対象の複数のクラスタのうち1個のクラスタを、前記仮想的に分割した通りに2つのクラスタに分割する処理と、を含み、
前記クラスタを仮想的に分割するための分割用キーワードは、当該クラスタに含まれるキーワードのうち、当該クラスタ内の全ての文書に含まれるキーワードを除く、当該クラスタ内の最も多くの文書に含まれるキーワードである、
ことを特徴とするクラスタ生成装置。 - 請求項6または7に記載のクラスタ生成装置であって、
前記2つのクラスタに分割する処理では、前記第1の度合い値のうち最大のものに対応するクラスタを分割することを特徴とするクラスタ生成装置。 - 請求項2または7に記載のクラスタ生成装置であって、
前記所定のクラスタリング処理は、
単位クラスタリング処理を(K’−1)回行って、前記文書群から(K’−1)個のクラスタを生成する処理と、
前記文書群のうち前記(K’−1)個のクラスタの何れにも属していない文書群を1個のクラスタとする処理と、を含み、
前記単位クラスタリング処理は、前記文書群のうち未だ何れのクラスタにも属していない文書を未分類文書と呼ぶとき、前記文書群に属する各文書から抽出されるキーワードのうち最も多くの未分類文書に含まれるキーワードを含む未分類文書の集合を新たなクラスタとする処理である、
ことを特徴とするクラスタ生成装置。 - 請求項2または7に記載のクラスタ生成装置であって、
前記所定のクラスタリング処理は、
単位クラスタリング処理をK’回行って、前記文書群からK’個のクラスタを生成する処理と、
前記文書群のうち前記K’個のクラスタの何れにも属していない各文書を前記K’個のクラスタに分類する処理と、を含み、
前記単位クラスタリング処理は、前記文書群のうち未だ何れのクラスタにも属していない文書を未分類文書と呼ぶとき、前記文書群に属する各文書から抽出されるキーワードのうち最も多くの未分類文書に含まれるキーワードを含む未分類文書の集合を新たなクラスタとする処理である、
ことを特徴とするクラスタ生成装置。 - コンピュータに、
文書群がクラスタリングされて得られるK’個(K’は2以上の整数)のクラスタを取得する手順と、
分割処理を行って、前記取得されたK’個のクラスタから(K’+1)個のクラスタを生成する手順と、を実行させ、
前記分割処理は、
前記K’個のクラスタの各々を、分割用キーワードを含む文書の集合である第1のクラスタと、前記分割用キーワードを含まない文書の集合である第2のクラスタとに仮想的に分割する処理と、
前記第2のクラスタの各々について、当該第2のクラスタに含まれる各キーワードの、当該第2のクラスタの特徴を表す度合いを示す第2の度合い値を算出する処理と、
前記第2の度合い値に基づき、前記K’個のクラスタのうち1個のクラスタを、前記仮想的に分割した通りに2つのクラスタに分割する処理と、を含み、
前記クラスタを仮想的に分割するための分割用キーワードは、当該クラスタに含まれるキーワードのうち、当該クラスタ内の全ての文書に含まれるキーワードを除く、当該クラスタ内の最も多くの文書に含まれるキーワードである、
ことを特徴とするクラスタ生成プログラム。 - コンピュータに、
文書群を所定のクラスタリング処理によりクラスタリングして、予め指定されたクラスタ数K(Kは2以上の整数)以下のK’個(K’は2以上の整数)のクラスタを生成する手順と、
前記生成されたクラスタの個数K’が前記指定されたクラスタ数Kに満たない場合に、分割処理を(K−K’)回行って、前記K’個のクラスタからK個のクラスタを生成する手順と、を実行させ、
前記1回目の分割処理では、前記K’個のクラスタが処理対象とされ、前記n回目(2≦n≦(K−K’))の分割処理では、(n−1)回目の分割処理後の(K’+n−1)個のクラスタが処理対象とされ、
前記分割処理は、
前記処理対象の複数のクラスタの各々を、分割用キーワードを含む文書の集合である第1のクラスタと、前記分割用キーワードを含まない文書の集合である第2のクラスタとに仮想的に分割する処理と、
前記第2のクラスタの各々について、当該第2のクラスタに含まれる各キーワードの、当該第2のクラスタの特徴を表す度合いを示す第2の度合い値を算出する処理と、
前記第2の度合い値に基づき、前記処理対象の複数のクラスタのうち1個のクラスタを、前記仮想的に分割した通りに2つのクラスタに分割する処理と、を含み、
前記クラスタを仮想的に分割するための分割用キーワードは、当該クラスタに含まれるキーワードのうち、当該クラスタ内の全ての文書に含まれるキーワードを除く、当該クラスタ内の最も多くの文書に含まれるキーワードである、
ことを特徴とするクラスタ生成プログラム。 - コンピュータに、
文書群がクラスタリングされて得られるK’個(K’は2以上の整数)のクラスタを取得する手順と、
分割処理を行って、前記取得されたK’個のクラスタから(K’+1)個のクラスタを生成する手順と、を実行させ、
前記分割処理は、
前記K’個のクラスタの各々を、分割用キーワードを含む文書の集合である第1のクラスタと、前記分割用キーワードを含まない文書の集合である第2のクラスタとに仮想的に分割する処理と、
前記第1のクラスタの各々について、当該第1のクラスタに含まれる各キーワードの、当該第1のクラスタの特徴を表す度合いを示す第1の度合い値を算出する処理と、
前記第1の度合い値に基づき、前記K’個のクラスタのうち1個のクラスタを、前記仮想的に分割した通りに2つのクラスタに分割する処理と、を含み、
前記クラスタを仮想的に分割するための分割用キーワードは、当該クラスタに含まれるキーワードのうち、当該クラスタ内の全ての文書に含まれるキーワードを除く、当該クラスタ内の最も多くの文書に含まれるキーワードである、
ことを特徴とするクラスタ生成プログラム。 - コンピュータに、
文書群を所定のクラスタリング処理によりクラスタリングして、予め指定されたクラスタ数K(Kは2以上の整数)以下のK’個(K’は2以上の整数)のクラスタを生成する手順と、
前記生成されたクラスタの個数K’が前記指定されたクラスタ数Kに満たない場合に、分割処理を(K−K’)回行って、前記K’個のクラスタからK個のクラスタを生成する手順と、を実行させ、
前記1回目の分割処理では、前記K’個のクラスタが処理対象とされ、前記n回目(2≦n≦(K−K’))の分割処理では、(n−1)回目の分割処理後の(K’+n−1)個のクラスタが処理対象とされ、
前記分割処理は、
前記処理対象の複数のクラスタの各々を、分割用キーワードを含む文書の集合である第1のクラスタと、前記分割用キーワードを含まない文書の集合である第2のクラスタとに仮想的に分割する処理と、
前記第1のクラスタの各々について、当該第1のクラスタに含まれる各キーワードの、当該第1のクラスタの特徴を表す度合いを示す第1の度合い値を算出する処理と、
前記第1の度合い値に基づき、前記処理対象の複数のクラスタのうち1個のクラスタを、前記仮想的に分割した通りに2つのクラスタに分割する処理と、を含み、
前記クラスタを仮想的に分割するための分割用キーワードは、当該クラスタに含まれるキーワードのうち、当該クラスタ内の全ての文書に含まれるキーワードを除く、当該クラスタ内の最も多くの文書に含まれるキーワードである、
ことを特徴とするクラスタ生成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007042519A JP4967705B2 (ja) | 2007-02-22 | 2007-02-22 | クラスタ生成装置およびクラスタ生成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007042519A JP4967705B2 (ja) | 2007-02-22 | 2007-02-22 | クラスタ生成装置およびクラスタ生成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008204374A true JP2008204374A (ja) | 2008-09-04 |
JP4967705B2 JP4967705B2 (ja) | 2012-07-04 |
Family
ID=39781783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007042519A Expired - Fee Related JP4967705B2 (ja) | 2007-02-22 | 2007-02-22 | クラスタ生成装置およびクラスタ生成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4967705B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010182253A (ja) * | 2009-02-09 | 2010-08-19 | Hitachi Ltd | 文書分類装置及び文書分類方法 |
WO2011078186A1 (ja) * | 2009-12-22 | 2011-06-30 | 日本電気株式会社 | 文書クラスタリングシステム、文書クラスタリング方法および記録媒体 |
JP2012032957A (ja) * | 2010-07-29 | 2012-02-16 | Fujitsu Ltd | まとめ上げ作業支援装置、方法及びプログラム |
JP2019185478A (ja) * | 2018-04-12 | 2019-10-24 | 富士通株式会社 | 分類プログラム、分類方法、および情報処理装置 |
JP2021009574A (ja) * | 2019-07-01 | 2021-01-28 | ヤフー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
KR20220121506A (ko) * | 2021-02-25 | 2022-09-01 | 고려대학교 산학협력단 | 문헌 스크리닝 방법 및 장치 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0749875A (ja) * | 1993-08-06 | 1995-02-21 | Hitachi Ltd | 文書情報分類方法およびそれを用いた文書情報収集方法、文書情報収集システム |
JPH08153121A (ja) * | 1994-09-30 | 1996-06-11 | Hitachi Ltd | 文書情報分類方法および文書情報分類装置 |
JPH11242679A (ja) * | 1998-02-25 | 1999-09-07 | Nippon Telegr & Teleph Corp <Ntt> | 利用者の興味に基づいて情報を分類する方法、装置、および利用者の興味に基づいて情報を分類するプログラムを記録した記録媒体 |
JP2001092841A (ja) * | 1999-09-24 | 2001-04-06 | Nippon Telegr & Teleph Corp <Ntt> | クラスター分析処理方法およびクラスター分析プログラムを記録した記録媒体 |
JP2002041544A (ja) * | 2000-07-25 | 2002-02-08 | Toshiba Corp | テキスト情報分析装置 |
JP2002183171A (ja) * | 2000-12-12 | 2002-06-28 | Matsushita Electric Ind Co Ltd | 文書データ・クラスタリングシステム |
JP2003323436A (ja) * | 2002-05-01 | 2003-11-14 | Nippon Telegr & Teleph Corp <Ntt> | 文書分類装置、文書分類方法、プログラム、およびこのプログラムを記録した記録媒体 |
JP2005063157A (ja) * | 2003-08-13 | 2005-03-10 | Fuji Xerox Co Ltd | 文書クラスタ抽出装置および方法 |
-
2007
- 2007-02-22 JP JP2007042519A patent/JP4967705B2/ja not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0749875A (ja) * | 1993-08-06 | 1995-02-21 | Hitachi Ltd | 文書情報分類方法およびそれを用いた文書情報収集方法、文書情報収集システム |
JPH08153121A (ja) * | 1994-09-30 | 1996-06-11 | Hitachi Ltd | 文書情報分類方法および文書情報分類装置 |
JPH11242679A (ja) * | 1998-02-25 | 1999-09-07 | Nippon Telegr & Teleph Corp <Ntt> | 利用者の興味に基づいて情報を分類する方法、装置、および利用者の興味に基づいて情報を分類するプログラムを記録した記録媒体 |
JP2001092841A (ja) * | 1999-09-24 | 2001-04-06 | Nippon Telegr & Teleph Corp <Ntt> | クラスター分析処理方法およびクラスター分析プログラムを記録した記録媒体 |
JP2002041544A (ja) * | 2000-07-25 | 2002-02-08 | Toshiba Corp | テキスト情報分析装置 |
JP2002183171A (ja) * | 2000-12-12 | 2002-06-28 | Matsushita Electric Ind Co Ltd | 文書データ・クラスタリングシステム |
JP2003323436A (ja) * | 2002-05-01 | 2003-11-14 | Nippon Telegr & Teleph Corp <Ntt> | 文書分類装置、文書分類方法、プログラム、およびこのプログラムを記録した記録媒体 |
JP2005063157A (ja) * | 2003-08-13 | 2005-03-10 | Fuji Xerox Co Ltd | 文書クラスタ抽出装置および方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010182253A (ja) * | 2009-02-09 | 2010-08-19 | Hitachi Ltd | 文書分類装置及び文書分類方法 |
WO2011078186A1 (ja) * | 2009-12-22 | 2011-06-30 | 日本電気株式会社 | 文書クラスタリングシステム、文書クラスタリング方法および記録媒体 |
JPWO2011078186A1 (ja) * | 2009-12-22 | 2013-05-09 | 日本電気株式会社 | 文書クラスタリングシステム、文書クラスタリング方法およびプログラム |
US8965896B2 (en) | 2009-12-22 | 2015-02-24 | Nec Corporation | Document clustering system, document clustering method, and recording medium |
JP5817531B2 (ja) * | 2009-12-22 | 2015-11-18 | 日本電気株式会社 | 文書クラスタリングシステム、文書クラスタリング方法およびプログラム |
JP2012032957A (ja) * | 2010-07-29 | 2012-02-16 | Fujitsu Ltd | まとめ上げ作業支援装置、方法及びプログラム |
JP2019185478A (ja) * | 2018-04-12 | 2019-10-24 | 富士通株式会社 | 分類プログラム、分類方法、および情報処理装置 |
JP7031462B2 (ja) | 2018-04-12 | 2022-03-08 | 富士通株式会社 | 分類プログラム、分類方法、および情報処理装置 |
JP2021009574A (ja) * | 2019-07-01 | 2021-01-28 | ヤフー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
JP7177013B2 (ja) | 2019-07-01 | 2022-11-22 | ヤフー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
KR20220121506A (ko) * | 2021-02-25 | 2022-09-01 | 고려대학교 산학협력단 | 문헌 스크리닝 방법 및 장치 |
KR102647657B1 (ko) | 2021-02-25 | 2024-03-15 | 고려대학교 산학협력단 | 문헌 스크리닝 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
JP4967705B2 (ja) | 2012-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3726263B2 (ja) | 文書分類方法及び装置 | |
CN110287328B (zh) | 一种文本分类方法、装置、设备及计算机可读存储介质 | |
KR101715432B1 (ko) | 단어쌍취득장치, 단어쌍취득방법 및 기록 매체 | |
US20090327259A1 (en) | Automatic concept clustering | |
CN108228541B (zh) | 生成文档摘要的方法和装置 | |
JP4967705B2 (ja) | クラスタ生成装置およびクラスタ生成プログラム | |
WO2014109127A1 (ja) | インデックス生成装置及び方法並びに検索装置及び検索方法 | |
JP2009093655A (ja) | 単語親和度による単語クラスタの識別 | |
WO2014118980A1 (ja) | 情報変換方法、情報変換装置および情報変換プログラム | |
Chouhan et al. | An approach for document clustering using PSO and K-means algorithm | |
JP5862413B2 (ja) | 情報変換規則生成プログラム、情報変換規則生成装置および情報変換規則生成方法 | |
CN107357895B (zh) | 一种基于词袋模型的文本表示的处理方法 | |
CN112015898A (zh) | 基于标签树的模型训练、文本标签确定方法及装置 | |
CN111651596A (zh) | 一种文本聚类的方法、装置、服务器及存储介质 | |
CN110968693A (zh) | 基于集成学习的多标签文本分类计算方法 | |
JPH10254883A (ja) | 文書自動分類方法 | |
Addis et al. | Assessing progressive filtering to perform hierarchical text categorization in presence of input imbalance | |
Kaysar et al. | Word sense disambiguation of Bengali words using FP-growth algorithm | |
JP2009151390A (ja) | 情報分析装置、及び情報分析プログラム | |
JP6004014B2 (ja) | 学習方法、情報変換装置および学習プログラム | |
CN111488400A (zh) | 数据分类方法、装置和计算机可读存储介质 | |
Ihou et al. | A smoothed latent generalized dirichlet allocation model in the collapsed space | |
GB2442286A (en) | Categorisation of data e.g. web pages using a model | |
Gallas et al. | Negative relevance feedback for improving retrieval in large-scale image collections | |
Harakawa et al. | An efficient extraction method of hierarchical structure of web communities for web video retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100121 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120301 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120306 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120319 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150413 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |