JP4671164B2 - 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム - Google Patents
文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム Download PDFInfo
- Publication number
- JP4671164B2 JP4671164B2 JP2004328202A JP2004328202A JP4671164B2 JP 4671164 B2 JP4671164 B2 JP 4671164B2 JP 2004328202 A JP2004328202 A JP 2004328202A JP 2004328202 A JP2004328202 A JP 2004328202A JP 4671164 B2 JP4671164 B2 JP 4671164B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- feature expression
- classification
- classification axis
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
対象文書に対して比較の対象となる複数の文書を比較対照文書データとして保持する比較対照文書記憶部を更に具備し、
前記特徴表現ルール決定部は、
前記文書データの形態素解析を行ない、
前記文書データ内において、所定数の品詞及び所定数の形態素のうち、少なくとも1つ以上からなる所定の組み合わせの出現回数を計数し、前記出現回数から算出される第1の遷移スコアが、第2の閾値以上である前記組み合わせを第1の特徴表現抽出ルールとして決定し、前記文書データ内の文書数に対する前記第1の特徴表現抽出ルールが出現する文書数の割合である分類対象文書内ルール出現確率を算出し、
前記比較対照文書データの形態素解析を行ない、
前記比較対照文書データ内において、所定数の品詞及び所定数の形態素のうち、少なくとも1つ以上からなる所定の組み合わせの出現回数を計数し、前記出現回数から算出される第2の遷移スコアが、第2の閾値以上である前記組み合わせを第2の特徴表現抽出ルールとして決定し、前記比較対照文書データ内の文書数に対する前記第2の特徴表現抽出ルールが出現する文書数の割合である比較対照文書内ルール出現確率を算出し、
前記第1及び第2の特徴表現抽出ルールのうち、同一の特徴表現抽出ルールについて、比較対照文書内出現確率に対する分類対象文書内出現確率の比率が第3の閾値以上である特徴表現抽出ルールを特徴表現抽出ルールとして決定する
文書クラスタリング装置。
又、本発明による文書クラスタリング装置(100)は、出力装置(2)と、入力装置(1)と、関連表現抽出部(35)と、クラスタリング部(36)とクラスタ情報記憶部(45)とを更に備える。分類軸抽出部(33)は、分類軸(15)と、分類軸(15)に対応する分類軸スコア(14)とを出力装置(2)に出力し、出力装置(2)は、分類軸(15)を分類軸スコア(14)の降順に表示する。ユーザの操作により入力装置(1)は、表示された分類軸(15)から任意の分類軸(15)を選択する。関連表現抽出部(35)は、選択された分類軸(15)を含む特徴表現(12)を、分類軸(15)に関連する関連表現(16)として特徴表現記憶部(43)から抽出する。更に、クラスタリング部(36)は、分類軸(15)と、関連表現(16)を識別するクラスタIDと、関連表現(16)を含む文書を識別する文書IDとを関連付けて、クラスタ情報記憶部(36)に記憶する。
図1から図10を参照して、本発明による文書クラスタリング装置100の第1の実施の形態が説明される。
(遷移スコア13)=(出現確率)×(右方向遷移確率)×(左方向遷移確率)
従って、2−gram「[名詞−形容動詞語幹−静か][助動詞−な]」の遷移スコア13は、0.0002×0.4×0.2=1.6×10^(−5)となる。
(遷移スコア13)=(出現確率)×MAX{(右方向遷移確率)、(左方向遷移確率)}
としても、出現確率、又は右方向遷移確率、又は左方向遷移確率を単独で遷移スコア13として用いる方法でも、本発明の実施の形態に述べた方法に限定されない。
(分類軸スコア14)=(分類対象文書内出現確率17)×(特徴表現12中の名詞の数)/(特徴表現12を構成する形態素数)
例えば、特徴表現記憶部43に格納されている特徴表現12が図4のような場合、特徴表現12「イタリア料理」は、名詞2語からなるので、分類軸スコア14は、0.05×2/2=0.05
特徴表現12「フランス料理」は、名詞2語からなるので、分類軸スコア14は、0.02×2/2=0.02
特徴表現12「にぎやかな雰囲気」は、名詞2語と助動詞1語からなるので、分類軸スコア14は、0.08×2/3=0.05
特徴表現12「静かな雰囲気」は、名詞2語と助動詞1語からなるので、分類軸スコア14は、0.04×2/3=0.03
特徴表現12「料理」は、名詞1語からなるので、分類軸スコア14は、0.4×1/1=0.4
特徴表現12「雰囲気」は、名詞1語からなるので、分類軸スコア14は、0.3×1/1=0.3
(分類軸スコア14)=(分類対象文書内出現確率17)*(特徴表現12中の自立語の数)/{(特徴表現12中の非自立語の数)+1}
や、
(分類軸スコア14)=(分類対象文書内出現確率17)*δ
ただし、δ = 1(特徴表現12が名詞で終わっている場合)/0(特徴表現12が名詞以外の品詞で終わっている場合)
でも良く、本実施の形態に述べた方法に限定されない。
図11から図13を参照して、本発明による文書クラスタリング装置の第2の実施の形態が説明される。
1: 入力装置
2: 出力装置
3: データ処理装置
4: 記憶装置
30: クラスタリングプログラム
31、31’: 特徴表現抽出ルール決定部
32: 特徴表現抽出部
33: 分類軸抽出部
34: 分類軸選択部
35: 関連表現抽出部
36: クラスタリング部
37: CPU
38: RAM
41: 分類対象文書記憶部
42: 特徴表現抽出ルール記憶部
43: 特徴表現記憶部
44: 分類軸記憶部
45: クラスタ情報記憶部
10: 文書データ
11: 特徴表現抽出ルール
12: 特徴表現
13: 遷移スコア
14: 分類軸スコア
15: 分類軸
16: 関連表現
17: 分類対象文書内出現確率
18: 比較対照文書内出現確率
Claims (16)
- 分類対象である複数の文書を文書データとして保持する分類対象文書記憶部と、
データ処理装置と
を具備し、
前記データ処理装置は、
前記文書データの形態素解析を行ない、品詞情報を付与した形態素の抽象度が第1の閾値以上となるまで前記形態素を抽象化し、前記文書データにおいて連続して出現する2つの前記抽象化した形態素を、特徴表現抽出ルールとして決定する特徴表現抽出ルール決定部と、
前記特徴表現抽出ルールに適合する自然語表現を、特徴表現として前記分類対象文書記憶部から抽出し、前記文書データ内の文書数に対する前記特徴表現が出現する文書数の割合を分類対象文書内出現確率として算出する特徴表現抽出部と、
前記分類対象文書内出現確率を用いて前記特徴表現に対する分類軸スコアを算出し、前記分類軸スコアが第2の閾値以上である前記特徴表現を、前記文書データを分類するための分類軸として抽出する分類軸抽出部と
を備え、
前記品詞情報は、品詞レベルに応じた情報を含み、前記抽象度を増加させると、単語、品詞小分類、品詞中分類、品詞大分類の順で削除されることで、前記品詞情報を付与した形態素が抽象化され、
前記分類軸スコアは、前記分類対象文書内出現確率に対し、前記特徴表現中の品詞情報に基づいて決定される値を乗じて算出される
文書クラスタリング装置。 - 請求項1に記載の文書クラスタリング装置において、
前記特徴表現抽出ルール決定部は、前記文書データにおいて連続して出現する2つの前記抽象化した形態素の遷移スコアが第3の閾値以上である前記2つの抽出化した形態素を、前記特徴表現抽出ルールとして決定し、
前記遷移スコアは、出現確率×右方向遷移確率×左方向遷移確率で表され、
前記出願確率は、前記2つの抽象化した形態素の前記文書データにおける出現頻度を、前記文書データ内のすべての2つの抽象した形態素の出現頻度の合計で割った値であり、
前記右方向遷移確率は、前記2つの抽象化した形態素の先頭の形態素が単独で前記文書データに出現した回数に対する、前記2つの抽象化した形態素の出現頻度の割合であり、
左方向遷移確率は、前記2つの抽象化した形態素の後方の形態素が単独で前記文書データに出現した回数に対する、前記2つの抽象化した形態素の出現頻度の割合である
文書クラスタリング装置。 - 請求項1又は2に記載の文書クラスタリング装置において、
前記分類軸抽出部は、前記分類対象文書内出現確率×名詞の数/前記特徴表現を構成する形態素数により、前記分類軸スコアを算出する
文書クラスタリング装置。 - 請求項1又は2に記載の文書クラスタリング装置において、
前記分類軸抽出部は前記分類対象文書内出現確率×前記特徴表現中の自立語の数/(前記特徴表現中の非自立語の数+1)により前記分類軸スコアを算出する
文書クラスタリング装置。 - 請求項1又は2に記載の文書クラスタリング装置において、
前記特徴表現が名詞で終わっている場合、δ=1、前記特徴表現が名詞以外の品詞で終わっている場合、δ=0とすると、
前記分類軸抽出部は、前記分類対象文書内出現確率×δにより前記分類軸スコアを算出する
文書クラスタリング装置。 - 請求項1から5のいずれか1項に記載の文書クラスタリング装置において、
前記文書データと比較するための複数の文書を比較対照文書データとして保持する比較対照文書記憶部を更に具備し、
前記特徴表現抽出ルール決定部は、
前記比較対照文書データの形態素解析を行ない、品詞情報を付与した形態素の抽象度が前記第1の閾値以上となるまで前記形態素を抽象化し、前記比較対照文書データにおいて連続して出現する2つの前記抽象化した形態素を、第2特徴表現抽出ルールとして決定し、
前記特徴表現抽出部は、前記第2特徴表現抽出ルールに適合する自然語表現を、第2特徴表現として前記比較対照文書記憶部から抽出し、前記比較対照文書データ内の文書数に対する前記第2特徴表現が出現する文書数の割合を比較対照文書内出現確率として算出し、
前記分類軸抽出部は、前記特徴表現抽出ルールの前記分類対象文書内出現確率と、前記特徴表現抽出ルールと同一の第2特徴表現抽出ルールの前記比較対照文書内出現確率との比が第4の閾値以上である前記特徴表現抽出ルールの前記分類対象文書内出現確率を用いて、前記分類軸を抽出する
文書クラスタリング装置。 - 請求項1から6のいずれか1項に記載の文書クラスタリング装置において、
前記分類軸を含む特徴表現を、前記分類軸に関連する関連表現として抽出する関連表現抽出部と、
前記分類軸を、関連する前記関連表現とともに表示する出力装置と
を更に具備する
文書クラスタリング装置。 - 請求項1から7のいずれか1項に記載の文書クラスタリング装置において、
前記分類軸と前記分類軸スコアを対応付けて記憶する分類軸記憶部と、
対応する前記分類軸スコアに応じた順で、前記分類軸スコアを視認可能に出力する出力装置と
を更に具備する
文書クラスタリング装置。 - コンピュータによって実行されるクラスタリング方法であって、
複数の文書を含む文書データを形態素解析し、品詞情報を付与した形態素を抽出するステップと、
抽象度が第1の閾値以上となるまで前記形態素を抽象化するステップと、
前記文書データにおいて連続して出現する2つの前記抽象化した形態素を、特徴表現抽出ルールとして決定するステップと、
前記特徴表現抽出ルールに適合する自然語表現を、特徴表現として前記分類対象文書記憶部から抽出するステップと、
前記文書データ内の文書数に対する前記特徴表現が出現する文書数の割合を分類対象文書内出現確率として算出するステップと、
前記分類対象文書内出現確率を用いて前記特徴表現に対する分類軸スコアを算出ステップと、
前記分類軸スコアが第2の閾値以上である前記特徴表現を、前記文書データを分類するための分類軸として抽出するステップと
を具備し、
前記品詞情報は、品詞レベルに応じた情報を含み、前記抽象度を増加させると、単語、品詞小分類、品詞中分類、品詞大分類の順で削除されることで、前記品詞情報を付与した形態素が抽象化され、
前記分類軸スコアは、前記分類対象文書内出現確率に対し、前記特徴表現中の品詞情報に基づいて決定される値を乗じて算出される
クラスタリング方法。 - 請求項9に記載のクラスタリング方法であって、
前記特徴表現抽出ルールを決定するステップは、
前記文書データにおいて連続して出現する2つの前記抽象化した形態素の遷移スコアが第3の閾値以上である前記2つの抽出化した形態素を、前記特徴表現抽出ルールとして決定するステップを備え、
前記遷移スコアは、出現確率×右方向遷移確率×左方向遷移確率で表され、
前記出願確率は、前記2つの抽象化した形態素の前記文書データにおける出現頻度を、前記文書データ内のすべての2つの抽象した形態素の出現頻度の合計で割った値であり、
前記右方向遷移確率は、前記2つの抽象化した形態素の先頭の形態素が単独で前記文書データに出現した回数に対する、前記2つの抽象化した形態素の出現頻度の割合であり、
左方向遷移確率は、前記2つの抽象化した形態素の後方の形態素が単独で前記文書データに出現した回数に対する、前記2つの抽象化した形態素の出現頻度の割合である
クラスタリング方法。 - 請求項9又は10に記載のクラスタリング方法であって、
前記分類軸スコアを算出するステップは、前記分類対象文書内出現確率×名詞の数/前記特徴表現を構成する形態素数により、前記分類軸スコアを算出するステップを備える
クラスタリング方法。 - 請求項9又は10に記載のクラスタリング方法であって、
前記分類軸スコアを算出するステップは、前記分類対象文書内出現確率×前記特徴表現中の自立語の数/(前記特徴表現中の非自立語の数+1)により前記分類軸スコアを算出するステップを備える
クラスタリング方法。 - 請求項9又は10に記載のクラスタリング方法において、
前記特徴表現が名詞で終わっている場合、δ=1、前記特徴表現が名詞以外の品詞で終わっている場合、δ=0とすると、
前記分類軸スコアを算出するステップは、前記分類対象文書内出現確率×δにより前記分類軸スコアを算出するステップを備える
クラスタリング方法。 - 請求項9から13のいずれか1項に記載のクラスタリング方法において、
比較対照文書データの形態素解析を行ない、品詞情報を付与した形態素の抽象度が前記第1の閾値以上となるまで前記形態素を抽象化するステップと、
前記比較対照文書データにおいて連続して出現する2つの前記抽象化した形態素を、第2特徴表現抽出ルールとして決定するステップと、
前記第2特徴表現抽出ルールに適合する自然語表現を、第2特徴表現として比較対照文書記憶部から抽出するステップと、
前記比較対照文書データ内の文書数に対する前記第2特徴表現が出現する文書数の割合を比較対照文書内出現確率として算出するステップと、
前記特徴表現抽出ルールの前記分類対象文書内出現確率と、前記特徴表現抽出ルールと同一の第2特徴表現抽出ルールの前記比較対照文書内出現確率との比が第4の閾値以上である前記特徴表現抽出ルールの前記分類対象文書内出現確率を用いて、前記分類軸を抽出するステップと
を更に具備する
クラスタリング方法。 - 請求項9から14のいずれか1項に記載のクラスタリング方法において、
前記分類軸を含む特徴表現を、前記分類軸に関連する関連表現として抽出するステップと、
前記分類軸を、関連する前記関連表現とともに表示するステップと
を更に具備する
クラスタリング方法。 - 請求項9から15のいずれか1項に記載のクラスタリング方法をコンピュータに実行させるクラスタリングプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004328202A JP4671164B2 (ja) | 2004-11-11 | 2004-11-11 | 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004328202A JP4671164B2 (ja) | 2004-11-11 | 2004-11-11 | 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006139518A JP2006139518A (ja) | 2006-06-01 |
JP4671164B2 true JP4671164B2 (ja) | 2011-04-13 |
Family
ID=36620308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004328202A Expired - Fee Related JP4671164B2 (ja) | 2004-11-11 | 2004-11-11 | 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4671164B2 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4949012B2 (ja) * | 2006-12-27 | 2012-06-06 | 富士通テン株式会社 | 説明文章選択装置、説明文章選択方法、説明文章解析装置および説明文章解析方法 |
WO2010013472A1 (ja) | 2008-07-30 | 2010-02-04 | 日本電気株式会社 | データ分類システム、データ分類方法、及びデータ分類プログラム |
WO2010013473A1 (ja) * | 2008-07-30 | 2010-02-04 | 日本電気株式会社 | データ分類システム、データ分類方法、及びデータ分類プログラム |
JP4745422B2 (ja) * | 2009-05-29 | 2011-08-10 | 株式会社東芝 | 代表文抽出装置およびプログラム |
JP5319829B1 (ja) * | 2012-07-31 | 2013-10-16 | 楽天株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
JP6142617B2 (ja) * | 2013-03-27 | 2017-06-07 | 大日本印刷株式会社 | 情報処理装置、情報処理方法及び情報処理用プログラム |
WO2017158812A1 (ja) * | 2016-03-18 | 2017-09-21 | 株式会社日立製作所 | データ分類方法及びデータ分類装置 |
WO2018230551A1 (ja) * | 2017-06-16 | 2018-12-20 | 新日鉄住金ソリューションズ株式会社 | 情報処理装置、情報処理方法及びプログラム |
CN107862046B (zh) * | 2017-11-07 | 2019-03-26 | 宁波爱信诺航天信息有限公司 | 一种基于短文本相似度的税务商品编码分类方法及系统 |
CN112487181B (zh) * | 2019-09-12 | 2024-02-13 | 北京国双科技有限公司 | 关键词确定方法和相关设备 |
CN115062812A (zh) * | 2022-04-29 | 2022-09-16 | 中远海运科技股份有限公司 | 一种基于聚类算法的最佳航线规划方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001060199A (ja) * | 1999-08-20 | 2001-03-06 | Toshiba Corp | 文書分類装置、文書分類方法および文書分類プログラムを格納したコンピュータ読取り可能な記録媒体 |
JP3353829B2 (ja) * | 1999-08-26 | 2002-12-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 膨大な文書データからの知識抽出方法、その装置及び媒体 |
JP2001290826A (ja) * | 2000-04-05 | 2001-10-19 | Ricoh Co Ltd | 文書分類装置、文書分類方法及び文書分類プログラムを記録した記録媒体 |
JP4085568B2 (ja) * | 2000-10-31 | 2008-05-14 | 三菱電機株式会社 | テキストマイニング方法およびテキストマイニング装置並びにコンピュータ読み取り可能な記憶媒体 |
JP2003304401A (ja) * | 2002-04-09 | 2003-10-24 | Canon Inc | 画像符号化装置 |
JP4088167B2 (ja) * | 2003-02-03 | 2008-05-21 | 株式会社東芝 | テキスト分類ルール作成装置 |
-
2004
- 2004-11-11 JP JP2004328202A patent/JP4671164B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006139518A (ja) | 2006-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3429184B2 (ja) | テキスト構造解析装置および抄録装置、並びにプログラム記録媒体 | |
US7587420B2 (en) | System and method for question answering document retrieval | |
US9594747B2 (en) | Generation of a semantic model from textual listings | |
JP3759242B2 (ja) | 特徴確率自動生成方法及びシステム | |
JP3095552B2 (ja) | 同一の論題に関係する文献を検索する方法 | |
US7493252B1 (en) | Method and system to analyze data | |
US20100169317A1 (en) | Product or Service Review Summarization Using Attributes | |
US8443008B2 (en) | Cooccurrence dictionary creating system, scoring system, cooccurrence dictionary creating method, scoring method, and program thereof | |
US7398196B1 (en) | Method and apparatus for summarizing multiple documents using a subsumption model | |
JP2011529600A (ja) | 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置 | |
JP4671164B2 (ja) | 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム | |
CN109508441B (zh) | 通过自然语言实现数据统计分析的方法、装置及电子设备 | |
CN109298796B (zh) | 一种词联想方法及装置 | |
JP2020003880A (ja) | 表示システム、プログラム、及び記憶媒体 | |
JP2014106665A (ja) | 文書検索装置、文書検索方法 | |
JP2002132811A (ja) | 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体 | |
JP2002175330A (ja) | 情報検索装置,スコア決定装置,情報検索方法,スコア決定方法及びプログラム記録媒体 | |
JP5737079B2 (ja) | テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法 | |
JP7593043B2 (ja) | 要約生成装置、制御方法及びシステム | |
CN112463934B (zh) | 解析装置、解析方法及存储介质 | |
JP2000259653A (ja) | 音声認識装置及び音声認識方法 | |
JP2009129176A (ja) | 構造化文書検索装置、方法およびプログラム | |
JP2004258723A (ja) | 話題抽出装置、話題抽出方法およびプログラム | |
JP2005202924A (ja) | 対訳判断装置、方法及びプログラム | |
CN115129815A (zh) | 融合改进yake和神经网络的文本相似度计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071010 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100422 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100621 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101227 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4671164 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110109 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140128 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |