JP2006139518A - 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム - Google Patents
文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム Download PDFInfo
- Publication number
- JP2006139518A JP2006139518A JP2004328202A JP2004328202A JP2006139518A JP 2006139518 A JP2006139518 A JP 2006139518A JP 2004328202 A JP2004328202 A JP 2004328202A JP 2004328202 A JP2004328202 A JP 2004328202A JP 2006139518 A JP2006139518 A JP 2006139518A
- Authority
- JP
- Japan
- Prior art keywords
- feature expression
- document
- classification
- extraction rule
- document data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】本発明による文書クラスタリング装置は、分類対象となる文書データから、高確率で遷移する品詞又は形態素列を特徴表現抽出ルールとして決定する特徴表現抽出ルール決定部31と、文書データ内において特徴表現抽出ルールに対応する特徴表現を抽出する特徴表現抽出部32と、特徴表現の長さ、特徴表現を構成する品詞、分類対象文書内出現確率のうち1つ以上の要素から計算される分類軸スコアを計算し、その分類軸スコアに応じてランク付けした分類軸を出力する分類軸抽出部を備え、出力装置2に表示される分類軸の中から、ユーザが所望の分類軸が入力装置1により選択されクラスタリングが実行される。
【選択図】図1
Description
対象文書に対して比較の対象となる複数の文書を比較対照文書データとして保持する比較対照文書記憶部を更に具備し、
前記特徴表現ルール決定部は、
前記文書データの形態素解析を行ない、
前記文書データ内において、所定数の品詞及び所定数の形態素のうち、少なくとも1つ以上からなる所定の組み合わせの出現回数を計数し、前記出現回数から算出される第1の遷移スコアが、第2の閾値以上である前記組み合わせを第1の特徴表現抽出ルールとして決定し、前記文書データ内の文書数に対する前記第1の特徴表現抽出ルールが出現する文書数の割合である分類対象文書内ルール出現確率を算出し、
前記比較対照文書データの形態素解析を行ない、
前記比較対照文書データ内において、所定数の品詞及び所定数の形態素のうち、少なくとも1つ以上からなる所定の組み合わせの出現回数を計数し、前記出現回数から算出される第2の遷移スコアが、第2の閾値以上である前記組み合わせを第2の特徴表現抽出ルールとして決定し、前記比較対照文書データ内の文書数に対する前記第2の特徴表現抽出ルールが出現する文書数の割合である比較対照文書内ルール出現確率を算出し、
前記第1及び第2の特徴表現抽出ルールのうち、同一の特徴表現抽出ルールについて、比較対照文書内出現確率に対する分類対象文書内出現確率の比率が第3の閾値以上である特徴表現抽出ルールを特徴表現抽出ルールとして決定する
文書クラスタリング装置。
又、本発明による文書クラスタリング装置(100)は、出力装置(2)と、入力装置(1)と、関連表現抽出部(35)と、クラスタリング部(36)とクラスタ情報記憶部(45)とを更に備える。分類軸抽出部(33)は、分類軸(15)と、分類軸(15)に対応する分類軸スコア(14)とを出力装置(2)に出力し、出力装置(2)は、分類軸(15)を分類軸スコア(14)の降順に表示する。ユーザの操作により入力装置(1)は、表示された分類軸(15)から任意の分類軸(15)を選択する。関連表現抽出部(35)は、選択された分類軸(15)を含む特徴表現(12)を、分類軸(15)に関連する関連表現(16)として特徴表現記憶部(43)から抽出する。更に、クラスタリング部(36)は、分類軸(15)と、関連表現(16)を識別するクラスタIDと、関連表現(16)を含む文書を識別する文書IDとを関連付けて、クラスタ情報記憶部(36)に記憶する。
図1から図10を参照して、本発明による文書クラスタリング装置100の第1の実施の形態が説明される。
(遷移スコア13)=(出現確率)×(右方向遷移確率)×(左方向遷移確率)
従って、2−gram「[名詞−形容動詞語幹−静か][助動詞−な]」の遷移スコア13は、0.0002×0.4×0.2=1.6×10^(−5)となる。
(遷移スコア13)=(出現確率)×MAX{(右方向遷移確率)、(左方向遷移確率)}
としても、出現確率、又は右方向遷移確率、又は左方向遷移確率を単独で遷移スコア13として用いる方法でも、本発明の実施の形態に述べた方法に限定されない。
(分類軸スコア14)=(分類対象文書内出現確率17)×(特徴表現12中の名詞の数)/(特徴表現12を構成する形態素数)
例えば、特徴表現記憶部43に格納されている特徴表現12が図4のような場合、特徴表現12「イタリア料理」は、名詞2語からなるので、分類軸スコア14は、0.05×2/2=0.05
特徴表現12「フランス料理」は、名詞2語からなるので、分類軸スコア14は、0.02×2/2=0.02
特徴表現12「にぎやかな雰囲気」は、名詞2語と助動詞1語からなるので、分類軸スコア14は、0.08×2/3=0.05
特徴表現12「静かな雰囲気」は、名詞2語と助動詞1語からなるので、分類軸スコア14は、0.04×2/3=0.03
特徴表現12「料理」は、名詞1語からなるので、分類軸スコア14は、0.4×1/1=0.4
特徴表現12「雰囲気」は、名詞1語からなるので、分類軸スコア14は、0.3×1/1=0.3
(分類軸スコア14)=(分類対象文書内出現確率17)*(特徴表現12中の自立語の数)/{(特徴表現12中の非自立語の数)+1}
や、
(分類軸スコア14)=(分類対象文書内出現確率17)*δ
ただし、δ = 1(特徴表現12が名詞で終わっている場合)/0(特徴表現12が名詞以外の品詞で終わっている場合)
でも良く、本実施の形態に述べた方法に限定されない。
図11から図13を参照して、本発明による文書クラスタリング装置の第2の実施の形態が説明される。
1: 入力装置
2: 出力装置
3: データ処理装置
4: 記憶装置
30: クラスタリングプログラム
31、31’: 特徴表現抽出ルール決定部
32: 特徴表現抽出部
33: 分類軸抽出部
34: 分類軸選択部
35: 関連表現抽出部
36: クラスタリング部
37: CPU
38: RAM
41: 分類対象文書記憶部
42: 特徴表現抽出ルール記憶部
43: 特徴表現記憶部
44: 分類軸記憶部
45: クラスタ情報記憶部
10: 文書データ
11: 特徴表現抽出ルール
12: 特徴表現
13: 遷移スコア
14: 分類軸スコア
15: 分類軸
16: 関連表現
17: 分類対象文書内出現確率
18: 比較対照文書内出現確率
Claims (17)
- 分類対象である複数の文書を文書データとして保持する分類対象文書記憶部と、
前記文書データ内において、出現回数が所定の閾値以上である品詞又は文字列に基づいて、前記文書データを分類するための分類軸を決定するデータ処理装置とを具備する
文書クラスタリング装置。 - 請求項1に記載の文書クラスタリング装置において、
前記データ処理装置は、
前記文書データの形態素解析を行ない、
前記文書データ内において、所定数の品詞及び所定数の形態素のうち、少なくとも1つ以上からなる所定の組み合わせを、特徴表現抽出ルールとして決定する特徴表現抽出ルール決定部と、
前記文書データ内において、前記特徴表現抽出ルールと一致する形態素列に対応する言語表現を、特徴表現として前記分類対象文書記憶部から抽出し、前記文書データ内の文書数に対する前記特徴表現が出現する文書数の割合である分類対象文書内出現確率を算出する特徴表現抽出部と、
前記分類対象文書内出現確率と前記特徴表現を関連付けて記憶する特徴表現記憶部と、
前記分類対象文書内出現確率に基づく分類軸スコアが第1の閾値以上である特徴表現を、前記分類軸として前記特徴表現記憶部から抽出する分類軸抽出部とを備える
文書クラスタリング装置。 - 請求項2に記載の文書クラスタリング装置において、
前記特徴表現ルール決定部は、
前記文書データ内において、所定数の品詞及び所定数の形態素のうち、少なくとも1つ以上からなる所定の組み合わせの出現回数を計数し、前記出現回数から算出される第1の遷移スコアが、第2の閾値以上である前記組み合わせを前記特徴表現抽出ルールとして決定する
文書クラスタリング装置。 - 請求項2に記載の文書クラスタリング装置において、
前記文書と比較するための複数の文書を比較対照文書データとして保持する比較対照文書記憶部を更に具備し、
前記特徴表現ルール決定部は、
前記文書データの形態素解析を行ない、
前記文書データ内において、所定数の品詞及び所定数の形態素のうち、少なくとも1つ以上からなる所定の組み合わせの出現回数を計数し、前記出現回数から算出される第1の遷移スコアが、第2の閾値以上である前記組み合わせを第1の特徴表現抽出ルールとして決定し、前記文書データ内の文書数に対する前記第1の特徴表現抽出ルールが出現する文書数の割合である分類対象文書内ルール出現確率を算出し、
前記比較対照文書データの形態素解析を行ない、
前記比較対照文書データ内において、所定数の品詞及び所定数の形態素のうち、少なくとも1つ以上からなる所定の組み合わせの出現回数を計数し、前記出現回数から算出される第2の遷移スコアが、第2の閾値以上である前記組み合わせを第2の特徴表現抽出ルールとして決定し、前記比較対照文書データ内の文書数に対する前記第2の特徴表現抽出ルールが出現する文書数の割合である比較対照文書内ルール出現確率を算出し、
前記第1及び第2の特徴表現抽出ルールのうち、同一の特徴表現抽出ルールについて、比較対照文書内出現確率に対する分類対象文書内出現確率の比率が第3の閾値以上である特徴表現抽出ルールを特徴表現抽出ルールとして決定する
文書クラスタリング装置。 - 請求項3又は4に記載の文書クラスタリング装置において、
前記組み合わせは、連続して出現する2つの形態素による形態素列であり、
前記特徴表現抽出ルール決定部は前記遷移スコアとして、前記形態素列について、それぞれの形態素、又はその形態素の属する品詞の組み合わせが、前記文書データ内において連続して出現する回数、出現確率、前記2つの形態素における、前方の形態素の出現確率である右方向遷移確率、前記2つの形態素における、後方の形態素の出現確率である左方向遷移確率のうちいずれか1つ、又は複数の要素から計算する
文書クラスタリング装置。 - 請求項2から5いずれか1項に記載の文書クラスタリング装置において、
前記分類軸抽出部は、前記分類軸スコアとして、前記特徴表現の長さ、前記特徴表現を構成する品詞の数のうちいずれか1つ、又は複数の要素から計算する
文書クラスタリング装置。 - 請求項2から6いずれか1項に記載の文書クラスタリング装置において、
前記分類軸抽出部は、特徴表現を構成する形態素の数、特徴表現を構成する形態素に含まれる品詞の種類別の出現数、特徴表現を構成する形態素に含まれる自立語の数、特徴表現を構成する形態素に含まれる非自立語の数のうちいずれか1つ、又は複数の要素から前記分類軸スコアを計算する
文書クラスタリング装置。 - 請求項2から7いずれか1項に記載の文書クラスタリング装置において、
出力装置と、
入力装置と、
関連表現抽出部と、
クラスタリング部と
クラスタ情報記憶部とを更に備え、
前記分類軸抽出部は、前記分類軸と、前記分類軸に対応する分類軸スコアとを前記出力装置に出力し、
前記出力装置は、前記分類軸を前記分類軸スコアの降順に表示し、
前記入力装置は、表示された前記分類軸から任意の分類軸を選択し、
前記関連表現抽出部は、前記選択された分類軸を含む特徴表現を、前記分類軸に関連する関連表現として前記特徴表現記憶部から抽出し、
前記クラスタリング部は、前記分類軸と、前記関連表現を識別するクラスタIDと、前記関連表現を含む文書を識別する文書IDとを関連付けて、クラスタ情報記憶部に記憶する
文書クラスタリング装置。 - 複数の文書を含む文書データを形態素解析するステップと、
所定数の品詞及び所定数の形態素のうち、少なくとも1つ以上からなる所定の組み合わせを、特徴表現抽出ルールとして決定するステップと、
前記特徴表現抽出ルールと一致する形態素に対応する表現を特徴表現として抽出するステップと、
前記特徴表現の前記文書データにおける出現回数に基づき分類軸を抽出するステップと、
前記分類軸を表示するステップと、
前記表示された分類軸から前記文書の分類に使用する分類軸を選択するステップと、
選択された分類軸を含む特徴表現を関連表現として抽出するステップと、
前記関連表現を含む文書と、関連表現を識別するクラスタIDを関連付けて前記文書を分類するステップとを備える
クラスタリング方法。 - 請求項9に記載のクラスタリング方法であって、
前記特徴表現抽出ルールを決定するステップは、
前記文書データ内において、所定数の品詞及び所定数の形態素のうち、少なくとも1つ以上からなる所定の組み合わせの出現回数を計数するステップと、
前記出現回数から算出される第1の遷移スコアが、第2の閾値以上である前記組み合わせを前記特徴表現抽出ルールとして決定するステップとを含む
クラスタリング方法。 - 請求項10に記載のクラスタリング方法であって、
前記特徴表現抽出ルールを決定するステップは、
前記文書データ内において、所定数の品詞及び所定数の形態素のうち、少なくとも1つ以上からなる所定の組み合わせの出現回数を計数ステップと
前記出現回数から算出される第1の遷移スコアが、第2の閾値以上である前記組み合わせを第1の特徴表現抽出ルールとして決定するステップと、
前記文書データ内の文書数に対する前記第1の特徴表現抽出ルールが出現する文書数の割合である分類対象文書内ルール出現確率を算出するステップと、
前記文書と比較するための複数の文書を含む比較対照文書データを形態素解析するステップと、
前記比較対照文書データ内において、所定数の品詞及び所定数の形態素のうち、少なくとも1つ以上からなる所定の組み合わせの出現回数を計数するステップと、
前記出現回数から算出される第2の遷移スコアが、第2の閾値以上である前記組み合わせを第2の特徴表現抽出ルールとして決定するステップと、
前記比較対照文書データ内の文書数に対する前記第2の特徴表現抽出ルールが出現する文書数の割合である比較対照文書内ルール出現確率を算出するステップと、
前記第1及び第2の特徴表現抽出ルールのうち、同一の特徴表現抽出ルールについて、比較対照文書内出現確率に対する分類対象文書内出現確率の比率が第3の閾値以上である特徴表現抽出ルールを特徴表現抽出ルールとして決定するステップとを備える
クラスタリング方法。 - 請求項10又は11に記載のクラスタリング方法であって、
前記特徴表現抽出ルールを決定するステップにおいて、
前記組み合わせは、連続して出現する2つの形態素による形態素列であり、
前記形態素列について、それぞれの形態素、又はその形態素の属する品詞の組み合わせが、前記文書データ内において連続して出現する回数、出現確率、前記2つの形態素における、前方の形態素の出現確率である右方向遷移確率、前記2つの形態素における、後方の形態素の出現確率である左方向遷移確率のうちいずれか1つ、又は複数の要素から前記遷移スコアを算出するステップを更に備える
クラスタリング方法。 - 請求項9から12いずれか1項に記載のクラスタリング方法において、
前記分類軸を抽出するステップにおいて、
前記特徴表現の長さ、前記特徴表現を構成する品詞の数のうちいずれか1つ、又は複数の要素から前記分類軸スコアを計算するステップを更に含み、
前記分類軸スコアが第3の閾値以上である特徴表現を前記分類軸として抽出する
クラスタリング方法。 - 請求項10から13いずれか1項に記載のクラスタリング方法において、
前記分類軸を抽出するステップにおいて、
前記分類軸スコアとして、特徴表現を構成する形態素の数、特徴表現を構成する形態素に含まれる品詞の種類別の出現数、特徴表現を構成する形態素に含まれる自立語の数、特徴表現を構成する形態素に含まれる非自立語の数のうちいずれか1つ、又は複数の要素から分類軸スコアを計算する
クラスタリング方法。 - 請求項9から14いずれか1項に記載のクラスタリング方法をコンピュータに実行させるクラスタリングプログラム。
- 複数の文書を含む文書データの形態素解析を行なうステップと、
前記文書データ内において、所定数の品詞及び所定数の形態素のうち、少なくとも1つ以上からなる所定の組み合わせの前記文書データ内における出現回数を計数するステップと、
前記出現回数から算出される第1の遷移スコアが、第1の閾値以上である前記組み合わせを特徴表現抽出ルールとして決定するステップと、
前記文書データ内において、前記特徴表現抽出ルールと一致する形態素列に対応する言語表現を、特徴表現として抽出するステップとを具備する
特徴表現抽出方法。 - 複数の文書を含む文書データの形態素解析を行なうステップと、
前記文書データ内において、所定数の品詞及び所定数の形態素のうち、少なくとも1つ以上からなる所定の組み合わせの前記文書データ内における出現回数を計数するステップと、
前記出現回数から算出される第1の遷移スコアが、第1の閾値以上である前記組み合わせを第1の特徴表現抽出ルールとして決定するステップと、
前記文書データ内の文書数に対する前記第1の特徴表現抽出ルールが出現する文書数の割合である分類対象文書内ルール出現確率を算出するステップと、
前記文書と比較するための複数の文書を含む比較対照文書データを形態素解析するステップと、
前記比較対照文書データ内において、所定数の品詞及び所定数の形態素のうち、少なくとも1つ以上からなる所定の組み合わせの出現回数を計数するステップと、
前記出現回数から算出される第2の遷移スコアが、第1の閾値以上である前記組み合わせを第2の特徴表現抽出ルールとして決定するステップと、
前記比較対照文書データ内の文書数に対する前記第2の特徴表現抽出ルールが出現する文書数の割合である比較対照文書内ルール出現確率を算出するステップと、
前記第1及び第2の特徴表現抽出ルールのうち、同一の特徴表現抽出ルールについて、比較対照文書内出現確率に対する分類対象文書内出現確率の比率が第3の閾値以上である特徴表現抽出ルールを特徴表現抽出ルールとして決定するステップと、
前記文書データ内において、前記特徴表現抽出ルールと一致する形態素列に対応する言語表現を、特徴表現として抽出するステップとを具備する
特徴表現抽出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004328202A JP4671164B2 (ja) | 2004-11-11 | 2004-11-11 | 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004328202A JP4671164B2 (ja) | 2004-11-11 | 2004-11-11 | 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006139518A true JP2006139518A (ja) | 2006-06-01 |
JP4671164B2 JP4671164B2 (ja) | 2011-04-13 |
Family
ID=36620308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004328202A Active JP4671164B2 (ja) | 2004-11-11 | 2004-11-11 | 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4671164B2 (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008165437A (ja) * | 2006-12-27 | 2008-07-17 | Fujitsu Ten Ltd | 説明文章選択装置、説明文章選択方法、説明文章解析装置および説明文章解析方法 |
WO2010013473A1 (ja) * | 2008-07-30 | 2010-02-04 | 日本電気株式会社 | データ分類システム、データ分類方法、及びデータ分類プログラム |
JP2010277409A (ja) * | 2009-05-29 | 2010-12-09 | Toshiba Corp | 代表文抽出装置およびプログラム |
TWI452535B (zh) * | 2012-07-31 | 2014-09-11 | Rakuten Inc | Information processing devices, information processing methods and information processing products |
JP2014191648A (ja) * | 2013-03-27 | 2014-10-06 | Dainippon Printing Co Ltd | 情報処理装置、情報処理方法及び情報処理用プログラム |
US9342589B2 (en) | 2008-07-30 | 2016-05-17 | Nec Corporation | Data classifier system, data classifier method and data classifier program stored on storage medium |
WO2017158812A1 (ja) * | 2016-03-18 | 2017-09-21 | 株式会社日立製作所 | データ分類方法及びデータ分類装置 |
CN107862046A (zh) * | 2017-11-07 | 2018-03-30 | 宁波爱信诺航天信息有限公司 | 一种基于短文本相似度的税务商品编码分类方法及系统 |
CN110612524A (zh) * | 2017-06-16 | 2019-12-24 | 日铁系统集成株式会社 | 信息处理装置、信息处理方法以及程序 |
CN112487181A (zh) * | 2019-09-12 | 2021-03-12 | 北京国双科技有限公司 | 关键词确定方法和相关设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001060199A (ja) * | 1999-08-20 | 2001-03-06 | Toshiba Corp | 文書分類装置、文書分類方法および文書分類プログラムを格納したコンピュータ読取り可能な記録媒体 |
JP2001084250A (ja) * | 1999-08-26 | 2001-03-30 | Internatl Business Mach Corp <Ibm> | 膨大な文書データからの知識抽出方法、その装置及び媒体 |
JP2001290826A (ja) * | 2000-04-05 | 2001-10-19 | Ricoh Co Ltd | 文書分類装置、文書分類方法及び文書分類プログラムを記録した記録媒体 |
JP2002140346A (ja) * | 2000-10-31 | 2002-05-17 | Mitsubishi Electric Corp | テキストマイニング方法およびテキストマイニング装置並びにコンピュータ読み取り可能な記憶媒体 |
JP2003304401A (ja) * | 2002-04-09 | 2003-10-24 | Canon Inc | 画像符号化装置 |
JP2004240517A (ja) * | 2003-02-03 | 2004-08-26 | Toshiba Corp | テキスト分類ルール作成装置、テキスト分類ルール作成方法およびテキスト分類ルール作成プログラム |
-
2004
- 2004-11-11 JP JP2004328202A patent/JP4671164B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001060199A (ja) * | 1999-08-20 | 2001-03-06 | Toshiba Corp | 文書分類装置、文書分類方法および文書分類プログラムを格納したコンピュータ読取り可能な記録媒体 |
JP2001084250A (ja) * | 1999-08-26 | 2001-03-30 | Internatl Business Mach Corp <Ibm> | 膨大な文書データからの知識抽出方法、その装置及び媒体 |
JP2001290826A (ja) * | 2000-04-05 | 2001-10-19 | Ricoh Co Ltd | 文書分類装置、文書分類方法及び文書分類プログラムを記録した記録媒体 |
JP2002140346A (ja) * | 2000-10-31 | 2002-05-17 | Mitsubishi Electric Corp | テキストマイニング方法およびテキストマイニング装置並びにコンピュータ読み取り可能な記憶媒体 |
JP2003304401A (ja) * | 2002-04-09 | 2003-10-24 | Canon Inc | 画像符号化装置 |
JP2004240517A (ja) * | 2003-02-03 | 2004-08-26 | Toshiba Corp | テキスト分類ルール作成装置、テキスト分類ルール作成方法およびテキスト分類ルール作成プログラム |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008165437A (ja) * | 2006-12-27 | 2008-07-17 | Fujitsu Ten Ltd | 説明文章選択装置、説明文章選択方法、説明文章解析装置および説明文章解析方法 |
WO2010013473A1 (ja) * | 2008-07-30 | 2010-02-04 | 日本電気株式会社 | データ分類システム、データ分類方法、及びデータ分類プログラム |
JP5423676B2 (ja) * | 2008-07-30 | 2014-02-19 | 日本電気株式会社 | データ分類システム、データ分類方法、及びデータ分類プログラム |
US9342589B2 (en) | 2008-07-30 | 2016-05-17 | Nec Corporation | Data classifier system, data classifier method and data classifier program stored on storage medium |
US9361367B2 (en) | 2008-07-30 | 2016-06-07 | Nec Corporation | Data classifier system, data classifier method and data classifier program |
JP2010277409A (ja) * | 2009-05-29 | 2010-12-09 | Toshiba Corp | 代表文抽出装置およびプログラム |
TWI452535B (zh) * | 2012-07-31 | 2014-09-11 | Rakuten Inc | Information processing devices, information processing methods and information processing products |
JP2014191648A (ja) * | 2013-03-27 | 2014-10-06 | Dainippon Printing Co Ltd | 情報処理装置、情報処理方法及び情報処理用プログラム |
WO2017158812A1 (ja) * | 2016-03-18 | 2017-09-21 | 株式会社日立製作所 | データ分類方法及びデータ分類装置 |
JPWO2017158812A1 (ja) * | 2016-03-18 | 2018-06-07 | 株式会社日立製作所 | データ分類方法及びデータ分類装置 |
CN110612524A (zh) * | 2017-06-16 | 2019-12-24 | 日铁系统集成株式会社 | 信息处理装置、信息处理方法以及程序 |
CN110612524B (zh) * | 2017-06-16 | 2023-11-10 | 日铁系统集成株式会社 | 信息处理装置、信息处理方法以及记录介质 |
CN107862046A (zh) * | 2017-11-07 | 2018-03-30 | 宁波爱信诺航天信息有限公司 | 一种基于短文本相似度的税务商品编码分类方法及系统 |
CN107862046B (zh) * | 2017-11-07 | 2019-03-26 | 宁波爱信诺航天信息有限公司 | 一种基于短文本相似度的税务商品编码分类方法及系统 |
CN112487181A (zh) * | 2019-09-12 | 2021-03-12 | 北京国双科技有限公司 | 关键词确定方法和相关设备 |
CN112487181B (zh) * | 2019-09-12 | 2024-02-13 | 北京国双科技有限公司 | 关键词确定方法和相关设备 |
Also Published As
Publication number | Publication date |
---|---|
JP4671164B2 (ja) | 2011-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3429184B2 (ja) | テキスト構造解析装置および抄録装置、並びにプログラム記録媒体 | |
US7587420B2 (en) | System and method for question answering document retrieval | |
CN109314660A (zh) | 在自动聊天中提供新闻推荐 | |
US8443008B2 (en) | Cooccurrence dictionary creating system, scoring system, cooccurrence dictionary creating method, scoring method, and program thereof | |
JPH0916630A (ja) | 自然言語ドキュメントのセンテンスからセンテンスの部分集合を自動的に抽出する方法及びその製造品 | |
JPH08272826A (ja) | 文書加工方法および装置 | |
US6219665B1 (en) | Retrieval menu creation device, a retrieval menu creation method, and a recording medium that stores a retrieval menu creation program | |
Lu et al. | Spell checker for consumer language (CSpell) | |
JP2012221316A (ja) | 文書トピック抽出装置及び方法及びプログラム | |
JP4671164B2 (ja) | 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム | |
JP2014106665A (ja) | 文書検索装置、文書検索方法 | |
JP5737079B2 (ja) | テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法 | |
JP2002132811A (ja) | 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体 | |
JP2002175330A (ja) | 情報検索装置,スコア決定装置,情報検索方法,スコア決定方法及びプログラム記録媒体 | |
JP5302614B2 (ja) | 施設関連情報の検索データベース形成方法および施設関連情報検索システム | |
CN112528638A (zh) | 异常对象识别方法及装置、电子设备、存储介质 | |
JP2019200784A (ja) | 分析方法、分析装置及び分析プログラム | |
JP4525433B2 (ja) | 文書集約装置及びプログラム | |
JP2009129176A (ja) | 構造化文書検索装置、方法およびプログラム | |
JP2009295101A (ja) | 音声データ検索システム | |
JP2007293377A (ja) | 主観的ページと非主観的ページを分離する入出力装置 | |
JP2007172179A (ja) | 意見抽出装置、意見抽出方法、および意見抽出プログラム | |
JP2005122665A (ja) | 電子機器装置、関連語データベースの更新方法、プログラム | |
JP2004258723A (ja) | 話題抽出装置、話題抽出方法およびプログラム | |
JP2003167894A (ja) | 関連語自動抽出方法、関連語自動抽出装置、複数重要語抽出プログラムおよび重要語上下階層関係抽出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071010 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100422 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100621 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101227 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4671164 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110109 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140128 Year of fee payment: 3 |