JPH08166965A - 日本語テキスト自動分類方法 - Google Patents

日本語テキスト自動分類方法

Info

Publication number
JPH08166965A
JPH08166965A JP6310875A JP31087594A JPH08166965A JP H08166965 A JPH08166965 A JP H08166965A JP 6310875 A JP6310875 A JP 6310875A JP 31087594 A JP31087594 A JP 31087594A JP H08166965 A JPH08166965 A JP H08166965A
Authority
JP
Japan
Prior art keywords
text
category
frequency
language expression
modifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6310875A
Other languages
English (en)
Inventor
Rintarou Sunaba
倫太郎 砂場
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP6310875A priority Critical patent/JPH08166965A/ja
Publication of JPH08166965A publication Critical patent/JPH08166965A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 予めいくつかのカテゴリに分類されたテキス
トデータベースに対して、カテゴリ固有の単語(名詞、
動詞、形容詞、形容動詞)および修飾語・被修飾語対等
の言語表現の出現頻度情報を学習することによって新規
に入力された日本語テキストを自動的に分類する日本語
テキスト自動分類方法を提供する。 【構成】 分類ルール自動学習部17が学習用テキスト
蓄積装置6をアクセスして分類済みのテキストから学習
することにより対カテゴリ言語表現重要度テーブル7お
よび対カテゴリ言語表現重要度テーブル8を作成し、ユ
ーザテキスト入力装置19から入力されたテキストに対
してテキスト自動分類部18が対カテゴリ言語表現重要
度テーブル8をアクセスして分類した結果を分類結果表
示装置20から出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、日本語テキスト処理装
置などにおいてテキストに出現する単語(名詞、形容
詞、動詞、形容動詞)、更に単語の組に注目し、予め分
類されたテキストデータベース中の単語および単語の組
の頻度を特徴として抽出し、新規のテキストの分類を行
う日本語テキスト自動分類方法に関する。
【0002】
【従来の技術】従来のテキスト分類方法には各種のもの
が存在する。例えば、従来のテキスト分類方法では、テ
キストの分類のための手がかりとして、主としてテキス
ト中の人名、学術用語、製品名といった名詞をキーワー
ドに用いるものがあるが、この場合にはカテゴリを特徴
付けるキーワードやキーワードの組合せパターンを人手
で作成し、その条件検索によりテキストのカテゴリを特
定している。
【0003】
【発明が解決しようとする課題】しかしながら、キーワ
ードパターンは基本的に対象データベースの領域や分野
に大きく依存しているばかりでなく、データベースが大
規模化するにつれてキーワードの組合せパターンのルー
ルを人手で作成することが困難になってくる。
【0004】また、分類の判断基準は、カテゴリ特有に
作成したキーワードパターンの存在の有無であり、同じ
キーワードが複数のカテゴリに存在する場合、分類の確
からしさを確率的に判断することができなかった。
【0005】また、対象データベース中のテキストが新
聞記事のように具体的な情報の記録や伝達を主目的とし
ている場合は、分類の際に必要になるキーワードには具
象物、明確な概念名詞、物理的属性で表現される単語で
あり、分類のキーワードは主として名詞であるが、手紙
文や電報文のように、人間の感覚や感情を伝えることが
主目的であるテキストの分類には、形容詞、形容動詞が
キーワードとして重要となってくる。
【0006】このように今後、テキスト自動分類装置の
対象データベースの大規模化、広範囲化が進むにつれ、
分類ルールを自動的に作成すること、分類ルールに確率
的要素を導入することによって、より精度の高い条件判
断を行うこと、分類ルールに用いる単語パターンとして
名詞だけでなく、形容詞、動詞、形容動詞等の活用する
単語も考慮することが新たに必要になる。
【0007】本発明は、上記に鑑みてなされたもので、
その目的とするところは、予めいくつかのカテゴリに分
類されたテキストデータベースに対して、カテゴリ固有
の単語(名詞、動詞、形容詞、形容動詞)および修飾語
・被修飾語対等の言語表現の出現頻度情報を学習するこ
とによって新規に入力された日本語テキストを自動的に
分類する日本語テキスト自動分類方法を提供することに
ある。
【0008】
【課題を解決するための手段】上記目的を達成するた
め、本発明の日本語テキスト自動分類方法は、日本語の
テキストに対して単語および単語の組の頻度を特徴とし
て抽出し、テキストの分類を行う日本語テキスト自動分
類方法であって、分類済みテキストアクセス工程にて学
習用テキスト蓄積装置に蓄積されている分類ルール抽出
のためのテキストをカテゴリ毎にアクセスし、言語表現
頻度解析工程にて入力テキスト中の名詞、動詞、形容
詞、形容動詞、および修飾語・被修飾語対といった言語
表現の出現頻度を計測し、対カテゴリ言語表現頻度テー
ブル作成工程にて各カテゴリ毎の言語表現の出現頻度の
蓄積テーブルを作成し、頻度計測終了判定の後に、対カ
テゴリ言語表現重要度テーブル作成工程にて、各カテゴ
リ毎の言語表現の出現頻度を正規化した値の蓄積テーブ
ルを作成する分類ルール自動学習工程と、新規テキスト
入力工程にてカテゴリ判定のための新規テキストを入力
し、言語表現類似度判定工程にて新規のテキストに出現
する言語表現の頻度と、カテゴリ毎の言語表現重要度と
の類似度を計算した後、該新規テキストのカテゴリを判
定し、分類結果出力工程にて前記新規テキストのカテゴ
リ判定結果を出力するテキスト自動分類工程とを備えた
ことを要旨とする。
【0009】また、本発明の日本語テキスト自動分類方
法は、前記分類ルール自動学習工程内の言語表現頻度解
析において、入力テキストを単語に分割し、名詞、動
詞、形容詞、形容動詞といった自立語をラベルし、形態
素解析を行う工程と、形態素解析の結果から、修飾語と
被修飾語の対を抽出し、修飾語・被修飾語解析を行う工
程と、形態素解析と修飾語・被修飾語解析の結果から言
語表現のリストを作成する言語表現抽出工程と、入力テ
キスト中の言語表現の出現頻度を計測する言語表現出現
頻度測定工程とを有することを要旨とする。
【0010】
【作用】本発明の日本語テキスト自動分類方法では、学
習用テキスト蓄積装置に蓄積されているテキストをカテ
ゴリ毎にアクセスし、入力テキスト中の名詞、動詞、形
容詞、形容動詞および修飾語・被修飾語対といった言語
表現の出現頻度を計測し、各カテゴリ毎の言語表現の出
現頻度の蓄積テーブルを作成し、各カテゴリ毎の言語表
現の出現頻度を正規化した値の蓄積テーブルを作成し、
カテゴリ判定のための新規テキストを入力し、新規のテ
キストに出現する言語表現の頻度とカテゴリ毎の言語表
現重要度との類似度を計算した後、該新規テキストのカ
テゴリを判定し、新規テキストのカテゴリ判定結果を出
力する。
【0011】また、本発明の日本語テキスト自動分類方
法では、前記分類ルール自動学習工程内の言語表現頻度
解析において、入力テキストを単語に分割し、名詞、動
詞、形容詞、形容動詞といった自立語をラベルし、形態
素解析を行い、形態素解析の結果から修飾語と被修飾語
の対を抽出し、修飾語・被修飾語解析を行い、形態素解
析と修飾語・被修飾語解析の結果から言語表現のリスト
を作成し、入力テキスト中の言語表現の出現頻度を計測
する。
【0012】
【実施例】以下、図面を用いて本発明の実施例を説明す
る。
【0013】図1は、本発明の一実施例に係る日本語テ
キスト自動分類方法を実施する日本語テキスト自動分類
装置の構成を示すブロック図である。同図に示す日本語
テキスト自動分類装置は、分類ルールの抽出のための学
習用テキストを蓄積する学習用テキスト蓄積装置6と、
各カテゴリ毎の言語表現の出現頻度を蓄積する対カテゴ
リ言語表現頻度テーブル7と、各カテゴリ毎の言語表現
の出現頻度を正規化した値を蓄積する対カテゴリ言語表
現重要度テーブル8と、前記学習用テキスト蓄積装置6
をアクセスして、分類済みのテキストから学習すること
により前記対カテゴリ言語表現重要度テーブル7および
対カテゴリ言語表現重要度テーブル8を作成する分類ル
ール自動学習部17と、カテゴリ判定のための新規のテ
キストを入力するユーザテキスト入力装置19と、前記
対カテゴリ言語表現重要度テーブル8に蓄積されている
分類ルールをアクセスして、前記ユーザテキスト入力装
置19から入力された新規テキストを分類するテキスト
自動分類部18と、該テキスト自動分類部18で分類さ
れた結果を出力表示する分類結果表示装置20とから構
成されている。
【0014】また、前記分類ルール自動学習部17は、
図2(a)に示すように、学習用テキスト蓄積装置6に
蓄積されている分類ルール抽出のためのテキストをカテ
ゴリ毎にアクセスする分類済みテキストアクセス部1
と、入力テキスト中の名詞、動詞、形容詞、形容動詞、
修飾語・被修飾語対といった言語表現の出現頻度を計測
する言語表現頻度解析部2と、各カテゴリ毎の言語表現
の出現頻度の蓄積テーブルを作成する対カテゴリ言語表
現頻度テーブル作成部3と、頻度計測の終点時点を判定
する頻度計測終了判定部4と、各カテゴリ毎の言語表現
の出現頻度を正規化した値の蓄積テーブルを作成する対
カテゴリ言語表現重要度テーブル作成部5とから構成さ
れている。
【0015】更に、前記テキスト自動分類部18は、図
2(b)に示すように、カテゴリ判定のための新規のテ
キストを入力する新規テキスト入力部9と、入力テキス
ト中の名詞、動詞、形容詞、形容動詞、修飾語・被修飾
語対といった言語表現の出現頻度を計測する言語表現頻
度解析部2と、新規のテキストに出現する言語表現の頻
度とカテゴリ毎の言語表現重要度との類似度を計算する
言語表現類似度判定部10と、新規に入力したテキスト
のカテゴリ判定結果を出力する分類結果出力部11とか
ら構成されている。
【0016】また更に、前記言語表現頻度解析部2は、
図3に示すように、テキストを入力するテキスト入力部
12と、テキストを単語に分割し、名詞、動詞、形容
詞、形容動詞といった自立語をラベルする形態素解析部
13と、形態素解析の結果から、修飾語・被修飾語の対
を抽出する修飾語/被修飾語対解析部14と、形態素解
析部13と修飾語/被修飾語対解析部14の結果から言
語表現のリストを作成する言語表現抽出部15と、テキ
スト中の言語表現の出現頻度を計測する言語表現出現頻
度測定部16とから構成されている。
【0017】以上のように構成される日本語テキスト自
動分類装置において、まずテキストを自動的に分類する
ための分類ルール自動学習部17について説明する。
【0018】言語表現とは名詞、動詞、形容詞、形容動
詞といった自立語と、自立語の中でも修飾語・被修飾語
の関係にある対と定義する。学習用テキスト蓄積装置6
には、n個のカテゴリに予め分類されたテキストが蓄積
されている。テキストは特に文や章で区切られておら
ず、同じカテゴリに分類されたテキストが順番に格納さ
れている。分類ルール自動学習部17の前記分類済みテ
キストアクセス部1は、c1 からcn までのカテゴリに
分類されているテキストを順番にアクセスする。ここで
は、カテゴリcx のテキストを言語表現頻度解析部2に
出力する。
【0019】言語表現頻度解析部2は、図3に示すよう
に、テキスト入力部12へ入力されたテキストを形態素
解析部13へ出力する。形態素解析部13では、テキス
トを形態素解析することにより、単語に分割し、品詞を
付与し、リスト形式で出力する。修飾語/被修飾語対解
析部14は、単語に分割されたテキストを解析し、修飾
語・被修飾語の関係にある単語の組の対を抽出し、順に
リストにして出力する。
【0020】言語表現抽出部15では、形態素解析部1
3の出力である形態素解析列から名詞、動詞、形容詞、
形容動詞といった自立語のみを抽出し、リストを作成す
る。また、修飾語/被修飾語対解析部14の出力である
修飾語・被修飾語の対のリストも結合し、言語出現頻度
測定部16へ出力する。
【0021】言語出現頻度測定部16では、言語表現の
出現頻度を測定する。カテゴリcxのテキストに対し
て、言語表現tk が出現した頻度dxkをカウントし、図
4の対カテゴリ言語表現頻度テーブル上のcx の列に格
納する。そして、頻度計測終了判定部4においてx=n
になるまで、この作用を全てのカテゴリに対して繰り返
し、対カテゴリ言語表現頻度テーブル7を作成する。
【0022】対カテゴリ言語表現重要度テーブル作成部
5は、対カテゴリ言語表現頻度テーブル7を正規化す
る。正規化の計算式は
【数1】 とする。ここで、dijはカテゴリci のテキスト中に存
在した言語表現tj の頻度、wijはカテゴリci に対す
る言語表現tj の重要度である。wijは言語表現tj
ある特定のカテゴリci 中にどれだけの割合で存在して
いたかを示す。このwijを全てのtijに対して求め、図
5に示す対カテゴリ言語表現重要度テーブル8を作成す
る。
【0023】次に、テキスト自動分類部18について説
明する。
【0024】新規のテキストをテキスト自動分類部18
の前記新規テキスト入力部9に入力すると、テキストは
言語表現頻度解析部2に入力される。言語表現頻度解析
部2では、入力されたテキストを形態素解析、構文解析
を行った後、自立語、修飾語・被修飾語の対を抽出し、
対カテゴリ言語表現重要度テーブル8上の言語表現tk
の新規テキスト中における出現頻度をカウントする(図
6)。この新規テキストにおける出現頻度を1次元配列
で表現すると、 N=(y1 ,y2 ,…,yn ) ここで、yj は新規例文中の言語表現tj の出現頻度で
ある。
【0025】作成された新規テキスト言語表現頻度分布
は言語表現類似度判定部10に入力され、対カテゴリ言
語表現重要度テーブル8の各カテゴリci 毎に類似度S
i を計算する。カテゴリci に対する言語表現tの頻度
を1次元配列で表現すると、 Vi =(wi1,wi2,…,win) ここで、winは言語表現tn のカテゴリci の頻度であ
る。
【0026】新規テキストがこのカテゴリci に属する
確からしさは1次元配列NとVi の類似度Si で表現す
る。
【0027】
【数2】 この類似度Si を全てのカテゴリについて計算する。類
似度Si がi=1で最大となった場合、新規入力テキス
トのカテゴリはc1 と判定される。
【0028】次に具体例として、予め分類されている電
報文データベースを用いた学習と新規に入力された電報
文のカテゴリの判定例を説明する。
【0029】学習用テキスト蓄積装置6には、電報文が
結婚式、結婚記念日、誕生日、卒業式といった目的に応
じたカテゴリに分類・蓄積されている。まず、カテゴリ
「結婚式」に分類されている電報文例の学習について説
明する。「結婚式」例文データベース中に存在する言語
表現の頻度を測定する。分類済みテキストアクセス部1
が学習用テキスト蓄積装置6のカテゴリc1 「結婚式」
の第一文にアクセスする。
【0030】 ”春の微風に乗って、新しい門出おめでとう。二人仲良
く、めざせ21世紀” この文は言語表現頻度解析部2へ入力される。言語表現
頻度解析部2のテキスト入力部12に入力された電報文
は、形態素解析部13において形態素解析され、名詞、
動詞、形容詞、形容動詞は自立語とマークされる。この
例では次のように形態素に分割される。”/”は形態素
の区切り記号である。 ”春(自立語)/の/微風(自立語)/に /乗っ(自立語)/て/、/新しい(自立語) /門出(自立語)/おめでとう(自立語)/。 /二人(自立語)/仲良く(自立語)/、 /めざせ(自立語)/21世紀(自立語)” 形態素が動詞・形容詞・形容動詞の場合には終止形情報
も付与する。言語表現抽出部15では、自立語と修飾語
・被修飾語の対を抽出する。自立語は終止形で抽出され
る。
【0031】 (春 微風 乗る 新しい 門出 おめでとう 二人 仲良い めざす 21世紀) 修飾語/被修飾語対解析部14では修飾語・被修飾語の
関係にある自立語の対を抽出する。
【0032】 ((春 微風)(新しい 門出)(二人 仲良い)) 言語表現抽出部15は最終的に自立語と、修飾語・被修
飾語のリストを結合し、出力する。
【0033】 (春 微風 乗る 新しい 門出 おめでとう 二人 仲良い めざす 21世紀 (春 微風)(新しい 門出)(二人 仲良い)) 言語表現出現頻度測定部16は、1つの言語表現に対し
て、対カテゴリ言語表現頻度テーブル7中のc1 の列に
頻度を記憶する変数を確保し、頻度を書き込む。この最
初の例文の場合はどの言語表現も1度しか出現していな
いので、頻度は1となる。この作用をカテゴリc1 「結
婚式」の全ての電報例文について行い、カテゴリc
1 「結婚式」中に存在する言語表現tと、その頻度の1
次元配列が対カテゴリ言語表現頻度テーブル7に書き込
まれる。
【0034】頻度計測終了判定部4から、再び分類済み
テキストアクセス部1へ戻り、分類済みテキストアクセ
ス部1ではカテゴリc2 のテキストについて、上述した
と同じ作用を繰り返し行う。頻度計測が全てのカテゴリ
について終わると、対カテゴリ言語表現頻度テーブル7
(図7)が完成する。
【0035】対カテゴリ言語表現重要度テーブル作成部
5では、対カテゴリ言語表現頻度テーブル7を参照し、
対カテゴリ言語表現重要度テーブル8を作成する。例え
ば言語表現t1 「おめでとう」のカテゴリc1 「結婚
式」における、重要度w11を計算すると、
【数3】 となる。この重要度を5つのカテゴリc、全ての言語表
現tについて求め、図8に示す対カテゴリ言語表現重要
度テーブル8に書き込む。
【0036】次に、判定部の具体的な例を次の電報例文
で説明する。 「ご結婚おめでとう。二人で植えよう愛の木を。 そして咲かせよう、幸せの花を。」 新規テキスト入力部9に入力された電報例文は、言語表
現頻度解析部2へ出力され、言語表現tが抽出される。
【0037】 (結婚 おめでとう ふたり 植える 愛 木 咲く 幸せ 花 (愛 木)(幸せ 花)) 抽出された言語表現の頻度分布を図9に示す。例では、
全ての言語表現について頻度を図示することができない
ので、この表の範囲の言語表現だけで、カテゴリ「結婚
式」における類似度を計算する。新規テキストにおける
出現頻度を1次元配列で表現すると、
【数4】N=(1,0,0,0,0,0,0,0,1,
1,0,0) ここで対カテゴリ言語表現重要度テーブル8を参照し、
カテゴリ「結婚式」における言語表現の重要度を1次元
配列にすると、
【数5】V1 =(0.29,0.71,0.53,0.
22,0.50,0.45,0.14,0.27,0.
49,0.79,0.23,0.00) 類似度S1 を計算すると、
【数6】 同様の計算を他のカテゴリについて行うと、カテゴリi
に対する類似度は、
【数7】Sn =(0.26,0.09,0.08,0.
15,0.00) と求められ、類似度が最大となるのはS1 =0.26の
場合であり、対応するカテゴリc1 「結婚式」の電報文
と分類される。
【0038】上述したように、本発明の日本語テキスト
自動分類方法は、言語表現の頻度の測定対象として名詞
だけでなく、動詞、形容詞、形容動詞等の活用する単
語、修飾語・被修飾語の関係にある単語の対も対象にし
ている点、予め分類されたテキスト中の言語表現の頻度
から各カテゴリに対する言語表現重要度テーブルを作成
する点、および新規に入力されたテキストの言語表現出
現頻度を測定し、対カテゴリ言語表現重要度テーブルと
の類似度を計算することによって入力テキストを分類す
る点に特徴があり、従来の技術と異なる。
【0039】
【発明の効果】以上説明したように、本発明によれば、
テキスト分類のためのルールを人手で作成することなし
に、カテゴリ特有に出現する名詞のみならず、形容詞、
動詞、形容動詞や修飾語・被修飾語の対といった言語表
現の頻度のパターンを自動的に抽出し、新規に入力され
るテキストを言語表現の頻度パターンとの類似度を計算
することによって、最も確からしいカテゴリにテキスト
を分類することができる。
【図面の簡単な説明】
【図1】本発明の一実施例に係る日本語テキスト自動分
類方法を実施する日本語テキスト自動分類装置の構成を
示すブロック図である。
【図2】図1の日本語テキスト自動分類装置に使用され
ている分類ルール自動学習部およびテキスト自動分類部
の構成を示すブロック図である。
【図3】図2に示す分類ルール自動学習部およびテキス
ト自動分類部に使用されている言語表現頻度解析部の構
成を示すブロック図である。
【図4】図1の日本語テキスト自動分類装置に使用され
ている対カテゴリ言語表現重要度テーブルを示す図であ
る。
【図5】図1の日本語テキスト自動分類装置に使用され
ている対カテゴリ言語表現重要度テーブルを示す図であ
る。
【図6】新規テキストの言語表現出現頻度テーブルを示
す図である。
【図7】対カテゴリ言語表現頻度テーブルの一例を示す
図である。
【図8】対カテゴリ言語表現重要度テーブルの一例を示
す図である。
【図9】新規テキストの言語表現出現頻度テーブルの一
例を示す図である。
【符号の説明】
1 分類済みテキストアクセス部 2 言語表現頻度解析部 3 対カテゴリ言語表現頻度テーブル作成部 4 頻度計測終了判定部 5 対カテゴリ言語表現重要度テーブル作成部 6 学習用テキスト蓄積装置 7,8 対カテゴリ言語表現重要度テーブル 9 新規テキスト入力部 10 言語表現類似度判定部 13 形態素解析部 14 修飾語/被修飾語対解析部 15 言語表現抽出部 16 言語表現出現頻度測定部 17 分類ルール自動学習部 18 テキスト自動分類部 19 ユーザテキスト入力装置

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 日本語のテキストに対して単語および単
    語の組の頻度を特徴として抽出し、テキストの分類を行
    う日本語テキスト自動分類方法であって、 分類済みテキストアクセス工程にて学習用テキスト蓄積
    装置に蓄積されている分類ルール抽出のためのテキスト
    をカテゴリ毎にアクセスし、 言語表現頻度解析工程にて入力テキスト中の名詞、動
    詞、形容詞、形容動詞、および修飾語・被修飾語対とい
    った言語表現の出現頻度を計測し、 対カテゴリ言語表現頻度テーブル作成工程にて各カテゴ
    リ毎の言語表現の出現頻度の蓄積テーブルを作成し、頻
    度計測終了判定の後に、 対カテゴリ言語表現重要度テーブル作成工程にて、各カ
    テゴリ毎の言語表現の出現頻度を正規化した値の蓄積テ
    ーブルを作成する分類ルール自動学習工程と、 新規テキスト入力工程にてカテゴリ判定のための新規テ
    キストを入力し、言語表現類似度判定工程にて新規のテ
    キストに出現する言語表現の頻度と、カテゴリ毎の言語
    表現重要度との類似度を計算した後、該新規テキストの
    カテゴリを判定し、 分類結果出力工程にて前記新規テキストのカテゴリ判定
    結果を出力するテキスト自動分類工程とを備えたことを
    特徴とする日本語テキスト自動分類方法。
  2. 【請求項2】 前記分類ルール自動学習工程内の言語表
    現頻度解析において、入力テキストを単語に分割し、名
    詞、動詞、形容詞、形容動詞といった自立語をラベル
    し、形態素解析を行う工程と、 形態素解析の結果から、修飾語と被修飾語の対を抽出
    し、修飾語・被修飾語解析を行う工程と、 形態素解析と修飾語・被修飾語解析の結果から言語表現
    のリストを作成する言語表現抽出工程と、 入力テキスト中の言語表現の出現頻度を計測する言語表
    現出現頻度測定工程とを有することを特徴とする請求項
    1記載の日本語テキスト自動分類方法。
JP6310875A 1994-12-14 1994-12-14 日本語テキスト自動分類方法 Pending JPH08166965A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6310875A JPH08166965A (ja) 1994-12-14 1994-12-14 日本語テキスト自動分類方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6310875A JPH08166965A (ja) 1994-12-14 1994-12-14 日本語テキスト自動分類方法

Publications (1)

Publication Number Publication Date
JPH08166965A true JPH08166965A (ja) 1996-06-25

Family

ID=18010442

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6310875A Pending JPH08166965A (ja) 1994-12-14 1994-12-14 日本語テキスト自動分類方法

Country Status (1)

Country Link
JP (1) JPH08166965A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10228486A (ja) * 1997-02-14 1998-08-25 Nec Corp 分散ドキュメント分類システム及びプログラムを記録した機械読み取り可能な記録媒体
JPH10327185A (ja) * 1997-05-27 1998-12-08 Tec Corp ファクシミリ型電子メール装置
JPH11259504A (ja) * 1998-03-11 1999-09-24 Mitsubishi Electric Corp データベース作成装置およびデータベース検索装置
JP2000172691A (ja) * 1998-12-03 2000-06-23 Mitsubishi Electric Corp 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001256251A (ja) * 2000-03-08 2001-09-21 Nec Software Chugoku Ltd 文書情報自動評価装置及び文書情報自動評価システム
JP2001266060A (ja) * 2000-03-15 2001-09-28 Nec Corp アンケート回答分析システム
JP2013190848A (ja) * 2012-03-12 2013-09-26 Rakuten Inc 情報処理装置、情報処理方法、情報処理装置用プログラム、および、記録媒体
JP2019109615A (ja) * 2017-12-15 2019-07-04 株式会社ローソン 分類装置、学習装置、分類方法、学習方法及びコンピュータプログラム
WO2020021845A1 (ja) * 2018-07-24 2020-01-30 株式会社Nttドコモ 文書分類装置及び学習済みモデル

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10228486A (ja) * 1997-02-14 1998-08-25 Nec Corp 分散ドキュメント分類システム及びプログラムを記録した機械読み取り可能な記録媒体
JPH10327185A (ja) * 1997-05-27 1998-12-08 Tec Corp ファクシミリ型電子メール装置
JPH11259504A (ja) * 1998-03-11 1999-09-24 Mitsubishi Electric Corp データベース作成装置およびデータベース検索装置
JP2000172691A (ja) * 1998-12-03 2000-06-23 Mitsubishi Electric Corp 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001256251A (ja) * 2000-03-08 2001-09-21 Nec Software Chugoku Ltd 文書情報自動評価装置及び文書情報自動評価システム
JP2001266060A (ja) * 2000-03-15 2001-09-28 Nec Corp アンケート回答分析システム
US6876990B2 (en) 2000-03-15 2005-04-05 Nec Corporation Questionnaire analysis system
JP2013190848A (ja) * 2012-03-12 2013-09-26 Rakuten Inc 情報処理装置、情報処理方法、情報処理装置用プログラム、および、記録媒体
JP2019109615A (ja) * 2017-12-15 2019-07-04 株式会社ローソン 分類装置、学習装置、分類方法、学習方法及びコンピュータプログラム
WO2020021845A1 (ja) * 2018-07-24 2020-01-30 株式会社Nttドコモ 文書分類装置及び学習済みモデル
JPWO2020021845A1 (ja) * 2018-07-24 2021-02-15 株式会社Nttドコモ 文書分類装置及び学習済みモデル

Similar Documents

Publication Publication Date Title
CN105824959B (zh) 舆情监控方法及系统
JP6150282B2 (ja) ノン・ファクトイド型質問応答システム及びコンピュータプログラム
CN110263248B (zh) 一种信息推送方法、装置、存储介质和服务器
CN109829166B (zh) 基于字符级卷积神经网络的民宿顾客意见挖掘方法
US20210056571A1 (en) Determining of summary of user-generated content and recommendation of user-generated content
US20020002450A1 (en) Article and method of automatically filtering information retrieval results using text genre
CN106202372A (zh) 一种网络文本信息情感分类的方法
CN108388660B (zh) 一种改进的电商产品痛点分析方法
CN106096609B (zh) 一种基于ocr的商品查询关键字自动生成方法
US11893537B2 (en) Linguistic analysis of seed documents and peer groups
US7162413B1 (en) Rule induction for summarizing documents in a classified document collection
JP2006350656A (ja) 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP2006293767A (ja) 文章分類装置、文章分類方法および分類辞書作成装置
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
JP2002132811A (ja) 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
JPH08166965A (ja) 日本語テキスト自動分類方法
Elbarougy et al. Graph-Based Extractive Arabic Text Summarization Using Multiple Morphological Analyzers.
CN110413985B (zh) 一种相关文本片段搜索方法及装置
JP4525433B2 (ja) 文書集約装置及びプログラム
CN114090756B (zh) 一种舆情信息的智能化处理方法、设备、存储介质
JP5214985B2 (ja) テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
Patel et al. Influence of Gujarati STEmmeR in supervised learning of web page categorization
JP2006139484A (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
CN109298796B (zh) 一种词联想方法及装置
CN113934910A (zh) 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法