JP2005115628A - 定型表現を用いた文書分類装置・方法・プログラム - Google Patents

定型表現を用いた文書分類装置・方法・プログラム Download PDF

Info

Publication number
JP2005115628A
JP2005115628A JP2003348600A JP2003348600A JP2005115628A JP 2005115628 A JP2005115628 A JP 2005115628A JP 2003348600 A JP2003348600 A JP 2003348600A JP 2003348600 A JP2003348600 A JP 2003348600A JP 2005115628 A JP2005115628 A JP 2005115628A
Authority
JP
Japan
Prior art keywords
document
style
input
fixed expression
specific fixed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003348600A
Other languages
English (en)
Inventor
Hiroyuki Shimizu
裕之 清水
Shinya Nakagawa
真也 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Priority to JP2003348600A priority Critical patent/JP2005115628A/ja
Priority to US10/958,598 priority patent/US20050149846A1/en
Priority to KR1020040079931A priority patent/KR20050033852A/ko
Priority to CNA2004100951925A priority patent/CN1607526A/zh
Publication of JP2005115628A publication Critical patent/JP2005115628A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】
大量の電子化された文書から必要な情報を抽出する必要があるが、これらの文書は、様々な文書スタイルで構成されており、それらの文書スタイルの文書を統一的に扱える文書処理技術はなく、文書スタイルごとに適した文書処理技術を選択する必要がある。そのために入力文書を文書スタイルごとに適切に分類することが望まれている。
【解決手段】
本発明では、形態素解析に依存せずに字面解析に基づいて、文書を話題別ではなく文書スタイルにもとづいて分類する。このために、スタイル固有定型表現を文書スタイルごとに参照辞書として用意し、入力文書に対してその文書の中に存在するスタイル固有定型表現の出現状況に基づいて定型表現リストを抽出し、定型表現リストをもとに文書スタイル毎に確信度を算出し、入力文書が属する文書スタイルを決定する。
【選択図】図1

Description

本発明は、文書分類に関する発明であり、文書に含まれる定型表現を用いて、文書を文書スタイルごとに分類する方法、装置、及びプログラムに関する。
大量の電子化された文書から情報を抽出する手法は数多く提案されている。しかし文書には、新聞記事のように文法的に適格で書き言葉で書かれている文で構成されている文書から、電子掲示板のコメントのように理解はできるが文法的に適格でなく話し言葉を多く含む文などによって構成される文書や、日報などのように走り書きの文書など様々な文書スタイルが存在するため、それら様々な文書スタイルの文書を統一的に扱える文書処理技術はなく、文書スタイルごとに適した文書処理技術を選択する必要がある。そのために文書を文書スタイルごとに分類する必要がある。
文書分類手法としては、文書に出現する単語の統計情報に基づいて文書を分類する方法があり、例えば、特開平6−75995などは、カテゴリーに属する文書における個々のキーワードの出現頻度などをカテゴリーの関連度として、入力文書に出現する単語の関連度をカテゴリーごとに加算して各カテゴリーへの関連度を計算して、最大の関連度をもつカテゴリーに分類する方法である。また特開平9−16570では文書情報やキーワードの有無をもとに分類を決定する決定木をあらかじめ構成しておき、それを利用して分類を決定している。また特開平11−45247では入力文書とカテゴリー内の典型文書間の類似度を計算して分類を行っている。
これらの方法はキーワードを獲得するために、文書が単語単位で切り出しが行われていることが仮定されているため、日本語や中国語の文書のように「分かち書き」されていない文書に対しては形態素解析などの自然言語処理が必要である。
しかし文書には新聞記事、論文、メールなどのように様々な文書スタイルがあり、新語、略語、書き間違いや文法的な誤りの度合いなどによって辞書などを用いて自然言語処理を行っても様々な文書スタイルの文書を適格に単語単位に分解する事は困難である。また、これらの方法は主に名詞などの内容を表す単語をキーワードとして用いることが多いため、文書を話題ごとに分類することには適しているが、文書を新聞やコメントなどのように内容ではなく文書スタイル別に分類することには適していない。
特開平6−75995 特開平9−16570 特開平11−45247 "自然言語処理"(長尾 真 他編集、岩波書店) J.Ross. Quinlan, "C4.5:Programing for machine learning" Morgan Kaufman Pubiliser (1993)) "A decision-theoretic generalization of on-line learning and an application to boosting." ( Yoav Freund and Robert Schapire, Journal of Computer and System Sciences, 55(1):119-139, 1997)
本発明の目的は、文書を話題別ではなく、文書スタイルの情報にもとづいて、文書スタイル別に分類することである。また、形態素解析に依存せずに字面解析に基づく文書分類を実現することである。
同じ文書スタイルに属する文書集合には言い回しや語尾などに共通した特徴的な表現が見られる。このように文書スタイルごとに頻出する定型表現(以下、本願明細書では、スタイル固有定型表現と呼ぶ)を文書スタイルごとに参照辞書として用意し、未分類の文書に対してその文書の中に存在するスタイル固有定型表現の出現状況に基づいて定型表現リストを抽出し、前記定型表現リストをもとに文書スタイル毎に確信度を算出し、この確信度をもとに前記入力文書が属する文書スタイルを決定し文書分類を行う。
以上のように、本願発明によれば文書の話題毎による分類でなく、文書スタイルによる分類が実現できる。従って文書を文書スタイル毎に分類することにより、特定の文書スタイルに適した文書処理の選択ができる。定型表現は文書スタイル固有の言い回しであるので、一般的に文書分類で問題になる未知語、造語などの影響をうけにくい等の利点がある。
図9は、本願発明を実施する装置を示している。筐体500の中には、記憶部510、中央制御部(CPU)520、表示部530、操作部540が含まれている。使用者が操作部540から必要な情報を入力する。中央制御部520は記憶部510に記憶されている情報を読み出し入力された情報をに基づいて、所定の演算を行い、表示部530に処理結果を表示する。
図1は本発明の文書分類手段を概略的に表したブロック図であって、スタイル固有定型表現辞書105、文書スタイル決定木集合106、定型表現情報抽出部102と、文書分類部103が示されている。図1において、スタイル固有定型表現辞書105は、スタイル固有定型表現を抽出するためのスタイル固有定型表現を格納する。文書スタイル決定木集合106は文書スタイルの分類ルールを格納する。、定型表現情報抽出部102は、入力文書からその文書に含まれるスタイル固有定型表現を抽出して、定型表現リストの形に変換する。文書分類部103は、定型表現リストから文書スタイル決定木集合に格納されている決定木を用いて入力文書の文書スタイルを決定する。
文書スタイルを分類すると、文法的に適格で書き言葉的な文書である紹介記事の文書スタイル、話し言葉的な文書である電子掲示板の文書スタイル、走り書き的な文書である日報の文書スタイルなどがある。本願明細書では分類すべき文書スタイルとして、紹介記事の文書スタイル(文書スタイル1)と電子掲示板の文書スタイル(文書スタイル2)を例として説明する。
図2は定型表現情報抽出部102を説明するブロック図であって、入力文書中に存在するスタイル固有定型表現を抽出する字面解析処理部202と入力文書を定型表現リストに変換する定型表現リスト生成部203から構成される。字面解析部では、入力文書の各文に対してスタイル固有定型表現辞書を参照しながら字面上の照合処理を行うことによって文中に存在するスタイル固有定型表現を抽出する。そして定型表現リスト生成部において、字面解析部で抽出されたスタイル固有定型表現から入力文書の各文を文書スタイルごとに定型表現リストに変換する。
字面解析処理部で参照するスタイル固有定型表現辞書には文書スタイルごとにスタイル固有定型表現が格納されている。、以下表1に文書スタイル1に対するスタイル固有定型表現辞書に格納されているスタイル固有定型表現の例を示す。
Figure 2005115628
次に、表2に文書スタイル2に対するスタイル固有定型表現辞書に格納されているスタイル固有定型表現の例を示す。
Figure 2005115628
スタイル固有定型表現辞書に格納されるスタイル固有定型表現は、あらかじめ文書スタイルごとにクラス分けされた文書集合から自動抽出され、スタイル固有定型表現辞書として格納される。
抽出方法としては、まず文書集合から任意長の文字列のうち多頻度の文字列を候補文字列として抽出する。任意長の文字列の頻度統計を効率よく計算する方法は“自然言語処理”(長尾 真 他編集、岩波書店)に詳しく述べてある。そして各候補文字列に対してその前に隣接する文字集合Wf={wf1,wf2,…,wfn}から候補文字列の前側のエントロピーEfと後に隣接する文字集合Wr={wr1,wr2,…,wrm}から候補文字列の後側のエントロピーErを計算する。
Figure 2005115628
Figure 2005115628
Figure 2005115628
Figure 2005115628
ここでSは候補文字列、f(S)はSの出現回数、f(wfiS)はSの前にwfiが隣接した文字列wfi Sの出現回数、f(Swri)はSの後にwriが隣接した文字列Swriの出現回数である。数式(1)のエントロピーは文字列Sが様々な文字と前で隣接し、生起確率が均等である場合、すなわち文字列Sの前に表現のまとまりとしての区切りがある場合に大きな値をとり、逆に隣接する文字の種類が少なく、共起確率に偏りがある場合すなわち文字列Sは隣接文字を含むより大きな表現のまとまりの一部である場合に小さな値をとる。同様に数式(2)のエントロピーは文字列Sの後に表現のまとまりとして区切りがある場合に大きな値を、より大きな表現のまとまりの一部である場合に小さな値をとる。
そして前後のエントロピーがともに適当な閾値より大きい候補文字列のみをスタイル固有定型表現として抽出する。
表3に文書スタイル1に属する文書集合から得られる候補文字列とそのエントロピーの例を、表4に文書スタイル2に属する文書集合から得られる候補文字列とそのエントロピーの例を示す。
Figure 2005115628
Figure 2005115628
定型表現リスト生成部では、文書スタイルごとに各文に対して定型表現リストを生成する。例えば入力文書がN個の文で構成され、分類すべき文書スタイルがM個ある場合、定型表現リスト生成部からはN×M個の定型表現リストが生成される。生成される各定型表現リストは文書スタイルごとにスタイル固有定型表現辞書に格納されているスタイル固有定型表現の中で各文中に出現したスタイル固有表現を列挙したリストである。本願明細書では、「なんでライセンスにこだわるのかな?ジョイックス。」を入力例文1として説明する。入力例文1を入力文とした際の文書スタイル1および文書スタイル2に対する定型表現リストを表5に示す。
Figure 2005115628
図3は文書分類部103を表したブロック図であって、定型表現情報抽出部102で生成された定型表現リストに対して、各文書スタイルへの確信度(文書スタイル確信度)を決定木(文書スタイル決定木)を用いて計算する文書スタイル確信度計算部302、文書スタイル確信度から各文書スタイルに対する尤度(文書スタイル尤度)を計算する文書スタイル尤度計算部303と文書スタイル尤度から入力文書に対する文書スタイルを決定する文書スタイル決定部304から構成される。
文書スタイル確信度計算部で参照される文書スタイル決定木集合には文書スタイルごとに文書スタイル決定木が格納されてあり、文書スタイル決定木は文書スタイルごとに抽出されたスタイル固有定型表現を特徴として持ち、文書スタイルの分類とその時の確信度を求める決定木である。文書スタイル決定木によって分類される文書スタイルのクラスは2つで、例えば文書スタイル1に対する文書スタイル決定木の場合、文書スタイル1とその他である。また、文書スタイル決定木は文書スタイルごとにクラス分けされた文書集合から学習される。
決定木アルゴリズムは特徴ベクトルとクラスから成るデータ集合から、情報理論的基準に基づいてクラス分別規則を木の形で生成する。決定木の構成は特徴に応じて、データ集合を再帰的に分割することで行われる。詳しくはJ.Ross. Quinlan, “C4.5:Programing for machine learning” Morgan Kaufman Pubiliser (1993)
などに述べてある。同様な手法を用いて例えば文書スタイル1に対する文書スタイル決定木は文書スタイル1のスタイル固有定型表現を特徴とする特徴ベクトルとその属するクラス(文書スタイル1/その他)で表現されるデータ集合を与えることによって、文書スタイル1に対する文書スタイル決定木が構成される。
図4に文書スタイル1に対するスタイル固有定型表現(表1)を特徴として文書スタイル1かそれ以外の文書スタイルかを分類する文書スタイル決定木を示し、図5に文書スタイル2に対するスタイル固有定型表現(表2)を特徴として文書スタイル2かそれ以外の文書スタイルかを分類する文書スタイル決定木を示す。各節点の下に付けられた定型表現は各節点に割り振られたデータを分類する際に用いる特徴を表わし、各枝に付けられたYES・NOはデータの分類に応じた特徴の値を表し、節点・葉の部分の上の段に示された値はその節点・葉に割り振られたデータが属するクラスを示している。また節点・葉の部分の下の段には、各節点・葉に割り振られたデータのクラス頻度分布を利用して計算した、データがその節点・葉において上の段に示されたクラスに属する確率(確信度)を示してある。ここで、各ブロックから下方に分岐の枝が出ていない場合にそのブロックを「葉」と呼び、各ブロックから分岐の枝が下方に出ている場合にそのブロックを「節点」と呼ぶ。
これらの文書スタイル決定木を用いて入力文が属する文書スタイルとその時の確信度を求めることができる。入力例文1「なんでライセンスにこだわるのかな?ジョイックス。」に対して、各文書スタイル決定木から得られる文書スタイルと確信度の結果を表6に示す。
Figure 2005115628
図4の文書スタイル1に対する文書スタイル決定木からは、入力例文1は文書スタイル1に対するスタイル固有定型表現をどれも含んでいないので、特徴の値が “NO”の枝を辿っていき(図4:(4−a)→(4−b)→(4−c)→(4−d)→(4−e)→(4−f))、最終的に辿り着いた葉(図4:(4−f))から、属するクラスは文書スタイル1、確信度は0.533が得られる。また図5の文書スタイル2に対する文書スタイル決定木からは、入力例文1は文書スタイル2に対するスタイル固有定型表現の{“なんで”、“んで”、“かな”}を含んでいるので、“なんで”に対する値が“YES”の枝を辿り(図5:(5−a)→(5−b))、辿り着いた葉(図5:(5−b))から、属するクラスは文書スタイル2、確信度は1.00を求めることができる。
文書スタイル決定木からは、例えば図4の文書スタイル1に対する文書スタイル決定木の場合、文書スタイル1かその他の文書スタイルかに分類を行い、分類された文書スタイルに対する確信度を与えるため、その他の文書スタイルに分類された場合には文書スタイル1に対する確信度が得られない。そのため、その他の文書スタイルに分類された場合、その他の文書スタイルに対する確信度Cを用いて文書スタイル1に対する確信度C’を計算し、文書スタイル1に対する確信度として用いる。
Figure 2005115628
表6に、入力例文1に対する確信度の例を挙げる。入力例文1に対し、文書スタイル1に対する確信度を図4の文書スタイル決定木を用いて、また、文書スタイル2に対する確信度を図5の文書スタイル決定木を用いて算出したものである。入力例文1は文書スタイル2に属する文書中の文であり、表6の結果においても、文書スタイル2に対する確信度が文書スタイル1に対する確信度より高くなっている。しかし一般に、1つの決定木のみによる分類性能は高いとはいえず、機械学習の分野では決定木のような分類器を複数組み合わせることによって分類性能を向上させる方法が知られている。
詳しくは ”A decision-theoretic generalization of on-line learning and an application to boosting.” ( Yoav Freund and Robert Schapire, Journal of Computer and System Sciences, 55(1):119-139, 1997)などに述べてある。同様の手法は本発明においても適用可能であり、各文書スタイルに対して複数の文書スタイル決定木を用意することによって文書スタイルの分類性能の向上が期待できる。具体的には同じ文書スタイルに対するスタイル固有定型表現を複数のクラスターにグループ分けし、グループごとにそのグループに属するスタイル固有定型表現を特徴として文書スタイル決定木を学習することによって各文書スタイルに対して複数の文書スタイル決定木を用意する。グループ分けの方法は、同じ文書スタイルの文書集合から抽出されるスタイル固有定型表現でも、あるスタイル固有定型表現と同じ文書内で出現しやすいスタイル固有定型表現と出現しにくいスタイル固有定型表現が存在するので、同じ文書内で出現しやすいスタイル固有定型表現同士でクラスタリングすることによってグループ分けする。図6に文書スタイル2のスタイル固有定型表現を同一文書で出現しやすいスタイル固有定型表現同士でグループ分けしたクラスターの例を示す。
図5に示した決定木は図6のクラスター1に属するスタイル固有定型表現を特徴として学習した文書スタイル決定木である。そして、グループ分けされたクラスターに属するスタイル固有定型表現を特徴として文書スタイル決定木を構成することによって、各文書スタイルに対して複数の文書スタイル決定木を用意できる。図7に図6のクラスター2に属するスタイル固有定型表現を特徴として、その定型表現を含む文書スタイル2およびそれ以外の文書スタイルの文書を学習データとして文書スタイル2かそれ以外の文書スタイルかを決定するように学習した決定木を示す。
以下に文書分類部についてフローチャートを用いて説明する。図8に文書分類部のフローチャートを示す。
400:文書Dの入力
401:M×N個の定型表現リストVijの抽出
402:初期設定
403:iのM回繰り返し
404:jのN回繰り返し
405:定型表現リストVijから文書スタイル決定木を用いた確信度ベクトルCijの計算
406:文書スタイルiに対するj番目の文のスタイル尤度Lijの計算
407:変数jの変更
408:文書スタイルiに対する入力文書の文書スタイル尤度SLiの計算
409:変数iの変更
410:最大の文書スタイル尤度を持つ文書スタイルを入力文書の文書スタイルとして決定
411:終了
ここで入力文書DはN文で構成され、分類すべき文書スタイルの個数をMとする。文書分類部では、まず入力文書Dから定型表現情報抽出部で求まったM×N個の定型表現リストVを受け取る(401)。そしてステップ405で文書スタイルiに対するj番目の文の定型表現リストVijから文書スタイル決定木集合に格納されている文書スタイルiに対する文書スタイル決定木を用いて、確信度ベクトルCij=(Cij1,Cij2,…,Cijk,…,Cijl)を求める。ここでCijkは、文書スタイルiに対するj番目の文の定型表現リストから、k番目の文書スタイル決定木を用いて求めたスタイルiに対する確信度であり、lは文書スタイル決定木集合に格納されている文書スタイルiに対する文書スタイル決定木の数である。実施例では、文書スタイル2をクラスター1及びクラスター2に分け、それぞれについて、決定木を求めているので、l=2である。続いてステップ406で確信度ベクトルCijから文書スタイルiに対するj番目の文のスタイル尤度Lijを計算する。
Figure 2005115628
ここで、αikは文書スタイルiに対するk番目の文書スタイル決定木の信頼度を表す重み係数であり、0≦αik≦1、Σαik=1を満たす値を与える。ここでαikの値は、好適にはスタイル尤度Lijのトレーニング文書に対する正解率を最大とする値を求める。このステップ405〜406までの処理を入力文書Dの各文の文書スタイルiに対する定型表現リストVij(1≦j≦N)に対して繰り返す。こうして求まったN個のスタイル尤度から、ステップ408では文書スタイルiに対する入力文書の文書スタイル尤度SLiを求める。
Figure 2005115628
ここで、Lijは文書スタイルiに対するj番目の文のスタイル尤度であり、βjは各文に対する重み係数で0≦βj≦1、Σβj=1を満たす値を与える。ここでβjの値は、好適には文書スタイル尤度SLiのトレーニング文書に対する正解率を最大とする値を求める。このステップ405〜408までの処理を各文書スタイルi(1≦i≦M)に対して繰り返す。そして求まったM個の文書スタイル尤度SLから、最大の文書スタイル尤度を持つ文書スタイルを入力文書に対する文書スタイルに決定する(410)。
様々な形式で記述された文書から必要な情報を抽出する場合、先ずこれらの文書を本願発明に従がって文書スタイルに分類する。次にこの分類された文書スタイルに適合した文書処理技術を用いて、文書から必要な情報を抽出する事が出来る。
文書分類装置の概略図を示す図である。 定型表現情報抽出部の概略図を示す図である。 文書分類部の概略図を示す図である。 文書スタイル1かそれ以外かを決定する文書スタイル決定木の例を示す図である。 文書スタイル2かそれ以外かを決定する文書スタイル決定木の例を示す図である。 スタイル固有定型表現をクラスター1及びクラスター2に分ける例を示す図である。 文書スタイル2をサブクラスターに分けた場合において、文書スタイル2かそれ以外かを決定する文書スタイル決定木の例を示す図である。 本発明の好適実施例を示す文書分類アルゴリズムのフローチャートである。 本発明を実施する装置を示す図である。
符号の説明
101、201:入力文書
102:定型表現情報抽出部
103:文書分類部
104、305:分類された文書スタイル
105:スタイル固有定型表現辞書
106:文書スタイル決定木集合
202:字面解析処理部
203:定型表現リスト生成部
204、301:定型表現リスト
302:文書スタイル確信度計算部
303:文書スタイル尤度計算部
304:文書スタイル決定部
500:筐体
510:記憶部
520:中央制御部(CPU)
530:表示部
540:操作部

Claims (11)

  1. 以下の(a)から(d)の手段を有する、入力文書を文書スタイルに従って分類する文書分類装置、
    (a)文書スタイルを特徴付けるスタイル固有定型表現を生成する手段、
    (b)前記スタイル固有定型表現と照合し、前記入力文書から定型表現リストを抽出する手段、
    (c)前記定型表現リストをもとに、前記入力文書の前記文書スタイルに対する確信度を算出する手段、
    (d)前記確信度をもとに、前記入力文書が属する文書スタイルを決定する手段。
  2. 以下の(a)から(e)の手段を有する、入力文書を文書スタイルに従って分類する文書分類装置、
    (a)文書スタイルを特徴付けるスタイル固有定型表現を生成する手段、
    (b)属する文書スタイルが既知である文書集合を用いて、前記スタイル固有定型表現を特徴とする文書スタイル決定木を求める手段、
    (c)前記スタイル固有定型表現と照合し、前記入力文書から定型表現リストを抽出する手段、
    (d)前記文書スタイル決定木を用いて、前記定型表現リストをもとに、前記入力文書の前記文書スタイルに対する確信度を算出する手段、
    (e)前記確信度をもとに、前記入力文書が属する文書スタイルを決定する手段。
  3. 文書スタイルを特徴付けるスタイル固有定型表現を生成する装置であって、属する文書スタイルが既知である文書集合を用いて、文書中に存在する任意の文字列を対象とし、前記文字列の前後に現れる文字集合の生起確率のエントロピーに基づいて生成するスタイル固有定型表現生成装置。
  4. 前記文書スタイルを特徴付けるスタイル固有定型表現を生成する手段が、属する文書スタイルが既知である文書集合を用いて、文書中に存在する任意の文字列を対象とし、前記文字列の前後に現れる文字集合の生起確率のエントロピーに基づいて生成する手段を含む請求項1に記載の文書分類装置。
  5. 前記文書スタイルを特徴付けるスタイル固有定型表現を生成する手段が、属する文書スタイルが既知である文書集合を用いて、文書中に存在する任意の文字列を対象とし、前記文字列の前後に現れる文字集合の生起確率のエントロピーに基づいて生成する手段を含むことを特徴とする請求項2に記載の文書分類装置。
  6. 前記スタイル固有定型表現を複数のグループに分け、グループ毎のスタイル固有定型表現を特徴として前記文書スタイル決定木を求める請求項2および5に記載の文書分類装置
  7. 以下の(a)から(f)の手段を有する、複数の文からなる入力文書を文書スタイルに従って分類する文書分類装置、
    (a)文書スタイルに対応するスタイル固有定型表現を生成する手段、
    (b)前記スタイル固有定型表現を複数のグループに分ける手段、
    (c)属する文書スタイルが既知である文書を用いて、前記複数のグループに分けられたスタイル固有定型表現から、複数の文書スタイル決定木を生成する手段、
    (d)前記スタイル固有定型表現を用いて、複数の入力文書に対応するそれぞれの定型表現リストを抽出する手段、
    (e)前記複数の文書スタイル決定木を用いて、前記それぞれの定型表現リストをもとに、前記複数の入力文書に対応する文書スタイル決定木毎の確信度を算出する手段、
    (f)前記確信度をもとに、前記入力文書が属する文書スタイルを決定する手段。
  8. 以下の(a)から(d)のステップを有する、入力文書を文書スタイルに従って分類することを特徴とする文書分類方法、
    (a)文書スタイルを特徴付けるスタイル固有定型表現を生成するステップ、
    (b)前記スタイル固有定型表現と照合し、前記入力文書から定型表現リストを抽出するステップ、
    (c)前記定型表現リストをもとに、前記入力文書の前記文書スタイルに対する確信度を算出するステップ、
    (d)前記確信度をもとに、前記入力文書が属する文書スタイルを決定するステップ。
  9. 以下の(a)から(e)のステップを有する、入力文書を文書スタイルに従って分類することを特徴とする文書分類方法、
    (a)文書スタイルを特徴付けるスタイル固有定型表現を生成するステップ、
    (b)属する文書スタイルが既知である文書集合を用いて、前記スタイル固有定型表現を特徴とする文書スタイル決定木を求めるステップ、
    (c)前記スタイル固有定型表現と照合し、前記入力文書から定型表現リストを抽出するステップ、
    (d)前記文書スタイル決定木を用いて、前記定型表現リストをもとに、前記入力文書の前記文書スタイルに対する確信度を算出するステップ、
    (e)前記確信度をもとに、前記入力文書が属する文書スタイルを決定するステップ。
  10. コンピュータを制御して、以下の(a)から(d)の手段を動作させ、入力文書を文書スタイルに従って分類することを特徴とする文書分類プログラム、
    (a)文書スタイルを特徴付けるスタイル固有定型表現を生成する手段、
    (b)前記スタイル固有定型表現と照合し、前記入力文書から定型表現リストを抽出する手段、
    (c)前記定型表現リストをもとに、前記入力文書の前記文書スタイルに対する確信度を算出する手段、
    (d)前記確信度をもとに、前記入力文書が属する文書スタイルを決定する手段。
  11. コンピュータを制御して、以下の(a)から(e)の手段を動作させ、入力文書を文書スタイルに従って分類することを特徴とする文書分類プログラム、
    (a)文書スタイルを特徴付けるスタイル固有定型表現を生成する手段、
    (b)属する文書スタイルが既知である文書集合を用いて、前記スタイル固有定型表現を特徴とする文書スタイル決定木を求める手段、
    (c)前記スタイル固有定型表現と照合し、前記入力文書から定型表現リストを抽出する手段、
    (d)前記文書スタイル決定木を用いて、前記定型表現リストをもとに、前記入力文書の前記文書スタイルに対する確信度を算出する手段、
    (e)前記確信度をもとに、前記入力文書が属する文書スタイルを決定する手段。


JP2003348600A 2003-10-07 2003-10-07 定型表現を用いた文書分類装置・方法・プログラム Pending JP2005115628A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2003348600A JP2005115628A (ja) 2003-10-07 2003-10-07 定型表現を用いた文書分類装置・方法・プログラム
US10/958,598 US20050149846A1 (en) 2003-10-07 2004-10-06 Apparatus, method, and program for text classification using frozen pattern
KR1020040079931A KR20050033852A (ko) 2003-10-07 2004-10-07 문서 분류 장치, 스타일 지정적 고정 패턴 생성 장치,입력 문서 분류 방법, 메모리 장치 또는 매체
CNA2004100951925A CN1607526A (zh) 2003-10-07 2004-10-07 采用冻结模式的文本分类装置、方法及程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003348600A JP2005115628A (ja) 2003-10-07 2003-10-07 定型表現を用いた文書分類装置・方法・プログラム

Publications (1)

Publication Number Publication Date
JP2005115628A true JP2005115628A (ja) 2005-04-28

Family

ID=34540751

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003348600A Pending JP2005115628A (ja) 2003-10-07 2003-10-07 定型表現を用いた文書分類装置・方法・プログラム

Country Status (4)

Country Link
US (1) US20050149846A1 (ja)
JP (1) JP2005115628A (ja)
KR (1) KR20050033852A (ja)
CN (1) CN1607526A (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2003108433A (ru) * 2003-03-28 2004-09-27 Аби Софтвер Лтд. (Cy) Способ предварительной обработки изображения машиночитаемой формы
RU2635259C1 (ru) 2016-06-22 2017-11-09 Общество с ограниченной ответственностью "Аби Девелопмент" Способ и устройство для определения типа цифрового документа
US7403951B2 (en) * 2005-10-07 2008-07-22 Nokia Corporation System and method for measuring SVG document similarity
US8359190B2 (en) * 2006-10-27 2013-01-22 Hewlett-Packard Development Company, L.P. Identifying semantic positions of portions of a text
JP2008186176A (ja) * 2007-01-29 2008-08-14 Canon Inc 画像処理装置、文書結合方法および制御プログラム
US8126837B2 (en) 2008-09-23 2012-02-28 Stollman Jeff Methods and apparatus related to document processing based on a document type
US8510650B2 (en) * 2010-08-11 2013-08-13 Stephen J. Garland Multiple synchronized views for creating, analyzing, editing, and using mathematical formulas
CN108304436B (zh) * 2017-09-12 2019-11-05 深圳市腾讯计算机系统有限公司 风格语句的生成方法、模型的训练方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06131225A (ja) * 1992-10-16 1994-05-13 Just Syst Corp 文書処理方法及び装置
JPH09138801A (ja) * 1995-11-15 1997-05-27 Oki Electric Ind Co Ltd 文字列抽出方法とシステム
JP2002014816A (ja) * 2000-05-02 2002-01-18 Internatl Business Mach Corp <Ibm> 判別式で決定木を生成し、それをデータ分類に使用するための方法および装置
JP2003271619A (ja) * 2002-03-19 2003-09-26 Toshiba Corp 文書分類及び文書検索システムおよび方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6137911A (en) * 1997-06-16 2000-10-24 The Dialog Corporation Plc Test classification system and method
JP3622503B2 (ja) * 1998-05-29 2005-02-23 株式会社日立製作所 特徴文字列抽出方法および装置とこれを用いた類似文書検索方法および装置並びに特徴文字列抽出プログラムを格納した記憶媒体および類似文書検索プログラムを格納した記憶媒体
US6542635B1 (en) * 1999-09-08 2003-04-01 Lucent Technologies Inc. Method for document comparison and classification using document image layout
US6766316B2 (en) * 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
US7165068B2 (en) * 2002-06-12 2007-01-16 Zycus Infotech Pvt Ltd. System and method for electronic catalog classification using a hybrid of rule based and statistical method
US7320000B2 (en) * 2002-12-04 2008-01-15 International Business Machines Corporation Method and apparatus for populating a predefined concept hierarchy or other hierarchical set of classified data items by minimizing system entrophy
US7350187B1 (en) * 2003-04-30 2008-03-25 Google Inc. System and methods for automatically creating lists

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06131225A (ja) * 1992-10-16 1994-05-13 Just Syst Corp 文書処理方法及び装置
JPH09138801A (ja) * 1995-11-15 1997-05-27 Oki Electric Ind Co Ltd 文字列抽出方法とシステム
JP2002014816A (ja) * 2000-05-02 2002-01-18 Internatl Business Mach Corp <Ibm> 判別式で決定木を生成し、それをデータ分類に使用するための方法および装置
JP2003271619A (ja) * 2002-03-19 2003-09-26 Toshiba Corp 文書分類及び文書検索システムおよび方法

Also Published As

Publication number Publication date
US20050149846A1 (en) 2005-07-07
KR20050033852A (ko) 2005-04-13
CN1607526A (zh) 2005-04-20

Similar Documents

Publication Publication Date Title
CN106156204B (zh) 文本标签的提取方法和装置
Creutz et al. Unsupervised morpheme segmentation and morphology induction from text corpora using Morfessor 1.0
Clark et al. Bootstrapping POS-taggers using unlabelled data
US8676730B2 (en) Sentiment classifiers based on feature extraction
CN109670039B (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
KR101813683B1 (ko) 커널 rdr을 이용한 태깅 말뭉치 오류 자동수정방법
CN109933664A (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
WO2005050473A2 (en) Clustering of text for structuring of text documents and training of language models
JP2005158010A (ja) 分類評価装置・方法及びプログラム
CN114528919A (zh) 自然语言处理方法、装置及计算机设备
Zheng et al. Dynamic knowledge-base alignment for coreference resolution
CN112131876A (zh) 一种基于相似度确定标准问题的方法及系统
JP2019121139A (ja) 要約装置、要約方法、及び要約プログラム
Wahbeh et al. Comparative assessment of the performance of three WEKA text classifiers applied to arabic text
Boros et al. Assessing the impact of OCR noise on multilingual event detection over digitised documents
EP1503295A1 (en) Text generation method and text generation device
CN114116965A (zh) 评论文本的观点提取方法以及电子设备
JP2005115628A (ja) 定型表現を用いた文書分類装置・方法・プログラム
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
Islam et al. Automatic authorship detection from Bengali text using stylometric approach
CN111611394B (zh) 一种文本分类方法、装置、电子设备及可读存储介质
Barakhnin et al. Word reordering algorithm for poetry analysis
CN110008307B (zh) 一种基于规则和统计学习的变形实体识别方法和装置
CN112949287B (zh) 热词挖掘方法、系统、计算机设备和存储介质
Sato et al. Creating Dialect Sub-corpora by Clustering: a case in Japanese for an adaptive method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061006

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071102

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071113

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090630

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090925

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20091006

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20091021

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20091030

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091215

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100324