JP5965260B2 - 文書分類プログラム及び文書分類装置 - Google Patents

文書分類プログラム及び文書分類装置 Download PDF

Info

Publication number
JP5965260B2
JP5965260B2 JP2012199662A JP2012199662A JP5965260B2 JP 5965260 B2 JP5965260 B2 JP 5965260B2 JP 2012199662 A JP2012199662 A JP 2012199662A JP 2012199662 A JP2012199662 A JP 2012199662A JP 5965260 B2 JP5965260 B2 JP 5965260B2
Authority
JP
Japan
Prior art keywords
feature
category
word
document
importance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012199662A
Other languages
English (en)
Other versions
JP2014056331A (ja
Inventor
健治 江澤
健治 江澤
威智朗 加古
威智朗 加古
敦 阿部
敦 阿部
Original Assignee
株式会社日立アドバンストシステムズ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立アドバンストシステムズ filed Critical 株式会社日立アドバンストシステムズ
Priority to JP2012199662A priority Critical patent/JP5965260B2/ja
Publication of JP2014056331A publication Critical patent/JP2014056331A/ja
Application granted granted Critical
Publication of JP5965260B2 publication Critical patent/JP5965260B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、日本語の文書を利用者があらかじめ指定した所定のカテゴリに分類する文書分類技術に関するものである。
文書分類は、与えられた文書をあらかじめ定められたいくつかの分類対象、カテゴリに分類することである。カテゴリとは、例えば、政治、経済、事件、社会等をいう。従来の文書分類方法として、ベクトル空間法、ナイーブベイズ法等が提案されている。特許文献1には、テキストデータをカテゴリ別に分類可能とする情報分類方法が開示されている。
文書分類においては、文書を形態素解析し、特徴となる単語を抽出して使用する。一般に、文中の出現位置や係り受け構造を考慮しないbag−of−wordsとして抽出する方法が用いられている。bag−of−wordsとは、並び順を無視した単語の集合として文書を表現する手法である。
また、特徴単語に重要度を付与することで分類精度を向上させる方法も提案されている(例えば、非特許文献1を参照)。
特徴単語に対する重要度の計算方法として、相互情報量やカイ2乗値等の統計指標が用いられることもある。未分類の文書に対してこれらを計算する場合には、正解のカテゴリに依存しない計算方法が必要であることから、すべてのカテゴリに対して計算した結果の平均値や最大値等が用いられる(例えば、非特許文献2を参照)。
また、表層的に一致しない特徴単語同士を比較するために、シソーラス辞書により同義語の定義をあらかじめ整備しておき、同義語をもとに比較する方法がある(例えば、非特許文献3を参照)。
特開2005−190284号公報
福本文代、鈴木良弥:「語の重み付け学習を用いた文書の自動分類」、情報処理学会論文誌、Vol.40、No.4、pp.1782−1791、1999. 高村大也、奥村学:「言語処理のための機械学習入門」、コロナ社、pp.138−143、2010. 上嶋宏、三浦孝夫、塩谷勇:「同義語、多義語の考慮による文書分類の精度向上」、電子情報通信学会論文誌、Vol.J87−D1、No.2、pp.137−144、2004. 河原大輔、黒橋禎夫:「大規模格フレームに基づく構文・格解析の統合的確率モデル」、自然言語処理、Vol.14、No.4、pp.67−81、2007.
特徴単語の抽出方法で最も良く用いられる「bag−of−words」では、文中から単語をばらばらに取ってくるため、文の意味構造を捉えた比較ができない。
未分類文書の特徴単語に対する重要度の計算方法として、すべてのカテゴリに対して計算した結果の平均値や最大値を用いる方法では、それぞれのカテゴリに対する計算結果の影響が残ってしまい、特徴単語のカテゴリへの関係性が明確とならないという問題がある。
表層的に一致しない特徴単語同士を比較するために同義語辞書を用いる方法では、同義語の定義を事前に整備する労力が必要となる。
このような背景の下、本発明は、上述の問題点の少なくとも1つ以上を解消し、ニュース記事や雑誌の記事等の日本語テキスト文書を解析し、該当するカテゴリに文書を分類する文書分類方法において、精度良く分類できる文書分類技術を提供することを目的とする。
本発明は、与えられた文書を精度良く分類できるよう、特徴単語を修飾構造及び意味構造の単位で抽出し、未分類文書の特徴単語に対する重要度として尤もらしいカテゴリを予測した重み付けを行い、特徴単語同士を潜在的意味空間における上位概念において比較することを特徴とする。
本発明の実施形態において、文構造を解析した結果から係り受け構造の表層格と述語の関係を抽出し、文の修飾構造及び意味構造の単位で前記特徴単語を抽出する。
本発明の実施形態において、未分類文書の特徴単語に対する重要度の計算方法は、分類すべきカテゴリとの依存の度合いが高く、特定のカテゴリに偏って出現する単語が最も多い頻度で現れたカテゴリを尤もらしいカテゴリと推定し、当該カテゴリに対する統計指標の計算結果を特徴単語の重要度として使用する。
本発明の実施形態において、前記特徴単語の比較方法は、文書を潜在的意味空間に変換して、単語の上位概念に基づく語彙の辞書を自動的に構築したうえで、上位概念同士を比較する。
本発明によれば、与えられた文書を該当するカテゴリに分類する文書分類方法において、精度良く分類できる文書分類技術を提供することができる。
また、本発明の文書分類方法は、文構造を解析した結果から係り受け構造の表層格と述語の関係を抽出し、文の修飾構造及び意味構造の単位で特徴単語を抽出するようにしたので、意味的構造が似ている文書同士を比較することができる。
また、本発明の文書分類方法は、未分類文書に対する重要度の計算方法として、相互情報量やカイ2乗値等の統計指標を計算する際、尤もらしいカテゴリを推定し、推定したカテゴリに対する統計指標の計算を行うようにしたので、より適切な重要度を特徴単語に割り当てることができる。
また、本発明の文書分類方法は、文書を潜在的意味空間に変換するようにしたので、単語の概念に基づく語彙の辞書を自動的に構築することができ、意味的に似ている単語同士を比較することができる。
本発明は、明細書に記載され又は示唆される、様々な新規の特徴及び組み合わせ、並びに顕著な効果を有する特徴及び組み合わせをも、その範囲に含み得ることに留意されたい。
本発明に係る文書分類方法の構成を示す機能ブロック図である。 本発明に係る文書分類方法の学習処理手順を示すフローチャートである。 本発明に係る文書分類方法の分類処理手順を示すフローチャートである。 重要度計算部の処理手順を示すフローチャートである。 重要度計算部におけるカテゴリの選択手順を示すフローチャートである。 本発明に係る文書分類方法における学習文書データの一例を示す図である。 本発明に係る文書分類方法における未分類文書データの一例を示す図である。 本発明に係る文構造解析部における文構造解析結果(形態素解析結果)の一例を示す図である。 本発明に係る文構造解析部における文構造解析結果(係り受け解析結果)の一例を示す図である。 本発明に係る格要素抽出部における格要素抽出結果の一例を示す図である。 本発明に係る格要素抽出部における特徴単語抽出結果の一例を示す図である。 本発明に係る重要度計算部における特徴単語及び重要度の組の一例を示す図である。 本発明に係る重要度計算部において、尤もらしいカテゴリを選択する一例を示す図である。 本発明に係る重要度計算用学習辞書の一例を示す図である。 本発明に係る分類計算用学習辞書の一例を示す図である。 本発明に係る単語を上位概念に変換した語彙の辞書の一例を示す図である。 本発明に係る分類処理部における類似性比較方法の一例を示す図である。 本発明に係る分類処理部における類似度計算の一例を示す図である。 本発明に係るシステムのハードウェア構成を示す図である。
ニュース記事や雑誌の記事等の日本語テキスト文書を解析し、該当するカテゴリに文書を分類する文書分類方法において、精度良く分類できる文書分類技術を提供するという目的を、特徴単語の抽出方法として修飾構造及び意味構造の単位で抽出し、未分類文書の特徴単語に対する重要度の計算方法として尤もらしいカテゴリを予測した重み付けを行い、特徴単語の比較方法として潜在的意味空間における上位概念を比較することにより実現した。
以下、本発明の好適な実施例を、添付図面を参照しつつ詳細に説明する。
図1は、ここで説明される実施例の文書分類方法の構成を示す機能ブロック図である。同図に示すように、文書分類方法は、入力処理部110と、文書解析部121と、格要素抽出部122と、重要度計算部130と、学習処理部140と、重要度計算用学習辞書151と、分類計算用学習辞書152と、特徴量作成部161と、潜在的意味解析部162と、分類処理部163と、出力処理部170と、を備えている。
入力処理部110は、利用者による文書データの入力を受け付け、テキストを取り込む処理部である。ここで、入力処理部110に投入される文書データ180には予め正解のカテゴリが付与された複数の文書データである学習文書データと、カテゴリが付与されていない文書データである未分類文書データの2種類が存在する。
文書解析部121は、入力処理部110によって入力された文書データ180に対して、形態素解析及び係り受け解析を実行し、文構造解析結果を出力する処理部である。なお、形態素解析及び係り受け解析については公知の技術であり、形態素解析は、MeCab(和布蕪)(http://code.google.com/p/mecab)等の形態素解析システムを用いることにより実現可能であり、係り受け解析は、CaboCha(南瓜)(http://code.google.com/p/cabocha)等の係り受け解析器を用いることにより実現可能であるため、ここでは説明を省略する。
格要素抽出部122は、文書解析部121から受け取った文構造解析結果から、述語と、当該述語に係る格要素を抽出し、格要素及び述語ごとに特徴単語を出力する処理部である。
具体的には、文構造解析結果から文節の係り受け関係に着目し、係り元の文節が名詞句と表層格の組で構成されており、係り先の文節が動詞、形容詞、名詞句と助動詞「ダ」の組、もしくは文末の名詞句で構成されているものを見付け、係り元の文節を格要素、係り先の文節を述語として抽出する。なお、非特許文献4に開示されているように、格フレームを用いた格解析を行い、格要素を抽出することとしてもよい。
前述の表層格として、日本語の表層格である「ガ格」、「ヲ格」、「ニ格」、「カラ格」、「ヘ格」、「ト格」、「ヨリ格」、「マデ格」、「デ格」を用いる。また、表層格ではないが主語を示す助詞「ハ」についても、「ガ格」として抽出する。
また、前述の格要素の抽出方法において、格要素として抽出した文節を構成する単語のうち、品詞が内容語(普通名詞、固有名詞、サ変名詞、形容詞的名詞、動詞、形容詞)である単語を特徴単語として出力する。なお、動詞及び形容詞については活用形により語幹が変化するため、原形を使用する。
また、前述の格要素の抽出方法において、格要素の文節を更に修飾する係り元の文節が存在し、その文節が抽出済みの述語ではない場合は連結して一つの格要素に含めることとする。このようにすることで、文の修飾構造を含めた情報を利用することができる。
文書データ180として学習文書データを用いる場合、格要素抽出部122は、上記の方法により特徴単語を抽出したのち、特徴単語と、当該特徴単語が出現したカテゴリに対する文書数を重要度計算用学習辞書151に登録する。
重要度計算部130は、格要素抽出部122によって得られた特徴単語と、重要度計算用学習辞書151に登録された統計情報に基づき、特徴単語の重要度を計算し、特徴単語と、当該特徴単語に対する重要度の組を出力する処理部である。ここで、重要度計算の統計指標としては、tf*idf、相互情報量、カイ2乗値、情報利得等が挙げられる。
学習処理部140は、文書データ180として学習文書データを用いる場合に実行され、重要度計算部130によって得られた特徴単語と、当該特徴単語に対する重要度の組から、格要素及び述語ごとのそれぞれについて特徴量を作成し、当該特徴量を学習文書単位で分類計算用学習辞書152に登録する処理部である。ここで、学習処理部140によって作成された特徴量を以下では学習特徴量と呼ぶこととする。
特徴量作成部161は、重要度計算部130によって得られた特徴単語と、当該特徴単語に対する重要度の組、及び分類計算用学習辞書152から取得した学習特徴量を基に、分類計算に使用する特徴量を作成する処理部である。ここで、特徴量作成部161によって作成された特徴量を以下では評価特徴量と呼ぶこととし、特徴量作成部161は、評価特徴量及び学習特徴量を出力する。
潜在的意味解析部162は、特徴量作成部161において取得した学習特徴量を基に、潜在的意味空間における語彙辞書を構築し、特徴量作成部161から受け取った評価特徴量及び学習特徴量を潜在的意味空間における特徴量に変換し、出力する処理部である。
分類処理部163は、潜在的意味解析部162によって潜在的意味空間に変換された評価特徴量及び学習特徴量を基に、所定の分類アルゴリズムに従って分類対象のカテゴリを決定する処理部である。また、分類処理部163は格要素及び述語ごとの意味構造単位で、潜在的意味空間における上位概念による比較計算を行う。
出力処理部170は、分類処理部163によって得られた分類対象のカテゴリを利用者へ出力する処理部である。
次に、本実施の形態に係る文書分類方法で行われる文書分類手順について図2〜図5を用いて説明する。本実施の形態における文書分類方法は、学習と分類の2段階で処理を行う。
まず、学習の処理手順について図2を用いて説明する。
図2は、文書分類方法の学習手順を示すフロー図である。
学習文書データ200に対してはあらかじめ人手により正解となるカテゴリが付与されており、以下では複数の学習文書データを一括で学習する実施例を挙げる。
まず、入力処理部110は、学習文書データ200を1件読み込む(ステップS201)。
文書解析部121は、読み込まれた学習文書データ200に対し、形態素解析および係り受け解析を実行し、文構造解析結果201を出力する(ステップS202)。例えば、図6に示す例文は、形態素解析により図8に示す結果となり、係り受け解析により図9に示す結果となる。
格要素抽出部122は、ステップS202によって抽出した文構造解析結果201から格要素および述語を抽出し、格要素抽出結果202を出力する(ステップS203)。例えば、図6に示す例文は、格要素抽出により図10に示す結果となる。
また、格要素抽出部122は、格要素抽出結果202から、内容語の品詞(普通名詞、固有名詞、サ変名詞、形容詞的名詞、動詞、形容詞)を選択し、特徴単語抽出結果203を抽出する(ステップS204)。例えば、図6に示す例文は、特徴単語抽出により図11に示す結果となる。図11に示すように、特徴単語抽出結果203は、学習文書データ200に付与されたカテゴリと、格要素及び述語ごとに抽出した特徴単語が出力され、学習文書ごとに作成される。
また、格要素抽出部122は、抽出した特徴単語抽出結果203と、当該特徴単語が学習文書データ200に付与されたカテゴリに出現する文書数を重要度計算用学習辞書151の該当する箇所に1つ加算して登録する(ステップS205)。図14は重要度計算用に用いる学習辞書の例を示したものである。同図に示すように、重要度計算用学習辞書151は、格要素抽出部122によって抽出された特徴単語と、当該特徴単語が出現したカテゴリに対する文書数を保持している。
全ての学習文書データを処理したか否かを判断する(ステップS206)。
ステップS206において、全ての学習文書データを処理していないと判断した場合(ステップS206:NO)は、ステップS201の処理に戻る。
ステップS206において、全ての学習文書データを処理したと判断した場合(ステップS206:YES)、重要度計算部130は、ステップS204によって抽出した特徴単語抽出結果203と重要度計算用学習辞書151を用い、後述の計算式により重要度計算を実行し、特徴単語と、当該特徴単語に対する重要度の組204を出力する(ステップS207)。例えば、図6に示す例文は、重要度計算により図12に示す結果となる。このとき、図12に示す特徴単語と、当該特徴単語に対する重要度の組204は学習文書ごとに作成される。
ここで、ステップS207の重要度計算実行処理について、図4を参照しながら詳細に説明する。
図4は、重要度計算の詳細な処理手順を説明するフローチャートである。ここでは特徴単語に対する重要度として、統計指標による重み付けを行う。本実施例では、重要度計算の統計指標として、単語とカテゴリとのカイ2乗値を用いる。
まず、特徴単語抽出結果401を1件読み込む(ステップS401)。なお、ここでいう特徴単語抽出結果401はステップS204によって抽出した特徴単語抽出結果203に対応するものを表す。
統計指標の計算対象をカテゴリcと呼び、これを選択する。学習文書データはあらかじめ正解のカテゴリが付与されているため、特徴単語抽出結果401に付与された正解のカテゴリを選択する(ステップS402)。
重要度計算用学習辞書151から、特徴単語抽出結果401に含まれる特徴単語wがカテゴリcに出現した文書数N11を取得する(ステップS403)。
単語wを含み、かつカテゴリcに属する文書数N11と、単語wを含み、かつカテゴリcに属さない文書数N10と、単語wを含まず、かつカテゴリcに属する文書数N01と、単語wを含まず、かつカテゴリcに属さない文書数N00と、全文書数Nにより、単語wとカテゴリcとのカイ2乗値χ(t,c)を次の式で計算する(ステップS404)。
Figure 0005965260
単語wの重要度に、(1)、(2)式で計算した単語wとカテゴリcのカイ2乗値χ(t,c)を割り当て、特徴単語と、当該特徴単語に対する重要度の組402を出力する(ステップS405)。
特徴単語抽出結果401に含まれる全ての特徴単語wを処理したか否かを判断する(ステップS406)。
ステップS406において、全ての特徴単語wを処理していないと判断した場合(ステップS406:NO)は、ステップS403の処理に戻る。
ステップS406において、全ての特徴単語wを処理したと判断した場合(ステップS406:YES)は、全ての特徴単語抽出結果401を処理したか否かを判断する(ステップS407)。
ステップS407において、全ての特徴単語抽出結果401を処理していないと判断した場合(ステップS407:NO)は、ステップS401の処理に戻る。
ステップS407において、全ての特徴単語抽出結果401を処理したと判断した場合(ステップS407:YES)は、重要度計算処理を終了する。
以上のように、すべての学習文書データから抽出されたすべての特徴単語について重要度を割り当て、特徴単語と、当該特徴単語に対する重要度の組402を出力する。図14に示すように、同じ単語でもカテゴリによりカイ2乗値、つまり特徴単語の重要度が異なるため、これにより、そのカテゴリと関連の高い単語には、重要度が高くなるように計算される。なお、ここでいう特徴単語と、当該特徴単語に対する重要度の組402はステップS207で出力される特徴単語と、当該特徴単語に対する重要度の組204に対応するものを表す。
再び図2に戻り、学習処理部140は、ステップS207で抽出した特徴単語と、当該特徴単語に対する重要度の組204を用い、格要素および述語ごとに特徴量を構成する(ステップS208)。
このとき、前記特徴量は、各行に一つの特徴単語を対応付け、特徴単語の重要度を要素値とする、多次元ベクトルにおける列ベクトルを構成する。
しかる後、学習処理部140は、すべての学習文書に現れる格要素および述語ごとに抽出したすべての特徴単語と、当該特徴単語に対する重要度を要素値としたベクトルを学習文書単位で列方向に追加していくことで、学習特徴量として学習文書行列205を構成する(ステップS208)。
学習処理部140は、ステップS208によって作成した学習文書行列205を分類計算用学習辞書152に行列形式で登録する(ステップS209)。
図15は分類計算用に用いる学習辞書の例を示したものである。同図に示すように、分類計算用学習辞書152は、学習処理部140によって作成された学習特徴量を学習文書単位で保持している。
以上、学習の処理手順を説明したが、次に、分類の処理手順について図3を用いて説明する。
図3は、文書分類方法の分類手順を示すフロー図である。
未分類文書データ300に対してはカテゴリが付与されておらず、以下では1件の未分類文書データを分類する実施例を挙げる。
まず、入力処理部110は、未分類文書データ300を読み込む(ステップS301)。
文書解析部121は、入力された未分類文書データ300に対し、形態素解析および係り受け解析を実行し、文構造解析結果301を出力する(ステップS302)。
格要素抽出部122は、ステップS302によって抽出した文構造解析結果301から格要素および述語を抽出し、格要素抽出結果302を出力する(ステップS303)。
また、格要素抽出部122は、格要素抽出結果302から、内容語の品詞(普通名詞、固有名詞、サ変名詞、形容詞的名詞、動詞、形容詞)を選択し、特徴単語抽出結果303を出力する(ステップS304)。このとき、特徴単語抽出結果303には、格要素及び述語ごとに抽出した特徴単語が出力される。
重要度計算部130は、抽出した特徴単語抽出結果303と重要度計算用学習辞書151を用い、重要度計算を実行し、特徴単語と、当該特徴単語に対する重要度の組304を出力する(ステップS305)。
ここで、ステップS305の重要度計算実行処理について、図4〜図5を参照しながら詳細に説明する。
図4は、重要度計算の詳細な処理手順を説明するフローチャートである。
まず、特徴単語抽出結果401を読み込む(ステップS401)。なお、ここでいう特徴単語抽出結果401はステップS304によって抽出した特徴単語抽出結果303に対応するものを表す。
統計指標の計算対象として、カテゴリcを選択する(ステップS402)。未分類文書データはカテゴリに依存しない指標が必要なため、カテゴリの選択手順について図5を用いて説明する。
図5は、未分類文書の重要度計算におけるカテゴリの選択手順を説明するフローチャートである。
まず、特徴単語抽出結果501を読み込む(ステップS501)。なお、ここでいう特徴単語抽出結果501はステップS401によって抽出した特徴単語抽出結果401に対応するものを表す。
重要度計算用学習辞書151から、特徴単語抽出結果401に含まれる特徴単語wが、あるカテゴリcに出現した文書数N11を取得する(ステップS502)。
単語wを含み、かつカテゴリcに属する文書数N11と、単語wを含み、かつカテゴリcに属さない文書数N10と、単語wを含まず、かつカテゴリcに属する文書数N01と、単語wを含まず、かつカテゴリcに属さない文書数N00と、全文書数Nにより、単語wとカテゴリcとの相互情報量I(U,C)を次の式で計算する(ステップS503)。
Figure 0005965260
カテゴリcのスコアに、(3)〜(6)式で計算した単語wとカテゴリcの相互情報量I(U,C)を加算し、特徴単語wとカテゴリcの依存度502を出力する(ステップS504)。
全てのカテゴリcを処理したか否かを判断する(ステップS505)。
ステップS505において、全てのカテゴリcを処理していないと判断した場合(ステップS505:NO)は、ステップS503の処理に戻る。
ステップS505において、全てのカテゴリcを処理したと判断した場合(ステップS505:YES)は、特徴単語wが多岐のカテゴリに渡り出現する単語か否かを判断する(ステップS506)。本実施例では、次の式により得られるV(w)の値がある閾値ε(ε≧0)以下となる単語を分類多岐語と呼ぶこととする。
Figure 0005965260
ステップS506において、単語wが分類多岐語であると判断した場合(ステップS506:NO)は、ステップS508まで処理を進める。
ステップS506において、単語wが分類多岐語ではないと判断した場合(ステップS506:YES)は、特徴単語wとカテゴリcの依存度502のうち、相互情報量の最大値を記録したカテゴリを見付け、カテゴリcの最大値観測頻度503にカウントアップして出力する(ステップS507)。
このように、すべての単語wについて相互情報量が最大となったカテゴリの頻度を計測していく。
全ての特徴単語wを処理したか否かを判断する(ステップS508)。
ステップS508において、全ての特徴単語wを処理していないと判断した場合(ステップS508:NO)は、ステップS502の処理に戻る。
ステップS508において、全ての特徴単語wを処理したと判断した場合(ステップS508:YES)は、カテゴリcのスコア×カテゴリcの最大値観測頻度が最も大きくなったカテゴリcを未分類文書の予測カテゴリとして出力する(ステップS509)。
以上のように、すべてのカテゴリに対する相互情報量を計算した例を図13に示す。図13に示すように、相互情報量は単語とカテゴリとの相互依存の度合いを数値化したものとなっており、カテゴリとの依存の度合いが高く、特定のカテゴリに偏って出現する単語が最も多い頻度で現れたカテゴリを、分野未分類の文書データに対する尤もらしいカテゴリとして選択する。
図4に戻り、重要度計算用学習辞書151から、特徴単語抽出結果401に含まれる特徴単語wがカテゴリcに出現した文書数N11を取得する(ステップS403)。
単語wを含み、かつカテゴリcに属する文書数N11と、単語wを含み、かつカテゴリcに属さない文書数N10と、単語wを含まず、かつカテゴリcに属する文書数N01と、単語wを含まず、かつカテゴリcに属さない文書数N00と、全文書数Nにより、単語wとカテゴリcとのカイ2乗値χ(t,c)を(1)〜(5)式で計算する(ステップS404)。
単語wの重要度に、(1)、(2)式で計算した単語wとカテゴリcのカイ2乗値χ(t,c)を割り当て、特徴単語と、当該特徴単語に対する重要度の組904を出力する(ステップS405)。
特徴単語抽出結果401に含まれる全ての特徴単語wを処理したか否かを判断する(ステップS406)。
ステップS406において、全ての特徴単語wを処理していないと判断した場合(ステップS406:NO)は、ステップS403の処理に戻る。
ステップS406において、全ての特徴単語wを処理したと判断した場合(ステップS406:YES)は、全ての特徴単語抽出結果401を処理したか否かを判断する(ステップS407)。
ステップS407において、全ての特徴単語抽出結果401を処理したと判断され(ステップS407:YES)、重要度計算処理を終了する。
以上のように、未分類文書から抽出されたすべての特徴単語について重要度を割り当て、特徴単語と、当該特徴単語に対する重要度の組402を出力する。なお、ここでいう特徴単語と、当該特徴単語に対する重要度の組402はステップS305で出力される特徴単語と、当該特徴単語に対する重要度の組204に対応するものを表す。
再び図3に戻り、特徴量作成部161は、ステップS305で抽出した特徴単語と、当該特徴単語に対する重要度の組304に対して、分類計算用学習辞書152から取得した学習文書行列を基に、格要素および述語ごとに特徴量を構成する(ステップS306)。
このとき、前記特徴量は、各行に一つの特徴単語を対応付け、特徴単語の重要度を要素値とする、多次元ベクトルにおける列ベクトルを構成する。
潜在的意味解析部162は、ステップS306で取得した文書ベクトル及び学習文書行列を基に、特異値分解を利用して学習文書行列を低次元の行列に圧縮することで、単語を上位概念に変換した語彙の辞書を構築し、ステップS306から受け取った文書ベクトル及び学習文書行列を潜在的意味空間における特徴量に変換する(ステップS307)。
図16は、単語を上位概念に変換した語彙の辞書の例を示したものである。同図に示すように、単語を上位概念に変換した語彙の辞書は、潜在的意味解析部162によって作成された圧縮済み学習文書行列を保持している。圧縮済み学習文書行列は、特徴単語が潜在的意味空間に畳み込まれた上位概念と各学習文書データにおいて当該上位概念の重みとの関係を表す行列となっている。
ここで、ステップS307の学習文書行列の特異値分解を利用して低次元の行列に圧縮する方法を利用し、文書ベクトル及び学習文書行列305を潜在的意味空間における特徴量に変換する処理について詳細に説明する。
学習文書行列をm×n行列Dとしたとき、Dを次式のように特異値分解する。
Figure 0005965260
ここで、Uはm×m直交行列、Vはn×n直交行列、Σはm×n行列であり、rank(D)=rとすると、r個の特異値(σ≧σ≧…≧σ>0)を対角成分とする対角行列となる。
(8)式に対し、左特異行列Uから最初のk個(k<r)の左特異ベクトルを取り出したm×k行列U、右特異行列Vから最初のk個の右特異ベクトルを取り出したn×k行列V、特異値行列Σの上位k個の特異値のみから構成されるk×k対角行列Σにより、学習文書行列Dは以下のように低階数行列に近似できる。
Figure 0005965260
m次元の学習文書行列Dをk次元の学習文書行列D(k)に圧縮するためには、次式の通りUの張る空間への射影を考えればよい。
Figure 0005965260
これにより、学習文書行列を低次元に圧縮することができる。圧縮済み文書行列D(k)は、特徴単語が潜在的意味空間に畳み込まれた上位概念と各学習文書データにおいて当該上位概念の重みとの関係を表す行列となっている。
次に、文書ベクトルをm行の列ベクトルqとしたとき、m×k左特異行列Uを用い、次の式により低次元のベクトルに圧縮する。
Figure 0005965260
以上により、文書ベクトル及び学習文書行列305を潜在的意味空間における特徴量に変換することができる。
しかる後、分類処理部163は、ステップS307で変換した文書ベクトル圧縮結果q(k)及び学習文書行列圧縮結果D(k)を用いて類似度計算を行い、分類結果307を出力する(ステップS308)。
前記類似度計算は、文書ベクトル圧縮結果q(k)と、学習文書行列圧縮結果D(k)のカテゴリ毎に線形和を取ったベクトルd (k)を用いて、次の式によりコサイン類似度を計算する。
Figure 0005965260
(12)式により最もコサイン類似度が高くなったd (k)のカテゴリを分類結果307として出力する。
図17は、図6に示す例文と図7に示す例文を比較した例である。修飾構造および意味構造の単位で類似性を比較し、図18に示すように類似度計算される。
最後に、出力処理部170は、ステップS308によって得られた分類結果のカテゴリ308を利用者へ出力する(ステップS309)。
上述のように、本発明の実施の形態を、図面を参照しながら説明してきたが、本実施の形態における処理は、プログラムで実現しても良い。
図19は、本発明の実施形態に係る文書分類プログラムのハードウェア構成を示すブロック図である。同図に示すように、本文書分類プログラムは、バス1910に接続された入力部1920と、出力部1930と、補助記憶部1940と、主記憶部1950と、演算処理部1960と、外部記憶部1970と、通信制御部1980とで構成される情報端末1900に搭載される。
バス1910は、各ハードウェア間の制御信号、データ信号等の授受を媒介する経路である。
入力部1920は、利用者がデータの入力を行うキーボードやマウス等の入力装置である。
出力部1930は、処理結果を出力するプリンタやディスプレイ等の出力装置である。
補助記憶部1940は、文書分類プログラム1941や文書分類プログラム1941を実行するために必要なデータを記憶する、HDD(ハードディスクドライブ)等の記憶装置である。
主記憶部1950は、補助記憶部1940からロードしたデータやプログラムを記憶するRAM(Random Access Memory)等の記憶装置である。
演算処理部1960は、主記憶部1450上のデータやプログラムを読み出して実行するCPU(Central Processing Unit)等の演算処理装置である。
外部記憶部1970は、フレキシブルディスク、CD−ROM、DVD−ROM、光磁気ディスク等の記憶媒体である。
通信制御部1980は、ネットワーク等に接続するための制御装置である。
本発明の機能は、情報端末1900が補助記憶部1940に記憶された文書分類プログラム1941のプログラムコードを読み出し、演算処理部1960によって実行する構成としても達成することができる。
また、本発明の機能は、文書分類プログラム1941を外部記憶装置1970の記憶媒体等に記憶しておき、プログラムを読み出し、演算処理装置1960によって実行する構成としても達成することができる。
また、本発明の機能は、通信回線を介して通信制御装置1980が文書分類プログラム1941をダウンロードし演算処理装置1960によって実行する構成としても達成することができる。
以上、本発明の各実施形態について説明したが、本発明は、上述の実施の形態に限定されるものではなく、種々の変更が可能である。
110 入力処理部
120 解析処理部
121 文書解析部
122 格要素抽出部
130 重要度計算部
140 学習処理部
151 重要度計算用学習辞書
152 分類計算用学習辞書
161 特徴量作成部
162 潜在的意味解析部
163 分類処理部
170 出力処理部
180 文書データ

Claims (2)

  1. 予め正解のカテゴリが付与された複数の文書データと、カテゴリが付与されていない文書データの各々について、文構造を解析する手順と、
    前記解析された文構造に基づき、格要素と述語を抽出し、該格要素と述語ごとに特徴単語を抽出する手順と、
    前記抽出された特徴単語、及び、カテゴリごとに該特徴単語が出現した文書数、を記憶する手順と、
    前記特徴単語及びカテゴリごとに該特徴単語が出現した文書数に基づき、該特徴単語の重要度を計算する手順と、
    前記抽出された特徴単語と該特徴単語の重要度に基づき、前記格要素と述語ごとに特徴量を作成する手順と、
    前記格要素と述語ごとに作成された特徴量を記憶する手順と、
    前記格要素と述語ごとに作成された特徴量を第2の特徴量に変換する手順と、
    前記第2の特徴量に基づき、前記カテゴリが付与されていない文書データのカテゴリを決定する手順と、
    をコンピュータに実行させ、文書データを特定のカテゴリに分類する文書分類プログラム。
  2. 文書データを特定のカテゴリに分類する文書分類装置であって、
    予め正解のカテゴリが付与された複数の文書データと、カテゴリが付与されていない文書データの各々について、文構造を解析する構造解析手段と、
    前記解析された文構造に基づき、格要素と述語を抽出し、該格要素と述語ごとに特徴単を抽出する格要素等抽出手段と、
    前記抽出された特徴単語、及び、カテゴリごとに該特徴単語が出現した文書数、を記憶する重要度計算用学習辞書と、
    前記特徴単語及びカテゴリごとに該特徴単語が出現した文書数に基づき、該特徴単語の重要度を計算する重要度計算手段と、
    前記抽出された特徴単語と該特徴単語の重要度に基づき、前記格要素と述語ごとに特徴量を作成する特徴量作成手段と、
    前記格要素と述語ごとに作成された特徴量を記憶する分類計算用学習辞書と、
    前記格要素と述語ごとに作成された特徴量を第2の特徴量に変換する特徴量変換手段と、
    前記第2の特徴量に基づき、前記カテゴリが付与されていない文書データのカテゴリを決定する分類処理手段と、
    を有することを特徴とする文書分類装置。
JP2012199662A 2012-09-11 2012-09-11 文書分類プログラム及び文書分類装置 Active JP5965260B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012199662A JP5965260B2 (ja) 2012-09-11 2012-09-11 文書分類プログラム及び文書分類装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012199662A JP5965260B2 (ja) 2012-09-11 2012-09-11 文書分類プログラム及び文書分類装置

Publications (2)

Publication Number Publication Date
JP2014056331A JP2014056331A (ja) 2014-03-27
JP5965260B2 true JP5965260B2 (ja) 2016-08-03

Family

ID=50613610

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012199662A Active JP5965260B2 (ja) 2012-09-11 2012-09-11 文書分類プログラム及び文書分類装置

Country Status (1)

Country Link
JP (1) JP5965260B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6467893B2 (ja) * 2014-12-03 2019-02-13 日本電気株式会社 情報処理システム、情報処理方法、及び、プログラム
JP6412541B2 (ja) * 2016-11-10 2018-10-24 Necパーソナルコンピュータ株式会社 情報処理装置、情報処理方法、およびプログラム
CN108628869A (zh) * 2017-03-16 2018-10-09 富士施乐实业发展(中国)有限公司 一种对电子文书进行类别划分的方法和装置
JP6374573B1 (ja) * 2017-06-08 2018-08-15 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
CN110020422B (zh) 2018-11-26 2020-08-04 阿里巴巴集团控股有限公司 特征词的确定方法、装置和服务器
JP7358132B2 (ja) 2019-09-13 2023-10-10 株式会社日立製作所 計算機システム及び文書の分類方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003091542A (ja) * 2001-09-17 2003-03-28 Canon Inc 文書分類方法、文書分類装置、プログラム及び記録媒体
JP2008084064A (ja) * 2006-09-28 2008-04-10 National Institute Of Advanced Industrial & Technology テキスト分類処理方法、テキスト分類処理装置ならびにテキスト分類処理プログラム
JP2008176489A (ja) * 2007-01-17 2008-07-31 Toshiba Corp テキスト判別装置およびテキスト判別方法
JP5471673B2 (ja) * 2010-03-23 2014-04-16 大日本印刷株式会社 文書分類装置、プログラムおよび記憶媒体
JP5477910B2 (ja) * 2010-08-20 2014-04-23 Kddi株式会社 検索キーワード辞書及び係り受けキーワード辞書を用いた文章検索プログラム、装置、サーバ及び方法

Also Published As

Publication number Publication date
JP2014056331A (ja) 2014-03-27

Similar Documents

Publication Publication Date Title
US8280877B2 (en) Diverse topic phrase extraction
JP5965260B2 (ja) 文書分類プログラム及び文書分類装置
CN111475729B (zh) 搜索内容推荐方法及装置
CN106407406B (zh) 一种文本处理方法和系统
CN108733682B (zh) 一种生成多文档摘要的方法及装置
US20130018650A1 (en) Selection of Language Model Training Data
US10521510B2 (en) Computer-readable recording medium, retrieval device, and retrieval method
WO2020232898A1 (zh) 文本分类方法、装置、电子设备及计算机非易失性可读存储介质
JP2003223456A (ja) 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法
KR101717230B1 (ko) 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법 및 문서 요약 시스템
Jin et al. Entity linking at the tail: sparse signals, unknown entities, and phrase models
CN109376235B (zh) 基于文档层词频重排序的特征选择方法
KR102059743B1 (ko) 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템
JP5538185B2 (ja) テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム
Aida et al. A comprehensive analysis of PMI-based models for measuring semantic differences
Duma et al. Applying core scientific concepts to context-based citation recommendation
JP4979637B2 (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
Pak et al. The impact of text representation and preprocessing on author identification
KR102519955B1 (ko) 토픽 키워드의 추출 장치 및 방법
JP2005092253A (ja) 機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラム
JP7452623B2 (ja) 学習装置、情報処理装置、学習方法、情報処理方法及びプログラム
CN107622129B (zh) 一种知识库的组织方法及装置、计算机存储介质
CN109684442B (zh) 一种文本检索方法、装置、设备及程序产品
Balaji et al. Finding related research papers using semantic and co-citation proximity analysis
JP2011076264A5 (ja)

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150708

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20150708

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160608

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160628

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160701

R150 Certificate of patent or registration of utility model

Ref document number: 5965260

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250