JP3847273B2

JP3847273B2 - 単語分類装置、単語分類方法及び単語分類プログラム

Info

Publication number: JP3847273B2
Application number: JP2003133140A
Authority: JP
Inventors: 美樹佐々木
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2003-05-12
Filing date: 2003-05-12
Publication date: 2006-11-22
Anticipated expiration: 2023-05-12
Also published as: JP2004334766A

Description

【０００１】
【発明の属する技術分野】
本発明は、単語が属するカテゴリを決定する単語分類装置、単語分類方法及び単語分類プログラムに関し、例えば、自然言語処理システム用のカテゴリ辞書の拡充等に適用し得るものである。
【０００２】
【従来の技術】
機械翻訳システム等での自然言語処理システムにおいては、専門分野等のカテゴリ別の辞書の充実度が、処理結果の精度におおきな影響を与える。単語をカテゴリ別に分類して辞書に登録する場合において、ユーザに分類先の辞書を適切に選択させるのは、ユーザに負担がかかる。また、人手では、そのカテゴリ辞書に登録された単語群の統一性を保つことが困難である。複数のユーザが共同で単語分類、辞書登録を行なう場合は統一性の保持はなおさらである。
【０００３】
【特許文献１】
特開平１１−１４３８７５号公報
特許文献１には、単語自動分類装置及び単語自動分類方法が開示されている。この特許文献１の方法は、名詞クラスタ及び動詞クラスタの集合を木構造に変換し、それぞれ名詞のシソーラス及び動詞のシソーラスとして出力している。
【０００４】
【発明が解決しようとする課題】
特許文献１の記載方法は、入力文の格解析を行なってシソーラスまで作成しており、分類目的には詳細過ぎて効率的とは言い難い上に、任意のカテゴリ別に単語を分類することはできない。また、精度を高くするために名詞と動詞を組み合わせて分類を行なうので、他の品詞や句になる語には適用することができない。
【０００５】
そのため、少ない工数で任意のカテゴリに語や句を分類することができる単語分類装置、単語分類方法及び単語分類プログラムが求められている。
【０００６】
【課題を解決するための手段】
かかる課題を解決するため、第１の本発明は、分類対象単語を複数のカテゴリのいずれかのカテゴリに分類する単語分類装置であって、（１）各カテゴリについて、そのカテゴリを代表する単語であるコアワードと、そのコアワードがそのカテゴリに属する度合いを示すコアワード値の組を複数格納しているコアワード辞書と、（２）文書を格納している文書データベースと、（３）上記文書データベースに格納されている文書から、上記分類対象単語を検索し、分類対象単語が検索された文書部分から、その共起関係にある共起関係単語を抽出する文書処理手段と、（４）抽出された各共起関係単語が、上記コアワード辞書にコアワードとして格納されているかを検索し、検索されたコアワードのコアワード値から、カテゴリの順位付け判定値を形成して、上記分類対象単語が属するカテゴリを決定する判定手段とを有することを特徴とする。
【０００７】
また、第２の本発明は、分類対象単語を複数のカテゴリのいずれかのカテゴリに分類する単語分類方法であって、（１）各カテゴリについて、そのカテゴリを代表する単語であるコアワードと、そのコアワードがそのカテゴリに属する度合いを示すコアワード値の組を複数格納しているコアワード辞書と、文書を格納している文書データベースとを用意しておき、（２）上記文書データベースに格納されている文書から、上記分類対象単語を検索し、分類対象単語が検索された文書部分から、その共起関係にある共起関係単語を抽出する文書処理工程と、（３）抽出された各共起関係単語が、上記コアワード辞書にコアワードとして格納されているかを検索し、検索されたコアワードのコアワード値から、カテゴリの順位付け判定値を形成して、上記分類対象単語が属するカテゴリを決定する判定工程とを有することを特徴とする。
【０００８】
第３の本発明の単語分類プログラムは、分類対象単語を複数のカテゴリのいずれかのカテゴリに分類するプログラムであって、コンピュータを、各カテゴリについて、そのカテゴリを代表する単語であるコアワードと、そのコアワードがそのカテゴリに属する度合いを示すコアワード値の組を複数格納しているコアワード辞書と、文書を格納している文書データベースと、上記文書データベースに格納されている文書から、上記分類対象単語を検索し、分類対象単語が検索された文書部分から、その共起関係にある共起関係単語を抽出する文書処理手段と、抽出された各共起関係単語が、上記コアワード辞書にコアワードとして格納されているかを検索し、検索されたコアワードのコアワード値から、カテゴリの順位付け判定値を形成して、上記分類対象単語が属するカテゴリを決定する判定手段として機能させることを特徴とする。
【０００９】
【発明の実施の形態】
（Ａ）第１の実施形態
以下、本発明による単語分類装置、単語分類方法及び単語分類プログラムの第１の実施形態を図面を参照しながら説明する。
【００１０】
なお、以下の説明において、分類したい分野をカテゴリと定義する。カテゴリに特有でかつ代表的な単語をコアワードと定義する。複数の要素が、一定の範囲内（語、文、段落、文章など）に同時に現れることを共起という。同時に現れる単語を共起関係にある単語という。ある単語と同じように共起関係にある他の単語は同じカテゴリになると定義する。コアワードには、カテゴリに属する度合いを示す値を付与する。値が大きいほどそのカテゴリに属する度合いが強い。コアワードとコアワードの値は前もって用意しておく。コアワードとコアワードの値によって、分類対象単語のカテゴリを判定する。分類対象は、単語だけでなく、句であっても良いが、以下の構成及び動作の説明では単語として説明する。
【００１１】
（Ａ−１）第１の実施形態の構成
図１は、第１の実施形態の単語分類装置の機能的構成を示すブロック図である。第１の実施形態の単語分類装置は、例えば、入出力手段を備えるパソコン等の情報処理装置上に、単語分類プログラムをインストールすることによって実現されるが、機能的には、図１で表すことができる。
【００１２】
第１の実施形態の単語分類装置は、機能的には、入力手段１、文書処理手段２、判定手段３、出力手段４、文書データベース５、コアワード辞書６及びカテゴリ辞書７を有する。
【００１３】
入力手段１は、例えば、キーボード等の一般的な入力手段だけでなく、記録媒体のアクセス装置等のファイル読込装置や、文書をイメージデータとして読み込んでそれをテキストデータに置き換える文字認識装置等も該当し、要は、文書や分類対象の単語を入力する手段であり、また、適宜、動作モード等も指示するものである。
【００１４】
文書処理手段２は、文書や分類対象単語やコアワードを処理する手段である。文書処理手段２は、文書を形態素解析し、分類対象単語やコアワードを検索して抽出するものである。
【００１５】
判定手段３は、分類対象単語と共起したコアワードとその値に基づいて、分類対象単語のカテゴリを判定する手段である。
【００１６】
文書処理手段２及び判定手段３は、例えば、その機能を担う処理ルーチン及びその実行手段（ＣＰＵ等）からなる。
【００１７】
出力手段４は、分類対象単語の判定されたカテゴリを出力する手段であり、例えば、ディスプレイやプリンタ等の一般的な出力手段だけでなく、記録媒体へ格納する記録媒体アクセス装置等も該当する。
【００１８】
文書データベース５は、入力された文書を格納するデータベースであり、複数の文書の格納も可能であり、格納された文書が、分類対象単語のカテゴリ判定のために利用される。
【００１９】
コアワード辞書６は、カテゴリ毎に、コアワードとその値とを格納しており、判定手段３によって利用される。
【００２０】
カテゴリ辞書７は、カテゴリ毎に、そのカテゴリに属する単語を格納しているものであり、判定手段３によって利用される。
【００２１】
（Ａ−２）第１の実施形態の動作
次に、第１の実施形態の単語分類装置の動作（第１の実施形態の単語分類方法）を説明する。
【００２２】
第１の実施形態の単語分類装置は、文書データベースに文書を格納しておき、分類対象単語を文書データベースから検索し、分類対象単語と共起関係にある単語を文書から抽出し、抽出した共起関係にある単語をコアワード辞書から検索し、検索したコアワードの属するカテゴリを分類対象単語のカテゴリの候補とし、コアワードとコアワードの値によって、カテゴリの順位を決定し、カテゴリを判定する。
【００２３】
以下では、具体例を適宜利用しながら、より具体的に、第１の実施形態の単語分類装置の動作を説明する。
【００２４】
以下の例では、改行までの１文内に同時に現れた単語から不要語を除いた単語を、共起関係の判定対象の単語とする。名詞、動詞、形容詞、形容動詞、未知語（自立語）以外を不要語とする。共起関係の単語を抽出するには、分類対象単語を含む文を検索して抽出し、その文を形態素解析することにより行う。カテゴリの順位は、共起関係にある単語中にふくまれているコアワードの値を、その出現回数を反映させた合計値の大きい順にコアワードを並べ、コアワードを並べた順に、カテゴリ名を重複しないように取り、カテゴリ名を取った順とする。カテゴリの判定結果は、順位が１位のカテゴリとする。値の合計を取るのは、格納した文書の内容をカテゴリの順位に反映するためである。
【００２５】
図２は、第１の実施形態の単語分類装置の全体動作を説明するフローチャートである。
【００２６】
入力手段１によって文書格納処理か単語分類処理かを選択させ（２０１）、文書格納処理が選択されると文書格納処理を実行し（２０２）、単語分類処理が選択されると単語分類処理を実行して（２０３）、一連の処理を終了する。
【００２７】
図３は、図２における文書格納処理（２０２）の詳細を示すフローチャートである。
【００２８】
入力手段１から文書を入力させ（３０１）、文書処理手段２が入力された文書を文書データベース５に格納する（３０２）。ここで、入力文書は、新聞文書などの種々のカテゴリの内容が混在したものであっても良く、あるカテゴリを意図したものであっても良い。また、文書格納処理を複数回繰り返して、全種類のカテゴリに係る文章が含まれているようにしても良い。
【００２９】
図４は、図２における単語分類処理（２０３）の詳細を示すフローチャートである。
【００３０】
まず、入力手段１によって分類対象単語を入力させる（４０１）。以下では、「スターウォーズ」が分類対象単語として入力されたとして説明する。また、コアワード辞書６及びカテゴリ辞書７がそれぞれ、図５及び図６に示すようになっており、文書データベース５には図７に示す文章を含む文書が格納されているとして説明する。
【００３１】
分類対象単語が入力されると、次に、文書処理手段２が、文書データベース５の格納文書から分類対象単語を検索し（４０２）、分類対象単語と共起関係にある単語を抽出する（４０３）。この際には、文書処理手段２によって形態素解析がなされるが、この形態素解析方法は一般的な方法を適用できる。従って、文書処理手段２は、形態素解析用の辞書を内蔵している。
【００３２】
文書データベース５の格納文書に対する分類対象単語「スターウォーズ」の検索により（４０２）、図７に示す文章が検索され、その各文章の自立語が抽出され、その結果、共起関係にある単語（以下、共起関係語と呼ぶ）として、図８に示すものが抽出される（４０３）。なお、共起関係語の抽出では、同じ単語でも、異なる文章や位置にあるものは独立して抽出する。
【００３３】
その後、判定手段３が、抽出された共起関係語をコアワード辞書６からカテゴリを区別して検索し（４０４）、コアワード辞書６に存在した共起関係語にコアワードの値を付与し、同一カテゴリの同一の共起関係語（コアワード）毎にコアワード値を合計する（４０５）。
【００３４】
図９は、コアワード辞書６からの共起関係語（コアワード）の抽出結果を示している。なお、図９の２個の「映画」は、別個の文章から抽出されたものであり、図９の２個の「監督」は共起関係語としては１個抽出されたものであるが、コアワード辞書６のカテゴリ「芸術」及び「スポーツ」の双方に「監督」が存在していたため、コアワード辞書６に対する検索で、「監督」の情報が２個になったものである。図１０は、同一カテゴリの同一の共起関係語の合計コアワード値を示している。
【００３５】
その後、判定手段３が、コアワードと合計値とからカテゴリの順位を決定し（４０６）、分類対象単語のカテゴリを判定する（４０７）。
【００３６】
上述したように、カテゴリの順位の決定は、合計値の大きい順にコアワードを並べ、コアワードを並べた順に、カテゴリ名を重複しないように取り、カテゴリ名を取った順としている。上述した図１０は、合計値の大きい順に並べたものとなっているので、図１１に示すように、「映画」のカテゴリ「芸術」が第１順位、「冷戦」のカテゴリ「政治」が第２順位、「監督」のカテゴリ「芸術」及び「スポーツ」のうち順位付けされていないカテゴリ「スポーツ」が第３順位となる。その結果、図１２に示すように、分類対象単語「スターウォーズ」のカテゴリとして、第１順位の「芸術」が決定される。
【００３７】
続いて、判定手段３は、分類対象単語を、カテゴリ辞書７の判定したカテゴリに格納し（４０８）、出力手段４は、判定されたカテゴリ名（及び分類対象単語）を出力する（４０９）。
【００３８】
（Ａ−３）第１の実施形態の効果
上記第１の実施形態によれば、以下の効果を奏することができる。
【００３９】
前もってカテゴリ毎のコアワードを作成しておくことによって、類似度やクラスタリングといった複雑な計算を実行することなく、少ない工数で、任意のカテゴリに分類対象単語を分類することができる。
【００４０】
また、分類対象を文書から検索して共起関係にある単語を抽出する手法で分類できるので、分類対象に関し、品詞が限定されず、また、句でも分類することができる。
【００４１】
さらに、コアワードが固定であっても、格納した文書によって、文書の内容に合ったカテゴリに分類することができる。例えば、格納した文書に映画関係の内容が多い場合には、分類対象単語に対する候補カテゴリの順位付けで芸術のカテゴリの順位が高くなり易く、格納した文書に軍事関係の内容が多い場合には、分類対象単語に対する候補カテゴリの順位付けで政治のカテゴリの順位が高くなり易い。
【００４２】
各共起関係単語（出現コアワード）の合計値だけでカテゴリの順位付けを行っているので、カテゴリ毎の合計値に基づいた順位付けより、コアワード１個１個が順位付けに影響を与えやすく、コアワードとして、そのカテゴリに代表的なものを選定しておけば適切に分類を行うことができる。仮に、カテゴリ毎の合計値に基づいた順位付けを行った場合は（この場合は、第１の実施形態の変形実施形態となっている）、コアワード値が小さいコアワードの影響も合計値に入って順位付けに影響を与えるが、第１の実施形態では、コアワード値が小さいコアワードは、それが多数共起しなければ順位付けに影響を与えない。
【００４３】
（Ｂ）第２の実施形態
次に、本発明による単語分類装置、単語分類方法及び単語分類プログラムの第２の実施形態を図面を参照しながら説明する。
【００４４】
第２の実施形態は、第１の実施形態に、コアワードを作成し、コアワードの値を計算する機能を追加したものである。
【００４５】
（Ｂ−１）第２の実施形態の構成
図１３は、第２の実施形態の単語分類装置の機能的構成を示すブロック図であり、第１の実施形態に係る図１との同一、対応部分には同一符号を付して示している。
【００４６】
第２の実施形態の単語分類装置は、第１の実施形態の構成に加え、コアワード値処理手段８を有している。コアワード値処理手段８は、コアワードに付与する値やカテゴリ毎のコアワードの値やカテゴリ毎の重み付けや語毎の重み付けを計算する手段である。
【００４７】
（Ｂ−２）第２の実施形態の動作
次に、第２の実施形態の単語分類装置の動作（第２の実施形態の単語分類方法）を、適宜、具体例をまぜながら説明する。
【００４８】
図１４は、第２の実施形態の単語分類装置の全体動作を示すフローチャートである。
【００４９】
入力手段１によって処理を選択させ（５０１）、文書格納処理が選択されると文書格納処理を実行し（５０２）、コアワード作成処理が選択されるとコアワード作成処理を実行し（５０３）、単語分類処理が選択されると単語分類処理を実行して（５０４）、一連の終了する。
【００５０】
図１５は、図１４における文書格納処理（５０２）の詳細を示すフローチャートである。
【００５１】
入力手段１からカテゴリを指定した文書を入力させ（６０１）、文書処理手段２が文書データベース５にカテゴリ別に文書を格納する（６０２）。
【００５２】
図１６は、図１４におけるコアワード作成処理（５０３）の詳細を示すフローチャートである。
【００５３】
文書処理手段２が文書データベース５のカテゴリ別に文書を形態素解析し（７０１）、形態素解析結果から不要語を除いた単語を、そのカテゴリ別のコアワードとして抽出する（７０２）。この第２の実施形態においても、名詞、動詞、形容詞、形容動詞、未知語（自立語）以外を不要語とする。
【００５４】
そして、コアワード値処理手段８がコアワード値を計算し（７０３）、抽出した単語（コアワード）にコアワード値を付与し（７０４）、コアワード辞書６に単語（コアワード）とコアワード値を格納する（７０５）。
【００５５】
ここで、コアワードに付与するコアワード値はｔｆ＊ｉｄｆ（手法）で計算する。ｔｆ＊ｉｄｆは、文書の自動索引付けにおいて、索引語の重みを計算する手法である。
【００５６】
ｔｆ（ｔ，ｄ）は、ある文書ｄにおける索引語ｔの生起頻度である（文書毎の文書中の単語数；ＴｅｒｍＦｒｅｑｕｅｎｃｙ）。ｄｆ（ｔ）は、索引語ｔが１回以上生起する文書の数であり（ある単語を含む文書の数；ＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）、ｉｄｆ（ｔ）は、（１）式に示すように、文書の数Ｎと、ｄｆ（ｔ）の逆数とをかけて対数をとったものである。そして、索引語ｔの文書ｄにおける重みｗ（ｔ，ｄ）は、（２）式で与えられる。
【００５７】
ｉｄｆ（ｔ）＝ｌｏｇ｛Ｎ／ｄｆ（ｔ）｝ …（１）
ｗ（ｔ，ｄ）＝ｔｆ（ｔ，ｄ）＊ｉｄｆ（ｔ） …（２）
語がどのくらい特定性を持つかはｉｄｆによって反映されている。多くの文書中に現れる普遍的な語の場合には、ｉｄｆは小さくなり、逆に、特定の文書にしか現れない語の場合にはｉｄｆは大きくなる。ｔｆを用いるのは、文書中で繰り返し生起する語はその文書において重要な概念であると考えるためである。
【００５８】
ｔｆ＊ｉｄｆそのものでは、総単語数が多いほど大きい値を取り得るので、単語分類では、コアワードの値（ｔｆ＊ｉｄｆ）のカテゴリ間での調整が必要である。重み付けとしてカテゴリ毎のコアワード数を用い、カテゴリ毎のコアワード数でカテゴリが一致する各コアワードの値（ｔｆ＊ｉｄｆ）を割ることで調整する。また、共起関係の強さを反映させるために、重み付けとして、抽出した共起関係にある語のカテゴリを超えて数えた数を、語が一致するコアワードの値にかけることにする。
【００５９】
なお、カテゴリ毎のコアワード数は、コアワード値処理手段８がコアワード値ｔｆ＊ｉｄｆを計算する際に合わせて得ておく。
【００６０】
図１８は、以上のようにして作成されたコアワード辞書６の一例を示す説明図である。各コアワードの値として、計算されたｔｆ＊ｉｄｆが格納されている。
【００６１】
図１７は、図１４における単語分類処理（５０４）の詳細を示すフローチャートである。
【００６２】
入力手段１によって分類対象単語を入力させると（８０１）、文書処理手段２で文書データベース５の文書から分類対象単語を検索し（８０２）、分類対象単語と共起関係にある単語を抽出する（５０３）。これらの処理は、第１の実施形態と同様である。
【００６３】
例えば、「神経系」が分類対象単語として入力された場合において、文書データベース５の格納文書の中に、図２０に示すような文章があると、共起関係単語として、図２１に示すようなものが抽出される。
【００６４】
その後、コアワード値処理手段８が、抽出された共起関係単語をコアワード辞書６から検索し（８０４）、コアワード辞書６に存在した共起関係単語（コアワード）の重みを計算し（８０５）、コアワードの値に重み付けをする（８０６）。
【００６５】
共起関係単語として、図２２に示すような単語が抽出されると、コアワード辞書６の検索により、各単語（コアワード）に対し、カテゴリ名とコアワード値が得られる。
【００６６】
図２３は、抽出されたコアワードの重み付け値の説明図である。カテゴリ「経済」に属するコアワード「市場」のカテゴリの重み付け値（ａ）は、そのカテゴリ「経済」のコアワードの総数である「３２１５５」である。コアワード「市場」の語の重み付け値（ｂ）は、この単語「市場」が、カテゴリを問わずに、分類対象単語「神経系」と共起した回数が１回であるので「１」である。また、カテゴリ「医学」に属するコアワード「神経」のカテゴリの重み付け値（ａ）は、そのカテゴリ「医学」のコアワードの総数である「４２９４」である。コアワード「神経」の語の重み付け値（ｂ）は、この単語「神経」が、カテゴリを問わずに、分類対象単語「神経系」と共起した回数が３０回であるので「３０」である。
【００６７】
図２４は、各コアワードの値（ｔｆ＊ｉｄｆ）に対し、重み付け値（ａ）及び（ｂ）を用いて重み付けを行った後の値を示している。重み付け後の値は、（３）式に従って計算している。なお、（３）式における１００は、重み付け後の値の大きさをある程度の大きさにするための定数である。また、図２４では、重み付け後の値を、整数に四捨五入して示しているが、有効桁数は任意に設定しても良い。
【００６８】
（ｔｆ＊ｉｄｆ）×（ｂ）×１００÷（ａ） …（３）
その後、判定手段３は、抽出されたコアワードの重み付け語の値からカテゴリの順位を決定し（８０７）、分類対象単語のカテゴリを判定する（８０８）。
【００６９】
重み付け語の値の大きい順に抽出されたコアワードを並び換えると、上述した図２４に示すような結果が得られるので、大きい方から、カテゴリ名を重複しないように取り出すと、図２５に示すように、「医学」、「経済」、「スポーツ」の順にカテゴリの候補が得られ、分類対象単語「神経系」のカテゴリとして「医学」が決定される。なお、同一コアワードの出現頻度は、既に重み付け語の値に反映されているので、順位付けでは、同一コアワードの出現頻度を改めて考慮することは行っていない。
【００７０】
続いて、判定手段３は、分類対象単語をカテゴリ辞書７の判定したカテゴリに格納し（８０９）、また、出力手段４から判定したカテゴリを出力させる（８１０）。
【００７１】
カテゴリ辞書７への格納により、分類対象単語「神経系」は、図１８に示すように、「医学」のカテゴリに追加され（なお、このときに既に格納されているかいなかを確認し、格納されていない場合にのみ追加するようにしても良い）、また、図２６に示すような形式で出力される。
【００７２】
（Ｂ−３）第２の実施形態の効果
第２の実施形態によれば、第１の実施形態と同様な効果を奏すると共に、さらに、以下の効果を奏することができる。
【００７３】
カテゴリに特有な文書を処理することによって、単語分類に必要なコアワードと付与する値を自動的に作成することができる。
【００７４】
また、カテゴリを指定した文書を格納することによって、分類するカテゴリを任意に決定することができる。すなわち、文書の入力時に指定されたカテゴリが、カテゴリ辞書やコアワード辞書に用意されていなければ新たなカテゴリとして準備される。
【００７５】
（Ｃ）他の実施形態
なお、上記各実施形態では、分類対象単語を判定したカテゴリのカテゴリ辞書に格納するものを示したが、カテゴリ辞書に格納する前に、カテゴリの順位を出力して、操作者に格納するカテゴリの種類を選択させるようにしても良い。
【００７６】
また、自動的にカテゴリ辞書に格納する場合においても、最高順位のカテゴリのカテゴリ辞書に格納するだけでなく、判定基準が閾値を超えている順位までの全てのカテゴリのカテゴリ辞書に格納するようにしても良い。また、順位の決定やカテゴリの判定は、下位でも多数ある方を優先する、などの別の方法を用いても良い。
【００７７】
さらに、コアワードの品詞の種類を上記実施形態以外で定義しても良く、コアワードを追加や削除できるようにしても良い。第２の実施形態の場合、値ｔｆ＊ｉｄｆ等が小さいものを、コアワードから除外するようにしても良い。
【００７８】
さらにまた、コアワードを抽出したり、共起関係単語を抽出するための形態素解析として、Ｎグラムでの切り出しなどの別の方法を用いても良い。
【００７９】
また、共起関係の定義も、他の方法を適用しても良い。例えば、修飾関係という条件を盛り込んでも良く、また、抽出する範囲を実施形態より広くしたり狭くしたりしても良い。
【００８０】
さらに、コアワードの値や重み付けは、文書の見出しに含まれる語は高くしたり語間の距離を反映したりなどの別の方法で計算しても良く、語を指定して、操作者が手動で調整できるようにしても良い。
【００８１】
さらにまた、上記各実施形態では、判定結果を格納するカテゴリ辞書を有するものを示したが、判定結果を直ちに出力し、カテゴリ辞書を省略するようにしても良い。
【００８２】
上記各実施形態においては、カテゴリが同列である場合を示したが、カテゴリに階層構造がある場合（例えば、「野球」、「サッカー」の上位階層に「スポーツ」がある場合にも、本発明を適用することができる。この場合、例えば、以下のような措置を施すようにすれば良い。あるコアワードが複数の子カテゴリ及び親カテゴリにあるときには、子カテゴリからそのコアワードを削除する。また、カテゴリの順位を決定したときに、親カテゴリの順位より上位に、異なる子カテゴリが複数（例えば所定数以上）存在する場合には、親カテゴリの順位を上げる操作を行う。例えば、順位判定値を、存在する子カテゴリの数で定まる重み付け係数倍して順位決めをやり直す。また、所定番数以内に子カテゴリ及び親カテゴリが子カテゴリが上位で共に存在する場合、又は、子カテゴリ及び親カテゴリの順位差が所定差以内の場合には、操作者に、子カテゴリを優先するか、親カテゴリを優先させるかを確認させるようにしても良い。なお、親カテゴリの順位が高い場合には、何らの調整操作を実行しないようにしても良い。
【００８３】
上記各実施形態の説明でも言及したように、カテゴリの分類対象は、単語に限定されず、句などでも良い。特許請求の範囲における「単語」の用語は、このような「句等」も含むものとする。これは、コアワードや共起関係単語についても同様とする。
【００８４】
また、文書データベースは、ネットワークを介して参照するようなものであっても良い。
【００８５】
本発明で作成されたカテゴリ辞書をベースに、機械翻訳等の自然言語処理用のカテゴリ辞書を作成、登録することができる。
【００８６】
【発明の効果】
本発明によれば、少ない工数で任意のカテゴリに分類対象単語を分類できる単語分類装置、単語分類方法及び単語分類プログラムを提供できる。
【図面の簡単な説明】
【図１】第１の実施形態の単語分類装置の機能的構成を示すブロック図である。
【図２】第１の実施形態の単語分類装置の全体動作を示すフローチャートである。
【図３】図２の文書格納処理の詳細を示すフローチャートである。
【図４】図２の単語分類処理の詳細を示すフローチャートである。
【図５】第１の実施形態のコアワード辞書の構成例を示す説明図である。
【図６】第１の実施形態のカテゴリ辞書の構成例を示す説明図である。
【図７】第１の実施形態の文書データベースの格納文書例を示す説明図である。
【図８】第１の実施形態の抽出された共起関係単語例を示す説明図である。
【図９】第１の実施形態の抽出されたコアワード例を示す説明図である。
【図１０】第１の実施形態の抽出されたコアワードの並換え例を示す説明図である。
【図１１】第１の実施形態のカテゴリの順位付け結果を示す説明図である。
【図１２】第１の実施形態の分類対象単語の判定結果例を示す説明図である。
【図１３】第２の実施形態の単語分類装置の機能的構成を示すブロック図である。
【図１４】第２の実施形態の単語分類装置の全体動作を示すフローチャートである。
【図１５】図１４の文書格納処理の詳細を示すフローチャートである。
【図１６】図１４のコアワード作成処理の詳細を示すフローチャートである。
【図１７】図１４の単語分類処理の詳細を示すフローチャートである。
【図１８】第２の実施形態のコアワード辞書の構成例を示す説明図である。
【図１９】第２の実施形態のカテゴリ辞書の構成例を示す説明図である。
【図２０】第２の実施形態の文書データベースの格納文書例を示す説明図である。
【図２１】第２の実施形態の抽出された共起関係単語例を示す説明図である。
【図２２】第２の実施形態の抽出されたコアワード例を示す説明図である。
【図２３】第２の実施形態のコアワード値に対する重み付けの説明図である。
【図２４】第２の実施形態の重み付け後のコアワード値を示す説明図である。
【図２５】第２の実施形態のカテゴリの順位付け結果を示す説明図である。
【図２６】第２の実施形態の分類対象単語の判定結果例を示す説明図である。
【符号の説明】
１…入力手段、２…文書処理手段、３…判定手段、４…出力手段、５…文書データベース、６…コアワード辞書、７…カテゴリ辞書、８…コアワード値処理手段。

Claims

分類対象単語を複数のカテゴリのいずれかのカテゴリに分類する単語分類装置であって、
各カテゴリについて、そのカテゴリを代表する単語であるコアワードと、そのコアワードがそのカテゴリに属する度合いを示すコアワード値の組を複数格納しているコアワード辞書と、
文書を格納している文書データベースと、
上記文書データベースに格納されている文書から、上記分類対象単語を検索し、分類対象単語が検索された文書部分から、その共起関係にある共起関係単語を抽出する文書処理手段と、
抽出された各共起関係単語が、上記コアワード辞書にコアワードとして格納されているかを検索し、検索されたコアワードのコアワード値から、カテゴリの順位付け判定値を形成して、上記分類対象単語が属するカテゴリを決定する判定手段と
を有することを特徴とする単語分類装置。
上記文書データベースがカテゴリが指定されたカテゴリ別の文書を格納していると共に、
カテゴリ別の文書を形態素解析して得た所定の品詞種類の単語の頻度情報、及び、その単語が含まれている文書の種類数に応じて、各カテゴリのコアワード及びコアワード値を作成して上記コアワード辞書に登録するコアワード作成手段を備えることを特徴とする請求項１に記載の単語分類装置。
上記判定手段は、共起関係単語に基づいた上記コアワード辞書の検索で抽出されたコアワードのコアワード値を、そのコアワード作成時におけるそのカテゴリの文書での所定の品詞種類の全ての単語の出現頻度と、上記共起関係単語の全ての文書での出現頻度とで修正したものを、順位付け判定値として、カテゴリの順位付けを行うことを特徴とする請求項２に記載の単語分類装置。
カテゴリが決定された分類対象単語を格納する、カテゴリ別のカテゴリ辞書をさらに有することを特徴とする請求項１〜３のいずれかに記載の単語分類装置。
分類対象単語を複数のカテゴリのいずれかのカテゴリに分類する単語分類方法であって、
各カテゴリについて、そのカテゴリを代表する単語であるコアワードと、そのコアワードがそのカテゴリに属する度合いを示すコアワード値の組を複数格納しているコアワード辞書と、文書を格納している文書データベースとを用意しておき、
上記文書データベースに格納されている文書から、上記分類対象単語を検索し、分類対象単語が検索された文書部分から、その共起関係にある共起関係単語を抽出する文書処理工程と、
抽出された各共起関係単語が、上記コアワード辞書にコアワードとして格納されているかを検索し、検索されたコアワードのコアワード値から、カテゴリの順位付け判定値を形成して、上記分類対象単語が属するカテゴリを決定する判定工程と
を有することを特徴とする単語分類方法。
上記文書データベースにカテゴリが指定されたカテゴリ別の文書を格納しておくと共に、
カテゴリ別の文書を形態素解析して得た所定の品詞種類の単語の頻度情報、及び、その単語が含まれている文書の種類数に応じて、各カテゴリのコアワード及びコアワード値を作成して上記コアワード辞書に登録するコアワード作成工程を有することを特徴とする請求項５に記載の単語分類方法。
上記判定工程は、共起関係単語に基づいた上記コアワード辞書の検索で抽出されたコアワードのコアワード値を、そのコアワード作成時におけるそのカテゴリの文書での所定の品詞種類の全ての単語の出現頻度と、上記共起関係単語の全ての文書での出現頻度とで修正したものを、順位付け判定値として、カテゴリの順位付けを行うことを特徴とする請求項６に記載の単語分類方法。
分類対象単語を複数のカテゴリのいずれかのカテゴリに分類する単語分類プログラムであって、
コンピュータを、
各カテゴリについて、そのカテゴリを代表する単語であるコアワードと、そのコアワードがそのカテゴリに属する度合いを示すコアワード値の組を複数格納しているコアワード辞書と、
文書を格納している文書データベースと、
上記文書データベースに格納されている文書から、上記分類対象単語を検索し、分類対象単語が検索された文書部分から、その共起関係にある共起関係単語を抽出する文書処理手段と、
抽出された各共起関係単語が、上記コアワード辞書にコアワードとして格納されているかを検索し、検索されたコアワードのコアワード値から、カテゴリの順位付け判定値を形成して、上記分類対象単語が属するカテゴリを決定する判定手段と
して機能させることを特徴とする単語分類プログラム。