JP3889010B2

JP3889010B2 - 語句分類システム、語句分類方法、および語句分類プログラム

Info

Publication number: JP3889010B2
Application number: JP2004080818A
Authority: JP
Inventors: 美樹佐々木; 美穂子北村
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2004-03-19
Filing date: 2004-03-19
Publication date: 2007-03-07
Anticipated expiration: 2024-03-19
Also published as: JP2005267397A

Description

本発明は語句分類システム、語句分類方法、および語句分類プログラムに関し、例えば、多段の階層からなる階層構造（木構造）を持つカテゴリ（分野）に、与えられた語句を分類する場合などに適用して好適なものである。

従来、フレーズを該当する分野に分類する技術として、下記の非特許文献１に記載されたものがある。

非特許文献１の技術は、日々生まれる新しい用語を機械翻訳システムで使用する辞書に適切に収めることで、辞書のメンテナンスを自動化し、メンテナンスのコストを下げようとするものである。そのために当該技術では、主分野、副分野と呼ぶ二段に階層化された分野別辞書を予め用意しておく。例えば、主分野辞書である「スポーツ」辞書には各種スポーツで共通の用語が収められており、この「スポーツ」辞書に対する副分野辞書である「サッカー」辞書や「ゴルフ」辞書などには、それぞれのスポーツ固有の用語を収めておく。

与えられたフレーズを、このように階層化された分野別辞書に分類する場合、前記非特許文献１では、次のような処理を行う。

まず最初に、全副分野（全副分野辞書）のなかでいずれかの分野に固有に出現し、かつ頻度が高い（この頻度は、その分野と与えられたフレーズとのベクトル的な類似度の高さに対応）フレーズほど上位にランクされるようにし、次に、上位にランクされたフレーズを取り除いた上で残ったフレーズに対し、全主分野（全主分野辞書）のなかでいずれかの分野に固有に出現し、かつ頻度が高いフレーズほど上位にランクされるようにする。

このようにして、それぞれの段階で上位にランクされたフレーズを該当する分野辞書（副分野辞書または主分野辞書）に収める方向で制御することによって、辞書のメンテナンスを自動化し、メンテナンスのコストを下げることができる。

なお、非特許文献１では、前記ベクトル的な類似度の高さを求めるとき、個々のフレーズは分野を要素としたベクトル空間中のベクトルとみなし、分野ごとにその分野だけが要素１を持つ単位ベクトルを想定する。
神山淑朗、伊藤晴美：「自律的語彙拡充を行う機械翻訳システム」，情報処理学会第６５回全国大会，２００３，ｐｐ．２−５〜２−６

ところで、上述した非特許文献１の技術では、二段に階層化された分野別辞書を想定しているが、機械翻訳の訳質の向上などのためには、現実の分野別辞書では二段より多くの階層を必要とすることが少なくない。多段に階層化された分野別辞書に非特許文献１の技術を適用した場合、計算量の多い同じ処理をすべての階層について実行しなければならないため、全体として必要な計算量は膨大なものとなり、効率が低くなる可能性が高い。

また、非特許文献１に記載されている分野ごとにその分野だけが要素１を持つ単位ベクトルとは、具体的に何を意味し、どのようにして得られる情報なのかについて必ずしも明確に説明されていないが、一般的にこのような情報を得るためには、各分野別辞書に登録されている語に応じた処理を行う必要があり、登録語数が多い場合には必要な計算量も多くなる。さらに、分野別辞書の登録語が充実していないと、前記単位ベクトルが得られないことや、得られたとしても適切なものではないことが起こり得るが、そのような場合、正しく判断できず、適切な分類を行うことができない可能性が高いので、分類の品質が低い。

かかる課題を解決するために、第１の本発明は、予め定めたカテゴリのあいだの包含、被包含の関係から、カテゴリ間に木構造にしたがった親子関係を設定した上で、与えられた分類対象語句をいずれかのカテゴリに分類することを少なくとも支援する語句分類システムにおいて、（１）前記木構造で子を持たない最下位の節にあたる最下位カテゴリのいずれかに分類された文書の集合である分類済み文書集合に含まれる各文書中の語句について、各文書の内容の特徴を表現する度合いを示す所定の第１の特徴情報を計算する特徴情報計算部と、（２）この特徴情報計算部によって計算された第１の特徴情報の値に応じてその文書が属するカテゴリの内容を特徴的に表現する１または複数のカテゴリ特徴語句を決定する処理を、全ての前記最下位カテゴリについて実行する最下位カテゴリ特徴語句決定部と、（３）前記各最下位カテゴリも含め、全ての子にあたるカテゴリに関するカテゴリ特徴語句及びそのカテゴリ特徴語句についての前記第１の特徴情報または第２の特徴情報を利用し、そのカテゴリ特徴語句が全ての子カテゴリに偏りなく表れているかを判断して、その親にあたるカテゴリのカテゴリ特徴語句及び前記第２の特徴情報を決定する操作を順次繰り返し、前記木構造の上位の各節に対応するカテゴリについて１または複数のカテゴリ特徴語句を前記第２の特徴情報と共に決定する上位カテゴリ特徴語句決定部と、（４）前記分類済み文書集合に含まれる文書中で、前記分類対象語句と共起するカテゴリ特徴語句を探索し、探索されたカテゴリ特徴語句に関する、各カテゴリでの前記第１または第２の特徴情報を利用してその分類対象語句が分類されるカテゴリを決定して出力するか、または、カテゴリの決定を支援する支援情報を生成した上で当該支援情報を出力する出力処理部とを備えたことを特徴とする。

また、第２の本発明では、予め定めたカテゴリのあいだの包含、被包含の関係から、カテゴリ間に木構造にしたがった親子関係を設定した上で、与えられた分類対象語句をいずれかのカテゴリに分類することを少なくとも支援する語句分類方法において、（１）特徴情報計算部が、前記木構造で子を持たない最下位の節にあたる最下位カテゴリのいずれかに分類された文書の集合である分類済み文書集合に含まれる各文書中の語句について、各文書の内容の特徴を表現する度合いを示す所定の第１の特徴情報を計算し、（２）最下位カテゴリ特徴語句決定部が、当該特徴情報計算部によって計算された第１の特徴情報の値に応じてその文書が属するカテゴリの内容を特徴的に表現する１または複数のカテゴリ特徴語句を決定する処理を、全ての前記最下位カテゴリについて実行し、（３）上位カテゴリ特徴語句決定部が、前記各最下位カテゴリも含め、全ての子にあたるカテゴリに関するカテゴリ特徴語句及びそのカテゴリ特徴語句についての前記第１の特徴情報または第２の特徴情報を利用し、そのカテゴリ特徴語句が全ての子カテゴリに偏りなく表れているかを判断して、その親にあたるカテゴリのカテゴリ特徴語句及び前記第２の特徴情報を決定する操作を順次繰り返し、前記木構造の上位の各節に対応するカテゴリについて１または複数のカテゴリ特徴語句を前記第２の特徴情報と共に決定し、（４）出力処理部が、前記分類済み文書集合に含まれる文書中で、前記分類対象語句と共起するカテゴリ特徴語句を探索し、探索されたカテゴリ特徴語句に関する、各カテゴリでの前記第１または第２の特徴情報を利用してその分類対象語句が分類されるカテゴリを決定して出力するか、または、カテゴリの決定を支援する支援情報を生成した上で当該支援情報を出力することを特徴とする。

さらに、第３の本発明では、予め定めたカテゴリのあいだの包含、被包含の関係から、カテゴリ間に木構造にしたがった親子関係を設定した上で、与えられた分類対象語句をいずれかのカテゴリに分類することを少なくとも支援する語句分類プログラムにおいて、コンピュータに、（１）前記木構造で子を持たない最下位の節にあたる最下位カテゴリのいずれかに分類された文書の集合である分類済み文書集合に含まれる各文書中の語句について、各文書の内容の特徴を表現する度合いを示す所定の第１の特徴情報を計算する特徴情報計算機能と、（２）この特徴情報計算機能によって計算された第１の特徴情報の値に応じてその文書が属するカテゴリの内容を特徴的に表現する１または複数のカテゴリ特徴語句を決定する処理を、全ての前記最下位カテゴリについて実行する最下位カテゴリ特徴語句決定機能と、（３）前記各最下位カテゴリも含め、全ての子にあたるカテゴリに関するカテゴリ特徴語句及びそのカテゴリ特徴語句についての前記第１の特徴情報または第２の特徴情報を利用し、そのカテゴリ特徴語句が全ての子カテゴリに偏りなく表れているかを判断して、その親にあたるカテゴリのカテゴリ特徴語句及び前記第２の特徴情報を決定する操作を順次繰り返し、前記木構造の上位の各節に対応するカテゴリについて１または複数のカテゴリ特徴語句を前記第２の特徴情報と共に決定する上位カテゴリ特徴語句決定機能と、（４）前記分類済み文書集合に含まれる文書中で、前記分類対象語句と共起するカテゴリ特徴語句を探索し、探索されたカテゴリ特徴語句に関する、各カテゴリでの前記第１または第２の特徴情報を利用してその分類対象語句が分類されるカテゴリを決定して出力するか、または、カテゴリの決定を支援する支援情報を生成した上で当該支援情報を出力する出力処理機能とを実現させることを特徴とする。

本発明によれば、分類の効率と品質を高めることができる。

（Ａ）実施形態
以下、本発明にかかる語句分類システム、語句分類方法、および語句分類プログラムを、単語分類システムに適用した場合を例に、実施形態について説明する。

以下の説明において、カテゴリ（分野）に特有でかつ代表的な単語となる可能性を持つ単語をコアワードと定義する。コアワードには、カテゴリに属する度合い（そのカテゴリの特徴をよく表現する度合い）を示す値である分野関連度を付与する。分野関連度の値が大きいコアワードほどそのカテゴリに属する度合いが強く、そのカテゴリの特徴をよく表現する能力が高い。

また、複数の要素が、一定の範囲内（語、文、段落、文章など）に同時に現れることを共起といい、同時に現れる単語を共起関係にある単語という。

ただし第１、第２の実施形態の処理上は、改行までの一文内に同時に現れた単語から不要語を除いた単語を共起関係にある単語とする。名詞、動詞、形容詞、形容動詞、未知語以外を不要語とする。単語を抽出するには、分類したい語を含む文を検索して抽出して形態素解析することにする。

さらに、分類対象は、単語だけでなく、複合語や句であってもよいが、ここでは単語として説明する。

（Ａ−１）第１の実施形態の構成
図１は、第１の実施形態の単語分類システム１０の機能的構成を示すブロック図である。第１の実施形態の単語分類システム１０は、例えば、入出力手段を備えるパソコン等の情報処理装置上に、単語分類プログラムをインストールすること等によって実現されるが、機能的には、図１で表すことができる。

図１において、当該単語分類システム１０は、機能的には、入力手段１、文書処理手段２、判定手段３、出力手段４、文書データベース５、コアワード辞書６、カテゴリ辞書７、計算手段８およびカテゴリ関係辞書９を有する。

このうち入力手段１は、例えば、キーボード等の一般的な入力手段だけでなく、記録媒体のアクセス装置等のファイル読込装置や、文書をイメージデータとして読み込んでそれをテキストデータに置き換える文字認識装置等も該当し、要は、文書や分類対象の単語を入力する手段であり、また、適宜、動作モード等も指示するものである。

文書処理手段２は、文書や分類対象単語（ここでは、ＷＤ１とする）やコアワードを処理する手段で、文書を形態素解析し、分類対象単語ＷＤ１やコアワードを検索して抽出する。

判定手段３は分類対象単語ＷＤ１が属するカテゴリを判定し、当該分類対象単語ＷＤ１の分類を行う手段で、基本的に、コアワードとその分野関連度の値をもとに当該判定を実行する。

分野関連度は上述したように、コアワードがカテゴリに属する度合い（そのカテゴリの特徴をよく表現する度合い）を示すことのできる値であればよいため、様々な方法で分野関連度を定義することが可能であるが、ここでは、ｔｆ＊ｉｄｆ法を用いるものとする。

ｔｆ＊ｉｄｆ法では、文書集合（例えば、後述のＳＴ１）内のある文書ｄにおける単語ｔ（ここでは、コアワード）の出現頻度ｔｆ（文書内語句頻度：ｔｅｒｍｆｒｅｑｕｅｎｃｙ）と、各単語ｔが１回以上出現する文書数ｄｆ（文書頻度：ｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ）とを計算し、この文書数ｄｆを次の式（１）で計算してｉｄｆ（ｉｎｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ）を求める。

ｉｄｆ（ｔ）＝ｌｏｇ（Ｎ／ｄｆ（ｔ）） …（１）
ここで、Ｎは前記文書集合ＳＴ１内の文書数である。

前記分野関連度を決める成分ｗ（ｔ，ｄ）は、このｉｄｆと、前記ｔｆを用いて次の式（２）によって定義される。

ｗ（ｔ，ｄ）＝ｔｆ（ｄ，ｔ）＊ｉｄｆ（ｔ） …（２）
ｔｆを用いるのは、文書中で繰り返し出現する単語ほどその文書において重要な単語であると考えられるためである。また、ｉｄｆは、その単語（ここでは、コアワード）が前記文書集合ＳＴ１内においてその文書を特定する能力を示している。文書集合ＳＴ１中で多くの文書に現れる一般的な単語の場合にはｉｄｆは小さくなり、逆に、特定の文書にしか現れない単語の場合にはｉｄｆは大きくなるからである。

後述するように文書集合ＳＴ１内の各文書が各最下位カテゴリに対応付けられている（分類されている）以上、ｉｄｆで示される能力は、上述したそのカテゴリの特徴を表現する能力に対応するが、ｔｆを用いることによって重要さの小さい単語を排除することができる。

また本実施形態では、次の式（３）に示すように、前記式（２）で得られる成分ｗ（ｔ，ｄ）の値をそのカテゴリのコアワード総数ｃで割って得られる値を分野関連度ｆｒとする。式（２）で算出される成分ｗ（ｔ，ｄ）の値は、そのカテゴリの総単語数（総コアワード数）が多いほど大きくなるため、カテゴリ間の調整を行い、総単語数の相違の影響を解消する必要があるからである。

ｆｒ＝ｗ（ｔ，ｄ）／ｃ …（３）
当該分野関連度ｆｒを利用した判定を行う前記判定手段３と、前記文書処理手段２は、例えば、その機能を担う処理ルーチン及びその実行手段（ＣＰＵ等）からなる。

出力手段４は、判定手段３による判定の結果に応じた出力を実行する手段である。例えば、ディスプレイやプリンタ等の一般的な出力手段だけでなく、記録媒体へ格納する記録媒体アクセス装置等もこの出力手段４に該当し得る。本実施形態における出力は、主として、判定手段３による判定の結果に応じた分類の実行である。したがって、与えられた分類対象単語ＷＤ１は、この出力手段４によってカテゴリ辞書７（分野別辞書に相当）内の該当するカテゴリテーブルに登録される。

文書データベース５は、入力された文書を格納するデータベースである。文書データベース５に格納されている複数の文書によって文書集合ＳＴ１が構成されるが、その文書集合ＳＴ１中の各文書は、いずれかの最下位カテゴリに予め分類され（対応付けられ）ている。ここでは、ＤＣ１〜ＤＣＮのＮ個の文書からなる文書集合ＳＴ１を想定する。本実施形態の構成上、すべての最下位カテゴリにはいずれかの文書が分類されていることが望ましい。１つの最下位カテゴリに対応付けられる文書の数は複数であってもかまわないが、ここでは、説明を簡単にするために、１つの最下位カテゴリには１つの文書が対応付けられているものとする。この場合、文書の数Ｎは最下位カテゴリの数に等しい。

なお、本実施形態が想定するカテゴリは、例えば図２に示すような階層構造（木構造）を持つ。

図２に示す「ＴＯＰ」は、木の根にあたる最上位のカテゴリであり、その下の階層には「スポーツ」、「コンピュータ」などの各カテゴリが存在し、その下の階層には、「野球」、「サッカー」、「ＯＳ」、「プログラミング」などの各カテゴリが存在し、さらにその下の階層には「ＯＳ１」，「ＯＳ２」、「ＯＳ３」の具体的なＯＳの種類に対応するカテゴリが存在する。

これら各カテゴリのあいだにはカテゴリ間の包含、被包含の関係に応じた親子関係が存在し、「ＴＯＰ」カテゴリの子にあたるのは、「スポーツ」カテゴリや「コンピュータ」カテゴリなどである。同様に、「コンピュータ」カテゴリの子にあたるのが「ＯＳ」カテゴリ、「プログラミング」カテゴリ、「周辺機器」カテゴリであり、「ＯＳ」カテゴリの子にあたるのが「ＯＳ１」カテゴリと、「ＯＳ２」カテゴリと、「ＯＳ３」カテゴリである。

このうち「ＴＯＰ」カテゴリは最上位のカテゴリであるから親を持たず、反対に最下位のカテゴリである「野球」、「サッカー」、「ＯＳ１」、「ＯＳ２」、「ＯＳ３」、「プログラミング」などは子を持たない。また、中間の階層に位置する各カテゴリは、１つの親と１または複数の子を持っている。

例えば、「ＯＳ」カテゴリは親として「コンピュータ」カテゴリを持ち、子として、「ＯＳ１」カテゴリと、「ＯＳ２」カテゴリと、「ＯＳ３」カテゴリを持っている。

ここで、前記文書ＤＣ１〜ＤＣＮは、最下位のカテゴリである「野球」、「サッカー」、「ＯＳ１」、「ＯＳ２」、「ＯＳ３」、「プログラミング」のいずれかに分類されている。

コアワード辞書６は、カテゴリ毎に、そのカテゴリに対応するコアワードを格納し、コアワードに対応付けてその分野関連度の値も格納している辞書であり、判定手段３によって利用される。初期状態でこのコアワード辞書６に格納されているのは、最下位のカテゴリに関する情報のみである。

このコアワード辞書６はカテゴリ毎に、そのカテゴリに対応するコアワードを格納するため、カテゴリの数と同数のコアワードテーブル（例えば、図３に示すＴＬ１，ＴＬ２など）を有する。例えば図３（Ｂ）に示すコアワードテーブルＴＬ１は、前記最下位カテゴリの１つである「野球」カテゴリに関する各コアワードと、その分野関連度の値を対応付けて格納している。

図３（Ａ）に示すコアワードテーブルＴＬ２は中間の階層に位置するカテゴリの１つである「スポーツ」カテゴリについて、図３（Ｂ）のコアワードテーブルＴＬ１と同様、各コアワードと、その分野関連度の値を対応付けて格納しているが、これは初期状態から存在するものではなく、図３（Ｂ）のコアワードテーブルＴＬ１など、「スポーツ」カテゴリの子にあたる最下位カテゴリに関するコアワードテーブルの内容を用いた処理（コアワード作成処理の一部にあたる処理）によって後述する計算手段８が生成したものである。

カテゴリ辞書７は、カテゴリ毎に、そのカテゴリに属する単語を格納している辞書であり、カテゴリの数と同数のカテゴリテーブル（例えば、図９に示すＴＢ１，ＴＢ２など）を有する。このカテゴリ辞書７は判定手段３によって利用される。本実施形態において、ある分類対象単語ＷＤ１に関する最終的な処理の結果としての分類は、カテゴリ辞書７内の該当するカテゴリテーブル（例えば、ＴＢ１）へその分類対象単語ＷＤ１を格納することによって終了する。

単語分類システム１０が分類の対象となる単語を取得する方法には様々なものがあり得る。例えば、ユーザＵ１などが一つずつ分類対象単語ＷＤ１を入力するようにしてもよいし、ユーザＵ１が指定した文書に含まれる全単語のなかから、前記文書処理手段２が各分類対象単語（その１つがＷＤ１）を自動的に抽出していくようにしてもよい。いずれにしても、単語分類システム１０が単語分類処理を実行中のある時点に限定すると、ある１つの分類対象単語ＷＤ１を、いずれのカテゴリに分類するかを決めるための処理を実行しているものとみることができる。本実施形態の構成上、その分類対象単語ＷＤ１の単語分類処理するとき、すでにカテゴリ辞書７内の各カテゴリテーブル（例えば、ＴＢ１）に分類済みの単語が格納されている必要はない。この点で、本実施形態は、前記非特許文献１の技術と大きく相違する。

カテゴリ辞書７を構成する各カテゴリテーブル（例えば、ＴＢ１）はそれ自体、有用な情報であり、様々な用途に用いることができるが、例えば、機械翻訳のための上述した分野別辞書として利用できることは当然である。

計算手段８は、前記分野関連度に関する計算を行う手段で、子カテゴリに関する情報（各コアワードと、その分野関連度の値）を利用して親カテゴリの情報（各コアワードと、その分野関連度の値）を生成する。

カテゴリ関係辞書９は、上述したカテゴリ間の親子関係を格納する辞書である。例えば、図２に示したような階層構造を人間が定義した際に当該カテゴリ関係辞書９を作成しておくことができる。カテゴリ関係辞書９の内容は、そのカテゴリを一意に指定するカテゴリ名と、そのカテゴリの親カテゴリに関する情報と、そのカテゴリの子カテゴリに関する情報から構成される。したがってカテゴリ関係辞書９の構成には様々なものがあり得るが、親カテゴリに関する情報として親カテゴリのカテゴリ名を用い、子カテゴリに関する情報として子カテゴリの有無のみを示すものとし、図２の階層構造を前提とすると、カテゴリ関係辞書９の構成および内容は例えば図４に示すようになる。

図４において、「−」は空値、すなわち無いことを示し、「○」は有ることを示す。

以下、上記のような構成を有する本実施形態の動作について、図５〜図８，図１０〜図１２のフローチャートを参照しながら説明する。

このうち図５は全体動作を示し、Ｓ５０１〜Ｓ５０４の各ステップを備えている。図６は図５中のステップＳ５０１の詳細動作を示すフローチャートであり、Ｓ６０１，Ｓ６０２の各ステップを備えている。図７は図５中のステップＳ５０３の詳細動作を示すフローチャートであり、Ｓ７０１、Ｓ７０２の各ステップを備えている。図８は図５中のステップＳ５０４の詳細動作を示すフローチャートであり、Ｓ８０１〜Ｓ８１０の各ステップを備えている。

図７中のステップＳ７０１の動作をさらに詳細化したものが図１０のフローチャートであり、Ｓ７１１〜Ｓ７１７の各ステップを備えている。また、図７中のステップＳ７０２の動作をさらに詳細化したものが図１１のフローチャートであり、Ｓ７２１〜Ｓ７２７の各ステップを備えている。

この図１１中のステップＳ７２６の動作をさらに詳細化したものが図１２のフローチャートであり、Ｓ７３１〜Ｓ７４０の各ステップを備えている。

（Ａ−２）第１の実施形態の動作
上述したように、与えられた分類対象単語ＷＤ１を分類するためには、前提として、図２に示した最下位カテゴリに文書データベース５中の文書集合ＳＴ１に含まれるＮ個の文書ＤＣ１〜ＤＣＮのうちのいずれかが分類されている必要があるため、図５のステップＳ５０１では最初にステップＳ５０２を選択して文書格納処理を実行する。

この文書格納処理では、図６に示すように、カテゴリを指定した文書（例えば、ＤＣ１）を入力し（Ｓ６０１）、カテゴリ別にその文書を文書データベース５へ格納することになる（Ｓ６０２）。もちろん、カテゴリの指定はユーザＵ１が個別に行ってもよく、自動的な処理で行うようにしてもよい。

１回のステップＳ５０２で１文書のみを処理するものとするなら、すべての最下位カテゴリに１つの文書を分類するためには、図５上で、前記最下位カテゴリの数と同じ数だけステップＳ５０２の実行を繰り返す必要がある。

次に、前記ステップＳ５０１でコアワード作成処理（Ｓ５０３）を選択したものとすると、図７にしたがい、まず最初に最下位カテゴリのコアワードを作成し（Ｓ７０１）、次に中間の階層に位置するカテゴリ（中間層のカテゴリ）のコアワードを作成する手順で処理を進める（Ｓ７０２）。詳細については後述するが、ステップＳ７０２では子のカテゴリのコアワードのなかから選択（子カテゴリ間に万遍なく出現するコアワードを選択）したものをその子カテゴリにとって親にあたるカテゴリのコアワードとする。

前記ステップＳ７０１の詳細を示す図１０において、図４に示した内容を持つカテゴリ関係辞書９を検索して最下位カテゴリ（最下層のカテゴリ）のカテゴリ名を取り出すと（Ｓ７１１）、そのカテゴリ名を検索キーとしてコアワード辞書６を検索することによって、すべての最下位カテゴリに有効なコアワードが作成済みであるか否かを検査する（Ｓ７１２）。

すべての最下位カテゴリに有効なコアワードが作成済みである場合にはステップＳ７１２はＹ側に分岐してコアワード作成処理を終えるが、コアワードが作成されていない最下位カテゴリが存在する場合には、ステップＳ７１３以下の処理を実行してコアワードを作成する。

なお、すべての最下位カテゴリに有効なコアワードが作成済みであっても、コアワードを豊富化するために、例えば、作成済みのコアワードの数が所定値に達するまでコアワードの作成処理を繰り返すようにしてもよい。

前記ステップＳ７１３では前記文書集合ＳＴ１から、コアワードを作成しようとする最下位カテゴリに分類されている文書（例えば、ＤＣ１）を取り出す。そして、取り出した文書に対し形態素解析を実行し（Ｓ７１４）、形態素解析結果から前記不要語を除いた残りの単語をコアワードとして抽出して（Ｓ７１５）、前記計算手段８がその単語（コアワード）に関する上述した分野関連度ｆｒを計算する（Ｓ７１６）。

算出された分野関連度ｆｒは例えば図３（Ｂ）に示すテーブルＴＬ１のようにそのコアワードと対応付けた形式で、前記コアワード辞書６に格納する（Ｓ７１７）。

このステップＳ７１２〜Ｓ７１７によって構成されるループは、すべての最下位カテゴリにコアワードが作成されるまで繰り返される。

すべての最下位カテゴリにコアワードが作成されると、そのコアワードを利用して、図１１のフローチャートにしたがった処理を実行し、中間の階層に位置するカテゴリについて順次、コアワードを作成して行く。

図１１において、前記計算手段８がカテゴリ関係辞書９からトップの（親カテゴリを持たない）カテゴリ名を取り出し（Ｓ７２１）、そのカテゴリを親カテゴリに持つ（親カテゴリ名がその親カテゴリのカテゴリ名である）カテゴリを探す（Ｓ７２２）。これらのカテゴリすべてにコアワードが作成済であれば処理を終える（Ｓ７２３）。「ＴＯＰ」カテゴリを親カテゴリに持つということは、「ＴＯＰ」カテゴリ以外で最も上位のカテゴリであり、そのような上位のカテゴリがコアワードを持っている（作成済み）ということは、より下位のすべてのカテゴリがコアワードを持っていることを意味する。本実施形態では、子カテゴリに関する情報（各コアワードと、その分野関連度の値）を利用して、順次、親カテゴリの情報を生成して行くからである。

一方、それらのカテゴリのいずれかにコアワードが作成済でないカテゴリがあれば前記ステップＳ７２３はＮ側に分岐して、ステップＳ７２４以降の処理を実行する。ステップＳ７２４では、コアワードが作成済でないカテゴリを親カテゴリに持つカテゴリを探す。そして、同じカテゴリ（親カテゴリ）を親に持つすべての子力テゴリでコアワードが作成済であれば（Ｓ７２５のＹ側）、そのすべての子カテゴリのコアワードから当該親カテゴリのコアワードを作成して分野関連度ｆｒを付与し（Ｓ７２６）、コアワード辞書６に格納する（Ｓ７２７）。

このステップＳ７２２〜Ｓ７２７によって構成されるループは、すべてのカテゴリにコアワードが作成されるまで繰り返される。

なお、注目している親カテゴリの子にあたるカテゴリのなかに、コアワードを持たないカテゴリが含まれていた場合、前記ステップＳ７２５がＮ側に分岐して、そのコアワードを持たないカテゴリを親とみて、その親のすべての子カテゴリがコアワードを持っているか否かを検査する操作を繰り返す。これにより、すべての子カテゴリがコアワードを持っていて、なおかつ、それらの子の親にあたるカテゴリがコアワードを持っていないという条件（中間層コアワード作成開始条件）に適合するカテゴリ（親カテゴリ）を見つけるまで、ステップＳ７２５のＮ側の分岐とステップＳ７２４の実行が繰り返され、図２に示した階層構造を下って探索を行う。

上述したように、最下位カテゴリには必ず図１０の処理でコアワードが作成されているため、階層構造を最下位カテゴリまで下れば、必ず、中間層コアワード作成開始条件に適合する親カテゴリを見つけることができる。そのような親カテゴリが見つかると、まずその親カテゴリにコアワードを作成し、上述したように、そこから、上位に向かって、順次、各カテゴリにコアワードを作成していく。

前記ステップＳ７２６の詳細を示した図１２において、前記中間層コアワード作成開始条件に適合する親カテゴリ（この親カテゴリをＰＣＴ１とする）のカテゴリ名をカテゴリ関係辞書９から検索し（Ｓ７３１）、さらに当該カテゴリ関係辞書９から、その親カテゴリＰＣＴ１を親に持つすべてのカテゴリ（そのカテゴリにとっての子カテゴリ）を検索する（Ｓ７３２）。親カテゴリＰＣＴ１の子にあたるカテゴリは１つのこともあり、複数のこともあるが、ここでは３つ存在することを仮定し、それぞれＣＣＴ１、ＣＣＴ２，ＣＣＴ３とする。

次に、ステップＳ７３２で検索された各カテゴリＣＣＴ１〜ＣＣＴ３のコアワードをコアワード辞書６で検索し（Ｓ７３３）、すべてのコアワードに対して上限値が計算済みであるか否かを検査する（Ｓ７３４）。

ここで、すべてのコアワードとは、前記カテゴリＣＣＴ１〜ＣＣＴ３のいずれか１つが持つ全コアワード（コアワード集合）ＧＷのことを指す。あるコアワードは、複数のカテゴリ（例えば、ＣＣＴ１とＣＣＴ２）に重複して作成されていることもあるし、あるカテゴリ（例えば、ＣＣＴ２）に作成されているコアワードが他のカテゴリ（例えば、ＣＣＴ３）では作成されていないこともあるが、ステップＳ７３４は、ＣＣＴ１〜ＣＣＴ３のいずれか１つのカテゴリで作成されているすべてのコアワードについての検査である。

また、上限値とは、中間層に位置するカテゴリのコアワードに分野関連度を設定するための概念である。上述したように、最下位カテゴリにはいずれかの文書（例えば、ＤＣ１）が対応付けられているため、最下位カテゴリのコアワードには、前記式（３）などに基づいて分野関連度を計算することができるが、中間層に位置するカテゴリには対応付けられた文書が存在しないため、この上限値をその分野関連度として利用する。上限値の詳細については後述する。

ステップＳ７３４がＮ側に分岐すると、前記コアワード集合ＧＷに含まれるコアワードのなかで上限値が作成されていない１または複数のコアワードについて、ステップＳ７３５〜Ｓ７３９の処理を実行する。ここでは、１つのコアワードＣＷ１についてステップＳ７３５〜Ｓ７３９の処理を実行するものとする。

ステップＳ７３５では、そのコアワードＣＷ１の分野関連度の値を検索する。親カテゴリＰＣＴ１が前記中間層コアワード作成開始条件に適合した以上、子カテゴリＣＣＴ１〜ＣＣＴ３ではすべて、コアワードが作成済みであり、そのコアワードには分野関連度も対応付けられているから、そのコアワードＣＷ１を持つ限り、子カテゴリＣＣＴ１〜ＣＣＴ３に対応するコアワードテーブル（コアワード辞書６）から有効な分野関連度が検索できる。

対応付けられている文書の内容が異なるなら、通常、同じコアワードＣＷ１に対する各子カテゴリＣＣＴ１〜ＣＣＴ３での分野関連度の値はすべて異なるので、ステップＳ７３５ではそのなかの最大値を求める。ある子カテゴリ（例えば、ＣＣＴ１）がそのコアワードＣＷ１を持たない場合には、分野関連度の値は０とみなす。

次に、ステップＳ７３７では、そのコアワードＣＷ１に対する各子カテゴリＣＣＴ１〜ＣＣＴ３での分野関連度の値の平均値（ｍｅａｎ）と標準偏差（ｓｄ）を計算し、ステップＳ７３８では、所定の範囲の上限値を計算する。これは、上述した上限値である。

ここで、範囲とは、ばらつきの範囲のことである。ばらつきの範囲は様々な方法で定義することが可能であるが、ここでは、一例として、「平均値十標準偏差×３」（ｍｅａｎ＋３ｓｄ）を、ばらつきの範囲とする。前記子カテゴリＣＣＴ１〜ＣＣＴ３全体で、コアワードＣＷ１の分野関連度の平均値（ｍｅａｎ）と標準偏差（ｓｄ）を、正規分布と仮定して計算する（ここでも、コアワードがないカテゴリの分野関連度は０とする）と、「平均値＋標準偏差×３」（ｍｅａｎ＋３ｓｄ）の範囲内にデータが入る確率は９９．７３％である。範囲の計算は本来、平均値±プラスマイナスであるが、分野関連度に負の値はないため、マイナスの方は無視してよい。

また、前記コアワードＣＷ１の子カテゴリＣＣＴ１における分野関連度の値をＦＲＶ１とし、前記コアワードＣＷ１の子カテゴリＣＣＴ２における分野関連度の値をＦＲＶ２とし、前記コアワードＣＷ１の子カテゴリＣＣＴ３における分野関連度の値をＦＲＶ３とすると、これらＦＲＶ１，ＦＲＶ２，ＦＲＶ３の平均値と標準偏差をステップＳ７３７で求めることになる。

ステップＳ７３７につづくステップＳ７３８で求める上限値は、前記ばらつきの範囲の上限値すなわち、「平均値十標準偏差×３」の値である。

次に、ステップＳ７３９では、前記ステップＳ７３６で求めた最大値が当該ステップＳ７３８で求めた上限値より小さいか否かを検査する。最大値が上限値より小さいということは、すべての分野関連度ＦＲＶ１〜ＦＲＶ３がばらつきの範囲内にあって、そのコアワードＣＷ１が子カテゴリＣＣＴ１〜ＣＣＴ３間に万遍なく出現していることを意味するため、そのコアワードＣＷ１を親カテゴリＰＣＴ１のコアワードとして選択する（Ｓ７４０）。

反対に、最大値が上限値より大きければ、ステップＳ７３９はＮ側に分岐するので、当該コアワードＣＷ１は親カテゴリＰＣＴ１のコアワードとして選択されない。これは、そのコアワードＣＷ１が子カテゴリＣＣＴ１〜ＣＣＴ３のいずれかに偏って出現していることを意味し、（親カテゴリのコアワードとはせず）子カテゴリのコアワードとしておいたほうが好ましいケースである。偏りが大きいほど、そのカテゴリの特徴を良好に表現するコアワードである可能性が高いとみることができるからである。ステップＳ７３４〜Ｓ７３９またはＳ７４０によって構成されるループは、前記コアワード集合ＧＷに含まれるすべてのコアワード（その１つが、ＣＷ１）について処理が終わるまで繰り返される。

例えば、カテゴリ「スポーツ」のすべての子カテゴリにあるコアワード「選手」の分野関連度の平均値が０．００１３８８、標準偏差が０．０００５１６、最大値が０．００２５７の場合、ばらつきの範囲の上限値は０．００２９４になり、最大値が範囲内であるので、前記ステップＳ７３９はＹ側に分岐してコアワード「選手」はカテゴリ「スポーツ」のコアワードになる。この場合、カテゴリ「スポーツ」のコアワード「選手」の分野関連度は０．００２９４になる。

また、カテゴリ「スポーツ」のすべての子カテゴリにあるコアワード「試合」の分野関連度の平均値が０．００１９８５、標準偏差が０．００１８２１、最大値が０．００４９７の場合、ばらつきの範囲の上限値は０．００７４５になり、最大値が範囲内であるので、前記ステップＳ７３９はＹ側に分岐してコアワード「試合」はカテゴリ「スポーツ」のコアワードになる。この場合、カテゴリ「スポーツ」のコアワード「試合」の分野関連度は０．００７４５になる。さらに、カテゴリ「スポーツ」のすべての子カテゴリにあるコアワード「投手」の分野関連度の平均値が０．０００７８３、標準偏差が０．００２５６５、最大値が０．００９２９の場合、ばらつきの範囲の上限値は０．００８４８になり、最大値が範囲を超えているので、前記ステップＳ７３９はＮ側に分岐してコアワード「投手」はカテゴリ「スポーツ」のコアワードにならない。

このようにして、各親カテゴリについて上述した図３（Ａ）のコアワードテーブルＴＬ２などが作成されて行く。そして、「ＴＯＰ」カテゴリを親カテゴリに持つ、「ＴＯＰ」カテゴリ以外で最も上位の各カテゴリまでコアワードの作成が終了すると、前記ステップＳ７２３がＹ側に分岐して、コアワードの作成処理が終了する。

なお、ある親カテゴリのコアワード作成は、前記中間層コアワード作成開始条件からも明らかなように、その子にあたるすべてのカテゴリにコアワードが作成されていれば実行可能であるから、例えば、必ずしも、図５に示したステップＳ５０２が完全に終了してすべての最下位カテゴリに文書が分類されていない状態でも、ステップＳ５０３を実行して親カテゴリのコアワードを作成できる場合があることは当然である。

これに対し、与えられた分類対象単語ＷＤ１の分類を適切に行うためには、図５に示すステップＳ５０４の単語分類処理は、基本的に、ステップＳ５０３のコアワード作成処理が完全に終了されたあとで実行される必要がある。その分類対象単語ＷＤ１がどのカテゴリに分類されるものであるかを事前に予測することは通常、不可能だからである。

当該ステップＳ５０４の詳細を示す図８において、前記入力手段１などを利用して分類対象単語ＷＤ１が入力されると（Ｓ８０１）、文書データベース５に格納されている前記文書集合ＳＴ１中の各文書ＤＣ１〜ＤＣＮを検索して（Ｓ８０２）、当該分類対象単語ＷＤ１と共起関係にある単語を抽出し（Ｓ８０３）、抽出した単語を検索キーとして前記コアワード辞書６（コアワードテーブルＴＬ１，ＴＬ２など）を検索する（Ｓ８０４）。

この検索では、検索結果としてそのコアワードに対応付けられている分野関連度が得られるので（Ｓ８０５）、前記計算手段８が、得られた分野関連度に重み付けを施す（Ｓ８０６）。この重み付けは、前記分類対象単語ＷＤ１とそのコアワードとの共起関係の強さを示すことができればどのような情報を利用して行ってもかまわないが、一例として、その文書における当該分類対象単語ＷＤ１とコアワードとの共起の頻度を用いることも望ましい。ここでは、この共起の頻度で共起関係の強さを示すものとする。

任意の１カテゴリには多数のコアワードが対応するが、このステップＳ８０６の重み付けを施したあとの分野関連度（重み付け分野関連度）の値が大きい順にコアワードを整列することでコアワードの配列を得る。この配列の先頭付近にのみ注目するなら、各コアワードに対応付けられているカテゴリを得ることで、その分類対象単語ＷＤ１が分類されるべき性質の高さに応じた各カテゴリの順位を特定することができる（Ｓ８０７）。

ただしこのカテゴリの順位を決めるには、これ以外の方法を用いることもできる。例えば、前記配列全体において、あるカテゴリに対応付けられている多数のコアワードの重み付け分野関連度の順位について統計的な処理（例えば、平均値の算出など）を行い、その処理の結果に基づいて、最終的なカテゴリの順位を決めてもよい。

いずれにしても、カテゴリの順位が決まると、前記判定手段３はその順位をもとに前記分類対象単語ＷＤ１が分類されるカテゴリを判定する（Ｓ８０８）。ここでも、様々な処理を行うことが可能であるが、本実施形態では、単純に、前記ステップＳ８０７で順位が一位とされたカテゴリを当該分類対象単語ＷＤ１が分類されるカテゴリであると判定するものとする。

判定が完了すると、その判定結果に応じて、当該分類対象単語ＷＤ１を前記カテゴリ辞書７内の該当するカテゴリテーブル（例えば、図９（Ｂ）のＴＢ２）に格納し（Ｓ８０９）、前記出力手段４から判定結果に応じた出力を実行する（Ｓ８１０）。この出力にも様々な変形例があり得るが、例えば、ユーザＵ１に分類対象単語ＷＤ１の分類が完了したことを伝えるための画面表示出力などを実行するものであってもよい。

このような単語分類処理の具体的な処理は例えば次のようになる。

入力手段１に分類対象単語ＷＤ１として例えば「防御率」を入力すると（Ｓ８０１）、文書処理手段２で文書データベース５の文書から「防御率」を検索し（Ｓ８０２）、この単語と共起関係にある語を抽出し（Ｓ８０３）、抽出した単語をコアワード辞書６から検索し（Ｓ８０４）、コアワード辞書６に存在した「投手」、「試合」などの分野関連度を取り出し（Ｓ８０５）、計算手段８で分野関連度に重み付けを行い（Ｓ８０６）、カテゴリの順位を決定する（Ｓ８０７）。この重み付け付近の具体的な動作は図１３および図１４に示す。

図１３では、例えば、「野球」カテゴリに対応付けられているコアワード「投手」の場合、分野関連度が０．００９２９で、語数（共起の頻度）が４８０なので、重み付け分野関連度の値は４．４６（≒０．００９２９×４８０）となっている。また、図１３は重み付け分野関連度の値が大きい順に整列済みであるので、図１４では、図１３の配列の順番をそのままカテゴリの順位としている。

この場合、分類対象単語「防御率」は１位のカテゴリ「野球」に判定されて（Ｓ８０８）、カテゴリ辞書７内の該当するカテゴリテーブル（ここでは、図３（Ｂ）のＴＬ１）に格納され（Ｓ８０９）、出力手段４で出力される（Ｓ８１０）。

また、分類対象単語が「公式戦」の場合、例えば、前記ステップ８０６の実行結果として図１５のテーブルが得られ、前記ステップＳ８０７の実行結果として図１６のテーブルが得られる。

（Ａ−３）第１の実施形態の効果
本実施形態によれば、階層構造上の各カテゴリに前もってコアワードを作成しておくことによって、階層の深さに依存しない処理で単語を分類することができるので、計算量が少なく分類の効率が高い。

また、本実施形態では、最下位カテゴリのみに対応する文書（例えば、ＤＣ１など）を用意しておけばよいため、全てのカテゴリに対して対応する文書を用意する場合に比べて、処理量が少なく、消費する記憶資源も少ない。

さらに、本実施形態では、分類対象単語（例えば、ＷＤ１）を分類する過程で分野別辞書（カテゴリ辞書７に相当）を必要としないため、分野別辞書の内容によって分類の品質が変動することもなく、分類の品質を高く維持することが容易である。

なお、本実施形態で、分類を行う前に分野別辞書を用意しておく必要がない点は、記憶資源の節約にも寄与する。

また、本実施形態では分類対象単語（ＷＤ１）の分類を情報処理により自動的に実行することができるため、人間の負担を軽減することができる。

（Ｂ）第２の実施形態
以下では、本実施形態が第１の実施形態と相違する点についてのみ説明する。

本実施形態は、図８で示した単語分類処理の一部が第１の実施形態と相違するだけである。

これは、上述した統計的な処理の一例を示したものとみることもできる。

（Ｂ−１）第２の実施形態の構成および動作
本実施形態にかかる単語分類システム２０の全体構成例を図１７に示す。

図１７において、図１と同じ符号１〜９を付与した各構成要素の機能は第１の実施形態と同じなので、その詳しい説明は省略する。

図１７で、計算手段８と出力手段４のあいだに配置した総合判定手段１０は、基本的に前記判定手段３と同じ機能を持つ手段であるが、前記ステップＳ８００の判定で本来、重視されるべきコアワードが、偶然、重み付け分野関連度の値が小さくなってしまったために、与えられた分類対象単語ＷＤ１の分類先のカテゴリの決定にまったく反映されなくなる現象の発生を防ぐ機能を持つ。

第１の実施形態の判定手段３では、単純に、前記ステップＳ８０７の配列で順位が一位とされたカテゴリを当該分類対象単語ＷＤ１が分類されるカテゴリであると判定したが、本実施形態の総合判定手段１０では、順位が１位からＭ位のものまで、当該配列の順位が示す値をカテゴリごとに合計し、その合計値が大きい順に再び整列を行って新たに合計値の配列を得る。そしてこの合計値の配列で先頭に配置された合計値に対応するカテゴリを、当該分類対象単語ＷＤ１の分類先と判定する。

前記Ｍ位を指定するＭの値としては、必要に応じて、任意の正整数を用いることが可能であるが、実験を行ったところでは、Ｍ＝７の場合が好ましいという結果が得られたので、ここでは、Ｍ＝７を用いるものとする。

本実施形態の単語分類処理は図１８のフローチャートに示す通りである。

このフローチャートは、第１の実施形態における図８のフローチャートに相当するもので、Ｓ９０１〜Ｓ９１１の各ステップを備えている。

このうちステップＳ９０１は前記ステップＳ８０１に対応し、ステップＳ９０２は前記ステップＳ８０２に対応し、ステップＳ９０３は前記ステップＳ８０３に対応し、ステップＳ９０４は前記ステップＳ８０４に対応し、ステップＳ９０５は前記ステップＳ８０５に対応し、ステップＳ９０６は前記ステップＳ８０６に対応し、ステップＳ９０８は前記ステップＳ８０７に対応し、ステップＳ９０９は前記ステップＳ８０８に対応し、ステップＳ９１０は前記ステップＳ８０９に対応し、ステップＳ９１１は前記ステップＳ８１０に対応するので、その詳しい説明は省略する。

図１８中でステップＳ９０６につづいて実行されるステップ９０７では、カテゴリごとに総合する処理が行われているが、これは、カテゴリごとに、上述した１位〜Ｍ位までの合計値を得る処理にあたる。したがって、当該ステップＳ９０７につづいて実行されるステップＳ９０８では、前記合計値の大きさにしたがって合計値を整列することで、合計値の配列を得る処理を行うことになる。

与えられた分類対象単語ＷＤ１が、例えば、有名な女子マラソン選手の氏名である「○田×子」であるものとすると、前記ステップＳ９０６で得られた重み付け分野関連度などは、一例として図１９のテーブルにまとめたような結果となる。図１９のテーブルは、図１５のテーブルに相当するものであるが、分野関連度と語数を省略している。

図２０のテーブルは、前記ステップＳ９０７で実行する合計値を得る処理の内容を示すものである。例えば、図１９中のカテゴリ名「陸上競技（スポーツ）」では、コアワード「マラソン」の重み付け分野関連度が１．１７４で、コアワード「女子」の重み付け分野関連度が０．７７４であるから、図２０のテーブルでは、カテゴリ名「陸上競技（スポーツ）」の合計値が１．９４８（＝１．１７４＋０．７７４）となっている。

（Ｂ−２）第２の実施形態の効果
本実施形態によれば、第１の実施形態の効果と同等な効果を得ることができる。

加えて、本実施形態では、本来、重視されるべきコアワードを、ほぼ確実に最終的な分類先の判定結果に反映させることが可能となり、分類の品質をいっそう高めることができる。

（Ｃ）他の実施形態
なお、上記第１、第２の実施形態にかかわらず、分類対象単語ＷＤ１の分類までのすべての過程を完全に自動化するのではなく、一部にユーザＵ１の意思決定が介在するようにしてもよい。例えば、前記ステップＳ８０７やＳ９０８で決定したカテゴリの順位をユーザＵ１に提示して、前記ステップＳ８０８やＳ９０９に相当するカテゴリの判定は、提示された順位などに基づいてユーザＵ１が行うようにしてもよい。

また、上記第１の実施形態の冒頭で説明した各種の定義については、様々な変形が可能である。

例えば、コアワードや不要語の作成は品詞の種類を変更したりｎグラムで切り出したりなどの別の方法で定義してもよいし、追加や削除ができるようにしてもよい。さらに共起関係は、修飾関係などの別の方法で定義してもよいし抽出する範囲を広くしたり狭くしたりしてもよい。また、分野関連度やその重み付けは、文書中の見出しに含まれる単語は高くしたり語間の距離を反映したりなどの別の方法で計算してもよいし、具体的な単語を指定して調整できるようにしてもよい。さらに、中間層の分野関連度の計算に関しては、（ばらつきの）範囲や範囲の上限値の定義を変更してもよい。

なお、上記第１、第２の実施形態における各構成要素（１〜７，１０）は、１台の装置に実装せずに複数台の装置に分散して配置するようにしてもよい。

例えば、文書データベース５は、ネットワーク経由でアクセスできるＷｅｂサイトなどに置き換えることが可能である。

また、分類対象は、単語だけでなく、複合語や句であってもよい点はすでに説明した通りである。

さらに、上記第１、第２の実施形態で使用した各テーブルの内容および構成（ここで、構成は、データ項目の組み合わせを指す）は、必ずしも図示した通りでなくてもかまわない。

以上の説明でハードウエア的に実現した機能の大部分はソフトウエア的に実現することができ、ソフトウエア的に実現した機能のほとんど全てはハードウエア的に実現することが可能である。

第１の実施形態にかかる単語分類システムの機能的構成を示すブロック図である。カテゴリの階層構造の例を示す概略図である。コアワード辞書の構成例を示す概略図である。カテゴリ関係辞書の構成例を示す概略図である。第１の実施形態の動作説明図である。第１の実施形態の動作説明図である。第１の実施形態の動作説明図である。第１の実施形態の動作説明図である。第１および第２の実施形態で使用するカテゴリ辞書の構成例を示す概略図である。第１の実施形態の動作説明図である。第１の実施形態の動作説明図である。第１の実施形態の動作説明図である。第１の実施形態の動作説明図である。第１の実施形態の動作説明図である。第１の実施形態の動作説明図である。第１の実施形態の動作説明図である。第２の実施形態にかかる単語分類システムの機能的構成を示すブロック図である。第２の実施形態の動作説明図である。第２の実施形態の動作説明図である。第２の実施形態の動作説明図である。第２の実施形態の動作説明図である。

符号の説明

１…入力手段、２…文書処理手段、３…判定手段、４…計算手段、５…文書データベース、６…コアワード辞書、７…カテゴリ辞書、８…計算手段、９…カテゴリ関係辞書、１０…単語分類システム、ＤＣ１〜ＤＣＮ…文書、ＳＴ１
…文書集合。

Claims

予め定めたカテゴリのあいだの包含、被包含の関係から、カテゴリ間に木構造にしたがった親子関係を設定した上で、与えられた分類対象語句をいずれかのカテゴリに分類することを少なくとも支援する語句分類システムにおいて、
前記木構造で子を持たない最下位の節にあたる最下位カテゴリのいずれかに分類された文書の集合である分類済み文書集合に含まれる各文書中の語句について、各文書の内容の特徴を表現する度合いを示す所定の第１の特徴情報を計算する特徴情報計算部と、
この特徴情報計算部によって計算された第１の特徴情報の値に応じてその文書が属するカテゴリの内容を特徴的に表現する１または複数のカテゴリ特徴語句を決定する処理を、全ての前記最下位カテゴリについて実行する最下位カテゴリ特徴語句決定部と、
前記各最下位カテゴリも含め、全ての子にあたるカテゴリに関するカテゴリ特徴語句及びそのカテゴリ特徴語句についての前記第１の特徴情報または第２の特徴情報を利用し、そのカテゴリ特徴語句が全ての子カテゴリに偏りなく表れているかを判断して、その親にあたるカテゴリのカテゴリ特徴語句及び前記第２の特徴情報を決定する操作を順次繰り返し、前記木構造の上位の各節に対応するカテゴリについて１または複数のカテゴリ特徴語句を前記第２の特徴情報と共に決定する上位カテゴリ特徴語句決定部と、
前記分類済み文書集合に含まれる文書中で、前記分類対象語句と共起するカテゴリ特徴語句を探索し、探索されたカテゴリ特徴語句に関する、各カテゴリでの前記第１または第２の特徴情報を利用してその分類対象語句が分類されるカテゴリを決定して出力するか、または、カテゴリの決定を支援する支援情報を生成した上で当該支援情報を出力する出力処理部とを備えたことを特徴とする語句分類システム。
請求項１の語句分類システムにおいて、
前記出力処理部は、
前記分類済み文書集合に含まれる文書中で、前記分類対象語句と共起するカテゴリ特徴語句を探索するときに、その文書中における当該分類対象語句とカテゴリ特徴語句の共起の頻度を求め、前記第１または第２の特徴情報の値には、その共起の頻度を反映した重みを付与しカテゴリの決定に利用させる重み付け処理部を含むことを特徴とする語句分類システム。
請求項１の語句分類システムにおいて、
前記出力処理部は、
前記分類済み文書集合に含まれる文書中で分類対象語句と共起するカテゴリ特徴語句の、各カテゴリでの前記第１または第２の特徴情報の値に応じて、そのカテゴリ特徴語句が対応するカテゴリを前記分類対象語句が属するカテゴリの候補である候補カテゴリとした上で候補カテゴリの順位を決定する候補カテゴリ決定部を備え、
当該候補カテゴリ決定部が決定した順位が最上位の候補カテゴリを、前記分類対象語句が属するカテゴリとし、そのカテゴリに当該分類対象語句を分類するか、または、当該候補カテゴリ決定部が決定した順位をユーザに提示し、ユーザが当該分類対象語句をいずれかのカテゴリに分類することを促すことを特徴とする語句分類システム。
請求項２の語句分類システムにおいて、
前記出力処理部は、１つの前記カテゴリに関するカテゴリ特徴語句が複数ある場合、所定数のカテゴリ特徴語句に関する前記重みを付与した特徴情報の値を合計し、その合計値に応じて、前記分類対象語句が分類されるカテゴリを決定するか、または、カテゴリの決定を支援する支援情報を生成した上で当該支援情報を出力することを特徴とする語句分類システム。
請求項１の語句分類システムにおいて、
前記上位カテゴリ特徴語句決定部は、決定対象の親のカテゴリに対する全ての子のカテゴリに含まれているカテゴリ特徴語句のそれぞれを候補とし、一つの候補のカテゴリ特徴語句についてのそれぞれの子のカテゴリにおける第１または第２の特徴情報の値の最大値が、その候補のカテゴリ特徴語句についてのそれぞれの子のカテゴリにおける第１または第２の特徴情報の値の平均値及び標準偏差で定まる範囲の上限値より小さいときに、そのカテゴリ特徴語句を決定対象の親のカテゴリのカテゴリ特徴語句に決定すると共に、決定された親のカテゴリのカテゴリ特徴語句についての第２の特徴情報の値を前記上限値にすることを特徴とする語句分類システム。
予め定めたカテゴリのあいだの包含、被包含の関係から、カテゴリ間に木構造にしたがった親子関係を設定した上で、与えられた分類対象語句をいずれかのカテゴリに分類することを少なくとも支援する語句分類方法において、
特徴情報計算部が、前記木構造で子を持たない最下位の節にあたる最下位カテゴリのいずれかに分類された文書の集合である分類済み文書集合に含まれる各文書中の語句について、各文書の内容の特徴を表現する度合いを示す所定の第１の特徴情報を計算し、
最下位カテゴリ特徴語句決定部が、当該特徴情報計算部によって計算された第１の特徴情報の値に応じてその文書が属するカテゴリの内容を特徴的に表現する１または複数のカテゴリ特徴語句を決定する処理を、全ての前記最下位カテゴリについて実行し、
上位カテゴリ特徴語句決定部が、前記各最下位カテゴリも含め、全ての子にあたるカテゴリに関するカテゴリ特徴語句及びそのカテゴリ特徴語句についての前記第１の特徴情報または第２の特徴情報を利用し、そのカテゴリ特徴語句が全ての子カテゴリに偏りなく表れているかを判断して、その親にあたるカテゴリのカテゴリ特徴語句及び前記第２の特徴情報を決定する操作を順次繰り返し、前記木構造の上位の各節に対応するカテゴリについて１または複数のカテゴリ特徴語句を前記第２の特徴情報と共に決定し、
出力処理部が、前記分類済み文書集合に含まれる文書中で、前記分類対象語句と共起するカテゴリ特徴語句を探索し、探索されたカテゴリ特徴語句に関する、各カテゴリでの前記第１または第２の特徴情報を利用してその分類対象語句が分類されるカテゴリを決定して出力するか、または、カテゴリの決定を支援する支援情報を生成した上で当該支援情報を出力することを特徴とする語句分類方法。
予め定めたカテゴリのあいだの包含、被包含の関係から、カテゴリ間に木構造にしたがった親子関係を設定した上で、与えられた分類対象語句をいずれかのカテゴリに分類することを少なくとも支援する語句分類プログラムにおいて、コンピュータに、
前記木構造で子を持たない最下位の節にあたる最下位カテゴリのいずれかに分類された文書の集合である分類済み文書集合に含まれる各文書中の語句について、各文書の内容の特徴を表現する度合いを示す所定の第１の特徴情報を計算する特徴情報計算機能と、
この特徴情報計算機能によって計算された第１の特徴情報の値に応じてその文書が属するカテゴリの内容を特徴的に表現する１または複数のカテゴリ特徴語句を決定する処理を、全ての前記最下位カテゴリについて実行する最下位カテゴリ特徴語句決定機能と、
前記各最下位カテゴリも含め、全ての子にあたるカテゴリに関するカテゴリ特徴語句及びそのカテゴリ特徴語句についての前記第１の特徴情報または第２の特徴情報を利用し、そのカテゴリ特徴語句が全ての子カテゴリに偏りなく表れているかを判断して、その親にあたるカテゴリのカテゴリ特徴語句及び前記第２の特徴情報を決定する操作を順次繰り返し、前記木構造の上位の各節に対応するカテゴリについて１または複数のカテゴリ特徴語句を前記第２の特徴情報と共に決定する上位カテゴリ特徴語句決定機能と、
前記分類済み文書集合に含まれる文書中で、前記分類対象語句と共起するカテゴリ特徴語句を探索し、探索されたカテゴリ特徴語句に関する、各カテゴリでの前記第１または第２の特徴情報を利用してその分類対象語句が分類されるカテゴリを決定して出力するか、または、カテゴリの決定を支援する支援情報を生成した上で当該支援情報を出力する出力処理機能とを実現させることを特徴とする語句分類プログラム。