JP4235973B2

JP4235973B2 - 文書分類装置および文書分類方法ならびに文書分類プログラム

Info

Publication number: JP4235973B2
Application number: JP2003397798A
Authority: JP
Inventors: 滋樹日野; 浩二伊藤; 主税黒沢; 幸久西澤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-11-27
Filing date: 2003-11-27
Publication date: 2009-03-11
Anticipated expiration: 2023-11-27
Also published as: JP2005157887A

Description

本発明は、文書中の量に関する記述が重要な分類基準となる場合に有効な分類結果を生成する用途に用いて好適な、文書分類装置および文書分類方法ならびに文書分類プログラムに関する。

日本語で記述されたあらゆる分野の文書を分類し、整理して格納し、あるいは見出し情報を付与することのできる文書分類装置が知られている。
文書分類装置はコンピュータを用いて日本語処理を行うために、対象となる文書を形態素単位に区切り、それぞれの形態素が持つ性質を明らかにする「形態素解析」を行い、続いて「構文解析」、「意味解析」を行うことにより日本語処理を行い、文書の分類操作を行う。

すなわち、文書を形態素解析により品詞情報を持つ形態素単位に分割し、構文解析により文法と照合して単語間の係り受けを決定し（ツリー構造）、意味解析により、意味的に不適当な係り受けをチェックして誤ったツリーを削除する。
このとき、「形態素解析」と「構文解析」の間に「トークンフィルタ処理」と称される形態素データの構文解析のための前処理が行われる。ここでは、構文解析に適した単語情報と、これら単語の取り扱い情報となるｄｉｃｔデータ（辞書データ）を得るための処理が行われる（例えば、特許文献１参照）。ここで得られるｄｉｃｔデータは、「品詞名」、「表記」とその他の構文・意味情報である。例えば、複合名詞は１つの名詞として扱い、複合名詞であることを示すデータ（ｄｉｃｔ）を出力する。
特開平８−２２１４１８号公報（０００６、図１）

特許文献１に開示された従来技術によれば、「トークンフィルタ処理」において、数詞の取り扱いにつき、単位を助数詞として扱うといった文法に基づく画一的な前処理が行われ、単に単語として含まれない数値は記号類と同様に処理されてしまう。
このため、例えば、行政広報から、「課税所得１００万円の人が適用されうる福祉施策に関する情報を抽出する」といったように、量の概念が重要な意味を持つ場合に場合に最適な文書の分類を行うことは困難であった。具体的に、「課税所得」を分類識別子とすることは可能であるが、続く「１００」が分類不可能な記号として解釈されるため、量の概念を的確に反映させた分類は不可能であった。

一方、既存サービスの一形態である不動産検索サイトでは、「価格帯」、「広さ」などによる分類が実行されているが、文書の持つべき情報が画一的であるため、書式を統一し、「何行何列の値を比較」といった書式上の位置を利用しており、量の概念とは異なり、また、統一書式に収まらない情報は扱えなかった。従って、例えば、自治体広報サイトに掲載される文書群のように、分野が雑多で書式も不統一な文書の場合、人海戦術で分類を付しており、手数の制限から検索を容易化するのが困難になっていた。

本発明の課題は、文書中の数詞を意味のある量の概念として扱うことにより、量の概念が重要な意味を持つ文書を適切に分類可能な、文書分類装置および文書分類方法ならびに文書分類プログラムを提供することにある。
また、文書の書式が固定的でない任意書式の文書についても、量の概念が重要な意味を持つ文書を適切に分類可能な、文書分類装置および文書分類方法ならびに文書分類プログラムを提供することも課題とする。

（文書分類装置）
前記した課題を解決するために本発明（請求項１）は、文書、および当該文書の中間処理結果が格納される記憶装置と、前記文書中の量に関する記述を分類基準とした場合にその分類結果を生成する演算装置とを有する文書分類装置であって、入力文書を取り込み記憶装置に格納する文書入力インタフェース部と、前記入力文書の形態素解析を行う形態素解析部と、前記形態素解析の結果、連続した数詞の並びを単語に準ずる処理単位に纏める数詞再結合部と、前記数詞の並びを数値化する文字列数値化部と、オントロジ辞書を参照したオントロジ解析により、前記形態素それぞれについて、その形態素に該当する概念を判断するオントロジ解析部と、前記数値化された単語の後に、量の概念に該当する形態素があったとき、その数値化された単語に含まれる数詞の並びとその形態素とを併合して新たな処理単位とし、その形態素に、その数詞の並びが示す数値データと、当該数値データの型と、該当する量の概念名または概念番号とを付加し、一方、前記量の概念に該当する形態素が存在しない場合、その形態素に、その数詞の並びが示す数値データと、当該数値データの型と、無名数の概念名または概念番号とを付加する量概念生成部と、前記新たな処理単位に含まれる形態素に付加された概念が、予め設定された範囲の概念であり、かつ、その形態素における前後の参照領域に、限定条件の概念に該当する形態素が存在し、その限定条件の概念に該当する形態素の前後の参照領域に、量の概念に該当する形態素を含む処理単位が存在するとき、もしくは、無名数の概念に該当する形態素を含む処理単位が存在するとき、前記限定条件の概念と、これが限定する対象である概念と、量もしくは無名数とを列記した組を文書の分類識別子の１つとして選定し文書に付与する分類識別子選定部と、記憶装置に格納された文書分類識別子付きの文書を出力する文書出力インタフェース部と、を備えることを特徴とする。

本発明によれば、演算装置に構築される文書分類処理部が量の概念を生成（あるいは再生）して認識される限定条件を分類識別子として文書を分類するため、例えば、文書中の「この福祉サービスは所得制限１００万円未満です」という単文を含む文書が入力された場合、「所得制限、１００万円、未満」という分類識別子が付与され出力される。このため、量の概念を的確に反映した文書の分類が可能となる。また、文書の書式に拘らないため、書式が固定的になりえない分野においても量の概念を的確に反映させた分類を可能とする文書分類装置を提供することができる。

（文書分類方法）
前記した課題を解決するために本発明（請求項２）は、文書中の量に関する記述を分類基準とした場合にその分類結果を生成するための文書分類方法であって、文書、および当該文書の中間処理結果が格納される記憶装置と、前記文書中の量に関する記述を分類基準とした場合にその分類結果を生成する演算装置とを有する文書分類装置を用い、前記演算装置に、入力され取り込まれた入力文書について形態素解析を行い、形態素および形態素の品詞およびその活用の組から成る形態素解析結果の並びを示す第１中間処理結果を出力する第１過程と、前記第１中間処理結果において、連続した数詞の並びを単語に準ずる処理単位に纏めた第２中間処理結果を出力する第２過程と、前記第２中間処理結果において、前記纏められた単語に準ずる処理単位につき、前記数詞の並びが意味する数値データ、および当該数値データの型を示す識別子、ならびに数値化を行ったことを意味するフラグを付加した第３中間処理結果を出力する第３過程と、前記第３中間処理結果において、それぞれの形態素につきオントロジ解析によりオントロジ辞書を参照して該当する概念が発見された場合はその概念名または概念番号、および用途に応じてその上位概念を示す概念名または概念番号を付加し、一方、該当する概念が発見されなかった場合はオントロジ解析が不能であることを示すフラグを付加した第４中間処理結果を出力する第４過程と、前記第４中間処理結果において、前記数値化された単語に準ずる処理単位であって、後ろに上位概念として量の概念が付加された形態素が存在する場合、前記数値化された単語に含まれる数詞の並びと後ろの形態素とを併合して新たな処理単位とし、その数値データ、当該数値データの型、該当する量の概念名または概念番号とを付加して第５中間処理結果を出力し、一方、前記形態素が存在しない場合につき、その数値データ、当該数値データの型、無名数の概念名または概念番号を併せて付加して第５中間処理結果を出力する第５過程と、前記第５中間処理結果において、前記付加された概念が量的限定の対象になり得ない形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属する場合、その概念を文書の分類識別子として出力し、一方、前記付加された概念が量的限定の対象になり得る形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属し、かつ、前記形態素における前後の参照領域に、限定条件が該当概念または上位概念として付加された形態素が存在し、更に、前記限定条件が該当概念または上位概念として付加された形態素の前後の参照領域に量の概念、もしくは「無名数」の概念が付加された処理単位が存在するとき、前記限定条件の概念とこれが限定する対象である概念と量もしくは「無名数」とを列記した組を分類識別子の一つとして選定し文書に付与する第６過程と、を含むことを特徴とする。

前記した課題を解決するために本発明（請求項３）は、文書中の量に関する記述を分類基準とした場合にその分類結果を生成するための文書分類方法であって、入力され取り込まれた入力文書について形態素解析を行い、形態素および形態素の品詞およびその活用の組から成る形態素解析結果の並びを示す第１中間処理結果を出力する第１過程と、前記第１中間処理結果において、各形態素につきオントロジ解析によりオントロジ辞書を参照して該当する概念が発見された場合はその概念名または概念番号、および用途に応じてその上位概念を示す概念名または概念番号を付加し、一方、該当する概念が発見されなかった場合はオントロジ解析が不能であることを示すフラグを付加した第２中間処理結果を出力する第２過程と、前記第２中間処理結果において、前記フラグが付加された形態素の並びのうち、連続した数詞の並びを単語に準ずる処理単位に纏めた第３中間処理結果を出力する第３過程と、前記第３中間処理結果において、前記纏められた単語に準ずる処理単位につき、前記数詞の並びが意味する数値データ、および当該数値データの型を示す識別子、ならびに数値化を行ったことを意味するフラグを付加した第４中間処理結果を出力する第４過程と、前記第４中間処理結果において、前記数値化された単語に準ずる処理単位であって、後ろに上位概念として量の概念が付加された形態素が存在する場合、前記数値化された単語に含まれる数詞の並びと後ろの形態素とを併合して新たな処理単位とし、その数値データ、当該数値データの型、該当する量の概念名または概念番号とを付加して第５中間処理結果を出力し、一方、前記形態素が存在しない場合につき、その数値データ、当該数値データの型、無名数の概念名または概念番号を併せて付加して第５中間処理結果を出力する第５過程と、前記第５中間処理結果において、前記付加された概念が量的限定の対象になり得ない形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属する場合、その概念を文書の分類識別子として出力し、一方、前記付加された概念が量的限定の対象になり得る形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属し、かつ、前記形態素における前後の参照領域に、限定条件が該当概念または上位概念として付加された形態素が存在し、更に、前記限定条件が該当概念または上位概念として付加された形態素の前後の参照領域に量の概念、もしくは「無名数」の概念が付加された処理単位が存在するとき、前記限定条件の概念とこれが限定する対象である概念と量もしくは「無名数」とを列記した組を分類識別子の一つとして選定し文書に付与する第６過程と、を含むことを特徴とする。

また、本発明の前記第６過程において（請求項４）、前記分類識別子として選定される少なくとも一部は、前記形態素の該当概念またはその上位概念が、あらかじめ定義され記憶されたリストに含まれることを特徴とする。

また、本発明において（請求項５）、前記リストを構成する各要素にあらかじめ重要度に応じて定義された重みを示す数値が併せて設定され、前記文書に前記選択された分類識別子を付与するときに前記数値も付記することを特徴とする。

また、本発明の前記第６過程において（請求項６）、あらかじめ定義された形態素の到達距離内の上位概念が、前記文書の形態素数に対してあらかじめ定義した率以上の数の形態素と共通な上位概念であるときに、その上位概念を前記分類識別子として選定することを特徴とする。

また、本発明において（請求項７）、前記概念を上位概念とする形態素の数、またはその数が前記文書の全ての形態素数に占める割合、あるいは前記概念を上位概念とする形態素の数またはその数が文書の全形態素数に占める割合をもとにあらかじめ定義される変換表を索引することにより、もしくは変換式によって算出される数値を前記選定される分類識別子に付与することを特徴とする。

また、本発明において（請求項８）、前記文書に付与する前記分類識別子の数をあらかじめ設定された数、あるいは演算式によって制限し、当該制限を超える分類識別子が前記予め設定された基準を持たす場合に、前記分類識別子に付与された数値の大小により選定すべき分類識別子を決定することを特徴とする。

また、本発明において（請求項９）、前記付与された数値の大小に応じて前記選定された分類識別子の配列順序を決定することを特徴とする。

（プログラム）
前記した課題を解決するために本発明（請求項１０、１１）は、文書中の量に関する記述を分類基準とした場合にその分類結果を生成する文書分類装置に用いられるコンピュータプログラムとした。

本発明によれば、量の概念を認識し、その値を用いて定義される限定条件を分類識別子として文書を分類することが可能になる。例えば、「この福祉サービスは所得制限１００万円未満です」といった文書の場合、本発明によれば、「所得制限、１００万円、未満」といった文書識別子を付与することができる。従って、量の概念を的確に反映させた分類が可能になる。
また、例えば、自治体広報サイトに掲載される文書群のように、分野が雑多で書式も不統一な場合、手数の限界から検索を容易にするのが困難になっていた文書群の分類作業の機械化が可能となり、現実的な手数で検索容易な分類識別子の付与が可能になる。

以下本発明を実施するための最良の形態（以下「実施形態」という）を、第１実施形態と第２に実施形態とに分けて説明する。

≪第１実施形態≫
図１は、本発明の第１実施形態を示すブロック図である。本実施形態の文書分類装置Ａ１は、主に、文書入力インタフェース部１と、文書分類処理部２と、文書出力インタフェース部３で構成される。
文書入力インタフェース部１は、操作者あるいは他装置によって入力される入力文書を取り込み、文書分類処理部２へ供給する。文書分類処理部２は、文書入力インタフェース部１により取り込まれた入力文書を形態素解析により数詞を含む品詞情報を持つ形態素に分割し、オントロジ解析によって数詞を再結合（結合）して量の概念を生成（あるいは再生）し、入力インタフェース部１により取り込まれた文書中の量に関する記述が分類基準となる場合、生成された量の概念に従い認識される限定条件を分類識別子として文書を分類して文書出力インタフェース部３へ供給する。文書出力インタフェース部３は、文書分類処理部２で分類された文書分類識別子付きの文書を、操作者あるいは外部装置へ出力、もしくはファイル装置に蓄積する。

文書分類処理部２は、コンピュータの演算装置（ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Accesses Memory））上に構築される形態素解析部２１、数詞再結合部２２、文字列数値化部２３、オントロジ解析部２４、量概念生成部２５、分類識別子選定部２６、そして記憶装置上に構築されるオントロジ辞書２７、分類対象文書ファイル２８、分類識別子付き文書ファイル２９、そして各中間処理結果（第１〜第５）が格納される作業ファイルで構成される。

形態素解析部２１は、文書入力インタフェース部１により取り込まれ、分類対象文書ファイル２８に書き込まれた入力文書（ここでは、「この福祉サービスは、所得制限１００万円未満です。」）を、形態素および形態素の品詞およびその活用の組から成る形態素解析結果の並びを示す第１中間処理結果に変換して数詞再結合部２２へ供給する。第１中間処理結果は図３（ａ）にその一例が示されている。
数詞再結合部２２は、第１中間処理結果において、連続した数詞の並び（ここでは、「１００万」）を単語に準ずる処理単位に纏めた第２中間処理結果に変換して文字列数値化部２３へ出力する。第２中間処理結果は図３（ｂ）にその一例が示されている。文字列数値化部２３は、数詞再結合部２２により出力される第２中間処理結果において、纏められた単語に準ずる処理単位につき、数詞の並びが意味する数値データ（ここでは「１００００００」）、および当該数値データの型を示す識別子（「整数型」）、ならびに数値化を行ったことを意味するフラグ（「数値化」）を付加した第３中間処理結果を出力しオントロジ解析部２４へ供給する。第３中間処理結果は図３（ｃ）にその一例が示されている。

オントロジ解析部２４は、第３中間処理結果において、フラグが付加されなかった形態素につき、オントロジ解析によりオントロジ辞書２７を参照して該当する概念が発見された場合は『その概念名または概念番号、および用途に応じてその上位概念を示す（数個の）概念名または概念番号を付加して』出力する（ここでは、「福祉：福祉、行政措置、公務」、「未満：＜、大小関係、関係」等）。
ここで、概念名の付加の具体例としては、「福祉：福祉、行政措置、公務」等の付加がある。
また、概念番号の付加の具体例を説明すると、オントロジ辞書の作成に際しては、自然言語による概念名だけで該辞書の構築が基本的に可能である。しかし、試作されている一部の辞書において計算機上で高速に検索しやすくするため、あるいは外国語でなら１語で表現できるが日本語では１形態素で表現できない概念（バリアフリー等）を組み込みやすくするため、自然言語を無味乾燥な数字に置き換えて表現することが行われている。この番号体系はそれぞれの辞書独自のもので標準は存在しない。また、現在発明者らが入手済みの辞書は部分サンプルのため「福祉」の概念番号の具体例は乏しい。このため、例えばＳＪＩＳコードを字数だけ並べたもの（福祉なら十六進数で９５９Ｆ＋８Ｅ８３）を概念番号と称しても良いことになる。また、図１４等の抽象モデルで概念に付けているような、概念を一意に指し示すよう適宜割り当てた番号でもかまわない。
一方、該当する概念が発見されなかった場合はオントロジ解析が不能であることを示すフラグ（ここでは「この：指示先検出不能」）を付加した第４中間処理結果を出力し量概念生成部２５へ供給する。第４中間処理結果は図３（ｄ）にその一例が示されている。

量概念生成部２５は、第４中間処理結果において、文字列数値化部２３により数値化された単語に準ずる処理単位であって後ろに上位概念として量の概念が付加された形態素が存在する場合（ここでは、「円：貨幣単位」）、当該数値化された単語に含まれる数詞の並びと後ろの形態素とを併合して新たな処理単位とし（ここでは、「１００万円」）、その数値データと当該数値データの型と該当する量の概念名または概念番号とを付加して第５中間処理結果を出力する（ここでは、「１００万円：金額、１００００００、整数型」）。
一方、形態素が存在しない場合につき、その数値データ、当該数値データの型、無名数の概念名または概念番号を併せて付加して第５中間処理結果を出力して分類識別子選定部２６へ供給する。第５中間処理結果は図３（ｅ）にその一例が示されている。
なお、本実施形態では、「後ろ」は「直後」であるが、本発明は直後に限定されるものではなく、付加される量の概念の前に他の文字・記号等が入っていてもよい。

分類識別子選定部２６は、第５中間処理結果において、付加された概念が量的限定の対象になり得ない形態素（ここでは、「福祉、サービス」等）につき、当該形態素に付加された概念が本装置の所有者または設置者あるいは使用者が設定した基準によって分類識別子とされる概念の範囲に属する場合、その概念を文書の分類識別子として出力する。
一方、付加された概念が量的限定の対象になり得る形態素（ここでは、「所得」）につき、当該形態素に付加された概念が設定された基準によって分類識別子とされる概念の範囲に属し、かつ、先の形態素における前後の参照領域に、「大小関係」、「一致」、あるいは「範囲」を該当概念または上位概念として付加された形態素が存在し（ここでは、「未満：＜、大小関係、関係」）、更に、「大小関係」、「一致」、あるいは「範囲」を該当概念または上位概念として付加された形態素の前後の参照領域に量の概念（ここでは「１００万円」）、もしくは「無名数」の概念が付加された処理単位が存在するときは、「大小関係」、「一致」、あるいは「範囲」の概念とこれが限定する対象である概念と量もしくは「無名数」とを列記した組（ここでは、「福祉、所得、円、＜１００００００」）を分類識別子の一つとして選定して分類識別子付き文書ファイル２９へ出力する。分類識別子付きの文書の一例は図３（ｆ）に示されている。

≪第１実施形態の動作説明≫
以下、図４〜図１３に示すフローチャートを参照しながら図１、図３に示す第１実施形態の動作について、文書分類処理装置２の動作を主として詳細に説明する。なお、図４〜図１３は、本発明実施形態の動作を説明するために引用したフローチャートである。具体的には本発明のコンピュータプログラムの処理手順を示し、それぞれ、数詞再結合部２２による数詞再結合処理（図４）、文字列数値化部２３による文字列数値化処理（図５）、オントロジ解析部２４によるオントロジ解析処理（図６、図７）、量概念生成部２５による量概念生成処理（図８、図９）、分類識別子選定部２６による分類識別子選定処理（図１０〜図１３）の手順が示されている。

（文書の取込み〜数詞再結合処理）
第１実施形態の文書分類装置Ａ１は、まず、操作者あるいは他の装置から入力される文書（例えば「この福祉サービスは所得制限１００万円未満です。」）を文書入力インタフェース部１によって取込み、分類対象文書ファイル２８に格納する。
形態素解析部２１は、分類対象文書ファイル２８からその文書を取り出して形態素解析を行い、その解析結果を、図３（ａ）に一例として示す第１中間処理結果として作業ファイルに書き込む。すなわち、ここでは、形態素および形態素の品詞および活用の組から成る形態素解析結果の並び（「この：連体詞／福祉：名詞−一般／サ：未知語／−：記号−一般／ビス：名詞−一般／は：助詞−係助詞／所得：名詞−一般、／制限：名詞−サ変接続／１：名詞−数／０：名詞−数／０：名詞−数／万：名詞−数／円：名詞−接尾−一般、数／未満／です／。：記号−句読点」を数詞再結合部２２へ供給する。

数詞再結合部２２では、前記した第１中間処理結果の連続した数詞の並びを単語に準ずる処理単位に纏めて第２中間処理結果を出力するものであり、ここでは、まず、第２中間処理結果が格納される作業ファイルを空白文字列とし、文字列Ａを空白文字列として初期設定する（Ｓ４０１、Ｓ４０２）。
次に、形態素解析後の第１中間処理結果が格納された作業ファイルから形態素を１形態素単位で読み込む（Ｓ４０３）。そして、末尾記号（ＥＯＳ）でないことを確認して（Ｓ４０４）、各形態素につき名詞あるいは数詞に相当するものを抽出する（Ｓ４０５）。なお、Ｓ４０４の処理において、末尾記号であることが確認された場合には、第２中間処理結果にその末尾記号を追加設定して処理を終了する（Ｓ４１１）。

Ｓ４０５の処理で、読み込んだ形態素が数詞の場合は、文字列Ａに読み込んだ形態素を追加設定し（Ｓ４０６）、数詞以外の場合は、第２中間処理結果として、境界記号（，）および読み込んだ形態素を追加設定する（Ｓ４１０）。また、Ｓ４０６の処理の後、続く１形態素を読み込み（Ｓ４０７）、更にその形態素が数詞であるか否かを調べる（Ｓ４０８）。ここで、数詞であることが確認された場合（Ｓ４０８Ｙｅｓ）、Ｓ４０６以降の処理を繰り返して更なる連続した数詞の並びを検出し、一方、連続した数詞の並びが途切れ、次に並ぶ形態素が数詞でない場合に（Ｓ４０８、Ｎｏ）、第２中間処理結果として、先の第２中間処理結果に、境界記号、文字列Ａ、項目区切り記号、品詞項目（大分類：名詞，小分類：数詞）および読み込んだ形態素を追加設定してＳ４０３以降の処理を繰り返す。
以上の処理は、末尾記号が出現するまで繰り返され（Ｓ４０４、Ｙｅｓ）、第２中間処理結果に末尾記号が追加設定され終了する（Ｓ４１１→終了）。

（文字列数値化処理）
次に、文字列数値化部２３は、前記した第２中間処理結果において、纏められた単語に準ずる処理単位につき、数詞の並びが意味する数値データ、および当該数値データの型を示す識別子、ならびに数値化を行ったことを意味するフラグを付加した第３中間処理結果を出力する。
具体的に図５に示すフローチャートにおいて、文字列数値化部２３は、まず、第３中間処理結果が格納される作業ファイルを空白文字列として初期設定を行い（Ｓ５０１）、数詞再結合処理後の第２中間処理結果が格納された作業ファイルから形態素を１形態素単位で読み込む（Ｓ５０２、１形態素読み込み）。そして、末尾記号（ＥＯＳ）でないことを確認して（Ｓ５０３）、読み込まれた形態素が数詞であるか否かを判断する（Ｓ５０４）。なお、Ｓ５０３の判断処理において、末尾記号であることが確認された場合には、第３中間処理結果にその末尾記号を追加設定して処理を終了する（Ｓ５０７）。

先のＳ５０４の判断処理において、数詞であることが確認された場合（Ｓ５０４、Ｙｅｓ）、空白文字列が設定された第３中間処理結果（最初はＳ５０１により空白文字列が設定されている）に、境界文字、読み込んだ形態素、項目区切り記号、そして読み込んだ形態素のコンピュータ内数値表現（数詞の並びが意味する数値データおよびその型）を追記してＳ５０２以降の処理を繰り返す（Ｓ５０５）。また、このとき、コンピュータの内部処理的に数値化を行ったことを示すフラグをＯＮ設定する（図示外）。
一方、数詞でないことが確認された場合は（Ｓ５０４、Ｎｏ）、先の第３中間処理結果に、境界記号および読み込んだ形態素を追記してＳ５０２以降の処理を繰り返す（Ｓ５０６）。
なお、図５中、＋は文字列の結合として定義され、中間処理結果の例として、境界記号は改行、項目区切り記号は、カンマ（，）である。

（オントロジ解析処理）
次に、オントロジ解析部２４は、前記した第３中間処理結果において、フラグが付加されなかった形態素につき、オントロジ解析によりオントロジ辞書を参照して該当する概念が発見された場合は『その概念名または概念番号、および用途に応じてその上位概念を示す（数個の）概念名または概念番号を付加』する（概念名・概念番号の付加については既に説明したとおりである）。一方、該当する概念が発見されなかった場合はオントロジ解析が不能であることを示すフラグを付加する。そして、第４中間処理結果として出力する。
具体的にオントロジ解析部２４は、図６、図７に示すフローチャートにおいて、まず、第４中間処理結果が格納される作業ファイルを空白文字列とし、文字列Ａを空白文字列として初期設定する（Ｓ６０１、Ｓ６０２）。
次に、文字列数値化処理後の第３中間処理結果が格納された作業ファイルから形態素を１形態素単位で読み込む（Ｓ６０３）。そして、末尾記号（ＥＯＳ）でないことを確認して（Ｓ６０４）、各形態素につき数詞に相当するものを抽出する判断を行う（Ｓ６０５）。なお、Ｓ６０４の判断処理において、末尾記号であることが確認された場合には、第３中間処理結果にその末尾記号を追加設定して処理を終了する（Ｓ６１１→終了）。

Ｓ６０５の判断処理において数詞であることが確認された場合、（Ｓ６０５、Ｙｅｓ）は、先の第４中間処理結果に境界記号と読み込んだ形態素を追記して（Ｓ６０９）、Ｓ６０３以降の処理を繰り返す。一方、数詞でないことが確認された場合は（Ｓ６０５、Ｎｏ）、その形態素を検索キーとしてオントロジ辞書２７を検索し、統制語を探す（Ｓ６０６）。ここで、統制語とは、同義語を代表する単語のことをいう。
そして、統制語を発見できた場合（Ｓ６０７、Ｙｅｓ）は、先の第４中間処理結果に、境界記号、読み込んだ形態素、項目区切り記号、それと発見できた統制語を追記し（Ｓ６０８）、一方、統制語が発見できなかった場合は（Ｓ６０７、Ｎｏ）、先の第４中間処理結果に、境界記号、読み込んだ形態素、項目区切り記号、概念体系外記号（オントロジ解析不能フラグ）を追記して（Ｓ６１０）、Ｓ６０３以降の処理を繰り返す。

オントロジ解析部２４は、統制語が発見されて作業ファイルを更新した後、この統制語を検索キーとし、かつ、ペンディング数（α）を０に初期設定して（図７、Ｓ７０１）オントロジ辞書２７を検索して、文字列Ａに含まれない上位概念を探す（Ｓ７０２）。
ここで上位概念が発見できなかった場合（Ｓ７０３、Ｎｏ）は、ペンディング数を判断する処理（Ｓ７０８）へ分岐する。一方、上位概念が発見され（Ｓ７０３、Ｙｅｓ）、それが複数である場合（Ｓ７０４、Ｙｅｓ）は、先のペンディング数に「発見数−１」を加えた値を新たなペンディング数にする（Ｓ７０７）。そして、先の文字列Ａに、項目区切り記号、および見つかった上位概念の一つを追記する（Ｓ７０５）。そして、Ｓ７０７で設定した検索キーで到達距離を調べる（Ｓ７０６）。
ここで、到達距離を説明する。「距離」とは統制語から検索キーに代入されている概念までの意味の遠近を表す量であり、一般的によく用いられるのは「グラフ理論上の距離」、即ち統制語から順に上位概念に遡って検索キーの概念に達するまでの段階数である。例えば図１４のモデルにおいて概念１１１から概念１間での距離を２と数える。これを「制限する」意味（到達距離を調べる意味）は、一般にオントロジ辞書が保持する概念体系が数十万もの概念からなり、「無制限に検索する」ことは常にルート（最上位は「ものごと」とか「森羅万象」といった概念に行き着く）まで遡ることになり、検索結果の情報量が巨大かつ無意味な内容が多いものになってしまうため、実用的な結果が得られるようにあらかじめ設定した距離をもって上位に遡るのを打ち切るということである。よって「到達」とは距離がその設定値に達することを指す。

ここで、距離制限に未到達の場合は（Ｓ７０６、Ｎｏ）、Ｓ７０２以降の処理を繰り返し、距離制限到達の場合（Ｓ７０６、Ｙｅｓ）は、更にペンディング数をチェックし（Ｓ７０８）、ペンディング数（α）が０でない場合（α＞０となっていた場合）（Ｓ７０８、Ｎｏ）に、現在ペンディングとなっている任意の上位概念（ペンティング上位概念）を検索キーとし、また、先のペンディング数を−１更新してＳ７０２以降の処理を繰り返す（Ｓ７０９）。
一方、ペンディング数（α）が０の場合（Ｓ７０８、Ｙｅｓ）は、次の場合、すなわち、オントロジ辞書２７を検索して文字列Ａに含まれない上位概念が見つからなかった場合（Ｓ７０３、Ｎｏ）からＳ７０８の判断に入った場合も含めて、先の第４中間処理結果に、文字列Ａと境界記号を追記してオントロジ解析を終了する。

（量概念生成処理）
次に、量概念生成部２５は、前記した第４中間処理結果において、文字列数値化部２３により数値化された単語に準ずる処理単位であって、後ろに上位概念として量の概念が付加された形態素が存在する場合、当該数値化された単語に含まれる数詞の並びと後ろの形態素とを併合して新たな処理単位とし、その数値データと当該数値データの型と該当する量の概念名または概念番号とを付加して第５中間処理結果を出力し、一方、前記した形態素が存在しない場合につき、その数値データ、当該数値データの型、無名数の概念名または概念番号を併せて付加して第５中間処理結果を出力する。

具体的に、図８、図９に示すフローチャートにおいて、量概念生成部２５は、まず、第５中間処理結果が格納される作業ファイルを空白文字列とし、文字列Ａを空白文字列として初期設定する（Ｓ８０１、Ｓ８０２）。
次に、オントロジ解析後の第４中間処理結果が格納された作業ファイルから形態素を１形態素単位で読み込む（Ｓ８０３）。そして、末尾記号（ＥＯＳ）でないことを確認して（Ｓ８０４）、各形態素につき数詞に相当するものを抽出する（Ｓ８０５）。なお、Ｓ８０４の判断処理において、末尾記号であることが確認された場合には、第５中間処理結果にその末尾記号を追加設定し（第５中間処理結果＝第５中間処理結果＋末尾記号）、処理を終了する（Ｓ８１０）。

Ｓ８０５の判断処理において、読み出した形態素が数詞に相当しないことが確認された場合（Ｓ８０５、Ｎｏ）は、Ｓ８０９で先の第５中間処理結果に境界記号と読み込んだ形態素とを追記し（第５中間処理結果＝第５中間処理結果＋読み込んだ形態素）、Ｓ８０３以降の処理を繰り返す。一方、数詞であることが確認された場合（Ｓ８０５、Ｙｅｓ）は、文字列Ａに読み込んだ形態素を設定し（文字列Ａ＝読み込んだ形態素）、続く１形態素を読み込む（Ｓ８０６）。
次に、読み込んだ形態素が助数詞を示すか否かがチェックされ（Ｓ８０７）、ここで助数詞でないことが確認された場合（Ｓ８０７、Ｎｏ）は、先の第５中間処理に、境界記号、文字列Ａ、項目区切り記号、無名数概念、境界記号、読み込んだ形態素を追記し（第５中間処理結果＝第５中間処理結果＋境界記号＋文字列Ａ＋項目区切り記号＋無名数概念＋境界記号＋読み込んだ形態素）、Ｓ８０３以降の処理を繰り返す（Ｓ８０８）。

一方、助数詞であることが確認された場合（Ｓ８０７、Ｙｅｓ）は、更に、その形態素が倍率概念を含むか否かをチェックし（Ｓ９０１）、ここで、例えば、形態素：キロメートルに、概念：千倍距離が付与されていた場合のように、助数詞が倍率概念を含む場合（Ｓ９０１、Ｙｅｓ）は、文字列Ａの値に、文字列Ａの値×その倍率を設定し（文字列Ａの値＝文字列Ａの値×倍率）、そして、読み込んだ形態素の倍率概念を除去する（Ｓ９０３）。ここで例えば前記「キロメートル，千倍距離」の例では、「メートル，距離」と置き換える。また、例えば、「メートル」や「距離」のように助数詞が倍率概念を含まない場合（Ｓ９０１、Ｎｏ）、および前記したＳ９０３の処理の後、先の第５中間処理結果に、境界記号、文字列Ａ、読み込んだ形態素、そして文字列Ａの値を追記し（第５中間処理結果＝第５中間処理結果＋境界記号＋文字列Ａ＋読み込んだ形態素＋文字列Ａの値）、端子Ｄに移行する（Ｓ９０２）。

（分類識別子選定処理）
最後に、分類識別子選定部２６は、前記した第５中間処理結果において、付加された概念が量的限定の対象になり得ない形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属する場合、その概念を文書の分類識別子として出力し、一方、付加された概念が量的限定の対象になり得る形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属し、かつ、形態素における前後の参照領域に、「大小関係」、「一致」、あるいは「範囲」を該当概念または上位概念として付加された形態素が存在し、更に、「大小関係」、「一致」、あるいは「範囲」を該当概念または上位概念として付加された形態素の前後の参照領域に量の概念、もしくは「無名数」の概念が付加された処理単位が存在するとき、先の「大小関係」、「一致」、あるいは「範囲」の概念とこれが限定する対象である概念と量もしくは「無名数」とを列記した組を分類識別子の一つとして選定する。

具体的に、図１０〜図１３に示すフローチャートにおいて、分類識別子選定部２６は、まず、分類識別子を空白文字列とし、文字列Ａを空白文字列として初期設定する（Ｓ１０１、Ｓ１０２）。
次に、量概念生成処理後の第５中間処理結果が格納された作業ファイルから形態素を１形態素単位で読み込む（Ｓ１０３）。そして、末尾記号（ＥＯＳ）でないことを確認して（１０４）、各形態素につき数詞に相当するものを抽出する（Ｓ１０５）。なお、Ｓ１０４の判断処理において、末尾記号であることが確認された場合には、第５中間処理結果（つまり分類識別子）にその末尾記号を追加設定し（分類識別子＝分類識別子＋末尾記号）、処理を終了する（Ｓ１０９）。

Ｓ１０５の判断処理において、読み出した形態素が数詞に相当することが確認された場合（Ｓ１０５、Ｙｅｓ）、更に、量概念であるか否かをチェックし（Ｓ１０６）、ここで、無名数ではなく量概念であれば（Ｓ１０６、Ｎｏ）、後述する周囲指定範囲検索が行われ（Ｓ１０７）、無名数であれば（Ｓ１０６、Ｙｅｓ）、Ｓ１０３以降の処理が繰り返される。
なお、数詞でない場合（Ｓ１０５、Ｎｏ）は、端子Ｆにより移行して（図１１参照）、引数Ｎに１を設定し（Ｓ１１１）、更に、文字列Ｂとして形態素に付与されたＮ個目の概念を設定する（文字列Ｂ＝形態素に付与されたＮ個目の概念、Ｓ１１２）。そして、この文字列Ｂを、あらかじめ、本装置の所有者、設置者、あるいは使用者によって定義された選択対象概念リストと照合する（Ｓ１１３）。

ここで、リスト照合の結果、リストにあると判断された場合（Ｓ１１４、Ｙｅｓ）は、分類識別子として項目区切り記号と文字列Ｂを設定する（分類識別子＝分類識別子＋項目区切り記号＋文字列Ｂ、Ｓ１１５）。
リスト照合の結果リストにないと判断された場合、ならびに前記したＳ１１５の処理の後、引き数Ｎを＋１更新し（Ｓ１１６）、引き数Ｎが形態素に付与された概念数を超えるか否かをチェックする（Ｎ＞形態素に付与された概念数、Ｓ１１７）。チェックの結果、“Ｎ≦形態素に付与された概念数”の場合（Ｓ１１７、Ｎｏ）は、Ｓ１１２以降の処理を繰り返し、“Ｎ＞形態素に付与された概念数”となった場合（Ｓ１１７、Ｙｅｓ）は、端子Ｅにより、図１０に示すＳ１０３の処理へ移行する。

一方、図１０に示すＳ１０８において、Ｓ１０７の周囲指定検索処理の検索結果に、例えば、「以上」や「超え」等の限定概念がない場合（Ｓ１０８、Ｎｏ）は、端子Ｇにより図１２に示す処理に移行し、限定概念がある場合（Ｓ１０８、Ｙｅｓ）は、端子Ｈにより図１３に示す処理に移行する。

図１２に示すフローチャートにおいて（端子Ｇ）、分類識別子選定部２６は、まず、引き数Ｎに１を設定する（Ｓ１２１）。次に、パラメータとして文字列Ｂに、形態素に付与されたＮ個目の概念を設定し（Ｓ１２２）、この文字列Ｂを、あらかじめ、本装置の所有者、設置者、あるいは使用者によって定義された選択対象（非限定量）概念リストと照合する（Ｓ１２３）。
ここで、リスト照合の結果（Ｓ１２４）、リストにあると判断された場合（Ｓ１２４、Ｙｅｓ）は、分類識別子として、先の分類識別子に、項目区切り記号と文字列Ｂを追記する（分類識別子＝分類識別子＋項目区切り記号＋文字列Ｂ、Ｓ１２５）。また、このリスト照合の結果、リストにないと判断された場合、ならびに前記したＳ１２５の処理の後、引き数Ｎを＋１更新し（Ｓ１２６）、引き数Ｎが形態素に付与された概念数を超えるか否かをチェックする（Ｓ１２７）。チェックの結果、“Ｎ≦形態素に付与された概念数”の場合は（Ｓ１２７、Ｎｏ）、Ｓ１２２以降の処理を繰り返し、“Ｎ＞形態素に付与された概念数”となった場合は（Ｓ１２７、Ｙｅｓ）、端子Ｅにより図１０に示すＳ１０３の処理へ移行する。

すなわち、ここでは、量概念生成処理結果である第５中間処理結果において、付加された概念が量的限定の対象になり得ない形態素につき、当該形態素に付加された概念が、予め本装置の所有者、設置者、あるいは使用者によって定義された選定対象概念リスト（基準）によって分類識別子とされる概念の範囲に属する場合、その概念が設定された文字列Ｂを文書の分類識別子の一つとして分類識別子付き文書２９に出力している。

一方、図１３に示すフローチャートにおいて、分類識別子選定部２６は、まず、見つかった限定概念が限定する限定対象語を検索する（Ｓ１３１）。そして、引き数Ｎに１を設定する（Ｓ１３２）。次に、文字列Ｂに、形態素に付与されたＮ個目の概念を設定し（Ｓ１３３）、この文字列Ｂ、ならびに先に限定対象語に付与された概念を、あらかじめ、本装置の所有者、設置者、あるいは使用者によって定義された選択対象（限定量）概念リストと照合する（Ｓ１３４）。
ここで、リスト照合の結果（Ｓ１３５）、リストにあると判断された場合（Ｓ１３５、Ｙｅｓ）は、分類識別子として、先の分類識別子に、項目区切り記号と文字列Ｂと、項目区切り記号と、限定式を追記する（分類識別子＝分類識別子＋項目区切り記号＋文字列Ｂ＋項目区切り記号＋限定式、Ｓ１３６）。ここで、限定式とは、限定対象語を辺とする等式、不等式をいう。また、リスト照合の結果、リストにないと判断された場合（Ｓ１３５、Ｎｏ）、ならびに前記したＳ１３６の処理の後、引き数Ｎを＋１更新し（Ｓ１３７）、引き数Ｎが形態素に付与された概念数を超えるか否かをチェックする（Ｓ１３８）。このチェックの結果、“Ｎ≦形態素に付与された概念数”の場合は、Ｓ１３３以降の処理を繰り返し、“Ｎ＞形態素に付与された概念数”となった場合は、端子Ｅにより図１０に示すＳ１０３の処理へ移行する。

すなわち、ここでは、付加された概念が量的限定の対象になり得る形態素につき、この形態素に付加された概念（文字列Ｂ）が、予め本装置の所有者、設置者、あるいは使用者によって定義された選定対象概念リスト（基準）によって分類識別子とされる概念の範囲に属し、かつ、形態素における前後の参照領域に、「大小関係」、「一致」、あるいは「範囲」等の限定式が、該当概念または上位概念として付加された形態素が存在し、更に、これら限定式が該当概念または上位概念として付加された形態素の前後の参照領域に、量の概念、もしくは「無名数」の概念が付加された処理単位が存在するとき、先の限定式の概念と、これが限定する対象である概念と量もしくは「無名数」とを列記した組を文書の分類識別子の一つとして文書分類識別子付き文書２９として出力している。

（分類識別子の選定方法）
分類識別子選定部２６による分類識別子の選定方法について、図１４〜図１７にその概念が示されている。図１４〜図１７は、オントロジ辞書２７の概念展開ツリーを模式化して示した図であり、図中、ハッチングが付された楕円が選定され文書に付与される分類識別子を示す。

まず、図１４に示す方法は、予め本装置の所有者、設置者、あるいは使用者によって基準として定義される選定対象概念リストを用いて分類識別子を選定し出力する例である。ここでは、選定対象概念リストにリストされる概念に相当する概念名もしくは概念番号が分類識別子として画一的に選択され出力される。
すなわち、分類識別子選定部２６は、入力された形態素１〜５に該当する概念またはその上位概念が、あらかじめ定義され記憶された選定対象概念リストに含まれる場合にその概念を分類識別子として選択出力する。例えば、「概念１」や「概念１１１」等は、「形態素１」の該当概念や上位概念ではあるが、基準として用意された選定対象概念リストにその定義として存在しないことから、ここでは分類識別子として選択されず、また、「概念１２１」は該当する形態素が無いことから選択されない。ここでは、「概念１１」、「概念１１２」、「概念３」があらかじめリストされているため、分類識別子として選択され出力される。

図１５に示す方法は、選択対象概念リストが示す画一的なものではなく、概念間の相対的な関係から分類識別子を選定する方法である。
ここでは、あらかじめ定義された形態素の到達距離内の上位概念が文書の形態素数に対してあらかじめ定義した率以上の数の形態素と共通な上位概念であるときに、その上位概念を分類識別子として選定出力する例が示されている。
すなわち、分類識別子選定部２６が、概念を上位概念とする形態素の数、またはその数が文書の全ての形態素数に占める割合、あるいは概念を上位概念とする形態素の数、またはその数が文書の全形態素数に占める割合を基に分類識別子の選定を行う。そして、分類識別子選定部２６に内蔵される変換表（図示せず）を索引することにより、あるいは、分類識別子選定部２６が予め定義された変換式に基づき演算することで算出される数値を選定される分類識別子に付与している。分類識別子選定部２６がこの数値を参照し、それぞれの概念の相対的な関連から分類識別子を選定出力するものである。

ここでは該当概念の直近上位まで、すなわち到達距離１を設定範囲とする例が示されている。
具体的には、「概念１１１」と「概念１１２」は、それぞれの形態素１、２によって指され、他のいずれの形態素からも上位概念として指されていないため専有率が２０％、「概念１１」は、「概念１１１」と「概念１１２」の上位概念として指されているため専有率が４０％、「概念１」と「概念２」は距離が遠く、「概念１」は、形態素１と形態素２の上位概念ではあるが範囲外であるため専有率が０％、「概念２」は形態素３が直接指しているため専有率が２０％、「概念３」は形態素４から直接、形態素５から間接的に指されており、専有率は４０％となっている。
専有率の高い概念、ここでは、「概念２（２０％）」、「概念３（４０％）」、「概念１１（４０％）」、「概念１２（２０％）」、「概念３１（２０％）」、「概念１１１（２０％）」、「概念１１２（２０％）」が分類識別子として選定され出力される。
なお、ここで括弧内の数字は前記した専有率を示し、ここに付与された数値の大小に応じて選定された分類識別子の配列順序が決定される。

図１６は、重要度に応じて付与される重みによって分類識別子を選定する方法を示す。ここでは、あらかじめ基準として定義される選定対象概念リストを構成する要素の一つとして、概念毎にあらかじめ定義された重みを示す数値が付与されており、分類識別子選定部２６は、この数値を参照することにより分類識別子を選定し、出力する。
ここでは、重要度に応じて５段階の重みが付されているものとし、「概念１１（重み２）」、「概念１１２（重み５）」、「概念３（重み１）」が分類識別子として選定され、文書に選定された分類識別子を付与するときに、選定対象概念リストに示される重み（数値）がそのまま分類識別子に付記される。
なお、図１５に示す例と同様、付与された数値の大小に応じて選定された分類識別子の配列順序が決定される。

図１７は、図１５に示される到達距離による分類識別子の選定方法と、図１６に示される重み付けによる分類識別子の選定方法を共に適用した例を示した例である。
ここでは、該当概念の直近上位まで、すなわち、到達距離１を設定範囲とする例が示されており、「概念１１」、「概念１１１」、「概念１１２」、「概念２」、「概念３」、「概念１２」、「概念３１」が分類識別子として選定され、このうち、「概念１１」と「概念３」が最大の重み２となる（形態素数２）。
なお、前記した図１４〜図１７に示す分類識別子の選定方法において、文書に付与する分類識別子の数を、あらかじめ設定された数あるいは演算式によって制限し、当該制限を超える分類識別子が予め設定された基準を持たす場合に、分類識別子に付与された数値の大小により選定すべき分類識別子を決定することも可能である。

図１８は、図１７同様、図１５に示される到達距離による分類識別子の選定方法と、図１６に示される重み付けによる分類識別子の選定方法を共に適用した例を示した例であり、文書に付与する分類識別子の選定数があらかじめ設定されている。ここでは、選定数が２とされた場合に、最大の重み２となる「概念１１」と、「概念３」が選定される。
このように分類識別子の数があらかじめ設定されており、数、あるいは演算式によって文書に付与する分類識別子の数を制限し、当該制限を超える分類識別子が予め設定された基準を満たす場合に、分類識別子に付与された数値の大小により選定すべき分類識別子を決定することも可能である。

≪第２実施形態≫
次に、本発明の第２実施形態を説明する。
図２は、本発明における第２施形態の構成を示すブロック図である。図１に示す実施形態との差異は、オントロジ解析部２４の接続位置であり、図１に示す実施形態では、文書分類装置Ａ１が文字列数値化処理の後にオントロジ解析処理を行うのに対し、ここでは、文書分類装置Ａ２が形態素解析結果にオントロジ解析処理を行い数詞再結合部２２へ供給する構成となっている。
従って、図３に示す第２、第３中間処理結果の内容に若干の差異はあるものの、第２実施形態の文書分類装置Ａ２の第１中間処理結果、および第４、第５中間処理結果、そして、分類識別子付き文書２９は、第１実施形態の文書分類装置Ａ１と同様の結果が出力される。このため、第２実施形態の動作も第１実施形態の動作に同様になる。よって、第２実施形態の動作説明を省略する。

以上説明のように本実施形態は、形態素解析およびオントロジ解析による従来の処理に加え、数詞を再結合して量の概念を生成し、文書中の量に関する記述が重要な分類基準となる場合に有効な分類結果を生成するものである。このことにより、量の概念を認識し、その値を用いて定義される限定条件を分類識別子として文書を分類することができ、かつ、任意書式の文書を取り扱うことも可能となる。
例えば、文書中の「この福祉サービスは所得制限１００万円未満です」という単文を含む文書が入力された場合、「所得制限、１００万円、未満」という分類識別子が付与され出力される。このため、量の概念を的確に反映した文書の分類が可能となる。また、文書の書式に拘らないため、書式が固定的になりえない分野においても量の概念を的確に反映させた分類を可能とする文書分類装置Ａ１を提供することができる。

なお、図１、図２に示す、文書分類処理部２を構成する形態素解析部２１、数詞再結合部２２、文字列数値化部２３、オントロジ解析部２４、量概念生成部２５、分類識別子選定部２６のそれぞれで実行される手順をコンピュータ読取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより本発明の文書分類装置Ａ１が実現されるものとする。ここでいうコンピュータシステムとは、ＯＳ（Operating System）や周辺機器等のハードウェアを含むものである。

本発明の第１実施形態を示すブロック図である。本発明の第２実施形態を示すブロック図である。本発明で用いられる作業メモリのデータ構造の一例を示す図である。本発明実施形態の動作を示すフローチャートである。本発明実施形態の動作を示すフローチャートである。本発明実施形態の動作を示すフローチャートである。本発明実施形態の動作を示すフローチャートである。本発明実施形態の動作を示すフローチャートである。本発明実施形態の動作を示すフローチャートである。本発明実施形態の動作を示すフローチャートである。本発明実施形態の動作を示すフローチャートである。本発明実施形態の動作を示すフローチャートである。本発明実施形態の動作を示すフローチャートである。分類識別子選定のための一方法を説明するために引用した概念図である。分類識別子選定方法を説明するために引用した概念図である。分類識別子選定方法を説明するために引用した概念図である。分類識別子選定方法を説明するために引用した概念図である。分類識別子選定方法を説明するために引用した概念図である。

符号の説明

Ａ１・Ａ２…文書分類装置、１…文書入力インタフェース部、２…文書分類処理部、３…文書出力インタフェース部、２１…形態素解析部、２２…数詞再結合部、２３…文字列数値化部、２４…オントロジ解析部、２５…量概念生成部、２６…分類識別子選定部、２７…オントロジ辞書、２８…分類対象文書、２９…分類識別子付き文書

Claims

文書、および当該文書の中間処理結果が格納される記憶装置と、前記文書中の量に関する記述を分類基準とした場合にその分類結果を生成する演算装置とを有する文書分類装置であって、
入力文書を取り込み、記憶装置に格納する文書入力インタフェース部と、
前記入力文書の形態素解析を行う形態素解析部と、
前記形態素解析の結果、連続した数詞の並びを単語に準ずる処理単位に纏める数詞再結合部と、
前記数詞の並びを数値化する文字列数値化部と、
オントロジ辞書を参照したオントロジ解析により、前記形態素それぞれについて、その形態素に該当する概念を判断するオントロジ解析部と、
前記数値化された単語の後に、量の概念に該当する形態素があったとき、その数値化された単語に含まれる数詞の並びとその形態素とを併合して新たな処理単位とし、その形態素に、その数詞の並びが示す数値データと、当該数値データの型と、該当する量の概念名または概念番号とを付加し、一方、前記量の概念に該当する形態素が存在しない場合、その形態素に、その数詞の並びが示す数値データと、当該数値データの型と、無名数の概念名または概念番号とを付加する量概念生成部と、
前記新たな処理単位に含まれる形態素に付加された概念が、予め設定された範囲の概念であり、かつ、その形態素における前後の参照領域に、限定条件の概念に該当する形態素が存在し、その限定条件の概念に該当する形態素の前後の参照領域に、量の概念に該当する形態素を含む処理単位が存在するとき、もしくは、無名数の概念に該当する形態素を含む処理単位が存在するとき、前記限定条件の概念と、これが限定する対象である概念と、量もしくは無名数とを列記した組を文書の分類識別子の１つとして選定し文書に付与する分類識別子選定部と、
前記文書分類識別子付きの文書を出力する文書出力インタフェース部と、
を備えることを特徴とする文書分類装置。
文書中の量に関する記述を分類基準とした場合にその分類結果を生成するための文書分類方法であって、
文書、および当該文書の中間処理結果が格納される記憶装置と、前記文書中の量に関する記述を分類基準とした場合にその分類結果を生成する演算装置とを有する文書分類装置を用い、
前記演算装置に、
入力され取り込まれた入力文書について形態素解析を行い、形態素および形態素の品詞およびその活用の組から成る形態素解析結果の並びを示す第１中間処理結果を出力する第１過程と、
前記第１中間処理結果において、連続した数詞の並びを単語に準ずる処理単位に纏めた第２中間処理結果を出力する第２過程と、
前記第２中間処理結果において、前記纏められた単語に準ずる処理単位につき、前記数詞の並びが意味する数値データ、および当該数値データの型を示す識別子、ならびに数値化を行ったことを意味するフラグを付加した第３中間処理結果を出力する第３過程と、
前記第３中間処理結果において、それぞれの形態素につきオントロジ解析によりオントロジ辞書を参照して該当する概念が発見された場合はその概念名または概念番号、および用途に応じてその上位概念を示す概念名または概念番号を付加し、一方、該当する概念が発見されなかった場合はオントロジ解析が不能であることを示すフラグを付加した第４中間処理結果を出力する第４過程と、
前記第４中間処理結果において、前記数値化された単語に準ずる処理単位であって、後ろに上位概念として量の概念が付加された形態素が存在する場合、前記数値化された単語に含まれる数詞の並びと後ろの形態素とを併合して新たな処理単位とし、その数値データ、当該数値データの型、該当する量の概念名または概念番号とを付加して第５中間処理結果を出力し、一方、前記形態素が存在しない場合につき、その数値データ、当該数値データの型、無名数の概念名または概念番号を併せて付加して第５中間処理結果を出力する第５過程と、
前記第５中間処理結果において、前記付加された概念が量的限定の対象になり得ない形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属する場合、その概念を文書の分類識別子として出力し、一方、前記付加された概念が量的限定の対象になり得る形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属し、かつ、前記形態素における前後の参照領域に、限定条件が該当概念または上位概念として付加された形態素が存在し、更に、前記限定条件が該当概念または上位概念として付加された形態素の前後の参照領域に量の概念、もしくは「無名数」の概念が付加された処理単位が存在するとき、前記限定条件の概念とこれが限定する対象である概念と量もしくは「無名数」とを列記した組を分類識別子の一つとして選定し文書に付与する第６過程と、
を含んで実行させることを特徴とする文書分類方法。
文書中の量に関する記述を分類基準とした場合にその分類結果を生成するための文書分類方法であって、
文書、および当該文書の中間処理結果が格納される記憶装置と、前記文書中の量に関する記述を分類基準とした場合にその分類結果を生成する演算装置とを有する文書分類装置を用い、
前記演算装置に、
入力され取り込まれた入力文書について形態素解析を行い、形態素および形態素の品詞およびその活用の組から成る形態素解析結果の並びを示す第１中間処理結果を出力する第１過程と、
前記第１中間処理結果において、各形態素につきオントロジ解析によりオントロジ辞書を参照して該当する概念が発見された場合はその概念名または概念番号、および用途に応じてその上位概念を示す概念名または概念番号を付加し、一方、該当する概念が発見されなかった場合はオントロジ解析が不能であることを示すフラグを付加した第２中間処理結果を出力する第２過程と、
前記第２中間処理結果において、前記フラグが付加された形態素の並びのうち、連続した数詞の並びを単語に準ずる処理単位に纏めた第３中間処理結果を出力する第３過程と、
前記第３中間処理結果において、前記纏められた単語に準ずる処理単位につき、前記数詞の並びが意味する数値データ、および当該数値データの型を示す識別子、ならびに数値化を行ったことを意味するフラグを付加した第４中間処理結果を出力する第４過程と、
前記第４中間処理結果において、前記数値化された単語に準ずる処理単位であって、後ろに上位概念として量の概念が付加された形態素が存在する場合、前記数値化された単語に含まれる数詞の並びと後ろの形態素とを併合して新たな処理単位とし、その数値データ、当該数値データの型、該当する量の概念名または概念番号とを付加して第５中間処理結果を出力し、一方、前記形態素が存在しない場合につき、その数値データ、当該数値データの型、無名数の概念名または概念番号を併せて付加して第５中間処理結果を出力する第５過程と、
前記第５中間処理結果において、前記付加された概念が量的限定の対象になり得ない形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属する場合、その概念を文書の分類識別子として出力し、一方、前記付加された概念が量的限定の対象になり得る形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属し、かつ、前記形態素における前後の参照領域に、限定条件が該当概念または上位概念として付加された形態素が存在し、更に、前記限定条件が該当概念または上位概念として付加された形態素の前後の参照領域に量の概念、もしくは「無名数」の概念が付加された処理単位が存在するとき、前記限定条件の概念とこれが限定する対象である概念と量もしくは「無名数」とを列記した組を分類識別子の一つとして選定し文書に付与する第６過程と、
を含んで実行させることを特徴とする文書分類方法。
前記第６過程において、
前記分類識別子として選定される少なくとも一部は、前記形態素の該当概念またはその上位概念が、あらかじめ定義され記憶されたリストに含まれることを特徴とする請求項２または３に記載の文書分類方法。
前記リストを構成する各要素にあらかじめ重要度に応じて定義された重みを示す数値が併せて設定され、前記文書に前記選択された分類識別子を付与するときに前記数値も付記することを特徴とする請求項４に記載の文書分類方法。
前記第６過程において、
あらかじめ定義された形態素の到達距離内の上位概念が、前記文書の形態素数に対してあらかじめ定義した率以上の数の形態素と共通な上位概念であるときに、その上位概念を前記分類識別子として選定することを特徴とする請求項２または３に記載の文書分類方法。
前記概念を上位概念とする形態素の数、またはその数が前記文書の全ての形態素数に占める割合、あるいは前記概念を上位概念とする形態素の数またはその数が文書の全形態素数に占める割合をもとにあらかじめ定義される変換表を索引することにより、もしくは変換式によって算出される数値を、前記選定される分類識別子に付与することを特徴とする請求項６に記載の文書分類方法。
前記文書に付与する前記分類識別子の数をあらかじめ設定された数、あるいは演算式によって制限し、当該制限を超える分類識別子が前記予め設定された基準を持たす場合に、前記分類識別子に付与された数値の大小により選定すべき分類識別子を決定することを特徴とする請求項５または7に記載の文書分類方法。
前記付与された数値の大小に応じて前記選定された分類識別子の配列順序を決定することを特徴とする請求項５または７に記載の文書分類方法。
文書中の量に関する記述を分類基準とした場合にその分類結果を生成する文書分類装置に用いられるコンピュータプログラムであって、
入力され取り込まれた入力文書について形態素解析を行い、形態素および形態素の品詞およびその活用の組から成る形態素解析結果の並びを示す第１中間処理結果を出力する処理と、
前記第１中間処理結果において、連続した数詞の並びを単語に準ずる処理単位に纏めた第２中間処理結果を出力する処理と、
前記第２中間処理結果において、前記纏められた単語に準ずる処理単位につき、前記数詞の並びが意味する数値データ、および当該数値データの型を示す識別子、ならびに数値化を行ったことを意味するフラグを付加した第３中間処理結果を出力する処理と、
前記第３中間処理結果において、それぞれの形態素につきオントロジ解析によりオントロジ辞書を参照して該当する概念が発見された場合はその概念名または概念番号、および用途に応じてその上位概念を示す概念名または概念番号を付加し、一方、該当する概念が発見されなかった場合はオントロジ解析が不能であることを示すフラグを付加した第４中間処理結果を出力する処理と、
前記第４中間処理結果において、前記数値化された単語に準ずる処理単位であって、後ろに上位概念として量の概念が付加された形態素が存在する場合、前記数値化された単語に含まれる数詞の並びと後ろの形態素とを併合して新たな処理単位とし、その数値データ、当該数値データの型、該当する量の概念名または概念番号とを付加して第５中間処理結果を出力し、一方、前記形態素が存在しない場合につき、その数値データ、当該数値データの型、無名数の概念名または概念番号を併せて付加して第５中間処理結果を出力する処理と、
前記第５中間処理結果において、前記付加された概念が量的限定の対象になり得ない形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属する場合、その概念を文書の分類識別子として出力し、一方、前記付加された概念が量的限定の対象になり得る形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属し、かつ、前記形態素における前後の参照領域に、限定条件が該当概念または上位概念として付加された形態素が存在し、更に、前記限定条件が該当概念または上位概念として付加された形態素の前後の参照領域に量の概念、もしくは「無名数」の概念が付加された処理単位が存在するとき、前記限定条件の概念とこれが限定する対象である概念と量もしくは「無名数」とを列記した組を分類識別子の一つとして選定し文書に付与する処理と、
をコンピュータに実行させる文書分類プログラム。
文書中の量に関する記述を分類基準とした場合にその分類結果を生成する文書分類装置に用いられるコンピュータプログラムであって、
入力され取り込まれた入力文書について形態素解析を行い、形態素および形態素の品詞およびその活用の組から成る形態素解析結果の並びを示す第１中間処理結果を出力する処理と、
前記第１中間処理結果において、各形態素につきオントロジ解析によりオントロジ辞書を参照して該当する概念が発見された場合はその概念名または概念番号、および用途に応じてその上位概念を示す概念名または概念番号を付加し、一方、該当する概念が発見されなかった場合はオントロジ解析が不能であることを示すフラグを付加した第２中間処理結果を出力する処理と、
前記第２中間処理結果において、前記フラグが付加された形態素の並びのうち、連続した数詞の並びを単語に準ずる処理単位に纏めた第３中間処理結果を出力する処理と、
前記第３中間処理結果において、前記纏められた単語に準ずる処理単位につき、前記数詞の並びが意味する数値データ、および当該数値データの型を示す識別子、ならびに数値化を行ったことを意味するフラグを付加した第４中間処理結果を出力する処理と、
前記第４中間処理結果において、前記数値化された単語に準ずる処理単位であって、後ろに上位概念として量の概念が付加された形態素が存在する場合、前記数値化された単語に含まれる数詞の並びと後ろの形態素とを併合して新たな処理単位とし、その数値データ、当該数値データの型、該当する量の概念名または概念番号とを付加して第５中間処理結果を出力し、一方、前記形態素が存在しない場合につき、その数値データ、当該数値データの型、無名数の概念名または概念番号を併せて付加して第５中間処理結果を出力する処理と、
前記第５中間処理結果において、前記付加された概念が量的限定の対象になり得ない形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属する場合、その概念を文書の分類識別子として出力し、一方、前記付加された概念が量的限定の対象になり得る形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属し、かつ、前記形態素における前後の参照領域に、限定条件が該当概念または上位概念として付加された形態素が存在し、更に、前記限定条件が該当概念または上位概念として付加された形態素の前後の参照領域に量の概念、もしくは「無名数」の概念が付加された処理単位が存在するとき、前記限定条件の概念とこれが限定する対象である概念と量もしくは「無名数」とを列記した組を分類識別子の一つとして選定し文書に付与する処理と、
をコンピュータに実行させる文書分類プログラム。