JP4235973B2 - 文書分類装置および文書分類方法ならびに文書分類プログラム - Google Patents

文書分類装置および文書分類方法ならびに文書分類プログラム Download PDF

Info

Publication number
JP4235973B2
JP4235973B2 JP2003397798A JP2003397798A JP4235973B2 JP 4235973 B2 JP4235973 B2 JP 4235973B2 JP 2003397798 A JP2003397798 A JP 2003397798A JP 2003397798 A JP2003397798 A JP 2003397798A JP 4235973 B2 JP4235973 B2 JP 4235973B2
Authority
JP
Japan
Prior art keywords
concept
morpheme
document
classification
added
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003397798A
Other languages
English (en)
Other versions
JP2005157887A (ja
Inventor
滋樹 日野
浩二 伊藤
主税 黒沢
幸久 西澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003397798A priority Critical patent/JP4235973B2/ja
Publication of JP2005157887A publication Critical patent/JP2005157887A/ja
Application granted granted Critical
Publication of JP4235973B2 publication Critical patent/JP4235973B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書中の量に関する記述が重要な分類基準となる場合に有効な分類結果を生成する用途に用いて好適な、文書分類装置および文書分類方法ならびに文書分類プログラムに関する。
日本語で記述されたあらゆる分野の文書を分類し、整理して格納し、あるいは見出し情報を付与することのできる文書分類装置が知られている。
文書分類装置はコンピュータを用いて日本語処理を行うために、対象となる文書を形態素単位に区切り、それぞれの形態素が持つ性質を明らかにする「形態素解析」を行い、続いて「構文解析」、「意味解析」を行うことにより日本語処理を行い、文書の分類操作を行う。
すなわち、文書を形態素解析により品詞情報を持つ形態素単位に分割し、構文解析により文法と照合して単語間の係り受けを決定し(ツリー構造)、意味解析により、意味的に不適当な係り受けをチェックして誤ったツリーを削除する。
このとき、「形態素解析」と「構文解析」の間に「トークンフィルタ処理」と称される形態素データの構文解析のための前処理が行われる。ここでは、構文解析に適した単語情報と、これら単語の取り扱い情報となるdictデータ(辞書データ)を得るための処理が行われる(例えば、特許文献1参照)。ここで得られるdictデータは、「品詞名」、「表記」とその他の構文・意味情報である。例えば、複合名詞は1つの名詞として扱い、複合名詞であることを示すデータ(dict)を出力する。
特開平8−221418号公報(0006、図1)
特許文献1に開示された従来技術によれば、「トークンフィルタ処理」において、数詞の取り扱いにつき、単位を助数詞として扱うといった文法に基づく画一的な前処理が行われ、単に単語として含まれない数値は記号類と同様に処理されてしまう。
このため、例えば、行政広報から、「課税所得100万円の人が適用されうる福祉施策に関する情報を抽出する」といったように、量の概念が重要な意味を持つ場合に場合に最適な文書の分類を行うことは困難であった。具体的に、「課税所得」を分類識別子とすることは可能であるが、続く「100」が分類不可能な記号として解釈されるため、量の概念を的確に反映させた分類は不可能であった。
一方、既存サービスの一形態である不動産検索サイトでは、「価格帯」、「広さ」などによる分類が実行されているが、文書の持つべき情報が画一的であるため、書式を統一し、「何行何列の値を比較」といった書式上の位置を利用しており、量の概念とは異なり、また、統一書式に収まらない情報は扱えなかった。従って、例えば、自治体広報サイトに掲載される文書群のように、分野が雑多で書式も不統一な文書の場合、人海戦術で分類を付しており、手数の制限から検索を容易化するのが困難になっていた。
本発明の課題は、文書中の数詞を意味のある量の概念として扱うことにより、量の概念が重要な意味を持つ文書を適切に分類可能な、文書分類装置および文書分類方法ならびに文書分類プログラムを提供することにある。
また、文書の書式が固定的でない任意書式の文書についても、量の概念が重要な意味を持つ文書を適切に分類可能な、文書分類装置および文書分類方法ならびに文書分類プログラムを提供することも課題とする。
(文書分類装置)
前記した課題を解決するために本発明(請求項1)は、文書、および当該文書の中間処理結果が格納される記憶装置と、前記文書中の量に関する記述を分類基準とした場合にその分類結果を生成する演算装置とを有する文書分類装置であって、入力文書を取り込み記憶装置に格納する文書入力インタフェース部と、前記入力文書の形態素解析を行う形態素解析部と、前記形態素解析の結果、連続した数詞の並びを単語に準ずる処理単位に纏める数詞再結合部と、前記数詞の並びを数値化する文字列数値化部と、オントロジ辞書を参照したオントロジ解析により、前記形態素それぞれについて、その形態素に該当する概念を判断するオントロジ解析部と、前記数値化された単語の後に、量の概念に該当する形態素があったとき、その数値化された単語に含まれる数詞の並びとその形態素とを併合して新たな処理単位とし、その形態素に、その数詞の並びが示す数値データと、当該数値データの型と、該当する量の概念名または概念番号とを付加し、一方、前記量の概念に該当する形態素が存在しない場合、その形態素に、その数詞の並びが示す数値データと、当該数値データの型と、無名数の概念名または概念番号とを付加する量概念生成部と、前記新たな処理単位に含まれる形態素に付加された概念が、予め設定された範囲の概念であり、かつ、その形態素における前後の参照領域に、限定条件の概念に該当する形態素が存在し、その限定条件の概念に該当する形態素の前後の参照領域に、量の概念に該当する形態素を含む処理単位が存在するとき、もしくは、無名数の概念に該当する形態素を含む処理単位が存在するとき、前記限定条件の概念と、これが限定する対象である概念と、量もしくは無名数とを列記した組を文書の分類識別子の1つとして選定し文書に付与する分類識別子選定部と、記憶装置に格納された文書分類識別子付きの文書を出力する文書出力インタフェース部と、を備えることを特徴とする。
本発明によれば、演算装置に構築される文書分類処理部が量の概念を生成(あるいは再生)して認識される限定条件を分類識別子として文書を分類するため、例えば、文書中の「この福祉サービスは所得制限100万円未満です」という単文を含む文書が入力された場合、「所得制限、100万円、未満」という分類識別子が付与され出力される。このため、量の概念を的確に反映した文書の分類が可能となる。また、文書の書式に拘らないため、書式が固定的になりえない分野においても量の概念を的確に反映させた分類を可能とする文書分類装置を提供することができる。
(文書分類方法)
前記した課題を解決するために本発明(請求項)は、文書中の量に関する記述を分類基準とした場合にその分類結果を生成するための文書分類方法であって、文書、および当該文書の中間処理結果が格納される記憶装置と、前記文書中の量に関する記述を分類基準とした場合にその分類結果を生成する演算装置とを有する文書分類装置を用い、前記演算装置に、入力され取り込まれた入力文書について形態素解析を行い、形態素および形態素の品詞およびその活用の組から成る形態素解析結果の並びを示す第1中間処理結果を出力する第1過程と、前記第1中間処理結果において、連続した数詞の並びを単語に準ずる処理単位に纏めた第2中間処理結果を出力する第2過程と、前記第2中間処理結果において、前記纏められた単語に準ずる処理単位につき、前記数詞の並びが意味する数値データ、および当該数値データの型を示す識別子、ならびに数値化を行ったことを意味するフラグを付加した第3中間処理結果を出力する第3過程と、前記第3中間処理結果において、それぞれの形態素につきオントロジ解析によりオントロジ辞書を参照して該当する概念が発見された場合はその概念名または概念番号、および用途に応じてその上位概念を示す概念名または概念番号を付加し、一方、該当する概念が発見されなかった場合はオントロジ解析が不能であることを示すフラグを付加した第4中間処理結果を出力する第4過程と、前記第4中間処理結果において、前記数値化された単語に準ずる処理単位であって、後ろに上位概念として量の概念が付加された形態素が存在する場合、前記数値化された単語に含まれる数詞の並びと後ろの形態素とを併合して新たな処理単位とし、その数値データ、当該数値データの型、該当する量の概念名または概念番号とを付加して第5中間処理結果を出力し、一方、前記形態素が存在しない場合につき、その数値データ、当該数値データの型、無名数の概念名または概念番号を併せて付加して第5中間処理結果を出力する第5過程と、前記第5中間処理結果において、前記付加された概念が量的限定の対象になり得ない形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属する場合、その概念を文書の分類識別子として出力し、一方、前記付加された概念が量的限定の対象になり得る形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属し、かつ、前記形態素における前後の参照領域に、限定条件が該当概念または上位概念として付加された形態素が存在し、更に、前記限定条件が該当概念または上位概念として付加された形態素の前後の参照領域に量の概念、もしくは「無名数」の概念が付加された処理単位が存在するとき、前記限定条件の概念とこれが限定する対象である概念と量もしくは「無名数」とを列記した組を分類識別子の一つとして選定し文書に付与する第6過程と、を含むことを特徴とする。
前記した課題を解決するために本発明(請求項)は、文書中の量に関する記述を分類基準とした場合にその分類結果を生成するための文書分類方法であって、入力され取り込まれた入力文書について形態素解析を行い、形態素および形態素の品詞およびその活用の組から成る形態素解析結果の並びを示す第1中間処理結果を出力する第1過程と、前記第1中間処理結果において、各形態素につきオントロジ解析によりオントロジ辞書を参照して該当する概念が発見された場合はその概念名または概念番号、および用途に応じてその上位概念を示す概念名または概念番号を付加し、一方、該当する概念が発見されなかった場合はオントロジ解析が不能であることを示すフラグを付加した第2中間処理結果を出力する第2過程と、前記第2中間処理結果において、前記フラグが付加された形態素の並びのうち、連続した数詞の並びを単語に準ずる処理単位に纏めた第3中間処理結果を出力する第3過程と、前記第3中間処理結果において、前記纏められた単語に準ずる処理単位につき、前記数詞の並びが意味する数値データ、および当該数値データの型を示す識別子、ならびに数値化を行ったことを意味するフラグを付加した第4中間処理結果を出力する第4過程と、前記第4中間処理結果において、前記数値化された単語に準ずる処理単位であって、後ろに上位概念として量の概念が付加された形態素が存在する場合、前記数値化された単語に含まれる数詞の並びと後ろの形態素とを併合して新たな処理単位とし、その数値データ、当該数値データの型、該当する量の概念名または概念番号とを付加して第5中間処理結果を出力し、一方、前記形態素が存在しない場合につき、その数値データ、当該数値データの型、無名数の概念名または概念番号を併せて付加して第5中間処理結果を出力する第5過程と、前記第5中間処理結果において、前記付加された概念が量的限定の対象になり得ない形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属する場合、その概念を文書の分類識別子として出力し、一方、前記付加された概念が量的限定の対象になり得る形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属し、かつ、前記形態素における前後の参照領域に、限定条件が該当概念または上位概念として付加された形態素が存在し、更に、前記限定条件が該当概念または上位概念として付加された形態素の前後の参照領域に量の概念、もしくは「無名数」の概念が付加された処理単位が存在するとき、前記限定条件の概念とこれが限定する対象である概念と量もしくは「無名数」とを列記した組を分類識別子の一つとして選定し文書に付与する第6過程と、を含むことを特徴とする。
また、本発明の前記第6過程において(請求項)、前記分類識別子として選定される少なくとも一部は、前記形態素の該当概念またはその上位概念が、あらかじめ定義され記憶されたリストに含まれることを特徴とする。
また、本発明において(請求項)、前記リストを構成する各要素にあらかじめ重要度に応じて定義された重みを示す数値が併せて設定され、前記文書に前記選択された分類識別子を付与するときに前記数値も付記することを特徴とする。
また、本発明の前記第6過程において(請求項)、あらかじめ定義された形態素の到達距離内の上位概念が、前記文書の形態素数に対してあらかじめ定義した率以上の数の形態素と共通な上位概念であるときに、その上位概念を前記分類識別子として選定することを特徴とする。
また、本発明において(請求項)、前記概念を上位概念とする形態素の数、またはその数が前記文書の全ての形態素数に占める割合、あるいは前記概念を上位概念とする形態素の数またはその数が文書の全形態素数に占める割合をもとにあらかじめ定義される変換表を索引することにより、もしくは変換式によって算出される数値を前記選定される分類識別子に付与することを特徴とする。
また、本発明において(請求項)、前記文書に付与する前記分類識別子の数をあらかじめ設定された数、あるいは演算式によって制限し、当該制限を超える分類識別子が前記予め設定された基準を持たす場合に、前記分類識別子に付与された数値の大小により選定すべき分類識別子を決定することを特徴とする。
また、本発明において(請求項)、前記付与された数値の大小に応じて前記選定された分類識別子の配列順序を決定することを特徴とする。
(プログラム)
前記した課題を解決するために本発明(請求項10、11)は、文書中の量に関する記述を分類基準とした場合にその分類結果を生成する文書分類装置に用いられるコンピュータプログラムとした。
本発明によれば、量の概念を認識し、その値を用いて定義される限定条件を分類識別子として文書を分類することが可能になる。例えば、「この福祉サービスは所得制限100万円未満です」といった文書の場合、本発明によれば、「所得制限、100万円、未満」といった文書識別子を付与することができる。従って、量の概念を的確に反映させた分類が可能になる。
また、例えば、自治体広報サイトに掲載される文書群のように、分野が雑多で書式も不統一な場合、手数の限界から検索を容易にするのが困難になっていた文書群の分類作業の機械化が可能となり、現実的な手数で検索容易な分類識別子の付与が可能になる。
以下本発明を実施するための最良の形態(以下「実施形態」という)を、第1実施形態と第2に実施形態とに分けて説明する。
≪第1実施形態≫
図1は、本発明の第1実施形態を示すブロック図である。本実施形態の文書分類装置A1は、主に、文書入力インタフェース部1と、文書分類処理部2と、文書出力インタフェース部3で構成される。
文書入力インタフェース部1は、操作者あるいは他装置によって入力される入力文書を取り込み、文書分類処理部2へ供給する。文書分類処理部2は、文書入力インタフェース部1により取り込まれた入力文書を形態素解析により数詞を含む品詞情報を持つ形態素に分割し、オントロジ解析によって数詞を再結合(結合)して量の概念を生成(あるいは再生)し、入力インタフェース部1により取り込まれた文書中の量に関する記述が分類基準となる場合、生成された量の概念に従い認識される限定条件を分類識別子として文書を分類して文書出力インタフェース部3へ供給する。文書出力インタフェース部3は、文書分類処理部2で分類された文書分類識別子付きの文書を、操作者あるいは外部装置へ出力、もしくはファイル装置に蓄積する。
文書分類処理部2は、コンピュータの演算装置(CPU(Central Processing Unit)、RAM(Random Accesses Memory))上に構築される形態素解析部21、数詞再結合部22、文字列数値化部23、オントロジ解析部24、量概念生成部25、分類識別子選定部26、そして記憶装置上に構築されるオントロジ辞書27、分類対象文書ファイル28、分類識別子付き文書ファイル29、そして各中間処理結果(第1〜第5)が格納される作業ファイルで構成される。
形態素解析部21は、文書入力インタフェース部1により取り込まれ、分類対象文書ファイル28に書き込まれた入力文書(ここでは、「この福祉サービスは、所得制限100万円未満です。」)を、形態素および形態素の品詞およびその活用の組から成る形態素解析結果の並びを示す第1中間処理結果に変換して数詞再結合部22へ供給する。第1中間処理結果は図3(a)にその一例が示されている。
数詞再結合部22は、第1中間処理結果において、連続した数詞の並び(ここでは、「100万」)を単語に準ずる処理単位に纏めた第2中間処理結果に変換して文字列数値化部23へ出力する。第2中間処理結果は図3(b)にその一例が示されている。文字列数値化部23は、数詞再結合部22により出力される第2中間処理結果において、纏められた単語に準ずる処理単位につき、数詞の並びが意味する数値データ(ここでは「1000000」)、および当該数値データの型を示す識別子(「整数型」)、ならびに数値化を行ったことを意味するフラグ(「数値化」)を付加した第3中間処理結果を出力しオントロジ解析部24へ供給する。第3中間処理結果は図3(c)にその一例が示されている。
オントロジ解析部24は、第3中間処理結果において、フラグが付加されなかった形態素につき、オントロジ解析によりオントロジ辞書27を参照して該当する概念が発見された場合は『その概念名または概念番号、および用途に応じてその上位概念を示す(数個の)概念名または概念番号を付加して』出力する(ここでは、「福祉:福祉、行政措置、公務」、「未満:<、大小関係、関係」等)。
ここで、概念名の付加の具体例としては、「福祉:福祉、行政措置、公務」等の付加がある。
また、概念番号の付加の具体例を説明すると、オントロジ辞書の作成に際しては、自然言語による概念名だけで該辞書の構築が基本的に可能である。しかし、試作されている一部の辞書において計算機上で高速に検索しやすくするため、あるいは外国語でなら1語で表現できるが日本語では1形態素で表現できない概念(バリアフリー等)を組み込みやすくするため、自然言語を無味乾燥な数字に置き換えて表現することが行われている。この番号体系はそれぞれの辞書独自のもので標準は存在しない。また、現在発明者らが入手済みの辞書は部分サンプルのため「福祉」の概念番号の具体例は乏しい。このため、例えばSJISコードを字数だけ並べたもの(福祉なら十六進数で959F+8E83)を概念番号と称しても良いことになる。また、図14等の抽象モデルで概念に付けているような、概念を一意に指し示すよう適宜割り当てた番号でもかまわない。
一方、該当する概念が発見されなかった場合はオントロジ解析が不能であることを示すフラグ(ここでは「この:指示先検出不能」)を付加した第4中間処理結果を出力し量概念生成部25へ供給する。第4中間処理結果は図3(d)にその一例が示されている。
量概念生成部25は、第4中間処理結果において、文字列数値化部23により数値化された単語に準ずる処理単位であって後ろに上位概念として量の概念が付加された形態素が存在する場合(ここでは、「円:貨幣単位」)、当該数値化された単語に含まれる数詞の並びと後ろの形態素とを併合して新たな処理単位とし(ここでは、「100万円」)、その数値データと当該数値データの型と該当する量の概念名または概念番号とを付加して第5中間処理結果を出力する(ここでは、「100万円:金額、1000000、整数型」)。
一方、形態素が存在しない場合につき、その数値データ、当該数値データの型、無名数の概念名または概念番号を併せて付加して第5中間処理結果を出力して分類識別子選定部26へ供給する。第5中間処理結果は図3(e)にその一例が示されている。
なお、本実施形態では、「後ろ」は「直後」であるが、本発明は直後に限定されるものではなく、付加される量の概念の前に他の文字・記号等が入っていてもよい。
分類識別子選定部26は、第5中間処理結果において、付加された概念が量的限定の対象になり得ない形態素(ここでは、「福祉、サービス」等)につき、当該形態素に付加された概念が本装置の所有者または設置者あるいは使用者が設定した基準によって分類識別子とされる概念の範囲に属する場合、その概念を文書の分類識別子として出力する。
一方、付加された概念が量的限定の対象になり得る形態素(ここでは、「所得」)につき、当該形態素に付加された概念が設定された基準によって分類識別子とされる概念の範囲に属し、かつ、先の形態素における前後の参照領域に、「大小関係」、「一致」、あるいは「範囲」を該当概念または上位概念として付加された形態素が存在し(ここでは、「未満:<、大小関係、関係」)、更に、「大小関係」、「一致」、あるいは「範囲」を該当概念または上位概念として付加された形態素の前後の参照領域に量の概念(ここでは「100万円」)、もしくは「無名数」の概念が付加された処理単位が存在するときは、「大小関係」、「一致」、あるいは「範囲」の概念とこれが限定する対象である概念と量もしくは「無名数」とを列記した組(ここでは、「福祉、所得、円、<1000000」)を分類識別子の一つとして選定して分類識別子付き文書ファイル29へ出力する。分類識別子付きの文書の一例は図3(f)に示されている。
≪第1実施形態の動作説明≫
以下、図4〜図13に示すフローチャートを参照しながら図1、図3に示す第1実施形態の動作について、文書分類処理装置2の動作を主として詳細に説明する。なお、図4〜図13は、本発明実施形態の動作を説明するために引用したフローチャートである。具体的には本発明のコンピュータプログラムの処理手順を示し、それぞれ、数詞再結合部22による数詞再結合処理(図4)、文字列数値化部23による文字列数値化処理(図5)、オントロジ解析部24によるオントロジ解析処理(図6、図7)、量概念生成部25による量概念生成処理(図8、図9)、分類識別子選定部26による分類識別子選定処理(図10〜図13)の手順が示されている。
(文書の取込み〜数詞再結合処理)
第1実施形態の文書分類装置A1は、まず、操作者あるいは他の装置から入力される文書(例えば「この福祉サービスは所得制限100万円未満です。」)を文書入力インタフェース部1によって取込み、分類対象文書ファイル28に格納する。
形態素解析部21は、分類対象文書ファイル28からその文書を取り出して形態素解析を行い、その解析結果を、図3(a)に一例として示す第1中間処理結果として作業ファイルに書き込む。すなわち、ここでは、形態素および形態素の品詞および活用の組から成る形態素解析結果の並び(「この:連体詞/福祉:名詞−一般/サ:未知語/−:記号−一般/ビス:名詞−一般/は:助詞−係助詞/所得:名詞−一般、/制限:名詞−サ変接続/1:名詞−数/0:名詞−数/0:名詞−数/万:名詞−数/円:名詞−接尾−一般、数/未満/です/。:記号−句読点」を数詞再結合部22へ供給する。
数詞再結合部22では、前記した第1中間処理結果の連続した数詞の並びを単語に準ずる処理単位に纏めて第2中間処理結果を出力するものであり、ここでは、まず、第2中間処理結果が格納される作業ファイルを空白文字列とし、文字列Aを空白文字列として初期設定する(S401、S402)。
次に、形態素解析後の第1中間処理結果が格納された作業ファイルから形態素を1形態素単位で読み込む(S403)。そして、末尾記号(EOS)でないことを確認して(S404)、各形態素につき名詞あるいは数詞に相当するものを抽出する(S405)。なお、S404の処理において、末尾記号であることが確認された場合には、第2中間処理結果にその末尾記号を追加設定して処理を終了する(S411)。
S405の処理で、読み込んだ形態素が数詞の場合は、文字列Aに読み込んだ形態素を追加設定し(S406)、数詞以外の場合は、第2中間処理結果として、境界記号(,)および読み込んだ形態素を追加設定する(S410)。また、S406の処理の後、続く1形態素を読み込み(S407)、更にその形態素が数詞であるか否かを調べる(S408)。ここで、数詞であることが確認された場合(S408Yes)、S406以降の処理を繰り返して更なる連続した数詞の並びを検出し、一方、連続した数詞の並びが途切れ、次に並ぶ形態素が数詞でない場合に(S408、No)、第2中間処理結果として、先の第2中間処理結果に、境界記号、文字列A、項目区切り記号、品詞項目(大分類:名詞,小分類:数詞)および読み込んだ形態素を追加設定してS403以降の処理を繰り返す。
以上の処理は、末尾記号が出現するまで繰り返され(S404、Yes)、第2中間処理結果に末尾記号が追加設定され終了する(S411→終了)。
(文字列数値化処理)
次に、文字列数値化部23は、前記した第2中間処理結果において、纏められた単語に準ずる処理単位につき、数詞の並びが意味する数値データ、および当該数値データの型を示す識別子、ならびに数値化を行ったことを意味するフラグを付加した第3中間処理結果を出力する。
具体的に図5に示すフローチャートにおいて、文字列数値化部23は、まず、第3中間処理結果が格納される作業ファイルを空白文字列として初期設定を行い(S501)、数詞再結合処理後の第2中間処理結果が格納された作業ファイルから形態素を1形態素単位で読み込む(S502、1形態素読み込み)。そして、末尾記号(EOS)でないことを確認して(S503)、読み込まれた形態素が数詞であるか否かを判断する(S504)。なお、S503の判断処理において、末尾記号であることが確認された場合には、第3中間処理結果にその末尾記号を追加設定して処理を終了する(S507)。
先のS504の判断処理において、数詞であることが確認された場合(S504、Yes)、空白文字列が設定された第3中間処理結果(最初はS501により空白文字列が設定されている)に、境界文字、読み込んだ形態素、項目区切り記号、そして読み込んだ形態素のコンピュータ内数値表現(数詞の並びが意味する数値データおよびその型)を追記してS502以降の処理を繰り返す(S505)。また、このとき、コンピュータの内部処理的に数値化を行ったことを示すフラグをON設定する(図示外)。
一方、数詞でないことが確認された場合は(S504、No)、先の第3中間処理結果に、境界記号および読み込んだ形態素を追記してS502以降の処理を繰り返す(S506)。
なお、図5中、+は文字列の結合として定義され、中間処理結果の例として、境界記号は改行、項目区切り記号は、カンマ(,)である。
(オントロジ解析処理)
次に、オントロジ解析部24は、前記した第3中間処理結果において、フラグが付加されなかった形態素につき、オントロジ解析によりオントロジ辞書を参照して該当する概念が発見された場合は『その概念名または概念番号、および用途に応じてその上位概念を示す(数個の)概念名または概念番号を付加』する(概念名・概念番号の付加については既に説明したとおりである)。一方、該当する概念が発見されなかった場合はオントロジ解析が不能であることを示すフラグを付加する。そして、第4中間処理結果として出力する。
具体的にオントロジ解析部24は、図6、図7に示すフローチャートにおいて、まず、第4中間処理結果が格納される作業ファイルを空白文字列とし、文字列Aを空白文字列として初期設定する(S601、S602)。
次に、文字列数値化処理後の第3中間処理結果が格納された作業ファイルから形態素を1形態素単位で読み込む(S603)。そして、末尾記号(EOS)でないことを確認して(S604)、各形態素につき数詞に相当するものを抽出する判断を行う(S605)。なお、S604の判断処理において、末尾記号であることが確認された場合には、第3中間処理結果にその末尾記号を追加設定して処理を終了する(S611→終了)。
S605の判断処理において数詞であることが確認された場合、(S605、Yes)は、先の第4中間処理結果に境界記号と読み込んだ形態素を追記して(S609)、S603以降の処理を繰り返す。一方、数詞でないことが確認された場合は(S605、No)、その形態素を検索キーとしてオントロジ辞書27を検索し、統制語を探す(S606)。ここで、統制語とは、同義語を代表する単語のことをいう。
そして、統制語を発見できた場合(S607、Yes)は、先の第4中間処理結果に、境界記号、読み込んだ形態素、項目区切り記号、それと発見できた統制語を追記し(S608)、一方、統制語が発見できなかった場合は(S607、No)、先の第4中間処理結果に、境界記号、読み込んだ形態素、項目区切り記号、概念体系外記号(オントロジ解析不能フラグ)を追記して(S610)、S603以降の処理を繰り返す。
オントロジ解析部24は、統制語が発見されて作業ファイルを更新した後、この統制語を検索キーとし、かつ、ペンディング数(α)を0に初期設定して(図7、S701)オントロジ辞書27を検索して、文字列Aに含まれない上位概念を探す(S702)。
ここで上位概念が発見できなかった場合(S703、No)は、ペンディング数を判断する処理(S708)へ分岐する。一方、上位概念が発見され(S703、Yes)、それが複数である場合(S704、Yes)は、先のペンディング数に「発見数−1」を加えた値を新たなペンディング数にする(S707)。そして、先の文字列Aに、項目区切り記号、および見つかった上位概念の一つを追記する(S705)。そして、S707で設定した検索キーで到達距離を調べる(S706)。
ここで、到達距離を説明する。「距離」とは統制語から検索キーに代入されている概念までの意味の遠近を表す量であり、一般的によく用いられるのは「グラフ理論上の距離」、即ち統制語から順に上位概念に遡って検索キーの概念に達するまでの段階数である。例えば図14のモデルにおいて概念111から概念1間での距離を2と数える。これを「制限する」意味(到達距離を調べる意味)は、一般にオントロジ辞書が保持する概念体系が数十万もの概念からなり、「無制限に検索する」ことは常にルート(最上位は「ものごと」とか「森羅万象」といった概念に行き着く)まで遡ることになり、検索結果の情報量が巨大かつ無意味な内容が多いものになってしまうため、実用的な結果が得られるようにあらかじめ設定した距離をもって上位に遡るのを打ち切るということである。よって「到達」とは距離がその設定値に達することを指す。
ここで、距離制限に未到達の場合は(S706、No)、S702以降の処理を繰り返し、距離制限到達の場合(S706、Yes)は、更にペンディング数をチェックし(S708)、ペンディング数(α)が0でない場合(α>0となっていた場合)(S708、No)に、現在ペンディングとなっている任意の上位概念(ペンティング上位概念)を検索キーとし、また、先のペンディング数を−1更新してS702以降の処理を繰り返す(S709)。
一方、ペンディング数(α)が0の場合(S708、Yes)は、次の場合、すなわち、オントロジ辞書27を検索して文字列Aに含まれない上位概念が見つからなかった場合(S703、No)からS708の判断に入った場合も含めて、先の第4中間処理結果に、文字列Aと境界記号を追記してオントロジ解析を終了する。
(量概念生成処理)
次に、量概念生成部25は、前記した第4中間処理結果において、文字列数値化部23により数値化された単語に準ずる処理単位であって、後ろに上位概念として量の概念が付加された形態素が存在する場合、当該数値化された単語に含まれる数詞の並びと後ろの形態素とを併合して新たな処理単位とし、その数値データと当該数値データの型と該当する量の概念名または概念番号とを付加して第5中間処理結果を出力し、一方、前記した形態素が存在しない場合につき、その数値データ、当該数値データの型、無名数の概念名または概念番号を併せて付加して第5中間処理結果を出力する。
具体的に、図8、図9に示すフローチャートにおいて、量概念生成部25は、まず、第5中間処理結果が格納される作業ファイルを空白文字列とし、文字列Aを空白文字列として初期設定する(S801、S802)。
次に、オントロジ解析後の第4中間処理結果が格納された作業ファイルから形態素を1形態素単位で読み込む(S803)。そして、末尾記号(EOS)でないことを確認して(S804)、各形態素につき数詞に相当するものを抽出する(S805)。なお、S804の判断処理において、末尾記号であることが確認された場合には、第5中間処理結果にその末尾記号を追加設定し(第5中間処理結果=第5中間処理結果+末尾記号)、処理を終了する(S810)。
S805の判断処理において、読み出した形態素が数詞に相当しないことが確認された場合(S805、No)は、S809で先の第5中間処理結果に境界記号と読み込んだ形態素とを追記し(第5中間処理結果=第5中間処理結果+読み込んだ形態素)、S803以降の処理を繰り返す。一方、数詞であることが確認された場合(S805、Yes)は、文字列Aに読み込んだ形態素を設定し(文字列A=読み込んだ形態素)、続く1形態素を読み込む(S806)。
次に、読み込んだ形態素が助数詞を示すか否かがチェックされ(S807)、ここで助数詞でないことが確認された場合(S807、No)は、先の第5中間処理に、境界記号、文字列A、項目区切り記号、無名数概念、境界記号、読み込んだ形態素を追記し(第5中間処理結果=第5中間処理結果+境界記号+文字列A+項目区切り記号+無名数概念+境界記号+読み込んだ形態素)、S803以降の処理を繰り返す(S808)。
一方、助数詞であることが確認された場合(S807、Yes)は、更に、その形態素が倍率概念を含むか否かをチェックし(S901)、ここで、例えば、形態素:キロメートルに、概念:千倍距離が付与されていた場合のように、助数詞が倍率概念を含む場合(S901、Yes)は、文字列Aの値に、文字列Aの値×その倍率を設定し(文字列Aの値=文字列Aの値×倍率)、そして、読み込んだ形態素の倍率概念を除去する(S903)。ここで例えば前記「キロメートル,千倍距離」の例では、「メートル,距離」と置き換える。また、例えば、「メートル」や「距離」のように助数詞が倍率概念を含まない場合(S901、No)、および前記したS903の処理の後、先の第5中間処理結果に、境界記号、文字列A、読み込んだ形態素、そして文字列Aの値を追記し(第5中間処理結果=第5中間処理結果+境界記号+文字列A+読み込んだ形態素+文字列Aの値)、端子Dに移行する(S902)。
(分類識別子選定処理)
最後に、分類識別子選定部26は、前記した第5中間処理結果において、付加された概念が量的限定の対象になり得ない形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属する場合、その概念を文書の分類識別子として出力し、一方、付加された概念が量的限定の対象になり得る形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属し、かつ、形態素における前後の参照領域に、「大小関係」、「一致」、あるいは「範囲」を該当概念または上位概念として付加された形態素が存在し、更に、「大小関係」、「一致」、あるいは「範囲」を該当概念または上位概念として付加された形態素の前後の参照領域に量の概念、もしくは「無名数」の概念が付加された処理単位が存在するとき、先の「大小関係」、「一致」、あるいは「範囲」の概念とこれが限定する対象である概念と量もしくは「無名数」とを列記した組を分類識別子の一つとして選定する。
具体的に、図10〜図13に示すフローチャートにおいて、分類識別子選定部26は、まず、分類識別子を空白文字列とし、文字列Aを空白文字列として初期設定する(S101、S102)。
次に、量概念生成処理後の第5中間処理結果が格納された作業ファイルから形態素を1形態素単位で読み込む(S103)。そして、末尾記号(EOS)でないことを確認して(104)、各形態素につき数詞に相当するものを抽出する(S105)。なお、S104の判断処理において、末尾記号であることが確認された場合には、第5中間処理結果(つまり分類識別子)にその末尾記号を追加設定し(分類識別子=分類識別子+末尾記号)、処理を終了する(S109)。
S105の判断処理において、読み出した形態素が数詞に相当することが確認された場合(S105、Yes)、更に、量概念であるか否かをチェックし(S106)、ここで、無名数ではなく量概念であれば(S106、No)、後述する周囲指定範囲検索が行われ(S107)、無名数であれば(S106、Yes)、S103以降の処理が繰り返される。
なお、数詞でない場合(S105、No)は、端子Fにより移行して(図11参照)、引数Nに1を設定し(S111)、更に、文字列Bとして形態素に付与されたN個目の概念を設定する(文字列B=形態素に付与されたN個目の概念、S112)。そして、この文字列Bを、あらかじめ、本装置の所有者、設置者、あるいは使用者によって定義された選択対象概念リストと照合する(S113)。
ここで、リスト照合の結果、リストにあると判断された場合(S114、Yes)は、分類識別子として項目区切り記号と文字列Bを設定する(分類識別子=分類識別子+項目区切り記号+文字列B、S115)。
リスト照合の結果リストにないと判断された場合、ならびに前記したS115の処理の後、引き数Nを+1更新し(S116)、引き数Nが形態素に付与された概念数を超えるか否かをチェックする(N>形態素に付与された概念数、S117)。チェックの結果、“N≦形態素に付与された概念数”の場合(S117、No)は、S112以降の処理を繰り返し、“N>形態素に付与された概念数”となった場合(S117、Yes)は、端子Eにより、図10に示すS103の処理へ移行する。
一方、図10に示すS108において、S107の周囲指定検索処理の検索結果に、例えば、「以上」や「超え」等の限定概念がない場合(S108、No)は、端子Gにより図12に示す処理に移行し、限定概念がある場合(S108、Yes)は、端子Hにより図13に示す処理に移行する。
図12に示すフローチャートにおいて(端子G)、分類識別子選定部26は、まず、引き数Nに1を設定する(S121)。次に、パラメータとして文字列Bに、形態素に付与されたN個目の概念を設定し(S122)、この文字列Bを、あらかじめ、本装置の所有者、設置者、あるいは使用者によって定義された選択対象(非限定量)概念リストと照合する(S123)。
ここで、リスト照合の結果(S124)、リストにあると判断された場合(S124、Yes)は、分類識別子として、先の分類識別子に、項目区切り記号と文字列Bを追記する(分類識別子=分類識別子+項目区切り記号+文字列B、S125)。また、このリスト照合の結果、リストにないと判断された場合、ならびに前記したS125の処理の後、引き数Nを+1更新し(S126)、引き数Nが形態素に付与された概念数を超えるか否かをチェックする(S127)。チェックの結果、“N≦形態素に付与された概念数”の場合は(S127、No)、S122以降の処理を繰り返し、“N>形態素に付与された概念数”となった場合は(S127、Yes)、端子Eにより図10に示すS103の処理へ移行する。
すなわち、ここでは、量概念生成処理結果である第5中間処理結果において、付加された概念が量的限定の対象になり得ない形態素につき、当該形態素に付加された概念が、予め本装置の所有者、設置者、あるいは使用者によって定義された選定対象概念リスト(基準)によって分類識別子とされる概念の範囲に属する場合、その概念が設定された文字列Bを文書の分類識別子の一つとして分類識別子付き文書29に出力している。
一方、図13に示すフローチャートにおいて、分類識別子選定部26は、まず、見つかった限定概念が限定する限定対象語を検索する(S131)。そして、引き数Nに1を設定する(S132)。次に、文字列Bに、形態素に付与されたN個目の概念を設定し(S133)、この文字列B、ならびに先に限定対象語に付与された概念を、あらかじめ、本装置の所有者、設置者、あるいは使用者によって定義された選択対象(限定量)概念リストと照合する(S134)。
ここで、リスト照合の結果(S135)、リストにあると判断された場合(S135、Yes)は、分類識別子として、先の分類識別子に、項目区切り記号と文字列Bと、項目区切り記号と、限定式を追記する(分類識別子=分類識別子+項目区切り記号+文字列B+項目区切り記号+限定式、S136)。ここで、限定式とは、限定対象語を辺とする等式、不等式をいう。また、リスト照合の結果、リストにないと判断された場合(S135、No)、ならびに前記したS136の処理の後、引き数Nを+1更新し(S137)、引き数Nが形態素に付与された概念数を超えるか否かをチェックする(S138)。このチェックの結果、“N≦形態素に付与された概念数”の場合は、S133以降の処理を繰り返し、“N>形態素に付与された概念数”となった場合は、端子Eにより図10に示すS103の処理へ移行する。
すなわち、ここでは、付加された概念が量的限定の対象になり得る形態素につき、この形態素に付加された概念(文字列B)が、予め本装置の所有者、設置者、あるいは使用者によって定義された選定対象概念リスト(基準)によって分類識別子とされる概念の範囲に属し、かつ、形態素における前後の参照領域に、「大小関係」、「一致」、あるいは「範囲」等の限定式が、該当概念または上位概念として付加された形態素が存在し、更に、これら限定式が該当概念または上位概念として付加された形態素の前後の参照領域に、量の概念、もしくは「無名数」の概念が付加された処理単位が存在するとき、先の限定式の概念と、これが限定する対象である概念と量もしくは「無名数」とを列記した組を文書の分類識別子の一つとして文書分類識別子付き文書29として出力している。
(分類識別子の選定方法)
分類識別子選定部26による分類識別子の選定方法について、図14〜図17にその概念が示されている。図14〜図17は、オントロジ辞書27の概念展開ツリーを模式化して示した図であり、図中、ハッチングが付された楕円が選定され文書に付与される分類識別子を示す。
まず、図14に示す方法は、予め本装置の所有者、設置者、あるいは使用者によって基準として定義される選定対象概念リストを用いて分類識別子を選定し出力する例である。ここでは、選定対象概念リストにリストされる概念に相当する概念名もしくは概念番号が分類識別子として画一的に選択され出力される。
すなわち、分類識別子選定部26は、入力された形態素1〜5に該当する概念またはその上位概念が、あらかじめ定義され記憶された選定対象概念リストに含まれる場合にその概念を分類識別子として選択出力する。例えば、「概念1」や「概念111」等は、「形態素1」の該当概念や上位概念ではあるが、基準として用意された選定対象概念リストにその定義として存在しないことから、ここでは分類識別子として選択されず、また、「概念121」は該当する形態素が無いことから選択されない。ここでは、「概念11」、「概念112」、「概念3」があらかじめリストされているため、分類識別子として選択され出力される。
図15に示す方法は、選択対象概念リストが示す画一的なものではなく、概念間の相対的な関係から分類識別子を選定する方法である。
ここでは、あらかじめ定義された形態素の到達距離内の上位概念が文書の形態素数に対してあらかじめ定義した率以上の数の形態素と共通な上位概念であるときに、その上位概念を分類識別子として選定出力する例が示されている。
すなわち、分類識別子選定部26が、概念を上位概念とする形態素の数、またはその数が文書の全ての形態素数に占める割合、あるいは概念を上位概念とする形態素の数、またはその数が文書の全形態素数に占める割合を基に分類識別子の選定を行う。そして、分類識別子選定部26に内蔵される変換表(図示せず)を索引することにより、あるいは、分類識別子選定部26が予め定義された変換式に基づき演算することで算出される数値を選定される分類識別子に付与している。分類識別子選定部26がこの数値を参照し、それぞれの概念の相対的な関連から分類識別子を選定出力するものである。
ここでは該当概念の直近上位まで、すなわち到達距離1を設定範囲とする例が示されている。
具体的には、「概念111」と「概念112」は、それぞれの形態素1、2によって指され、他のいずれの形態素からも上位概念として指されていないため専有率が20%、「概念11」は、「概念111」と「概念112」の上位概念として指されているため専有率が40%、「概念1」と「概念2」は距離が遠く、「概念1」は、形態素1と形態素2の上位概念ではあるが範囲外であるため専有率が0%、「概念2」は形態素3が直接指しているため専有率が20%、「概念3」は形態素4から直接、形態素5から間接的に指されており、専有率は40%となっている。
専有率の高い概念、ここでは、「概念2(20%)」、「概念3(40%)」、「概念11(40%)」、「概念12(20%)」、「概念31(20%)」、「概念111(20%)」、「概念112(20%)」が分類識別子として選定され出力される。
なお、ここで括弧内の数字は前記した専有率を示し、ここに付与された数値の大小に応じて選定された分類識別子の配列順序が決定される。
図16は、重要度に応じて付与される重みによって分類識別子を選定する方法を示す。ここでは、あらかじめ基準として定義される選定対象概念リストを構成する要素の一つとして、概念毎にあらかじめ定義された重みを示す数値が付与されており、分類識別子選定部26は、この数値を参照することにより分類識別子を選定し、出力する。
ここでは、重要度に応じて5段階の重みが付されているものとし、「概念11(重み2)」、「概念112(重み5)」、「概念3(重み1)」が分類識別子として選定され、文書に選定された分類識別子を付与するときに、選定対象概念リストに示される重み(数値)がそのまま分類識別子に付記される。
なお、図15に示す例と同様、付与された数値の大小に応じて選定された分類識別子の配列順序が決定される。
図17は、図15に示される到達距離による分類識別子の選定方法と、図16に示される重み付けによる分類識別子の選定方法を共に適用した例を示した例である。
ここでは、該当概念の直近上位まで、すなわち、到達距離1を設定範囲とする例が示されており、「概念11」、「概念111」、「概念112」、「概念2」、「概念3」、「概念12」、「概念31」が分類識別子として選定され、このうち、「概念11」と「概念3」が最大の重み2となる(形態素数2)。
なお、前記した図14〜図17に示す分類識別子の選定方法において、文書に付与する分類識別子の数を、あらかじめ設定された数あるいは演算式によって制限し、当該制限を超える分類識別子が予め設定された基準を持たす場合に、分類識別子に付与された数値の大小により選定すべき分類識別子を決定することも可能である。
図18は、図17同様、図15に示される到達距離による分類識別子の選定方法と、図16に示される重み付けによる分類識別子の選定方法を共に適用した例を示した例であり、文書に付与する分類識別子の選定数があらかじめ設定されている。ここでは、選定数が2とされた場合に、最大の重み2となる「概念11」と、「概念3」が選定される。
このように分類識別子の数があらかじめ設定されており、数、あるいは演算式によって文書に付与する分類識別子の数を制限し、当該制限を超える分類識別子が予め設定された基準を満たす場合に、分類識別子に付与された数値の大小により選定すべき分類識別子を決定することも可能である。
≪第2実施形態≫
次に、本発明の第2実施形態を説明する。
図2は、本発明における第2施形態の構成を示すブロック図である。図1に示す実施形態との差異は、オントロジ解析部24の接続位置であり、図1に示す実施形態では、文書分類装置A1が文字列数値化処理の後にオントロジ解析処理を行うのに対し、ここでは、文書分類装置A2が形態素解析結果にオントロジ解析処理を行い数詞再結合部22へ供給する構成となっている。
従って、図3に示す第2、第3中間処理結果の内容に若干の差異はあるものの、第2実施形態の文書分類装置A2の第1中間処理結果、および第4、第5中間処理結果、そして、分類識別子付き文書29は、第1実施形態の文書分類装置A1と同様の結果が出力される。このため、第2実施形態の動作も第1実施形態の動作に同様になる。よって、第2実施形態の動作説明を省略する。
以上説明のように本実施形態は、形態素解析およびオントロジ解析による従来の処理に加え、数詞を再結合して量の概念を生成し、文書中の量に関する記述が重要な分類基準となる場合に有効な分類結果を生成するものである。このことにより、量の概念を認識し、その値を用いて定義される限定条件を分類識別子として文書を分類することができ、かつ、任意書式の文書を取り扱うことも可能となる。
例えば、文書中の「この福祉サービスは所得制限100万円未満です」という単文を含む文書が入力された場合、「所得制限、100万円、未満」という分類識別子が付与され出力される。このため、量の概念を的確に反映した文書の分類が可能となる。また、文書の書式に拘らないため、書式が固定的になりえない分野においても量の概念を的確に反映させた分類を可能とする文書分類装置A1を提供することができる。
なお、図1、図2に示す、文書分類処理部2を構成する形態素解析部21、数詞再結合部22、文字列数値化部23、オントロジ解析部24、量概念生成部25、分類識別子選定部26のそれぞれで実行される手順をコンピュータ読取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより本発明の文書分類装置A1が実現されるものとする。ここでいうコンピュータシステムとは、OS(Operating System)や周辺機器等のハードウェアを含むものである。
本発明の第1実施形態を示すブロック図である。 本発明の第2実施形態を示すブロック図である。 本発明で用いられる作業メモリのデータ構造の一例を示す図である。 本発明実施形態の動作を示すフローチャートである。 本発明実施形態の動作を示すフローチャートである。 本発明実施形態の動作を示すフローチャートである。 本発明実施形態の動作を示すフローチャートである。 本発明実施形態の動作を示すフローチャートである。 本発明実施形態の動作を示すフローチャートである。 本発明実施形態の動作を示すフローチャートである。 本発明実施形態の動作を示すフローチャートである。 本発明実施形態の動作を示すフローチャートである。 本発明実施形態の動作を示すフローチャートである。 分類識別子選定のための一方法を説明するために引用した概念図である。 分類識別子選定方法を説明するために引用した概念図である。 分類識別子選定方法を説明するために引用した概念図である。 分類識別子選定方法を説明するために引用した概念図である。 分類識別子選定方法を説明するために引用した概念図である。
符号の説明
A1・A2…文書分類装置、1…文書入力インタフェース部、2…文書分類処理部、3…文書出力インタフェース部、21…形態素解析部、22…数詞再結合部、23…文字列数値化部、24…オントロジ解析部、25…量概念生成部、26…分類識別子選定部、27…オントロジ辞書、28…分類対象文書、29…分類識別子付き文書

Claims (11)

  1. 文書、および当該文書の中間処理結果が格納される記憶装置と、前記文書中の量に関する記述を分類基準とした場合にその分類結果を生成する演算装置とを有する文書分類装置であって、
    入力文書を取り込み、記憶装置に格納する文書入力インタフェース部と、
    前記入力文書の形態素解析を行う形態素解析部と、
    前記形態素解析の結果、連続した数詞の並びを単語に準ずる処理単位に纏める数詞再結合部と、
    前記数詞の並びを数値化する文字列数値化部と、
    オントロジ辞書を参照したオントロジ解析により、前記形態素それぞれについて、その形態素に該当する概念を判断するオントロジ解析部と、
    前記数値化された単語の後に、量の概念に該当する形態素があったとき、その数値化された単語に含まれる数詞の並びとその形態素とを併合して新たな処理単位とし、その形態素に、その数詞の並びが示す数値データと、当該数値データの型と、該当する量の概念名または概念番号とを付加し、一方、前記量の概念に該当する形態素が存在しない場合、その形態素に、その数詞の並びが示す数値データと、当該数値データの型と、無名数の概念名または概念番号とを付加する量概念生成部と、
    前記新たな処理単位に含まれる形態素に付加された概念が、予め設定された範囲の概念であり、かつ、その形態素における前後の参照領域に、限定条件の概念に該当する形態素が存在し、その限定条件の概念に該当する形態素の前後の参照領域に、量の概念に該当する形態素を含む処理単位が存在するとき、もしくは、無名数の概念に該当する形態素を含む処理単位が存在するとき、前記限定条件の概念と、これが限定する対象である概念と、量もしくは無名数とを列記した組を文書の分類識別子の1つとして選定し文書に付与する分類識別子選定部と、
    記文書分類識別子付きの文書を出力する文書出力インタフェース部と、
    を備えることを特徴とする文書分類装置。
  2. 文書中の量に関する記述を分類基準とした場合にその分類結果を生成するための文書分類方法であって、
    文書、および当該文書の中間処理結果が格納される記憶装置と、前記文書中の量に関する記述を分類基準とした場合にその分類結果を生成する演算装置とを有する文書分類装置を用い、
    前記演算装置に、
    入力され取り込まれた入力文書について形態素解析を行い、形態素および形態素の品詞およびその活用の組から成る形態素解析結果の並びを示す第1中間処理結果を出力する第1過程と、
    前記第1中間処理結果において、連続した数詞の並びを単語に準ずる処理単位に纏めた第2中間処理結果を出力する第2過程と、
    前記第2中間処理結果において、前記纏められた単語に準ずる処理単位につき、前記数詞の並びが意味する数値データ、および当該数値データの型を示す識別子、ならびに数値化を行ったことを意味するフラグを付加した第3中間処理結果を出力する第3過程と、
    前記第3中間処理結果において、それぞれの形態素につきオントロジ解析によりオントロジ辞書を参照して該当する概念が発見された場合はその概念名または概念番号、および用途に応じてその上位概念を示す概念名または概念番号を付加し、一方、該当する概念が発見されなかった場合はオントロジ解析が不能であることを示すフラグを付加した第4中間処理結果を出力する第4過程と、
    前記第4中間処理結果において、前記数値化された単語に準ずる処理単位であって、後ろに上位概念として量の概念が付加された形態素が存在する場合、前記数値化された単語に含まれる数詞の並びと後ろの形態素とを併合して新たな処理単位とし、その数値データ、当該数値データの型、該当する量の概念名または概念番号とを付加して第5中間処理結果を出力し、一方、前記形態素が存在しない場合につき、その数値データ、当該数値データの型、無名数の概念名または概念番号を併せて付加して第5中間処理結果を出力する第5過程と、
    前記第5中間処理結果において、前記付加された概念が量的限定の対象になり得ない形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属する場合、その概念を文書の分類識別子として出力し、一方、前記付加された概念が量的限定の対象になり得る形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属し、かつ、前記形態素における前後の参照領域に、限定条件が該当概念または上位概念として付加された形態素が存在し、更に、前記限定条件が該当概念または上位概念として付加された形態素の前後の参照領域に量の概念、もしくは「無名数」の概念が付加された処理単位が存在するとき、前記限定条件の概念とこれが限定する対象である概念と量もしくは「無名数」とを列記した組を分類識別子の一つとして選定し文書に付与する第6過程と、
    を含んで実行させることを特徴とする文書分類方法。
  3. 文書中の量に関する記述を分類基準とした場合にその分類結果を生成するための文書分類方法であって、
    文書、および当該文書の中間処理結果が格納される記憶装置と、前記文書中の量に関する記述を分類基準とした場合にその分類結果を生成する演算装置とを有する文書分類装置を用い、
    前記演算装置に、
    入力され取り込まれた入力文書について形態素解析を行い、形態素および形態素の品詞およびその活用の組から成る形態素解析結果の並びを示す第1中間処理結果を出力する第1過程と、
    前記第1中間処理結果において、各形態素につきオントロジ解析によりオントロジ辞書を参照して該当する概念が発見された場合はその概念名または概念番号、および用途に応じてその上位概念を示す概念名または概念番号を付加し、一方、該当する概念が発見されなかった場合はオントロジ解析が不能であることを示すフラグを付加した第2中間処理結果を出力する第2過程と、
    前記第2中間処理結果において、前記フラグが付加された形態素の並びのうち、連続した数詞の並びを単語に準ずる処理単位に纏めた第3中間処理結果を出力する第3過程と、
    前記第3中間処理結果において、前記纏められた単語に準ずる処理単位につき、前記数詞の並びが意味する数値データ、および当該数値データの型を示す識別子、ならびに数値化を行ったことを意味するフラグを付加した第4中間処理結果を出力する第4過程と、
    前記第4中間処理結果において、前記数値化された単語に準ずる処理単位であって、後ろに上位概念として量の概念が付加された形態素が存在する場合、前記数値化された単語に含まれる数詞の並びと後ろの形態素とを併合して新たな処理単位とし、その数値データ、当該数値データの型、該当する量の概念名または概念番号とを付加して第5中間処理結果を出力し、一方、前記形態素が存在しない場合につき、その数値データ、当該数値データの型、無名数の概念名または概念番号を併せて付加して第5中間処理結果を出力する第5過程と、
    前記第5中間処理結果において、前記付加された概念が量的限定の対象になり得ない形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属する場合、その概念を文書の分類識別子として出力し、一方、前記付加された概念が量的限定の対象になり得る形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属し、かつ、前記形態素における前後の参照領域に、限定条件が該当概念または上位概念として付加された形態素が存在し、更に、前記限定条件が該当概念または上位概念として付加された形態素の前後の参照領域に量の概念、もしくは「無名数」の概念が付加された処理単位が存在するとき、前記限定条件の概念とこれが限定する対象である概念と量もしくは「無名数」とを列記した組を分類識別子の一つとして選定し文書に付与する第6過程と、
    を含んで実行させることを特徴とする文書分類方法。
  4. 前記第6過程において、
    前記分類識別子として選定される少なくとも一部は、前記形態素の該当概念またはその上位概念が、あらかじめ定義され記憶されたリストに含まれることを特徴とする請求項またはに記載の文書分類方法。
  5. 前記リストを構成する各要素にあらかじめ重要度に応じて定義された重みを示す数値が併せて設定され、前記文書に前記選択された分類識別子を付与するときに前記数値も付記することを特徴とする請求項に記載の文書分類方法。
  6. 前記第6過程において、
    あらかじめ定義された形態素の到達距離内の上位概念が、前記文書の形態素数に対してあらかじめ定義した率以上の数の形態素と共通な上位概念であるときに、その上位概念を前記分類識別子として選定することを特徴とする請求項またはに記載の文書分類方法。
  7. 前記概念を上位概念とする形態素の数、またはその数が前記文書の全ての形態素数に占める割合、あるいは前記概念を上位概念とする形態素の数またはその数が文書の全形態素数に占める割合をもとにあらかじめ定義される変換表を索引することにより、もしくは変換式によって算出される数値を、前記選定される分類識別子に付与することを特徴とする請求項に記載の文書分類方法。
  8. 前記文書に付与する前記分類識別子の数をあらかじめ設定された数、あるいは演算式によって制限し、当該制限を超える分類識別子が前記予め設定された基準を持たす場合に、前記分類識別子に付与された数値の大小により選定すべき分類識別子を決定することを特徴とする請求項または7に記載の文書分類方法。
  9. 前記付与された数値の大小に応じて前記選定された分類識別子の配列順序を決定することを特徴とする請求項またはに記載の文書分類方法。
  10. 文書中の量に関する記述を分類基準とした場合にその分類結果を生成する文書分類装置に用いられるコンピュータプログラムであって、
    入力され取り込まれた入力文書について形態素解析を行い、形態素および形態素の品詞およびその活用の組から成る形態素解析結果の並びを示す第1中間処理結果を出力する処理と、
    前記第1中間処理結果において、連続した数詞の並びを単語に準ずる処理単位に纏めた第2中間処理結果を出力する処理と、
    前記第2中間処理結果において、前記纏められた単語に準ずる処理単位につき、前記数詞の並びが意味する数値データ、および当該数値データの型を示す識別子、ならびに数値化を行ったことを意味するフラグを付加した第3中間処理結果を出力する処理と、
    前記第3中間処理結果において、それぞれの形態素につきオントロジ解析によりオントロジ辞書を参照して該当する概念が発見された場合はその概念名または概念番号、および用途に応じてその上位概念を示す概念名または概念番号を付加し、一方、該当する概念が発見されなかった場合はオントロジ解析が不能であることを示すフラグを付加した第4中間処理結果を出力する処理と、
    前記第4中間処理結果において、前記数値化された単語に準ずる処理単位であって、後ろに上位概念として量の概念が付加された形態素が存在する場合、前記数値化された単語に含まれる数詞の並びと後ろの形態素とを併合して新たな処理単位とし、その数値データ、当該数値データの型、該当する量の概念名または概念番号とを付加して第5中間処理結果を出力し、一方、前記形態素が存在しない場合につき、その数値データ、当該数値データの型、無名数の概念名または概念番号を併せて付加して第5中間処理結果を出力する処理と、
    前記第5中間処理結果において、前記付加された概念が量的限定の対象になり得ない形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属する場合、その概念を文書の分類識別子として出力し、一方、前記付加された概念が量的限定の対象になり得る形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属し、かつ、前記形態素における前後の参照領域に、限定条件が該当概念または上位概念として付加された形態素が存在し、更に、前記限定条件が該当概念または上位概念として付加された形態素の前後の参照領域に量の概念、もしくは「無名数」の概念が付加された処理単位が存在するとき、前記限定条件の概念とこれが限定する対象である概念と量もしくは「無名数」とを列記した組を分類識別子の一つとして選定し文書に付与する処理と、
    をコンピュータに実行させる文書分類プログラム。
  11. 文書中の量に関する記述を分類基準とした場合にその分類結果を生成する文書分類装置に用いられるコンピュータプログラムであって、
    入力され取り込まれた入力文書について形態素解析を行い、形態素および形態素の品詞およびその活用の組から成る形態素解析結果の並びを示す第1中間処理結果を出力する処理と、
    前記第1中間処理結果において、各形態素につきオントロジ解析によりオントロジ辞書を参照して該当する概念が発見された場合はその概念名または概念番号、および用途に応じてその上位概念を示す概念名または概念番号を付加し、一方、該当する概念が発見されなかった場合はオントロジ解析が不能であることを示すフラグを付加した第2中間処理結果を出力する処理と、
    前記第2中間処理結果において、前記フラグが付加された形態素の並びのうち、連続した数詞の並びを単語に準ずる処理単位に纏めた第3中間処理結果を出力する処理と、
    前記第3中間処理結果において、前記纏められた単語に準ずる処理単位につき、前記数詞の並びが意味する数値データ、および当該数値データの型を示す識別子、ならびに数値化を行ったことを意味するフラグを付加した第4中間処理結果を出力する処理と、
    前記第4中間処理結果において、前記数値化された単語に準ずる処理単位であって、後ろに上位概念として量の概念が付加された形態素が存在する場合、前記数値化された単語に含まれる数詞の並びと後ろの形態素とを併合して新たな処理単位とし、その数値データ、当該数値データの型、該当する量の概念名または概念番号とを付加して第5中間処理結果を出力し、一方、前記形態素が存在しない場合につき、その数値データ、当該数値データの型、無名数の概念名または概念番号を併せて付加して第5中間処理結果を出力する処理と、
    前記第5中間処理結果において、前記付加された概念が量的限定の対象になり得ない形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属する場合、その概念を文書の分類識別子として出力し、一方、前記付加された概念が量的限定の対象になり得る形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属し、かつ、前記形態素における前後の参照領域に、限定条件が該当概念または上位概念として付加された形態素が存在し、更に、前記限定条件が該当概念または上位概念として付加された形態素の前後の参照領域に量の概念、もしくは「無名数」の概念が付加された処理単位が存在するとき、前記限定条件の概念とこれが限定する対象である概念と量もしくは「無名数」とを列記した組を分類識別子の一つとして選定し文書に付与する処理と、
    をコンピュータに実行させる文書分類プログラム。
JP2003397798A 2003-11-27 2003-11-27 文書分類装置および文書分類方法ならびに文書分類プログラム Expired - Fee Related JP4235973B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003397798A JP4235973B2 (ja) 2003-11-27 2003-11-27 文書分類装置および文書分類方法ならびに文書分類プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003397798A JP4235973B2 (ja) 2003-11-27 2003-11-27 文書分類装置および文書分類方法ならびに文書分類プログラム

Publications (2)

Publication Number Publication Date
JP2005157887A JP2005157887A (ja) 2005-06-16
JP4235973B2 true JP4235973B2 (ja) 2009-03-11

Family

ID=34722853

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003397798A Expired - Fee Related JP4235973B2 (ja) 2003-11-27 2003-11-27 文書分類装置および文書分類方法ならびに文書分類プログラム

Country Status (1)

Country Link
JP (1) JP4235973B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7849090B2 (en) * 2005-03-30 2010-12-07 Primal Fusion Inc. System, method and computer program for faceted classification synthesis
JP2020140467A (ja) * 2019-02-28 2020-09-03 富士ゼロックス株式会社 情報処理装置及びプログラム
JP7363577B2 (ja) 2020-02-28 2023-10-18 株式会社村田製作所 文書分類装置、学習方法および、学習プログラム

Also Published As

Publication number Publication date
JP2005157887A (ja) 2005-06-16

Similar Documents

Publication Publication Date Title
US7653530B2 (en) Method and mechanism for the creation, maintenance, and comparison of semantic abstracts
US11126647B2 (en) System and method for hierarchically organizing documents based on document portions
CN111241241A (zh) 基于知识图谱的案件检索方法、装置、设备及存储介质
US7197451B1 (en) Method and mechanism for the creation, maintenance, and comparison of semantic abstracts
CN102576358B (zh) 单词对取得装置、单词对取得方法及其程序
JP5095281B2 (ja) 文字列匿名化装置、文字列匿名化方法及び文字列匿名化プログラム
US8171029B2 (en) Automatic generation of ontologies using word affinities
US20050060651A1 (en) Electronic document indexing system and method
KR101933953B1 (ko) 페이지랭크와 토픽 모델링을 이용한 소프트웨어 도메인 토픽 추출 시스템
Hachey et al. Datasets for generic relation extraction
US20110191345A1 (en) Document analysis system
CN117171331B (zh) 基于大型语言模型的专业领域信息交互方法、装置及设备
JP5461388B2 (ja) Wwwを情報源として記述的な回答が可能な質問応答システム
JP4235973B2 (ja) 文書分類装置および文書分類方法ならびに文書分類プログラム
JP4525433B2 (ja) 文書集約装置及びプログラム
JP2008077252A (ja) 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
US20070055670A1 (en) System and method of extracting knowledge from documents
JP2000148770A (ja) 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体
Voronin et al. Analyzing API sequences for malware monitoring using machine learning
KR101147508B1 (ko) 검색식 추천 장치 및 방법
JP2002269120A (ja) 文書分類装置、文書分類方法及び該文書分類方法を実行するプログラム記録媒体
KR102639880B1 (ko) 문서 내의 유의어를 대표어로 관리하기 위한 인공지능기반 유의어 치환방법
JP7271652B2 (ja) テキスト分析のためのコンピュータ実装方法及び装置
CN117271796B (zh) 一种中医典籍知识库反馈修正方法及系统
JP2002108894A (ja) 文書分類装置、文書分類方法及び該方法を実行するための記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050412

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080724

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080805

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20080909

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081006

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20080912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20081205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081205

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111226

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111226

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121226

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121226

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131226

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees