JP4235973B2 - 文書分類装置および文書分類方法ならびに文書分類プログラム - Google Patents
文書分類装置および文書分類方法ならびに文書分類プログラム Download PDFInfo
- Publication number
- JP4235973B2 JP4235973B2 JP2003397798A JP2003397798A JP4235973B2 JP 4235973 B2 JP4235973 B2 JP 4235973B2 JP 2003397798 A JP2003397798 A JP 2003397798A JP 2003397798 A JP2003397798 A JP 2003397798A JP 4235973 B2 JP4235973 B2 JP 4235973B2
- Authority
- JP
- Japan
- Prior art keywords
- concept
- morpheme
- document
- classification
- added
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
文書分類装置はコンピュータを用いて日本語処理を行うために、対象となる文書を形態素単位に区切り、それぞれの形態素が持つ性質を明らかにする「形態素解析」を行い、続いて「構文解析」、「意味解析」を行うことにより日本語処理を行い、文書の分類操作を行う。
このとき、「形態素解析」と「構文解析」の間に「トークンフィルタ処理」と称される形態素データの構文解析のための前処理が行われる。ここでは、構文解析に適した単語情報と、これら単語の取り扱い情報となるdictデータ(辞書データ)を得るための処理が行われる(例えば、特許文献1参照)。ここで得られるdictデータは、「品詞名」、「表記」とその他の構文・意味情報である。例えば、複合名詞は1つの名詞として扱い、複合名詞であることを示すデータ(dict)を出力する。
このため、例えば、行政広報から、「課税所得100万円の人が適用されうる福祉施策に関する情報を抽出する」といったように、量の概念が重要な意味を持つ場合に場合に最適な文書の分類を行うことは困難であった。具体的に、「課税所得」を分類識別子とすることは可能であるが、続く「100」が分類不可能な記号として解釈されるため、量の概念を的確に反映させた分類は不可能であった。
また、文書の書式が固定的でない任意書式の文書についても、量の概念が重要な意味を持つ文書を適切に分類可能な、文書分類装置および文書分類方法ならびに文書分類プログラムを提供することも課題とする。
前記した課題を解決するために本発明(請求項1)は、文書、および当該文書の中間処理結果が格納される記憶装置と、前記文書中の量に関する記述を分類基準とした場合にその分類結果を生成する演算装置とを有する文書分類装置であって、入力文書を取り込み記憶装置に格納する文書入力インタフェース部と、前記入力文書の形態素解析を行う形態素解析部と、前記形態素解析の結果、連続した数詞の並びを単語に準ずる処理単位に纏める数詞再結合部と、前記数詞の並びを数値化する文字列数値化部と、オントロジ辞書を参照したオントロジ解析により、前記形態素それぞれについて、その形態素に該当する概念を判断するオントロジ解析部と、前記数値化された単語の後に、量の概念に該当する形態素があったとき、その数値化された単語に含まれる数詞の並びとその形態素とを併合して新たな処理単位とし、その形態素に、その数詞の並びが示す数値データと、当該数値データの型と、該当する量の概念名または概念番号とを付加し、一方、前記量の概念に該当する形態素が存在しない場合、その形態素に、その数詞の並びが示す数値データと、当該数値データの型と、無名数の概念名または概念番号とを付加する量概念生成部と、前記新たな処理単位に含まれる形態素に付加された概念が、予め設定された範囲の概念であり、かつ、その形態素における前後の参照領域に、限定条件の概念に該当する形態素が存在し、その限定条件の概念に該当する形態素の前後の参照領域に、量の概念に該当する形態素を含む処理単位が存在するとき、もしくは、無名数の概念に該当する形態素を含む処理単位が存在するとき、前記限定条件の概念と、これが限定する対象である概念と、量もしくは無名数とを列記した組を文書の分類識別子の1つとして選定し文書に付与する分類識別子選定部と、記憶装置に格納された文書分類識別子付きの文書を出力する文書出力インタフェース部と、を備えることを特徴とする。
前記した課題を解決するために本発明(請求項2)は、文書中の量に関する記述を分類基準とした場合にその分類結果を生成するための文書分類方法であって、文書、および当該文書の中間処理結果が格納される記憶装置と、前記文書中の量に関する記述を分類基準とした場合にその分類結果を生成する演算装置とを有する文書分類装置を用い、前記演算装置に、入力され取り込まれた入力文書について形態素解析を行い、形態素および形態素の品詞およびその活用の組から成る形態素解析結果の並びを示す第1中間処理結果を出力する第1過程と、前記第1中間処理結果において、連続した数詞の並びを単語に準ずる処理単位に纏めた第2中間処理結果を出力する第2過程と、前記第2中間処理結果において、前記纏められた単語に準ずる処理単位につき、前記数詞の並びが意味する数値データ、および当該数値データの型を示す識別子、ならびに数値化を行ったことを意味するフラグを付加した第3中間処理結果を出力する第3過程と、前記第3中間処理結果において、それぞれの形態素につきオントロジ解析によりオントロジ辞書を参照して該当する概念が発見された場合はその概念名または概念番号、および用途に応じてその上位概念を示す概念名または概念番号を付加し、一方、該当する概念が発見されなかった場合はオントロジ解析が不能であることを示すフラグを付加した第4中間処理結果を出力する第4過程と、前記第4中間処理結果において、前記数値化された単語に準ずる処理単位であって、後ろに上位概念として量の概念が付加された形態素が存在する場合、前記数値化された単語に含まれる数詞の並びと後ろの形態素とを併合して新たな処理単位とし、その数値データ、当該数値データの型、該当する量の概念名または概念番号とを付加して第5中間処理結果を出力し、一方、前記形態素が存在しない場合につき、その数値データ、当該数値データの型、無名数の概念名または概念番号を併せて付加して第5中間処理結果を出力する第5過程と、前記第5中間処理結果において、前記付加された概念が量的限定の対象になり得ない形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属する場合、その概念を文書の分類識別子として出力し、一方、前記付加された概念が量的限定の対象になり得る形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属し、かつ、前記形態素における前後の参照領域に、限定条件が該当概念または上位概念として付加された形態素が存在し、更に、前記限定条件が該当概念または上位概念として付加された形態素の前後の参照領域に量の概念、もしくは「無名数」の概念が付加された処理単位が存在するとき、前記限定条件の概念とこれが限定する対象である概念と量もしくは「無名数」とを列記した組を分類識別子の一つとして選定し文書に付与する第6過程と、を含むことを特徴とする。
前記した課題を解決するために本発明(請求項10、11)は、文書中の量に関する記述を分類基準とした場合にその分類結果を生成する文書分類装置に用いられるコンピュータプログラムとした。
また、例えば、自治体広報サイトに掲載される文書群のように、分野が雑多で書式も不統一な場合、手数の限界から検索を容易にするのが困難になっていた文書群の分類作業の機械化が可能となり、現実的な手数で検索容易な分類識別子の付与が可能になる。
図1は、本発明の第1実施形態を示すブロック図である。本実施形態の文書分類装置A1は、主に、文書入力インタフェース部1と、文書分類処理部2と、文書出力インタフェース部3で構成される。
文書入力インタフェース部1は、操作者あるいは他装置によって入力される入力文書を取り込み、文書分類処理部2へ供給する。文書分類処理部2は、文書入力インタフェース部1により取り込まれた入力文書を形態素解析により数詞を含む品詞情報を持つ形態素に分割し、オントロジ解析によって数詞を再結合(結合)して量の概念を生成(あるいは再生)し、入力インタフェース部1により取り込まれた文書中の量に関する記述が分類基準となる場合、生成された量の概念に従い認識される限定条件を分類識別子として文書を分類して文書出力インタフェース部3へ供給する。文書出力インタフェース部3は、文書分類処理部2で分類された文書分類識別子付きの文書を、操作者あるいは外部装置へ出力、もしくはファイル装置に蓄積する。
数詞再結合部22は、第1中間処理結果において、連続した数詞の並び(ここでは、「100万」)を単語に準ずる処理単位に纏めた第2中間処理結果に変換して文字列数値化部23へ出力する。第2中間処理結果は図3(b)にその一例が示されている。文字列数値化部23は、数詞再結合部22により出力される第2中間処理結果において、纏められた単語に準ずる処理単位につき、数詞の並びが意味する数値データ(ここでは「1000000」)、および当該数値データの型を示す識別子(「整数型」)、ならびに数値化を行ったことを意味するフラグ(「数値化」)を付加した第3中間処理結果を出力しオントロジ解析部24へ供給する。第3中間処理結果は図3(c)にその一例が示されている。
ここで、概念名の付加の具体例としては、「福祉:福祉、行政措置、公務」等の付加がある。
また、概念番号の付加の具体例を説明すると、オントロジ辞書の作成に際しては、自然言語による概念名だけで該辞書の構築が基本的に可能である。しかし、試作されている一部の辞書において計算機上で高速に検索しやすくするため、あるいは外国語でなら1語で表現できるが日本語では1形態素で表現できない概念(バリアフリー等)を組み込みやすくするため、自然言語を無味乾燥な数字に置き換えて表現することが行われている。この番号体系はそれぞれの辞書独自のもので標準は存在しない。また、現在発明者らが入手済みの辞書は部分サンプルのため「福祉」の概念番号の具体例は乏しい。このため、例えばSJISコードを字数だけ並べたもの(福祉なら十六進数で959F+8E83)を概念番号と称しても良いことになる。また、図14等の抽象モデルで概念に付けているような、概念を一意に指し示すよう適宜割り当てた番号でもかまわない。
一方、該当する概念が発見されなかった場合はオントロジ解析が不能であることを示すフラグ(ここでは「この:指示先検出不能」)を付加した第4中間処理結果を出力し量概念生成部25へ供給する。第4中間処理結果は図3(d)にその一例が示されている。
一方、形態素が存在しない場合につき、その数値データ、当該数値データの型、無名数の概念名または概念番号を併せて付加して第5中間処理結果を出力して分類識別子選定部26へ供給する。第5中間処理結果は図3(e)にその一例が示されている。
なお、本実施形態では、「後ろ」は「直後」であるが、本発明は直後に限定されるものではなく、付加される量の概念の前に他の文字・記号等が入っていてもよい。
一方、付加された概念が量的限定の対象になり得る形態素(ここでは、「所得」)につき、当該形態素に付加された概念が設定された基準によって分類識別子とされる概念の範囲に属し、かつ、先の形態素における前後の参照領域に、「大小関係」、「一致」、あるいは「範囲」を該当概念または上位概念として付加された形態素が存在し(ここでは、「未満:<、大小関係、関係」)、更に、「大小関係」、「一致」、あるいは「範囲」を該当概念または上位概念として付加された形態素の前後の参照領域に量の概念(ここでは「100万円」)、もしくは「無名数」の概念が付加された処理単位が存在するときは、「大小関係」、「一致」、あるいは「範囲」の概念とこれが限定する対象である概念と量もしくは「無名数」とを列記した組(ここでは、「福祉、所得、円、<1000000」)を分類識別子の一つとして選定して分類識別子付き文書ファイル29へ出力する。分類識別子付きの文書の一例は図3(f)に示されている。
以下、図4〜図13に示すフローチャートを参照しながら図1、図3に示す第1実施形態の動作について、文書分類処理装置2の動作を主として詳細に説明する。なお、図4〜図13は、本発明実施形態の動作を説明するために引用したフローチャートである。具体的には本発明のコンピュータプログラムの処理手順を示し、それぞれ、数詞再結合部22による数詞再結合処理(図4)、文字列数値化部23による文字列数値化処理(図5)、オントロジ解析部24によるオントロジ解析処理(図6、図7)、量概念生成部25による量概念生成処理(図8、図9)、分類識別子選定部26による分類識別子選定処理(図10〜図13)の手順が示されている。
第1実施形態の文書分類装置A1は、まず、操作者あるいは他の装置から入力される文書(例えば「この福祉サービスは所得制限100万円未満です。」)を文書入力インタフェース部1によって取込み、分類対象文書ファイル28に格納する。
形態素解析部21は、分類対象文書ファイル28からその文書を取り出して形態素解析を行い、その解析結果を、図3(a)に一例として示す第1中間処理結果として作業ファイルに書き込む。すなわち、ここでは、形態素および形態素の品詞および活用の組から成る形態素解析結果の並び(「この:連体詞/福祉:名詞−一般/サ:未知語/−:記号−一般/ビス:名詞−一般/は:助詞−係助詞/所得:名詞−一般、/制限:名詞−サ変接続/1:名詞−数/0:名詞−数/0:名詞−数/万:名詞−数/円:名詞−接尾−一般、数/未満/です/。:記号−句読点」を数詞再結合部22へ供給する。
次に、形態素解析後の第1中間処理結果が格納された作業ファイルから形態素を1形態素単位で読み込む(S403)。そして、末尾記号(EOS)でないことを確認して(S404)、各形態素につき名詞あるいは数詞に相当するものを抽出する(S405)。なお、S404の処理において、末尾記号であることが確認された場合には、第2中間処理結果にその末尾記号を追加設定して処理を終了する(S411)。
以上の処理は、末尾記号が出現するまで繰り返され(S404、Yes)、第2中間処理結果に末尾記号が追加設定され終了する(S411→終了)。
次に、文字列数値化部23は、前記した第2中間処理結果において、纏められた単語に準ずる処理単位につき、数詞の並びが意味する数値データ、および当該数値データの型を示す識別子、ならびに数値化を行ったことを意味するフラグを付加した第3中間処理結果を出力する。
具体的に図5に示すフローチャートにおいて、文字列数値化部23は、まず、第3中間処理結果が格納される作業ファイルを空白文字列として初期設定を行い(S501)、数詞再結合処理後の第2中間処理結果が格納された作業ファイルから形態素を1形態素単位で読み込む(S502、1形態素読み込み)。そして、末尾記号(EOS)でないことを確認して(S503)、読み込まれた形態素が数詞であるか否かを判断する(S504)。なお、S503の判断処理において、末尾記号であることが確認された場合には、第3中間処理結果にその末尾記号を追加設定して処理を終了する(S507)。
一方、数詞でないことが確認された場合は(S504、No)、先の第3中間処理結果に、境界記号および読み込んだ形態素を追記してS502以降の処理を繰り返す(S506)。
なお、図5中、+は文字列の結合として定義され、中間処理結果の例として、境界記号は改行、項目区切り記号は、カンマ(,)である。
次に、オントロジ解析部24は、前記した第3中間処理結果において、フラグが付加されなかった形態素につき、オントロジ解析によりオントロジ辞書を参照して該当する概念が発見された場合は『その概念名または概念番号、および用途に応じてその上位概念を示す(数個の)概念名または概念番号を付加』する(概念名・概念番号の付加については既に説明したとおりである)。一方、該当する概念が発見されなかった場合はオントロジ解析が不能であることを示すフラグを付加する。そして、第4中間処理結果として出力する。
具体的にオントロジ解析部24は、図6、図7に示すフローチャートにおいて、まず、第4中間処理結果が格納される作業ファイルを空白文字列とし、文字列Aを空白文字列として初期設定する(S601、S602)。
次に、文字列数値化処理後の第3中間処理結果が格納された作業ファイルから形態素を1形態素単位で読み込む(S603)。そして、末尾記号(EOS)でないことを確認して(S604)、各形態素につき数詞に相当するものを抽出する判断を行う(S605)。なお、S604の判断処理において、末尾記号であることが確認された場合には、第3中間処理結果にその末尾記号を追加設定して処理を終了する(S611→終了)。
そして、統制語を発見できた場合(S607、Yes)は、先の第4中間処理結果に、境界記号、読み込んだ形態素、項目区切り記号、それと発見できた統制語を追記し(S608)、一方、統制語が発見できなかった場合は(S607、No)、先の第4中間処理結果に、境界記号、読み込んだ形態素、項目区切り記号、概念体系外記号(オントロジ解析不能フラグ)を追記して(S610)、S603以降の処理を繰り返す。
ここで上位概念が発見できなかった場合(S703、No)は、ペンディング数を判断する処理(S708)へ分岐する。一方、上位概念が発見され(S703、Yes)、それが複数である場合(S704、Yes)は、先のペンディング数に「発見数−1」を加えた値を新たなペンディング数にする(S707)。そして、先の文字列Aに、項目区切り記号、および見つかった上位概念の一つを追記する(S705)。そして、S707で設定した検索キーで到達距離を調べる(S706)。
ここで、到達距離を説明する。「距離」とは統制語から検索キーに代入されている概念までの意味の遠近を表す量であり、一般的によく用いられるのは「グラフ理論上の距離」、即ち統制語から順に上位概念に遡って検索キーの概念に達するまでの段階数である。例えば図14のモデルにおいて概念111から概念1間での距離を2と数える。これを「制限する」意味(到達距離を調べる意味)は、一般にオントロジ辞書が保持する概念体系が数十万もの概念からなり、「無制限に検索する」ことは常にルート(最上位は「ものごと」とか「森羅万象」といった概念に行き着く)まで遡ることになり、検索結果の情報量が巨大かつ無意味な内容が多いものになってしまうため、実用的な結果が得られるようにあらかじめ設定した距離をもって上位に遡るのを打ち切るということである。よって「到達」とは距離がその設定値に達することを指す。
一方、ペンディング数(α)が0の場合(S708、Yes)は、次の場合、すなわち、オントロジ辞書27を検索して文字列Aに含まれない上位概念が見つからなかった場合(S703、No)からS708の判断に入った場合も含めて、先の第4中間処理結果に、文字列Aと境界記号を追記してオントロジ解析を終了する。
次に、量概念生成部25は、前記した第4中間処理結果において、文字列数値化部23により数値化された単語に準ずる処理単位であって、後ろに上位概念として量の概念が付加された形態素が存在する場合、当該数値化された単語に含まれる数詞の並びと後ろの形態素とを併合して新たな処理単位とし、その数値データと当該数値データの型と該当する量の概念名または概念番号とを付加して第5中間処理結果を出力し、一方、前記した形態素が存在しない場合につき、その数値データ、当該数値データの型、無名数の概念名または概念番号を併せて付加して第5中間処理結果を出力する。
次に、オントロジ解析後の第4中間処理結果が格納された作業ファイルから形態素を1形態素単位で読み込む(S803)。そして、末尾記号(EOS)でないことを確認して(S804)、各形態素につき数詞に相当するものを抽出する(S805)。なお、S804の判断処理において、末尾記号であることが確認された場合には、第5中間処理結果にその末尾記号を追加設定し(第5中間処理結果=第5中間処理結果+末尾記号)、処理を終了する(S810)。
次に、読み込んだ形態素が助数詞を示すか否かがチェックされ(S807)、ここで助数詞でないことが確認された場合(S807、No)は、先の第5中間処理に、境界記号、文字列A、項目区切り記号、無名数概念、境界記号、読み込んだ形態素を追記し(第5中間処理結果=第5中間処理結果+境界記号+文字列A+項目区切り記号+無名数概念+境界記号+読み込んだ形態素)、S803以降の処理を繰り返す(S808)。
最後に、分類識別子選定部26は、前記した第5中間処理結果において、付加された概念が量的限定の対象になり得ない形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属する場合、その概念を文書の分類識別子として出力し、一方、付加された概念が量的限定の対象になり得る形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属し、かつ、形態素における前後の参照領域に、「大小関係」、「一致」、あるいは「範囲」を該当概念または上位概念として付加された形態素が存在し、更に、「大小関係」、「一致」、あるいは「範囲」を該当概念または上位概念として付加された形態素の前後の参照領域に量の概念、もしくは「無名数」の概念が付加された処理単位が存在するとき、先の「大小関係」、「一致」、あるいは「範囲」の概念とこれが限定する対象である概念と量もしくは「無名数」とを列記した組を分類識別子の一つとして選定する。
次に、量概念生成処理後の第5中間処理結果が格納された作業ファイルから形態素を1形態素単位で読み込む(S103)。そして、末尾記号(EOS)でないことを確認して(104)、各形態素につき数詞に相当するものを抽出する(S105)。なお、S104の判断処理において、末尾記号であることが確認された場合には、第5中間処理結果(つまり分類識別子)にその末尾記号を追加設定し(分類識別子=分類識別子+末尾記号)、処理を終了する(S109)。
なお、数詞でない場合(S105、No)は、端子Fにより移行して(図11参照)、引数Nに1を設定し(S111)、更に、文字列Bとして形態素に付与されたN個目の概念を設定する(文字列B=形態素に付与されたN個目の概念、S112)。そして、この文字列Bを、あらかじめ、本装置の所有者、設置者、あるいは使用者によって定義された選択対象概念リストと照合する(S113)。
リスト照合の結果リストにないと判断された場合、ならびに前記したS115の処理の後、引き数Nを+1更新し(S116)、引き数Nが形態素に付与された概念数を超えるか否かをチェックする(N>形態素に付与された概念数、S117)。チェックの結果、“N≦形態素に付与された概念数”の場合(S117、No)は、S112以降の処理を繰り返し、“N>形態素に付与された概念数”となった場合(S117、Yes)は、端子Eにより、図10に示すS103の処理へ移行する。
ここで、リスト照合の結果(S124)、リストにあると判断された場合(S124、Yes)は、分類識別子として、先の分類識別子に、項目区切り記号と文字列Bを追記する(分類識別子=分類識別子+項目区切り記号+文字列B、S125)。また、このリスト照合の結果、リストにないと判断された場合、ならびに前記したS125の処理の後、引き数Nを+1更新し(S126)、引き数Nが形態素に付与された概念数を超えるか否かをチェックする(S127)。チェックの結果、“N≦形態素に付与された概念数”の場合は(S127、No)、S122以降の処理を繰り返し、“N>形態素に付与された概念数”となった場合は(S127、Yes)、端子Eにより図10に示すS103の処理へ移行する。
ここで、リスト照合の結果(S135)、リストにあると判断された場合(S135、Yes)は、分類識別子として、先の分類識別子に、項目区切り記号と文字列Bと、項目区切り記号と、限定式を追記する(分類識別子=分類識別子+項目区切り記号+文字列B+項目区切り記号+限定式、S136)。ここで、限定式とは、限定対象語を辺とする等式、不等式をいう。また、リスト照合の結果、リストにないと判断された場合(S135、No)、ならびに前記したS136の処理の後、引き数Nを+1更新し(S137)、引き数Nが形態素に付与された概念数を超えるか否かをチェックする(S138)。このチェックの結果、“N≦形態素に付与された概念数”の場合は、S133以降の処理を繰り返し、“N>形態素に付与された概念数”となった場合は、端子Eにより図10に示すS103の処理へ移行する。
分類識別子選定部26による分類識別子の選定方法について、図14〜図17にその概念が示されている。図14〜図17は、オントロジ辞書27の概念展開ツリーを模式化して示した図であり、図中、ハッチングが付された楕円が選定され文書に付与される分類識別子を示す。
すなわち、分類識別子選定部26は、入力された形態素1〜5に該当する概念またはその上位概念が、あらかじめ定義され記憶された選定対象概念リストに含まれる場合にその概念を分類識別子として選択出力する。例えば、「概念1」や「概念111」等は、「形態素1」の該当概念や上位概念ではあるが、基準として用意された選定対象概念リストにその定義として存在しないことから、ここでは分類識別子として選択されず、また、「概念121」は該当する形態素が無いことから選択されない。ここでは、「概念11」、「概念112」、「概念3」があらかじめリストされているため、分類識別子として選択され出力される。
ここでは、あらかじめ定義された形態素の到達距離内の上位概念が文書の形態素数に対してあらかじめ定義した率以上の数の形態素と共通な上位概念であるときに、その上位概念を分類識別子として選定出力する例が示されている。
すなわち、分類識別子選定部26が、概念を上位概念とする形態素の数、またはその数が文書の全ての形態素数に占める割合、あるいは概念を上位概念とする形態素の数、またはその数が文書の全形態素数に占める割合を基に分類識別子の選定を行う。そして、分類識別子選定部26に内蔵される変換表(図示せず)を索引することにより、あるいは、分類識別子選定部26が予め定義された変換式に基づき演算することで算出される数値を選定される分類識別子に付与している。分類識別子選定部26がこの数値を参照し、それぞれの概念の相対的な関連から分類識別子を選定出力するものである。
具体的には、「概念111」と「概念112」は、それぞれの形態素1、2によって指され、他のいずれの形態素からも上位概念として指されていないため専有率が20%、「概念11」は、「概念111」と「概念112」の上位概念として指されているため専有率が40%、「概念1」と「概念2」は距離が遠く、「概念1」は、形態素1と形態素2の上位概念ではあるが範囲外であるため専有率が0%、「概念2」は形態素3が直接指しているため専有率が20%、「概念3」は形態素4から直接、形態素5から間接的に指されており、専有率は40%となっている。
専有率の高い概念、ここでは、「概念2(20%)」、「概念3(40%)」、「概念11(40%)」、「概念12(20%)」、「概念31(20%)」、「概念111(20%)」、「概念112(20%)」が分類識別子として選定され出力される。
なお、ここで括弧内の数字は前記した専有率を示し、ここに付与された数値の大小に応じて選定された分類識別子の配列順序が決定される。
ここでは、重要度に応じて5段階の重みが付されているものとし、「概念11(重み2)」、「概念112(重み5)」、「概念3(重み1)」が分類識別子として選定され、文書に選定された分類識別子を付与するときに、選定対象概念リストに示される重み(数値)がそのまま分類識別子に付記される。
なお、図15に示す例と同様、付与された数値の大小に応じて選定された分類識別子の配列順序が決定される。
ここでは、該当概念の直近上位まで、すなわち、到達距離1を設定範囲とする例が示されており、「概念11」、「概念111」、「概念112」、「概念2」、「概念3」、「概念12」、「概念31」が分類識別子として選定され、このうち、「概念11」と「概念3」が最大の重み2となる(形態素数2)。
なお、前記した図14〜図17に示す分類識別子の選定方法において、文書に付与する分類識別子の数を、あらかじめ設定された数あるいは演算式によって制限し、当該制限を超える分類識別子が予め設定された基準を持たす場合に、分類識別子に付与された数値の大小により選定すべき分類識別子を決定することも可能である。
このように分類識別子の数があらかじめ設定されており、数、あるいは演算式によって文書に付与する分類識別子の数を制限し、当該制限を超える分類識別子が予め設定された基準を満たす場合に、分類識別子に付与された数値の大小により選定すべき分類識別子を決定することも可能である。
次に、本発明の第2実施形態を説明する。
図2は、本発明における第2施形態の構成を示すブロック図である。図1に示す実施形態との差異は、オントロジ解析部24の接続位置であり、図1に示す実施形態では、文書分類装置A1が文字列数値化処理の後にオントロジ解析処理を行うのに対し、ここでは、文書分類装置A2が形態素解析結果にオントロジ解析処理を行い数詞再結合部22へ供給する構成となっている。
従って、図3に示す第2、第3中間処理結果の内容に若干の差異はあるものの、第2実施形態の文書分類装置A2の第1中間処理結果、および第4、第5中間処理結果、そして、分類識別子付き文書29は、第1実施形態の文書分類装置A1と同様の結果が出力される。このため、第2実施形態の動作も第1実施形態の動作に同様になる。よって、第2実施形態の動作説明を省略する。
例えば、文書中の「この福祉サービスは所得制限100万円未満です」という単文を含む文書が入力された場合、「所得制限、100万円、未満」という分類識別子が付与され出力される。このため、量の概念を的確に反映した文書の分類が可能となる。また、文書の書式に拘らないため、書式が固定的になりえない分野においても量の概念を的確に反映させた分類を可能とする文書分類装置A1を提供することができる。
Claims (11)
- 文書、および当該文書の中間処理結果が格納される記憶装置と、前記文書中の量に関する記述を分類基準とした場合にその分類結果を生成する演算装置とを有する文書分類装置であって、
入力文書を取り込み、記憶装置に格納する文書入力インタフェース部と、
前記入力文書の形態素解析を行う形態素解析部と、
前記形態素解析の結果、連続した数詞の並びを単語に準ずる処理単位に纏める数詞再結合部と、
前記数詞の並びを数値化する文字列数値化部と、
オントロジ辞書を参照したオントロジ解析により、前記形態素それぞれについて、その形態素に該当する概念を判断するオントロジ解析部と、
前記数値化された単語の後に、量の概念に該当する形態素があったとき、その数値化された単語に含まれる数詞の並びとその形態素とを併合して新たな処理単位とし、その形態素に、その数詞の並びが示す数値データと、当該数値データの型と、該当する量の概念名または概念番号とを付加し、一方、前記量の概念に該当する形態素が存在しない場合、その形態素に、その数詞の並びが示す数値データと、当該数値データの型と、無名数の概念名または概念番号とを付加する量概念生成部と、
前記新たな処理単位に含まれる形態素に付加された概念が、予め設定された範囲の概念であり、かつ、その形態素における前後の参照領域に、限定条件の概念に該当する形態素が存在し、その限定条件の概念に該当する形態素の前後の参照領域に、量の概念に該当する形態素を含む処理単位が存在するとき、もしくは、無名数の概念に該当する形態素を含む処理単位が存在するとき、前記限定条件の概念と、これが限定する対象である概念と、量もしくは無名数とを列記した組を文書の分類識別子の1つとして選定し文書に付与する分類識別子選定部と、
前記文書分類識別子付きの文書を出力する文書出力インタフェース部と、
を備えることを特徴とする文書分類装置。 - 文書中の量に関する記述を分類基準とした場合にその分類結果を生成するための文書分類方法であって、
文書、および当該文書の中間処理結果が格納される記憶装置と、前記文書中の量に関する記述を分類基準とした場合にその分類結果を生成する演算装置とを有する文書分類装置を用い、
前記演算装置に、
入力され取り込まれた入力文書について形態素解析を行い、形態素および形態素の品詞およびその活用の組から成る形態素解析結果の並びを示す第1中間処理結果を出力する第1過程と、
前記第1中間処理結果において、連続した数詞の並びを単語に準ずる処理単位に纏めた第2中間処理結果を出力する第2過程と、
前記第2中間処理結果において、前記纏められた単語に準ずる処理単位につき、前記数詞の並びが意味する数値データ、および当該数値データの型を示す識別子、ならびに数値化を行ったことを意味するフラグを付加した第3中間処理結果を出力する第3過程と、
前記第3中間処理結果において、それぞれの形態素につきオントロジ解析によりオントロジ辞書を参照して該当する概念が発見された場合はその概念名または概念番号、および用途に応じてその上位概念を示す概念名または概念番号を付加し、一方、該当する概念が発見されなかった場合はオントロジ解析が不能であることを示すフラグを付加した第4中間処理結果を出力する第4過程と、
前記第4中間処理結果において、前記数値化された単語に準ずる処理単位であって、後ろに上位概念として量の概念が付加された形態素が存在する場合、前記数値化された単語に含まれる数詞の並びと後ろの形態素とを併合して新たな処理単位とし、その数値データ、当該数値データの型、該当する量の概念名または概念番号とを付加して第5中間処理結果を出力し、一方、前記形態素が存在しない場合につき、その数値データ、当該数値データの型、無名数の概念名または概念番号を併せて付加して第5中間処理結果を出力する第5過程と、
前記第5中間処理結果において、前記付加された概念が量的限定の対象になり得ない形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属する場合、その概念を文書の分類識別子として出力し、一方、前記付加された概念が量的限定の対象になり得る形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属し、かつ、前記形態素における前後の参照領域に、限定条件が該当概念または上位概念として付加された形態素が存在し、更に、前記限定条件が該当概念または上位概念として付加された形態素の前後の参照領域に量の概念、もしくは「無名数」の概念が付加された処理単位が存在するとき、前記限定条件の概念とこれが限定する対象である概念と量もしくは「無名数」とを列記した組を分類識別子の一つとして選定し文書に付与する第6過程と、
を含んで実行させることを特徴とする文書分類方法。 - 文書中の量に関する記述を分類基準とした場合にその分類結果を生成するための文書分類方法であって、
文書、および当該文書の中間処理結果が格納される記憶装置と、前記文書中の量に関する記述を分類基準とした場合にその分類結果を生成する演算装置とを有する文書分類装置を用い、
前記演算装置に、
入力され取り込まれた入力文書について形態素解析を行い、形態素および形態素の品詞およびその活用の組から成る形態素解析結果の並びを示す第1中間処理結果を出力する第1過程と、
前記第1中間処理結果において、各形態素につきオントロジ解析によりオントロジ辞書を参照して該当する概念が発見された場合はその概念名または概念番号、および用途に応じてその上位概念を示す概念名または概念番号を付加し、一方、該当する概念が発見されなかった場合はオントロジ解析が不能であることを示すフラグを付加した第2中間処理結果を出力する第2過程と、
前記第2中間処理結果において、前記フラグが付加された形態素の並びのうち、連続した数詞の並びを単語に準ずる処理単位に纏めた第3中間処理結果を出力する第3過程と、
前記第3中間処理結果において、前記纏められた単語に準ずる処理単位につき、前記数詞の並びが意味する数値データ、および当該数値データの型を示す識別子、ならびに数値化を行ったことを意味するフラグを付加した第4中間処理結果を出力する第4過程と、
前記第4中間処理結果において、前記数値化された単語に準ずる処理単位であって、後ろに上位概念として量の概念が付加された形態素が存在する場合、前記数値化された単語に含まれる数詞の並びと後ろの形態素とを併合して新たな処理単位とし、その数値データ、当該数値データの型、該当する量の概念名または概念番号とを付加して第5中間処理結果を出力し、一方、前記形態素が存在しない場合につき、その数値データ、当該数値データの型、無名数の概念名または概念番号を併せて付加して第5中間処理結果を出力する第5過程と、
前記第5中間処理結果において、前記付加された概念が量的限定の対象になり得ない形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属する場合、その概念を文書の分類識別子として出力し、一方、前記付加された概念が量的限定の対象になり得る形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属し、かつ、前記形態素における前後の参照領域に、限定条件が該当概念または上位概念として付加された形態素が存在し、更に、前記限定条件が該当概念または上位概念として付加された形態素の前後の参照領域に量の概念、もしくは「無名数」の概念が付加された処理単位が存在するとき、前記限定条件の概念とこれが限定する対象である概念と量もしくは「無名数」とを列記した組を分類識別子の一つとして選定し文書に付与する第6過程と、
を含んで実行させることを特徴とする文書分類方法。 - 前記第6過程において、
前記分類識別子として選定される少なくとも一部は、前記形態素の該当概念またはその上位概念が、あらかじめ定義され記憶されたリストに含まれることを特徴とする請求項2または3に記載の文書分類方法。 - 前記リストを構成する各要素にあらかじめ重要度に応じて定義された重みを示す数値が併せて設定され、前記文書に前記選択された分類識別子を付与するときに前記数値も付記することを特徴とする請求項4に記載の文書分類方法。
- 前記第6過程において、
あらかじめ定義された形態素の到達距離内の上位概念が、前記文書の形態素数に対してあらかじめ定義した率以上の数の形態素と共通な上位概念であるときに、その上位概念を前記分類識別子として選定することを特徴とする請求項2または3に記載の文書分類方法。 - 前記概念を上位概念とする形態素の数、またはその数が前記文書の全ての形態素数に占める割合、あるいは前記概念を上位概念とする形態素の数またはその数が文書の全形態素数に占める割合をもとにあらかじめ定義される変換表を索引することにより、もしくは変換式によって算出される数値を、前記選定される分類識別子に付与することを特徴とする請求項6に記載の文書分類方法。
- 前記文書に付与する前記分類識別子の数をあらかじめ設定された数、あるいは演算式によって制限し、当該制限を超える分類識別子が前記予め設定された基準を持たす場合に、前記分類識別子に付与された数値の大小により選定すべき分類識別子を決定することを特徴とする請求項5または7に記載の文書分類方法。
- 前記付与された数値の大小に応じて前記選定された分類識別子の配列順序を決定することを特徴とする請求項5または7に記載の文書分類方法。
- 文書中の量に関する記述を分類基準とした場合にその分類結果を生成する文書分類装置に用いられるコンピュータプログラムであって、
入力され取り込まれた入力文書について形態素解析を行い、形態素および形態素の品詞およびその活用の組から成る形態素解析結果の並びを示す第1中間処理結果を出力する処理と、
前記第1中間処理結果において、連続した数詞の並びを単語に準ずる処理単位に纏めた第2中間処理結果を出力する処理と、
前記第2中間処理結果において、前記纏められた単語に準ずる処理単位につき、前記数詞の並びが意味する数値データ、および当該数値データの型を示す識別子、ならびに数値化を行ったことを意味するフラグを付加した第3中間処理結果を出力する処理と、
前記第3中間処理結果において、それぞれの形態素につきオントロジ解析によりオントロジ辞書を参照して該当する概念が発見された場合はその概念名または概念番号、および用途に応じてその上位概念を示す概念名または概念番号を付加し、一方、該当する概念が発見されなかった場合はオントロジ解析が不能であることを示すフラグを付加した第4中間処理結果を出力する処理と、
前記第4中間処理結果において、前記数値化された単語に準ずる処理単位であって、後ろに上位概念として量の概念が付加された形態素が存在する場合、前記数値化された単語に含まれる数詞の並びと後ろの形態素とを併合して新たな処理単位とし、その数値データ、当該数値データの型、該当する量の概念名または概念番号とを付加して第5中間処理結果を出力し、一方、前記形態素が存在しない場合につき、その数値データ、当該数値データの型、無名数の概念名または概念番号を併せて付加して第5中間処理結果を出力する処理と、
前記第5中間処理結果において、前記付加された概念が量的限定の対象になり得ない形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属する場合、その概念を文書の分類識別子として出力し、一方、前記付加された概念が量的限定の対象になり得る形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属し、かつ、前記形態素における前後の参照領域に、限定条件が該当概念または上位概念として付加された形態素が存在し、更に、前記限定条件が該当概念または上位概念として付加された形態素の前後の参照領域に量の概念、もしくは「無名数」の概念が付加された処理単位が存在するとき、前記限定条件の概念とこれが限定する対象である概念と量もしくは「無名数」とを列記した組を分類識別子の一つとして選定し文書に付与する処理と、
をコンピュータに実行させる文書分類プログラム。 - 文書中の量に関する記述を分類基準とした場合にその分類結果を生成する文書分類装置に用いられるコンピュータプログラムであって、
入力され取り込まれた入力文書について形態素解析を行い、形態素および形態素の品詞およびその活用の組から成る形態素解析結果の並びを示す第1中間処理結果を出力する処理と、
前記第1中間処理結果において、各形態素につきオントロジ解析によりオントロジ辞書を参照して該当する概念が発見された場合はその概念名または概念番号、および用途に応じてその上位概念を示す概念名または概念番号を付加し、一方、該当する概念が発見されなかった場合はオントロジ解析が不能であることを示すフラグを付加した第2中間処理結果を出力する処理と、
前記第2中間処理結果において、前記フラグが付加された形態素の並びのうち、連続した数詞の並びを単語に準ずる処理単位に纏めた第3中間処理結果を出力する処理と、
前記第3中間処理結果において、前記纏められた単語に準ずる処理単位につき、前記数詞の並びが意味する数値データ、および当該数値データの型を示す識別子、ならびに数値化を行ったことを意味するフラグを付加した第4中間処理結果を出力する処理と、
前記第4中間処理結果において、前記数値化された単語に準ずる処理単位であって、後ろに上位概念として量の概念が付加された形態素が存在する場合、前記数値化された単語に含まれる数詞の並びと後ろの形態素とを併合して新たな処理単位とし、その数値データ、当該数値データの型、該当する量の概念名または概念番号とを付加して第5中間処理結果を出力し、一方、前記形態素が存在しない場合につき、その数値データ、当該数値データの型、無名数の概念名または概念番号を併せて付加して第5中間処理結果を出力する処理と、
前記第5中間処理結果において、前記付加された概念が量的限定の対象になり得ない形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属する場合、その概念を文書の分類識別子として出力し、一方、前記付加された概念が量的限定の対象になり得る形態素につき、当該形態素に付加された概念が予め設定された基準によって分類識別子とされる概念の範囲に属し、かつ、前記形態素における前後の参照領域に、限定条件が該当概念または上位概念として付加された形態素が存在し、更に、前記限定条件が該当概念または上位概念として付加された形態素の前後の参照領域に量の概念、もしくは「無名数」の概念が付加された処理単位が存在するとき、前記限定条件の概念とこれが限定する対象である概念と量もしくは「無名数」とを列記した組を分類識別子の一つとして選定し文書に付与する処理と、
をコンピュータに実行させる文書分類プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003397798A JP4235973B2 (ja) | 2003-11-27 | 2003-11-27 | 文書分類装置および文書分類方法ならびに文書分類プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003397798A JP4235973B2 (ja) | 2003-11-27 | 2003-11-27 | 文書分類装置および文書分類方法ならびに文書分類プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005157887A JP2005157887A (ja) | 2005-06-16 |
JP4235973B2 true JP4235973B2 (ja) | 2009-03-11 |
Family
ID=34722853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003397798A Expired - Fee Related JP4235973B2 (ja) | 2003-11-27 | 2003-11-27 | 文書分類装置および文書分類方法ならびに文書分類プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4235973B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7849090B2 (en) * | 2005-03-30 | 2010-12-07 | Primal Fusion Inc. | System, method and computer program for faceted classification synthesis |
JP2020140467A (ja) * | 2019-02-28 | 2020-09-03 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
JP7363577B2 (ja) | 2020-02-28 | 2023-10-18 | 株式会社村田製作所 | 文書分類装置、学習方法および、学習プログラム |
-
2003
- 2003-11-27 JP JP2003397798A patent/JP4235973B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005157887A (ja) | 2005-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7653530B2 (en) | Method and mechanism for the creation, maintenance, and comparison of semantic abstracts | |
US11126647B2 (en) | System and method for hierarchically organizing documents based on document portions | |
CN111241241A (zh) | 基于知识图谱的案件检索方法、装置、设备及存储介质 | |
US7197451B1 (en) | Method and mechanism for the creation, maintenance, and comparison of semantic abstracts | |
CN102576358B (zh) | 单词对取得装置、单词对取得方法及其程序 | |
JP5095281B2 (ja) | 文字列匿名化装置、文字列匿名化方法及び文字列匿名化プログラム | |
US8171029B2 (en) | Automatic generation of ontologies using word affinities | |
US20050060651A1 (en) | Electronic document indexing system and method | |
KR101933953B1 (ko) | 페이지랭크와 토픽 모델링을 이용한 소프트웨어 도메인 토픽 추출 시스템 | |
Hachey et al. | Datasets for generic relation extraction | |
US20110191345A1 (en) | Document analysis system | |
CN117171331B (zh) | 基于大型语言模型的专业领域信息交互方法、装置及设备 | |
JP5461388B2 (ja) | Wwwを情報源として記述的な回答が可能な質問応答システム | |
JP4235973B2 (ja) | 文書分類装置および文書分類方法ならびに文書分類プログラム | |
JP4525433B2 (ja) | 文書集約装置及びプログラム | |
JP2008077252A (ja) | 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体 | |
US20070055670A1 (en) | System and method of extracting knowledge from documents | |
JP2000148770A (ja) | 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体 | |
Voronin et al. | Analyzing API sequences for malware monitoring using machine learning | |
KR101147508B1 (ko) | 검색식 추천 장치 및 방법 | |
JP2002269120A (ja) | 文書分類装置、文書分類方法及び該文書分類方法を実行するプログラム記録媒体 | |
KR102639880B1 (ko) | 문서 내의 유의어를 대표어로 관리하기 위한 인공지능기반 유의어 치환방법 | |
JP7271652B2 (ja) | テキスト分析のためのコンピュータ実装方法及び装置 | |
CN117271796B (zh) | 一种中医典籍知识库反馈修正方法及系统 | |
JP2002108894A (ja) | 文書分類装置、文書分類方法及び該方法を実行するための記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050412 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080724 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080805 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20080909 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081006 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20080912 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081202 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20081205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081205 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111226 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111226 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121226 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121226 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131226 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |