JP2004280316A

JP2004280316A - 分野判定装置及び言語処理装置

Info

Publication number: JP2004280316A
Application number: JP2003069017A
Authority: JP
Inventors: Katsunori Yoshiji; 克典芳地; Takeshi Nagamine; 猛志永峯; Akio Yamashita; 明男山下
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2003-03-14
Filing date: 2003-03-14
Publication date: 2004-10-07

Abstract

【課題】文書データが属する分野を判定し、更には、判定された分野の専門的な辞書や学習データを用いて当該文書データを言語処理する。
【解決手段】基本辞書１に複数の分野に係る一般的な言葉情報を含む基本辞書１と、専門分野に係る言葉情報を含む専門辞書６とを備え、文書データが入力されると、解析部２が基本辞書１を参照して、入力された文書データから記述内容に含まれる単語の単語ベクトルを算出し、分野判定部４が分野を特徴付ける分野ベクトル３と算出された単語ベクトルとの類似性を算出して、類似性が最も高い分野を入力された文書データが属する分野として判定する。そして、言語処理部７が、判定された分野の専門辞書６を参照して、前記入力された文書データに関する言語処理を行う。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、文書データが属する分野を判定し、更には、判定された分野の専門的な辞書や学習データを用いて当該文書データを言語処理する技術に関する。
【０００２】
【従来の技術】
機械翻訳などの目的のために、文書データに形態素解析や固有名詞抽出などの言語処理を施すことが行われている。このような形態素解析や固有名詞抽出などの言語処理は、一般的な名詞、動詞、助詞、助動詞などから構成される基本辞書（一般辞書）を参照して行われ、入力された文書データの内容を記述している自然言語から単語認識などする。
なお、ユーザが単語を独自に登録するユーザ辞書を基本辞書に併用することも行われている。
【０００３】
ここで、原文入力装置からの原文データが翻訳装置本体に送られると原文のタイプが判断され、原文のタイプに応じた解析規則によって、構文・意味解析が行われる機械翻訳システムが提案されている。
このシステムでは、翻訳処理前に、翻訳装置本体が辞書に含まれるキーワード辞書を用いて、入力された原文の分野を決定し、システム辞書の訳語の優先順位を決定・変更し、最優先の訳語を選択するようにしている（特許文献１参照。）。
【０００４】
この提案は、原文のタイプに応じた解析結果が得られ、翻訳作業で最適な訳語を自動的に選択できるようにすることを目的としているが、全てのキーワードについて、その訳語の分野を調べ、最も多い分野をその文書の分野に決定すると言う手法を採用している点、翻訳辞書の決定を目的としている点など、下記に詳しく説明する本発明と謙著に相違している。
【０００５】
また、入力された原文中の単語毎にその単語の語形をキーとして分野キーワード辞書を検索し、検索された単語が分野キーワード辞書中にある場合は、対応する分野を分野バッファの持つ記憶場所に記録し、そして、分野バッファに記録された分野の数を集計し、最頻の分野を求める言語解析装置が提案されている（特許文献２参照。）。
【０００６】
この提案は、分野を自動判定するものであるが、各キーワードについて分野辞書を検索して最頻の分野を選択するといった手法で処理速度が著しく遅い点など、下記に詳しく説明する本発明と謙著に相違している。
【０００７】
また、原文データを構文解析し、その構文毎の訳語が複数の専門用語辞書のそれぞれに存在するか否かをチェックすると共に、訳語の存在した辞書に対応する訳語チェックカウンタをカウントアップさせ、この訳語チェックカウンタにおけるカウントデータの大小に応じて各専門用語辞書の選択順位を設定し、実際の翻訳処理に伴い、被翻訳文書データに対応する訳語を上記設定順位に応じて専門用語辞書を選択して検索する機械翻訳システムにおける訳語選択装置が提案されている（特許文献３参照。）。
【０００８】
この提案は、より原文に近い翻訳処理を行なうことを目的としているが、各センテンス毎に専門用語辞書を検索して訳の存在をチェックして最もカウントアップが多い分野の辞書を使う点など、下記に詳しく説明する本発明と謙著に相違している。
【０００９】
また、入力された入力文の辞書引きを行ない、基本語辞書記述の文脈ベクトルを用いて翻訳に利用する専門用語辞書（分野コード）を判断する専門用語辞書（分野コード）自動選択部を設け、専門用語辞書（分野コード）の自動選択により、より効率的に翻訳作業が行なえ、専門用語辞書の利用または分野コードの利用により、より高品質な翻訳を行なうことができる機械翻訳装置が提案されている（特許文献４参照。）。
【００１０】
この提案は、複数のユーザのユーザ辞書に登録されている語を共通の基本語・専門用語辞書に登録する方式に関するものである点など、下記に詳しく説明する本発明と謙著に相違している。
【００１１】
【特許文献１】
特開平５―６１９０２号公報
【特許文献２】
特開平５―１３５０９４号公報
【特許文献３】
特開平６―６０１１７号公報
【特許文献４】
特開平６―３３２９４６号公報
【００１２】
【発明が解決しようとする課題】
従来より言語処理では、一般的な辞書では辞書に登録されていない分野独特の固有名詞がその形態素のまとまりとして抽出されない場合、また、同じ字面の単語でも出現している分野によりその品詞が異なって正しい結果が得られない場合などがあった。
【００１３】
言語処理の対象となる文書として世の中の様々な分野の電子的な文字データが対象になるが、ほとんどの言語処理は、一律に一般的な辞書を用い、専門家には一般的な辞書に加えて専門用語辞書を付加させて用いて行っていた。
また、近年、文書サーバで多くの分野の文書データを一括して扱うケースも増えており、単分野の辞書構成だけでは、高度な言語処理を行うには未登録語が多く、また、固有名詞抽出や複合語抽出（形態素を入力者が意図したまとまりにまとめる処理）の精度が足りない状況になっている。
【００１４】
本発明は上記従来の事情に鑑みなされたもので、従来とは異なる新規な手法にて、文書データが属する分野を判定することを目的としている。
また、本発明は、このようにして判定した分野の専門的な辞書や学習データを用いて当該文書データの高精度な言語処理を実現することを目的とする。
なお、本発明に更なる目的は以下に説明するところにより明らかである。
【００１５】
【課題を解決するための手段】
本発明は、文書の記述内容が属する分野を判定する装置、このように判定された分野に応じた言語処理を行う言語処理装置、これら装置をコンピュータによって実現するプログラム、これら装置によって実施可能な方法と言ったように種々なカテゴリーで実施できる。
【００１６】
具体的には、本発明では、複数の分野に係る言葉情報を含んだ基本辞書を参照して、入力された文書データから記述内容に含まれる単語の単語ベクトルを算出する解析を行い、分野を特徴付ける分野ベクトルと前記算出された単語ベクトルとの類似性に基づいて、前記文書データが属する分野を判定するようにして、文書の記述内容が属する分野を判定する。
【００１７】
このようにして判定した結果は、機械翻訳や固有名詞抽出などと言った種々な言語処理に利用することができるが、言語処理に限らず、文書の分野毎の分類作業などにも利用することができる。また、本発明は、日本語文書に限らず、英語など種々な言語の文書処理に適用できることは言うでもない。
なお、判定結果の精度などに応じて、予め用意されて記憶手段に保持されている分野ベクトルを、ユーザが修正できるようにしておくのが好ましい。
【００１８】
上記の判定結果を利用する本発明の言語処理では、次のような２つの特徴的な構成とすることができる。すなわち、入力文書がいずれの分野のものであっても、該当する分野の専門的な知識を用いて最適な言語処理を実現する。
【００１９】
まず、１つは、複数の分野に係る言葉情報を含んだ基本辞書を参照して、入力された文書データから記述内容に含まれる単語の単語ベクトルを算出する解析を行い、分野を特徴付ける分野ベクトルと前記算出された単語ベクトルとの類似性に基づいて、前記入力された文書データが属する分野を判定し、専門分野に係る言葉情報を含んだ専門辞書の内の前記判定された分野の専門辞書を参照して、前記入力された文書データに関する言語処理を行う。
【００２０】
また、他は、基本辞書を参照して、入力された文書データから記述内容に含まれる単語を抽出するとともに当該単語の単語ベクトルを算出する解析を行い、分野を特徴付ける分野ベクトルと前記算出された単語ベクトルとの類似性に基づいて、前記入力された文書データが属する分野を判定し、専門分野に係る単語の重要度や接続規則を含んだ専門学習情報の内の前記判定された分野の専門学習情報を参照して、前記入力文書データの解析結果を用いて当該入力文書データに関する言語処理を行う。すなわち、辞書を使った言語処理でなく、固有名詞抽出、文節区切り、構文解析などの処理を学習データにより行いたい場合は、判定した分野の学習データと基本辞書による形態素解析結果を用いて、分野に適応させた処理を行うようにすることもできる。
【００２１】
【発明の実施の形態】
本発明を一実施例に基づいて具体的に説明する。
図１に示す本例の言語処理装置は、基本辞書データを記憶した基本辞書メモリ１、解析処理を行う解析部２、分野ベクトルを記憶したメモリ３を有する分野判定部４、メモリに格納された分野ベクトルをユーザが修正するための調整部５、複数の専門分野毎の辞書データ（又は、学習データ）を記憶した専門分野メモリ６、分野に応じた言語処理を行う言語処理部７を有している。
【００２２】
ここで、図１に示す構成において、専門分野メモリ６及び言語処理部７を備えずに分野判定装置の構成としてもよく、分野判定部４から判定結果として出力される分野情報に基づいて、入力された文書データの分類作業などを行うようにしてもよい。
なお、本例では、言語処理装置及び分野判定装置を構成する各機能部をコンピュータで本発明に係るプログラムを実行することにより構成しているが、それぞれ専用的な装置として構成してもよい。
【００２３】
基本辞書メモリ１は、読出し自在なメモリに基本辞書データを記憶したものであり、基本辞書データは可能な限り多くの分野の言葉を含んでいる。すなわち、基本辞書データは極く一般的な辞書データである。
解析部２は、入力された文書データを基本辞書データ１を参照して解析する処理モジュールであり、本例では主に形態素解析と単語ベクトルの算出を行う。
【００２４】
分野判定部４のメモリ３にはそれぞれ分野を特徴付ける可能な限り多くの分野ベクトルが予め格納されており、分野判定部４は、これら分野ベクトル３と解析部２で算出された単語ベクトルとの類似度を算出し、最も高い類似度となる分野を判定結果として出力する処理モジュールである。
なお、本例では、最も類似する分野を判定結果とするが、類似度の高位の幾つかの分野を判例結果として出力したり、これら分野に順位を付けて出力するようにしてもよい。
【００２５】
調整部５は、ユーザからの入力インタフェースやメモリ３の書き換え機能を有しており、ユーザ入力に応じてメモリ３に格納されている分野ベクトルを修正する。すなわち、判定結果や言語処理結果を所望の精度で得られないような場合、ユーザは調整部５によって、分野判定の基準となる分野ベクトルを修正して、判定精度を改善させることができる。
【００２６】
専門分野メモリ６は読出し自在なメモリに可能な限り多くの分野についての専門辞書データ及び学習データを記憶したものであり、それぞれの専門辞書データ及び学習データは当該分野の専門的な言葉及び学習データ（固有名詞抽出規則、人名など）を含んでいる。すなわち、専門辞書データ及び学習データはそれぞれ異なる分野Ａ、Ｂ…の専門的な知識情報である。
【００２７】
なお、本例では機械翻訳などの専門辞書データを用いた言語処理と、固有名詞抽出などの学習データを用いた言語処理との両方を行うことから、専門辞書データと学習データとの両方を備えているが、いずれか一方の言語処理を行う場合には、専門辞書データと学習データもいずれか一方を備えればよい。
【００２８】
言語処理部７は、分野判定部４により判定された結果に応じて該当する分野の専門辞書データ又は学習データ６を参照し、入力された文書に関する言語処理を行う。
ここで、機械翻訳などの言語処理を行う場合には、解析部２に入力した文書データを言語処理部７に入力して、言語処理部７が該当する専門辞書データを参照しながら所定の言語処理を行う。また、固有名詞抽出処理、文節区切り処理、構文解析処理などの言語処理を行う場合には、解析部２で得られた形態素解析結果は一応の単語や文節抽出がなされているので、この形態素解析結果を言語処理部７に入力して、言語処理部７が該当する学習データを参照しながら所定の言語処理を行う。
【００２９】
本例の装置によると、図２に示すような手順で処理がなされる。
まず、データベースからの抽出や文字読み取りなどによって得られた文書データが解析部２に入力されると（ステップＳ１）、解析部２が基本辞書１を参照して入力文書データを形態素解析し（ステップＳ２）、更に、解析部２が形態素解析によって得られた入力文書データ中のそれぞれ単語について当該単語の特徴と示す単語ベクトルを算出する（ステップＳ３）。
【００３０】
次いで、分野判定部４が算出された単語ベクトルとメモリ３に格納されている各分野ベクトルとの類似度を算出し（ステップＳ４）、算出された類似度が最も高い分野ベクトルの分野を判定結果として出力する（ステップＳ５）。
なお、このようにして判定された分野情報は言語解析部７で利用されて、言語解析部７が判定された分野に該当する専門辞書データ又は学習データを参照して入力文書データに関する言語処理を行う。
【００３１】
次に、具体例も用いて更に詳しく説明する。
まず、分野ベクトルは、予め集めた様々な分野の文書集合を人手で分類し、基本語辞書を用いて形態素解析を行ってＴｆ＊ｉｄｆ（Ｔｅｒｍｆｒｅｑｕｅｎｃｙ＊ｉｎｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ）を求めることにより作成し、これをメモリ３に格納しておく。具体的には、文書集合を分類した分野別に、それぞれの分野に含まれる文書中の単語についてＴｆ＊ｉｄｆの平均を算出し、その平均値からなるベクトルをその分野を特徴付ける分野ベクトルとする。なお、未登録語に関しては単語集合に加えてもよいし、基本語のみの集合で行ってもよい。
【００３２】
すなわち、分野ベクトルＸは次のようになる。
ここで、ｘは文書のベクトルを示し、各ｘｉは文書ベクトルを構成する要素を示し、ｄは基本辞書に含まれる単語数を示す。
【００３３】
ｘｉ＝Ｔｆ＊ｉｄｆ＝（文書中にｉ番目の単語が現れる頻度）／（ｉ番目の単語を含む文書数（なお、母集合は全分野の文書））、
ｘ＝（ｘ１、ｘ２、…ｘｄ）、
Ｘはこのｘの平均値
【００３４】
具体例として、図３に示すように、ＩＴ、生物、法律、医学の４つの分野に関する分野ベクトルが上記の手法で求められて分野判定部４に登録されているとする。
そして、図４（ａ）に示すような文書データが入力されて、解析部２で形態素解析して図４（ｂ）に示すような形態素解析結果を得たとする。
【００３５】
この入力文書データ中の各単語の出現頻度から解析部２によって求められる当該文書を特徴付ける単語ベクトルは図５に示すようになる。
上記した各分野の代表Ｔｆ＊ｉｄｆから成る分野ベクトルｘと、入力文書データ中の単語の出現頻度から成る単語ベクトルｙ（共に語集合は基本語の範囲）から分野判定部４が類似度ｓを算出して、最も適した分野を選定する。
【００３６】
ｓ＝Σｘｉ＊ｙｉ
【００３７】
この具体例では、ＩＴ分野の分野ベクトルとの類似度ｓは、ｓ＝４＊０．６＋３＊０．７＋０＊０．１＋０＊０＋０＊０＋０＊０＋０＊０＋０＊０＝４．５、として算出される。
また、生物分野の分野ベクトルとの類似度ｓは、ｓ＝４＊０＋３＊０＋０＊０．７＋０＊０．５＋０＊０＋０＊０＋０＊０＋０＊０＝０、として算出される。
【００３８】
また、法律分野の分野ベクトルとの類似度ｓは、ｓ＝４＊０＋３＊０＋０＊０．１＋０＊０＋０＊０．６＋０＊０．５＋０＊０＋０＊０＝０、として算出される。
また、医学分野の分野ベクトルとの類似度ｓは、ｓ＝４＊０＋３＊０＋０＊０．２＋０＊０＋０＊０＋０＊０＋０＊０．６＋０＊０．５＝０、として算出される。
【００３９】
この結果、この具体例では、分野判定部４が、図４（ａ）に示す入力された文書データは類似度ｓが最も高いＩＴ分野に属すると判定する。
この後、当該入力文書データに関して言語処理部７がＩＴ分野に最適化された専門辞書データ又は学習データ６を用いて言語処理を行う。
【００４０】
【発明の効果】
以上説明したように、本発明によると、分野ベクトルと単語ベクトルとによる類似性の判定という迅速な処理によって、処理対象の文書データが属する分野を精度よく判定することができる。そして、本発明によると、このような判定結果に基づいて、入力された文書データに関する言語処理を専門知識を用いて精度よく行うことができる。
【図面の簡単な説明】
【図１】本発明の一実施例に係る言語処理装置の構成図である。
【図２】本発明の一実施例に係る言語処理装置の処理手順を説明する図である。
【図３】分野ベクトルの一具体例を示す図である。
【図４】入力文書及び形態素解析結果の一具体例を示す図である。
【図５】単語ベクトルの一具体例を示す図である。
【符号の説明】
１：基本辞書、２：解析部、
３：分野ベクトル、４：分野判定部、
５：調整部、６：専門辞書及び学習データ、
７：言語処理部、

Claims

文書の記述内容が属する分野を判定する装置であって、
複数の分野に係る言葉情報を含んだ基本辞書を参照して、入力された文書データから記述内容に含まれる単語の単語ベクトルを算出する解析手段と、
分野を特徴付ける分野ベクトルと前記算出された単語ベクトルとの類似性に基づいて、前記文書データが属する分野を判定する分野判定手段と、
を備えたことを特徴とする分野判定装置。
請求項１に記載の分野判定装置において、
前記分野ベクトルは予め用意されて記憶手段に保持されており、
更に、当該保持された分野情報をユーザ入力に応じて修正する調整手段を備えたことを特徴とする分野判定装置。
文書の記述内容が属する分野に応じた言語処理を行う言語処理装置であって、
複数の分野に係る言葉情報を含んだ基本辞書手段と、
専門分野に係る言葉情報を含んだ専門辞書手段と、
基本辞書手段を参照して、入力された文書データから記述内容に含まれる単語の単語ベクトルを算出する解析手段と、
分野を特徴付ける分野ベクトルと前記算出された単語ベクトルとの類似性に基づいて、前記入力された文書データが属する分野を判定する分野判定手段と、
前記判定された分野の専門辞書手段を参照して、前記入力された文書データに関する言語処理を行う言語処理手段と、
を備えたことを特徴とする言語処理装置。
文書の記述内容が属する分野に応じた言語処理を行う言語処理装置であって、
複数の分野に係る言葉情報を含んだ基本辞書手段と、
専門分野に係る単語の重要度や接続規則を含んだ専門学習情報手段と、
基本辞書手段を参照して、入力された文書データから記述内容に含まれる単語を抽出するとともに当該単語の単語ベクトルを算出する解析手段と、
分野を特徴付ける分野ベクトルと前記算出された単語ベクトルとの類似性に基づいて、前記入力された文書データが属する分野を判定する分野判定手段と、
前記判定された分野の専門学習情報手段を参照して、前記入力文書データの解析結果を用いて当該入力文書データに関する言語処理を行う言語処理手段と、
を備えたことを特徴とする言語処理装置。
請求項３又は請求項４に記載の言語処理装置において、
前記分野ベクトルは予め用意されて記憶手段に保持されており、
更に、当該保持された分野情報をユーザ入力に応じて修正する調整手段を備えたことを特徴とする言語処理装置。
文書の記述内容が属する分野を判定する処理をコンピュータに実行させるプログラムであって、
複数の分野に係る言葉情報を含んだ基本辞書を参照して、入力された文書データから記述内容に含まれる単語の単語ベクトルを算出する解析機能と、
分野を特徴付ける分野ベクトルを参照して、当該分野ベクトルと前記算出された単語ベクトルとの類似性に基づいて前記文書データが属する分野を判定する分野判定機能と、
をコンピュータに実現することを特徴とするプログラム。
文書の記述内容が属する分野に応じた言語処理をコンピュータに実行させるプログラムであって、
複数の分野に係る言葉情報を含んだ基本辞書を参照して、入力された文書データから記述内容に含まれる単語の単語ベクトルを算出する解析機能と、
分野を特徴付ける分野ベクトルを参照して、当該分野ベクトルと前記算出された単語ベクトルとの類似性に基づいて、前記入力された文書データが属する分野を判定する分野判定機能と、
専門分野に係る言葉情報を含んだ専門辞書の内から前記判定された分野のものを参照して、前記入力された文書データに関する言語処理を行う言語処理機能と、
をコンピュータに実現することを特徴とするプログラム。
文書の記述内容が属する分野に応じた言語処理をコンピュータに実行させるプログラムであって、
複数の分野に係る言葉情報を含んだ基本辞書を参照して、入力された文書データから記述内容に含まれる単語を抽出するとともに当該単語の単語ベクトルを算出する解析機能と、
分野を特徴付ける分野ベクトルを参照して、当該分野ベクトルと前記算出された単語ベクトルとの類似性に基づいて、前記入力された文書データが属する分野を判定する分野判定機能と、
専門分野に係る単語の重要度や接続規則を含んだ専門学習情報の内から前記判定された分野のものを参照して、前記入力された文書データの解析結果を用いて当該入力文書データに関する言語処理を行う言語処理機能と、
をコンピュータに実現することを特徴とするプログラム。
文書の記述内容が属する分野を判定する方法であって、
複数の分野に係る言葉情報を含んでメモリに記憶されている基本辞書データを参照して、入力された文書データから記述内容に含まれる単語の単語ベクトルを算出し、
分野を特徴付ける分野ベクトルと前記算出された単語ベクトルとの類似度を算出して、算出された類似度が最も高い分野を前記文書データが属する分野と判定することを特徴とする分野判定方法。
文書の記述内容が属する分野に応じた言語処理を行う方法であって、
複数の分野に係る言葉情報を含んでメモリに記憶されている基本辞書データを参照して、入力された文書データから記述内容に含まれる単語の単語ベクトルを算出し、
分野を特徴付ける分野ベクトルと前記算出された単語ベクトルとの類似度を算出して、算出された類似度が最も高い分野を前記入力された文書データが属する分野と判定し、
専門分野に係る言葉情報を含んでメモリに記憶されている専門辞書データの内から前記判定された分野のものを参照して、前記入力された文書データに関する言語処理を行うことを特徴とする言語処理方法。
文書の記述内容が属する分野に応じた言語処理を行う方法であって、
複数の分野に係る言葉情報を含んでメモリに記憶されている基本辞書データを参照して、入力された文書データから記述内容に含まれる単語を抽出するとともに当該単語の単語ベクトルを算出し、
分野を特徴付ける分野ベクトルと前記算出された単語ベクトルとの類似度を算出して、算出された類似度が最も高い分野を前記入力された文書データが属する分野と判定し、
専門分野に係る単語の重要度や接続規則を含んでメモリに記憶されている専門学習データの内から前記判定された分野のものを参照して、前記入力された文書データの解析結果を用いて当該入力文書データに関する言語処理を行うことを特徴とする言語処理方法。