JP2004280316A - 分野判定装置及び言語処理装置 - Google Patents
分野判定装置及び言語処理装置 Download PDFInfo
- Publication number
- JP2004280316A JP2004280316A JP2003069017A JP2003069017A JP2004280316A JP 2004280316 A JP2004280316 A JP 2004280316A JP 2003069017 A JP2003069017 A JP 2003069017A JP 2003069017 A JP2003069017 A JP 2003069017A JP 2004280316 A JP2004280316 A JP 2004280316A
- Authority
- JP
- Japan
- Prior art keywords
- field
- word
- document data
- vector
- language processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】文書データが属する分野を判定し、更には、判定された分野の専門的な辞書や学習データを用いて当該文書データを言語処理する。
【解決手段】基本辞書1に複数の分野に係る一般的な言葉情報を含む基本辞書1と、専門分野に係る言葉情報を含む専門辞書6とを備え、文書データが入力されると、解析部2が基本辞書1を参照して、入力された文書データから記述内容に含まれる単語の単語ベクトルを算出し、分野判定部4が分野を特徴付ける分野ベクトル3と算出された単語ベクトルとの類似性を算出して、類似性が最も高い分野を入力された文書データが属する分野として判定する。そして、言語処理部7が、判定された分野の専門辞書6を参照して、前記入力された文書データに関する言語処理を行う。
【選択図】 図1
【解決手段】基本辞書1に複数の分野に係る一般的な言葉情報を含む基本辞書1と、専門分野に係る言葉情報を含む専門辞書6とを備え、文書データが入力されると、解析部2が基本辞書1を参照して、入力された文書データから記述内容に含まれる単語の単語ベクトルを算出し、分野判定部4が分野を特徴付ける分野ベクトル3と算出された単語ベクトルとの類似性を算出して、類似性が最も高い分野を入力された文書データが属する分野として判定する。そして、言語処理部7が、判定された分野の専門辞書6を参照して、前記入力された文書データに関する言語処理を行う。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、文書データが属する分野を判定し、更には、判定された分野の専門的な辞書や学習データを用いて当該文書データを言語処理する技術に関する。
【0002】
【従来の技術】
機械翻訳などの目的のために、文書データに形態素解析や固有名詞抽出などの言語処理を施すことが行われている。このような形態素解析や固有名詞抽出などの言語処理は、一般的な名詞、動詞、助詞、助動詞などから構成される基本辞書(一般辞書)を参照して行われ、入力された文書データの内容を記述している自然言語から単語認識などする。
なお、ユーザが単語を独自に登録するユーザ辞書を基本辞書に併用することも行われている。
【0003】
ここで、原文入力装置からの原文データが翻訳装置本体に送られると原文のタイプが判断され、原文のタイプに応じた解析規則によって、構文・意味解析が行われる機械翻訳システムが提案されている。
このシステムでは、翻訳処理前に、翻訳装置本体が辞書に含まれるキーワード辞書を用いて、入力された原文の分野を決定し、システム辞書の訳語の優先順位を決定・変更し、最優先の訳語を選択するようにしている(特許文献1参照。)。
【0004】
この提案は、原文のタイプに応じた解析結果が得られ、翻訳作業で最適な訳語を自動的に選択できるようにすることを目的としているが、全てのキーワードについて、その訳語の分野を調べ、最も多い分野をその文書の分野に決定すると言う手法を採用している点、翻訳辞書の決定を目的としている点など、下記に詳しく説明する本発明と謙著に相違している。
【0005】
また、入力された原文中の単語毎にその単語の語形をキーとして分野キーワード辞書を検索し、検索された単語が分野キーワード辞書中にある場合は、対応する分野を分野バッファの持つ記憶場所に記録し、そして、分野バッファに記録された分野の数を集計し、最頻の分野を求める言語解析装置が提案されている(特許文献2参照。)。
【0006】
この提案は、分野を自動判定するものであるが、各キーワードについて分野辞書を検索して最頻の分野を選択するといった手法で処理速度が著しく遅い点など、下記に詳しく説明する本発明と謙著に相違している。
【0007】
また、原文データを構文解析し、その構文毎の訳語が複数の専門用語辞書のそれぞれに存在するか否かをチェックすると共に、訳語の存在した辞書に対応する訳語チェックカウンタをカウントアップさせ、この訳語チェックカウンタにおけるカウントデータの大小に応じて各専門用語辞書の選択順位を設定し、実際の翻訳処理に伴い、被翻訳文書データに対応する訳語を上記設定順位に応じて専門用語辞書を選択して検索する機械翻訳システムにおける訳語選択装置が提案されている(特許文献3参照。)。
【0008】
この提案は、より原文に近い翻訳処理を行なうことを目的としているが、各センテンス毎に専門用語辞書を検索して訳の存在をチェックして最もカウントアップが多い分野の辞書を使う点など、下記に詳しく説明する本発明と謙著に相違している。
【0009】
また、入力された入力文の辞書引きを行ない、基本語辞書記述の文脈ベクトルを用いて翻訳に利用する専門用語辞書(分野コード)を判断する専門用語辞書(分野コード)自動選択部を設け、専門用語辞書(分野コード)の自動選択により、より効率的に翻訳作業が行なえ、専門用語辞書の利用または分野コードの利用により、より高品質な翻訳を行なうことができる機械翻訳装置が提案されている(特許文献4参照。)。
【0010】
この提案は、複数のユーザのユーザ辞書に登録されている語を共通の基本語・専門用語辞書に登録する方式に関するものである点など、下記に詳しく説明する本発明と謙著に相違している。
【0011】
【特許文献1】
特開平5―61902号公報
【特許文献2】
特開平5―135094号公報
【特許文献3】
特開平6―60117号公報
【特許文献4】
特開平6―332946号公報
【0012】
【発明が解決しようとする課題】
従来より言語処理では、一般的な辞書では辞書に登録されていない分野独特の固有名詞がその形態素のまとまりとして抽出されない場合、また、同じ字面の単語でも出現している分野によりその品詞が異なって正しい結果が得られない場合などがあった。
【0013】
言語処理の対象となる文書として世の中の様々な分野の電子的な文字データが対象になるが、ほとんどの言語処理は、一律に一般的な辞書を用い、専門家には一般的な辞書に加えて専門用語辞書を付加させて用いて行っていた。
また、近年、文書サーバで多くの分野の文書データを一括して扱うケースも増えており、単分野の辞書構成だけでは、高度な言語処理を行うには未登録語が多く、また、固有名詞抽出や複合語抽出(形態素を入力者が意図したまとまりにまとめる処理)の精度が足りない状況になっている。
【0014】
本発明は上記従来の事情に鑑みなされたもので、従来とは異なる新規な手法にて、文書データが属する分野を判定することを目的としている。
また、本発明は、このようにして判定した分野の専門的な辞書や学習データを用いて当該文書データの高精度な言語処理を実現することを目的とする。
なお、本発明に更なる目的は以下に説明するところにより明らかである。
【0015】
【課題を解決するための手段】
本発明は、文書の記述内容が属する分野を判定する装置、このように判定された分野に応じた言語処理を行う言語処理装置、これら装置をコンピュータによって実現するプログラム、これら装置によって実施可能な方法と言ったように種々なカテゴリーで実施できる。
【0016】
具体的には、本発明では、複数の分野に係る言葉情報を含んだ基本辞書を参照して、入力された文書データから記述内容に含まれる単語の単語ベクトルを算出する解析を行い、分野を特徴付ける分野ベクトルと前記算出された単語ベクトルとの類似性に基づいて、前記文書データが属する分野を判定するようにして、文書の記述内容が属する分野を判定する。
【0017】
このようにして判定した結果は、機械翻訳や固有名詞抽出などと言った種々な言語処理に利用することができるが、言語処理に限らず、文書の分野毎の分類作業などにも利用することができる。また、本発明は、日本語文書に限らず、英語など種々な言語の文書処理に適用できることは言うでもない。
なお、判定結果の精度などに応じて、予め用意されて記憶手段に保持されている分野ベクトルを、ユーザが修正できるようにしておくのが好ましい。
【0018】
上記の判定結果を利用する本発明の言語処理では、次のような2つの特徴的な構成とすることができる。すなわち、入力文書がいずれの分野のものであっても、該当する分野の専門的な知識を用いて最適な言語処理を実現する。
【0019】
まず、1つは、複数の分野に係る言葉情報を含んだ基本辞書を参照して、入力された文書データから記述内容に含まれる単語の単語ベクトルを算出する解析を行い、分野を特徴付ける分野ベクトルと前記算出された単語ベクトルとの類似性に基づいて、前記入力された文書データが属する分野を判定し、専門分野に係る言葉情報を含んだ専門辞書の内の前記判定された分野の専門辞書を参照して、前記入力された文書データに関する言語処理を行う。
【0020】
また、他は、基本辞書を参照して、入力された文書データから記述内容に含まれる単語を抽出するとともに当該単語の単語ベクトルを算出する解析を行い、分野を特徴付ける分野ベクトルと前記算出された単語ベクトルとの類似性に基づいて、前記入力された文書データが属する分野を判定し、専門分野に係る単語の重要度や接続規則を含んだ専門学習情報の内の前記判定された分野の専門学習情報を参照して、前記入力文書データの解析結果を用いて当該入力文書データに関する言語処理を行う。すなわち、辞書を使った言語処理でなく、固有名詞抽出、文節区切り、構文解析などの処理を学習データにより行いたい場合は、判定した分野の学習データと基本辞書による形態素解析結果を用いて、分野に適応させた処理を行うようにすることもできる。
【0021】
【発明の実施の形態】
本発明を一実施例に基づいて具体的に説明する。
図1に示す本例の言語処理装置は、基本辞書データを記憶した基本辞書メモリ1、解析処理を行う解析部2、分野ベクトルを記憶したメモリ3を有する分野判定部4、メモリに格納された分野ベクトルをユーザが修正するための調整部5、複数の専門分野毎の辞書データ(又は、学習データ)を記憶した専門分野メモリ6、分野に応じた言語処理を行う言語処理部7を有している。
【0022】
ここで、図1に示す構成において、専門分野メモリ6及び言語処理部7を備えずに分野判定装置の構成としてもよく、分野判定部4から判定結果として出力される分野情報に基づいて、入力された文書データの分類作業などを行うようにしてもよい。
なお、本例では、言語処理装置及び分野判定装置を構成する各機能部をコンピュータで本発明に係るプログラムを実行することにより構成しているが、それぞれ専用的な装置として構成してもよい。
【0023】
基本辞書メモリ1は、読出し自在なメモリに基本辞書データを記憶したものであり、基本辞書データは可能な限り多くの分野の言葉を含んでいる。すなわち、基本辞書データは極く一般的な辞書データである。
解析部2は、入力された文書データを基本辞書データ1を参照して解析する処理モジュールであり、本例では主に形態素解析と単語ベクトルの算出を行う。
【0024】
分野判定部4のメモリ3にはそれぞれ分野を特徴付ける可能な限り多くの分野ベクトルが予め格納されており、分野判定部4は、これら分野ベクトル3と解析部2で算出された単語ベクトルとの類似度を算出し、最も高い類似度となる分野を判定結果として出力する処理モジュールである。
なお、本例では、最も類似する分野を判定結果とするが、類似度の高位の幾つかの分野を判例結果として出力したり、これら分野に順位を付けて出力するようにしてもよい。
【0025】
調整部5は、ユーザからの入力インタフェースやメモリ3の書き換え機能を有しており、ユーザ入力に応じてメモリ3に格納されている分野ベクトルを修正する。すなわち、判定結果や言語処理結果を所望の精度で得られないような場合、ユーザは調整部5によって、分野判定の基準となる分野ベクトルを修正して、判定精度を改善させることができる。
【0026】
専門分野メモリ6は読出し自在なメモリに可能な限り多くの分野についての専門辞書データ及び学習データを記憶したものであり、それぞれの専門辞書データ及び学習データは当該分野の専門的な言葉及び学習データ(固有名詞抽出規則、人名など)を含んでいる。すなわち、専門辞書データ及び学習データはそれぞれ異なる分野A、B…の専門的な知識情報である。
【0027】
なお、本例では機械翻訳などの専門辞書データを用いた言語処理と、固有名詞抽出などの学習データを用いた言語処理との両方を行うことから、専門辞書データと学習データとの両方を備えているが、いずれか一方の言語処理を行う場合には、専門辞書データと学習データもいずれか一方を備えればよい。
【0028】
言語処理部7は、分野判定部4により判定された結果に応じて該当する分野の専門辞書データ又は学習データ6を参照し、入力された文書に関する言語処理を行う。
ここで、機械翻訳などの言語処理を行う場合には、解析部2に入力した文書データを言語処理部7に入力して、言語処理部7が該当する専門辞書データを参照しながら所定の言語処理を行う。また、固有名詞抽出処理、文節区切り処理、構文解析処理などの言語処理を行う場合には、解析部2で得られた形態素解析結果は一応の単語や文節抽出がなされているので、この形態素解析結果を言語処理部7に入力して、言語処理部7が該当する学習データを参照しながら所定の言語処理を行う。
【0029】
本例の装置によると、図2に示すような手順で処理がなされる。
まず、データベースからの抽出や文字読み取りなどによって得られた文書データが解析部2に入力されると(ステップS1)、解析部2が基本辞書1を参照して入力文書データを形態素解析し(ステップS2)、更に、解析部2が形態素解析によって得られた入力文書データ中のそれぞれ単語について当該単語の特徴と示す単語ベクトルを算出する(ステップS3)。
【0030】
次いで、分野判定部4が算出された単語ベクトルとメモリ3に格納されている各分野ベクトルとの類似度を算出し(ステップS4)、算出された類似度が最も高い分野ベクトルの分野を判定結果として出力する(ステップS5)。
なお、このようにして判定された分野情報は言語解析部7で利用されて、言語解析部7が判定された分野に該当する専門辞書データ又は学習データを参照して入力文書データに関する言語処理を行う。
【0031】
次に、具体例も用いて更に詳しく説明する。
まず、分野ベクトルは、予め集めた様々な分野の文書集合を人手で分類し、基本語辞書を用いて形態素解析を行ってTf*idf(Term frequency * in document frequency)を求めることにより作成し、これをメモリ3に格納しておく。具体的には、文書集合を分類した分野別に、それぞれの分野に含まれる文書中の単語についてTf*idfの平均を算出し、その平均値からなるベクトルをその分野を特徴付ける分野ベクトルとする。なお、未登録語に関しては単語集合に加えてもよいし、基本語のみの集合で行ってもよい。
【0032】
すなわち、分野ベクトルXは次のようになる。
ここで、xは文書のベクトルを示し、各xiは文書ベクトルを構成する要素を示し、dは基本辞書に含まれる単語数を示す。
【0033】
xi=Tf*idf=(文書中にi番目の単語が現れる頻度)/(i番目の単語を含む文書数(なお、母集合は全分野の文書))、
x=(x1、x2、…xd)、
Xはこのxの平均値
【0034】
具体例として、図3に示すように、IT、生物、法律、医学の4つの分野に関する分野ベクトルが上記の手法で求められて分野判定部4に登録されているとする。
そして、図4(a)に示すような文書データが入力されて、解析部2で形態素解析して図4(b)に示すような形態素解析結果を得たとする。
【0035】
この入力文書データ中の各単語の出現頻度から解析部2によって求められる当該文書を特徴付ける単語ベクトルは図5に示すようになる。
上記した各分野の代表Tf*idfから成る分野ベクトルxと、入力文書データ中の単語の出現頻度から成る単語ベクトルy(共に語集合は基本語の範囲)から分野判定部4が類似度sを算出して、最も適した分野を選定する。
【0036】
s=Σxi*yi
【0037】
この具体例では、IT分野の分野ベクトルとの類似度sは、s = 4*0.6+ 3*0.7 + 0*0.1 + 0*0 + 0*0 + 0*0 + 0*0 + 0*0 = 4.5、として算出される。
また、生物分野の分野ベクトルとの類似度sは、s = 4*0 + 3*0 + 0*0.7 + 0*0.5 + 0*0 + 0*0 + 0*0 + 0*0 = 0、として算出される。
【0038】
また、法律分野の分野ベクトルとの類似度sは、s = 4*0 + 3*0 + 0*0.1 + 0*0 + 0*0.6 + 0*0.5 + 0*0 + 0*0 = 0、として算出される。
また、医学分野の分野ベクトルとの類似度sは、s = 4*0 + 3*0 + 0*0.2 + 0*0 + 0*0 + 0*0 + 0*0.6 + 0*0.5 = 0、として算出される。
【0039】
この結果、この具体例では、分野判定部4が、図4(a)に示す入力された文書データは類似度sが最も高いIT分野に属すると判定する。
この後、当該入力文書データに関して言語処理部7がIT分野に最適化された専門辞書データ又は学習データ6を用いて言語処理を行う。
【0040】
【発明の効果】
以上説明したように、本発明によると、分野ベクトルと単語ベクトルとによる類似性の判定という迅速な処理によって、処理対象の文書データが属する分野を精度よく判定することができる。そして、本発明によると、このような判定結果に基づいて、入力された文書データに関する言語処理を専門知識を用いて精度よく行うことができる。
【図面の簡単な説明】
【図1】本発明の一実施例に係る言語処理装置の構成図である。
【図2】本発明の一実施例に係る言語処理装置の処理手順を説明する図である。
【図3】分野ベクトルの一具体例を示す図である。
【図4】入力文書及び形態素解析結果の一具体例を示す図である。
【図5】単語ベクトルの一具体例を示す図である。
【符号の説明】
1:基本辞書、 2:解析部、
3:分野ベクトル、 4:分野判定部、
5:調整部、 6:専門辞書及び学習データ、
7:言語処理部、
【発明の属する技術分野】
本発明は、文書データが属する分野を判定し、更には、判定された分野の専門的な辞書や学習データを用いて当該文書データを言語処理する技術に関する。
【0002】
【従来の技術】
機械翻訳などの目的のために、文書データに形態素解析や固有名詞抽出などの言語処理を施すことが行われている。このような形態素解析や固有名詞抽出などの言語処理は、一般的な名詞、動詞、助詞、助動詞などから構成される基本辞書(一般辞書)を参照して行われ、入力された文書データの内容を記述している自然言語から単語認識などする。
なお、ユーザが単語を独自に登録するユーザ辞書を基本辞書に併用することも行われている。
【0003】
ここで、原文入力装置からの原文データが翻訳装置本体に送られると原文のタイプが判断され、原文のタイプに応じた解析規則によって、構文・意味解析が行われる機械翻訳システムが提案されている。
このシステムでは、翻訳処理前に、翻訳装置本体が辞書に含まれるキーワード辞書を用いて、入力された原文の分野を決定し、システム辞書の訳語の優先順位を決定・変更し、最優先の訳語を選択するようにしている(特許文献1参照。)。
【0004】
この提案は、原文のタイプに応じた解析結果が得られ、翻訳作業で最適な訳語を自動的に選択できるようにすることを目的としているが、全てのキーワードについて、その訳語の分野を調べ、最も多い分野をその文書の分野に決定すると言う手法を採用している点、翻訳辞書の決定を目的としている点など、下記に詳しく説明する本発明と謙著に相違している。
【0005】
また、入力された原文中の単語毎にその単語の語形をキーとして分野キーワード辞書を検索し、検索された単語が分野キーワード辞書中にある場合は、対応する分野を分野バッファの持つ記憶場所に記録し、そして、分野バッファに記録された分野の数を集計し、最頻の分野を求める言語解析装置が提案されている(特許文献2参照。)。
【0006】
この提案は、分野を自動判定するものであるが、各キーワードについて分野辞書を検索して最頻の分野を選択するといった手法で処理速度が著しく遅い点など、下記に詳しく説明する本発明と謙著に相違している。
【0007】
また、原文データを構文解析し、その構文毎の訳語が複数の専門用語辞書のそれぞれに存在するか否かをチェックすると共に、訳語の存在した辞書に対応する訳語チェックカウンタをカウントアップさせ、この訳語チェックカウンタにおけるカウントデータの大小に応じて各専門用語辞書の選択順位を設定し、実際の翻訳処理に伴い、被翻訳文書データに対応する訳語を上記設定順位に応じて専門用語辞書を選択して検索する機械翻訳システムにおける訳語選択装置が提案されている(特許文献3参照。)。
【0008】
この提案は、より原文に近い翻訳処理を行なうことを目的としているが、各センテンス毎に専門用語辞書を検索して訳の存在をチェックして最もカウントアップが多い分野の辞書を使う点など、下記に詳しく説明する本発明と謙著に相違している。
【0009】
また、入力された入力文の辞書引きを行ない、基本語辞書記述の文脈ベクトルを用いて翻訳に利用する専門用語辞書(分野コード)を判断する専門用語辞書(分野コード)自動選択部を設け、専門用語辞書(分野コード)の自動選択により、より効率的に翻訳作業が行なえ、専門用語辞書の利用または分野コードの利用により、より高品質な翻訳を行なうことができる機械翻訳装置が提案されている(特許文献4参照。)。
【0010】
この提案は、複数のユーザのユーザ辞書に登録されている語を共通の基本語・専門用語辞書に登録する方式に関するものである点など、下記に詳しく説明する本発明と謙著に相違している。
【0011】
【特許文献1】
特開平5―61902号公報
【特許文献2】
特開平5―135094号公報
【特許文献3】
特開平6―60117号公報
【特許文献4】
特開平6―332946号公報
【0012】
【発明が解決しようとする課題】
従来より言語処理では、一般的な辞書では辞書に登録されていない分野独特の固有名詞がその形態素のまとまりとして抽出されない場合、また、同じ字面の単語でも出現している分野によりその品詞が異なって正しい結果が得られない場合などがあった。
【0013】
言語処理の対象となる文書として世の中の様々な分野の電子的な文字データが対象になるが、ほとんどの言語処理は、一律に一般的な辞書を用い、専門家には一般的な辞書に加えて専門用語辞書を付加させて用いて行っていた。
また、近年、文書サーバで多くの分野の文書データを一括して扱うケースも増えており、単分野の辞書構成だけでは、高度な言語処理を行うには未登録語が多く、また、固有名詞抽出や複合語抽出(形態素を入力者が意図したまとまりにまとめる処理)の精度が足りない状況になっている。
【0014】
本発明は上記従来の事情に鑑みなされたもので、従来とは異なる新規な手法にて、文書データが属する分野を判定することを目的としている。
また、本発明は、このようにして判定した分野の専門的な辞書や学習データを用いて当該文書データの高精度な言語処理を実現することを目的とする。
なお、本発明に更なる目的は以下に説明するところにより明らかである。
【0015】
【課題を解決するための手段】
本発明は、文書の記述内容が属する分野を判定する装置、このように判定された分野に応じた言語処理を行う言語処理装置、これら装置をコンピュータによって実現するプログラム、これら装置によって実施可能な方法と言ったように種々なカテゴリーで実施できる。
【0016】
具体的には、本発明では、複数の分野に係る言葉情報を含んだ基本辞書を参照して、入力された文書データから記述内容に含まれる単語の単語ベクトルを算出する解析を行い、分野を特徴付ける分野ベクトルと前記算出された単語ベクトルとの類似性に基づいて、前記文書データが属する分野を判定するようにして、文書の記述内容が属する分野を判定する。
【0017】
このようにして判定した結果は、機械翻訳や固有名詞抽出などと言った種々な言語処理に利用することができるが、言語処理に限らず、文書の分野毎の分類作業などにも利用することができる。また、本発明は、日本語文書に限らず、英語など種々な言語の文書処理に適用できることは言うでもない。
なお、判定結果の精度などに応じて、予め用意されて記憶手段に保持されている分野ベクトルを、ユーザが修正できるようにしておくのが好ましい。
【0018】
上記の判定結果を利用する本発明の言語処理では、次のような2つの特徴的な構成とすることができる。すなわち、入力文書がいずれの分野のものであっても、該当する分野の専門的な知識を用いて最適な言語処理を実現する。
【0019】
まず、1つは、複数の分野に係る言葉情報を含んだ基本辞書を参照して、入力された文書データから記述内容に含まれる単語の単語ベクトルを算出する解析を行い、分野を特徴付ける分野ベクトルと前記算出された単語ベクトルとの類似性に基づいて、前記入力された文書データが属する分野を判定し、専門分野に係る言葉情報を含んだ専門辞書の内の前記判定された分野の専門辞書を参照して、前記入力された文書データに関する言語処理を行う。
【0020】
また、他は、基本辞書を参照して、入力された文書データから記述内容に含まれる単語を抽出するとともに当該単語の単語ベクトルを算出する解析を行い、分野を特徴付ける分野ベクトルと前記算出された単語ベクトルとの類似性に基づいて、前記入力された文書データが属する分野を判定し、専門分野に係る単語の重要度や接続規則を含んだ専門学習情報の内の前記判定された分野の専門学習情報を参照して、前記入力文書データの解析結果を用いて当該入力文書データに関する言語処理を行う。すなわち、辞書を使った言語処理でなく、固有名詞抽出、文節区切り、構文解析などの処理を学習データにより行いたい場合は、判定した分野の学習データと基本辞書による形態素解析結果を用いて、分野に適応させた処理を行うようにすることもできる。
【0021】
【発明の実施の形態】
本発明を一実施例に基づいて具体的に説明する。
図1に示す本例の言語処理装置は、基本辞書データを記憶した基本辞書メモリ1、解析処理を行う解析部2、分野ベクトルを記憶したメモリ3を有する分野判定部4、メモリに格納された分野ベクトルをユーザが修正するための調整部5、複数の専門分野毎の辞書データ(又は、学習データ)を記憶した専門分野メモリ6、分野に応じた言語処理を行う言語処理部7を有している。
【0022】
ここで、図1に示す構成において、専門分野メモリ6及び言語処理部7を備えずに分野判定装置の構成としてもよく、分野判定部4から判定結果として出力される分野情報に基づいて、入力された文書データの分類作業などを行うようにしてもよい。
なお、本例では、言語処理装置及び分野判定装置を構成する各機能部をコンピュータで本発明に係るプログラムを実行することにより構成しているが、それぞれ専用的な装置として構成してもよい。
【0023】
基本辞書メモリ1は、読出し自在なメモリに基本辞書データを記憶したものであり、基本辞書データは可能な限り多くの分野の言葉を含んでいる。すなわち、基本辞書データは極く一般的な辞書データである。
解析部2は、入力された文書データを基本辞書データ1を参照して解析する処理モジュールであり、本例では主に形態素解析と単語ベクトルの算出を行う。
【0024】
分野判定部4のメモリ3にはそれぞれ分野を特徴付ける可能な限り多くの分野ベクトルが予め格納されており、分野判定部4は、これら分野ベクトル3と解析部2で算出された単語ベクトルとの類似度を算出し、最も高い類似度となる分野を判定結果として出力する処理モジュールである。
なお、本例では、最も類似する分野を判定結果とするが、類似度の高位の幾つかの分野を判例結果として出力したり、これら分野に順位を付けて出力するようにしてもよい。
【0025】
調整部5は、ユーザからの入力インタフェースやメモリ3の書き換え機能を有しており、ユーザ入力に応じてメモリ3に格納されている分野ベクトルを修正する。すなわち、判定結果や言語処理結果を所望の精度で得られないような場合、ユーザは調整部5によって、分野判定の基準となる分野ベクトルを修正して、判定精度を改善させることができる。
【0026】
専門分野メモリ6は読出し自在なメモリに可能な限り多くの分野についての専門辞書データ及び学習データを記憶したものであり、それぞれの専門辞書データ及び学習データは当該分野の専門的な言葉及び学習データ(固有名詞抽出規則、人名など)を含んでいる。すなわち、専門辞書データ及び学習データはそれぞれ異なる分野A、B…の専門的な知識情報である。
【0027】
なお、本例では機械翻訳などの専門辞書データを用いた言語処理と、固有名詞抽出などの学習データを用いた言語処理との両方を行うことから、専門辞書データと学習データとの両方を備えているが、いずれか一方の言語処理を行う場合には、専門辞書データと学習データもいずれか一方を備えればよい。
【0028】
言語処理部7は、分野判定部4により判定された結果に応じて該当する分野の専門辞書データ又は学習データ6を参照し、入力された文書に関する言語処理を行う。
ここで、機械翻訳などの言語処理を行う場合には、解析部2に入力した文書データを言語処理部7に入力して、言語処理部7が該当する専門辞書データを参照しながら所定の言語処理を行う。また、固有名詞抽出処理、文節区切り処理、構文解析処理などの言語処理を行う場合には、解析部2で得られた形態素解析結果は一応の単語や文節抽出がなされているので、この形態素解析結果を言語処理部7に入力して、言語処理部7が該当する学習データを参照しながら所定の言語処理を行う。
【0029】
本例の装置によると、図2に示すような手順で処理がなされる。
まず、データベースからの抽出や文字読み取りなどによって得られた文書データが解析部2に入力されると(ステップS1)、解析部2が基本辞書1を参照して入力文書データを形態素解析し(ステップS2)、更に、解析部2が形態素解析によって得られた入力文書データ中のそれぞれ単語について当該単語の特徴と示す単語ベクトルを算出する(ステップS3)。
【0030】
次いで、分野判定部4が算出された単語ベクトルとメモリ3に格納されている各分野ベクトルとの類似度を算出し(ステップS4)、算出された類似度が最も高い分野ベクトルの分野を判定結果として出力する(ステップS5)。
なお、このようにして判定された分野情報は言語解析部7で利用されて、言語解析部7が判定された分野に該当する専門辞書データ又は学習データを参照して入力文書データに関する言語処理を行う。
【0031】
次に、具体例も用いて更に詳しく説明する。
まず、分野ベクトルは、予め集めた様々な分野の文書集合を人手で分類し、基本語辞書を用いて形態素解析を行ってTf*idf(Term frequency * in document frequency)を求めることにより作成し、これをメモリ3に格納しておく。具体的には、文書集合を分類した分野別に、それぞれの分野に含まれる文書中の単語についてTf*idfの平均を算出し、その平均値からなるベクトルをその分野を特徴付ける分野ベクトルとする。なお、未登録語に関しては単語集合に加えてもよいし、基本語のみの集合で行ってもよい。
【0032】
すなわち、分野ベクトルXは次のようになる。
ここで、xは文書のベクトルを示し、各xiは文書ベクトルを構成する要素を示し、dは基本辞書に含まれる単語数を示す。
【0033】
xi=Tf*idf=(文書中にi番目の単語が現れる頻度)/(i番目の単語を含む文書数(なお、母集合は全分野の文書))、
x=(x1、x2、…xd)、
Xはこのxの平均値
【0034】
具体例として、図3に示すように、IT、生物、法律、医学の4つの分野に関する分野ベクトルが上記の手法で求められて分野判定部4に登録されているとする。
そして、図4(a)に示すような文書データが入力されて、解析部2で形態素解析して図4(b)に示すような形態素解析結果を得たとする。
【0035】
この入力文書データ中の各単語の出現頻度から解析部2によって求められる当該文書を特徴付ける単語ベクトルは図5に示すようになる。
上記した各分野の代表Tf*idfから成る分野ベクトルxと、入力文書データ中の単語の出現頻度から成る単語ベクトルy(共に語集合は基本語の範囲)から分野判定部4が類似度sを算出して、最も適した分野を選定する。
【0036】
s=Σxi*yi
【0037】
この具体例では、IT分野の分野ベクトルとの類似度sは、s = 4*0.6+ 3*0.7 + 0*0.1 + 0*0 + 0*0 + 0*0 + 0*0 + 0*0 = 4.5、として算出される。
また、生物分野の分野ベクトルとの類似度sは、s = 4*0 + 3*0 + 0*0.7 + 0*0.5 + 0*0 + 0*0 + 0*0 + 0*0 = 0、として算出される。
【0038】
また、法律分野の分野ベクトルとの類似度sは、s = 4*0 + 3*0 + 0*0.1 + 0*0 + 0*0.6 + 0*0.5 + 0*0 + 0*0 = 0、として算出される。
また、医学分野の分野ベクトルとの類似度sは、s = 4*0 + 3*0 + 0*0.2 + 0*0 + 0*0 + 0*0 + 0*0.6 + 0*0.5 = 0、として算出される。
【0039】
この結果、この具体例では、分野判定部4が、図4(a)に示す入力された文書データは類似度sが最も高いIT分野に属すると判定する。
この後、当該入力文書データに関して言語処理部7がIT分野に最適化された専門辞書データ又は学習データ6を用いて言語処理を行う。
【0040】
【発明の効果】
以上説明したように、本発明によると、分野ベクトルと単語ベクトルとによる類似性の判定という迅速な処理によって、処理対象の文書データが属する分野を精度よく判定することができる。そして、本発明によると、このような判定結果に基づいて、入力された文書データに関する言語処理を専門知識を用いて精度よく行うことができる。
【図面の簡単な説明】
【図1】本発明の一実施例に係る言語処理装置の構成図である。
【図2】本発明の一実施例に係る言語処理装置の処理手順を説明する図である。
【図3】分野ベクトルの一具体例を示す図である。
【図4】入力文書及び形態素解析結果の一具体例を示す図である。
【図5】単語ベクトルの一具体例を示す図である。
【符号の説明】
1:基本辞書、 2:解析部、
3:分野ベクトル、 4:分野判定部、
5:調整部、 6:専門辞書及び学習データ、
7:言語処理部、
Claims (11)
- 文書の記述内容が属する分野を判定する装置であって、
複数の分野に係る言葉情報を含んだ基本辞書を参照して、入力された文書データから記述内容に含まれる単語の単語ベクトルを算出する解析手段と、
分野を特徴付ける分野ベクトルと前記算出された単語ベクトルとの類似性に基づいて、前記文書データが属する分野を判定する分野判定手段と、
を備えたことを特徴とする分野判定装置。 - 請求項1に記載の分野判定装置において、
前記分野ベクトルは予め用意されて記憶手段に保持されており、
更に、当該保持された分野情報をユーザ入力に応じて修正する調整手段を備えたことを特徴とする分野判定装置。 - 文書の記述内容が属する分野に応じた言語処理を行う言語処理装置であって、
複数の分野に係る言葉情報を含んだ基本辞書手段と、
専門分野に係る言葉情報を含んだ専門辞書手段と、
基本辞書手段を参照して、入力された文書データから記述内容に含まれる単語の単語ベクトルを算出する解析手段と、
分野を特徴付ける分野ベクトルと前記算出された単語ベクトルとの類似性に基づいて、前記入力された文書データが属する分野を判定する分野判定手段と、
前記判定された分野の専門辞書手段を参照して、前記入力された文書データに関する言語処理を行う言語処理手段と、
を備えたことを特徴とする言語処理装置。 - 文書の記述内容が属する分野に応じた言語処理を行う言語処理装置であって、
複数の分野に係る言葉情報を含んだ基本辞書手段と、
専門分野に係る単語の重要度や接続規則を含んだ専門学習情報手段と、
基本辞書手段を参照して、入力された文書データから記述内容に含まれる単語を抽出するとともに当該単語の単語ベクトルを算出する解析手段と、
分野を特徴付ける分野ベクトルと前記算出された単語ベクトルとの類似性に基づいて、前記入力された文書データが属する分野を判定する分野判定手段と、
前記判定された分野の専門学習情報手段を参照して、前記入力文書データの解析結果を用いて当該入力文書データに関する言語処理を行う言語処理手段と、
を備えたことを特徴とする言語処理装置。 - 請求項3又は請求項4に記載の言語処理装置において、
前記分野ベクトルは予め用意されて記憶手段に保持されており、
更に、当該保持された分野情報をユーザ入力に応じて修正する調整手段を備えたことを特徴とする言語処理装置。 - 文書の記述内容が属する分野を判定する処理をコンピュータに実行させるプログラムであって、
複数の分野に係る言葉情報を含んだ基本辞書を参照して、入力された文書データから記述内容に含まれる単語の単語ベクトルを算出する解析機能と、
分野を特徴付ける分野ベクトルを参照して、当該分野ベクトルと前記算出された単語ベクトルとの類似性に基づいて前記文書データが属する分野を判定する分野判定機能と、
をコンピュータに実現することを特徴とするプログラム。 - 文書の記述内容が属する分野に応じた言語処理をコンピュータに実行させるプログラムであって、
複数の分野に係る言葉情報を含んだ基本辞書を参照して、入力された文書データから記述内容に含まれる単語の単語ベクトルを算出する解析機能と、
分野を特徴付ける分野ベクトルを参照して、当該分野ベクトルと前記算出された単語ベクトルとの類似性に基づいて、前記入力された文書データが属する分野を判定する分野判定機能と、
専門分野に係る言葉情報を含んだ専門辞書の内から前記判定された分野のものを参照して、前記入力された文書データに関する言語処理を行う言語処理機能と、
をコンピュータに実現することを特徴とするプログラム。 - 文書の記述内容が属する分野に応じた言語処理をコンピュータに実行させるプログラムであって、
複数の分野に係る言葉情報を含んだ基本辞書を参照して、入力された文書データから記述内容に含まれる単語を抽出するとともに当該単語の単語ベクトルを算出する解析機能と、
分野を特徴付ける分野ベクトルを参照して、当該分野ベクトルと前記算出された単語ベクトルとの類似性に基づいて、前記入力された文書データが属する分野を判定する分野判定機能と、
専門分野に係る単語の重要度や接続規則を含んだ専門学習情報の内から前記判定された分野のものを参照して、前記入力された文書データの解析結果を用いて当該入力文書データに関する言語処理を行う言語処理機能と、
をコンピュータに実現することを特徴とするプログラム。 - 文書の記述内容が属する分野を判定する方法であって、
複数の分野に係る言葉情報を含んでメモリに記憶されている基本辞書データを参照して、入力された文書データから記述内容に含まれる単語の単語ベクトルを算出し、
分野を特徴付ける分野ベクトルと前記算出された単語ベクトルとの類似度を算出して、算出された類似度が最も高い分野を前記文書データが属する分野と判定することを特徴とする分野判定方法。 - 文書の記述内容が属する分野に応じた言語処理を行う方法であって、
複数の分野に係る言葉情報を含んでメモリに記憶されている基本辞書データを参照して、入力された文書データから記述内容に含まれる単語の単語ベクトルを算出し、
分野を特徴付ける分野ベクトルと前記算出された単語ベクトルとの類似度を算出して、算出された類似度が最も高い分野を前記入力された文書データが属する分野と判定し、
専門分野に係る言葉情報を含んでメモリに記憶されている専門辞書データの内から前記判定された分野のものを参照して、前記入力された文書データに関する言語処理を行うことを特徴とする言語処理方法。 - 文書の記述内容が属する分野に応じた言語処理を行う方法であって、
複数の分野に係る言葉情報を含んでメモリに記憶されている基本辞書データを参照して、入力された文書データから記述内容に含まれる単語を抽出するとともに当該単語の単語ベクトルを算出し、
分野を特徴付ける分野ベクトルと前記算出された単語ベクトルとの類似度を算出して、算出された類似度が最も高い分野を前記入力された文書データが属する分野と判定し、
専門分野に係る単語の重要度や接続規則を含んでメモリに記憶されている専門学習データの内から前記判定された分野のものを参照して、前記入力された文書データの解析結果を用いて当該入力文書データに関する言語処理を行うことを特徴とする言語処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003069017A JP2004280316A (ja) | 2003-03-14 | 2003-03-14 | 分野判定装置及び言語処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003069017A JP2004280316A (ja) | 2003-03-14 | 2003-03-14 | 分野判定装置及び言語処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004280316A true JP2004280316A (ja) | 2004-10-07 |
Family
ID=33286158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003069017A Pending JP2004280316A (ja) | 2003-03-14 | 2003-03-14 | 分野判定装置及び言語処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004280316A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006095853A1 (ja) * | 2005-03-11 | 2006-09-14 | National University Corporation NARA Institute of Science and Technology | 学習処理方法、学習処理装置、および、プログラム |
WO2008006854A1 (de) * | 2006-07-11 | 2008-01-17 | Palm, Inc. | Vorrichtung und verfahren zum ordnen von such-ergebnissen |
JP2013069157A (ja) * | 2011-09-22 | 2013-04-18 | Toshiba Corp | 自然言語処理装置、自然言語処理方法および自然言語処理プログラム |
JP2014099106A (ja) * | 2012-11-15 | 2014-05-29 | Zenrin Datacom Co Ltd | 情報処理装置、情報処理方法、及びプログラム |
JP2015170094A (ja) * | 2014-03-06 | 2015-09-28 | 株式会社Nttドコモ | 翻訳装置及び翻訳方法 |
-
2003
- 2003-03-14 JP JP2003069017A patent/JP2004280316A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006095853A1 (ja) * | 2005-03-11 | 2006-09-14 | National University Corporation NARA Institute of Science and Technology | 学習処理方法、学習処理装置、および、プログラム |
JP2006252333A (ja) * | 2005-03-11 | 2006-09-21 | Nara Institute Of Science & Technology | データ処理方法、データ処理装置およびそのプログラム |
WO2008006854A1 (de) * | 2006-07-11 | 2008-01-17 | Palm, Inc. | Vorrichtung und verfahren zum ordnen von such-ergebnissen |
JP2013069157A (ja) * | 2011-09-22 | 2013-04-18 | Toshiba Corp | 自然言語処理装置、自然言語処理方法および自然言語処理プログラム |
JP2014099106A (ja) * | 2012-11-15 | 2014-05-29 | Zenrin Datacom Co Ltd | 情報処理装置、情報処理方法、及びプログラム |
JP2015170094A (ja) * | 2014-03-06 | 2015-09-28 | 株式会社Nttドコモ | 翻訳装置及び翻訳方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10496928B2 (en) | Non-factoid question-answering system and method | |
Al-Hashemi | Text Summarization Extraction System (TSES) Using Extracted Keywords. | |
US20100332217A1 (en) | Method for text improvement via linguistic abstractions | |
US20150227505A1 (en) | Word meaning relationship extraction device | |
JPH05242138A (ja) | 単語ディスアンビギュエーション装置及び方法 | |
CN102214189B (zh) | 基于数据挖掘获取词用法知识的系统及方法 | |
KR101508070B1 (ko) | 어휘지도를 이용한 용언의 다의어 의미 분석 방법 | |
JP2011118689A (ja) | 検索方法及びシステム | |
JP2007241764A (ja) | 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体 | |
US20050273316A1 (en) | Apparatus and method for translating Japanese into Chinese and computer program product | |
CN114266256A (zh) | 一种领域新词的提取方法及系统 | |
JP4005343B2 (ja) | 情報検索システム | |
JP2004280316A (ja) | 分野判定装置及び言語処理装置 | |
Nwesri et al. | Effective retrieval techniques for Arabic text | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
JP4428703B2 (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
JPH10254900A (ja) | 自動文書要約装置及び方法 | |
KR100885527B1 (ko) | 문맥 기반 색인데이터 생성장치와 문맥기반 검색장치 및 그방법 | |
Shekhar et al. | Computational linguistic retrieval framework using negative bootstrapping for retrieving transliteration variants | |
JP2005202924A (ja) | 対訳判断装置、方法及びプログラム | |
JP4934115B2 (ja) | キーワード抽出装置、方法及びプログラム | |
JP2006119697A (ja) | 質問応答システム、質疑応答方法および質疑応答プログラム | |
JP2005025659A (ja) | ゼロ代名詞解消方法、解消装置、解消プログラムおよびプログラムを記録した記録媒体 | |
JP3682915B2 (ja) | 自然文マッチング装置、自然文マッチング方法、及び自然文マッチングプログラム | |
Bawden | Cross-lingual pronoun prediction with linguistically informed features |