JP3385206B2 - 自然言語処理装置 - Google Patents

自然言語処理装置

Info

Publication number
JP3385206B2
JP3385206B2 JP04008898A JP4008898A JP3385206B2 JP 3385206 B2 JP3385206 B2 JP 3385206B2 JP 04008898 A JP04008898 A JP 04008898A JP 4008898 A JP4008898 A JP 4008898A JP 3385206 B2 JP3385206 B2 JP 3385206B2
Authority
JP
Japan
Prior art keywords
statistical database
natural language
unit
input
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP04008898A
Other languages
English (en)
Other versions
JPH11238060A (ja
Inventor
篤司 池野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP04008898A priority Critical patent/JP3385206B2/ja
Publication of JPH11238060A publication Critical patent/JPH11238060A/ja
Application granted granted Critical
Publication of JP3385206B2 publication Critical patent/JP3385206B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、コーパスから学習
した統計データベースを自然言語処理に利用する自然言
語処理装置に関し、例えば、入力文の形態素を自動的に
解析する形態素解析装置に適用し得るものである。
【0002】
【従来の技術】
文献1『特開平7−271792号公報』 文献2『特願平9−68300号明細書及び図面(公開
されていないが文献と呼ぶ)』 日本語文などの自然言語文を処理する装置(例えば、機
械翻訳装置や質疑応答装置やコンピュータ援用の教育装
置等)においては、自然言語文に対して最初に形態素解
析を行う。
【0003】従来の形態素解析装置としては、形態素解
析部(形態素解析プログラム部)と、形態素辞書と、活
用語尾テーブルと、(品詞別)接続テーブルとから構成
されているものが多く、形態素解析部が、形態素辞書や
活用語尾テーブルや接続テーブルを適宜アクセスしなが
ら入力文を形態素に区切っていくものであった。
【0004】これに対し、近年、形態素辞書を使用せず
に、代わりに、形態素境界や各形態素の品詞情報等を保
持したタグ付コーパス(大量のテキストデータ)から学
習して得た統計データベースを利用した形態素解析装置
が研究され始めている(例えば、上記文献1及び文献2
参照)。統計データベースに格納されている統計データ
は、N個の拡張文字の順次でなる文字列と、その出現頻
度割合(以下、連鎖確率とも呼ぶ)との組である。ま
た、統計データを、場合によってはN−gramデータ
と呼ぶ。なお、拡張文字とは、文字に、形態素境界の有
無や品詞情報等を付与したものをいう。
【0005】統計データベースを利用した形態素解析方
式では、開発者による発見的な手法で構築されてきた接
続テーブルの代わりに、コーパスから求めた統計データ
(特に連鎖確率)を使用するという点で、従来方式より
も根拠が明確である。また、未知語が存在しても一定の
基準で精度の高い解析を進めることができるとされてい
る。
【0006】
【発明が解決しようとする課題】ところが、上述した統
計データベースを利用した形態素解析装置では、例え
ば、科学技術論文をコーパスとして統計データベースを
用意すると、その形態素解析装置は、科学技術論文に対
しては望ましい解析結果を出力するが、手紙文に対して
は良い解析結果が得られない、という課題がある。これ
は、科学技術用語を含むか否かの相違だけでなく、科学
技術論文での表現や手紙文の表現の相違等によって、同
一の拡張文字列であっても、コーパスによって連鎖確率
が大きく異なるためである。
【0007】すなわち、用意するコーパスによって作成
される統計データベース中の値が異なり、結果として解
析結果も異なるため、様々な文書を解析対象としたとき
に(用意したコーパスと異なる類の文書には)良好な結
果が得られない、という課題があった。
【0008】このような課題に対して、様々な文書を取
り混ぜたコーパスを用意する、という方法も考えられ
る。しかしながら、文書の種類によって、特殊な言い回
しを許容したり多用したりすることがあるので、そのよ
うな種類が異なる文書を同一のコーパスに集めると矛盾
を起こして、統計データベースの質が落ちて、結局どの
文書に対しても良い解析結果が得られないことが多い。
例えば、「ですます」調の丁寧表現が多い文書とそれ以
外の文書とを混合したコーパスを用いて、統計データベ
ースを構築した場合には、解析対象文章が、丁寧表現の
ものであってもそれ以外の表現のものであっても解析精
度が低くなる恐れは大きい。
【0009】構築された統計データベースは、データベ
ースである以上、形態素解析処理以外の処理での利用が
検討されているが、上述したような課題は、形態素解析
処理以外の処理においても生じるものである。
【0010】そのため、統計データ(統計データベー
ス)を利用した自然言語処理の精度を、処理対象の文章
の種類等によらずに、従来より高めることができる自然
言語処理装置が望まれている。
【0011】
【課題を解決するための手段】かかる課題を解決するた
め、第1及び第2の本発明は、自然言語文に現れる所定
文字数でなる部分文字列とその絶対的又は相対的な頻度
情報との組を複数組格納している統計データベースを利
用して、入力された自然言語文に対して、自然言語処理
本体が所定の自然言語処理を行う自然言語処理装置にお
いて、(1)上記統計データベースとして、その作成の
元となったコーパスが異なる複数のものを設けると共
に、(2)上記自然言語処理本体に接続する統計データ
ベースを切り替える統計データベース切替手段を有す
る。 第1の本発明はさらに、自然言語処理対象として入
力される自然言語文の文字列中に挿入されている統計デ
ータベース切替記号を認識し、上記統計データベース切
替手段に対し、その統計データベース切替記号に対応し
た統計データベースを上記自然言語処理本体に接続させ
る統計データベースとして指示する入力解析手段を有す
る。 第2の本発明は、自然言語処理が形態素解析であっ
て、形態素解析対象の自然言語文が文書の要素として入
力されるものであり、上記構成要素に加え、入力文書か
らその文書に適した統計データベースを定めて上記統計
データベース切替手段に選択指示する使用DB判定手段
を有する。この使用DB判定手段は、入力文書を構成す
る一部の自然言語文を試し解析対象文と設定する入力管
理部と、上記入力管理部で設定された試し解析対象文に
対し、上記各統計データベースをそれぞれ使用した複数
回の形態素解析を、上記形態素解析部によって実行させ
るデータベース選定部と、上記試し解析対象文に対する
形態素解析結果に係る評価値として、使用した上記統計
データベースにおける形態素解析結果に採用された全て
の部分文字列の頻度情報の統合値を保持する解析結果保
持部とを有し、上記データベース選定部は、全ての統計
データベースについて、試し解析対象文の形態素解析が
終了した時点で、上記解析結果保持部に保持されている
統合値を比較して、最も統合値が高くなっている形態素
解析結果が得られた統計データベースを検索し、上記統
計データベース切替部へその統計データベースへの切り
替えを指示する。
【0012】また、第の本発明は、自然言語文に現れ
る所定文字数でなる部分文字列とその絶対的又は相対的
な頻度情報との組を複数組格納している統計データベー
スを利用して、入力された自然言語文に対して、自然言
語処理本体が所定の自然言語処理を行う自然言語処理装
置において、(1)上記統計データベースの作成の元と
なるデータを格納している複数のコーパスと、(2)自
然言語処理対象の自然言語文を複数有する入力文書につ
いて、所定文字数でなる文字列の頻度分布データを形成
し、内部保持している上記各コーパスについての基準頻
度分布データとのパターンマッチングを行って、上記入
文書に適した1又は複数のコーパスを定める適用コー
パス決定手段と、(3)決定されたコーパスに含まれて
いる自然言語文を、所定文字数でなる部分文字列に分割
すると共に、部分文字列の種類毎の絶対的又は相対的な
頻度情報を得て、上記統計データベースを作成する統計
データベース動的作成手段とを有し、自然言語処理対象
の文書が入力される毎に、上記適用コーパス決定手段に
よる適用コーパスの決定処理、及び、上記統計データベ
ース動的作成手段による統計データベースの作成処理を
実行することを特徴とする。
【0013】
【発明の実施の形態】(A)第1の実施形態 以下、本発明を形態素解析装置に適用した第1の実施形
態を図面を参照しながら詳述する。
【0014】第1の実施形態の形態素解析装置は、ワー
クステーションやパソコン等の情報処理装置上で実現さ
れるものであるが、機能的には、図1に示す機能ブロッ
ク図で表すことができる。
【0015】図1において、第1の実施形態の形態素解
析装置は、入力部1、形態素解析部2、出力部3、タグ
付きコーパス群4、連鎖確率計算部5、統計データベー
ス(統計DB)群6、統計データベース切替部7、DB
識別番号入力部8及びコーパス/DB指定部9からな
る。
【0016】なお、タグ付きコーパス群4、連鎖確率計
算部5及びコーパス/DB指定部9は、統計データベー
ス群6を形成させるものであり、形態素解析は、形成さ
れた統計データベース群6を利用するものであるので、
これらタグ付きコーパス4、連鎖確率計算部5及びコー
パス/DB指定部9を、他の構成要素とは異なる情報処
理装置上で実現し、他の構成要素を搭載している情報処
理装置からはこれらタグ付きコーパス4、連鎖確率計算
部5及びコーパス/DB指定部9を省略することもでき
る。
【0017】入力部1は、文字列(自然語テキスト)を
入力として受けとり、形態素解析部2にその文字列を送
るものである。入力部1は、例えば、キーボード、マウ
ス、OCR(光学式文字認識装置)、音声認識装置等の
任意の手段で構成されていても良く、また、ネットワー
ク等の通信媒体を経て外部からの通信信号を受信する手
段として構成されていても良い。
【0018】形態素解析部2は、入力文字列に対して、
統計データベース切替部7を通じて統計データベース群
6のいずれか1個の統計データベース6−i(iは1、
2、3…のいずれか)の情報を利用して形態素解析を行
うものである。形態素解析部2が実行する形態素解析方
法は、例えば、上記文献2に記載の方法を適用できる。
形態素解析部2は、例えば、以下のような機能を担う拡
張文字列生成部、スコアテーブル、スコア計算部及び最
適経路探索部を有する。
【0019】拡張文字列生成部は、入力文字列の拡張文
字を生成し、入力文字列の文頭から文末までについて、
N文字でなる拡張文字列(N−gram)の経路(組み
合わせ)をスコアテーブルに格納するものである。スコ
アテーブルは、入力文字列の文頭から文末までの全ての
拡張文字列(N−gram)の経路と、統計データベー
ス6−iに格納されている連鎖確率情報とに基づき求め
た拡張文字列の経路に対応する拡張文字列の連鎖確率情
報を格納するものである。スコア計算部は、統計データ
ベース6−iに格納されている連鎖確率情報に基づき、
スコアテーブルに格納されている拡張文字列の経路全体
に対する連鎖確率情報を計算するものである。最適経路
探索部は、スコア計算部により計算された連鎖確率情報
の中から、最適な条件(例えば最大値の連鎖確率情報を
与えるなど)を満たす拡張文字列を、最適拡張文字列
(形態素解析結果)として選択するものである。
【0020】出力部3は、形態素解析部2から解析結果
の形態素列を受け取り、出力するものである。例えば、
種々の表示手段や印刷手段や通信手段等が該当する。
【0021】タグ付きコーパス群4の各要素であるコー
パス4−1、4−2、4−3、…は、少なくとも形態素
境界を含む(この他に各形態素の品詞情報を含んでいて
も良い)大量のテキストデータである。図2に、コーパ
スデータ例を示す。この例では形態素境界をスラッシュ
(/)で表示し、品詞・活用型・活用形の情報を四角括
弧内にカンマで列記する、という形式で各情報を保持し
ている。なお、タグとして、形態素境界だけを含むタグ
つきコーパス4−jであっても良い。
【0022】連鎖確率計算部5は、タグ付きコーパス群
4のうちの1又は複数のコーパスが保持するテキストデ
ータを処理し、統計データベース群6のうちの1個の統
計データベース6−iを作成するものである。具体的に
は、N−gramデータを生成してデータベース化する
ものである。上記文献1における単語モデル推定手段あ
るいは品詞付けモデル推定手段と呼ばれている部分が、
この実施形態の連鎖確率計算部5に対応しており、文献
1で開示されている連鎖確率計算方法を適用することが
できる。また、連鎖確率計算部5の処理方法として、下
記文献3及び文献4に記載されている統計データベース
の作成方法を適用することができる。
【0023】文献3『長尾眞、森信介著、「大規模日本
語テキストのnグラム統計の作り方と語句の自動抽
出」、情報処理学会研究報告自然言語処理96−1、1
993年7月』 文献4『特願平9−350651号明細書及び図面(公
開されていないが文献と呼ぶ)』 統計データベース群6の各要素である統計データベース
6−1、6−2、6−3、…は、連鎖確率計算部5で計
算されて得られたN−gramデータ(品詞情報を伴う
ものであっても良く、また、伴わないものであっても良
い)のデータベースである。
【0024】コーパス/DB指定部9は、ユーザの入力
に応じて、連鎖確率計算部5に対して、コーパスの選択
信号と、そのコーパスから得られた統計データ(N−g
ramデータ)を保持する統計データベースの識別番号
とを与えるものである。従って、上述した連鎖確率計算
部5は、コーパス/DB指定部9から指定された1又は
複数のコーパスが保持するテキストデータを処理し、コ
ーパス/DB指定部9から指定された識別番号を有する
統計データベース6−iを生成する。
【0025】例えば、電気技術分野のコーパスと、化学
技術分野のコーパスと、機械技術分野のコーパスとから
科学技術一般に係る統計データベースを生成させる場合
には、コーパスとして3個を指定することを要する。
【0026】なお、コーパス4−j(jは1、2、3…
のいずれか)と統計データベース6−iとを1対1で対
応付けるように、統計データベースを作成する場合に
は、コーパス/DB指定部9は省略される。
【0027】DB識別番号入力部8は、ユーザが入力し
たこれから実行する形態素解析で用いる統計データベー
ス6−iの識別番号(又は識別名称)を受け付け、統計
データベース切替部7に与えるものである。
【0028】統計データベース切替部7は、ユーザから
のデータベース識別番号の入力を取り込み、管理してい
る統計データベース群6の中から、取り込んだ識別番号
に係る1個の統計データベース6−iのアドレスを用意
し、形態素解析部2に知らせるものである。装置起動時
にはデフォルトの統計データベースのアドレスを予め用
意しているものとする。
【0029】上述した各部1〜9からなる第1の実施形
態の形態素解析装置の動作は、大きくは、2種類に分か
れる。すなわち、統計データベース群6を作成する動作
と、統計データベース6−iを利用した形態素解析動作
とに分かれる。
【0030】前者の統計データベース群6を作成する動
作は、複数のコーパスを有するコーパス群4から、ある
統計データベース6−iの作成に使用する1又は複数の
コーパス4−jを指定して作成させるという点は、従来
と異なるが、コーパスが指定された後、そのコーパスか
ら統計データベース6−iを作成する方法自体は、従来
と同様であるので、その説明は省略する。
【0031】また、後者の動作も、基本的には、従来と
同様である。すなわち、入力部1が入力された文字列を
取り込んで形態素解析部2に与え、形態素解析部2が統
計データベース6−iをも利用して入力文字列に対する
形態素解析を行って得られた形態素列を出力部3に与
え、出力部3がその形態素列を出力する。
【0032】しかし、形態素解析部2から統計データベ
ースヘのアクセスに際し、形態素解析部2から統計デー
タベース切替部7にアクセスすると、DB識別番号入力
部8を介して指定された、統計データベース群6の1個
の統計データベース6−iにアクセスできるように動作
する点は、従来には存在しない動作となっている。この
動作を実現させるための前段階の動作が、統計データベ
ース切替部7の切替動作である。
【0033】そこで、以下では、統計データベース切替
部7の切替動作を図3を参照しながら説明する。統計デ
ータベース切替部7は、統計データベース識別番号(D
B識別番号)の入力があったときに起動される。
【0034】まず、統計データベース識別番号の入力を
受け付ける(ステップ301)。この第1の実施形態で
は、各統計データベース6−1、6−2、6−3、…に
は順に番号がついているものとするが、それぞれに識別
できる名称がついており、名称が入力される方式であっ
ても良い。
【0035】次に、識別番号と統計データベース群6の
アドレスとを対応付けている内部管理する対応テーブル
を参照し(ステップ302)、指定された統計データベ
ースのアドレスを、解析用統計データベースの場所を示
す変数の値に代入し、一連の切替動作を終了するする
(アドレスを割り当てる)(ステップ303)。
【0036】すなわち、統計データベース群6は、実際
上、メモリやハードディスク中に実現されるので、いず
れか一つのデータベースの位置はアドレスで示すことが
でき、指定された統計データベースのアドレスを、解析
用統計データベースの場所を示す変数の値に代入するこ
ととした。
【0037】識別番号と統計データベースのアドレスと
の対応テーブルの例を図4に示している。この例の場合
には、以下のようにすれば良い。
【0038】例えば、解析用統計データベースの場所を
示す整数変数を、 int*dbplace とすると(C言語での定義;int*は整数変数である
ことを表す)、データベース識別番号に2が与えられた
場合には、 dbplace=8250 という値を与える。これにより、形態素解析部2が、解
析用統計データベースのデータを探すときには変数db
p1aceにアクセスするので、自動的に2番の統計デ
ータベースにアクセスにいくことになる。
【0039】以上のように、第1の実施形態によれば、
統計データベースとして、複数種類のものを用意し、解
析対象の文章に応じて、ユーザが利用する統計データベ
ースを指定することができるようにしたので、従来に比
べて、良好な形態素解析結果を得ることができる。
【0040】このような効果を発揮させるのにつき、形
態素解析部からは、統計データベース側に向けて、従来
と同様なアクセス方法で良く、そのアクセス内容を統計
データベース切替部が変換動作して所定の統計データベ
ースをアクセスするようにしたので、入力部、形態素解
析部及び出力部という主たる構成の変更を不要とするこ
とができる。
【0041】また、この第1の実施形態の場合、複数の
統計データベースを形成させる元となるコーパスは、統
計データを対象としているものであるため任意に選定す
ることができ、その結果、専門分野別に統計データベー
スを用意させるだけでなく、「ですます」調のコーパス
から丁寧表現用の統計データベースを用意するようなこ
ともでき、統計データベースを異にさせるカテゴリーの
捉え方が多種多様であり、この点からも、従来に比べて
良好な形態素解析結果を得ることができる。
【0042】(B)第2の実施形態 次に、本発明を形態素解析装置に適用した第2の実施形
態を図面を参照しながら詳述する。
【0043】図5は、この第2の実施形態の形態素解析
装置の構成を示す機能ブロック図であり、上述した第1
の実施形態に係る図1との同一、対応部分には、同一符
号を付して示している。
【0044】図5及び図1の比較から明らかなように、
第2の実施形態の形態素解析装置は、DB識別番号入力
部8を備えておらず、その代りに、入力部1及び形態素
解析部2の処理経路上に入力解析部10を備えている。
【0045】入力部1及び形態素解析部2は、基本的に
は、第1の実施形態のものと同じであるが、入力部1が
入力内容を入力解析部10に与える点が第1の実施形態
のものから異なっており、形態素解析部2が、形態素解
析対象文字列を入力解析部10から受け取る点が第1の
実施形態のものから異なっている。
【0046】第2の実施形態の統計データベース切替部
7は、統計データベース識別番号(又は識別名称)を、
DB識別番号入力部8を介したユーザからの直接入力で
はなく、入力解析部10から受け取る点が第1の実施形
態のものとは異なっている。また、統計データベース切
替部7は、統計データベースを切替えた後に、完了の信
号を入力解析部10に返送するものである。
【0047】第2の実施形態で新たに設けられた入力解
析部10は、入力部1から受け取った文字列に、統計デ
ータベース切替を指示する記号(統計データベース識別
番号又は名称を含む)が含まれているか否かを解析し、
含まれていた場合には、入力文字列からその記号部分を
分離して、データベース識別番号を統計データベース切
替部7に与え、切替完了の信号を待って、本来の解析対
象となるべき文字列部分だけを形態素解析部2に与える
ものである。
【0048】上記で機能を説明した以外の構成要素は、
第1の実施形態の対応要素と同一の機能を実現するもの
である。
【0049】この第2の実施形態については、入力解析
部10での動作のみを図6を参照しながら説明する。す
なわち、統計データベースの作成動作や、形態素解析部
2による統計データベース6−iの格納内容を利用した
形態素解析動作の説明は省略する。なお、図6は、1個
の文章(1個の形態素解析対象の文字列)に対する処理
であり、形態素解析対象が複数の文章の場合には、図6
に示す処理がその文章の数だけ繰り返される。
【0050】まず、入力解析部10は、入力部1から受
け取った入力文字列中に統計データベース切替を指示す
る記号(統計データベース識別番号又は識別名称を含
む)が含まれているか否かを解析する(ステップ60
1)。統計データベース切替指示記号は、通常の入力文
字列に存在しない記号の組合せであれば良く、しかも、
統計データベース識別番号(識別名称)を持たせられる
ものであれば良い。例えば、図7に示すように、
「(@」と「@)」に挟まれた統計データベース識別番
号(識別名称)をデータベース切替指示記号とすること
ができる。データベース切替指示記号は、文頭でも文尾
でも、さらには、文中に挿入するようにしても良く、そ
の挿入位置は、任意に定めれば良い。図7の例は、文頭
及び文尾の場合を示している。
【0051】統計データベース切替指示記号が含まれて
いない場合には、形態素解析部2に入力文字列をそのま
ま渡して、処理を終了する(ステップ602)。
【0052】一方、統計データベース切替指示記号が含
まれている場合には、入力文字列を、統計データベース
切替指示記号の部分と、解析対象文字列の部分に分離す
る(ステップ603)。そして、統計データベース切替
指示記号からデータベース識別番号(識別名称)を取得
して、統計データベース切替部7に送付すると共に(ス
テップ604)、統計データベース切替部7から切替完
了の信号が送られてくるのを待って(同期をとってい
る)、解析対象文字列を形態素解析部2に送付し、一連
の処理を終了する(ステップ605)。
【0053】この第2の実施形態によっても、統計デー
タベースとして、種々の観点からの複数種類のものを用
意し、解析対象の文章に応じて統計データベースを指定
することができるので、従来に比べて、良好な形態素解
析結果が得られ、しかも、入力部、形態素解析部及び出
力部という主たる構成の変更を不要にできるという効果
を得ることができる。
【0054】これに加えて、第2の実施形態によれば、
入力文字列に切替記号を付与するだけで良いので、入力
文毎に細かく統計データベースを切替えることができ、
この点からも、良好な解析結果が得られるという効果を
奏する。また、文書ファイルに全て記述しておいて一括
処理することができるので、第1の実施形態のように、
ユーザからの入力をその都度受け付ける必要がなく、使
い勝手が良好となるという効果をも発揮する。
【0055】(C)第3の実施形態 次に、本発明を形態素解析装置に適用した第3の実施形
態を図面を参照しながら詳述する。
【0056】図8は、この第3の実施形態の形態素解析
装置の構成を示す機能ブロック図であり、上述した第1
の実施形態に係る図1との同一、対応部分には、同一符
号を付して示している。
【0057】図8及び図1の比較から明らかなように、
第3の実施形態の形態素解析装置は、DB識別番号入力
部8を備えておらず、その代りに、文区切り部11及び
文書分野判定部12を新たに備えている。これら文区切
り部11及び文書分野判定部12と、これらの一方の要
素と接続している入力部1及び統計データベース切替部
7以外の構成要素は、第1の実施形態のものと同一のも
のであり、その説明は省略する。
【0058】入力部1は、基本的には第1の実施形態に
同じであるが、解析対象文字列が文区切り部11から与
えられる点が第1の実施形態とは異なっている。
【0059】統計データベース切替部7は、統計データ
ベース識別番号(又は識別名称)を文書分野判定部12
から受け取る点が第1の実施形態とは異なっている。ま
た、統計データベース切替部7は、統計データベースを
切替えた後に、完了の信号を文書分野判定部12に返信
するものである。
【0060】文書分野判定部12は、入力された文書デ
ータ全体を調べて文書の分野を判定するものである。ま
た、文書分野判定部12は、分野に対応した統計データ
ベース識別番号を統計データベース切替部7に送付して
切替を指令すると共に、切替完了の返信を待ち受け、切
替完了の返信があったときに、文区切り部11に文書デ
ータを送付するものである。
【0061】文区切り部11は、文書分野判定部12か
ら受け取った文書データを一文単位に分割して、入力部
1を介して形態素解析部2に入力させるものである。形
態素解析の入力単位は文章であるが、分野判定のため
に、文書を当該装置への入力単位としているために、文
区切り部11が必要となっている。
【0062】この第3の実施形態においては、新たに設
けられた文区切り部11及び文書分野判定部12での動
作についてのみ、動作説明を行う。なお、他の動作につ
いては、既述の実施形態と同様である。
【0063】最初に、文区切り部11での動作を図9の
フローチャートを参照しながら説明する。文書を、文章
に区切る方法としては、既存のいかなる方法を適用する
ことができるが、ここでは、一例として、図9に示す方
法を説明する。
【0064】まず、文書の先頭から(文書の先頭に探索
ポインタを置く)文字列データを文バッファに保存しな
がら、最初の文区切り文字を発見するまで探索する(ス
テップ901)。文区切り文字とは、日本語の場合に
は、句点「。」や全角ピリオド「.」などであり、文区
切り文字の全データ(全種類のデータ)は文区切り部9
が内部で保持している。
【0065】発見できないままデータが終了した場合、
文バッファに保存した文字列データを入力部1に送付し
て、処理を終了する(ステップ902)。
【0066】一方、文区切り文字を発見した場合には、
その文区切り文字を含めて文バッファに保存した文字列
データを入力部1に送付する(ステップ903)。そし
て、その次の位置に探索ポインタを進め(ステップ90
4)、上述したステップ901に戻る。
【0067】次に、文書分野判定部12での動作を図1
0のフローチャートを参照しながら説明する。なお、文
書分野判定方法としては、既存のいかなるものを適用し
ても良いが、ここでは、一例として図10に示すものを
説明する。
【0068】まず、文書データを受け付ける(ステップ
1001)。次に、文字種(カタカナ、ひらがな、漢字
等)によって文字列を部分文字列に分割し、図11に示
すような各部分文字列の頻度分布データを作成する(ス
テップ1002)。ここでは、形態素解析前であるの
で、単語(形態素)毎の集計ができず、そのため、文字
種毎の部分文字列についての集計を行っている。図11
に示すように、同一単語(例えば「テスト」)でも、文
書が属する分野によってはその出現頻度は大きく異なっ
ており、この性質を利用して分野判定を行うこととして
いる。
【0069】なお、文書分野判定部12は、予め作成さ
れた分野毎の基準頻度分布データを内蔵している。分野
毎の基準頻度分布データは、統計データベース6−iの
作成に供した1又は複数のタグ付きコーパス4−jの元
になっているタグを含まないプレーンなテキストでなる
コーパス(文書)に対して、上記ステップ1002と同
様な処理を行って作成したものである。
【0070】文書分野判定部12は、今回の入力文書に
対する頻度分布データを得ると、今回の入力文書に対す
る頻度分布データと、内部保持している各分野毎の基準
頻度分布データとのパターンマッチングを行う(ステッ
プ1003)。そして、最も類似している基準頻度分布
データに対応した統計データベース識別番号(分野)を
統計データベース切替部7に送付して一連の処理を終了
する(ステップ1004)。
【0071】この第3の実施形態によっても、統計デー
タベースとして、種々の観点からの複数種類のものを用
意し、解析対象の文章(文書)に応じて統計データベー
スを選択することができるので、従来に比べて、良好な
形態素解析結果が得られ、しかも、入力部、形態素解析
部及び出力部という主たる構成の変更を不要にできると
いう効果を得ることができる。
【0072】これに加えて、第3の実施形態によれば、
文書全体を装置に一括入力すれば、自動的に入力文書に
最も類似したコーパスから作成された統計データベース
を選択して解析するので、ユーザの使い勝手も良く、良
好な形態素解析結果が得られるという効果をも奏する。
【0073】(D)第4の実施形態 次に、本発明を形態素解析装置に適用した第4の実施形
態を図面を参照しながら詳述する。
【0074】図12は、この第4の実施形態の形態素解
析装置の構成を示す機能ブロック図であり、上述した第
3の実施形態に係る図8との同一、対応部分には、同一
符号を付して示している。
【0075】第3の実施形態を含め、上述した各実施形
態は、形態素解析対象の入力文章や入力文書とは無関係
に予め作成された複数の統計データベースから、その解
析対象に適したものを選択するものであった。
【0076】これに対し、この第4の実施形態は、形態
素解析対象の入力文書に適した統計データベースを、そ
の入力文書が与えられてから作成するようにしたことを
特徴とするものである。すなわち、統計データベース
(この第4の実施形態では符号14で表す)を作成する
構成が、第3の実施形態と異なっている。
【0077】図12において、入力文書に応じた統計デ
ータベース14を作成する構成は、コーパス群4、コー
パス選択部13、連鎖確率計算部5及び文書分野判定部
12が該当する。その他の入力部1、形態素解析部2、
出力部3及び文区切り部11は、第3の実施形態の対応
要素と同一の機能を発揮するものである。
【0078】コーパス群4は、第1〜第3の実施形態の
ものと同様である。しかし、統計データベース14の作
成に用いられる1又は2以上のコーパスがコーパス選択
部13で選択される点が、上述の各実施形態とは異なっ
ている。
【0079】文書分野判定部12は、第3の実施形態と
ほぼ同様にして文書分野を判定するものである。そし
て、その判定により定めた1又は2以上のコーパスをコ
ーパス選択部13に指示するものである。
【0080】コーパス選択部13は、文書分野判定部1
2から指示された1又は2以上のコーパスを全て連結し
て1個のコーパスとして連鎖確率計算部5に与えるもの
である。
【0081】この第4の実施形態の連鎖確率計算部5
は、コーパス選択部13から与えられたコーパスに対し
て、所定の方法で統計データの集計、算出を行って、1
個の統計データベース14を作成するものである。
【0082】次に、図13のフローチャートを用いて、
文書分野判定部12及びコーパス選択部13の動作につ
いて行う。なお、その他の動作については、既述実施形
態のものとほぼ同様であるので、その説明は省略する。
また、図13において、上述した図10との同一、対応
処理ステップには同一符号を付して示している。
【0083】文書分野判定部12はまず、文書データを
受け付ける(ステップ1001)。次に、文字種(カタ
カナ、ひらがな、漢字等)によって文字列を部分文字列
に分割し、各部分文字列の頻度分布データを作成する
(ステップ1002)。そして、文書分野判定部12
は、今回の入力文書に対する頻度分布データと、内部保
持している各コーパスについての基準頻度分布データと
のパターンマッチング(類似値計算)を行う(ステップ
1003)。そして、類似値が所定閾値以上である基準
頻度分布データに対応したコーパスの識別番号(分野)
をコーパス選択部13に送付する(ステップ130
4)。これにより、コーパス選択部13は、識別番号が
与えられた1又は2以上のコーパスを全て連結して1個
のコーパスとして連鎖確率計算部5に与える(ステップ
1305)。
【0084】このような文書分野判定部12及びコーパ
ス選択部13の動作によって、入力文書に応じたコーパ
スが連鎖確率計算部5に与えられて、入力文書に応じた
統計データベース14が作成される。そして、入力文書
に応じた統計データベース14が利用されて形態素解析
が実行される。
【0085】なお、文書分野判定方法は上記のものに限
定されない。また、この分野ならこのコーパスとこのコ
ーパスを使うと予め決めてある、というような方式でも
良いことは勿論である。
【0086】この第4の実施形態によれば、解析対象の
文書に応じた統計データベースを柔軟に作成し、それを
用いて、形態素解析を行うようにしたので、従来に比べ
て、良好な形態素解析結果が得られ、しかも、入力部、
形態素解析部及び出力部という主たる構成の変更を不要
にできるという効果を得ることができる。
【0087】(E)第5の実施形態 次に、本発明を形態素解析装置に適用した第5の実施形
態を図面を参照しながら詳述する。
【0088】図14は、この第5の実施形態の形態素解
析装置の構成を示す機能ブロック図であり、既述した各
図との同一、対応部分には同一符号を付して示してい
る。
【0089】この第5の実施形態は、第3や第4の実施
形態とは異なる入力文書の分野判定方法を適用している
ことに特徴を有するものである。このような特徴を発揮
させるための構成としては、連鎖確率計算部5、統計デ
ータベース群6、入力分岐部15、データベース選定部
(DB選定部)16及び入力文書データベース(入力文
書DB)17が該当する。
【0090】なお、その他の入力部1、形態素解析部
2、出力部3、コーパス群4、統計データベース切替部
7及び文区切り部11は、上述した各実施形態の対応要
素とほぼ同様な機能を担うものであり、その機能説明は
省略する。
【0091】入力分岐部15は、入力文書を分岐して
(コピーして)、連鎖確率計算部5及び文区切り部11
に与えるものである。
【0092】連鎖確率計算部5は、頻度カウント部51
及び確率計算部52を有する。上記説明においては、こ
の点に言及しなかったが、上記各実施形態も同様であ
る。
【0093】この第5の実施形態の場合、頻度カウント
部51は、統計データベース6−iの作成時だけでな
く、入力文書データベース17の作成時にも用いられる
ものである。頻度カウント部51は、統計データベース
6−iの作成時には、処理対象のコーパス4−jから、
所定文字数N(Nは例えば3)でなる拡張文字列を順次
生成し、同一の拡張文字列の頻度をカウントするもので
ある。一方、頻度カウント部51は、入力文書データベ
ース17の作成時には、入力分岐部15から与えられた
入力文書から、所定文字数Nでなる文字列を順次生成
し、同一の文字列の頻度をカウントし、このようにして
得られた各文字列の頻度分布データを入力文書データベ
ース17に格納させるものである。
【0094】確率計算部52は、頻度カウント部51
が、統計データベース6−iの作成時に得た各拡張文字
列の頻度に基づいて、各拡張文字列についての連鎖確率
を計算するものである。なお、連鎖確率は、例えば、先
頭側のN−1個の拡張文字列が同じ複数の拡張文字列の
連鎖確率の総和が1になるように計算される。
【0095】この第5の実施形態の場合、各統計データ
ベース6−iは、拡張文字列(見出し)及び連鎖確率で
なるN−gramデータではなく、図16に一例を示す
ように、拡張文字列(見出し)、連鎖確率及び頻度でな
るN−gramデータを格納しているものである。な
お、図16は、拡張文字が、文字と、その文字の直後が
形態素の区切りか(1)否か(0)を表す形態素区切り
情報とからなる場合を示している。
【0096】入力文書データベース17は、上述したよ
うに、入力文書から頻度カウント部51が形成したデー
タを格納している。図15は、入力文書データベース1
7の一例を示すものである。
【0097】データベース選定部16は、入力文書デー
タベース17に格納されている部分文字列の頻度分布
データを、各統計データベース6−iの対応情報と比較
して、形態素解析部2が今回の入力文書の各文章を解析
する際に使用する統計データベースを定め、統計データ
ベース切替部7に指示するものである。
【0098】以下、データベース選定部16による処理
の詳細を、図17のフローチャートを参照しながら説明
する。
【0099】データベース選定部16は、まず最初に、
統計データベース群6の中から1個の統計データベース
(例えば識別番号がもっとも小さい統計データベース)
をセットする(ステップ1701)。
【0100】その後、セットした統計データベースにお
ける同一文字列の頻度を足し合わせ、入力文書データベ
ース17と比較可能な形式を作成する(ステップ170
2)。統計データベースの見出しは拡張文字列(形態素
区切り情報などが付加されている)で、入力文書データ
ベース17の見出しは単なる文字列(形態素区切り情報
などが付加されていない)であるので、頻度分布データ
を直接比較することはできない。しかし、同一文字列に
係る拡張文字列の頻度データを足し合わせれば、単なる
文字列の頻度データが得られるので比較可能となる。ス
テップ1702では、例えば、図16における文字列が
「こでは」である全ての拡張文字列(図16では2種
類)の頻度データ「45」及び「7」を加算して、文字
列「こでは」の頻度データ「52」を作成する。
【0101】次に、ステップ1702の処理によって形
成された、セットされている統計データベースに係る各
文字列での頻度分布データと、入力文書データベース1
7での各文字列での頻度分布データとを比較して類似値
を得て、内部に格納する(ステップ1703、170
4)。
【0102】その後、全ての統計データベースに対する
類似値の算出、格納を終了したか否かを判断し(ステッ
プ1705)、終了していなければ、類似値の算出、格
納を終了していない未処理の統計データベースをセット
した後(ステップ1706)、上述したステップ170
2に戻る。
【0103】ステップ1702〜1706でなる処理ル
ープを繰り返すことにより、全ての統計データベースに
対する類似値の算出、格納が終了する。このときには、
類似値がもっとも大きい統計データベースの識別番号
(又は識別名称)統計データベース切替部7に出力し
て一連の統計データベースの選定処理を終了する。
【0104】このようにして選定された統計データベー
スが、形態素解析部2による入力文書の各文章に対する
形態素解析処理で用いられる。
【0105】この第5の実施形態によっても、統計デー
タベースとして、種々の観点からの複数種類のものを用
意し、解析対象の文章(文書)に応じて統計データベー
スを選択することができるので、従来に比べて、良好な
形態素解析結果が得られ、しかも、入力部、形態素解析
部及び出力部という主たる構成の変更を不要にできると
いう効果を得ることができる。また、第5の実施形態に
よれば、文書全体を装置に一括入力すれば、自動的に入
力文書に最も類似したコーパスから作成された統計デー
タベースを選択して解析するので、ユーザの使い勝手も
良く、良好な形態素解析結果が得られるという効果をも
奏する。
【0106】さらに、第5の実施形態によれば、入力文
書に最適な統計データベースを定めるにつき、統計デー
タベースの作成構成等を利用するようにしているので、
構成や処理を簡単なものとすることができる。
【0107】なお、絶対的な頻度ではなく、確率のパタ
ーンマッチングによって、最適な統計データベースを定
めるようにしても良い。
【0108】(F)第6の実施形態 次に、本発明を形態素解析装置に適用した第6の実施形
態を図面を参照しながら詳述する。
【0109】図18は、この第6の実施形態の形態素解
析装置の構成を示す機能ブロック図であり、既述した各
図との同一、対応部分には同一符号を付して示してい
る。
【0110】第6の実施形態は、第3〜第5の実施形態
とは異なる入力文書の分野判定方法(使用する統計デー
タベースの決定方法)を適用していることに特徴を有す
るものである。すなわち、第6の実施形態は、入力文書
中の一部文章に対して、試験的な形態素解析(以下、試
し解析と呼ぶ)を実行させ、その試し解析結果に基づい
て、本来の形態素解析に使用する統計データベースを決
定することを特徴とするものである。このような特徴を
発揮させるための構成としては、入力管理部18、形態
素解析部2、データベース選定部(DB選定部)19、
解析結果値保持部20及び統計データベース切替部7等
が該当する。
【0111】なお、その他の入力部1、出力部3、コー
パス群4、連鎖確率計算部5、統計データベース群6、
コーパス/DB指定部9及び文区切り部11は、上述し
た各実施形態の対応要素とほぼ同様な機能を担うもので
あり、その機能説明は省略する。
【0112】入力管理部18は、入力文書の先頭から一
定割合(例えば3%)の文数を試し解析文と設定し、デ
ータベース選定部19の指示に従って、試し解析文を入
力部1を形態素解析部2に送付するものである。なお、
入力管理部18から形態素解析部2への試し解析文の送
付は、統計データベース群6を構成している統計データ
ベースの数だけ繰り返し実行される。
【0113】この第6の実施形態の場合、形態素解析部
2には、試し解析を実行する機能と、試し解析の結果値
を解析結果値保持部20に送付するという機能が加わ
る。ここで、試し解析の結果値とは、例えば、入力文に
対する最適な形態素解析結果に対応した最適拡張文字列
全体の連鎖確率(N文字の拡張文字列の同時確率を全て
乗算したもの)である。
【0114】解析結果値保持部20は、形態素解析部2
から送られてきた解析結果値を、解析に使用した統計デ
ータベース識別番号(又は名称)と共に、保持するもの
である。解析結果値は各文に対して得られるので、全て
の文の値を加えて(又は乗じて)、最終的な値を形成し
て保持するものとする。また、解析結果値保持部20
は、試し解析文の結果値を全て受け取って最終的な値の
計算が済んだ時点で、データベース選定部19に、現在
セットされている統計データベースを使用した試し解析
処理が完了したことを通知する機能をも持っている。
【0115】データベース選定部19は、解析結果値保
持部20から試し解析完了通知を受け取ったときには、
次の試し解析で使用する統計データベースの識別番号を
統計データベース切替部7に送付し(統計データベース
の切替指示を出し)、同時に入力管理部18に試し解析
文を再び流すように指示するものである。また、データ
ベース選定部19は、全ての統計データベースについて
試し解析が終了した時点で、解析結果値保持部20に保
持されている結果値を比較して、最も高い結果値の統計
データベースを選定し、統計データベース切替部7に切
替を指示すると共に、入力管理部18に対し、全文を入
力部1に送付するよう指示するものである。
【0116】なお、試し解析時の最適統計データベース
を使用した場合での形態素解析結果を、それら解析対象
文についての最終的な形態素解析結果とするようにして
も良く、この場合には、試し解析後に行う本来の形態素
解析を、試し解析を実行していない文に対してのみ実行
させるようにすれば良い。
【0117】次に、入力管理部18における処理の詳細
を、図19のフローチャートを参照しながら説明する。
【0118】入力管理部18は、入力文書の先頭から一
定割合(例えば3%)の文数を試し解析文と設定し、そ
の文数を解析結果値保持部20に通知する(ステップ1
901)。そして、試し解析文を入力部1を介して形態
素解析部2に送付する(ステップ1902)。その後、
データベース選定部19からの指示を待ち受け(ステッ
プ1903)、指示を受けると、その指示が試し解析の
指示か否かを判別する(ステップ1904)。
【0119】後述するように、他の統計データベースを
用いて試し解析を実行させる場合には、データベース選
定部19から試し解析の指示が与えられる。このときに
は、上述したステップ1902に戻って、試し解析文を
入力部1を介して再び形態素解析部2に送付する。一
方、試し解析の指示でなければ、最適な統計データベー
スが決定された後の全文送付指示であるので、入力文書
を構成する全文を入力部1を介して形態素解析部2に送
付して一連の処理を終了する(ステップ1906)。
【0120】次に、データベース選定部19における処
理の詳細を、図20のフローチャートを参照しながら説
明する。
【0121】データベース選定部19は、解析結果値保
持部20からの解析結果値を格納(保持)した旨の通知
を待ち受けており、通知を受けると(ステップ200
1)、その通知は、最後の統計データベースを用いた試
し解析に対するものであるか否かを確認する(ステップ
2002)。
【0122】最後の統計データベースを用いた試し解析
に対するものでなければ、統計データベース切替部7に
対して、未だ試し解析に用いられていない統計データベ
ースへの切替を指示した後(ステップ2003)、入力
管理部18に対して、試し解析文の送付を指示し(ステ
ップ2004)、その後、上述したステップ2001に
戻って、解析結果値保持部20からの解析結果値を格納
(保持)した旨の通知を待ち受ける。
【0123】ステップ2001〜2004の処理ループ
を繰り返すことにより、最後の統計データベースを用い
た試し解析に対する解析結果値を格納(保持)した旨の
通知も与えられ、このときには、解析結果値保持部20
に格納されている各統計データベースに対応した解析結
果値間の大小比較を行い(ステップ2005)、統計デ
ータベース切替部7に対して、最高の解析結果値(形態
素解析結果が最も信頼できることを表している)に対応
した統計データベースへの切替を指示した後(ステップ
2006)、入力管理部18に対して、全文の送付を指
示して一連の処理を終了する(ステップ2007)。
【0124】次に、解析結果値保持部20における処理
の詳細を、図21のフローチャートを参照しながら説明
する。
【0125】なお、試し解析は、統計データベースの数
だけ繰り返されるが、図21は、その第1回目の試し解
析に対応した処理を示しており、第2回目以降の各回で
の試し解析には、ステップ2101の処理を除いた部分
が対応する。
【0126】解析結果値保持部20は、入力管理部18
から与えられた試し解析文の文数を受け付けて内部保持
する(ステップ2101)。
【0127】その後、形態素解析部2からある1文につ
いての解析結果値が与えられると、統合解析結果値(最
終的には、その時点での統計データベースに対する解析
結果値になる)に今回の解析結果値を加算(又は乗算)
して統合解析結果値を更新した後(ステップ210
2)、ステップ2101で受け付けた文数分だけ解析結
果値が形態素解析部2から与えられたか否かを判定する
(ステップ2103)。与えられていなければ、上述し
たステップ2102に戻る。ステップ2101で受け付
けた文数分だけ解析結果値が形態素解析部2から与えら
れていると、今回、仮選定されている統計データベース
を用いた試し解析が完了した旨の通知をデータベース選
定部19に送付して一連の処理を終了する(ステップ2
104)。
【0128】この第6の実施形態によっても、統計デー
タベースとして、種々の観点からの複数種類のものを用
意し、解析対象の文章(文書)に応じて統計データベー
スを選択することができるので、従来に比べて、良好な
形態素解析結果が得られ、しかも、入力部、形態素解析
部及び出力部という主たる構成の変更をほぼ不要にでき
るという効果を得ることができる。また、第6の実施形
態によれば、文書全体を装置に一括入力すれば、自動的
に入力文書に最も類似したコーパスから作成された統計
データベースを選択して解析するので、ユーザの使い勝
手も良く、良好な形態素解析結果が得られるという効果
をも奏する。
【0129】さらに、第6の実施形態によれば、入力文
書に最適な統計データベースを定めるにつき、形態素解
析構成等を利用するようにしているので、構成や処理を
簡単なものとすることができる。
【0130】なお、入力文書を構成する文の数が少ない
場合には、全ての文に対して、各統計データベースを用
いた解析を実行させると共に、解析結果値だけでなくそ
の形態素解析結果も保持させ、全ての統計データベース
について解析が完了した際に、解析結果値が最良でなる
統計データベースを使用して既に得ている形態素解析結
果を出力させるようにしても良い。この場合には、試し
解析とは異なる概念となっている。
【0131】(G)第7の実施形態 次に、本発明を形態素解析装置に適用した第7の実施形
態を図面を参照しながら詳述する。
【0132】この第7の実施形態の形態素解析装置は、
多言語対応の形態素解析装置である。統計データベース
を利用する形態素解析装置の場合、基本的には、解析対
象文の文字の並びと、統計データベースに格納されてい
るその並びと形態素区切りとの確率的な関係とに基づい
て、形態素解析するものであるので、形態素解析時に語
尾変化や接続関係(上述の確率値がこの機能を果たして
いる)等を考慮する必要がなく、単語辞書を利用する形
態素解析方法に比較して、形態素解析部自体を、異なる
言語の文に対しても適用し易い。また、言語別の品詞体
系も統計データベースに容易に盛り込むことができる。
この第7の実施形態は、このような着想に基づいてなさ
れたものである。
【0133】因みに、単語辞書を利用する形態素解析方
法は、言語に依存した部分と非依存の部分の分離が明確
ではなく、辞書を切替えるだけでは、接続テーブルや品
詞体系の相違等のために、別の言語の文の処理は不可能
であった。
【0134】図22は、この第7の実施形態の形態素解
析装置の構成を示す機能ブロック図であり、上述した第
3の実施形態に係る図8との同一、対応部分には、同一
符号を付して示している。
【0135】第7の実施形態の形態素解析装置では、言
語別のコーパス23−1、23−2、23−3、…が用
意されており、連鎖確率計算部5は、言語別のコーパス
23−1、23−2、23−3、…に基づいて、言語別
の統計データベース22−1、22−2、22−3、…
を作成するものである。なお、言語は異なっても、全て
テキストデータになっているので、連鎖確率計算部5
は、同様に取り扱うことができる。
【0136】どの統計データベース22−iを用いるか
は、言語判定部21が決定する。言語判定部21が実行
する言語判定方法としては、既知の方法の何れを適用し
ても良い。例えば、特開平9‐179866号公報に記
載の方法を適用できる。また、第6の実施形態のような
試し解析を利用して、言語別の統計データベースから最
適な(該当言語の)統計データベースを定めるようにし
ても良い。
【0137】この第7の実施形態によれば、統計データ
ベースとして、言語別の複数種類のものを用意し、解析
対象の文章(文書)に応じて統計データベースを選択す
ることができるので、多言語対応の形態素解析装置を実
現できると共に、しかも、入力部、形態素解析部及び出
力部という主たる構成の変更をほぼ不要にでき、かつ、
複数言語で共通化できるという効果を得ることができ
る。
【0138】また、第7の実施形態によれば、文書全体
を装置に一括入力すれば、自動的に入力文書の言語に対
応した統計データベースを選択して解析するので、ユー
ザの使い勝手も良いという効果をも奏する。
【0139】(H)他の実施形態 上記各実施形態の説明においても、種々変形実施形態に
ついて言及したが、さらに、いくつかの変形実施形態を
挙げれば以下の通りである。
【0140】上記各実施形態においては、形態素解析部
2が解析時に使用する統計データベースが1個であるも
のを示したが、形態素解析部2が、複数の統計データベ
ースを解析時に同時使用するようにしても良い。統計デ
ータベースは、連鎖確率を格納しているものであるの
で、連鎖確率の算出が独立である複数の統計データベー
スを同時使用することはできないが、統計データベース
に連鎖確率ではなく、頻度を格納するようにしておき、
その出力時に確率化するようにしたならば、上述のよう
に、形態素解析部2が、複数の統計データベースを解析
時に同時使用することができるようになる。
【0141】また、上記各実施形態(第7の実施形態を
除く)の説明を、日本語文を対象としていることを前提
として行っているが、他の言語文を対象とした形態素解
析装置に本発明を適用できることは勿論である。
【0142】第1〜第6の実施形態のような分野別の統
計データベースから最適なものを選択して使用するとい
う技術思想と、第7の実施形態のような言語別の統計デ
ータベースから該当言語のものを選択して使用するとい
う技術思想とを組み合わせてて良いことは勿論である。
【0143】上記各実施形態は、本発明を形態素解析装
置に適用したものであったが、本発明は、これに限定さ
れず、統計データベースを使用して自然言語処理する他
の自然言語処理装置にも適用できるものである。例え
ば、部分的に文字化けしたテキストデータ列に対し、統
計データベース内の統計データを利用して文字化け部分
を正しいと推測される文字列に修正する装置が検討され
ているが、このような装置に対しても本発明を適用する
ことができる。
【0144】
【発明の効果】以上のように、本発明によれば、自然言
語処理本体に接続する統計データベースの内容を、統計
データベースの選択又は入力文書に応じた動的な更新に
よって切り替えるようにしたので、統計データベースを
利用した自然言語処理の精度を、処理対象の文章の種類
等によらずに、従来より高めることができるようにな
る。
【0145】
【図面の簡単な説明】
【図1】第1の実施形態の構成を示すブロック図であ
る。
【図2】タグ付きコーパスの一例を示す説明図である。
【図3】第1の実施形態の統計データベース切替部の切
替のための動作を示すフローチャートである。
【図4】第1の実施形態の統計データベース識別番号と
統計データベースのアドレスとの対応テーブル例を示す
説明図である。
【図5】第2の実施形態の構成を示すブロック図であ
る。
【図6】第2の実施形態の入力解析部の処理を示すフロ
ーチャートである。
【図7】第2の実施形態の統計データベース切替指示記
号を含む入力文字列を示す説明図である。
【図8】第3の実施形態の構成を示すブロック図であ
る。
【図9】第3の実施形態の文区切り部の処理を示すフロ
ーチャートである。
【図10】第3の実施形態の文書分野判定部の処理を示
すフローチャートである。
【図11】第3の実施形態の文書分野判定方法の説明図
である。
【図12】第4の実施形態の構成を示すブロック図であ
る。
【図13】第4の実施形態の文書分野判定及びコーパス
選択処理を示すフローチャートである。
【図14】第5の実施形態の構成を示すブロック図であ
る。
【図15】第5の実施形態の入力文書データベースの格
納例を示す説明図である。
【図16】第5の実施形態の統計データベースの格納例
を示す説明図である。
【図17】第5の実施形態のデータベース選定処理を示
すフローチャートである。
【図18】第6の実施形態の構成を示すブロック図であ
る。
【図19】第6の実施形態の入力管理部の処理を示すフ
ローチャートである。
【図20】第6の実施形態のデータベース選定部の処理
を示すフローチャートである。
【図21】第6の実施形態の解析結果値保持部の処理を
示すフローチャートである。
【図22】第7の実施形態の構成を示すブロック図であ
る。
【符号の説明】
1…入力部、2…形態素解析部、3…出力部、4…コー
パス群、5…連鎖確率計算部、6…統計データベース
群、7…統計データベース切替部、8…DB識別番号入
力部、9…コーパス/DB指定部、10…入力解析部、
11…文区切り部、12…文書分野判定部、13…コー
パス選択部、14…統計データベース(統計DB)、1
5…入力分岐部、16、19…データベース選定部(D
B選定部)、17…入力文書データベース(入力文書D
B)、18…入力管理部、20…解析結果値保持部、2
1…言語判定部、22…言語統計データベース(言語統
計DB)群、23…言語コーパス群、51…頻度カウン
ト部、52…確率計算部。
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06F 17/21 - 17/30 JICSTファイル(JOIS)

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】 自然言語文に現れる所定文字数でなる部
    分文字列とその絶対的又は相対的な頻度情報との組を複
    数組格納している統計データベースを利用して、入力さ
    れた自然言語文に対して、自然言語処理本体が所定の自
    然言語処理を行う自然言語処理装置において、 上記統計データベースとして、その作成の元となったコ
    ーパスが異なる複数のものを設けると共に、 上記自然言語処理本体に接続する統計データベースを切
    り替える統計データベース切替手段と、 自然言語処理対象として入力される自然言語文の文字列
    中に挿入されている統計データベース切替記号を認識
    し、上記統計データベース切替手段に対し、その統計デ
    ータベース切替記号に対応した統計データベースを上記
    自然言語処理本体に接続させる統計データベースとして
    指示する入力解析手段と を有することを特徴とする自然
    言語処理装置。
  2. 【請求項2】 上記各統計データベースが異なる言語の
    情報を格納しているものであることを特徴とする請求項
    1に記載の自然言語処理装置。
  3. 【請求項3】 上記自然言語処理本体が実行する自然言
    語処理が形態素解析処理であることを特徴とする請求項
    1に記載の自然言語処理装置。
  4. 【請求項4】 自然言語文に現れる所定文字数でなる部
    分文字列とその絶対的又は相対的な頻度情報との組を複
    数組格納している統計データベースを利用して、入力さ
    れた自然言語文に対して、形態素解析部が形態素解析を
    行う自然言語処理装置において、 上記統計データベースとして、その作成の元となったコ
    ーパスが異なる複数のものを設けると共に、 上記形態素解析部に接続する統計データベースを切り替
    える統計データベース切替手段と、 形態素解析対象の自然言語文が文書の要素として入力さ
    れるものであり、かつ、入力文書からその文書に適した
    統計データベースを定めて上記統計データベース切替手
    段に選択指示する使用DB判定手段とを有し上記使用DB判定手段が、 入力文書を構成する一部の自然言語文を試し解析対象文
    と設定する入力管理部と、 上記入力管理部で設定された試し解析対象文に対し、上
    記各統計データベースをそれぞれ使用した複数回の形態
    素解析を、上記形態素解析部によって実行させるデータ
    ベース選定部と、 上記試し解析対象文に対する形態素解析結果に係る評価
    値として、使用した上記統計データベースにおける形態
    素解析結果に採用された全ての部分文字列の頻度情報の
    統合値を保持する解析結果保持部とを有し、 上記データベース選定部は、全ての統計データベースに
    ついて、試し解析対象文の形態素解析が終了した時点
    で、上記解析結果保持部に保持されている統合値を比較
    して、最も統合値が高くなっている形態素解析結果が得
    られた統計データベースを検索し、上記統計データベー
    ス切替部へその統計データベースへの切り替えを指示す
    ことを特徴とする自然言語処理装置。
  5. 【請求項5】 自然言語文に現れる所定文字数でなる部
    分文字列とその絶対的又は相対的な頻度情報との組を複
    数組格納している統計データベースを利用して、入力さ
    れた自然言語文に対して、自然言語処理本体が所定の自
    然言語処理を行う自然言語処理装置において、 上記統計データベースの作成の元となるデータを格納し
    ている複数のコーパスと、 自然言語処理対象の自然言語文を複数有する入力文書
    ついて、所定文字数でなる文字列の頻度分布データを形
    成し、内部保持している上記各コーパスについての基準
    頻度分布データとのパターンマッチングを行って、上記
    入力文書に適した1又は複数のコーパスを定める適用コ
    ーパス決定手段と、 決定されたコーパスに含まれている自然言語文を、所定
    文字数でなる部分文字列に分割すると共に、部分文字列
    の種類毎の絶対的又は相対的な頻度情報を得て、上記統
    計データベースを作成する統計データベース動的作成手
    段とを有し、 自然言語処理対象の文書が入力される毎に、上記適用コ
    ーパス決定手段による適用コーパスの決定処理、及び、
    上記統計データベース動的作成手段による統計データベ
    ースの作成処理を実行することを特徴とする自然言語処
    理装置。
JP04008898A 1998-02-23 1998-02-23 自然言語処理装置 Expired - Fee Related JP3385206B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP04008898A JP3385206B2 (ja) 1998-02-23 1998-02-23 自然言語処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP04008898A JP3385206B2 (ja) 1998-02-23 1998-02-23 自然言語処理装置

Publications (2)

Publication Number Publication Date
JPH11238060A JPH11238060A (ja) 1999-08-31
JP3385206B2 true JP3385206B2 (ja) 2003-03-10

Family

ID=12571146

Family Applications (1)

Application Number Title Priority Date Filing Date
JP04008898A Expired - Fee Related JP3385206B2 (ja) 1998-02-23 1998-02-23 自然言語処理装置

Country Status (1)

Country Link
JP (1) JP3385206B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7168963B2 (ja) * 2020-04-28 2022-11-10 株式会社Askプロジェクト 自然言語処理装置及び自然言語処理方法

Also Published As

Publication number Publication date
JPH11238060A (ja) 1999-08-31

Similar Documents

Publication Publication Date Title
US7707026B2 (en) Multilingual translation memory, translation method, and translation program
US8612206B2 (en) Transliterating semitic languages including diacritics
KR101266361B1 (ko) 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법
US6876963B1 (en) Machine translation method and apparatus capable of automatically switching dictionaries
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
JP3038079B2 (ja) 自動翻訳装置
JP2006251843A (ja) 同義語対抽出装置及びそのためのコンピュータプログラム
US10650195B2 (en) Translated-clause generating method, translated-clause generating apparatus, and recording medium
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4431759B2 (ja) 未登録語自動抽出装置及びプログラム、並びに未登録語自動登録装置及びプログラム
JP3385206B2 (ja) 自然言語処理装置
US20040054677A1 (en) Method for processing text in a computer and a computer
US20180011833A1 (en) Syntax analyzing device, learning device, machine translation device and storage medium
JPH0883280A (ja) 文書処理装置
KR100283100B1 (ko) 대용량 말뭉치를 위한 통계학적 용례 추출 수단 및 그 방법
JPH0561902A (ja) 機械翻訳システム
JPH1145249A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3939151B2 (ja) 訳語選択装置および訳語選択プログラムおよび訳語選択プログラムを記憶した媒体
CN115796194A (zh) 一种基于机器学习的英语翻译系统
JPH086950A (ja) キーワード翻訳機能付き機械翻訳装置
JP2004264960A (ja) 用例ベースの文変換装置、およびコンピュータプログラム
CN112906366A (zh) 基于albert的模型构建方法、装置、系统及介质
JP3267168B2 (ja) 自然言語変換システム
CN114661917A (zh) 文本扩增方法、系统、计算机设备及可读存储介质
JPH08241319A (ja) 機械翻訳装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081227

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091227

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091227

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101227

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees