JP3385206B2

JP3385206B2 - 自然言語処理装置

Info

Publication number: JP3385206B2
Application number: JP04008898A
Authority: JP
Inventors: 篤司池野
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1998-02-23
Filing date: 1998-02-23
Publication date: 2003-03-10
Anticipated expiration: 2018-02-23
Also published as: JPH11238060A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、コーパスから学習
した統計データベースを自然言語処理に利用する自然言
語処理装置に関し、例えば、入力文の形態素を自動的に
解析する形態素解析装置に適用し得るものである。

【０００２】

【従来の技術】

文献１『特開平７−２７１７９２号公報』文献２『特願平９−６８３００号明細書及び図面（公開
されていないが文献と呼ぶ）』日本語文などの自然言語文を処理する装置（例えば、機
械翻訳装置や質疑応答装置やコンピュータ援用の教育装
置等）においては、自然言語文に対して最初に形態素解
析を行う。

【０００３】従来の形態素解析装置としては、形態素解
析部（形態素解析プログラム部）と、形態素辞書と、活
用語尾テーブルと、（品詞別）接続テーブルとから構成
されているものが多く、形態素解析部が、形態素辞書や
活用語尾テーブルや接続テーブルを適宜アクセスしなが
ら入力文を形態素に区切っていくものであった。

【０００４】これに対し、近年、形態素辞書を使用せず
に、代わりに、形態素境界や各形態素の品詞情報等を保
持したタグ付コーパス（大量のテキストデータ）から学
習して得た統計データベースを利用した形態素解析装置
が研究され始めている（例えば、上記文献１及び文献２
参照）。統計データベースに格納されている統計データ
は、Ｎ個の拡張文字の順次でなる文字列と、その出現頻
度割合（以下、連鎖確率とも呼ぶ）との組である。ま
た、統計データを、場合によってはＮ−ｇｒａｍデータ
と呼ぶ。なお、拡張文字とは、文字に、形態素境界の有
無や品詞情報等を付与したものをいう。

【０００５】統計データベースを利用した形態素解析方
式では、開発者による発見的な手法で構築されてきた接
続テーブルの代わりに、コーパスから求めた統計データ
（特に連鎖確率）を使用するという点で、従来方式より
も根拠が明確である。また、未知語が存在しても一定の
基準で精度の高い解析を進めることができるとされてい
る。

【０００６】

【発明が解決しようとする課題】ところが、上述した統
計データベースを利用した形態素解析装置では、例え
ば、科学技術論文をコーパスとして統計データベースを
用意すると、その形態素解析装置は、科学技術論文に対
しては望ましい解析結果を出力するが、手紙文に対して
は良い解析結果が得られない、という課題がある。これ
は、科学技術用語を含むか否かの相違だけでなく、科学
技術論文での表現や手紙文の表現の相違等によって、同
一の拡張文字列であっても、コーパスによって連鎖確率
が大きく異なるためである。

【０００７】すなわち、用意するコーパスによって作成
される統計データベース中の値が異なり、結果として解
析結果も異なるため、様々な文書を解析対象としたとき
に（用意したコーパスと異なる類の文書には）良好な結
果が得られない、という課題があった。

【０００８】このような課題に対して、様々な文書を取
り混ぜたコーパスを用意する、という方法も考えられ
る。しかしながら、文書の種類によって、特殊な言い回
しを許容したり多用したりすることがあるので、そのよ
うな種類が異なる文書を同一のコーパスに集めると矛盾
を起こして、統計データベースの質が落ちて、結局どの
文書に対しても良い解析結果が得られないことが多い。
例えば、「ですます」調の丁寧表現が多い文書とそれ以
外の文書とを混合したコーパスを用いて、統計データベ
ースを構築した場合には、解析対象文章が、丁寧表現の
ものであってもそれ以外の表現のものであっても解析精
度が低くなる恐れは大きい。

【０００９】構築された統計データベースは、データベ
ースである以上、形態素解析処理以外の処理での利用が
検討されているが、上述したような課題は、形態素解析
処理以外の処理においても生じるものである。

【００１０】そのため、統計データ（統計データベー
ス）を利用した自然言語処理の精度を、処理対象の文章
の種類等によらずに、従来より高めることができる自然
言語処理装置が望まれている。

【００１１】

【課題を解決するための手段】かかる課題を解決するた
め、第１及び第２の本発明は、自然言語文に現れる所定
文字数でなる部分文字列とその絶対的又は相対的な頻度
情報との組を複数組格納している統計データベースを利
用して、入力された自然言語文に対して、自然言語処理
本体が所定の自然言語処理を行う自然言語処理装置にお
いて、（１）上記統計データベースとして、その作成の
元となったコーパスが異なる複数のものを設けると共
に、（２）上記自然言語処理本体に接続する統計データ
ベースを切り替える統計データベース切替手段を有す
る。第１の本発明はさらに、自然言語処理対象として入
力される自然言語文の文字列中に挿入されている統計デ
ータベース切替記号を認識し、上記統計データベース切
替手段に対し、その統計データベース切替記号に対応し
た統計データベースを上記自然言語処理本体に接続させ
る統計データベースとして指示する入力解析手段を有す
る。第２の本発明は、自然言語処理が形態素解析であっ
て、形態素解析対象の自然言語文が文書の要素として入
力されるものであり、上記構成要素に加え、入力文書か
らその文書に適した統計データベースを定めて上記統計
データベース切替手段に選択指示する使用ＤＢ判定手段
を有する。この使用ＤＢ判定手段は、入力文書を構成す
る一部の自然言語文を試し解析対象文と設定する入力管
理部と、上記入力管理部で設定された試し解析対象文に
対し、上記各統計データベースをそれぞれ使用した複数
回の形態素解析を、上記形態素解析部によって実行させ
るデータベース選定部と、上記試し解析対象文に対する
形態素解析結果に係る評価値として、使用した上記統計
データベースにおける形態素解析結果に採用された全て
の部分文字列の頻度情報の統合値を保持する解析結果保
持部とを有し、上記データベース選定部は、全ての統計
データベースについて、試し解析対象文の形態素解析が
終了した時点で、上記解析結果保持部に保持されている
統合値を比較して、最も統合値が高くなっている形態素
解析結果が得られた統計データベースを検索し、上記統
計データベース切替部へその統計データベースへの切り
替えを指示する。

【００１２】また、第３の本発明は、自然言語文に現れ
る所定文字数でなる部分文字列とその絶対的又は相対的
な頻度情報との組を複数組格納している統計データベー
スを利用して、入力された自然言語文に対して、自然言
語処理本体が所定の自然言語処理を行う自然言語処理装
置において、（１）上記統計データベースの作成の元と
なるデータを格納している複数のコーパスと、（２）自
然言語処理対象の自然言語文を複数有する入力文書につ
いて、所定文字数でなる文字列の頻度分布データを形成
し、内部保持している上記各コーパスについての基準頻
度分布データとのパターンマッチングを行って、上記入
力文書に適した１又は複数のコーパスを定める適用コー
パス決定手段と、（３）決定されたコーパスに含まれて
いる自然言語文を、所定文字数でなる部分文字列に分割
すると共に、部分文字列の種類毎の絶対的又は相対的な
頻度情報を得て、上記統計データベースを作成する統計
データベース動的作成手段とを有し、自然言語処理対象
の文書が入力される毎に、上記適用コーパス決定手段に
よる適用コーパスの決定処理、及び、上記統計データベ
ース動的作成手段による統計データベースの作成処理を
実行することを特徴とする。

【００１３】

【発明の実施の形態】（Ａ）第１の実施形態以下、本発明を形態素解析装置に適用した第１の実施形
態を図面を参照しながら詳述する。

【００１４】第１の実施形態の形態素解析装置は、ワー
クステーションやパソコン等の情報処理装置上で実現さ
れるものであるが、機能的には、図１に示す機能ブロッ
ク図で表すことができる。

【００１５】図１において、第１の実施形態の形態素解
析装置は、入力部１、形態素解析部２、出力部３、タグ
付きコーパス群４、連鎖確率計算部５、統計データベー
ス（統計ＤＢ）群６、統計データベース切替部７、ＤＢ
識別番号入力部８及びコーパス／ＤＢ指定部９からな
る。

【００１６】なお、タグ付きコーパス群４、連鎖確率計
算部５及びコーパス／ＤＢ指定部９は、統計データベー
ス群６を形成させるものであり、形態素解析は、形成さ
れた統計データベース群６を利用するものであるので、
これらタグ付きコーパス４、連鎖確率計算部５及びコー
パス／ＤＢ指定部９を、他の構成要素とは異なる情報処
理装置上で実現し、他の構成要素を搭載している情報処
理装置からはこれらタグ付きコーパス４、連鎖確率計算
部５及びコーパス／ＤＢ指定部９を省略することもでき
る。

【００１７】入力部１は、文字列（自然語テキスト）を
入力として受けとり、形態素解析部２にその文字列を送
るものである。入力部１は、例えば、キーボード、マウ
ス、ＯＣＲ（光学式文字認識装置）、音声認識装置等の
任意の手段で構成されていても良く、また、ネットワー
ク等の通信媒体を経て外部からの通信信号を受信する手
段として構成されていても良い。

【００１８】形態素解析部２は、入力文字列に対して、
統計データベース切替部７を通じて統計データベース群
６のいずれか１個の統計データベース６−ｉ（ｉは１、
２、３…のいずれか）の情報を利用して形態素解析を行
うものである。形態素解析部２が実行する形態素解析方
法は、例えば、上記文献２に記載の方法を適用できる。
形態素解析部２は、例えば、以下のような機能を担う拡
張文字列生成部、スコアテーブル、スコア計算部及び最
適経路探索部を有する。

【００１９】拡張文字列生成部は、入力文字列の拡張文
字を生成し、入力文字列の文頭から文末までについて、
Ｎ文字でなる拡張文字列（Ｎ−ｇｒａｍ）の経路（組み
合わせ）をスコアテーブルに格納するものである。スコ
アテーブルは、入力文字列の文頭から文末までの全ての
拡張文字列（Ｎ−ｇｒａｍ）の経路と、統計データベー
ス６−ｉに格納されている連鎖確率情報とに基づき求め
た拡張文字列の経路に対応する拡張文字列の連鎖確率情
報を格納するものである。スコア計算部は、統計データ
ベース６−ｉに格納されている連鎖確率情報に基づき、
スコアテーブルに格納されている拡張文字列の経路全体
に対する連鎖確率情報を計算するものである。最適経路
探索部は、スコア計算部により計算された連鎖確率情報
の中から、最適な条件（例えば最大値の連鎖確率情報を
与えるなど）を満たす拡張文字列を、最適拡張文字列
（形態素解析結果）として選択するものである。

【００２０】出力部３は、形態素解析部２から解析結果
の形態素列を受け取り、出力するものである。例えば、
種々の表示手段や印刷手段や通信手段等が該当する。

【００２１】タグ付きコーパス群４の各要素であるコー
パス４−１、４−２、４−３、…は、少なくとも形態素
境界を含む（この他に各形態素の品詞情報を含んでいて
も良い）大量のテキストデータである。図２に、コーパ
スデータ例を示す。この例では形態素境界をスラッシュ
（／）で表示し、品詞・活用型・活用形の情報を四角括
弧内にカンマで列記する、という形式で各情報を保持し
ている。なお、タグとして、形態素境界だけを含むタグ
つきコーパス４−ｊであっても良い。

【００２２】連鎖確率計算部５は、タグ付きコーパス群
４のうちの１又は複数のコーパスが保持するテキストデ
ータを処理し、統計データベース群６のうちの１個の統
計データベース６−ｉを作成するものである。具体的に
は、Ｎ−ｇｒａｍデータを生成してデータベース化する
ものである。上記文献１における単語モデル推定手段あ
るいは品詞付けモデル推定手段と呼ばれている部分が、
この実施形態の連鎖確率計算部５に対応しており、文献
１で開示されている連鎖確率計算方法を適用することが
できる。また、連鎖確率計算部５の処理方法として、下
記文献３及び文献４に記載されている統計データベース
の作成方法を適用することができる。

【００２３】文献３『長尾眞、森信介著、「大規模日本
語テキストのｎグラム統計の作り方と語句の自動抽
出」、情報処理学会研究報告自然言語処理９６−１、１
９９３年７月』文献４『特願平９−３５０６５１号明細書及び図面（公
開されていないが文献と呼ぶ）』統計データベース群６の各要素である統計データベース
６−１、６−２、６−３、…は、連鎖確率計算部５で計
算されて得られたＮ−ｇｒａｍデータ（品詞情報を伴う
ものであっても良く、また、伴わないものであっても良
い）のデータベースである。

【００２４】コーパス／ＤＢ指定部９は、ユーザの入力
に応じて、連鎖確率計算部５に対して、コーパスの選択
信号と、そのコーパスから得られた統計データ（Ｎ−ｇ
ｒａｍデータ）を保持する統計データベースの識別番号
とを与えるものである。従って、上述した連鎖確率計算
部５は、コーパス／ＤＢ指定部９から指定された１又は
複数のコーパスが保持するテキストデータを処理し、コ
ーパス／ＤＢ指定部９から指定された識別番号を有する
統計データベース６−ｉを生成する。

【００２５】例えば、電気技術分野のコーパスと、化学
技術分野のコーパスと、機械技術分野のコーパスとから
科学技術一般に係る統計データベースを生成させる場合
には、コーパスとして３個を指定することを要する。

【００２６】なお、コーパス４−ｊ（ｊは１、２、３…
のいずれか）と統計データベース６−ｉとを１対１で対
応付けるように、統計データベースを作成する場合に
は、コーパス／ＤＢ指定部９は省略される。

【００２７】ＤＢ識別番号入力部８は、ユーザが入力し
たこれから実行する形態素解析で用いる統計データベー
ス６−ｉの識別番号（又は識別名称）を受け付け、統計
データベース切替部７に与えるものである。

【００２８】統計データベース切替部７は、ユーザから
のデータベース識別番号の入力を取り込み、管理してい
る統計データベース群６の中から、取り込んだ識別番号
に係る１個の統計データベース６−ｉのアドレスを用意
し、形態素解析部２に知らせるものである。装置起動時
にはデフォルトの統計データベースのアドレスを予め用
意しているものとする。

【００２９】上述した各部１〜９からなる第１の実施形
態の形態素解析装置の動作は、大きくは、２種類に分か
れる。すなわち、統計データベース群６を作成する動作
と、統計データベース６−ｉを利用した形態素解析動作
とに分かれる。

【００３０】前者の統計データベース群６を作成する動
作は、複数のコーパスを有するコーパス群４から、ある
統計データベース６−ｉの作成に使用する１又は複数の
コーパス４−ｊを指定して作成させるという点は、従来
と異なるが、コーパスが指定された後、そのコーパスか
ら統計データベース６−ｉを作成する方法自体は、従来
と同様であるので、その説明は省略する。

【００３１】また、後者の動作も、基本的には、従来と
同様である。すなわち、入力部１が入力された文字列を
取り込んで形態素解析部２に与え、形態素解析部２が統
計データベース６−ｉをも利用して入力文字列に対する
形態素解析を行って得られた形態素列を出力部３に与
え、出力部３がその形態素列を出力する。

【００３２】しかし、形態素解析部２から統計データベ
ースヘのアクセスに際し、形態素解析部２から統計デー
タベース切替部７にアクセスすると、ＤＢ識別番号入力
部８を介して指定された、統計データベース群６の１個
の統計データベース６−ｉにアクセスできるように動作
する点は、従来には存在しない動作となっている。この
動作を実現させるための前段階の動作が、統計データベ
ース切替部７の切替動作である。

【００３３】そこで、以下では、統計データベース切替
部７の切替動作を図３を参照しながら説明する。統計デ
ータベース切替部７は、統計データベース識別番号（Ｄ
Ｂ識別番号）の入力があったときに起動される。

【００３４】まず、統計データベース識別番号の入力を
受け付ける（ステップ３０１）。この第１の実施形態で
は、各統計データベース６−１、６−２、６−３、…に
は順に番号がついているものとするが、それぞれに識別
できる名称がついており、名称が入力される方式であっ
ても良い。

【００３５】次に、識別番号と統計データベース群６の
アドレスとを対応付けている内部管理する対応テーブル
を参照し（ステップ３０２）、指定された統計データベ
ースのアドレスを、解析用統計データベースの場所を示
す変数の値に代入し、一連の切替動作を終了するする
（アドレスを割り当てる）（ステップ３０３）。

【００３６】すなわち、統計データベース群６は、実際
上、メモリやハードディスク中に実現されるので、いず
れか一つのデータベースの位置はアドレスで示すことが
でき、指定された統計データベースのアドレスを、解析
用統計データベースの場所を示す変数の値に代入するこ
ととした。

【００３７】識別番号と統計データベースのアドレスと
の対応テーブルの例を図４に示している。この例の場合
には、以下のようにすれば良い。

【００３８】例えば、解析用統計データベースの場所を
示す整数変数を、ｉｎｔ＊ｄｂｐｌａｃｅとすると（Ｃ言語での定義；ｉｎｔ＊は整数変数である
ことを表す）、データベース識別番号に２が与えられた
場合には、ｄｂｐｌａｃｅ＝８２５０という値を与える。これにより、形態素解析部２が、解
析用統計データベースのデータを探すときには変数ｄｂ
ｐ１ａｃｅにアクセスするので、自動的に２番の統計デ
ータベースにアクセスにいくことになる。

【００３９】以上のように、第１の実施形態によれば、
統計データベースとして、複数種類のものを用意し、解
析対象の文章に応じて、ユーザが利用する統計データベ
ースを指定することができるようにしたので、従来に比
べて、良好な形態素解析結果を得ることができる。

【００４０】このような効果を発揮させるのにつき、形
態素解析部からは、統計データベース側に向けて、従来
と同様なアクセス方法で良く、そのアクセス内容を統計
データベース切替部が変換動作して所定の統計データベ
ースをアクセスするようにしたので、入力部、形態素解
析部及び出力部という主たる構成の変更を不要とするこ
とができる。

【００４１】また、この第１の実施形態の場合、複数の
統計データベースを形成させる元となるコーパスは、統
計データを対象としているものであるため任意に選定す
ることができ、その結果、専門分野別に統計データベー
スを用意させるだけでなく、「ですます」調のコーパス
から丁寧表現用の統計データベースを用意するようなこ
ともでき、統計データベースを異にさせるカテゴリーの
捉え方が多種多様であり、この点からも、従来に比べて
良好な形態素解析結果を得ることができる。

【００４２】（Ｂ）第２の実施形態次に、本発明を形態素解析装置に適用した第２の実施形
態を図面を参照しながら詳述する。

【００４３】図５は、この第２の実施形態の形態素解析
装置の構成を示す機能ブロック図であり、上述した第１
の実施形態に係る図１との同一、対応部分には、同一符
号を付して示している。

【００４４】図５及び図１の比較から明らかなように、
第２の実施形態の形態素解析装置は、ＤＢ識別番号入力
部８を備えておらず、その代りに、入力部１及び形態素
解析部２の処理経路上に入力解析部１０を備えている。

【００４５】入力部１及び形態素解析部２は、基本的に
は、第１の実施形態のものと同じであるが、入力部１が
入力内容を入力解析部１０に与える点が第１の実施形態
のものから異なっており、形態素解析部２が、形態素解
析対象文字列を入力解析部１０から受け取る点が第１の
実施形態のものから異なっている。

【００４６】第２の実施形態の統計データベース切替部
７は、統計データベース識別番号（又は識別名称）を、
ＤＢ識別番号入力部８を介したユーザからの直接入力で
はなく、入力解析部１０から受け取る点が第１の実施形
態のものとは異なっている。また、統計データベース切
替部７は、統計データベースを切替えた後に、完了の信
号を入力解析部１０に返送するものである。

【００４７】第２の実施形態で新たに設けられた入力解
析部１０は、入力部１から受け取った文字列に、統計デ
ータベース切替を指示する記号（統計データベース識別
番号又は名称を含む）が含まれているか否かを解析し、
含まれていた場合には、入力文字列からその記号部分を
分離して、データベース識別番号を統計データベース切
替部７に与え、切替完了の信号を待って、本来の解析対
象となるべき文字列部分だけを形態素解析部２に与える
ものである。

【００４８】上記で機能を説明した以外の構成要素は、
第１の実施形態の対応要素と同一の機能を実現するもの
である。

【００４９】この第２の実施形態については、入力解析
部１０での動作のみを図６を参照しながら説明する。す
なわち、統計データベースの作成動作や、形態素解析部
２による統計データベース６−ｉの格納内容を利用した
形態素解析動作の説明は省略する。なお、図６は、１個
の文章（１個の形態素解析対象の文字列）に対する処理
であり、形態素解析対象が複数の文章の場合には、図６
に示す処理がその文章の数だけ繰り返される。

【００５０】まず、入力解析部１０は、入力部１から受
け取った入力文字列中に統計データベース切替を指示す
る記号（統計データベース識別番号又は識別名称を含
む）が含まれているか否かを解析する（ステップ６０
１）。統計データベース切替指示記号は、通常の入力文
字列に存在しない記号の組合せであれば良く、しかも、
統計データベース識別番号（識別名称）を持たせられる
ものであれば良い。例えば、図７に示すように、
「（＠」と「＠）」に挟まれた統計データベース識別番
号（識別名称）をデータベース切替指示記号とすること
ができる。データベース切替指示記号は、文頭でも文尾
でも、さらには、文中に挿入するようにしても良く、そ
の挿入位置は、任意に定めれば良い。図７の例は、文頭
及び文尾の場合を示している。

【００５１】統計データベース切替指示記号が含まれて
いない場合には、形態素解析部２に入力文字列をそのま
ま渡して、処理を終了する（ステップ６０２）。

【００５２】一方、統計データベース切替指示記号が含
まれている場合には、入力文字列を、統計データベース
切替指示記号の部分と、解析対象文字列の部分に分離す
る（ステップ６０３）。そして、統計データベース切替
指示記号からデータベース識別番号（識別名称）を取得
して、統計データベース切替部７に送付すると共に（ス
テップ６０４）、統計データベース切替部７から切替完
了の信号が送られてくるのを待って（同期をとってい
る）、解析対象文字列を形態素解析部２に送付し、一連
の処理を終了する（ステップ６０５）。

【００５３】この第２の実施形態によっても、統計デー
タベースとして、種々の観点からの複数種類のものを用
意し、解析対象の文章に応じて統計データベースを指定
することができるので、従来に比べて、良好な形態素解
析結果が得られ、しかも、入力部、形態素解析部及び出
力部という主たる構成の変更を不要にできるという効果
を得ることができる。

【００５４】これに加えて、第２の実施形態によれば、
入力文字列に切替記号を付与するだけで良いので、入力
文毎に細かく統計データベースを切替えることができ、
この点からも、良好な解析結果が得られるという効果を
奏する。また、文書ファイルに全て記述しておいて一括
処理することができるので、第１の実施形態のように、
ユーザからの入力をその都度受け付ける必要がなく、使
い勝手が良好となるという効果をも発揮する。

【００５５】（Ｃ）第３の実施形態次に、本発明を形態素解析装置に適用した第３の実施形
態を図面を参照しながら詳述する。

【００５６】図８は、この第３の実施形態の形態素解析
装置の構成を示す機能ブロック図であり、上述した第１
の実施形態に係る図１との同一、対応部分には、同一符
号を付して示している。

【００５７】図８及び図１の比較から明らかなように、
第３の実施形態の形態素解析装置は、ＤＢ識別番号入力
部８を備えておらず、その代りに、文区切り部１１及び
文書分野判定部１２を新たに備えている。これら文区切
り部１１及び文書分野判定部１２と、これらの一方の要
素と接続している入力部１及び統計データベース切替部
７以外の構成要素は、第１の実施形態のものと同一のも
のであり、その説明は省略する。

【００５８】入力部１は、基本的には第１の実施形態に
同じであるが、解析対象文字列が文区切り部１１から与
えられる点が第１の実施形態とは異なっている。

【００５９】統計データベース切替部７は、統計データ
ベース識別番号（又は識別名称）を文書分野判定部１２
から受け取る点が第１の実施形態とは異なっている。ま
た、統計データベース切替部７は、統計データベースを
切替えた後に、完了の信号を文書分野判定部１２に返信
するものである。

【００６０】文書分野判定部１２は、入力された文書デ
ータ全体を調べて文書の分野を判定するものである。ま
た、文書分野判定部１２は、分野に対応した統計データ
ベース識別番号を統計データベース切替部７に送付して
切替を指令すると共に、切替完了の返信を待ち受け、切
替完了の返信があったときに、文区切り部１１に文書デ
ータを送付するものである。

【００６１】文区切り部１１は、文書分野判定部１２か
ら受け取った文書データを一文単位に分割して、入力部
１を介して形態素解析部２に入力させるものである。形
態素解析の入力単位は文章であるが、分野判定のため
に、文書を当該装置への入力単位としているために、文
区切り部１１が必要となっている。

【００６２】この第３の実施形態においては、新たに設
けられた文区切り部１１及び文書分野判定部１２での動
作についてのみ、動作説明を行う。なお、他の動作につ
いては、既述の実施形態と同様である。

【００６３】最初に、文区切り部１１での動作を図９の
フローチャートを参照しながら説明する。文書を、文章
に区切る方法としては、既存のいかなる方法を適用する
ことができるが、ここでは、一例として、図９に示す方
法を説明する。

【００６４】まず、文書の先頭から（文書の先頭に探索
ポインタを置く）文字列データを文バッファに保存しな
がら、最初の文区切り文字を発見するまで探索する（ス
テップ９０１）。文区切り文字とは、日本語の場合に
は、句点「。」や全角ピリオド「．」などであり、文区
切り文字の全データ（全種類のデータ）は文区切り部９
が内部で保持している。

【００６５】発見できないままデータが終了した場合、
文バッファに保存した文字列データを入力部１に送付し
て、処理を終了する（ステップ９０２）。

【００６６】一方、文区切り文字を発見した場合には、
その文区切り文字を含めて文バッファに保存した文字列
データを入力部１に送付する（ステップ９０３）。そし
て、その次の位置に探索ポインタを進め（ステップ９０
４）、上述したステップ９０１に戻る。

【００６７】次に、文書分野判定部１２での動作を図１
０のフローチャートを参照しながら説明する。なお、文
書分野判定方法としては、既存のいかなるものを適用し
ても良いが、ここでは、一例として図１０に示すものを
説明する。

【００６８】まず、文書データを受け付ける（ステップ
１００１）。次に、文字種（カタカナ、ひらがな、漢字
等）によって文字列を部分文字列に分割し、図１１に示
すような各部分文字列の頻度分布データを作成する（ス
テップ１００２）。ここでは、形態素解析前であるの
で、単語（形態素）毎の集計ができず、そのため、文字
種毎の部分文字列についての集計を行っている。図１１
に示すように、同一単語（例えば「テスト」）でも、文
書が属する分野によってはその出現頻度は大きく異なっ
ており、この性質を利用して分野判定を行うこととして
いる。

【００６９】なお、文書分野判定部１２は、予め作成さ
れた分野毎の基準頻度分布データを内蔵している。分野
毎の基準頻度分布データは、統計データベース６−ｉの
作成に供した１又は複数のタグ付きコーパス４−ｊの元
になっているタグを含まないプレーンなテキストでなる
コーパス（文書）に対して、上記ステップ１００２と同
様な処理を行って作成したものである。

【００７０】文書分野判定部１２は、今回の入力文書に
対する頻度分布データを得ると、今回の入力文書に対す
る頻度分布データと、内部保持している各分野毎の基準
頻度分布データとのパターンマッチングを行う（ステッ
プ１００３）。そして、最も類似している基準頻度分布
データに対応した統計データベース識別番号（分野）を
統計データベース切替部７に送付して一連の処理を終了
する（ステップ１００４）。

【００７１】この第３の実施形態によっても、統計デー
タベースとして、種々の観点からの複数種類のものを用
意し、解析対象の文章（文書）に応じて統計データベー
スを選択することができるので、従来に比べて、良好な
形態素解析結果が得られ、しかも、入力部、形態素解析
部及び出力部という主たる構成の変更を不要にできると
いう効果を得ることができる。

【００７２】これに加えて、第３の実施形態によれば、
文書全体を装置に一括入力すれば、自動的に入力文書に
最も類似したコーパスから作成された統計データベース
を選択して解析するので、ユーザの使い勝手も良く、良
好な形態素解析結果が得られるという効果をも奏する。

【００７３】（Ｄ）第４の実施形態次に、本発明を形態素解析装置に適用した第４の実施形
態を図面を参照しながら詳述する。

【００７４】図１２は、この第４の実施形態の形態素解
析装置の構成を示す機能ブロック図であり、上述した第
３の実施形態に係る図８との同一、対応部分には、同一
符号を付して示している。

【００７５】第３の実施形態を含め、上述した各実施形
態は、形態素解析対象の入力文章や入力文書とは無関係
に予め作成された複数の統計データベースから、その解
析対象に適したものを選択するものであった。

【００７６】これに対し、この第４の実施形態は、形態
素解析対象の入力文書に適した統計データベースを、そ
の入力文書が与えられてから作成するようにしたことを
特徴とするものである。すなわち、統計データベース
（この第４の実施形態では符号１４で表す）を作成する
構成が、第３の実施形態と異なっている。

【００７７】図１２において、入力文書に応じた統計デ
ータベース１４を作成する構成は、コーパス群４、コー
パス選択部１３、連鎖確率計算部５及び文書分野判定部
１２が該当する。その他の入力部１、形態素解析部２、
出力部３及び文区切り部１１は、第３の実施形態の対応
要素と同一の機能を発揮するものである。

【００７８】コーパス群４は、第１〜第３の実施形態の
ものと同様である。しかし、統計データベース１４の作
成に用いられる１又は２以上のコーパスがコーパス選択
部１３で選択される点が、上述の各実施形態とは異なっ
ている。

【００７９】文書分野判定部１２は、第３の実施形態と
ほぼ同様にして文書分野を判定するものである。そし
て、その判定により定めた１又は２以上のコーパスをコ
ーパス選択部１３に指示するものである。

【００８０】コーパス選択部１３は、文書分野判定部１
２から指示された１又は２以上のコーパスを全て連結し
て１個のコーパスとして連鎖確率計算部５に与えるもの
である。

【００８１】この第４の実施形態の連鎖確率計算部５
は、コーパス選択部１３から与えられたコーパスに対し
て、所定の方法で統計データの集計、算出を行って、１
個の統計データベース１４を作成するものである。

【００８２】次に、図１３のフローチャートを用いて、
文書分野判定部１２及びコーパス選択部１３の動作につ
いて行う。なお、その他の動作については、既述実施形
態のものとほぼ同様であるので、その説明は省略する。
また、図１３において、上述した図１０との同一、対応
処理ステップには同一符号を付して示している。

【００８３】文書分野判定部１２はまず、文書データを
受け付ける（ステップ１００１）。次に、文字種（カタ
カナ、ひらがな、漢字等）によって文字列を部分文字列
に分割し、各部分文字列の頻度分布データを作成する
（ステップ１００２）。そして、文書分野判定部１２
は、今回の入力文書に対する頻度分布データと、内部保
持している各コーパスについての基準頻度分布データと
のパターンマッチング（類似値計算）を行う（ステップ
１００３）。そして、類似値が所定閾値以上である基準
頻度分布データに対応したコーパスの識別番号（分野）
をコーパス選択部１３に送付する（ステップ１３０
４）。これにより、コーパス選択部１３は、識別番号が
与えられた１又は２以上のコーパスを全て連結して１個
のコーパスとして連鎖確率計算部５に与える（ステップ
１３０５）。

【００８４】このような文書分野判定部１２及びコーパ
ス選択部１３の動作によって、入力文書に応じたコーパ
スが連鎖確率計算部５に与えられて、入力文書に応じた
統計データベース１４が作成される。そして、入力文書
に応じた統計データベース１４が利用されて形態素解析
が実行される。

【００８５】なお、文書分野判定方法は上記のものに限
定されない。また、この分野ならこのコーパスとこのコ
ーパスを使うと予め決めてある、というような方式でも
良いことは勿論である。

【００８６】この第４の実施形態によれば、解析対象の
文書に応じた統計データベースを柔軟に作成し、それを
用いて、形態素解析を行うようにしたので、従来に比べ
て、良好な形態素解析結果が得られ、しかも、入力部、
形態素解析部及び出力部という主たる構成の変更を不要
にできるという効果を得ることができる。

【００８７】（Ｅ）第５の実施形態次に、本発明を形態素解析装置に適用した第５の実施形
態を図面を参照しながら詳述する。

【００８８】図１４は、この第５の実施形態の形態素解
析装置の構成を示す機能ブロック図であり、既述した各
図との同一、対応部分には同一符号を付して示してい
る。

【００８９】この第５の実施形態は、第３や第４の実施
形態とは異なる入力文書の分野判定方法を適用している
ことに特徴を有するものである。このような特徴を発揮
させるための構成としては、連鎖確率計算部５、統計デ
ータベース群６、入力分岐部１５、データベース選定部
（ＤＢ選定部）１６及び入力文書データベース（入力文
書ＤＢ）１７が該当する。

【００９０】なお、その他の入力部１、形態素解析部
２、出力部３、コーパス群４、統計データベース切替部
７及び文区切り部１１は、上述した各実施形態の対応要
素とほぼ同様な機能を担うものであり、その機能説明は
省略する。

【００９１】入力分岐部１５は、入力文書を分岐して
（コピーして）、連鎖確率計算部５及び文区切り部１１
に与えるものである。

【００９２】連鎖確率計算部５は、頻度カウント部５１
及び確率計算部５２を有する。上記説明においては、こ
の点に言及しなかったが、上記各実施形態も同様であ
る。

【００９３】この第５の実施形態の場合、頻度カウント
部５１は、統計データベース６−ｉの作成時だけでな
く、入力文書データベース１７の作成時にも用いられる
ものである。頻度カウント部５１は、統計データベース
６−ｉの作成時には、処理対象のコーパス４−ｊから、
所定文字数Ｎ（Ｎは例えば３）でなる拡張文字列を順次
生成し、同一の拡張文字列の頻度をカウントするもので
ある。一方、頻度カウント部５１は、入力文書データベ
ース１７の作成時には、入力分岐部１５から与えられた
入力文書から、所定文字数Ｎでなる文字列を順次生成
し、同一の文字列の頻度をカウントし、このようにして
得られた各文字列の頻度分布データを入力文書データベ
ース１７に格納させるものである。

【００９４】確率計算部５２は、頻度カウント部５１
が、統計データベース６−ｉの作成時に得た各拡張文字
列の頻度に基づいて、各拡張文字列についての連鎖確率
を計算するものである。なお、連鎖確率は、例えば、先
頭側のＮ−１個の拡張文字列が同じ複数の拡張文字列の
連鎖確率の総和が１になるように計算される。

【００９５】この第５の実施形態の場合、各統計データ
ベース６−ｉは、拡張文字列（見出し）及び連鎖確率で
なるＮ−ｇｒａｍデータではなく、図１６に一例を示す
ように、拡張文字列（見出し）、連鎖確率及び頻度でな
るＮ−ｇｒａｍデータを格納しているものである。な
お、図１６は、拡張文字が、文字と、その文字の直後が
形態素の区切りか（１）否か（０）を表す形態素区切り
情報とからなる場合を示している。

【００９６】入力文書データベース１７は、上述したよ
うに、入力文書から頻度カウント部５１が形成したデー
タを格納している。図１５は、入力文書データベース１
７の一例を示すものである。

【００９７】データベース選定部１６は、入力文書デー
タベース１７に格納されている部分文字列毎の頻度分布
データを、各統計データベース６−ｉの対応情報と比較
して、形態素解析部２が今回の入力文書の各文章を解析
する際に使用する統計データベースを定め、統計データ
ベース切替部７に指示するものである。

【００９８】以下、データベース選定部１６による処理
の詳細を、図１７のフローチャートを参照しながら説明
する。

【００９９】データベース選定部１６は、まず最初に、
統計データベース群６の中から１個の統計データベース
（例えば識別番号がもっとも小さい統計データベース）
をセットする（ステップ１７０１）。

【０１００】その後、セットした統計データベースにお
ける同一文字列の頻度を足し合わせ、入力文書データベ
ース１７と比較可能な形式を作成する（ステップ１７０
２）。統計データベースの見出しは拡張文字列（形態素
区切り情報などが付加されている）で、入力文書データ
ベース１７の見出しは単なる文字列（形態素区切り情報
などが付加されていない）であるので、頻度分布データ
を直接比較することはできない。しかし、同一文字列に
係る拡張文字列の頻度データを足し合わせれば、単なる
文字列の頻度データが得られるので比較可能となる。ス
テップ１７０２では、例えば、図１６における文字列が
「こでは」である全ての拡張文字列（図１６では２種
類）の頻度データ「４５」及び「７」を加算して、文字
列「こでは」の頻度データ「５２」を作成する。

【０１０１】次に、ステップ１７０２の処理によって形
成された、セットされている統計データベースに係る各
文字列での頻度分布データと、入力文書データベース１
７での各文字列での頻度分布データとを比較して類似値
を得て、内部に格納する（ステップ１７０３、１７０
４）。

【０１０２】その後、全ての統計データベースに対する
類似値の算出、格納を終了したか否かを判断し（ステッ
プ１７０５）、終了していなければ、類似値の算出、格
納を終了していない未処理の統計データベースをセット
した後（ステップ１７０６）、上述したステップ１７０
２に戻る。

【０１０３】ステップ１７０２〜１７０６でなる処理ル
ープを繰り返すことにより、全ての統計データベースに
対する類似値の算出、格納が終了する。このときには、
類似値がもっとも大きい統計データベースの識別番号
（又は識別名称）を統計データベース切替部７に出力し
て一連の統計データベースの選定処理を終了する。

【０１０４】このようにして選定された統計データベー
スが、形態素解析部２による入力文書の各文章に対する
形態素解析処理で用いられる。

【０１０５】この第５の実施形態によっても、統計デー
タベースとして、種々の観点からの複数種類のものを用
意し、解析対象の文章（文書）に応じて統計データベー
スを選択することができるので、従来に比べて、良好な
形態素解析結果が得られ、しかも、入力部、形態素解析
部及び出力部という主たる構成の変更を不要にできると
いう効果を得ることができる。また、第５の実施形態に
よれば、文書全体を装置に一括入力すれば、自動的に入
力文書に最も類似したコーパスから作成された統計デー
タベースを選択して解析するので、ユーザの使い勝手も
良く、良好な形態素解析結果が得られるという効果をも
奏する。

【０１０６】さらに、第５の実施形態によれば、入力文
書に最適な統計データベースを定めるにつき、統計デー
タベースの作成構成等を利用するようにしているので、
構成や処理を簡単なものとすることができる。

【０１０７】なお、絶対的な頻度ではなく、確率のパタ
ーンマッチングによって、最適な統計データベースを定
めるようにしても良い。

【０１０８】（Ｆ）第６の実施形態次に、本発明を形態素解析装置に適用した第６の実施形
態を図面を参照しながら詳述する。

【０１０９】図１８は、この第６の実施形態の形態素解
析装置の構成を示す機能ブロック図であり、既述した各
図との同一、対応部分には同一符号を付して示してい
る。

【０１１０】第６の実施形態は、第３〜第５の実施形態
とは異なる入力文書の分野判定方法（使用する統計デー
タベースの決定方法）を適用していることに特徴を有す
るものである。すなわち、第６の実施形態は、入力文書
中の一部文章に対して、試験的な形態素解析（以下、試
し解析と呼ぶ）を実行させ、その試し解析結果に基づい
て、本来の形態素解析に使用する統計データベースを決
定することを特徴とするものである。このような特徴を
発揮させるための構成としては、入力管理部１８、形態
素解析部２、データベース選定部（ＤＢ選定部）１９、
解析結果値保持部２０及び統計データベース切替部７等
が該当する。

【０１１１】なお、その他の入力部１、出力部３、コー
パス群４、連鎖確率計算部５、統計データベース群６、
コーパス／ＤＢ指定部９及び文区切り部１１は、上述し
た各実施形態の対応要素とほぼ同様な機能を担うもので
あり、その機能説明は省略する。

【０１１２】入力管理部１８は、入力文書の先頭から一
定割合（例えば３％）の文数を試し解析文と設定し、デ
ータベース選定部１９の指示に従って、試し解析文を入
力部１を形態素解析部２に送付するものである。なお、
入力管理部１８から形態素解析部２への試し解析文の送
付は、統計データベース群６を構成している統計データ
ベースの数だけ繰り返し実行される。

【０１１３】この第６の実施形態の場合、形態素解析部
２には、試し解析を実行する機能と、試し解析の結果値
を解析結果値保持部２０に送付するという機能が加わ
る。ここで、試し解析の結果値とは、例えば、入力文に
対する最適な形態素解析結果に対応した最適拡張文字列
全体の連鎖確率（Ｎ文字の拡張文字列の同時確率を全て
乗算したもの）である。

【０１１４】解析結果値保持部２０は、形態素解析部２
から送られてきた解析結果値を、解析に使用した統計デ
ータベース識別番号（又は名称）と共に、保持するもの
である。解析結果値は各文に対して得られるので、全て
の文の値を加えて（又は乗じて）、最終的な値を形成し
て保持するものとする。また、解析結果値保持部２０
は、試し解析文の結果値を全て受け取って最終的な値の
計算が済んだ時点で、データベース選定部１９に、現在
セットされている統計データベースを使用した試し解析
処理が完了したことを通知する機能をも持っている。

【０１１５】データベース選定部１９は、解析結果値保
持部２０から試し解析完了通知を受け取ったときには、
次の試し解析で使用する統計データベースの識別番号を
統計データベース切替部７に送付し（統計データベース
の切替指示を出し）、同時に入力管理部１８に試し解析
文を再び流すように指示するものである。また、データ
ベース選定部１９は、全ての統計データベースについて
試し解析が終了した時点で、解析結果値保持部２０に保
持されている結果値を比較して、最も高い結果値の統計
データベースを選定し、統計データベース切替部７に切
替を指示すると共に、入力管理部１８に対し、全文を入
力部１に送付するよう指示するものである。

【０１１６】なお、試し解析時の最適統計データベース
を使用した場合での形態素解析結果を、それら解析対象
文についての最終的な形態素解析結果とするようにして
も良く、この場合には、試し解析後に行う本来の形態素
解析を、試し解析を実行していない文に対してのみ実行
させるようにすれば良い。

【０１１７】次に、入力管理部１８における処理の詳細
を、図１９のフローチャートを参照しながら説明する。

【０１１８】入力管理部１８は、入力文書の先頭から一
定割合（例えば３％）の文数を試し解析文と設定し、そ
の文数を解析結果値保持部２０に通知する（ステップ１
９０１）。そして、試し解析文を入力部１を介して形態
素解析部２に送付する（ステップ１９０２）。その後、
データベース選定部１９からの指示を待ち受け（ステッ
プ１９０３）、指示を受けると、その指示が試し解析の
指示か否かを判別する（ステップ１９０４）。

【０１１９】後述するように、他の統計データベースを
用いて試し解析を実行させる場合には、データベース選
定部１９から試し解析の指示が与えられる。このときに
は、上述したステップ１９０２に戻って、試し解析文を
入力部１を介して再び形態素解析部２に送付する。一
方、試し解析の指示でなければ、最適な統計データベー
スが決定された後の全文送付指示であるので、入力文書
を構成する全文を入力部１を介して形態素解析部２に送
付して一連の処理を終了する（ステップ１９０６）。

【０１２０】次に、データベース選定部１９における処
理の詳細を、図２０のフローチャートを参照しながら説
明する。

【０１２１】データベース選定部１９は、解析結果値保
持部２０からの解析結果値を格納（保持）した旨の通知
を待ち受けており、通知を受けると（ステップ２００
１）、その通知は、最後の統計データベースを用いた試
し解析に対するものであるか否かを確認する（ステップ
２００２）。

【０１２２】最後の統計データベースを用いた試し解析
に対するものでなければ、統計データベース切替部７に
対して、未だ試し解析に用いられていない統計データベ
ースへの切替を指示した後（ステップ２００３）、入力
管理部１８に対して、試し解析文の送付を指示し（ステ
ップ２００４）、その後、上述したステップ２００１に
戻って、解析結果値保持部２０からの解析結果値を格納
（保持）した旨の通知を待ち受ける。

【０１２３】ステップ２００１〜２００４の処理ループ
を繰り返すことにより、最後の統計データベースを用い
た試し解析に対する解析結果値を格納（保持）した旨の
通知も与えられ、このときには、解析結果値保持部２０
に格納されている各統計データベースに対応した解析結
果値間の大小比較を行い（ステップ２００５）、統計デ
ータベース切替部７に対して、最高の解析結果値（形態
素解析結果が最も信頼できることを表している）に対応
した統計データベースへの切替を指示した後（ステップ
２００６）、入力管理部１８に対して、全文の送付を指
示して一連の処理を終了する（ステップ２００７）。

【０１２４】次に、解析結果値保持部２０における処理
の詳細を、図２１のフローチャートを参照しながら説明
する。

【０１２５】なお、試し解析は、統計データベースの数
だけ繰り返されるが、図２１は、その第１回目の試し解
析に対応した処理を示しており、第２回目以降の各回で
の試し解析には、ステップ２１０１の処理を除いた部分
が対応する。

【０１２６】解析結果値保持部２０は、入力管理部１８
から与えられた試し解析文の文数を受け付けて内部保持
する（ステップ２１０１）。

【０１２７】その後、形態素解析部２からある１文につ
いての解析結果値が与えられると、統合解析結果値（最
終的には、その時点での統計データベースに対する解析
結果値になる）に今回の解析結果値を加算（又は乗算）
して統合解析結果値を更新した後（ステップ２１０
２）、ステップ２１０１で受け付けた文数分だけ解析結
果値が形態素解析部２から与えられたか否かを判定する
（ステップ２１０３）。与えられていなければ、上述し
たステップ２１０２に戻る。ステップ２１０１で受け付
けた文数分だけ解析結果値が形態素解析部２から与えら
れていると、今回、仮選定されている統計データベース
を用いた試し解析が完了した旨の通知をデータベース選
定部１９に送付して一連の処理を終了する（ステップ２
１０４）。

【０１２８】この第６の実施形態によっても、統計デー
タベースとして、種々の観点からの複数種類のものを用
意し、解析対象の文章（文書）に応じて統計データベー
スを選択することができるので、従来に比べて、良好な
形態素解析結果が得られ、しかも、入力部、形態素解析
部及び出力部という主たる構成の変更をほぼ不要にでき
るという効果を得ることができる。また、第６の実施形
態によれば、文書全体を装置に一括入力すれば、自動的
に入力文書に最も類似したコーパスから作成された統計
データベースを選択して解析するので、ユーザの使い勝
手も良く、良好な形態素解析結果が得られるという効果
をも奏する。

【０１２９】さらに、第６の実施形態によれば、入力文
書に最適な統計データベースを定めるにつき、形態素解
析構成等を利用するようにしているので、構成や処理を
簡単なものとすることができる。

【０１３０】なお、入力文書を構成する文の数が少ない
場合には、全ての文に対して、各統計データベースを用
いた解析を実行させると共に、解析結果値だけでなくそ
の形態素解析結果も保持させ、全ての統計データベース
について解析が完了した際に、解析結果値が最良でなる
統計データベースを使用して既に得ている形態素解析結
果を出力させるようにしても良い。この場合には、試し
解析とは異なる概念となっている。

【０１３１】（Ｇ）第７の実施形態次に、本発明を形態素解析装置に適用した第７の実施形
態を図面を参照しながら詳述する。

【０１３２】この第７の実施形態の形態素解析装置は、
多言語対応の形態素解析装置である。統計データベース
を利用する形態素解析装置の場合、基本的には、解析対
象文の文字の並びと、統計データベースに格納されてい
るその並びと形態素区切りとの確率的な関係とに基づい
て、形態素解析するものであるので、形態素解析時に語
尾変化や接続関係（上述の確率値がこの機能を果たして
いる）等を考慮する必要がなく、単語辞書を利用する形
態素解析方法に比較して、形態素解析部自体を、異なる
言語の文に対しても適用し易い。また、言語別の品詞体
系も統計データベースに容易に盛り込むことができる。
この第７の実施形態は、このような着想に基づいてなさ
れたものである。

【０１３３】因みに、単語辞書を利用する形態素解析方
法は、言語に依存した部分と非依存の部分の分離が明確
ではなく、辞書を切替えるだけでは、接続テーブルや品
詞体系の相違等のために、別の言語の文の処理は不可能
であった。

【０１３４】図２２は、この第７の実施形態の形態素解
析装置の構成を示す機能ブロック図であり、上述した第
３の実施形態に係る図８との同一、対応部分には、同一
符号を付して示している。

【０１３５】第７の実施形態の形態素解析装置では、言
語別のコーパス２３−１、２３−２、２３−３、…が用
意されており、連鎖確率計算部５は、言語別のコーパス
２３−１、２３−２、２３−３、…に基づいて、言語別
の統計データベース２２−１、２２−２、２２−３、…
を作成するものである。なお、言語は異なっても、全て
テキストデータになっているので、連鎖確率計算部５
は、同様に取り扱うことができる。

【０１３６】どの統計データベース２２−ｉを用いるか
は、言語判定部２１が決定する。言語判定部２１が実行
する言語判定方法としては、既知の方法の何れを適用し
ても良い。例えば、特開平９‐１７９８６６号公報に記
載の方法を適用できる。また、第６の実施形態のような
試し解析を利用して、言語別の統計データベースから最
適な（該当言語の）統計データベースを定めるようにし
ても良い。

【０１３７】この第７の実施形態によれば、統計データ
ベースとして、言語別の複数種類のものを用意し、解析
対象の文章（文書）に応じて統計データベースを選択す
ることができるので、多言語対応の形態素解析装置を実
現できると共に、しかも、入力部、形態素解析部及び出
力部という主たる構成の変更をほぼ不要にでき、かつ、
複数言語で共通化できるという効果を得ることができ
る。

【０１３８】また、第７の実施形態によれば、文書全体
を装置に一括入力すれば、自動的に入力文書の言語に対
応した統計データベースを選択して解析するので、ユー
ザの使い勝手も良いという効果をも奏する。

【０１３９】（Ｈ）他の実施形態上記各実施形態の説明においても、種々変形実施形態に
ついて言及したが、さらに、いくつかの変形実施形態を
挙げれば以下の通りである。

【０１４０】上記各実施形態においては、形態素解析部
２が解析時に使用する統計データベースが１個であるも
のを示したが、形態素解析部２が、複数の統計データベ
ースを解析時に同時使用するようにしても良い。統計デ
ータベースは、連鎖確率を格納しているものであるの
で、連鎖確率の算出が独立である複数の統計データベー
スを同時使用することはできないが、統計データベース
に連鎖確率ではなく、頻度を格納するようにしておき、
その出力時に確率化するようにしたならば、上述のよう
に、形態素解析部２が、複数の統計データベースを解析
時に同時使用することができるようになる。

【０１４１】また、上記各実施形態（第７の実施形態を
除く）の説明を、日本語文を対象としていることを前提
として行っているが、他の言語文を対象とした形態素解
析装置に本発明を適用できることは勿論である。

【０１４２】第１〜第６の実施形態のような分野別の統
計データベースから最適なものを選択して使用するとい
う技術思想と、第７の実施形態のような言語別の統計デ
ータベースから該当言語のものを選択して使用するとい
う技術思想とを組み合わせてて良いことは勿論である。

【０１４３】上記各実施形態は、本発明を形態素解析装
置に適用したものであったが、本発明は、これに限定さ
れず、統計データベースを使用して自然言語処理する他
の自然言語処理装置にも適用できるものである。例え
ば、部分的に文字化けしたテキストデータ列に対し、統
計データベース内の統計データを利用して文字化け部分
を正しいと推測される文字列に修正する装置が検討され
ているが、このような装置に対しても本発明を適用する
ことができる。

【０１４４】

【発明の効果】以上のように、本発明によれば、自然言
語処理本体に接続する統計データベースの内容を、統計
データベースの選択又は入力文書に応じた動的な更新に
よって切り替えるようにしたので、統計データベースを
利用した自然言語処理の精度を、処理対象の文章の種類
等によらずに、従来より高めることができるようにな
る。

【０１４５】

【図面の簡単な説明】

【図１】第１の実施形態の構成を示すブロック図であ
る。

【図２】タグ付きコーパスの一例を示す説明図である。

【図３】第１の実施形態の統計データベース切替部の切
替のための動作を示すフローチャートである。

【図４】第１の実施形態の統計データベース識別番号と
統計データベースのアドレスとの対応テーブル例を示す
説明図である。

【図５】第２の実施形態の構成を示すブロック図であ
る。

【図６】第２の実施形態の入力解析部の処理を示すフロ
ーチャートである。

【図７】第２の実施形態の統計データベース切替指示記
号を含む入力文字列を示す説明図である。

【図８】第３の実施形態の構成を示すブロック図であ
る。

【図９】第３の実施形態の文区切り部の処理を示すフロ
ーチャートである。

【図１０】第３の実施形態の文書分野判定部の処理を示
すフローチャートである。

【図１１】第３の実施形態の文書分野判定方法の説明図
である。

【図１２】第４の実施形態の構成を示すブロック図であ
る。

【図１３】第４の実施形態の文書分野判定及びコーパス
選択処理を示すフローチャートである。

【図１４】第５の実施形態の構成を示すブロック図であ
る。

【図１５】第５の実施形態の入力文書データベースの格
納例を示す説明図である。

【図１６】第５の実施形態の統計データベースの格納例
を示す説明図である。

【図１７】第５の実施形態のデータベース選定処理を示
すフローチャートである。

【図１８】第６の実施形態の構成を示すブロック図であ
る。

【図１９】第６の実施形態の入力管理部の処理を示すフ
ローチャートである。

【図２０】第６の実施形態のデータベース選定部の処理
を示すフローチャートである。

【図２１】第６の実施形態の解析結果値保持部の処理を
示すフローチャートである。

【図２２】第７の実施形態の構成を示すブロック図であ
る。

【符号の説明】

１…入力部、２…形態素解析部、３…出力部、４…コー
パス群、５…連鎖確率計算部、６…統計データベース
群、７…統計データベース切替部、８…ＤＢ識別番号入
力部、９…コーパス／ＤＢ指定部、１０…入力解析部、
１１…文区切り部、１２…文書分野判定部、１３…コー
パス選択部、１４…統計データベース（統計ＤＢ）、１
５…入力分岐部、１６、１９…データベース選定部（Ｄ
Ｂ選定部）、１７…入力文書データベース（入力文書Ｄ
Ｂ）、１８…入力管理部、２０…解析結果値保持部、２
１…言語判定部、２２…言語統計データベース（言語統
計ＤＢ）群、２３…言語コーパス群、５１…頻度カウン
ト部、５２…確率計算部。

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/21 - 17/30 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】自然言語文に現れる所定文字数でなる部
分文字列とその絶対的又は相対的な頻度情報との組を複
数組格納している統計データベースを利用して、入力さ
れた自然言語文に対して、自然言語処理本体が所定の自
然言語処理を行う自然言語処理装置において、上記統計データベースとして、その作成の元となったコ
ーパスが異なる複数のものを設けると共に、上記自然言語処理本体に接続する統計データベースを切
り替える統計データベース切替手段と、自然言語処理対象として入力される自然言語文の文字列
中に挿入されている統計データベース切替記号を認識
し、上記統計データベース切替手段に対し、その統計デ
ータベース切替記号に対応した統計データベースを上記
自然言語処理本体に接続させる統計データベースとして
指示する入力解析手段とを有することを特徴とする自然
言語処理装置。
【請求項２】上記各統計データベースが異なる言語の
情報を格納しているものであることを特徴とする請求項
１に記載の自然言語処理装置。
【請求項３】上記自然言語処理本体が実行する自然言
語処理が形態素解析処理であることを特徴とする請求項
１に記載の自然言語処理装置。
【請求項４】自然言語文に現れる所定文字数でなる部
分文字列とその絶対的又は相対的な頻度情報との組を複
数組格納している統計データベースを利用して、入力さ
れた自然言語文に対して、形態素解析部が形態素解析を
行う自然言語処理装置において、上記統計データベースとして、その作成の元となったコ
ーパスが異なる複数のものを設けると共に、上記形態素解析部に接続する統計データベースを切り替
える統計データベース切替手段と、形態素解析対象の自然言語文が文書の要素として入力さ
れるものであり、かつ、入力文書からその文書に適した
統計データベースを定めて上記統計データベース切替手
段に選択指示する使用ＤＢ判定手段とを有し、上記使用ＤＢ判定手段が、入力文書を構成する一部の自然言語文を試し解析対象文
と設定する入力管理部と、上記入力管理部で設定された試し解析対象文に対し、上
記各統計データベースをそれぞれ使用した複数回の形態
素解析を、上記形態素解析部によって実行させるデータ
ベース選定部と、上記試し解析対象文に対する形態素解析結果に係る評価
値として、使用した上記統計データベースにおける形態
素解析結果に採用された全ての部分文字列の頻度情報の
統合値を保持する解析結果保持部とを有し、上記データベース選定部は、全ての統計データベースに
ついて、試し解析対象文の形態素解析が終了した時点
で、上記解析結果保持部に保持されている統合値を比較
して、最も統合値が高くなっている形態素解析結果が得
られた統計データベースを検索し、上記統計データベー
ス切替部へその統計データベースへの切り替えを指示す
ることを特徴とする自然言語処理装置。
【請求項５】自然言語文に現れる所定文字数でなる部
分文字列とその絶対的又は相対的な頻度情報との組を複
数組格納している統計データベースを利用して、入力さ
れた自然言語文に対して、自然言語処理本体が所定の自
然言語処理を行う自然言語処理装置において、上記統計データベースの作成の元となるデータを格納し
ている複数のコーパスと、自然言語処理対象の自然言語文を複数有する入力文書に
ついて、所定文字数でなる文字列の頻度分布データを形
成し、内部保持している上記各コーパスについての基準
頻度分布データとのパターンマッチングを行って、上記
入力文書に適した１又は複数のコーパスを定める適用コ
ーパス決定手段と、決定されたコーパスに含まれている自然言語文を、所定
文字数でなる部分文字列に分割すると共に、部分文字列
の種類毎の絶対的又は相対的な頻度情報を得て、上記統
計データベースを作成する統計データベース動的作成手
段とを有し、自然言語処理対象の文書が入力される毎に、上記適用コ
ーパス決定手段による適用コーパスの決定処理、及び、
上記統計データベース動的作成手段による統計データベ
ースの作成処理を実行することを特徴とする自然言語処
理装置。