JP3998668B2

JP3998668B2 - 形態素解析装置、方法及びプログラム

Info

Publication number: JP3998668B2
Application number: JP2004206996A
Authority: JP
Inventors: 哲治中川
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2004-07-14
Filing date: 2004-07-14
Publication date: 2007-10-31
Anticipated expiration: 2024-07-14
Also published as: US20060015317A1; JP2006031228A

Description

本発明は、形態素解析装置、方法及びプログラムに関し、特に、未知語を含む文章に対しても高精度に解析し得るようにしたものである。

形態素解析装置は、入力された文を単語（形態素）に区切り、その品詞を推定するものである。その際に、形態素解析装置の辞書中に登録されていない単語（未知語）を正しく解析することが、多様な文書に対して頑健で高精度な解析を行う上で必要となる。

特許文献１は、統計的手法により日本語形態素解析を行う方法について記載している。この方法では、単語を構成する文字列とその品詞が与えられたときにその単語の品詞別の出力確率を計算する単語モデルを用意することにより、入力文が未知語を含む場合に対処している。具体的には、入力文中の任意の位置から始まる任意の長さの部分文字列に対して、単語モデルを用いてその部分文字列の品詞別単語出力確率を計算し、尤度の高い順に予め決められた数の単語仮説を生成することで、辞書中に含まれない未知語に対しても仮説が生成されるようにしている。この単語モデルは、平滑化された品詞別文字三つ組確率によって品詞別単語出力確率を計算しており、単語モデルのパラメータは品詞タグ付きコーパスから推定している。
特開平７−２７１７９２号公報

しかしながら、上記の方法は、予め決められた数の単語仮説しか生成しないため、その中に、未知語部分に対して正解のものが含まれずに解析に失敗する可能性がある。また、そのような誤りを減らすために生成する単語仮説の数を増やすと、計算時間が大きくなるという問題がある。さらに、上記の方法は、品詞別文字三つ組確率を使用して未知語の出現確率を計算しているため、未知語内の文字の種類をはじめとした、未知語を構成する文字に関する様々な情報を利用することができない。

そのため、未知語を含む文章の形態素解析結果を、計算量などを増大させることなく、より高精度にし得る形態素解析装置、方法及びプログラムが望まれている。

かかる課題を解決するため、第１の本発明の形態素解析装置は、（１）形態素解析対象文に対して、形態素解析結果の候補である仮説を１又は複数生成するものであって、辞書に登録されている既知語の仮説を生成する既知語仮説生成部と、未知語を構成する文字列を文字単位に分解して文字単位の仮説を生成する未知語文字生成部とを有し、生成する仮説の中に、既知語の仮説と、未知語を構成する文字単位の仮説とが混在したものがある仮説生成手段と、（２）形態素やｎ−ｇｒａｍや未知語を構成する文字の確率的なモデルの情報を格納しているモデル格納手段と、（３）各仮説に対し、その仮説の生成確率を、モデル格納手段に格納されている確率的なモデルの情報を用いて求める生成確率計算手段と、（４）各仮説の生成確率に基づき、解となる仮説を探索する解探索手段と、（５）探索された解の中に未知語を構成する文字がある場合に、それらの文字を結合して未知語を復元する未知語復元手段とを備えたことを特徴とする。

また、第２の本発明の形態素解析方法は、仮説生成手段、生成確率計算手段、解探索手段、未知語復元手段を備える形態素解析方法において、（１）仮説生成手段が、形態素解析対象文に対して、形態素解析結果の候補である仮説を１又は複数生成するものであって、辞書に登録されている既知語の仮説を生成する既知語仮説生成部と、未知語を構成する文字列を文字単位に分解して文字単位の仮説を生成する未知語文字生成部とを有し、生成する仮説の中に、既知語の仮説と、未知語を構成する文字単位の仮説とが混在したものがある仮説生成工程と、（２）生成確率計算手段が、形態素やｎ−ｇｒａｍや未知語を構成する文字の確率的なモデルの情報を格納しているモデル格納手段の格納情報を用い、各仮説に対し、その仮説の生成確率を求める生成確率計算工程と、（３）解探索手段が、各仮説の生成確率に基づき、解となる仮説を探索する解探索工程と、（４）未知語復元手段が、探索された解の中に未知語を構成する文字がある場合に、それらの文字を結合して未知語を復元する未知語復元工程とを含むことを特徴とする。

第３の本発明の形態素解析プログラムは、コンピュータを、（１）形態素解析対象文に対して、形態素解析結果の候補である仮説を１又は複数生成するものであって、辞書に登録されている既知語の仮説を生成する既知語仮説生成部と、未知語を構成する文字列を文字単位に分解して文字単位の仮説を生成する未知語文字生成部とを有し、生成する仮説の中に、既知語の仮説と、未知語を構成する文字単位の仮説とが混在したものがある仮説生成手段、（２）形態素やｎ−ｇｒａｍや未知語を構成する文字の確率的なモデルの情報を格納しているモデル格納手段の格納情報を用い、各仮説に対し、その仮説の生成確率を、モデル格納手段に格納されている確率的なモデルの情報を用いて求める生成確率計算手段、（３）各仮説の生成確率に基づき、解となる仮説を探索する解探索手段、（４）探索された解の中に未知語を構成する文字がある場合に、それらの文字を結合して未知語を復元する未知語復元手段として機能させるものである。

本発明の形態素解析装置、方法及びプログラムによれば、形態素解析結果の候補である仮説として、辞書に登録されている既知語の仮説と、未知語を構成する文字単位の仮説とが混在したものも生成して評価するようにしたので、未知語を含む文章の形態素解析結果を、計算量などを増大させることなく、より高精度に得ることができるようになる。

（Ａ）第１の実施形態
以下、本発明による形態素解析装置、方法及びプログラムの第１の実施形態を、図面を参照しながら詳述する。

第１の実施形態や後述する第２の実施形態では、単語単位で処理を行う従来のコスト最小法を拡張し、文字単位で未知語を処理する形態素解析装置、方法及びプログラムを提案する。第１の実施形態の形態素解析装置では、未知語の処理に関して、従来手法のように未知語に対して単語仮説を生成するような単語単位の処理を行う代わりに、未知語を構成する文字の仮説（未知語構成文字仮説）を生成するという文字単位の処理を行う。そして、通常のコスト最小法の枠組みのなかで、既知語の仮説と未知語構成文字の仮説を同時に処理する。この第１の実施形態の手法では、未知語を文字単位で処理するため、未知語の処理に必要となる仮説の数が少ない。そのため、少ない計算量で文中に存在するあらゆる未知語の候補を処理することができる。

（Ａ−１）第１の実施形態の機能的構成
第１の実施形態の形態素解析装置は、例えば、パソコンなどの情報処理装置に形態素解析プログラム（データ群を含む）がインストールされて構築され、機能的には、図１に示す構成を有する。なお、第１の実施形態の形態素解析装置が専用機として構築されていても良く、各機能部が１又は複数のＡＳＩＣなどで実現されたものであっても良い。また、形態素解析プログラムのインストール方法は、記録媒体からのインストールであっても良く、他の装置からのダウンロードによるインストールであっても良く、キーボードなどを用いた入力による方法であっても良い。

第１の実施形態の形態素解析装置１００は、大きくは、形態素解析を行う解析部１１０、形態素解析を行う際に使用される形態素辞書やｎ−ｇｒａｍモデルのパラメータを格納するモデル格納部１２０、パラメータ学習用の品詞タグ付きコーパスからｎ−ｇｒａｍモデルの学習を行うモデル学習部１３０を有する。

解析部１１０は、入力部１１１、仮説生成部１１２、生成確率計算部１１５、解探索部１１６、未知語復元部１１７及び出力部１１８を有する。

入力部１１１は、形態素解析を行う文を使用者から入力するためのものである。例えば、キーボードなどを用いて解析対象文を入力するものであっても良く、記録媒体をアクセスすることにより解析対象文を入力するものであっても良く、他の装置から通信によって解析対象文を取り込むものであっても良い。

仮説生成部１１２は、入力部１１１より入力された解析対象文に対して、解析結果の候補（仮説）を生成するものである。仮説生成部１１２は、入力された解析対象文に対して、後述する形態素辞書格納部１２１に格納された形態素辞書を用いて既知語の仮説を生成する既知語仮説生成部１１３と、解析対象文中に含まれる任意の文字に対して、その文字が未知語を構成する文字である仮説を生成する未知語構成文字仮説生成部１１４とを有している。

生成確率計算部１１５は、仮説生成部１１２によって生成された各仮説に対して、後述するｎ−ｇｒａｍモデルパラメータ格納部１２２に格納されたパラメータを使用して生成確率を計算するものである。

解探索部１１６は、生成確率計算部１１５によって生成確率の付与された仮説の中から最も尤度の高い仮説を解として選ぶものである。

未知語復元部１１７は、解探索部１１６により得られた解の中に、未知語構成文字が含まれている場合には、未知語構成文字を結合して未知語を復元するものである。解探索部１１６により得られた解の中に未知語構成文字が含まれていない場合には、未知語復元部１１７は機能しないものである。

出力部１１８は、解析対象文に対する最適な解析結果（解）を使用者へ出力するものである。出力される解が、未知語復元部１１７によって未知語が復元された解のこともあり得る。出力部１１８は、解を表示出力するものであっても良く、解を印刷出力するものであっても良く、解を他の装置に転送するものであっても良く、解を記録媒体に記録するものであっても良い。なお、出力に供する解は、１個に限定されるものではなく、複数であっても良い。

モデル格納部１２０は、形態素辞書格納部１２１及びｎ−ｇｒａｍモデルパラメータ格納部１２２を有する。モデル格納部１２０は、ハードウェア的には、例えば、パソコンが内蔵する大容量記憶装置（例えばハードディスク）や外付けの大容量記憶装置が該当し、形態素辞書格納部１２１及びｎ−ｇｒａｍモデルパラメータ格納部１２２が同一の大容量記憶装置に構築されていても良く、異なる大容量記憶装置に構築されていても良い。

形態素辞書格納部１２１は、上述したように、既知語仮説生成部１１３が仮説を生成するために使用する形態素辞書（一般的な形態素辞書で良い）を格納しているものである。

ｎ−ｇｒａｍモデルパラメータ格納部１２２は、生成確率計算部１１５で使用されるｎ−ｇｒａｍモデルのパラメータを格納しているものであり、このパラメータは、後述するｎ−ｇｒａｍモデルパラメータ計算部１３２で計算されるものである。ここでのパラメータとしては、未知語構成文字に関するパラメータや既知語に関するパラメータも含まれる。

モデル学習部１３０は、品詞タグ付きコーパス格納部１３１及びｎ−ｇｒａｍモデルパラメータ計算部１３２を有する。

品詞タグ付きコーパス格納部１３１は、ハードウェア的には、例えば、パソコンが内蔵する大容量記憶装置（例えばハードディスク）や外付けの大容量記憶装置が該当し、品詞タグ付きコーパスを格納しているものである。

ｎ−ｇｒａｍモデルパラメータ計算部１３２は、品詞タグ付きコーパス格納部１３１に格納されているコーパスを用いてｎ−ｇｒａｍモデルのパラメータ（未知語構成文字や既知語に関するパラメータも含まれる）を推定するものである。推定されたｎ−ｇｒａｍモデルのパラメータは、上述したｎ−ｇｒａｍモデルパラメータ格納部１２２に格納される。

なお、モデル学習部１３０は、解析部１１０やモデル格納部１２０が構築されている情報処理装置（例えばパソコン）と異なる情報処理装置で構築されても良い。このような場合には（同一の情報処理装置で構築されている場合でも良い）、ｎ−ｇｒａｍモデルパラメータ計算部１３２によって得られたｎ−ｇｒａｍモデルのパラメータは、例えば、携帯可能な記録媒体を介して、ｎ−ｇｒａｍモデルパラメータ格納部１２２に投入される。

（Ａ−２）第１の実施形態の動作
次に、第１の実施形態の形態素解析装置１００の動作（第１の実施形態の形態素解析方法）を、図２のフローチャートを参照しながら説明する。図２は、入力された文を形態素解析装置１００が形態素解析して出力するまでの処理の流れを示すフローチャートである。

まず、使用者が入力した形態素解析をしたい文を入力部１１１によって取り込む（２０１）。入力された解析対象文に対して、仮説生成部１１２は既知語仮説と未知語構成文字仮説を生成する（２０２）。

これらの仮説は、グラフ構造によって表現することができ、グラフ中の文頭と文末を表すノードを結ぶ一つの経路が、一つの仮説に対応する。仮説生成部１１２が行う動作は、図３のフローチャートのように実行される。既知語仮説生成部１１３は、形態素辞書格納部１２１に格納されている形態素辞書を用いて、入力部１１１によって入力された解析対象文中に含まれる既知語のノードを生成してグラフに追加する（３０１）。未知語構成文字仮説生成部１１４は、解析対象文中の全ての文字のそれぞれに対して、その文字が単語中のどの位置に出現するかを表す文字位置タグを付与した未知語構成文字のノードを生成してグラフに追加する（３０２）。文字位置タグとしては、例えば、単語（なお、ここでは未知語を意図している）の最初の文字であることを表すタグ（ここでは「Ｂ」と表すことにする）、単語の中間の（最初と最後ではない）文字であることを表すタグ（ここでは「Ｉ」と表すことにする）、単語の末尾の文字であることを表すタグ（ここでは「Ｅ」と表すことにする）、その文字自身で単語を構成することを表すタグ（ここでは「Ｓ」と表すことにする）の４種類のタグを適用する。

図２に戻り、生成確率計算部１１５は、ｎ−ｇｒａｍモデルパラメータ格納部１２２に格納されたパラメータを用いて、仮説生成部１１２で生成されたグラフ中の各経路（仮説）に対して、その生成確率をｎ−ｇｒａｍモデルにより計算する（２０３）。

ここで、入力文の先頭からｉ番目の単語（既知語の場合）あるいは文字（未知語構成文字の場合）をω_ｉとし、その品詞（既知語の場合）あるいは文字位置タグ（未知語構成文字の場合）をｔ_ｉとし、文中の単語あるいは文字の数（グラフの経路中に含まれるノードの数）をｎ（ｎ−ｇｒａｍモデルのｎとは異なる）とする。また、ω_ｉ（ｉ＜１）とｔ_ｉ（ｉ＜１）は、それぞれ文頭を表す単語（あるいは文字）と品詞とし、ω_ｉ（ｉ＞ｎ）とｔ_ｉ（ｉ＞ｎ）は、それぞれ文末を表す単語（あるいは文字）と品詞とする。このとき、ある一つの仮説（正解候補）の単語・品詞タグ列は、
ω_１ｔ_１ … ω_ｎｔ_ｎ
と表現され、このような仮説の中から最も生成確率の高いものを解として選べばよいため、（１）式のようにｎ−ｇｒａｍモデルを用いることにより、＾ω_ｉ及び＾ｔ_ｉを計算することになる。

（１）式において、第１行の「＾ω_１＾ｔ_１ … ＾ω_ｎ＾ｔ_ｎ」は最適な単語・品詞タグ列を意味しており、ａｒｇｍａｘは、複数の単語・品詞タグ列（仮説）の中から生成確率Ｐ（ω_１ｔ_１ … ω_ｎｔ_ｎ）が最も高い単語・品詞タグ列を選択することを表している。

ある単語・品詞タグ列の生成確率Ｐ（ω_１ｔ_１ … ω_ｎｔ_ｎ）は、その単語・品詞タグ列においてそのｉ番目（ｉは１〜ｎ＋１）の単語・品詞タグが生じる条件付き確率Ｐ（ω_ｉｔ_ｉ｜ω_１ｔ_１ … ω_ｉ−１ｔ_ｉ−１）の積で表される。条件付き確率Ｐ（ω_ｉｔ_ｉ｜ω_１ｔ_１ … ω_ｉ−１ｔ_ｉ−１）は、ｉ番目のノードやその近傍のノードの単語タグや品詞タグの組み合わせを反映させた複数の重み付き条件付き確率、すなわち、λ_１Ｐ（ω_ｉ｜ｔ_ｉ）Ｐ（ｔ_ｉ）と、λ_２Ｐ（ω_ｉ｜ｔ_ｉ）Ｐ（ｔ_ｉ｜ｔ_ｉ−１）と、λ_３Ｐ（ω_ｉ｜ｔ_ｉ）Ｐ（ｔ_ｉ｜ｔ_ｉ−２ｔ_ｉ−１）と、λ_４Ｐ（ω_ｉｔ_ｉ｜ω_ｉ−１ｔ_ｉ−１）との和で近似することができる。

図２に戻り、解探索部１１６は、上述の動作により生成確率が計算された各仮説の中から、文全体の生成確率が最も高いものを選択する（２０４）。このような探索は、Ｖｉｔｅｒｂｉアルゴリズム等を用いて行うことができる。

未知語復元部１１７は、解探索部１１６により決定された解の中に含まれる未知語構成文字を結合して、未知語を復元する（２０５）。解探索部１１６により決定された解の中に未知語構成文字が含まれていない場合には、未知語復元部１１７の動作は省略される。未知語の復元は、文字位置タグを用いることにより行われる。以下では、Ｂ、Ｉ、Ｅ、Ｓの４つの文字位置タグを使用した場合を説明する。例えば、「く／Ｂ，る／Ｉ，ま／Ｅ，で／Ｓ，ま／Ｂ，つ／Ｅ」という未知語構成文字の並びが解に含まれていたとすると、単語の開始タグＢと終了タグＥとで挟まれた部分と、その文字単独で単語になっていることを表すタグＳが付与されている部分とを未知語として復元するので、「くるま／未知語，で／未知語，まつ／未知語」という復元結果が得られる。

出力部１１８は、未知語復元部１１７により未知語が復元された解、又は、未知語を含まないで得られた解を使用者へ出力する（２０６）。

ｎ−ｇｒａｍモデルパラメータ計算部１３２は、フローチャートは省略するが、上述した（１）式に示す近似式で適用できるｎ−ｇｒａｍモデルのパラメータを、品詞タグ付きコーパス１３１に格納された品詞タグ付きコーパスから得て、ｎ−ｇｒａｍモデルパラメータ格納部１２２に格納する。すなわち、Ｐ（ω_ｉ｜ｔ_ｉ）、Ｐ（ｔ_ｉ）、Ｐ（ｔ_ｉ｜ｔ_ｉ−１）、Ｐ（ｔ_ｉ｜ｔ_ｉ−２ｔ_ｉ−１）、Ｐ（ω_ｉｔ_ｉ｜ω_ｉ−１ｔ_ｉ−１）、λ_１、λ_２、λ_３、λ_４を求め、その結果を、ｎ−ｇｒａｍモデルパラメータ格納部１２２へ格納する。ここで、Ｐ（ω_ｉ｜ｔ_ｉ）、Ｐ（ｔ_ｉ）、Ｐ（ｔ_ｉ｜ｔ_ｉ−１）、Ｐ（ｔ_ｉ｜ｔ_ｉ−２ｔ_ｉ−１）、Ｐ（ω_ｉｔ_ｉ｜ω_ｉ−１ｔ_ｉ−１）については最尤推定法を用いることにより計算することができ、また、重み付け係数（補間係数）λ_１、λ_２、λ_３、λ_４については削除補間法を用いることにより計算することができる。これらの計算方法は、例えば、文献１『北研二著、「確率的言語モデル」、東京大学出版会発行、１９９９年１１月初版発行』の３７〜４１頁や、６５〜６６頁に記載されている。

ここで、品詞タグ付きコーパス格納部１３１に格納されている品詞タグ付きコーパス中における未知語、あるいは、出現頻度が低く未知語に近い性質を持つとみなせる語は、ｎ−ｇｒａｍモデルパラメータ計算部１３２による処理によって、各文字（未知語構成文字）に分解され、文字位置タグＢ、Ｉ、Ｅ、Ｓが付与された後に、上記のｎ−ｇｒａｍモデルのパラメータの計算が行われ、その結果が格納される。

以下に、実際の解析の例を示す。まず、使用者から入力部１１１を用いて「細川護煕首相が訪米」という解析対象文が入力されたとする（２０１）。ここで、「護煕」という単語が未知語であるとする。

形態素辞書格納部１２１に図４に示すような辞書が格納されていたとすると、既知語仮説生成部１１３は、グラフ構造で表現される既知語の仮説（図５の符号６１１参照）を生成する（３０１）。未知語仮説生成部１１４は、グラフ構造で表現される未知語構成文字の仮説（図５の符号６１２参照）を生成する（３０２）。最終的に、仮説生成部１１２は、図５に示すようなグラフ構造で表現される仮説（符号６１０参照）を生成する（２０２）。なお、既知語仮説６１１のノードと、未知語仮説６１２のノードとを結ぶアークは、既知語仮説６１１と未知語仮説６１２とが生成された後に、仮説生成部１１２が生成する。

なお、図５から明らかなように、文字位置タグＢが付与された未知語構成文字から文字位置タグＢが付与された未知語構成文字を結ぶアークや、文字位置タグＥが付与された未知語構成文字から文字位置タグＥが付与された未知語構成文字を結ぶアークや、文字位置タグＢが付与された未知語構成文字から既知語を結ぶアークなど、文字位置タグの属性と矛盾するようなアークが生成されることはない。

生成確率計算部１１５では、（１）式を用いて各仮説の生成確率の計算を行う（２０３）。解探索部１１６では、最も生成確率の高い仮説を探索する。ここでは、図５のグラフ中の太線で示された経路が選ばれたとする。未知語復元部１１７では、解探索部１１６で選択された仮説中の「護［Ｂ］，煕［Ｅ］」という未知語構成文字部分が、「護煕［未知語］」という未知語に復元される。これにより、出力部１１８から、「細川［名詞］，護煕［未知語］，首相［名詞］，が［助詞］，訪米［名詞］」という形態素解析結果が出力される。

（Ａ−３）第１の実施形態の効果
第１の実施形態によれば、形態素解析を行う際に、解析対象文中に未知語が含まれている場合でも、頑健に解析を行うことができる。

未知語を、それを構成する文字単位で処理することによって、従来から存在する未知語を単語単位で処理する方法に比べて、少ない計算量で文中に存在する任意の未知語を考慮することができる。また、従来手法として、既知語も未知語も文字単位で処理する方法があるが、そのような手法では既知語に関する情報や文中の広範囲の情報を十分に利用できず、既知語に対する精度が低いという問題があった。提案手法では、単語に関する情報が分かっている既知語に対しては単語単位で高精度な解析を行い、単語に関する情報が無い未知語に対しては、文字単位で頑健な解析を行うことができる。さらに、従来手法として人名になりやすい単語に対して仮説を生成する手法や、カタカナや数字などの使われ方に依存した規則や確率的モデルを利用して未知語の仮説を生成する手法があるが、提案手法では対象とする未知語の種類や言語を限定することなく処理を行うことができる。

（Ｂ）第２の実施形態
次に、本発明による形態素解析装置、方法及びプログラムの第２の実施形態を、図面を参照しながら詳述する。

図６は、第２の実施形態の形態素解析装置の機能的構成を示すブロック図であり、第１の実施形態に係る図１との同一、対応部分には、同一、対応符号を付して示している。

第２の実施形態の形態素解析装置１００Ａは、第１の実施形態の構成に加え、最大エントロピーモデルパラメータ格納部１２３及び最大エントロピーモデルパラメータ計算部１３３を有している点、及び、生成確率計算部１１５Ａの処理が第１の実施形態とは異なっている。

最大エントロピーモデルパラメータ格納部１２３は、生成確率計算部１１５Ａで使用される最大エントロピーモデルのパラメータを格納しているものである。最大エントロピーモデルパラメータ計算部１３３は、品詞タグ付きコーパス格納部１３１に格納されたコーパスを用いて最大エントロピーモデルのパラメータを計算し、その結果を最大エントロピーモデルパラメータ格納部１２３へ格納するものである。第２の実施形態の生成確率計算部１１５Ａは、仮説生成部１１２で生成された各仮説に対し、ｎ−ｇｒａｍモデルに加えて、最大エントロピーモデルパラメータ格納部７２３に格納されたパラメータを使用する最大エントロピーモデルも用いて、生成確率を計算するものである。

次に、第２の実施形態の形態素解析装置１００Ａの動作（第２の実施形態の形態素解析方法）を、図７のフローチャートを参照しながら説明する。図７は、入力された文を形態素解析装置１００Ａが形態素解析して出力するまでの処理の流れを示すフローチャートであり、第１の実施形態に係る図２に対応する部分である。

第２の実施形態の場合、第１の実施形態と比べて、仮説に対する生成確率の計算を行う箇所だけが異なるため、以下では、この点についてのみ説明する。

文の入力（２０１）、仮説の生成（２０２）が行われた後、生成確率計算部１１５Ａは、ｎ−ｇｒａｍモデルパラメータ格納部１２２と最大エントロピーモデルパラメータ格納部１２３に格納されたパラメータを用いて、仮説生成部１１２で生成されたグラフ中の各経路（仮説）に対して、その生成確率を計算する（２０３Ａ）。

生成確率を計算する際に、第１の実施形態では（１）式を使用して計算を行ったが、第２の実施形態の場合、（１）式中の文字位置タグで条件付けられた未知語構成文字の出現確率Ｐ（ω_ｉ｜ｔ_ｉ）を、（２）式によって計算する。なお、ｉ番目の要素（ノード）が既知語単語である場合には、（２）式は適用されない。

ここで、この（２）式の右辺中のＰ（ｔ_ｉ｜ω_ｉ）の値を、最大エントロピー法によって計算する。その際に、最大エントロピー法で使用する素性としては、以下の情報を使うことができる。但し、ω_ｉは文頭からｉ’番目の文字であるとし、ｃ_ｘは文頭からｘ番目の文字を、ｙ_ｘは文字ｃ_ｘの文字の種類をそれぞれ表すものとする。

（ａ）文字（ｃ_ｉ’−２，ｃ_ｉ’−１，ｃ_ｉ’，ｃ_ｉ’＋１，ｃ_ｉ’＋２）
（ｂ）文字の二つ組（ｃ_ｉ’−２ｃ_ｉ’−１，ｃ_ｉ’−１ｃ_ｉ’，ｃ_ｉ’−１ｃ_ｉ’＋１，ｃ_ｉ’ｃ_ｉ’＋１，ｃ_ｉ’＋１ｃ_ｉ’＋２）
（ｃ）文字種（ｙ_ｉ’−２，ｙ_ｉ’−１，ｙ_ｉ’，ｙ_ｉ’＋１，ｙ_ｉ’＋２）
（ｄ）文字種の二つ組（ｙ_ｉ’−２ｙ_ｉ’−１，ｙ_ｉ’−１ｙ_ｉ’，ｙ_ｉ’−１ｙ_ｉ’＋１，ｙ_ｉ’ｙ_ｉ’＋１，ｙ_ｉ’＋１ｙ_ｉ’＋２）
文字の種類としては、例えば、アルファベット、数字、記号、漢字、ひらがな、カタカナなどを用いることができる。生成確率の計算後は、第１の実施形態の場合と同様に、最適解の探索（２０４）、未知語の復元（２０５）、結果の出力（２０６）が行われる。

図８は、生成確率計算部１１５Ａで使用されるｎ−ｇｒａｍモデルと最大エントロピーモデルのパラメータを、品詞タグ付きコーパスから計算して求める処理を示すフローチャートである。始めに、第１の実施形態の場合と同様に、ｎ−ｇｒａｍモデルのパラメータが品詞タグ付きコーパスから計算する（９０１）。第１の実施形態と異なるのは、仮説の生成確率を計算する際に、（１）式に加えて（２）式を使用するため、確率Ｐ（ω_ｉ）のパラメータの計算も行わなければならない点である。最大エントロピーモデルパラメータ計算部１３３は、品詞タグ付きコーパス格納部１３１に格納された品詞タグ付きコーパスを用いて、未知語構成文字で条件付けられた文字位置タグの出現確率を計算するための最大エントロピーモデルのパラメータを求め、その結果を最大エントロピーモデルパラメータ格納部１２３へ格納する（９０２）。

最大エントロピーモデルのパラメータについては、例えば反復スケーリング法を用いることにより計算することができる（上述した文献１の１６３〜１６５頁参照）。

第２の実施形態によれば、第１の実施形態と同様な効果に加え、以下の効果を期待することができる。すなわち、未知語構成文字に関してその前後の文字を含めた文字表記や文字種類の情報を用いることにより、未知語に対してより精度よく解析を行うことが可能となる。

（Ｃ）他の実施形態
上記各実施形態では、未知語仮説生成部が解析対象文の全ての文字を、未知語構成文字として仮説を生成するものを示したが、解析対象文の一部の文字を、未知語構成文字として仮説を生成するものであっても良い。例えば、既知語仮説生成部１１３が形態素辞書格納部１２１の辞書から探索することができなかった部分の前後に所定量の部分（所定数の形態素の部分、所定数の文字数の部分）を加えた解析対象文の一部の文字を、未知語構成文字として未知語仮説生成部が仮説を生成するものであっても良い。

また、上記各実施形態では、仮説のノードが、既知語仮説生成部によって生成されたものであろうと未知語仮説生成部によって生成されたものであろうと、同様に扱って、生成確率を計算するものを示したが、Ｐ（ω_ｉ｜ｔ_ｉ）やＰ（ｔ_ｉ）等の確率に対し、既知語仮説生成部によって生成されたノードと、未知語仮説生成部によって生成されたノードとで異なる重み係数などで修正を加えるようにしても良い。

さらに、上記各実施形態では、未知語の文字位置タグとして、Ｂ、Ｉ、Ｅ、Ｓの４種類を用いるものを示したが、これに限定されるものではない。例えば、ＢとＩだけを用いるようにしても良い。

上記各実施形態では、最尤の仮説である形態素解析結果を出力するものを示したが、得られた形態素解析結果を、機械翻訳部などの自然言語処理部に直ちに与えるようにしても良い。

また、上記各実施形態では、モデル学習部を備えるものを示したが、モデル学習部を備えないで、解析部とモデル格納部とで形態素解析装置を構成するようにしても良い。この場合、モデル格納部への情報は、予め実施形態と同様なモデル学習部で形成されたものである。

さらに、各種の処理に供するコーパスは、通信処理により、ネットワークなどから取り込むようなものであっても良い。

本発明が適用可能な言語は、上記実施形態のような日本語には限定されないことは勿論である。

第１の実施形態の形態素解析装置の機能的構成を示すブロック図である。第１の実施形態の形態素解析装置の形態素解析動作を示すフローチャートである。図２の仮説生成処理の詳細を示すフローチャートである。第１の実施形態での形態素辞書の一例を示す説明図である。第１の実施形態での仮説の生成結果の一例を示す説明図である。第２の実施形態の形態素解析装置の機能的構成を示すブロック図である。第２の実施形態の形態素解析装置の形態素解析動作を示すフローチャートである。第２の実施形態の形態素解析装置のモデル情報生成動作を示すフローチャートである。

符号の説明

１００、１００Ａ…形態素解析装置、
１１０、１１０Ａ…解析部、
１１１…入力部、１１２…仮説生成部、１１３…既知語仮説生成部、１１４…未知語構成文字仮説生成部、１１５、１１５Ａ…生成確率計算部、１１６…解探索部、１１７…未知語復元部、１１８…出力部、
１２０、１２０Ａ…モデル格納部、
１２１…形態素辞書格納部、１２２…ｎ−ｇｒａｍモデルパラメータ格納部、１２３…最大エントロピーモデルパラメータ格納部
１３０、１３０Ａ…モデル学習部、
１３１…品詞タグ付きコーパス格納部、１３２…ｎ−ｇｒａｍモデルパラメータ計算部、１３３…最大エントロピーモデルパラメータ計算部。

Claims

形態素解析対象文に対して、形態素解析結果の候補である仮説を１又は複数生成するものであって、辞書に登録されている既知語の仮説を生成する既知語仮説生成部と、未知語を構成する文字列を文字単位に分解して文字単位の仮説を生成する未知語文字生成部とを有し、生成する仮説の中に、既知語の仮説と、未知語を構成する文字単位の仮説とが混在したものがある仮説生成手段と、
形態素やｎ−ｇｒａｍや未知語を構成する文字の確率的なモデルの情報を格納しているモデル格納手段と、
上記各仮説に対し、その仮説の生成確率を、上記モデル格納手段に格納されている確率的なモデルの情報を用いて求める生成確率計算手段と、
上記各仮説の生成確率に基づき、解となる仮説を探索する解探索手段と、
探索された解の中に未知語を構成する文字がある場合に、それらの文字を結合して未知語を復元する未知語復元手段と
を備えたことを特徴とする形態素解析装置。
上記モデル格納手段には、未知語を構成する文字で条件付けられた、該当文字の位置を規定する文字位置タグの条件付き確率として、その未知語構成文字の前後の文字やその文字種を素性とした最大エントロピーモデルの情報が格納されていることを特徴とする請求項１に記載の形態素解析装置。
最大エントロピーモデルによる計算を行うための素性として、注目している文字とその前後の文字の一つ組と二つ組、およびそれらの文字種の一つ組と二つ組とが使用されたことを特徴とする請求項２に記載の形態素解析装置。
仮説生成手段、生成確率計算手段、解探索手段、未知語復元手段を備える形態素解析方法において、
上記仮説生成手段が、形態素解析対象文に対して、形態素解析結果の候補である仮説を１又は複数生成するものであって、辞書に登録されている既知語の仮説を生成する既知語仮説生成部と、未知語を構成する文字列を文字単位に分解して文字単位の仮説を生成する未知語文字生成部とを有し、生成する仮説の中に、既知語の仮説と、未知語を構成する文字単位の仮説とが混在したものがある仮説生成工程と、
上記生成確率計算手段が、形態素やｎ−ｇｒａｍや未知語を構成する文字の確率的なモデルの情報を格納しているモデル格納手段の格納情報を用い、上記各仮説に対し、その仮説の生成確率を求める生成確率計算工程と、
上記解探索手段が、上記各仮説の生成確率に基づき、解となる仮説を探索する解探索工程と、
上記未知語復元手段が、探索された解の中に未知語を構成する文字がある場合に、それらの文字を結合して未知語を復元する未知語復元工程と
を含むことを特徴とする形態素解析方法。
上記モデル格納手段には、未知語を構成する文字で条件付けられた、該当文字の位置を規定する文字位置タグの条件付き確率として、その未知語構成文字の前後の文字やその文字種を素性とした最大エントロピーモデルの情報が格納されていることを特徴とする請求項４に記載の形態素解析方法。
最大エントロピーモデルによる計算を行うための素性として、注目している文字とその前後の文字の一つ組と二つ組、およびそれらの文字種の一つ組と二つ組とが使用されたことを特徴とする請求項５に記載の形態素解析方法。
コンピュータを、
形態素解析対象文に対して、形態素解析結果の候補である仮説を１又は複数生成するものであって、辞書に登録されている既知語の仮説を生成する既知語仮説生成部と、未知語を構成する文字列を文字単位に分解して文字単位の仮説を生成する未知語文字生成部とを有し、生成する仮説の中に、既知語の仮説と、未知語を構成する文字単位の仮説とが混在したものがある仮説生成手段、
形態素やｎ−ｇｒａｍや未知語を構成する文字の確率的なモデルの情報を格納しているモデル格納手段の格納情報を用い、上記各仮説に対し、その仮説の生成確率を、上記モデル格納手段に格納されている確率的なモデルの情報を用いて求める生成確率計算手段、
上記各仮説の生成確率に基づき、解となる仮説を探索する解探索手段、
探索された解の中に未知語を構成する文字がある場合に、それらの文字を結合して未知語を復元する未知語復元手段
として機能させる形態素解析プログラム。