JPH10326275A

JPH10326275A - 形態素解析方法および装置、並びに日本語形態素解析方法および装置

Info

Publication number: JPH10326275A
Application number: JP10021929A
Authority: JP
Inventors: Mikio Yamamoto; 幹雄山本; Hideki Yamamoto; 秀樹山本; Mihoko Kitamura; 美穂子北村; Sayori Shimohata; さより下畑
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1997-03-21
Filing date: 1998-02-03
Publication date: 1998-12-08
Anticipated expiration: 2018-02-03
Also published as: US6098035A; JP3992348B2

Abstract

(57)【要約】【課題】未知語があっても、高精度で高速に処理出
来、しかも、省資源化を図ること。【解決手段】入力文の各文字ｃ_i に、単語区切り情報
ｄ_i の他にタグ情報等の所要の任意情報を含む拡張情報
を付加して拡張文字ｅ_i を生成して、可能な全ての拡張
文字列を生成する。予め、訓練により、Ｎ−ｇｒａｍ
（通常、Ｎ＝１か２か３）の文字列の部分連鎖確率（出
現確率）を拡張文字テーブルに格納しておく。拡張文字
列の部分文字列を、拡張文字列の文頭から順次に取り出
して、それぞれの部分連鎖確率を拡張文字テーブルを参
照して求め、求めた部分連鎖確率の積を求める。この積
を、全ての拡張文字列に対して求め、その積の大きいも
のに対応する文字列の順に、単語列の並びの他、タグ列
の並びや任意情報の解析結果等を形態素解析結果として
出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、形態素解析、特
に確率的手法を利用することによって、辞書を用いるこ
となく、電子化された言語テキストを形態素解析する方
法および装置に関する。

【０００２】

【従来の技術】言語処理における形態素解析処理は重要
であり、日本語処理における形態素解析処理も、構文解
析処理などのそれ以降の処理にとってきわめて重要であ
る。特に、ワードプロセッサによるテキスト作成の普
及、インターネットの普及により大量の電子化された日
本語テキストが容易に入手可能となっている。ワードプ
ロセッサその他のコンピュータ装置でこれらテキストを
検索、構成、比較、分類、要約等の処理を行うために
は、単語や句等の文中の意味単位を切り出すこと、すな
わち、形態素解析が正しく行われることが大前提であ
る。この形態素解析を誤ると、後段での構文解析処理や
意味解析処理等においてその誤りを修復することが困難
である。たとえその修復が可能であったとして、その処
理は複雑化し、従って、大量のテキストを期待された時
間内に処理することが出来なくなってしまう。形態素解
析処理においては、英語などの単語区切り記号として空
白を使用するという正書法が備わっている言語テキスト
と比べると、単語区切りが無い日本語等の言語は品詞の
推定とともに、単語分割が高精度でかつ高速で行えるか
どうかが大きな課題となる。

【０００３】また、韓国語、中国語、タイ語等の、日本
語と同様に単語区切りが無い書法をもつ言語も上述した
と同様な課題を有している。

【０００４】単語が単語区切り（スペース）によって分
かれており、品詞等のタグを単語に与えるだけでよい英
語の形態素解析手法においては、大きなテキストから品
詞やその配列であるタグ系列の確率モデルを推定し、さ
らに、例に基づく誤り訂正を加えた手法が確立してい
る。一方、日本語においても、この英語に対する手法を
応用した例がいくつか提案されている。確率モデルを用
いた一例として、日本電信電話株式会社から出願された
文献Ｉ：「特開平８−３１５０７８号」で提案された
「日本語文字認識方法及び装置」がある。

【０００５】

【発明が解決しようとする課題】確率モデルによって最
適な形態素解析結果を求めるためには、周知の通り、あ
る文において、形態素列と各形態素に付与されたタグ列
の同時確率を最大にするような形態素列およびタグ列を
求めれば良い。なお、同時確率とは、ある形態素候補と
あるタグ列候補とが同時に起こるときの確率である。英
語においては単語区切りが分かっているため、形態素列
は一定となり、最適なタグ列を推定する。しかし、日本
語や韓国語、中国語、タイ語等の分かち書きをしない言
語では、単語区切りがはっきりしていないので、可能性
のあるすべての単語区切りにおける単語列に対してその
確率を比較せねばならない。しかし、それぞれの単語列
はその単語区切りの違いによって単語列の長さが異なる
ため、この長さの異なる単語列を比較するために、長さ
に関する条件が近似として含まれてしまう。

【０００６】この点につき、以下、日本語を例に挙げ
て、簡単に説明する。形態素解析とは、ある入力文に対
して、入力文字列の最適な形態素列Ｗとタグ列Ｔを求め
ることである。これは、形態素列Ｗとタグ列Ｔの同時確
率ｐ（Ｗ，Ｔ）を最大化する連鎖確率モデルを選択する
ことにより実現出来る。一般には、以下の式（１）の連
鎖確率モデルが用いられている（文献Ｉ参照）。なお、
連鎖確率とは、あるｎ個（ｎは任意の数）の文字が連続
して出現する確率をいう。

【０００７】

【数１】

【０００８】ここで、ｉは文字位置、ｗ_i は形態素列中
の文字位置ｉでの形態素、ｔ_i はタグ列中の文字位置ｉ
でのタグ、Ｎは参照する文字組の数で通常はＮ＝１また
は２または３である。ｌｅｎｇｔｈ（Ｗ）は入力単語列
の長さ、すなわち、入力文の構成単語数である。

【０００９】この（１）式で表される連鎖確率モデル
を、以下、品詞Ｎ−ｇｒａｍモデルと呼ぶ。この（１）
式では、入力形態素列の長さｌｅｎｇｔｈ（Ｗ）による
条件が入っているので、正確には、（１）式のｐ（Ｗ，
Ｔ）にはｌｅｎｇｔｈ（Ｗ）に関する近似が含まれる。
英語の場合は、形態素列の長さは固定であるため、最大
確率のｐ（Ｗ，Ｔ）を求める場合に問題はない。しか
し、日本語の場合には、形態素の区切りが分からないた
め、入力文の文字列と辞書を使って、形態素のネットワ
ーク（半順序関係を構成する。）を得た後、この半順序
構造中のすべてのパスの確率を品詞Ｎ−ｇｒａｍモデル
で計算する必要がある。この場合、日本語では、形態素
の区切りが所与でないため、長さ（ｌｅｎｇｔｈ
（Ｗ））の異なる形態素列の確率を比較しなければなら
ない。このため、英語では問題とならなかった長さによ
る条件付き確率で近似している（１）式は、日本語にお
いては、近似が１段多いことになる。すなわち、英語の
場合とは異なり、日本語ではすべての可能な候補に対し
ての連鎖確率を同じ条件で比較していないことになる。

【００１０】近似によって、分割数が少ない形態素列
（各形態素は長い。）が優先されることが起こる。それ
は、長い系列の方が可能な系列の数が多いので、１つの
可能性あたりの平均的な連鎖確率が小さくなるためであ
る。

【００１１】さらに、入力文字列が未知語であるため、
この文字列が辞書に存在していなかった場合、確率モデ
ルの解析手法に新たな問題が起こる。英語の場合には、
未知語があってもその未知語に対して全ての可能なタグ
を考慮するだけで、特に確率モデルに改良を加える必要
はない。また、可能なタグの数は比較的少ないので（数
十個）、かなりの精度で品詞を正しく推定することも出
来る。しかし、日本語における未知語の場合には、未知
語を構成する文字列の全ての可能な位置（どの位置で分
割されるか）、全ての可能な長さ（どういう文字構成の
語か）、それぞれの形態素において全ての可能なタグの
組み合わせを考慮しなければならないため、単純な確率
モデルでは計算量的に実現不可能となる。

【００１２】また、未知語が存在すると、辞書を使えな
いので、半順序構造を得ることが出来ない。

【００１３】文献Ｉに開示された手法では、未知語に対
して文字の連鎖確率を用いた単語モデルを導入すること
によって未知語に対処している。しかし、この手法は、
単語内での連鎖確率しか使用しておらず、その単語が前
後の文脈によってどれくらい可能性があるのかについて
は、品詞の連鎖確率により間接的にしか表現されていな
い。すなわち、文脈全体の（未知の文字列の範囲を越え
た文字列における）連鎖確率を使用しなければ、正しく
未知の文字列を認定したり、区切ることができない。

【００１４】また、この従来手法では、あくまでも、単
語ベースの手法であるため、形態素解析システムが未知
語があると仮定した場合、文中の全ての位置で、任意の
長さの単語候補の組み合わせを考慮しなければならず、
従って、計算量の増大を引き起こしてしまう。

【００１５】上述した問題点をまとめると下記の通りと
なる。

【００１６】１）文献開示の形態素解析手法は、単語を
ベースとしているため、日本語の場合は辞書が不可欠と
なる。しかし、辞書があっても、未知語が存在する場合
には、辞書が使えないため、単語分割に影響を与える。

【００１７】２）日本語の場合は、区切りの曖昧さがあ
るため、分割単語数は一定である英語の確率モデルをそ
のまま適用することが出来ない。例えば、分割単語数の
異なる２つの分割を比較すると、分割数の少ない、すな
わち、長い単語からなる分割が有意な評価値を得やす
い。

【００１８】３）上記１）の問題により、次のような処
理効率上の新たな問題が生じる。すなわち、従来の手法
では、単語をベースにしているため、単に語を区切るだ
けでも、辞書が不可欠となる。従って、辞書を作成する
という面倒な作業を必要とし、その辞書を格納する資源
も必要となる。さらに、処理実行時には、辞書を参照す
るため、メモリ消費量も大きくなり、しかも、処理時間
も長くなる。

【００１９】そこで、従来より、確率的手法を利用して
も、辞書を用いる必要が無く、確率計算が分割単語数に
依存せずに高精度で高速に形態素解析処理ができしかも
省資源化が図れる形態素解析方法および装置や日本語形
態素解析方法および装置の出現が望まれていた。

【００２０】

【課題を解決するための手段】そこで、この出願にかか
る発明者は、種々の研究および実験を行って、単語では
なく文字をベースとして形態素解析を行えば、上述した
種々の問題点を解決出来るという確信に至った。その理
由は以下の通りである。すなわち、日本語を例に説明す
ると、日本語の文字は一般に使われているもので３，０
００〜６，０００種あり、英語と異なり文字自体がかな
りの情報を持っている。そして、その種類も現在の計算
機能力にとって確率モデルを構成するのにちょうどよい
大きさになっている。このため、文字をベースとすれ
ば、辞書が必要なくなるので、上記１）の問題の解決が
はかれること、また、文字の長さは１文（改行文字で区
切られた単位の文字列のことを言う。）において一定で
あるため、上記２）の問題も解決出来ること、および、
上記１）および２）が解決出来れば、必然的に３）の問
題も解決できることにある。

【００２１】従って、この発明の形態素解析方法および
装置や日本語形態素解析方法および装置では、基本的に
は、文字をベースとして形態素解析を行うに当たり、言
語テキスト、例えば日本語テキストが入力文として与え
られたときに、この入力文を構成する単語列として、各
文字の直後が単語境界であるか否かのあらゆる組み合わ
せの中から最も確からしい単語列の並びを出力させるこ
とを特徴とするものである。

【００２２】そのため、この発明の形態素解析方法およ
び日本語形態素解析方法によれば、次のようなステップ
を含む処理を行うことを特徴とする。すなわち、（ａ）ステップ：言語テキスト、例えば日本語テキスト
を入力文として読み込む。

【００２３】（ｂ）ステップ：読み込んだ入力文の入力
文字列の文字毎に、少なくとも単語区切り情報を含む拡
張情報を付加して拡張文字を形成し、形成された拡張文
字を用いてこの入力文字列に関する全ての拡張文字列を
候補として生成する。

【００２４】（ｃ）ステップ：これら生成された全ての
拡張文字列の連鎖確率を候補として求める。

【００２５】（ｄ）ステップ：得られた連鎖確率の候補
のなかから最大値を有する連鎖確率を求め、この最大連
鎖確率を与える拡張文字列を最適拡張文字列として候補
のなかから選択する。

【００２６】（ｅ）ステップ：そしてこのステップにお
いて、この最適拡張文字列で決まる単語列の並びを含む
解析結果を形態素解析結果として出力させる。

【００２７】また、これらの方法を実施する装置は、下
記の通りの構成要件を具えることを特徴とする。すなわ
ち、（ａ）言語テキスト、例えば日本語テキストを入力
文として読み込んできて、この入力文の入力文字列の文
字毎に、少なくとも単語区切り情報を含む拡張情報を付
加して拡張文字を形成し、この形成された拡張文字を用
いて上述の入力文字列に関する全ての拡張文字列を候補
として生成する拡張文字列生成部、（ｂ）生成された全
ての拡張文字列の連鎖確率を候補として求める連鎖確率
計算部、および（ｃ）得られた連鎖確率の候補のなかか
ら最大の値の連鎖確率を求め、この最大連鎖確率を与え
る拡張文字列を最適拡張文字列として選択し、この最適
拡張文字列に対応する、単語列の並びを含む解析結果を
形態素解析結果として出力する最適経路探索部の各構成
要件である。

【００２８】ここで、拡張文字とは、その詳細は後述す
るが、通常の文字とは異なり、ある文字にその文字の語
分割や品詞等の文字以外の情報を含んだ文字を言う。

【００２９】このような方法および装置の構成によれ
ば、単語ベースでは無く、文字をベースとして確率計算
を行う手法を採用しているので、下記の効果を奏する。

【００３０】文字の長さは１文において一定しているの
で、分割数が確率計算に影響を及ぼすことが無く、従っ
て、従来よりも高精度に語分割処理を行える。

【００３１】また、形態素解析処理に辞書を必要として
いないので、辞書の作成作業等という面倒で複雑な作業
を必要とせず、従って、従来よりも形態素解析処理の高
速化が図れる。

【００３２】さらに、拡張文字の連鎖確率が日本語等の
単語の一般的な単語モデルを持っているため、辞書を利
用する従来方法よりも、未知語に対しより高精度に形態
素解析が可能となる。

【００３３】またさらに、辞書を必要としないので、品
詞等のタグ情報を利用しなくても語分割の情報のみで形
態素解析ができる。この場合、高速かつ省資源の処理を
行うことが出来る。

【００３４】この発明の実施に当たり、好ましくは、入
力文の文頭および文末に制御文字を追加して入力文字列
を形成するのが良い。このようにすると、部分拡張文字
列（後述する）の長さを全ての文字につき揃えられるの
で、より正確に確率計算が出来、従って形態素解析の精
度をより高めることが出来る。

【００３５】さらに、この発明の実施に当たり、単語区
切り情報の他にタグ情報を拡張情報として加えれば、語
分割だけでは無く、品詞等のタグについても従来より高
精度に形態素解析が可能となる。

【００３６】また、単語区切りやタグの情報以外の任意
の情報を拡張情報に加えれば、「読み」や「活用」情報
等の任意情報についても、高精度でかつ高速に形態素解
析できる。

【００３７】また、この発明の実施に当たり、好ましく
は、単語区切り情報を２値情報とするのが良い。単語区
切り情報は、これが付加された文字の直後で形態素分割
が生じているかいないかの２つの状態のいずれかである
ので、これを表す情報としてはコンピュータ処理分野で
一般に使用される２値情報（通常は「１」と「０」）を
用いれば済む。２値情報であればその取扱いも簡単容易
となり、従って、装置の構造を簡単化出来ると共に、形
態素解析処理の高速化が図れる。

【００３８】さらに、この発明の実施に当たり、好まし
くは、下記のサブステップ処理をそれぞれ含ませるのが
よい。

【００３９】前述の（ａ）ステップにおいては、入力文
をバッファメモリに読み出し自在に格納するサブステッ
プを含ませること。

【００４０】前述の（ｂ）ステップにおいては、入力文
字列をバッファメモリから読み出しするサブステップ、
および拡張文字列を第１メモリ領域に読み出し自在に格
納するサブステップを含ませること。

【００４１】前述の（ｃ）ステップにおいては、拡張文
字列を構成する順次の一定文字数からなる部分拡張文字
列のそれぞれに対応する部分連鎖確率を予め学習により
求めて第２メモリ領域に読み出し自在に格納しておくサ
ブステップ、前述の第１メモリ領域から読み出したそれ
ぞれの拡張文字列毎に、該拡張文字列を構成する全ての
部分連鎖確率を前述の第２メモリ領域から読み出してき
てその積を前述の連鎖確率としてそれぞれ求めるサブス
テップ、およびこれら連鎖確率を第３メモリ領域に読み
出し自在に格納するサブステップを含ませること。

【００４２】このサブステップを実行するに当たり、こ
の発明の装置には、上述したバッファメモリ、第１メモ
リ領域、第２メモリ領域、第３メモリ領域を具える他
に、連鎖確率計算部には読み出された部分連鎖確率の積
を計算して連鎖確率を与える計算段を具えるのが良い。

【００４３】このように構成すれば、形態素解析処理を
簡単な構成で、迅速に行える。

【００４４】

【発明の実施の形態】以下、図を参照して、この発明の
実施の形態につき説明する。実施の形態では、日本語を
例に説明するが、韓国語、中国語、タイ語等の、日本語
と同様に単語区切りが無い書法を持つ言語に対し、適用
出来る。まず、この発明の説明に必要な事項につき簡単
に説明する。

【００４５】この発明では、上述した従来の問題点の解
決を図るために、形態素単位の品詞Ｎ−ｇｒａｍモデル
を利用する代わりに、拡張文字単位の時系列モデルを利
用する。拡張文字単位の時系列モデルおよび最も基本的
な拡張文字（タグを付与せずに単語分割だけを求める場
合）の定義は、下記の式（２）〜（３）で与えられる。
なお、拡張文字はどのような拡張文字を使用するかによ
って、いくつかのバリエーションが考えられる。

【００４６】

【数２】

【００４７】拡張文字単位の時系列モデルは、拡張文字
ｅ_i の連鎖確率（ここでは、部分連鎖確率とも称す
る。）を用いて拡張文字列の連鎖確率ｐ（Ｗ，Ｔ）を求
める。ここでｎは入力文字の長さ、ＮはＮ−ｇｒａｍの
Ｎすなわち最適解を求めるために参照する文字組の長さ
（文字組を構成する文字数）、ｅ_i は形態素列Ｗおよび
タグＴの情報から決定される拡張文字であるとする。

【００４８】ｉ＜１およびｉ＞ｎの場合の拡張文字ｅ_i
は、文頭および文末を表す特殊な拡張文字であるとす
る。

【００４９】拡張文字ｅ_i とは、既に説明した通り、
「彼」、「は」などの通常の文字とは異なり、語分割や
品詞などのような文字以外の情報を含んだ文字である。
（３）式の拡張文字ｅ_i を構成するｃ_i は、入力文字の
位置ｉにおける文字およびｄ_iは、文字ｃ_i の前または
後ろにおける区切り情報である。例えば、区切り情報と
しては文字ｃ_i の位置ｉの直後で形態素分割されている
かどうかで２値の値を取る情報とするのが簡単である。
すなわち、分割されている場合には、ｄ_i ＝０とし、分
割されていない場合にはｄ_i ＝１とすればよい。

【００５０】以下の説明において、区切りだけの情報を
持たせた拡張文字ｅ_i を用いたモデルを文字境界モデル
（ｃｈａｒａｃｔｅｒｂｏｕｎｄａｒｙｍｏｄｅ
ｌ）と称し、例えば、「彼」の拡張文字ｅ_i は＜彼，０
＞のように表記する。

【００５１】日本語の形態素解析において、単語分割は
必須であるため、単語分割に関する情報は、本来的であ
り、品詞などのタグ情報を含ませる方法の場合でも不可
欠である。この区切り情報と文字の組み合わせを利用す
る点が、従来の単語レベルの情報を用いた形態素解析手
法との決定的な違いである。

【００５２】一方、この拡張文字ｅ_i はタグ情報も含ま
せることが出来、次式（４）のように表記する。

【００５３】

【数３】

【００５４】この式（４）において、ｆ（ｉ）は、入力
文字列中の文字ｃ_i の位置ｉをその位置を含む形態素の
番号（形態素位置）に変換する関数である。ここでの拡
張文字ｅ_i は、上述した文字境界モデルにおける拡張文
字ｅ_i に、形態素列Ｗおよびタグ列Ｔにおいてその文字
ｃ_i を含む形態素のタグを付加したものとなる。このモ
デルを文字タグモデル（ｃｈａｒａｃｔｅｒｔａｇ
ｍｏｄｅｌ）と称する。タグ情報としては、「品詞」の
他に「読み情報」や「活用形」等が考えられるが、これ
らタグ情報だけでなく、任意の情報例えば「読み」の情
報などを任意の個数だけ与えることによって、その情報
に関する形態素解析結果を得るようにすることもでき
る。品詞を与えた例では、「彼」の拡張文字ｅ_i は、＜
彼，０，代名詞＞のように表記する。

【００５５】以上の前提に基づき、この発明の実施の形
態につき、文字境界モデルと文字タグモデルの２つのモ
デルを例に挙げて説明する。

【００５６】まず図１を参照して、両モデルに共通す
る構成要件につき説明する。

【００５７】図１は、この発明の日本語形態素解析装置
の構成の一例を示すブロック図である。この装置は、入
出力装置１０と、処理装置２０と、記憶装置３０と、ワ
ークエリア４０を主として具えていて、コンピュータの
ハードウエア資源を用いて構成してある。従って、これ
ら装置を制御する制御部等の、駆動させるために必要な
機能は当然具えている。

【００５８】入出力装置１０の入力部は、外部からの所
要の情報をこの装置へ入力させるための装置であって、
通常のキーボード、マウス、ＯＣＲ、音声入力装置等の
任意好適な手段で構成してもよいし、或は外部からの通
信信号を受信する手段として構成してもよい。また、出
力部は、通常のコンピュータ装置の場合と同様に、この
装置で得られた結果の所要の情報を外部の種々の表示手
段や通信受信手段等へ出力出来る構成となっている。

【００５９】処理装置２０は、拡張文字列生成部２２
と、連鎖確率計算部２４と、最適経路探索部２６とを主
として具えている。

【００６０】拡張文字列生成部２２は、電子化されてい
る日本語テキストを入力文として読み込んで、この入力
文の入力文字列の文字毎に、少なくとも単語区切り情報
を含む拡張情報を付加して拡張文字を形成し、これら拡
張文字を用いて入力文字列に関する全ての拡張文字列を
生成する。すなわち、拡張文字列生成部２２は、入出力
装置１０から入力されたテキストから全ての拡張文字列
を生成する。

【００６１】連鎖確率計算部２４は、これら生成された
全ての拡張文字列の連鎖確率を求める。

【００６２】また、最適経路探索部２６は、得られた連
鎖確率のなかから最大の値の連鎖確率を与える拡張文字
列を最適拡張文字列として選択し、この最適拡張文字列
に対応する、単語列の並びを含む解析結果を形態素解析
結果として出力する。或は、最大の値の連鎖確率を与え
る拡張文字列のみではなく、確率が小さくなる順に、対
応する拡張文字列を、順次に、出力させても良い。

【００６３】記憶装置３０は、拡張文字テーブル３２
と、スコアテーブル３４とを主として具えている。

【００６４】この拡張文字テーブル３２は、拡張文字列
ｅ_i ｅ_i-1 ｅ_i-2 ・・・ｅ_i-N+1 とその連鎖確率（部分
連鎖確率）ｐ（ｅ_i ｜ｅ_i-1 ｅ_i-2 ・・・ｅ_i-N+1 ）を
格納するテーブルで、第２メモリ領域５０としての拡張
文字列格納部５２および部分連鎖確率格納部５４とを有
している。この拡張文字テーブル３２は、上述した連鎖
確率を求めるときに連鎖確率計算部２４によって参照さ
れる。

【００６５】拡張文字列格納部５２はＮ個の拡張文字格
納部６０を有している。また、拡張文字格納部６０は文
字格納部６２と区切り情報を含む拡張情報の格納部（拡
張情報格納部という。）６４とを有している。文字格納
部６２には、文字ｃ_i を、拡張情報格納部６４には文字
ｃ_i の区切り情報ｄ_i やタグ情報ｔ_i 等の拡張情報をそ
れぞれ格納する。

【００６６】スコアテーブル３４は、文頭から文末まで
の全ての拡張文字列の経路〔Ｗ，Ｔ〕と、その同時確率
（連鎖確率）ｐ（Ｗ，Ｔ）を格納するテーブルで、第１
メモリ領域としての経路格納部７０と第３メモリ領域と
してのスコア格納部７２とを有している。経路格納部７
０は、拡張文字格納部６０と同様に、ｎ個（ｎは読み込
まれたテキストの文字数）の拡張文字格納部８０を有
し、この拡張文字格納部８０は、文字格納部８２と区切
り情報を含む拡張情報を格納する拡張情報格納部８４を
有している。この経路格納部７０には、生成された全て
の拡張文字列が拡張文字列生成部２２によって格納され
る。また、スコア格納部７２には、連鎖確率計算部２４
によって、計算されて得られた全ての連鎖確率が記録さ
れる。

【００６７】ワークエリア４０は、処理装置２０が各種
の処理を行うためのエリアでカウンタ４２およびバッフ
ァメモリ４４を有している。

【００６８】このような構成により、この発明では下記
のような処理ステップで動作させることができる。この
処理の流れ図を図２に示す。なお図において、ステップ
を記号Ｓで表記する。

【００６９】まず、Ｓ（ａ）において、入出力装置１０
によりに日本語テキストを入力文として読み込む。この
場合、好ましくは、読み込んだ入力文をバッファメモリ
４４に読み出し自在に格納する。

【００７０】次に、Ｓ（ｂ）において、この入力文の入
力文字列の文字毎に、少なくとも単語区切り情報を含む
拡張情報を付加して拡張文字を形成し、形成した拡張文
字を用いて入力文字列に関する全ての拡張文字列を生成
する。この場合、好ましくは、入力文をバッファメモリ
４４から拡張文字列生成部２２へ読み出してきて拡張文
字の付加を行う。生成された拡張文字列は第１メモリ領
域である経路格納部７０に読み出し自在に格納する。

【００７１】次に、Ｓ（ｃ）において、生成された全て
の拡張文字列の連鎖確率を求める。この場合、好ましく
は、この計算に当たり、拡張文字列を構成する順次の一
定数、すなわち、この計算のときに参照される文字組の
数（Ｎ）（通常、Ｎ＝１または２または３である）から
なる部分拡張文字列のそれぞれに対応する部分連鎖確率
を予め学習（訓練）により求めておき、その部分連鎖確
率を第２メモリ領域である拡張文字テーブル３２に読み
出し自在に格納しておく。そして、第１メモリ領域７０
から読み出したそれぞれの拡張文字列毎に、これら拡張
文字列を構成する全ての部分連鎖確率をこの第２メモリ
領域５０から読み出してきて、その積を計算して連鎖確
率として求める。得られた連鎖確率を第３メモリ領域で
あるスコア格納部７２に読み出し自在に格納する。

【００７２】次に、Ｓ（ｄ）において、得られた連鎖確
率のなかから最大の値の連鎖確率を与える拡張文字列を
最適拡張文字列として選択する。この場合、好ましく
は、第３メモリ領域７２に記録された拡張文字列の確率
を比較して選択する。

【００７３】そして、Ｓ（ｅ）において、最適拡張文字
列で決まる単語列の並びを含む解析結果を形態素解析結
果として出力する。この場合、必要ならば、下位の大き
さの連鎖確率に対応する拡張文字列をこの確率の大きい
方から順次出力させることも出来る。

【００７４】〔１〕第１の実施の形態例この実施の形態例では、拡張情報として単語区切り情報
のみを利用した場合につき説明する。

【００７５】図３は、この発明の第１の実施の形態例に
おける処理の流れを説明するための流れ図である。この
形態例において、形態素解析は１文すなわち改行文字で
区切られた単位の文字列を入力単位とする。また、「今
日は」（入力文字の長さｎ＝３）を入力した場合を例
に、３文字（Ｎ＝３）の部分連鎖確率を用いた処理の流
れにつき説明する。

【００７６】なお、以下の説明において、具体例の拡張
文字テーブルやスコアテーブルの図では、文字格納部と
拡張情報格納部を＜ｃ_i ，ｄ_i ＞のように表現する。

【００７７】形態素解析装置が動作を開始すると、装置
の制御部（図示せず）からの読み込み指令に応じて入出
力装置１０からテキストの文字文「今日は」が入力さ
れ、バッファメモリ４４に読み込まれる（Ｓ１）。

【００７８】次に、読み込まれたテキストの文頭および
文末に、拡張文字列生成部２２からの指令によって（Ｎ
−１）個の制御文字を文頭ｃ_-(N-1)+1，・・・，ｃ₀
に、および文末ｃ_n+1 ，・・・，ｃ_n+(N-1) に挿入する
（Ｓ２）。この例では、Ｎ＝３であるので、文頭と文末
にそれぞれｃ_-1，ｃ₀ ，とｃ₄ ，ｃ₅ の２個の制御文字
をそれぞれ挿入する。この制御文字を記号＃で示してあ
る。この制御文字が挿入された後のバッファメモリ４４
の内容例を図４の（Ａ）に示す。この例では、各文字ｃ
_-1，ｃ₀ ，・・・ｃ₅ の文字位置順にその対応する具体
的な＃，＃，「今」、「日」、「は」、＃、＃の文字が
上下に互いに対応した関係で格納してある。

【００７９】なお、この制御文字を挿入することはＮ−
ｇｒａｍ連鎖確率を求める上で周知の一般的手法であ
る。制御文字は、文頭および文末を示す特殊文字である
ので、テキスト（本文）と区別出来る記号等の文字を使
用している。この制御文字の挿入は、予め制御文字を所
要のメモリ領域に格納しておいて、バッファメモリに入
力文が読み込まれたとき、自動的に挿入するようにして
も良いし、外部からの指令により挿入しても良い。ま
た、この制御文字を挿入する理由は、以下述べる理由に
よる。通常、ｉ番目の文字ｃ_i の出現確率を推定するの
に（ｉ−Ｎ＋１）番目から（ｉ−１）番目の文字の推定
確率が必要になる。しかし、ｉがＮよりも小さい場合、
ｉの値はマイナスとなり、存在しない文字の出現確率が
得られてしまう。そこで、便宜上、（Ｎ−１）個の文字
を挿入し、ｉがＮよりも小さい場合であっても、文字ｃ
_i の出現確率を推定できるようにするために、制御文字
＃を挿入する。

【００８０】次に、読み込んだテキストから全ての可能
な拡張文字列を生成し、これらをスコアテーブル３４の
経路格納部７０に格納する（Ｓ３）。この生成処理Ｓ３
の詳細を図５に示す。

【００８１】図５は、拡張文字列生成の流れ図である。
拡張文字列生成部２２は、上述の制御文字挿入処理の終
了信号に応動してバッファメモリ４４から順次に文字ｃ
_i を読み出してきて、各文字ｃ_i に対して全ての単語区
切り情報ｄ_i を組み合わせた拡張文字を生成する（Ｓ３
０１）。なお、区切りの情報の記述には、いくつかの方
法が考えられるが、ここでは、文字位置ｉの直後で形態
素分割されている場合にはｄ_i ＝１、そうでない場合は
ｄ_i ＝０、従って、単語区切り情報ｄ_i を２値の「０」
と「１」をとるものとする。

【００８２】この場合、拡張文字として＜＃，０＞，＜
＃，０＞，＜今，０＞，＜日，０＞，＜は，０＞，＜
＃，０＞，＜＃，０＞等と、＜＃，１＞，＜＃，１＞，
＜今，１＞，＜日，１＞，＜は，１＞，＜＃，１＞，＜
＃，１＞等とが形成される。この拡張文字ｃ_i の文字の
部分を文字格納部６２に及び単語区切り情報ｄ_i を拡張
情報格納部６４に互いに対応付けて格納する。

【００８３】そして、文頭から文末までの拡張文字の組
み合わせ（経路）をスコアテーブル３４に格納する（Ｓ
３０２）。この経路としては、＜＃，０＞⇒＜＃，０＞
⇒＜今，０＞⇒＜日，０＞⇒＜は，０＞⇒＜＃，０＞⇒
＜＃，０＞経路と、＜＃，１＞⇒＜＃，１＞⇒＜今，１
＞⇒＜日，１＞⇒＜は，１＞⇒＜＃，１＞⇒＜＃，１＞
経路である。

【００８４】次に、未処理の経路があれば全ての経路を
格納するまで処理Ｓ３０２を繰り返す。未処理の経路が
なくなれば処理を終了する。

【００８５】なお、処理の高速化を図る場合には、処理
Ｓ３０２において、拡張文字テーブル作成のための訓練
コーパス（テキスト）に現れなかった拡張文字を含む拡
張文字列をスコアテーブル３４に格納しないようにすれ
ば良い。十分に大きな訓練コーパスには可能な文字と品
詞の組み合わせが全て出現していると考えられ、出現し
ていない文字と品詞の組み合わせは最初から考慮しなく
ても良いからである。

【００８６】このようにして得られた処理（Ｓ３）の結
果は、拡張文字列としてスコアテーブル３４に格納され
る。図７の（Ａ）はスコアテーブルの一例を示し、図７
の（Ｂ）はスコアテーブルの内容の一例を示す。図７の
（Ａ）において、各拡張文字ｅ_-(N-1)+1，ｅ_-(N-1)+2，
・・・，ｅ₁ ，ｅ₂ ，・・・ｅ_n ，・・・，ｅ_n+(N-1)
は、対応する文字ｃ_-(N-1)+1，ｃ_-(N-1)+2，・・・，ｃ
₁ ，ｃ₂ ，・・・ｃ_n，・・・，ｃ_n+(N-1) と拡張情報
（ここでは区切り情報）ｄ_-(N-1)+1，ｄ_-(N-1)+2，・・
・，ｄ₁ ，ｄ₂ ，・・・ｄ_n ，・・・，ｄ_n+(N-1) とが
対となって、拡張文字列の全てに対して、順次に記録さ
れる。右側の欄は連鎖確率ｐ（Ｗ，Ｔ）の欄である。図
７の（Ｂ）の具体的内容では、左欄に拡張文字列ｅ_-1，
ｅ₂ ，・・・ｅ₅ を示し入力文が「今日は」の場合の拡
張文字列の全てが、候補として、順次に、上から下へと
配列されている。その右に連鎖確率ｐ（Ｗ，Ｔ）を記す
欄が設けられている。ここでは連鎖確率の欄は空欄とな
っている。ここで、「／」を分割を示す記号とすると、
例えば図中の２行目のデータは、「／今日は／」が１単
位である場合の拡張文字列を示しており、４行目のデー
タは「／今日／は／」と分割される場合の拡張文字列を
示している。

【００８７】なお、このスコアテーブルの各データは経
路格納部７０に格納され、拡張文字ｅ_i 等は拡張文字格
納部８０に、文字ｃ_i 等は文字格納部８２に、そして拡
張情報である単語区切り情報ｄ_i 等は拡張情報格納部８
４にそれぞれ格納される。

【００８８】このように、処理Ｓ３が終了すると、次の
処理（Ｓ４）へ進む。この処理Ｓ４では、拡張文字テー
ブル３２を参照して、スコアテーブル３４から候補文字
列（各拡張文字列のこと）の連鎖確率を計算し、スコア
テーブルに格納する。

【００８９】図８の（Ａ）は、参照される拡張文字テー
ブル３２の一例を示す。この例では各拡張文字ｅ
_i-N+1 ，ｅ_i-N+2 ，・・・ｅ_i は、対応する文字ｃ
_i-N+1 ，ｃ_i-N+2 ，・・・ｃ_i と拡張情報（ここでは区
切り情報）ｄ_i-N+1 ，ｄ_i-N+2 ，・・・ｄ_i とが対とな
って、順次に，記録される。右側の欄は部分連鎖確率ｐ
（ｅ_i ）（出現確率ともいう。）の欄である。図８の
（Ｂ）は、拡張文字テーブル３２の内容の具体例を示す
図である。この例では、文字組の数ＮがＮ＝３の場合の
例を示しているので、文字位置をｉとするとき、図８の
（Ｂ）の左欄にｅ_i-2 ，ｅ_i-1 ，ｅ_i の３文字の部分拡
張文字列を示し、右欄に対応する部分拡張文字列の連鎖
確率すなわち部分連鎖確率ｐ（ｅ_i ｜ｅ_i-1 ，ｅ_i-2 ）
（出現確率ともいう。）を示している。

【００９０】図８の（Ｂ）に示すこの拡張文字テーブル
の内容によれば、例えば上から３行目のデータによれ
ば、「＜＃，１＞＜今，０＞＜日，０＞」は、文字列
「＃今」が文頭の制御文字「＃」の後ろで分割され、
「今」の後ろで分割されない場合、次の文字が「日」
で、かつ「日」の直後で分割されない確率が「０．０１
３４」であることを示している。他のデータも同様な確
率を示している。

【００９１】このような拡張文字テーブルは、事前に訓
練（学習）により作成して記憶装置３０に保存してお
く。処理対象となるテキストは、入出力装置１０を使用
して記憶装置３０に保存し、処理装置２０からの命令に
より、読み込む。拡張文字テーブル３２の参照およびス
コアテーブル３４の読み書きは、処理装置２０から記憶
装置３０をアクセスして随時実行可能である。また、こ
の拡張文字テーブル３２は、タグ付きコーパス（この場
合、単語分割されたコーパス）があれば、Ｎ−ｇｒａｍ
の数を数えることによって容易に獲得できる。また、既
存の形態素解析システムの出力結果を利用したり、人手
で作成したりしても良い。

【００９２】なお、この拡張文字テーブルの各データは
拡張文字列格納部５２に格納され、拡張文字ｅ_i 等は拡
張文字格納部６０に、文字ｃ_i 等は文字格納部６２に、
そして拡張情報である単語区切り情報ｄ_i 等は拡張情報
格納部６４にそれぞれ格納される。

【００９３】この処理（Ｓ４）のより詳細な処理の流れ
を図６に示す。この一連の処理を以下説明する。なお、
この処理は、全て処理装置２０の指令に基づいて実行さ
れる。

【００９４】処理Ｓ４０１：スコアテーブル３４から１
行目のレコード（データ）を読み込む。この場合、スコ
アテーブル３４の１行目のデータをワークエリア４０の
バッファメモリ４４に読み込む。このとき、ワークエリ
ア４０のカウンタ４２は、読み込まれて処理対象になる
文字の位置ｉを表示する。

【００９５】処理Ｓ４０２：次に、文字位置を示すカウ
ンター４２のｉを文頭にセットする（すなわち、ｉ＝１
とする）。

【００９６】処理Ｓ４０３：次に、ｅ_i-N+1 からｅ_i ま
でのＮ文字の拡張文字列を取り出す。Ｎは任意とするこ
とができるが、ここではＮ＝３とする。従って、この処
理では、バッファメモリ４４からｅ_-1からｅ₁ までの３
文字の拡張文字列（部分拡張文字列）、すなわち、「＜
＃，１＞＜＃，１＞＜今，０＞」を取り出す。

【００９７】処理Ｓ４０４：次に、取り出した拡張文字
列（部分拡張文字列）に対し、拡張文字テーブル３２を
参照して、連鎖確率を求める。この連鎖確率の計算を行
うに当たり、予め、連鎖確率計算部２４の格納部すなわ
ち第４メモリ領域９０に、既に説明した（２）式を格納
しておき、この（２）式を計算段９２に読み出し、ここ
で（２）式の計算を実行する。

【００９８】図８の（Ｂ）の拡張文字テーブルの内容に
よれば、「＜＃，１＞＜＃，１＞＜今，０＞」に対応す
る部分連鎖確率ｐ（ｅ₁ ｜ｅ₀ ｅ_-1）は１行目の「０．
０８３２」であるので、これを拡張文字テーブルから取
り出して、一旦、第４メモリ領域９０に格納しておく。

【００９９】処理４０５〜４０７：次に、計算段９２で
ｉ＝＝１（ｉと１とを比較してｉが１に等しいこと）か
どうかの判定を行って、ｉ＝＝１ならば、この計算段９
２でｐ（Ｗ，Ｔ）にｐ（ｅ_i ｜ｅ_i-1 ・・・ｅ_i-N+1 ）
をセットする（Ｓ４０６）。すなわち、ここでの例で
は、この部分連鎖確率の値を（２）式に代入してｐ（ｅ
₁ ｜ｅ₀ ｅ_-1）＝０．０８３２を得る。

【０１００】一方、ｉ！＝１ならば（ｉが１と等しくな
いとき）、（２）式に従って、ｐ（Ｗ，Ｔ）とｐ（ｅ_i
｜ｅ_i-1 ・・・ｅ_i-N+1 ）との積を求め、ｐ（Ｗ，Ｔ）
にセットする（Ｓ４０７）。

【０１０１】処理Ｓ４０８〜４１０：次に、ｉ＝＝ｎ＋
Ｎ−１かどうかの判定を行い、ｉ＝＝ｎ＋Ｎ−１なら
ば、スコアテーブル３４のスコア格納部７２にｐ（Ｗ，
Ｔ）を記録する（Ｓ４０９）。ここでの例では、上述の
ｐ（ｅ₁ ｜ｅ₀ ｅ_-1）＝０．０８３２を格納する。一
方、ｉ！＝１ならば、ｉを１だけ増やして（Ｓ４１０）
Ｓ４０３に戻る。

【０１０２】処理Ｓ４０３：この処理では、バッファメ
モリ４４からｅ_-1からｅ₂ までの３文字の拡張文字列
（部分拡張文字列）、すなわち「＜＃，１＞＜今，０＞
＜日，０＞」を取り出す。

【０１０３】処理Ｓ４０４：続いて、拡張文字テーブル
３２から「＜＃，１＞＜今，０＞＜日，０＞」の部分連
鎖確率ｐ（ｅ₂ ｜ｅ₁ ｅ₀ ）＝０．０１３４を求める。

【０１０４】処理Ｓ４０５〜４０７：次に、ｉ＝＝１か
どうかを判定し（Ｓ４０５）、この場合には、ｉ！＝１
であるので、Ｓ４０７へ進む。この処理においては、
（２）式に従って、計算段９２において、既に得られて
いるｐ（Ｗ，Ｔ）＝０．０８３２と今回得られたｐ（ｅ
₂ ｜ｅ₁ ｅ₀ ）＝０．０１３４との積を算出し、これを
新たにｐ（Ｗ，Ｔ）にセットする（Ｓ４０７）。

【０１０５】このような処理Ｓ４０３〜４０７をｉ＝＝
５になるまで繰り返し行う。

【０１０６】処理４０８：ｉ＝＝５になれば、スコアテ
ーブル３４のスコア格納部７２に連鎖確率ｐ（Ｗ，Ｔ）
を格納する（Ｓ４０９）。

【０１０７】処理Ｓ４１１：未処理のレコードがあるか
ないかを判断して、未処理のレコードがあれば処理Ｓ４
０１に戻り、以上の処理を繰り返すことにより、スコア
テーブル３４中の全ての拡張文字列の連鎖確率（同時確
率ともいう。）を求めることが出来る。未処理のレコー
ドが無ければ、この処理Ｓ４を終了する。

【０１０８】図９に、処理Ｓ４の処理終了後のスコアテ
ーブルの内容を示す。同図の左側のｅ_-1，ｅ₀ ，・・・
ｅ₅ の欄に示してある各拡張文字列に対して、上述した
（２）式に従った連鎖確率計算により求められた結果
が、各列に対応する右欄にｐ（Ｗ，Ｔ）の値としてそれ
ぞれ記録されている。この連鎖確率の値が大きいものほ
ど、それに対応する拡張文字列が最も尤もらしい形態素
区切りであると推定された最適拡張文字列である。この
処理Ｓ４の終了後、次の処理Ｓ５に進む。

【０１０９】処理（Ｓ５）：この処理では、処理部２０
の最適経路探索部２６において、このスコア格納部（第
３メモリ領域）７２に格納された連鎖確率を順次に読み
出してきて、比較を行って、最大の連鎖確率からその値
が小さい順に配列し、これら連鎖確率に対応する拡張文
字列をその大きさの順（スコア順）に配列して、順に、
出力する。従って、まず、最大の連鎖確率を与えている
文字列を単語分割が最適な文字列として入出力装置１０
の出力部から出力させる。ここでの例では、拡張情報が
単語区切り情報だけであるので、単語列として出力され
る。続いて、所要に応じて、スコアの大きい順に順次に
対応する単語列の並びが出力される。

【０１１０】ここで、この最大連鎖確率を出力する場合
の処理の流れにつき、図１３を参照して説明する。この
処理をスコア順に繰り返すことによって、ある閾値以上
をもつ単語列の並びをすべて出力することもできる。

【０１１１】まず、すべての拡張文字列に対し求めらた
連鎖確率が格納されているスコアテーブル（この第１の
実施の形態例では、図９に対応する。）から、最大の連
鎖確率を持つｅ_-(N-1)+1，・・・，ｅ_n+(N-1) につい
て、制御文字の拡張文字列の文頭ｅ_-(N-1)+1，・・・，
ｅ₀ と文末ｅ_n+1 ，・・・，ｅ_n+(N-1) を切り捨てたｅ
₁ ，・・・，ｅ_n を読み込む（Ｓ５０１）。この図９の
例では、ｅ_-1，・・・，ｅ₅ であるので、上から４行目
の＜今，０＞＜日，１＞＜は，１＞が読み込まれる。

【０１１２】ここで、カウンタ４２をｊにセットし（Ｓ
５０２）、バッファメモリ４４を初期化しておく（Ｓ５
０３）。

【０１１３】次に、カウンタ４２の文字位置ｊが入力文
字の長さｎとの比較を行って（Ｓ５０４）、長さｎに等
しくなければ、ｅ_j ＝＜ｃ_j ，ｄ_j ＞のｃ_j の値をバッ
ファメモリ４４に追加する（Ｓ５０５）。ここでの例で
は、ｃ₁ の値「今」が追加され、この状態でのバッファ
メモリ４４は、〔今〕となる。

【０１１４】次に、単語区切り情報ｄ_j が１か０かの判
定を行って（Ｓ５０６）、ｄ_j ＝１であれば、〔単語区
切り記号〕を追加する（Ｓ５０７）。この〔単語区切り
記号〕はどのような記号でも構わないが、ここでは、
「」（アンダーバー）とする。

【０１１５】なお、ｄ_j ＝０である場合には、何もしな
い。ここでの例では、ｄ₁ ＝０であるので、何もしな
い。

【０１１６】次に、カウンタ４２の文字位置ｊを１つ進
め（Ｓ５０８）、同様な処理を繰り返し行う。

【０１１７】拡張文字ｅ₂ における処理Ｓ５０８を終了
した後は、ｄ₂ が１であるため、単語区切り記号「」
が追加され、バッファメモリ４４の状態は、〔今日〕となる。そして、カウンタ４２の文字位置ｊを１つ進め
（Ｓ５０８）、次の処理Ｓ５０４に戻る。

【０１１８】Ｓ５０４において、ｅ₃ では、ｊ＝ｎ＝３
であるので、処理Ｓ５０９に進み、ｅ_n ＝＜ｃ_n ，ｄ_n
＞のｃ_nの値をバッファメモリ４４に追加する（Ｓ５０
９）。その結果、バッファメモリ４４の状態は、〔今日は〕となる。最後に、バッファメモリ４４に格納されている
値を入出力部１０によって出力し、この処理を終了す
る。

【０１１９】上述した第１の実施の形態においては、全
ての経路を試行する方法を用いたが、既に処理Ｓ３０２
に関して説明した通り、探索アルゴリズムを組み合わせ
るこにより、より高速に処理することが可能である。

【０１２０】〔２〕第２の実施の形態例次に、第２の実施の形態例につき説明する。第１の実施
の形態例が、拡張情報として単語区切り情報のみとした
ことに対し、この第２の実施の形態例では、拡張情報と
して単語区切り情報とタグ情報とを用いる点が異なる。
従って、その点に関する装置構成および動作処理が多少
異なるにすぎない。この第２の実施の形態例では、第１
の実施の形態例の場合のような形態素単位の分割だけで
はなく、拡張情報格納部に格納された任意の情報に関す
る解析結果を得ることが出来る。具体的には、タグ情報
を品詞情報とすると、分割した文字列の品詞も同時に推
定することが出来る。以下の例ではタグ情報を品詞情報
として説明する。

【０１２１】基本的には、この場合の装置構成も、図１
にブロック図で示す構成となっている。しかし、拡張文
字テーブル３２とスコアテーブル３４の構成が下記の点
で第１の実施の形態例の場合とは相違する。

【０１２２】第１の点は、第２の実施の形態例では、拡
張文字テーブル３２の上述した拡張情報格納部６４は、
単語区切り情報ｄ_i およびタグ情報ｔ_i とをそれぞれ格
納する領域を有する点である。そのため、拡張情報格納
部６４は、単語区切り情報格納部（図示せず）およびタ
グ情報格納部（図示せず）を有している。

【０１２３】従って、文字格納部６２には、文字ｃ_i を
格納し、拡張情報格納部６４には、単語区切り情報ｄ_i
とタグ情報ｔ_i とをそれぞれの格納部に個別に格納す
る。

【０１２４】第２の点は、スコアテーブル３４の上述し
た拡張文字格納部８０は、単語区切り情報ｄ_i およびタ
グ情報ｔ_i とをそれぞれ格納する領域を有する点であ
る。そのため、拡張情報格納部８４は、単語区切り情報
格納部（図示せず）およびタグ情報格納部（図示せず）
を有している。この場合のスコアテーブルおよび拡張文
字テーブルの例をそれぞれ図１０の（Ａ）および図１１
の（Ａ）に示す。これらの図において第１の実施の形態
例で説明した図７の（Ａ）および図８の（Ａ）との相違
点は、図１０の（Ａ）のスコアテーブルの場合には、文
字ｃ_i 、区切り情報ｄ_i と並べてタグ情報ｔ_i をそれぞ
れの拡張文字ｅ_i に付加してある点である（但しｉ＝１
−Ｎ＋１〜ｎ＋Ｎ−１（この場合は、Ｎ＝３なので、ｉ
＝−１〜ｎ＋２））。また、図１１の（Ａ）の拡張文字
テーブルでは、同様に、文字ｃ_i 、区切り情報ｄ_i と並
べてタグ情報ｔ_i をそれぞれの拡張文字ｅ_i に付加して
ある点である（但しｉ＝１〜Ｎ（この場合は、Ｎ＝３な
ので、ｉ＝１〜３））。

【０１２５】次に、この第２の実施の形態例の動作につ
き説明する。この場合の基本的な処理の流れは、図２で
説明した通りである。また、この第２の実施の形態例の
動作は、図３で説明した第１の実施の形態例での処理の
流れとも基本的には同一であるので、この図３を参照し
て、説明する。

【０１２６】以下の説明では、テキスト「今日」を入力
させた場合の例に、３文字の部分連鎖確率（出現確率）
を用いた処理の流れにつき具体的に説明する。なお、具
体例の拡張文字テーブル３２およびスコアテーブル３４
の図では、文字格納部６２，８２と拡張情報格納部６
４，８４の内容、すなわち、拡張文字格納部６０および
８０の内容を＜ｃ_i ，ｄ_i ，ｔ_i ＞のように表記する。

【０１２７】処理（Ｓ１）〜（Ｓ２）：第１の実施の形
態例の場合と同様である。この処理の後のバッファメモ
リ４４の内容も図４の（Ｂ）に示す通りとなる。

【０１２８】処理（Ｓ３）：読み込んだテキストから全
ての可能な拡張文字列を生成し、スコアテーブル３４の
経路格納部（第１メモリ領域）７０に格納する。この場
合、第１の実施の形態例のときと相違する点は、各文字
毎に、拡張情報として、単語区切り情報と品詞情報とを
付加する。文頭および文末の制御文字は、処理の都合上
与えられた文字であるから、拡張情報ではないが、ここ
での例では、便宜上、単語区切り情報として「１」を、
品詞情報として「＃」を付加する。その結果、得られた
スコアテーブル３４の内容を図１０の（Ｂ）に示す。例
えば、図１０の（Ｂ）の第１行目は、「今日」が単語分
割されず、すなわち、「今日」の文字列は、１つの単語
で、品詞が名詞である場合の拡張文字列を示している。

【０１２９】処理（Ｓ４）：この処理も、第１の実施の
形態例の場合と同様に行われる。図１１の（Ｂ）は、第
２の実施の形態例の場合の拡張文字テーブル３２の一例
を示している。この図においても、拡張情報格納部であ
るタグ情報格納部６４の「＃」は制御文字（記号）であ
り、例えば、図１１の（Ｂ）の上から７行目の「＜＃，
１，＃＞＜今，０，名詞＞＜日，１，名詞＞」は、文中
「＃」「今」「日」の品詞がそれぞれ制御文字、名詞、
名詞で、「＃」の直後で分割され、「今」の直後で分割
されない場合、「日」の直後で分割される確率が０．０
０４７であることを示している。

【０１３０】この拡張文字テーブル３２も、第１の実施
の形態例の場合と同様に、品詞タグつきコーパスを利用
すれば、Ｎ−ｇｒａｍの数を数えることによって容易に
獲得できる。

【０１３１】次に、図６を参照して、処理Ｓ４０１〜４
１１の処理を、第２の実施の形態例につき、具体的に説
明する。この処理も第１の実施の形態例の場合と同様に
行われるので、共通な処理等は簡単に説明する。

【０１３２】処理Ｓ４０１：図１０（Ｂ）のスコアテー
ブル３４から１行目のレコード（データ）をバッファメ
モリ４４に読み込む。

【０１３３】処理Ｓ４０２：文字位置を示すカウンタｉ
を文頭にセットする。

【０１３４】処理Ｓ４０３：バッファメモリ４４から、
ｅ_-iからｅ₁ までの３文字の拡張文字列（部分拡張文字
列）、すなわち、「＜＃，１，＃＞＜＃，１，＃＞＜
今，０，名詞＞」を取り出す。

【０１３５】処理Ｓ４０４：この処理では、図１１の
（Ｂ）の拡張文字テーブル３２を参照して、「＜＃，
１，＃＞＜＃，１，＃＞＜今，０，名詞＞」の部分連鎖
確率（出現確率）ｐ（ｅ₁ ｜ｅ₀ ｅ₂ ）＝０．００３４
を求める。

【０１３６】処理Ｓ４０５〜４０６：このとき、ｉ＝＝
１なので、連鎖確率ｐ（Ｗ，Ｔ）＝０．００３４をセッ
トして、処理Ｓ４０８へ進む。

【０１３７】処理Ｓ４０８〜４１０：ｉ！＝１なので、
ｉを１つ増やしてＳ４０４に戻る。

【０１３８】処理Ｓ４０４：図１１（Ｂ）の拡張テーブ
ル３２を参照して、「＜＃，１，＃＞＜今，０，名詞＞
＜日，１，名詞＞」の部分連鎖確率（出現確率）ｐ（ｅ
₂ ｜ｅ₁ ｅ₀ ）＝０．００４７を求める。

【０１３９】処理Ｓ４０５〜４０６：このとき、ｉ！＝
１なので、連鎖確率ｐ（Ｗ，Ｔ）とｐ（ｅ₂ ｜ｅ₁ ｅ
₀ ）との積を（２）式に従って求め（すなわち、連鎖確
率ｐ（Ｗ，Ｔ）＝ｐ（Ｗ，Ｔ）×ｐ（ｅ₂ ｜ｅ₁ ｅ
₀ ））、その結果、すなわち、ｐ（Ｗ，Ｔ）＝０．００
３４×０．００４７＝０．１５９×１０^-4をｐ（Ｗ，
Ｔ）にセットする。

【０１４０】処理４０８〜４０９：ｉ＝＝ｎ（ｎ＝＝
２）なので、ｐ（Ｗ，Ｔ）をスコアテーブル３４のスコ
ア格納部（第３メモリ領域）７２に格納する。

【０１４１】処理Ｓ４１１：未処理レコードがあるの
で、処理Ｓ４０１に戻る。

【０１４２】以上の処理を繰り返すことにより、スコア
テーブル３４内のすべての拡張文字の連鎖確率（同時確
率）を求めることができる。

【０１４３】図１２は、処理Ｓ４の終了後のスコアテー
ブル３４の内容を示す例である。この場合にも、連鎖確
率の値が大きい拡張文字列ほど、最も尤もらしい形態素
区切りであると推定された文字列である。例えば、１行
目の「＜＃，１，＃＞＜＃，１，＃＞＜今，０，名詞＞
＜日，１，名詞＞＜＃，１，＃＞＜＃，１，＃＞」の連
鎖確率が一番大きければ、これを最適拡張文字列とす
る。

【０１４４】処理（Ｓ５）：一連の処理Ｓ４が終了した
後、最適経路探索部２６により、第１の実施の形態例の
場合と同様に、スコアテーブル３４から連鎖確率（スコ
ア）の高い順に対応する拡張文字列で決まる単語列の並
びとタグ列の並びを出力する。

【０１４５】この第２の実施の形態例の場合には、この
最大連鎖確率の出力は、既に図１３を参照して第１の実
施の形態例で説明した処理と同様な処理の流れで行われ
る。しかし、この第２の実施の形態例では、第１の実施
の形態例の場合とは、処理Ｓ５０７とＳ５０９の内容が
相違するので、この処理Ｓ５０７とＳ５０９につき説明
し、その他の処理の重複説明は省略する。

【０１４６】処理Ｓ５０７：ｅ_j ＝＜ｃ_j ，ｄ_j ，ｔ
_f(j)＞において、「〔文字タグ区切り記号〕ｔ_f(j)〔単
語区切り記号〕」の値をバッファメモリ４４に追加す
る。

【０１４７】処理Ｓ５０９：ｅ_j ＝＜ｃ_j ，ｄ_j ，ｔ
_f(j)＞において、「ｃ_n 〔文字タグ区切り記号〕
ｔ_f(j)」の値をバッファメモリ４４に追加する。

【０１４８】この〔文字タグ区切り記号〕はどんな記号
でも構わないが、たとえば「／」（スラッシュ）とす
る。

【０１４９】このようにした場合、処理Ｓ５１０での出
力は、例えば、〔今日／名詞〕となる。

【０１５０】また、例えば、単語区切り文字が改行コー
ドで、文字タグ区切り情報がタブの場合に、例えば、
「今日は誕生日だ」の処理Ｓ５１０での出力は、単語区
切りのみでは〔今日〕〔は〕〔誕生日〕〔だ〕となり、タグ付きでは〔今日名詞〕〔は副助詞〕〔誕生日名詞〕〔だ助動詞〕となる。

【０１５１】以上の一連の処理が拡張文字による形態素
推定処理の流れである。

【０１５２】上述した第１および第２の実施の形態例で
は、拡張情報として単語区切り情報およびタグ情報につ
き説明したが、タグ情報の代わりにまたはこれに追加し
て、「読み」とか「活用」などの情報を付加して、これ
ら任意情報に関する形態素解析も同様に行い得る。

【０１５３】また、上述した各メモリ領域は、それぞ
れ、個別のメモリで構成してもよいし、或は１つのメモ
リの領域を分けて構成しても良い。

【０１５４】〔実験結果〕上述した第１および第２の実
施の形態例に関して、その効果を確認するための実験を
行った。その結果を以下に説明する。

【０１５５】１）実験手法１−１）第１の実施の形態例（文字−区切りモデル）訓練：文字と区切りの記号の対（ペア）をトークン（ｔ
ｏｋｅｎ）とするトライグラム（ｔｒｉｇｒａｍ（３−
ｇｒａｍ））をタグ付きコーパスから構築する。すなわ
ち、文字をその文字の後ろに区切りがあるものとないも
のの２種類に分ける。

【０１５６】解析：解析対象のすべての文字に対して、
区切り記号とペアになったものとそうでないものとの組
み合わせから文字ｔｒｉｇｒａｍの連鎖確率を最大とす
る組み合わせを解析結果（形態素分割）とする。

【０１５７】１−２）第２の実施の形態例（文字−タグ
モデル）訓練：文字と区切り記号と品詞の組をトークン（ｔｏｋ
ｅｎ）とするｔｒｉｇｒａｍをタグ付きコーパスから構
築する。

【０１５８】解析：解析対象のすべての文字に対して、
すべての可能な区切り記号と品詞の組合わせから文字ｔ
ｒｉｇｒａｍの連鎖確率を最大とするものを選ぶ、分解
された各形態素に対して、先頭の文字の組にある品詞を
その形態素の品詞とする手法（手法先頭）と、その形態
素が含む各トークンの品詞の中で多いものをその形態素
の品詞とし、同じ数の品詞がある場合は、品詞のユニグ
ラム（ｕｎｉｇｒａｍ（１−ｇｒａｍ））を使って品詞
を決める手法（手法多数決）とがある。この実験では、
後者の（手法多数決）を使用した。

【０１５９】（手法多数決）につき簡単に説明する。入
力文「いるかがいる」の最も確からしい拡張文字列が以
下のようになった場合を考える。

【０１６０】＜い，０，動詞＞＜る，０，名詞＞＜か，
１，名詞＞＜が，１，助詞＞＜い，０，動詞＞＜る，
１，副詞＞この場合、３つの単語（いるか）（が）（いる）に分割
される。すなわち＜い，０，動詞＞＜る，０，名詞＞＜か，１，名詞＞＜が，１，助詞＞＜い，０，動詞＞＜る，１，副詞＞その品詞は（が）については一意に助詞と定まるが、
（いるか）は動詞と名詞、（いる）は動詞と副詞の複数
の可能性がある。この場合、（いるか）については、候
補は動詞と名詞であるが、名詞が２個あり、動詞の１個
より多いので、名詞とする。他方、（いる）について
は、動詞と副詞の可能性があるが、どちらも１個づつで
多数決で決まらないので、訓練データでより多く出現し
た品詞である、動詞を（いる）の品詞だとして出力す
る。

【０１６１】この（手法多数決）により、例えば、ＥＤ
Ｒコーパス（（株）日本電子化辞書研究所が研究目的の
ために有償で公開しているコーパス（文献：ＥＤＲＥ
ｌｅｃｔｒｏｎｉｃＤｉｃｔｉｏｎａｒｙＶｅｒｓ
ｉｏｎＴｅｃｈｎｉｃａｌＧｕｉｄｅ，１９９５年発
行））を解析すると、次の順序で品詞の優先順位が高い
ことが分かる。すなわち、助詞、名詞、語尾、動詞、記
号、助動詞、接尾語、数字、副詞、形容動詞、形容詞、
連体詞、接続詞、接頭語、感動詞。

【０１６２】１−３）従来技術（ワード−タグモデル）従来の辞書とタグの連鎖確率を用いた手法である。訓練
データより辞書の品詞のｔｒｉｇｒａｍを構築する。た
だし、未知語処理の機能を加えていないため、テストデ
ータの中に訓練データにない単語が現れると解析不能に
なる場合がある。今回の実験では、解析不能を回避する
ために、クローズ（ｃｌｏｓｅ）実験のみを行った。

【０１６３】２）訓練およびテストデータ以下に、実験で用いたコーパスと実験条件の概略を期
す。各コーパスごとの見出し（名前）は以下の実験で用
いたコーパスを参照するために用いられる。

【０１６４】２−１）ＥＤＲ：品詞情報１５個訓練：ＥＤＲのコーパス約２０万文（１９７７４４文）テスト：オープン（ｏｐｅｎ）；訓練データに含まれない１０００文クローズ（ｃｌｏｅ）；訓練データにテスト用の１０００文を加える。

【０１６５】２−２）ＡＤＤ：品詞情報は活用形や活用型を入れた１２０種類のタグ訓練：ＡＴＲ対話データベース（旅行、電話対話）８，８２１文（（株）エイ・ティ・アール音声翻訳通信研究所が研究目的のために有償で公開しているコーパス）（文献：ＡＴＲ対話データベースの内容．ＡＴＲＴｅｃｈｎｉｃａｌｒｅｐｏｒｔ，ＴＲ−Ｉ−０１８６，１９９０年発行）（以下、ＡＤＤと称する。）テスト：オープン；訓練データに含まれない５００文クローズ；訓練データに上記のテスト用の５００文を加える。

【０１６６】３）連鎖確率推定上記タグ付きコーパスの訓練データから拡張文字列を生
成し、拡張文字のｔｒｉｇｒａｍ（３−ｇｒａｍ）を求
めた。また、この確率はｂｉｇｒａｍ（２−ｇｒａ
ｍ），ｕｎｉｇｒａｍ（１−ｇｒａｍ）によってスムー
ジングされている。

【０１６７】４）評価尺度以下の説明では、評価尺度として、正解に対する適合率
（ｐｒｅｃｉｓｉｏｎ）と再現率（ｒｅｃａｌｌ）を用
いる。それぞれの尺度は以下のように定義される。

【０１６８】適合率：システムが出力した正解形態素数／システムが
出力した形態素数再現率：システムが出力した正解形態素数／テスト文の
正解形態素数。

【０１６９】５）実験結果５−１）解析性能についてａ：第１の実施の形態例（ＣＨＡＲ−ＢＯＵＮＤ）（単
語分割性能）この実験では、各種手法の単語分割に関する基本的な性
能の違いを見るために、各種手法とコーパスを組み合わ
せた実験を行った。オープン（ｏｐｅｎ）実験とクロー
ズ（ｃｌｏｓｅ）実験のそれぞれについて適合率と再現
率を図１４に示す。

【０１７０】今回の実験における従来法の実験では、未
知語に対処する機構を入れることが出来なかった。この
ため、オープン（ｏｐｅｎ）の実験において辞書にない
単語があると（ＥＤＲで１０００文中約７０個の単
語）、従来法では解析不能となる場合があったため、ク
ローズ（ｃｌｏｓｅ）の実験のみを行った。以下、この
発明と従来法との比較はクローズ（ｃｌｏｓｅ）の実験
結果で行う。

【０１７１】図１４の単語分割の性能評価の結果は、上
段が適合率（％）で、下段が再現率（％）である。この
発明での適合率（％）は、ＡＤＤでは９９．７７でＥＤ
Ｒでは９７．８０であるのでＡＤＤの方がＥＤＲよりも
良い。従来法での適合率（％）は、ＥＤＲの場合には９
５．６５、ＡＤＤの場合には９９．５２であるので、い
ずれにしても適合率（％）はこの発明の方法の方が優れ
ていることが分かる。一方、この発明での再現率（％）
は、ＥＤＲでは９７．４４、ＡＤＤでは９９．６７であ
るのでＡＤＤの方が良い。従来法での再現率（％）は、
ＥＤＲでは９１．７８、ＡＤＤでは９９．２７であるの
で、いずれにしてもこの発明の方法の方が優れているこ
とが分かる。

【０１７２】上述の結果から理解できるように、ＥＤＲ
における従来法では適合率および再現率ともに悪いが、
これはＥＤＲコーパスに１５種類の品詞しかないため、
品詞のｔｒｉｇｒａｍが十分な言語モデル能力を持たな
いためである。それは、ＡＤＤの１２０種類の品詞を用
いると結果が改善されていることからも理解出来る。

【０１７３】この発明の第１の実施の形態による手法で
は、ＥＤＲコーパスに関してはＡＤＤコーパスに比べて
若干悪いが、比較的安定して良い結果を出している。こ
れは品詞だけでなく文字とタグのペアの連鎖確率を使用
していることに起因していると考えられる。

【０１７４】なお、ＥＤＲコーパスの解析に対して視察
した結果、誤りの大部分は、コーパス自体の揺れに起因
していることが分かった。例えば、名詞連続などを細か
く切るか、大まかに切るかがかなり揺れている。

【０１７５】ｂ：第２の実施の形態例（ＣＨＡＲ−ＴＡ
Ｇ）（単語分割と品詞推定の性能）この実験では、各種手法の単語分割と品詞推定に関する
基本的な性能の違いを見る実験を行った。その結果を図
１５に品詞分割の性能評価として示す。この図におい
て、上段が適合率（％）であり、下段が再現率（％）で
ある。なお、第２の実施の形態例の単語分割の性能評価
は図１４に示してある。

【０１７６】図１４に示した単語分割の結果では、適合
率（％）は、ＥＤＲでは９８．２５、ＡＤＤでは９９．
９７であり、また、再現率（％）は、ＥＤＲでは９７．
８８、ＡＤＤでは９９．８２である。これに対し、図１
５に示した品詞分割の性能評価の結果では、適合率
（％）は、ＥＤＲでは９７．４２、ＡＤＤでは９９．７
７であり、また、再現率（％）は、ＥＤＲでは９７．０
６、ＡＤＤでは９９．６１である。また、従来手法によ
る品詞分割の性能評価結果によれば、適合率（％）は、
ＥＤＲでは９２．５５、ＡＤＤでは９７．８２であり、
また、再現率（％）は、ＥＤＲでは８８．８０、ＡＤＤ
では９７．５２である。

【０１７７】これらの結果から、単語分割と比べると、
拡張文字を使用する方法は、適合率および再現率がおお
よそ１〜２％程度低下していることが分かる。

【０１７８】これに対し、従来法では、適合率および再
現率が２〜３％程度低下している。オープン（ｏｐｅ
ｎ）実験では、さらに３％程度低下している。

【０１７９】従来法では辞書を使うので、（未知語がな
ければ）単語分割に関してはかなり強力ではあるが、品
詞の推定に関しては、拡張文字を使うこの発明の手法の
方がロバスト性に優れていると言える。言い換えれば、
従来法では、単語に直接関係ある確率は、かなり大きな
コーパスを用いても正確に推定するのが困難であると言
える。

【０１８０】５−２）解析速度について図１６に各手法における解析速度の結果を示す。この実
験では、ＥＤＲテスト文（１０００文，３８６０１文
字）の解析にかかった時間すなわち実行時間を示してあ
る。第１および第２の実施の形態におけるそれぞれの手
法で解析した場合、ＥＤＲでは、それぞれ、３秒および
６６５秒であった。この結果から、品詞推定を行うと著
しく遅くなるが、単語分割のみでは極めて高速であるこ
とが分かる。

【０１８１】なお、実験に使用した計算機の性能は、Ｓ
ｕｎＵｌｔｒａ−１１４０ＭＨｚ，ＯＳ：Ｓｏｌａｒ
ｉｓ２．５，メインメモリ：９６Ｍバイト，ハードディ
スク：３Ｇバイトである。

【０１８２】

【発明の効果】上述した説明からも明らかなように、こ
の発明の日本語形態素解析方法および装置によれば、下
記の効果を奏することができる。すなわち、ａ）この発明では、単語ではなく、文字をベースにして
確率計算を行う。文字の長さは、１文において一定であ
るため、分割数が少ない形態素列（各形態素列は長い）
が優先されるということがない。従って、従来方法に比
べて、高精度で語分割を行うことが可能となる（上記５
−１）ａ参照）。

【０１８３】ｂ）この発明では、文字Ｎ−ｇｒａｍが辞
書情報をもっていると考えられるので、辞書を必要とし
ない。このため、辞書作成のための煩雑な作業を省略出
来る。例えば、「いとしい／人」という文が訓練データ
に存在する場合、＜＃，１＞＜＃，１＞＜い，０＞＜と，０＞＜し，０＞
＜い，１＞＜人，１＞＜＃，１＞＜＃，１＞という拡張文字テーブルができ、３文字づつとって（３
−ｇｒａｍ），その語分割情報を見ると、＜＃，１＞＜＃，１＞＜い，０＞ ←→ い＜＃，１＞＜い，０＞＜と，０＞ ←→ いと＜い，０＞＜と，０＞＜し，０＞ ←→ いとし＜と，０＞＜し，０＞＜い，１＞ ←→ いとしい／＜し，０＞＜い，１＞＜人，１＞ ←→ いとしい／人／＜い，１＞＜人，１＞＜＃，１＞ ←→ いとしい／人／＃＜人，１＞＜＃，１＞＜＃，１＞というように、「いとしい」と「人」と言う単語を正確
に取り出すことが出来る（これは、２−ｇｒａｍでも１
−ｇｒａｍでも同様にして、単語取り出しが出来
る。）。

【０１８４】また、同時に連鎖確率を計算することによ
って、「いとしい人」がこの２つの形態素に分割される
場合の「よさ」を評価出来る。

【０１８５】ｃ）この発明では、拡張文字の連鎖確率を
求めて最適な単語列の並びを決定している。この拡張文
字の連鎖確率が日本語の単語の一般的な単語モデルをも
っているため、辞書を利用する従来方法に比べて未知語
に対する形態素解析が精度良く行える。

【０１８６】ｄ）さらに、この発明では辞書を必要とし
ないので、品詞等のタグ情報を利用しなくても、語分割
の情報のみで解析出来るという利点がある。この場合、
極めて高速かつ省資源の処理を行える。

【０１８７】ｅ）さらに、拡張情報として、単語区切り
情報の他にタグ情報を付加する場合には、上述のａ）〜
ｄ）に加えて、語分割だけでなく品詞推定も従来に比べ
て高精度および高速で行うことが出来る（上記５−１）
ｂ参照）。例えば、従来法では、候補としての単語列・
品詞列のよさを推定するために品詞の連鎖確率を用いて
いる。しかし、品詞の数はそれほど多くなく、また、タ
グ付きコーパスに付与してある品詞しか使えないため、
単語列の連鎖のよさの表現（評価）能力に限界がある。
もし、品詞の数を極端に多くすると、よりきめ細かく単
語列のよさの評価ができるが、そのようなコーパスを開
発することは至難である。これに比べて、この発明の手
法では、品詞と文字のペアの連鎖を使用するので、たと
えコーパス中に付与してある品詞の数が少なくても、文
字の情報を援用した連鎖で単語列をモデル化するので、
はるかにきめ細かく（各文字ごとの品詞の出現回数を考
慮した）単語列のよさを評価できる。このため、文字列
の分割である単語列候補と、その単語列に付与される品
詞列候補を、使われている文字の傾向まで考慮に入れた
比較が、可能となる。

【０１８８】ｆ）さらに、拡張情報として、タグ情報の
他、任意の情報（例えば「読み」の情報や「活用」の情
報）を付加することにより、上述のａ）〜ｄ）に加え
て、これらに関する解析結果を得ることが出来る。

【０１８９】上述した効果は、日本語以外の言語、特に
韓国語、中国語、タイ語等の、日本語と同様に単語区切
りが無い書法を持つ言語に対しても、得られると期待さ
れる。

【図面の簡単な説明】

【図１】この発明の形態素解析方法および装置の説明に
供する、装置構成の一例のブロック図である。

【図２】この発明の形態素解析方法を実行する処理の基
本的流れ図である。

【図３】実施の形態例の処理の流れ図である。

【図４】バッファメモリに格納されるデータの内容を説
明するための、バッファの内容を示す図であり、（Ａ）
は第１の実施の形態例におけるバッファの内容、（Ｂ）
は第２の実施の形態例におけるバッファの内容である。

【図５】拡張文字列生成の流れ図である。

【図６】連鎖確率を計算する処理の流れ図である。

【図７】第１の実施の形態例におけるスコアテーブルの
説明図であり、（Ａ）は第１の実施の形態例におけるス
コアテーブルの一例を示す図、（Ｂ）はそのスコアテー
ブルの内容の一例を示す図である。

【図８】第１の実施の形態例における、参照される拡張
文字テーブルの説明図であり、（Ａ）は第１の実施の形
態例における拡張文字テーブルの一例を示す図、（Ｂ）
はその拡張文字テーブルの内容の一例を示す図である。

【図９】第１の実施の形態例における、処理Ｓ４の終了
後のスコアテーブルの内容を説明するための図である。

【図１０】第２の実施の形態例におけるスコアテーブル
の説明図であり、（Ａ）は第２の実施の形態例における
スコアテーブルの一例を示す図、（Ｂ）はそのスコアテ
ーブルの内容の一例を示す図である。

【図１１】第２の実施の形態例における、参照される拡
張文字テーブルの説明図であり、（Ａ）は第２の実施の
形態例における拡張文字テーブルの一例を示す図、
（Ｂ）はその拡張文字テーブルの内容の一例を示す図で
ある。

【図１２】第２の実施の形態例における、処理Ｓ４の終
了後のスコアテーブルの内容を説明するための図であ
る。

【図１３】最大連鎖確率の出力の処理の流れ図である。

【図１４】この発明の形態素解析方法および装置の単語
分割の性能評価を示す図である。

【図１５】この発明の形態素解析方法および装置の品詞
分割の性能評価を示す図である。

【図１６】この発明の形態素解析処理の実行時間を説明
するための図である。

【符号の説明】

１０：入出力装置２０：処理装置２２：拡張文字列生成部２４：連鎖確率計算部２６：最適経路探索部３０：記憶装置３２：拡張文字テーブル３４：スコアテーブル４０：ワークエリア４２：カウンタ４４バッファメモリ５０：第２メモリ領域５２：拡張文字列格納部５４：部分連鎖確率格納部６０，８０：拡張文字格納部６２，８２：文字格納部６４，８４：拡張情報格納部７０：第１メモリ領域（経路格納部）７２：第３メモリ領域（スコア格納部）９０：第４メモリ領域９２：計算段

─────────────────────────────────────────────────────

【手続補正書】

【提出日】平成１０年２月６日

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】請求項１

【補正方法】変更

【補正内容】

───────────────────────────────────────────────────── フロントページの続き (72)発明者北村美穂子東京都港区虎ノ門１丁目７番12号沖電気工業株式会社内 (72)発明者下畑さより東京都港区虎ノ門１丁目７番12号沖電気工業株式会社内

Claims

【特許請求の範囲】

【請求項１】言語テキストが入力文として与えられ
て、該入力文を構成する単語列を出力する日本語形態素
解析方法において、各文字の直後が単語境界であるかな
いかの全ての組み合わせの中からもっとも確からしい単
語列の並びを出力することを特徴とする形態素解析方
法。
【請求項２】（ａ）言語テキストを入力文として読み
込むステップと、（ｂ）前記入力文の入力文字列の文字毎に、少なくとも
単語区切り情報を含む拡張情報を付加して拡張文字を形
成し、該拡張文字を用いて前記入力文字列に関する全て
の拡張文字列を生成するステップと、（ｃ）生成された全ての前記拡張文字列の連鎖確率を求
めるステップと、（ｄ）得られた連鎖確率のなかから最大の値の連鎖確率
を与える拡張文字列を最適拡張文字列として選択するス
テップと、（ｅ）該最適拡張文字列で決まる単語列の並びを含む解
析結果を形態素解析結果として出力するステップとを含
むことを特徴とする形態素解析方法。
【請求項３】請求項２に記載の形態素解析方法におい
て、前記入力文の文頭および文末に制御文字を追加して
前記入力文字列を形成すること特徴とする形態素解析方
法。
【請求項４】請求項２に記載の形態素解析方法におい
て、前記拡張情報にタグ情報を含ませて前記形態素解析
結果にタグ列の並びを含ませたことを特徴とする形態素
解析方法。
【請求項５】請求項２に記載の形態素解析方法におい
て、前記拡張情報に前記単語区切り情報およびタグ情報
以外の読み情報や活用形情報その他のいずれかの任意情
報を含ませて前記形態素解析結果に任意情報に関する解
析結果を含ませたことを特徴とする形態素解析方法。
【請求項６】請求項２に記載の形態素解析方法におい
て、前記単語区切り情報は、前記入力文字列の各文字の
直後に付加することを特徴とする形態素解析方法。
【請求項７】請求項４に記載の形態素解析方法におい
て、前記単語区切り情報は、前記入力文字列の各文字の
直後に付加し、および前記タグ情報は、前記単語区切り
情報の直後に付加することを特徴とする形態素解析方
法。
【請求項８】請求項２に記載の形態素解析方法におい
て、前記（ａ）ステップにおいて、前記入力文をバッファメ
モリに読み出し自在に格納するサブステップを含み、前記（ｂ）ステップにおいて、前記入力文字列を前記バ
ッファメモリから読み出しするサブステップ、および前
記拡張文字列を第１メモリ領域に読み出し自在に格納す
るサブステップを含み、前記（ｃ）ステップにおいて、前記拡張文字列を構成す
る順次の一定文字数からなる部分拡張文字列のそれぞれ
に対応する部分連鎖確率を予め学習により求めて第２メ
モリ領域に読み出し自在に格納しておくサブステップ、
前記第１メモリ領域から読み出したそれぞれの拡張文字
列毎に、該拡張文字列を構成する全ての部分連鎖確率を
前記第２メモリ領域から読み出してきてその積を前記連
鎖確率としてそれぞれ求めるサブステップ、およびこれ
ら連鎖確率を第３メモリ領域に読み出し自在に格納する
サブステップを含むことを特徴とする形態素解析方法。
【請求項９】請求項２に記載の形態素解析方法におい
て、前記単語区切り情報を、当該単語区切り情報が付加
された文字の文字位置の直後で形態素分割が生じている
か否かを表す２値情報としたことを特徴とする形態素解
析方法。
【請求項１０】（ａ）言語テキストを入力文として読
み込んで該入力文の入力文字列の文字毎に、少なくとも
単語区切り情報を含む拡張情報を付加して拡張文字を形
成し、該拡張文字を用いて前記入力文字列に関する全て
の拡張文字列を生成する拡張文字列生成部と、（ｂ）生成された全ての前記拡張文字列の連鎖確率を求
める連鎖確率計算部と、（ｃ）得られた連鎖確率のなかから最大の値の連鎖確率
を与える拡張文字列を最適拡張文字列として選択し、該
最適拡張文字列に対応する、単語列の並びを含む解析結
果を形態素解析結果として出力する最適経路探索部とを
含むことを特徴とする形態素解析装置。
【請求項１１】請求項１０に記載の形態素解析装置に
おいて、前記拡張文字列生成部は、前記入力文の文頭お
よび文末に制御文字を追加して前記入力文字列を形成す
る制御文字追加手段を含むことを特徴とする形態素解析
装置。
【請求項１２】請求項１０に記載の形態素解析装置に
おいて、前記拡張情報はタグ情報を含み、および前記形
態素解析結果はタグ列の並びを含むことを特徴とする形
態素解析装置。
【請求項１３】請求項１０に記載の形態素解析装置に
おいて、前記拡張情報は前記単語区切り情報とタグ情報
の両情報以外の読み情報や活用形情報その他のいずれか
の任意情報を含み、および前記形態素解析結果は任意情
報に関する解析結果を含むことを特徴とする形態素解析
装置。
【請求項１４】請求項１０に記載の形態素解析装置に
おいて、前記単語区切り情報は、前記入力文字列の各文
字の直後に付加してあることを特徴とする形態素解析装
置。
【請求項１５】請求項１２に記載の形態素解析装置に
おいて、前記単語区切り情報は、前記入力文字列の各文
字の直後に付加してあり、および前記タグ情報は、前記
単語区切り情報の直後に付加してあることを特徴とする
形態素解析装置。
【請求項１６】請求項１０に記載の形態素解析装置に
おいて、前記入力文を格納して該入力文を前記拡張文字列生成部
へ読み出し出来るバッファメモリと、前記拡張文字列を格納して該拡張文字列を前記連鎖確率
計算部へ読み出し出来る第１メモリ領域と、前記拡張文字列を構成する順次の一定文字数からなる部
分拡張文字列のそれぞれに対応する、学習により求めら
れた部分連鎖確率を、予め、格納していて該部分連鎖確
率を前記連鎖確率計算部へ読み出し出来る第２メモリ領
域と、前記連鎖確率を格納して該連鎖確率を前記最適経路探索
部へ読み出し出来る第３メモリ領域とを具え、さらに前
記連鎖確率計算部は、前記第１メモリ領域から読み出し
たそれぞれの拡張文字列毎に、該拡張文字列を構成する
全ての部分連鎖確率を前記第２メモリ領域から読み出し
てきてその積を前記連鎖確率としてそれぞれ求める計算
段を含むことを特徴とする形態素解析装置。
【請求項１７】請求項１０に記載の形態素解析装置に
おいて、前記バッファメモリは、前記拡張文字列生成部
によって前記入力文の文頭および文末に制御文字を追加
して形成された前記入力文字列を該拡張文字列生成部へ
読み出し自在に格納することを特徴とする形態素解析装
置。
【請求項１８】請求項１０に記載の形態素解析装置に
おいて、前記単語区切り情報を、当該単語区切り情報が
付加された文字の文字位置の直後で形態素分割が生じて
いるか否かを表す２値情報としたことを特徴とする形態
素解析装置。
【請求項１９】日本語テキストが入力文として与えら
れて、該入力文を構成する単語列を出力する日本語形態
素解析方法において、各文字の直後が単語境界であるか
ないかの全ての組み合わせの中からもっとも確からしい
単語列の並びを出力することを特徴とする日本語形態素
解析方法。
【請求項２０】（ａ）日本語テキストを入力文として
読み込むステップと、（ｂ）前記入力文の入力文字列の文字毎に、少なくとも
単語区切り情報を含む拡張情報を付加して拡張文字を形
成し、該拡張文字を用いて前記入力文字列に関する全て
の拡張文字列を生成するステップと、（ｃ）生成された全ての前記拡張文字列の連鎖確率を求
めるステップと、（ｄ）得られた連鎖確率のなかから最大の値の連鎖確率
を与える拡張文字列を最適拡張文字列として選択するス
テップと、（ｅ）該最適拡張文字列で決まる単語列の並びを含む解
析結果を形態素解析結果として出力するステップとを含
むことを特徴とする日本語形態素解析方法。
【請求項２１】請求項２０に記載の日本語形態素解析
方法において、前記入力文の文頭および文末に制御文字
を追加して前記入力文字列を形成すること特徴とする日
本語形態素解析方法。
【請求項２２】請求項２０に記載の日本語形態素解析
方法において、前記拡張情報にタグ情報を含ませて前記
形態素解析結果にタグ列の並びを含ませたことを特徴と
する日本語形態素解析方法。
【請求項２３】請求項２０に記載の日本語形態素解析
方法において、前記拡張情報に前記単語区切り情報およ
びタグ情報以外の読み情報や活用形情報その他のいずれ
かの任意情報を含ませて前記形態素解析結果に任意情報
に関する解析結果を含ませたことを特徴とする日本語形
態素解析方法。
【請求項２４】請求項２０に記載の日本語形態素解析
方法において、前記単語区切り情報は、前記入力文字列
の各文字の直後に付加することを特徴とする日本語形態
素解析方法。
【請求項２５】請求項２２に記載の日本語形態素解析
方法において、前記単語区切り情報は、前記入力文字列
の各文字の直後に付加し、および前記タグ情報は、前記
単語区切り情報の直後に付加することを特徴とする日本
語形態素解析方法。
【請求項２６】請求項２０に記載の日本語形態素解析
方法において、前記（ａ）ステップにおいて、前記入力文をバッファメ
モリに読み出し自在に格納するサブステップを含み、前記（ｂ）ステップにおいて、前記入力文字列を前記バ
ッファメモリから読み出しするサブステップ、および前
記拡張文字列を第１メモリ領域に読み出し自在に格納す
るサブステップを含み、前記（ｃ）ステップにおいて、前記拡張文字列を構成す
る順次の一定文字数からなる部分拡張文字列のそれぞれ
に対応する部分連鎖確率を予め学習により求めて第２メ
モリ領域に読み出し自在に格納しておくサブステップ、
前記第１メモリ領域から読み出したそれぞれの拡張文字
列毎に、該拡張文字列を構成する全ての部分連鎖確率を
前記第２メモリ領域から読み出してきてその積を前記連
鎖確率としてそれぞれ求めるサブステップ、およびこれ
ら連鎖確率を第３メモリ領域に読み出し自在に格納する
サブステップを含むことを特徴とする日本語形態素解析
方法。
【請求項２７】請求項２０に記載の日本語形態素解析
方法において、前記単語区切り情報を、当該単語区切り
情報が付加された文字の文字位置の直後で形態素分割が
生じているか否かを表す２値情報としたことを特徴とす
る日本語形態素解析方法。
【請求項２８】（ａ）日本語テキストを入力文として
読み込んで該入力文の入力文字列の文字毎に、少なくと
も単語区切り情報を含む拡張情報を付加して拡張文字を
形成し、該拡張文字を用いて前記入力文字列に関する全
ての拡張文字列を生成する拡張文字列生成部と、（ｂ）生成された全ての前記拡張文字列の連鎖確率を求
める連鎖確率計算部と、（ｃ）得られた連鎖確率のなかから最大の値の連鎖確率
を与える拡張文字列を最適拡張文字列として選択し、該
最適拡張文字列に対応する、単語列の並びを含む解析結
果を形態素解析結果として出力する最適経路探索部とを
含むことを特徴とする日本語形態素解析装置。
【請求項２９】請求項２８に記載の日本語形態素解析
装置において、前記拡張文字列生成部は、前記入力文の
文頭および文末に制御文字を追加して前記入力文字列を
形成する制御文字追加手段を含むことを特徴とする日本
語形態素解析装置。
【請求項３０】請求項２８に記載の日本語形態素解析
装置において、前記拡張情報はタグ情報を含み、および
前記形態素解析結果はタグ列の並びを含むことを特徴と
する日本語形態素解析装置。
【請求項３１】請求項２８に記載の日本語形態素解析
装置において、前記拡張情報は前記単語区切り情報とタ
グ情報の両情報以外の読み情報や活用形情報その他のい
ずれかの任意情報を含み、および前記形態素解析結果は
任意情報に関する解析結果を含むことを特徴とする日本
語形態素解析装置。
【請求項３２】請求項２８に記載の日本語形態素解析
装置において、前記単語区切り情報は、前記入力文字列
の各文字の直後に付加してあることを特徴とする日本語
形態素解析装置。
【請求項３３】請求項３０に記載の日本語形態素解析
装置において、前記単語区切り情報は、前記入力文字列
の各文字の直後に付加してあり、および前記タグ情報
は、前記単語区切り情報の直後に付加してあることを特
徴とする日本語形態素解析装置。
【請求項３４】請求項２８に記載の日本語形態素解析
装置において、前記入力文を格納して該入力文を前記拡張文字列生成部
へ読み出し出来るバッファメモリと、前記拡張文字列を格納して該拡張文字列を前記連鎖確率
計算部へ読み出し出来る第１メモリ領域と、前記拡張文字列を構成する順次の一定文字数からなる部
分拡張文字列のそれぞれに対応する、学習により求めら
れた部分連鎖確率を、予め、格納していて該部分連鎖確
率を前記連鎖確率計算部へ読み出し出来る第２メモリ領
域と、前記連鎖確率を格納して該連鎖確率を前記最適経路探索
部へ読み出し出来る第３メモリ領域とを具え、さらに前
記連鎖確率計算部は、前記第１メモリ領域から読み出し
たそれぞれの拡張文字列毎に、該拡張文字列を構成する
全ての部分連鎖確率を前記第２メモリ領域から読み出し
てきてその積を前記連鎖確率としてそれぞれ求める計算
段を含むことを特徴とする日本語形態素解析装置。
【請求項３５】請求項２８に記載の日本語形態素解析
装置において、前記バッファメモリは、前記拡張文字列
生成部によって前記入力文の文頭および文末に制御文字
を追加して形成された前記入力文字列を該拡張文字列生
成部へ読み出し自在に格納することを特徴とする日本語
形態素解析装置。
【請求項３６】請求項２８に記載の日本語形態素解析
装置において、前記単語区切り情報を、当該単語区切り
情報が付加された文字の文字位置の直後で形態素分割が
生じているか否かを表す２値情報としたことを特徴とす
る日本語形態素解析装置。