JPH10326275A - 形態素解析方法および装置、並びに日本語形態素解析方法および装置 - Google Patents

形態素解析方法および装置、並びに日本語形態素解析方法および装置

Info

Publication number
JPH10326275A
JPH10326275A JP10021929A JP2192998A JPH10326275A JP H10326275 A JPH10326275 A JP H10326275A JP 10021929 A JP10021929 A JP 10021929A JP 2192998 A JP2192998 A JP 2192998A JP H10326275 A JPH10326275 A JP H10326275A
Authority
JP
Japan
Prior art keywords
extended
information
character string
character
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10021929A
Other languages
English (en)
Other versions
JP3992348B2 (ja
Inventor
Mikio Yamamoto
幹雄 山本
Hideki Yamamoto
秀樹 山本
Mihoko Kitamura
美穂子 北村
Sayori Shimohata
さより 下畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP02192998A priority Critical patent/JP3992348B2/ja
Priority to US09/044,137 priority patent/US6098035A/en
Publication of JPH10326275A publication Critical patent/JPH10326275A/ja
Application granted granted Critical
Publication of JP3992348B2 publication Critical patent/JP3992348B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 未知語があっても、高精度で高速に処理出
来、しかも、省資源化を図ること。 【解決手段】 入力文の各文字ci に、単語区切り情報
i の他にタグ情報等の所要の任意情報を含む拡張情報
を付加して拡張文字ei を生成して、可能な全ての拡張
文字列を生成する。予め、訓練により、N−gram
(通常、N=1か2か3)の文字列の部分連鎖確率(出
現確率)を拡張文字テーブルに格納しておく。拡張文字
列の部分文字列を、拡張文字列の文頭から順次に取り出
して、それぞれの部分連鎖確率を拡張文字テーブルを参
照して求め、求めた部分連鎖確率の積を求める。この積
を、全ての拡張文字列に対して求め、その積の大きいも
のに対応する文字列の順に、単語列の並びの他、タグ列
の並びや任意情報の解析結果等を形態素解析結果として
出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、形態素解析、特
に確率的手法を利用することによって、辞書を用いるこ
となく、電子化された言語テキストを形態素解析する方
法および装置に関する。
【0002】
【従来の技術】言語処理における形態素解析処理は重要
であり、日本語処理における形態素解析処理も、構文解
析処理などのそれ以降の処理にとってきわめて重要であ
る。特に、ワードプロセッサによるテキスト作成の普
及、インターネットの普及により大量の電子化された日
本語テキストが容易に入手可能となっている。ワードプ
ロセッサその他のコンピュータ装置でこれらテキストを
検索、構成、比較、分類、要約等の処理を行うために
は、単語や句等の文中の意味単位を切り出すこと、すな
わち、形態素解析が正しく行われることが大前提であ
る。この形態素解析を誤ると、後段での構文解析処理や
意味解析処理等においてその誤りを修復することが困難
である。たとえその修復が可能であったとして、その処
理は複雑化し、従って、大量のテキストを期待された時
間内に処理することが出来なくなってしまう。形態素解
析処理においては、英語などの単語区切り記号として空
白を使用するという正書法が備わっている言語テキスト
と比べると、単語区切りが無い日本語等の言語は品詞の
推定とともに、単語分割が高精度でかつ高速で行えるか
どうかが大きな課題となる。
【0003】また、韓国語、中国語、タイ語等の、日本
語と同様に単語区切りが無い書法をもつ言語も上述した
と同様な課題を有している。
【0004】単語が単語区切り(スペース)によって分
かれており、品詞等のタグを単語に与えるだけでよい英
語の形態素解析手法においては、大きなテキストから品
詞やその配列であるタグ系列の確率モデルを推定し、さ
らに、例に基づく誤り訂正を加えた手法が確立してい
る。一方、日本語においても、この英語に対する手法を
応用した例がいくつか提案されている。確率モデルを用
いた一例として、日本電信電話株式会社から出願された
文献I:「特開平8−315078号」で提案された
「日本語文字認識方法及び装置」がある。
【0005】
【発明が解決しようとする課題】確率モデルによって最
適な形態素解析結果を求めるためには、周知の通り、あ
る文において、形態素列と各形態素に付与されたタグ列
の同時確率を最大にするような形態素列およびタグ列を
求めれば良い。なお、同時確率とは、ある形態素候補と
あるタグ列候補とが同時に起こるときの確率である。英
語においては単語区切りが分かっているため、形態素列
は一定となり、最適なタグ列を推定する。しかし、日本
語や韓国語、中国語、タイ語等の分かち書きをしない言
語では、単語区切りがはっきりしていないので、可能性
のあるすべての単語区切りにおける単語列に対してその
確率を比較せねばならない。しかし、それぞれの単語列
はその単語区切りの違いによって単語列の長さが異なる
ため、この長さの異なる単語列を比較するために、長さ
に関する条件が近似として含まれてしまう。
【0006】この点につき、以下、日本語を例に挙げ
て、簡単に説明する。形態素解析とは、ある入力文に対
して、入力文字列の最適な形態素列Wとタグ列Tを求め
ることである。これは、形態素列Wとタグ列Tの同時確
率p(W,T)を最大化する連鎖確率モデルを選択する
ことにより実現出来る。一般には、以下の式(1)の連
鎖確率モデルが用いられている(文献I参照)。なお、
連鎖確率とは、あるn個(nは任意の数)の文字が連続
して出現する確率をいう。
【0007】
【数1】
【0008】ここで、iは文字位置、wi は形態素列中
の文字位置iでの形態素、ti はタグ列中の文字位置i
でのタグ、Nは参照する文字組の数で通常はN=1また
は2または3である。length(W)は入力単語列
の長さ、すなわち、入力文の構成単語数である。
【0009】この(1)式で表される連鎖確率モデル
を、以下、品詞N−gramモデルと呼ぶ。この(1)
式では、入力形態素列の長さlength(W)による
条件が入っているので、正確には、(1)式のp(W,
T)にはlength(W)に関する近似が含まれる。
英語の場合は、形態素列の長さは固定であるため、最大
確率のp(W,T)を求める場合に問題はない。しか
し、日本語の場合には、形態素の区切りが分からないた
め、入力文の文字列と辞書を使って、形態素のネットワ
ーク(半順序関係を構成する。)を得た後、この半順序
構造中のすべてのパスの確率を品詞N−gramモデル
で計算する必要がある。この場合、日本語では、形態素
の区切りが所与でないため、長さ(length
(W))の異なる形態素列の確率を比較しなければなら
ない。このため、英語では問題とならなかった長さによ
る条件付き確率で近似している(1)式は、日本語にお
いては、近似が1段多いことになる。すなわち、英語の
場合とは異なり、日本語ではすべての可能な候補に対し
ての連鎖確率を同じ条件で比較していないことになる。
【0010】近似によって、分割数が少ない形態素列
(各形態素は長い。)が優先されることが起こる。それ
は、長い系列の方が可能な系列の数が多いので、1つの
可能性あたりの平均的な連鎖確率が小さくなるためであ
る。
【0011】さらに、入力文字列が未知語であるため、
この文字列が辞書に存在していなかった場合、確率モデ
ルの解析手法に新たな問題が起こる。英語の場合には、
未知語があってもその未知語に対して全ての可能なタグ
を考慮するだけで、特に確率モデルに改良を加える必要
はない。また、可能なタグの数は比較的少ないので(数
十個)、かなりの精度で品詞を正しく推定することも出
来る。しかし、日本語における未知語の場合には、未知
語を構成する文字列の全ての可能な位置(どの位置で分
割されるか)、全ての可能な長さ(どういう文字構成の
語か)、それぞれの形態素において全ての可能なタグの
組み合わせを考慮しなければならないため、単純な確率
モデルでは計算量的に実現不可能となる。
【0012】また、未知語が存在すると、辞書を使えな
いので、半順序構造を得ることが出来ない。
【0013】文献Iに開示された手法では、未知語に対
して文字の連鎖確率を用いた単語モデルを導入すること
によって未知語に対処している。しかし、この手法は、
単語内での連鎖確率しか使用しておらず、その単語が前
後の文脈によってどれくらい可能性があるのかについて
は、品詞の連鎖確率により間接的にしか表現されていな
い。すなわち、文脈全体の(未知の文字列の範囲を越え
た文字列における)連鎖確率を使用しなければ、正しく
未知の文字列を認定したり、区切ることができない。
【0014】また、この従来手法では、あくまでも、単
語ベースの手法であるため、形態素解析システムが未知
語があると仮定した場合、文中の全ての位置で、任意の
長さの単語候補の組み合わせを考慮しなければならず、
従って、計算量の増大を引き起こしてしまう。
【0015】上述した問題点をまとめると下記の通りと
なる。
【0016】1)文献開示の形態素解析手法は、単語を
ベースとしているため、日本語の場合は辞書が不可欠と
なる。しかし、辞書があっても、未知語が存在する場合
には、辞書が使えないため、単語分割に影響を与える。
【0017】2)日本語の場合は、区切りの曖昧さがあ
るため、分割単語数は一定である英語の確率モデルをそ
のまま適用することが出来ない。例えば、分割単語数の
異なる2つの分割を比較すると、分割数の少ない、すな
わち、長い単語からなる分割が有意な評価値を得やす
い。
【0018】3)上記1)の問題により、次のような処
理効率上の新たな問題が生じる。すなわち、従来の手法
では、単語をベースにしているため、単に語を区切るだ
けでも、辞書が不可欠となる。従って、辞書を作成する
という面倒な作業を必要とし、その辞書を格納する資源
も必要となる。さらに、処理実行時には、辞書を参照す
るため、メモリ消費量も大きくなり、しかも、処理時間
も長くなる。
【0019】そこで、従来より、確率的手法を利用して
も、辞書を用いる必要が無く、確率計算が分割単語数に
依存せずに高精度で高速に形態素解析処理ができしかも
省資源化が図れる形態素解析方法および装置や日本語形
態素解析方法および装置の出現が望まれていた。
【0020】
【課題を解決するための手段】そこで、この出願にかか
る発明者は、種々の研究および実験を行って、単語では
なく文字をベースとして形態素解析を行えば、上述した
種々の問題点を解決出来るという確信に至った。その理
由は以下の通りである。すなわち、日本語を例に説明す
ると、日本語の文字は一般に使われているもので3,0
00〜6,000種あり、英語と異なり文字自体がかな
りの情報を持っている。そして、その種類も現在の計算
機能力にとって確率モデルを構成するのにちょうどよい
大きさになっている。このため、文字をベースとすれ
ば、辞書が必要なくなるので、上記1)の問題の解決が
はかれること、また、文字の長さは1文(改行文字で区
切られた単位の文字列のことを言う。)において一定で
あるため、上記2)の問題も解決出来ること、および、
上記1)および2)が解決出来れば、必然的に3)の問
題も解決できることにある。
【0021】従って、この発明の形態素解析方法および
装置や日本語形態素解析方法および装置では、基本的に
は、文字をベースとして形態素解析を行うに当たり、言
語テキスト、例えば日本語テキストが入力文として与え
られたときに、この入力文を構成する単語列として、各
文字の直後が単語境界であるか否かのあらゆる組み合わ
せの中から最も確からしい単語列の並びを出力させるこ
とを特徴とするものである。
【0022】そのため、この発明の形態素解析方法およ
び日本語形態素解析方法によれば、次のようなステップ
を含む処理を行うことを特徴とする。すなわち、 (a)ステップ:言語テキスト、例えば日本語テキスト
を入力文として読み込む。
【0023】(b)ステップ:読み込んだ入力文の入力
文字列の文字毎に、少なくとも単語区切り情報を含む拡
張情報を付加して拡張文字を形成し、形成された拡張文
字を用いてこの入力文字列に関する全ての拡張文字列を
候補として生成する。
【0024】(c)ステップ:これら生成された全ての
拡張文字列の連鎖確率を候補として求める。
【0025】(d)ステップ:得られた連鎖確率の候補
のなかから最大値を有する連鎖確率を求め、この最大連
鎖確率を与える拡張文字列を最適拡張文字列として候補
のなかから選択する。
【0026】(e)ステップ:そしてこのステップにお
いて、この最適拡張文字列で決まる単語列の並びを含む
解析結果を形態素解析結果として出力させる。
【0027】また、これらの方法を実施する装置は、下
記の通りの構成要件を具えることを特徴とする。すなわ
ち、(a)言語テキスト、例えば日本語テキストを入力
文として読み込んできて、この入力文の入力文字列の文
字毎に、少なくとも単語区切り情報を含む拡張情報を付
加して拡張文字を形成し、この形成された拡張文字を用
いて上述の入力文字列に関する全ての拡張文字列を候補
として生成する拡張文字列生成部、(b)生成された全
ての拡張文字列の連鎖確率を候補として求める連鎖確率
計算部、および(c)得られた連鎖確率の候補のなかか
ら最大の値の連鎖確率を求め、この最大連鎖確率を与え
る拡張文字列を最適拡張文字列として選択し、この最適
拡張文字列に対応する、単語列の並びを含む解析結果を
形態素解析結果として出力する最適経路探索部の各構成
要件である。
【0028】ここで、拡張文字とは、その詳細は後述す
るが、通常の文字とは異なり、ある文字にその文字の語
分割や品詞等の文字以外の情報を含んだ文字を言う。
【0029】このような方法および装置の構成によれ
ば、単語ベースでは無く、文字をベースとして確率計算
を行う手法を採用しているので、下記の効果を奏する。
【0030】文字の長さは1文において一定しているの
で、分割数が確率計算に影響を及ぼすことが無く、従っ
て、従来よりも高精度に語分割処理を行える。
【0031】また、形態素解析処理に辞書を必要として
いないので、辞書の作成作業等という面倒で複雑な作業
を必要とせず、従って、従来よりも形態素解析処理の高
速化が図れる。
【0032】さらに、拡張文字の連鎖確率が日本語等の
単語の一般的な単語モデルを持っているため、辞書を利
用する従来方法よりも、未知語に対しより高精度に形態
素解析が可能となる。
【0033】またさらに、辞書を必要としないので、品
詞等のタグ情報を利用しなくても語分割の情報のみで形
態素解析ができる。この場合、高速かつ省資源の処理を
行うことが出来る。
【0034】この発明の実施に当たり、好ましくは、入
力文の文頭および文末に制御文字を追加して入力文字列
を形成するのが良い。このようにすると、部分拡張文字
列(後述する)の長さを全ての文字につき揃えられるの
で、より正確に確率計算が出来、従って形態素解析の精
度をより高めることが出来る。
【0035】さらに、この発明の実施に当たり、単語区
切り情報の他にタグ情報を拡張情報として加えれば、語
分割だけでは無く、品詞等のタグについても従来より高
精度に形態素解析が可能となる。
【0036】また、単語区切りやタグの情報以外の任意
の情報を拡張情報に加えれば、「読み」や「活用」情報
等の任意情報についても、高精度でかつ高速に形態素解
析できる。
【0037】また、この発明の実施に当たり、好ましく
は、単語区切り情報を2値情報とするのが良い。単語区
切り情報は、これが付加された文字の直後で形態素分割
が生じているかいないかの2つの状態のいずれかである
ので、これを表す情報としてはコンピュータ処理分野で
一般に使用される2値情報(通常は「1」と「0」)を
用いれば済む。2値情報であればその取扱いも簡単容易
となり、従って、装置の構造を簡単化出来ると共に、形
態素解析処理の高速化が図れる。
【0038】さらに、この発明の実施に当たり、好まし
くは、下記のサブステップ処理をそれぞれ含ませるのが
よい。
【0039】前述の(a)ステップにおいては、入力文
をバッファメモリに読み出し自在に格納するサブステッ
プを含ませること。
【0040】前述の(b)ステップにおいては、入力文
字列をバッファメモリから読み出しするサブステップ、
および拡張文字列を第1メモリ領域に読み出し自在に格
納するサブステップを含ませること。
【0041】前述の(c)ステップにおいては、拡張文
字列を構成する順次の一定文字数からなる部分拡張文字
列のそれぞれに対応する部分連鎖確率を予め学習により
求めて第2メモリ領域に読み出し自在に格納しておくサ
ブステップ、前述の第1メモリ領域から読み出したそれ
ぞれの拡張文字列毎に、該拡張文字列を構成する全ての
部分連鎖確率を前述の第2メモリ領域から読み出してき
てその積を前述の連鎖確率としてそれぞれ求めるサブス
テップ、およびこれら連鎖確率を第3メモリ領域に読み
出し自在に格納するサブステップを含ませること。
【0042】このサブステップを実行するに当たり、こ
の発明の装置には、上述したバッファメモリ、第1メモ
リ領域、第2メモリ領域、第3メモリ領域を具える他
に、連鎖確率計算部には読み出された部分連鎖確率の積
を計算して連鎖確率を与える計算段を具えるのが良い。
【0043】このように構成すれば、形態素解析処理を
簡単な構成で、迅速に行える。
【0044】
【発明の実施の形態】以下、図を参照して、この発明の
実施の形態につき説明する。実施の形態では、日本語を
例に説明するが、韓国語、中国語、タイ語等の、日本語
と同様に単語区切りが無い書法を持つ言語に対し、適用
出来る。まず、この発明の説明に必要な事項につき簡単
に説明する。
【0045】この発明では、上述した従来の問題点の解
決を図るために、形態素単位の品詞N−gramモデル
を利用する代わりに、拡張文字単位の時系列モデルを利
用する。拡張文字単位の時系列モデルおよび最も基本的
な拡張文字(タグを付与せずに単語分割だけを求める場
合)の定義は、下記の式(2)〜(3)で与えられる。
なお、拡張文字はどのような拡張文字を使用するかによ
って、いくつかのバリエーションが考えられる。
【0046】
【数2】
【0047】拡張文字単位の時系列モデルは、拡張文字
i の連鎖確率(ここでは、部分連鎖確率とも称す
る。)を用いて拡張文字列の連鎖確率p(W,T)を求
める。ここでnは入力文字の長さ、NはN−gramの
Nすなわち最適解を求めるために参照する文字組の長さ
(文字組を構成する文字数)、ei は形態素列Wおよび
タグTの情報から決定される拡張文字であるとする。
【0048】i<1およびi>nの場合の拡張文字ei
は、文頭および文末を表す特殊な拡張文字であるとす
る。
【0049】拡張文字ei とは、既に説明した通り、
「彼」、「は」などの通常の文字とは異なり、語分割や
品詞などのような文字以外の情報を含んだ文字である。
(3)式の拡張文字ei を構成するci は、入力文字の
位置iにおける文字およびdiは、文字ci の前または
後ろにおける区切り情報である。例えば、区切り情報と
しては文字ci の位置iの直後で形態素分割されている
かどうかで2値の値を取る情報とするのが簡単である。
すなわち、分割されている場合には、di =0とし、分
割されていない場合にはdi =1とすればよい。
【0050】以下の説明において、区切りだけの情報を
持たせた拡張文字ei を用いたモデルを文字境界モデル
(character boundary mode
l)と称し、例えば、「彼」の拡張文字ei は<彼,0
>のように表記する。
【0051】日本語の形態素解析において、単語分割は
必須であるため、単語分割に関する情報は、本来的であ
り、品詞などのタグ情報を含ませる方法の場合でも不可
欠である。この区切り情報と文字の組み合わせを利用す
る点が、従来の単語レベルの情報を用いた形態素解析手
法との決定的な違いである。
【0052】一方、この拡張文字ei はタグ情報も含ま
せることが出来、次式(4)のように表記する。
【0053】
【数3】
【0054】この式(4)において、f(i)は、入力
文字列中の文字ci の位置iをその位置を含む形態素の
番号(形態素位置)に変換する関数である。ここでの拡
張文字ei は、上述した文字境界モデルにおける拡張文
字ei に、形態素列Wおよびタグ列Tにおいてその文字
i を含む形態素のタグを付加したものとなる。このモ
デルを文字タグモデル(character tag
model)と称する。タグ情報としては、「品詞」の
他に「読み情報」や「活用形」等が考えられるが、これ
らタグ情報だけでなく、任意の情報例えば「読み」の情
報などを任意の個数だけ与えることによって、その情報
に関する形態素解析結果を得るようにすることもでき
る。品詞を与えた例では、「彼」の拡張文字ei は、<
彼,0,代名詞>のように表記する。
【0055】以上の前提に基づき、この発明の実施の形
態につき、文字境界モデルと文字タグモデルの2つのモ
デルを例に挙げて説明する。
【0056】まず 図1を参照して、両モデルに共通す
る構成要件につき説明する。
【0057】図1は、この発明の日本語形態素解析装置
の構成の一例を示すブロック図である。この装置は、入
出力装置10と、処理装置20と、記憶装置30と、ワ
ークエリア40を主として具えていて、コンピュータの
ハードウエア資源を用いて構成してある。従って、これ
ら装置を制御する制御部等の、駆動させるために必要な
機能は当然具えている。
【0058】入出力装置10の入力部は、外部からの所
要の情報をこの装置へ入力させるための装置であって、
通常のキーボード、マウス、OCR、音声入力装置等の
任意好適な手段で構成してもよいし、或は外部からの通
信信号を受信する手段として構成してもよい。また、出
力部は、通常のコンピュータ装置の場合と同様に、この
装置で得られた結果の所要の情報を外部の種々の表示手
段や通信受信手段等へ出力出来る構成となっている。
【0059】処理装置20は、拡張文字列生成部22
と、連鎖確率計算部24と、最適経路探索部26とを主
として具えている。
【0060】拡張文字列生成部22は、電子化されてい
る日本語テキストを入力文として読み込んで、この入力
文の入力文字列の文字毎に、少なくとも単語区切り情報
を含む拡張情報を付加して拡張文字を形成し、これら拡
張文字を用いて入力文字列に関する全ての拡張文字列を
生成する。すなわち、拡張文字列生成部22は、入出力
装置10から入力されたテキストから全ての拡張文字列
を生成する。
【0061】連鎖確率計算部24は、これら生成された
全ての拡張文字列の連鎖確率を求める。
【0062】また、最適経路探索部26は、得られた連
鎖確率のなかから最大の値の連鎖確率を与える拡張文字
列を最適拡張文字列として選択し、この最適拡張文字列
に対応する、単語列の並びを含む解析結果を形態素解析
結果として出力する。或は、最大の値の連鎖確率を与え
る拡張文字列のみではなく、確率が小さくなる順に、対
応する拡張文字列を、順次に、出力させても良い。
【0063】記憶装置30は、拡張文字テーブル32
と、スコアテーブル34とを主として具えている。
【0064】この拡張文字テーブル32は、拡張文字列
ii-1i-2 ・・・ei-N+1 とその連鎖確率(部分
連鎖確率)p(ei |ei-1i-2 ・・・ei-N+1 )を
格納するテーブルで、第2メモリ領域50としての拡張
文字列格納部52および部分連鎖確率格納部54とを有
している。この拡張文字テーブル32は、上述した連鎖
確率を求めるときに連鎖確率計算部24によって参照さ
れる。
【0065】拡張文字列格納部52はN個の拡張文字格
納部60を有している。また、拡張文字格納部60は文
字格納部62と区切り情報を含む拡張情報の格納部(拡
張情報格納部という。)64とを有している。文字格納
部62には、文字ci を、拡張情報格納部64には文字
i の区切り情報di やタグ情報ti 等の拡張情報をそ
れぞれ格納する。
【0066】スコアテーブル34は、文頭から文末まで
の全ての拡張文字列の経路〔W,T〕と、その同時確率
(連鎖確率)p(W,T)を格納するテーブルで、第1
メモリ領域としての経路格納部70と第3メモリ領域と
してのスコア格納部72とを有している。経路格納部7
0は、拡張文字格納部60と同様に、n個(nは読み込
まれたテキストの文字数)の拡張文字格納部80を有
し、この拡張文字格納部80は、文字格納部82と区切
り情報を含む拡張情報を格納する拡張情報格納部84を
有している。この経路格納部70には、生成された全て
の拡張文字列が拡張文字列生成部22によって格納され
る。また、スコア格納部72には、連鎖確率計算部24
によって、計算されて得られた全ての連鎖確率が記録さ
れる。
【0067】ワークエリア40は、処理装置20が各種
の処理を行うためのエリアでカウンタ42およびバッフ
ァメモリ44を有している。
【0068】このような構成により、この発明では下記
のような処理ステップで動作させることができる。この
処理の流れ図を図2に示す。なお図において、ステップ
を記号Sで表記する。
【0069】まず、S(a)において、入出力装置10
によりに日本語テキストを入力文として読み込む。この
場合、好ましくは、読み込んだ入力文をバッファメモリ
44に読み出し自在に格納する。
【0070】次に、S(b)において、この入力文の入
力文字列の文字毎に、少なくとも単語区切り情報を含む
拡張情報を付加して拡張文字を形成し、形成した拡張文
字を用いて入力文字列に関する全ての拡張文字列を生成
する。この場合、好ましくは、入力文をバッファメモリ
44から拡張文字列生成部22へ読み出してきて拡張文
字の付加を行う。生成された拡張文字列は第1メモリ領
域である経路格納部70に読み出し自在に格納する。
【0071】次に、S(c)において、生成された全て
の拡張文字列の連鎖確率を求める。この場合、好ましく
は、この計算に当たり、拡張文字列を構成する順次の一
定数、すなわち、この計算のときに参照される文字組の
数(N)(通常、N=1または2または3である)から
なる部分拡張文字列のそれぞれに対応する部分連鎖確率
を予め学習(訓練)により求めておき、その部分連鎖確
率を第2メモリ領域である拡張文字テーブル32に読み
出し自在に格納しておく。そして、第1メモリ領域70
から読み出したそれぞれの拡張文字列毎に、これら拡張
文字列を構成する全ての部分連鎖確率をこの第2メモリ
領域50から読み出してきて、その積を計算して連鎖確
率として求める。得られた連鎖確率を第3メモリ領域で
あるスコア格納部72に読み出し自在に格納する。
【0072】次に、S(d)において、得られた連鎖確
率のなかから最大の値の連鎖確率を与える拡張文字列を
最適拡張文字列として選択する。この場合、好ましく
は、第3メモリ領域72に記録された拡張文字列の確率
を比較して選択する。
【0073】そして、S(e)において、最適拡張文字
列で決まる単語列の並びを含む解析結果を形態素解析結
果として出力する。この場合、必要ならば、下位の大き
さの連鎖確率に対応する拡張文字列をこの確率の大きい
方から順次出力させることも出来る。
【0074】〔1〕第1の実施の形態例 この実施の形態例では、拡張情報として単語区切り情報
のみを利用した場合につき説明する。
【0075】図3は、この発明の第1の実施の形態例に
おける処理の流れを説明するための流れ図である。この
形態例において、形態素解析は1文すなわち改行文字で
区切られた単位の文字列を入力単位とする。また、「今
日は」(入力文字の長さn=3)を入力した場合を例
に、3文字(N=3)の部分連鎖確率を用いた処理の流
れにつき説明する。
【0076】なお、以下の説明において、具体例の拡張
文字テーブルやスコアテーブルの図では、文字格納部と
拡張情報格納部を<ci ,di >のように表現する。
【0077】形態素解析装置が動作を開始すると、装置
の制御部(図示せず)からの読み込み指令に応じて入出
力装置10からテキストの文字文「今日は」が入力さ
れ、バッファメモリ44に読み込まれる(S1)。
【0078】次に、読み込まれたテキストの文頭および
文末に、拡張文字列生成部22からの指令によって(N
−1)個の制御文字を文頭c-(N-1)+1,・・・,c0
に、および文末cn+1 ,・・・,cn+(N-1) に挿入する
(S2)。この例では、N=3であるので、文頭と文末
にそれぞれc-1,c0 ,とc4 ,c5 の2個の制御文字
をそれぞれ挿入する。この制御文字を記号#で示してあ
る。この制御文字が挿入された後のバッファメモリ44
の内容例を図4の(A)に示す。この例では、各文字c
-1,c0 ,・・・c5 の文字位置順にその対応する具体
的な#,#,「今」、「日」、「は」、#、#の文字が
上下に互いに対応した関係で格納してある。
【0079】なお、この制御文字を挿入することはN−
gram連鎖確率を求める上で周知の一般的手法であ
る。制御文字は、文頭および文末を示す特殊文字である
ので、テキスト(本文)と区別出来る記号等の文字を使
用している。この制御文字の挿入は、予め制御文字を所
要のメモリ領域に格納しておいて、バッファメモリに入
力文が読み込まれたとき、自動的に挿入するようにして
も良いし、外部からの指令により挿入しても良い。ま
た、この制御文字を挿入する理由は、以下述べる理由に
よる。通常、i番目の文字ci の出現確率を推定するの
に(i−N+1)番目から(i−1)番目の文字の推定
確率が必要になる。しかし、iがNよりも小さい場合、
iの値はマイナスとなり、存在しない文字の出現確率が
得られてしまう。そこで、便宜上、(N−1)個の文字
を挿入し、iがNよりも小さい場合であっても、文字c
i の出現確率を推定できるようにするために、制御文字
#を挿入する。
【0080】次に、読み込んだテキストから全ての可能
な拡張文字列を生成し、これらをスコアテーブル34の
経路格納部70に格納する(S3)。この生成処理S3
の詳細を図5に示す。
【0081】図5は、拡張文字列生成の流れ図である。
拡張文字列生成部22は、上述の制御文字挿入処理の終
了信号に応動してバッファメモリ44から順次に文字c
i を読み出してきて、各文字ci に対して全ての単語区
切り情報di を組み合わせた拡張文字を生成する(S3
01)。なお、区切りの情報の記述には、いくつかの方
法が考えられるが、ここでは、文字位置iの直後で形態
素分割されている場合にはdi =1、そうでない場合は
i =0、従って、単語区切り情報di を2値の「0」
と「1」をとるものとする。
【0082】この場合、拡張文字として<#,0>,<
#,0>,<今,0>,<日,0>,<は,0>,<
#,0>,<#,0>等と、<#,1>,<#,1>,
<今,1>,<日,1>,<は,1>,<#,1>,<
#,1>等とが形成される。この拡張文字ci の文字の
部分を文字格納部62に及び単語区切り情報di を拡張
情報格納部64に互いに対応付けて格納する。
【0083】そして、文頭から文末までの拡張文字の組
み合わせ(経路)をスコアテーブル34に格納する(S
302)。この経路としては、<#,0>⇒<#,0>
⇒<今,0>⇒<日,0>⇒<は,0>⇒<#,0>⇒
<#,0>経路と、<#,1>⇒<#,1>⇒<今,1
>⇒<日,1>⇒<は,1>⇒<#,1>⇒<#,1>
経路である。
【0084】次に、未処理の経路があれば全ての経路を
格納するまで処理S302を繰り返す。未処理の経路が
なくなれば処理を終了する。
【0085】なお、処理の高速化を図る場合には、処理
S302において、拡張文字テーブル作成のための訓練
コーパス(テキスト)に現れなかった拡張文字を含む拡
張文字列をスコアテーブル34に格納しないようにすれ
ば良い。十分に大きな訓練コーパスには可能な文字と品
詞の組み合わせが全て出現していると考えられ、出現し
ていない文字と品詞の組み合わせは最初から考慮しなく
ても良いからである。
【0086】このようにして得られた処理(S3)の結
果は、拡張文字列としてスコアテーブル34に格納され
る。図7の(A)はスコアテーブルの一例を示し、図7
の(B)はスコアテーブルの内容の一例を示す。図7の
(A)において、各拡張文字e-(N-1)+1,e-(N-1)+2
・・・,e1 ,e2 ,・・・en ,・・・,en+(N-1)
は、対応する文字c-(N-1)+1,c-(N-1)+2,・・・,c
1 ,c2 ,・・・cn,・・・,cn+(N-1) と拡張情報
(ここでは区切り情報)d-(N-1)+1,d-(N-1)+2,・・
・,d1 ,d2 ,・・・dn ,・・・,dn+(N-1) とが
対となって、拡張文字列の全てに対して、順次に記録さ
れる。右側の欄は連鎖確率p(W,T)の欄である。図
7の(B)の具体的内容では、左欄に拡張文字列e-1
2 ,・・・e5 を示し入力文が「今日は」の場合の拡
張文字列の全てが、候補として、順次に、上から下へと
配列されている。その右に連鎖確率p(W,T)を記す
欄が設けられている。ここでは連鎖確率の欄は空欄とな
っている。ここで、「/」を分割を示す記号とすると、
例えば図中の2行目のデータは、「/今日は/」が1単
位である場合の拡張文字列を示しており、4行目のデー
タは「/今日/は/」と分割される場合の拡張文字列を
示している。
【0087】なお、このスコアテーブルの各データは経
路格納部70に格納され、拡張文字ei 等は拡張文字格
納部80に、文字ci 等は文字格納部82に、そして拡
張情報である単語区切り情報di 等は拡張情報格納部8
4にそれぞれ格納される。
【0088】このように、処理S3が終了すると、次の
処理(S4)へ進む。この処理S4では、拡張文字テー
ブル32を参照して、スコアテーブル34から候補文字
列(各拡張文字列のこと)の連鎖確率を計算し、スコア
テーブルに格納する。
【0089】図8の(A)は、参照される拡張文字テー
ブル32の一例を示す。この例では各拡張文字e
i-N+1 ,ei-N+2 ,・・・ei は、対応する文字c
i-N+1 ,ci-N+2 ,・・・ci と拡張情報(ここでは区
切り情報)di-N+1 ,di-N+2 ,・・・di とが対とな
って、順次に,記録される。右側の欄は部分連鎖確率p
(ei )(出現確率ともいう。)の欄である。図8の
(B)は、拡張文字テーブル32の内容の具体例を示す
図である。この例では、文字組の数NがN=3の場合の
例を示しているので、文字位置をiとするとき、図8の
(B)の左欄にei-2 ,ei-1 ,ei の3文字の部分拡
張文字列を示し、右欄に対応する部分拡張文字列の連鎖
確率すなわち部分連鎖確率p(ei |ei-1 ,ei-2
(出現確率ともいう。)を示している。
【0090】図8の(B)に示すこの拡張文字テーブル
の内容によれば、例えば上から3行目のデータによれ
ば、「<#,1><今,0><日,0>」は、文字列
「#今」が文頭の制御文字「#」の後ろで分割され、
「今」の後ろで分割されない場合、次の文字が「日」
で、かつ「日」の直後で分割されない確率が「0.01
34」であることを示している。他のデータも同様な確
率を示している。
【0091】このような拡張文字テーブルは、事前に訓
練(学習)により作成して記憶装置30に保存してお
く。処理対象となるテキストは、入出力装置10を使用
して記憶装置30に保存し、処理装置20からの命令に
より、読み込む。拡張文字テーブル32の参照およびス
コアテーブル34の読み書きは、処理装置20から記憶
装置30をアクセスして随時実行可能である。また、こ
の拡張文字テーブル32は、タグ付きコーパス(この場
合、単語分割されたコーパス)があれば、N−gram
の数を数えることによって容易に獲得できる。また、既
存の形態素解析システムの出力結果を利用したり、人手
で作成したりしても良い。
【0092】なお、この拡張文字テーブルの各データは
拡張文字列格納部52に格納され、拡張文字ei 等は拡
張文字格納部60に、文字ci 等は文字格納部62に、
そして拡張情報である単語区切り情報di 等は拡張情報
格納部64にそれぞれ格納される。
【0093】この処理(S4)のより詳細な処理の流れ
を図6に示す。この一連の処理を以下説明する。なお、
この処理は、全て処理装置20の指令に基づいて実行さ
れる。
【0094】処理S401:スコアテーブル34から1
行目のレコード(データ)を読み込む。この場合、スコ
アテーブル34の1行目のデータをワークエリア40の
バッファメモリ44に読み込む。このとき、ワークエリ
ア40のカウンタ42は、読み込まれて処理対象になる
文字の位置iを表示する。
【0095】処理S402:次に、文字位置を示すカウ
ンター42のiを文頭にセットする(すなわち、i=1
とする)。
【0096】処理S403:次に、ei-N+1 からei
でのN文字の拡張文字列を取り出す。Nは任意とするこ
とができるが、ここではN=3とする。従って、この処
理では、バッファメモリ44からe-1からe1 までの3
文字の拡張文字列(部分拡張文字列)、すなわち、「<
#,1><#,1><今,0>」を取り出す。
【0097】処理S404:次に、取り出した拡張文字
列(部分拡張文字列)に対し、拡張文字テーブル32を
参照して、連鎖確率を求める。この連鎖確率の計算を行
うに当たり、予め、連鎖確率計算部24の格納部すなわ
ち第4メモリ領域90に、既に説明した(2)式を格納
しておき、この(2)式を計算段92に読み出し、ここ
で(2)式の計算を実行する。
【0098】図8の(B)の拡張文字テーブルの内容に
よれば、「<#,1><#,1><今,0>」に対応す
る部分連鎖確率p(e1 |e0-1)は1行目の「0.
0832」であるので、これを拡張文字テーブルから取
り出して、一旦、第4メモリ領域90に格納しておく。
【0099】処理405〜407:次に、計算段92で
i==1(iと1とを比較してiが1に等しいこと)か
どうかの判定を行って、i==1ならば、この計算段9
2でp(W,T)にp(ei |ei-1 ・・・ei-N+1
をセットする(S406)。すなわち、ここでの例で
は、この部分連鎖確率の値を(2)式に代入してp(e
1 |e0-1)=0.0832を得る。
【0100】一方、i!=1ならば(iが1と等しくな
いとき)、(2)式に従って、p(W,T)とp(ei
|ei-1 ・・・ei-N+1 )との積を求め、p(W,T)
にセットする(S407)。
【0101】処理S408〜410:次に、i==n+
N−1かどうかの判定を行い、i==n+N−1なら
ば、スコアテーブル34のスコア格納部72にp(W,
T)を記録する(S409)。ここでの例では、上述の
p(e1 |e0-1)=0.0832を格納する。一
方、i!=1ならば、iを1だけ増やして(S410)
S403に戻る。
【0102】処理S403:この処理では、バッファメ
モリ44からe-1からe2 までの3文字の拡張文字列
(部分拡張文字列)、すなわち「<#,1><今,0>
<日,0>」を取り出す。
【0103】処理S404:続いて、拡張文字テーブル
32から「<#,1><今,0><日,0>」の部分連
鎖確率p(e2 |e10 )=0.0134を求める。
【0104】処理S405〜407:次に、i==1か
どうかを判定し(S405)、この場合には、i!=1
であるので、S407へ進む。この処理においては、
(2)式に従って、計算段92において、既に得られて
いるp(W,T)=0.0832と今回得られたp(e
2 |e10 )=0.0134との積を算出し、これを
新たにp(W,T)にセットする(S407)。
【0105】このような処理S403〜407をi==
5になるまで繰り返し行う。
【0106】処理408:i==5になれば、スコアテ
ーブル34のスコア格納部72に連鎖確率p(W,T)
を格納する(S409)。
【0107】処理S411:未処理のレコードがあるか
ないかを判断して、未処理のレコードがあれば処理S4
01に戻り、以上の処理を繰り返すことにより、スコア
テーブル34中の全ての拡張文字列の連鎖確率(同時確
率ともいう。)を求めることが出来る。未処理のレコー
ドが無ければ、この処理S4を終了する。
【0108】図9に、処理S4の処理終了後のスコアテ
ーブルの内容を示す。同図の左側のe-1,e0 ,・・・
5 の欄に示してある各拡張文字列に対して、上述した
(2)式に従った連鎖確率計算により求められた結果
が、各列に対応する右欄にp(W,T)の値としてそれ
ぞれ記録されている。この連鎖確率の値が大きいものほ
ど、それに対応する拡張文字列が最も尤もらしい形態素
区切りであると推定された最適拡張文字列である。この
処理S4の終了後、次の処理S5に進む。
【0109】処理(S5):この処理では、処理部20
の最適経路探索部26において、このスコア格納部(第
3メモリ領域)72に格納された連鎖確率を順次に読み
出してきて、比較を行って、最大の連鎖確率からその値
が小さい順に配列し、これら連鎖確率に対応する拡張文
字列をその大きさの順(スコア順)に配列して、順に、
出力する。従って、まず、最大の連鎖確率を与えている
文字列を単語分割が最適な文字列として入出力装置10
の出力部から出力させる。ここでの例では、拡張情報が
単語区切り情報だけであるので、単語列として出力され
る。続いて、所要に応じて、スコアの大きい順に順次に
対応する単語列の並びが出力される。
【0110】ここで、この最大連鎖確率を出力する場合
の処理の流れにつき、図13を参照して説明する。この
処理をスコア順に繰り返すことによって、ある閾値以上
をもつ単語列の並びをすべて出力することもできる。
【0111】まず、すべての拡張文字列に対し求めらた
連鎖確率が格納されているスコアテーブル(この第1の
実施の形態例では、図9に対応する。)から、最大の連
鎖確率を持つe-(N-1)+1,・・・,en+(N-1) につい
て、制御文字の拡張文字列の文頭e-(N-1)+1,・・・,
0 と文末en+1 ,・・・,en+(N-1) を切り捨てたe
1 ,・・・,en を読み込む(S501)。この図9の
例では、e-1,・・・,e5 であるので、上から4行目
の<今,0><日,1><は,1>が読み込まれる。
【0112】ここで、カウンタ42をjにセットし(S
502)、バッファメモリ44を初期化しておく(S5
03)。
【0113】次に、カウンタ42の文字位置jが入力文
字の長さnとの比較を行って(S504)、長さnに等
しくなければ、ej =<cj ,dj >のcj の値をバッ
ファメモリ44に追加する(S505)。ここでの例で
は、c1 の値「今」が追加され、この状態でのバッファ
メモリ44は、 〔今 〕 となる。
【0114】次に、単語区切り情報dj が1か0かの判
定を行って(S506)、dj =1であれば、〔単語区
切り記号〕を追加する(S507)。この〔単語区切り
記号〕はどのような記号でも構わないが、ここでは、
」(アンダーバー)とする。
【0115】なお、dj =0である場合には、何もしな
い。ここでの例では、d1 =0であるので、何もしな
い。
【0116】次に、カウンタ42の文字位置jを1つ進
め(S508)、同様な処理を繰り返し行う。
【0117】拡張文字e2 における処理S508を終了
した後は、d2 が1であるため、単語区切り記号「
が追加され、バッファメモリ44の状態は、 〔今日 〕 となる。そして、カウンタ42の文字位置jを1つ進め
(S508)、次の処理S504に戻る。
【0118】S504において、e3 では、j=n=3
であるので、処理S509に進み、en =<cn ,dn
>のcn の値をバッファメモリ44に追加する(S50
9)。その結果、バッファメモリ44の状態は、 〔今日 は 〕 となる。最後に、バッファメモリ44に格納されている
値を入出力部10によって出力し、この処理を終了す
る。
【0119】上述した第1の実施の形態においては、全
ての経路を試行する方法を用いたが、既に処理S302
に関して説明した通り、探索アルゴリズムを組み合わせ
るこにより、より高速に処理することが可能である。
【0120】〔2〕第2の実施の形態例 次に、第2の実施の形態例につき説明する。第1の実施
の形態例が、拡張情報として単語区切り情報のみとした
ことに対し、この第2の実施の形態例では、拡張情報と
して単語区切り情報とタグ情報とを用いる点が異なる。
従って、その点に関する装置構成および動作処理が多少
異なるにすぎない。この第2の実施の形態例では、第1
の実施の形態例の場合のような形態素単位の分割だけで
はなく、拡張情報格納部に格納された任意の情報に関す
る解析結果を得ることが出来る。具体的には、タグ情報
を品詞情報とすると、分割した文字列の品詞も同時に推
定することが出来る。以下の例ではタグ情報を品詞情報
として説明する。
【0121】基本的には、この場合の装置構成も、図1
にブロック図で示す構成となっている。しかし、拡張文
字テーブル32とスコアテーブル34の構成が下記の点
で第1の実施の形態例の場合とは相違する。
【0122】第1の点は、第2の実施の形態例では、拡
張文字テーブル32の上述した拡張情報格納部64は、
単語区切り情報di およびタグ情報ti とをそれぞれ格
納する領域を有する点である。そのため、拡張情報格納
部64は、単語区切り情報格納部(図示せず)およびタ
グ情報格納部(図示せず)を有している。
【0123】従って、文字格納部62には、文字ci
格納し、拡張情報格納部64には、単語区切り情報di
とタグ情報ti とをそれぞれの格納部に個別に格納す
る。
【0124】第2の点は、スコアテーブル34の上述し
た拡張文字格納部80は、単語区切り情報di およびタ
グ情報ti とをそれぞれ格納する領域を有する点であ
る。そのため、拡張情報格納部84は、単語区切り情報
格納部(図示せず)およびタグ情報格納部(図示せず)
を有している。この場合のスコアテーブルおよび拡張文
字テーブルの例をそれぞれ図10の(A)および図11
の(A)に示す。これらの図において第1の実施の形態
例で説明した図7の(A)および図8の(A)との相違
点は、図10の(A)のスコアテーブルの場合には、文
字ci 、区切り情報di と並べてタグ情報ti をそれぞ
れの拡張文字ei に付加してある点である(但しi=1
−N+1〜n+N−1(この場合は、N=3なので、i
=−1〜n+2))。また、図11の(A)の拡張文字
テーブルでは、同様に、文字ci 、区切り情報di と並
べてタグ情報ti をそれぞれの拡張文字ei に付加して
ある点である(但しi=1〜N(この場合は、N=3な
ので、i=1〜3))。
【0125】次に、この第2の実施の形態例の動作につ
き説明する。この場合の基本的な処理の流れは、図2で
説明した通りである。また、この第2の実施の形態例の
動作は、図3で説明した第1の実施の形態例での処理の
流れとも基本的には同一であるので、この図3を参照し
て、説明する。
【0126】以下の説明では、テキスト「今日」を入力
させた場合の例に、3文字の部分連鎖確率(出現確率)
を用いた処理の流れにつき具体的に説明する。なお、具
体例の拡張文字テーブル32およびスコアテーブル34
の図では、文字格納部62,82と拡張情報格納部6
4,84の内容、すなわち、拡張文字格納部60および
80の内容を<ci ,di ,ti >のように表記する。
【0127】処理(S1)〜(S2):第1の実施の形
態例の場合と同様である。この処理の後のバッファメモ
リ44の内容も図4の(B)に示す通りとなる。
【0128】処理(S3):読み込んだテキストから全
ての可能な拡張文字列を生成し、スコアテーブル34の
経路格納部(第1メモリ領域)70に格納する。この場
合、第1の実施の形態例のときと相違する点は、各文字
毎に、拡張情報として、単語区切り情報と品詞情報とを
付加する。文頭および文末の制御文字は、処理の都合上
与えられた文字であるから、拡張情報ではないが、ここ
での例では、便宜上、単語区切り情報として「1」を、
品詞情報として「#」を付加する。その結果、得られた
スコアテーブル34の内容を図10の(B)に示す。例
えば、図10の(B)の第1行目は、「今日」が単語分
割されず、すなわち、「今日」の文字列は、1つの単語
で、品詞が名詞である場合の拡張文字列を示している。
【0129】処理(S4):この処理も、第1の実施の
形態例の場合と同様に行われる。図11の(B)は、第
2の実施の形態例の場合の拡張文字テーブル32の一例
を示している。この図においても、拡張情報格納部であ
るタグ情報格納部64の「#」は制御文字(記号)であ
り、例えば、図11の(B)の上から7行目の「<#,
1,#><今,0,名詞><日,1,名詞>」は、文中
「#」「今」「日」の品詞がそれぞれ制御文字、名詞、
名詞で、「#」の直後で分割され、「今」の直後で分割
されない場合、「日」の直後で分割される確率が0.0
047であることを示している。
【0130】この拡張文字テーブル32も、第1の実施
の形態例の場合と同様に、品詞タグつきコーパスを利用
すれば、N−gramの数を数えることによって容易に
獲得できる。
【0131】次に、図6を参照して、処理S401〜4
11の処理を、第2の実施の形態例につき、具体的に説
明する。この処理も第1の実施の形態例の場合と同様に
行われるので、共通な処理等は簡単に説明する。
【0132】処理S401:図10(B)のスコアテー
ブル34から1行目のレコード(データ)をバッファメ
モリ44に読み込む。
【0133】処理S402:文字位置を示すカウンタi
を文頭にセットする。
【0134】処理S403:バッファメモリ44から、
-iからe1 までの3文字の拡張文字列(部分拡張文字
列)、すなわち、「<#,1,#><#,1,#><
今,0,名詞>」を取り出す。
【0135】処理S404:この処理では、図11の
(B)の拡張文字テーブル32を参照して、「<#,
1,#><#,1,#><今,0,名詞>」の部分連鎖
確率(出現確率)p(e1 |e02 )=0.0034
を求める。
【0136】処理S405〜406:このとき、i==
1なので、連鎖確率p(W,T)=0.0034をセッ
トして、処理S408へ進む。
【0137】処理S408〜410:i!=1なので、
iを1つ増やしてS404に戻る。
【0138】処理S404:図11(B)の拡張テーブ
ル32を参照して、「<#,1,#><今,0,名詞>
<日,1,名詞>」の部分連鎖確率(出現確率)p(e
2 |e10 )=0.0047を求める。
【0139】処理S405〜406:このとき、i!=
1なので、連鎖確率p(W,T)とp(e2 |e1
0 )との積を(2)式に従って求め(すなわち、連鎖確
率p(W,T)=p(W,T)×p(e2 |e1
0 ))、その結果、すなわち、p(W,T)=0.00
34×0.0047=0.159×10-4をp(W,
T)にセットする。
【0140】処理408〜409:i==n(n==
2)なので、p(W,T)をスコアテーブル34のスコ
ア格納部(第3メモリ領域)72に格納する。
【0141】処理S411:未処理レコードがあるの
で、処理S401に戻る。
【0142】以上の処理を繰り返すことにより、スコア
テーブル34内のすべての拡張文字の連鎖確率(同時確
率)を求めることができる。
【0143】図12は、処理S4の終了後のスコアテー
ブル34の内容を示す例である。この場合にも、連鎖確
率の値が大きい拡張文字列ほど、最も尤もらしい形態素
区切りであると推定された文字列である。例えば、1行
目の「<#,1,#><#,1,#><今,0,名詞>
<日,1,名詞><#,1,#><#,1,#>」の連
鎖確率が一番大きければ、これを最適拡張文字列とす
る。
【0144】処理(S5):一連の処理S4が終了した
後、最適経路探索部26により、第1の実施の形態例の
場合と同様に、スコアテーブル34から連鎖確率(スコ
ア)の高い順に対応する拡張文字列で決まる単語列の並
びとタグ列の並びを出力する。
【0145】この第2の実施の形態例の場合には、この
最大連鎖確率の出力は、既に図13を参照して第1の実
施の形態例で説明した処理と同様な処理の流れで行われ
る。しかし、この第2の実施の形態例では、第1の実施
の形態例の場合とは、処理S507とS509の内容が
相違するので、この処理S507とS509につき説明
し、その他の処理の重複説明は省略する。
【0146】処理S507:ej =<cj ,dj ,t
f(j)>において、「〔文字タグ区切り記号〕tf(j)〔単
語区切り記号〕」の値をバッファメモリ44に追加す
る。
【0147】処理S509:ej =<cj ,dj ,t
f(j)>において、「cn 〔文字タグ区切り記号〕
f(j)」の値をバッファメモリ44に追加する。
【0148】この〔文字タグ区切り記号〕はどんな記号
でも構わないが、たとえば「/」(スラッシュ)とす
る。
【0149】このようにした場合、処理S510での出
力は、例えば、 〔今日/名詞 〕 となる。
【0150】また、例えば、単語区切り文字が改行コー
ドで、文字タグ区切り情報がタブの場合に、例えば、
「今日は誕生日だ」の処理S510での出力は、単語区
切りのみでは 〔今日 〕 〔は 〕 〔誕生日 〕 〔だ 〕 となり、タグ付きでは 〔今日 名詞〕 〔は 副助詞〕 〔誕生日 名詞〕 〔だ 助動詞〕 となる。
【0151】以上の一連の処理が拡張文字による形態素
推定処理の流れである。
【0152】上述した第1および第2の実施の形態例で
は、拡張情報として単語区切り情報およびタグ情報につ
き説明したが、タグ情報の代わりにまたはこれに追加し
て、「読み」とか「活用」などの情報を付加して、これ
ら任意情報に関する形態素解析も同様に行い得る。
【0153】また、上述した各メモリ領域は、それぞ
れ、個別のメモリで構成してもよいし、或は1つのメモ
リの領域を分けて構成しても良い。
【0154】〔実験結果〕上述した第1および第2の実
施の形態例に関して、その効果を確認するための実験を
行った。その結果を以下に説明する。
【0155】1)実験手法 1−1)第1の実施の形態例(文字−区切りモデル) 訓練:文字と区切りの記号の対(ペア)をトークン(t
oken)とするトライグラム(trigram(3−
gram))をタグ付きコーパスから構築する。すなわ
ち、文字をその文字の後ろに区切りがあるものとないも
のの2種類に分ける。
【0156】解析:解析対象のすべての文字に対して、
区切り記号とペアになったものとそうでないものとの組
み合わせから文字trigramの連鎖確率を最大とす
る組み合わせを解析結果(形態素分割)とする。
【0157】1−2)第2の実施の形態例(文字−タグ
モデル) 訓練:文字と区切り記号と品詞の組をトークン(tok
en)とするtrigramをタグ付きコーパスから構
築する。
【0158】解析:解析対象のすべての文字に対して、
すべての可能な区切り記号と品詞の組合わせから文字t
rigramの連鎖確率を最大とするものを選ぶ、分解
された各形態素に対して、先頭の文字の組にある品詞を
その形態素の品詞とする手法(手法先頭)と、その形態
素が含む各トークンの品詞の中で多いものをその形態素
の品詞とし、同じ数の品詞がある場合は、品詞のユニグ
ラム(unigram(1−gram))を使って品詞
を決める手法(手法多数決)とがある。この実験では、
後者の(手法多数決)を使用した。
【0159】(手法多数決)につき簡単に説明する。入
力文「いるかがいる」の最も確からしい拡張文字列が以
下のようになった場合を考える。
【0160】<い,0,動詞><る,0,名詞><か,
1,名詞><が,1,助詞><い,0,動詞><る,
1,副詞> この場合、3つの単語(いるか)(が)(いる)に分割
される。すなわち <い,0,動詞><る,0,名詞><か,1,名詞> <が,1,助詞> <い,0,動詞><る,1,副詞> その品詞は(が)については一意に助詞と定まるが、
(いるか)は動詞と名詞、(いる)は動詞と副詞の複数
の可能性がある。この場合、(いるか)については、候
補は動詞と名詞であるが、名詞が2個あり、動詞の1個
より多いので、名詞とする。他方、(いる)について
は、動詞と副詞の可能性があるが、どちらも1個づつで
多数決で決まらないので、訓練データでより多く出現し
た品詞である、動詞を(いる)の品詞だとして出力す
る。
【0161】この(手法多数決)により、例えば、ED
Rコーパス((株)日本電子化辞書研究所が研究目的の
ために有償で公開しているコーパス(文献:EDR E
lectronic Dictionary Vers
ion TechnicalGuide,1995年発
行))を解析すると、次の順序で品詞の優先順位が高い
ことが分かる。すなわち、助詞、名詞、語尾、動詞、記
号、助動詞、接尾語、数字、副詞、形容動詞、形容詞、
連体詞、接続詞、接頭語、感動詞。
【0162】1−3)従来技術(ワード−タグモデル) 従来の辞書とタグの連鎖確率を用いた手法である。訓練
データより辞書の品詞のtrigramを構築する。た
だし、未知語処理の機能を加えていないため、テストデ
ータの中に訓練データにない単語が現れると解析不能に
なる場合がある。今回の実験では、解析不能を回避する
ために、クローズ(close)実験のみを行った。
【0163】2)訓練およびテストデータ 以下に、実験で用いたコーパスと実験条件の概略を期
す。各コーパスごとの見出し(名前)は以下の実験で用
いたコーパスを参照するために用いられる。
【0164】 2−1)EDR :品詞情報 15個 訓練 :EDRのコーパス約20万文(197744文) テスト:オープン(open);訓練データに含まれない1000文 クローズ(cloe);訓練データにテスト用の1000文を加える 。
【0165】 2−2)ADD :品詞情報は活用形や活用型を入れた120種類のタグ 訓練 :ATR対話データベース(旅行、電話対話)8,821文((株) エイ・ティ・アール音声翻訳通信研究所が研究目的のために有償で 公開しているコーパス)(文献:ATR対話データベースの内容. ATR Technical report,TR−I−0186, 1990年発行)(以下、ADDと称する。) テスト:オープン;訓練データに含まれない500文 クローズ;訓練データに上記のテスト用の500文を加える。
【0166】3)連鎖確率推定 上記タグ付きコーパスの訓練データから拡張文字列を生
成し、拡張文字のtrigram(3−gram)を求
めた。また、この確率はbigram(2−gra
m),unigram(1−gram)によってスムー
ジングされている。
【0167】4)評価尺度 以下の説明では、評価尺度として、正解に対する適合率
(precision)と再現率(recall)を用
いる。それぞれの尺度は以下のように定義される。
【0168】 適合率:システムが出力した正解形態素数/システムが
出力した形態素数 再現率:システムが出力した正解形態素数/テスト文の
正解形態素数。
【0169】5)実験結果 5−1)解析性能について a:第1の実施の形態例(CHAR−BOUND)(単
語分割性能) この実験では、各種手法の単語分割に関する基本的な性
能の違いを見るために、各種手法とコーパスを組み合わ
せた実験を行った。オープン(open)実験とクロー
ズ(close)実験のそれぞれについて適合率と再現
率を図14に示す。
【0170】今回の実験における従来法の実験では、未
知語に対処する機構を入れることが出来なかった。この
ため、オープン(open)の実験において辞書にない
単語があると(EDRで1000文中約70個の単
語)、従来法では解析不能となる場合があったため、ク
ローズ(close)の実験のみを行った。以下、この
発明と従来法との比較はクローズ(close)の実験
結果で行う。
【0171】図14の単語分割の性能評価の結果は、上
段が適合率(%)で、下段が再現率(%)である。この
発明での適合率(%)は、ADDでは99.77でED
Rでは97.80であるのでADDの方がEDRよりも
良い。従来法での適合率(%)は、EDRの場合には9
5.65、ADDの場合には99.52であるので、い
ずれにしても適合率(%)はこの発明の方法の方が優れ
ていることが分かる。一方、この発明での再現率(%)
は、EDRでは97.44、ADDでは99.67であ
るのでADDの方が良い。従来法での再現率(%)は、
EDRでは91.78、ADDでは99.27であるの
で、いずれにしてもこの発明の方法の方が優れているこ
とが分かる。
【0172】上述の結果から理解できるように、EDR
における従来法では適合率および再現率ともに悪いが、
これはEDRコーパスに15種類の品詞しかないため、
品詞のtrigramが十分な言語モデル能力を持たな
いためである。それは、ADDの120種類の品詞を用
いると結果が改善されていることからも理解出来る。
【0173】この発明の第1の実施の形態による手法で
は、EDRコーパスに関してはADDコーパスに比べて
若干悪いが、比較的安定して良い結果を出している。こ
れは品詞だけでなく文字とタグのペアの連鎖確率を使用
していることに起因していると考えられる。
【0174】なお、EDRコーパスの解析に対して視察
した結果、誤りの大部分は、コーパス自体の揺れに起因
していることが分かった。例えば、名詞連続などを細か
く切るか、大まかに切るかがかなり揺れている。
【0175】b:第2の実施の形態例(CHAR−TA
G)(単語分割と品詞推定の性能) この実験では、各種手法の単語分割と品詞推定に関する
基本的な性能の違いを見る実験を行った。その結果を図
15に品詞分割の性能評価として示す。この図におい
て、上段が適合率(%)であり、下段が再現率(%)で
ある。なお、第2の実施の形態例の単語分割の性能評価
は図14に示してある。
【0176】図14に示した単語分割の結果では、適合
率(%)は、EDRでは98.25、ADDでは99.
97であり、また、再現率(%)は、EDRでは97.
88、ADDでは99.82である。これに対し、図1
5に示した品詞分割の性能評価の結果では、適合率
(%)は、EDRでは97.42、ADDでは99.7
7であり、また、再現率(%)は、EDRでは97.0
6、ADDでは99.61である。また、従来手法によ
る品詞分割の性能評価結果によれば、適合率(%)は、
EDRでは92.55、ADDでは97.82であり、
また、再現率(%)は、EDRでは88.80、ADD
では97.52である。
【0177】これらの結果から、単語分割と比べると、
拡張文字を使用する方法は、適合率および再現率がおお
よそ1〜2%程度低下していることが分かる。
【0178】これに対し、従来法では、適合率および再
現率が2〜3%程度低下している。オープン(ope
n)実験では、さらに3%程度低下している。
【0179】従来法では辞書を使うので、(未知語がな
ければ)単語分割に関してはかなり強力ではあるが、品
詞の推定に関しては、拡張文字を使うこの発明の手法の
方がロバスト性に優れていると言える。言い換えれば、
従来法では、単語に直接関係ある確率は、かなり大きな
コーパスを用いても正確に推定するのが困難であると言
える。
【0180】5−2)解析速度について 図16に各手法における解析速度の結果を示す。この実
験では、EDRテスト文(1000文,38601文
字)の解析にかかった時間すなわち実行時間を示してあ
る。第1および第2の実施の形態におけるそれぞれの手
法で解析した場合、EDRでは、それぞれ、3秒および
665秒であった。この結果から、品詞推定を行うと著
しく遅くなるが、単語分割のみでは極めて高速であるこ
とが分かる。
【0181】なお、実験に使用した計算機の性能は、S
un Ultra−1140MHz,OS:Solar
is2.5,メインメモリ:96Mバイト,ハードディ
スク:3Gバイトである。
【0182】
【発明の効果】上述した説明からも明らかなように、こ
の発明の日本語形態素解析方法および装置によれば、下
記の効果を奏することができる。すなわち、 a)この発明では、単語ではなく、文字をベースにして
確率計算を行う。文字の長さは、1文において一定であ
るため、分割数が少ない形態素列(各形態素列は長い)
が優先されるということがない。従って、従来方法に比
べて、高精度で語分割を行うことが可能となる(上記5
−1)a参照)。
【0183】b)この発明では、文字N−gramが辞
書情報をもっていると考えられるので、辞書を必要とし
ない。このため、辞書作成のための煩雑な作業を省略出
来る。例えば、「いとしい/人」という文が訓練データ
に存在する場合、 <#,1><#,1><い,0><と,0><し,0>
<い,1><人,1><#,1><#,1> という拡張文字テーブルができ、3文字づつとって(3
−gram),その語分割情報を見ると、 <#,1><#,1><い,0> ←→ い <#,1><い,0><と,0> ←→ いと <い,0><と,0><し,0> ←→ いとし <と,0><し,0><い,1> ←→ いとしい/ <し,0><い,1><人,1> ←→ いとしい/人/ <い,1><人,1><#,1> ←→ いとしい/人/# <人,1><#,1><#,1> というように、「いとしい」と「人」と言う単語を正確
に取り出すことが出来る(これは、2−gramでも1
−gramでも同様にして、単語取り出しが出来
る。)。
【0184】また、同時に連鎖確率を計算することによ
って、「いとしい人」がこの2つの形態素に分割される
場合の「よさ」を評価出来る。
【0185】c)この発明では、拡張文字の連鎖確率を
求めて最適な単語列の並びを決定している。この拡張文
字の連鎖確率が日本語の単語の一般的な単語モデルをも
っているため、辞書を利用する従来方法に比べて未知語
に対する形態素解析が精度良く行える。
【0186】d)さらに、この発明では辞書を必要とし
ないので、品詞等のタグ情報を利用しなくても、語分割
の情報のみで解析出来るという利点がある。この場合、
極めて高速かつ省資源の処理を行える。
【0187】e)さらに、拡張情報として、単語区切り
情報の他にタグ情報を付加する場合には、上述のa)〜
d)に加えて、語分割だけでなく品詞推定も従来に比べ
て高精度および高速で行うことが出来る(上記5−1)
b参照)。例えば、従来法では、候補としての単語列・
品詞列のよさを推定するために品詞の連鎖確率を用いて
いる。しかし、品詞の数はそれほど多くなく、また、タ
グ付きコーパスに付与してある品詞しか使えないため、
単語列の連鎖のよさの表現(評価)能力に限界がある。
もし、品詞の数を極端に多くすると、よりきめ細かく単
語列のよさの評価ができるが、そのようなコーパスを開
発することは至難である。これに比べて、この発明の手
法では、品詞と文字のペアの連鎖を使用するので、たと
えコーパス中に付与してある品詞の数が少なくても、文
字の情報を援用した連鎖で単語列をモデル化するので、
はるかにきめ細かく(各文字ごとの品詞の出現回数を考
慮した)単語列のよさを評価できる。このため、文字列
の分割である単語列候補と、その単語列に付与される品
詞列候補を、使われている文字の傾向まで考慮に入れた
比較が、可能となる。
【0188】f)さらに、拡張情報として、タグ情報の
他、任意の情報(例えば「読み」の情報や「活用」の情
報)を付加することにより、上述のa)〜d)に加え
て、これらに関する解析結果を得ることが出来る。
【0189】上述した効果は、日本語以外の言語、特に
韓国語、中国語、タイ語等の、日本語と同様に単語区切
りが無い書法を持つ言語に対しても、得られると期待さ
れる。
【図面の簡単な説明】
【図1】この発明の形態素解析方法および装置の説明に
供する、装置構成の一例のブロック図である。
【図2】この発明の形態素解析方法を実行する処理の基
本的流れ図である。
【図3】実施の形態例の処理の流れ図である。
【図4】バッファメモリに格納されるデータの内容を説
明するための、バッファの内容を示す図であり、(A)
は第1の実施の形態例におけるバッファの内容、(B)
は第2の実施の形態例におけるバッファの内容である。
【図5】拡張文字列生成の流れ図である。
【図6】連鎖確率を計算する処理の流れ図である。
【図7】第1の実施の形態例におけるスコアテーブルの
説明図であり、(A)は第1の実施の形態例におけるス
コアテーブルの一例を示す図、(B)はそのスコアテー
ブルの内容の一例を示す図である。
【図8】第1の実施の形態例における、参照される拡張
文字テーブルの説明図であり、(A)は第1の実施の形
態例における拡張文字テーブルの一例を示す図、(B)
はその拡張文字テーブルの内容の一例を示す図である。
【図9】第1の実施の形態例における、処理S4の終了
後のスコアテーブルの内容を説明するための図である。
【図10】第2の実施の形態例におけるスコアテーブル
の説明図であり、(A)は第2の実施の形態例における
スコアテーブルの一例を示す図、(B)はそのスコアテ
ーブルの内容の一例を示す図である。
【図11】第2の実施の形態例における、参照される拡
張文字テーブルの説明図であり、(A)は第2の実施の
形態例における拡張文字テーブルの一例を示す図、
(B)はその拡張文字テーブルの内容の一例を示す図で
ある。
【図12】第2の実施の形態例における、処理S4の終
了後のスコアテーブルの内容を説明するための図であ
る。
【図13】最大連鎖確率の出力の処理の流れ図である。
【図14】この発明の形態素解析方法および装置の単語
分割の性能評価を示す図である。
【図15】この発明の形態素解析方法および装置の品詞
分割の性能評価を示す図である。
【図16】この発明の形態素解析処理の実行時間を説明
するための図である。
【符号の説明】
10:入出力装置 20:処理装置 22:拡張文字列生成部 24:連鎖確率計算部 26:最適経路探索部 30:記憶装置 32:拡張文字テーブル 34:スコアテーブル 40:ワークエリア 42:カウンタ 44バッファメモリ 50:第2メモリ領域 52:拡張文字列格納部 54:部分連鎖確率格納部 60,80:拡張文字格納部 62,82:文字格納部 64,84:拡張情報格納部 70:第1メモリ領域(経路格納部) 72:第3メモリ領域(スコア格納部) 90:第4メモリ領域 92:計算段
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成10年2月6日
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】請求項1
【補正方法】変更
【補正内容】
───────────────────────────────────────────────────── フロントページの続き (72)発明者 北村 美穂子 東京都港区虎ノ門1丁目7番12号 沖電気 工業株式会社内 (72)発明者 下畑 さより 東京都港区虎ノ門1丁目7番12号 沖電気 工業株式会社内

Claims (36)

    【特許請求の範囲】
  1. 【請求項1】 言語テキストが入力文として与えられ
    て、該入力文を構成する単語列を出力する日本語形態素
    解析方法において、各文字の直後が単語境界であるかな
    いかの全ての組み合わせの中からもっとも確からしい単
    語列の並びを出力することを特徴とする形態素解析方
    法。
  2. 【請求項2】 (a)言語テキストを入力文として読み
    込むステップと、 (b)前記入力文の入力文字列の文字毎に、少なくとも
    単語区切り情報を含む拡張情報を付加して拡張文字を形
    成し、該拡張文字を用いて前記入力文字列に関する全て
    の拡張文字列を生成するステップと、 (c)生成された全ての前記拡張文字列の連鎖確率を求
    めるステップと、 (d)得られた連鎖確率のなかから最大の値の連鎖確率
    を与える拡張文字列を最適拡張文字列として選択するス
    テップと、 (e)該最適拡張文字列で決まる単語列の並びを含む解
    析結果を形態素解析結果として出力するステップとを含
    むことを特徴とする形態素解析方法。
  3. 【請求項3】 請求項2に記載の形態素解析方法におい
    て、前記入力文の文頭および文末に制御文字を追加して
    前記入力文字列を形成すること特徴とする形態素解析方
    法。
  4. 【請求項4】 請求項2に記載の形態素解析方法におい
    て、前記拡張情報にタグ情報を含ませて前記形態素解析
    結果にタグ列の並びを含ませたことを特徴とする形態素
    解析方法。
  5. 【請求項5】 請求項2に記載の形態素解析方法におい
    て、前記拡張情報に前記単語区切り情報およびタグ情報
    以外の読み情報や活用形情報その他のいずれかの任意情
    報を含ませて前記形態素解析結果に任意情報に関する解
    析結果を含ませたことを特徴とする形態素解析方法。
  6. 【請求項6】 請求項2に記載の形態素解析方法におい
    て、前記単語区切り情報は、前記入力文字列の各文字の
    直後に付加することを特徴とする形態素解析方法。
  7. 【請求項7】 請求項4に記載の形態素解析方法におい
    て、前記単語区切り情報は、前記入力文字列の各文字の
    直後に付加し、および前記タグ情報は、前記単語区切り
    情報の直後に付加することを特徴とする形態素解析方
    法。
  8. 【請求項8】 請求項2に記載の形態素解析方法におい
    て、 前記(a)ステップにおいて、前記入力文をバッファメ
    モリに読み出し自在に格納するサブステップを含み、 前記(b)ステップにおいて、前記入力文字列を前記バ
    ッファメモリから読み出しするサブステップ、および前
    記拡張文字列を第1メモリ領域に読み出し自在に格納す
    るサブステップを含み、 前記(c)ステップにおいて、前記拡張文字列を構成す
    る順次の一定文字数からなる部分拡張文字列のそれぞれ
    に対応する部分連鎖確率を予め学習により求めて第2メ
    モリ領域に読み出し自在に格納しておくサブステップ、
    前記第1メモリ領域から読み出したそれぞれの拡張文字
    列毎に、該拡張文字列を構成する全ての部分連鎖確率を
    前記第2メモリ領域から読み出してきてその積を前記連
    鎖確率としてそれぞれ求めるサブステップ、およびこれ
    ら連鎖確率を第3メモリ領域に読み出し自在に格納する
    サブステップを含むことを特徴とする形態素解析方法。
  9. 【請求項9】 請求項2に記載の形態素解析方法におい
    て、前記単語区切り情報を、当該単語区切り情報が付加
    された文字の文字位置の直後で形態素分割が生じている
    か否かを表す2値情報としたことを特徴とする形態素解
    析方法。
  10. 【請求項10】 (a)言語テキストを入力文として読
    み込んで該入力文の入力文字列の文字毎に、少なくとも
    単語区切り情報を含む拡張情報を付加して拡張文字を形
    成し、該拡張文字を用いて前記入力文字列に関する全て
    の拡張文字列を生成する拡張文字列生成部と、 (b)生成された全ての前記拡張文字列の連鎖確率を求
    める連鎖確率計算部と、 (c)得られた連鎖確率のなかから最大の値の連鎖確率
    を与える拡張文字列を最適拡張文字列として選択し、該
    最適拡張文字列に対応する、単語列の並びを含む解析結
    果を形態素解析結果として出力する最適経路探索部とを
    含むことを特徴とする形態素解析装置。
  11. 【請求項11】 請求項10に記載の形態素解析装置に
    おいて、前記拡張文字列生成部は、前記入力文の文頭お
    よび文末に制御文字を追加して前記入力文字列を形成す
    る制御文字追加手段を含むことを特徴とする形態素解析
    装置。
  12. 【請求項12】 請求項10に記載の形態素解析装置に
    おいて、前記拡張情報はタグ情報を含み、および前記形
    態素解析結果はタグ列の並びを含むことを特徴とする形
    態素解析装置。
  13. 【請求項13】 請求項10に記載の形態素解析装置に
    おいて、前記拡張情報は前記単語区切り情報とタグ情報
    の両情報以外の読み情報や活用形情報その他のいずれか
    の任意情報を含み、および前記形態素解析結果は任意情
    報に関する解析結果を含むことを特徴とする形態素解析
    装置。
  14. 【請求項14】 請求項10に記載の形態素解析装置に
    おいて、前記単語区切り情報は、前記入力文字列の各文
    字の直後に付加してあることを特徴とする形態素解析装
    置。
  15. 【請求項15】 請求項12に記載の形態素解析装置に
    おいて、前記単語区切り情報は、前記入力文字列の各文
    字の直後に付加してあり、および前記タグ情報は、前記
    単語区切り情報の直後に付加してあることを特徴とする
    形態素解析装置。
  16. 【請求項16】 請求項10に記載の形態素解析装置に
    おいて、 前記入力文を格納して該入力文を前記拡張文字列生成部
    へ読み出し出来るバッファメモリと、 前記拡張文字列を格納して該拡張文字列を前記連鎖確率
    計算部へ読み出し出来る第1メモリ領域と、 前記拡張文字列を構成する順次の一定文字数からなる部
    分拡張文字列のそれぞれに対応する、学習により求めら
    れた部分連鎖確率を、予め、格納していて該部分連鎖確
    率を前記連鎖確率計算部へ読み出し出来る第2メモリ領
    域と、 前記連鎖確率を格納して該連鎖確率を前記最適経路探索
    部へ読み出し出来る第3メモリ領域とを具え、さらに前
    記連鎖確率計算部は、前記第1メモリ領域から読み出し
    たそれぞれの拡張文字列毎に、該拡張文字列を構成する
    全ての部分連鎖確率を前記第2メモリ領域から読み出し
    てきてその積を前記連鎖確率としてそれぞれ求める計算
    段を含むことを特徴とする形態素解析装置。
  17. 【請求項17】 請求項10に記載の形態素解析装置に
    おいて、前記バッファメモリは、前記拡張文字列生成部
    によって前記入力文の文頭および文末に制御文字を追加
    して形成された前記入力文字列を該拡張文字列生成部へ
    読み出し自在に格納することを特徴とする形態素解析装
    置。
  18. 【請求項18】 請求項10に記載の形態素解析装置に
    おいて、前記単語区切り情報を、当該単語区切り情報が
    付加された文字の文字位置の直後で形態素分割が生じて
    いるか否かを表す2値情報としたことを特徴とする形態
    素解析装置。
  19. 【請求項19】 日本語テキストが入力文として与えら
    れて、該入力文を構成する単語列を出力する日本語形態
    素解析方法において、各文字の直後が単語境界であるか
    ないかの全ての組み合わせの中からもっとも確からしい
    単語列の並びを出力することを特徴とする日本語形態素
    解析方法。
  20. 【請求項20】 (a)日本語テキストを入力文として
    読み込むステップと、 (b)前記入力文の入力文字列の文字毎に、少なくとも
    単語区切り情報を含む拡張情報を付加して拡張文字を形
    成し、該拡張文字を用いて前記入力文字列に関する全て
    の拡張文字列を生成するステップと、 (c)生成された全ての前記拡張文字列の連鎖確率を求
    めるステップと、 (d)得られた連鎖確率のなかから最大の値の連鎖確率
    を与える拡張文字列を最適拡張文字列として選択するス
    テップと、 (e)該最適拡張文字列で決まる単語列の並びを含む解
    析結果を形態素解析結果として出力するステップとを含
    むことを特徴とする日本語形態素解析方法。
  21. 【請求項21】 請求項20に記載の日本語形態素解析
    方法において、前記入力文の文頭および文末に制御文字
    を追加して前記入力文字列を形成すること特徴とする日
    本語形態素解析方法。
  22. 【請求項22】 請求項20に記載の日本語形態素解析
    方法において、前記拡張情報にタグ情報を含ませて前記
    形態素解析結果にタグ列の並びを含ませたことを特徴と
    する日本語形態素解析方法。
  23. 【請求項23】 請求項20に記載の日本語形態素解析
    方法において、前記拡張情報に前記単語区切り情報およ
    びタグ情報以外の読み情報や活用形情報その他のいずれ
    かの任意情報を含ませて前記形態素解析結果に任意情報
    に関する解析結果を含ませたことを特徴とする日本語形
    態素解析方法。
  24. 【請求項24】 請求項20に記載の日本語形態素解析
    方法において、前記単語区切り情報は、前記入力文字列
    の各文字の直後に付加することを特徴とする日本語形態
    素解析方法。
  25. 【請求項25】 請求項22に記載の日本語形態素解析
    方法において、前記単語区切り情報は、前記入力文字列
    の各文字の直後に付加し、および前記タグ情報は、前記
    単語区切り情報の直後に付加することを特徴とする日本
    語形態素解析方法。
  26. 【請求項26】 請求項20に記載の日本語形態素解析
    方法において、 前記(a)ステップにおいて、前記入力文をバッファメ
    モリに読み出し自在に格納するサブステップを含み、 前記(b)ステップにおいて、前記入力文字列を前記バ
    ッファメモリから読み出しするサブステップ、および前
    記拡張文字列を第1メモリ領域に読み出し自在に格納す
    るサブステップを含み、 前記(c)ステップにおいて、前記拡張文字列を構成す
    る順次の一定文字数からなる部分拡張文字列のそれぞれ
    に対応する部分連鎖確率を予め学習により求めて第2メ
    モリ領域に読み出し自在に格納しておくサブステップ、
    前記第1メモリ領域から読み出したそれぞれの拡張文字
    列毎に、該拡張文字列を構成する全ての部分連鎖確率を
    前記第2メモリ領域から読み出してきてその積を前記連
    鎖確率としてそれぞれ求めるサブステップ、およびこれ
    ら連鎖確率を第3メモリ領域に読み出し自在に格納する
    サブステップを含むことを特徴とする日本語形態素解析
    方法。
  27. 【請求項27】 請求項20に記載の日本語形態素解析
    方法において、前記単語区切り情報を、当該単語区切り
    情報が付加された文字の文字位置の直後で形態素分割が
    生じているか否かを表す2値情報としたことを特徴とす
    る日本語形態素解析方法。
  28. 【請求項28】 (a)日本語テキストを入力文として
    読み込んで該入力文の入力文字列の文字毎に、少なくと
    も単語区切り情報を含む拡張情報を付加して拡張文字を
    形成し、該拡張文字を用いて前記入力文字列に関する全
    ての拡張文字列を生成する拡張文字列生成部と、 (b)生成された全ての前記拡張文字列の連鎖確率を求
    める連鎖確率計算部と、 (c)得られた連鎖確率のなかから最大の値の連鎖確率
    を与える拡張文字列を最適拡張文字列として選択し、該
    最適拡張文字列に対応する、単語列の並びを含む解析結
    果を形態素解析結果として出力する最適経路探索部とを
    含むことを特徴とする日本語形態素解析装置。
  29. 【請求項29】 請求項28に記載の日本語形態素解析
    装置において、前記拡張文字列生成部は、前記入力文の
    文頭および文末に制御文字を追加して前記入力文字列を
    形成する制御文字追加手段を含むことを特徴とする日本
    語形態素解析装置。
  30. 【請求項30】 請求項28に記載の日本語形態素解析
    装置において、前記拡張情報はタグ情報を含み、および
    前記形態素解析結果はタグ列の並びを含むことを特徴と
    する日本語形態素解析装置。
  31. 【請求項31】 請求項28に記載の日本語形態素解析
    装置において、前記拡張情報は前記単語区切り情報とタ
    グ情報の両情報以外の読み情報や活用形情報その他のい
    ずれかの任意情報を含み、および前記形態素解析結果は
    任意情報に関する解析結果を含むことを特徴とする日本
    語形態素解析装置。
  32. 【請求項32】 請求項28に記載の日本語形態素解析
    装置において、前記単語区切り情報は、前記入力文字列
    の各文字の直後に付加してあることを特徴とする日本語
    形態素解析装置。
  33. 【請求項33】 請求項30に記載の日本語形態素解析
    装置において、前記単語区切り情報は、前記入力文字列
    の各文字の直後に付加してあり、および前記タグ情報
    は、前記単語区切り情報の直後に付加してあることを特
    徴とする日本語形態素解析装置。
  34. 【請求項34】 請求項28に記載の日本語形態素解析
    装置において、 前記入力文を格納して該入力文を前記拡張文字列生成部
    へ読み出し出来るバッファメモリと、 前記拡張文字列を格納して該拡張文字列を前記連鎖確率
    計算部へ読み出し出来る第1メモリ領域と、 前記拡張文字列を構成する順次の一定文字数からなる部
    分拡張文字列のそれぞれに対応する、学習により求めら
    れた部分連鎖確率を、予め、格納していて該部分連鎖確
    率を前記連鎖確率計算部へ読み出し出来る第2メモリ領
    域と、 前記連鎖確率を格納して該連鎖確率を前記最適経路探索
    部へ読み出し出来る第3メモリ領域とを具え、さらに前
    記連鎖確率計算部は、前記第1メモリ領域から読み出し
    たそれぞれの拡張文字列毎に、該拡張文字列を構成する
    全ての部分連鎖確率を前記第2メモリ領域から読み出し
    てきてその積を前記連鎖確率としてそれぞれ求める計算
    段を含むことを特徴とする日本語形態素解析装置。
  35. 【請求項35】 請求項28に記載の日本語形態素解析
    装置において、前記バッファメモリは、前記拡張文字列
    生成部によって前記入力文の文頭および文末に制御文字
    を追加して形成された前記入力文字列を該拡張文字列生
    成部へ読み出し自在に格納することを特徴とする日本語
    形態素解析装置。
  36. 【請求項36】 請求項28に記載の日本語形態素解析
    装置において、前記単語区切り情報を、当該単語区切り
    情報が付加された文字の文字位置の直後で形態素分割が
    生じているか否かを表す2値情報としたことを特徴とす
    る日本語形態素解析装置。
JP02192998A 1997-03-21 1998-02-03 形態素解析方法および装置、並びに日本語形態素解析方法および装置 Expired - Fee Related JP3992348B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP02192998A JP3992348B2 (ja) 1997-03-21 1998-02-03 形態素解析方法および装置、並びに日本語形態素解析方法および装置
US09/044,137 US6098035A (en) 1997-03-21 1998-03-19 Morphological analysis method and device and Japanese language morphological analysis method and device

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP9-68300 1997-03-21
JP6830097 1997-03-21
JP02192998A JP3992348B2 (ja) 1997-03-21 1998-02-03 形態素解析方法および装置、並びに日本語形態素解析方法および装置

Publications (2)

Publication Number Publication Date
JPH10326275A true JPH10326275A (ja) 1998-12-08
JP3992348B2 JP3992348B2 (ja) 2007-10-17

Family

ID=26359080

Family Applications (1)

Application Number Title Priority Date Filing Date
JP02192998A Expired - Fee Related JP3992348B2 (ja) 1997-03-21 1998-02-03 形態素解析方法および装置、並びに日本語形態素解析方法および装置

Country Status (2)

Country Link
US (1) US6098035A (ja)
JP (1) JP3992348B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012042991A (ja) * 2010-08-12 2012-03-01 Fuji Xerox Co Ltd 文作成プログラム及び文作成装置

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0952531A1 (en) * 1998-04-24 1999-10-27 BRITISH TELECOMMUNICATIONS public limited company Linguistic converter
JP2001249922A (ja) * 1999-12-28 2001-09-14 Matsushita Electric Ind Co Ltd 単語分割方式及び装置
JP4543294B2 (ja) * 2000-03-14 2010-09-15 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
JP4947861B2 (ja) * 2001-09-25 2012-06-06 キヤノン株式会社 自然言語処理装置およびその制御方法ならびにプログラム
JP4001283B2 (ja) * 2003-02-12 2007-10-31 インターナショナル・ビジネス・マシーンズ・コーポレーション 形態素解析装置および自然言語処理装置
JP3768205B2 (ja) * 2003-05-30 2006-04-19 沖電気工業株式会社 形態素解析装置、形態素解析方法及び形態素解析プログラム
JP3956368B2 (ja) * 2003-10-16 2007-08-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 形態素解析システム
US7493293B2 (en) * 2006-05-31 2009-02-17 International Business Machines Corporation System and method for extracting entities of interest from text using n-gram models
US8140267B2 (en) * 2006-06-30 2012-03-20 International Business Machines Corporation System and method for identifying similar molecules
US20080208566A1 (en) * 2007-02-23 2008-08-28 Microsoft Corporation Automated word-form transformation and part of speech tag assignment
US20120290601A1 (en) * 2007-11-15 2012-11-15 Master Wave International Co., Ltd. Image-based Data Management Method and System
JP5927955B2 (ja) * 2012-02-06 2016-06-01 カシオ計算機株式会社 情報処理装置及びプログラム
JP6070809B1 (ja) * 2015-12-03 2017-02-01 国立大学法人静岡大学 自然言語処理装置及び自然言語処理方法
US10606815B2 (en) 2016-03-29 2020-03-31 International Business Machines Corporation Creation of indexes for information retrieval
WO2018146864A1 (ja) * 2017-02-07 2018-08-16 パナソニックIpマネジメント株式会社 翻訳装置および翻訳方法
IT201900002235A1 (it) 2019-02-15 2020-08-15 Univ Ca Foscari Di Venezia Sistema e metodo per l’unione di morfemi in unita’ lessicali e relativa trascrizione in sillabe hiragana e in caratteri latini di un testo giapponese

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2732563B2 (ja) * 1986-05-20 1998-03-30 株式会社東芝 機械翻訳方法及び装置
JP3009215B2 (ja) * 1990-11-30 2000-02-14 株式会社日立製作所 自然語処理方法および自然語処理システム
ES2101613B1 (es) * 1993-02-02 1998-03-01 Uribe Echebarria Diaz De Mendi Metodo de traduccion automatica interlingual asistida por ordenador.
JP2583386B2 (ja) * 1993-03-29 1997-02-19 日本電気株式会社 キーワード自動抽出装置
JP3309174B2 (ja) * 1995-05-15 2002-07-29 日本電信電話株式会社 文字認識方法及び装置
US5835893A (en) * 1996-02-15 1998-11-10 Atr Interpreting Telecommunications Research Labs Class-based word clustering for speech recognition using a three-level balanced hierarchical similarity
US5963893A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Identification of words in Japanese text by a computer system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012042991A (ja) * 2010-08-12 2012-03-01 Fuji Xerox Co Ltd 文作成プログラム及び文作成装置

Also Published As

Publication number Publication date
US6098035A (en) 2000-08-01
JP3992348B2 (ja) 2007-10-17

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
US7328404B2 (en) Method for predicting the readings of japanese ideographs
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
Tufiş et al. DIAC+: A professional diacritics recovering system
Uchimoto et al. Morphological analysis of the Corpus of Spontaneous Japanese
JP3309174B2 (ja) 文字認識方法及び装置
JP2002503849A (ja) 漢字文における単語区分方法
KR102182248B1 (ko) 문법 검사 시스템 및 방법과 이를 위한 컴퓨터 프로그램
Uchimoto et al. Morphological analysis of a large spontaneous speech corpus in Japanese
JPH11238051A (ja) 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体
JP3953772B2 (ja) 読みがな付与装置およびプログラム
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
JPS60254367A (ja) 文章分析装置
WO1999001828A1 (en) FSTs APPROXIMATING HIDDEN MARKOV MODELS AND TEXT TAGGING USING SAME
JP2959769B2 (ja) 日本語文字列の形態素解析方法及び装置
JP3939264B2 (ja) 形態素解析装置
JP2002351870A (ja) 形態素の解析方法
JP3628565B2 (ja) 辞書検索方法、装置、および辞書検索プログラムを記録した記録媒体
JP2004326584A (ja) 対訳固有表現抽出装置及び方法、対訳固有表現抽出プログラム
Bhuyan et al. Generation of Missing Words in Assamese text using N-gram based Model
JP3084864B2 (ja) 文章入力装置
JPH0546612A (ja) 文章誤り検出装置

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20031217

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040113

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040311

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040531

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20040625

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070724

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100803

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees