JPH10326275A - 形態素解析方法および装置、並びに日本語形態素解析方法および装置 - Google Patents
形態素解析方法および装置、並びに日本語形態素解析方法および装置Info
- Publication number
- JPH10326275A JPH10326275A JP10021929A JP2192998A JPH10326275A JP H10326275 A JPH10326275 A JP H10326275A JP 10021929 A JP10021929 A JP 10021929A JP 2192998 A JP2192998 A JP 2192998A JP H10326275 A JPH10326275 A JP H10326275A
- Authority
- JP
- Japan
- Prior art keywords
- extended
- information
- character string
- character
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
来、しかも、省資源化を図ること。 【解決手段】 入力文の各文字ci に、単語区切り情報
di の他にタグ情報等の所要の任意情報を含む拡張情報
を付加して拡張文字ei を生成して、可能な全ての拡張
文字列を生成する。予め、訓練により、N−gram
(通常、N=1か2か3)の文字列の部分連鎖確率(出
現確率)を拡張文字テーブルに格納しておく。拡張文字
列の部分文字列を、拡張文字列の文頭から順次に取り出
して、それぞれの部分連鎖確率を拡張文字テーブルを参
照して求め、求めた部分連鎖確率の積を求める。この積
を、全ての拡張文字列に対して求め、その積の大きいも
のに対応する文字列の順に、単語列の並びの他、タグ列
の並びや任意情報の解析結果等を形態素解析結果として
出力する。
Description
に確率的手法を利用することによって、辞書を用いるこ
となく、電子化された言語テキストを形態素解析する方
法および装置に関する。
であり、日本語処理における形態素解析処理も、構文解
析処理などのそれ以降の処理にとってきわめて重要であ
る。特に、ワードプロセッサによるテキスト作成の普
及、インターネットの普及により大量の電子化された日
本語テキストが容易に入手可能となっている。ワードプ
ロセッサその他のコンピュータ装置でこれらテキストを
検索、構成、比較、分類、要約等の処理を行うために
は、単語や句等の文中の意味単位を切り出すこと、すな
わち、形態素解析が正しく行われることが大前提であ
る。この形態素解析を誤ると、後段での構文解析処理や
意味解析処理等においてその誤りを修復することが困難
である。たとえその修復が可能であったとして、その処
理は複雑化し、従って、大量のテキストを期待された時
間内に処理することが出来なくなってしまう。形態素解
析処理においては、英語などの単語区切り記号として空
白を使用するという正書法が備わっている言語テキスト
と比べると、単語区切りが無い日本語等の言語は品詞の
推定とともに、単語分割が高精度でかつ高速で行えるか
どうかが大きな課題となる。
語と同様に単語区切りが無い書法をもつ言語も上述した
と同様な課題を有している。
かれており、品詞等のタグを単語に与えるだけでよい英
語の形態素解析手法においては、大きなテキストから品
詞やその配列であるタグ系列の確率モデルを推定し、さ
らに、例に基づく誤り訂正を加えた手法が確立してい
る。一方、日本語においても、この英語に対する手法を
応用した例がいくつか提案されている。確率モデルを用
いた一例として、日本電信電話株式会社から出願された
文献I:「特開平8−315078号」で提案された
「日本語文字認識方法及び装置」がある。
適な形態素解析結果を求めるためには、周知の通り、あ
る文において、形態素列と各形態素に付与されたタグ列
の同時確率を最大にするような形態素列およびタグ列を
求めれば良い。なお、同時確率とは、ある形態素候補と
あるタグ列候補とが同時に起こるときの確率である。英
語においては単語区切りが分かっているため、形態素列
は一定となり、最適なタグ列を推定する。しかし、日本
語や韓国語、中国語、タイ語等の分かち書きをしない言
語では、単語区切りがはっきりしていないので、可能性
のあるすべての単語区切りにおける単語列に対してその
確率を比較せねばならない。しかし、それぞれの単語列
はその単語区切りの違いによって単語列の長さが異なる
ため、この長さの異なる単語列を比較するために、長さ
に関する条件が近似として含まれてしまう。
て、簡単に説明する。形態素解析とは、ある入力文に対
して、入力文字列の最適な形態素列Wとタグ列Tを求め
ることである。これは、形態素列Wとタグ列Tの同時確
率p(W,T)を最大化する連鎖確率モデルを選択する
ことにより実現出来る。一般には、以下の式(1)の連
鎖確率モデルが用いられている(文献I参照)。なお、
連鎖確率とは、あるn個(nは任意の数)の文字が連続
して出現する確率をいう。
の文字位置iでの形態素、ti はタグ列中の文字位置i
でのタグ、Nは参照する文字組の数で通常はN=1また
は2または3である。length(W)は入力単語列
の長さ、すなわち、入力文の構成単語数である。
を、以下、品詞N−gramモデルと呼ぶ。この(1)
式では、入力形態素列の長さlength(W)による
条件が入っているので、正確には、(1)式のp(W,
T)にはlength(W)に関する近似が含まれる。
英語の場合は、形態素列の長さは固定であるため、最大
確率のp(W,T)を求める場合に問題はない。しか
し、日本語の場合には、形態素の区切りが分からないた
め、入力文の文字列と辞書を使って、形態素のネットワ
ーク(半順序関係を構成する。)を得た後、この半順序
構造中のすべてのパスの確率を品詞N−gramモデル
で計算する必要がある。この場合、日本語では、形態素
の区切りが所与でないため、長さ(length
(W))の異なる形態素列の確率を比較しなければなら
ない。このため、英語では問題とならなかった長さによ
る条件付き確率で近似している(1)式は、日本語にお
いては、近似が1段多いことになる。すなわち、英語の
場合とは異なり、日本語ではすべての可能な候補に対し
ての連鎖確率を同じ条件で比較していないことになる。
(各形態素は長い。)が優先されることが起こる。それ
は、長い系列の方が可能な系列の数が多いので、1つの
可能性あたりの平均的な連鎖確率が小さくなるためであ
る。
この文字列が辞書に存在していなかった場合、確率モデ
ルの解析手法に新たな問題が起こる。英語の場合には、
未知語があってもその未知語に対して全ての可能なタグ
を考慮するだけで、特に確率モデルに改良を加える必要
はない。また、可能なタグの数は比較的少ないので(数
十個)、かなりの精度で品詞を正しく推定することも出
来る。しかし、日本語における未知語の場合には、未知
語を構成する文字列の全ての可能な位置(どの位置で分
割されるか)、全ての可能な長さ(どういう文字構成の
語か)、それぞれの形態素において全ての可能なタグの
組み合わせを考慮しなければならないため、単純な確率
モデルでは計算量的に実現不可能となる。
いので、半順序構造を得ることが出来ない。
して文字の連鎖確率を用いた単語モデルを導入すること
によって未知語に対処している。しかし、この手法は、
単語内での連鎖確率しか使用しておらず、その単語が前
後の文脈によってどれくらい可能性があるのかについて
は、品詞の連鎖確率により間接的にしか表現されていな
い。すなわち、文脈全体の(未知の文字列の範囲を越え
た文字列における)連鎖確率を使用しなければ、正しく
未知の文字列を認定したり、区切ることができない。
語ベースの手法であるため、形態素解析システムが未知
語があると仮定した場合、文中の全ての位置で、任意の
長さの単語候補の組み合わせを考慮しなければならず、
従って、計算量の増大を引き起こしてしまう。
なる。
ベースとしているため、日本語の場合は辞書が不可欠と
なる。しかし、辞書があっても、未知語が存在する場合
には、辞書が使えないため、単語分割に影響を与える。
るため、分割単語数は一定である英語の確率モデルをそ
のまま適用することが出来ない。例えば、分割単語数の
異なる2つの分割を比較すると、分割数の少ない、すな
わち、長い単語からなる分割が有意な評価値を得やす
い。
理効率上の新たな問題が生じる。すなわち、従来の手法
では、単語をベースにしているため、単に語を区切るだ
けでも、辞書が不可欠となる。従って、辞書を作成する
という面倒な作業を必要とし、その辞書を格納する資源
も必要となる。さらに、処理実行時には、辞書を参照す
るため、メモリ消費量も大きくなり、しかも、処理時間
も長くなる。
も、辞書を用いる必要が無く、確率計算が分割単語数に
依存せずに高精度で高速に形態素解析処理ができしかも
省資源化が図れる形態素解析方法および装置や日本語形
態素解析方法および装置の出現が望まれていた。
る発明者は、種々の研究および実験を行って、単語では
なく文字をベースとして形態素解析を行えば、上述した
種々の問題点を解決出来るという確信に至った。その理
由は以下の通りである。すなわち、日本語を例に説明す
ると、日本語の文字は一般に使われているもので3,0
00〜6,000種あり、英語と異なり文字自体がかな
りの情報を持っている。そして、その種類も現在の計算
機能力にとって確率モデルを構成するのにちょうどよい
大きさになっている。このため、文字をベースとすれ
ば、辞書が必要なくなるので、上記1)の問題の解決が
はかれること、また、文字の長さは1文(改行文字で区
切られた単位の文字列のことを言う。)において一定で
あるため、上記2)の問題も解決出来ること、および、
上記1)および2)が解決出来れば、必然的に3)の問
題も解決できることにある。
装置や日本語形態素解析方法および装置では、基本的に
は、文字をベースとして形態素解析を行うに当たり、言
語テキスト、例えば日本語テキストが入力文として与え
られたときに、この入力文を構成する単語列として、各
文字の直後が単語境界であるか否かのあらゆる組み合わ
せの中から最も確からしい単語列の並びを出力させるこ
とを特徴とするものである。
び日本語形態素解析方法によれば、次のようなステップ
を含む処理を行うことを特徴とする。すなわち、 (a)ステップ:言語テキスト、例えば日本語テキスト
を入力文として読み込む。
文字列の文字毎に、少なくとも単語区切り情報を含む拡
張情報を付加して拡張文字を形成し、形成された拡張文
字を用いてこの入力文字列に関する全ての拡張文字列を
候補として生成する。
拡張文字列の連鎖確率を候補として求める。
のなかから最大値を有する連鎖確率を求め、この最大連
鎖確率を与える拡張文字列を最適拡張文字列として候補
のなかから選択する。
いて、この最適拡張文字列で決まる単語列の並びを含む
解析結果を形態素解析結果として出力させる。
記の通りの構成要件を具えることを特徴とする。すなわ
ち、(a)言語テキスト、例えば日本語テキストを入力
文として読み込んできて、この入力文の入力文字列の文
字毎に、少なくとも単語区切り情報を含む拡張情報を付
加して拡張文字を形成し、この形成された拡張文字を用
いて上述の入力文字列に関する全ての拡張文字列を候補
として生成する拡張文字列生成部、(b)生成された全
ての拡張文字列の連鎖確率を候補として求める連鎖確率
計算部、および(c)得られた連鎖確率の候補のなかか
ら最大の値の連鎖確率を求め、この最大連鎖確率を与え
る拡張文字列を最適拡張文字列として選択し、この最適
拡張文字列に対応する、単語列の並びを含む解析結果を
形態素解析結果として出力する最適経路探索部の各構成
要件である。
るが、通常の文字とは異なり、ある文字にその文字の語
分割や品詞等の文字以外の情報を含んだ文字を言う。
ば、単語ベースでは無く、文字をベースとして確率計算
を行う手法を採用しているので、下記の効果を奏する。
で、分割数が確率計算に影響を及ぼすことが無く、従っ
て、従来よりも高精度に語分割処理を行える。
いないので、辞書の作成作業等という面倒で複雑な作業
を必要とせず、従って、従来よりも形態素解析処理の高
速化が図れる。
単語の一般的な単語モデルを持っているため、辞書を利
用する従来方法よりも、未知語に対しより高精度に形態
素解析が可能となる。
詞等のタグ情報を利用しなくても語分割の情報のみで形
態素解析ができる。この場合、高速かつ省資源の処理を
行うことが出来る。
力文の文頭および文末に制御文字を追加して入力文字列
を形成するのが良い。このようにすると、部分拡張文字
列(後述する)の長さを全ての文字につき揃えられるの
で、より正確に確率計算が出来、従って形態素解析の精
度をより高めることが出来る。
切り情報の他にタグ情報を拡張情報として加えれば、語
分割だけでは無く、品詞等のタグについても従来より高
精度に形態素解析が可能となる。
の情報を拡張情報に加えれば、「読み」や「活用」情報
等の任意情報についても、高精度でかつ高速に形態素解
析できる。
は、単語区切り情報を2値情報とするのが良い。単語区
切り情報は、これが付加された文字の直後で形態素分割
が生じているかいないかの2つの状態のいずれかである
ので、これを表す情報としてはコンピュータ処理分野で
一般に使用される2値情報(通常は「1」と「0」)を
用いれば済む。2値情報であればその取扱いも簡単容易
となり、従って、装置の構造を簡単化出来ると共に、形
態素解析処理の高速化が図れる。
くは、下記のサブステップ処理をそれぞれ含ませるのが
よい。
をバッファメモリに読み出し自在に格納するサブステッ
プを含ませること。
字列をバッファメモリから読み出しするサブステップ、
および拡張文字列を第1メモリ領域に読み出し自在に格
納するサブステップを含ませること。
字列を構成する順次の一定文字数からなる部分拡張文字
列のそれぞれに対応する部分連鎖確率を予め学習により
求めて第2メモリ領域に読み出し自在に格納しておくサ
ブステップ、前述の第1メモリ領域から読み出したそれ
ぞれの拡張文字列毎に、該拡張文字列を構成する全ての
部分連鎖確率を前述の第2メモリ領域から読み出してき
てその積を前述の連鎖確率としてそれぞれ求めるサブス
テップ、およびこれら連鎖確率を第3メモリ領域に読み
出し自在に格納するサブステップを含ませること。
の発明の装置には、上述したバッファメモリ、第1メモ
リ領域、第2メモリ領域、第3メモリ領域を具える他
に、連鎖確率計算部には読み出された部分連鎖確率の積
を計算して連鎖確率を与える計算段を具えるのが良い。
簡単な構成で、迅速に行える。
実施の形態につき説明する。実施の形態では、日本語を
例に説明するが、韓国語、中国語、タイ語等の、日本語
と同様に単語区切りが無い書法を持つ言語に対し、適用
出来る。まず、この発明の説明に必要な事項につき簡単
に説明する。
決を図るために、形態素単位の品詞N−gramモデル
を利用する代わりに、拡張文字単位の時系列モデルを利
用する。拡張文字単位の時系列モデルおよび最も基本的
な拡張文字(タグを付与せずに単語分割だけを求める場
合)の定義は、下記の式(2)〜(3)で与えられる。
なお、拡張文字はどのような拡張文字を使用するかによ
って、いくつかのバリエーションが考えられる。
ei の連鎖確率(ここでは、部分連鎖確率とも称す
る。)を用いて拡張文字列の連鎖確率p(W,T)を求
める。ここでnは入力文字の長さ、NはN−gramの
Nすなわち最適解を求めるために参照する文字組の長さ
(文字組を構成する文字数)、ei は形態素列Wおよび
タグTの情報から決定される拡張文字であるとする。
は、文頭および文末を表す特殊な拡張文字であるとす
る。
「彼」、「は」などの通常の文字とは異なり、語分割や
品詞などのような文字以外の情報を含んだ文字である。
(3)式の拡張文字ei を構成するci は、入力文字の
位置iにおける文字およびdiは、文字ci の前または
後ろにおける区切り情報である。例えば、区切り情報と
しては文字ci の位置iの直後で形態素分割されている
かどうかで2値の値を取る情報とするのが簡単である。
すなわち、分割されている場合には、di =0とし、分
割されていない場合にはdi =1とすればよい。
持たせた拡張文字ei を用いたモデルを文字境界モデル
(character boundary mode
l)と称し、例えば、「彼」の拡張文字ei は<彼,0
>のように表記する。
必須であるため、単語分割に関する情報は、本来的であ
り、品詞などのタグ情報を含ませる方法の場合でも不可
欠である。この区切り情報と文字の組み合わせを利用す
る点が、従来の単語レベルの情報を用いた形態素解析手
法との決定的な違いである。
せることが出来、次式(4)のように表記する。
文字列中の文字ci の位置iをその位置を含む形態素の
番号(形態素位置)に変換する関数である。ここでの拡
張文字ei は、上述した文字境界モデルにおける拡張文
字ei に、形態素列Wおよびタグ列Tにおいてその文字
ci を含む形態素のタグを付加したものとなる。このモ
デルを文字タグモデル(character tag
model)と称する。タグ情報としては、「品詞」の
他に「読み情報」や「活用形」等が考えられるが、これ
らタグ情報だけでなく、任意の情報例えば「読み」の情
報などを任意の個数だけ与えることによって、その情報
に関する形態素解析結果を得るようにすることもでき
る。品詞を与えた例では、「彼」の拡張文字ei は、<
彼,0,代名詞>のように表記する。
態につき、文字境界モデルと文字タグモデルの2つのモ
デルを例に挙げて説明する。
る構成要件につき説明する。
の構成の一例を示すブロック図である。この装置は、入
出力装置10と、処理装置20と、記憶装置30と、ワ
ークエリア40を主として具えていて、コンピュータの
ハードウエア資源を用いて構成してある。従って、これ
ら装置を制御する制御部等の、駆動させるために必要な
機能は当然具えている。
要の情報をこの装置へ入力させるための装置であって、
通常のキーボード、マウス、OCR、音声入力装置等の
任意好適な手段で構成してもよいし、或は外部からの通
信信号を受信する手段として構成してもよい。また、出
力部は、通常のコンピュータ装置の場合と同様に、この
装置で得られた結果の所要の情報を外部の種々の表示手
段や通信受信手段等へ出力出来る構成となっている。
と、連鎖確率計算部24と、最適経路探索部26とを主
として具えている。
る日本語テキストを入力文として読み込んで、この入力
文の入力文字列の文字毎に、少なくとも単語区切り情報
を含む拡張情報を付加して拡張文字を形成し、これら拡
張文字を用いて入力文字列に関する全ての拡張文字列を
生成する。すなわち、拡張文字列生成部22は、入出力
装置10から入力されたテキストから全ての拡張文字列
を生成する。
全ての拡張文字列の連鎖確率を求める。
鎖確率のなかから最大の値の連鎖確率を与える拡張文字
列を最適拡張文字列として選択し、この最適拡張文字列
に対応する、単語列の並びを含む解析結果を形態素解析
結果として出力する。或は、最大の値の連鎖確率を与え
る拡張文字列のみではなく、確率が小さくなる順に、対
応する拡張文字列を、順次に、出力させても良い。
と、スコアテーブル34とを主として具えている。
ei ei-1 ei-2 ・・・ei-N+1 とその連鎖確率(部分
連鎖確率)p(ei |ei-1 ei-2 ・・・ei-N+1 )を
格納するテーブルで、第2メモリ領域50としての拡張
文字列格納部52および部分連鎖確率格納部54とを有
している。この拡張文字テーブル32は、上述した連鎖
確率を求めるときに連鎖確率計算部24によって参照さ
れる。
納部60を有している。また、拡張文字格納部60は文
字格納部62と区切り情報を含む拡張情報の格納部(拡
張情報格納部という。)64とを有している。文字格納
部62には、文字ci を、拡張情報格納部64には文字
ci の区切り情報di やタグ情報ti 等の拡張情報をそ
れぞれ格納する。
の全ての拡張文字列の経路〔W,T〕と、その同時確率
(連鎖確率)p(W,T)を格納するテーブルで、第1
メモリ領域としての経路格納部70と第3メモリ領域と
してのスコア格納部72とを有している。経路格納部7
0は、拡張文字格納部60と同様に、n個(nは読み込
まれたテキストの文字数)の拡張文字格納部80を有
し、この拡張文字格納部80は、文字格納部82と区切
り情報を含む拡張情報を格納する拡張情報格納部84を
有している。この経路格納部70には、生成された全て
の拡張文字列が拡張文字列生成部22によって格納され
る。また、スコア格納部72には、連鎖確率計算部24
によって、計算されて得られた全ての連鎖確率が記録さ
れる。
の処理を行うためのエリアでカウンタ42およびバッフ
ァメモリ44を有している。
のような処理ステップで動作させることができる。この
処理の流れ図を図2に示す。なお図において、ステップ
を記号Sで表記する。
によりに日本語テキストを入力文として読み込む。この
場合、好ましくは、読み込んだ入力文をバッファメモリ
44に読み出し自在に格納する。
力文字列の文字毎に、少なくとも単語区切り情報を含む
拡張情報を付加して拡張文字を形成し、形成した拡張文
字を用いて入力文字列に関する全ての拡張文字列を生成
する。この場合、好ましくは、入力文をバッファメモリ
44から拡張文字列生成部22へ読み出してきて拡張文
字の付加を行う。生成された拡張文字列は第1メモリ領
域である経路格納部70に読み出し自在に格納する。
の拡張文字列の連鎖確率を求める。この場合、好ましく
は、この計算に当たり、拡張文字列を構成する順次の一
定数、すなわち、この計算のときに参照される文字組の
数(N)(通常、N=1または2または3である)から
なる部分拡張文字列のそれぞれに対応する部分連鎖確率
を予め学習(訓練)により求めておき、その部分連鎖確
率を第2メモリ領域である拡張文字テーブル32に読み
出し自在に格納しておく。そして、第1メモリ領域70
から読み出したそれぞれの拡張文字列毎に、これら拡張
文字列を構成する全ての部分連鎖確率をこの第2メモリ
領域50から読み出してきて、その積を計算して連鎖確
率として求める。得られた連鎖確率を第3メモリ領域で
あるスコア格納部72に読み出し自在に格納する。
率のなかから最大の値の連鎖確率を与える拡張文字列を
最適拡張文字列として選択する。この場合、好ましく
は、第3メモリ領域72に記録された拡張文字列の確率
を比較して選択する。
列で決まる単語列の並びを含む解析結果を形態素解析結
果として出力する。この場合、必要ならば、下位の大き
さの連鎖確率に対応する拡張文字列をこの確率の大きい
方から順次出力させることも出来る。
のみを利用した場合につき説明する。
おける処理の流れを説明するための流れ図である。この
形態例において、形態素解析は1文すなわち改行文字で
区切られた単位の文字列を入力単位とする。また、「今
日は」(入力文字の長さn=3)を入力した場合を例
に、3文字(N=3)の部分連鎖確率を用いた処理の流
れにつき説明する。
文字テーブルやスコアテーブルの図では、文字格納部と
拡張情報格納部を<ci ,di >のように表現する。
の制御部(図示せず)からの読み込み指令に応じて入出
力装置10からテキストの文字文「今日は」が入力さ
れ、バッファメモリ44に読み込まれる(S1)。
文末に、拡張文字列生成部22からの指令によって(N
−1)個の制御文字を文頭c-(N-1)+1,・・・,c0
に、および文末cn+1 ,・・・,cn+(N-1) に挿入する
(S2)。この例では、N=3であるので、文頭と文末
にそれぞれc-1,c0 ,とc4 ,c5 の2個の制御文字
をそれぞれ挿入する。この制御文字を記号#で示してあ
る。この制御文字が挿入された後のバッファメモリ44
の内容例を図4の(A)に示す。この例では、各文字c
-1,c0 ,・・・c5 の文字位置順にその対応する具体
的な#,#,「今」、「日」、「は」、#、#の文字が
上下に互いに対応した関係で格納してある。
gram連鎖確率を求める上で周知の一般的手法であ
る。制御文字は、文頭および文末を示す特殊文字である
ので、テキスト(本文)と区別出来る記号等の文字を使
用している。この制御文字の挿入は、予め制御文字を所
要のメモリ領域に格納しておいて、バッファメモリに入
力文が読み込まれたとき、自動的に挿入するようにして
も良いし、外部からの指令により挿入しても良い。ま
た、この制御文字を挿入する理由は、以下述べる理由に
よる。通常、i番目の文字ci の出現確率を推定するの
に(i−N+1)番目から(i−1)番目の文字の推定
確率が必要になる。しかし、iがNよりも小さい場合、
iの値はマイナスとなり、存在しない文字の出現確率が
得られてしまう。そこで、便宜上、(N−1)個の文字
を挿入し、iがNよりも小さい場合であっても、文字c
i の出現確率を推定できるようにするために、制御文字
#を挿入する。
な拡張文字列を生成し、これらをスコアテーブル34の
経路格納部70に格納する(S3)。この生成処理S3
の詳細を図5に示す。
拡張文字列生成部22は、上述の制御文字挿入処理の終
了信号に応動してバッファメモリ44から順次に文字c
i を読み出してきて、各文字ci に対して全ての単語区
切り情報di を組み合わせた拡張文字を生成する(S3
01)。なお、区切りの情報の記述には、いくつかの方
法が考えられるが、ここでは、文字位置iの直後で形態
素分割されている場合にはdi =1、そうでない場合は
di =0、従って、単語区切り情報di を2値の「0」
と「1」をとるものとする。
#,0>,<今,0>,<日,0>,<は,0>,<
#,0>,<#,0>等と、<#,1>,<#,1>,
<今,1>,<日,1>,<は,1>,<#,1>,<
#,1>等とが形成される。この拡張文字ci の文字の
部分を文字格納部62に及び単語区切り情報di を拡張
情報格納部64に互いに対応付けて格納する。
み合わせ(経路)をスコアテーブル34に格納する(S
302)。この経路としては、<#,0>⇒<#,0>
⇒<今,0>⇒<日,0>⇒<は,0>⇒<#,0>⇒
<#,0>経路と、<#,1>⇒<#,1>⇒<今,1
>⇒<日,1>⇒<は,1>⇒<#,1>⇒<#,1>
経路である。
格納するまで処理S302を繰り返す。未処理の経路が
なくなれば処理を終了する。
S302において、拡張文字テーブル作成のための訓練
コーパス(テキスト)に現れなかった拡張文字を含む拡
張文字列をスコアテーブル34に格納しないようにすれ
ば良い。十分に大きな訓練コーパスには可能な文字と品
詞の組み合わせが全て出現していると考えられ、出現し
ていない文字と品詞の組み合わせは最初から考慮しなく
ても良いからである。
果は、拡張文字列としてスコアテーブル34に格納され
る。図7の(A)はスコアテーブルの一例を示し、図7
の(B)はスコアテーブルの内容の一例を示す。図7の
(A)において、各拡張文字e-(N-1)+1,e-(N-1)+2,
・・・,e1 ,e2 ,・・・en ,・・・,en+(N-1)
は、対応する文字c-(N-1)+1,c-(N-1)+2,・・・,c
1 ,c2 ,・・・cn,・・・,cn+(N-1) と拡張情報
(ここでは区切り情報)d-(N-1)+1,d-(N-1)+2,・・
・,d1 ,d2 ,・・・dn ,・・・,dn+(N-1) とが
対となって、拡張文字列の全てに対して、順次に記録さ
れる。右側の欄は連鎖確率p(W,T)の欄である。図
7の(B)の具体的内容では、左欄に拡張文字列e-1,
e2 ,・・・e5 を示し入力文が「今日は」の場合の拡
張文字列の全てが、候補として、順次に、上から下へと
配列されている。その右に連鎖確率p(W,T)を記す
欄が設けられている。ここでは連鎖確率の欄は空欄とな
っている。ここで、「/」を分割を示す記号とすると、
例えば図中の2行目のデータは、「/今日は/」が1単
位である場合の拡張文字列を示しており、4行目のデー
タは「/今日/は/」と分割される場合の拡張文字列を
示している。
路格納部70に格納され、拡張文字ei 等は拡張文字格
納部80に、文字ci 等は文字格納部82に、そして拡
張情報である単語区切り情報di 等は拡張情報格納部8
4にそれぞれ格納される。
処理(S4)へ進む。この処理S4では、拡張文字テー
ブル32を参照して、スコアテーブル34から候補文字
列(各拡張文字列のこと)の連鎖確率を計算し、スコア
テーブルに格納する。
ブル32の一例を示す。この例では各拡張文字e
i-N+1 ,ei-N+2 ,・・・ei は、対応する文字c
i-N+1 ,ci-N+2 ,・・・ci と拡張情報(ここでは区
切り情報)di-N+1 ,di-N+2 ,・・・di とが対とな
って、順次に,記録される。右側の欄は部分連鎖確率p
(ei )(出現確率ともいう。)の欄である。図8の
(B)は、拡張文字テーブル32の内容の具体例を示す
図である。この例では、文字組の数NがN=3の場合の
例を示しているので、文字位置をiとするとき、図8の
(B)の左欄にei-2 ,ei-1 ,ei の3文字の部分拡
張文字列を示し、右欄に対応する部分拡張文字列の連鎖
確率すなわち部分連鎖確率p(ei |ei-1 ,ei-2 )
(出現確率ともいう。)を示している。
の内容によれば、例えば上から3行目のデータによれ
ば、「<#,1><今,0><日,0>」は、文字列
「#今」が文頭の制御文字「#」の後ろで分割され、
「今」の後ろで分割されない場合、次の文字が「日」
で、かつ「日」の直後で分割されない確率が「0.01
34」であることを示している。他のデータも同様な確
率を示している。
練(学習)により作成して記憶装置30に保存してお
く。処理対象となるテキストは、入出力装置10を使用
して記憶装置30に保存し、処理装置20からの命令に
より、読み込む。拡張文字テーブル32の参照およびス
コアテーブル34の読み書きは、処理装置20から記憶
装置30をアクセスして随時実行可能である。また、こ
の拡張文字テーブル32は、タグ付きコーパス(この場
合、単語分割されたコーパス)があれば、N−gram
の数を数えることによって容易に獲得できる。また、既
存の形態素解析システムの出力結果を利用したり、人手
で作成したりしても良い。
拡張文字列格納部52に格納され、拡張文字ei 等は拡
張文字格納部60に、文字ci 等は文字格納部62に、
そして拡張情報である単語区切り情報di 等は拡張情報
格納部64にそれぞれ格納される。
を図6に示す。この一連の処理を以下説明する。なお、
この処理は、全て処理装置20の指令に基づいて実行さ
れる。
行目のレコード(データ)を読み込む。この場合、スコ
アテーブル34の1行目のデータをワークエリア40の
バッファメモリ44に読み込む。このとき、ワークエリ
ア40のカウンタ42は、読み込まれて処理対象になる
文字の位置iを表示する。
ンター42のiを文頭にセットする(すなわち、i=1
とする)。
でのN文字の拡張文字列を取り出す。Nは任意とするこ
とができるが、ここではN=3とする。従って、この処
理では、バッファメモリ44からe-1からe1 までの3
文字の拡張文字列(部分拡張文字列)、すなわち、「<
#,1><#,1><今,0>」を取り出す。
列(部分拡張文字列)に対し、拡張文字テーブル32を
参照して、連鎖確率を求める。この連鎖確率の計算を行
うに当たり、予め、連鎖確率計算部24の格納部すなわ
ち第4メモリ領域90に、既に説明した(2)式を格納
しておき、この(2)式を計算段92に読み出し、ここ
で(2)式の計算を実行する。
よれば、「<#,1><#,1><今,0>」に対応す
る部分連鎖確率p(e1 |e0 e-1)は1行目の「0.
0832」であるので、これを拡張文字テーブルから取
り出して、一旦、第4メモリ領域90に格納しておく。
i==1(iと1とを比較してiが1に等しいこと)か
どうかの判定を行って、i==1ならば、この計算段9
2でp(W,T)にp(ei |ei-1 ・・・ei-N+1 )
をセットする(S406)。すなわち、ここでの例で
は、この部分連鎖確率の値を(2)式に代入してp(e
1 |e0 e-1)=0.0832を得る。
いとき)、(2)式に従って、p(W,T)とp(ei
|ei-1 ・・・ei-N+1 )との積を求め、p(W,T)
にセットする(S407)。
N−1かどうかの判定を行い、i==n+N−1なら
ば、スコアテーブル34のスコア格納部72にp(W,
T)を記録する(S409)。ここでの例では、上述の
p(e1 |e0 e-1)=0.0832を格納する。一
方、i!=1ならば、iを1だけ増やして(S410)
S403に戻る。
モリ44からe-1からe2 までの3文字の拡張文字列
(部分拡張文字列)、すなわち「<#,1><今,0>
<日,0>」を取り出す。
32から「<#,1><今,0><日,0>」の部分連
鎖確率p(e2 |e1 e0 )=0.0134を求める。
どうかを判定し(S405)、この場合には、i!=1
であるので、S407へ進む。この処理においては、
(2)式に従って、計算段92において、既に得られて
いるp(W,T)=0.0832と今回得られたp(e
2 |e1 e0 )=0.0134との積を算出し、これを
新たにp(W,T)にセットする(S407)。
5になるまで繰り返し行う。
ーブル34のスコア格納部72に連鎖確率p(W,T)
を格納する(S409)。
ないかを判断して、未処理のレコードがあれば処理S4
01に戻り、以上の処理を繰り返すことにより、スコア
テーブル34中の全ての拡張文字列の連鎖確率(同時確
率ともいう。)を求めることが出来る。未処理のレコー
ドが無ければ、この処理S4を終了する。
ーブルの内容を示す。同図の左側のe-1,e0 ,・・・
e5 の欄に示してある各拡張文字列に対して、上述した
(2)式に従った連鎖確率計算により求められた結果
が、各列に対応する右欄にp(W,T)の値としてそれ
ぞれ記録されている。この連鎖確率の値が大きいものほ
ど、それに対応する拡張文字列が最も尤もらしい形態素
区切りであると推定された最適拡張文字列である。この
処理S4の終了後、次の処理S5に進む。
の最適経路探索部26において、このスコア格納部(第
3メモリ領域)72に格納された連鎖確率を順次に読み
出してきて、比較を行って、最大の連鎖確率からその値
が小さい順に配列し、これら連鎖確率に対応する拡張文
字列をその大きさの順(スコア順)に配列して、順に、
出力する。従って、まず、最大の連鎖確率を与えている
文字列を単語分割が最適な文字列として入出力装置10
の出力部から出力させる。ここでの例では、拡張情報が
単語区切り情報だけであるので、単語列として出力され
る。続いて、所要に応じて、スコアの大きい順に順次に
対応する単語列の並びが出力される。
の処理の流れにつき、図13を参照して説明する。この
処理をスコア順に繰り返すことによって、ある閾値以上
をもつ単語列の並びをすべて出力することもできる。
連鎖確率が格納されているスコアテーブル(この第1の
実施の形態例では、図9に対応する。)から、最大の連
鎖確率を持つe-(N-1)+1,・・・,en+(N-1) につい
て、制御文字の拡張文字列の文頭e-(N-1)+1,・・・,
e0 と文末en+1 ,・・・,en+(N-1) を切り捨てたe
1 ,・・・,en を読み込む(S501)。この図9の
例では、e-1,・・・,e5 であるので、上から4行目
の<今,0><日,1><は,1>が読み込まれる。
502)、バッファメモリ44を初期化しておく(S5
03)。
字の長さnとの比較を行って(S504)、長さnに等
しくなければ、ej =<cj ,dj >のcj の値をバッ
ファメモリ44に追加する(S505)。ここでの例で
は、c1 の値「今」が追加され、この状態でのバッファ
メモリ44は、 〔今 〕 となる。
定を行って(S506)、dj =1であれば、〔単語区
切り記号〕を追加する(S507)。この〔単語区切り
記号〕はどのような記号でも構わないが、ここでは、
「 」(アンダーバー)とする。
い。ここでの例では、d1 =0であるので、何もしな
い。
め(S508)、同様な処理を繰り返し行う。
した後は、d2 が1であるため、単語区切り記号「 」
が追加され、バッファメモリ44の状態は、 〔今日 〕 となる。そして、カウンタ42の文字位置jを1つ進め
(S508)、次の処理S504に戻る。
であるので、処理S509に進み、en =<cn ,dn
>のcn の値をバッファメモリ44に追加する(S50
9)。その結果、バッファメモリ44の状態は、 〔今日 は 〕 となる。最後に、バッファメモリ44に格納されている
値を入出力部10によって出力し、この処理を終了す
る。
ての経路を試行する方法を用いたが、既に処理S302
に関して説明した通り、探索アルゴリズムを組み合わせ
るこにより、より高速に処理することが可能である。
の形態例が、拡張情報として単語区切り情報のみとした
ことに対し、この第2の実施の形態例では、拡張情報と
して単語区切り情報とタグ情報とを用いる点が異なる。
従って、その点に関する装置構成および動作処理が多少
異なるにすぎない。この第2の実施の形態例では、第1
の実施の形態例の場合のような形態素単位の分割だけで
はなく、拡張情報格納部に格納された任意の情報に関す
る解析結果を得ることが出来る。具体的には、タグ情報
を品詞情報とすると、分割した文字列の品詞も同時に推
定することが出来る。以下の例ではタグ情報を品詞情報
として説明する。
にブロック図で示す構成となっている。しかし、拡張文
字テーブル32とスコアテーブル34の構成が下記の点
で第1の実施の形態例の場合とは相違する。
張文字テーブル32の上述した拡張情報格納部64は、
単語区切り情報di およびタグ情報ti とをそれぞれ格
納する領域を有する点である。そのため、拡張情報格納
部64は、単語区切り情報格納部(図示せず)およびタ
グ情報格納部(図示せず)を有している。
格納し、拡張情報格納部64には、単語区切り情報di
とタグ情報ti とをそれぞれの格納部に個別に格納す
る。
た拡張文字格納部80は、単語区切り情報di およびタ
グ情報ti とをそれぞれ格納する領域を有する点であ
る。そのため、拡張情報格納部84は、単語区切り情報
格納部(図示せず)およびタグ情報格納部(図示せず)
を有している。この場合のスコアテーブルおよび拡張文
字テーブルの例をそれぞれ図10の(A)および図11
の(A)に示す。これらの図において第1の実施の形態
例で説明した図7の(A)および図8の(A)との相違
点は、図10の(A)のスコアテーブルの場合には、文
字ci 、区切り情報di と並べてタグ情報ti をそれぞ
れの拡張文字ei に付加してある点である(但しi=1
−N+1〜n+N−1(この場合は、N=3なので、i
=−1〜n+2))。また、図11の(A)の拡張文字
テーブルでは、同様に、文字ci 、区切り情報di と並
べてタグ情報ti をそれぞれの拡張文字ei に付加して
ある点である(但しi=1〜N(この場合は、N=3な
ので、i=1〜3))。
き説明する。この場合の基本的な処理の流れは、図2で
説明した通りである。また、この第2の実施の形態例の
動作は、図3で説明した第1の実施の形態例での処理の
流れとも基本的には同一であるので、この図3を参照し
て、説明する。
させた場合の例に、3文字の部分連鎖確率(出現確率)
を用いた処理の流れにつき具体的に説明する。なお、具
体例の拡張文字テーブル32およびスコアテーブル34
の図では、文字格納部62,82と拡張情報格納部6
4,84の内容、すなわち、拡張文字格納部60および
80の内容を<ci ,di ,ti >のように表記する。
態例の場合と同様である。この処理の後のバッファメモ
リ44の内容も図4の(B)に示す通りとなる。
ての可能な拡張文字列を生成し、スコアテーブル34の
経路格納部(第1メモリ領域)70に格納する。この場
合、第1の実施の形態例のときと相違する点は、各文字
毎に、拡張情報として、単語区切り情報と品詞情報とを
付加する。文頭および文末の制御文字は、処理の都合上
与えられた文字であるから、拡張情報ではないが、ここ
での例では、便宜上、単語区切り情報として「1」を、
品詞情報として「#」を付加する。その結果、得られた
スコアテーブル34の内容を図10の(B)に示す。例
えば、図10の(B)の第1行目は、「今日」が単語分
割されず、すなわち、「今日」の文字列は、1つの単語
で、品詞が名詞である場合の拡張文字列を示している。
形態例の場合と同様に行われる。図11の(B)は、第
2の実施の形態例の場合の拡張文字テーブル32の一例
を示している。この図においても、拡張情報格納部であ
るタグ情報格納部64の「#」は制御文字(記号)であ
り、例えば、図11の(B)の上から7行目の「<#,
1,#><今,0,名詞><日,1,名詞>」は、文中
「#」「今」「日」の品詞がそれぞれ制御文字、名詞、
名詞で、「#」の直後で分割され、「今」の直後で分割
されない場合、「日」の直後で分割される確率が0.0
047であることを示している。
の形態例の場合と同様に、品詞タグつきコーパスを利用
すれば、N−gramの数を数えることによって容易に
獲得できる。
11の処理を、第2の実施の形態例につき、具体的に説
明する。この処理も第1の実施の形態例の場合と同様に
行われるので、共通な処理等は簡単に説明する。
ブル34から1行目のレコード(データ)をバッファメ
モリ44に読み込む。
を文頭にセットする。
e-iからe1 までの3文字の拡張文字列(部分拡張文字
列)、すなわち、「<#,1,#><#,1,#><
今,0,名詞>」を取り出す。
(B)の拡張文字テーブル32を参照して、「<#,
1,#><#,1,#><今,0,名詞>」の部分連鎖
確率(出現確率)p(e1 |e0 e2 )=0.0034
を求める。
1なので、連鎖確率p(W,T)=0.0034をセッ
トして、処理S408へ進む。
iを1つ増やしてS404に戻る。
ル32を参照して、「<#,1,#><今,0,名詞>
<日,1,名詞>」の部分連鎖確率(出現確率)p(e
2 |e1 e0 )=0.0047を求める。
1なので、連鎖確率p(W,T)とp(e2 |e1 e
0 )との積を(2)式に従って求め(すなわち、連鎖確
率p(W,T)=p(W,T)×p(e2 |e1 e
0 ))、その結果、すなわち、p(W,T)=0.00
34×0.0047=0.159×10-4をp(W,
T)にセットする。
2)なので、p(W,T)をスコアテーブル34のスコ
ア格納部(第3メモリ領域)72に格納する。
で、処理S401に戻る。
テーブル34内のすべての拡張文字の連鎖確率(同時確
率)を求めることができる。
ブル34の内容を示す例である。この場合にも、連鎖確
率の値が大きい拡張文字列ほど、最も尤もらしい形態素
区切りであると推定された文字列である。例えば、1行
目の「<#,1,#><#,1,#><今,0,名詞>
<日,1,名詞><#,1,#><#,1,#>」の連
鎖確率が一番大きければ、これを最適拡張文字列とす
る。
後、最適経路探索部26により、第1の実施の形態例の
場合と同様に、スコアテーブル34から連鎖確率(スコ
ア)の高い順に対応する拡張文字列で決まる単語列の並
びとタグ列の並びを出力する。
最大連鎖確率の出力は、既に図13を参照して第1の実
施の形態例で説明した処理と同様な処理の流れで行われ
る。しかし、この第2の実施の形態例では、第1の実施
の形態例の場合とは、処理S507とS509の内容が
相違するので、この処理S507とS509につき説明
し、その他の処理の重複説明は省略する。
f(j)>において、「〔文字タグ区切り記号〕tf(j)〔単
語区切り記号〕」の値をバッファメモリ44に追加す
る。
f(j)>において、「cn 〔文字タグ区切り記号〕
tf(j)」の値をバッファメモリ44に追加する。
でも構わないが、たとえば「/」(スラッシュ)とす
る。
力は、例えば、 〔今日/名詞 〕 となる。
ドで、文字タグ区切り情報がタブの場合に、例えば、
「今日は誕生日だ」の処理S510での出力は、単語区
切りのみでは 〔今日 〕 〔は 〕 〔誕生日 〕 〔だ 〕 となり、タグ付きでは 〔今日 名詞〕 〔は 副助詞〕 〔誕生日 名詞〕 〔だ 助動詞〕 となる。
推定処理の流れである。
は、拡張情報として単語区切り情報およびタグ情報につ
き説明したが、タグ情報の代わりにまたはこれに追加し
て、「読み」とか「活用」などの情報を付加して、これ
ら任意情報に関する形態素解析も同様に行い得る。
れ、個別のメモリで構成してもよいし、或は1つのメモ
リの領域を分けて構成しても良い。
施の形態例に関して、その効果を確認するための実験を
行った。その結果を以下に説明する。
oken)とするトライグラム(trigram(3−
gram))をタグ付きコーパスから構築する。すなわ
ち、文字をその文字の後ろに区切りがあるものとないも
のの2種類に分ける。
区切り記号とペアになったものとそうでないものとの組
み合わせから文字trigramの連鎖確率を最大とす
る組み合わせを解析結果(形態素分割)とする。
モデル) 訓練:文字と区切り記号と品詞の組をトークン(tok
en)とするtrigramをタグ付きコーパスから構
築する。
すべての可能な区切り記号と品詞の組合わせから文字t
rigramの連鎖確率を最大とするものを選ぶ、分解
された各形態素に対して、先頭の文字の組にある品詞を
その形態素の品詞とする手法(手法先頭)と、その形態
素が含む各トークンの品詞の中で多いものをその形態素
の品詞とし、同じ数の品詞がある場合は、品詞のユニグ
ラム(unigram(1−gram))を使って品詞
を決める手法(手法多数決)とがある。この実験では、
後者の(手法多数決)を使用した。
力文「いるかがいる」の最も確からしい拡張文字列が以
下のようになった場合を考える。
1,名詞><が,1,助詞><い,0,動詞><る,
1,副詞> この場合、3つの単語(いるか)(が)(いる)に分割
される。すなわち <い,0,動詞><る,0,名詞><か,1,名詞> <が,1,助詞> <い,0,動詞><る,1,副詞> その品詞は(が)については一意に助詞と定まるが、
(いるか)は動詞と名詞、(いる)は動詞と副詞の複数
の可能性がある。この場合、(いるか)については、候
補は動詞と名詞であるが、名詞が2個あり、動詞の1個
より多いので、名詞とする。他方、(いる)について
は、動詞と副詞の可能性があるが、どちらも1個づつで
多数決で決まらないので、訓練データでより多く出現し
た品詞である、動詞を(いる)の品詞だとして出力す
る。
Rコーパス((株)日本電子化辞書研究所が研究目的の
ために有償で公開しているコーパス(文献:EDR E
lectronic Dictionary Vers
ion TechnicalGuide,1995年発
行))を解析すると、次の順序で品詞の優先順位が高い
ことが分かる。すなわち、助詞、名詞、語尾、動詞、記
号、助動詞、接尾語、数字、副詞、形容動詞、形容詞、
連体詞、接続詞、接頭語、感動詞。
データより辞書の品詞のtrigramを構築する。た
だし、未知語処理の機能を加えていないため、テストデ
ータの中に訓練データにない単語が現れると解析不能に
なる場合がある。今回の実験では、解析不能を回避する
ために、クローズ(close)実験のみを行った。
す。各コーパスごとの見出し(名前)は以下の実験で用
いたコーパスを参照するために用いられる。
成し、拡張文字のtrigram(3−gram)を求
めた。また、この確率はbigram(2−gra
m),unigram(1−gram)によってスムー
ジングされている。
(precision)と再現率(recall)を用
いる。それぞれの尺度は以下のように定義される。
出力した形態素数 再現率:システムが出力した正解形態素数/テスト文の
正解形態素数。
語分割性能) この実験では、各種手法の単語分割に関する基本的な性
能の違いを見るために、各種手法とコーパスを組み合わ
せた実験を行った。オープン(open)実験とクロー
ズ(close)実験のそれぞれについて適合率と再現
率を図14に示す。
知語に対処する機構を入れることが出来なかった。この
ため、オープン(open)の実験において辞書にない
単語があると(EDRで1000文中約70個の単
語)、従来法では解析不能となる場合があったため、ク
ローズ(close)の実験のみを行った。以下、この
発明と従来法との比較はクローズ(close)の実験
結果で行う。
段が適合率(%)で、下段が再現率(%)である。この
発明での適合率(%)は、ADDでは99.77でED
Rでは97.80であるのでADDの方がEDRよりも
良い。従来法での適合率(%)は、EDRの場合には9
5.65、ADDの場合には99.52であるので、い
ずれにしても適合率(%)はこの発明の方法の方が優れ
ていることが分かる。一方、この発明での再現率(%)
は、EDRでは97.44、ADDでは99.67であ
るのでADDの方が良い。従来法での再現率(%)は、
EDRでは91.78、ADDでは99.27であるの
で、いずれにしてもこの発明の方法の方が優れているこ
とが分かる。
における従来法では適合率および再現率ともに悪いが、
これはEDRコーパスに15種類の品詞しかないため、
品詞のtrigramが十分な言語モデル能力を持たな
いためである。それは、ADDの120種類の品詞を用
いると結果が改善されていることからも理解出来る。
は、EDRコーパスに関してはADDコーパスに比べて
若干悪いが、比較的安定して良い結果を出している。こ
れは品詞だけでなく文字とタグのペアの連鎖確率を使用
していることに起因していると考えられる。
した結果、誤りの大部分は、コーパス自体の揺れに起因
していることが分かった。例えば、名詞連続などを細か
く切るか、大まかに切るかがかなり揺れている。
G)(単語分割と品詞推定の性能) この実験では、各種手法の単語分割と品詞推定に関する
基本的な性能の違いを見る実験を行った。その結果を図
15に品詞分割の性能評価として示す。この図におい
て、上段が適合率(%)であり、下段が再現率(%)で
ある。なお、第2の実施の形態例の単語分割の性能評価
は図14に示してある。
率(%)は、EDRでは98.25、ADDでは99.
97であり、また、再現率(%)は、EDRでは97.
88、ADDでは99.82である。これに対し、図1
5に示した品詞分割の性能評価の結果では、適合率
(%)は、EDRでは97.42、ADDでは99.7
7であり、また、再現率(%)は、EDRでは97.0
6、ADDでは99.61である。また、従来手法によ
る品詞分割の性能評価結果によれば、適合率(%)は、
EDRでは92.55、ADDでは97.82であり、
また、再現率(%)は、EDRでは88.80、ADD
では97.52である。
拡張文字を使用する方法は、適合率および再現率がおお
よそ1〜2%程度低下していることが分かる。
現率が2〜3%程度低下している。オープン(ope
n)実験では、さらに3%程度低下している。
ければ)単語分割に関してはかなり強力ではあるが、品
詞の推定に関しては、拡張文字を使うこの発明の手法の
方がロバスト性に優れていると言える。言い換えれば、
従来法では、単語に直接関係ある確率は、かなり大きな
コーパスを用いても正確に推定するのが困難であると言
える。
験では、EDRテスト文(1000文,38601文
字)の解析にかかった時間すなわち実行時間を示してあ
る。第1および第2の実施の形態におけるそれぞれの手
法で解析した場合、EDRでは、それぞれ、3秒および
665秒であった。この結果から、品詞推定を行うと著
しく遅くなるが、単語分割のみでは極めて高速であるこ
とが分かる。
un Ultra−1140MHz,OS:Solar
is2.5,メインメモリ:96Mバイト,ハードディ
スク:3Gバイトである。
の発明の日本語形態素解析方法および装置によれば、下
記の効果を奏することができる。すなわち、 a)この発明では、単語ではなく、文字をベースにして
確率計算を行う。文字の長さは、1文において一定であ
るため、分割数が少ない形態素列(各形態素列は長い)
が優先されるということがない。従って、従来方法に比
べて、高精度で語分割を行うことが可能となる(上記5
−1)a参照)。
書情報をもっていると考えられるので、辞書を必要とし
ない。このため、辞書作成のための煩雑な作業を省略出
来る。例えば、「いとしい/人」という文が訓練データ
に存在する場合、 <#,1><#,1><い,0><と,0><し,0>
<い,1><人,1><#,1><#,1> という拡張文字テーブルができ、3文字づつとって(3
−gram),その語分割情報を見ると、 <#,1><#,1><い,0> ←→ い <#,1><い,0><と,0> ←→ いと <い,0><と,0><し,0> ←→ いとし <と,0><し,0><い,1> ←→ いとしい/ <し,0><い,1><人,1> ←→ いとしい/人/ <い,1><人,1><#,1> ←→ いとしい/人/# <人,1><#,1><#,1> というように、「いとしい」と「人」と言う単語を正確
に取り出すことが出来る(これは、2−gramでも1
−gramでも同様にして、単語取り出しが出来
る。)。
って、「いとしい人」がこの2つの形態素に分割される
場合の「よさ」を評価出来る。
求めて最適な単語列の並びを決定している。この拡張文
字の連鎖確率が日本語の単語の一般的な単語モデルをも
っているため、辞書を利用する従来方法に比べて未知語
に対する形態素解析が精度良く行える。
ないので、品詞等のタグ情報を利用しなくても、語分割
の情報のみで解析出来るという利点がある。この場合、
極めて高速かつ省資源の処理を行える。
情報の他にタグ情報を付加する場合には、上述のa)〜
d)に加えて、語分割だけでなく品詞推定も従来に比べ
て高精度および高速で行うことが出来る(上記5−1)
b参照)。例えば、従来法では、候補としての単語列・
品詞列のよさを推定するために品詞の連鎖確率を用いて
いる。しかし、品詞の数はそれほど多くなく、また、タ
グ付きコーパスに付与してある品詞しか使えないため、
単語列の連鎖のよさの表現(評価)能力に限界がある。
もし、品詞の数を極端に多くすると、よりきめ細かく単
語列のよさの評価ができるが、そのようなコーパスを開
発することは至難である。これに比べて、この発明の手
法では、品詞と文字のペアの連鎖を使用するので、たと
えコーパス中に付与してある品詞の数が少なくても、文
字の情報を援用した連鎖で単語列をモデル化するので、
はるかにきめ細かく(各文字ごとの品詞の出現回数を考
慮した)単語列のよさを評価できる。このため、文字列
の分割である単語列候補と、その単語列に付与される品
詞列候補を、使われている文字の傾向まで考慮に入れた
比較が、可能となる。
他、任意の情報(例えば「読み」の情報や「活用」の情
報)を付加することにより、上述のa)〜d)に加え
て、これらに関する解析結果を得ることが出来る。
韓国語、中国語、タイ語等の、日本語と同様に単語区切
りが無い書法を持つ言語に対しても、得られると期待さ
れる。
供する、装置構成の一例のブロック図である。
本的流れ図である。
明するための、バッファの内容を示す図であり、(A)
は第1の実施の形態例におけるバッファの内容、(B)
は第2の実施の形態例におけるバッファの内容である。
説明図であり、(A)は第1の実施の形態例におけるス
コアテーブルの一例を示す図、(B)はそのスコアテー
ブルの内容の一例を示す図である。
文字テーブルの説明図であり、(A)は第1の実施の形
態例における拡張文字テーブルの一例を示す図、(B)
はその拡張文字テーブルの内容の一例を示す図である。
後のスコアテーブルの内容を説明するための図である。
の説明図であり、(A)は第2の実施の形態例における
スコアテーブルの一例を示す図、(B)はそのスコアテ
ーブルの内容の一例を示す図である。
張文字テーブルの説明図であり、(A)は第2の実施の
形態例における拡張文字テーブルの一例を示す図、
(B)はその拡張文字テーブルの内容の一例を示す図で
ある。
了後のスコアテーブルの内容を説明するための図であ
る。
分割の性能評価を示す図である。
分割の性能評価を示す図である。
するための図である。
Claims (36)
- 【請求項1】 言語テキストが入力文として与えられ
て、該入力文を構成する単語列を出力する日本語形態素
解析方法において、各文字の直後が単語境界であるかな
いかの全ての組み合わせの中からもっとも確からしい単
語列の並びを出力することを特徴とする形態素解析方
法。 - 【請求項2】 (a)言語テキストを入力文として読み
込むステップと、 (b)前記入力文の入力文字列の文字毎に、少なくとも
単語区切り情報を含む拡張情報を付加して拡張文字を形
成し、該拡張文字を用いて前記入力文字列に関する全て
の拡張文字列を生成するステップと、 (c)生成された全ての前記拡張文字列の連鎖確率を求
めるステップと、 (d)得られた連鎖確率のなかから最大の値の連鎖確率
を与える拡張文字列を最適拡張文字列として選択するス
テップと、 (e)該最適拡張文字列で決まる単語列の並びを含む解
析結果を形態素解析結果として出力するステップとを含
むことを特徴とする形態素解析方法。 - 【請求項3】 請求項2に記載の形態素解析方法におい
て、前記入力文の文頭および文末に制御文字を追加して
前記入力文字列を形成すること特徴とする形態素解析方
法。 - 【請求項4】 請求項2に記載の形態素解析方法におい
て、前記拡張情報にタグ情報を含ませて前記形態素解析
結果にタグ列の並びを含ませたことを特徴とする形態素
解析方法。 - 【請求項5】 請求項2に記載の形態素解析方法におい
て、前記拡張情報に前記単語区切り情報およびタグ情報
以外の読み情報や活用形情報その他のいずれかの任意情
報を含ませて前記形態素解析結果に任意情報に関する解
析結果を含ませたことを特徴とする形態素解析方法。 - 【請求項6】 請求項2に記載の形態素解析方法におい
て、前記単語区切り情報は、前記入力文字列の各文字の
直後に付加することを特徴とする形態素解析方法。 - 【請求項7】 請求項4に記載の形態素解析方法におい
て、前記単語区切り情報は、前記入力文字列の各文字の
直後に付加し、および前記タグ情報は、前記単語区切り
情報の直後に付加することを特徴とする形態素解析方
法。 - 【請求項8】 請求項2に記載の形態素解析方法におい
て、 前記(a)ステップにおいて、前記入力文をバッファメ
モリに読み出し自在に格納するサブステップを含み、 前記(b)ステップにおいて、前記入力文字列を前記バ
ッファメモリから読み出しするサブステップ、および前
記拡張文字列を第1メモリ領域に読み出し自在に格納す
るサブステップを含み、 前記(c)ステップにおいて、前記拡張文字列を構成す
る順次の一定文字数からなる部分拡張文字列のそれぞれ
に対応する部分連鎖確率を予め学習により求めて第2メ
モリ領域に読み出し自在に格納しておくサブステップ、
前記第1メモリ領域から読み出したそれぞれの拡張文字
列毎に、該拡張文字列を構成する全ての部分連鎖確率を
前記第2メモリ領域から読み出してきてその積を前記連
鎖確率としてそれぞれ求めるサブステップ、およびこれ
ら連鎖確率を第3メモリ領域に読み出し自在に格納する
サブステップを含むことを特徴とする形態素解析方法。 - 【請求項9】 請求項2に記載の形態素解析方法におい
て、前記単語区切り情報を、当該単語区切り情報が付加
された文字の文字位置の直後で形態素分割が生じている
か否かを表す2値情報としたことを特徴とする形態素解
析方法。 - 【請求項10】 (a)言語テキストを入力文として読
み込んで該入力文の入力文字列の文字毎に、少なくとも
単語区切り情報を含む拡張情報を付加して拡張文字を形
成し、該拡張文字を用いて前記入力文字列に関する全て
の拡張文字列を生成する拡張文字列生成部と、 (b)生成された全ての前記拡張文字列の連鎖確率を求
める連鎖確率計算部と、 (c)得られた連鎖確率のなかから最大の値の連鎖確率
を与える拡張文字列を最適拡張文字列として選択し、該
最適拡張文字列に対応する、単語列の並びを含む解析結
果を形態素解析結果として出力する最適経路探索部とを
含むことを特徴とする形態素解析装置。 - 【請求項11】 請求項10に記載の形態素解析装置に
おいて、前記拡張文字列生成部は、前記入力文の文頭お
よび文末に制御文字を追加して前記入力文字列を形成す
る制御文字追加手段を含むことを特徴とする形態素解析
装置。 - 【請求項12】 請求項10に記載の形態素解析装置に
おいて、前記拡張情報はタグ情報を含み、および前記形
態素解析結果はタグ列の並びを含むことを特徴とする形
態素解析装置。 - 【請求項13】 請求項10に記載の形態素解析装置に
おいて、前記拡張情報は前記単語区切り情報とタグ情報
の両情報以外の読み情報や活用形情報その他のいずれか
の任意情報を含み、および前記形態素解析結果は任意情
報に関する解析結果を含むことを特徴とする形態素解析
装置。 - 【請求項14】 請求項10に記載の形態素解析装置に
おいて、前記単語区切り情報は、前記入力文字列の各文
字の直後に付加してあることを特徴とする形態素解析装
置。 - 【請求項15】 請求項12に記載の形態素解析装置に
おいて、前記単語区切り情報は、前記入力文字列の各文
字の直後に付加してあり、および前記タグ情報は、前記
単語区切り情報の直後に付加してあることを特徴とする
形態素解析装置。 - 【請求項16】 請求項10に記載の形態素解析装置に
おいて、 前記入力文を格納して該入力文を前記拡張文字列生成部
へ読み出し出来るバッファメモリと、 前記拡張文字列を格納して該拡張文字列を前記連鎖確率
計算部へ読み出し出来る第1メモリ領域と、 前記拡張文字列を構成する順次の一定文字数からなる部
分拡張文字列のそれぞれに対応する、学習により求めら
れた部分連鎖確率を、予め、格納していて該部分連鎖確
率を前記連鎖確率計算部へ読み出し出来る第2メモリ領
域と、 前記連鎖確率を格納して該連鎖確率を前記最適経路探索
部へ読み出し出来る第3メモリ領域とを具え、さらに前
記連鎖確率計算部は、前記第1メモリ領域から読み出し
たそれぞれの拡張文字列毎に、該拡張文字列を構成する
全ての部分連鎖確率を前記第2メモリ領域から読み出し
てきてその積を前記連鎖確率としてそれぞれ求める計算
段を含むことを特徴とする形態素解析装置。 - 【請求項17】 請求項10に記載の形態素解析装置に
おいて、前記バッファメモリは、前記拡張文字列生成部
によって前記入力文の文頭および文末に制御文字を追加
して形成された前記入力文字列を該拡張文字列生成部へ
読み出し自在に格納することを特徴とする形態素解析装
置。 - 【請求項18】 請求項10に記載の形態素解析装置に
おいて、前記単語区切り情報を、当該単語区切り情報が
付加された文字の文字位置の直後で形態素分割が生じて
いるか否かを表す2値情報としたことを特徴とする形態
素解析装置。 - 【請求項19】 日本語テキストが入力文として与えら
れて、該入力文を構成する単語列を出力する日本語形態
素解析方法において、各文字の直後が単語境界であるか
ないかの全ての組み合わせの中からもっとも確からしい
単語列の並びを出力することを特徴とする日本語形態素
解析方法。 - 【請求項20】 (a)日本語テキストを入力文として
読み込むステップと、 (b)前記入力文の入力文字列の文字毎に、少なくとも
単語区切り情報を含む拡張情報を付加して拡張文字を形
成し、該拡張文字を用いて前記入力文字列に関する全て
の拡張文字列を生成するステップと、 (c)生成された全ての前記拡張文字列の連鎖確率を求
めるステップと、 (d)得られた連鎖確率のなかから最大の値の連鎖確率
を与える拡張文字列を最適拡張文字列として選択するス
テップと、 (e)該最適拡張文字列で決まる単語列の並びを含む解
析結果を形態素解析結果として出力するステップとを含
むことを特徴とする日本語形態素解析方法。 - 【請求項21】 請求項20に記載の日本語形態素解析
方法において、前記入力文の文頭および文末に制御文字
を追加して前記入力文字列を形成すること特徴とする日
本語形態素解析方法。 - 【請求項22】 請求項20に記載の日本語形態素解析
方法において、前記拡張情報にタグ情報を含ませて前記
形態素解析結果にタグ列の並びを含ませたことを特徴と
する日本語形態素解析方法。 - 【請求項23】 請求項20に記載の日本語形態素解析
方法において、前記拡張情報に前記単語区切り情報およ
びタグ情報以外の読み情報や活用形情報その他のいずれ
かの任意情報を含ませて前記形態素解析結果に任意情報
に関する解析結果を含ませたことを特徴とする日本語形
態素解析方法。 - 【請求項24】 請求項20に記載の日本語形態素解析
方法において、前記単語区切り情報は、前記入力文字列
の各文字の直後に付加することを特徴とする日本語形態
素解析方法。 - 【請求項25】 請求項22に記載の日本語形態素解析
方法において、前記単語区切り情報は、前記入力文字列
の各文字の直後に付加し、および前記タグ情報は、前記
単語区切り情報の直後に付加することを特徴とする日本
語形態素解析方法。 - 【請求項26】 請求項20に記載の日本語形態素解析
方法において、 前記(a)ステップにおいて、前記入力文をバッファメ
モリに読み出し自在に格納するサブステップを含み、 前記(b)ステップにおいて、前記入力文字列を前記バ
ッファメモリから読み出しするサブステップ、および前
記拡張文字列を第1メモリ領域に読み出し自在に格納す
るサブステップを含み、 前記(c)ステップにおいて、前記拡張文字列を構成す
る順次の一定文字数からなる部分拡張文字列のそれぞれ
に対応する部分連鎖確率を予め学習により求めて第2メ
モリ領域に読み出し自在に格納しておくサブステップ、
前記第1メモリ領域から読み出したそれぞれの拡張文字
列毎に、該拡張文字列を構成する全ての部分連鎖確率を
前記第2メモリ領域から読み出してきてその積を前記連
鎖確率としてそれぞれ求めるサブステップ、およびこれ
ら連鎖確率を第3メモリ領域に読み出し自在に格納する
サブステップを含むことを特徴とする日本語形態素解析
方法。 - 【請求項27】 請求項20に記載の日本語形態素解析
方法において、前記単語区切り情報を、当該単語区切り
情報が付加された文字の文字位置の直後で形態素分割が
生じているか否かを表す2値情報としたことを特徴とす
る日本語形態素解析方法。 - 【請求項28】 (a)日本語テキストを入力文として
読み込んで該入力文の入力文字列の文字毎に、少なくと
も単語区切り情報を含む拡張情報を付加して拡張文字を
形成し、該拡張文字を用いて前記入力文字列に関する全
ての拡張文字列を生成する拡張文字列生成部と、 (b)生成された全ての前記拡張文字列の連鎖確率を求
める連鎖確率計算部と、 (c)得られた連鎖確率のなかから最大の値の連鎖確率
を与える拡張文字列を最適拡張文字列として選択し、該
最適拡張文字列に対応する、単語列の並びを含む解析結
果を形態素解析結果として出力する最適経路探索部とを
含むことを特徴とする日本語形態素解析装置。 - 【請求項29】 請求項28に記載の日本語形態素解析
装置において、前記拡張文字列生成部は、前記入力文の
文頭および文末に制御文字を追加して前記入力文字列を
形成する制御文字追加手段を含むことを特徴とする日本
語形態素解析装置。 - 【請求項30】 請求項28に記載の日本語形態素解析
装置において、前記拡張情報はタグ情報を含み、および
前記形態素解析結果はタグ列の並びを含むことを特徴と
する日本語形態素解析装置。 - 【請求項31】 請求項28に記載の日本語形態素解析
装置において、前記拡張情報は前記単語区切り情報とタ
グ情報の両情報以外の読み情報や活用形情報その他のい
ずれかの任意情報を含み、および前記形態素解析結果は
任意情報に関する解析結果を含むことを特徴とする日本
語形態素解析装置。 - 【請求項32】 請求項28に記載の日本語形態素解析
装置において、前記単語区切り情報は、前記入力文字列
の各文字の直後に付加してあることを特徴とする日本語
形態素解析装置。 - 【請求項33】 請求項30に記載の日本語形態素解析
装置において、前記単語区切り情報は、前記入力文字列
の各文字の直後に付加してあり、および前記タグ情報
は、前記単語区切り情報の直後に付加してあることを特
徴とする日本語形態素解析装置。 - 【請求項34】 請求項28に記載の日本語形態素解析
装置において、 前記入力文を格納して該入力文を前記拡張文字列生成部
へ読み出し出来るバッファメモリと、 前記拡張文字列を格納して該拡張文字列を前記連鎖確率
計算部へ読み出し出来る第1メモリ領域と、 前記拡張文字列を構成する順次の一定文字数からなる部
分拡張文字列のそれぞれに対応する、学習により求めら
れた部分連鎖確率を、予め、格納していて該部分連鎖確
率を前記連鎖確率計算部へ読み出し出来る第2メモリ領
域と、 前記連鎖確率を格納して該連鎖確率を前記最適経路探索
部へ読み出し出来る第3メモリ領域とを具え、さらに前
記連鎖確率計算部は、前記第1メモリ領域から読み出し
たそれぞれの拡張文字列毎に、該拡張文字列を構成する
全ての部分連鎖確率を前記第2メモリ領域から読み出し
てきてその積を前記連鎖確率としてそれぞれ求める計算
段を含むことを特徴とする日本語形態素解析装置。 - 【請求項35】 請求項28に記載の日本語形態素解析
装置において、前記バッファメモリは、前記拡張文字列
生成部によって前記入力文の文頭および文末に制御文字
を追加して形成された前記入力文字列を該拡張文字列生
成部へ読み出し自在に格納することを特徴とする日本語
形態素解析装置。 - 【請求項36】 請求項28に記載の日本語形態素解析
装置において、前記単語区切り情報を、当該単語区切り
情報が付加された文字の文字位置の直後で形態素分割が
生じているか否かを表す2値情報としたことを特徴とす
る日本語形態素解析装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP02192998A JP3992348B2 (ja) | 1997-03-21 | 1998-02-03 | 形態素解析方法および装置、並びに日本語形態素解析方法および装置 |
US09/044,137 US6098035A (en) | 1997-03-21 | 1998-03-19 | Morphological analysis method and device and Japanese language morphological analysis method and device |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9-68300 | 1997-03-21 | ||
JP6830097 | 1997-03-21 | ||
JP02192998A JP3992348B2 (ja) | 1997-03-21 | 1998-02-03 | 形態素解析方法および装置、並びに日本語形態素解析方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10326275A true JPH10326275A (ja) | 1998-12-08 |
JP3992348B2 JP3992348B2 (ja) | 2007-10-17 |
Family
ID=26359080
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP02192998A Expired - Fee Related JP3992348B2 (ja) | 1997-03-21 | 1998-02-03 | 形態素解析方法および装置、並びに日本語形態素解析方法および装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6098035A (ja) |
JP (1) | JP3992348B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012042991A (ja) * | 2010-08-12 | 2012-03-01 | Fuji Xerox Co Ltd | 文作成プログラム及び文作成装置 |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0952531A1 (en) * | 1998-04-24 | 1999-10-27 | BRITISH TELECOMMUNICATIONS public limited company | Linguistic converter |
JP2001249922A (ja) * | 1999-12-28 | 2001-09-14 | Matsushita Electric Ind Co Ltd | 単語分割方式及び装置 |
JP4543294B2 (ja) * | 2000-03-14 | 2010-09-15 | ソニー株式会社 | 音声認識装置および音声認識方法、並びに記録媒体 |
JP4947861B2 (ja) * | 2001-09-25 | 2012-06-06 | キヤノン株式会社 | 自然言語処理装置およびその制御方法ならびにプログラム |
JP4001283B2 (ja) * | 2003-02-12 | 2007-10-31 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 形態素解析装置および自然言語処理装置 |
JP3768205B2 (ja) * | 2003-05-30 | 2006-04-19 | 沖電気工業株式会社 | 形態素解析装置、形態素解析方法及び形態素解析プログラム |
JP3956368B2 (ja) * | 2003-10-16 | 2007-08-08 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 形態素解析システム |
US7493293B2 (en) * | 2006-05-31 | 2009-02-17 | International Business Machines Corporation | System and method for extracting entities of interest from text using n-gram models |
US8140267B2 (en) * | 2006-06-30 | 2012-03-20 | International Business Machines Corporation | System and method for identifying similar molecules |
US20080208566A1 (en) * | 2007-02-23 | 2008-08-28 | Microsoft Corporation | Automated word-form transformation and part of speech tag assignment |
US20120290601A1 (en) * | 2007-11-15 | 2012-11-15 | Master Wave International Co., Ltd. | Image-based Data Management Method and System |
JP5927955B2 (ja) * | 2012-02-06 | 2016-06-01 | カシオ計算機株式会社 | 情報処理装置及びプログラム |
JP6070809B1 (ja) * | 2015-12-03 | 2017-02-01 | 国立大学法人静岡大学 | 自然言語処理装置及び自然言語処理方法 |
US10606815B2 (en) | 2016-03-29 | 2020-03-31 | International Business Machines Corporation | Creation of indexes for information retrieval |
WO2018146864A1 (ja) * | 2017-02-07 | 2018-08-16 | パナソニックIpマネジメント株式会社 | 翻訳装置および翻訳方法 |
IT201900002235A1 (it) | 2019-02-15 | 2020-08-15 | Univ Ca Foscari Di Venezia | Sistema e metodo per l’unione di morfemi in unita’ lessicali e relativa trascrizione in sillabe hiragana e in caratteri latini di un testo giapponese |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2732563B2 (ja) * | 1986-05-20 | 1998-03-30 | 株式会社東芝 | 機械翻訳方法及び装置 |
JP3009215B2 (ja) * | 1990-11-30 | 2000-02-14 | 株式会社日立製作所 | 自然語処理方法および自然語処理システム |
ES2101613B1 (es) * | 1993-02-02 | 1998-03-01 | Uribe Echebarria Diaz De Mendi | Metodo de traduccion automatica interlingual asistida por ordenador. |
JP2583386B2 (ja) * | 1993-03-29 | 1997-02-19 | 日本電気株式会社 | キーワード自動抽出装置 |
JP3309174B2 (ja) * | 1995-05-15 | 2002-07-29 | 日本電信電話株式会社 | 文字認識方法及び装置 |
US5835893A (en) * | 1996-02-15 | 1998-11-10 | Atr Interpreting Telecommunications Research Labs | Class-based word clustering for speech recognition using a three-level balanced hierarchical similarity |
US5963893A (en) * | 1996-06-28 | 1999-10-05 | Microsoft Corporation | Identification of words in Japanese text by a computer system |
-
1998
- 1998-02-03 JP JP02192998A patent/JP3992348B2/ja not_active Expired - Fee Related
- 1998-03-19 US US09/044,137 patent/US6098035A/en not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012042991A (ja) * | 2010-08-12 | 2012-03-01 | Fuji Xerox Co Ltd | 文作成プログラム及び文作成装置 |
Also Published As
Publication number | Publication date |
---|---|
US6098035A (en) | 2000-08-01 |
JP3992348B2 (ja) | 2007-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
JP3992348B2 (ja) | 形態素解析方法および装置、並びに日本語形態素解析方法および装置 | |
JPH03224055A (ja) | 同時通訳向き音声認識システムおよびその音声認識方法 | |
US7328404B2 (en) | Method for predicting the readings of japanese ideographs | |
JP2002117027A (ja) | 感情情報抽出方法および感情情報抽出プログラムの記録媒体 | |
Tufiş et al. | DIAC+: A professional diacritics recovering system | |
Uchimoto et al. | Morphological analysis of the Corpus of Spontaneous Japanese | |
JP3309174B2 (ja) | 文字認識方法及び装置 | |
JP2002503849A (ja) | 漢字文における単語区分方法 | |
KR102182248B1 (ko) | 문법 검사 시스템 및 방법과 이를 위한 컴퓨터 프로그램 | |
Uchimoto et al. | Morphological analysis of a large spontaneous speech corpus in Japanese | |
JPH11238051A (ja) | 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体 | |
JP3953772B2 (ja) | 読みがな付与装置およびプログラム | |
KR20040018008A (ko) | 품사 태깅 장치 및 태깅 방법 | |
JP3952964B2 (ja) | 読み情報決定方法及び装置及びプログラム | |
JPS60254367A (ja) | 文章分析装置 | |
WO1999001828A1 (en) | FSTs APPROXIMATING HIDDEN MARKOV MODELS AND TEXT TAGGING USING SAME | |
JP2959769B2 (ja) | 日本語文字列の形態素解析方法及び装置 | |
JP3939264B2 (ja) | 形態素解析装置 | |
JP2002351870A (ja) | 形態素の解析方法 | |
JP3628565B2 (ja) | 辞書検索方法、装置、および辞書検索プログラムを記録した記録媒体 | |
JP2004326584A (ja) | 対訳固有表現抽出装置及び方法、対訳固有表現抽出プログラム | |
Bhuyan et al. | Generation of Missing Words in Assamese text using N-gram based Model | |
JP3084864B2 (ja) | 文章入力装置 | |
JPH0546612A (ja) | 文章誤り検出装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20031217 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040113 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040311 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20040531 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20040625 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070703 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070724 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100803 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |