JP3410163B2 - 言語処理装置 - Google Patents

言語処理装置

Info

Publication number
JP3410163B2
JP3410163B2 JP18930193A JP18930193A JP3410163B2 JP 3410163 B2 JP3410163 B2 JP 3410163B2 JP 18930193 A JP18930193 A JP 18930193A JP 18930193 A JP18930193 A JP 18930193A JP 3410163 B2 JP3410163 B2 JP 3410163B2
Authority
JP
Japan
Prior art keywords
kana
character string
kanji
morpheme
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP18930193A
Other languages
English (en)
Other versions
JPH0785030A (ja
Inventor
奈穂子 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP18930193A priority Critical patent/JP3410163B2/ja
Publication of JPH0785030A publication Critical patent/JPH0785030A/ja
Application granted granted Critical
Publication of JP3410163B2 publication Critical patent/JP3410163B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、日本語文の形態素解析
処理機能を備えた言語処理システムに関する。
【0002】
【従来の技術】一般に、日本語文の形態素解析処理は、
入力された日本語文、すなわち入力文字列を形態素解析
用辞書内に予め登録されている単語とマッチングして単
語を同定し、単語単位に分割することによってなされる
が、入力文中に辞書に登録されていない単語(未登録
語)が存在する場合、この単語については単語の同定が
できず、未登録語として処理される。
【0003】ところで、未登録語の処理において問題と
なるのは、未登録語が平仮名文字列である場合であり、
未登録語が平仮名文字列であるときには、付属語との区
別をすることが難しく、未登録語の範囲決定が非常に困
難となり、形態素解析の精度を低下させる要因となって
いた。
【0004】形態素解析におけるこのような問題を回避
するため、従来、例えば、特開昭63−095572に
開示されているような技術が知られており、この技術で
は、漢字仮名混じりの日本語文の形態素解析において、
未登録語は、自立語であるという前提の下に、「平仮名
文字列」の未登録語を検出するようにしている。
【0005】
【発明が解決しようとする課題】上述した従来の技術を
用いれば、平仮名文字列の多い文章を形態素解析する際
に、「平仮名文字列」の未登録語の検出(範囲同定)を
行なうことはできるが、検出された未登録語は、未登録
語のままで、これに積極的に正しい読みや品詞が付され
るわけではない。すなわち、平仮名文字列の多い文につ
いては、一般に、形態素解析結果に未登録語が多く含ま
れてしまい、未登録語として検出することができたとし
ても、従来では、これに品詞などが付されないので、正
確な形態素解析結果を得ることができないという欠点が
あった。
【0006】なお、平仮名文字列の多い文を形態素解析
するときに、未登録語の生起個数を少なくするために
は、同じ単語を漢字表記とともにさらに平仮名表記で形
態素解析用辞書に登録することも考えられるが、この場
合には、登録語数が増大し、形態素解析用辞書の容量が
大きくなるなどの問題が生ずる。
【0007】本発明は、従来未登録語として処理される
可能性の高かった平仮名文字列の多い日本語文について
も、形態素解析用辞書の容量を増加させずに、未登録語
の個数を減少させることができ、正確な形態素解析結果
を得ることの可能な言語処理システムを提供することを
目的としている。
【0008】
【課題を解決するための手段および作用】上記目的を達
成するために、請求項1乃至請求項8記載の発明は、漢
字仮名混じりの日本語文を入力する入力手段と、形態素
解析用辞書と、入力手段により入力された日本語文を形
態素解析用辞書を用いて形態素解析し、また、該日本語
文から平仮名文字列を抽出する形態素解析手段と、利用
者によって所定の操作がなされたときに、形態素解析手
段によって抽出された平仮名文字列を仮名漢字変換する
仮名漢字変換手段とを有し、形態素解析手段は、仮名漢
字変換された結果の文字列を再度形態素解析するように
なっていることを特徴としている。これにより、未登録
語として処理される可能性の高かった平仮名文字列の多
い日本語文についても、形態素解析用辞書の容量を増加
させずに、さらには形態素解析用辞書を何ら変更せず
に、未登録語の個数を減少させることができ、正確な形
態素解析結果を得ることができる。
【0009】特に、請求項1,請求項2記載の発明は、
上記形態素解析用辞書が、仮名漢字変換用の辞書と1つ
にまとめられたものとして構成されており、この場合、
該辞書を形態素解析用の検索形態と仮名漢字変換用の検
索形態とのいずれかに切替えるための辞書引き制御手段
がさらに設けられていることを特徴としている。これに
より、システム全体の辞書容量を低減でき、非常にコン
パクトなシステムを実現することができる。
【0010】また、請求項3記載の発明は、上記形態素
解析手段が、入力された日本語文の文字種の違いを判定
して、平仮名文字列を抽出し、抽出された平仮名文字列
の文字に対して、その前後の形態素との接続チェックを
行なって付属語であるか否かを判定し、付属語であると
判定された文字部分については一形態素として取り扱
い、付属語と判定されなかった文字部分については、仮
名漢字変換対象としての連続平仮名文字列として判別す
ることを特徴としている。これにより、仮名漢字変換対
象となる部分を明確に割り出し、仮名漢字変換を正しく
行なわせることができる。
【0011】また、請求項4記載の発明は、上記形態素
解析手段が、仮名漢字変換された結果の文字列を再度形
態素解析したときに、連続平仮名文字列の直前形態素と
仮名漢字変換された連続平仮名文字列の先頭形態素との
接続チェックと、連続平仮名文字列の直後の形態素と仮
名漢字変換された連続平仮名文字列の後尾形態素との接
続チェックとを行なうようになっていることを特徴とし
ている。これにより、仮名漢字変換時に複数の候補が存
在する場合、候補を絞り込むことができる。
【0012】また、請求項5記載の発明は、上記形態素
解析手段が、仮名漢字変換された結果の文字列を再度形
態素解析した後に、仮名漢字変換された結果の文字列を
元の平仮名文字列に復元するようになっていることを特
徴としている。これにより、元の日本語文で形態素解析
がなされたような結果を最終的に得ることができる。
【0013】また、請求項6乃至請求項8記載の発明
は、さらに、表示手段と、前記表示手段の表示形態を形
態素解析処理用,仮名漢字変換用のいずれにするかを切
替える表示制御手段とを有している。これにより、利用
者は、形態素解析処理時,仮名漢字変換処理時のいずれ
においても、これらの処理結果等を容易に確認し、把握
することができる。
【0014】特に、請求項7記載の発明では、表示制御
手段は、形態素解析処理用の表示を利用者の必要に応じ
て仮名漢字変換処理用の表示に切替えるようになってい
る。これにより、利用者は現在どの処理を行なっている
のかを常に把握することができる。
【0015】また、請求項8記載の発明では、表示制御
手段は、形態素解析処理において連続平仮名文字列が抽
出された際に、該連続平仮名文字列の部分を他の部分と
区別可能な形態で表示するようになっている。これによ
り、どの部分の文字列が仮名漢字変換の必要なものであ
るかを明瞭に示すことができる。
【0016】
【実施例】以下、本発明の実施例を図面に基づいて説明
する。図1は本発明に係る言語処理システムの一実施例
のブロック図である。
【0017】図1を参照すると、この言語処理システム
は、漢字仮名混じりの日本語文(テキスト文字列)を入
力する入力部1と、入力部1から入力された入力文字列
に対して形態素解析を行なう形態素解析部5と、仮名漢
字変換処理を行なう仮名漢字変換部8と、表示部11へ
の所定の表示制御を行なう表示制御部10とを有してい
る。
【0018】ここで、形態素解析部5は、入力文字列に
対し、単語の表記と品詞情報などが登録されている図2
に示すような形態素解析用辞書12と、形態素間の接続
関係が記述されている接続テ−ブル4とを用いて、形態
素解析を行ない、形態素解析結果を形態素保持バッファ
6に保持するようになっている。
【0019】また、形態素解析部5は、さらに、入力文
字列に対して平仮名や数字などの文字種の違いを判定
し、平仮名文字列が抽出されたときには、これを平仮名
文字列保持バッファ7に保持する機能をも有している。
また、平仮名と判定された文字に対して、その文字の前
後の形態素の品詞などを参照して接続チェックを行な
い、その接続関係から前の形態素の付属語(一形態素と
して取り扱われるべき語)であるか否かをも識別するよ
うになっている。この場合、上記平仮名文字列保持バッ
ファ7には、付属語であると識別された平仮名文字列
と、それ以外の連続平仮名文字列とが判別可能に保持さ
れるようになっている。
【0020】また、仮名漢字変換部8は、平仮名文字列
保持バッファ7に保持されている平仮名文字列(連続仮
名文字列)に対し、利用者の必要に応じて(例えば利用
者が所定のキ−(例えば変換キ−)を操作することによ
って)仮名漢字変換処理を行なう機能を有しており、こ
の仮名漢字変換処理を行なうのに、単語の表記と読みと
が対応付けられて記憶されている図3に示すような仮名
漢字変換辞書3を用い、また、仮名漢字変換結果を変換
文字列バッファ9に格納するようになっている。
【0021】ところで、形態素解析用辞書12に、従来
の形態素解析に用いられていたと同様のものを用いる場
合、形態素解析用辞書12には、一般に、単語の漢字表
記のみが登録され、単語の平仮名表記は登録されていな
いことが多く、前述したように、平仮名文字列の多い文
が入力部1から入力すると、形態素解析部5は、平仮名
表記の単語については、これを未登録語として処理す
る。従って、平仮名文字列保持バッファ6に保持されて
いる連続平仮名文字列は、未登録語として形態素解析処
理された蓄然性が高いものである。
【0022】本願の発明者は、平仮名表記であるがため
に未登録語として処理された単語については、これが漢
字表記であれば、正しく形態素解析がなされることが極
めて多いことに着目し、平仮名文字列保持バッファ6に
保持されている連続平仮名文字列を漢字仮名混じり文字
列に直した上で、再度形態素解析を行なわせれば、未登
録語の個数を減少させることができることを見出した。
そこで、本実施例では、平仮名文字列保持バッファ7に
保持されている連続平仮名文字列に対し、利用者の必要
に応じて仮名漢字変換部8で仮名漢字変換して変換文字
列バッファ9に格納し、変換文字列バッファ9に格納さ
れた変換文字列をさらに形態素解析部5に与え、形態素
解析部5において形態素解析を再度行なわせるようにし
ている。
【0023】このように、平仮名表記であるがために未
登録語として処理された単語を漢字に直して再度、形態
素解析させることで、形態素解析用辞書12の登録語数
を何ら増加させることなく、さらには、形態素解析用辞
書12の内容を何ら変更することなく(すなわち、単語
の漢字表記のみが登録されている状態のままで)、未登
録語の個数を減少させることが可能となる。また、連続
平仮名文字列を仮名漢字変換部8で仮名漢字変換する
際、この仮名漢字変換処理は、一般に、マンマシンイン
タフェースで利用者の所望の漢字を選択可能になされる
ので、連続平仮名文字列を利用者の意図した正しい漢字
仮名混じり文字列に直すことができて、これにより、正
確な形態素解析結果を確実に得ることが可能となる。
【0024】また、仮名漢字変換部8を設けたことで、
これを形態素解析処理についてのみ用いるのみならず、
例えば、ワ−ドプロセッサ等のような他の機能をもさら
に実現するのに用いることもできる。すなわち、図1の
システムを形態素解析システムとしてのみならず、ワ−
ドプロセッサ等の機能をも含むより汎用的な言語処理シ
ステムに容易に拡張することが可能となる。
【0025】また、図1の構成例では、形態素解析処理
に用いる辞書,すなわち形態素解析用辞書12と、仮名
漢字変換処理に用いる辞書,すなわち仮名漢字変換辞書
3とを別個に設けたが、これらを1つの辞書にまとめ、
両方の処理で共用させることも可能である。
【0026】図4は、形態素解析処理に用いる辞書と仮
名漢字変換処理に用いる辞書とを1つにまとめたシステ
ムの構成例を示す図である。図4を参照すると、このシ
ステムには、単語の表記と読みと品詞情報とが対応付け
されている図5に示すような辞書22と、この辞書22
の検索形態を形態素解析処理時と仮名漢字変換処理時と
で切替え可能な辞書引き制御部2とが設けられている。
【0027】ここで、辞書22は、図2,図3にそれぞ
れ示した形態素解析用辞書12,仮名漢字変換辞書3を
1つにまとめたものとして構成され、辞書引き制御部2
の制御によって、形態素解析処理と仮名漢字変換処理と
で共用されるようになっている。すなわち、辞書引き制
御部2は、形態素解析を行なっているときには、辞書2
2に対して表記(見出し領域)による検索を行ない、ま
た、仮名漢字変換処理を行なっているときには、辞書2
2に対して読み(読み領域)による検索を行なうよう、
その検索形態を切替え制御して、この辞書22が両方の
処理で用いられるようにしている。
【0028】図4の構成では、辞書引き制御部2の制御
により、辞書22の検索形態を上記のように切替えるこ
とができるので、処理毎に辞書を設ける必要がなく、1
つの辞書22だけで対応できて、システム全体の辞書容
量を低減し、非常にコンパクトなシステムを実現するこ
とができる。
【0029】なお、図1,図4の構成例において、仮名
漢字変換部8により連続平仮名文字列が漢字仮名混じり
文字列に変換された後、再度の形態素解析を行なって形
態素が確定したところで、連続平仮名文字列の直前形態
素と仮名漢字変換された連続平仮名文字列の先頭形態素
との接続チェック,および連続平仮名文字列の直後の形
態素と仮名漢字変換された連続平仮名文字列の後尾形態
素との接続チェックを行なう機能をも形態素解析部5に
もたせることもでき、さらには、仮名漢字変換された文
字列を元のテキストの平仮名文字列に復元する機能をも
形態素解析部5にもたせることもできる。
【0030】また、形態素解析処理時と仮名漢字変換処
理時とで表示の切替制御を行なう機能を表示制御部10
にもたせることもできる。例えば、形態素解析処理時に
は、表示制御部10は、表示部11に、入力文字列と、
形態素保持バッファ6に保持された形態素解析結果と、
平仮名文字列保持バッファ7に保持された平仮名文字列
とを表示し、また、平仮名文字列から連続平仮名文字列
が抽出されたときには、平仮名文字列のうち、この連続
平仮名文字列の部分だけを白黒反転させるようになって
いる。また、例えば変換キ−などの所定のキ−が操作さ
れるなどして、利用者の必要に応じ仮名漢字変換処理が
選択されたときには、表示部11を仮名漢字変換処理用
の画面に切替えるようになっている。
【0031】次にこのような構成の言語処理システムの
動作を図6乃至図8のフロ−チャ−トを用いて説明す
る。なお、以下では、便宜上、言語処理システムが図4
の構成になっているものとし、当初、辞書引き制御部2
は、辞書22の検索形態を形態素解析用に、すなわち表
記による検索がなされるように切替えしているとする。
【0032】テキスト文字列が入力部1から入力すると
(ステップS1)、形態素解析部5は、この文字列を読
み込み(ステップS2)、辞書22及び接続テ−ブル4
を用いて入力文字種判定処理(ステップS3,S4),
形態素解析処理(ステップS5)を行ない、表示部11
に入力文字列,形態素解析結果および平仮名文字列を表
示する(ステップS6)。ここで、ステップS3,S4
の入力文字種判定処理では、入力文字が平仮名,数字等
のいずれであるかを判定し、入力文字が平仮名であると
判定したときには、その文字を平仮名文字列保持バッフ
ァ7に保持する。また、形態素解析結果は、形態素保持
バッファ6に保持される。そして、形態素保持バッファ
6,平仮名文字列保持バッファ7の内容が、表示部11
に、それぞれ形態素解析結果,平仮名文字列として表示
される。
【0033】このようにして、入力したテキスト文字列
に対して上述のような一連の処理を行なった後、形態素
解析部5は、このテキスト文字列に平仮名文字列が存在
したか否かを、平仮名文字列保持バッファ7に文字列が
保持されているか否かにより判定する(ステップS
7)。この結果、平仮名文字列保持バッファ7に文字列
が保持されていない場合には、テキスト文字列に平仮名
文字列が存在しないので、ステップS4の処理で形態素
解析が全てなされたと判断し、処理を終了する。
【0034】これに対し、平仮名文字列保持バッファ7
に平仮名文字列が保持されている場合には、形態素解析
部5は、さらに、平仮名文字列保持バッファ7に保持さ
れている平仮名文字列の先頭の文字について、この平仮
名文字列の直前形態素との接続チェックを行なって(ス
テップS8)、これが直前形態素の付属語であるか否か
を識別し(ステップS9)、付属語であるときには、こ
の文字を一文字ずらしたものを先頭の文字とみなし(ス
テップS10)、ステップS7に戻って、一文字ずらし
た文字も付属語であるか否かを調べる。
【0035】ステップS7乃至S10の処理を繰り返し
行なって、先頭の文字が付属語でなくなったとき、この
平仮名文字列において、付属語として識別された平仮名
文字列部分と、付属語以外の平仮名文字列部分とが確定
し(ステップS11)、付属語として識別された平仮名
文字列部分を一形態素として取り扱い、付属語以外の平
仮名文字列部分を連続平仮名文字列(この段階での未登
録語)として検出することができる。この際、連続平仮
名文字列として検出された平仮名文字列部分は、平仮名
文字列保持バッファ7において、他の文字列部分と区別
される形態で保持される(例えば、フラグなどが付され
る)。また、表示部11には、連続平仮名文字列として
検出された平仮名文字列部分を、利用者の必要に応じた
形態で(例えば、白黒反転表示などにより)、他の文字
列と区別して表示することができる(ステップS12乃
至S14)。
【0036】この状態で、利用者により、例えば変換キ
ーなどが操作されて仮名漢字変換要求が出されると(仮
名漢字変換モ−ドが選択されると)(ステップS1
5)、表示制御部10は、表示部11の表示画面を形態
素解析用の表示から仮名漢字変換用の表示に切替える
(ステップS16)。また、辞書引き制御部2は、辞書
22の検索形態を仮名文字列(読み)による検索に切替
える(ステップS17)。この段階で、仮名漢字変換部
8は、利用者とのマンマシンインタフェ−スにより、平
仮名文字列保持バッファ7に保持されている連続平仮名
文字列を仮名漢字変換し(ステップS18)、その結果
を変換文字列バッファ9に格納するとともに、表示部1
1に表示する(ステップS19)。この変換結果が利用
者の意図するものである場合、利用者が所定のキ−(例
えば、図示しないが確定キ−)を押下することによっ
て、変換結果が確定し(ステップS20)、仮名漢字変
換モ−ドから抜け(ステップS21)、制御が形態素解
析部5に移る。また、この段階で、辞書引き制御部2
は、辞書22の検索形態を表記による検索に切替える。
【0037】このようにして、制御が形態素解析部5に
移ったとき、形態素解析部5は、変換文字列バッファ9
に格納された仮名漢字変換結果,すなわち仮名漢字変換
された文字列に対して、形態素解析を行なう(ステップ
S22)。また、この際、連続平仮名文字列の直前形態
素と仮名漢字変換された連続平仮名文字列の先頭形態素
との接続チェック,連続平仮名文字列の直後の形態素と
仮名漢字変換された連続平仮名文字列の後尾形態素との
接続チェックも行なう。
【0038】ステップS22における形態素解析結果
は、形態素解析バッファ6に保持され、表示部11に表
示される(ステップS23)。この表示に基づき利用者
により形態素が確定すると(ステップS24)、形態素
解析部5は、仮名漢字変換のなされた部分を元の平仮名
文字列に変換し、すなわち元のテキスト文字列に復元し
(ステップS25)、このようにして、入力文の形態素
解析が終了する。
【0039】次に具体例を説明する。入力部1から例え
ば図9(a)に示すような文字列「おおぜいの人がつうろ
をとおる。」が入力された場合、形態素解析部5は、先
ず、この文字列を形態素解析する。この形態素解析結果
は、表示部11に図9(b)に示すように表示される。
【0040】また、この際、図9(c)に示すように、
「おおぜいの」,「がつうろをとおる」が平仮名文字列
として判定され、平仮名文字列保持バッファ7に保持さ
れる。なお、この形態素解析処理では、辞書引き制御部
2は、辞書22に対して表記による検索を行なうように
なっているので、上記平仮名文字列において「おおぜ
い」,「つうろ」,「とおる」はこの段階では未登録語
として処理される。形態素解析部5は、上記のように平
仮名文字列保持バッファ7に保持された平仮名文字列の
うち、先ず、平仮名文字列「おおぜいの」に着目し、こ
の先頭の文字「お」に直前形態素があるか否かを調べ
る。いまの場合、先頭の文字「お」には、直前形態素が
ないので、この文字「お」を先頭文字とした平仮名文字
列「おおぜいの」が連続平仮名文字列として判別され
る。また、形態素解析部5は、次に、平仮名文字列「が
つうろをとおる」に着目し、この先頭の文字「が」に直
前形態素があるか否かを調べる。いまの場合、先頭の文
字「が」には、直前形態素として「人」があり、文字
「が」は、「人」の付属語であるとして判断され、格助
詞「が」の一形態素として判定される。次いで、一文字
ずらし、文字「つ」について同様に調べるが、文字
「つ」は、直前形態素が格助詞「が」であるので、この
文字「つ」を先頭文字とした平仮名文字列「つうろをと
おる」が連続平仮名文字列として判別される。
【0041】このように、図9(a)の文字列から図9
(d)のような2つの連続平仮名文字列「おおぜいの」,
「つうろをとおる」が抽出されると、これらは平仮名文
字列保持バッファ7に例えばフラグ等を付して判別可能
に保持され、また、表示部11に、必要に応じた形態で
(例えば白黒反転で)表示される。
【0042】この段階で、利用者が仮名漢字変換モ−ド
を選択すると、辞書検索形態が仮名文字列による検索形
態に代わる。いま、辞書22に、仮名文字列「おおぜ
い」,「つうろ」,「とおる」に対応させて、漢字「大
勢」,「通路」,「通る」が登録されている場合、仮名
漢字変換部8は、図9(d)の2つの連続平仮名文字列を
図9(e)のような文字列「大勢の」,「通路を通る」に
仮名漢字変換し、この仮名漢字変換結果を表示部11に
表示する。利用者は、この表示を見て、意図したものに
変換されたか否かを確認し、意図したものとなっている
場合には、例えば確定キ−(図示せず)を選択して、仮
名漢字変換処理を終了させる。
【0043】これにより、再度、形態素解析部5に制御
が移り、形態素解析部5は、仮名漢字変換された状態で
の入力文字列に対して再度解析を行ない、接続チェック
する。例えば、連続平仮名文字列「つうろをとおる」に
関しては、「通路」,「を」,「とおる」に形態素解析
し、連続平仮名文字列「つうろをとおる」の直前形態素
(すなわち、「が」の形態素)と仮名漢字変換された連
続平仮名文字列の先頭形態素(すなわち、「通路」の形
態素)との接続チェックを行ない、また、連続平仮名文
字列「つうろをとおる」の直後の形態素(すなわ
ち、「。」の形態素)と仮名漢字変換された連続平仮名
文字列の後尾形態素(すなわち、「通る」の形態素)と
の接続チェックを行なう。このようにして、再度の解
析,接続チェックがなされた後、形態素を同定する。こ
の結果、平仮名表記では、辞書に存在せず未登録語とな
っていた語が、漢字に変換されることで形態素解析可能
となり、図9(a)の入力文字列については、図9(f)の
ような形態素解析結果を得ることができる。この形態素
解析結果は、表示部11に表示され、これが利用者の意
図したものとなっている場合、利用者は確定キ−を選択
する。確定キ−が選択されると、図9(f)の各形態素
は、図9(g)のように元のテキストの表記に復元され、
図9(a)の文字列についての形態素解析を完了する。
【0044】
【発明の効果】以上に説明したように、請求項1乃至請
求項8記載の発明によれば、漢字仮名混じりの日本語文
を入力する入力手段と、形態素解析用辞書と、入力手段
により入力された日本語文を形態素解析用辞書を用いて
形態素解析し、また、該日本語文から平仮名文字列を抽
出する形態素解析手段と、利用者によって所定の操作が
なされたときに、形態素解析手段によって抽出された平
仮名文字列を仮名漢字変換する仮名漢字変換手段とを有
し、形態素解析手段は、仮名漢字変換された結果の文字
列を再度形態素解析するようになっているので、未登録
語として処理される可能性の高かった平仮名文字列の多
い日本語文についても、形態素解析用辞書の容量を増加
させずに、さらには形態素解析用辞書を何ら変更せず
に、未登録語の個数を減少させることができ、正確な形
態素解析結果を得ることができる。
【0045】特に、請求項1,請求項2記載の発明によ
れば、形態素解析用辞書は、仮名漢字変換用の辞書と1
つにまとめられたものとして構成されており、この場
合、該辞書を形態素解析用の検索形態と仮名漢字変換用
の検索形態とのいずれかに切替えるための辞書引き制御
手段がさらに設けられているので、この辞書を両方の処
理で共用できて、システム全体の辞書容量を低減でき、
非常にコンパクトなシステムを実現することができる。
【0046】また、請求項3記載の発明によれば、形態
素解析手段は、入力された日本語文の文字種の違いを判
定して、平仮名文字列を抽出し、抽出された平仮名文字
列の文字に対して、その前後の形態素との接続チェック
を行なって付属語であるか否かを判定し、付属語である
と判定された文字部分については一形態素として取り扱
い、付属語と判定されなかった文字部分については、仮
名漢字変換対象としての連続平仮名文字列として判別す
るので、仮名漢字変換対象となる部分を明確に割り出
し、仮名漢字変換を正しく行なわせることができる。
【0047】また、請求項4記載の発明によれば、形態
素解析手段は、仮名漢字変換された結果の文字列を再度
形態素解析したときに、連続平仮名文字列の直前形態素
と仮名漢字変換された文字列の先頭形態素との接続チェ
ックと、連続平仮名文字列の直後の形態素と仮名漢字変
換された文字列の後尾形態素との接続チェックとを行な
うようになっているので、仮名漢字変換時に複数の候補
が存在する場合、候補を絞り込むことができる。
【0048】また、請求項5記載の発明によれば、形態
素解析手段は、仮名漢字変換された結果の文字列を再度
形態素解析した後に、仮名漢字変換された結果の文字列
を元の平仮名文字列に復元するようになっているので、
元の日本語文で形態素解析がなされたような結果を最終
的に得ることができる。
【0049】また、請求項6乃至請求項8記載の発明に
よれば、さらに、表示手段と、前記表示手段の表示形態
を形態素解析処理用,仮名漢字変換用のいずれにするか
を切替える表示制御手段とを有しているので、利用者
は、形態素解析処理時,仮名漢字変換処理時のいずれに
おいても、これらの処理結果等を容易に確認し、把握す
ることができる。
【0050】特に、請求項7記載の発明によれば、表示
制御手段は、形態素解析処理用の表示を、利用者の必要
に応じて仮名漢字変換処理用の表示に切替えるようにな
っているので、利用者は現在どの処理を行なっているの
かを常に把握することができる。
【0051】また、請求項8記載の発明によれば、表示
制御手段は、形態素解析処理において連続平仮名文字列
が抽出された際に、該連続平仮名文字列の部分を他の部
分と区別可能な形態で表示するようになっているので、
どの部分の文字列が仮名漢字変換の必要なものであるか
を明瞭に示すことができる。
【図面の簡単な説明】
【図1】本発明に係る言語処理システムの一実施例のブ
ロック図である。
【図2】形態素解析用辞書の一例を示す図である。
【図3】仮名漢字変換辞書の一例を示す図である。
【図4】図1の言語処理システムの変形例を示す図であ
る。
【図5】図4の言語処理システムの辞書の一例を示す図
である。
【図6】図4の言語処理システムの処理動作を示すフロ
−チャ−トである。
【図7】図4の言語処理システムの処理動作を示すフロ
−チャ−トである。
【図8】図4の言語処理システムの処理動作を示すフロ
−チャ−トである。
【図9】本発明の言語処理システムの具体的な処理例を
示す図である。
【符号の説明】
1 入力部 2 辞書引き制御部 4 接続テ−ブル 5 形態素解析部 6 形態素保持バッファ 7 平仮名文字列保持バッファ 8 仮名漢字変換部 9 変換文字列バッファ 10 表示制御部 11 表示部 12 形態素解析用辞書 22 辞書

Claims (8)

    (57)【特許請求の範囲】
  1. 【請求項1】 漢字仮名混じりの日本語文を入力する入
    力手段と、形態素解析用辞書と、前記入力手段により入
    力された日本語文を前記形態素解析用辞書を用いて形態
    素解析し、また、該日本語文から平仮名文字列を抽出す
    る形態素解析手段と、利用者によって所定の操作がなさ
    れたときに、形態素解析手段によって抽出された平仮名
    文字列を仮名漢字変換する仮名漢字変換手段とを有し、
    前記形態素解析手段は、仮名漢字変換された結果の文字
    列を再度形態素解析するようになっており、前記形態素
    解析用辞書は、仮名漢字変換用の辞書と1つにまとめら
    れたものとして構成されており、この場合、該辞書を形
    態素解析用の検索形態と仮名漢字変換用の検索形態との
    いずれかに切替えるための辞書引き制御手段がさらに設
    けられていることを特徴とする言語処理装置
  2. 【請求項2】 漢字仮名混じりの日本語文を入力する入
    力手段と、形態素解析用辞書と、前記入力手段により入
    力された日本語文を前記形態素解析用辞書を用いて形態
    素解析し、また、該日本語文から平仮名文字列を抽出す
    る形態素解析手段と、利用者によって所定の操作がなさ
    れたときに、形態素解析手段によって抽出された平仮名
    文字列を仮名漢字変換する仮名漢字変換手段とを有し、
    前記形態素解析手段は、仮名漢字変換された結果の文字
    列を再度形態素解析するようになっており、前記辞書
    は、少なくとも単語の表記と単語の読みと品詞情報とを
    有しており、前記辞書引き制御手段は、辞書の検索形態
    を、形態素解析がなされているときには、表記による検
    索形態に切替え、また、仮名漢字変換がなされていると
    きには、読みによる検索形態に切替え制御するようにな
    っていることを特徴とする言語処理装置
  3. 【請求項3】 漢字仮名混じりの日本語文を入力する入
    力手段と、形態素解析用辞書と、前記入力手段により入
    力された日本語文を前記形態素解析用辞書を用いて形態
    素解析し、また、該日本語文から平仮名文字列を抽出す
    る形態素解析手段と、利用者によって所定の操作がなさ
    れたときに、形態素解析手段によって抽出された平仮名
    文字列を仮名漢字変換する仮名漢字変換手段とを有し、
    前記形態素解析手段は、仮名漢字変換された結果の文字
    列を再度形態素解析するようになっており、前記形態素
    解析手段は、入力された日本語文の文字種の違いを判定
    して平仮名文字列を抽出し、抽出された平仮名文字列の
    文字に対して、その前後の形態素との接続チェックを行
    なって付属語であるか否かを判定し、付属語であると判
    定された文字部分については一形態素として取り扱い、
    付属語と判定されなかった文字部分については、仮名漢
    字変換対象としての連続平仮名文字列として判別するこ
    とを特徴とする言語処理装置
  4. 【請求項4】 漢字仮名混じりの日本語文を入力する入
    力手段と、形態素解析用辞書と、前記入力手段により入
    力された日本語文を前記形態素解析用辞書を用いて形態
    素解析し、また、該日本語文から平仮名文字列を抽出す
    る形態素解析手段と、利用者によって所定の操作がなさ
    れたときに、形態素解析手段によって抽出された平仮名
    文字列を仮名漢字変換する仮名漢字変換手段とを有し、
    前記形態素解析手段は、仮名漢字変換された結果の文字
    列を再度形態素解析するようになっており、前記形態素
    解析手段は、仮名漢字変換された結果の文字列を再度形
    態素解析したときに、連続平仮名文字列の直前形態素と
    仮名漢字変換された連続平仮名文字列の先頭形態素との
    接続チェックと、連続平仮名文字列の直後の形態素と仮
    名漢字変換された連続平仮名文字列の後尾形態素との接
    続チェックとを行なうようになっていることを特徴とす
    言語処理装置
  5. 【請求項5】 漢字仮名混じりの日本語文を入力する入
    力手段と、形態素解析用辞書と、前記入力手段により入
    力された日本語文を前記形態素解析用辞書を用いて形態
    素解析し、また、該日本語文から平仮名文字列を抽出す
    る形態素解析手段と、利用者によって所定の操作がなさ
    れたときに、形態素解析手段によって抽出された平仮名
    文字列を仮名漢字変換する仮名漢字変換手段とを有し、
    前記形態素解析手段は、仮名漢字変換された結果の文字
    列を再度形態素解析するようになっており、前記形態素
    解析手段は、仮名漢字変換された結果の文字列を再度形
    態素解析した後に、仮名漢字変換された結果の文字列を
    元の平仮名文字列に復元するようになっていることを特
    徴とする言語処理装置
  6. 【請求項6】 漢字仮名混じりの日本語文を入力する入
    力手段と、形態素解析用辞書と、前記入力手段により入
    力された日本語文を前記形態素解析用辞書を用いて形態
    素解析し、また、該日本語文から平仮名文字列を抽出す
    る形態素解析手段と、利用者によって所定の操作がなさ
    れたときに、形態素解析手段によって抽出された平仮名
    文字列を仮名漢字変換する仮名漢字変換手段とを有し、
    前記形態素解析手段は、仮名漢字変換された結果の文字
    列を再度形態素解析するようになっており、さらに、表
    示手段と、前記表示手段の表示形態を形態素解析処理
    用,仮名漢字変換用のいずれにするかを切替える表示制
    御手段とを有していることを特徴とする言語処理装置
  7. 【請求項7】 請求項6記載の言語処理装置において、
    前記表示制御手段は、形態素解析処理用の表示を、利用
    者の必要に応じて仮名漢字変換処理用の表示に切替える
    ようになっていることを特徴とする言語処理装置
  8. 【請求項8】 請求項6記載の言語処理装置において、
    前記表示制御手段は、形態素解析処理において連続平仮
    名文字列が抽出された際に、該連続平仮名文字列の部分
    を他の部分と区別可能な形態で表示するようになってい
    ることを特徴とする言語処理装置
JP18930193A 1993-06-30 1993-06-30 言語処理装置 Expired - Fee Related JP3410163B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP18930193A JP3410163B2 (ja) 1993-06-30 1993-06-30 言語処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP18930193A JP3410163B2 (ja) 1993-06-30 1993-06-30 言語処理装置

Publications (2)

Publication Number Publication Date
JPH0785030A JPH0785030A (ja) 1995-03-31
JP3410163B2 true JP3410163B2 (ja) 2003-05-26

Family

ID=16239048

Family Applications (1)

Application Number Title Priority Date Filing Date
JP18930193A Expired - Fee Related JP3410163B2 (ja) 1993-06-30 1993-06-30 言語処理装置

Country Status (1)

Country Link
JP (1) JP3410163B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004287710A (ja) * 2003-03-20 2004-10-14 Fuji Xerox Co Ltd 言語処理システム

Also Published As

Publication number Publication date
JPH0785030A (ja) 1995-03-31

Similar Documents

Publication Publication Date Title
US7110939B2 (en) Process of automatically generating translation-example dictionary, program product, computer-readable recording medium and apparatus for performing thereof
EP0241646B1 (en) Document processing apparatus
US5418718A (en) Method for providing linguistic functions of English text in a mixed document of single-byte characters and double-byte characters
JPS5827547B2 (ja) 電子辞書
JP3410163B2 (ja) 言語処理装置
JPH10232863A (ja) かな漢字変換装置および方法、並びに記録媒体
JPH10320399A (ja) 言語識別装置,言語識別方法および言語識別のプログラムを記録した記録媒体
JPH05282360A (ja) 多国語入力装置
JP3278889B2 (ja) 機械翻訳装置
JP3220133B2 (ja) 仮名漢字変換装置
JP3351397B2 (ja) 中国語入力装置及び中国語入力方法
JPH09153044A (ja) 文字処理装置およびカナ英字変換装置
JPS5911435A (ja) カナ漢字変換装置
JPH07104863B2 (ja) かな漢字変換装置
JPS60207948A (ja) カナ漢字変換処理装置
JPH08314912A (ja) 文字入力装置
JPS6175466A (ja) 仮名漢字変換装置
JPH0443308B2 (ja)
JPH0540747A (ja) ワードプロセツサー
JPH08314937A (ja) 機械翻訳装置
JPH07319878A (ja) 機械翻訳装置
JPH03256164A (ja) かな漢字変換方式
JPH02122367A (ja) かな漢字変換装置
JPH08287192A (ja) テキスト解析装置
JPH1185751A (ja) 翻訳装置及び翻訳装置制御プログラムを記憶した媒体

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees