JPH0452963A - 日本語形態素解析装置 - Google Patents

日本語形態素解析装置

Info

Publication number
JPH0452963A
JPH0452963A JP2161808A JP16180890A JPH0452963A JP H0452963 A JPH0452963 A JP H0452963A JP 2161808 A JP2161808 A JP 2161808A JP 16180890 A JP16180890 A JP 16180890A JP H0452963 A JPH0452963 A JP H0452963A
Authority
JP
Japan
Prior art keywords
analysis
word
kanji
character string
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2161808A
Other languages
English (en)
Inventor
Yuji Ito
雄二 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2161808A priority Critical patent/JPH0452963A/ja
Publication of JPH0452963A publication Critical patent/JPH0452963A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は 日本語文の形態素解析装置に関するものであ
ム [従来の技術] 近低 機械翻訳に代表されるように自然言語処理技術へ
の要請が高まってきていも その中で、漢字かな混じり
文の形態素解析は 英語などと違って分かち書きされな
い日本語文の解析には必須の処理であり、その精度は全
体の解析に大きな影響を及ぼす。ところで、形態素解析
の阪 未登録語の処理が大きな問題となム 未登録語に
は その語自体が辞書に登録されていないものの他にい
わゆる異形語とがあム ここでいう異形語と(よ例えば
ワープロにおける変換もれなどで漢字2文字以上からな
る語のうちの一部がひらがなのまま残っているもの(例
「ちゆう出(抽出)」)や、 さらに変換ミスなどによ
っη漢字自体が誤っているもの(例[−全段(階段)−
1)を指すものと′4も4、の、よ・うな異形語が文中
iJ穐まれ−(−いる場合、形態素解析の途中で辞書引
きに失敗j8.たり、前後のIll’1語の接続が不i
i、−iどなるなど解析失敗の原因とな−・て“いtみ [発明が解消(2ようどする課題4 上述のよ・うな異彫’XF’f 11  いわゆる表記
の揺れなどと(,4違し\ 特定の語に限られるもので
はムく、あらゆる1↑1tLについC′様々なパターン
が考えられるの(・、辞書の見出しとj、て登録しでお
くなどの対策が取りにくく、本来は辞書に登録されてい
る訂1であるにも関わら′づ−未登録語−と(7で処理
され=r 1.ま・)可能性がある1、 1課題を解決Aるための手段] 上記のような買形6Eは、その表記に問題があるために
解析が失敗(,5で11、まうものであり、読めは正し
く1えられていたと名えられも そこで、 このような
異形語としζ丁漢字2文字以上の漢語を想定1、漢字部
分に読みを1j−え−C1読みがな(−,4例では1ち
ゆうし、ゆ−、)」、 (かい/Jん−+ ) 5−6
)1. t、。
この読みがなによ)で辞書検索をr■なI八 再び解オ
J■を4]なう33 18作用1 1−記の1段・て 読みがなによる辞書検索4中心と“
す゛る再解析処理・4行なうことによ・)て、表記の乱
れによる解析失敗の可能性を少?、xi、、さらに辞書
検索の結果から問題の;ハの正(2い表記を推定°4る
ことがひきる1、 [実施例] 以1・−本庁、明の一実施例にお(」るF]本話語形態
素解析装置一ついで図面を参照り、なから説明を行う。
第1図1表 本発明の一実施例におけるLj本話形態素
解析装置の機能ブロック図であZλ3 同図において、
 1は日本語文字列の人力3;、段であも 2は人力1
段1から人力されるト」話語文字列を記憶する入力文字
列記憶@(3は単二Hの読・K 表記 品詞情報などか
らなる形態素情報を保持している却語辞書i4は単漢字
の表紙 音読みの情報を持−ン漢字5”−プル、 5は
単語間の接続i4]/不可の情報を持つ接続デープルで
ある。 6は入力文字列中の解析対象文字列と、単Xi
辞書3、漢字デープル4を頭から順次比較17て、解析
対象文字列と最も長く一致プーる単語を検索する辞書テ
ーブル検索部であム 7は辞書検索に失敗(7た場合に
後述する方法により再解析を行なう文字列の範囲を決定
−4−る再解析範囲決定部 8はその再解析範囲中の漢
字表記に対して、 4の漢字デープルを検索してその文
字列の読ろを色jえるかな文字列決定部 9は文字列決
定部8で得られた読みがなにより単語辞書の検索を行な
しく 再解析文字列の正しい表記を推定する表記選択部
 さらにlOは再解析範囲決定部7、文字列決定部8、
表記選択部9により未登録語再解析を行なう再解析制御
部 まt−11は形態素解析の結果を記憶する解析結果
記憶訊12は出力表示部、 13は[]本語形態素解枡
を制御する形態素解析制御部であも 上記のように構成された装置において、以]−一この装
置の動作について説明ずも まず、入力された日本語文字列に対し7先頭から解析を
行う。解析対象となる文字列の先頭から辞書う〜へプル
検索部6が単語辞書3を公知の検索法により検索L 最
も長く一致する単語を検索4゛る。
、中詰が抽出できたら、その単語の次の文字から再び検
索を行い単語を抽出すも ぞしてミ 次の手話が抽出(
・きたら接続テーブル5を用いて前の単語−と後ろの単
語が接続可能であるかどうかをヂエックし、接続し」能
であればその部分の解析は正(5いとし、て次の単語の
切り出しを行う。ここで、解析対象文字列に相当する単
語が辞書中で見つからな((あるいは接続テーブル5に
よって前の中詰と接続が不可能であるということになれ
ばそこに異形語が存在する可能性がおると判断する。そ
しで、異形語の可能性があると判断し、たところから再
解析処理に人も 以十−第2図のフローヂャートを参照し、なから詳細に
説明を行う。再解析制御部10は再解析範囲決定部7に
より以下の基準に従って再解析の対象となる範囲を決定
ずム 例えは 再解析範囲は 1)先頭の字種が漢字の場合(よ 先頭から漢字が2文
字以上続く場合は3文字目から辞書検索を行t(単語が
検索できれば2文字目までを、検出できなければ漢字が
続く開を範囲とすも 漢字が1文字の場合(よ 2文字
目から辞書検索を行(\ 平板名が続くあいだ助詞を探
す。助詞が検出できればその直後の文字から単語検索を
行へ 単語が検出できたら先頭から助詞の直前までを範
囲とす4助詞が検出できなければ先頭から平板名が続く
あいだを範囲とすム 2)先頭の文字が平板名の場合(よ 2文字目から漢字
を探す。漢字が検出できたらその次の文字が字種変化を
起こしているかを調べ 起こしていれば先頭から次の漢
字までを範囲とし 字種変化を起こしていなけれ(i 
その文字から辞書検索を行う。単語が検出できればその
文字の直前の漢字までを範囲とし 検出できなげれば先
頭から漢字が続く間を範囲とす4 以上の基準に従ってさらに再解析制御部10は設定され
た再解析範囲に対して、かな文字列決定部8はステップ
s1において再解析範囲の文字列の中で漢字を探し 見
つかった漢字1文字づつについて漢字テーブル4で検索
を行う。ステップS2において検索の結果 再解析範囲
中の全ての漢字に対して読みがなが見つかったかどうか
を判定すも もし見つかっていれば一文字づつの読みを
合わせてその単X吾の読みがなをつくも この時、組合
せによって複数の読みがなをつくることができるときは
全てを読みがなの候補とすム ステップS3において表
記選択部9は得られた読みがなにより単語辞書3を検索
すも 一つでも単語辞書3中に該当するものが見つかれ
ばステップs4において表記の候補が一つである力\ 
複数の候補があるかを判定すも 複数の表記があれば 
ステップS5において表記候補の絞り込みを行(\ 残
った候補についての情報を解析結果としてステップs6
において解析結果記憶部11に出力する。な払 この表
記候補の絞り込みの基準(友1)再解析範囲の文字列中
で使われていた漢字のうち少なくとも一つを表記に含む
もへ 2)再解析範囲の前後の単語との接続が可能であ
るもへ 3)■)の条件を満たすものが候補として得ら
れていない場合(表候補の中に2)の条件を満たすもの
があればそれも候補とずム 候補が一つであればそのまま結果を解析結果記憶部11
に出力すム そして、再解析文字列の読み方の候補が残
っている可能性があるのでステップS7へ戻も ステッ
プ$7で(よ ステップS3での辞書検索で該当するも
のがなければ他の読み方が残っているかどうか調べも 
他の読み方があればステップS3の処理へ戻も 他の読
み方がなければステップS8においてこれまでに表記の
候補が一つでも得られているかどうかを判定す4得られ
ていればそのまま終了すん 一つもなければステップS
9の処理へいく。ステップs2の処理で漢字の読みが見
つからなかったものがある場合はステップS9において
再解析範囲を未登録語とする結果を出力すム さらに 具体例を挙げて実際の処理を詳しく説明す4 
次のような例文を考えも 「・・・・は未登録語をちゆ
う出して・・・・Jの例て 「ち」のところで辞書引き
に失敗したとすると再解析範囲検出部7が先の基準によ
り「ちゆう出」を再解析範囲と決定すも この文字列の
中から漢字を探し 「出」が検出されるので、辞書テー
ブル検索部6により第3図に示すような漢字テーブルを
検索し一致するものが見つかも 漢字テーブルのレコー
ド情報により「出」の読みが「しゅつJであることがわ
かるので、結局この再解析部分の読みがなは「ちゅうし
ゅっ」となる。次間 この読みがなで単語辞書3を検索
すると第4図のような「ちゅうしゅつ」という読みを持
つレコードが見っかも同じ読みを持つ単語が他にないの
で、 「抽出」が「ちゅうしゅっ」の表記であると判断
し 結果記憶部1.1に解析結果を出力すム もう一つ別の例を考える。 「・・・・は全段を登って
右に曲がった・・・・」の例文ゑ 「会」のところで解
析に失敗したとすると、再解析範囲は「全段」となり、
前例と同様に漢字に一文字づつ読みが与えられも 「会
」、 「段」を漢字テーブルで検索するとそれぞれ「か
い」、 「だん」という読みが得られも 従って、この
場合の再解析範囲の読みがなは「かいだん」となり、こ
れで単語辞書を検索すも その結果 第5図のように5
個の「かいだん」という読みを持つ語が見つかも そこ
で、解の絞り込みを行う。以下の表記候補選択基準によ
り、表記候補が絞られも この場合(ヨ「会」または「段」という漢字を含む語と
いうことで、 「会談」、 「階段」、 「数段」の3
個が残も 次に前の語「はJとの接続性が問題になるカ
ミ 3個の候補はどれも接続可能であるので、これ以上
の解の絞り込みは不可能であると判断して3個の候補を
結果として出力すも[発明の効果] 本発明で(よ 単語のよみを利用した辞書検索により、
本来辞書に登録されている単語が表記の乱れによって未
登録語と判断されて解析が失敗となることを避け、また
問題の単語の正しい表記を推定することができも
【図面の簡単な説明】
第1図は本発明の一実施例における日本語形態素解析装
置の機能ブロック図 第2図は本発明の一実施例におけ
る形態素解析装置の未登録語再解析動作を示すフローチ
ャート、第3図は漢字チー面 プルの概要を示東−第4@ 第5図は再解析範囲の読み
がなで辞書検索を行った結果得られた表記候補の例を示
す図であム ト・・入力手段  2入力文字列記憶部  3・・・単
語辞書部 4・・・漢字テープJk 5・・・接続テー
ブル、 6・・・辞書テーブル検索R,7・・・再解析
範囲決定餓 8・・・かな文字列決定餓 9・・・表記
選択拡10・・・再解析制御訊 11・・・解析結果記
憶R,12・・・出力表示組 13・・・形態素解析制
御部代理人の氏名 弁理士 粟野重孝 ほか1名第1図 第2図 ソ 第 図 第 図 第 図

Claims (1)

  1. 【特許請求の範囲】 入力された文字列を記憶する入力文字列記憶部と、 日本語単語の読み、表記、品詞情報からなる形態素情報
    を持つ単語辞書部と、 漢字の表記に対応する読みを持つ漢字テーブルと、 前記単語辞書を用いて入力文字列の形態素解析を行なう
    形態素解析制御部と、 解析に失敗した場合に再解析を行なう範囲を決定する再
    解析範囲決定部と、 再解析対象文字列中の漢字部分に対して漢字テーブルを
    検索することにより再解析対象文字列の読みを得るかな
    文字列決定部と、 前記文字列決定部によって得られたかな文字列を検索キ
    ーとして単語辞書検索を行ない、その結果から正しい表
    記を選択する表記選択部とを有し、前記表記選択部によ
    って得られた表記によって再解析を行うことを特徴とす
    る日本語形態素解析装置。
JP2161808A 1990-06-20 1990-06-20 日本語形態素解析装置 Pending JPH0452963A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2161808A JPH0452963A (ja) 1990-06-20 1990-06-20 日本語形態素解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2161808A JPH0452963A (ja) 1990-06-20 1990-06-20 日本語形態素解析装置

Publications (1)

Publication Number Publication Date
JPH0452963A true JPH0452963A (ja) 1992-02-20

Family

ID=15742309

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2161808A Pending JPH0452963A (ja) 1990-06-20 1990-06-20 日本語形態素解析装置

Country Status (1)

Country Link
JP (1) JPH0452963A (ja)

Similar Documents

Publication Publication Date Title
JP2002215617A (ja) 品詞タグ付けをする方法
US4860206A (en) Translation system allowing user designation of postpositional words
JPH0452963A (ja) 日本語形態素解析装置
JPH0715691B2 (ja) 自動翻訳装置
JPH01266670A (ja) 日本語対象文固有用語抽出処理装置
JPH07121538A (ja) スペルチェック装置
JP2595043B2 (ja) 日本文誤り自動検定装置
JP2895137B2 (ja) 日本文誤り自動検出および訂正装置
JP2995717B2 (ja) 形態素解析方法およびその装置
JP2002351868A (ja) 電子辞書
JPS63136264A (ja) 機械翻訳装置
JPH0239357A (ja) 日本文誤り自動検定・訂正装置
JPH0546612A (ja) 文章誤り検出装置
JPS6320567A (ja) 翻訳装置
JPH01316863A (ja) 日本文誤り自動検定・訂正装置
JPH03150666A (ja) 機械翻訳装置
JPH05233686A (ja) 日本語処理装置
JPS62271172A (ja) 仮名漢字変換処理方式
JPH05128146A (ja) 英語形態素解析装置
JPH05233619A (ja) 日本語文章誤り訂正方法およびその装置
Bilac et al. Increasing the error coverage of the FOKS Japanese dictionary interface
JPS62243063A (ja) 日本語入力方式
JPH04349564A (ja) かな漢字変換方法およびかな漢字変換装置
JPH04326160A (ja) 形態素解析装置
JPH05135096A (ja) 形態素解析方式