JP2995717B2 - 形態素解析方法およびその装置 - Google Patents

形態素解析方法およびその装置

Info

Publication number
JP2995717B2
JP2995717B2 JP3175014A JP17501491A JP2995717B2 JP 2995717 B2 JP2995717 B2 JP 2995717B2 JP 3175014 A JP3175014 A JP 3175014A JP 17501491 A JP17501491 A JP 17501491A JP 2995717 B2 JP2995717 B2 JP 2995717B2
Authority
JP
Japan
Prior art keywords
notation
unit
word
character string
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP3175014A
Other languages
English (en)
Other versions
JPH0520304A (ja
Inventor
博文 玉川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP3175014A priority Critical patent/JP2995717B2/ja
Publication of JPH0520304A publication Critical patent/JPH0520304A/ja
Application granted granted Critical
Publication of JP2995717B2 publication Critical patent/JP2995717B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、日本語文章を単語単位
に分割する形態素解析方法およびその装置に関する。
【0002】
【従来の技術】日本語文章を形態素解析する際、辞書に
登録されていない語、すなわち未知語が文章中に含まれ
ている場合がある。このような文章中の未知語を処理す
る装置として、従来では、特開平1−156866号公
報に示されている日本語文処理装置がある。図7にその
構成図を示す。この装置では、データ入力部10から入
力された日本語文章を形態素解析部20が文章の先頭か
ら解析できるところまで解析して行く。形態素解析部2
0において解析不能と判定された文字列は、解析不能文
字列処理部40に入力される。入力された解析不能文字
列に対して、解析不能文字の限定化部41は、さらに解
析が失敗する文字まで解析してゆき、解析不能文字を絞
り込む。その際、解析不能文字列の先頭がカタカナある
いはアルファベットの場合、その連続する同一文字種の
文字列全体を解析不能文字列とする。さらに残りの文字
列を新たに解析し、その結果、解析された文字列と接続
可能な品詞を推定し、それを解析不能文字列の品詞とし
て扱っている。
【0003】また、特開昭62−208169号公報に
示されている文章解析処理方式がある。図8にその構成
図を示す。この装置では、文章入力部11から日本語文
章を入力し、それを文章解析部12の辞書検索処理12
1が分割して、辞書13に登録されている単語と照合す
る。その際、辞書と照合できなかったカタカナ文字列に
対して、カタカナ未知語処理122がカタカナ1文字ご
とに分解して、それらを1単語と見なし、1字単語の連
鎖として解析を続行している。
【0004】
【発明が解決しようとする課題】一般に形態素解析装置
においては、文章中に含まれている単語を認定するため
に辞書を検索する場合、文章中の表記を用いて単語辞書
を検索している。従って、従来ではカタカナ表記の語に
ついて単語辞書を検索する場合には、文章中のカタカナ
表記のみを検索キーとして検索していた。
【0005】例えば、文章中に「センエツナガラ」とい
うカタカナ表記の語を含むテキスト列を解析する場合、
テキスト列の表記を検索キーとして単語辞書を検索して
いた。従来の技術として挙げた、特開平1―15686
6号公報に示されている日本語文処理装置では、「セン
エツ」および「ナガラ」が辞書に未登録であるとした
時、カタカナの連続している部分「センエツナガラ」の
全体が解析不能文字列となる。また、特開昭62―20
8169号公報に示されている文章解析処理方式では、
カタカナ文字列「センエツナガラ」を単語に分割する際
の辞書照合に失敗すると、それを1文字ごとに分解す
る。その結果、「セ」、「ン」、「エ」、「ツ」、
「ナ」、「ガ」、「ラ」の7個の単語として認定してい
た。このように、単語辞書中にカタカナ表記の「センエ
ツ」、「ナガラ」が登録されていないと、「センエツナ
ガラ」は正確に単語に分解できなかった。
【0006】このような場合、「センエツ」、「ナガ
ラ」がカタカナ表記で単語辞書に登録されていなくて
も、ひらがな表記、あるいは漢字表記の「せんえつ」、
「僭越」、「ながら」が登録されている可能性が高い。
このような例は他にも、「イノシシ」、「ミカン」とい
った動物・植物などの名称がカタカナ表記で表されてい
る場合でも発生する。
【0007】本発明は、かかる点に鑑み、少なくとも一
種類より多くの表記からなる文字列を単語単位に分割す
る形態素解析を行う際に、表記を検索キーとして辞書検
索し、検索に失敗した場合でも、ある特定の表記の文字
列の未知語については認定することができ、ある特定の
表記の語で未知語となるものを減少させ解析精度を向上
させる形態素解析方法およびその装置を提供することを
目的とする。
【0008】
【課題を解決するための手段】上記目的を達成するため
に、本発明に係る形態素解析方法は、少なくとも一種類
より多くの表示文字からなる文字列の先頭部分の単語か
らその単語の表記を検索キーとして第一辞書を検索する
第一ステップと、文字列の中から特定の表記の文字列を
検出する第二ステップと、前記の検出により得た文字列
を第二辞書で検索可能な表記に変換する第三ステップ
と、変換した表記で第二辞書を検索する第四ステップと
を実行し、前記文字列の単語認定を行うことを特徴とす
る。
【0009】ここで、前記第二ステップにおける、特定
の表記の文字列がカタカナ列をであり、前記第三ステッ
プにおける第二辞書がひらがな表記で検索可能な辞書で
あるとして実施することもできる。ここで、前記第二ス
テップが、第一ステップで検索に失敗した場合に実行さ
れるとして実施することもできる。
【0010】本発明に係る形態素解析装置は、少なくと
も一種類より多くの表示文字からなる文字列を記憶する
文字列記憶部と、単語の表記と品詞を対応付けて保持す
る第一辞書と、単語の表記を検索キーとして前記第一辞
書を検索する第一検索部と、前記第一検索部を用いて文
字列中の単語を認定する第一認定部と、文字列中から特
定の表記の文字列を検出する検出部と、単語の特定の表
記と品詞を対応付けて保持する第二辞書と、前記検出し
た文字列を第二辞書で検索可能な表記に変換する変換部
と、変換部で変換した表記を検索キーとして第二辞書を
検索する第二検索部と、前記変換部と第二検索部を用い
て検出部で検出した文字列中の単語を認定する第二認定
部を具備したことを特徴とする。
【0011】ここで、前記検出部が記憶部が記憶してい
る文字列中からカタカナ列を検出する検出部であり、前
記変換部がカタカナ表記の文字列をひらがな表記の文字
列に変換する変換部であり、第二辞書が単語のひらがな
表記と品詞を対応ずけた辞書であり、前記第二検索部が
ひらがな表記を検索キーとして前記第二辞書を検索する
検索部であり、第二認定部が前記変換部と第二検索部を
用いてカタカナ表記の文字列中の単語を認定するカタカ
ナ語認定部であるとして実施することもできる。
【0012】ここで、前記検出部が、第一検索部で表記
による単語検索に失敗した場合に動作するとして実施す
ることもできる。
【0013】
【作用】本発明によれば、少なくとも一種類より多くの
表記文字からなる文字列を単語単位に分割する形態素解
析を行う際に、単語の表記を検索キーとして第一辞書を
検索し、文字列中の単語を認定し、検索できなかった場
合には、文字列中から特定の表記の文字列を検出し、検
出した文字列を第二辞書で検索可能な文字列に変換し、
変換した表記を検索キーとして第二辞書を検索し、特定
の表記の文字列中の単語を認定する。
【0014】
【実施例】図1は、本発明の実施例における形態素解析
装置の構成図である。図1において、1は入力部で、装
置に対する指示や日本語文章を入力するものである。2
は単語認定部(第一認定部)で、入力部1からの指示に
従って日本語文章を単語単位に分割するものである。3
はテキスト記憶部で、入力部1から入力された日本語文
章を記憶するものである。4は解析結果記憶部で、形態
素解析の結果、単語単位に分割された日本語文章の情報
および単語認定に失敗した部分についての情報を記憶す
るものである。5は表記検索部(第一検索部)で、単語
の表記を検索キーとして単語辞書部1を検索するもので
ある。6は単語辞書部1(第一辞書)で、単語の表記と
品詞を対応付けて保持するものである。7はカタカナ列
検出部(検出部)で、日本語テキスト中からカタカナ表
記の文字列を検出するものである。8はカタカナ語認定
部(第二認定部)で、カタカナ表記の文字列中の単語を
認定するものである。9はひらがな変換部(変換部)
で、カタカナ表記の文字列をひらがな表記の文字列に変
換するものである。10は読み検索部(第二検索部)
で、単語の読みを検索キーとして単語辞書部2を検索す
るものである。11は単語辞書部2(第二辞書)で、少
なくとも単語の読みと品詞を対応付けて保持するもので
ある。12は一時記憶部Xであり、分割されたテキスト
列(文字列)を記憶するものである。13は一時記憶部
Yであり、カタカナ検出部で検出されたカタカナ列とひ
らがな変換部9によって変換されたカタカナ語のひらが
な表記とを記憶するものである。
【0015】前述のように構成された本実施例の形態素
解析装置は、図2、3に示されるフローチャートに沿っ
て形態素解析動作を行う。この動作を以下に具体的な例
を用いて説明する。操作者は、作成した日本語文章をテ
キスト記憶部3に記憶させる、この文章に対して形態素
解析を行う指示を入力部1より入力する(#1)。前記
操作に対し入力部1は、単語認定部2を起動する(#
2)。単語認定部2は、日本語文章中の句読点の位置で
テキスト列を分割し、分割したテキスト列を一時記憶部
X12に格納する(#3)と同時に表記検索部5を起動
する。
【0016】ここで記憶させた文章中には、図4に示す
ようなテキスト列があり、アンダーラインを付して示し
ているようなカタカナ表記のテキスト列が含まれている
とする。表記検索部5は一時記憶部X12を参照し、格
納されているテキスト列の表記を検索キーとして、単語
辞書部1を最長一致法により検索する(#4)。単語辞
書部1を検索した結果、当該テキスト中から単語「さ
て」を発見し(#5)、その単語及び品詞の情報を単語
認定部2に返す。次に、単語認定部2は表記検索部5か
ら返された情報を参照し、発見された単語「さて」と直
前の単語とが接続可能か否かを判定する(#6)。接続
可能だった場合には単語分割の位置の情報を解析結果記
憶部4に格納する(#7)。また、接続不能だった場合
には発見した単語を未知語として解析結果記憶部4に格
納し(#8)、一時記憶部X中のテキスト列のすべての
解析が終わっていないので、後続のテキスト列の解析を
続行する(#9)。
【0017】次に、単語認定部2は、「さて」の後続の
テキスト列として「センエツナガラ」を一時記憶部X1
2に格納する(#3)と同時に表記検索部5を起動す
る。表記検索部5は、一時記憶部X12に格納されてい
る表記の「センエツナガラ」を検索キーとして単語辞書
部1を最長一致法により検索する(#4)。表記検索の
結果、当該表記の単語を発見できなかったため(#
5)、表記検索部5はその旨を示す情報を単語認定部2
に返す。単語認定部2は表記検索部5から返された情報
を参照し、単語が発見されなかったことを検知する。こ
れにより、単語認定部2はカタカナ列検出部7を起動す
る。カタカナ列検出部7は、一時記憶部X12のテキス
ト列中からカタカナ列「センエツナガラ」を検出し(#
10)、一時記憶部Y13に格納する(#11)と同時
に、カタカナ列を発見した旨を示す情報を単語認定部2
に返す。また、カタカナ列が検出できなかった場合に
は、その旨を示す情報を単語認定部2に返す。単語認定
部2は、カタカナ列検出部7から返された情報を参照
し、カタカナ列が検出されたことを検知する。これによ
り、単語認定部2はカタカナ語認定部8を起動する。ま
た、検出されていなかった場合には、一時記憶部X12
に格納されているテキスト列を未知語と判定し、その旨
を示す情報と共に単語分割の位置の情報を解析結果記憶
部4に格納する(#12)。カタカナ語認定部8は、ひ
らがな変換部9を起動する。ひらがな変換部9は、図5
に示すように一時記憶部Y13に格納されているカタカ
ナ表記のテキスト列「センエツナガラ」をひらがな表記
「せんえつながら」に変換し、一時記憶部Y13に再度
格納する(#13)。次に、カタカナ語認定部8は一時
記憶部Y13中のひらがな表記のテキスト列を読み検索
部10に渡す。読み検索部10は、カタカナ語認定部8
から渡されたひらがな表記のテキスト列を単語の読みと
見なし、読みを検索キーとして単語辞書部2を最長一致
法により検索する(#14)。その結果、当該テキスト
列中から単語「せんえつ」が発見されたると(#1
5)、その旨を示す情報とともに、単語「せんえつ」と
その品詞(名詞)をカタカナ語認定部8に返す。単語が
発見できなかった場合には(#15)、その旨を示す情
報をカタカナ語認定部8に返す。次に、カタカナ語認定
部8は読み検索部10から返された情報を参照し、単語
「せんえつ」の情報から、直前の単語「さて」と接続可
能であると判定する(#16)。これにより、単語の分
割位置の情報を一時記憶部Y13に格納されているテキ
スト列に付加する(#17)。接続不可能だった場合に
は発見した単語を未知語として一時記憶部Y13に格納
されているテキスト列に付加する(#18)。単語分割
に失敗していた場合には、一時記憶部X12に格納され
ているテキスト列を未知語と判定する(#20)。
【0018】続いて、カタカナ語認定部8は「せんえ
つ」の後続テキスト列として「ながら」を読み検索部1
0に渡す。読み検索部10は、カタカナ語認定部8から
渡されたひらがな表記のテキスト列を検索キーとして単
語辞書部2を最長一致法により検索する(#14)。そ
の結果、当該テキスト列中から単語「ながら」が発見さ
れると(#15)、その旨を示す情報とともに、単語
「ながら」とその品詞(接続助詞)をカタカナ語認定部
8に返す。次に、カタカナ語認定部8は読み検索部10
から返された情報を参照し、単語「ながら」の情報か
ら、直前の単語「せんえつ」と接続可能であると判定す
る(#16)。これにより、単語の分割位置の情報を一
時記憶部Y13に格納されているテキスト列に付加する
(#17)。一時記憶部Y13に格納されている全ての
テキスト列の解析が終了したため(#19)、カタカナ
語認定部8はその旨を示す情報を単語認定部2に返す。
また単語が発見されていなかった場合には、単語分割に
失敗したことを示す情報を単語認定部2に返す。単語認
定部2はカタカナ語認定部8から返された情報を参照
し、単語分割が成功したことを検知する。これにより、
単語認定部2は一時記憶部Y13に格納されている情報
をもとに一時記憶部X12に格納されているテキスト列
の単語分割の位置を決定する(#21)。単語分割に失
敗していた場合には、一時記憶部X12に格納されてい
るテキスト列を未知語と判定する。
【0019】続いて、単語認定部2は前記処理により決
定した単語分割の位置の情報を、図6に示すような形式
で解析結果記憶部4に格納する(#22)。上述のよう
に本実施例においては、辞書に登録されていないカタカ
ナ表記の単語を含むカタカナ列をひらがな変換し、それ
を単語の読み情報と見なして辞書検索することにより、
単語を認定することが可能である。
【0020】尚、本実施例においては、カタカナ表記の
語を辞書検索するにあたり、その都度表記の変換および
辞書検索を行っているが、形態素解析を行う前にカタカ
ナ列のみを抽出して、それらに対応するひらがな表記と
単語分割位置をあらかじめ生成しておき、辞書検索、単
語認定あるいは単語の接続可能性検証の際に随時参照す
ることとしてもよい。また、本実施例では、形態素解析
による出力を単語ごとの分割位置の情報としているが、
文節ごとの分割位置の情報としてもよく、また、本実施
例では単語の分割位置を決定しているが、この情報以外
にも各単語の品詞などを付加してもよい。また、本実施
例では解析結果を図6に示す形式で解析結果記憶部4に
格納したが、他のフォーマットにより格納してもよく、
また解析結果を出力部に直接、出力してもよく、外部記
憶装置に格納してもよい。また、本実施例では読み検索
の際に単語の読みと品詞を対応付けて保持している辞書
を使用しているが、これはかな漢字変換用辞書などと兼
用することとしてもよい。
【0021】また上記実施例では、カタカナ表記とひら
がな表記について行っているが、本発明は、これに限ら
ず、カタカナとひらがな逆になってもよくまた他の表記
の組み合わせについても行うことができる。
【0022】
【発明の効果】上記のように、本発明によれば、少なく
とも一種類より多くの表記文字からなる文字列を単語単
位に分割する形態素解析を行う際に、単語の表記を検索
キーとして第一辞書を検索し、文字列中の単語を認定
し、検索できなかった場合には、文字列中から特定の表
記の文字列を検出し、検出した文字列を第二辞書で検索
可能な文字列に変換し、変換した表記を検索キーとして
第二辞書を検索し、特定の表記の文字列中の単語を認定
する。これにより、特定の表記の未知語を認定すること
ができ、特定の表記の語で未知語となるものを減少させ
て解析精度を向上させることができる。
【図面の簡単な説明】
【図1】本発明の一実施例の形態素解析装置の機能ブロ
ック図である。
【図2】上記機能ブロック図の動作を示すフローチャー
トである。
【図3】上記機能ブロック図の動作を示すフローチャー
トである。
【図4】上記実施例の形態素解析装置に入力されたカタ
カナ表記の語を含む日本語文章を示す図である。
【図5】上記実施例の形態素解析装置において、カタカ
ナ表記のテキスト列をひらがな表記のテキスト列に変換
する例を示す図である。
【図6】上記実施例の形態素解析装置における、形態素
解析結果としての単語分割の一例を示す図である。
【図7】従来の形態素解析装置の機能ブロック図であ
る。
【図8】従来の形態素解析装置の機能ブロック図であ
る。
【符号の説明】
2 単語認定部 4 解析結果記憶部 5 表記検索部 6 単語辞書部1 7 カタカナ列検出部 8 カタカナ語認定部 9 ひらがな変換部 10 読み検索部 11 単語辞書部2

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 少なくとも一種類より多くの表記文字か
    らなる文字列を単語単位に分割する形態素解析方法にお
    いて、前記文字列中の単語について、単語の表記を検索
    キーとして第一辞書を検索する第一ステップと、文字列
    の中から特定の表記の文字列を検出する第二ステップ
    と、前記の検出により得た文字列を第二辞書で検索可能
    な表記に変換する第三ステップと、変換した表記で第二
    辞書を検索する第四ステップとを実行し、前記文字列の
    単語認定を行うことを特徴とする形態素解析方法。
  2. 【請求項2】 前記第二ステップにおける、特定の表記
    の文字列がカタカナ列であり、前記第三ステップにおけ
    る第二辞書がひらがな表記で検索可能な辞書であること
    を特徴とする請求項1記載の形態素解析方法。
  3. 【請求項3】 前記第二ステップが、第一ステップで検
    索に失敗した場合に実行されることを特徴とする請求項
    1記載の形態素解析方法。
  4. 【請求項4】 少なくとも一種類より多くの表記文字か
    らなる文字列を単語単位に分割する形態素解析方法にお
    いて、上記文字列を記憶する文字列記憶部と、単語の表
    記と品詞を対応付けて保持する第一辞書と、単語の表記
    を検索キーとして前記第一辞書を検索する第一検索部
    と、前記第一検索部を用いて文字列中の単語を認定する
    第一認定部と、文字列中から特定の表記の文字列を検出
    する検出部と、単語の特定の表記と品詞を対応付けて保
    持する第二辞書と、前記検出した文字列を第二辞書で検
    索可能な表記に変換する変換部と、変換部で変換した表
    記を検索キーとして第二辞書を検索する第二検索部と、
    前記変換部と第二検索部を用いて検出部で検出した文字
    列中の単語を認定する第二認定部を具備したことを特徴
    とする形態素解析装置。
  5. 【請求項5】 前記検出部が記憶部が記憶している文字
    列中からカタカナ列を検出する検出部であり、前記変換
    部がカタカナ表記の文字列をひらがな表記の文字列に変
    換する変換部であり、第二辞書が単語のひらがな表記と
    品詞を対応づけた辞書であり、前記第二検索部がひらが
    な表記を検索キーとして前記第二辞書を検索する検索部
    であり、第二認定部が前記変換部と第二検索部を用いて
    カタカナ表記の文字列中の単語を認定するカタカナ語認
    定部であることを特徴とする請求項4記載の形態素解析
    装置。
  6. 【請求項6】 前記検出部が、第一検索部で表記による
    単語検索に失敗した場合に動作することを特徴とする請
    求項4記載の形態素解析装置。
JP3175014A 1991-07-16 1991-07-16 形態素解析方法およびその装置 Expired - Fee Related JP2995717B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3175014A JP2995717B2 (ja) 1991-07-16 1991-07-16 形態素解析方法およびその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3175014A JP2995717B2 (ja) 1991-07-16 1991-07-16 形態素解析方法およびその装置

Publications (2)

Publication Number Publication Date
JPH0520304A JPH0520304A (ja) 1993-01-29
JP2995717B2 true JP2995717B2 (ja) 1999-12-27

Family

ID=15988711

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3175014A Expired - Fee Related JP2995717B2 (ja) 1991-07-16 1991-07-16 形態素解析方法およびその装置

Country Status (1)

Country Link
JP (1) JP2995717B2 (ja)

Also Published As

Publication number Publication date
JPH0520304A (ja) 1993-01-29

Similar Documents

Publication Publication Date Title
KR101146539B1 (ko) 비-로마자 문자 및 단어의 철자 정정을 위한 시스템 및방법
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
Van Cranenburgh et al. Discontinuous parsing with an efficient and accurate DOP model
JP2995717B2 (ja) 形態素解析方法およびその装置
Hollingsworth et al. Retrieving hierarchical text structure from typeset scientific articles–a prerequisite for e-science text mining
JP2632806B2 (ja) 言語解析装置
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JP3939264B2 (ja) 形態素解析装置
JP3698454B2 (ja) 並列句解析装置および学習データ自動作成装置
JP2599973B2 (ja) 日本文訂正候補文字抽出装置
KR20020054244A (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
JP2546486B2 (ja) 文書解析方法および装置
JP3139624B2 (ja) 形態素解析装置
JP2994539B2 (ja) 機械翻訳装置
JP3197110B2 (ja) 自然言語解析装置および機械翻訳装置
Bangalore Performance evaluation of supertagging for partial parsing
JP2650099B2 (ja) ドキュメント抽出装置
JP2895137B2 (ja) 日本文誤り自動検出および訂正装置
JPS63163956A (ja) 文書作成・校正支援装置
JP2798747B2 (ja) 自然言語処理方式
JPH0687239B2 (ja) 文字処理装置
JPH09223143A (ja) 文書情報処理装置
JPH05233619A (ja) 日本語文章誤り訂正方法およびその装置
JPH1011460A (ja) キーワード抽出装置
JPH10240736A (ja) 形態素解析装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081029

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees