JPH09114825A - 形態素解析方法およびその装置 - Google Patents

形態素解析方法およびその装置

Info

Publication number
JPH09114825A
JPH09114825A JP7271649A JP27164995A JPH09114825A JP H09114825 A JPH09114825 A JP H09114825A JP 7271649 A JP7271649 A JP 7271649A JP 27164995 A JP27164995 A JP 27164995A JP H09114825 A JPH09114825 A JP H09114825A
Authority
JP
Japan
Prior art keywords
learning
analysis
word
result
cost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7271649A
Other languages
English (en)
Inventor
Junko Komatsu
順子 小松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP7271649A priority Critical patent/JPH09114825A/ja
Publication of JPH09114825A publication Critical patent/JPH09114825A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 形態素解析における尤も効果的な学習方法お
よびその装置を提供する。 【構成】 単語コストを保持した単語辞書と、接続コス
トを保持した接続表を有して、解析候補における単語コ
ストと接続コストの総和を解析候補の尤もらしさの尺度
とするコスト最小法に基づいて形態素解析する方法にお
いて、形態素解析結果の誤りをユーザが修正し、その修
正結果から得た学習情報を学習辞書に記録するようにし
て、次回の解析にその学習結果を反映させるようにす
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、漢字かな混じり文を単
語に分割する形態素解析方法に関する。また、文章の読
み上げ等のテキスト音声合成システムの形態素解析を応
用することができる。
【0002】
【従来の技術】従来、学習結果の反映方法としては、最
近使われた語が含まれる解析候補ほど尤もらしいとする
最近使用語優先方式と、学習語が多く含まれる解析候補
ほど尤もらしいとする学習語数優先方式の主に2つの方
式がある。また、形態素解析への学習の組み込み方法と
しては、基本手法(最長一致、文節数最小法など)で優
劣がつかなかった場合に学習結果を反映する手法優先方
式と、学習結果に基づいて評価し、学習結果だけでは優
劣がつかない場合に基本手法を利用する学習優先方式の
2つの方式がある。これについては、「仮名漢字変換の
変換手法と学習に関する一評価」(情報処理学会論文
誌、Vol.34 No.121993.12, pp.2489〜2497)に、最近使
用語優先+手法優先の組み合わせが最も解析率向上に効
果があるという報告がある。
【0003】しかし、いずれの組み合わせの場合も、1
つの単語が学習されたかどうかという情報のみを用いて
いる。このような学習では、次のような問題点がある。
例えば、”人”という文字を読み分ける場合、1単語だ
けの学習では、人(じん)と学習した後は、次の解析か
ら常に人(じん)が優先され、料理人(りょうりじん)
になってしまう。 日本 + 人 (じん) 料理 + 人 (にん) このように前単語、又は後単語と関連する学習ができな
いために、学習による悪影響が生じる可能性が高い。
【0004】また、単語間の関連を考慮に入れたと言わ
れるコスト最小法は、単語の出現頻度に基づいた単語コ
ストと、単語間の接続のしやすさを表す接続コストのデ
ータを予め用意しておき、解析候補の単語コストと接続
コストの総和が小さいほど尤もらしいと判断する手法で
ある。従って、従来からの最長一致法や文節数最小法よ
りもきめ細かな評価ができ、正解率が高いとされてい
る。また、解析候補を尤もらしさの順付きで出力するこ
とができる。しかし、すべての解析候補を最後まで保持
していたのでは、メモリ量など実際の解析処理の負荷が
増大してしまうので、通常は上位の数候補のみを残す枝
刈りをしながら解析を進めている。
【0005】このようなコスト最小法を前提とした形態
素解析に最近使用語優先+手法優先の学習を取り入れよ
うとすると、枝刈りしながら解析する場合、従来の手法
優先法のようにコスト最小法で解を絞りこんだ後に学習
結果を反映したのでは、学習結果を反映するまえに、学
習を反映すべき候補が脱落してしまう恐れがでてきてし
まう。
【0006】
【発明が解決しようとする課題】上記の問題を解決する
ために、本発明は形態素解析における尤も効果的な学習
方法を提案することを目的とする。具体的には、解の絞
り込み処理の一部に学習結果の反映を含め、解の絞り込
み処理と同時に学習結果も反映されるような形態素解析
方法及びその装置を提案することを目的とする。
【0007】
【課題を解決するための手段】かかる課題を解決するた
めに請求項1の発明の形態素解析方法は、単語コストを
保持した単語辞書と、接続コストを保持した接続表を有
して、解析候補における単語コストと接続コストの総和
を解析候補の尤もらしさの尺度とするコスト最小法に基
づいて形態素解析する方法において、形態素解析結果の
誤りをユーザが修正し、その修正結果から得た学習情報
を学習辞書に記録するようにして、次回の解析にその学
習結果を反映させるようにしたことを特徴とする。又、
請求項2の発明の形態素解析方法は、学習結果の反映を
形態素解析の進行と同時に行うようにし、前記解析候補
のコスト計算は、学習辞書に登録されている単語、又は
2単語連接を含む場合は、該解析候補の優先度を高めて
やるようにしたことを特徴とする。又、請求項3の発明
の形態素解析方法は、ユーザの修正結果から、キーとな
る1単語、又は2単語の連接を抽出し、学習情報とする
ことを特徴とする。又、請求項4の発明の形態素解析方
法は、学習単位を含んでいても、学習単位の前後の接続
コストが一定値より大きい場合は学習を反映しないこと
を特徴とする。又、請求項5の発明の形態素解析装置
は、単語コストを保持した単語辞書と、接続コストを保
持した接続表を有して、解析候補における単語コストと
接続コストの総和を解析候補の尤もらしさの尺度とする
コスト最小法に基づく形態素解析装置において、ユーザ
が形態素解析結果の誤りを修正する解析結果誤り修正手
段と、その修正結果から得た学習情報を記録する学習辞
書とを備え、次回の解析にその学習結果を反映させるよ
うにしたことを特徴とする。
【0008】
【作用】ユーザは、ファイル又はキーボードのような入
力装置から入力された文字列の形態素解析したい文字列
の範囲(文節を前提とする)を選択する。このユーザが
選択した文字列範囲に対する文節候補をコスト最小法に
基づいた形態素解析手段によって生成する。生成された
文節候補をユーザに提示すると、ユーザは正しい文節を
選択すると、指定した正しい文節を使って解析結果を修
正する。解析結果の修正と同時に、正しい文節から、キ
ーとなる1単語又は2単語の連接を抽出し、その抽出結
果を学習辞書に記録する。このようにして得た学習結果
を次回の形態素解析の際には、この学習辞書を参照し、
登録されている1単語又は2単語の連接が含まれる解析
結果の優先度を高めてやることで、学習結果を反映す
る。
【0009】
【実施例】以下、本発明の形態素解析方法及びその装置
の1実施例を図面を参照して詳細に説明する。図1は本
発明になる形態素解析装置の概略構成図である。形態素
解析手段1は、単語コストを保持した単語辞書2と接続
コストを保持した接続表3とを使って解析候補における
単語コストと接続コストの総和を解析候補の尤もらしさ
の尺度とした最小コスト法に基づいて、ユーザが指示さ
れた文字列の文節候補を生成する。解析誤り修正手段5
は、文節候補結果からユーザは正しい文節候補を選択
し、この指示された正しい文節から学習辞書4を作成す
る。
【0010】図2は、本発明の処理の流れを示すフロー
チャートである。 ステップ10:ユーザは、ファイル又はキーボードのよ
うな入力装置から入力された文字列の形態素解析したい
文字列の範囲(文節を前提とする)を選択する。 ステップ20:(形態素解析手段1) ユーザが選択した文字列範囲に対する文節候補を生成す
る。この解析は、コスト最小法に基づくものとする。例
えば、図3に示したように、”下”という表記に対し
て、4種類の候補が存在し、それぞれの候補の直前にあ
る単語 ”は(助詞)”との間の接続のコストは全て同
じで10、直後の単語 ”です(助動詞)”との間の接
続コストも全て同じで10とする。コスト最小法では、
解析候補を表すパスの単語コストと接続コストの総和が
小さいものを尤もらしいと判断するので、図3では、”
下(した)”を含む候補が第1位の解となり、以下”下
(しも)”、”下(もと)”、”下(げ)”の順にな
る。 ステップ30:(以下、解析誤り修正手段5) 生成された文節候補をユーザに提示する。 ステップ40:ユーザは正しい文節を選択する。ここで
いう文節とは、1つの自立語に0個以上の付属語が接続
したもの、又は、2つ以上の自立語から成る複合語をい
うことにする。 ステップ50:このユーザが指定した正しい文節を使っ
て解析結果を修正する。 ステップ60:解析結果の修正と同時に、正しい文節か
ら、キーとなる1単語又は2単語の連接を抽出する。 ステップ70:その抽出結果を学習辞書4に記録する。
【0011】学習辞書4への登録単位の抽出は表1のよ
うな規則に従って行う。この場合、登録単位の抽出例は
表2のようになる。 表1 学習単位の抽出規則 ------------------------------------------------------------------- 自立語 自立語 - 自立語 自立語 - 接尾辞 接頭辞 - 自立語 用言 - 助動詞 自立語 = {名詞、数詞、動詞、形容詞、形容動詞、副詞、接続詞、 感動詞、連体詞、記号(句読点類を除く)} 用言 = {動詞、形容詞} ------------------------------------------------------------------ 表2 登録単位の抽出例 ------------------------------------------------------------------ 文節 登録単位 ------------------------------------------------------------------ 例1) 牧場(名詞)+へ(助詞) 牧場 例2) 日本(名詞)+人(接尾)が(助詞) 日本+人 例3) みなさ(動詞)+ん(助動詞)+と(助詞) みなさ+ん 例4) 大型(名詞)+機械(名詞) 大型+機械 ------------------------------------------------------------------ 学習辞書4には、登録単位(1単語又は2単語の連接)
とそれが登録された時刻を記録するものとする。例え
ば、表3のように各単語にはユニークな単語番号が予め
付加されているとすると、学習辞書の内容は表4のよう
になる。ここでは、登録時刻を1970年1月1日の00:00:00
から現在までの経過時間を秒で表した数値で表してい
る。 表3 単語と単語番号 ------------------------------------------------------------------ 単語番号 単語 ------------------------------------------------------------------ 1 日本(名詞・にほん) 2 牧場(名詞・ぼくじょう) 3 牧場(名詞・まきば) 4 人(接尾・にん) 5 人(接尾・じん) 6 料理(名詞・りょうり) ------------------------------------------------------------------ 表4 学習辞書の例 ------------------------------------------------------------------ 表記 構成語の単語番号列 登録時刻 ------------------------------------------------------------------ 日本人 1, 5 810889067 牧場 3 810889168 料理人 6, 4 810889269 ------------------------------------------------------------------ 但し、ここでは簡単のために学習辞書4に次のような制
約を設ける。 ・新しく登録された単位の表記と同表記の単位が既に登
録されている場合は、その情報を上書きする。従って、
登録単位の表記に重複はない。 ・記憶容量は定められた単位分とする。その定められた
登録単位を越える場合は、古い情報から破棄される。
(定められた記憶容量は、特に定めないが有限個であれ
ばよい。)
【0012】このようにして得た学習結果を次回の形態
素解析の際には、この学習辞書4を参照し、登録されて
いる1単語又は2単語の連接が含まれる解析結果の優先
度を高めてやることで、学習結果を反映する。この学習
結果を反映する具体的な方法としては、形態素解析のコ
スト計算の際に、学習辞書4に登録されている単語、又
は2単語連接の部分のコストを強制的に0することによ
って、学習単位を含む解析結果の優先度を高めてやれば
よい。例えば(図4参照)、”私は牧場へ行く”という
文にたいして、”牧場(まきば)”が学習辞書4にある
とき、”牧場(まきば)”のコストを0とすればよい。
又、”みなさんと言う”文にたいして、”みなさ(動
詞)”+”ん(助動詞)”が学習辞書4にあるとき、”
みなさ(動詞)”+”ん(助動詞)”のコストを0とす
ればよい。
【0013】又、図5に示すように、”私は日本人で
す”および”私は料理人です”という文にたいして、”
日本”+”人(じん)”が学習辞書4に登録されている
場合を考える。学習されていない状態では、”人”の直
前が”日本”の場合も”料理”の場合も、コストの総和
が低い”人(にん)”を含む解が第1位に出力される。
しかし、”日本”+”人(じん)”が学習辞書4に登録
されている場合には、”日本”と”人(じん)”の2単
語連接部分のコストが0になるので、”日本人”の場合
には”人(じん)”を含む解が第1位となり、”料理
人”の場合には、”人(にん)”を含む解が第1位にな
る。
【0014】学習を反映させるタイミングは、形態素解
析と同時に行う必要がある。コスト最小法では、すべて
の解析候補を最後まで保持していたのでは、解析処理の
負荷が増大するので、通常は上位の数候補のみを残す枝
刈りをしながら解析を行う。例えば、上位3位までの候
補を残す枝刈りを行うと、図3の例では”下(げ)”を
含む候補は候補落ちしてしまう。コスト最小法で解析候
補を絞りこんでから、学習を反映させる方法をとると、
学習辞書4に”下(げ)”が登録されている場合は学習
結果を反映できなくなってしまう。そこで、学習結果の
反映は、形態素解析で解析パスのコストを計算するのと
同時に行うようにする。但し、このように形態素解析と
同時に学習を反映する場合には、手法(文法的制約)の
優先度を保つために、学習辞書4に登録されている部分
の前後の接続コストのいずれかが、一定値より大きい場
合、つまり前後の単語との文法的な接続可能性が低い場
合は、学習を反映しないようにする。
【0015】又、本発明は、文字列を入力してそれを読
み上げてくれるテキスト音声合成装置にを応用できる
(図6を参照)。
【0016】
【発明の効果】以上説明してきたように、学習機能を有
するコスト最小法に基づく形態素解析方法およびその装
置は、学習の単位をユーザの修正結果から、抽出したキ
ーとなる1単語、又は2単語の連接とすることによっ
て、学習による悪影響を押さえることができる。又、学
習結果の反映は、形態素解析の進行と同時に行い、各解
析候補のコスト計算の際に、学習辞書に登録されている
単語、又は2単語連接を含む場合は、その部分のコスト
値を低くしてやることによって、解析候補の優先度を高
めてやり、枝刈りによって、学習を反映すべき候補が脱
落してしまうことを防ぐことができる。さらに、学習単
位を含む解析候補でも、学習単位の前後の接続コストが
一定値より大きい場合(文法的な接続可能性が低い場
合)は学習を反映しないことによって、文法優先(手法
優先)の学習を実現し、学習機能を組み込んだ際の解析
率を最大限に向上させることができる。
【図面の簡単な説明】
【図1】 本発明の一実施例を示す形態素解析装置の概
略構成図である。
【図2】 本発明の一実施例を示す形態素解析方法の処
理をあらわすフローチャートである。
【図3】 本発明の説明のためのコスト最小法の例であ
る。
【図4】 本発明の説明のための学習結果反映の例であ
る。
【図5】 本発明の説明のための学習結果反映の他の例
である。
【図6】 本発明の応用例のテキスト音声合成装置の概
略構成図である。
【符号の説明】
1 …… 形態素解析手段、 2 …… 単語辞書、 3 …… 接続表、 4 …… 学習辞書、 5 …… 解析誤り修正手段。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 単語コストを保持した単語辞書と、接続
    コストを保持した接続表を有して、解析候補における単
    語コストと接続コストの総和を解析候補の尤もらしさの
    尺度とするコスト最小法に基づいて形態素解析する方法
    において、形態素解析結果の誤りをユーザが修正し、そ
    の修正結果から得た学習情報を学習辞書に記録するよう
    にして、次回の解析にその学習結果を反映させるように
    したことを特徴とする形態素解析方法。
  2. 【請求項2】 学習結果の反映を形態素解析の進行と同
    時に行うようにし、前記解析候補のコスト計算は、学習
    辞書に登録されている単語、又は2単語連接を含む場合
    は、該解析候補の優先度を高めてやるようにしたことを
    特徴とする請求項1記載の形態素解析方法。
  3. 【請求項3】 ユーザの修正結果から、キーとなる1単
    語、又は2単語の連接を抽出し、学習情報とすることを
    特徴とする請求項1記載の形態素解析方法。
  4. 【請求項4】 学習単位を含んでいても、学習単位の前
    後の接続コストが一定値より大きい場合は学習を反映し
    ないことを特徴とする請求項1記載の形態素解析方法。
  5. 【請求項5】 単語コストを保持した単語辞書と、接続
    コストを保持した接続表を有して、解析候補における単
    語コストと接続コストの総和を解析候補の尤もらしさの
    尺度とするコスト最小法に基づく形態素解析装置におい
    て、ユーザが形態素解析結果の誤りを修正する解析結果
    誤り修正手段と、その修正結果から得た学習情報を記録
    する学習辞書とを備え、次回の解析にその学習結果を反
    映させるようにしたことを特徴とする形態素解析装置。
JP7271649A 1995-10-19 1995-10-19 形態素解析方法およびその装置 Pending JPH09114825A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7271649A JPH09114825A (ja) 1995-10-19 1995-10-19 形態素解析方法およびその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7271649A JPH09114825A (ja) 1995-10-19 1995-10-19 形態素解析方法およびその装置

Publications (1)

Publication Number Publication Date
JPH09114825A true JPH09114825A (ja) 1997-05-02

Family

ID=17502990

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7271649A Pending JPH09114825A (ja) 1995-10-19 1995-10-19 形態素解析方法およびその装置

Country Status (1)

Country Link
JP (1) JPH09114825A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015166606A1 (ja) * 2014-04-29 2015-11-05 楽天株式会社 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム
JP2016009428A (ja) * 2014-06-26 2016-01-18 株式会社日立超エル・エス・アイ・システムズ 形態素解析チューニング装置、音声合成システム、及び形態素解析チューニング方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015166606A1 (ja) * 2014-04-29 2015-11-05 楽天株式会社 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム
TWI567569B (zh) * 2014-04-29 2017-01-21 Rakuten Inc Natural language processing systems, natural language processing methods, and natural language processing programs
JP2016009428A (ja) * 2014-06-26 2016-01-18 株式会社日立超エル・エス・アイ・システムズ 形態素解析チューニング装置、音声合成システム、及び形態素解析チューニング方法

Similar Documents

Publication Publication Date Title
EP0953192B1 (en) Natural language parser with dictionary-based part-of-speech probabilities
US5495413A (en) Translation machine having a function of deriving two or more syntaxes from one original sentence and giving precedence to a selected one of the syntaxes
JP3161942B2 (ja) 訳振り機械翻訳装置
US4814987A (en) Translation system
US20070233460A1 (en) Computer-Implemented Method for Use in a Translation System
JPH083815B2 (ja) 自然言語の共起関係辞書保守方法
JPH05314166A (ja) 電子化辞書および辞書検索装置
JP2880601B2 (ja) 言語処理装置
GB2197510A (en) Translation apparatus
JPH09114825A (ja) 形態素解析方法およびその装置
USRE35464E (en) Apparatus and method for translating sentences containing punctuation marks
JP2778025B2 (ja) 共起関係辞書の学習方法
JP3437782B2 (ja) 機械翻訳方法及びその装置並びに機械翻訳プログラムを記憶した媒体
JP3873305B2 (ja) 仮名漢字変換装置および仮名漢字変換方法
JP3099425B2 (ja) かな漢字変換装置及び方法
JP3061855B2 (ja) かな漢字変換装置及びかな漢字変換方法
JP2004206631A (ja) 検索チューニング方法および情報検索システム
JP3300492B2 (ja) 辞書検査装置
JPH0785040A (ja) 表記不統一検出方法およびかな漢字変換方法
JP4023384B2 (ja) 自然言語翻訳方法及び装置及び自然言語翻訳プログラム
JPH07249035A (ja) 仮名漢字変換装置及び方法
JP2001265766A (ja) 機械翻訳方法、機械翻訳装置及び記録媒体
JPH06149791A (ja) 漢字文章入力装置
JPH07200592A (ja) 文章処理装置
JPH05314172A (ja) 機械翻訳装置