JP2002123511A

JP2002123511A - 形態素変換規則生成装置及び形態素列変換装置

Info

Publication number: JP2002123511A
Application number: JP2000313504A
Authority: JP
Inventors: Mitsuo Shimohata; 光夫下畑; Eiichiro Sumida; 英一郎隅田
Original assignee: ATR ONSEI GENGO TSUSHIN KENKYU; ATR Spoken Language Translation Research Laboratories
Current assignee: ATR ONSEI GENGO TSUSHIN KENKYU; ATR Spoken Language Translation Research Laboratories
Priority date: 2000-10-13
Filing date: 2000-10-13
Publication date: 2002-04-26

Abstract

(57)【要約】【課題】複数の変換候補が存在しても選択でき、未知
語の形態素変換規則を自動的に生成する。【解決手段】学習データ生成部１２は、第１の体系に
基づく形態素の区切り及び品詞情報を有する形態素列か
らなる第１のデータと、これと同じ文や句を対象とする
が上記第１の体系とは異なる第２の体系に基づく形態素
の区切り及び品詞情報を有する形態素列からなる第２の
データとに基づいて、処理対象語とその品詞情報、処理
対象語から前後に近接する語の品詞情報を含むデータを
変換用特徴とし、変換先の品詞情報を変換先のクラスと
する学習データを生成する。変換規則生成部１３は、生
成された学習データに基づいて、所定の学習方法を用い
て、第１の体系に基づく形態素の区切り及び品詞情報を
有する形態素列を、第２の体系に基づく形態素の区切り
及び品詞情報を有する形態素列に変換するための形態素
変換規則を生成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、互いに異なる体系
間の形態素情報（形態素の区切りや品詞情報など）を変
換するための変換規則を生成するための形態素変換規則
生成装置、並びに、上記形態素変換規則生成装置を備え
た形態素列変換装置に関する。

【０００２】

【従来の技術】従来技術の形態素列変換装置（以下、従
来例という。）が、例えば、日本国特許第３０５０７４
３号公報において開示されている。

【０００３】この従来例の形態素列変換装置において
は、形態素規則生成部は、文や句の集合を対象として求
めた、第１の体系に基づく語彙の区切り及び品詞情報を
有する形態素列からなる第１のデータと、これと同じ文
や句を対象とするが上記第１の体系とは異なる第２の体
系に基づく語彙の区切り及び品詞情報を有する形態素列
からなる第２のデータから構成され、記憶装置に記憶さ
れた訓練用データを用いて、上記第１の体系に基づく語
彙の区切り及び品詞情報を有する形態素列を、上記第２
の体系に基づく語彙の区切り情報及び品詞情報を有する
形態素列に変換する。次いで、形態素変換部は、上記生
成された形態素変換規則を用いて、上記第１の体系に基
づく語彙の区切り及び品詞情報を有する形態素列を、上
記第２の体系に基づく語彙の区切り情報及び品詞情報を
有する形態素列に自動的に変換する。すなわち、従来例
では、互いに異なる体系の形態素情報を付与されたテキ
ストを学習データとして体系間の変換規則を生成し、形
態素情報の変換を行っている。

【０００４】

【発明が解決しようとする課題】従来例では、変換対象
語の表記と品詞を変換用特徴として変換先品詞を求めて
いるために、変換には表記と品詞が分かっている必要が
ある。新しいテキストデータを変換する場合には学習デ
ータでは出現しなかった未知語も変換対象となるが、そ
のような語に対する変換は基本的にはできないという問
題点があった。

【０００５】このため、従来例では、学習データでは出
現しなかった語でも変換対象語に品詞が付与されている
場合は語の文字数や末尾の文字などを利用して変換を行
っている。しかしながら、変換規則の生成方法について
は述べられておらず、人手で作成する必要がある。ま
た、変換対象となる語の形態素情報が、表記だけでなく
品詞も不明である場合、従来例では変換は全くできな
い。このほか、変換原体系と変換先体系の組み合せによ
っては、変換原体系で同一表記、同一品詞であっても、
変換先体系において複数の品詞に分岐する場合がある。
この場合も従来例の装置では全く対処できない。

【０００６】本発明の目的は以上の問題点を解決し、複
数の変換候補が存在しても選択でき、しかも未知語の形
態素変換規則を自動的に生成することができる形態素変
換規則生成装置、及び上記形態素変換規則生成装置を用
いた形態素列変換装置を提供することにある。

【０００７】

【課題を解決するための手段】本発明に係る形態素列変
換規則生成装置は、文や句の集合を対象として求めた、
第１の体系に基づく形態素の区切り及び品詞情報を有す
る形態素列からなり、第１の記憶装置に格納された第１
のデータと、これと同じ文や句を対象とするが上記第１
の体系とは異なる第２の体系に基づく形態素の区切り及
び品詞情報を有する形態素列からなり、第２の記憶装置
に格納された第２のデータとに基づいて、処理対象語と
その品詞情報、処理対象語から前後に近接する語の品詞
情報を含むデータを変換用特徴とし、変換先の品詞情報
を変換先のクラスとする学習データを生成する第１の生
成手段と、上記生成された学習データに基づいて、所定
の学習方法を用いて、第１の体系に基づく形態素の区切
り及び品詞情報を有する形態素列を、第２の体系に基づ
く形態素の区切り及び品詞情報を有する形態素列に変換
するための形態素変換規則を生成する第２の生成手段と
を備えたことを特徴とする。

【０００８】また、上記形態素変換規則生成装置におい
て、上記変換用特徴は、処理対象語の部分的表記をさら
に含むことを特徴とする。

【０００９】さらに、上記形態素列変換規則生成装置に
おいて、上記第１の生成手段は、上記第１と第２のデー
タで共通する語境界によりテキストをセグメントに分割
し、分割したセグメントを処理対象語とすることを特徴
とする。

【００１０】またさらに、上記形態素列変換規則生成装
置において、上記第１の生成手段は、上記第１の体系に
基づく形態素の区切り及び品詞情報を有する形態素列に
代えて、所定の形態素解析装置の機械処理による形態素
の区切り及び品詞情報を有する形態素列を用い、上記第
２の体系に基づく形態素の区切り及び品詞情報を有する
形態素列に代えて、上記形態素解析装置の機械処理によ
る形態素の区切り及び品詞情報を有する形態素列から人
手で訂正された、形態素の区切り及び品詞情報を有する
形態素列を用いて、学習データを生成することを特徴と
する。

【００１１】本発明に係る形態素列変換装置は、上記形
態素変換規則生成装置により生成された形態素変換規則
を用いて、第３の記憶装置に格納され、上記第３の記憶
装置から入力される所定の体系に基づく形態素の区切り
及び品詞情報を有する形態素列を、別の体系に基づく形
態素の区切り及び品詞情報を有する形態素列に自動的に
変換する変換手段を備えたことを特徴とする。

【００１２】また、上記形態素列変換装置において、上
記変換手段の前段に設けられ、入力される形態素列に基
づいて上記第１の体系に基づく形態素解析を実行して、
形態素の区切り及び品詞情報を有する形態素列を生成し
て上記変換手段に出力する解析手段をさらに備えたこと
を特徴とする。

【００１３】

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。

【００１４】図１は、本発明に係る一実施形態である形
態素変換規則生成装置１００及び形態素列変換装置２０
０の構成を示すブロック図である。この実施形態に係る
形態素変換規則生成装置１００は、互いに異なる体系の
形態素情報に基づいて形態素変換規則を生成するもので
あり、変換規則を生成するための学習データの変換用特
徴として、変換対象語の表記及び品詞情報に加えて、変
換対象語から直前に位置する直前語（以下、直前語とい
う。）の品詞情報と、変換対象語から直後に位置する直
後語（以下、直後語という。）の品詞情報とを用いて、
形態素変換規則を生成することを特徴としている。

【００１５】図１の形態素変換規則生成装置１００にお
いて、第１の体系に基づく形態素列情報メモリ２１は、
文や句の集合を対象として公知の形態素解析装置を用い
て求めた、第１の体系に基づく形態素の区切り及び品詞
情報を有する形態素列を格納する。一方、第２の体系に
基づく形態素列情報メモリ２２は、上記文や句の集合と
同一である文や句の集合を対象として上記形態素解析装
置とは異なる形態素解析装置を用いて求めた、上記第１
の体系とは異なる第２の体系に基づく形態素の区切り及
び品詞情報を有する形態素列（以下、形態素列情報とい
う。）を格納する。これら形態素情報メモリ２１，２２
に格納される形態素列情報の一例を以下に示す。ここ
で、“｜”は語境界又は形態素の区切りを示す。

【００１６】

【表１】形態素情報メモリ２１，２２に格納される形態素列情報の一例 ―――――――――――――――――――――――――――――― 名助形尾助尾尾尾第１の体系：日本｜が｜安閑と｜して｜は｜い│られ｜ない ―――――――――――――――――――――――――――――― 名助副動助助動副形第２の体系：日本｜が｜安閑と｜し│て｜は｜いら│れ｜ない ―――――――――――――――――――――――――――――― （注）名：名詞、助：助詞、尾：接尾辞、動：動詞、形：形容詞。

【００１７】次いで、共通語境界検出部１１は、形態素
列情報メモリ２１，２２に格納された形態素列情報に基
づいて、２つの体系の形態素列情報の間で共通に位置す
る共通語境界を検出して、共通語境界の情報を含む２つ
の体系の形態素情報を学習データ生成部１２に出力す
る。表１の例において、検出された共通語境界（表２で
“‖”で示す。）を以下に示す。

【００１８】

【表２】検出された共通語境界の一例 ―――――――――――――――――――――――――――――― 名助形尾助尾尾尾第１の体系：日本‖が‖安閑と‖して ‖は‖い│られ‖ない ―――――――――――――――――――――――――――――― 名助副動助助動副形第２の体系：日本‖が‖安閑と‖し│て‖は‖いら│れ‖ない ――――――――――――――――――――――――――――――

【００１９】さらに、学習データ生成部は１２、学習デ
ータ生成処理のための処理メモリ２３を用いて、共通語
境界検出部１１で検出された共通語境界の情報を含む２
つの体系の形態素列情報に基づいて、以下の示す手順で
学習データを生成して学習データメモリ２４に出力して
格納する。まず、体系により語の境界が異なるので、共
通する語境界により、入力された２つの体系の形態素列
情報を、セグメントに分割し、本実施形態では、形態素
列変換はこのセグメントを単位として行われる。さら
に、各セグメントについて、セグメント並びに直前語及
び直後語の品詞情報を取り出し、変換用特徴とする。ま
た、変換先体系における品詞情報も取り出し、学習事例
とする。すなわち、共通語境界検出部１１で検出された
共通語境界の情報を含む２つの体系の形態素列情報に基
づいて、直前語の品詞、変換処理対象語（以下、対象語
という。）の表記、対象語の品詞、及び直後語の品詞を
変換用特徴とし、変換先品詞を変換後のクラスとする。

【００２０】表２に示す例文について、形態素変換規則
の学習データを生成すると、以下のようになる。共通語
境界“‖”で分割するセグメントの表記は「日本」、
「が」、「安閑と」、「して」、「は」、「いられ」、
「ない」である。なお、変換するセグメントが文頭の場
合は、直前語がないので「文頭」という特別なマークを
置く。文末も同様に直後語がないので「文末」という特
別なマークを置く。各セグメントから収集した学習用デ
ータは以下のようになる。

【００２１】

【表３】学習データの一例 ――――――――――――――――――――――――――――――――――― 直前語の品詞対象語の表記対象語の品詞直後語の品詞変換先品詞 ――――――――――――――――――――――――――――――――――― 文頭日本名詞助詞名詞名詞が助詞形容詞助詞助詞安閑と形容詞接尾辞副詞形容詞して接尾辞助詞動詞＋助詞接尾辞は助詞接尾辞助詞接尾辞いられ接尾辞＋接尾辞接尾辞動詞＋副詞接尾辞ない接尾辞文末形容詞 ―――――――――――――――――――――――――――――――――――

【００２２】さらに、変換規則生成部１３は、生成され
て学習データメモリ２４に格納された学習データに基づ
いて、例えば、情報利得を用いた決定木学習法（例え
ば、従来技術文献１「J. Ross Quinlan, "C4.5:Program
s for Machine Learning", Morgan Kaufmann Publisher
s, Inc., 1993」参照。）や、所定の情報量に基づいた
最大エントロピー法などの所定の学習方法を用いて、形
態素変換規則を生成して形態素変換規則メモリ２５に出
力して格納する。上述の決定木学習法を用いた処理装置
の場合、変換用特徴とクラスが組になった上述の学習デ
ータを用意し、学習データを当該処理装置に入力するこ
とにより決定木を生成し、生成された決定木に基づい
て、最後のクラスに辿り着くパスにおける各分岐条件を
記述することにより形態素変換規則を生成できる。ここ
で、生成される決定木は、直前語の品詞、変換対象語の
表記、変換対象語の品詞、直後語の品詞を入力として受
け取り、変換先品詞を出力するものである。ここで、生
成される変換規則の例を以下に示す。ここで、ｓｅｇ表
記はセグメント（すなわち、対象語）の表記であり、ｓ
ｅｇ品詞はセグメントの品詞である。

【００２３】

【表４】変換規則の一例 ――――――――――――――――――――――――――――――――――― ｉｆｓｅｇ表記＝“日本” ａｎｄｓｅｇ品詞＝名詞ｔｈｅｎ変換先品詞＝名詞 ――――――――――――――――――――――――――――――――――― ｉｆ直前語＝名詞ａｎｄｓｅｇ品詞＝接尾辞ｔｈｅｎ変換先品詞＝形容詞 ―――――――――――――――――――――――――――――――――――

【００２４】上述のように生成される決定木では、いく
つかの変換用特徴が不明であっても、最も確からしいク
ラスを算出することができる。すべての変換用特徴が不
明である場合は、最も頻出したクラスが出力される。変
換対象語の表記、品詞が不明で、近接する語の品詞が分
かっている場合の入力例を以下に示す。「？」は値が不
明であることを示す記号である。

【００２５】

【表５】 ―――――――――――― 名詞，？，？，助詞 ――――――――――――

【００２６】この機能を利用することで、表記や品詞が
不明であるような未知語が処理対象テキストに混在して
も変換先の品詞を推定することが可能である。このほか
に、不明な特徴には何らかの値を入れて決定木に与えて
もよく、値の決め方は、あらかじめ装置管理者がデフォ
ルト値を定めておいてもよいし、評価データを集計して
その特徴における最頻値をデフォルト値としてもよい。

【００２７】次いで、図１を参照して、形態素列変換装
置２００について説明する。第１の体系に基づく形態素
情報付きテキストメモリ３１は、上記第１の体系に基づ
く、メモリ２１とは別の形態素情報付きテキストデータ
を格納しており、形態素変換部３０は、変換規則生成部
１３によって生成された形態素変換規則メモリ２５内の
形態素変換規則を用いて、上記テキストメモリ３１から
入力される第１の体系に基づく形態素の区切り及び品詞
情報を有する形態素列を、上記第２の体系に基づく形態
素の区切り情報及び品詞情報を有する形態素列に自動的
に変換して第２の体系に基づく形態素情報付きテキスト
メモリ３２に出力して格納する。

【００２８】以上説明したように、本実施形態によれ
ば、変換対象語の形態素情報並びに近接する語の形態素
情報を変換用特徴として利用して学習データを生成し、
生成された学習データに基づいて形態素変換規則を生成
し、これを用いて形態素情報の変換を行うことを特徴と
している。近接する語の形態素情報も変換用特徴とする
ことで、変換対象語の形態素情報（表記、品詞など）が
一部又は全部が欠落していても変換を行うことが可能で
ある。また、全く同一の形態素情報を持つ語が場合によ
り複数の形態素情報に変換される場合でも、近接する語
の情報を基に複数のパターンに分岐させることが可能で
ある。

【００２９】さらに、以上の実施形態に代わる変形例に
ついて以下に説明する。

【００３０】以上の実施形態においては、セグメントの
形態素情報並びに直前語や直後語などの近接語の形態素
情報として、品詞を用いているが、本発明はこれに限ら
ず、活用形などを用いてもよい。また、変換先のクラス
についても、同様である。品詞、活用形は大分類、小分
類に分けられていることが多いが、どちらを採用しても
構わない。

【００３１】以上の実施形態においては、近接する語
は、対象語から直前及び直後に位置する前後１語とした
が、前後２語、３語など、対象語から複数語だけ離れた
近接する語又は形態素であってもよい。また、近接する
語の情報も品詞だけでなく、活用形、表記などの情報を
導入してもよい。表記的情報は、表記全部を使用しても
よいし、先頭部、末尾部といった部分的表記を使用して
もよい。

【００３２】特に、部分的表記を利用すると、学習デー
タに出現しなかった語の変換において精度の高い変換が
実現できるという効果がある。部分的表記を条件とした
形態素変換規則の生成方法について以下に説明する。先
頭もしくは末尾から１文字、２文字、…を取り出した文
字列も変換用特徴として導入することで部分表記を条件
とした形態素変換規則を生成することができる。形態素
変換規則作成の対象となる語が「政治的だ」である場
合、末尾から一文字ずつ取り出した文字列「だ」「的
だ」、「治的だ」と先頭から１文字ずつ取り出した文字
列「政」、「政治」、「政治的」を変換用特徴として加
える。従って、与える変換用特徴及び変換先のクラスは
以下のようになる。

【００３３】

【表６】 ――――――――――――――――――――――――――――――――――― 直前語の品詞，変換対象語の品詞，直後語の品詞／部分的表記／変換対象語の品詞 ――――――――――――――――――――――――――――――――――― 助詞，名詞＋判定詞，名詞／政治的だ，だ，的だ，治的だ，政，政治，政治的／形容動詞 ―――――――――――――――――――――――――――――――――――

【００３４】このほかに、「経済的だ」からも同様に、
下記のような事例が出てくる。

【００３５】

【表７】 ――――――――――――――――――――――――――――――――――― 直前語の品詞，変換対象語の品詞，直後語の品詞／部分的表記／変換対象語の品詞 ――――――――――――――――――――――――――――――――――― 副詞，名詞＋判定詞，名詞／経済的だ，だ，的だ，済的だ，経，経済，経済的／形容動詞 ―――――――――――――――――――――――――――――――――――

【００３６】これらの事例を入力として、決定木学習法
を用いて学習することにより決定木を生成し、これに基
づいて上述と同様に、形態素変換規則を生成する。決定
木学習では、効果の低い特徴は除去され、効果の高い特
徴だけが残る。従って、一番効果の高い表記情報が部分
的表記であった場合は部分的表記の情報を用いた決定木
が生成される。生成される規則の例を以下に示す。ここ
で、ｓｅｇ表記ｌａｓｔ２は、セグメント（すなわち、
対象語）の末尾から２文字取り出したセグメント（文字
列）である。

【００３７】

【表８】 ――――――――――――――――――――――――――――――――――― ｉｆｓｅｇ表記ｌａｓｔ２＝“的だ” ａｎｄｓｅｇ品詞＝名詞＋判定詞ｔｈｅｎ変換先品詞＝形容動詞 ―――――――――――――――――――――――――――――――――――

【００３８】この例に示すように、表記全体を使用する
だけでなく、部分的表記を条件とする変換規則も生成で
きることから、学習データでは出現しなかった表記の語
を変換する場合に、部分的表記の条件に適合するために
精度よく変換できるという特徴も有する。

【００３９】以上の実施形態においては、テキストを対
象とした形態素解析について説明しているが、本発明は
これに限らず、音声認識装置などから出力された形態素
解析結果にも適用可能である。また、本発明は、日本語
だけでなく、英語など他の言語にも適用可能である。

【００４０】図２は、本発明に係る第１の変形例である
形態素列変換装置２０１の構成を示すブロック図であ
る。

【００４１】この第１の変形例においては、図１の実施
形態の形態素変換部３０の前段に、第１の体系に基づく
形態素解析部４０を備えたことを特徴としている。ここ
で、第１の体系に基づく形態素解析部４０は、公知の形
態素解析装置で構成され、プレーンテキストメモリ３１
ａに格納されたテキストデータの文字列又は形態素列に
対して、第１の体系に基づいて形態素解析処理を実行し
て形態素の区切り及び品詞情報を付加した形態素列を生
成して形態素変換部３０に出力する。次いで、形態素変
換部３０は、形態素変換規則メモリ２５内の形態素変換
規則を用いて、形態素解析部４０からから入力される第
１の体系に基づく形態素の区切り及び品詞情報を有する
形態素列を、上記第２の体系に基づく形態素の区切り情
報及び品詞情報を有する形態素列に自動的に変換して第
２の体系に基づく形態素情報付きテキストメモリ３２に
出力して格納する。

【００４２】以上のように構成された第１の変形例で
は、ある体系の形態素解析装置４０の後段に形態素変換
部３０を加えることで別の体系の形態素解析装置を作る
ことができる。また、変換対象語の表記、品詞に関する
情報がなくても変換ができるため、形態素解析部４０の
出力で「未知語」が出現しても構わない。

【００４３】図３は、本発明に係る第２の変形例である
形態素変換規則生成装置１００ａ及び形態素列変換装置
２００ａの構成を示すブロック図である。

【００４４】この第２の変形例においては、図１の実施
形態に比較して以下のように異なる。学習データを生成
するための２つのデータとして、第１と第２の体系に基
づく形態素列情報を用いることに代えて、それぞれ、あ
るプレーンテキストに対して公知の形態素解析装置の機
械処理により得られた、形態素の区切り及び品詞情報を
有する形態素列情報と、上記形態素解析装置の機械処理
により得られた、形態素の区切り及び品詞情報を有する
形態素列情報を人手により修正された、形態素の区切り
及び品詞情報を有する形態素列情報を用い、これらを形
態素列情報メモリ２１ａ，２２ａに格納する。そして、
共通語境界検出部１１以降の形態素変換規則生成装置１
００ａにおける処理は、上述の実施形態と同様に実行さ
れ、形態素変換規則を生成して形態素変換規則メモリ２
５に格納する。そして、形態素列変換装置２００ａで
は、形態素変換部３０への入力データとして、上記のプ
レーンテキストとは異なるプレーンテキストに対して、
上記形態素解析装置の機械処理により得られ、テキスト
メモリ３１ｂに格納された形態素の区切り及び品詞情報
を有する形態素列情報を用いる。このとき、形態素変換
部３０は、形態素変換規則メモリ２５内の形態素変換規
則を用いて、入力される形態素情報を形態素変換するこ
とにより、人手で訂正されたと同様に訂正された形態素
情報を得ることができ、これをテキストメモリ３２ｂに
格納する。

【００４５】以上のように構成された第２の変形例で
は、形態素解析装置から出力された形態素情報と、人手
で付与された形態素情報とを学習データとして変換規則
を生成することにより、形態素解析装置の訂正処理部を
作ることができる。これにより、形態素解析装置の出力
結果を修正することができる。

【００４６】以上の実施形態及び変形例において、共通
語境界検出部１１、学習データ生成部１２、変換規則生
成部１３、形態素変換部３０、及び形態素解析部４０
は、例えばコンピュータなどのディジタル計算機で構成
され、形態素列情報メモリ２１，２１ａ，２２，２２
ａ、処理メモリ２３、学習データメモリ２４、形態素変
換規則メモリ２５、テキストメモリ３１，３１ａ，３１
ｂ，３２，３２ｂは、例えばハードディスクメモリなど
の記憶装置で構成される。

【００４７】

【発明の効果】以上詳述したように本発明によれば、第
１の体系に基づく形態素の区切り及び品詞情報を有する
形態素列からなる第１のデータと、これと同じ文や句を
対象とするが上記第１の体系とは異なる第２の体系に基
づく形態素の区切り及び品詞情報を有する形態素列から
なる第２のデータとに基づいて、処理対象語とその品詞
情報、処理対象語から前後に近接する語の品詞情報を含
むデータを変換用特徴とし、変換先の品詞情報を変換先
のクラスとする学習データを生成し、上記生成された学
習データに基づいて、所定の学習方法を用いて、第１の
体系に基づく形態素の区切り及び品詞情報を有する形態
素列を、第２の体系に基づく形態素の区切り及び品詞情
報を有する形態素列に変換するための形態素変換規則を
生成する。従って、処理対象語に近接する語の形態素情
報も変換用特徴とすることで、変換対象語の形態素情報
が一部又は全部が欠落していても変換を行うことが可能
である。また、全く同一の形態素情報を持つ語が場合に
より複数の形態素情報に変換される場合でも、近接する
語の情報を基に複数のパターンに分岐させることが可能
である。

【図面の簡単な説明】

【図１】本発明に係る一実施形態である形態素変換規
則生成装置１００及び形態素列変換装置２００の構成を
示すブロック図である。

【図２】本発明に係る第１の変形例である形態素列変
換装置２０１の構成を示すブロック図である。

【図３】本発明に係る第２の変形例である形態素変換
規則生成装置１００ａ及び形態素列変換装置２００ａの
構成を示すブロック図である。

【符号の説明】

１１…共通語境界検出部、１２…学習データ生成部、１３…変換規則生成部、２１…第１の体系に基づく形態素列情報メモリ、２１ａ…機械処理による形態素列情報メモリ、２２…第２の体系に基づく形態素列情報メモリ、２２ａ…人手で修正された形態素列情報メモリ、２３…処理メモリ、２４…学習データメモリ、３０…形態素変換部、３１…第１の体系に基づく形態素列情報付きテキストメ
モリ、３１ａ…プレーンテキストメモリ、３１ｂ…機械処理による形態素列情報付きテキストメモ
リ、３２…第２の体系に基づく形態素列情報付きテキストメ
モリ、３２ｂ…訂正された形態素列情報付きテキストメモリ、４０…第１の体系に基づく形態素解析部、１００…形態素変換規則生成装置、２００，２０１…形態素列変換装置。

フロントページの続き (72)発明者隅田英一郎京都府相楽郡精華町光台二丁目２番地２株式会社エイ・ティ・アール音声言語通信研究所内Ｆターム(参考） 5B091 AA15 CA02 CA21 CC03 CC16 EA01

Claims

【特許請求の範囲】

【請求項１】文や句の集合を対象として求めた、第１
の体系に基づく形態素の区切り及び品詞情報を有する形
態素列からなり、第１の記憶装置に格納された第１のデ
ータと、これと同じ文や句を対象とするが上記第１の体
系とは異なる第２の体系に基づく形態素の区切り及び品
詞情報を有する形態素列からなり、第２の記憶装置に格
納された第２のデータとに基づいて、処理対象語とその
品詞情報、処理対象語から前後に近接する語の品詞情報
を含むデータを変換用特徴とし、変換先の品詞情報を変
換先のクラスとする学習データを生成する第１の生成手
段と、上記生成された学習データに基づいて、所定の学習方法
を用いて、第１の体系に基づく形態素の区切り及び品詞
情報を有する形態素列を、第２の体系に基づく形態素の
区切り及び品詞情報を有する形態素列に変換するための
形態素変換規則を生成する第２の生成手段とを備えたこ
とを特徴とする形態素変換規則生成装置。
【請求項２】上記変換用特徴は、処理対象語の部分的
表記をさらに含むことを特徴とする請求項１記載の形態
素変換規則生成装置。
【請求項３】上記第１の生成手段は、上記第１と第２
のデータで共通する語境界によりテキストをセグメント
に分割し、分割したセグメントを処理対象語とすること
を特徴とする請求項１又は２記載の形態素変換規則生成
装置。
【請求項４】上記第１の生成手段は、上記第１の体系
に基づく形態素の区切り及び品詞情報を有する形態素列
に代えて、所定の形態素解析装置の機械処理による形態
素の区切り及び品詞情報を有する形態素列を用い、上記
第２の体系に基づく形態素の区切り及び品詞情報を有す
る形態素列に代えて、上記形態素解析装置の機械処理に
よる形態素の区切り及び品詞情報を有する形態素列から
人手で訂正された、形態素の区切り及び品詞情報を有す
る形態素列を用いて、学習データを生成することを特徴
とする１乃至３のうちのいずれか１つに記載の形態素変
換規則生成装置。
【請求項５】請求項１乃至４のうちのいずれか１つに
記載の形態素変換規則生成装置により生成された形態素
変換規則を用いて、第３の記憶装置に格納され、上記第
３の記憶装置から入力される所定の体系に基づく形態素
の区切り及び品詞情報を有する形態素列を、別の体系に
基づく形態素の区切り及び品詞情報を有する形態素列に
自動的に変換する変換手段を備えたことを特徴とする形
態素列変換装置。
【請求項６】上記変換手段の前段に設けられ、入力さ
れる形態素列に基づいて上記第１の体系に基づく形態素
解析を実行して、形態素の区切り及び品詞情報を有する
形態素列を生成して上記変換手段に出力する解析手段を
さらに備えたことを特徴とする請求項５記載の形態素列
変換装置。