JP2002123511A - 形態素変換規則生成装置及び形態素列変換装置 - Google Patents

形態素変換規則生成装置及び形態素列変換装置

Info

Publication number
JP2002123511A
JP2002123511A JP2000313504A JP2000313504A JP2002123511A JP 2002123511 A JP2002123511 A JP 2002123511A JP 2000313504 A JP2000313504 A JP 2000313504A JP 2000313504 A JP2000313504 A JP 2000313504A JP 2002123511 A JP2002123511 A JP 2002123511A
Authority
JP
Japan
Prior art keywords
morpheme
conversion
morphological
speech information
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000313504A
Other languages
English (en)
Inventor
Mitsuo Shimohata
光夫 下畑
Eiichiro Sumida
英一郎 隅田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI GENGO TSUSHIN KENKYU
ATR Spoken Language Translation Research Laboratories
Original Assignee
ATR ONSEI GENGO TSUSHIN KENKYU
ATR Spoken Language Translation Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI GENGO TSUSHIN KENKYU, ATR Spoken Language Translation Research Laboratories filed Critical ATR ONSEI GENGO TSUSHIN KENKYU
Priority to JP2000313504A priority Critical patent/JP2002123511A/ja
Publication of JP2002123511A publication Critical patent/JP2002123511A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 複数の変換候補が存在しても選択でき、未知
語の形態素変換規則を自動的に生成する。 【解決手段】 学習データ生成部12は、第1の体系に
基づく形態素の区切り及び品詞情報を有する形態素列か
らなる第1のデータと、これと同じ文や句を対象とする
が上記第1の体系とは異なる第2の体系に基づく形態素
の区切り及び品詞情報を有する形態素列からなる第2の
データとに基づいて、処理対象語とその品詞情報、処理
対象語から前後に近接する語の品詞情報を含むデータを
変換用特徴とし、変換先の品詞情報を変換先のクラスと
する学習データを生成する。変換規則生成部13は、生
成された学習データに基づいて、所定の学習方法を用い
て、第1の体系に基づく形態素の区切り及び品詞情報を
有する形態素列を、第2の体系に基づく形態素の区切り
及び品詞情報を有する形態素列に変換するための形態素
変換規則を生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、互いに異なる体系
間の形態素情報(形態素の区切りや品詞情報など)を変
換するための変換規則を生成するための形態素変換規則
生成装置、並びに、上記形態素変換規則生成装置を備え
た形態素列変換装置に関する。
【0002】
【従来の技術】従来技術の形態素列変換装置(以下、従
来例という。)が、例えば、日本国特許第305074
3号公報において開示されている。
【0003】この従来例の形態素列変換装置において
は、形態素規則生成部は、文や句の集合を対象として求
めた、第1の体系に基づく語彙の区切り及び品詞情報を
有する形態素列からなる第1のデータと、これと同じ文
や句を対象とするが上記第1の体系とは異なる第2の体
系に基づく語彙の区切り及び品詞情報を有する形態素列
からなる第2のデータから構成され、記憶装置に記憶さ
れた訓練用データを用いて、上記第1の体系に基づく語
彙の区切り及び品詞情報を有する形態素列を、上記第2
の体系に基づく語彙の区切り情報及び品詞情報を有する
形態素列に変換する。次いで、形態素変換部は、上記生
成された形態素変換規則を用いて、上記第1の体系に基
づく語彙の区切り及び品詞情報を有する形態素列を、上
記第2の体系に基づく語彙の区切り情報及び品詞情報を
有する形態素列に自動的に変換する。すなわち、従来例
では、互いに異なる体系の形態素情報を付与されたテキ
ストを学習データとして体系間の変換規則を生成し、形
態素情報の変換を行っている。
【0004】
【発明が解決しようとする課題】従来例では、変換対象
語の表記と品詞を変換用特徴として変換先品詞を求めて
いるために、変換には表記と品詞が分かっている必要が
ある。新しいテキストデータを変換する場合には学習デ
ータでは出現しなかった未知語も変換対象となるが、そ
のような語に対する変換は基本的にはできないという問
題点があった。
【0005】このため、従来例では、学習データでは出
現しなかった語でも変換対象語に品詞が付与されている
場合は語の文字数や末尾の文字などを利用して変換を行
っている。しかしながら、変換規則の生成方法について
は述べられておらず、人手で作成する必要がある。ま
た、変換対象となる語の形態素情報が、表記だけでなく
品詞も不明である場合、従来例では変換は全くできな
い。このほか、変換原体系と変換先体系の組み合せによ
っては、変換原体系で同一表記、同一品詞であっても、
変換先体系において複数の品詞に分岐する場合がある。
この場合も従来例の装置では全く対処できない。
【0006】本発明の目的は以上の問題点を解決し、複
数の変換候補が存在しても選択でき、しかも未知語の形
態素変換規則を自動的に生成することができる形態素変
換規則生成装置、及び上記形態素変換規則生成装置を用
いた形態素列変換装置を提供することにある。
【0007】
【課題を解決するための手段】本発明に係る形態素列変
換規則生成装置は、文や句の集合を対象として求めた、
第1の体系に基づく形態素の区切り及び品詞情報を有す
る形態素列からなり、第1の記憶装置に格納された第1
のデータと、これと同じ文や句を対象とするが上記第1
の体系とは異なる第2の体系に基づく形態素の区切り及
び品詞情報を有する形態素列からなり、第2の記憶装置
に格納された第2のデータとに基づいて、処理対象語と
その品詞情報、処理対象語から前後に近接する語の品詞
情報を含むデータを変換用特徴とし、変換先の品詞情報
を変換先のクラスとする学習データを生成する第1の生
成手段と、上記生成された学習データに基づいて、所定
の学習方法を用いて、第1の体系に基づく形態素の区切
り及び品詞情報を有する形態素列を、第2の体系に基づ
く形態素の区切り及び品詞情報を有する形態素列に変換
するための形態素変換規則を生成する第2の生成手段と
を備えたことを特徴とする。
【0008】また、上記形態素変換規則生成装置におい
て、上記変換用特徴は、処理対象語の部分的表記をさら
に含むことを特徴とする。
【0009】さらに、上記形態素列変換規則生成装置に
おいて、上記第1の生成手段は、上記第1と第2のデー
タで共通する語境界によりテキストをセグメントに分割
し、分割したセグメントを処理対象語とすることを特徴
とする。
【0010】またさらに、上記形態素列変換規則生成装
置において、上記第1の生成手段は、上記第1の体系に
基づく形態素の区切り及び品詞情報を有する形態素列に
代えて、所定の形態素解析装置の機械処理による形態素
の区切り及び品詞情報を有する形態素列を用い、上記第
2の体系に基づく形態素の区切り及び品詞情報を有する
形態素列に代えて、上記形態素解析装置の機械処理によ
る形態素の区切り及び品詞情報を有する形態素列から人
手で訂正された、形態素の区切り及び品詞情報を有する
形態素列を用いて、学習データを生成することを特徴と
する。
【0011】本発明に係る形態素列変換装置は、上記形
態素変換規則生成装置により生成された形態素変換規則
を用いて、第3の記憶装置に格納され、上記第3の記憶
装置から入力される所定の体系に基づく形態素の区切り
及び品詞情報を有する形態素列を、別の体系に基づく形
態素の区切り及び品詞情報を有する形態素列に自動的に
変換する変換手段を備えたことを特徴とする。
【0012】また、上記形態素列変換装置において、上
記変換手段の前段に設けられ、入力される形態素列に基
づいて上記第1の体系に基づく形態素解析を実行して、
形態素の区切り及び品詞情報を有する形態素列を生成し
て上記変換手段に出力する解析手段をさらに備えたこと
を特徴とする。
【0013】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。
【0014】図1は、本発明に係る一実施形態である形
態素変換規則生成装置100及び形態素列変換装置20
0の構成を示すブロック図である。この実施形態に係る
形態素変換規則生成装置100は、互いに異なる体系の
形態素情報に基づいて形態素変換規則を生成するもので
あり、変換規則を生成するための学習データの変換用特
徴として、変換対象語の表記及び品詞情報に加えて、変
換対象語から直前に位置する直前語(以下、直前語とい
う。)の品詞情報と、変換対象語から直後に位置する直
後語(以下、直後語という。)の品詞情報とを用いて、
形態素変換規則を生成することを特徴としている。
【0015】図1の形態素変換規則生成装置100にお
いて、第1の体系に基づく形態素列情報メモリ21は、
文や句の集合を対象として公知の形態素解析装置を用い
て求めた、第1の体系に基づく形態素の区切り及び品詞
情報を有する形態素列を格納する。一方、第2の体系に
基づく形態素列情報メモリ22は、上記文や句の集合と
同一である文や句の集合を対象として上記形態素解析装
置とは異なる形態素解析装置を用いて求めた、上記第1
の体系とは異なる第2の体系に基づく形態素の区切り及
び品詞情報を有する形態素列(以下、形態素列情報とい
う。)を格納する。これら形態素情報メモリ21,22
に格納される形態素列情報の一例を以下に示す。ここ
で、“|”は語境界又は形態素の区切りを示す。
【0016】
【表1】 形態素情報メモリ21,22に格納される形態素列情報の一例 ―――――――――――――――――――――――――――――― 名 助 形 尾 助 尾 尾 尾 第1の体系:日本|が|安閑と|して |は|い│られ|ない ―――――――――――――――――――――――――――――― 名 助 副 動 助 助 動 副 形 第2の体系:日本|が|安閑と|し│て|は|いら│れ|ない ―――――――――――――――――――――――――――――― (注)名:名詞、助:助詞、尾:接尾辞、動:動詞、形:形容詞。
【0017】次いで、共通語境界検出部11は、形態素
列情報メモリ21,22に格納された形態素列情報に基
づいて、2つの体系の形態素列情報の間で共通に位置す
る共通語境界を検出して、共通語境界の情報を含む2つ
の体系の形態素情報を学習データ生成部12に出力す
る。表1の例において、検出された共通語境界(表2で
“‖”で示す。)を以下に示す。
【0018】
【表2】 検出された共通語境界の一例 ―――――――――――――――――――――――――――――― 名 助 形 尾 助 尾 尾 尾 第1の体系:日本‖が‖安閑と‖して ‖は‖い│られ‖ない ―――――――――――――――――――――――――――――― 名 助 副 動 助 助 動 副 形 第2の体系:日本‖が‖安閑と‖し│て‖は‖いら│れ‖ない ――――――――――――――――――――――――――――――
【0019】さらに、学習データ生成部は12、学習デ
ータ生成処理のための処理メモリ23を用いて、共通語
境界検出部11で検出された共通語境界の情報を含む2
つの体系の形態素列情報に基づいて、以下の示す手順で
学習データを生成して学習データメモリ24に出力して
格納する。まず、体系により語の境界が異なるので、共
通する語境界により、入力された2つの体系の形態素列
情報を、セグメントに分割し、本実施形態では、形態素
列変換はこのセグメントを単位として行われる。さら
に、各セグメントについて、セグメント並びに直前語及
び直後語の品詞情報を取り出し、変換用特徴とする。ま
た、変換先体系における品詞情報も取り出し、学習事例
とする。すなわち、共通語境界検出部11で検出された
共通語境界の情報を含む2つの体系の形態素列情報に基
づいて、直前語の品詞、変換処理対象語(以下、対象語
という。)の表記、対象語の品詞、及び直後語の品詞を
変換用特徴とし、変換先品詞を変換後のクラスとする。
【0020】表2に示す例文について、形態素変換規則
の学習データを生成すると、以下のようになる。共通語
境界“‖”で分割するセグメントの表記は「日本」、
「が」、「安閑と」、「して」、「は」、「いられ」、
「ない」である。なお、変換するセグメントが文頭の場
合は、直前語がないので「文頭」という特別なマークを
置く。文末も同様に直後語がないので「文末」という特
別なマークを置く。各セグメントから収集した学習用デ
ータは以下のようになる。
【0021】
【表3】 学習データの一例 ――――――――――――――――――――――――――――――――――― 直前語の品詞 対象語の表記 対象語の品詞 直後語の品詞 変換先品詞 ――――――――――――――――――――――――――――――――――― 文頭 日本 名詞 助詞 名詞 名詞 が 助詞 形容詞 助詞 助詞 安閑と 形容詞 接尾辞 副詞 形容詞 して 接尾辞 助詞 動詞+助詞 接尾辞 は 助詞 接尾辞 助詞 接尾辞 いられ 接尾辞+接尾辞 接尾辞 動詞+副詞 接尾辞 ない 接尾辞 文末 形容詞 ―――――――――――――――――――――――――――――――――――
【0022】さらに、変換規則生成部13は、生成され
て学習データメモリ24に格納された学習データに基づ
いて、例えば、情報利得を用いた決定木学習法(例え
ば、従来技術文献1「J. Ross Quinlan, "C4.5:Program
s for Machine Learning", Morgan Kaufmann Publisher
s, Inc., 1993」参照。)や、所定の情報量に基づいた
最大エントロピー法などの所定の学習方法を用いて、形
態素変換規則を生成して形態素変換規則メモリ25に出
力して格納する。上述の決定木学習法を用いた処理装置
の場合、変換用特徴とクラスが組になった上述の学習デ
ータを用意し、学習データを当該処理装置に入力するこ
とにより決定木を生成し、生成された決定木に基づい
て、最後のクラスに辿り着くパスにおける各分岐条件を
記述することにより形態素変換規則を生成できる。ここ
で、生成される決定木は、直前語の品詞、変換対象語の
表記、変換対象語の品詞、直後語の品詞を入力として受
け取り、変換先品詞を出力するものである。ここで、生
成される変換規則の例を以下に示す。ここで、seg表
記はセグメント(すなわち、対象語)の表記であり、s
eg品詞はセグメントの品詞である。
【0023】
【表4】 変換規則の一例 ――――――――――――――――――――――――――――――――――― if seg表記=“日本” and seg品詞=名詞 then 変換先品詞=名詞 ――――――――――――――――――――――――――――――――――― if 直前語=名詞 and seg品詞=接尾辞 then 変換先品詞=形容詞 ―――――――――――――――――――――――――――――――――――
【0024】上述のように生成される決定木では、いく
つかの変換用特徴が不明であっても、最も確からしいク
ラスを算出することができる。すべての変換用特徴が不
明である場合は、最も頻出したクラスが出力される。変
換対象語の表記、品詞が不明で、近接する語の品詞が分
かっている場合の入力例を以下に示す。「?」は値が不
明であることを示す記号である。
【0025】
【表5】 ―――――――――――― 名詞,?,?,助詞 ――――――――――――
【0026】この機能を利用することで、表記や品詞が
不明であるような未知語が処理対象テキストに混在して
も変換先の品詞を推定することが可能である。このほか
に、不明な特徴には何らかの値を入れて決定木に与えて
もよく、値の決め方は、あらかじめ装置管理者がデフォ
ルト値を定めておいてもよいし、評価データを集計して
その特徴における最頻値をデフォルト値としてもよい。
【0027】次いで、図1を参照して、形態素列変換装
置200について説明する。第1の体系に基づく形態素
情報付きテキストメモリ31は、上記第1の体系に基づ
く、メモリ21とは別の形態素情報付きテキストデータ
を格納しており、形態素変換部30は、変換規則生成部
13によって生成された形態素変換規則メモリ25内の
形態素変換規則を用いて、上記テキストメモリ31から
入力される第1の体系に基づく形態素の区切り及び品詞
情報を有する形態素列を、上記第2の体系に基づく形態
素の区切り情報及び品詞情報を有する形態素列に自動的
に変換して第2の体系に基づく形態素情報付きテキスト
メモリ32に出力して格納する。
【0028】以上説明したように、本実施形態によれ
ば、変換対象語の形態素情報並びに近接する語の形態素
情報を変換用特徴として利用して学習データを生成し、
生成された学習データに基づいて形態素変換規則を生成
し、これを用いて形態素情報の変換を行うことを特徴と
している。近接する語の形態素情報も変換用特徴とする
ことで、変換対象語の形態素情報(表記、品詞など)が
一部又は全部が欠落していても変換を行うことが可能で
ある。また、全く同一の形態素情報を持つ語が場合によ
り複数の形態素情報に変換される場合でも、近接する語
の情報を基に複数のパターンに分岐させることが可能で
ある。
【0029】さらに、以上の実施形態に代わる変形例に
ついて以下に説明する。
【0030】以上の実施形態においては、セグメントの
形態素情報並びに直前語や直後語などの近接語の形態素
情報として、品詞を用いているが、本発明はこれに限ら
ず、活用形などを用いてもよい。また、変換先のクラス
についても、同様である。品詞、活用形は大分類、小分
類に分けられていることが多いが、どちらを採用しても
構わない。
【0031】以上の実施形態においては、近接する語
は、対象語から直前及び直後に位置する前後1語とした
が、前後2語、3語など、対象語から複数語だけ離れた
近接する語又は形態素であってもよい。また、近接する
語の情報も品詞だけでなく、活用形、表記などの情報を
導入してもよい。表記的情報は、表記全部を使用しても
よいし、先頭部、末尾部といった部分的表記を使用して
もよい。
【0032】特に、部分的表記を利用すると、学習デー
タに出現しなかった語の変換において精度の高い変換が
実現できるという効果がある。部分的表記を条件とした
形態素変換規則の生成方法について以下に説明する。先
頭もしくは末尾から1文字、2文字、…を取り出した文
字列も変換用特徴として導入することで部分表記を条件
とした形態素変換規則を生成することができる。形態素
変換規則作成の対象となる語が「政治的だ」である場
合、末尾から一文字ずつ取り出した文字列「だ」「的
だ」、「治的だ」と先頭から1文字ずつ取り出した文字
列「政」、「政治」、「政治的」を変換用特徴として加
える。従って、与える変換用特徴及び変換先のクラスは
以下のようになる。
【0033】
【表6】 ――――――――――――――――――――――――――――――――――― 直前語の品詞,変換対象語の品詞,直後語の品詞 /部分的表記 /変換対象語の品詞 ――――――――――――――――――――――――――――――――――― 助詞,名詞+判定詞,名詞 /政治的だ,だ,的だ,治的だ,政,政治,政治的 /形容動詞 ―――――――――――――――――――――――――――――――――――
【0034】このほかに、「経済的だ」からも同様に、
下記のような事例が出てくる。
【0035】
【表7】 ――――――――――――――――――――――――――――――――――― 直前語の品詞,変換対象語の品詞,直後語の品詞 /部分的表記 /変換対象語の品詞 ――――――――――――――――――――――――――――――――――― 副詞,名詞+判定詞,名詞 /経済的だ,だ,的だ,済的だ,経,経済,経済的 /形容動詞 ―――――――――――――――――――――――――――――――――――
【0036】これらの事例を入力として、決定木学習法
を用いて学習することにより決定木を生成し、これに基
づいて上述と同様に、形態素変換規則を生成する。決定
木学習では、効果の低い特徴は除去され、効果の高い特
徴だけが残る。従って、一番効果の高い表記情報が部分
的表記であった場合は部分的表記の情報を用いた決定木
が生成される。生成される規則の例を以下に示す。ここ
で、seg表記last2は、セグメント(すなわち、
対象語)の末尾から2文字取り出したセグメント(文字
列)である。
【0037】
【表8】 ――――――――――――――――――――――――――――――――――― if seg表記last2=“的だ” and seg品詞=名詞+判定詞 then 変換先品詞=形容動詞 ―――――――――――――――――――――――――――――――――――
【0038】この例に示すように、表記全体を使用する
だけでなく、部分的表記を条件とする変換規則も生成で
きることから、学習データでは出現しなかった表記の語
を変換する場合に、部分的表記の条件に適合するために
精度よく変換できるという特徴も有する。
【0039】以上の実施形態においては、テキストを対
象とした形態素解析について説明しているが、本発明は
これに限らず、音声認識装置などから出力された形態素
解析結果にも適用可能である。また、本発明は、日本語
だけでなく、英語など他の言語にも適用可能である。
【0040】図2は、本発明に係る第1の変形例である
形態素列変換装置201の構成を示すブロック図であ
る。
【0041】この第1の変形例においては、図1の実施
形態の形態素変換部30の前段に、第1の体系に基づく
形態素解析部40を備えたことを特徴としている。ここ
で、第1の体系に基づく形態素解析部40は、公知の形
態素解析装置で構成され、プレーンテキストメモリ31
aに格納されたテキストデータの文字列又は形態素列に
対して、第1の体系に基づいて形態素解析処理を実行し
て形態素の区切り及び品詞情報を付加した形態素列を生
成して形態素変換部30に出力する。次いで、形態素変
換部30は、形態素変換規則メモリ25内の形態素変換
規則を用いて、形態素解析部40からから入力される第
1の体系に基づく形態素の区切り及び品詞情報を有する
形態素列を、上記第2の体系に基づく形態素の区切り情
報及び品詞情報を有する形態素列に自動的に変換して第
2の体系に基づく形態素情報付きテキストメモリ32に
出力して格納する。
【0042】以上のように構成された第1の変形例で
は、ある体系の形態素解析装置40の後段に形態素変換
部30を加えることで別の体系の形態素解析装置を作る
ことができる。また、変換対象語の表記、品詞に関する
情報がなくても変換ができるため、形態素解析部40の
出力で「未知語」が出現しても構わない。
【0043】図3は、本発明に係る第2の変形例である
形態素変換規則生成装置100a及び形態素列変換装置
200aの構成を示すブロック図である。
【0044】この第2の変形例においては、図1の実施
形態に比較して以下のように異なる。学習データを生成
するための2つのデータとして、第1と第2の体系に基
づく形態素列情報を用いることに代えて、それぞれ、あ
るプレーンテキストに対して公知の形態素解析装置の機
械処理により得られた、形態素の区切り及び品詞情報を
有する形態素列情報と、上記形態素解析装置の機械処理
により得られた、形態素の区切り及び品詞情報を有する
形態素列情報を人手により修正された、形態素の区切り
及び品詞情報を有する形態素列情報を用い、これらを形
態素列情報メモリ21a,22aに格納する。そして、
共通語境界検出部11以降の形態素変換規則生成装置1
00aにおける処理は、上述の実施形態と同様に実行さ
れ、形態素変換規則を生成して形態素変換規則メモリ2
5に格納する。そして、形態素列変換装置200aで
は、形態素変換部30への入力データとして、上記のプ
レーンテキストとは異なるプレーンテキストに対して、
上記形態素解析装置の機械処理により得られ、テキスト
メモリ31bに格納された形態素の区切り及び品詞情報
を有する形態素列情報を用いる。このとき、形態素変換
部30は、形態素変換規則メモリ25内の形態素変換規
則を用いて、入力される形態素情報を形態素変換するこ
とにより、人手で訂正されたと同様に訂正された形態素
情報を得ることができ、これをテキストメモリ32bに
格納する。
【0045】以上のように構成された第2の変形例で
は、形態素解析装置から出力された形態素情報と、人手
で付与された形態素情報とを学習データとして変換規則
を生成することにより、形態素解析装置の訂正処理部を
作ることができる。これにより、形態素解析装置の出力
結果を修正することができる。
【0046】以上の実施形態及び変形例において、共通
語境界検出部11、学習データ生成部12、変換規則生
成部13、形態素変換部30、及び形態素解析部40
は、例えばコンピュータなどのディジタル計算機で構成
され、形態素列情報メモリ21,21a,22,22
a、処理メモリ23、学習データメモリ24、形態素変
換規則メモリ25、テキストメモリ31,31a,31
b,32,32bは、例えばハードディスクメモリなど
の記憶装置で構成される。
【0047】
【発明の効果】以上詳述したように本発明によれば、第
1の体系に基づく形態素の区切り及び品詞情報を有する
形態素列からなる第1のデータと、これと同じ文や句を
対象とするが上記第1の体系とは異なる第2の体系に基
づく形態素の区切り及び品詞情報を有する形態素列から
なる第2のデータとに基づいて、処理対象語とその品詞
情報、処理対象語から前後に近接する語の品詞情報を含
むデータを変換用特徴とし、変換先の品詞情報を変換先
のクラスとする学習データを生成し、上記生成された学
習データに基づいて、所定の学習方法を用いて、第1の
体系に基づく形態素の区切り及び品詞情報を有する形態
素列を、第2の体系に基づく形態素の区切り及び品詞情
報を有する形態素列に変換するための形態素変換規則を
生成する。従って、処理対象語に近接する語の形態素情
報も変換用特徴とすることで、変換対象語の形態素情報
が一部又は全部が欠落していても変換を行うことが可能
である。また、全く同一の形態素情報を持つ語が場合に
より複数の形態素情報に変換される場合でも、近接する
語の情報を基に複数のパターンに分岐させることが可能
である。
【図面の簡単な説明】
【図1】 本発明に係る一実施形態である形態素変換規
則生成装置100及び形態素列変換装置200の構成を
示すブロック図である。
【図2】 本発明に係る第1の変形例である形態素列変
換装置201の構成を示すブロック図である。
【図3】 本発明に係る第2の変形例である形態素変換
規則生成装置100a及び形態素列変換装置200aの
構成を示すブロック図である。
【符号の説明】
11…共通語境界検出部、 12…学習データ生成部、 13…変換規則生成部、 21…第1の体系に基づく形態素列情報メモリ、 21a…機械処理による形態素列情報メモリ、 22…第2の体系に基づく形態素列情報メモリ、 22a…人手で修正された形態素列情報メモリ、 23…処理メモリ、 24…学習データメモリ、 30…形態素変換部、 31…第1の体系に基づく形態素列情報付きテキストメ
モリ、 31a…プレーンテキストメモリ、 31b…機械処理による形態素列情報付きテキストメモ
リ、 32…第2の体系に基づく形態素列情報付きテキストメ
モリ、 32b…訂正された形態素列情報付きテキストメモリ、 40…第1の体系に基づく形態素解析部、 100…形態素変換規則生成装置、 200,201…形態素列変換装置。
フロントページの続き (72)発明者 隅田 英一郎 京都府相楽郡精華町光台二丁目2番地2 株式会社エイ・ティ・アール音声言語通信 研究所内 Fターム(参考) 5B091 AA15 CA02 CA21 CC03 CC16 EA01

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 文や句の集合を対象として求めた、第1
    の体系に基づく形態素の区切り及び品詞情報を有する形
    態素列からなり、第1の記憶装置に格納された第1のデ
    ータと、これと同じ文や句を対象とするが上記第1の体
    系とは異なる第2の体系に基づく形態素の区切り及び品
    詞情報を有する形態素列からなり、第2の記憶装置に格
    納された第2のデータとに基づいて、処理対象語とその
    品詞情報、処理対象語から前後に近接する語の品詞情報
    を含むデータを変換用特徴とし、変換先の品詞情報を変
    換先のクラスとする学習データを生成する第1の生成手
    段と、 上記生成された学習データに基づいて、所定の学習方法
    を用いて、第1の体系に基づく形態素の区切り及び品詞
    情報を有する形態素列を、第2の体系に基づく形態素の
    区切り及び品詞情報を有する形態素列に変換するための
    形態素変換規則を生成する第2の生成手段とを備えたこ
    とを特徴とする形態素変換規則生成装置。
  2. 【請求項2】 上記変換用特徴は、処理対象語の部分的
    表記をさらに含むことを特徴とする請求項1記載の形態
    素変換規則生成装置。
  3. 【請求項3】 上記第1の生成手段は、上記第1と第2
    のデータで共通する語境界によりテキストをセグメント
    に分割し、分割したセグメントを処理対象語とすること
    を特徴とする請求項1又は2記載の形態素変換規則生成
    装置。
  4. 【請求項4】 上記第1の生成手段は、上記第1の体系
    に基づく形態素の区切り及び品詞情報を有する形態素列
    に代えて、所定の形態素解析装置の機械処理による形態
    素の区切り及び品詞情報を有する形態素列を用い、上記
    第2の体系に基づく形態素の区切り及び品詞情報を有す
    る形態素列に代えて、上記形態素解析装置の機械処理に
    よる形態素の区切り及び品詞情報を有する形態素列から
    人手で訂正された、形態素の区切り及び品詞情報を有す
    る形態素列を用いて、学習データを生成することを特徴
    とする1乃至3のうちのいずれか1つに記載の形態素変
    換規則生成装置。
  5. 【請求項5】 請求項1乃至4のうちのいずれか1つに
    記載の形態素変換規則生成装置により生成された形態素
    変換規則を用いて、第3の記憶装置に格納され、上記第
    3の記憶装置から入力される所定の体系に基づく形態素
    の区切り及び品詞情報を有する形態素列を、別の体系に
    基づく形態素の区切り及び品詞情報を有する形態素列に
    自動的に変換する変換手段を備えたことを特徴とする形
    態素列変換装置。
  6. 【請求項6】 上記変換手段の前段に設けられ、入力さ
    れる形態素列に基づいて上記第1の体系に基づく形態素
    解析を実行して、形態素の区切り及び品詞情報を有する
    形態素列を生成して上記変換手段に出力する解析手段を
    さらに備えたことを特徴とする請求項5記載の形態素列
    変換装置。
JP2000313504A 2000-10-13 2000-10-13 形態素変換規則生成装置及び形態素列変換装置 Pending JP2002123511A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000313504A JP2002123511A (ja) 2000-10-13 2000-10-13 形態素変換規則生成装置及び形態素列変換装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000313504A JP2002123511A (ja) 2000-10-13 2000-10-13 形態素変換規則生成装置及び形態素列変換装置

Publications (1)

Publication Number Publication Date
JP2002123511A true JP2002123511A (ja) 2002-04-26

Family

ID=18792910

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000313504A Pending JP2002123511A (ja) 2000-10-13 2000-10-13 形態素変換規則生成装置及び形態素列変換装置

Country Status (1)

Country Link
JP (1) JP2002123511A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012146059A (ja) * 2011-01-11 2012-08-02 Nippon Telegr & Teleph Corp <Ntt> 形態素列変換装置、形態素変換学習装置とそれらの方法とプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012146059A (ja) * 2011-01-11 2012-08-02 Nippon Telegr & Teleph Corp <Ntt> 形態素列変換装置、形態素変換学習装置とそれらの方法とプログラム

Similar Documents

Publication Publication Date Title
Rashel et al. Building an Indonesian rule-based part-of-speech tagger
CN104573099B (zh) 题目的搜索方法及装置
JP3971373B2 (ja) ルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳装置
US20020077806A1 (en) Method and computer system for part-of-speech tagging of incomplete sentences
MX2007013357A (es) Metodo y sistema para generar sugerencias ortograficas.
JP2007206975A (ja) 言語情報変換装置及びその方法
EP2329489A1 (en) Stochastic phoneme and accent generation using accent class
EP0403057B1 (en) Method of translating sentence including adverb phrase by using translating apparatus
US20010029443A1 (en) Machine translation system, machine translation method, and storage medium storing program for executing machine translation method
Zerrouki et al. Adapting espeak to Arabic language: Converting Arabic text to speech language using espeak
JP4018668B2 (ja) 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
Vasiu et al. Enhancing tokenization by embedding romanian language specific morphology
JP2002123511A (ja) 形態素変換規則生成装置及び形態素列変換装置
KR100202292B1 (ko) 한문어 문서 음성 변환 시스템을 위한 문서 분석기
JP6998017B2 (ja) 音声合成用データ生成装置、音声合成用データ生成方法及び音声合成システム
JP3589972B2 (ja) 音声合成装置
Walentynowicz et al. Tagger for polish computer mediated communication texts
Bosch et al. Towards Zulu corpus clean-up, lexicon development and corpus annotation by means of computational morphological analysis
KR20080028655A (ko) 품사 태깅 장치 및 태깅 방법
Nongmeikapam et al. Identification of reduplicated multiword expressions using CRF
Krishnapriya et al. Design of a POS tagger using conditional random fields for Malayalam
JP2002269084A (ja) 形態素変換規則生成装置及び形態素列変換装置
JPH0474259A (ja) 文書要約装置
JP4039205B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP6472466B2 (ja) 文体変換装置、方法、及びプログラム