JP4313967B2 - 自然言語変換システム - Google Patents

自然言語変換システム Download PDF

Info

Publication number
JP4313967B2
JP4313967B2 JP2001351637A JP2001351637A JP4313967B2 JP 4313967 B2 JP4313967 B2 JP 4313967B2 JP 2001351637 A JP2001351637 A JP 2001351637A JP 2001351637 A JP2001351637 A JP 2001351637A JP 4313967 B2 JP4313967 B2 JP 4313967B2
Authority
JP
Japan
Prior art keywords
target language
speech
language
vocabulary
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001351637A
Other languages
English (en)
Other versions
JP2002197086A (ja
Inventor
真子 田村
伸一 土井
真一郎 亀井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2001351637A priority Critical patent/JP4313967B2/ja
Publication of JP2002197086A publication Critical patent/JP2002197086A/ja
Application granted granted Critical
Publication of JP4313967B2 publication Critical patent/JP4313967B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、ある自然言語(原言語)から他の自然言語(目的言語)への変換を行う自然言語変換システムに関し、特に複数言語混じり文である原文(主として原言語によって記述された文)を訳文(目的言語によって記述された文。目的言語文とも表記する)に変換する自然言語変換システムに関する。なお、「複数言語混じり文である原文」とは、原言語による語彙と共に目的言語による語彙(目的言語語彙)を含む原文を意味する。
【0002】
【従来の技術】
従来より、複数言語混じり文である原文を目的言語文に変換する自然言語変換システムは、原文に目的言語語彙が混じっている際にも目的言語の変換結果(目的言語文)の質が落ちないようにすることを目的として採用・開発されている。
【0003】
例えば、特開平3−63764号公報では、原文に直接入力された目的言語語彙(原則として原言語による語彙で構成された原文に挿入されている目的言語語彙)に対して目的言語辞書を引き、その目的言語語彙が未登録語として扱われることを防ぐことにより、正しい目的言語文への変換を実現できるシステムが、提案されている。
【0004】
【発明が解決しようとする課題】
上記のように、従来技術では、自然言語の変換用辞書の他に目的言語辞書を備えて、原文に目的言語語彙が直接入力された際に目的言語辞書を引くことで原文中の該目的言語語彙が未登録語として扱われることを防ぎ、適切な目的言語文への変換を可能ならしめていた。
【0005】
しかし、従来技術では、原文に直接入力された目的言語語彙が、その直前または直後の原言語の語彙(機能語)と組み合わさって句をなすことが推定された場合に、その句全体から見て該目的言語語彙の実際の品詞が適切であるかどうかの判断は行われていなかった。
【0006】
例えば、日本語から英語への変換を行う自然言語変換システムにおいて、「frequentに起こる」という入力があった場合を考える。この場合に、「frequent」の英語としての品詞は形容詞であるが、「frequentに」全体は機能語の「に」の存在によって日本語としての副詞句となるので、英語の訳文においては「frequentに」を「frequently」という副詞で訳出する必要がある。しかしながら、上記の従来技術では、このような必要性に対応することができなかった。
【0007】
本発明の目的は、上述の点に鑑み、複数言語混じり文である原文を目的言語文に変換する場合において、原文中に直接入力された目的言語語彙がそれを含む句の単位といったより広範な範囲から見て目的言語文で求められる品詞であるかどうかの判断を行い、該目的言語語彙が目的言語文で求められる品詞でない場合には求められる(適正な)品詞の目的言語語彙に置き換えて目的言語文を生成することができる自然言語変換システムを提供することにある。なお、ここでいう「品詞」とは、日本語における「サ変(サ行変格活用)語幹」のような屈折形に関する種別を示す情報を含むものとする。
【0008】
【課題を解決するための手段】
本発明の自然言語変換システムは、原言語を解析して目的言語に翻訳するための情報を保持し、また原言語の機能語に対して直前もしくは直後に接続し得る語の品詞を推定するための情報を保持する翻訳辞書部と、同語源の単語の情報を含む目的言語の情報を保持する目的言語辞書部と、原言語における機能語を表す機能語情報と該機能語と共に句を構成する語の原言語における品詞を表す品詞情報との組み合わせからなる原言語句構成情報と、目的言語語彙品詞情報と、原言語句対応目的言語品詞情報との対応を格納する対訳知識ベース部と、前記翻訳辞書部の原言語部分を参照して原文を形態素に分割し、該原文に直接入力された目的言語語彙を該原文から切り出し、前記翻訳辞書部の原言語部分を用いて該目的言語語彙を含む句を認識し、該目的言語語彙と該目的言語語彙の直前または直後に存在する機能語とからなる句を抽出し、該機能語をキーとして前記翻訳辞書部を検索して該目的言語語彙の原言語における品詞を推定する原文解析部と、前記原文解析部から原文に直接入力された目的言語語彙を受け取り、前記目的言語辞書部を検索して該目的言語語彙の目的言語における品詞を取得する目的言語語彙保持部と、前記原文解析部から原文中の目的言語語彙の品詞推定結果と該機能語を受け取り、前記目的言語語彙保持部から該原文中の該目的言語語彙の該目的言語における品詞を受け取り、前記対訳知識ベース部の該品詞情報を該品詞推定結果により検索し、該機能語情報を該機能語により検索し、該目的言語語彙品詞情報を該目的言語における品詞によって検索して、該目的言語語彙の適正品詞を取得し、該適正品詞と該目的言語における品詞とを比較して、両品詞が異なる場合には該目的言語語彙の表層と該適正品詞とをキーにして前記目的言語辞書部を検索して該目的言語語彙と同語源の該適正品詞の目的言語表現を取得し、両品詞が一致する場合には該目的言語語彙を目的言語表現として、該目的言語表現を使用して訳文を生成する訳文生成部とを有することを特徴とする。
【0009】
また、本発明の自然言語変換システムは、前記対訳知識ベース部の検索結果として得られた適正品詞をキーとする前記目的言語辞書部の検索において原文中の目的言語語彙と同語源の該適正品詞の目的言語表現が得られなかった場合に、前記翻訳辞書部を検索して訳文に使用する目的言語表現を取得する前記訳文生成部を有することを特徴とする。
【0010】
また、本発明の自然言語変換システムは、前記対訳知識ベース部の検索結果として得られた適正品詞をキーとする前記目的言語辞書部の検索において原文中の目的言語語彙と同語源の該適正品詞の目的言語表現が得られなかった場合に、前記翻訳辞書部の目的語部分を検索して訳文に使用する目的言語表現を取得する前記訳文生成部を有することを特徴とする。
【0012】
本発明の記録媒体は、原言語を解析して目的言語に翻訳するための情報を記憶装置に保持し、また原言語の機能語に対して直前もしくは直後に接続し得る語の品詞を推定するための情報を記憶装置に保持する翻訳辞書部と、同語源の単語の情報を含む目的言語の情報を保持する目的言語辞書部と、原言語における機能語を表す機能語情報と該機能語と共に句を構成する語の原言語における品詞を表す品詞情報との組み合わせからなる原言語句構成情報と、目的言語語彙品詞情報と、原言語句対応目的言語品詞情報との対応を記憶装置に格納する対訳知識ベース部と、を有する自然言語変換システムを構成するコンピュータに、前記翻訳辞書部の原言語部分を参照して原文を形態素に分割し、該原文に直接入力された目的言語語彙を該原文から切り出し、前記翻訳辞書部の原言語部分を用いて該目的言語語彙を含む句を認識し、該目的言語語彙と該目的言語語彙の直前または直後に存在する機能語とからなる句を抽出し、該機能語をキーとして前記翻訳辞書部を検索して該目的言語語彙の原言語における品詞を推定する原文解析処理と、前記原文解析部から原文に直接入力された目的言語語彙を受け取り、前記目的言語辞書部を検索して該目的言語語彙の目的言語における品詞を取得する目的言語語彙保持処理と、前記原文解析部から原文中の目的言語語彙の品詞推定結果と該機能語を受け取り、前記目的言語語彙保持部から該原文中の該目的言語語彙の該目的言語における品詞を受け取り、前記対訳知識ベース部の該品詞情報を該品詞推定結果により検索し、該機能語情報を該機能語により検索し、該目的言語語彙品詞情報を該目的言語における品詞により検索して、該目的言語語彙の適正品詞を取得し、該適正品詞と該目的言語における品詞とを比較して、両品詞が異なる場合には該目的言語語彙の表層と該適正品詞とをキーにして前記目的言語辞書部を検索して該目的言語語彙と同語源の該適正品詞の目的言語表現を取得し、両品詞が一致する場合には該目的言語語彙を目的言語表現として、該目的言語表現を使用して訳文を生成する訳文生成処理とを実行させるプログラムを記録したことを特徴とする。
【0013】
また、本発明の他の記録媒体は、請求項4における記録媒体において、
前記対訳知識ベース部の検索結果として得られた適正品詞をキーとする前記目的言語辞書部の検索において原文中の目的言語語彙と同語源の該適正品詞の目的言語表現が得られなかった場合に、前記翻訳辞書部を検索して訳文に使用する目的言語表現を取得する前記訳文生成処理を前記コンピュータに実行させるプログラムを記録したことを特徴とする。
【0014】
また、本発明のその他の記録媒体は、請求項4における記録媒体において、
前記対訳知識ベース部の検索結果として得られた適正品詞をキーとする前記目的言語辞書部の検索において原文中の目的言語語彙と同語源の該適正品詞の目的言語表現が得られなかった場合に、前記翻訳辞書部の目的語部分を検索して訳文に使用する目的言語表現を取得する前記訳文生成処理を前記コンピュータに実行させるプログラムを記録したことを特徴とする。
【0017】
【発明の実施の形態】
次に、本発明について図面を参照して説明する。
【0018】
(1)第1の実施の形態
図1は、本発明の自然言語変換システムの第1の実施の形態の構成を示すブロック図である。
【0019】
本形態の自然言語変換システムは、原文解析部1と、翻訳辞書部2と、目的言語語彙保持部3と、目的言語辞書部4と、訳文生成部5と、対訳知識ベース部6とを含んで構成されている(構成要素間にはデータ線12,13,15,34,35,52,54,および56が存在する)。
【0020】
図2(a)〜(g)は、本形態の自然言語変換システムの具体的な動作を説明するための図である。
【0021】
図3は、対訳知識ベース部6の構成と具体的な内容とを示す図である。この図に示すように、対訳知識ベース部6は、原言語における「機能語と該機能語と共に句を構成する語(日本語においては一般的に「自立語」と呼ばれる)の原言語における品詞との組み合わせ」を示す原言語句構成情報60(該機能語を示す情報を機能語情報62といい、該句を構成する機能語以外の語(日本語では自立語)の品詞を示す情報を品詞情報61という)と、該句中の機能語以外の語が目的言語語彙である場合の該目的言語語彙の目的言語における品詞を示す目的言語語彙品詞情報63と、該句に対応する目的言語表現の目的言語における品詞を示す原言語句対応目的言語品詞情報64とを、対応させて格納している知識ベースである。
【0022】
図4は、本形態の自然言語変換システムの処理を示す流れ図である。この処理は、形態素単位分割ステップ401と、目的言語語彙切出しステップ402と、品詞推定ステップ403と、目的言語辞書部検索ステップ404と、目的言語品詞辞書検索結果設定ステップ405と、不存在印辞書検索結果設定ステップ406と、適正品詞取得ステップ407と、適正品詞目的言語表現取得ステップ408と、該目的言語表現使用訳文生成ステップ409とからなる。
【0023】
次に、図1〜図4を参照して、具体例を挙げながら本実施例の自然言語変換システムの動作を説明する。
【0024】
この例では、原言語が日本語で目的言語が英語である場合について説明する。しかし、他の言語対(原言語と目的言語との対)においても全く同じ構成で同じ効果を持つ自然言語変換システムを実現できることはいうまでもない。
【0025】
原文解析部1は、自然言語変換における原文(目的言語語彙を含む原文)を入力すると、以下の▲1▼〜▲4▼に示すような処理を行う。
【0026】
▲1▼ まず、原言語を目的言語に翻訳するための情報を保持する翻訳辞書部2の原言語部分をデータ線12を介して参照して形態素解析を行い、該原文を翻訳辞書部2の原言語部分を用いて形態素の単位に分割する(ステップ401)。
【0027】
▲2▼ 次に、該原文に直接入力された目的言語語彙を該原文から切り出し(ステップ402)、翻訳辞書部2の原言語部分を用いて該目的言語語彙の原言語における品詞を推定する(ステップ403)。すなわち、該目的言語語彙を機能語以外の語(日本語であれば自立語)として含む句(該目的言語語彙とそれに隣接する(直前または直後に存在する)機能語とからなる句)を抽出し、該句中の機能語の解析に基づいて該目的言語語彙の原言語における品詞(該目的言語語彙を原言語の語彙として取り扱う際の品詞)を推定する。
【0028】
▲3▼ 該原文から切り出した該目的言語語彙をデータ線13を介して目的言語語彙保持部3に送信する。
【0029】
▲4▼ また、該目的言語語彙の品詞推定結果を該原文の形態素分割結果に付与して、その解析結果(該品詞推定結果が付与された形態素分割結果)をデータ線15を介して訳文生成部5に送信する。
【0030】
図2(a)は、目的言語語彙を含む原文の例を示す図である。
【0031】
図2(b)は、原文解析部1により図2(a)の原文が形態素分割された結果を示す図である。
【0032】
図2(c)は、原文解析部1により原文(図2(a)の原文)中に直接入力された目的言語語彙として検出されたデータ(目的言語語彙▲1▼に該当するfrequent)を示す図である。
【0033】
図2(b)では、図2(a)の「地震がfrequentに起こる。」が、「地震」,「が」,「目的言語語彙▲1▼(frequent)」,「に」,「起こる」,および「。」と形態素単位に分割されている。このうち、図2(c)に示すような「frequent」が、目的言語語彙として抽出される。このデータ(目的言語語彙)は、データ線13を介して、目的言語語彙保持部3に送信される。
【0034】
図2(d)は、データ線15を介して訳文生成部5に送信されるデータ(解析結果)の例を示す図である。このデータは、図2(c)の目的言語語彙(frequent)を含む句(frequentに)の機能語に該当する「に」をキーにして翻訳辞書部2が検索され、「に」の直前に接続し得る語(該句を構成する機能語以外の語(日本語では自立語))の原言語(ここでは日本語)における品詞が推定され、該推定品詞の情報が「に」の直前に現れている目的言語語彙に付与されたものである。図2(d)の例においては、原文中の「frequent」の品詞は、助詞または形容動詞語尾の「に」の直前にあることから、名詞,サ変語幹,および形容動詞語幹のいずれかであると推定されている。
【0035】
目的言語語彙保持部3は、原文解析部1から目的言語語彙を受け取り、以下の▲1▼〜▲4▼に示す処理を行う。
【0036】
▲1▼ 原文解析部1から受け取った目的言語語彙をキーにして、データ線34を介し目的言語辞書部4(目的言語の情報を保持する辞書部)を検索する(ステップ404)。
【0037】
▲2▼ ▲1▼の検索で目的言語辞書部4に該目的言語語彙が存在した場合には、該目的言語語彙の目的言語における品詞を示す辞書検索結果を該目的言語語彙に付与する(ステップ405)。
【0038】
▲3▼ 一方、▲1▼の検索で目的言語辞書部4に該目的言語語彙が存在しなかった場合には、「存在しないという印」を示す辞書検索結果を該目的言語語彙に付与する(ステップ406)。
【0039】
▲4▼ ▲2▼または▲3▼の辞書検索結果が付与された該目的言語語彙をデータ線35を介して訳文生成部5に送信する。
【0040】
図2(e)は、図2(a)の原文中の目的言語語彙の「frequent」が目的言語辞書部4に存在する場合に、データ線35を介して訳文生成部5に送信されるデータを示す図である。ここで、「品詞:形容詞」が辞書検索結果に該当する。
【0041】
訳文生成部5は、原文解析部1から該原文の解析結果(該原文中の該目的言語語彙の品詞推定結果を含む解析結果)を受け取り、目的言語語彙保持部3から該原文中の目的言語語彙の辞書検索結果を受け取り、以下の▲1▼〜▲3▼に示す処理を行う。なお、辞書検索結果が「存在しないという印」である場合(ステップ406参照)には、以下の処理は行われず、該目的言語語彙を未登録語とする処理(従来と同様の処理)が行われる。
【0042】
▲1▼ 該品詞推定結果と該辞書検索結果とを合わせて、その合成情報に基づいてデータ線56を介して対訳知識ベース部6を検索し、該目的言語語彙を含む該句を目的言語に訳出する際の品詞(原言語句対応目的言語品詞情報64によって示される品詞)をデータ線56を介して取得する(ステップ407)。なお、このようにして取得された品詞を該目的言語語彙の「適正品詞」と呼ぶ。
【0043】
すなわち、図3に示すような対訳知識ベース部6に対して、まず原文解析部1で推定された原文中の該目的言語語彙の品詞をキーにして品詞情報61を検索する。続いて、該目的言語語彙と共に句を構成する機能語をキーにして機能語情報62を検索する。さらに、目的言語語彙保持部3で得られた原文中の目的言語語彙の目的言語における品詞をキーにして目的言語語彙品詞情報63を検索する。そして、これら全ての検索結果の組み合わせにより特定される原言語句対応目的言語品詞情報64の品詞によって、該目的言語語彙と該機能語との組み合わせ(句)に対応する目的言語表現(語または句)の品詞(適正品詞)を得る。
【0044】
▲2▼ ここで、▲1▼の検索結果の適正品詞が目的言語語彙保持部3から受けとった原文中の該目的言語語彙の実際の品詞(目的言語における品詞)と異なっている場合には、該目的言語語彙の表層と該適正品詞とをキーにして目的言語辞書部4を検索し、該目的言語語彙と同語源の語彙のうちで該適正品詞に該当する品詞の目的言語表現をデータ線54を介して取得する(ステップ408)。なお、適正品詞と実際の品詞とが同一である場合には、該目的言語語彙を「目的言語表現」として以下のステップ409の処理を行う。
【0045】
▲3▼ 最後に、原言語から目的言語への単語変換の後に、▲2▼でデータ線54を介して得た目的言語表現を原文中の元の該目的言語語彙と置き換え、原言語から目的言語への構文変換や、主語と述語との数素性の調整等を行って訳文を生成する(適正品詞の目的言語表現を使用して訳文を生成する)(ステップ409)。
【0046】
図2(d)で示すように、図2(a)の原文中の目的言語語彙の「frequent」はその直後の語彙が助詞または形容動詞語尾の「に」であることから「名詞」,「サ変語幹」,および「形容動詞語幹」のいずれかである。
【0047】
また、図2(e)で示すように、該目的言語語彙を目的言語辞書部4で辞書引きした結果(辞書検索結果)として得られた品詞は「形容詞」である。
【0048】
これらの組み合わせによって、図3に示すような対訳知識ベース部6を検索すると、該組み合わせに対応する目的言語の品詞(適正品詞)は「副詞」であることが分かる。
【0049】
すなわち、図3に示す対訳知識ベース部6の具体的な内容を参照すると、品詞情報61における「形容動詞語幹」と機能語情報62における「に」と目的言語語彙品詞情報63における「形容詞」とに対応する原言語句対応目的言語品詞情報64は「副詞」であることが分かる(図3中の◎を付したエントリを参照のこと)。
【0050】
そこで、訳文生成部5は、原言語から目的言語への単語変換の後に、データ線54を介して目的言語辞書部4を検索し、「frequent」と同語源の「frequently」という副詞を得て、これを元の「frequent」と置き換えて、原言語から目的言語への構文変換や主語と述語との数素性の調整等を行って訳文の生成を完成させる。
【0051】
図2(f)は、図2(a)の原文の自立語部分を目的言語の単語(語彙)に変換した直後のデータを示す図である。
【0052】
図2(f)において、鍵括弧『』は、その中の語彙が未確定であることを示しており、該語彙をその直後の丸括弧()内の品詞(適正品詞)の語彙(目的言語表現)に置き換えることを指示するという意味を持つ。
【0053】
図2(g)は、未確定であった「frequent」を副詞形の「frequently」に置き換え、さらに構文変換や主語と述語との数素性の調整等を行って完成させた訳文を示す図である。
【0054】
このように、本発明によると、原文中に目的言語語彙が現れた場合に、その目的言語語彙を含む句全体から目的言語文で生成すべき該目的言語語彙の品詞が推定されるので、従来技術の自然言語変換システム(複数言語混じり文である原文から目的言語文への言語変換を行う自然言語変換システム)に比べて翻訳結果(訳文)の質が向上する。
【0055】
(2) 第2の実施の形態
図1は、本発明の自然言語変換システムの第2の実施の形態の構成を示すブロック図でもある。このように、第2の実施の形態も第1の実施の形態と同様の構成によって実現される。ただし、第2の実施の形態の自然言語変換システムにおける訳文生成部5は、対訳知識ベース部6の検索結果として得られた適正品詞をキーとする目的言語辞書部4の検索において原文中の目的言語語彙と同語源の該適正品詞の目的言語表現が得られなかった場合に、翻訳辞書部2を検索して訳文に使用する目的言語表現を取得する。
【0056】
図5(a)〜(g)および図6は、本形態の自然言語変換システムの具体的な動作を説明するための図である。
【0057】
次に、以上のような特徴を有する第2の実施の形態の自然言語変換システムの動作(主として本形態に特有の動作)について説明する。
【0058】
ここでは、訳文生成部5が対訳知識ベース部6の検索結果として得られた適正品詞をキーとして目的言語辞書部4を検索した結果、原文中の目的言語語彙と同語源の該適正品詞の語彙(目的言語表現)が得られなかった場合の動作について、具体例を挙げて説明する。
【0059】
例えば、図5(a)のような「空港にaccessする。」という原文の入力があった場合には、図2に示す例に対する処理と同様に、原文解析部1によって、図5(b)で示すように「空港」,「に」,「目的言語語彙▲1▼(access)」,「する」,および「。」に形態素分割され、図5(c)で示すように「access」が目的言語語彙として切り出される。
【0060】
原文解析部1は、図5(d)で示すように、図5(a)の原文を解析する。この場合には、目的言語語彙「access」の品詞としてはその直後の機能語「する」から「サ変語幹」であることが推定され、このデータ(目的言語語彙「access」の品詞推定結果「サ変語幹」)は訳文生成部5に送信される。
【0061】
一方、図5(e)で示すように、目的言語語彙保持部3による目的言語辞書部4の検索によって、目的言語語彙「access」の目的言語としての品詞は名詞であることが分かり、そのデータ(辞書検索結果)は訳文生成部5に送信される。
【0062】
訳文生成部5は、目的言語語彙「access」の品詞推定結果である「サ変語幹」と、該目的言語語彙の直後の機能語の「する」と、目的言語語彙保持部3で得られた「access」の辞書検索結果の「名詞」との組み合わせをキーにして、対訳知識ベース部6を検索する。そして、その検索結果として、対訳知識ベース部6内の原言語句対応目的言語品詞情報64から「access」を動詞句として訳出すべきというデータ(適正品詞が「動詞」であること)を得る(図3中の○を付したエントリを参照のこと)。
【0063】
図5(f)は、図5(a)の原文の自立語部分を目的言語の単語(語彙)に変換したデータを示す図である。図5(f)中の鍵括弧『』は、図2に示す例と同様に、その中の語彙が未確定であることを表し、該語彙をその直後の丸括弧()内の品詞(適正品詞)の語彙(目的言語表現)に置き換えることを指示している。
【0064】
そこで、訳文生成部5は、「access」の動詞形を得るために、目的言語辞書部4を検索する。このとき、「access」と同語源の動詞の語彙が目的言語辞書部4からは得られなかったとする。この場合に、訳文生成部5はデータ線52を介して翻訳辞書部2を検索する。
【0065】
この例の場合には、訳文生成部5は、名詞の「access」を翻訳辞書部2の目的言語部分で検索し、次に、それに繋がっている原言語見出しのうち品詞がサ変語幹のものを検索する。さらに、該原言語見出しに繋がっている目的言語のうち動詞句である「get access」を検出し、その動詞句を適正品詞の目的言語表現として、図5(g)に示すような訳文を生成する。
【0066】
図6は、翻訳辞書部2の論理的構造の一例を示す図である。
【0067】
図6で、矢印は訳文生成部5の検索の過程を辿っていることを表す。また、「*」は任意の文字列を示しており、この場合には、品詞がサ変語幹である任意の見出しという意味で用いられている。
【0068】
このように、本発明によると、原文中で目的言語語彙として検出された語彙に対して、適正品詞の目的言語表現が目的言語辞書部4で検出できない場合にも、翻訳辞書部2を目的言語部分から辿って検索することにより、適正品詞の目的言語表現を検出することができる。
【0069】
(3) 第3の実施の形態
図7は、本発明の自然言語変換システムの第3の実施の形態の構成を示すブロック図である。
【0070】
本形態の自然言語変換システムは、図1に示す自然言語変換システムの構成に加えて、外来語目的言語対応知識ベース部7およびデータ線17を含んで構成されている。
【0071】
図8は、外来語目的言語対応知識ベース部7の構成および具体的な内容を示す図である。
【0072】
外来語目的言語対応知識ベース部7は、原言語での目的言語を起源とする外来語とその外来語に対応する目的言語表現とを格納する知識ベースである。例えば、図8に示すように、日本語における英語起源のカタカナ語(外来語)とそれに対応する英語表現との対応を記述したもの等が該当する。
【0073】
このような外来語目的言語対応知識ベース部7には、言語Aに言語Bの読みを付与し、それを言語Bから言語Aの方向で検索できるように加工したものがある。例えば、日本語の外来語とそれに対応する英語表現とを例にとると、英語の「computer」をカタカナ読みした「コンピュータ」と「コンピューター」は、図8で示しているように、外来語目的言語対応知識ベース部7の上では、「コンピュータ」および「コンピューター」のそれぞれから「computer」が検索できるように加工してある。
【0074】
図9(a)〜(g)は、本形態の自然言語変換システムの具体的な動作を説明するための図である。
【0075】
次に、本形態の自然言語変換システムの動作(主として本形態に特有の動作)について、図7〜図9を用いて例を挙げながら具体的に説明する。
【0076】
ここでも、第1の実施の形態での説明と同様に、原言語が日本語で目的言語が英語である場合を例にとって説明する。
【0077】
図9(a)に示すような「システムをインストールする。」という原文の入力があったとする。
【0078】
原文解析部1は、第1の実施の形態について説明した場合と同様に、翻訳辞書部2をデータ線12を介して参照し該原文を形態素単位に分割する。
【0079】
原文解析部1は、この分割後の形態素解析において未登録語(翻訳辞書部2の原言語部分に存在しない語彙)を検出した場合には、その未登録語が目的言語起源の外来語(原言語表記の目的言語起源の語彙)であるか否かを何らかの基準(例えば、日本語が原文である場合にはカタカナ表記であること)によって判定する。
【0080】
さらに、原文解析部1は、その未登録語が目的言語起源の外来語であると判断すると、その未登録語を目的言語起源の外来語として切り出し、この外来語をキーとして外来語目的言語対応知識ベース部7を検索し、該外来語に対応する目的言語表現を取得し、その目的言語表現で該未登録語(該外来語)を置き換える。
【0081】
その上で、原文解析部1は、該目的言語表現を目的言語語彙として、第1の実施の形態で説明したと同様に、該原文の解析を行う。
【0082】
図9に示す例では、原文解析部1は、図9(a)の原文中の「インストール」が翻訳辞書部2に見出しとして登録されていなかった場合に、「インストール」がカタカナ表記であることから「インストール」を目的言語起源の外来語(原言語表記の目的言語起源の語彙)として切り出し、これをキーとして外来語目的言語対応知識ベース部7を検索し、「インストール」に対応する目的言語表現として「install」を得て、図9(a)の原文中の「インストール」を「install」に置き換える。
【0083】
したがって、原文解析部1による形態素分割の分割結果は、図9(b)で示しているような結果となる。
【0084】
後は、第1の実施の形態における処理と同様に、図9(c)で示すように「install」が目的言語語彙として切り出され、図9(d)に示すように該目的言語語彙の品詞が推定される。
【0085】
目的言語語彙保持部3および訳文生成部5は、第1の実施の形態で説明したと同様の処理を行う。
【0086】
すなわち、図9の例では、目的言語語彙保持部3は、原文解析部1から図9(c)のデータをデータ線13を介して受け取り、目的言語辞書部4を検索して図9(e)の辞書検索結果を得る。
【0087】
また、訳文生成部5は、原文解析部1から図9(d)のデータを受け取り、目的言語語彙保持部3から図9(e)のデータを受け取り、両データを基にして対訳知識ベース部6を検索して、「installする」を動詞句として訳出すべきというデータを得て、図9(f)に示すように原文中の自立語部分を目的言語の単語に変換する。
【0088】
さらに、訳文生成部5は、該原文中の目的言語語彙である「install」が図9(e)で示すように動詞であるので、構文変換等を行って図9(g)に示すような訳文を生成する。
【0089】
このように、本発明によると、原文中に原言語で表記された目的言語起源の未登録語が入力された場合にも、原言語表記の目的言語起源の語彙に対応する目的言語表現を格納した外来語目的言語対応知識ベース部7を参照して、該未登録語と対応する目的言語表現を得て、原文中に直接入力された目的言語語彙と同様に該未登録語(該目的言語表現に置き換えられた未登録語)を扱うことができる。
【0090】
【実施例】
次に、本発明の自然言語変換システムを実施する際の具体的なコンピュータシステムのハードウェア構成の例について説明する。
【0091】
(1)第1の実施例
第1の実施例として、先に述べた本発明の第1の実施の形態および第2の実施の形態に対応する実施例について説明する。
【0092】
図10は、上述した第1の実施の形態および第2の実施の形態の自然言語変換システムを実施する際の具体的なコンピュータシステムのハードウェア構成の一例を示すブロック図である。
【0093】
このコンピュータシステムは、CPU(Central Processing Unit)101と、メモリ102と、自然言語変換メモリ103と、入力装置104と、翻訳辞書部105と、目的言語辞書部106と、対訳知識ベース部107と、表示装置108とを含んで構成されている。また、各構成要素は、CPU101によって制御されるバス109に接続されている。
【0094】
入力装置104は、キーボードやマウス等の装置で実現される。この入力装置104による入力は、図1における原文解析部1に対して外部から流入している矢線に対応している。
【0095】
表示装置108は、CRT(Cathode Ray Tube)ディスプレイ等の装置で実現される。この表示装置108による出力(表示)は、図1における訳文生成部5から外部に流出している矢線に対応している。
【0096】
翻訳辞書部105,目的言語辞書部106,および対訳知識ベース部107は、それぞれ、図1中の翻訳辞書部2,目的言語辞書部4,および対訳知識ベース部6に対応している。これらの各部の内容は、磁気ディスク装置等に格納されている。
【0097】
メモリ102は、オペレーティング・システム等のシステムプログラムを格納すると共に、ワークエリアとしても使用される。
【0098】
自然言語変換メモリ103は、本コンピュータシステムを本発明の自然言語変換システムとして機能させるためのプログラムを記憶するメモリであり、フロッピィディスク媒体やRAM(Random Access Memory)カードや磁気ディスク装置等で構成されている。
【0099】
この自然言語変換メモリ103には、図1中の原文解析部1,目的言語語彙保持部3,および訳文生成部5に相当する機能を果たすプログラムが、CPU101によって読取り可能なコードとして記憶されている。
【0100】
CPU101は、このようなプログラムをバス109を介して読み取り、先に説明した図1中の原文解析部1,目的言語語彙保持部3,および訳文生成部5による所定の処理を実行する。
【0101】
(2) 第2の実施例
第2の実施例として、先に述べた本発明の第3の実施の形態に対応する実施例について説明する。
【0102】
図11は、上述した第3の実施の形態の自然言語変換システムを実施する際の具体的なコンピュータシステムのハードウェア構成の一例を示すブロック図である。
【0103】
このコンピュータシステムは、CPU101と、メモリ102と、自然言語変換メモリ103と、入力装置104と、翻訳辞書部105と、目的言語辞書部106と、対訳知識ベース部107と、表示装置108と、外来語目的言語対応知識ベース部110とを含んで構成されている。また、各構成要素は、CPU101によって制御されるバス109に接続されている。
【0104】
入力装置104は、キーボードやマウス等の装置で実現される。この入力装置104による入力は、図7における原文解析部1に対して外部から流入している矢線に対応している。
【0105】
表示装置108は、CRTディスプレイ等の装置で実現される。この表示装置108による出力(表示)は、図7における訳文生成部5から外部に流出している矢線に対応している。
【0106】
翻訳辞書部105,目的言語辞書部106,対訳知識ベース部107,および外来語目的言語対応知識ベース部110は、それぞれ、図7中の翻訳辞書部2,目的言語辞書部4,対訳知識ベース部6,および外来語目的言語対応知識ベース部7に対応している。これらの各部の内容は、磁気ディスク装置等に格納されている。
【0107】
メモリ102は、オペレーティング・システム等のシステムプログラムを格納すると共に、ワークエリアとしても使用される。
【0108】
自然言語変換メモリ103は、本コンピュータシステムを本発明の自然言語変換システムとして機能させるためのプログラムを記憶するメモリであり、フロッピィディスク媒体やRAMカードや磁気ディスク装置等で構成されている。
【0109】
この自然言語変換メモリ103には、図7中の原文解析部1,目的言語語彙保持部3,および訳文生成部5に相当する機能を果たすプログラムが、CPU101によって読取り可能なコードとして記憶されている。
【0110】
CPU101は、このようなプログラムをバス109を介して読み取り、先に説明した図7中の原文解析部1,目的言語語彙保持部3,および訳文生成部5による所定の処理を実行する。
【0111】
【発明の効果】
以上説明したように、本発明の自然言語変換システムは、対訳知識ベース部を備え、原文に直接入力された目的言語語彙が出現する場合に該目的言語語彙とそれに隣接する原言語の機能語との組み合わせ(句)といったより広範な単位を考慮して変換を行うことにより、該目的言語語彙が最終の目的言語文において期待される品詞と異なっている場合にも、該目的言語語彙を求められる(適正な)品詞に変換して訳文を生成することができ、複数言語混じり文である原文の目的言語文への変換結果の質を向上させることができるという効果を有する。
【0112】
また、本発明の自然言語の変換システムでは、外来語目的言語対応知識ベース部を備え、原文中に原言語表記の目的言語起源の語彙が入力された場合に、該語彙をキーにした外来語目的言語対応知識ベース部の検索によって該語彙に対応する目的言語表現を取得することにより、原文中に入力された原言語表記の目的言語起源の語彙が未登録語として扱われることを回避する可能性が高くなり、「原言語で表記された目的言語起源の語彙が翻訳辞書部の原言語見出しと登録されていない場合に正しい翻訳結果が得られない」という問題点を解決することができるという効果がある。
【図面の簡単な説明】
【図1】 本発明の自然言語変換システムの第1または第2の実施の形態の構成を示すブロック図である。
【図2】 本発明の自然言語変換システムの第1の実施の形態の動作を説明するための図である。
【図3】 図1中の対訳知識ベース部の構成および具体的な内容を示す図である。
【図4】 本発明の自然言語変換システムの第1の実施の形態の処理を示す流れ図である。
【図5】 本発明の自然言語変換システムの第2の実施の形態の動作を説明するための図である。
【図6】 本発明の自然言語変換システムの第2の実施の形態の動作を説明するための図である。
【図7】 本発明の自然言語変換システムの第3の実施の形態の構成を示すブロック図である。
【図8】 本発明の自然言語変換システムの第3の実施の形態の動作を説明するための図である。
【図9】 本発明の自然言語変換システムの第3の実施の形態の動作を説明するための図である。
【図10】 本発明の自然言語変換システムの第1の実施例を説明するためのブロック図である。
【図11】 本発明の自然言語変換システムの第2の実施例を説明するためのブロック図である。
【符号の説明】
1 原文解析部
2 翻訳辞書部
3 目的言語語彙保持部
4 目的言語辞書部
5 訳文生成部
6 対訳知識ベース部
7 外来語目的言語対応知識ベース部
12,13,15,17,34,35,52,54,56 データ線
60 原言語句構成情報
61 品詞情報
62 機能語情報
63 目的言語語彙品詞情報
64 原言語句対応目的言語品詞情報
101 CPU
102 メモリ
103 自然言語変換メモリ
104 入力装置
105 翻訳辞書部
106 目的言語辞書部
107 対訳知識ベース部
108 表示装置
109 バス
110 外来語目的言語対応知識ベース部

Claims (3)

  1. 原言語を解析して目的言語に翻訳するための情報を保持し、また原言語の機能語に対して直前もしくは直後に接続し得る語の品詞を推定するための情報を保持する翻訳辞書部と、同語源の単語の情報を含む目的言語の情報を保持する目的言語辞書部と、
    原言語における機能語を表す機能語情報と該機能語と共に句を構成する語の原言語における品詞を表す品詞情報との組み合わせからなる原言語句構成情報と、目的言語語彙品詞情報と、原言語句対応目的言語品詞情報との対応を格納する対訳知識ベース部と、
    前記翻訳辞書部の原言語部分を参照して原文を形態素に分割し、該原文に直接入力された目的言語語彙を該原文から切り出し、前記翻訳辞書部の原言語部分を用いて該目的言語語彙を含む句を認識し、該目的言語語彙と該目的言語語彙の直前または直後に存在する機能語とからなる句を抽出し、該機能語をキーとして前記翻訳辞書部を検索して該目的言語語彙の原言語における品詞を推定する原文解析部と、
    前記原文解析部から原文に直接入力された目的言語語彙を受け取り、前記目的言語辞書部を検索して該目的言語語彙の目的言語における品詞を取得する目的言語語彙保持部と、前記原文解析部から原文中の目的言語語彙の品詞推定結果と該機能語を受け取り、前記目的言語語彙保持部から該原文中の該目的言語語彙の該目的言語における品詞を受け取り、前記対訳知識ベース部の該品詞情報を該品詞推定結果により検索し、該機能語情報を該機能語により検索し、該目的言語語彙品詞情報を該目的言語における品詞により検索して、該目的言語語彙の適正品詞を取得し、該適正品詞と該目的言語における品詞とを比較して、両品詞が異なる場合には該目的言語語彙の表層と該適正品詞とをキーにして前記目的言語辞書部を検索して該目的言語語彙と同語源の該適正品詞の目的言語表現を取得し、両品詞が一致する場合には該目的言語語彙を目的言語表現として、該目的言語表現を使用して訳文を生成する訳文生成部とを有することを特徴とする自然言語変換システム。
  2. 前記対訳知識ベース部の検索結果として得られた適正品詞をキーとする前記目的言語辞書部の検索において原文中の目的言語語彙と同語源の該適正品詞の目的言語表現が得られなかった場合に、前記翻訳辞書部を検索して訳文に使用する目的言語表現を取得する前記訳文生成部を有することを特徴とする請求項1記載の自然言語変換システム。
  3. 前記対訳知識ベース部の検索結果として得られた適正品詞をキーとする前記目的言語辞書部の検索において原文中の目的言語語彙と同語源の該適正品詞の目的言語表現が得られなかった場合に、前記翻訳辞書部の目的語部分を検索して訳文に使用する目的言語表現を取得する前記訳文生成部を有することを特徴とする請求項1記載の自然言語変換システム。
JP2001351637A 2001-11-16 2001-11-16 自然言語変換システム Expired - Fee Related JP4313967B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001351637A JP4313967B2 (ja) 2001-11-16 2001-11-16 自然言語変換システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001351637A JP4313967B2 (ja) 2001-11-16 2001-11-16 自然言語変換システム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP23595496A Division JP3267168B2 (ja) 1996-08-19 1996-08-19 自然言語変換システム

Publications (2)

Publication Number Publication Date
JP2002197086A JP2002197086A (ja) 2002-07-12
JP4313967B2 true JP4313967B2 (ja) 2009-08-12

Family

ID=19163922

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001351637A Expired - Fee Related JP4313967B2 (ja) 2001-11-16 2001-11-16 自然言語変換システム

Country Status (1)

Country Link
JP (1) JP4313967B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102214562B1 (ko) * 2020-06-29 2021-02-08 이강희 온라인 커뮤니케이션 공간에서 글로벌 소통을 위한 번역 시스템

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7502731B2 (en) * 2003-08-11 2009-03-10 Sony Corporation System and method for performing speech recognition by utilizing a multi-language dictionary

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102214562B1 (ko) * 2020-06-29 2021-02-08 이강희 온라인 커뮤니케이션 공간에서 글로벌 소통을 위한 번역 시스템

Also Published As

Publication number Publication date
JP2002197086A (ja) 2002-07-12

Similar Documents

Publication Publication Date Title
JP4237001B2 (ja) 文書のコロケーション誤りを自動的に検出するシステムおよび方法
JP3906356B2 (ja) 構文解析方法及び装置
JP3973549B2 (ja) 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体
US6289302B1 (en) Chinese generation apparatus for machine translation to convert a dependency structure of a Chinese sentence into a Chinese sentence
Ratnaparkhi Statistical models for unsupervised prepositional phrase attachment
US8655641B2 (en) Machine translation apparatus and non-transitory computer readable medium
JP2005507525A (ja) 機械翻訳
JP2005507524A (ja) 機械翻訳
JP2011209941A (ja) 文書校正支援装置、方法およびプログラム
JP5107556B2 (ja) 改善された中国語−英語翻訳ツール
JP4313967B2 (ja) 自然言語変換システム
JP3267168B2 (ja) 自然言語変換システム
JP4708682B2 (ja) 対訳単語対の学習方法、装置、及び、対訳単語対の学習プログラムを記録した記録媒体
JPS62191967A (ja) 文脈処理装置
JP2719453B2 (ja) 機械翻訳装置
JP3680489B2 (ja) 機械翻訳装置および機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2715875B2 (ja) 多言語要約生成装置
JP2994539B2 (ja) 機械翻訳装置
JP3313810B2 (ja) アスペクト処理装置
JP2947554B2 (ja) 機械翻訳装置
JP2901977B2 (ja) 翻訳装置
JP2001222529A (ja) 機械翻訳システム及びプログラムを記録した機械読み取り可能な記録媒体
JP4023384B2 (ja) 自然言語翻訳方法及び装置及び自然言語翻訳プログラム
JP2608384B2 (ja) 機械翻訳装置及びその方法
JP2005018350A (ja) 翻訳処理システム、翻訳処理方法及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040511

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040705

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050301

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20050331

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050407

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050413

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20050603

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20070117

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20080604

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090401

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090518

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120522

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120522

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130522

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140522

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees