JP2010122982A - 言語解析システム、言語解析方法、プログラム及び機械翻訳システム、言語解析方法、プログラム - Google Patents

言語解析システム、言語解析方法、プログラム及び機械翻訳システム、言語解析方法、プログラム Download PDF

Info

Publication number
JP2010122982A
JP2010122982A JP2008297084A JP2008297084A JP2010122982A JP 2010122982 A JP2010122982 A JP 2010122982A JP 2008297084 A JP2008297084 A JP 2008297084A JP 2008297084 A JP2008297084 A JP 2008297084A JP 2010122982 A JP2010122982 A JP 2010122982A
Authority
JP
Japan
Prior art keywords
corpus
translation
dependency information
case frame
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008297084A
Other languages
English (en)
Other versions
JP5453779B2 (ja
Inventor
Seiya Osada
誠也 長田
Kiyoshi Yamahata
潔 山端
Kaneyasu Jo
金安 徐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008297084A priority Critical patent/JP5453779B2/ja
Publication of JP2010122982A publication Critical patent/JP2010122982A/ja
Application granted granted Critical
Publication of JP5453779B2 publication Critical patent/JP5453779B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】格フレーム情報を取得したいドメインのコーパスが少量しか存在しなくても、その目的のドメインに適した格フレーム情報を取得可能とし、そのドメインに対する解析精度を向上させる。
【解決手段】目的のドメインの少量のコーパスと目的のドメインとは異なるドメインの大量のコーパスの係り受け情報を作成し、この複数のドメインのコーパスから取得した係り受け情報を使って補語をクラスタリングし、このクラスタリングした係り受け情報の目的ドメインの情報のみを使って格フレームの選択制約を作成し、この選択制約に基づいて解析する。
【選択図】図1

Description

本発明は、言語解析システム、言語解析方法、プログラム及びこれらを応用した機械翻訳技術に関し、より具体的には、コーパスを分析した結果に基づき、格フレームの選択制約を作成する言語解析システム、格フレームの選択制約の作成方法、これを含んだ言語解析方法、プログラム及びこれらを応用した機械翻訳技術に関する。
言語解析システム用の辞書は格フレーム情報を持っており、この情報は意味選択などに使用されている。しかしこの格フレーム情報は、旅行会話向け、ビジネス会話向け、病院向けといったドメインによって異なるため、ドメインが異なるとこの格フレーム情報を変更する必要がある。
例えば、「骨が折れる」という文が入力されたときに、この文だけからでは文字通りに「骨折する」という意であるのか、「苦労する」という意の慣用句であるがわからないが、ドメインがわかるとどっちの意味なのか類推できる可能性がある。例えば、病院での会話であれば「骨折する」の意味になることが多そうなことが類推できるので、「骨折する」の意味になるように格フレーム情報を変更する必要がある。
このような情報を作る技術として、非特許文献1に示されるように、コーパスから自動的に獲得する技術がある。
ただし、このような技術を使うためには目的のドメインに対して大量のコーパスを用意する必要があるため、少量のコーパスしか用意できないドメインへの適用は難しい。
この課題を解決するために、非特許文献2に示されるように、目的のドメインの少量のコーパスと、目的のドメインとは異なるが大量のコーパスを混合して使用することで、少量のコーパスにも適応させる技術がある。
その他、特許文献1に、辞書から入力された述語の格フレーム候補を抽出し、ユーザの対話により、格フレームの選択、格要素の補充、格要素の修飾句の補充を受けて所望の訳文を生成する機械翻訳装置が記載されている。
特開平11−66071号公報 河原大輔、黒橋禎夫、「格フレーム辞書の漸次的自動構築」、自然言語処理、Vol.12、No.2、pp.109−131、2005. 広瀬啓吉、峯松信明、森谷高明、「単語間の関連性を利用した音声認識用言語モデルのドメイン適応」、情報処理学会論文誌、Vol.43、No.7、pp.2065−2074
格フレーム情報を取得したい目的のドメインのコーパスが少量しか存在しない場合に、非特許文献1のような方法ではデータスパースネスの問題に陥ってしまうために十分な選択制約を持つ格フレーム情報を取得できないという問題点がある。
また、コーパスの不足を補うために非特許文献2の方法を用いることが考えられるが、目的のドメイン以外の大量のコーパスを単純に混ぜるだけでは、コーパスの混合率によって結果が変わってしまうという問題点がある。また、仮に最適な混合率を決めたとしても、すべての単語でうまくいくわけではないという問題点もある。その理由は、コーパスに出現する頻度は単語ごとに異なるので、コーパス全体で決まった割合で混合したとしても、うまくいく単語とうまくいかない単語が出現してしまうためである。
本発明は、上記した事情に鑑みてなされたものであって、その目的とするところは、格フレーム情報を取得したい目的のドメインのコーパスの量に拘らず、精度の良い言語解析を行うことのできる言語解析システムを提案することにある。
本発明の第1の視点によれば、格フレーム情報を取得する目的ドメインのコーパスと、その他のドメインのコーパスと、から係り受け情報を取得する係り受け情報取得手段と、前記取得した係り受け情報に含まれる補語をクラスタリングするクラスタリング手段と、前記補語をクラスタリングした結果から、前記目的ドメインのコーパスから取得された係り受け情報を抽出する目的ドメイン抽出手段と、前記抽出した係り受け情報から格フレームの選択制約を作成する選択制約作成手段と、を備えた言語解析システムが提供される。
本発明の第2の視点によれば、格フレーム情報を取得する目的ドメインのコーパスと、その他のドメインのコーパスと、から係り受け情報を取得し、前記取得した係り受け情報に含まれる補語をクラスタリングし、前記補語をクラスタリングした結果から、前記目的ドメインのコーパスから取得された係り受け情報を抽出し、前記抽出した係り受け情報から格フレームの選択制約を作成する格フレームの選択制約の作成方法が提供される。
本発明の第3の視点によれば、格フレーム情報を取得する目的ドメインのコーパスと、その他のドメインのコーパスと、から係り受け情報を取得する処理と、前記取得した係り受け情報に含まれる補語をクラスタリングする処理と、前記補語をクラスタリングした結果から、前記目的ドメインのコーパスから取得された係り受け情報を抽出する処理と、前記抽出した係り受け情報から格フレームの選択制約を作成する処理と、をコンピュータに実行させるプログラムが提供される。
本発明によれば、格フレーム情報を取得したい目的のドメインのコーパスが少ない場合であっても、精度の良い言語解析を行うことが可能となる。その理由は、目的ドメインのコーパスを含む複数のコーパスから取得した係り受け情報に含まれる補語をクラスタリングし、その結果から、目的ドメインの係り受け情報のみを使って、格フレームの選択制約を作成するようにしたことにある。
[発明の概要]
始めに、本発明の概要について説明する。本発明に係る言語解析システムは、格フレーム情報を取得する目的ドメインのコーパス(図1の31)と、その他のドメインのコーパス(図1の32)と、から係り受け情報を取得し(図1の21)、前記取得した係り受け情報に含まれる補語をクラスタリングし(図1の23)、前記補語をクラスタリングした結果から、前記目的ドメインのコーパスから取得された係り受け情報を抽出し(図1の24)、前記抽出した係り受け情報から格フレームの選択制約を作成する(図1の25)。
前記作成した格フレームの選択制約は、例えば、言語解析手段(図1の28)における入力文の言語解析処理に利用される。
上記のように、目的ドメインのコーパスから格フレームの選択制約を作成する過程のクラスタリングの前処理としてその他ドメインのコーパスを混合するため、目的ドメインのコーパスが少量であっても、適切にクラスタリングが行われた格フレームの選択制約を得ることが可能となる。
[第1の実施形態]
続いて、本発明の好適な実施形態について図面を参照して詳細に説明する。図1は、本発明の第1の実施形態に係る言語解析システムの構成を表したブロック図である。図1を参照すると、キーボード等の入力装置1と、記憶装置3と、ディスプレイ等の出力装置4とに接続され、プログラム制御により動作するデータ処理装置2が示されている。
記憶装置3は、それぞれにドメインが設定された複数のコーパスを格納する。以下、便宜上、格フレーム情報を獲得しようとしている目的のドメイン(目的ドメイン)のコーパスA31と定義し、上記目的ドメインとは異なるドメインのコーパスB32と定義する。コーパスA31とコーパスB32は係り受けの正解が付与されているものとして説明する。
データ処理装置2は、係り受け情報取得手段21と、クラスタリング手段23と、目的ドメイン抽出手段24と、選択制約作成手段25と、言語解析手段28と、を備える。これら各手段は、データ処理装置2を構成するコンピュータに、下記の処理を実行させるプログラムにより実現できる。
係り受け情報取得手段21は、記憶装置3から読み出したコーパスに含まれる文を言語解析して、ドメイン別に述語が持つ格フレームと補語の頻度を取得し、係り受け情報を出力する(図5参照)。
クラスタリング手段23は、係り受け情報を使って補語をクラスタリングし、その結果を出力する。
目的ドメイン抽出手段24は、前記クラスタリングを行った係り受け情報に付与されているドメインを使って、目的ドメインの係り受け情報を抽出する。
選択制約作成手段25は、前記抽出した係り受け情報から格フレームの選択制約を作成する。
言語解析手段28は、選択制約作成手段25で作成された格フレームの選択制約に基づいて、入力装置1で入力された文を解析し、その結果を出力装置4に出力する。
続いて、本実施形態の動作について図面を参照して詳細に説明する。図2は、本発明の第1の実施形態に係る言語解析システムの動作を表したフローチャートである。図2を参照すると、まず、係り受け情報取得手段21が、コーパスA31及びコーパスB32から、各ドメインの係り受け情報として、述語が持つ格フレームと補語のペアの頻度を取得する(図2のステップA1)。
次に、クラスタリング手段23は、係り受け情報取得手段21で取得されたコーパスA31及びコーパスB32の係り受け情報の補語をクラスタリングする(図2のステップA2)。
目的ドメイン抽出手段24は、クラスタリング手段23によってクラスタリングされた係り受け情報から、目的のドメインの係り受け情報を抽出する(図2のステップA3)。
選択制約作成手段25は、目的ドメインのクラスタリングされた係り受け情報から、格フレームの選択制約を作成する(図2のステップA4)。
言語解析手段28は、格フレームの選択制約を使って入力された文を解析し、解析結果を出力する(図2ステップA5)。
以上のように、本実施形態では、目的ドメインのみの少量コーパスだけを使用せず、他のドメインだけれども大量のコーパスを使用することとしているため、データスパースネスの問題は発生しない。特に、前記大量コーパスはクラスタリングのみに使用して、選択制約を作成する部分は目的のドメインの情報で作成しているために、選択制約がコーパスの混合による悪影響を受けにくくなり、冒頭に述べたコーパスの混合率による影響も排除される。これらの結果、本実施形態の言語解析手段28では、精度よい解析結果が得られることになる。
なお、上記した実施形態では、本発明の効果がより大きく表れる、コーパスA31の量が少なく、コーパスB32の量が多い状態を想定して説明したが、本発明の原理から明らかなとおり、2つのコーパスの量は同等でも構わないし、コーパスA31の方が多くても構わない。
[第1の実施形態の具体例]
次に、具体的なサンプルを用いて本実施形態の具体例を説明する。
以下、コーパスA31、コーパスB32には、図3のようなフォーマットを持つ係り受けの正解(図3の括弧書き部分)が与えられており、更にそれぞれの格フレームは図4のような格パターン情報を持っているものとして説明する。
係り受け情報取得手段21は、図3、図4の正解データと格パターン情報から、述語とその格フレーム番号毎に補語とのペアの頻度を数えることで、図5のような係り受け情報を取得したものとして説明する。以下の説明では、目的ドメインのコーパスA31は、動物ドメインのコーパスであり、その他のドメインのコーパスB32は、日常会話ドメインのコーパスであるものとして説明する。
クラスタリング手段23は、係り受け情報取得手段21で得られた係り受け情報を使って補語をクラスタリングする。例えば、階層的クラスタリングを使って、クラスタのベクトルをベクトルの平均で実現すると、図5の係り受け情報は、1回目の階層で「豚」と「犬」が同じクラスタになり、図6のようになる。ここで、注目すべきは、データの少ない動物ドメインのコーパスA31についても適切にクラスタリングされている点である。
目的ドメイン抽出手段24は、図6のクラスタリング済みの係り受け情報から、ドメイン列が動物ドメインの係り受け情報を抽出する。図7は、図6のクラスタリング済みの係り受け情報から、動物ドメインの係り受け情報を抽出した結果を示す図である。
選択制約作成手段25は、目的ドメイン抽出手段24で抽出した係り受け情報で格フレームの選択制約を作成する。例えば、図7のうち、頻度が高いクラスタを選択制約とすると、動物ドメインでは「食べる:動詞:1」の「ガ格」の選択制約は「豚・犬」、ヲ格の選択制約は「餌」となり、「寝る:動詞:1」の「ガ格」の選択制約は「豚・犬」となり、「走る:動詞:1」の「ガ格」の選択制約は「豚・犬」となる。
言語解析手段28は、選択制約作成手段25で作成した格フレームの選択制約に基づいて、入力文を解析する。例えば、キーボードを使って「豚は食べた」という入力文を入力すると、「食べる:動詞:1」の「ガ格」の選択制約が「豚・犬」で、「ヲ格」の選択制約が「餌」なので、入力文の「豚」は「ガ格」にはまり、「豚は食べた」という文は「豚を食べた」の意味ではなく「豚が食べた」の意味で解析される。
上記具体例を用いて、非特許文献1、2との比較考察を行う。非特許文献1の方法で、図5の動物ドメインのコーパスのみから作った係り受け情報を使った場合は、データスパースネスの問題により「走る:動詞:1」の「ガ格」に「豚」を入れるべきか否かを確定することは困難である。これに対し、本発明では、大量のコーパスと一緒にクラスタリングすることにより、「走る:動詞:1」の「ガ格」に「豚」も入れる選択制約が得られることになる。
また、非特許文献2のように単純に2つのコーパスを混合(例えば1対1で混合)すると図8のようになり、「食べる:動詞:1」の「ガ格」は「豚」が頻度5、「ヲ格」は頻度20となり、「豚」は「ヲ格」に入りやすくなってしまう。
また、混合比を1対1でなく動物ドメインの割合を高くしていくと「ガ格」の「豚」の頻度は高くなるが、この割合は単語毎に異なるのでこの割合を一意に決めることはできない。これに対し、本発明では、この割合を求める必要がないので、選択制約の作成時に混合比による影響を受けることがないという効果がある。
[第2の実施形態]
続いて、係り受け解析済みコーパスでなく、プレインテキストコーパスを用いて格フレームの制約を作成する本発明の第2の実施形態について図面を参照して詳細に説明する。
本実施形態は、上記した第1の実施形態とほぼ同一の構成で実現できるため、以下、再度図1を参照し、その相違点を説明する。
本実施形態の記憶装置3には、係り受けの正解が付与されているコーパスではなくプレインテキストコーパスが格納されている。
本実施形態の係り受け情報取得手段21は、プレインテキストコーパスに含まれるテキストの言語解析を行い、その後に、上記した第1の実施形態と同様に、ドメイン別に述語が持つ格フレームと補語の頻度を取得する。
例えば、上記プレインテキストコーパスに含まれるテキストの言語解析の具体例としては、日英機械翻訳エンジンの日本語解析部分を使って係り受け情報を取得する方法が考えられる。
以上のように、本発明は、コーパスが係り受けの正解が付与されているコーパスではない場合にも適用可能であり、上記した第1の実施形態と同様に、少量のコーパスしか持たないドメインの格フレームの選択制約を取得することが可能である。
[第3の実施形態]
続いて、本発明を機械翻訳装置に適用した第3の実施形態について図面を参照して詳細に説明する。本実施形態も、上記した第1、第2の実施形態と構成をほぼ共通にするため、その相違点を中心に説明する。
図9は、本発明の第3の実施形態に係る機械翻訳システムの構成を表したブロック図である。図9を参照すると、キーボード等の入力装置1と、記憶装置3と、ディスプレイ等の出力装置4とに接続され、プログラム制御により動作するデータ処理装置2が示されている。
本発明の第3の実施形態のデータ処理装置2は、第1の実施の形態の係り受け情報取得手段21の代わりに訳語付き係り受け情報取得手段22と、言語解析手段28の代わりに機械翻訳手段29とを備えている。
機械翻訳手段29は、選択制約作成手段25で作成された格フレームの選択制約を使って、機械翻訳する。
なお、第3の実施形態のコーパスには訳語が付いており、訳語付き係り受け情報取得手段22では、述語(訳語)とその格フレーム番号毎に補語とのペアの頻度を数えた図10のような係り受け情報を取得する。
上記のように訳語が付された本発明の第3の実施形態では、係り受け情報の述語と補語に訳語が付いていることで、選択制約作成手段25で格フレームの選択制約を作成するのと同時に訳語の選択制約を作成することが可能になる。この選択制約は、機械翻訳手段29による機械翻訳にも利用される。
[第3の実施形態の具体例]
次に、具体的なサンプルを用いて本実施形態の具体例を説明する。
以下、コーパスA31、コーパスB32には、図10のようなフォーマットを持つ訳語付き係り受けの正解(図10の括弧書き部分)が与えられているものとして説明する。
訳語付き係り受け情報取得手段22は、図10、図4の正解データと格パターン情報から、述語(訳語)とその格フレーム番号毎に補語とのペアの頻度を数えることで、図11のような訳語付き係り受け情報を取得したものとして説明する。以下の説明では、目的ドメインのコーパスA31は、病院ドメインのコーパスであり、その他のドメインのコーパスB32は、日常会話ドメインのコーパスであるものとして説明する。
第1の実施形態と同様に、クラスタリング手段23がクラスタリングを行うと、図12のようになる。
この結果から、更に、目的ドメイン抽出手段24が病院ドメインのみの係り受け情報を抽出すると図13のような訳語付きの係り受け情報が得られる。
選択制約作成手段25は、訳語が異なるが同じ格パターンを持つ係り受け情報があるときは、頻度が高いものを選択制約とする。
機械翻訳手段29は選択制約作成手段25で作成した格フレームの選択制約に基づいて、入力文を翻訳する。
例えばキーボードを使って「骨を折った」という入力文を入力すると、「骨」を「折る」のパターンで頻度が高い係り受け情報は、図13の選択制約から、「折る(break):1」と「骨(bone)・棒(stick)」であることがわかるので、機械翻訳手段29は「break」と「bone」を使って、例えば ”My bone was broken.”という翻訳結果を出力する。
これにより「骨を折った」という文が「苦労した」という意味ではなく「骨折した」という意味で翻訳される。
以上、本発明の好適な実施形態及びその具体例を説明したが、本発明は、上記した実施形態やその具体例に限定されるものではなく、本発明の基本的技術的思想を逸脱しない範囲で、更なる変形・置換・調整を加えることができる。例えば、上記した実施形態では、データ処理装置2に言語解析手段や機会翻訳手段が備えられているものとして説明したが、データ処理装置2が、言語解析手段や機会翻訳手段を備える他の情報処理装置に、各フレームの選択制約を提供する構成とすることも可能である。
本発明の第1の実施形態に係る言語解析システムの構成を表したブロック図である。 本発明の第1の実施形態に係る言語解析システムの動作を表したフローチャートである。 正解情報が与えられたコーパスの例である。 格パターン情報の例である。 本発明の第1の実施形態の具体的動作を説明するための係り受け情報のサンプルである。 図3の係り受け情報の補語をクラスタリングした結果を示す図である。 図4のクラスタリング済み係り受け情報から目的ドメインの係り受け情報を抽出した結果を示す図である。 2つのコーパスを単純に混合して得られる係り受け情報の例である。 本発明の第3の実施形態に係る機械翻訳システムの構成を表したブロック図である。 訳語付き正解情報が与えられたコーパスの例である。 本発明の第3の実施形態の具体的動作を説明するための係り受け情報のサンプルである。 図11の係り受け情報の補語をクラスタリングした結果を示す図である。 図12のクラスタリング済み係り受け情報から目的ドメインの係り受け情報を抽出した結果を示す図である。
符号の説明
1 入力装置
2 データ処理装置
3 記憶装置
4 出力装置
21 係り受け情報取得手段
22 訳語付き係り受け情報取得手段
23 クラスタリング手段
24 目的ドメイン抽出手段
25 選択制約作成手段
28 言語解析手段
29 機械翻訳手段
31 コーパスA
32 コーパスB

Claims (11)

  1. 格フレーム情報を取得する目的ドメインのコーパスと、その他のドメインのコーパスと、から係り受け情報を取得する係り受け情報取得手段と、
    前記取得した係り受け情報に含まれる補語をクラスタリングするクラスタリング手段と、
    前記補語をクラスタリングした結果から、前記目的ドメインのコーパスから取得された係り受け情報を抽出する目的ドメイン抽出手段と、
    前記抽出した係り受け情報から格フレームの選択制約を作成する選択制約作成手段と、
    を備えたことを特徴とする言語解析システム。
  2. 前記選択制約作成手段で作成された格フレームの選択制約に基づいて入力文を解析する言語解析手段を備えた請求項1に記載の言語解析システム。
  3. 前記コーパスは、係り受け解析がなされていないプレインテキストコーパスであり、
    係り受け情報取得手段が、係り受け解析を行う請求項1又は2に記載の言語解析システム。
  4. 請求項1乃至3いずれか一に記載の言語解析システムを含み、
    前記係り受け情報取得手段は、格フレーム情報を取得する目的ドメインの訳語付きコーパスと、その他のドメインの訳語付きコーパスとから、訳語情報が付された訳語付き係り受け情報を取得し、
    前記選択制約作成手段は、訳語付きの格フレームの選択制約を作成し、
    前記訳語付きの格フレームの選択制約に基づいた訳語の選択を行って、翻訳する機械翻訳手段を備える機械翻訳システム。
  5. 格フレーム情報を取得する目的ドメインのコーパスと、その他のドメインのコーパスと、から係り受け情報を取得し、
    前記取得した係り受け情報に含まれる補語をクラスタリングし、
    前記補語をクラスタリングした結果から、前記目的ドメインのコーパスから取得された係り受け情報を抽出し、
    前記抽出した係り受け情報から格フレームの選択制約を作成する格フレームの選択制約の作成方法。
  6. 請求項5に記載の格フレームの選択制約の作成方法により作成された格フレームの選択制約を用いて入力文の解析を行う言語解析方法。
  7. 格フレーム情報を取得する目的ドメインの訳語付きコーパスと、その他のドメインの訳語付きコーパスと、から訳語付き係り受け情報を取得し、
    前記取得した訳語付き係り受け情報に含まれる補語をクラスタリングし、
    前記補語をクラスタリングした結果から、前記目的ドメインのコーパスから取得された訳語付き係り受け情報を抽出し、
    前記抽出した訳語付き係り受け情報から、訳語付きの格フレームの選択制約を作成し、
    前記訳語付きの格フレームの選択制約に基づいた訳語の選択を行って、翻訳を行なう機械翻訳方法。
  8. 格フレーム情報を取得する目的ドメインのコーパスと、その他のドメインのコーパスと、から係り受け情報を取得する処理と、
    前記取得した係り受け情報に含まれる補語をクラスタリングする処理と、
    前記補語をクラスタリングした結果から、前記目的ドメインのコーパスから取得された係り受け情報を抽出する処理と、
    前記抽出した係り受け情報から格フレームの選択制約を作成する処理と、をコンピュータに実行させるプログラム。
  9. 更に、前記格フレームの選択制約を用いて入力文を解析する処理を前記コンピュータに実行させる請求項8に記載のプログラム。
  10. 係り受け解析がなされていないプレインテキストコーパスの係り受け解析を行う処理を前記コンピュータに実行させる請求項8又は9に記載のプログラム。
  11. 格フレーム情報を取得する目的ドメインの訳語付きコーパスと、その他のドメインの訳語付きコーパスと、から訳語付き係り受け情報を取得する処理と、
    前記取得した訳語付き係り受け情報に含まれる補語をクラスタリングする処理と、
    前記補語をクラスタリングした結果から、前記目的ドメインのコーパスから取得された係り受け情報を抽出する処理と、
    前記目的ドメイン抽出手段で抽出した訳語付き係り受け情報から、訳語付きの格フレームの選択制約を作成する処理と、
    前記訳語付きの格フレームの選択制約に基づいた訳語の選択を行って、翻訳する処理と、をコンピュータに実行させるプログラム。
JP2008297084A 2008-11-20 2008-11-20 言語解析システム、言語解析方法、プログラム及び機械翻訳システム、言語解析方法、プログラム Active JP5453779B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008297084A JP5453779B2 (ja) 2008-11-20 2008-11-20 言語解析システム、言語解析方法、プログラム及び機械翻訳システム、言語解析方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008297084A JP5453779B2 (ja) 2008-11-20 2008-11-20 言語解析システム、言語解析方法、プログラム及び機械翻訳システム、言語解析方法、プログラム

Publications (2)

Publication Number Publication Date
JP2010122982A true JP2010122982A (ja) 2010-06-03
JP5453779B2 JP5453779B2 (ja) 2014-03-26

Family

ID=42324257

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008297084A Active JP5453779B2 (ja) 2008-11-20 2008-11-20 言語解析システム、言語解析方法、プログラム及び機械翻訳システム、言語解析方法、プログラム

Country Status (1)

Country Link
JP (1) JP5453779B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013182347A (ja) * 2012-02-29 2013-09-12 Nippon Telegr & Teleph Corp <Ntt> 助詞誤り訂正装置、方法、及びプログラム
WO2017038996A1 (ja) * 2015-09-04 2017-03-09 国立研究開発法人情報通信研究機構 単語アライメントモデル構築装置、機械翻訳装置、単語アライメントモデルの生産方法、および記録媒体

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05298349A (ja) * 1992-04-20 1993-11-12 Hitachi Ltd 共起関係知識学習方法、そのシステム、並びに共起関係辞書およびその利用方法
JPH08101837A (ja) * 1994-09-30 1996-04-16 Toshiba Corp 機械翻訳装置における翻訳規則学習方法
JPH09128394A (ja) * 1995-11-02 1997-05-16 Nec Corp 自然言語処理システム
JP2008204133A (ja) * 2007-02-20 2008-09-04 National Institute Of Information & Communication Technology 回答検索装置及びコンピュータプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05298349A (ja) * 1992-04-20 1993-11-12 Hitachi Ltd 共起関係知識学習方法、そのシステム、並びに共起関係辞書およびその利用方法
JPH08101837A (ja) * 1994-09-30 1996-04-16 Toshiba Corp 機械翻訳装置における翻訳規則学習方法
JPH09128394A (ja) * 1995-11-02 1997-05-16 Nec Corp 自然言語処理システム
JP2008204133A (ja) * 2007-02-20 2008-09-04 National Institute Of Information & Communication Technology 回答検索装置及びコンピュータプログラム

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CSNG199800722011; 宇津呂 武仁 外2名: '二言語対訳コーパスからの動詞の格フレーム獲得' 情報処理学会論文誌 第34巻 第5号, 19930515, P.913〜924, 社団法人情報処理学会 *
CSNG200401625006; 今枝 恒治 外4名: '日本語学習者の作文における格助詞の誤り検出と訂正' 情報処理学会研究報告 第2003巻 第13号, 20030207, P.39〜46, 社団法人情報処理学会 *
CSNG200800063198; 岡部 浩司 外2名: '格フレームを用いたかな表記語の曖昧性解消' 言語処理学会第12回年次大会発表論文集 , 20060313, P.1115〜1118, 言語処理学会 *
JPN6013007025; 宇津呂 武仁 外2名: '二言語対訳コーパスからの動詞の格フレーム獲得' 情報処理学会論文誌 第34巻 第5号, 19930515, P.913〜924, 社団法人情報処理学会 *
JPN6013007027; 岡部 浩司 外2名: '格フレームを用いたかな表記語の曖昧性解消' 言語処理学会第12回年次大会発表論文集 , 20060313, P.1115〜1118, 言語処理学会 *
JPN6013007029; 今枝 恒治 外4名: '日本語学習者の作文における格助詞の誤り検出と訂正' 情報処理学会研究報告 第2003巻 第13号, 20030207, P.39〜46, 社団法人情報処理学会 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013182347A (ja) * 2012-02-29 2013-09-12 Nippon Telegr & Teleph Corp <Ntt> 助詞誤り訂正装置、方法、及びプログラム
WO2017038996A1 (ja) * 2015-09-04 2017-03-09 国立研究開発法人情報通信研究機構 単語アライメントモデル構築装置、機械翻訳装置、単語アライメントモデルの生産方法、および記録媒体
JP2017049917A (ja) * 2015-09-04 2017-03-09 国立研究開発法人情報通信研究機構 単語アライメントモデル構築装置、機械翻訳装置、単語アライメントモデルの生産方法、およびプログラム

Also Published As

Publication number Publication date
JP5453779B2 (ja) 2014-03-26

Similar Documents

Publication Publication Date Title
US8886514B2 (en) Means and a method for training a statistical machine translation system utilizing a posterior probability in an N-best translation list
US8959011B2 (en) Indicating and correcting errors in machine translation systems
US8131536B2 (en) Extraction-empowered machine translation
US20130185049A1 (en) Predicting Pronouns for Pro-Drop Style Languages for Natural Language Translation
US8874433B2 (en) Syntax-based augmentation of statistical machine translation phrase tables
US20080306728A1 (en) Apparatus, method, and computer program product for machine translation
US20170308526A1 (en) Compcuter Implemented machine translation apparatus and machine translation method
KR20100037813A (ko) 통계적 자동 번역 장치 및 방법
Tongpoon-Patanasorn et al. Google translate and translation quality: A case of translating academic abstracts from thai to english
Menacer et al. Machine translation on a parallel code-switched corpus
Zeroual et al. A new Quranic Corpus rich in morphosyntactical information
Miller et al. Using lexical language models to detect borrowings in monolingual wordlists
JP2016164707A (ja) 自動翻訳装置及び翻訳用モデル学習装置
Hou et al. Classification of regional and genre varieties of Chinese: A correspondence analysis approach based on comparable balanced corpora
CN106257442A (zh) 计算机辅助翻译方法
JP2004220266A (ja) 機械翻訳装置および機械翻訳方法
JP5453779B2 (ja) 言語解析システム、言語解析方法、プログラム及び機械翻訳システム、言語解析方法、プログラム
JP5342760B2 (ja) 訳語学習のためのデータを作成する装置、方法、およびプログラム
CN117010331A (zh) 一种扩展多模态模型语言能力的方法
JP2018072979A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
Dmitrieva et al. A multi-task learning approach to text simplification
Singh et al. English-Manipuri machine translation: an empirical study of different supervised and unsupervised methods
Shquier et al. Fully automated Arabic to English machine translation system: transfer-based approach of AE-TBMT
JP2007133905A (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
KR101670995B1 (ko) 어순 조정 및 형태소 차이에 기반한 통계 기반 기계 번역 시스템 및 그 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110901

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130219

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130422

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131223

R150 Certificate of patent or registration of utility model

Ref document number: 5453779

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150