JP2010122982A - 言語解析システム、言語解析方法、プログラム及び機械翻訳システム、言語解析方法、プログラム - Google Patents
言語解析システム、言語解析方法、プログラム及び機械翻訳システム、言語解析方法、プログラム Download PDFInfo
- Publication number
- JP2010122982A JP2010122982A JP2008297084A JP2008297084A JP2010122982A JP 2010122982 A JP2010122982 A JP 2010122982A JP 2008297084 A JP2008297084 A JP 2008297084A JP 2008297084 A JP2008297084 A JP 2008297084A JP 2010122982 A JP2010122982 A JP 2010122982A
- Authority
- JP
- Japan
- Prior art keywords
- corpus
- translation
- dependency information
- case frame
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】目的のドメインの少量のコーパスと目的のドメインとは異なるドメインの大量のコーパスの係り受け情報を作成し、この複数のドメインのコーパスから取得した係り受け情報を使って補語をクラスタリングし、このクラスタリングした係り受け情報の目的ドメインの情報のみを使って格フレームの選択制約を作成し、この選択制約に基づいて解析する。
【選択図】図1
Description
始めに、本発明の概要について説明する。本発明に係る言語解析システムは、格フレーム情報を取得する目的ドメインのコーパス(図1の31)と、その他のドメインのコーパス(図1の32)と、から係り受け情報を取得し(図1の21)、前記取得した係り受け情報に含まれる補語をクラスタリングし(図1の23)、前記補語をクラスタリングした結果から、前記目的ドメインのコーパスから取得された係り受け情報を抽出し(図1の24)、前記抽出した係り受け情報から格フレームの選択制約を作成する(図1の25)。
続いて、本発明の好適な実施形態について図面を参照して詳細に説明する。図1は、本発明の第1の実施形態に係る言語解析システムの構成を表したブロック図である。図1を参照すると、キーボード等の入力装置1と、記憶装置3と、ディスプレイ等の出力装置4とに接続され、プログラム制御により動作するデータ処理装置2が示されている。
次に、具体的なサンプルを用いて本実施形態の具体例を説明する。
続いて、係り受け解析済みコーパスでなく、プレインテキストコーパスを用いて格フレームの制約を作成する本発明の第2の実施形態について図面を参照して詳細に説明する。
続いて、本発明を機械翻訳装置に適用した第3の実施形態について図面を参照して詳細に説明する。本実施形態も、上記した第1、第2の実施形態と構成をほぼ共通にするため、その相違点を中心に説明する。
次に、具体的なサンプルを用いて本実施形態の具体例を説明する。
2 データ処理装置
3 記憶装置
4 出力装置
21 係り受け情報取得手段
22 訳語付き係り受け情報取得手段
23 クラスタリング手段
24 目的ドメイン抽出手段
25 選択制約作成手段
28 言語解析手段
29 機械翻訳手段
31 コーパスA
32 コーパスB
Claims (11)
- 格フレーム情報を取得する目的ドメインのコーパスと、その他のドメインのコーパスと、から係り受け情報を取得する係り受け情報取得手段と、
前記取得した係り受け情報に含まれる補語をクラスタリングするクラスタリング手段と、
前記補語をクラスタリングした結果から、前記目的ドメインのコーパスから取得された係り受け情報を抽出する目的ドメイン抽出手段と、
前記抽出した係り受け情報から格フレームの選択制約を作成する選択制約作成手段と、
を備えたことを特徴とする言語解析システム。 - 前記選択制約作成手段で作成された格フレームの選択制約に基づいて入力文を解析する言語解析手段を備えた請求項1に記載の言語解析システム。
- 前記コーパスは、係り受け解析がなされていないプレインテキストコーパスであり、
係り受け情報取得手段が、係り受け解析を行う請求項1又は2に記載の言語解析システム。 - 請求項1乃至3いずれか一に記載の言語解析システムを含み、
前記係り受け情報取得手段は、格フレーム情報を取得する目的ドメインの訳語付きコーパスと、その他のドメインの訳語付きコーパスとから、訳語情報が付された訳語付き係り受け情報を取得し、
前記選択制約作成手段は、訳語付きの格フレームの選択制約を作成し、
前記訳語付きの格フレームの選択制約に基づいた訳語の選択を行って、翻訳する機械翻訳手段を備える機械翻訳システム。 - 格フレーム情報を取得する目的ドメインのコーパスと、その他のドメインのコーパスと、から係り受け情報を取得し、
前記取得した係り受け情報に含まれる補語をクラスタリングし、
前記補語をクラスタリングした結果から、前記目的ドメインのコーパスから取得された係り受け情報を抽出し、
前記抽出した係り受け情報から格フレームの選択制約を作成する格フレームの選択制約の作成方法。 - 請求項5に記載の格フレームの選択制約の作成方法により作成された格フレームの選択制約を用いて入力文の解析を行う言語解析方法。
- 格フレーム情報を取得する目的ドメインの訳語付きコーパスと、その他のドメインの訳語付きコーパスと、から訳語付き係り受け情報を取得し、
前記取得した訳語付き係り受け情報に含まれる補語をクラスタリングし、
前記補語をクラスタリングした結果から、前記目的ドメインのコーパスから取得された訳語付き係り受け情報を抽出し、
前記抽出した訳語付き係り受け情報から、訳語付きの格フレームの選択制約を作成し、
前記訳語付きの格フレームの選択制約に基づいた訳語の選択を行って、翻訳を行なう機械翻訳方法。 - 格フレーム情報を取得する目的ドメインのコーパスと、その他のドメインのコーパスと、から係り受け情報を取得する処理と、
前記取得した係り受け情報に含まれる補語をクラスタリングする処理と、
前記補語をクラスタリングした結果から、前記目的ドメインのコーパスから取得された係り受け情報を抽出する処理と、
前記抽出した係り受け情報から格フレームの選択制約を作成する処理と、をコンピュータに実行させるプログラム。 - 更に、前記格フレームの選択制約を用いて入力文を解析する処理を前記コンピュータに実行させる請求項8に記載のプログラム。
- 係り受け解析がなされていないプレインテキストコーパスの係り受け解析を行う処理を前記コンピュータに実行させる請求項8又は9に記載のプログラム。
- 格フレーム情報を取得する目的ドメインの訳語付きコーパスと、その他のドメインの訳語付きコーパスと、から訳語付き係り受け情報を取得する処理と、
前記取得した訳語付き係り受け情報に含まれる補語をクラスタリングする処理と、
前記補語をクラスタリングした結果から、前記目的ドメインのコーパスから取得された係り受け情報を抽出する処理と、
前記目的ドメイン抽出手段で抽出した訳語付き係り受け情報から、訳語付きの格フレームの選択制約を作成する処理と、
前記訳語付きの格フレームの選択制約に基づいた訳語の選択を行って、翻訳する処理と、をコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008297084A JP5453779B2 (ja) | 2008-11-20 | 2008-11-20 | 言語解析システム、言語解析方法、プログラム及び機械翻訳システム、言語解析方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008297084A JP5453779B2 (ja) | 2008-11-20 | 2008-11-20 | 言語解析システム、言語解析方法、プログラム及び機械翻訳システム、言語解析方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010122982A true JP2010122982A (ja) | 2010-06-03 |
JP5453779B2 JP5453779B2 (ja) | 2014-03-26 |
Family
ID=42324257
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008297084A Active JP5453779B2 (ja) | 2008-11-20 | 2008-11-20 | 言語解析システム、言語解析方法、プログラム及び機械翻訳システム、言語解析方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5453779B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013182347A (ja) * | 2012-02-29 | 2013-09-12 | Nippon Telegr & Teleph Corp <Ntt> | 助詞誤り訂正装置、方法、及びプログラム |
WO2017038996A1 (ja) * | 2015-09-04 | 2017-03-09 | 国立研究開発法人情報通信研究機構 | 単語アライメントモデル構築装置、機械翻訳装置、単語アライメントモデルの生産方法、および記録媒体 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05298349A (ja) * | 1992-04-20 | 1993-11-12 | Hitachi Ltd | 共起関係知識学習方法、そのシステム、並びに共起関係辞書およびその利用方法 |
JPH08101837A (ja) * | 1994-09-30 | 1996-04-16 | Toshiba Corp | 機械翻訳装置における翻訳規則学習方法 |
JPH09128394A (ja) * | 1995-11-02 | 1997-05-16 | Nec Corp | 自然言語処理システム |
JP2008204133A (ja) * | 2007-02-20 | 2008-09-04 | National Institute Of Information & Communication Technology | 回答検索装置及びコンピュータプログラム |
-
2008
- 2008-11-20 JP JP2008297084A patent/JP5453779B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05298349A (ja) * | 1992-04-20 | 1993-11-12 | Hitachi Ltd | 共起関係知識学習方法、そのシステム、並びに共起関係辞書およびその利用方法 |
JPH08101837A (ja) * | 1994-09-30 | 1996-04-16 | Toshiba Corp | 機械翻訳装置における翻訳規則学習方法 |
JPH09128394A (ja) * | 1995-11-02 | 1997-05-16 | Nec Corp | 自然言語処理システム |
JP2008204133A (ja) * | 2007-02-20 | 2008-09-04 | National Institute Of Information & Communication Technology | 回答検索装置及びコンピュータプログラム |
Non-Patent Citations (6)
Title |
---|
CSNG199800722011; 宇津呂 武仁 外2名: '二言語対訳コーパスからの動詞の格フレーム獲得' 情報処理学会論文誌 第34巻 第5号, 19930515, P.913〜924, 社団法人情報処理学会 * |
CSNG200401625006; 今枝 恒治 外4名: '日本語学習者の作文における格助詞の誤り検出と訂正' 情報処理学会研究報告 第2003巻 第13号, 20030207, P.39〜46, 社団法人情報処理学会 * |
CSNG200800063198; 岡部 浩司 外2名: '格フレームを用いたかな表記語の曖昧性解消' 言語処理学会第12回年次大会発表論文集 , 20060313, P.1115〜1118, 言語処理学会 * |
JPN6013007025; 宇津呂 武仁 外2名: '二言語対訳コーパスからの動詞の格フレーム獲得' 情報処理学会論文誌 第34巻 第5号, 19930515, P.913〜924, 社団法人情報処理学会 * |
JPN6013007027; 岡部 浩司 外2名: '格フレームを用いたかな表記語の曖昧性解消' 言語処理学会第12回年次大会発表論文集 , 20060313, P.1115〜1118, 言語処理学会 * |
JPN6013007029; 今枝 恒治 外4名: '日本語学習者の作文における格助詞の誤り検出と訂正' 情報処理学会研究報告 第2003巻 第13号, 20030207, P.39〜46, 社団法人情報処理学会 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013182347A (ja) * | 2012-02-29 | 2013-09-12 | Nippon Telegr & Teleph Corp <Ntt> | 助詞誤り訂正装置、方法、及びプログラム |
WO2017038996A1 (ja) * | 2015-09-04 | 2017-03-09 | 国立研究開発法人情報通信研究機構 | 単語アライメントモデル構築装置、機械翻訳装置、単語アライメントモデルの生産方法、および記録媒体 |
JP2017049917A (ja) * | 2015-09-04 | 2017-03-09 | 国立研究開発法人情報通信研究機構 | 単語アライメントモデル構築装置、機械翻訳装置、単語アライメントモデルの生産方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5453779B2 (ja) | 2014-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8886514B2 (en) | Means and a method for training a statistical machine translation system utilizing a posterior probability in an N-best translation list | |
US8959011B2 (en) | Indicating and correcting errors in machine translation systems | |
US8131536B2 (en) | Extraction-empowered machine translation | |
US20130185049A1 (en) | Predicting Pronouns for Pro-Drop Style Languages for Natural Language Translation | |
US8874433B2 (en) | Syntax-based augmentation of statistical machine translation phrase tables | |
US20080306728A1 (en) | Apparatus, method, and computer program product for machine translation | |
US20170308526A1 (en) | Compcuter Implemented machine translation apparatus and machine translation method | |
KR20100037813A (ko) | 통계적 자동 번역 장치 및 방법 | |
Tongpoon-Patanasorn et al. | Google translate and translation quality: A case of translating academic abstracts from thai to english | |
Menacer et al. | Machine translation on a parallel code-switched corpus | |
Zeroual et al. | A new Quranic Corpus rich in morphosyntactical information | |
Miller et al. | Using lexical language models to detect borrowings in monolingual wordlists | |
JP2016164707A (ja) | 自動翻訳装置及び翻訳用モデル学習装置 | |
Hou et al. | Classification of regional and genre varieties of Chinese: A correspondence analysis approach based on comparable balanced corpora | |
CN106257442A (zh) | 计算机辅助翻译方法 | |
JP2004220266A (ja) | 機械翻訳装置および機械翻訳方法 | |
JP5453779B2 (ja) | 言語解析システム、言語解析方法、プログラム及び機械翻訳システム、言語解析方法、プログラム | |
JP5342760B2 (ja) | 訳語学習のためのデータを作成する装置、方法、およびプログラム | |
CN117010331A (zh) | 一种扩展多模态模型语言能力的方法 | |
JP2018072979A (ja) | 対訳文抽出装置、対訳文抽出方法およびプログラム | |
Dmitrieva et al. | A multi-task learning approach to text simplification | |
Singh et al. | English-Manipuri machine translation: an empirical study of different supervised and unsupervised methods | |
Shquier et al. | Fully automated Arabic to English machine translation system: transfer-based approach of AE-TBMT | |
JP2007133905A (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
KR101670995B1 (ko) | 어순 조정 및 형태소 차이에 기반한 통계 기반 기계 번역 시스템 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110901 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130219 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130422 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131210 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131223 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5453779 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |