JP2994539B2 - 機械翻訳装置 - Google Patents
機械翻訳装置Info
- Publication number
- JP2994539B2 JP2994539B2 JP5290491A JP29049193A JP2994539B2 JP 2994539 B2 JP2994539 B2 JP 2994539B2 JP 5290491 A JP5290491 A JP 5290491A JP 29049193 A JP29049193 A JP 29049193A JP 2994539 B2 JP2994539 B2 JP 2994539B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- title
- title information
- language
- machine translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
【0001】
【産業上の利用分野】本発明は、機械翻訳装置に関し、
より詳細には、原文の表題情報を原文の解析処理に利用
することができる機械翻訳装置に関する。
より詳細には、原文の表題情報を原文の解析処理に利用
することができる機械翻訳装置に関する。
【0002】
【従来の技術】従来の機械翻訳装置について記載した公
知文献としては、例えば、特開平5−151257号公
報がある。この公報のものは、原文中の箇条書部分等の
レイアウト情報を自動的に認定し、そのレイアウト情報
を利用して箇条書部分に関しては、利用者の修正なしに
箇条書にふさわしい翻訳を行うことができるものであ
る。また、特公平5−28871号公報には、日本語文
書中から固有名詞や新語やその文書においてのみ使用さ
れていると考えられる語を抽出することができる日本語
対象文固有用語抽出装置が開示されている。
知文献としては、例えば、特開平5−151257号公
報がある。この公報のものは、原文中の箇条書部分等の
レイアウト情報を自動的に認定し、そのレイアウト情報
を利用して箇条書部分に関しては、利用者の修正なしに
箇条書にふさわしい翻訳を行うことができるものであ
る。また、特公平5−28871号公報には、日本語文
書中から固有名詞や新語やその文書においてのみ使用さ
れていると考えられる語を抽出することができる日本語
対象文固有用語抽出装置が開示されている。
【0003】
【発明が解決しようとする課題】しかしながら、従来の
機械翻訳装置は、1文ごとを処理の対象にしていたの
で、レイアウト情報を利用して表題等を認定し、その表
題からその文書の話題となっている固有名詞や新語やそ
の文書においてのみ使用されていると考えられる語、す
なわち表題情報を抽出することができたとしても、その
表題情報をその文書の他の文の解析には利用できないと
いう問題点があった。
機械翻訳装置は、1文ごとを処理の対象にしていたの
で、レイアウト情報を利用して表題等を認定し、その表
題からその文書の話題となっている固有名詞や新語やそ
の文書においてのみ使用されていると考えられる語、す
なわち表題情報を抽出することができたとしても、その
表題情報をその文書の他の文の解析には利用できないと
いう問題点があった。
【0004】本発明は、このような実情に鑑みてなされ
たもので、表題情報を利用して、原文を正確に形態素解
析できる機械翻訳装置を提供することを目的としてい
る。
たもので、表題情報を利用して、原文を正確に形態素解
析できる機械翻訳装置を提供することを目的としてい
る。
【0005】
【課題を解決するための手段】本発明は、上記目的を達
成するために、(1)入力された言語の文章を辞書およ
び文法ルールに基づいてターゲット言語の文章に変換す
る機械翻訳装置において、入力された言語の文章を言語
解析する言語解析手段と、該言語解析手段に含まれ、前
記入力された文章の中に表題部分が存在することを検知
する検知手段と、該検知手段が表題部分を検知したとき
は、前記検知された表題部分から表題情報を抽出する抽
出手段とから成り、該抽出手段が抽出した表題情報を入
力された言語の文章が日本語のように単語にわかち書き
されていない場合、単語にわかち書きするのに利用する
こと、更には、(2)前記抽出手段が、抽出した表題情
報を入力された言語の文章が英語のように多品詞の単語
を含む場合、品詞の決定に利用することを特徴としたも
のである。
成するために、(1)入力された言語の文章を辞書およ
び文法ルールに基づいてターゲット言語の文章に変換す
る機械翻訳装置において、入力された言語の文章を言語
解析する言語解析手段と、該言語解析手段に含まれ、前
記入力された文章の中に表題部分が存在することを検知
する検知手段と、該検知手段が表題部分を検知したとき
は、前記検知された表題部分から表題情報を抽出する抽
出手段とから成り、該抽出手段が抽出した表題情報を入
力された言語の文章が日本語のように単語にわかち書き
されていない場合、単語にわかち書きするのに利用する
こと、更には、(2)前記抽出手段が、抽出した表題情
報を入力された言語の文章が英語のように多品詞の単語
を含む場合、品詞の決定に利用することを特徴としたも
のである。
【0006】
【作用】入力された言語の文章の中に表題部分があり、
その表題部分から固有名詞等の表題情報が抽出できる場
合、その表題情報が他の文の形態素解析に利用される。
表題情報を利用せずに形態素解析を行った場合には、避
けられない誤りを避けることができるので、正確な形態
素解析を行える。
その表題部分から固有名詞等の表題情報が抽出できる場
合、その表題情報が他の文の形態素解析に利用される。
表題情報を利用せずに形態素解析を行った場合には、避
けられない誤りを避けることができるので、正確な形態
素解析を行える。
【0007】
【実施例】以下、本発明の実施例を図面を参照して説明
する。図1は、本発明による機械翻訳装置の要部を示す
構成図で、図中、1は入力部、2は表題検知部、3は表
題情報抽出部、4は形態素解析処理部、5は構文解析生
成処理部、6は出力部、7は表題情報保持部、8は辞書
・文法ルールである。
する。図1は、本発明による機械翻訳装置の要部を示す
構成図で、図中、1は入力部、2は表題検知部、3は表
題情報抽出部、4は形態素解析処理部、5は構文解析生
成処理部、6は出力部、7は表題情報保持部、8は辞書
・文法ルールである。
【0008】機械翻訳装置は、機械翻訳を行いたい入力
された言語の文章を読み込む入力部1と、表題部分を検
知する表題検知部2と、表題部分から表題情報等を抽出
する表題情報抽出部3と、表題情報を保持する表題情報
保持部7と、表題情報および辞書,文法ルール8に基づ
いて、入力された文章を形態素単位に分割し、品詞やそ
の他の情報を獲得する形態素解析処理部4とを有する。
入力部1では、ファイル情報による入力だけでなく、キ
ーボードから直接文章を入力してもよい。また、辞書,
文法ルール8を用いて入力された文章の解析とターゲッ
ト言語の文章の生成を行う構文解析生成処理部5と、翻
訳結果であるターゲット言語を出力する出力部6とを有
する。
された言語の文章を読み込む入力部1と、表題部分を検
知する表題検知部2と、表題部分から表題情報等を抽出
する表題情報抽出部3と、表題情報を保持する表題情報
保持部7と、表題情報および辞書,文法ルール8に基づ
いて、入力された文章を形態素単位に分割し、品詞やそ
の他の情報を獲得する形態素解析処理部4とを有する。
入力部1では、ファイル情報による入力だけでなく、キ
ーボードから直接文章を入力してもよい。また、辞書,
文法ルール8を用いて入力された文章の解析とターゲッ
ト言語の文章の生成を行う構文解析生成処理部5と、翻
訳結果であるターゲット言語を出力する出力部6とを有
する。
【0009】図2は、本発明による機械翻訳装置の処理
の流れを示すフローチャートである。以下、各ステップ
に従って順に説明する。まず、文章を入力し(S11)、
入力された言語の文章に表題部分があれば(S12)、表
題情報抽出部3において、表題情報抽出処理が行われる
(S13)。次いで、形態素解析処理が行われ(S14)、次
いで、構文解析生成処理が行われる(S15)。その結果
が出力部6に出力される(S16)。
の流れを示すフローチャートである。以下、各ステップ
に従って順に説明する。まず、文章を入力し(S11)、
入力された言語の文章に表題部分があれば(S12)、表
題情報抽出部3において、表題情報抽出処理が行われる
(S13)。次いで、形態素解析処理が行われ(S14)、次
いで、構文解析生成処理が行われる(S15)。その結果
が出力部6に出力される(S16)。
【0010】次に、本発明による機械翻訳装置の動作の
具体的内容について説明する。例えば、日本語を他の言
語に翻訳する機械翻訳装置が、図3に示した文書テキス
トAを形態素解析する場合を考えると、文2を翻訳する
際、この文はそのレイアウト情報から表題部分であると
判断される(S12)。次いで、文2から「とそ」という
表題情報が抽出される(S13)。この表題情報は、表題
情報保持部7に保持される。次いで、文3を翻訳する
際、表題情報保持部7に保持されている表題情報が参照
され、文3の内「とその」の部分を形態素解析して単語
に分割した結果として「とそ」(表題)/「の」(助
詞)を得ることができる。この発明によらないと、辞書
に「とそ」という語彙がない場合には、文3の「とそ
の」の部分は「と」(助詞)/「その」(連体詞)とい
う誤った分割の形態素結果になる。
具体的内容について説明する。例えば、日本語を他の言
語に翻訳する機械翻訳装置が、図3に示した文書テキス
トAを形態素解析する場合を考えると、文2を翻訳する
際、この文はそのレイアウト情報から表題部分であると
判断される(S12)。次いで、文2から「とそ」という
表題情報が抽出される(S13)。この表題情報は、表題
情報保持部7に保持される。次いで、文3を翻訳する
際、表題情報保持部7に保持されている表題情報が参照
され、文3の内「とその」の部分を形態素解析して単語
に分割した結果として「とそ」(表題)/「の」(助
詞)を得ることができる。この発明によらないと、辞書
に「とそ」という語彙がない場合には、文3の「とそ
の」の部分は「と」(助詞)/「その」(連体詞)とい
う誤った分割の形態素結果になる。
【0011】また、英語を他の言語に翻訳する機械翻訳
装置が、図4に示した文書テキストBを形態素解析する
場合を考えると、文8を翻訳する際、この文はそのレイ
アウト情報から表題部分であると判断される(S12)。
次いで、文8から「fruit fly」が名詞であるという表
題情報が抽出される(S13)。この表題情報は、表題情
報保持部7に保持される。次いで、文9を翻訳する際、
表題情報保持部7に保持されている表題情報が参照さ
れ、文9の「fly」が持つ名詞または動詞という品詞の
曖昧性を解消でき、「fly」を名詞として解析して「シ
ョウジョウバエはバナナを好む」という解釈が得られ
る。この発明によらないと、文9の「fly」を「飛ぶ」
という意味の動詞と解析し、「果物はバナナのように飛
ぶ」という誤った解釈になる可能性がある。
装置が、図4に示した文書テキストBを形態素解析する
場合を考えると、文8を翻訳する際、この文はそのレイ
アウト情報から表題部分であると判断される(S12)。
次いで、文8から「fruit fly」が名詞であるという表
題情報が抽出される(S13)。この表題情報は、表題情
報保持部7に保持される。次いで、文9を翻訳する際、
表題情報保持部7に保持されている表題情報が参照さ
れ、文9の「fly」が持つ名詞または動詞という品詞の
曖昧性を解消でき、「fly」を名詞として解析して「シ
ョウジョウバエはバナナを好む」という解釈が得られ
る。この発明によらないと、文9の「fly」を「飛ぶ」
という意味の動詞と解析し、「果物はバナナのように飛
ぶ」という誤った解釈になる可能性がある。
【0012】
【発明の効果】以上の説明から明らかなように、本発明
によれば、表題情報が他の文の形態素解析に利用される
ので、表題情報を利用せずに形態素解析を行った場合に
は、避けられない誤りを減らすことができ、正確な形態
素解析を行える。
によれば、表題情報が他の文の形態素解析に利用される
ので、表題情報を利用せずに形態素解析を行った場合に
は、避けられない誤りを減らすことができ、正確な形態
素解析を行える。
【図1】本発明による機械翻訳装置の要部を示す構成図
である。
である。
【図2】本発明による機械翻訳装置処理の動作を説明す
るためのフローチャートである。
るためのフローチャートである。
【図3】本発明におけるテキストAの例文を示す図であ
る。
る。
【図4】本発明におけるテキストBの例文を示す図であ
る。
る。
1…入力部、2…表題検知部、3…表題情報抽出部、4
…形態素解析処理部、5…構文解析生成処理部、6…出
力部、7…表題情報保持部、8…辞書,文法ルール。
…形態素解析処理部、5…構文解析生成処理部、6…出
力部、7…表題情報保持部、8…辞書,文法ルール。
Claims (2)
- 【請求項1】 入力された言語の文章を辞書および文法
ルールに基づいてターゲット言語の文章に変換する機械
翻訳装置において、入力された言語の文章を言語解析す
る言語解析手段と、該言語解析手段に含まれ、前記入力
された文章の中に表題部分が存在することを検知する検
知手段と、該検知手段が表題部分を検知したときは、前
記検知された表題部分から表題情報を抽出する抽出手段
とから成り、該抽出手段が抽出した表題情報を入力され
た言語の文章が日本語のように単語にわかち書きされて
いない場合、単語にわかち書きするのに利用することを
特徴とする機械翻訳装置。 - 【請求項2】 前記抽出手段が、抽出した表題情報を入
力された言語の文章が英語のように多品詞の単語を含む
場合、品詞の決定に利用することを特徴とする請求項1
記載の機械翻訳装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5290491A JP2994539B2 (ja) | 1993-11-19 | 1993-11-19 | 機械翻訳装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5290491A JP2994539B2 (ja) | 1993-11-19 | 1993-11-19 | 機械翻訳装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH07141372A JPH07141372A (ja) | 1995-06-02 |
JP2994539B2 true JP2994539B2 (ja) | 1999-12-27 |
Family
ID=17756714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5290491A Expired - Lifetime JP2994539B2 (ja) | 1993-11-19 | 1993-11-19 | 機械翻訳装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2994539B2 (ja) |
-
1993
- 1993-11-19 JP JP5290491A patent/JP2994539B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH07141372A (ja) | 1995-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3906356B2 (ja) | 構文解析方法及び装置 | |
WO2010046782A2 (en) | Hybrid machine translation | |
JP2007241764A (ja) | 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体 | |
US20040254783A1 (en) | Third language text generating algorithm by multi-lingual text inputting and device and program therefor | |
JP2994539B2 (ja) | 機械翻訳装置 | |
Saito et al. | Multi-language named-entity recognition system based on HMM | |
Doermann et al. | Translation lexicon acquisition from bilingual dictionaries | |
KR940022311A (ko) | 기계번역장치 및 방법 | |
KR20180054236A (ko) | 음성기호 기반 사전 유사 탐색을 활용한 자동 통번역 시스템 및 그 방법 | |
Samir et al. | Training and evaluation of TreeTagger on Amazigh corpus | |
JP4313967B2 (ja) | 自然言語変換システム | |
KR940022312A (ko) | 기계번역장치 및 방법 | |
KR100204068B1 (ko) | 개념기반 다국어 번역시스템의 문법 자동수정 방법 | |
JP3698454B2 (ja) | 並列句解析装置および学習データ自動作成装置 | |
JP2599973B2 (ja) | 日本文訂正候補文字抽出装置 | |
Howlett et al. | Dual-path phrase-based statistical machine translation | |
JP2008293295A (ja) | 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム | |
JPH0715691B2 (ja) | 自動翻訳装置 | |
KR20020054244A (ko) | 부분문틀을 이용한 장문 번역 장치 및 그 방법 | |
JP3244286B2 (ja) | 翻訳処理装置 | |
JP2715875B2 (ja) | 多言語要約生成装置 | |
JPS63109572A (ja) | 派生語処理方式 | |
Nakaiwa | Automatic extraction of rules for anaphora resolution of Japanese zero pronouns in Japanese–English machine translation from aligned sentence pairs | |
JP2770536B2 (ja) | 文章解析装置 | |
JPH1063664A (ja) | 自然言語の翻訳方法及び装置 |