JPH0225973A - 機械翻訳装置 - Google Patents
機械翻訳装置Info
- Publication number
- JPH0225973A JPH0225973A JP63176467A JP17646788A JPH0225973A JP H0225973 A JPH0225973 A JP H0225973A JP 63176467 A JP63176467 A JP 63176467A JP 17646788 A JP17646788 A JP 17646788A JP H0225973 A JPH0225973 A JP H0225973A
- Authority
- JP
- Japan
- Prior art keywords
- language
- input document
- keyword
- keyword dictionary
- parser
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims description 16
- 230000014509 gene expression Effects 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 abstract description 44
- 238000000034 method Methods 0.000 abstract description 19
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000002674 ointment Substances 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は、機械翻訳システムにおける言語対応の構文解
析手段の選択技術に関する。
析手段の選択技術に関する。
キーボードからの入力により直接印刷された文書、ある
いはOCR等からの媒体を用いて読み込まれた大量の文
書、又は計算機のファイルに既に蓄積されている文書等
を他言語に翻訳する場合の代表的な方式として、ビボッ
) (P I VOT)方式がある。
いはOCR等からの媒体を用いて読み込まれた大量の文
書、又は計算機のファイルに既に蓄積されている文書等
を他言語に翻訳する場合の代表的な方式として、ビボッ
) (P I VOT)方式がある。
この方式では、入力言語文書の解析結果は中間言語表現
と呼ばれる入力言語及び出力言語に依存しない普遍的形
式で表現され、その後、この中間言語表現に基づいて出
力言語文書が生成される。
と呼ばれる入力言語及び出力言語に依存しない普遍的形
式で表現され、その後、この中間言語表現に基づいて出
力言語文書が生成される。
このように中間言語表現を仲介とする方式により、多言
語間機械翻訳システムを構成しようとする場合、入力言
語文書の構文解析部と出力言語文書の生成部とが完全に
分離され、各入力言語文書を中間言語表現に変換する各
言語独立の構文解析部と、中間言語表現から各出力言語
文書を生成する各言語独立の生成部とを構成するだけで
よいという特徴を有する。
語間機械翻訳システムを構成しようとする場合、入力言
語文書の構文解析部と出力言語文書の生成部とが完全に
分離され、各入力言語文書を中間言語表現に変換する各
言語独立の構文解析部と、中間言語表現から各出力言語
文書を生成する各言語独立の生成部とを構成するだけで
よいという特徴を有する。
上記のようなPIVOT方弐を用いた、例えば英日(英
語−日本語)、日英(日本語−英語)の双方向翻訳可能
な機械翻訳システムで英日翻訳を行う場合には、以下の
ような手続きを踏む必要がある。なお、第4図を参照す
る。
語−日本語)、日英(日本語−英語)の双方向翻訳可能
な機械翻訳システムで英日翻訳を行う場合には、以下の
ような手続きを踏む必要がある。なお、第4図を参照す
る。
■まず、英語構文解析プログラム1を起動し、英語の入
力文書2を中間言語表現4(言語に依存しない意味構造
)に変換する。
力文書2を中間言語表現4(言語に依存しない意味構造
)に変換する。
■次に、日本語生成プログラム2を起動し、中間言語表
現4を日本語の出力文書5に変換する。
現4を日本語の出力文書5に変換する。
この際に従来方式では、ユーザは入力文書2が英語で書
かれた文書であることを予め知っており、その知識に基
づいて英語構文解析プログラム1を意図的に選択して機
械翻訳装置を起動している。
かれた文書であることを予め知っており、その知識に基
づいて英語構文解析プログラム1を意図的に選択して機
械翻訳装置を起動している。
[発明が解決しようとする課題]
しかし、大量の文書をどの言語にも依存しない中間言語
表現として一旦起憶しておき、必要に応じて別の言語に
変換することが可能な多言語間翻訳システムを実現しよ
うとした場合、ユーザがいちいち入力言語の種類に応じ
て解析プログラムを選択し起動するのでは、ユーザに対
する負1uが大きいという問題点がある。
表現として一旦起憶しておき、必要に応じて別の言語に
変換することが可能な多言語間翻訳システムを実現しよ
うとした場合、ユーザがいちいち入力言語の種類に応じ
て解析プログラムを選択し起動するのでは、ユーザに対
する負1uが大きいという問題点がある。
また、入力文書中に当該言語以外の言語で書かれた文が
挿入されていた場合、従来方式ではその挿入文は翻訳不
可能であり、その挿入文を翻訳するには、その部分を抽
出した後、その言語に対応した構文解析プログラムを起
動して改めて翻訳を行い、その結果を中間言語ファイル
に書き込むという手続きを踏む必要があり、この点から
もユーザの負担が大きいという問題点がある。
挿入されていた場合、従来方式ではその挿入文は翻訳不
可能であり、その挿入文を翻訳するには、その部分を抽
出した後、その言語に対応した構文解析プログラムを起
動して改めて翻訳を行い、その結果を中間言語ファイル
に書き込むという手続きを踏む必要があり、この点から
もユーザの負担が大きいという問題点がある。
本発明の課題は、入力文書の言語の種類に応じた構文解
析手段の自動選択を実現することにある。
析手段の自動選択を実現することにある。
本発明は、複数種類の各言語対応の複数の構文解析手段
を有し、入力文書をその言語に対応した構文解析手段を
用いて中間言語表現に翻訳した後、該中間言語表現から
所望の6語の出力文書を生成する機械翻訳装置を前提と
する。
を有し、入力文書をその言語に対応した構文解析手段を
用いて中間言語表現に翻訳した後、該中間言語表現から
所望の6語の出力文書を生成する機械翻訳装置を前提と
する。
そして、まず、各言語固有のキーワードを登録したキー
ワード辞書を記憶するキーワード辞書記憶手段を有する
。このとき、キーワード辞書には、例えば各言語固有の
代名詞・前置詞・接続詞等の機能語が登録され、また、
例えば各言語毎に統計的な出現頻度が高い上位所定数の
キーワードが登録される。
ワード辞書を記憶するキーワード辞書記憶手段を有する
。このとき、キーワード辞書には、例えば各言語固有の
代名詞・前置詞・接続詞等の機能語が登録され、また、
例えば各言語毎に統計的な出現頻度が高い上位所定数の
キーワードが登録される。
次に、上記キーワード辞書を検索して入力文書からキー
ワードに関する情報を抽出するキーワード辞書検索手段
を有する。同手段は、例えば入力文書を1行、数行又は
数文字ずつ入力して、キーワード辞書に登録された各キ
ーワードと照合する手段によって実現される。
ワードに関する情報を抽出するキーワード辞書検索手段
を有する。同手段は、例えば入力文書を1行、数行又は
数文字ずつ入力して、キーワード辞書に登録された各キ
ーワードと照合する手段によって実現される。
続いて、上記キーワード辞書検索手段での検索結果を評
価することにより入力文書の言語を判定するパーザ−判
定手段を有する。同手段は、例えば前記キーワード辞書
検索手段により検索された各キーワードの品詞・言語等
を判定し、言語を特定できる場合はその言語情報を後述
するパーザ−制御手段に渡し、言語を特定できない場合
は前記キーワード辞書検索手段に入力文書の他の行に対
するキーワード検索を促す手段によって実現される。ま
た、上記実現手段に加え、例えば入力文書の各語の区切
りを判定することにより、入力文書が総合的言語である
か分析的言語であるかを判定し、総合的言語と判定され
た場合は、前記キーツー1’辞書検索手段で検索された
キーワードの総文字数と入力文書の総文字数の比の値を
判定することにより入力文書の言語を判定し、分析的言
語と判定された場合は、前記キーワード辞書検索手段で
検索されたキーワードの総語数と入力文書の総語数の比
の値を判定することにより入力文書の言語を判定する処
理を並列して行うようにして実現してもよい。
価することにより入力文書の言語を判定するパーザ−判
定手段を有する。同手段は、例えば前記キーワード辞書
検索手段により検索された各キーワードの品詞・言語等
を判定し、言語を特定できる場合はその言語情報を後述
するパーザ−制御手段に渡し、言語を特定できない場合
は前記キーワード辞書検索手段に入力文書の他の行に対
するキーワード検索を促す手段によって実現される。ま
た、上記実現手段に加え、例えば入力文書の各語の区切
りを判定することにより、入力文書が総合的言語である
か分析的言語であるかを判定し、総合的言語と判定され
た場合は、前記キーツー1’辞書検索手段で検索された
キーワードの総文字数と入力文書の総文字数の比の値を
判定することにより入力文書の言語を判定し、分析的言
語と判定された場合は、前記キーワード辞書検索手段で
検索されたキーワードの総語数と入力文書の総語数の比
の値を判定することにより入力文書の言語を判定する処
理を並列して行うようにして実現してもよい。
そして、前記複数の構文解析手段から上記パーザ−判定
手段により選択された言語に対応するものを選択・制御
して入力文書を中間言語表現に翻訳さ−Lるパーザ−制
御手段を有する。同手段は、例えば前記パーザ−判定手
段からの言語情報に対応する構文解析手段を起動する手
段によって実現される。
手段により選択された言語に対応するものを選択・制御
して入力文書を中間言語表現に翻訳さ−Lるパーザ−制
御手段を有する。同手段は、例えば前記パーザ−判定手
段からの言語情報に対応する構文解析手段を起動する手
段によって実現される。
以上の手段により、入力文書の1行〜数行毎にキー・ノ
ード辞書検索手段がキーワード検索を行い、パーザ−判
定手段がその言語を特定し、それに基づいてパー1y−
制御手段が対応する構文解析手段を選択して構文解析を
行わゼるため、ユーザは入力文書の昌゛語の種類を指定
する必要がなく、例えば多種類の言語の混在する大量の
文書を自動的・かつ効率的に処理することができる。
ード辞書検索手段がキーワード検索を行い、パーザ−判
定手段がその言語を特定し、それに基づいてパー1y−
制御手段が対応する構文解析手段を選択して構文解析を
行わゼるため、ユーザは入力文書の昌゛語の種類を指定
する必要がなく、例えば多種類の言語の混在する大量の
文書を自動的・かつ効率的に処理することができる。
この場合、キーワード辞書検索手段の用いるキーワード
辞書として、前記したように各言語固有の機能語のみを
登録し、また、統計的な出現頻度が高いもののみを登録
することにより、高速で効率のよいキーワード検索を実
現することができる。
辞書として、前記したように各言語固有の機能語のみを
登録し、また、統計的な出現頻度が高いもののみを登録
することにより、高速で効率のよいキーワード検索を実
現することができる。
更に、バーリ′−判定手段において、日本語のように単
語の区切りが不明確な総合的言語であるか、英語のよう
に明確な分析的言語であるかを判定し、その判定結果に
応じて言語を決定する処理を並列して行うことにより、
総合的言語と分析的言語が混在するようなものにも柔軟
に対応することができる。
語の区切りが不明確な総合的言語であるか、英語のよう
に明確な分析的言語であるかを判定し、その判定結果に
応じて言語を決定する処理を並列して行うことにより、
総合的言語と分析的言語が混在するようなものにも柔軟
に対応することができる。
以下、本発明の実施例につき詳細に説明を行う。
第1図は、本実施例による構文解析装置の自動選択可能
な機械翻訳装置のブロンク図である。
な機械翻訳装置のブロンク図である。
同図において、入力ファイル保存装置6は、原文を記憶
しておく記1.a、装置であり、例えばディスク記憶装
置である。
しておく記1.a、装置であり、例えばディスク記憶装
置である。
キーワード辞書検索装置7は、キーワード辞書8を用い
て入力文書の語を検索し、その語が属する言語及びその
語の品詞等の情報を抽出する。
て入力文書の語を検索し、その語が属する言語及びその
語の品詞等の情報を抽出する。
キーワード辞書8は入力言語を判別する場合にキーワー
ドとなる言語及びその語の属性の情報を登録し、例えば
ディスク記憶装置に記憶される。
ドとなる言語及びその語の属性の情報を登録し、例えば
ディスク記憶装置に記憶される。
パーザ−判定装置9は、キーワード辞書検索装置7で得
られた情報に基づいて、パーザ−(構文解析装置、以下
同じ)を自動的に選択するかどうかを決定する。
られた情報に基づいて、パーザ−(構文解析装置、以下
同じ)を自動的に選択するかどうかを決定する。
パーザ−制御装置10は、パーザ−判定装置9で選ばれ
た構文解析装置11を制御する。
た構文解析装置11を制御する。
[」米語構文解析装置11(#1)は、日本語辞書12
(#1)と日本語解析用文法辞書13(#1)を用いて
、日本語の構文解析を行う。
(#1)と日本語解析用文法辞書13(#1)を用いて
、日本語の構文解析を行う。
英語構文解析装置11 (#2)は、英語辞書12 (
#2)と英語解析用文法辞書13(#2)を用いて、英
語の構文解析を行う。
#2)と英語解析用文法辞書13(#2)を用いて、英
語の構文解析を行う。
フランス語(仏語)構文解析装置11(#3)は、フラ
ンス語辞書12(#3)とフランス語解析用文法辞書1
3(#3)を用いてフランス語の構文解析を行う。
ンス語辞書12(#3)とフランス語解析用文法辞書1
3(#3)を用いてフランス語の構文解析を行う。
日本語辞312(#1)、英語辞書12(#2)及びフ
ランス語辞書12(#3)は、各々日本語、英語及びフ
ランス語の語の啜り字、品詞等の情報が記載されている
辞書であり、例えばディスク記憶装置に記憶される。
ランス語辞書12(#3)は、各々日本語、英語及びフ
ランス語の語の啜り字、品詞等の情報が記載されている
辞書であり、例えばディスク記憶装置に記憶される。
日本語解析用文法辞書13(#1)、英語解析用文法辞
書13(#2)及びフランス語解析用文法辞s13 (
#3)は、各々日本語、英語及びフランス語の解析用の
文法規則が記載されている辞書であり、例えばディスク
記憶装置に記憶される。
書13(#2)及びフランス語解析用文法辞s13 (
#3)は、各々日本語、英語及びフランス語の解析用の
文法規則が記載されている辞書であり、例えばディスク
記憶装置に記憶される。
解析結果記憶装置14は、構文解析結果の一時記憶装置
であり、例えばディスク記憶装置である。
であり、例えばディスク記憶装置である。
中間言語ファイル保存装置15は、解析結果の最終的な
記憶装置であり、例えばディスク記憶装置である。
記憶装置であり、例えばディスク記憶装置である。
多言語解析制御装置16は、上記各装置を制御する制御
装置である。
装置である。
上記構成の実施例の動作につき、以下に説明を行ってゆ
く。なお、第2図及び以後の説明では、日本語、英語、
フランス語を用いて説明しているが、これは他の言語の
場合及び言語の数が増加した場合も基本的に同じである
。
く。なお、第2図及び以後の説明では、日本語、英語、
フランス語を用いて説明しているが、これは他の言語の
場合及び言語の数が増加した場合も基本的に同じである
。
第2図は、本実施例による構文解析装置の自動選択の制
御動作の動作フローチャートを示した図である。
御動作の動作フローチャートを示した図である。
まず、キーワード辞書検索装置7において、入力ファイ
ル保存装置6に格納されている原文から1行(数行ある
いは数文字でもよい)を読み込む(第2図Sl、以下第
2図参照)。
ル保存装置6に格納されている原文から1行(数行ある
いは数文字でもよい)を読み込む(第2図Sl、以下第
2図参照)。
次に、読み込んだ文書に対して、キーワード辞書8を用
いて−1−一ソート検索を行い、検索の結果(入力行の
各語の属する言語、品詞等)をパーザ−判定装置9に渡
す(S2)。
いて−1−一ソート検索を行い、検索の結果(入力行の
各語の属する言語、品詞等)をパーザ−判定装置9に渡
す(S2)。
パーザ−判定装置9では、受は取った情報を評価するご
とにより、バーリ′−を自動的に選択するかどうかを決
定する(S3)。
とにより、バーリ′−を自動的に選択するかどうかを決
定する(S3)。
パーザ−を自動的に選択できない場合は、キーワード辞
書検索装置7におい゛CCシカファイル保存装置6格納
されている原文から次の1行を読み込め、前記5l−3
3の処理を繰り返す(S4−3l)。
書検索装置7におい゛CCシカファイル保存装置6格納
されている原文から次の1行を読み込め、前記5l−3
3の処理を繰り返す(S4−3l)。
パーザ−を自動的に選択できる場合は、パーザ−制御装
置IOに入力文がどの言語で書かれているかを示す情報
を渡す(S4−35)。
置IOに入力文がどの言語で書かれているかを示す情報
を渡す(S4−35)。
パーザ−制御装置10では、受は取った情報に基づきそ
の言語に対応する構文解析装置11(#1〜#3のうち
いずれか)を起動する。例えば上記パーザ−判定装置9
において、入力文が英語で書かれていると判定された場
合、パーザ−制御装置10は英語構文解析装置11 (
#2)を起動する。
の言語に対応する構文解析装置11(#1〜#3のうち
いずれか)を起動する。例えば上記パーザ−判定装置9
において、入力文が英語で書かれていると判定された場
合、パーザ−制御装置10は英語構文解析装置11 (
#2)を起動する。
構文解析装置11は、対応する言語辞書12及びその言
語解析用文法辞書13を用いて構文解析を開始し、構文
解析の結果は順次解析結果記憶装置14に渡され、−時
記憶される(以上、S5)。
語解析用文法辞書13を用いて構文解析を開始し、構文
解析の結果は順次解析結果記憶装置14に渡され、−時
記憶される(以上、S5)。
原文中に未知語の挿入文(語句)が1行(数行あるいは
数語連続してもよい)出現した場合、現在勤作中の構文
解析装置11は、パーザ−制御装置10に制御を戻すと
共に、未知語の開始位置・未知語の文字列等の情報をパ
ーザ−制御装置10に渡す。
数語連続してもよい)出現した場合、現在勤作中の構文
解析装置11は、パーザ−制御装置10に制御を戻すと
共に、未知語の開始位置・未知語の文字列等の情報をパ
ーザ−制御装置10に渡す。
パーザ−制御装置lOは、現在選択されている構文解析
装置11の情報等を記憶し、続いて、制御を多言語解析
制御装置16に移すと共に、未知語の開始位置等の情報
を多言語解析装置16に渡す。
装置11の情報等を記憶し、続いて、制御を多言語解析
制御装置16に移すと共に、未知語の開始位置等の情報
を多言語解析装置16に渡す。
多言語解析制御装置16は、受は取った未知語の文字列
に対して、1γ1記S1〜S5を順次実行する(S6−
3t)。
に対して、1γ1記S1〜S5を順次実行する(S6−
3t)。
挿入文(語句)の解析が終了した場合、即ち再び未知語
が1行出現した場合、パーザ−制?ff1l装置10は
、−特記1.αさせておいた前記構文解析装置11の情
報等を読み出して、その構文解析装置11を再び起動し
、制′41■を構文解析装置11に戻す(S6−37)
。
が1行出現した場合、パーザ−制?ff1l装置10は
、−特記1.αさせておいた前記構文解析装置11の情
報等を読み出して、その構文解析装置11を再び起動し
、制′41■を構文解析装置11に戻す(S6−37)
。
入力ファイル保存装置6に記憶されている原文全てにつ
いて構文解析を繰り返しくS7−35)、全部の(全て
のファイルの)解析が終了した場合、解析結果記1.a
、装置14に一時記憶されている解析結果を中間3語フ
ァイル保存装置15に記憶し、構文解析の全過程を終了
する(S7のYESの判定)。
いて構文解析を繰り返しくS7−35)、全部の(全て
のファイルの)解析が終了した場合、解析結果記1.a
、装置14に一時記憶されている解析結果を中間3語フ
ァイル保存装置15に記憶し、構文解析の全過程を終了
する(S7のYESの判定)。
以上に説明した実施例の動作のうち、第2図のS2で示
されるキーワード検索動作において、入力された文書が
どの言語を用いて記述されているかを判別する為に、シ
ステムに登録されているすべての言語の辞書を総当たり
的に検索して調べていたのでは時間がかかる上、語の形
態的な問題があり、コストパフォーマンスが低い。その
−解決方法としては、入力文の文字コードの範囲を調べ
て、言語を判別する方法が考えられる。しかしこの方法
では、独自な表記体系を持つ言語にはかなり有効である
が、英語、フランス語、ドイツ語のように、凸本的にア
ルファヘットを用いるインド・ヨーロッパ語族の言語で
は、入力文書の1行あるいは2〜3行からこのような方
式を用いて正しく選別できる割合は低下する。
されるキーワード検索動作において、入力された文書が
どの言語を用いて記述されているかを判別する為に、シ
ステムに登録されているすべての言語の辞書を総当たり
的に検索して調べていたのでは時間がかかる上、語の形
態的な問題があり、コストパフォーマンスが低い。その
−解決方法としては、入力文の文字コードの範囲を調べ
て、言語を判別する方法が考えられる。しかしこの方法
では、独自な表記体系を持つ言語にはかなり有効である
が、英語、フランス語、ドイツ語のように、凸本的にア
ルファヘットを用いるインド・ヨーロッパ語族の言語で
は、入力文書の1行あるいは2〜3行からこのような方
式を用いて正しく選別できる割合は低下する。
そこで本実施例では、各個別言語の持つ固をな言語的な
特性に注目し、そのような特性を入力言語を判別する度
合いの基準として採用する。
特性に注目し、そのような特性を入力言語を判別する度
合いの基準として採用する。
すなわち、言語を構成する語を大別すると、funct
ion words (機能語)とcontent w
ords(内容語)に分けられる。function
wordsとは、文の要素間の関係を表す統語的機能を
担う語であり、content wordsとは、独立
した意味を担う語である。
ion words (機能語)とcontent w
ords(内容語)に分けられる。function
wordsとは、文の要素間の関係を表す統語的機能を
担う語であり、content wordsとは、独立
した意味を担う語である。
そして、本実施例における第1図のキーワード辞♂8に
は、各言語のfunction wordsを中心とし
て、その言語固有な語が記載しである。その理由は、f
unction wor(tsは言語学的にclose
d class(閉じた類)に属し、これら(例えば、
代名詞・前置詞・接続詞等)は、新たな成員を受は入れ
にくくその数に限りがあるからである。また、上述した
ように、これらは文の階層的、論理的構造の情報を担う
ものであり、出現頻度が非常に高いので、キーワード辞
書8を構成する要素として妥当である。第3図にキーワ
ード辞書8の一部の例を概念的に示す。同図に示すよう
に、各見出し詔(a能語)のレコード(番号)と、対応
する言語の種類及び品詞等の属性が記述されている。
は、各言語のfunction wordsを中心とし
て、その言語固有な語が記載しである。その理由は、f
unction wor(tsは言語学的にclose
d class(閉じた類)に属し、これら(例えば、
代名詞・前置詞・接続詞等)は、新たな成員を受は入れ
にくくその数に限りがあるからである。また、上述した
ように、これらは文の階層的、論理的構造の情報を担う
ものであり、出現頻度が非常に高いので、キーワード辞
書8を構成する要素として妥当である。第3図にキーワ
ード辞書8の一部の例を概念的に示す。同図に示すよう
に、各見出し詔(a能語)のレコード(番号)と、対応
する言語の種類及び品詞等の属性が記述されている。
次に、入力言語には、英語のように単語の区切りが明確
な分析的言語(analytic language)
と、日本語のように単語の区切りが不明確な総合的言語
(5ynLhet、ic language )とがあ
る。そして、キーワード辞書検索装置7がキーワード辞
書8を検索する場合、上記のような単語の区切りが不明
確な総合的言語では、語のレベルではなく文字のレベル
での評価を行う方が良い判定結果を得られる。
な分析的言語(analytic language)
と、日本語のように単語の区切りが不明確な総合的言語
(5ynLhet、ic language )とがあ
る。そして、キーワード辞書検索装置7がキーワード辞
書8を検索する場合、上記のような単語の区切りが不明
確な総合的言語では、語のレベルではなく文字のレベル
での評価を行う方が良い判定結果を得られる。
そこで本実施例では、パーザ−判定装置9における第2
図33の評価処理において、まず、第2図の31の処理
で読み込んだ入力文のスペース・コンマ・コロン・セミ
コロン・ピリオド等の区切り記号を判別し、入力文中の
語数を判別することにより、入力文が総合的言語である
か分析的言語であるかを判定する。すなわち、語数が所
定の闇値以下であれば総合的言語、以上であれば分析的
言語である。
図33の評価処理において、まず、第2図の31の処理
で読み込んだ入力文のスペース・コンマ・コロン・セミ
コロン・ピリオド等の区切り記号を判別し、入力文中の
語数を判別することにより、入力文が総合的言語である
か分析的言語であるかを判定する。すなわち、語数が所
定の闇値以下であれば総合的言語、以上であれば分析的
言語である。
上記判定の結果、総合的言語と判定された場合は、前記
キーワード辞書検索装置7で検索されたキーワード(第
2図32)の総文字数FCと、読み込まれている入力文
の総文字数TCとの比R1を演算する。すなわち、 R1=FC/TC・ ・ ・(1) とする。一方、この値に対する闇値を各総合的言語毎に
定めておく。例えば、日本語であれば闇値上限をTH7
、闇値下限をTL、とじておく。そして、前記(1)式
で演算された比R1が、TL ≦R1≦T I となれば、パーザ−判定装置9は入力文の言語を日本語
と判定する。このような闇値を他の総合的言語について
も同様に定め、上記R1がどの言語の閾値の間に入るか
によって言語を判定する。なお、入りノ文の総文字数T
Cが所定の閾値Nより大きい場合すなわちTC≧Nのと
きに上記処理を行い、TC<Hの場合には、入力文の総
文字数が判定動作を行うのに十分でないとして、第2図
34のパーザ−自動選択の判定をNOとして、次の行の
入力を促す。
キーワード辞書検索装置7で検索されたキーワード(第
2図32)の総文字数FCと、読み込まれている入力文
の総文字数TCとの比R1を演算する。すなわち、 R1=FC/TC・ ・ ・(1) とする。一方、この値に対する闇値を各総合的言語毎に
定めておく。例えば、日本語であれば闇値上限をTH7
、闇値下限をTL、とじておく。そして、前記(1)式
で演算された比R1が、TL ≦R1≦T I となれば、パーザ−判定装置9は入力文の言語を日本語
と判定する。このような闇値を他の総合的言語について
も同様に定め、上記R1がどの言語の閾値の間に入るか
によって言語を判定する。なお、入りノ文の総文字数T
Cが所定の閾値Nより大きい場合すなわちTC≧Nのと
きに上記処理を行い、TC<Hの場合には、入力文の総
文字数が判定動作を行うのに十分でないとして、第2図
34のパーザ−自動選択の判定をNOとして、次の行の
入力を促す。
一方、分析的言語と判定された場合は、前記キーワード
辞書検索装置7で検索されたキーワード(第2図32)
の総語数FWと、読み込まれている入力文の総語数TW
(前記区切り記号に挟まれた部分の数として求まる)と
の比R2を演算する。
辞書検索装置7で検索されたキーワード(第2図32)
の総語数FWと、読み込まれている入力文の総語数TW
(前記区切り記号に挟まれた部分の数として求まる)と
の比R2を演算する。
すなわち、
R2=FW/TW ・・・(2)とする
。一方、この値に対する闇値を各分析的言語毎に定めて
おく。例えば、英語であれば閾値上限をTI(2、閾値
下限をTl2としておく。そして、前記(2)式で演算
された比R2が、Tl−2≦R1≦TH2 となれば、パーザ−判定装置9は入力文の言語を英語と
判定する。このような闇値を他の分析的言語についても
同様に定め、上記R2がどの言語の闇値の間に入るかに
よって言語を判定する。
。一方、この値に対する闇値を各分析的言語毎に定めて
おく。例えば、英語であれば閾値上限をTI(2、閾値
下限をTl2としておく。そして、前記(2)式で演算
された比R2が、Tl−2≦R1≦TH2 となれば、パーザ−判定装置9は入力文の言語を英語と
判定する。このような闇値を他の分析的言語についても
同様に定め、上記R2がどの言語の闇値の間に入るかに
よって言語を判定する。
以上の処理により、総合的言語と分析的言語が混在する
ようなものにも柔軟に対応することが可能となる。
ようなものにも柔軟に対応することが可能となる。
ところで、第1図の実施例のキーワード辞書8は、シス
テムに登録される言語の数が増加するにつれて規模が大
きくなり、検索にかかる時間も無視できないものとなる
。そこで、キーワード辞書8をコンパクトにするために
、キーワード辞書8に各言語の機能語を全て登録するの
ではなく、統計的に出現10度の高い上位所定数までの
キーワードを登録することにより、キーワード辞書8の
大きさを制限することができ、検索能力の低下も防ぐこ
とができる。
テムに登録される言語の数が増加するにつれて規模が大
きくなり、検索にかかる時間も無視できないものとなる
。そこで、キーワード辞書8をコンパクトにするために
、キーワード辞書8に各言語の機能語を全て登録するの
ではなく、統計的に出現10度の高い上位所定数までの
キーワードを登録することにより、キーワード辞書8の
大きさを制限することができ、検索能力の低下も防ぐこ
とができる。
なお、本実施例においては、中間言語ファイル保7j装
置I5に蓄積された中m)言語表現から、目的とする言
語表現の出力文相を生成する処理については特には述べ
てはいないが、この処理は従来通りの生成処理でよい。
置I5に蓄積された中m)言語表現から、目的とする言
語表現の出力文相を生成する処理については特には述べ
てはいないが、この処理は従来通りの生成処理でよい。
本発明によれば、構文解析手段を自動送)Rすることを
可能としたので、多種類の言語の混在するような大量の
文書を、ユーザの関与なしに自動的かつ効率的に中間言
語表現に翻訳することが可11ピとなる。
可能としたので、多種類の言語の混在するような大量の
文書を、ユーザの関与なしに自動的かつ効率的に中間言
語表現に翻訳することが可11ピとなる。
また、−文書内の処理においても、異なった言語で書か
れた挿入文(語句)を、同時に中間言語表現に翻訳する
ごとが可能となり、ユーザの負担を著しく軽減すること
ができる。
れた挿入文(語句)を、同時に中間言語表現に翻訳する
ごとが可能となり、ユーザの負担を著しく軽減すること
ができる。
この場合、キーワード辞書検索手段の対象とするキーワ
ード辞書として、各言語固有の機能語のみを登録し、ま
た、統計的な出現頻度が高いもののみを登録することに
より、高速で効率のよいキーワード検索を実現すること
ができる。
ード辞書として、各言語固有の機能語のみを登録し、ま
た、統計的な出現頻度が高いもののみを登録することに
より、高速で効率のよいキーワード検索を実現すること
ができる。
更に、パーザ−判定手段において、日本語のように単語
の区切りが不明確な総合的言語であるか、英語のように
明確な分析的言語であるかを判定し、その判定結果に応
じて言語を決定する処理を並列して行うことにより、総
合的言語と分析的言語が混在するようなものにも柔軟に
対応することができる。
の区切りが不明確な総合的言語であるか、英語のように
明確な分析的言語であるかを判定し、その判定結果に応
じて言語を決定する処理を並列して行うことにより、総
合的言語と分析的言語が混在するようなものにも柔軟に
対応することができる。
第1図は、機械翻訳装置の実施例のブロック図、第2図
は、本実施例の動作フローチャートを示した図、 第3図は、キーワード辞書の一部の例の概念図、第4図
は、従来例の構成図である。 6・・・入力ファイル保存装置、 7・・・キーワード辞書検索装置、 ・・キーワード辞書、 ・・・パーザ−判定装置、 ・・・パーザ−制御装置、 (#I)・・・日本語構文解析装置、 (#2)・・・英語構文解析装置、 (#3)・・・フランス語構文解析装置、(#1)・・
・日本語辞書、 (#2)・・・英語辞書、 (#3)・・・フランス語辞書、 (#1)・・・日本語解析用文法辞書、(#2)・・・
英語解析用文法辞書、 (#3)・・・フランス語解析用文法辞書、解析結果記
憶装置、 中間言語ファイル保存装置、 多言語解析制御装置。
は、本実施例の動作フローチャートを示した図、 第3図は、キーワード辞書の一部の例の概念図、第4図
は、従来例の構成図である。 6・・・入力ファイル保存装置、 7・・・キーワード辞書検索装置、 ・・キーワード辞書、 ・・・パーザ−判定装置、 ・・・パーザ−制御装置、 (#I)・・・日本語構文解析装置、 (#2)・・・英語構文解析装置、 (#3)・・・フランス語構文解析装置、(#1)・・
・日本語辞書、 (#2)・・・英語辞書、 (#3)・・・フランス語辞書、 (#1)・・・日本語解析用文法辞書、(#2)・・・
英語解析用文法辞書、 (#3)・・・フランス語解析用文法辞書、解析結果記
憶装置、 中間言語ファイル保存装置、 多言語解析制御装置。
Claims (1)
- 【特許請求の範囲】 1)複数種類の各言語対応の複数の構文解析手段を有し
、入力文書をその言語に対応した構文解析手段を用いて
中間言語表現に翻訳した後、該中間言語表現から所望の
言語の出力文書を生成する機械翻訳装置において、 前記各言語固有のキーワードを登録したキーワード辞書
を記憶するキーワード辞書記憶手段と、前記キーワード
辞書を検索して前記入力文書から前記キーワードに関す
る情報を抽出するキーワード辞書検索手段と、 該キーワード辞書検索手段での検索結果を評価すること
により前記入力文書の言語を判定するパーザー判定手段
と、 前記複数の構文解析手段から前記パーザー判定手段によ
り選択された言語に対応するものを選択・制御して前記
入力文書を前記中間言語表現に翻訳させるパーザー制御
手段と、 を有することを特徴とする機械翻訳装置。 2)前記キーワード辞書には、前記各言語固有の機能語
が登録されることを特徴とする請求項1記載の機械翻訳
装置。 3)前記キーワード辞書には、前記各言語毎に統計的な
出現頻度が高い上位所定数のキーワードが登録されるこ
とを特徴とする請求項1又は2記載の機械翻訳装置。 4)前記パーザー判定手段は、 前記入力文書の各語の区切りを判定することにより、該
入力文書が総合的言語であるか分析的言語であるかを判
定し、 総合的言語と判定された場合は、前記キーワード辞書検
索手段で検索されたキーワードの総文字数と前記入力文
書の総文字数の比の値を判定することにより前記入力文
書の言語を判定し、 分析的言語と判定された場合は、前記キーワード辞書検
索手段で検索されたキーワードの総語数と前記入力文書
の総語数の比の値を判定することにより前記入力文書の
言語を判定する、 ことを特徴とする請求項1、2又は3記載の機械翻訳装
置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63176467A JPH0225973A (ja) | 1988-07-15 | 1988-07-15 | 機械翻訳装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63176467A JPH0225973A (ja) | 1988-07-15 | 1988-07-15 | 機械翻訳装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0225973A true JPH0225973A (ja) | 1990-01-29 |
Family
ID=16014191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63176467A Pending JPH0225973A (ja) | 1988-07-15 | 1988-07-15 | 機械翻訳装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0225973A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004287444A (ja) * | 2003-03-24 | 2004-10-14 | Microsoft Corp | 多言語テキスト音声変換システムのためのフロントエンドアーキテクチャ |
JP2008065469A (ja) * | 2006-09-05 | 2008-03-21 | Sharp Corp | 電子機器、その制御方法、および、翻訳文出力用プログラム |
-
1988
- 1988-07-15 JP JP63176467A patent/JPH0225973A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004287444A (ja) * | 2003-03-24 | 2004-10-14 | Microsoft Corp | 多言語テキスト音声変換システムのためのフロントエンドアーキテクチャ |
JP2008065469A (ja) * | 2006-09-05 | 2008-03-21 | Sharp Corp | 電子機器、その制御方法、および、翻訳文出力用プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5418717A (en) | Multiple score language processing system | |
KR100453227B1 (ko) | 번역 지원 시스템에서의 유사 문장 검색 방법 | |
KR101004515B1 (ko) | 문장 데이터베이스로부터 문장들을 사용자에게 제공하는 컴퓨터 구현 방법 및 이 방법을 수행하기 위한 컴퓨터 실행가능 명령어가 저장되어 있는 유형의 컴퓨터 판독가능 기록 매체, 문장 데이터베이스로부터 확인 문장들을 검색하는 시스템이 저장되어 있는 컴퓨터 판독가능 기록 매체 | |
US6269189B1 (en) | Finding selected character strings in text and providing information relating to the selected character strings | |
JP5615476B2 (ja) | 対訳語句提示プログラム、対訳語句提示方法および対訳語句提示装置 | |
US8060357B2 (en) | Linguistic user interface | |
US20070073745A1 (en) | Similarity metric for semantic profiling | |
JPH083815B2 (ja) | 自然言語の共起関係辞書保守方法 | |
CN108804592A (zh) | 知识库检索实现方法 | |
JP3743678B2 (ja) | 自動自然言語翻訳 | |
JP2894301B2 (ja) | 文脈情報を用いた文書検索方法および装置 | |
JPH0225973A (ja) | 機械翻訳装置 | |
JP2005202924A (ja) | 対訳判断装置、方法及びプログラム | |
JP4213900B2 (ja) | 文書分類装置と記録媒体 | |
JPS61248160A (ja) | 文書情報登録方式 | |
JP2546245B2 (ja) | 自然言語文生成方法 | |
JPH0827803B2 (ja) | テキストベース検索方法 | |
KR20010095721A (ko) | 관련어 검색 방법 | |
Tsutsumi | A prototype English-Japanese machine translation system for translating IBM computer manuals | |
KR102338949B1 (ko) | 기술문서 번역 지원 시스템 | |
JPH0561902A (ja) | 機械翻訳システム | |
JP3707506B2 (ja) | 文書検索装置及び文書検索方法 | |
JPH0320866A (ja) | テキストベース検索方式 | |
KR20040050394A (ko) | 원시언어를 대상언어로 번역하기 위한 번역엔진 장치 및그 번역방법 | |
JPH0821031B2 (ja) | 言語解析装置 |