JPH052603A

JPH052603A - 並列機械翻訳装置

Info

Publication number: JPH052603A
Application number: JP3147728A
Authority: JP
Inventors: Noboru Tanabe; 昇田邊
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1991-06-20
Filing date: 1991-06-20
Publication date: 1993-01-08

Abstract

(57)【要約】【目的】機械翻訳システムの処理速度を飛躍的に向上
させる並列機械翻訳装置の提供を目的とする。【構成】 MIMD方式で動作可能な複数のプロセシングエ
レメント各々上に配置される翻訳部111 〜114 と、翻訳
対象文書を複数の部分に分けて各プロセシングエレメン
トに分配するデータ分配部12と、各プロセシングエレメ
ントの翻訳部で翻訳された文書の部分を収集してもとの
文書の翻訳結果として再編成する結果収集部13と、以上
の各部と端末２〜４との間の制御を行うインタフェース
部１とを具備し、部分文書ごとに並列翻訳を行う並列機
械翻訳装置である。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は日本語や英語などの自然
言語の間の相互の翻訳を支援する機械システムに関す
る。

【０００２】

【従来の技術】社会の国際化、情報化の進展、技術の進
歩に伴うマニュアル、論文などの技術文書の増大は年々
増加してきており、翻訳のスループットを向上する技術
の重要さが増してきている。

【０００３】従来、機械翻訳システムは汎用大型計算機
やエンジニアリングワークステーションのような逐次型
計算機上に実現されてきた。しかし、その翻訳速度は１
文あたり十秒から数十秒と必ずしも満足な速度であると
はいえない。

【０００４】このため、処理時間の関係から解析処理の
全可能性を調べ尽くさず、適当なところで打ち切って後
で帳尻を合わせるようなことで、翻訳の質をを犠牲にす
るような弊害も引き起こしていた。さらに翻訳の質の向
上のために従来以上に計算時間のかかる手法をとりいれ
ることは困難であった。

【０００５】比較的安価に処理速度を向上させるために
有力な方法に並列処理の導入が考えられるが、これまで
実用化されてきた機械翻訳システムは形態素解析や構文
解析等の複数の段階に分かれており、たとえその一部を
並列化して百倍にしても、それだけでは全体の処理速度
は高々２倍程度にしかならない。それぞれの段階が複雑
であるため、これらの全てを並列化することは極めて困
難である。このようなアプローチは翻訳アルゴリズムの
改良のたびに並列化を検討しなおさねばならないため、
安易に改良を加えられなくなる原因となる。

【０００６】また機械翻訳アルゴリズムに内在する並列
度は高々10程度しかないというのが定説であり、これま
で並列処理によって機械翻訳を飛躍的に高速化すること
は困難であるといわれてきた。

【０００７】そこでこれまでに実用化されてきた手法と
は根本的に異なるコネクショニストモデルのような方法
で並列処理を自然言語処理に取り入れようという研究も
ある。ところがこの研究は機械翻訳システムとして実用
化されるには至っておらず、これまで実績のある手法の
完成度まで追いつく見通しはそれほど明るくない。ま
た、この手法は翻訳の質の向上には寄与しても、速度の
向上には必ずしもつながらない。

【０００８】

【発明が解決しようとする課題】このように、従来実用
化されてきた逐次型計算機上の機械翻訳システムの処理
速度は遅いという欠点があった。このため速度上の問題
から翻訳の質の向上のために、より計算時間のかかる手
法を導入することが困難であった。構文解析部の並列化
のように部分的な並列化は全体の処理速度の飛躍的向上
は望めないという欠点があった。従来実用化されてきた
手法とは根本的に違うコネクショニストモデル等の手法
では、従来実用化されてきたシステムの上に積み重ねら
れてきたノウハウが生かしにくいという欠点があった。
本発明はこれまで並列化が困難とされてきた従来型の機
械翻訳システムの上に積み重ねられてきたノウハウを殆
どそのまま利用しながら、並列処理による飛躍的高速化
を実現する手法を提供する。

【０００９】

【課題を解決するための手段】第一の発明では、MIMD
（multiple instruction multiple data stream ）方式
で、動作可能な複数のプロセシングエレメントと、これ
らのプロセシングエレメントと操作者のインタフェース
をとる端末と、翻訳対象文書を各プロセシングエレメン
トに分配するデータ分配部と、プロセシングエレメント
上に配置される分配された文書の翻訳部と、プロセシン
グエレメントから送信される部分翻訳結果を収集する結
果収集部を具備させ、部分文書ごとに並列に翻訳を行わ
せる。第二の発明では、１個のプロセシングエレメント
が担当する文書を、１個以上の文とする。第三の発明で
は、１個のプロセシングエレメントが担当する文書を、
１個以上の段落とする。第四の発明では、１個以上の文
を翻訳するために必要な部分を各プロセシングエレメン
トのメモリ上に保持する。第五の発明では、各プロセシ
ングエレメントが担当する文の前後の部分をプロセシン
グエレメントが保持する。

【００１０】

【作用】これまでに実用化されてきた機械翻訳システム
は、ほとんど文相互の依存関係を用いずに基本的には文
単位で独立に処理されてきた。そこで用いられてきた翻
訳部（ユーザーインタフェース部などを除いた部分）を
MIMD方式の並列計算機の各プロセシングエレメント上で
動作させる。

【００１１】MIMD方式の並列計算機ではSIMD（singlein
struction multiple datastream）方式と異なり、他の
プロセシングエレメントと全く同じ動作をしなければな
らないという制限がないため、プロセシングエレメント
上の翻訳部は基本的には他のプロセシングエレメントと
は完全に独立に動作でき、文ごとに動作の異なる従来型
の翻訳部が並列に動作可能である。

【００１２】端末上ではユーザーインタフェース部や分
配部や翻訳結果収集部が動作しており、操作者は端末を
介して翻訳対象文書や処理内容を指定し、翻訳結果収集
部によって結果を検査したり、ディスクに格納したりす
る。

【００１３】分配部はプロセシングエレメントの個数
と、翻訳対象文書の量を考慮して、文や段落をプロセシ
ングエレメントに分配する。プロセッサ数が文の数に比
べて少ない場合は段落のように大きなまとまった量の文
を分配する。こうするとデータ収集部の負担が軽減し、
段落内の他の文を使った高度な翻訳を行うことも可能に
なる。逆にプロセッサ数が多い場合はプロセシングエレ
メントが担当する単位を分単位で細かくすることにより
最大文書全体に含まれる文の個数の並列度が得られるの
でスループットを飛躍的に向上できる。

【００１４】プロセシングエレメントは自分に割り当て
られた文を基本的には従来法に則って１文ずつ翻訳処理
を行う。翻訳に際し他の文を用いていないのでプロセシ
ングエレメント間での通信は無い。プロセシングエレメ
ントでは独自に翻訳部が動いているのでこの処理は完全
に並列に実行される。

【００１５】１個以上の文を翻訳するために必要な部分
を各プロセシングエレメントのメモリ上に保持する場
合、ディスクアクセスも起こらないので並列化したとき
の性能が入出力で制限されるということもない。

【００１６】プロセッサ数が多い場合、文単位で単純に
並列処理すると他の文を用いた高度の翻訳をするために
はプロセシングエレメント間の通信が生じ、通信オーバ
ーベッドが大きい計算機の場合は性能が低下してしま
う。ところが翻訳する文の前後にある文を他のプロセシ
ングエレメントと重複して予め保持しておけば翻訳中に
プロセシングエレメント間通信を行わなくても、他の文
を用いた高度な翻訳が可能になる。

【００１７】

【実施例】以下図面を参照して本発明の実施例を説明す
る。

【００１８】図１は本発明の第一の実施例の並列機械翻
訳装置のブロック図である。ユーザーインタフェース部
１はＣＲＴ２上にメニューや文書や翻訳結果などを表示
し、キーボード３やマウス４から入力される操作者から
の指示を受け付ける。ここで受け付けられた指示は前処
理部５や後処理部６や外部記憶管理部７などの各部に伝
えられ、実行される。

【００１９】本発明の適用において特徴的であるのは、
複数の翻訳部がMIMD型並列計算機のプロセシングエレメ
ント上に配置され（111 〜114 ）、これらに翻訳対象文
書を分配する翻訳文書分配部12と、プロセシングエレメ
ント上で翻訳された結果を収集する翻訳結果収集部13が
存在することである。

【００２０】まず操作者は翻訳したい文書、例えば日本
語で書かれたある文書を指定し、外部記憶管理部７を介
してバッファ記憶部９に取り込む。次に翻訳部が取り扱
えるように前処理部５を起動して適度に前処理を加え
る。

【００２１】前処理の終わった文書は操作者の指示に基
づき、翻訳文書分配部12に送られる。翻訳文書分配部で
は、翻訳対象文書を文または段落に分割してホスト−プ
ロセシングエレメント間結合網14を介してプロセシング
エレメント111 〜114 に送信する。このときそれぞれの
文または段落には元の文書中での位置を識別できる番号
を付与しておく。どのように分割されたかという情報は
翻訳結果収集部13に伝えられ、結果収集の際に用いられ
る。

【００２２】翻訳対象文書の分割の仕方は、翻訳対象の
文書の量と使用可能なプロセシングエレメントの個数の
関係に基づいて行われる。たとえばプロセシングエレメ
ント数が1000個で文の数が2000個、段落の数が100個だ
った場合は、段落の単位で分割してしまうと900 個のプ
ロセシングエレメントが遊んでしまう。しかし、文の単
位で分割すれば全てのプロセシングエレメントが２個の
文を担当できるので最大の並列度が得られる。また文単
位で分割すれば段落単位で分割するよりも細かい単位で
負荷を調整できるので、負荷の均一化の観点からも好ま
しい。しかし分配部や収集部が管理すべき情報量が増加
する。

【００２３】逆にプロセシングエレメント数が20個で同
じ文書を分割するならば段落の単位で分割しても全ての
プロセシングエレメントが５個の段落を担当できるので
最大の並列度が得られる。さらに文単位で管理するより
は情報量が少なくてすみ、分配・収集オーバーヘッドも
少なくできる。さらに段落単位で分割すれば前後の文を
用いた高度な翻訳を行う場合でも、離れた段落間にまた
がる依存関係を使うことは殆どないので、ほぼプロセシ
ングエレメント間の通信を無くすことができる。

【００２４】プロセシングエレメントでは割り当てられ
た文を指定された言語たとえば日本語から英語に翻訳す
る。ｎ個のプロセシングエレメントからなる分散メモリ
型MIMD型並列計算機を用いた場合、最大ｎ個の翻訳部が
並列に動作する。分散メモリ型MIMD型のプロセシングエ
レメントは１個の独立した計算機として動作できるの
で、翻訳部は従来から実用化されてきた翻訳アルゴリズ
ムをほとんどそのまま使うことも可能である。

【００２５】従来の翻訳アルゴリズムであれば文ごとに
独立に翻訳されるので、翻訳のためにプロセシングエレ
メント間通信をしなくてよい。このため翻訳のスループ
ットはほぼｎ倍に高速化する。たとえば1000台のプロセ
ッサを持つ並列計算機を用いて1000個の文の翻訳を行う
のに１個の文の翻訳時間程度で処理できることを意味す
る。

【００２６】従来実用化されてきた翻訳システムではユ
ーザーインタフェース部や辞書を含めてもプログラムの
容量は30メガバイト前後と言われているので、32メガバ
イト程度のローカルメモリを持つ並列計算機であれば辞
書を含めた翻訳部をプロセシングエレメント上に保持す
ることが可能である。

【００２７】このようにすればプロセシングエレメント
で生じる通信は翻訳対象文書の入力と翻訳結果の出力の
みとなり、入出力が性能のネックになる危険性は少な
い。現時点では1000台規模の並列計算機で32メガバイト
ものローカルメモリを持たせるのはやや困難だが、16メ
ガＤＲＡＭが利用できる頃には16チップで実装できるの
で十分実現可能である。

【００２８】プロセシングエレメントは翻訳が終了する
と翻訳前の文が持っていた識別番号を結果に付与し、ホ
スト−プロセシングエレメント間結合網14を介して翻訳
結果収集部13に送信する。プロセシングエレメントが同
一の性能で同時に処理を開始したとしても、文ごとに翻
訳の時間は異なるので翻訳結果は必ずしも識別番号順に
は翻訳結果収集部には届かない。そこで翻訳結果収集部
は結果メッセージをバッファリングし、番号順に並べ変
えて後処理部６へ渡す。

【００２９】操作者はユーザーインターフェース部１を
介してその結果を見て、後処理部を用いて例えば英語の
誤訳を直接英語でなおしたり、正しい結果が得やすいと
思われるように翻訳対象文を日本語で修正して再度上記
の方法で翻訳を繰り返す。なお、後処理で変更箇所が少
ない場合は並列計算機上の翻訳部ではなく端末側の翻訳
10で対話的に行っても良い。また、あらたに修正が指示
された部分だけ並列計算機側に送り、その結果を前回の
結果を入れ換えてもよい。

【００３０】プロセシングエレメント上の翻訳部で従来
の翻訳アルゴリズムを用いるのであればプロセシングエ
レメント間の通信はないが、他の文を用いた高度の翻訳
をする場合、例えばプロセシングエレメント１個に１文
しか割り当てられていなかったりするとプロセシングエ
レメント間の通信が生じる。通信オーバーベッドが大き
い計算機の場合は性能が低下してしまう。ところが翻訳
する文の前後にある文を他のプロセシングエレメントと
重複して予め保持しておけば翻訳中にプロセシングエレ
メント間通信を行わなくても、他の文を用いた高度な翻
訳が可能になる。

【００３１】以上の実施例では主に分散メモリ構成のMI
MD型並列計算機を用いた場合について説明したが、プロ
セシングエレメント上で翻訳部が動作でき、１つ以上の
端末からの指示でデータの分配・収集ができるシステム
であれば、ネットワーク環境で相互に結合された複数の
ワークステーションやプロセッサプール（計算サーバ）
からなるシステムや、共有メモリ構成のMIMD型並列計算
機にも本発明は適用できる。また、本実施例ではユーザ
ーインタフェース部や翻訳対象文書分配部や翻訳結果収
集部がそれぞれ１つの場合を示したが複数あってよい。

【００３２】また、プロセシングエレメント間通信は無
いに等しいので、プロセシングエレメント間結合網15の
結合形態は問わず、メッシュでも、トリーでも、イーサ
ネットでも、あらゆる結合形態のシステムに適用でき
る。プロセシングエレメント間通信を皆無にできる場合
は、プロセシングエレメント間結合網はなくてもよい。
さらに、本発明では逐次型の計算機上で動作するいかな
るアルゴリズムでも、記憶容量を越えない限り適用で
き、並列計算機上に容易に移植可能である。

【００３３】

【発明の効果】以上のように本発明のよればこれまで並
列化が困難とされてきた従来型の機械翻訳システムの上
に積み重ねられてきたノウハウを殆どそのまま利用しな
がら、並列処理による機械翻訳の飛躍的高速化を実現で
きる。また文間にまたがる情報を利用した高度な翻訳を
行う場合でも対応できる。さらに、処理の高速性を利用
して従来より時間のかかるような翻訳アルゴリズムで
も、並列計算機に容易に取り入れることができる。

【図面の簡単な説明】

【図１】本発明の一実施例に係る並列機械翻訳装置の
構成を示すブロック図。

【符号の説明】

１…ユーザインタフェース部，２…ＣＲＴ，３…キーボ
ード，４…マウス，５…前処理部，６…後処理部，７…
外部記憶管理部，８…外部記憶，９…バッフ
ァ記憶部，１０…翻訳部，１１１，１１２，１１３，１
１４…プロセシングエレメント（翻訳部），１２…翻訳
対象文書分配部，１３…翻訳結果収集部，１４…ホスト
〜プロセシングエレメント間結合網，１５…プロセシン
グエレメント間結合網，１００…並列計算機

Claims

【特許請求の範囲】

【請求項１】入力される文書を所定の文書に翻訳する
複数のプロセシングエレメントと、これら複数のプロセ
シングエレメントに翻訳対象文書を分配するデータ分配
手段と、このデータ分配手段により分配され各プロセシ
ングエレメントにおいて翻訳された翻訳結果を収集する
結果収集手段とを具備し、前記翻訳対象文書を並列に翻
訳を行うことを特徴とする並列機械翻訳装置。
【請求項２】請求項１に記載の並列機械翻訳装置にお
いて１個のプロセシングエレメントが担当する文書を、
１個以上の文とすることを特徴とする並列機械翻訳装
置。
【請求項３】請求項１に記載の並列機械翻訳装置にお
いて１個のプロセシングエレメントが担当する文書を、
１個以上の段落とすることを特徴とする並列機械翻訳装
置。
【請求項４】請求項１に記載の並列機械翻訳装置にお
いて１個以上の文を翻訳するために必要な部分を各プロ
セシングエレメントのメモリ上に保持することをと特徴
とする並列機械翻訳装置。
【請求項５】請求項１に記載の並列機械翻訳装置にお
いて各プロセシングエレメントが担当する文の前後の部
分をプロセシングエレメントが保持することを特徴とす
る並列機械翻訳装置。