JPH052603A - 並列機械翻訳装置 - Google Patents

並列機械翻訳装置

Info

Publication number
JPH052603A
JPH052603A JP3147728A JP14772891A JPH052603A JP H052603 A JPH052603 A JP H052603A JP 3147728 A JP3147728 A JP 3147728A JP 14772891 A JP14772891 A JP 14772891A JP H052603 A JPH052603 A JP H052603A
Authority
JP
Japan
Prior art keywords
translation
processing
document
machine translation
processing element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3147728A
Other languages
English (en)
Inventor
Noboru Tanabe
昇 田邊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP3147728A priority Critical patent/JPH052603A/ja
Publication of JPH052603A publication Critical patent/JPH052603A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 機械翻訳システムの処理速度を飛躍的に向上
させる並列機械翻訳装置の提供を目的とする。 【構成】 MIMD方式で動作可能な複数のプロセシングエ
レメント各々上に配置される翻訳部111 〜114 と、翻訳
対象文書を複数の部分に分けて各プロセシングエレメン
トに分配するデータ分配部12と、各プロセシングエレメ
ントの翻訳部で翻訳された文書の部分を収集してもとの
文書の翻訳結果として再編成する結果収集部13と、以上
の各部と端末2〜4との間の制御を行うインタフェース
部1とを具備し、部分文書ごとに並列翻訳を行う並列機
械翻訳装置である。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は日本語や英語などの自然
言語の間の相互の翻訳を支援する機械システムに関す
る。
【0002】
【従来の技術】社会の国際化、情報化の進展、技術の進
歩に伴うマニュアル、論文などの技術文書の増大は年々
増加してきており、翻訳のスループットを向上する技術
の重要さが増してきている。
【0003】従来、機械翻訳システムは汎用大型計算機
やエンジニアリングワークステーションのような逐次型
計算機上に実現されてきた。しかし、その翻訳速度は1
文あたり十秒から数十秒と必ずしも満足な速度であると
はいえない。
【0004】このため、処理時間の関係から解析処理の
全可能性を調べ尽くさず、適当なところで打ち切って後
で帳尻を合わせるようなことで、翻訳の質をを犠牲にす
るような弊害も引き起こしていた。さらに翻訳の質の向
上のために従来以上に計算時間のかかる手法をとりいれ
ることは困難であった。
【0005】比較的安価に処理速度を向上させるために
有力な方法に並列処理の導入が考えられるが、これまで
実用化されてきた機械翻訳システムは形態素解析や構文
解析等の複数の段階に分かれており、たとえその一部を
並列化して百倍にしても、それだけでは全体の処理速度
は高々2倍程度にしかならない。それぞれの段階が複雑
であるため、これらの全てを並列化することは極めて困
難である。このようなアプローチは翻訳アルゴリズムの
改良のたびに並列化を検討しなおさねばならないため、
安易に改良を加えられなくなる原因となる。
【0006】また機械翻訳アルゴリズムに内在する並列
度は高々10程度しかないというのが定説であり、これま
で並列処理によって機械翻訳を飛躍的に高速化すること
は困難であるといわれてきた。
【0007】そこでこれまでに実用化されてきた手法と
は根本的に異なるコネクショニストモデルのような方法
で並列処理を自然言語処理に取り入れようという研究も
ある。ところがこの研究は機械翻訳システムとして実用
化されるには至っておらず、これまで実績のある手法の
完成度まで追いつく見通しはそれほど明るくない。ま
た、この手法は翻訳の質の向上には寄与しても、速度の
向上には必ずしもつながらない。
【0008】
【発明が解決しようとする課題】このように、従来実用
化されてきた逐次型計算機上の機械翻訳システムの処理
速度は遅いという欠点があった。このため速度上の問題
から翻訳の質の向上のために、より計算時間のかかる手
法を導入することが困難であった。構文解析部の並列化
のように部分的な並列化は全体の処理速度の飛躍的向上
は望めないという欠点があった。従来実用化されてきた
手法とは根本的に違うコネクショニストモデル等の手法
では、従来実用化されてきたシステムの上に積み重ねら
れてきたノウハウが生かしにくいという欠点があった。
本発明はこれまで並列化が困難とされてきた従来型の機
械翻訳システムの上に積み重ねられてきたノウハウを殆
どそのまま利用しながら、並列処理による飛躍的高速化
を実現する手法を提供する。
【0009】
【課題を解決するための手段】第一の発明では、MIMD
(multiple instruction multiple data stream )方式
で、動作可能な複数のプロセシングエレメントと、これ
らのプロセシングエレメントと操作者のインタフェース
をとる端末と、翻訳対象文書を各プロセシングエレメン
トに分配するデータ分配部と、プロセシングエレメント
上に配置される分配された文書の翻訳部と、プロセシン
グエレメントから送信される部分翻訳結果を収集する結
果収集部を具備させ、部分文書ごとに並列に翻訳を行わ
せる。第二の発明では、1個のプロセシングエレメント
が担当する文書を、1個以上の文とする。第三の発明で
は、1個のプロセシングエレメントが担当する文書を、
1個以上の段落とする。第四の発明では、1個以上の文
を翻訳するために必要な部分を各プロセシングエレメン
トのメモリ上に保持する。第五の発明では、各プロセシ
ングエレメントが担当する文の前後の部分をプロセシン
グエレメントが保持する。
【0010】
【作用】これまでに実用化されてきた機械翻訳システム
は、ほとんど文相互の依存関係を用いずに基本的には文
単位で独立に処理されてきた。そこで用いられてきた翻
訳部(ユーザーインタフェース部などを除いた部分)を
MIMD方式の並列計算機の各プロセシングエレメント上で
動作させる。
【0011】MIMD方式の並列計算機ではSIMD(singlein
struction multiple datastream)方式と異なり、他の
プロセシングエレメントと全く同じ動作をしなければな
らないという制限がないため、プロセシングエレメント
上の翻訳部は基本的には他のプロセシングエレメントと
は完全に独立に動作でき、文ごとに動作の異なる従来型
の翻訳部が並列に動作可能である。
【0012】端末上ではユーザーインタフェース部や分
配部や翻訳結果収集部が動作しており、操作者は端末を
介して翻訳対象文書や処理内容を指定し、翻訳結果収集
部によって結果を検査したり、ディスクに格納したりす
る。
【0013】分配部はプロセシングエレメントの個数
と、翻訳対象文書の量を考慮して、文や段落をプロセシ
ングエレメントに分配する。プロセッサ数が文の数に比
べて少ない場合は段落のように大きなまとまった量の文
を分配する。こうするとデータ収集部の負担が軽減し、
段落内の他の文を使った高度な翻訳を行うことも可能に
なる。逆にプロセッサ数が多い場合はプロセシングエレ
メントが担当する単位を分単位で細かくすることにより
最大文書全体に含まれる文の個数の並列度が得られるの
でスループットを飛躍的に向上できる。
【0014】プロセシングエレメントは自分に割り当て
られた文を基本的には従来法に則って1文ずつ翻訳処理
を行う。翻訳に際し他の文を用いていないのでプロセシ
ングエレメント間での通信は無い。プロセシングエレメ
ントでは独自に翻訳部が動いているのでこの処理は完全
に並列に実行される。
【0015】1個以上の文を翻訳するために必要な部分
を各プロセシングエレメントのメモリ上に保持する場
合、ディスクアクセスも起こらないので並列化したとき
の性能が入出力で制限されるということもない。
【0016】プロセッサ数が多い場合、文単位で単純に
並列処理すると他の文を用いた高度の翻訳をするために
はプロセシングエレメント間の通信が生じ、通信オーバ
ーベッドが大きい計算機の場合は性能が低下してしま
う。ところが翻訳する文の前後にある文を他のプロセシ
ングエレメントと重複して予め保持しておけば翻訳中に
プロセシングエレメント間通信を行わなくても、他の文
を用いた高度な翻訳が可能になる。
【0017】
【実施例】以下図面を参照して本発明の実施例を説明す
る。
【0018】図1は本発明の第一の実施例の並列機械翻
訳装置のブロック図である。ユーザーインタフェース部
1はCRT2上にメニューや文書や翻訳結果などを表示
し、キーボード3やマウス4から入力される操作者から
の指示を受け付ける。ここで受け付けられた指示は前処
理部5や後処理部6や外部記憶管理部7などの各部に伝
えられ、実行される。
【0019】本発明の適用において特徴的であるのは、
複数の翻訳部がMIMD型並列計算機のプロセシングエレメ
ント上に配置され(111 〜114 )、これらに翻訳対象文
書を分配する翻訳文書分配部12と、プロセシングエレメ
ント上で翻訳された結果を収集する翻訳結果収集部13が
存在することである。
【0020】まず操作者は翻訳したい文書、例えば日本
語で書かれたある文書を指定し、外部記憶管理部7を介
してバッファ記憶部9に取り込む。次に翻訳部が取り扱
えるように前処理部5を起動して適度に前処理を加え
る。
【0021】前処理の終わった文書は操作者の指示に基
づき、翻訳文書分配部12に送られる。翻訳文書分配部で
は、翻訳対象文書を文または段落に分割してホスト−プ
ロセシングエレメント間結合網14を介してプロセシング
エレメント111 〜114 に送信する。このときそれぞれの
文または段落には元の文書中での位置を識別できる番号
を付与しておく。どのように分割されたかという情報は
翻訳結果収集部13に伝えられ、結果収集の際に用いられ
る。
【0022】翻訳対象文書の分割の仕方は、翻訳対象の
文書の量と使用可能なプロセシングエレメントの個数の
関係に基づいて行われる。たとえばプロセシングエレメ
ント数が1000個で文の数が2000個、段落の数が100個だ
った場合は、段落の単位で分割してしまうと900 個のプ
ロセシングエレメントが遊んでしまう。しかし、文の単
位で分割すれば全てのプロセシングエレメントが2個の
文を担当できるので最大の並列度が得られる。また文単
位で分割すれば段落単位で分割するよりも細かい単位で
負荷を調整できるので、負荷の均一化の観点からも好ま
しい。しかし分配部や収集部が管理すべき情報量が増加
する。
【0023】逆にプロセシングエレメント数が20個で同
じ文書を分割するならば段落の単位で分割しても全ての
プロセシングエレメントが5個の段落を担当できるので
最大の並列度が得られる。さらに文単位で管理するより
は情報量が少なくてすみ、分配・収集オーバーヘッドも
少なくできる。さらに段落単位で分割すれば前後の文を
用いた高度な翻訳を行う場合でも、離れた段落間にまた
がる依存関係を使うことは殆どないので、ほぼプロセシ
ングエレメント間の通信を無くすことができる。
【0024】プロセシングエレメントでは割り当てられ
た文を指定された言語たとえば日本語から英語に翻訳す
る。n個のプロセシングエレメントからなる分散メモリ
型MIMD型並列計算機を用いた場合、最大n個の翻訳部が
並列に動作する。分散メモリ型MIMD型のプロセシングエ
レメントは1個の独立した計算機として動作できるの
で、翻訳部は従来から実用化されてきた翻訳アルゴリズ
ムをほとんどそのまま使うことも可能である。
【0025】従来の翻訳アルゴリズムであれば文ごとに
独立に翻訳されるので、翻訳のためにプロセシングエレ
メント間通信をしなくてよい。このため翻訳のスループ
ットはほぼn倍に高速化する。たとえば1000台のプロセ
ッサを持つ並列計算機を用いて1000個の文の翻訳を行う
のに1個の文の翻訳時間程度で処理できることを意味す
る。
【0026】従来実用化されてきた翻訳システムではユ
ーザーインタフェース部や辞書を含めてもプログラムの
容量は30メガバイト前後と言われているので、32メガバ
イト程度のローカルメモリを持つ並列計算機であれば辞
書を含めた翻訳部をプロセシングエレメント上に保持す
ることが可能である。
【0027】このようにすればプロセシングエレメント
で生じる通信は翻訳対象文書の入力と翻訳結果の出力の
みとなり、入出力が性能のネックになる危険性は少な
い。現時点では1000台規模の並列計算機で32メガバイト
ものローカルメモリを持たせるのはやや困難だが、16メ
ガDRAMが利用できる頃には16チップで実装できるの
で十分実現可能である。
【0028】プロセシングエレメントは翻訳が終了する
と翻訳前の文が持っていた識別番号を結果に付与し、ホ
スト−プロセシングエレメント間結合網14を介して翻訳
結果収集部13に送信する。プロセシングエレメントが同
一の性能で同時に処理を開始したとしても、文ごとに翻
訳の時間は異なるので翻訳結果は必ずしも識別番号順に
は翻訳結果収集部には届かない。そこで翻訳結果収集部
は結果メッセージをバッファリングし、番号順に並べ変
えて後処理部6へ渡す。
【0029】操作者はユーザーインターフェース部1を
介してその結果を見て、後処理部を用いて例えば英語の
誤訳を直接英語でなおしたり、正しい結果が得やすいと
思われるように翻訳対象文を日本語で修正して再度上記
の方法で翻訳を繰り返す。なお、後処理で変更箇所が少
ない場合は並列計算機上の翻訳部ではなく端末側の翻訳
10で対話的に行っても良い。また、あらたに修正が指示
された部分だけ並列計算機側に送り、その結果を前回の
結果を入れ換えてもよい。
【0030】プロセシングエレメント上の翻訳部で従来
の翻訳アルゴリズムを用いるのであればプロセシングエ
レメント間の通信はないが、他の文を用いた高度の翻訳
をする場合、例えばプロセシングエレメント1個に1文
しか割り当てられていなかったりするとプロセシングエ
レメント間の通信が生じる。通信オーバーベッドが大き
い計算機の場合は性能が低下してしまう。ところが翻訳
する文の前後にある文を他のプロセシングエレメントと
重複して予め保持しておけば翻訳中にプロセシングエレ
メント間通信を行わなくても、他の文を用いた高度な翻
訳が可能になる。
【0031】以上の実施例では主に分散メモリ構成のMI
MD型並列計算機を用いた場合について説明したが、プロ
セシングエレメント上で翻訳部が動作でき、1つ以上の
端末からの指示でデータの分配・収集ができるシステム
であれば、ネットワーク環境で相互に結合された複数の
ワークステーションやプロセッサプール(計算サーバ)
からなるシステムや、共有メモリ構成のMIMD型並列計算
機にも本発明は適用できる。また、本実施例ではユーザ
ーインタフェース部や翻訳対象文書分配部や翻訳結果収
集部がそれぞれ1つの場合を示したが複数あってよい。
【0032】また、プロセシングエレメント間通信は無
いに等しいので、プロセシングエレメント間結合網15の
結合形態は問わず、メッシュでも、トリーでも、イーサ
ネットでも、あらゆる結合形態のシステムに適用でき
る。プロセシングエレメント間通信を皆無にできる場合
は、プロセシングエレメント間結合網はなくてもよい。
さらに、本発明では逐次型の計算機上で動作するいかな
るアルゴリズムでも、記憶容量を越えない限り適用で
き、並列計算機上に容易に移植可能である。
【0033】
【発明の効果】以上のように本発明のよればこれまで並
列化が困難とされてきた従来型の機械翻訳システムの上
に積み重ねられてきたノウハウを殆どそのまま利用しな
がら、並列処理による機械翻訳の飛躍的高速化を実現で
きる。また文間にまたがる情報を利用した高度な翻訳を
行う場合でも対応できる。さらに、処理の高速性を利用
して従来より時間のかかるような翻訳アルゴリズムで
も、並列計算機に容易に取り入れることができる。
【図面の簡単な説明】
【図1】 本発明の一実施例に係る並列機械翻訳装置の
構成を示すブロック図。
【符号の説明】
1…ユーザインタフェース部,2…CRT,3…キーボ
ード,4…マウス,5…前処理部,6…後処理部,7…
外部記憶管理部,8…外部記憶, 9…バッフ
ァ記憶部,10…翻訳部,111,112,113,1
14…プロセシングエレメント(翻訳部),12…翻訳
対象文書分配部,13…翻訳結果収集部,14…ホスト
〜プロセシングエレメント間結合網,15…プロセシン
グエレメント間結合網,100…並列計算機

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 入力される文書を所定の文書に翻訳する
    複数のプロセシングエレメントと、これら複数のプロセ
    シングエレメントに翻訳対象文書を分配するデータ分配
    手段と、このデータ分配手段により分配され各プロセシ
    ングエレメントにおいて翻訳された翻訳結果を収集する
    結果収集手段とを具備し、前記翻訳対象文書を並列に翻
    訳を行うことを特徴とする並列機械翻訳装置。
  2. 【請求項2】 請求項1に記載の並列機械翻訳装置にお
    いて1個のプロセシングエレメントが担当する文書を、
    1個以上の文とすることを特徴とする並列機械翻訳装
    置。
  3. 【請求項3】 請求項1に記載の並列機械翻訳装置にお
    いて1個のプロセシングエレメントが担当する文書を、
    1個以上の段落とすることを特徴とする並列機械翻訳装
    置。
  4. 【請求項4】 請求項1に記載の並列機械翻訳装置にお
    いて1個以上の文を翻訳するために必要な部分を各プロ
    セシングエレメントのメモリ上に保持することをと特徴
    とする並列機械翻訳装置。
  5. 【請求項5】 請求項1に記載の並列機械翻訳装置にお
    いて各プロセシングエレメントが担当する文の前後の部
    分をプロセシングエレメントが保持することを特徴とす
    る並列機械翻訳装置。
JP3147728A 1991-06-20 1991-06-20 並列機械翻訳装置 Pending JPH052603A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3147728A JPH052603A (ja) 1991-06-20 1991-06-20 並列機械翻訳装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3147728A JPH052603A (ja) 1991-06-20 1991-06-20 並列機械翻訳装置

Publications (1)

Publication Number Publication Date
JPH052603A true JPH052603A (ja) 1993-01-08

Family

ID=15436826

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3147728A Pending JPH052603A (ja) 1991-06-20 1991-06-20 並列機械翻訳装置

Country Status (1)

Country Link
JP (1) JPH052603A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020020406A (ko) * 2000-09-08 2002-03-15 정규석 문서분할에 의한 병렬처리가 가능한 기계번역장치
JP6070809B1 (ja) * 2015-12-03 2017-02-01 国立大学法人静岡大学 自然言語処理装置及び自然言語処理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020020406A (ko) * 2000-09-08 2002-03-15 정규석 문서분할에 의한 병렬처리가 가능한 기계번역장치
JP6070809B1 (ja) * 2015-12-03 2017-02-01 国立大学法人静岡大学 自然言語処理装置及び自然言語処理方法
JP2017102771A (ja) * 2015-12-03 2017-06-08 国立大学法人静岡大学 自然言語処理装置及び自然言語処理方法

Similar Documents

Publication Publication Date Title
US20210311707A1 (en) Method and system of command buffer between a cpu and gpu
CA1159151A (en) Cellular network processors
EP1119807B1 (en) Program code conversion
US5452461A (en) Program parallelizing apparatus capable of optimizing processing time
DE102021104561A1 (de) Asynchrone datenbewegungspipeline
DE112021005433T5 (de) Verfahren zur leistungsbalancierung mehrerer chips
CN100428184C (zh) 具有自驱动功能的指令仿真解析系统及其实现方法
Wu et al. A new approach to compute cnns for extremely large images
Bidoit et al. Processing XML queries and updates on map/reduce clusters
Polig et al. Giving text analytics a boost
JPH052603A (ja) 並列機械翻訳装置
Abu-Amara et al. PSi: A silicon compiler for very fast protocol processing
JP3318051B2 (ja) 翻訳処理方法
Alvanos et al. Automatic communication coalescing for irregular computations in UPC language
DE112022002258T5 (de) Tensormodifikation basierend auf der verarbeitung von ressourcen
Bordawekar et al. Communication strategies for out-of-core programs on distributed memory machines
Nash Event parallelism: Distributed memory parallel computing for high energy physics experiments
Klusik et al. Controlling parallelism and data distribution in Eden.
Vittal et al. A parallel computer implementation of power system transient stability assessment using the transient energy function method
Dorochevsky et al. Constraint handling, garbage collection and execution model issues in ElipSys
Papadopoulos et al. Monsoon: An explicit token-store architecture
De Cian et al. Event and data persistency models for the LHCb Real Time Analysis System
Coullon et al. A simple framework to generate parallel application for geospatial processing
Chen AUTOTEC: an English to Chinese machine translation system
DE112022001139T5 (de) Datenkomprimierungs-api