JPH07295986A

JPH07295986A - イディオム処理機能を持つ機械翻訳装置

Info

Publication number: JPH07295986A
Application number: JP6090053A
Authority: JP
Inventors: Youji Fukumochi; 陽士福持; Toshiyuki Okunishi; 稔幸奥西; Ichiko Sada; いち子佐田; Takeshi Kuzumi; 毅九津見
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1994-04-27
Filing date: 1994-04-27
Publication date: 1995-11-10
Anticipated expiration: 2018-02-17
Also published as: US5644774A; JP3377290B2

Abstract

(57)【要約】【目的】イディオム処理機能を持つ機械翻訳装置に関
し、特殊な文法規則を具備することなしに、不連続イデ
ィオムを処理することを目的とする。【構成】第１言語の単語列を入力する入力手段と、少
なくとも２つの固定部とその間の可変部から構成される
第１言語のイディオムを見出し語として記憶するととも
に、その見出し語に対応する第２言語の訳語を記憶する
辞書手段と、前記辞書手段に前記第１言語の見出し語と
それに対応する第２言語の訳語を新規登録又は更新登録
させる登録手段と、入力手段から入力された第１言語の
単語列と前記辞書手段に記憶されたイディオムの見出し
語とを比較検索する辞書引き手段と、辞書引き手段によ
ってイディオムの見出し語に同定された単語列の固定部
の並びを正規化させるイディオム処理手段とを備えたこ
とを特徴とする。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、機械翻訳装置に関
し、特にイディオムを登録し検索・翻訳することのでき
るイディオム処理機能を持つ機械翻訳装置に関する。

【０００２】

【従来の技術】従来、実用化されている言語処理装置に
は、人間の文書作成活動を支援するためのワードプロセ
ッサや、ある言語で書かれた文書を別の言語に翻訳する
ための機械翻訳装置などがある。

【０００３】これらの言語処理装置には、見出語とそれ
に付帯する各種の情報の組とを１単位の項目としたもの
を多数記憶した辞書が備えられる。この見出語には、
英語、日本語などの各自然言語の単語のみでなく、熟語
や相関語句などのように、単語列である意味を表現する
語彙、すなわちイディオムが含まれる。その中には、
“high school”のように単語が連続したイディオムも
あれば、“so……that”のように固定化された単語が連
続しないイディオム（不連続イディオム）もある。

【０００４】翻訳処理を行なう場合、特に原言語の不連
続イディオムがどのように目標言語の語句に対応するの
か種々様々であり、その取り扱いが難しい。例えば、不
連続イディオムには以下に示すようなものがあり、多様
な表現に訳される。

【０００５】I have“both”A “and”B.……（１ａ）私はＡ“と” Ｂ“の両方”を持っている。 I have“neither”A “nor”B.……（１ｂ）私はＡ“も” Ｂ“も”持って“いない”。

【０００６】This is “so”hot “that”children can
not drink it. ……（２ａ）これは非常に熱い“ので”子供には飲めない。 This is “too”hot “to”drink it. ……（２ｂ）これは非常に熱い“ので”飲め“ない。” This is “the same”book“that”you bought. ……
（２ｃ）これは、あなたが買った“のと同じ”本である。

【０００７】このようなイディオムを含んだ文を翻訳す
るために、従来は、イディオムの可変部分が単語のみな
らず、単語列であるものも処理できるように、図１５に
示すような代表記号を導入して、イディオムを登録して
いた。たとえば前記した例文に対応できるように、次の
ようなイディオムの登録を行っていた。

【０００８】(1a)の文に対応するイディオムの登録：英単語 both *N1 and *N2 （注１）品詞名詞句訳語＊Ｎ１と＊Ｎ２の両方品詞その他（注２）注１：ここで、*Nは名詞句を指す。注２：「その他」は、活用しない名詞、副詞等を指す。

【０００９】(1b)の文に対応するイディオムの登録：英単語 neither *N1 nor *N2 品詞名詞句訳語＊Ｎ１も＊Ｎ２も品詞その他

【００１０】(2a)の文に対応するイディオムの登録：英単語 so *A that *c 品詞形容詞訳語＊Ｃ〔体：〕ほど＊Ａ品詞（注３）注３：訳語の品詞は、＊Ａに入る訳語の品詞によって決
まるため、ここで規定しない。

【００１１】(2b)の文に対応するイディオムの登録：英単語 too *a to *I 品詞形容詞訳語＊Ｉ〔体：〕にはあまりにも＊ａ品詞（注４）注４：訳語の品詞は、＊ａに入る訳語の品詞によって決
まるため、ここで規定しない。

【００１２】(2c)の文に対応するイディオムの登録：英単語 the same *n that *C 品詞名詞訳語＊Ｃ〔体：〕のと同じ＊ｎ品詞（注５）注５：訳語の品詞は、＊ｎに入る訳語の品詞によって決
まるため、ここで規定しない。

【００１３】ここで示した従来例では、上記したような
登録されたイディオムのうち入力された単語列と一致可
能なものを検索し、代表記号に対応する単語又は単語列
の構文を解析し、この解析された文構成から、上記のよ
うな登録された訳語を利用してイディオムに相当する部
分の訳語を生成する。

【００１４】ここで、従来技術の翻訳装置は、イディオ
ムを不連続にしている可変部分に単語列（句）が対応す
る場合、すなわち、見出し語に記述された単語列を示す
代表記号、すなわち図１５に示した「non-terminal代表
記号」が、可変部分に対応する場合、入力単語列の該当
する部分が切り出され、その部分のみの構文解析が実行
され、成功した場合、その可変部分に対する訳文が生成
され、見出し語の訳語の中に埋め込まれる。そして、こ
のようにイディオムに対応する部分が翻訳された後、こ
の部分を１つの単語のようにみなして文全体の翻訳が再
帰的処理によって行われる。

【００１５】また、上記のような特殊な登録手段を持た
ない場合、従来技術では、不連続イディオムを処理する
ために、下記のような特殊な規則を用意する必要があ
る。(1a)の文では“have”の目的語である“both A and
B”全体が、名詞句として機能しているため、名詞句 −＞相関単語１＋名詞句＋相関単語２＋名詞句のような名詞句を構成する規則が必要となる。ここで、
たとえば(1a)の文では、bothが相関単語１に、andが相
関単語２に、Ａが１つ目の名詞句に、そしてＢが２つ目
の名詞句に対応する。

【００１６】このように、用意する規則の中に、相関語
句１や相関語句２のような特殊な品詞を設定しておき、
(1a)のような文の場合には、相関語句１という品詞に対
応する“both”に対して「の両方」という訳語を割りあ
て、さらに相関語句２という品詞に対応する“and”に
対して「と」という訳語を割りあて、その後にこのイデ
ィオムに対応する部分を「ＡとＢの両方」のように翻訳
するという手順をとる。

【００１７】また(2a)の文では、“so hot that childr
en cannot drink it”が、“is”の補語として機能して
いるため、形容詞句−＞相関単語１＋形容詞＋相関単語２＋文のような形容詞句を構成する規則が必要となる。ここ
で、soが相関単語１に対応し、thatが相関単語２に対応
する。

【００１８】以下、同様に、(2b)の文に対応するため
に、形容詞句 −＞相関単語１＋形容詞＋相関単語２＋動詞
句 (2c)の文に対応するために、名詞句 −＞相関単語１＋名詞＋相関単語２＋文（目
的語欠け）といった文法規則が必要で、前記５つの熟語表現をカバ
ーするだけで、既に４つの規則を持つ必要がある。

【００１９】また、相関単語１と相関単語２は、個別の
共起であるため、例えば、(1a)や(1b)については、“bo
th A and B”や“neither A nor B ”は正しいが、“bo
th Anor B”の対応関係は、非文であることを“both”
や“neither”の辞書に共起の相手が、“and”や“no
r”であるという情報を記述しておく必要があった。

【００２０】

【発明が解決しようとする課題】しかしながら、従来の
翻訳装置では、可変部分が句となる見出しの登録を可能
としたことから見出しの汎用性が非常に高くなる反面、
入力原文における可変部分に対応する部分を切り出した
後、その部分の解析、変換、生成の処理を経て始めて、
可変部分のマッチングが終了する構成となっている。

【００２１】このため、その可変部分の構文解析が失敗
するような場合等には、何度も、可変部分の解析処理を
再帰的に繰り返すことになり、その処理に要するオーバ
ーヘッドは大きくなる。すなわち、可変部分が句となる
ような登録が増えるに従って、見出しとのマッチング時
間が増大し、予期せぬ登録が翻訳全体の処理効率を低下
させる可能性があるという問題点がある。

【００２２】また、前記したように、非常に多くの特殊
な例外的規則を用意する場合にも、処理効率上問題があ
る。また、前記文法規則の類いの規則を網羅的に用意
し、共起に関する情報を辞書に登録したとしても、以下
のような問題がある。

【００２３】たとえば、図１６に示したような文章(3a)
の場合には、“is designed”という受け身の動詞句の
係り受けと“so that”という従属接続詞の係り受けが
交差するため、これを処理する文法規則を記述すること
ができない。

【００２４】すなわち、a b c d という４つの単語列か
らなる文がある場合、係り受けが交差せず、ａがｂに係
りｃがｄに係るとすると、この文は次の３つの文法規則
に当てはめることができる。Ｘ→ ab （ａがｂに係ってこの順序でＸを作る）Ｙ→ cd （ｃがｄに係ってこの順序でＹを作る）Ｚ→ XY （ＸがＹに係ってこの順序でＺを作る）Ｚ＝〔Ｘ，Ｙ〕＝〔（ａ，ｂ），（ｃ，ｄ）〕＝a b c
d

【００２５】しかし、ａがｃに係り、ｂがｄに係るとい
うように、係り受けが交差する場合には、前記のような
文法規則を使ってこの文の構造を表わすことができな
い。

【００２６】以上説明した従来の機械翻訳装置では、前
記のような不連続イディオムを処理するには、不連続の
単語間を結び付ける数多くの文法規則を必要とし、ま
た、同時に、これを処理する例外規則を作ったとして
も、(4a)のような文章では、正しく翻訳できるように解
析することができない。これは原言語の文に含まれる不
連続イディオムが多岐にわたり、例外処理が多くなるこ
とに起因する。

【００２７】この発明は、以上のような事情を考慮して
なされたものであり、不連続イディオムの可変部が単語
列（句）となるような場合にも、入力原文中で不連続イ
ディオムの可変部の候補となる単語列に対して、従来技
術のような再帰的な処理を行なわず、また、不連続イデ
ィオムを処理するための特殊な文法規則を具備せずに、
不連続イディオムを複数個の固定部及び可変部からなる
見出し語によって表現し、入力された単語列のうち、固
定された固定部の並びを正規化することによって、係る
不連続イディオムを処理する機能を持つ機械翻訳装置を
提供することを目的としている。

【００２８】

【課題を解決するための手段】図１に、この発明の基本
構成ブロック図を示す。同図に示すように、この発明
は、第１言語の単語列を入力する入力手段１と、少なく
とも２つの固定部とその間の可変部から構成される第１
言語のイディオムを見出し語として記憶するとともに、
その見出し語に対応する第２言語の訳語を記憶する辞書
手段３と、前記辞書手段３に前記第１言語の見出し語と
それに対応する第２言語の訳語を新規登録又は更新登録
させる登録手段２と、入力手段１から入力された第１言
語の単語列と前記辞書手段３に記憶されたイディオムの
見出し語とを比較検索する辞書引き手段４と、辞書引き
手段４によってイディオムの見出し語に同定された単語
列の固定部の並びを正規化させるイディオム処理手段５
とを備えたことを特徴とするイディオム処理機能を有す
る機械翻訳装置を提供するものである。

【００２９】また前記辞書手段３が、第１言語のイディ
オムをその固定部のうち中心となる主要部とその他の非
主要部とを区別できる形式で記憶し、前記辞書引き手段
４が、単語ごとの品詞情報と、見出し語に同定された単
語列の固定部に付与される、主要部と非主要部の区別を
表す種別情報及び入力された単語列の単語間の連係関係
を示すポインタ情報を備えた構文情報を作成するように
することが好ましい。

【００３０】前記イディオム処理手段５が、前記正規化
を行う際に、入力された単語列の中で前記見出し語の固
定部に同定された単語列のうち、非主要部を主要部の単
語の位置に移動したものとみなす情報を付加して前記構
文情報を変換することが好ましい。また、前記イディオ
ム処理手段５が、前記正規化を行う際に、入力された単
語列の中で前記見出し語の固定部に同定された単語列の
うち、非主要部を削除したものとみなす情報を付加して
前記構文情報を変換するようにしてもよい。

【００３１】ここで、図１において、入力手段１として
は、キーボード、又はポインティングデバイス等が用い
られるが、これに限定されるものではなく、その他の入
力装置を用いてもよい。辞書手段３は通常ＲＯＭ、ＲＡ
Ｍ、フロッピーディスク又はハードディスク等に記憶さ
れるが、これに限定されるものではなく、その他の記憶
装置を用いて記憶してもよい。また、辞書手段３は通常
翻訳に用いられる第１言語の単語及び単語列の見出し語
とそれに対応する第２言語の訳語を対にして記憶したも
のであるが、これ以外に品詞や検索に必要な情報等を記
憶してもよい。また、辞書手段３は一般に後から利用者
が見出し語及び訳語を新たに追加登録又は更新登録でき
るものであることが好ましい。

【００３２】また、登録手段２、辞書引き手段４、イデ
ィオム処理手段５としては、通常ＣＰＵが用いられ、Ｒ
ＯＭ、ＲＡＭ、Ｉ／Ｏインタフェース等の周辺回路を含
んだマイクロコンピュータを用い、ＲＯＭ又はＲＡＭに
はこの機械翻訳装置の動作を制御するプログラムが内蔵
されていることが好ましい。

【００３３】ここで、イディオムとは、熟語、成句、慣
用語句、及び相関語句等の日常よく使用されるある意味
を表現する語彙の総称を意味する。また、少なくとも２
つの固定部とその間の可変部から構成される第１言語の
イディオムを、特に不連続イディオムと呼ぶことにす
る。不連続イディオムとは、たとえば固定部1、可変部
１、固定部２、可変部２というような順序で単語が並
び、固定部及び可変部が離れているものを言う。

【００３４】また、固定部とはイディオムの中で予め決
っている１つの単語又は連続する単語列からなる部分
（固定語）を意味し、可変部とは入力文によって異なる
単語又は単語列が対応する部分（可変語）を意味する。
また、固定部のうち主要部とは、複数個の固定部の中で
イディオムを翻訳した場合にその訳語の中心となる最も
重要な単語又は単語列である。また、固定部の非主要部
とは、前記主要部以外の固定部である。たとえば、不連
続イディオムに対応する文が“so hot that children c
annotdrink it”である場合、“so”及び“that”が固
定部であり、“hot”及び“children cannot drink i
t”が可変部である。また、固定部の中で、“so”が非
主要部であり、“that”が主要部である。

【００３５】また、固定部の並びを正規化するとは、不
連続イディオムにおいて、離れた位置にある固定部の単
語を移動もしくは削除すること、又は可変部の単語を移
動すること等により、１つの固定部を備えたイディオム
と見なせるように単語列の並びを記憶することである。

【００３６】たとえば、正規化とは、次のような処理を
少なくとも１つ実行して、入力された単語列を並べかえ
ることである。（１）入力された単語列に含まれる複数個の固定部のう
ちいずれかを削除する。（２）入力された単語列に含まれる複数個の可変部に相
当する単語を別の位置に移動する。（３）入力された単語列に含まれる固定部１を固定部２
の前に移動する。（４）入力された単語列に含まれる固定部２を固定部１
の後に移動する。

【００３７】

【作用】登録手段２が入力手段１から入力される、少な
くとも２つの固定部とその間の可変部から構成される第
１言語のイディオムを、見出し語として辞書手段３に記
憶するとともに、その見出し語に対応する第２言語の訳
語を辞書手段３に記憶する。

【００３８】次に辞書引き手段４が、入力手段１から入
力された第１言語の単語列と前記辞書手段３に記憶され
たイディオムの見出し語とを比較し、その単語列と同定
可能なイディオムの見出し語を検索する。次にイディオ
ム処理手段５が、辞書引き手段４によってイディオムの
見出し語と同定された単語列の固定部の並びを正規化さ
せる。

【００３９】以上のように、この発明によれば、入力さ
れた第１言語の単語列のうち、イディオムの見出し語に
同定された固定部の並びを正規化させるようにしている
ので、不連続イディオムの場合でも翻訳処理するための
特殊な文法規則を定義することなく、通常の文法規則を
利用することによって不連続イディオムの翻訳文を生成
することが可能となる。また、イディオムを構成する単
語間の係り受けが交差する場合にも適切な翻訳文を生成
することが可能となる。

【００４０】またこの発明は、前記辞書手段３が、第１
言語のイディオムをその固定部のうち中心となる主要部
とその他の非主要部とを区別できる形式で記憶し、前記
辞書引き手段４が、単語ごとの品詞情報と、見出し語に
同定された単語列の固定部に付与される、主要部と非主
要部の区別を表す種別情報及び入力された単語列の単語
間の連係関係を示すポインタ情報を備えた構文情報を作
成するようにしているので、不連続イディオムを処理す
るための特殊な文法規則を定義することなく、通常の文
法規則が利用可能な連続イディオムと同様に不連続イデ
ィオムの翻訳文を生成することが可能となる。

【００４１】また、前記イディオム処理手段５が、前記
正規化を行う際に、入力された単語列の中で前記見出し
語の固定部に同定された単語列のうち、非主要部を主要
部の単語の位置に移動したものとみなす情報を付加する
か、もしくは非主要部を削除したものとみなす情報を付
加して前記構文情報を変換するようにするので、不連続
イディオムを処理するための特殊な文法規則を定義する
ことなく、通常の文法規則が利用可能な連続イディオム
と同様に不連続イディオムの翻訳文を生成することが可
能となる。

【００４２】

【実施例】以下、図面に示す実施例に基づいてこの発明
を詳述する。なお、これによってこの発明が限定される
ものではない。図２にこの発明の一実施例である機械翻
訳装置のブロック図を示す。

【００４３】この機械翻訳装置は、メインＣＰＵ（中央
処理装置）２１と、メインＣＰＵ２１が接続されたバス
２７と、バス２７に接続されたメインメモリ２２（メモ
リバッファを含む）と、バス２７に接続されたＣＲＴ
（陰極線管）やＬＣＤ（液晶表示装置）などからなる表
示装置２３と、キーボード２４と、バス２７に接続され
た翻訳モジュール２５と翻訳モジュール２５に接続され
た翻訳用辞書、解析文法規則、変換文法規則、生成文法
規則などを格納している外部メモリ２６とを含む。翻訳
モジュール２５は、原言語の文章が入力されるとそれを
所定の手順で翻訳して目的とする言語に変換して出力す
るものである。

【００４４】図３は、この発明の一実施例である機能翻
訳装置の翻訳モジュールに係わる構成を示したブロック
図である。ここで原文入力部３１は翻訳するべき原文を
入力する部分であり、図２におけるキーボード２４に対
応する。

【００４５】辞書登録部３２は、メモリ記憶部３３に記
憶された辞書の見出し語や訳語等の辞書情報を追加、修
正、削除する部分であり、これは、図２におけるメイン
ＣＰＵ２１によってこの機能が実現される。

【００４６】メモリ記憶部３３は、翻訳用辞書３３ａ、
バッファメモリ３３ｂ、解析文法規則３３ｃ、変換文法
規則３３ｄ、及び生成文法規則３３ｅからなり、図２に
おけるメインメモリ２２と外部メモリ２６に対応するも
のである。ここで、メインメモリ２２は、この機械翻訳
装置で用いられる各種情報を記憶するものであり、通常
ＲＡＭが用いられる。外部メモリ２６は、翻訳用辞書３
３ａ、解析文法規則３３ｃ、変換文法規則３３ｄ、生成
文法規則３３ｅを格納するものであり、通常ハードディ
スク又はフロッピーディスクが用いられる。

【００４７】訳文出力部３８は、翻訳モジュールで生成
された翻訳文を出力するものであり、図２における表示
装置２３やプリンタ等に対応する。

【００４８】また、図２の翻訳モジュール２５は、図３
における辞書引き・形態素解析部３４と、構文解析部３
５、変換部３６、及び生成部３７から構成される。ここ
で、辞書引き・形態素解析部３４は、前記原文入力部３
１より入力された原文を各形態素列（単語列）に分割し
て、各単語に対する品詞等の文法情報及び訳語を得て、
更に、時制／人称／数等の情報を解析する部分である。

【００４９】構文解析部３５は、得られた形態素情報と
文法規則にしたがって、各単語間の係り受け関係を示す
構造解析木を決定する部分である。変換部３６は、入力
された原文に対する構文解析木の構造を、翻訳文に対す
る構文解析木の構造に変換する部分である。生成部３７
は、ターゲット言語の生成規則に従って、ターゲット言
語の構造を組み立て、翻訳文として適切な助詞や助動詞
を付加して出力する部分である。

【００５０】また、前記辞書引き・形態素解析部３４
は、メモリ記憶部３３にある翻訳用辞書３３ａを検索す
る辞書引き部３４ａと、辞書から得られた情報を基に、
原文の形態素解析処理を行う形態素解析部３４ｂと、不
連続のイディオムを処理するイディオム処理部３４ｃを
具備する。

【００５１】更に、イディオム処理部３４ｃは、イディ
オム検索部３４ｃ−１と、イディオムの固定部を構成す
る単語群のうち、その非主要部に対応する原文中の単語
を削除／移動する辞書引き結果バッファ修正部３４ｃ−
２を具備する。

【００５２】以上のような構成を持つ翻訳モジュール２
５は、図示していないが、翻訳モジュール内の各部の処
理、いわゆる翻訳処理を行う翻訳ＣＰＵと、翻訳処理の
プログラムを格納したプログラムメモリと、翻訳処理実
行時に必要となる品詞や訳語などの情報を記憶するため
のバッファを備えている。

【００５３】一般に、プログラムメモリはＲＯＭ、バッ
ファはＲＡＭを用いることが好ましい。前記した翻訳モ
ジュール２５の各部の機能は、この翻訳ＣＰＵによって
実現される。

【００５４】なお、前記したメインＣＰＵ２１及び翻訳
ＣＰＵともその内部にＲＡＭ、ＲＯＭ、又は入出力イン
タフェースやタイマーを備えたいわゆるＭＰＵ（マルチ
プロセッシングユニット）を用いてもよい。

【００５５】図４及び図５は、この実施例で使用する辞
書登録部３２で翻訳用辞書に登録した不連続のイディオ
ムの登録例である。図６は、実施例で使用する代表記号
例を示している。例えば、*nは、１単語の名詞からなる
文字列を示し、＊Ｎは、１単語以上の単語から成る名詞
句を示す。

【００５６】また、図４及び図５に示した不連続のイデ
ィオムの登録列である[1a], [1b],[2a], [2b], [2c]，
[3a]は、各々、前記文章(1a), (1b), (2a), (2b), (2c)
に含まれ不連続のイディオムを処理するための登録であ
る。

【００５７】例えば、(1a)の登録の英語見出し部である
「英語」は、“both *N1 and * *N2”の文字列から成
り、bothやandは、見出しの中の固定部で、*N1 及び*N2
は、見出しの中の可変部で、名詞であることを規定して
いる。

【００５８】この代表記号で使用されている１や２は、
同一代代表号が複数箇所に表れた場合、訳語との対応関
係を取るため、先頭からの連番を示している。“and ”
の末尾にある“ *”は、当該不連続イディオムの固定部
のうち、主要部、すなわち削除の対象とならない固定部
に付けるマークである。

【００５９】「英品詞」は、この見出しに与える英語の
品詞である。「英品詞２」は、原文中から、非主要部を
削除した際に、主要部の位置に挿入する英語の品詞であ
る。「訳語属性」は、この見出しを採用した場合に、訳
文に与えられる属性である。例えば、(1b)の場合、文を
否定にして生成するという生成部に対する指示となる。

【００６０】以下に、この発明の処理フローを示す図７
及び図８に基づいて、この発明の翻訳処理について説明
する。入力原文として、(1a) I have both A and B.
が、図３の原文入力部３１より入力されたと仮定する。
また、図３の翻訳用辞書３３ａには、図４及び図５に示
した不連続イディオムが登録されているものと仮定す
る。

【００６１】ステップＳ１で入力された文字列に対し
て、ステップＳ２において、図３の翻訳用辞書３３ａを
検索する。検索された見出しの品詞が、不連続イディオ
ム「ＣＤ」でない場合には、判断ステップＳ３からステ
ップＳ５に流れ図３のメモリ記憶部３３に存在するバッ
ファメモリ３３ｂに領域が確保される辞書引き結果バッ
ファＡ４０に、辞書情報が格納される。

【００６２】判断ステップＳ６では文末（すなわ
ち、“．”）まで処理が到達したかどうかを判断し、文
末でない場合はステップＳ２へ戻り処理が繰り返され
る。ステップＳ２において、入力文字列の“both”の辞
書検索をする場合、翻訳用辞書３３ａの検索によって、
図４に示した（1a）の登録の見出し語“both *N1 and *
*N2”が検索される。

【００６３】この見出しの英品詞は、不連続イディオム
「ＣＤ」であるため、ステップＳ４に流れこの不連続イ
ディオムの妥当性をチェックするため、今着目している
原文の位置から後方に、辞書の見出し部（英語）に定義
されている残りの固定部が、存在するか否かがチェック
される。見出し部に定義された文字列のうち、“*”で
始まるものは可変部であり、それ以外が固定部である。
故に、残りの固定部は、“and *”という文字列になる
が、“ *”は、主要部を示す特殊記号であるため、当該
記号を除いた文字列、すなわち、“and ”が、原文に存
在するか否かがチェックされる。

【００６４】判断ステップＳ４では、固定部としてand
が「有り」と判断されるため、ステップＳ５に流れ、当
該辞書情報が、辞書引き結果バッファＡ４０にセットさ
れる。またステップＳ５では当該品詞が、「ＣＤ」であ
るため、ポインタとして、次の固定部の位置を示す４／
０がセットされる。

【００６５】ここでポインタｘ／ｙは、単語位置
「ｘ」、品詞候補「ｙ」を指す。また、原文文字列の
“both”は、見出し語“ both *N1 and * *N2 ”の主要
部ではないため、その種別を示すフラグとして、「非」
がセットされる。主要部の場合には、フラグ値として、
「主」がセットされる。

【００６６】この後文末の“.”に至るまで処理が繰り
返され、図９に示すような辞書引き結果バッファＡ−１
の辞書情報が作成される。

【００６７】以上に示したステップＳ１からＳ６までの
処理は、辞書引き部３４ａが行う処理である。図９にお
いて、“単語位置”は、入力された単語文字列の各単語
のバッファ内での順序番号を示す。

【００６８】“候補”とは、辞書引き処理によって検索
された各単語がとりうる品詞を抽出したものであり、図
中の０，１，２，３はその候補番号を示したものであ
る。たとえば、haveという単語は、２つの品詞候補が存
在する。また、各候補について、“単語数”、“品
詞”、“種別”、“ポインタ”の情報が記憶される。

【００６９】ここで、“単語数”とは、辞書に登録され
た単語及び単語列がいくつの単語から構成されているか
を示すものであり、ピリオド、コンマ、コロン、セミコ
ロンも１単語と数える。

【００７０】図９においては、各単語ごとに分類されて
いるため、すべて単語数は１であるが、複数の単語から
なる単語列の場合の“単語数”は、それらの単語間の
「空白の数」＋１で表わされる。たとえば“high speed
machine ”という単語列では、“単語数”は３とな
る。この単語数は、辞書引き結果の連接関係を示すため
に用いられる。単語数３で表わされる連続した単語列
“high speed machine”は、１つの単語としてみなされ
て次の単語に続く。

【００７１】“品詞”は、図４に示したようなその単語
のとりうべき品詞の記号を示したものである。“種別”
は、前記したようにイディオムの見出し語の主要部かど
うかを示すものであり、主要部のときには、「主」、主
要部でないときには「非」がセットされる。セットされ
るフラグ値としては、たとえば「主」の場合は“１”、
「非」の場合は“０”を用いてもよい。

【００７２】“ポインタ”は前記したように、次の固定
部の位置を示すものであるが、図９において、ポインタ
“４／０”は単語位置４の“and”の候補０が次の固定
部であることを示している。

【００７３】また、入力文(2a) This is so hot that c
hildren cannot drink it.が、入力された場合にも同様
に辞書引き部３４ａによって処理され、図１０に示すよ
うな辞書引き結果バッファＡ−２が作成される。

【００７４】すなわち、ステップＳ１で入力された文字
列に対して、ステップＳ２において、図３の翻訳用辞書
３３ａを検索し、検索された見出しの品詞が、不連続イ
ディオムＣＤでない場合には、判断ステップＳ３からス
テップＳ５に流れ図３の辞書引き結果バッファＡ４０
に、辞書情報が格納される。

【００７５】判断ステップＳ６では文末（すなわ
ち、“．”）まで処理が到達するまで、この処理が繰り
返される。ステップＳ２において、入力文字列の“so”
の辞書検索をすると、図４に示した(2a)の登録の見出し
語“so *A that * *C”が検索される。この見出しの英
品詞は、「ＣＤ」であるため、ステップＳ４に流れ、こ
の不連続イディオムの妥当性をチェックするため、今着
目している原文の位置から後方に、辞書の見出し部（英
語）に定義されている残りの固定部、すなわち“that”
が存在するか否かがチェックされる。

【００７６】判断ステップＳ４では、「有り」と判断さ
れるため、ステップＳ５に流れ、当該辞書情報が、辞書
引き結果バッファＡ４０にセットされる。

【００７７】またステップＳ５では当該品詞が、「Ｃ
Ｄ」であるため、ポインタとして、次の固定部の位置を
示す４／０がセットされる。また、原文文字列の“so”
は、見出し語“so *A that * *C”の主要部ではないた
め、その種別を示すフラグとして、「非」がセットされ
る。

【００７８】この後文末の“．”に至るまで処理が繰り
返され、図１０に示すような辞書引き結果バッファＡ−
２の辞書情報が作成される。

【００７９】また、図１６に示した文章(3a)This is so
designed that everyone can operate it easily.は、
前述の通り、“is”と“designed”が受け身の動詞句を
作り、“so”と“that”が従属接続詞を構成する関係
で、係り受けが交差するため、従来技術では正しく翻訳
することができない。この発明においては、この文章(3
a)が入力されると、図７のステップＳ２において、図５
の[3a]にあるような登録を含めて辞書検索がなされ、図
１３に示すように、辞書引き結果バッファＡ−３が作成
される。

【００８０】ここで、単語位置２の「so」の品詞は、不
連続イディオム「ＣＤ」であり、種別は、主要部でない
ことを示す「非」であり、ポインタは単語位置４かつ候
補０の「that」に係ることを示す「４／０」となってい
る。

【００８１】以上のような辞書引き処理の後、図７にお
けるステップＳ７において、従来行われていたものと同
様な形態素解析が行われ、各単語の数、人称、時制など
の文法属性が求められる。

【００８２】次に、図８のステップＳ８からＳ１５に示
すようなイディオム処理部４ｃの処理が実行される。図
９又は図１０に示した辞書引き結果バッファが、イディ
オム処理部の入力となる。

【００８３】まず、ステップＳ８で、検索のための「単
語位置カウンタ」が「０」にリセットされる。次に、判
断ステップＳ９において、今、ポイントしている単語位
置に、品詞候補として、「ＣＤ」があるかどうか検索さ
れ、ない場合には、ステップＳ１４へと流れ、単語位置
カウンタがインクリメントされて、次の単語のチェック
に移る。

【００８４】ここで、図９の辞書引き結果バッファＡ−
１の単語位置「２」まで達した時、辞書引き結果バッフ
ァＡ−１の単語位置「２」の列には、品詞「ＣＤ」が存
在するので、ステップＳ１０に流れる。ステップＳ１０
では、現在ポイントしている単語「both」の１つ前の単
語すなわち「have」の品詞候補をコピーし、「both」の
単語数（すなわち１）を加えた候補を作成する。

【００８５】図１１に作成した後の辞書引き結果バッフ
ァＡ−１の内容を示す。図１１において、単語「have」
の候補０の内容を候補２にコピーし、候補１の内容を候
補３にコピーし、さらに、候補０及び１において、単語
数を２としている。

【００８６】これにより、単語位置が１で品詞候補が１
番目の「VB」は、「both」を飛び越して、「Ａ」につな
がる候補となる。これで、「both」を削除した候補（単
語位置「１」で品詞候補「０」と「１」からつながる候
補）と「both」を削除しない候補（単語位置「１」で品
詞候補「２」と「３」からつながる候補）が作成され
た。

【００８７】次に、ステップＳ１１において、現在着目
している単語位置「２」、品詞候補「０」、すなわち図
８の「both」の「ＣＤ」のポインタ「４／０」が示す単
語位置「４」、品詞候補「０」の位置、すなわち「an
d」の０番目の品詞として、見出し“both *N1 and * *N
2 ”の「英品詞２」である「ＣＣ」を挿入する。

【００８８】図１１に、この挿入後の辞書引き結果バッ
ファＡ−１の状態を示す。ただし、ここでは図９におい
てもandの品詞は「ＣＣ」であったため、見かけ上品詞
の変化はない。

【００８９】次に、ステップＳ１２において、現在ポイ
ントしている単語「both」の０番目の候補に「非主要
部」を示す「非」フラグが立っているので、削除して、
それ以降の品詞候補を前に詰める。

【００９０】すなわち、図１１の「both」の行におい
て、図９における「both」の品詞「ＣＤ」に相当する候
補が削除され、残りの候補が前に詰められている。しか
し、単語位置「１」や「４」に追加された品詞候補は、
他の単語位置のすべての品詞候補と共起可能というわけ
ではなく、“have”の品詞候補の０番目と１番目は、
“and ”の品詞候補の０番目と共起しなければならない
が、品詞候補の１番目とは排他的である。

【００９１】このため、次のステップＳ１３において、
この共起関係又は排他関係を示すポインタを単語位置
「１」(have)及び「４」(and)に、セットする。すなわ
ち、「have」の候補「０」及び「１」のポインタに“４
／０”、「and」の候補「０」のポインタに“１／０”
及び“１／１”がセットされる。

【００９２】このポインタは、共起関係を示しており、
ｘ／ｙで表現される。ポインタとして、ｘ／ｙがセット
されている場合には、この単語の品詞候補が、単語位置
「ｘ」、品詞候補「ｙ」と共起可能であることを示して
いる。このポインタがセットされた状態は、図１１の辞
書引き結果バッファＡ−１に示す通りである。

【００９３】例えば、“and”の品詞候補「０」の「Ｃ
Ｃ」は、“have" の品詞候補「０」及び「１」と共起可
能であるが、品詞候補「２」及び「３」とは、共起不能
であることを示している。

【００９４】ステップＳ１４で単語位置カウンタをイン
クリメントし、原文のそれ以降に「ＣＤ」が存在するか
否かのチェックがなされる。文末までチェックが終了す
ると、判断ステップＳ１５で下に流れ、以上でイディオ
ム処理が終了する。

【００９５】以上に示したステップＳ８からステップＳ
１５がイディオム処理部３４ｃの処理であるが、ステッ
プＳ８及びＳ９は、図３におけるイディオム検索部３４
ｃ−１の処理であり、ステップＳ１０からＳ１４は辞書
バッファ修正部３４ｃ−２の処理である。

【００９６】同様に、入力原文として、(2a)This is so
hot that children cannot drinkit. が入力された場
合にも、以上のような辞書引き処理が終了すると、ステ
ップＳ７において、形態素解析が行なわれ、各単語の
数、人称、時制などの文法属性が求められる。

【００９７】次に、前記したようなステップＳ８からＳ
１５に示すイディオム処理部４ｃの処理が実行される。
ここで、辞書引き結果バッファＡ−２の単語位置「２」
まで達した時、ステップＳ１０において、現在ポイント
している単語「so」の１つ前の単語すなわち「is」の品
詞候補をコピーし、「so」の単語数（すなわち１）を加
えた候補が作成される。これにより、単語位置が１で品
詞候補が１番目の「BE」は、「so」を飛び越して、「ho
t」につながる候補となる。これで、「so」を削除した
候補（単語位置「１」で品詞候補「０」からつながる候
補）と「so」を削除しない候補（単語位置「１」で品詞
候補「１」からつながる候補）が作成された。

【００９８】次に、ステップＳ１１において、現在着目
している単語位置「２」、品詞候補「０」、すなわち図
１０の「so」の「ＣＤ」のポイント「４／０」が示す単
語位置「４」、品詞候補「０」の位置、すなわち、“th
at”の０番目の品詞として、見出し“so *A that * *
C”の「英品詞２」である「ＡＣ」を挿入する。図１１
に、この挿入後の辞書引き結果バッファＡ−２の状態を
示す。

【００９９】また、ステップＳ１２において、現在ポイ
ントしている単語「so」の０番目の候補に「非主要部」
を示す「非」フラグが立っているので、削除して、それ
以降の品詞候補を前に詰める。しかし、単語位置「１」
や「４」に追加された品詞候補は、他の単語位置のすべ
ての品詞候補と共起可能というわけではなく、“be”の
品詞候補の０番目は、“that”の品詞候補の０番目と共
起しなければならないが、品詞候補の１、２、３…番目
とは排他的である。

【０１００】このため、次のステップＳ１３において、
この共起関係又は排他関係を示すポインタを単語位置
「１」(is)及び「４」(that)にセットする。図１１の辞
書引き結果バッファＡ−２において、例えば、“that”
の品詞候補「０」の「ＡＣ」は、“have”の品詞候補
「０」と共起可能であるが、品詞候補「２」とは、共起
不能であることを示している。ステップＳ１４で単語位
置カウンタをインクリメントし、原文のそれ以降に「Ｃ
Ｄ」が存在するか否かのチェックがなされ、文末に到達
するまで、処理が繰り返される。

【０１０１】また同様に、入力が図１６に示した文章(3
a)This is so designed that everyone can operate it
easily.である場合には、図１３の辞書引き結果バッフ
ァＡ−３が図１４の辞書引き結果バッファＡ−３に、変
更される。

【０１０２】図１４において、単語位置４の「that」の
品詞候補０に対応する位置に候補が追加されている。す
なわち、単語数が「１」、品詞が「ＡＣ」、種別が主要
部であることを示す「主」、ポインタが単語位置１から
候補０の「is」と連係していることを示す「１／０」に
それぞれ設定されている。

【０１０３】以上の処理が終了すると、ステップＳ１６
において、構文解析部３５によって構文解析が実行され
る。ここでは図３のメモリ記憶部３３に格納された解析
文法規則３３ｃを参照しながら、原文の係り受け構造が
決定される。前記辞書引き結果バッファの修正処理がな
されているため、入力原文の単語列は、特殊な並びが既
に正規化されている。

【０１０４】ここでの正規化とは、入力された単語列に
含まれる不連続イディオム部分の固定部のうち、主要部
でない方を削除することであり、この処理によって１つ
の固定部のみを有するイディオムと見なせるように単語
列の並びが修正される。したがって、このように修正さ
れた後のイディオムは、特殊な品詞並びを処理するため
の特別な文法規則を必要とせず、通常用いられる文法規
則によって構文解析が実行され、構文解析木が作成され
る。

【０１０５】なお、前記したような他の正規化処理によ
ってイディオムを構成する単語列の並びを修正してもよ
く、このときも同様に通常用いられる文法規則によっ
て、不連続イディオムの構文解析ができる。

【０１０６】また、ここでは、辞書引き結果バッファに
セットされた共起関係を示すポインタを参照しながら、
例えば、“have" の品詞候補「１」と“and”の品詞候
補「１」が同一の構文解析木に存在しないことがチェッ
クされる。

【０１０７】また、構文解析によって、構文解析木が作
成されると、イディオム登録の代表記号で示された可変
部の品詞がチェックされる。すなわち、“both *N1 and
* N2”の場合、主要部である“and ”の両隣は、「*
N」（名詞句）であるか否かチェックされる。このチェ
ックに失敗した場合には、そのイディオムを使った構文
解析木は破棄される。つまり、当該解釈は、あり得ない
ことになる。

【０１０８】入力文の“I have both A and B.”は、図
１１の辞書引き結果バッファＡ−１から明らかなよう
に、“A ”及び“B ”の部分は、名詞句として成立する
ので、構文解析が成功する。

【０１０９】この後、ステップＳ１７において変換部３
６による変換処理、ステップＳ１８において、生成部３
７による生成処理が実行され、イディオムとして定義さ
れた訳語「＊Ｎ１と＊Ｎ２の両方」を得て、「＊Ｎ１」
に、訳語「Ａ」を当てはめ、「＊Ｎ２」に、訳語「Ｂ」
を当てはめ、最終的な文全体の訳として、「私は、Ａと
Ｂの両方を持っている。」という訳文が得られ、ステッ
プＳ１９において、ＣＲＴあるいはプリンタにその結果
が出力される。

【０１１０】以上のように、イディオムの中に存在する
「主要部」を示す記号に従って、辞書引き結果バッファ
Ａを操作することにより、非主要部を入力原文より削除
し、入力文を標準的な文法規則で処理することができる
ように正規化することができ、最終的に、イディオムを
含む入力文に対する適切な翻訳文を生成することができ
る。また、従来技術に示した再帰的処理による翻訳で
は、可変部を翻訳した後に適用した規則が適切でないこ
とがわかり、再度翻訳をやり直すことがありうるが、こ
の発明では、前記したように辞書引き処理バッファＡを
操作した後に、構文解析が行われるため、この従来技術
に比べて翻訳の効率が改善できる。

【０１１１】

【発明の効果】この発明によれば、入力された第１言語
の単語列のうち、イディオムの見出し語に同定された固
定部の並びを正規化させるようにしているので、不連続
イディオムの場合でも翻訳処理するための特殊な文法規
則を定義することなく、通常の文法規則を利用すること
によって不連続イディオムの翻訳文を生成することがで
き、イディオムを構成する単語間の係り受けが交差する
場合にも、適切な翻訳文を生成することができる。

【図面の簡単な説明】

【図１】この発明の基本構成ブロック図である。

【図２】この発明の一実施例における機械翻訳装置の構
成ブロック図である。

【図３】この発明の一実施例の機能ごとのブロック図で
ある。

【図４】この発明のイディオムの登録例の説明図であ
る。

【図５】この発明のイディオムの登録例の説明図であ
る。

【図６】この発明の代表記号テーブル例の説明図であ
る。

【図７】この発明の辞書引き及び形態素解析処理のフロ
ーチャートである。

【図８】この発明のイディオム処理のフローチャートで
ある。

【図９】この発明の一実施例において、辞書引き結果バ
ッファＡの格納内容を示した模式図である。

【図１０】この発明の一実施例において、辞書引き結果
バッファＡの格納内容を示した模式図である。

【図１１】イディオム処理後の辞書引き結果バッファＡ
の格納内容を示した模式図である。

【図１２】イディオム処理後の辞書引き結果バッファＡ
の格納内容を示した模式図である。

【図１３】この発明の一実施例において、辞書引き結果
バッファＡの格納内容を示した模式図である。

【図１４】イディオム処理後の辞書引き結果バッファＡ
の格納内容を示した模式図である。

【図１５】従来技術の代表記号の説明図である。

【図１６】品詞の係り受けが交差する場合の文章例であ
る。

【符号の説明】

１入力手段２辞書登録手段３辞書手段４辞書引き手段５イディオム処理手段２１メインＣＰＵ２２メインメモリ２３表示装置２４キーボード２５翻訳モジュール２６外部メモリ２７バス

───────────────────────────────────────────────────── フロントページの続き (72)発明者九津見毅大阪府大阪市阿倍野区長池町22番22号シャープ株式会社内

Claims

【特許請求の範囲】

【請求項１】第１言語の単語列を入力する入力手段
と、少なくとも２つの固定部とその間の可変部から構成
される第１言語のイディオムを見出し語として記憶する
とともに、その見出し語に対応する第２言語の訳語を記
憶する辞書手段と、前記辞書手段に前記第１言語の見出
し語とそれに対応する第２言語の訳語を新規登録又は更
新登録させる登録手段と、入力手段から入力された第１
言語の単語列と前記辞書手段に記憶されたイディオムの
見出し語とを比較検索する辞書引き手段と、辞書引き手
段によってイディオムの見出し語に同定された単語列の
固定部の並びを正規化させるイディオム処理手段とを備
えたことを特徴とするイディオム処理機能を有する機械
翻訳装置。
【請求項２】前記辞書手段が、第１言語のイディオム
をその固定部のうち中心となる主要部とその他の非主要
部とを区別できる形式で記憶し、前記辞書引き手段が、
単語ごとの品詞情報と、見出し語に同定された単語列の
固定部に付与される、主要部と非主要部の区別を表す種
別情報及び入力された単語列の単語間の連係関係を示す
ポインタ情報を備えた構文情報を作成することを特徴と
する請求項１記載のイディオム処理機能を有する機械翻
訳装置。
【請求項３】前記イディオム処理手段が、前記正規化
を行う際に、入力された単語列の中で前記見出し語の固
定部に同定された単語列のうち、非主要部を主要部の単
語の位置に移動したものとみなす情報を付加して前記構
文情報を変換することを特徴とする請求項２記載のイデ
ィオム処理機能を有する機械翻訳装置。