JPH07295986A - イディオム処理機能を持つ機械翻訳装置 - Google Patents

イディオム処理機能を持つ機械翻訳装置

Info

Publication number
JPH07295986A
JPH07295986A JP6090053A JP9005394A JPH07295986A JP H07295986 A JPH07295986 A JP H07295986A JP 6090053 A JP6090053 A JP 6090053A JP 9005394 A JP9005394 A JP 9005394A JP H07295986 A JPH07295986 A JP H07295986A
Authority
JP
Japan
Prior art keywords
word
idiom
dictionary
language
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6090053A
Other languages
English (en)
Other versions
JP3377290B2 (ja
Inventor
Youji Fukumochi
陽士 福持
Toshiyuki Okunishi
稔幸 奥西
Ichiko Sada
いち子 佐田
Takeshi Kuzumi
毅 九津見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP09005394A priority Critical patent/JP3377290B2/ja
Priority to US08/428,547 priority patent/US5644774A/en
Publication of JPH07295986A publication Critical patent/JPH07295986A/ja
Application granted granted Critical
Publication of JP3377290B2 publication Critical patent/JP3377290B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 イディオム処理機能を持つ機械翻訳装置に関
し、特殊な文法規則を具備することなしに、不連続イデ
ィオムを処理することを目的とする。 【構成】 第1言語の単語列を入力する入力手段と、少
なくとも2つの固定部とその間の可変部から構成される
第1言語のイディオムを見出し語として記憶するととも
に、その見出し語に対応する第2言語の訳語を記憶する
辞書手段と、前記辞書手段に前記第1言語の見出し語と
それに対応する第2言語の訳語を新規登録又は更新登録
させる登録手段と、入力手段から入力された第1言語の
単語列と前記辞書手段に記憶されたイディオムの見出し
語とを比較検索する辞書引き手段と、辞書引き手段によ
ってイディオムの見出し語に同定された単語列の固定部
の並びを正規化させるイディオム処理手段とを備えたこ
とを特徴とする。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、機械翻訳装置に関
し、特にイディオムを登録し検索・翻訳することのでき
るイディオム処理機能を持つ機械翻訳装置に関する。
【0002】
【従来の技術】従来、実用化されている言語処理装置に
は、人間の文書作成活動を支援するためのワードプロセ
ッサや、ある言語で書かれた文書を別の言語に翻訳する
ための機械翻訳装置などがある。
【0003】これらの言語処理装置には、見出語とそれ
に付帯する各種の情報の組とを1単位の項目としたもの
を多数記憶した辞書が備えられる。 この見出語には、
英語、日本語などの各自然言語の単語のみでなく、熟語
や相関語句などのように、単語列である意味を表現する
語彙、すなわちイディオムが含まれる。その中には、
“high school”のように単語が連続したイディオムも
あれば、“so……that”のように固定化された単語が連
続しないイディオム(不連続イディオム)もある。
【0004】翻訳処理を行なう場合、特に原言語の不連
続イディオムがどのように目標言語の語句に対応するの
か種々様々であり、その取り扱いが難しい。例えば、不
連続イディオムには以下に示すようなものがあり、多様
な表現に訳される。
【0005】I have“both”A “and”B.……(1a) 私はA“と” B“の両方”を持っている。 I have“neither”A “nor”B.……(1b) 私はA“も” B“も”持って“いない”。
【0006】This is “so”hot “that”children can
not drink it. ……(2a) これは非常に熱い“ので”子供には飲めない。 This is “too”hot “to”drink it. ……(2b) これは非常に熱い“ので”飲め“ない。” This is “the same”book“that”you bought. ……
(2c) これは、あなたが買った“のと同じ”本である。
【0007】このようなイディオムを含んだ文を翻訳す
るために、従来は、イディオムの可変部分が単語のみな
らず、単語列であるものも処理できるように、図15に
示すような代表記号を導入して、イディオムを登録して
いた。たとえば前記した例文に対応できるように、次の
ようなイディオムの登録を行っていた。
【0008】(1a)の文に対応するイディオムの登録: 英単語 both *N1 and *N2 (注1) 品詞 名詞句 訳語 *N1と*N2の両方 品詞 その他 (注2) 注1:ここで、*Nは名詞句を指す。 注2:「その他」は、活用しない名詞、副詞等を指す。
【0009】(1b)の文に対応するイディオムの登録: 英単語 neither *N1 nor *N2 品詞 名詞句 訳語 *N1も*N2も 品詞 その他
【0010】(2a)の文に対応するイディオムの登録: 英単語 so *A that *c 品詞 形容詞 訳語 *C〔体:〕ほど*A 品詞 (注3) 注3:訳語の品詞は、*Aに入る訳語の品詞によって決
まるため、ここで規定しない。
【0011】(2b)の文に対応するイディオムの登録: 英単語 too *a to *I 品詞 形容詞 訳語 *I〔体:〕には あまりにも *a 品詞 (注4) 注4:訳語の品詞は、*aに入る訳語の品詞によって決
まるため、ここで規定しない。
【0012】(2c)の文に対応するイディオムの登録: 英単語 the same *n that *C 品詞 名詞 訳語 *C〔体:〕のと同じ *n 品詞 (注5) 注5:訳語の品詞は、*nに入る訳語の品詞によって決
まるため、ここで規定しない。
【0013】ここで示した従来例では、上記したような
登録されたイディオムのうち入力された単語列と一致可
能なものを検索し、代表記号に対応する単語又は単語列
の構文を解析し、この解析された文構成から、上記のよ
うな登録された訳語を利用してイディオムに相当する部
分の訳語を生成する。
【0014】ここで、従来技術の翻訳装置は、イディオ
ムを不連続にしている可変部分に単語列(句)が対応す
る場合、すなわち、見出し語に記述された単語列を示す
代表記号、すなわち図15に示した「non-terminal代表
記号」が、可変部分に対応する場合、入力単語列の該当
する部分が切り出され、その部分のみの構文解析が実行
され、成功した場合、その可変部分に対する訳文が生成
され、見出し語の訳語の中に埋め込まれる。そして、こ
のようにイディオムに対応する部分が翻訳された後、こ
の部分を1つの単語のようにみなして文全体の翻訳が再
帰的処理によって行われる。
【0015】また、上記のような特殊な登録手段を持た
ない場合、従来技術では、不連続イディオムを処理する
ために、下記のような特殊な規則を用意する必要があ
る。(1a)の文では“have”の目的語である“both A and
B”全体が、名詞句として機能しているため、 名詞句 −>相関単語1+名詞句+相関単語2+名詞句 のような名詞句を構成する規則が必要となる。ここで、
たとえば(1a)の文では、bothが相関単語1に、andが相
関単語2に、Aが1つ目の名詞句に、そしてBが2つ目
の名詞句に対応する。
【0016】このように、用意する規則の中に、相関語
句1や相関語句2のような特殊な品詞を設定しておき、
(1a)のような文の場合には、相関語句1という品詞に対
応する“both”に対して「の両方」という訳語を割りあ
て、さらに相関語句2という品詞に対応する“and”に
対して「と」という訳語を割りあて、その後にこのイデ
ィオムに対応する部分を「AとBの両方」のように翻訳
するという手順をとる。
【0017】また(2a)の文では、“so hot that childr
en cannot drink it”が、“is”の補語として機能して
いるため、 形容詞句−>相関単語1+形容詞+相関単語2+文 のような形容詞句を構成する規則が必要となる。ここ
で、soが相関単語1に対応し、thatが相関単語2に対応
する。
【0018】以下、同様に、(2b)の文に対応するため
に、 形容詞句 −>相関単語1+形容詞+相関単語2+動詞
句 (2c)の文に対応するために、 名詞句 −>相関単語1+名詞+相関単語2+文(目
的語欠け) といった文法規則が必要で、前記5つの熟語表現をカバ
ーするだけで、既に4つの規則を持つ必要がある。
【0019】また、相関単語1と相関単語2は、個別の
共起であるため、例えば、(1a)や(1b)については、“bo
th A and B”や“neither A nor B ”は正しいが、“bo
th Anor B”の対応関係は、非文であることを“both”
や“neither”の辞書に共起の相手が、“and”や“no
r”であるという情報を記述しておく必要があった。
【0020】
【発明が解決しようとする課題】しかしながら、従来の
翻訳装置では、可変部分が句となる見出しの登録を可能
としたことから見出しの汎用性が非常に高くなる反面、
入力原文における可変部分に対応する部分を切り出した
後、その部分の解析、変換、生成の処理を経て始めて、
可変部分のマッチングが終了する構成となっている。
【0021】このため、その可変部分の構文解析が失敗
するような場合等には、何度も、可変部分の解析処理を
再帰的に繰り返すことになり、その処理に要するオーバ
ーヘッドは大きくなる。すなわち、可変部分が句となる
ような登録が増えるに従って、見出しとのマッチング時
間が増大し、予期せぬ登録が翻訳全体の処理効率を低下
させる可能性があるという問題点がある。
【0022】また、前記したように、非常に多くの特殊
な例外的規則を用意する場合にも、処理効率上問題があ
る。また、前記文法規則の類いの規則を網羅的に用意
し、共起に関する情報を辞書に登録したとしても、以下
のような問題がある。
【0023】たとえば、図16に示したような文章(3a)
の場合には、“is designed”という受け身の動詞句の
係り受けと“so that”という従属接続詞の係り受けが
交差するため、これを処理する文法規則を記述すること
ができない。
【0024】すなわち、a b c d という4つの単語列か
らなる文がある場合、係り受けが交差せず、aがbに係
りcがdに係るとすると、この文は次の3つの文法規則
に当てはめることができる。 X→ ab (aがbに係ってこの順序でXを作る) Y→ cd (cがdに係ってこの順序でYを作る) Z→ XY (XがYに係ってこの順序でZを作る) Z=〔X,Y〕=〔(a,b),(c,d)〕=a b c
d
【0025】しかし、aがcに係り、bがdに係るとい
うように、係り受けが交差する場合には、前記のような
文法規則を使ってこの文の構造を表わすことができな
い。
【0026】以上説明した従来の機械翻訳装置では、前
記のような不連続イディオムを処理するには、不連続の
単語間を結び付ける数多くの文法規則を必要とし、ま
た、同時に、これを処理する例外規則を作ったとして
も、(4a)のような文章では、正しく翻訳できるように解
析することができない。これは原言語の文に含まれる不
連続イディオムが多岐にわたり、例外処理が多くなるこ
とに起因する。
【0027】この発明は、以上のような事情を考慮して
なされたものであり、不連続イディオムの可変部が単語
列(句)となるような場合にも、入力原文中で不連続イ
ディオムの可変部の候補となる単語列に対して、従来技
術のような再帰的な処理を行なわず、また、不連続イデ
ィオムを処理するための特殊な文法規則を具備せずに、
不連続イディオムを複数個の固定部及び可変部からなる
見出し語によって表現し、入力された単語列のうち、固
定された固定部の並びを正規化することによって、係る
不連続イディオムを処理する機能を持つ機械翻訳装置を
提供することを目的としている。
【0028】
【課題を解決するための手段】図1に、この発明の基本
構成ブロック図を示す。同図に示すように、この発明
は、第1言語の単語列を入力する入力手段1と、少なく
とも2つの固定部とその間の可変部から構成される第1
言語のイディオムを見出し語として記憶するとともに、
その見出し語に対応する第2言語の訳語を記憶する辞書
手段3と、前記辞書手段3に前記第1言語の見出し語と
それに対応する第2言語の訳語を新規登録又は更新登録
させる登録手段2と、入力手段1から入力された第1言
語の単語列と前記辞書手段3に記憶されたイディオムの
見出し語とを比較検索する辞書引き手段4と、辞書引き
手段4によってイディオムの見出し語に同定された単語
列の固定部の並びを正規化させるイディオム処理手段5
とを備えたことを特徴とするイディオム処理機能を有す
る機械翻訳装置を提供するものである。
【0029】また前記辞書手段3が、第1言語のイディ
オムをその固定部のうち中心となる主要部とその他の非
主要部とを区別できる形式で記憶し、前記辞書引き手段
4が、単語ごとの品詞情報と、見出し語に同定された単
語列の固定部に付与される、主要部と非主要部の区別を
表す種別情報及び入力された単語列の単語間の連係関係
を示すポインタ情報を備えた構文情報を作成するように
することが好ましい。
【0030】前記イディオム処理手段5が、前記正規化
を行う際に、入力された単語列の中で前記見出し語の固
定部に同定された単語列のうち、非主要部を主要部の単
語の位置に移動したものとみなす情報を付加して前記構
文情報を変換することが好ましい。また、前記イディオ
ム処理手段5が、前記正規化を行う際に、入力された単
語列の中で前記見出し語の固定部に同定された単語列の
うち、非主要部を削除したものとみなす情報を付加して
前記構文情報を変換するようにしてもよい。
【0031】ここで、図1において、入力手段1として
は、キーボード、又はポインティングデバイス等が用い
られるが、これに限定されるものではなく、その他の入
力装置を用いてもよい。辞書手段3は通常ROM、RA
M、フロッピーディスク又はハードディスク等に記憶さ
れるが、これに限定されるものではなく、その他の記憶
装置を用いて記憶してもよい。また、辞書手段3は通常
翻訳に用いられる第1言語の単語及び単語列の見出し語
とそれに対応する第2言語の訳語を対にして記憶したも
のであるが、これ以外に品詞や検索に必要な情報等を記
憶してもよい。また、辞書手段3は一般に後から利用者
が見出し語及び訳語を新たに追加登録又は更新登録でき
るものであることが好ましい。
【0032】また、登録手段2、辞書引き手段4、イデ
ィオム処理手段5としては、通常CPUが用いられ、R
OM、RAM、I/Oインタフェース等の周辺回路を含
んだマイクロコンピュータを用い、ROM又はRAMに
はこの機械翻訳装置の動作を制御するプログラムが内蔵
されていることが好ましい。
【0033】ここで、イディオムとは、熟語、成句、慣
用語句、及び相関語句等の日常よく使用されるある意味
を表現する語彙の総称を意味する。また、少なくとも2
つの固定部とその間の可変部から構成される第1言語の
イディオムを、特に不連続イディオムと呼ぶことにす
る。不連続イディオムとは、たとえば固定部1、可変部
1、固定部2、可変部2というような順序で単語が並
び、固定部及び可変部が離れているものを言う。
【0034】また、固定部とはイディオムの中で予め決
っている1つの単語又は連続する単語列からなる部分
(固定語)を意味し、可変部とは入力文によって異なる
単語又は単語列が対応する部分(可変語)を意味する。
また、固定部のうち主要部とは、複数個の固定部の中で
イディオムを翻訳した場合にその訳語の中心となる最も
重要な単語又は単語列である。また、固定部の非主要部
とは、前記主要部以外の固定部である。たとえば、不連
続イディオムに対応する文が“so hot that children c
annotdrink it”である場合、“so”及び“that”が固
定部であり、“hot”及び“children cannot drink i
t”が可変部である。また、固定部の中で、“so”が非
主要部であり、“that”が主要部である。
【0035】また、固定部の並びを正規化するとは、不
連続イディオムにおいて、離れた位置にある固定部の単
語を移動もしくは削除すること、又は可変部の単語を移
動すること等により、1つの固定部を備えたイディオム
と見なせるように単語列の並びを記憶することである。
【0036】たとえば、正規化とは、次のような処理を
少なくとも1つ実行して、入力された単語列を並べかえ
ることである。 (1)入力された単語列に含まれる複数個の固定部のう
ちいずれかを削除する。 (2)入力された単語列に含まれる複数個の可変部に相
当する単語を別の位置に移動する。 (3)入力された単語列に含まれる固定部1を固定部2
の前に移動する。 (4)入力された単語列に含まれる固定部2を固定部1
の後に移動する。
【0037】
【作用】登録手段2が入力手段1から入力される、少な
くとも2つの固定部とその間の可変部から構成される第
1言語のイディオムを、見出し語として辞書手段3に記
憶するとともに、その見出し語に対応する第2言語の訳
語を辞書手段3に記憶する。
【0038】次に辞書引き手段4が、入力手段1から入
力された第1言語の単語列と前記辞書手段3に記憶され
たイディオムの見出し語とを比較し、その単語列と同定
可能なイディオムの見出し語を検索する。次にイディオ
ム処理手段5が、辞書引き手段4によってイディオムの
見出し語と同定された単語列の固定部の並びを正規化さ
せる。
【0039】以上のように、この発明によれば、入力さ
れた第1言語の単語列のうち、イディオムの見出し語に
同定された固定部の並びを正規化させるようにしている
ので、不連続イディオムの場合でも翻訳処理するための
特殊な文法規則を定義することなく、通常の文法規則を
利用することによって不連続イディオムの翻訳文を生成
することが可能となる。また、イディオムを構成する単
語間の係り受けが交差する場合にも適切な翻訳文を生成
することが可能となる。
【0040】またこの発明は、前記辞書手段3が、第1
言語のイディオムをその固定部のうち中心となる主要部
とその他の非主要部とを区別できる形式で記憶し、前記
辞書引き手段4が、単語ごとの品詞情報と、見出し語に
同定された単語列の固定部に付与される、主要部と非主
要部の区別を表す種別情報及び入力された単語列の単語
間の連係関係を示すポインタ情報を備えた構文情報を作
成するようにしているので、不連続イディオムを処理す
るための特殊な文法規則を定義することなく、通常の文
法規則が利用可能な連続イディオムと同様に不連続イデ
ィオムの翻訳文を生成することが可能となる。
【0041】また、前記イディオム処理手段5が、前記
正規化を行う際に、入力された単語列の中で前記見出し
語の固定部に同定された単語列のうち、非主要部を主要
部の単語の位置に移動したものとみなす情報を付加する
か、もしくは非主要部を削除したものとみなす情報を付
加して前記構文情報を変換するようにするので、不連続
イディオムを処理するための特殊な文法規則を定義する
ことなく、通常の文法規則が利用可能な連続イディオム
と同様に不連続イディオムの翻訳文を生成することが可
能となる。
【0042】
【実施例】以下、図面に示す実施例に基づいてこの発明
を詳述する。なお、これによってこの発明が限定される
ものではない。図2にこの発明の一実施例である機械翻
訳装置のブロック図を示す。
【0043】この機械翻訳装置は、メインCPU(中央
処理装置)21と、メインCPU21が接続されたバス
27と、バス27に接続されたメインメモリ22(メモ
リバッファを含む)と、バス27に接続されたCRT
(陰極線管)やLCD(液晶表示装置)などからなる表
示装置23と、キーボード24と、バス27に接続され
た翻訳モジュール25と翻訳モジュール25に接続され
た翻訳用辞書、解析文法規則、変換文法規則、生成文法
規則などを格納している外部メモリ26とを含む。翻訳
モジュール25は、原言語の文章が入力されるとそれを
所定の手順で翻訳して目的とする言語に変換して出力す
るものである。
【0044】図3は、この発明の一実施例である機能翻
訳装置の翻訳モジュールに係わる構成を示したブロック
図である。ここで原文入力部31は翻訳するべき原文を
入力する部分であり、図2におけるキーボード24に対
応する。
【0045】辞書登録部32は、メモリ記憶部33に記
憶された辞書の見出し語や訳語等の辞書情報を追加、修
正、削除する部分であり、これは、図2におけるメイン
CPU21によってこの機能が実現される。
【0046】メモリ記憶部33は、翻訳用辞書33a、
バッファメモリ33b、解析文法規則33c、変換文法
規則33d、及び生成文法規則33eからなり、図2に
おけるメインメモリ22と外部メモリ26に対応するも
のである。ここで、メインメモリ22は、この機械翻訳
装置で用いられる各種情報を記憶するものであり、通常
RAMが用いられる。外部メモリ26は、翻訳用辞書3
3a、解析文法規則33c、変換文法規則33d、生成
文法規則33eを格納するものであり、通常ハードディ
スク又はフロッピーディスクが用いられる。
【0047】訳文出力部38は、翻訳モジュールで生成
された翻訳文を出力するものであり、図2における表示
装置23やプリンタ等に対応する。
【0048】また、図2の翻訳モジュール25は、図3
における辞書引き・形態素解析部34と、構文解析部3
5、変換部36、及び生成部37から構成される。ここ
で、辞書引き・形態素解析部34は、前記原文入力部3
1より入力された原文を各形態素列(単語列)に分割し
て、各単語に対する品詞等の文法情報及び訳語を得て、
更に、時制/人称/数等の情報を解析する部分である。
【0049】構文解析部35は、得られた形態素情報と
文法規則にしたがって、各単語間の係り受け関係を示す
構造解析木を決定する部分である。変換部36は、入力
された原文に対する構文解析木の構造を、翻訳文に対す
る構文解析木の構造に変換する部分である。生成部37
は、ターゲット言語の生成規則に従って、ターゲット言
語の構造を組み立て、翻訳文として適切な助詞や助動詞
を付加して出力する部分である。
【0050】また、前記辞書引き・形態素解析部34
は、メモリ記憶部33にある翻訳用辞書33aを検索す
る辞書引き部34aと、辞書から得られた情報を基に、
原文の形態素解析処理を行う形態素解析部34bと、不
連続のイディオムを処理するイディオム処理部34cを
具備する。
【0051】更に、イディオム処理部34cは、イディ
オム検索部34c−1と、イディオムの固定部を構成す
る単語群のうち、その非主要部に対応する原文中の単語
を削除/移動する辞書引き結果バッファ修正部34c−
2を具備する。
【0052】以上のような構成を持つ翻訳モジュール2
5は、図示していないが、翻訳モジュール内の各部の処
理、いわゆる翻訳処理を行う翻訳CPUと、翻訳処理の
プログラムを格納したプログラムメモリと、翻訳処理実
行時に必要となる品詞や訳語などの情報を記憶するため
のバッファを備えている。
【0053】一般に、プログラムメモリはROM、バッ
ファはRAMを用いることが好ましい。前記した翻訳モ
ジュール25の各部の機能は、この翻訳CPUによって
実現される。
【0054】なお、前記したメインCPU21及び翻訳
CPUともその内部にRAM、ROM、又は入出力イン
タフェースやタイマーを備えたいわゆるMPU(マルチ
プロセッシングユニット)を用いてもよい。
【0055】図4及び図5は、この実施例で使用する辞
書登録部32で翻訳用辞書に登録した不連続のイディオ
ムの登録例である。図6は、実施例で使用する代表記号
例を示している。例えば、*nは、1単語の名詞からなる
文字列を示し、*Nは、1単語以上の単語から成る名詞
句を示す。
【0056】また、図4及び図5に示した不連続のイデ
ィオムの登録列である[1a], [1b],[2a], [2b], [2c],
[3a]は、各々、前記文章(1a), (1b), (2a), (2b), (2c)
に含まれ不連続のイディオムを処理するための登録であ
る。
【0057】例えば、(1a)の登録の英語見出し部である
「英語」は、“both *N1 and * *N2”の文字列から成
り、bothやandは、見出しの中の固定部で、*N1 及び*N2
は、見出しの中の可変部で、名詞であることを規定して
いる。
【0058】この代表記号で使用されている1や2は、
同一代代表号が複数箇所に表れた場合、訳語との対応関
係を取るため、先頭からの連番を示している。“and ”
の末尾にある“ *”は、当該不連続イディオムの固定部
のうち、主要部、すなわち削除の対象とならない固定部
に付けるマークである。
【0059】「英品詞」は、この見出しに与える英語の
品詞である。「英品詞2」は、原文中から、非主要部を
削除した際に、主要部の位置に挿入する英語の品詞であ
る。「訳語属性」は、この見出しを採用した場合に、訳
文に与えられる属性である。例えば、(1b)の場合、文を
否定にして生成するという生成部に対する指示となる。
【0060】以下に、この発明の処理フローを示す図7
及び図8に基づいて、この発明の翻訳処理について説明
する。入力原文として、(1a) I have both A and B.
が、図3の原文入力部31より入力されたと仮定する。
また、図3の翻訳用辞書33aには、図4及び図5に示
した不連続イディオムが登録されているものと仮定す
る。
【0061】ステップS1で入力された文字列に対し
て、ステップS2において、図3の翻訳用辞書33aを
検索する。検索された見出しの品詞が、不連続イディオ
ム「CD」でない場合には、判断ステップS3からステ
ップS5に流れ図3のメモリ記憶部33に存在するバッ
ファメモリ33bに領域が確保される辞書引き結果バッ
ファA40に、辞書情報が格納される。
【0062】判断ステップS6では文末(すなわ
ち、“.”)まで処理が到達したかどうかを判断し、文
末でない場合はステップS2へ戻り処理が繰り返され
る。ステップS2において、入力文字列の“both”の辞
書検索をする場合、翻訳用辞書33aの検索によって、
図4に示した(1a)の登録の見出し語“both *N1 and *
*N2”が検索される。
【0063】この見出しの英品詞は、不連続イディオム
「CD」であるため、ステップS4に流れこの不連続イ
ディオムの妥当性をチェックするため、今着目している
原文の位置から後方に、辞書の見出し部(英語)に定義
されている残りの固定部が、存在するか否かがチェック
される。見出し部に定義された文字列のうち、“*”で
始まるものは可変部であり、それ以外が固定部である。
故に、残りの固定部は、“and *”という文字列になる
が、“ *”は、主要部を示す特殊記号であるため、当該
記号を除いた文字列、すなわち、“and ”が、原文に存
在するか否かがチェックされる。
【0064】判断ステップS4では、固定部としてand
が「有り」と判断されるため、ステップS5に流れ、当
該辞書情報が、辞書引き結果バッファA40にセットさ
れる。またステップS5では当該品詞が、「CD」であ
るため、ポインタとして、次の固定部の位置を示す4/
0がセットされる。
【0065】ここでポインタx/yは、単語位置
「x」、品詞候補「y」を指す。また、原文文字列の
“both”は、見出し語“ both *N1 and * *N2 ”の主要
部ではないため、その種別を示すフラグとして、「非」
がセットされる。主要部の場合には、フラグ値として、
「主」がセットされる。
【0066】この後文末の“.”に至るまで処理が繰り
返され、図9に示すような辞書引き結果バッファA−1
の辞書情報が作成される。
【0067】以上に示したステップS1からS6までの
処理は、辞書引き部34aが行う処理である。図9にお
いて、“単語位置”は、入力された単語文字列の各単語
のバッファ内での順序番号を示す。
【0068】“候補”とは、辞書引き処理によって検索
された各単語がとりうる品詞を抽出したものであり、図
中の0,1,2,3はその候補番号を示したものであ
る。たとえば、haveという単語は、2つの品詞候補が存
在する。また、各候補について、“単語数”、“品
詞”、“種別”、“ポインタ”の情報が記憶される。
【0069】ここで、“単語数”とは、辞書に登録され
た単語及び単語列がいくつの単語から構成されているか
を示すものであり、ピリオド、コンマ、コロン、セミコ
ロンも1単語と数える。
【0070】図9においては、各単語ごとに分類されて
いるため、すべて単語数は1であるが、複数の単語から
なる単語列の場合の“単語数”は、それらの単語間の
「空白の数」+1で表わされる。たとえば“high speed
machine ”という単語列では、“単語数”は3とな
る。この単語数は、辞書引き結果の連接関係を示すため
に用いられる。単語数3で表わされる連続した単語列
“high speed machine”は、1つの単語としてみなされ
て次の単語に続く。
【0071】“品詞”は、図4に示したようなその単語
のとりうべき品詞の記号を示したものである。“種別”
は、前記したようにイディオムの見出し語の主要部かど
うかを示すものであり、主要部のときには、「主」、主
要部でないときには「非」がセットされる。セットされ
るフラグ値としては、たとえば「主」の場合は“1”、
「非」の場合は“0”を用いてもよい。
【0072】“ポインタ”は前記したように、次の固定
部の位置を示すものであるが、図9において、ポインタ
“4/0”は単語位置4の“and”の候補0が次の固定
部であることを示している。
【0073】また、入力文(2a) This is so hot that c
hildren cannot drink it.が、入力された場合にも同様
に辞書引き部34aによって処理され、図10に示すよ
うな辞書引き結果バッファA−2が作成される。
【0074】すなわち、ステップS1で入力された文字
列に対して、ステップS2において、図3の翻訳用辞書
33aを検索し、検索された見出しの品詞が、不連続イ
ディオムCDでない場合には、判断ステップS3からス
テップS5に流れ図3の辞書引き結果バッファA40
に、辞書情報が格納される。
【0075】判断ステップS6では文末(すなわ
ち、“.”)まで処理が到達するまで、この処理が繰り
返される。ステップS2において、入力文字列の“so”
の辞書検索をすると、図4に示した(2a)の登録の見出し
語“so *A that * *C”が検索される。この見出しの英
品詞は、「CD」であるため、ステップS4に流れ、こ
の不連続イディオムの妥当性をチェックするため、今着
目している原文の位置から後方に、辞書の見出し部(英
語)に定義されている残りの固定部、すなわち“that”
が存在するか否かがチェックされる。
【0076】判断ステップS4では、「有り」と判断さ
れるため、ステップS5に流れ、当該辞書情報が、辞書
引き結果バッファA40にセットされる。
【0077】またステップS5では当該品詞が、「C
D」であるため、ポインタとして、次の固定部の位置を
示す4/0がセットされる。また、原文文字列の“so”
は、見出し語“so *A that * *C”の主要部ではないた
め、その種別を示すフラグとして、「非」がセットされ
る。
【0078】この後文末の“.”に至るまで処理が繰り
返され、図10に示すような辞書引き結果バッファA−
2の辞書情報が作成される。
【0079】また、図16に示した文章(3a)This is so
designed that everyone can operate it easily.は、
前述の通り、“is”と“designed”が受け身の動詞句を
作り、“so”と“that”が従属接続詞を構成する関係
で、係り受けが交差するため、従来技術では正しく翻訳
することができない。この発明においては、この文章(3
a)が入力されると、図7のステップS2において、図5
の[3a]にあるような登録を含めて辞書検索がなされ、図
13に示すように、辞書引き結果バッファA−3が作成
される。
【0080】ここで、単語位置2の「so」の品詞は、不
連続イディオム「CD」であり、種別は、主要部でない
ことを示す「非」であり、ポインタは単語位置4かつ候
補0の「that」に係ることを示す「4/0」となってい
る。
【0081】以上のような辞書引き処理の後、図7にお
けるステップS7において、従来行われていたものと同
様な形態素解析が行われ、各単語の数、人称、時制など
の文法属性が求められる。
【0082】次に、図8のステップS8からS15に示
すようなイディオム処理部4cの処理が実行される。図
9又は図10に示した辞書引き結果バッファが、イディ
オム処理部の入力となる。
【0083】まず、ステップS8で、検索のための「単
語位置カウンタ」が「0」にリセットされる。次に、判
断ステップS9において、今、ポイントしている単語位
置に、品詞候補として、「CD」があるかどうか検索さ
れ、ない場合には、ステップS14へと流れ、単語位置
カウンタがインクリメントされて、次の単語のチェック
に移る。
【0084】ここで、図9の辞書引き結果バッファA−
1の単語位置「2」まで達した時、辞書引き結果バッフ
ァA−1の単語位置「2」の列には、品詞「CD」が存
在するので、ステップS10に流れる。ステップS10
では、現在ポイントしている単語「both」の1つ前の単
語すなわち「have」の品詞候補をコピーし、「both」の
単語数(すなわち1)を加えた候補を作成する。
【0085】図11に作成した後の辞書引き結果バッフ
ァA−1の内容を示す。図11において、単語「have」
の候補0の内容を候補2にコピーし、候補1の内容を候
補3にコピーし、さらに、候補0及び1において、単語
数を2としている。
【0086】これにより、単語位置が1で品詞候補が1
番目の「VB」は、「both」を飛び越して、「A」につな
がる候補となる。これで、「both」を削除した候補(単
語位置「1」で品詞候補「0」と「1」からつながる候
補)と「both」を削除しない候補(単語位置「1」で品
詞候補「2」と「3」からつながる候補)が作成され
た。
【0087】次に、ステップS11において、現在着目
している単語位置「2」、品詞候補「0」、すなわち図
8の「both」の「CD」のポインタ「4/0」が示す単
語位置「4」、品詞候補「0」の位置、すなわち「an
d」の0番目の品詞として、見出し“both *N1 and * *N
2 ”の「英品詞2」である「CC」を挿入する。
【0088】図11に、この挿入後の辞書引き結果バッ
ファA−1の状態を示す。ただし、ここでは図9におい
てもandの品詞は「CC」であったため、見かけ上品詞
の変化はない。
【0089】次に、ステップS12において、現在ポイ
ントしている単語「both」の0番目の候補に「非主要
部」を示す「非」フラグが立っているので、削除して、
それ以降の品詞候補を前に詰める。
【0090】すなわち、図11の「both」の行におい
て、図9における「both」の品詞「CD」に相当する候
補が削除され、残りの候補が前に詰められている。しか
し、単語位置「1」や「4」に追加された品詞候補は、
他の単語位置のすべての品詞候補と共起可能というわけ
ではなく、“have”の品詞候補の0番目と1番目は、
“and ”の品詞候補の0番目と共起しなければならない
が、品詞候補の1番目とは排他的である。
【0091】このため、次のステップS13において、
この共起関係又は排他関係を示すポインタを単語位置
「1」(have)及び「4」(and)に、セットする。すなわ
ち、「have」の候補「0」及び「1」のポインタに“4
/0”、「and」の候補「0」のポインタに“1/0”
及び“1/1”がセットされる。
【0092】このポインタは、共起関係を示しており、
x/yで表現される。ポインタとして、x/yがセット
されている場合には、この単語の品詞候補が、単語位置
「x」、品詞候補「y」と共起可能であることを示して
いる。このポインタがセットされた状態は、図11の辞
書引き結果バッファA−1に示す通りである。
【0093】例えば、“and”の品詞候補「0」の「C
C」は、“have" の品詞候補「0」及び「1」と共起可
能であるが、品詞候補「2」及び「3」とは、共起不能
であることを示している。
【0094】ステップS14で単語位置カウンタをイン
クリメントし、原文のそれ以降に「CD」が存在するか
否かのチェックがなされる。文末までチェックが終了す
ると、判断ステップS15で下に流れ、以上でイディオ
ム処理が終了する。
【0095】以上に示したステップS8からステップS
15がイディオム処理部34cの処理であるが、ステッ
プS8及びS9は、図3におけるイディオム検索部34
c−1の処理であり、ステップS10からS14は辞書
バッファ修正部34c−2の処理である。
【0096】同様に、入力原文として、(2a)This is so
hot that children cannot drinkit. が入力された場
合にも、以上のような辞書引き処理が終了すると、ステ
ップS7において、形態素解析が行なわれ、各単語の
数、人称、時制などの文法属性が求められる。
【0097】次に、前記したようなステップS8からS
15に示すイディオム処理部4cの処理が実行される。
ここで、辞書引き結果バッファA−2の単語位置「2」
まで達した時、ステップS10において、現在ポイント
している単語「so」の1つ前の単語すなわち「is」の品
詞候補をコピーし、「so」の単語数(すなわち1)を加
えた候補が作成される。これにより、単語位置が1で品
詞候補が1番目の「BE」は、「so」を飛び越して、「ho
t」につながる候補となる。これで、「so」を削除した
候補(単語位置「1」で品詞候補「0」からつながる候
補)と「so」を削除しない候補(単語位置「1」で品詞
候補「1」からつながる候補)が作成された。
【0098】次に、ステップS11において、現在着目
している単語位置「2」、品詞候補「0」、すなわち図
10の「so」の「CD」のポイント「4/0」が示す単
語位置「4」、品詞候補「0」の位置、すなわち、“th
at”の0番目の品詞として、見出し“so *A that * *
C”の「英品詞2」である「AC」を挿入する。図11
に、この挿入後の辞書引き結果バッファA−2の状態を
示す。
【0099】また、ステップS12において、現在ポイ
ントしている単語「so」の0番目の候補に「非主要部」
を示す「非」フラグが立っているので、削除して、それ
以降の品詞候補を前に詰める。しかし、単語位置「1」
や「4」に追加された品詞候補は、他の単語位置のすべ
ての品詞候補と共起可能というわけではなく、“be”の
品詞候補の0番目は、“that”の品詞候補の0番目と共
起しなければならないが、品詞候補の1、2、3…番目
とは排他的である。
【0100】このため、次のステップS13において、
この共起関係又は排他関係を示すポインタを単語位置
「1」(is)及び「4」(that)にセットする。図11の辞
書引き結果バッファA−2において、例えば、“that”
の品詞候補「0」の「AC」は、“have”の品詞候補
「0」と共起可能であるが、品詞候補「2」とは、共起
不能であることを示している。ステップS14で単語位
置カウンタをインクリメントし、原文のそれ以降に「C
D」が存在するか否かのチェックがなされ、文末に到達
するまで、処理が繰り返される。
【0101】また同様に、入力が図16に示した文章(3
a)This is so designed that everyone can operate it
easily.である場合には、図13の辞書引き結果バッフ
ァA−3が図14の辞書引き結果バッファA−3に、変
更される。
【0102】図14において、単語位置4の「that」の
品詞候補0に対応する位置に候補が追加されている。す
なわち、単語数が「1」、品詞が「AC」、種別が主要
部であることを示す「主」、ポインタが単語位置1から
候補0の「is」と連係していることを示す「1/0」に
それぞれ設定されている。
【0103】以上の処理が終了すると、ステップS16
において、構文解析部35によって構文解析が実行され
る。ここでは図3のメモリ記憶部33に格納された解析
文法規則33cを参照しながら、原文の係り受け構造が
決定される。前記辞書引き結果バッファの修正処理がな
されているため、入力原文の単語列は、特殊な並びが既
に正規化されている。
【0104】ここでの正規化とは、入力された単語列に
含まれる不連続イディオム部分の固定部のうち、主要部
でない方を削除することであり、この処理によって1つ
の固定部のみを有するイディオムと見なせるように単語
列の並びが修正される。したがって、このように修正さ
れた後のイディオムは、特殊な品詞並びを処理するため
の特別な文法規則を必要とせず、通常用いられる文法規
則によって構文解析が実行され、構文解析木が作成され
る。
【0105】なお、前記したような他の正規化処理によ
ってイディオムを構成する単語列の並びを修正してもよ
く、このときも同様に通常用いられる文法規則によっ
て、不連続イディオムの構文解析ができる。
【0106】また、ここでは、辞書引き結果バッファに
セットされた共起関係を示すポインタを参照しながら、
例えば、“have" の品詞候補「1」と“and”の品詞候
補「1」が同一の構文解析木に存在しないことがチェッ
クされる。
【0107】また、構文解析によって、構文解析木が作
成されると、イディオム登録の代表記号で示された可変
部の品詞がチェックされる。すなわち、“both *N1 and
* N2”の場合、主要部である“and ”の両隣は、「*
N」(名詞句)であるか否かチェックされる。このチェ
ックに失敗した場合には、そのイディオムを使った構文
解析木は破棄される。つまり、当該解釈は、あり得ない
ことになる。
【0108】入力文の“I have both A and B.”は、図
11の辞書引き結果バッファA−1から明らかなよう
に、“A ”及び“B ”の部分は、名詞句として成立する
ので、構文解析が成功する。
【0109】この後、ステップS17において変換部3
6による変換処理、ステップS18において、生成部3
7による生成処理が実行され、イディオムとして定義さ
れた訳語「*N1と*N2の両方」を得て、「*N1」
に、訳語「A」を当てはめ、「*N2」に、訳語「B」
を当てはめ、最終的な文全体の訳として、「私は、Aと
Bの両方を持っている。」という訳文が得られ、ステッ
プS19において、CRTあるいはプリンタにその結果
が出力される。
【0110】以上のように、イディオムの中に存在する
「主要部」を示す記号に従って、辞書引き結果バッファ
Aを操作することにより、非主要部を入力原文より削除
し、入力文を標準的な文法規則で処理することができる
ように正規化することができ、最終的に、イディオムを
含む入力文に対する適切な翻訳文を生成することができ
る。また、従来技術に示した再帰的処理による翻訳で
は、可変部を翻訳した後に適用した規則が適切でないこ
とがわかり、再度翻訳をやり直すことがありうるが、こ
の発明では、前記したように辞書引き処理バッファAを
操作した後に、構文解析が行われるため、この従来技術
に比べて翻訳の効率が改善できる。
【0111】
【発明の効果】この発明によれば、入力された第1言語
の単語列のうち、イディオムの見出し語に同定された固
定部の並びを正規化させるようにしているので、不連続
イディオムの場合でも翻訳処理するための特殊な文法規
則を定義することなく、通常の文法規則を利用すること
によって不連続イディオムの翻訳文を生成することがで
き、イディオムを構成する単語間の係り受けが交差する
場合にも、適切な翻訳文を生成することができる。
【図面の簡単な説明】
【図1】この発明の基本構成ブロック図である。
【図2】この発明の一実施例における機械翻訳装置の構
成ブロック図である。
【図3】この発明の一実施例の機能ごとのブロック図で
ある。
【図4】この発明のイディオムの登録例の説明図であ
る。
【図5】この発明のイディオムの登録例の説明図であ
る。
【図6】この発明の代表記号テーブル例の説明図であ
る。
【図7】この発明の辞書引き及び形態素解析処理のフロ
ーチャートである。
【図8】この発明のイディオム処理のフローチャートで
ある。
【図9】この発明の一実施例において、辞書引き結果バ
ッファAの格納内容を示した模式図である。
【図10】この発明の一実施例において、辞書引き結果
バッファAの格納内容を示した模式図である。
【図11】イディオム処理後の辞書引き結果バッファA
の格納内容を示した模式図である。
【図12】イディオム処理後の辞書引き結果バッファA
の格納内容を示した模式図である。
【図13】この発明の一実施例において、辞書引き結果
バッファAの格納内容を示した模式図である。
【図14】イディオム処理後の辞書引き結果バッファA
の格納内容を示した模式図である。
【図15】従来技術の代表記号の説明図である。
【図16】品詞の係り受けが交差する場合の文章例であ
る。
【符号の説明】
1 入力手段 2 辞書登録手段 3 辞書手段 4 辞書引き手段 5 イディオム処理手段 21 メインCPU 22 メインメモリ 23 表示装置 24 キーボード 25 翻訳モジュール 26 外部メモリ 27 バス
───────────────────────────────────────────────────── フロントページの続き (72)発明者 九津見 毅 大阪府大阪市阿倍野区長池町22番22号 シ ャープ株式会社内

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 第1言語の単語列を入力する入力手段
    と、少なくとも2つの固定部とその間の可変部から構成
    される第1言語のイディオムを見出し語として記憶する
    とともに、その見出し語に対応する第2言語の訳語を記
    憶する辞書手段と、前記辞書手段に前記第1言語の見出
    し語とそれに対応する第2言語の訳語を新規登録又は更
    新登録させる登録手段と、入力手段から入力された第1
    言語の単語列と前記辞書手段に記憶されたイディオムの
    見出し語とを比較検索する辞書引き手段と、辞書引き手
    段によってイディオムの見出し語に同定された単語列の
    固定部の並びを正規化させるイディオム処理手段とを備
    えたことを特徴とするイディオム処理機能を有する機械
    翻訳装置。
  2. 【請求項2】 前記辞書手段が、第1言語のイディオム
    をその固定部のうち中心となる主要部とその他の非主要
    部とを区別できる形式で記憶し、前記辞書引き手段が、
    単語ごとの品詞情報と、見出し語に同定された単語列の
    固定部に付与される、主要部と非主要部の区別を表す種
    別情報及び入力された単語列の単語間の連係関係を示す
    ポインタ情報を備えた構文情報を作成することを特徴と
    する請求項1記載のイディオム処理機能を有する機械翻
    訳装置。
  3. 【請求項3】 前記イディオム処理手段が、前記正規化
    を行う際に、入力された単語列の中で前記見出し語の固
    定部に同定された単語列のうち、非主要部を主要部の単
    語の位置に移動したものとみなす情報を付加して前記構
    文情報を変換することを特徴とする請求項2記載のイデ
    ィオム処理機能を有する機械翻訳装置。
JP09005394A 1994-04-27 1994-04-27 イディオム処理機能を持つ機械翻訳装置 Expired - Fee Related JP3377290B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP09005394A JP3377290B2 (ja) 1994-04-27 1994-04-27 イディオム処理機能を持つ機械翻訳装置
US08/428,547 US5644774A (en) 1994-04-27 1995-04-25 Machine translation system having idiom processing function

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP09005394A JP3377290B2 (ja) 1994-04-27 1994-04-27 イディオム処理機能を持つ機械翻訳装置

Publications (2)

Publication Number Publication Date
JPH07295986A true JPH07295986A (ja) 1995-11-10
JP3377290B2 JP3377290B2 (ja) 2003-02-17

Family

ID=13987857

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09005394A Expired - Fee Related JP3377290B2 (ja) 1994-04-27 1994-04-27 イディオム処理機能を持つ機械翻訳装置

Country Status (2)

Country Link
US (1) US5644774A (ja)
JP (1) JP3377290B2 (ja)

Families Citing this family (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2300495A (en) * 1995-04-13 1996-11-06 Canon Kk Language processing
US5903858A (en) * 1995-06-23 1999-05-11 Saraki; Masashi Translation machine for editing a original text by rewriting the same and translating the rewrote one
JP3272288B2 (ja) * 1997-12-24 2002-04-08 日本アイ・ビー・エム株式会社 機械翻訳装置および機械翻訳方法
JP3959180B2 (ja) * 1998-08-24 2007-08-15 東芝ソリューション株式会社 通信翻訳装置
US7191393B1 (en) * 1998-09-25 2007-03-13 International Business Machines Corporation Interface for providing different-language versions of markup-language resources
CN1102271C (zh) * 1998-10-07 2003-02-26 国际商业机器公司 具有习惯用语处理功能的电子词典
US6473729B1 (en) * 1999-12-20 2002-10-29 Xerox Corporation Word phrase translation using a phrase index
CN1465018A (zh) * 2000-05-11 2003-12-31 南加利福尼亚大学 机器翻译技术
US7010479B2 (en) * 2000-07-26 2006-03-07 Oki Electric Industry Co., Ltd. Apparatus and method for natural language processing
JP4574047B2 (ja) * 2001-03-30 2010-11-04 富士通株式会社 訳例辞書を用いて翻訳を行う機械翻訳装置およびプログラム
US7177792B2 (en) * 2001-05-31 2007-02-13 University Of Southern California Integer programming decoder for machine translation
WO2003005166A2 (en) 2001-07-03 2003-01-16 University Of Southern California A syntax-based statistical translation model
AU2003269808A1 (en) 2002-03-26 2004-01-06 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
KR100446627B1 (ko) * 2002-03-29 2004-09-04 삼성전자주식회사 음성대화 인터페이스를 이용한 정보제공장치 및 그 방법
US7031911B2 (en) * 2002-06-28 2006-04-18 Microsoft Corporation System and method for automatic detection of collocation mistakes in documents
US20040030540A1 (en) * 2002-08-07 2004-02-12 Joel Ovil Method and apparatus for language processing
US7346511B2 (en) * 2002-12-13 2008-03-18 Xerox Corporation Method and apparatus for recognizing multiword expressions
US7552051B2 (en) * 2002-12-13 2009-06-23 Xerox Corporation Method and apparatus for mapping multiword expressions to identifiers using finite-state networks
JP3973549B2 (ja) * 2002-12-19 2007-09-12 沖電気工業株式会社 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体
US8943024B1 (en) 2003-01-17 2015-01-27 Daniel John Gardner System and method for data de-duplication
US8375008B1 (en) 2003-01-17 2013-02-12 Robert Gomes Method and system for enterprise-wide retention of digital or electronic data
US6980949B2 (en) * 2003-03-14 2005-12-27 Sonum Technologies, Inc. Natural language processor
US20040230898A1 (en) * 2003-05-13 2004-11-18 International Business Machines Corporation Identifying topics in structured documents for machine translation
US8548794B2 (en) 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US7711545B2 (en) * 2003-07-02 2010-05-04 Language Weaver, Inc. Empirical methods for splitting compound words with application to machine translation
WO2005089340A2 (en) * 2004-03-15 2005-09-29 University Of Southern California Training tree transducers
US8296127B2 (en) * 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) * 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
WO2006042321A2 (en) 2004-10-12 2006-04-20 University Of Southern California Training for a text-to-text application which uses string to tree conversion for training and decoding
US7349924B2 (en) * 2004-11-29 2008-03-25 International Business Machines Corporation Colloquium prose interpreter for collaborative electronic communication
US8527468B1 (en) 2005-02-08 2013-09-03 Renew Data Corp. System and method for management of retention periods for content in a computing system
US7765098B2 (en) * 2005-04-26 2010-07-27 Content Analyst Company, Llc Machine translation using vector space representations
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US7974833B2 (en) 2005-06-21 2011-07-05 Language Weaver, Inc. Weighted system of expressing language information using a compact notation
US7389222B1 (en) 2005-08-02 2008-06-17 Language Weaver, Inc. Task parallelization in a text-to-text system
US7813918B2 (en) * 2005-08-03 2010-10-12 Language Weaver, Inc. Identifying documents which form translated pairs, within a document collection
US7624020B2 (en) * 2005-09-09 2009-11-24 Language Weaver, Inc. Adapter for allowing both online and offline training of a text to text system
US20070067155A1 (en) * 2005-09-20 2007-03-22 Sonum Technologies, Inc. Surface structure generation
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
JP4720570B2 (ja) * 2006-03-27 2011-07-13 カシオ計算機株式会社 情報表示制御装置及び情報表示制御プログラム
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US8549492B2 (en) * 2006-04-21 2013-10-01 Microsoft Corporation Machine declarative language for formatted data processing
US8171462B2 (en) * 2006-04-21 2012-05-01 Microsoft Corporation User declarative language for formatted data processing
US20080189273A1 (en) * 2006-06-07 2008-08-07 Digital Mandate, Llc System and method for utilizing advanced search and highlighting techniques for isolating subsets of relevant content data
US20100198802A1 (en) * 2006-06-07 2010-08-05 Renew Data Corp. System and method for optimizing search objects submitted to a data resource
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
WO2008080190A1 (en) * 2007-01-04 2008-07-10 Thinking Solutions Pty Ltd Linguistic analysis
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US8615490B1 (en) 2008-01-31 2013-12-24 Renew Data Corp. Method and system for restoring information from backup storage media
WO2009107456A1 (ja) * 2008-02-29 2009-09-03 シャープ株式会社 情報処理装置、方法、およびプログラム
US8370126B2 (en) * 2009-01-30 2013-02-05 Facebook, Inc. Incorporation of variables into textual content
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
WO2011072172A1 (en) * 2009-12-09 2011-06-16 Renew Data Corp. System and method for quickly determining a subset of irrelevant data from large data content
US8738668B2 (en) 2009-12-16 2014-05-27 Renew Data Corp. System and method for creating a de-duplicated data set
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
US10061770B2 (en) * 2016-11-11 2018-08-28 International Business Machines Corporation Multilingual idiomatic phrase translation
US9916307B1 (en) * 2016-12-09 2018-03-13 International Business Machines Corporation Dynamic translation of idioms
US10055401B2 (en) * 2016-12-09 2018-08-21 International Business Machines Corporation Identification and processing of idioms in an electronic environment
US10049108B2 (en) * 2016-12-09 2018-08-14 International Business Machines Corporation Identification and translation of idioms
US11244123B2 (en) 2019-06-05 2022-02-08 International Business Machines Corporation Addressing additional meanings resulting from language translation

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5840684A (ja) * 1981-09-04 1983-03-09 Hitachi Ltd 自然言語間の自動翻訳方式
JPH05314166A (ja) * 1992-05-08 1993-11-26 Sharp Corp 電子化辞書および辞書検索装置
US5541838A (en) * 1992-10-26 1996-07-30 Sharp Kabushiki Kaisha Translation machine having capability of registering idioms
JPH06193272A (ja) * 1992-12-28 1994-07-12 Taisei Corp 外壁養生ネツト装置及び外壁養生方法

Also Published As

Publication number Publication date
US5644774A (en) 1997-07-01
JP3377290B2 (ja) 2003-02-17

Similar Documents

Publication Publication Date Title
JP3377290B2 (ja) イディオム処理機能を持つ機械翻訳装置
JP3220560B2 (ja) 機械翻訳装置
US20070233460A1 (en) Computer-Implemented Method for Use in a Translation System
JP4319860B2 (ja) 転移ベースの機械翻訳システムで使用される転移辞書を開発するための方法および装置
US5475586A (en) Translation apparatus which uses idioms with a fixed and variable portion where a variable portion is symbolic of a group of words
JPH083815B2 (ja) 自然言語の共起関係辞書保守方法
US5608623A (en) Special cooccurrence processing method and apparatus
JPH05197747A (ja) 言語処理装置
JPH05120324A (ja) 言語処理方式
JPH0855123A (ja) イディオム登録機能を有する機械翻訳装置
JPH0439705B2 (ja)
JP3233800B2 (ja) 機械翻訳装置
JPH0561902A (ja) 機械翻訳システム
JP3680489B2 (ja) 機械翻訳装置および機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3892227B2 (ja) 機械翻訳システム
JP2719453B2 (ja) 機械翻訳装置
Jha Generating nominal inflectional morphology in Sanskrit
JP2839419B2 (ja) イディオム登録機能を持つ機械翻訳装置
JP2752025B2 (ja) 機械翻訳装置
JPH07141382A (ja) 外国語文書作成支援装置
JP2004086919A (ja) 機械翻訳システム
JPH10340264A (ja) 機械翻訳装置及び機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH05165881A (ja) 機械翻訳装置
JPH0728820A (ja) 機械翻訳装置
JPH04107674A (ja) 言語処理装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071206

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081206

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091206

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091206

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101206

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101206

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111206

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111206

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121206

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees