JPH05314166A - 電子化辞書および辞書検索装置 - Google Patents

電子化辞書および辞書検索装置

Info

Publication number
JPH05314166A
JPH05314166A JP4116418A JP11641892A JPH05314166A JP H05314166 A JPH05314166 A JP H05314166A JP 4116418 A JP4116418 A JP 4116418A JP 11641892 A JP11641892 A JP 11641892A JP H05314166 A JPH05314166 A JP H05314166A
Authority
JP
Japan
Prior art keywords
dictionary
representative symbol
word
representative
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4116418A
Other languages
English (en)
Inventor
Ichiko Sada
いち子 佐田
Hidezo Kugimiya
秀造 釘宮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP4116418A priority Critical patent/JPH05314166A/ja
Priority to US08/056,775 priority patent/US5475586A/en
Publication of JPH05314166A publication Critical patent/JPH05314166A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Abstract

(57)【要約】 【目的】 電子化辞書構築の際の辞書登録の時間および
労力を削減し、辞書の記憶容量の増大を防ぐ。 【構成】 電子化辞書の媒体は、複数個の項目を記憶す
る。各項目は、見出語列と、その見出語列に関連する情
報とを含む。見出語列は、所定の属性を共有する複数個
の単語を代表する第1の代表記号を含む。また情報のう
ちには、所定の属性を共有する複数個の単語を代表する
第2の代表記号を含むものもある。検索の時は、第1の
代表記号は、その代表する単語のいづれとも同一である
とみなして、入力文字列と見出語列とを同定し(S
4)、同定された見出語列に対応する情報を出力する
(S9)。情報に第2の代表記号が含まれる場合には
(S7)、その第2の代表記号を具体的な単語に置換え
て出力する(S8)。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は電子化辞書と、電子化
辞書を搭載する情報検索装置あるいは電子化辞書を搭載
した機械翻訳装置等に関する。
【0002】
【従来の技術】現在実用化されている言語処理装置に
は、人間の文書作成活動を支援するためのワードプロセ
ッサや、或る言語で書かれた文書を別の言語に翻訳する
ための機械翻訳装置などがある。これらの言語処理装置
には、それぞれの目的に応じた情報を納めた辞書が備え
られている。ここでいう辞書とは、言語処理装置で扱う
言語に関して、見出語とそれに付帯する各種の情報の組
とを1単位の項目としたものを多数統合し、見出語を用
いて所望の項目を容易に検索できるように系統立てて並
べたものである。
【0003】辞書は、原則として機械可読な不揮発性の
媒体に機械可読な形式で記録される。このように機械可
読な不揮発性の媒体に機械可読な形式で記録された辞書
を、電子化辞書と呼ぶことにする。電子化辞書を機械翻
訳において用いる場合には、見出語としては原語(ソー
ス原語)の単語列(1単語のみのものも含む)が用いら
れ、その単語列に付帯する各種の情報は、その単語列の
品詞情報や翻訳語(ターゲット言語)の対応単語列など
を含む。
【0004】このような言語処理装置を用いて利用者が
処理あるいは作成しようとしている文書に、この装置に
備えられた辞書に見出語として記載されていない単語が
含まれている場合には、作業効率が著しく低下してしま
う。そのために、辞書に収録する見出語は、より多いほ
うが好ましい。同様に、機械翻訳の場合には、原語の各
単語のみではなく、イディオムを見出語として採用し、
対応するターゲット言語の言い回し等をペアとして、こ
のようなペアをできるだけ多数登録しておくことが翻訳
効率の上では望ましい。
【0005】
【発明が解決しようとする課題】しかし、たとえば見出
語としてイディオムなどを登録する場合、次のような問
題点がある。イディオムには、数詞、所有格代名詞、再
帰代名詞など、主語や他の語との関係でその形を変え得
る部分を含むものが多い。そのため、前述のように翻訳
効率を上げるためには、これら可変部分に具体的な語を
入れ替えた同一のイディオムを多数登録しなければなら
ない。そのために、辞書登録者に係る負担が大きくなっ
てしまう。また、見出語が増えれば増えるだけ辞書の記
憶媒体として必要な容量も増大するために、このような
登録の方法は好ましいものではない。
【0006】それゆえに請求項1に記載の発明の目的
は、英語のイディオムにおける数詞、所有格代名詞、再
帰代名詞などのように、同一の見出語中でも形を変え得
る部分(可変部分)を含む見出語を多数検索可能で、か
つ記憶容量の増大を防ぐことができる電子化辞書を提供
することである。
【0007】請求項2に記載の発明の目的は、可変部分
を含む見出語を多数検索し、各可変部分の具体的形態に
応じた適切な情報を得ることが可能で、かつ記憶容量の
増大を防ぐことができる電子化辞書を提供することであ
る。
【0008】請求項3に記載の発明の目的は、可変部分
を含む見出語を多数検索可能で、かつ電子化辞書の記憶
容量の増大を防ぐことができる辞書検索装置を提供する
ことである。
【0009】請求項4に記載の発明の目的は、可変部分
を含む見出語を多数検索し、入力された単語列の具体的
な形態に応じた適切な情報を得ることが可能で、かつ電
子化辞書の記憶容量の増大を防ぐことができる辞書検索
装置を提供することである。
【0010】
【課題を解決するための手段】請求項1に記載の電子化
辞書は、複数個の項目を記憶するための記憶媒体を含
む。各項目は、見出語列と、見出語列と特定の関係を有
するように選ばれた情報とを含む。少なくとも1つの項
目に含まれる情報は、所定の属性を共有する複数個の単
語を代表する第1の代表記号を含む。
【0011】請求項2に記載の電子化辞書は、請求項1
に記載の電子化辞書であって、第1の代表記号を含む見
出語列と同一の項目に含まれる情報の少なくとも一つ
は、予め定める属性を共有する複数個の単語を代表する
第2の代表記号を含む。
【0012】請求項3に記載の辞書検索装置は、請求項
1に記載の電子化辞書を用い、入力された文字列に対応
する情報を検索し出力するためのものである。この装置
は、第1の代表記号を、その代表する複数個の単語のい
ずれとも同一であるものとみなして、入力された文字列
を見出語列の1つと同定するための同定手段と、同定手
段により同定された見出語列と同一の項目に含まれる情
報を出力するための出力手段とを含む。
【0013】請求項4に記載の辞書検索装置は、請求項
2に記載の電子化辞書を用い、入力された文字列に対応
する情報を検索し出力するためのものである。この装置
は、第1の代表記号を、その代表する単語のいずれとも
同一であるものとみなして、入力された文字列と、見出
語列の1つとを同定するための同定手段と、同定手段に
より同定された見出語列と同一の項目に含まれる情報を
抽出するための抽出手段と、抽出された情報が第2の代
表記号を含むか否かを検出するための検出手段と、検出
手段により存在が検出された第2の代表記号を、同定手
段により第1の代表記号と同一であるとみなされた、入
力された文字列中の単語に基づき、第2の代表記号によ
り代表される単語のうちから選択される1つの単語と置
換するための置換手段と、抽出された情報を、第2の代
表記号が含まれていない場合にはそのままで、第2の代
表記号が含まれている場合には置換手段による置換を行
なって、それぞれ出力するための出力手段とを含む。
【0014】
【作用】請求項1に記載の電子化辞書においては、複数
個の単語を、1つの代表記号で代表することにより、複
数個の見出語列を、1つの見出語列として電子化辞書に
登録しておくことができる。
【0015】請求項2に記載の電子化辞書においては、
所定の属性を共有する複数個の単語を第1の代表記号で
代表して見出語列とすることにより、異なる複数個の見
出語列を1つの見出語列として電子化辞書に登録するこ
とができる。そして、登録された見出語列と同一の項目
に含まれる情報に、複数個の単語を代表する第2の代表
記号を含ませておくことができる。したがって、複数の
見出語列を単一の見出語列として記憶させておくことが
できるとともに、読出のときには元々の複数個の見出語
列に対応する情報を別々に得ることができる。
【0016】請求項3に記載の辞書検索装置によれば、
入力された文字列と見出語列との同定が行なわれるに際
し、各見出語列に含まれる第1の代表記号は、その代表
する複数個の単語のいずれとも同一であるものとみなさ
れる。そのために、請求項1に記載の電子化辞書のよう
に複数個の単語を代表する第1の代表記号を有する項目
が存在する場合に、具体的な単語で表現された見出語列
と、第1の代表記号によって電子化辞書に登録された見
出語列との一致をとることができる。そして、同定され
た見出語列に含まれる情報を出力することにより、所望
の見出語列に対応の情報を利用者に提示することが可能
である。
【0017】請求項4に記載の辞書検索装置において
は、同定手段による入力された文字列と見出語列との同
定の際に、第1の代表記号は、その代表する単語のいず
れとも同一であるものとみなされる。そのために、具体
的な単語により表現された見出語を第1の代表記号を用
いて電子化辞書に登録した場合にも、入力された文字列
と見出語列との一致をとることができる。そして、同定
された見出語列と同一の項目に含まれる情報を抽出し、
さらにこの情報に第2の代表記号が含まれている場合に
は、その代表記号を、同定手段によって第1の代表記号
と同一であるとみなされた単語に基づいて、第2の代表
記号によって代表される単語のうちから選択して置換す
る。このように第2の代表記号が置換された情報を出力
することにより、元々の具体的な見出語列に適切に対応
した情報を得ることができる。
【0018】
【実施例】以下、本発明の辞書検索装置の一実施例とし
て機械翻訳装置に用いられるものを例にとって説明す
る。しかし本発明は機械翻訳装置には限定されず、ワー
ドプロセッサや情報検索装置などに対しても適用可能で
ある。
【0019】実施例の説明の前に、機械翻訳の概念につ
いて簡単に説明する。第1図を参照して、機械翻訳にお
いて行なわれる解析処理には、様々な解析レベルがあ
る。機械翻訳は、図1の左上に示されるソース言語が入
力されると、各レベルの処理を順に行なって最終的に図
1の右側に示されるターゲット言語を得るための処理で
ある。たとえばソース言語が入力されると、まずレベル
L1の辞書引き処理、レベルL2の形態素解析処理、レ
ベルL3の構文解析処理、…と処理が進められ、最終的
にレベルL10の形態素生成処理が行なわれてターゲッ
ト言語が生成される。
【0020】機械翻訳は、どのレベルの解析処理まで行
なうかによって、大きく次の2つに分けられる。第1
は、レベルL6に示される中間言語まで解析し、そこか
らターゲット言語を生成していくピボット方式である。
第2は、上述のレベルL2〜レベルL5のいずれかまで
解析を行なってソース言語の内部構造を得、次に、得ら
れたソース言語の内部構造と同じレベルのターゲット言
語の内部構造に変換した後、ターゲット言語を生成する
トランスファ方式である。
【0021】ピボット方式において用いられる中間言語
とは、ソース言語およびターゲット言語のどちらにも依
存しない概念である。したがってソース言語の解析処理
を一度行なって中間言語を得れば、この中間言語から複
数の言語を生成することができるため、多言語間翻訳に
有利であるとされる。しかし、このようなピボット方式
では、その基本的概念である中間言語を本当に設定でき
るかどうかという点が未解決である。
【0022】トランスファ方式はピボット方式のこのよ
うな問題に対する妥協案であって、現在の多くのシステ
ムはこのトランスファ方式を採っている。以下の説明は
トランスファ方式についてのものであり、後述する実施
例の機械翻訳装置もトランスファ方式を用いたものであ
る。
【0023】以下、図1に示される各解析処理の内容に
ついて説明する。 (1) 辞書引き、形態素解析 この処理においては、入力された文章に対して、形態素
が格納された辞書を参照しながらたとえば最長一致法な
どを用いて形態素列(単語列)に分割する処理がまず行
なわれる。そして、得られた各単語に対する品詞などの
文法情報および訳語を得、さらに時制・人称・数などを
解析する処理が行なわれる。
【0024】(2) 構文解析 この処理においては、品詞・変化形などに基づき、単語
間のかかり受けなどの文章の構造(構造解析木)を組立
て、決定する処理が行なわれる。この処理においては、
得られた文章の構造が正しい意味を表わすかどうかにつ
いての判断は行なわれない。
【0025】(3) 意味解析 構文解析処理の結果得られた複数の構造解析木から、意
味的に正しいものとそうでないものとを判別し、正しい
もののみを採用する処理が行なわれる。
【0026】(4) 文脈解析 文脈解析処理では、入力された文章の話題を理解し、入
力文章中に含まれる省略部分や曖昧さなどを取去る処理
が行なわれる。
【0027】以下で説明する本発明の一実施例の機械翻
訳装置の翻訳モジュールにおいては、レベルL3までの
解析処理を行なうものとする。すなわち、本実施例の機
械翻訳装置の翻訳モジュールは、図2に示されるような
構造を有する。この翻訳モジュールは、図2を参照し
て、ソース言語に対して辞書引き・形態素解析処理を行
なうための辞書引き・形態素解析部11と、形態素解析
された入力文章に対して構文解析を行なうための構文解
析部12と、構文解析の結果を変換してターゲット言語
の構造解析木を生成するための変換部13と、変換部1
3によって生成されたターゲット言語の構造解析木に基
づき、ターゲット言語の翻訳文を生成するための翻訳文
生成部14とを含む。各部11〜14で行なわれる処理
については、実施例において詳しく説明する。
【0028】図3は、この発明の言語処理装置の一実施
例の機械翻訳装置のブロック図である。図3を参照し
て、この機械翻訳装置は、メインCPU(中央処理装
置)1と、メインCPU1が接続されたバス7と、バス
7に接続されたメインメモリ2と、バス7に接続された
CRT(陰極線管)やLCD(液晶表示装置)などから
なる表示装置3と、キーボード4と、バス7に接続され
た翻訳モジュール5と、翻訳モジュール5に接続された
翻訳用の辞書・文法規則および木変換構造規則などの知
識ベースを格納しているメモリ6とを含む。
【0029】翻訳モジュール5は、ソース言語の文章が
入力されると、それを所定の手順で翻訳してターゲット
言語を出力するためのものである。図4を参照して、翻
訳モジュール5は、バス7に接続され、バス7を介して
入力されるソース言語(本実施例の場合には英語)を、
所定の翻訳プログラムに従って翻訳してターゲット言語
(本実施例の場合には日本語)としてバス7に出力する
ための翻訳CPU15と、バス7に接続され、翻訳CP
U15で実行される翻訳プログラムを格納するための翻
訳プログラムメモリ16と、入力されたソース言語の原
文を各単語ごとに格納するためのバッファAと、バッフ
ァAに格納された各単語につき、メモリ6に含まれる辞
書を参照して得た各単語の品詞、訳語などの情報を格納
するためのバッファBと、ソース言語の構造解析木に関
する情報を格納するためのバッファCと、バッファCに
格納されたソース言語の構造解析木が変換されたターゲ
ット言語の構造解析木を格納するためのバッファDと、
バッファDに格納された日本語の構造解析木に適切な助
詞や助動詞などを補充して、日本語の形として整えられ
た文章を格納するためのバッファEとを含む。
【0030】以下、図3〜図9を参照して、本実施例の
機械翻訳装置による英日翻訳の動作を説明する。なお、
翻訳CPU15で実行される翻訳プログラムの詳細につ
いては後に詳述する。
【0031】まず、読込まれた原文は形態素解析によっ
て形態素に分解され、図5に示されるようにバッファA
(図4参照)に格納される。
【0032】続いて翻訳プログラム16に基づく翻訳C
PU15の制御の下に、図2に示される辞書引き・形態
素解析部11によって、バッファAに格納された原文の
各単語につき、メモリ6に格納されている辞書を参照す
ることにより各単語の訳語や品詞情報などの情報が得ら
れる。この情報は図4に示されるバッファBに格納され
る。これらの情報の一部として、各単語の品詞情報が含
まれるが、これら品詞情報は図6に示されるように格納
される。すなわち“this”は多品詞語であって代名
詞、指示形容詞の2つの品詞を持つ。また“is”の品
詞は動詞である。同様に“a”、“pen”についても
それぞれの品詞がバッファBに格納される。“thi
s”は多品詞語であるが、文中の品詞が何であるかにつ
いては、図2に示される構文解析部12に相当する処理
によって一意に決定される。
【0033】翻訳プログラムのうち図2に示される構文
解析部12に相当する処理においては、メモリ6に格納
された辞書および文法規則に従って、各単語間のかかり
受け関係を示す構造解析木がたとえば図7に示されるよ
うに決定される。この構文解析結果は図4のバッファC
に格納される。
【0034】構造解析木の決定は次のようにして行なわ
れる。メモリ6に格納された文法規則のうち、英語に関
する文法規則は次のようなものから成り立っている。
【0035】 文→主部、述部 主部→名詞句 述部→動詞、名詞句 名詞句→代名詞 名詞句→冠詞、名詞 この規則のうちたとえば1つ目の規則は、「文は主部と
述部からできている。」ということを表わす。他の規則
についても同様である。これらの規則に従って構造解析
木が決定されるのである。なお、このような文法規則は
同じように日本語についても用意されており、英語の文
法規則と日本語の文法規則との間で対応づけがなされて
いる。
【0036】翻訳プログラムのうち、図2に示される変
換部13に相当する処理においては、入力された英文の
構造解析木(図7参照)の構造が、図8に示される日本
文に対する構文解析木の構造に変換される。この変換に
おいては、上述の構文解析部12が利用したのと同様
に、メモリ6に格納されている「木構造変換規則」が用
いられる。この変換は、図1でいえばレベルL3からタ
ーゲット言語のレベルL9への変換に相当する。得られ
た結果は図4に示されるバッファDに格納される。この
説明において用いられている例文“This is a
pen”は、この変換によって日本語文字列「これ
ペン である」に変換されたことになる。
【0037】翻訳プログラムのうち図2の翻訳文生成部
14に相当する処理を行なう部分は、得られた日本語文
字列「これ ペン である」に適切な助詞「は」や助動
詞をつけることにより、図9に示されるような文法的な
日本語の形にし、図4に示されるバッファEに格納す
る。この処理は、図1に示されるレベルL9からレベル
L10への変換に相当する。得られた日本文「これはペ
ンである。」は、図4に示される翻訳モジュール5から
出力され、メインメモリ2に格納されるとともに、表示
装置3に表示される。
【0038】次に、図10〜図17を用いて、代表形に
よって登録されたイディオム(英語を例とする)の入力
文字列との同定および訳語出力処理の詳細を示す。
【0039】図12〜図15は、イディオムを代表形で
登録する場合の例である。図12を参照して、「* y
ears old」という見出語と「*歳である」とい
う訳語とが1つの項目として登録されている。見出語の
「*」や訳語の「*」の部分は、数詞が当てはまること
を示す。この数詞の部分は可変である。
【0040】図13は、「make up one’s
mind」という見出語を、「one’s」の部分を
代表形で登録した例を示す。見出語は「make up
*1 mind」であり、「*1」の部分には所有格
代名詞が当てはまる。そしてこの所有格代名詞は可変で
ある。このイディオムに対応する訳語は「決心する」で
あり、見出語の所有格代名詞に当たる部分は訳語には現
われていないことにこの場合注意すべきである。
【0041】図14は、「in one’s beha
lf」というイディオムの代表形による登録例である。
見出語は「in *2 behalf」であり、対応す
る訳語は「*2のために」である。見出語の「*2」や
訳語の「*2」の部分には所有格代名詞が当てはまる。
そしてこの所有格代名詞は可変である。
【0042】図15は、「by oneself」とい
うイディオムの代表形による登録例である。図10を参
照して、この場合見出語は「by *3」であり、訳語
は「一人で」である。見出語の「*3」という部分には
再帰代名詞が当てはまり、この再帰代名詞は可変であ
る。また訳語においては、この再帰代名詞に相当する部
分は現われていない。
【0043】図10〜図15に示される代表形「*」
「*1」「*2」「*3」とその定義は、図11に示さ
れている。図11に示されている各代表形とその定義と
の対は、代表形特殊記号テーブルとして図4のメモリ6
などに格納されている。
【0044】図10を参照して、代表形によって登録さ
れたイディオムと入力文字列との同定処理および訳語出
力処理について説明する。
【0045】まずステップS1で、文字列の入力があっ
たか否かについての判断が行なわれる。入力があった場
合には処理はステップS2に進むが、ないと判断された
場合には処理は終了する。この例では「3 years
old」という入力があったものとする。したがって
この場合処理はステップS2に進む。
【0046】ステップS2では、辞書引きが行なわれ
る。辞書引きは入力文字列をキーとして図3、図4に示
されるメモリ6内の辞書を参照することにより行なわれ
る。結果は図4に示されるバッファBに、図16に示さ
れる形式で格納される。図16を参照して、「3」は数
詞であり、「year」は名詞であり、「old」は形
容詞であるという情報を、このステップS2の処理の結
果得ることができる。
【0047】続いてステップS3で、図11に示される
代表形特殊記号テーブルが参照される。
【0048】続いてステップS4では、入力文字列と、
代表形で登録されたイディオムの見出語が一致するかど
うかについての判断が行なわれる。この場合ステップS
2の処理で、「3 years old」における
「3」は数詞であることが認識されている。また、図1
2に示されるイディオムにおいて、「*」は、図11に
示されるように数詞の代表形である。したがって、入力
文字列「3 yearsold」は、図12に示されて
いるイディオム登録例「* years old」と一
致していると判断され、制御はステップS5に進む。一
方、ステップS4において入力文字列と代表形で登録さ
れたイディオムの見出語が一致しないと判断された場合
には処理はステップS6に進む。
【0049】処理がステップS5に進んだ場合、イディ
オム代表形処理と呼ばれる処理が行なわれる。イディオ
ム代表形処理とは、図17に示されるように、図16に
示されるバッファBの内容に、イディオム候補を加える
処理である。そしてこの後形態素解析が行なわれる。
【0050】さらにステップS7に制御が進み、訳語に
代表形記号が使用されているかどうかについての判断が
行なわれる。現在の例では、訳語「*歳である」という
訳語には「*」という代表形記号が使用されている。そ
のために、処理はステップS8に進み、「*」の部分に
入力文字列「3 years old」の、イディオム
「* years old」の「*」に対応する「3」
を当てはめる処理が行なわれる。ステップS8の後処理
はステップS9に進む。
【0051】一方、ステップS4からステップS6に処
理が進んだ場合には、通常の形態素解析が行なわれ、処
理はステップS9に進む。またステップS7で、訳語に
代表形記号が使用されていないと判断された場合にも処
理は直接ステップS9に進む。
【0052】ステップS9では、入力文字列に対応する
訳語を出力する処理が行なわれる。現在の例では訳語
「3歳である」が出力される。この後処理は終了する。
【0053】上述と同様の処理で、たとえば入力文字列
「make up his mind」は「make
up *1 mind」と一致すると判断され、図13
に示される訳語「決心する」が出力される。この場合訳
語には代表形が登録されていないため、訳語がそのまま
出力されることになる。また入力文字列「in her
behalf」は「in *2 behalf」と一
致すると判断される。その結果、図14に示される訳語
「*2のために」が抽出され、さらに見出語の「*2」
に対応する入力文字列中の単語「her」に対応する
「彼女」という訳語が訳語「*2」と置換されて「彼女
のために」という訳語が出力される。また入力文字列
「by yourself」は図15に示される見出語
「by *3」と一致し「一人で」と出力されることに
なる。
【0054】このようにして、英語のイディオムにおい
てたとえば数詞や、所有格代名詞、あるいは再帰代名詞
のように形を変え得るもの、主語によって形を変えなけ
ればならないものなどにつき、そのような属性を有する
単語または単語列を1つの代表形で代表させる。そして
各イディオムを、そのような代表形を含む見出語列を有
する項目として電化化辞書に登録しておき、読出時には
その代表形が代表する単語のいずれもその代表形と一致
するものとみなして見出語を検索すれば、そのような可
変部分を含むイディオムを1つの項目として登録し読出
すことができる。また、その項目に含まれる、検索によ
って取出される情報中に、見出語の可変部分に応じて変
化させなければならない部分がある場合には、その情報
中の該当箇所に代表記号を挿入しておく。検索時にその
代表記号を、入力文字列の該当単語に応じて適切に置換
える。このようにすれば、訳し分けをしなければならな
いようなイディオムであっても、1つの項目として登録
しておくことが可能である。このように多数のイディオ
ムを代表形を用いた1つの項目として登録しておくこと
が可能であるために、多数の見出語を検索可能であっ
て、かつ辞書の記憶容量の増大を防ぐことができる。
【0055】なお、上述の実施例の説明では、イディオ
ムの部分のみを入力文字列として説明している。しかし
このような簡略化は単に説明の便宜上のためになされた
ものである。上述の説明を機械翻訳装置等に応用する場
合には、イディオムのみではなく、代表形で登録された
イディオムを含む文章そのものを入力文字列として処理
することも可能である。
【0056】たとえば入力文字列「She was 5
years old.」では、「She」が代名詞、
「was」が動詞、「5 years old」が代表
形で登録された形容詞のイディオムと解析される。その
結果、各見出語に対応する訳語を取出して翻訳文を生成
することにより、「彼女は、5歳であった」という訳文
が出力されることになる。
【0057】
【発明の効果】以上のように請求項1に記載の電子化辞
書では、同一の見出語であっても、具体的には形を変え
得るような部分を含む見出語を、その形を変え得る部分
を代表形として1つの見出語として登録することができ
る。したがって、多数の文字列を、この代表形を用いた
見出語と対応づけて検索することが可能であり、かつこ
れら多数の文字列を見出語として格納する必要がないた
めに、記憶容量の増大を防ぐことができる。
【0058】請求項2に記載の電子化辞書によれば、見
出語としては実質上同一のものであっても具体的には形
を変え得るような部分を含む複数の文字列を、第1の代
表形を用いた1つの見出語として登録することができ
る。そしてこの見出語の第1の代表形を、その第1の代
表形に代表される単語の各々に置換えた複数個の文字列
を、この1つの見出語に関連づけて検索することが可能
であり、しかもその見出語に対応づけられた情報の中に
存在する第2の代表記号を、元々の文字列の対応する箇
所に応じて適切な語で置換することにより、具体的な文
字列に応じた適切な情報を得ることが可能である。また
このように複数の文字列を、代表形を用いた1つの見出
語列で登録することができるために、記憶容量の増大も
防ぐことができる。
【0059】請求項3に記載の辞書検索装置によれば、
使用される電子化辞書を構築する際に、見出語や記号に
可変部分を含む見出語列を1つの代表形を用いて登録す
ることができる。各可変部分を具体的に特定した個々の
見出語列を登録する必要がないために、従来よりも辞書
登録の時間と労力を削減することができるとともに、電
子化辞書に必要な記憶容量の増大を防ぐことができる。
【0060】請求項4に記載の辞書検索装置によれば、
電子化辞書を構築する際に、見出語や、その見出語に対
応して情報の所定部分に可変部分を含む見出語を、それ
ぞれ1つの代表形を用いて登録し読出すことができる。
そのために、従来と比較して電子化辞書の各見出登録の
時間と労力を削減することができるとともに、電子化辞
書の記憶容量の増大を防ぐことができる。
【図面の簡単な説明】
【図1】機械翻訳の概念を模式的に示す図である。
【図2】トランスファ方式による機械翻訳の構成を示す
模式図である。
【図3】本発明の辞書検索装置の一例を含む機械翻訳装
置のブロック図である。
【図4】図3に示される翻訳モジュール5の詳細なブロ
ック図である。
【図5】バッファAの格納内容を模式的に示す図であ
る。
【図6】バッファBの格納内容を模式的に示す図であ
る。
【図7】バッファCの格納内容を模式的に示す図であ
る。
【図8】バッファDの格納内容を模式的に示す図であ
る。
【図9】バッファEの格納内容を模式的に示す図であ
る。
【図10】代表形によって登録されたイディオムと入力
文字列との同定処理および訳語出力処理のフローチャー
トである。
【図11】イディオム代表形特殊記号テーブルの模式図
である。
【図12】代表形によるイディオム辞書登録例を示す模
式図である。
【図13】代表形によるイディオム辞書登録例を示す模
式図である。
【図14】代表形によるイディオム辞書登録例を示す模
式図である。
【図15】代表形によるイディオム辞書登録例を示す模
式図である。
【図16】辞書引き結果の品詞バッファの内容の一部を
示す模式図である。
【図17】イディオム代表形処理後の品詞バッファの一
部の内容を示す模式図である。
【符号の説明】
1 メインCPU 2 メインメモリ 3 表示装置 4 キーボード 5 翻訳モジュール 6 メモリ 11 辞書引き・形態素解析部 12 構文解析部 13 変換部 14 翻訳文生成部 15 翻訳CPU 16 翻訳プログラムメモリ 17 辞書

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 複数個の項目を記憶するための記憶媒体
    を含み、 各前記項目は、見出語列と、前記見出語列と特定の関係
    を有するように選ばれた情報とを含み、 少なくとも1つの前記項目に含まれる前記見出語列は、
    所定の属性を共有する複数個の単語を代表する第1の代
    表記号を含む、電子化辞書。
  2. 【請求項2】 前記第1の代表記号を含む前記見出語列
    と同一の項目に含まれる前記情報の少なくとも一つは、
    予め定める属性を共有する複数個の単語を代表する第2
    の代表記号を含む、請求項1に記載の電子化辞書。
  3. 【請求項3】 請求項1に記載の電子化辞書を用い、入
    力された文字列と一致する見出語列に対応する情報を検
    索し出力するための辞書検索装置であって、 前記第1の代表記号を、その代表する複数個の単語のい
    ずれとも同一であるものとみなして、前記入力された文
    字列を、前記見出語列の1つと同定するための同定手段
    と、 前記同定手段により同定された見出語列と同一の項目に
    含まれる前記情報を出力するための出力手段とを含む、
    辞書検索装置。
  4. 【請求項4】 請求項2に記載の電子化辞書を用い、入
    力された文字列と一致する見出語列に対応する情報を検
    索し出力するための辞書検索装置であって、 前記第1の代表記号を、その代表する単語のいずれとも
    同一であるものとみなして、前記入力された文字列と、
    前記見出語列の1つとを同定するための同定手段と、 前記同定手段により同定された見出語列と同一の項目に
    含まれる前記情報を抽出するための抽出手段と、 前記抽出された情報が前記第2の代表記号を含むか否か
    を検出するための検出手段と、 前記検出手段により存在が検出された前記第2の代表記
    号を、前記同定手段により前記第1の代表記号と同一で
    あるとみなされた、前記入力された文字列中の単語に基
    づき、前記第2の代表記号により代表される単語のうち
    から選択される1つの単語と置換するための置換手段
    と、 前記抽出された情報を、前記第2の代表記号が含まれて
    いない場合にはそのままで、前記第2の代表記号が含ま
    れているときには前記置換手段による置換を行なって、
    それぞれ出力するための出力手段とを含む、辞書検索装
    置。
JP4116418A 1992-05-08 1992-05-08 電子化辞書および辞書検索装置 Pending JPH05314166A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP4116418A JPH05314166A (ja) 1992-05-08 1992-05-08 電子化辞書および辞書検索装置
US08/056,775 US5475586A (en) 1992-05-08 1993-05-04 Translation apparatus which uses idioms with a fixed and variable portion where a variable portion is symbolic of a group of words

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4116418A JPH05314166A (ja) 1992-05-08 1992-05-08 電子化辞書および辞書検索装置

Publications (1)

Publication Number Publication Date
JPH05314166A true JPH05314166A (ja) 1993-11-26

Family

ID=14686593

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4116418A Pending JPH05314166A (ja) 1992-05-08 1992-05-08 電子化辞書および辞書検索装置

Country Status (2)

Country Link
US (1) US5475586A (ja)
JP (1) JPH05314166A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6453280B1 (en) 1998-10-07 2002-09-17 International Business Machines Corporation Electronic dictionary capable of identifying idioms
WO2005098672A1 (ja) * 2004-03-31 2005-10-20 Seiko Instruments Inc. 電子辞書

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07282055A (ja) * 1994-04-06 1995-10-27 Fujitsu Ltd 文解析方法および装置
JP3377290B2 (ja) * 1994-04-27 2003-02-17 シャープ株式会社 イディオム処理機能を持つ機械翻訳装置
US5635918A (en) * 1995-03-16 1997-06-03 Motorola, Inc. Method and apparatus for controlling message delivery to wireless receiver devices
JP3952216B2 (ja) * 1995-11-27 2007-08-01 富士通株式会社 翻訳装置及び辞書検索装置
US6516296B1 (en) * 1995-11-27 2003-02-04 Fujitsu Limited Translating apparatus, dictionary search apparatus, and translating method
EP0810534B1 (en) * 1996-05-13 2003-03-19 Oki Electric Industry Co., Ltd. Document display system and electronic dictionary
JP3272288B2 (ja) * 1997-12-24 2002-04-08 日本アイ・ビー・エム株式会社 機械翻訳装置および機械翻訳方法
US6393389B1 (en) * 1999-09-23 2002-05-21 Xerox Corporation Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions
JP3717730B2 (ja) 1999-11-02 2005-11-16 セイコーインスツル株式会社 電子辞書
GB0030330D0 (en) * 2000-12-13 2001-01-24 Hewlett Packard Co Idiom handling in voice service systems
US7664628B2 (en) * 2002-12-27 2010-02-16 Casio Computer Co., Ltd. Electronic dictionary with illustrative sentences
US20040193400A1 (en) * 2003-03-24 2004-09-30 Mcdonald David D. Method and system for producing cohesive phrases from fixed phrases in a natural language system
US8549492B2 (en) 2006-04-21 2013-10-01 Microsoft Corporation Machine declarative language for formatted data processing
US8171462B2 (en) * 2006-04-21 2012-05-01 Microsoft Corporation User declarative language for formatted data processing
US7657421B2 (en) * 2006-06-28 2010-02-02 International Business Machines Corporation System and method for identifying and defining idioms
US20080027911A1 (en) * 2006-07-28 2008-01-31 Microsoft Corporation Language Search Tool
CN101960451A (zh) * 2008-02-29 2011-01-26 夏普株式会社 信息处理装置、方法、以及程序
US8370126B2 (en) * 2009-01-30 2013-02-05 Facebook, Inc. Incorporation of variables into textual content
CN101739395A (zh) * 2009-12-31 2010-06-16 程光远 机器翻译方法和系统
CN103577399B (zh) * 2013-11-05 2018-01-23 北京百度网讯科技有限公司 双语语料库的数据扩充方法和装置
KR102407630B1 (ko) * 2015-09-08 2022-06-10 삼성전자주식회사 서버, 사용자 단말 및 이들의 제어 방법.
US20170185587A1 (en) * 2015-12-25 2017-06-29 Panasonic Intellectual Property Management Co., Ltd. Machine translation method and machine translation system

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57201958A (en) * 1981-06-05 1982-12-10 Hitachi Ltd Device and method for interpretation between natural languages
JPS5840684A (ja) * 1981-09-04 1983-03-09 Hitachi Ltd 自然言語間の自動翻訳方式
JPS5892063A (ja) * 1981-11-27 1983-06-01 Hitachi Ltd イデイオム処理方式
JPS6089275A (ja) * 1983-10-21 1985-05-20 Hitachi Ltd 翻訳方式
JPS63223962A (ja) * 1987-03-13 1988-09-19 Hitachi Ltd 翻訳装置
JPS6466777A (en) * 1987-09-08 1989-03-13 Sharp Kk Mechanical translation device
JPH03188566A (ja) * 1989-12-18 1991-08-16 Fujitsu Ltd 辞書連動テキストベース装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6453280B1 (en) 1998-10-07 2002-09-17 International Business Machines Corporation Electronic dictionary capable of identifying idioms
WO2005098672A1 (ja) * 2004-03-31 2005-10-20 Seiko Instruments Inc. 電子辞書

Also Published As

Publication number Publication date
US5475586A (en) 1995-12-12

Similar Documents

Publication Publication Date Title
JPH05314166A (ja) 電子化辞書および辞書検索装置
JP3377290B2 (ja) イディオム処理機能を持つ機械翻訳装置
JP3220560B2 (ja) 機械翻訳装置
JPH083815B2 (ja) 自然言語の共起関係辞書保守方法
KR100530154B1 (ko) 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
JPS61163467A (ja) 機械翻訳システム
JP2815714B2 (ja) 翻訳装置
JPH05197747A (ja) 言語処理装置
JPH05120324A (ja) 言語処理方式
JPH0855123A (ja) イディオム登録機能を有する機械翻訳装置
JP4007630B2 (ja) 対訳例文登録装置
JP2839419B2 (ja) イディオム登録機能を持つ機械翻訳装置
JPH0561902A (ja) 機械翻訳システム
JP2752025B2 (ja) 機械翻訳装置
JP3680489B2 (ja) 機械翻訳装置および機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003308319A (ja) 訳語選択装置、翻訳装置、訳語選択プログラム、及び翻訳プログラム
JP2719453B2 (ja) 機械翻訳装置
JP4023384B2 (ja) 自然言語翻訳方法及び装置及び自然言語翻訳プログラム
JP5454871B2 (ja) 辞書評価支援装置およびプログラム
JPH07141381A (ja) 電子辞書表示装置
JPH0973454A (ja) 文書作成装置及び文書作成方法
JP2726416B2 (ja) 翻訳装置及び翻訳方法
JPH07200592A (ja) 文章処理装置
JPH09160929A (ja) 文書処理装置及び方法
JPH05225232A (ja) テキスト自動前編集装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20020319