JPH0346864B2 - - Google Patents

Info

Publication number
JPH0346864B2
JPH0346864B2 JP60063457A JP6345785A JPH0346864B2 JP H0346864 B2 JPH0346864 B2 JP H0346864B2 JP 60063457 A JP60063457 A JP 60063457A JP 6345785 A JP6345785 A JP 6345785A JP H0346864 B2 JPH0346864 B2 JP H0346864B2
Authority
JP
Japan
Prior art keywords
dictionary
delimiter
word
compound
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP60063457A
Other languages
English (en)
Other versions
JPS61223979A (ja
Inventor
Seiji Miike
Kimito Takeda
Tsutomu Kawada
Isamu Iwai
Masaie Amano
Miwako Doi
Akira Kumano
Hisahiro Adachi
Noriko Yamanaka
Hiroyasu Nogami
Toshio Okamoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Tokyo Shibaura Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Shibaura Electric Co Ltd filed Critical Tokyo Shibaura Electric Co Ltd
Priority to JP60063457A priority Critical patent/JPS61223979A/ja
Publication of JPS61223979A publication Critical patent/JPS61223979A/ja
Publication of JPH0346864B2 publication Critical patent/JPH0346864B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は、例えば自動翻訳処理における複合語
に対する辞書検索を効果的に可能ならしめる辞書
検索方式に関する。
〔発明の技術的背景とその問題点〕
近時、文章の自動翻訳(機械翻訳)処理が注目
されている。例えば英語で示される文書を日本語
に翻訳処理する装置が、提唱されるに至つてい
る。
この場合、一般に英単語を見出し語とし、これ
に対応する日本語の単語を上記英単語に関する情
報とした辞書を用いて入力文字列を検索し、これ
によつて入力文字列を順次翻訳処理することが行
われる。
ところが辞書検索対象とする文字列の中には多
くの複合語が含まれる。しかもその複合語は、例
えば 「read only memory」 「read−only memory」 「read−only−memory」 に代表されるように、個々の単語をハイフン
「−」によつて結合する場合と、結合しない場合
とがある。これ故、これらの複数の表記形態を取
る複合語を確実に辞書検索する為には、その辞書
にこれらの全てを予め登録しておく必要があり、
辞書容量の膨大化が否めなかつた。また複合語を
形成する個々の単語を辞書登録していても、複合
語であるが故に辞書検索できない場合も生じた。
〔発明の目的〕
本発明はこのような事情を考慮してなされたも
ので、その目的とするところは、辞書容量の膨大
化を招来することなく、複合語に対する辞書検索
を容易ならしめる辞書検索装置を提供することに
ある。
〔発明の概要〕
本発明は、熟語の情報を記憶した熟語辞書、ま
たは単語の情報を記憶した単語辞書と、複合語に
現われる、例えば単語を相互に結合して1つの複
合語を形成するハイフン「−」等の特殊文字から
なる区切り文字を記憶した区切り文字辞書とを具
備し、入力文字列中に現われる区切り文字を上記
区切り文字辞書を用いて検索し、上記入力文字列
中に前記区切り文字が検出されたとき、検出され
た区切り文字を前記熟語辞書中に現われる区切り
文字に変換した後、該入力文字列を前記熟語辞書
を用いて辞書検索したり、或いは検出された区切
り文字の前後で前記入力文字列を区分した後、区
分された文字列毎に前記単語辞書を用いて辞書検
索することを特徴とするものである。
〔発明の効果〕
かくして本発明によれば、種々の表記形式の文
字列として与えられる複合語を、熟語辞書に登録
された複合語の表記形式に変換して辞書検索し、
或いは単語辞書に登録された単語レベルの文字列
に区分して辞書検索するので、複合語が取り得る
種々の表記形式の全てを辞書登録しておく必要が
なくなる。従つて膨大な容量の辞書を準備する必
要がなく、装置構成の簡略化を図ることが可能と
なる。しかも種々の表記形式の複合語を簡易に、
且つ効果的に辞書検索することが可能となる等、
実用上多大なる効果が奏せられる。
〔発明の実施例〕
以下、図面を参照して本発明の一実施例につき
説明する。
第1図は実施例装置の概略構成図であり、第2
図はその処理シーケンスを示す図である。この実
施例装置は、例えばアルフアベツトからなる文字
列として入力される英単語(複合語を含む)を辞
書検索して、その訳語、例えば日本語を求める自
動翻訳装置に組込まれるものである。
入力部1は、翻訳処理に供される英単語(複合
語)をアルフアベツトからなる文字列として入力
するもので、その入力文字列は一旦入力バツフア
に格納される等して辞書検索に供される。第1の
辞書検索部2aは、単語熟語辞書3を用いて上記
入力文字列が辞書登録されているか否かを検索し
(ステツプa)、該単語熟語辞書3中に上記入力文
字列に該当する単語および熟語が検出されたと
き、その単語または熟語の情報を辞書3から読出
して出力部4に与えている(ステツプb)。
この単語熟語辞書3は、アルフアベツトからな
る文字列を単語または熟語の見出し語として、そ
の訳語を該単語または熟語の情報として予め登録
したものである。ちなみに従来より種々提唱され
ている翻訳処理装置では、このような単語熟語辞
書3のみを備え、該辞書3中に入力文字列に該当
する単語または熟語が見出だされない場合には、
これを辞書検索不能として処理していた。
これに対して本装置では、複合語を為す入力文
字列中に出現する可能性の或る特殊な文字、例え
ば「−」「/」「…」「;」等の複数の単語を相互
に結合して1つの複合語を形成する区切り文字を
区切り文字辞書記憶部5に予め登録している。ま
た熟語辞書記憶部6は、複合語を形成する複数の
単語を、例えば「スペース」で結ぶ等してその表
記形式を統一化した熟語として予め登録してい
る。直、この熟語辞書6については、前記単語熟
語辞書記憶部3の一部として実現されるものであ
つても良い。
しかして区切り文字変換部7は、前記辞書検索
部2aが検索不能(ステツプb)とした入力文字
列について、前記区切り文字辞書記憶部5に登録
された区切り文字の情報を用いて、該入力文字列
中に該当する区切り文字が存在するか否かを検索
判定している(ステツプc)。ここで入力文字列
中に該当する区切り文字が検出された場合、該入
力文字列は複合語を為すものであると認定してい
る(ステツプd)。そしてその検出された区切り
文字を前記熟語辞書6に登録された熟語を表記し
ている区切り文字、例えば「スペース」に変換し
ている(ステツプe)。この区切り文字変換部7
にて該当する区切り文字が検出されなかつた入力
文字列は複合語ではないと判定され(ステツプ
d)、ここで始めて検索不能であるとして処理さ
れる。
第2の辞書検索部2bは、上記区切り文字変換
部7にて区切り文字変換された文字列を入力し、
この文字列が前記熟語辞書記憶部6に登録されて
いるか否かを辞書検索している(ステツプf)。
そして該区切り文字変換された文字列が熟語辞書
記憶部6から検索されたとき、その熟語の情報を
熟語辞書記憶部6から読出して前記出力部4に与
えている(ステツプg)。
一方、複合語分割部8は、上記辞書検索部2b
による熟語辞書記憶部6の検索によつても該当す
る熟語(複合語)が見出されなかつたとき(ステ
ツプg)、その入力文字列中の前記「スペース」
部分で該入力文字列を分割している(ステツプ
h)。つまりその複合語をなす文字列を、その複
合語を形成する複数の単語をそれぞれ為す個々の
文字列に分離している。
第3の辞書検索部2cは、このようにして分割
された文字列について単語辞書記憶部9に予め登
録された単語の情報を用いて検索するものである
(ステツプi)。そしてこの分割された個々の文字
列について該当する単語の情報を前記単語辞書記
憶部9から見出だし、これらを出力部4に与えて
いる。尚、この単語辞書記憶部9についても、前
述した単語熟語辞書記憶部3の一部として構成さ
れるものであつても良い。また前記第2乃至第3
の辞書検索部2a,2b,2cは、同一の辞書検
索装置として実現されるものであつても良い。
具体的には、例えば 「read−only−memory」 なる入力文字列が与えられたとき、辞書検索部2
aではこれを単語熟語辞書を用いて検索する。し
かし単語熟語辞書および熟語辞書には 「read only memory」 なる複合語した登録されていないとすると、その
辞書検索は失敗する。このようなとき、区切り文
字変換部7では、前記入力文字列中の区切り文字
「−」を検出し、これを辞書中で出現する区切り
文字「 」(スペース)に変換し、 「read only memory」 る文字列に変換している。辞書検索部2bではこ
のような文字列について前記熟語辞書を用いて辞
書検索を行うことになる。そしてこの場合にあつ
ては、この辞書検索によつて該当する熟語(複合
語)が見出だされることになる。
ところが熟語辞書に 「read only memory」 なる複合語が登録されていない場合には、複合語
分割部8では、前記区切り文字変換したスペース
(区切り文字)を手掛りとして、該入力文字列を
分割し、 「read」「only」「memory」 なる3つの単語の文字列にそれぞれ分割してい
る。
辞書検索部2cではこのようにして分割された
個々の文字列についてそれぞれ辞書検索を行い、
その単語情報を求めることになる。
かくして本装置によれば、複数の表記形式を取
り得る複合語を、予め特定された1つの表記形式
の見出し語として辞書登録しておくだけで、その
複合語が種々の表記形式の文字列として入力され
た場合であつても、これを効果的に辞書検索する
ことができる。しかも、辞書としては同じ意味を
持つ複合語を、その表記形式が異なるからと云つ
て、その表記形式毎に登録することが必要ない。
故に辞書のこ構成を大幅に簡略化することがで
き、その容量の最大限に生かして多くの単語、お
よび複合語を登録することが可能となり、簡易
に、且つ効果的な辞書検索を可能ならしめる等の
実用上多大なる効果が奏せられる。
尚、本発明は上述した実施例に限定されるもの
ではない。例えば区切り文字を変換した文字列か
ら熟語辞書を用いて辞書検索結果が得られ、更に
入力文字列を区切り文字部分で分割した文字列毎
に単語辞書からその検索結果がそれぞれ得られた
場合には、これらの辞書検索結果の全てを出力す
るようにしても良い。またここでは、単語および
複合語の情報として、アルフアベツト文字列から
なる英単語(複合語)の訳語を例に説明したが、
その英単語(複合語)の意味を示す情報等であつ
ても良い。つまり技術用語に対する技術的意味
(機能)を示す情報であつても良い。また辞書に
登録される複合語の区切り文字がハイフン「−」
であつても良いことは云うまでもない。
またここでは、複合語(熟語)の区切り文字を
辞書に出現する区切り文字に変換する例について
示したが、特殊な形態として「無」なる情報に変
換するようにしても良い。即ち、区切り文字自体
を入力文字列中から除くようにしても良い。具体
的には、例えば 「bi−directional」 なる入力文字列中のハイフン「−」を除去し、 「bidirectional」 なる単語に変換し、この単語について辞書検索す
るようにしても良い。その他、本発明はその要旨
を逸脱しない範囲で種々変形して実施することが
できる。
【図面の簡単な説明】
第1図は本発明の一実施例装置の概略構成図、
第2図は実施例装置の処理シーケンスを示す図で
ある。 1……入力部、2a,2b,2c……辞書検索
部、3……単語熟語辞書記憶部、4……出力部、
5……区切り文字辞書記憶部、6……熟語辞書記
憶部、7……区切り文字変換部、8……複合語分
割部、9……単語辞書記憶部。

Claims (1)

  1. 【特許請求の範囲】 1 熟語の情報を記憶した熟語辞書と、複合語に
    現れる区切り文字記号を記憶した区切り文字辞書
    とを具備し、入力文字列中に現れる区切り文字記
    号を上記区切り文字辞書を用いて検索し、上記入
    力文字列中に前記区切り文字記号が検出されたと
    き、検出された区切りの文字を前記熟語辞書中に
    現れる区切り文字に変換した後、該入力文字列を
    前記熟語辞書を用いて辞書検索することを特徴と
    する辞書検索装置。 2 区切り文字は、単語を相互に結合して1つの
    複合語を形成する特殊文字からなるものである特
    許請求の範囲第1項記載の辞書検索装置。 3 熟語の情報を記憶した熟語辞書と、複合語に
    現れる区切り文字記号を記憶した区切り文字辞書
    とを具備し、入力文字列中に現れる区切り文字記
    号を上記区切り文字辞書を用いて検索し、上記入
    力文字列中に前記区切り文字記号が検出されたと
    き、検出された区切りの文字を前記熟語辞書中に
    現れる区切り文字に変換した後、該入力文字列を
    前記熟語辞書を用いて辞書検索し、この辞書検索
    に失敗したとき、前記検出された区切りの文字の
    前後で前記入力文字列を区分した後、区分された
    文字列毎に単語辞書を用いて辞書検索することを
    特徴とする辞書検索装置。 4 区切り文字は、単語を相互に結合して1つの
    複合語を形成する特殊文字からなるものである特
    許請求の範囲第3項記載の辞書検索装置。
JP60063457A 1985-03-29 1985-03-29 辞書検索装置 Granted JPS61223979A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60063457A JPS61223979A (ja) 1985-03-29 1985-03-29 辞書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60063457A JPS61223979A (ja) 1985-03-29 1985-03-29 辞書検索装置

Publications (2)

Publication Number Publication Date
JPS61223979A JPS61223979A (ja) 1986-10-04
JPH0346864B2 true JPH0346864B2 (ja) 1991-07-17

Family

ID=13229780

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60063457A Granted JPS61223979A (ja) 1985-03-29 1985-03-29 辞書検索装置

Country Status (1)

Country Link
JP (1) JPS61223979A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63106040A (ja) * 1986-10-23 1988-05-11 Fujitsu Ltd 文章読み上げ校正装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57113187A (en) * 1980-12-19 1982-07-14 Ibm Method of processing text

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57113187A (en) * 1980-12-19 1982-07-14 Ibm Method of processing text

Also Published As

Publication number Publication date
JPS61223979A (ja) 1986-10-04

Similar Documents

Publication Publication Date Title
CA1237527A (en) Language processing dictionary for bidirectionally retrieving morphemic and semantic expressions
JP4544674B2 (ja) 選択文字列に関連する情報を提供するシステム
US5136503A (en) Machine translation system
JPH0689304A (ja) テキスト処理システムにより使用されるテキストを準備する方法及び装置
JPWO2006090732A1 (ja) 単語翻訳装置、翻訳方法および翻訳プログラム
JPH0346864B2 (ja)
Salam et al. Developing the bangladeshi national corpus-a balanced and representative bangla corpus
Lamb The nature of the machine translation problem
Obrebski et al. UAM Text Tools-a flexible NLP architecture.
JPH0158545B2 (ja)
JPS62144269A (ja) 情報検索装置
JPS6282466A (ja) 辞書検索装置
JPS62184572A (ja) 単語分割装置における呼応複合語の辞書検索方式
JP2995783B2 (ja) カタカナ語の訳語推定装置
JP2570784B2 (ja) 文書リーダ後処理装置
JPS5918730B2 (ja) 仮名・漢字変換装置
Piotrowski The development of the general monolingual dictionary in Poland
JPH0447365A (ja) 辞書装置
JPH02110771A (ja) 電訳機
JPH0346865B2 (ja)
JPS59214978A (ja) 辞書検索方式
JPS6478373A (en) Translating device
JPS635470A (ja) 翻訳学習方式
JPS6337472A (ja) 冠詞設定方式
JPH0251764A (ja) 索引生成方式

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term