JPH0436429B2 - - Google Patents

Info

Publication number
JPH0436429B2
JPH0436429B2 JP61007712A JP771286A JPH0436429B2 JP H0436429 B2 JPH0436429 B2 JP H0436429B2 JP 61007712 A JP61007712 A JP 61007712A JP 771286 A JP771286 A JP 771286A JP H0436429 B2 JPH0436429 B2 JP H0436429B2
Authority
JP
Japan
Prior art keywords
word
character
data
group
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61007712A
Other languages
English (en)
Other versions
JPS62165238A (ja
Inventor
Yoshizo Saito
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP61007712A priority Critical patent/JPS62165238A/ja
Publication of JPS62165238A publication Critical patent/JPS62165238A/ja
Priority to US07/646,358 priority patent/US5297038A/en
Publication of JPH0436429B2 publication Critical patent/JPH0436429B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】
(産業上の利用分野) 本発明はワードプロセツサ、タイプライタ等を
含む種々の言語処理装置に付随する電子辞書の検
索方法に関する。 (従来の技術) 欧文ワードプロセツサ、欧文タイプライタ等に
付属される電子式単語辞書において、スペルチエ
ツク機能は重要であり、かつこのようなスペルチ
エツク処理はできる限り迅速に行いたいという要
請がある。そこでスペルチエツクを行うに当り、
例えば第9表に例示するように、辞書に登録する
単語群を頭文字及び文字数によつて2次元的にグ
ループ分けし、該当する単語が属するグループ内
でのみ検索することが考えられる。 (発明が解決しようとする問題点) ところが上記検索方法によれば、電子辞書に登
録する単語群をグループ分けしているにもかかわ
らず、なお個々のグループに属する単語の個数が
かなり多数にのぼるので(例えば頭文字が“c”
で8文字単語は1154語)該当する単語の検索に要
する時間が長くなるという問題があつた。そのた
め、タイプライタにおけるリアルタイム処理には
供し難い。 又上記検索方法においては、各単語が1文字単
位でコード化されて電子辞書に登録されるように
なつているので、1語当りの記憶に要する容量が
文字数によつて変動し、特に文字数の多い単語の
場合、1語当りの記憶容量が大きくなるという問
題がある。しかも文字数の多い単語では、1語当
りの検索時間もかなり長時間となる。 更に又、上記検索方法によれば、万一誤つたス
ペルの単語が入力された場合、該当グループ内の
全ての単語と照合した後でなければミススペルと
判定することができないので、判定時間が長くな
るという問題もある。 (問題点を解決するための手段) 本発明は上述した種々の不具合を解消すること
を目的としている。そのため、本発明に係る電子
辞書の検索方法は、メモリ装置からなる電子辞書
に複数の単語を格納して検索を行うに当り、予め
各アルフアベツト文字に対し文字ウエイトを定め
るとともに単語内に各位置ウエイトを定め、各単
語における語頭の文字について文字ウエイトと位
置ウエイトを乗算した値を予め定めた所定素数で
除算して剰余を求め、引続き後続する各文字につ
いて文字ウエイトと位置ウエイトの乗算値に前回
の剰余を加算した値を前記所定素数で除算して剰
余を求める操作を語尾の文字まで1文字毎に繰り
返し行い、語尾の文字に対する最終剰余として得
られたハツシユ値を上位一定桁数からなり単語の
文字数が奇数列の場合と偶数列の場合とを区別す
るインデツクスと下位一定桁数のデータに分割し
て各単語のデータを前記電子辞書にインデツクス
が共通なグループ毎に登録しておき、検索すべき
単語について前記ハツシユ値を算出し、該検索単
語のデータと前記電子辞書内の検索単語のインデ
ツクスに対応するグループのデータ群との一致又
は不一致を照合するようにしたものである。 その場合、各グループに属するデータ群を数値
の小さい順に登録することが好適である。 (実施例) 以下、本発明の実施例について添付図面及び添
付図表を参照して説明する。 図面は本発明に係る検索方法を適用しうる言語
処理装置を示すブロツク図である。同図におい
て、1は言語処理装置に文字、単語情報を入力す
るための入力装置であつて、具体的には例えば鍵
盤装置、タブレツト装置、OCR(光学的文字読取
装置)、磁気テープ装置等が使用される。 2は入力装置1に接続され、入力装置1によつ
て入力されて編集された文字、単語情報を保存す
る記憶装置であつて、例えばコアメモリ、ICメ
モリ、磁気デイスク装置等が使用される。 3は記憶装置2に接続され、記憶装置2で保存
された情報を出力する出力装置であつて、例えば
各種プリンタ、デイスプレイ装置、磁気テープ装
置、磁気デイスク装置等が使用される。 4は記憶装置2に接続されるスペルチエツク用
電子辞書であつて、例えばコアメモリ、ICメモ
リ、ROM、磁気デイスク装置等により構成され
る。後述するように該辞書4はスペルチエツク処
理専用の演算処理部を備え、記憶装置2からの問
合せに応じて、入力された単語のスペルが正しい
か否かの情報を提供しうるようになつている。 又、5は各装置1〜4に接続される制御装置
で、例えばコンピユータによつて構成され、各装
置1〜4間における信号装置の授受の制御を行
う。 次に、本発明におけるハツシユ法による欧文単
語コード化について述べる。 このコード化に際しては、まず第3表に大文字
のアルフアベツトの一部を例示するように、各文
字にそれぞれ2進数からなる固有の文字ウエイト
(便宜上10進表示で表す)を定める。なお第3表
では省略しているが、小文字のアルフアベツト、
数字等に対しても同様に文字ウエイトが定められ
る。 それとともに第4表に示すように、単語内の各
文字位置に対し、それぞれ2進数からなる固有の
位置ウエイト(便宜上16進表示で表す)を定め
る。なお、第4表には1番目〜6番目の位置ウエ
イトが例示されているが、7番目以降についても
同様の位置ウエイトが定められる。 次に、上記文字ウエイト及び位置ウエイトに基
いて、下記の手順で各単語のハツシユ値を算出す
る。 () すなわち、まず各単語の1文字目(語頭)
の文字の文字ウエイトと位置ウエイトを乗算す
る。例えば“AIR”という単語の場合“A”の
文字ウエイト“60”と1文字目の位置ウエイト
“00080000”を乗算する。その場合、文字ウエ
イトを3ビツト単位に分割して位置ウエイトに
乗算することが好適である。そして、その乗算
値を227に最も近い素数で除算して剰余を求め、
該剰余を記憶する。 () 引続き、2文字目の文字ウエイトと位置ウ
エイトを乗算した値に1文字目について求めた
剰余を加算してその値を上記素数で除算し、新
たな剰余を算出する。以下、最後(語尾)の文
字まで1文字毎に同様の算出を繰り返し、最終
的に求めた剰余をその単語のハツシユ値とす
る。ここでは、各回の除算における除数として
227に最も近い素数を選定しているので、上記
ハツシユ値は全て27桁以内の2進数で表現され
る。なお、次数を変えることによつて、ハツシ
ユ値の桁数を任意に変更できる。 第5表にアルフアベツトの冒頭部分について
上記手順でハツシユ値を算出した結果を例示す
る。このようにして求めたハツシユ値を昇り順
(数値の小さい順)に並べ換えたものの先頭部
分を第6表に示す。これら第5,6表において
は、便宜乗ハツシユ値を8進表示で表わしてい
る。 上記のようにしてハツシユ法によるコード化が
終了すれば、次に各単語のハツシユ値を上位11桁
(2進表示の場合)のインデツクス部分(以下単
にインデツクスという)と下位16桁のデータ部分
(以下単にデータという)に分割し、インデツク
スのの共通な単語毎にグループ分けを行う。イン
デツクスは単語の文字数が奇数列の場合と偶数列
の場合とで区別されている。例えば、第6表に示
す単語群のうち、ハツシユ値が216(8進表示にお
ける200000)未満の43個の単語群nevus〜
accommodatorはインデツクス“0”として第1
番目のグループに分類される。又、ハツシユ値が
216以上でかつ217未満の単語群はインデツクス
“1”として第2番目のグループに分類される。
このようにして、全ての単語がインデツクスの桁
数に対応して分類される。さらに単語の文字数が
奇数か偶数かによつて区別され、奇数文字列、偶
数文字列のそれぞれが2048(=211)通りのグルー
プに分類される。なお、インデツクスの桁数を換
えることによりグループ数を任意に増減すること
ができる。 第1表及び第2表に各グループに属する単語の
個数(便宜乗16進表示で表す)を示す、これら表
の欄外の縦軸には、グループ番号の上位3桁(各
桁を16進表示で表す)が、欄外の横軸にはグルー
プ番号の最下位の1桁(8審表示で表す)が示さ
れている。同表から明らかなように、本法ではグ
ループ数を増加させることにより、個々のグルー
プに属する単語の個数が減少している。ちなみ
に、本例では、グループ内の登録個数が最大43H
=67であるか、50回以上アクセスするのが4096グ
ループ中5個とばらつきが平均化され、平均して
30個以内のアクセスで探索が完了する。 以上のようにグループ化された単語のデータ
は、各グループ毎にそれぞれ昇り順に辞書4に格
納される。又、第1表及び第2表に示される各グ
ループの単語数に基いて各グループの先頭アドレ
スが求められて記憶される(第7表参照)。これ
らのアドレスはスペルチエツク時における該当グ
ループの選択に利用される。 以下、上記辞書4によるスペルチエツク処理に
ついて述べる。 記憶装置2から辞書4にスペルチエツクを行う
べき単語(以下検索単語という)が送られると、
辞書4内の図示しない演算処理部により上述と同
様の演算方法で検索単語のハツシユ値が算出され
る。 引続き、検索単語のインデツクスにより該当グ
ループが判定された後、上記検索単語のデータと
該当グループに属するデータ群との一致又は不一
致が順次照合される。照合の結果、検索単語のデ
ータが該当グループのいずれかのデータと一致す
れば、記憶装置2に正しいスペルである旨を示す
信号が送信される。一方、検索単語のデータが該
当グループのいずれのデータとも一致しなけれ
ば、記憶装置2にミススペルである旨を示す信号
が送信される。本法では各グループのデータが昇
り順に配列されているので、特にミススペルの場
合、検索単語のデータが該当グループのデータ群
のうちいずれかのデータより小さくなり、かつそ
れまでのいずれかのデータとも一致しなければ、
その時点でミススペルの判定を下すことができ、
処理時間の短縮化が図れる。 ところで第8表に例示するように、本法におい
てはシノニム(同義語)が発生する。ここでシノ
ニムとは、2語以上の単語のハツシユ値が同一に
なることをいう。しかしながら、このようにシノ
ニムは辞書4に格納する単語の総数72000語中32
語のみであり、誤認識は3500語に対し1語と極め
て稀にしか生じない。
【表】
【表】
【表】
【表】
【表】
【表】
【表】
【表】
【表】
【表】
【表】
【表】
【表】
【表】 (発明の効果) 以上述べたように、本発明によれば、単語群を
グループ分けして辞書に登録するに当り、ハツシ
ユ値のインデツクスの桁数を増減することによつ
てグループ数、換言すればグループ当りの単語の
個数を調整することができる。その場合、インデ
ツクスの桁数を充分大きく設定することにより、
前記頭文字及び文字数によるグループ分けの場合
よりもグループ数を増やして、それだけグループ
当りの単語数を減少させることができる。従つ
て、スペルチエツクの所要時間を短縮することが
できる。 又、前述したように、従来は各単語を1文字単
位でコード化して辞書に登録していたのに対し、
本発明ではハツシユ法の採用により単語単位でコ
ード化して登録するようにしたので、1語当りの
記憶容量を一定にするとともに該1語当りの記憶
容量を充分小さくすることができる。従つ全辞書
容量も低減する。
【図面の簡単な説明】
図面は本発明に係る電子辞書の検索方法に適用
しうる言語処理装置の実施例示すブロツク図であ
る。 1……入力装置、2……記憶装置、3……出力
装置、4……辞書、5……制御装置。

Claims (1)

  1. 【特許請求の範囲】 1 メモリ装置からなる電子辞書に複数の単語を
    格納して検索を行うに当り、 予め各アルフアベツト文字に対し文字ウエイト
    を定めるとともに単語内に各位置ウエイトを定
    め、 各単語における語頭の文字について文字ウエイ
    トと位置ウエイトを乗算した値を予め定めた所定
    素数で除算して剰余を求め、引続き後続する各文
    字について文字ウエイトと位置ウエイトの乗算値
    に前回の剰余を加算した値を前記所定素数で除算
    して剰余を求める操作を語尾の文字まで1文字毎
    に繰り返し行い、 語尾の文字に対する最終剰余として得られたハ
    ツシユ値を上位一定桁数からなり単語の文字数が
    奇数列の場合と偶数列の場合とを区別するインデ
    ツクスと下位一定桁数のデータに分割して各単語
    のデータを前記電子辞書にインデツクスが共通な
    グループ毎に登録しておき、 検索すべき単語について前記ハツシユ値を算出
    し、該検索単語のデータと前記電子辞書内の検索
    単語のインデツクスに対応するグループのデータ
    群との一致又は不一致を照合するようにしたこと
    を特徴とする電子辞書の検索方法。 2 各グループに属するデータ群を数値の小さい
    順に登録した特許請求の範囲第1項記載の電子辞
    書の検索方法。
JP61007712A 1985-09-27 1986-01-16 電子辞書の検索方法 Granted JPS62165238A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP61007712A JPS62165238A (ja) 1986-01-16 1986-01-16 電子辞書の検索方法
US07/646,358 US5297038A (en) 1985-09-27 1991-01-25 Electronic dictionary and method of codifying words therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61007712A JPS62165238A (ja) 1986-01-16 1986-01-16 電子辞書の検索方法

Publications (2)

Publication Number Publication Date
JPS62165238A JPS62165238A (ja) 1987-07-21
JPH0436429B2 true JPH0436429B2 (ja) 1992-06-16

Family

ID=11673354

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61007712A Granted JPS62165238A (ja) 1985-09-27 1986-01-16 電子辞書の検索方法

Country Status (1)

Country Link
JP (1) JPS62165238A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3596696B2 (ja) * 1995-10-06 2004-12-02 富士ゼロックス株式会社 情報検索装置
GB2327831B (en) * 1997-07-23 2002-10-09 Chantilley Corp Ltd Document or message security arrangements
US8041557B2 (en) * 2005-02-24 2011-10-18 Fuji Xerox Co., Ltd. Word translation device, translation method, and computer readable medium

Also Published As

Publication number Publication date
JPS62165238A (ja) 1987-07-21

Similar Documents

Publication Publication Date Title
US4384329A (en) Retrieval of related linked linguistic expressions including synonyms and antonyms
US4689768A (en) Spelling verification system with immediate operator alerts to non-matches between inputted words and words stored in plural dictionary memories
US3995254A (en) Digital reference matrix for word verification
US4092729A (en) Apparatus for automatically forming hyphenated words
JPH0218514B2 (ja)
JPH08211987A (ja) 曖昧さの解決論理を備えたキーボード
US5297038A (en) Electronic dictionary and method of codifying words therefor
CA1279128C (en) Means and method for electronic coding of ideographic characters
US4374625A (en) Text recorder with automatic word ending
JPH0436429B2 (ja)
EP0097818A2 (en) Spelling verification method and typewriter embodying said method
JPH0378667B2 (ja)
JP3071570B2 (ja) 複合のターゲット語に関する辞書データを決定するための装置及び方法
US20020065794A1 (en) Phonetic method of retrieving and presenting electronic information from large information sources, an apparatus for performing the method, a computer-readable medium, and a computer program element
US5404517A (en) Apparatus for assigning order for sequential display of randomly stored titles by comparing each of the titles and generating value indicating order based on the comparison
KR920002253B1 (ko) 문자 입력 방법 및 장치
EP2866156B1 (en) Method and apparatus for identity verification
JPH0531190B2 (ja)
JPH0623973B2 (ja) 文字処理装置の頻度変更方式
JP3021224B2 (ja) 辞書検索装置
JPH07121549A (ja) 文書検索装置
JPH0315222B2 (ja)
JPH07182358A (ja) データベースアクセス処理方法
JPH0215903B2 (ja)
JPH06251204A (ja) 文字認識装置