JPH05120325A - 電子化辞書 - Google Patents

電子化辞書

Info

Publication number
JPH05120325A
JPH05120325A JP3282390A JP28239091A JPH05120325A JP H05120325 A JPH05120325 A JP H05120325A JP 3282390 A JP3282390 A JP 3282390A JP 28239091 A JP28239091 A JP 28239091A JP H05120325 A JPH05120325 A JP H05120325A
Authority
JP
Japan
Prior art keywords
dictionary
character
offset
offsets
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3282390A
Other languages
English (en)
Inventor
Okihiro Kimura
興弘 木村
Yoshimichi Okuno
義道 奥野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Original Assignee
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meidensha Corp, Meidensha Electric Manufacturing Co Ltd filed Critical Meidensha Corp
Priority to JP3282390A priority Critical patent/JPH05120325A/ja
Publication of JPH05120325A publication Critical patent/JPH05120325A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 情報処理装置からの高速アクセスが可能で且
つ曖昧検索が容易となる構造の電子化辞書を提供する。 【構成】 入力された注目語をハッシュ関数で計算して
その文字配列毎の位置情報を表すハッシュアドレスを得
るハッシュ関数ファイル1と、辞書本体に登録された言
語の各々の文字配列位置を指標する文字オフセット
(1,1)〜(n,n)を格納するインデックステーブ
ル2と、各言語に対応する語彙の登録位置を指標する辞
書オフセット(1)〜(n)を格納する文字インデック
ス3とを備え、ハッシュアドレスにより注目語の構成文
字と同数の文字オフセットが文字配列順に選定されると
ともに、これら文字オフセットの情報を共通に含む一つ
の辞書オフセットが特定され、この特定された辞書オフ
セットに対応する登録位置の語彙が辞書本体より抽出さ
れる構造の電子化辞書とした。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、ワードプロセッサやド
キュメントデータベース、ハイパーテキスト等、コンピ
ュータによる自然言語処理に用いられる電子化辞書に関
する。
【0002】
【従来の技術】近年実用化されつつあるコンピュータに
よる自然言語処理の際に、かならず必要となるのが、言
語、即ち文字、語あるいは文単位にその語彙を登録し、
プログラムの必要に応じてコンピュータで直接アクセス
できる辞書である。これは通常、電子化辞書と称され
る。
【0003】この電子化辞書が具備すべき条件の一つ
に、高速アクセス可能であることが挙げられ、従来より
この高速アクセス化のための種々の工夫がなされてきた
が、結局辞書の構造化に頼るしかないのが現状である。
【0004】現在の辞書構造化の手法として、ブロック
単位の見出しを用いたインデックスヘッダーを利用する
技術、各種検索アルゴリズムに合わせた構造化、即ち、
バイナリーサーチ、ハッシュ、ダブルアレイサーチ等に
合わせて構造を決定する技術が知られている。
【0005】
【発明が解決しようとする課題】上記技術のうち、ダブ
ルアレイサーチが最も高速と思われるが、この技術によ
ると、辞書の構造が大変複雑になり、メンテナンスしに
くい上に、ディスク上に展開したときにアクセススピー
ドを維持するのが困難であるという問題を生じていた。
また、連続したテキストをポインタで表現しているた
め、誤字、脱字に対応する曖昧検索を実現しにくい欠点
があった。
【0006】他の技術の場合も、言語が連続した文字列
としてメモリ上に展開されているため、文字欠落や誤字
があると、これらに対応できない問題があった。
【0007】本発明は、かかる問題点等に鑑みて創案さ
れたものであり、その目的とするところは、情報処理装
置からの高速アクセスが可能で且つ曖昧検索が容易とな
る構造の電子化辞書を提供することにある。
【0008】
【課題を解決するための手段】上記目的を達成するた
め、本発明では、言語の語彙が登録された辞書本体を有
し、情報処理装置から特定の注目語を検索入力すること
でその注目語の語彙が前記辞書本体より抽出される構造
の電子化辞書において、前記注目語をハッシュ関数で計
算してその文字配列毎の位置情報を表すハッシュアドレ
スを得るハッシュ関数ファイルと、前記辞書本体に登録
された言語に対応する語彙の各々の文字配列位置を指標
する文字オフセットと各語彙の登録位置を指標する辞書
オフセットとを格納するオフセット格納手段とを備え、
前記ハッシュアドレスにより前記注目語の構成文字と同
数の文字オフセットが該注目語の少なくとも文字配列順
に選定されるとともに、これら文字オフセットの情報を
共通に含む一つの辞書オフセットが特定され、この特定
された辞書オフセットに対応する登録位置の語彙が前記
辞書本体より抽出される構造とした。
【0009】
【作用】ハッシュアドレスにより注目語の各構成文字に
対応する文字オフセット群が速やかに選定される。これ
ら文字オフセットの各々によって複数の辞書オフセット
が更に選定されるが、全ての文字オフセットにより共通
に選定される辞書オフセットがあれば、それが当該注目
語に対応する辞書オフセットになる。辞書オフセットは
辞書本体における対応語彙の登録位置を指標するので、
辞書オフセットが特定されれば注目語の語彙が速やかに
抽出される。
【0010】
【実施例】図1は本発明の一実施例に係る電子化辞書の
構造説明図であり、1はハッシュ関数ファイル、2はイ
ンデックステーブル、3は文字インデックスを示す。
【0011】ハッシュ関数ファイル1は、図示を省略し
た情報処理装置から入力された注目語をハッシュ関数で
計算し、その文字配列毎の位置情報を表すハッシュアド
レスを出力するものである。このハッシュアドレスはイ
ンデックステーブル2に導かれる。
【0012】インデックステーブル2は、図示を省略し
た辞書本体に登録された言語の各配列位置に対応した文
字情報である文字オフセットを格納している。
【0013】例えば、図1中、(1,1)文字オフセッ
トは一文字からなる言語情報を表し、(2,1)文字オ
フセットは二文字から成る言語の最初の配列文字情報を
表し、(2,2)文字オフセットは二文字から成る言語
の二番目の配列文字情報を表している。同様に、(n,
n)(nは任意の整数)文字オフセットはn文字から成
る言語のn番目の配列文字情報を表している。これら文
字オフセットは、前記ハッシュアドレスにより、注目語
の構成文字の各配列毎に速やかに選定され、夫々文字イ
ンデックス3に導かれる。
【0014】文字インデックス3には、言語に対応する
語彙の辞書本体における登録位置を指標する辞書オフセ
ットが格納されている。即ち、図1に示すように、
(1)辞書オフセット〜(n)辞書オフセットが、夫々
の言語単位の語彙登録位置に対応して格納されている。
これら辞書オフセットは前記文字オフセット毎に検索さ
れ、複数の選定されるが、全ての文字オフセットの情報
を共通に含む一つのものがあれば、それが注目語に対応
する辞書オフセットとなる。
【0015】例えば、注目語が「特許」という二文字で
構成される場合について考えると、まず最初の文字配列
に「特」の文字を含む言語の辞書オフセットを、インデ
ックステーブル2に格納された(2,1)文字オフセッ
トで検索する。これにより、「特別」、「特殊」、「特
産」、「特許」・・・に対応する辞書オフセットが候補
に挙げられる。次に、二番目の文字配列に「許」の文字
を含む言語の辞書オフセットを(2,2)文字オフセッ
トで検索する。これにより、「免許」、「特許」、「黙
許」、「聴許」・・・に対応する辞書オフセットが候補
に挙げられる。これら辞書オフセットのうち、(2,
1)文字オフセットと(2,2)オフセットによる検索
結果が一致したのは「特許」に対応する辞書オフセット
であり、これが仮に図1の(3)辞書オフセットであっ
たとすると、注目語「特許」の語彙を辞書本体から抽出
するときはこの(3)辞書オフセットを介して辞書本体
にアクセスされる。
【0016】ここで、(1)〜(n)辞書オフセットの
いずれかを特定する際に、該注目語の文字数と特定順番
の配列文字との条件設定を行い、これを文字オフセット
の数及びその配列により確認する処理を付加することが
できる。これら条件を具備しないときは脱字若しくは多
字があることに外ならないのでその旨を表示する。これ
により、注目語の脱字、多字を考慮した曖昧検索が可能
になる。
【0017】また、一つの辞書オフセットが特定された
後に、対応する登録言語が注目語の全文字数に達してい
るか否かの確認を行い、達していなければその旨の表示
を行うことで、誤字を考慮した曖昧検索も可能となる。
【0018】なお、本実施例では、文字オフセットをイ
ンデックステーブル2に、辞書オフセットを文字インデ
ックス3に夫々格納した例について説明したが、これら
オフセットの格納手段は必ずしも本実施例に限定される
ものではなく、インデックステーブル2あるいは文字イ
ンデックス3、若しくは他のファイルに共通に格納する
ようにしても良い。
【0019】
【発明の効果】以上説明してきたように、本発明の電子
化辞書は、ハッシュ関数ファイルを設け、注目語の文字
配列毎の位置情報を速やかに出力するとともに、オフセ
ット格納手段に格納された二種類のオフセットにより直
ちに該注目語に対応する語彙の登録位置を特定し得る構
造にしたので、辞書本体の登録語彙の高速検索が可能に
なる効果を有する。
【0020】また、辞書本体の変更に際してはオフセッ
ト内容の変更のみで対処できるので、メンテナンスが従
来の電子化辞書に比べて格段に容易になり、辞書本体の
質の向上を図ることができる。
【0021】更に、本発明の電子化辞書は、従来のよう
に連続したテキストをポインタで表現しているものでは
なく、言語を連続した文字列としてメモリ上に展開する
ものでもないため、オフセットの操作をすることで、脱
字、多字、誤字を含む言語に対しても曖昧検索が可能に
なる効果がある。
【図面の簡単な説明】
【図1】本発明の一実施例に係る電子化辞書の要部構造
説明図である。
【符号の説明】
1…ハッシュ関数ファイル、2…インデックステーブル
(文字オフセット格納手段)、3…文字インデックス
(辞書オフセット格納手段)。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 言語の語彙が登録された辞書本体を有
    し、情報処理装置から特定の注目語を検索入力すること
    でその注目語の語彙が前記辞書本体より抽出される構造
    の電子化辞書において、 前記注目語をハッシュ関数で計算してその文字配列毎の
    位置情報を表すハッシュアドレスを得るハッシュ関数フ
    ァイルと、 前記辞書本体に登録された言語の各々の文字配列位置を
    指標する文字オフセットと各言語に対応する語彙の登録
    位置を指標する辞書オフセットとを格納するオフセット
    格納手段とを備え、 前記ハッシュアドレスにより前記注目語の構成文字と同
    数の文字オフセットが該注目語の少なくとも文字配列順
    に選定されるとともに、これら文字オフセットの情報を
    共通に含む一つの辞書オフセットが特定され、この特定
    された辞書オフセットに対応する登録位置の語彙が前記
    辞書本体より抽出される構造を有することを特徴とする
    電子化辞書。
JP3282390A 1991-10-29 1991-10-29 電子化辞書 Pending JPH05120325A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3282390A JPH05120325A (ja) 1991-10-29 1991-10-29 電子化辞書

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3282390A JPH05120325A (ja) 1991-10-29 1991-10-29 電子化辞書

Publications (1)

Publication Number Publication Date
JPH05120325A true JPH05120325A (ja) 1993-05-18

Family

ID=17651785

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3282390A Pending JPH05120325A (ja) 1991-10-29 1991-10-29 電子化辞書

Country Status (1)

Country Link
JP (1) JPH05120325A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4911028B2 (ja) * 2005-02-24 2012-04-04 富士ゼロックス株式会社 単語翻訳装置、翻訳方法および翻訳プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4911028B2 (ja) * 2005-02-24 2012-04-04 富士ゼロックス株式会社 単語翻訳装置、翻訳方法および翻訳プログラム

Similar Documents

Publication Publication Date Title
US5895446A (en) Pattern-based translation method and system
JPS6175957A (ja) 機械翻訳処理装置
JPH05120325A (ja) 電子化辞書
JPH0785040A (ja) 表記不統一検出方法およびかな漢字変換方法
JPS6282466A (ja) 辞書検索装置
JP3048793B2 (ja) 文字変換装置
JP3508312B2 (ja) キーワード抽出装置
JPH03122717A (ja) プログラムコメント文生成装置
JPS62144269A (ja) 情報検索装置
JPS59103136A (ja) カナ漢字変換処理装置
JPH0290364A (ja) 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法
JPS59116835A (ja) 短縮入力機能付日本語入力装置
JPH08329081A (ja) 機械翻訳方法及び機械翻訳装置
JPH01304574A (ja) 目次索引作成装置
JPS63138479A (ja) 文字認識装置
JPH10198676A (ja) 日本語形態素解析装置及び日本語形態素解析方法
JPH03161865A (ja) 文章の検索方法
JPH0750487B2 (ja) 情報抽出装置
JP2002108878A (ja) 辞書、および検索システム
JPH04270450A (ja) 文書作成装置
JPH0251764A (ja) 索引生成方式
JPH04326160A (ja) 形態素解析装置
JPS61211763A (ja) 自然言語処理装置
JPH0345423B2 (ja)
JPS59186026A (ja) かな漢字変換方法