JPS60570A

JPS60570A - 情報検索方法および装置

Info

Publication number: JPS60570A
Application number: JP58107677A
Authority: JP
Inventors: Hiroyuki Kaji; 梶　博行; Yoshihiko Nitta; 義彦新田; Hideaki Shinohara; 篠原　英彰
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1983-06-17
Filing date: 1983-06-17
Publication date: 1985-01-05

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の利用分野〕本発明は、漢字かな混シ文を扱う日本語処理システムに
おける情報検索方法およびそれを実現するための装置に
関し、さらにその主な利用分野としての電子辞書、自動
翻訳、電子的検索方式などに関する。

〔発明の背景〕

従来、多くの日本語処理システムにおいて、日本語の表
記はカナ文字あるいはローマ字に限定されていたが、最
近、日本語の通常の表記法である漢字かな混シ文を処理
することが、強く要求されるようになった。この場合、
検索方式またはシステムの重要な構成要素である辞書に
関して、次のような問題を解決することが必要である。

日本語においては、一般に、１つの語の表記として、漢
字とかなの両方を用いることが可能であるが個々の語の
表記をシステムによって１つに定めてしまうことは非常
に困難でアわ、通常の文で使用される複数の表記を人力
として認めざるを得ない。従って、複数の表記を持つ語
について、いずれの表記からもアクセス可能な辞書を構
成することが必要である。

これに対して従来の方法で解決しようとすれば、例えば
次のような構造の辞書になる。すなわち、複数の表記を
持つ語に対しては、各々の表記をキーとする複数のレコ
ードを作成する。その場合文法、意味、訳語等の語付属
情報は、それらのうちの１つに書き込み、残シのレコー
ドには、語付属情報が書き込まれたレコードへのポイン
タ情報を書き込むのが普通である。例えば、第１図に示
すように８個の語に対し合計１６個の表記を認めるとす
ると、第２図に示すようなレコードを作成記憶する。第
２図のレコードにおいて、「■」または「＝」よシ前の
部分がキー、すなわち語の表記である。「■」の後ろの
部分が語付属情報、「＝ｊの後ろの部分が語付属情報を
含むレコードへのポインタ情報である。

このような従来方法では次のような欠点があった。第一
に、表記の数が多くなるとポインタ情報を持つレコード
のため辞書容量が増大し、第二に、語付属情報が書かれ
てｂないレコードに対応する表記が与えられた場合、レ
コードを２回検索することになシ、平均検索時間が増大
することである。

〔発明の目的〕

本発明の目的は、このような従来方式の欠点を解消する
ことにある。すなわち複数の表記を持つ語に対して、い
ずれの表記からも、文法、意味、訳語等の語付属情報を
検索することができる検索方法および装（ｔを提供する
ことにある。またその代表的実施例である電子辞書では
辞書容量が小さく検索時間の小さいものを提供しようと
するものである。

〔発明の概要〕

漢字表記とかな表記のいずれからも同一のレコードを検
索できるようにするには、漢字の読みがわかれば問題は
ない。しかし、漢字の読みはひととおりとは限らず、語
を検索する前に語の読みを確定することは不可能である
。

これに対して、本発明では、漢字表記とかな表記の両方
ともがよく使用される語は、漢字を訓読みするものに多
いということに着目した。漢字混シの表記が与えられた
時、漢字を無条件に訓読みのかな文字列に置き換えた上
で検索する方法をとれば、Ｗ１１読みされる漢字を含む
語については、かな表記をキーとするレコードのみ記憶
しておけばよい。しかしこの場合音読みされる漢字を含
む語については、漢字を無条件に訓読みのかな文字列に
置き換えているため、当該語本来の読みとは一致しなく
なる。しかし、幸りなことに、音読みされる漢字を含む
語は漢字表記のみの場合が多く、かな表記が併用される
ものは相対的に少数である。

従って、多くの語については、語本来の読みとは異なる
ものが生ずることは止むを得ないが、漢字を無条件に訓
読みして得られるかな文字列をキーとするレコードのみ
を記憶しておくことが効率的である。

以上述べたことから明らかなように、本発明では、全て
の漢字に対して読みを一意に定める。例として、第１図
の語に含まれる７個の漢字に対してそれぞれ一意に定め
だ読みを第３図に示す。ここで、「然」については、音
読みでおる「ぜん」を選択している。「然」は「しか（
す）」とも読めるが、通常の文章ではあまり使用されな
いので、使用頻度の高い「ぜん」を選択した。すなわち
先述の「訓読みを選択する」ということを考え方の主流
として使用頻度が高く、シかも漢字表記とかな表記の両
方ともよく使用される読みをそのケースに合せて選択す
ることを併用したものである。

第３図のように漢字の読みを定めた場合、第１図の語の
各表記を変換して得られるかな文字列を第４図に示す。

第４図に示すように、Ａ１の語「書き込む」は複数の表
記「書き込む」、「書きこむ」、「かきこむ」を持つが
、いずれの表記からも同一のかな文字列「かきこむ」が
得られる。

従って、この語に対しては、「かきこむ」をキーとする
レコードを１つ記憶するだけでよい。Ａ５゜＆６．Ａ７
および５８の６語についても同様でおる。これに対し、
黒３の語「全熱」の２つの表記「全熱」、「ぜんぜん」
からは異なるかな文字列「まったぜん」、「ぜんぜん」
が得られるので、それぞれをキーとする２つのレコード
を記憶することが必要である。これは従来方法と同様の
欠点であるが、「全熱」のように複数のレコードの記憶
が必要な語は相対的に少数である。既述のように複数の
表記が同一のかな文字列に変換される場合のほうが多い
。次に、Ａ２の語「再読」あるいは屋４の語「読書」に
ついて付言しておく。これらの語に対するかな文字列「
ふただよ」あるいは「よか」は、当該語本来の読み「さ
いどく」あるいは「どくしよ」とは異なる。しかし、か
な表記「さいどく」あるいは「どくしよ」は通常使用さ
れないので、これらをキーとして検索できる必要はない
。従って、第４図に示されたかな文字列「ふたたよ」あ
るいは「よか」をキーとするレコードを記憶しておくだ
けでよい。

念は電子的辞書の方法および装置を包含するものとする
。

〔発明の実施例〕

以下、本発明を一実施例によって詳細に説明する。

第５図は本発明情報検索方式の代表的実施態様である電
子辞書の一実施例を示す。

第５図は以下の構成要素からなる。すなわち、漢字かな
変換テーブルメモリ１、メモリ２、かな文字キー生成部
３、キーアドレス変換部４、レコード読込み部５、語表
記比較部６、アドレス転送部７、全体制御部８、ステー
タスインジケー″夕９、請人カバツファ１０、語付属情
報出力バツファ１１、かな文字キーレジスタ１２、アド
レスレジスタ１３、語表記バッファ１４、同一語レコー
ドアドレスレジスタ１５、衝突レコードアドレスレジス
タエ６から構成される。以下、各部について説明する。

漢字かな変換テーブルメモリ１の詳細な構造を第６図に
示す。ここでは、漢字（かなを含む）を１４ビツトでコ
ード化する漢字コード系とかなを７ビツトでコード化す
るかなコード系の２つのコード系全前提としている。漢
字かな変換テーブルメモリ１は、１ワードが１５ピツト
のワードから構成される。各文字は、１４ビツトコード
の２進数としての値をアドレスとみなすことによシ、漢
字かな変換テーブルメモリ１の特定のワードに対応づけ
られる。これは第６図において、アドレス値の右側カッ
コ内に文字を薔くことによって示した。

漢字かな変換テーブルメモリ１の１ワードには２個の７
ビツトコードを記憶することができる。

そこで、読みが長さ２以下のかな文字列で表わされる文
字については、当該文字に対応するワードに読みを記憶
する。例えば、「然」という文字の１４とットコードは
［１ＯＯＯＯＯ１０１１００１１Ｊ、読みは「ぜん」で
ある。そこで、１０００００１０１１００１１番地の第
２〜８ビツトに「ぜ」、第９〜１５ビツトに「ん」を記
憶する。この場合、第１ビツトが「０」のときは、この
ワードが読み情報を含むことを示す。

他方、読みが長さ３以上のかな文字列で表わされる文字
については、１ワードに読みを記憶することができない
。そこで、他のアドレスのワードを用いて読みを記憶し
、当該文字に対応するワードには、読みを記憶したワー
ドのアドレスを記憶しておくようにする。例えば、「全
」という文字の読み「まった」については、１００００
１０００００１０１番地に「まつ」を、１００００１０
００００１１０番地に「た」を記憶し、「全」に対応す
る１０００００１０１１０１００番地の第２〜１５ビツト
には、「まっ」が記憶されたワードのアドレス「１００
００１０００００１０１Ｊを記憶する。第６図のように
１０００００１０１１０１００番地の第１ビツトを「１
」とすることによシ、このワードがアドレス情報を含む
ことを示す。また、この例のように、長さ３以上の読み
は連続した記憶領域に記憶するものとし、図示のように
最終ワードのみ第１ビツトを「Ｏ」、他のワードの第１
ビツトは「１」にする。これによシ、どこまでが、一つ
の文字の、読みを記憶した一連のワードであるか判定す
ることができる。なお、長さ３以上の読みを記憶する領
域としては、その番地を文字符号に対応づけたとき対応
する（標準的）文字を持たないワードを利用している。

例えば、Ｊ工Ｓ規格の漢字コード系では、下７ビツトが
ｏｏｏｏｏｏｏ〜０１０００００および１１１１１１１
のコードには文字が割り当てられていない。第６図にお
いて、「全」の読み「まつ（は、これに該当する番地に
記憶されている。

次に、キーと語付属情報とを関連づけて記憶するメモリ
２の構造について説明する。第７図は、第１図の語に対
してメモリ２に記憶したレコードの内容を示したもので
ある。第７図の説明にはいる前に、レコードの格納アド
レスを決定する手法として本実施例で採用し九）〜ツシ
ング法について説明しておく。ハツシング法では、ハツ
シング関数と呼ぶおる関数を用いて、キーをアドレスに
変換する。ハツシング関数としては種々のものが考えら
れるが、第７図では、キーを構成する文字のコードをそ
れぞれ２進数とみなし、それら−の和をめ、さらに１０
０で除した時の剰余を値とする関数を用いた。一般に、
キーの取シ得る値の集合はアドレスの値の集合よシ大き
いため、異なるキーから同一のアドレスが得られること
が起こる。

これを、衝突という。衝突したレコードは、別の空騒て
いる領域に記憶し、これらをチェインで結んでおく。

メモリ２に記憶するレコードのキーとしては、漢字かな
変換テーブルを用いて語の表記を変換することにより得
られるかな文字列を用いる。レコードは、語表起部、語
付属情報部、同一語レコードアドレス部および衝突レコ
ードアドレス部から構成される。語表起部には、語の表
記のうちで、当該レコードのキーに対応するものを書く
。複数の表記が対応している場合には、「１」で区切っ
て並べる。語表起部は全てのレコードに含まれ、レコー
ドの先頭部分におかれる。語付属情報部は、「■」で開
始される部分で、文法、意味、訳語等の語付属情報が書
かれる。１つの語に対して複数のキーが存在する場合、
そのうちの１つに対応するレコードのみが語付属情報部
を持つ。残シのレコードは、同一語レコードアドレス部
を持つ。同一語レコードアドレス部は、「＝」で開始さ
れる部分で、語付属情報を持つレコードのアドレスが書
かれる。第７図では、「全熱」という語に対する２つの
表記「全熱」、「ぜんぜん」から得られる２つのキー「
まったぜん」、「ぜんぜん」にそれぞれ対応する２つの
レコードがある。このうち、「全熱」という表記に対応
するレコードが語付属情報を持つ。「ぜんぜん」という
表記に対応するレコードは同一語レコードアドレス部に
、「全熱」という表記に対応するレコードのアドレス、
すなわち「３２」を持つ。衝突レコードアドレス部は、
「￥」で開始される部分で、衝突したレコードのチェイ
′ニングのために用いられる。第７図では、「全熱」と
いう語の「ぜんぜん」という表記に対応するレコードが
、「読み込む」という語に対応するレコードと衝突して
いる。すなわち、ノ１ツシング関数によってキーを変換
すると、ともにｒ５０」でｂった。そこで、一方のレコ
ードを空いている他の領域に記憶し、そのアドレス（こ
の例ではｒ９９Ｊ）が５０番地のレコードの衝突レコー
ドアドレス部に書かれている。

以上、漢字かな変換テーブルメモリ１とメモリ２の構造
について説明したので、続いて第５図の他の部分の機能
を説明し、電子辞書の動作を明らかにする。

かな文字キー生成部３は、漢字かな変換テーブルメモリ
ｌｔ−参照して、語人カバッファｌｏ内にある語の表記
をかな文字列に変換し、これをかな文字キーレジスタ１
２に出方する。語入カバッファ１０には１４ビツトコー
ドで語の表記が書かれている。以下、第８図を参照しな
がら、かな文字キー生成部３の機能について説明する。

先ず、語入カバッ７ア１０から１文字（１４ビツト）を
読み込み、エリアＡにセットする（：１０１）。次に、
漢字かな変換テーブルメモリｌのＣ（Ａ）番地（Ｃ（Ａ
）：Ａにセットされたデータの値を表わす）を読み込み
、エリアＢにセットする［１０２）。

Ｂの第１ビツトをチェックし［１０３］、それが１’−
ＯＪ　Ｔ６れば、ＢＣＩ第２〜８ビット〔ｌｏ６〕、第
９〜１５ピツ）［１０８］を順次かな文字キーレジスタ
１２に出方する。但し、Ｂの第９〜１５ビツトがスペー
スを示すコードである場合は〔１０７〕、第９〜１５ビ
ツトはかな文字キーレジスタ１２に出力しない。Ｂの第
１ビツトのチェック［１０３）において、これが「１」
である場合、Ｂの第２〜１５ビツトはアドレスを示して
いるので、これをＡにセットしく　１０４　）、漢字か
な変換テーブルメモリ１のＣ（Ａ）番地を読み込み、Ｂ
にセットする（１０５）。続いて、Ｂの第２〜８ビツト
、第９〜１５ビツトをかな文字キーレジスタに出力する
（１０６．１０８）ことは前の場合と同様である。かな
文字キーレジスタ１２への出力が終了すると、Ｂの第１
ピツ）ｔチェックしく１０９）、これが「１」であれば
、Ａの値を１だけ増加させ〔１１０〕、漢字かな変換テ
ーブルメモリ１のＣ（Ａ）番地の読み込み（１０５）と
かな文字キーレジスタ１２への出力［１０６゜１０８〕
を繰夛返す。Ｂの第１ビツトのチェック（１０，９）に
おいて、これが「０」であれば、語入カバツファ１０に
次の文字があるかどうかチェックしく　１１１　）、次
の文字があれば、それに対して上述の処理を繰シ返す。

かな文字キーレジスタ１２はシフトレジスタであシ、か
な文字キー生成部３の動作が終了した時点で、語人カバ
ッ７アｌＯの内容をかな文字列に変換した結果が得られ
る。

キーアドレス変換部４は、かな文字キーレジスタ１２の
内容を読み込み、メモリ２上のアドレスに変換し、これ
をアドレスレジスタ１３に出力する。すなわち、前述の
ハツシング関数に相当するものであシ、かな文字キーレ
ジスタ１２から７ビツトずつ読み込み、それらの総和を
め、さらに総和を１００で除して得られる剰余をアドレ
スレジスタ１３に出力する。

レコード読込部５は、アドレスレジスタ１３に示される
アドレスの、メモリ２内のレコードを読み込み、読み込
んだレコードの語表起部、語付属情報部、同一語レコー
ドアドレス部および衝突レコードアドレス部を、語表記
バッファ１４、語付属情報出力バッファ１１、同一語レ
コードアドレスレジスタ１５および衝突レコードアドレ
スレジスタ１６にそれぞれ出力する。なお、メモリ２か
ら読み込んだレコードに上記の各部が含まれていたかど
うかの情報を、制御情報として全体制御部８に送信する
。

語表記比較部６は、語表記バッファ１４中に、語人カバ
ツファ１０と同一の語表記が存在するかどうかチェック
し、その結果を全体制御部８に送信する機能を持つ。

アドレス転送部７は、全体制御部８からの指示に従って
、同一語レコードアドレスレジスタ１５あるいは衝突レ
コードアドレスレジスタ１６の内容をアドレスレジスタ
１３に転送する。

全体制御部８は、第９図に示すフローに従って、前述の
各部の動作を制御する。第９図について説明する前に、
ステータスインジケータ９について説明しておく。ステ
ータスインジケータ９は次の３つのステータスを表示す
る。

「０」−電子辞書が検索動作中であることを示す。

「１」−請人カバッファ１０にある語に対する検索が終
了し、検索された語付属情報が語付属情報出力バツファ
１１に出力されていることを示す。

「２」−請人カバッファ１０中の語はメモリ２に記憶さ
れていないため、検索に失敗したことを示す。

ステータスインジケータ９へのｒＯＪのセットは、話人
カバツファ１０への検索すべき語のセットとともに、本
電子辞書の外部（例えば、人間が直接操作する人力装置
を接続した場合、翻訳装置を接続した場合等に応じて、
これらの接続装置を意味する）から行なう。

以下、全体制御部８の機能を第９図によシ説明する。先
ず、ステータスインジケータ９が「０」であることを検
出すると（−２ｏｔ）、かな文字キー生成部３を起動す
る［２０２］。かな文字キー生成部３から動作終了信号
を受信すると、キーアドレス変換部４を起動する（２０
３）。次に、キーアドレス変換部４から動作終了信号を
受信すると、レコード読込み部５を起動する〔２０４〕
。

さらに、レコード読込み部５から動作終了信号を受信す
ると、語表記比較部６を起動する（２０５）。

語表記バッフ７１４ＫＲ人カバツファ１０と同一の語表
記があるかどうか（２０６）は語表記比較部６から、ま
た、語付属情報部があるかどうか〔２０７〕、および衝
突レコードがあるかどうか［２０８］はレコード読込み
部５からそれぞれ信号が送られている。全体制御部８は
、これらの結果によって処理を振シ分ける。すなわち、
同一語表記あシ、語付属情報あシの場合、ステータスイ
ンジケータ９に「１」をセットする（２１０〕。

同一語表記あシ、語付属情報なしの場合、同一語レコー
ドアドレスレジスタ１５の内容をアドレスレジスタ１３
に転送し、再度、レコード読込み部５を起動し〔２０９
〕、さらにステータスインジケータ９に・「１」をセッ
トする［２１０）。同一語表記なし、衝突レコードあυ
の場合、衝突レコードアドレスレジスタ１６の内容をア
ドレスレジスタ１３に転送し［２１２）、レコード読込
み部５の起動（２０４）と語表記比較部６の起動［：２
０５］以降を繰り返す。同一語表記なし、衝突レコード
なしの場合、ステータスインジケータ９に「２」をセッ
トする。

本電子辞書の外部（例えば、人間が直接見ることができ
る表示装置を接続した場合、翻訳装置を接続した場合等
がある）からは、ステータスインジケータ９の値によっ
て電子辞書の動作結果を知ることができる。ステータス
インジケータ９の値が「１」であるときには、語付属情
報出力バツファ１１に検索結果が得られている。

次に、本発明による電子辞書の利用時動作の若干例につ
いて具体例を用いて説明する。

まず、語人カパツ７ア１０に「まったく」という表記の
語がセットされ、ステータスインジケータ９に「０」が
セットされた場合を考える。全体制御部８がステータス
インジケータ９の「０」を検出することによシ、電子辞
書が動作を開始する。

かな文字キー生成部３が、語入カバツファ１０よシ最初
の文字「ま」を含む１４ビツトコード「０１００１００
１０１１１１０Ｊを読み込む。次に、漢字かな変換テー
ブルメモリｌｌ７）０１００１００１０１１１１０番地
を読み込む。読み込んだワードの第１ビツトは「０」で
あシ、第２〜８ピツトが「ま」の７ビツトコード、第９
〜１５ビツトがスペースの７ビツトコードである。そこ
で、かな文字キー生成部３は、「ま」の７ビツトコード
をかな文字キーレジスタエ２に出力する。続いて、語人
カバツ７ア１０中の文字「つ」、「た」、「＜」に対し
ても同様の処理が実行され、結果として、かな文字キー
レジスタ１２に７ビツトコードによるかな文字列「まっ
たく」が出力されることになる。次に、キーアドレス変
換部４が、かな文字キーレジスタ１２から「まったくコ
を読み込み、ハツシング関数に相当する演算を実行する
。この結果は「７１」であシ、アドレスレジスタ１３に
出力される。次に、レコード読込み部５が、アドレスレ
ジスタ１３から「７１」を読み込み、メモリ２の７１番
地のレコードを読み込む。読み込んだレコードは、語表
起部「全く／まったく」と語付属情報部「副詞、・・・
・・・」とから成るので、それぞれ、語表記バツファ１
４、語付属情報出力バツファ１１に出力される。レコー
ド読込み部は、さらに、語付属情報部があったこと、衝
突レコードアドレス部がなかったことを全体制御部８に
伝える。次に語表記比較部６が、語人カバツファ１０の
内容と、語表記バッファ１４の内容を比較する。前者は
「まったく」、後者は「全く」と「まったく」でおシ、
確かに一致するものがある。この結果は全体制御部８に
伝えられる。全体制御部８は、語付属情報部があったこ
とと併せて、「まったく」に対応する語付属情報が語付
属情報出力バツファ１１に得られたことが判定できるの
で、ステータスインジケータ９に「１」をセットする。

次に、話人カバツファ１０に「全く」という表記の語が
、ステータスインジケータ９に「０」がそれぞれセット
された場合を考える。先の例の場合と同様に、全体制御
部８がステータスインジケータ９が「０」であることを
検出することによシ、電子辞書の動作が開始される。か
な文字キー生成部３は、詰入カパツファ１０よシ最初の
文字「全」を表わす１４ビツトコードｒ１０００００１
０１１０１００Ｊを読み込む。次に、漢字かな変換テー
フ゛ルメモ１ノ１の１０００００１０１１０１００番地
を読み込む。読み込んだワードの第１ビツトは「１」で
あシ、第２〜１５ビツトはｌ’−１００００１００００
０１０１Ｊである。

そこで、１００００１０００００１０１番地を読み込む
。

このワードの第１ビツトは「１」であシ、第２〜８ビツ
トは「ま」の７ビツトコード、第９〜１５ビツトは「つ
ｊの７ビツトコードでおる。かな文字キー生成部３は、
「ま」の７ビツトコード、「つ」の７ビツトコードを順
次、かな文字キーレジスタ１２に出力する。次に１００
００１０００００１１０番地を読み込む。このワードの
第１ビツトは「０」であり、第２〜８ビツトは「た」の
７ピツトコー）”、ｒ９〜１５ビットはスペースの７ビ
ツトコードである。かな文字キー生成部３は、「た」の
７ビツトコードをかな文字キーレジスタ１２に出力する
。続いて、話人カッ（ソファ１０中の次の文字「＜」に
対しても同様の処理が実行され、結果として、かな文字
キーレジスタ１２に７ビツトコードによるかな文字列「
まったく」が出力されることになる。それ以降の動作は
、先の例の場合と全く同様である。

以上、電子辞書の一実施例の構造と動作を説明した。本
実施例では、メモリ２にレコードを記憶するのにハツシ
ング法を用いたが、これに限るものでないことは明らか
であ、Ｃ１Ｂトリーをはじめ他の方法を用いても同様の
効果を得ることができる。以上電子辞書を代表として本
発明の詳細な説明したが本発明の思想は情報検索方式一
般に広く適用実施可能であシ、また本発明思想のままソ
フトウェアシステムとして実施することも可能である。

つぎにその場合の一実施例を説明する。

本発明においては漢字かな変換が一意的に決まるため、
このルールのもとて作文をする場合は人手による場合は
勿論計算機等による自動作文も容易である。このような
文章はかな文字列のままでは読めなしが、キーワード検
索する場合のキーワードとしてのかな文字列化のルール
も上記の通シはぼ決っているから検索かやシ易い。

最後に本発明のかな漢字変換テーブルによ！ｌｌ力）な
漢字混シ文に変換すればほぼ完全な文章となり、ここで
初めて人間の読める文章となる。

このように本発明は情報検索、自動文章化等の面でも新
しい実施形態が可能である。

〔発明の効果〕

以上のように本発明は情報検索、文章自動化等の新方式
を提供する効果がおる。さらに電子辞書等については、
従来方法と比較して（１）辞書容量が小さくできる。（
２）平均検索時間が小さい。の２点に要約されるといえ
よう。

辞書容量については、第２図と第７図を比較しても明ら
かである。すなわち従来方法ではｎ個の表記が使用され
る語に対して、当該、語の付属情報を含む１つのレコー
ドと、ポインタ情報を含む（ｎ−１）個のレコードとが
記憶されることが必要であった。一方、本発明によれば
、ｎ個の表Ｅがｎより少ないｍ個のキーに変換される（
ｎ〉２である多くの語に対してｈｍ＜ｎ＞ので、当該語
の付属情報を含む１つのレコードと、ポインタ情報を含
む（ｍ−１）個のレコードとが記憶されることになる。

従って、従来方法に比べて（ｎ−ｍ）個のポインタが不
要になシ、その分だけ辞書容量が小さくなるものである
。

検索時間に関しても、上記と同様第２図と第７図とを比
較することに゛よシ明らかである。検索には、（ａ）目
的とする語の付属情報を含むレコードが直接検索される
場合と（ｂ）ポインタ情報を含むレコードを検索したあ
とそのポインタの指すレコードを検索する場合の２とお
シが起こる。本発明によれば、従来方法に比較して、上
記の（ｂ）の場合が減少しくａ）の場合が増加する。従
って、平均検索時間が短縮されると言える。

上記の比較は実施例に即して述べたものであるが語付属
情報の記憶構造としては実施例以外に種雅のものが考え
られるがいずれの場合にも本発明の効果が期待される。

例えば、トリー状のインデクスを持つ構造の場合、本発
明によると、従来方法に比べてトリーが小さく（浅く）
なるもので、これは辞書容量および検索時間が小さくな
ることを意味する。要する４本発明の効果の本質は、か
な文字キー生成部によシキーの総数を減少することにあ
る。

にシステムで扱う限られた個数の文字（例えば、ＪＩＳ
第１水準漢字）に対して作成すればよいので、高速小容
量のメモリで実現でき、オーツ（−ヘッドは無視し得る
程度である。

【図面の簡単な説明】

第１図は日本語の語とその表記との対応例を示す対応図
、第２図は従来方法による辞書のレコードの例を示す内
容構成図、第３図は漢字と一意に定めた読みとの対応例
を示す対応図、第４図は本発明に使用する語表記とかな
文字列との対応例を示す変換図、第５図は本発明による
電子辞書の構成を示すブロック図、第６図は本発明にお
ける漢字かな変換テーブルメモリの構造を示す図、第７
図は本発明におけるメモリ内のレコードの例を示す内容
構成図、第８図は本発明におけるかな文字キー生成部の
機能を示す流れ図、第９図は全体制御部の動作フロー機
能を示す流れ図である。１・・・漢字かな変換テーブルメモリ、２・・・メモリ
、３・・・かな文字キー生成部、４・・・キーアドレス
変換部、５・・・レコード読込み部、６・・・語表記比
較部、７・・・アドレス転送部、８・・・全体制御部、
９・・・ステータスインジケータ、１０・・・語人カバ
ツ７ア、１１・・・語付属情報出力バツファ、１２・・
・かな文字キーレジスタ、１３・・・アドレスレジスタ
、１４・・・語表記バッファ、１５・・・同一語レコー
ドアドレスｖ　１　図￥　４　図蔓　５　図箭　２　図 χ　γ　図（１ｋ　１．スノｑｑ　日冨Ｉ口１ｇ図

Claims

【特許請求の範囲】１、各漢字ごとにその読みのうちの１つを常に一意に選
択し対応づけて文書を構成するステップと、該各洟字ご
とδに選択した読みのかな文字列と同じ規則でかな文字
キーを生成するステップと、該かな文字キーによって上
記文書を検索するステップを有することを特徴とする情
報検索方法。２　各漢字ごとにその読みのうちの１つを一意に選択し
対応づけた漢字かな変換テーブルを形成するステップと
、上記−意に選択した読みのかな文字列と同じ規則でかな
文字キーを生成するステップと、上記かな文字キーによ
って、上記変換テーブルを検索するステップを有するこ
とを特徴とする情報検索方法。＆　各漢字ごとにその読みのうちの１つを一意に選択し
対応づけた漢字かな変換テーブルを形成するステップと
、上記漢字かな変換テーブルを参照して、語の表記をかな
文字列に変換するかな文字キーを生成するステップと、各語に対して、当該語の通常使用される表記の各々から
上記かな文字キー生成手段によって得られるかな文字列
と当該語付属情報とを関連づけてメモリに記憶するステ
ップと、語の表記が与えられると、上記かな文字キー生成手段に
よって得られるかな文字列をキーとして上記メモリを検
索するステップとからナルこと′ｔ−特徴とする情報検
索方法。覗　各漢字ごとにその読みのうちの１つを一意に選択し
対応づけて構成した漢字かな変換テーブルと、該漢字か
な変換テーブルを参照して語の表記をかな文字列に変換
するかな文字キーを生成する手段と、該かな文字キーに
よって情報を検索する手段を有することを特徴とする情
報検索装置。