JPS60570A - 情報検索方法および装置 - Google Patents

情報検索方法および装置

Info

Publication number
JPS60570A
JPS60570A JP58107677A JP10767783A JPS60570A JP S60570 A JPS60570 A JP S60570A JP 58107677 A JP58107677 A JP 58107677A JP 10767783 A JP10767783 A JP 10767783A JP S60570 A JPS60570 A JP S60570A
Authority
JP
Japan
Prior art keywords
word
kanji
kana
kana character
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58107677A
Other languages
English (en)
Inventor
Hiroyuki Kaji
梶 博行
Yoshihiko Nitta
義彦 新田
Hideaki Shinohara
篠原 英彰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP58107677A priority Critical patent/JPS60570A/ja
Publication of JPS60570A publication Critical patent/JPS60570A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は、漢字かな混シ文を扱う日本語処理システムに
おける情報検索方法およびそれを実現するための装置に
関し、さらにその主な利用分野としての電子辞書、自動
翻訳、電子的検索方式などに関する。
〔発明の背景〕
従来、多くの日本語処理システムにおいて、日本語の表
記はカナ文字あるいはローマ字に限定されていたが、最
近、日本語の通常の表記法である漢字かな混シ文を処理
することが、強く要求されるようになった。この場合、
検索方式またはシステムの重要な構成要素である辞書に
関して、次のような問題を解決することが必要である。
日本語においては、一般に、1つの語の表記として、漢
字とかなの両方を用いることが可能であるが個々の語の
表記をシステムによって1つに定めてしまうことは非常
に困難でアわ、通常の文で使用される複数の表記を人力
として認めざるを得ない。従って、複数の表記を持つ語
について、いずれの表記からもアクセス可能な辞書を構
成することが必要である。
これに対して従来の方法で解決しようとすれば、例えば
次のような構造の辞書になる。すなわち、複数の表記を
持つ語に対しては、各々の表記をキーとする複数のレコ
ードを作成する。その場合文法、意味、訳語等の語付属
情報は、それらのうちの1つに書き込み、残シのレコー
ドには、語付属情報が書き込まれたレコードへのポイン
タ情報を書き込むのが普通である。例えば、第1図に示
すように8個の語に対し合計16個の表記を認めるとす
ると、第2図に示すようなレコードを作成記憶する。第
2図のレコードにおいて、「■」または「=」よシ前の
部分がキー、すなわち語の表記である。「■」の後ろの
部分が語付属情報、「=jの後ろの部分が語付属情報を
含むレコードへのポインタ情報である。
このような従来方法では次のような欠点があった。第一
に、表記の数が多くなるとポインタ情報を持つレコード
のため辞書容量が増大し、第二に、語付属情報が書かれ
てbないレコードに対応する表記が与えられた場合、レ
コードを2回検索することになシ、平均検索時間が増大
することである。
〔発明の目的〕
本発明の目的は、このような従来方式の欠点を解消する
ことにある。すなわち複数の表記を持つ語に対して、い
ずれの表記からも、文法、意味、訳語等の語付属情報を
検索することができる検索方法および装(tを提供する
ことにある。またその代表的実施例である電子辞書では
辞書容量が小さく検索時間の小さいものを提供しようと
するものである。
〔発明の概要〕
漢字表記とかな表記のいずれからも同一のレコードを検
索できるようにするには、漢字の読みがわかれば問題は
ない。しかし、漢字の読みはひととおりとは限らず、語
を検索する前に語の読みを確定することは不可能である
これに対して、本発明では、漢字表記とかな表記の両方
ともがよく使用される語は、漢字を訓読みするものに多
いということに着目した。漢字混シの表記が与えられた
時、漢字を無条件に訓読みのかな文字列に置き換えた上
で検索する方法をとれば、W11読みされる漢字を含む
語については、かな表記をキーとするレコードのみ記憶
しておけばよい。しかしこの場合音読みされる漢字を含
む語については、漢字を無条件に訓読みのかな文字列に
置き換えているため、当該語本来の読みとは一致しなく
なる。しかし、幸りなことに、音読みされる漢字を含む
語は漢字表記のみの場合が多く、かな表記が併用される
ものは相対的に少数である。
従って、多くの語については、語本来の読みとは異なる
ものが生ずることは止むを得ないが、漢字を無条件に訓
読みして得られるかな文字列をキーとするレコードのみ
を記憶しておくことが効率的である。
以上述べたことから明らかなように、本発明では、全て
の漢字に対して読みを一意に定める。例として、第1図
の語に含まれる7個の漢字に対してそれぞれ一意に定め
だ読みを第3図に示す。ここで、「然」については、音
読みでおる「ぜん」を選択している。「然」は「しか(
す)」とも読めるが、通常の文章ではあまり使用されな
いので、使用頻度の高い「ぜん」を選択した。すなわち
先述の「訓読みを選択する」ということを考え方の主流
として使用頻度が高く、シかも漢字表記とかな表記の両
方ともよく使用される読みをそのケースに合せて選択す
ることを併用したものである。
第3図のように漢字の読みを定めた場合、第1図の語の
各表記を変換して得られるかな文字列を第4図に示す。
第4図に示すように、A1の語「書き込む」は複数の表
記「書き込む」、「書きこむ」、「かきこむ」を持つが
、いずれの表記からも同一のかな文字列「かきこむ」が
得られる。
従って、この語に対しては、「かきこむ」をキーとする
レコードを1つ記憶するだけでよい。A5゜&6.A7
および58の6語についても同様でおる。これに対し、
黒3の語「全熱」の2つの表記「全熱」、「ぜんぜん」
からは異なるかな文字列「まったぜん」、「ぜんぜん」
が得られるので、それぞれをキーとする2つのレコード
を記憶することが必要である。これは従来方法と同様の
欠点であるが、「全熱」のように複数のレコードの記憶
が必要な語は相対的に少数である。既述のように複数の
表記が同一のかな文字列に変換される場合のほうが多い
。次に、A2の語「再読」あるいは屋4の語「読書」に
ついて付言しておく。これらの語に対するかな文字列「
ふただよ」あるいは「よか」は、当該語本来の読み「さ
いどく」あるいは「どくしよ」とは異なる。しかし、か
な表記「さいどく」あるいは「どくしよ」は通常使用さ
れないので、これらをキーとして検索できる必要はない
。従って、第4図に示されたかな文字列「ふたたよ」あ
るいは「よか」をキーとするレコードを記憶しておくだ
けでよい。
念は電子的辞書の方法および装置を包含するものとする
〔発明の実施例〕
以下、本発明を一実施例によって詳細に説明する。
第5図は本発明情報検索方式の代表的実施態様である電
子辞書の一実施例を示す。
第5図は以下の構成要素からなる。すなわち、漢字かな
変換テーブルメモリ1、メモリ2、かな文字キー生成部
3、キーアドレス変換部4、レコード読込み部5、語表
記比較部6、アドレス転送部7、全体制御部8、ステー
タスインジケー″夕9、請人カバツファ10、語付属情
報出力バツファ11、かな文字キーレジスタ12、アド
レスレジスタ13、語表記バッファ14、同一語レコー
ドアドレスレジスタ15、衝突レコードアドレスレジス
タエ6から構成される。以下、各部について説明する。
漢字かな変換テーブルメモリ1の詳細な構造を第6図に
示す。ここでは、漢字(かなを含む)を14ビツトでコ
ード化する漢字コード系とかなを7ビツトでコード化す
るかなコード系の2つのコード系全前提としている。漢
字かな変換テーブルメモリ1は、1ワードが15ピツト
のワードから構成される。各文字は、14ビツトコード
の2進数としての値をアドレスとみなすことによシ、漢
字かな変換テーブルメモリ1の特定のワードに対応づけ
られる。これは第6図において、アドレス値の右側カッ
コ内に文字を薔くことによって示した。
漢字かな変換テーブルメモリ1の1ワードには2個の7
ビツトコードを記憶することができる。
そこで、読みが長さ2以下のかな文字列で表わされる文
字については、当該文字に対応するワードに読みを記憶
する。例えば、「然」という文字の14とットコードは
[1OOOOO10110011J、読みは「ぜん」で
ある。そこで、10000010110011番地の第
2〜8ビツトに「ぜ」、第9〜15ビツトに「ん」を記
憶する。この場合、第1ビツトが「0」のときは、この
ワードが読み情報を含むことを示す。
他方、読みが長さ3以上のかな文字列で表わされる文字
については、1ワードに読みを記憶することができない
。そこで、他のアドレスのワードを用いて読みを記憶し
、当該文字に対応するワードには、読みを記憶したワー
ドのアドレスを記憶しておくようにする。例えば、「全
」という文字の読み「まった」については、10000
100000101番地に「まつ」を、1000010
0000110番地に「た」を記憶し、「全」に対応す
る 10000010110100番地の第2〜15ビツト
には、「まっ」が記憶されたワードのアドレス「100
00100000101Jを記憶する。第6図のように
10000010110100番地の第1ビツトを「1
」とすることによシ、このワードがアドレス情報を含む
ことを示す。また、この例のように、長さ3以上の読み
は連続した記憶領域に記憶するものとし、図示のように
最終ワードのみ第1ビツトを「O」、他のワードの第1
ビツトは「1」にする。これによシ、どこまでが、一つ
の文字の、読みを記憶した一連のワードであるか判定す
ることができる。なお、長さ3以上の読みを記憶する領
域としては、その番地を文字符号に対応づけたとき対応
する(標準的)文字を持たないワードを利用している。
例えば、J工S規格の漢字コード系では、下7ビツトが
ooooooo〜0100000および1111111
のコードには文字が割り当てられていない。第6図にお
いて、「全」の読み「まつ(は、これに該当する番地に
記憶されている。
次に、キーと語付属情報とを関連づけて記憶するメモリ
2の構造について説明する。第7図は、第1図の語に対
してメモリ2に記憶したレコードの内容を示したもので
ある。第7図の説明にはいる前に、レコードの格納アド
レスを決定する手法として本実施例で採用し九)〜ツシ
ング法について説明しておく。ハツシング法では、ハツ
シング関数と呼ぶおる関数を用いて、キーをアドレスに
変換する。ハツシング関数としては種々のものが考えら
れるが、第7図では、キーを構成する文字のコードをそ
れぞれ2進数とみなし、それら−の和をめ、さらに10
0で除した時の剰余を値とする関数を用いた。一般に、
キーの取シ得る値の集合はアドレスの値の集合よシ大き
いため、異なるキーから同一のアドレスが得られること
が起こる。
これを、衝突という。衝突したレコードは、別の空騒て
いる領域に記憶し、これらをチェインで結んでおく。
メモリ2に記憶するレコードのキーとしては、漢字かな
変換テーブルを用いて語の表記を変換することにより得
られるかな文字列を用いる。レコードは、語表起部、語
付属情報部、同一語レコードアドレス部および衝突レコ
ードアドレス部から構成される。語表起部には、語の表
記のうちで、当該レコードのキーに対応するものを書く
。複数の表記が対応している場合には、「1」で区切っ
て並べる。語表起部は全てのレコードに含まれ、レコー
ドの先頭部分におかれる。語付属情報部は、「■」で開
始される部分で、文法、意味、訳語等の語付属情報が書
かれる。1つの語に対して複数のキーが存在する場合、
そのうちの1つに対応するレコードのみが語付属情報部
を持つ。残シのレコードは、同一語レコードアドレス部
を持つ。同一語レコードアドレス部は、「=」で開始さ
れる部分で、語付属情報を持つレコードのアドレスが書
かれる。第7図では、「全熱」という語に対する2つの
表記「全熱」、「ぜんぜん」から得られる2つのキー「
まったぜん」、「ぜんぜん」にそれぞれ対応する2つの
レコードがある。このうち、「全熱」という表記に対応
するレコードが語付属情報を持つ。「ぜんぜん」という
表記に対応するレコードは同一語レコードアドレス部に
、「全熱」という表記に対応するレコードのアドレス、
すなわち「32」を持つ。衝突レコードアドレス部は、
「¥」で開始される部分で、衝突したレコードのチェイ
′ニングのために用いられる。第7図では、「全熱」と
いう語の「ぜんぜん」という表記に対応するレコードが
、「読み込む」という語に対応するレコードと衝突して
いる。すなわち、ノ1ツシング関数によってキーを変換
すると、ともにr50」でbった。そこで、一方のレコ
ードを空いている他の領域に記憶し、そのアドレス(こ
の例ではr99J)が50番地のレコードの衝突レコー
ドアドレス部に書かれている。
以上、漢字かな変換テーブルメモリ1とメモリ2の構造
について説明したので、続いて第5図の他の部分の機能
を説明し、電子辞書の動作を明らかにする。
かな文字キー生成部3は、漢字かな変換テーブルメモリ
lt−参照して、語人カバッファlo内にある語の表記
をかな文字列に変換し、これをかな文字キーレジスタ1
2に出方する。語入カバッファ10には14ビツトコー
ドで語の表記が書かれている。以下、第8図を参照しな
がら、かな文字キー生成部3の機能について説明する。
先ず、語入カバッ7ア10から1文字(14ビツト)を
読み込み、エリアAにセットする(:101)。次に、
漢字かな変換テーブルメモリlのC(A)番地(C(A
):Aにセットされたデータの値を表わす)を読み込み
、エリアBにセットする[102)。
Bの第1ビツトをチェックし[103]、それが1’−
OJ T6れば、BCI第2〜8ビット〔lo6〕、第
9〜15ピツ)[108]を順次かな文字キーレジスタ
12に出方する。但し、Bの第9〜15ビツトがスペー
スを示すコードである場合は〔107〕、第9〜15ビ
ツトはかな文字キーレジスタ12に出力しない。Bの第
1ビツトのチェック[103)において、これが「1」
である場合、Bの第2〜15ビツトはアドレスを示して
いるので、これをAにセットしく 104 )、漢字か
な変換テーブルメモリ1のC(A)番地を読み込み、B
にセットする(105)。続いて、Bの第2〜8ビツト
、第9〜15ビツトをかな文字キーレジスタに出力する
(106.108)ことは前の場合と同様である。かな
文字キーレジスタ12への出力が終了すると、Bの第1
ピツ)tチェックしく109)、これが「1」であれば
、Aの値を1だけ増加させ〔110〕、漢字かな変換テ
ーブルメモリ1のC(A)番地の読み込み(105)と
かな文字キーレジスタ12への出力[106゜108〕
を繰夛返す。Bの第1ビツトのチェック(10,9)に
おいて、これが「0」であれば、語入カバツファ10に
次の文字があるかどうかチェックしく 111 )、次
の文字があれば、それに対して上述の処理を繰シ返す。
かな文字キーレジスタ12はシフトレジスタであシ、か
な文字キー生成部3の動作が終了した時点で、語人カバ
ッ7アlOの内容をかな文字列に変換した結果が得られ
る。
キーアドレス変換部4は、かな文字キーレジスタ12の
内容を読み込み、メモリ2上のアドレスに変換し、これ
をアドレスレジスタ13に出力する。すなわち、前述の
ハツシング関数に相当するものであシ、かな文字キーレ
ジスタ12から7ビツトずつ読み込み、それらの総和を
め、さらに総和を100で除して得られる剰余をアドレ
スレジスタ13に出力する。
レコード読込部5は、アドレスレジスタ13に示される
アドレスの、メモリ2内のレコードを読み込み、読み込
んだレコードの語表起部、語付属情報部、同一語レコー
ドアドレス部および衝突レコードアドレス部を、語表記
バッファ14、語付属情報出力バッファ11、同一語レ
コードアドレスレジスタ15および衝突レコードアドレ
スレジスタ16にそれぞれ出力する。なお、メモリ2か
ら読み込んだレコードに上記の各部が含まれていたかど
うかの情報を、制御情報として全体制御部8に送信する
語表記比較部6は、語表記バッファ14中に、語人カバ
ツファ10と同一の語表記が存在するかどうかチェック
し、その結果を全体制御部8に送信する機能を持つ。
アドレス転送部7は、全体制御部8からの指示に従って
、同一語レコードアドレスレジスタ15あるいは衝突レ
コードアドレスレジスタ16の内容をアドレスレジスタ
13に転送する。
全体制御部8は、第9図に示すフローに従って、前述の
各部の動作を制御する。第9図について説明する前に、
ステータスインジケータ9について説明しておく。ステ
ータスインジケータ9は次の3つのステータスを表示す
る。
「0」−電子辞書が検索動作中であることを示す。
「1」−請人カバッファ10にある語に対する検索が終
了し、検索された語付属情報が語付属情報出力バツファ
11に出力されていることを示す。
「2」−請人カバッファ10中の語はメモリ2に記憶さ
れていないため、検索に失敗したことを示す。
ステータスインジケータ9へのrOJのセットは、話人
カバツファ10への検索すべき語のセットとともに、本
電子辞書の外部(例えば、人間が直接操作する人力装置
を接続した場合、翻訳装置を接続した場合等に応じて、
これらの接続装置を意味する)から行なう。
以下、全体制御部8の機能を第9図によシ説明する。先
ず、ステータスインジケータ9が「0」であることを検
出すると(−2ot)、かな文字キー生成部3を起動す
る[202]。かな文字キー生成部3から動作終了信号
を受信すると、キーアドレス変換部4を起動する(20
3)。次に、キーアドレス変換部4から動作終了信号を
受信すると、レコード読込み部5を起動する〔204〕
さらに、レコード読込み部5から動作終了信号を受信す
ると、語表記比較部6を起動する(205)。
語表記バッフ714KR人カバツファ10と同一の語表
記があるかどうか(206)は語表記比較部6から、ま
た、語付属情報部があるかどうか〔207〕、および衝
突レコードがあるかどうか[208]はレコード読込み
部5からそれぞれ信号が送られている。全体制御部8は
、これらの結果によって処理を振シ分ける。すなわち、
同一語表記あシ、語付属情報あシの場合、ステータスイ
ンジケータ9に「1」をセットする(210〕。
同一語表記あシ、語付属情報なしの場合、同一語レコー
ドアドレスレジスタ15の内容をアドレスレジスタ13
に転送し、再度、レコード読込み部5を起動し〔209
〕、さらにステータスインジケータ9に・「1」をセッ
トする[210)。同一語表記なし、衝突レコードあυ
の場合、衝突レコードアドレスレジスタ16の内容をア
ドレスレジスタ13に転送し[212)、レコード読込
み部5の起動(204)と語表記比較部6の起動[:2
05]以降を繰り返す。同一語表記なし、衝突レコード
なしの場合、ステータスインジケータ9に「2」をセッ
トする。
本電子辞書の外部(例えば、人間が直接見ることができ
る表示装置を接続した場合、翻訳装置を接続した場合等
がある)からは、ステータスインジケータ9の値によっ
て電子辞書の動作結果を知ることができる。ステータス
インジケータ9の値が「1」であるときには、語付属情
報出力バツファ11に検索結果が得られている。
次に、本発明による電子辞書の利用時動作の若干例につ
いて具体例を用いて説明する。
まず、語人カパツ7ア10に「まったく」という表記の
語がセットされ、ステータスインジケータ9に「0」が
セットされた場合を考える。全体制御部8がステータス
インジケータ9の「0」を検出することによシ、電子辞
書が動作を開始する。
かな文字キー生成部3が、語入カバツファ10よシ最初
の文字「ま」を含む14ビツトコード「0100100
1011110Jを読み込む。次に、漢字かな変換テー
ブルメモリll7)01001001011110番地
を読み込む。読み込んだワードの第1ビツトは「0」で
あシ、第2〜8ピツトが「ま」の7ビツトコード、第9
〜15ビツトがスペースの7ビツトコードである。そこ
で、かな文字キー生成部3は、「ま」の7ビツトコード
をかな文字キーレジスタエ2に出力する。続いて、語人
カバツ7ア10中の文字「つ」、「た」、「<」に対し
ても同様の処理が実行され、結果として、かな文字キー
レジスタ12に7ビツトコードによるかな文字列「まっ
たく」が出力されることになる。次に、キーアドレス変
換部4が、かな文字キーレジスタ12から「まったくコ
を読み込み、ハツシング関数に相当する演算を実行する
。この結果は「71」であシ、アドレスレジスタ13に
出力される。次に、レコード読込み部5が、アドレスレ
ジスタ13から「71」を読み込み、メモリ2の71番
地のレコードを読み込む。読み込んだレコードは、語表
起部「全く/まったく」と語付属情報部「副詞、・・・
・・・」とから成るので、それぞれ、語表記バツファ1
4、語付属情報出力バツファ11に出力される。レコー
ド読込み部は、さらに、語付属情報部があったこと、衝
突レコードアドレス部がなかったことを全体制御部8に
伝える。次に語表記比較部6が、語人カバツファ10の
内容と、語表記バッファ14の内容を比較する。前者は
「まったく」、後者は「全く」と「まったく」でおシ、
確かに一致するものがある。この結果は全体制御部8に
伝えられる。全体制御部8は、語付属情報部があったこ
とと併せて、「まったく」に対応する語付属情報が語付
属情報出力バツファ11に得られたことが判定できるの
で、ステータスインジケータ9に「1」をセットする。
次に、話人カバツファ10に「全く」という表記の語が
、ステータスインジケータ9に「0」がそれぞれセット
された場合を考える。先の例の場合と同様に、全体制御
部8がステータスインジケータ9が「0」であることを
検出することによシ、電子辞書の動作が開始される。か
な文字キー生成部3は、詰入カパツファ10よシ最初の
文字「全」を表わす14ビツトコードr1000001
0110100Jを読み込む。次に、漢字かな変換テー
フ゛ルメモ1ノ1の10000010110100番地
を読み込む。読み込んだワードの第1ビツトは「1」で
あシ、第2〜15ビツトはl’−1000010000
0101Jである。
そこで、10000100000101番地を読み込む
このワードの第1ビツトは「1」であシ、第2〜8ビツ
トは「ま」の7ビツトコード、第9〜15ビツトは「つ
jの7ビツトコードでおる。かな文字キー生成部3は、
「ま」の7ビツトコード、「つ」の7ビツトコードを順
次、かな文字キーレジスタ12に出力する。次に100
00100000110番地を読み込む。このワードの
第1ビツトは「0」であり、第2〜8ビツトは「た」の
7ピツトコー)”、r9〜15ビットはスペースの7ビ
ツトコードである。かな文字キー生成部3は、「た」の
7ビツトコードをかな文字キーレジスタ12に出力する
。続いて、話人カッ(ソファ10中の次の文字「<」に
対しても同様の処理が実行され、結果として、かな文字
キーレジスタ12に7ビツトコードによるかな文字列「
まったく」が出力されることになる。それ以降の動作は
、先の例の場合と全く同様である。
以上、電子辞書の一実施例の構造と動作を説明した。本
実施例では、メモリ2にレコードを記憶するのにハツシ
ング法を用いたが、これに限るものでないことは明らか
であ、C1Bトリーをはじめ他の方法を用いても同様の
効果を得ることができる。以上電子辞書を代表として本
発明の詳細な説明したが本発明の思想は情報検索方式一
般に広く適用実施可能であシ、また本発明思想のままソ
フトウェアシステムとして実施することも可能である。
つぎにその場合の一実施例を説明する。
本発明においては漢字かな変換が一意的に決まるため、
このルールのもとて作文をする場合は人手による場合は
勿論計算機等による自動作文も容易である。このような
文章はかな文字列のままでは読めなしが、キーワード検
索する場合のキーワードとしてのかな文字列化のルール
も上記の通シはぼ決っているから検索かやシ易い。
最後に本発明のかな漢字変換テーブルによ!ll力)な
漢字混シ文に変換すればほぼ完全な文章となり、ここで
初めて人間の読める文章となる。
このように本発明は情報検索、自動文章化等の面でも新
しい実施形態が可能である。
〔発明の効果〕
以上のように本発明は情報検索、文章自動化等の新方式
を提供する効果がおる。さらに電子辞書等については、
従来方法と比較して(1)辞書容量が小さくできる。(
2)平均検索時間が小さい。の2点に要約されるといえ
よう。
辞書容量については、第2図と第7図を比較しても明ら
かである。すなわち従来方法ではn個の表記が使用され
る語に対して、当該、語の付属情報を含む1つのレコー
ドと、ポインタ情報を含む(n−1)個のレコードとが
記憶されることが必要であった。一方、本発明によれば
、n個の表Eがnより少ないm個のキーに変換される(
n〉2である多くの語に対してhm<n>ので、当該語
の付属情報を含む1つのレコードと、ポインタ情報を含
む(m−1)個のレコードとが記憶されることになる。
従って、従来方法に比べて(n−m)個のポインタが不
要になシ、その分だけ辞書容量が小さくなるものである
検索時間に関しても、上記と同様第2図と第7図とを比
較することに゛よシ明らかである。検索には、(a)目
的とする語の付属情報を含むレコードが直接検索される
場合と(b)ポインタ情報を含むレコードを検索したあ
とそのポインタの指すレコードを検索する場合の2とお
シが起こる。本発明によれば、従来方法に比較して、上
記の(b)の場合が減少しくa)の場合が増加する。従
って、平均検索時間が短縮されると言える。
上記の比較は実施例に即して述べたものであるが語付属
情報の記憶構造としては実施例以外に種雅のものが考え
られるがいずれの場合にも本発明の効果が期待される。
例えば、トリー状のインデクスを持つ構造の場合、本発
明によると、従来方法に比べてトリーが小さく(浅く)
なるもので、これは辞書容量および検索時間が小さくな
ることを意味する。要する4本発明の効果の本質は、か
な文字キー生成部によシキーの総数を減少することにあ
る。
にシステムで扱う限られた個数の文字(例えば、JIS
第1水準漢字)に対して作成すればよいので、高速小容
量のメモリで実現でき、オーツ(−ヘッドは無視し得る
程度である。
【図面の簡単な説明】
第1図は日本語の語とその表記との対応例を示す対応図
、第2図は従来方法による辞書のレコードの例を示す内
容構成図、第3図は漢字と一意に定めた読みとの対応例
を示す対応図、第4図は本発明に使用する語表記とかな
文字列との対応例を示す変換図、第5図は本発明による
電子辞書の構成を示すブロック図、第6図は本発明にお
ける漢字かな変換テーブルメモリの構造を示す図、第7
図は本発明におけるメモリ内のレコードの例を示す内容
構成図、第8図は本発明におけるかな文字キー生成部の
機能を示す流れ図、第9図は全体制御部の動作フロー機
能を示す流れ図である。 1・・・漢字かな変換テーブルメモリ、2・・・メモリ
、3・・・かな文字キー生成部、4・・・キーアドレス
変換部、5・・・レコード読込み部、6・・・語表記比
較部、7・・・アドレス転送部、8・・・全体制御部、
9・・・ステータスインジケータ、10・・・語人カバ
ツ7ア、11・・・語付属情報出力バツファ、12・・
・かな文字キーレジスタ、13・・・アドレスレジスタ
、14・・・語表記バッファ、15・・・同一語レコー
ドアドレスv 1 図 ¥ 4 図 蔓 5 図 箭 2 図 χ γ 図 (1k 1.スノ qq 日冨I口 1g図

Claims (1)

  1. 【特許請求の範囲】 1、各漢字ごとにその読みのうちの1つを常に一意に選
    択し対応づけて文書を構成するステップと、該各洟字ご
    とδに選択した読みのかな文字列と同じ規則でかな文字
    キーを生成するステップと、該かな文字キーによって上
    記文書を検索するステップを有することを特徴とする情
    報検索方法。 2 各漢字ごとにその読みのうちの1つを一意に選択し
    対応づけた漢字かな変換テーブルを形成するステップと
    、 上記−意に選択した読みのかな文字列と同じ規則でかな
    文字キーを生成するステップと、上記かな文字キーによ
    って、上記変換テーブルを検索するステップを有するこ
    とを特徴とする情報検索方法。 & 各漢字ごとにその読みのうちの1つを一意に選択し
    対応づけた漢字かな変換テーブルを形成するステップと
    、 上記漢字かな変換テーブルを参照して、語の表記をかな
    文字列に変換するかな文字キーを生成するステップと、 各語に対して、当該語の通常使用される表記の各々から
    上記かな文字キー生成手段によって得られるかな文字列
    と当該語付属情報とを関連づけてメモリに記憶するステ
    ップと、 語の表記が与えられると、上記かな文字キー生成手段に
    よって得られるかな文字列をキーとして上記メモリを検
    索するステップとからナルこと′t−特徴とする情報検
    索方法。 覗 各漢字ごとにその読みのうちの1つを一意に選択し
    対応づけて構成した漢字かな変換テーブルと、該漢字か
    な変換テーブルを参照して語の表記をかな文字列に変換
    するかな文字キーを生成する手段と、該かな文字キーに
    よって情報を検索する手段を有することを特徴とする情
    報検索装置。
JP58107677A 1983-06-17 1983-06-17 情報検索方法および装置 Pending JPS60570A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58107677A JPS60570A (ja) 1983-06-17 1983-06-17 情報検索方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58107677A JPS60570A (ja) 1983-06-17 1983-06-17 情報検索方法および装置

Publications (1)

Publication Number Publication Date
JPS60570A true JPS60570A (ja) 1985-01-05

Family

ID=14465180

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58107677A Pending JPS60570A (ja) 1983-06-17 1983-06-17 情報検索方法および装置

Country Status (1)

Country Link
JP (1) JPS60570A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62144269A (ja) * 1985-12-18 1987-06-27 Matsushita Electric Ind Co Ltd 情報検索装置
JPS63101967A (ja) * 1986-10-20 1988-05-06 Fuji Xerox Co Ltd 電子辞書検索利用装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62144269A (ja) * 1985-12-18 1987-06-27 Matsushita Electric Ind Co Ltd 情報検索装置
JPS63101967A (ja) * 1986-10-20 1988-05-06 Fuji Xerox Co Ltd 電子辞書検索利用装置

Similar Documents

Publication Publication Date Title
US6873986B2 (en) Method and system for mapping strings for comparison
US4579533A (en) Method of teaching a subject including use of a dictionary and translator
US4367537A (en) Address retrieval in an electronic dictionary and language interpreter
JPS60570A (ja) 情報検索方法および装置
JP2634926B2 (ja) かな漢字変換装置
JPS6028027B2 (ja) 韓国語ソ−ト制御方式
JPS6246029B2 (ja)
JPH0452500B2 (ja)
JPH0346857B2 (ja)
JPS5814688B2 (ja) 同音異義語順次表示を行なう漢字まじり文入力装置
JPH01161473A (ja) かな漢字変換装置及びその方法
JPS62144269A (ja) 情報検索装置
JPS6162970A (ja) 仮名漢字変換装置
JPS619755A (ja) かな漢字変換方式
JP2688652B2 (ja) 文字列変換装置
JP2988046B2 (ja) かな漢字変換装置
JP2976682B2 (ja) 言語再生装置
JPS61285573A (ja) 仮名漢字変換装置
JPH01237877A (ja) 漢字変換方式
JPH0225544B2 (ja)
JPS6175467A (ja) 仮名漢字変換方式
JPH0521264B2 (ja)
JPH0352102B2 (ja)
JPH0769916B2 (ja) かな漢字変換装置
JPH04318659A (ja) 文書処理装置