JPH07129576A - 文書処理装置及びその単語辞書 - Google Patents
文書処理装置及びその単語辞書Info
- Publication number
- JPH07129576A JPH07129576A JP5279195A JP27919593A JPH07129576A JP H07129576 A JPH07129576 A JP H07129576A JP 5279195 A JP5279195 A JP 5279195A JP 27919593 A JP27919593 A JP 27919593A JP H07129576 A JPH07129576 A JP H07129576A
- Authority
- JP
- Japan
- Prior art keywords
- data
- reading
- notation
- character string
- word dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【目的】 単語辞書のサイズを減少させてデータブロッ
ク内の格納語数を増加させ、検索先のブロックの変更を
行う回数が減少し、単語の検索時間が削減できる文書処
理装置及びその単語辞書を提供することを目的とする。 【構成】 文字列の読みに対応して該文字列の表記を出
力する文書処理装置において、文字列の読みを表す読み
データを入力する(3)と、該文字列の読みデータに対
応して、表記と読みが一致しない部分の読みデータにお
ける位置を表す位置データと該部分の表記を表わす表記
データとを記憶する単語辞書(2a)と、入力された文
字列の読みデータに基づいて前記単語辞書(2a)に記
憶されたデータを検索し、表記と読みが一致しない部分
を表記データに置き代えて、入力された文字列の表記デ
ータを作成する(1)。
ク内の格納語数を増加させ、検索先のブロックの変更を
行う回数が減少し、単語の検索時間が削減できる文書処
理装置及びその単語辞書を提供することを目的とする。 【構成】 文字列の読みに対応して該文字列の表記を出
力する文書処理装置において、文字列の読みを表す読み
データを入力する(3)と、該文字列の読みデータに対
応して、表記と読みが一致しない部分の読みデータにお
ける位置を表す位置データと該部分の表記を表わす表記
データとを記憶する単語辞書(2a)と、入力された文
字列の読みデータに基づいて前記単語辞書(2a)に記
憶されたデータを検索し、表記と読みが一致しない部分
を表記データに置き代えて、入力された文字列の表記デ
ータを作成する(1)。
Description
【0001】
【産業上の利用分野】本発明は文書処理装置及びその単
語辞書、特に文字列の読みに対応して該文字列の表記を
出力する文書処理装置及びその単語辞書に関するもので
ある。
語辞書、特に文字列の読みに対応して該文字列の表記を
出力する文書処理装置及びその単語辞書に関するもので
ある。
【0002】
【従来の技術】文書処理装置の典型的な構成を図4に示
し、従来の文字列の読みに対応して該文字列の表記を出
力する文書処理装置における読みから表記への変換処理
を図3をもとに説明する。図4に示すように、文書処理
装置は、中央処理装置1と、記憶装置2と、キーボード
3と、表示装置4とから、その主要部が構成されてい
る。記憶装置2は単語辞書2aを有する。
し、従来の文字列の読みに対応して該文字列の表記を出
力する文書処理装置における読みから表記への変換処理
を図3をもとに説明する。図4に示すように、文書処理
装置は、中央処理装置1と、記憶装置2と、キーボード
3と、表示装置4とから、その主要部が構成されてい
る。記憶装置2は単語辞書2aを有する。
【0003】図3において、ステップS100で、検索
データAをキーボード3より入力する。次に、ステップ
S110で、検索するブロックが設定される。ステップ
S120で、決定されたブロックが前検索ブロックと同
一か判断する。同一でない場合、ステップS130で、
記憶装置2に存在する単語辞書2aのデータブロックを
中央処理装置1でアクセスし処理する。同一の場合、ス
テップS130は行わない。ステップS140でデータ
ブロック内において検索を行ない、ステップS145で
検索されたデータに基づいて読みを表記に変換し、ステ
ップS150でデータの保存を行う。ステップS160
では、検索終了である場合はENDに移り処理を終了
し、検索を行う場合はステップS100に戻り、上述の
各ステップを繰り返す。
データAをキーボード3より入力する。次に、ステップ
S110で、検索するブロックが設定される。ステップ
S120で、決定されたブロックが前検索ブロックと同
一か判断する。同一でない場合、ステップS130で、
記憶装置2に存在する単語辞書2aのデータブロックを
中央処理装置1でアクセスし処理する。同一の場合、ス
テップS130は行わない。ステップS140でデータ
ブロック内において検索を行ない、ステップS145で
検索されたデータに基づいて読みを表記に変換し、ステ
ップS150でデータの保存を行う。ステップS160
では、検索終了である場合はENDに移り処理を終了
し、検索を行う場合はステップS100に戻り、上述の
各ステップを繰り返す。
【0004】ここで、従来の単語辞書2aは、読みと表
記とを対応させてJISコード等の1文字2バイトのコ
ードで格納した場合、図5に示すように、読み『あけま
しておめでとう』(20バイト)と表記『明けましてお
めでとう』(20バイト)との全部で40バイトの領域
が必要である。
記とを対応させてJISコード等の1文字2バイトのコ
ードで格納した場合、図5に示すように、読み『あけま
しておめでとう』(20バイト)と表記『明けましてお
めでとう』(20バイト)との全部で40バイトの領域
が必要である。
【0005】一方、従来の文書処理装置におけるデータ
検索処理の例を図12に、その場合の単語辞書2aの例
を図11に示す。従来の単語辞書2aは、データブロッ
クの先頭データの中における最大サイズで構成された索
引とデータブロックとで構成されている。すなわち、図
11に示すように、データブロックの先頭データ(『こ
う』,『こうきょ』,『こうしきやきゅう』)の中で最
大であるのは『こうしきやきゅう』のため1索引は8文
字分の領域がとられる。
検索処理の例を図12に、その場合の単語辞書2aの例
を図11に示す。従来の単語辞書2aは、データブロッ
クの先頭データの中における最大サイズで構成された索
引とデータブロックとで構成されている。すなわち、図
11に示すように、データブロックの先頭データ(『こ
う』,『こうきょ』,『こうしきやきゅう』)の中で最
大であるのは『こうしきやきゅう』のため1索引は8文
字分の領域がとられる。
【0006】図12において、ステップS200で、
『こうしき』がキーボード3より入力されると、ステッ
プS210において、記憶装置2に存在する単語辞書2
aの索引を中央処理装置1にアクセスする。検索データ
は、索引2『こうきょ』で読みが後ろで、索引3『こう
しきやきゅう』より前に存在するため、ブロックはデー
タブロック2に設定される。ステップS220で、記憶
装置2に存在する単語辞書2aの図11に示すデータブ
ロック2が中央処理装置1にアクセスされる。データブ
ロック2において、データ『こうしき』がステップS2
30で検索される。ステップS240では、データブロ
ック2において『こうしき』が抽出され、ステップS2
50でデータ保存を行う。
『こうしき』がキーボード3より入力されると、ステッ
プS210において、記憶装置2に存在する単語辞書2
aの索引を中央処理装置1にアクセスする。検索データ
は、索引2『こうきょ』で読みが後ろで、索引3『こう
しきやきゅう』より前に存在するため、ブロックはデー
タブロック2に設定される。ステップS220で、記憶
装置2に存在する単語辞書2aの図11に示すデータブ
ロック2が中央処理装置1にアクセスされる。データブ
ロック2において、データ『こうしき』がステップS2
30で検索される。ステップS240では、データブロ
ック2において『こうしき』が抽出され、ステップS2
50でデータ保存を行う。
【0007】上記の単語辞書2aにおいては、索引領域
の容量が大きくなる。
の容量が大きくなる。
【0008】そこで、単語辞書2aの索引がデータブロ
ックの先頭データ中における最大サイズよりも小サイズ
で構成された例を図13に示す。例えば、1索引を4文
字で構成した場合、データブロック1の索引は、『こう
△△』,データブロック2の索引は『こうきょ』,デー
タブロック3の索引は『こうしき』となる。
ックの先頭データ中における最大サイズよりも小サイズ
で構成された例を図13に示す。例えば、1索引を4文
字で構成した場合、データブロック1の索引は、『こう
△△』,データブロック2の索引は『こうきょ』,デー
タブロック3の索引は『こうしき』となる。
【0009】図13に示す単語辞書2aをもとに図12
に示す従来のデータ検索処理を説明すると、ステップS
200で、検索データ『こうしき』であるため、索引3
『こうしき』と同じになり検索ブロックはデータブロッ
ク3に設定される。ステップS220で、記憶装置2に
存在する単語辞書2aのデータブロック3が中央処理装
置1にアクセスされる。データブロック3において、デ
ータ『こうしき』がステップS230で検索される。
に示す従来のデータ検索処理を説明すると、ステップS
200で、検索データ『こうしき』であるため、索引3
『こうしき』と同じになり検索ブロックはデータブロッ
ク3に設定される。ステップS220で、記憶装置2に
存在する単語辞書2aのデータブロック3が中央処理装
置1にアクセスされる。データブロック3において、デ
ータ『こうしき』がステップS230で検索される。
【0010】しかし、データブロック3には検索データ
『こうしき』が存在しないためエラーとなる。
『こうしき』が存在しないためエラーとなる。
【0011】
【発明が解決しようとする課題】すなわち、上記従来の
技術では、各単語に対する記憶データ量が多く単語格納
語数の増加と共に単語辞書のサイズが極端に増大する傾
向にあった。また、データブロック内に格納される単語
数が少なくなるため、データ検索処理をおこなう場合に
ブロック抽出のステップを行う回数が多くなる。特に、
単語辞書が外部記憶装置に存在する場合は、単語辞書へ
のアクセス時間がかかり処理速度の低下を招く。
技術では、各単語に対する記憶データ量が多く単語格納
語数の増加と共に単語辞書のサイズが極端に増大する傾
向にあった。また、データブロック内に格納される単語
数が少なくなるため、データ検索処理をおこなう場合に
ブロック抽出のステップを行う回数が多くなる。特に、
単語辞書が外部記憶装置に存在する場合は、単語辞書へ
のアクセス時間がかかり処理速度の低下を招く。
【0012】また、データブロックの先頭データ中にお
ける最大サイズですべての索引が構成されている場合、
検索は可能であるが検索部のメモリサイズが大きくな
る。一方、索引を最大サイズより小サイズの固定長索引
の単語辞書では、索引部のメモリは小さくなるが存在し
ているデータを検索できないことが起きる。
ける最大サイズですべての索引が構成されている場合、
検索は可能であるが検索部のメモリサイズが大きくな
る。一方、索引を最大サイズより小サイズの固定長索引
の単語辞書では、索引部のメモリは小さくなるが存在し
ているデータを検索できないことが起きる。
【0013】本発明は、前記従来の欠点を除去し、各単
語に対する記憶データ量を削減して、高速に文字列の読
みに対応して該文字列の表記を出力する文書処理装置及
びその単語辞書を提供する。
語に対する記憶データ量を削減して、高速に文字列の読
みに対応して該文字列の表記を出力する文書処理装置及
びその単語辞書を提供する。
【0014】また、検索部のメモリサイズを小さくして
も確実に存在しているデータを検索できる文書処理装置
及びその単語辞書を提供する。
も確実に存在しているデータを検索できる文書処理装置
及びその単語辞書を提供する。
【0015】
【課題を解決するための手段】この課題を解決するため
に、本発明の文書処理装置は、文字列の読みに対応して
該文字列の表記を出力する文書処理装置において、文字
列の読みを表す読みデータを入力する入力手段と、該文
字列の読みデータに対応して、表記と読みが一致しない
部分の読みデータにおける位置を表す位置データと該部
分の表記を表わす表記データとを記憶する記憶手段と、
入力された文字列の読みデータに基づいて前記記憶手段
に記憶されたデータを検索し、表記と読みが一致しない
部分を表記データに置き代えて、入力された文字列の表
記データを作成する作成手段とを備えることを特徴とす
る。
に、本発明の文書処理装置は、文字列の読みに対応して
該文字列の表記を出力する文書処理装置において、文字
列の読みを表す読みデータを入力する入力手段と、該文
字列の読みデータに対応して、表記と読みが一致しない
部分の読みデータにおける位置を表す位置データと該部
分の表記を表わす表記データとを記憶する記憶手段と、
入力された文字列の読みデータに基づいて前記記憶手段
に記憶されたデータを検索し、表記と読みが一致しない
部分を表記データに置き代えて、入力された文字列の表
記データを作成する作成手段とを備えることを特徴とす
る。
【0016】ここで、前記位置データは、文字列の先頭
からの表記と読みの一致する文字数、あるいは文字列の
後尾からの表記と読みの一致する文字数を含む。また、
前記位置データは、更に前記表記と読みの一致する文字
数が文字列の先頭からか後尾からかを示すデータを含
む。また、前記位置データは、更に前記表記の文字種を
表すデータを含む。
からの表記と読みの一致する文字数、あるいは文字列の
後尾からの表記と読みの一致する文字数を含む。また、
前記位置データは、更に前記表記と読みの一致する文字
数が文字列の先頭からか後尾からかを示すデータを含
む。また、前記位置データは、更に前記表記の文字種を
表すデータを含む。
【0017】また、本発明の単語辞書は、文字列の読み
に対応して該文字列の表記を出力する文書処理装置にお
ける単語辞書であって、文字列の読みを表す読みデータ
に対応して、表記と読みが一致しない部分の読みデータ
における位置を表す位置データと、該部分の表記を表わ
す表記データとを記憶することを特徴とする。
に対応して該文字列の表記を出力する文書処理装置にお
ける単語辞書であって、文字列の読みを表す読みデータ
に対応して、表記と読みが一致しない部分の読みデータ
における位置を表す位置データと、該部分の表記を表わ
す表記データとを記憶することを特徴とする。
【0018】ここで、前記位置データは、文字列の先頭
からの表記と読みの一致する文字数、あるいは文字列の
後尾からの表記と読みの一致する文字数を含む。また、
前記位置データは、更に前記表記と読みの一致する文字
数が文字列の先頭からか後尾からかを示すデータを含
む。また、前記位置データは、更に前記表記の文字種を
表すデータを含む。
からの表記と読みの一致する文字数、あるいは文字列の
後尾からの表記と読みの一致する文字数を含む。また、
前記位置データは、更に前記表記と読みの一致する文字
数が文字列の先頭からか後尾からかを示すデータを含
む。また、前記位置データは、更に前記表記の文字種を
表すデータを含む。
【0019】また、本発明の文書処理装置は、検索デー
タとして文字列を入力する入力手段と、該文字列の先頭
から所定数の文字を見出しとして、該見出し文字を先頭
に含む文字列の記憶範囲を表すデータと検索されるデー
タとを記憶する記憶手段と、入力された文字列の先頭か
ら所定数の文字を見出しとして前記記憶範囲を表すデー
タを読み出し、前記記憶範囲を表すデータの示す範囲で
前記記憶手段で前記入力された文字列を検索する検索手
段とを備えることを特徴とする。
タとして文字列を入力する入力手段と、該文字列の先頭
から所定数の文字を見出しとして、該見出し文字を先頭
に含む文字列の記憶範囲を表すデータと検索されるデー
タとを記憶する記憶手段と、入力された文字列の先頭か
ら所定数の文字を見出しとして前記記憶範囲を表すデー
タを読み出し、前記記憶範囲を表すデータの示す範囲で
前記記憶手段で前記入力された文字列を検索する検索手
段とを備えることを特徴とする。
【0020】ここで、前記記憶範囲を表すデータは検索
されるデータ内にあって見出しからポイントされ、同じ
見出し文字を含む前方のデータの範囲を表し、前記検索
手段は前記記憶範囲を表すデータ前方及び後方の同じ見
出し文字を含むデータを検索する。
されるデータ内にあって見出しからポイントされ、同じ
見出し文字を含む前方のデータの範囲を表し、前記検索
手段は前記記憶範囲を表すデータ前方及び後方の同じ見
出し文字を含むデータを検索する。
【0021】また、本発明の単語辞書は、入力された文
字列に基づいてデータを検索する文書処理装置の単語辞
書であって、検索されるデータと、所定数の文字からな
る見出しと、前記検索されるデータ内にあって該見出し
からポイントされ、同じ見出し文字を含む前方のデータ
の範囲を表すデータとを記憶することを特徴とする。
字列に基づいてデータを検索する文書処理装置の単語辞
書であって、検索されるデータと、所定数の文字からな
る見出しと、前記検索されるデータ内にあって該見出し
からポイントされ、同じ見出し文字を含む前方のデータ
の範囲を表すデータとを記憶することを特徴とする。
【0022】
【実施例】以下、本発明の実施例を図面を参照して説明
する。
する。
【0023】本実施例の文書処理装置のシステム構成は
図4のブロック図と同様である。
図4のブロック図と同様である。
【0024】(実施例1)本実施例の文書処理装置にお
ける単語辞書2aの例を図1に示す。
ける単語辞書2aの例を図1に示す。
【0025】本実施例の単語辞書2aは、複数のデータ
ブロックが存在し、データブロックに収容されている読
みデータと表記データと、読みデータと表記データの一
致文字数を示す文字数情報と一致情報と見なされる表記
データの文字種情報と一致情報と表記データの前後関係
を示す前後情報からなる一致情報とから構成されてい
る。
ブロックが存在し、データブロックに収容されている読
みデータと表記データと、読みデータと表記データの一
致文字数を示す文字数情報と一致情報と見なされる表記
データの文字種情報と一致情報と表記データの前後関係
を示す前後情報からなる一致情報とから構成されてい
る。
【0026】次に、図1に示す単語辞書2aについて具
体的に説明する。以下では文字コードとしてJISコー
ドを例にとって説明するが、1文字2バイトの他のコー
ドであってもよい。
体的に説明する。以下では文字コードとしてJISコー
ドを例にとって説明するが、1文字2バイトの他のコー
ドであってもよい。
【0027】単語『かむちゃつかはんとう』の表記は、
「カムチャツカ+半島」となり、一致情報は、「カムチ
ャツカ」の部分を代用することにすると、一致文字数は
6、文字種情報はカタカナ、前後情報は前となる。従っ
て、図2に示すように一致情報を1バイトで示すと図2
のように0×26となる。
「カムチャツカ+半島」となり、一致情報は、「カムチ
ャツカ」の部分を代用することにすると、一致文字数は
6、文字種情報はカタカナ、前後情報は前となる。従っ
て、図2に示すように一致情報を1バイトで示すと図2
のように0×26となる。
【0028】読みや表記をJISコードで格納した場
合、図1に示すデータが格納されていると、読み『かむ
ちゃつかはんとう』(20バイト)、表記『半島』(4
バイト)、一致情報(1バイト)で全部で25バイトと
なり、図5に示した従来例より11バイト減少する。全
体の単語辞書2aサイズを図1と図5で比較すると、従
来の単語辞書2aサイズは146バイト、本実施例の単
語辞書2aは99バイトなので、本実施例の単語辞書2
aは37バイト小さくなる。
合、図1に示すデータが格納されていると、読み『かむ
ちゃつかはんとう』(20バイト)、表記『半島』(4
バイト)、一致情報(1バイト)で全部で25バイトと
なり、図5に示した従来例より11バイト減少する。全
体の単語辞書2aサイズを図1と図5で比較すると、従
来の単語辞書2aサイズは146バイト、本実施例の単
語辞書2aは99バイトなので、本実施例の単語辞書2
aは37バイト小さくなる。
【0029】本実施例の一致情報を用いることで、以下
に示す単語表記パターンについて単語サイズの削減を行
うことが可能である。カタカナ+ひらがな,カタカ
ナ+漢字,ひらがな+カタカナ,ひらがな+漢字,
漢字+ひらがな,漢字+カタカナ また、図3のステップS130に示すデータ検索処理に
おいて、従来の単語辞書2aよりも、データブロック内
に格納される単語数が増加するため、検索先のブロック
の変更を行う回数が減少する。そのため単語の検索時間
が削減できる。以上説明したように、本実施例によれ
ば、図2に示す一致情報を付加することで、単語辞書2
aサイズを減少させ、データブロック内の格納語数を増
加するため、検索先のブロックの変更を行う回数が減少
する。そのため、単語の検索時間が削減できる。また、
本実施例の一致情報を用いることで、以下に示す単語表
記パターンについて単語サイズの削減を行うことが可能
となる。カタカナ+ひらがな,カタカナ+漢字,
ひらがな+カタカナ,ひらがな+漢字,漢字+ひら
がな,漢字+カタカナ (他の単語辞書例)本実施例の文書処理装置における他
の単語辞書2aの例を図6に示す。
に示す単語表記パターンについて単語サイズの削減を行
うことが可能である。カタカナ+ひらがな,カタカ
ナ+漢字,ひらがな+カタカナ,ひらがな+漢字,
漢字+ひらがな,漢字+カタカナ また、図3のステップS130に示すデータ検索処理に
おいて、従来の単語辞書2aよりも、データブロック内
に格納される単語数が増加するため、検索先のブロック
の変更を行う回数が減少する。そのため単語の検索時間
が削減できる。以上説明したように、本実施例によれ
ば、図2に示す一致情報を付加することで、単語辞書2
aサイズを減少させ、データブロック内の格納語数を増
加するため、検索先のブロックの変更を行う回数が減少
する。そのため、単語の検索時間が削減できる。また、
本実施例の一致情報を用いることで、以下に示す単語表
記パターンについて単語サイズの削減を行うことが可能
となる。カタカナ+ひらがな,カタカナ+漢字,
ひらがな+カタカナ,ひらがな+漢字,漢字+ひら
がな,漢字+カタカナ (他の単語辞書例)本実施例の文書処理装置における他
の単語辞書2aの例を図6に示す。
【0030】本実施例の単語辞書2aは、複数のデータ
ブロックが存在し、データブロックに収容されている読
みデータと表記データと、読みデータと表記データの一
致文字数を示す一致情報から構成されている。
ブロックが存在し、データブロックに収容されている読
みデータと表記データと、読みデータと表記データの一
致文字数を示す一致情報から構成されている。
【0031】図6に示す単語辞書2aを、従来の場合の
例(図7)と比較しながら説明する。単語の読みと表記
の後が一致した場合を、一致情報としてもつことにした
場合、単語『あけましておめでとう』の表記は、「明+
けましておめでとう」となり、「けましておめでとう」
の部分が読みと同じである。よって、一致情報は9とな
る。
例(図7)と比較しながら説明する。単語の読みと表記
の後が一致した場合を、一致情報としてもつことにした
場合、単語『あけましておめでとう』の表記は、「明+
けましておめでとう」となり、「けましておめでとう」
の部分が読みと同じである。よって、一致情報は9とな
る。
【0032】読みや表記をJISコードで格納した場
合、図6に示すデータが格納されていると、読み『あけ
ましておめでとう』(20バイト)、表記『明』(2バ
イト)、一致情報(1バイト)で全部で23バイトの領
域となる。従って、従来の40バイトより13バイト減
少する。以下、同様であり、同じ単語(データブロッ
ク)について全体の単語辞書2aサイズを比較すると
(図6,図7)、従来の単語辞書2aサイズは82バイ
ト、本実施例の単語辞書2aは53バイトなので本発明
の単語辞書2aは29バイト小さくなる。
合、図6に示すデータが格納されていると、読み『あけ
ましておめでとう』(20バイト)、表記『明』(2バ
イト)、一致情報(1バイト)で全部で23バイトの領
域となる。従って、従来の40バイトより13バイト減
少する。以下、同様であり、同じ単語(データブロッ
ク)について全体の単語辞書2aサイズを比較すると
(図6,図7)、従来の単語辞書2aサイズは82バイ
ト、本実施例の単語辞書2aは53バイトなので本発明
の単語辞書2aは29バイト小さくなる。
【0033】従って、データ検索処理をおこなった場
合、従来の単語辞書2aよりも、データブロック内に格
納される単語数が増加するため、検索先のブロックの変
更を行う回数が減少する。そのため単語の検索時間を削
減できる。
合、従来の単語辞書2aよりも、データブロック内に格
納される単語数が増加するため、検索先のブロックの変
更を行う回数が減少する。そのため単語の検索時間を削
減できる。
【0034】尚、単語の読みと表記の前が一致する場合
のみを纏めることにより、上記同様の効果が達成され
る。また、表記と読みの一致する読みにおける位置並び
に一致する文字数を文字数情報としてもつことで、読み
表記の一致する部分がどこにあってもよくなる。
のみを纏めることにより、上記同様の効果が達成され
る。また、表記と読みの一致する読みにおける位置並び
に一致する文字数を文字数情報としてもつことで、読み
表記の一致する部分がどこにあってもよくなる。
【0035】さらに、上記実施例では表記と読みの一致
に注目したが、不一致部分に注目しても結果は同じであ
る。
に注目したが、不一致部分に注目しても結果は同じであ
る。
【0036】(実施例2)本実施例の文書処理装置にお
ける単語辞書2aの例を図8に示す。図9はブロックリ
ンク情報のフォーマットを示す図である。また、使用し
たデータ検索処理を図10に例を挙げて説明する。
ける単語辞書2aの例を図8に示す。図9はブロックリ
ンク情報のフォーマットを示す図である。また、使用し
たデータ検索処理を図10に例を挙げて説明する。
【0037】本実施例の単語辞書2aは、複数のデータ
ブロックが存在し、データブロックに収容されている最
大先頭データより小サイズの固定長な索引と、データブ
ロックの前後のブロックとのリンク状態を示すブロック
リンク情報から構成されている。図8,図9に示す単語
辞書2aのブロックリンク情報について説明すると、ブ
ロックリンク情報はそのデータブロックの先頭単語と前
続ブロックの末尾単語のリンク状態と、また、そのデー
タブロックの末尾単語と後続ブロックの先頭単語のリン
ク状態を示す。従って、図8,図9に示すようにどのよ
うな関係でブロックがリンクしているかを示すことが可
能である。
ブロックが存在し、データブロックに収容されている最
大先頭データより小サイズの固定長な索引と、データブ
ロックの前後のブロックとのリンク状態を示すブロック
リンク情報から構成されている。図8,図9に示す単語
辞書2aのブロックリンク情報について説明すると、ブ
ロックリンク情報はそのデータブロックの先頭単語と前
続ブロックの末尾単語のリンク状態と、また、そのデー
タブロックの末尾単語と後続ブロックの先頭単語のリン
ク状態を示す。従って、図8,図9に示すようにどのよ
うな関係でブロックがリンクしているかを示すことが可
能である。
【0038】具体的な例としては、図8において、デー
タブロック1のブロックリンク情報は、末尾単語『こう
きょ』と前続ブロック(データブロック2)の先頭単語
『こうきょ』より、同見出し語が後続ブロックに存在と
なり0×01となる。
タブロック1のブロックリンク情報は、末尾単語『こう
きょ』と前続ブロック(データブロック2)の先頭単語
『こうきょ』より、同見出し語が後続ブロックに存在と
なり0×01となる。
【0039】データブロック2のブロックリンク情報
は、末尾単語『こうしきてにす』と後続ブロック(デー
タブロック3)の先頭単語『こうしきやきゅう』より、
読み4文字が同じ見出し語が後続ブロックに存在すると
いうリンク情報がたち、先頭単語『こうきょ』と前続ブ
ロックの末尾単語『こうきょ』より、同見出し語が前続
ブロックに存在するというリンク情報が存在するため0
×06となる。
は、末尾単語『こうしきてにす』と後続ブロック(デー
タブロック3)の先頭単語『こうしきやきゅう』より、
読み4文字が同じ見出し語が後続ブロックに存在すると
いうリンク情報がたち、先頭単語『こうきょ』と前続ブ
ロックの末尾単語『こうきょ』より、同見出し語が前続
ブロックに存在するというリンク情報が存在するため0
×06となる。
【0040】次に、図10を用いてデータ検索処理につ
いて説明する。
いて説明する。
【0041】ステップS300で、『こうしき』がキー
ボード4より入力されると、ステップS310におい
て、記憶装置2に存在する単語の検索を中央処理装置1
にアクセスする。そして、検索データは、『こうしき』
であるため、索引3『こうしき』と同じになり検索ブロ
ックはデータブロック3に設定される。ステップS32
0で、記憶装置2に存在する単語辞書2aのデータブロ
ック3が中央処理装置1にアクセスされる。データブロ
ック3において、データ『こうしき』がステップS33
0で検索される。ステップS140では、データブロッ
ク3にデータが存在しているかどうか判定を行う。存在
しない場合、ブロックリンク情報を参照しリンクしてい
る場合はリンクブロックを抽出する(ステップS36
0)。この場合、データブロック3には『こうしき』が
存在しないため、ブロックリンク情報を参照し前続ブロ
ック(データブロック2)が抽出される。再度、ステッ
プS330に文字り、データブロック2において『こう
しき』が抽出され、ステップS170でデータ保存を行
う。
ボード4より入力されると、ステップS310におい
て、記憶装置2に存在する単語の検索を中央処理装置1
にアクセスする。そして、検索データは、『こうしき』
であるため、索引3『こうしき』と同じになり検索ブロ
ックはデータブロック3に設定される。ステップS32
0で、記憶装置2に存在する単語辞書2aのデータブロ
ック3が中央処理装置1にアクセスされる。データブロ
ック3において、データ『こうしき』がステップS33
0で検索される。ステップS140では、データブロッ
ク3にデータが存在しているかどうか判定を行う。存在
しない場合、ブロックリンク情報を参照しリンクしてい
る場合はリンクブロックを抽出する(ステップS36
0)。この場合、データブロック3には『こうしき』が
存在しないため、ブロックリンク情報を参照し前続ブロ
ック(データブロック2)が抽出される。再度、ステッ
プS330に文字り、データブロック2において『こう
しき』が抽出され、ステップS170でデータ保存を行
う。
【0042】よって、索引を固定長にすることで索引部
のメモリサイズが小さくなり従来の単語辞書2a構造で
は検索できなかったが、ブロックリンク情報を付加する
ことで、索引部のメモリサイズを少なくし検索ミスを防
ぐことができる。
のメモリサイズが小さくなり従来の単語辞書2a構造で
は検索できなかったが、ブロックリンク情報を付加する
ことで、索引部のメモリサイズを少なくし検索ミスを防
ぐことができる。
【0043】尚、本発明は、複数の機器から構成される
システムに適用しても、1つの機器から成る装置に適用
しても良い。また、本発明はシステム或は装置にプログ
ラムを供給することによって達成される場合にも適用で
きることは言うまでもない。
システムに適用しても、1つの機器から成る装置に適用
しても良い。また、本発明はシステム或は装置にプログ
ラムを供給することによって達成される場合にも適用で
きることは言うまでもない。
【0044】
【発明の効果】本発明により、各単語に対する記憶デー
タ量を削減して、高速に文字列の読みに対応して該文字
列の表記を出力する文書処理装置及びその単語辞書を提
供できる。また、検索部のメモリサイズを小さくしても
確実に存在しているデータを検索できる文書処理装置及
びその単語辞書を提供できる。
タ量を削減して、高速に文字列の読みに対応して該文字
列の表記を出力する文書処理装置及びその単語辞書を提
供できる。また、検索部のメモリサイズを小さくしても
確実に存在しているデータを検索できる文書処理装置及
びその単語辞書を提供できる。
【図1】実施例1の文書処理装置における単語辞書2a
の構造図である。
の構造図である。
【図2】実施例1の一致情報のフォーマットを示す図で
ある。
ある。
【図3】本実施例の読みから表記への変換処理を示すフ
ローチャートである。
ローチャートである。
【図4】本実施例の文書処理装置の構成の一例を示すブ
ロック図である。
ロック図である。
【図5】従来例の文書処理装置における単語辞書2aの
構造例を示す図である。
構造例を示す図である。
【図6】実施例1の文書処理装置における単語辞書2a
の他の構造例を示す図である。
の他の構造例を示す図である。
【図7】従来例の文書処理装置における単語辞書2aの
構造例を示す図である。
構造例を示す図である。
【図8】実施例2のデータブロック,ブロックリンク情
報,索引の構造を説明するための図である。
報,索引の構造を説明するための図である。
【図9】ブロックリンク情報のフォーマットを説明する
ための図である。
ための図である。
【図10】実施例2を説明するためのフローチャートで
ある。
ある。
【図11】索引の長さにデータブロックの先頭データの
中の最大長をとった従来例を示す図である。
中の最大長をとった従来例を示す図である。
【図12】従来例を説明するためのフローチャートであ
る。
る。
【図13】索引の長さにデータブロックの先頭データの
中の最大長より小さくとった従来例である。
中の最大長より小さくとった従来例である。
フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 8125−5L G06F 15/38 C 9194−5L 15/40 370 J 9194−5L 15/403 350 A
Claims (11)
- 【請求項1】 文字列の読みに対応して該文字列の表記
を出力する文書処理装置において、 文字列の読みを表す読みデータを入力する入力手段と、 該文字列の読みデータに対応して、表記と読みが一致し
ない部分の読みデータにおける位置を表す位置データと
該部分の表記を表わす表記データとを記憶する記憶手段
と、 入力された文字列の読みデータに基づいて前記記憶手段
に記憶されたデータを検索し、表記と読みが一致しない
部分を表記データに置き代えて、入力された文字列の表
記データを作成する作成手段とを備えることを特徴とす
る文書処理装置。 - 【請求項2】 前記位置データは、文字列の先頭からの
表記と読みの一致する文字数、あるいは文字列の後尾か
らの表記と読みの一致する文字数を含むことを特徴とす
る請求項1記載の文書処理装置。 - 【請求項3】 前記位置データは、更に前記表記と読み
の一致する文字数が文字列の先頭からか後尾からかを示
すデータを含むことを特徴とする請求項2記載の文書処
理装置。 - 【請求項4】 前記位置データは、更に前記表記の文字
種を表すデータを含むことを特徴とする請求項2または
3記載の文書処理装置。 - 【請求項5】 文字列の読みに対応して該文字列の表記
を出力する文書処理装置における単語辞書であって、 文字列の読みを表す読みデータに対応して、 表記と読みが一致しない部分の読みデータにおける位置
を表す位置データと、 該部分の表記を表わす表記データとを記憶することを特
徴とする単語辞書。 - 【請求項6】 前記位置データは、文字列の先頭からの
表記と読みの一致する文字数、あるいは文字列の後尾か
らの表記と読みの一致する文字数を含むことを特徴とす
る請求項5記載の単語辞書。 - 【請求項7】 前記位置データは、更に前記表記と読み
の一致する文字数が文字列の先頭からか後尾からかを示
すデータを含むことを特徴とする請求項6記載の単語辞
書。 - 【請求項8】 前記位置データは、更に前記表記の文字
種を表すデータを含むことを特徴とする請求項6または
7記載の単語辞書。 - 【請求項9】 検索データとして文字列を入力する入力
手段と、 該文字列の先頭から所定数の文字を見出しとして、該見
出し文字を先頭に含む文字列の記憶範囲を表すデータと
検索されるデータとを記憶する記憶手段と、 入力された文字列の先頭から所定数の文字を見出しとし
て前記記憶範囲を表すデータを読み出し、前記記憶範囲
を表すデータの示す範囲で前記記憶手段で前記入力され
た文字列を検索する検索手段とを備えることを特徴とす
る文書処理装置。 - 【請求項10】 前記記憶範囲を表すデータは検索され
るデータ内にあって見出しからポイントされ、同じ見出
し文字を含む前方のデータの範囲を表し、 前記検索手段は前記記憶範囲を表すデータ前方及び後方
の同じ見出し文字を含むデータを検索することを特徴と
する請求項9記載の文書処理装置。 - 【請求項11】 入力された文字列に基づいてデータを
検索する文書処理装置の単語辞書であって、 検索されるデータと、 所定数の文字からなる見出しと、 前記検索されるデータ内にあって該見出しからポイント
され、同じ見出し文字を含む前方のデータの範囲を表す
データとを記憶することを特徴とする単語辞書。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5279195A JPH07129576A (ja) | 1993-11-09 | 1993-11-09 | 文書処理装置及びその単語辞書 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5279195A JPH07129576A (ja) | 1993-11-09 | 1993-11-09 | 文書処理装置及びその単語辞書 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH07129576A true JPH07129576A (ja) | 1995-05-19 |
Family
ID=17607764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5279195A Withdrawn JPH07129576A (ja) | 1993-11-09 | 1993-11-09 | 文書処理装置及びその単語辞書 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH07129576A (ja) |
-
1993
- 1993-11-09 JP JP5279195A patent/JPH07129576A/ja not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5099426A (en) | Method for use of morphological information to cross reference keywords used for information retrieval | |
JP3152868B2 (ja) | 検索装置および辞書/テキスト検索方法 | |
US6470347B1 (en) | Method, system, program, and data structure for a dense array storing character strings | |
US5655129A (en) | Character-string retrieval system and method | |
US7290001B2 (en) | Identification and enumeration of data components in a trie | |
US4775956A (en) | Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes | |
EP0293161B1 (en) | Character processing system with spelling check function | |
JP3003915B2 (ja) | 単語辞書検索装置 | |
US5560037A (en) | Compact hyphenation point data | |
US6470334B1 (en) | Document retrieval apparatus | |
JP3333549B2 (ja) | 文書検索方式 | |
JPS6033665A (ja) | キ−ワ−ド自動抽出方式 | |
JPH07129576A (ja) | 文書処理装置及びその単語辞書 | |
JP3728264B2 (ja) | インデックス作成装置、検索システム、及び制御方法 | |
JP3459049B2 (ja) | 文字列検索方法およひ装置 | |
JPH0140372B2 (ja) | ||
JPH07225761A (ja) | 文書データの一致検証方式 | |
JP2990312B2 (ja) | データアクセス方法および装置 | |
JP2000076254A (ja) | キーワード抽出装置、このキーワード抽出装置を用いた類似文献検索装置、キーワード抽出方法及び記録媒体 | |
JP3360308B2 (ja) | 文字列検索方法および装置 | |
JP3585944B2 (ja) | データ処理方法及びその装置 | |
JP2975529B2 (ja) | 電子化辞書検索装置 | |
JP3017095B2 (ja) | 外字登録管理方法 | |
JP3127969B2 (ja) | 辞書記憶装置 | |
JPH0991304A (ja) | 情報検索方法、情報検索システム及び情報検索用記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20010130 |