JPH04114278A - 文字列比較方式 - Google Patents
文字列比較方式Info
- Publication number
- JPH04114278A JPH04114278A JP2233289A JP23328990A JPH04114278A JP H04114278 A JPH04114278 A JP H04114278A JP 2233289 A JP2233289 A JP 2233289A JP 23328990 A JP23328990 A JP 23328990A JP H04114278 A JPH04114278 A JP H04114278A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- character
- sound
- sounds
- comparison
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims description 89
- 235000016496 Panda oleosa Nutrition 0.000 abstract 9
- 240000000220 Panda oleosa Species 0.000 abstract 9
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は、日本語文字列データの比較方式に係り、特に
、辞書順の日本語文字列データの比較方式に関する。
、辞書順の日本語文字列データの比較方式に関する。
従来、複数の日本語文字列データを比較してサーチまた
はソートする場合、各文字列データを所定のコードデー
タに変換し、このコードデータの大小関係に応じて比較
を行なっていた。しかし、この方法で比較した結果は、
第2図に示すように、辞書順とは一致しない場合があっ
た。
はソートする場合、各文字列データを所定のコードデー
タに変換し、このコードデータの大小関係に応じて比較
を行なっていた。しかし、この方法で比較した結果は、
第2図に示すように、辞書順とは一致しない場合があっ
た。
このため、日本語文字列を辞書順で比較整列する方法が
発明された。この比較整列方式に関連した公知例には特
開昭60−81639号公報が挙げられる。
発明された。この比較整列方式に関連した公知例には特
開昭60−81639号公報が挙げられる。
上記従来技術は、日本語文字列データの辞書順の比較方
式、特に、ソートについて考案されたものであり、サー
チについては考慮されていなかった。さらに、処理中、
中間ファイルや中間コートを生成しているので処理速度
の点に問題があると考えられる。
式、特に、ソートについて考案されたものであり、サー
チについては考慮されていなかった。さらに、処理中、
中間ファイルや中間コートを生成しているので処理速度
の点に問題があると考えられる。
また、上記従来技術は、−バイトコートのカタカナ文字
列データの辞書順比較についても考慮されていなかった
。
列データの辞書順比較についても考慮されていなかった
。
本発明の目的は、従来技術の問題を改善し、ソートとサ
ーチの両方に適用できる。高速な日本語文字列データの
辞書順の比較方式を提供することにある。
ーチの両方に適用できる。高速な日本語文字列データの
辞書順の比較方式を提供することにある。
本発明の他の目的は、−バイトコートの日本語文字列デ
ータを辞書順で比較する方式を提供することにある。
ータを辞書順で比較する方式を提供することにある。
上記目的は比較の対象となる文字列を清音に変換する手
段と、変換後の文字コードを五十音で比較する手段と、
促音、濁音、半濁音、長音、カタカナ、清音などの特徴
から辞書順の比較を行なう手段とを具備することにより
達成できる。それぞれの処理は先頭から一文字づつ行な
い、順位の判定ができしだい終了する。
段と、変換後の文字コードを五十音で比較する手段と、
促音、濁音、半濁音、長音、カタカナ、清音などの特徴
から辞書順の比較を行なう手段とを具備することにより
達成できる。それぞれの処理は先頭から一文字づつ行な
い、順位の判定ができしだい終了する。
また、他の目的は、−バイトコードを二バイトコードに
変換し、その後上記辞書順比較を行なえば達成できる。
変換し、その後上記辞書順比較を行なえば達成できる。
本発明の辞書順比較方式では、日本語文字列データの先
頭文字から一文字づつ比較して行き、文字列の途中でも
辞書順の判定が可能であればそこで処理を終了するので
、文字列の長さに依存せずに文字列比較の高速化が図れ
、サーチやソートなどに適用することができる。
頭文字から一文字づつ比較して行き、文字列の途中でも
辞書順の判定が可能であればそこで処理を終了するので
、文字列の長さに依存せずに文字列比較の高速化が図れ
、サーチやソートなどに適用することができる。
また、本発明の手法では、−バイトコードから二バイト
コードへの変換を行なっている。これにより、濁音、半
濁音の文字の表現に二バイトのコードを必要とし、また
促音の文字のコードの順序が、二バイトコードのように
、辞書順になっていない一バイトコードのカタカナ文字
列データの辞書順の比較整列を容易にした。
コードへの変換を行なっている。これにより、濁音、半
濁音の文字の表現に二バイトのコードを必要とし、また
促音の文字のコードの順序が、二バイトコードのように
、辞書順になっていない一バイトコードのカタカナ文字
列データの辞書順の比較整列を容易にした。
以下、本発明の実施例を図を用いて説明する。
第1図は本発明の第一の実施例を示すフローチャートで
ある。本実施例では、JIS C6226のひらがな
、およびカタカナ文字列の辞書順の比較方式について記
す。比較の対象となる二つの文字列A、Bが入力され1
文字列Aが文字列Bより辞書順で先の場合は′″1″を
、文字列A、 Bが同じ場合はII OIIを、それ以
外は゛−1′″を出力する。
ある。本実施例では、JIS C6226のひらがな
、およびカタカナ文字列の辞書順の比較方式について記
す。比較の対象となる二つの文字列A、Bが入力され1
文字列Aが文字列Bより辞書順で先の場合は′″1″を
、文字列A、 Bが同じ場合はII OIIを、それ以
外は゛−1′″を出力する。
1では比較の対象となる二つの文字列A、 Bを入力す
る。以下の処理については二つの文字列A、Bに対して
並列に一文字づつ行なうものとする。
る。以下の処理については二つの文字列A、Bに対して
並列に一文字づつ行なうものとする。
2ではカウンターnを1に初期化する。3ではn文字目
が促音、濁音、半濁音、長音、カタカナの場合、これら
を第3図に示すように、ひらがなの清音に変換し、その
文字コードを出力する。長音の場合は、一つ前の文字の
母音に変換して出力する0本実施例では促音、濁音、半
濁音、カタカナから清音へ変換するために、配列を用い
ている。
が促音、濁音、半濁音、長音、カタカナの場合、これら
を第3図に示すように、ひらがなの清音に変換し、その
文字コードを出力する。長音の場合は、一つ前の文字の
母音に変換して出力する0本実施例では促音、濁音、半
濁音、カタカナから清音へ変換するために、配列を用い
ている。
この場合、配列の添字と変換前の文字コードとを関連付
けて、配列の中身に変換後の文字コード(JIS C
6226)を書き込む。第4図に詳細を示す。変換前の
文字コードと配列の添字を関連付けるために、変換した
い文字の文字コードと829fH(五十音順の最初の文
字″あ″の文字コート)との差分をとり、これを配列の
添字とする。そしてこの配列の中身に変換後の文字コー
ドを格納する。従って変換の際は、変換したい文字の文
字コードと829 f Hとの差分を添字として与え、
この添字に対応する配列の中身を変換後の文字コードと
して受は取れば清音への変換が行なえる。4では、3の
処理で出力されたn文字目の清音変換後の文字コードの
大きさを比較する。
けて、配列の中身に変換後の文字コード(JIS C
6226)を書き込む。第4図に詳細を示す。変換前の
文字コードと配列の添字を関連付けるために、変換した
い文字の文字コードと829fH(五十音順の最初の文
字″あ″の文字コート)との差分をとり、これを配列の
添字とする。そしてこの配列の中身に変換後の文字コー
ドを格納する。従って変換の際は、変換したい文字の文
字コードと829 f Hとの差分を添字として与え、
この添字に対応する配列の中身を変換後の文字コードと
して受は取れば清音への変換が行なえる。4では、3の
処理で出力されたn文字目の清音変換後の文字コードの
大きさを比較する。
ここで両者の文字コードに相違があれば、その時点で辞
書順位をつけることができるので、8で結果を出力して
処理を終了する。この時、文字列AのコードがBより小
さければ1′″を、文字列AがBより大きければ”−1
″を出力する。両者とも文字コードが一致していれば、
次の処理5に移る。5では、現在処理している文字が文
字列の最後かどうかを判定する。もしどちらかの文字列
が最後であれば、辞書順位をつけることができるので8
で結果を出力して処理を終了する6文字列Aの方が短け
れば11111を、文字列Bの方が短ければ−1”を出
力する。両者とも最後の文字でなければ、6でカウンタ
ーnに1を加えて次の文字について、処理3.4.5を
繰り返す0両者とも最後の文字(文字列の長さが同じ)
であれば、処理2′に移る。2′では、文字列の先頭か
ら処理を行なうため、カウンタnを1に初期化する。4
′では、n文字目の変換前のデータを比較する。この処
理で両者に不一致が見られれば、7に処理を移す。両者
が一致していれば、5′に移り文字列の最後かどうかを
判定する(処理5で文字列A、B)が同じ長さであるこ
とがわかっているので、処理5′では文字列Aのみにつ
いて調べれば良い)。最後であれば文字列A、Bは等し
いことがわかるので、8で2′O”を出力して処理を終
了する。
書順位をつけることができるので、8で結果を出力して
処理を終了する。この時、文字列AのコードがBより小
さければ1′″を、文字列AがBより大きければ”−1
″を出力する。両者とも文字コードが一致していれば、
次の処理5に移る。5では、現在処理している文字が文
字列の最後かどうかを判定する。もしどちらかの文字列
が最後であれば、辞書順位をつけることができるので8
で結果を出力して処理を終了する6文字列Aの方が短け
れば11111を、文字列Bの方が短ければ−1”を出
力する。両者とも最後の文字でなければ、6でカウンタ
ーnに1を加えて次の文字について、処理3.4.5を
繰り返す0両者とも最後の文字(文字列の長さが同じ)
であれば、処理2′に移る。2′では、文字列の先頭か
ら処理を行なうため、カウンタnを1に初期化する。4
′では、n文字目の変換前のデータを比較する。この処
理で両者に不一致が見られれば、7に処理を移す。両者
が一致していれば、5′に移り文字列の最後かどうかを
判定する(処理5で文字列A、B)が同じ長さであるこ
とがわかっているので、処理5′では文字列Aのみにつ
いて調べれば良い)。最後であれば文字列A、Bは等し
いことがわかるので、8で2′O”を出力して処理を終
了する。
そうでなければカウンタnに1を加えて次の文字につい
て処理4″を繰り返す、7では、二つの文字について辞
書順位の判定を行なう。−船釣には、辞書順は促音、清
音、濁音、半濁音、長音、カタカナの順になる。この規
則に応じて8で結果が出力される。もし、文字列Aが半
濁音、Bが清音ならII I IIが出力される。
て処理4″を繰り返す、7では、二つの文字について辞
書順位の判定を行なう。−船釣には、辞書順は促音、清
音、濁音、半濁音、長音、カタカナの順になる。この規
則に応じて8で結果が出力される。もし、文字列Aが半
濁音、Bが清音ならII I IIが出力される。
次に第5図に示す例を用いて本発明の文字列比較方式に
ついて説明する。第5図中、清音変換後のデータとは、
第1図のフローチャートの3の処理結果に対応する。実
際の処理では、−文字づつ処理するのであるが第5図に
はまとめて表示している。また、処理経路に書かれてい
る数字は、第1図のフローチャートの処理の番号に対応
している。第4図では二つの例を示している。一つめの
例は、文字列A ”ジスマーク′″と文字列B″しずま
る”についてである。第1図のフローチャートに沿って
みていくと、n=1の時、処理3では文字列Aの″ジ″
をシ”に変換する。処理4では両者ともIlシ11で一
致しているので処理5に移る。
ついて説明する。第5図中、清音変換後のデータとは、
第1図のフローチャートの3の処理結果に対応する。実
際の処理では、−文字づつ処理するのであるが第5図に
はまとめて表示している。また、処理経路に書かれてい
る数字は、第1図のフローチャートの処理の番号に対応
している。第4図では二つの例を示している。一つめの
例は、文字列A ”ジスマーク′″と文字列B″しずま
る”についてである。第1図のフローチャートに沿って
みていくと、n=1の時、処理3では文字列Aの″ジ″
をシ”に変換する。処理4では両者ともIlシ11で一
致しているので処理5に移る。
処理5では両者とも最後の文字ではないので処理6に移
る。n=2.3については第5図かられかるように、清
音変換後のデータは等しいので同様の動作を繰り返す。
る。n=2.3については第5図かられかるように、清
音変換後のデータは等しいので同様の動作を繰り返す。
n=4の時、処理3で文字列Aの四文字目は長音なので
三文字目の″マ″の母音″あ”に変換する。文字列Bは
”る”なので両者不一致となり処理8に移る0文字列A
の″あ″とBの″る″を比較してAの方が文字コードが
小さいので++ll+を出力する。この結果より、辞書
順では″ジスマーク″がシずまる”より先にくることが
わかる。
三文字目の″マ″の母音″あ”に変換する。文字列Bは
”る”なので両者不一致となり処理8に移る0文字列A
の″あ″とBの″る″を比較してAの方が文字コードが
小さいので++ll+を出力する。この結果より、辞書
順では″ジスマーク″がシずまる”より先にくることが
わかる。
二つめの例は、文字列A″しせい”とB IIじせい”
についてである、n=1.2.3の時、処理3.4.5
の繰り返しでは比較の結果はでないので、処理2′に移
る。n=1の時、文字列Aは”し″、Bは″じ″で両者
不一致なので、処理7に移る。文字列AのjlシTIは
清音、Bの″じ”は濁音なので、処理8では′″1″が
出力される。従って、辞書順ではシせい″は”じせい′
″より前にくることがわかる。
についてである、n=1.2.3の時、処理3.4.5
の繰り返しでは比較の結果はでないので、処理2′に移
る。n=1の時、文字列Aは”し″、Bは″じ″で両者
不一致なので、処理7に移る。文字列AのjlシTIは
清音、Bの″じ”は濁音なので、処理8では′″1″が
出力される。従って、辞書順ではシせい″は”じせい′
″より前にくることがわかる。
本発明の日本語文字列比較方法によれば、文字単位で処
理をでき、また特別な中間コードや中間ファイルを生成
していないので、高速な辞書順比較処理を実現できる1
本実施例では清音変換の変換後の文字コートとして、J
ISC6226を用いたが、この代わりにJISC62
20を用いれば、清音変換用配列の容量を半分にできる
ため、ワークエリアをより削減できる。
理をでき、また特別な中間コードや中間ファイルを生成
していないので、高速な辞書順比較処理を実現できる1
本実施例では清音変換の変換後の文字コートとして、J
ISC6226を用いたが、この代わりにJISC62
20を用いれば、清音変換用配列の容量を半分にできる
ため、ワークエリアをより削減できる。
第6図は本発明の第二の実施例を示すフローチャートで
ある。本発明の第二の実施例では、第一の実施例で示し
た辞書順の日本語文字列比較方式を用いたソート方法に
ついて説明する。本実施例ではソートの一例としてバブ
ル法を用いる。ソートするデータは配列に格納されてい
るものとする。
ある。本発明の第二の実施例では、第一の実施例で示し
た辞書順の日本語文字列比較方式を用いたソート方法に
ついて説明する。本実施例ではソートの一例としてバブ
ル法を用いる。ソートするデータは配列に格納されてい
るものとする。
第6図中、フラッグ(f l a g)はデータの入れ
替えが起こったかどうかを示すフラグであり、nは配列
の添字を示す。2IではフラッグをOにクリアする。2
2ではnをOにクリアする。23ではn番目とn+1番
目のデータを用意する。24でもしn+1番目のデータ
が存在しなかったら、データの最後まできたことになり
、処理を30に移す、それ以外は25に移る。25では
第一の実施例で示したような手順で辞書順の文字列比較
を行なう。このo、7、文字列Aにn番目のデータを1
文字列Bにn + 1番目のデータを入力する。26で
は25の処理結果に応した条件分けを行なっている。も
し、25の出力が11111かII OIIの場合、現
状のn番目とn+]−番目のデータの並び方が辞書順に
なっているということなので、なにもせずに29に処理
を移す。25の出力がII I IIの場合、データ
の並び方が逆なので、27でn番目とn + 1番目の
データの入れ替えを行なう。28ではデータの入れ替え
が起こったことを示すためにフラッグに1をセットし、
29に処理を移す。29ではnに1を加える。24でも
しn+1番目のデータが存在しなかったら処理30に移
る。30ではフラッグのチエツクを行なう。もし、フラ
ッグが1なら、まだソートが完!していないということ
なので処理を21から繰り返す。フラッグがOなら処理
を終了する。
替えが起こったかどうかを示すフラグであり、nは配列
の添字を示す。2IではフラッグをOにクリアする。2
2ではnをOにクリアする。23ではn番目とn+1番
目のデータを用意する。24でもしn+1番目のデータ
が存在しなかったら、データの最後まできたことになり
、処理を30に移す、それ以外は25に移る。25では
第一の実施例で示したような手順で辞書順の文字列比較
を行なう。このo、7、文字列Aにn番目のデータを1
文字列Bにn + 1番目のデータを入力する。26で
は25の処理結果に応した条件分けを行なっている。も
し、25の出力が11111かII OIIの場合、現
状のn番目とn+]−番目のデータの並び方が辞書順に
なっているということなので、なにもせずに29に処理
を移す。25の出力がII I IIの場合、データ
の並び方が逆なので、27でn番目とn + 1番目の
データの入れ替えを行なう。28ではデータの入れ替え
が起こったことを示すためにフラッグに1をセットし、
29に処理を移す。29ではnに1を加える。24でも
しn+1番目のデータが存在しなかったら処理30に移
る。30ではフラッグのチエツクを行なう。もし、フラ
ッグが1なら、まだソートが完!していないということ
なので処理を21から繰り返す。フラッグがOなら処理
を終了する。
以上示したように、本実施例によれば第一の実施例で示
した文字列比較方式をソートに適用でき、かつ、処理の
高速化、ワークエリアの低減を図ることができる。
した文字列比較方式をソートに適用でき、かつ、処理の
高速化、ワークエリアの低減を図ることができる。
第7図は本発明の第三の実施例を示すフローチャートで
ある。本発明の第三の実施例では、第一の実施例で示し
た辞書順の日本語文字列比較方式を用いたサーチ方法に
ついて説明する。サーチしたい文字列は文字列Aに入力
し、文字列Bにはサーチの対象となる文字列群から一つ
づつ文字列を入力する。サーチの対象となる文字列群は
配列に格納されており、あらかじめ辞書順にソートされ
ているものとする。サーチした結果、完全一致の場合は
その文字列と配列の添字nを、−eしなかった場合は辞
書順で文字列Aの次にくる文字列とその添字nを出力す
る。41ではサーチしたい文字列を文字列Aに入力する
。42では添字nをOにクリアする。43ではサーチの
対象となる文字列群の中から、文字列Bにn番目の文字
列を入力する。
ある。本発明の第三の実施例では、第一の実施例で示し
た辞書順の日本語文字列比較方式を用いたサーチ方法に
ついて説明する。サーチしたい文字列は文字列Aに入力
し、文字列Bにはサーチの対象となる文字列群から一つ
づつ文字列を入力する。サーチの対象となる文字列群は
配列に格納されており、あらかじめ辞書順にソートされ
ているものとする。サーチした結果、完全一致の場合は
その文字列と配列の添字nを、−eしなかった場合は辞
書順で文字列Aの次にくる文字列とその添字nを出力す
る。41ではサーチしたい文字列を文字列Aに入力する
。42では添字nをOにクリアする。43ではサーチの
対象となる文字列群の中から、文字列Bにn番目の文字
列を入力する。
44ではn番目のデータが存在するかどうかを調べる。
n番目のデータが存在しない場合は、最後のデータが辞
書順では一番近いことになるのでこれを出力する。n番
目のデータが存在する場合は45に処理を移す。45で
は第一の実施例で示した手順で1文字列Aと文字列Bに
ついて辞書順の文字列比較を行い、その結果に応して1
1 11″ IIQlllllllを出力する。46で
はl I IIが出力されたかどうかのチエツクを行
なう。もし処理45の出力がI I ITなら1文字
列Aは文字列Bより辞書順で後にくるということなので
、47でnに1を加えて、43から再び繰り返す。続い
て47でも45の比較結果がII O11かどうかのチ
エツクを行なう。45の出力がII OIIなら、完全
一致であることがわかる。
書順では一番近いことになるのでこれを出力する。n番
目のデータが存在する場合は45に処理を移す。45で
は第一の実施例で示した手順で1文字列Aと文字列Bに
ついて辞書順の文字列比較を行い、その結果に応して1
1 11″ IIQlllllllを出力する。46で
はl I IIが出力されたかどうかのチエツクを行
なう。もし処理45の出力がI I ITなら1文字
列Aは文字列Bより辞書順で後にくるということなので
、47でnに1を加えて、43から再び繰り返す。続い
て47でも45の比較結果がII O11かどうかのチ
エツクを行なう。45の出力がII OIIなら、完全
一致であることがわかる。
45の出力が#1.I+なら、辞@順で文字列Δのすぐ
後にくる文字列がサーチできたということになる。
後にくる文字列がサーチできたということになる。
49ではサーチの結果として、添字nと文字列Bを出力
し、処理を終了する。
し、処理を終了する。
以上示したように1本実施例によれば第一の実施例で示
した文字列比較方式をサーチに適用でき、かつ処理の高
速化、ワークエリアの低減を図ることができる。
した文字列比較方式をサーチに適用でき、かつ処理の高
速化、ワークエリアの低減を図ることができる。
次に、本発明の第四の実施例として、JISC6220
のカタカナ文字列データの辞書順の比較について記す。
のカタカナ文字列データの辞書順の比較について記す。
JIS C6220で清音は−バイトで表現できるが
、濁音または半濁音の文字は二バイトのデータを必要と
する。このため、辞書順の比較は困難となる。そこで本
実施例ではJIS C6220からJIS C62
26に変換し、その後、第一の実施例と同様の方法で比
較している。以下、JIS C6220からJIS
C6226への変換方法について記す。
、濁音または半濁音の文字は二バイトのデータを必要と
する。このため、辞書順の比較は困難となる。そこで本
実施例ではJIS C6220からJIS C62
26に変換し、その後、第一の実施例と同様の方法で比
較している。以下、JIS C6220からJIS
C6226への変換方法について記す。
JIS C6220はカタカナなのでこれをJIS
C6226に変換するとニバイトのうち上位バイトは
& I−I 83になる。下位バイトを決定するために
は配列を作成して変換する。ただし、濁音、半濁音の場
合があるので、常に5次のコードを見ておく必要がある
。もし二バイトめが濁音であればこの二バイトをまとめ
て変換する(第8図参照)、、このようにして得られた
JIS C6226は前述の方法で辞書順で比較する
ことができる。
C6226に変換するとニバイトのうち上位バイトは
& I−I 83になる。下位バイトを決定するために
は配列を作成して変換する。ただし、濁音、半濁音の場
合があるので、常に5次のコードを見ておく必要がある
。もし二バイトめが濁音であればこの二バイトをまとめ
て変換する(第8図参照)、、このようにして得られた
JIS C6226は前述の方法で辞書順で比較する
ことができる。
本実施例による手法を用いればJIS C6220の
文字列を高速に辞書順で比較することができる。
文字列を高速に辞書順で比較することができる。
次に本発明の第五の実施例として、第四の実施例で示し
たーバイトコートの文字列の辞書順比較方式を用いたソ
ート方法について説明する。処理の手順は、第6図の本
発明の第二の実施例を示すフローチャートで示されてい
るものと同様である。
たーバイトコートの文字列の辞書順比較方式を用いたソ
ート方法について説明する。処理の手順は、第6図の本
発明の第二の実施例を示すフローチャートで示されてい
るものと同様である。
ただし、処理25では第四の実施例で示したーバイトコ
ードの辞書順の文字列比較を行なう。以上示した方法に
よれば、−バイトコートの文字列群を高速にソートする
ことができる。
ードの辞書順の文字列比較を行なう。以上示した方法に
よれば、−バイトコートの文字列群を高速にソートする
ことができる。
次に、本発明の第六の実施例として、第四の実施例で示
したーバイトコードの文字列の辞書順比較方式を用いた
サーチ方法についてi12明する。処理の手順は、第7
図の本発明の第三の実施例を示すフローチャートで示さ
れているものと同様である。ただし、処理45では第四
の実施例で示した一バイトコードの辞書順の文字列比較
を行なう。以上示した方法によれば、−バイトコードの
文字列群を高速に検索することができる。
したーバイトコードの文字列の辞書順比較方式を用いた
サーチ方法についてi12明する。処理の手順は、第7
図の本発明の第三の実施例を示すフローチャートで示さ
れているものと同様である。ただし、処理45では第四
の実施例で示した一バイトコードの辞書順の文字列比較
を行なう。以上示した方法によれば、−バイトコードの
文字列群を高速に検索することができる。
本発明によれば、二バイトコードの日本語文字列データ
を先頭文字から一文字づつ辞書順に比較することができ
るので、比較処理の高速化がはかれサーチやソートに適
用することができる。
を先頭文字から一文字づつ辞書順に比較することができ
るので、比較処理の高速化がはかれサーチやソートに適
用することができる。
また、本発明の第二の実施例によれば−バイトコードの
カタカナ文字列データの辞書順の比較を容易にした。
カタカナ文字列データの辞書順の比較を容易にした。
第1図は本発明の第一の実施例を示すフローチャート、
第2図は通常の比較と辞書順の比較の結果を示す説明図
、第3図は促音、濁音、半濁音、カタカナから清音への
変換法を示す説明図、第4図は清音変換用配列の詳細を
示す説明図、第5図は、文字列比較の一例を示す説明図
、第6図は、本発明の第二の実施例を示すフローチャー
ト、第7図は本発明の第三の実施例を示すフローチャー
ト、第8図はJIS C6220からJISC622
8への変換方法を示す説明図である。 箒 1 図 代理人弁理士 小 川 勝 1男 稟 図 阜 図 第 図 葛 仝 図 葛 図 稟 図
第2図は通常の比較と辞書順の比較の結果を示す説明図
、第3図は促音、濁音、半濁音、カタカナから清音への
変換法を示す説明図、第4図は清音変換用配列の詳細を
示す説明図、第5図は、文字列比較の一例を示す説明図
、第6図は、本発明の第二の実施例を示すフローチャー
ト、第7図は本発明の第三の実施例を示すフローチャー
ト、第8図はJIS C6220からJISC622
8への変換方法を示す説明図である。 箒 1 図 代理人弁理士 小 川 勝 1男 稟 図 阜 図 第 図 葛 仝 図 葛 図 稟 図
Claims (1)
- 【特許請求の範囲】 1、二バイトコードからなる複数の日本語文字列データ
を比較する文字列比較方式において、前記日本語文字列
データの先頭文字から一文字づつ、濁音、半濁音、長音
、促音、カタカナを、ひらがなの清音に変換する手段と
、 前記変換の結果を五十音順で比較する手段と、前記比較
の結果、同等と判断された場合、前記日本語文字列デー
タの先頭文字から一文字づつ、濁音、半濁音、長音、促
音、カタカナ、清音を考慮して比較する手段とを備えた
ことを特徴とする文字列比較方式。 2、請求項1において、前記文字列比較方式による比較
の結果に応じて整列するソート方式。 3、請求項1において、前記文字列比較方式による比較
の結果に応じて検索するサーチ方式。 4、一バイトコードからなる複数の日本語文字列データ
を比較する文字列比較方式において、前記一バイトコー
ドからなる日本語文字列データを二バイトコードからな
る日本語文字列データに変換する手段と、 前記二バイトコードからなる日本語文字列データの先頭
文字から一文字づつ、濁音、半濁音、長音、促音、カタ
カナを、ひらがなの清音に変換する手段と、 前記変換の結果を五十音順で比較する手段と、前記比較
の結果、同等と判断された場合、前記二バイトコードか
らなる日本語文字列データの先頭文字から一文字づつ、
濁音、半濁音、長音、促音、カタカナ、清音を考慮して
比較する手段とを備えたことを特徴とする文字列比較方
式。 5、請求項4において、文字列比較方式による比較の結
果に応じて整列するソート方式。 6、請求項4において、バイトコードからなる日本語文
字列データのサーチ方式で、文字列比較方式による比較
の結果に応じて検索するサーチ方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2233289A JPH04114278A (ja) | 1990-09-05 | 1990-09-05 | 文字列比較方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2233289A JPH04114278A (ja) | 1990-09-05 | 1990-09-05 | 文字列比較方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH04114278A true JPH04114278A (ja) | 1992-04-15 |
Family
ID=16952772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2233289A Pending JPH04114278A (ja) | 1990-09-05 | 1990-09-05 | 文字列比較方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH04114278A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001125915A (ja) * | 1999-10-28 | 2001-05-11 | Fujitsu Ltd | 情報検索装置 |
JP2009277068A (ja) * | 2008-05-15 | 2009-11-26 | Aisin Aw Co Ltd | 検索装置及び検索プログラム |
-
1990
- 1990-09-05 JP JP2233289A patent/JPH04114278A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001125915A (ja) * | 1999-10-28 | 2001-05-11 | Fujitsu Ltd | 情報検索装置 |
JP2009277068A (ja) * | 2008-05-15 | 2009-11-26 | Aisin Aw Co Ltd | 検索装置及び検索プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3143079B2 (ja) | 辞書索引作成装置と文書検索装置 | |
US5778361A (en) | Method and system for fast indexing and searching of text in compound-word languages | |
US5560037A (en) | Compact hyphenation point data | |
KR100318763B1 (ko) | 외래어 음차표기 유사도 비교 방법 | |
JPH06162092A (ja) | 情報検索装置 | |
JPH04114278A (ja) | 文字列比較方式 | |
Ristov et al. | Ziv Lempel compression of huge natural language data tries using suffix arrays | |
JP3253657B2 (ja) | 文書検索方法 | |
JPH10177582A (ja) | 最長一致検索方法及び装置 | |
JPH0869474A (ja) | 類似文字列検索装置 | |
JPH04340164A (ja) | マルチキーワード情報検索処理方式および検索ファイル作成装置 | |
JPS59100939A (ja) | 日本語入力装置 | |
JPS61267824A (ja) | 日本語デ−タ整列化処理方式 | |
JPH0140370B2 (ja) | ||
JPH03210627A (ja) | 電子計算機 | |
JP2006106896A (ja) | データベース登録システム、データベース検索システム、語彙索引登録方法及び異表記同一視検索方法 | |
Gibney et al. | Non-overlapping Indexing in BWT-Runs Bounded Space | |
JP3508312B2 (ja) | キーワード抽出装置 | |
JPH0337764A (ja) | 巣語辞書検索装置 | |
JP3104893B2 (ja) | 情報検索方式 | |
JPS61188684A (ja) | 認識装置 | |
JPH06309360A (ja) | 否定論理条件の処理に適したフルテキストサーチ方法 | |
JPH031227A (ja) | ソート処理装置 | |
JPH1115836A (ja) | 文字列探索用テーブル、その作成方法及び文字列探索方法 | |
JPS62214468A (ja) | かな漢字変換装置 |