JPH04114278A

JPH04114278A - 文字列比較方式

Info

Publication number: JPH04114278A
Application number: JP2233289A
Authority: JP
Inventors: Katsuhiko Tonami; 克彦渡並; Yuji Hirai; 平井　勇治
Original assignee: Hitachi Ltd; Hitachi Video Engineering Co Ltd
Current assignee: Hitachi Image Information Systems Inc; Hitachi Ltd
Priority date: 1990-09-05
Filing date: 1990-09-05
Publication date: 1992-04-15

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、日本語文字列データの比較方式に係り、特に
、辞書順の日本語文字列データの比較方式に関する。

〔従来の技術〕

従来、複数の日本語文字列データを比較してサーチまた
はソートする場合、各文字列データを所定のコードデー
タに変換し、このコードデータの大小関係に応じて比較
を行なっていた。しかし、この方法で比較した結果は、
第２図に示すように、辞書順とは一致しない場合があっ
た。

このため、日本語文字列を辞書順で比較整列する方法が
発明された。この比較整列方式に関連した公知例には特
開昭６０−８１６３９号公報が挙げられる。

〔発明が解決しようとする課題〕

上記従来技術は、日本語文字列データの辞書順の比較方
式、特に、ソートについて考案されたものであり、サー
チについては考慮されていなかった。さらに、処理中、
中間ファイルや中間コートを生成しているので処理速度
の点に問題があると考えられる。

また、上記従来技術は、−バイトコートのカタカナ文字
列データの辞書順比較についても考慮されていなかった
。

本発明の目的は、従来技術の問題を改善し、ソートとサ
ーチの両方に適用できる。高速な日本語文字列データの
辞書順の比較方式を提供することにある。

本発明の他の目的は、−バイトコートの日本語文字列デ
ータを辞書順で比較する方式を提供することにある。

〔課題を解決するための手段〕

上記目的は比較の対象となる文字列を清音に変換する手
段と、変換後の文字コードを五十音で比較する手段と、
促音、濁音、半濁音、長音、カタカナ、清音などの特徴
から辞書順の比較を行なう手段とを具備することにより
達成できる。それぞれの処理は先頭から一文字づつ行な
い、順位の判定ができしだい終了する。

また、他の目的は、−バイトコードを二バイトコードに
変換し、その後上記辞書順比較を行なえば達成できる。

〔作用〕

本発明の辞書順比較方式では、日本語文字列データの先
頭文字から一文字づつ比較して行き、文字列の途中でも
辞書順の判定が可能であればそこで処理を終了するので
、文字列の長さに依存せずに文字列比較の高速化が図れ
、サーチやソートなどに適用することができる。

また、本発明の手法では、−バイトコードから二バイト
コードへの変換を行なっている。これにより、濁音、半
濁音の文字の表現に二バイトのコードを必要とし、また
促音の文字のコードの順序が、二バイトコードのように
、辞書順になっていない一バイトコードのカタカナ文字
列データの辞書順の比較整列を容易にした。

〔実施例〕

以下、本発明の実施例を図を用いて説明する。

第１図は本発明の第一の実施例を示すフローチャートで
ある。本実施例では、ＪＩＳ　　Ｃ６２２６のひらがな
、およびカタカナ文字列の辞書順の比較方式について記
す。比較の対象となる二つの文字列Ａ、Ｂが入力され１
文字列Ａが文字列Ｂより辞書順で先の場合は′″１″を
、文字列Ａ、　Ｂが同じ場合はＩＩ　ＯＩＩを、それ以
外は゛−１′″を出力する。

１では比較の対象となる二つの文字列Ａ、　Ｂを入力す
る。以下の処理については二つの文字列Ａ、Ｂに対して
並列に一文字づつ行なうものとする。

２ではカウンターｎを１に初期化する。３ではｎ文字目
が促音、濁音、半濁音、長音、カタカナの場合、これら
を第３図に示すように、ひらがなの清音に変換し、その
文字コードを出力する。長音の場合は、一つ前の文字の
母音に変換して出力する０本実施例では促音、濁音、半
濁音、カタカナから清音へ変換するために、配列を用い
ている。

この場合、配列の添字と変換前の文字コードとを関連付
けて、配列の中身に変換後の文字コード（ＪＩＳ　　Ｃ
６２２６）を書き込む。第４図に詳細を示す。変換前の
文字コードと配列の添字を関連付けるために、変換した
い文字の文字コードと８２９ｆＨ（五十音順の最初の文
字″あ″の文字コート）との差分をとり、これを配列の
添字とする。そしてこの配列の中身に変換後の文字コー
ドを格納する。従って変換の際は、変換したい文字の文
字コードと８２９　ｆ　Ｈとの差分を添字として与え、
この添字に対応する配列の中身を変換後の文字コードと
して受は取れば清音への変換が行なえる。４では、３の
処理で出力されたｎ文字目の清音変換後の文字コードの
大きさを比較する。

ここで両者の文字コードに相違があれば、その時点で辞
書順位をつけることができるので、８で結果を出力して
処理を終了する。この時、文字列ＡのコードがＢより小
さければ１′″を、文字列ＡがＢより大きければ”−１
″を出力する。両者とも文字コードが一致していれば、
次の処理５に移る。５では、現在処理している文字が文
字列の最後かどうかを判定する。もしどちらかの文字列
が最後であれば、辞書順位をつけることができるので８
で結果を出力して処理を終了する６文字列Ａの方が短け
れば１１１１１を、文字列Ｂの方が短ければ−１”を出
力する。両者とも最後の文字でなければ、６でカウンタ
ーｎに１を加えて次の文字について、処理３．４．５を
繰り返す０両者とも最後の文字（文字列の長さが同じ）
であれば、処理２′に移る。２′では、文字列の先頭か
ら処理を行なうため、カウンタｎを１に初期化する。４
′では、ｎ文字目の変換前のデータを比較する。この処
理で両者に不一致が見られれば、７に処理を移す。両者
が一致していれば、５′に移り文字列の最後かどうかを
判定する（処理５で文字列Ａ、Ｂ）が同じ長さであるこ
とがわかっているので、処理５′では文字列Ａのみにつ
いて調べれば良い）。最後であれば文字列Ａ、Ｂは等し
いことがわかるので、８で２′Ｏ”を出力して処理を終
了する。

そうでなければカウンタｎに１を加えて次の文字につい
て処理４″を繰り返す、７では、二つの文字について辞
書順位の判定を行なう。−船釣には、辞書順は促音、清
音、濁音、半濁音、長音、カタカナの順になる。この規
則に応じて８で結果が出力される。もし、文字列Ａが半
濁音、Ｂが清音ならＩＩ　　Ｉ　ＩＩが出力される。

次に第５図に示す例を用いて本発明の文字列比較方式に
ついて説明する。第５図中、清音変換後のデータとは、
第１図のフローチャートの３の処理結果に対応する。実
際の処理では、−文字づつ処理するのであるが第５図に
はまとめて表示している。また、処理経路に書かれてい
る数字は、第１図のフローチャートの処理の番号に対応
している。第４図では二つの例を示している。一つめの
例は、文字列Ａ　”ジスマーク′″と文字列Ｂ″しずま
る”についてである。第１図のフローチャートに沿って
みていくと、ｎ＝１の時、処理３では文字列Ａの″ジ″
をシ”に変換する。処理４では両者ともＩｌシ１１で一
致しているので処理５に移る。

処理５では両者とも最後の文字ではないので処理６に移
る。ｎ＝２．３については第５図かられかるように、清
音変換後のデータは等しいので同様の動作を繰り返す。

ｎ＝４の時、処理３で文字列Ａの四文字目は長音なので
三文字目の″マ″の母音″あ”に変換する。文字列Ｂは
”る”なので両者不一致となり処理８に移る０文字列Ａ
の″あ″とＢの″る″を比較してＡの方が文字コードが
小さいので＋＋ｌｌ＋を出力する。この結果より、辞書
順では″ジスマーク″がシずまる”より先にくることが
わかる。

二つめの例は、文字列Ａ″しせい”とＢ　ＩＩじせい”
についてである、ｎ＝１．２．３の時、処理３．４．５
の繰り返しでは比較の結果はでないので、処理２′に移
る。ｎ＝１の時、文字列Ａは”し″、Ｂは″じ″で両者
不一致なので、処理７に移る。文字列ＡのｊｌシＴＩは
清音、Ｂの″じ”は濁音なので、処理８では′″１″が
出力される。従って、辞書順ではシせい″は”じせい′
″より前にくることがわかる。

本発明の日本語文字列比較方法によれば、文字単位で処
理をでき、また特別な中間コードや中間ファイルを生成
していないので、高速な辞書順比較処理を実現できる１
本実施例では清音変換の変換後の文字コートとして、Ｊ
ＩＳＣ６２２６を用いたが、この代わりにＪＩＳＣ６２
２０を用いれば、清音変換用配列の容量を半分にできる
ため、ワークエリアをより削減できる。

第６図は本発明の第二の実施例を示すフローチャートで
ある。本発明の第二の実施例では、第一の実施例で示し
た辞書順の日本語文字列比較方式を用いたソート方法に
ついて説明する。本実施例ではソートの一例としてバブ
ル法を用いる。ソートするデータは配列に格納されてい
るものとする。

第６図中、フラッグ（ｆ　ｌ　ａ　ｇ）はデータの入れ
替えが起こったかどうかを示すフラグであり、ｎは配列
の添字を示す。２ＩではフラッグをＯにクリアする。２
２ではｎをＯにクリアする。２３ではｎ番目とｎ＋１番
目のデータを用意する。２４でもしｎ＋１番目のデータ
が存在しなかったら、データの最後まできたことになり
、処理を３０に移す、それ以外は２５に移る。２５では
第一の実施例で示したような手順で辞書順の文字列比較
を行なう。このｏ、７、文字列Ａにｎ番目のデータを１
文字列Ｂにｎ　＋　１番目のデータを入力する。２６で
は２５の処理結果に応した条件分けを行なっている。も
し、２５の出力が１１１１１かＩＩ　ＯＩＩの場合、現
状のｎ番目とｎ＋］−番目のデータの並び方が辞書順に
なっているということなので、なにもせずに２９に処理
を移す。２５の出力がＩＩ　　Ｉ　ＩＩの場合、データ
の並び方が逆なので、２７でｎ番目とｎ　＋　１番目の
データの入れ替えを行なう。２８ではデータの入れ替え
が起こったことを示すためにフラッグに１をセットし、
２９に処理を移す。２９ではｎに１を加える。２４でも
しｎ＋１番目のデータが存在しなかったら処理３０に移
る。３０ではフラッグのチエツクを行なう。もし、フラ
ッグが１なら、まだソートが完！していないということ
なので処理を２１から繰り返す。フラッグがＯなら処理
を終了する。

以上示したように、本実施例によれば第一の実施例で示
した文字列比較方式をソートに適用でき、かつ、処理の
高速化、ワークエリアの低減を図ることができる。

第７図は本発明の第三の実施例を示すフローチャートで
ある。本発明の第三の実施例では、第一の実施例で示し
た辞書順の日本語文字列比較方式を用いたサーチ方法に
ついて説明する。サーチしたい文字列は文字列Ａに入力
し、文字列Ｂにはサーチの対象となる文字列群から一つ
づつ文字列を入力する。サーチの対象となる文字列群は
配列に格納されており、あらかじめ辞書順にソートされ
ているものとする。サーチした結果、完全一致の場合は
その文字列と配列の添字ｎを、−ｅしなかった場合は辞
書順で文字列Ａの次にくる文字列とその添字ｎを出力す
る。４１ではサーチしたい文字列を文字列Ａに入力する
。４２では添字ｎをＯにクリアする。４３ではサーチの
対象となる文字列群の中から、文字列Ｂにｎ番目の文字
列を入力する。

４４ではｎ番目のデータが存在するかどうかを調べる。

ｎ番目のデータが存在しない場合は、最後のデータが辞
書順では一番近いことになるのでこれを出力する。ｎ番
目のデータが存在する場合は４５に処理を移す。４５で
は第一の実施例で示した手順で１文字列Ａと文字列Ｂに
ついて辞書順の文字列比較を行い、その結果に応して１
１　１１″　ＩＩＱｌｌｌｌｌｌｌを出力する。４６で
はｌ　　Ｉ　ＩＩが出力されたかどうかのチエツクを行
なう。もし処理４５の出力がＩ　　Ｉ　ＩＴなら１文字
列Ａは文字列Ｂより辞書順で後にくるということなので
、４７でｎに１を加えて、４３から再び繰り返す。続い
て４７でも４５の比較結果がＩＩ　Ｏ１１かどうかのチ
エツクを行なう。４５の出力がＩＩ　ＯＩＩなら、完全
一致であることがわかる。

４５の出力が＃１．Ｉ＋なら、辞＠順で文字列Δのすぐ
後にくる文字列がサーチできたということになる。

４９ではサーチの結果として、添字ｎと文字列Ｂを出力
し、処理を終了する。

以上示したように１本実施例によれば第一の実施例で示
した文字列比較方式をサーチに適用でき、かつ処理の高
速化、ワークエリアの低減を図ることができる。

次に、本発明の第四の実施例として、ＪＩＳＣ６２２０
のカタカナ文字列データの辞書順の比較について記す。

ＪＩＳ　　Ｃ６２２０で清音は−バイトで表現できるが
、濁音または半濁音の文字は二バイトのデータを必要と
する。このため、辞書順の比較は困難となる。そこで本
実施例ではＪＩＳ　　Ｃ６２２０からＪＩＳ　　Ｃ６２
２６に変換し、その後、第一の実施例と同様の方法で比
較している。以下、ＪＩＳ　　Ｃ６２２０からＪＩＳ　
　Ｃ６２２６への変換方法について記す。

ＪＩＳ　　Ｃ６２２０はカタカナなのでこれをＪＩＳ　
　Ｃ６２２６に変換するとニバイトのうち上位バイトは
＆　Ｉ−Ｉ　８３になる。下位バイトを決定するために
は配列を作成して変換する。ただし、濁音、半濁音の場
合があるので、常に５次のコードを見ておく必要がある
。もし二バイトめが濁音であればこの二バイトをまとめ
て変換する（第８図参照）、、このようにして得られた
ＪＩＳ　　Ｃ６２２６は前述の方法で辞書順で比較する
ことができる。

本実施例による手法を用いればＪＩＳ　　Ｃ６２２０の
文字列を高速に辞書順で比較することができる。

次に本発明の第五の実施例として、第四の実施例で示し
たーバイトコートの文字列の辞書順比較方式を用いたソ
ート方法について説明する。処理の手順は、第６図の本
発明の第二の実施例を示すフローチャートで示されてい
るものと同様である。

ただし、処理２５では第四の実施例で示したーバイトコ
ードの辞書順の文字列比較を行なう。以上示した方法に
よれば、−バイトコートの文字列群を高速にソートする
ことができる。

次に、本発明の第六の実施例として、第四の実施例で示
したーバイトコードの文字列の辞書順比較方式を用いた
サーチ方法についてｉ１２明する。処理の手順は、第７
図の本発明の第三の実施例を示すフローチャートで示さ
れているものと同様である。ただし、処理４５では第四
の実施例で示した一バイトコードの辞書順の文字列比較
を行なう。以上示した方法によれば、−バイトコードの
文字列群を高速に検索することができる。

〔発明の効果〕

本発明によれば、二バイトコードの日本語文字列データ
を先頭文字から一文字づつ辞書順に比較することができ
るので、比較処理の高速化がはかれサーチやソートに適
用することができる。

また、本発明の第二の実施例によれば−バイトコードの
カタカナ文字列データの辞書順の比較を容易にした。

【図面の簡単な説明】

第１図は本発明の第一の実施例を示すフローチャート、
第２図は通常の比較と辞書順の比較の結果を示す説明図
、第３図は促音、濁音、半濁音、カタカナから清音への
変換法を示す説明図、第４図は清音変換用配列の詳細を
示す説明図、第５図は、文字列比較の一例を示す説明図
、第６図は、本発明の第二の実施例を示すフローチャー
ト、第７図は本発明の第三の実施例を示すフローチャー
ト、第８図はＪＩＳ　　Ｃ６２２０からＪＩＳＣ６２２
８への変換方法を示す説明図である。箒　１　図代理人弁理士　小　川　勝　１男稟図阜図第図葛仝図葛図稟図

Claims

【特許請求の範囲】１、二バイトコードからなる複数の日本語文字列データ
を比較する文字列比較方式において、前記日本語文字列
データの先頭文字から一文字づつ、濁音、半濁音、長音
、促音、カタカナを、ひらがなの清音に変換する手段と
、前記変換の結果を五十音順で比較する手段と、前記比較
の結果、同等と判断された場合、前記日本語文字列デー
タの先頭文字から一文字づつ、濁音、半濁音、長音、促
音、カタカナ、清音を考慮して比較する手段とを備えた
ことを特徴とする文字列比較方式。２、請求項１において、前記文字列比較方式による比較
の結果に応じて整列するソート方式。３、請求項１において、前記文字列比較方式による比較
の結果に応じて検索するサーチ方式。４、一バイトコードからなる複数の日本語文字列データ
を比較する文字列比較方式において、前記一バイトコー
ドからなる日本語文字列データを二バイトコードからな
る日本語文字列データに変換する手段と、前記二バイトコードからなる日本語文字列データの先頭
文字から一文字づつ、濁音、半濁音、長音、促音、カタ
カナを、ひらがなの清音に変換する手段と、前記変換の結果を五十音順で比較する手段と、前記比較
の結果、同等と判断された場合、前記二バイトコードか
らなる日本語文字列データの先頭文字から一文字づつ、
濁音、半濁音、長音、促音、カタカナ、清音を考慮して
比較する手段とを備えたことを特徴とする文字列比較方
式。５、請求項４において、文字列比較方式による比較の結
果に応じて整列するソート方式。６、請求項４において、バイトコードからなる日本語文
字列データのサーチ方式で、文字列比較方式による比較
の結果に応じて検索するサーチ方式。