JPH04114278A - 文字列比較方式 - Google Patents

文字列比較方式

Info

Publication number
JPH04114278A
JPH04114278A JP2233289A JP23328990A JPH04114278A JP H04114278 A JPH04114278 A JP H04114278A JP 2233289 A JP2233289 A JP 2233289A JP 23328990 A JP23328990 A JP 23328990A JP H04114278 A JPH04114278 A JP H04114278A
Authority
JP
Japan
Prior art keywords
character string
character
sound
sounds
comparison
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2233289A
Other languages
English (en)
Inventor
Katsuhiko Tonami
克彦 渡並
Yuji Hirai
平井 勇治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Image Information Systems Inc
Hitachi Ltd
Original Assignee
Hitachi Ltd
Hitachi Video Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi Video Engineering Co Ltd filed Critical Hitachi Ltd
Priority to JP2233289A priority Critical patent/JPH04114278A/ja
Publication of JPH04114278A publication Critical patent/JPH04114278A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、日本語文字列データの比較方式に係り、特に
、辞書順の日本語文字列データの比較方式に関する。
〔従来の技術〕
従来、複数の日本語文字列データを比較してサーチまた
はソートする場合、各文字列データを所定のコードデー
タに変換し、このコードデータの大小関係に応じて比較
を行なっていた。しかし、この方法で比較した結果は、
第2図に示すように、辞書順とは一致しない場合があっ
た。
このため、日本語文字列を辞書順で比較整列する方法が
発明された。この比較整列方式に関連した公知例には特
開昭60−81639号公報が挙げられる。
〔発明が解決しようとする課題〕
上記従来技術は、日本語文字列データの辞書順の比較方
式、特に、ソートについて考案されたものであり、サー
チについては考慮されていなかった。さらに、処理中、
中間ファイルや中間コートを生成しているので処理速度
の点に問題があると考えられる。
また、上記従来技術は、−バイトコートのカタカナ文字
列データの辞書順比較についても考慮されていなかった
本発明の目的は、従来技術の問題を改善し、ソートとサ
ーチの両方に適用できる。高速な日本語文字列データの
辞書順の比較方式を提供することにある。
本発明の他の目的は、−バイトコートの日本語文字列デ
ータを辞書順で比較する方式を提供することにある。
〔課題を解決するための手段〕
上記目的は比較の対象となる文字列を清音に変換する手
段と、変換後の文字コードを五十音で比較する手段と、
促音、濁音、半濁音、長音、カタカナ、清音などの特徴
から辞書順の比較を行なう手段とを具備することにより
達成できる。それぞれの処理は先頭から一文字づつ行な
い、順位の判定ができしだい終了する。
また、他の目的は、−バイトコードを二バイトコードに
変換し、その後上記辞書順比較を行なえば達成できる。
〔作用〕
本発明の辞書順比較方式では、日本語文字列データの先
頭文字から一文字づつ比較して行き、文字列の途中でも
辞書順の判定が可能であればそこで処理を終了するので
、文字列の長さに依存せずに文字列比較の高速化が図れ
、サーチやソートなどに適用することができる。
また、本発明の手法では、−バイトコードから二バイト
コードへの変換を行なっている。これにより、濁音、半
濁音の文字の表現に二バイトのコードを必要とし、また
促音の文字のコードの順序が、二バイトコードのように
、辞書順になっていない一バイトコードのカタカナ文字
列データの辞書順の比較整列を容易にした。
〔実施例〕
以下、本発明の実施例を図を用いて説明する。
第1図は本発明の第一の実施例を示すフローチャートで
ある。本実施例では、JIS  C6226のひらがな
、およびカタカナ文字列の辞書順の比較方式について記
す。比較の対象となる二つの文字列A、Bが入力され1
文字列Aが文字列Bより辞書順で先の場合は′″1″を
、文字列A、 Bが同じ場合はII OIIを、それ以
外は゛−1′″を出力する。
1では比較の対象となる二つの文字列A、 Bを入力す
る。以下の処理については二つの文字列A、Bに対して
並列に一文字づつ行なうものとする。
2ではカウンターnを1に初期化する。3ではn文字目
が促音、濁音、半濁音、長音、カタカナの場合、これら
を第3図に示すように、ひらがなの清音に変換し、その
文字コードを出力する。長音の場合は、一つ前の文字の
母音に変換して出力する0本実施例では促音、濁音、半
濁音、カタカナから清音へ変換するために、配列を用い
ている。
この場合、配列の添字と変換前の文字コードとを関連付
けて、配列の中身に変換後の文字コード(JIS  C
6226)を書き込む。第4図に詳細を示す。変換前の
文字コードと配列の添字を関連付けるために、変換した
い文字の文字コードと829fH(五十音順の最初の文
字″あ″の文字コート)との差分をとり、これを配列の
添字とする。そしてこの配列の中身に変換後の文字コー
ドを格納する。従って変換の際は、変換したい文字の文
字コードと829 f Hとの差分を添字として与え、
この添字に対応する配列の中身を変換後の文字コードと
して受は取れば清音への変換が行なえる。4では、3の
処理で出力されたn文字目の清音変換後の文字コードの
大きさを比較する。
ここで両者の文字コードに相違があれば、その時点で辞
書順位をつけることができるので、8で結果を出力して
処理を終了する。この時、文字列AのコードがBより小
さければ1′″を、文字列AがBより大きければ”−1
″を出力する。両者とも文字コードが一致していれば、
次の処理5に移る。5では、現在処理している文字が文
字列の最後かどうかを判定する。もしどちらかの文字列
が最後であれば、辞書順位をつけることができるので8
で結果を出力して処理を終了する6文字列Aの方が短け
れば11111を、文字列Bの方が短ければ−1”を出
力する。両者とも最後の文字でなければ、6でカウンタ
ーnに1を加えて次の文字について、処理3.4.5を
繰り返す0両者とも最後の文字(文字列の長さが同じ)
であれば、処理2′に移る。2′では、文字列の先頭か
ら処理を行なうため、カウンタnを1に初期化する。4
′では、n文字目の変換前のデータを比較する。この処
理で両者に不一致が見られれば、7に処理を移す。両者
が一致していれば、5′に移り文字列の最後かどうかを
判定する(処理5で文字列A、B)が同じ長さであるこ
とがわかっているので、処理5′では文字列Aのみにつ
いて調べれば良い)。最後であれば文字列A、Bは等し
いことがわかるので、8で2′O”を出力して処理を終
了する。
そうでなければカウンタnに1を加えて次の文字につい
て処理4″を繰り返す、7では、二つの文字について辞
書順位の判定を行なう。−船釣には、辞書順は促音、清
音、濁音、半濁音、長音、カタカナの順になる。この規
則に応じて8で結果が出力される。もし、文字列Aが半
濁音、Bが清音ならII  I IIが出力される。
次に第5図に示す例を用いて本発明の文字列比較方式に
ついて説明する。第5図中、清音変換後のデータとは、
第1図のフローチャートの3の処理結果に対応する。実
際の処理では、−文字づつ処理するのであるが第5図に
はまとめて表示している。また、処理経路に書かれてい
る数字は、第1図のフローチャートの処理の番号に対応
している。第4図では二つの例を示している。一つめの
例は、文字列A ”ジスマーク′″と文字列B″しずま
る”についてである。第1図のフローチャートに沿って
みていくと、n=1の時、処理3では文字列Aの″ジ″
をシ”に変換する。処理4では両者ともIlシ11で一
致しているので処理5に移る。
処理5では両者とも最後の文字ではないので処理6に移
る。n=2.3については第5図かられかるように、清
音変換後のデータは等しいので同様の動作を繰り返す。
n=4の時、処理3で文字列Aの四文字目は長音なので
三文字目の″マ″の母音″あ”に変換する。文字列Bは
”る”なので両者不一致となり処理8に移る0文字列A
の″あ″とBの″る″を比較してAの方が文字コードが
小さいので++ll+を出力する。この結果より、辞書
順では″ジスマーク″がシずまる”より先にくることが
わかる。
二つめの例は、文字列A″しせい”とB IIじせい”
についてである、n=1.2.3の時、処理3.4.5
の繰り返しでは比較の結果はでないので、処理2′に移
る。n=1の時、文字列Aは”し″、Bは″じ″で両者
不一致なので、処理7に移る。文字列AのjlシTIは
清音、Bの″じ”は濁音なので、処理8では′″1″が
出力される。従って、辞書順ではシせい″は”じせい′
″より前にくることがわかる。
本発明の日本語文字列比較方法によれば、文字単位で処
理をでき、また特別な中間コードや中間ファイルを生成
していないので、高速な辞書順比較処理を実現できる1
本実施例では清音変換の変換後の文字コートとして、J
ISC6226を用いたが、この代わりにJISC62
20を用いれば、清音変換用配列の容量を半分にできる
ため、ワークエリアをより削減できる。
第6図は本発明の第二の実施例を示すフローチャートで
ある。本発明の第二の実施例では、第一の実施例で示し
た辞書順の日本語文字列比較方式を用いたソート方法に
ついて説明する。本実施例ではソートの一例としてバブ
ル法を用いる。ソートするデータは配列に格納されてい
るものとする。
第6図中、フラッグ(f l a g)はデータの入れ
替えが起こったかどうかを示すフラグであり、nは配列
の添字を示す。2IではフラッグをOにクリアする。2
2ではnをOにクリアする。23ではn番目とn+1番
目のデータを用意する。24でもしn+1番目のデータ
が存在しなかったら、データの最後まできたことになり
、処理を30に移す、それ以外は25に移る。25では
第一の実施例で示したような手順で辞書順の文字列比較
を行なう。このo、7、文字列Aにn番目のデータを1
文字列Bにn + 1番目のデータを入力する。26で
は25の処理結果に応した条件分けを行なっている。も
し、25の出力が11111かII OIIの場合、現
状のn番目とn+]−番目のデータの並び方が辞書順に
なっているということなので、なにもせずに29に処理
を移す。25の出力がII  I IIの場合、データ
の並び方が逆なので、27でn番目とn + 1番目の
データの入れ替えを行なう。28ではデータの入れ替え
が起こったことを示すためにフラッグに1をセットし、
29に処理を移す。29ではnに1を加える。24でも
しn+1番目のデータが存在しなかったら処理30に移
る。30ではフラッグのチエツクを行なう。もし、フラ
ッグが1なら、まだソートが完!していないということ
なので処理を21から繰り返す。フラッグがOなら処理
を終了する。
以上示したように、本実施例によれば第一の実施例で示
した文字列比較方式をソートに適用でき、かつ、処理の
高速化、ワークエリアの低減を図ることができる。
第7図は本発明の第三の実施例を示すフローチャートで
ある。本発明の第三の実施例では、第一の実施例で示し
た辞書順の日本語文字列比較方式を用いたサーチ方法に
ついて説明する。サーチしたい文字列は文字列Aに入力
し、文字列Bにはサーチの対象となる文字列群から一つ
づつ文字列を入力する。サーチの対象となる文字列群は
配列に格納されており、あらかじめ辞書順にソートされ
ているものとする。サーチした結果、完全一致の場合は
その文字列と配列の添字nを、−eしなかった場合は辞
書順で文字列Aの次にくる文字列とその添字nを出力す
る。41ではサーチしたい文字列を文字列Aに入力する
。42では添字nをOにクリアする。43ではサーチの
対象となる文字列群の中から、文字列Bにn番目の文字
列を入力する。
44ではn番目のデータが存在するかどうかを調べる。
n番目のデータが存在しない場合は、最後のデータが辞
書順では一番近いことになるのでこれを出力する。n番
目のデータが存在する場合は45に処理を移す。45で
は第一の実施例で示した手順で1文字列Aと文字列Bに
ついて辞書順の文字列比較を行い、その結果に応して1
1 11″ IIQlllllllを出力する。46で
はl  I IIが出力されたかどうかのチエツクを行
なう。もし処理45の出力がI  I ITなら1文字
列Aは文字列Bより辞書順で後にくるということなので
、47でnに1を加えて、43から再び繰り返す。続い
て47でも45の比較結果がII O11かどうかのチ
エツクを行なう。45の出力がII OIIなら、完全
一致であることがわかる。
45の出力が#1.I+なら、辞@順で文字列Δのすぐ
後にくる文字列がサーチできたということになる。
49ではサーチの結果として、添字nと文字列Bを出力
し、処理を終了する。
以上示したように1本実施例によれば第一の実施例で示
した文字列比較方式をサーチに適用でき、かつ処理の高
速化、ワークエリアの低減を図ることができる。
次に、本発明の第四の実施例として、JISC6220
のカタカナ文字列データの辞書順の比較について記す。
JIS  C6220で清音は−バイトで表現できるが
、濁音または半濁音の文字は二バイトのデータを必要と
する。このため、辞書順の比較は困難となる。そこで本
実施例ではJIS  C6220からJIS  C62
26に変換し、その後、第一の実施例と同様の方法で比
較している。以下、JIS  C6220からJIS 
 C6226への変換方法について記す。
JIS  C6220はカタカナなのでこれをJIS 
 C6226に変換するとニバイトのうち上位バイトは
& I−I 83になる。下位バイトを決定するために
は配列を作成して変換する。ただし、濁音、半濁音の場
合があるので、常に5次のコードを見ておく必要がある
。もし二バイトめが濁音であればこの二バイトをまとめ
て変換する(第8図参照)、、このようにして得られた
JIS  C6226は前述の方法で辞書順で比較する
ことができる。
本実施例による手法を用いればJIS  C6220の
文字列を高速に辞書順で比較することができる。
次に本発明の第五の実施例として、第四の実施例で示し
たーバイトコートの文字列の辞書順比較方式を用いたソ
ート方法について説明する。処理の手順は、第6図の本
発明の第二の実施例を示すフローチャートで示されてい
るものと同様である。
ただし、処理25では第四の実施例で示したーバイトコ
ードの辞書順の文字列比較を行なう。以上示した方法に
よれば、−バイトコートの文字列群を高速にソートする
ことができる。
次に、本発明の第六の実施例として、第四の実施例で示
したーバイトコードの文字列の辞書順比較方式を用いた
サーチ方法についてi12明する。処理の手順は、第7
図の本発明の第三の実施例を示すフローチャートで示さ
れているものと同様である。ただし、処理45では第四
の実施例で示した一バイトコードの辞書順の文字列比較
を行なう。以上示した方法によれば、−バイトコードの
文字列群を高速に検索することができる。
〔発明の効果〕
本発明によれば、二バイトコードの日本語文字列データ
を先頭文字から一文字づつ辞書順に比較することができ
るので、比較処理の高速化がはかれサーチやソートに適
用することができる。
また、本発明の第二の実施例によれば−バイトコードの
カタカナ文字列データの辞書順の比較を容易にした。
【図面の簡単な説明】
第1図は本発明の第一の実施例を示すフローチャート、
第2図は通常の比較と辞書順の比較の結果を示す説明図
、第3図は促音、濁音、半濁音、カタカナから清音への
変換法を示す説明図、第4図は清音変換用配列の詳細を
示す説明図、第5図は、文字列比較の一例を示す説明図
、第6図は、本発明の第二の実施例を示すフローチャー
ト、第7図は本発明の第三の実施例を示すフローチャー
ト、第8図はJIS  C6220からJISC622
8への変換方法を示す説明図である。 箒 1 図 代理人弁理士 小 川 勝 1男 稟 図 阜 図 第 図 葛 仝 図 葛 図 稟 図

Claims (1)

  1. 【特許請求の範囲】 1、二バイトコードからなる複数の日本語文字列データ
    を比較する文字列比較方式において、前記日本語文字列
    データの先頭文字から一文字づつ、濁音、半濁音、長音
    、促音、カタカナを、ひらがなの清音に変換する手段と
    、 前記変換の結果を五十音順で比較する手段と、前記比較
    の結果、同等と判断された場合、前記日本語文字列デー
    タの先頭文字から一文字づつ、濁音、半濁音、長音、促
    音、カタカナ、清音を考慮して比較する手段とを備えた
    ことを特徴とする文字列比較方式。 2、請求項1において、前記文字列比較方式による比較
    の結果に応じて整列するソート方式。 3、請求項1において、前記文字列比較方式による比較
    の結果に応じて検索するサーチ方式。 4、一バイトコードからなる複数の日本語文字列データ
    を比較する文字列比較方式において、前記一バイトコー
    ドからなる日本語文字列データを二バイトコードからな
    る日本語文字列データに変換する手段と、 前記二バイトコードからなる日本語文字列データの先頭
    文字から一文字づつ、濁音、半濁音、長音、促音、カタ
    カナを、ひらがなの清音に変換する手段と、 前記変換の結果を五十音順で比較する手段と、前記比較
    の結果、同等と判断された場合、前記二バイトコードか
    らなる日本語文字列データの先頭文字から一文字づつ、
    濁音、半濁音、長音、促音、カタカナ、清音を考慮して
    比較する手段とを備えたことを特徴とする文字列比較方
    式。 5、請求項4において、文字列比較方式による比較の結
    果に応じて整列するソート方式。 6、請求項4において、バイトコードからなる日本語文
    字列データのサーチ方式で、文字列比較方式による比較
    の結果に応じて検索するサーチ方式。
JP2233289A 1990-09-05 1990-09-05 文字列比較方式 Pending JPH04114278A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2233289A JPH04114278A (ja) 1990-09-05 1990-09-05 文字列比較方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2233289A JPH04114278A (ja) 1990-09-05 1990-09-05 文字列比較方式

Publications (1)

Publication Number Publication Date
JPH04114278A true JPH04114278A (ja) 1992-04-15

Family

ID=16952772

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2233289A Pending JPH04114278A (ja) 1990-09-05 1990-09-05 文字列比較方式

Country Status (1)

Country Link
JP (1) JPH04114278A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125915A (ja) * 1999-10-28 2001-05-11 Fujitsu Ltd 情報検索装置
JP2009277068A (ja) * 2008-05-15 2009-11-26 Aisin Aw Co Ltd 検索装置及び検索プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125915A (ja) * 1999-10-28 2001-05-11 Fujitsu Ltd 情報検索装置
JP2009277068A (ja) * 2008-05-15 2009-11-26 Aisin Aw Co Ltd 検索装置及び検索プログラム

Similar Documents

Publication Publication Date Title
JP3143079B2 (ja) 辞書索引作成装置と文書検索装置
US5778361A (en) Method and system for fast indexing and searching of text in compound-word languages
US5560037A (en) Compact hyphenation point data
KR100318763B1 (ko) 외래어 음차표기 유사도 비교 방법
JPH06162092A (ja) 情報検索装置
JPH04114278A (ja) 文字列比較方式
Ristov et al. Ziv Lempel compression of huge natural language data tries using suffix arrays
JP3253657B2 (ja) 文書検索方法
JPH10177582A (ja) 最長一致検索方法及び装置
JPH0869474A (ja) 類似文字列検索装置
JPH04340164A (ja) マルチキーワード情報検索処理方式および検索ファイル作成装置
JPS59100939A (ja) 日本語入力装置
JPS61267824A (ja) 日本語デ−タ整列化処理方式
JPH0140370B2 (ja)
JPH03210627A (ja) 電子計算機
JP2006106896A (ja) データベース登録システム、データベース検索システム、語彙索引登録方法及び異表記同一視検索方法
Gibney et al. Non-overlapping Indexing in BWT-Runs Bounded Space
JP3508312B2 (ja) キーワード抽出装置
JPH0337764A (ja) 巣語辞書検索装置
JP3104893B2 (ja) 情報検索方式
JPS61188684A (ja) 認識装置
JPH06309360A (ja) 否定論理条件の処理に適したフルテキストサーチ方法
JPH031227A (ja) ソート処理装置
JPH1115836A (ja) 文字列探索用テーブル、その作成方法及び文字列探索方法
JPS62214468A (ja) かな漢字変換装置