JPH04115325A - 文字コードのソート方式 - Google Patents

文字コードのソート方式

Info

Publication number
JPH04115325A
JPH04115325A JP2234377A JP23437790A JPH04115325A JP H04115325 A JPH04115325 A JP H04115325A JP 2234377 A JP2234377 A JP 2234377A JP 23437790 A JP23437790 A JP 23437790A JP H04115325 A JPH04115325 A JP H04115325A
Authority
JP
Japan
Prior art keywords
character code
code
character
converting
width
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2234377A
Other languages
English (en)
Inventor
Toshiro Matsui
敏郎 松井
Yasushi Tamayama
玉山 恭
Eiichi Nanbu
南部 栄一
Masashi Mimura
三村 昌司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Information Systems Ltd
Original Assignee
Hitachi Information Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Information Systems Ltd filed Critical Hitachi Information Systems Ltd
Priority to JP2234377A priority Critical patent/JPH04115325A/ja
Publication of JPH04115325A publication Critical patent/JPH04115325A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野コ 本発明は、電子計算機を用いたレコードのソート方式に
係り、かな文字コードをキーとした文字コードのソート
方式に関する。
[従来の技術] 従来から行なわれているソート方式は、原文字コード列
の文字コード値をそのままソートキー値として採用し、
レコードをソートするというものである。
第12図はこの従来技術により原文字コード例をソート
した結果の例を示す図である。
従来技術は、この図に示すように、原文字コード列の文
字コード値毎のソートしかできないため、次のような欠
点を有する。
対応する半角文字コードと全角文字コードが離れた位置
にソートされる。例えば、図示半角文字コード#25の
「ア」 と全角文字コード#17の「ア」が離れてソー
トされる。
対応するひらがなコードとカタカナコードが離れてソー
トされる。例えば、ひらがなコード:1の「さいど」と
カタカナコード#19の「サイド」が離れてソートされ
る。
対応する拗音文字コード及び促音文字コードと直音文字
コードが離れてソートされる。例えば、拗音文字コード
「よ」を含んだ文字コード列#6の「しよう」と直音文
字「よ」を含んだ文字コード列#8の「しようJが、ま
た、促音文字コード「っ」を含んだ文字コード列#2の
「さっか」と直音文字「つ」を含んだ文字コード列#4
の「さっか」)が離れてソートされる。
対応する濁音文字コード及び半濁音文字・コード及び濁
点コードによる濁音文字及び半濁点コードによる半濁音
文字と清音文字コードが離れてソートされる。例えば、
濁音文字コード「ば」を含んだ文字コード列#13の「
ばい」と半濁音文字コード「ば」を含んだ文字コード列
#15の「ばい」と清音文字コード「は」を含んだ文字
コード列#11の「はい」が離れてソートされる。
また、長音文字コードがすぐ前の文字コードの母音文字
コードに置き替えられた位置にソートされない。例えば
、文字コード列821の「データ」が文字コード列#2
3の「デエタ」の位置にソートされない。
また、文字列のソートを行う他の従来技術として、(社
)情報処理学会、情報企画調査合着による「情報技術標
準化フォーラム「日本語処理の統−的取り扱い」講演資
料A  (p41.pp53−55、(社)情報処理学
会、情報企画調査会発行、昭和63年12月7日)等に
記載された技術が知られている。
この従来技術は、第13図(a)に示すような照合順番
衣と、第13図(b)に示すような変換表とを用いて文
字コードの大小比較をユーザ定義可能にする文字コード
のソート方式に関するものである。
第13図(c)はこの従来技術により原文字列をソート
した結果を示す図である。
この従来技術は、対応する半角文字コード、全角文字コ
ード等対応する文字コードを同じコードに変換し、その
変換された文字コードをソートキー値として文字列のソ
ートを行うものであり、対応する半角文字コードと全角
文字コード等の対応する文字コード同士を近い位置にソ
ートすることができるが、変換後の文字コード列が同一
の場合、その同じ変換後の文字コード列のレコード内で
のソートが行なわれないため、次のような欠点生じる。
すなわち、 対応する半角文字コードと全角文字コードとの順序が不
定となる。例えば、第13[](c)の半角文字コード
#2の「ア」 と全角文字コード#1の「アJの順序が
不定となる、 対応するひらがなコードとカタカナコードとの順序が不
定となる。例えば、ひらがな文字コード列#5の[さい
どJとカタカナ文字コード列#6の「サイド」との順序
が不定となる、 対応する拗音文字コード及び促音文字コードと直音文字
コードとの順序が不定となる。例えば、の拗音文字コー
ド「よ」を含んだ文字コード列#11の「しよう」と直
音文字「よ」を含んだ文字コード列#12の「しよう」
との順序が不定となり、また、促音文字コード「っ」を
含んだ文字コード列#7の「さっか」と直音文字「つ」
を含んだ文字コード列#8の「さつか」との順序が不定
となる、 長音文字コードがすぐ前の文字コードの母音文字コード
に置き換えられた位置にソートされない。
例えば、文字コード列#17の「データ」が「デエタ」
の位置にソートされない、等の欠点を有している。
また、文字列のソートを行う他の従来技術として、社団
法人 日本電子工業振興協合着 「日本語処理技術に関
する調査研究J  (pp22−44、社団法人 日本
電子工業振興協会発行、昭和60年3月)に記載された
技術が知られている。
この従来技術は、原文字列の拗音文字コード及び促音文
字コードを直音の対応する文字コードに変換する手段と
、長音文字コードをすぐ前の文字コードの母音文字コー
ドに変換する手段と、濁音文字コード及び半濁音文字コ
ードを対応する清音文字コードに変換する手段とを備え
、変換した文字コード列に、文字属性コードとして、拗
音文字コード、促音文字コード、または、長音文字コー
ドのいずれかであるかの区別と、濁音文字コードである
か否かの区別と、半濁音文字コードであるか否かの区別
とを、原文字列の各文字コードに対応させて付加して、
固定長のソートキー値を作り、これにより、漢字辞書フ
ァイル内の人名をソートする方式に関するものである。
第14図はカタカナの読み文字を6文字のソートキー値
に変換し、この従来技術によるソート方法を用いてソー
トした結果を示す図である。
この従来技術は、前述した2つの従来技術の欠点であっ
た文字コード列の並びについて解決されているが、可変
長の文字コード列のままソートを行うことができず、例
えば、第14図の例では、固定長6文字に変換されたも
のしかソートを行うことができず、また、ソートキー値
が固定長なので(例えば、第14図の文字コード#1の
「ア」は1文字であるか、6文字分のソートキー値に変
換される。)、ソートを行う場合に、無駄なメモリ領域
を使用するという欠点があった。
[発明が解決しようとする課題] 前述したように、従来技術は、可変長の文字コード列を
ソートできる場合、文字コード列を文字コード列全体の
音を見てソフトすることができず、また、文字コード列
を文字コード列全体の音で見たソートを行うことができ
、かつ、同音内でのソートもできる場合、可変長の文字
コード列のソートを行うことができないという問題点を
有している。
本発明の目的は、前記従来技術の問題点を解決し、文字
コード列を1文字ずつ見た音でソートするのではなく、
文字コード列を文字コード列全体で見た音でソートする
ことのできる文字コードのソート方式を提供することに
ある。
[課題を解決するための手段] 本発明によれば前記目的は、半角文字コードを全角文字
コードに変換する手段と、ひらがなコードをカタカナコ
ードに変換する手段と、拗音文字コード及び促音文字コ
ードを対応する直音文字コードに変換する手段と、長音
文字コードをすぐ前の文字コードの母音文字コードに変
換する手段と、濁音文字コード及び半濁音文字コードを
対応する清音文字コードに変換する手段と、濁点コード
及び半濁点コードを削除する手段とを備え、これらの手
段によりソートキー値を作成し、このソートキー値によ
るソートを実行し、ソートの結果の取り出し時に、前記
ソートキー値に同一のものがあれば原文字コード列でソ
ートを行うようにすることにより達成される。
また、本発明によれば前記目的は、半角文字コ−ドを全
角文字コードに変換する手段と、ひらがなコードをカタ
カナコードに変換する手段と、拗音文字コード及び促音
文字コードを対応する直音文字コードに変換する手段と
、長音文字コードをすぐ前の文字の母音文字コードに変
換する手段と、濁音文字コード及び半濁音文字コードを
対応する清音文字コードに変換する手段と、濁点コード
及び半濁点コードを削除する手段とを備え、これらの手
段により変換した文字コード列に、区切りコードを付加
し、さらに区切りコードの後に文字属性コードとして、
全角ひらがな、全角カタカナ、または、半角カタカナの
いずれであるかの区別を示すコードと、拗音文字コード
、促音文字コード、または長音文字コードのいずれかで
あるかの区別を示すコードと、濁音文字コードであるか
否かの区別を示すコードと、半濁音文字コードであるか
否かの区別を示すコードとを、原文字コード列の各文字
コードに対応させて付加してソートキー値を作成し、こ
のソートキー値を用いてソートを実行するようにするこ
とにより達成される。
さらに、本発明によれば前記目的は、前述した2つのソ
ート方法において、半角文字コードを全角文字コードに
変換する手段に代えて、対応する半角文字コードがある
全角文字コードについて、該全角文字コードを半角文字
コードに変換する手段を設けることにより達成される。
[作 用] 前述した手段により構成される本発明は、原文字コード
列の文字コードを、拗音文字コード及び促音文字コード
の対応する直音文字コードに変換するなどの方法によっ
て、基本となる文字コードに変換してソートし、該変換
後、文字コード列が同じコードであるとき、さらに、原
文字列でソートすることにより、所定の順序に文字列を
ソートすることができる。
また、前述した手段により構成される本発明は、基本と
なる音の文字コードと区切りコードと文字の属性コード
とによりソートキー値を作り、これによりソートするこ
とにより、所定の順序に文字列をソートすることができ
る。
[実施例] 以下、本発明による文字コードのソート方式の一実施例
を図面により詳細に説明する。
第1図は本発明の第1の実施例の構成を示すブロック図
である。
本発明の第1の実施例による文字コードのソート部10
1は、第1図に示すように、入力部102と、変換抜文
字コード列ソート部103と、出力部104と、原文字
コード列ソート部105とにより構成されている。
このように構成される本発明の第1の実施例において、
入力部102は、ソートすべき文字列によるレコードが
入力され、入力された原文字コード列を変換して、ソー
トキー値となる文字コード列を作成する。変換抜文字コ
ード列ソート部103は、前記入力部で変換された変換
後の文字コード列でレコードをソートする。また、出力
部104は、ソートキー値が同じものがある場合、原文
字コード列ソート部105でその部分を原文字コード列
によりソートさせた後、元のレコードを出力する。また
、出力部104は、ソートキー値に同じものがない場合
、前記入力部102で加工されたレコードからの変換抜
文字コード列ソート部103のソート結果を、元のレコ
ードで出力する。
原文字コード列ソート部105は、前記変換後文字コー
ド列が同じ場合に、原文字コード列をそのままソートキ
ー値としてソートし、その結果を出力部104に戻す。
第2図は第1図における入力部102の動作を説明する
フローチャートであり、次に、この図を参照して入力部
の動作を説明する。
(1)元のレコードから最初の原文字コード列Sを取り
出し、この文字コード列から1文字の文字コードCを取
り出す(ステップ201.202)。
(2)文字コードCが濁点コードまたは半濁点コードか
否かを判定する(ステップ203)。
(3)ステップ203で、文字コードCが濁点コードま
たは半濁点コードであった場合、原文字コード列Sの全
ての文字について処理したか否か判定する(ステップ2
17)。
(4)ステップ203で、文字コードCが濁点コードま
たは半濁点コードでない場合、文字コードCが長音文字
コードか否かを判定する(ステップ2o4)。
(5)ステップ204で、長音文字コードであったと判
定された場合、すぐ前の文字コードの母音文字コードを
文字コードCとする(ステップ205)。
(6)ステップ204で、長音文字コードでないと判定
された場合、文字コードCが半角カタカナコードか否か
判定する(ステップ206)。
(7)ステップ206で、半角カタカナであった場合は
、それに対応する全角カタカナコードを文字コードCと
する(ステップ207)。
(8)ステップ206で、半角カタカナでないと判定さ
れた場合、文字コードCが全角ひらがなコードか否かを
判定する(ステップ2o8)。
(9)ステップ208で、全角ひらがなコードであると
判定された場合、それに対応する全角カタカナコードを
文字コードCとする(ステップ209)。
(10)文字コードCが拗音文字コードまたは促音文字
コードか否かを判定する(ステップ21○)。
(11)ステップ210で、拗音文字コードまたは促音
文字コードであると判定された場合、それに対応する直
音文字コードを文字コードCとする(ステップ211)
(12)ステップ210で、拗音文字コードまたは促音
文字コードでないと判定された場合、文字コードCが濁
音文字コードか否かを判定する(ステップ212)。
(13)ステップ212で、濁音文字であると判定され
た場合、それに対応する清音文字コードを文字コードC
とする(ステップ213)。
(14)ステップ212で、濁音文字でないと判定され
た場合、文字コードCが半濁音文字コードか否かを判定
する(ステップ214)。
(15)ステップ214で、半濁音文字コードであると
判定された場合、それに対応する清音文字コードを文字
コードCとする(ステップ215)。
(16)その後、前述のステップによる変換後文字コー
ド列に文字コードCを加える(ステップ216)。
(17) /iIX文字コード列Sの全ての文字コード
について処理したかどうか判定し、まだ、終わっていな
い場合、ステップ202よりの処理を繰り返し、原文字
コード列Sより次の文字コードCを取り出す(ステップ
217.2o2)。
(18)原文字コード列Sの全ての文字コードについて
処理が終了している場合、変換後文字コード列と元のレ
コードの位置から成るソートキー値を作る(ステップ2
18)。
(19)すべての原文字コード列について処理が終了し
たか否かを判定し、まだ、終了していない場合は、ステ
ップ201からの処理繰り返し、次の原文字コード列S
を取り出す(ステップ219.201)。
第3図は第1図における原文字列ソート部105の動作
を説明するフローチャートであり、次に、これについて
説明する。
(1)レコードカウンタ1を1に初期化し、この値1が
レコード数より小さいか否かを判定する(ステップ30
1.302)。
(2)ステップ302の判定で、■がレコード数より小
さい場合、レコードカウンタJを]+1に初期化し、j
がレコード数以下か否かを判定する(ステップ303.
304)。
(3)ステップ304の判定で、jがレコード数より大
きい場合、レコードカウンタ1に1を加え、繰り返しそ
のiについての処理を実行する(ステップ305.30
2)、。
(4)ステップ304の判定で、Jがレコード数に等し
いか、小さい場合、i番目のレコードの原文字コード列
とj番目のレコードの原文字コード列とを比較する(ス
テップ306)。
(5)ステップ306の比較で、i番目のレコードの原
文字コード列がj番目のレコードの原文字コード列より
大きい場合、i番目のレコードと3番目のレコードを入
れ替える(ステップ307)。
(6)ステップ306の比較で、i番目のレコードの原
文字コード列がj番目のレコードの原文字コード列より
小さい場合、または、ステップ307の処理を終了した
場合、レコードカウンタJに1加え、ステップ304よ
りの処理を繰り返し、そのJについての処理を実行する
(ステップ308)。
第4図は第1図における入力部102で変換して作られ
る文字列を説明する図である。
第4図において、例えば、原文字列がFサイドJの場合
、その原文字コード列401は、16進数で、“’83
5483438368”と表される。
この文字列は、第1図における入力部102で変換され
、文字列「サイトJとされる。その文字コード列402
は、16進数で、”835483438367”と表さ
れる。
第5図は、第1図における入力部102で付加して作ら
れるレコードの説明図であり、入力部102で、元のレ
コード501から、前述した変換方法により変換された
文字コード列を含んだレコード502を作成することを
示している。
第15図は、前述した変換方法により変換した文字コー
ド列によるレコードをソートした結果を説明する図であ
る。
この図は、元のレコードの各文字について、原文字列、
その原文字列のコード列、変換後の文字列のコード列、
変換後の文字列の順で並べて、ソート結果を示しており
、文字コードは、シフトJISコードで16進数表示さ
れている。
第15図に示すように、変換後の文字コード列でソート
された結果、その変換後文字コード列が等しい文字コー
ド、例えば、#lと#2、#3と#4等の文字コードは
、原文字コード列でソートされる。第15図に示す原文
字列を、このようにソートすると、このソート結果は、
第15図に示す順序となる。
第6図は本発明の第2の実施例の構成を示すブロック図
である。
本発明の第2の実施例による文字コードのソート部60
1は、元のレコードが入力され、入力された原文字コー
ド列を変換してソートキー値を作成し、レコードに付加
する入力部602と、レコードの変換したコード列部分
をソートキー値としてソートする変換後コード列ソート
部603と、前記入力部602で作成され付加されたソ
ートキー値をレコードから削除して出力する出力部6゜
4とにより構成されている。
第7図は、第6図における入力部602の動作を説明す
るフローチャートであり、以下、このフローにより、入
力部602の動作を説明する。
(1)元のレコードから最初の原文字コード列Sを取り
出し、この文字コード列から1文字の文字コードCを取
り出す。また、文字属性コードaを0で初期化する(ス
テップ701〜703・)。
(2)文字コードCが濁点コードであるか否かを判定し
、文字コードCが濁点コードであった場合、ひとつ前の
文字コードに対応する文字属性コードに8を加える(ス
テップ704,705)。
(3)ステップ704で、文字コードCが濁点コードで
ない場合、文字コードCが半濁点コードか否かを判定し
、文字コードCが半濁点コードであった場合は、ひとつ
前の文字コードに対応する文字属性コードに12を加え
る(ステップ706.707)。
(4)ステップ706で、文字コードCが半濁点コード
でない場合、文字コードCが長音文字コードか否かを判
定し、文字コードCが長音文字コードであった場合、す
ぐ前の文字コードの母音文字コードを文字コードCとす
る(ステップ708.709)。
(5)ステップ708で、文字コードCが長音文字コー
ドでない場合、文字コードCが半角カタカナコードか否
かを判定し、文字コードCが半角カタカナコードであっ
た場合、それに対応する全角カタカナコードを文字コー
ドCとし、文字属性コードaに2を加える(ステップ7
10,711)。
(6)ステップ710で、文字コードCが半角カタカナ
コードでない場合、文字コードCが全角ひらがなコード
か否かを判定し、文字コードCが全角ひらがなコードで
あった場合、それに対応する全角カタカナコードを文字
コードCとする(ステツブ712.713)。
(7)ステップ712で、文字コードCが全角ひらがな
コードでない場合、文字コードCが全角カタカナコード
か否かを判定し、文字コードCが全角カタカナコードで
あった場合、文字属性コードaに1を加える(ステップ
714.715)。
(8)ステップ714で、文字コードCが全角カタカナ
コードでない場合、文字コードCが拗音文字コードまた
は促音文字コードか否かを判定し、文字コードCが拗音
文字コードまたは促音文字コードであった場合、それに
対応する直音文字コードを文字コードCとする(ステッ
プ716.717)。
(9)ステップ716で、文字コードCが拗音文字コー
ドまたは促音文字コードでない場合、文字コードCが濁
音文字コードか否かを判定し、文字コードCが濁音文字
コードであった場合、それに対応する清音文字コードを
文字コードCとし、文字属性コードaに8を加える(ス
テップ718.719)。
(10)ステップ718で、文字コードCが濁音文字コ
ードでない場合、文字コードCが半濁音文字コードか否
かを判定し、文字コードCが半濁音文字コードであった
場合、それに対応する清音文字コードを文字コードCと
し、文字属性コードaに12を加える(ステップ720
.721)。
(11)ステップ720で、文字コードCが半濁音文字
コードでない場合、文字属性コードaに4を加える(ス
テップ723)。
(12)前述したステップの処理で変換された変換後文
字コード列に元の文字コードCを追加し、文字属性コー
ド列に文字コードCの文字属性コードaを追加する(ス
テップ724.725)。
(13)原文字コード列Sのすべての文字コードについ
て処理したか否かを判定し、処理が終了していない場合
、繰り返し原文字コード列Sより次の文字コードCを取
り出す処理を行う(ステップ726.702)。
(14)原文字コード列Sの全ての文字コードについて
処理が終了している場合、変換後文字コード列と区切り
コードと文字属性コード列とを結合しソートキー値を作
成し、そのソートキー値の長さと共にレコードに、この
該ソートキー値を加える(ステップ727)。
(15)全ての原文字コード列について処理したかが否
かを判定し、まだ、終了していない場合、繰り返し次の
原文字コード列Sを取り出す(ステップ728.701
)。
前述のフローによるステップの処理において、拗音文字
コード、促音文字コード、直音文字コード、清音文字コ
ード、濁音文字コード、半濁音文字コードの文字属性コ
ードの設定は、第17図に示すような文字属性コードの
変換表を用いて行うこともできる。
第8図は第6図における入力部602で作られる文字属
性コードの説明図である。
1つの文字コードに対応する文字属性コードは、4ビツ
トからなっており、第0ビツトと第1ビツトとにより「
拗音文字コード、促音文字コードまたは長音文字コード
のいずれであるか」、「直音文字コードかつ清音コード
」、[濁音コードJ、「半濁音コード」のいずれである
かの区別をしている。すなわち、 第Oビット/第1ビット=OO:拗音文字コード、促音
文字 コードまたは 長音文字コー ド 01:直音コード かつ清音コー ド 10:濁音コード 11:半濁音コー ド 第2ビツトと第3ビツトで全角ひらがなコード、全角カ
タカナコード、半角カタカナコードのいずれであるかの
区別をする。すなわち、 第2ビット/第3ビット=OO:全角ひらがなコード 01:全角カタカナ コード 10:半角カタカナ コード 11:未使用 文字属性コードの値とその意味は第11図のとおりであ
る。
第9図は第6図における入力部602で変換して作られ
るソートキー値の説明図である。
例えば、原文字列が「サイド」の場合、その原文字コー
ド列901は、”835483438368”である。
それを第6図における入力部6゜2で変換して作られる
ソートキー値902は、文字属性コードが付加されて“
8354834383670559”とされる。
第10図は第6図における入力部602の入出力レコー
ドの説明図である。
第6図における入力部602の入力レコード1001は
、第10図に示すように、ソートキー値とその長さが付
加され、出力レコード1002とされる。
第11図は文字属性コードの値とその意味を説明する図
である。
第16図(a)、(b)は、第7図のフローにより前述
で説明した方法によるソート結果を示す図である。この
図において、原文字列・その原文字列のコード列・ソー
トキー値・変換後の文字列がこの順で並んで示されてい
る。文字コードはシフトJISコードで16進数表示さ
れている。
第16図(a)の原文字列を第7図に説明した文字コー
ドの変換を行い、これによりソートを行うと、第16図
(a)の順序となる。
第16図(b)は、従来技術の第14図のソート過程に
おける変換後コード列の大きさを比較するための本発明
の変換後文字コード列を示したものである。
[発明の効果コ 以上説明したように本発明によれば、文字コード列のソ
ートにおいて、文字毎の音でソートするのではなく、文
字コード列全体の音で見たソートを行うことができ、か
つ、可変長の文字コード列に対するソートをも行なうこ
とができる。
【図面の簡単な説明】
第1図は本発明の第1の実施例の構成を示すブロック図
、第2図は第1図における入力部102の動作を説明す
るフローチャート、第3図は第1図における原文字列ソ
ート部105の動作を説明するフローチャート、第4図
は第1図における入力部102で変換して作られる文字
コード列を説明する図、第5図は第1図における入力部
102への入力レコードと入力部102からの出力レコ
ードを説明する図、第6図は本発明の第2の実施例の構
成を示すブロック図、第7図は第6図における入力部6
02の動作を説明するフローチャート、第8図は第6図
における入力部602で作られる文字属性コードを説明
する図、第9図は第6図における入力部602で変換し
て作られるソートキー値を説明する図、第1O図は第6
図における入力部602への入力レコードと入力部60
2からの出力レコードを説明する図、第11図は文字属
性コードの値とその意味を説明する図、第12図は文字
コード列をそのままソートした従来技術のソート結果の
説明図、第13図(a)は従来技術の照合順番表の説明
図、第13図(b)は従来技術の変換表の説明図、第1
3図(c)は第12図(a)の照合順番表と第12図(
b)の変換表を用いた従来技術のソート結果の説明図、
第14図は文字コード列を固定長のソートキー値を作り
、人名ソートを行なう従来技術のソート結果の説明図、
第15図は本発明の第1の実施例によるソート結果の説
明図、第16図(a)(b)は本発明の第2の実施例に
よるソート結果の説明図、第17図は第7図(a)、(
b)において、文字属性コードの「拗音文字コード、促
音文字コードまたは長音文字コード」であるかの識別子
と、「直音文字コードかつ清音文字コード」であるかの
識別子、「濁音文字コード」であるかの識別子、「半濁
音文字コード」であるかの識別子をセットする方法の一
例である文字属性コード変換表の説明図である。 101・・・・・・文字コードのソート部、102・・
・・・・入力部、103・・・・・・変換後文字コード
列ソート部、104・・・・・・原文字コード列ソート
部、105・・・・・・出力部、601・・・・・・文
字コードのソート部、602・・・・・・入力部、60
3・・・・・・変換後コード列ソート部、604・・・
・・・出力部。 第4図 第5図 I:Iol 第3図 ¥7図(その1) 第7図(その2) 第8図 文字属性コード(4ピント) 濁音識別子 変換前文字 変換音KWまS−ド 順番 第13図(b) 順番 変換後文字コード (16進数) 交換後文字 17ア 18イ 19   サイド 25ア 26イ 第13図(C) #24と#25と#26の順序は不定。 壮 昨

Claims (1)

  1. 【特許請求の範囲】 1、電子計算機を用いた文字コードのソート方式におい
    て、半角文字コードを全角文字コードに変換する手段と
    、ひらがなコードをカタカナコードに変換する手段と、
    拗音文字コード及び促音文字コードを対応する直音文字
    コードに変換する手段と、長音文字コードをすぐ前の文
    字コードの母音文字コードに変換する手段と、濁音文字
    コード及び半濁音文字コードを対応する清音文字コード
    に変換する手段と、濁点コード及び半濁点コードを削除
    する手段とを備え、これらの手段によりソートキー値を
    生成し、該ソートキー値により文字コードのソートを実
    行し、このソート結果の取り出し時に、前記ソートキー
    値に同一のものがある場合、その部分について原文字コ
    ード列でソートを実行することを特徴とする文字コード
    のソート方式。 2、電子計算機を用いた文字コードのソート方式におい
    て、半角文字コードを全角文字コードに変換する手段と
    、ひらがなコードをカタカナコードに変換する手段と、
    拗音文字コード及び促音文字コードを対応する直音文字
    コードに変換する手段と、長音文字コードをすぐ前の文
    字コードの母音文字コードに変換する手段と、濁音文字
    コード及び半濁音文字コードを対応する清音文字コード
    に変換する手段と、濁点コード及び半濁点コードを削除
    する手段とを備え、これらの手段により変換した文字コ
    ードに、区切りコードを付加し、さらに区切りコードの
    後に文字属性ロードとして、全角ひらがな、全角カタカ
    ナ、または、半角カタカナのいずれであるかを示すコー
    ドと、拗音文字コード、促音文字コード、または、長音
    文字コードのいずれであるかを示すコードと、濁音文字
    コードであるか否かを示すコードと、半濁音文字コード
    であるか否かを示すコードとを付加してソートキー値を
    生成し、該ソートキー値により文字コードのソートを実
    行することを特徴とする文字コードのソート方式。 3、前記半角文字コードを全角文字コードに変換する手
    段に代わり、対応する半角文字コードがある全角文字コ
    ードについて、該全角文字コードを半角文字コードに変
    換する手段を備えることを特徴とする特許請求の範囲第
    1項または第2項記載の文字コードのソート方式。
JP2234377A 1990-09-06 1990-09-06 文字コードのソート方式 Pending JPH04115325A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2234377A JPH04115325A (ja) 1990-09-06 1990-09-06 文字コードのソート方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2234377A JPH04115325A (ja) 1990-09-06 1990-09-06 文字コードのソート方式

Publications (1)

Publication Number Publication Date
JPH04115325A true JPH04115325A (ja) 1992-04-16

Family

ID=16970053

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2234377A Pending JPH04115325A (ja) 1990-09-06 1990-09-06 文字コードのソート方式

Country Status (1)

Country Link
JP (1) JPH04115325A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08297658A (ja) * 1995-04-26 1996-11-12 Nec Software Ltd 日本語文字並び換え方法とその装置
JPH08328825A (ja) * 1995-05-30 1996-12-13 Nec Corp 日本語順列編成方法
US6047299A (en) * 1996-03-27 2000-04-04 Hitachi Business International, Ltd. Document composition supporting method and system, and electronic dictionary for terminology

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6081639A (ja) * 1983-10-08 1985-05-09 Ricoh Co Ltd 項目整列方式
JPH0227423A (ja) * 1988-07-18 1990-01-30 Oki Electric Ind Co Ltd 日本語文字データの並び換え方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6081639A (ja) * 1983-10-08 1985-05-09 Ricoh Co Ltd 項目整列方式
JPH0227423A (ja) * 1988-07-18 1990-01-30 Oki Electric Ind Co Ltd 日本語文字データの並び換え方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08297658A (ja) * 1995-04-26 1996-11-12 Nec Software Ltd 日本語文字並び換え方法とその装置
JPH08328825A (ja) * 1995-05-30 1996-12-13 Nec Corp 日本語順列編成方法
US6047299A (en) * 1996-03-27 2000-04-04 Hitachi Business International, Ltd. Document composition supporting method and system, and electronic dictionary for terminology

Similar Documents

Publication Publication Date Title
US7103596B2 (en) Data sort method, data sort apparatus, and data sort program
EP0293161B1 (en) Character processing system with spelling check function
CN110245349A (zh) 一种句法依存分析方法、装置及一种电子设备
JP2001331514A (ja) 文書分類装置及び文書分類方法
JP3258063B2 (ja) データベース検索システム及び方法
JPH04115325A (ja) 文字コードのソート方式
CN114780577A (zh) Sql语句生成方法、装置、设备及存储介质
JP2004178490A (ja) 数値情報検索装置
JPH04326164A (ja) データベース検索システム
JP2993540B2 (ja) 昇順整数列データの圧縮および復号システム
JP3253657B2 (ja) 文書検索方法
JPH056398A (ja) 文書登録装置及び文書検索装置
JPH03210627A (ja) 電子計算機
JPH0743728B2 (ja) 要約文生成方式
JPH103478A (ja) 概念の類似性判別方法
Maurel Pseudo-minimal transducer
JPH01266670A (ja) 日本語対象文固有用語抽出処理装置
JPH06274547A (ja) 複合語認識装置
JP3344755B2 (ja) 昇順整数列データの圧縮および復号システム
JPH05225248A (ja) データベース検索システム
JPH1021246A (ja) 文書検索システム
JP3224917B2 (ja) 名標辞書作成装置
JPH03259329A (ja) 大容量データのキー相対アドレス分類方式
JPH05341961A (ja) 整列のカストマイズ方法
JPS61184597A (ja) 単語音声認識装置の予備選択回路