JPH0895749A - 最適化コード変換装置 - Google Patents

最適化コード変換装置

Info

Publication number
JPH0895749A
JPH0895749A JP6234639A JP23463994A JPH0895749A JP H0895749 A JPH0895749 A JP H0895749A JP 6234639 A JP6234639 A JP 6234639A JP 23463994 A JP23463994 A JP 23463994A JP H0895749 A JPH0895749 A JP H0895749A
Authority
JP
Japan
Prior art keywords
code
code conversion
conversion table
reference frequency
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6234639A
Other languages
English (en)
Inventor
Tei Watanabe
禎 渡邊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Solution Innovators Ltd
Original Assignee
NEC Solution Innovators Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Solution Innovators Ltd filed Critical NEC Solution Innovators Ltd
Priority to JP6234639A priority Critical patent/JPH0895749A/ja
Publication of JPH0895749A publication Critical patent/JPH0895749A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】平均的なキー値検索の回数を低減して、キー値
検索形式によるコード変換処理速度を高める。 【構成】キー値検索形式の第2コード変換テーブル12
の配列に、当該エントリの参照頻度の項目を設けておき
当該エントリが参照されるごとに、参照頻度も計測す
る。そして、参照頻度の降順に第2コード変換テーブル
12の配列を更新する処理をコード変換処理とは独立し
て行なう。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は最適化コード変換装置、
特に漢字、ひらがななどの文字をコンピュータ内部で表
現する複数バイトの文字コードからなるテキストデータ
を文字とコードとの対応関係が異なるシステム間で利用
する際に必要なコード変換処理で、入力コードとそれに
対する出力コードが同一であるものが多く存在する場合
に適する最適化コード変換装置に関する。
【0002】
【従来の技術】コード変換処理は、一般に、オンライン
処理プログラムやネットワーク・オペレーティングシス
テム内でテキストデータを構成する日本語文字コード
を、文字とコードとの対応関係が異なるシステム間で利
用可能にするために行われる。
【0003】従来のこの種のコード変換方式は、処理速
度を上げるために、対応するコードを割り当てたコード
表全体をメモリ上に備えるものと、使用メモリを減少さ
せるためにコード表を分割し、頻繁に使用されるコード
表の部分のみをメモリ上にロードするものとが知られて
いる。
【0004】
【発明が解決しようとする課題】上述した従来のコード
変換処理方式のうち、コード表全体を備えるものは対象
コードの種類が増えるとそれに伴いメモリ使用量が増大
し、またコード表を分割ロードする方式は使用コードが
分散した場合に処理速度が低下するという問題があっ
た。
【0005】
【課題を解決するための手段】本発明の装置は、漢字、
ひらがななどの文字をコンピュータ内部で表現する複数
バイトの数値の文字からなるテキストデータを、文字と
コードとの対応関係が異なるシステム間で利用する際に
必要なコード変換処理装置において、コード変換テーブ
ルが第1と第2の二重構成であり、前記第1コード変換
テーブルは入力コードの上位ビットでアクセスされる各
エントリに前記第2コード変換テーブルのポインタを格
納しており、前記第2コード変換テーブルは、前記入力
コードの下位ビットで連続してアクセスされる各エント
リに、変換後コードを格納したコード格納形式テーブル
と、前記入力コードの下位ビットをキー値として検索さ
れる各エントリに、変換後コードおよび当該エントリの
参照頻度の項目を有するキー値検索形式のテーブルと、
前記参照頻度を計測する参照頻度計測手段と、コード変
換処理とは独立して前記参照頻度により前記キー値検索
形式テーブルの配列を降順に並べかえるテーブル更新手
段を設けたことを特徴とする最適化コード変換装置。特
徴とする。
【0006】
【実施例】本発明において、変換テーブルのデータ量を
低減するために用いられる最適化コード変換テーブルは
図1で示されるとおり、第1変換テーブル10と、2種
類の第2変換テーブル11,12とで構成される。
【0007】第1コード変換テーブル10には、入力コ
ードに対する変換後コードが複数に分割されて格納され
た第2コード変換テーブル11または12の先頭アドレ
スが格納されている。
【0008】ここで入力コードをXii (16進)と
すると、第2コード変換テーブル11には上位1バイト
の値Xi ごとにXi 00(16進)からXi FF(16
進)の入力コードに対する変換後コードCi が格納され
ており、Xi が00(16進)からFF(16進)のそ
れぞれに対応した第2コード変換テーブル11が複数存
在する。
【0009】変換コードCi は入力コードXii に対
応して全て順番に格納されているため、入力コードを数
値として出力コードの格納されているアドレスを算出し
て参照することができる。
【0010】第2コード変換テーブル11は、入力コー
ドXi 00(16進)からXi FF(16進)に変換の
対象となるコードが多く存在する場合適合するテーブル
であり、Xi 00はC00,Xi 01はC01…と順に
対応させて、COO〜CFFの全てを連続して格納するコー
ド順格納形式を採用している。ここで変換対象ではない
入力Xi nnに対するCnnの部分も内容は参照されない
が記録領域は確保される。
【0011】一方、変換の対象となるコードが少ない場
合は、上記のコード順格納形式では変換対象の是非にか
かわらず必ず全変換後コードの領域を必要とするため、
ほとんどが参照されない領域も確保されるので記憶領域
の使用効率が低下する。このため、変換対象の入力コー
ドに対応する変換後コード(必要なコード)のみを格納
する、以下のようなキー値検索形式を採用した第2コー
ドが変換テーブル12が併用される。
【0012】第2コード変換テーブル12では、必要な
コードのみが非連続に格納されているため、どの入力コ
ードに対する変換後コードCi か判断するためのキー値
を入力コードXii の下位1バイト値Yi とし、また
この変換後コードCi が参照された頻度を適当な数値R
i として格納する。すなわち、第2コード変換テーブル
12の構造はキー値Ki ,変換後コードCi および参照
頻度Ri からなる構造体の配列となる。
【0013】図2は本発明のブロック図を示し、第1コ
ード変換手段20、第2コード変換手段21、2つの第
2コード変換テーブル22,24および第2コード変換
テーブル更新手段23により構成される。なお、第2コ
ード変換テーブル22,24はそれぞれ図1で示した第
2変換テーブル12,11と同一である。
【0014】入力コードをXii (16進)とする
と、第1コード変換手段20は、入力コードの上位バイ
トの値Xi から適当な計算式により算出したオフセット
を第1変換テーブル10の先頭アドレスに加算し、第2
コード変換テーブルの格納アドレスを示すポインタ(図
1中のPi )の格納アドレスを算出する。これによりX
i 00(16進)からXi FF(16新)に対応した変
換コードCi を格納した第2コード変換テーブルの格納
アドレスを取得する。
【0015】例えば入力コードが3021(16新)で
ある場合、第1コード変換テーブル10の先頭アドレス
+(ポインタの格納領域サイズ×30(16進))の位
置に、対応する変換後コードが格納された第2コード変
換テーブルへのポインタP30が格納されており、これを
取得する。
【0016】次に、第2コード変換手段21における処
理を図3のフローチャートで示す。先ず、上記で取得し
たポインタPi の示す第2コード変換テーブルの格納形
式を判断する。この判断は、例えば第2コード変換テー
ブルのエントリごとに設けたフラグの内容により行う。
【0017】格納形式がコード順格納形式である場合、
格納アドレスの算出処理301を行う。すなわち、この
格納形式では入力コードXi 00(16進)からXi
F(16進)に対応する変換後コードCi が全て順番に
連続して格納されているので、入力コードの下位1バイ
ト値Yi から適当な数式により算出したオフセットを第
2変換テーブル11の先頭アドレスに加算し、変化後コ
ードCi の格納されているアドレスを算出し、変換後コ
ードCi を取得する。
【0018】例えば、入力コードが3021(16進)
である場合、第2コード変換テーブル30の先頭アドレス
+(変換後コード格納領域サイズ×21(16進))の
位置に、対応する変換コードC21が格納されており、こ
れを取得する。
【0019】一方、格納形式がキー値健作形式である場
合、まず、キー値検索処理311を行う。すなわち、入
力コードXii の下位1バイト値Yi をキーとして、
第2コード変換テーブル12の構造体配列の第1項目か
らであるキーKi を、構造体i ,構造体2 …と順に検索
を繰り返していき、Yi =Ki となった構造体1 の第2
項目である変換後コードCi をXii に対応する変換
後コードとして取得する。
【0020】例えば、入力コードが2821(16進)
である場合、第2コード変換テーブル28の先頭より構造
体配列の第1項目であるキーを参照し21(16進)と
一致するまで配列を検索し、一致した構造体の第2項目
に格納されたコードを変換後コードとして取得する。
【0021】次に、参照頻度計測期間内であるかを判断
し、計測期間である場合、参照頻度計測処理312を行
う。計測期間ではない場合、コード変換処理を終了す
る。コード変換処理は頻繁に使用されるため、常時参照
頻度の計測を行うと変換処理時間が長くなり処理性能を
低下させるので、適当な手段により計測期間を限定す
る。参照頻度の計測処理により処理性能の低下を犠牲に
してでも、より正確な参照頻度の計測を望む場合には常
時計測を行うことにしてもよい。
【0022】参照頻度計測処理では、前述のキー値検索
処理で参照した第2コード変換テーブル12の構造体i
の第3項目である参照頻度Ri を加算する。これにより
コード変換処理を一定期間行った後には、変換後コード
i ごとにそれぞれの参照頻度は加算され、多く参照され
た変換後コードほど、参照頻度は大きい値となってい
る。
【0023】また、コード変換処理とは独立して実行さ
れる、第2変換テーブル更新手段23は、適当な手段に
より定められた一定期間毎に第2コード変換テーブル2
2の構造体配列を参照頻度の値(Ri 〜Rn )により降
順に並べかえる。
【0024】第2コード変換テーブル更新手段23によ
る上述の処理が行われると、第2コード変換テーブル2
2の変換後コードの配列が参照頻度の大きい順、すなわ
ち参照される確率の高い順に並んでいるため、以降のコ
ード変換処理において、第2コード変換テーブル22の
キー値検索処理では、より少ない検索回数で変間後コー
ドを取得する傾向となり、平均のコード変換処理時間が
短縮される。
【0025】
【発明の効果】以上説明したように、本発明は、変換テ
ーブルのデータ量を低減する最適化コード変換テーブル
を用いたコード変換処理において、キー値を順次検索す
るための変換テーブルの配列に出力コード参照頻度の項
目を設け、その参照頻度の降順に変換テーブルの配列を
更新する処理をコード変換処理とは独立して行うこと
で、平均的なキー値検索の回数を低減し、従ってコード
変換処理速度を向上することができるという効果があ
る。
【図面の簡単な説明】
【図1】本発明における最適化コード変換テーブルの構
成図を示す図である。
【図2】本発明の構成を示すブロック図である。
【図3】第2コード変換処理のフローチャート図であ
る。
【符号の説明】
10 第1コード変換テーブル 11 第2コード変換テーブル 12 第2コード変換テーブル 20 第1コード変換手段 21 第2コード変換手段 22 第2コード変換テーブル 23 第2変換テーブル更新手段 24 第2コード変換テーブル

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 漢字、ひらがななどの文字をコンピュー
    タ内部で表現する複数バイトの数値の文字からなるテキ
    ストデータを、文字とコードとの対応関係が異なるシス
    テム間で利用する際に必要なコード変換処理装置におい
    て、 コード変換テーブルが第1と第2の二重構成であり、 前記第1コード変換テーブルは入力コードの上位ビット
    でアクセスされる各エントリに前記第2コード変換テー
    ブルのポインタを格納しており、 前記第2コード変換テーブルは、前記入力コードの下位
    ビットで連続してアクセスされる各エントリに、変換後
    コードを格納したコード順格納形式テーブルと、前記入
    力コードの下位ビットをキー値として検索される各エン
    トリに、変換後コードおよび当該エントリの参照頻度の
    項目を有するキー値検索形式のテーブルと、 前記参照頻度を計測する参照頻度計測手段と、 コード変換処理とは独立して前記参照頻度により前記キ
    ー値検索形式テーブルの配列を降順に並べかえるテーブ
    ル更新手段を設けたことを特徴とする最適化コード変換
    装置。
  2. 【請求項2】前記参照頻度の計測を一定期間のみ行うこ
    とを特徴とする請求項1記載の最適化コード変換装置。
JP6234639A 1994-09-29 1994-09-29 最適化コード変換装置 Pending JPH0895749A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6234639A JPH0895749A (ja) 1994-09-29 1994-09-29 最適化コード変換装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6234639A JPH0895749A (ja) 1994-09-29 1994-09-29 最適化コード変換装置

Publications (1)

Publication Number Publication Date
JPH0895749A true JPH0895749A (ja) 1996-04-12

Family

ID=16974186

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6234639A Pending JPH0895749A (ja) 1994-09-29 1994-09-29 最適化コード変換装置

Country Status (1)

Country Link
JP (1) JPH0895749A (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01152532A (ja) * 1987-12-09 1989-06-15 Mitsubishi Electric Corp コード変換装置
JPH01312625A (ja) * 1988-06-13 1989-12-18 Fuji Xerox Co Ltd コード変換装置
JPH0418662A (ja) * 1990-05-11 1992-01-22 Nec Corp 日本語ワードプロセッサ

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01152532A (ja) * 1987-12-09 1989-06-15 Mitsubishi Electric Corp コード変換装置
JPH01312625A (ja) * 1988-06-13 1989-12-18 Fuji Xerox Co Ltd コード変換装置
JPH0418662A (ja) * 1990-05-11 1992-01-22 Nec Corp 日本語ワードプロセッサ

Similar Documents

Publication Publication Date Title
US5551049A (en) Thesaurus with compactly stored word groups
CA1085056A (en) Multipass sorter for arranging an input list into numerical order
US5497485A (en) Method and apparatus for implementing Q-trees
US5754847A (en) Word/number and number/word mapping
US8032495B2 (en) Index compression
JP2000517086A (ja) オフセット表を使用する完全ハッシュの生成
US20020123995A1 (en) Pattern search method, pattern search apparatus and computer program therefor, and storage medium thereof
EP3292481B1 (en) Method, system and computer program product for performing numeric searches
CN103914506A (zh) 数据检索装置、数据存储方法和数据检索方法
JPH06222903A (ja) 文字データを圧縮し圧縮済みデータを展開するための静的辞書構造を提供する方法および手段
US20030130981A1 (en) Enhanced multiway radix tree and related methods
US5297038A (en) Electronic dictionary and method of codifying words therefor
US5553283A (en) Stored mapping data with information for skipping branches while keeping count of suffix endings
US6625592B1 (en) System and method for hash scanning of shared memory interfaces
JP2007034878A (ja) 情報処理方法、情報処理装置および情報処理プログラム
Bansal et al. Minimal pathset and minimal cutsets using search technique
JPH0895749A (ja) 最適化コード変換装置
EP0649105B1 (en) Word/number and number/word mapping
EP0649106B1 (en) Compactly stored word groups
JP2590866B2 (ja) データ検索装置
JP3115459B2 (ja) 文字認識辞書の構成方法及び検索方法
JPS6143338A (ja) 連想技術を使用して稀薄なデータベースをサーチする方法
JP3506742B2 (ja) W/nおよびn/wマッピング法
JP3722231B2 (ja) コンパクトにエンコードされて記憶されたストリングの組を有する製品
JPH06162096A (ja) レコード検索方法

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 19970114