JPH02257276A

JPH02257276A - 半角・全角文字識別方式

Info

Publication number: JPH02257276A
Application number: JP1032449A
Authority: JP
Inventors: Kiyoshi Watanabe; 清渡辺; Yoko Shiraishi; 陽子白石
Original assignee: KANSAI PANAFUAKOMU KK; PFU Ltd
Current assignee: KANSAI PANAFUAKOMU KK; PFU Ltd
Priority date: 1989-02-10
Filing date: 1989-02-10
Publication date: 1990-10-18
Anticipated expiration: 2012-07-09
Also published as: JP2629040B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［概要１半角文字と全角文字が混在する日本語処理システムにお
ける半角・全角文字識別方式に関し、半角文字と全角文
字を制御コードを用いることな（容易に識別することが
できる日本語処理システムを提供することを目的とし、１バイトの半角文字のコードを所定数値以下のビット構
成のコードに割当て、２バイトの全角文字の上位バイト
のコードを半角文字の数値より大きい値のコードに割当
てるコード発生部を備え、文字コードを処理する文字処
理部に文字識別手段を備え、文字識別手段は、入力され
た文字コードの１バイトの数値を判別し、所定数値以下
の場合当該１バイトを半角文字と識別し、所定数値より
大きい時は当該１バイトと後続する１バイトとを組み合
わせた２バイトを全角文字と識別するよう構成する。

［産業上の利用分野１本発明は半角文字と全角文字が混在する日本語処理シス
テムにおける半角・全角文字識別方式に関する。

近年、情報処理システム例えば、給与管理、在庫管理な
どを行う事務処理システムや、日本語文書作成システム
において、アルファベット・数字・カナ文字を表す半角
文字と漢字や図形・記号などを表す全角文字を混在して
表現することが普通に行われており、全・半角混在文字
の半角文字と全角文字をいかに容易に識別するかが日本
語処理全体の構成、処理性能、内部データ量を決める上
で重大な要素となっている。

［従来の技術］従来技術を第６図乃至第９図を用いて説明する。

第６図は従来のＪＩＳ　（日本工業規格）により定めら
れた、コード体系を示し、第７図はその中の半角文字コ
ード体系図、第８図は従来の別のコード体系を示す図、
第９図は制御コードを使用した文字及び文字列を示す図
である。

従来、文字の中で、アルファベット、数字、カナ文字等
の半角文字を表すためにＪＩＳ８単位コード系を用い、
漢字、記号１図形などの全角文字を表すために１文字が
２バイト（１バイト＝８ビツト）のＪＩＳ６２２６コー
ド系が使用されている。

第６図には、上位バイト（８ビツト）を１６進数（４ビ
ツト）２桁の数字で表した目盛により縦軸方向に表示し
、下位バイト（８ビツト）を同様に１６進数２桁の数字
で表した目盛により横軸方向に表示しており、前記のＪ
ＩＳ６２２６コード系により使用される２バイトの文字
は上位バイト（第１バイト）と下位バイト（第２バイト
）が共に、１６進数の２１〜７Ｅの領域のコードを使用
し、第６図に斜線が施された領域であり、これを（２１
２１〜７Ｅ７Ｅ）＋６と表示する。

一方、ＪＩＳ８単位の半角文字（アルファベット、数字
、カナ文字）のコードは、８ビツト構成であるため、Ｊ
ＩＳ６２２６コード系のように平面として表示できない
ので、その上位バイト（８ビツト）の縦軸に並行する直
線上に表現すると、第６図の右端に示すように表示され
る。すなわち、８ビツトを１６進数２桁で表すと、００
〜７Ｆで半角、英数字を表し、ＡＯ〜ＤＦで半角カナ文
字を表す、００〜７Ｆのうち事務処理で通常使用される
アルファベット、記号の範囲は（２０）、−〜（７Ｆ）
１６である。

第７図はこのＪＩＳ８単位コードを、上位４ビツトを表
す縦軸の１６進数の目盛と、下位４ビツトを表す横軸の
１６進数の目盛上で表現したもので、（２０）、６〜（
７Ｆ）ｌ＾と（ＡＯ）１６〜（ＤＦ）＋ａの各使用領域
を表わす。

この内容によれば、全角文字の上位バイトと半角文字は
明らかに同じコードを使用して、重複するため、このコ
ード体系によっては半角文字と全角文字を区別すること
ができない。

そこで、全角文字コードにある定数を加えることにより
半角文字コードとの重複を回避するコード系（シフトＪ
ＩＳ）が考えられている。このコードは、第６図に示す
ように上位バイトのコードとして８単位コード系で使用
しない領域（８１〜９ＦおよびＥＯ〜ＦＣ）のコードを
割り当てる。

ところが、この方式ではＪＩＳの第１水準、第２水準漢
字及びＪＩＳ非漢字（全６８０２文字）の表現は可能と
なるが、それ以上の文字種を表現することができない。

ＪＩＳ６２２６コード系を変形した従来の別のシード体
系を第８図に示す。

この体系では、ＪＩＳ６２２６コードの上位バイトと下
位バイトのそれぞれに一定数（１６進数の８０）を加算
して、領域（Ａ　Ｉ　Ａ　１〜ＦＥＦＥ）９．を使用す
るとともに、多数の漢字を割当てるための拡張文字領域
（ユーザが定義して使用する文字領域も含む）を設け、
図に示すように、拡張領域として（４１Ａ　ｌ　＝Ａ　
ＯＦ　Ｅ）　＋ｈ　　を使用する。そして、半角文字の
領域としては、ＪＩＳ８単位と同様に００〜７Ｆで半角
、英数字を表し、ＡＯ〜ＤＦで半角カナ文字を表す。

しかし、この従来の別の方式によっても、ＪＩＳ８単位
の半角文字のコードと全角文字の第１バイトのコードが
重複する点に変わりがない。

このため、ＪＩＳ６２２６コード系の場合や、シフトＪ
ＩＳにおいて規定された文字種以上の文字を使用する場
合は、全角文字列の開始と終了時に、半角文字コードと
重複しない制御コードを付加し、半角文字と全角文字を
区別する方式が従来とられている。

制御コードを使用した時の、文字と文字列のコード長の
説明図を第９図に示す０図において、半角文字′″Ａ゛
は１バイトで表し、全角文字１花子゛はそれぞれ２バイ
トで表されるが、前後に１バイトの全角開始制御コード
（ＣＳ）と全角終了ｉｕｉコード（ＣＥ）が付加され、
合計６バイトとなる。そして、文例としてｒＡＢあい１
２■７」という半角客字（５文字）と全角文字（３文字
）が混在した文字列を表現すると、制御コードＣＳ、Ｃ
Ｅが何個も使用されるので、合計１５バイトになっ、て
しまう。

（発明が解決しようとする課Ｒ］上記したように、半角文字と全角文字が混在した場合、
従来は余分に制御コードを付加して半角・全角の識別を
行うため、全角／半角の切替えが頻繁に発生するので処
理時間が余分にかかるだけでなく、制御コードが増える
ためにデータ量の増大を招いてシステム性能を悪化させ
るという問題があった。

本発明は、半角文字と全角文字を制御コードを用いるこ
となく容易に識別することができる日本語処理システム
を提供することを目的とする。

〔課題を解決するための手段］本発明による基本構成図を第１図に示し、本発明の原理
説明図を第２図に示す。

第１図において、１０はコード発生部、１１は文字処理
部、１２は文字識別手段である。

第２図の原理説明図には、本発明の半角・全角文字識別
方式において使用する文字コードの領域とコード表現を
示し、以下にこの第２図について説明する。

第２図Ａ、に示すように、ＪＩＳ６２２６コード系で使
用する文字コードに対して一定の数値を加算して、縦軸
（第１バイト）、横軸（第２バイト）ともに１６進数Ａ
Ｏ〜ＦＥで囲む領域（ＡＯＡＯ〜ＦＥＦＥ）＋６のコー
ドを使用すると共に、それ以外の多数の漢字や、ユーザ
が定義する文字頭載のために縦軸の１６進数ＡＯ〜ＦＢ
、横軸の１６進数４１〜９Ｆで囲まれる領域（ＡＯ４１
〜ＦＢ９Ｆ）ｔｉを使用する。このように、全角文字に
ついては、第８図に示す従来の別の方式のコード体系を
変更したものである。

一方、ＪＩＳ８単位符号で割り当てられている半角文字
の英数字、カナ文字については、８ビツトコードを１６
進数２桁の数字で表すと、００〜９Ｆの範囲のコードを
使用し、第２図Ａ、の右端に示す直線に矢印を付して示
す範囲である。この半角文字のコードは、従来の第８図
に示す英数字記号の範囲の文字コードから（２０）＋６
を引いたものと、カナ文字のコードから（４Ｇ）＋６を
引いたものを組み合わせて構成され、第２図のＢ、にそ
の８ビツトコードを上位デジット（４ビツト）と下位デ
ジット（４ビツト）による座標により表される。

第２図から分かるように、本発明で使用するコード体系
の場合、半角文字は、１バイト（８ビツト）である文字
コードの値が００〜９Ｆ（１６進数）の範囲であり、全
角文字は２バイトの文字コードの内の上位バイトのコー
ドの値がＡＯ〜ＦＥの範囲である。

第２図Ａ、に示す、ＪＩＳ６２２Ｂコード系の全角文字
の領域は、第８図として示す従来の別の方式のコード系
の場合と同じ領域であり、第８図に示す拡張領域として
使用する領域の文字は、第２図に示す領域（ＡＯ４１〜
Ｆ８９Ｆ）ｔａである点で異なるが、領域内に収容され
る文字種の数は同一である。従って、第８図の方式によ
り拡張領域（４１ＡＯ〜９ＦＦＢ）ｌ＆に割当てられた
文字コードの２バイトの上位バイト、下位バイトの順番
を反転することにより、第２図Ａ、に示す領域（Ａ０４
１〜ＦＥ９Ｆ）ｔ＊のコードに変換される。

本発明は、半角文字か全角文字かを先頭の１バイトのコ
ードにより識別して、識別結果に応じて半角文字または
全角文字の処理を行うものである。

［作用］第１図において、入力装置から入力されたコードまたは
、ＪＩＳ規格によるコードはコード発生部１０において
、第２図Ａ、に示す本発明のコードを発生する。この場
合、ＪＩＳ規格による入力装置から人力されたコードは
所定の数値を加算してシフトし、８単位符号に対しても
同様の加算または減算を施す、コード発生部１０から発
生した文字は第１図の上部にＡ、Ｂとして示すようなコ
ード形式であり、その先頭バイト（半角文字は１バイト
だけ）のコードは第２図Ａ、に示す数値の範囲に割当て
られている。

このようにして、第２図Ａ、に示すコード体系に従った
コードは文字処理部１１に入力し、指定された各種の処
理、削除、挿入等が行われる。

文字処理部１１内には文字識別手段１２が備えられ、コ
ード発生部から入力されたコードは２バイトのコード保
持手段１２１に格納され、先頭の１バイトについて判別
手段１２２により判別する。

判別は１バイトのコードを８ビツトの数値として扱い、
所定の値（第２図への１６進数“ＡＯ′）と比較して、
ＡＯ未満の場合は半角文字コードと識別し、その１バイ
トを取り出して文字処理を行い、それ以外（ＡＯ以上）
の場合は全角文字と識別してコード保持手段１２１の２
バイト（識別したバイトが上位バイト後続の１バイトを
下位バイトとして）を取り出して文字処理を行う。

この本発明によるコードにより処理した結果は、そのコ
ードのまま記憶装置（図示しない）に格納され、ＪＩＳ
規格の出力装置に出力する場合は、元のコードに変換す
ることにより従来の入・出力装置を使用することができ
る。

このように、本発明は常に半角文字を１バイト、全角文
字を２バイトで表すため、表示や印刷時の文字長と実際
のデータ長が一致してずれることがないので処理が簡便
になり、制御コードを用いないのでデータの記憶・処理
するための資源を節約することができる。

なお、第８図に示す従来の別の方式のコードが人力され
ることが分かっている場合、そのコードが拡張領域の全
角文字のコードであることが識別された場合、その２バ
イトのコードの上位と下位を置き換えることにより本発
明のコードに変換することができ、拡張領域でないＪＩ
Ｓ規格の領域（Ａ　Ｉ　Ａ　１〜ＦＥＦＥ）＋４の全角
文字の場合はそのコードがそのまま本発明のコードとな
る。

［実施例］第３図は本発明の実施例構成図、第４図は文字処理のフ
ロー図、第５図は本発明と従来例の処理の差異を示す図
である。

第３図には本発明によるコード系を用いた日本語処理シ
ステムの実施例構成が示されている。

図の３０はＪＩＳ規格の文字列を入力するキーボード等
の入力装置、３１は入力したＪＩＳ規格コードを本発明
によるコード（以下、本方式コードという）に変換する
変換処理部（第１図のコード発生部に対応）、３２は本
方式のコードに変換されたコードデータを保存する記憶
装置、３３は本方式のコードの文字列に挿入、削除等の
編集を行うデータ編集部（・第１図°の文字処理部に対
応）、３４は本方式コードからＪＩＳ規格コードに復元
する復元処理部、３５はＪＩＳ規格の文字列を表示する
表示装置、３６はＪＩＳ規格文字列を印字する印刷装置
を表す。

人力装置３０によって入力されたＪＩＳ規格文字列は、
変換処理部３１によって本方式コードに変換される。デ
ータ編集部３３は、文字列の挿入・削除等の編集を行う
が、その際に半角文字と全角文字の識別を行う。

文字処理のフローを第４図により説明すると、識別動作
が開始すると、文字列から１バイトを取り出しくステッ
プ４０）、その１バイトの値が（ＡＯ）＋ｉより小さい
か判別される（ステンプ４ｌ）、この判別の結果ＹＥＳ
である場合は、当該１バイトを半角文字と識別しくステ
ップ４２）、Ｎｏと判別された場合は当該判別した１バ
イトと文字列の次の１バイトを含めて全角文字と識別す
る（ステップ４３）、識別結果は＆ｌ集処理において利
用される。このように１バイトを判別するだけなので高
速に実行される。

編集が終了した時に、記憶装置３２に格納する場合は本
方式コードで保存することにより制御コードを用いた場
合に比べて少ないデータ量となる。

また、ＪＩＳ規格コードを用いる表示装置３５や、印刷
装置３６に日本語文字を表示したり、印字により出力す
る場合は、復元処理部３４においてデータ編集部３３や
、記憶装置３２から取り出した本方式コードによる文字
コードをＪＩＳ規格コードに復元（変換）して、表示装
置３５または印刷装置３６に出力する。

第５図は、本発明と従来例の処理の違いを示す図である
。

第５図のａ、は本発明による処理を示し、半角文字と全
角文字が混在している文字列「Ａ全１角文ア字」に対し
て、４桁目（４バイト目）から２桁分を削除する場合（
半角文字１文字が１桁、全角文字１文字で２桁分数える
）、削除開始桁および終了桁が、それぞれ全角文字の下
位バイト及び上位バイトの時は、その前の桁及び次の桁
を含めて削除する必要がある。従って、常に半角文字か
全角文字かの識別を行うが、本発明の識別方式により識
別処理を高速に行うことができる。

また、削除した後、削除文字の前に位置する文字列（図
の場合Ａ全”）と後に位置する文字列〈図の場合“文ア
字”）を結合しなければならないが、本発明のコード系
では単に削除した桁数分（図の場合は３桁）だけ後ろの
文字列を前に移動するだけでよく、結合処理が容易であ
る。

第５図のす、は、同様の削除処理を制御コードを使用す
る従来方式で実行した場合の例である。

従来は、制御コードを用いた場合、現在の文字が半角文
字であるか全角文字であるかを別に設けた全角文字モー
ドフラグ（フリツプフロップにより構成〉を参照して判
断しなければならない、但し、全角文字モードフラグは
全角開始制御コードが現れた時にオン、全角終了制御コ
ードが現れた時にオフにされる。また、削除後の文字列
の結合処理においても、削除文字の直前の文字と直後の
文字（図の例では“全”と“文”）を比較して共に全角
文字ならば両者の間に存在する不要な制御コード（図の
例では“全”の後の全角終了１＃制御コード）を削除す
る等の複雑な処理が必要となる。

このように、本発明では従来例で必要とされた複雑な処
理を不要にし、高速処理を実現することができる。

〔発明の効果］本発明によれば、ＪＩＳ規格の全角文字に拡張文字を加
えた豊富な文字種を扱いながら、半角文字と全角文字の
識別を簡単に行うことができるばかりでなく、制御コー
ドを使用しないので、半角文字と全角文字の切替えが頻
繁に発生するような文字列を処理する場合でも、データ
量が増えることなく、常に表示・印刷字の文字長とデー
タ長が一致する。これにより、メモリ資源の節約と日本
語処理性能の向上を計ることができる。

【図面の簡単な説明】第１図は本発明の基本構成図、第２図は本発明の原理説
明図、第３図は本発明の実施例構成図、第４図は文字処
理のフロー図、第５図は本発明と従来例の処理の違いを
示す図、第６図は従来のＪＩｓによるコード体系を示す
図、第７図は従来の半角文字コード体系図、第８図は従
来の別のコード体系を示す図、第９図は制御コードを使
用した文字及び文字列を示す図である。第４図中、１０：コード発生部ｌｌ：文字処理部１２：文字識別手段特許出願人　株式会社ビーエフニー（外１名）復代理人
弁理士　　　穂坂　和雄（第１バイト）　　　（第２バイト） ↓ （ＡＯ）＋ｓ〜（ＦＥ）＋６本発明の基本構夏図第図バ込と＼１懐１２青う廿佃

Claims

【特許請求の範囲】半角文字と全角文字が混在する日本語処理システムにお
ける半角・全角文字識別方式において、１バイトの半角
文字のコードを所定数値以下のビット構成のコードに割
当て、２バイトの全角文字の上位バイトのコードを半角
文字の数値より大きい値のコードに割当てるコード発生
部（１０）を備え、文字コードを処理する文字処理部（１１）に文字識別手
段（１２）を備え、文字識別手段（１２）は、入力された文字コードの１バ
イトの数値を判別し、所定数値以下の場合当該１バイト
を半角文字と識別し、所定数値より大きい時は当該１バ
イトと後続する１バイトとを組み合わせた２バイトを全
角文字として識別することを特徴とする半角・全角文字
識別方式。