JPH01199264A - コード変換装置 - Google Patents

コード変換装置

Info

Publication number
JPH01199264A
JPH01199264A JP63024179A JP2417988A JPH01199264A JP H01199264 A JPH01199264 A JP H01199264A JP 63024179 A JP63024179 A JP 63024179A JP 2417988 A JP2417988 A JP 2417988A JP H01199264 A JPH01199264 A JP H01199264A
Authority
JP
Japan
Prior art keywords
code
input
output
converter
code system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63024179A
Other languages
English (en)
Other versions
JP2625815B2 (ja
Inventor
Itaru Ichikawa
市川 至
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP63024179A priority Critical patent/JP2625815B2/ja
Publication of JPH01199264A publication Critical patent/JPH01199264A/ja
Application granted granted Critical
Publication of JP2625815B2 publication Critical patent/JP2625815B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概 要〕 日本語に使用されるコード系間の変換装置に関し、 コード系の不明の入力コードを指定した出力コードに効
率的に変換することを目的とし、入力されたコードのコ
ード系を判定する判定部と、判定を保留している間の入
力を一時保存する入力保存手段と、入力保存手段に保存
されている入力から出現頻度を計算し統計からコード系
を判定する統計計算手段と、入力を特定コード系へコー
ド変換するコード変換器の集合であるコード変換器群■
と、特定コード系からコード変換するコ−ド変換器の集
合であるコード変換器群■を備え、複数の入力コード系
について、どのコード系であるか一意に判定することが
できないコードが入力されたとき、判別できるまで保留
し確定してから保留した入力を再入力して変換し、一定
数の入力の間コード系を確定できないときは、保留中の
全コードの出現頻度からコード系を判定して変換するよ
う構成する。
〔産業上の利用分野〕
本発明は言語処理に係り、特に日本語に使用されるコー
ド系間の変換装置に関する。
日本語のコード系として各種のコード系が使用されてお
り、ソフトウェアによって異なるコード系が要求され、
コード系間の変換装置が必要となっている。コード系間
の変換装置として、入力のコード系が不明であっても、
指定した出力コード系に変換できる融通性の高い装置の
実現が望まれている。
〔従来の技術〕
従来技術によるコード変換装置は、元のコード系が何で
あるか判明している場合には、第9図(a)に示すよう
に、各種の(コード系Aからコード系Bへ、コード系A
からコード系Cへ、コード系Cからコード系Bへ、コー
ド系Bからコード系Aへ等)コード変換器61.62.
63.−6nを用意し、入力コード系と出力コード系に
応じて、スイッチ7で切り換えて使用するという方法が
採られていた。
〔発明が解決しようとする課題〕
第9図(a)に示すような従来のコード変換装置では、
元のコード系が何であるか知らないと、変換ができない
という欠点があった。
また、−意に自動弁別可能なコード群については、第9
図(blに示すように、判定部8と、それに連動するス
イッチ71.72によって変換器群6+。
62、63.・−6nを切り換えるという方法が採られ
ていた。しかしこの方法では、−意に判定可能なコード
系間でしか切換えが行えなかった。
第1O図は、コード系間の関係を示す図である。
図において、縦軸はコードの第1バイトの値を示し、横
軸は第2バイトの値を示す。各コード系で使用する第1
バイトの値と第2バイトの値の範囲が、例えば、図に示
すA、B、Cのコード系では、AとB、或いはAと0間
では重なりがないが、BとCでは重なる部分がある。A
とB、或いはAとCのように重なりがないものについて
は、判定することが可能であるが、BとCのように重な
りのあるものについては、−意に判定することができな
かった。
また、入力と出力のコード系がそれぞれ複数ある場合は
、第11図に示すように、入力と出力のコード系の全て
の組合せに対応する変換器を用意しなければならない場
合が多く、入力および出力のコード系の数が多いと多数
の変換器を要するものであった。
本発明の解決しようとする課題は、このような従来の問
題点を解消したコード変換装置を提供することにある。
〔課題を解決するための手段〕
第1図は、本発明のコード変換装置の原理ブロック図を
示す。
図において、1は判定部であり、入力されたコードのコ
ード系を判定する。
2は入力保留手段であり、判定を保留している存されて
いる入力から出現頻度を計算し統計からコード系を判定
する。
4はコード変換器群Iであり、入力を特定コード系へコ
ード変換するコード変換器の集合である。
5はコード変換器群■であり、特定コード系からコード
変換するコード変換器の集合である。
〔作 用〕
一つのコード系の中には、出現頻度の高い部分と低い部
分が存在する。例えば、日本語においては、ひらがな、
句読点、数字などの出現頻度は亮く、次いで第一水準の
漢字、最後に第二水準などのあまり使用しない漢字と、
順次出現頻度が低くなっていく。
また、二つのコード系が第10図に示したAとBおよび
AとCのように重なりが無い場合には、入力がどちらの
コード系のものであるかを一意的に判定できる。第10
図に示したコード系BとCのように、二つのコード系の
一部のみ重なる場合には、重なっていない部分の入力が
あれば判定することが可能である。また、入力がB、C
の重なりの部分だけからなる場合も、各入力コードにつ
いて、B、Cにおける出現頻度を算出した表を用意し、
未知の入力について出現頻度を計算し表と比較すること
により、どちらのコード系であるかを統計的に判断する
ことができる。例えば、B、Cが重なる部分のみのコー
ドからなる入力がある場合、統計的に出現頻度の高い文
字のコードを多く使用しているコード系の方が、そうで
ないコード系より確からしいということになる。このよ
うに、統計的情報を利用して判断することが可能である
これは、二つのコード系が完全に重なる場合についても
同様である。
第1図において、入力コードは判定部lにより、一つの
コード系のみであり、他のコード系と重なりがない、即
ちそのコード系であると判定可能なコードの入力がある
まで入力保留手段2で保留される。
どのコード系であるか判定可能なコードの入力があると
、判定部lは入力保留手段2で保留されていた入力を、
コード変換器群■4中の、判定されたコード系から特定
コードへの変換器に出力される。この変換器からの出力
はコード変換器群■5に入力され、その出力のうち、指
定するコード系への変換器の出力のみが選択され、最終
出力となる。その状態を示すのが第2図(a)である。
保留されていた入力がなくなると、第2図(b)に示す
ように、入力コードは、判定部1から直接コード変換器
群I4中の判定されたコード系からのコード変換器に入
力され、コード変換群■5の出力から指定されたコード
系の出力が選択され出力される。
入力が終了するまで判定可能とならなかった場合は、入
力保留手段2に保留されている入力は統計計算手段3に
入力され、ここにおいて統計による出現頻度が計算され
て判定が行われ、その結果が判定部1に伝えられる。そ
の状態を示したのが第2図(e)である(図中にX印で
示したのは入力或いは出力を停止していることを示す)
。判定部1は、統計計算手段3から伝えられた結果を判
定結果として、第2図(a)に示したと同じ方法で出力
を行う。
このようにして、従来では判定できなかったコード系間
についても判定を行うことが可能となる。
また、入力と出力のコード系がどちらもn個ある場合に
、これらの間の組合せの数の、nX(n−1)個の変換
器が必要であった従来方式に比べ、第3図に示すように
、コード系A、B、Cからコード系A、B、Cへの変換
において、特定コード系Bを中間コード系とすることに
より、2×(n−1)個の変換器で済むことになる。
〔実施例〕
以下第4図〜第8図に示す実施例により、本発明をさら
に具体的に説明する。
第4図は本発明の一実施例の構成を示すブロック図であ
る。
第4図の実施例は、三つのコード系; (al  J I S X 0202とJISXO20
BによるJIS漢字 山)  AT&Tの拡張UNIXコードであるEUC(
C)  シフトJIS について、入力コード系を指定せずに、この三つのうち
の任意の一つを、指定したコード系に変換するコード変
換装置である。
いま、入力は上記(a)、 (b)、 (C)のいずれ
も、■JISXO201のローマ字を含み、■いわゆる
半角カナのJISカナは使用せず、■外字は使用せず、
■その他三つのコード系に共通でない文字は使用しなと
という4点の条件が成立するものであると仮定する。
第5図はこれら三つのコード系間の関係を示す図である
。山)のEUCと、(C)のシフトJISの重なる部分
は1.双方共に第二水準の漢字のコードであり、これら
の出現頻度は非常に少ないが、幾つかの文字では他の文
字に七ぺて頻度が高いことを確認しである。
第4図において、01は入力切換え用スイッチであり、
入力と保留していた入力とを切り換える。
10は判定部であり、入力のコード系を判定する。
20はバッファであり、判定を保留している間入力を一
時保存する。
31は再判定部であり、バッファ2oに保存されている
入力について出現頻度を計算し、統計表と比較して系を
判定する。
32は統計表であり、予め各コード系の多数の入力コー
ドについて出現頻度を計算した統計の表である。
41はJIS漢字からEUCへの変換器であり、42は
シフトJISからEUCへの変換器であり、13は合流
器である。
51はEUCからJIS漢字への変換器であり、52は
EUCからシフトJISへの変換器であり、Ilは出力
切換え用スイッチである。
第6図は、本実施例における判定部の内部構成を示す図
である。
第6図において、11.14.15はスイッチであり、
制御部19により切換えが行われる。16.17.18
は合流器である。
12、13は分流器である。分流器12は、上記三つの
コード系(a)、 (b)、 tc)で共通に用いられ
るJISXO202のローマ字(制御コードを含む)の
コードはlに、そうでないものは2に出力する。この判
別はコードの第1バイトの先頭ビットで簡単に識別でき
る。分流器13は、(b)のEUCと(clのシフトJ
ISの重なる領域のコードは1へ、そうでないものは2
へ出力する。
19はスイッチの制御部であり、再判定部11がらの信
号rおよび分流器13からの出力りを入力として、スイ
ッチ11.14.15の制御信号j、に、lを出力とす
る。
以下、第4図および第6図を参照して、本コード変換装
置の動作を説明する。
初期状態においては、バッファ20は空であり、スイッ
チ11は入力eが分流器12につながる向きに、スイッ
チ14は合流器18につながる向きに、スイッチ15は
合流器18につながる向きとなっている。
第4図における入力切換え用スイッチ01は入力側に向
いており、出力切換え用スイッチ53は出力コード系の
指定により、それぞれ(al J I S漢字ならばコ
ード変換器51の方、(b) E U Cならば合流器
42の方、(ClシフトJISO方を向いている。
コード変換装置の状態としては、■初期状態、■保留中
、■保留処理、■確定の四つの状態があり、四つの状態
間は第7図の状態遷移図に示すように遷移する。
入力は、つぎの五つの場合に応じて処理が決まる。
■:JISXO202のローマ字(制御コードを含む) ■:(a)のJIS漢字、 ■:(b)のEUCのうち(C1と重ならない部分■:
(C)のシフトJISのうち(blと重ならない部分■
:(b)と(C)の重なる部分 ■初期状B: 初期状態で■が入力されると:スイッチo1、スイッチ
11分流器12、スイッチ14、合流器18を通過して
出力端子すに出力され、合流器43を経てコード変換器
51または52を経るか或いはそのまま出力されるが、
■についてはコード変換器51.52のどちらも何ら出
力を出さないので、判定部10の出力すがそのまま出力
される。
初期状態で■が入力されると:スイ、ッチ01、スイッ
チ11、分流器12を経て分流器13に入力される一分
流器13では1側に出力されると共に、制御部19へ信
号りを通じて1に出力されることを知らせる。制御部1
9では、これにより直ちにスイッチ15を出力aに向か
う方向に制御し、aから出力される。aの出力はコード
変換器41により中間コードであるEUCに変換され、
出力コードの指定に応じて、コード変換51か52か、
或いは変換なしによって出力される。第8図の(a)は
この状況を示す。状態は、■の確定状態となる。
初期状態で■が入力されると;■が入力された場合とス
イッチ15の位置が異なり出力すに出力されるという違
いがあるが、スイッチ01.11゜14の−は同じにな
る。出力すからの出力は出力コードの指定に応じて、コ
ード変換器51か52か、或いはそのままで出力される
。また、状態は■の確定状態となる。
初期状態でOが入力されると;■、■が入力された場合
と同様であるが、スイッチ15の位置が出力を出力Cに
出力する向きになる。出力Cからの出力は、コード変換
器42により中間コードのEUCに変換され、その後は
同様である。
状態も■の確定状態となる。
初期状態で■が入力されると;スイッチ01.11、分
流器12を経て分流器13にくると、■であるという信
号が分流器13から制’<8部19に伝わり、制御部1
9はスイッチ14を合流器17側に切り換える。分流器
13は端子2に出力し、これが合流器17を介して信号
dとしてバッファ20に出力される。バッファ20では
、再判定部31から要求されるまで入力を保持する。第
8図(blはこの状況を示す。状態は、■の保留中にな
る。
■保留中: 保留中に■、■が入力されると;入力切換え用スイッチ
01から判定部10に入り、第9図(b)に示す状態に
なっており、信号dとして出力され、バッファ20に保
持される。
保留中に■、■、■のいずれかが入力されると;入力切
換え用スイッチO1から判定部10に入り、第8図(b
lに示す状態で分流器13におい、て端子lに出力を出
そうということで、これを制御部19に伝える。制御部
19は、制御信号gをスイッチr2に出し、再判定部3
1側に切り換える。この時入力は待ちとなり、スイッチ
z3が戻るまで入力されないようになっているものとす
る。この状態を第8図(C)に示す。またスイッチ11
を合流器16側にし、スイッチ14を合流器18側にし
、スイッチ15を人力の■、■、■に応じてそれぞれ出
力a、b、cの側にする。第8図(a)は、出力a側と
したときのスイッチの状態を示す。さらに、制御部19
は、再判定部31にバッファ20の出力をそのまま出力
するよう命する信号fを送る。また、最後に分流器13
に入っていたコードは、制御部19より端子2に出力す
るよう命じられ、合流器17を介してバッファ20に送
られる。
状態は■の保留処理となる。
入力が無くなると;制御部19はスイッチ01を第8図
(C)に示す状態にし、スイッチ11.14を第8図(
alに示す状態にする。さらに制御部19は、再判定部
31に対してコード系を調べるように命じる。再判定部
31は、バッファの中味を統計表32を用いて判断し、
コード系を決定して判定部10に伝える。これに応じて
、制御19はスイッチ15を端子す、cのいずれかにし
て再判定部31に対してバッファ20の内容をそのまま
出力するよう命じる信号rを送る。状態は■の保留処理
となる。
■保留処理状態: 保留処理状態では、再判定部31により、バッファ20
の内容をそのまま出力し、スイッチ01を介して判定部
lOに送る。判定部10では、スイッチ11、分流器1
6、スイッチ15を介して出力す。
Cのいずれかに出力する。この出力はコード変換器42
で変換されまたはそのまま合流器43を介バッファ20
が空になると、再判定部31は判定部10にそのことを
伝え、判定部10の制御部19は、制御信号gによりス
イッチ01を入力端に戻す。
状態は■の確定状態となる。
■確定状態: 確定状態では;入力はスイッチ13を介して判定部10
に入り、判定部10内では、スイッチ11、合流器16
、スイッチ15を介して入力のコード系に対応して出力
a、b、cのいずれかに出力され、中間コードのEUC
に変換された後、指定された出力コードに変換されて出
力される。入力がなくなるまで■の 状態が続けられる
以上説明した動作により、コード変換が行われる。
本実施例では、再判定部31において、バッファ20内
の保留入力についてEUCかシフ)JISかを判定する
ために、統計表32内に、それぞれのコード系において
重なる部分において頻度の高い文字を6.000ずつ用
意し、この文字が多く出現する方のコード系として決定
した。
このコード変換装置を実用した場合、通常の日本語の文
章は問題なく変換された。さらに、バッファ20のサイ
ズを64文字と小さくし、バッファ20が満杯になった
場合においても統計的に判定するようにした。たの場合
も、はとんどの場合問題なく変換できた。
ただ、例外として、ローマ字(■)の中に判別できない
漢字で書かれた(■に入る字のみで書かれた)人名(2
文字)があるだけの場合であった。
このような例外的な例を除く通常のローマ字・英記号を
含む漢字かな混じり文については、−1二文字の保留が
行われるだけで直ちに確定を行った。
これは、かなや句読点といった通常の文章で多用される
文字が、■の領域にないため、すぐに確定できるからで
ある。
原理的には、このコード変換装置では100%変換する
ことはできないが、統計的には、はとんどの日本語の文
章については変換することが可能であると考えられる。
〔発明の効果〕
以上説明のように、従来、入力コードが何であるかを前
もって知らないとコード系の変換を正しく行うことがで
きなかったのに対し、本発明によれば、入力のコード系
が何であるかを知らなくとも、出力コードを指定するだ
けで正しくコード系の変換を行うことが可能となり、デ
ータ処理効率の向上に寄与する効果は極めて大である。
【図面の簡単な説明】 第1図は本発明の原理ブロック図、 第2図はコード変換装置内信号経路を示す図、第3図は
中間コード系を説明する図、 第4図は本発明の一実施例の構成を示すブロック図、 第5図は本発明の一実施例が対象としたコード系間の関
係を示す図、 第6図は本発明の一実施例における判定部の内部構成を
示す図、 第7図は本発明の一実施例における状態遷移図、第8図
は本発明の一実施例における装置内信号経路を示す図、 第9図は従来技術によるコード変換装置を示す図、 第1θ図はコード系間の関係を示す図、第11図は複数
入力コード系、複数出力コード系間の変換を示す図、 図面において、 1.10は判定部、     2ζ入力保留手段、3は
統計計算手段、    4はコード変換器群■、5はコ
ード変換器群■、 6+、 62.−・、60はコード変換器、7.71.
72はスイッチ、    8は判定部、01は入力切換
え用スイッチ、 11.14.15はスイッチ、     12.13は
分流器、16、17.18.43は合流器、   19
は制御部、20はバッファ、       31は再判
定部、32は統計表、 41.42,51.52はコード変換器、53は出力切
換え用スイッチ、 a、  b、  c、−・−2βは信号、をそれぞれ示
す。 本発明の原理ブロック図 第1図 中間コード系を説明する図 第  3  図 第   5   図 本発明の一実施例の構成を示すブロック同第  4  
図 第   6   図 第  7  図 第   8   図 (その1) (c)                    (d
)本発明の一実施例における装置内信号経路を示す1第
   8   図 (その2) (a)                  (b)従
来技術によるコード変換装置を示す1第  9  図 第1O図

Claims (1)

  1. 【特許請求の範囲】 自然言語の複数のコード系を、指定した手段コード系に
    変換するコード変換装置であって、入力されたコードの
    コード系を判定する判定部(1)と、 判定を保留している間の入力を一時保存する入力保存手
    段(2)と、 入力保存手段(2)に保存されている入力から出現頻度
    を計算し統計からコード系を判定する統計計算手段(3
    )と、 入力を特定コード系へコード変換するコード変換器の集
    合であるコード変換器群 I (4)と、特定コード系か
    らコード変換するコード変換器の集合であるコード変換
    器群II(5)を備え、複数の入力コード系について、ど
    のコード系であるか一意に判定することができないコー
    ドが入力されたとき、判別できるまで保留し確定してか
    ら保留した入力を再入力して変換し、一定数の入力の間
    コード系を確定できないときは、保留中の全コードの出
    現頻度からコード系を判定して変換するよう構成したこ
    とを特徴とするコード変換装置。
JP63024179A 1988-02-04 1988-02-04 コード変換装置 Expired - Fee Related JP2625815B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63024179A JP2625815B2 (ja) 1988-02-04 1988-02-04 コード変換装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63024179A JP2625815B2 (ja) 1988-02-04 1988-02-04 コード変換装置

Publications (2)

Publication Number Publication Date
JPH01199264A true JPH01199264A (ja) 1989-08-10
JP2625815B2 JP2625815B2 (ja) 1997-07-02

Family

ID=12131117

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63024179A Expired - Fee Related JP2625815B2 (ja) 1988-02-04 1988-02-04 コード変換装置

Country Status (1)

Country Link
JP (1) JP2625815B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH052576A (ja) * 1991-06-24 1993-01-08 Fujitsu Ltd コード種別判定方法
JP2010176237A (ja) * 2009-01-28 2010-08-12 Nec Corp 文字コード自動判別システム、文字コード自動判別方法及び文字コード自動判別プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH052576A (ja) * 1991-06-24 1993-01-08 Fujitsu Ltd コード種別判定方法
JP2010176237A (ja) * 2009-01-28 2010-08-12 Nec Corp 文字コード自動判別システム、文字コード自動判別方法及び文字コード自動判別プログラム

Also Published As

Publication number Publication date
JP2625815B2 (ja) 1997-07-02

Similar Documents

Publication Publication Date Title
EP0405545B1 (en) Data communication adapter
JPH01199264A (ja) コード変換装置
JPH09107387A (ja) プロトコル変換ゲートウェイシステム
US5347165A (en) Redundancy system switching control system
JPS59167742A (ja) 情報交換用符号の符号変換装置
JPS583026A (ja) 情報入力システム
JPH02214337A (ja) 予備回線切替制御回路
JPH08278941A (ja) バス制御方式
JPS6113330A (ja) デ−タ管理装置
JP2500755B2 (ja) 冗長系切替方式
Chang-kun A distributed control system of ship diesels
JPS6324431A (ja) デ−タ通信システム
JPH04317227A (ja) 回線切替回路
JPH06216930A (ja) Atm交換機におけるテストセル発生装置
JPH02287645A (ja) メモリ管理ユニット
JPS62196924A (ja) 符号変換方式
JPH0452023B2 (ja)
JPH05219033A (ja) パスチェック回路
JPS5829537B2 (ja) ツウシンセイギヨソウチニオケル コ−ドヘンカンホウシキ
JPS5935222A (ja) 切替回路
JPS61117643A (ja) 回線制御装置
JPS6015785A (ja) 機能キヤラクタの制御方式
JPS6253537A (ja) 通信処理装置
JPS613229A (ja) デ−タ入力装置
KR900017430A (ko) 디지틀신호변환장치의 타임스위치 이중화방법

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees