JP3511901B2

JP3511901B2 - 情報処理装置および情報処理システム

Info

Publication number: JP3511901B2
Application number: JP18591398A
Authority: JP
Inventors: 達基犬塚; 圭子郡司; 康隆豊田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1998-07-01
Filing date: 1998-07-01
Publication date: 2004-03-29
Anticipated expiration: 2018-07-01
Also published as: JP2000022552A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、符号化復号化装置
に係り、信号を効率よく圧縮するための処理手順と装置
構成に関する。

【０００２】

【従来の技術】文書，プログラムなどの文字列を対象と
した符号化方式を、T. A. Welchが、“A Technique for
High Performance Data Compression”， IEEE Comput
ing,vol. 17, pp. 8−19, June, 1984、と題する論文で
提案している。これは、Lempel，Zifが提案した従来方
式の改良であることから、３者の頭文字をとり、ＬＺＷ
方式と呼ばれている。この方式は、入力した文字列（信
号系列）を部分文字列（部分信号系列）に分解して、生
起する頻度に基づき辞書に登録していく手順を持つこと
が特徴である。これにより、入力した部分文字列がすで
に辞書登録済みならば、該文字列を辞書の登録番号に変
換することでデータ圧縮を実現する。この方式のもう一
つの特徴は、入力文字列の生起回数に基づき辞書内容を
更新することで、文字列の特性に適応できることであ
る。

【０００３】一方、上記とは異なる観点から、ハフマン
符号と呼ばれる符号語の生成方式を、Huffman, D. A.
が、：“A method for the construction of minimumre
dundancy codes", Proceeding of IRE, vol. 40, no.
9, pp. 1098−1101,Sep. 1952 、と題する論文で提案を
行っている。この方式は、信号の生起確率に基づき符号
を生成する手順である。信号の取り得る事象数が増える
と符号生成のために膨大な処理時間がかかるため、一般
に、あらかじめ全ての符号を作成して表にまとめて利用
する。たとえば、ファクシミリでは、全ての符号を国際
標準として定めている。これは、典型的な画像を定め
て、ラスタースキャンして得られた黒と白の連続個数
（ラン長）から、上記ハフマン方式に基づき作成した符
号である。

【０００４】

【発明が解決しようとする課題】一般に圧縮処理は、入
力信号系列の変換を行うモデル化部と、符号語の割り当
てを行う符号変換部から構成される。従来提案のＬＺＷ
方式は、文字列を対象にして、前者のモデル化部の処理
を工夫した方式である。また、従来のハフマン符号は、
信号の生起確率を利用した、後者の符号変換部の代表的
な手法である。このように、いずれの従来方式も、モデ
ル化部と符号変換部を別々にしているため、十分な圧縮
効率を実現できないという問題がある。

【０００５】さらに上記の従来方式は、信号の生成手段
とは無関係な動作を行う方式である。すなわち、符号化
対象の信号が、あらかじめ全て生成されている場合（バ
ッチ型）も、例えば操作者が一文字ずつ入力する場合
（リアルタイム型）も、圧縮処理の手順は変わらない。
リアルタイム型の場合に、操作者の入力動作と圧縮処理
手順において、信号のやり取りすることは考慮されてい
ない。

【０００６】本発明は符号化において効率の良い圧縮を
行う情報処理装置を提供することを目的とする。

【０００７】

【課題を解決するための手段】上記目的は、少なくとも
文字が入力される入力部と、文字列とこの文字列の生起
回数及び文字列毎に与えられる識別番号とを対応付けて
記憶する辞書と、辞書に記憶された文字列について生起
回数が大きい文字列から順に、生起回数に基づいて符号
語長を求め、この符号語長から対応する識別番号の符号
語を生成すると共に、求めた符号語長から符号化誤差を
求めこの符号化誤差から他の文字列の生起回数を補正す
る符号化部とを有することにより達成することができ
る。

【０００８】また上記目的は、入力された文字列と、こ
の文字列の生起回数および文字列ごとに与えられた識別
番号とを記憶した辞書から生起回数の最も大きい文字列
について、生起回数から符号語のビット長を求め、この
ビット長の整数部分から文字列の識別番号の符号語を生
成する段階と、求めたビット長から符号化誤差を求め、
この符号化誤差と残りの文字列の生起回数から残りの文
字列の新たな生起回数を決定する段階と、残りの文字列
の生起回数の最も大きい文字列について生起回数から符
号語のビット長を求め、このビット長の整数部分から文
字列の識別番号の符号語を生成する段階とを有すること
により達成することができる。

【０００９】すなわち、本発明により生成される符号語
は、符号語を生成するたびに、まだ生成されていない文
字列の生起回数を補正する。このようにすることによ
り、生成された符号語が近接し、効率良い符号を生成す
ることができる。また、求めた符号長の整数部分から符
号語を生成するために高速に符号語を生成することがで
きる。

【００１０】

【発明の実施の形態】以下の実施例では、バッチ型とリ
アルタイム型の基本構成について述べる。またリアルタ
イム型における入力支援の具体的な実施例を述べる。い
ずれの場合にも、入力信号の性質に適応して最適な符号
語を生成することが特徴であり、該符号生成の具体的な
手順を説明する。

【００１１】以下の実施例では、入力する信号は１バイ
トで表される文字コードの系列（文字列）とする。しか
し、本発明は、文字，画像，音声などの信号を対象に、
幅広く適用可能である。

【００１２】以下の説明中では、信号，事象，文字、あ
るいは、文字列と信号系列という言葉を同じ意味で使っ
ている個所がある。また、本発明では、生起確率と生起
回数は相互に変換可能であるため、同じ意味で使ってい
る個所がある。

【００１３】（１）基本構成図１に本発明の情報処理装置の符号化処理を行う部分の
基本構成を示す。

【００１４】信号入力装置１００は、バッチ型あるいは
リアルタイム型の動作をする。図１（１）に示すバッチ
型の場合は、あらかじめファイルに蓄積されているよう
な信号系列を入力の対象とする。バッチ型では、操作者
に対する支援機能は不要である。一方、図１（２）に示
すようにリアルタイム型の場合は、例えば操作者がキー
ボードを使って一文字毎にキー操作を行うことで信号入
力する。リアルタイム型では、表示手段などを備えるこ
とで、入力済みの文字列から推定される候補文字を操作
者に対して表示することで、操作者の信号入力作業の支
援を行う。

【００１５】文字列解析装置１０１は、辞書１０２に登
録してある文字間の遷移確率を利用して、入力済みの文
字列に引き続いて生起する確率の高い候補文字列を、辞
書１０２から読み出す。また、信号入力装置１００から
入力した文字列を、辞書１０２に登録してある文字間の
遷移確率を利用して、部分文字列に分解する。

【００１６】辞書１０２は、部分文字列の構造に関する
データを記憶する手段である。文字と文字の遷移する確
率、あるいは部分文字列の生起回数などを、トリー形式
などのデータ構造を用いて記憶する。辞書１０２の内容
は、あらかじめ固定的に設定することも、文字列解析装
置１０１によって分解した部分文字列の生起回数の測定
結果を用いて更新することもできる。符号生成装置１０
３は、文字列解析装置１０１によって分解した部分文字
列を、辞書１０２に登録した生起回数に関する情報を参
照することで、効率の良い符号語に変換する。

【００１７】本発明では、辞書１０２に記憶された部分
文字列の生起回数に関する情報を、文字列解析装置１０
１による文字列の解析、符号生成装置１０３の符号生成
に利用する。

【００１８】またリアルタイム型の信号入力では、信号
入力装置１００における操作者の入力支援のために、辞
書１０２の登録内容を利用する。

【００１９】本発明では、生起回数に基づく最適符号を
生成することで高い圧縮率を実現すると共に、辞書を複
数の目的に兼用することで装置の小型化を実現する。

【００２０】（２）信号入力装置１００の構成信号入力装置１００の基本動作は、文字列などの信号を
順次に入力して、文字列解析装置１０１に信号を渡すた
めの入出力インターフェースである。

【００２１】リアルタイム型の信号入力装置１００は、
上記のバッチ型の動作に加えて、１文字ずつの入力手
段，手書き文字の認識手段，かな漢字変換手段，入力文
字および入力候補文字の表示手段，装置の動作を制御す
るための指示入力手段、などと組み合わせて動作する。

【００２２】例えば、信号入力装置１００をキーボード
とディスプレーで構成する。そして、図２に示す手順の
ように、操作者が一文字を入力すると、文字列解析装置
101が辞書１０２内の該入力文字から始まる部分文字列
を候補として読み出して、信号入力装置１００のディス
プレーに表示する。文字を入力する毎に、辞書に登録さ
れた部分文字列の候補が絞られていく。操作者は、入力
したい文字列が、ディスプレー表示された部分文字列の
中にあれば、それを選択することで、全ての文字をキー
ボード入力しなくても良い。候補がない場合には、操作
者は一文字ずつキーボードによって部分文字列を入力す
る。このように選択あるいは入力した文字列を、符号化
対象として、符号化装置１０３に伝える。

【００２３】このような手順の結果、操作者が全ての文
字をキーボード入力しなくても簡易かつ高速に文字入力
を実行できる。また、辞書に登録されている候補文字を
表示することで、あいまいな記憶に基づく文字列を入力
する際の支援となる。例えば、かな漢字変換する際に、
候補文字の表示をすることで同音異義語の変換ミスによ
る誤入力を防止することもできる。本発明は、このよう
な操作者に対する入力支援を実現できる。

【００２４】（３）文字列解析装置１０１の構成文字列解析装置１０１は、信号入力装置１００から入力
した文字列を、部分文字列に分解する。また、入力済み
の文字列に引き続いて生起する確率の高い候補文字列
を、辞書１０２から読み出す。いずれも辞書１０２に登
録してある文字間の遷移確率を利用する。

【００２５】図３は情報処理装置の入出力部、符号生成
部の構成を示したものであり、リアルタイム型の信号入
力をする場合には、図３に示すように、入力済みの文字
列を一時的に入力文字バッファ１０６に蓄積し、辞書検
索装置を用いて、辞書１０２に登録されている部分文字
列を検索する。図では、英文の「ＩＨＡＶＥＡＰＥ
Ｎ．」を入力する途中を示してある。辞書１０２には、
先頭の文字「Ｉ」は一文字で表される一人称の主語であ
る確率が高く、次には文字の区切りを示すスペースであ
る確率が高いという情報を記憶しておくことで、主語
「Ｉ」に引き続く「ＨＡ」で始まる動詞として「ＨＡＶ
Ｅ」「ＨＡＤ」「ＨＡＴＥ」などを候補として辞書から
読み出し、候補文字バッファ１０７に格納する。バッフ
ァ１０６の入力文字と１０７の候補文字は、信号入力装
置１００に備えたディスプレーに表示する。そして、操
作者が候補の一つを選択することで、一文字ずつ入力し
なくても、入力文字を確定できる。候補文字バッファ１
０７の確定した部分文字列は、入力文字バッファ１０６
に移動する。符号生成装置１０３は、入力文字バッファ
１０６を符号化処理の対象として、辞書１０２の部分文
字列の生起回数に基づき符号を生成し、生成した符号
は、符号メモリ１０５に蓄積、あるいは外部へ出力す
る。

【００２６】リアルタイム型の場合には、操作者が入力
する制御のための信号を利用して、文字列の分解をする
ことができる。例えば、前記の信号入力装置１００の動
作例で示したように、表示した複数の候補文字列の一つ
を選択する動作によって、確定した文字の終端を、文字
列の区切りとすることができる。また、日本語入力にお
ける、かな漢字変換の変換確定入力を、文字列の区切り
を指示する信号として利用できる。

【００２７】図４は情報処理装置の入力部と符号生成部
を示したものであり、バッチ型およびリアルタイム型の
どちらでも、図４に示すように、文字列分解装置を用い
て、入力した文字列のみから、辞書１０２の入力文字列
の文字間の遷移確率に関する情報に基づき、入力文字列
を分解して部分文字列を作ることができる。これには、
入力文字列を用いて、トリーを先頭から辿っていき、ト
リー終端になった時点で部分文字列の区切りと判定す
る。文字列中に含まれる、ピリオド，コンマ，スペー
ス，括弧などの文字を、文字列の区切りを指示する信号
として利用できる。また、文法に基づく品詞の判定、主
語述語の解析などに基づき、文字列の分解をすることが
できる。文字列分解装置の構成は、従来のＬＺＷ方式の
文字列の分解方式を利用することもできる。分解した部
分文字列は、符号生成装置１０３によって符号に変換す
る。

【００２８】（４）辞書１０２の構成辞書１０２は、部分文字列の構造と生起回数に関する情
報を記憶する。辞書１０２は、信号入力装置１００にお
ける操作者の入力操作の簡易化を図る文字列入力支援
と、文字列解析装置１０１における部分文字列の作成、
符号生成装置１０３の圧縮処理などに利用する。トリー
構造で辞書を構成する場合には、一つの枝に一つの文字
を割り当てることで、分岐点を経由して末端まで枝を辿
ることで部分文字列を表すことができる。図５に、文字
列「ＩＨＡＶＥＡＰＥＮ.」を構成する部分文字列
と、それ以外の幾つかの部分文字列から作られるトリー
構造を、簡略に示している。それぞれの枝、あるいは分
岐点にカウンタを備えて、生起回数を書き込めるように
する。部分文字列は「Ｉ」のように一つの文字でも、
「ＰＥＮ」のように複数の文字から構成しても良く、あ
るいは文章であっても良い。

【００２９】本発明は、上記カウンタで計数する生起回
数を用いて符号生成の演算をする。確率値に換算するこ
ともできるが、小数点演算をする回路が必要である。例
えば、分岐点を介して接続される枝から枝（すなわち文
字と文字）への生起回数を、該分岐点から出力する枝の
生起回数の総数で割り算すれば、文字間の遷移確率が得
られる。複数の分岐点を介して接続される複数の枝（す
なわち文字列）についても、各文字間の遷移確率を組み
あわせることで、文字列の生起確率が得られる。

【００３０】初期状態においては、全ての部分文字列
に、均一な生起回数を割り当てておくことができる。あ
るいは、あらかじめ典型的な文書を統計的に測定するこ
とで、部分文字列の生起回数をあらかじめ設定しておく
ことができる。あるいは、前回の動作の結果を記憶して
おき、初期値として利用することもできる。符号化対象
の信号の全体が、あらかじめファイル記憶されている場
合には、該信号を対象にプリスキャンして、部分文字列
の生起回数などの信号特性を測定して辞書を作り、該辞
書の内容に基づき符号化処理を行うこともできる。

【００３１】上記の初期設定値を固定的に利用すること
も、新たに入力した部分文字列の生起回数に基づきカウ
ンタ内容を更新することもできる。例えば、入力した部
分文字列が、既に辞書１０２に登録済みであれば該当す
るカウンタの生起回数を更新する。未登録であれば、分
岐する枝を増やすことで新たに登録する。生起回数が増
加しない部分文字列は登録抹消することができる。辞書
１０２の内容は、符号化装置と復号化装置の両者で共通
の辞書内容を参照できるように、登録内容と更新時期を
設定する。辞書１０２のデータ容量は、辞書内容の更新
によって変動するが、書き換え可能なメモリに蓄積する
ことで問題ない。メモリ蓄積のためのデータ構造は、限
定するものではない。

【００３２】トリー構造の各分岐点の最大分岐数は、入
力信号が１バイトの文字コードである場合に２５６（２
の８乗）、２バイトコードの場合は６５５３６(２の１
６乗)である。さらに、スタート，ストップなどの制御
コードを組み込むことができる。これらの制御コード
は、文字コードと同じく符号に変換することができる。

【００３３】辞書１０２の小型化を目的に、例えば、部
分文字列を２文字に限定することで、文字間の遷移回数
のみを用いた辞書を構成することもできる。図６に示す
ように、遷移前と遷移後の文字の組み合わせからなる２
次元テーブルで構成する。遷移の回数をカウントして、
テーブル内のカウンタを更新すると共に、出現回数の少
ない組み合わせは登録抹消する。カウンタ初期値は、一
定数、あるいは典型的な文書の測定結果に基づき設定で
きる。登録されていない文字が生起した場合には、遷移
回数の初期値として例えば「１」を割り当てて、新たに
登録する。

【００３４】また、一般的な辞書である国語辞書，英和
・和英辞書，人名地名辞書などに登録されている項目
に、生起回数に関する情報を付加して、辞書１０２を構
成することもできる。例えば、図７に示すように、読み
出し専用のメモリに一般辞書４０１を、書き換え可能な
メモリに生起回数辞書４０２を記憶させる。そして、辞
書検索装置３０５を用いて、一般辞書４０１から候補文
字列を読み出し、生起回数辞書４０２から該候補文字の
生起回数に関する情報を読み出す。実際に生起した項目
数が少ない場合には、生起回数辞書４０２の登録数は、
一般辞書４０１の項目数に比べて少なくなる。こうし
て、入力支援と文字列の圧縮の両者について、辞書１０
２の兼用が可能となり、装置の小型化を実現できる。

【００３５】トリー構造，生起回数、あるいは生起確率
などに関する情報はＳＲＡＭ，ＦＥＲＡＭ、などの書き
換え可能な半導体メモリに記憶することで、入力文字列
を統計的に測定した結果に基づき辞書の内容を更新する
ことができる。メモリに蓄積するためのデータ構造は、
例えば従来から知られているリンク構造などを利用でき
るが、特に限定するものではない。

【００３６】上記のように、本発明によれば、辞書１０
２を用いて文字入力支援と符号化処理を実行することが
でき、さらには一般辞書の機能を兼用することもでき
る。

【００３７】（５）符号生成装置１０３の基本構成符号生成装置１０３は、信号入力装置１００および文字
解析装置１０１が入力した信号を、符号語に置き換え
る。本発明は、辞書１０２にある文字列の生起回数を用
いて最適な符号生成を行う。符号化対象とする部分文字
列は、一文字，単語，文章などの場合があるが、それぞ
れを一つの符号語に変換して出力する。符号化処理のタ
イミングは、部分文字列が入力した毎にリアルタイム型
に実行することも、あらかじめファイルに記憶された文
字列全体を対象にバッチ型に実行することもできる。

【００３８】本発明は、２進数の演算により符号生成を
行い、確率値に基づく小数点演算が不要であることか
ら、簡易な装置構成で高速に信号処理できることが特徴
である。

【００３９】まず、図８を用いて、２進符号（ｓ＝２）
の場合の、符号生成手順を説明する。説明に使っている
数値は一例であり、実際の値は条件によって異なる。

【００４０】：始め（ａ）ｎ種類の文字列の生起回数を大きな順にならべて
Ｃｉ（ｉ＝１〜ｎ）とする。各文字列を構成する文字の
個数は限定しない。一例として、生起回数Ｃの総数Ａは
２のべき乗である１０２４に設定する。

【００４１】Ａ＝Σ Ｃｉ＝１０２４ …（１）処理対象とする文字列は生起回数の大きな順であり、初
期値として、ｉ＝１を設定する。

【００４２】（ｂ）文字列ｉの符号語のビット長ｂｉ
を、次式で（底は２で、小数点以下は四捨五入する）で
設定する。

【００４３】ｂｉ＝log_s(１／ｐｉ）＝log_s(Ａ／Ｃｉ）＝log_s(Ａ）−log_s(Ｃｉ）＝１０−log₂(Ｃｉ） …（２）ここで、演算結果として求められるのは整数値であるこ
とから、上式の対数演算log₂（Ｃｉ）を小数点以下まで
算出する必要はないことに着目する。例えば、入力Ｃｉ
の数値を入力し、あらかじめ計算しておいた対数演算結
果を出力する手段を用意しておくことができる。

【００４４】ただし、四捨の場合に得られる２^biを事象
の実際の生起回数に置き換えた際に、事象の生起回数の
大きさの順位に変動がある場合には、ｂｉに１を加算す
る（五入にする）。言い換えれば、事象の生起回数に置
き換えても、その順位に変動のない最小桁数の２進数を
求めて、その桁数ｂｉを符号語のビット数として利用す
る。

【００４５】小数で与えられる確率値を、整数のビット
数（符号長）に変換する際の、切り上げ処理による圧縮
率の低下が発生する。ここで、確率値ｐｉと、設定され
た符号語の持つ最小情報量との差分は次式で求まるＥｉ＝（１／ｓ)^bi-pi…（３）生起回数Ｃｉを用いて符号化誤差を次式で算出する。

【００４６】ＣＥｉ＝Ａ・Ｅｉ＝Ａ・（（１／ｓ)^bi-pi) ＝２^(10-bi)-Ci…（４）（ｃ）累積生起回数の値を一定に保つことを目的にし
て、発生する符号化誤差を、残りの文字列（ｉ＋１から
ｎまで）の生起回数から減算する。ここで、符号化誤差
の分配方法は限定するものではないが、分配先の事象の
生起回数の順位に変動がないことを条件とする。例え
ば、残りの文字列の生起回数の割合に比例して分配す
る。

【００４７】（ｄ）実際に生起した符号化対象とする文
字列の符号長が生成されるまで、修正済みの生起回数を
用いて（ｂ）からの手順を繰り返す。実際に生起した事
象の処理が終了したら、符号長ｂｉを設定して（ｅ）に
進む。

【００４８】（ｅ）符号化対象とする文字列の符号長が
求まったなら、符号のビットを設定する。まず、累積生
起回数を次式で算出する。そして、１０ビット（この値
は式（１）の設定例であるlog_s（Ａ）＝１０の場合）の
２進数表現を行い、上位の空きビットは０とする。例え
ば１０進数で５１２は「1000000000」である。そして、
最上位からビット数ｂｉを切り出して、符号語を設定す
る。

【００４９】ｑｉ＝Σ（２^bk）（ｋ＝１ｔｏｉ−１の総和） …（５）：終わり上記手順が最適である理由は、まず、符号生成手順の各
段階において、生起確率に基づく最短の符号語長が設定
される。この符号語長の設定によって発生する確率値の
誤差を、残りの事象の確率値に配分することで符号化ロ
スは発生しない。この手順を順次繰り返すことで、最適
な符号語を生成できる。

【００５０】図９は符号生成装置１０３の構成を示して
いる。信号入力装置１００から符号化対象とする信号を
入力し、辞書１０２から生起回数を入力する。生成した
符号は、符号メモリあるいは伝送装置に出力する。ここ
で、符号長設定部１１０は、上記（２）式の符号長の設
定を実現する手段である。符号長設定部１１０に入力す
るのは生起回数を表す信号Ｃｉ（ｉ＝１〜ｎ）であり、
上記例では最小が０最大が１０２４の値である。出力す
るのは符号長を示す最小０最大１０の値である。この処
理を行う装置構成の一例としては、入力した生起回数を
一時的にレジスタに蓄積し、該レジスタ内容を用いて、
演算結果を変換表にまとめたメモリを読み出すことで符
号語長を設定する。次に、符号ビット設定部１１１は、
上記(５)式で示される累積生起回数をレジスタに設定し
て、該レジスタ内容を設定された符号語長で切り出すこ
とで、一意に復号可能な符号語を設定する。符号語長変
換部１１２は、上記（３）式の右辺の第一項の（１／
ｓ)^biを算出する手段であり、符号長設定部１１０から
入力した符号語長をレジスタに一時格納し、べき乗演算
に相当する値を２進数シフトあるいはビット設定などに
よる２進数生成回路により算出する。

【００５１】生起回数修正部１１３は、文字列の生起回
数を一時的に記憶すると共に、上記（４）式の符号化誤
差を算出して、符号語生成の終わっていない残りの文字
列の生起回数の修正を行う手段である。これらの装置
は、符号生成手順に基づき管理装置１１５によって、生
起回数の大きな信号から順次に繰り返して演算を行い、
入力信号に対応する符号が生成された時点で処理終了し
て、符号出力する。また管理装置１１５は、初期化，信
号入力，符号出力などの入出力制御と、各装置間の処理
タイミング制御を行う。

【００５２】図１０に示すように、生起回数表は書き換
え可能なメモリで構成し、初期値は辞書１０２から読み
出した生起回数を設定する。符号生成手順に従って一つ
の符号長を算出する毎に、生起回数表を書き換える。こ
のため、修正値算出回路により修正値を生成し、修正値
レジスタに一時格納して、該レジスタ内容に基づき生起
回数表の書き換えを行う。

【００５３】図１１に、修正値算出回路の構成例を示
す。まず、符号語長変換部１１２が生成した上記（３）
式の右辺の第一項の（１／ｓ)^bi、および生起回数を入
力する。そして、生起回数レジスタの内容と比較して上
記（４）式の符号化誤差を算出する。次に、生起回数の
大きさに比例した分配比率に基づき符号化誤差の分配誤
差を算出する。ここで分配誤差は、総計が（１／ｓ)^bi
以下の２進数である。そして、生起回数表の内容に分配
誤差を加減算して修正値を算出する。これらの処理は管
理装置１１５によって制御する。

【００５４】本発明の特徴は、上記符号生成の手順およ
び装置構成において、全ての演算を整数値（２進数）で
扱うことである。小数点を扱う信号処理手順あるいは処
理装置は、例えば浮動小数点演算回路が必要であるのに
対して、本発明は２進の整数演算で良いため装置構成が
容易であると共に高速な処理が可能となる。また、例え
ば式（２）に基づく符号語長の算出を、図１２（１）に
示すような変換表に設定し、あらかじめ図１２（２）に
示すようなメモリに記憶しておき、入力信号をアドレス
としてメモリ読み出しすることで、符号長を得る。

【００５５】なお、これらの装置構成の動作内容は、プ
ログラム制御のプロセッサによる信号処理によっても実
現できることは言うまでもない。

【００５６】次に図１３を用いて、実際の数値を用いた
２進符号の生成例を示す。図中には、８種の部分文字列
文字列について、登録番号１と２の符号生成例を示して
ある。初期設定として、それぞれの文字列の生起回数を
１に設定し、その後、入力する文字列の生起回数の計数
値を設定していく。そして、生起回数の総数が２のべき
乗である１０２４とする。

【００５７】：始め（ａ）ｎ＝８種類の文字列の生起回数Ｃｉを、大きさの
順番に、５００，２００，１００，１００，５０，５
０，２３，１とする。最後の文字列（生起回数Ｃｉ＝
１）は、初期設定した値が残っている場合を示し、実際
には入力しなかった例である。総数Ａは１０２４。

【００５８】（ｂ）ｉ＝１の文字列の生起回数は５００
であるから、式（１ａ）から符号長はｂｉ＝１となる。
２^ｂｉ＝５１２を、元の生起回数と置き換えても順位変
動はない。式（２ａ）から符号化誤差Ｃｅｉ＝１２であ
る。

【００５９】（ｃ）符号化誤差を残りの文字列（ｉ＝２
から８まで）の生起回数に分配して修正する。具体的に
は、文字列ｉ＝１の生起回数は符号化誤差Ｃｅｉ＝１２
で示されるだけ少な目に設定されたことになっているた
め、残りの文字列の生起回数から１２を減算する。前記
したように分配方法は限定していないので、一例を示し
てある。

【００６０】（ｄ）実際に入力した文字列がｉ＝１でな
い場合は、手順（ｂ）に戻り、次の文字列の処理を行
う。一方、入力した文字列がｉ＝１の場合には、符号長
ｂ１＝１を設定して手順（ｅ）に進む。

【００６１】（ｅ）実際に入力した文字列がｉ＝１の場
合、符号長はｂ１＝１、累積生起回数はｑ１＝０であ
る。１０ビットの２進数で累積生起回数を表すと「00000
00000」であり、符号長ｂ１＝１ビットを上位から取り出
して「０」が符号語となる。また、文字列がｉ＝２の場
合、符号長はｂ２＝２、累積生起回数はｑ２＝５１２で
ある。１０ビットの２進数で累積生起回数を表すと「10
00000000」であり、上位から２ビットを取り出して「１
０」が符号語となる。

【００６２】：終わり（６）復号化処理図１４は処理装置の符号化処理を行う符号化部の構成例
を示したものである。復号化装置は、文字列解析装置１
０１，辞書１０２，符号生成装置１０３、および一致判
定装置１０４から構成される。ここで、文字列解析装置
１０１，辞書１０２，符号生成装置１０３は、符号化部
と同じ構成である。符号メモリ１０５に蓄積した符号語
を読み込んで、登録番号順に生成した符号語が同一であ
るか否かの判定を順次に行い、同じであれば、該登録番
号に対応する文字列を出力する。そして、復号した信号
を測定することで文字列の生起回数を算出し、符号化装
置と同一のトリー構造を作成して辞書に蓄積する。この
辞書を参照することで、可逆的に信号再生できる。ここ
で、初期設定等についても、符号化処理と同一の内容を
同一のタイミングで実行する。

【００６３】復号化の手順を図１５に示す。それぞれの
ステップは符号化処理の内容と同じであり、最後に入力
した符号語と、登録番号順に生成した符号語が同一であ
るか否かの判定を行うステップを設けている。

【００６４】本発明の特徴は、上記手順および装置構成
において、符号化処理と同様に、全ての演算を整数値
（２進数）で扱うことである。小数点を扱う信号処理手
順あるいは処理装置に比べて、構成が容易となると共に
高速な処理が可能となる。

【００６５】次に、入力した一つの符号語についての、
復号化処理の基本的な数値例を示す。生起回数はあらか
じめ設定されているものとする。

【００６６】：始め（ａ）既に復号した文字列の測定結果から、ｎ＝８種類
の文字列の生起回数Ｃｉが、大きさの順番に、５００，
２００，１００，１００，５０，５０，２３，１である
とする。総数Ａは１０２４。

【００６７】（ｂ）ｉ＝１の文字列の生起回数は５００
であるから、式（１ａ）から符号長はｂｉ＝１となる。
２^bi＝５１２を、元の生起回数と置き換えても順位変動
はない。式（２ａ）から符号化誤差Ｃｅｉ＝１２であ
る。

【００６８】（ｃ）符号化誤差を残りの文字列（ｉ＝２
から８まで）の生起回数に分配して修正する。具体的に
は、文字列ｉ＝１の生起回数は１２だけ多く設定された
ことになっているため、残りの文字列の生起回数から１
２を減算する。分配方法は限定していないので、一例を
示してある。

【００６９】（ｄ）符号長はｂｉ＝１，累積生起回数は
ｑ１＝０、であるから、「０」が符号語となる。

【００７０】（ｅ）入力した符号系列と生成した符号語
の両者を、ビット数ｂｋの長さに渡って比較する。一致
していれば、符号語は文字列ｉ＝１を示すものとして復
号処理を終了する。不一致の場合には、修正済みの生起
回数を用いて次の文字列について（ｂ）からの手順を繰
り返す。

【００７１】：終わりある生起回数以下、あるいは、ある順位以下の信号の生
起回数を均一な数値に置き換えることで、符号ビットの
生成を簡易化することができる。例えば、文字列が２５
６種類（２の８乗）ある場合に、上位の８種類の文字列
は測定した生起回数を利用することにして、残りの２４
８種類の事象については均一の生起回数を割り当てる。
ただし、生起回数の総数は維持しなければならない。均
一な生起回数の文字列（上記の例では、第９番目から２
５６番目まで）には、均一な符号語長を割り当てること
ができることを利用して、符号化および復号化の処理を
高速に実行できる。

【００７２】（７）装置構成例本発明を用いた装置構成例を説明する。

【００７３】図１６は、複数の情報処理装置からなるシ
ステムの構成を示したものである。本システムは、伝送
路で接続された、送信装置と受信装置の２者間で、効率
の良いデータ伝送を行う構成例を示す。送信装置と受信
装置の両者が備える辞書は、初期化条件，更新方法を両
者共通に設定しておく。これは、符号伝送に先立って相
互通信に基づき設定することも、あるいは、あらかじめ
装置に組み込む初期化プログラムに基づき設定すること
もできる。

【００７４】辞書内容は、固定的に利用することも、信
号内容に基づき更新することもできる。辞書内容を更新
する場合には、送信側は符号化伝送の済んだ信号に基づ
き辞書を更新する。一方受信側は、受信復号した信号に
基づき辞書を更新する。こうして、両者の辞書の更新内
容とタイミングを常に一致させることで、送信装置が伝
送した符号を、受信装置は誤りなく復号して信号を再生
することができる。

【００７５】操作者が、例えばキーボードで文字入力す
る速度は、伝送路のデータ転送速度に比べて遅い。この
ような場合に、符号語を伝送するために伝送路を占有す
ることは、伝送路の使用効率は低くなる。そこで、符号
を伝送する方式として、通信手順の一つとして知られて
いるパケット型通信を利用できる。これは、伝送するデ
ータ量（例えばバイト数）に課金が行われるものであ
り、電話のような接続時間に関係しない。このため、操
作者がリアルタイムに入力する信号を、入力タイミング
に基づき細切れにして送ることに適している。本発明で
は、リアルタイム型に入力して圧縮した符号を、パケッ
ト型通信で伝送することで、伝送コストの削減を実現で
きる。

【００７６】図１７は、符号化部と復号化部を内蔵する
情報処理装置の構成例である。信号を圧縮することで、
大容量のデータを蓄積できることが本装置の特徴であ
る。符号メモリ１０５は、符号語を蓄積する手段であ
り、半導体メモリ，ディスク装置などを利用できる。符
号化処理、および復号化処理の動作は、既に説明した通
りである。

【００７７】ここで、符号化処理部と復号化処理部を構
成する手段を、全て別々に用意することもできるが、一
部を兼用することもできる。符号化と復号化が同時動作
しないようにタイミング制御を行うことで、文字列解析
装置１０１，辞書１０２，符号生成装置１０３を、符号
化処理と復号化処理の両者に共用することができる。つ
まり、信号の入力と出力を同時に実行しないことで、情
報処理装置の回路規模を削減できる。

【００７８】（８）携帯情報端末の構成例図１８（１）に、情報処理装置を携帯情報端末に適用し
た場合の一例を示す。信号入力装置１００は、表示装置
３００とペン型入力装置３０３，手書き入力した文字を
文字コードに変換する文字認識装置３０４から構成され
る。辞書102の内容は、文字列解析装置１０１によって
参照され、候補文字列を読み出して表示装置３００に表
示する。また、辞書内容は、文字認識装置３０４からも
参照されて、手書き入力された文字の文字コード変換に
おける、認識率の向上に利用することができる。さら
に、文字認識装置３０４において、区別のつきにくい手
書き文字を活字文字に変換する処理において利用するこ
とで、そして、入力した文字列などを符号生成装置１０
３でリアルタイムで圧縮データに変換することで、符号
メモリ１０５に多量のデータを効率よく蓄積することが
できる。このように、本発明では、辞書１０２の内容
を、文字列入力の支援と共に、入力した文字列の符号化
処理に利用する。

【００７９】辞書１０２の内容は、入力した文字列の内
容に基づき更新していくことができるが、あるいは、初
期設定の辞書内容を固定的に利用することもできる。

【００８０】図１８(２)に示すように、操作者がペン型
入力手段３０３を用いて１文字ずつ入力した文字列３０
１から、あらかじめ用意した辞書に基づく候補文字列３
０２を取り出して、表示装置３００に表示する。操作者
は、表示された候補文字302から一つを選択する。表示
した候補の中に該当する文字列が無い場合には、操作者
が一文字ずつペン型入力装置３０３を用いて入力する。
図中では、英文入力の例として、主語「Ｉ」に引き続い
て動詞「ＨＡＶＥ」を入力するつもりで、途中の「Ｈ
Ａ」まで入力した時点の動作を示す。辞書１０２から、
「ＨＡ」から開始する１人称単数の動詞の候補文字列を
取り出し、「ＨＡＶＥ」「ＨＡＤ」「ＨＡＴＥ」を表示してい
る例である。こうして、操作者は全ての文字列を入力す
ることなく、候補文字を選択することで、簡易に正確な
入力を実現できる。信号入力装置がキーボードである場
合も同様な手順を実行できる。そして、入力文字列が確
定したタイミングで圧縮データに変換してメモリに蓄積
する。

【００８１】手書き文字認識装置を用いる場合に、手書
き文字を文字コードに変換する文字認識装置３０４にお
いても、辞書１０２から取り出した候補文字列を利用す
ることで、認識精度を向上させることもできる。

【００８２】上記構成を実現する回路構成例を、図１９
に示す。ＣＰＵ，読み出し専用の不揮発性メモリ，書き
換え可能なメモリ，外部入出力装置に加えて、手書き文
字入力を行うための手段として、タブレットと表示装置
と入出力制御装置を介して組み合わせる。読み出し専用
の不揮発性メモリには、ＣＰＵの動作を記述するプログ
ラム，辞書，伝送制御プロトコルなどを書き込んでお
く。一方、書き換え可能なメモリは、ＳＲＡＭ，ＦＥＲ
ＡＭなどで構成し、演算途中のデータ，測定結果に基づ
く文字列の生起回数，入力文字列などを記憶する。タブ
レットと表示装置は、画素位置が同期するように重ねあ
わせることで、入力と表示位置が一致する。このような
携帯情報端末の構成では、操作者の文字入力手段がタブ
レットに限られるため、本発明の特徴であるリアルタイ
ム型の入力支援と入力データの圧縮を効率よく実現でき
る。例えば、人名とアドレスと電話番号などを、前記入
力支援を行いながら文字入力し、圧縮処理を行ってメモ
リ蓄積することで、多量のデータを記憶できるようにな
る。また、バッチ型の場合には、文書データなどを一括
して入力するため入力支援が不要であり、文字列解析を
行いながら圧縮処理を行いメモリ蓄積する。

【００８３】例えば、かな漢字変換において、同音異義
語の複数の漢字候補を提示することで、入力操作者のあ
いまいな記憶に基づく変換操作を支援する。また、入力
した文字列については、符号語として蓄積あるいは伝送
することで、蓄積容量の削減あるいは伝送時間の短縮を
実現できる。通信手段を用いて伝送する場合には、受信
側装置は、符号語を順次復号していくことで、送信側と
全く同じ文字列を再現できる。このように、辞書１０２
を用いて、操作者の入力支援と共に、データ圧縮を行う
ことができる。

【００８４】（９）圧縮データの編集処理メモリ蓄積した圧縮データを対象にして、書き換え，移
動，削除などの編集をする場合の動作を説明する。本発
明では、生成する符号語は可変長であること、および符
号化処理において参照する辞書内容は信号入力に基づい
て逐次に更新することから、圧縮データは先頭から順次
に復号しないと信号再生ができない。このため基本的に
は、圧縮データの一部を取り出して、部分的な文字列を
復号することはできない。図２０を用いて、幾つかの方
法を以下に述べる。

【００８５】第一の方法は、編集メモリを付加した装置
構成を用いる。入力文字列は、前記したリアルタイム型
の符号化処理をして符号メモリに蓄積する。符号メモリ
の内容を再度編集するには、符号語を復号化処理して編
集メモリに書き込み、該編集メモリに蓄積した文字列を
対象にして編集処理する。編集後の文字列は、バッチ型
の符号化処理を行い、符号メモリに蓄積する。この方法
は、編集処理を行うには、符号データ全体を対象に復号
化と符号化をバッチ型の信号処理で繰り返す。第二の方
法は、図中の符号メモリ１０５の内容に示すように、圧
縮処理の途中で、符号データの区切りを示す区切り信号
の挿入を行う。こうして圧縮データを、区切り信号ごと
に復号して編集メモリに蓄積して、編集処理を行う。こ
れにより文字列全体を復号すること無く、編集対象を含
む部分文字列のみを復号して編集を可能とする。編集後
の文字列は、再び圧縮処理して符号メモリに蓄積する。
ここで、編集処理によって圧縮データの容量は変化する
ことに注意して、データ管理手段に基づきメモリ蓄積す
る。上記の区切り処理を行うタイミングは、一定数の文
字毎に設定する方法，文章中の段落・改ページなどに基
づき設定する方法、などとすることができる。圧縮デー
タ中に挿入する区切り信号は、特有のビットパタンとす
ることで、容易に検出できる。

【００８６】

【発明の効果】本発明によれば、順次に入力する文字列
を最適符号に変換して、効率の良い圧縮を実現すると共
に簡易な装置構成で高速に符号生成を実現できる。

【図面の簡単な説明】

【図１】本発明の処理装置の符号化処理を行う部分の基
本構成を示す図である。

【図２】信号入力装置の手順を示す図である。

【図３】情報処理装置の入出力部，符号生成部の構成を
示した図である。

【図４】情報処理装置の入力部と符号生成部を示した図
である。

【図５】２文字遷移の辞書の構成を示した図である。

【図６】辞書の構成を示した図である。

【図７】文字入力の処理手順を示した図である。

【図８】符号生成手順を示した図である。

【図９】符号化装置の構成を示した図である。

【図１０】生起回数修正部の回路構成を示した図であ
る。

【図１１】修正値算出回路の構成を示した図である。

【図１２】符号長変換表の構成を示した図である。

【図１３】符号生成の数値例を示した図である。

【図１４】情報処理装置の復号化を行う復号化部の構成
例を示した図である。

【図１５】復号手順を示した図である。

【図１６】情報処理システムの構成を示した図である。

【図１７】情報処理装置の構成を示した図である。

【図１８】携帯情報端末に適用した場合の構成を示した
図である。

【図１９】携帯情報端末の回路構成を示した図である。

【図２０】圧縮データの編集装置に適用した場合の構成
を示した図である。

【符号の説明】

１００…信号入力装置、１０１…文字列解析装置、１０
２…辞書、１０３…符号生成装置、１０４…一致判定装
置、１０５…符号メモリ、１０６…入力文字バッファ、
１０７…候補文字バッファ、１１０…符号長設定装置、
１１１…符号ビット設定部、１１２…符号語長変換部、
１１３…生起回数修正部、１１５…管理装置。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平５−120281（ＪＰ，Ａ) 特開平５−128103（ＪＰ，Ａ) 特開平７−334344（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) H03M 3/00 - 11/00

Claims

(57)【特許請求の範囲】

【請求項１】少なくとも文字が入力される入力部と、文字列とこの文字列の生起回数及び文字列毎に与えられ
る識別番号とを対応付けて記憶する辞書と、前記辞書に記憶された文字列について生起回数が大きい
文字列から順に、生起回数に基づいて符号語長を求め、
この符号語長から対応する識別番号の符号語を生成する
と共に、前記求めた符号語長から符号化誤差を求めこの
符号化誤差から他の文字列の生起回数を補正する符号化
部とを有する情報処理装置。
【請求項２】請求項１において、前記符号化部は、前記生起回数から求めた符号長の整数
部分から符号語を生成する情報処理装置。
【請求項３】請求項１において、前記入力部から連続して入力される文字をあらかじめ定
めた規則に基づいて文字列ごとに区切る分解手段を有
し、前記辞書は、前記分解手段によって分解された文字列、
この文字列の生起回数、文字列ごとに与えられる識別番
号とを対応付けて記憶する情報処理装置。
【請求項４】文字入力部と、文字列とこの文字列の生起
回数および文字列毎に与えられる識別番号とを対応付け
て記憶する辞書と、前記辞書に記憶された文字列の生起回数に基づき入力文
字列の候補を表示する表示部と、前記辞書に記憶された文字列について生起回数が大きい
文字列から順に、生起回数に基づいて対応する識別番号の符号語を生成す
ると共に前記求めた符号語長から符号化誤差を求めこの
符号化誤差から他の文字列の生起回数を補正する符号化
部とを有することを特徴とする情報処理装置。
【請求項５】複数の情報処理装置が接続された情報処理
システムであって、少なくとも１つの情報処理装置は、文字が入力される入
力部と、文字列とこの文字列の生起回数及び文字列毎に
与えられる識別番号とを対応付けて記憶する辞書と、前
記辞書に記憶された文字列について生起回数が大きい文
字列から順に、生起回数に基づいて対応する識別番号の
符号語を生成すると共に、求めた符号語長から符号化誤
差を求め、前記符号化誤差から他の文字列の生起回数を
補正する符号化部と、前記生成された符号語を外部に送
信する送信部とを有し、少なくとも１つの情報処理装置は、外部から前記符号を
受信する受信部と、文字列とこの文字列の生起回数及び
文字列毎に与えられる識別番号とを対応付けて記憶する
辞書と、前記受信部に入力された符号を復号すると共
に、前記求めた符号語長から符号化誤差を求め、前記符
号化誤差から他の文字列の生起回数を補正する復号化部
と、識別番号に基づいて前記辞書から対応する文字列を
抽出する抽出部とを有する情報処理システム。
【請求項６】入力された文字列と、この文字列の生起回
数および文字列ごとに与えられた識別番号とを記憶した
辞書から生起回数の最も大きい文字列について、生起回
数から符号語のビット長を求め、このビット長の整数部
分から前記文字列の識別番号の符号語を生成する段階
と、前記求めたビット長から符号化誤差を求め、この符号化
誤差と残りの文字列の生起回数から残りの文字列の新た
な生起回数を決定する段階と、残りの文字列の生起回数の最も大きい文字列について生
起回数から符号語のビット長を求め、このビット長の整
数部分から前記文字列の識別番号の符号語を生成する段
階とを有する情報処理方法。