JP3301030B2

JP3301030B2 - 円形状に配列された文字を直線状に配列された文字に変換する方法および装置、並びに、文字認識方法および装置

Info

Publication number: JP3301030B2
Application number: JP24417193A
Authority: JP
Inventors: 亨大木; フィリップパオレラ
Original assignee: ソニーエレクトロニクスインク
Priority date: 1992-10-01
Filing date: 1993-09-30
Publication date: 2002-07-15
Anticipated expiration: 2017-07-15
Also published as: US5319722A; JPH0714010A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は一般的には文字またはシ
ンボルの認識に用いるニューラルネットワークの分野に
関する。より特定的には、本発明は例えば、コンパクト
ディクスの中心の穴のまわりに、または缶または瓶の円
形状の配列において、文字またはシンボルが回転されて
いる状態の文字またはシンボルを認識するための文字認
識方法およびその装置、並びに、文字認識方法に適用す
る円形状に配列された文字を直線状に配列された文字に
変換する方法と装置に関する。

【０００２】〔関連出願の記述〕本発明に関連する出願
を下記に示す。本発明は、それぞれ同じ日（１９９２年
１０月１日）に米国特許庁に出願され、本願出願と同じ
共通の所有者によって、我が国に出願された下記の出願
に関係している。（１）米国出願シリアル番号：０７／９５５，５６３米国出願名称“Training Method for Neural Network U
sing Width Variation" 発明者:Toru Oki(大木亨) 我が国特許出願整理番号：Ｓ９３０３７５６８（１）、（２）、（３）を複合して出願（２）米国出願シリアル番号：０７／９５５，５２２米国出願名称“Training Method for Neural Network U
sing Offset Training Characters" 発明者:Toru Oki(大木亨) 我が国特許出願整理番号：Ｓ９３０３７５６８（１）、（２）、（３）を複合して出願（３）米国出願シリアル番号：０７／９５５，５３４米国出願名称“Neural Network for Character Recogni
tion and Verification" 発明者:Toru Oki(大木亨) 我が国特許出願整理番号：Ｓ９３０３７５６８（１）、（２）、（３）を複合して出願（４）米国出願シリアル番号：０７／９５５，５２６米国出願名称“Training Method for Neural Network" 発明者:Toru Oki(大木亨) 我が国特許出願整理番号：Ｓ９３０３７６３３

【０００３】

【従来の技術】文字認識はニューラルネットワークの重
要な用途の一つである。文字認識の用途は、資料におけ
るテキストの認識のために、および、工業的な応用分野
におけるシンボルおよび文字の認識に用いられている。
そのような全ての用途において、文字の認識における最
適な精度が最も重要である。ニューラルネットワークの
性能および訓練に影響を与える種々の因子の扱いについ
ての概要及び背景事項が下記の論文に見い出される。論
文：著者、Patrick K. Simpson、題名、"Foundations o
f Neural Networks"、Artificial Neural Networksから
刊行：Paradigms,Applications and Hardware Implemen
tations, Sanchez-Sinencio、他、編集、IEEE Press,19
92,米国。

【０００４】

【発明が解決しようとする課題】従来のニューラルネッ
トワークにおいては、ハードウエア的な処理およびソフ
トウエア処理のいずれにおいても、文字を表すものをニ
ューラルネットワークに提供することによって文字が認
識されている。内部重み関数が用いられ、ニューラルネ
ットワークを訓練するための訓練過程に基づいてその文
字に最も近いものを表す出力が生成される。訓練過程の
品質を向上させることが現在の研究における主題であ
り、その向上が現在、ニューラルネットワークが文字を
同定できる精度を決定している。工業的な用途におい
て、例えばシリアル番号などを表す文字の正しい認識が
生産管理において重要（クリティカル）である。

【０００５】いくつかの例においては、認識されるもの
として、シリアル番号、アルファベットまたは数字の文
字、グラフィックのシンボル、バーコード、または他の
文字が円形状な配列において提供されている。この例と
して、シリアル番号を例示すると、このシリアル番号は
コンパクトディクスの中心の穴の周りに共通に発見され
る。そのような文字の正しい読み取りは直線的に配列さ
れた文字を読み取るよりは実質的に、より複雑である。
本発明は、直線的な配列に文字を再配置し、分離し、そ
して文字を中心化する（センタリング）技法を提供する
ことによって、そのような文字の読みを向上することを
探索する。

【０００６】本発明の目的は、ほぼ円形状に配列されて
いる文字またはシンボルを読み取る改良した文字またシ
ンボルを認識する方法および装置を提供することにあ
る。本発明の利益は、円形状に配列された文字またはシ
ンボルの認識の精度を向上させるものである。本発明の
特徴は、変換された文字の分解能が回転された文字をよ
り正確に表すように向上させうることである。本発明の
これらの目的、利益および特徴、および、他の目的、利
益および特徴が本発明についての下記の記述の考慮に基
づき、当業者が容易に理解しうる。

【０００７】

【課題を解決するための手段】本発明の第１の観点によ
れば、円形状に配列された文字を直線状に配列された文
字に変換する方法であって、当該変換方法が下記の諸段
階、すなわち、前記円形状に配列された文字を走査して
直交する水平方向と垂直方向の二次元平面に規定される
複数のピクセルの画像データとして提供する段階と、前
記各ピクセルを縦と横との比率であるアスペクト比に基
づいて前記二次元平面に仮想的に放射状に引く複数の放
射状線の角度変化を算出し、前記走査した画像データの
変換範囲を決定する段階と、前記決定した変換範囲につ
いて、前記二次元平面に仮想的に前記角度変化で複数の
放射状線を仮想的に引き、各放射状線と前記二次元平面
のピクセルと交差するピクセルの位置をアドレス位置と
して、前記交差した部分の画像データを画像データアレ
ーに複写する段階と、前記画像データアレーに複写され
た画像データを各文字に区分する段階とを具備する、円
形状に配列された文字を直線状に配列された文字に変換
する方法が提供される。

【０００８】本発明の第２の観点によれば、上記変換方
法を実施する変換装置が提供される。

【０００９】本発明の第３の観点によれば、上記変換方
法を用いた文字認識方法が提供される。本発明の文字認
識方法は、円形状に配列された文字を直線状に配列され
た文字に変換し、直線状に配列された各文字を認識可能
なニューラルネットワークを用いて、円形状に配列され
た文字を認識する方法であって、当該認識方法が下記の
諸段階、すなわち、前記円形状に配列された文字を走査
して直交する水平方向と垂直方向の二次元平面に規定さ
れる複数のピクセルの画像データとして提供する段階
と、前記各ピクセルを縦と横との比率であるアスペクト
比に基づいて前記二次元平面に仮想的に放射状に引く複
数の放射状線の角度変化を算出し、前記走査した画像デ
ータの変換範囲を決定する段階と、前記決定した変換範
囲について、前記二次元平面に仮想的に前記角度変化で
複数の放射状線を仮想的に引き、各放射状線と前記二次
元平面のピクセルと交差するピクセルの位置をアドレス
位置として、前記交差した部分の画像データを画像デー
タアレーに複写する段階と、前記画像データアレーに複
写された画像データを各文字に区分する段階と、前記区
分された各文字を前記ニューラルネットワークに印加し
て文字認識を行う段階とを具備する。

【００１０】本発明の第４の観点によれば、上記文字認
識方法を実施する文字認識装置が提供される。

【００１１】新規であると信じられている本発明の特徴
は、添付した特許請求の範囲に述べられている。しかし
ながら、本発明はそれ自身、構成および動作方法のいず
れについて、他の目的およびその利益とともに、添付し
た図面に関連づけた下記の記述を参照して最良に理解さ
れる。

【００１２】

【実施例】図１は中心の穴の周りにシリアル番号が付さ
れたコンパクトディスクの図である。図２は本発明の文
字認識および検証装置の動作を図解したブロックダイア
ログ図である。図３は本発明の文字認識および検証装置
の動作を示すフローチャートである。図４は円形状に配
列された画像から、直線的なアレイのピクセルをマッピ
ングすることを図解する図である。図５は本発明の極座
標（polar)変換を図解する図である。図６はアドレスア
レイおよび目標アレイのマッピング処理を図解する図で
ある。図７は本発明の極座標変換を記述するフローチャ
ートである。図８は文字の分離および中心化処理を図解
する図である。図９は元の画像のピクセルと向上した分
解能を持つピクセルを重ね合わせた状態を示す図であ
る。

【００１３】本発明は種々の異なる形態における実施例
として実現できるが、図面に示されそしてここにおいて
詳述した特定的な実施例において記述される。ここに開
示したものは本発明の原理の一例として考慮されるべき
であり、そして本発明は図示し、記述した特定的な実施
例に限定されることが意図されているものではない。こ
の記述のために、技術的な用語、シンボル、および、文
字はたとえば数、文字、グラフィックシンボル、アルフ
ァベット的なシンボルまたはこれに類似したものなどの
認識可能なメンバー（要素）の組の一つの組の一つのメ
ンバーを表すようにそれぞれが意図されているように幾
分、交換可能に用いられる。

【００１４】図１を参照すると、工業的な用途について
本発明の例示が開示されている。そのような用途は、た
とえばサブアセンブリ、コンピュータディスク、または
コンパクトディスクなどの一部分の上に付されたシリア
ル番号を認識するように用いることができる。もちろ
ん、他の用途についても可能である。この例示において
は、１１桁の文字のシリアル番号（２０（ゼロ）４５６
８２Ｏ（オー）Ｏ（オー）＠１）が部品（パーツ）１０
から認識されるべきものと仮定する。ここで、部品１０
は本発明の好適な実施例においてはコンパクトディスク
である。この好適な実施例においては、シリアル番号は
また、ディスクの透明な基板を通して観察され、それに
よって文字が図示したように反転されている。もちろん
このことは、この装置において認識に用いるニューラル
ネットワークは反転された文字を認識するように訓練さ
れていることを明確に要求する。

【００１５】図２を参照して述べると、この部品１０は
ビデオカメラまたは他の走査装置１２によって特定的な
位置おいて撮像される。部品１０がコンパクトディスク
または円形状の配置を有しているこの場合には、シリア
ル番号がディスクの中心の穴の周りに円形状に配列され
る。このことは文字認識を一層困難にする。ビデオカメ
ラ１２の出力は極座標変換器（polar converter)１４に
よって解析され、それにより、文字の配置が、中心の穴
の周りに円形状に配列されたものから直線的な順序の文
字に変換される。この直線的な文字の順序は、お互いに
分離され、中心化されるが、これについての詳細は後で
述べる。それから、この直線的な文字の順序が、各々の
文字を表すマトリクス１４（またはマトリクスの集合）
として表される。代表的には、このマトリクスはピクセ
ルの値を表す２進数の表記として構成され、これらのピ
クセルの値はこの出願と関連する上述した他の出願にお
いて記述されているように、視認するべき文字を表すも
のである。それゆえ、各々のピクセルは１また０のいず
れかであるが、本発明はこのことは限定されるものでは
ない。なぜならば、アナログの値もまた適切に設計され
たニューラルネットワークに入力として提供されるから
である。本発明においては、初めピクセルの値はアナロ
グの値を用いるが、それから２進数の値、０または１に
ついて言及する。

【００１６】マトリクス１４は、多少とも従来のニュー
ラルネットワーク２０に対する入力として用いられる。
この従来のニューラルネットワーク２０は、所定の文字
またはシンボル組から複数の文字またはシンボルを認識
するように訓練されている。（そのような所定の文字ま
たはシンボルの組としては、たとえば、アルファベット
および０〜９までの数字、これに加えて＠、＊、＃など
の選択されたシンボルである）。もし文字がニューラル
ネットワーク２０によって正しく認識される場合には、
正しいシリアル番号が入力される。

【００１７】例示として示したように、ニューラルネッ
トワーク２０から出力されるシリアル番号は１１桁の文
字のコードである。勿論一般的には、任意の数の文字に
ついて処理できる。この例示においてシリアル番号を検
証するために、ニューラルネットワーク３０（３０₁ ・
・・３０_N ）が、シリアル番号の各々の文字に対応して
選択される。そのようなニューラルネットワークのそれ
ぞれはマトリスス１６₁ ．．．１６_N を有しており、こ
れらのそれぞれのマトリクスは、上記した関連出願にお
いて記述したように、解析に用いる。

【００１８】これらのニューラルネットワーク３０のそ
れぞれは、ニューラルネットワーク２０より実質的な構
成が複雑ではなく、各々が文字またはシンボルの組の単
一のメンバーの認識するように訓練されている。従っ
て、各々のニューラルネットワーク３０は、単に、
（１）単一の文字、（２）そのような文字でないものを
認識するように訓練されている。それゆえ、ニューラル
ネットワーク３０_bは、解析されている文字が文字
「ｂ」であるかどうかに対する答えとして、「イエス」
または「ノー」という答えを与えるように訓練されてい
る。そのようにして、ニューラルネットワークは、もし
入力が文字「ｂ」についての画像である場合に「ｂ」が
正しい答えであり、もし「ａ」、「ｃ」〜「ｚ」、また
は「０」〜「９」の何れかについての画像である場合に
「ｎｏｔｂ」が正しい答えであるように教示されてい
る。

【００１９】図３を参照して述べると、本発明の認識お
よび検証過程がフローチャートの形態で要約されてお
り、ステップ５０から開始する。ステップ５２におい
て、シリアル番号が部品１０から走査され、それによ
り、コンピュータまたはニューラルネットワーク回路に
よって利用可能な画像として表されるものが生成され
る。コンパクトディスクについての実施例について考え
ると、シリアル番号がコンパクトディスクの中心の穴の
周りに半円形に配列されている。ステップ５４におい
て、上記画像が、各々の文字を回転させることによって
半円形に配列された文字の配置から直線状の配置に変換
され、この変換によって、より容易に読みやすい配置に
変更し直し、そして下記に述べるようにそれぞれのシン
ボルに区分けされる。

【００２０】ステップ５８において、マトリクスが組み
合わされて回転した（極座標（polar)を変換した）文字
を含むものとなる。一般的には、さらなる処理のために
記述されるべき技法を用いて、この時点におけるそれぞ
れの文字を分離されたマトリクスのピクセルに分離する
ことが望まれる。このマトリクスは、ステップ６２にお
いて、ニューラルネットワークに印加されるが、このニ
ューラルネットワークはＮ個の文字またシンボルの適切
な組のメンバーを認識するように訓練されているもので
ある。ニューラルネットワークはそれから、ステップ６
６において、シリアル番号についてのＮ個の文字または
シンボルのそれぞれの値についてニューラルネットワー
クの最良の推定を含む結果を発生させる。

【００２１】ステップ７２において、シリアル番号につ
いて各々認識されたシンボルに関するものについてのＭ
個のより少ないニューラルネットワークの一つの組が、
Ｎ個のそのようなニューラルネットワークの集合から選
択される。Ｎ個のニューラルネットワークの各々が、全
体の文字の組におけるＮ個の文字の単一のものについて
の認識に関して、「イエス」また「ノー」の答えのみを
与えるように訓練されている。それゆえ、Ｎ個のニュー
ラルネットワークの各々はこの組における単一の文字に
ついての認識と関連している。

【００２２】ステップ７６において、シリアル番号にお
ける文字と関連する個々のマトリクスの各々が、ステッ
プ７６において選択されたＭ個のニューラルネットワー
クの一つと関連し、それにより、シリアル番号のそれぞ
れの文字についてのピクセルのマトリクスによって表さ
れたものとしての文字の画像が、ステップ６６から認識
されたそれぞれの文字を関連する認識用ニューラルネッ
トワークに印加される。それから、より少ないＭ個のニ
ューラルネットワークの各々が、それぞれの文字を解析
し、ステップ８２において、それぞれの文字が正しく認
識されたものとして信頼されるべきものか否かを表す結
果を提供する。もしステップ８４において、シリアル番
号について全部でＭ個の文字が正しく認識された場合
は、ステップ８６において、この処理は終了する。ステ
ップ８４において、もし全ての文字が検証されない場合
は、ステップ８６における終了に先立って、ステップ８
８において、エラー修復処理が行われる。

【００２３】図５に関連付けて図解されている図４を参
照して述べると、この図４には、文字を直線的な配列に
回転するステップ５４における極座標変換処理が詳細に
図解されている。そのような変換を行う方法としては７
つの方法が存在する。第１のものは、好適な分解能の向
上がないベーシック・マッピング機能である。図４にお
いて、数字「２」がコンパクトディスクの中心の穴の周
りに極座標配列（polar arrangement)で示されている。
（一般に、ピクセルは後で明確にするように矩形である
が）図４においては、この文字は多くの四角のピクセル
で構成されている。文字を構成する複数のピクセルの方
向（向き）は例えば、ビデオカメラによって生成される
ような直線的なアレイに配列された複数のピクセルの大
きな格子（グリッド）１００の部分であることに留意さ
れたい。シリアル番号の向きは、このピクセルの配置に
よる表記のために最適である必要ではない。シリアル番
号の文字が画像の比較的小さい部分を構成している場合
には、このことは特別な場合ともいえる。それゆえ、文
字は、部品１０とビデオカメラ１２との相対的な位置に
基づいて指向されたピクセルによって幾分大きく表され
ている。ピクセルの向きによる文字の貧弱な整列（アラ
イメント）は、ほぼ４５度回転させることによって（図
４）、容易に視認できるようになるのであって、それに
より、数字「２」が水平方向のテキストに一層近く方向
づけられる。この位置において、ピクセルがダイアモン
ドのように見える。

【００２４】本発明の目的は、この配列のピクセルを、
円形状に配列された対象とする画像よりも矩形配列のピ
クセル１０４にマッピングすることにある。格子１００
におけるピクセルの向きが、目標配列のピクセル１０４
においてピクセルのその向きから回転されているから、
マップされた文字について相当のスキューと歪が存在す
る。マッピング処理およびその結果として生ずる歪を理
解するために、交差状の線と同心円によって構成されて
いる極座標構成に配置されたピクセルについてイマジナ
リー極座標格子を視覚的に判るようにすることが有益で
ある。ピクセルについてのそれぞれの放射状のカラムの
中心ラインが放射状の線（ラジアルライン）１０６に沿
ってドットとして表されている。図４についてさらなる
混乱を回避するため、この図面には実際のイマジナリー
格子は示されていない。（分解能を向上するイマジナリ
ー格子の小さな部分が図９に示されている。この格子は
コンパクトディスクの中心の周りに複数の同心円の円弧
を発生させることによって構成されるものであり、その
同心円の円弧は複数のドットと放射状の線（ラジアル方
向の線）の付加的な組との間の点で交差し、上記放射状
の線は図示したそれらの間において中心の位置から延び
ている。）これらのドットはサンプリング点として観察
される。オリジナルな円形状の画像がこれらの点におい
てサンプリングされ、そのサンプリング値が目標（ター
ゲット）アレイ１０４に対応する位置（ロケーション）
に複写される。オリジナル画像における各々のピクセル
がこのサンプリングの（ｘ，ｙ）位置に対応するアドレ
スに割り付けられ、その点が目標アレイ１０４にマップ
される。

【００２５】マッピング処理において、図４に図解した
放射状の線（ラジアル方向の線）１０６に沿ったドット
のそれぞれの中心が目標アレイ１０４におけるピクセル
の値にマップされる。各々のドットの位置を検査し、そ
してその結果として生じた目標アレイ１０４におけるピ
クセルを検査することによって、歪の原因が理解され
る。その理由は、オリジナルの画像におけるピクセルの
値が、イマジナリー極座標格子の中心を表すことがオリ
ジナル画像における与えられたピクセルの範囲内にある
とき、目標アレイ１０４におけるピクセルの値としての
みマッピングされているからである。最大量の歪は、文
字が水平方向また垂直方向から約４５度だけ中心にある
とき、および文字がほぼ垂直方向またはほぼ水平方向よ
りも比較的少ない方向にあるときに起こる可能性が高い
ことが理解されるであろう。その歪は、ビデオカメラに
よって生成された全体の画像の小さい部分によってのみ
構成されている文字に依存して大きくなる。それゆえ、
アレイ１００を構成している少ないピクセルだけで各々
の文字を形成している。目標アレイについて新しい回転
した文字がそれゆえ、オリジナル画像とは異なった方向
におけるピクセルで構成される。

【００２６】画像における各々のピクセルのための１つ
のドット（サンプリング点）を生成するために、放射状
の線（ラジアル方向の線）はピクセルのアスペクト比の
ピクセルの倍数（times)だけ間隔付けて離されるべきで
ある。このテストについての実施例においては、ピクセ
ルは矩形であり、アスペクト比は１．２７である。それ
ゆえ、円がピクセル内に測定される場合（分解能の向上
が図られないと仮定した場合）、それぞれの放射状の線
は、１．２７ピクセルだけ間隔付けられている。このこ
とは、ピクセルの間隔、つまり、放射状の線が、ピクセ
ルについてのアスペクト比に依存して円の周りに僅かに
変化していることを意味することに留意されたい。

【００２７】Δθは角度インクリメント（増加分）であ
り、この角度インクリメントは極座標変換処理の期間に
現在の角度についての連続的な計算に用いる。例えば極
座標変換計算に用いる第１の角度は開始角度のみであ
る。ラジアル方向についての計算が開始角度に沿って行
われた後、新しい角度が開始角度にΔθだけ加えられ
る。再びラジアル方向の計算がこの角度に沿って行わ
れ、そして現在の角度にΔθを加えることによって更新
される。このように、この計算ループに用いられる現在
の角度はつねに、開始角度にΔθを整数倍した値を加え
たものとなる。

【００２８】Δθの計算は、小さい角度の近似（ｓｉｎ
（ｚ）はほぼ小さい角度に関してｚに等しい、すなわ
ち、ｓｉｎ（ｚ）≒ｚ）に従っており、そしてピクセル
の矩形の形状について計数することに用いられる（この
テストの実施例において用いられるハードウエアのため
に、１．２７である）ピクセルＡのアスペクト比によっ
て調整される。（このハードウエアのためのピクセル
は、ｙ方向について１単位の高さ、そしてｘ方向につい
て１．２７単位の大きさを持つものとして規定されてい
る。）このテスト実施例のハードウエアのために変換さ
れている円弧の中心に対する半径は２２０のｙピクセル
であり、これらのピクセルは２２０／１．２７＝１７
３．２８３のｘピクセルに等しい。Δθはｘ方向の１ピ
クセルの円弧の長さによって決定される角度である。し
たがってこれは、水平方向にマップされる円弧に沿った
ピクセル、および垂直方向にマップ化される半径方向に
沿ったピクセルである。それゆえ、ラジアル方向のピク
セルは１単位内に、またはｙ方向の寸法のピクセル内に
測定されうる。Δθがほぼｓｉｎ（Δθ）に等しく、ｓ
ｉｎ（Δθ）が半径によって分割された円弧の長さほぼ
等しいから、下記式が成立する。

【００２９】

【数１】

【００３０】あるいは、下記式が得られる。

【００３１】

【数２】

【００３２】測定について選択された単位がｙ方向につ
いて１ピクセルの高さであり、半径に沿った全てのピク
セルが目標領域の連続する列にマップされるから、半径
に沿った点の間の間隔は、単に１単位である。

【００３３】一旦角度と範囲が決定されると、アレイが
極座標変換の期間に生成されたアドレスを維持するため
に準備される。このことは図６にアドレスアレイとして
図解されている。例えば、その範囲が４５度である場
合、ただし、この範囲は（４５２ｐｉ（π）ｒ）／３
６０、または、１３６個のｘ方向のピクセルに対応して
おり、なおここで、ｒ＝２２０／１．２７＝１７３．２
２８個のｙ方向のピクセルである、アドレスアレイにお
けるカラム数は１３６個である。もし円弧の幅が３２個
のｙ方向ピクセルの場合には、列のアドレスアレイにお
ける列（rows)の数は３２である。アドレスアレイの内
容は、極座標変換の期間に計算されたアドレスである。

【００３４】一旦これらのアドレスが記憶されると、ピ
クセルの値が検索できるオリジナル画像の位置が決定さ
れる。それゆえ、座標変換処理の次の段階は、アドレス
アレイにおけるアドレスのための対応するピクセルの位
置を簡単に探し、図６に図解したように、目標アレイに
そのピクセルの値を複写することである。この図におい
て対象とするピクセルは、位置（４８１，９０）に配置
されている。このアドレスが、目標アレイにおけるその
ピクセルと関連しているその位置におけるアドレスアレ
イに記憶される。それから、アドレスアレイにおける各
々の位置について、ピクセルの値がオリジナル画像（ま
たはオリジナル画像を表すものを含むコンピュータファ
イル）から目標アレイに複写される。この複写は簡単に
アドレスと関連する値を探すことによって行われる。

【００３５】アドレスアレイに記憶される極座標アドレ
スを計算するために、まず、ｘアドレスおよびｙアドレ
スが計算され、そしてアドレスアレイに記憶される。そ
れから、スクリーンの中心のアドレス（図６の例示で
は、中心アドレスは（２５６，２４０））がオフセット
として因子化（factored) される。このことは、その点
のｘプロジェクションにスクリーン中心位置を加え、そ
してそのスクリーン中心位置からｙプロジェクションを
減ずることによって行われる（その理由は、座標の原点
がスクリーンの左上の隅にあると考慮されているからで
ある）。ｘピクセルの寸法がアスペクト比（このテスト
実施例においては１．２７）によって分割されており、
ｙピクセルの寸法がｙ方向の計算に用いられることを想
定している。

【００３６】このテスト実施例において、回転された画
像がスクリーンのある領域に複写される。その領域はコ
ンパクトディスクに刻印されたシリアル番号とは干渉し
ない。この例示においては、３２ピクセル×１３６ピク
セルの領域が選択されている。座標変換過程は、アドレ
スアレイから一つの要素を選択し、スクリーンピクセル
のアドレスを入手し、そのピクセルについてグレイスケ
ールの値を目標アレイに複写することを行う。これらの
処理段階はアドレスアレイにアドレスされた各々のピク
セルについて反復して行われる。

【００３７】この好適な実施例において、ビデオカメラ
からのピクセルが（グレイスケールとしての表記の方法
である）０〜１２７の間の値として表されるブライトネ
ス（明るさ）の値として記憶される。本発明の座標変換
処理によって一旦画像が回転させられると、各々のピク
セルの値が所定のしきい値と比較され２進数の値、０ま
たは１を表すものとして最良のものか否かが決定され
る。このテスト実施例においては、しきい値として７０
が用いられ、７０より大きい値は１の値として割り付け
られ、そして７０よりも小さい値は０の値として割り付
けられる。しかしながら、明確なしきい値の値は、画像
の明るさ、ビデオカメラの感度および他のハードウエア
の因子等の種々の要素に依存する値となる。明確なしき
い値の値の決定は、特定的なハードウエアおよび照明状
態によって経験的に決定することが最良である。

【００３８】図５に関連付けて見た場合によりよく理解
される図７を参照して述べると、本発明の上述した変換
処理のフローチャートは、ステップ１１０から開始す
る。ステップ１１４において、角度θ₁がコンパクトデ
ィスクの上の規準点を検索することによって決定され
る。この検索はまた、手動によってまたは当業者によっ
て行われる他の通常の方法によっても行われうる。この
好適な実施例においては、図１に示したように、シリア
ル番号が小さな四角１１２に続けられて穴を包囲する円
弧１１３が設けられ、その後に続くようになっているこ
とが知られている。ステップ１１８において、変換され
るべき円弧の範囲θ_x（θω）が任意の適切な方法によ
って決定される。この適用において変換されるべき円弧
の範囲は常に８５度として知られている。ステップ１２
４において、隣接する放射状の線（ラジアル方向の線）
１０６を間隔付ける角度Δθが下記式によって計算され
る。

【００３９】

【数３】

【００４０】ここで、記号Ａはピクセルのアスペクト比
であり、記号ｄは半径である。ステップ１３０におい
て、角度範囲θ_xが下記の式を用いて円弧の範囲を構成
する水平方向のピクセルの数に変換される。

【００４１】

【数４】

【００４２】この用途において、垂直方向のピクセルの
数は変換されている円弧の一定の幅に依存して固定にな
っている。他の用途においては、この値は上述した値と
は異なり、その幅は計算されうる。ステップ１３６にお
いて、イマジナリー極座標における各々のピクセルの中
心についてのラジアル方向のアドレスが下記式を用いて
ｘ座標およびｙ座標として計算される。

【００４３】

【数５】

【００４４】

【数６】

【００４５】一旦これらのｘ座標およびｙ座標が計算さ
れると、これらは矩形の目標格子におけるそれぞれの位
置に割り付けられる。ステップ１４２において、オリジ
ナル画像について計算されたｘ座標およびｙの座標にお
ける全てのピクセルの値が目標矩形格子に複写される。
この時点において、ピクセルはその範囲が０〜１２７で
あるディジタル化されたアナログのブライトネスの形態
（グレースケールの値）になっている。この好適な実施
例の２進数入力ニューラルネットワークのために、これ
らのブライトネスの値が、ステップ１４４において、
「２進数化された」ピクセルに変換される。この２進数
化されたピクセルはそれらの値を表す０また１のいずれ
かを有する。それから、ステップ１４８において、文字
が区分化され、中心化される。

【００４６】一旦文字が直線状の配列に変換されると、
ステップ１４８において、それらの文字が区分けされ、
そして中心化される。それらの文字を正しく中心位置に
位置決めすることが認識または検証する精度を向上させ
る。中心化する方法が、図７に図解したように、達成さ
れる。文字「Ａ」を例示して図解したように、この文字
の左および右の縁が、所定のしきい値を越えている、所
定の列またはカラムにおいて照明されているピクセルの
数の増加または減少を検出することにより配置される。
左の縁がｘ₁で表され、右の縁がｘ₂として表される。
それから、文字の中心の位置が（ｘ₂−ｘ₁）／２によ
って漸近化される。同様にして、文字の頂部（ｙ₂）お
よび底部（ｙ₁）が配置され、そして文字の中心が（ｙ
₂−ｙ₁）／２によって漸近化される。

【００４７】このテストの実施例において、文字が図８
に示したｘのプロジェクションに基づいて発見されてい
るｘ₁ ，ｘ₂ によって中心化される。先ず、ｘ₁ の検出
について考える。各々のカラムがそのカラムにおける複
数のピクセルについて左から右に検査される（図８のｘ
のプロジェククションに留意されたい）。値１を有する
５個のピクセルが一つのカラムに見いだされた時、その
ｘの値はその文字の内部にあるべきものと考えられる。
それから次のカラムのそれぞれが２ピクセルにまたそれ
より少ないピクセルを有する一つのカラムが見いだされ
るまで、逆の順序で（右から左へ）検査される。この時
点において、ｘの値はその文字のちょうど左にあるよう
に推定される。それゆえ、右側に対するカラムはその文
字（ｘ₁）における第１のカラムであるべきものと考え
られる。同様の処理が用いられてｘ₂ 、ｙ₁ 、およびｙ
₂ の値が見いだされる。それから中心の位置が上述した
式に基づいて計算される。ステップ１５０において、こ
の処理が終了する。

【００４８】表１は、ある円形状に配列された文字のピ
クセルをある目標とする文字のピクセルに変換するため
に用いられたＣコード（言語）のプログラムリスティン
グである。

【００４９】

【表１】

【００５０】図９に関連づけて図解されている図７に戻
って述べると、分解能を向上させる方法を用いる本発明
の極座標変換処理は、上述した処理と実質的に同一であ
る。分解能を向上させる方法と図７に図解した方法との
差異の違いの唯一のことは、ステップ１２４およびステ
ップ１３６である。ステップ１２４において、Δθの代
わりに、ピクセルについて隣接する放射（ラジアル）方
向のカラム相互間の間隔としてΔθ／２が計算され、そ
れにより放射状の線（ラジアル方向の線）１０６相互間
の間隔が以前に述べた処理の距離の半分になる。ステッ
プ１３６において、放射状の線ごとのサンプル点の数が
２倍になっている（あるいは増加されている）。但し、
処理は実質的には同じである。図９は、いかにして分解
能を向上させる方法が１×１．２７のラジアル領域のそ
れぞれについて４ピクセルを生成するかを、図解してい
る。

【００５１】極座標変換処理の期間、アドレス位置の丸
め処理および回転されたピクセルによってカバーされた
領域およびオリジナルのピクセルとの間の矛盾に起因す
る分解能の損失が存在する。分解能のいくつかを修復す
るためにピクセルについてのサンプリングがより少ない
インクリメントを用いて遂行される。サンプリング点を
多くすると精度は向上するが、演算のオーバーヘッドが
増加する。ラジアル方向および角度方向の両者における
サンプリング点の数を２倍にすることによって適切な平
衡が達成され、それによってオリジナル画像における各
々のピクセルについての目標画像において４個のピクセ
ルが生成される。このことはΔθを２で割り、そしてラ
ジアル方向のインクリメントを２で割ることによって達
成された。これにより、アドレス位置の丸め誤差が小さ
くなり目標画像における精度が向上した。

【００５２】図９を参照すると、分解能の向上が図られ
ない場合について斜線で示した１×１．２７の領域が目
標ピクセルを示している。このピクセルはその中心点
（４８１，９０）に配置されたピクセルの値であると考
えられるが、ピクセル（４８１，９０）によって表され
た領域と完全に一致するものではない。向上された目標
画像が４つの位置におけるオリジナル画像をサンプリン
グし、それゆえ、その領域におけるピクセルの組み合わ
せ、即ち（４８１，９０）、（４８０，９０）、４８
１，９０）および（４８１，９１）を表している。

【００５３】換言すれば、図４に図解した放射状の線
（ラジアル方向の線）１０６の長さに沿ったサンプリン
グ点の数が２倍になっており（または所定の量だけ増加
されており）、そして放射状の線１０６の数もまた２倍
になっている（または所定の数だけ増加されている）。
その結果は、円形状に配列された文字についてのピクセ
ルの値のより大きなサンプリング点を持っている画像で
あり、それゆえ、目標アレイにより４倍ほど多いピクセ
ルを持っている画像に非常に接近する（例えば、ステア
ステップ近似法（stair step approximation: 階段漸近
法) による）。この好適な実施例において、図４に図示
した点におけるサンプリングより分解能が２倍になって
いる。その理由は、ドットと、最も高い位置のドットの
上にある（または最も低いドットの下にある）付加的な
点との間の点に沿ったラジアル方向の線に沿ってドット
があるからである。そこでまた、図示されたラジアル方
向の線に、端部に付加的な線を加えたそれぞれの間の他
のラジアル方向の線をサンプリングすることによって、
分解能が２倍になる。このことは、元の画像の分解能を
４倍にしている結果となる。

【００５４】換言すれば、図４に図解した放射状の線
（ラジアル方向の線）１０６の長さに沿ったサンプリン
グ点の数が２倍になっており（または所定の量だけ増加
されており）、そして放射状の線１０６の数もまた２倍
になっている（または所定の数だけ増加されている）。
その結果は、円形状に配列された文字についてのピクセ
ルの値のより大きなサンプリング点を持っている画像で
あり、それゆえ、目標アレイにより４倍ほど多いピクセ
ルを持っている画像に非常に接近する（例えば、ステア
ステップ近似法（stair step approximation: 階段漸近
法) による）。この好適な実施例において、図４に図示
した点においてサンプリングすることによって分解能が
２倍になっている。その理由は、ドットと最も高いドッ
ト（または最も低いドット）の上にある付加的な位置と
の間の位置に沿ったラジアル方向の線に沿ってドットが
あるからである。そこでまた、図示されたラジアル方向
の線に、端部における付加的な線を加えたそれぞれの間
の他のラジアル方向の線をサンプリングすることによっ
て、精度が２倍になる。このことは、元の画像の分解能
を４倍にしている結果となる。

【００５５】表２はこのテストにおける極座標変換を行
うために使用したＣコードのプログラムリストである。

【００５６】

【表２】

【００５７】このリストは、垂直方向の分解能が２倍で
あり、水平方向の分解能が２倍である。これについて
は、表１に示したリストと２つの相違をもたらす。つま
り、「ｄｅｌｔａ−ｔｈ」を計算するライン、および、
最後の“ｆｏｒ“ステートメントのラインである。付加
的な因子２の除算および乗算がそれぞれ加えられて、サ
ンプリング点の数を２倍にしている。

【００５８】本発明については種々の変形が可能であ
る。たとえば、この実施例のニューラルネットワークは
コンピュータプログラムの形態でディジタルコンピュー
タにおいて実現されているが、ハードウエア回路あるい
は類似するものによる実現も可能であり、ニューラルネ
ットワーク回路の稼働率（利用率）および価格がより魅
力的になる。

【００５９】したがって、本発明によれば、上述した目
的、意図および利益を十分に満足する装置が述べられて
いる。本発明は特定的な実施例に関連づけて記述されて
いるが、種々の変形形態、修正、代替および変形が、上
述した記述に照らし合わせれば、当業者にとって明瞭で
あることは明らかである。したがって、本発明は添付し
た特許請求範囲の記載事項におけるそのような変形形
態、修正および変形を包含するものである。

【００６０】

【発明の効果】本発明によれば、円形状に配列された複
数のシリアルな文字あるいはシンボルから直線状の文字
に容易に変換することができる。また本発明によれば、
元の画像以上に分解能を向上させることができる。

【図面の簡単な説明】

【図１】図１は中心の穴の周りにシリアル番号が付され
たコンパクトディスクの図である。

【図２】図２（Ａ）、（Ｂ）は本発明の文字認識および
検証装置の動作を図解したブロックダイアログ図であ
る。

【図３】図３は本発明の文字認識および検証装置の動作
を示すフローチャートである。

【図４】図４は円形状に配列された画像から、直線的な
アレイのピクセルをマッピングすることを図解する図で
ある。

【図５】図５（Ａ）、（Ｂ）は本発明の極座標変換を図
解する図である。

【図６】図６はアドレスアレイおよび目標アレイのマッ
ピング処理を図解する図である。

【図７】図７は本発明の極座標変換を記述するフローチ
ャートである。

【図８】図８は文字の分離および中心化処理を図解する
図である。

【図９】図９は元の画像のピクセルと、向上した分解能
を持つピクセルを重ね合わせた状態を示す図である。

【符号の説明】

１０・・部品１２・・走査装置１４・・極座標変換器１６・・マトリクス２０・・ニューラルネットワーク３０・・ニューラルネットワーク

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平４−113487（ＪＰ，Ａ) 特開平４−244956（ＪＰ，Ａ) 特開平３−38789（ＪＰ，Ａ) 実開昭62−23356（ＪＰ，Ｕ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06K 9/32 - 9/66 G06N 3/00 560 G06T 3/00 100 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】円形状に配列された文字を直線状に配列さ
れた文字に変換する方法であって、当該変換方法が下記
の諸段階、すなわち、前記円形状に配列された文字を走査して直交する水平方
向と垂直方向の二次元平面に規定される複数のピクセル
の画像データとして提供する段階と、前記各ピクセルを縦と横との比率であるアスペクト比に
基づいて前記二次元平面に仮想的に放射状に引く複数の
放射状線の角度変化を算出し、前記走査した画像データ
の変換範囲を決定する段階と、前記決定した変換範囲について、前記二次元平面に仮想
的に前記角度変化で複数の放射状線を仮想的に引き、各
放射状線と前記二次元平面のピクセルと交差するピクセ
ルの位置をアドレス位置として、前記交差した部分の画
像データを画像データアレーに複写する段階と、前記画像データアレーに複写された画像データを各文字
に区分する段階とを具備する、円形状に配列された文字を直線状に配列された文字に変
換する方法。
【請求項２】前記画像データアレーに複写される画像デ
ータは２値化された画像データである、請求項１記載の変換方法。
【請求項３】前記区分化段階において、各文字画像デー
タについて縦方向の中心位置および横方向の中心位置を
算出し、中心位置に位置調整する、請求項１または２記載の変換方法。
【請求項４】前記角度変化を１／ｎ（ｎは２以上の整
数）に細分化し、前記各ピクセルを１／ｍ（ｍは２以上
の整数）に細分化して、前記画像データアレーのアドレ
スをｎ×ｍに拡大して、上記複写処理を行う、請求項１〜３いずれか記載の記載の変換方法。
【請求項５】円形状に配列された文字を直線状に配列さ
れた文字に変換し、直線状に配列された各文字を認識可
能なニューラルネットワークを用いて、円形状に配列さ
れた文字を認識する方法であって、当該認識方法が下記
の諸段階、すなわち、前記円形状に配列された文字を走査して直交する水平方
向と垂直方向の二次元平面に規定される複数のピクセル
の画像データとして提供する段階と、前記各ピクセルを縦と横との比率であるアスペクト比に
基づいて前記二次元平面に仮想的に放射状に引く複数の
放射状線の角度変化を算出し、前記走査した画像データ
の変換範囲を決定する段階と、前記決定した変換範囲について、前記二次元平面に仮想
的に前記角度変化で複数の放射状線を仮想的に引き、各
放射状線と前記二次元平面のピクセルと交差するピクセ
ルの位置をアドレス位置として、前記交差した部分の画
像データを画像データアレーに複写する段階と、前記画像データアレーに複写された画像データを各文字
に区分する段階と、前記区分された各文字を前記ニューラルネットワークに
印加して文字認識を行う段階とを具備する、文字認識方法。
【請求項６】前記画像データアレーに複写される画像デ
ータは２値化された画像データである、請求項５記載の文字認識方法。
【請求項７】前記区分化段階において、各文字画像デー
タについて縦方向の中心位置および横方向の中心位置を
算出し、中心位置に位置調整する、請求項５または６記載の文字認識方法。
【請求項８】前記角度変化を１／ｎ（ｎは２以上の整
数）に細分化し、前記各ピクセルを１／ｍ（ｍは２以上
の整数）に細分化して、前記画像データアレーのアドレ
スをｎ×ｍに拡大して、上記複写処理を行う、請求項５〜７いずれか記載の記載の文字認識方法。
【請求項９】円形状に配列された文字を直線状に配列さ
れた文字に変換する装置であって、前記円形状に配列された文字を走査して直交する水平方
向と垂直方向の二次元平面に規定される複数のピクセル
の画像データとして提供する手段と、前記各ピクセルを縦と横との比率であるアスペクト比に
基づいて前記二次元平面に仮想的に放射状に引く複数の
放射状線の角度変化を算出し、前記走査した画像データ
の変換範囲を決定する手段と、前記決定した変換範囲について、前記二次元平面に仮想
的に前記角度変化で複数の放射状線を仮想的に引き、各
放射状線と前記二次元平面のピクセルと交差するピクセ
ルの位置をアドレス位置として、前記交差した部分の画
像データを画像データアレーに複写する手段と、前記画像データアレーに複写された画像データを各文字
に区分する手段とを具備する、円形状に配列された文字を直線状に配列された文字に変
換する装置。
【請求項１０】前記画像データアレーに複写される画像
データは２値化された画像データである、請求項９記載の変換装置。
【請求項１１】前記区分化段階において、各文字画像デ
ータについて縦方向の中心位置および横方向の中心位置
を算出し、中心位置に位置調整する、請求項９または１０記載の変換装置。
【請求項１２】前記角度変化を１／ｎ（ｎは２以上の整
数）に細分化し、前記各ピクセルを１／ｍ（ｍは２以上
の整数）に細分化して、前記画像データアレーのアドレ
スをｎ×ｍに拡大して、上記複写処理を行う、請求項９〜１１いずれか記載の記載の変換装置。
【請求項１３】円形状に配列された文字を直線状に配列
された文字に変換し、直線状に配列された各文字を認識
可能なニューラルネットワークを用いて、円形状に配列
された文字を認識する装置であって、前記円形状に配列された文字を走査して直交する水平方
向と垂直方向の二次元平面に規定される複数のピクセル
の画像データとして提供する手段と、前記各ピクセルを縦と横との比率であるアスペクト比に
基づいて前記二次元平面に仮想的に放射状に引く複数の
放射状線の角度変化を算出し、前記走査した画像データ
の変換範囲を決定する手段と、前記決定した変換範囲について、前記二次元平面に仮想
的に前記角度変化で複数の放射状線を仮想的に引き、各
放射状線と前記二次元平面のピクセルと交差するピクセ
ルの位置をアドレス位置として、前記交差した部分の画
像データを画像データアレーに複写する手段と、前記画像データアレーに複写された画像データを各文字
に区分する手段と、前記区分された各文字を前記ニューラルネットワークに
印加して文字認識を行う手段とを具備する、文字認識装置。
【請求項１４】前記画像データアレーに複写される画像
データは２値化された画像データである、請求項１３記載の文字認識装置。
【請求項１５】前記区分化段階において、各文字画像デ
ータについて縦方向の中心位置および横方向の中心位置
を算出し、中心位置に位置調整する、請求項１３または１４記載の文字認識装置。
【請求項１６】前記角度変化を１／ｎ（ｎは２以上の整
数）に細分化し、前記各ピクセルを１／ｍ（ｍは２以上
の整数）に細分化して、前記画像データアレーのアドレ
スをｎ×ｍに拡大して、上記複写処理を行う、請求項１３〜１５いずれか記載の記載の文字認識装置。