JPH0714010A

JPH0714010A - 文字認識方法、変換方法および文字認識装置

Info

Publication number: JPH0714010A
Application number: JP5244171A
Authority: JP
Inventors: Toru Oki; 亨大木; Phillip Paorera; フィリップパオレラ
Original assignee: Sony Electronics Inc
Current assignee: Sony Electronics Inc
Priority date: 1992-10-01
Filing date: 1993-09-30
Publication date: 1995-01-17
Anticipated expiration: 2017-07-15
Also published as: JP3301030B2; US5319722A

Abstract

(57)【要約】【目的】文字認識などに使用する円形状に配列された
文字列を直線状に変換する方法を提供する。【構成】たとえば、コンパクトディスクの中心穴の周
りに円形状に配列された文字列を直線状の配列する変換
を行う場合、まず、その文字列を走査して、円形状配列
の位置に複数の走査画像点を割りつける。次いで、これ
らの点は直線状配列にマッピングされる。さらに、画像
データの分解能を高めるため、これらの点の数がオリジ
ナル画像の走査点よりも多くなるように選択される。こ
れら分解能を高めた点の位置がアドレスアレイに記憶さ
れる。オリジナル画像におけるピクセルの値が目標アレ
イに複写される。ピクセルの値が２進数の値に変換され
て、その値が文字認識用ニューラルネットワークおよび
検証用ニューラルネットワークに対する入力データとし
て用いられる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は一般的には文字またはシ
ンボルの認識に用いるニューラルネットワークの分野に
関する。より特定的には、本発明は例えば、コンパクト
ディクスの中心の穴のまわりに、または缶または瓶の円
形状の配列において、文字またはシンボルが回転されて
いる状態の文字またはシンボルを認識するための方法お
よびその装置に関する。

【０００２】〔関連出願の記述〕本発明に関連する出願
を下記に示す。本発明は、それぞれ同じ日（１９９２年
１０月１日）に米国特許庁に出願され、本願出願と同じ
共通の所有者によって、我が国に出願された下記の出願
に関係している。（１）米国出願シリアル番号：０７／９５５，５６３米国出願名称“Training Method for Neural Network U
sing Width Variation" 発明者:Toru Oki(大木亨) 我が国特許出願整理番号：Ｓ９３０３７５６８（１）、（２）、（３）を複合して出願（２）米国出願シリアル番号：０７／９５５，５２２米国出願名称“Training Method for Neural Network U
sing Offset Training Characters" 発明者:Toru Oki(大木亨) 我が国特許出願整理番号：Ｓ９３０３７５６８（１）、（２）、（３）を複合して出願（３）米国出願シリアル番号：０７／９５５，５３４米国出願名称“Neural Network for Character Recogni
tion and Verification" 発明者:Toru Oki(大木亨) 我が国特許出願整理番号：Ｓ９３０３７５６８（１）、（２）、（３）を複合して出願（４）米国出願シリアル番号：０７／９５５，５２６米国出願名称“Training Method for Neural Network" 発明者:Toru Oki(大木亨) 我が国特許出願整理番号：Ｓ９３０３７６３３

【０００３】

【従来の技術】文字認識はニューラルネットワークの重
要な用途の一つである。文字認識の用途は、資料におけ
るテキストの認識のために、および、工業的な応用分野
におけるシンボルおよび文字の認識に用いられている。
そのような全ての用途において、文字の認識における最
適な精度が最も重要である。ニューラルネットワークの
性能および訓練に影響を与える種々の因子の扱いについ
ての概要及び背景事項が下記の論文に見い出される。論
文：著者、Patrick K. Simpson、題名、"Foundations o
f Neural Networks"、Artificial Neural Networksから
刊行：Paradigms,Applications and Hardware Implemen
tations, Sanchez-Sinencio、他、編集、IEEE Press,19
92,米国。

【０００４】

【発明が解決しようとする課題】従来のニューラルネッ
トワークにおいては、ハードウエア的な処理およびソフ
トウエア処理のいずれにおいても、文字を表すものをニ
ューラルネットワークに提供することによって文字が認
識されている。内部重み関数が用いられ、ニューラルネ
ットワークを訓練するための訓練過程に基づいてその文
字に最も近いものを表す出力が生成される。訓練過程の
品質を向上させることが現在の研究における主体の対象
であり、この向上が現在、ニューラルネットワークが文
字を同定できる精度を決定している。工業的な用途にお
いて、例えばシリアル番号などを表す文字の正しい認識
が生産管理において重要（クリティカル）である。

【０００５】いくつかの例においては、認識されるもの
として、シリアル番号、アルファベットまたは数字の文
字、グラフィックのシンボル、バーコード、または他の
文字が円形状な配列において提供されている。この例と
して、シリアル番号を例示すると、このシリアル番号は
コンパクトディクスの中心の穴の周りに共通に発見され
る。そのような文字の正しい読み取りは直線的に配列さ
れた文字を読み取るよりは実質的に、より複雑である。
本発明は、直線的な配列に文字を再配置し、分離し、そ
して文字を中心化する（センタリング）技法を提供する
ことによって、そのような文字の読みを向上することを
探索する。

【０００６】本発明の目的は、ほぼ円形状に配列されて
いる文字またはシンボルを読み取る改良した文字またシ
ンボルを認識する方法および装置を提供することにあ
る。本発明の利益は、円形状の構成に配列された文字ま
たはシンボルの認識の精度を向上させるものである。本
発明の特徴は、変換された文字の分解能が回転された文
字をより正確に表すように向上させうることである。本
発明のこれらの目的、利益および特徴、および、他の目
的、利益および特徴が本発明についての下記の記述の考
慮に基づき、当業者が容易に理解しうる。

【０００７】

【課題を解決するための手段】本発明は、たとえばコン
パクトディスクの中心穴の周りに円形状に配列された文
字を直線状の配列に変換する方法に関する。複数の点が
円形状の配列における位置に割り付けられる。これらの
点が直線的な配列にマッピングされる。それらの点の数
が元の（オリジナルの）画像のピクセルの数よりも大き
いように選択することができ、それによって変換された
画像の分解能が向上する。点の位置がアドレスアレイに
記憶される。それから、元の画像におけるピクセルの値
が目標（ターゲット）アレイに複写される。それから、
ピクセルの値がバイナリーの値（２進数値）に変換さ
れ、このバイナリーの値は認識用ニューラルネットワー
クに対する入力および検証用ニューラルネットワークに
対する入力として用いられる。

【０００８】本発明の観点に基づく文字を認識する方法
は、円形の構成に配列された文字を表す円形状のものを
受入れ、文字について円形的なものを表すものを直線的
な構成に変換し、文字を直線的に表すものを生成し、文
字を直線的に表すものに基づいて文字認識の処理を遂行
する段階を有する。

【０００９】円形状に配列された文字を直線状に配列さ
れた文字に変換する本発明の他の方法は、円形状に配列
された複数の文字を構成するピクセルの値をサンプリン
グするための複数のアドレスロケーション（アドレス位
置）を発生し、円形状に配列された文字のピクセルの値
をサンプリングし、該サンプルされた値から直線状に配
列された文字を構成する段階を有する。

【００１０】円形状に配列された文字を認識する本発明
に基づく装置は、円形状に配列された文字を構成するピ
クセルの値をサンプリングするための複数のアドレスロ
ケーションを発生する発生器（手段）を有する。サンプ
リング処理器（手段）は円形状に配列された文字につい
てのピクセルの値をサンプリングする。直線的に配列さ
れた文字はサンプリングされた値から構成され、この直
線的に配列された文字を受け入れるニューラルネットワ
ークが文字の認識に用いられる。

【００１１】新規であると信じられている本発明の特徴
は、添付した特許請求の範囲に述べられている。しかし
ながら、本発明はそれ自身、構成および動作方法のいず
れについて、他の目的およびその利益とともに、添付し
た図面に関連づけた下記の記述を参照して最良に理解さ
れる。

【００１２】

【実施例】図１は中心の穴の周りにシリアル番号が付さ
れたコンパクトディスクの図である。図２は本発明の文
字認識および検証装置の動作を図解したブロックダイア
ログ図である。図３は本発明の文字認識および検証装置
の動作を示すフローチャートである。図４は円形状に配
列された画像から、直線的なアレイのピクセルをマッピ
ングすることを図解する図である。図５は本発明の極座
標（polar)変換を図解する図である。図６はアドレスア
レイおよび目標アレイのマッピング処理を図解する図で
ある。図７は本発明の極座標変換を記述するフローチャ
ートである。図８は文字の分離および中心化処理を図解
する図である。図９は元の画像のピクセルと向上した分
解能を持つピクセルを重ね合わせた状態を示す図であ
る。

【００１３】本発明は種々の異なる形態における実施例
として実現できるが、図面に示されそしてここにおいて
詳述した特定的な実施例において記述される。ここに開
示したものは本発明の原理の一例として考慮されるべき
であり、そして本発明は図示し、記述した特定的な実施
例に限定されることが意図されているものではない。こ
の記述のために、技術的な用語、シンボル、および、文
字はたとえば数、文字、グラフィックシンボル、アルフ
ァベット的なシンボルまたはこれに類似したものなどの
認識可能なメンバー（要素）の組の一つの組の一つのメ
ンバーを表すようにそれぞれが意図されているように幾
分、交換可能に用いられる。

【００１４】図１を参照すると、工業的な用途について
本発明の例示が開示されている。そのような用途は、た
とえばサブセンブリ、コンピュータディスク、またはコ
ンパクトディスクなどの一部分の上に付されたシリアル
番号を認識するように用いることができる。もちろん、
他の用途についても可能である。この例示においては、
１１桁の文字のシリアル番号（２０（ゼロ）４５６８２
Ｏ（オー）Ｏ（オー）＠１）が部分１０から認識される
べきものと仮定する。ここで、部分１０は本発明の好適
な実施例においてはコンパクトディスクである。この好
適な実施例においては、シリアル番号はまた、ディスク
の透明な基板を通して観察され、それによって文字が図
示したように反転されている。もちろんこのことは、こ
の装置において認識に用いるニューラルネットワークは
反転された文字を認識するように訓練されていることを
明確に要求する。

【００１５】図２を参照して述べると、この部分１０は
ビデオカメラまたは他の走査装置１２によって特定的な
位置おいて観察される。部分１０がコンパクトディスク
または円形状の配置を有しているこの場合には、シリア
ル番号がディスクの中心の穴の周りに円形状に配列され
る。このことは文字認識を一層困難にする。ビデオカメ
ラ１２の出力は極座標変換器（polar converter)１４に
よって解析され、それにより、文字の配置が、中心の穴
の周りに円形状に配列されたものから直線的な順序の文
字に変換される。この直線的な文字の順序は、お互いに
分離され、中心化されるが、これについての詳細は後で
述べる。それから、この直線的な文字の順序が、各々の
文字を表すマトリクス１４（またはマトリクスの集合）
として表される。代表的には、このマトリクスはピクセ
ルの値を表す２進数の表記として構成され、これらのピ
クセルの値はこの出願と関連する上述した他の出願にお
いて記述されているように、観察するべき文字を表すも
のである。それゆえ、各々のピクセルは１また０のいず
れかであるが、本発明はこのことは限定されるものでは
ない。なぜならば、アナログの値もまた適切に設計され
たニューラルネットワークに入力として提供されるから
である。本発明においては、初めピクセルの値はアナロ
グの値を用いるが、それから２進数の値、０または１に
ついて言及する。

【００１６】マトリクス１４は、多少とも従来のニュー
ラルネットワーク２０に対する入力として用いられる。
この従来のニューラルネットワーク２０は、所定の文字
またはシンボル組から複数の文字またはシンボルを認識
するように訓練されている。（そのような所定の文字ま
たはシンボルの組としては、たとえば、アルファベット
および０〜９までの数字、これに加えて＠、＊、＃など
の選択されたシンボルである）。もし文字がニューラル
ネットワーク２０によって正しく認識される場合には、
正しいシリアル番号が入力される。

【００１７】例示として示したように、ニューラルネッ
トワーク２０から出力されるシリアル番号は１１桁の文
字のコードである。勿論一般には、任意の数の文字につ
いて処理できる。この例示においてシリアル番号を検証
するために、ニューラルネットワーク３０（３０₁・・
・３０_N）が、シリアル番号の各々の文字に対応して選
択される。そのようなニューラルネットワークのそれぞ
れはマトリスス１６₁．．．１６_Nを有しており、これ
らのそれぞれのマトリクスは、上記した関連出願におい
て記述したように、解析に用いる。

【００１８】これらのニューラルネットワーク３０のそ
れぞれは、ニューラルネットワーク２０より実質的な構
成が複雑ではなく、各々が文字またはシンボルの組の単
一のメンバーの認識するように訓練されている。従っ
て、各々のニューラルネットワーク３０は、単に、
（１）単一の文字、（２）そのような文字でないものを
認識するように訓練されている。それゆえ、ニューラル
ネットワーク３０_bは、解析されている文字が文字
「ｂ」であるかどうかに対する答えとして、「イエス」
または「ノー」という答えを与えるように訓練されてい
る。そのようにして、ニューラルネットワークは、もし
入力が文字「ｂ」についての画像である場合に「ｂ」が
正しい答えであり、もし「ａ」、「ｃ」〜「ｚ」、また
は「０」〜「９」の何れかについての画像である場合に
「ｎｏｔｂ」が正しい答えであるように教示されてい
る。

【００１９】図３を参照して述べると、本発明の認識お
よび検証過程がフローチャートの形態で要約されてお
り、ステップ５０から開始する。ステップ５２におい
て、シリアル番号が部分１０から走査され、それによ
り、コンピュータまたはニューラルネットワーク回路に
よって利用可能な画像として表されるものが生成され
る。コンパクトディスクについての実施例について考え
ると、シリアル番号がコンパクトディスクの中心の穴の
周りに半円形に配列されている。ステップ５４におい
て、上記画像が、各々の文字を回転させることによって
半円形に配列された文字の配置から直線状の配置に変換
され、この変換によって、より容易に読みやすい配置に
変更し直し、そして下記に述べるようにそれぞれのシン
ボルに区分けされる。

【００２０】ステップ５８において、マトリクスが組み
合わされて回転した（極座標（polar)を変換した）文字
を含むものとなる。一般的には、さらなる処理のために
記述されるべき技法を用いて、この時点におけるそれぞ
れの文字を分離されたマトリクスのピクセルに分離する
ことが望まれる。このマトリクスは、ステップ６２にお
いて、ニューラルネットワークに印加されるが、このニ
ューラルネットワークはＮ個の文字またシンボルの適切
な組のメンバーを認識するように訓練されているもので
ある。ニューラルネットワークはそれから、ステップ６
６において、シリアル番号についてのＮ個の文字または
シンボルのそれぞれの値についてニューラルネットワー
クの最良の推定を含む結果を発生させる。

【００２１】ステップ７２において、シリアル番号につ
いて各々認識されたシンボルに関するものについてのＭ
個のより少ないニューラルネットワークの一つの組が、
Ｎ個のそのようなニューラルネットワークの集合から選
択される。Ｎ個のニューラルネットワークの各々が、全
体の文字の組におけるＮ個の文字の単一のものについて
の認識に関して、「イエス」また「ノー」の答えのみを
与えるように訓練されている。それゆえ、Ｎ個のニュー
ラルネットワークの各々はこの組における単一の文字に
ついての認識と関連している。

【００２２】ステップ７６において、シリアル番号にお
ける文字と関連する個々のマトリクスの各々が、ステッ
プ７６において選択されたＭ個のニューラルネットワー
クの一つと関連し、それにより、シリアル番号のそれぞ
れの文字についてのピクセルのマトリクスによって表さ
れたものとしての文字の画像が、ステップ６６から認識
されたそれぞれの文字を関連する認識用ニューラルネッ
トワークに印加される。それから、より少ないＭ個のニ
ューラルネットワークの各々が、それぞれの文字を解析
し、ステップ８２において、それぞれの文字が正しく認
識されたものとして信頼されるべきものか否かを表す結
果を提供する。もしステップ８４において、シリアル番
号について全部でＭ個の文字が正しく認識された場合
は、ステップ８６において、この処理は終了する。ステ
ップ８４において、もし全ての文字が検証されない場合
は、ステップ８６における終了に先立って、ステップ８
８において、エラー修復処理が行われる。

【００２３】図５に関連付けて図解されている図４を参
照して述べると、この図４には、文字を直線的な配列に
回転するステップ５４における極座標変換処理が詳細に
図解されている。そのような変換を行う方法としては７
つの方法が存在する。第１のものは、好適な分解能の向
上がないベーシック・マッピング機能である。図４にお
いて、数字「２」がコンパクトディスクの中心の穴の周
りに極座標配列（polar arrangement)で示されている。
（一般に、ピクセルは後で明確にするように矩形である
が）図４においては、この文字は多くの四角のピクセル
で構成されている。文字を構成するピクセルの方向（向
き）は例えば、ビデオカメラによって生成されたような
直線的なアレイに配列されたピクセルについての大きな
格子（グリッド）１００の部分であることに留意された
い。シリアル番号についての方向は、このピクセルの配
置によって表されるものについて最適なものについては
必要ではない。シリアル番号の文字が画像について比較
的小さい部分を構成している場合には、このことは特別
な場合ともいえる。それゆえ、文字は、部分１０および
ビデオカメラ１２についての相対的な位置に対して指向
されているピクセルによって幾分大きく表されている。
ピクセルの方向性による文字の貧弱な整列（アライメン
ト）は、ほぼ４５度回転させることによって（図４）、
容易に視認できるようになるのであって、それにより、
数字「２」が水平方向のテキストに一層近く方向づけら
れる。この位置において、ピクセルがダイアモンドのよ
うに見える。

【００２４】本発明の目的は、対象とする画像について
円形状の配列ではなく、むしろこのピクセルの配列をピ
クセル１０４の矩形の配列にマッピングすることにあ
る。格子１００におけるピクセルの方向が、ピクセル１
０４の目標とする配置においてピクセルのその方向から
回転されているから、マップされた文字について相当の
スキューと歪が存在する。マッピング処理およびその結
果として生ずる歪を理解するために、交差状の線と同心
円によって構成されている極座標構成に配置されたピク
セルについてイマジナリー極座標格子を視覚的に判るよ
うにすることが有益である。ピクセルについてのそれぞ
れの放射状のカラムの中心ラインが放射状の線（ラジア
ルライン）１０６に沿ってドットとして表されている。
図４についてさらなる混乱を回避するため、この図面に
は実際のイマジナリー格子は示されていない。（分解能
を向上するイマジナリー格子の小さな部分が図９に示さ
れている。この格子はコンパクトディスクの中心の周り
に複数の同心円の円弧を発生させることによって構成さ
れるものであり、その同心円の円弧は複数のドットと放
射状の線（ラジアル方向の線）の付加的な組との間の点
で交差し、上記放射状の線は図示したそれらの間におい
て中心の位置から延びている。）これらのドットはサン
プリング点として観察される。オリジナルな円形状の画
像がこれらの点においてサンプリングされ、そのサンプ
リング値が目標（ターゲット）アレイ１０４に対応する
位置（ロケーション）に複写される。オリジナル画像に
おける各々のピクセルがこのサンプリングの（ｘ，ｙ）
位置に対応するアドレスに割り付けられ、その点が目標
アレイ１０４にマップされる。

【００２５】マッピング処理において、放射状の線（ラ
ジアル方向の線）に沿ったドットのそれぞれの中心が目
標アレイ１０４におけるピクセルの値にマップされる。
各々のドットの位置を試験し、そしてその結果として生
じた目標アレイ１０４におけるピクセルを試験すること
によって、歪の原因が理解される。その理由は、オリジ
ナルの画像におけるピクセルの値が、イマジナリー極座
標格子の中心を表すことがオリジナル画像における与え
られたピクセルの範囲内にあるとき、目標アレイ１０４
におけるピクセルの値としてのみマッピングされている
からである。最大量の歪は、文字が水平方向また垂直方
向から約４５度だけ中心にあるとき、および文字がほぼ
垂直方向またはほぼ水平方向よりも比較的少ない方向に
あるときに起こる可能性が高いことが理解されるであろ
う。その歪は、ビデオカメラによって生成された全体の
画像の小さい部分によってのみ構成されている文字に依
存して大きくなる。それゆえ、アレイ１００を構成して
いる少ないピクセルは単に、各々の文字を形成してい
る。目標アレイについて新しい回転した文字がそれゆ
え、オリジナル画像とは異なった方向におけるピクセル
で構成される。

【００２６】画像における各々のピクセルのためのある
ドット（サンプリング点）を生成するために、放射状の
線（ラジアル方向の線）はピクセルのアスペクト比につ
いてあるピクセルの倍数（times)だけ間隔付けて離され
るべきである。このテストについての実施例において
は、ピクセルは矩形であり、アスペクト比は１．２７で
ある。それゆえ、それぞれの放射状の線は、円がピクセ
ル内に測定される場合（分解能の向上が図られないと仮
定した場合）、１．２７ピクセルだけ間隔付けられてい
る。このことは、ピクセルの間隔、つまり、放射状の線
が、ピクセルについてのアスペクト比に依存して円の周
りに僅かに変化していることを意味することに留意され
たい。

【００２７】Δθは角度インクリメント（増加分）であ
り、この角度インクリメントは極座標変換処理の期間に
現在の角度についての連続的な計算に用いる。例えば極
座標変換計算に用いる第１の角度は単に最初の角度であ
る。ラジアル方向についての計算が開始の角度に沿って
行われた後、新しい角度が開始の角度にΔθだけ加えら
れる。再びラジアル方向の計算がこの角度に沿って行わ
れ、そして現在の角度にΔθを加えることによって更新
される。このように、この計算ループに用いられる現在
の角度はつねに、開始の角度にΔθを整数倍した値を加
えたものとなる。

【００２８】Δθの計算は、小さい角度の近似（ｓｉｎ
（ｚ）はほぼ小さい角度に関してｚに等しい）に従って
おり、そしてピクセルの矩形の形状について計数するこ
とに用いられる（このテストの実施例において用いられ
るハードウエアのために、１．２７である）ピクセルＡ
のアスペクト比によって調整される。（このハードウエ
アのためのピクセルは、ｙ方向について１単位の高さ、
そしてｘ方向について１．２７単位の大きさを持つもの
として規定されている。）このテスト実施例のハードウ
エアのために変換されている円弧の中心に対する半径は
２２０のｙピクセルであり、これらのピクセルは２２０
／１．２７＝１７３．２８３のｘピクセルに等しい。Δ
θはｘ方向の１ピクセルの円弧の長さによって決定され
た角度である。したがってこれは、水平方向にマップさ
れる円弧に沿ったピクセル、および垂直方向にマップ化
される半径方向に沿ったピクセルである。それゆえ、ラ
ジアル方向のピクセルは１単位内に、またはｙ方向の寸
法のピクセル内に測定されうる。Δθがほぼｓｉｎ（Δ
θ）に等しく、ｓｉｎ（Δθ）が半径によって分割され
た円弧の長さほぼ等しいから、下記式が成立する。

【００２９】

【数１】

【００３０】あるいは、下記式が得られる。

【００３１】

【数２】

【００３２】測定について選択された単位がｙ方向につ
いて１ピクセルの高さであり、半径に沿った全てのピク
セルが目標領域の連続する列にマップされるから、半径
に沿った点の間の間隔は、単に１単位である。

【００３３】一旦角度と範囲が決定されると、アレイが
極座標変換の期間に生成されたアドレスを維持するため
に準備される。このことは図６にアドレスアレイとして
図解されている。例えば、その範囲が４５度である場
合、ただし、この範囲は（４５２ｐｉ（π）ｒ）／３
６０、または、１３６のｘ方向のピクセルに対応してお
り、なおここで、ｒ＝２２０／１．２７＝１７３．２２
８のｙ方向のピクセルである、アドレスアレイにおける
カラム数は１３６である。もし円弧の幅が３２のｙ方向
ピクセルの場合には、列のアドレスアレイにおける列
（rows) の数は３２である。アドレスアレイの内容は、
極座標変換の期間に計算されたアドレスである。

【００３４】一旦これらのアドレスが記憶されると、ピ
クセルの値が検索できるオリジナル画像の位置が決定さ
れる。それゆえ、座標変換処理の次の段階は、アドレス
アレイにおけるアドレスのための対応するピクセルの位
置を単に探し、図６に図解したように、目標アレイにそ
のピクセルの値を複写することである。この図において
対象とするピクセルは、位置（４８１，９０）に配置さ
れている。このアドレスが、目標アレイにおけるそのピ
クセルと関連しているその位置におけるアドレスアレイ
に記憶される。それから、アドレスアレイにおける各々
の位置について、ピクセルの値がオリジナル画像（また
はオリジナル画像を表すものを含むコンピュータファイ
ル）から目標アレイに複写される。この複写は単にアド
レスと関連する値を探すことによって行われる。

【００３５】アドレスアレイに記憶される極座標アドレ
スを計算するために、まず、ｘアドレスおよびｙアドレ
スが計算され、そしてアドレスアレイに記憶される。そ
れから、スクリーンの中心のアドレスがオフセットとし
て因子化（factored) される。このことは、その点のｘ
プロジェクションにスクリーン中心を加え、そしてその
スクリーン中心からｙプロジェクションを減ずることに
よって行われる（その理由は、座標の原点がスクリーン
の左上の隅にあると考慮されているからである）。ｘピ
クセルの寸法がアスペクト比（このテスト実施例のおい
ては１．２７）によって分割されており、ｙピクセルの
寸法がｙ方向の計算に用いられることを想定している。

【００３６】このテスト実施例において、回転された画
像がスクリーンのある領域に複写される。その領域はコ
ンパクトディスクに刻印されたシリアル番号とは干渉し
ない。この例示においては、３２ピクセル×１３６ピク
セルの領域が選択されている。座標変換過程は、アドレ
スアレイから一つの要素を選択し、スクリーンピクセル
のアドレスを入手し、そのピクセルについてグレイスケ
ールの値を目標アレイに複写することを行う。これらの
処理段階はアドレスアレイにアドレスされた各々のピク
セルについて反復して行われる。

【００３７】この好適な実施例において、ビデオカメラ
からのピクセルが（グレイスケールとしての表記の方法
である）０〜１２７の間の値として表されるブライトネ
ス（明るさ）の値として記憶される。本発明の座標変換
処理によって一旦画像が回転させられると、各々のピク
セルの値が所定のしきい値と比較され２進数の値、０ま
たは１を表すものとして最良のものか否かが決定され
る。このテスト実施例においては、しきい値として７０
が用いられ、７０より大きい値は１の値として割り付け
られ、そして７０よりも小さい値は０の値として割り付
けられる。しかしながら、明確なしきい値の値は、画像
の明るさ、ビデオカメラの感度および他のハードウエア
の因子等の種々の要素に依存する値となる。明確なしき
い値の値の決定は、特定的なハードウエアおよび照明状
態によって経験的に決定することが最良である。

【００３８】図５に関連付けて見た場合によりよく理解
される図７を参照して述べると、本発明の上述した変換
処理のフローチャートは、ステップ１１０から開始す
る。ステップ１１４において、角度θ₁がコンパクトデ
ィスクの上の規準点を検索することによって決定され
る。この検索はまた、手動によってまたは当業者によっ
て行われる他の通常の方法によっても行われうる。この
好適な実施例においては、図１に示したように、シリア
ル番号が小さな四角１１２に続けられて穴を包囲する円
弧１１３が設けられ、その後に続くようになっているこ
とが知られている。ステップ１１８において、変換され
るべき円弧の範囲θ_x（θω）が任意の適切な方法によ
って決定される。この適用において変換されるべき円弧
の範囲は常に８５度として知られている。ステップ１２
４において、隣接する放射状の線（ラジアル方向の線）
１０６を間隔付ける角度Δθが下記式によって計算され
る。

【００３９】

【数３】

【００４０】ここで、記号Ａはピクセルのアスペクト比
であり、記号ｄは半径である。ステップ１３０におい
て、角度範囲θ_xが下記の式を用いて円弧の範囲を構成
する水平方向のピクセルの数に変換される。

【００４１】

【数４】

【００４２】この用途において、垂直方向のピクセルの
数は変換されている円弧の一定の幅に依存して固定にな
っている。他の用途においては、この値は上述した値と
は異なり、その幅は計算されうる。ステップ１３６にお
いて、イマジナリー極座標における各々のピクセルの中
心についてのラジアル方向のアドレスが下記式を用いて
ｘ座標およびｙ座標として計算される。

【００４３】

【数５】

【００４４】

【数６】

【００４５】一旦これらのｘ座標およびｙ座標が計算さ
れると、これらは矩形の目標格子におけるそれぞれの位
置に割り付けられる。ステップ１４２において、オリジ
ナル画像について計算されたｘ座標およびｙの座標にお
ける全てのピクセルの値が目標矩形格子に複写される。
この時点において、ピクセルはその範囲が０〜１２７で
あるディジタル化されたアナログのブライトネスの形態
になっている。この好適な実施例の２進数入力ニューラ
ルネットワークのために、これらのブライトネスの値
が、ステップ１４４において、「２進化された」ピクセ
ルに変換される。この２進化されたピクセルはそれらの
値を表す０また１のいずれかを有する。それから、ステ
ップ１４８において、文字が区分化され、中心化され
る。

【００４６】一旦文字が直線状の配列に変換されると、
ステップ１４８において、それらの文字が区分けされ、
そして中心化される。それらの文字を正しく中心位置に
位置決めすることが認識または検証する精度を向上させ
る。中心化する方法が、図７に図解したように、達成さ
れる。文字「Ａ」を例示して図解したように、この文字
の左および右の縁が、所定のしきい値を越えている、所
定の列またはカラムにおいて照明されているピクセルの
数の増加または減少を検出することにより配置される。
左の縁がｘ₁で表され、右の縁がｘ₂として表される。
それから、文字の中心の位置が（ｘ₂−ｘ₁）／２によ
って漸近化される。同様にして、文字の頂部（ｙ₂）お
よび底部（ｙ₁）が配置され、そして文字の中心が（ｙ
₂−ｙ₁）／２によって漸近化される。

【００４７】このテストの実施例において、文字が図８
に示したｘのプロジェクションに基づいて発見されてい
るｘ₁，ｘ₂によって中心化される。先ず、ｘ₁の検出
について考える。各々のカラムがそのカラムにおける複
数のピクセルについて左から右に検査される（図８のｘ
のプロジェククションに留意されたい）。値１を有する
５個のピクセルが一つのカラムに見いだされた時、その
ｘの値はその文字の内部にあるべきものと考えられる。
それから次のカラムのそれぞれが２ピクセルにまたそれ
より少ないピクセルを有する一つのカラムが見いだされ
るまで、逆の順序で（右から左へ）検査される。この時
点において、ｘの値はその文字のちょうど左にあるよう
に推定される。それゆえ、右側に対するカラムはその文
字（ｘ₁）においける第１のカラムであるべきものと考
えられる。同様の処理が用いられてｘ₂、ｙ₁、および
ｙ₂の値が見いだされる。それから中心の位置が上述し
た式に基づいて計算される。ステップ１５０において、
この処理が終了する。

【００４８】表１は、ある円形状に配列された文字のピ
クセルをある目標とする文字のピクセルに変換するため
に用いられたＣコード（言語）のプログラムリスティン
グである。

【００４９】

【表１】

【００５０】図９に関連づけて図解されている図７に戻
って述べると、分解能を向上させる方法を用いる本発明
の極座標変換処理は、上述した処理と実質的に同一であ
る。分解能を向上させる方法と図７に図解した方法との
差異の違いの唯一のことは、ステップ１２４およびステ
ップ１３６である。ステップ１２４において、Δθの代
わりに、ピクセルについて隣接する放射（ラジアル）方
向のカラム相互間の間隔としてΔθ／２が計算され、そ
れにより放射状の線（ラジアル方向の線）１０６相互間
の間隔が以前に述べた処理の距離の半分になる。ステッ
プ１３６において、放射状の線ごとのサンプル点の数が
２倍になっている（あるいは増加されている）。但し、
処理は実質的には同じである。図９は、いかにして分解
能を向上させる方法が１×１．２７のラジアル領域のそ
れぞれについて４ピクセルを生成するかを、図解してい
る。

【００５１】極座標変換処理の期間、アドレスの期間の
丸め処理および回転されたピクセルによってカバーされ
た領域およびオリジナルのピクセルとの間の矛盾に起因
した分解能の損失が存在する。分解能のいくつかを修復
するためにピクセルについてのサンプリングがより少な
いインクリメントを用いて遂行される。サンプリング点
を多くすると精度は向上するが、演算のオーバーヘッド
が増加する。ラジアル方向および角度方向の両者におけ
るサンプリング点の数を２倍にすることによって適切な
平衡が達成され、それによってオリジナル画像における
各々のピクセルについての目標画像において４個のピク
セルが生成される。このことはΔθを２で割り、そして
ラジアル方向のインクリメントを２で割ることによって
達成された。これにより、丸め誤差が小さくなり目標画
像における精度が向上した。

【００５２】図９を参照すると、分解能の向上が図られ
ない場合について斜線で示した１×１．２７の領域が目
標ピクセルを示している。このピクセルはその中心点
（４８１，９１）に配置されたピクセルの値であると考
えられるが、ピクセル（４８１，９０）によって表され
た領域と完全に一致するものではない。向上された目標
画像が４つの位置におけるオリジナル画像をサンプリン
グし、それゆえ、その領域におけるピクセルの組み合わ
せ、即ち（４８１，９０）、（４８１，９０）、４８
０，９０）および（４８１，９１）を表している。

【００５３】換言すれば、放射状の線（ラジアル方向の
線）１０６の長さに沿ったサンプリング点の数が２倍に
なっており（または所定の量だけ増加されており）、そ
して放射状の線１０６の数もまた２倍になっている（ま
たは所定の数だけ増加されている）。その結果は、円形
状に配列された文字についてのピクセルの値のより大き
なサンプリング点を持っている画像であり、それゆえ、
目標アレイにより４倍ほど多いピクセルを持っている画
像に非常に接近する（例えば、ステアステップ近似法
（stair step approximation: 階段漸近法) による）。
この好適な実施例において、図４に図示した点において
サンプリングすることによって分解能が２倍になってい
る。その理由は、ドットと最も高いドット（または最も
低いドット）の上にある付加的な位置との間の位置に沿
ったラジアル方向の線に沿ってドットがあるからであ
る。そこでまた、図示されたラジアル方向の線に、端部
における付加的な線を加えたそれぞれの間の他のラジア
ル方向の線をサンプリングすることによって、精度が２
倍になる。このことは、元の画像の分解能を４倍にして
いる結果となる。

【００５４】一般に、できるだけ多くのサンプリング点
を用いることが最良である。しかしながら、それぞれの
付加的なサンプリング点は、演算に必要な演算能力（co
mputation power)を増大させ、ニューラルネットワーク
の複雑さを１入力ノードだけ増大させ、そして、それに
よる計算を複雑にする。

【００５５】表２はこのテストにおける極座標変換を行
うために使用したＣコードのプログラムリストである。

【００５６】

【表２】

【００５７】このリストは、垂直方向の分解能が２倍で
あり、水平方向の分解能が２倍である。これについて
は、表１に示したリストと２つの相違をもたらす。つま
り、「ｄｅｌｔａ−ｔｈ」を計算するライン、および、
最後の“ｆｏｒ“ステートメントのラインである。付加
的な因子２の除算および乗算がそれぞれ加えられて、サ
ンプリング点の数を２倍にしている。

【００５８】本発明については種々の変形が可能であ
る。たとえば、この実施例のニューラルネットワークは
コンピュータプログラムの形態でディジタルコンピュー
タにおいて実現されているが、ハードウエア回路あるい
は類似するものによる実現も可能であり、ニューラルネ
ットワーク回路の稼働率（利用率）および価格がより魅
力的になる。

【００５９】したがって、本発明によれば、上述した目
的、意図および利益を十分に満足する装置が述べられて
いる。本発明は特定的な実施例に関連づけて記述されて
いるが、種々の変形形態、修正、代替および変形が、上
述した記述に照らし合わせれば、当業者にとって明瞭で
あることは明らかである。したがって、本発明は添付し
た特許請求範囲の記載事項におけるそのような変形形
態、修正および変形を包含するものである。

【００６０】

【発明の効果】本発明によれば、直線状に配列された複
数のシリアルが文字あるいはシンボルから直線状の文字
に容易に変換することができる。また本発明によれば、
元の画像以上に分解能を向上させることができる。

【図面の簡単な説明】

【図１】図１は中心の穴の周りにシリアル番号が付され
たコンパクトディスクの図である。

【図２】図２（Ａ）、（Ｂ）は本発明の文字認識および
検証装置の動作を図解したブロックダイアログ図であ
る。

【図３】図３は本発明の文字認識および検証装置の動作
を示すフローチャートである。

【図４】図４は円形状に配列された画像から、直線的な
アレイのピクセルをマッピングすることを図解する図で
ある。

【図５】図５（Ａ）、（Ｂ）は本発明の極座標変換を図
解する図である。

【図６】図６はアドレスアレイおよび目標アレイのマッ
ピング処理を図解する図である。

【図７】図７は本発明の極座標変換を記述するフローチ
ャートである。

【図８】図８は文字の分離および中心化処理を図解する
図である。

【図９】図９は元の画像のピクセルと、向上した分解能
を持つピクセルを重ね合わせた状態を示す図である。

【符号の説明】

１０・・部分１２・・走査装置１４・・極座標変換器１６・・マトリクス２０・・ニューラルネットワーク３０・・ニューラルネットワーク

Claims

【特許請求の範囲】

【請求項１】文字を認識する方法であって、該方法が下
記の諸段階、すなわち、円形状構成に配列された文字についての円形状に表され
たものを受け入れ、前記文字の円形的な状態を直線的な構成に変換して、前
記文字について直線的に表現されたものを生成し、前記文字についての直線的に表現されたものに依存して
文字の認識処理を行う諸段階を具備する文字認識方法。
【請求項２】前記文字の認識処理を遂行するに先立っ
て、前記文字についての円形状の配列の配置について、
分解能を高めて表されるものを発生する段階をさらに具
備する請求項１記載の方法。
【請求項３】前記発生段階が前記円形状の配列の垂直方
向の分解能を２倍にする請求項２記載の方法。
【請求項４】前記発生段階が前記円形状の配列の水平方
向の分解能を２倍にする請求項２記載の方法。
【請求項５】前記発生段階が、前記円形状の配列に対する複数のサンプリング点を割り
付け、前記サンプリング点における前記円形状に表されたもの
からピクセルの値をアレイに複写する段階を有する請求
項２記載の方法。
【請求項６】前記それぞれのピクセルのそれぞれの値に
依存して前記ピクセルの値のそれぞれを２進数の値、０
または１に変換する段階をさらに具備する請求項２記載
の方法。
【請求項７】前記変換段階が、下記の諸段階、すなわ
ち、前記円形状に表されたものにおける、該円形状に表され
たものを覆っている極座標格子に配列されている複数の
サンプリング点のそれぞれのアドレスを計算し、前記サンプル点を矩形のピクセルのアレイにマッピング
する段階を有する請求項１記載の方法。
【請求項８】円形状に配列された文字を直線状に配列さ
れた文字に変換する方法であって、該方法が下記の諸段
階、すなわち、前記円形状に配列された文字を構成するピクセルの値を
サンプリングするための複数のアドレスの位置を発生
し、前記円形状に配列された文字についての前記ピクセルの
値をサンプリングし、該サンプルされた値から前記直線的に配列された文字を
構成する諸段階を具備する変換方法。
【請求項９】円弧と、その周囲に前記円形状に配列され
た文字が配列されている円の中心点から延びている複数
の放射状の線との交差によって形成された点の極座標ア
レイとして配列されている前記アドレス位置、および、
前記円弧が、前記中心点の周囲に構成されている請求項
８記載の方法。
【請求項１０】前記サンプリング点の数が、前記円形状
に配列された文字を形成しているピクセルの数に等しい
か、または、それより以上である請求項９記載の方法。
【請求項１１】前記複数の放射状の線が垂直方向に１ピ
クセルの高さだけ間隔づけられている請求項９記載の方
法。
【請求項１２】前記同心円が水平方向に１ピクセルの幅
だけ間隔づけられている請求項９記載の方法。
【請求項１３】前記直線的に配列された文字の中心を検
出する段階をさらに具備する請求項８記載の方法。
【請求項１４】前記直線的に配列された文字の縁を検出
する段階をさらに具備する請求項８記載の方法。
【請求項１５】前記サンプリング点のアドレスを記憶す
るアドレスアレイを発生し、該サンプルされたピクセル
の値を目標アレイに記憶する段階をさらに具備する請求
項８記載の方法。
【請求項１６】前記サンプリングされたピクセルの値と
規準の値とを比較し、該比較に基づいて２進数の値を前
記ピクセルの値に割り付ける段階をさらに具備する請求
項８記載の方法。
【請求項１７】前記発生させる段階がｘおよびｙの座標
としてアドレス位置を計算し、該座標を前記円形状に配
列された画像における最も近いピクセルのアドレスに丸
める段階を有する請求項８記載の方法。
【請求項１８】前記直線状に配列された文字をニューラ
ルネットワークに印加する段階をさらに具備する請求項
８記載の方法。
【請求項１９】円形状に配列された文字を直線状に配列
された文字に変換する方法であって、該方法が下記の諸
段階、すなわち、前記円形状に配列された文字を構成するピクセルの値を
サンプリングするための複数のアドレス位置を発生する
段階であって、該アドレス位置が円弧と放射状の線との
交差によって形成される位置についての極座標アレイと
して配列され、該放射状の線がその周囲に円形状に配列
された文字が配列されている円の中心の位置から延び、
前記円弧が前記中心位置の周囲に形成されているもの、
および、前記サンプリング点の数が前記円形状に配列さ
れている文字を構成するピクセルの数と等しいか、また
はそれ以上であり、前記放射状の線が垂直方向に１ピク
セルの整数の除数値（integer divisor ）の高さだけ間
隔付けられており、および前記同心円が水平方向に１ピ
クセルの整数の除数値の幅だけ間隔付けられているも
の、前記サンプリング位置のアドレスを記憶するアドレスア
レイを発生して、前記サンプルされたピクセルの値を目
標アレイに記憶し、前記円形状に配列された文字についての前記ピクセルの
値をサンプリングし、該サンプリングされた値から前記直線状に配列された文
字を構成し、前記直線状に配列された文字の中心を見いだし、前記直線状に配列された文字の縁を発見し、前記サンプリングされたピクセルの値と規準の値とを比
較し、該比較結果に基づいて２進数の値を前記ピクセル
の値に割りつけし、ここで、前記アドレスの位置を発生する段階が、ｘおよ
びｙ座標としてアドレスの位置を計算する段階、およ
び、該座標を前記円形状に配列された画像において最も
近いピクセルのアドレスに丸める段階を有し、前記直線状に配列された文字をニューラルネットワーク
に印加する諸段階を具備する変換方法。
【請求項２０】円形状に配列された文字を認識する装置
であって、該装置が、前記円形状に配列された文字を構成するピクセルの値を
サンプリングするための複数のアドレスの位置を発生す
る発生手段と、前記円形状に配列された文字について前記ピクセルの値
をサンプリングするサンプリング手段と、該サンプルされた値から前記直線的に配列された文字を
構成する構成手段と、前記直線的に配列された文字を入力し、前記文字を認識
するニューラルネットワークとを具備する円形状に配列
された文字を認識する装置。