JPH11203404A - 景観画像中文字読み取り方法およびその装置およびその方法を記録した記録媒体 - Google Patents

景観画像中文字読み取り方法およびその装置およびその方法を記録した記録媒体

Info

Publication number
JPH11203404A
JPH11203404A JP10008159A JP815998A JPH11203404A JP H11203404 A JPH11203404 A JP H11203404A JP 10008159 A JP10008159 A JP 10008159A JP 815998 A JP815998 A JP 815998A JP H11203404 A JPH11203404 A JP H11203404A
Authority
JP
Japan
Prior art keywords
character
image
operation sequence
reading
character area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10008159A
Other languages
English (en)
Inventor
Akira Suzuki
章 鈴木
Kimitomo Kobayashi
公知 小林
Osamu Nakamura
修 中村
Kenji Ogura
健司 小倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP10008159A priority Critical patent/JPH11203404A/ja
Publication of JPH11203404A publication Critical patent/JPH11203404A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Studio Circuits (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

(57)【要約】 【課題】 景観画像中の文字を読み取る際に、小さすぎ
て読めない文字領域の文字読み取りを可能にし、かつ読
み取りの精度を向上させ、かつ装置の動作シーケンスを
操作者が容易に設定可能にする方法および装置を提供す
る。 【解決手段】 視線方向と画角を制御可能なカメラ4を
使用し、予め操作者が設定した視線方向と画角を用いて
カメラ4を制御する。これで読み取った文字領域の情報
を用いて、文字領域を適正サイズに拡大するためのカメ
ラ4の視線方向と画角をカメラ制御値算出手段3で計算
する。全体制御手段1は、その値を用いてカメラ4を制
御する。これにより小さすぎて読み取り難い文字領域を
読み取り可能とする。また動作シーケンス格納テーブル
2を設け、動作シーケンスを操作者が容易に定義し格納
可能とする。全体制御手段1は、テーブル2の動作シー
ケンスに従い各部を制御することで、様々な利用場面に
容易に適用可能とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、景観画像中の文字
を読み取る景観画像中文字読み取り技術の分野におい
て、カメラを能動的に制御することで小すぎて読めない
文字領域の文字の読み取りを可能にし、かつ読み取りの
精度を向上させ、かつ装置の動作シーケンスを操作者が
容易に設定可能な手段を実現するための技術に関する。
【0002】
【従来の技術】景観画像中の文字領域の文字を読み取る
従来の技術は、看板の文字の読み取りや自動車のナンバ
ープレートの読み取りに用いられている。
【0003】従来技術のブロック図を図15に示す。そ
の動作内容は、まず文字領域抽出手段200がカメラ1
00で撮影した景観画像中から文字を含む領域(文字領
域と呼ぶ)の抽出を行う。次に画像補正変換手段300
が画像の3次元的な傾斜による歪みを補正し、回転を補
正し、各画素を文字パターンに含まれるか否かを推定し
て含まれるグループと含まれないグループの2種類に分
けた2値画像を作成する。次に文字切り出し手段400
が文字領域から個別の文字パターンを抽出する。次に文
字認識手段500が個別の文字パターンを認識して候補
文字を出力し、次にその候補文字の集合をデータベース
照合手段600が照合して読み取り結果の文字列を出力
し、最後に図略の出力手段が文字列を外部に出力する。
【0004】
【発明が解決しようとする課題】発明が解決しようとす
る従来技術に対する課題は2つある。
【0005】(1)1つの課題は、従来技術がカメラの
可動部分を持たないことによる限界である。
【0006】以下に、従来技術が適用できないアプリケ
ーションを2つ述べる。
【0007】第1のアプリケーションは、カードの枚数
も置かれる場所も不定であることを前提とするカードの
読み取りである。読み取り対象は県名が書かれた縦横比
がほぼ1対1の四角形であり、カメラの画角を広げれ
ば、一枚の画像に全てのカードを入れることができると
する。図16は、台上に置かれた、文字が書かれた複数
のカードを机の上部に設置したカメラで写した画像であ
る。この時、カードの画像が小さくて文字のパターンが
潰れてしまい、認識ができないとする。このアプリケー
ションでは、カメラはまず全カードが画面に写る画角と
カメラ視線方向の値でカメラを制御し、その画像を取り
込んで個々のカードの位置を求め、個々のカードを拡大
した画像が得られるカメラの制御値を計算し、カメラを
その値で制御して画像を得る必要がある。
【0008】第2のアプリケーションは、カードの枚数
も置かれる場所も決まっていることを前提とするカード
の読み取りである。図17に示すように、カメラの画角
を最大に広げても、一枚の画像に全てのカードを入れる
ことはできないとする。このアプリケーションでは、個
々のカードを拡大した画像が得られるカメラの制御値を
あらかじめ調べておき、その制御値で順次カメラを制御
して画像を取り込んでいき、カードを読み取るタスクと
なる。
【0009】上記の2つのアプリケーションは、共に図
15に示す従来技術では実行できない。
【0010】(2)従来の技術のもう1つの解決すべき
課題は、従来の技術は利用目的が単一であり、他の利用
目的への転用が困難であることである。
【0011】例えば従来技術にカメラ制御を行う仕組み
を取り入れて、前記(1)で示した2つのアプリケーシ
ョンのどちらかに適用できる装置を開発しても、両者の
カメラ制御の動作シーケンスは異なるので、もう1つの
アプリケーションに適用することは困難であり、大きな
改造が必要になる。
【0012】また、第1のアプリケーションの例では、
読み取り対象は縦書きの漢字の県名であるが、第2のア
プリケーションの例では、読み取り対象は横書きのロー
マ字の県名であり、文字切り出しにおける記入方向、文
字認識手段における文字種、データベース照合手段にお
けるデータベースの内容、が全て異なり、これらについ
ても装置の改造が必要となる。
【0013】また、第1のアプリケーションの例では、
読み取り対象の県名が書かれた四角形の他に、文字が書
かれた横に細長い四角形が存在し(図16)、これを読
み取り対象と区別するためには、やはり装置の改造が必
要となる。
【0014】以上のとおり、本発明は、景観画像中の文
字を読み取る景観画像中文字読み取り技術の分野におい
て、カメラを能動的に制御することで小すぎて読めない
文字領域の文字の読み取りを可能にし、かつ読み取りの
精度を向上させ、かつ装置の動作シーケンスを操作者が
容易に設定可能な手段を実現する方法および装置を提供
することを課題とする。
【0015】
【課題を解決するための手段】本発明の上述の課題は、
以下の〈1〉〜〈4〉の発明により解決される。
【0016】〈1〉視線方向と画角を外部からの信号に
より制御可能なカメラを用いて景観画像中の文字を読み
取る景観画像中文字読み取り方法において、景観画像か
ら文字の含まれる文字領域を抽出する手順と、前記抽出
された文字領域の情報から、該文字領域を拡大するため
のカメラの制御値を算出する処理手順と、前記算出され
たカメラの制御値によりカメラを制御し、拡大された文
字領域を得る処理手順と、前記拡大された文字領域から
文字領域を抽出する処理手順と、前記抽出された文字領
域の画像の3次元的な傾斜による歪みを補正し、回転を
補正し、各画素を文字パターンに含まれるか否かを推定
して含まれるグループと含まれないグループの2種類に
分けた2値画像を作成する処理手順と、前記文字領域の
2値画像から個別の文字パターンを切り出す手順と、前
記切り出した文字パターンを認識して文字列の候補文字
を出力する処理手順と、前記文字列の候補文字の集合を
検索キーとしてデータベースと照合する処理手順と、前
記データベース照合の結果を出力する処理手順と、を有
し、予め動作させる前記処理手順とその順序を示す動作
シーケンスをテーブルに設定し格納する手順と、前記テ
ーブルに格納された動作シーケンスに従って前記処理手
順を実行する手順を有することを特徴とする景観画像中
文字読み取り方法。
【0017】あるいは、視線方向と画角を外部からの信
号により制御可能なカメラを用いた景観画像中の文字を
読み取る景観画像中文字読み取り装置において、景観画
像もしくはカメラ制御値で制御されたカメラの文字領域
の画像から文字の含まれる文字領域を抽出する文字領域
抽出手段と、前記文字領域抽出手段で景観画像から抽出
された文字領域の情報から、該文字領域を拡大するため
の前記カメラ制御値を算出するカメラ制御値算出手段
と、前記文字領域の画像の3次元的な傾斜による歪みを
補正し、回転を補正し、各画素を文字パターンに含まれ
るか否かを推定して含まれるグループと含まれないグル
ープの2種類に分けた2値画像を作成する画像補正変換
手段と、前記文字領域の2値画像から個別の文字パター
ンを切り出す文字切り出し手段と、前記切り出した文字
パターンを認識して候補文字の文字列を出力する文字認
識手段と、前記文字列の候補文字の集合を検索キーとし
てデータベースを照合するデータベース検索手段と、動
作シーケンスに従って前記各手段を制御し、かつデータ
ベースの照合の結果を出力手段を介して出力する全体制
御手段と、前記全体制御手段の動作シーケンスを格納す
る動作シーケンス格納テーブルと、を備えることを特徴
とする景観画像中文字読み取り装置。
【0018】〈2〉上記〈1〉の景観画像中文字読み取
り方法において、前記動作シーケンスをテーブルに設定
し格納する手順では、前記動作シーケンスを格納するテ
ーブルに抽出対象である文字領域の特徴を記録すること
を許容し、前記文字領域を抽出する処理手順では、前記
特徴を有する文字領域を抽出することを特徴とする景観
画像中文字読み取り方法。
【0019】あるいは、上記〈1〉の景観画像中文字読
み取り装置において、前記動作シーケンス格納テーブル
は、抽出対象である文字領域の特徴を記録することを許
容するものであり、前記文字領域抽出手段は、前記特徴
を文字領域抽出の処理に利用するものであることを特徴
とする景観画像中文字読み取り装置。
【0020】〈3〉上記〈1〉または〈2〉の景観画像
中文字読み取り方法において、前記動作シーケンスをテ
ーブルに設定し格納する手順では、処理手順において出
現する各シーン毎に独立したテーブルに動作シーケンス
を記述することを許容し、前記各シーンの動作シーケン
ス毎に、起動するための条件を設け、前記動作シーケン
スに従って前記手順を実行する手順では、該起動するた
めの条件を満足するシーンの動作シーケンスを探して起
動することを特徴とする景観画像中文字読み取り方法。
【0021】あるいは、上記〈1〉または〈2〉の景観
画像中文字読み取り装置において、前記動作シーケンス
格納テーブルは、処理において出現する各シーン毎に独
立した動作シーケンス格納テーブルに記述することを許
容し、起動するための条件を設けるものであり、前記全
体制御手段は、前記各シーンの動作シーケンス毎に、前
記起動するための条件を満足するシーンの動作シーケン
スを探して起動するものであることを特徴とする景観画
像中文字読み取り装置。
【0022】〈4〉上記〈1〉,〈2〉,〈3〉のいず
れかの景観画像中文字読み取り方法の手順および処理手
順を、コンピュータで実行するプログラムとして前記コ
ンピュータが読み取り可能な記録媒体に記録したことを
特徴とする景観画像中文字読み取り方法を記録した記録
媒体。
【0023】本発明に係わる景観画像中文字読み取り方
法およびその装置においては、視線方向と画角を外部か
らの信号により制御可能なカメラを使用し、あらかじめ
操作者が設定したカメラの視線方向と画角を用いてカメ
ラを制御する機能、および画像中から読み取った文字領
域の情報を用いて該文字領域を適正サイズに拡大するた
めのカメラの視線方向と画角を自動計算し、かつその値
を用いてカメラを制御する機能を有することにより、読
み取り難い文字領域の読み取りを行うことができる手段
を実現し、かつ動作シーケンスを操作者が容易に定義し
格納する機能を有することにより、様々な利用場面に容
易に適用できる手段を実現でき、これによって技術の適
用範囲を拡大させる。
【0024】また、動作シーケンスの情報の一部として
抽出対象である文字領域の特徴を記述することにより、
抽出精度を向上させる。
【0025】
【発明の実施の形態】以下、図面を用いて本発明の実施
形態例を説明する。
【0026】図1は、本発明の一実施形態例に係わる処
理ブロック図である。図1において、1は装置の各構成
要素を制御する全体制御手段、2は全体制御手段の動作
シーケンスを格納する動作シーケンス格納テーブル、3
は文字領域の情報から、該文字領域を拡大するためのカ
メラの制御値を算出するカメラ制御値算出手段、4は視
線方向と画角を外部からの信号により制御可能なカメ
ラ、5は景観の画像から文字の含まれる文字領域を抽出
する文字領域抽出手段、6は文字領域の画像の3次元的
な傾斜による歪みを補正し、回転を補正し、各画素を文
字パターンに含まれるか否かを推定して含まれるグルー
プと含まれないグループの2種類に分けた2値画像を作
成する画像補正変換手段、7は文字領域から個別の文字
パターンを切り出す文字切り出し手段、8は文字パター
ンを認識して候補文字を出力する文字認識手段、9は文
字列の候補文字の集合を検索キーとしてデータベースを
照合するデータベース照合手段、である。
【0027】以下、図1のブロックの詳細な動作例につ
いて説明する。
【0028】図2は、動作シーケンス格納テーブル2に
記述しうる命令セットの例について、処理内容と引数を
示したものである。
【0029】図3は動作シーケンス格納テーブル2の記
述例であり、従来技術に対する課題の説明で示した、第
1のアプリケーションを実現するためのものである。こ
れに従って全体制御手段1は動作する。
【0030】全体制御手段1の詳細な内部構成を図4に
示す。図4にあるように、全体制御手段1の内部構成要
素は、データを格納する要素(101〜108)と、動
作シーケンス格納テーブル2に記述された命令を解釈し
て実行する命令解釈・実行部109、命令解釈・実行部
109におけるシーンの切り替えで用いるシーン切り替
えフラグ110に分かれる。シーン切り替えフラグ11
0の初期値は1に設定されているとする。
【0031】以下、装置の動作を図3の記述に従って説
明する。簡単のために、あらかじめカメラ4の視線方向
と画角は設定してあるものとする。以降、全体制御手段
1が動作を行う制御は、その内部の命令解釈・実行部1
09によって行われる。
【0032】本実施形態例では、動作シーケンス格納テ
ーブル2における動作シーケンスは、シーン毎に別々に
記述するように書かれる。図3において、(a)は全体
的なシーンに対応する動作シーケンス、(b)は注目す
る領域を拡大したシーンに対応する動作シーケンスであ
る。本実施形態例では、各動作シーケンスの先頭行が、
その動作シーケンスを起動するための条件を表現するも
ので、以降の行が具体的な処理内容とする。
【0033】また、カメラの制御値であるパン値、チル
ト値、画角は、初期状態ではp0,t0,z0に設定さ
れているものとする。
【0034】まず全体制御手段1は図3の(a)と
(b)の2つの動作シーケンスの1行目を読み、起動す
る条件を調べる。初期状態ではシーン切り替えフラグ1
10は1に設定されているので、(a)が起動される。
【0035】次に全体制御手段1は(a)の2行目(以
下「(a)の」は省略する)の命令を読んで、カメラ4
に画像を送るように指示し、画像を受け取ると画像バッ
ファA101に格納する。図16の画像がこの画像の例
とする。
【0036】次に全体制御手段1は3行目の命令を読む
と、文字領域抽出手段4に画像バッファA101の画像
を送り、文字領域の位置・大きさ情報を1個の文字領域
について抽出するよう指示する。その際には、文字領域
の特徴量を指定できるものとする。この指定は省略も可
能とする。文字領域の特徴量には、形状、大きさ、色、
縦横比、等があるが、本実施形態例では形状はすべて長
方形とし、特徴量としては長方形の縦横比(縦辺を横辺
で割った値)だけを用いる。図3の(a)の例では、縦
横比として1.0が指定されているので、正方形に近い
四角形だけが抽出の対象となる。
【0037】文字領域抽出手段5は送られた画像から、
指定された特徴量に該当する文字領域を1個抽出するこ
とを試みる。抽出に成功した場合は、成功の結果情報
(数字の1で表す)、抽出した文字領域の位置・大きさ
の情報(外接する最小の正方形の中心座標と一辺の長
さ)、送られた画像情報から抽出した文字領域の画像を
除去した画像、の3種類の情報を全体制御手段1に返
す。抽出に失敗した場合は、失敗の結果情報(数字の0
で表す)を全体制御手段1に返す。この場合は抽出に成
功し、図4の画像から図5のように1個の文字領域が抽
出されたとする。文字領域の抽出については、例えば文
献「船越、美濃、坂井:“情景画像中の文字抽出の検
討”、電子情報学会昭和62年全国大会1503(pp
6−181)」に示されているように、画素の明度を用
いた画素統合によって領域分割を行い、各領域を多角形
近似した後でその中から平行四辺形らしい領域を抽出す
る方法を使えば良い。さらに、図5の結果から外接する
最小の正方形の中心座標と一辺の長さを算出したのが図
6、図16の画像から図5の画像を除去した画像が図7
である。画像の座標系は図6に示すように、画像の中心
を原点とした、水平右向きをX軸、垂直上向きをY軸と
する。この場合に文字領域抽出手段5から全体制御手段
1に返される情報は、成功の結果情報「1」と、外接す
る最小の正方形の中心および一辺の長さと、図7の画像
である。
【0038】これに対し、全体制御手段1は、成功ある
いは失敗の結果情報を処理結果フラグ103に格納し、
抽出に成功した場合はさらに抽出した文字領域の位置・
大きさの情報を文字領域位置・大きさ格納部104に格
納し、抽出した文字領域の画像を除去した画像を元々の
画像バッファA101に上書きする。
【0039】次に全体制御手段1は4行目の命令を読む
と、処理結果フラグ103の値が0であれば8行目に分
岐しようとする。この場合には処理結果フラグ103の
値は0でないので分岐しない。
【0040】次に全体制御手段1は5行目の命令を読む
と、文字領域位置・大きさ格納部104の値からカメラ
制御値を計算し、結果をカメラ制御値格納部105に格
納する。
【0041】上記計算は、例として、画像を取り込んだ
時のパン角度、チルト角度、画角、の3つの値から、文
字領域の中心(X0,Y0)と中心からの縁までの最大
距離(L0)の2つの値を用いて新しいパン角度、チル
ト角度、画角を計算する以下の方法を示す(本実施形態
例では、画像の全体のサイズは、縦方向も横方向も同じ
とする)。
【0042】 新画角=元の画角×L0×2/画像の全体サイズ 新チルト角度値=元の画角×Y0/画像の全体サイズ 新パン角度値=元の画角×X0/画像の全体サイズ 次に全体制御手段1は6行目の命令を読むと、カメラ制
御値格納部105に格納されたカメラ制御値を用いてカ
メラ4を制御する。
【0043】次に全体制御手段1は7行目の命令を読む
と、シーン切り替えフラグ110の値を0に設定する。
【0044】次に全体制御手段1は8行目の命令を読む
と、このシーンの動作シーケンスを終了する。
【0045】次に全体制御手段1は図3の(a)と
(b)の2つの動作シーケンスの1行目を読み、起動す
る条件を調べる。初期状態ではシーン切り替えフラグ1
10は0に設定されているので、(b)が起動される。
【0046】次に全体制御手段1は(b)の2行目(以
下、「(b)の」は省略する)の命令を読むと、カメラ
4に画像を送るように指示し、画像を受け取ると画像バ
ッファB102に格納する。画像の例を図8に示す。こ
の場合にはカメラが文字領域を拡大するように制御され
ているので、拡大された文字領域の画像が得られる。
【0047】次に全体制御手段1は3行目の命令を読む
と、文字領域抽出手段5に画像バッファB102の画像
を送り、文字領域を1個抽出するよう指示する。縦横比
の引数は省略されているので、文字領域抽出手段5は送
られた画像から任意の縦横比の文字領域を1個抽出する
ことを試みる。抽出に成功した場合は、成功の結果情報
(数字の1で表す)、送られた画像情報から抽出した文
字領域の画像、の2種類の情報を全体制御手段1に返
す。抽出に失敗した場合は、失敗の結果情報(数字の0
で表す)を全体制御手段1に返す。この場合は抽出に成
功し、図8の画像から図9のように文字領域が抽出され
たとする。全体制御手段1は抽出の成功あるいは失敗の
情報を処理結果フラグ103に格納し、抽出された文字
領域の画像を画像バッファB102に格納する。
【0048】次に全体制御手段1は4行目の命令を読む
と、画像補正変換手段6に画像バッファB102の画像
を送る。画像補正変換手段6は画像の3次元的な傾斜に
よる歪みを補正し、回転を補正し、各画素を文字パター
ンに含まれるか否かを推定して含まれるグループと含ま
れないグループの2種類に分けた2値画像を作成する。
画像の3次元的な傾斜による歪みの補正は、まず文字領
域の外縁の四角形の歪みを利用した平面の傾斜角度の推
定を行う。四角形の歪みを利用した平面の傾斜角度の推
定方法については、例えば文献「鈴本、小林、中村、小
倉:“撮像射影歪みを利用した文字平面の単眼視姿勢推
定”、1997年電子情報通信学会全国大会予稿集D−
12−58」で提案されている方法がある。次にこの推
定角度を用いて画像の3次元的な傾斜による歪みを補正
する。回転の補正は、文字領域の外縁の四角形の縦の辺
が垂直軸と平行に、横の辺が水平軸と平行になるように
回転させる。また2値画像の作成は、例えば画素の濃度
に一定の閾値を設定し、その閾値より高ければ文字に含
まれるとして1、低ければ0とすることで行える。この
結果を図10に示す。そしてこうして作成した2値画像
を全体制御手段1に返す。全体制御手段1は画像バッフ
ァB102に格納する。
【0049】次に全体制御手段1は5行目の命令を読む
と、文字切り出し手段6に画像バッファB102の文字
領域の画像と記入方向の種別(縦書き)を送り、個別の
文字パターンの切り出しを行うように指示する。
【0050】文字切り出し手段5はまず送られた文字領
域の画像から指定された記入方向の情報に従って黒画素
の射影を取り、周辺分布を作成する。本例では縦書きが
指定されているので、垂直軸に平行に射影を取る。図1
0の射影を取った結果を図11に示す。そして図11の
下に示すように、周辺分布のグラフから、黒画素が多く
分布する範囲を行として抽出する。これは物理的には図
12の灰色で示した2つの領域を行として抽出したこと
になる。そして各行の領域について、次に水平軸に平行
に射影を取り、黒画素が多く分布する範囲を抽出し、こ
れにより個別の文字パターンを切り出す。結果を図13
に示す。そして結果を全体制御手段1に返す。全体制御
手段1は、返された文字パターンを文字パターン格納部
106に格納する。
【0051】次に全体制御手段1は6行目の命令を読む
と、文字パターン格納部106に格納した文字パターン
と文字種情報(漢字)を送り、文字認識手段7に個別の
文字パターンの認識を指定した文字種の認識辞書で行う
よう指示する。文字認識手段7は、認識結果を候補文字
の集合で表し、それを全体制御手段1に返す。この例で
は、1行目は{束東米}、{京景}、{都群}、2行目
は{島長}、{野}、{星粟県}が返されるとする。全
体制御手段1は、返された認識結果を認識結果格納部1
07に格納する。
【0052】次に全体制御手段1は7行目の命令を読む
と、データベース照合手段8に認識結果格納部107に
格納した文字認識結果とデータベースファイル名(この
例ではDIC1.dat)を送り、認識結果と指定した
ファイル名に該当するデータベースと照合することを指
示する。住所の単語データベースとして、ここでは例と
して、{栃木県、茨城県、東京都、神奈川県、長野県、
愛知県、長崎県、福島県、鳥取県、山口県、島根県}の
12県名から構成され、ファイル名をDIC1.dat
とする。この場合は記入方向(縦書き)と文字種(漢
字)が正しく指示されていたので認識結果には全て正解
文字が含まれており、住所の単語データベースとの照合
により正しく「東京都」と「長野県」が処理結果として
得られる。データベース照合手段8はこの結果の文字列
を、処理が成功した情報「1」と共に全体制御手段1に
返す。成功しなかった場合には「0」を返す。全体制御
手段1は、返された処理の成功/失敗情報を処理結果フ
ラグ103に、データベース照合結果の文字列をデータ
ベース照合結果格納部108に格納する。
【0053】次に全体制御手段1は8行目の命令を読む
と、はデータベース照合結果を出力する。出力の形態と
しては、ここでは例としてファイルに出力するものと
し、「東京都」と「長野県」がファイル出力される。
【0054】次に全体制御手段1は9行目の命令を読む
と、カメラの制御値であるパン値、チルト値、画角を、
初期状態のp0,t0,z0に設定する。
【0055】次に全体制御手段1は10行目の命令を読
むと、シーン切り替えフラグ110の値を1に設定す
る。
【0056】次に全体制御手段1は11行目の命令を読
むと、文字領域を拡大したシーンの動作シーケンスを終
了する。
【0057】この後は、もう一つのカードについても同
様に読み取られ、ファイル出力される。
【0058】次に、従来技術に対する課題で説明した第
2のアプリケーションに対応するための動作シーケンス
格納テーブルの内容の例を図2、図14に示す。この例
では、2枚のカードを読むためのカメラ制御値であるパ
ン値、チルト値、画角の3つの値を2組用意し(p1,
t1,z1の組、およびp2,t2,z2の組)、カメ
ラを2回駆動して2枚のカードを別々に読む。1枚目の
カードを読む動作が1行目から8行目で表され、2枚目
のカードを読む動作が9行目から16行目で表される。
1行目と2行目はカメラ制御の命令、2行目と10行目
は画像をカメラから入力して画像バッファA101に入
れる命令、3行目と11行目は画像バッファA101か
ら文字領域を抽出して画像バッファA101に入れる命
令、4行目と12行目は画像の補正変換を行って2値画
像を作る命令である。また5行目と13行目は文字切り
出しを行う命令であるが、対象が横書きなので、記入方
向を「2」(横書き指定)としている。また6行目と1
4行目は文字認識を行う命令であるが、対象が英字なの
で、認識対象字種を、「2」(英字指定)としている。
また7行目と15行目はデータベース照合を行う命令で
あるが、対象がローマ字の県名であり、例えば{TOC
HIGI,IBARAKI,TOKYO,KANAGA
WA,NAGANO,AICHI,NAGASAKI,
FUKUSHIMA,TOTORI,YAMAGUCH
I,SHIMANE}を用いることとし(ファイル名を
DIC2.datとする)、この場合は読み取りが正し
く行われ、カード1からはTOKYOとNAGANO、
カード2からはSHIMANEとAICHIが読み取ら
れたとする。また8行目と16行目は出力であり、この
場合はTOKYOとNGANO,SHIMANEとAI
CHIがファイル出力される。そして17行目で終了す
る。
【0059】なお、本発明は、データベースや動作シー
ケンス格納テーブル等のデータを保存し、それらを自由
に読み出し可能なハードディスクやそれに準ずる装置
と、カメラ制御値算出、文字領域抽出、画像補正変換、
文字切り出し、文字認識、データベース照合等の処理を
行う際にデータの保持等に必要なバッファやそれに準ず
る装置と、データベース照合の結果等を表示、出力する
ディスプレイなどの出力装置と、あらかじめ動作シーケ
ンスの設定、格納等を行うためのキーボードやマウス等
の入力装置を備え、それらハードディスク、バッファ、
出力装置及び入力装置などをあらかじめ動作シーケンス
格納テーブルに格納された動作シーケンスに基いて制御
するコンピュータやそれに準ずる装置により、図1を用
いて説明した、カメラ制御値算出、文字領域抽出、画像
補正変換、文字切り出し、文字認識、データベース照合
等の各部機能を実現する処理の手順ないしアルゴリズム
を適宜、実行することが可能であり、その手順ないしア
ルゴリズムをコンピュータ等に実行させるためのプログ
ラムを該コンピュータが読み取り可能な媒体、例えばフ
ロッピーディスクやメモリカード、MO、CD−ROM
などに記録して配布することが可能である。
【0060】
【発明の効果】以上、詳細に説明した如く、本発明によ
れば、景観画像中文字読み取りを行う方法および装置に
おいて、カメラを能動的に制御する方式の導入により、
小さすぎて読めない文字領域の文字もカメラの視線方向
と画角を調整することで拡大して読むようにし、かつ装
置の動作シーケンスを簡単な命令の組み合わせによって
記述可能とすることにより、多くの目的に利用でき、か
つ文字読み取り能力が高い景観画像中文字読み取りの手
段が実現できるという顕著な効果を奏する。
【図面の簡単な説明】
【図1】本発明の一実施形態例の処理内容と装置構成を
説明するためのブロック図である。
【図2】本発明の一実施形態例における動作シーケンス
格納テーブルにおいて使用できる命令の一覧を示す図で
ある。
【図3】従来技術が適用できない第1の適用対象を本発
明の実施形態例で実現するための動作シーケンス格納テ
ーブルの内容の例を示す図であり、(a)は全体を撮影
したシーンの動作シーケンスの記述を示した図、(b)
は特定の文字領域を拡大したシーンの動作シーケンスの
記述を示した図である。
【図4】本発明の一実施形態例における全体制御手段の
詳細構造を示す図である。
【図5】図16に示す画像から文字領域を抽出した結果
を表す図である。
【図6】図16に示す画像から文字領域の位置と大きさ
を抽出した結果を表す図である。
【図7】図16に示す画像から図5で示した文字領域の
画像を除去した結果を表す図である。
【図8】図5で示した文字領域をカメラを制御して拡大
した画像を示す図である。
【図9】図8で示した画像から文字領域を抽出した結果
を示す図である。
【図10】図9で示した文字領域の画像に対して3次元
的な傾斜による歪みを補正し、回転を補正し、2値化し
た画像を示す図である。
【図11】図10で示した文字領域の2値画像に対して
縦方向の射影を取る過程を示す図である。
【図12】図10で示した文字領域の2値画像から行を
切り出した結果を示す図である。
【図13】図10で示した文字領域の2値画像から個別
の文字パターンを切り出した結果を示す図である。
【図14】従来技術が適用できない第2の適用対象を本
発明の実施形態例で実現するための動作シーケンス格納
テーブルの内容の例を示す図である。
【図15】従来技術の処理内容と装置構成を説明するブ
ロック図である。
【図16】従来技術が適用できない第1の適用対象を説
明するための画像例を示す図である。
【図17】従来技術が適用できない第2の適用対象を説
明するための画像例を示す図である。
【符号の説明】
1…全体制御手段 2…動作シーケンス格納テーブル 3…カメラ制御値算出手段 4…カメラ 5…文字領域抽出手段 6…画像補正変換手段 7…文字切り出し手段 8…文字認識手段 9…データベース照合手段 101…画像バッファA 102…画像バッファB 103…処理結果フラグ 104…文字領域位置・大きさ格納部 105…カメラ制御値格納部 106…文字パターン格納部 107…認識結果格納部 108…データベース照合結果格納部 109…命令解釈・実行部 110…シーン切り替えフラグ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 小倉 健司 東京都新宿区西新宿3丁目19番2号 日本 電信電話株式会社内

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 視線方向と画角を外部からの信号により
    制御可能なカメラを用いて景観画像中の文字を読み取る
    景観画像中文字読み取り方法において、 景観画像から文字の含まれる文字領域を抽出する手順
    と、 前記抽出された文字領域の情報から、該文字領域を拡大
    するためのカメラの制御値を算出する処理手順と、 前記算出されたカメラの制御値によりカメラを制御し、
    拡大された文字領域を得る処理手順と、 前記拡大された文字領域から文字領域を抽出する処理手
    順と、 前記抽出された文字領域の画像の3次元的な傾斜による
    歪みを補正し、回転を補正し、各画素を文字パターンに
    含まれるか否かを推定して含まれるグループと含まれな
    いグループの2種類に分けた2値画像を作成する処理手
    順と、 前記文字領域の2値画像から個別の文字パターンを切り
    出す手順と、 前記切り出した文字パターンを認識して文字列の候補文
    字を出力する処理手順と、 前記文字列の候補文字の集合を検索キーとしてデータベ
    ースと照合する処理手順と、 前記データベース照合の結果を出力する処理手順と、を
    有し、 予め動作させる前記処理手順とその順序を示す動作シー
    ケンスをテーブルに設定し格納する手順と、 前記テーブルに格納された動作シーケンスに従って前記
    処理手順を実行する手順を有する、 ことを特徴とする景観画像中文字読み取り方法。
  2. 【請求項2】 請求項1記載の景観画像中文字読み取り
    方法において、 前記動作シーケンスをテーブルに設定し格納する手順で
    は、前記動作シーケンスを格納するテーブルに抽出対象
    である文字領域の特徴を記録することを許容し、 前記文字領域を抽出する処理手順では、前記特徴を有す
    る文字領域を抽出する、 ことを特徴とする景観画像中文字読み取り方法。
  3. 【請求項3】 請求項1または請求項2記載の景観画像
    中文字読み取り方法において、 前記動作シーケンスをテーブルに設定し格納する手順で
    は、処理手順において出現する各シーン毎に独立したテ
    ーブルに動作シーケンスを記述することを許容し、前記
    各シーンの動作シーケンス毎に、起動するための条件を
    設け、 前記動作シーケンスに従って前記手順を実行する手順で
    は、該起動するための条件を満足するシーンの動作シー
    ケンスを探して起動する、 ことを特徴とする景観画像中文字読み取り方法。
  4. 【請求項4】 視線方向と画角を外部からの信号により
    制御可能なカメラを用いた景観画像中の文字を読み取る
    景観画像中文字読み取り装置において、 景観画像もしくはカメラ制御値で制御されたカメラの文
    字領域の画像から文字の含まれる文字領域を抽出する文
    字領域抽出手段と、 前記文字領域抽出手段で景観画像から抽出された文字領
    域の情報から、該文字領域を拡大するための前記カメラ
    制御値を算出するカメラ制御値算出手段と、 前記文字領域の画像の3次元的な傾斜による歪みを補正
    し、回転を補正し、各画素を文字パターンに含まれるか
    否かを推定して含まれるグループと含まれないグループ
    の2種類に分けた2値画像を作成する画像補正変換手段
    と、 前記文字領域の2値画像から個別の文字パターンを切り
    出す文字切り出し手段と、 前記切り出した文字パターンを認識して候補文字の文字
    列を出力する文字認識手段と、 前記文字列の候補文字の集合を検索キーとしてデータベ
    ースを照合するデータベース検索手段と、 動作シーケンスに従って前記各手段を制御し、かつデー
    タベースの照合の結果を出力手段を介して出力する全体
    制御手段と、 前記全体制御手段の動作シーケンスを格納する動作シー
    ケンス格納テーブルと、 を備えることを特徴とする景観画像中文字読み取り装
    置。
  5. 【請求項5】 請求項4記載の景観画像中文字読み取り
    装置において、 前記動作シーケンス格納テーブルは、抽出対象である文
    字領域の特徴を記録することを許容するものであり、 前記文字領域抽出手段は、前記特徴を文字領域抽出の処
    理に利用するものである、 ことを特徴とする景観画像中文字読み取り装置。
  6. 【請求項6】 請求項4または請求項5記載の景観画像
    中文字読み取り装置において、 前記動作シーケンス格納テーブルは、処理において出現
    する各シーン毎に独立した動作シーケンス格納テーブル
    に記述することを許容し、起動するための条件を設ける
    ものであり、 前記全体制御手段は、前記各シーンの動作シーケンス毎
    に、前記起動するための条件を満足するシーンの動作シ
    ーケンスを探して起動するものである、 ことを特徴とする景観画像中文字読み取り装置。
  7. 【請求項7】 請求項1,2,3のいずれかに記載の景
    観画像中文字読み取り方法の手順および処理手順を、コ
    ンピュータで実行するプログラムとして前記コンピュー
    タが読み取り可能な記録媒体に記録した、 ことを特徴とする景観画像中文字読み取り方法を記録し
    た記録媒体。
JP10008159A 1998-01-20 1998-01-20 景観画像中文字読み取り方法およびその装置およびその方法を記録した記録媒体 Pending JPH11203404A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10008159A JPH11203404A (ja) 1998-01-20 1998-01-20 景観画像中文字読み取り方法およびその装置およびその方法を記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10008159A JPH11203404A (ja) 1998-01-20 1998-01-20 景観画像中文字読み取り方法およびその装置およびその方法を記録した記録媒体

Publications (1)

Publication Number Publication Date
JPH11203404A true JPH11203404A (ja) 1999-07-30

Family

ID=11685560

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10008159A Pending JPH11203404A (ja) 1998-01-20 1998-01-20 景観画像中文字読み取り方法およびその装置およびその方法を記録した記録媒体

Country Status (1)

Country Link
JP (1) JPH11203404A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005326971A (ja) * 2004-05-12 2005-11-24 Matsushita Electric Ind Co Ltd 文字認識装置およびその文字認識方法
JP2010152800A (ja) * 2008-12-26 2010-07-08 Kddi Corp 画像処理装置、画像処理方法およびプログラム
US9679217B2 (en) 2014-08-26 2017-06-13 Kabushiki Kaisha Toshiba Information processing apparatus, information processing system, information processing method and storage medium
US9819860B2 (en) 2015-03-09 2017-11-14 Kabushiki Kaisha Toshiba Data processor, data processing method and storage medium
US10121086B2 (en) 2015-07-14 2018-11-06 Kabushiki Kaisha Toshiba Information processing apparatus and information processing method

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005326971A (ja) * 2004-05-12 2005-11-24 Matsushita Electric Ind Co Ltd 文字認識装置およびその文字認識方法
JP4706187B2 (ja) * 2004-05-12 2011-06-22 パナソニック株式会社 文字認識装置およびその文字認識方法
JP2010152800A (ja) * 2008-12-26 2010-07-08 Kddi Corp 画像処理装置、画像処理方法およびプログラム
US9679217B2 (en) 2014-08-26 2017-06-13 Kabushiki Kaisha Toshiba Information processing apparatus, information processing system, information processing method and storage medium
US9819860B2 (en) 2015-03-09 2017-11-14 Kabushiki Kaisha Toshiba Data processor, data processing method and storage medium
US10121086B2 (en) 2015-07-14 2018-11-06 Kabushiki Kaisha Toshiba Information processing apparatus and information processing method

Similar Documents

Publication Publication Date Title
US8265350B2 (en) Method and apparatus for detecting and processing specific pattern from image
JP2812982B2 (ja) 表認識方法
CN103577818A (zh) 一种图像文字识别的方法和装置
CN111950424A (zh) 一种视频数据处理方法、装置、计算机及可读存储介质
KR20100098641A (ko) 불변적인 시각적 장면 및 객체 인식
EP3791356B1 (en) Perspective distortion correction on faces
WO2022134831A1 (zh) 证件图片生成方法、装置、设备及存储介质
CN114648756B (zh) 一种基于指向向量的书本文字识别指读方法和系统
WO2023165616A1 (zh) 图像模型隐蔽后门的检测方法及系统、存储介质、终端
JPH11203404A (ja) 景観画像中文字読み取り方法およびその装置およびその方法を記録した記録媒体
CN113228105A (zh) 一种图像处理方法、装置和电子设备
CN111160265B (zh) 文件转换方法、装置、存储介质及电子设备
JP2000181988A (ja) 光学文字読取装置
Prabaharan et al. Text extraction from natural scene images and conversion to audio in smart phone applications
JPS6015779A (ja) 指紋照合装置
JP4380376B2 (ja) 画像処理装置、画像処理方法、及び画像処理プログラム
JPS63113779A (ja) ピ−ク抽出方法
JP3305367B2 (ja) データベースへのデータ入力装置
WO2022024835A1 (ja) 画像処理システム、画像処理方法、画像処理プログラム、画像処理サーバ、及び学習モデル
Emori et al. Texture Overlay onto Deformable Surface Using Geometric Transformation.
JP2002032713A (ja) 文字認識処理方法
JPH11187231A (ja) 画像検索装置及び画像検索方法
JPH11306282A (ja) 文字列領域抽出方法及び装置
KR20220043798A (ko) 증강 현실 마커를 포함하는 서적의 진위 여부 판단 방법 및 이를 실행하는 시스템
JP2020095430A (ja) 情報処理装置、その制御方法とプログラム