JPH1185902A - 文字読取方式および物品処理装置 - Google Patents

文字読取方式および物品処理装置

Info

Publication number
JPH1185902A
JPH1185902A JP9248596A JP24859697A JPH1185902A JP H1185902 A JPH1185902 A JP H1185902A JP 9248596 A JP9248596 A JP 9248596A JP 24859697 A JP24859697 A JP 24859697A JP H1185902 A JPH1185902 A JP H1185902A
Authority
JP
Japan
Prior art keywords
character
image
extracting
extracted
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9248596A
Other languages
English (en)
Inventor
Nobuyoshi Enomoto
暢芳 榎本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP9248596A priority Critical patent/JPH1185902A/ja
Publication of JPH1185902A publication Critical patent/JPH1185902A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】移動を伴う画像から所望の文字領域を確実に抽
出し、文字を高速かつ正確に読取ることのできる文字読
取方式を提供する。 【解決手段】画像入力部1は読取対象物の画像を入力
し、画像蓄積部2に一時記憶する。文字領域候補学習部
4は、あらかじめ読取対象物の画像が入力された状態で
の対象とする文字領域の状態を学習する。文字領域候補
抽出部3は、画像蓄積部2内の入力画像から、文字領域
候補学習部4の学習結果にしたがって文字領域候補を抽
出し、文字存在判定部5は、この抽出された文字領域候
補内に文字が存在することを判定し、文字切出部6は、
文字が存在すると判定された文字領域候補内の各文字を
切出し、文字認識部7は、この切出された文字とあらか
じめ登録された標準文字パターンとを照合することによ
り、入力された画像中に含まれる文字の文字コードを取
得する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、たとえば、静止中
あるいは移動中の読取対象物(たとえば、看板等の屋外
掲示物や車両のナンバプレートなど)を撮像して得られ
る画像から、所望の文字領域を抽出し、この抽出した文
字領域内の各文字を認識して文字コードを取得する文字
読取方式、および、この文字読取方式を用いて物品の区
分処理を行なう物品処理装置に関する。
【0002】
【従来の技術】たとえば、葉書、書類などの定型フォー
ム上に記載された文字を含む画像情報を、スキャナなど
の紙面密着形の光学的画像入力手段によって光学的環境
を制御しながら入力し、その画像から固定または可変の
閾値にる2値化によって文字領域候補のみを抽出し、該
領域の連結性解析や文字サイズや配置に関する知識を用
いて各文字を切出し、それらにあらかじめ登録されてい
る標準文字パターン(辞書)との照合演算を施して、文
字を読取る第1の文字読取方式がある。
【0003】また、スタイラスペンなどの筆圧(また
は、接触)感知入力デバイスにより、ユーザがコンピュ
ータモニタやタブレット上に文字を書くのにしたがっ
て、その筆跡ストローク情報を用いて文字部分を抽出
し、あらかじめ登録されている標準文字パターンと照合
することによって入力された文字を読取る第2の文字読
取方式がある。
【0004】さらに、紙面のように光学的条件が制御可
能なものではなく、一般の画像シーン中にある文字、た
とえば、車両のナンバプレート上の文字などを読取るた
めに、テレビジョンカメラの入力画像から固定または可
変の閾値による2値化によって文字領域候補のみを抽出
し、該領域の連結性解析や文字サイズ、文字配置に関す
る知識によって各文字を切出し、さらに、対象ごとに決
まった拘束条件(たとえば、文字はナンバプレート上に
あり、ナンバプレートのサイズや輝度が既知など)を用
いて文字領域候補の妥当性を検証して、各文字領域を抽
出し、それらにあらかじめ登録されている標準文字パタ
ーン(辞書)との照合演算を施して、文字を読み取る第
3の文字読取方式がある。
【0005】
【発明が解決しようとする課題】上記第1の文字読取方
式によれば、入力画像は紙面に書かれており、紙面と文
字との濃淡値が明らかに異なり、単純な2値化処理によ
って文字領域候補が抽出でき、さらに、密着形の入力デ
バイスを用いているために、入力における光学的な変動
をあまり考慮しなくてもよい。したがって、入力条件が
厳しく、対象文字と背景とのコントラストが低かった
り、照明条件が変動するような場合には、文字候補の抽
出が極めて困難である。
【0006】また、読取対象物と入力デバイスとが密着
していない場合には、文字サイズや配置が、あらかじめ
蓄えられている、これらに関する知識とは異なってしま
う場合があり、文字領域候補の抽出が困難になる。
【0007】このような入力の場合としては、CCD形
カメラからの入力画像を対象とするものなどが考えられ
る。また、上記方第2の文字読取方式では、そもそも入
力はスタイラスペンのようなオンラインデバイスによっ
て得られ、文字切出しも、それによって得られるストロ
ークなどの条件を用いているため、上記第1の文字読取
方式と同様に、カメラによって対象から離れて入力し、
光学的条件変動がありうる場合には文字領域の抽出が不
可能である。
【0008】さらに、第3の文字読取方式では、カメラ
などのように、読取対象物と接触していないデバイスに
よって入力された画像を対象とし、かつ、光学的条件が
不安定なものや、比較的複雑な背景画像中の文字をも抽
出可能なものが存在するが、読取対象物に関する知識を
陽に用いているため、異なる対象画像を扱う場合などに
はその対応が困難である。
【0009】そこで、本発明は、移動を伴う画像から所
望の文字領域を確実に抽出し、文字を高速かつ正確に読
取ることのできる文字読取方式を提供することを目的と
する。
【0010】また、本発明は、搬送される物品に添付さ
れた記録媒体の文字(区分情報)を高速かつ正確に読取
り、物品を区分処理できる物品処理装置を提供すること
を目的とする。
【0011】
【課題を解決するための手段】本発明の文字読取方式
は、読取対象物の文字を含む画像を入力し、この入力さ
れた画像から文字領域候補を抽出し、この抽出された文
字領域候補の各文字を切出し、この切出された各文字と
あらかじめ登録された標準文字パターンとを照合するこ
とにより、前記入力された画像中に含まれる文字の文字
コードを取得することを特徴とする。
【0012】また、本発明の文字読取方式は、読取対象
物の文字を含む画像を入力する画像入力手段と、この画
像入力手段で入力された画像から文字領域候補を抽出す
る文字領域候補抽出手段と、この文字領域候補抽出手段
で抽出された文字領域候補の各文字を切出す文字切出手
段と、この文字切出手段で切出された文字とあらかじめ
登録された標準文字パターンとを照合することにより、
前記画像入力手段で入力された画像中に含まれる文字の
文字コードを取得する文字認識手段とを具備している。
【0013】また、本発明の文字読取方式は、読取対象
物の文字を含む画像を入力する画像入力手段と、この画
像入力手段であらかじめ読取対象物の画像が入力された
状態での対象とする文字領域の状態を学習させる文字領
域候補学習手段と、前記画像入力手段で入力された画像
から、前記文字領域候補学習手段の学習結果にしたがっ
て文字領域候補を抽出する文字領域候補抽出手段と、こ
の文字領域候補抽出手段で抽出された文字領域候補の各
文字を切出す文字切出手段と、この文字切出手段で切出
された文字とあらかじめ登録された標準文字パターンと
を照合することにより、前記画像入力手段で入力された
画像中に含まれる文字の文字コードを取得する文字認識
手段とを具備している。
【0014】また、本発明の文字読取方式は、文字領域
候補学習手段は、学習の入力として、画像入力手段で入
力された画像の全体またはその画像内に局在する統計的
特徴量あるいは幾何学的特徴量を用い、学習結果とし
て、対象とする文字領域候補の位置、形状および光学的
属性のうち少なくともいずれか1つを出力することを特
徴とする。
【0015】また、本発明の文字読取方式は、文字切出
手段は、文字領域候補抽出手段で抽出された文字領域候
補について、あらかじめ設定された標準文字領域候補の
形状に対してどのような変形があったかを幾何学変換で
近似し、文字領域候補抽出手段で抽出された文字領域候
補を幾何学的逆変換することにより、設定された標準文
字領域候補と類似の形状にした後、各文字の切出しを行
なうことを特徴とする。
【0016】また、本発明の文字読取方式は、読取対象
物の文字を含む画像を入力する画像入力手段と、この画
像入力手段で入力された画像から文字領域候補を抽出す
る文字領域候補抽出手段と、この文字領域候補抽出手段
で抽出された文字領域候補内に文字が存在しているか否
かを判定する文字存在判定手段と、この文字存在判定手
段で文字が存在すると判定された文字領域候補に対して
各文字を切出す文字切出手段と、この文字切出手段で切
出された文字とあらかじめ登録された標準文字パターン
とを照合することにより、前記画像入力手段で入力され
た画像中に含まれる文字の文字コードを取得する文字認
識手段とを具備している。
【0017】また、本発明の文字読取方式は、文字切出
手段は、文字存在判定手段で文字が存在すると判定され
た文字領域候補について、あらかじめ設定された標準文
字領域候補の形状に対してどのような変形があったかを
幾何学変換で近似し、文字領域候補抽出手段で抽出され
た文字領域候補を幾何学的逆変換することにより、設定
された標準文字領域候補と類似の形状にした後、各文字
の切出しを行なうことを特徴とする。
【0018】また、本発明の文字読取方式は、文字認識
手段は、文字切出手段で切出された各文字領域もそれを
包含する文字領域候補と同様な幾何学変換を受けている
とものと仮定して、各文字領域ごとに幾何学的逆変換を
適用し、その結果に対して標準文字パターンとの照合を
行なうことを特徴とする。
【0019】また、本発明の文字読取方式は、文字認識
手段は、標準文字パターンとして、1つの文字について
様々なパラメータで幾何学変換をかけて複数の標準文字
パターンを作成しておき、入力における幾何学変換パラ
メータベクトルと標準文字パターンの幾何学変換パラメ
ータベクトルとの距離が最小となる標準文字パターンと
入力との照合演算を行なって、文字コードを取得するこ
とを特徴とする。
【0020】また、本発明の文字読取方式は、文字認識
手段は、文字コードを取得する際に、ベクトルの距離に
閾値を設定しておき、作成してある複数のどの標準文字
パターンとの距離も閾値より大であった場合に、入力か
ら作成された各文字領域を幾何学的逆変換して求められ
た各文字領域と複数の標準文字パターンを作成する元に
なった標準文字パターンとの照合演算を行なって、文字
コードを取得することを特徴とする。
【0021】また、本発明の文字読取方式は、画像入力
手段は複数存在していて、これら各画像入力手段は空間
上のほぼ同一面に配置されており、文字領域候補抽出手
段は、複数の画像入力手段から得られる各画像に対して
それぞれ文字領域候補の抽出を行ない、文字切出手段
は、文字領域候補抽出手段で抽出された各文字領域候補
のうち、あらかじめ指定された文字領域候補に対応する
文字領域候補の画像のみを用いて各文字の切出しを行な
うことを特徴とする。
【0022】また、本発明の文字読取方式は、テレビジ
ョン放送画像を入力する画像入力手段と、あらかじめテ
レビジョンユーザ所望の文字の発生しやすいシーンにつ
いての文字領域の状態を学習させる文字領域候補学習手
段と、前記画像入力手段で入力された画像から、前記文
字領域候補学習手段の学習結果にしたがって文字領域候
補を抽出する文字領域候補抽出手段と、この文字領域候
補抽出手段で抽出された文字領域候補の各文字を切出す
文字切出手段と、この文字切出手段で切出された文字と
あらかじめ登録された標準文字パターンとを照合するこ
とにより、前記画像入力手段で入力された画像中に含ま
れる文字の文字コードを取得する文字認識手段と、この
文字認識手段から得られる文字コードを識別情報と対応
させて記憶する記憶手段とを具備している。
【0023】また、本発明の物品処理装置は、区分情報
を示す文字が記録された記録媒体が添付されている物品
を区分部へ搬送する搬送手段と、この搬送手段で搬送さ
れる物品に添付された前記記録媒体の画像を入力する画
像入力手段と、この画像入力手段で入力された画像から
文字領域候補を抽出する文字領域候補抽出手段と、この
文字領域候補抽出手段で抽出された文字領域候補の各文
字を切出す文字切出手段と、この文字切出手段で切出さ
れた文字とあらかじめ登録された標準文字パターンとを
照合することにより、前記画像入力手段で入力された前
記記録媒体の画像中に含まれる文字を認識する文字認識
手段と、この文字認識手段の認識結果を所定のコード情
報に変換するコード変換手段と、このコード変換手段か
ら得られるコード情報を前記物品に付与するコード情報
付与手段と、前記区分部において、前記搬送手段で搬送
されてくる物品からそれに付与された前記コード情報を
読取るコード情報読取手段と、このコード情報読取手段
で読取ったコード情報に応じて前記搬送手段で搬送され
てくる物品を区分する区分手段とを具備している。
【0024】本発明によれば、あらかじめ入力される画
像に対して対象文字領域を学習しておき、文字認識時で
は、その学習結果に基づいて文字領域を抽出するが、抽
出された文字領域の本来の形状である標準文字領域に対
する幾何変換を求め、そのパラメータに応じて個々の文
字切出しや文字認識を行なうことにより、移動を伴う画
像から所望の文字領域を確実に抽出し、文字を高速かつ
正確に読取ることができる。
【0025】
【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照して説明する。まず、第1の実施の形態に
ついて説明する。第1の実施の形態では、入力としてビ
デオカメラからの静止画像または動画像を用い、既知パ
ターンの画像中の指定文字を抽出し、文字認識によって
文字コードを取得し、この取得した文字コードを、あら
かじめ登録されている情報データベースのキー情報とし
て用いて、対象物の属性情報を検索する装置に適用した
場合について説明する。
【0026】図1は、第1の実施の形態に係る文字読取
方式が適用される装置の構成を示している。この装置
は、モノクロまたはカラーの単一(または複数)のビデ
オカメラと、その出力をA/D変換するA/D変換器と
からなる画像入力部1、その入力画像を一時記憶する半
導体メモリや磁気ディスク装置などからなる画像蓄積部
2、画像蓄積部2に格納された画像について、指定され
た文字領域(いわゆる文字列、文字行)を抽出する文字
領域候補抽出部3、あらかじめ対象画像が入力された状
態での対象文字領域の状態を学習させておく文字領域候
補学習部4、抽出された文字領域の内部に対して文字存
在の有無を判定する文字存在判定部5、文字の存在して
いる文字領域候補内部の各文字を切出す文字切出部6、
切出された各文字画像の特徴をあらかじめ登録されてい
る標準文字パターン(辞書)の特徴と照合することで文
字コードを取得する文字認識部7、あらかじめ所望の文
字領域(標準文字領域)が格納(設定)されている標準
文字領域設定部8、対象物に関する所望の情報が格納さ
れている情報データベース9、および、ディスプレイモ
ニタ10によって構成されている。
【0027】すなわち、第1の実施の形態の装置は、画
像入力部1によって入力された読取対象物の画像は、画
像蓄積部2に一時記憶される。文字領域候補抽出部3
は、画像蓄積部2に格納された画像について、指定され
た文字領域(いわゆる文字列、文字行)の候補を抽出す
る。そのためには、あらかじめ文字領域候補学習部4に
よって対象画像が入力された状態での対象文字領域の状
態を学習させておき、その学習結果にしたがって文字領
域候補を抽出する。
【0028】次に、文字存在判定部5は、文字領域候補
抽出部3で抽出された文字領域候補の内部に文字が存在
するか否かを判定する。この判定の結果、文字が存在し
ている場合、文字切出部6は、その文字の存在している
文字領域候補の内部の各文字を切出す。
【0029】次に、文字認識部7は、文字切出部6で切
出された各文字画像の特徴をあらかじめ登録されている
標準文字パターン(辞書)の特徴と照合することで文字
コードを取得する。ただし、このとき、文字切出部6お
よび文字認識部7では、標準文字領域設定部8にあらか
じめ格納されている所望の文字領域についての情報と、
文字存在判定部5によって求められた文字領域候補との
幾何学的変化に対処して、対象ごとに切出し、文字認識
の方法を対応させる。
【0030】文字認識部7から得られる文字コードは、
情報データベース9に送られ、その文字コードをキー情
報として情報データベース9を検索することにより、読
取対象物に関する所望の情報をディスプレイモニタ10
に表示させる。
【0031】ここで、たとえば、読取対象物が電柱や看
板などの掲示物上の住所表示だった場合、情報データベ
ース9としては地図データベースということになり、デ
ィスプレイモニタ10に地図と地図上の現在位置とを重
畳表示することで、不案内な土地へ移動する際のナビゲ
ーション装置が実現可能である。
【0032】また、たとえば、読取対象物を有料道路の
ゲート通過する車両のナンバプレートとし、入路、出路
それぞれのゲートに本装置を設置し、入路ゲートにおい
て情報データベース9に入路ゲート通過の車両ナンバを
登録し、出路での読取りナンバと登録済みナンバとを照
合することで、自動課金、不正通行発見、旅行時間計測
などを行なうことも可能である。
【0033】さらに、読取対象物を一般道路の特定位置
を通過する車両のナンバプレートとし、情報データベー
ス9に違反車両の車両ナンバが登録済みである場合、読
取りナンバと登録済みナンバとを照合することで、違反
車両の通過を検知することも可能である。
【0034】以下、各部の処理について詳細に説明す
る。まず、画像入力部1および蓄積蓄積部2について説
明する。読取対象物の画像の入力は、前記の通り、画像
入力部1から行なう。映像信号としては、ここではNT
SC、PALなどのアナログ映像信号を用い、これをA
/D変換して入力することにするが、複数レベルにデジ
タル化され映像同期信号とともに授受されるデジタル映
像信号であってもよい。
【0035】また、画像データはファイルとして入力さ
れてもよく、この場合は、RGB各成分ごとの輝度値が
デジタル化された画像フレームが、複数時間(フレー
ム)分蓄積された形式のものを想定しているが、データ
量を考慮し、フレーム内およびフレーム間での圧縮を行
なった画像(例:Jpeg,Mpeg)などであって
も、その圧縮に対応した伸長手段を前段に設けることに
よって、これらを利用することも可能である。
【0036】画像の蓄積は、画像蓄積部2に対して行な
うが、各画素を一定のビット長にデジタル化した後、画
像データ部分の先頭に画像をユニークに識別するための
画像名とフレーム長、画像サイズ、画素のビット長、カ
ラー/モノクロの別、圧縮形式などのコードを示す固定
長のヘッダを付加し、その後は各フレームごとの画素デ
ータ列を並べた形式で行なう。
【0037】次に、文字領域候補抽出部3について説明
する。文字領域候補抽出部3では、以下の(a)のよう
に、文字領域候補学習部4であらかじめ対象物の画像が
入力された状態での対象とする文字領域の状態を学習さ
せる。さらに、以下の(b)の文字領域抽出では、
(a)で得られた学習写像と入力画像から抽出された特
徴量ベクトルとの積和演算によって文字領域候補を抽出
する。すなわち、入力画像の特徴量ベクトルをxi(i
=1,N)とし、所望する文字領域の外接多角形座標を
yj(j=1,M)、学習写像をAjiとすると、 yj=Aji xi …… (1) として求める。
【0038】ここに、画像の特徴量としては、たとえ
ば、大津らによる高次局所自己相関関数(文献[1] 栗
田、大津:“高次局所自己相関特徴に基づく適応的画像
計測”、第4回産業における画像センシング技術シンポ
ジューム講演論文集、pp41−46,1989.参
照)や輝度頻度分布、局所的方向成分統計量、局所モー
メント統計量などを用いてもよく、特に高次局所自己相
関関数を用いる場合には、その入力としてシステムへの
入力原画像をそのまま用いてもよいが、原画像に空間微
分演算を施したものを使用してもよい。上述の局所的方
向成分統計量の例としては、たとえば、あるn×n画素
領域内でのRobinson、Rrewitt、Kir
stなどのoperator(文献[9] 高木、下田:画
像解析ハンドブックpp555.参照)の結果の全画面
での総和などでよく、局所モーメント統計量としては、
たとえば、n×n画素領域内での0〜m次までのモーメ
ントの全画面での総和などでよい。
【0039】また、以下の(a)において、学習写像の
計算には一般に種々の多変量解析手法が使用可能で、線
形重回帰分析(文献[1] 、文献[2] 大津、栗田、関田:
“パターン認識−理論と応用−”、朝倉書店、pp16
5−181、1996.、文献[3] T.Kohonen:"Self-Or
ganization and Associative Memory",Springer-Verla
g,pp181-pp188,1984.参照)、線形判別分析(文献[2]
、文献[4] 栗田:“平均マハラノビス汎距離によるパ
ターン識別のための逐次更新アルゴリズム”、電子情報
通信学会秋期全国大会予稿集、D−322、1992.
参照)や最小2乗線形判別写像(文献[2] 参照)などを
使用してよい。
【0040】(a)学習(図2のフローチャート参照) (1)学習用対象画像入力(ステップS1) (2)画像特徴量ベクトル(xi)抽出(ステップS2) (3)対象文字列位置教示(ステップS3) (4)学習写像の計算(ステップS4) (b)文字領域抽出(図3のフローチャート参照) (1)対象画像入力(ステップS11) (2)画像特徴量ベクトル(xi)抽出(ステップS1
2) (3)学習写像Aによる出力計算(ステップS13) 以上の文字領域候補学習部4の学習手順を示したのが図
2のフローチャートであり、文字領域候補抽出部3の抽
出手順を示したのが図3のフローチャートである。
【0041】次に、文字存在判定部5について説明す
る。文字存在判定部5は、文字領域候補抽出部3におい
て抽出された文字領域候補について空間微分画像を作成
し、さらに、あるレベルで2値化した場合の非背景画素
数がある範囲内にあったとき、その文字領域候補内には
文字が存在していると判定するものである。ここに、空
間微分としては、種々のものが考えられるが、一般的な
Sobel−oprator(文献[5] 高木、下田:画
像解析ハンドブックpp533.参照)などを利用して
よい。また、2値化の閾値の決定方法にも様々なものが
存在するが、ここでは大津らによる方法(文献[6] 高
木、下田:画像解析ハンドブックpp503.参照)を
用いてもよい。
【0042】次に、文字切出部6について図4に示すフ
ローチャートを参照して説明する。文字切出部6では、
文字存在判定部5で文字が存在する文字領域候補である
ことが確定した領域について、あらかじめ標準文字領域
設定部8によって設定されている標準文字領域候補に対
して、どの程度の幾何変形を受けたものなのかを2次元
平面内の幾何変形で近似する(S21〜S23)。
【0043】幾何変換の一般形は射影変換であり、入力
(X Y w)に対する出力(X*Y*w*)への写像
は、以下のような線形方程式で表される。 (X Y w)×(a b p)=(X* Y* w*)…(2) (c d q) (tx ty s) (wx wy w)=(X Y w) …(3) x*=X*/w* y*=Y*/w* …(4) ここでは、入力を標準文字領域の外接多角形座標、出力
を対象文字領域候補の外接多角形座標とし、2次元平面
内での歪みは少ないと仮定し、上記(2)(3)(4)
式は以下のアフェイン変換で近似する。
【0044】 (x y l)×(a b 0)=(x* y* 1) …(5) (c d 0) (tx ty 1) ここに、(x,y)は標準文字領域候補の外接矩形の各
頂点の座標であり、(x*,y*)は文字存在判定部5
で文字存在と判定された文字領域候補の外接矩形の各頂
点の座標であり、方程式を解くために3頂点を要する。
【0045】次に、上記(5)式の写像の各係数にした
がって座標変換し(S24)、標準文字領域候補内の全
画素に対応する文字領域候補中の各画素を取得して中間
的に保存し、それらを文字領域画像と呼ぶと、それは文
字領域候補に対して前記幾何学逆変換をかけたものとな
り、外接形状は標準文字領域候補とほぼ等しくなる。も
し、標準文字領域候補の外接矩形の各辺が画面のx−y
方向と平行なるものを選択しておけば、文字領域画像の
外接矩形も同様な向きに存在する。
【0046】したがって、文字領域画像内の個々の文字
の縦、横も通常は画面と同一の方向にあり、各文字の切
出しに単純な手法を用いやすい。その方法としては、文
字領域画像を適当な閾値で2値化(文献[6] 参照)し
て、縦、横方向の射影によって領域分割を行なうもの
(文献[7] h.ohata et al.,"a human detector based o
nflexible pattern matching of silhouette projectio
n",proceedings of mva94iapr workshop on machine vi
sion applications,pp536-539,1994.参照)などが使用
可能である(S25〜S27)。
【0047】次に、文字認識部7について図5に示すフ
ローチャートを参照して説明する。文字認識部7におい
ては、あらかじめ登録されている標準文字パターンとの
照合演算によって、その文字コードを取得するが、標準
文字パターンとしては、ある1つの文字カテゴリについ
て、その文字パターンに種々の幾何学変換を適用した結
果を含める(S31〜S33)。そして、文字切出部6
で計測された幾何学変換の各係数と最も近い幾何学変換
を行なった標準文字パターンと、文字切出部6で切出さ
れた各文字に対して文字領域画像に読出される前(すな
わち、幾何学逆変換される前)の状態との照合演算を行
なう(S34)。
【0048】ここに、幾何学変換の近さの尺度として
は、文字領域候補の幾何学変換をA、標準文字パターン
幾何学変換をA′として、‖A−A′‖を用いる。な
お、‖‖はベクトルのノルムである。
【0049】また、標準文字パターンと前記切出された
文字入力パターンとの照合演算は部分空間法(文献[8]
飯島:パターン認識理論、pp119.参照)などを用
いてよい。
【0050】また、上述の‖A−A′‖が、どの標準文
字パターンに対してもある閾値よりも大でなかった場合
には(S35)、文字切出部6で文字領域画像内に読出
された各文字と、選択された標準文字パターンとの照合
演算を行なって、文字コードを取得する(S36)。こ
の場合の照合演算にも、部分空間法(文献[8] 参照)な
どを用いてよい。
【0051】さらに、上述の‖A−A′‖が、どの標準
文字パターンに対してもある閾値よりも大である場合に
は(S35)、文字切出部6で文字領域画像内に読出さ
れた各文字と、幾何学変換を施す前の標準文字パターン
との照合演算を行なって、文字コードを取得する(S3
7)。この場合の照合演算にも、部分空間法(文献[8]
参照)などを用いてよい。
【0052】次に、第2の実施の形態について説明す
る。第2の実施の形態では、テレビジョン放送画像か
ら、放送中に表示される文字情報を読取って保存、提示
することで、ユーザの利便を図るテレビジョン視聴者支
援装置に適用した場合について説明する。
【0053】図6は、第2の実施の形態に係る文字読取
方式が適用される装置の構成を示している。この装置
は、前述した第1の実施の形態において、画像入力部1
の変わりとしてテレビジョン放送信号受信用のNTSC
チューナと、このチューナからのNTSC信号をデジタ
ル画像に変換するA/D変換器とからなる放送画像入力
部20を使用し、あらかじめ文字領域候補学習部4によ
ってテレビジョンユーザが所望する文字情報の出やすい
シーンについての文字領域状態を学習させておき、その
学習データに基づいて文字領域候補を抽出した後、ユー
ザが確認するために画像データとして保存するととも
に、あらかじめ蓄積されていた標準文字パターンとの照
合演算により文字コードを取得し、文字コードとして照
合結果蓄積部21に読取り時刻を付加して蓄積してお
き、後にディスプレイモニタ10を通じて、ユーザに提
示することで利便を図るようになっている。
【0054】次に、第3の実施の形態について説明す
る。第3の実施の形態では、搬送される荷物に添付され
たラベルなどの記録媒体に記録された配送先情報(区分
情報)を示す文字を読取って、配送先別に荷物を区分処
理する物品処理装置に適用した場合について説明する。
【0055】図7は、第3の実施の形態に係る文字読取
方式が適用される物品処理装置の構成を示している。こ
の装置は、前述した第1の実施の形態において、下記手
段が追加されて構成されている。
【0056】すなわち、対象物(荷物)Pを図示矢印方
向に搬送する搬送路11を具備し、搬送路11により移
動する対象物Pに対して、前述した各部1〜8を用いて
対象物Pのラベルから配送先情報を取得して、この取得
した配送先情報をバーコード変換部12によってバーコ
ード情報化し、バーコード印刷部13によって対象物P
上に印刷するか、対象物Pに添付された無線インタフェ
ースを有する非接触データ搬送部14に対して非接触デ
ータ書込部15を用いて書込む。
【0057】配送先の振り分け段階においては、対象物
Pからバーコード読取部16によって読取られた前記バ
ーコード情報か、非接触データ読込部17によって得ら
れた配送先情報を、配送方面を登録した配送方面データ
ベース部18内のデータと照合することにより搬送先指
示信号を得て、この搬送先指示信号で区分部22を駆動
することにより、自動配送先振り分けを行なうようにな
っている。
【0058】また、上記説明では、対象物Pは搬送路1
1上を搬送されるとしたが、対象物Pが静止しており、
対象物Pのラベルに対して、人間(荷物引受け担当職員
など)が配送先情報の近傍画像を可搬形画像入力部19
によって撮像し、その後は上述の手順にしたがって自動
配送先振り分けを行なうようにしてもよい。
【0059】ここに、非接触データ搬送部14として
は、たとえば、無線タグがあり、その際、非接触データ
書込部15、非接触データ読込部17は、それらに対す
る無線ライタ、無線リーダになる。また、可搬形画像入
力部19としては、たとえば、ハンディビデオカメラで
よい。
【0060】上記説明では、自動配送先振り分けの例を
示したが、荷物の通し番号が荷物のラベルに記入されて
いる場合に、上記構成で通し番号を配送ターミナルごと
に読取ることによって、発送された荷物がどこのターミ
ナルまで送られたかという情報が得られ、配達状況追跡
支援を行なうことができる。
【0061】なお、以上の説明では、画像入力部1は単
数であることを仮定して説明したが、これは単一でも、
文字認識に適当な解像度を得るために複数でもよい。特
に複数の場合の例として、対象物が撮像できる面Fと平
行な面F′に複数台のビデオカメラを配設し、そのうち
の1台のビデオカメラは面Fに配置して、対象物が存在
すると考えられる全範囲を撮像可能なものにし、残りの
ビデオカメラは面F′に配設し、前述の範囲の一部を分
担して撮像するような、より狭画角に設定する。
【0062】この場合、文字領域候補抽出部3での文字
領域候補の抽出は、広画角カメラによって行なう。そし
て、文字領域候補の存在する位置の画像を分担している
狭画角カメラの画像を用いて、前記文字切出しの処理や
前記文字認識の処理を同様に行なう。
【0063】また、各狭画角カメラで分担している画像
領域に重なりがある場合には、文字領域候補が存在する
狭画角カメラの画像は複数存在する場合があるが、この
場合には、それぞれのカメラでもう一度文字領域候補抽
出を行ない、標準文字領域設定部8に設定されている標
準文字領域に対して最小の幾何変換をしているものを選
択する。
【0064】上記に加えて、前述の複数のカメラを配設
した平面を対象物からの距離に応じて更に複数用意し、
それぞれの焦点位置を変えて配設してもよい。この場合
は、各面での広画角カメラによって文字列領域候補を抽
出し、いくつかの面において、文字領域候補が実際に発
見できたとすると、それぞれの面で画像の空間微分画素
の総和を求め、この値が最大なる面では最も対象物まで
の焦点が合っていると仮定し、その面において前記1平
面での文字切出し、文字認識処理を行ない、最終的に文
字コードを求める。
【0065】
【発明の効果】以上詳述したように本発明によれば、ス
キャナなど紙面に密着させた画像入力手段での入力が物
理的に困難であるような一般背景シーン中の移動を伴う
対象物に付随する文字を高速に読取り、文字コードをデ
ータベースに登録したり、既存のデータベースとの照合
によって、以下のような応用的な効果が得られる。
【0066】(1) 移動対象物上の高速文字読取り機能を
用いた、荷物上の着店コード文字読取りによって荷物の
配送先振分けを、荷物の通し番号の読取りによって荷物
の配達状況追跡などが可能である。
【0067】(2) 移動対象や、カメラ設置位置の柔軟性
により、車両ナンバの読取りによる不正通行発見、旅行
時間計測などの機能を可搬型の装置で実現可能である。 (3) テレビジョン放送画面上に表示され、あらかじめ書
式の決定された文字領域を抽出し、読取ることにより、
画面上によく表示されるが、比較的表示時間が短く、見
逃されがちな電話番号やホームページアドレス、クイズ
問題などを抽出することが可能となる。
【0068】上記応用中、本方式では、あらかじめ様々
な撮像条件での対象文字領域を統計的に学習させてお
き、その結果を用いて文字候補領域を抽出し、認識する
ため、上記各応用のように、文字が紙面上に決まった形
式で記述されていないような場合にも、文字領域候補を
抽出することが可能であり、しかも、撮像時の光学的環
境が変動しやすい上記(1)(2)のような応用場面において
も、その影響を受けにくい。
【0069】また、上述の文字候補領域抽出結果と文字
認識辞書作成に用いた文字領域との幾何学変換を求め
て、抽出された文字候補領域にその逆変換をかけて文字
認識を行なうため、この文字認識辞書作成時の文字候補
領域にその外形が画面の方向と平行になるようなものを
用いれば、文字候補領域から個々の文字を切出す手法が
単純になり、全体として高速な認識が可能となり、上記
(1) 〜(3) のように処理速度が重視される応用において
有利である。
【0070】さらに、あらかじめ複数の幾何学変換を施
した文字認識用辞書のうち、上記の幾何学変換を行なっ
たものに近い辞書を選択できるため、文字認識自体の処
理速度と精度の向上が期待できる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る文字読取方式
が適用される装置の構成を示すブロック図。
【図2】文字領域候補学習部の処理手順を示すフローチ
ャート。
【図3】文字領域候補抽出部の処理手順を示すフローチ
ャート。
【図4】文字切出部の処理手順を示すフローチャート。
【図5】文字認識部の処理手順を示すフローチャート。
【図6】本発明の第2の実施の形態に係る文字読取方式
が適用されるテレビジョン視聴者支援装置の構成を示す
ブロック図。
【図7】本発明の第3の実施の形態に係る文字読取方式
が適用される物品処理装置の構成を示すブロック図。
【符号の説明】
1……画像入力部、2……画像蓄積部、3……文字領域
候補抽出部、4……文字領域候補学習部、5……文字存
在判定部、6……文字切出部、7……文字認識部、8…
…標準文字領域設定部、9……情報データベース、10
……ディスプレイモニタ、11……搬送路、12……バ
ーコード変換部、13……バーコード印刷部、14……
非接触データ搬送部、15……非接触データ書込部、1
6……バーコード読取部、17……非接触データ読込
部、18……配送方面データベース部、19……可搬形
画像入力部、20……放送画像入力部、21……照合結
果蓄積部、22……区分部。

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 読取対象物の文字を含む画像を入力し、
    この入力された画像から文字領域候補を抽出し、この抽
    出された文字領域候補の各文字を切出し、この切出され
    た各文字とあらかじめ登録された標準文字パターンとを
    照合することにより、前記入力された画像中に含まれる
    文字の文字コードを取得することを特徴とする文字読取
    方式。
  2. 【請求項2】 前記文字の切出しは、前記抽出された文
    字領域候補のそれぞれに適応した手法で各文字を切出す
    ことを特徴とする請求項1記載の文字読取方式。
  3. 【請求項3】 前記切出された文字と標準文字パターン
    との照合は、前記抽出された文字領域候補それぞれに適
    応した手法で照合を行なうことを特徴とする請求項1記
    載の文字読取方式。
  4. 【請求項4】 読取対象物の文字を含む画像を入力する
    画像入力手段と、 この画像入力手段で入力された画像から文字領域候補を
    抽出する文字領域候補抽出手段と、 この文字領域候補抽出手段で抽出された文字領域候補の
    各文字を切出す文字切出手段と、 この文字切出手段で切出された文字とあらかじめ登録さ
    れた標準文字パターンとを照合することにより、前記画
    像入力手段で入力された画像中に含まれる文字の文字コ
    ードを取得する文字認識手段と、 を具備したことを特徴とする文字読取方式。
  5. 【請求項5】 前記文字切出手段は、前記文字領域候補
    抽出手段で抽出された文字領域候のそれぞれに適応した
    手法で各文字を切出すことを特徴とする請求項4記載の
    文字読取方式。
  6. 【請求項6】 前記文字認識手段は、前記文字切出手段
    で切出された文字と標準文字パターンとを照合する際、
    前記文字領域候補抽出手段で抽出された文字領域候補そ
    れぞれに適応した手法で照合を行なうことを特徴とする
    請求項4記載の文字読取方式。
  7. 【請求項7】 読取対象物の文字を含む画像を入力する
    画像入力手段と、 この画像入力手段であらかじめ読取対象物の画像が入力
    された状態での対象とする文字領域の状態を学習させる
    文字領域候補学習手段と、 前記画像入力手段で入力された画像から、前記文字領域
    候補学習手段の学習結果にしたがって文字領域候補を抽
    出する文字領域候補抽出手段と、 この文字領域候補抽出手段で抽出された文字領域候補の
    各文字を切出す文字切出手段と、 この文字切出手段で切出された文字とあらかじめ登録さ
    れた標準文字パターンとを照合することにより、前記画
    像入力手段で入力された画像中に含まれる文字の文字コ
    ードを取得する文字認識手段と、 を具備したことを特徴とする文字読取方式。
  8. 【請求項8】 前記文字領域候補学習手段は、学習の入
    力として、前記画像入力手段で入力された画像の全体ま
    たはその画像内に局在する統計的特徴量あるいは幾何学
    的特徴量を用い、学習結果として、対象とする文字領域
    候補の位置、形状および光学的属性のうち少なくともい
    ずれか1つを出力することを特徴とする請求項7記載の
    文字読取方式。
  9. 【請求項9】 前記文字切出手段は、前記文字領域候補
    抽出手段で抽出された文字領域候補について、あらかじ
    め設定された標準文字領域候補の形状に対してどのよう
    な変形があったかを幾何学変換で近似し、前記文字領域
    候補抽出手段で抽出された文字領域候補を幾何学的逆変
    換することにより、前記設定された標準文字領域候補と
    類似の形状にした後、各文字の切出しを行なうことを特
    徴とする請求項4または7記載の文字読取方式。
  10. 【請求項10】 読取対象物の文字を含む画像を入力す
    る画像入力手段と、 この画像入力手段で入力された画像から文字領域候補を
    抽出する文字領域候補抽出手段と、 この文字領域候補抽出手段で抽出された文字領域候補内
    に文字が存在しているか否かを判定する文字存在判定手
    段と、 この文字存在判定手段で文字が存在すると判定された文
    字領域候補に対して各文字を切出す文字切出手段と、 この文字切出手段で切出された文字とあらかじめ登録さ
    れた標準文字パターンとを照合することにより、前記画
    像入力手段で入力された画像中に含まれる文字の文字コ
    ードを取得する文字認識手段と、 を具備したことを特徴とする文字読取方式。
  11. 【請求項11】 前記文字切出手段は、前記文字存在判
    定手段で文字が存在すると判定された文字領域候補につ
    いて、あらかじめ設定された標準文字領域候補の形状に
    対してどのような変形があったかを幾何学変換で近似
    し、前記文字領域候補抽出手段で抽出された文字領域候
    補を幾何学的逆変換することにより、前記設定された標
    準文字領域候補と類似の形状にした後、各文字の切出し
    を行なうことを特徴とする請求項10記載の文字読取方
    式。
  12. 【請求項12】 前記文字認識手段は、前記文字切出手
    段で切出された各文字領域もそれを包含する文字領域候
    補と同様な幾何学変換を受けているとものと仮定して、
    各文字領域ごとに幾何学的逆変換を適用し、その結果に
    対して標準文字パターンとの照合を行なうことを特徴と
    する請求項9または11記載の文字読取方式。
  13. 【請求項13】 前記文字認識手段は、標準文字パター
    ンとして、1つの文字について様々なパラメータで幾何
    学変換をかけて複数の標準文字パターンを作成してお
    き、前記入力における幾何学変換パラメータベクトルと
    前記標準文字パターンの幾何学変換パラメータベクトル
    との距離が最小となる標準文字パターンと入力との照合
    演算を行なって、文字コードを取得することを特徴とす
    る請求項9または11記載の文字読取方式。
  14. 【請求項14】 前記文字認識手段は、文字コードを取
    得する際に、ベクトルの距離に閾値を設定しておき、前
    記作成してある複数のどの標準文字パターンとの距離も
    閾値より大であった場合に、前記入力から作成された各
    文字領域を前記幾何学的逆変換して求められた各文字領
    域と複数の標準文字パターンを作成する元になった標準
    文字パターンとの照合演算を行なって、文字コードを取
    得することを特徴とする請求項13記載の文字読取方
    式。
  15. 【請求項15】 前記画像入力手段は複数存在してい
    て、これら各画像入力手段は空間上のほぼ同一面に配置
    されており、 前記文字領域候補抽出手段は、前記複数の画像入力手段
    から得られる各画像に対してそれぞれ文字領域候補の抽
    出を行ない、 前記文字切出手段は、前記文字領域候補抽出手段で抽出
    された各文字領域候補のうち、あらかじめ指定された文
    字領域候補に対応する文字領域候補の画像のみを用いて
    各文字の切出しを行なうことを特徴とする請求項4また
    は7記載の文字読取方式。
  16. 【請求項16】 テレビジョン放送画像を入力する画像
    入力手段と、 あらかじめテレビジョンユーザ所望の文字の発生しやす
    いシーンについての文字領域の状態を学習させる文字領
    域候補学習手段と、 前記画像入力手段で入力された画像から、前記文字領域
    候補学習手段の学習結果にしたがって文字領域候補を抽
    出する文字領域候補抽出手段と、 この文字領域候補抽出手段で抽出された文字領域候補の
    各文字を切出す文字切出手段と、 この文字切出手段で切出された文字とあらかじめ登録さ
    れた標準文字パターンとを照合することにより、前記画
    像入力手段で入力された画像中に含まれる文字の文字コ
    ードを取得する文字認識手段と、 この文字認識手段から得られる文字コードを識別情報と
    対応させて記憶する記憶手段と、 を具備したことを特徴とする文字読取方式。
  17. 【請求項17】 区分情報を示す文字が記録された記録
    媒体が添付されている物品を区分部へ搬送する搬送手段
    と、 この搬送手段で搬送される物品に添付された前記記録媒
    体の画像を入力する画像入力手段と、 この画像入力手段で入力された画像から文字領域候補を
    抽出する文字領域候補抽出手段と、 この文字領域候補抽出手段で抽出された文字領域候補の
    各文字を切出す文字切出手段と、 この文字切出手段で切出された文字とあらかじめ登録さ
    れた標準文字パターンとを照合することにより、前記画
    像入力手段で入力された前記記録媒体の画像中に含まれ
    る文字を認識する文字認識手段と、 この文字認識手段の認識結果を所定のコード情報に変換
    するコード変換手段と、 このコード変換手段から得られるコード情報を前記物品
    に付与するコード情報付与手段と、 前記区分部において、前記搬送手段で搬送されてくる物
    品からそれに付与された前記コード情報を読取るコード
    情報読取手段と、 このコード情報読取手段で読取ったコード情報に応じて
    前記搬送手段で搬送されてくる物品を区分する区分手段
    と、 を具備したことを特徴とする物品処理装置。
  18. 【請求項18】 前記画像入力手段は非接触可搬形画像
    入力手段であり、オペレータがこの非接触可搬形画像入
    力手段によって前記物品に添付された記録媒体の画像を
    撮像することで、前記記録媒体の画像を入力することを
    特徴とする請求項17記載の物品処理装置。
JP9248596A 1997-09-12 1997-09-12 文字読取方式および物品処理装置 Pending JPH1185902A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9248596A JPH1185902A (ja) 1997-09-12 1997-09-12 文字読取方式および物品処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9248596A JPH1185902A (ja) 1997-09-12 1997-09-12 文字読取方式および物品処理装置

Publications (1)

Publication Number Publication Date
JPH1185902A true JPH1185902A (ja) 1999-03-30

Family

ID=17180478

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9248596A Pending JPH1185902A (ja) 1997-09-12 1997-09-12 文字読取方式および物品処理装置

Country Status (1)

Country Link
JP (1) JPH1185902A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007265442A (ja) * 2007-07-09 2007-10-11 Toshiba Corp 帳票読取装置および帳票読取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007265442A (ja) * 2007-07-09 2007-10-11 Toshiba Corp 帳票読取装置および帳票読取方法
JP4620082B2 (ja) * 2007-07-09 2011-01-26 株式会社東芝 帳票読取装置および帳票読取方法

Similar Documents

Publication Publication Date Title
US9547800B2 (en) System and a method for the detection of multiple number-plates of moving cars in a series of 2-D images
US7302098B2 (en) Character segmentation method and apparatus
US7231065B2 (en) Method and apparatus for controlling cameras and performing optical character recognition of container code and chassis code
US7620268B2 (en) Method and apparatus for recognizing text in an image sequence of scene imagery
US6754369B1 (en) License plate reading apparatus and method
US20110135156A1 (en) Method of Locating License Plate of Moving Vehicle
US6014450A (en) Method and apparatus for address block location
Reina et al. Adaptive traffic road sign panels text extraction
US20200302135A1 (en) Method and apparatus for localization of one-dimensional barcodes
CN108647570B (zh) 斑马线检测方法、装置及计算机可读存储介质
US6512849B1 (en) Finding objects in an image
JPWO2006080568A1 (ja) 文字読取り装置、文字読取り方法及び該文字読取り装置に用いられる文字読取り制御プログラム
JPH1185902A (ja) 文字読取方式および物品処理装置
Łubkowski et al. Assessment of quality of identification of data in systems of automatic licence plate recognition
US7346193B2 (en) Method for detecting object traveling direction
CN114359147A (zh) 裂缝检测方法、装置、服务器及存储介质
CN116580026B (zh) 精密零部件外观缺陷自动光学检测方法、设备及存储介质
CN115272954B (zh) 一种客流统计装置及智能终端
JPH08185477A (ja) 画像分類装置
JPH11184965A (ja) 帳票識別登録装置
JP2670074B2 (ja) 車両番号認識装置
CN114359812A (zh) 一种基于视频的危险品检测方法及系统
CN116958836A (zh) 一种可见光图像小目标检测识别方法及系统
JPH0514892A (ja) 画像監視装置
Alone Automatic License Plate Recognition

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees