JPH1185902A

JPH1185902A - 文字読取方式および物品処理装置

Info

Publication number: JPH1185902A
Application number: JP9248596A
Authority: JP
Inventors: Nobuyoshi Enomoto; 暢芳榎本
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1997-09-12
Filing date: 1997-09-12
Publication date: 1999-03-30

Abstract

(57)【要約】【課題】移動を伴う画像から所望の文字領域を確実に抽
出し、文字を高速かつ正確に読取ることのできる文字読
取方式を提供する。【解決手段】画像入力部１は読取対象物の画像を入力
し、画像蓄積部２に一時記憶する。文字領域候補学習部
４は、あらかじめ読取対象物の画像が入力された状態で
の対象とする文字領域の状態を学習する。文字領域候補
抽出部３は、画像蓄積部２内の入力画像から、文字領域
候補学習部４の学習結果にしたがって文字領域候補を抽
出し、文字存在判定部５は、この抽出された文字領域候
補内に文字が存在することを判定し、文字切出部６は、
文字が存在すると判定された文字領域候補内の各文字を
切出し、文字認識部７は、この切出された文字とあらか
じめ登録された標準文字パターンとを照合することによ
り、入力された画像中に含まれる文字の文字コードを取
得する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、たとえば、静止中
あるいは移動中の読取対象物（たとえば、看板等の屋外
掲示物や車両のナンバプレートなど）を撮像して得られ
る画像から、所望の文字領域を抽出し、この抽出した文
字領域内の各文字を認識して文字コードを取得する文字
読取方式、および、この文字読取方式を用いて物品の区
分処理を行なう物品処理装置に関する。

【０００２】

【従来の技術】たとえば、葉書、書類などの定型フォー
ム上に記載された文字を含む画像情報を、スキャナなど
の紙面密着形の光学的画像入力手段によって光学的環境
を制御しながら入力し、その画像から固定または可変の
閾値にる２値化によって文字領域候補のみを抽出し、該
領域の連結性解析や文字サイズや配置に関する知識を用
いて各文字を切出し、それらにあらかじめ登録されてい
る標準文字パターン（辞書）との照合演算を施して、文
字を読取る第１の文字読取方式がある。

【０００３】また、スタイラスペンなどの筆圧（また
は、接触）感知入力デバイスにより、ユーザがコンピュ
ータモニタやタブレット上に文字を書くのにしたがっ
て、その筆跡ストローク情報を用いて文字部分を抽出
し、あらかじめ登録されている標準文字パターンと照合
することによって入力された文字を読取る第２の文字読
取方式がある。

【０００４】さらに、紙面のように光学的条件が制御可
能なものではなく、一般の画像シーン中にある文字、た
とえば、車両のナンバプレート上の文字などを読取るた
めに、テレビジョンカメラの入力画像から固定または可
変の閾値による２値化によって文字領域候補のみを抽出
し、該領域の連結性解析や文字サイズ、文字配置に関す
る知識によって各文字を切出し、さらに、対象ごとに決
まった拘束条件（たとえば、文字はナンバプレート上に
あり、ナンバプレートのサイズや輝度が既知など）を用
いて文字領域候補の妥当性を検証して、各文字領域を抽
出し、それらにあらかじめ登録されている標準文字パタ
ーン（辞書）との照合演算を施して、文字を読み取る第
３の文字読取方式がある。

【０００５】

【発明が解決しようとする課題】上記第１の文字読取方
式によれば、入力画像は紙面に書かれており、紙面と文
字との濃淡値が明らかに異なり、単純な２値化処理によ
って文字領域候補が抽出でき、さらに、密着形の入力デ
バイスを用いているために、入力における光学的な変動
をあまり考慮しなくてもよい。したがって、入力条件が
厳しく、対象文字と背景とのコントラストが低かった
り、照明条件が変動するような場合には、文字候補の抽
出が極めて困難である。

【０００６】また、読取対象物と入力デバイスとが密着
していない場合には、文字サイズや配置が、あらかじめ
蓄えられている、これらに関する知識とは異なってしま
う場合があり、文字領域候補の抽出が困難になる。

【０００７】このような入力の場合としては、ＣＣＤ形
カメラからの入力画像を対象とするものなどが考えられ
る。また、上記方第２の文字読取方式では、そもそも入
力はスタイラスペンのようなオンラインデバイスによっ
て得られ、文字切出しも、それによって得られるストロ
ークなどの条件を用いているため、上記第１の文字読取
方式と同様に、カメラによって対象から離れて入力し、
光学的条件変動がありうる場合には文字領域の抽出が不
可能である。

【０００８】さらに、第３の文字読取方式では、カメラ
などのように、読取対象物と接触していないデバイスに
よって入力された画像を対象とし、かつ、光学的条件が
不安定なものや、比較的複雑な背景画像中の文字をも抽
出可能なものが存在するが、読取対象物に関する知識を
陽に用いているため、異なる対象画像を扱う場合などに
はその対応が困難である。

【０００９】そこで、本発明は、移動を伴う画像から所
望の文字領域を確実に抽出し、文字を高速かつ正確に読
取ることのできる文字読取方式を提供することを目的と
する。

【００１０】また、本発明は、搬送される物品に添付さ
れた記録媒体の文字（区分情報）を高速かつ正確に読取
り、物品を区分処理できる物品処理装置を提供すること
を目的とする。

【００１１】

【課題を解決するための手段】本発明の文字読取方式
は、読取対象物の文字を含む画像を入力し、この入力さ
れた画像から文字領域候補を抽出し、この抽出された文
字領域候補の各文字を切出し、この切出された各文字と
あらかじめ登録された標準文字パターンとを照合するこ
とにより、前記入力された画像中に含まれる文字の文字
コードを取得することを特徴とする。

【００１２】また、本発明の文字読取方式は、読取対象
物の文字を含む画像を入力する画像入力手段と、この画
像入力手段で入力された画像から文字領域候補を抽出す
る文字領域候補抽出手段と、この文字領域候補抽出手段
で抽出された文字領域候補の各文字を切出す文字切出手
段と、この文字切出手段で切出された文字とあらかじめ
登録された標準文字パターンとを照合することにより、
前記画像入力手段で入力された画像中に含まれる文字の
文字コードを取得する文字認識手段とを具備している。

【００１３】また、本発明の文字読取方式は、読取対象
物の文字を含む画像を入力する画像入力手段と、この画
像入力手段であらかじめ読取対象物の画像が入力された
状態での対象とする文字領域の状態を学習させる文字領
域候補学習手段と、前記画像入力手段で入力された画像
から、前記文字領域候補学習手段の学習結果にしたがっ
て文字領域候補を抽出する文字領域候補抽出手段と、こ
の文字領域候補抽出手段で抽出された文字領域候補の各
文字を切出す文字切出手段と、この文字切出手段で切出
された文字とあらかじめ登録された標準文字パターンと
を照合することにより、前記画像入力手段で入力された
画像中に含まれる文字の文字コードを取得する文字認識
手段とを具備している。

【００１４】また、本発明の文字読取方式は、文字領域
候補学習手段は、学習の入力として、画像入力手段で入
力された画像の全体またはその画像内に局在する統計的
特徴量あるいは幾何学的特徴量を用い、学習結果とし
て、対象とする文字領域候補の位置、形状および光学的
属性のうち少なくともいずれか１つを出力することを特
徴とする。

【００１５】また、本発明の文字読取方式は、文字切出
手段は、文字領域候補抽出手段で抽出された文字領域候
補について、あらかじめ設定された標準文字領域候補の
形状に対してどのような変形があったかを幾何学変換で
近似し、文字領域候補抽出手段で抽出された文字領域候
補を幾何学的逆変換することにより、設定された標準文
字領域候補と類似の形状にした後、各文字の切出しを行
なうことを特徴とする。

【００１６】また、本発明の文字読取方式は、読取対象
物の文字を含む画像を入力する画像入力手段と、この画
像入力手段で入力された画像から文字領域候補を抽出す
る文字領域候補抽出手段と、この文字領域候補抽出手段
で抽出された文字領域候補内に文字が存在しているか否
かを判定する文字存在判定手段と、この文字存在判定手
段で文字が存在すると判定された文字領域候補に対して
各文字を切出す文字切出手段と、この文字切出手段で切
出された文字とあらかじめ登録された標準文字パターン
とを照合することにより、前記画像入力手段で入力され
た画像中に含まれる文字の文字コードを取得する文字認
識手段とを具備している。

【００１７】また、本発明の文字読取方式は、文字切出
手段は、文字存在判定手段で文字が存在すると判定され
た文字領域候補について、あらかじめ設定された標準文
字領域候補の形状に対してどのような変形があったかを
幾何学変換で近似し、文字領域候補抽出手段で抽出され
た文字領域候補を幾何学的逆変換することにより、設定
された標準文字領域候補と類似の形状にした後、各文字
の切出しを行なうことを特徴とする。

【００１８】また、本発明の文字読取方式は、文字認識
手段は、文字切出手段で切出された各文字領域もそれを
包含する文字領域候補と同様な幾何学変換を受けている
とものと仮定して、各文字領域ごとに幾何学的逆変換を
適用し、その結果に対して標準文字パターンとの照合を
行なうことを特徴とする。

【００１９】また、本発明の文字読取方式は、文字認識
手段は、標準文字パターンとして、１つの文字について
様々なパラメータで幾何学変換をかけて複数の標準文字
パターンを作成しておき、入力における幾何学変換パラ
メータベクトルと標準文字パターンの幾何学変換パラメ
ータベクトルとの距離が最小となる標準文字パターンと
入力との照合演算を行なって、文字コードを取得するこ
とを特徴とする。

【００２０】また、本発明の文字読取方式は、文字認識
手段は、文字コードを取得する際に、ベクトルの距離に
閾値を設定しておき、作成してある複数のどの標準文字
パターンとの距離も閾値より大であった場合に、入力か
ら作成された各文字領域を幾何学的逆変換して求められ
た各文字領域と複数の標準文字パターンを作成する元に
なった標準文字パターンとの照合演算を行なって、文字
コードを取得することを特徴とする。

【００２１】また、本発明の文字読取方式は、画像入力
手段は複数存在していて、これら各画像入力手段は空間
上のほぼ同一面に配置されており、文字領域候補抽出手
段は、複数の画像入力手段から得られる各画像に対して
それぞれ文字領域候補の抽出を行ない、文字切出手段
は、文字領域候補抽出手段で抽出された各文字領域候補
のうち、あらかじめ指定された文字領域候補に対応する
文字領域候補の画像のみを用いて各文字の切出しを行な
うことを特徴とする。

【００２２】また、本発明の文字読取方式は、テレビジ
ョン放送画像を入力する画像入力手段と、あらかじめテ
レビジョンユーザ所望の文字の発生しやすいシーンにつ
いての文字領域の状態を学習させる文字領域候補学習手
段と、前記画像入力手段で入力された画像から、前記文
字領域候補学習手段の学習結果にしたがって文字領域候
補を抽出する文字領域候補抽出手段と、この文字領域候
補抽出手段で抽出された文字領域候補の各文字を切出す
文字切出手段と、この文字切出手段で切出された文字と
あらかじめ登録された標準文字パターンとを照合するこ
とにより、前記画像入力手段で入力された画像中に含ま
れる文字の文字コードを取得する文字認識手段と、この
文字認識手段から得られる文字コードを識別情報と対応
させて記憶する記憶手段とを具備している。

【００２３】また、本発明の物品処理装置は、区分情報
を示す文字が記録された記録媒体が添付されている物品
を区分部へ搬送する搬送手段と、この搬送手段で搬送さ
れる物品に添付された前記記録媒体の画像を入力する画
像入力手段と、この画像入力手段で入力された画像から
文字領域候補を抽出する文字領域候補抽出手段と、この
文字領域候補抽出手段で抽出された文字領域候補の各文
字を切出す文字切出手段と、この文字切出手段で切出さ
れた文字とあらかじめ登録された標準文字パターンとを
照合することにより、前記画像入力手段で入力された前
記記録媒体の画像中に含まれる文字を認識する文字認識
手段と、この文字認識手段の認識結果を所定のコード情
報に変換するコード変換手段と、このコード変換手段か
ら得られるコード情報を前記物品に付与するコード情報
付与手段と、前記区分部において、前記搬送手段で搬送
されてくる物品からそれに付与された前記コード情報を
読取るコード情報読取手段と、このコード情報読取手段
で読取ったコード情報に応じて前記搬送手段で搬送され
てくる物品を区分する区分手段とを具備している。

【００２４】本発明によれば、あらかじめ入力される画
像に対して対象文字領域を学習しておき、文字認識時で
は、その学習結果に基づいて文字領域を抽出するが、抽
出された文字領域の本来の形状である標準文字領域に対
する幾何変換を求め、そのパラメータに応じて個々の文
字切出しや文字認識を行なうことにより、移動を伴う画
像から所望の文字領域を確実に抽出し、文字を高速かつ
正確に読取ることができる。

【００２５】

【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照して説明する。まず、第１の実施の形態に
ついて説明する。第１の実施の形態では、入力としてビ
デオカメラからの静止画像または動画像を用い、既知パ
ターンの画像中の指定文字を抽出し、文字認識によって
文字コードを取得し、この取得した文字コードを、あら
かじめ登録されている情報データベースのキー情報とし
て用いて、対象物の属性情報を検索する装置に適用した
場合について説明する。

【００２６】図１は、第１の実施の形態に係る文字読取
方式が適用される装置の構成を示している。この装置
は、モノクロまたはカラーの単一（または複数）のビデ
オカメラと、その出力をＡ／Ｄ変換するＡ／Ｄ変換器と
からなる画像入力部１、その入力画像を一時記憶する半
導体メモリや磁気ディスク装置などからなる画像蓄積部
２、画像蓄積部２に格納された画像について、指定され
た文字領域（いわゆる文字列、文字行）を抽出する文字
領域候補抽出部３、あらかじめ対象画像が入力された状
態での対象文字領域の状態を学習させておく文字領域候
補学習部４、抽出された文字領域の内部に対して文字存
在の有無を判定する文字存在判定部５、文字の存在して
いる文字領域候補内部の各文字を切出す文字切出部６、
切出された各文字画像の特徴をあらかじめ登録されてい
る標準文字パターン（辞書）の特徴と照合することで文
字コードを取得する文字認識部７、あらかじめ所望の文
字領域（標準文字領域）が格納（設定）されている標準
文字領域設定部８、対象物に関する所望の情報が格納さ
れている情報データベース９、および、ディスプレイモ
ニタ１０によって構成されている。

【００２７】すなわち、第１の実施の形態の装置は、画
像入力部１によって入力された読取対象物の画像は、画
像蓄積部２に一時記憶される。文字領域候補抽出部３
は、画像蓄積部２に格納された画像について、指定され
た文字領域（いわゆる文字列、文字行）の候補を抽出す
る。そのためには、あらかじめ文字領域候補学習部４に
よって対象画像が入力された状態での対象文字領域の状
態を学習させておき、その学習結果にしたがって文字領
域候補を抽出する。

【００２８】次に、文字存在判定部５は、文字領域候補
抽出部３で抽出された文字領域候補の内部に文字が存在
するか否かを判定する。この判定の結果、文字が存在し
ている場合、文字切出部６は、その文字の存在している
文字領域候補の内部の各文字を切出す。

【００２９】次に、文字認識部７は、文字切出部６で切
出された各文字画像の特徴をあらかじめ登録されている
標準文字パターン（辞書）の特徴と照合することで文字
コードを取得する。ただし、このとき、文字切出部６お
よび文字認識部７では、標準文字領域設定部８にあらか
じめ格納されている所望の文字領域についての情報と、
文字存在判定部５によって求められた文字領域候補との
幾何学的変化に対処して、対象ごとに切出し、文字認識
の方法を対応させる。

【００３０】文字認識部７から得られる文字コードは、
情報データベース９に送られ、その文字コードをキー情
報として情報データベース９を検索することにより、読
取対象物に関する所望の情報をディスプレイモニタ１０
に表示させる。

【００３１】ここで、たとえば、読取対象物が電柱や看
板などの掲示物上の住所表示だった場合、情報データベ
ース９としては地図データベースということになり、デ
ィスプレイモニタ１０に地図と地図上の現在位置とを重
畳表示することで、不案内な土地へ移動する際のナビゲ
ーション装置が実現可能である。

【００３２】また、たとえば、読取対象物を有料道路の
ゲート通過する車両のナンバプレートとし、入路、出路
それぞれのゲートに本装置を設置し、入路ゲートにおい
て情報データベース９に入路ゲート通過の車両ナンバを
登録し、出路での読取りナンバと登録済みナンバとを照
合することで、自動課金、不正通行発見、旅行時間計測
などを行なうことも可能である。

【００３３】さらに、読取対象物を一般道路の特定位置
を通過する車両のナンバプレートとし、情報データベー
ス９に違反車両の車両ナンバが登録済みである場合、読
取りナンバと登録済みナンバとを照合することで、違反
車両の通過を検知することも可能である。

【００３４】以下、各部の処理について詳細に説明す
る。まず、画像入力部１および蓄積蓄積部２について説
明する。読取対象物の画像の入力は、前記の通り、画像
入力部１から行なう。映像信号としては、ここではＮＴ
ＳＣ、ＰＡＬなどのアナログ映像信号を用い、これをＡ
／Ｄ変換して入力することにするが、複数レベルにデジ
タル化され映像同期信号とともに授受されるデジタル映
像信号であってもよい。

【００３５】また、画像データはファイルとして入力さ
れてもよく、この場合は、ＲＧＢ各成分ごとの輝度値が
デジタル化された画像フレームが、複数時間（フレー
ム）分蓄積された形式のものを想定しているが、データ
量を考慮し、フレーム内およびフレーム間での圧縮を行
なった画像（例：Ｊｐｅｇ，Ｍｐｅｇ）などであって
も、その圧縮に対応した伸長手段を前段に設けることに
よって、これらを利用することも可能である。

【００３６】画像の蓄積は、画像蓄積部２に対して行な
うが、各画素を一定のビット長にデジタル化した後、画
像データ部分の先頭に画像をユニークに識別するための
画像名とフレーム長、画像サイズ、画素のビット長、カ
ラー／モノクロの別、圧縮形式などのコードを示す固定
長のヘッダを付加し、その後は各フレームごとの画素デ
ータ列を並べた形式で行なう。

【００３７】次に、文字領域候補抽出部３について説明
する。文字領域候補抽出部３では、以下の（ａ）のよう
に、文字領域候補学習部４であらかじめ対象物の画像が
入力された状態での対象とする文字領域の状態を学習さ
せる。さらに、以下の（ｂ）の文字領域抽出では、
（ａ）で得られた学習写像と入力画像から抽出された特
徴量ベクトルとの積和演算によって文字領域候補を抽出
する。すなわち、入力画像の特徴量ベクトルをｘｉ（ｉ
＝１，Ｎ）とし、所望する文字領域の外接多角形座標を
ｙｊ（ｊ＝１，Ｍ）、学習写像をＡｊｉとすると、ｙｊ＝Ａｊｉｘｉ …… （１）として求める。

【００３８】ここに、画像の特徴量としては、たとえ
ば、大津らによる高次局所自己相関関数（文献[1] 栗
田、大津：“高次局所自己相関特徴に基づく適応的画像
計測”、第４回産業における画像センシング技術シンポ
ジューム講演論文集、ｐｐ４１−４６，１９８９．参
照）や輝度頻度分布、局所的方向成分統計量、局所モー
メント統計量などを用いてもよく、特に高次局所自己相
関関数を用いる場合には、その入力としてシステムへの
入力原画像をそのまま用いてもよいが、原画像に空間微
分演算を施したものを使用してもよい。上述の局所的方
向成分統計量の例としては、たとえば、あるｎ×ｎ画素
領域内でのＲｏｂｉｎｓｏｎ、Ｒｒｅｗｉｔｔ、Ｋｉｒ
ｓｔなどのｏｐｅｒａｔｏｒ（文献[9] 高木、下田：画
像解析ハンドブックｐｐ５５５．参照）の結果の全画面
での総和などでよく、局所モーメント統計量としては、
たとえば、ｎ×ｎ画素領域内での０〜ｍ次までのモーメ
ントの全画面での総和などでよい。

【００３９】また、以下の（ａ）において、学習写像の
計算には一般に種々の多変量解析手法が使用可能で、線
形重回帰分析（文献[1] 、文献[2] 大津、栗田、関田：
“パターン認識−理論と応用−”、朝倉書店、ｐｐ１６
５−１８１、１９９６．、文献[3] T.Kohonen:"Self-Or
ganization and Associative Memory",Springer-Verla
g,pp181-pp188,1984.参照）、線形判別分析（文献[2]
、文献[4] 栗田：“平均マハラノビス汎距離によるパ
ターン識別のための逐次更新アルゴリズム”、電子情報
通信学会秋期全国大会予稿集、Ｄ−３２２、１９９２．
参照）や最小２乗線形判別写像（文献[2] 参照）などを
使用してよい。

【００４０】（ａ）学習（図２のフローチャート参照） (1)学習用対象画像入力（ステップＳ１） (2)画像特徴量ベクトル（ｘｉ）抽出（ステップＳ２） (3)対象文字列位置教示（ステップＳ３） (4)学習写像の計算（ステップＳ４）（ｂ）文字領域抽出（図３のフローチャート参照） (1)対象画像入力（ステップＳ１１） (2)画像特徴量ベクトル（ｘｉ）抽出（ステップＳ１
２） (3)学習写像Ａによる出力計算（ステップＳ１３）以上の文字領域候補学習部４の学習手順を示したのが図
２のフローチャートであり、文字領域候補抽出部３の抽
出手順を示したのが図３のフローチャートである。

【００４１】次に、文字存在判定部５について説明す
る。文字存在判定部５は、文字領域候補抽出部３におい
て抽出された文字領域候補について空間微分画像を作成
し、さらに、あるレベルで２値化した場合の非背景画素
数がある範囲内にあったとき、その文字領域候補内には
文字が存在していると判定するものである。ここに、空
間微分としては、種々のものが考えられるが、一般的な
Ｓｏｂｅｌ−ｏｐｒａｔｏｒ（文献[5] 高木、下田：画
像解析ハンドブックｐｐ５３３．参照）などを利用して
よい。また、２値化の閾値の決定方法にも様々なものが
存在するが、ここでは大津らによる方法（文献[6] 高
木、下田：画像解析ハンドブックｐｐ５０３．参照）を
用いてもよい。

【００４２】次に、文字切出部６について図４に示すフ
ローチャートを参照して説明する。文字切出部６では、
文字存在判定部５で文字が存在する文字領域候補である
ことが確定した領域について、あらかじめ標準文字領域
設定部８によって設定されている標準文字領域候補に対
して、どの程度の幾何変形を受けたものなのかを２次元
平面内の幾何変形で近似する（Ｓ２１〜Ｓ２３）。

【００４３】幾何変換の一般形は射影変換であり、入力
（ＸＹｗ）に対する出力（Ｘ＊Ｙ＊ｗ＊）への写像
は、以下のような線形方程式で表される。（ＸＹｗ）×（ａｂｐ）＝（Ｘ＊Ｙ＊ｗ＊）…（２）（ｃｄｑ）（tx ty ｓ）（ｗｘｗｙｗ）＝（ＸＹｗ） …（３）ｘ＊＝Ｘ＊／ｗ＊ｙ＊＝Ｙ＊／ｗ＊ …（４）ここでは、入力を標準文字領域の外接多角形座標、出力
を対象文字領域候補の外接多角形座標とし、２次元平面
内での歪みは少ないと仮定し、上記（２）（３）（４）
式は以下のアフェイン変換で近似する。

【００４４】（ｘｙｌ）×（ａｂ０）＝（ｘ＊ｙ＊１） …（５）（ｃｄ０）（tx ty １）ここに、（ｘ，ｙ）は標準文字領域候補の外接矩形の各
頂点の座標であり、（ｘ＊，ｙ＊）は文字存在判定部５
で文字存在と判定された文字領域候補の外接矩形の各頂
点の座標であり、方程式を解くために３頂点を要する。

【００４５】次に、上記（５）式の写像の各係数にした
がって座標変換し（Ｓ２４）、標準文字領域候補内の全
画素に対応する文字領域候補中の各画素を取得して中間
的に保存し、それらを文字領域画像と呼ぶと、それは文
字領域候補に対して前記幾何学逆変換をかけたものとな
り、外接形状は標準文字領域候補とほぼ等しくなる。も
し、標準文字領域候補の外接矩形の各辺が画面のｘ−ｙ
方向と平行なるものを選択しておけば、文字領域画像の
外接矩形も同様な向きに存在する。

【００４６】したがって、文字領域画像内の個々の文字
の縦、横も通常は画面と同一の方向にあり、各文字の切
出しに単純な手法を用いやすい。その方法としては、文
字領域画像を適当な閾値で２値化（文献[6] 参照）し
て、縦、横方向の射影によって領域分割を行なうもの
（文献[7] h.ohata et al.,"a human detector based o
nflexible pattern matching of silhouette projectio
n",proceedings of mva94iapr workshop on machine vi
sion applications,pp536-539,1994．参照）などが使用
可能である（Ｓ２５〜Ｓ２７）。

【００４７】次に、文字認識部７について図５に示すフ
ローチャートを参照して説明する。文字認識部７におい
ては、あらかじめ登録されている標準文字パターンとの
照合演算によって、その文字コードを取得するが、標準
文字パターンとしては、ある１つの文字カテゴリについ
て、その文字パターンに種々の幾何学変換を適用した結
果を含める（Ｓ３１〜Ｓ３３）。そして、文字切出部６
で計測された幾何学変換の各係数と最も近い幾何学変換
を行なった標準文字パターンと、文字切出部６で切出さ
れた各文字に対して文字領域画像に読出される前（すな
わち、幾何学逆変換される前）の状態との照合演算を行
なう（Ｓ３４）。

【００４８】ここに、幾何学変換の近さの尺度として
は、文字領域候補の幾何学変換をＡ、標準文字パターン
幾何学変換をＡ′として、‖Ａ−Ａ′‖を用いる。な
お、‖‖はベクトルのノルムである。

【００４９】また、標準文字パターンと前記切出された
文字入力パターンとの照合演算は部分空間法（文献[8]
飯島：パターン認識理論、ｐｐ１１９．参照）などを用
いてよい。

【００５０】また、上述の‖Ａ−Ａ′‖が、どの標準文
字パターンに対してもある閾値よりも大でなかった場合
には（Ｓ３５）、文字切出部６で文字領域画像内に読出
された各文字と、選択された標準文字パターンとの照合
演算を行なって、文字コードを取得する（Ｓ３６）。こ
の場合の照合演算にも、部分空間法（文献[8] 参照）な
どを用いてよい。

【００５１】さらに、上述の‖Ａ−Ａ′‖が、どの標準
文字パターンに対してもある閾値よりも大である場合に
は（Ｓ３５）、文字切出部６で文字領域画像内に読出さ
れた各文字と、幾何学変換を施す前の標準文字パターン
との照合演算を行なって、文字コードを取得する（Ｓ３
７）。この場合の照合演算にも、部分空間法（文献[8]
参照）などを用いてよい。

【００５２】次に、第２の実施の形態について説明す
る。第２の実施の形態では、テレビジョン放送画像か
ら、放送中に表示される文字情報を読取って保存、提示
することで、ユーザの利便を図るテレビジョン視聴者支
援装置に適用した場合について説明する。

【００５３】図６は、第２の実施の形態に係る文字読取
方式が適用される装置の構成を示している。この装置
は、前述した第１の実施の形態において、画像入力部１
の変わりとしてテレビジョン放送信号受信用のＮＴＳＣ
チューナと、このチューナからのＮＴＳＣ信号をデジタ
ル画像に変換するＡ／Ｄ変換器とからなる放送画像入力
部２０を使用し、あらかじめ文字領域候補学習部４によ
ってテレビジョンユーザが所望する文字情報の出やすい
シーンについての文字領域状態を学習させておき、その
学習データに基づいて文字領域候補を抽出した後、ユー
ザが確認するために画像データとして保存するととも
に、あらかじめ蓄積されていた標準文字パターンとの照
合演算により文字コードを取得し、文字コードとして照
合結果蓄積部２１に読取り時刻を付加して蓄積してお
き、後にディスプレイモニタ１０を通じて、ユーザに提
示することで利便を図るようになっている。

【００５４】次に、第３の実施の形態について説明す
る。第３の実施の形態では、搬送される荷物に添付され
たラベルなどの記録媒体に記録された配送先情報（区分
情報）を示す文字を読取って、配送先別に荷物を区分処
理する物品処理装置に適用した場合について説明する。

【００５５】図７は、第３の実施の形態に係る文字読取
方式が適用される物品処理装置の構成を示している。こ
の装置は、前述した第１の実施の形態において、下記手
段が追加されて構成されている。

【００５６】すなわち、対象物（荷物）Ｐを図示矢印方
向に搬送する搬送路１１を具備し、搬送路１１により移
動する対象物Ｐに対して、前述した各部１〜８を用いて
対象物Ｐのラベルから配送先情報を取得して、この取得
した配送先情報をバーコード変換部１２によってバーコ
ード情報化し、バーコード印刷部１３によって対象物Ｐ
上に印刷するか、対象物Ｐに添付された無線インタフェ
ースを有する非接触データ搬送部１４に対して非接触デ
ータ書込部１５を用いて書込む。

【００５７】配送先の振り分け段階においては、対象物
Ｐからバーコード読取部１６によって読取られた前記バ
ーコード情報か、非接触データ読込部１７によって得ら
れた配送先情報を、配送方面を登録した配送方面データ
ベース部１８内のデータと照合することにより搬送先指
示信号を得て、この搬送先指示信号で区分部２２を駆動
することにより、自動配送先振り分けを行なうようにな
っている。

【００５８】また、上記説明では、対象物Ｐは搬送路１
１上を搬送されるとしたが、対象物Ｐが静止しており、
対象物Ｐのラベルに対して、人間（荷物引受け担当職員
など）が配送先情報の近傍画像を可搬形画像入力部１９
によって撮像し、その後は上述の手順にしたがって自動
配送先振り分けを行なうようにしてもよい。

【００５９】ここに、非接触データ搬送部１４として
は、たとえば、無線タグがあり、その際、非接触データ
書込部１５、非接触データ読込部１７は、それらに対す
る無線ライタ、無線リーダになる。また、可搬形画像入
力部１９としては、たとえば、ハンディビデオカメラで
よい。

【００６０】上記説明では、自動配送先振り分けの例を
示したが、荷物の通し番号が荷物のラベルに記入されて
いる場合に、上記構成で通し番号を配送ターミナルごと
に読取ることによって、発送された荷物がどこのターミ
ナルまで送られたかという情報が得られ、配達状況追跡
支援を行なうことができる。

【００６１】なお、以上の説明では、画像入力部１は単
数であることを仮定して説明したが、これは単一でも、
文字認識に適当な解像度を得るために複数でもよい。特
に複数の場合の例として、対象物が撮像できる面Ｆと平
行な面Ｆ′に複数台のビデオカメラを配設し、そのうち
の１台のビデオカメラは面Ｆに配置して、対象物が存在
すると考えられる全範囲を撮像可能なものにし、残りの
ビデオカメラは面Ｆ′に配設し、前述の範囲の一部を分
担して撮像するような、より狭画角に設定する。

【００６２】この場合、文字領域候補抽出部３での文字
領域候補の抽出は、広画角カメラによって行なう。そし
て、文字領域候補の存在する位置の画像を分担している
狭画角カメラの画像を用いて、前記文字切出しの処理や
前記文字認識の処理を同様に行なう。

【００６３】また、各狭画角カメラで分担している画像
領域に重なりがある場合には、文字領域候補が存在する
狭画角カメラの画像は複数存在する場合があるが、この
場合には、それぞれのカメラでもう一度文字領域候補抽
出を行ない、標準文字領域設定部８に設定されている標
準文字領域に対して最小の幾何変換をしているものを選
択する。

【００６４】上記に加えて、前述の複数のカメラを配設
した平面を対象物からの距離に応じて更に複数用意し、
それぞれの焦点位置を変えて配設してもよい。この場合
は、各面での広画角カメラによって文字列領域候補を抽
出し、いくつかの面において、文字領域候補が実際に発
見できたとすると、それぞれの面で画像の空間微分画素
の総和を求め、この値が最大なる面では最も対象物まで
の焦点が合っていると仮定し、その面において前記１平
面での文字切出し、文字認識処理を行ない、最終的に文
字コードを求める。

【００６５】

【発明の効果】以上詳述したように本発明によれば、ス
キャナなど紙面に密着させた画像入力手段での入力が物
理的に困難であるような一般背景シーン中の移動を伴う
対象物に付随する文字を高速に読取り、文字コードをデ
ータベースに登録したり、既存のデータベースとの照合
によって、以下のような応用的な効果が得られる。

【００６６】(1) 移動対象物上の高速文字読取り機能を
用いた、荷物上の着店コード文字読取りによって荷物の
配送先振分けを、荷物の通し番号の読取りによって荷物
の配達状況追跡などが可能である。

【００６７】(2) 移動対象や、カメラ設置位置の柔軟性
により、車両ナンバの読取りによる不正通行発見、旅行
時間計測などの機能を可搬型の装置で実現可能である。 (3) テレビジョン放送画面上に表示され、あらかじめ書
式の決定された文字領域を抽出し、読取ることにより、
画面上によく表示されるが、比較的表示時間が短く、見
逃されがちな電話番号やホームページアドレス、クイズ
問題などを抽出することが可能となる。

【００６８】上記応用中、本方式では、あらかじめ様々
な撮像条件での対象文字領域を統計的に学習させてお
き、その結果を用いて文字候補領域を抽出し、認識する
ため、上記各応用のように、文字が紙面上に決まった形
式で記述されていないような場合にも、文字領域候補を
抽出することが可能であり、しかも、撮像時の光学的環
境が変動しやすい上記(1)(2)のような応用場面において
も、その影響を受けにくい。

【００６９】また、上述の文字候補領域抽出結果と文字
認識辞書作成に用いた文字領域との幾何学変換を求め
て、抽出された文字候補領域にその逆変換をかけて文字
認識を行なうため、この文字認識辞書作成時の文字候補
領域にその外形が画面の方向と平行になるようなものを
用いれば、文字候補領域から個々の文字を切出す手法が
単純になり、全体として高速な認識が可能となり、上記
(1) 〜(3) のように処理速度が重視される応用において
有利である。

【００７０】さらに、あらかじめ複数の幾何学変換を施
した文字認識用辞書のうち、上記の幾何学変換を行なっ
たものに近い辞書を選択できるため、文字認識自体の処
理速度と精度の向上が期待できる。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態に係る文字読取方式
が適用される装置の構成を示すブロック図。

【図２】文字領域候補学習部の処理手順を示すフローチ
ャート。

【図３】文字領域候補抽出部の処理手順を示すフローチ
ャート。

【図４】文字切出部の処理手順を示すフローチャート。

【図５】文字認識部の処理手順を示すフローチャート。

【図６】本発明の第２の実施の形態に係る文字読取方式
が適用されるテレビジョン視聴者支援装置の構成を示す
ブロック図。

【図７】本発明の第３の実施の形態に係る文字読取方式
が適用される物品処理装置の構成を示すブロック図。

【符号の説明】

１……画像入力部、２……画像蓄積部、３……文字領域
候補抽出部、４……文字領域候補学習部、５……文字存
在判定部、６……文字切出部、７……文字認識部、８…
…標準文字領域設定部、９……情報データベース、１０
……ディスプレイモニタ、１１……搬送路、１２……バ
ーコード変換部、１３……バーコード印刷部、１４……
非接触データ搬送部、１５……非接触データ書込部、１
６……バーコード読取部、１７……非接触データ読込
部、１８……配送方面データベース部、１９……可搬形
画像入力部、２０……放送画像入力部、２１……照合結
果蓄積部、２２……区分部。

Claims

【特許請求の範囲】

【請求項１】読取対象物の文字を含む画像を入力し、
この入力された画像から文字領域候補を抽出し、この抽
出された文字領域候補の各文字を切出し、この切出され
た各文字とあらかじめ登録された標準文字パターンとを
照合することにより、前記入力された画像中に含まれる
文字の文字コードを取得することを特徴とする文字読取
方式。
【請求項２】前記文字の切出しは、前記抽出された文
字領域候補のそれぞれに適応した手法で各文字を切出す
ことを特徴とする請求項１記載の文字読取方式。
【請求項３】前記切出された文字と標準文字パターン
との照合は、前記抽出された文字領域候補それぞれに適
応した手法で照合を行なうことを特徴とする請求項１記
載の文字読取方式。
【請求項４】読取対象物の文字を含む画像を入力する
画像入力手段と、この画像入力手段で入力された画像から文字領域候補を
抽出する文字領域候補抽出手段と、この文字領域候補抽出手段で抽出された文字領域候補の
各文字を切出す文字切出手段と、この文字切出手段で切出された文字とあらかじめ登録さ
れた標準文字パターンとを照合することにより、前記画
像入力手段で入力された画像中に含まれる文字の文字コ
ードを取得する文字認識手段と、を具備したことを特徴とする文字読取方式。
【請求項５】前記文字切出手段は、前記文字領域候補
抽出手段で抽出された文字領域候のそれぞれに適応した
手法で各文字を切出すことを特徴とする請求項４記載の
文字読取方式。
【請求項６】前記文字認識手段は、前記文字切出手段
で切出された文字と標準文字パターンとを照合する際、
前記文字領域候補抽出手段で抽出された文字領域候補そ
れぞれに適応した手法で照合を行なうことを特徴とする
請求項４記載の文字読取方式。
【請求項７】読取対象物の文字を含む画像を入力する
画像入力手段と、この画像入力手段であらかじめ読取対象物の画像が入力
された状態での対象とする文字領域の状態を学習させる
文字領域候補学習手段と、前記画像入力手段で入力された画像から、前記文字領域
候補学習手段の学習結果にしたがって文字領域候補を抽
出する文字領域候補抽出手段と、この文字領域候補抽出手段で抽出された文字領域候補の
各文字を切出す文字切出手段と、この文字切出手段で切出された文字とあらかじめ登録さ
れた標準文字パターンとを照合することにより、前記画
像入力手段で入力された画像中に含まれる文字の文字コ
ードを取得する文字認識手段と、を具備したことを特徴とする文字読取方式。
【請求項８】前記文字領域候補学習手段は、学習の入
力として、前記画像入力手段で入力された画像の全体ま
たはその画像内に局在する統計的特徴量あるいは幾何学
的特徴量を用い、学習結果として、対象とする文字領域
候補の位置、形状および光学的属性のうち少なくともい
ずれか１つを出力することを特徴とする請求項７記載の
文字読取方式。
【請求項９】前記文字切出手段は、前記文字領域候補
抽出手段で抽出された文字領域候補について、あらかじ
め設定された標準文字領域候補の形状に対してどのよう
な変形があったかを幾何学変換で近似し、前記文字領域
候補抽出手段で抽出された文字領域候補を幾何学的逆変
換することにより、前記設定された標準文字領域候補と
類似の形状にした後、各文字の切出しを行なうことを特
徴とする請求項４または７記載の文字読取方式。
【請求項１０】読取対象物の文字を含む画像を入力す
る画像入力手段と、この画像入力手段で入力された画像から文字領域候補を
抽出する文字領域候補抽出手段と、この文字領域候補抽出手段で抽出された文字領域候補内
に文字が存在しているか否かを判定する文字存在判定手
段と、この文字存在判定手段で文字が存在すると判定された文
字領域候補に対して各文字を切出す文字切出手段と、この文字切出手段で切出された文字とあらかじめ登録さ
れた標準文字パターンとを照合することにより、前記画
像入力手段で入力された画像中に含まれる文字の文字コ
ードを取得する文字認識手段と、を具備したことを特徴とする文字読取方式。
【請求項１１】前記文字切出手段は、前記文字存在判
定手段で文字が存在すると判定された文字領域候補につ
いて、あらかじめ設定された標準文字領域候補の形状に
対してどのような変形があったかを幾何学変換で近似
し、前記文字領域候補抽出手段で抽出された文字領域候
補を幾何学的逆変換することにより、前記設定された標
準文字領域候補と類似の形状にした後、各文字の切出し
を行なうことを特徴とする請求項１０記載の文字読取方
式。
【請求項１２】前記文字認識手段は、前記文字切出手
段で切出された各文字領域もそれを包含する文字領域候
補と同様な幾何学変換を受けているとものと仮定して、
各文字領域ごとに幾何学的逆変換を適用し、その結果に
対して標準文字パターンとの照合を行なうことを特徴と
する請求項９または１１記載の文字読取方式。
【請求項１３】前記文字認識手段は、標準文字パター
ンとして、１つの文字について様々なパラメータで幾何
学変換をかけて複数の標準文字パターンを作成してお
き、前記入力における幾何学変換パラメータベクトルと
前記標準文字パターンの幾何学変換パラメータベクトル
との距離が最小となる標準文字パターンと入力との照合
演算を行なって、文字コードを取得することを特徴とす
る請求項９または１１記載の文字読取方式。
【請求項１４】前記文字認識手段は、文字コードを取
得する際に、ベクトルの距離に閾値を設定しておき、前
記作成してある複数のどの標準文字パターンとの距離も
閾値より大であった場合に、前記入力から作成された各
文字領域を前記幾何学的逆変換して求められた各文字領
域と複数の標準文字パターンを作成する元になった標準
文字パターンとの照合演算を行なって、文字コードを取
得することを特徴とする請求項１３記載の文字読取方
式。
【請求項１５】前記画像入力手段は複数存在してい
て、これら各画像入力手段は空間上のほぼ同一面に配置
されており、前記文字領域候補抽出手段は、前記複数の画像入力手段
から得られる各画像に対してそれぞれ文字領域候補の抽
出を行ない、前記文字切出手段は、前記文字領域候補抽出手段で抽出
された各文字領域候補のうち、あらかじめ指定された文
字領域候補に対応する文字領域候補の画像のみを用いて
各文字の切出しを行なうことを特徴とする請求項４また
は７記載の文字読取方式。
【請求項１６】テレビジョン放送画像を入力する画像
入力手段と、あらかじめテレビジョンユーザ所望の文字の発生しやす
いシーンについての文字領域の状態を学習させる文字領
域候補学習手段と、前記画像入力手段で入力された画像から、前記文字領域
候補学習手段の学習結果にしたがって文字領域候補を抽
出する文字領域候補抽出手段と、この文字領域候補抽出手段で抽出された文字領域候補の
各文字を切出す文字切出手段と、この文字切出手段で切出された文字とあらかじめ登録さ
れた標準文字パターンとを照合することにより、前記画
像入力手段で入力された画像中に含まれる文字の文字コ
ードを取得する文字認識手段と、この文字認識手段から得られる文字コードを識別情報と
対応させて記憶する記憶手段と、を具備したことを特徴とする文字読取方式。
【請求項１７】区分情報を示す文字が記録された記録
媒体が添付されている物品を区分部へ搬送する搬送手段
と、この搬送手段で搬送される物品に添付された前記記録媒
体の画像を入力する画像入力手段と、この画像入力手段で入力された画像から文字領域候補を
抽出する文字領域候補抽出手段と、この文字領域候補抽出手段で抽出された文字領域候補の
各文字を切出す文字切出手段と、この文字切出手段で切出された文字とあらかじめ登録さ
れた標準文字パターンとを照合することにより、前記画
像入力手段で入力された前記記録媒体の画像中に含まれ
る文字を認識する文字認識手段と、この文字認識手段の認識結果を所定のコード情報に変換
するコード変換手段と、このコード変換手段から得られるコード情報を前記物品
に付与するコード情報付与手段と、前記区分部において、前記搬送手段で搬送されてくる物
品からそれに付与された前記コード情報を読取るコード
情報読取手段と、このコード情報読取手段で読取ったコード情報に応じて
前記搬送手段で搬送されてくる物品を区分する区分手段
と、を具備したことを特徴とする物品処理装置。
【請求項１８】前記画像入力手段は非接触可搬形画像
入力手段であり、オペレータがこの非接触可搬形画像入
力手段によって前記物品に添付された記録媒体の画像を
撮像することで、前記記録媒体の画像を入力することを
特徴とする請求項１７記載の物品処理装置。