JP2002342711A - 画像認識装置、画像認識方法、及び画像認識方法を実現するプログラムとこのプログラムの記録媒体 - Google Patents
画像認識装置、画像認識方法、及び画像認識方法を実現するプログラムとこのプログラムの記録媒体Info
- Publication number
- JP2002342711A JP2002342711A JP2001142992A JP2001142992A JP2002342711A JP 2002342711 A JP2002342711 A JP 2002342711A JP 2001142992 A JP2001142992 A JP 2001142992A JP 2001142992 A JP2001142992 A JP 2001142992A JP 2002342711 A JP2002342711 A JP 2002342711A
- Authority
- JP
- Japan
- Prior art keywords
- character
- word
- image
- character code
- procedure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Character Discrimination (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
Abstract
も、正しい単語が得られ、高速化が実現できる画像認識
装置、方法を提供する。 【解決手段】 文字位置検出部2は、画像入力記憶部1
からの入力画像中の文字位置を検出する。この文字位置
は文字と背景との境界により検出できる。辞書データ4
には、画像中の文字位置とそこに表示される単語の対応
関係を登録しておく。単語検索部3は、入力画像から検
出された文字位置情報を持つ辞書データ4中の単語を検
索する。結果出力部5は、検索結果を画像の認識結果と
して出力する。文字認識の結果を出力しないことで、文
字フォントのような属性情報による影響を受けにくく
し、信頼性高く単語を検索可能とする。また画像中の文
字列を抽出して文字認識して得た文字コードから単語を
検索せず、文字位置情報から単語を検索することで、画
像と対応する単語が高速に得られるようにする。
Description
る文字を認識し、その結果を辞書データを用いて単語と
して獲得し、獲得した単語を画像の認識結果とする画像
認識技術に関連するものである。
ビ放送映像などで表示されるコマーシャル画像などのよ
うに画像中の文字の表示位置などのレイアウト情報とし
て同一の画像が繰り返し現れるものを対象としたもので
ある。
結果を辞書データを用いて単語として獲得し、獲得した
単語を画像の認識結果とする画像認識技術に関しては、
従来から検討がすすめられており、文献[1]小黒ほ
か、“知識統合型文字切り出しを用いた粋なし手書き複
合語入力方式”(情報処理学会論文誌、Vol.34,
No.11.1993)、及び文献[2]荒木ほか、
“文字認識装置、文字認識方法、及び文字認識方法を実
行するプログラムを記録した記録媒体”(特願平11−
160404号)で提案された技術がある。いずれの技
術も文字が表示されている画像に対し、まず前段の処理
として文字認識を行い、文字コードを得る。次に後段の
処理として、前段で得られた文字コードに対応する単語
を予め用意された辞書データの中から検索する単語検索
処理を行う。最終的に得られた単語を画像の認識結果と
して出力する技術である。
紹介した文献[1][2]で提案されたいずれの技術に
おいても、画像中の文字認識処理の精度が低いときに、
後段の単語検索処理において正しい単語を検索すること
ができない場合があるという問題があった。前記文献
[1][2]で提案された技術では、画像中の文字パタ
ーンの認識の結果として得られる文字コード列の中に一
つでも誤りがあると単語が得られない。
提案された方法のように単語検索の前段の処理として画
像中の文字認識を行う場合、処理内容として一般に画像
の二値化、文字列の抽出、単文字毎の切り出し、と多く
の処理が存在し、処理全体に多くの時間を要する。すな
わち、従来の技術を用いてテレビ放送などの映像中の画
像をリアルタイムに認識して単語を得ようとした場合、
利用者にとって結果が得られるまでに長い待ち時間が生
じるという問題点がある。
し、画像中の文字認識処理の結果に誤りがある場合で
も、画像認識結果として正しい単語を得ること、及び処
理の高速化を実現する画像認識装置とその方法を提供す
ることを課題としている。
に本発明1の画像認識装置は、複数の画素値からなる画
像データにおいて、所定数以上のエッジ画素数をもつ画
素位置から文字位置の座標を検出する文字位置検出部
と、予め文字位置の座標と文字列である単語とを対応づ
けて記録した辞書データ記録部と、前記辞書データ記録
部を用いて、前記検出された文字位置の座標に対応した
単語を取得する単語検索部とを具備することを特徴とす
る。
の画像認識装置は、複数の画素値からなる画像データに
おいて、所定数以上のエッジ画素数をもつ画素位置から
文字位置の座標を検出する文字位置検出部と、前記文字
位置検出部で検出された文字位置を含む部分画像中の文
字パターンを認識し、前記認識した文字パターンと文字
コードとの対応関係を記録したデータベースを用いて文
字コード列を得る文字認識部と、予め文字位置の座標と
文字列である単語と単語に対応する文字コード列を対応
づけて記録した辞書データ記録部と、前記辞書データ記
録部を用いて、前記文字認識部で得られた文字コード列
に対応する単語を前記検出された文字位置の座標に対応
した単語の文字コード列から検索して取得する単語検索
部とを具備することを特徴とする。
単語検索部が、文字認識部で得られる文字コード列と辞
書データ記録部の辞書データ中の各単語に関連付けられ
た文字コード列を比較し、一致する文字コードの個数に
応じた文字コード一致度を求める文字コード列比較部
と、前記辞書データ中の各単語について前記文字コード
列比較部により得られた文字コード一致度の中でその値
が最も一致する文字コード一致度を選択し、前記選択さ
れた文字コード一致度を持つ単語を最終的な単語検索結
果とする一致度選択部とを具備することを特徴とする。
単語検索部の検索において文字位置検出部で検出された
画像中の文字位置に単語が存在しなかった場合、前記文
字位置の座標を新規に辞書データ記録部に登録する文字
位置登録部と、前記単語検索部の検索において文字認識
部で得られた文字コード列に対応する単語が前記位置検
出部で検出された画像中の文字位置に存在しなかった場
合、前記文字コード列を当該文字位置の座標に対応づけ
て新規に辞書データ記録部に登録する文字コード列登録
部とを具備することを特徴とする。
の画像認識方法は、複数の画素値からなる画像データに
おいて、所定数以上のエッジ画素数をもつ画素位置から
文字位置の座標を検出する文字位置検出手順と、予め文
字位置の座標と文字列である単語とを対応づけて記録し
た辞書データ記録部を用いて、前記検出された文字位置
の座標に対応した単語を取得する単語検索手順とを有す
ることを特徴とする。
の画像認識方法は、複数の画素値からなる画像データに
おいて、所定数以上のエッジ画素数をもつ画素位置から
文字位置の座標を検出する文字位置検出手順と、前記文
字位置検出手順で検出された文字位置を含む部分画像中
の文字パターンを認識し、前記認識した文字パターンと
文字コードとの対応関係を記録したデータベースを用い
て文字コード列を得る文字認識手順と、予め文字位置の
座標と文字列である単語と単語に対応する文字コード列
を対応づけて記録した辞書データ記録部を用いて、前記
文字認識手順で得られた文字コード列に対応する単語を
前記検出された文字位置の座標に対応した単語の文字コ
ード列から検索して取得する単語検索手順とを有するこ
とを特徴とする。
単語検索手順では、文字認識手順で得られた文字コード
列と辞書データ記録部の辞書データ中の各単語に関連付
けられた文字コード列を比較し、一致する文字コードの
個数に応じた文字コード一致度を求める文字コード列比
較手順と、前記辞書データ中の各単語について前記文字
コード列比較手順により得られた文字コード一致度の中
でその値が最も一致する文字コード一致度を選択し、前
記選択された文字コード一致度を持つ単語を最終的な単
語検索結果とする一致度選択手順とを有することを特徴
とする。
単語検索手順に続いて、前記単語検索手順の検索におい
て文字位置検出手順で検出された画像中の文字位置に単
語が存在しなかった場合、前記文字位置の座標を新規に
辞書データ記録部に登録する文字位置登録手順と、前記
単語検索手順の検索において文字認識手順で得られた文
字コード列に対応する単語が前記位置検出手順で検出さ
れた画像中の文字位置に存在しなかった場合、前記文字
コード列を当該文字位置の座標に対応づけて新規に辞書
データ記録部に登録する文字コード列登録手順とを有す
ることを特徴とする。
を、コンピュータに実行させるプログラムとしたことを
特徴とする。また、この画像認識方法を実現するプログ
ラムを、コンピュータが読み取り可能な記録媒体に記録
したことを特徴とする。
て、文字の濃淡値と文字周囲の背景の濃淡値の差が大き
いということがあげられる。つまり画像中で濃淡値が局
所的に激しく変化する部分を抽出することで画像中の文
字の存在位置を獲得することができる。
ータ内に登録しておき、入力画像から獲得された文字の
位置と同じ位置情報を持つ辞書データ中の単語を画像の
認識結果とするため、画像中の文字列を抽出して文字認
識して得た文字コードから単語を検索した結果を出力し
なくとも、画像と対応する単語を得ることが可能とな
る。文字の位置情報は前記のとおり文字と周囲の背景と
の境界さえ分かれば検出でき、文字認識の結果の文字コ
ード情報のように文字フォントのような属性情報による
影響は受けにくく、信頼性高く画像中の単語を求めるこ
とができるため、文字認識結果を出力する従来技術の場
合に比べ、より効果的かつ信頼性高く単語情報を獲得す
ることが可能である。また従来のように画像中の文字列
を抽出して文字認識して得た文字コードから単語を検索
する文字認識を行わずに、文字の位置情報から単語を特
定するため、従来技術に比べ短い時間で単語を検索する
ことが可能となる。
用した単語検索だけでは正しい単語を一つに絞り込めな
い場合があっても、画像中の文字パターンを認識した結
果を用いて単語の検索を行うことで、一つの単語に絞り
込むことが可能である。また、この文字パターンの認識
を行う際には、前段で画像中の文字を含む部分矩形が得
られているため、入力画像全体に対して文字認識を行わ
なくとも済むため、従来技術にくらべ短い時間で文字認
識を行うことが可能である。
結果の文字コード列と辞書データ中の文字位置に対応す
る文字コード列を比較して検索する際に、両者が部分的
に一致していれば、一致する部分文字コード列の個数に
応じて文字コード一致度を設定するため、従来技術のよ
うに文字コード列の比較基準を完全一致としていた場合
に比べ、文字コード列の内容をより詳細に反映した比較
が可能である。
する辞書データの情報として予め画像中の文字の位置検
出結果、及びそこに表示されている文字の認識結果を登
録し、これらを単語検索のための比較用データとするこ
とで、既に登録されている比較用データと同様のデータ
を持つ画像が入力された場合に、従来の技術のように単
語そのものを比較用データとする場合と比べ、文字位置
検出、及び文字認識の結果に誤りが含まれたとしても、
より高精度に正しい単語を得ることが可能となる。
て図面を参照して説明する。
認識装置の具体的な構成を示すブロック図である。本実
施形態例の画像認識装置における各部の機能について説
明する。
映像中に含まれるテロップ文字が表示された濃淡画像を
コンピュータ上のメモリ等の記憶装置に読み込む。な
お、本発明における濃淡画像とはカラー画像、グレイス
ケール画像、二値画像などを指し、画像中の各画素が濃
淡を表現する値を持つものを意味するものである。
で入力された画像データにおいて画像中の文字が表示さ
れている位置を検出する。画像中の文字の位置を検出す
る方法としては、例えば文献[3]桑野ほか、“エッジ
密集度によるテロップ文字フレーム検出誤り抑制法”
(1997、電子情報通信学会ソサイエティ大会予稿
集、D−12−22)、及び[4]桑野ほか、“二段階
ライン単位二値化による低解像度テロップ文字領域抽
出”(2000、電子情報通信学会ソサイエティ大会予
稿集、D−12−20)で提案されている方法で実現可
能である。
れた画像中の文字の表示位置に対応する単語を予め用意
された辞書データ4から検索する。
として作成、管理することが可能である。
例えば、文字位置検出部2で得られた文字の位置を文字
を囲む矩形の座標値と辞書データ中に予め登録されてい
る各単語に付随する座標値とを比較し、座標値同士の距
離が最も小さい座標値と対応する単語を検索結果とする
ことで実現可能である。
単語をコンピュータ上のディスプレイ等にテキストとし
て表示する。
記第1実施形態例による画像認識装置における文字位置
検出部2での処理を前記文献[3]で提案されている方
法を用いて実行した場合の処理過程を示した図である。
た画像であり、図2(b)は(a)の画像中の濃淡値の
変化の激しい画素をエッジ画素として検出し、黒画素と
して表示した結果を模式的に示したものである。図2
(b)より文字部分から多くの黒画素が検出されている
ことが分かる。エッジ画素の具体的な検出過程の例とし
ては、注目する画素の画素値と横または縦に隣接する画
素値との差の絶対値が所定の閾値よりも大きい場合、そ
の注目する画素をエッジ画素とする。
る。
座標)方向に一列ずつエッジ画素をカウントした結果の
分布を示したものである。図2(d)より文字に相当す
る部分で山ができていることが分かる。
めた一定値以上のカウント数を持ち、上下に連続する縦
座標方向の座標値を取り出し、その両端の位置で分布中
の山状部分を囲んだ図である。
分を囲む縦座標位置に対応する図2(a)の画像中の水
平方向のラインを黒く表示した図である。
に相当する部分の走査線が選択されていることが分か
る。水平方向のラインと画像の左右の両端の垂直方向の
ラインとで囲まれる矩形の座標値を文字の表示位置情報
として獲得することが可能となる。なお、文字を囲む矩
形の座標値としては、文字に相当する部分のエッジ画素
と判断された座標値のうち横座標の最大・最小値、縦座
標の最大・最小値、の組み合わせからなる計4点の座標
値により求めることもできる。この場合には、水平方向
のみならず、上記のエッジ画素のカウントを垂直(縦座
標)方向にも一列ずつ行って水平方向の文字位置を推定
する処理が必要である。
記第1実施形態例による画像認識装置における単語検索
部3での処理、及び辞書データ4の内容を説明するため
の図面である。
態例の文字位置検出部2で得られた文字位置を示す矩形
を黒い線で表した図である。文字の位置情報として矩形
の左隅の垂直座標と高さを利用すると(左隅の垂直座
標、高さ)=(421,20)である。
4の具体的な内容を示した図である。図3(b)中の
「http://www.looloo.co.jp」
というインターネット上のホームページのアドレスを示
す文字列が単語であり、これに対応する画像中の座標が
下に表示されている(421,20)である。同様に図
3(b)中の「http://www.hoge.c
o.jp」も単語であり、これに対応する画像中の座標
として(380,11)が示されている。
(a)と図3(b)の情報を比較する場合、図3(a)
の(421,20)という座標と距離が最も小さい辞書
データ中の座標として「http://www.loo
loo.co.jp」という単語と対応した座標(42
1,20)が選択され、単語検索結果として「htt
p://www.looloo.co.jp」が得られ
る。
記第1実施形態例による画像認識装置における結果出力
部5での処理を説明するための図面である。
で囲んだ図であり、前記第3実施形態例より画像認識結
果の単語として「http://www.loolo
o.co.jp」というインターネット上のホームペー
ジのアドレス情報が得られたものとする。
w.looloo.co.jp」のアドレスを持つホー
ムページを画像認識結果として表示した場合の図であ
る。
ビの放送映像を取り込み、図4(a)のようにテロップ
文字としてインターネット上のホームページのアドレス
が表示された画像データを認識処理することで、図4
(b)のように実際のホームページを表示し閲覧するこ
とが可能となる。
像認識装置の具体的な構成を示すブロック図である。
像入力記憶部51ではテレビ放送などの映像中に含まれ
るテロップ文字が表示された画像をコンピュータ上のメ
モリ等の記憶装置に読み込む。
で入力された画像データにおいて画像中の文字が表示さ
れている位置を検出する。画像中の文字の位置を検出す
る方法としては、例えば前記文献[3]で提案されてい
る方法で実現可能である。
られた画像中の文字の表示位置、あるいは文字認識部5
5で得られる文字コードに対応する単語を予め用意され
た辞書54データの中から検索する。検索の方法として
は例えば、文字位置検出部52で得られた文字の位置情
報を文字を囲む矩形の座標と辞書中に予め登録されてい
る全ての単語に付随する座標とを比較し、座標同士の距
離が最も小さい辞書データ中の座標と対応する単語を検
索結果とすることで実現可能である。また、辞書データ
54はコンピュータ上のファイルとして作成、管理する
ことが可能である。
入力された画像データ、及び文字位置検出部52で得ら
れた画像中の文字の位置情報に基づき、予め決められた
方法で入力画像中の文字を含む部分画像中の文字パター
ンを認識し、文字パターンと文字コードとの対応関係を
記録したデータベースを用いることで文字パターンから
文字コードを得る。具体的な文字認識の方法としては、
例えば前記の前記文献[4]、及び文献[5]森ほか、
“背景・文字の形状特徴と動的修正識別関数を用いた映
像中テロップ文字認識”(電子情報通信学会論文誌、D
−II,Vol.J83−D−II,No.7,pp.
1658−1666)で提案された方式で実現すること
が可能である。
れた単語をコンピュータ上のディスプレイ等にテキスト
として表示する。
認識方法の具体的な処理フローを示すフローチャートで
ある。
ビ放送などの映像中に含まれるテロップ文字が表示され
た濃淡画像をコンピュータ上のメモリ等の記憶装置に読
み込み、文字位置検出手順62へ進む。
順61で入力された画像データにおいて画像中の文字が
表示されている位置を検出し、文字位置検索手順63へ
進む。
出手順62で得られた画像中の文字の表示位置に対応す
る単語を予め用意された辞書データから検索し、検索結
果の単語が1個以下の場合は結果出力手順67へ進み、
2個以上の場合は文字認識手順64に進む。
1で入力された画像データ、及び文字位置検出手順62
で得られた画像中の文字の位置情報に基づき、入力画像
中の文字を含む部分画像中の文字パターンを認識し、文
字コード列として獲得し文字コード列検索手順65へ進
む。
順64で得られた文字コード列と対応する単語を予め用
意された辞書データ(データベース)から検索し、結果
出力手順66へ進む。
3、及び文字コード列検索手順65で得られた単語をコ
ンピュータ上のディスプレイ等にテキストとして表示す
る。
記第6実施形態例の画像認識方法の文字位置検索手順に
おける具体的な処理例を実際の画像データ、及び辞書デ
ータを用いて説明する図面である。
文字位置検出手順62で検出された文字表示位置として
の座標値(421,20)を示すものである。
いられる辞書データの内容を示したものである。単語と
座標が交互に存在し、単語を上、座標を下とする連続す
る1つずつの単語と座標が1組の辞書データ中の情報単
位である。
合致する辞書データ中の検索結果の座標は2つ存在し、
それぞれ対応する単語情報は図7(b)に示すように
「http://www.looloo.co.jp」
と「http://www.hoge.co.jp」と
なり、結果として2種類の異る意味を持つ単語が得られ
たこととなる。
の単語を出力しても良いが、更に結果を絞り込むため
に、文字位置の座標で検索した結果が2個以上存在する
場合は、文字認識結果の文字コードを用いて単語検索を
行う処理に進む。
めないので文字認識処理まで行い、文字コード列を用い
て単語検索を行うこととなる。
記第5、第6実施形態例による文字認識部、及び文字認
識手順における文字認識対象の部分画像を選択する方式
を説明する図面である。
[3]で提案された方法などの予め決められた方法を使
って検出された画像中の文字位置を示す矩形を示したも
のである。
した図である。文字列「www.looloo.co.
jp」のうち、「l」の上部と「j」がの下部が切れて
いる様子を示した図である。前記文献[3]で提案され
た方法などの自動的に検出する文字矩形は必ずしも文字
パターンを完全に包含するとは限らないため、図8
(b)の矩形に対して文字認識を行っても完全に正しい
文字認識結果は得られない。正しい文字認識結果を得る
には文字パターンを完全に包含する矩形を文字認識の入
力画像とする必要がある。
定幅だけ広げた範囲を示す図であり、文字列「www.
looloo.co.jp」が完全に含まれている。す
なわち、本発明の第5、第6実施形態例の文字認識部、
及び文字認識手順では図8(b)のような自動検出され
た矩形の上下に一定幅だけ広げた範囲の画像を入力画像
として選択する。
含む画像を選択し、文字認識処理することは入力画像全
体に対して文字認識処理を行う場合に比べて、処理量が
少なく済むためコンピュータなどで計算に費す時間が短
く済むという効果がある。
記第5、第6実施形態例の単語検索部を構成する文字コ
ード列比較部、及び文字コード列比較手順の具体的な処
理を説明するために必要な入力画像の例、文字認識結果
の例、及び辞書データの例を示したものである。
る。「www.looloo.co.jp」という文字
が表示された画像を模式したものである。
した結果として得られた文字コード列を示したものであ
る。「wWw.lo0loo.co.jp」という文字
コード列として得られており、誤認識を含んだものであ
ることを示している。
のである。単語「http://www.loolo
o.co.jp」に対応する座標として(421,2
0)が設定されている。また、単語「http://w
ww.looloo.co.jp」に対応する文字コー
ド列は、単語を特定する文字コード列「looloo」
を登録するが、文字認識結果の文字コード列との間で部
分的な一致も含めた比較を行うため、「looloo」
を更に複数の部分文字列に分割して登録しておく。
コード列を連続する2文字の部分文字列に分割し、各部
分文字列は前後の部分文字列と1文字だけ重複する形で
登録する。なお、部分文字列としては、3文字以上のも
のを登録してもよい。
の部分文字列に分割すると「lo」「ol」「oo」の
3種類となるが、前後の部分文字列と1文字だけ重複す
るように選択すると「lo」「oo」「ol」「lo」
「oo」の5種類となる。図9(c)に示すように、こ
の5種類の部分文字列コードを辞書データとして登録す
る。
(c)に示すように単語「http://www.ho
ge.co.jp」に対応する文字コード列として「h
o」「og」「ge」の3種類の部分文字コード列が登
録される。
の2文字あるいは3文字以上の部分文字コード列として
おき、各部分文字コード列毎に文字認識結果の文字コー
ド列と比較することで、単語と文字認識結果の部分的な
一致を含めた比較を行うことが可能となる。比較の具体
的な手順を実施形態例10で示す。
し、前記第5、第6実施形態例における画像認識装置、
画像認識方法の単語検索部を構成する文字コード列比較
部、一致度判断部、及び文字コード列比較手順、一致度
判断手順における具体的な処理フローを示すフローチャ
ートである。
ての前提条件として、Iは辞書データ中の単語の番号を
示すカウンタ変数である。
る部分文字コード列の番号を示すカウンタ変数である。
れる文字コード列を示すものである。
の部分文字コード列であり、I番目の単語のJ番目の部
分文字コード列であることを示すものである。
目の単語の文字コード一致度を示すものであり、初期状
態として辞書データ中のN個の単語についてA(0)〜
A(N)は全て0が設定されている。またNは辞書中の
全ての単語情報の個数を示すものである。
対応する部分文字コード列の個数を示すものである。
の中の最大値を求める関数を意味するものである。
ートを説明する。
期化し、ステップ82へ進む。
期化し、ステップ83へ進む。
ing2(I,J)を比較し、一致する場合はステップ
84へ進み、一致しない場合はステップ85へ進む。
(I)を1だけ増やし、ステップ85へ進む。
(I)未満の場合はステップ86へ進み、C(I)未満
でない場合はステップ87へ進む。
やし、ステップ83へ進む。
分文字コード列の個数C(I)で割り、正規化処理を行
い、ステップ88へ進む。
の場合、ステップ89へ進み、N未満でない場合はステ
ップ90に進む。
増やし、ステップ82へ進む。
算し、ステップ91へ進む。
応する辞書中の単語情報を最終的な照合結果として判断
する。
び辞書データの場合の単語検索過程を図10のフローチ
ャートを通して説明する。
果「wWw.lo0loo.co.jp」とし、辞書デ
ータ中の1番目の単語を図9(c)で示すように「ht
tp://www.looloo.co.jp」、2番
目の単語を同じく「http://www.hoge.
co.jp」とする。この場合、Nは2であり、C
(1)は5,C(2)は3である。すなわち、カウンタ
変数Iが1、カウンタ変数Jが1の場合のString
2(I,J)は「lo」となる。
テップ90の段階で文字コード一致度A(1)は0.8
0、文字コード一致度A(2)は0であり、MAX(A
(I))は0.80となり、ステップ91で得られる最
終的な照合結果の単語は「http://www.lo
oloo.co.jp」となる。
けでは単語を一つに絞りきれなかったが、文字認識結果
まで比較することで単語を一つに絞ることができる。
一致という基準で行っていたが、前記のように部分的な
一致も含めて比較することで文字コードの内容をより詳
細に反映した比較が可能である。
比較し、一致する文字の個数に応じた値を設定する。以
下に二つの文字コード列String1=abcdef
とString2=abccdefが存在する場合具体
例を示す。
つずらしながら重ね合わせ、最も共通する文字数が多い
ときの共通文字数を比較対象の二つの文字コード列のう
ちどちらか一方の文字コード列の文字数で割った値。
両者を重ね合わせて、最も共通する部分が多い場合は、
cdefの部分が一致したときである。cdefの文字
数4を文字数の多い文字コード列String2の文字
数10で割るとすると、文字コード一致度は4/10=
0.40となる。
えて重ね合わせ一致する文字の個数を比較対象の二つの
文字コード列のうちどちらか一方の文字コード列の文字
数で割った値。
先頭を揃えると一致する文字はabcの3個である。こ
れを文字数の多い文字コード列String2の文字数
10で割るとすると、文字コード一致度は3/10=
0.30となる。
らか一方を基準とし、基準として選択された文字コード
列中の各文字のうち、他方の文字コード列の中に存在す
る文字の個数を基準として選択された文字コード列の文
字数で割った値。
String1を基準とすると、String1の各文
字でString2に含まれる文字はa,b,c,d,
e,fの6文字である。これを基準として選択された文
字コード列String1の文字数6で割るとすると、
文字コード一致度は6/6=1.0となる。前記第10
実施形態例で説明した文字コード一致度は本具体例に基
づいた方法で求められたものである。
文字位置登録部、文字位置登録手順、及び文字コード列
登録部、文字コード列登録手順における具体的な処理例
を説明するための図面である。
中の文字認識対象の矩形を黒い枠で囲んで示したもので
ある。矩形の位置情報として(矩形の左上隅の垂直座
標、矩形の高さ)=(421,20)が得られているも
のである。
い枠で囲まれた部分を前記文献[4][5]で提案され
た方法を用いて文字認識した結果である。
各文字パターンに対しての文字認識結果であり、各行と
も1個の文字コードと[]で囲まれた数値情報のペアが
10個並んでいる様子を示したものである。各行の中の
前記文字コードと数値の各ペアのうち、文字コードが具
体的な文字認識結果であり、数値は文字認識結果として
の信頼性を示す数値であり、数値が小さいほど信頼性が
高いことを示す。つまり、各行で左側に位置する文字コ
ードほど文字認識結果としての信頼性が高いことを意味
し、ここでは一番左の文字コードを文字認識結果の第一
候補とし、以下右側にいくにつれ第二候補、第三候補、
…、とし一番右側の文字コードを第十候補とする。図1
1(a)より入力画像中の文字パターンがインターネッ
ト情報ホームページのアドレスを示す「www.loo
loo.co.jp」であるのに対し、図11(b)に
示す文字認識結果の第一候補の文字コード列は「v6w
qooqoocoJp」として得られており、実際の入
力文字パターンと比較すると誤りが多く、第十候補まで
みても正しい文字コードは完全には得られていない。特
にホームページのアドレスを特定する「looloo」
の部分が「qooqoo」と全く異る文字コードとして
得られている。
場合、前記第9、第10実施形態例で示すように単語の
文字コード列を文字認識結果との比較に用いると、一致
する部分が存在せず、正しい単語が得られない場合があ
る。
w.looloo.co.jp」に対応する部分文字コ
ード列として単語の文字コード列ではなく、図11
(b)に示す文字認識結果の文字コード列「qooqo
o」の部分を第9実施形態例のように部分文字コード列
に分割し、「qo」「oo」「oq」「qo」「oo」
の5種類を登録したものを示した図である。
記の図10のフローチャートを通して説明する。Str
ing1を文字認識結果の第一候補文字コード列「v6
wqooqoocoJp」とし、辞書データ中の1番目
の単語を「http://www.looloo.c
o.jp」、2番目の単語を「http://www.
hoge.co.jp」とする。Nは2であり、C
(1)は5,C(2)は3である。すなわち、カウンタ
変数Iが1、カウンタ変数Jが1の場合のString
2(I,J)は「qo」となる。
テップ90の段階でA(1)は1,A(2)は0であ
り、MAX(A(I))は1となり、ステップ91で得
られる単語は「http://www.looloo.
co.jp」となる。
部分文字コード列を辞書データに登録しておくことで、
前記第9、第10実施形態例で示すように単語の文字コ
ード列を直接辞書データに登録する場合に比べ、文字認
識結果が誤った場合でも正しい単語と照合させることが
可能となる。
し、前記第11実施形態例による画像認識方法における
具体的な処理フローを示すフローチャートである。
レビ放送などの映像中に含まれるテロップ文字が表示さ
れた画像をコンピュータ上のメモリ等の記憶装置に読み
込み、文字位置検出手順122へ進む。
手順121で入力された画像データにおいて画像中の文
字が表示されている位置を検出し、文字位置検索手順1
23へ進む。
検出手順122で得られた画像中の文字の表示位置に対
応する単語を予め用意された辞書データから検索し、検
索結果の単語が存在すれば単語数判断手順124へ進
み、検索結果が存在しなければ文字位置登録手順125
へ進む。
順123で検索された単語が1個以下の場合は結果出力
手順126へ進み、2個以上の場合は文字認識手順12
6に進む。
出手順122で得られた文字位置を未登録情報として新
規に辞書データに登録する。
121で入力された画像データ、及び文字位置検出手順
122で得られた画像中の文字の位置情報に基づき、入
力画像中の文字を含む部分画像中の文字パターンを認識
し、文字コード列として獲得し、文字コード列検索手順
127へ進む。
手順126で得られた文字コード列と対応する単語を予
め用意された辞書データから検索し、検索結果が存在す
れば結果出力手順128へ進む。検索結果が存在しない
場合は文字コード列登録手順129に進む。
124、及び文字コード列検索手順127で得られた単
語をコンピュータ上のディスプレイ等にテキストとして
表示する。
識手順126で得られた文字コード列を未登録情報とし
て当該文字位置に関連づけて新規に辞書データに登録す
る。
レビ映像を視聴する際に、テレビ映像中にインターネッ
トのホームページのアドレス情報がテロップとして表示
された場合、本実施形態例のフローによれば該テロップ
が検索されると、対応するインターネット上のホームペ
ージを表示することが可能となる。例えばテロップに示
されたアドレスのサイトに対してアクセスすることによ
って、そのサイトの情報を取得してホームページ等を閲
覧することができる。また、検索されない場合は、辞書
データに新規登録されるため、同じテロップが次に現れ
た場合は、ホームページを表示することが可能となる。
他のデータベースを記録手段(記録部)に蓄えて、図1
及び図5などで示した各部の一部もしくは全部の機能を
コンピュータ(CPU)のプログラムで構成し、そのプ
ログラムをコンピュータを用いて実行して本発明を実現
することができること、あるいは、図6、図10及び図
12などで示した処理の手順をコンピュータのプログラ
ムで構成し、そのプログラムをコンピュータに実行させ
ることができることは言うまでもなく、コンピュータで
その機能を実現するためのプログラム、あるいは、コン
ピュータにその処理の手順を実行させるためのプログラ
ムを、そのコンピュータが読み取り可能な記録媒体、例
えば、FD(フロッピーディスク(登録商標))や、M
O、ROM、メモリカード、CD、DVD、リムーバブ
ルディスクなどに記録して、保存したり、配布したりす
ることが可能である。また、上記のプログラムをインタ
ーネットや電子メールなど、ネットワークを通して提供
することも可能である。このようにして、保存、配布あ
るいは提供されたプログラムを、記録媒体や通信回線か
らコンピュータにインストールして本発明を実現あるい
は本発明の処理を実行することが可能である。
字が表示されている画像を単語として認識する際に、画
像中の文字の位置を元に単語の検索を行うことで、従来
技術のように画像中の文字列を抽出して文字認識して得
た文字コードから単語を検索する文字認識の結果を用い
なくとも、画像認識の結果を得ることが可能となる。
る単語が複数あって特定できない場合においても、文字
パターンの認識まで行った結果を用いて単語を検索する
ことで単語を特定することが可能となる。
る際に辞書データ中の文字コード列と部分的な一致も含
めて比較することで従来技術よりも文字認識結果の内容
をより詳細に反映した比較を行うことが可能となる。
タに登録しておくことで、文字認識結果に誤りが含まれ
ていても、従来よりも高精度に単語を検索することが可
能となる。
して得た文字コードから単語を検索するという文字認識
を行わず、文字の位置を検出するだけで単語の検索を行
うため、従来技術よりも高速な処理が可能となる。
に検出した文字の位置の情報を用いることで、画像全体
ではなく文字が表示されている局所的な部分画像を対象
とした処理で済むため、やはり従来より高速な処理が可
能となる。
の具体的な構成を示すブロック図である。
形態例を示し、前記第1実施形態例の画像認識装置にお
ける文字位置検出部2での処理を文献[3]で提案され
ている方法を用いて実行した場合の処理過程を示した図
である。
示し、前記第1実施形態例の画像認識装置における単語
検索部3での処理、及び辞書データ4の内容を説明する
ための図である。
形態例の画像認識装置における結果出力部5での処理を
説明するための図である。
の具体的な構成を示すブロック図である。
の具体的な処理フローを示すフローチャートである。
示し、前記第6実施形態例の画像認識方法の文字位置検
索手順における具体的な処理例を実際の画像データ、及
び辞書データを用いて説明する図である。
形態例を示し、前記第2、第6実施形態例の文字認識
部、及び文字認識手順における文字認識対象の部分画像
を選択する方式を説明する図である。
形態例における文字コード列比較部、文字コード列比較
手順の具体的な処理を説明するために必要な入力画像の
例、文字認識結果の例、及び辞書データの例を示した図
である。
実施形態例の画像認識装置、画像認識方法の文字コード
列比較部、一致度判断部、及び文字コード列比較手順、
一致度判断手順における具体的な処理フローを示すフロ
ーチャートである。
実施形態例における文字位置登録部、文字位置登録手
順、及び文字コード列登録部、文字コード列登録手順に
おける具体的な処理例を説明するための図である。
1実施形態例の画像認識方法における具体的な処理フロ
ーを示すフローチャートである。
Claims (10)
- 【請求項1】 複数の画素値からなる画像データにおい
て、所定数以上のエッジ画素数をもつ画素位置から文字
位置の座標を検出する文字位置検出部と、 予め文字位置の座標と文字列である単語とを対応づけて
記録した辞書データ記録部と、 前記辞書データ記録部を用いて、前記検出された文字位
置の座標に対応した単語を取得する単語検索部とを具備
することを特徴とする画像認識装置。 - 【請求項2】 複数の画素値からなる画像データにおい
て、所定数以上のエッジ画素数をもつ画素位置から文字
位置の座標を検出する文字位置検出部と、 前記文字位置検出部で検出された文字位置を含む部分画
像中の文字パターンを認識し、前記認識した文字パター
ンと文字コードとの対応関係を記録したデータベースを
用いて文字コード列を得る文字認識部と、 予め文字位置の座標と文字列である単語と単語に対応す
る文字コード列を対応づけて記録した辞書データ記録部
と、 前記辞書データ記録部を用いて、前記文字認識部で得ら
れた文字コード列に対応する単語を前記検出された文字
位置の座標に対応した単語の文字コード列から検索して
取得する単語検索部とを具備することを特徴とする画像
認識装置。 - 【請求項3】 単語検索部が、 文字認識部で得られる文字コード列と辞書データ記録部
の辞書データ中の各単語に関連付けられた文字コード列
を比較し、一致する文字コードの個数に応じた文字コー
ド一致度を求める文字コード列比較部と、 前記辞書データ中の各単語について前記文字コード列比
較部により得られた文字コード一致度の中でその値が最
も一致する文字コード一致度を選択し、前記選択された
文字コード一致度を持つ単語を最終的な単語検索結果と
する一致度選択部とを具備することを特徴とする請求項
2に記載の画像認識装置。 - 【請求項4】 単語検索部の検索において文字位置検出
部で検出された画像中の文字位置に単語が存在しなかっ
た場合、前記文字位置の座標を新規に辞書データ記録部
に登録する文字位置登録部と、 前記単語検索部の検索において文字認識部で得られた文
字コード列に対応する単語が前記位置検出部で検出され
た画像中の文字位置に存在しなかった場合、前記文字コ
ード列を当該文字位置の座標に対応づけて新規に辞書デ
ータ記録部に登録する文字コード列登録部とを具備する
ことを特徴とする請求項2または3に記載の画像認識装
置。 - 【請求項5】 複数の画素値からなる画像データにおい
て、所定数以上のエッジ画素数をもつ画素位置から文字
位置の座標を検出する文字位置検出手順と、 予め文字位置の座標と文字列である単語とを対応づけて
記録した辞書データ記録部を用いて、前記検出された文
字位置の座標に対応した単語を取得する単語検索手順と
を有することを特徴とする画像認識方法。 - 【請求項6】 複数の画素値からなる画像データにおい
て、所定数以上のエッジ画素数をもつ画素位置から文字
位置の座標を検出する文字位置検出手順と、 前記文字位置検出手順で検出された文字位置を含む部分
画像中の文字パターンを認識し、前記認識した文字パタ
ーンと文字コードとの対応関係を記録したデータベース
を用いて文字コード列を得る文字認識手順と、 予め文字位置の座標と文字列である単語と単語に対応す
る文字コード列を対応づけて記録した辞書データ記録部
を用いて、前記文字認識手順で得られた文字コード列に
対応する単語を前記検出された文字位置の座標に対応し
た単語の文字コード列から検索して取得する単語検索手
順とを有することを特徴とする画像認識方法。 - 【請求項7】 単語検索手順では、 文字認識手順で得られた文字コード列と辞書データ記録
部の辞書データ中の各単語に関連付けられた文字コード
列を比較し、一致する文字コードの個数に応じた文字コ
ード一致度を求める文字コード列比較手順と、 前記辞書データ中の各単語について前記文字コード列比
較手順により得られた文字コード一致度の中でその値が
最も一致する文字コード一致度を選択し、前記選択され
た文字コード一致度を持つ単語を最終的な単語検索結果
とする一致度選択手順とを有することを特徴とする請求
項6に記載の画像認識方法。 - 【請求項8】 単語検索手順に続いて、 前記単語検索手順の検索において文字位置検出手順で検
出された画像中の文字位置に単語が存在しなかった場
合、前記文字位置の座標を新規に辞書データ記録部に登
録する文字位置登録手順と、 前記単語検索手順の検索において文字認識手順で得られ
た文字コード列に対応する単語が前記位置検出手順で検
出された画像中の文字位置に存在しなかった場合、前記
文字コード列を当該文字位置の座標に対応づけて新規に
辞書データ記録部に登録する文字コード列登録手順とを
有することを特徴とする請求項6または7に記載の画像
認識方法。 - 【請求項9】 請求項5,6,7,8のいずれか1項に
記載の画像認識方法における手順を、コンピュータに実
行させるプログラムとしたことを特徴とする画像認識方
法を実現するプログラム。 - 【請求項10】 請求項9に記載の画像認識方法を実現
するプログラムを、コンピュータが読み取り可能な記録
媒体に記録したことを特徴とする画像認識方法を実現す
るプログラムを記録した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001142992A JP3817442B2 (ja) | 2001-05-14 | 2001-05-14 | 画像認識装置、画像認識方法、及び画像認識方法を実現するプログラムとこのプログラムの記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001142992A JP3817442B2 (ja) | 2001-05-14 | 2001-05-14 | 画像認識装置、画像認識方法、及び画像認識方法を実現するプログラムとこのプログラムの記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002342711A true JP2002342711A (ja) | 2002-11-29 |
JP3817442B2 JP3817442B2 (ja) | 2006-09-06 |
Family
ID=18989197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001142992A Expired - Lifetime JP3817442B2 (ja) | 2001-05-14 | 2001-05-14 | 画像認識装置、画像認識方法、及び画像認識方法を実現するプログラムとこのプログラムの記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3817442B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100745258B1 (ko) | 2005-10-04 | 2007-08-01 | 엘지전자 주식회사 | 벡터 폰트 기반의 글자모양 변형방법 |
JP2010102478A (ja) * | 2008-10-23 | 2010-05-06 | Nec Electronics Corp | 表示領域抽出装置及び表示領域抽出方法 |
WO2017131960A1 (en) * | 2016-01-27 | 2017-08-03 | Honeywell International Inc. | Method and tool for post-mortem analysis of tripped field devices in process industry using optical character recognition & intelligent character recognition |
-
2001
- 2001-05-14 JP JP2001142992A patent/JP3817442B2/ja not_active Expired - Lifetime
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100745258B1 (ko) | 2005-10-04 | 2007-08-01 | 엘지전자 주식회사 | 벡터 폰트 기반의 글자모양 변형방법 |
JP2010102478A (ja) * | 2008-10-23 | 2010-05-06 | Nec Electronics Corp | 表示領域抽出装置及び表示領域抽出方法 |
WO2017131960A1 (en) * | 2016-01-27 | 2017-08-03 | Honeywell International Inc. | Method and tool for post-mortem analysis of tripped field devices in process industry using optical character recognition & intelligent character recognition |
US9779293B2 (en) | 2016-01-27 | 2017-10-03 | Honeywell International Inc. | Method and tool for post-mortem analysis of tripped field devices in process industry using optical character recognition and intelligent character recognition |
Also Published As
Publication number | Publication date |
---|---|
JP3817442B2 (ja) | 2006-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3469345B2 (ja) | 画像のファイリング装置及びファイリング方法 | |
US5943443A (en) | Method and apparatus for image based document processing | |
JP4271878B2 (ja) | 映像中の文字検索方法及び装置並びに文字検索処理プログラム | |
US7970213B1 (en) | Method and system for improving the recognition of text in an image | |
JPS61267177A (ja) | 文書画像追加情報の蓄積方法 | |
US7277584B2 (en) | Form recognition system, form recognition method, program and storage medium | |
JPH11238098A (ja) | 文字列抽出装置及びパターン抽出装置 | |
JP3851742B2 (ja) | 帳票処理方法及び装置 | |
JPH09293082A (ja) | 画像検索装置及び画像検索方法 | |
CN111460355A (zh) | 一种页面解析方法和装置 | |
CN113806472A (zh) | 一种对文字图片和图像型扫描件实现全文检索的方法及设备 | |
CN111832497A (zh) | 一种基于几何特征的文本检测后处理方法 | |
JP4849883B2 (ja) | 行方向判定プログラム、方法及び装置 | |
JP2002342711A (ja) | 画像認識装置、画像認識方法、及び画像認識方法を実現するプログラムとこのプログラムの記録媒体 | |
CN112818984B (zh) | 标题生成方法、装置、电子设备和存储介质 | |
CN116229497A (zh) | 版面文本的识别方法、装置及电子设备 | |
US20030123730A1 (en) | Document recognition system and method using vertical line adjacency graphs | |
JP3792759B2 (ja) | 文字認識方法とその装置 | |
JP2021140831A (ja) | 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム | |
JP2008004116A (ja) | 映像中の文字検索方法及び装置 | |
CN115004261A (zh) | 文本行检测 | |
JP4328511B2 (ja) | パターン認識装置、パターン認識方法、プログラムおよび記憶媒体 | |
US20220253636A1 (en) | Automatically detecting method for time-varying text region of interest | |
JPH1166230A (ja) | 文書認識装置、文書認識方法及び媒体 | |
KR20180081303A (ko) | 뉴스 인터뷰 영상의 오버레이 텍스트 기반 인물 인덱싱 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060410 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060606 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060612 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 3817442 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090616 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100616 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100616 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110616 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120616 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130616 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140616 Year of fee payment: 8 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |