JP2002342711A

JP2002342711A - 画像認識装置、画像認識方法、及び画像認識方法を実現するプログラムとこのプログラムの記録媒体

Info

Publication number: JP2002342711A
Application number: JP2001142992A
Authority: JP
Inventors: Hidekatsu Kuwano; 秀豪桑野; Yukinobu Taniguchi; 行信谷口; Haruhiko Kojima; 治彦児島
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2001-05-14
Filing date: 2001-05-14
Publication date: 2002-11-29
Anticipated expiration: 2021-05-14
Also published as: JP3817442B2

Abstract

(57)【要約】【課題】画像中の文字認識結果に誤りがある場合で
も、正しい単語が得られ、高速化が実現できる画像認識
装置、方法を提供する。【解決手段】文字位置検出部２は、画像入力記憶部１
からの入力画像中の文字位置を検出する。この文字位置
は文字と背景との境界により検出できる。辞書データ４
には、画像中の文字位置とそこに表示される単語の対応
関係を登録しておく。単語検索部３は、入力画像から検
出された文字位置情報を持つ辞書データ４中の単語を検
索する。結果出力部５は、検索結果を画像の認識結果と
して出力する。文字認識の結果を出力しないことで、文
字フォントのような属性情報による影響を受けにくく
し、信頼性高く単語を検索可能とする。また画像中の文
字列を抽出して文字認識して得た文字コードから単語を
検索せず、文字位置情報から単語を検索することで、画
像と対応する単語が高速に得られるようにする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、画像中に表示され
る文字を認識し、その結果を辞書データを用いて単語と
して獲得し、獲得した単語を画像の認識結果とする画像
認識技術に関連するものである。

【０００２】本発明における画像認識技術は、特にテレ
ビ放送映像などで表示されるコマーシャル画像などのよ
うに画像中の文字の表示位置などのレイアウト情報とし
て同一の画像が繰り返し現れるものを対象としたもので
ある。

【０００３】

【従来の技術】画像中に表示される文字を認識し、その
結果を辞書データを用いて単語として獲得し、獲得した
単語を画像の認識結果とする画像認識技術に関しては、
従来から検討がすすめられており、文献［１］小黒ほ
か、“知識統合型文字切り出しを用いた粋なし手書き複
合語入力方式”（情報処理学会論文誌、Ｖｏｌ．３４，
Ｎｏ．１１．１９９３）、及び文献［２］荒木ほか、
“文字認識装置、文字認識方法、及び文字認識方法を実
行するプログラムを記録した記録媒体”（特願平１１−
１６０４０４号）で提案された技術がある。いずれの技
術も文字が表示されている画像に対し、まず前段の処理
として文字認識を行い、文字コードを得る。次に後段の
処理として、前段で得られた文字コードに対応する単語
を予め用意された辞書データの中から検索する単語検索
処理を行う。最終的に得られた単語を画像の認識結果と
して出力する技術である。

【０００４】

【発明が解決しようとする課題】しかしながら、前記で
紹介した文献［１］［２］で提案されたいずれの技術に
おいても、画像中の文字認識処理の精度が低いときに、
後段の単語検索処理において正しい単語を検索すること
ができない場合があるという問題があった。前記文献
［１］［２］で提案された技術では、画像中の文字パタ
ーンの認識の結果として得られる文字コード列の中に一
つでも誤りがあると単語が得られない。

【０００５】また、前記で紹介した文献［１］［２］で
提案された方法のように単語検索の前段の処理として画
像中の文字認識を行う場合、処理内容として一般に画像
の二値化、文字列の抽出、単文字毎の切り出し、と多く
の処理が存在し、処理全体に多くの時間を要する。すな
わち、従来の技術を用いてテレビ放送などの映像中の画
像をリアルタイムに認識して単語を得ようとした場合、
利用者にとって結果が得られるまでに長い待ち時間が生
じるという問題点がある。

【０００６】本発明は、前記の従来技術の問題点を解決
し、画像中の文字認識処理の結果に誤りがある場合で
も、画像認識結果として正しい単語を得ること、及び処
理の高速化を実現する画像認識装置とその方法を提供す
ることを課題としている。

【０００７】

【課題を解決するための手段】前記課題を解決するため
に本発明１の画像認識装置は、複数の画素値からなる画
像データにおいて、所定数以上のエッジ画素数をもつ画
素位置から文字位置の座標を検出する文字位置検出部
と、予め文字位置の座標と文字列である単語とを対応づ
けて記録した辞書データ記録部と、前記辞書データ記録
部を用いて、前記検出された文字位置の座標に対応した
単語を取得する単語検索部とを具備することを特徴とす
る。

【０００８】また、前記課題を解決するために本発明２
の画像認識装置は、複数の画素値からなる画像データに
おいて、所定数以上のエッジ画素数をもつ画素位置から
文字位置の座標を検出する文字位置検出部と、前記文字
位置検出部で検出された文字位置を含む部分画像中の文
字パターンを認識し、前記認識した文字パターンと文字
コードとの対応関係を記録したデータベースを用いて文
字コード列を得る文字認識部と、予め文字位置の座標と
文字列である単語と単語に対応する文字コード列を対応
づけて記録した辞書データ記録部と、前記辞書データ記
録部を用いて、前記文字認識部で得られた文字コード列
に対応する単語を前記検出された文字位置の座標に対応
した単語の文字コード列から検索して取得する単語検索
部とを具備することを特徴とする。

【０００９】また、本発明２の画像認識装置であって、
単語検索部が、文字認識部で得られる文字コード列と辞
書データ記録部の辞書データ中の各単語に関連付けられ
た文字コード列を比較し、一致する文字コードの個数に
応じた文字コード一致度を求める文字コード列比較部
と、前記辞書データ中の各単語について前記文字コード
列比較部により得られた文字コード一致度の中でその値
が最も一致する文字コード一致度を選択し、前記選択さ
れた文字コード一致度を持つ単語を最終的な単語検索結
果とする一致度選択部とを具備することを特徴とする。

【００１０】また、本発明２の画像認識装置であって、
単語検索部の検索において文字位置検出部で検出された
画像中の文字位置に単語が存在しなかった場合、前記文
字位置の座標を新規に辞書データ記録部に登録する文字
位置登録部と、前記単語検索部の検索において文字認識
部で得られた文字コード列に対応する単語が前記位置検
出部で検出された画像中の文字位置に存在しなかった場
合、前記文字コード列を当該文字位置の座標に対応づけ
て新規に辞書データ記録部に登録する文字コード列登録
部とを具備することを特徴とする。

【００１１】また、前記課題を解決するために本発明１
の画像認識方法は、複数の画素値からなる画像データに
おいて、所定数以上のエッジ画素数をもつ画素位置から
文字位置の座標を検出する文字位置検出手順と、予め文
字位置の座標と文字列である単語とを対応づけて記録し
た辞書データ記録部を用いて、前記検出された文字位置
の座標に対応した単語を取得する単語検索手順とを有す
ることを特徴とする。

【００１２】また、前記課題を解決するために本発明２
の画像認識方法は、複数の画素値からなる画像データに
おいて、所定数以上のエッジ画素数をもつ画素位置から
文字位置の座標を検出する文字位置検出手順と、前記文
字位置検出手順で検出された文字位置を含む部分画像中
の文字パターンを認識し、前記認識した文字パターンと
文字コードとの対応関係を記録したデータベースを用い
て文字コード列を得る文字認識手順と、予め文字位置の
座標と文字列である単語と単語に対応する文字コード列
を対応づけて記録した辞書データ記録部を用いて、前記
文字認識手順で得られた文字コード列に対応する単語を
前記検出された文字位置の座標に対応した単語の文字コ
ード列から検索して取得する単語検索手順とを有するこ
とを特徴とする。

【００１３】また、本発明２の画像認識方法であって、
単語検索手順では、文字認識手順で得られた文字コード
列と辞書データ記録部の辞書データ中の各単語に関連付
けられた文字コード列を比較し、一致する文字コードの
個数に応じた文字コード一致度を求める文字コード列比
較手順と、前記辞書データ中の各単語について前記文字
コード列比較手順により得られた文字コード一致度の中
でその値が最も一致する文字コード一致度を選択し、前
記選択された文字コード一致度を持つ単語を最終的な単
語検索結果とする一致度選択手順とを有することを特徴
とする。

【００１４】また、本発明２の画像認識方法であって、
単語検索手順に続いて、前記単語検索手順の検索におい
て文字位置検出手順で検出された画像中の文字位置に単
語が存在しなかった場合、前記文字位置の座標を新規に
辞書データ記録部に登録する文字位置登録手順と、前記
単語検索手順の検索において文字認識手順で得られた文
字コード列に対応する単語が前記位置検出手順で検出さ
れた画像中の文字位置に存在しなかった場合、前記文字
コード列を当該文字位置の座標に対応づけて新規に辞書
データ記録部に登録する文字コード列登録手順とを有す
ることを特徴とする。

【００１５】また、以上の画像認識方法における手順
を、コンピュータに実行させるプログラムとしたことを
特徴とする。また、この画像認識方法を実現するプログ
ラムを、コンピュータが読み取り可能な記録媒体に記録
したことを特徴とする。

【００１６】濃淡画像中に表示される文字の特徴とし
て、文字の濃淡値と文字周囲の背景の濃淡値の差が大き
いということがあげられる。つまり画像中で濃淡値が局
所的に激しく変化する部分を抽出することで画像中の文
字の存在位置を獲得することができる。

【００１７】本発明では、画像中の文字の位置を辞書デ
ータ内に登録しておき、入力画像から獲得された文字の
位置と同じ位置情報を持つ辞書データ中の単語を画像の
認識結果とするため、画像中の文字列を抽出して文字認
識して得た文字コードから単語を検索した結果を出力し
なくとも、画像と対応する単語を得ることが可能とな
る。文字の位置情報は前記のとおり文字と周囲の背景と
の境界さえ分かれば検出でき、文字認識の結果の文字コ
ード情報のように文字フォントのような属性情報による
影響は受けにくく、信頼性高く画像中の単語を求めるこ
とができるため、文字認識結果を出力する従来技術の場
合に比べ、より効果的かつ信頼性高く単語情報を獲得す
ることが可能である。また従来のように画像中の文字列
を抽出して文字認識して得た文字コードから単語を検索
する文字認識を行わずに、文字の位置情報から単語を特
定するため、従来技術に比べ短い時間で単語を検索する
ことが可能となる。

【００１８】また本発明では、仮に文字の位置情報を利
用した単語検索だけでは正しい単語を一つに絞り込めな
い場合があっても、画像中の文字パターンを認識した結
果を用いて単語の検索を行うことで、一つの単語に絞り
込むことが可能である。また、この文字パターンの認識
を行う際には、前段で画像中の文字を含む部分矩形が得
られているため、入力画像全体に対して文字認識を行わ
なくとも済むため、従来技術にくらべ短い時間で文字認
識を行うことが可能である。

【００１９】また本発明では、文字パターンを認識した
結果の文字コード列と辞書データ中の文字位置に対応す
る文字コード列を比較して検索する際に、両者が部分的
に一致していれば、一致する部分文字コード列の個数に
応じて文字コード一致度を設定するため、従来技術のよ
うに文字コード列の比較基準を完全一致としていた場合
に比べ、文字コード列の内容をより詳細に反映した比較
が可能である。

【００２０】また本発明では、単語を検索する際に利用
する辞書データの情報として予め画像中の文字の位置検
出結果、及びそこに表示されている文字の認識結果を登
録し、これらを単語検索のための比較用データとするこ
とで、既に登録されている比較用データと同様のデータ
を持つ画像が入力された場合に、従来の技術のように単
語そのものを比較用データとする場合と比べ、文字位置
検出、及び文字認識の結果に誤りが含まれたとしても、
より高精度に正しい単語を得ることが可能となる。

【００２１】

【発明の実施の形態】以下、本発明の実施形態例につい
て図面を参照して説明する。

【００２２】図１は本発明の第１実施形態例による画像
認識装置の具体的な構成を示すブロック図である。本実
施形態例の画像認識装置における各部の機能について説
明する。

【００２３】画像入力記憶部１では、テレビ放送などの
映像中に含まれるテロップ文字が表示された濃淡画像を
コンピュータ上のメモリ等の記憶装置に読み込む。な
お、本発明における濃淡画像とはカラー画像、グレイス
ケール画像、二値画像などを指し、画像中の各画素が濃
淡を表現する値を持つものを意味するものである。

【００２４】文字位置検出部２では、画像入力記憶部１
で入力された画像データにおいて画像中の文字が表示さ
れている位置を検出する。画像中の文字の位置を検出す
る方法としては、例えば文献［３］桑野ほか、“エッジ
密集度によるテロップ文字フレーム検出誤り抑制法”
（１９９７、電子情報通信学会ソサイエティ大会予稿
集、Ｄ−１２−２２）、及び［４］桑野ほか、“二段階
ライン単位二値化による低解像度テロップ文字領域抽
出”（２０００、電子情報通信学会ソサイエティ大会予
稿集、Ｄ−１２−２０）で提案されている方法で実現可
能である。

【００２５】単語検索部３では文字位置検出部２で得ら
れた画像中の文字の表示位置に対応する単語を予め用意
された辞書データ４から検索する。

【００２６】辞書データ４はコンピュータ上のファイル
として作成、管理することが可能である。

【００２７】単語検索部３での単語検索の方法としては
例えば、文字位置検出部２で得られた文字の位置を文字
を囲む矩形の座標値と辞書データ中に予め登録されてい
る各単語に付随する座標値とを比較し、座標値同士の距
離が最も小さい座標値と対応する単語を検索結果とする
ことで実現可能である。

【００２８】結果出力部５では単語検索部３で得られた
単語をコンピュータ上のディスプレイ等にテキストとし
て表示する。

【００２９】図２は本発明の第２実施形態例を示し、前
記第１実施形態例による画像認識装置における文字位置
検出部２での処理を前記文献［３］で提案されている方
法を用いて実行した場合の処理過程を示した図である。

【００３０】図２（ａ）は画像入力記憶部１で入力され
た画像であり、図２（ｂ）は（ａ）の画像中の濃淡値の
変化の激しい画素をエッジ画素として検出し、黒画素と
して表示した結果を模式的に示したものである。図２
（ｂ）より文字部分から多くの黒画素が検出されている
ことが分かる。エッジ画素の具体的な検出過程の例とし
ては、注目する画素の画素値と横または縦に隣接する画
素値との差の絶対値が所定の閾値よりも大きい場合、そ
の注目する画素をエッジ画素とする。

【００３１】図２（ｃ）は図２（ｂ）と同じものであ
る。

【００３２】図２（ｄ）は図２（ｃ）の画像の水平（横
座標）方向に一列ずつエッジ画素をカウントした結果の
分布を示したものである。図２（ｄ）より文字に相当す
る部分で山ができていることが分かる。

【００３３】図２（ｅ）は図２（ｄ）の分布中で予め決
めた一定値以上のカウント数を持ち、上下に連続する縦
座標方向の座標値を取り出し、その両端の位置で分布中
の山状部分を囲んだ図である。

【００３４】図２（ｆ）は図２（ｅ）で得られた山状部
分を囲む縦座標位置に対応する図２（ａ）の画像中の水
平方向のラインを黒く表示した図である。

【００３５】図２（ｆ）より図２（ａ）の画像中の文字
に相当する部分の走査線が選択されていることが分か
る。水平方向のラインと画像の左右の両端の垂直方向の
ラインとで囲まれる矩形の座標値を文字の表示位置情報
として獲得することが可能となる。なお、文字を囲む矩
形の座標値としては、文字に相当する部分のエッジ画素
と判断された座標値のうち横座標の最大・最小値、縦座
標の最大・最小値、の組み合わせからなる計４点の座標
値により求めることもできる。この場合には、水平方向
のみならず、上記のエッジ画素のカウントを垂直（縦座
標）方向にも一列ずつ行って水平方向の文字位置を推定
する処理が必要である。

【００３６】図３は本発明の第３実施形態例を示し、前
記第１実施形態例による画像認識装置における単語検索
部３での処理、及び辞書データ４の内容を説明するため
の図面である。

【００３７】図３（ａ）は入力画像に対し、第１実施形
態例の文字位置検出部２で得られた文字位置を示す矩形
を黒い線で表した図である。文字の位置情報として矩形
の左隅の垂直座標と高さを利用すると（左隅の垂直座
標、高さ）＝（４２１，２０）である。

【００３８】図３（ｂ）は第１実施形態例の辞書データ
４の具体的な内容を示した図である。図３（ｂ）中の
「ｈｔｔｐ：／／ｗｗｗ．ｌｏｏｌｏｏ．ｃｏ．ｊｐ」
というインターネット上のホームページのアドレスを示
す文字列が単語であり、これに対応する画像中の座標が
下に表示されている（４２１，２０）である。同様に図
３（ｂ）中の「ｈｔｔｐ：／／ｗｗｗ．ｈｏｇｅ．ｃ
ｏ．ｊｐ」も単語であり、これに対応する画像中の座標
として（３８０，１１）が示されている。

【００３９】第１実施形態例の単語検索部３で図３
（ａ）と図３（ｂ）の情報を比較する場合、図３（ａ）
の（４２１，２０）という座標と距離が最も小さい辞書
データ中の座標として「ｈｔｔｐ：／／ｗｗｗ．ｌｏｏ
ｌｏｏ．ｃｏ．ｊｐ」という単語と対応した座標（４２
１，２０）が選択され、単語検索結果として「ｈｔｔ
ｐ：／／ｗｗｗ．ｌｏｏｌｏｏ．ｃｏ．ｊｐ」が得られ
る。

【００４０】図４は本発明の第４実施形態例を示し、前
記第１実施形態例による画像認識装置における結果出力
部５での処理を説明するための図面である。

【００４１】図４（ａ）は入力画像中の文字位置を矩形
で囲んだ図であり、前記第３実施形態例より画像認識結
果の単語として「ｈｔｔｐ：／／ｗｗｗ．ｌｏｏｌｏ
ｏ．ｃｏ．ｊｐ」というインターネット上のホームペー
ジのアドレス情報が得られたものとする。

【００４２】図４（ｂ）は実際の「ｈｔｔｐ：／／ｗｗ
ｗ．ｌｏｏｌｏｏ．ｃｏ．ｊｐ」のアドレスを持つホー
ムページを画像認識結果として表示した場合の図であ
る。

【００４３】これにより、例えばコンピュータ上でテレ
ビの放送映像を取り込み、図４（ａ）のようにテロップ
文字としてインターネット上のホームページのアドレス
が表示された画像データを認識処理することで、図４
（ｂ）のように実際のホームページを表示し閲覧するこ
とが可能となる。

【００４４】図５は本発明の第５実施形態例における画
像認識装置の具体的な構成を示すブロック図である。

【００４５】本実施形態例の画像認識装置において、画
像入力記憶部５１ではテレビ放送などの映像中に含まれ
るテロップ文字が表示された画像をコンピュータ上のメ
モリ等の記憶装置に読み込む。

【００４６】文字位置検出部５２では画像入力記憶部１
で入力された画像データにおいて画像中の文字が表示さ
れている位置を検出する。画像中の文字の位置を検出す
る方法としては、例えば前記文献［３］で提案されてい
る方法で実現可能である。

【００４７】単語検索部５３では文字位置検出部２で得
られた画像中の文字の表示位置、あるいは文字認識部５
５で得られる文字コードに対応する単語を予め用意され
た辞書５４データの中から検索する。検索の方法として
は例えば、文字位置検出部５２で得られた文字の位置情
報を文字を囲む矩形の座標と辞書中に予め登録されてい
る全ての単語に付随する座標とを比較し、座標同士の距
離が最も小さい辞書データ中の座標と対応する単語を検
索結果とすることで実現可能である。また、辞書データ
５４はコンピュータ上のファイルとして作成、管理する
ことが可能である。

【００４８】文字認識部５５では画像入力記憶部５１で
入力された画像データ、及び文字位置検出部５２で得ら
れた画像中の文字の位置情報に基づき、予め決められた
方法で入力画像中の文字を含む部分画像中の文字パター
ンを認識し、文字パターンと文字コードとの対応関係を
記録したデータベースを用いることで文字パターンから
文字コードを得る。具体的な文字認識の方法としては、
例えば前記の前記文献［４］、及び文献［５］森ほか、
“背景・文字の形状特徴と動的修正識別関数を用いた映
像中テロップ文字認識”（電子情報通信学会論文誌、Ｄ
−ＩＩ，Ｖｏｌ．Ｊ８３−Ｄ−ＩＩ，Ｎｏ．７，ｐｐ．
１６５８−１６６６）で提案された方式で実現すること
が可能である。

【００４９】結果出力部５７では単語検索部５３で得ら
れた単語をコンピュータ上のディスプレイ等にテキスト
として表示する。

【００５０】図６は本発明の第６実施形態例による画像
認識方法の具体的な処理フローを示すフローチャートで
ある。

【００５１】最初に画像入力記憶手順６１においてテレ
ビ放送などの映像中に含まれるテロップ文字が表示され
た濃淡画像をコンピュータ上のメモリ等の記憶装置に読
み込み、文字位置検出手順６２へ進む。

【００５２】文字位置検出手順６２では画像入力記憶手
順６１で入力された画像データにおいて画像中の文字が
表示されている位置を検出し、文字位置検索手順６３へ
進む。

【００５３】次に文字位置検索手順６３では文字位置検
出手順６２で得られた画像中の文字の表示位置に対応す
る単語を予め用意された辞書データから検索し、検索結
果の単語が１個以下の場合は結果出力手順６７へ進み、
２個以上の場合は文字認識手順６４に進む。

【００５４】文字認識手順６４では画像入力記憶手順６
１で入力された画像データ、及び文字位置検出手順６２
で得られた画像中の文字の位置情報に基づき、入力画像
中の文字を含む部分画像中の文字パターンを認識し、文
字コード列として獲得し文字コード列検索手順６５へ進
む。

【００５５】文字コード列検索手順６５では文字認識手
順６４で得られた文字コード列と対応する単語を予め用
意された辞書データ（データベース）から検索し、結果
出力手順６６へ進む。

【００５６】結果出力手順６６では文字位置検索手順６
３、及び文字コード列検索手順６５で得られた単語をコ
ンピュータ上のディスプレイ等にテキストとして表示す
る。

【００５７】図７は本発明の第７実施形態例を示し、前
記第６実施形態例の画像認識方法の文字位置検索手順に
おける具体的な処理例を実際の画像データ、及び辞書デ
ータを用いて説明する図面である。

【００５８】図７（ａ）は入力画像及び該画像に対し、
文字位置検出手順６２で検出された文字表示位置として
の座標値（４２１，２０）を示すものである。

【００５９】図７（ｂ）は文字位置検索手順において用
いられる辞書データの内容を示したものである。単語と
座標が交互に存在し、単語を上、座標を下とする連続す
る１つずつの単語と座標が１組の辞書データ中の情報単
位である。

【００６０】図７に示す例の場合、図７（ａ）の座標と
合致する辞書データ中の検索結果の座標は２つ存在し、
それぞれ対応する単語情報は図７（ｂ）に示すように
「ｈｔｔｐ：／／ｗｗｗ．ｌｏｏｌｏｏ．ｃｏ．ｊｐ」
と「ｈｔｔｐ：／／ｗｗｗ．ｈｏｇｅ．ｃｏ．ｊｐ」と
なり、結果として２種類の異る意味を持つ単語が得られ
たこととなる。

【００６１】このような場合、画像認識結果として２個
の単語を出力しても良いが、更に結果を絞り込むため
に、文字位置の座標で検索した結果が２個以上存在する
場合は、文字認識結果の文字コードを用いて単語検索を
行う処理に進む。

【００６２】図７の例では画像認識結果が一つに絞り込
めないので文字認識処理まで行い、文字コード列を用い
て単語検索を行うこととなる。

【００６３】図８は本発明の第８実施形態例を示し、前
記第５、第６実施形態例による文字認識部、及び文字認
識手順における文字認識対象の部分画像を選択する方式
を説明する図面である。

【００６４】図８（ａ）は入力画像、及び前記文献
［３］で提案された方法などの予め決められた方法を使
って検出された画像中の文字位置を示す矩形を示したも
のである。

【００６５】図８（ｂ）は（ａ）で示された矩形を拡大
した図である。文字列「ｗｗｗ．ｌｏｏｌｏｏ．ｃｏ．
ｊｐ」のうち、「ｌ」の上部と「ｊ」がの下部が切れて
いる様子を示した図である。前記文献［３］で提案され
た方法などの自動的に検出する文字矩形は必ずしも文字
パターンを完全に包含するとは限らないため、図８
（ｂ）の矩形に対して文字認識を行っても完全に正しい
文字認識結果は得られない。正しい文字認識結果を得る
には文字パターンを完全に包含する矩形を文字認識の入
力画像とする必要がある。

【００６６】図８（ｃ）は図８（ｂ）の矩形を上下に一
定幅だけ広げた範囲を示す図であり、文字列「ｗｗｗ．
ｌｏｏｌｏｏ．ｃｏ．ｊｐ」が完全に含まれている。す
なわち、本発明の第５、第６実施形態例の文字認識部、
及び文字認識手順では図８（ｂ）のような自動検出され
た矩形の上下に一定幅だけ広げた範囲の画像を入力画像
として選択する。

【００６７】このように入力画像中の文字表示を完全に
含む画像を選択し、文字認識処理することは入力画像全
体に対して文字認識処理を行う場合に比べて、処理量が
少なく済むためコンピュータなどで計算に費す時間が短
く済むという効果がある。

【００６８】図９は本発明の第９実施形態例を示し、前
記第５、第６実施形態例の単語検索部を構成する文字コ
ード列比較部、及び文字コード列比較手順の具体的な処
理を説明するために必要な入力画像の例、文字認識結果
の例、及び辞書データの例を示したものである。

【００６９】図９（ａ）は入力画像を示したものであ
る。「ｗｗｗ．ｌｏｏｌｏｏ．ｃｏ．ｊｐ」という文字
が表示された画像を模式したものである。

【００７０】図９（ｂ）は図９（ａ）の画像を文字認識
した結果として得られた文字コード列を示したものであ
る。「ｗＷｗ．ｌｏ０ｌｏｏ．ｃｏ．ｊｐ」という文字
コード列として得られており、誤認識を含んだものであ
ることを示している。

【００７１】図９（ｃ）は辞書データの内容を示したも
のである。単語「ｈｔｔｐ：／／ｗｗｗ．ｌｏｏｌｏ
ｏ．ｃｏ．ｊｐ」に対応する座標として（４２１，２
０）が設定されている。また、単語「ｈｔｔｐ：／／ｗ
ｗｗ．ｌｏｏｌｏｏ．ｃｏ．ｊｐ」に対応する文字コー
ド列は、単語を特定する文字コード列「ｌｏｏｌｏｏ」
を登録するが、文字認識結果の文字コード列との間で部
分的な一致も含めた比較を行うため、「ｌｏｏｌｏｏ」
を更に複数の部分文字列に分割して登録しておく。

【００７２】本実施形態例の場合、単語と対応する文字
コード列を連続する２文字の部分文字列に分割し、各部
分文字列は前後の部分文字列と１文字だけ重複する形で
登録する。なお、部分文字列としては、３文字以上のも
のを登録してもよい。

【００７３】「ｌｏｏｌｏｏ」の場合、連続する２文字
の部分文字列に分割すると「ｌｏ」「ｏｌ」「ｏｏ」の
３種類となるが、前後の部分文字列と１文字だけ重複す
るように選択すると「ｌｏ」「ｏｏ」「ｏｌ」「ｌｏ」
「ｏｏ」の５種類となる。図９（ｃ）に示すように、こ
の５種類の部分文字列コードを辞書データとして登録す
る。

【００７４】同様に２文字の部分文字列の場合、図９
（ｃ）に示すように単語「ｈｔｔｐ：／／ｗｗｗ．ｈｏ
ｇｅ．ｃｏ．ｊｐ」に対応する文字コード列として「ｈ
ｏ」「ｏｇ」「ｇｅ」の３種類の部分文字コード列が登
録される。

【００７５】辞書中の文字コード列を前記のように複数
の２文字あるいは３文字以上の部分文字コード列として
おき、各部分文字コード列毎に文字認識結果の文字コー
ド列と比較することで、単語と文字認識結果の部分的な
一致を含めた比較を行うことが可能となる。比較の具体
的な手順を実施形態例１０で示す。

【００７６】図１０は本発明の第１０実施形態例を示
し、前記第５、第６実施形態例における画像認識装置、
画像認識方法の単語検索部を構成する文字コード列比較
部、一致度判断部、及び文字コード列比較手順、一致度
判断手順における具体的な処理フローを示すフローチャ
ートである。

【００７７】フローチャート上で表示される変数につい
ての前提条件として、Ｉは辞書データ中の単語の番号を
示すカウンタ変数である。

【００７８】同じくＪは辞書データ中の各単語に対応す
る部分文字コード列の番号を示すカウンタ変数である。

【００７９】Ｓｔｒｉｎｇ１は文字認識処理により得ら
れる文字コード列を示すものである。

【００８０】Ｓｔｒｉｎｇ２（Ｉ，Ｊ）は辞書データ中
の部分文字コード列であり、Ｉ番目の単語のＪ番目の部
分文字コード列であることを示すものである。

【００８１】Ａ（Ｉ）はＳｔｒｉｎｇ１と辞書中のＩ番
目の単語の文字コード一致度を示すものであり、初期状
態として辞書データ中のＮ個の単語についてＡ（０）〜
Ａ（Ｎ）は全て０が設定されている。またＮは辞書中の
全ての単語情報の個数を示すものである。

【００８２】Ｃ（Ｉ）は辞書データ中のＩ番目の単語に
対応する部分文字コード列の個数を示すものである。

【００８３】ＭＡＸ（Ａ（Ｉ））はＡ（０）〜Ａ（Ｎ）
の中の最大値を求める関数を意味するものである。

【００８４】前記の前提条件の元で図１０のフローチャ
ートを説明する。

【００８５】ステップ８１ではカウンタ変数Ｉを１で初
期化し、ステップ８２へ進む。

【００８６】ステップ８２ではカウンタ変数Ｊを１で初
期化し、ステップ８３へ進む。

【００８７】ステップ８３ではＳｔｒｉｎｇ１とＳｔｒ
ｉｎｇ２（Ｉ，Ｊ）を比較し、一致する場合はステップ
８４へ進み、一致しない場合はステップ８５へ進む。

【００８８】ステップ８４では文字コード一致度Ａ
（Ｉ）を１だけ増やし、ステップ８５へ進む。

【００８９】ステップ８５ではカウンタ変数ＪがＣ
（Ｉ）未満の場合はステップ８６へ進み、Ｃ（Ｉ）未満
でない場合はステップ８７へ進む。

【００９０】ステップ８６はカウンタ変数Ｊを１だけ増
やし、ステップ８３へ進む。

【００９１】ステップ８７は文字列一致度Ａ（Ｉ）を部
分文字コード列の個数Ｃ（Ｉ）で割り、正規化処理を行
い、ステップ８８へ進む。

【００９２】ステップ８８ではカウンタ変数ＩがＮ未満
の場合、ステップ８９へ進み、Ｎ未満でない場合はステ
ップ９０に進む。

【００９３】ステップ８９ではカウンタ変数Ｉを１だけ
増やし、ステップ８２へ進む。

【００９４】ステップ９０ではＭＡＸ（Ａ（Ｉ））を計
算し、ステップ９１へ進む。

【００９５】ステップ９１ではＭＡＸ（Ａ（Ｉ））に対
応する辞書中の単語情報を最終的な照合結果として判断
する。

【００９６】前記第９実施形態例で示した入力画像、及
び辞書データの場合の単語検索過程を図１０のフローチ
ャートを通して説明する。

【００９７】Ｓｔｒｉｎｇ１を図９（ｂ）の文字認識結
果「ｗＷｗ．ｌｏ０ｌｏｏ．ｃｏ．ｊｐ」とし、辞書デ
ータ中の１番目の単語を図９（ｃ）で示すように「ｈｔ
ｔｐ：／／ｗｗｗ．ｌｏｏｌｏｏ．ｃｏ．ｊｐ」、２番
目の単語を同じく「ｈｔｔｐ：／／ｗｗｗ．ｈｏｇｅ．
ｃｏ．ｊｐ」とする。この場合、Ｎは２であり、Ｃ
（１）は５，Ｃ（２）は３である。すなわち、カウンタ
変数Ｉが１、カウンタ変数Ｊが１の場合のＳｔｒｉｎｇ
２（Ｉ，Ｊ）は「ｌｏ」となる。

【００９８】この場合、図１０のフローチャート中のス
テップ９０の段階で文字コード一致度Ａ（１）は０．８
０、文字コード一致度Ａ（２）は０であり、ＭＡＸ（Ａ
（Ｉ））は０．８０となり、ステップ９１で得られる最
終的な照合結果の単語は「ｈｔｔｐ：／／ｗｗｗ．ｌｏ
ｏｌｏｏ．ｃｏ．ｊｐ」となる。

【００９９】図９の場合、文字の位置情報を照合しただ
けでは単語を一つに絞りきれなかったが、文字認識結果
まで比較することで単語を一つに絞ることができる。

【０１００】従来技術では文字コード同士の比較を完全
一致という基準で行っていたが、前記のように部分的な
一致も含めて比較することで文字コードの内容をより詳
細に反映した比較が可能である。

【０１０１】文字コード一致度は二つの文字コード列を
比較し、一致する文字の個数に応じた値を設定する。以
下に二つの文字コード列Ｓｔｒｉｎｇ１＝ａｂｃｄｅｆ
とＳｔｒｉｎｇ２＝ａｂｃｃｄｅｆが存在する場合具体
例を示す。

【０１０２】具体例１：二つの文字コード列を１文字ず
つずらしながら重ね合わせ、最も共通する文字数が多い
ときの共通文字数を比較対象の二つの文字コード列のう
ちどちらか一方の文字コード列の文字数で割った値。

【０１０３】Ｓｔｒｉｎｇ１とＳｔｒｉｎｇ２の場合、
両者を重ね合わせて、最も共通する部分が多い場合は、
ｃｄｅｆの部分が一致したときである。ｃｄｅｆの文字
数４を文字数の多い文字コード列Ｓｔｒｉｎｇ２の文字
数１０で割るとすると、文字コード一致度は４／１０＝
０．４０となる。

【０１０４】具体例２：二つの文字コード列の先頭を揃
えて重ね合わせ一致する文字の個数を比較対象の二つの
文字コード列のうちどちらか一方の文字コード列の文字
数で割った値。

【０１０５】Ｓｔｒｉｎｇ１とＳｔｒｉｎｇ２の場合、
先頭を揃えると一致する文字はａｂｃの３個である。こ
れを文字数の多い文字コード列Ｓｔｒｉｎｇ２の文字数
１０で割るとすると、文字コード一致度は３／１０＝
０．３０となる。

【０１０６】具体例３：二つの文字コード列のうちどち
らか一方を基準とし、基準として選択された文字コード
列中の各文字のうち、他方の文字コード列の中に存在す
る文字の個数を基準として選択された文字コード列の文
字数で割った値。

【０１０７】Ｓｔｒｉｎｇ１とＳｔｒｉｎｇ２の場合、
Ｓｔｒｉｎｇ１を基準とすると、Ｓｔｒｉｎｇ１の各文
字でＳｔｒｉｎｇ２に含まれる文字はａ，ｂ，ｃ，ｄ，
ｅ，ｆの６文字である。これを基準として選択された文
字コード列Ｓｔｒｉｎｇ１の文字数６で割るとすると、
文字コード一致度は６／６＝１．０となる。前記第１０
実施形態例で説明した文字コード一致度は本具体例に基
づいた方法で求められたものである。

【０１０８】図１１は本発明の第１１実施形態例を示す
文字位置登録部、文字位置登録手順、及び文字コード列
登録部、文字コード列登録手順における具体的な処理例
を説明するための図面である。

【０１０９】図１１（ａ）は入力画像の例であり、画像
中の文字認識対象の矩形を黒い枠で囲んで示したもので
ある。矩形の位置情報として（矩形の左上隅の垂直座
標、矩形の高さ）＝（４２１，２０）が得られているも
のである。

【０１１０】図１１（ｂ）は図１１（ａ）で示された黒
い枠で囲まれた部分を前記文献［４］［５］で提案され
た方法を用いて文字認識した結果である。

【０１１１】図１１（ｂ）の文字情報は各行が画像中の
各文字パターンに対しての文字認識結果であり、各行と
も１個の文字コードと［］で囲まれた数値情報のペアが
１０個並んでいる様子を示したものである。各行の中の
前記文字コードと数値の各ペアのうち、文字コードが具
体的な文字認識結果であり、数値は文字認識結果として
の信頼性を示す数値であり、数値が小さいほど信頼性が
高いことを示す。つまり、各行で左側に位置する文字コ
ードほど文字認識結果としての信頼性が高いことを意味
し、ここでは一番左の文字コードを文字認識結果の第一
候補とし、以下右側にいくにつれ第二候補、第三候補、
…、とし一番右側の文字コードを第十候補とする。図１
１（ａ）より入力画像中の文字パターンがインターネッ
ト情報ホームページのアドレスを示す「ｗｗｗ．ｌｏｏ
ｌｏｏ．ｃｏ．ｊｐ」であるのに対し、図１１（ｂ）に
示す文字認識結果の第一候補の文字コード列は「ｖ６ｗ
ｑｏｏｑｏｏｃｏＪｐ」として得られており、実際の入
力文字パターンと比較すると誤りが多く、第十候補まで
みても正しい文字コードは完全には得られていない。特
にホームページのアドレスを特定する「ｌｏｏｌｏｏ」
の部分が「ｑｏｏｑｏｏ」と全く異る文字コードとして
得られている。

【０１１２】このように文字認識結果に誤りが含まれる
場合、前記第９、第１０実施形態例で示すように単語の
文字コード列を文字認識結果との比較に用いると、一致
する部分が存在せず、正しい単語が得られない場合があ
る。

【０１１３】図１１（ｃ）は単語「ｈｔｔｐ：／／ｗｗ
ｗ．ｌｏｏｌｏｏ．ｃｏ．ｊｐ」に対応する部分文字コ
ード列として単語の文字コード列ではなく、図１１
（ｂ）に示す文字認識結果の文字コード列「ｑｏｏｑｏ
ｏ」の部分を第９実施形態例のように部分文字コード列
に分割し、「ｑｏ」「ｏｏ」「ｏｑ」「ｑｏ」「ｏｏ」
の５種類を登録したものを示した図である。

【０１１４】この場合の実際の単語検索の処理過程を前
記の図１０のフローチャートを通して説明する。Ｓｔｒ
ｉｎｇ１を文字認識結果の第一候補文字コード列「ｖ６
ｗｑｏｏｑｏｏｃｏＪｐ」とし、辞書データ中の１番目
の単語を「ｈｔｔｐ：／／ｗｗｗ．ｌｏｏｌｏｏ．ｃ
ｏ．ｊｐ」、２番目の単語を「ｈｔｔｐ：／／ｗｗｗ．
ｈｏｇｅ．ｃｏ．ｊｐ」とする。Ｎは２であり、Ｃ
（１）は５，Ｃ（２）は３である。すなわち、カウンタ
変数Ｉが１、カウンタ変数Ｊが１の場合のＳｔｒｉｎｇ
２（Ｉ，Ｊ）は「ｑｏ」となる。

【０１１５】この場合、図１０のフローチャート中のス
テップ９０の段階でＡ（１）は１，Ａ（２）は０であ
り、ＭＡＸ（Ａ（Ｉ））は１となり、ステップ９１で得
られる単語は「ｈｔｔｐ：／／ｗｗｗ．ｌｏｏｌｏｏ．
ｃｏ．ｊｐ」となる。

【０１１６】このように予め文字認識結果の誤りを含む
部分文字コード列を辞書データに登録しておくことで、
前記第９、第１０実施形態例で示すように単語の文字コ
ード列を直接辞書データに登録する場合に比べ、文字認
識結果が誤った場合でも正しい単語と照合させることが
可能となる。

【０１１７】図１２は本発明の第１２実施形態例を示
し、前記第１１実施形態例による画像認識方法における
具体的な処理フローを示すフローチャートである。

【０１１８】最初に画像入力記憶手順１２１においてテ
レビ放送などの映像中に含まれるテロップ文字が表示さ
れた画像をコンピュータ上のメモリ等の記憶装置に読み
込み、文字位置検出手順１２２へ進む。

【０１１９】文字位置検出手順１２２では画像入力記憶
手順１２１で入力された画像データにおいて画像中の文
字が表示されている位置を検出し、文字位置検索手順１
２３へ進む。

【０１２０】次に文字位置検索手順１２３では文字位置
検出手順１２２で得られた画像中の文字の表示位置に対
応する単語を予め用意された辞書データから検索し、検
索結果の単語が存在すれば単語数判断手順１２４へ進
み、検索結果が存在しなければ文字位置登録手順１２５
へ進む。

【０１２１】単語数判断手順１２４では文字位置検索手
順１２３で検索された単語が１個以下の場合は結果出力
手順１２６へ進み、２個以上の場合は文字認識手順１２
６に進む。

【０１２２】文字位置登録手順１２５では、文字位置検
出手順１２２で得られた文字位置を未登録情報として新
規に辞書データに登録する。

【０１２３】文字認識手順１２６では画像入力記憶手順
１２１で入力された画像データ、及び文字位置検出手順
１２２で得られた画像中の文字の位置情報に基づき、入
力画像中の文字を含む部分画像中の文字パターンを認識
し、文字コード列として獲得し、文字コード列検索手順
１２７へ進む。

【０１２４】文字コード列検索手順１２７では文字認識
手順１２６で得られた文字コード列と対応する単語を予
め用意された辞書データから検索し、検索結果が存在す
れば結果出力手順１２８へ進む。検索結果が存在しない
場合は文字コード列登録手順１２９に進む。

【０１２５】結果出力手順１２８では文字位置検索手順
１２４、及び文字コード列検索手順１２７で得られた単
語をコンピュータ上のディスプレイ等にテキストとして
表示する。

【０１２６】文字コード列登録手順１２９では、文字認
識手順１２６で得られた文字コード列を未登録情報とし
て当該文字位置に関連づけて新規に辞書データに登録す
る。

【０１２７】例えばパソコンなどのコンピュータ上でテ
レビ映像を視聴する際に、テレビ映像中にインターネッ
トのホームページのアドレス情報がテロップとして表示
された場合、本実施形態例のフローによれば該テロップ
が検索されると、対応するインターネット上のホームペ
ージを表示することが可能となる。例えばテロップに示
されたアドレスのサイトに対してアクセスすることによ
って、そのサイトの情報を取得してホームページ等を閲
覧することができる。また、検索されない場合は、辞書
データに新規登録されるため、同じテロップが次に現れ
た場合は、ホームページを表示することが可能となる。

【０１２８】なお、上記で示した辞書データ、及びその
他のデータベースを記録手段（記録部）に蓄えて、図１
及び図５などで示した各部の一部もしくは全部の機能を
コンピュータ（ＣＰＵ）のプログラムで構成し、そのプ
ログラムをコンピュータを用いて実行して本発明を実現
することができること、あるいは、図６、図１０及び図
１２などで示した処理の手順をコンピュータのプログラ
ムで構成し、そのプログラムをコンピュータに実行させ
ることができることは言うまでもなく、コンピュータで
その機能を実現するためのプログラム、あるいは、コン
ピュータにその処理の手順を実行させるためのプログラ
ムを、そのコンピュータが読み取り可能な記録媒体、例
えば、ＦＤ（フロッピーディスク（登録商標））や、Ｍ
Ｏ、ＲＯＭ、メモリカード、ＣＤ、ＤＶＤ、リムーバブ
ルディスクなどに記録して、保存したり、配布したりす
ることが可能である。また、上記のプログラムをインタ
ーネットや電子メールなど、ネットワークを通して提供
することも可能である。このようにして、保存、配布あ
るいは提供されたプログラムを、記録媒体や通信回線か
らコンピュータにインストールして本発明を実現あるい
は本発明の処理を実行することが可能である。

【０１２９】

【発明の効果】以上の説明の通り、本発明によれば、文
字が表示されている画像を単語として認識する際に、画
像中の文字の位置を元に単語の検索を行うことで、従来
技術のように画像中の文字列を抽出して文字認識して得
た文字コードから単語を検索する文字認識の結果を用い
なくとも、画像認識の結果を得ることが可能となる。

【０１３０】また、画像中の文字の位置だけでは対応す
る単語が複数あって特定できない場合においても、文字
パターンの認識まで行った結果を用いて単語を検索する
ことで単語を特定することが可能となる。

【０１３１】また、文字認識結果を用いて単語を検索す
る際に辞書データ中の文字コード列と部分的な一致も含
めて比較することで従来技術よりも文字認識結果の内容
をより詳細に反映した比較を行うことが可能となる。

【０１３２】また、誤った文字認識結果を予め辞書デー
タに登録しておくことで、文字認識結果に誤りが含まれ
ていても、従来よりも高精度に単語を検索することが可
能となる。

【０１３３】また、画像中の文字列を抽出して文字認識
して得た文字コードから単語を検索するという文字認識
を行わず、文字の位置を検出するだけで単語の検索を行
うため、従来技術よりも高速な処理が可能となる。

【０１３４】さらに、文字認識が必要な場合でも、事前
に検出した文字の位置の情報を用いることで、画像全体
ではなく文字が表示されている局所的な部分画像を対象
とした処理で済むため、やはり従来より高速な処理が可
能となる。

【図面の簡単な説明】

【図１】本発明の第１実施形態例における画像認識装置
の具体的な構成を示すブロック図である。

【図２】（１），（２），（３）は、本発明の第２実施
形態例を示し、前記第１実施形態例の画像認識装置にお
ける文字位置検出部２での処理を文献［３］で提案され
ている方法を用いて実行した場合の処理過程を示した図
である。

【図３】（ａ），（ｂ）は、本発明の第３実施形態例を
示し、前記第１実施形態例の画像認識装置における単語
検索部３での処理、及び辞書データ４の内容を説明する
ための図である。

【図４】本発明の第４実施形態例を示し、前記第１実施
形態例の画像認識装置における結果出力部５での処理を
説明するための図である。

【図５】本発明の第５実施形態例における画像認識装置
の具体的な構成を示すブロック図である。

【図６】本発明の第６実施形態例における画像認識方法
の具体的な処理フローを示すフローチャートである。

【図７】（ａ），（ｂ）は、本発明の第７実施形態例を
示し、前記第６実施形態例の画像認識方法の文字位置検
索手順における具体的な処理例を実際の画像データ、及
び辞書データを用いて説明する図である。

【図８】（ａ），（ｂ），（ｃ）は、本発明の第８実施
形態例を示し、前記第２、第６実施形態例の文字認識
部、及び文字認識手順における文字認識対象の部分画像
を選択する方式を説明する図である。

【図９】（ａ），（ｂ），（ｃ）は、本発明の第９実施
形態例における文字コード列比較部、文字コード列比較
手順の具体的な処理を説明するために必要な入力画像の
例、文字認識結果の例、及び辞書データの例を示した図
である。

【図１０】本発明の第１０実施形態例を示し、前記第９
実施形態例の画像認識装置、画像認識方法の文字コード
列比較部、一致度判断部、及び文字コード列比較手順、
一致度判断手順における具体的な処理フローを示すフロ
ーチャートである。

【図１１】（ａ），（ｂ），（ｃ）は、本発明の第１１
実施形態例における文字位置登録部、文字位置登録手
順、及び文字コード列登録部、文字コード列登録手順に
おける具体的な処理例を説明するための図である。

【図１２】本発明の第１２実施形態例を示し、前記第１
１実施形態例の画像認識方法における具体的な処理フロ
ーを示すフローチャートである。

【符号の説明】

１…画像入力記憶部２…文字位置検出部３…単語検索部４…辞書データ５…結果出力部５１…画像入力記憶部５２…文字位置検出部５３…単語検索部５４…辞書データ５５…文字認識部５６…結果出力部６１…画像入力記憶手順６２…文字位置検出手順６３…文字位置検索手順６４…文字認識手順６５…文字コード列検索手順６６…結果出力手順１２１…画像入力記憶手順１２２…文字位置検出手順１２３，１２４…文字位置検索手順１２５…文字位置登録手順１２６…文字認識手順１２７…文字コード列検索手順１２８…結果出力手順１２９…文字コード列登録手順

───────────────────────────────────────────────────── フロントページの続き (72)発明者児島治彦東京都千代田区大手町二丁目３番１号日本電信電話株式会社内Ｆターム(参考） 5B029 CC28 5B064 CA08 EA19 5L096 AA06 BA17 FA06 FA52 FA69 GA28

Claims

【特許請求の範囲】

【請求項１】複数の画素値からなる画像データにおい
て、所定数以上のエッジ画素数をもつ画素位置から文字
位置の座標を検出する文字位置検出部と、予め文字位置の座標と文字列である単語とを対応づけて
記録した辞書データ記録部と、前記辞書データ記録部を用いて、前記検出された文字位
置の座標に対応した単語を取得する単語検索部とを具備
することを特徴とする画像認識装置。
【請求項２】複数の画素値からなる画像データにおい
て、所定数以上のエッジ画素数をもつ画素位置から文字
位置の座標を検出する文字位置検出部と、前記文字位置検出部で検出された文字位置を含む部分画
像中の文字パターンを認識し、前記認識した文字パター
ンと文字コードとの対応関係を記録したデータベースを
用いて文字コード列を得る文字認識部と、予め文字位置の座標と文字列である単語と単語に対応す
る文字コード列を対応づけて記録した辞書データ記録部
と、前記辞書データ記録部を用いて、前記文字認識部で得ら
れた文字コード列に対応する単語を前記検出された文字
位置の座標に対応した単語の文字コード列から検索して
取得する単語検索部とを具備することを特徴とする画像
認識装置。
【請求項３】単語検索部が、文字認識部で得られる文字コード列と辞書データ記録部
の辞書データ中の各単語に関連付けられた文字コード列
を比較し、一致する文字コードの個数に応じた文字コー
ド一致度を求める文字コード列比較部と、前記辞書データ中の各単語について前記文字コード列比
較部により得られた文字コード一致度の中でその値が最
も一致する文字コード一致度を選択し、前記選択された
文字コード一致度を持つ単語を最終的な単語検索結果と
する一致度選択部とを具備することを特徴とする請求項
２に記載の画像認識装置。
【請求項４】単語検索部の検索において文字位置検出
部で検出された画像中の文字位置に単語が存在しなかっ
た場合、前記文字位置の座標を新規に辞書データ記録部
に登録する文字位置登録部と、前記単語検索部の検索において文字認識部で得られた文
字コード列に対応する単語が前記位置検出部で検出され
た画像中の文字位置に存在しなかった場合、前記文字コ
ード列を当該文字位置の座標に対応づけて新規に辞書デ
ータ記録部に登録する文字コード列登録部とを具備する
ことを特徴とする請求項２または３に記載の画像認識装
置。
【請求項５】複数の画素値からなる画像データにおい
て、所定数以上のエッジ画素数をもつ画素位置から文字
位置の座標を検出する文字位置検出手順と、予め文字位置の座標と文字列である単語とを対応づけて
記録した辞書データ記録部を用いて、前記検出された文
字位置の座標に対応した単語を取得する単語検索手順と
を有することを特徴とする画像認識方法。
【請求項６】複数の画素値からなる画像データにおい
て、所定数以上のエッジ画素数をもつ画素位置から文字
位置の座標を検出する文字位置検出手順と、前記文字位置検出手順で検出された文字位置を含む部分
画像中の文字パターンを認識し、前記認識した文字パタ
ーンと文字コードとの対応関係を記録したデータベース
を用いて文字コード列を得る文字認識手順と、予め文字位置の座標と文字列である単語と単語に対応す
る文字コード列を対応づけて記録した辞書データ記録部
を用いて、前記文字認識手順で得られた文字コード列に
対応する単語を前記検出された文字位置の座標に対応し
た単語の文字コード列から検索して取得する単語検索手
順とを有することを特徴とする画像認識方法。
【請求項７】単語検索手順では、文字認識手順で得られた文字コード列と辞書データ記録
部の辞書データ中の各単語に関連付けられた文字コード
列を比較し、一致する文字コードの個数に応じた文字コ
ード一致度を求める文字コード列比較手順と、前記辞書データ中の各単語について前記文字コード列比
較手順により得られた文字コード一致度の中でその値が
最も一致する文字コード一致度を選択し、前記選択され
た文字コード一致度を持つ単語を最終的な単語検索結果
とする一致度選択手順とを有することを特徴とする請求
項６に記載の画像認識方法。
【請求項８】単語検索手順に続いて、前記単語検索手順の検索において文字位置検出手順で検
出された画像中の文字位置に単語が存在しなかった場
合、前記文字位置の座標を新規に辞書データ記録部に登
録する文字位置登録手順と、前記単語検索手順の検索において文字認識手順で得られ
た文字コード列に対応する単語が前記位置検出手順で検
出された画像中の文字位置に存在しなかった場合、前記
文字コード列を当該文字位置の座標に対応づけて新規に
辞書データ記録部に登録する文字コード列登録手順とを
有することを特徴とする請求項６または７に記載の画像
認識方法。
【請求項９】請求項５，６，７，８のいずれか１項に
記載の画像認識方法における手順を、コンピュータに実
行させるプログラムとしたことを特徴とする画像認識方
法を実現するプログラム。
【請求項１０】請求項９に記載の画像認識方法を実現
するプログラムを、コンピュータが読み取り可能な記録
媒体に記録したことを特徴とする画像認識方法を実現す
るプログラムを記録した記録媒体。