JPH09138802A

JPH09138802A - 文字認識翻訳システム

Info

Publication number: JPH09138802A
Application number: JP7296920A
Authority: JP
Inventors: Shinji Wakizaka; 新路脇坂; Hiroko Sato; 裕子佐藤
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1995-11-15
Filing date: 1995-11-15
Publication date: 1997-05-27

Abstract

(57)【要約】【課題】文字の形状や大きさ、言語の違いに制約され
ることなく、カメラ画像データとして取り込まれた各国
種々多様な文字を認識して翻訳するのに良好な文字認識
翻訳システムを実現すること。【解決手段】海外旅行先などで目にする観光案内掲示
板，建造物，看板，パンフレット，レストランのメニュ
ー等々に記述されている文字を、カメラ画像データとし
て取り込み、文字認識して翻訳する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、携帯型翻訳機など
に用いて好適な文字認識翻訳システムに係り、詳述する
なら、例えば海外旅行先などで目にする観光案内掲示
板，建造物，看板，パンフレット，レストランのメニュ
ー等々に記載されている文字を、カメラ画像データとし
て取り込み、文字認識して翻訳する文字認識翻訳システ
ムに係り、特に、文字の形状や大きさ、言語の違いに制
約されることなく、カメラ画像データとして取り込まれ
た各国種々多様な文字を認識して翻訳するのに好適な文
字認識翻訳システムに関する。

【０００２】

【従来の技術】ＣＣＤなどの光学系を用いて、撮影した
静止画像情報をその場で視たり、記録媒体に保存した
り、大画面モニタに映したり、プリンタに印刷したりす
る携帯型液晶デジタルカメラが普及しつつある。

【０００３】また、特開平３−８７９７６号公報には、
電子スチルカメラに接続されて、その記録画像中に含ま
れる文字情報を認識し、更には、認識結果の翻訳を行う
電子スチルカメラ用文字認識・翻訳装置が開示されてい
る。

【０００４】図８は、従来の電子スチルカメラ用文字認
識・翻訳装置のブロック図である。同図において、８０
１は電子スチルカメラであり、８０２は、電子スチルカ
メラ８０１からの被写体像に含まれる文字情報に対し
て、文字を認識して翻訳する文字認識・翻訳装置であ
る。この文字認識・翻訳装置８０２は、電子スチルカメ
ラ８０１からのビデオ信号を文字認識及び翻訳の処理に
適した信号に変換するビデオ信号変換回路８０３と、文
字認識及び翻訳処理のための制御を統括するＣＰＵ８０
４と、このＣＰＵ８０４にデータバス及びコントロール
バスを介して接続されるメモリ８０５とを備えて、構成
されている。また、８０６は文字認識及び翻訳結果を表
示する液晶テレビである。

【０００５】

【発明が解決しようとする課題】上記した従来の文字認
識・翻訳装置、すなわち、電子スチルカメラからのビデ
オ信号を文字認識及び翻訳の処理に適した信号に変換し
て、エッジ抽出法による文字領域抽出，背景除去，文字
配列傾斜修正，パターンマッチング法による文字認識，
機械翻訳等の一般的な処理を行う文字認識・翻訳装置で
は、海外旅行先で目にする案内掲示板，建造物，レスト
ランのメニュー，観光案内パンフレット等々に記載され
ている様々な文字に対して文字認識並びに文字翻訳する
ことが非常に困難となる。何となれば、海外で目にする
各種態様の筆記体の文字に対して、１つの文字基準パタ
ーンのみを用意したパターンマッチング法では、正しく
文字認識することができないケースが、多々生じると考
えられるからである。

【０００６】そこで、本発明の目的は、文字の形状や大
きさ、言語の違いに制約されることなく、カメラ画像デ
ータとして取り込まれた各国種々多様な文字を認識して
翻訳するカメラ画像文字認識翻訳を実現することにあ
る。

【０００７】

【課題を解決するための手段】本発明は上記した目的を
達成するために、例えば案内掲示板，建造物，レストラ
ンのメニュー，観光案内パンフレット等々に記載されて
いる文字をカメラ画像として取り込んで文字を認識し、
単語や文章を翻訳する文字認識翻訳システムにおいて、
あらかじめ取り込まれた多数のカメラ画像文字データを
蓄積する大規模文字データベースと、この大規模文字デ
ータベースから文字形状を分析し、文字を構成している
文字構成要素の特徴を抽出する文字形状分析部と、この
文字形状分析部の分析結果から解像度変換処理の正規化
等を行い、文字構成要素の標本マスクデータを作成する
マスク学習部とを設け、取り込まれたカメラ画像文字デ
ータに対して、文字構成要素の標本マスクデータと照合
して文字を認識し、単語や文章を翻訳するように、構成
される。

【０００８】また、本発明においては、上記した文字認
識翻訳システムを携帯型翻訳機などの携帯型情報機器に
適用するに際しては、上記した大規模文字データベース
と文字形状分析部とマスク学習部とは、携帯型情報機器
には搭載せずに、作成された文字構成要素の標本マスク
データのみを携帯型情報機器に搭載することで、文字を
認識し、単語や文章を翻訳するように、構成される。

【０００９】また、前記文字形状分析部は、前記大規模
文字データベースの中から、２値化されたｍ×ｎ画素
（ドット）の文字に対して、ｎを１画素ごとにインクリ
メントしながら、画素の“１”，“０”を検出し、文字
の輪郭等の特徴を含むようなｍ×ｎ１（ｎ１≦ｎ），ｍ
×ｎ２（ｎ２≦ｎ），・・・画素領域に分割し、各画素
領域に対して、何の文字かを表す重み係数や、文字の始
まり，つながり，終わりを示す属性を分析するように、
構成される。

【００１０】また、前記マスク学習部は、文字の輪郭等
の特徴を含むようなｍ×ｎ１（ｎ１≦ｎ），ｍ×ｎ２
（ｎ２≦ｎ），・・・画素領域に対して、それぞれ何の
文字かを表す重み係数や、文字の始まり，つながり，終
わりを示す属性を付加して、標本マスクデータを生成
し、さらに、１つの標本マスクデータに対して、複数の
解像度を持たせて正規化した標本マスクデータを生成す
るように、構成される。

【００１１】また、文字認識したい単語や文章の文字列
の指定するｍ×ｎ画素（ドット）の文字列指定領域は、
複数の文字形状やサイズの異なった文字列に対して、複
数の文字指定領域を独立に設定するようにされる。

【００１２】そこで、文字認識したい単語や文章の文字
列を指定するｍ×ｎ画素（ドット）の文字列指定領域
は、文字列が横書きの場合には、文字の高さ方向にｍ画
素（ドット）、横方向にｎ画素（ドット）の文字列指定
領域を指定して、横方向に１画素（ドット）、あるいは
ｎ１（ｎ１≦ｎ）画素（ドット）ごとにｍ×ｎ１画素
（ドット）の領域を読み出して、文字構成要素の標本マ
スクデータと照合して文字を認識する。

【００１３】さらにまた、文字認識したい単語や文章の
文字列を指定するｍ×ｎ画素（ドット）の文字列指定領
域は、文字列が縦書きの場合には、文字の幅方向にｍ画
素（ドット）、縦方向にｎ画素（ドット）の文字列指定
領域を指定して、縦方向に１画素（ドット）、あるいは
ｎ１（ｎ１≦ｎ）画素（ドット）ごとにｍ×ｎ１画素
（ドット）の領域を読み出して、文字構成要素の標本マ
スクデータと照合して文字を認識する。

【００１４】上記のような構成をとることによって、案
内掲示板，建造物，レストランのメニュー，観光案内パ
ンフレット等々に記載されている様々な文字に対し、大
規模文字データベースから作成された豊富な文字構成要
素の標本マスクデータと照合が行われ、文字が認識され
る。さらに、認識された文字に対して、各文字から構成
された単語や文章が、単語辞書や文法により認識され
る。さらに、認識された単語や文章から、キーワードと
なる単語や文章から文意が解析されて、翻訳される。

【００１５】したがって、海外旅行先などで目にする観
光案内掲示板，建造物，看板，パンフレット，レストラ
ンのメニュー等々に記載されている文字を、カメラ画像
データとして取り込み、文字認識して翻訳する、携帯型
翻訳機などのカメラ画像文字認識翻訳システムにおい
て、文字の形状や大きさ、言語の違いに制約されること
なく、カメラ画像データとして取り込んだ各国種々多様
な文字に対して、良好な文字認識が可能となる。

【００１６】

【発明の実施の形態】以下、本発明の実施の形態を詳細
に説明する。図１は、本発明の実施の１形態例に係る文
字認識翻訳システムの構成とその処理の流れを示すブロ
ック図である。同図において、１０１は、文字認識を行
う認識系であり、１０２は、文字認識に必要な標本マス
クデータを作成する学習系であり、１０３は、認識系か
らの認識結果を受けてキーワードから文意を解析して翻
訳を行う翻訳系である。１０４は、案内掲示板，建造
物，レストランのメニュー，観光案内パンフレット等々
に記載された文字を画像データとして取り込むためのＣ
ＣＤ等によるカメラである。ここで、文字認識に必要な
１文字当たりの必要最小限の解像度を確保するために、
高解像度カメラを使用するか、複数のカメラを使用して
画像の分割を行うものとする。したがって、後で説明す
る文字指定領域内の文字を液晶ディスプレイ等で表示し
ている解像度と、認識処理用に取り込まれた文字画像デ
ータの解像度とは異なり、後者の解像度の方が高い。ま
た、１２９はＬＣＤ等よりなるディスプレイ、１３０は
スピーカであり、翻訳系１０３の処理結果を文章および
音声としてそれぞれ出力する。

【００１７】上記の認識系１０１内において、１０５は
Ａ／Ｄコンバータ、１０６は文字２値化処理部、１０７
はノイズ除去部、１０８は文字切出し部、１０９は照合
部、１１０は判定部、１１１は標本マスク格納部、１１
２は単語辞書、１１３は文法辞書、１１４は連結部であ
る。

【００１８】また、学習系１０２内において、１１５は
大規模文字データベース、１１６は文字形状分析部、１
１７はマスク学習部である。

【００１９】また、翻訳系１０３内において、１１９は
キーワード分析部、１２０は単語意味辞書、１２１は構
文意味辞書、１２２は中間言語処理部、１２３は文生成
部、１２４は単語意味辞書、１２５は構文用例辞書、１
２６は音声合成処理部、１２７は音声処理部、１２８は
Ｄ／Ａコンバータである。

【００２０】上記した構成の学習系１０２において、カ
メラ（ＣＣＤカメラ）１０４で撮像され、認識系１０１
内のＡ／Ｄコンバータでアナログ信号からデジタル信号
に変換された文字列を含む静止画像データは、大規模文
字データベース１１５に蓄積して保存される。この大規
模文字データベース１１５に蓄積された静止画像データ
をもとに、文字形状分析部１１６は、文字を含む画像デ
ータの２値化処理と、ノイズ除去を含む背景からの文字
領域の抽出処理と、文字形状を分析し文字を構成してい
る文字構成要素の特徴を抽出する処理とを行う。つぎ
に、マスク学習部１１７は、文字形状分析部１１６から
の文字の特徴抽出結果を受けて、標本マスクデータを作
成する。マスク学習部１１７で作成された標本マスクデ
ータは、認識系１０１中の標本マスク格納部１１１に格
納する。

【００２１】上記の大規模文字データベース１１５への
画像文字データの取り込みは任意の時点で可能である
が、時間的余裕のあるときに、学習系１０２による処理
をあらかじめ済ましておくことが望ましい。さらに、既
知の１つの文字（１つの文字コード）に対し、異なる複
数の筆記態様の画像文字データを取得しておくことが望
ましい。

【００２２】また、認識系１０１には、標本マスク格納
部１１１と同様に、単語や文章の認識に必要な単語辞書
１１２や、文法辞書１１３が設けられている。ここで、
例えば、カメラ１０４で取り込んだ文字がフランス語
で、それを日本語に翻訳する場合には、標本マスク格納
部１１１，単語辞書１１２，文法辞書１１３は、フラン
ス語に対応したものとなっている。なお、標本マスク格
納部１１１，単語辞書１１２，文法辞書１１３は、多国
語に対応できるように、交換可能なＩＣカードや、ＣＤ
−ＲＯＭ等の大容量記憶媒体を用いるようにされる。

【００２３】ここで、携帯型翻訳機などのようなハード
ウエア規模に制限がある場合には、学習系１０２は、携
帯型翻訳機本体に搭載する必要はない。学習系１０２の
処理の詳細については後で説明する。

【００２４】認識系１０１では、ＣＣＤカメラ１０４で
撮像され、Ａ／Ｄコンバータ１０５によってデジタル信
号に変換された画像データを、文字２値化処理部１０６
によって２値化処理する。さらに、このとき、２値化さ
れた画像データは解像度変換により正規化され、文字列
を含むｍ×ｎ画素（ドット）の画像データに変換する。
つぎに、ノイズ除去部１０７により、文字以外の背景や
ノイズをカットする。つぎに、文字切出し部１０８にお
いて、ｍ×ｎ画素（ドット）文字列に対して、ｎを１画
素ごとに増やしながら、文字を切り出して行く。切り出
された文字領域は、文字を構成している文字構成要素と
して、照合部１０９で、標本マスク格納部１１１に格納
されている標本マスクデータと照合される。さらに、各
々の照合された文字構成要素で１つの文字を構成し、そ
れに対して文字の認識を行い、単語辞書１１２及び文法
辞書１１３を参照して、連結部１１４において認識され
た文字の連結を行い、続いて、この連続した文字の照合
を行って、判定部１１０において、単語や文章の認識を
行う。なお、１１８は、認識系１０１から出力された単
語や文章を表すコード化されたデータである。また、照
合部１０９の処理の詳細については後で説明する。

【００２５】翻訳系１０３では、認識系１０１から出力
された単語や文章を表すコード化されたデータ１１８
を、キーワード分析部１１９により、翻訳に有効なキー
ワードであるかを分析して、そこから文章の意味を認識
し、さらに、中間言語処理部１２２において、各国の言
語に依存しない文章の意味だけを表す中間言語を生成す
る。ここで、キーワード分析部１１９には、単語意味辞
書１２０並びに構文意味辞書１２１が接続されている。
例えば、カメラ１０４で取り込んだ文字がフランス語
で、それを日本語に翻訳する場合、単語意味辞書１２０
や構文意味辞書１２１は、フランス語に対応しており、
また、多国語に対応できるように、単語意味辞書１２０
や構文意味辞書１２１は、交換可能なＩＣカードや、Ｃ
Ｄ−ＲＯＭ等の大容量記憶媒体を用いるようにされる。

【００２６】中間言語処理部１２２で生成された中間言
語は、文生成部１２３において、翻訳したい言語からな
る文章に翻訳する。文生成部１２３には、日本語に対応
した単語辞書１２４並びに構文用例辞書１２５が接続さ
れている。翻訳された文章は、ディスプレイ１２９へ表
示する。さらに、翻訳された文章は、音声合成処理部１
２６においてデジタル音声に変換し、デジタル信号をア
ナログ信号に変換するＤ／Ａコンバータ１２８を介し
て、スピーカ１３０から音声出力する。音声合成処理部
１２６には、日本語に対応した構文用例辞書１２５並び
に音声辞書１２７が接続されている。また、多国語に対
応できるように、単語辞書１２４，構文用例辞書１２
５，音声辞書１２７は、交換可能なＩＣカードや、ＣＤ
−ＲＯＭ等の大容量記憶媒体を用いるようにされる。

【００２７】なお、図１に示す各処理のブロックは、複
数のＬＳＩやメモリで構成されたシステムであっても、
半導体素子上に構成された１つないし複数のシステムオ
ンチップであってもよい。

【００２８】つぎに、学習系１０２の処理の詳細につい
て説明する。図２は、学習系１０２において、標本マス
クデータが生成される様子を示したものである。図３
は、図２に示す標本マスクデータの生成を説明するため
のフローチャートである。

【００２９】文字形状分析部１１６は、デジタル信号に
変換された文字列を含む静止画像データを保存した大規
模文字データベース１１５から、文字を含む画像データ
を２値化処理し、この２値化された画像データを解像度
変換により正規化して、文字列（横書き）を含むｍ×ｎ
画素（ドット）の画像データ２０１（図２）に変換する
（ステップＳＴ３０１）。さらに、ノイズ除去を含む背
景からの文字領域の抽出を行い、文字形状を分析して、
例えば、図２に示すようなｍ×ｎ画素（ドット）の
「Ｍ」の文字を構成している文字構成要素の特徴を抽出
する。そこで、横方向に対して、ｎ（＝１，２，３，
…）を１画素（ビット）ごとにインクリメントしなが
ら、画素の“１”，“０”を検出し、文字の輪郭等の特
徴を含むような文字構成要素ｍ×ｎ１（ｎ１≦ｎ），ｍ
×ｎ２（ｎ２≦ｎ），ｍ×ｎ３（ｎ３≦ｎ），ｍ×ｎ４
（ｎ４≦ｎ）の画素領域（図２の２０２〜２０５）に切
り出すと同時に、各文字構成要素に対して、何の文字か
を表す重み係数や、文字の始まり，つながり，終わりを
示す属性を分析する（ステップＳＴ３０２）。つぎに、
マスク学習部１１７は、切り出された文字の部分の特徴
に対して、重み付けを行い、その部分だけでも文字が推
定できるものに対しては、重み係数を大きくするように
して（ステップＳＴ３０３）、さらに、文字の始まり，
つながり，終わりを示す属性を付加して、標本マスクデ
ータを作成する（ステップＳＴ３０４）。

【００３０】つぎに、認識系１０１中の照合部１０９の
処理の詳細について説明する。図４は、実際に海外旅行
先でカメラ画像として取り込まれた文字データが、携帯
型翻訳機に搭載された標本マスクデータと照合されて文
字が認識される様子を示したものである。図５は、図４
に示す文字の照合を説明するためのフローチャートであ
る。

【００３１】始めに、文字認識翻訳したい文字列に対し
て、文字指定領域（ｍ×ｎ）画素を指定し、カメラ画像
データとして取り込む（ステップＳＴ５０１）。図４の
４０１は、カメラ画像データとして取り込まれた（ｍ×
ｎ）画素の「Ｍ」の文字である。このとき、文字２値化
処理部１０６では、取り込んだ文字データと、標本マス
クデータの解像度が異なる場合、横書きでは、文字の高
さｍドットの解像度を等しくするように、取り込んだ文
字データの解像度変換を行い正規化する。ここで、横方
向ｎドットの解像度においては、標本マスクデータに複
数の解像度を持たせておく（ステップＳＴ５０２）。

【００３２】つぎに、４０１の文字データに対して、横
方向ｎ（＝１，２，３，…）に１画素（ドット）毎にイ
ンクリメントして標本マスクデータと照合し、標本マス
クデータの重み係数を含む相関をとる。相関が最大とな
ったら、次の画素領域に対し、同様に相関をとる（ステ
ップＳＴ５０３）。例えば、ｍ×ｎ１（ｎ１≦ｎ），ｍ
×ｎ２（ｎ２≦ｎ），ｍ×ｎ３（ｎ３≦ｎ），ｍ×ｎ４
（ｎ４≦ｎ）の画素領域（図４の４０２〜４０５）が、
標本マスクデータ（図４の４０７〜４１０）との相関が
最も良かったとする。ここで、図４の４１１は、他の文
字の構成要素を表す標本マスクデータである。また、４
１２，４１３，４１４，４１５は、それぞれ、重み係数
０．７，０．３，０．８，０．４を含む画素データであ
る。なおまた、標本マスクデータには、文字の始まり，
つながり，終わりを示す属性を付加しておく。これによ
り、メモリにおいて、標本マスクデータの検索時間の短
縮を図る。最後に、１文字に対して、相関値の総和（４
１６）の最大検出（４１７）から、文字コード（４２
０）の中から「Ｍ」の文字コード（４２１）を検出する
（ステップＳＴ５０４）。なお、４１８，４１９は、他
の文字の相関値の総和の最大検出である。

【００３３】図６に、本発明の画像文字翻訳システムを
適用した携帯型翻訳機のイメージ及び外観を示す。図６
の（ａ）は、銅像の下に書かれている説明文である。ユ
ーザは、携帯型翻訳機のファインダーを覗いて、翻訳し
たい単語や文章を矩形領域で指定する。指定された文字
列は直ちに文字認識されて、例えば、ユーザが日本人で
あるならば、日本語に翻訳される。

【００３４】図６の（ｂ）は、携帯型翻訳機の外観図で
ある。同図において、６０１は携帯型翻訳機本体、６０
２は文字画像を取り込むためのＣＣＤカメラである。６
０３，６０４はＩＣカードで、ＩＣカード６０３には、
文字認識翻訳を行うための標本マスク格納部１１１，単
語辞書１１２，文法辞書１１３，単語意味辞書１２０，
構文意味辞書１２１を構築するためのデータを格納して
あり、ＩＣカード６０４には、文字認識翻訳を行うため
の単語辞書１２４，構文用例辞書１２５，音声辞書１２
７を格納してある。６０５は液晶ディスプレイで、文字
認識翻訳したい単語や文章の文字列を指定するための文
字指定領域、並びに、文字認識翻訳した結果を表示す
る。６０６は、文字認識翻訳した結果を音声にして出力
するためのスピーカである。

【００３５】図７は、文字認識翻訳したい単語や文章の
文字列を指定するための文字指定領域について説明する
ための図である。図７の（ａ）は、文字列が横書きの場
合の文字指定方法である。同図において、７０３は、フ
ァインダー領域あるいはそれを表示するディスプレイ領
域である。７０１および７０２は、文字認識翻訳したい
単語や文章の文字列を指定するための文字指定領域であ
り、文字の高さ方向にｍ画素（ドット）、横方向にｎ画
素（ドット）のｍ×ｎ画素（ドット）の領域は、複数存
在し、それぞれ独立にサイズを変えて、任意の位置で指
定することができる。これにより、案内掲示板，建造
物，レストランのメニュー，観光案内パンフレット等々
に記載された任意の位置に配置された様々な文字に対し
て、容易に文字指定領域を指定することができる。７０
４は、文字認識翻訳したい単語や文章の文字列の翻訳結
果が表示される翻訳表示領域である。

【００３６】同様に、図７（のｂ）は、文字列が縦書き
の場合の文字指定方法である。同図において、７０７
は、ファインダー領域あるいはそれを表示するディスプ
レイ領域である。７０５および７０６は、文字認識翻訳
したい単語や文章の文字列を指定するための文字指定領
域であり、文字の幅方向にｍ画素（ドット）、縦方向に
ｎ画素（ドット）のｍ×ｎ画素（ドット）の領域は、複
数存在し、それぞれ独立にサイズを変えて、任意の位置
で指定することができる。これにより、案内掲示板，建
造物，レストランのメニュー，観光案内パンフレット等
々に記載された任意の位置に配置された様々な文字対し
て、容易に文字指定領域を指定することができる。７０
８は、文字認識翻訳したい単語や文章の文字列の翻訳結
果が表示される翻訳表示領域である。

【００３７】

【発明の効果】以上のように本発明によれば、文字の形
状や大きさ、言語の違いに制約されることなく、カメラ
画像データとして取り込まれた各国種々多様な文字を認
識して翻訳するのに良好な文字認識翻訳システムが実現
でき、海外旅行先などで目にする観光案内掲示板，建造
物，看板，パンフレット，レストランのメニュー等々に
記述されている文字をカメラ画像データとして取り込
み、文字認識して、翻訳する携帯型翻訳機などの携帯型
情報機器に用いて、その効果は顕著である。

【図面の簡単な説明】

【図１】本発明の実施の１形態例に係る文字認識翻訳シ
ステムの構成を示すブロック図である。

【図２】本発明の実施の１形態例における、標本マスク
データ生成の説明図である。

【図３】本発明の実施の１形態例における、標本マスク
データ生成のフローチャート図である。

【図４】本発明の実施の１形態例における、標本マスク
データ照合の説明図である。

【図５】本発明の実施の１形態例における、標本マスク
データ照合のフローチャート図である。

【図６】本発明の実施の１形態例に係る文字認識翻訳シ
ステムを、携帯型翻訳機に適用した１例を示す説明図で
ある。

【図７】本発明の実施の１形態例における、文字指定領
域の１例を示す説明図である。

【図８】従来のカメラ画像文字認識翻訳装置の構成を示
すブロック図である。

【符号の説明】

１０１認識系１０２学習系１０３翻訳系１０４カメラ１０５Ａ／Ｄコンバータ１０６文字２値化処理部１０７ノイズ除去部１０８文字切出し部１０９照合部１１０判定部１１１標本マスク格納部１１２単語辞書１１３文法辞書１１４連結部１１５大規模文字データベース１１６文字形状分析部１１７マスク学習部１１９キーワード分析部１２０単語意味辞書１２１構文意味辞書１２２中間言語処理部１２３文生成部１２４単語意味辞書１２５構文用例辞書１２６音声合成処理部１２７音声処理部１２８Ｄ／Ａコンバータ１２９ディスプレイ１３０スピーカ

Claims

【特許請求の範囲】

【請求項１】文字をカメラ画像として取り込んで文字
認識し、単語や文章を翻訳する文字認識翻訳システムに
おいて、あらかじめ取り込まれたカメラ画像文字データを蓄積す
る大規模文字データベースと、この大規模文字データベースの画像文字データから文字
形状を分析し、文字を構成している文字構成要素の特徴
を抽出する文字形状分析部と、この文字形状分析部の分析結果から、上記文字構成要素
の標本マスクデータを作成するマスク学習部とを有し、取り込まれたカメラ画像文字データに対して、上記文字
構成要素の標本マスクデータと照合して文字を認識し、
単語や文章を翻訳することを特徴とする文字認識翻訳シ
ステム。
【請求項２】請求項１記載において、前記文字認識翻訳システムは携帯型翻訳機などの携帯型
情報機器に適用されるとともに、前記大規模文字データ
ベースと前記文字形状分析部と前記マスク学習部とは、
上記携帯型情報機器には搭載せずに、あらかじめ作成さ
れた前記文字構成要素の標本マスクデータのみを上記携
帯型情報機器に搭載することを特徴とする文字認識翻訳
システム。
【請求項３】請求項１記載において、前記文字形状分析部は、前記大規模文字データベースの
中から、２値化されたｍ×ｎ画素（ドット）の文字に対
して、ｎを１画素ごとにインクリメントしながら、画素
の“１”，“０”を検出し、文字の輪郭等の特徴を含む
ようなｍ×ｎ１（ｎ１≦ｎ），ｍ×ｎ２（ｎ２≦ｎ），
・・・画素領域に分割して、各画素領域に対して、何の
文字かを表す重み係数や、文字の始まり，つながり，終
わりを示す属性を分析することを特徴とする文字認識翻
訳システム。
【請求項４】請求項１または３記載において、前記マスク学習部は、文字の輪郭等の特徴を含むような
ｍ×ｎ１（ｎ１≦ｎ），ｍ×ｎ２（ｎ２≦ｎ），・・・
画素領域に対して、それぞれ何の文字かを表す重み係数
や、文字の始まり，つながり，終わりを示す属性を付加
して、前記標本マスクデータを生成し、さらに、１つの
標本マスクデータに対して、複数の解像度を持たせて正
規化した標本マスクデータを生成することを特徴とする
文字認識翻訳システム。
【請求項５】請求項１または３または４記載におい
て、文字認識したい単語や文章の文字列の指定するｍ×ｎ画
素（ドット）の文字列指定領域は、複数の文字形状やサ
イズの異なった文字列に対して、複数の文字指定領域を
独立に設定することを特徴とする文字認識翻訳システ
ム。
【請求項６】請求項３または４または５記載におい
て、文字認識したい単語や文章の文字列を指定するｍ×ｎ画
素（ドット）の文字列指定領域は、文字列が横書きの場
合には、文字の高さ方向にｍ画素（ドット）、横方向に
ｎ画素（ドット）の文字列指定領域を指定して、横方向
に１画素（ドット）、あるいはｎ１（ｎ１≦ｎ）画素
（ドット）ごとにｍ×ｎ１画素（ドット）の領域を読み
出して、前記した文字構成要素の標本マスクデータと照
合して文字を認識することを特徴とする文字認識翻訳シ
ステム。
【請求項７】請求項３または４または５記載におい
て、文字認識したい単語や文章の文字列を指定するｍ×ｎ画
素（ドット）の文字列指定領域は、文字列が縦書きの場
合には、文字の幅方向にｍ画素（ドット）、縦方向にｎ
画素（ドット）の文字列指定領域を指定して、縦方向に
１画素（ドット）、あるいはｎ１（ｎ１≦ｎ）画素（ド
ット）ごとにｍ×ｎ１画素（ドット）の領域を読み出し
て、前記した文字構成要素の標本マスクデータと照合し
て文字を認識することを特徴とする文字認識翻訳システ
ム。