JPH09138802A - 文字認識翻訳システム - Google Patents

文字認識翻訳システム

Info

Publication number
JPH09138802A
JPH09138802A JP7296920A JP29692095A JPH09138802A JP H09138802 A JPH09138802 A JP H09138802A JP 7296920 A JP7296920 A JP 7296920A JP 29692095 A JP29692095 A JP 29692095A JP H09138802 A JPH09138802 A JP H09138802A
Authority
JP
Japan
Prior art keywords
character
dots
pixels
recognition
sample mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7296920A
Other languages
English (en)
Inventor
Shinji Wakizaka
新路 脇坂
Hiroko Sato
裕子 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP7296920A priority Critical patent/JPH09138802A/ja
Priority to TW085113305A priority patent/TW347503B/zh
Priority to DE69634740T priority patent/DE69634740T2/de
Priority to SG200100298A priority patent/SG128406A1/en
Priority to SG9611116A priority patent/SG81210A1/en
Priority to EP00100759A priority patent/EP1017041B1/en
Priority to KR1019960053998A priority patent/KR100220960B1/ko
Priority to EP96308228A priority patent/EP0774729B1/en
Priority to DE69623569T priority patent/DE69623569T2/de
Priority to US08/751,535 priority patent/US5917944A/en
Priority to MYPI96004742A priority patent/MY114036A/en
Priority to CNB961145714A priority patent/CN1139042C/zh
Priority to MYPI20015371A priority patent/MY126144A/en
Publication of JPH09138802A publication Critical patent/JPH09138802A/ja
Priority to US09/296,278 priority patent/US6148105A/en
Priority to HK01100150A priority patent/HK1029859A1/xx
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 文字の形状や大きさ、言語の違いに制約され
ることなく、カメラ画像データとして取り込まれた各国
種々多様な文字を認識して翻訳するのに良好な文字認識
翻訳システムを実現すること。 【解決手段】 海外旅行先などで目にする観光案内掲示
板,建造物,看板,パンフレット,レストランのメニュ
ー等々に記述されている文字を、カメラ画像データとし
て取り込み、文字認識して翻訳する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、携帯型翻訳機など
に用いて好適な文字認識翻訳システムに係り、詳述する
なら、例えば海外旅行先などで目にする観光案内掲示
板,建造物,看板,パンフレット,レストランのメニュ
ー等々に記載されている文字を、カメラ画像データとし
て取り込み、文字認識して翻訳する文字認識翻訳システ
ムに係り、特に、文字の形状や大きさ、言語の違いに制
約されることなく、カメラ画像データとして取り込まれ
た各国種々多様な文字を認識して翻訳するのに好適な文
字認識翻訳システムに関する。
【0002】
【従来の技術】CCDなどの光学系を用いて、撮影した
静止画像情報をその場で視たり、記録媒体に保存した
り、大画面モニタに映したり、プリンタに印刷したりす
る携帯型液晶デジタルカメラが普及しつつある。
【0003】また、特開平3−87976号公報には、
電子スチルカメラに接続されて、その記録画像中に含ま
れる文字情報を認識し、更には、認識結果の翻訳を行う
電子スチルカメラ用文字認識・翻訳装置が開示されてい
る。
【0004】図8は、従来の電子スチルカメラ用文字認
識・翻訳装置のブロック図である。同図において、80
1は電子スチルカメラであり、802は、電子スチルカ
メラ801からの被写体像に含まれる文字情報に対し
て、文字を認識して翻訳する文字認識・翻訳装置であ
る。この文字認識・翻訳装置802は、電子スチルカメ
ラ801からのビデオ信号を文字認識及び翻訳の処理に
適した信号に変換するビデオ信号変換回路803と、文
字認識及び翻訳処理のための制御を統括するCPU80
4と、このCPU804にデータバス及びコントロール
バスを介して接続されるメモリ805とを備えて、構成
されている。また、806は文字認識及び翻訳結果を表
示する液晶テレビである。
【0005】
【発明が解決しようとする課題】上記した従来の文字認
識・翻訳装置、すなわち、電子スチルカメラからのビデ
オ信号を文字認識及び翻訳の処理に適した信号に変換し
て、エッジ抽出法による文字領域抽出,背景除去,文字
配列傾斜修正,パターンマッチング法による文字認識,
機械翻訳等の一般的な処理を行う文字認識・翻訳装置で
は、海外旅行先で目にする案内掲示板,建造物,レスト
ランのメニュー,観光案内パンフレット等々に記載され
ている様々な文字に対して文字認識並びに文字翻訳する
ことが非常に困難となる。何となれば、海外で目にする
各種態様の筆記体の文字に対して、1つの文字基準パタ
ーンのみを用意したパターンマッチング法では、正しく
文字認識することができないケースが、多々生じると考
えられるからである。
【0006】そこで、本発明の目的は、文字の形状や大
きさ、言語の違いに制約されることなく、カメラ画像デ
ータとして取り込まれた各国種々多様な文字を認識して
翻訳するカメラ画像文字認識翻訳を実現することにあ
る。
【0007】
【課題を解決するための手段】本発明は上記した目的を
達成するために、例えば案内掲示板,建造物,レストラ
ンのメニュー,観光案内パンフレット等々に記載されて
いる文字をカメラ画像として取り込んで文字を認識し、
単語や文章を翻訳する文字認識翻訳システムにおいて、
あらかじめ取り込まれた多数のカメラ画像文字データを
蓄積する大規模文字データベースと、この大規模文字デ
ータベースから文字形状を分析し、文字を構成している
文字構成要素の特徴を抽出する文字形状分析部と、この
文字形状分析部の分析結果から解像度変換処理の正規化
等を行い、文字構成要素の標本マスクデータを作成する
マスク学習部とを設け、取り込まれたカメラ画像文字デ
ータに対して、文字構成要素の標本マスクデータと照合
して文字を認識し、単語や文章を翻訳するように、構成
される。
【0008】また、本発明においては、上記した文字認
識翻訳システムを携帯型翻訳機などの携帯型情報機器に
適用するに際しては、上記した大規模文字データベース
と文字形状分析部とマスク学習部とは、携帯型情報機器
には搭載せずに、作成された文字構成要素の標本マスク
データのみを携帯型情報機器に搭載することで、文字を
認識し、単語や文章を翻訳するように、構成される。
【0009】また、前記文字形状分析部は、前記大規模
文字データベースの中から、2値化されたm×n画素
(ドット)の文字に対して、nを1画素ごとにインクリ
メントしながら、画素の“1”,“0”を検出し、文字
の輪郭等の特徴を含むようなm×n1(n1≦n),m
×n2(n2≦n),・・・画素領域に分割し、各画素
領域に対して、何の文字かを表す重み係数や、文字の始
まり,つながり,終わりを示す属性を分析するように、
構成される。
【0010】また、前記マスク学習部は、文字の輪郭等
の特徴を含むようなm×n1(n1≦n),m×n2
(n2≦n),・・・画素領域に対して、それぞれ何の
文字かを表す重み係数や、文字の始まり,つながり,終
わりを示す属性を付加して、標本マスクデータを生成
し、さらに、1つの標本マスクデータに対して、複数の
解像度を持たせて正規化した標本マスクデータを生成す
るように、構成される。
【0011】また、文字認識したい単語や文章の文字列
の指定するm×n画素(ドット)の文字列指定領域は、
複数の文字形状やサイズの異なった文字列に対して、複
数の文字指定領域を独立に設定するようにされる。
【0012】そこで、文字認識したい単語や文章の文字
列を指定するm×n画素(ドット)の文字列指定領域
は、文字列が横書きの場合には、文字の高さ方向にm画
素(ドット)、横方向にn画素(ドット)の文字列指定
領域を指定して、横方向に1画素(ドット)、あるいは
n1(n1≦n)画素(ドット)ごとにm×n1画素
(ドット)の領域を読み出して、文字構成要素の標本マ
スクデータと照合して文字を認識する。
【0013】さらにまた、文字認識したい単語や文章の
文字列を指定するm×n画素(ドット)の文字列指定領
域は、文字列が縦書きの場合には、文字の幅方向にm画
素(ドット)、縦方向にn画素(ドット)の文字列指定
領域を指定して、縦方向に1画素(ドット)、あるいは
n1(n1≦n)画素(ドット)ごとにm×n1画素
(ドット)の領域を読み出して、文字構成要素の標本マ
スクデータと照合して文字を認識する。
【0014】上記のような構成をとることによって、案
内掲示板,建造物,レストランのメニュー,観光案内パ
ンフレット等々に記載されている様々な文字に対し、大
規模文字データベースから作成された豊富な文字構成要
素の標本マスクデータと照合が行われ、文字が認識され
る。さらに、認識された文字に対して、各文字から構成
された単語や文章が、単語辞書や文法により認識され
る。さらに、認識された単語や文章から、キーワードと
なる単語や文章から文意が解析されて、翻訳される。
【0015】したがって、海外旅行先などで目にする観
光案内掲示板,建造物,看板,パンフレット,レストラ
ンのメニュー等々に記載されている文字を、カメラ画像
データとして取り込み、文字認識して翻訳する、携帯型
翻訳機などのカメラ画像文字認識翻訳システムにおい
て、文字の形状や大きさ、言語の違いに制約されること
なく、カメラ画像データとして取り込んだ各国種々多様
な文字に対して、良好な文字認識が可能となる。
【0016】
【発明の実施の形態】以下、本発明の実施の形態を詳細
に説明する。図1は、本発明の実施の1形態例に係る文
字認識翻訳システムの構成とその処理の流れを示すブロ
ック図である。同図において、101は、文字認識を行
う認識系であり、102は、文字認識に必要な標本マス
クデータを作成する学習系であり、103は、認識系か
らの認識結果を受けてキーワードから文意を解析して翻
訳を行う翻訳系である。104は、案内掲示板,建造
物,レストランのメニュー,観光案内パンフレット等々
に記載された文字を画像データとして取り込むためのC
CD等によるカメラである。ここで、文字認識に必要な
1文字当たりの必要最小限の解像度を確保するために、
高解像度カメラを使用するか、複数のカメラを使用して
画像の分割を行うものとする。したがって、後で説明す
る文字指定領域内の文字を液晶ディスプレイ等で表示し
ている解像度と、認識処理用に取り込まれた文字画像デ
ータの解像度とは異なり、後者の解像度の方が高い。ま
た、129はLCD等よりなるディスプレイ、130は
スピーカであり、翻訳系103の処理結果を文章および
音声としてそれぞれ出力する。
【0017】上記の認識系101内において、105は
A/Dコンバータ、106は文字2値化処理部、107
はノイズ除去部、108は文字切出し部、109は照合
部、110は判定部、111は標本マスク格納部、11
2は単語辞書、113は文法辞書、114は連結部であ
る。
【0018】また、学習系102内において、115は
大規模文字データベース、116は文字形状分析部、1
17はマスク学習部である。
【0019】また、翻訳系103内において、119は
キーワード分析部、120は単語意味辞書、121は構
文意味辞書、122は中間言語処理部、123は文生成
部、124は単語意味辞書、125は構文用例辞書、1
26は音声合成処理部、127は音声処理部、128は
D/Aコンバータである。
【0020】上記した構成の学習系102において、カ
メラ(CCDカメラ)104で撮像され、認識系101
内のA/Dコンバータでアナログ信号からデジタル信号
に変換された文字列を含む静止画像データは、大規模文
字データベース115に蓄積して保存される。この大規
模文字データベース115に蓄積された静止画像データ
をもとに、文字形状分析部116は、文字を含む画像デ
ータの2値化処理と、ノイズ除去を含む背景からの文字
領域の抽出処理と、文字形状を分析し文字を構成してい
る文字構成要素の特徴を抽出する処理とを行う。つぎ
に、マスク学習部117は、文字形状分析部116から
の文字の特徴抽出結果を受けて、標本マスクデータを作
成する。マスク学習部117で作成された標本マスクデ
ータは、認識系101中の標本マスク格納部111に格
納する。
【0021】上記の大規模文字データベース115への
画像文字データの取り込みは任意の時点で可能である
が、時間的余裕のあるときに、学習系102による処理
をあらかじめ済ましておくことが望ましい。さらに、既
知の1つの文字(1つの文字コード)に対し、異なる複
数の筆記態様の画像文字データを取得しておくことが望
ましい。
【0022】また、認識系101には、標本マスク格納
部111と同様に、単語や文章の認識に必要な単語辞書
112や、文法辞書113が設けられている。ここで、
例えば、カメラ104で取り込んだ文字がフランス語
で、それを日本語に翻訳する場合には、標本マスク格納
部111,単語辞書112,文法辞書113は、フラン
ス語に対応したものとなっている。なお、標本マスク格
納部111,単語辞書112,文法辞書113は、多国
語に対応できるように、交換可能なICカードや、CD
−ROM等の大容量記憶媒体を用いるようにされる。
【0023】ここで、携帯型翻訳機などのようなハード
ウエア規模に制限がある場合には、学習系102は、携
帯型翻訳機本体に搭載する必要はない。学習系102の
処理の詳細については後で説明する。
【0024】認識系101では、CCDカメラ104で
撮像され、A/Dコンバータ105によってデジタル信
号に変換された画像データを、文字2値化処理部106
によって2値化処理する。さらに、このとき、2値化さ
れた画像データは解像度変換により正規化され、文字列
を含むm×n画素(ドット)の画像データに変換する。
つぎに、ノイズ除去部107により、文字以外の背景や
ノイズをカットする。つぎに、文字切出し部108にお
いて、m×n画素(ドット)文字列に対して、nを1画
素ごとに増やしながら、文字を切り出して行く。切り出
された文字領域は、文字を構成している文字構成要素と
して、照合部109で、標本マスク格納部111に格納
されている標本マスクデータと照合される。さらに、各
々の照合された文字構成要素で1つの文字を構成し、そ
れに対して文字の認識を行い、単語辞書112及び文法
辞書113を参照して、連結部114において認識され
た文字の連結を行い、続いて、この連続した文字の照合
を行って、判定部110において、単語や文章の認識を
行う。なお、118は、認識系101から出力された単
語や文章を表すコード化されたデータである。また、照
合部109の処理の詳細については後で説明する。
【0025】翻訳系103では、認識系101から出力
された単語や文章を表すコード化されたデータ118
を、キーワード分析部119により、翻訳に有効なキー
ワードであるかを分析して、そこから文章の意味を認識
し、さらに、中間言語処理部122において、各国の言
語に依存しない文章の意味だけを表す中間言語を生成す
る。ここで、キーワード分析部119には、単語意味辞
書120並びに構文意味辞書121が接続されている。
例えば、カメラ104で取り込んだ文字がフランス語
で、それを日本語に翻訳する場合、単語意味辞書120
や構文意味辞書121は、フランス語に対応しており、
また、多国語に対応できるように、単語意味辞書120
や構文意味辞書121は、交換可能なICカードや、C
D−ROM等の大容量記憶媒体を用いるようにされる。
【0026】中間言語処理部122で生成された中間言
語は、文生成部123において、翻訳したい言語からな
る文章に翻訳する。文生成部123には、日本語に対応
した単語辞書124並びに構文用例辞書125が接続さ
れている。翻訳された文章は、ディスプレイ129へ表
示する。さらに、翻訳された文章は、音声合成処理部1
26においてデジタル音声に変換し、デジタル信号をア
ナログ信号に変換するD/Aコンバータ128を介し
て、スピーカ130から音声出力する。音声合成処理部
126には、日本語に対応した構文用例辞書125並び
に音声辞書127が接続されている。また、多国語に対
応できるように、単語辞書124,構文用例辞書12
5,音声辞書127は、交換可能なICカードや、CD
−ROM等の大容量記憶媒体を用いるようにされる。
【0027】なお、図1に示す各処理のブロックは、複
数のLSIやメモリで構成されたシステムであっても、
半導体素子上に構成された1つないし複数のシステムオ
ンチップであってもよい。
【0028】つぎに、学習系102の処理の詳細につい
て説明する。図2は、学習系102において、標本マス
クデータが生成される様子を示したものである。図3
は、図2に示す標本マスクデータの生成を説明するため
のフローチャートである。
【0029】文字形状分析部116は、デジタル信号に
変換された文字列を含む静止画像データを保存した大規
模文字データベース115から、文字を含む画像データ
を2値化処理し、この2値化された画像データを解像度
変換により正規化して、文字列(横書き)を含むm×n
画素(ドット)の画像データ201(図2)に変換する
(ステップST301)。さらに、ノイズ除去を含む背
景からの文字領域の抽出を行い、文字形状を分析して、
例えば、図2に示すようなm×n画素(ドット)の
「M」の文字を構成している文字構成要素の特徴を抽出
する。そこで、横方向に対して、n(=1,2,3,
…)を1画素(ビット)ごとにインクリメントしなが
ら、画素の“1”,“0”を検出し、文字の輪郭等の特
徴を含むような文字構成要素m×n1(n1≦n),m
×n2(n2≦n),m×n3(n3≦n),m×n4
(n4≦n)の画素領域(図2の202〜205)に切
り出すと同時に、各文字構成要素に対して、何の文字か
を表す重み係数や、文字の始まり,つながり,終わりを
示す属性を分析する(ステップST302)。つぎに、
マスク学習部117は、切り出された文字の部分の特徴
に対して、重み付けを行い、その部分だけでも文字が推
定できるものに対しては、重み係数を大きくするように
して(ステップST303)、さらに、文字の始まり,
つながり,終わりを示す属性を付加して、標本マスクデ
ータを作成する(ステップST304)。
【0030】つぎに、認識系101中の照合部109の
処理の詳細について説明する。図4は、実際に海外旅行
先でカメラ画像として取り込まれた文字データが、携帯
型翻訳機に搭載された標本マスクデータと照合されて文
字が認識される様子を示したものである。図5は、図4
に示す文字の照合を説明するためのフローチャートであ
る。
【0031】始めに、文字認識翻訳したい文字列に対し
て、文字指定領域(m×n)画素を指定し、カメラ画像
データとして取り込む(ステップST501)。図4の
401は、カメラ画像データとして取り込まれた(m×
n)画素の「M」の文字である。このとき、文字2値化
処理部106では、取り込んだ文字データと、標本マス
クデータの解像度が異なる場合、横書きでは、文字の高
さmドットの解像度を等しくするように、取り込んだ文
字データの解像度変換を行い正規化する。ここで、横方
向nドットの解像度においては、標本マスクデータに複
数の解像度を持たせておく(ステップST502)。
【0032】つぎに、401の文字データに対して、横
方向n(=1,2,3,…)に1画素(ドット)毎にイ
ンクリメントして標本マスクデータと照合し、標本マス
クデータの重み係数を含む相関をとる。相関が最大とな
ったら、次の画素領域に対し、同様に相関をとる(ステ
ップST503)。例えば、m×n1(n1≦n),m
×n2(n2≦n),m×n3(n3≦n),m×n4
(n4≦n)の画素領域(図4の402〜405)が、
標本マスクデータ(図4の407〜410)との相関が
最も良かったとする。ここで、図4の411は、他の文
字の構成要素を表す標本マスクデータである。また、4
12,413,414,415は、それぞれ、重み係数
0.7,0.3,0.8,0.4を含む画素データであ
る。なおまた、標本マスクデータには、文字の始まり,
つながり,終わりを示す属性を付加しておく。これによ
り、メモリにおいて、標本マスクデータの検索時間の短
縮を図る。最後に、1文字に対して、相関値の総和(4
16)の最大検出(417)から、文字コード(42
0)の中から「M」の文字コード(421)を検出する
(ステップST504)。なお、418,419は、他
の文字の相関値の総和の最大検出である。
【0033】図6に、本発明の画像文字翻訳システムを
適用した携帯型翻訳機のイメージ及び外観を示す。図6
の(a)は、銅像の下に書かれている説明文である。ユ
ーザは、携帯型翻訳機のファインダーを覗いて、翻訳し
たい単語や文章を矩形領域で指定する。指定された文字
列は直ちに文字認識されて、例えば、ユーザが日本人で
あるならば、日本語に翻訳される。
【0034】図6の(b)は、携帯型翻訳機の外観図で
ある。同図において、601は携帯型翻訳機本体、60
2は文字画像を取り込むためのCCDカメラである。6
03,604はICカードで、ICカード603には、
文字認識翻訳を行うための標本マスク格納部111,単
語辞書112,文法辞書113,単語意味辞書120,
構文意味辞書121を構築するためのデータを格納して
あり、ICカード604には、文字認識翻訳を行うため
の単語辞書124,構文用例辞書125,音声辞書12
7を格納してある。605は液晶ディスプレイで、文字
認識翻訳したい単語や文章の文字列を指定するための文
字指定領域、並びに、文字認識翻訳した結果を表示す
る。606は、文字認識翻訳した結果を音声にして出力
するためのスピーカである。
【0035】図7は、文字認識翻訳したい単語や文章の
文字列を指定するための文字指定領域について説明する
ための図である。図7の(a)は、文字列が横書きの場
合の文字指定方法である。同図において、703は、フ
ァインダー領域あるいはそれを表示するディスプレイ領
域である。701および702は、文字認識翻訳したい
単語や文章の文字列を指定するための文字指定領域であ
り、文字の高さ方向にm画素(ドット)、横方向にn画
素(ドット)のm×n画素(ドット)の領域は、複数存
在し、それぞれ独立にサイズを変えて、任意の位置で指
定することができる。これにより、案内掲示板,建造
物,レストランのメニュー,観光案内パンフレット等々
に記載された任意の位置に配置された様々な文字に対し
て、容易に文字指定領域を指定することができる。70
4は、文字認識翻訳したい単語や文章の文字列の翻訳結
果が表示される翻訳表示領域である。
【0036】同様に、図7(のb)は、文字列が縦書き
の場合の文字指定方法である。同図において、707
は、ファインダー領域あるいはそれを表示するディスプ
レイ領域である。705および706は、文字認識翻訳
したい単語や文章の文字列を指定するための文字指定領
域であり、文字の幅方向にm画素(ドット)、縦方向に
n画素(ドット)のm×n画素(ドット)の領域は、複
数存在し、それぞれ独立にサイズを変えて、任意の位置
で指定することができる。これにより、案内掲示板,建
造物,レストランのメニュー,観光案内パンフレット等
々に記載された任意の位置に配置された様々な文字対し
て、容易に文字指定領域を指定することができる。70
8は、文字認識翻訳したい単語や文章の文字列の翻訳結
果が表示される翻訳表示領域である。
【0037】
【発明の効果】以上のように本発明によれば、文字の形
状や大きさ、言語の違いに制約されることなく、カメラ
画像データとして取り込まれた各国種々多様な文字を認
識して翻訳するのに良好な文字認識翻訳システムが実現
でき、海外旅行先などで目にする観光案内掲示板,建造
物,看板,パンフレット,レストランのメニュー等々に
記述されている文字をカメラ画像データとして取り込
み、文字認識して、翻訳する携帯型翻訳機などの携帯型
情報機器に用いて、その効果は顕著である。
【図面の簡単な説明】
【図1】本発明の実施の1形態例に係る文字認識翻訳シ
ステムの構成を示すブロック図である。
【図2】本発明の実施の1形態例における、標本マスク
データ生成の説明図である。
【図3】本発明の実施の1形態例における、標本マスク
データ生成のフローチャート図である。
【図4】本発明の実施の1形態例における、標本マスク
データ照合の説明図である。
【図5】本発明の実施の1形態例における、標本マスク
データ照合のフローチャート図である。
【図6】本発明の実施の1形態例に係る文字認識翻訳シ
ステムを、携帯型翻訳機に適用した1例を示す説明図で
ある。
【図7】本発明の実施の1形態例における、文字指定領
域の1例を示す説明図である。
【図8】従来のカメラ画像文字認識翻訳装置の構成を示
すブロック図である。
【符号の説明】
101 認識系 102 学習系 103 翻訳系 104 カメラ 105 A/Dコンバータ 106 文字2値化処理部 107 ノイズ除去部 108 文字切出し部 109 照合部 110 判定部 111 標本マスク格納部 112 単語辞書 113 文法辞書 114 連結部 115 大規模文字データベース 116 文字形状分析部 117 マスク学習部 119 キーワード分析部 120 単語意味辞書 121 構文意味辞書 122 中間言語処理部 123 文生成部 124 単語意味辞書 125 構文用例辞書 126 音声合成処理部 127 音声処理部 128 D/Aコンバータ 129 ディスプレイ 130 スピーカ

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 文字をカメラ画像として取り込んで文字
    認識し、単語や文章を翻訳する文字認識翻訳システムに
    おいて、 あらかじめ取り込まれたカメラ画像文字データを蓄積す
    る大規模文字データベースと、 この大規模文字データベースの画像文字データから文字
    形状を分析し、文字を構成している文字構成要素の特徴
    を抽出する文字形状分析部と、 この文字形状分析部の分析結果から、上記文字構成要素
    の標本マスクデータを作成するマスク学習部とを有し、 取り込まれたカメラ画像文字データに対して、上記文字
    構成要素の標本マスクデータと照合して文字を認識し、
    単語や文章を翻訳することを特徴とする文字認識翻訳シ
    ステム。
  2. 【請求項2】 請求項1記載において、 前記文字認識翻訳システムは携帯型翻訳機などの携帯型
    情報機器に適用されるとともに、前記大規模文字データ
    ベースと前記文字形状分析部と前記マスク学習部とは、
    上記携帯型情報機器には搭載せずに、あらかじめ作成さ
    れた前記文字構成要素の標本マスクデータのみを上記携
    帯型情報機器に搭載することを特徴とする文字認識翻訳
    システム。
  3. 【請求項3】 請求項1記載において、 前記文字形状分析部は、前記大規模文字データベースの
    中から、2値化されたm×n画素(ドット)の文字に対
    して、nを1画素ごとにインクリメントしながら、画素
    の“1”,“0”を検出し、文字の輪郭等の特徴を含む
    ようなm×n1(n1≦n),m×n2(n2≦n),
    ・・・画素領域に分割して、各画素領域に対して、何の
    文字かを表す重み係数や、文字の始まり,つながり,終
    わりを示す属性を分析することを特徴とする文字認識翻
    訳システム。
  4. 【請求項4】 請求項1または3記載において、 前記マスク学習部は、文字の輪郭等の特徴を含むような
    m×n1(n1≦n),m×n2(n2≦n),・・・
    画素領域に対して、それぞれ何の文字かを表す重み係数
    や、文字の始まり,つながり,終わりを示す属性を付加
    して、前記標本マスクデータを生成し、さらに、1つの
    標本マスクデータに対して、複数の解像度を持たせて正
    規化した標本マスクデータを生成することを特徴とする
    文字認識翻訳システム。
  5. 【請求項5】 請求項1または3または4記載におい
    て、 文字認識したい単語や文章の文字列の指定するm×n画
    素(ドット)の文字列指定領域は、複数の文字形状やサ
    イズの異なった文字列に対して、複数の文字指定領域を
    独立に設定することを特徴とする文字認識翻訳システ
    ム。
  6. 【請求項6】 請求項3または4または5記載におい
    て、 文字認識したい単語や文章の文字列を指定するm×n画
    素(ドット)の文字列指定領域は、文字列が横書きの場
    合には、文字の高さ方向にm画素(ドット)、横方向に
    n画素(ドット)の文字列指定領域を指定して、横方向
    に1画素(ドット)、あるいはn1(n1≦n)画素
    (ドット)ごとにm×n1画素(ドット)の領域を読み
    出して、前記した文字構成要素の標本マスクデータと照
    合して文字を認識することを特徴とする文字認識翻訳シ
    ステム。
  7. 【請求項7】 請求項3または4または5記載におい
    て、 文字認識したい単語や文章の文字列を指定するm×n画
    素(ドット)の文字列指定領域は、文字列が縦書きの場
    合には、文字の幅方向にm画素(ドット)、縦方向にn
    画素(ドット)の文字列指定領域を指定して、縦方向に
    1画素(ドット)、あるいはn1(n1≦n)画素(ド
    ット)ごとにm×n1画素(ドット)の領域を読み出し
    て、前記した文字構成要素の標本マスクデータと照合し
    て文字を認識することを特徴とする文字認識翻訳システ
    ム。
JP7296920A 1995-11-15 1995-11-15 文字認識翻訳システム Pending JPH09138802A (ja)

Priority Applications (15)

Application Number Priority Date Filing Date Title
JP7296920A JPH09138802A (ja) 1995-11-15 1995-11-15 文字認識翻訳システム
TW085113305A TW347503B (en) 1995-11-15 1996-11-01 Character recognition translation system and voice recognition translation system
EP96308228A EP0774729B1 (en) 1995-11-15 1996-11-14 Character recognizing and translating system
SG200100298A SG128406A1 (en) 1995-11-15 1996-11-14 Character recognizing and translating system and voice recognizing and translating system
SG9611116A SG81210A1 (en) 1995-11-15 1996-11-14 Character recognizing and translating system and voice recognizing and translating system
EP00100759A EP1017041B1 (en) 1995-11-15 1996-11-14 Voice recognizing and translating system
KR1019960053998A KR100220960B1 (ko) 1995-11-15 1996-11-14 문자인식 번역시스템 및 음성인식 번역시스템
DE69634740T DE69634740T2 (de) 1995-11-15 1996-11-14 System zur Spracherkennung und Übersetzung
DE69623569T DE69623569T2 (de) 1995-11-15 1996-11-14 System zur Zeichenerkennung und Übersetzung
US08/751,535 US5917944A (en) 1995-11-15 1996-11-15 Character recognizing and translating system and voice recognizing and translating system
MYPI96004742A MY114036A (en) 1995-11-15 1996-11-15 Character recognizing and translating system and voice recognizing and translating system
CNB961145714A CN1139042C (zh) 1995-11-15 1996-11-15 字符识别翻译系统
MYPI20015371A MY126144A (en) 1995-11-15 1996-11-15 Character recognizing and translating system and voice recognizing and translating system
US09/296,278 US6148105A (en) 1995-11-15 1999-04-22 Character recognizing and translating system and voice recognizing and translating system
HK01100150A HK1029859A1 (en) 1995-11-15 2001-01-05 Voice recognizing and translating system.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7296920A JPH09138802A (ja) 1995-11-15 1995-11-15 文字認識翻訳システム

Publications (1)

Publication Number Publication Date
JPH09138802A true JPH09138802A (ja) 1997-05-27

Family

ID=17839892

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7296920A Pending JPH09138802A (ja) 1995-11-15 1995-11-15 文字認識翻訳システム

Country Status (1)

Country Link
JP (1) JPH09138802A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11110388A (ja) * 1997-09-10 1999-04-23 Yili Electron Ind Co Ltd 撮像式電子翻訳機
JPH11265391A (ja) * 1998-03-17 1999-09-28 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置
JP2003178066A (ja) * 2001-12-13 2003-06-27 Nikon Gijutsu Kobo:Kk 生活支援システムおよび装置
JP2004220437A (ja) * 2003-01-16 2004-08-05 Renesas Technology Corp 情報認識装置
JP2005301914A (ja) * 2004-04-15 2005-10-27 Sharp Corp 携帯情報機器
US8041555B2 (en) 2007-08-15 2011-10-18 International Business Machines Corporation Language translation based on a location of a wireless device
US9245357B2 (en) 2011-08-08 2016-01-26 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and storage medium
JP2019537103A (ja) * 2016-09-28 2019-12-19 シストラン インターナショナル カンパニー.,リミテッド.Systran International Co.,Ltd. 文字を翻訳する方法及びその装置
WO2020045685A1 (ja) * 2018-08-31 2020-03-05 ソニー株式会社 撮像装置、撮像システム、撮像方法および撮像プログラム
CN110991289A (zh) * 2019-11-25 2020-04-10 达闼科技成都有限公司 异常事件的监测方法、装置、电子设备及存储介质

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11110388A (ja) * 1997-09-10 1999-04-23 Yili Electron Ind Co Ltd 撮像式電子翻訳機
JPH11265391A (ja) * 1998-03-17 1999-09-28 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置
JP2003178066A (ja) * 2001-12-13 2003-06-27 Nikon Gijutsu Kobo:Kk 生活支援システムおよび装置
JP2004220437A (ja) * 2003-01-16 2004-08-05 Renesas Technology Corp 情報認識装置
JP2005301914A (ja) * 2004-04-15 2005-10-27 Sharp Corp 携帯情報機器
US8041555B2 (en) 2007-08-15 2011-10-18 International Business Machines Corporation Language translation based on a location of a wireless device
US9245357B2 (en) 2011-08-08 2016-01-26 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and storage medium
JP2019537103A (ja) * 2016-09-28 2019-12-19 シストラン インターナショナル カンパニー.,リミテッド.Systran International Co.,Ltd. 文字を翻訳する方法及びその装置
WO2020045685A1 (ja) * 2018-08-31 2020-03-05 ソニー株式会社 撮像装置、撮像システム、撮像方法および撮像プログラム
WO2020045686A1 (ja) * 2018-08-31 2020-03-05 ソニー株式会社 撮像装置、撮像システム、撮像方法および撮像プログラム
JP2020039126A (ja) * 2018-08-31 2020-03-12 ソニー株式会社 撮像装置、撮像システム、撮像方法および撮像プログラム
JP2020039123A (ja) * 2018-08-31 2020-03-12 ソニー株式会社 撮像装置、撮像システム、撮像方法および撮像プログラム
JP2020039124A (ja) * 2018-08-31 2020-03-12 ソニー株式会社 撮像装置、撮像システム、撮像方法および撮像プログラム
US11595608B2 (en) 2018-08-31 2023-02-28 Sony Corporation Imaging apparatus, imaging system, imaging method, and imaging program including sequential recognition processing on units of readout
US11704904B2 (en) 2018-08-31 2023-07-18 Sony Corporation Imaging apparatus, imaging system, imaging method, and imaging program
CN110991289A (zh) * 2019-11-25 2020-04-10 达闼科技成都有限公司 异常事件的监测方法、装置、电子设备及存储介质
CN110991289B (zh) * 2019-11-25 2023-09-05 达闼机器人股份有限公司 异常事件的监测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
EP0774729B1 (en) Character recognizing and translating system
US10741167B2 (en) Document mode processing for portable reading machine enabling document navigation
US8873890B2 (en) Image resizing for optical character recognition in portable reading machine
US7515770B2 (en) Information processing method and apparatus
US8531494B2 (en) Reducing processing latency in optical character recognition for portable reading machine
US7403657B2 (en) Method and apparatus for character string search in image
US20160344860A1 (en) Document and image processing
US20170011732A1 (en) Low-vision reading vision assisting system based on ocr and tts
US20060008122A1 (en) Image evaluation for reading mode in a reading machine
CN110796140B (zh) 一种字幕检测方法和装置
JPH09138802A (ja) 文字認識翻訳システム
JP4983526B2 (ja) データ処理装置及びデータ処理プログラム
JP6746947B2 (ja) 翻訳プログラム及び情報処理装置
KR102148021B1 (ko) 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법 및 그 장치
KR100874747B1 (ko) 화소 이동 문서 영상 조합 인식 방법을 이용한 카메라 문자인식 장치 및 방법
JP2008004116A (ja) 映像中の文字検索方法及び装置
JP2000132639A (ja) 文字抽出認識方法及び装置及びこの方法を記録した記録媒体
KR101911613B1 (ko) 뉴스 인터뷰 영상의 오버레이 텍스트 기반 인물 인덱싱 방법 및 장치
KR102320851B1 (ko) 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법
Velmurugan et al. A Next-Gen Automated Reading Companion for the Visually Impaired
PI PORTABLE TEXT TO SPEECH DEVICE FOR VISUALLY IMPAIRED USING RASPBERRY PI AND WEBCAM
Sugawara Document Reader for the Visually Disabled
WO2022254307A1 (en) An interactive platform to learn programming and a method to operate the same
US20160267083A1 (en) Real time information retrieval of quranic citations and explanations of the quran (tafseer-ul-quran) in the native language of the user
Sugawara Document reading system for the visually disabled