JP5075997B2

JP5075997B2 - 電子機器、プログラムおよび文字列認識方法

Info

Publication number: JP5075997B2
Application number: JP2011076420A
Authority: JP
Inventors: 三恵子浅野
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2011-03-30
Filing date: 2011-03-30
Publication date: 2012-11-21
Anticipated expiration: 2031-03-30
Also published as: US8582894B2; US20120250989A1; JP2012212231A

Description

本発明の実施形態は、電子機器、プログラムおよび文字列認識方法に関する。

これまで書面等を画像データとして読み込み、その画像データ内の文字列を認識してデータベース化することが行われてきた。文字認識方法の一例として、文字間隔長及び単語間隔長が狭い文字列について検出精度の向上を図ったものが開示されている。

特開平８−１８５４８５号公報

ポスター等では複数の文字列が重なって表記されているデザインが見受けられる。複数の文字列が表記されている書面やポスターからユーザの所望するＵＲＬやメールアドレス等の文字列を正しく認識するためには、文字間隔に加えて文字列の方向性等の複数の特徴を加味して文字列を認識する必要がある。

本発明の目的は、各文字の複数の特徴を考慮して文字列の認識精度を向上させた電子機器、プログラムおよび文字列認識方法を提供することである。

実施形態によれば、電子機器は、画像中から第１の文字候補と第２の文字候補とを検出する文字検出手段と、前記第１の文字候補の少なくとも文字の大きさ、色、線幅の何れかを含む第１の特徴データと、前記第２の文字候補の少なくとも文字の大きさ、色、線幅の何れかを含む第２の特徴データと、を検出する特徴検出手段と、前記第１の特徴データと前記第２の特徴データとの一致度が閾値を満たす場合に、前記第１の文字候補と前記第２の文字候補とを文字列として統合する文字列統合手段と、前記文字列の属性を示す部分を検出し、前記文字列の属性に対応する機能を起動する制御手段と、を有し、前記文字列統合手段は、寄与率が設定された複数の特徴を表すデータに基づいて、前記第１の特徴データと前記第２の特徴データとの一致度を算出する。

さらに、実施形態のプログラムは、画像中から第１の文字候補と第２の文字候補とを検出する文字検出手段と、前記第１の文字候補の少なくとも文字の大きさ、色、線幅のうちの何れかを含む第１の特徴データと、前記第２の文字候補の少なくとも文字の大きさ、色、線幅のうちの何れかを含む第２の特徴データと、を検出する特徴検出手段と、前記第１の特徴データと前記第２の特徴データとの一致度に基づいて、前記第１の文字候補と前記第２の文字候補とを文字列として統合するか否かを判別する文字列統合手段、としてコンピュータを機能させ、さらに、前記文字列統合手段は、寄与率が設定された複数の特徴を表すデータに基づいて、前記第１の特徴データと前記第２の特徴データとの一致度を算出する。
また、実施形態によれば、文字列認識方法は、画像中から第１の文字候補と第２の文字候補とを検出するステップと、前記第１の文字候補の少なくとも文字の大きさ、色、線幅のうちの何れかを含む第１の特徴データと、前記第２の文字候補の少なくとも文字の大きさ、色、線幅のうちの何れかを含む第２の特徴データと、を検出するステップと、前記第１の特徴データと前記第２の特徴データとの一致度に基づいて、前記第１の文字候補と前記第２の文字候補とを文字列として統合するか否かを判別するステップと、を有し、前記判別するステップでは、寄与率が設定された複数の特徴を表すデータに基づいて、前記第１の特徴データと前記第２の特徴データとの一致度を算出する。

実施形態における電子機器の外観図。実施形態における電子機器の機能ブロック図。実施形態における文字列統合処理を説明するための例を示す第１の図。実施形態における文字候補の特徴データの概念図。実施形態における文字認識手順を示すフローチャート。実施形態における特徴データ表。第１の実施形態における文字列統合手順を示す第１のフローチャート。第２の実施形態における文字列統合手順を示すフローチャート。実施形態における文字列統合処理を説明するための例を示す第２の図。第１の実施形態における文字列統合手順を示す第２のフローチャート。第３の実施形態における特徴データ表。第３の実施形態における文字列統合手順を示すフローチャート。

以下、図面を参照して、実施形態について説明する。
図１は、実施形態における電子機器１の外観図である。電子機器１は、図１に示すように矩形状の扁平な形状を成している。図１（Ａ）は電子機器１の上面２Ａを上側にした状態、図１（Ｂ）は電子機器１の下面２Ｂを上側にした状態を示す。

図１（Ａ）に示すように、電子機器１には、筺体上面２Ａに露出するようにディスプレイ３と、操作ボタン４とが設けられている。ディスプレイ３は、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）等で構成され、動画像を表示することができる。またディスプレイ３の上面には透明のタッチパネル３Ａが設けられており、ディスプレイ３とタッチパネル３Ａとによってタッチスクリーンディスプレイが実現されている。このタッチスクリーンディスプレイは操作入力部１０として機能し、ペン又は指によってタッチされた表示画面上のタッチエリア（タッチ位置とも云う）を検出する。即ち、タッチ位置を検出することによって、ユーザはディスプレイ３に表示された画像の中から、所望の文字領域をタッチして選択することができる。

また、電子機器１の筺体上面２Ａに露出するように設けられる操作ボタン４も操作入力部１０として機能し、操作ボタン４Ａ、４Ｂ、及び４Ｃと識別される。操作ボタン４Ａ、４Ｂ、及び４Ｃにはそれぞれ別々の機能が割り当てられ、例えば電源ＯＮ／ＯＦＦ切り替え機能や、カーソル移動機能や、決定機能等がある。これら操作ボタン４Ａ、４Ｂ、及び４Ｃを操作することで、ディスプレイ３に表示された画像の中から所望の文字領域を選択することができる。操作ボタン４による文字領域の選択操作の一例としては、区画された複数の文字領域を選択するカーソルを移動させて決定することで選択する方法がある。図１（Ｂ）に示すように、電子機器１には筺体下面２Ｂに露出するようにカメラ５が設けられている。

次に、図２を用いて本実施の形態における電子機器１の機能について説明する。図２は、実施形態における電子機器１の機能ブロック図である。
電子機器１は、ディスプレイ３と、カメラ５と、文字認識アプリケーション１１と、操作入力部１０と、制御部２０と、アプリケーション２１とを有する。文字認識アプリケーション１１は機能部として、画像入力部１３と、文字検出部１４と、特徴検出部１５と、文字列統合部１６と、文字認識部１７と、情報検索部１８と、画像生成部１９とを有する。

操作入力部１０は、操作ボタン４やタッチパネル３Ａの操作により入力される操作コマンドを制御部２０に入力する。
制御部２０は、電子機器１全体の動作を制御する。また、制御部２０は文字認識アプリケーション１１や、各種アプリケーション２１を実行する。アプリケーション２１としては、ブラウザやメールアプリケーション等である。

続いて、文字認識アプリケーション１１の各機能部の機能について説明する。
画像入力部１３は、文字検出部１４及び画像生成部１９に画像データを入力する。入力する画像データは搭載されているカメラ５で撮像したものでも良いし、外部からインポートしたものでも良いし、ネットワーク経由でダウンロードしたものでも良い。また画像データの形態は、文書画像でも良いし、情景やポスター等の自然画像でも良い。

文字検出部１４は、画像入力部１３から入力された画像データから、図３に示す文字候補１０２を検出する。例えば、予め格納されている文字のサンプルを用いて、画像全体を走査することによって文字らしい領域として文字候補１０２を検出する。または、画像全体を走査し、複数のサイズで画像を切り出し、従来の光学文字認識（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）のように文字を認識後、類似度の高い領域を文字候補１０２としても良い。即ち、文字検出部１４は、局所領域で文字候補１０２を含む領域を検出する。また、文字検出部１４は、操作入力部１０で選択された領域を文字候補検索領域１０１としてこの領域内から文字候補１０２を検出しても良い。即ち、文字検出部１４は、ユーザのタッチパネル３Ａや操作ボタン４の操作により文字候補検索領域１０１を決定する。ユーザによって文字候補検索領域１０１が選択されることにより、電子機器１における文字候補１０２の検出処理が省力化され、低負荷かつより的確にユーザの所望する文字列１０３を含む領域を選択することができる。

特徴検出部１５は、文字検出部１４で検出された文字候補１０２において、文字候補１０２ごとに特徴を示す特徴データを検出する。検出する特徴データは、特徴データ表１２に記憶されている。文字の特徴を示す特徴データとしては、文字の線幅、サイズ、色等がある。特徴データについては図３及び図４を用いて後述する。

文字列統合部１６は、特徴検出部１５で検出された特徴データを用いて、検出した文字候補１０２を文字列１０３として統合するか否かを判別する。文字列統合部１６は、特徴データ表１２を参照して、特徴データの優先度及び寄与率に応じて文字列統合を行う。文字列統合部１６の文字候補１０２の統合手順については後述する。

文字認識部１７は、文字列統合部１６で得られた文字列１０３の画像を、下地と文字とを分離し、文字認識を行う。
情報検索部１８は、文字認識部１７で得られた文字認識結果を用いて、対応するアプリケーション２１の起動等を制御部２０と協同して行う。情報検索部１８は、文字列の属性を示す部分と、対応するアプリケーションとを対応付けたデータベースを保持し、このデータベースを参照して認識された文字列に対応するアプリケーションを選択する。例えば、「ｈｔｔｐ：／／」とブラウザ、「＠」とメールアプリケーション、とがそれぞれ対応付けられている。電子機器が通話機能を有する場合には、数字の文字列と通話アプリケーションを対応付けるとしても良い。また、情報検索部１８は、文字認識結果を画像生成部１９に出力する。

画像生成部１９は、画像入力部１３から入力された画像データと、情報検索部１８から入力された画像データとから、ディスプレイ３で表示する画像を生成する。例えば、画像入力部１３から入力された画像データの上に文字認識結果を重畳して表示しても良いし、画像入力部１３から入力された画像データとは別のウィンドウで情報検索部１８により起動されたアプリケーションウィンドウを表示するとしても良い。文字認識結果画面としては、認識した文字情報に対応するアプリケーション名を表示する画面でも良いし、対応するアプリケーションの起動を選択する画面でも良い。

次に、特徴データについて図３及び図４を用いて説明する。図３は実施形態における文字列統合処理を説明するための例を示す第１の図、図４実施形態における文字候補の特徴データの表である。

まず、特徴検出部１５は、例えば表示画面１００の左上を基点（座標（０，０））として座標を形成する。また操作入力部１０により文字候補検索領域１０１が選択された場合は、文字候補検索領域１０１の左上を基点として座標を形成する。特徴検出部１５は、文字候補１０２の内、文字候補１０２領域の中点と基点との距離が最も短い文字候補１０２を第１文字候補１０２（１）と設定する。そして、特徴検出部１５は、この第１文字候補１０２（１）と近接している文字候補１０２を第２文字候補１０２（２）と設定する。ここで近接するとは、文字検出部１４で検出された複数の文字候補１０２内で所定の距離内に他の文字候補１０２が位置している状態である。複数文字候補１０２を検出した場合に、何れも文字候補１０２を選択するかについては後述する。

以上のように、第１文字候補１０２（１）から近接する文字候補１０２に順に番号をつける。図３に示す文字列１０３「ｈｔｔｐ：／／ｗｗｗ．ａｂｃ．ｃｏｍ」では、第１文字候補１０２（１）から第１８文字候補１０２（１８）で構成される。図３では第１文字候補１０２（１）から第８文字候補１０２（８）までについて符号を付している。第１文字候補１０２（１）は「ｈ」、第２文字候補１０２（２）は「ｔ」、第３文字候補１０２（３）は「ｔ」、第４文字候補１０２（４）は「ｐ」、第５文字候補１０２（５）は「：」、第６文字候補１０２（６）は「／」、第７文字候補１０２（７）は「／」、第８文字候補１０２（８）は「ｗ」となる。

図４は、図３に例示した文字列１０３の各文字候補１０２の特徴データを示した表である。各文字候補１０２の特徴データを取得するタイミングは、文字候補１０２を検出後全ての文字候補１０２について検出し記憶しても良いし、後述する文字列統合する際に一文字候補１０２ごとに検出しても良い。

図４に示すように、第１文字候補１０２（１）の線幅データは０．５ｐｔ、サイズデータ１０ｐｔ、色データは黒である。第２文字候補１０２（２）の線幅データは０．６ｐｔ、サイズデータ１２ｐｔ、色データは黒である。第８文字候補１０２（８）までの各特徴データについては図４に示す通りである。

文字列の特徴データの他の例として、文字の種類、文字の書体、文字の回転角度、文字列１０３の方向性等がある。ここで、文字の種類は、数字、記号、英字、漢字、平仮名等である。文字の書体は、例えば明朝体や、ゴシック体等がある。文字の回転角度とは、文字サンプルと文字候補１０２内の文字部分とを比較することで算出することができる。例えば図３に示した「ｈ」は、右方向に４５度回転している。

文字列１０３の方向性データは、各文字候補１０２の文字領域の中点同士を結ぶ方向ベクトルである。図３の下段には第１文字候補１０２（１）と第２文字候補１０２（２）との間の方向ベクトルｄ１を拡大して図示している。表示画面１００の左上を基点（座標（０，０））として、第１文字候補１０２（１）の文字領域の中点の座標と、第２文字候補１０２（２）の文字領域の中点の座標とが定義できる。この第２の文字候補１０２（２）の座標から第１文字候補１０２（１）の座標を差し引くことで、方向ベクトルｄ１を算出することができる。

同様にして第３文字候補１０２（３）の座標から第２文字候補１０２（２）の座標を差し引くことで方向ベクトルｄ２を算出する。以上のように順に文字列１０３を構成する文字候補１０２間の方向ベクトルを算出することで、文字列１０３の方向性データが得られる。即ち、図３の例においては、各文字候補１０２間の方向ベクトルが同方向になるので、方向ベクトルの示す方向へ一列に並んでいることを示している。また、図９に示す文字列１０３Ａでは、方向ベクトルが規則的に変化していることから、文字候補１０２が規則的に位置していることを示している。以上のように、文字列統合部１６は、方向性データを取得することで、複雑に配置された文字列であっても認識可能となる。

次に、図５を用いて本実施形態における文字認識手順について説明する。図５は、５実施形態における文字認識手順を示すフローチャートである。
まず、画像入力部１３は、画像データを取り込み、文字検出部１４および画像生成部１９に画像データを入力する（ステップＳ１０１）。次に、文字検出部１４は、画像データの中から、文字候補１０２を検出する（ステップＳ１０２）。

次に、特徴検出部１５は、文字候補１０２の特徴を示す特徴データを検出する（ステップＳ１０３）。次に、文字列統合部１６は、ステップＳ１０３で検出した特徴データを用いて、文字候補１０２を統合して文字列１０３を形成する（ステップＳ１０４）。

次に、文字認識部１７は、ステップＳ１０４で統合した文字列１０３を画像データの下地から分離し、文字認識を行う（ステップＳ１０５）。次に、情報検索部１８は、ステップＳ１０５で得られた文字認識結果を用いて検索処理を行う（ステップＳ１０６）。次に、画像生成部１９は、ステップＳ１０６で得られた検索結果と、画像データとを用いて、ディスプレイ３へ出力する表示画像を生成する（ステップＳ１０７）。以上で、本実施の形態における文字認識手順を終了する。

次に、本実施の形態における文字列統合の手順について説明する。図６は、実施形態における特徴データ表である。文字列統合部１６は、文字候補１０２を統合して文字列１０３を形成する際に特徴データを設定する。また、複数の特徴データを設定する場合には、各特徴データについて優先度及び寄与率を設定する。文字候補１０２の一致度は、例えば以下の式１を用いて算出する。式１は、文字候補１０２間の各特徴データの一致度と、当該特徴データの一致度の寄与率を積算した値の和を文字候補の一致度として算出する。

文字候補の一致度＝Σ（特徴データの一致度＊当該特徴データの寄与率）…（式１）
図６に示す例においては、線幅データが優先度１位、サイズデータが優先度２位、色データが優先度３位と設定している。また線幅データの寄与率が５０％、サイズデータの寄与率が３０％、色データの寄与率が２０％と設定している。文字列統合部１６は、複数の特徴データに重みづけを行って文字候補１０２の一致度を算出する。図６の例における文字候補１０２の一致度は、例えば以下の式２を用いて算出する。

文字候補の一致度＝線幅の一致度＊α＋サイズの一致度＊β＋色の一致度＊γ…（式２）
文字列統合部１６は、各特徴データの一致度を、検出した特徴データの値を比較して算出する。例えば、特徴データの一致度は、特徴データの値が同一である場合を１００パーセントとして、特徴データの値の差の大きさに比例して低く設定する。図４における線幅データを例に説明すると、第１文字候補１０２（１）と第２文字候補１０２（２）との一致度は、第１文字候補１０２（１）と第３文字候補１０２（３）との一致度よりも高く設定される。特徴データの値の差の大きさを変数とする特徴データの一致度を導出する場合の比例定数は予め設定されている。文字列統合部１６は、予め文字候補１０２を統合する文字候補１０２の一致度の閾値を設定している。

次に、図７乃至図１０を用いて本実施の形態における文字列統合手順について説明する。図７は第１の実施形態における文字列統合手順を示す第１のフローチャート、図８は第２の実施形態における文字列統合手順を示すフローチャートである。また、図９は実施形態における文字列統合処理を説明するための例を示す第２の図、図１０は第１の実施形態における文字列統合手順を示す第２のフローチャートである。

第１の実施形態における文字列統合方法では、一組の文字候補１０２を比較して文字列統合を行う。以下の説明においては、第１文字候補１０２（１）から順に隣り合う文字候補１０２同士を一組（Ｘ，Ｙ）として特徴データを比較し、文字列１０３として統合していく方法を説明する。文字候補Ｘは、特徴データを比較する基準となる文字候補であり、文字候補Ｙは特徴データを比較する対象となる文字候補である。文字候補Ｙは、文字列統合手順において、文字候補Ｘよりも統合する順番が後になる文字候補ある。

具体的には、第１文字候補１０２（１）（文字候補Ｘ）の特徴データと第２文字候補１０２（２）（文字候補Ｙ）の特徴データとから式１を用いて文字候補１０２の一致度を算出し、文字候補１０２の一致度が閾値以上であれば第１文字候補１０２（１）と第２文字候補１０２（２）とを文字列１０３として統合する。次に、第２文字候補１０２（２）（文字候補Ｘ）の特徴データと第３文字候補１０２（３）（文字候補Ｙ）の特徴データとから式１を用いて文字候補１０２の一致度を算出し、文字候補１０２の一致度が閾値以上であれば第２文字候補１０２（２）と第３文字候補１０２（３）とを文字列１０３として統合する。新たな文字候補１０２が検出されなくなるまで、以上の手順を繰り返すことで文字列１０３を生成する。

尚、特徴データの比較のセットは隣り合う文字候補１０２に限定されない。例えば、特徴データの比較に用いる文字候補Ｘをある一つの文字候補１０２（ｎ）に固定しても良い。文字候補Ｘを第１文字候補１０２（１）に固定して、比較対象である文字候補Ｙを順に変更する方法でも良い。

まず、所定の規則に従って、表示画面１００内から第ｎ文字候補１０２（ｎ）を選択する（ステップＳ２０１）。当手順開始時には、指数ｎは１に設定され、第１文字候補１０２（１）が選択される。以後、特徴データの比較の基準とする第ｎ文字候補１０２（ｎ）を文字候補Ｘ、特徴データの比較の対象となる第（ｎ＋１）文字候補１０２（ｎ＋１）を文字候補Ｙと称する。

次に、文字列統合部１６は、文字候補Ｘに続く文字候補Ｙがあるか否かを判別する（ステップＳ２０２）。ステップＳ２０２で判別した結果、文字候補Ｙが無いと判別した場合（ステップＳ２０２のＮｏ）、ステップＳ２１２に遷移する。一方、ステップＳ２０２で判別した結果、文字候補Ｙがあると判別した場合（ステップＳ２０２のＹｅｓ）、文字列統合部１６は、文字候補Ｘに続く文字候補Ｙが複数あるか否かを判別する（ステップＳ２０３）。ステップＳ２０３で判別した結果、複数の文字候補Ｙがあると判別した場合（ステップＳ２０３のＹｅｓ）、図１０に示す（１）に遷移する。この複数の文字候補がある場合の統合手順については図９及び図１０を用いて後述する。

ステップＳ２０３で判別した結果、複数の文字候補Ｙが無いと判別した場合（ステップＳ２０３のＮｏ）、文字候補Ｙを選択する（ステップＳ２０４）。次に特徴検出部１５は、文字候補Ｘ及びＹの線幅データを検出する（ステップＳ２０５）。次に特徴検出部１５は、文字候補Ｘ及びＹのサイズデータを検出する（ステップＳ２０６）。次に特徴検出部１５は、文字候補Ｘ及びＹの色データを検出する（ステップＳ２０７）。次に、文字列統合部１６は、ステップＳ２０５乃至Ｓ２０７で検出した特徴データと特徴データ表１２に設定されている寄与率を用いて式１により文字候補ＸとＹとの一致度を算出する（ステップＳ２０８）。

次に、文字列統合部１０６は、ステップＳ２０８で算出された一致度が、閾値未満であるか否かを判別する（ステップＳ２０９）。ステップＳ２０９で判別した結果、一致度が閾値未満でないと判別した場合（ステップＳ２０９のＮｏ）、文字列統合部１６は、文字候補Ｘ及びＹを文字列１０３として統合する（ステップＳ２１０）。次に、文字列統合部１６は、指数ｎに１を加算し（ステップＳ２１１）、ステップＳ２０１に遷移する。即ち、特徴データを判別する文字候補をＸ（ｎ番）とＹ（ｎ＋１番）から、Ｘ（ｎ＋１）とＹ（ｎ＋２）に変更して上述の手順を繰り返す。従って、隣り合う文字候補１０２を一組として順に比較することで、文字列１０３の統合を行う。

一方、ステップＳ２０９で判別した結果、文字候補Ｘ及びＹの一致度が閾値未満であると判別した場合（ステップＳ２０９のＹｅｓ）、図８に示す（３）に進み本文字列統合手順を終了する。または第３の実施形態として、図１２に示す（４）に進む。本変形例については後述する。

ステップＳ２０２で判別した結果、文字候補Ｙが無いと判別した場合（ステップＳ２０２のＮｏ）、文字列統合部１６は統合された文字列１０３があるか否かを判別する（ステップＳ２１２）。ステップＳ２１２で判別した結果、統合された文字列１０３があると判別した場合（ステップＳ２１２のＹｅｓ）、統合された文字列１０３を文字認識部１７へ出力する（ステップＳ２１３）。新たな文字候補Ｙが無い場合とは、例えば、文字候補Ｘが単独で配置され文字列１０３を構成する他の文字候補１０２が回りに無い場合や、文字候補Ｘが文字列１０３の最後の文字候補１０２である場合などである。一方、ステップＳ２１２で判別した結果、統合された文字列１０３がないと判別した場合（ステップＳ２１２のＮｏ）、本文字列統合手順を終了する。

次に図８を用いて、第２の実施形態における文字列統合方法について説明する。第２の実施形態における文字列統合方法は、文字検出部１４で検出された複数の文字候補１０２について特徴データを検出し、それらの変化量に基づき文字列統合を行う。図７と同一のステップについては同符号を付し、説明は省略する。変化量を算出する文字候補１０２の順番は、例えば表示画面１００の座標軸に沿って定める。

第２の実施形態においてはステップＳ２０５乃至Ｓ２０７で各特徴データを検出すると、ステップＳ２１１に進む。即ち、文字候補XとYとの一致度を算出することなく、他の文字候補１０２について特徴データの検出をしていく。

ステップＳ２０２で判別した結果、文字候補Ｙが無いと判別した場合（ステップＳ２０２のＮｏ）、文字列統合部１６は所定の規則に従って文字候補１０２を並べ、文字候補１０２間の特徴データの変化量を算出する（ステップＳ３０９）。

次に、文字列統合部１６は、規則的に変化している特徴データがあるか否かを判別する（ステップＳ３１０）。ステップＳ３１０で判別した結果、規則的に変化している特徴データがあると判別した場合（ステップＳ３１０のＹｅｓ）、文字列統合部１６は、文字候補Ｘ及びＹを文字列１０３として統合する（ステップＳ３１１）。次に、文字列統合部１６は、統合された文字列１０３を文字認識部１７へ出力する（ステップＳ３１２）。一方、ステップＳ３１０で判別した結果、規則的に変化している特徴データがあると判別した場合（ステップＳ３１０のＮｏ）、第２の実施形態の文字列統合手順を終了する。即ち、特徴データの規則的な変化も検出されない場合には文字候補１０２は文字列１０３を構成しないとみなして統合処理を行わない。

以上で第２の実施形態の文字列統合手順を終了する。第２の実施形態の文字列統合手順によれば、複数の文字候補１０２間の一致度が閾値未満であっても、検出された全ての文字候補１０２の間の特徴データの変化を算出することによって、文字列１０３を統合することができる。

次に、図９及び図１０を用いて、選択している文字候補Ｘに続く文字候補Ｙが複数ある場合の統合手順について説明する。図９は、文字列１０３Ａと文字列１０３Ｂとが重なって表記されている表示画面１００を示している。この表示画面１００において、操作入力部１０で文字列１０３Ａ及び文字列１０３Ｂの位置する領域が選択されると、図９に示すように両文字列１０３を包含するような文字候補検索領域１０１が検出される。

文字列１０３Ａは「ｄｅｆｇｈ＠ｉｊｋ」、文字列１０３Ｂは「０１−２３４５−６７８９」である。例えば、文字列統合部１６は、文字列１０３Ａの第１文字候補１０２（１）を基点として、右方向の所定距離内に位置する文字候補１０２の特徴データを比較を繰り返して、第７文字候補１０２（７）までを統合している。

次に文字列統合部１６は、第７文字候補１０２（７）を特徴データの比較の基準となる文字候補Ｘとして選択し、比較対象である文字候補Ｙを検出する。しかし、図９においては第７文字候補１０２（７）（文字候補Ｘ）に右方向の所定距離内に位置する文字候補１０２として、文字列１０３Ｂに含まれる「５」と、文字列１０３Ａに含まれる「ｊ」とがある。文字列１０３Ｂに含まれる「５」を文字候補Ｙ１、文字列１０３Ａに含まれる「ｊ」を文字候補Ｙ２とする。このように複数の文字候補Ｙが検出された場合には、文字列統合部１６は各文字候補Ｙについて特徴データを検出し文字候補Ｘとの文字候補１０２の一致度を比較する。例えば、文字候補Ｘに続く文字候補Ｙとしては文字候補Ｙ２が正しいが、文字候補Ｙ１を選択した場合、次に選択される文字候補が「−」となり、文字認識する文字候補１０２が文字列１０３Ａから１０３Ｂへ変更されてしまう。このような誤認識を予防するために、複数の文字候補Ｙが検出された場合には、それぞれの文字候補Ｙについて文字候補Ｘとの特徴データの一致度を算出して比較を行う。即ち、得られた一致度が大きい方と、文字候補Ｘ（ｎ番）を統合する。ただし、一致度がしきい値以下の場合には、本文字列統合手順を終了する。

図１０を用いて、文字候補Ｘに続く文字候補Ｙが複数ある場合の文字列統合手順について説明する。まず、文字列統合部１６は、文字候補Ｘ（ｎ番）、文字候補Ｙ１（ｎ＋１番）、文字候補Ｙ２（ｎ＋１番）の各特徴データを検出する（ステップＳ４０１）。次に、文字列統合部１６は、文字候補Ｘ（ｎ番）と文字候補Ｙ１（ｎ＋１番）との一致度（以後「一致度（ＸとＹ１）」と表記）、及び文字候補Ｘ（ｎ番）と文字候補Ｙ２（ｎ＋１番）との一致度（以後「一致度（ＸとＹ２）」と表記）を算出する（ステップＳ４０２）。

次に、文字列統合部１６は、一致度（ＸとＹ２）が一致度（ＸとＹ１）未満であるか否かを判別する（ステップＳ４０３）。ステップＳ４０３で判別した結果、一致度（ＸとＹ２）が一致度（ＸとＹ１）未満であると判別した場合（ステップＳ４０３のＹｅｓ）、次に文字列統合部１６は一致度（ＸとＹ１）が閾値未満であるか否かを判別する（ステップＳ４０４）。ステップＳ４０４で判別した結果、一致度（ＸとＹ１）が閾値未満でないと判別した場合（ステップＳ４０４のＮｏ）、文字候補Ｙ１を文字候補Ｙとして選択し（ステップＳ４０５）、図７に示す（２）に遷移する。「文字候補Ｙ１を文字候補Ｙとして選択する」とは、文字候補Ｙ１が新たな文字候補Ｘとなり、次の特徴データ比較の手順における基準となることである。

一方、ステップＳ４０４で判別した結果、一致度（ＸとＹ１）が閾値未満であると判別した場合（ステップＳ４０４のＹｅｓ）、図８に示す（３）に進み本文字列統合手順を終了する。または第３の実施形態として、図１２に示す（４）に進む。本変形例については後述する。

一方、ステップＳ４０３で判別した結果、一致度（ＸとＹ２）が一致度（ＸとＹ１）未満であると判別した場合（ステップＳ４０３のＮｏ）、一致度（ＸとＹ２）が閾値未満であるか否かを判別する（ステップＳ４０６）。ステップＳ４０６で判別した結果、一致度（ＸとＹ２）が閾値未満でないと判別した場合（ステップＳ４０６のＮｏ）、文字候補Ｙ２を文字候補Ｙとして選択し（ステップＳ４０７）、図７に示す（２）に遷移する。「文字候補Ｙ２を文字候補Ｙとして選択する」とは、文字候補Ｙ２が新たな文字候補Ｘとなり、次の特徴データ比較の手順における基準となることである。

一方、ステップＳ４０６で判別した結果、一致度（ＸとＹ２）が閾値未満であると判別した場合（ステップＳ４０６のＹｅｓ）、図８に示す（３）に進み本文字列統合手順を終了する。または第３の実施形態として、図１２に示す（４）に進む。本変形例については後述する。

次に、図１１及び図１２を用いて第３の実施形態について説明する。図１１は第３の実施形態における特徴データ表、図１２は第３の実施形態における文字列統合手順を示すフローチャートである。

本変形例においては文字候補Ｘと文字候補Ｙとの間で特徴データの一致度が閾値未満である場合に、新たな特徴データの追加を行う。図１１に示すように、特徴データとして線幅データ、サイズデータ、色データが設定され、これらについては検出済みである。本変形例においては、更に追加する特徴データの候補について優先度及び寄与率が設定されている。図１１の例においては文字種類データが追加優先度１位、方向性データが追加優先度２位、書体データが追加優先度３位と設定されている。また文字種類データの寄与率が１０％、方向性データの寄与率が５％、書体データの寄与率が３％と設定している。

文字種類データの追加を行った場合の文字候補１０２の一致度は、例えば以下の式３で算出される。
文字候補の一致度＝（線幅の一致度＊α＋サイズの一致度＊β＋色の一致度＊γ）＊（１−δ）＋（文字種類の一致度＊δ）…（式３）
更に、方向性データの追加を行った場合の文字候補１０２の一致度は以下の式４で算出される。
文字候補の一致度＝｛（線幅の一致度＊α＋サイズの一致度＊β＋色の一致度＊γ）＊（１−δ）＋（文字種類の一致度＊δ）｝＊（１−ε）＋（方向性の一致度＊ε）…（式４）

更に、書体データの追加を行った場合の文字候補１０２の一致度は以下の式５で算出される。
文字候補の一致度＝［｛（線幅の一致度＊α＋サイズの一致度＊β＋色の一致度＊γ）＊（１−δ）＋（文字種類の一致度＊δ）｝＊（１−ε）＋（方向性の一致度＊ε）］＊（１−ζ）＋（書体データ＊ζ）…（式５）

以上のように、特徴データを追加する場合、検出済みの特徴データ（線幅・サイズ・色）には、追加した特徴データ以外の寄与率を特徴データの追加毎に積算した値Ｎが積算される。即ち、文字種類データを追加した場合のＮは（１−０．１）、文字種類データ及び方向性データを追加した場合のＮは（１−０．１）＊（１−０．０５）、文字種類データ、方向性データ及び書体データを追加した場合のＮは（１−０．１）＊（１−０．０５）＊（１−０．０３）となる。

また、方向性データを追加する場合、文字種類データについては検出済みであるので、文字種類データに積算するＮは（１−０．０５）になる。同様に、書体データを追加する場合、文字種類データ及び方向性データは検出済みであるので、文字種類データ及び方向性データに積算するＮは（１−０．０５）＊（１−０．０３）である。

本変形例について図９に示す文字列を例に説明する。例えば、表示画面１００に含まれる文字候補１０２が全て線幅、サイズ、色が全て同一であるとする。すると文字候補Ｘから、文字候補Ｙ１若しくは文字候補Ｙ２の何れを文字候補Ｙとして選択すべきか判断できない。本変形例によれば、追加する特徴データの優先度１位として設定されている文字種類データを新たに検出する。文字種類データを検出すると、文字候補Ｘと一致度の大きい文字候補１０２は同じ英字である文字候補Ｙ２であるので、文字候補Ｙとして文字候補Ｙ２が選択される。従って、文字候補１０２を正しく統合して文字列１０３Ａを認識することができる。

図１２を用いて、第３の実施形態における文字列統合手順を説明する。まず、文字列統合部１６は特徴データ表１２で設定されている特徴データの内、追加優先度が最も高い特徴データを追加し特徴データ表１２を書き換える。特徴検出部１５は、更新された特徴データ表１２を参照して各文字候補１０２について追加された特徴データを検出する（ステップＳ５０１）。次に、文字列統合部１６は、文字候補Ｘ（ｎ番）に続く文字候補Ｙ（ｎ＋１番）が複数あるか否かを判別する（ステップＳ５０２）。

ステップＳ５０２で判別した結果、文字候補Ｘ（ｎ番）に続く文字候補Ｙ（ｎ＋１番）が複数ないと判別した場合（ステップＳ５０２のＮｏ）、即ち文字候補Ｙが一つである場合は、文字候補Ｘと文字候補Ｙの一致度を算出する（ステップＳ５０３）。

次に文字列統合部１６は、算出した一致度が閾値未満であるか否かを判別する（ステップＳ５０４）。ステップＳ５０４で判別した結果、一致度が閾値未満でないと判別した場合（ステップＳ５０４のＮｏ）、図７に示す（５）に遷移する。ステップＳ５０４で判別した結果、一致度が閾値未満であると判別した場合（ステップＳ５０４のＹｅｓ）特徴検出部１５は、特徴データ表１２を参照して更に追加する特徴データがあるか否かを判別する（ステップＳ５０５）。

ステップＳ５０５で判別した結果、追加する特徴データがあると判別した場合（ステップＳ５０５のＹｅｓ）、ステップＳ５０１に遷移する。一方、ステップＳ５０５で判別した結果、追加する特徴データがないと判別した場合（ステップＳ５０５のＮｏ）、本文字列統合手順を終了する。

一方、ステップＳ５０２で判別した結果、文字候補Ｘ（ｎ番）に続く文字候補Ｙ（ｎ＋１番）が複数あると判別した場合（ステップＳ５０２のＹｅｓ）、文字列統合部１６は、一致度（ＸとＹ１）及び一致度（ＸとＹ２）を算出する（ステップＳ５０６）。次に、文字列統合部１６は、一致度（ＸとＹ２）が一致度（ＸとＹ１）未満であるか否かを判別する（ステップＳ５０７）。ステップＳ５０７で判別した結果、一致度（ＸとＹ２）が一致度（ＸとＹ１）未満であると判別した場合（ステップＳ５０７のＹｅｓ）、次に文字列統合部１６は一致度（ＸとＹ１）が閾値未満であるか否かを判別する（ステップＳ５０８）。ステップＳ５０８で判別した結果、一致度（ＸとＹ１）が閾値未満でないと判別した場合（ステップＳ５０８のＮｏ）、文字候補Ｙ１を文字候補Ｙとして選択し（ステップＳ５０９）、図７に示す（５）に遷移する。一方、ステップＳ５０８で判別した結果、一致度（ＸとＹ１）が閾値未満であると判別した場合（ステップＳ５０８のＹｅｓ）、ステップＳ５０５に遷移する。

一方、ステップＳ５０７で判別した結果、一致度（ＸとＹ２）が一致度（ＸとＹ１）未満でないと判別した場合（ステップＳ５０７のＮｏ）、次に文字列統合部１６は一致度（ＸとＹ２）が閾値未満であるか否かを判別する（ステップＳ５１０）。ステップＳ５１０で判別した結果、一致度（ＸとＹ２）が閾値未満でないと判別した場合（ステップＳ５１０のＮｏ）、文字候補Ｙ２を文字候補Ｙとして選択し（ステップＳ５１１）、図７に示す（５）に遷移する。一方、ステップＳ５１０で判別した結果、一致度（ＸとＹ２）が閾値未満であると判別した場合（ステップＳ５１０のＹｅｓ）、ステップＳ５０５に遷移する。

以上のように、本実施形態によれば、検出した文字候補を複数の特徴データを用いてより厳密に文字列の認識が可能になる。また認識した文字列に基づいて対応するアプリケーションを起動させることにより、文字列にリンク情報が付加されているように動作する。従って、ユーザが文字列を入力する手間が省略され、電子機器の利便性が向上する。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１…電子機器、２…筐体、２Ａ…筐体上面、２Ｂ…筐体下面、３…ディスプレイ、３Ａ…タッチパネル、４…操作ボタン、５…カメラ、１０…操作入力部、１１…文字認識アプリケーション、１２…特徴データ表、１３…画像入力部、１４…文字検出部、１５…特徴検出部、１６…文字列統合部、１７…文字認識部、１８…情報検索部、１９…画像生成部、２０…制御部、２１…アプリケーション、１００…表示画面、１０１…文字候補検索領域、１０２…文字候補、１０３…文字列。

Claims

画像中から第１の文字候補と第２の文字候補とを検出する文字検出手段と、
前記第１の文字候補の少なくとも文字の大きさ、色、線幅の何れかを含む第１の特徴データと、前記第２の文字候補の少なくとも文字の大きさ、色、線幅の何れかを含む第２の特徴データと、を検出する特徴検出手段と、
前記第１の特徴データと前記第２の特徴データとの一致度が閾値を満たす場合に、前記第１の文字候補と前記第２の文字候補とを文字列として統合する文字列統合手段と、
前記文字列の属性を示す部分を検出し、前記文字列の属性に対応する機能を起動する制御手段と、を有し、
前記文字列統合手段は、寄与率が設定された複数の特徴を表すデータに基づいて、前記第１の特徴データと前記第２の特徴データとの一致度を算出する、電子機器。
画像中から複数の文字候補を検出する文字検出手段と、
前記検出された複数の文字候補ごとに、少なくとも文字の大きさ、色、線幅の何れかを含む特徴データを、それぞれ検出する特徴検出手段と、
前記複数の文字候補どうしの特徴データの一致度が閾値を満たす場合に、前記複数の文字候補を文字列として統合する文字列統合手段と、
前記文字列の属性を示す部分を検出し、前記文字列の属性に対応する機能を起動する制御手段と、を有し、
前記文字列統合手段は、前記複数の文字候補の特徴データの変化量を算出し、前記変化量が規則的に変化している場合は前記複数の文字候補を統合する、電子機器。
画像中から第１の文字候補と第２の文字候補とを検出する文字検出手段と、
前記第１の文字候補の少なくとも文字の大きさ、色、線幅のうちの何れかを含む第１の特徴データと、前記第２の文字候補の少なくとも文字の大きさ、色、線幅のうちの何れかを含む第２の特徴データと、を検出する特徴検出手段と、
前記第１の特徴データと前記第２の特徴データとの一致度に基づいて、前記第１の文字候補と前記第２の文字候補とを文字列として統合するか否かを判別する文字列統合手段と、を有し、
前記文字列統合手段は、寄与率が設定された複数の特徴を表すデータに基づいて、前記第１の特徴データと前記第２の特徴データとの一致度を算出する、電子機器。
画像中から複数の文字候補を検出する文字検出手段と、
前記検出された複数の文字候補ごとに、少なくとも文字の大きさ、色、線幅の何れかを含む特徴データを、それぞれ検出する特徴検出手段と、
前記複数の文字候補ごとの特徴データに基づいて、前記複数の文字候補を文字列として統合するか否かを判別する文字列統合手段と、を有し、
前記文字列統合手段は、前記複数の文字候補の特徴データの変化量を算出し、前記変化量が規則的に変化している場合は前記複数の文字候補を統合する、電子機器。
画像中から第１の文字候補と第２の文字候補とを検出する文字検出手段と、
前記第１の文字候補の少なくとも文字の大きさ、色、線幅のうちの何れかを含む第１の特徴データと、前記第２の文字候補の少なくとも文字の大きさ、色、線幅のうちの何れかを含む第２の特徴データと、を検出する特徴検出手段と、
前記第１の特徴データと前記第２の特徴データとの一致度に基づいて、前記第１の文字候補と前記第２の文字候補とを文字列として統合するか否かを判別する文字列統合手段、
としてコンピュータを機能させ、
さらに、前記文字列統合手段は、寄与率が設定された複数の特徴を表すデータに基づいて、前記第１の特徴データと前記第２の特徴データとの一致度を算出する、プログラム。
画像中から複数の文字候補を検出する文字検出手段と、
前記検出された複数の文字候補ごとに、少なくとも文字の大きさ、色、線幅の何れかを含む特徴データを、それぞれ検出する特徴検出手段と、
前記複数の文字候補ごとの特徴データに基づいて、前記複数の文字候補を文字列として統合するか否かを判別する文字列統合手段、
としてコンピュータを機能させ、
さらに、前記文字列統合手段は、前記複数の文字候補の特徴データの変化量を算出し、前記変化量が規則的に変化している場合は前記複数の文字候補を統合する、プログラム。
画像中から第１の文字候補と第２の文字候補とを検出するステップと、
前記第１の文字候補の少なくとも文字の大きさ、色、線幅のうちの何れかを含む第１の特徴データと、前記第２の文字候補の少なくとも文字の大きさ、色、線幅のうちの何れかを含む第２の特徴データと、を検出するステップと、
前記第１の特徴データと前記第２の特徴データとの一致度に基づいて、前記第１の文字候補と前記第２の文字候補とを文字列として統合するか否かを判別するステップと、を有し、
前記判別するステップでは、寄与率が設定された複数の特徴を表すデータに基づいて、前記第１の特徴データと前記第２の特徴データとの一致度を算出する、文字列認識方法。
画像中から複数の文字候補を検出するステップと、
前記検出された複数の文字候補ごとに、少なくとも文字の大きさ、色、線幅の何れかを含む特徴データを、それぞれ検出するステップと、
前記複数の文字候補ごとの特徴データに基づいて、前記複数の文字候補を文字列として統合するか否かを判別するステップと、
前記複数の文字候補ごとの特徴データの変化量を算出し、前記変化量が規則的に変化している場合は前記複数の文字候補を統合するステップと、
を有する文字列認識方法。