JP2010205136A - 音声読み上げ装置、携帯電話機及びコンピュータプログラム - Google Patents

音声読み上げ装置、携帯電話機及びコンピュータプログラム Download PDF

Info

Publication number
JP2010205136A
JP2010205136A JP2009052127A JP2009052127A JP2010205136A JP 2010205136 A JP2010205136 A JP 2010205136A JP 2009052127 A JP2009052127 A JP 2009052127A JP 2009052127 A JP2009052127 A JP 2009052127A JP 2010205136 A JP2010205136 A JP 2010205136A
Authority
JP
Japan
Prior art keywords
list
character
area
region
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2009052127A
Other languages
English (en)
Inventor
Takuya Noda
拓也 野田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2009052127A priority Critical patent/JP2010205136A/ja
Publication of JP2010205136A publication Critical patent/JP2010205136A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】文字を音声読み上げする音声読み上げ装置、携帯電話機及びコンピュータプログラムを提供する。
【解決手段】抽出部13が、画像メモリ12に蓄積された画像情報から文字領域を抽出し、文字認識部14が、抽出された文字領域毎に、各文字領域に含まれる文字群が一致するキーワードを認識する。判定部15は、文字領域毎に、各文字群に一致するキーワードに基づいて、各文字群に対するリスト属性及びリスト種別を特定する。領域特定部16は、判定部15が特定したリスト属性及びリスト種別に基づいて、各文字領域に対するリスト領域情報を特定し、音声読み上げ部17は、リスト領域情報を特定された文字領域に含まれる文字情報から合成音声を生成して出力する。画像情報に文字領域が含まれない場合、又は文字領域がリスト領域ではない場合、支援部18が撮影方法の変更を音声メッセージで指示する。
【選択図】図1

Description

本発明は、文字から合成音声を生成して音声読み上げする音声読み上げ装置、携帯電話機及びコンピュータプログラムに関する。
視覚障害者や老眼の進んだお年寄りの方から、外出先でも、例えば、各種店舗での商品の値段及び商品説明が記載された値札、タグ及びラベル、商品購入時に受け取るレシート、金融機関で記帳した通帳等、紙媒体に記載された各種の情報をその場で確認したいという要望がある。このような要望は、撮像装置で撮影して得られた画像情報から文字情報を抽出するOCR(Optical Character Reader)技術と、文字情報を音声で読み上げる音声合成技術とを組み合わせることで実現できる。しかし、視覚障害者や老眼の進んだお年寄りの方は、撮像装置を用いて商品の値札、タグ、ラベル、レシート、通帳等を撮影する場合に、適切な撮影領域に収めることは非常に困難である。
なお、視覚障害者や老眼の進んだお年寄りの方が撮像装置を操作する際の支援システムとして、例えば、視覚障害者が撮像装置で自身の顔を撮影する際に、視覚障害者の顔が適切な撮影領域に収められるような撮影操作を音声で指示する技術が提案されている(特許文献1参照)。また、音声合成技術としては、例えば、表形式で表示されるテキスト情報、ウェブページ中に表形式で表示されるテキストデータを読み上げる技術が提案されている(特許文献2,3参照)。
特開2008−118276号公報 特開平11−134166号公報 特開2004−334369号公報
上述した音声合成技術では、画像情報からテキスト部分を抽出し、抽出したテキスト情報から音声を合成するので、テキスト情報に、音声読み上げの対象となる文字情報が全て含まれていることが前提となる。しかし、ユーザ(例えば、視覚障害者)が撮影した画像には、音声読み上げの対象となる文字情報が適切に含まれていない場合がある。このような場合、ユーザが撮影した画像中から、音声読み上げの対象となる文字情報を適切に抽出して音声読み上げを行なうことは非常に困難である。
音声読み上げ装置は、文字が表形式で表示されている表形式領域が何に関する表であるのか、表の属性を示すリスト属性、各表形式領域に表形式で表示される複数の文字群のそれぞれが何であるのかを示す情報であるリスト種別、及びそれに対応するキーワードを含むリスト領域情報を記憶するリスト領域情報記憶部を備え、撮影されて画像メモリに記憶されている画像に含まれる文字の領域を抽出し、抽出した文字の領域に含まれる文字を認識し、抽出した文字の領域に含まれる文字群を、リスト領域情報記憶部を参照することにより、いずれのリスト領域情報に相当するかを判定し、判定したリスト領域情報に基づいて、認識した文字群に対応するリスト領域情報が、いずれのリスト領域情報であるかを特定する。そして、音声読み上げ装置は、特定したリスト領域情報に対応するリスト属性、リスト種別及びリスト種別に対応するキーワードを示す文字に基づいて、音声合成して、音声読み上げする。
音声読み上げ装置は、画像に含まれる所定の表形式領域を効率よく検出でき、検出した表形式領域に含まれる文字を効率よく音声読み上げできる。
実施形態1の音声読み上げ装置の機能構成の一例を示す機能ブロック図である。 撮影画像の一例を示す模式図である。 撮影画像の一例を示す模式図である。 実施形態1のリスト領域情報記憶部の格納内容の一例を示す模式図である。 実施形態1の音声読み上げ処理の手順を示すフローチャートである。 実施形態1のリスト領域特定処理の手順を示すフローチャートである。 実施形態2の音声読み上げ装置の機能構成の一例を示す機能ブロック図である。 実施形態2の音声読み上げ処理の手順を示すフローチャートである。 実施形態2の音声読み上げ処理の手順を示すフローチャートである。 撮影対象の一例を示す模式図である。 撮影対象の一例を示す模式図である。 実施形態3のリスト領域特定処理の手順を示すフローチャートである。 実施形態4の音声読み上げ装置の機能構成の一例を示す機能ブロック図である。 実施形態4の音声読み上げ処理の手順を示すフローチャートである。 実施形態4の音声読み上げ処理の手順を示すフローチャートである。 撮影画像の一例を示す模式図である。 実施形態5の音声読み上げ装置の機能構成の一例を示す機能ブロック図である。 実施形態5の音声読み上げ処理の手順を示すフローチャートである。 実施形態5の音声読み上げ処理の手順を示すフローチャートである。 実施形態6の音声読み上げ装置の機能構成の一例を示す機能ブロック図である。 撮影画像の一例を示す模式図である。 撮影画像の一例を示す模式図である。 実施形態6の音声読み上げ処理の手順を示すフローチャートである。 実施形態7のリスト領域情報記憶部の格納内容の一例を示す模式図である。 リスト領域の抽出方法の一例を示す模式図である。 リスト領域の抽出方法の一例を示す模式図である。 リスト領域の抽出方法の一例を示す模式図である。
以下に、音声読み上げ装置、携帯電話機及びコンピュータプログラムを、各実施形態を示す図面に基づいて詳述する。音声読み上げ装置は、例えば、文字がリスト形式(表形式)で記載された媒体をカメラで撮影し、得られた画像情報から、文字がリスト形式で記載された領域(以下、リスト領域という)を抽出する。また、音声読み上げ装置は、抽出したリスト領域に含まれる文字を読み上げる。なお、このような媒体は、例えば、店舗での商品に貼付されている値札、タグ及びラベル、商品購入時に受け取るレシート、金融機関で記帳した通帳等である。しかし、音声読み上げ装置が読み上げる対象はこれらに限らない。
本願に開示する音声読み上げ装置は、例えば、携帯電話機、PHS(Personal Handy-phone System)、PDA(Personal Digital Assistant)、パームトップコンピュータ、デジタルスチルカメラ、デジタルビデオカメラ、携帯ゲーム機等に適用できる。なお、音声読み上げ装置は、これらの装置だけでなく、撮影機能及び音声合成出力機能を備える各種の装置に適用できる。
(実施形態1)
以下に、実施形態1に係る音声読み上げ装置について説明する。図1は実施形態1の音声読み上げ装置の機能構成の一例を示す機能ブロック図である。本実施形態1の音声読み上げ装置1は、画像入力部11、画像メモリ12、抽出部13、文字認識部14、判定部15、領域特定部16、音声読み上げ部17、支援部18等の各機能を備える。
画像入力部11は、例えばカメラである。カメラは、例えば、CCD(Charge Coupled Device)又はCMOS(Complementary Metal Oxide Semiconductor)等を備える撮像部、撮像部により取得したアナログの画像情報をデジタルの画像情報に変換するアナログ/デジタル変換器(共に図示せず)等を備える。画像入力部11は、静止画像情報又は動画像情報を取得し、取得した画像情報を画像メモリ12に格納する。なお、画像入力部11は、外部の撮像装置が撮像して得られた画像情報を、外部メモリ、専用線又はネットワークを介して取得してもよく、外部の装置から取得した画像情報を画像メモリ12に格納する。
画像メモリ12は、例えばDRAM(Dynamic Random Access Memory)、SRAM(Static Random Access Memory)又はフラッシュメモリ等であり、画像入力部11から取得した画像情報を逐次記憶する。
抽出部13は、画像メモリ12に格納された画像情報を所定のタイミングで随時読み出し、読み出した画像情報に含まれる文字の領域を抽出する。抽出部13の処理は、例えば、一般的なOCR(光学式文字読取装置)で画像情報から文字を認識して抽出する処理と同様である。抽出部13は、処理対象の画像のどの領域に文字が存在するかを示す情報と、各領域に存在する文字を示す文字情報とを文字認識部14へ出力する。なお、抽出部13は、処理対象の画像から文字領域を抽出できない場合、この画像には文字領域が含まれていない旨を支援部18に通知する。
図2A及び図2Bは撮影画像の一例を示す模式図である。図2Aに示す撮影画像は、3つのラベルL1,L2、L3が貼付された商品パッケージを撮影して得られた画像の例である。各ラベルL1,L2,L3にはそれぞれ商品に関する情報が記載されている。なお、ラベルL1には、商品のメーカー独自の表示方法によって商品固有の名称等が記載されている。ラベルL2には、商品の販売店独自の表示方法によって顧客の販売意欲を促進させるような情報が記載されている。ラベルL3には、食品衛生法、JAS法(農林物資の規格化及び品質表示の適正化に関する法律)等の表示義務に基づく商品の詳細な情報が記載されている。
抽出部13が、図2Aに示した撮影画像に対して文字抽出処理を行なった場合、図2Bに示すような3つの文字領域R1,R2,R3を抽出する。抽出部13は、抽出した文字領域R1,R2,R3を示す情報と、各文字領域R1,R2,R3から検出した文字情報とを文字認識部14へ出力する。なお、文字領域を示す情報は、例えば、文字領域の左上及び右下の座標値である。また、文字領域の左上及び右下の座標値は、例えば、撮影画像の左下を基準点(0,0)とし、基準点(0,0)から右方向をx座標軸、上方向をy座標軸とした座標値(x,y)で表される。なお、撮影画像の左上の点、右上の点又は右下の点を基準点としてもよい。
文字認識部14は、抽出部13から文字領域を示す情報と各文字領域に含まれる文字の文字情報とを取得する。文字認識部14は、文字領域毎に、各文字領域に含まれる文字が、リスト領域情報記憶部10に格納されているいずれのキーワードに一致するかを認識する。
図3は実施形態1のリスト領域情報記憶部10の格納内容の一例を示す模式図である。図3に示すように、リスト領域情報記憶部10には、リスト属性、リスト種別及びキーワード等を含むリスト領域情報が格納されている。リスト領域情報記憶部10の格納内容は、音声読み上げ装置1の製造過程において予め格納されるが、音声読み上げ装置1のユーザによって任意に登録・変更可能としてもよい。また、図3では書かれていないが、読む優先順位や読む必要のない項目を設定できるようにしてもよい。
リスト属性は、文字がリスト形式で表示されているリスト領域が何に関する表であるのか、表の属性を示す情報である。リスト領域は、例えば、店舗での商品に貼付されている値札、タグ及びラベル、商品購入時に受け取るレシート、金融機関で記帳した通帳等の領域である。また、リスト属性は、具体的には、値札が貼付された商品の種類(例えば食料品、衣料品)、レシート、通帳等である。
リスト種別は、それぞれのリスト属性のリスト領域にリスト形式で表示される可能性のある複数の文字群のそれぞれが何であるのかを示す情報である。キーワードは、それぞれのリスト種別として表示される可能性のある文字群の例である。なお、文字群は、複数の文字の集まりを指し、特に、同一行(又は同一列)に表示された文字の集まりを指す。
本実施形態1では、リスト領域情報記憶部10に格納されるリスト領域情報を、表形式の情報としているが、罫線で込まれた表形式である必要はない。罫線がなくても、情報の表示の仕方が表形式のような形式であれば、買い物のレシートや通帳や商品のタグ情報のようなものでもかまわない。
文字認識部14は、文字領域を示す情報及び文字情報を取得した場合、まず、文字領域のそれぞれについて、各文字領域に含まれる文字を項目毎に分割する。具体的には、文字認識部14は、各文字領域に含まれる文字を、同一行(又は同一列)に記述された文字群毎に分割する。入力した画像または、抽出した文字領域が正面から写っておらず、斜めになっている場合は、先に、正面から見た画像になるよう画像変換を行なうとよい。画像の変換方法は、変換できれば、公知のいずれの画像補正技術を用いてもよい。
文字認識部14は、文字領域毎に、それぞれ分割した文字群のそれぞれと、リスト領域情報記憶部10のキーワードの欄に格納されている各キーワードとを照合する。そして、文字認識部14は、各文字群に一致するキーワードが、リスト領域情報記憶部10のキーワードの欄に格納されているか否かを判断し、格納されている場合、各文字群に一致するキーワードをリスト領域情報記憶部10から読み出す。文字認識部14は、リスト領域情報記憶部10から読み出したキーワードを文字領域毎に判定部15へ出力する。なお、文字認識部14は、各文字群と、リスト領域情報記憶部10に格納されているキーワードとが、前方一致又は後方一致等の一部一致するか否かを判断してもよい。
判定部15は、抽出部13によって抽出されたそれぞれの文字領域が、リスト領域情報記憶部10に格納されたいずれのリスト領域情報に相当するかを判定する。具体的には、判定部15は、文字領域毎に各文字領域に含まれる文字群に一致するキーワードを文字認識部14から取得する。判定部15は、文字領域毎に、文字認識部14から取得したキーワードに対応するリスト属性及びリスト種別をリスト領域情報記憶部10から特定する。判定部15は、文字領域毎に、各文字領域に含まれる各文字群に対して特定したリスト属性及びリスト種別を領域特定部16に通知する。
図2Bに示した撮影画像中の文字領域R3の場合、文字認識部14は、まず、文字領域R3に含まれる文字を、「名称:…」,「原材料名:…」,「原産国:…」,「消費期限:…」,「内容量:…」,「金額:…」に分割する。そして、文字認識部14は、分割した文字群「名称:…」と一致するキーワード「名称」をリスト領域情報記憶部10から読み出す。同様に、文字認識部14は、分割した文字群「原材料名:…」と一致するキーワード「原材料」をリスト領域情報記憶部10から読み出す。文字認識部14は、分割した全ての文字群に対して同様の処理を行い、それぞれの文字群に一致するキーワードをリスト領域情報記憶部10から読み出して判定部15に通知する。
判定部15は、文字認識部14から取得したキーワード「名称」に基づいて、文字群「名称:…」に対応するリスト属性を「食料品」に、リスト種別を「商品名」に特定する。同様に、判定部15は、文字認識部14から取得したキーワード「原材料」に基づいて、文字群「原材料名:…」に対応するリスト属性を「食料品」に、リスト種別を「材料」に特定する。判定部15は、文字認識部14から取得したキーワードに対して同様の処理を行ない、それぞれの文字群に対応するリスト属性及びリスト種別を特定して領域特定部16に通知する。
一方、文字認識部14は、各文字領域に含まれる文字群のいずれもが、リスト領域情報記憶部10に格納されているキーワードと一致しなかった場合、処理対象の画像にリスト領域が含まれていない旨を支援部18に通知する。
領域特定部16は、抽出部13によって抽出された文字領域のそれぞれについて、各文字領域に含まれるそれぞれの文字群に対応するリスト属性及びリスト種別を判定部15から取得する。領域特定部16は、判定部15から取得するリスト属性及びリスト種別に基づいて、それぞれの文字領域に対応するリスト領域情報が、リスト領域情報記憶部10に格納されているいずれのリスト領域情報であるかを特定する。
具体的には、領域特定部16は、判定部15から取得したリスト属性のうちで、各リスト属性に対応して判定部15から取得したリスト種別の数が最も多いリスト属性のリスト領域情報を、文字領域に対するリスト領域情報に特定する。
図2Bに示した撮影画像中の文字領域R3の場合、文字群「名称:…」のリスト属性が「食料品」でリスト種別が「商品名」と特定され、文字群「原材料名:…」のリスト属性が「食料品」でリスト種別が「材料」と特定される。また、文字群「原産国:…」のリスト属性が「食料品」でリスト種別が「産地」と特定され、文字群「消費期限:…」のリスト属性が「食料品」でリスト種別が「期限」と特定される。また、文字群「内容量:…」のリスト属性が「食料品」でリスト種別が「量」と特定され、文字群「金額:…」のリスト属性が「食料品」でリスト種別が「値段」と特定される。
この場合、領域特定部16が判定部15から取得したリスト属性が全て「食料品」であるので、領域特定部16は、文字領域R3に対するリスト領域情報を、リスト属性が「食料品」であるリスト領域情報に特定する。
領域特定部16は、上述した処理により、各文字領域に対するリスト領域情報を特定できた場合、リスト領域情報を特定できた文字領域を、音声読み上げの対象のリスト領域と特定する。そして、領域特定部16は、音声読み上げの対象とした文字領域(リスト領域)について抽出部13が抽出した文字の文字情報を音声読み上げ部17に通知する。図2A及び図2Bに示した撮影画像の場合、領域特定部16は、文字領域R3がリスト属性「食料品」のリスト領域であると特定し、文字領域R3を音声読み上げの対象のリスト領域に特定する。そして、領域特定部16は、文字領域R3に含まれる文字の文字情報を音声読み上げ部17に通知する。ここで、リスト種別やキーワードにより、読み方を指定しておくことにより、リスト種別に適した読み方で読み上げることができるようにすることもできる。
一方、領域特定部16は、いずれの文字領域に対するリスト領域情報も特定できなかった場合、処理対象の画像にリスト領域が含まれていない旨を支援部18に通知する。
音声読み上げ部17は、音及び音声を出力するスピーカ、デジタル/アナログ変換器、増幅器(共に図示せず)等を有する。また、音声読み上げ部17は、テキストデータから合成音声を生成する際に必要な各種の辞書を記憶している。具体的には、例えば、音声読み上げ部17は、テキストデータに対して形態素解析を行なう際に用いる形態素辞書、形態素解析の結果、分解された各形態素にアクセントを付与する際に用いるアクセント辞書、各形態素に付与されたアクセントから韻律を生成する際に用いる韻律辞書、生成された韻律から音声波形を生成する際に用いる波形辞書等を記憶している。
音声読み上げ部17は、領域特定部16から文字情報を取得した場合、取得した文字情報から合成音声を順次生成し、生成した合成音声を順次音声出力する。なお、文字情報から合成音声を生成する場合、一般的な音声合成技術を用いればよいので詳細な説明を省略する。音声読み上げ部17は、音声出力すべきデジタルの音信号を、デジタル/アナログ変換器によってアナログの音信号に変換した後、増幅器によって増幅し、増幅した音信号に基づく音をスピーカから出力する。
これにより、例えば図2A及び図2Bに示した撮影画像のように複数のラベルL1,L2,L3が貼付された商品パッケージであっても、リスト形式で各種の文字情報が記載されたラベルL3が適切に抽出される。従って、ラベルL3中の文字情報のみが抽出されて音声読み上げされる。
支援部18は、抽出部13から文字領域がない旨を通知された場合、又は、文字認識部14又は領域特定部16からリスト領域がない旨を通知された場合、リスト領域が適切な撮影範囲に収まるように撮影を支援する。具体的には、支援部18は、メッセージ格納部19を有しており、メッセージ格納部19には、例えば、「カメラを被写体から離してください」、「カメラを左側に移動させてください」、「カメラを右側に移動させてください」等、複数パターンのメッセージを記述したテキストデータが記憶されている。
支援部18は、文字領域又はリスト領域がない旨を通知された場合、例えば、「カメラを被写体から離してください」のように、状況に応じたメッセージをメッセージ格納部19から読み出す。そして、支援部18は、読み出したメッセージから合成音声を生成し、生成した合成音声を音声出力することにより、リスト領域を適切に撮影できていない旨と共に撮影方法の変更を通知する。なお、支援部18も、音声読み上げ部17と同様に、テキストデータから合成音声を生成し、生成した合成音声を出力する機能を有する。
これにより、読み上げるべき文字、具体的には、リスト形式で記載された文字が適切な撮影範囲になかった場合には、読み上げるべき文字が適切な撮影範囲に入ることを指示する適切なメッセージを音声出力できる。よって、視覚障害者又はカメラの撮影に不慣れなユーザが撮影する際の操作を支援できる。
なお、例えば、表示義務ラベルには比較的小さい文字で各種の情報が記載されている場合が多く、領域特定部16によってリスト領域であると特定された場合であっても、抽出部13によって抽出された文字の信頼性に欠ける虞がある。従って、領域特定部16によって音声読み上げ対象のリスト領域であると特定された場合であっても、支援部18が、リスト領域に特定された文字領域が画像入力部11の画角内に最大となるように撮影を支援してもよい。この場合、領域特定部16によってリスト領域であると特定された文字領域内の文字情報を拡大して撮影できるので、抽出部13によって抽出される文字の信頼性が向上する。よって、音声読み上げされる情報の信頼性も向上するので、正しい情報をユーザに伝達することが可能となる。
以下に、本実施形態1の音声読み上げ装置1による音声読み上げ処理についてフローチャートに基づいて詳述する。図4は実施形態1の音声読み上げ処理の手順を示すフローチャートである。
音声読み上げ装置1のユーザは、音声読み上げを行ないたい情報が記載されている被写体を音声読み上げ装置1を用いて撮影する。音声読み上げ装置1は、画像入力部11によって所定のタイミングで画像情報を取得し(S1)、取得した画像情報を画像メモリ12に蓄積する。
音声読み上げ装置1は、画像メモリ12に蓄積された画像情報を所定のタイミングで随時読み出し、読み出した画像情報に含まれる文字領域を抽出部13によって抽出する(S2)。音声読み上げ装置1は、画像情報から文字領域を抽出できたか否かを判断しており(S3)、文字領域があると判断した場合(S3:YES)、抽出した文字領域のうちの1つを選択する(S4)。音声読み上げ装置1は、選択した文字領域に対してリスト領域特定処理を実行し(S5)、選択した文字領域が音声読み上げ対象のリスト領域であるか否かを特定する。なお、リスト領域特定処理の詳細については図5に基づいて後述する。
音声読み上げ装置1は、ステップS2で抽出した全ての文字領域に対してリスト領域特定処理を終了したか否かを判断する(S6)。終了していないと判断した場合(S6:NO)、音声読み上げ装置1は、ステップS4に処理を戻し、ステップS2で抽出した文字領域のうちの、まだ処理されていない文字領域を1つ選択する(S4)。音声読み上げ装置1は、選択した文字領域に対してリスト領域特定処理を実行し(S5)、選択した文字領域が音声読み上げ対象のリスト領域であるか否かを特定する。
音声読み上げ装置1は、ステップS2で抽出した全ての文字領域に対してリスト領域特定処理を終了したと判断した場合(S6:YES)、リスト領域特定処理によって音声読み上げ対象のリスト領域であると特定された文字領域があるか否かを判断する(S7)。音声読み上げ対象のリスト領域があると判断した場合(S7:YES)、音声読み上げ装置1は、音声読み上げ対象のリスト領域であると特定した文字領域に含まれる文字の文字情報から合成音声を生成する(S8)。音声読み上げ装置1は、生成した合成音声を出力し(S9)、上述した音声読み上げ処理を終了する。これにより、リスト形式で文字情報が記述されたリスト領域中の文字情報を適切に抽出して音声読み上げすることができる。
一方、ステップS3で文字領域がないと判断した場合(S3:NO)、又は、ステップS7でリスト領域がないと判断した場合(S7:NO)、音声読み上げ装置1は、「カメラを被写体から離してください」のような所定のメッセージを選択する(S10)。制御部1は、選択したメッセージをメッセージ格納部19から読み出して合成音声を生成し(S11)、生成した合成音声を出力する(S12)。音声読み上げ装置1は、ステップS1に処理を戻し、所定のタイミングで画像入力部11にて画像情報を取得し(S1)、上述したステップS2〜S12の処理を繰り返す。
以下に、上述した音声読み上げ処理におけるリスト領域特定処理(図4中のステップS5)についてフローチャートに基づいて説明する。図5は実施形態1のリスト領域特定処理の手順を示すフローチャートである。
音声読み上げ装置1は、図4中のステップS4で選択した文字領域に含まれる文字のうちの、同一行(又は同一列)に記述された文字群を1つ抽出する(S21)。音声読み上げ装置1は、抽出した文字群が、リスト領域情報記憶部10のキーワードの欄に格納されているいずれかのキーワードに一致するか否かを判断する(S22)。いずれかのキーワードに一致すると判断した場合(S22:YES)、音声読み上げ装置1は、この文字群に一致するキーワードに対応するリスト属性及びリスト種別をリスト領域情報記憶部10から読み出す(S23)。いずれのキーワードにも一致しないと判断した場合(S22:NO)、音声読み上げ装置1は、ステップS23の処理をスキップする。
音声読み上げ装置1は、図4中のステップS4で選択した文字領域中の全ての文字群を抽出したか否かを判断しており(S24)、全ての文字群を抽出していないと判断した場合(S24:NO)、ステップS21に処理を戻す。音声読み上げ装置1は、図4中のステップS4で選択した文字領域に含まれる文字のうちの、まだ抽出されていない文字群を1つ抽出する(S21)。音声読み上げ装置1は、抽出した文字群に対して、ステップS22,S23の処理を行なう。
音声読み上げ装置1は、図4中のステップS4で選択した文字領域中の全ての文字群に対して上述した処理を行なうまで、ステップS21〜S24の処理を繰り返す。音声読み上げ装置1は、図4中のステップS4で選択した文字領域中の全ての文字群を抽出したと判断した場合(S24:YES)、ステップS23で読み出したリスト属性及びリスト種別に基づいて、図4中のステップS4で選択した文字領域に対するリスト領域情報を特定する(S25)。
具体的には、ステップS23で読み出したリスト属性のうちで、各リスト属性に対応して読み出したリスト種別の数が最も多いリスト属性のリスト領域情報を、文字領域に対するリスト領域情報に特定する。なお、音声読み上げ装置1は、図4中のステップS4で選択した文字領域中に、リスト領域情報記憶部10に格納されたキーワードに一致する文字群がなかった場合、この文字領域に対するリスト領域情報を特定できない。
音声読み上げ装置1は、文字領域に対するリスト領域情報を特定できたか否かを判断しており(S26)、特定できたと判断した場合(S26:YES)、この文字領域を、音声読み上げ対象のリスト領域に特定し(S27)、図4に示した音声読み上げ処理に戻る。一方、リスト領域情報を特定できなかったと判断した場合(S26:NO)、音声読み上げ装置1は、ステップS27の処理をスキップし、図4に示した音声読み上げ処理に戻る。
上述した処理により、本実施形態1では、撮影して得られた画像情報中に、リスト形式で複数の情報が記述されたリスト領域がある場合に、リスト領域が適切に抽出され、抽出されたリスト領域内の文字が音声読み上げされる。また、撮影して得られた画像情報中にリスト領域が適切に収まっていない場合には、リスト領域が撮影範囲内に適切に収まるようなメッセージが出力される。よって、例えば、商品パッケージに貼付されたラベルに記述されている各種の情報が音声読み上げされるので、ユーザは、ラベルに小さな文字で記述された各種の情報であっても容易に知ることができる。
これにより、外出先等で文字等の視覚情報でしか提供されていない情報に対して、上述した音声読み上げ装置1が搭載された携帯端末の撮影支援機能を利用することで、ユーザが必要とする文字情報を音声情報として取得できる。その結果、本願に開示する音声読み上げ装置は、視覚障害者の自立支援及びQOL(Quality of Life)の向上に貢献できる。
本実施形態1では、画像に文字領域がないと判断された場合に、撮影範囲を広げるために、例えば、「カメラを被写体から離してください」のようなメッセージが出力されていた。画像から文字領域を抽出できない状況とは、画像中に文字領域がない場合と、画像中に文字領域はあるが、文字が小さすぎて抽出できない場合とが考えられる。従って、画像の特徴からいずれの場合であるかを判断し、画像中に文字領域がない場合には、撮影範囲を広くする指示または撮影範囲を上下左右に変更する指示をしてもよい。また、画像中の文字が小さすぎる場合は、小さいながらに文字らしき領域を特定し、特定した領域を拡大して撮影する指示をしてもよい。
(実施形態2)
以下に、実施形態2に係る音声読み上げ装置について説明する。なお、本実施形態2の音声読み上げ装置は、上述した実施形態1の音声読み上げ装置1と同様の構成により実現できるので、同様の構成については同一の符号を付して説明を省略する。
上述した実施形態1の音声読み上げ装置1は、画像情報に含まれる文字領域を抽出していた。本実施形態2の音声読み上げ装置1は、リスト領域の特徴を示す特徴情報に基づいて、画像情報からリスト領域の候補となるべき領域を検出し、検出した領域から文字領域を抽出する。なお、検出した候補領域から文字領域を抽出する処理以降の処理は、上述した実施形態1で説明した処理と同様である。
図6は実施形態2の音声読み上げ装置1の機能構成の一例を示す機能ブロック図である。本実施形態2の音声読み上げ装置1は、図1に示した各部のほかに、領域検出部20の機能を備える。
領域検出部20は、画像メモリ12に格納された画像情報を所定のタイミングで随時読み出す。領域検出部20は、領域特徴情報記憶部20aに格納された特徴情報に基づいて、読み出した画像情報から、リスト領域の候補となるべき領域(以下、候補領域という)を検出する。
領域特徴情報記憶部(特徴情報記憶部)20aは、文字がリスト形式で記載されたリスト領域の特徴を示す特徴情報を複数格納している。特徴情報は、例えば、矩形の枠内に文字が記述されていることを示す情報、白地に黒文字で記述されていることを示す情報等がある。なお、特徴情報は、リスト属性毎に異なる情報であるので、リスト属性に対応付けてリスト領域情報記憶部10に格納されてもよい。
領域検出部20は、例えば、読み出した画像情報に対してエッジ抽出処理を行ない、矩形の枠で囲まれ、枠内に文字が記述されている領域を検出し、このような領域を候補領域とする。領域検出部20は、画像情報から候補領域を検出できなかった場合、画像情報にリスト領域の候補領域が含まれていない旨を支援部18に通知する。
領域検出部20は、画像情報から候補領域を検出できた場合、検出した候補領域を示す情報を抽出部13に通知する。抽出部13は、領域検出部20によって検出された候補領域に含まれる文字(文字情報)の領域を抽出する。抽出部13は、処理対象の画像のどの領域に文字が存在するかを示す情報と、各領域に存在する文字を示す文字情報とを文字認識部14へ出力する。
本実施形態2の支援部18は、領域検出部20から候補領域がない旨を通知された場合、例えば、「カメラを被写体から離してください」のメッセージを音声出力する。これにより、画像情報中にリスト領域の候補の領域を検出できない場合には、撮影範囲を広げるような指示が行なわれる。画像情報から候補領域を検出できない場合は、撮影すべきリスト領域がどの位置に存在するのかを特定することは困難であるので、撮影範囲を広げるようなメッセージを音声出力させればよい。
従って、このような場合、例えば、「カメラを左側に移動させてください」、「カメラを右側に移動させてください」等のように、撮影範囲を左右又は上下方向に移動させるような指示を行なってもよい。なお、このようなメッセージのテキストデータは、実施形態1と同様に、メッセージ格納部19に予め格納されている。
また、支援部18が抽出部13から文字領域がない旨を通知された場合は、例えば、リスト領域の特徴情報に基づいて候補領域は検出できるが、検出された候補領域から文字領域が抽出できない状態である。具体的には、例えば、画像情報中にリスト領域は含まれているものの文字が小さいので抽出できない状態である。この場合、本実施形態2の支援部18は、例えば、「カメラを被写体に近付けてください」のように、検出された候補領域をクローズアップさせて撮影する指示を音声メッセージによって通知する。
以下に、本実施形態2の音声読み上げ装置1による音声読み上げ処理についてフローチャートに基づいて詳述する。図7及び図8は実施形態2の音声読み上げ処理の手順を示すフローチャートである。
音声読み上げ装置1のユーザは、音声読み上げを行ないたい情報が記載されている被写体を音声読み上げ装置1によって撮影する。音声読み上げ装置1は、所定のタイミングで画像入力部11にて画像情報を取得し(S31)、取得した画像情報を画像メモリ12に蓄積する。
音声読み上げ装置1は、画像メモリ12に蓄積された画像情報を所定のタイミングで随時読み出し、領域特徴情報記憶部20aに格納された特徴情報に基づいて、読み出した画像情報から、リスト領域の候補領域を検出する(S32)。音声読み上げ装置1は、画像情報から候補領域を検出できたか否かを判断しており(S33)、候補領域があると判断した場合(S33:YES)、検出した候補領域に含まれる文字領域を抽出する(S34)。なお、以下のステップS35〜ステップS44の処理は、実施形態1で図4に示したステップS3〜ステップS12の処理と同一であるので説明を省略する。
一方、ステップS33で候補領域がないと判断した場合(S33:NO)、音声読み上げ装置1は、リスト領域を適切に撮影する指示を行なうための所定のメッセージを選択する(S42)。音声読み上げ装置1は、選択したメッセージをメッセージ格納部19から読み出して合成音声を生成し(S43)、生成した合成音声を出力する(S44)。音声読み上げ装置1は、ステップS31に処理を戻し、所定のタイミングで画像入力部11にて画像情報を取得し(S31)、上述したステップS32〜S44の処理を繰り返す。
上述した処理により、本実施形態2では、リスト領域の特徴を示す特徴情報に基づいて、画像情報からリスト領域の候補領域を予め検出しておき、検出した候補領域に対して文字抽出処理を行なう。よって、リスト領域ではあるが、撮影された文字が小さいことによって文字領域であると判定できない領域に対してもリスト領域であることを正確に判定できる。また、このような処理によって検出された候補領域をクローズアップして撮影することにより、候補領域内の文字情報を適切に抽出できるような画像情報を撮影できるようになる。よって、ユーザが所望する情報を確実に音声読み上げできる。
(実施形態3)
以下に、実施形態3に係る音声読み上げ装置について説明する。なお、本実施形態3の音声読み上げ装置は、上述した実施形態1の音声読み上げ装置1と同様の構成により実現できるので、同様の構成については同一の符号を付して説明を省略する。
本実施形態3の音声読み上げ装置1は、画像情報中の各文字領域が音声読み上げ対象のリスト領域であるか否かの特定処理において、上述した実施形態1の音声読み上げ装置1と異なる。具体的には、上述した実施形態1の音声読み上げ装置1は、画像情報中の各文字領域に含まれるいずれかの文字群が、リスト領域情報記憶部10に格納されているキーワードに一致すれば、その文字領域は音声読み上げ対象のリスト領域であると特定していた。
本実施形態3の音声読み上げ装置1は、画像情報中の各文字領域に対するリスト領域情報が特定された場合、特定されたリスト領域情報としてリスト領域情報記憶部10に格納されているリスト種別のうちで、リスト領域情報記憶部10に格納されているキーワードに一致すると判断された各文字群に対応するリスト種別の割合を算出する。そして、本実施形態3の音声読み上げ装置1は、算出した割合が所定の閾値以上である場合に、その文字領域は音声読み上げ対象のリスト領域であると特定する。
本実施形態3の音声読み上げ装置1は、図1に示した各機能を備える。ただし、本実施形態3の音声読み上げ装置1においては、領域特定部16による処理が、上述した実施形態1の領域特定部16による処理と異なる。
本実施形態3の領域特定部16は、抽出部13によって抽出された文字領域のそれぞれについて、各文字領域に含まれるそれぞれの文字群に対応するリスト属性及びリスト種別を判定部15から取得する。領域特定部16は、判定部15から取得するリスト属性及びリスト種別に基づいて、それぞれの文字領域に対応するリスト領域情報が、リスト領域情報記憶部10に格納されているいずれのリスト領域情報であるかを特定する。なお、各文字領域に対するリスト領域情報の特定方法は、実施形態1と同様の方法でよい。
領域特定部(算出部)16は、各文字領域に対するリスト領域情報を特定できた場合、リスト領域情報を特定できた文字領域が音声読み上げ対象のリスト領域である可能性(信頼度)を算出する。各文字領域が音声読み上げ対象のリスト領域であるとする信頼度は、各文字領域に対して特定されたリスト領域情報についてリスト領域情報記憶部10に格納されているリスト種別の数に対して、判定部15が各文字領域に含まれる各文字群に対して特定したリスト種別の数の割合によって表す。
図9A及び図9Bは撮影対象の一例を示す模式図である。図9Aに示す撮影対象は、図2A及び図2Bに示した撮影画像と同様に、3つのラベルが貼付された商品パッケージである。図9Bは、このような撮影対象に対して、例えば、図9A中に一点破線で囲んだ領域Aを撮影範囲として撮影した場合の撮影画像の例を示す。
本実施形態3の抽出部13が、図9Bに示した撮影画像に対して文字抽出処理を行なった場合、破線で囲んだ文字領域R4を抽出する。本実施形態3の判定部15は、抽出部13によって抽出された文字領域R4に含まれる文字群「名称:…」に対応するリスト属性を「食料品」に、リスト種別を「商品名」に特定する。また、判定部15は、文字領域R4に含まれる文字群「原材料名:…」に対応するリスト属性を「食料品」に、リスト種別を「材料」に特定する。更に、判定部15は、文字領域R4に含まれる文字群「原産国:…」に対応するリスト属性を「食料品」に、リスト種別を「産地」に特定する。
本実施形態3の領域特定部16は、上述したように文字領域R4に含まれる各文字群に対して判定部15が特定したリスト属性及びリスト種別に基づいて、文字領域R4に対するリスト領域情報を、リスト属性が「食料品」であるリスト領域情報に特定する。本実施形態3の領域特定部16は、文字領域R4に対するリスト領域情報を特定した場合、特定したリスト領域情報としてリスト領域情報記憶部10に格納されているリスト種別の数を算出する。図3に示したリスト領域情報記憶部10では、領域特定部16は、リスト属性「食料品」のリスト領域情報としてリスト領域情報記憶部10に格納されているリスト種別の数を6つと算出する。
領域特定部16は、リスト属性「食料品」に対応する6つのリスト種別のうちで、判定部15がリスト属性「食料品」に特定した文字群に対応するリスト種別の数を算出する。図9Bに示した撮影画像では、領域特定部16は、リスト種別「商品名」、「材料」、「産地」の3つを算出する。そして、領域特定部16は、特定したリスト属性「食料品」に対応するリスト種別(ここでは6つ)のうちで、判定部15がリスト属性「食料品」と特定した文字群に対応するリスト種別(ここでは3つ)の割合(ここでは50%)を算出する。
領域特定部16は、算出した割合が所定の閾値(例えば70%)以上であるか否かを判断し、所定の閾値以上であれば、抽出部13によって抽出された文字領域が音声読み上げ対象のリスト領域であると特定する。なお、領域特定部16は、文字領域が音声読み上げ対象のリスト領域であると特定した場合、実施形態1の領域特定部16と同様に、抽出部13によってこの文字領域から検出された文字の文字情報を音声読み上げ部17に通知する。
一方、領域特定部16は、算出した割合が所定の閾値未満であれば、抽出部13によって抽出された文字領域が音声読み上げ対象のリスト領域ではないと特定する。領域特定部16は、抽出部13によって抽出された各文字領域に対して算出した割合が所定の閾値未満であれば、処理対象の画像にリスト領域が含まれていない旨を支援部18に通知する。
なお、本実施形態3の支援部18は、例えば、領域特定部16が算出した割合が所定の閾値未満であれば、撮影画像に対するリスト領域の位置を検出し、検出した位置を撮影画像の中央に移動させるようなメッセージを音声出力する。図9Bに示すように撮影画像中の下の領域にリスト領域があり、このリスト領域の信頼度が所定の閾値未満である場合、この撮影画像は、リスト領域全体の上の一部のみを撮影した画像であると推測できる。この場合、支援部18は、撮影画像中の下の領域であるリスト領域を撮影画像の中央に移動させるために、例えば、「被写体に対してカメラを下にずらしてください」のようなメッセージを出力する。
ユーザが、このメッセージに従って音声読み上げ装置1による撮影範囲を下にずらして撮影した場合、リスト領域の全体を撮影することができる。よって、視覚障害者であっても、メッセージに従って音声読み上げ装置1を操作することにより、ユーザが音声読み上げを希望する情報を確実に撮影して音声読み上げすることができる。
本実施形態3の音声読み上げ装置1は、撮影画像中に、リスト領域情報記憶部10に格納された各リスト属性に対応付けられたリスト種別のうちの所定の割合以上のリスト種別に対応する文字群が含まれていれば、音声読み上げの対象とする。即ち、撮影画像中に文字群がリスト形式で記載されている場合であっても、各リスト属性に対応付けられたリスト種別のうちの所定の割合以上のリスト種別に対応する文字群が含まれていなければ音声読み上げの対象としない。よって、実施形態3の音声読み上げ装置1は、音声読み上げの対象とするリスト領域をより適切に抽出できる。
以下に、本実施形態3の音声読み上げ装置1による音声読み上げ処理について詳述する。なお、本実施形態3の音声読み上げ処理は、上述した実施形態1で図4に示した処理と同様であるので説明を省略する。
次に、本実施形態3の音声読み上げ処理におけるリスト領域特定処理(図4中のステップS5)についてフローチャートに基づいて説明する。図10は実施形態3のリスト領域特定処理の手順を示すフローチャートである。
本実施形態3の音声読み上げ装置1は、図4中のステップS4で選択した文字領域に含まれる文字のうちの、同一行(又は同一列)に記述された文字群を1つ抽出する(S51)。音声読み上げ装置1は、抽出した文字群が、リスト領域情報記憶部10のキーワードの欄に格納されているいずれかのキーワードに一致するか否かを判断する(S52)。いずれかのキーワードに一致すると判断した場合(S52:YES)、音声読み上げ装置1は、この文字群に一致するキーワードに対応するリスト属性及びリスト種別をリスト領域情報記憶部10から読み出す(S53)。いずれのキーワードにも一致しないと判断した場合(S52:NO)、音声読み上げ装置1は、ステップS53の処理をスキップする。
音声読み上げ装置1は、図4中のステップS4で選択した文字領域中の全ての文字群を抽出したか否かを判断しており(S54)、全ての文字群を抽出していないと判断した場合(S54:NO)、ステップS51に処理を戻す。音声読み上げ装置1は、図4中のステップS4で選択した文字領域に含まれる文字のうちの、まだ抽出されていない文字群を1つ抽出する(S51)。音声読み上げ装置1は、抽出した文字群に対して、ステップS52,S53の処理を行なう。
音声読み上げ装置1は、図4中のステップS4で選択した文字領域中の全ての文字群に対して上述した処理を行なうまで、ステップS51〜S54の処理を繰り返す。音声読み上げ装置1は、図4中のステップS4で選択した文字領域中の全ての文字群を抽出したと判断した場合(S54:YES)、ステップS53で読み出したリスト属性及びリスト種別に基づいて、図4中のステップS4で選択した文字領域に対するリスト領域情報を特定する(S55)。
具体的には、ステップS53で読み出したリスト属性のうちで、各リスト属性に対応して読み出したリスト種別の数が最も多いリスト属性のリスト領域情報を、文字領域に対するリスト領域情報に特定する。なお、音声読み上げ装置1は、図4中のステップS4で選択した文字領域中に、リスト領域情報記憶部10に格納されたキーワードに一致する文字群がなかった場合、この文字領域に対するリスト領域情報を特定できない。
音声読み上げ装置1は、文字領域に対するリスト領域情報を特定できたか否かを判断しており(S56)、特定できたと判断した場合(S56:YES)、この文字領域が、特定したリスト領域情報が示すリスト領域である信頼度を算出する(S57)。具体的には、音声読み上げ装置1は、ステップS55で特定したリスト領域情報としてリスト領域情報記憶部10に格納されているリスト種別の数に対して、ステップS53でこのリスト領域情報のリスト属性と共に特定されたリスト種別の数の割合を算出する。
音声読み上げ装置1は、算出した割合が所定の閾値以上であるか否かを判断し(S58)、所定の閾値以上であると判断した場合(S58:YES)、この文字領域を音声読み上げ対象のリスト領域に特定し(S59)、図4に示した音声読み上げ処理に戻る。一方、リスト領域情報を特定できなかったと判断した場合(S56:NO)、又は、算出した割合が所定の閾値未満であると判断した場合(S58:NO)、音声読み上げ装置1は、リスト領域特定処理を終了し、図4に示した音声読み上げ処理に戻る。
上述した処理により、本実施形態3では、ラベルに記述された各種の情報が撮影された場合であっても、各ラベルに対して所定の割合以上の情報が撮影されていなければ、各ラベルの情報が適切な撮影範囲に入るように音声によって支援できる。よって、画像情報中にリスト領域が適切な撮影範囲で含まれている場合に、リスト領域内の文字が音声読み上げされるので、ユーザが所望する情報を確実に音声読み上げできる。
本実施形態3の音声読み上げ装置1は、各文字領域に対して信頼度を算出し、算出した信頼度が所定の閾値以上であれば、音声読み上げ対象のリスト領域としていた。このほかに、例えば、音声読み上げ装置1は、算出した信頼度が所定の閾値以上である文字領域が複数あった場合に、最も信頼度の高い文字領域のみを音声読み上げ対象のリスト領域としてもよい。
本実施形態3の音声読み上げ装置1は、画像情報中の各文字領域に対して特定されたリスト領域情報としてリスト領域情報記憶部10に格納されているリスト種別のうちで、リスト領域情報記憶部10に格納されているキーワードに一致すると判断された各文字群に対応するリスト種別の割合に基づいて、各文字領域が音声読み上げ対象のリスト領域であるか否かを判定していた。このようなほかに、例えば、リスト領域情報記憶部10に格納されているキーワードに一致すると判断された各文字群に対応するリスト種別に重み付けを行なった上で、特定されたリスト領域情報に対応するリスト種別に対する割合を算出してもよい。
本実施形態3の音声読み上げ装置1は、実施形態1の音声読み上げ装置1だけでなく、実施形態2の音声読み上げ装置1と組み合わせてもよい。
(実施形態4)
以下に、実施形態4に係る音声読み上げ装置について説明する。なお、本実施形態4の音声読み上げ装置は、上述した実施形態1の音声読み上げ装置1と同様の構成により実現できるので、同様の構成については同一の符号を付して説明を省略する。
上述した実施形態1の音声読み上げ装置1は、音声読み上げ対象のリスト領域であると特定された文字領域に含まれる文字群を全て音声読み上げしていた。本実施形態4の音声読み上げ装置1は、音声読み上げ対象のリスト領域であると特定された文字領域に含まれる文字群のうちで、所定の文字群のみを音声読み上げする。
図11は実施形態4の音声読み上げ装置1の機能構成の一例を示す機能ブロック図である。本実施形態4の音声読み上げ装置1は、図1に示した各機能のほかに読み上げ判定部21の機能を備える。
本実施形態4の領域特定部16は、判定部15から取得した情報に基づいて、抽出部13によって抽出された文字領域のそれぞれに対するリスト領域情報を特定する。領域特定部16は、各文字領域に対するリスト領域情報を特定できた場合、リスト領域情報を特定できた文字領域が音声読み上げ対象のリスト領域であると特定する。領域特定部16は、文字領域が音声読み上げ対象のリスト領域であると特定した場合、抽出部13によってこの文字領域から検出された文字の文字情報を読み上げ判定部21に通知する。なお、領域特定部16は、各文字領域に対するリスト領域情報を特定できなかった場合は、処理対象の画像にリスト領域が含まれていない旨を支援部18に通知する。
読み上げ判定部21は、領域特定部16から通知された文字情報から、音声読み上げすべき文字情報を抽出する。具体的には、読み上げ判定部21は、領域特定部16によって特定されたリスト領域情報としてリスト領域情報記憶部10に格納されているキーワードに一致する文字群を示す文字情報を、音声読み上げすべき文字情報として抽出する。
図2Bに示した文字領域R3の場合、読み上げ判定部21は、リスト属性「食料品」に対応するキーワードに一致する文字群「名称:…」、「原材料名:…」、「原産国:…」、「消費期限:…」、「内容量:…」、「金額:…」を音声読み上げすべき文字情報に抽出する。
読み上げ判定部21は、音声読み上げすべきであると抽出した文字情報を音声読み上げ部17に通知する。なお、読み上げ判定部21は、音声読み上げすべきである文字情報を抽出できなかった場合、音声読み上げすべき文字がない旨を支援部18に通知する。即ち、領域特定部16から通知された文字情報に、リスト領域情報記憶部10に格納されているキーワードに一致する文字群が含まれていない場合、読み上げ判定部21は、音声読み上げすべき文字がない旨を支援部18に通知する。
音声読み上げ部17は、読み上げ判定部21から通知された文字情報から合成音声を順次生成し、生成した合成音声を順次出力する。これにより、音声読み上げ対象のリスト領域に特定された文字領域に含まれる文字情報であっても、リスト領域情報記憶部10に格納されたキーワードに一致しない文字情報を音声読み上げの対象としない。よって、ユーザが音声読み上げの対象としたいキーワードをリスト領域情報記憶部10に格納させておくことにより、リスト領域情報記憶部10に格納されていない文字情報を音声読み上げの対象から外すことができる。これにより、本実施形態4の音声読み上げ装置1は、不要な文字情報の音声読み上げを防止できる。
以下に、本実施形態4の音声読み上げ装置1による音声読み上げ処理についてフローチャートに基づいて詳述する。図12及び図13は実施形態4の音声読み上げ処理の手順を示すフローチャートである。
音声読み上げ装置1のユーザは、音声読み上げを行ないたい情報が記載されている被写体を音声読み上げ装置1によって撮影する。音声読み上げ装置1は、所定のタイミングで画像入力部11にて画像情報を取得し(S61)、取得した画像情報を画像メモリ12に蓄積する。
音声読み上げ装置1は、画像メモリ12に蓄積された画像情報を所定のタイミングで随時読み出し、読み出した画像情報に含まれる文字領域を抽出する(S62)。音声読み上げ装置1は、画像情報から文字領域を抽出できたか否かを判断しており(S63)、文字領域があると判断した場合(S63:YES)、抽出した文字領域のうちの1つを選択する(S64)。音声読み上げ装置1は、選択した文字領域に対してリスト領域特定処理を実行し(S65)、選択した文字領域が音声読み上げ対象のリスト領域であるか否かを特定する。なお、リスト領域特定処理の詳細については、上述した実施形態1で図5に示した処理と同様であるので説明を省略する。
音声読み上げ装置1は、ステップS62で抽出した全ての文字領域に対してリスト領域特定処理を終了したか否かを判断する(S66)。終了していないと判断した場合(S66:NO)、音声読み上げ装置1は、ステップS64に処理を戻し、ステップS62で抽出した文字領域のうちの、まだ処理されていない文字領域を1つ選択する(S64)。音声読み上げ装置1は、選択した文字領域に対してリスト領域特定処理を実行し(S65)、選択した文字領域が音声読み上げ対象のリスト領域であるか否かを特定する。
音声読み上げ装置1は、ステップS62で抽出した全ての文字領域に対してリスト領域特定処理を終了したと判断した場合(S66:YES)、リスト領域特定処理によって音声読み上げ対象のリスト領域であると特定された文字領域があるか否かを判断する(S67)。音声読み上げ対象のリスト領域があると判断した場合(S67:YES)、音声読み上げ装置1は、音声読み上げ対象のリスト領域であると特定した文字領域に含まれる文字の文字情報から、音声読み上げすべき文字情報を選択する(S68)。具体的には、音声読み上げ装置1は、各文字領域に対して特定したリスト領域情報としてリスト領域情報記憶部10に格納されているキーワードに一致すると判断した文字情報を選択する。
音声読み上げ装置1は、選択した文字情報から合成音声を生成する(S69)。音声読み上げ装置1は、生成した合成音声を出力し(S70)、上述した音声読み上げ処理を終了する。これにより、リスト形式で文字情報が記述されたリスト領域中の文字情報のうちで、リスト領域情報記憶部10に格納されているキーワードに一致する文字情報を適切に抽出して音声読み上げすることができる。
一方、ステップS63で文字領域がないと判断した場合(S63:NO)、又は、ステップS67でリスト領域がないと判断した場合(S67:NO)、音声読み上げ装置1は、「カメラを被写体から離してください」のような所定のメッセージを選択する(S71)。音声読み上げ装置1は、選択したメッセージをメッセージ格納部19から読み出して合成音声を生成し(S72)、生成した合成音声を出力する(S73)。音声読み上げ装置1は、ステップS61に処理を戻し、所定のタイミングで画像入力部11にて画像情報を取得し(S61)、上述したステップS62〜S73の処理を繰り返す。
上述した処理により、本実施形態4では、撮影して得られた画像情報中にリスト領域がある場合に、リスト領域内の文字のうちで、リスト領域情報記憶部10に格納されたキーワードに一致する文字のみが音声読み上げされる。即ち、本実施形態4の音声読み上げ装置1は、リスト領域内の文字のうちで、リスト領域情報記憶部10に格納されていない文字を音声読み上げの対象から外す。よって、ユーザが真に必要とする情報のみが音声読み上げされるので、リスト領域内の全ての文字が音声読み上げされる場合と比較してユーザの負担を軽減できる。
上述した実施形態4の音声読み上げ装置1は、リスト領域内の文字のうちで、リスト領域情報記憶部10に格納されたキーワードに一致する文字を音声読み上げしていた。このようなほかに、例えば、音声読み上げ装置1は、リスト領域情報記憶部10に格納されたリスト種別の一部に対応するキーワードに一致する文字のみを音声読み上げしてもよい。
なお、音声読み上げの対象とすべきリスト種別は、予め設定されていてもよいし、音声読み上げ装置1のユーザによって予め選択されていてもよい。この場合、音声読み上げ装置1は、リスト領域情報記憶部10に格納されたリスト種別の選択を予め受け付けて格納しておく。そして、音声読み上げ装置1は、リスト領域内の文字情報のうちで、予め格納されたリスト種別に対応してリスト領域情報記憶部10に格納されているキーワードに一致する文字情報を音声読み上げの対象とする。この場合、ユーザが音声読み上げを希望する情報のみを音声読み上げできるので、不要な音声読み上げ処理を削減できる。
本実施形態4は、上述した実施形態1の変形例として説明したが、上述した実施形態2,3の構成にも適用することができる。
(実施形態5)
以下に、実施形態5に係る音声読み上げ装置について説明する。なお、本実施形態5の音声読み上げ装置は、上述した実施形態1の音声読み上げ装置1と同様の構成により実現できるので、同様の構成については同一の符号を付して説明を省略する。
上述した実施形態1の音声読み上げ装置1は、撮影して得られた画像情報に含まれる文字領域を抽出していた。本実施形態5の音声読み上げ装置1は、まず、画像情報に含まれる所定の対象物の領域を検出し、所定の対象物の領域を検出できた場合に、検出できた領域に隣接する領域を特定し、特定した領域に含まれる文字領域を抽出する。
音声読み上げ装置1のユーザは、例えば商品パッケージを撮影する際に、商品パッケージを手に持って撮影する場合が多い。従って、撮影して得られた画像情報において手の領域が存在する場合、手の領域に隣接する領域が商品パッケージの領域である可能性が高い。図14は撮影画像の一例を示す模式図である。図14に示す撮影画像は、図2A及び図2Bに示した商品パッケージをユーザが左手で保持している状態を撮影した画像である。
図15は実施形態5の音声読み上げ装置1の機能構成の一例を示す機能ブロック図である。本実施形態5の音声読み上げ装置1は、図1に示した各機能のほかに、対象物検出部22及び特定部23の機能を備える。
対象物検出部22は、画像メモリ12に格納された画像情報を所定のタイミングで随時読み出す。対象物検出部22は、読み出した画像情報から所定の対象物の領域を検出する。例えば、対象物検出部22は、読み出した画像情報に対して肌色検出処理を行なって肌色の領域を検出し、その検出結果に基づいて、ユーザの手の領域を検出する。図14に示した撮影画像では、対象物検出部22は、二点鎖線で囲んだ手の領域Hを検出する。
対象物検出部22は、画像情報から手の領域を検出できた場合、検出した手の領域を示す情報を特定部23に通知する。なお、例えば、所定の載置台に、商品パッケージ等の被写体を載置させて撮影する場合には、対象物検出部22は、所定の載置台を検出すればよい。対象物検出部22は、画像情報から手の領域を検出できなかった場合、画像情報に手の領域が含まれていない旨を支援部18に通知する。
特定部23は、対象物検出部22が検出した手の領域に基づいて、この手の領域に隣接する領域を特定し、特定した領域を処理対象の領域とする。図14に示した撮影画像では、特定部23は、手の領域Hに隣接する領域Rを処理対象の領域とする。特定部23は、対象物検出部22が検出した手の領域に隣接する領域を特定できなかった場合、画像情報に処理対象の領域が含まれていない旨を支援部18に通知する。
特定部23は、処理対象の領域を特定できた場合、特定した処理対象の領域を示す情報を抽出部13に通知する。抽出部13は、特定部23によって特定された処理対象の領域に含まれる文字(文字情報)の領域を抽出する。抽出部13は、処理対象の領域から文字領域を抽出できた場合、処理対象の領域のどの領域に文字が存在するかを示す情報と、処理対象の領域に存在する文字を示す文字情報とを文字認識部14へ出力する。
なお、本実施形態5の支援部18は、対象物検出部22から画像情報に手の領域が含まれていない旨を通知された場合、又は、特定部23から画像情報に処理対象の領域が含まれていない旨を通知された場合、例えば、「カメラを被写体から離してください」のメッセージを音声出力する。これにより、画像情報中に手の領域が含まれていない場合、又は、手の領域は含まれているが、手の領域に隣接する領域がない場合には、撮影範囲を広げるような指示が行なわれる。
以下に、本実施形態5の音声読み上げ装置1による音声読み上げ処理についてフローチャートに基づいて詳述する。図16及び図17は実施形態5の音声読み上げ処理の手順を示すフローチャートである。
音声読み上げ装置1のユーザは、音声読み上げを行ないたい情報が記載されている被写体を手で保持した状態で音声読み上げ装置1によって撮影する。音声読み上げ装置1は、所定のタイミングで画像入力部11にて画像情報を取得し(S81)、取得した画像情報を画像メモリ12に蓄積する。
音声読み上げ装置1は、画像メモリ12に蓄積された画像情報を所定のタイミングで随時読み出し、読み出した画像情報に含まれる手の領域を検出する(S82)。音声読み上げ装置1は、手の領域を検出できたか否かを判断しており(S83)、手の領域があると判断した場合(S83:YES)、検出した手の領域に隣接する領域を検出し、処理対象の領域を特定する(S84)。音声読み上げ装置1は、処理対象の領域を特定できたか否かを判断しており(S85)、処理対象の領域があると判断した場合(S85:YES)、特定した処理対象の領域に含まれる文字領域を抽出する(S86)。なお、以下のステップS87〜ステップS96の処理は、実施形態1で図4に示したステップS3〜ステップS12の処理と同一であるので説明を省略する。
一方、ステップS83で手の領域がないと判断した場合(S83:NO)、又はステップS85で処理対象の領域がないと判断した場合(S85:NO)、音声読み上げ装置1は、「カメラを被写体から離してください」のような所定のメッセージを選択する(S94)。音声読み上げ装置1は、選択したメッセージをメッセージ格納部19から読み出して合成音声を生成し(S95)、生成した合成音声を出力する(S96)。音声読み上げ装置1は、ステップS81に処理を戻し、所定のタイミングで画像入力部11にて画像情報を取得し(S81)、上述したステップS82〜S96の処理を繰り返す。
上述した処理により、本実施形態5では、撮影して得られた画像情報中に手の領域がある場合に、手の領域に近接する領域を処理対象の領域とするので、文字抽出処理を行なう対象の領域を限定できる。よって、本実施形態5の音声読み上げ装置1は、不要な画像領域に対する文字情報の探索処理を行なわないので、不要な画像領域に存在する文字情報の誤抽出を防止でき、適切な文字領域を精度よく抽出できる。
本実施形態5は、上述した実施形態1の変形例として説明したが、上述した実施形態2〜4の構成にも適用することができる。
(実施形態6)
以下に、実施形態6に係る音声読み上げ装置について説明する。なお、本実施形態6の音声読み上げ装置は、上述した実施形態1の音声読み上げ装置1と同様の構成により実現できるので、同様の構成については同一の符号を付して説明を省略する。
上述した実施形態1の音声読み上げ装置1は、撮影した画像情報中にリスト領域が適切に入らなかった場合、商品パッケージ等の被写体を適切に撮影するための指示を音声メッセージによって通知していた。本実施形態6の音声読み上げ装置1は、撮影した画像情報中にリスト領域が適切に入るように画像入力部11による撮影範囲を制御する。
図18は実施形態6の音声読み上げ装置1の機能構成の一例を示す機能ブロック図である。本実施形態6の音声読み上げ装置1は、図1に示した各機能において、支援部18の代わりに撮影範囲変更部24の機能を備える。
本実施形態6の抽出部13は、画像情報から文字領域を抽出できない場合、この画像情報には文字領域が含まれていない旨を撮影範囲変更部24に通知する。また、本実施形態6の文字認識部14は、各文字領域に含まれる文字群のいずれも、リスト領域情報記憶部10に格納されたキーワードに一致しなかった場合、処理対象の画像にリスト領域が含まれていない旨を撮影範囲変更部24に通知する。更に、本実施形態6の領域特定部16は、各文字領域に対するリスト領域属性を特定できなかった場合、処理対象の画像にリスト領域が含まれていない旨を撮影範囲変更部24に通知する。
本実施形態6の音声読み上げ装置1の画像入力部11は、例えば、光学レンズを有しており、撮影範囲変更部24は、光学レンズを移動させることによって画像入力部11が撮影する際の画角(焦点距離)を変更させる。撮影範囲変更部24は、例えば、抽出部13から文字領域がない旨を通知された場合、画像入力部11による撮影範囲を広げる方向に光学レンズを移動させる。よって、文字領域(リスト領域)が撮影されていない場合には、撮影範囲を広げて撮影することにより、リスト領域を撮影範囲内に入れることができる。
また、撮影範囲変更部24は、文字認識部14又は領域特定部16からリスト領域がない旨を通知された場合、抽出部13によって抽出された文字領域を拡大して撮影するように光学レンズを移動させる。よって、文字領域が撮影されている場合には、文字領域を拡大して撮影することにより、文字領域内の文字を正確に読み取ることができる。
図19A及び図19Bは撮影画像の一例を示す模式図である。図19Aに示す撮影画像は、図2Aに示した撮影画像である。本実施形態6の抽出部13が、図19Aに示す撮影画像中の文字領域R3を文字領域であると抽出したが、領域特定部16が文字領域R3に対するリスト領域情報を特定できなかった場合を考える。この場合、撮影範囲変更部24は、撮影範囲を文字領域R3に絞って撮影するように光学レンズを移動させる。これにより、画像入力部11は、図19Bに示すように、文字領域R3が拡大して撮影された画像情報を取得できる。
なお、撮影範囲変更部24は、光学レンズを移動させることによって画角を変更させる光学ズームだけでなく、撮影した画像情報に対して変倍処理を行なうデジタルズームを行なってもよい。
以下に、本実施形態6の音声読み上げ装置1による音声読み上げ処理についてフローチャートに基づいて詳述する。図20は実施形態6の音声読み上げ処理の手順を示すフローチャートである。
図20中のステップS101〜ステップS109処理は、実施形態1で図4に示したステップS1〜ステップS9の処理と同一であるので説明を省略する。
本実施形態6の音声読み上げ装置1は、ステップS103で文字領域がないと判断した場合(S103:NO)、例えば、撮影範囲を広げるように画像入力部11を制御する(S110)。また、音声読み上げ装置1は、ステップS107でリスト領域がないと判断した場合(S107:NO)、例えば、ステップS102で抽出した文字領域を拡大して撮影するように、撮影範囲を狭めるように画像入力部11を制御する(S110)。
音声読み上げ装置1は、ステップS101に処理を戻し、所定のタイミングで画像入力部11にて画像情報を取得し(S101)、上述したステップS102〜S110の処理を繰り返す。
上述した処理により、本実施形態6では、撮影して得られた画像情報中に適切な位置でリスト領域がない場合には、適切な位置でリスト領域を撮影できるように、画像入力部11による撮影範囲が制御される。よって、本実施形態6の音声読み上げ装置1は、ユーザの操作に依存せずに、画像入力部11による撮像範囲を変更することによってリスト領域を適切に撮影することができる。これにより、ユーザは音声読み上げ装置1による撮影範囲を変更する必要がないので、ユーザによる操作負担が軽減される。
本実施形態6は、上述した実施形態1の変形例として説明したが、上述した実施形態2〜5の構成にも適用することができる。
(実施形態7)
以下に、実施形態7に係る音声読み上げ装置について説明する。なお、本実施形態7の音声読み上げ装置は、上述した実施形態4の音声読み上げ装置1と同様の構成により実現できるので、同様の構成については同一の符号を付して説明を省略する。
上述した実施形態4の音声読み上げ装置1は、音声読み上げ対象のリスト領域に特定した文字領域に含まれる文字群のうちで、リスト領域情報記憶部10に格納されているキーワードに一致する文字情報のみを音声読み上げしていた。本実施形態7の音声読み上げ装置1も同様に、リスト領域情報記憶部10に格納されているキーワードに一致する文字情報のみを音声読み上げする。なお、本実施形態7の音声読み上げ装置1は、リスト領域情報記憶部10に格納されたリスト領域情報毎に、各リスト種別に予め優先度を付加しておき、各優先度に従った順番で各リスト種別と判定された文字群を並び替えて音声読み上げを行なう。
図21は実施形態7のリスト領域情報記憶部10の格納内容の一例を示す模式図である。図21に示すように、本実施形態7のリスト領域情報記憶部10に格納されるリスト領域情報は、リスト属性、リスト種別、キーワードのほかに優先度を含む。優先度は、リスト領域情報毎に、各リスト種別に予め付加された順位を示す番号(1,2,3…)である。本実施形態7の音声読み上げ装置1は、リスト領域情報記憶部10に格納された優先度に従った順番で、各リスト種別に対応するキーワードに一致するとされた文字群を並び替えて合成音声を生成する。リスト領域情報記憶部10に格納される各優先度は、音声読み上げ装置1の製造過程において予め格納されてもよく、音声読み上げ装置1のユーザによって任意に変更されてもよい。
本実施形態7の音声読み上げ装置1は、図11に示した各機能を備える。なお、本実施形態7の音声読み上げ部17は、読み上げ判定部21から通知された文字情報を、リスト領域情報記憶部10に格納された優先度の順に並び替えた後、合成音声を順次生成する。音声読み上げ部17は、生成した合成音声を順次出力する。これにより、リスト領域であると判定された文字領域に含まれる文字情報を、優先度に従った順序で音声読み上げできる。
本実施形態7の音声読み上げ装置1による音声読み上げ処理は、上述した実施形態4で図12及び図13に示した処理と同様であるので説明を省略する。なお、図13中のステップS68において、本実施形態7の音声読み上げ装置1は、リスト領域に含まれる文字情報から、合成音声を生成すべき文字情報を選択すると共に、選択した各文字情報を、リスト領域情報記憶部10に格納された優先度に応じた順序に並び替える処理を行なう。
上述した処理により、本実施形態7では、ユーザが所望する可能性の高い順に各リスト種別に高い優先度を付加しておくことにより、ユーザが所望する情報を早期に通知することが可能となる。なお、合成音声を生成すべきであると抽出された文字情報の順序を並び替える処理は、音声読み上げ部17ではなく読み上げ判定部21によって行なってもよい。
本実施形態7は、上述した実施形態4の変形例として説明したが、上述した実施形態1〜3,5,6の構成にも適用することができる。
上述した実施形態1〜7の音声読み上げ装置1は、音声読み上げ対象のリスト領域が適切な撮影範囲内にない場合に、適切に撮影できるように音声によって通知する。このような構成のほかに、例えば、各操作に応じて予め設定しておいた音によって各操作の指示を通知してもよい。例えば、被写体からカメラを離す指示に対して「ビー」という音を対応付けておき、「カメラを被写体から離してください」のメッセージを出力する代わりに、「ビー」という音を出力させてもよい。
図22A,図22B及び図22Cはリスト領域の抽出方法の一例を示す模式図である。上述した実施形態1〜7の音声読み上げ装置1は、画像情報から文字領域を抽出し、抽出した文字領域が音声読み上げの対象のリスト領域であるか否かを特定していた。従って、上述した実施形態1〜7の音声読み上げ装置1は、図22Aに示すような画像情報に対して、図22Bに示すようなリスト領域LST1を抽出する。
しかし、例えば、図22A中の文字群「保存期限:…」は、リスト領域情報記憶部10のキーワードの欄には格納されていないので、音声読み上げ装置1は、図22Cに示すように2つのリスト領域LST2,LST3を抽出してもよい。この場合、リスト領域情報記憶部10に格納されていない文字群「保存期限:…」を音声読み上げの対象から除くことができるので、ユーザによって不要な文字群の音声読み上げを防止できる。
なお、同一のリスト属性に特定された各文字領域が近傍に存在する場合は、図22Bに示すように、各文字領域を包含するようなリスト領域を抽出することが望ましい。しかし、同一のリスト属性が特定される各文字領域が分散して存在する場合は、図22Cに示すように、各文字領域をそれぞれ異なるリスト領域として抽出する方がよい。各文字領域をそれぞれ異なるリスト領域として抽出した場合、個々のリスト領域をそれぞれ拡大撮影することができるので、各リスト領域内の文字抽出の制度が向上し、音声読み上げの精度も向上する。
上述した実施形態1〜7では、音声読み上げ装置1の音声読み上げ部17及び支援部18がそれぞれ音声出力機能を備えていたが、音声出力機能は音声読み上げ装置1に対して専用線又はネットワークを介して接続されていてもよい。この場合、音声読み上げ部17及び支援部18が、音声出力したい音声信号を専用線又はネットワークを介して外部の音声出力装置へ出力すればよい。
以上の実施形態1〜7を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
画像を入力する画像入力部と、
該画像入力部から入力された画像を記憶しておく画像メモリと、
文字が表形式で表示されている表形式領域が何に関する表であるのかという表の属性を示すリスト属性、各表形式領域に表形式で表示される複数の文字群のそれぞれが何であるのかを示す情報であるリスト種別、及びそれに対応するキーワードを含むリスト領域情報を対応付けて記憶するリスト領域情報記憶部と、
前記画像メモリに記憶されている画像に含まれる文字の領域を抽出する抽出部と、
該抽出部が抽出した文字の領域に含まれる文字を認識する文字認識部と、
前記抽出部が抽出した文字の領域に含まれる文字群が、前記リスト領域情報記憶部を参照することにより、いずれのリスト領域情報に相当するかを判定する判定部と、
該判定部が判定したリスト領域情報に基づいて、前記文字認識部が認識した文字群に対応するリスト領域情報が、前記リスト領域情報記憶部に記憶してあるいずれのリスト領域情報であるかを特定する領域特定部と、
該領域特定部が特定したリスト領域情報に対応するリスト属性、リスト種別及びリスト種別に対応するキーワードを示す文字に基づいて、音声合成して、音声読み上げする音声読み上げ部と、
を備えることを特徴とする音声読み上げ装置。
(付記2)
前記画像入力部は、画像を撮像して入力し、
前記抽出部は、前記画像メモリに記憶されている画像に含まれる文字の領域を抽出し、抽出した文字の領域を、正面から撮像された画像に補正し、
前記文字認識部は、前記抽出部が抽出または補正した文字の領域に含まれる文字を認識することを特徴とする付記1に記載の音声読み上げ装置。
(付記3)
前記リスト領域情報記憶部は、更に、前記キーワードに対応する文字の読み方を示す読み情報を含むリスト領域情報を記憶し、
前記音声読み上げ部は、前記認識したキーワードを示す文字と、前記読み情報とに基づいて、音声合成して、音声読み上げすることを特徴とする付記1又は2に記載の音声読み上げ装置。
(付記4)
更に、
前記抽出部が文字の領域を抽出できない場合、又は前記領域特定部がリスト領域情報を特定できない場合に画像の撮影を支援するメッセージを格納しておくメッセージ格納部と、
前記抽出部が文字の領域を抽出できない場合、又は前記領域特定部がリスト領域情報を特定できない場合に、状況に応じたメッセージを前記メッセージ格納部から抽出し、画像の撮影を支援するメッセージを出力する支援部と
を備えることを特徴とする付記1から3までのいずれかひとつに記載の音声読み上げ装置。
(付記5)
表形式領域の特徴を示す特徴情報を記憶する領域特徴情報記憶部と、
該領域特徴情報記憶部に記憶された特徴情報に基づいて、前記画像メモリに記憶されている画像から前記表形式領域を検出する領域検出部とを備え、
前記抽出部は、前記領域検出部が検出した表形式領域に含まれる文字の領域を抽出することを特徴とする付記1から4までのいずれかひとつに記載の音声読み上げ装置。
(付記6)
前記領域特定部が特定したリスト領域情報に対応付けて前記リスト領域情報記憶部に記憶してあるリスト種別のうちで、前記判定部が判定したリスト領域情報に対応するリスト種別の割合を算出する算出部を備え、
前記音声読み上げ部は、前記算出部が算出した割合が所定の閾値以上である場合に、前記領域特定部が特定したリスト領域情報に対応するリスト属性、リスト種別及びキーワードを示す文字に基づいて、音声合成して、音声読み上げすることを特徴とする付記1から5までのいずれかひとつに記載の音声読み上げ装置。
(付記7)
前記領域特定部が特定したリスト領域情報に対応付けて前記リスト領域情報記憶部に記憶してあるリスト種別のうちで、前記判定部が判定したリスト領域情報に対応するリスト種別の割合を算出する算出部を備え、
前記支援部は、前記算出部が算出した割合が所定の閾値未満である場合に、状況に応じたメッセージを前記メッセージ格納部から抽出し、画像の撮影を支援するメッセージを出力することを特徴とする付記4に記載の音声読み上げ装置。
(付記8)
前記領域特定部が特定したリスト領域情報に対応するリスト属性、リスト種別及びキーワードを示す文字から、音声読み上げすべき文字を抽出する読み上げ判定部を備え、
前記音声読み上げ部は、前記読み上げ判定部が抽出した文字に基づいて、音声合成して、音声読み上げすることを特徴とする付記1から7までのいずれかひとつに記載の音声読み上げ装置。
(付記9)
前記画像メモリに記憶されている画像から所定の対象物の領域を検出する対象物検出部と、
該対象物検出部が所定の対象物の領域を検出した場合、検出した対象物の領域に隣接する領域を特定する特定部とを備え、
前記抽出部は、前記特定部が特定した領域に含まれる文字の領域を抽出することを特徴とする付記1から8までのいずれかひとつに記載の音声読み上げ装置。
(付記10)
画像を撮像する撮像部と、
前記抽出部が文字の領域を抽出できない場合、又は前記領域特定部がリスト領域情報を特定できない場合に、前記撮像部による画像の撮影範囲を変更する撮影範囲変更部と
を備えることを特徴とする付記1から9までのいずれかひとつに記載の音声読み上げ装置。
(付記11)
前記リスト領域情報記憶部は、それぞれのリスト種別に対応するキーワードに予め付加された順位を記憶し、
前記音声読み上げ部は、前記領域特定部が特定したリスト領域情報に対応するリスト属性、リスト種別及びキーワードを示す文字を、前記キーワードに付加された順位に従った順序に並び替えた後、音声合成して、音声読み上げすることを特徴とする付記1から10までのいずれかひとつに記載の音声読み上げ装置。
(付記12)
前記音声読み上げ部は、前記領域特定部が特定したリスト領域情報に対応するリスト属性、リスト種別及びキーワードを示す文字のうちで、予め設定されたリスト種別及び該リスト種別に対応するキーワードを示す文字に基づいて、音声合成して、音声読み上げすることを特徴とする付記1から11までのいずれかひとつに記載の音声読み上げ装置。
(付記13)
前記リスト領域情報記憶部に記憶してあるリスト種別から1又は複数のリスト種別の選択を受け付ける受付部を備え、
前記音声読み上げ部は、前記受付部が選択を受け付けたリスト種別及び該リスト種別に対応するキーワードを示す文字に基づいて、音声合成して、音声読み上げすることを特徴とする付記12に記載の音声読み上げ装置。
(付記14)
付記1から13までのいずれかひとつに記載の音声読み上げ装置を備えることを特徴とする携帯電話機。
(付記15)
コンピュータに、
入力されて画像メモリに記憶されている画像に含まれる文字の領域を抽出する抽出ステップと、
抽出した文字の領域に含まれる文字を認識する文字認識ステップと、
抽出した文字の領域に含まれる文字群が、文字が表形式で表示されている表形式領域が何に関する表であるのかという表の属性を示すリスト属性、各表形式領域に表形式で表示される複数の文字群のそれぞれが何であるのかを示す情報であるリスト種別、及びそれに対応するキーワードを含むリスト領域情報を対応付けて記憶するリスト領域情報記憶部を参照することにより、いずれのリスト領域情報に相当するかを判定するステップと、
判定したリスト領域情報に基づいて、前記認識した文字群に対応するリスト領域情報が、前記リスト領域情報記憶部に記憶してあるいずれのリスト領域情報であるかを特定するステップと、
特定したリスト領域情報に対応するリスト属性、リスト種別及びリスト種別に対応するキーワードを示す文字に基づいて、音声合成して、音声読み上げするステップと、
を実行させるためのコンピュータプログラム。
(付記16)
前記抽出ステップは、前記画像メモリに記憶されている画像に含まれる文字の領域を抽出し、抽出した文字の領域を、正面から撮像された画像に補正し、
前記文字認識ステップは、抽出または補正した文字の領域に含まれる文字を認識することを特徴とする付記15に記載のコンピュータプログラム。
1 音声読み上げ装置
10 リスト領域情報記憶部
11 画像入力部
12 画像メモリ
13 抽出部
14 文字認識部
15 判定部
16 領域特定部
17 音声読み上げ部
18 支援部
19 メッセージ格納部
20 領域検出部
21 読み上げ判定部
22 対象物検出部
23 特定部
24 撮影範囲変更部
20a 領域特徴情報記憶部

Claims (7)

  1. 画像を入力する画像入力部と、
    該画像入力部から入力された画像を記憶しておく画像メモリと、
    文字が表形式で表示されている表形式領域が何に関する表であるのかという表の属性を示すリスト属性、各表形式領域に表形式で表示される複数の文字群のそれぞれが何であるのかを示す情報であるリスト種別、及びそれに対応するキーワードを含むリスト領域情報を対応付けて記憶するリスト領域情報記憶部と、
    前記画像メモリに記憶されている画像に含まれる文字の領域を抽出する抽出部と、
    該抽出部が抽出した文字の領域に含まれる文字を認識する文字認識部と、
    前記抽出部が抽出した文字の領域に含まれる文字群が、前記リスト領域情報記憶部を参照することにより、いずれのリスト領域情報に相当するかを判定する判定部と、
    該判定部が判定したリスト領域情報に基づいて、前記文字認識部が認識した文字群に対応するリスト領域情報が、前記リスト領域情報記憶部に記憶してあるいずれのリスト領域情報であるかを特定する領域特定部と、
    該領域特定部が特定したリスト領域情報に対応するリスト属性、リスト種別及びリスト種別に対応するキーワードを示す文字に基づいて、音声合成して、音声読み上げする音声読み上げ部と、
    を備えることを特徴とする音声読み上げ装置。
  2. 前記画像入力部は、画像を撮像して入力し、
    前記抽出部は、前記画像メモリに記憶されている画像に含まれる文字の領域を抽出し、抽出した文字の領域を、正面から撮像された画像に補正し、
    前記文字認識部は、前記抽出部が抽出または補正した文字の領域に含まれる文字を認識することを特徴とする請求項1に記載の音声読み上げ装置。
  3. 前記リスト領域情報記憶部は、更に、前記キーワードに対応する文字の読み方を示す読み情報を含むリスト領域情報を記憶し、
    前記音声読み上げ部は、前記認識したキーワードを示す文字と、前記読み情報とに基づいて、音声合成して、音声読み上げすることを特徴とする請求項1又は2に記載の音声読み上げ装置。
  4. 更に、
    前記抽出部が文字の領域を抽出できない場合、又は前記領域特定部がリスト領域情報を特定できない場合に画像の撮影を支援するメッセージを格納しておくメッセージ格納部と、
    前記抽出部が文字の領域を抽出できない場合、又は前記領域特定部がリスト領域情報を特定できない場合に、状況に応じたメッセージを前記メッセージ格納部から抽出し、画像の撮影を支援するメッセージを出力する支援部と
    を備えることを特徴とする請求項1から3までのいずれかひとつに記載の音声読み上げ装置。
  5. 表形式領域の特徴を示す特徴情報を記憶する領域特徴情報記憶部と、
    該領域特徴情報記憶部に記憶された特徴情報に基づいて、前記画像メモリに記憶されている画像から前記表形式領域を検出する領域検出部とを備え、
    前記抽出部は、前記領域検出部が検出した表形式領域に含まれる文字の領域を抽出することを特徴とする請求項1から4までのいずれかひとつに記載の音声読み上げ装置。
  6. 請求項1から5までのいずれかひとつに記載の音声読み上げ装置を備えることを特徴とする携帯電話機。
  7. コンピュータに、
    入力されて画像メモリに記憶されている画像に含まれる文字の領域を抽出する抽出ステップと、
    抽出した文字の領域に含まれる文字を認識する文字認識ステップと、
    抽出した文字の領域に含まれる文字群が、文字が表形式で表示されている表形式領域が何に関する表であるのかという表の属性を示すリスト属性、各表形式領域に表形式で表示される複数の文字群のそれぞれが何であるのかを示す情報であるリスト種別、及びそれに対応するキーワードを含むリスト領域情報を対応付けて記憶するリスト領域情報記憶部を参照することにより、いずれのリスト領域情報に相当するかを判定するステップと、
    判定したリスト領域情報に基づいて、前記認識した文字群に対応するリスト領域情報が、前記リスト領域情報記憶部に記憶してあるいずれのリスト領域情報であるかを特定するステップと、
    特定したリスト領域情報に対応するリスト属性、リスト種別及びリスト種別に対応するキーワードを示す文字に基づいて、音声合成して、音声読み上げするステップと、
    を実行させるためのコンピュータプログラム。
JP2009052127A 2009-03-05 2009-03-05 音声読み上げ装置、携帯電話機及びコンピュータプログラム Withdrawn JP2010205136A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009052127A JP2010205136A (ja) 2009-03-05 2009-03-05 音声読み上げ装置、携帯電話機及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009052127A JP2010205136A (ja) 2009-03-05 2009-03-05 音声読み上げ装置、携帯電話機及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2010205136A true JP2010205136A (ja) 2010-09-16

Family

ID=42966522

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009052127A Withdrawn JP2010205136A (ja) 2009-03-05 2009-03-05 音声読み上げ装置、携帯電話機及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2010205136A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9472181B2 (en) 2011-02-03 2016-10-18 Panasonic Intellectual Property Management Co., Ltd. Text-to-speech device, speech output device, speech output system, text-to-speech methods, and speech output method
JP2018120263A (ja) * 2017-01-23 2018-08-02 株式会社セレージャテクノロジー 災害時情報管理システム
JP2020008853A (ja) * 2018-07-04 2020-01-16 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声出力方法および装置
JP2020515996A (ja) * 2017-03-20 2020-05-28 北京金山▲辧▼公▲軟▼件股▲ふん▼有限公司Beijing Kingsoft Office Software,Inc. 認識した語を迅速に挿入する方法およびデバイス

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9472181B2 (en) 2011-02-03 2016-10-18 Panasonic Intellectual Property Management Co., Ltd. Text-to-speech device, speech output device, speech output system, text-to-speech methods, and speech output method
JP2018120263A (ja) * 2017-01-23 2018-08-02 株式会社セレージャテクノロジー 災害時情報管理システム
JP2020515996A (ja) * 2017-03-20 2020-05-28 北京金山▲辧▼公▲軟▼件股▲ふん▼有限公司Beijing Kingsoft Office Software,Inc. 認識した語を迅速に挿入する方法およびデバイス
JP2020008853A (ja) * 2018-07-04 2020-01-16 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声出力方法および装置

Similar Documents

Publication Publication Date Title
US9165191B2 (en) Commodity recognition apparatus and commodity recognition method
US7796785B2 (en) Image extracting apparatus, image extracting method, and image extracting program
WO2017172649A1 (en) Augmented imaging assistance for visual impairment
US20070257934A1 (en) System and method for efficient enhancement to enable computer vision on mobile devices
EP3046050B1 (en) Information processing apparatus, pos system and information processing method
CN102193772B (zh) 一种信息处理器和信息处理方法
JP2013509094A5 (ja)
US11216685B2 (en) Dynamically optimizing photo capture for multiple subjects
JP2006165822A (ja) 電子カメラおよびプログラム
CN101010694A (zh) 检索系统以及检索方法
JP2005086516A (ja) 撮像装置、印刷装置、画像処理装置およびプログラム
JP2010034685A (ja) デジタルカメラ
JP2016118991A (ja) 画像生成装置、画像生成方法及びプログラム
JP2016189158A (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP2010205136A (ja) 音声読み上げ装置、携帯電話機及びコンピュータプログラム
KR20130120175A (ko) 캐리커처 자동 생성 장치, 방법 및 컴퓨터 판독 가능한 기록 매체
US20160104052A1 (en) Text-based thumbnail generation
TWI712903B (zh) 商品資訊查詢方法和系統
US20150227827A1 (en) Portable information terminal and barcode display method
JP2019212039A (ja) 情報処理装置、情報処理方法、プログラム及び情報処理システム
JP4781248B2 (ja) 撮像装置、撮像装置の制御方法、プログラム及び記録媒体
CN111611986B (zh) 一种基于手指交互的焦点文本提取和识别方法及系统
Karthi et al. Raspberry Pi based Smart Assistance for Visually Impaired People
JP6166070B2 (ja) 再生装置および再生方法
JP5349631B2 (ja) スキャナおよびプログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20120605