JP2016194612A

JP2016194612A - 視覚認識支援装置および視覚認識支援プログラム

Info

Publication number: JP2016194612A
Application number: JP2015074516A
Authority: JP
Inventors: 栄二米澤; Eiji Yonezawa
Original assignee: Nidek Co Ltd
Current assignee: Nidek Co Ltd
Priority date: 2015-03-31
Filing date: 2015-03-31
Publication date: 2016-11-17

Abstract

【課題】画像中の情報を好適に読み上げること。
【解決手段】視覚認識支援装置１の演算制御装置１３ａは、被写体像に含まれる文字列，及び物体の少なくともいずれかをオブジェクトとして検出する。また、演算制御装置１３ａは、オブジェクトの称呼を規定する称呼データベース１３ｃを参照して、検出手段によって検出されるオブジェクトについての称呼を取得する。また、演算制御装置１３ａは、１つの被写体像から複数のオブジェクトが検出される場合において、それぞれのオブジェクトに対して取得される称呼を、イヤホン１４を介して並列的に読み上げる制御を行う。
【選択図】図１

Description

本開示は、画像に含まれる情報を読み上げる視覚認識支援装置および視覚認識支援プログラム

近年、画像データに含まれるテキスト情報を抽出し、デバイスに読み上げさせる技術が、ユーザの視覚を支援するための技術として注目されている（例えば、特許文献１参照）。

特表２００９−５３４６９３号公報

しかし、従来は、テキスト等の情報が、画像中に複数含まれている場合において、情報が一つずつ読み上げられると、ユーザにとって重要とされる情報が読み上げられるまでに、時間がかかってしまう場合がある。

本開示は、従来技術の問題点に鑑みてなされたものであり、画像中の情報を好適に読み上げる視覚認識支援装置、および、視覚認識支援プログラムを提供することを技術課題とする。

本開示の第１態様に係る視覚認識支援装置は、被写体像に含まれる文字列，および物体の少なくともいずれかをオブジェクトとして検出する検出手段と、前記オブジェクトの称呼を規定するデータベースを参照して、前記検出手段によって検出されるオブジェクトについての称呼を取得する称呼情報取得手段と、少なくとも前記ユーザに対して音声を出力するスピーカと、１つの被写体像から複数のオブジェクトが検出される場合において、それぞれのオブジェクトに対し前記称呼情報取得手段によって取得される称呼を、前記スピーカを介して並列的に読み上げる読み上げ制御手段と、を備える。

本開示の第２態様に係る視覚認識支援プログラムは、コンピュータのプロセッサで実行されることによって、被写体像に含まれる文字列，および物体の少なくともいずれかをオブジェクトとして検出する検出ステップと、前記オブジェクトの称呼を規定するデータベースを参照して、前記検出手段によって検出されるオブジェクトについての称呼を取得する称呼情報取得ステップと、１つの被写体像から複数のオブジェクトが検出される場合において、それぞれのオブジェクトに対し前記称呼情報取得ステップによって取得される称呼を、スピーカを介して並列的に読み上げる読み上げ制御ステップと、を前記コンピュータに実行させる。

本開示によれば、画像中の情報を好適に読み上げることができる。

本開示の視覚認識支援装置の概略構成を示した図である。視覚認識支援装置において得られる被写体像の一例を示した図である。被写体像において、文字列の検出範囲が画像の一部に設定される場合を示した図である。本開示を視覚再生補助装置に適用した場合の概略構成を示した図である。図４Ａの視覚再生補助装置において、眼球に設置される構成を示した図である。

以下、図面を参照しつつ、本開示の例示的な実施形態を説明する。まず、図１を参照して、視覚認識支援装置１の概略構成を説明する。ここでは、ユーザの周囲環境を、ユーザに装着されるカメラ（図１における第1カメラ１２）で撮影しそのカメラで撮影された画像（被写体像）に含まれるオブジェクトを読み上げる装置を、視覚認識支援装置１として例示する。つまり、本実施形態では、リアルタイムに撮影された画像に含まれる情報が、読み上げられる。

本実施形態において、視覚認識支援装置１は、バイザー１１と、第１カメラ１２と、制御ユニット１３と、イヤホン１４と、第２カメラ１５と、操作部１６と、を有している。バイザー１１は、ユーザに対し、視覚認識支援装置１を装着するために設けられている。バイザー１１は、眼鏡形状をしており、図１に示すように、患者の眼前に装着される。本実施形態において、第１カメラ１２は、バイザー１１の前面に取り付けられる。第１カメラ１２は、ユーザの周囲環境（より詳細には、ユーザの前方の外界像）を、２次元ＣＣＤ等の撮像素子（図示せず）で撮像し、これによって、外界画像（つまり、被写体像、図2参照）を得る。

第２カメラ１５は、ユーザの眼の前面を撮像素子（図示せず）によって撮影するためのカメラであってもよい。図１に示すように、第２カメラ１５は、例えば、バイザー１１の後面に取り付けられていてもよい。本実施形態において、第２カメラ１５は、ユーザの眼における視線（視軸）を検出するために利用される。視線は、例えば、瞳孔中心の位置に応じて得られる。よって、例えば、第２カメラ１５で得られる画像における瞳孔中心の位置に基づいて、視線検出が行われても良い。

制御ユニット１３は、演算制御装置１３ａと、文字認識用データベース１３ｂ、称呼データベース１３ｃと、バッテリー１３ｄとを有している。バッテリー１３ｃは、視覚認識支援装置１に電力を供給する電源である。

イヤホン１４は、装置によって読み上げられた称呼を、ユーザに対して音声出力するスピーカの一例である。本実施形態において、イヤホン１４は、ステレオ式であり、左右の耳に対して、それぞれ異なる音声を出力することができる。なお、視覚認識支援装置１で使用されるスピーカは、空気を媒介としてユーザに音を伝えるものに限定されない。例えば、イヤホン１４は、骨伝導、又は、軟骨伝導方式のスピーカであってもよい。

本実施形態において、演算制御装置１３ａは、ＣＰＵ（プロセッサ）およびメモリ等を含む処理装置である。メモリには、視覚認識支援装置１の各部を制御するための固定データ、および、各種の制御プログラム（例えば、視覚認識支援プログラム）が記憶されている。視覚認識支援プログラムは、例えば、プロセッサで実行されることで、以下説明する各処理を、視覚認識支援装置１（本実施形態におけるコンピュータ）に実行させる。

操作部１６は、ユーザによって操作され、操作に応じた信号を演算制御装置１３ａに入力するために利用される。操作部１６は、例えば、ダイヤル、ボタン等が複数設けられている。操作部１６が適宜操作されることによって、イヤホンから出力される音量、音質、および、音の位相等が調整される。

ここで、図２の画像を例示して、本実施形態における装置の詳細な動作を説明する。

＜オブジェクト検出処理＞
本実施形態において、演算制御装置１３ａは、第１カメラ１１によって撮像される画像を処理して、画像に含まれるオブジェクトを検出する。本実施形態では、オブジェクトとして、文字列が検出される。なお、文字列の検出には、様々な手法が知られており、これが適用されてもよい。一手法では、まず、レイアウト解析が行われ、これにより、被写体像３００において文字を含む領域（文字領域）が検出される。その後、その文字領域において文字列の切り出しが行われる。その結果として、文字列が検出される。

その後、演算制御装置１３ａは、文字列に対し、文字認識処理を行って、文字列に含まれている文字を特定する。文字認識処理においては、例えば、文字の正規化（実際の書体、文字の大きさ、歪み、かすれ等を考慮した、文字の形状情報の取得）、特徴点抽出、標準パターンに対するマッチング、および、知識処理が、順に行われてもよい。文字認識用データベース１３ｂには、文字の特徴をとらえたパターン（標準パターン）が、文字毎に記憶されていてもよい。つまり、上記マッチングの際に、文字認識用データベース１３ｂから読み出したパターンと、特徴点抽出によって被写体像３００から取り出した特徴とをマッチングさせることで、文字を特定（あるいは、候補の選定）してもよい。また、文字認識用データベース１３ｂには、単語辞書、および、文法辞書を含んでいてもよく、知識処理では、単語および文法と、マッチングによって推定された文字とを照らし合わせることで、文字をより正確に特定することもできる。なお、文字認識において、上記以外の手法を適用できることは言うまでもない。

図２の例では、第１カメラ１２で得られた被写体像３００中に、複数の文字列３０１，３０２，３０３，３０４が含まれている。ここで、最初の例では、被写体像３００全体から文字列を検出するように、検出範囲が演算制御装置１３ａによって設定されているものとする。よって、この場合、被写体像におけるすべての文字列３０１〜３０４が検出される。

＜称呼情報取得処理＞
次に、演算制御装置１３ａは、文字認識が行われた後の文字列を単語等の要素に分解し、その後、分解された単語等に対し、称呼データベース１３ｃに登録されている称呼をあてあめることで、文字列の称呼を取得する。称呼データベース１３ｃは、文字および単語（つまり、検出処理で検出されるオブジェクト）に対し、その称呼（読み方）が対応付けられた辞書である。称呼データベース１３ｃは、図１に示すように、視覚認識支援装置１のメモリに記憶されていてもよいし、通信ネットワークを介してアクセス可能なサーバ上のメモリに記憶されていてもよい。この場合、視覚認識支援装置１は、外部との通信装置（図示せず）を備える。

図２の場合、演算制御装置１３ａは、文字認識が行われた後の文字列３０１〜３０４に対して、それぞれの称呼を取得する。

＜読み上げ制御処理＞
演算制御装置１３ａは、文字列の称呼を、文字列における並び順にイヤホン１４から出力させることによって、文字列を読み上げる。本実施形態では、１枚の画像に含まれる複数の文字列（オブジェクト）の称呼を、称呼情報取得処理において取得した場合、各文字列３０１〜３０４を並列的に読み上げる。ここでいう並列的とは、ある文字列を読み上げる期間が、少なくとも１つの他の文字列を読み上げる期間と重複していることをいう。

つまり、本実施形態における視覚認識支援装置１は文字列３０１〜３０４の称呼を、一度にまとめてユーザに聞かせる。一般に、人は、混雑した場所や複数の人との雑談の中でも、意識を集中させれば特定の人の声だけを聞き取ることができる（カクテルパーティー効果）。視覚認識支援装置１は、この原理を利用するものである。つまり、複数の文字列３０１〜３０４を並列的に読み上げることで、被写体像に含まれる文字列の内容を、ユーザに短時間で把握させることができる。

演算制御装置１３ａによる文字列の読み上げ制御は、例えば、一定時間毎（例えば、１０秒ごと等）に繰り返し行われてもよい。また、被写体画像３００から検出される文字の一部または全部が変化したタイミングであってもよい。また、ユーザからの指示が入力されたタイミングであってもよい。この場合、例えば、スイッチなどの操作（操作部１６の操作）に基づいて、指示が入力されてもよいし、例えば、ユーザの瞬きを検出し、瞬きの発生に基づいて文字列の読み上げを行ってもよい。

また、演算制御装置１３ａは、被写体像３００に対し、ユーザの注視点（注目位置）３１０を設定する（注目点設定処理）。本実施形態において、注視点３１０は、被写体像３００においてユーザの視線上に設定される。被写体像における各位置と、各視線方向とは、予め対応付けておくことができるので、演算制御装置１３ａは、第２カメラ１５の画像から検出される視線方向に基づいて、被写体像３００上に注視点３１０を位置決めできる。但し、注視点３１０は、必ずしも視線方向上に設定されなくてもよい。例えば、被写体像３００の一定位置（例えば、画像中心）に、被写体像３００が固定されていても良い。

更に、本実施形態における前述のオブジェクト検出処理では、演算制御装置１３ａは、注視点３１０と、各文字列３０１〜３０４との位置関係に関する位置関係情報を、各文字列３０１〜３０４について取得する。ここで、位置関係情報は、注視点３１０と文字列３０１〜３０４との外界画像上での距離（この場合、例えば、注視点３１０と、文字列３０１〜３０４における重心との距離でもよい）を規定する情報であってもよいし、距離だけでなく、外界画像での方向についても規定する情報であってもよい。

そして、前述の読み上げ制御処理において、演算制御装置１３ａは、それぞれの文字列３０１〜３０４を文字列３０１〜３０４との位置関係に応じた異なる態様で読み上げる。例えば、演算制御装置１３ａは、それぞれの文字列に対して時間差をつけて、文字列の読み上げを行ってもよい。具体的には、それぞれの文字列を読み上げる速度、読み上げ開始の時間、および、繰り返し読み上げる場合の間隔のうち、少なくともいずれかが、検出された注視点３１０と各文字列３０１〜３０４の距離に応じて、それぞれ設定されてもよい。例えば、注視点３１０の近くに検出される文字列ほど、読み上げの開始時間を早く設定してもよい。この場合、例えば、注視点３１０から離れるにつれて、０．１秒〜１秒程度ずつ、文字列毎の読み上げ開始時間を遅らせてもよい。但し、文字列毎の読み上げ開始時間の差は、注視点からの距離に応じて（例えば、比例して）定められても良い。また、演算制御装置１３ａは、注視点３１０の近くに検出される文字列ほど、大きな音量で読み上げられるようにしてもよい。

このようにすることで、文字列の聞き分けが容易になる。また、上記のようにした場合、ユーザは、注視点３１０の近くにある文字列と、遠くにある文字列とを把握しやすくなるので、どこに何が書かれているかを認識しやすくなる。

また、演算制御装置１３ａは、文字列毎に、読み上げるときの声質およびトーンの少なくともいずれかを異ならせてもよい。この場合も、ユーザが各文字列を聞き分け易くなる。

また、演算制御装置１３ａは、それぞれの文字列の称呼を読み上げる際の音量、音質、および音の位相のうち、少なくとも１つを、それぞれ文字列と注視点３１０に対する位置関係に基づいて左右それぞれについて設定し、その設定に応じて、左右のイヤホン１４から出力してもよい。これによれば、ステレオ式のイヤホン１４を介して読み上げられる音声によって、それぞれの文字列の左右方向における配置を、ユーザが把握しやすい。

また、演算制御装置１３ａは、文字列を構成する文字のフォント（換言すれば、書体、文字列（オブジェクト）の属性）をそれぞれ検出し、それぞれの文字列において検出されるフォントに応じた音声を用いて、各文字列を読み上げても良い。ここでいうフォントは、書体、および文字の大きさ、文字の太さ、のうち、少なくとも一つを含む。このような構成によれば、ユーザによって、フォントの違う文字列の聞き分けを容易に行わせることができる。

また、図３に示すように、演算制御装置１３ａは、注視点３１０の周囲において、文字列を読み上げる範囲を調節可能な構成であってもよい。例えば、操作部１６の操作によって、文字列が読み上げられる注視点３１０からの距離が設定可能であっても良い。図３では、領域Ａが、文字列を読み上げる範囲として設定されている。例えば、演算制御装置１３ａは、領域Ａに一部が含まれる文字列を、読み上げの対象として設定してもよい。図３の例では、文字列３１４が読み上げの対象として検出される。このような構成では、読み上げられる範囲が、被写体像３００の一部に制限されるので、聞き分けが一層容易になる。

なお、図２および図３では、第１カメラ１２によって、外出時での周囲環境が被写体像として撮像される場合を図示しているが、本開示は、読書やモニター等、文字情報がより多くの割合で存在する周囲環境にも適用することができる。つまり、文字列が並列的に読み上げられることで、被写体像に含まれる文章の内容を、速やかにユーザが把握しやすくなると考えられる。

以上、実施形態に基づいて本開示を説明したが、本開示は、上記実施形態に限定されることなく、様々な変形が可能であることは勿論である。

例えば、上記実施形態における視覚認識支援装置１は、被写体像３００に含まれる文字列を検出し、その文字列を読み上げていた。しかし、必ずしもこれに限られるものではなく、物体認識を行い、その物体の称呼を読み上げる構成であってもよい。また、文字列検出と、物体認識とを併用し、文字列および物体の称呼をそれぞれを読み上げる構成であってもよい。例えば、演算制御装置１３ａは、第１カメラ１２によって撮像される被写体像３００に対し、エッジ検出、パターン検出等の画像処理を行うことで、被写体像３００に含まれる各物体のパターンを特定する。そして、特定したパターンを、データベースに登録されているパターンとのマッチングを行う。この場合は、例えば、「クルマ」、「机」、「椅子」、「ヒト」等の特徴的なパターンとその称呼とが対応付けられたデータベースが参照されてもよい。このような処理を行うことで、物体認識によって認識した物体の称呼を取得でき、装置に読み上げさせることができる。なお、物体のパターンと称呼を対応付けるデータベースは、上記実施形態における称呼データベースに換えて（又は、共に）、視覚認識支援装置１のメモリ、およびネットワーク上にあるサーバのメモリ等に記憶されてもよい。

物体認識を行う装置においても、演算制御装置１３ａは、上記実施形態と同様、注視点３１０とオブジェクト（ここでは、物体）との位置関係に応じて、オブジェクト毎に異なる態様で称呼を読み上げてもよい。即ち、読み上げ開始タイミング、声質、声量、声のトーン、および声が聞こえる方向（つまり、ステレオスピーカにおける左右の出力比、および音声の位相差）等うち、少なくともいずれかを、注視点３１０とオブジェクト（ここでは、物体）との位置関係に応じて、各オブジェクトに対し、設定してもよい。もちろん、このとき、注視点３１０は、ユーザの視線検出結果に応じて定められてもよいし、固定でもよい。また、単に、オブジェクト毎に、読み上げの態様を異ならせてもよい。また、演算制御装置１３ａは、文字列を読み上げる場合と、物体の称呼を読み上げる場合とで、称呼を読み上げる態様を異ならせてもよい。

上記実施形態の構成を、視覚障害者を支援する他の装置に持たせてもよい。他の装置としては、ユーザの視覚に関わる組織に対し、電気刺激を行うことで視覚の再生を促す装置であってもよい。このような装置は、例えば、図４Ａ，Ｂに示すように、ユーザの眼に設置される複数の電極５１を有し、更に、複数の電極５１のそれぞれからユーザの視覚に関わる組織または細胞に対して電気刺激パルス信号を出力するための刺激制御を行うユニット（例えば、体内装置２０）と、を更に備える。ユーザは、刺激パルス信号が出力される電極５１の箇所で光覚を得て、刺激パルス信号が出力されない電極５１の箇所を暗く感じる。よって、被写体画像における各位置での明暗に応じて、各電極５１からの出力が制御されることで、被写体像に近い像を得ることができる。このようなユニットの一部または全部は、図４Ａ，Ｂに示すように、体内に配置されてもよい。例えば、図４Ａ，Ｂの例では、電極５１の近傍に、体内装置２０側の刺激制御ユニット６０を備える。更に詳細な構成については、例えば、特開２０１１−１６７２５５号公報等を参照されたい。但し、このような装置において、電気刺激によってユーザが得ることのできる像の分解能は、電極数に依存している。例えば、このような方式では、被写体像中の文字を認識できる程度の分解能を得るためには、相当な数の電極数が必要となる。しかし、電極５１は、眼に設置される必要があるため、設置スペースは少ない。よって、十分な電極数を設けることは困難であった。

これに対し、上記手法により、装置が被写体像中の文字列を読み上げることで、被写体像中の文字を、ユーザは良好に認識できる。結果、ユーザのクオリティ・オブ・ライフを一層向上させることができる。

また、上記実施形態では、被検者の頭部に装着されるデバイス（視覚認識支援装置１）が、オブジェクトの称呼を読み上げる構成を例示したが、必ずしもこれに限られるものではない。例えば、視覚認識支援装置１は、頭部以外の部位に装着されてもよいし、杖に設けられてもよいし、車いすに設けられてもよいし、パーソナルコンピュータ、携帯電話等に設けられてもよい。なお、これらの装置では、前述した視覚認識支援プログラムが、コンピュータのプロセッサによって実行される。

１視覚認識支援装置
１１第１カメラ
１３制御ユニット
１３ａ演算制御装置
１３ｃ称呼データベース
１５第２カメラ
３００被写体像
３０１〜３０４文字列
３１０注視点

Claims

被写体像に含まれる文字列，および物体の少なくともいずれかをオブジェクトとして検出する検出手段と、
前記オブジェクトの称呼を規定するデータベースを参照して、前記検出手段によって検出されるオブジェクトについての称呼を取得する称呼情報取得手段と、
少なくとも前記ユーザに対して音声を出力するスピーカと、
１つの被写体像から複数のオブジェクトが検出される場合において、それぞれのオブジェクトに対し前記称呼情報取得手段によって取得される称呼を、前記スピーカを介して並列的に読み上げる読み上げ制御手段と、を備える視覚認識支援装置。
ユーザの周囲環境を前記被写体像として撮影する撮影部と、
前記撮影部をユーザに装着するための装着部と、を備える請求項１記載の視覚認識支援装置。
前記検出手段は、被写体像におけるユーザの注目位置とそれぞれの前記オブジェクトとの位置関係に関する位置関係情報を、前記オブジェクト毎に更に検出し、
前記読み上げ制御手段は、前記注目位置と前記オブジェクトとの前記位置関係情報に基づく位置関係に応じて、それぞれの前記オブジェクト毎に異なる態様で称呼を読み上げる請求項２記載の視覚認識支援装置。
ユーザの眼における視線を検出する視線検出手段を備え、
前記検出手段は、前記被写体像における注目位置を、前記視線検出手段で検出される視線に応じて設定する請求項３記載の視覚認識支援装置。
前記読み上げ制御手段は、前記検出手段で検出される前記位置関係情報に基づいて、前記注目位置対して距離が近いオブジェクトほど大きな音声で読み上げる請求項３又は４記載の視覚認識支援装置。
前記読み上げ制御手段は、それぞれの前記オブジェクトを読み上げる速度、読み上げ開始の時間、および、繰り返し読み上げる場合の間隔のうち、少なくともいずれかを、前記位置関係情報に基づく前記注目位置とそれぞれの前記オブジェクトとの距離に応じてそれぞれ設定する請求項３から５のいずれかに記載の視覚認識支援装置。
前記読み上げ制御手段は、前記検出手段で検出される前記位置関係情報に基づいて、前記注目位置との距離が近いオブジェクトほど、読み上げ開始時間を早くする請求項６記載の視覚認識支援装置。
前記スピーカは、少なくとも左右２つのスピーカを持つステレオスピーカであり、
前記読み上げ制御手段は、それぞれの前記オブジェクトの称呼を読み上げる際の音量、音質、および音の位相のうち、少なくとも１つを、それぞれの前記オブジェクトの前記位置情報に基づいて、左右それぞれについて設定し、その設定に応じて前記スピーカから出力する請求項３から７のいずれかに記載の視覚認識支援装置。
前記注目位置の周囲において前記検出手段が前記オブジェクトを検出する範囲である検出範囲を、ユーザに指示させるための指示入力手段を備え、
前記検出手段は、前記指示入力手段によって入力される指示に基づいて、前記検出範囲を被写体像に対して設定する請求項３から８のいずれかに記載の視覚認識支援装置。
前記読み上げ制御手段は、前記オブジェクト毎に声質，声量，およびトーン、読み上げ開始のタイミングの少なくともいずれかを異ならせて称呼を読み上げる請求項１から９のいずれかに記載の視覚認識支援装置。
前記オブジェクトとして文字列を検出する場合において、前記検出手段は、更に、それぞれの前記文字列に含まれる文字のフォントを検出し、
読み上げ制御手段は、それぞれの文字列において検出されるフォントに応じた音声で、それぞれのオブジェクトを読み上げる請求項１から１１のいずれかに記載の視覚認識支援装置。
前記読み上げ制御手段は、前記オブジェクトのフォント毎に、声質，声量，およびトーン、読み上げ開始のタイミングの少なくともいずれかを異ならせて読み上げる請求項１１記載の視覚認識支援装置。
前記視覚認識支援装置は、
複数の電極を有し、ユーザの眼に装着される電極基盤と、
前記電極基盤からユーザの視覚に関わる組織または細胞に対して電気刺激パルス信号を出力する刺激制御手段と、を更に備えることを特徴とする請求項１から１３のいずれかに記載の視覚認識支援装置。
視覚認識支援プログラムであって、コンピュータのプロセッサで実行されることによって、
被写体像に含まれる文字列，および物体の少なくともいずれかをオブジェクトとして検出する検出ステップと、
前記オブジェクトの称呼を規定するデータベースを参照して、前記検出手段によって検出されるオブジェクトについての称呼を取得する称呼情報取得ステップと、
１つの被写体像から複数のオブジェクトが検出される場合において、それぞれのオブジェクトに対し前記称呼情報取得ステップによって取得される称呼を、スピーカを介して並列的に読み上げる読み上げ制御ステップと、
を前記コンピュータに実行させる視覚認識支援プログラム。