JP2018524135A

JP2018524135A - 盲人又は視覚障害者が音声や触覚によって周囲環境を解釈することを可能にするポータブルシステム

Info

Publication number: JP2018524135A
Application number: JP2018516636A
Authority: JP
Inventors: エルバス、アントニオケサダ
Original assignee: アイシンス、エス．エル．
Priority date: 2015-06-12
Filing date: 2016-06-10
Publication date: 2018-08-30
Anticipated expiration: 2036-06-10
Also published as: HK1248093A1; ES2597155A1; CN107708624A; JP6771548B2; CA2986652A1; RU2719025C2; AU2016275789B2; CO2017012744A2; IL255624A; ES2597155B1; KR20180018587A; WO2016198721A1; MX2017015146A; EP3308759A4; IL255624B; DK3308759T3; AU2016275789A1; RU2017144052A3; BR112017026545B1; US11185445B2

Abstract

本発明は、盲人又は視覚障害者が周囲環境を音声又は触覚によって解釈することを可能にするポータブルシステムに関し、システムは、互いに分離し環境の画像を同時に取り込むように構成された２つのカメラ（３ｉ、３ｄ）と、音声出力信号及び／又はタッチ出力信号を生成する手段（４ｉ、４ｄ）とを備える。有利には、システムはまた、カメラ（３ｉ、３ｄ）と音声信号及び／又はタッチ信号を生成する手段（４ｉ、４ｄ）とに接続された処理手段（２）を備える。処理手段は、リアルタイムで取り込まれた画像を組み合わせ、少なくとも１つの垂直帯域に関連する情報を組み合わされた画像内の要素の奥行きに関する情報と共に処理するように構成され、処理手段（２）はまた、垂直帯域を１又は複数の領域に分割し、領域の奥行き及び領域の高さに応じて各領域の音声信号又はタッチ信号を定義し、垂直帯域の各領域の音声信号又はタッチ信号に基づいて音声出力信号又はタッチ出力信号を定義するように構成されている。

Description

本発明は、何らかの制限又は障害を持つ人のための支援装置に関する。特に、本発明は、主に盲人又は視覚障害者のための援助システムに関する。

視覚障害のあるユーザは、通常、歩行や周囲環境を認識するために、杖や盲導犬などの基本的な援助に依存している。より高い技術レベルを使用するシステムは開発されているが、侵襲的で扱いが難しいことが多い。また、それらは通常、使用するには高価すぎて排他的なものでしかない。

今日のシステムでは、通常、例えばレーザを使用してある点で距離を測定し、行く手に物体があれば音響通知を提供する。このようなシステムは、場面の容量分析を提供せず、その応答は位置、大きさ又は幾何学的形状（曲線、端部、水平線に対する位置）の変化に関連するニュアンスも有していない。さらに、多くの点で距離を測定することによる場面の分析は、高いコンピューティング能力を必要とし、このことは一般に、リアルタイムで及び／又はポータブルの装置で使用することを不可能にする。

この文脈において、環境の画像を分析するための装置も従来技術で知られており、装置は画像を解釈し、またユーザのために音声としてマッピングするように構成されているため、画像を形成する物体の距離について音声ベースの表現が得られ、その結果、行く手で障害物になる可能性があるものの位置を確定しユーザに通知するのに役立つ３次元投影が統合される。しかし、実際には遅い応答速度に変換される計算要件と、不正確さ及びユーザにとって不適切な使用経験を引き起こす計算上の欠陥に関して、この装置もまた効果的ではない。画像からの完全なマッピングに基づくこの種の装置の例は、特許文献ＥＳ２１３３０７８Ａ１及びＵＳ２００９／１２２１６１Ａ１である。

これらの装置の代替として、特許文献ＥＳ２５１７７６５Ａ１は、音声バンクを設けて、得られた画像の各点を音声バンクからの少なくとも１つの音声と関連付けるように構成され、符号化した音声のマップを作成し、取り込まれた３次元空間内に平面を表現する装置を提案する。上述した装置は、マップ内に定義された各点からの音声を順次再生するためにも適しており、例えば水平度が乏しいためユーザまでの距離について不完全な計算が生じる可能性がある眼鏡に基づく実施形態において、ユーザによる装置の配置不良に由来するエラーを補正しやすくする目的で、音声は水平線で表される空間に関連付けられている。

前述の代替方法は、当技術分野の初期の装置によって引き起こされた欠点のいくつかを修正することを可能にするが、必要な計算資源に由来する重要な制限を依然として有する。なぜなら、画像から得られる水平の音声パターンを表すように構成されているが、その奥行きの処理は前述のシステムと同様の方法で画像を一体的に分析することによって行われるためである。したがって、既知の装置はすべて重要な計算資源を必要とし、その出力及び能力が大きく制限される。さらに、これらの装置は一般に、奥行きの計算精度の問題を完全に解決することなく装置をより複雑にする、傾斜計／重力計の使用を必要とする。

したがって、（容易に理解可能なオーディオ又はタッチ信号によって）環境の理解可能な説明を提供することができ、同時に計算及び計算資源の消費量がより少ないことを示す、視覚障害を有する人を助ける効果的なシステムが必要である。

本発明は、主に、視覚に障害のある人に適用可能である。しかし、視覚が使用できない、又は代替となるガイダンスシステムが必要とされる別のタイプのシナリオ及び状況に適用可能であり得る。

人への支援は、信号、好ましくは音声信号又はタッチ信号（例えば、触覚によって伝達される振動）を介して伝達される周囲に存在する物体及び障害物を解釈することによる環境の説明でより容易になる。信号はステレオ画像処理に基づいて生成され、遠くの領域に対応して最も強い色強度を有するエリアの表現を取得し、一方、色強度の弱い他のエリアは近くの領域に関連付けられる。

したがって、本発明の１つの目的は、盲人が周囲環境を音声又は触覚によって解釈することを可能にするポータブルシステムに関し、環境の画像を同時に取り込むために互いに分離した２つのカメラと、
両方の画像をリアルタイムで組み合わせ、組み合わされた画像内の要素の奥行きに関する情報を有する少なくとも１つの垂直帯域を確立する処理手段であって、また垂直帯域を複数の領域に分割し、画像内の奥行き及び高さに応じて各領域の音声信号又はタッチ信号を定義し、垂直帯域の各領域内の音声信号又はタッチ信号に応じて音声出力信号又はタッチ出力信号を定義する処理手段と、
音声出力信号又はタッチ出力信号を再生するための再生手段と
を備える。

本発明の好ましい実施形態では、垂直帯域は組み合わされた画像の中央部分にあり、ユーザは動く際に環境を走査する。本発明のこの動作モードを以下、「走査モード」と呼ぶ。

カメラによって得られた画像のただ１つの垂直帯域の処理は、一方で奥行きの分析をユーザに最適な関心領域に制限し（関心領域が焦点の中心点に対応するため）、関心が低い情報をもたらす周辺領域を避けることを可能にする。この最適化により、取得する情報に悪影響を与えることなく、システムの計算要件を大幅に低減することができる。これは、水平線がユーザによる障害物の位置付けに最も関連しているため、垂直線が奥行きに関する情報を水平線に凝縮するという事実による。そのため、周辺側方視野に対応する情報は、動きの間にユーザが頭部を側方に自然に動かすことによって生成され、カメラによって取得された完全な画像を連続的に処理する必要なしに、分析の垂直線をシフトさせ残りの情報を取得することを可能にする。水平方向の数度の頭部の動きは、（垂直線の分析によってカバーされる）すべての水平線の奥行きについて、ユーザの正面領域を自然にカバーすることを可能にする。この技術的最適化によって、従来技術の代替案と比較して約９０％の計算要件の節約が推定される。さらに、カメラによって取り込まれた画像全体に対して垂直線を処理することにより、ユーザに近接して存在するがユーザの通路を直接的に妨げない近くの周辺物体による音声の混入を防止することができる。この意味で、このシステムの使用は、盲人用の杖を用いた動作走査又はプロービングモードと多くの類似点を共有し、扱い方を迅速に学ぶことができる。

本発明の別の好ましい実施形態では、中央垂直帯域の各側部の組み合わされた画像に複数の側部垂直帯域を確立し、左側又は右側の音声信号又はタッチ信号を各々の左側帯域の領域及び各々の右側帯域の領域からそれぞれ定義し、ユーザは動くことなく環境を走査することができる。本発明のこの動作モードを以下、「完全なランドスケープモード」と呼ぶ。完全なランドスケープモードにおいて、処理手段は、カメラによって取得された完全な画像のセグメンテーション領域が水平に処理されるように、複数の側部垂直帯域の同時分析を提供するのに適している。走査モードと比較して、完全なランドスケープモードはより高度な計算要件を含むが、システムのユーザの周辺側方領域に関してより多くの情報を提供する。しかし、複数の垂直線に対する処理空間の縮小は、走査モードの場合と同様に、従来技術における既知の解決法と比較して、処理時間及び資源消費のかなりの改善を必要とする。

本発明の別の好ましい実施形態では、処理手段の動作モードをユーザが起動及び停止することができ、複数の側部垂直帯域の同時分析と単一の垂直帯域の分析とを交互に行うことができる。その結果、ユーザの位置に応じて、ユーザは、ほとんどの日常使用状況において効果的である走査動作モード（すなわち、中央垂直線の奥行きを処理することによる）を使用することができ、周辺側部領域に関する付加的な情報を提供する必要がある場合には（複数の垂直帯域による）完全なランドスケープモードを使用することができる。

本発明の好ましい実施形態では、再生手段は、左側の音声信号又はタッチ信号と右側の音声信号又はタッチ信号とを組み合わせて、ステレオで再生する。

本発明の好ましい実施形態では、処理手段は、垂直帯域内の領域の高さに応じて、音声信号の音声強度又はタッチ信号のタッチ強度を定義する。

本発明の好ましい実施形態では、処理手段は、領域の奥行きに応じて、音声信号又はタッチ信号の周波数を定義する。

本発明の好ましい実施形態では、領域の奥行きは、環境の画像の奥行きマップ上のグレーレベルに従って決定される。

本発明の好ましい実施形態では、領域は少なくとも１つの画素を含む。

本発明の好ましい実施形態では、システムは、再生手段と２つのカメラとを配置することができるユーザによって携帯される支持構造体を備える。

タッチ信号に基づく本発明の好ましい実施形態では、信号の生成は、電気活性ポリマー（ＥＡＰ）に基づくか、又は形状が電圧に応答して変化するエラストマー製の膜に基づく。あるいは、信号は、小さな振動発生モータによって機械的に生成することができる。

音声信号に基づく本発明の好ましい実施形態では、音声信号の周波数は、１００Ｈｚ〜１８０００Ｈｚの範囲内から選択される。

本発明の好ましい実施形態では、再生手段は蝸牛ヘッドホンである。有利には、耳は空いたままであり、信号は骨を通して受信される。これは、ユーザが生成された音声信号を妨害することなく同時に話すことができることを意味し、逆もまた同様である。

本発明の好ましい実施形態では、支持構造体は、少なくとも眼鏡、ヘッドバンド、首部支持体、胸部支持体、肩部支持体、又は手持ち式装置から選択される。

本発明の好ましい実施形態では、生成された音声信号は非言語であり、長時間の使用の後に煩わしく迷惑になり得る連続的な音声メッセージをユーザに与え続けないようにする。さらに、非言語メッセージは、より容易に認識され、他のタスクを実行すると同時に再生することができる。したがって、本発明は、言語に起因する言語的障壁を発生させることなく使用することができる。

図１は、本発明の一実施形態の簡略化されたブロック図を示す。図２は、本発明によって分析されたトーラスの画素化された画像を示す。図３は、図２のトーラスの画素化され処理された画像を示す。図４は、本発明のシステムに伴う方法の簡略化されたフローチャートを示す。図５は、眼鏡に基づく本発明の実施形態を示す。

より明確にするために、本発明の実施形態を図面に関連し、音声信号又はタッチ信号に焦点を当てて非限定的に説明する。

図１は、本発明のシステムの主要な要素を有するブロック図を示す。この図は、一対のステレオカメラ（３ｉ、３ｄ）によって画像がどのように取得されるかを示している。カメラは、好ましくは、ユーザの顔の両側かつ目の高さに配置され、頭の動きで関心領域に焦点を当てることを容易にする。カメラ（３ｉ、３ｄ）は、好ましくは平行に整列する。

カメラ（３ｉ、３ｄ）の実際の回路は、取り込まれた画像に対して前処理を行って、画像の安定した流れを提供し、幾何学的又は色彩的アーチファクト及び収差を防止する。センサの回路は、時間的に同期した一対の画像を提供する。

その結果、このビデオストリームは、処理ユニット（２）に伝達される。処理ユニット（２）は、画像をオーディオ／振動に変換するためのアルゴリズムを実装している特定のハードウェア設計であることが好ましい。ケーブル（６）は、カメラ（３ｉ、３ｄ）と処理ユニット（２）とを通信するように想定されている。しかし、他のより複雑な実施形態では、無線伝送が考えられる。

処理ユニット（２）は、立体画像をグレースケールの奥行きマップに変換する。視差マップ（縮尺に関する情報なし）は、事前に生成される。

奥行きマップはグレースケール画像であると解釈され、プロセスブラックと呼ばれる色は（使用されるスケールに応じて）最大の遠隔度を意味し、ピュアホワイトは（使用されるスケールに応じて）最大の近さを意味する。残りのグレーは中間距離を特定する。しかし、本発明の他の実施形態では、コントラストを逆転させ、より暗い色を最も近い距離に対応させるか、又はサーモグラフィック表現に類似した予め確立されたカラースケールを使用することが可能である。

視差マップは、数学的処理を受ける一対のステレオ画像の重ね合わせから得られる結果の画像であると理解される。両眼視差マップは、１つの画像において、２つのステレオ画像間の画素レベルの差を表現する。数学的視差アルゴリズムを適用することにより、カメラとカメラキャリブレーションファイルとの間の距離を知ることによって、ピクセル間の差を実際の距離に適合させることができる。撮影された画像の各部分（ピクセルサイズ）からのカメラの距離は、このプロセスの結果として知られている。この距離を表すためにグレースケールが使用される。

これは次いで奥行きマップに変換される。グレースケールの距離／レベルが適用される数学的プロセスの後、奥行きマップが得られる。

生成された奥行きマップに基づいて、その目的のために開発された変換アルゴリズムが適用され、高度な最適化アルゴリズムであるため、より少ない計算資源しか必要とせず、既知のシステムよりも効率的な方法で、奥行きに関する特殊なデータをオーディオに変換することを可能にする。

その結果、最初の一対のステレオ画像で非言語ステレオ音声信号が得られ、この非言語ステレオ音声信号が、蝸牛ヘッドホン又は骨伝導（４ｉ、４ｄ）を介してユーザに伝達される。これにより、ユーザにとって直観的な方法で視覚情報を聴覚情報に確実に変換する視聴覚言語が定義される。

図２は、トーラスの低解像度奥行きマップの例を示す。奥行きマップの各ピクセルは、カメラによって取り込まれたピクセル位置に対応する、関連する座標（Ｘ、Ｙ）を有する。さらに、各画素は、奥行き、すなわち画素に関連する領域が位置する距離に関する情報を提供する、関連するグレーレベル（Ｇ）を有する。

図３は、中央垂直帯域又は列をそのグレーレベルに従って３つのエリアに分割することを簡略化して示す。エリア「Ａ」は黒、エリア「Ｂ」は白、エリア「Ｃ」は灰色である。したがって、３つの異なる強度値が各エリア（エリア「Ａ」は無音、エリア「Ｂ」は最大音量及びエリア「Ｃ」は中間音量）に関連付けられる。より多くのグレーレベルの範囲、したがって関連する音声強度が通常定義されることを理解しなければならない。音声信号は、各エリアの画素に対応する個々の信号を組み合わせることによって形成される。

奥行きマップからの情報を使用して、その時の環境に関する情報を有するマトリックス又はテーブルが構築される。この情報は、次の考慮事項に従ってオーディオに変換する必要がある。

−ステレオフレームの各ペアで視差マッピングが実行される。画像の画素の違いを考慮し、カメラからのデータ（ＦＯＶ、眼間距離、特定のキャリブレーション）を使用して、三角測量が確立できるため、画素を現実世界の距離に関連付けることができる。この情報により、画像が処理されて奥行きマップが提供される。奥行きマップは、体積及び実際の距離を表す物体のアウトラインとグレースケール画像である。したがって、これは場面に関連する空間情報を含む単一の合成画像を提供する。

−図３に関する走査動作モードの例画像を分析するには、頭部をいいえと振るように頭部を左から右に動かす必要がある。その結果、中心カーソル（赤色）はトーラスを完全に走査する。生成された音声は（常に視野の線の中心になるため）ステレオパノラマの中央で聞こえる。この走査で、物体の水平サイズが固定され（首部の動きが基準となる）、垂直サイズは周波数範囲によって提供される。

−分析のために図２を使用する完全なランドスケープモードこの場合、ユーザは、ユーザの前にあるものを解釈するために首部を動かす必要はない。トーラスの右部分はステレオパノラマの右側に鳴る。中央部分と左部分も同じように鳴る。ステレオパノラマのアパーチャレベルは、トーラスの水平サイズを示す。垂直方向のサイズは、走査モードのように周波数範囲で表される。

−画像とステレオ音声との対応は次の通りである。ランドスケープの画像に基づいて、音声信号は分析するエリアに対応する。左のステレオパノラマで画像の左エリアが鳴る。右のステレオパノラマで右エリアが鳴る。したがって、中央エリアは、ステレオパノラマの中央で鳴る（すなわち、５０％左＋５０％右）。

−周波数が高さ係数を指定する周波数範囲は、１００Ｈｚ〜１８０００Ｈｚの値を有し、等しい断片に分割されている。その範囲は、一般的な人が何の問題もなく十分にカバーできる細かさ及び狭さで音声を示すのに十分に広いという理由で選択されている（人間の音域は２０Ｈｚ〜２００００Ｈｚ）。ベース周波数（１００Ｈｚ）は、ディスプレイ上の画素の最初の最下行に関連付けられる。最高周波数（１８０００Ｈｚ）は、画素の一番上の行に関連付けられる。残りの周波数断片はそれらの間に割り当てられる。画像の高さが１２８画素の場合、各行が断片に対応する。解像度が変更される場合、断片は高さに比例して割り当てられる。この方法は、低い計算能力を有するシステムに役立つ。音声合成がリアルタイムで生成されるローパワーがある場合、周波数範囲は高さの画素数で分割され、各周波数セグメントは補間又は平均化なしに各画素に割り当てられる。

−ユーザ（Ｚ軸）に対する空間距離の係数は、アルゴリズムによって生成された音量係数に関連付けられ、黒画素は知覚可能な音量を有さず（すなわち、〜無限大）、白画素は最大音量を有する（０ｄＢ）。このスケールは柔軟性があり、異なる測定範囲（４０ｃｍ、２ｍ、６ｍ）の使用に適応する。

−１画素当たりの音声の持続時間は、ディスプレイ上の「存在」に正比例する。画素が常に白である場合、音声は絶えず繰り返される。

−中央列の分析は、走査モードでのみ使用される。理論的には、１画素の幅を有する中央列を使用することができる。しかし、音声をトーンダウンしアーチファクトを防止する目的で、奥行きマップの解像度（計算能力に依存する）に応じて、３つ又はさらには５つの中心列の画素値が平均化される。

音量強度は、画素のグレースケール値（Ｉ）に関連付けられる。したがって、値０．０．０（ＲＧＢモデル）の画素は遠隔領域に対応し、関連する強度は無音である（ｌ＝０）。値２５５．２５５．２５５の画素は非常に近接した領域に対応し、信号の音量は最大である（ｌ＝０ｄＢ）。これにより、各画素は、オーディオの構成を行うために使用される「音声ユニット」として見ることができる。周波数音声は、好ましくは１００Ｈｚ〜１８０００Ｈｚの範囲である。

動作モードによれば、画素の位置Ｘは２通りの方法で解釈することができる。

−走査モード：中央列の画素に対応する信号のみが鳴る。ユーザが頭部をいいえと振るように動かすと場面が走査される。これは杖による走査と同様である。

−完全なランドスケープモード：場面に関連付けられた複数の画素の列が同時に鳴る。このモードでは走査は必要ない。画像は全体として表現される（又は「鳴る」）。例えば、画素が右に行くほど、ステレオパノラマの右で大きく鳴る。中央領域及び左領域についても同様である。

完全なランドスケープモードは高い計算能力を必要とするため、処理ユニット（２）の性能に応じて、画像内のすべての列ではなく、中央、４５°、−４５°、８０°、−８０°の５列を使用して最適化することができる。処理能力に応じて、より多くの列を使用することができる。

画素の位置Ｙ（物体の高さ）は、周波数に関してどのように聞こえるかを定義し、バンドパスフィルタ（又は生成された正弦波周波数、又は特定の周波数範囲を有する予め計算されたサンプル、装置の算出電力に応じた代替物）が使用されるため、高いエリアの画素は高いピッチで、低いエリアの画素は低いピッチで鳴る。各画素がカバーする音声スペクトルは、それが有する画素数Ｙによって定義される。

実施例：この実施例は、奥行き画像からどのように音声が生成されるかを明確にするために提供される。走査モードが選択されており、図３に示すような３つのグレーレベルのみが近似として区別される奥行き画像が得られたと仮定する。したがって、中央の列には、１０個の黒画素、１２個の白画素、２個の黒画素、８個の灰色画素、及び１５個の黒画素が（下から上へ）存在する。カラースケールが設定され、０ｄＢが白に割り当てられ、−３０ｄＢがグレーに割り当てられ、−∞ｄＢが黒に割り当てられていると仮定する。

その瞬間の信号の強さは、すべての信号のアナログミックスである。

ユーザは、高さにおける画素の位置に基づく異なる周波数に気付くであろう。低い高さにある画素は低いピッチになり、高い高さにある画素は高いピッチになる。この列によって生成される音声は、高い音声強度を有する低いピッチの成分（エリアＢ）と、高いピッチの周波数で中間の音声強度を有する成分（エリアＣ）とに分けることができる。この信号は、２つの左右のチャンネルに対して生成される（それぞれヘッドホン（４ｉ、４ｄ）で再生される）。

ユーザが頭部を回転させることによってカメラの位置を変更すると、奥行き画像、したがって関連する音声信号が変わる。

図４は、走査モダリティで実行されるいくつかの重要な工程を伴うフローチャートを示す。カメラ（３ｉ、３ｄ）を使用する第１の画像取込工程（Ｐ１）と、奥行きマップを生成するための処理工程（Ｐ２）と、周波数及び音声強度を奥行きマップの中央列にある各画素又は画素のグループに関連付ける割り当て工程（Ｐ３）と、中心列に対応する結果として得られる音声信号を生成するための生成工程（Ｐ４）とを示す。

図５は、眼鏡１に実装された本発明の実施形態を例示する。しかし、これはサポートとして役立つ別のタイプの製品に実装することができる。例えば、帽子、ヘッドバンド、首部支持体、胸部支持体、肩部支持体、又は手持ち式装置に実装することができる。眼鏡の利点は、着用が快適であり、一方でヘッドホン（４ｉ、４ｄ）を所望の位置に配置することを可能にし、他方で関心領域に対してカメラ（３ｉ、３ｄ）の焦点を正確に当てることを可能にすることである。処理ユニット（２）は、ユーザがポケット内又はベルト上で携帯するように設計されている。眼鏡（１）と一体化する目的で、今後の小型化が期待される。眼鏡（１）と処理ユニット（２）は分離しているため、ケーブル（６）がカメラ（３ｉ、３ｄ）によって取り込まれた情報を処理ユニット（２）に運ぶ。さらに、この情報が処理されると、処理ユニット（２）は対応するオーディオ信号をヘッドホン（４ｉ、４ｄ）に伝達する。

音声が有する情報及び詳細の量は、今まで知られていなかった精度で形状及び空間の識別を可能にする。盲人において実施された試験では、短い訓練期間の後、関連付けられた音声によって本発明が特定の形状の認識を可能にすることが確認されている。例えば、テーブル上のボトル、眼鏡及びプレートは、それらを互いに区別することができる特徴的な音を有する。

好ましくは、外耳道を空けたままにしておくことを可能にする蝸牛のヘッドホンを使用して音を伝達する。これにより、ユーザの快適性が向上し、聴力疲労が大幅に軽減され、長時間の使用においてより衛生的である。

処理ユニット（２）に関連付けられたインターフェースは、一実施形態では、範囲選択ボタンを有し、例えば、それぞれ４０ｃｍ、２ｍ及び６ｍの距離で近距離、正常距離及び遠距離の分析距離を決定するか、又はその効果に適したインターフェースを介してユーザによって定義される。ボタンを押すと、距離が周期的に選択される。範囲の選択は通常、例えばテーブル上の物体を見つけるためには４０ｃｍ、家の周りを歩くためには２ｍ、通りを横断するためには６ｍなど、様々な風景や状況に合わせて範囲を調整するのに役立つ。

本発明の別の好ましい実施形態では、システムは、処理ユニット（２）に接続された無線データ伝達手段（例えば、Ｗｉ−Ｆｉ、ブルートゥース（登録商標）又は他の同様の技術による）を備え、伝達手段は、無線接続及び／又は着用可能なタイプの装置で外部装置に接続される。

一実施形態では、処理ユニット（２）に関連付けられたインターフェースが分析モードボタンを有することが想定される。モードの選択は周期的に行われる。

走査モード：画像の中央エリアでのみ分析を行う。ユーザは、頭部を左から右に周期的に回転させ、杖を用いて行う方法と同様に場面を走査する。音声はモノラルである。

完全なランドスケープモード：分析は画像全体に対して実行される。音声はステレオである。したがって、ユーザは、視野全体で同時に形状と空間を知覚することができる。例えば、列は左（左ステレオパノラマ）に知覚され、低いテーブルは中央（中央ステレオパノラマ）及び右（右ステレオパノラマ）に知覚され、通路は空いている。この探査モードは、走査モードよりも多くの情報を提供するため、音声の面でより複雑である。多少の訓練が必要だが、使いこなすのは容易である。

Claims

盲人又は視覚障害者が周囲環境を音声又は触覚によって解釈することを可能にするポータブルシステムであって、
互いに分離し、環境の画像を同時に取り込むように構成された２つのカメラ（３ｉ、３ｄ）と、
音声出力信号及び／又はタッチ出力信号を生成するための生成手段（４ｉ、４ｄ）と
を備え、
前記カメラ（３ｉ、３ｄ）と、音声信号及び／又はタッチ信号を生成するための前記生成手段（４ｉ、４ｄ）とに接続され、リアルタイムで取り込まれた前記画像を組み合わせ、かつ前記組み合わされた画像の要素の奥行きに関する情報を有する少なくとも１つの垂直帯域に関する情報を処理するように構成された処理手段（２）であって、前記処理手段（２）はまた、前記垂直帯域を１又は複数の領域に分割し、前記領域の奥行き及び前記領域の高さに応じて各領域の前記音声信号又は前記タッチ信号を定義し、前記垂直帯域の前記各領域における前記音声信号又は前記タッチ信号に基づいて前記音声出力信号又は前記タッチ出力信号を定義するように構成されている、処理手段（２）を備えることを特徴とする、ポータブルシステム。
前記垂直帯域は、前記組み合わされた画像の中央帯域である、請求項１に記載のシステム。
処理手段（２）は、中央垂直帯域の各側で前記組み合わされた画像の複数の側部垂直帯域を処理するように構成され、左側信号及び右側信号が、各々の左側帯域の領域及び各々の各右側帯域の領域からそれぞれ定義されることを特徴とする、請求項２に記載のシステム。
前記処理手段（２）は、前記カメラ（３ｉ、３ｄ）によって取得された完全な画像においてセグメンテーション領域が水平に処理されるように、前記複数の側部垂直帯域の同時分析を提供するのに適している、請求項３に記載のシステム。
前記処理手段（２）の動作モードをユーザが構成することができ、前記複数の側部垂直帯域の同時分析モードと、単一の垂直帯域の分析モードとをユーザが起動及び停止することができる、請求項４に記載のシステム。
前記生成手段（４ｉ、４ｄ）は、左側の音声信号又はタッチ信号と、右側の音声信号又はタッチ信号とを組み合わせてステレオで動作し、及び／又は前記生成された音声はモノラルであって、両方のモダリティをユーザが選択することができる、請求項１〜請求項５のいずれか一項に記載のシステム。
前記処理手段（２）は、前記領域の奥行きに応じて前記音声信号又は前記タッチ信号の強度を定義する、請求項１〜請求項６のいずれか一項に記載のシステム。
前記処理手段（２）は、前記垂直帯域内の前記領域の高さに応じて前記音声信号又は前記タッチ信号の周波数を定義する、請求項７に記載のシステム。
前記処理手段（２）は、環境の画像の奥行きマップにおけるグレースケールカラーコーディングに応じて、又は色勾配によって、領域の奥行きを決定するように構成されている、請求項８に記載のシステム。
ユーザによって携帯され、再生手段（４ｉ、４ｄ）と前記２つのカメラ（３ｉ、３ｄ）が位置するように構成された支持構造体（１）を備える、請求項１〜請求項９のいずれか一項に記載のシステム。
前記タッチ信号は、振動によって生成される信号である、請求項１〜請求項１０のいずれか一項に記載のシステム。
前記音声信号の周波数は、１００Ｈｚ〜１８０００Ｈｚの範囲内から選択される、請求項１〜請求項１１のいずれか一項に記載のシステム。
前記生成手段（４ｉ、４ｄ）は、骨伝導ヘッドホンを含む、請求項１〜請求項１２のいずれか一項に記載のシステム。
前記支持構造体（１）が少なくとも、
眼鏡、
ヘッドバンド、
首部支持体、
胸部支持体、
肩部支持体、
手部支持体
から選択される、請求項１〜請求項１３のいずれか一項に記載のシステム。
前記処理手段（２）に接続された無線データ伝達手段を備え、前記伝達手段は、無線接続を有する外部装置及び／又は着用可能なタイプの装置に接続されている、請求項１〜請求項１４のいずれか一項に記載のシステム。