JP2018524135A - 盲人又は視覚障害者が音声や触覚によって周囲環境を解釈することを可能にするポータブルシステム - Google Patents

盲人又は視覚障害者が音声や触覚によって周囲環境を解釈することを可能にするポータブルシステム Download PDF

Info

Publication number
JP2018524135A
JP2018524135A JP2018516636A JP2018516636A JP2018524135A JP 2018524135 A JP2018524135 A JP 2018524135A JP 2018516636 A JP2018516636 A JP 2018516636A JP 2018516636 A JP2018516636 A JP 2018516636A JP 2018524135 A JP2018524135 A JP 2018524135A
Authority
JP
Japan
Prior art keywords
signal
touch
audio
processing means
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018516636A
Other languages
English (en)
Other versions
JP6771548B2 (ja
Inventor
エルバス、 アントニオ ケサダ
エルバス、 アントニオ ケサダ
Original Assignee
アイシンス、 エス.エル.
アイシンス、 エス.エル.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アイシンス、 エス.エル., アイシンス、 エス.エル. filed Critical アイシンス、 エス.エル.
Publication of JP2018524135A publication Critical patent/JP2018524135A/ja
Application granted granted Critical
Publication of JP6771548B2 publication Critical patent/JP6771548B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61FFILTERS IMPLANTABLE INTO BLOOD VESSELS; PROSTHESES; DEVICES PROVIDING PATENCY TO, OR PREVENTING COLLAPSING OF, TUBULAR STRUCTURES OF THE BODY, e.g. STENTS; ORTHOPAEDIC, NURSING OR CONTRACEPTIVE DEVICES; FOMENTATION; TREATMENT OR PROTECTION OF EYES OR EARS; BANDAGES, DRESSINGS OR ABSORBENT PADS; FIRST-AID KITS
    • A61F9/00Methods or devices for treatment of the eyes; Devices for putting-in contact lenses; Devices to correct squinting; Apparatus to guide the blind; Protective devices for the eyes, carried on the body or in the hand
    • A61F9/08Devices or methods enabling eye-patients to replace direct visual perception by another kind of perception
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H3/00Appliances for aiding patients or disabled persons to walk about
    • A61H3/06Walking aids for blind persons
    • A61H3/061Walking aids for blind persons with electronic detecting or guiding means
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques
    • G01B11/22Measuring arrangements characterised by the use of optical techniques for measuring depth
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/02Alarms for ensuring the safety of persons
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B3/00Audible signalling systems; Audible personal calling systems
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B6/00Tactile signalling systems, e.g. personal calling systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H3/00Appliances for aiding patients or disabled persons to walk about
    • A61H3/06Walking aids for blind persons
    • A61H3/061Walking aids for blind persons with electronic detecting or guiding means
    • A61H2003/063Walking aids for blind persons with electronic detecting or guiding means with tactile perception
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Veterinary Medicine (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Ophthalmology & Optometry (AREA)
  • Vascular Medicine (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Emergency Management (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Epidemiology (AREA)
  • Rehabilitation Therapy (AREA)
  • Physical Education & Sports Medicine (AREA)
  • Pain & Pain Management (AREA)
  • Business, Economics & Management (AREA)
  • Image Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)
  • Traffic Control Systems (AREA)
  • Rehabilitation Tools (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)
  • Studio Devices (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Stereophonic System (AREA)

Abstract

本発明は、盲人又は視覚障害者が周囲環境を音声又は触覚によって解釈することを可能にするポータブルシステムに関し、システムは、互いに分離し環境の画像を同時に取り込むように構成された2つのカメラ(3i、3d)と、音声出力信号及び/又はタッチ出力信号を生成する手段(4i、4d)とを備える。有利には、システムはまた、カメラ(3i、3d)と音声信号及び/又はタッチ信号を生成する手段(4i、4d)とに接続された処理手段(2)を備える。処理手段は、リアルタイムで取り込まれた画像を組み合わせ、少なくとも1つの垂直帯域に関連する情報を組み合わされた画像内の要素の奥行きに関する情報と共に処理するように構成され、処理手段(2)はまた、垂直帯域を1又は複数の領域に分割し、領域の奥行き及び領域の高さに応じて各領域の音声信号又はタッチ信号を定義し、垂直帯域の各領域の音声信号又はタッチ信号に基づいて音声出力信号又はタッチ出力信号を定義するように構成されている。

Description

本発明は、何らかの制限又は障害を持つ人のための支援装置に関する。特に、本発明は、主に盲人又は視覚障害者のための援助システムに関する。
視覚障害のあるユーザは、通常、歩行や周囲環境を認識するために、杖や盲導犬などの基本的な援助に依存している。より高い技術レベルを使用するシステムは開発されているが、侵襲的で扱いが難しいことが多い。また、それらは通常、使用するには高価すぎて排他的なものでしかない。
今日のシステムでは、通常、例えばレーザを使用してある点で距離を測定し、行く手に物体があれば音響通知を提供する。このようなシステムは、場面の容量分析を提供せず、その応答は位置、大きさ又は幾何学的形状(曲線、端部、水平線に対する位置)の変化に関連するニュアンスも有していない。さらに、多くの点で距離を測定することによる場面の分析は、高いコンピューティング能力を必要とし、このことは一般に、リアルタイムで及び/又はポータブルの装置で使用することを不可能にする。
この文脈において、環境の画像を分析するための装置も従来技術で知られており、装置は画像を解釈し、またユーザのために音声としてマッピングするように構成されているため、画像を形成する物体の距離について音声ベースの表現が得られ、その結果、行く手で障害物になる可能性があるものの位置を確定しユーザに通知するのに役立つ3次元投影が統合される。しかし、実際には遅い応答速度に変換される計算要件と、不正確さ及びユーザにとって不適切な使用経験を引き起こす計算上の欠陥に関して、この装置もまた効果的ではない。画像からの完全なマッピングに基づくこの種の装置の例は、特許文献ES2133078A1及びUS2009/122161A1である。
これらの装置の代替として、特許文献ES2517765A1は、音声バンクを設けて、得られた画像の各点を音声バンクからの少なくとも1つの音声と関連付けるように構成され、符号化した音声のマップを作成し、取り込まれた3次元空間内に平面を表現する装置を提案する。上述した装置は、マップ内に定義された各点からの音声を順次再生するためにも適しており、例えば水平度が乏しいためユーザまでの距離について不完全な計算が生じる可能性がある眼鏡に基づく実施形態において、ユーザによる装置の配置不良に由来するエラーを補正しやすくする目的で、音声は水平線で表される空間に関連付けられている。
前述の代替方法は、当技術分野の初期の装置によって引き起こされた欠点のいくつかを修正することを可能にするが、必要な計算資源に由来する重要な制限を依然として有する。なぜなら、画像から得られる水平の音声パターンを表すように構成されているが、その奥行きの処理は前述のシステムと同様の方法で画像を一体的に分析することによって行われるためである。したがって、既知の装置はすべて重要な計算資源を必要とし、その出力及び能力が大きく制限される。さらに、これらの装置は一般に、奥行きの計算精度の問題を完全に解決することなく装置をより複雑にする、傾斜計/重力計の使用を必要とする。
したがって、(容易に理解可能なオーディオ又はタッチ信号によって)環境の理解可能な説明を提供することができ、同時に計算及び計算資源の消費量がより少ないことを示す、視覚障害を有する人を助ける効果的なシステムが必要である。
本発明は、主に、視覚に障害のある人に適用可能である。しかし、視覚が使用できない、又は代替となるガイダンスシステムが必要とされる別のタイプのシナリオ及び状況に適用可能であり得る。
人への支援は、信号、好ましくは音声信号又はタッチ信号(例えば、触覚によって伝達される振動)を介して伝達される周囲に存在する物体及び障害物を解釈することによる環境の説明でより容易になる。信号はステレオ画像処理に基づいて生成され、遠くの領域に対応して最も強い色強度を有するエリアの表現を取得し、一方、色強度の弱い他のエリアは近くの領域に関連付けられる。
したがって、本発明の1つの目的は、盲人が周囲環境を音声又は触覚によって解釈することを可能にするポータブルシステムに関し、環境の画像を同時に取り込むために互いに分離した2つのカメラと、
両方の画像をリアルタイムで組み合わせ、組み合わされた画像内の要素の奥行きに関する情報を有する少なくとも1つの垂直帯域を確立する処理手段であって、また垂直帯域を複数の領域に分割し、画像内の奥行き及び高さに応じて各領域の音声信号又はタッチ信号を定義し、垂直帯域の各領域内の音声信号又はタッチ信号に応じて音声出力信号又はタッチ出力信号を定義する処理手段と、
音声出力信号又はタッチ出力信号を再生するための再生手段と
を備える。
本発明の好ましい実施形態では、垂直帯域は組み合わされた画像の中央部分にあり、ユーザは動く際に環境を走査する。本発明のこの動作モードを以下、「走査モード」と呼ぶ。
カメラによって得られた画像のただ1つの垂直帯域の処理は、一方で奥行きの分析をユーザに最適な関心領域に制限し(関心領域が焦点の中心点に対応するため)、関心が低い情報をもたらす周辺領域を避けることを可能にする。この最適化により、取得する情報に悪影響を与えることなく、システムの計算要件を大幅に低減することができる。これは、水平線がユーザによる障害物の位置付けに最も関連しているため、垂直線が奥行きに関する情報を水平線に凝縮するという事実による。そのため、周辺側方視野に対応する情報は、動きの間にユーザが頭部を側方に自然に動かすことによって生成され、カメラによって取得された完全な画像を連続的に処理する必要なしに、分析の垂直線をシフトさせ残りの情報を取得することを可能にする。水平方向の数度の頭部の動きは、(垂直線の分析によってカバーされる)すべての水平線の奥行きについて、ユーザの正面領域を自然にカバーすることを可能にする。この技術的最適化によって、従来技術の代替案と比較して約90%の計算要件の節約が推定される。さらに、カメラによって取り込まれた画像全体に対して垂直線を処理することにより、ユーザに近接して存在するがユーザの通路を直接的に妨げない近くの周辺物体による音声の混入を防止することができる。この意味で、このシステムの使用は、盲人用の杖を用いた動作走査又はプロービングモードと多くの類似点を共有し、扱い方を迅速に学ぶことができる。
本発明の別の好ましい実施形態では、中央垂直帯域の各側部の組み合わされた画像に複数の側部垂直帯域を確立し、左側又は右側の音声信号又はタッチ信号を各々の左側帯域の領域及び各々の右側帯域の領域からそれぞれ定義し、ユーザは動くことなく環境を走査することができる。本発明のこの動作モードを以下、「完全なランドスケープモード」と呼ぶ。完全なランドスケープモードにおいて、処理手段は、カメラによって取得された完全な画像のセグメンテーション領域が水平に処理されるように、複数の側部垂直帯域の同時分析を提供するのに適している。走査モードと比較して、完全なランドスケープモードはより高度な計算要件を含むが、システムのユーザの周辺側方領域に関してより多くの情報を提供する。しかし、複数の垂直線に対する処理空間の縮小は、走査モードの場合と同様に、従来技術における既知の解決法と比較して、処理時間及び資源消費のかなりの改善を必要とする。
本発明の別の好ましい実施形態では、処理手段の動作モードをユーザが起動及び停止することができ、複数の側部垂直帯域の同時分析と単一の垂直帯域の分析とを交互に行うことができる。その結果、ユーザの位置に応じて、ユーザは、ほとんどの日常使用状況において効果的である走査動作モード(すなわち、中央垂直線の奥行きを処理することによる)を使用することができ、周辺側部領域に関する付加的な情報を提供する必要がある場合には(複数の垂直帯域による)完全なランドスケープモードを使用することができる。
本発明の好ましい実施形態では、再生手段は、左側の音声信号又はタッチ信号と右側の音声信号又はタッチ信号とを組み合わせて、ステレオで再生する。
本発明の好ましい実施形態では、処理手段は、垂直帯域内の領域の高さに応じて、音声信号の音声強度又はタッチ信号のタッチ強度を定義する。
本発明の好ましい実施形態では、処理手段は、領域の奥行きに応じて、音声信号又はタッチ信号の周波数を定義する。
本発明の好ましい実施形態では、領域の奥行きは、環境の画像の奥行きマップ上のグレーレベルに従って決定される。
本発明の好ましい実施形態では、領域は少なくとも1つの画素を含む。
本発明の好ましい実施形態では、システムは、再生手段と2つのカメラとを配置することができるユーザによって携帯される支持構造体を備える。
タッチ信号に基づく本発明の好ましい実施形態では、信号の生成は、電気活性ポリマー(EAP)に基づくか、又は形状が電圧に応答して変化するエラストマー製の膜に基づく。あるいは、信号は、小さな振動発生モータによって機械的に生成することができる。
音声信号に基づく本発明の好ましい実施形態では、音声信号の周波数は、100Hz〜18000Hzの範囲内から選択される。
本発明の好ましい実施形態では、再生手段は蝸牛ヘッドホンである。有利には、耳は空いたままであり、信号は骨を通して受信される。これは、ユーザが生成された音声信号を妨害することなく同時に話すことができることを意味し、逆もまた同様である。
本発明の好ましい実施形態では、支持構造体は、少なくとも眼鏡、ヘッドバンド、首部支持体、胸部支持体、肩部支持体、又は手持ち式装置から選択される。
本発明の好ましい実施形態では、生成された音声信号は非言語であり、長時間の使用の後に煩わしく迷惑になり得る連続的な音声メッセージをユーザに与え続けないようにする。さらに、非言語メッセージは、より容易に認識され、他のタスクを実行すると同時に再生することができる。したがって、本発明は、言語に起因する言語的障壁を発生させることなく使用することができる。
図1は、本発明の一実施形態の簡略化されたブロック図を示す。 図2は、本発明によって分析されたトーラスの画素化された画像を示す。 図3は、図2のトーラスの画素化され処理された画像を示す。 図4は、本発明のシステムに伴う方法の簡略化されたフローチャートを示す。 図5は、眼鏡に基づく本発明の実施形態を示す。
より明確にするために、本発明の実施形態を図面に関連し、音声信号又はタッチ信号に焦点を当てて非限定的に説明する。
図1は、本発明のシステムの主要な要素を有するブロック図を示す。この図は、一対のステレオカメラ(3i、3d)によって画像がどのように取得されるかを示している。カメラは、好ましくは、ユーザの顔の両側かつ目の高さに配置され、頭の動きで関心領域に焦点を当てることを容易にする。カメラ(3i、3d)は、好ましくは平行に整列する。
カメラ(3i、3d)の実際の回路は、取り込まれた画像に対して前処理を行って、画像の安定した流れを提供し、幾何学的又は色彩的アーチファクト及び収差を防止する。センサの回路は、時間的に同期した一対の画像を提供する。
その結果、このビデオストリームは、処理ユニット(2)に伝達される。処理ユニット(2)は、画像をオーディオ/振動に変換するためのアルゴリズムを実装している特定のハードウェア設計であることが好ましい。ケーブル(6)は、カメラ(3i、3d)と処理ユニット(2)とを通信するように想定されている。しかし、他のより複雑な実施形態では、無線伝送が考えられる。
処理ユニット(2)は、立体画像をグレースケールの奥行きマップに変換する。視差マップ(縮尺に関する情報なし)は、事前に生成される。
奥行きマップはグレースケール画像であると解釈され、プロセスブラックと呼ばれる色は(使用されるスケールに応じて)最大の遠隔度を意味し、ピュアホワイトは(使用されるスケールに応じて)最大の近さを意味する。残りのグレーは中間距離を特定する。しかし、本発明の他の実施形態では、コントラストを逆転させ、より暗い色を最も近い距離に対応させるか、又はサーモグラフィック表現に類似した予め確立されたカラースケールを使用することが可能である。
視差マップは、数学的処理を受ける一対のステレオ画像の重ね合わせから得られる結果の画像であると理解される。両眼視差マップは、1つの画像において、2つのステレオ画像間の画素レベルの差を表現する。数学的視差アルゴリズムを適用することにより、カメラとカメラキャリブレーションファイルとの間の距離を知ることによって、ピクセル間の差を実際の距離に適合させることができる。撮影された画像の各部分(ピクセルサイズ)からのカメラの距離は、このプロセスの結果として知られている。この距離を表すためにグレースケールが使用される。
これは次いで奥行きマップに変換される。グレースケールの距離/レベルが適用される数学的プロセスの後、奥行きマップが得られる。
生成された奥行きマップに基づいて、その目的のために開発された変換アルゴリズムが適用され、高度な最適化アルゴリズムであるため、より少ない計算資源しか必要とせず、既知のシステムよりも効率的な方法で、奥行きに関する特殊なデータをオーディオに変換することを可能にする。
その結果、最初の一対のステレオ画像で非言語ステレオ音声信号が得られ、この非言語ステレオ音声信号が、蝸牛ヘッドホン又は骨伝導(4i、4d)を介してユーザに伝達される。これにより、ユーザにとって直観的な方法で視覚情報を聴覚情報に確実に変換する視聴覚言語が定義される。
図2は、トーラスの低解像度奥行きマップの例を示す。奥行きマップの各ピクセルは、カメラによって取り込まれたピクセル位置に対応する、関連する座標(X、Y)を有する。さらに、各画素は、奥行き、すなわち画素に関連する領域が位置する距離に関する情報を提供する、関連するグレーレベル(G)を有する。
図3は、中央垂直帯域又は列をそのグレーレベルに従って3つのエリアに分割することを簡略化して示す。エリア「A」は黒、エリア「B」は白、エリア「C」は灰色である。したがって、3つの異なる強度値が各エリア(エリア「A」は無音、エリア「B」は最大音量及びエリア「C」は中間音量)に関連付けられる。より多くのグレーレベルの範囲、したがって関連する音声強度が通常定義されることを理解しなければならない。音声信号は、各エリアの画素に対応する個々の信号を組み合わせることによって形成される。
奥行きマップからの情報を使用して、その時の環境に関する情報を有するマトリックス又はテーブルが構築される。この情報は、次の考慮事項に従ってオーディオに変換する必要がある。
−ステレオフレームの各ペアで視差マッピングが実行される。画像の画素の違いを考慮し、カメラからのデータ(FOV、眼間距離、特定のキャリブレーション)を使用して、三角測量が確立できるため、画素を現実世界の距離に関連付けることができる。この情報により、画像が処理されて奥行きマップが提供される。奥行きマップは、体積及び実際の距離を表す物体のアウトラインとグレースケール画像である。したがって、これは場面に関連する空間情報を含む単一の合成画像を提供する。
−図3に関する走査動作モードの例画像を分析するには、頭部をいいえと振るように頭部を左から右に動かす必要がある。その結果、中心カーソル(赤色)はトーラスを完全に走査する。生成された音声は(常に視野の線の中心になるため)ステレオパノラマの中央で聞こえる。この走査で、物体の水平サイズが固定され(首部の動きが基準となる)、垂直サイズは周波数範囲によって提供される。
−分析のために図2を使用する完全なランドスケープモードこの場合、ユーザは、ユーザの前にあるものを解釈するために首部を動かす必要はない。トーラスの右部分はステレオパノラマの右側に鳴る。中央部分と左部分も同じように鳴る。ステレオパノラマのアパーチャレベルは、トーラスの水平サイズを示す。垂直方向のサイズは、走査モードのように周波数範囲で表される。
−画像とステレオ音声との対応は次の通りである。ランドスケープの画像に基づいて、音声信号は分析するエリアに対応する。左のステレオパノラマで画像の左エリアが鳴る。右のステレオパノラマで右エリアが鳴る。したがって、中央エリアは、ステレオパノラマの中央で鳴る(すなわち、50%左+50%右)。
−周波数が高さ係数を指定する周波数範囲は、100Hz〜18000Hzの値を有し、等しい断片に分割されている。その範囲は、一般的な人が何の問題もなく十分にカバーできる細かさ及び狭さで音声を示すのに十分に広いという理由で選択されている(人間の音域は20Hz〜20000Hz)。ベース周波数(100Hz)は、ディスプレイ上の画素の最初の最下行に関連付けられる。最高周波数(18000Hz)は、画素の一番上の行に関連付けられる。残りの周波数断片はそれらの間に割り当てられる。画像の高さが128画素の場合、各行が断片に対応する。解像度が変更される場合、断片は高さに比例して割り当てられる。この方法は、低い計算能力を有するシステムに役立つ。音声合成がリアルタイムで生成されるローパワーがある場合、周波数範囲は高さの画素数で分割され、各周波数セグメントは補間又は平均化なしに各画素に割り当てられる。
−ユーザ(Z軸)に対する空間距離の係数は、アルゴリズムによって生成された音量係数に関連付けられ、黒画素は知覚可能な音量を有さず(すなわち、〜無限大)、白画素は最大音量を有する(0dB)。このスケールは柔軟性があり、異なる測定範囲(40cm、2m、6m)の使用に適応する。
−1画素当たりの音声の持続時間は、ディスプレイ上の「存在」に正比例する。画素が常に白である場合、音声は絶えず繰り返される。
−中央列の分析は、走査モードでのみ使用される。理論的には、1画素の幅を有する中央列を使用することができる。しかし、音声をトーンダウンしアーチファクトを防止する目的で、奥行きマップの解像度(計算能力に依存する)に応じて、3つ又はさらには5つの中心列の画素値が平均化される。
音量強度は、画素のグレースケール値(I)に関連付けられる。したがって、値0.0.0(RGBモデル)の画素は遠隔領域に対応し、関連する強度は無音である(l=0)。値255.255.255の画素は非常に近接した領域に対応し、信号の音量は最大である(l=0dB)。これにより、各画素は、オーディオの構成を行うために使用される「音声ユニット」として見ることができる。周波数音声は、好ましくは100Hz〜18000Hzの範囲である。
動作モードによれば、画素の位置Xは2通りの方法で解釈することができる。
−走査モード:中央列の画素に対応する信号のみが鳴る。ユーザが頭部をいいえと振るように動かすと場面が走査される。これは杖による走査と同様である。
−完全なランドスケープモード:場面に関連付けられた複数の画素の列が同時に鳴る。このモードでは走査は必要ない。画像は全体として表現される(又は「鳴る」)。例えば、画素が右に行くほど、ステレオパノラマの右で大きく鳴る。中央領域及び左領域についても同様である。
完全なランドスケープモードは高い計算能力を必要とするため、処理ユニット(2)の性能に応じて、画像内のすべての列ではなく、中央、45°、−45°、80°、−80°の5列を使用して最適化することができる。処理能力に応じて、より多くの列を使用することができる。
画素の位置Y(物体の高さ)は、周波数に関してどのように聞こえるかを定義し、バンドパスフィルタ(又は生成された正弦波周波数、又は特定の周波数範囲を有する予め計算されたサンプル、装置の算出電力に応じた代替物)が使用されるため、高いエリアの画素は高いピッチで、低いエリアの画素は低いピッチで鳴る。各画素がカバーする音声スペクトルは、それが有する画素数Yによって定義される。
実施例:この実施例は、奥行き画像からどのように音声が生成されるかを明確にするために提供される。走査モードが選択されており、図3に示すような3つのグレーレベルのみが近似として区別される奥行き画像が得られたと仮定する。したがって、中央の列には、10個の黒画素、12個の白画素、2個の黒画素、8個の灰色画素、及び15個の黒画素が(下から上へ)存在する。カラースケールが設定され、0dBが白に割り当てられ、−30dBがグレーに割り当てられ、−∞dBが黒に割り当てられていると仮定する。
その瞬間の信号の強さは、すべての信号のアナログミックスである。
ユーザは、高さにおける画素の位置に基づく異なる周波数に気付くであろう。低い高さにある画素は低いピッチになり、高い高さにある画素は高いピッチになる。この列によって生成される音声は、高い音声強度を有する低いピッチの成分(エリアB)と、高いピッチの周波数で中間の音声強度を有する成分(エリアC)とに分けることができる。この信号は、2つの左右のチャンネルに対して生成される(それぞれヘッドホン(4i、4d)で再生される)。
ユーザが頭部を回転させることによってカメラの位置を変更すると、奥行き画像、したがって関連する音声信号が変わる。
図4は、走査モダリティで実行されるいくつかの重要な工程を伴うフローチャートを示す。カメラ(3i、3d)を使用する第1の画像取込工程(P1)と、奥行きマップを生成するための処理工程(P2)と、周波数及び音声強度を奥行きマップの中央列にある各画素又は画素のグループに関連付ける割り当て工程(P3)と、中心列に対応する結果として得られる音声信号を生成するための生成工程(P4)とを示す。
図5は、眼鏡1に実装された本発明の実施形態を例示する。しかし、これはサポートとして役立つ別のタイプの製品に実装することができる。例えば、帽子、ヘッドバンド、首部支持体、胸部支持体、肩部支持体、又は手持ち式装置に実装することができる。眼鏡の利点は、着用が快適であり、一方でヘッドホン(4i、4d)を所望の位置に配置することを可能にし、他方で関心領域に対してカメラ(3i、3d)の焦点を正確に当てることを可能にすることである。処理ユニット(2)は、ユーザがポケット内又はベルト上で携帯するように設計されている。眼鏡(1)と一体化する目的で、今後の小型化が期待される。眼鏡(1)と処理ユニット(2)は分離しているため、ケーブル(6)がカメラ(3i、3d)によって取り込まれた情報を処理ユニット(2)に運ぶ。さらに、この情報が処理されると、処理ユニット(2)は対応するオーディオ信号をヘッドホン(4i、4d)に伝達する。
音声が有する情報及び詳細の量は、今まで知られていなかった精度で形状及び空間の識別を可能にする。盲人において実施された試験では、短い訓練期間の後、関連付けられた音声によって本発明が特定の形状の認識を可能にすることが確認されている。例えば、テーブル上のボトル、眼鏡及びプレートは、それらを互いに区別することができる特徴的な音を有する。
好ましくは、外耳道を空けたままにしておくことを可能にする蝸牛のヘッドホンを使用して音を伝達する。これにより、ユーザの快適性が向上し、聴力疲労が大幅に軽減され、長時間の使用においてより衛生的である。
処理ユニット(2)に関連付けられたインターフェースは、一実施形態では、範囲選択ボタンを有し、例えば、それぞれ40cm、2m及び6mの距離で近距離、正常距離及び遠距離の分析距離を決定するか、又はその効果に適したインターフェースを介してユーザによって定義される。ボタンを押すと、距離が周期的に選択される。範囲の選択は通常、例えばテーブル上の物体を見つけるためには40cm、家の周りを歩くためには2m、通りを横断するためには6mなど、様々な風景や状況に合わせて範囲を調整するのに役立つ。
本発明の別の好ましい実施形態では、システムは、処理ユニット(2)に接続された無線データ伝達手段(例えば、Wi−Fi、ブルートゥース(登録商標)又は他の同様の技術による)を備え、伝達手段は、無線接続及び/又は着用可能なタイプの装置で外部装置に接続される。
一実施形態では、処理ユニット(2)に関連付けられたインターフェースが分析モードボタンを有することが想定される。モードの選択は周期的に行われる。
走査モード:画像の中央エリアでのみ分析を行う。ユーザは、頭部を左から右に周期的に回転させ、杖を用いて行う方法と同様に場面を走査する。音声はモノラルである。
完全なランドスケープモード:分析は画像全体に対して実行される。音声はステレオである。したがって、ユーザは、視野全体で同時に形状と空間を知覚することができる。例えば、列は左(左ステレオパノラマ)に知覚され、低いテーブルは中央(中央ステレオパノラマ)及び右(右ステレオパノラマ)に知覚され、通路は空いている。この探査モードは、走査モードよりも多くの情報を提供するため、音声の面でより複雑である。多少の訓練が必要だが、使いこなすのは容易である。

Claims (15)

  1. 盲人又は視覚障害者が周囲環境を音声又は触覚によって解釈することを可能にするポータブルシステムであって、
    互いに分離し、環境の画像を同時に取り込むように構成された2つのカメラ(3i、3d)と、
    音声出力信号及び/又はタッチ出力信号を生成するための生成手段(4i、4d)と
    を備え、
    前記カメラ(3i、3d)と、音声信号及び/又はタッチ信号を生成するための前記生成手段(4i、4d)とに接続され、リアルタイムで取り込まれた前記画像を組み合わせ、かつ前記組み合わされた画像の要素の奥行きに関する情報を有する少なくとも1つの垂直帯域に関する情報を処理するように構成された処理手段(2)であって、前記処理手段(2)はまた、前記垂直帯域を1又は複数の領域に分割し、前記領域の奥行き及び前記領域の高さに応じて各領域の前記音声信号又は前記タッチ信号を定義し、前記垂直帯域の前記各領域における前記音声信号又は前記タッチ信号に基づいて前記音声出力信号又は前記タッチ出力信号を定義するように構成されている、処理手段(2)を備えることを特徴とする、ポータブルシステム。
  2. 前記垂直帯域は、前記組み合わされた画像の中央帯域である、請求項1に記載のシステム。
  3. 処理手段(2)は、中央垂直帯域の各側で前記組み合わされた画像の複数の側部垂直帯域を処理するように構成され、左側信号及び右側信号が、各々の左側帯域の領域及び各々の各右側帯域の領域からそれぞれ定義されることを特徴とする、請求項2に記載のシステム。
  4. 前記処理手段(2)は、前記カメラ(3i、3d)によって取得された完全な画像においてセグメンテーション領域が水平に処理されるように、前記複数の側部垂直帯域の同時分析を提供するのに適している、請求項3に記載のシステム。
  5. 前記処理手段(2)の動作モードをユーザが構成することができ、前記複数の側部垂直帯域の同時分析モードと、単一の垂直帯域の分析モードとをユーザが起動及び停止することができる、請求項4に記載のシステム。
  6. 前記生成手段(4i、4d)は、左側の音声信号又はタッチ信号と、右側の音声信号又はタッチ信号とを組み合わせてステレオで動作し、及び/又は前記生成された音声はモノラルであって、両方のモダリティをユーザが選択することができる、請求項1〜請求項5のいずれか一項に記載のシステム。
  7. 前記処理手段(2)は、前記領域の奥行きに応じて前記音声信号又は前記タッチ信号の強度を定義する、請求項1〜請求項6のいずれか一項に記載のシステム。
  8. 前記処理手段(2)は、前記垂直帯域内の前記領域の高さに応じて前記音声信号又は前記タッチ信号の周波数を定義する、請求項7に記載のシステム。
  9. 前記処理手段(2)は、環境の画像の奥行きマップにおけるグレースケールカラーコーディングに応じて、又は色勾配によって、領域の奥行きを決定するように構成されている、請求項8に記載のシステム。
  10. ユーザによって携帯され、再生手段(4i、4d)と前記2つのカメラ(3i、3d)が位置するように構成された支持構造体(1)を備える、請求項1〜請求項9のいずれか一項に記載のシステム。
  11. 前記タッチ信号は、振動によって生成される信号である、請求項1〜請求項10のいずれか一項に記載のシステム。
  12. 前記音声信号の周波数は、100Hz〜18000Hzの範囲内から選択される、請求項1〜請求項11のいずれか一項に記載のシステム。
  13. 前記生成手段(4i、4d)は、骨伝導ヘッドホンを含む、請求項1〜請求項12のいずれか一項に記載のシステム。
  14. 前記支持構造体(1)が少なくとも、
    眼鏡、
    ヘッドバンド、
    首部支持体、
    胸部支持体、
    肩部支持体、
    手部支持体
    から選択される、請求項1〜請求項13のいずれか一項に記載のシステム。
  15. 前記処理手段(2)に接続された無線データ伝達手段を備え、前記伝達手段は、無線接続を有する外部装置及び/又は着用可能なタイプの装置に接続されている、請求項1〜請求項14のいずれか一項に記載のシステム。
JP2018516636A 2015-06-12 2016-06-10 盲人又は視覚障害者が音声や触覚によって周囲環境を解釈することを可能にするポータブルシステム Active JP6771548B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
ESP201530825 2015-06-12
ES201530825A ES2597155B1 (es) 2015-06-12 2015-06-12 Sistema portátil de interpretación sonora o táctil del entorno para un invidente
PCT/ES2016/070441 WO2016198721A1 (es) 2015-06-12 2016-06-10 Sistema portátil de interpretación sonora o táctil del entorno para personas invidentes o con deficiencia visual

Publications (2)

Publication Number Publication Date
JP2018524135A true JP2018524135A (ja) 2018-08-30
JP6771548B2 JP6771548B2 (ja) 2020-10-21

Family

ID=57504615

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018516636A Active JP6771548B2 (ja) 2015-06-12 2016-06-10 盲人又は視覚障害者が音声や触覚によって周囲環境を解釈することを可能にするポータブルシステム

Country Status (18)

Country Link
US (1) US11185445B2 (ja)
EP (1) EP3308759B1 (ja)
JP (1) JP6771548B2 (ja)
KR (1) KR102615844B1 (ja)
CN (1) CN107708624B (ja)
AR (1) AR104959A1 (ja)
AU (1) AU2016275789B2 (ja)
BR (1) BR112017026545B1 (ja)
CA (1) CA2986652A1 (ja)
CO (1) CO2017012744A2 (ja)
DK (1) DK3308759T3 (ja)
ES (2) ES2597155B1 (ja)
HK (1) HK1248093A1 (ja)
IL (1) IL255624B (ja)
MX (1) MX2017015146A (ja)
PT (1) PT3308759T (ja)
RU (1) RU2719025C2 (ja)
WO (1) WO2016198721A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3551279B8 (en) * 2016-12-07 2023-10-11 Cortigent, Inc. Depth filter for visual prostheses
CN107320296A (zh) * 2017-06-23 2017-11-07 重庆锦上医疗器械有限公司 视觉信号的空间三维声音表达系统及方法
US10299982B2 (en) * 2017-07-21 2019-05-28 David M Frankel Systems and methods for blind and visually impaired person environment navigation assistance
CN108245385B (zh) * 2018-01-16 2019-10-29 曹醒龙 一种帮助视障人士出行的装置
JP7415139B2 (ja) * 2019-01-11 2024-01-17 ダイキン工業株式会社 環境条件記憶装置、環境条件記憶方法、操作装置、及び環境認識装置
US11521515B2 (en) * 2019-02-12 2022-12-06 Can-U-C Ltd. Stereophonic apparatus for blind and visually-impaired people
EP4061004A4 (en) 2020-04-30 2023-06-07 Shenzhen Shokz Co., Ltd. BONE CONDUCTION EARPHONES
CN111862932B (zh) * 2020-07-02 2022-07-19 北京科技大学 一种将图像转化为声音的可穿戴助盲系统及方法
KR20220008659A (ko) 2020-07-14 2022-01-21 김재현 시각 장애인 전용 목걸이
CN111862024A (zh) * 2020-07-14 2020-10-30 四川深瑞视科技有限公司 基于深度信息增强投影的工件检测系统及方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3172075A (en) * 1959-11-27 1965-03-02 Nat Res Dev Apparatus for furnishing information as to positioning of objects
DE2966661D1 (en) * 1978-08-14 1984-03-22 Leslie Kay Method of and apparatus for providing information as to the existence and/or position of objects
EP0410045A1 (en) 1989-07-27 1991-01-30 Koninklijke Philips Electronics N.V. Image audio transformation system, particularly as a visual aid for the blind
KR100586893B1 (ko) * 2004-06-28 2006-06-08 삼성전자주식회사 시변 잡음 환경에서의 화자 위치 추정 시스템 및 방법
US20070016425A1 (en) * 2005-07-12 2007-01-18 Koren Ward Device for providing perception of the physical environment
US20090122648A1 (en) * 2007-11-12 2009-05-14 Trustees Of Boston University Acoustic mobility aid for the visually impaired
PT104120B (pt) * 2008-06-30 2010-11-23 Metro Do Porto S A Sistema de orientação, navegação e informação especialmente adaptado para pessoas cegas ou amblíopes
US9370459B2 (en) * 2009-06-19 2016-06-21 Andrew Mahoney System and method for alerting visually impaired users of nearby objects
WO2013018090A1 (en) * 2011-08-01 2013-02-07 Abir Eliahu System and method for non-visual sensory enhancement

Also Published As

Publication number Publication date
HK1248093A1 (zh) 2018-10-12
ES2597155A1 (es) 2017-01-16
CN107708624A (zh) 2018-02-16
JP6771548B2 (ja) 2020-10-21
CA2986652A1 (en) 2016-12-15
RU2719025C2 (ru) 2020-04-16
AU2016275789B2 (en) 2021-03-11
CO2017012744A2 (es) 2018-02-20
IL255624A (en) 2018-01-31
ES2597155B1 (es) 2017-09-18
KR20180018587A (ko) 2018-02-21
WO2016198721A1 (es) 2016-12-15
MX2017015146A (es) 2018-03-28
EP3308759A4 (en) 2019-02-27
IL255624B (en) 2021-04-29
DK3308759T3 (da) 2020-03-02
AU2016275789A1 (en) 2018-01-25
RU2017144052A3 (ja) 2019-10-29
BR112017026545B1 (pt) 2022-07-12
US11185445B2 (en) 2021-11-30
EP3308759B1 (en) 2019-11-27
RU2017144052A (ru) 2019-07-12
PT3308759T (pt) 2020-04-01
BR112017026545A2 (pt) 2018-08-14
EP3308759A1 (en) 2018-04-18
AR104959A1 (es) 2017-08-30
KR102615844B1 (ko) 2023-12-21
US20180177640A1 (en) 2018-06-28
CN107708624B (zh) 2021-12-14
ES2780725T3 (es) 2020-08-26

Similar Documents

Publication Publication Date Title
JP6771548B2 (ja) 盲人又は視覚障害者が音声や触覚によって周囲環境を解釈することを可能にするポータブルシステム
JP5685177B2 (ja) 情報伝達システム
CN204744865U (zh) 基于听觉的为视觉障碍人士传达周围环境信息的装置
US10728683B2 (en) Sweet spot adaptation for virtualized audio
JP6017854B2 (ja) 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム
US20190116452A1 (en) Graphical user interface to adapt virtualizer sweet spot
JP2022534833A (ja) 個人化されたオーディオ拡張のためのオーディオプロファイル
KR20130098149A (ko) 형태 파라미터들에 따라 데이터베이스에서 지각적으로 최적인 hrtf 필터들을 선택하기 위한 방법
KR101540113B1 (ko) 실감 영상을 위한 영상 데이터를 생성하는 방법, 장치 및 이 방법을 실행하기 위한 컴퓨터 판독 가능한 기록 매체
WO2016131793A1 (en) Method of transforming visual data into acoustic signals and aid device for visually impaired or blind persons
Bălan et al. Assistive IT for Visually Imapired People
US20230103788A1 (en) Apparatus and method for sensory substitution and multi-path transmission of visual information
US11967335B2 (en) Foveated beamforming for augmented reality devices and wearables
CN217987951U (zh) 一种智能助盲仪
Matta et al. Auditory eyes: Representing visual information in sound and tactile cues
KR101987428B1 (ko) 양안 영상을 표시하기 위한 장치 및 그 방법
JP2011067479A (ja) 画像聴覚化装置
JP2024056580A (ja) 情報処理装置及びその制御方法及びプログラム
Peris Fajarnes et al. Design, modeling and analysis of object localization through acoustical signals for cognitive electronic travel aid for blind people
KR20130142911A (ko) 스테레오스코픽 3d 동영상 크기 변환 방법 및 장치
TW201412147A (zh) 多媒體處理系統及音訊信號調整方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171214

A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20171208

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190523

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200331

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200623

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200915

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200929

R150 Certificate of patent or registration of utility model

Ref document number: 6771548

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250