JP2017147504A

JP2017147504A - 音源表示装置及び音源表示方法

Info

Publication number: JP2017147504A
Application number: JP2016026119A
Authority: JP
Inventors: 吉田　実; Minoru Yoshida; 実吉田
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2016-02-15
Filing date: 2016-02-15
Publication date: 2017-08-24

Abstract

【課題】周囲の音を認識出来ない状況でも、周囲を見ることなくユーザに音源方向、接近度合、音源種別を、しかも必要なもののみを通知できるようにする。
【解決手段】音源表示装置１は、音を集音するための集音手段１０と、集音された音信号に基づき音源を抽出する音源抽出手段１１と、抽出された音源の種別を認識する音源種別認識手段（エンジン）１４と、音源種別認識結果を表示する表示手段１８と、を有する。表示手段１８は、予め登録した表示要又は表示不要情報にしたがって、音源種別認識結果を表示又は非表示にする。
【選択図】図１

Description

本発明は、音源表示装置及び音源表示方法に関する。

例えば、スマートフォンでは、移動しながら多くの情報を得ることが出来る。また、ウェアラブルな情報表示装置として、ＨＵＤ（Head-Up Display）やＨＭＤ（Head Mounted Display）などが製品化されており、得られた情報をウェアラブルな情報表示装置に表示することもできる。
このようなスマートフォン（スマホ）、ＨＭＤなどの情報表示装置において、音の到来方向の情報を色やサイズを変えて表示することが知られている。
ところで、このような「没入型」（非透過型）のＨＭＤやスマートフォンを歩きながら使用する「歩きスマホ」を行う場合、ユーザには外界の状況が見えず、またイヤホンを着用している場合は、周囲の音を認識することが出来ない。そのため、人や物への接触・自らが落下・転倒などの事故に遭遇したり、他人に対する迷惑行為となり社会問題になっている。

特許文献１（特開2013-183286号公報）には、音源の方向を通知する目的で、筺体の周囲に配置された複数のマイクロフォン（以下マイクと略称する）により取得した音源から到来する音の時間差から音源方向を検出して通知する携帯端末装置が記載されている。
この携帯端末装置では、周囲の音を認識出来なくても音の発生方向を通知することが出来る。しかし、この携帯端末装置では、音の接近判断に周波数分析が必要であり、かつ移動音の方向を検出して表示するが、その音が何かまではユーザは分からない。そのため、結局、ユーザは、音の到来方向を見て対象物の種類を判断する必要があり、上記従来の問題は解消されない。

また、特許文献２（特開2012-029209号公報）には、注目が必要な音源の位置変化に自動的に追従し、注目した音源に対し、選択的に必要な音声処理を継続することが目的で、ユーザの視線を監視して対象物を検出し、画像で対象物の移動を検出する音処理システムが記載されている。
この音処理システムでは、対象物はユーザの見ている方向と顔移動検出器により検出する。したがって上記従来の問題の解決にはならない。
また、いずれの特許文献にも、表示対象を音源の種別に応じて表示・非表示に選択することは開示されていない。

本発明は、上述の従来の問題に鑑みてなされたものであって、その目的は、周囲の音を認識出来ない状況でも、周囲を見ることなくユーザに音源方向、接近度合、音源種別を、しかも必要なもののみを表示できるようにすることである。

本発明は、音を集音する集音手段と、集音された音信号に基づき音源を抽出する音源抽出手段と、抽出された音源の種別を認識する音源種別認識手段と、音源種別認識結果を表示する表示手段と、を有し、前記表示手段は、予め登録した表示要又は表示不要情報にしたがって、前記音源種別認識結果を表示又は非表示にすることを特徴とする音源表示装置である。

本発明によれば、周囲の音を認識出来ない状況でも、周囲を見ることなくユーザに音源方向、接近度合、音源種別を、しかも必要なもののみを表示することができる。

本発明の実施形態に係る音源表示装置を模式的に示すブロック図である。複数のマイクの配置例（マイクアレイ）を示す図である。音源と音源表示装置を着用又は保持したユーザとの関係を示す図であり、図３Ａは、ある音信号区間に対して、音源方向のスキャン角度範囲内において予め決めた初期角度（指向性角度）θ＝0度からΔθおきにマイクアレイ処理を行い、音源の検知を行う状況を示す図である。図３Ｂは、検知した音源方向を示す図である。音源検知のための処理手順を示すフロー図である。表示手段における表示画面であって、認識結果の方向情報に無関係に、字を表示位置固定で表示した面であって、図５Ａは、音源が相対的に遠くの位置にある場合を、また図５Ｂは、音源が相対的に近くにある場合を示す。表示手段における表示画面であって、認識結果の方向情報に無関係に、図を表示位置固定で表示した図であって、図６Ａは、音源が相対的に遠くの位置にある場合を、また図６Ｂは、音源が相対的に近くにある場合を示す。表示手段における表示画面であって、認識結果の方向情報を画面上に加味して表示した図であって、図７Ａは、音源が相対的に遠くの位置にある場合を、また図７Ｂは、音源が相対的に近くにある場合を示す図である。

本発明は、周囲の音を認識出来ない状況でも、目視で直接対象音源を確認することなくユーザに表示することにより危険度を減らすことができ、以下の特徴を有する。
即ち、ユーザが周辺の音が聞こえない状況でも目視で直接対象音源を確認することなく、音源方向、接近度合、音源種別を、しかも必要なもののみを表示することができる。
次に、本発明の実施の形態を、図面を参照して説明する。

図１は、本発明の実施形態に係る音源表示装置を模式的に示すブロック図である。
本音源表示装置１は、複数のマイクロフォン（ここではマイクと略称する）１０ａなどの集音手段１０と、集音した音信号の方向検出を行う音源抽出手段１１と、方向検出した音から音源信号区間の切り出しを行う音源信号区間切出手段１２と、方向検出した音から音源２０の遠近を判断する遠近判断手段１３と、音源信号区間切出手段１２で切り出した音源区間から音源種別を認識する音源種別認識手段（エンジン）１４と、音源種別認識結果及び遠近判断結果に基づく報知処理や、音源抽出手段１１における抽出方向角の指示などを行うＣＰＵ（Central Processing Unit）１５と、ＣＰＵ１５と接続されるインターフェース（Ｉ／Ｆ）部１６と、記憶手段１７と、表示手段１８と、音声呈示手段１９とを有する。なお、Ｉ／Ｆ部１６は、例えば、ディスプレイや、キーボード、マウス等であり、表示手段は、任意であるがウェアラブルな表示手段を含む。
なお、図１中、音源抽出手段１１、音源信号区間切出手段１２、遠近判断手段１３、音源種別認識手段（エンジン）１４、音声呈示手段１９では、ＤＳＰ（Digital Signal Processor）などにより音声信号が処理される。ＣＰＵ１５は、これらの各手段を制御又はその結果を受け取る制御手段としての動作を行う。

ＣＰＵ１５は、例えば、マイク１０ａにて集音されＡ／Ｄ変換されたある時間長の複数チャンネルの音信号を、半導体メモリーなどの記憶手段１７に蓄積する。
ＣＰＵ１５は、音信号を予め決めた初期角度（例えば、θ＝0°）からスキャン角度範囲内においてΔθおきにマイクアレイ処理を行う。マイクアレイ処理では、複数の無指向性マイク１０ａを用い、各目的音方向に対し検出される複数チャンネル間に存在する音信号の時間差、振幅差を、指向性調整により目的方向に対する音信号をビームフォーミング処理する。即ち複数の無指向性マイク１０ａを空間的に異なる位置に配置し、それらの出力信号に信号処理を施して、周波数領域におけるフィルタと空間領域におけるフィルタ (すなわち指向性) を制御する。これにより、目的方向に対する音信号を強調するパラメータを計算する。

ここでは、各マイク１０ａに対応した信号処理部において目的方向に対する音信号を強調するパラメータ演算を行い、目的方向における音信号を加算することにより、目的音である音信号を抽出する。
このマイクアレイ処理は、ある方向θ（θ）での指向性処理による音（音源信号）抽出により行われる。

音源信号区間切出手段１２は、音源抽出手段１１で抽出した音源信号の音源信号区間の切出しを行う。この切出し処理は、音声信号を対象とした場合にはＶＡＤ（Voice Activity Detection）とも呼ばれる。ここで切り出された音源信号区間を基に後続する音源種別認識手段（エンジン）１４で音源の種別の認識を行う。
なお、音源信号区間切出しの実行の有無はいずれでもよいが、実行したほうが音源種別認識手段（エンジン）１４での誤認識が減る傾向がある。
音源信号区間切出手段１２としては、ＧＭＭ（Gaussian Mixture Model）や平均パワー、ゼロ交差数などを用いた手段が有名であるが、音響特徴量を用いたものであれば、これに限定されない。

音源種別認識手段（エンジン）１４は、鳴っている音の音源種別（例えば、自動車、自転車、動物の鳴き声など）の認識を行う。
この音源種別認識手段（エンジン）１４は、音声認識で用いられているＨＭＭ（Hidden Marcov Model）やＤＮＮ（Deep Neural Network）などを識別手段として用いて音源種別の認識処理を行う。

次に遠近判断手段１３は、マイクアレイで抽出された音の特徴量（音の特徴量は、例えばフーリエ変換やウェーブレット変換などの時間周波数変換処理により抽出する、必要に応じて平均値、分散などの統計量を求めて得られる）の時間変化のみを用いて、より近づいたか遠ざかったかを判断する。ここで用いる音の特徴量としては、ドップラー効果などを用いた周波数変化、信号パワーの変化などが挙げられる。なお、遠近判断の有無は既に述べたように必ずしも必須ではなく、有るほうが過去からの変化（接近、そのまま、離反）が容易に分かる。

ＣＰＵ１５は、以上の処理で得られた結果を、その「認識結果、パラメータ保存」機能によって、記憶手段１７に記憶させる。
記憶手段１７には、音源種別認識手段（エンジン）１４における尤度（尤もらしさを表す度合）のしきい値、音源方向スキャン角度範囲、スキャン角度刻みΔθ、音源種別毎に表示するか否かの表示の有無設定等が保存される。
音源種別毎に表示するか否かの表示の有無設定は、ユーザ自らが行い、かつ設定を変更可能にすることで、表示手段１８には、ユーザが設定した表示要又は表示不要情報にしたがって、ユーザが必要な情報のみが表示される。なお、音声呈示手段１９を用いる場合は、表示手段１８の可視表示に加えて抽出音も呈示する。

また、音源別表示・非表示設定に関係なく、音源種別認識手段（エンジン）１４における尤度のしきい値を下回る尤度の認識結果は、信頼度の低い認識結果であるため、表示設定の如何に関わらず表示対象から外す。
なお、本実施形態では、音源種別を判断したときに、非表示とする音源種別を予め指定しておいて、これらを表示対象から外すこと、或いは逆に、表示する音源種別を予め指定しておいて、指定した音源種別のみを表示対象とすることのいずれも可能である。なお、表示対象又は非表示対象の設定、変更はユーザが行うが、代表的な環境に対するプリセットを行っておいてもよい。
また、ユーザが設定、変更を行う場合の変更手段は、Ｉ／Ｆ部１６を介して行われる。例えば、ディスプレイや、キーボード、マウス、設定済みのファイル、ネットワークなどを介して行われる。

図２は、複数のマイクの配置例（マイクアレイ）を示す図である。図２Ａの配置例では、４個のマイク１０ａを機器（音源表示装置１）の四隅に、また、図２Ｂの配置例ではライン上に一直線に配置した場合を示している。
図示の配置形状は、ユーザ２２（図３Ａ、Ｂ）が作成したい指向性に起因して、マイク配置や数が変化する。例えば、水平面上に一列、四角形、円形だけでなく、三次元的に高さを変えたマイクアレイ配置でもよい。

図３は、音源２０と音源表示装置１を着用又は保持したユーザ２２との関係を示す図であり、図３Ａは、ある音信号区間に対して、音源方向のスキャン角度範囲内において予め決めた初期角度（指向性角度）θ＝0°からΔθおきにマイクアレイ処理を行い、音源方向角度の検知を行う状況を示す図である。図３Ｂは、検知した音源方向を示す図である。
なお、図３Ａに関連して、Δθおきにマイクアレイ処理する方法は、方向別のマイクアレイ処理ユニットが複数同時に処理するものでもよいし、記憶手段１７に一時保存した各マイクの入力信号を１つのマイクアレイ処理ユニットで設定を変えて処理し、再び記憶手段１７に保存してもよい。
音源方向角度の算出は、音源方向スキャン角度を元に初期角度から360度もしくは180度の範囲で任意の角度範囲で行う。即ち、予め設定された音源方向スキャン角度（Δθ）毎にスキャンすることにより判断を行う。
スキャン角度範囲が360度か180度かは、マイク位置や個数に依存する。即ち、二次元平面状に一直線上に配置されたマイクアレイでは前後判断が出来ないため、スキャン角度範囲（探索角度）は180度になる。

図３Ａにおいて、マイクアレイ処理を行う際の角度θが音源方向のスキャン角度範囲内の最後の指向性角度でなければ、指向性角度θに指向性スキャン角度Δθを足して、次の指向性角度θ＋Δθに対する処理を行う。その場合、指向性角度がスキャン角度範囲における最後の指向性角度であれば、認識結果を画面に表示して、指向性角度を初期化して（θ＝0にして）、次の音信号区間に対する処理を行う。
本実施形態によれば、以上のようにして音源２０の検知を行うため、周囲の音を認識出来ない状況でも、目視で直接対象の音源２０を確認することを要せずに、ユーザに検知した音源２０の存在を通知することができる。したがって、表示手段１８を保持又は装着したユーザの危険度合を減らすことができる。

図４は、以上で説明した音源検知のための処理手順を示すフロー図である。
即ち、音源検知をスタートするに当たり、まず、音源方向のスキャン角度範囲内において予め決めた初期角度（指向性角度）の初期設定(例えばθ＝０°など)を行う（Ｓ１０１）。ＣＰＵ１５は、集音手段１０を介して音源抽出手段１１で抽出した各ｃｈ（チャネル）の音波形を記憶手段１７に入力する、或いは音源抽出手段１１で抽出した音源信号を、音源信号区間切出手段１２、音源種別認識手段（エンジン）１４を含む系統及び遠近判断手段１３の系統で音響処理して、その処理結果を記憶手段１７に入力する（Ｓ１０２）。次に、音源抽出手段１１による指向方向θでの指向性処理による音抽出を行う（Ｓ１０３）。抽出した音（音源信号）について、音源信号区間切出手段１２でその音源信号の切り出しを行う（Ｓ１０４）。次に、音源種別認識手段（エンジン）１４は、切り出した音源信号に基づき音源２０の認識を行う（Ｓ１０５）。

遠近判断手段１３は、音源表示装置１で抽出した各ｃｈ（チャネル）の音波形に基づき、音源２０の遠近判断をその音源２０の現在と前回検出したときの遠近を比較して、現在が前回よりも遠ざかったときは（Ｓ１０６、遠ざかった）、離反表示設定を行う（Ｓ１０７）。逆に近づいたときは（Ｓ１０６、近づいた）、接近表示設定を行う（Ｓ１０８）。前回と変わらないときは（Ｓ１０６、同じ）、前回同様表示設定を行う（Ｓ１０９）。

その後、認識結果、目的方向に対する音信号を強調するパラメータを記憶手段１７に保存する（Ｓ１１０）。ここで、マイクアレイ処理を行う際の角度θが音源方向のスキャン角度範囲内の最後の指向性角度か否かを判断し（Ｓ１１１）、最後の指向性角度であれば（Ｓ１１１、Ｙｅｓ）、表示情報処理を行い（Ｓ１１２）、表示手段１８に処理結果を表示し、かつ指向性角度を初期値（θ＝0°）に設定して（Ｓ１１３）からステップＳ１０２に戻り、改めて上述の処理を繰り返す。
ステップＳ１１１で最後の指向性角度でなければ（Ｓ１１１、Ｎｏ）、θにΔθを加えて（Ｓ１１４）、ステップＳ１０３に戻り以上の処理を繰り返す。
以上が全体処理の流れである。

なお、上記の信号処理は、ユーザ２２が所有するスマートフォンもしくはＨＭＤで行うことのみに限定せず、無線通信手段を介して外部機器で処理するようにしてもよい。
次に、以上で説明した音源２０の検知方法について、以下で補足説明する
音源２０の検知処理は大別して、音源方向角度の検出、音源種別認識と接近判断、表示である。
１）音源方向角度の検出
音源方向角度の算出は、音源方向のスキャン角度を基に初期角度から360度もしくは180度の範囲で任意の角度範囲で行う。この場合、予め設定された音源方向のスキャン角度（Δθ）毎にスキャンする。
スキャン角度範囲が360度か180度かは、マイクアレイにおけるマイクの位置や個数に依存する（即ち、二次元平面状に一直線上に配置されたマイクアレイでは前後判断が出来ないため、探索角度は180度になる）。

２）音源種別認識と接近（遠近）判断
音源２０が複数個存在する場合、各音源２０に対し音源種別認識と接近判断を同様に行う。
音源２０認識数は、使用マイク本数をＮとすると、Ｎ−１個まで可能である。
３）表示方法
上記１）、２）で求めた結果を基に表示手段１８の画面に表示する。画面上の表示としては、以下の４通り考えられる。
i）認識結果における方向情報とは無関係に、表示位置固定で表示する。この場合遠近は図や字の相対関係で表示する。
図５、６は、表示手段１８における表示画面であって、認識結果の方向情報に無関係に、字（図５）、図（図６）を表示位置固定で表示し、遠近は図や字の相対関係で表示する。即ち、図５Ａ、６Ａは、音源２０が相対的に遠くの位置にある場合を、また図５Ｂ、６Ｂは、音源２０が相対的に近くにある場合を示す。

ii）認識結果における方向情報を画面上に加味して表示する。この場合は、遠近は図や字の相対関係で表示する。
iii）認識結果における方向、遠近情報を加味して画面上に表示する。この場合、字や図の大きさは一定とする（距離情報は例えば色で表す）。

iv）認識結果における方向、遠近情報を加味して画面上に表示する。この場合は、前回と比較した遠近情報を図や字の大きさで表現する。
図７は、表示手段１８における表示画面であって、認識結果の方向情報を画面上に加味して表示した図であって、図７Ａは、音源２０が相対的に遠くの位置にある場合を、また図７Ｂは、音源２０が相対的に近くにある場合を示す図である。

他に、複数回以上継続的に判断されると、ディスプレイ部に文字で「接近しています」、文字の大きさや色を変更、点滅、機器自体の振動などによりユーザ２２に注意を促す、或いは複数の音源２０が認識された場合、重ねて表示してもよい。
上記i）かiv）の遠近表示は、遠近処理が行われた場合に対応し、遠近処理がない場合は、絵や文字の大きさは一定となる。

以上の実施形態において、既に述べたように、必ずしも必須ではないが音源表示装置に音声呈示手段１９を設けることで、ユーザに呈示した認識結果の基になった認識音を呈示することができる。これにより、ユーザに対して画面だけではなく音も示すことができ、画面だけの場合に比べよりユーザが気づき易くなる可能性がある。なお、音を呈示する場合、他の音再生機能を実行している場合には、その再生音をミュートもしくは音量を小さくし、認識音をミックスしてユーザに呈示することとする。

以上説明したように、本実施形態によれば、音源方向、接近度合い（遠近情報）だけでなく音源種別も表示するため、ユーザが周辺の音が聞こえない状況でも目視で確認することなく周辺音を判断することが出来る。
また、音声認識で表示させるべき対象物を登録しておき、通知する必要のない認識結果を表示しないため、ユーザが必要な情報のみを呈示することができる。
なお、本発明において、表示の意味は、単に表示手段に表示するものに限定されず、音、振動などによりユーザに報知するものも含む。したがって、表示手段もこのような報知を可能にするものを含む。

１・・・音源表示装置、１０・・・集音手段、１１・・・音源抽出手段、１２・・・音源信号区間切出手段、１３・・・遠近判断手段、１４・・・音源種別認識手段（エンジン）、１５・・・ＣＰＵ、１６・・・Ｉ／Ｆ部、１７・・・記憶手段、１８・・・表示手段、１９・・・音声呈示手段、２０・・・音源、２２・・・ユーザ。

特開２０１３−１８３２８６号公報特開２０１２−０２９２０９号公報

Claims

音を集音する集音手段と、
集音された音信号に基づき音源を抽出する音源抽出手段と、
抽出された音源の種別を認識する音源種別認識手段と、
音源種別認識結果を表示する表示手段と、を有し、
前記表示手段は、予め登録した表示要又は表示不要情報にしたがって、前記音源種別認識結果を表示又は非表示にすることを特徴とする音源表示装置。
請求項１に記載された音源表示装置において、
前記音源抽出手段で抽出した音源信号に基づき音源信号区間を切り出す音源信号区間切出手段を備え、
前記音源種別認識手段は、前記音源信号区間切出手段で切り出した音源信号区間に基づき音源の種別を認識することを特徴とする音源表示装置。
請求項１に記載された音源表示装置において、
音源の遠近を判断するための音源の遠近判断手段を備えたことを特徴とする音源表示装置。
請求項１に記載された音源表示装置において、
前記音源種別認識手段による音源種別認識結果を示す尤度が所定の値よりも低い場合は、表示設定の如何に関わらず、前記表示手段を非表示にすることを特徴とする音源表示装置。
請求項１ないし４のいずれかに記載された音源表示装置において、
前記集音手段は複数のマイクで構成するマイクアレイであることを特徴とする音源表示装置。
請求項１ないし５のいずれかに記載された音源表示装置において、
前記音源種別認識結果の元となる認識音を呈示する音声呈示手段を有することを特徴とする音源表示装置。
請求項１に記載された音源表示装置における音源表示方法であって、
音を集音する集音工程と、
集音された音信号に基づき音源を抽出する音源抽出工程と、
抽出された音源の種別を認識する音源種別認識工程と、
音源種別認識結果を表示手段に表示する表示工程と、を有し、
前記表示工程では、予め登録した表示要又は表示不要情報にしたがって、前記音源種別認識結果を表示又は非表示にすることを特徴とする音源表示方法。
請求項７に記載された音源表示方法において、
前記音源種別認識工程における音源種別認識結果の元となる認識音を呈示する音声呈示工程を有することを特徴とする音源表示方法。