以下、本発明における第1の実施形態から第5の実施形態に共通する音声情報表示装置100について、図1から図3を参照して説明する。
音声情報表示装置100は、図1に示すように、表示機能を備えた装置である。具体的には、携帯電話端末やタブレット端末のように、小型で持ち運び容易であることが好ましい。音声情報表示装置100は、その筐体10が構成する面に表示部140の表示面を備え、矩形の筐体10の4隅に各々マイクロフォン20を備える。
マイクロフォン20は、例えば図2のように音声情報表示装置100の長辺を縦方向とした場合に、右上の角部にマイクロフォン20A、右下にマイクロフォン20B、左下にマイクロフォン20C、左上にマイクロフォン20Dを備える。マイクロフォン20の位置は、必ずしも筐体10の4隅に限定されず、筐体10の中心からみて4方向に備えられ、音源の方向が判別可能な配置であればよい。
図2における矢印が指す方向A〜Hは、マイクロフォン20によって音源の方向が特定される方向の例を示している。実際の利用形態は、表示部140が地面に対して水平となるように配置または把持されるため、方向A〜Hは、音声情報表示装置100を中心として地面と水平方向の向きとなる。
このため、マイクロフォン20は、各々が備えられている方向を中心に指向性を有していることが好ましい。例えば、マイクロフォン20Aは、B方向を中心に指向性を有し、マイクロフォン20Bは、D方向を中心に指向性を有する。また、マイクロフォン20Cは、F方向を中心に指向性を有し、マイクロフォン20Dは、H方向を中心に指向性を有する。
音声情報表示装置100は、図1に示すようにその筐体10は矩形でなくともよく、また、マイクロフォン20は4箇所のみではなくともよい。例えば、音声情報表示装置100は、表示部140を正面とした場合、円形や多角形であってもよい。また、マイクロフォン20は、6箇所や8箇所、または矩形の筐体10が構成する辺の中央に備えられえていてもよい。いずれにおいても、マイクロフォン20は、表示部140の周囲に配置されていることが好ましい。
音声情報表示装置100は、その構成として図3に示すように、制御部110、音声信号入力部120、記憶部130、表示部140、操作部150、電源部160、マイクロフォン20を備える。また、音声情報表示装置100は、他に図示しない各種必要な構成要素を備えていてもよい。
制御部110は、音声情報表示装置100を構成する各部の動作制御、各種データの処理または演算等を行う。制御部110は、例えば、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)、DSP(Digital Signal Processor)等により構成され、ROMに記憶された各種プログラムをRAM上で実行することにより音声情報表示装置100を構成する各部の動作制御や各部より入力された信号やデータの処理または演算、ファイルの処理等を行う。
制御部110は、実行されるプログラムによって各種機能を実現する。本実施形態において制御部110は、表示制御部111、操作制御部112、入力音分析部113、音認識部114を実現する。
表示制御部111は、表示部140に対して各種情報を表示させる処理を行う。例えば、記憶部130に記憶されている各種表示形態や文字等の表示、図示しないタッチパネル操作部に連動した各種GUI(Graphical User Interface)などを表示させる。
操作制御部112は、操作部150が操作されることによって生成する操作信号に基づいた処理を実行させる。
入力音分析部113は、マイクロフォン20から入力され、音声信号入力部120から取得した音声データに対して各種分析を行う。具体例としては、マイクロフォン20A〜20Dに入力された音圧の分析、音圧に基づく音源方向の分析、周波数の分析などである。
音認識部114は、マイクロフォン20から入力され、音声信号入力部120から取得した音声データに対して、例えば記憶部130に記憶されている各種音のパターンデータと照合し、入力された音声の特定を行う。
音声信号入力部120は、制御部110の制御によりマイクロフォン20から入力された音声信号を制御部110が処理するためのデータに変換する。音声信号入力部120は、例えば、A/D変換部121および増幅部122から構成される。増幅部122は、マイクロフォン20から入力される音声信号を増幅する、例えばオペアンプ等である。A/D変換部121は、増幅部122が増幅した音声信号を、A/D(Analog - Digital)変換し、制御部110に音声データを送出する。
記憶部130は、例えばフラッシュメモリやHDD(Hard Disk Drive)より構成され、音声情報表示装置100に必要な各種データや、マイクロフォン20等外部から入力される記録対象のデータが記憶され、制御部110の処理によって記憶動作や読み出し動作が行われる。記憶部140は音声情報表示装置100に内蔵されるものに限らず、所定のインターフェースによって接続される外部の記憶デバイスであってもよい。外部の記憶デバイスの一例としては、USB(Universal Serial Bus)端子に接続されるUSBメモリや外部HDD装置、所定のメモリカードスロットにより接続されるメモリカードなどである。
表示部140は、例えば液晶表示素子や有機EL(Electro Luminescence)表示素子、およびそれらを駆動する回路ユニット等からなり、表示制御部111の制御により各種表示内容や表示形態が表示される。
操作部150は、音声情報表示装置100に対してユーザが各種処理や動作指示を行うためのユーザインターフェースであり、例えば、押ボタン式や回転式の操作手段、または表示部140に重ねて設けられた図示しないタッチパネル操作部により構成される。操作部150が操作されることにより、操作に基づく信号が後述する操作制御部112に出力され、操作に基づく各部の動作や各種処理が実行される。
電源部160は、音声情報表示装置100を構成する各部に電力を供給するバッテリを含む電源回路等であり、制御部110の制御によって、各部へ適切な電力の供給や、電源部160への充電が制御される。
次に、図4から図9に基づき、第1の実施形態について説明する。
音声情報表示装置100は、操作部150の操作によって電源がオンとなり、電源部160から電力が供給されて動作している間は、常時マイクロフォン20による音声の入力を受け付けている。その状態において、入力音分析部113は、音声信号入力部120から取得した音声データに基づいて、所定音圧以上の音声信号がマイクロフォン20のいずれかまたは複数のマイクロフォン20に入力されたか否かを判断する(ステップS11)。
ステップS11における音圧の判定は、例えば、音声信号入力部120から入力された音声データに対して、入力信号のレベルに応じてパルス幅のHレベルとLレベルの比率を変えるPWM(Pulse Width Modulation)変換を行い、そのパルス幅により判断する。このPWM変換は、周波数帯域毎に行ってもよい。その場合は、PWM変換前にBPF(Band Pass Filter)により、所望の周波数帯域毎に音声データを選別する。また、PWM変換は、複数のマイクロフォン20毎に行う。
ステップS11において、入力されていないと判断された場合(ステップS11:No)、ステップS11の処理を再度実行することにより、逐次所定音圧以上の音声信号の入力が監視される。
ステップS11において判断される所定音圧は、任意に設定されてもよいが、具体例として音圧レベルが70dB以上とする。この数値は、予め設定されていてもよく、ユーザの聴覚レベルに合わせて設定が変更可能であってもよい。
ステップS11において、所定音圧以上の音声信号が入力されたと判断された場合(ステップS11:Yes)、入力音分析部113は、入力された各マイクロフォン20による音声データに基づき、音源の方向を分析する(ステップS12)。
ステップS12の処理を、図5に基づき説明する。先ず、入力音分析部113はマイクロフォン20A〜20Dの各々に対応する音声データに基づき、入力された音声信号の音圧が最大のマイクロフォンを特定する(ステップS121)。ステップS121の処理を行うときに比較する各マイクロフォン20の音声データは、所定の時間帯における最大値を検出してもよく、所定の時間帯の積分値における最大値を検出してもよい。また、複数のマイクロフォン20間の最大値の差が所定以上小さい場合、例えば最大音圧の差が2dB以内である場合は、それらのマイクロフォン20の音圧は同一であるとしてもよい。
ステップS121において、音圧が最大のマイクロフォン20が特定できたと判断された場合(ステップS121:Yes)、入力音分析部113は音圧が最大と特定されたマイクロフォン20の方向を音源方向であると判断する(ステップS122)。例えば、図2においてマイクロフォン20Aが最大音圧が入力されたマイクロフォンであると特定された場合は、方向Bが音源方向であると判断される。同様に、マイクロフォン20Bの場合は方向D、マイクロフォン20Cの場合は方向F、マイクロフォン20Dの場合は方向Hであると判断される。
ステップS121において、音圧が最大のマイクロフォン20が特定できないと判断された場合(ステップS121:No)、入力音分析部113は、音圧が他より大きい同一音圧の2つのマイクロフォン20が特定できるか否かを判断する(ステップS123)。ステップS123の処理においても、同一音圧と判断する誤差はステップS121と同様でよい。ステップS123において、音圧が他より大きい同一音圧の2つのマイクロフォン20が特定できた場合(ステップS123:Yes)、入力音分析部113は音圧が他より大きい同一音圧の2つのマイクロフォン20の間の方向を音源方向であると判断する(ステップS124)。
ステップS124の処理は、例えば図2において、方向A、方向C、方向Eおよび方向Gにはマイクロフォンが配置されていないため、これらの方向を挟む2つのマイクロフォン20を方向A、方向C、方向Eおよび方向Gにおける仮想のマイクロフォンとするものである。
ステップS124の判断は、例えば、図2においてマイクロフォン20Aとマイクロフォン20Bが音圧が他より大きい同一音圧の2つのマイクロフォン20であると特定された場合は、方向Cが音源方向であると判断される。同様に、マイクロフォン20Bとマイクロフォン20Cが音圧が他より大きい同一音圧の2つのマイクロフォン20であると特定された場合は、方向Fが音源方向であると判断され、マイクロフォン20Cとマイクロフォン20Dが音圧が他より大きい同一音圧の2つのマイクロフォン20であると特定された場合は、方向Gが音源方向であると判断され、マイクロフォン20Dとマイクロフォン20Aが音圧が他より大きい同一音圧の2つのマイクロフォン20であると特定された場合は、方向Aが音源方向であると判断される。
ステップS123において、音圧が他より大きい同一音圧の2つのマイクロフォン20が特定できなかった場合(ステップS123:No)、入力音分析部113は全てのマイクロフォン20が同一音圧であるか否かを判断する(ステップS125)。ステップS125の処理においても、同一音圧と判断する誤差はステップS121と同様でよい。ステップS125において、全てのマイクロフォン20が同一の音圧であると判断された場合(ステップS125:Yes)、入力音分析部113は音声情報表示装置100の上方であると判断する(ステップS126)。ステップS126の判断は、音声情報表示装置100が置かれた状況やユーザに把持されている状況が多いために、音源方向が音声情報表示装置100の上方であると定義しているが、音声情報表示装置100の下方であると判断してもよい。
ステップS126の処理は、例えば図2において、表示部140の上方を向くマイクロフォンは配置されていないため、全てのマイクロフォン20を表示部140の上方を向く仮想のマイクロフォンとするものである。
ステップS125において、全てのマイクロフォン20が同一の音圧ではないと判断された場合(ステップS125:No)、入力音分析部113は音源の方向が特定できないと判断する(ステップS127)。
図4に戻り、ステップS12において音源の方向が分析された後、分析された音源の方向に基づき、表示制御部111は音声を示す情報を表示部140に表示させる(ステップS13)。ステップS13の処理と表示例を図6から図9により説明する。
先ず、表示制御部111は、入力音分析部113が検出した音源方向に基づき、表示部140における音源方向のマイクロフォン20の配置方向を基点とした放射状のパターンを表示させる(ステップS131)。ステップS131の処理で表示される例として、図7は、音源方向がマイクロフォン20Aの方向であると判断された場合を示す。同様に、図8は、音源方向がマイクロフォン20Aと20Dの間であると判断された場合を示す。同様に、図9は、音源方向が音声情報表示装置100の上方であると判断された場合を示す。
次に、表示制御部111は、ステップS131において表示した放射状パターンの表示パラメータを、基点となるマイクロフォン20に近い順に表示パラメータを変化させ(ステップS132)、所定時間が経過するまで繰り返す(ステップS133)。
ステップS132の処理を具体的に説明すると、図7から図9において表示される放射状パターンは、音源方向のマイクロフォン20または仮想マイクロフォンの配置方向を基点として、表示エリア300A、表示エリア300R1、300R2、300R3、300R4が順に配置されている。これらの表示エリア300を、例えば色や輝度を、表示エリア300R1、300R2、300R3、300R4の順に変化させていく。変化のタイミングは、例えば0.5秒毎である。表示制御部111は、このような表示を、例えば、5秒から10秒などの予め定められた所定時間繰り返す。予め定めだれた繰り返し時間は、入力音分析部113において、所定音圧以上の音声信号が入力されたと判断された時点からの時間であってもよく、所定音圧以上の音声信号が入力されたと判断され、その音声信号が所定音圧以下となった時点からの時間であってもよい。
また、予め定められた繰り返し時間は、音圧のレベルによって変化してもよい。例えば入力音分析部113において検出された音圧が約80dBである場合は10秒、約90dBである場合は15秒などである。
表示エリア300Aには、例えば入力音分析部113において分析された最大音の音圧レベルなどを数値で表示する。図7の例においては、マイクロフォン20Aにおいて音圧が約80dBの音声信号が入力され、マイクロフォン20Aの方向(方向B)に音源が存在することを示す。図8の例においては、マイクロフォン20Aおよびマイクロフォン20Dにおいて、各々音圧が約80dBの音声信号が入力され、マイクロフォン20Aとマイクロフォン20Dの中間に位置する仮想マイクロフォンの方向(方向A)に音源が存在することを示す。図9の例においては、マイクロフォン20A〜20Dの全てにおいて、各々音圧が約80dBの音声信号が入力され、音声情報表示装置100の上方からの音声信号を検出する仮想マイクロフォンの方向に音源が存在することを示す。
このように、第1の実施形態においては、音源方向のマイクロフォン20の配置方向を基点として音声信号を表す形状を表示部140に表示させるため、ユーザは直感的に最大音を検出したマイクロフォン20の位置に基づき音源方向とその範囲を把握することができる。また、音声信号を表す形状を、音源方向のマイクロフォン20の配置方向を基点とする放射状とするため、ユーザは音源方向を直感的に把握することができる。また、音声信号を表す形状を、音源方向のマイクロフォン20の配置方向を基点とした複数の表示エリアを順に表示パラメータを変化させるため、より明瞭に音源方向を把握することができる。
第1の実施形態においては、音源方向のマイクロフォン20の配置方向を基点とする放射状とする表示エリア300を表示エリア300R1、300R2、300R3、300R4からなる4つの表示エリア300としたが、特に表示エリア300の数は限定されず、放射状の表示範囲も限定されない。
次に、図10および図11に基づき、第2の実施形態について説明する。第2の実施形態における音声情報表示装置100が実行する処理は第1の実施形態と同一であるため説明を省略する。第1の実施形態とは、図6におけるステップS131で実行される放射状パターンの表示形態が異なる。
第1の実施形態においては、図7から図9において説明したように音声信号を表す形状を放射状に表示したが、第2の実施形態においては、この放射状の表示にマイクロフォン20の各々における音源特定範囲の情報を含める。
具体的な例の一つとして、図10に示す表示形態は、音声信号を表す放射形状を音源方向のマイクロフォン20または仮想マイクロフォンの配置方向を基点として角度が約45度の放射形状としている。放射形状の角度を45度とした理由としては、音声情報表示装置100を中心にマイクロフォン20A〜20Dおよびこれらのマイクロフォン20を用いた仮想マイクロフォンによる音源特定範囲は、各々45度となるためである。
図10に示した表示形態は、音声信号を表す放射形状を角度が45度の放射形状としているが、各々のマイクロフォン20および仮想マイクロフォンにおける音源特定範囲は厳密なものではないため、45度以上であってもよい。
さらに、具体的な例として、図11に示す表示形態は、第1の実施形態として説明した図7および図8と同様の表示に加えて、音源特定範囲を示す角度の情報を含めたものである。図11においても、音源特定範囲を示す角度は45度またはそれ以上でもよい。さらに音源特定範囲を示す角度は、音声信号を表す放射形状に対して線として表現されてもよく、表示色を異ならせて表示されてもよい。
第2の実施形態においても、表示エリア300A、表示エリア300R1、300R2、300R3、300R4の表示形態については、第1の実施形態と同様である。
このように、音源特定方向を角度として表示させることにより、ユーザは音源の方向をより明確に把握することができる。
次に、図12から図21に基づき、第3の実施形態について説明する。第3の実施形態における音声情報表示装置100が実行する処理において、第1の実施形態と同一の処理については説明を省略する。
図12のステップS12において、入力音分析部113が、入力された各マイクロフォン20による音声データに基づき音源の方向を分析した後、入力音分析部113は、音源方向におけるマイクロフォン20から入力された音声信号の周波数を分析する(ステップS31)。ステップS31の処理は、前述したように、所定周波数帯域毎のBPFを介したPWM変換によるパルス幅に基づき周波数帯域毎の音圧レベルを分析する。また、既存のフーリエ変換等の手法を用いてもよい。
図13は、入力された音声信号の音圧レベルと周波数帯域との関連を示した例であり、縦軸は音圧レベルであり、横軸は周波数である。縦軸における音圧レベルの閾値thは、ステップS11の所定音圧であり、閾値th以上の音圧レベルを有する音声信号に対して処理を実行する。横軸における周波数帯域は、後述する第1の周波数区分と第2の周波数区分の例を表している。第1の周波数区分は、f1からf2までの周波数帯域、f2からf3までの周波数帯域、f3からf4までの周波数帯域、f4からf5までの周波数帯域、f5からf6までの周波数帯域として区分されている。また、第2の周波数区分は、第1の周波数区分をさらに細分化した区分であり、f1からf2までの周波数帯域においては、f1からf1Aまでの周波数帯域、f1Aからf1Bまでの周波数帯域、f1Bからf2までの周波数帯域として区分されている。他の第1の周波数区分においても同様である。図15から図17および表1と表2に示すように、第2の周波数区分は第1の周波数区分内において部分的に重複しているが、図13は便宜的に重複しない記載としている。
図13には、一例として音声信号W1と音声信号W2との2種類の音声信号の例を記載する。音声情報表示装置100が検出する音声信号は、ユーザの周辺において発せられるあらゆる音声信号を対象とするが、特に音圧レベルが閾値th以上となる音声信号は、例えばサイレン音や警報音、報知音など特定の周波数帯域に特化した音声信号が多いため、図13においては周波数帯域幅の小さい音声信号を例として説明する。
例えば、音声信号W1の周波数分布は、音圧レベルが閾値th以上においては、第1の周波数区分としてはf2からf3までの周波数帯域に分布し、第2の周波数区分としてはf2Aからf2Bの間に分布している。同様に音声信号W2の周波数分布は、音圧レベルが閾値th以上においては、第1の周波数区分としてはf3からf4までの周波数帯域に分布し、第2の周波数区分としてはf3Aからf4の間に分布している。
次に、表示制御部111は、ステップS31で分析された周波数の分布に基づき、音声を示す情報を表示部140に表示させる(ステップS32)。ステップS32の処理と表示例を図14から図21により説明する。
先ず、表示制御部111は、入力音分析部113が分析した音源方向におけるマイクロフォン20から入力された音声信号の周波数帯域に対応する表示エリア300を表示させ(ステップS321)、所定時間が経過するまで表示する(ステップS322)。
ステップS321における表示例を、図18から図21に示す。これらの表示例において、表示エリア300F1から300F5は、第2の周波数区分に対応する。図19は、第2の周波数区分は5つに区分されている例であり、図18、図20、図21は第2の周波数区分は3つに区分されている例である。図20および図21の表示形態においても、第2の周波数区分は5つに区分されていてもよい。また、第2の周波数区分に加えて第1の周波数区分もその区分数や区分する周波数は限定されない。
ここで、第1の周波数区分および第2の周波数区分の区分例について、図15および図16により説明する。
図15は、第1の周波数区分を5区分し、第2の周波数区分を第1の周波数区分毎に3区分した例である。区分対象となる周波数帯域は200Hzから7kHzまでとしているが、この範囲に限定されない。200Hzから7kHzまでの周波数帯域は、例えばサイレン音や警報音、報知音などユーザがその発生を即座に知る必要のある音が分布する帯域を中心とした周波数帯域としている。
図15の例において、第1の周波数区分と第2の周波数区分の各々の周波数帯域と対応する表示エリアは、表1のようになっている。
図18から図21に示した表示例において、表示エリア300を5つに区分している場合、図15および表1の例に示す200Hz〜420Hzの第1の周波数区分は、青色や緑色の系統の色により表示し、この第1の周波数区分内の第2の周波数区分の各々は第1の周波数区分として用いる同一の色であってもよく、同系統の異なる色であってもよい。420Hz〜950Hzの第1の周波数区分は、黄色系統の色により表示し、950Hz〜2kHzの第1の周波数区分は、橙色系統の色により表示する。また、2kHz〜3.7kHzの第1の周波数区分は、赤色系統の色により表示し、3.7kHz〜7kHzの第1の周波数区分は、紫色系統の色により表示する。
以上の表示色は一例であるが、例えば緊急車両のサイレン音の周波数帯域が415Hzから1.9kHzであるため、この周波数帯域を含む420Hz〜950Hzの第1の周波数区分と950Hz〜2kHzの第1の周波数区分は、サイレン帯域として黄色系統や橙色系統など、危険や緊急性のある音声信号であることが認識しやすい色調で表示する。同様に、ガス警報器や火災報知機の警報音の周波数帯域が2kHzから7kHzであるため、この周波数帯域を含む2kHz〜3.7kHzの第1の周波数区分と3.7kHz〜7kHzの第1の周波数区分は、警報器帯域として赤色系統や紫色系統など、危険や緊急性のある音声信号であることを認識しやすい色調で表示する。
例えば、図13に示す音声信号W1の場合は、420Hz〜950Hzの第1の周波数区分に属すると共に、550Hz〜730Hzの第2の周波数区分に属する。このため、例えば図18の例においては、音源方向のマイクロフォン20の配置方向を基点として、表示エリア300F2が黄色系統の色により表示される。同様に、音声信号W2の場合は、950Hz〜2kHzの第1の周波数区分に属すると共に、1.2kHz〜1.6kHzの第2の周波数区分および1.5kHz〜2kHzの第2の周波数区分に属する。このため、例えば図18の例においては、音源方向のマイクロフォン20の配置方向を基点として、表示エリア300F2および表示エリア300F3が橙色系統の色により表示される。
図16は、第1の周波数区分を3区分し、第2の周波数区分を第1の周波数区分毎に5区分した例である。区分対象となる周波数帯域は図15同様に200Hzから7kHzまでとしている。
図16の例において、第1の周波数区分と第2の周波数区分の各々の周波数帯域と対応する表示エリア300は、表2のようになっている。
図18から図21に示した表示例において、表示エリア300を3つに区分している場合、図16および表2の例に示す200Hz〜420Hzの第1の周波数区分は、青色や緑色の系統の色により表示し、この第1の周波数区分内の第2の周波数区分の各々は第1の周波数区分として用いる同一の色であってもよく、同系統の異なる色であってもよい。420Hz〜2kHzの第1の周波数区分は、黄色系統の色により表示し、2kHz〜7kHzの第1の周波数区分は、赤色系統の色により表示する。以上の表示色も一例であるが、5つの区分と同様に、サイレン帯域および警報器帯域を黄色系統や赤色系統など、危険や緊急性のある音声信号であることを認識しやすい色調で表示する。
図18から図21の表示例について説明すると、図18は、説明を容易にするために、マイクロフォン20Aの方向(方向B)から音声信号を検出した場合と、マイクロフォン20Dおよびマイクロフォン20Cの間の方向(方向G)から音声信号を検出した場合の表示を同時に示している。
表示制御部111により、表示部140には音源方向のマイクロフォン20の配置方向を基点として、表示エリア300A、300F1、300F2、300F3が順に放射状に配置され、入力音分析部113により分析された周波数帯域に基づき、第2の周波数区分に対応する表示エリア300F1、300F2、300F3が、第1の周波数区分に対応する色調により表示される。
図19の例は、図18と同様であるが、第2の周波数区分を5つの区分とし、表示エリア300F1から300F5とした場合の例である。
図20の例は、第1の実施形態に基づく表示に加えて、第2の周波数区分に基づく表示エリア300F1から300F3を表示部140の中央に配置した例である。第2の周波数区分に基づく表示エリア300F1から300F3は、図20のような形態に限定されず、例えば同心円形状や同心角形状であってもよい。同心円形状や同心角形状の場合は、中心側が周波数の低い第2の周波数区分であり、外側が周波数の高い第2の周波数区分とする。
図21の例は、マイクロフォン20Aの方向(方向B)から音声信号を検出したことを示す複数のドット形状により、第2の周波数区分に基づく表示エリア300F1から300F3を表した例である。図21に示すように、音源方向のマイクロフォン20の配置方向を基点として、破線で囲った複数のドット形状の列で表される表示エリア300F1から300F3が表示される。図18から図20の表示例と異なる点は、第2の周波数区分に基づく表示エリア300F1から300F3の各々が、例えばドット形状のように複数の表示形状から構成されている。この複数の表示形状は、音源方向のマイクロフォン20に近い方から、ステップS322の所定時間に該当する時間内で、表示を移動させる。このため、検出した音声信号に基づく表示エリア300F1から300F3のいずれかまたは複数の表示が、図21の例においては、右上から左下の方向に流れる表示となる。
図21の例は、表示部140が例えば液晶表示素子などを用いた場合について説明したが、表示部140として、例えばLED素子を一面に配置して、図21の例に示すような表示形態としてもよい。
第3の実施形態においては、第2の周波数区分毎に表示位置を異ならせているため、例えば日本における救急車のサイレン音のように、複数の中心周波数を交互に繰り返す音の場合、複数の第2の周波数区分に対応する表示エリア300が交互に表示される。このため、複数の中心周波数を交互に繰り返す表示パターンについては、音の種別を特定しやすい。
このように、第3の実施形態においては、検出した音声信号の音源方向と周波数に基づき、音声信号を表す表示が所定時間表示される。このため、ユーザは、検出した音声信号の方向に加えてその周波数帯域も把握することができ、特にサイレン音や警報音、報知音などの周波数帯域が判別可能であるために、緊急を要する音の発生を的確に把握することができる。
第3の実施形態においては、一例として、サイレン帯域や警報機帯域に合わせて第1の周波数区分を設定したが、第1の周波数区分の設定はこれに限定されない。例えば、聴覚の障害として、所定の周波数範囲の聴覚が衰えている場合や聞こえない場合などがある。このため、図17に示すように、第1の周波数区分をユーザの聴覚に合わせて設定してもよい。例えば、日常的に不都合がない程度に聞こえる周波数帯域を緑系統の色として表示し、ある程度不都合のある周波数帯域を黄色系統の色として表示し、全く聞こえない周波数帯域を赤色系統の色として表示させる。このような設定は、操作部150の操作によって、予めユーザの聴覚に適応するように設定する。
このような例においては、ユーザは自らの聴覚で感知が困難な周波数帯域における緊急を要する音の発生を的確に把握することができる。
次に、図22から図27に基づき、第4の実施形態について説明する。第4の実施形態における音声情報表示装置100が実行する処理において、第1の実施形態と同一の処理については説明を省略する。
図22のステップS12において、入力音分析部113が、入力された各マイクロフォン20による音声データに基づき音源の方向を分析した後、入力音分析部113は、音源方向におけるマイクロフォン20から入力された音声信号の音圧を分析する(ステップS41)。
ステップS41の処理を、図23を用いて具体的に説明する。図23の縦軸は音圧レベルであり、横軸は時間となっている。縦軸における音圧レベルの閾値thは、ステップS11の所定音圧であり、音圧の閾値th以上の音声信号に対して処理を実行する。ステップS41の音圧分析処理は、ステップS11の処理と同時に行われてもよい。先ず、入力音分析部113は音源方向のマイクロフォン20から入力された音声データに対して時間毎にその音圧レベルを求める。図23および図25においては、一例として音声信号W3の例を記載する。
例えば、音声信号W3の音圧分布は、時間t1において閾値thを超え、時間t2において音圧レベルp1を超え、時間t3において音圧レベルp4を超えている。また、時間t4において音圧レベルp2以下となり、時間t5において音圧レベルp1以下となり、時間t6において閾値th以下となっている。
図23の例における音圧レベルの値は、例えば閾値thを70dBとした場合、p1が80dB、p2が90dB、p3が100dB、p4が110dBである。したがって、音声信号F3はピーク時で80dB以上90dB未満の音圧レベルであることが示される。
次に、表示制御部111は、ステップS41で分析された音圧レベルに基づき、音声を示す情報を表示部140に表示させる(ステップS42)。ステップS42の処理と表示例を図24から図27により説明する。
先ず、表示制御部111は、入力音分析部113が分析した音源方向におけるマイクロフォン20から入力された音声信号の音圧に対応する表示エリアを表示させ(ステップS421)、所定時間が経過するまで表示する(ステップS422)。
ステップS421からステップS422までの表示時間は、所定の音圧レベル以上となっている時間であり、例えば、音圧レベルが閾値thを超えた時刻t1から閾値th以下となる時刻t6までの間、表示エリア300P1を表示させ、音圧レベルがp1を超えた時刻t2からp1以下となる時刻t5までの間、表示エリア300P2を表示させる。同様に、音圧レベルがp3を超えた時刻t3からp3以下となる時刻t4までの間、表示エリア300P3を表示させる。
また、上記のように音圧の時間変動に対応した表示を行う場合は、音の継続時間が短い場合、ユーザはその音が発生したことを見逃す可能性が高い。したがって、所定値の音圧を検出した時刻に対して係数を掛けることにより実際の音の継続時間よりも長く表示させる。
図25に示すように、音声信号における閾値th以上の時刻t1〜t6に対して係数を掛けることにより、T1〜T6の時刻に対して、各表示エリア300Pを表示させる。図26および図27の例の場合、時刻t1と同一時刻である時刻T1に、表示エリア300P1の表示が開始され、次に、時刻t2に対応する時刻T2に、表示エリア300P2の表示が開始される。同様に、時刻t3に対応する時刻T3に、表示エリア300P3の表示が開始され、時刻t4に対応する時刻T4に表示エリア300P3の表示が終了する。同様に、時刻t5に対応する時刻T5に表示エリア300P2の表示が終了し、時刻t6に対応する時刻T6に表示エリア300P1の表示が終了する。
このように、図23における音声信号W3の例においては、その音声信号の音源方向と音圧レベルに基づき、表示エリア300P1から表示エリア300P3が所定時間表示される。したがって、ユーザは音源方向の特定とともに、どの程度の大きさの音がしたのかを感覚的に把握することがえきる。本実施形態において、各々の表示エリア300Pは、表示される色が異なっていることが効果的である。また、表示エリア300P1から300P4までの全ての表示エリアを示す枠が表示された上で、入力音分析部113が分析した音圧レベルに該当する表示エリア300Pに色を伴った表示を行うようにしてもよい。
次に、図28から図32に基づき、第5の実施形態について説明する。第5の実施形態における音声情報表示装置100が実行する処理において、第1の実施形態と同一の処理については説明を省略する。
図28のステップS12において、入力音分析部113が、入力された各マイクロフォン20による音声データに基づき音源の方向を分析した後、音認識部114は、音源方向におけるマイクロフォン20から入力された音声信号の音の種別を分析する(ステップS51)。
ステップS51の処理を、図29に基づき説明する。先ず、音認識部114は、対処となる音声信号に基づく音声データにおいて、分析範囲を特定する(ステップS511)。具体的には、分析対象の音声データにおける音圧レベルが継続して閾値th以上となる区間などであるが、特に限定はされず、既存の各種区間判別手法を用いる。
次に、音認識部114は、分析範囲の音声データを、記憶部130等に記憶されている音データベースと照合する(ステップS512)。ステップS512における音データベースは、記憶部130に限らず、音声情報表示装置100に通信機能が備えられている場合は、その通信機能を用いて外部のサーバ等に記憶されている音データベースとの照合を行ってもよい。また、ステップS512における音データベースとの照合処理は、通信機能を用いて外部のサーバ等における照合処理を利用してもよい。この場合、音認識部114は、外部のサーバ等に分析対象の音声データを送信し、照合結果を受け取る。
次に、音認識部114は、ステップS512の処理において音の種別が特定されたか否かを判断する(ステップS513)。ステップS512の照合結果としては、例えば、「救急車」「火災報知機」「地震警報」「電子レンジ」「人の声」などの照合結果を得ることができ、音データベースに分析対象の音声データまたはそれに類似する音声データが含まれていない場合は、特定できない旨の照合結果を得る。
ステップS513において、音の種別が特定されたと判断された場合(ステップS513:Yes)、音認識部114は、表示制御部111に特定された音の種別を表す情報を通知する(ステップS513)。ステップS513において、音の種別が特定されなかった判断された場合(ステップS513:No)、音認識部114は、表示制御部111に音の種別が特定されないことを表す情報を通知する(ステップS514)。ステップS513およびステップS514における通知とは、各々の情報を一時的にRAMに記憶させておくことにより、表示制御部111がその情報に基づく表示を行うことができる処理等である。
図28に戻り、表示制御部111は、ステップS51で分析された音の種別に基づき、音声を示す情報を表示部140に表示させる(ステップS52)。ステップS52の処理と表示例を図29から図32により説明する。
先ず、表示制御部111は、音認識部114が分析した音源方向におけるマイクロフォン20から入力された音声信号の種別を示す情報を表示させ(ステップS521)、所定時間が経過するまで表示する(ステップS522)。
ステップS51の処理において、例えばマイクロフォン20Aの方向から入力された音声信号が、最大音圧80dBであり、音認識部114による認識結果が救急車のサイレン音である場合は、図31に示すように、マイクロフォン20Aの配置方向を基点とした放射状のパターンの表示に加えて、救急車を表す「Ambulance」の文字を表示する。図31における放射状パターンは、第1の実施形態に基づく表示エリア300Aとしているが、第2の実施形態から第4の実施形態を適用してもよい。
また、放射状のパターンの表示に第1の実施形態、第2の実施形態、第4の実施形態を適用した場合は、各表示エリア300A、300Pの表示色を音認識部114の認識結果を連想させる色としてもよい。例えば、音認識部114における認識結果が消防車のサイレン音である場合や、火災報知機の警報音である場合は、赤系統の表示色とする。また、図31においては文字により表示したが、認識結果を表す図やアイコンを表示してもよい。例えば、認識結果が救急車のサイレン音である場合は救急車を表す図を表示し、認識結果が火災報知機の警報音である場合は炎を表す図を表示する。
また、図32に示すように、音認識部114による認識結果が緊急を要する音である場合や重要な音である場合は、放射状のパターンをそれらが判別できるような形状としてもよい。このような場合であっても、各表示エリア300A,300F、300Pは、各実施形態に対応する。
このように、音認識部114による認識結果に基づいた表示を組み合わせることにより、ユーザは音源方向に加えて音の種別も的確に認識することができ、危険な音が検出されたことを早い段階で認識することができる。
音認識部が参照する音データベースは、通信機能を用いて照合を行う場合であっても、特に緊急を要する音については、音声情報表示装置100が備える記憶部130に音データベースを備え、記憶部130の音データベースを優先的に照合するような処理としてもよい。この場合、特に緊急を要する音の照合結果を、通信機能を用いた照合より早く行うことができる。また、通信機能が利用できない場合においても、特に緊急を要する音についての照合を行うことができる。
次に、図33から図37に基づき、第6の実施形態について説明する。第6の実施形態における音声情報表示装置100の構成は、第1の実施形態から第5の実施形態における音声情報表示装置100の構成とは異なるが、共通する構成については説明を省略する。また、第6の実施形態における表示形態は、第1の実施形態から第5の実施形態における表示形態が適用可能である。
第1の実施形態から第5の実施形態における音声情報表示装置100は、筐体10の4隅にマイクロフォン20を備えているため、専用の装置となってしまう。第6の実施形態においては、4隅にマイクロフォン20を備えていない汎用の携帯電話や情報端末を用いて、共通リソースを利用した音声情報表示装置100を構成する。
図33は、音声情報表示装置100を構成するジャケットマイク部500の概観斜視図である。ジャケットマイク部500には表示機能は備えられておらず、4隅にマイクロフォン20が備えられている。図34は、汎用の携帯電話600に、ジャケットマイク部500を装着し、音声情報表示装置200を構成した場合の斜視図である。この音声情報表示装置200は、ジャケットマイク部500に備えられたマイクロフォン20が取得した音声信号に基づき、音源方向のマイクロフォン20の配置方向を基点として音声信号を表す形状を、携帯電話600における表示部640に表示させる。
音声情報表示装置200は、図35に示すように、ジャケットマイク部500および携帯電話600により構成される。携帯電話600は、上述したように電話機能を有さない情報端末であってもよい。ジャケットマイク部500はその上面に携帯電話600を装着するが、装着機構の有無は問わない。
ジャケットマイク部500は、第1の制御部510、音声信号入力部120、第1の操作部550、第1の電源部560、第1の通信部570、マイクロフォン20を備える。また、携帯電話600は、第2の制御部610、記憶部630、表示部640、第2の操作部650、第2の電源部660、第2の通信部670、第3の通信部680を備える。
第1の制御部510は、その構成は制御部110と同様であり、ジャケットマイク部500を構成する各部の動作制御、各種データの処理または演算等を行う。第1の制御部510は、実行されるプログラムによって、第1の操作制御部512および第1の通信制御部515を実現する。
第1の操作制御部512は、第1の操作部550が操作されることによって生成する操作信号に基づいた処理を実行させる。第1の通信制御部515は、音声信号入力部120から送出された音声データまたは音声データに基づくデータを、第1の通信部560を用いて送信する制御を行う。
第1の操作部550は、ジャケットマイク部500に対してユーザが各種処理や動作指示を行うためのユーザインターフェースであり、その構成は操作部150と同様である。第1の操作部550が操作されることにより、操作に基づく信号が後述する第1の操作制御部512に出力され、操作に基づく各部の動作や各種処理が実行される。
第1の電源部560は、ジャケットマイク部500を構成する各部に電力を供給するバッテリを含む電源回路等であり、第1の制御部510の制御によって、各部へ適切な電力の供給や、第1の電源部560への充電が制御される。
第1の通信部570は、携帯電話600との通信を行う通信ユニットから構成され、第1の通信制御部515の制御により音声信号入力部120への音声入力に基づく各種データを送出する。第1の通信部570は、例えばブルートゥース方式の通信を行う通信ユニットや、赤外線通信を行う通信ユニット、誘導電界を用いた通信方式等、各種無線通信方式が適用可能である。第1の通信部570は、無線通信方式に限らず、携帯電話600と有線接続するインターフェースであってもよい。
第2の制御部610は、その構成は制御部110と同様であり、携帯電話600を構成する各部の動作制御、各種データの処理または演算等を行うことにより、携帯電話600としての機能に加えて、ジャケットマイク部500から送出されたデータに基づく音声情報表示装置200としての各種処理を行う。第1の制御部510は、実行されるプログラムによって表示制御部611、第2の操作制御部612、入力音分析部613、音認識部614、第2の通信制御部615、第3の通信制御部616を実現する。
表示制御部611は、表示部640に対して各種情報を表示させる処理を行う。例えば、記憶部130に記憶されている各種表示形態や文字等の表示、図示しないタッチパネル操作部に連動した各種GUIなどを表示させる。
第2の操作制御部612は、第2の操作部650が操作されることによって生成する操作信号に基づいた処理を実行させる。
入力音分析部613は、入力音分析部113と同様の処理を、ジャケットマイク部500から受信した音声データまたは音声データに基づくデータに対して行う。具体例としては、マイクロフォン20A〜20Dに入力された音圧の分析、音圧に基づく音源方向の分析、周波数の分析などである。
音認識部614は、音認識部114と同様の処理をジャケットマイク部500から受信した音声データまたは音声データに基づくデータに対して行う。
第2の通信制御部615は、第2の通信部670を用いて、ジャケットマイク部500から音声データまたは音声データに基づくデータを受信する制御を行う。
第3の通信制御部616は、第3の通信部680を用いて、携帯電話回線や無線LAN回線等を用いた通信のための制御を行う。
第2の通信部670は、ジャケットマイク部500との通信を行う通信ユニットから構成され、第2の通信制御部615の制御により、第1の通信部570から送出された各種データを受信する。第2の通信部670の通信方式は第1の通信部570と同一の通信方式を用いる。
第3の通信部680は、携帯電話600が単独で電話端末や通信端末として用いられる場合に用いる通信ユニットであり、第3の通信制御部616の制御により、携帯電話回線を用いた通信や無線LAN回線を用いた通信を行う。第3の通信部680は、携帯電話600にジャケットマイク部500が装着された場合、通常の電話端末や通信端末としての通信機能に加えて、音声情報表示装置200として必要な通信を行ってもよい。例えば、音認識部614による音データベースとの照合を、第3の通信部680による通信を介して他のサーバ等で行う場合である。
記憶部630は、その構成は記憶部130と同様であり、携帯電話600として必要な記憶動作に加えて、ジャケットマイク部500から送出されたデータに基づく音声情報表示装置200としての記憶動作を行う。
表示部640は、その構成は表示部140と同様であり、表示制御部611の制御により、携帯電話600として必要な表示内容に加えて、音声情報表示装置200として必要な表示内容が表示される。
第2の操作部650は、携帯電話600に対してユーザが各種処理や動作指示を行うためのユーザインターフェースであり、その構成は操作部150と同様である。第2の操作部650が操作されることにより、操作に基づく信号が後述する第2の操作制御部612に出力され、操作に基づく各部の動作や各種処理が実行される。
第2の電源部660は、携帯電話600を構成する各部に電力を供給するバッテリを含む電源回路等であり、第2の制御部610の制御によって、各部へ適切な電力の供給や、第2の電源部660への充電が制御される。
次に、ジャケットマイク部500が実行する処理を図36により説明する。ジャケットマイク部500の電源は、独立して操作されてもよく、携帯電話600と装着されることにより電源がオンとなってもよい。ジャケットマイク部500は、第1の電源部560から電力が供給されて動作している間は、常時マイクロフォン20による音声の入力を受け付けている。その状態において、第1の制御部510により音声信号の入力があると判断された場合(ステップS61:Yes)、第1の通信制御部515は、入力された音声信号に基づく音声信号入力部120によりA/D変換された音声データを、携帯電話600に送信する(ステップS62)。
ステップS61の処理を行わずに、例えば、マイクロフォン20への音声信号の入力有無に関わらず、無音も含めた音声データを常時携帯電話600に送信してもよいが、消費電力削減する上では、音声信号の入力毎に送信することが好ましい。さらには、第1の制御部510は、音声信号入力部120から取得した音声データが、所定以上の音圧の音声データであるかを判断し、所定以上の音圧のデータである場合に、その音声データを携帯電話600に送信してもよい。
次に、携帯電話600が実行する処理を図37により説明する。先ず、入力音分析部613は、第2の通信部によりジャケットマイク部500から音声データを受信したか否かを判断する(ステップS71)。音声データを受信したと判断した場合(ステップS70:Yes)、他の実施形態と同様に、入力音分析部613は音源方向の分析を行う(ステップS72)。また、入力音分析部613および音認識部614は、必要に応じて他の実施形態と同様に、受信音声の周波数分析(ステップS73)、受信音声の音圧分析(ステップS74)、受信音声の音種別分析(ステップS75)を実行する。次に、これらの処理に基づき、他の実施形態と同様に、表示制御部611は表示部640に音声を示す情報を表示させる(ステップS76)。
このような構成とすることで、音声情報表示装置100のような専用の装置ではなくとも、汎用の携帯電話や情報端末を用いて、容易に音声情報表示装置200を構成することができる。音声情報表示装置200の表示形態は、第1の実施形態から第5の実施形態における表示形態に共通する。
また、音声情報表示装置200の構成は、図33および図34の形状に限定されず、例えば、ジャケットマイク部500は携帯電話600の周囲を覆う形状としてもよい。この場合、ジャケットマイク部500における携帯電話600の周囲を覆う部分の4隅にマイクロフォン20が各々設けられる。
本発明の実施の形態は、その要旨を逸脱しない限り、様々に変更可能である。また、本発明における音声情報表示装置100および音声情報表示装置200を実現するためのプログラムは、例えばネットワークや可搬型の記憶媒体によって、音声情報表示装置100または携帯電話600に加えて、同様の機能を備える装置にインストールされてもよい。