JP2015082734A - 音声処理装置、音声処理システム、及び音声処理方法 - Google Patents

音声処理装置、音声処理システム、及び音声処理方法 Download PDF

Info

Publication number
JP2015082734A
JP2015082734A JP2013219470A JP2013219470A JP2015082734A JP 2015082734 A JP2015082734 A JP 2015082734A JP 2013219470 A JP2013219470 A JP 2013219470A JP 2013219470 A JP2013219470 A JP 2013219470A JP 2015082734 A JP2015082734 A JP 2015082734A
Authority
JP
Japan
Prior art keywords
unit
sound
sound collection
video
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013219470A
Other languages
English (en)
Inventor
岸本 倫典
Michinori Kishimoto
倫典 岸本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2013219470A priority Critical patent/JP2015082734A/ja
Publication of JP2015082734A publication Critical patent/JP2015082734A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Studio Devices (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】収音部により収音された音の音質を向上できる音声処理装置を提供する。【解決手段】複数のマイクロホンを含む収音部により収音された音声データと、撮像部により撮像された映像データと、を取得するデータ取得部と、取得された映像データにおける空間的な映像範囲を指定する範囲指定部と、前記音声データにおける前記範囲指定部により指定された前記映像範囲の方向における音声成分を強調する指向性処理部と、指定された映像範囲及び収音部の収音特性に基づいて、音声データの周波数特性を補正する特性補正部と、を備える。【選択図】図2

Description

本発明は、音声処理装置、音声処理システム、及び音声処理方法に関する。
従来、例えば、工場、店舗、公共の場所の状況を、特定の室内又は遠隔地において監視する場合に、監視システムが利用されている。監視システムは、例えば、映像を撮像するカメラ、音声を収音するマイクロホン、所定のデータ(例えば、撮像した映像、収音された音声)を記憶するレコーダ装置、を備える。監視システムを用いることで、例えば、事件又は事故が発生した場合、レコーダ装置が記録した過去のデータを再生し、記録された映像又は音声を過去の時点における状況把握に役立てることができる。
従来の監視システムとして、全方位カメラ及びマイクロホンアレイのためのシステムが知られている。このシステムは、複数のマイクロホンにより形成されたアレイマイクを利用し、フィルタリングにより特定の方向からの音のみを抽出し、ビームを形成する(例えば、特許文献1参照)。
特開2004−32782号公報
従来のシステムでは、収音部により収音された音の音質が低下する場合があった。
本発明は、上記事情に鑑みてなされたものであり、収音部により収音された音の音質を向上できる音声処理装置、音声処理システム、及び音声処理方法を提供する。
本発明の音声処理装置は、複数のマイクロホンを含む収音部により収音された音声データと、撮像部により撮像された映像データと、を取得するデータ取得部と、前記データ取得部により取得された映像データにおける空間的な映像範囲を指定する範囲指定部と、前記音声データにおける前記範囲指定部により指定された前記映像範囲の方向における音声成分を強調する指向性処理部と、前記範囲指定部により指定された前記映像範囲及び前記収音部の収音特性に基づいて、前記音声データの周波数特性を補正する特性補正部と、を備える。
また、本発明の音声処理システムは、複数のマイクロホンを用いて収音する収音部と、映像を撮像する撮像部と、前記撮像部により撮像された映像データにおける空間的な映像範囲を指定する範囲指定部と、前記収音部により収音された音声データにおける前記範囲指定部により指定された前記映像範囲の方向における音声成分を強調する指向性処理部と、前記範囲指定部により指定された前記映像範囲及び前記収音部の収音特性に基づいて、前記音声データの周波数特性を補正する特性補正部と、を備える。
また、本発明の音声処理方法は、音声処理装置における音声処理方法であって、複数のマイクロホンを含む収音部により収音された音声データと、撮像部により撮像された映像データと、を取得するステップと、前記取得された映像データにおける空間的な映像範囲を指定するステップと、前記音声データにおける前記指定された映像範囲の方向における音声成分を強調するステップと、前記指定された映像範囲及び前記収音部の収音特性に基づいて、前記音声データの周波数特性を補正するステップと、を有する。
また、本発明の音声処理方法は、音声処理システムにおける音声処理方法であって、複数のマイクロホンを用いて収音するステップと、映像を撮像するステップと、撮像された映像データにおける空間的な映像範囲を指定するステップと、前記収音された音声データにおける前記指定された映像範囲の方向における音声成分を強調するステップと、前記指定された映像範囲及び前記収音部の収音特性に基づいて、前記音声データの周波数特性を補正するステップと、を有する。
本発明によれば、収音部により収音された音の音質を向上できる。
実施形態における監視システムの概要図 実施形態における監視システムの構成例を示すブロック図 実施形態におけるアレイマイク、カメラ及び各音源の配置状態の一例を示す平面図 実施形態におけるモニタによる画面表示例を示す模式図 実施形態におけるアレイマイクの収音角度毎の収音特性の一例を示す模式図 実施形態における音声処理機能の概要を示す模式図 実施形態におけるディジタルフィルタの収音角度毎のフィルタ特性の一例を示す模式図 (A),(B)実施形態における監視制御装置の動作例を示すフローチャート 実施形態における指向性処理の概要図 実施形態におけるディジタルフィルタの構成例を示すブロック図
本発明の実施形態について、図面を用いて以下に説明する。
(本発明の一形態を得るに至った経緯)
従来のシステムは、アレイマイクが収音した音のうち、特定の方向からの音のみを抽出してビームを形成し、音響指向特性(単に指向性ともいう)を調整できる。しかし、特定の監視対象物(例えば人物含む)の位置に合わせて指向性を調整した場合でも、指向性を調整した方向によっては収音音質の劣化が発生する場合がある。
例えば、アレイマイク本体の大きさが、アレイマイクに含まれる各マイクロホンの大きさに対して所定以上の大きさを有することを想定する。この場合、可聴周波数帯域において、比較的高い周波数帯域では、音声データの信号レベルが大きく、比較的低い周波数領域では、音声データの信号レベルが小さいことがある。この場合、指向性を調整した方向によっては収音音質の劣化が発生する場合がある。また、指向性を調整する方向(指向性の向き)が変化すると、それに伴って音質が変化する傾向がある。この場合、収音された音声データの特性を一律に調整しても、音質を改善できない場合がある。
以下、収音部により収音された音の音質を向上できる音声処理装置、音声処理システム、及び音声処理方法について説明する。
図1は実施形態における監視システム100の概要図である。監視システム100では、アレイマイク10(Array microphones)、カメラ20、監視制御装置30、及びレコーダ70が、有線又は無線のネットワーク50を介して接続される。
アレイマイク10は収音部、収音装置の一例である。カメラ20は撮像部、撮像装置の一例である。監視制御装置30は、音声処理装置の一例である。レコーダ70は記憶装置の一例である。監視システム100は、音声処理システムの一例である。
アレイマイク10は、複数のマイクロホン11(11A,11B,11C,・・・)を含み、アレイマイク10の周囲の音を収音し、音声データ(第1の音声データの一例)を得る。カメラ20は、カメラ20の所定のエリアを撮像し、映像データを得る。監視制御装置30は、アレイマイク10による収音結果、カメラ20による撮像結果に応じて、監視対象物を監視に係る各種制御を行う。レコーダ70は、例えば、アレイマイク10により収音された音声データ、カメラ20により撮像された映像データ、を記憶する。
監視システム100では、ユニット筐体91に、1個のカメラ20と、アレイマイク10に含まれる16個のマイクロホン11(11A,11B,11C,・・・)と、が一体的に組み込まれ、収音ユニット90を形成する。なお、アレイマイク10におけるマイクロホンの数は、15個以下でも、17個以上でもよい。また、アレイマイク10とカメラ20とは収音ユニット90を形成せず、別体に形成されてもよい。
カメラ20は、例えば、撮像方向の中心(光軸方向)を鉛直下向きにして、ユニット筐体91の略中央部に配置される。アレイマイク10において複数のマイクロホン11は、ユニット筐体91の設置面に沿ってカメラ20の周囲を取り囲むように、1つの円周上に一定の間隔で配置される。複数のマイクロホン11は、円周上でなく、例えば矩形上に配置されてもよい。
カメラ20は、例えば、広範囲(例えば全方向)の被写体を同時に撮像可能に構成される。各マイクロホン11は、例えば、広範囲(例えば全方位)から到来する音波を検出可能に構成される。
図2は監視システム100の構成例を示すブロック図である。監視システム100は、アレイマイク10、カメラ20、監視制御装置30、及びレコーダ70を備える。アレイマイク10、カメラ20、監視制御装置30、及びレコーダ70は、ネットワーク50を介して互いにデータ通信できる状態で接続される。また、監視制御装置30には、例えば、モニタ61、マウス62、及びスピーカ63が接続される。
図2では、監視システム100がレコーダ70を備えるが、映像、音声をリアルタイムで監視するシステムであれば、レコーダ70が省略されてもよい。また、音声のみを用いて監視するシステムであれば、カメラ20や表示に関連する機能が省略されてもよい。
また、以下では、主に、アレイマイク10に含まれる複数のマイクロホン11のうち、3個のマイクロホン11A,11B,11Cを代表して説明する。3個のマイクロホン11A〜11C以外のマイクロホンについても、マイクロホン11A〜11Cと同様の構成及び機能を有する。
アレイマイク10は、複数のマイクロホン11A,11B,11Cが互いに近接した状態で規則的(ここでは円周上)に配列され、形成される。マイクロホン11A〜11Cは、音声を電気信号(音声データ)に変換する変換器である。アレイマイク10では、複数のマイクロホン11A,11B,11Cが規則的に配置されなくてもよい。この場合でも、例えば、各マイクロホン11A〜11Cの位置の情報が監視システム100に保持され、指向性処理されてもよい。
マイクロホン11A〜11Cの出力には、増幅器12A〜12C、A/D変換器(ADC:Analog to Digital Converter)13A〜13C、及び音声エンコーダ14A〜14Cが接続される。また、音声エンコーダ14A〜14Cの出力には、ネットワーク処理部15が接続される。
マイクロホン11A〜11Cは、様々な方向から入力される音響の振動に応じたアナログ音声データを生成する。増幅器12A〜12Cは、マイクロホン11A〜11Cが出力するアナログ音声データを増幅する。A/D変換器(ADC)13A〜13Cは、増幅器12A〜12Cが出力するアナログ音声データの電圧を周期的にサンプリングし、ディジタル信号に変換する。音声エンコーダ14A〜14Cは、A/D変換器13A〜13Cが出力するディジタルデータ(音声データの波形の時系列変化)を圧縮符号化して、伝送に適した所定の形式のディジタル音声データを生成する。音声エンコーダ14A〜14Cは、圧縮せずに符号化してもよい。
尚、本実施形態における「音声」は、人間の発声によって得られる音声の他に、例えば、機械的な振動によって発生する一般的な音響又はノイズの成分が含まれてもよい。また、「音声」には、例えば監視対象である音声以外の音声が含まれてもよい。つまり、マイクロホン11A〜11Cにより収音された音響の信号は、音響の種類を区別せずに「音声」と記載されることもある。
ネットワーク処理部15は、音声エンコーダ14A〜14Cが生成したディジタル音声データ)をネットワーク50に対して送出する。例えば、マイクロホン11A〜11Cが収集した音声に対して、音声エンコーダ14A〜14Cが独立したディジタル音声データを生成する。よって、ネットワーク処理部15は、各マイクロホン11A〜11Cに対応する複数チャネルのディジタル音声データをネットワーク50に送出する。
カメラ20は、レンズ21、センサ22、映像エンコーダ23、及びネットワーク処理部24を備える。
レンズ21は、例えば全方位レンズ、魚眼レンズである。センサ22は、撮像デバイスであり、例えば、CCD(Charge Coupled Device)イメージセンサ、CMOS(Complementary Metal Oxide Semiconductor)イメージセンサを含む。センサ22は、センサの撮像面にレンズ21を介して入射する被写体の光像に応じた映像信号を生成する。
映像エンコーダ23は、センサ22が出力する映像信号を順次処理し、所定の規格に適合するディジタル映像信号を生成する。ネットワーク処理部24は、映像エンコーダ23が生成したディジタル映像信号を、ネットワーク50に送出する。
監視制御装置30は、例えば、PC(Personal Computer)である。監視制御装置30は、例えば、CPU(Central Processing Unit)、又はDSP(Digital Signal Processor)を含む。監視制御装置30は、例えば、ROM(Read Only Memory)、又はRAM(Random Access Memory)を含む。
監視制御装置30は、例えば、CPU又はDSPにより、ROM又はRAMに記録された制御用のプログラム(例えば、アプリケーションプログラム、アクティブX形式のプログラム)を組み込むことにより、各種機能を実現する。
監視制御装置30は、ネットワーク処理部31、映像デコーダ32、映像出力部33、画像認識部34、収音座標指定部35、音声デコーダ36A,36B,36C、及び指向性処理部37を備える。また、監視制御装置30は、収音角度演算部38、ディジタルフィルタ39、フィルタ係数決定部40、D/A変換器(DAC:Digital to Analog Converter)41、及び音声出力部42を備える。
ネットワーク処理部31は、ネットワーク50を経由して、アレイマイク10、カメラ20、及びレコーダ70との間においてデータ通信する。データ通信により、ネットワーク処理部31は、アレイマイク10から複数のチャネルのディジタル音声データを取得し、カメラ20からディジタル映像信号を取得する。また、ネットワーク処理部31は、レコーダ70から複数のチャネルのディジタル音声データを取得し、ディジタル映像信号を取得してもよい。
映像デコーダ32は、ネットワーク処理部31がネットワーク50から取得した所定形式のディジタル映像信号を復号し、再生可能なディジタル映像信号を生成する。
映像出力部33は、映像デコーダ32からのディジタル映像信号を、モニタ61が表示可能な形式の映像信号に変換し、モニタ61に送出する。また、映像出力部33は、モニタ61による表示を制御してもよい。
モニタ61は、映像出力部33からの映像信号に従って、画面上に映像を表示する。例えば、カメラ20が撮像した映像、レコーダ70が出力した映像が、モニタ61の画面上に表示される。
画像認識部34は、映像出力部33からの映像信号に対して所定の画像処理を実行し、例えば、図示しないメモリに事前に登録された様々なパターンの画像と一致するか否かを認識する。例えば、パターンマッチングの処理を実行し、映像に含まれる様々な物体の中から、所定の人物又は所定の人物の顔に類似するパターンを抽出する。人物以外の物体のパターンを抽出してもよい。
収音座標指定部35は、例えば、マウス62又は画像認識部34からの入力を受け付け、入力位置又は入力範囲に対応する座標を導出する。例えば、モニタ61の画面上に表示される映像において、操作者60が注目すべき点の位置(例えば図1の符号P1)の座標を、収音座標(x,y)として受け付ける。収音座標指定部35は、範囲指定部の一例である。
操作者60は、例えば、モニタ61の画面を見てマウス62を操作する。操作者60は、マウス62の移動操作に伴って画面上に表示されるポインタ(図示せず)の位置が移動するので、収音座標を画面上の表示範囲において変更できる。例えば、操作者60によるマウス62のクリック操作(第1の入力の一例)により、ポインタの座標が収音座標として収音座標指定部35に与えられる。操作者60は、監視システム100を用いて監視する監視者の一例である。
マウス62以外の入力手段を用いて収音座標を指定してもよい。例えば、モニタ61の画面がタッチパネル機能を有し、操作者60が、タッチパネルを用いて所望の映像範囲をタッチしてもよい。
また、画像認識部34は、事前に登録されたパターンが映像信号に含まれると認識した場合、認識されたパターンが存在するモニタ61の画面上の位置(例えば図1の符号P1)の座標を、収音座標として収音座標指定部35に与えてもよい。認識されたパターンは、例えば、人物の全体、人物の顔である。
音声デコーダ36A〜36Cは、各々、所定の形式で圧縮符号化されたディジタル音声データを入力し、復号する。また、音声デコーダ36A〜36Cは、各々独立して設けられた場合、アレイマイク10のマイクロホン11A〜11Cの各々が収集した複数チャネルの音声データを同時に処理できる。
指向性処理部37は、音声デコーダ36A〜36Cから出力される複数チャネルのディジタル音声データを、所定のアルゴリズムに従って合成する(指向性処理)。例えば、監視対象の人物が存在する場所(注目点)の方向(指向性の方向)の音声成分の信号レベルを上げ、これ以外の方向の音声成分の信号レベルを下げる。なお、指向性の方向は、複数存在してもよい。
これにより、様々な方向からアレイマイク10に到来する音響において、監視対象の人物の音声を強調して抽出し、目的外の音声(例えば、監視対象外の人物の音声、音響ノイズ)を抑制できる。
なお、上記パラメータは、例えば、収音角度演算部38により導出された収音角度θに基づく。指向性処理部37は、指向性処理された1つの音声データを出力する。
収音角度演算部38は、収音座標指定部35が決定した収音座標に基づいて、アレイマイク10の指向性の方向を表す収音角度θを導出(例えば算出)する。収音角度演算部38が導出した収音角度θが、指向性処理部37及びフィルタ係数決定部40にパラメータとして入力される。例えば、収音座標と収音角度とは1対1で対応しており、この対応情報を含む変換テーブルが図示しないメモリに格納されてもよい。収音角度演算部38は、この変換テーブルを参照し、収音角度θを導出してもよい。
ディジタルフィルタ39は、指向性処理部37から出力される指向性処理後のディジタル音声データ(第2の音声データの一例)に対して所定のフィルタリングを施し、ディジタル音声データの周波数特性を補正する。ディジタルフィルタ39は、例えば、ディジタルIIR(Infinite Impulse Response:無限インパルス応答)フィルタ、又はディジタルFIR(Finite Impulse Response:有限インパルス応答)フィルタを含む。ディジタルフィルタ39の周波数特性(フィルタ特性)を決定するパラメータは、例えば、フィルタ係数決定部40から入力される。ディジタルフィルタ39は、例えば、音声データの周波数特性を補正する特性補正部の一例である。
フィルタ係数決定部40は、収音角度演算部38から入力される収音角度θの情報に基づいて、ディジタルフィルタ39が音声データの周波数特性を補正するパラメータを導出し、導出されたパラメータをディジタルフィルタ39に与える。従って、収音角度θに応じて導出されるパラメータが変化し、ディジタルフィルタ39のフィルタ特性が変化する。
フィルタ係数決定部40及びディジタルフィルタ39は、音声データの周波数特性を可変するイコライザーユニットとして動作する。これにより、収音角度θに応じたアレイマイク10の周波数特性(収音特性)のばらつきを修正でき、音声データの周波数特性のばらつきを修正できる。収音特性のばらつきとは、例えば、収音角度θに応じて各収音特性が異なることを指す。イコライザーユニットにより、収音角度θに応じた収音特性に関わらず、音声データの周波数特性を一様にできる。
D/A変換器41は、ディジタルフィルタ39により処理されたディジタル音声データ(第3の音声データの一例)を入力し、アナログ音声データに変換する。D/A変換器41は、変換後のアナログ音声データを音声出力部42に与える。
音声出力部42は、D/A変換器41からのアナログ音声データを増幅し、スピーカ63に与える。スピーカ63は、音声出力部42からのアナログ音声データに相当する音を出力する。従って、操作者60は、アレイマイク10により収音された音声データが処理された音を、スピーカ63から聴くことができる。
レコーダ70は、ネットワーク処理部71、及びデータ記録部72を備える。レコーダ70は、例えば、CPU、DSP、ROM、又はRAMを含み、CPU又はDSPにより、ROM又はRAMに記録された制御用のプログラムを組み込むことにより、各種機能を実現する。
ネットワーク処理部71は、例えば、アレイマイク10から送出される複数チャネルのディジタル音声データ、又はカメラ20から送出されるディジタル映像信号を、ネットワーク50を経由して取得する。また、ネットワーク処理部71は、例えば、データ記録部72が記録したディジタル音声データ又はディジタル映像信号を、ネットワーク50に送出する。
データ記録部72は、例えば、HDD(Hard Disk Drive)を含み、ネットワーク処理部71が取得した複数チャネルのディジタル音声データ、及びディジタル映像信号のデータを、順次記録する。データ記録部72は、ディジタル音声データ及びディジタル映像信号のデータを記録する場合、ディジタル音声データの生成時刻とディジタル映像信号の生成時刻とを対応づけて記録する。また、上記生成時刻の情報を、ディジタル音声データ又はディジタル映像信号と共に記録してもよい。
レコーダ70に記録されたディジタル音声データ及びディジタル映像信号は、例えばCPUにより所定の命令を与えることにより、データ記録部72から読み出され、ネットワーク処理部71及びネットワーク50を経由して監視制御装置30に与えられる。
監視制御装置30は、アレイマイク10が送出するディジタル音声データとカメラ20が送出するディジタル映像信号とを、アレイマイク10及びカメラ20から直接入力してもよい。また、監視制御装置30は、レコーダ70に記録されたディジタル音声データ及びディジタル映像信号を、所定の時点においてレコーダ70から読み出して入力してもよい。
次に、アレイマイク10、カメラ20及び各音源の配置状態について説明する。
図3は、アレイマイク10、カメラ20及び各音源の配置状態の一例を示す模式図である。
図3では、例えば、収音ユニット90が屋内の天井面101に固定される。図3では、アレイマイク10に含まれる複数のマイクロホン11A〜11Cは、天井面101(収音ユニット90の設置面)に沿って配列される。
また、収音ユニット90は、アレイマイク10の基準方向とカメラ20の基準方向(例えば光軸方向)とが一致するよう天井面101に取り付けられる。アレイマイク10の基準方向に対する水平方向及び垂直方向と、カメラ20の基準方向に対する水平方向及び垂直方向とは、一致する。この水平方向はx軸方向,y軸方向であり、垂直方向はz軸方向である。
アレイマイク10の基準方向は、例えば、アレイマイク10における各マイクロホン11が配列された配列方向である。収音角度θは、アレイマイク10の基準方向と指向性の方向とにより形成される角度である。アレイマイク10の基準方向と指向性の方向とにより形成される収音角度θの水平方向成分は、水平角θhである。アレイマイク10の基準方向と指向性の垂直方向とにより形成される収音角度θの垂直方向成分は、垂直角θvである。
収音ユニット90では、アレイマイク10における各マイクロホン11が円周上に一定の間隔で配列されるので、配列面(x−y面)に沿う水平方向に対しては、どの向きに対しても音声データの周波数特性が同様になる。従って、図3の例では、収音角度θは、実質的に垂直角θvに依存する。そのため、以下の説明では主に、収音角度θとして水平角θhを考慮しないで説明する。
図3に示すように、収音ユニット90におけるアレイマイク10の収音角度θ(垂直角θv)は、マイクロホン11A〜11Cの配列面と平行な方向(x軸,y軸)と、指向性の感度が最大になる方向と、のなす角度である。
マイクロホン11A〜11Cは、マイクロホン11A〜11Cに向かって到来する音声を収音する。また、カメラ20は、直下(z軸方向)の方向を基準方向(光軸方向)として、カメラ20の周囲における例えば全方位を撮像する。
なお、アレイマイク10による収音対象又はカメラ20による撮像対象は、全方位でなく、一部の方向に制限されてもよい。また、アレイマイク10又は監視制御装置30は、一部の方向に収音対象が制限された状態で収音された音声データを合成し、収音対象が全方位である場合と同様の音声データを生成してもよい。また、カメラ20又は監視制御装置30は、一部の方向に撮像対象が制限された状態で撮像された映像信号を合成し、撮像対象が全方位である場合と同様の映像信号を生成してもよい。
図3では、天井面101と略平行に対向する床面102に、3つの音源PA,PB,PCが離間して存在する場合を想定する。音源PA〜PCは、例えば人物である。
カメラ20は、音源PA〜PCを含む範囲の被写体を撮像する。また、アレイマイク10は、音源PA〜PCが発生する音声を収音する。
監視システム100では、監視制御装置30の指向性処理部37が、スピーカ63から出力される音声データに指向性を付与する。指向性処理部37は、アレイマイク10の収音感度が高い方向として、音源PA〜PCのいずれの方向も選択できる。
尚、詳細については後述するが、アレイマイク10における指向性処理後の音声データの周波数特性は、収音角度θに応じて変化する。つまり、アレイマイク10の指向性を音源PA〜PCのいずれの方向に向けるかに応じて、アレイマイク10の収音特性が変化し、音声データの周波数特性が変化する。音声データの周波数特性の変動は、例えば、音質を劣化させ、音声の聞き取り易さに影響する。
次に、モニタ61による画面表示について説明する。
図4は、モニタ61による画面表示例を示す模式図である。例えば、図3の配置状態においてカメラ20により撮像された映像を、ネットワーク50及び監視制御装置30を介してモニタ61に出力すると、図4に示す表示画面61aが表示される。
次に、アレイマイク10の収音特性について説明する。
図5は、アレイマイク10の収音特性の一例を示す模式図である。アレイマイク10の収音特性は、補正前における測定音の音声データの周波数特性に相当する。ここでの補正前とは、ディジタルフィルタ39によるフィルタリングを実施する前、つまり音声データの周波数特性の補正前を示す。収音特性は、周波数(Hz)と信号レベル(dB)との関係性を示す。
収音特性を測定するため、アレイマイク10は、各音源が同様に、例えば、周波数に対して略一定の信号レベルを有する音(測定音)を入力する。また、監視制御装置30は、例えば、アレイマイク10から音声データを受信し、当該音声データを処理する。測定音の音声データは信号レベルが平坦(フラット)であるので、測定音の音声データの周波数特性は、アレイマイク10の収音特性に相当する。
図3の配置状態において、アレイマイク10の収音感度が最大の方向(指向性の方向)が音源PAの方向と一致するように指向性処理した場合、指向性処理後のディジタル音声データの周波数特性(補正前の周波数特性)は、図5の符号CAにより示される。つまり、指向性の方向が音源PAの方向である収音角度θの場合、収音特性CAが得られる。
図3の配置状態において、アレイマイク10の指向性の方向が音源PBの方向と一致するように指向性処理した場合、補正前の周波数特性は、図5の符号CBにより示される。つまり、指向性の方向が音源PBの方向である収音角度θの場合、収音特性CBが得られる。
図3の配置状態において、アレイマイク10の指向性の方向が音源PCの方向と一致するように指向性処理した場合、補正前の周波数特性は、図5の符号CCにより示される。つまり、指向性の方向が音源PCの方向である収音角度θの場合、収音特性CCが得られる。
収音特性CA〜CCは、いずれも特性が異なり、平坦ではない。収音特性CA〜CCでは、略数百Hz以下の低音域(低周波数領域)では相対的に収音感度が低く、略1kHz以上の高音域(高周波数領域)では相対的に収音感度が高い。また、指向性の向きに応じて収音特性が変動し、具体的には、図3に示す収音角度θの違いに応じて、符号CA〜CCのように収音特性が変動する。なお、ここでは1kHz以上の場合に収音感度が相対的に高いことを例示したが、収音感度が相対的に高くなる周波数は、アレイマイク10の物理的な大きさによって変化する傾向がある。
例えば、アレイマイク10の指向性の方向を、音源PAの方向に合わせた場合と音源PCの方向に合わせた場合とでは、収音特性CA,CCのような違いが生じる。また、例えば、収音特性CCの場合、高音域に比べて低音域の信号レベルが非常に小さくなる場合がある。
監視制御装置30では、フィルタ係数決定部40が、収音角度θに基づいて、ディジタルフィルタ39に与えるパラメータを導出する。そして、ディジタルフィルタ39が、ディジタル音声データの周波数特性を動的に補正する。
収音角度θを考慮して音声データの周波数特性を補正することにより、以下の状態を抑制できる。例えば、収音角度θを考慮して収音特性が平坦になるように音声データの周波数特性を補正することにより、収音特性CCが付加された音声データの低音域が、他の収音特性CA,CBが付加された音声データの低音域よりも強調されることを抑制できる。
次に、監視制御装置30が有する音声処理機能について詳細に説明する。
図6は、監視制御装置30の音声処理機能の概要を示す模式図である。
フィルタ係数決定部40は、補正テーブル40aを有する。補正テーブル40aは、収音角度θの範囲毎に、事前に決定されたn(複数)個のパラメータを定数として保持する。
例えば、「0<θ≦10(度)」の角度範囲に対応付けて、n個1組のパラメータ(Fa1,Fa2,Fa3,・・・,Fan)が保持される。「10<θ≦20(度)」の角度範囲に対応付けて、n個1組のパラメータ(Fb1,Fb2,Fb3,・・・,Fbn)が保持される。また、「20<θ≦30(度)」の角度範囲に対応付けて、n個1組のパラメータ(Fc1,Fc2,Fc3,・・・,Fcn)が保持される。なお、10度毎にパラメータが保持されることは一例である。
フィルタ係数決定部40は、収音角度演算部38から入力される収音角度θに応じて、補正テーブル40aから該当する角度範囲のn個1組のパラメータを取得し、取得されたパラメータをディジタルフィルタ39に与える。
補正テーブル40aに保持される各パラメータは、例えば、監視システム100におけるアレイマイク10の構成又は配置状態に基づき、収音角度θ毎に導出(例えば実測)された収音特性CA〜CCに基づいて、事前に決定される。例えば、実測により得られた収音角度θ毎の収音特性CA〜CCと、ディジタルフィルタ39のフィルタ特性と、が正反対(逆)になる数値が、各パラメータに割り当てられる。
次に、ディジタルフィルタ39のフィルタ特性について説明する。
図7は、ディジタルフィルタ39の複数のフィルタ特性の一例を示す模式図である。監視システム100では、ディジタルフィルタ39のフィルタ特性C2A,C2B,C2Cは、各々、図5に示した収音特性CA,CB,CCに対応付けられる。フィルタ特性は、周波数と信号レベル(dB)との関係性を示す。
例えば、図3に示した音源PAに対する収音感度が最大になる方向がアレイマイク10の指向性の方向に一致する場合、アレイマイク10の収音特性は、図5に示した収音特性CAになる。収音特性CAの場合の収音角度θに応じて、補正テーブル40aから選択的に取得されたパラメータがディジタルフィルタ39に与えられると、ディジタルフィルタ39のフィルタ特性は、図7に示すフィルタ特性C2Aになる。
この場合、ディジタルフィルタ39に入力されるディジタル音声データには、収音特性CAに応じた周波数特性が付与されており、この周波数特性とディジタルフィルタ39のフィルタ特性C2Aとが、例えば正反対であるので、2つの特性が互いに相殺される。従って、アレイマイク10の入力からディジタルフィルタ39の出力までのシステム全体の周波数特性が、フラット(平坦)になる。これにより、ディジタル音声データの周波数特性において、アレイマイク10の収音特性に応じて所定の周波数領域(例えば高音域)が強調されることを抑制できる。
同様に、図3に示した音源PBに対する収音感度が最大になる方向がアレイマイク10の指向性の方向に一致する場合、アレイマイク10の収音特性は、図5に示した収音特性CBになる。収音特性CBの場合の収音角度θに応じて、補正テーブル40aから選択的に取得されたパラメータがディジタルフィルタ39に与えられると、ディジタルフィルタ39の周波数特性は、図7に示すフィルタ特性C2Bになる。
この場合、ディジタルフィルタ39に入力されるディジタル音声データには、収音特性CBに応じた周波数特性が付与されており、この周波数特性とディジタルフィルタ39のフィルタ特性C2Bとが、例えば正反対であるので、2つの特性が互いに相殺される。従って、アレイマイク10の入力からディジタルフィルタ39の出力までのシステム全体の周波数特性が、フラット(平坦)になる。これにより、ディジタル音声データの周波数特性において、アレイマイク10の収音特性に応じて所定の周波数領域(例えば高音域)が強調されることを抑制できる。
同様に、図3に示した音源PCに対する収音感度が最大になる方向がアレイマイク10の指向性の方向に一致する場合、アレイマイク10の収音特性は、図5に示した収音特性CCになる。収音特性CCの場合の収音角度θに応じて、補正テーブル40aから選択的に取得されたパラメータがディジタルフィルタ39に与えられると、ディジタルフィルタ39の周波数特性は、図7に示すフィルタ特性C2Cになる。
この場合、ディジタルフィルタ39に入力されるディジタル音声データには、収音特性CCに応じた周波数特性が付与されており、この周波数特性とディジタルフィルタ39のフィルタ特性C2Cとが、例えば正反対であるので、2つの特性が互いに相殺される。従って、アレイマイク10の入力からディジタルフィルタ39の出力までのシステム全体の周波数特性が、フラット(平坦)になる。これにより、ディジタル音声データの周波数特性において、アレイマイク10の収音特性に応じて所定の周波数領域(例えば高音域)が強調されることを抑制できる。
このように、図3に示した各音源PA、PB、PCに合わせてアレイマイク10の指向性を調整すると、図5に示すような収音特性CA〜CCのように平坦でない周波数特性が現れ、収音角度θに応じて収音特性に相異が生じる。
これに対して、フィルタ係数決定部40が、収音角度θに応じて決定された1組のパラメータを、ディジタルフィルタ39に与える。これにより、監視システム100全体としてフラットな周波数特性が得られる。また、収音角度θが変化しても、フラットな周波数特性を維持できる。よって、監視システム100において収音角度θに対する周波数特性の依存性がなくなり、音質が向上し、音声を聞き取りやすい状態を維持できる。
次に、監視制御装置30の動作例について説明する。
図8(A),(B)は、監視制御装置30の動作例を示すフローチャートである。
図8(A)は、リアルタイム動作例を示す。リアルタイム動作は、例えば、アレイマイク10が収音した音声データ、及びカメラ20が撮像した映像を、操作者60が監視制御装置30を用いてリアルタイムで監視する場合の動作である。
図8(A)では、まず、ネットワーク処理部31は、カメラ20が送出した映像データを、ネットワーク50を経由して受信する。また、ネットワーク処理部31は、アレイマイク10が送出した複数チャネルの音声データを、ネットワーク50を経由して受信する(S11)。
ネットワーク処理部31が受信した映像データは、映像デコーダ32により復号され、映像出力部33へ送られる。映像出力部33は、復号された映像データをモニタ61に出力し、モニタ61が表示画面61a上に映像を表示(再生)するよう制御する(S12)。
続いて、収音座標指定部35は、例えばマウス62からの座標入力を受け付ける(S13)。例えば、操作者60は、表示画面61aに表示される映像及びマウス62のポインタの表示位置を視認し、マウス62を操作して注目すべき映像範囲を指定する。収音座標指定部35は、指定された映像範囲に対応する収音座標を取得する。操作者60は、例えば、映像に含まれる特定の人物の顔の位置(例えば図4中の音源PAの領域)にポインタを合わせてクリックすることで、収音座標指定部35は、収音座標を取得する。上記映像範囲は、例えば、監視者が特に監視すべき監視領域の一例である。
また、収音座標指定部35は、操作者60による映像範囲の指定の代わりに、画像認識部34が映像から所定のパターンを認識し、所定のパターンが存在する座標を収音座標として取得してもよい。
続いて、収音角度演算部38は、収音座標指定部35により取得された収音座標を基に、例えば変換テーブルを参照し、又は公知の演算処理をすることにより、収音角度θを導出する(S14)。
収音角度演算部38により導出された収音角度θは、指向性処理部37に入力される。指向性処理部37は、収音角度θに応じてアレイマイク10の指向性処理のためのパラメータを導出する。そして、指向性処理部37は、複数チャネルの音声デコーダ36A〜36Cから入力される音声データに対し、導出されたパラメータを用いて指向性処理する(S15)。これにより、指向性処理部37が出力するディジタル音声データでは、例えば、収音角度θの方向に対してアレイマイク10の収音感度が最大になる。
収音角度演算部38により導出された収音角度θは、フィルタ係数決定部40にも入力される。フィルタ係数決定部40は、補正テーブル40aを用いて収音角度θに対応するパラメータを取得し、パラメータをディジタルフィルタ39に与える。ディジタルフィルタ39は、指向性処理部37からのディジタル音声データに対して、フィルタ係数決定部40から与えられたパラメータに対応する周波数特性の補正処理(フィルタ処理)を施す(S16)。
リアルタイム動作例によれば、モニタ61及びスピーカ63を介して、現在の映像範囲における映像と音声とを同時に監視できる。また、映像を確認しながら任意の映像範囲を指定し、指向性を映像範囲に向けることができる。更に、システム全体で収音角度θに対して周波数特性が平坦化された音声データを得ることができ、映像範囲の位置に対応する収音角度に応じて補正された音声データを生成できる。従って、映像範囲の位置が変化しても、音質の低下を抑制でき、音声の聞き取りやすさが劣化することを抑制できる。
図8(B)は、レコーダ出力再生動作例を示す。レコーダ出力再生動作例は、例えば、レコーダ70に記録された過去の音声データ及び映像信号を、操作者60が監視制御装置30を用いて分析する場合の動作である。
監視システム100では、過去にカメラ20が撮像した映像データ、及びアレイマイク10が収音した複数チャネルの音声データがレコーダ70に記録されている場合、記録された映像データ、及び音声データを、レコーダ70から読み出すことができる。
監視制御装置30は、例えば、操作者60からの入力操作に従い、レコーダ70に記録された特定の映像データ及び音声データを読み出すよう、レコーダ70に指示する。この場合、該当する映像データ及び音声データがレコーダ70から読み出され、ネットワーク50を経由してネットワーク処理部31により受信される(S21)。
ネットワーク処理部31が受信した映像データは、映像デコーダ32により復号され、映像出力部33へ送られる。映像出力部33は、復号された映像データをモニタ61に出力し、モニタ61が表示画面61a上に映像を表示(再生)するよう制御する(S22)。
続いて、収音座標指定部35は、例えばマウス62からの座標入力を受け付ける(S23)。例えば、操作者60は、表示画面61aに表示される映像及びマウス62のポインタの表示位置を視認し、マウス62を操作して映像範囲を指定する。収音座標指定部35は、指定された映像範囲に対応する収音座標を取得する。操作者60は、例えば、映像に含まれる特定の人物の顔の位置(例えば図4中の音源PAの領域)にポインタを合わせてクリックすることで、収音座標指定部35は、収音座標を取得する。
また、収音座標指定部35は、操作者60による映像範囲の指定の代わりに、画像認識部34が映像から所定のパターンを認識し、所定のパターンが存在する座標を収音座標として取得してもよい。
続いて、収音角度演算部38は、収音座標指定部35により取得された収音座標を基に、例えば変換テーブルを参照し、又は公知の演算処理をすることにより、収音角度θを導出する(S24)。
収音角度演算部38により導出された収音角度θは、指向性処理部37に入力される。指向性処理部37は、収音角度θに応じてアレイマイク10の指向性処理のためのパラメータを導出する。そして、指向性処理部37は、複数チャネルの音声デコーダ36A〜36Cから入力される音声データに対し、導出されたパラメータを用いて指向性処理する(S25)。これにより、指向性処理部37が出力するディジタル音声データでは、例えば、収音角度θの方向に対してアレイマイク10の収音感度が最大になる。
収音角度演算部38により導出された収音角度θは、フィルタ係数決定部40にも入力される。フィルタ係数決定部40は、補正テーブル40aを用いて収音角度θに対応するパラメータを取得し、パラメータをディジタルフィルタ39に与える。ディジタルフィルタ39は、指向性処理部37からのディジタル音声データに対して、フィルタ係数決定部40から与えられたパラメータに対応する周波数特性の補正処理(フィルタ処理)を施す(S26)。
レコーダ出力再生動作例によれば、モニタ61及びスピーカ63を介して、過去の映像範囲における映像と音声とを同時に監視できる。また、映像を確認しながら任意の映像範囲を指定し、指向性を映像範囲に向けることができる。更に、システム全体で収音角度θに対して周波数特性が平坦化された状態で音声データを得ることができるので、映像範囲の位置に対応する収音角度に応じて補正された音声データを生成できる。従って、映像範囲の位置が変化しても、アレイマイク10により収音された音の音質の低下を抑制でき、音声の聞き取りやすさが劣化することを抑制できる。
このように、リアルタイム動作、レコーダ出力再生動作のいずれの場合でも、操作者60が指定した映像範囲の位置に存在する被写体の方向(収音角度θ)に対するアレイマイク10の収音感度を均等化できる。また、指向性処理部37による指向性処理に伴って生じる音声データの周波数特性のばらつきを、ディジタルフィルタ39のフィルタ特性により補正できる。
次に、監視システム100による指向性処理の詳細について説明する。
図9は、指向性処理に係る基本構成例を示す模式図である。図9では、指向性処理部37には、複数の遅延器37bA,37bB,37bCと、加算器37cとが含まれ、これらの処理により指向性が形成されてもよい。
マイクロホン11A〜11Cが出力するアナログ音声データを、A/D変換器13A、13B、13Cがディジタル音声データに変換し、変換されたディジタル音声データに対して、指向性処理部37が指向性処理する。なお、アレイマイク10に含まれるマイクロホンの数(n)、A/D変換器の数(n)、及び指向性処理部37に含まれる遅延器の数(n)は、必要に応じて増減される。
図9に示すように、複数のマイクロホン11A〜11Cは、相互に所定距離離間された位置に配置されるので、1つの音源80が発した音波が各々のマイクロホン11A〜11Cに到達するまでの時間には、相対的な時間差(到達時間差)が生じる。
上記到達時間差の影響があるため、複数のマイクロホン11A〜11Cがそれぞれ検出した音声データをそのまま加算すると、位相差のある複数の音声データの加算によって信号レベルが減衰することがある。そこで、複数の音声データのそれぞれに、遅延器37bA〜37bCにより時間遅延を与えて位相を調整し、位相が調整された音声データ同士を加算器37cにより加算する。これにより、位相が一致する複数の音声データが加算され、信号レベルが増大する。
図9に示すように、上記到達時間差は、音源80からアレイマイク10の筐体入射面121に入射される音波の到来方向(収音角度θに相当)に応じて変化する。例えば、特定の方向(θ)から到来した音波を複数のマイクロホン11A〜11Cが検出した場合、加算器37cに入力される複数の音声データの位相が一致し、加算器37cが出力する音声データの信号レベルが増大する。一方、特定の方向(θ)以外から到来する音波では、加算器37cに入力される複数の音声データに位相差が生じ、加算器37cが出力する音声データの信号レベルが減衰する。よって、特定の方向(θ)から到来する音波に対してのみ感度が上がるように、アレイマイク10の収音特性に指向性を形成できる。
図9に示すように、収音角度θの方向から目的(例えば監視対象)の音波が筐体入射面121に到来する場合、(式1)により表される各遅延時間D1,D2,D3が、各遅延器37bA,37bB,37bCの遅延時間として割り当てられる。
D1=L1/Vs=d(n−1)cosθ/Vs
D2=L2/Vs=d(n−2)cosθ/Vs ・・・(式1)
D3=L3/Vs=d(n−3)cosθ/Vs
但し、
L1:1番目のマイクロホンとn番目のマイクロホンとの間の音波到達距離の差(既知の定数)
L2:2番目のマイクロホンとn番目のマイクロホンとの間の音波到達距離の差(既知の定数)
L3:3番目のマイクロホンとn番目のマイクロホンとの間の音波到達距離の差(既知の定数)
Vs:音速(既知の定数)
d:マイクロホンの配置間隔(既知の定数)
なお、一例として、図2に示したシステム構成の場合、n=3であり、図1に示した収音ユニット90の場合、n=16である。
(式1)に示すように、特定の方向θからアレイマイク10に到来する音波に指向性を合わせる場合、筐体入射面121における各マイクロホン11A〜11Cに対する音波の到達時間差に対応して、各遅延器37bA、37bB、37bCに遅延時間D1〜D3が割り当てられる。
例えば、指向性処理部37は、収音角度演算部38からの収音角度θと(式1)とに基づき、各遅延時間D1〜D3を取得し、遅延時間D1〜D3を各遅延器37bA〜37bCに割り当てる。これにより、収音角度θの方向から筐体入射面121に到来する音波の音声データを強調し、アレイマイク10の収音特性に指向性を形成できる。
なお、例えば、割り当てられた遅延時間D1〜D3、(式1)における既知の定数は、監視制御装置30内の図示しないメモリに記憶される。
次に、ディジタルフィルタの詳細について説明する。
図10は、ディジタルフィルタ39の構成例を示す模式図である。図10では、一例としてIIRフィルタの構成例を示す。
図10のIIRフィルタでは、入力x[n]に対する出力y[n]は、(式2)に示す差分方程式で表される。
Figure 2015082734
即ち、IIRフィルタの各乗算ブロックに与えられるK個のパラメータa1〜aK、及びM+1個のパラメータb0〜bMに応じて、ディジタルフィルタ39のフィルタ特性が定まる。このIIRフィルタの動作は一般的なディジタルフィルタの動作であり、公知の技術であるので、詳細な説明を省略する。
例えば、既存のフィルタ設計ツール(Digital Filter Design Tool)を利用することにより、IIRフィルタのタップ毎のパラメータ、つまりパラメータa1〜aK,b0〜bMを導出できる。
フィルタ係数決定部40は、補正テーブル40aが保持する定数群から、収音角度θに応じてパラメータa1〜aK,b0〜bMを導出する。例えば、図7に示したように、ディジタルフィルタ39のフィルタ特性C2A,C2B,C2Cを実現する複数組のパラメータが、収音角度θの所定範囲毎に事前に登録され、収音角度θと対応付けて補正テーブル40aに登録されている。フィルタ係数決定部40は、収音角度θに対応する1組のパラメータを補正テーブル40aの中から選択し、ディジタルフィルタ39に与える。
これにより、例えば、図7に示したディジタルフィルタ39のフィルタ特性C2A〜C2Cのいずれか1つを、ディジタルフィルタ39により実現できる。従って、図5に示した収音特性CA〜CCのように、収音角度θに応じて変動する収音特性のばらつきを、ディジタルフィルタ39のフィルタ特性C2A〜C2Cにより補正できる。
監視システム100によれば、収音角度θの違いに応じて発生する周波数対信号出力レベルのばらつきの影響を軽減でき、システム全体において収音角度θに周波数特性が依存しない音声データを得ることができる。よって、所定の映像範囲(モニタ上の映像範囲に対応する実際の空間的な範囲)において発生した音声の収音品質を向上でき、音声の聞き取り精度の劣化を抑制できる。また、映像範囲の位置が変化しても、アレイマイク10により収音された音声の音質を向上でき、音声の聞き取り精度の劣化を抑制できる。
なお、本発明は、上記実施形態の構成に限られるものではなく、特許請求の範囲で示した機能、または本実施形態の構成が持つ機能が達成できる構成であればどのようなものであっても適用可能である。
例えば、上記実施形態では、ディジタルフィルタ39による補正後の周波数特性がフラットになるように、ディジタルフィルタ39が音声データの周波数特性を補正することを例示したが、フラットな周波数特性に補正しなくてもよい。
例えば、ディジタルフィルタ39は、人が発する声のエネルギーが集中する音域(例えば100〜1000[Hz])の信号レベルが、他の音域よりも強調されるように補正してもよい。この場合、人の音声を聞き取り易くできる。また、ディジタルフィルタ39は、例えば、単に低音域、高音域、所定範囲の音域が強調されるようにも補正してもよい。
また、上記実施形態では、ディジタルフィルタ39が指向性処理部37の後段(出力側)に配置されることを例示したが、ディジタルフィルタ39が指向性処理部37の前段(入力側)に配置されてもよい。この場合は、指向性処理部37の入力側では複数チャネルの音声データが独立して処理されるので、チャネル毎に独立した複数のディジタルフィルタ39が配置される。
このディジタルフィルタ39により、指向性処理前の複数チャネルの音声データの周波数特性を補正する。周波数特性が補正された音声データに対して指向性処理すると、指向性処理された音声データは、収音角度θに依存しない1つのチャネルの音声データが得られる。
また、上記実施形態では、例えば天井面101(図3参照)に対して収音ユニット90の設置面が傾いた状態で収音ユニット90が取り付けられた場合、水平角θhを考慮して、ディジタルフィルタ39のフィルタ特性を決定してもよい。例えば、アレイマイク10の形状又はレイアウトを考慮する場合、収音角度演算部38は、モニタ61が表示する映像において指定される収音座標から、公知の変換方法を用いて、水平角θh及び垂直角θvを導出してもよい。フィルタ係数決定部40は、この水平角θh及び垂直角θvに基づいて、ディジタルフィルタ39のフィルタ特性を導出してもよい。
また、上記実施形態では、各マイクロホン11が配列される配列面(x−y面)に沿う方向(x軸方向,y軸方向)から到来する音波、つまり垂直角θvが小さい場合、信号レベルが低く、均一でフラットな収音特性になる傾向がある。また、垂直角θvが大きくなると、信号レベルが増大し、収音特性が平坦でなくなる傾向がある。例えば、操作者60が監視する音声のレベルは一定であり、信号レベルは大きいことが望ましいので、監視制御装置30は、音声データの周波数特性の補正とともに、信号レベルを制御してもよい。
また、上記実施形態では、監視制御装置30が備える音声処理に係る一部の構成部を、アレイマイク10が備えてもよい。アレイマイク10は、例えば、画像認識部34、収音座標指定部35、収音角度演算部38、指向性処理部37、フィルタ係数決定部40、ディジタルフィルタ39、の一部又は全部を有してもよい。これにより、監視制御装置30の処理負荷を低減できる。なお、アレイマイク10が音声処理に係る一部の構成部を有する場合には、監視制御装置30とアレイマイク10との間において、ネットワーク50を介して適宜必要なデータが通信される。
また、上記実施形態では、フィルタ係数決定部40は、画像認識部34による画像認識結果に応じて、ディジタルフィルタ39が用いるパラメータを導出してもよい。例えば、画像認識部34により監視対象物が男性の人物であると認識された場合、フィルタ係数決定部40は、低周波側の信号レベルを強調して周波数特性を補正するパラメータを導出してもよい。これにより、例えば、男性が発する音声を明瞭に聞き取り可能である。
また、上記実施形態では、複数のマイクロホン11が1つの円周上に一定の間隔で配置されたアレイマイク10を例示したが、各マイクロホン11の配列は異なる配列でもよい。例えば、単方向(例えばx軸方向)に沿って一列に一定の間隔で配列されてもよい。また、2方向(例えばx軸方向,y軸方向)に沿って十字型に一定の間隔で配列されてもよい。また、径の異なる2つの円周上に一定の間隔で配列されてもよい。
また、上記実施形態では、監視制御装置30が、カメラ20を用いずに、実際の空間的な監視範囲とアレイマイク10の収音角度とを対応づけ、プリセットしてもよい。つまり、監視制御装置30の図示しないメモリが、上記監視範囲と収音角度との対応情報を保持してもよい。この場合、例えば、ユーザがマウス62等を介して所定の監視範囲を指定すると、収音角度演算部38が、メモリに保持された対応情報を参照して、収音角度を導出してもよい。また、例えば、ユーザがマウス62等を介して収音角度を直接指定し、指定されたデータを収音角度演算部38により導出されたデータとして扱ってもよい。これにより、カメラ20を用いずに、指向性の方向を決定できる。
(本発明の一形態の概要)
本発明の一形態の音声処理装置は、複数のマイクロホンを含む収音部により収音された音声データと、撮像部により撮像された映像データと、を取得するデータ取得部と、前記データ取得部により取得された映像データにおける空間的な映像範囲を指定する範囲指定部と、前記音声データにおける前記範囲指定部により指定された前記映像範囲の方向における音声成分を強調する指向性処理部と、前記範囲指定部により指定された前記映像範囲及び前記収音部の収音特性に基づいて、前記音声データの周波数特性を補正する特性補正部と、を備える。
この構成によれば、映像における映像範囲の指定位置に応じて発生する収音特性のばらつきによる影響を軽減でき、映像範囲の指定位置に依存しない音声データを得ることができる。よって、指定された映像範囲において発生した音の音質を向上でき、聞き取り精度を向上できる。また、指定される映像範囲の位置が変化しても、音質を向上でき、音の聞き取り精度の劣化を抑制できる。このように、収音部により収音された音の音質を向上できる。
また、本発明の一形態の音声処理装置は、前記データ取得部が、前記収音部の各マイクロホンにより収音された各第1の音声データを取得し、前記指向性処理部が、前記データ取得部により取得された各第1の音声データに基づいて、前記範囲指定部により指定された前記映像範囲の方向における音声成分が強調された第2の音声データを生成し、前記特性補正部が、前記範囲指定部により指定された前記映像範囲に基づいて、前記指向性処理部により生成された前記第2の音声データの周波数特性を補正し、第3の音声データを生成する。
この構成によれば、指向性処理後に音声データの周波数特性の補正を行うので、補正対象となる音声チャネルが1つであり、特性補正部の数が1つで済み、音声処理装置の構成部品の数を低減できる。
また、本発明の一形態の音声処理装置は、前記データ取得部が、前記収音部の各マイクロホンにより収音された各音声データを取得し、前記特性補正部が、前記範囲指定部により指定された前記映像範囲に基づいて、各第1の音声データの周波数特性を補正し、各第3の音声データを生成し、前記指向性処理部が、前記特性補正部により補正された各第3の音声データに基づいて、前記範囲指定部により指定された前記映像範囲の方向における音声が強調された第2の音声データを生成する。
この構成によれば、音声データの周波数特性を補正した後に指向性処理を行うので、マイクロホン個別の収音特性を考慮して、特性補正できる。
また、本発明の一形態の音声処理装置は、前記範囲指定部により指定された前記映像範囲に基づいて、前記収音部における前記複数のマイクロホンが配列された配列方向に沿う第1の方向と、前記収音部から前記映像範囲に向かう第2の方向と、により形成される収音角度を導出する収音角度導出部を備え、前記特性補正部が、前記収音角度導出部により導出された収音角度に基づいて、前記音声データの周波数特性を補正する。
この構成によれば、収音角度毎に異なる収音部の収音特性のばらつきを、収音特性に対応する周波数特性により補正することで、指定された映像範囲において発生した音の音質を向上でき、聞き取り精度を向上できる。
また、本発明の一形態の音声処理装置は、前記特性補正部が、前記収音角度導出部により導出された収音角度に基づいて補正パラメータを導出し、導出された補正パラメータに基づいて、前記音声データの周波数特性を補正する。
この構成によれば、収音角度毎に異なる収音部の収音特性のばらつきを、収音特性に対応する周波数特性に基づく補正パラメータを用いて補正することで、指定された映像範囲において発生した音の音質を向上でき、聞き取り精度を向上できる。
また、本発明の一形態の音声処理装置は、前記データ取得部が、前記収音部により収音された音声データを前記収音部から取得し、前記撮像部により撮像された映像データを前記撮像部から取得する。
この構成によれば、リアルタイムの映像から所望の映像範囲を指定し、この映像範囲における音声を明瞭に再生できる。従って、例えば、リアルタイムでの監視精度を向上できる。
また、本発明の一形態の音声処理装置は、前記データ取得部が、前記収音部により収音された音声データと前記撮像部により撮像された映像データとを対応づけて記憶する記憶装置から、前記映像データと、当該映像データに対応づけられた音声データと、を取得する。
この構成によれば、過去の映像から所望の映像範囲を指定し、この映像範囲における音声を明瞭に再生できる。従って、例えば、過去の映像を用いた上記映像範囲における音声解析の精度を向上できる。
また、本発明の一形態の音声処理装置は、映像データを表示する表示装置に表示された前記映像データに対する第1の入力を受け付ける操作部を備え、前記範囲指定部が、前記操作部への前記第1の入力に基づいて、前記映像範囲を指定する。
この構成によれば、例えば、操作者が映像を確認しながら、表示装置に表示された詳細な音声を確認したい映像範囲をタッチし、映像範囲を指定できる。従って、操作者が望む映像範囲を選択でき、その範囲における音の音質を向上でき、明瞭に聞き取り可能である。
また、本発明の一形態の音声処理装置は、画像を認識する画像認識部を備え、前記範囲指定部が、前記画像認識部により前記映像データに所定のパターンが含まれると認識された場合、前記映像データにおける前記所定のパターンの空間的な位置に基づいて、前記映像範囲を指定する。
この構成によれば、例えば、映像において監視対象物(例えば人物)が存在する映像範囲を認識し、この映像範囲に指向性を向けることができる。従って、操作者が特別な操作を行うことなく、監視対象物の周辺から発生した音の音質を向上でき、明瞭に聞き取り可能である。
また、本発明の一形態の音声処理装置は、前記特性補正部が、前記画像認識部による認識結果に応じて、前記音声データの周波数特性を補正する。
この構成によれば、画像認識機能と連携して、音声データの周波数特性を所望の状態にできる。
また、本発明の一形態の音声処理装置は、前記特性補正部が、前記収音部の収音特性に応じて前記音声データに付与された周波数特性が平坦化するよう、前記音声データの周波数特性を補正する。
この構成によれば、収音部の収音特性を周波数特性の補正により相殺し、系全体で収音角度に対して周波数特性が平坦化することで、収音部の収音特性による音質の劣化、聞き取りへの影響を抑制できる。
また、本発明の一形態の音声処理装置は、前記特性補正部が、前記収音部の収音特性に応じて前記音声データに付与された周波数特性において、所定周波数帯における信号レベルが大きく、前記所定周波数帯以外における信号レベルが小さくなるように、前記音声データの周波数特性を補正する音声処理装置。
この構成によれば、例えば、映像範囲に含まれる被写体を予測できる場合、この被写体の発する音に対応する周波数の感度を増大することにより、当該音の聞き取り精度を向上できる。
また、本発明の一形態の音声処理システムは、複数のマイクロホンを用いて収音する収音部と、映像を撮像する撮像部と、前記撮像部により撮像された映像データにおける空間的な映像範囲を指定する範囲指定部と、前記収音部により収音された音声データにおける前記範囲指定部により指定された前記映像範囲の方向における音声成分を強調する指向性処理部と、前記範囲指定部により指定された前記映像範囲及び前記収音部の収音特性に基づいて、前記音声データの周波数特性を補正する特性補正部と、を備える。
この構成によれば、映像における映像範囲の指定位置に応じて発生する収音特性のばらつきによる影響を軽減でき、映像範囲の指定位置に依存しない音声データを得ることができる。よって、指定された映像範囲において発生した音の音質を向上でき、聞き取り精度を向上できる。また、指定される映像範囲の位置が変化しても、音質を向上でき、音の聞き取り精度の劣化を抑制できる。このように、収音部により収音された音の音質を向上できる。
また、本発明の一形態の音声処理システムは、前記撮像部を含む撮像装置と、前記収音部を含む収音装置と、前記収音部により収音された音声データを処理する音声処理装置と、を備え、前記音声処理装置が、前記映像データ及び前記音声データを取得するデータ取得部、前記範囲指定部、前記指向性処理部、及び前記特性補正部を含む。
この構成によれば、音声処理装置により、映像範囲の指定、指向性処理、及び周波数特性の補正を実施できる。従って、音声処理に係る収音装置の処理負荷を軽減できる。
また、本発明の一形態の音声処理システムは、前記撮像部を含む撮像装置と、前記収音部を含む収音装置と、前記収音部により収音された音声データを処理する音声処理装置と、を備え、前記音声処理装置が、前記映像データ及び前記音声データを取得するデータ取得部と、前記範囲指定部と、を含み、前記収音装置が、前記指向性処理部及び前記特性補正部を含む。
この構成によれば、音声処理装置により、映像範囲の指定を実施し、収音装置により、指向性処理、及び周波数特性の補正を実施できる。従って、音声処理に係る音声処理装置の処理負荷を軽減できる。
また、本発明の一形態の音声処理システムは、前記撮像装置、前記収音装置、及び前記音声処理装置は、ネットワークを介して接続される。
この構成によれば、各装置間において、容易に様々なデータ(映像データ、音声データ、その他のデータ)を相互に交換できる。
また、本発明の一形態の音声処理システムは、前記収音部に含まれる前記複数のマイクロホンは、前記複数のマイクロホンが配置される配置面において前記撮像部を包囲し、所定間隔毎に略円周状に配置される。
この構成によれば、収音部における収音特性は、収音角度における水平角成分に依存せず、垂直角成分に依存するので、垂直角成分を用いた音声データの周波数特性の補正を実施できる。従って、収音角度を導出するための負荷を低減できる。
また、本発明の一形態の音声処理方法は、音声処理装置における音声処理方法であって、複数のマイクロホンを含む収音部により収音された音声データと、撮像部により撮像された映像データと、を取得するステップと、前記取得された映像データにおける空間的な映像範囲を指定するステップと、前記音声データにおける前記指定された映像範囲の方向における音声成分を強調するステップと、前記指定された映像範囲及び前記収音部の収音特性に基づいて、前記音声データの周波数特性を補正するステップと、を有する。
この方法によれば、映像における映像範囲の指定位置に応じて発生する収音特性のばらつきによる影響を軽減でき、映像範囲の指定位置に依存しない音声データを得ることができる。よって、指定された映像範囲において発生した音の音質を向上でき、聞き取り精度を向上できる。また、指定される映像範囲の位置が変化しても、音質を向上でき、音の聞き取り精度の劣化を抑制できる。このように、収音部により収音された音の音質を向上できる。
また、本発明の一形態の音声処理方法は、音声処理システムにおける音声処理方法であって、複数のマイクロホンを含む収音部を用いて収音するステップと、映像を撮像するステップと、撮像された映像データにおける空間的な映像範囲を指定するステップと、前記収音された音声データにおける前記指定された映像範囲の方向における音声成分を強調するステップと、前記指定された映像範囲及び前記収音部の収音特性に基づいて、前記音声データの周波数特性を補正するステップと、を有する。
この方法によれば、映像における映像範囲の指定位置に応じて発生する収音特性のばらつきによる影響を軽減でき、映像範囲の指定位置に依存しない音声データを得ることができる。よって、指定された映像範囲において発生した音の音質を向上でき、聞き取り精度を向上できる。また、指定される映像範囲の位置が変化しても、音質を向上でき、音の聞き取り精度の劣化を抑制できる。このように、収音部により収音された音の音質を向上できる。
また、本発明の一形態の音声処理装置は、複数のマイクロホンを含む収音部により収音された音声データを取得するデータ取得部と、前記音声データにおける所定方向の音声成分を強調する指向性処理部と、前記指向性処理部により音声成分が強調された所定方向及び前記収音部の収音特性に基づいて、前記音声データの周波数特性を補正する特性補正部と、を備える。
この構成によれば、収音部の収音特性のばらつきによる影響を軽減でき、収音部に対する収音位置に依存しない音声データを得ることができる。よって、収音位置において発生した音の音質を向上でき、聞き取り精度を向上できる。また、収音位置が変化しても、音質を向上でき、音の聞き取り精度の劣化を抑制できる。このように、収音部により収音された音の音質を向上できる。
本発明は、収音部により収音された音の音質を向上できる音声処理装置、音声処理システム、及び音声処理方法等に有用である。
10 アレイマイク
11A,11B,11C マイクロホン
12A,12B,12C 増幅器
13A,13B,13C A/D変換器
14A,14B,14C 音声エンコーダ
15 ネットワーク処理部
20 カメラ
21 レンズ
22 センサ
23 映像エンコーダ
24 ネットワーク処理部
30 監視制御装置
31 ネットワーク処理部
32 映像デコーダ
33 映像出力部
34 画像認識部
35 収音座標指定部
36A,36B,36C 音声デコーダ
37 指向性処理部
38 収音角度演算部
39 ディジタルフィルタ
40 フィルタ係数決定部
40a 補正テーブル
41 D/A変換器
42 音声出力部
50 通信ネットワーク
60 操作者
61 モニタ
61a 表示画面
62 マウス
63 スピーカ
70 レコーダ
71 ネットワーク処理部
72 データ記録部
80 音源
90 収音ユニット
91 ユニット筐体
100 監視システム
101 天井面
102 床面
121 筐体入射面
PA,PB,PC 音源

Claims (20)

  1. 複数のマイクロホンを含む収音部により収音された音声データと、撮像部により撮像された映像データと、を取得するデータ取得部と、
    前記データ取得部により取得された映像データにおける空間的な映像範囲を指定する範囲指定部と、
    前記音声データにおける前記範囲指定部により指定された前記映像範囲の方向における音声成分を強調する指向性処理部と、
    前記範囲指定部により指定された前記映像範囲及び前記収音部の収音特性に基づいて、前記音声データの周波数特性を補正する特性補正部と、
    を備える音声処理装置。
  2. 請求項1に記載の音声処理装置であって、
    前記データ取得部は、前記収音部の各マイクロホンにより収音された各第1の音声データを取得し、
    前記指向性処理部は、前記データ取得部により取得された各第1の音声データに基づいて、前記範囲指定部により指定された前記映像範囲の方向における音声成分が強調された第2の音声データを生成し、
    前記特性補正部は、前記範囲指定部により指定された前記映像範囲に基づいて、前記指向性処理部により生成された前記第2の音声データの周波数特性を補正し、第3の音声データを生成する音声処理装置。
  3. 請求項1に記載の音声処理装置であって、
    前記データ取得部は、前記収音部の各マイクロホンにより収音された各音声データを取得し、
    前記特性補正部は、前記範囲指定部により指定された前記映像範囲に基づいて、各第1の音声データの周波数特性を補正し、各第3の音声データを生成し、
    前記指向性処理部は、前記特性補正部により補正された各第3の音声データに基づいて、前記範囲指定部により指定された前記映像範囲の方向における音声が強調された第2の音声データを生成する音声処理装置。
  4. 請求項1ないし3のいずれか1項に記載の音声処理装置であって、更に、
    前記範囲指定部により指定された前記映像範囲に基づいて、前記収音部における前記複数のマイクロホンが配列された配列方向に沿う第1の方向と、前記収音部から前記映像範囲に向かう第2の方向と、により形成される収音角度を導出する収音角度導出部を備え、
    前記特性補正部は、前記収音角度導出部により導出された収音角度に基づいて、前記音声データの周波数特性を補正する音声処理装置。
  5. 請求項4に記載の音声処理装置であって、
    前記特性補正部は、前記収音角度導出部により導出された収音角度に基づいて補正パラメータを導出し、導出された補正パラメータに基づいて、前記音声データの周波数特性を補正する音声処理装置。
  6. 請求項1ないし5のいずれか1項に記載の音声処理装置であって、
    前記データ取得部は、前記収音部により収音された音声データを前記収音部から取得し、前記撮像部により撮像された映像データを前記撮像部から取得する音声処理装置。
  7. 請求項1ないし6のいずれか1項に記載の音声処理装置であって、
    前記データ取得部は、前記収音部により収音された音声データと前記撮像部により撮像された映像データとを対応づけて記憶する記憶装置から、前記映像データと、当該映像データに対応づけられた音声データと、を取得する音声処理装置。
  8. 請求項1ないし7のいずれか1項に記載の音声処理装置であって、更に、
    映像データを表示する表示装置に表示された前記映像データに対する第1の入力を受け付ける操作部を備え、
    前記範囲指定部は、前記操作部への前記第1の入力に基づいて、前記映像範囲を指定する音声処理装置。
  9. 請求項1ないし7のいずれか1項に記載の音声処理装置であって、更に、
    画像を認識する画像認識部を備え、
    前記範囲指定部は、前記画像認識部により前記映像データに所定のパターンが含まれると認識された場合、前記映像データにおける前記所定のパターンの空間的な位置に基づいて、前記映像範囲を指定する音声処理装置。
  10. 請求項9に記載の音声処理装置であって、
    前記特性補正部は、前記画像認識部による認識結果に応じて、前記音声データの周波数特性を補正する音声処理装置。
  11. 請求項1ないし9のいずれか1項に記載の音声処理装置であって、
    前記特性補正部は、前記収音部の収音特性に応じて前記音声データに付与された周波数特性が平坦化するよう、前記音声データの周波数特性を補正する音声処理装置。
  12. 請求項1ないし10のいずれか1項に記載の音声処理装置であって、
    前記特性補正部は、前記収音部の収音特性に応じて前記音声データに付与された周波数特性において、所定周波数帯における信号レベルが大きく、前記所定周波数帯以外における信号レベルが小さくなるように、前記音声データの周波数特性を補正する音声処理装置。
  13. 複数のマイクロホンを用いて収音する収音部と、
    映像を撮像する撮像部と、
    前記撮像部により撮像された映像データにおける空間的な映像範囲を指定する範囲指定部と、
    前記収音部により収音された音声データにおける前記範囲指定部により指定された前記映像範囲の方向における音声成分を強調する指向性処理部と、
    前記範囲指定部により指定された前記映像範囲及び前記収音部の収音特性に基づいて、前記音声データの周波数特性を補正する特性補正部と、
    を備える音声処理システム。
  14. 請求項13に記載の音声処理装置であって、
    前記撮像部を含む撮像装置と、前記収音部を含む収音装置と、前記収音部により収音された音声データを処理する音声処理装置と、を備え、
    前記音声処理装置は、前記映像データ及び前記音声データを取得するデータ取得部、前記範囲指定部、前記指向性処理部、及び前記特性補正部を含む音声処理システム。
  15. 請求項13に記載の音声処理装置であって、
    前記撮像部を含む撮像装置と、前記収音部を含む収音装置と、前記収音部により収音された音声データを処理する音声処理装置と、を備え、
    前記音声処理装置は、前記映像データ及び前記音声データを取得するデータ取得部と、前記範囲指定部と、を含み、
    前記収音装置は、前記指向性処理部及び前記特性補正部を含む音声処理システム。
  16. 請求項14または15に記載の音声処理装置であって、
    前記撮像装置、前記収音装置、及び前記音声処理装置は、ネットワークを介して接続された音声処理システム。
  17. 請求項13ないし16のいずれか1項に記載の音声処理装置であって、
    前記収音部に含まれる前記複数のマイクロホンは、前記複数のマイクロホンが配置される配置面において前記撮像部を包囲し、所定間隔毎に略円周状に配置された音声処理システム。
  18. 音声処理装置における音声処理方法であって、
    複数のマイクロホンを含む収音部により収音された音声データと、撮像部により撮像された映像データと、を取得するステップと、
    前記取得された映像データにおける空間的な映像範囲を指定するステップと、
    前記音声データにおける前記指定された映像範囲の方向における音声成分を強調するステップと、
    前記指定された映像範囲及び前記収音部の収音特性に基づいて、前記音声データの周波数特性を補正するステップと、
    を有する音声処理方法。
  19. 音声処理システムにおける音声処理方法であって、
    複数のマイクロホンを含む収音部を用いて収音するステップと、
    映像を撮像するステップと、
    撮像された映像データにおける空間的な映像範囲を指定するステップと、
    前記収音された音声データにおける前記指定された映像範囲の方向における音声成分を強調するステップと、
    前記指定された映像範囲及び前記収音部の収音特性に基づいて、前記音声データの周波数特性を補正するステップと、
    を有する音声処理方法。
  20. 複数のマイクロホンを含む収音部により収音された音声データを取得するデータ取得部と、
    前記音声データにおける所定方向の音声成分を強調する指向性処理部と、
    前記指向性処理部により音声成分が強調された所定方向及び前記収音部の収音特性に基づいて、前記音声データの周波数特性を補正する特性補正部と、
    を備える音声処理装置。
JP2013219470A 2013-10-22 2013-10-22 音声処理装置、音声処理システム、及び音声処理方法 Pending JP2015082734A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013219470A JP2015082734A (ja) 2013-10-22 2013-10-22 音声処理装置、音声処理システム、及び音声処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013219470A JP2015082734A (ja) 2013-10-22 2013-10-22 音声処理装置、音声処理システム、及び音声処理方法

Publications (1)

Publication Number Publication Date
JP2015082734A true JP2015082734A (ja) 2015-04-27

Family

ID=53013136

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013219470A Pending JP2015082734A (ja) 2013-10-22 2013-10-22 音声処理装置、音声処理システム、及び音声処理方法

Country Status (1)

Country Link
JP (1) JP2015082734A (ja)

Similar Documents

Publication Publication Date Title
US9578413B2 (en) Audio processing system and audio processing method
JP6135880B2 (ja) 音声処理方法、音声処理システム、及び記憶媒体
CN106782584B (zh) 音频信号处理设备、方法和电子设备
KR101761312B1 (ko) 마이크 어레이를 이용한 방향성 음원 필터링 장치 및 그 제어방법
JP5857674B2 (ja) 画像処理装置、及び画像処理システム
WO2014103331A1 (ja) 音声処理システム及び音声処理方法
JP2016146547A (ja) 収音システム及び収音方法
US10497356B2 (en) Directionality control system and sound output control method
EP2536170B1 (en) Hearing aid, signal processing method and program
US20100165071A1 (en) Video conference device
JP2016032260A (ja) 故障検知システム及び故障検知方法
JP6248930B2 (ja) 情報処理システムおよびプログラム
JP6493860B2 (ja) 監視制御システム及び監視制御方法
CN102045618A (zh) 自动调整的麦克风阵列、方法和携带麦克风阵列的装置
JP6887102B2 (ja) 音声処理装置、画像処理装置、マイクアレイシステム、及び音声処理方法
CN109104683B (zh) 一种双麦克风相位测量校正的方法及校正系统
US8300839B2 (en) Sound emission and collection apparatus and control method of sound emission and collection apparatus
CN110875056B (zh) 语音转录设备、系统、方法、及电子设备
JP2005250397A (ja) ロボット
WO2015151130A1 (ja) 音声処理装置、音声処理システム、及び音声処理方法
JP2017126888A (ja) 指向性制御システム及び音声出力制御方法
Lin et al. Development of novel hearing aids by using image recognition technology
JP5866505B2 (ja) 音声処理システム及び音声処理方法
JP2015082734A (ja) 音声処理装置、音声処理システム、及び音声処理方法
JP6569853B2 (ja) 指向性制御システム及び音声出力制御方法