JP2016039407A - 音声処理システム及び音声処理方法 - Google Patents

音声処理システム及び音声処理方法 Download PDF

Info

Publication number
JP2016039407A
JP2016039407A JP2014159736A JP2014159736A JP2016039407A JP 2016039407 A JP2016039407 A JP 2016039407A JP 2014159736 A JP2014159736 A JP 2014159736A JP 2014159736 A JP2014159736 A JP 2014159736A JP 2016039407 A JP2016039407 A JP 2016039407A
Authority
JP
Japan
Prior art keywords
volume
sound
volume adjustment
unit
adjustment value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014159736A
Other languages
English (en)
Other versions
JP6202277B2 (ja
Inventor
裕隆 澤
Hirotaka Sawa
裕隆 澤
徳田 肇道
Tadamichi Tokuda
肇道 徳田
渡辺 周一
Shuichi Watanabe
周一 渡辺
宏之 松本
Hiroyuki Matsumoto
宏之 松本
寿嗣 辻
Toshitsugu Tsuji
寿嗣 辻
信太郎 吉國
Shintaro Yoshikuni
信太郎 吉國
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2014159736A priority Critical patent/JP6202277B2/ja
Priority to DE102015214124.1A priority patent/DE102015214124A1/de
Priority to US14/809,618 priority patent/US9578413B2/en
Publication of JP2016039407A publication Critical patent/JP2016039407A/ja
Application granted granted Critical
Publication of JP6202277B2 publication Critical patent/JP6202277B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems

Landscapes

  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Studio Devices (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)

Abstract

【課題】マイクアレイ装置により収音された音声を用いて指定方向の音声を強調処理した後に音声の音量を調整し、強調処理の前後における音量の大きな差異の発生を抑制し、ユーザへの利便性を向上させる。【解決手段】音声処理システムは、複数の収音素子を用いて無指向状態で音声を収音する収音部と、無指向状態から有指向状態に切り替えるための1つ以上の音声強調の指定方向の入力を受け付ける操作部と、指定方向の入力に応じて、収音部により収音された音声データを用いて、収音部から指定方向の音声データを強調処理した有指向状態の音声データを生成する強調処理部と、有指向状態の音声データの音量を調整する音量調整部と、収音部により収音された無指向状態の音声データ、又は音量調整部により音量が調整された後の有指向状態の音声データを出力する音声出力部と、を備える。【選択図】図1

Description

本発明は、マイクアレイ装置において収音された音声の音量を調整する音声処理システム及び音声処理方法に関する。
従来、工場、店舗(例えば小売店、銀行)或いは公共の場(例えば図書館)の所定位置(例えば天井)に設置される監視システムでは、ネットワークを介して複数のカメラ装置(例えばパンチルトカメラ装置又は全方位カメラ装置)を接続することで、監視対象の所定範囲の映像データ(静止画像及び動画像を含む。以下同様)の広画角化が図られている。
映像だけの監視では得られる情報量がどうしても限界があるため、カメラ装置だけでなくマイクアレイ装置も配置することで、カメラ装置が特定の被写体を撮像している方向の音声データを得る監視システムの要請が高い。
ここで、複数のマイクロホンで録音したデータを再生する際に、再生画像の注目する点を指示することにより、その方向への音の焦点を当てた再生を行う先行技術として、例えば特許文献1に示す情報処理装置が知られている。
特許文献1に示す情報処理装置は、複数のマイクロホンからなるマイクロホンアレーと、マイクロホンアレーを構成する個々のマイクロホンからの入力音響信号をマイクロホン毎に保持する複数の保持手段と、位置情報を入力する入力手段と、保持された複数チャンネルの音響信号を用いて、取得した位置方向へ音響的なフォーカスを行うフォーカス手段と、フォーカス後の音響信号に対し、音響効果を与えるために音響信号を加工する加工手段とを有する。なお、音響信号の加工の種類としては、例えばエコー、ビブラート、ディストーションなど一般に用いられる音響的な処理であれば構わない。
特開2004−180197号公報
特許文献1では、目的方向以外の音声信号と比べて、目的方向の音声信号の出力(音量)は強調処理(例えば指向性形成処理のこと。以下同様。)されるので相対的に大きくなるが、目的方向の音声信号の強調処理の前後における出力(例えば音量のこと。以下同様。)の差異については考慮されていない。
例えば特許文献1では、遅延和方式を用いた強調処理が使用されており、強調処理前の音声(無指向音声)と、強調処理後の音声(有指向音声)とを比較すると、各マイクロホンにより収音された音声信号に含まれるノイズはマイクロホン毎の相関性が低いので、マイクロホン毎の音声信号が加算された分だけ、有指向音声の出力が大きくなる。
また、遅延和方式を用いた強調処理では、1つのマイクロホンの出力と同等になるように、加算処理後の音声信号の出力をマイクロホンの個数で除算して平均化することもある。この場合、遅延和方式を用いた強調処理によって、目的方向以外の音声信号の音量が抑圧されるため、無指向音声の出力と有指向音声の出力とを比較すると、有指向音声の出力の方が小さくなる。
従って、特許文献1を含む従来技術では、加算処理後の音声信号の出力をマイクロホンの個数で除算して平均化することの有無に拘わらず、強調処理により、無指向音声の出力と有指向音声の出力とに大きな差異が生じるという課題がある。
特に、上述したような監視システムでは、通常時(例えば監視対象のイベントが何も生じていない場合)では、監視者(例えば監視システムのユーザ)は、強調処理前(即ち、指向性が形成される前)の無指向状態で監視エリア全体の音声を聞き、もし異常音が生じた場合やカメラ装置の画像上に異常行動が確認された場合に、自ら指定した特定方向に指向性を向けた(即ち、指向性が形成された後の)有指向状態で音声を聞くという使用状況が考えられる。このような無指向状態と有指向状態との間を切り替える際、マイクアレイ装置により収音された音声の出力に大きな差異があると、監視者における監視業務に支障が生じる。
本発明は、上述した従来の課題を解決するために、マイクアレイ装置により収音された音声を用いて指定方向の音声を強調処理した後に音声の音量を調整し、強調処理の前後における音量の大きな差異の発生を抑制し、ユーザへの利便性を向上させる音声処理システム及び音声処理方法を提供することを目的とする。
本発明は、複数の収音素子を含み、前記収音素子を用いて無指向状態で音声を収音する収音部と、前記無指向状態から有指向状態に切り替えるための1つ以上の音声強調の指定方向の入力を受け付ける操作部と、前記指定方向の入力に応じて、前記収音部により収音された音声データを用いて、前記収音部から、前記指定方向の音声データを強調処理した前記有指向状態の音声データを生成する強調処理部と、前記強調処理部により生成された前記有指向状態の音声データの音量を調整する音量調整部と、前記収音部により収音された前記音声の前記無指向状態の音声データ、又は前記音量調整部により音量が調整された後の前記有指向状態の音声データを出力する音声出力部と、を備える、音声処理システムである。
また、本発明は、複数の収音素子を用いて無指向状態で音声を収音する収音部を有する音声処理システムにおける音声処理方法であって、前記無指向状態から有指向状態に切り替えるための1つ以上の音声強調の指定方向の入力を受け付けるステップと、前記指定方向の入力に応じて、前記収音部により収音された音声データを用いて、前記収音部から、前記指定方向の音声データを強調処理した前記有指向状態の音声データを生成するステップと、生成された前記有指向状態の音声データの音量を調整するステップと、前記収音部により収音された前記音声の前記無指向状態の音声データ、又は音量が調整された後の前記有指向状態の音声データを出力するステップと、を有する、音声処理方法である。
本発明によれば、マイクアレイ装置により収音された音声を用いて指定方向の音声を強調処理した後に音声の音量を調整することで、強調処理の前後における音量の大きな差異の発生を抑制することができ、ユーザへの利便性を向上させることができる。
(A),(B)各実施形態の音声処理システムの動作概要を示す模式図 第1の実施形態の音声処理システムのシステム構成の一例を示すブロック図 (A)従来の音声信号の強調処理の有無に応じて出力される無指向音声、有指向音声の各音量の第1例を示す図、(B)各実施形態の指向性制御装置における音声信号の強調処理の有無に応じて出力される無指向音声、有指向音声の各音量の第1例を示す図 (A)従来の音声信号の強調処理の有無に応じて出力される無指向音声、有指向音声の各音量の第2例を示す図、(B)各実施形態の指向性制御装置における音声信号の強調処理の有無に応じて出力される無指向音声、有指向音声の各音量の第2例を示す図 (A)〜(E)全方位マイクアレイ装置の外観図 全方位マイクアレイ装置により収音された音声に対して方向θの音声を強調処理する原理の一例の説明図 第1の実施形態の音声処理システムの実運用時における動作手順の一例を説明するフローチャート 第2の実施形態の音声処理システムのシステム構成の一例を示すブロック図 (A)音量調整値の事前設定に関する動作手順の一例を説明するフローチャート、(B)第2の実施形態の音声処理システムの実運用時における動作手順の一例を説明するフローチャート (A)第2の実施形態の第1変形例の音声処理システムのシステム構成の一例を示すブロック図、(B)音量調整値の事前設定に関する動作手順の一例を説明するフローチャート (A)第2の実施形態の第2変形例の音声処理システムが設置された収音領域の収音時の様子の一例を示す図、(B)ディスプレイ装置の画面に表示されたカメラ装置の出力画像の一例を示す図 第2の実施形態の第2変形例の音声処理システムのシステム構成の一例を示すブロック図 (A)エリア毎の音量調整値の事前設定に関する動作手順の一例を説明するフローチャート、(B)第2の実施形態の第2変形例の音声処理システムの実運用時における動作手順の一例を説明するフローチャート 第2の実施形態の第3変形例の音声処理システムのシステム構成の一例を示すブロック図 (A)全方位マイクアレイ装置毎の音量調整値の事前設定に関する動作手順の一例を説明するフローチャート、(B)第2の実施形態の第3変形例の音声処理システムの実運用時における動作手順の一例を説明するフローチャート (A)第3の実施形態の音声処理システムのシステム構成の一例を示すブロック図、(B)レコーダ装置に画像データ及び音声データを記録する動作手順の一例を説明するフローチャート 第3の実施形態の音声処理システムの実運用時における動作手順、並びに音量調整値の算出に関する動作手順の各一例を説明するフローチャート (A)第3の実施形態の第1変形例の音声処理システムのシステム構成の一例を示すブロック図、(B)指向角設定値の事前設定に関する動作手順の一例を説明するフローチャート 第3の実施形態の第1変形例の音声処理システムの実運用時における動作手順、並びに音量調整値の算出に関する動作手順の各一例を説明するフローチャート (A),(B)第3の実施形態の第2変形例の音声処理システムの動作概要を示す模式図 第3の実施形態の第2変形例の音声処理システムの実運用時における動作手順、並びに音量調整値の算出に関する動作手順の各一例を説明するフローチャート (A)第4の実施形態の音声処理システムのシステム構成の一例を示すブロック図、(B)音量設定値の事前設定に関する動作手順の一例を説明するフローチャート、(C)第4の実施形態の音声処理システムの実運用時における強調処理前の無指向音声の音量調整に関する動作手順の一例を説明するフローチャート 第4の実施形態の音声処理システムの実運用時における強調処理後の有指向音声の音量調整に関する動作手順の一例を説明するフローチャート (A)第5の実施形態の音声処理システムのシステム構成の一例を示すブロック図、(B)音量調整係数値の事前設定に関する動作手順の一例を説明するフローチャート (A)音量調整係数値の周波数特性の第1例を示す図、(B)音量調整係数値の周波数特性の第2例を示す図 第5の実施形態の音声処理システムの実運用時における動作手順の一例を説明するフローチャート
以下、本発明に係る音声処理システム及び音声処理方法の各実施形態について、図面を参照して説明する。各実施形態の音声処理システムは、例えば工場、公共施設(例えば図書館、イベント会場)、又は店舗(例えば小売店、銀行)に設置される監視システム(有人監視システム及び無人監視システムを含む)として用いられるが、特に限定されない。以下の各実施形態では、各実施形態の指向性制御システムは、例えば店舗に設置されるとして説明する。
なお、本発明は、音声処理システムを構成する各装置(例えば後述する指向性制御装置又は全方位マイクアレイ装置)、又は指向性制御システムを構成する各装置(例えば後述する指向性制御装置又は全方位マイクアレイ装置)が行う各動作(ステップ)を含む方法として表現することも可能である。
以下の説明では、音声データに対して特定の方向への指向性が形成されていない状態又は特定の方向に強調処理が行われていない状態を「無指向状態」と定義し、音声データに対して特定の方向に指向性が形成された状態又は特定の方向に強調処理が行われた状態を「有指向状態」と定義する。
また、以下の説明では、強調処理が行われる前の無指向状態において収音された音声を「無指向音声」と定義し、強調処理が行われた後の有指向状態の音声を「有指向音声」と定義する。
(各実施形態に共通の動作概要)
先ず、各実施形態の音声処理システムの動作概要について、図1(A)及び(B)を参照して説明する。図1(A)及び(B)は、各実施形態の音声処理システムの動作概要を示す模式図である。図1(A)では、例えば第1の実施形態の音声処理システム10が設置された収音領域K内において、カメラ装置C1が対象物(例えば床BLに立っている2人の人物)を撮像する様子と、全方位マイクアレイ装置2が全方位マイクアレイ装置2からの指向方向に存在する対象物(2人の人物)の会話と全方位マイクアレイ装置2からの指向方向に存在しないスピーカ装置SPからの出力音(例えば「♪〜」)とを収音する様子とが示されている。
図1(B)では、全方位マイクアレイ装置2から、ディスプレイ装置36の画面に表示された画像上に対してユーザの指FGにより指定された指定位置A’に対応する音声位置A(即ち、実際の位置のことを言い、以下同様とする。)に向かう指向方向の音声データ(例えば「Hello」)の音量がスピーカ装置SPからの出力音(例えば「♪」)の音声データの音量よりも大きくスピーカ装置37から出力される様子が示されている。
図1(A)に示す音声処理システム10では、カメラ装置C1は、例えばカメラ装置C1の画角の範囲内に映る被写体(例えば図1(A)に示す2人の人物)を撮像する。全方位マイクアレイ装置2は、収音領域K内において、全方位マイクアレイ装置2の設置位置の周囲の音声を収音する。図1(A)では、対象物としての2人の人物は会話を行っており、「Hello」は会話内容の一例である。カメラ装置C1の撮像により得られた画像データは、図2に示す指向性制御装置3のディスプレイ装置36に表示され(図1(B)参照)、2人の人物とスピーカ装置SPとが表示されている。
図1(B)において、ユーザの指FGにより、ディスプレイ装置36に表示された画像上の指定位置A’が指定されると、指向性制御装置3は、指定位置A’の座標データを用いて、全方位マイクアレイ装置2の設置位置から音声位置Aに向かう指向方向を示す座標(θMAh,θMAv)を算出する。なお、指向方向を示す座標(θMAh,θMAv)の算出例及び音声位置の詳細については後述する。
また、指向性制御装置3は、算出された指向方向を示す座標(θMAh,θMAv)の座標データを用いて、全方位マイクアレイ装置2の設置位置から音声位置Aに向かう方向に、収音された音声の指向性を形成する。言い換えると、指向性制御装置3は、指向方向を示す座標(θMAh,θMAv)の座標データを用いて、全方位マイクアレイ装置2の設置位置から音声位置Aに向かう方向の音声データを強調処理する。以下、音声データの指向性を形成する処理を、「音声データを強調処理する」という。
(第1の実施形態)
図2は、第1の実施形態の音声処理システム10のシステム構成の一例を示すブロック図である。図2に示す音声処理システム10は、カメラ装置C1と、全方位マイクアレイ装置2と、指向性制御装置3とを含む構成である。図1に示す音声処理システム10では、全方位マイクアレイ装置2と、カメラ装置C1と、指向性制御装置3とが、ネットワークNWを介して相互に接続されている。ネットワークNWは、有線ネットワーク(例えばイントラネット、インターネット)でも良いし、無線ネットワーク(例えば無線LAN(Local Area Network))でも良く、以下の各実施形態においても同様である。
撮像部の一例としてのカメラ装置C1は、例えば店舗の天井面に固定して設置され、例えば監視カメラとしての機能を有し、ネットワークNWに接続された中央監視制御室(不図示)からの遠隔操作によって、ズーム機能(例えばズームイン処理、ズームアウト処理)や光軸移動機能(パン、チルト)を用いて、カメラ装置C1の画角内の画像を撮像する。
カメラ装置C1の設置位置や方向は指向性制御装置3のメモリ38に登録されており、パン・チルト・ズームに関する制御情報は、指向性制御装置3に随時送信されて、画像位置と指向方向との位置関係は常に関連付けが行われている。また、カメラ装置C1は、例えば全方位カメラである場合には、収音領域Kの全方位の画像を示す画像データ(即ち、全方位画像データ)、又は全方位画像データに所定の歪み補正処理を施してパノラマ変換して生成した平面画像データを、ネットワークNWを介して指向性制御装置3に送信する。以下、説明を簡単にするために、カメラ装置C1が全方位カメラであるとして説明する。
カメラ装置C1は、ディスプレイ装置36に表示された画像(即ち、カメラ装置C1の撮像により得られた画像(以下、「出力画像」ともいう))上で、ユーザの指FGによって任意の位置が指定されると、指定位置A’の座標データを指向性制御装置3から受信し、カメラ装置C1から、指定位置A’に対応する実空間上の位置(以下、単に「音声位置」と略記する)までの距離、方向(水平角及び垂直角を含む。以下同様。)のデータを算出して指向性制御装置3に送信する。なお、カメラ装置C11における距離、方向のデータ算出処理は公知技術であるため、説明は省略する。
収音部の一例としての全方位マイクアレイ装置2は、全方位マイクアレイ装置2が設置される収音領域における音声を収音し、例えば収音領域に存在する音源の一例としての人物(例えば図1(A)中の2人の人物参照)の発する音声(例えば2人の人物の会話音声)を収音する。
全方位マイクアレイ装置2は、収音素子の一例としてのマイクロホンを複数含み、複数のマイクロホンを用いて、全方位マイクアレイ装置2の設置位置を中心として360°の方向(全方位)からの音声を無指向状態で収音する。従って、全方位マイクアレイ装置2により収音された音声データは、特定の方向に強調処理されていない。全方位マイクアレイ装置2の筐体形状の例については、図5(A)〜(E)を参照して後述する。
全方位マイクアレイ装置2は、等間隔毎に配置されたマイクロホン221,222,223,…,22(n−1),22nと、各マイクロホン221,222,223,…,22(n−1),22nにより収音された音声のデジタルの音声信号(音声データ)に変換するA/D変換器241,242,243,…,24(n−1),24nと、A/D変換器241,242,243,…,24(n−1),24nの出力に対して所定の信号処理を施す制御部(不図示)とを少なくとも含む構成である。
全方位マイクアレイ装置2は、各々のマイクロホン221,222,223,…,22(n−1),22nにより収音された音声データを含む音声パケット(不図示)を、ネットワークNWを介して、指向性制御装置3に送信する。
ここで、全方位マイクアレイ装置2の外観について、図5(A)〜(E)を参照して説明する。図5(A)〜(E)は、全方位マイクアレイ装置2,2A,2B,2C,2Dの外観図である。図2(A)〜(E)に示す全方位マイクアレイ装置2,2A,2B.2C,2Dは、外観及び複数のマイクロホンの配置位置が異なるが、それぞれの全方位マイクアレイ装置自身の機能は同等である。
図5(A)〜(E)において、各全方位マイクアレイ装置2,2A,2B,2C,2Dに用いられるマイクロホンは、例えば無指向性の高音質小型エレクトレットコンデンサーマイクロホン(ECM: Electret Condenser Microphone)117aが用いられ、以下の各実施形態においても同様である。
図5(A)に示す全方位マイクアレイ装置2は、円盤状の筐体21を有する。筐体21には、複数のマイクロホン22i,23i(i:1〜n、nは全方位マイクアレイ装置において使用されるマイクロホン数を示す。以下同様。)が同心円状に配置されている。具体的には、複数のマイクロホン22iが、筐体21と同一の中心を有する大きな円形状に沿って同心円状に配置され、複数のマイクロホン23iが、筐体21と同一の中心を有する小さい円形状に沿って同心円状に配置されている。複数のマイクロホン22iは、互いの間隔が広く、直径が大きく、低い音域に適した特性を有する。一方、複数のマイクロホン23iは、互いの間隔が狭く、直径が小さく、高い音域に適した特性を有する。
図5(B)に示す全方位マイクアレイ装置2Aは、円盤状の筐体21を有する。筐体21には、複数のマイクロホン22iが、水平方向の縦方向と横方向との中心が筐体21の中心において交わるように一様な間隔毎に直線上に配置されている。全方位マイクアレイ装置2Aは、複数のマイクロホン22iが縦横の直線状に配置されているので、音声データの強調処理時の演算量を低減できる。なお、縦方向又は横方向の1列だけに、複数のマイクロホン22iが配置されても良い。
図5(C)に示す全方位マイクアレイ装置2Bは、図2(A)に示す全方位マイクアレイ装置2Aに比べ、直径の小さい円盤状の筐体21Cを有する。筐体21Cには、複数のマイクロホン22iが、円周方向に沿って一様に配置されている。図5(C)に示す全方位マイクアレイ装置2Bは、各々のマイクロホン22iの間隔が短いので、高い音域に適した特性を有する。
図5(D)に示す全方位マイクアレイ装置2Cは、筐体中心に所定の直径を有する開口部21aが形成されたドーナツ型形状又はリング型の形状の筐体21Dを有する。筐体21Dでは、複数のマイクロホン22iが、筐体21Dの円周方向において、一様な間隔毎に同心円状に配置されている。
図5(E)に示す全方位マイクアレイ装置2Eは、矩形状の筐体21Eを有する。筐体21Eには、複数のマイクロホン22iが、筐体21Eの外周方向に沿って一様な間隔毎に配置されている。図5(E)に示す全方位マイクアレイ装置2Dでは、筐体21Eが矩形に形成されているので、例えばコーナー等の場所であっても全方位マイクアレイ装置2Dの設置を簡易化できる。
指向性制御装置3は、例えば中央監視制御室(不図示)に設置される据置型のPC(Personal Computer)でも良いし、ユーザが携帯可能な携帯電話機、タブレット端末、スマートフォン等のデータ通信端末でも良い。
指向性制御装置3は、通信部31と、操作部32と、信号処理部33と、ディスプレイ装置36と、スピーカ装置37と、メモリ38とを少なくとも含む構成である。信号処理部33は、指向方向算出部34aと、強調処理部34bと、音量調整部34cとを少なくとも含む構成である。
通信部31は、ネットワークNWを介して、全方位マイクアレイ装置2から送信されたパケットPKT(例えば図6(A)参照)を受信して信号処理部33に出力する。
操作部32は、ユーザの操作の内容を信号処理部33に通知するためのユーザインターフェース(UI:User Interface)であり、例えばマウス、キーボード等のポインティングデバイスである。また、操作部32は、例えばディスプレイ装置36の画面に対応して配置され、ユーザの指FG又はスタイラスペンによって操作が可能なタッチパネル又はタッチパッドを用いて構成されても良い。
操作部32は、ディスプレイ装置36に表示された画像(即ち、カメラ装置C1により撮像された画像。以下同様。)に対し、ユーザの操作によって指定された位置(即ち、スピーカ装置37から出力される音声データの音量の増大又は低減を所望する位置)を示す座標データを取得して信号処理部33に出力する。
音量操作部32vは、後述の音量調整部34cにより調整された後の有指向状態(後述参照)の音声データの音量をユーザの好みに応じて更に変更するための入力操作を受け付け、この入力操作によって入力された音量に関する情報を信号処理部33に通知する。信号処理部33は、音量調整部34cにより調整された後の有指向状態の音声データの音量を、音量操作部32vの操作によって更に変更し、以下の各実施形態においても同様である。
信号処理部33は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)又はDSP(Digital Signal Processor)を用いて構成され、指向性制御装置3の各部の動作を全体的に統括するための制御処理、他の各部との間のデータの入出力処理、データの演算(計算)処理及びデータの記憶処理を行う。
例えば、信号処理部33は、ディスプレイ装置36及びスピーカ装置37の動作を制御し、例えばユーザの操作に応じて、カメラ装置C1から送信された画像データをディスプレイ装置36に表示させ、全方位マイクアレイ装置2から送信された音声パケットに含まれる音声データをスピーカ装置37から出力させる。
指向方向算出部34aは、ディスプレイ装置36に表示された画像からユーザの位置の指定操作に応じて、全方位マイクアレイ装置2から、指定位置A’に対応する音声位置Aに向かう指向方向を示す座標(θMAh,θMAv)を算出する。指向方向算出部34aの具体的な算出方法は、上述したように公知技術であるため、詳細な説明を省略する。
指向方向算出部34aは、カメラ装置C1の設置位置から音声位置Aまでの距離、方向のデータを用いて、全方位マイクアレイ装置2の設置位置から音声位置Aに向かう指向方向を示す座標(θMAh,θMAv)を算出する。例えばカメラ装置C1の筐体を囲むように全方位マイクアレイ装置2の筐体とカメラ装置C1とが一体的に取り付けられている場合には、カメラ装置C1から音声位置Aまでの方向(水平角,垂直角)は、全方位マイクアレイ装置2から音声位置Aまでの指向方向を示す座標(θMAh,θMAv)として用いることができる。
なお、カメラ装置C1の筐体と全方位マイクアレイ装置2の筐体とが離れて取り付けられている場合には、指向方向算出部34aは、事前に算出されたキャリブレーションパラメータのデータと、カメラ装置C1から音声位置Aまでの方向(水平角,垂直角)のデータとを用いて、全方位マイクアレイ装置2から音声位置Aまでの指向方向を示す座標(θMAh,θMAv)を算出する。なお、キャリブレーションとは、指向性制御装置3の指向方向算出部34aが指向方向を示す座標(θMAh,θMAv)を算出するために必要となる所定のキャリブレーションパラメータを算出又は取得する動作であり、公知技術により予め行われているとする。
指向方向を示す座標(θMAh,θMAv)のうち、θMAhは全方位マイクアレイ装置2から音声位置Aに向かう指向方向の水平角を表し、θMAvは全方位マイクアレイ装置2から音声位置Aに向かう指向方向の垂直角を表す。なお、音声位置Aは、操作部32がディスプレイ装置36に表示された画像においてユーザの指FG又はスタイラスペンによって指定された指定位置A’に対応する実際の監視対象又は収音対象となる現場の位置である(図1(A)参照)。
強調処理部34bは、全方位マイクアレイ装置2から送信された音声パケットに含まれる音声データを用いて、指向方向算出部34aにより算出された指向方向を示す座標(θMAh,θMAv)が示す指向方向の音声データを強調処理し、強調処理後の有指向状態の音声データを生成する。言い換えると、強調処理部34bは、全方位マイクアレイ装置2から送信された音声パケットに含まれる音声データを用いて、指向方向算出部34aにより算出された指向方向を示す座標(θMAh,θMAv)が示す指向方向に音声データの指向性を形成する。なお、強調処理部34bにおける強調処理は、例えば全方位マイクアレイ装置2により行われても良い。
音量調整部34cは、予め音量調整部34cの動作において規定されている音量調整値34c1を用いて、強調処理部34bにより強調処理された後の有指向状態の音声データの音量を加算する又は減算するように調整する。信号処理部33は、音量調整部34cにより音量が調整された後の音声データをスピーカ装置37から出力する。
表示部の一例としてのディスプレイ装置36は、例えばユーザの操作に応じて、信号処理部33の制御の下で、例えばカメラ装置C1から送信された画像データを画面に表示する。
音声出力部の一例としてのスピーカ装置37は、全方位マイクアレイ装置2から送信された音声パケットに含まれる音声データ(言い換えると、無指向状態の音声データ)、又は音量調整部34cにより音量が調整された後の音声データを出力する。なお、ディスプレイ装置36及びスピーカ装置37は、指向性制御装置3とは別々の構成としても良い。
記憶部の一例としてのメモリ38は、例えばRAM(Random Access Memory)を用いて構成され、指向性制御装置3の各部の動作時のワークメモリとして機能し、更に、指向性制御装置3の各部の動作時に必要なデータを記憶する。
図6は、全方位マイクアレイ装置2により収音された音声に対して方向θの音声を強調処理する原理の一例の説明図である。図6では、例えば遅延和方式を用いた指向性形成処理の原理について簡単に説明する。音源80から発した音波は、全方位マイクアレイ装置2に内蔵される各マイクロホン221,222,223,…,22(n−1),22nに対し、ある一定の角度(入射角=(90−θ)[度])で入射する。図6に示す入射角θは、全方位マイクアレイ装置2から音声位置に向かう収音方向の水平角θMAhでも垂直角θMAvでも良い。
音源80は、例えば全方位マイクアレイ装置2が収音する方向に存在するカメラ装置C1の被写体(例えば図1(A)に示すいずれかの人物)であり、全方位マイクアレイ装置2の筐体21の面上に対し、所定角度θの方向に存在する。また、各マイクロホン221,222,223,…,22(n−1),22n間の間隔dは一定とする。
音源80から発した音波は、最初にマイクロホン221に到達して収音され、次にマイクロホン222に到達して収音され、同様に次々に収音され、最後にマイクロホン22nに到達して収音される。
なお、全方位マイクアレイ装置2の各マイクロホン221,222,223,…,22(n−1),22nの位置から音源80に向かう方向は、例えば音源80が人物の会話時の音声である場合に、全方位マイクアレイ装置2の各マイクロホンから、ユーザがディスプレイ装置36の画面上に指定した指定位置に対応する音声位置に向かう方向と同じである。
ここで、音波がマイクロホン221,222,223,…,22(n−1)に到達した時刻から最後に収音されたマイクロホン22nに到達した時刻までには、到達時間差τ1,τ2,τ3,…,τn−1が生じる。このため、各々のマイクロホン221,222,223,…,22(n−1),22nが収音した音声データがそのまま加算された場合には、位相がずれたまま加算されるため、音波の音量レベルが全体的に弱め合う。
なお、τ1は音波がマイクロホン221に到達した時刻と音波がマイクロホン22nに到達した時刻との差分の時間であり、τ2は音波がマイクロホン222に到達した時刻と音波がマイクロホン22nに到達した時刻との差分の時間であり、同様に、τn−1は音波がマイクロホン22(n−1)に到達した時刻と音波がマイクロホン22nに到達した時刻との差分の時間である。
本実施形態の強調処理では、マイクロホン221,222,223,…,22(n−1),22n毎に対応して設けられるA/D変換器241,242,243,…,24(n−1),24nにおいて、アナログの音声信号がデジタルの音声信号に変換される。更に、デジタルの音声信号は、マイクロホン221,222,223,…,22(n−1),22n毎に対応して設けられる遅延器251,252,253,…,25(n−1),25nにおいて所定の遅延時間が加算される。各遅延器251,252,253,…,25(n−1),25nの出力は加算器26において加算される。なお、各遅延器251,252,253,…,25(n−1),25nと加算器26とは、強調処理部34bに設けられても良いし、強調処理が全方位マイクアレイ装置2により行われる場合には全方位マイクアレイ装置2に設けられても良い。
更に、図6に示す強調処理では、遅延器251,252,253,…,25(n−1),25nは、各々のマイクロホン221,222,222,…,22(n−1),22nにおける到達時間差に対応する遅延時間を付与して全ての音波の位相を揃えた後、加算器26において遅延処理後の音声データが加算される。これにより、強調処理部34b又は全方位マイクアレイ装置2は、各マイクロホン221,222,223,…,22(n−1),22nにより収音された音声に対し、角度θの方向の音声を強調することができる。
例えば図6では、遅延器251,252,253,…,25(n−1),25nにおいて付与される各遅延時間D1,D2,D3,…,D(n−1),Dnは、それぞれ到達時間差τ1,τ2,τ3,…,τ(n−1)に相当し、数式(1)により示される。
Figure 2016039407
L1は、マイクロホン221とマイクロホン22nとにおける音波到達距離の差である。L2は、マイクロホン222とマイクロホン22nとにおける音波到達距離の差である。L3は、マイクロホン223とマイクロホン22nとにおける音波到達距離の差であり、同様に、L(n−1)は、マイクロホン22(n−1)とマイクロホン22nとにおける音波到達距離の差である。Vsは音波の音速である。この音速Vsは全方位マイクアレイ装置2により算出されても良いし、指向性制御装置3により算出されても良い(後述参照)。L1,L2,L3,…,L(n−1)は既知の値である。図6では、遅延器25nに設定される遅延時間Dnは0(ゼロ)である。
このように、強調処理部34b又は全方位マイクアレイ装置2は、遅延器251,252,253,…,25(n−1),25nにおいて付与される遅延時間D1,D2,D3,…,Dn−1,Dnを変更することで、各々のマイクロホン221,222,223,…,22(n−1),22nにより収音された音声に対し、任意の方向の音声を簡易に強調することができる。
(強調処理及び音量調整による音量への影響について)
次に、各実施形態の音声処理システムにおける強調処理及び音量調整による音声データの音量への影響について、図3(A),(B)及び図4(A),(B)を参照して説明する。図3(A)は、従来の音声信号の強調処理の有無に応じて出力される無指向音声、有指向音声の各音量の第1例を示す図である。図3(B)は、各実施形態の指向性制御装置3における音声信号の強調処理の有無に応じて出力される無指向音声、有指向音声の各音量の第1例を示す図である。
図3(A)に示す従来技術では、マイクアレイにより収音された音声(無指向音声)は波形WV1のように示され、信号処理の切替(即ち、強調処理の有無に応じた出力である無指向音声と有指向音声との切替のこと。以下同様。)において無指向音声が選択された場合には、スピーカ装置からは、無指向音声の波形WV1に対応した音声が出力される。
ところが、信号処理の切替において有指向音声が選択された場合には、スピーカ装置からは、波形WV1の無指向音声が強調処理された後の波形WV2に対応した音声が出力される。従って、図6に示す遅延和方式の強調処理が行われると、強調処理によってマイクロホン毎の音声信号(無指向音声の信号)が単純に加算され、有指向音声の音量は無指向音声の音量よりも大きくなり、無指向音声(波形WV1参照)の音量と有指向音声(波形WV2参照)の音量とは異なってしまう。
一方、図3(B)に示す各実施形態では、全方位マイクアレイ装置2により収音された音声(無指向音声)は波形WV1のように示され、信号処理の切替において無指向音声が選択された場合には、図3(A)と同様に、スピーカ装置37からは、無指向音声の波形WV1に対応した音声が出力される。
ところが、信号処理の切替において有指向音声が選択された場合には、スピーカ装置37からは、波形WV2の無指向音声が強調処理された後の波形WV2に対し、更に、音量調整の処理が行われることによって、音量が調整された後の波形WV3に対応した音声が出力される。従って、図6に示す遅延和方式の強調処理が行われると、強調処理によってマイクロホン毎の音声信号(無指向音声の信号)が単純に加算され、有指向音声の音量は無指向音声の音量よりも大きくなるが、音量調整の処理によって、無指向音声(波形WV1参照)の音量と有指向音声(波形WV3参照)の音量とは同程度となる。
図4(A)は、従来の音声信号の強調処理の有無に応じて出力される無指向音声、有指向音声の各音量の第2例を示す図である。図4(B)は、各実施形態の指向性制御装置3における音声信号の強調処理の有無に応じて出力される無指向音声、有指向音声の各音量の第2例を示す図である。
図4(A)に示す従来技術では、マイクアレイにより収音された音声(無指向音声)は波形WV1のように示され、信号処理の切替において無指向音声が選択された場合には、スピーカ装置からは、無指向音声の波形WV1に対応した音声が出力される。
ところが、信号処理の切替において有指向音声が選択された場合には、スピーカ装置からは、波形WV1の無指向音声が強調処理された後の波形WV2に対し、更に、マイクアレイを構成するマイクロホンの個数に応じた平均化処理が行われるので、平均化処理後の出力を示す波形WV4に対応した音声が出力される。従って、図6に示す遅延和方式の強調処理が行われると、強調処理によってマイクロホン毎の音声信号(無指向音声の信号)が加算され、更に、マイクロホンの個数に応じた平均化処理が行われる結果、有指向音声の音量は無指向音声の音量よりも小さくなり、無指向音声(波形WV1参照)の音量と有指向音声(波形WV4参照)の音量とは異なってしまう。
一方、図4(B)に示す各実施形態では、全方位マイクアレイ装置2により収音された音声(無指向音声)は波形WV1のように示され、信号処理の切替において無指向音声が選択された場合には、図4(A)と同様に、スピーカ装置37からは、無指向音声の波形WV1に対応した音声が出力される。
ところが、信号処理の切替において有指向音声が選択された場合には、スピーカ装置37からは、波形WV2の無指向音声が強調処理された後の波形WV2に対し、マイクアレイを構成するマイクロホンの個数に応じた平均化処理が行われるが、更に、平均化処理後の音声に対して音量調整の処理が行われることによって、音量が調整された後の波形WV5に対応した音声が出力される。従って、図6に示す遅延和方式の強調処理が行われると、強調処理によってマイクロホン毎の音声信号(無指向音声の信号)が加算され、マイクロホンの個数に応じた平均化処理が行われる結果、有指向音声の音量は無指向音声の音量よりも小さくなるが、音量調整の処理によって、無指向音声(波形WV1参照)の音量と有指向音声(波形WV5参照)の音量とは同程度となる。
次に、本実施形態の音声処理システム10の実運用時の動作手順について、図7を参照して説明する。図7は、第1の実施形態の音声処理システム10の実運用時における動作手順の一例を説明するフローチャートである。以下の説明において、音声処理システムの実運用時とは、例えば全方位マイクアレイ装置2が設置された収音領域において実際に音声を収音している状態を示す。
図7において、全方位マイクアレイ装置2は、各マイクロホンにより収音された音声の音声データを含む音声パケットを指向性制御装置3に送信する。また、カメラ装置C1は、撮像により得られた画像データを含む画像パケットを指向性制御装置3に送信する。信号処理部33は、全方位マイクアレイ装置2から送信された音声パケットに含まれる強調処理前の無指向状態の音声(無指向音声)の音声データをスピーカ装置37から出力させ(S1)、更に、カメラ装置C1から送信された画像パケットに含まれる画像データをディスプレイ装置36に表示させる。
ステップS1の後、無指向状態から有指向状態に切り替えるための1つ以上の音声強調の指定方向として、例えばユーザの入力操作に従って操作部32から、ディスプレイ装置36に表示されている画像データ上の任意の指定位置A’が指定されたとする(S2)。
この場合、指向方向算出部34aは、カメラ装置C1から、指定位置A’に対応する音声位置Aまでの距離、方向(水平角,垂直角)のデータを取得し、更に、このデータを用いて、全方位マイクアレイ装置2から、指定位置A’に対応する音声位置Aに向かう指向方向(指定方向)を示す座標(θMAh,θMAv)を算出する(S3)。なお、上述したように、指向方向算出部34aにおける指向方向を示す座標(θMAh,θMAv)の算出処理は公知技術であるため、詳細な説明を省略する。
ステップS3の後、強調処理部34bは、全方位マイクアレイ装置2から送信された音声パケットに含まれる音声データを用いて、指向方向を示す座標(θMAh,θMAv)の方向に対する音声の強調処理を実行し、強調処理後の有指向状態の音声データを生成する(S4)。ステップS4の音声の強調処理は、例えば図6に示す遅延和方式を用いることができる。
ステップS4の後、音量調整部34cは、予め音量調整部34cの動作において規定されている音量調整値34c1を用いて、強調処理部34bにより強調処理された後の有指向状態の音声データの音量を加算する又は減算するように調整する(S5)。
例えば、図3(B)に示すように、マイクロホンの個数に応じた音量の平均化処理が例えば強調処理部34bにより行われない場合には、ステップS5では、音量調整部34cは、有指向状態の音声データの音量から音量調整値34c1を減算するように調整する。一方、図4(B)に示すように、マイクロホンの個数に応じた音量の平均化処理が例えば強調処理部34bにより行われる場合には、ステップS5では、音量調整部34cは、有指向状態の音声データの音量に音量調整値34c1を加算するように調整する。
信号処理部33は、音量調整部34cにより音量が調整された後の音声データをスピーカ装置37から出力する(S6)。
以上により、本実施形態の音声処理システム10では、全方位マイクアレイ装置2は、複数のマイクロホン22iを用いて無指向状態で音声を収音する。操作部32は、無指向状態から有指向状態に切り替えるための1つ以上の音声強調の指定方向の入力を受け付ける。強調処理部34bは、操作部32により指定方向(指定位置A’)が入力されると、収音された音声データを用いて、全方位マイクアレイ装置2から指定方向の音声データを強調処理した有指向状態の音声データを生成する。音量調整部34cは、固定の音量調整値34c1を用いて、強調処理後の有指向状態の音声データの音量を調整する。スピーカ装置37は、無指向状態の音声データ、又は音量が調整された後の有指向状態の音声データを出力する。
これにより、音声処理システム10は、全方位マイクアレイ装置2により収音された音声を用いて、指定方向の音声データを強調処理した後に音声データの音量を調整することで、無指向状態の音声データの音量と音量が調整された後の有指向状態の音声データの音量との差異の増大を抑制することができる(例えば図3(B)又は図4(B)参照)。また、音声処理システム10は、無指向状態から有指向状態への切り替えの際に、音声データの音量が大きく低下したり増大したりすることを抑制することができるので、ユーザに音量の調整を都度行わせる手間を省くことができ、ユーザの業務(例えば監視業務)への利便性を向上させることができる。
なお、音声処理システム10は、指定方向の入力の解除(例えば指定位置A’の指定操作の解除)の操作が行われると、強調処理後の有指向状態の音声データの音量から音量調整値34c1を減算又は加算することによって、強調処理前の無指向状態の音声データの音量に調整しても良い。つまり、音声処理システム10は、指定方向の入力の操作が行われた場合とは反対に、音量調整値34c1を用いて、強調処理後の有指向状態の音声データの音量から、強調処理前の無指向状態の音声データの音量に調整する。これにより、音声処理システム10は、有指向状態から無指向状態への切り替えの際に、音声データの音量が大きく増大したり低下したりすることを抑制することができる。
また、本実施形態の音声処理システム10は、音量調整部34cにおいて予め決められた所定(固定)の音量調整値34c1を用いて、有指向状態の音声データの音量を調整するので、例えば音声処理システム10の設置環境に応じて一定の目安となる固定の音量調整値34c1を予め決めておくことで、有指向状態の音声データの音量を簡易に調整することができる。
(第2の実施形態)
第2の実施形態では、信号処理部33Aは、所定の音量調整値設定画面(不図示)に対してユーザの入力操作に応じて操作部32から入力された値を、音量調整値381としてメモリ38Aに記憶する(図8参照)。図8は、第2の実施形態の音声処理システム10Aのシステム構成の一例を示すブロック図である。図8に示す音声処理システム10Aでは、図1に示す音声処理システム10と比べて、指向性制御装置3が指向性制御装置3Aに置き換わっており、その他の構成は同一であるため、同一の内容の説明は簡略化又は省略し、異なる内容について説明する。
音量調整部34cAは、メモリ38Aに記憶される音量調整値381を用いて、強調処理部34bにより強調処理された後の有指向状態の音声データの音量を調整する。音量調整値381を用いた音量調整の方法は第1の実施形態と同様であるため、詳細な説明は省略する。
次に、本実施形態の音声処理システム10Aの動作手順について、図9(A)及び(B)を参照して説明する。図9(A)は、音量調整値381の事前設定に関する動作手順の一例を説明するフローチャートである。図9(B)は、第2の実施形態の音声処理システム10Aの実運用時における動作手順の一例を説明するフローチャートである。なお、図9(B)において、第1の実施形態の音声処理システム10に対応する図7の各処理の説明と同一の処理に対しては同一のステップ番号を付与して説明を簡略化又は省略し、異なる内容について説明する。
図9(A)において、ユーザの入力操作によって、操作部32から音量調整値設定画面の呼び出しの指示を受けると(S11)、信号処理部33Aは、操作部32からの指示に応じて、音量調整値設定画面をディスプレイ装置36に表示させる。ユーザの入力操作によって、操作部32から音量調整値が入力されると、信号処理部33Aは、入力された音量調整値381をメモリ38に書き込んで記憶する(S12)。これにより、音量調整値381のメモリ38への事前設定の処理が終了する。
図9(B)において、ステップS4の後、音量調整部34cAは、図9(A)に示す事前設定の処理によってメモリ38Aに記憶された音量調整値381を用いて、強調処理部34bにより強調処理された後の有指向状態の音声データの音量を調整する(S5A)。ステップS5A以降の処理は図7に示すステップS6と同一であるため、説明を省略する。
以上により、本実施形態の音声処理システム10Aは、所定の音量調整値設定画面に対して入力された音量調整値381をメモリ38Aから読み出して、この音量調整値381を用いて、強調処理後の有指向状態の音声データの音量を調整するので、有指向状態の音声データの音量を簡易に調整することができる。また、音量調整値381はメモリ38Aに書き込まれているので、音声処理システム10Aの設置環境の変化に応じて、音量調整値381を適宜(例えば実運用中に)変更することもできる。
(第2の実施形態の第1変形例)
第2の実施形態の第1変形例では、信号処理部33Aは、所定の音量調整値が書き込まれた設定ファイルをメモリ38A’に記憶する(図10(A)参照)。図10(A)は、第2の実施形態の第1変形例の音声処理システム10A’のシステム構成の一例を示すブロック図である。図10(A)に示す音声処理システム10A’では、図1に示す音声処理システム10と比べて、指向性制御装置3が指向性制御装置3A’に置き換わっており、その他の構成は同一であるため、同一の内容の説明は簡略化又は省略し、異なる内容について説明する。
音量調整部34cAは、メモリ38A’に記憶された設定ファイルSTFに書き込まれた音量調整値381を用いて、強調処理部34bにより強調処理された後の有指向状態の音声データの音量を調整する。音量調整値381を用いた音量調整の方法は第1の実施形態と同様であるため、詳細な説明は省略する。
次に、本実施形態の音声処理システム10A’における音量調整値381の事前設定に関する動作手順について、図10(B)を参照して説明する。図10(B)は、音量調整値の事前設定に関する動作手順の一例を説明するフローチャートである。なお、第2の実施形態の第1変形例では、音声処理システム10A’の実運用時における動作手順は第2の実施形態の音声処理システム10Aの実運用時における動作手順(図9(B)参照)と同一であるため、説明を省略する。
図10(B)において、ユーザの入力操作によって、操作部32から音量調整値381が設定ファイルSTFの中に書き込まれ(S21)、信号処理部33Aは、操作部32からの指示に応じて、音量調整値381が書き込まれた設定ファイルSTFをメモリ38A’に書き込むことで、音量調整値381をメモリ38A’に設定する(S22)。これにより、音量調整値381のメモリ38A’への事前設定の処理が終了する。
以上により、第2の実施形態の第1変形例の音声処理システム10A’は、所定の音量調整値381が書き込まれた設定ファイルSTFをメモリ38A’から読み出して、強調処理後の有指向状態の音声データの音量を調整するので、有指向状態の音声データの音量を簡易に調整することができる。また、音量調整値381が書き込まれた設定ファイルSTFはメモリ38A’に書き込まれているので、音声処理システム10A’の設置環境の変化に応じて、音量調整値381を適宜(例えば実運用中に)変更することもできる。
(第2の実施形態の第2変形例)
第2の実施形態の第2変形例では、信号処理部33Bは、所定の音量調整値設定画面(不図示)に対してユーザの入力操作に応じて操作部32から入力された値を、ディスプレイ装置36に表示された収音領域Kに対するカメラ装置C1の出力画像のエリア毎の音量調整値としてメモリ38Bに記憶する(図11(A),(B),図12参照)。
図11(A)は、第2の実施形態の第2変形例の音声処理システム10Bが設置された収音領域Kの収音時の様子の一例を示す図である。図11(B)は、ディスプレイ装置36の画面に表示されたカメラ装置C1の出力画像の一例を示す図である。図12は、第2の実施形態の第2変形例の音声処理システム10Bのシステム構成の一例を示すブロック図である。図12に示す音声処理システム10Bでは、図1に示す音声処理システム10と比べて、指向性制御装置3が指向性制御装置3Bに置き換わっており、その他の構成は同一であるため、同一の内容の説明は簡略化又は省略し、異なる内容について説明する。
図11(A)では、カメラ装置C1と全方位マイクアレイ装置2とが天井面85に一体的に取り付けられた例が示され、収音領域Kの床BL上には、4人の人物91a,92a,93a,94aが立っている。人物91a,92aは、例えばお互いに「Hello」及び「Hi!」のように会話をしており、人物93aは人物94aに向かって例えば「Good morning!」と挨拶をしている。
図11(B)では、ディスプレイ装置36に、カメラ装置C1により撮像された画像(例えば全方位画像)が表示されており、この全方位画像の中では、例えば全方位画像の座標に応じて4個のエリアAR1,AR2,AR3,AR4が予め決められている。エリアAR1には2人の人物91a,92aが表示され、エリアAR4には2人の人物93a,94aが表示されている。第2の実施形態の第2変形例では、図11(B)に示すエリア毎に、同一又は異なる音量調整値がそれぞれ予め決められて設定されている。これらのエリア毎の音量調整値はメモリ38Bに記憶されている。
音量調整部34cBは、指定位置A’の座標が含まれるエリアに対応する音量調整値382をメモリ38Bから読み出して、読み出した音量調整値382を用いて、強調処理部34bにより強調処理された後の有指向状態の音声データの音量を調整する。エリア毎の音量調整値382を用いた音量調整の方法は第1の実施形態と同様であるため、詳細な説明は省略する。
次に、本実施形態の音声処理システム10Bの動作手順について、図13(A)及び(B)を参照して説明する。図13(A)は、エリア毎の音量調整値382の事前設定に関する動作手順の一例を説明するフローチャートである。図13(B)は、第2の実施形態の第2変形例の音声処理システム10Bの実運用時における動作手順の一例を説明するフローチャートである。なお、図13(B)において、第1の実施形態の音声処理システム10に対応する図7の各処理の説明と同一の処理に対しては同一のステップ番号を付与して説明を簡略化又は省略し、異なる内容について説明する。
図13(A)において、ユーザの入力操作によって、操作部32から音量調整値設定画面の呼び出しの指示を受けると(S11)、信号処理部33Bは、操作部32からの指示に応じて、音量調整値設定画面をディスプレイ装置36に表示させる。ユーザの入力操作によって、操作部32からエリア毎の音量調整値382がそれぞれ入力されると、信号処理部33Bは、入力されたエリア毎の音量調整値382をメモリ38Bに書き込んで記憶する(S12B)。これにより、エリア毎の音量調整値382のメモリ38Bへの事前設定の処理が終了する。
図13(B)において、ステップS4の後、音量調整部34cBは、ステップS2において指定された指定位置A’の座標が含まれるエリアに対応する音量調整値382をメモリ38Bから読み出して、読み出した音量調整値382を用いて、強調処理部34bにより強調処理された後の有指向状態の音声データの音量を調整する(S5B)。ステップS5B以降の処理は図7に示すステップS6と同一であるため、説明を省略する。
以上により、第2の実施形態の第2変形例の音声処理システム10Bは、ディスプレイ装置36に表示されたカメラ装置C1の出力画像上の指定位置A’の座標が含まれる収音領域Kの画像上のエリアに応じて、エリア毎に予め入力された音量調整値382をメモリ38Bから読み出して、強調処理後の有指向状態の音声データの音量を調整するので、収音領域Kにおける人物(例えば話者)の位置に応じて音量調整値382を選択することができ、強調処理後の有指向状態の音声データの音量を適切に調整することができる。また、エリア毎の音量調整値382はメモリ38Bに書き込まれているので、音声処理システム10Bの設置環境の変化に応じて、音量調整値382を適宜(例えば実運用中に)変更することもできる。
(第2の実施形態の第3変形例)
第2の実施形態の第3変形例では、音声処理システム10Cは、複数のカメラ装置及び全方位マイクアレイ装置を有しており、1個のカメラ装置と1個の全方位マイクアレイ装置とは対応付けられている。即ち、1個のカメラ装置が撮像する場所の音声を収音する全方位マイクアレイ装置が予め決められている(図14参照)。図14は、第2の実施形態の第3変形例の音声処理システム10Cのシステム構成の一例を示すブロック図である。
図14に示すように、例えば収音領域の部屋M1を撮像するカメラ装置はカメラ装置C1であり、部屋M1の音声を収音する全方位マイクアレイ装置は全方位マイクアレイ装置2である。同様に、収音領域の部屋M2を撮像するカメラ装置はカメラ装置C1Aであり、部屋M2の音声を収音する全方位マイクアレイ装置は全方位マイクアレイ装置2Aである。図14に示す音声処理システム10Cでは、図1に示す音声処理システム10と比べて、指向性制御装置3が指向性制御装置3Cに置き換わっており、その他の構成は同一であるため、同一の内容の説明は簡略化又は省略し、異なる内容について説明する。
音量調整部34cCは、ユーザの入力操作に応じて操作部32により選択された全方位マイクアレイ装置に応じて、全方位マイクアレイ装置毎に書き込まれた音量調整値383をメモリ38Cから読み出して、読み出した音量調整値383を用いて、強調処理部34bにより強調処理された後の有指向状態の音声データの音量を調整する。全方位マイクアレイ装置毎の音量調整値383を用いた音量調整の方法は第1の実施形態と同様であるため、詳細な説明は省略する。
次に、本実施形態の音声処理システム10Cの動作手順について、図15(A)及び(B)を参照して説明する。図15(A)は、全方位マイクアレイ装置毎の音量調整値383の事前設定に関する動作手順の一例を説明するフローチャートである。図15(B)は、第2の実施形態の第3変形例の音声処理システム10Cの実運用時における動作手順の一例を説明するフローチャートである。なお、図15(B)において、第1の実施形態の音声処理システム10に対応する図7の各処理の説明と同一の処理に対しては同一のステップ番号を付与して説明を簡略化又は省略し、異なる内容について説明する。
図15(A)において、ユーザの入力操作によって、操作部32から音量調整値設定画面(不図示)の呼び出しの指示を受けると(S11)、信号処理部33Cは、操作部32からの指示に応じて、音量調整値設定画面をディスプレイ装置36に表示させる。ユーザの入力操作によって、操作部32から全方位マイクアレイ装置毎の音量調整値383がそれぞれ入力されると、信号処理部33Cは、入力されたエリア毎の音量調整値383をメモリ38Cに書き込んで記憶する(S12C)。これにより、全方位マイクアレイ装置毎の音量調整値383のメモリ38Cへの事前設定の処理が終了する。
図15(B)において、先ず、ユーザの入力操作によって、使用される全方位マイクアレイ装置(例えば全方位マイクアレイ装置2)が操作部32から選択されると(S1C−B)、信号処理部33Cは、ステップS1C−Bにおいて選択された全方位マイクアレイ装置2から送信された音声パケットに含まれる強調処理前の無指向状態の音声(無指向音声)の音声データをスピーカ装置37から出力させ(S1C)、更に、選択された全方位マイクアレイ装置2に対応するカメラ装置C1から送信された画像パケットに含まれる画像データをディスプレイ装置36に表示させる。
ステップS1Cの後、無指向状態から有指向状態に切り替えるための1つ以上の音声強調の指定方向として、例えばユーザの入力操作に従って操作部32から、ステップS1C−Bにおいて選択された全方位マイクアレイ装置2に対応するカメラ装置C1の出力画像の画像データ上の任意の指定位置A’が指定されたとする(S2C)。
また、ステップS4の後、音量調整部34cCは、ユーザの入力操作に応じて操作部32により選択された全方位マイクアレイ装置2に応じて、全方位マイクアレイ装置毎に書き込まれた音量調整値383をメモリ38Cから読み出して、読み出した音量調整値383を用いて、強調処理部34bにより強調処理された後の有指向状態の音声データの音量を調整する(S5C)。ステップS5C以降の処理は図7に示すステップS6と同一であるため、説明を省略する。
以上により、第2の実施形態の第3変形例の音声処理システム10Cは、全方位マイクアレイ装置と収音領域Kを撮像するカメラ装置とが1対1に対応付けられた複数の組合せが設けられており、いずれかの全方位マイクアレイ装置の選択に応じて、選択された全方位マイクアレイ装置に対応する音量調整値をメモリ38Cから読み出して、強調処理後の有指向状態の音声データの音量を調整するので、例えば複数の拠点を中央監視室等において監視する場合でも、各拠点の全方位マイクアレイ装置の設置環境に応じて音量調整値383を選択することができ、有指向状態の音声データの音量を適切に調整することができる。
(第3の実施形態)
上述した各実施形態又はその変形例では、音量調整値は、予めユーザの入力操作に応じて操作部32から入力された値が用いられた。第3の実施形態では、信号処理部33Dは、全方位マイクアレイ装置2から、操作部32により入力された指定位置A’に対応する音声位置Aに向かう指定方向に所定の音声データ(例えば人物の音声データ)が検出された場合に、強調処理の前後における音声データの音響レベルの差分を基にして、音量調整値を音量調整値算出部34dにおいて算出する(図16(A)参照)。
図16(A)は、第3の実施形態の音声処理システム10Dのシステム構成の一例を示すブロック図である。図16(A)に示す音声処理システム10Dでは、図1に示す音声処理システム10と比べて、レコーダ装置4が新しく追加され、更に、指向性制御装置3が指向性制御装置3Dに置き換わっており、その他の構成は同一であるため、同一の内容の説明は簡略化又は省略し、異なる内容について説明する。
レコーダ装置4は、ネットワークNWに接続され、全方位マイクアレイ装置2から送信された音声パケットに含まれる音声データとカメラ装置C1から送信された画像パケットに含まれる画像データとを対応付けて記憶する。
信号処理部33Dは、指向方向算出部34aと、強調処理部34bと、音量調整部34cと、音量調整値算出部34dとを含む構成である。音量調整値算出部34dは、音量調整値算出部34dの算出結果である音量調整値34d1を保持し、更に、発話区間判定部34d2を有する。なお、発話区間判定部34d2は、信号処理部33Dの内部に含まれた構成であれば、音量調整値算出部34dとは別に設けられても良い。
音量調整値算出部34dは、全方位マイクアレイ装置2から、操作部32により入力された指定位置A’に対応する音声位置Aに向かう指定方向に所定の音声データ(例えば人物の音声データ)が検出されたと発話区間判定部34d2により判定された場合に、強調処理の前後における音声データの音響レベルの差分を基にして、音量調整値を算出する。音量調整値の算出例については、図17を参照して後述する。
発話区間判定部34d2は、強調処理部34bにより生成された強調処理後の有指向状態の音声データを基に、操作部32により入力された指定位置A’に対応する音声位置Aに向かう指定方向に所定の音声データ(例えば人物の音声データ)が検出されるか否かを判定する。例えば、発話区間判定部34d2は、人間の可聴帯域の一例としての300Hz〜3400Hz(図25(A)参照)の周波数帯域において所定の音響レベルを超える音声信号が出現するか否かに応じて判定する。
次に、本実施形態の音声処理システム10Dの動作手順について、図16(B)及び図17を参照して説明する。図16(B)は、レコーダ装置に画像データ及び音声データを記録する動作手順の一例を説明するフローチャートである。図17は、第3の実施形態の音声処理システム10Dの実運用時における動作手順、並びに音量調整値の算出に関する動作手順の各一例を説明するフローチャートである。なお、図17において、第1の実施形態の音声処理システム10に対応する図7の各処理の説明と同一の処理に対しては同一のステップ番号を付与して説明を簡略化又は省略し、異なる内容について説明する。
図16(B)において、音声処理システム10Dの実際の運用が開始されると、カメラ装置C1は、収音領域Kの画像を撮像し(S31)、全方位マイクアレイ装置2は、収音領域Kの音声を収音する(S32)。ステップS31の撮像により得られた画像データはカメラ装置C1からレコーダ装置4に送信され、更に、ステップS32の収音により得られた音声データは全方位マイクアレイ装置2からレコーダ装置4に送信される。なお、ステップS31,S32は同時に行われても良いし、順不同でも良い。
レコーダ装置4は、全方位マイクアレイ装置2から送信された音声パケットに含まれる音声データとカメラ装置C1から送信された画像パケットに含まれる画像データとを対応付けて記憶する(S33)。
図17において、信号処理部33Dは、レコーダ装置4から画像データ及び音声データを取得し、画像データをディスプレイ装置36に表示させ、音声データ(正確には、無指向状態の音声データ)をスピーカ装置37から出力させる(S7)。
ステップS4の後、音量調整値算出部34dによって、音量調整値が算出される(S8)。より具体的には、発話区間判定部34d2は、強調処理部34bにより生成された強調処理後の有指向状態の音声データを基に、操作部32により入力された指定位置A’に対応する音声位置Aに向かう指定方向に所定の音声データ(例えば人物の音声データ)が検出されるか否かを判定する(S8−1)。
音量調整値算出部34dは、全方位マイクアレイ装置2から、操作部32により入力された指定位置A’に対応する音声位置Aに向かう指定方向に所定の音声データ(例えば人物の音声データ)が検出されたと発話区間判定部34d2により判定された場合には(S8−1、YES)、強調処理前の無指向状態の音声データの所定時間における音響レベル(例えば70dB)を算出する(S8−2)。
また、音量調整値算出部34dは、強調処理後の有指向状態の音声データの所定時間における音響レベル(例えば60dB)を算出する(S8−3)。つまり、強調処理部34bの強調処理によって、音響レベルが10dBほど低下したことになる。そこで、音量調整値算出部34dは、強調処理の前後の所定時間における音響レベルの差分(9dB)に比例する値(例えば90%分に対応する9dB(=10dB×90%))を音量調整値34d1として算出する(S8−4)。これにより、音量調整値算出部34dによる音量調整値の算出処理が終了する。
ステップS8の後、音量調整部34cは、ステップS8において算出された音量調整値34d1を用いて、強調処理部34bにより強調処理された後の有指向状態の音声データの音量を調整する(S5D)。ステップS5D以降の処理は図7に示すステップS6と同一であるため、説明を省略する。
以上により、本実施形態の音声処理システム10Dは、強調処理後の有指向状態の音声データを基に、指定方向に所定の音声データ(例えば人物の音声データのこと)が検出されるか否かを判定し、検出したと判定した場合に、強調処理の前後における音声データの音響レベルの差分を基にして音量調整値34d1を算出し、算出された音量調整値34d1を用いて、強調処理後の有指向状態の音声データの音量を調整する。
これにより、音声処理システム10Dは、指定方向に検出された所定の音声データの強調処理の前後における音響レベルの差分(言い換えると、人物の発話音声の音量の抑圧量)に比例した値を音量調整値34d1として算出することができるので、音量調整値34d1をユーザに事前設定させることなく、音声処理システム10Dの設置環境の変化に応じて、適切な音量調整値34d1を用いて有指向状態の音声データの音量を調整することができる。例えば、音量調整部34cは、音量調整値算出部34dにより算出された音量調整値である9dBを、強調処理後の有指向状態の音声データの所定時間における音響レベルに加算することによって69dBの音量が得られるので、無指向状態の音声データの所定時間における音響レベルのである70dBとの差分が限りなく小さくなり、有指向状態の音声データの音量の自動調整が可能となる。
(第3の実施形態の第1変形例)
第3の実施形態の第1変形例では、信号処理部33Eは、強調処理における指向性のメインローブのビーム幅を示す指向角の設定値(指向角設定値384)に応じて音量調整値を音量調整値算出部34dEにおいて算出する(図18(A)参照)。図18(A)は、第3の実施形態の第1変形例の音声処理システム10Eのシステム構成の一例を示すブロック図である。図18(A)に示す音声処理システム10Eでは、図1に示す音声処理システム10と比べて、指向性制御装置3が指向性制御装置3Eに置き換わっており、その他の構成は同一であるため、同一の内容の説明は簡略化又は省略し、異なる内容について説明する。
音量調整値算出部34dEは、音量調整値対応テーブル34d3を保持し、この音量調整値対応テーブル34d3を用いて、メモリ38Eに設定された指向角設定値384に対応する音量調整値を算出する。音量調整値対応テーブル34d3には、例えば指向角設定値384と音量調整値との対応関係(例えば関係式)が格納されている。
ここで、指向角設定値384と音量調整値との大小関係について説明する。
指向角設定値384が小さいと、強調処理部34bにおける強調処理によって指向性のメインローブのビーム幅が狭く、音量の抑圧範囲が広くなる。また、音量の抑圧範囲を広くするためには、マイクロホンの数が多くなるので、平均化処理に用いるマイクロホンの数も多くなって強調処理によって音量が小さくなりがちである。
一方、指向角設定値384が大きいと、強調処理部34bにおける強調処理によって指向性のメインローブのビーム幅が広く、音量の抑圧範囲が狭くなる。また、音量の抑圧範囲を狭くするためには、マイクロホンの数が少なくて良いので、平均化処理に用いるマイクロホンの数も少なく強調処理によって音量がそれほど小さくならない傾向となる。
次に、本実施形態の音声処理システム10Eの動作手順について、図18(B)及び図19を参照して説明する。図18(B)は、指向角設定値384の事前設定に関する動作手順の一例を説明するフローチャートである。図19は、第3の実施形態の第1変形例の音声処理システム10Eの実運用時における動作手順、並びに音量調整値の算出に関する動作手順の各一例を説明するフローチャートである。なお、図19において、第1の実施形態の音声処理システム10に対応する図7の各処理の説明と同一の処理に対しては同一のステップ番号を付与して説明を簡略化又は省略し、異なる内容について説明する。
図16(B)において、ユーザの入力操作によって、操作部32から指向角設定画面(不図示)の呼び出しの指示を受けると(S41)、信号処理部33Eは、操作部32からの指示に応じて、指向角設定画面をディスプレイ装置36に表示させる。ユーザの入力操作によって、操作部32から指向角設定値384が入力されると、信号処理部33Eは、入力された指向角設定値384をメモリ38Eに書き込んで記憶する(S42)。これにより、指向角設定値384のメモリ38Eへの事前設定の処理が終了する。
図19において、ステップS4の後、音量調整値算出部34dEによって、音量調整値が算出される(S8E)。より具体的には、音量調整値算出部34dEは、メモリ38Eに設定された指向角設定値384を読み出し(S8E−1)、音量調整値対応テーブル34d3を用いて、メモリ38Eに設定された指向角設定値384に対応する音量調整値を算出する(S8E−2)。
ステップS8Eの後、音量調整部34cは、ステップS8Eにおいて算出された音量調整値を用いて、強調処理部34bにより強調処理された後の有指向状態の音声データの音量を調整する(S5E)。ステップS5E以降の処理は図7に示すステップS6と同一であるため、説明を省略する。
以上により、第3の実施形態の第1変形例の音声処理システム10Eは、所定の指向角設定画面(不図示)に対して入力された指向性のビーム幅を示す指向角設定値384をメモリ38Eから読み出して、強調処理後の有指向状態の音声データの音量を調整するので、ユーザが必要とする指向性能に応じて、強調処理後の有指向状態の音声データの音量を適切に調整することができる。また、指向角設定値384はメモリ38Eに書き込まれているので、音声処理システム10Eの設置環境の変化に応じて、指向角設定値384を適宜変更することもできる。
なお、音量調整値算出部34dEは、指向角設定値384の事前設定又は音声処理システム10Eの実運用中に、ユーザの入力操作によって操作部32から指向角設定値が入力されると、音量調整値対応テーブル34d3を用いて、入力された指向角設定値に対応する音量調整値をリアルタイムに算出しても良い。また、音量調整値算出部34dEは、音量調整値を都度算出することなく、前回の音量調整時に用いた音量調整値をメモリ38Eから読み出して音量調整値として使用しても良い。
なお、信号処理部33Eは、カメラ装置C1が予め備えるマイクロホンのマイク感度の設定値を全方位マイクアレイ装置2の各マイクロホンのマイク感度として用いて、このマイク感度に応じて、指向角設定値を一意に定めても良い。
また、音量調整値算出部34dEは、カメラ装置C1の撮像モード、収音領域Kにおける撮像地点、カメラ装置C1のズーム度合いに応じて、音量調整値を算出しても良い。
また、信号処理部33Eは、例えば収音領域Kにおいて既に設置されているマイクロホン(全方位マイクアレイ装置2とは異なるマイクロホン)に設定されているマイク感度に応じて、指向角設定値を一意に定めても良い。
(第3の実施形態の第2変形例)
第3の実施形態の第2変形例では、ユーザの入力操作によって操作部32から、ディスプレイ装置36に表示された画像上の指定位置が複数(例えば2個。以下同様。)指定された場合に、信号処理部33Eは、指向性の数(即ち、ディスプレイ装置36に表示された画像上の指定位置の数)に応じて、強調処理の前後において、各指定方向の音声が強調処理された個別の音声データの音響レベルが略同一となり、かつ、無指向音声の音響レベルと各指定方向の音声が強調処理された音声データの合成処理後の音響レベルとが一定範囲内となるように制御する(図20(A)及び(B)参照)。
図20(A)及び(B)は、第3の実施形態の第2変形例の音声処理システム10Fの動作概要を示す模式図である。図20(A)の説明では、図1(A)の説明と異なる内容について説明し、同一の内容の説明は省略する。図20(A)では、対象物としての2人の人物は会話を行っており、「Hello」と「Hi!!」とは会話内容の一例である。
図20(B)において、ユーザの指FGにより、ディスプレイ装置36に表示された画像上の2個の指定位置A’,B’がそれぞれ指定されると、指向性制御装置3Dは、指定位置A’の座標データを用いて、全方位マイクアレイ装置2の設置位置から音声位置Aに向かう指向方向を示す座標(θMAh,θMAv)を算出し、この座標(θMAh,θMAv)が示す指向方向への強調処理を行う。
更に、指向性制御装置3Dは、指定位置B’の座標データを用いて、全方位マイクアレイ装置2の設置位置から音声位置Bに向かう指向方向を示す座標(θMBh,θMBv)を算出し、この座標(θMBh,θMBv)が示す指向方向への強調処理を行う。従って、図20(B)に示すように、スピーカ装置37からは、2人の人物の会話内容(「Hello」,「Hi!!」)がスピーカ装置SPの出力音(「♪〜」)に比べて出力時の音量が相対的に大きい。
また、第3の実施形態の第2変形例の音声処理システム10Fのシステム構成は第3の実施形態の音声処理システム10Dのシステム構成と同一であるため、音声処理システム10Fの各部の説明に用いる符号は音声処理システム10Dの各部の符号と同一の符号を用いて、各部の詳細な説明は省略し、異なる内容について説明する。
次に、本実施形態の音声処理システム10Fの動作手順について、図21を参照して説明する。図21は、第3の実施形態の第2変形例の音声処理システム10Fの実運用時における動作手順、並びに音量調整値の算出に関する動作手順の各一例を説明するフローチャートである。なお、図21において、第1の実施形態の音声処理システム10に対応する図7の各処理の説明と同一の処理に対しては同一のステップ番号を付与して説明を簡略化又は省略し、異なる内容について説明する。
図21において、ステップS1の後、無指向状態から有指向状態に切り替えるための1つ以上の音声強調の指定方向として、例えばユーザの入力操作に従って操作部32から、ディスプレイ装置36に表示されている画像データ上の任意の指定位置A’,B’が指定されたとする(S2F)。
この場合、指向方向算出部34aは、カメラ装置C1から、指定位置A’,B’に対応する音声位置A,Bまでの各距離、各方向(水平角,垂直角)のデータを取得し、更に、これらのデータを用いて、全方位マイクアレイ装置2から、指定位置A’,B’に対応する音声位置A,Bに向かう指向方向(指定方向)を示す座標(θMAh,θMAv),(θMBh,θMBv)を算出する(S3F)。
ステップS3Fの後、強調処理部34bは、全方位マイクアレイ装置2から送信された音声パケットに含まれる音声データを用いて、指向方向を示す座標(θMAh,θMAv),(θMBh,θMBv)の方向に対する各音声の強調処理を実行し、強調処理後の有指向状態の音声データをそれぞれ生成する(S4F)。ステップS4Fの後、音量調整値算出部34d,音量調整部34cによって、音量調整値の算出処理,音量調整処理がそれぞれ行われる(S8F)。
より具体的には、発話区間判定部34d2は、ステップS4Fにおいて強調処理部34bにより生成されたそれぞれの強調処理後の有指向状態の音声データを基に、操作部32により入力された指定位置A’,B’に対応する音声位置A,Bに向かう指定方向に所定の音声データ(例えば人物の音声データ)が検出されるか否かを判定する(S8F−1)。
音量調整値算出部34dは、全方位マイクアレイ装置2から、操作部32により入力された指定位置A’,B’に対応する音声位置A,Bに向かう指定方向に所定の音声データ(例えば人物の音声データ)が検出されたと発話区間判定部34d2により判定された場合には(S8F−1、YES)、強調処理前の無指向状態の音声データの所定時間における音響レベル(例えば65dB)を算出する(S8F−2)。
また、音量調整値算出部34dは、全方位マイクアレイ装置2から音声位置A,Bにそれぞれ向かう指定方向に強調処理された後の有指向状態の音声データの所定時間における音響レベル(例えば音声位置A:55dB,音声位置B:50dB)をそれぞれ算出する(S8F−3)。
音量調整値算出部34dは、ステップS8F−3において算出された各音響レベルを比較し、例えば基準音量が音響レベルの大きい音声位置Aにおける音量である場合には、音響レベルが小さい音声位置Bにおける音声の音量を調整するための音量調整値34d1として、各音響レベルの差分(例えば5dB)に比例する値(例えば90%分に対応する4.5dB(=5dB×90%))を算出する(S8F−4)。
また、音量調整値算出部34dは、例えば基準音量が音響レベルの大きい音声位置Aにおける音量である場合には、音響レベルが大きい音声位置Aにおける音声の音量を調整するための音量調整値34d1として、0dBを算出する(S8F−4)。
このように、音量調整値算出部34dは、ステップS2Fにおいて指定された各指定位置が複数ある場合には、基準音量(例えば指定位置がA’,B’の2つである場合に、音声位置A,Bのうち音響レベルが高い音声位置Aにおける音量)に近い音量に調整するための音量調整値34d1を、音声位置毎に算出する。
更に、音量調整部34cは、ステップS8F−4において算出した音量調整値34d1を用いて、例えば音量が小さい音声位置Bにおける強調処理後の有指向状態の音声の音量を加算するように調整し、更に、音量が大きい音声位置Aにおける強調処理後の有指向状態の音声の音量を調整する(S8F−4)。これにより、音量調整部34cによってそれぞれの音声位置A,Bにおける音量が調整された後では、音声位置Aにおける強調処理後の有指向状態の音声の音量(例えば55dB(=55dB+0dB))と音声位置Bにおける強調処理後の有指向状態の音声の音量(例えば54.5dB(=50dB+4.5dB))が略同一となる。
更に、ステップS8F−4の後、音量調整値算出部34d又は強調処理部34bは、音声位置Aにおける強調処理後の有指向状態の音声データと音声位置Bにおける強調処理後の有指向状態の音声データとを合成処理する(S8F−5)。
音量調整値算出部34dは、ステップS8F−5において合成処理された後の有指向状態の音声データの所定時間における音響レベル(例えば57.8dB)を算出する(S8F−6)。音量調整値算出部34dは、ステップ8F−6において算出された合成処理後の有指向状態の音声データの所定時間における音響レベルと、ステップ8F−2において算出された強調処理前の無指向状態の音声データの所定時間における音響レベルとを比較し、各音響レベルの差分(例えば7.2dB(=65dB−57.8dB))に比例する値(例えば90%分に対応する6.5dB(=7.2dB×90%))を音量調整値34d1として算出する(S8F−7)。更に、音量調整部34cは、ステップS8F−7において算出した音量調整値34d1を用いて、例えば音量が小さい合成処理後の有指向状態の音声の音量を加算するように調整する(S8F−7)。これにより、強調処理前の無指向状態の音声の音量(例えば65dB)と合成処理後の有指向状態の音声の音量(例えば64.3dB(=57.8dB+6.5dB))が一定範囲内に収まるようになる。
以上により、第3の実施形態の第2変形例の音声処理システム10Fは、複数の指定方向が入力され、指定方向毎に強調処理後の有指向状態の音声データの各音響レベルの差分に応じた値である第1音量調整値(例えば上述した4.5dBと0dB)を用いて、指定方向毎の強調処理後の有指向状態の音声データの音量を調整し、更に、複数の指定方向毎に強調処理した後の有指向状態の音声データを合成処理し、合成処理後の音声データの音響レベルと無指向状態の音声データの音響レベルとの差分に応じた値である第2音量調整値(例えば上述した6.5dB)を用いて、合成処理後の有指向状態の音声データの音量を調整する。
これにより、音声処理システム10Fは、強調処理の対象となる指定方向が複数あり、それぞれの強調処理後の音声データの音量が異なる場合でも、各指定方向に対応する個別の音声データの音量が略同一となるように、指定方向毎に、音声データ(例えば音量が小さい音声データ)の音量を当該音声データに対応する第1音量調整値(例えば上述した4.5dB)を用いて調整することができ、また、他の少なくとも1つの音声データ(例えば音量が大きい音声データ)の音量を当該他の少なくとも1つの音声データに対応する第1音量調整値(例えば上述した0dB)を用いて調整することができ、更に、強調処理前の無指向状態の音声データと合成処理後の有指向状態の音声データとの音量が異なる場合でも、第2音量調整値(例えば上述した6.5dB)を用いて有指向状態の音声データの音量を調整することができるので、無指向状態時の音声データの音量と有指向状態時の合成処理後の音声データの音量とをほぼ同様の音量にすることができる。
なお、図21に示すステップS8F−3において、基準音量は、例えばステップS2Fにおいて指定された指定位置A’,B’に対応する各音声位置A,Bにおける音響レベルが高い音響レベルに限定されず、予め決められた音量設定値又は任意に変更可能な音量設定値(例えば後述する第4の実施形態参照)や、無指向状態の音声データの音響レベル(ステップS8F−2において算出された音響レベル参照)でも良い。
この場合、音量調整値算出部34dは、図21に示すステップS8F−4において説明したように、各音声位置A,Bにおける音声データの音量調整値34d1の一方を0dBとせずに、各音声位置A,Bにおける音声データの音響レベルと基準音量との差分に比例する値(例えば90%分に対応する値。上述参照。)を、各音声位置A,Bにおける音声データの音量調整値34d1として算出する。更に、音量調整部34cは、音声位置A,B毎に算出された各音量調整値34d1を用いて、各音声位置A,Bにおける有指向状態の音声データの音量を調整する。
また、図21のステップS2Fでは複数の指定位置としてA’,B’の2つが指定された例を説明したが、3つ以上の指定位置が指定されても良い。3つ以上の指定位置が指定された場合でも、上述した図21のステップS8Fの処理は、2つの指定位置A’,B’が指定された場合と同様である。
(第4の実施形態)
第4の実施形態では、信号処理部33Gは、所定の音量設定画面(不図示)に対してユーザの入力操作に応じて操作部32から入力された値を、スピーカ装置37から出力された音声の音量設定値385としてメモリ38Gに記憶する(図22(A)参照)。図22(A)は、第4の実施形態の音声処理システム10Gのシステム構成の一例を示すブロック図である。図22(A)に示す音声処理システム10Gでは、図1に示す音声処理システム10と比べて、指向性制御装置3が指向性制御装置3Gに置き換わっており、その他の構成は同一であるため、同一の内容の説明は簡略化又は省略し、異なる内容について説明する。
信号処理部33Gは、指向方向算出部34aと、強調処理部34bと、音量調整部34cと、音量調整値算出部34dGとを含む構成である。音量調整値算出部34dGは、音量調整値算出部34dGの算出結果である音量調整値34g1を保持し、更に、発話区間判定部34g2を有する。なお、発話区間判定部34g2は、信号処理部33Gの内部に含まれた構成であれば、音量調整値算出部34dGとは別に設けられても良い。
音量調整値算出部34dGは、全方位マイクアレイ装置2から、操作部32により入力された指定位置A’に対応する音声位置Aに向かう指定方向に所定の音声データ(例えば人物の音声データ)が検出されたと発話区間判定部34g2により判定された場合に、無指向状態や有指向状態に拘わらず、音声データの音響レベルと音量設定値385との差分を音量調整値34g1として算出する。
次に、本実施形態の音声処理システム10Gの動作手順について、図22(B),(C)及び図23を参照して説明する。図22(B)は、音量設定値385の事前設定に関する動作手順の一例を説明するフローチャートである。図22(C)は、第4の実施形態の音声処理システム10Gの実運用時における強調処理前の無指向音声の音量調整に関する動作手順の一例を説明するフローチャートである。図23は、第4の実施形態の音声処理システム10Gの実運用時における強調処理後の有指向音声の音量調整に関する動作手順の一例を説明するフローチャートである。なお、図23において、第1の実施形態の音声処理システム10に対応する図7の各処理の説明と同一の処理に対しては同一のステップ番号を付与して説明を簡略化又は省略し、異なる内容について説明する。
図22(B)において、ユーザの入力操作によって、操作部32から音量設定画面の呼び出しの指示を受けると(S41)、信号処理部33Gは、操作部32からの指示に応じて、音量設定画面をディスプレイ装置36に表示させる。ユーザの入力操作によって、操作部32から音量設定値385が入力されると、信号処理部33Gは、入力された音量設定値385をメモリ38Gに書き込んで記憶する(S42)。これにより、音量設定値385のメモリ38Gへの事前設定の処理が終了する。
図22(C)において、音量調整値算出部34dGは、強調処理部34bにより強調処理が行われていない無指向状態では、無指向状態の音声データの所定時間における音響レベルを算出する(S61)。音量調整値算出部34dGは、ステップS61において算出した音響レベルとメモリ38Gに書き込まれた音量設定値385との差分を音量調整値34g1として算出する(S62)。
音量調整部34cは、ステップS62において算出された音量調整値34g1を用いて、強調処理部34bにより強調処理が行われていない無指向状態の音声データの音量に音量調整値34g1を加算又は減算することによって、無指向状態の音声データの音量を調整する(S63)。信号処理部33Gは、音量調整部34cにより音量が調整された後の音声データをスピーカ装置37から出力する(S64)。
図23において、ステップS4の後、音量調整値算出部34dGによって、音量調整値が算出される(S8G)。より具体的には、発話区間判定部34g2は、強調処理部34bにより生成された強調処理後の有指向状態の音声データを基に、操作部32により入力された指定位置A’に対応する音声位置Aに向かう指定方向に所定の音声データ(例えば人物の音声データ)が検出されるか否かを判定する(S8G−1)。
音量調整値算出部34dGは、全方位マイクアレイ装置2から、操作部32により入力された指定位置A’に対応する音声位置Aに向かう指定方向に所定の音声データ(例えば人物の音声データ)が検出されたと発話区間判定部34g2により判定された場合には(S8G−1、YES)、強調処理後の有指向状態の音声データの所定時間における音響レベルを算出する(S8G−2)。
音量調整値算出部34dGは、ステップS8G−2において算出された有指向状態の音声データの音響レベルとメモリ38Gに書き込まれた音量設定値385との差分を音量調整値34g1として算出する(S8G−3)。これにより、音量調整値算出部34dGによる音量調整値の算出処理が終了する。なお、ステップS8G以降の処理は図7に示すステップS5以降の各処理と同一であるため、説明を省略する。
以上により、本実施形態の音声処理システム10Gは、強調処理後の有指向状態の音声データを基に、指定方向に所定の音声データが検出されるか否かを判定し、検出したと判定した場合に、強調処理後の有指向状態の音声データの音響レベルと所定の音量設定値との差分を第3音量調整値(音量調整値34g1)として算出し、算出された音量調整値34g1を用いて有指向状態の音声データの音量を調整することができるので、無指向状態から有指向状態に切り替えられた場合に、出力される有指向状態の音声データの音量を一定範囲(より具体的には、所定の音量設定値を含む所定範囲のこと)に固定することができる。
また、音声処理システム10Gは、無指向状態の音声データの音響レベルと所定の音量設定値との差分を第4音量調整値(音量調整値34g1)として算出し、算出された音量調整値34g1を用いて無指向状態の音声データの音量を調整することができるので、有指向状態や無指向状態に拘わらず、出力される無指向状態の音声データの音量を、音量設定値385を含む一定範囲に固定することができる。
(第5の実施形態)
第5の実施形態では、信号処理部33Hは、音量調整値を特定の周波数帯域において一定に保持し又は減衰させる周波数毎の音量調整係数値386と固定の音量調整値34c1とを用いて、有指向状態の音声データの音量を調整する(図24(A)参照)。図24(A)は、第5の実施形態の音声処理システムのシステム構成の一例を示すブロック図である。図24(A)に示す音声処理システム10Hでは、図1に示す音声処理システム10と比べて、指向性制御装置3が指向性制御装置3Hに置き換わっており、その他の構成は同一であるため、同一の内容の説明は簡略化又は省略し、異なる内容について説明する。
音量調整部34cHは、メモリ38Hに記憶される周波数毎の音量調整係数値386と音量調整部34cHの動作において予め規定されている音量調整値34c1(第1の実施形態参照)とを用いて、強調処理部34bにより強調処理された後の有指向状態の音声データの音量を調整する。音量調整値381を用いた音量調整の方法は第1の実施形態と同様であるため、詳細な説明は省略する。
ここで、周波数毎の音量調整係数値386について、図25(A)及び(B)を参照して説明する。図25(A)は、音量調整係数値386の周波数特性の第1例を示す図である。図25(B)は、音量調整係数値386の周波数特性の第2例を示す図である。
図25(A)に示す第1例では、例えば人間の主な可聴帯域である300Hz〜3400Hzの間では音量調整値を一定に保持するために音量調整係数値が100%となっている。300Hz〜3400Hzを除く周波数帯では、音量調整係数値が100%から低下しているので、音量調整値は減衰する。
一方、図25(B)に示す第2例では、例えば特定の周波数(例えばノイズ源が存在する500Hzの周波数)を含む所定範囲の周波数帯では音量調整値を減衰させるために音量調整値が限りなく0%に近い値となっている。この周波数帯を除く周波数帯では、音量調整係数値が100%となっているので、音量調整値は一定に保持される。
次に、本実施形態の音声処理システム10Hの動作手順について、図24(B)及び図26を参照して説明する。図24(B)は、音量調整係数値386の事前設定に関する動作手順の一例を説明するフローチャートである。図26は、第5の実施形態の音声処理システム10Hの実運用時における動作手順の一例を説明するフローチャートである。なお、図26において、第1の実施形態の音声処理システム10に対応する図7の各処理の説明と同一の処理に対しては同一のステップ番号を付与して説明を簡略化又は省略し、異なる内容について説明する。
図24(B)において、ユーザの入力操作によって、操作部32から音量調整係数値設定画面の呼び出しの指示を受けると(S71)、信号処理部33Hは、操作部32からの指示に応じて、音量調整係数値設定画面をディスプレイ装置36に表示させる。ユーザの入力操作によって、操作部32から周波数毎の音量調整係数値386が入力されると、信号処理部33Hは、入力された周波数毎の音量調整係数値386をメモリ38Hに書き込んで記憶する(S72)。これにより、音量調整係数値386のメモリ38Hへの事前設定の処理が終了する。
図26において、ステップS4の後、音量調整部34cHは、図24(B)に示す事前設定の処理によってメモリ38Hに記憶された音量調整係数値386と音量調整部34cHの動作において予め規定されている音量調整値34c1とを用いて、強調処理部34bにより強調処理された後の有指向状態の音声データの音量を調整する(S5H)。ステップS5H以降の処理は図7に示すステップS6と同一であるため、説明を省略する。
以上により、本実施形態の音声処理システム10Hは、所定の音量調整係数値設定画面に対して入力された周波数毎の音量調整値の音量調整係数値386をメモリ38Hから読み出して、音量調整係数値386と音量調整値34g1とを用いて、有指向状態の音声データの音量を調整することができるので、音声処理システム10Hの設置環境に応じて、有指向状態の音声データの適切な音量を出力することができる。
また、音声処理システム10Hは、音量調整係数値386が所定の周波数帯域以外の音量調整値を低下させるので、所定の周波数帯域以外の音声データの音量による影響(例えば人物の会話音声を除く音声帯域の音の影響)を排除した状態で、所定の周波数帯域における有指向状態の音声データの適切な音量を出力することができる。
また、音声処理システム10Hは、音量調整係数値386が所定の周波数を含む一定範囲の周波数帯域の音量調整値を低下させるので、所定の周波数を含む一定範囲の周波数帯域における音声データの音量による影響(例えばノイズ源の影響)を排除した状態で、所定の周波数を含む一定範囲の周波数帯域以外の周波数帯域における有指向状態の音声データの適切な音量を出力することができる。
最後に、本発明に係る音声処理システム及び音声処理方法の構成、作用、効果について説明する。
本発明の一実施形態は、複数の収音素子を含み、前記収音素子を用いて無指向状態で音声を収音する収音部と、前記無指向状態から有指向状態に切り替えるための1つ以上の音声強調の指定方向の入力を受け付ける操作部と、前記指定方向の入力に応じて、前記収音部により収音された音声データを用いて、前記収音部から、前記指定方向の音声データを強調処理した前記有指向状態の音声データを生成する強調処理部と、前記強調処理部により生成された前記有指向状態の音声データの音量を調整する音量調整部と、前記収音部により収音された前記無指向状態の音声データ、又は前記音量調整部により音量が調整された後の前記有指向状態の音声データを出力する音声出力部と、を備える、音声処理システムである。
この構成では、収音部は、複数の収音素子を用いて無指向状態で音声を収音する。操作部は、無指向状態から有指向状態に切り替えるための1つ以上の音声強調の指定方向の入力を受け付ける。強調処理部は、操作部により指定方向が入力されると、収音された音声データを用いて、収音部から指定方向の音声データを強調処理した有指向状態の音声データを生成する。音量調整部は、強調処理後の有指向状態の音声データの音量を調整する。音声出力部は、無指向状態の音声データ、又は音量が調整された後の有指向状態の音声データを出力する。
これにより、音声処理システムは、収音部により収音された音声を用いて、指定方向の音声データを強調処理した後に音声データの音量を調整することで、無指向状態の音声データの音量と音量が調整された後の有指向状態の音声データの音量との差異の増大を抑制することができる。また、音声処理システムは、無指向状態から有指向状態への切り替えの際に、音声データの音量が大きく低下したり増大したりすることを抑制することができるので、ユーザに音量の調整を都度行わせる手間を省くことができ、ユーザの業務(例えば監視業務)への利便性を向上させることができる。
また、本発明の一実施形態は、前記操作部は、前記有指向状態から前記無指向状態に切り替えるための前記指定方向の解除を受け付け、前記音量調整部は、前記指定方向の解除に応じて、前記有指向状態の音声データの音量を、前記強調処理部により強調処理される前に前記収音部により収音された前記無指向状態の音声データの音量に調整する、音声処理システムである。
この構成によれば、音声処理システムは、指定方向の入力が解除されると、強調処理後の有指向状態の音声データの音量を、強調処理前の無指向状態の音声データの音量に調整するので、有指向状態から無指向状態への切り替えの際に、音声データの音量が大きく増大したり低下したりすることを抑制することができる。
また、本発明の一実施形態は、前記音量調整部は、所定の音量調整値を用いて、前記有指向状態の音声データの音量を調整する、音声処理システムである。
この構成によれば、音声処理システムは、音量調整部において予め決められた所定(固定)の音量調整値を用いて、有指向状態の音声データの音量を調整するので、例えば音声処理システムの設置環境に応じて一定の目安となる固定の音量設定値を予め決めておくことで、有指向状態の音声データの音量を簡易に調整することができる。
また、本発明の一実施形態は、所定の音量調整値設定画面に対して前記操作部により入力された音量調整値を記憶する記憶部、を更に備え、前記音量調整部は、前記記憶部に記憶された前記音量調整値を用いて、前記有指向状態の音声データの音量を調整する、音声処理システムである。
この構成によれば、音声処理システムは、所定の音量調整値設定画面に対して入力された音量調整値を記憶部から読み出して、この音量調整値を用いて、有指向状態の音声データの音量を調整するので、有指向状態の音声データの音量を簡易に調整することができ、また、音量調整値は記憶部に書き込まれているので、音声処理システムの設置環境の変化に応じて、音量調整値を適宜変更することもできる。
また、本発明の一実施形態は、所定の音量調整値が書き込まれた設定ファイルを記憶する記憶部、を更に備え、前記音量調整部は、前記記憶部に記憶された前記設定ファイルに書き込まれた前記所定の音量調整値を用いて、前記有指向状態の音声データの音量を調整する、音声処理システムである。
この構成によれば、音声処理システムは、所定の音量調整値が書き込まれた設定ファイルを記憶部から読み出して、有指向状態の音声データの音量を調整するので、有指向状態の音声データの音量を簡易に調整することができ、また、音量調整値が書き込まれた設定ファイルは記憶部に書き込まれているので、音声処理システムの設置環境の変化に応じて、音量調整値を適宜変更することもできる。
また、本発明の一実施形態は、前記収音部の収音領域の画像を撮像する撮像部と、前記撮像部により撮像された前記収音領域の画像を表示する表示部と、所定の音量調整値設定画面に対して前記操作部により入力された、前記収音領域の画像のエリア毎の音量調整値を記憶する記憶部と、を更に備え、前記音量調整部は、前記表示部に表示された前記収音領域の画像上の前記指定位置に対応する前記収音領域の画像のエリアに応じて、前記記憶部に記憶された前記エリア毎の音量調整値を用いて、前記有指向状態の音声データの音量を調整する、音声処理システムである。
この構成によれば、音声処理システムは、表示部に表示された撮像部の出力画像上の指定位置に対応する収音領域の画像のエリアに応じて、エリア毎に予め入力された音量調整値を記憶部から読み出して、有指向状態の音声データの音量を調整するので、収音領域における人物(例えば話者)の位置に応じて音量調整値を選択することができ、有指向状態の音声データの音量を適切に調整することができる。また、エリア毎の音量調整値は記憶部に書き込まれているので、音声処理システムの設置環境の変化に応じて、音量調整値を適宜変更することもできる。
また、本発明の一実施形態は、所定の音量調整値設定画面に対して前記操作部により入力された、前記収音部毎の音量調整値を記憶する記憶部と、前記収音部に対応付けられ、前記収音部の収音領域の画像を撮像する撮像部と、前記撮像部により撮像された前記収音領域の画像を表示する表示部と、を更に備え、前記収音部と前記撮像部とが対応付けられた複数の組合せが設けられ、前記音量調整部は、いずれかの前記収音部の選択に応じて、前記記憶部に記憶された、選択された前記収音部に対応する音量調整値を用いて、前記有指向状態の音声データの音量を調整する、音声処理システムである。
この構成によれば、音声処理システムは、収音部と収音領域を撮像する撮像部とが対応付けられた複数の組合せが設けられており、いずれかの収音部の選択に応じて、選択された収音部に対応する音量調整値を記憶部から読み出して、有指向状態の音声データの音量を調整するので、例えば複数の拠点を中央監視室等において監視する場合でも、各拠点の収音部の設置環境に応じて音量調整値を選択することができ、有指向状態の音声データの音量を適切に調整することができる。
また、本発明の一実施形態は、前記強調処理部により生成された前記有指向状態の音声データを基に、前記操作部により入力された前記指定方向に所定の音声データが検出されるか否かを判定する発話判定部と、前記指定方向に所定の音声データが検出されたと判定された場合に、前記強調処理部による強調処理の前後における前記所定の音声データの音響レベルの差分を基に、音量調整値を算出する音量調整値算出部と、を備え、前記音量調整部は、前記音量調整値算出部により算出された前記音量調整値を用いて、前記有指向状態の音声データの音量を調整する、音声処理システムである。
この構成では、音声処理システムは、強調処理後の有指向状態の音声データを基に、指定方向に所定の音声データ(例えば人物の音声データのこと。以下同様。)が検出されるか否かを判定し、検出したと判定した場合に、強調処理の前後における音声データの音響レベルの差分を基にして音量調整値を算出し、算出された音量調整値を用いて、有指向状態の音声データの音量を調整する。
これにより、音声処理システムは、指定方向に検出された所定の音声データの強調処理の前後における音響レベルの差分(言い換えると、人物の発話音声の音量の抑圧量)に比例した値を音量調整値として算出することができるので、音量調整値をユーザに事前設定させることなく、音声処理システムの設置環境の変化に応じて、適切な音量調整値を用いて有指向状態の音声データの音量を調整することができる。
また、本発明の一実施形態は、所定の指向角設定画面に対して前記操作部により入力された、前記有指向状態における指向性のビーム幅を示す指向角を記憶する記憶部と、前記記憶部に記憶された前記指向角を基に、音量調整値を算出する音量調整値算出部と、を更に備え、前記音量調整部は、前記音量調整値算出部により算出された前記音量調整値を用いて、前記有指向状態の音声データの音量を調整する、音声処理システムである。
この構成によれば、音声処理システムは、所定の指向角設定画面に対して入力された指向性のビーム幅を示す指向角を記憶部から読み出して、有指向状態の音声データの音量を調整するので、ユーザが必要とする指向性能に応じて、有指向状態の音声データの音量を適切に調整することができ、また、指向角の設定値は記憶部に書き込まれているので、音声処理システムの設置環境の変化に応じて、指向角の設定値を適宜変更することもできる。
また、本発明の一実施形態は、前記操作部により複数の前記指定方向が入力され、前記音量調整値算出部は、複数の前記指定方向毎に、基準音量と前記強調処理部により強調処理された後の音声データの各音響レベルとの差分に応じた各値を、前記強調処理後の各音声データの第1音量調整値として算出し、前記音量調整部は、前記音量調整値算出部により算出された前記強調処理後の各音声データの第1音量調整値を用いて、複数の前記指定方向毎に、前記強調処理部により強調処理された後の音声データの各音量を調整し、更に、前記強調処理部は、複数の前記指定方向毎に強調処理した後の音声データを合成処理し、前記音量調整値算出部は、前記強調処理部により合成処理された後の音声データの音響レベルと前記無指向状態の音声データの音響レベルとの差分に応じた値を第2音量調整値として算出し、前記音量調整部は、前記音量調整値算出部により算出された前記第2音量調整値を用いて、前記強調処理部により合成処理された後の音声データの音量を調整する、音声処理システムである。
この構成では、音声処理システムは、複数の指定方向が入力され、指定方向毎に、基準音量と強調処理後の有指向状態の音声データの各音響レベルとの差分に応じた値である強調処理後の各音声データの第1音量調整値を用いて、強調処理後の有指向状態の各音声データの音量を調整し、更に、複数の指定方向毎に強調処理した後の有指向状態の音声データを合成処理し、合成処理後の音声データの音響レベルと無指向状態の音声データの音響レベルとの差分に応じた値である第2音量調整値を用いて、合成処理後の有指向状態の音声データの音量を調整する。
これにより、音声処理システムは、強調処理の対象となる指定方向が複数あり、それぞれの強調処理後の音声データの音量が異なる場合でも、各指定方向に対応する個別の音声データの音量が略同一となるように、指定方向毎に、音声データ(例えば音量が小さい音声データ)の音量を当該音声データに対応する第1音量調整値を用いて調整することができ、また、他の少なくとも1つの音声データ(例えば音量が大きい音声データ)の音量を当該他の少なくとも1つの音声データに対応する第1音量調整値を用いて調整することができ、更に、強調処理前の無指向状態の音声データと合成処理後の有指向状態の音声データとの音量が異なる場合でも、第2音量調整値を用いて有指向状態の音声データの音量を調整することができるので、無指向状態時の音声データの音量と有指向状態時の合成処理後の音声データの音量とをほぼ同様の音量にすることができる。
また、本発明の一実施形態は、前記強調処理部により生成された前記有指向状態の音声データを基に、前記操作部により入力された前記指定方向に所定の音声データが検出されるか否かを判定する発話判定部と、前記指定方向に所定の音声データが検出されたと判定された場合に、前記強調処理部により生成された前記有指向状態の音声データの音響レベルと所定の音量設定値との差分を第3音量調整値として算出する音量調整値算出部と、を備え、前記音量調整部は、前記音量調整値算出部により算出された前記第3音量調整値を用いて、前記有指向状態の音声データの音量を調整する、音声処理システムである。
この構成によれば、音声処理システムは、強調処理後の有指向状態の音声データを基に、指定方向に所定の音声データが検出されるか否かを判定し、検出したと判定した場合に、強調処理後の有指向状態の音声データの音響レベルと所定の音量設定値との差分を第3音量調整値として算出し、算出された第3音量調整値を用いて有指向状態の音声データの音量を調整することができるので、無指向状態から有指向状態に切り替えられた場合に、出力される有指向状態の音声データの音量を一定範囲(より具体的には、所定の音量設定値を含む所定範囲のこと。以下同様。)に固定することができる。
また、本発明の一実施形態は、前記音量調整値算出部は、前記収音部により収音された前記無指向状態の音声データの音響レベルと前記所定の音量設定値との差分を第4音量調整値として算出し、前記音量調整部は、前記音量調整値算出部により算出された前記第4音量調整値を用いて、前記無指向状態の音声データの音量を調整する、音声処理システムである。
この構成によれば、音声処理システムは、無指向状態の音声データの音響レベルと所定の音量設定値との差分を第4音量調整値として算出し、算出された第4音量調整値を用いて無指向状態の音声データの音量を調整することができるので、有指向状態や無指向状態に拘わらず、出力される無指向状態の音声データの音量を一定範囲に固定することができる。
また、本発明の一実施形態は、所定の音量調整係数値設定画面に対して前記操作部により入力された、周波数毎の音量調整値の音量調整係数を記憶する記憶部、を更に備え、前記音量調整部は、前記記憶部に記憶された前記周波数毎の音量調整値の音量調整係数と所定の音量調整値とを用いて、前記有指向状態の音声データの音量を調整する、音声処理システムである。
この構成によれば、音声処理システムは、所定の音量調整係数値設定画面に対して入力された周波数毎の音量調整値の音量調整係数値を記憶部から読み出して、音量調整係数と音量調整値とを用いて、有指向状態の音声データの音量を調整することができるので、音声処理システムの設置環境に応じて、有指向状態の音声データの適切な音量を出力することができる。
また、本発明の一実施形態は、前記周波数毎の音量調整値の音量調整係数は、所定の周波数帯域以外の音量調整値を低下させる特性を有する、音声処理システムである。
この構成によれば、音声処理システムは、音量調整係数値が所定の周波数帯域以外の音量調整値を低下させるので、所定の周波数帯域以外の音声データの音量による影響(例えば人物の会話音声を除く音声帯域の音の影響)を排除した状態で、所定の周波数帯域における有指向状態の音声データの適切な音量を出力することができる。
また、本発明の一実施形態は、前記周波数毎の音量調整値の音量調整係数は、所定の周波数を含む一定範囲の周波数帯域の音量調整値を低下させる特性を有する、音声処理システムである。
この構成によれば、音声処理システムは、音量調整係数値が所定の周波数を含む一定範囲の周波数帯域の音量調整値を低下させるので、所定の周波数を含む一定範囲の周波数帯域における音声データの音量による影響(例えばノイズ源の影響)を排除した状態で、所定の周波数を含む一定範囲の周波数帯域以外の周波数帯域における有指向状態の音声データの適切な音量を出力することができる。
また、本発明の一実施形態は、複数の収音素子を用いて無指向状態で音声を収音する収音部を有する音声処理システムにおける音声処理方法であって、前記無指向状態から有指向状態に切り替えるための1つ以上の音声強調の指定方向の入力を受け付けるステップと、前記指定方向の入力に応じて、前記収音部により収音された音声データを用いて、前記収音部から、前記指定方向の音声データを強調処理した前記有指向状態の音声データを生成するステップと、生成された前記有指向状態の音声データの音量を調整するステップと、前記収音部により収音された前記無指向状態の音声データ、又は音量が調整された後の前記有指向状態の音声データを出力するステップと、を有する、音声処理方法である。
この方法では、音声処理システムは、複数の収音素子を用いて無指向状態で音声を収音し、無指向状態から有指向状態に切り替えるための1つ以上の音声強調の指定方向の入力を受け付け、指定方向が入力されると、収音された音声データを用いて、収音部から指定方向の音声データを強調処理した有指向状態の音声データを生成し、強調処理後の有指向状態の音声データの音量を調整し、無指向状態の音声データ、又は音量が調整された後の有指向状態の音声データを出力する。
これにより、音声処理システムは、収音部により収音された音声を用いて、指定方向の音声データを強調処理した後に音声データの音量を調整することで、無指向状態の音声データの音量と音量が調整された後の有指向状態の音声データの音量との差異の増大を抑制することができる。また、音声処理システムは、無指向状態から有指向状態への切り替えの際に、音声データの音量が大きく低下したり増大したりすることを抑制することができるので、ユーザに音量の調整を都度行わせる手間を省くことができ、ユーザの業務(例えば監視業務)への利便性を向上させることができる。
以上、図面を参照しながら各種の実施形態について説明したが、本発明はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
本発明は、マイクアレイ装置により収音された音声を用いて指定方向の音声を強調処理した後に音声の音量を調整し、強調処理の前後における音量の大きな差異の発生を抑制し、ユーザへの利便性を向上させる音声処理システム及び音声処理方法として有用である。
2、2A 全方位マイクアレイ装置
3、3A、3A’、3B、3C、3D、3E、3G、3H 指向性制御装置
4 レコーダ装置
10、10A、10B、10C、10D、10E、10F、10G、10H 音声処理システム
31 通信部
32 操作部
32v 音量操作部
33、33A、33B、33C、33D、33E、33G、33H 信号処理部
34a 指向方向算出部
34b 強調処理部
34c、34cA、34cB、34cC、34cH 音量調整部
34d、34dE、34dG 音量調整値算出部
34d2、34g2 発話区間判定部
36 ディスプレイ装置
37 スピーカ装置
38、38A、38A’、38B、38C、38E、38G、38H メモリ

Claims (16)

  1. 複数の収音素子を含み、前記収音素子を用いて無指向状態で音声を収音する収音部と、
    前記無指向状態から有指向状態に切り替えるための1つ以上の音声強調の指定方向の入力を受け付ける操作部と、
    前記指定方向の入力に応じて、前記収音部により収音された音声データを用いて、前記収音部から、前記指定方向の音声データを強調処理した前記有指向状態の音声データを生成する強調処理部と、
    前記強調処理部により生成された前記有指向状態の音声データの音量を調整する音量調整部と、
    前記収音部により収音された前記無指向状態の音声データ、又は前記音量調整部により音量が調整された後の前記有指向状態の音声データを出力する音声出力部と、を備える、
    音声処理システム。
  2. 請求項1に記載の音声処理システムであって、
    前記操作部は、
    前記有指向状態から前記無指向状態に切り替えるための前記指定方向の解除を受け付け、
    前記音量調整部は、
    前記指定方向の解除に応じて、前記有指向状態の音声データの音量を、前記強調処理部により強調処理される前に前記収音部により収音された前記無指向状態の音声データの音量に調整する、
    音声処理システム。
  3. 請求項1に記載の音声処理システムであって、
    前記音量調整部は、
    所定の音量調整値を用いて、前記有指向状態の音声データの音量を調整する、
    音声処理システム。
  4. 請求項1に記載の音声処理システムであって、
    所定の音量調整値設定画面に対して前記操作部により入力された音量調整値を記憶する記憶部、を更に備え、
    前記音量調整部は、
    前記記憶部に記憶された前記音量調整値を用いて、前記有指向状態の音声データの音量を調整する、
    音声処理システム。
  5. 請求項1に記載の音声処理システムであって、
    所定の音量調整値が書き込まれた設定ファイルを記憶する記憶部、を更に備え、
    前記音量調整部は、
    前記記憶部に記憶された前記設定ファイルに書き込まれた前記所定の音量調整値を用いて、前記有指向状態の音声データの音量を調整する、
    音声処理システム。
  6. 請求項1に記載の音声処理システムであって、
    前記収音部の収音領域の画像を撮像する撮像部と、
    前記撮像部により撮像された前記収音領域の画像を表示する表示部と、
    所定の音量調整値設定画面に対して前記操作部により入力された、前記収音領域の画像のエリア毎の音量調整値を記憶する記憶部と、を更に備え、
    前記音量調整部は、
    前記表示部に表示された前記収音領域の画像上の指定位置に対応する前記収音領域の画像のエリアに応じて、前記記憶部に記憶された前記エリア毎の音量調整値を用いて、前記有指向状態の音声データの音量を調整する、
    音声処理システム。
  7. 請求項1に記載の音声処理システムであって、
    所定の音量調整値設定画面に対して前記操作部により入力された、前記収音部毎の音量調整値を記憶する記憶部と、
    前記収音部に対応付けられ、前記収音部の収音領域の画像を撮像する撮像部と、
    前記撮像部により撮像された前記収音領域の画像を表示する表示部と、を更に備え、
    前記収音部と前記撮像部とが対応付けられた複数の組合せが設けられ、
    前記音量調整部は、
    いずれかの前記収音部の選択に応じて、前記記憶部に記憶された、選択された前記収音部に対応する音量調整値を用いて、前記有指向状態の音声データの音量を調整する、
    音声処理システム。
  8. 請求項1に記載の音声処理システムであって、
    前記強調処理部により生成された前記有指向状態の音声データを基に、前記操作部により入力された前記指定方向に所定の音声データが検出されるか否かを判定する発話判定部と、
    前記指定方向に所定の音声データが検出されたと判定された場合に、前記強調処理部による強調処理の前後における前記所定の音声データの音響レベルの差分を基に、音量調整値を算出する音量調整値算出部と、を備え、
    前記音量調整部は、
    前記音量調整値算出部により算出された前記音量調整値を用いて、前記有指向状態の音声データの音量を調整する、
    音声処理システム。
  9. 請求項1に記載の音声処理システムであって、
    所定の指向角設定画面に対して前記操作部により入力された、前記有指向状態における指向性のビーム幅を示す指向角を記憶する記憶部と、
    前記記憶部に記憶された前記指向角を基に、音量調整値を算出する音量調整値算出部と、を更に備え、
    前記音量調整部は、
    前記音量調整値算出部により算出された前記音量調整値を用いて、前記有指向状態の音声データの音量を調整する、
    音声処理システム。
  10. 請求項8に記載の音声処理システムであって、
    前記操作部により複数の前記指定方向が入力され、
    前記音量調整値算出部は、
    複数の前記指定方向毎に、基準音量と前記強調処理部により強調処理された後の音声データの各音響レベルとの差分に応じた各値を、前記強調処理後の各音声データの第1音量調整値として算出し、
    前記音量調整部は、
    前記音量調整値算出部により算出された前記強調処理後の各音声データの第1音量調整値を用いて、複数の前記指定方向毎に、前記強調処理部により強調処理された後の音声データの各音量を調整し、
    更に、
    前記強調処理部は、
    複数の前記指定方向毎に強調処理した後の音声データを合成処理し、
    前記音量調整値算出部は、
    前記強調処理部により合成処理された後の音声データの音響レベルと前記無指向状態の音声データの音響レベルとの差分に応じた値を第2音量調整値として算出し、
    前記音量調整部は、
    前記音量調整値算出部により算出された前記第2音量調整値を用いて、前記強調処理部により合成処理された後の音声データの音量を調整する、
    音声処理システム。
  11. 請求項1に記載の音声処理システムであって、
    前記強調処理部により生成された前記有指向状態の音声データを基に、前記操作部により入力された前記指定方向に所定の音声データが検出されるか否かを判定する発話判定部と、
    前記指定方向に所定の音声データが検出されたと判定された場合に、前記強調処理部により生成された前記有指向状態の音声データの音響レベルと所定の音量設定値との差分を第3音量調整値として算出する音量調整値算出部と、を備え、
    前記音量調整部は、
    前記音量調整値算出部により算出された前記第3音量調整値を用いて、前記有指向状態の音声データの音量を調整する、
    音声処理システム。
  12. 請求項11に記載の音声処理システムであって、
    前記音量調整値算出部は、
    前記収音部により収音された前記無指向状態の音声データの音響レベルと前記所定の音量設定値との差分を第4音量調整値として算出し、
    前記音量調整部は、
    前記音量調整値算出部により算出された前記第4音量調整値を用いて、前記無指向状態の音声データの音量を調整する、
    音声処理システム。
  13. 請求項1に記載の音声処理システムであって、
    所定の音量調整係数値設定画面に対して前記操作部により入力された、周波数毎の音量調整値の音量調整係数を記憶する記憶部、を更に備え、
    前記音量調整部は、
    前記記憶部に記憶された前記周波数毎の音量調整値の音量調整係数と所定の音量調整値とを用いて、前記有指向状態の音声データの音量を調整する、
    音声処理システム。
  14. 請求項13に記載の音声処理システムであって、
    前記周波数毎の音量調整値の音量調整係数は、所定の周波数帯域以外の音量調整値を低下させる特性を有する、
    音声処理システム。
  15. 請求項13に記載の音声処理システムであって、
    前記周波数毎の音量調整値の音量調整係数は、所定の周波数を含む一定範囲の周波数帯域の音量調整値を低下させる特性を有する、
    音声処理システム。
  16. 複数の収音素子を用いて無指向状態で音声を収音する収音部を有する音声処理システムにおける音声処理方法であって、
    前記無指向状態から有指向状態に切り替えるための1つ以上の音声強調の指定方向の入力を受け付けるステップと、
    前記指定方向の入力に応じて、前記収音部により収音された音声データを用いて、前記収音部から、前記指定方向の音声データを強調処理した前記有指向状態の音声データを生成するステップと、
    生成された前記有指向状態の音声データの音量を調整するステップと、
    前記収音部により収音された前記無指向状態の音声データ、又は音量が調整された後の前記有指向状態の音声データを出力するステップと、を有する、
    音声処理方法。
JP2014159736A 2014-08-05 2014-08-05 音声処理システム及び音声処理方法 Active JP6202277B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014159736A JP6202277B2 (ja) 2014-08-05 2014-08-05 音声処理システム及び音声処理方法
DE102015214124.1A DE102015214124A1 (de) 2014-08-05 2015-07-27 Audioverarbeitungssystem und Audioverarbeitungsverfahren
US14/809,618 US9578413B2 (en) 2014-08-05 2015-07-27 Audio processing system and audio processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014159736A JP6202277B2 (ja) 2014-08-05 2014-08-05 音声処理システム及び音声処理方法

Publications (2)

Publication Number Publication Date
JP2016039407A true JP2016039407A (ja) 2016-03-22
JP6202277B2 JP6202277B2 (ja) 2017-09-27

Family

ID=55135033

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014159736A Active JP6202277B2 (ja) 2014-08-05 2014-08-05 音声処理システム及び音声処理方法

Country Status (3)

Country Link
US (1) US9578413B2 (ja)
JP (1) JP6202277B2 (ja)
DE (1) DE102015214124A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018037842A (ja) * 2016-08-31 2018-03-08 沖電気工業株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
WO2021038752A1 (ja) * 2019-08-28 2021-03-04 株式会社ソニー・インタラクティブエンタテインメント 画像処理装置、システム、画像処理方法および画像処理プログラム
CN113691753A (zh) * 2021-09-07 2021-11-23 联想(北京)有限公司 一种处理方法、装置和电子设备
WO2022091591A1 (ja) * 2020-10-30 2022-05-05 Jfeアドバンテック株式会社 音源方位標定装置
KR20240023645A (ko) 2021-06-23 2024-02-22 아지노모토 가부시키가이샤 화장료용 조성물

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102226817B1 (ko) * 2014-10-01 2021-03-11 삼성전자주식회사 콘텐츠 재생 방법 및 그 방법을 처리하는 전자 장치
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
EP3131311B1 (en) * 2015-08-14 2019-06-19 Nokia Technologies Oy Monitoring
US9590580B1 (en) 2015-09-13 2017-03-07 Guoguang Electric Company Limited Loudness-based audio-signal compensation
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
US11523212B2 (en) 2018-06-01 2022-12-06 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
US10939030B2 (en) * 2018-09-07 2021-03-02 Canon Kabushiki Kaisha Video audio processing system and method of controlling the video audio processing system
CN112889296A (zh) 2018-09-20 2021-06-01 舒尔获得控股公司 用于阵列麦克风的可调整的波瓣形状
US10506362B1 (en) * 2018-10-05 2019-12-10 Bose Corporation Dynamic focus for audio augmented reality (AR)
JP2022526761A (ja) 2019-03-21 2022-05-26 シュアー アクイジッション ホールディングス インコーポレイテッド 阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
EP3942842A1 (en) 2019-03-21 2022-01-26 Shure Acquisition Holdings, Inc. Housings and associated design features for ceiling array microphones
CN114051738A (zh) 2019-05-23 2022-02-15 舒尔获得控股公司 可操纵扬声器阵列、系统及其方法
CN114051637A (zh) 2019-05-31 2022-02-15 舒尔获得控股公司 集成语音及噪声活动检测的低延时自动混波器
US11297426B2 (en) 2019-08-23 2022-04-05 Shure Acquisition Holdings, Inc. One-dimensional array microphone with improved directivity
CN110493690B (zh) * 2019-08-29 2021-08-13 北京搜狗科技发展有限公司 一种声音采集方法及装置
US10868844B1 (en) * 2019-09-17 2020-12-15 Lenovo (Singapore) Pte. Ltd. Adjusting audio stream quality based on volume
US12028678B2 (en) 2019-11-01 2024-07-02 Shure Acquisition Holdings, Inc. Proximity microphone
JP7396029B2 (ja) 2019-12-23 2023-12-12 ティアック株式会社 録音再生装置
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
USD944776S1 (en) 2020-05-05 2022-03-01 Shure Acquisition Holdings, Inc. Audio device
US11706562B2 (en) 2020-05-29 2023-07-18 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
US11893898B2 (en) 2020-12-02 2024-02-06 Joytunes Ltd. Method and apparatus for an adaptive and interactive teaching of playing a musical instrument
US11670188B2 (en) 2020-12-02 2023-06-06 Joytunes Ltd. Method and apparatus for an adaptive and interactive teaching of playing a musical instrument
US11972693B2 (en) 2020-12-02 2024-04-30 Joytunes Ltd. Method, device, system and apparatus for creating and/or selecting exercises for learning playing a music instrument
US11900825B2 (en) * 2020-12-02 2024-02-13 Joytunes Ltd. Method and apparatus for an adaptive and interactive teaching of playing a musical instrument
CN116918351A (zh) 2021-01-28 2023-10-20 舒尔获得控股公司 混合音频波束成形系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011066805A (ja) * 2009-09-18 2011-03-31 Oki Electric Industry Co Ltd 収音装置および収音方法
JP2012070070A (ja) * 2010-09-21 2012-04-05 Hitachi Kokusai Electric Inc 無線通信システム
WO2014103331A1 (ja) * 2012-12-27 2014-07-03 パナソニック株式会社 音声処理システム及び音声処理方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004180197A (ja) 2002-11-29 2004-06-24 Canon Inc 情報処理装置、情報処理方法および記録媒体
JP5339852B2 (ja) * 2008-10-29 2013-11-13 三洋電機株式会社 録音装置
CN102550022A (zh) 2009-09-30 2012-07-04 松下电器产业株式会社 家庭影院系统、视频音频重放装置、音频输出控制装置以及音量控制方法
CN102403022A (zh) * 2010-09-13 2012-04-04 三洋电机株式会社 录音装置、录音条件设定方法以及录音条件设定程序
US9338575B2 (en) * 2014-02-19 2016-05-10 Echostar Technologies L.L.C. Image steered microphone array

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011066805A (ja) * 2009-09-18 2011-03-31 Oki Electric Industry Co Ltd 収音装置および収音方法
JP2012070070A (ja) * 2010-09-21 2012-04-05 Hitachi Kokusai Electric Inc 無線通信システム
WO2014103331A1 (ja) * 2012-12-27 2014-07-03 パナソニック株式会社 音声処理システム及び音声処理方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018037842A (ja) * 2016-08-31 2018-03-08 沖電気工業株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
WO2021038752A1 (ja) * 2019-08-28 2021-03-04 株式会社ソニー・インタラクティブエンタテインメント 画像処理装置、システム、画像処理方法および画像処理プログラム
JPWO2021038752A1 (ja) * 2019-08-28 2021-03-04
JP7304955B2 (ja) 2019-08-28 2023-07-07 株式会社ソニー・インタラクティブエンタテインメント 画像処理装置、システム、画像処理方法および画像処理プログラム
WO2022091591A1 (ja) * 2020-10-30 2022-05-05 Jfeアドバンテック株式会社 音源方位標定装置
KR20240023645A (ko) 2021-06-23 2024-02-22 아지노모토 가부시키가이샤 화장료용 조성물
CN113691753A (zh) * 2021-09-07 2021-11-23 联想(北京)有限公司 一种处理方法、装置和电子设备

Also Published As

Publication number Publication date
US9578413B2 (en) 2017-02-21
DE102015214124A1 (de) 2016-02-11
US20160043699A1 (en) 2016-02-11
JP6202277B2 (ja) 2017-09-27

Similar Documents

Publication Publication Date Title
JP6202277B2 (ja) 音声処理システム及び音声処理方法
JP5958833B2 (ja) 指向性制御システム
US9769552B2 (en) Method and apparatus for estimating talker distance
JP5958717B2 (ja) 指向性制御システム、指向性制御方法、収音システム及び収音制御方法
US9031256B2 (en) Systems, methods, apparatus, and computer-readable media for orientation-sensitive recording control
JP6210458B2 (ja) 故障検知システム及び故障検知方法
JP5857674B2 (ja) 画像処理装置、及び画像処理システム
JP2022526761A (ja) 阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置
US10497356B2 (en) Directionality control system and sound output control method
JP6145736B2 (ja) 指向性制御方法、記憶媒体及び指向性制御システム
US20150281833A1 (en) Directivity control apparatus, directivity control method, storage medium and directivity control system
CN111724823A (zh) 一种信息处理方法及装置、电子设备
JP2016146547A (ja) 収音システム及び収音方法
JP6217930B2 (ja) 音速補正システム
KR20150139934A (ko) 오디오 장치
JP6218090B2 (ja) 指向性制御方法
US20120188434A1 (en) Method for acquiring audio signals, and audio acquisition system thereof
JP6447976B2 (ja) 指向性制御システム及び音声出力制御方法
US20230245638A1 (en) System and method for optimization of acoustic echo cancellation convergence
JP6471955B2 (ja) 監視システム及び監視システムにおける指向性制御方法
JPWO2015151130A1 (ja) 音声処理方法、音声処理システム、及び記憶媒体
JP2016219965A (ja) 指向性制御システム及び音声出力制御方法
Lin et al. Development of novel hearing aids by using image recognition technology
JP6569853B2 (ja) 指向性制御システム及び音声出力制御方法
JP2016181770A (ja) 収音システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170725

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170815

R151 Written notification of patent or utility model registration

Ref document number: 6202277

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151