JP2019103009A - 指向性制御装置と収音システムおよび指向性制御方法、指向性制御プログラム - Google Patents

指向性制御装置と収音システムおよび指向性制御方法、指向性制御プログラム Download PDF

Info

Publication number
JP2019103009A
JP2019103009A JP2017232994A JP2017232994A JP2019103009A JP 2019103009 A JP2019103009 A JP 2019103009A JP 2017232994 A JP2017232994 A JP 2017232994A JP 2017232994 A JP2017232994 A JP 2017232994A JP 2019103009 A JP2019103009 A JP 2019103009A
Authority
JP
Japan
Prior art keywords
directivity
user
angle
voice
sound collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017232994A
Other languages
English (en)
Inventor
智史 山梨
Tomohito Yamanashi
智史 山梨
雅文 垰
Masafumi TAO
雅文 垰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2017232994A priority Critical patent/JP2019103009A/ja
Publication of JP2019103009A publication Critical patent/JP2019103009A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】収音装置が収音した音声の信号のS/N比を、人の顔の向きに応じて改善する指向性制御装置、収音システム、指向性制御方法および指向性制御プログラムを提供する。【解決手段】本開示に係る指向性制御装置は、音声取得部と、画像取得部と、角度検出部と、音声データ生成部と、指向性決定部とを備える。音声取得部は、収音領域におけるユーザの音声を含む音声の信号を取得する。画像取得部は、ユーザの顔を含む撮像画像を取得する。角度検出部は、画像取得部が取得した撮像画像に基づいて、第1方向とユーザの顔の向きを示す第2方向とがなす角度を検出する。音声データ生成部は、音声取得部が取得した音声の信号に指向性を設定した音声データを生成する。指向性決定部は、角度検出部が検出した角度に応じて、指向性の範囲および指向性の方向を決定する。【選択図】図2

Description

本開示は、ユーザの顔の向きに応じて収音装置における収音の指向性を制御する指向性制御装置およびそれを含む収音システムに関する。また本開示は、指向性制御方法、指向性制御プログラムに関する。
従来、撮像装置が撮像した画像から人の顔を認識し、認識した人が発する音声を、指向性を制御する指向性制御装置を備えた収音装置が知られている。
特開2011―71702号公報
従来の指向性制御装置は、実用化のために更なる改善が必要である。
更なる改善を実現するため、本開示に係る指向性制御装置は、音声取得部と、画像取得部と、角度検出部と、音声データ生成部と、指向性決定部とを備える。音声取得部は、収音領域におけるユーザの音声の信号を取得する。画像取得部は、ユーザの顔を含む撮像画像を取得する。角度検出部は、画像取得部が取得した撮像画像に基づいて、第1方向とユーザの顔の向きを示す第2方向とがなす角度を検出する。音声データ生成部は、音声取得部が取得した音声の信号に指向性を設定した音声データを生成する。指向性決定部は、角度検出部が検出した角度に応じて、指向性の範囲および指向性の方向を決定する。
また、本開示に係る収音システムは、ユーザの顔を含む画像を撮像する撮像装置と、収音領域におけるユーザの音声を収音する収音装置と、上記指向性制御装置とを備える。指向性制御装置の音声取得部は、収音装置から音声の信号を取得する。指向性制御装置の画像取得部は、撮像装置から画像を取得する。
また、本開示に係る指向性制御方法では、収音領域におけるユーザの音声の信号を取得する。また、ユーザの顔を含む撮像画像を取得する。取得した撮像画像に基づいて、第1方向とユーザの顔の向きを示す第2方向とがなす角度を検出する。取得した音声の信号に指向性を設定した音声データを生成する。このとき、指向性の範囲および指向性の方向は、検出した角度に応じて決定する。
また、本開示に係る指向性制御プログラムでは、以下の処理を指向性制御装置のコンピュータに実行させる。収音領域におけるユーザの音声の信号を取得する処理を実行させる。また、ユーザの顔を含む撮像画像を取得する処理を実行させる。取得した撮像画像に基づいて、第1方向とユーザの顔の向きを示す第2方向とがなす角度を検出する処理を実行させる。このとき、指向性の範囲および指向性の方向は検出した角度に応じて決定する処理を実行させる。
本開示に係る指向性制御装置は、収音装置が収音した音声の信号のSN比を、人の顔の向きに応じて改善することができる。
種々の実施の形態に係る指向性制御装置の指向特性(ポーラパターン)を示す図 第1の実施の形態に係る収音システムの構成を示すブロック図 第1の実施の形態に係る指向性制御装置を搭載した車両を示す図 (a)ユーザの顔が収音装置の方向を向いている場合の指向性の範囲と指向性の方向を示す図、(b)ユーザの顔の向きに伴って変化する指向性の範囲と指向性の方向を示す図 第1の実施の形態に係る指向性制御装置の動作を示すフローチャート ユーザの顔の向きの角度とビームの鋭さの関係を示す図 ユーザの顔が窓の方向を向いている場合の指向性の範囲と指向性の方向を示す図 第2の実施の形態に係る指向性制御装置の動作を示すフローチャート ユーザの顔の向きの角度とビームの鋭さおよびビームの向きの関係を示す図 第2の実施の形態に係る指向性制御装置を搭載した車両を示す図 図10に示すユーザの位置に対する収音装置の位置において、ユーザの顔が窓の方向を向いている場合の指向性の範囲と指向性の方向を示す図 第3の実施の形態に係る指向性制御装置の動作を示すフローチャート ユーザの顔の向きの変動量とビームの鋭さの関係を示す図
(発明に至った知見)
一般的に人の顔は、顔の輪郭、目、鼻、口の相対位置、顔の色彩などに基づいて認識される。例えば、特許文献1は、収音領域に存在する複数の人が収音装置の方へ顔を向けているか否かを画像に基づいて判定し、収音装置の方へ顔を向けていない人からの音声を収音しないよう収音装置の指向性を制御する技術が開示されている。収音装置の方へ顔を向けていない人による音声は、明瞭な収音が困難である。上記の技術によれば収音装置の方へ顔を向けていない人の音声を取得対象から除外することができる。
上記従来技術では、音声の取得対象であるか否かを人の顔の向きで判断しており、顔の向きに応じて精度良く収音するわけではない。
本発明では、収音装置が収音した音声の信号のS/N比を、人の顔の向きに応じて改善する指向性制御装置、収音システム、指向性制御方法および指向性制御プログラムを提供することを目的とする。
収音装置が収音した音声の信号のS/N比を、人の顔の向きに応じて改善するための指向性制御装置の一態様は、収音領域におけるユーザの音声を含む音声の信号を取得する音声取得部と、前記ユーザの顔が写りこんだ撮像画像を取得する画像取得部と、前記画像取得部が取得した前記撮像画像に基づいて、第1方向と前記ユーザの顔の向きを示す第2方向とがなす角度を検出する角度検出部と、前記音声取得部が取得した前記音声の信号に指向性を設定した音声データを生成する音声データ生成部と、前記角度検出部が検出した前記角度に応じて、前記指向性の範囲および前記指向性の方向を決定する指向性決定部と、を備える。
例えば、ユーザが収音装置以外の方向を向いている場合は、ユーザの音声は収音装置以外の方向へ発せられる。そのため、ユーザが収音装置の方向を向いて音声を発した場合よりも、収音装置が収音する音声の信号に含まれるユーザの音声の信号が少なくなる。指向性制御装置は、ユーザの顔の向きに応じて収音装置の指向性の範囲および指向性の方向を決定することで、収音装置以外の方向へ発せられるユーザの音声を収音装置が積極的に取得できるように収音装置の指向性を制御できる。したがって、収音装置が収音した音声の信号のS/N比を、人の顔の向きに応じて改善できる。
上記態様において、例えば、前記指向性決定部は、前記角度が大きいほど前記指向性の範囲を広げるとしてもよい。
上記態様において、例えば、前記指向性制御装置は車両に搭載され、前記角度検出部は、前記第1方向を前記車両の進行方向とし、前記第2方向が、前記車両の窓のうち前記ユーザに最も近い窓の方向を示す第3方向と、前記第3方向と反対方向を示す第4方向とのいずれの方向により近いかを検出し、前記指向性決定部は、前記角度検出部が検出した前記角度が第1角度であり前記第2方向が前記第3方向により近い場合は、前記角度が前記第1角度であり前記第2方向が前記第4方向により近い場合より前記指向性の範囲を広げるとしてもよい。
上記態様において、例えば、前記音声取得部は、収音装置から前記音声の前記信号を取得し、前記指向性決定部は、前記第2方向が前記第3方向により近い場合に、前記収音装置と前記ユーザとを結ぶ第1線分および前記収音装置と前記最も近い窓とを結ぶ第2線分を含むように前記指向性の範囲を決定し、前記第1線分と前記第2線分とがなす角度と、前記第1線分と前記進行方向の反対方向とがなす角度との和は前記角度検出部が検出した前記角度と等しいとしてもよい。
上記態様において、例えば、前記指向性決定部が決定する前記指向性の方向は、当該指向性の方向と前記第1線分とがなす角度が前記角度検出部の検出した前記角度の半分となる方向であるとしてもよい。
上記態様において、例えば、前記角度検出部は、所定時間内の前記角度の変動量をさらに検出し、前記指向性決定部は、前記変動量が所定の閾値より小さい場合は、前記指向性の範囲を第1の範囲とし、前記変動量が所定の閾値以上である場合は、前記指向性の範囲を前記第1の範囲より広い第2の範囲としてもよい。
収音装置が収音した音声の信号のS/N比を、人の顔の向きに応じて改善するための収音システムの一態様は、ユーザの顔が写りこんだ画像を撮像する撮像装置と、収音領域における前記ユーザの音声を含む音声を収音する収音装置と、指向性制御装置と、を備え、前記指向性制御装置は、前記収音装置から前記音声の信号を取得する音声取得部と、前記撮像装置から前記画像を取得する画像取得部と、前記画像取得部が取得した前記撮像画像に基づいて、第1方向と前記ユーザの顔の向きを示す第2方向とがなす角度を検出する角度検出部と、前記音声取得部が取得した前記音声の前記信号に指向性を設定した音声データを生成する音声データ生成部と、前記角度検出部が検出した前記角度に応じて前記指向性の範囲および前記指向性の方向を決定する指向性決定部と、を有する。
収音装置が収音した音声の信号のS/N比を、人の顔の向きに応じて改善するための指向性制御方法の一態様は、収音領域におけるユーザの音声を含む音声の信号を取得し、前記ユーザの顔が写りこんだ撮像画像を取得し、取得した前記撮像画像に基づいて、第1方向と前記ユーザの顔の向きを示す第2方向とがなす角度を検出し、取得した前記音声の前記信号に指向性を設定した音声データを生成し、検出した前記角度に応じて前記指向性の範囲および前記指向性の方向を決定する。
収音装置が収音した音声の信号のS/N比を、人の顔の向きに応じて改善するための指向性制御プログラムの一態様は、収音領域におけるユーザの音声を含む音声の信号を取得する処理と、前記ユーザの顔が写りこんだ撮像画像を取得する処理と、取得した前記撮像画像に基づいて、第1方向と前記ユーザの顔の向きを示す第2方向とがなす角度を検出する処理と、取得した前記音声の前記信号に指向性を設定した音声データを生成する処理と、検出した前記角度に応じて前記指向性の範囲および前記指向性の方向を決定する処理と、を指向性制御装置のコンピュータに実行させる。
以下図面を参照して、本開示の実施の形態を詳しく説明する。なお、各実施の形態において同一または略同一の部分には同一の符号を付し詳細な説明を省略する場合がある。
図1は、種々の実施の形態に係る指向性制御装置の指向特性(以下、ポーラパターン)を示す図である。
以下に述べる実施の形態では、一例として、ポーラパターンにおいて、最大感度を0dBとし、最小感度を−30dBとした場合に、最大感度から所定の抑圧量未満となる範囲を指向性の範囲とする。指向性の範囲は、ポーラパターンにおいて予め定められた感度閾値TH以上となる範囲に等しい。なお、指向性の範囲の定義は、これに限定されず、その他の方法で定義されてもよい。
ビーム範囲が設定された場合のポーラパターンを図1(a)に示す。図1(a)に示すように、指向性制御装置の指向性は、方向D1の感度が最も大きくなる。
また、例えば、上述した所定の抑圧量を6dBとして定義した場合、図1(a)に示したポーラパターンにおける中心角θは、120度になる。図1(a)に示したポーラパターンでは、中心角θの中央で最大感度になることから、中心角に含まれる範囲は、最大感度の位置を中心として±60度の範囲である。
また、例えば、上述した所定の抑圧量を6dBとして定義した場合、図1(b)に示したポーラパターンにおける中心角は、90度になる。図1(b)に示したポーラパターンでは、中心角の中央で最大感度になることから、90度である中心角は、最大感度の位置を中心として±45度の範囲である。
また、例えば、上述した所定の抑圧量を6dBとして定義した場合、図1(c)に示したポーラパターンにおける中心角は、60度になる。図1(c)に示したポーラパターンでは、中心角の中央で最大感度になることから、60度である中心角は、最大感度の位置を中心として±30度の範囲である。
なお、本実施の形態では、図1に示したように、最大感度のピークが中心角の中央に存在する場合を例に挙げて説明したが、これに限定されない。例えば、各ポーラパターンにおいて、最大感度のピークは、中心角の中央からずれていてもよい。
(第1の実施の形態)
[1―1.構成]
図2は、第1の実施の形態に係る収音システムの構成を示すブロック図である。この収音システムは、撮像装置10と、収音装置20と、外部機器30と、指向性制御装置100とを備える。
撮像装置10は、画像を撮像し、撮像した画像を画像データとして後述する画像取得部110に出力する。撮像装置10は例えばカメラで構成される。
収音装置20は、収音領域における音声を収音し、収音した音声を音声の信号として後述する音声取得部120に出力する。収音装置20は多数のマイク(図2の第1マイクから第Nマイク)を含むマイクアレイにより構成される。ここで、収音領域は例えば収音装置20の正面に設定され、収音装置20が音声を収音できる領域であればよい。
外部機器30は、後述する音声データ生成部150から出力される音声データを取得する。外部機器30としては、例えばカーナビゲーション装置やスピーカ装置などが挙げられる。外部機器30が音声認識機能を備えるカーナビゲーション装置である場合は、指向性制御装置100は、カーナビゲーション装置がユーザからの指示を音声認識する際に用いられる。外部機器30がスピーカ装置である場合は、指向性制御装置100は、ユーザと離れた位置にいる者に向けてユーザの音声を出力する際に用いられる。
次に指向性制御装置100の構成について詳細に説明する。図2に示すように、指向性制御装置100は、音声取得部120と、画像取得部110と、角度検出部130と、指向性決定部140と、音声データ生成部150とを備える。
音声取得部120は、収音装置20が出力した音声の信号を取得する。この音声はユーザの音声を含んでいる。
画像取得部110は、撮像装置10が出力する画像データから、ユーザの顔が写りこんだ撮像画像の画像データを取得する。ここで、ユーザとは、音声を取得する対象である。
角度検出部130は、画像取得部110が取得した撮像画像に基づいて、第1方向とユーザの顔の向きを示す第2方向とがなす角度を検出する。ここで、第1方向は、ユーザに対して収音装置20がどのような位置に設置されるかに応じて定義される。また、角度検出部130は、例えば、特開平3−167698号公報で開示されている方法で角度を検出することができる。ただし、角度検出の方法はこれに限定されない。詳細は後述する。
音声データ生成部150は、音声取得部120が取得した音声の信号に後述する指向性決定部140が決定した指向性の範囲および指向性の方向を設定した音声データを生成する。ここで生成された音声データは外部機器30へ出力される。
指向性決定部140は、角度検出部130が検出した角度に応じて、音声データ生成部150が生成する音声データの指向性の範囲および指向性の方向を決定する。角度検出部130が検出した角度が変わると、ユーザが発する音の広がる方向や範囲が変化するため、指向性決定部140は、この変化に応じて指向性の範囲や指向性の角度を変える。
図3は、本実施の形態に係る指向性制御装置100を搭載した車両1を示す図である。
撮像装置10および収音装置20は運転席2の正面に設置され、撮像装置10は運転席2にいるユーザの顔を含む画像を撮像し、収音装置20は運転席2にいるユーザの発する音声を収音する。指向性制御装置100は、指向性決定部140が決定した指向性の範囲300を運転席2に向けて設定する。なお、撮像装置10および収音装置20の設置位置は、運転席2の正面の位置の上方、例えば、車両の天井位置、ウィンドシールド上部などであってもよい。また、撮像装置10および収音装置20の設置位置は、運転席2の正面の位置の下方、例えば、ダッシュボードの位置、ウィンドシールド下部などであってもよい。
指向性制御装置100が車両1に搭載されている場合は、第1方向41は例えば車両1の進行方向とする。以下、ユーザが車両1の運転席2にいる場合を説明する。
図4(a)は、ユーザ3の顔が収音装置20を向いている場合の指向性の範囲300と指向性の方向310を示す図である。ユーザ3が収音装置20の方を向く場合、第2方向42は第1方向41と一致する。このとき、指向性の方向310は進行方向の反対方向に設定される。たとえば、指向性の方向310は収音装置20からユーザ3の顔の一部へ向かう方向であってもよい。ユーザ3の顔の一部は、例えば目、鼻、口などである。また、例えば指向性の方向310は、音声データの生成に影響を考慮しなくてもよい程度にユーザ3の顔の近傍の空間へ向けてもよい。
図4(b)は、ユーザ3の顔の向きの変化に伴って変化する指向性の範囲320と指向性の方向330を示す図である。ユーザ3の顔の向きを示す第2方向42が図4(b)のように変化した場合、図4(a)で示した指向性の範囲300は指向性の範囲300よりも広い指向性の範囲320のように変化し、指向性の方向310は指向性の方向330のように変化する。なお、指向性決定部140は第1方向41と第2方向42のなす角度をθ2とすると、θ2が大きいほど指向性の範囲320を広く決定してもよい。
[1−2.動作]
図5は、指向性制御装置100の動作を示すフローチャートである。以下、指向性制御装置100の動作手順を、図2、図4、図5を参照しながら説明する。
まず撮像装置10が画像を撮像し、ステップS100で、画像取得部110は撮像装置10が出力する画像データを取得する。
次に、収音装置20が収音領域におけるユーザの音声を収音する。ステップS101では、音声取得部120は収音装置20が出力する音声の信号を取得する。
ステップS102では、ステップS100において画像取得部110は撮像装置10が撮像した画像に、ユーザの顔が含まれているか否かを判断する。画像取得部110による顔の検出は、例えば、両目とその間に位置する鼻とを検出することで、1人の人間の顔であると認識する。その他、顔の輪郭、目、鼻、口の相対位置、顔の色彩などによって顔を認識してもよい。このような顔の認識方法は単なる例示であり、認識方法はこれに限定されない。画像取得部110が、撮像装置10の撮像した画像にユーザ3の顔が含まれると判断した場合は(ステップS102でYes)、処理はステップS104へ進み、ユーザの顔が含まれないと判断した場合は(ステップS102でNo)、ステップS103へ進む。
ステップS103では、指向性決定部140は、指向性の方向および範囲を予め定められた固定値に決定する。
ステップS104では、画像取得部110が取得した画像に基づいて角度検出部130は、車両1の進行方向を示す第1方向41とユーザ3の顔の向きを示す第2方向42とがなす角度であるθ2を検出する。以下、ユーザ3の顔が進行方向より時計回りに(右方向に)向く場合は、θ2を正の値で表し、反時計回りに(左方向に)向く場合は、θ2を負の値で表す。例えばユーザ3の顔が進行方向より時計回りに(右方向に)45°向く場合は、θ2は+45°となる。また、例えばユーザ3の顔が進行方向を向く場合は(図4(a))、θ2は±0°となる。ここでは、第2方向42が第1方向41に対して左右いずれの方向に向くかを角度検出部130が検出する。
ステップS105では、角度検出部130が検出した角度に応じて、指向性決定部140は、音声データ生成部150が生成する音声データの指向性の範囲および指向性の方向を決定する。
ここで、指向性の範囲および指向性の方向の決定方法について図6を参照しながら説明する。θ2の絶対値が10°未満である場合、指向性決定部140は、ユーザ3の顔が正面を向いていると認識する。θ2の絶対値が10°未満の場合、指向性決定部140は、ゲイン補正量を0dBに設定することで指向性の範囲を決定し、ビームの鋭さは例えば図1(c)に示すパターン3とする。ゲイン補正量とは、音声取得部120が取得する音声の信号レベル(信号の大きさ)を補正する値である。ユーザ3の顔が横を向き収音装置20の方向からずれるに従って、収音装置20が収音する音声が小さくなる。そのため、収音装置20が出力する音声の信号レベルが小さくなる。そのため、指向性決定部140がゲイン補正量を大きくすることでユーザ3の音声の信号レベルを大きくしてS/N比を向上することができる。また、θ2の絶対値が10°以上、45°未満である場合、指向性決定部140は、ゲイン補正量を3dBに設定することで指向性の範囲を決定し、ビームの鋭さは例えば図1(b)に示すパターン2とする。また、θ2の絶対値が45°以上の場合、指向性決定部140は、ゲイン補正量を4dBに設定することで指向性の範囲を決定し、ビームの鋭さは例えば図1(a)に示すパターン1とする。ここで説明したビームの向きが指向性の方向である。また、ここではビーム鋭さおよびゲイン補正量が変わるθ2の絶対値の閾値を10°および45°としたが、これらの数値は一例であり、これに限定されない。
ステップS106では、音声取得部120が取得した音声の信号に指向性決定部140が決定した指向性の方向および指向性の範囲を設定した音声データを音声データ生成部150が生成する。ユーザの顔の向きに応じてビームの鋭さおよびゲイン補正量を設定するため、音声データ生成部150は、ユーザの顔の向きがどのような向きであってもユーザの音声をより多く含んだ音声データを生成することができる。従って、外部機器30が音声認識機能を備えるカーナビゲーション装置である場合は、ユーザが音声による指示をする際の音声認識の精度を高めることができる。また、外部機器30がスピーカ装置である場合は、ユーザの顔の向きに関わらず音声を明瞭に出力することができる。
(第2の実施の形態)
[2―1―1.構成]
以下、図2、図3、図7を参照して第2の実施の形態に係る指向性制御装置を説明する。本実施の形態に係る収音システムおよび指向性制御装置の基本構成は図2と同様であり、指向性決定部140の動作が異なるため、この点について詳細に説明する。
[2―1―2.動作]
本実施の形態に係る指向性制御装置100は車両1に設置されており、ユーザ3の顔が窓4の方向を向いているか否かによって指向性決定部140が決定する指向性の範囲および指向性の方向が異なる。また、第1方向は車両1の進行方向を示す。また、ユーザ3の顔が窓4の方向を向いていない場合の指向性の範囲および指向性の方向は、第1の実施の形態と同様の方法で決定するため、説明を省略する。
図7は、ユーザ3の顔が窓4の方向を向いている場合の指向性の範囲340と指向性の方向350を示す図である。
図7において、第2方向42は、進行方向を示す第1方向41よりもユーザ3に最も近い窓4の方向を向いている。
ここで、ユーザ3から窓4へ向かう方向を第3方向43とし、第3方向43の反対方向を第4方向44とする。第3方向43は例えば進行方向(第1方向)から90°回転して窓4の方向を向く方向とすればよい。また、第4方向44は第3方向43の180度反対の方向とすればよい。これらの数値は一例であり、これに限定されない。
角度検出部130は、第2方向42が第3方向43と第4方向44のいずれの方向により近いかを検出する。角度検出部130は、第2方向42が第3方向43により近いことを検出した場合、ユーザ3の顔は窓4の方向を向いていると認識する。
角度検出部130が、ユーザ3の顔は窓4の方向を向いていると認識した場合、指向性決定部140は、第2方向42が第4方向44により近い場合より指向性の範囲を広く決定する。すなわち、指向性決定部140は、第2方向42が第3方向43にθ2だけ向いた場合は、第2方向42が第4方向44にθ2だけ向いた場合よりも指向性の範囲340を広げる。
また、収音装置20とユーザ3とを結ぶ線分を第1線分71とする。また、ユーザ3を始点として第2方向42に沿って窓4と交わる点と収音装置20とを結ぶ線分を第2線分72とする。指向性決定部140は、指向性の方向350と第1線分71とがなす角度θ1が、第1線分71と第2線分72とがなす角度の半分となるように、指向性の方向350を決定する。すなわち、第1線分71と第2線分72とがなす角度はθ2に等しくなる。従って、指向性決定部140は、ユーザ3の位置とユーザ3の音声が窓4上で反射する位置とから指向性の方向350を決定できる。
図8は、本実施の形態に係る指向性制御装置100の動作を示すフローチャートである。以下、図8、図2、図7を参照しながら指向性制御装置100の動作手順を説明する。ここでは、第1の実施の形態に係る指向性制御装置100の動作と同様のステップの説明を省略する。
本実施の形態では、ステップS104においてユーザ3の顔の向きを検出すると、ステップS201では、角度検出部130は、ユーザ3の顔が窓4の方向を向いているか否かを判断する。角度検出部130がユーザ3の顔が窓4の方向を向いていると判断した場合は(ステップS201でYes)、処理はステップS202へ進み、ユーザ3の顔が窓4の方向を向いていないと判断した場合は(ステップS201でNo)、ステップS105へ進む。
ステップS202では、指向性決定部140はユーザ3の顔が窓4の方向を向いていないと認識した場合より指向性の範囲340を広く決定する。すなわちステップS105で決定される指向性の範囲よりも広い指向性の範囲を決定する。従って、ユーザ3が窓4の方向を向いている場合には、音声データ生成部150はユーザ3の音声が窓4に反射した反射音の信号も含めて音声データを生成することができる。これにより、ユーザ3が窓4の方向を向いているか否かに応じてユーザ3が発した音声をより正確に音声データとして生成することができる。
ここで、指向性の範囲および指向性の方向の決定方法について図9、図7を参照しながら説明する。図9、図7の説明をする前に、方向Aと方向Bについて定義する。方向Aは、収音装置20からユーザ3へ向かう方向である。また、方向Bは、収音装置20からユーザ3へ向かう方向と、収音装置20から窓4へ向かう方向との間にある方向である。方向Bは、収音装置20からユーザ3へ向かう方向と、収音装置20から窓4へ向かう方向との間における中心方向であってもよい。また、ユーザ3の顔が進行方向より時計回りに(右方向に)向く場合は、θ2を正の値で表し、反時計回りに(左方向に)向く場合は、θ2を負の値で表す。すなわち、ユーザ3の顔が進行方向よりも窓を向いている場合はθ2を正の値で表し、車室内を向いている場合はθ2を負の値で表す。
θ2が45°以上である場合、指向性決定部140は、ビームの鋭さは例えば図1(a)に示すパターン1とし、ビームの向きは方向Bへ向け、ゲイン補正量を4dBに設定する。ここで、方向Bは図7において、指向性の方向350と第1線分71とがなす角度θ1が、第1線分71と第2線分72とがなす角度の半分となる方向である。また、θ2が10°以上、45°未満である場合、指向性決定部140は、ビームの鋭さを例えば図1(b)に示すパターン2とし、ビームの向きを方向Bへ向け、ゲイン補正量を3dBに設定する。θ2の絶対値が10°未満である場合、指向性決定部140は、ユーザ3の顔が正面を向いていると認識する。θ2の絶対値が10°未満である場合、指向性決定部140はビームの鋭さは例えば図1(c)に示すパターン3とし、ビームの向きを方向Aへ向け、ゲイン補正量を0dBに設定する。ここで、方向Aは図7において進行方向を示す第1方向41の反対方向であり、収音装置20からユーザ3を示す方向である。また、θ2が−45°より大きく−10°以下である場合、指向性決定部140は、ビームの鋭さは例えば図1(c)に示すパターン3とし、ビームの向きは方向Aへ向け、ゲイン補正量を2dBに設定する。また、θ2が−45°以下である場合、指向性決定部140は、ビームの鋭さは例えば図1(b)に示すパターン2とし、ビームの向きは方向Aへ向け、ゲイン補正量を3dBに設定する。
[2―2.配置が異なる場合の動作]
次に、収音装置がユーザの正面でない位置に配置される場合の指向性の範囲および指向性の方向について、収音装置が車両のオーバーヘッドコンソールに配置される場合を一例として、図10、図11および図2を参照しながら説明する。
図10は、本実施の形態に係る指向性制御装置100を搭載した車両1を示す図である。指向性制御装置100は、図2に示す指向性決定部140が決定した指向性の範囲300を運転席2に向けて設定する。
図11は、図10に示すユーザ3の位置に対する収音装置20の位置において、ユーザ3の顔が窓4の方向を向いている場合の指向性の範囲340と指向性の方向350を示す図である。以下、図7と同様の内容については説明を省略し、異なる点について説明する。
図11において、角度検出部130は、第2方向42が第3方向43により近いことを検出した場合、ユーザ3の顔が窓4の方向を向いていると認識する。ユーザ3の顔が窓4の方向を向いていると認識すると、指向性決定部140は第1線分71および第2線分72を含むように指向性の範囲340を決定する。従って、音声データ生成部150は、ユーザ3の音声と窓4からの反射音を含む音声データを生成することができる。これにより、ユーザ3が窓4の方向を向いているか否かに応じて収音装置20が収音した音声の信号のS/N比を改善した音声データを音声データ生成部150から外部機器30へ出力できる。
また、指向性の方向350と第1線分71とがなす角度が、第1線分71と第2線分72とがなす角度の半分となるように、指向性の方向350を決定する。ここで、第1線分71と第2線分72とがなす角度と、第1線分71と進行方向の反対方向91とがなす角度θ3との和はθ2と等しくなるように、指向性の方向350を決定するのが好ましい。従って、音声データ生成部150は窓4からの反射音をより正確に反映させた音声データを生成できる。これにより、収音装置20が設置される位置に関わらず、収音装置20が収音した音声の信号のS/N比を改善した音声データを音声データ生成部150から外部機器30へ出力できる。これにより、外部機器30が音声認識機能を備えるカーナビゲーション装置である場合は、ユーザが音声による指示をする際の音声認識の精度を高めることができる。また、外部機器30がスピーカ装置である場合は、ユーザの顔の向きに関わらず明瞭な音声を出力することができる。
(第3の実施の形態)
[3―1.構成]
以下、第3の実施の形態に係る指向性制御装置を説明する。第3の実施の形態に係る収音システムおよび指向性制御装置の基本構成は図2と同様であり、指向性決定部140の動作が異なるため、この点について詳細に説明する。
[3―2.動作]
図12は、本実施の形態に係る指向性制御装置100の動作を示すフローチャートである。以下、指向性制御装置100の動作手順を図2、図4、図12を参照して説明する。ここでは、第1の実施の形態に係る指向性制御装置100の動作と同様のステップの説明を省略する。
本実施の形態では、ステップS104においてユーザ3の顔の向きを検出すると、ステップS301では、角度検出部130は検出した角度の所定時間内の変動量を検出する。角度検出部130が検出する角度は、第1方向41とユーザ3の顔の向きを示す第2方向42とがなす角度θ2である。すなわち、ステップS301において角度検出部130は、ユーザ3の顔の向きが所定時間内にどれだけ変動したかを検出する。
ステップS302では、ステップS301において角度検出部130が検出したθ2の変動量に応じて、指向性決定部140は指向性の範囲および指向性の方向を決定する。
ここで、指向性の範囲および指向性の方向の決定方法について図13を参照しながら説明する。θ2の変動量が例えば0.1秒で0°以上、20°未満変化する場合の角度変動量を「小」とする。このときのビームの鋭さを例えば図1(c)に示すパターン3とする。また、θ2の変動量が例えば0.1秒で20°以上45°未満変化する場合の角度変動量を「中」とする。このときのビームの鋭さを例えば図1(b)に示すパターン2とする。また、θ2の変動量が例えば0.1秒で45°以上変化する場合の角度変動量を「大」とする。このときのビームの鋭さを例えば図1(a)に示すパターン1とする。以上のように、θ2の変動量に応じてビームの鋭さを変化させることで、音声データ生成部150は、より正確にユーザ3の音声データを生成することができる。また、θ2の変動量が大きい場合は指向性の方向を広くすることで、ユーザ3の音声データを途切れることなく生成することができる。これにより、外部機器30が音声認識機能を備えるカーナビゲーション装置である場合は、ユーザが音声による指示をする際の音声認識の精度を高めることができる。また、外部機器30がスピーカ装置である場合は、ユーザの顔の変動量に関わらず明瞭な音声を出力することができる。
(他の実施の形態)
以上、本開示に係る指向性制御装置を、第1、第2および第3の実施の形態に基づいて説明したが、本開示は上記実施の形態及びそれらの変形例に限られない。なお、図4、7、11は収音装置、ユーザおよび窓を鉛直方向上から水平面に投影した2次元的な図であり、方向、角度および範囲に関する記載は、収音装置、ユーザおよび窓の鉛直方向の位置関係を考慮せず記載している。すなわち、方向、角度および範囲は、前述の水平面において示される方向、角度および範囲である。そのため、鉛直方向を考慮した実際の方向、角度および範囲とは異なる場合がある。
以下、図10を参照して、他の実施の形態を説明する。他の実施の形態では、収音装置として収音装置20と収音装置21を備える。収音装置21は、収音装置を車両1の後部座席用に設け指向性の範囲341を設定する。これにより、図2における外部機器30が後部座席に設置されるスピーカ装置である場合、収音装置20において収音したユーザの音声の音声データは、後部座席に座る人に向けて出力され、収音装置21において収音したユーザの音声の音声データは、運転席に座る人に出力される。これにより、運転席の人と後部座席の人との会話がスムーズに行うことができる。また、指向性制御装置100と、収音装置20、21と、外部機器30としてスピーカ装置とを含めた収音システムを車両1以外で使用してもよい。例えば、家庭の居間と台所に収音装置を設置し、スピーカ装置を居間に設置する。これにより、居間にいる人と台所にいる人との音声の、S/N比を改善した音声データを音声データ生成部が生成することができる。これにより、居間にいる人と台所にいる人がスムーズに会話することができる。
また例えば、第1、第2および第3の実施形態に係る指向性制御装置の部分的な構成、及び下記の変形例に係る構成を、適宜組み合わせて指向性制御装置を構成しても良い。さらに、本発明の技術的思想の範囲を逸脱しない範囲で、指向性制御装置の構成に適宜変更を加えることは可能である。
上記実施の形態で説明した指向性制御装置100において、各ブロックは、LSIなどの半導体装置により個別に1チップ化されても良いし、一部又は全部を含むように1チップ化されても良い。
上記各実施の形態の各機能ブロックの処理の一部又は全部は、コンピュータプログラムにより実現されるものであってもよい。また、上記実施の形態の各処理を専用回路により実現してもよいし、ソフトウエア(OS(オペレーティングシステム)、ミドルウェア、あるいは、所定のライブラリとともに実現される場合を含む)により汎用のハードウエアを動作させて実現してもよい。更に、ソフトウエア及び汎用のハードウエアの組み合わせと、専用回路との混在処理により実現しても良い。
また、上記実施の形態における処理方法の実行順序は、必ずしも、上記実施の形態の記載に制限されるものではなく、本開示の要旨を逸脱しない範囲で、実行順序を入れ替えることができる。
上記指向性制御装置100で実行される処理方法と、同処理方法をコンピュータに実行させるコンピュータプログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体は、本開示の範囲に含まれる。ここで、コンピュータ読み取り可能な記録媒体としては、例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray(登録商標) Disc)、半導体メモリを挙げることができる。コンピュータプログラムは、上記記録媒体に記録されたものに限られず、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク等を経由して伝送されてもよい。
本開示は、たとえば、車両においてユーザの音声に指向性を設定した音声データを生成する指向性制御装置に適用可能である。
1 車両
2 運転席
3 ユーザ
10 撮像装置
20,21 収音装置
30 外部機器
41 第1方向
42 第2方向
43 第3方向
44 第4方向
71 第1線分
72 第2線分
91 進行方向の反対方向
100 指向性制御装置
110 画像取得部
120 音声取得部
130 角度検出部
140 指向性決定部
150 音声データ生成部
300,320,340,341 指向性の範囲
310,330,350 指向性の方向
θ 中心角
θ1 指向性の方向と第1線分とがなす角度
θ2 第1方向と第2方向のなす角度
θ3 第1線分と進行方向の反対方向とがなす角度

Claims (9)

  1. 収音領域におけるユーザの音声を含む音声の信号を取得する音声取得部と、
    前記ユーザの顔が写りこんだ撮像画像を取得する画像取得部と、
    前記画像取得部が取得した前記撮像画像に基づいて、第1方向と前記ユーザの顔の向きを示す第2方向とがなす角度を検出する角度検出部と、
    前記音声取得部が取得した前記音声の信号に指向性を設定した音声データを生成する音声データ生成部と、
    前記角度検出部が検出した前記角度に応じて、前記指向性の範囲および前記指向性の方向を決定する指向性決定部と、を備えた、
    指向性制御装置。
  2. 前記指向性決定部は、前記角度が大きいほど前記指向性の範囲を広げる、
    請求項1に記載の指向性制御装置。
  3. 前記指向性制御装置は車両に搭載され、
    前記角度検出部は、前記第1方向を前記車両の進行方向とし、前記第2方向が、前記車両の窓のうち前記ユーザに最も近い窓の方向を示す第3方向と、前記第3方向と反対方向を示す第4方向とのいずれの方向により近いかを検出し、
    前記指向性決定部は、前記角度検出部が検出した前記角度が第1角度であり前記第2方向が前記第3方向により近い場合は、前記角度が前記第1角度であり前記第2方向が前記第4方向により近い場合より前記指向性の範囲を広げる、
    請求項1または2に記載の指向性制御装置。
  4. 前記音声取得部は、収音装置から前記音声の前記信号を取得し、
    前記指向性決定部は、前記第2方向が前記第3方向により近い場合に、前記収音装置と前記ユーザとを結ぶ第1線分および前記収音装置と前記最も近い窓とを結ぶ第2線分を含むように前記指向性の範囲を決定し、
    前記第1線分と前記第2線分とがなす角度と、前記第1線分と前記進行方向の反対方向とがなす角度との和は前記角度検出部が検出した前記角度と等しい、
    請求項3に記載の指向性制御装置。
  5. 前記指向性決定部が決定する前記指向性の方向は、当該指向性の方向と前記第1線分とがなす角度が前記角度検出部の検出した前記角度の半分となる方向である、
    請求項4に記載の指向性制御装置。
  6. 前記角度検出部は、所定時間内の前記角度の変動量をさらに検出し、
    前記指向性決定部は、前記変動量が所定の閾値より小さい場合は、前記指向性の範囲を第1の範囲とし、前記変動量が所定の閾値以上である場合は、前記指向性の範囲を前記第1の範囲より広い第2の範囲とする、
    請求項1から5のいずれか一項に記載の指向性制御装置。
  7. ユーザの顔が写りこんだ画像を撮像する撮像装置と、
    収音領域における前記ユーザの音声を含む音声を収音する収音装置と、
    指向性制御装置と、を備え、
    前記指向性制御装置は、
    前記収音装置から前記音声の信号を取得する音声取得部と、
    前記撮像装置から前記画像を取得する画像取得部と、
    前記画像取得部が取得した前記撮像画像に基づいて、第1方向と前記ユーザの顔の向きを示す第2方向とがなす角度を検出する角度検出部と、
    前記音声取得部が取得した前記音声の前記信号に指向性を設定した音声データを生成する音声データ生成部と、
    前記角度検出部が検出した前記角度に応じて前記指向性の範囲および前記指向性の方向を決定する指向性決定部と、を有する、
    収音システム。
  8. 収音領域におけるユーザの音声を含む音声の信号を取得し、
    前記ユーザの顔が写りこんだ撮像画像を取得し、
    取得した前記撮像画像に基づいて、第1方向と前記ユーザの顔の向きを示す第2方向とがなす角度を検出し、
    取得した前記音声の前記信号に指向性を設定した音声データを生成し、
    検出した前記角度に応じて前記指向性の範囲および前記指向性の方向を決定する、
    指向性制御方法。
  9. 収音領域におけるユーザの音声を含む音声の信号を取得する処理と、
    前記ユーザの顔が写りこんだ撮像画像を取得する処理と、
    取得した前記撮像画像に基づいて、第1方向と前記ユーザの顔の向きを示す第2方向とがなす角度を検出する処理と、
    取得した前記音声の前記信号に指向性を設定した音声データを生成する処理と、
    検出した前記角度に応じて前記指向性の範囲および前記指向性の方向を決定する処理と、を指向性制御装置のコンピュータに実行させる、
    指向性制御プログラム。
JP2017232994A 2017-12-05 2017-12-05 指向性制御装置と収音システムおよび指向性制御方法、指向性制御プログラム Pending JP2019103009A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017232994A JP2019103009A (ja) 2017-12-05 2017-12-05 指向性制御装置と収音システムおよび指向性制御方法、指向性制御プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017232994A JP2019103009A (ja) 2017-12-05 2017-12-05 指向性制御装置と収音システムおよび指向性制御方法、指向性制御プログラム

Publications (1)

Publication Number Publication Date
JP2019103009A true JP2019103009A (ja) 2019-06-24

Family

ID=66974312

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017232994A Pending JP2019103009A (ja) 2017-12-05 2017-12-05 指向性制御装置と収音システムおよび指向性制御方法、指向性制御プログラム

Country Status (1)

Country Link
JP (1) JP2019103009A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113284504A (zh) * 2020-02-20 2021-08-20 北京三星通信技术研究有限公司 姿态检测方法、装置、电子设备及计算机可读存储介质
CN115086095A (zh) * 2021-03-10 2022-09-20 Oppo广东移动通信有限公司 设备控制方法及相关装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113284504A (zh) * 2020-02-20 2021-08-20 北京三星通信技术研究有限公司 姿态检测方法、装置、电子设备及计算机可读存储介质
CN115086095A (zh) * 2021-03-10 2022-09-20 Oppo广东移动通信有限公司 设备控制方法及相关装置

Similar Documents

Publication Publication Date Title
CN108831474B (zh) 语音识别设备及其语音信号捕获方法、装置和存储介质
US9084038B2 (en) Method of controlling audio recording and electronic device
JP5456832B2 (ja) 入力された発話の関連性を判定するための装置および方法
US9532140B2 (en) Listen to people you recognize
JP4204541B2 (ja) 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム
EP2887697B1 (en) Method of audio signal processing and hearing aid system for implementing the same
US10694312B2 (en) Dynamic augmentation of real-world sounds into a virtual reality sound mix
US20150022636A1 (en) Method and system for voice capture using face detection in noisy environments
US20180270571A1 (en) Techniques for amplifying sound based on directions of interest
JP4797330B2 (ja) ロボット
KR20160069475A (ko) 지향성의 사운드 변형
US20130287224A1 (en) Noise suppression based on correlation of sound in a microphone array
JP6612310B2 (ja) 補聴器の動作方法
US20190364359A1 (en) Method, apparatus and computer-readable media to manage semi-constant (persistent) sound sources in microphone pickup/focus zones
CN111629301A (zh) 用于控制多个扬声器播放音频的方法、装置和电子设备
JP2006251266A (ja) 視聴覚連携認識方法および装置
JP6977448B2 (ja) 機器制御装置、機器制御プログラム、機器制御方法、対話装置、及びコミュニケーションシステム
JP2019103009A (ja) 指向性制御装置と収音システムおよび指向性制御方法、指向性制御プログラム
JP6872710B2 (ja) 指向性制御装置および指向性制御方法
JP6881267B2 (ja) 制御装置、変換装置、制御方法、変換方法、およびプログラム
JP6845121B2 (ja) ロボットおよびロボット制御方法
JP3739673B2 (ja) ズーム推定方法、装置、ズーム推定プログラム、および同プログラムを記録した記録媒体
JP4757786B2 (ja) 音源方向推定装置、音源方向推定方法、及びロボット装置
US10360922B2 (en) Noise reduction device and method for reducing noise
JP6174114B2 (ja) 音声入力装置およびその音声入力装置を備えた画像表示装置

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20190121