JP2019197964A

JP2019197964A - マイク制御装置

Info

Publication number: JP2019197964A
Application number: JP2018089829A
Authority: JP
Inventors: 亮太尾首; Ryota Oshu
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2019-11-14

Abstract

【課題】処理負荷を抑え、音声認識精度を向上することができるマイク制御装置を提供する。【解決手段】マイク制御装置１０において、音取得部は、車内に設けられたマイクから車内音を取得する。画像取得部は、車内を撮像した撮像画像を取得する。特定部は、音取得部により取得された車内音にもとづいてセッションを要求するトリガ語句の音源の方向を特定し、音源の方向の撮像画像を解析することでトリガ語句を発話した乗員が位置する方向を特定する。制御部は、特定部により特定された乗員の口元に向かって指向性を形成するようにマイクを制御する。【選択図】図１

Description

本発明は、車内音を検出するマイクを制御するマイク制御装置に関する。

特許文献１には、カメラにより撮影された撮像画像を取得し、その撮像画像の中から発話者と、その発話者の口元を検出し、口元が特定された方向にマイクロホンの指向性方向を制御する音声処理装置が開示されている。

特開２００９−２２５３７９号公報

特許文献１に開示される技術では、撮像画像を解析して発話者を特定するが、常に撮像画像を解析して発話者を特定しようとすると処理負荷が高くなるおそれがある。

本発明の目的は、処理負荷を抑え、音声認識精度を向上することができるマイク制御装置を提供することにある。

上記課題を解決するために、本発明のある態様のマイク制御装置は、車内に設けられたマイクから車内音を取得する音取得部と、車内を撮像した撮像画像を取得する画像取得部と、音取得部により取得された車内音にもとづいてトリガ語句が発話された音源の方向を特定し、画像取得部により取得された撮像画像にもとづいて特定された音源の方向に位置する乗員の口元を特定する特定部と、特定部により特定された乗員の口元に向かって指向性を形成するようにマイクを制御する制御部と、を備える。

この態様によると、トリガ語句を発話した乗員の口元に向かってマイクの指向性を形成させることで、他の乗員の発話を含むノイズが入ることを抑え、音声認識精度を向上させることができる。トリガ語句の発話を契機として画像解析により乗員の口元の位置を特定することで、常に画像解析をして乗員の口元を特定する場合より、処理負荷を抑えることができる。

本発明によれば、処理負荷を抑え、音声認識精度を向上することができるマイク制御装置を提供できる。

実施例のマイクビームフォーミングシステムについて説明するための図である。マイクビームフォーミングシステムの機能構成について説明するための図である。マイクの指向方向を制御する例について説明するための図である。マイクの指向方向を制御する別の例について説明するための図である。

図１は、実施例のマイクビームフォーミングシステムについて説明するための図である。マイクビームフォーミングシステムでは、車内に設けられたマイク１２がマイク制御装置１０によってマイク１２の指向方向を乗員に向けるように制御される。マイク１２は、例えば車両左右方向において中央に位置し、車両前後方向において運転席より前方側に位置する。

マイク制御装置１０は、マイク１２の第１指向方向３４が第１乗員３０に向かうように制御したり、マイク１２の第２指向方向３６が第２乗員３２に向かうように制御することが可能である。このように各乗員のいずれかにマイク１２の指向方向を向けることで、マイク１２の指向方向を向けられた乗員の発話を精度良く検出でき、音声認識処理の精度を向上できる。

マイク１２の指向方向は、マイク１２の指向性の向きを定めるもので、マイク１２の半値角３８の中心を通る方向であってよい。

図２は、マイクビームフォーミングシステム１の機能構成について説明するための図である。マイクビームフォーミングシステム１は、マイク制御装置１０、マイク１２およびカメラ１４を備える。マイク制御装置１０は、音取得部２０、音解析部２２、画像取得部２４、画像解析部２６、特定部２７および制御部２８を備える。

マイク１２は、車内音を検出するように設けられ、乗員の発話を含む音を電気信号に変換して、その信号を音取得部２０に送る。マイク１２は、制御部２８の制御により指向性を可変にすることが可能である。例えばマイク１２は、マイク１２の向きをモータなどの駆動源で上下左右に動かされることにより指向方向を変えることができる。また、マイク１２は、マイク１２に供給される電圧を変えられることで、半値角３８を変えられる。マイク１２は、ステレオ方式のマイクであってよく、車内に複数設けられてもよい。

カメラ１４は、車内を撮像して、撮像画像を画像取得部２４に送る。カメラ１４の撮像画像を解析することで、車両にいる乗員を特定できる。

マイク制御装置１０の音取得部２０は、マイク１２から車内音を取得する。音解析部２２は、取得された車内音を解析して、トリガ語句を検出する。

トリガ語句は、マイク制御装置１０に含まれる対話用のアプリケーションプログラムに対してセッション開始を要求するための言葉である。マイク制御装置１０は、乗員によるトリガ語句の発話を契機として対話モードとなり、対話式のセッションを開始してトリガ語句以外の発話を認識する処理を実行する。マイク制御装置１０は、所定の終了条件を満たして対話モードを終了すると、消費電力が少ない低電力モードに切り替わる。

音解析部２２は、予め登録されたトリガ語句のモデルデータを保持し、低電力モードにおいて乗員によるトリガ語句の発話を検出する。音解析部２２は、トリガ語句が検出されたことを特定部２７に送る。

特定部２７は、音解析部２２によりトリガ語句の発話が検出されると、トリガ語句を含む音信号を受け取り、音源を探索し、発話の音量が最も大きくなる位置を音源とし、音源が位置する方向を特定する。特定部２７は、ステレオ方式のマイク１２に検出された音信号の位相差、または複数のマイク１２により検出された音信号の位相差にもとづいて音源の方向を算出してもよい。特定部２７により算出されるトリガ語句の音源の方向を示す情報は、マイク１２から音源への向きを示す情報である。特定部２７は、算出した音源の方向を示す情報を画像解析部２６および制御部２８に送る。

画像取得部２４は、カメラ１４から撮像画像を取得する。画像取得部２４は、トリガ語句が検出されてからセッション終了までの間だけ撮像画像を取得してよい。画像解析部２６は、音解析部２２によってトリガ語句の発話を検出したことを契機として、取得した撮像画像の解析を開始する。

画像解析部２６は、特定部２７により特定された音源の方向を示す情報を受け取り、音源の方向に位置する乗員をトリガ語句を発話した乗員であると特定し、特定した乗員の口元の位置を導出する。画像解析部２６は、パターンマッチングの手法などにより乗員の口元を抽出可能である。画像解析部２６は、特定された音源の方向を示す情報を受け取り、トリガ語句を発話した乗員を特定し、特定した乗員の口元の位置情報を導出する。画像解析部２６は、話者の口元の中心位置を導出して、導出結果を特定部２７に送る。画像解析部２６は、特定された音源の方向を示す情報を用いて、撮像画像のうち音源方向の部分だけを解析することで、撮像画像の全てを解析するより解析処理の負荷を抑えることができる。

特定部２７は、音取得部２０により取得した音信号にもとづいてトリガ語句の音源の方向を特定し、撮像画像の解析結果をもとに発話している乗員の口元を特定する。このように撮像画像を解析することで、トリガ語句を発話した乗員の口元の位置まで特定できる。

制御部２８は、特定部２７による特定結果にもとづいてマイク１２の指向性を形成するように制御する。制御部２８は、特定部２７により特定された音源の方向を示す情報を受け取り、特定された音源に向かって指向性を形成するようにマイク１２を制御し、特定された音源にマイク１２の指向方向を向けさせる。トリガ語句を発話した乗員は、対話によるセッションをマイク制御装置１０に要求しており、トリガ語句を発話した後にマイク１２に対して発話をする。そのため、トリガ語句を発話した乗員に向かってマイク１２の指向性を形成させることで、他の乗員の発話を含むノイズが入ることを抑え、音声認識精度を向上することができる。また、トリガ語句を発話するまで低電力モードにすることで、電力消費を抑えることができる。

制御部２８は、トリガ語句を発話した乗員の口元の位置に向かって指向性を形成するようにマイク１２を制御する。つまり、制御部２８は、画像解析部２６により検出された乗員の口元の位置に、マイク１２の指向方向を定めるように制御する。トリガ語句を発話した乗員の口元にマイク１２の指向方向を定めることで、ノイズが入ることをいっそう抑え、音声認識精度を向上することができる。また、トリガ語句が検出されるまで乗員の口元を検出する解析処理をしないことで処理負荷を抑えることができる。

特定部２７は、トリガ語句の発話が検出されたときに、そのトリガ語句の音信号にもとづき発話した乗員の位置を大まかに特定し、制御部２８は、特定された音源に向かってマイク１２の指向方向を定める。次に、トリガ語句を検出した後、特定部２７は、画像解析部２６による撮像画像の解析結果を用いて乗員の口元の位置を特定し、制御部２８は、特定された乗員の口元の位置にマイク１２の指向方向を定める。これにより、マイク１２の指向方向を乗員の口元に段階的に近づけることができる。また、マイク１２の指向方向をトリガ語句を発話した乗員の位置に大まかに定めることで、撮像画像の解析結果を得る前にマイク１２の指向方向を乗員の位置に合わせることができる。

制御部２８は、画像解析部２６による撮像画像の解析結果を用いて、特定された乗員の口元の位置にマイク１２の指向方向を追従させてよい。このように、マイク１２の指向方向を乗員の口元の位置に動的に追従させることで、乗員が車内で動いても音声認識精度の低下を抑えることができる。

制御部２８は、トリガ語句の音信号の解析結果にもとづいてトリガ語句を発話した乗員の位置に向かってマイク１２の指向方向を定めるとともにマイク１２の半値角が狭くなるように制御する。次に、制御部２８は、画像解析部２６による撮像画像の解析結果にもとづいて乗員の口元の位置にマイク１２の指向方向を定めるとともに、マイク１２の半値角がさらに狭くなるように制御する。これにより、マイク１２の指向性を段階的に狭くしてノイズが入ることを抑えることができる。

図３は、マイク１２の指向方向を制御する例について説明するための図である。特定部２７は、トリガ語句の発話を検出されたときに、音信号の解析結果にもとづき発話した乗員４０の位置を大まかに特定し、制御部２８は、特定された音源に向かってマイク１２の指向方向４２を定める。次に、トリガ語句を検出した後、特定部２７は、画像解析部２６による撮像画像の解析結果にもとづいて乗員４０の口元４０ａの位置を特定し、制御部２８は、乗員４０の口元４０ａの位置にマイク１２の指向方向４４を定める。

第１段階の制御でのマイク１２の指向方向４２は、乗員４０の口元４０ａからずれているが、第２段階の制御でのマイク１２の指向方向４４は、指向方向４２より乗員４０の口元４０ａに近づいている。マイク１２の半値角４３が第１段階と第２段階の制御で同じであるが、初期段階の半値角４１、つまり低電力モードで音解析部２２がトリガ語句を検出する前の半値角４１より狭くなるようにマイク１２が制御される。この実施例によれば、マイク１２の指向方向を乗員の口元に段階的に近づけることができる。

図４は、マイク１２の指向方向を制御する別の例について説明するための図である。制御部２８は、トリガ語句の音源に向かってマイク１２の指向方向を定めるとともに、マイク１２の半値角４６が初期状態の半値角４５より狭くなるように制御する第１段階の制御を実行する。次に、制御部２８は、画像解析部２６による撮像画像の解析結果にもとづいて乗員４０の口元４０ａの位置にマイク１２の指向方向を定めるとともに、マイク１２の半値角４８が第１段階の制御の半値角４６より狭くなる第２段階の制御を実行する。

このように、制御部２８がマイク１２の指向方向および半値角を変えることで、マイク１２の指向性を段階的に狭くしてノイズが入ることを抑えることができる。

なお実施例はあくまでも例示であり、各構成要素の組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

実施例では１つのマイクを用いる態様を示したが、この態様に限られず、複数のマイクを用いてもよい。例えば、図１に示す第１のマイク１２に加えて、車両左右方向において中央の位置にあり、車両前後方向において運転席と後部座席の間に位置する第２のマイクが設けられてよい。第１のマイク１２と第２のマイクは車両前後方向にずれて位置する。後部座席の乗員によるトリガ語句の発話が検出されると、制御部２８は第１のマイク１２をオフし、第２のマイクの指向方向を制御する。また、運転席または助手席の乗員によるトリガ語句の発話が検出されると、制御部２８は、第２のマイクをオフし、第１のマイク１２の指向方向を制御する。このように、制御部２８が、複数のマイクのうち、トリガ語句を発話した乗員の位置から遠くに位置するマイクをオフにし、発話した乗員の近くにあるマイクを制御することで、ノイズが入ることを抑えることができる。

１マイクビームフォーミングシステム、１０マイク制御装置、１２マイク、１４カメラ、２０音取得部、２２音解析部、２４画像取得部、２６画像解析部、２７特定部、２８制御部、３０第１乗員、３２第２乗員、３４第１指向方向、３６第２指向方向、３８半値角、４０乗員。

Claims

車内に設けられたマイクから車内音を取得する音取得部と、
車内を撮像した撮像画像を取得する画像取得部と、
前記音取得部により取得された車内音にもとづいてトリガ語句が発話された音源の方向を特定し、前記画像取得部により取得された撮像画像にもとづいて特定された音源の方向に位置する乗員の口元を特定する特定部と、
前記特定部により特定された乗員の口元に向かって指向性を形成するように前記マイクを制御する制御部と、を備えることを特徴とするマイク制御装置。