JP2019197964A - マイク制御装置 - Google Patents

マイク制御装置 Download PDF

Info

Publication number
JP2019197964A
JP2019197964A JP2018089829A JP2018089829A JP2019197964A JP 2019197964 A JP2019197964 A JP 2019197964A JP 2018089829 A JP2018089829 A JP 2018089829A JP 2018089829 A JP2018089829 A JP 2018089829A JP 2019197964 A JP2019197964 A JP 2019197964A
Authority
JP
Japan
Prior art keywords
microphone
sound
occupant
vehicle
mouth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018089829A
Other languages
English (en)
Inventor
亮太 尾首
Ryota Oshu
亮太 尾首
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2018089829A priority Critical patent/JP2019197964A/ja
Publication of JP2019197964A publication Critical patent/JP2019197964A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】処理負荷を抑え、音声認識精度を向上することができるマイク制御装置を提供する。【解決手段】マイク制御装置10において、音取得部は、車内に設けられたマイクから車内音を取得する。画像取得部は、車内を撮像した撮像画像を取得する。特定部は、音取得部により取得された車内音にもとづいてセッションを要求するトリガ語句の音源の方向を特定し、音源の方向の撮像画像を解析することでトリガ語句を発話した乗員が位置する方向を特定する。制御部は、特定部により特定された乗員の口元に向かって指向性を形成するようにマイクを制御する。【選択図】図1

Description

本発明は、車内音を検出するマイクを制御するマイク制御装置に関する。
特許文献1には、カメラにより撮影された撮像画像を取得し、その撮像画像の中から発話者と、その発話者の口元を検出し、口元が特定された方向にマイクロホンの指向性方向を制御する音声処理装置が開示されている。
特開2009−225379号公報
特許文献1に開示される技術では、撮像画像を解析して発話者を特定するが、常に撮像画像を解析して発話者を特定しようとすると処理負荷が高くなるおそれがある。
本発明の目的は、処理負荷を抑え、音声認識精度を向上することができるマイク制御装置を提供することにある。
上記課題を解決するために、本発明のある態様のマイク制御装置は、車内に設けられたマイクから車内音を取得する音取得部と、車内を撮像した撮像画像を取得する画像取得部と、音取得部により取得された車内音にもとづいてトリガ語句が発話された音源の方向を特定し、画像取得部により取得された撮像画像にもとづいて特定された音源の方向に位置する乗員の口元を特定する特定部と、特定部により特定された乗員の口元に向かって指向性を形成するようにマイクを制御する制御部と、を備える。
この態様によると、トリガ語句を発話した乗員の口元に向かってマイクの指向性を形成させることで、他の乗員の発話を含むノイズが入ることを抑え、音声認識精度を向上させることができる。トリガ語句の発話を契機として画像解析により乗員の口元の位置を特定することで、常に画像解析をして乗員の口元を特定する場合より、処理負荷を抑えることができる。
本発明によれば、処理負荷を抑え、音声認識精度を向上することができるマイク制御装置を提供できる。
実施例のマイクビームフォーミングシステムについて説明するための図である。 マイクビームフォーミングシステムの機能構成について説明するための図である。 マイクの指向方向を制御する例について説明するための図である。 マイクの指向方向を制御する別の例について説明するための図である。
図1は、実施例のマイクビームフォーミングシステムについて説明するための図である。マイクビームフォーミングシステムでは、車内に設けられたマイク12がマイク制御装置10によってマイク12の指向方向を乗員に向けるように制御される。マイク12は、例えば車両左右方向において中央に位置し、車両前後方向において運転席より前方側に位置する。
マイク制御装置10は、マイク12の第1指向方向34が第1乗員30に向かうように制御したり、マイク12の第2指向方向36が第2乗員32に向かうように制御することが可能である。このように各乗員のいずれかにマイク12の指向方向を向けることで、マイク12の指向方向を向けられた乗員の発話を精度良く検出でき、音声認識処理の精度を向上できる。
マイク12の指向方向は、マイク12の指向性の向きを定めるもので、マイク12の半値角38の中心を通る方向であってよい。
図2は、マイクビームフォーミングシステム1の機能構成について説明するための図である。マイクビームフォーミングシステム1は、マイク制御装置10、マイク12およびカメラ14を備える。マイク制御装置10は、音取得部20、音解析部22、画像取得部24、画像解析部26、特定部27および制御部28を備える。
マイク12は、車内音を検出するように設けられ、乗員の発話を含む音を電気信号に変換して、その信号を音取得部20に送る。マイク12は、制御部28の制御により指向性を可変にすることが可能である。例えばマイク12は、マイク12の向きをモータなどの駆動源で上下左右に動かされることにより指向方向を変えることができる。また、マイク12は、マイク12に供給される電圧を変えられることで、半値角38を変えられる。マイク12は、ステレオ方式のマイクであってよく、車内に複数設けられてもよい。
カメラ14は、車内を撮像して、撮像画像を画像取得部24に送る。カメラ14の撮像画像を解析することで、車両にいる乗員を特定できる。
マイク制御装置10の音取得部20は、マイク12から車内音を取得する。音解析部22は、取得された車内音を解析して、トリガ語句を検出する。
トリガ語句は、マイク制御装置10に含まれる対話用のアプリケーションプログラムに対してセッション開始を要求するための言葉である。マイク制御装置10は、乗員によるトリガ語句の発話を契機として対話モードとなり、対話式のセッションを開始してトリガ語句以外の発話を認識する処理を実行する。マイク制御装置10は、所定の終了条件を満たして対話モードを終了すると、消費電力が少ない低電力モードに切り替わる。
音解析部22は、予め登録されたトリガ語句のモデルデータを保持し、低電力モードにおいて乗員によるトリガ語句の発話を検出する。音解析部22は、トリガ語句が検出されたことを特定部27に送る。
特定部27は、音解析部22によりトリガ語句の発話が検出されると、トリガ語句を含む音信号を受け取り、音源を探索し、発話の音量が最も大きくなる位置を音源とし、音源が位置する方向を特定する。特定部27は、ステレオ方式のマイク12に検出された音信号の位相差、または複数のマイク12により検出された音信号の位相差にもとづいて音源の方向を算出してもよい。特定部27により算出されるトリガ語句の音源の方向を示す情報は、マイク12から音源への向きを示す情報である。特定部27は、算出した音源の方向を示す情報を画像解析部26および制御部28に送る。
画像取得部24は、カメラ14から撮像画像を取得する。画像取得部24は、トリガ語句が検出されてからセッション終了までの間だけ撮像画像を取得してよい。画像解析部26は、音解析部22によってトリガ語句の発話を検出したことを契機として、取得した撮像画像の解析を開始する。
画像解析部26は、特定部27により特定された音源の方向を示す情報を受け取り、音源の方向に位置する乗員をトリガ語句を発話した乗員であると特定し、特定した乗員の口元の位置を導出する。画像解析部26は、パターンマッチングの手法などにより乗員の口元を抽出可能である。画像解析部26は、特定された音源の方向を示す情報を受け取り、トリガ語句を発話した乗員を特定し、特定した乗員の口元の位置情報を導出する。画像解析部26は、話者の口元の中心位置を導出して、導出結果を特定部27に送る。画像解析部26は、特定された音源の方向を示す情報を用いて、撮像画像のうち音源方向の部分だけを解析することで、撮像画像の全てを解析するより解析処理の負荷を抑えることができる。
特定部27は、音取得部20により取得した音信号にもとづいてトリガ語句の音源の方向を特定し、撮像画像の解析結果をもとに発話している乗員の口元を特定する。このように撮像画像を解析することで、トリガ語句を発話した乗員の口元の位置まで特定できる。
制御部28は、特定部27による特定結果にもとづいてマイク12の指向性を形成するように制御する。制御部28は、特定部27により特定された音源の方向を示す情報を受け取り、特定された音源に向かって指向性を形成するようにマイク12を制御し、特定された音源にマイク12の指向方向を向けさせる。トリガ語句を発話した乗員は、対話によるセッションをマイク制御装置10に要求しており、トリガ語句を発話した後にマイク12に対して発話をする。そのため、トリガ語句を発話した乗員に向かってマイク12の指向性を形成させることで、他の乗員の発話を含むノイズが入ることを抑え、音声認識精度を向上することができる。また、トリガ語句を発話するまで低電力モードにすることで、電力消費を抑えることができる。
制御部28は、トリガ語句を発話した乗員の口元の位置に向かって指向性を形成するようにマイク12を制御する。つまり、制御部28は、画像解析部26により検出された乗員の口元の位置に、マイク12の指向方向を定めるように制御する。トリガ語句を発話した乗員の口元にマイク12の指向方向を定めることで、ノイズが入ることをいっそう抑え、音声認識精度を向上することができる。また、トリガ語句が検出されるまで乗員の口元を検出する解析処理をしないことで処理負荷を抑えることができる。
特定部27は、トリガ語句の発話が検出されたときに、そのトリガ語句の音信号にもとづき発話した乗員の位置を大まかに特定し、制御部28は、特定された音源に向かってマイク12の指向方向を定める。次に、トリガ語句を検出した後、特定部27は、画像解析部26による撮像画像の解析結果を用いて乗員の口元の位置を特定し、制御部28は、特定された乗員の口元の位置にマイク12の指向方向を定める。これにより、マイク12の指向方向を乗員の口元に段階的に近づけることができる。また、マイク12の指向方向をトリガ語句を発話した乗員の位置に大まかに定めることで、撮像画像の解析結果を得る前にマイク12の指向方向を乗員の位置に合わせることができる。
制御部28は、画像解析部26による撮像画像の解析結果を用いて、特定された乗員の口元の位置にマイク12の指向方向を追従させてよい。このように、マイク12の指向方向を乗員の口元の位置に動的に追従させることで、乗員が車内で動いても音声認識精度の低下を抑えることができる。
制御部28は、トリガ語句の音信号の解析結果にもとづいてトリガ語句を発話した乗員の位置に向かってマイク12の指向方向を定めるとともにマイク12の半値角が狭くなるように制御する。次に、制御部28は、画像解析部26による撮像画像の解析結果にもとづいて乗員の口元の位置にマイク12の指向方向を定めるとともに、マイク12の半値角がさらに狭くなるように制御する。これにより、マイク12の指向性を段階的に狭くしてノイズが入ることを抑えることができる。
図3は、マイク12の指向方向を制御する例について説明するための図である。特定部27は、トリガ語句の発話を検出されたときに、音信号の解析結果にもとづき発話した乗員40の位置を大まかに特定し、制御部28は、特定された音源に向かってマイク12の指向方向42を定める。次に、トリガ語句を検出した後、特定部27は、画像解析部26による撮像画像の解析結果にもとづいて乗員40の口元40aの位置を特定し、制御部28は、乗員40の口元40aの位置にマイク12の指向方向44を定める。
第1段階の制御でのマイク12の指向方向42は、乗員40の口元40aからずれているが、第2段階の制御でのマイク12の指向方向44は、指向方向42より乗員40の口元40aに近づいている。マイク12の半値角43が第1段階と第2段階の制御で同じであるが、初期段階の半値角41、つまり低電力モードで音解析部22がトリガ語句を検出する前の半値角41より狭くなるようにマイク12が制御される。この実施例によれば、マイク12の指向方向を乗員の口元に段階的に近づけることができる。
図4は、マイク12の指向方向を制御する別の例について説明するための図である。制御部28は、トリガ語句の音源に向かってマイク12の指向方向を定めるとともに、マイク12の半値角46が初期状態の半値角45より狭くなるように制御する第1段階の制御を実行する。次に、制御部28は、画像解析部26による撮像画像の解析結果にもとづいて乗員40の口元40aの位置にマイク12の指向方向を定めるとともに、マイク12の半値角48が第1段階の制御の半値角46より狭くなる第2段階の制御を実行する。
このように、制御部28がマイク12の指向方向および半値角を変えることで、マイク12の指向性を段階的に狭くしてノイズが入ることを抑えることができる。
なお実施例はあくまでも例示であり、各構成要素の組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
実施例では1つのマイクを用いる態様を示したが、この態様に限られず、複数のマイクを用いてもよい。例えば、図1に示す第1のマイク12に加えて、車両左右方向において中央の位置にあり、車両前後方向において運転席と後部座席の間に位置する第2のマイクが設けられてよい。第1のマイク12と第2のマイクは車両前後方向にずれて位置する。後部座席の乗員によるトリガ語句の発話が検出されると、制御部28は第1のマイク12をオフし、第2のマイクの指向方向を制御する。また、運転席または助手席の乗員によるトリガ語句の発話が検出されると、制御部28は、第2のマイクをオフし、第1のマイク12の指向方向を制御する。このように、制御部28が、複数のマイクのうち、トリガ語句を発話した乗員の位置から遠くに位置するマイクをオフにし、発話した乗員の近くにあるマイクを制御することで、ノイズが入ることを抑えることができる。
1 マイクビームフォーミングシステム、 10 マイク制御装置、 12 マイク、 14 カメラ、 20 音取得部、 22 音解析部、 24 画像取得部、 26 画像解析部、 27 特定部、 28 制御部、 30 第1乗員、 32 第2乗員、 34 第1指向方向、 36 第2指向方向、 38 半値角、 40 乗員。

Claims (1)

  1. 車内に設けられたマイクから車内音を取得する音取得部と、
    車内を撮像した撮像画像を取得する画像取得部と、
    前記音取得部により取得された車内音にもとづいてトリガ語句が発話された音源の方向を特定し、前記画像取得部により取得された撮像画像にもとづいて特定された音源の方向に位置する乗員の口元を特定する特定部と、
    前記特定部により特定された乗員の口元に向かって指向性を形成するように前記マイクを制御する制御部と、を備えることを特徴とするマイク制御装置。
JP2018089829A 2018-05-08 2018-05-08 マイク制御装置 Pending JP2019197964A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018089829A JP2019197964A (ja) 2018-05-08 2018-05-08 マイク制御装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018089829A JP2019197964A (ja) 2018-05-08 2018-05-08 マイク制御装置

Publications (1)

Publication Number Publication Date
JP2019197964A true JP2019197964A (ja) 2019-11-14

Family

ID=68537645

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018089829A Pending JP2019197964A (ja) 2018-05-08 2018-05-08 マイク制御装置

Country Status (1)

Country Link
JP (1) JP2019197964A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102339578B1 (ko) * 2020-06-12 2021-12-16 주식회사 자동기 음성 인식을 통한 제설 차량에 구비된 제설 장치의 구동 장치 및 이의 구동 방법
CN115520201A (zh) * 2022-10-26 2022-12-27 深圳曦华科技有限公司 车辆主驾驶位功能动态响应方法及相关装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102339578B1 (ko) * 2020-06-12 2021-12-16 주식회사 자동기 음성 인식을 통한 제설 차량에 구비된 제설 장치의 구동 장치 및 이의 구동 방법
CN115520201A (zh) * 2022-10-26 2022-12-27 深圳曦华科技有限公司 车辆主驾驶位功能动态响应方法及相关装置

Similar Documents

Publication Publication Date Title
JP5709980B2 (ja) 音声認識装置およびナビゲーション装置
US9881616B2 (en) Method and systems having improved speech recognition
JP2018049143A (ja) 音声取得システムおよび音声取得方法
US20160039356A1 (en) Establishing microphone zones in a vehicle
WO2017081960A1 (ja) 音声認識制御システム
CN110166896B (zh) 语音提供方法、语音提供系统和服务器
JP2004109361A (ja) 指向性設定装置、指向性設定方法及び指向性設定プログラム
CN112397065A (zh) 语音交互方法、装置、计算机可读存储介质及电子设备
JP2022028772A (ja) オーディオデータおよび画像データに基づいて人の発声を解析する車載装置および発声処理方法、ならびにプログラム
JP2007248534A (ja) 音声認識装置、周波数スペクトル取得装置および音声認識方法
JP2019197964A (ja) マイク制御装置
JP2017090614A (ja) 音声認識制御システム
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2007045217A (ja) 車両用電動ミラーの制御システム
JP4410378B2 (ja) 音声認識方法および装置
JP2008250236A (ja) 音声認識装置および音声認識方法
CN113593572A (zh) 在空间区域内进行音区定位方法和装置、设备和介质
JP6606921B2 (ja) 発声方向特定装置
JP2004301875A (ja) 音声認識装置
JP6332072B2 (ja) 対話装置
JP7172120B2 (ja) 音声認識装置及び音声認識方法
WO2018029071A1 (en) Audio signature for speech command spotting
JP6451606B2 (ja) 車両用音声認識装置
KR101710695B1 (ko) 차량용 음성 인식을 위한 마이크로폰 제어 시스템 및 그 제어 방법
KR20170015759A (ko) 듀얼 마이크를 이용한 위상오류필터 기반의 음원 방향 검출 시스템 및 그 방법