JP2017083600A

JP2017083600A - 車載収音装置及び収音方法

Info

Publication number: JP2017083600A
Application number: JP2015210555A
Authority: JP
Inventors: 古川　博基; Hiromoto Furukawa; 博基古川; 丈郎金森; Takeo Kanamori; 慎一杠; Shinichi Yuzuriha
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2015-10-27
Filing date: 2015-10-27
Publication date: 2017-05-18
Also published as: CN106611602A; EP3163573A1; US20170116983A1; US9953641B2

Abstract

【課題】車室内で複数の話者が同時に発話した場合であっても、収音したい特定話者の音声に他の話者の音声が混入することを防止する。
【解決手段】車室内の第１の搭乗者が着座する第１の座席位置付近に設置される第１のマイクロホンと、車室内において第２の搭乗者が着座する第２の座席位置付近に設置される第２のマイクロホンと、第２のマイクロホンによって取得した第２の信号に基づいて、前記第１のマイクロホンに混入する、前記第２の搭乗者が発する音声である混入音を推定する混入音推定部と、前記第１のマイクロホンによって取得した第１の信号から、前記混入音を除去するノイズ除去部とを備える。
【選択図】図１

Description

本開示は、車室内における収音装置及び収音方法に関するものである。

特許文献１は、マイクロホンアレイの指向特性を連続的に変化させながら話者方向を検出し、マイクロホンアレイが取得した音声データを信号処理によって話者方向毎に分離し、分離した音声データ毎に音声認識を行うことを開示する（段落［００２７］、［００２８］）。これにより、特許文献１は、図１０に示すように、運転席や助手席等にそれぞれ話者１０１０，１０２０が搭乗している場合に、マイクロホンアレイ１０００の指向特性範囲１１１０，１１２０，１１３０を容易に変化させながら音声データを取得し、これに基づいてそれぞれの話者１０１０，１０２０，１０３０毎に容易に音声認識を行うことができる（段落［００４４］、図８）。

特開２００３−１１４６９９号公報

しかし、特許文献１に示す従来技術は更なる改善の余地がある。

本開示は、車室内で複数の話者が同時に発話した場合であっても、収音したい特定話者の音声に、他の話者の音声が混入することを防止する車載収音装置等を提供するものである。

本開示の一態様は、車室内において第１の搭乗者が着座する第１の座席位置付近に設置される第１のマイクロホンと、
前記車室内において第２の搭乗者が着座する第２の座席位置付近に設置される第２のマイクロホンと、
前記第２のマイクロホンが取得した第２の信号に基づいて、前記第１のマイクロホンに混入する、前記第２の搭乗者が発する音声である混入音を推定する、混入音推定部と、
前記第１のマイクロホンが取得した第１の信号から、前記混入音を除去する、ノイズ除去部と、を備える。

本発明によれば、車室内で複数の搭乗者が同時に発話した場合であっても、収音したい特定話者の音声のみを抽出でき、特定話者の音声認識率を向上させることができる。

図１は、本開示の実施の形態１における車載収音装置が適用された収音システムの全体構成の一例を示す図である。本開示の実施の形態１における車載収音装置の処理の一例を示すフローチャートである。本開示の実施の形態２における車載収音装置が適用された収音システムの全体構成の一例を示す図である。本開示の実施の形態２における車載収音装置の変形例を示す図である。本開示の実施の形態３における車載収音装置が適用された車載システムの全体構成の一例を示す図である。本開示の実施の形態３の車載収音装置の処理の一例を示すフローチャートである。本開示の実施の形態４の車載収音装置が適用された収音システムの全体構成の一例を示す図である。発話判定部が発話区間を検出する処理を説明する図である。本開示の実施の形態４の車載収音装置の処理の一例を示すフローチャートである。従来技術を説明する図である。

（本開示の一態様に至る経緯）
車室内において、搭乗者が発話した音声を音声入力デバイスで収音し、収音した音声から制御コマンドを認識し、機器を制御する技術が実用化されている。音声入力デバイスとしては、一般的にマイクロホンが用いられている。この場合、マイクロホンは、オーバーヘッドコンソールと呼ばれる運転者と助手席との中間に位置する天井部分に取り付けられる。そのため、搭乗者は、ハンズフリーで音声を入力できる。オーバーヘッドコンソールにマイクロホンを設置した場合、マイクロホンは話者の口元から数１０ｃｍ離れて位置することになる。そのため、マイクロホンには、話者の音声のみならず車室内のノイズが混入する可能性が高くなる。これにより、マイクロホンが収音する音声の音質が劣化し、音声認識率が低下するという課題がある。

この課題を解決するために、マイクロホンとして、指向性マイクロホンを用いることが考えられる。

しかし、指向性マイクロホンの収音範囲はある程度の指向角を有し、また、サイドローブと呼ばれる指向性方向以外の方向にも感度を有している。そのため、指向性マイクロホンは、狙った話者の音声のみを収音できる訳ではない。更に、車室内は、狭い空間であり、フロント、サイド、及びリアに音を反射しやすいガラス製の窓が多く配置されている。更に、フロントやサイドの窓は、搭乗者近傍にある。そのため、話者以外の搭乗者の音声が窓ガラスで反射され、指向性マイクロホンには様々な方向から音声が到達する。その結果、複数の話者が同時に発話した場合、収音したい特定話者の方向に指向性マイクロホンの指向性を向けたとしても、指向性マイクロホンは、特定話者以外の音声も収音してしまう。したがって、単一話者での音声認識を前提としている現状の音声認識装置において、従来の構成は特定話者の音声認識率を低下させるという課題があった。

また、上記の特許文献１は、マイクロホンアレイの指向性の方向を変更しながら、話者の方向を特定する。

しかし、上記のように、車室内では様々な方向に話者の音声が飛び交っており、マイクロホンアレイには様々な方向から音声が入力される。そのため、特許文献１では、車室内に実在する話者以外の方向にも話者が存在すると判定される可能性である。したがって、特許文献１は、車室内の特定話者の音声を正確に抽出することができない。

本開示は、これらの課題を解決するものであり、車室内の特定の話者の音声を正確に抽出することができる車載収音装置等を提供することである。

本開示の一態様による車載収音装置は、車室内において第１の搭乗者が着座する第１の座席位置付近に設置される第１のマイクロホンと、
前記車室内において第２の搭乗者が着座する第２の座席位置付近に設置される第２のマイクロホンと、
前記第２のマイクロホンが取得した第２の信号に基づいて、前記第１のマイクロホンに混入する、前記第２の搭乗者が発する音声である混入音を推定する、混入音推定部と、
前記第１のマイクロホンが取得した第１の信号から、前記混入音を除去する、ノイズ除去部と、を備える。

この構成によれば、第２のマイクロホンが取得した第２の信号に基づいて、第１のマイクロホンに混入する、第２の搭乗者が発する音声である混入音が推定される。そして、第１のマイクロホンが取得した第１の信号から、混入音が除去される。

そのため、車室内で複数の搭乗者が同時に発話した場合であっても、収音したい特定話者の音声のみを抽出でき、特定話者の音声認識率を向上させることができる。また、ハンズフリー通話においても、他の搭乗者の発話による妨害を除去して、高い音声認識率を得ることができる。

上記態様において、前記第１の座席位置付近に配置される第１のスイッチと、
前記第２の座席位置付近に配置される第２のスイッチと、
を備え、
（１）前記第１のスイッチが押された場合、
前記混入音推定部は、前記第２の信号に基づいて、前記第１のマイクロホンに混入する前記第２の搭乗者が発する音声である第１の混入音を推定し、
前記ノイズ除去部は、前記第１の信号から、前記第１の混入音を除去し、
（２）前記第２のスイッチが押された場合、
前記混入音推定部は、前記第１の信号に基づいて、前記第２のマイクロホンに混入する前記第１の搭乗者が発する音声である第２の混入音を推定し、
前記ノイズ除去部は、前記第２の信号から、前記第２の混入音を除去してもよい。

この構成によれば、第１及び第２のスイッチが設けられているので、第１の搭乗者と第２の搭乗者とのいずれが特定話者であるかを正確に決定できる。

上記態様において、前記第１及び第２の信号に発話区間が含まれているか否かを判定する発話判定部を更に備え、
（１）前記発話判定部が前記第１の信号に発話区間が含まれると判定した場合、
前記混入音推定部は、前記第２の信号に基づいて、前記第１のマイクロホンに混入する前記第２の搭乗者が発する音声である第１の混入音を推定し、
前記ノイズ除去部は、前記第１の信号から、前記第１の混入音を除去し、
（２）前記発話判定部が前記第２の信号に発話区間が含まれると判定した場合、
前記混入音推定部は、前記第１の信号に基づいて、前記第２のマイクロホンに混入する前記第１の搭乗者が発する音声である第２の混入音を推定し、
前記ノイズ除去部は、前記第２の信号から、前記第２の混入音を除去してもよい。

この構成によれば、第１の信号に発話区間が含まれている場合には、第１の搭乗者の音声が抽出され、第２の信号に発話区間が含まれている場合には、第２の搭乗者の音声が抽出される。そのため、第１及び第２の搭乗者のいずれが特定話者であるのかを自動的に決定することができる。

上記態様において、前記第１の信号及び前記第２の信号には、優先度が予め設定されており、
（３）前記発話判定部が前記第１及び第２の信号のいずれにも発話区間が含まれていると判定した場合、前記第１の信号の優先度が前記第２の信号よりも高ければ、
前記混入音推定部は、前記第１の混入音を推定し、
前記ノイズ除去部は、前記第１の信号から、前記第１の混入音を除去し、
（４）前記発話判定部が前記第１及び第２の信号のいずれにも発話区間が含まれていると判定した場合、前記第２の信号の優先度が前記第１の信号よりも高ければ、
前記混入音推定部は、前記第２の混入音を推定し、
前記ノイズ除去部は、前記第２の信号から、前記第２の混入音を除去してもよい。

この構成によれば、第１及び第２の信号のいずれにも発話区間が含まれている場合、第１の信号の優先度が第２の信号よりも高ければ、第１の搭乗者の音声が抽出され、第２の信号の優先度が第１の信号よりも高ければ、第２の搭乗者の音声が抽出される。そのため、第１及び第２の搭乗者が同時に発話した場合にどちらが特定話者であるかを決定できなくなることを防止できる。

上記態様において、前記第１及び第２のマイクロホンは、単一指向性マイクロホンであってもよい。

この構成によれば、単一指向性マイクロホンを用いた場合において、特定話者の音声を正確に抽出できる。

上記態様において、前記第１及び第２のマイクロホンは、複数のマイクロホンユニットから構成されるアレイマイクロホンであってもよい。

この構成によれば、アレイマイクロホンを用いた場合において、特定話者の音声を正確に抽出できる。

上記態様において、前記混入音推定部は、前記ノイズ除去部からの出力信号が入力信号と無相関もしくは独立となるようにフィルタ係数が補正された適応フィルタを用いて前記混入音を推定してもよい。

この構成によれば、適応フィルタを用いて混入音が推定されているので、混入音を正確に求めることができる。また、適応フィルタが用いられているので、使用するにつれて混入音の推定の正確性を増大させることができる。

上記態様において、前記発話判定部は、前記第１及び第２の信号のそれぞれについて、包絡線を算出し、前記算出した包絡線の最低レベルを検知し、前記検知した最低レベルに基づいて閾値を設定し、前記第１及び第２の信号のレベルが前記設定した閾値より大きい区間を前記発話区間と判定してもよい。

この構成によれば、包絡線の最低レベルから閾値が設定されているので、閾値を固定させた場合に比べて、シーンに応じた適切な閾値を設定できる。

（実施の形態１）
図１は、本開示の実施の形態１における車載収音装置１００が適用された収音システムの全体構成の一例を示す図である。収音システムは、車載収音装置１００、及び後処理装置２００を備える。

車載収音装置１００は、マイクロホン１１，１２、混入音推定部２、及びノイズ除去部３を備える。マイクロホン１１（第１のマイクロホンの一例）は、車室５０内において搭乗者Ｐ１（第１の搭乗者の一例）が着座する座席５１（第１の座席の一例）の位置付近に設置され、主に搭乗者Ｐ１の音声を収音するためのマイクロホンである。マイクロホン１２（第２のマイクロホンの一例）は、車室５０内において搭乗者Ｐ２（第２の搭乗者の一例）が着座する座席５２（第２の座席の一例）の位置付近に設置され、主に搭乗者Ｐ２の音声を収音するためのマイクロホンである。

図１の例では、マイクロホン１１は、搭乗者Ｐ１の上側且つ車室５０の天井部に配置され、マイクロホン１２は、搭乗者Ｐ２の上側且つ車室５０の天井部に配置されている。具体的には、マイクロホン１１は天井部に設けられた搭乗者Ｐ１のサンバイザーに取り付けられ、マイクロホン１２は天井部に設けられた搭乗者Ｐ２のサンバイザーに取り付けられればよい。或いは、マイクロホン１１は、搭乗者Ｐ１の前方のダッシュボードに設けられ、マイクロホン１２は、搭乗者Ｐ２の前方のダッシュボードに設けられてもよい。或いは、マイクロホン１１，１２は、それぞれ、座席５１及び座席５２間に設けられたセンターコンソールに設けられてもよいし、センターコンソールの上側の天井部に設けられたオーバーヘッドコンソールに設けられてもよい。いずれにせよ、マイクロホン１１，１２は、それぞれ、搭乗者Ｐ１，Ｐ２の音声を収音することが可能な車室５０内の位置であればどのような位置に配置されてもよい。

マイクロホン１１，１２としては、単一指向性マイクロホン或いはアレイマイクロホンが採用される。単一指向性マイクロホンが採用される場合、マイクロホン１１，１２は、例えば、指向性がそれぞれ搭乗者Ｐ１，Ｐ２の頭部に向かうように配置される。アレイマイクロホンは、複数のマイクロホンユニットが近接して配列されたでアレイ状に配列されたマイクロホンであり、信号処理により指向性を任意の方向に向けることが可能なマイクロホンである。アレイマイクロホンが採用される場合、マイクロホン１１，１２は、事前に搭乗者Ｐ１，Ｐ２のそれぞれの方向を検知し、検知した方向に向かうように指向性の方向が決定されればよい。この処理は、例えば、図略のプロセッサやＣＰＵにより実行されればよい。

混入音推定部２は、マイクロホン１２が取得した信号Ｓ２（第２の信号の一例）に基づいて、マイクロホン１１に混入する、搭乗者Ｐ２が発する音声である混入音を示す混入音信号Ｓ２’を推定する。

ここで、混入音推定部２は、適応フィルタ２ａを備え、適応フィルタ２ａを用いて混入音信号Ｓ２’を推定すればよい。具体的には、混入音推定部２は、ノイズ除去部３から出力される信号ＳＯ（出力信号の一例）が、適応フィルタ２ａの入力と無相関もしくは独立となるように、所定の適応アルゴリズムを用いて適応フィルタ２１ａのフィルタ係数を補正する。信号ＳＯは、後述するように、マイクロホン１１が取得した信号Ｓ１（第１の信号の一例）から混入音信号Ｓ２’が減じられた信号である。よって、信号ＳＯが適応フィルタ２ａの入力と無相関もしくは独立となるように適応フィルタ２ａのフィルタ係数が補正されると、適応フィルタ２ａから出力される信号は、信号Ｓ１に含まれる、搭乗者Ｐ２が発する音声が搭乗者Ｐ１が発生した音声に混入した音である混入音を示す混入音信号Ｓ２’を示すことになる。

なお、混入音推定部２は、フィルタ係数の補正処理を定期的に実行してもよいし、マイクロホン１２が一定レベル以上の信号を取得する都度、実行してもよい。ここで、所定の適応アルゴリズムとしては、ＬＭＳ（Ｔｈｅｌｅａｓｔ−ｍｅａｎ−ｓｑｕａｒｅ）アルゴリズムやＩＣＡ（ＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎｅｎｔＡｎａｌｉｓｙｓ）アルゴリズムが採用できる。適応フィルタとしては、ＬＭＳフィルタが採用できる。

ノイズ除去部３は、信号Ｓ１から混入音信号Ｓ２’を減じ、信号ＳＯを生成する。ここで、混入音信号Ｓ２’は信号Ｓ１に含まれる搭乗者Ｐ２が発する音声である混入音を示す。よって、信号ＳＯは、搭乗者Ｐ１、搭乗者Ｐ２が同時に発話した場合であっても、特定話者である搭乗者Ｐ１が発した音声を示すことになる。

図１において、混入音推定部２及びノイズ除去部３は、ＤＳＰ等のプロセッサで構成されてもよいし、ＣＰＵがＲＯＭに記憶された制御プログラムを実行することで実現されてもよい。このことは、後述の実施の形態においても同じである。

後処理装置２００は、例えば、音声認識装置で構成され、信号ＳＯを用いて音声認識する。ここで、音声認識装置は、公知の音声認識手法を用いて音声認識を行えばよい。図１の例では、信号ＳＯは搭乗者Ｐ１が発した音声を示すので、音声認識装置は、搭乗者Ｐ１が発した音声を認識する。

ここで、認識される音声としては、種々の機器を制御するための制御コマンドが該当する。制御コマンドとしては、例えば、車両５が備える機器を操作するための制御コマンドが採用できる。車両５が備える機器としては、例えば、空調機器、ナビゲーション装置、クルーズコントロール装置、テレビ、及び照明等が採用できる。例えば、音声認識装置が空調器機の温度を調整する制御コマンドを認識したとすると、空調機器の温度が、認識された制御コマンドが示す温度に設定される。

なお、後処理装置２００としては、音声認識装置以外の例えば、ハンズフリー装置が採用されてもよい。ハンズフリー装置は搭乗者が携帯電話を音声で操作するための装置である。例えば、ハンズフリー装置は、信号ＳＯをＢｌｕｅｔｏｏｔｈ（登録商標）等の通信方式を用いて携帯電話に送信する。

車両５は、例えば、４輪自動車で構成され、車室５０を備える。図１の例では、５人乗りの乗用車が車両５として採用されているが、これは一例であり、２人乗り或いは７人乗り等の乗用車が車両５として採用されてもよい。また、車両５としては、乗用車以外のバスやトラックが採用されてもよい。

車室５０は、座席５１〜５４を備える。座席５１は、ハンドル５５の後方に配置された運転席であり、運転者である搭乗者Ｐ１によって着座される。

座席５２は、上面視において座席５１の左側に配置された助手席であり、搭乗者Ｐ２によって着座される。座席５３，５４は、後部座席であり、それぞれ、座席５１，５２の後方に設けられている。

図２は、本開示の実施の形態１における車載収音装置１００の処理の一例を示すフローチャートである。なお、図２に示すフローチャートは一定の時間間隔毎に実行されてもよいし、マイクロホン１１，１２が一定レベル以上の音声を収音した場合に実行されてもよい。このことは、後述する、図６、図９のフローチャートにおいても同じである。まず、マイクロホン１１，１２は、それぞれ、信号Ｓ１，Ｓ２を取得する（Ｓ３０１）。

次に、混入音推定部２は、信号Ｓ２を適応フィルタ２ａを用いてフィルタリングすることで、信号Ｓ１に含まれる搭乗者Ｐ２が発する音声である混入音を示す混入音信号Ｓ２’を推定する（Ｓ３０２）。

次に、ノイズ除去部３は、信号Ｓ１から混入音信号Ｓ２’を減じることで信号ＳＯを生成する。

このように、本実施の形態によれば、車室内で複数の搭乗者が同時に発話した場合であっても、収音したい特定話者の音声のみを抽出でき、特定話者の音声認識率を向上させることができる。

なお、上記の説明では、搭乗者Ｐ１が特定話者であるとして説明したが、搭乗者Ｐ２が特定話者であってもよい。この場合、マイクロホン１１及びノイズ除去部３間に混入音推定部２に接続し、マイクロホン１２をノイズ除去部３に接続すればよい。

（実施の形態２）
実施の形態２は、前部座席に加えて後部座席にもマイクロホンを設けたことを特徴とする。なお、本実施の形態において、実施の形態１と同じ構成要素には同一の符号を付し、説明を省略する。図３は、本開示の実施の形態２における車載収音装置１００が適用された収音システムの全体構成の一例を示す図である。

図３において、図１との相違点は、後部座席である座席５３，５４のそれぞれにマイクロホン１３，１４が設けられている点、マイクロホン１２，１３，１４のそれぞれに対応する３つの混入音推定部２１，２２，２３が設けられている点にある。

図３の例では、搭乗者Ｐ１が特定話者とされているが、これは一例であり、搭乗者Ｐ２，Ｐ３，Ｐ４のいずれかが特定話者とされてもよい。

マイクロホン１３は、例えば、座席５３の上側の天井部に配置され、主に搭乗者Ｐ３の音声を収音する。マイクロホン１４は、例えば、座席５４の上側の天井部に配置され、主に搭乗者Ｐ４の音声を収音する。マイクロホン１３，１４は、実施の形態１と同様、単一指向性マイクロホンが採用されてもよいし、アレイマイクロホンが採用されてもよい。マイクロホン１３，１４は、それぞれ、指向性が搭乗者Ｐ３，Ｐ４の方向に向けられている。

以下、マイクロホン１３が取得する信号を信号Ｓ３、マイクロホン１４が取得する信号を信号Ｓ４とする。

混入音推定部２１，２２，２３は、それぞれ、適応フィルタ２１ａ，２１ｂ，２１ｃを備える。混入音推定部２１は、信号Ｓ２と信号ＳＯとを用いて、マイクロホン１１に混入する、搭乗者Ｐ２が発する音声である混入音を示す混入音信号Ｓ２’を推定する。ここで、混入音推定部２１は、実施の形態１と同様、信号ＳＯが適応フィルタ２ａの入力と無相関もしくは独立となるように所定の適応アルゴリズムを用いてフィルタ係数が補正された適応フィルタ２１ａを用いて、信号Ｓ２をフィルタリングすることで、混入音信号Ｓ２’を推定する。混入音信号Ｓ２’は、信号Ｓ２を用いて推定された信号なので、主に、信号Ｓ１に混入する搭乗者Ｐ２の音声を示す。

混入音推定部２２，２３も、混入音推定部２１と同様、それぞれ、信号Ｓ３，Ｓ４を用いて、混入音信号Ｓ３’，Ｓ４’を推定する。ここで、混入音信号Ｓ３’，Ｓ４’は、それぞれ、信号Ｓ３，Ｓ４を用いて推定された信号なので、主に信号Ｓ１に混入する搭乗者Ｐ３，Ｐ４の音声を示す。

ノイズ除去部３は、信号Ｓ１から混入音信号Ｓ２’，Ｓ３’，Ｓ４’を減じることで、信号ＳＯを生成する。これにより、信号Ｓ１から特定話者である搭乗者Ｐ１が発した音声以外の信号がノイズとして除去された信号が信号ＳＯとして得られる。

このように、実施の形態３では、後部座席である座席５３，５４のそれぞれにマイクロホン１３，１４を設けた場合であっても、特定話者の音声のみを抽出できる。

なお、図３において、特定話者が搭乗者Ｐ１以外の搭乗者Ｐ２，Ｐ３，Ｐ４のいずれか１の搭乗者とされた場合、その１の搭乗者以外に対応する３つのマイクロホンのそれぞれに混入音推定部２１，２２，２３が接続されればよい。

図４は、本開示の実施の形態２における車載収音装置１００の変形例を示す図である。図３では、マイクロホン１１〜１４は、それぞれ、上面視において対応する座席の左右方向の中央に設けられていた。これに対し、図４では、マイクロホン１１〜１４は、それぞれ、上面視において、車室５０の左右方向の真ん中を通る中心線を挟んで左右方向に隣接して配置されている。図４の態様が採用される場合、マイクロホン１１，１２は、車室５０の天井部に設けられた前部座席用のオーバーヘッドコンソールに設けられればよい。また、マイクロホン１３，１４は、車室５０の天井部に設けられた後部座席用のオーバーヘッドコンソールに設けられればよい。なお、図３、図４のいずれの態様を採用する場合であっても、マイクロホン１１〜１４は、それぞれ、対応する搭乗者Ｐ１〜Ｐ４の頭部に向けて指向性が設定されればよい。

（実施の形態３）
実施の形態３の車載収音装置１００は、特定話者を指定するためのスイッチを備えることを特徴とする。図５は、本開示の実施の形態３における車載収音装置１００が適用された車載システムの全体構成の一例を示す図である。なお、本実施の形態において実施の形態１と同一の構成要素には同一の符号を付し、説明を省略する。

図５において、図１との相違点は、スイッチＳＷ１，ＳＷ２及びセレクタ３１，３２が設けられている点にある。スイッチＳＷ１，ＳＷ２は、例えば、押しボタン式のスイッチで構成され、それぞれ、座席５１，５２の付近に配置されている。ここでは、スイッチＳＷ１，ＳＷ２は、例えば、車室５０内の天井部に配置されている。図５の例では、スイッチＳＷ１，ＳＷ２では、上面視において、車室５０の左右方向の真ん中を通る中心線を挟んで左右方向に隣接するように、オーバーヘッドコンソールに配置されている。但し、スイッチＳＷ１，ＳＷ２の配置位置は、これに限定されず、それぞれ、搭乗者Ｐ１，Ｐ２が操作可能な位置であれば、どのような位置に配置されてもよい。例えば、ダッシュボードやセンターコンソールや座席５１，５２の座部の裏側にスイッチＳＷ１，ＳＷ２は配置されてもよい。

スイッチＳＷ１，ＳＷ２は、それぞれ、天井面に対して陥没自在に構成され、例えば、天井面から陥没された状態でＯＮ、天井面と同一面上に位置する状態でＯＦＦとなる。また、スイッチＳＷ１，ＳＷ２は、例えば、同時にＯＮにならないように排他的にＯＮするように構成されている。スイッチＳＷ１は、搭乗者Ｐ１が特定話者とされる場合にＯＮされ、スイッチＳＷ２は、搭乗者Ｐ２が特定話者とされる場合にＯＮされる。以下、スイッチＳＷ１、ＳＷ２が同時にＯＮされることはないものとする。

セレクタ３１は、スイッチＳＷ１がＯＮ且つスイッチＳＷ２がＯＦＦの場合、信号Ｓ１を選択してノイズ除去部３に出力する。また、セレクタ３１は、スイッチＳＷ１がＯＦＦ且つスイッチＳＷ２がＯＮの場合、信号Ｓ２を選択して、ノイズ除去部３に出力する。

セレクタ３２は、スイッチＳＷ１がＯＮ且つスイッチＳＷ２がＯＦＦの場合、信号Ｓ２を選択して混入音推定部２に出力する。また、セレクタ３２は、スイッチＳＷ１がＯＦＦ且つスイッチＳＷ２がＯＮの場合、信号Ｓ１を選択して混入音推定部２に出力する。

なお、セレクタ３１，３２は、ＤＳＰで構成されてもよいし、ＣＰＵがＲＯＭに格納された制御プログラムを実行することで実現されてもよい。このことは実施の形態４も同じである。

混入音推定部２は、スイッチＳＷ１がＯＮ且つスイッチＳＷ２がＯＦＦの場合、信号Ｓ２が入力され、適応フィルタ２αを用いて混入音信号Ｓ２’（第１の混入音信号の一例）を推定する。一方、混入音推定部２は、スイッチＳＷ１がＯＦＦ且つスイッチＳＷ２がＯＮの場合、信号Ｓ１が入力され、適応フィルタ２αを用いて混入音信号Ｓ１’（第２の混入音信号の一例）を推定する。

ここで、適応フィルタ２αは、実施の形態１と同様、セレクタ３２により信号Ｓ２が選択された場合において、信号ＳＯが適応フィルタ２ａの入力と無相関もしくは独立となるように、所定の適応アルゴリズムを用いて、補正係数が補正されたフィルタである。したがって、混入音信号Ｓ２’は信号Ｓ１に含まれる、搭乗者Ｐ２が発する音声である混入音を示す。

また、適応フィルタ２αは、実施の形態１と同様、セレクタ３２により信号Ｓ１が選択された場合において、信号ＳＯが適応フィルタ２ａの入力と無相関もしくは独立となるように、所定の適応アルゴリズムを用いて、フィルタ係数が補正されたフィルタである。したがって、混入音信号Ｓ１’は信号Ｓ２に含まれる、搭乗者Ｐ１が発する音声である混入音を示す。

図６は、本開示の実施の形態３の車載収音装置１００の処理の一例を示すフローチャートである。まず、マイクロホン１１，１２は、それぞれ、信号Ｓ１，Ｓ２を取得する（Ｓ６０１）。

次に、スイッチＳＷ１がＯＮであれば（Ｓ６０２でＹＥＳ）、セレクタ３１は信号Ｓ１を選択してノイズ除去部３に出力し、セレクタ３２は信号Ｓ２を選択して混入音推定部２に出力する（Ｓ６０３）。

次に、混入音推定部２は、信号Ｓ２を適応フィルタ２αを用いてフィルタリングし、混入音信号Ｓ２’を推定し、ノイズ除去部３に出力する（Ｓ６０４）。

次に、ノイズ除去部３は、信号Ｓ１から混入音信号Ｓ２’を減じ、信号ＳＯを生成する（Ｓ６０５）。

スイッチＳＷ１がＯＦＦ且つスイッチＳＷ２がＯＮの場合（Ｓ６０２でＮＯ且つＳ６０６でＹＥＳ）、セレクタ３１は信号Ｓ２を選択してノイズ除去部３に出力し、セレクタ３２は信号Ｓ１を選択して混入音推定部２に出力する（Ｓ６０７）。

次に、混入音推定部２は、信号Ｓ１を適応フィルタ２αを用いてフィルタリングし、混入音信号Ｓ１’を推定し、ノイズ除去部３に出力する（Ｓ６０８）。

次に、ノイズ除去部３は、信号Ｓ２から混入音信号Ｓ１’を減じ、信号ＳＯを生成する（Ｓ６０９）。

スイッチＳＷ１がＯＦＦ且つスイッチＳＷ２がＯＦＦの場合（Ｓ６０２でＮＯ且つＳ６０６でＮＯ）、処理は終了される。

このように、本実施の形態では、スイッチＳＷ１，ＳＷ２が設けられているので、搭乗者Ｐ１，Ｐ２のいずれが特定話者であるかを正確に決定できる。

なお、図６のフローチャートにおいて、スイッチＳＷ１がＯＦＦ且つスイッチＳＷ２がＯＦＦの場合（Ｓ６０２でＮＯ且つＳ６０６でＮＯ）、処理が終了されていたが、本開示はこれに限定されない。例えば、スイッチＳＷ１がＯＦＦ且つスイッチＳＷ２がＯＦＦの場合、セレクタ３１，３２は、それぞれ、搭乗者Ｐ１を特定話者と判定し、信号Ｓ１，Ｓ２を選択してもよいし、搭乗者Ｐ２を特定話者と判定し、信号Ｓ２，Ｓ１を選択してもよい。或いは、後述する実施の形態４に示されるように信号Ｓ１，Ｓ２に優先度が設定されているのであれば、セレクタ３１，３２は、優先度が高い方の信号Ｓ１，Ｓ２に対応する搭乗者を特定話者と判定してもよい。或いは、信号Ｓ１，Ｓ２のうちレベルの高い方の信号に対応する搭乗者を特定話者と判定してもよい。なお、優先度は事前に設定されており、例えば、記憶装置に予め記憶されている。また、優先度は搭乗者の操作により事後的に変更できるようにしてもよい。

また、図５の例では、２つのマイクロホン１１，１２が設けられているが、本開示はこれに限定されず、図３に示すようにマイクロホン１３，１４が設けられてもよい。

（実施の形態４）
実施の形態４の車載収音装置１００は、発話している搭乗者を特定話者として決定することを特徴とする。図７は、本開示の実施の形態４の車載収音装置１００が適用された収音システムの全体構成の一例を示す図である。なお、本実施の形態において実施の形態１と同一の構成要素には同一の符号を付し、説明を省略する。

図７において、図１との相違点は、発話判定部６及びセレクタ３１，３２が設けられている点にある。発話判定部６は、信号Ｓ１，Ｓ２に発話区間が含まれているか否かを判定する。図８は、発話判定部６が発話区間を検出する処理を説明する図である。図８において、縦軸はマイクロホン１１，１２が取得する信号（以下、「音声信号Ｓｉｇ１」と記述する。）のレベルを示し、横軸は時間を示す。

音声信号Ｓｉｇ１は、高周波で振幅が変動する波形を持つ。発話判定部６は、音声信号Ｓｉｇ１に対して、処理区間ΔＴを設定する。なお、処理区間ΔＴは、時間軸に沿って、一定の時間間隔でずらすように設定される。次に、発話判定部６は、処理区間ΔＴにおいて音声信号Ｓｉｇ１の包絡線Ｓｉｇ２を求める。図８では、包絡線Ｓｉｇ２は音声信号Ｓｉｇ１の上側に設定されているが、これは一例であり、下側に設定されてもよい。

次に、発話判定部６は包絡線Ｓｉｇ２の最低レベルＡ１を検出する。次に、発話判定部６は最低レベルＡ１を所定倍した値を閾値Ｔｈとして設定する。ここではボトムレベルＡ１には１より大きい数（例えば、２，３といった数）が乗じられる。

次に、発話判定部６は、音声信号Ｓｉｇ１のレベルが閾値Ｔｈ以上の区間を発話区間ΔＴ１と判定する。

なお、発話判定部６は、ＤＳＰで構成されてもよいし、ＣＰＵがＲＯＭに格納された制御プログラムを実行することで実現されてもよい。

図７に参照を戻す。発話判定部６が信号Ｓ１に発話区間が含まれると判定した場合、セレクタ３１は信号Ｓ１を選択してノイズ除去部３に出力し、セレクタ３２は信号Ｓ２を選択して混入音推定部２に出力する。

また、発話判定部６が信号Ｓ２に発話区間が含まれると判定した場合、セレクタ３１は信号Ｓ２を選択してノイズ除去部３に出力し、セレクタ３２は信号Ｓ１を選択して混入音推定部２に出力する。

更に、発話判定部６が信号Ｓ１，Ｓ２の両方に発話区間が含まれると判定した場合、信号Ｓ１の優先度が信号Ｓ２よりも高ければ、セレクタ３１は信号Ｓ１を選択してノイズ除去部３に出力し、セレクタ３２は信号Ｓ２を選択して混入音推定部２に出力する。

更に、発話判定部６が信号Ｓ１，Ｓ２の両方に発話区間が含まれると判定した場合、信号Ｓ２の優先度が信号Ｓ１よりも高ければ、セレクタ３１は信号Ｓ２を選択してノイズ除去部３に出力し、セレクタ３２は信号Ｓ１を選択して混入音推定部２に出力する。

混入音推定部２は、実施の形態３と同様、適応フィルタ２αを備える。混入音推定部２は、セレクタ３２により選択された信号Ｓ２が入力され、適応フィルタ２αを用いて混入音信号Ｓ２’（第１の混入音信号の一例）を推定する。また、混入音推定部２は、セレクタ３２により選択された信号Ｓ１が入力され、適応フィルタ２αを用いて混入音信号Ｓ１’（第２の混入音信号の一例）を推定する。

図９は、本開示の実施の形態４の車載収音装置１００の処理の一例を示すフローチャートである。まず、マイクロホン１１，１２は、それぞれ、信号Ｓ１，Ｓ２を取得する（Ｓ９０１）。次に、発話判定部６は信号Ｓ１，Ｓ２のそれぞれから発話区間を検出する（Ｓ９０２）。

信号Ｓ１のみに発話区間が含まれている場合（Ｓ９０３でＹＥＳ且つＳ９０４でＮＯ）、セレクタ３１は信号Ｓ１を選択してノイズ除去部３に出力し、セレクタ３２は信号Ｓ２を選択し、混入音推定部２に出力する（Ｓ９０６）。

次に、混入音推定部２は、信号Ｓ２を適応フィルタ２αを用いてフィルタリングし、混入音信号Ｓ２’を推定し、ノイズ除去部３に出力する（Ｓ９０７）。

次に、ノイズ除去部３は、信号Ｓ１から混入音信号Ｓ２’を減じ、信号ＳＯを生成する（Ｓ９０８）。

一方、信号Ｓ２のみに発話区間が含まれている場合（Ｓ９０３でＮＯ且つＳ９１０でＹＥＳ）、セレクタ３１は信号Ｓ２を選択してノイズ除去部３に出力し、セレクタ３２は信号Ｓ１を選択して混入音推定部２に出力する（Ｓ９１１）。

次に、混入音推定部２は、信号Ｓ１を適応フィルタ２αを用いてフィルタリングし、混入音信号Ｓ１’を推定し、ノイズ除去部３に出力する（Ｓ９１２）。

次に、ノイズ除去部３は、信号Ｓ２から混入音信号Ｓ１’を減じ、信号ＳＯを生成する（Ｓ９１３）。

信号Ｓ１及び信号Ｓ２に発話区間が含まれている場合（Ｓ９０３でＹＥＳ且つＳ９０４でＹＥＳ）、信号Ｓ１の優先度が信号Ｓ２よりも高ければ（Ｓ９０５でＹＥＳ）、上述のＳ９０６，Ｓ９０７，Ｓ９０８の処理が実行される。

一方、信号Ｓ２の優先度が信号Ｓ１よりも高ければ（Ｓ９０５でＮＯ）、上述のＳ９１１，Ｓ９１２，Ｓ９１３の処理が実行される。

信号Ｓ１及び信号Ｓ２のいずれにも発話区間が含まれていない場合（Ｓ９０３でＮＯ且つＳ９１０でＮＯ）、処理が終了される。

このように、本実施の形態によれば、信号Ｓ１に発話区間が含まれている場合には、搭乗者Ｐ１の音声が抽出され、信号Ｓ２に発話区間が含まれている場合には、搭乗者Ｐ２の音声が抽出される。そのため、搭乗者Ｐ１，Ｐ２のいずれが特定話者であるのかを自動的に決定することができる。

また、信号Ｓ１，Ｓ２のいずれにも発話区間が含まれている場合、信号Ｓ１，Ｓ２の優先度に応じて、搭乗者Ｐ１，Ｐ２のいずれか一方の音声が抽出される。そのため、搭乗者Ｐ１，Ｐ２が同時に発話した場合にどちらが特定話者であるかを決定できなくなることを防止できる。

なお、本実施の形態では、信号Ｓ１，Ｓ２のいずれにも発話区間が含まれている場合、信号Ｓ１，Ｓ２の優先度に応じてノイズの除去対象となる信号が決定されていたが、本開示はこれに限定されない。例えば、信号Ｓ１，Ｓ２のうちレベルが高い方の信号をノイズの除去対象となる信号として決定されてもよい。この場合、発話判定部６は発話区間における信号の平均レベルを算出し、平均レベルが高い方の信号をノイズの除去対象となる信号として決定すればよい。そして、発話判定部６が信号Ｓ１のレベルが信号Ｓ２よりも高いと判定した場合、セレクタ３１，３２、混入音推定部２、及びノイズ除去部３は、上記の信号Ｓ１の優先度が信号Ｓ２よりも高い場合の処理と同一の処理を行えばよい。一方、発話判定部６が信号Ｓ２のレベルが信号Ｓ１よりも高いと判定した場合、セレクタ３１，３２、混入音推定部２、及びノイズ除去部３は、上記の信号Ｓ２の優先度が信号Ｓ１よりも高い場合の処理と同一の処理を行えばよい。

また、図７の例では、２つのマイクロホン１１，１２が設けられているが、本開示はこれに限定されず、図３に示すようにマイクロホン１３，１４が設けられてもよい。

また、実施の形態１〜４において、マイクロホン及びスイッチは座席の付近に設置されているとして説明したが、座席に設置されてもよい。この場合、マイクロホン及びスイッチは例えば、座席のヘッドレストなどに設置されればよい。また、後部座席のマイクロホン及びは例えば、前部座席の後部座席側の面に配置されてもよい。すなわち、本開示において「座席位置付近」とは座席を含む概念である。

本開示の車載収音装置は、車室内で複数の搭乗者が同時に発話した場合であっても、収音したい特定話者の音声のみを抽出できるので、車室内で音声認識を行う技術にとって有用である。

Ｐ１，Ｐ２，Ｐ３，Ｐ４搭乗者
Ｓ１’，Ｓ２’，Ｓ３’ 混入音信号
Ｓ１，Ｓ２，Ｓ３，Ｓ４信号
ＳＯ信号
ＳＷ１，ＳＷ２スイッチ
Ｓｉｇ２包絡線
ΔＴ１発話区間
２，２１，２２，２３混入音推定部
２ａ，２１ａ，２１ｂ，２１ｃ，２α 適応フィルタ
３ノイズ除去部
５車両
６発話判定部
１１，１２，１３，１４マイクロホン
３１，３２セレクタ
５０車室
５１，５２，５３，５４座席
１００車載収音装置
２００後処理装置

Claims

車室内において第１の搭乗者が着座する第１の座席位置付近に設置される第１のマイクロホンと、
前記車室内において第２の搭乗者が着座する第２の座席位置付近に設置される第２のマイクロホンと、
前記第２のマイクロホンが取得した第２の信号に基づいて、前記第１のマイクロホンに混入する、前記第２の搭乗者が発する音声である混入音を推定する、混入音推定部と、
前記第１のマイクロホンが取得した第１の信号から、前記混入音を除去する、ノイズ除去部と、
を備える車載収音装置。
前記第１の座席位置付近に配置される第１のスイッチと、
前記第２の座席位置付近に配置される第２のスイッチと、
を備え、
（１）前記第１のスイッチが押された場合、
前記混入音推定部は、前記第２の信号に基づいて、前記第１のマイクロホンに混入する前記第２の搭乗者が発する音声である第１の混入音を推定し、
前記ノイズ除去部は、前記第１の信号から、前記第１の混入音を除去し、
（２）前記第２のスイッチが押された場合、
前記混入音推定部は、前記第１の信号に基づいて、前記第２のマイクロホンに混入する前記第１の搭乗者が発する音声である第２の混入音を推定し、
前記ノイズ除去部は、前記第２の信号から、前記第２の混入音を除去する、
請求項１に記載の車載収音装置。
前記第１及び第２の信号に発話区間が含まれているか否かを判定する発話判定部を更に備え、
（１）前記発話判定部が前記第１の信号に発話区間が含まれると判定した場合、
前記混入音推定部は、前記第２の信号に基づいて、前記第１のマイクロホンに混入する前記第２の搭乗者が発する音声である第１の混入音を推定し、
前記ノイズ除去部は、前記第１の信号から、前記第１の混入音を除去し、
（２）前記発話判定部が前記第２の信号に発話区間が含まれると判定した場合、
前記混入音推定部は、前記第１の信号に基づいて、前記第２のマイクロホンに混入する前記第１の搭乗者が発する音声である第２の混入音を推定し、
前記ノイズ除去部は、前記第２の信号から、前記第２の混入音を除去する、
請求項１に記載の車載収音装置。
前記第１の信号及び前記第２の信号には、優先度が予め設定されており、
（３）前記発話判定部が前記第１及び第２の信号のいずれにも発話区間が含まれていると判定した場合、前記第１の信号の優先度が前記第２の信号よりも高ければ、
前記混入音推定部は、前記第１の混入音を推定し、
前記ノイズ除去部は、前記第１の信号から、前記第１の混入音を除去し、
（４）前記発話判定部が前記第１及び第２の信号のいずれにも発話区間が含まれていると判定した場合、前記第２の信号の優先度が前記第１の信号よりも高ければ、
前記混入音推定部は、前記第２の混入音を推定し、
前記ノイズ除去部は、前記第２の信号から、前記第２の混入音を除去する、
請求項３に記載の車載収音装置。
前記第１及び第２のマイクロホンは、単一指向性マイクロホンである、
請求項１〜４のいずれか１項に記載の車載収音装置。
前記第１及び第２のマイクロホンは、複数のマイクロホンユニットから構成されるアレイマイクロホンである、
請求項１〜４のいずれか１項に記載の車載収音装置。
前記混入音推定部は、前記ノイズ除去部からの出力信号が入力信号と無相関もしくは独立となるようにフィルタ係数が補正された適応フィルタを用いて前記混入音を推定する、
請求項１〜６のいずれか１項に記載の車載収音装置。
前記発話判定部は、前記第１及び第２の信号のそれぞれについて、包絡線を算出し、前記算出した包絡線の最低レベルを検知し、前記検知した最低レベルに基づいて閾値を設定し、前記第１及び第２の信号のレベルが前記設定した閾値より大きい区間を前記発話区間と判定する請求項３又は４に記載の車載収音装置。
車室内において第１の搭乗者が着座する第１の座席位置付近に設置される第１のマイクロホンから第１の信号を取得し、
前記車室内において第２の搭乗者が着座する第２の座席位置付近に設置される第２のマイクロホンから第２の信号を取得し、
前記第２の信号に基づいて、前記第１のマイクロホンに混入する、前記第２の搭乗者が発する音声である混入音を推定し、
前記第１の信号から、前記混入音を除去する、
収音方法。