JP2023180483A - マイクシステム - Google Patents

マイクシステム Download PDF

Info

Publication number
JP2023180483A
JP2023180483A JP2022093838A JP2022093838A JP2023180483A JP 2023180483 A JP2023180483 A JP 2023180483A JP 2022093838 A JP2022093838 A JP 2022093838A JP 2022093838 A JP2022093838 A JP 2022093838A JP 2023180483 A JP2023180483 A JP 2023180483A
Authority
JP
Japan
Prior art keywords
sound
threshold
microphone
microphone system
snr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022093838A
Other languages
English (en)
Inventor
友貴 種村
Tomoki Tanemura
剛史 高沢
Takashi Takazawa
義規 土屋
Yoshinori Tsuchiya
正明 川内
Masaaki Kawauchi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Toyota Motor Corp
Mirise Technologies Corp
Original Assignee
Denso Corp
Toyota Motor Corp
Mirise Technologies Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp, Toyota Motor Corp, Mirise Technologies Corp filed Critical Denso Corp
Priority to JP2022093838A priority Critical patent/JP2023180483A/ja
Priority to US18/320,656 priority patent/US20230402049A1/en
Publication of JP2023180483A publication Critical patent/JP2023180483A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/01Noise reduction using microphones having different directional characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

【課題】音声認識率の低下を抑制するマイクシステムを提供する。【解決手段】マイクシステムは、少なくとも1つのマイクロフォン45に音を集音させる。また、マイクシステムは、マイクロフォン45が配置されている音響空間Sbにて反射される音に関する値ΔTrに基づいて、マイクロフォン45にて集音された音データに含まれる音の種類を、音響空間Sbにいる人の音声の種類と、音声以外であるノイズの種類とに分類する。さらに、マイクシステムは、この分類した音声に関するデータを音声認識装置に出力する。【選択図】図2

Description

本開示は、マイクシステムに関するものである。
従来、特許文献1に記載されているように、対象物の座標および特徴に基づいて、マイクアレイによって取得される音響信号から、対象物からの音響信号を分離する集音処理装置が知られている。
特開2021-12314号公報
発明者等の検討によれば、特許文献1に記載された集音処理装置は、対象物の座標および特徴に基づいて対象物からの音響信号を分離するところ、対象物がいる空間にて生じる反射音等の空間によるノイズが考慮されていない。このため、対象物からの音に関するSNRが低下する。これにより、対象物が、例えば、人であるとき、音声に関するSNRが低下するため、対象者に関する音声認識率が低下する。なお、SNRは、Signal Noise Ratioの略であって、ノイズに対する信号の比である。また、音声認識率は、実際に話した内容の文章と、音声から文字に変換されたときの文章との合致度である。
本開示は、音声認識率の低下を抑制するマイクシステムを提供することを目的とする。
請求項1に記載の発明は、少なくとも1つのマイクロフォン(45)に音を集音させる集音部(S402)と、マイクロフォンが配置されている空間である音響空間(Sb)にて反射される音に関する値(ΔTr)に基づいて、マイクロフォンにて集音された音に関するデータである音データに含まれる音の種類を、音響空間にいる人の音声の種類と、音声以外の音であるノイズの種類とに分類するクラスタリング部(S404)と、分類した音声に関するデータを音声認識装置(20)に出力する出力部(S412)と、を備えるマイクシステムである。
これにより、音響空間にて生じる反射音によるノイズが考慮されて、マイクロフォンにて集音された音から乗員の音声が分類される。このため、分類された音声に含まれるノイズが抑制されることから、音声に関するSNRの低下が抑制される。したがって、音声認識率の低下が抑制される。
なお、各構成要素等に付された括弧付きの参照符号は、その構成要素等と後述する実施形態に記載の具体的な構成要素等との対応関係の一例を示すものである。
第1実施形態のマイクシステムが用いられる車両の構成図。 車両の車室内の音響空間を示す模式図。 マイクシステムの演算装置の構成図。 演算装置の乗員推定部の処理を示すフローチャート。 演算装置の空間推定部の処理を示すフローチャート。 演算装置の車両状態推定部の処理を示すフローチャート。 演算装置のSNR推定部の処理を示すフローチャート。 発話および各ノイズと音圧との関係を示す図。 周波数および音圧によるクラスタリングを示す図。 SNRおよび音声認識率の関係を示す図。 マイクロフォンの数およびSNRの関係を示す図。 ノイズの音圧および数とマイクロフォンの数と音声音圧とSNRと応答性との関係図を示す図。 第2、第3実施形態のマイクシステムにおける演算装置の空間推定部の処理を示すフローチャート 第4実施形態のマイクシステムが用いられる車両の構成図。 車両の車室内の音響空間を示す模式図。
以下、実施形態について図面を参照しつつ説明する。なお、以下の各実施形態相互において、互いに同一もしくは均等である部分には、同一符号を付し、その説明を省略する。
(第1実施形態)
本実施形態のマイクシステム30は、例えば、車両5に用いられる。まず、この車両5について説明する。
車両5は、図1に示すように、車両システム10およびマイクシステム30を備える。車両システム10は、オーディオ12、エアコン14、車速センサ16、路面センサ18および音声認識装置20等を備える。
オーディオ12は、記録された音源を読み取り、読み取った信号を増幅させる。また、オーディオ12は、この増幅させた信号に対応する音を車室内に発する。さらに、オーディオ12は、この車室内に発する音の音圧に応じた信号を後述のマイクシステム30に出力する。
エアコン14は、空調装置であって、図示しないフェイス吹出口、フット吹出口、デフロスタ吹出口および送風機等を有する。また、エアコン14は、車室内の温度および湿度を調整するための空気を図示しないフェイス吹出口、フット吹出口およびデフロスタ吹出口から車室内に向かって送風する。また、エアコン14は、吹出口モードを示す信号および送風する風量に応じた信号を後述のマイクシステム30に出力する。なお、フェイス吹出口は、図2に示す車室内の座席6の背もたれ部またはヘッドレストを向いて開口しており、図示しないフェイス吹出口用ドアにより開閉される。フット吹出口は、車室内の座席6の座部またはこの座部の下側を向いて開口しており、図示しないフット吹出口用ドアにより開閉される。デフロスタ吹出口は、車両5の図示しないフロントウィンドウの内面を向いて開口しており、図示しないデフロスタ吹出口用ドアにより開閉される。吹出口モードは、フェイス吹出口、フット吹出口およびデフロスタ吹出口の開閉状態である。
車速センサ16は、車速を検出し、検出した車速に応じた信号を後述のマイクシステム30に出力する。なお、車速は、車両5の速さである。
路面センサ18は、車外カメラやLidar等を用いることにより、車両5が走行する路面の状態を検出する。例えば、路面センサ18は、車外カメラによって撮像された画像とパターンマッチングとを用いて、車両5が走行する路面の凹凸を検出することにより、車両5が走行する路面の状態を検出する。また、例えば、路面センサ18は、Lidarを用いて、車両5が走行する路面の表面粗さを検出することにより、車両5が走行する路面の状態を検出する。そして、路面センサ18は、検出した路面状態に応じた信号を後述のマイクシステム30に出力する。なお、Lidarは、Light detection and rangingの略である。表面粗さは、例えば、2乗平均平方根高さ、最大山高さ、最大谷高さ、最大高さおよび算出平均高さ等である。
音声認識装置20は、音声認識エンジン等を用いることにより、後述のマイクシステム30から出力された音声データを文字データに変換する。また、音声認識装置20は、例えば、変換した文字データに応じた信号を図示しないディスプレイに出力する。これにより、車室内の乗員の音声に対応する文字が図示しないディスプレイに表示されるとともに、車両5内の図示しない各種システムに文字列に応じた動作をさせる。
マイクシステム30は、マイクアレイ40、センサ群50および演算装置60を備える。マイクアレイ40は、図2に示すように、複数配列されたマイクロフォン45を有することにより集音する。
図1に戻って、センサ群50は、乗員センサ52および環境センサ54を有する。乗員センサ52は、重量センサ、車内カメラや超音波センサ等を含む。例えば、乗員センサ52は、座席6に取り付けられた重量センサから車室内の乗員が座席6に座っていることを検出する。また、乗員センサ52は、車内カメラによって撮像された画像および画像認識や超音波センサから照射される超音波の送受信波を用いる。これらにより、乗員センサ52は、車室内の乗員位置および乗員人数を検出する。そして、乗員センサ52は、これらの検出した車室内の乗員位置および乗員人数に応じた信号を後述のマイクシステム30に出力する。なお、超音波は、周波数が20kHz以上の音波である。また、車室内の乗員位置は、例えば、絶対座標系における乗員の口の位置である。さらに、絶対座標系の基準位置は、例えば、車両5の重心である。
環境センサ54は、車内カメラや窓開閉センサ等を含む。例えば、環境センサ54は、環境センサ54は、車内カメラによって撮像された画像と画像認識とを用いることにより、車室内の音響空間Sbの大きさと、車室内における乗員以外の物の位置、種類および大きさとを検出する。さらに、環境センサ54は、窓開閉センサを用いることにより、ウィンドウ開度を検出する。そして、環境センサ54は、これらの検出した車室内の空間の大きさと、車室内の物の位置、種類および大きさと、ウィンドウ開度とに応じた信号を後述のマイクシステム30に出力する。なお、車室内における乗員以外の物は、例えば、座席6である。ウィンドウ開度は、車両5のサイドウィンドウの開度である。
演算装置60は、マイコン等を主体として構成されており、CPU、ROM、フラッシュメモリ、RAM、I/O、駆動回路、A/Dコンバータおよびこれらの構成を接続するバスライン等を備えている。また、演算装置60は、図3に示すように、乗員推定部62、空間推定部64、車両状態推定部66およびSNR推定部68を機能ブロックとして備えている。
乗員推定部62は、ROMに記憶されたプログラムを実行することにより、乗員センサ52からの信号に基づいて、車室内の乗員位置および乗員人数を推定する。なお、乗員推定部62の処理の詳細については、後述する。
空間推定部64は、ROMに記憶されたプログラムを実行することにより、環境センサ54からの信号に基づいて、車室内の空間状態を推定する。なお、空間推定部64の詳細については、後述する。
車両状態推定部66は、ROMに記憶されたプログラムを実行することにより、車両システム10からの信号に基づいて、車両5の状態を推定する。なお、車両状態推定部66の詳細については、後述する。
SNR推定部68は、集音部、クラスタリング部および出力部に対応する。SNR推定部68は、ROMに記憶されたプログラムを実行することにより、乗員推定部62、空間推定部64および車両状態推定部66からの信号に基づいて、車室内の乗員の音声データを生成するとともにSNRを算出する。また、SNR推定部68は、この算出したSNRが不十分な値であるとき、集音させるマイクロフォン45を再度選定する。さらに、SNR推定部68は、この算出したSNRが十分な値であるとき、生成した音声データを後述の音声認識装置20に出力する。なお、SNR推定部68の詳細については、後述する。
以上のように、車両5は、構成されている。この車両5に用いられるマイクシステム30は、車室内の音声を認識するとともに、音声認識率の低下を抑制する。次に、マイクシステム30による車室内の音声認識を説明するため、乗員推定部62、空間推定部64、車両状態推定部66およびSNR推定部68のプログラムが実行されたときの各処理について説明する。まず、乗員推定部62の処理について、図4のフローチャートを参照して説明する。なお、乗員推定部62のプログラムは、例えば、車両5のイグニッションがオンされたとき、実行される。また、乗員推定部62のステップS100の処理が開始されてからステップS100の処理に戻るまでの一連の動作の期間を乗員推定部62の制御周期とする。
ステップS100において、乗員推定部62は、車室内の乗員位置および乗員人数に応じた信号を乗員センサ52から取得する。
続いて、ステップS102において、乗員推定部62は、ステップS100にて取得した信号から、車室内の乗員位置および乗員人数を推定する。また、乗員推定部62は、この推定した車室内の乗員位置および乗員人数に応じた信号をSNR推定部68に出力する。その後、乗員推定部62の処理は、ステップS100に戻る。
以上のように、乗員推定部62は、処理を行う。次に、空間推定部64の処理について、図5のフローチャートを参照して説明する。なお、空間推定部64のプログラムは、例えば、車両5のイグニッションがオンされたとき、実行される。また、空間推定部64のステップS200の処理が開始されてからステップS200の処理に戻るまでの一連の動作の期間を空間推定部64の制御周期とする。
ステップS200において、空間推定部64は、車室内の空間の大きさと、車室内の物の位置、種類および大きさと、ウィンドウ開度とに応じた信号を環境センサ54から取得する。
続いて、ステップS202において、空間推定部64は、ステップS200にて取得した信号から、車室内の音響空間Sbの大きさと、車室内の物の位置、種類および大きさと、ウィンドウ開度とを推定する。これにより、空間推定部64は、車室内の音響空間Sbの状態を推定する。また、空間推定部64は、この推定した車室内の音響空間Sbの状態に応じた信号をSNR推定部68に出力する。その後、空間推定部64の処理は、ステップS200に戻る。
以上のように、空間推定部64は、処理を行う。次に、車両状態推定部66の処理について、図6のフローチャートを参照して説明する。なお、車両状態推定部66のプログラムは、例えば、車両5のイグニッションがオンされたとき、実行される。また、車両状態推定部66のステップS300の処理が開始されてからステップS300の処理に戻るまでの一連の動作の期間を車両状態推定部66の制御周期とする。
ステップS300において、車両状態推定部66は、オーディオ12の状態、エアコン14の状態、車両5の速度および車両5が走行する路面の状態に応じた信号を車両システム10から取得する。具体的には、車両状態推定部66は、オーディオ12による音の音圧に応じた信号をオーディオ12から取得する。また、車両状態推定部66は、吹出口モードを示す信号および送風する風量に応じた信号をエアコン14から取得する。さらに、車両状態推定部66は、車速に応じた信号を車速センサ16から取得する。また、車両状態推定部66は、車両5が走行する路面の状態に応じた信号を路面センサ18から取得する。
続いて、ステップS302において、車両状態推定部66は、ステップS300にて取得した信号から、オーディオ12の状態、エアコン14の状態、車両5の速度および車両5が走行する路面の状態を推定する。これにより、車両状態推定部66は、車両5の状態を推定する。また、車両状態推定部66は、この推定したオーディオ12の状態、エアコン14の状態、車両5の速度および車両5が走行する路面の状態に応じた信号をSNR推定部68に出力する。
以上のように、車両状態推定部66は、処理を行う。次に、SNR推定部68の処理について、図7のフローチャートを参照して説明する。なお、SNR推定部68のプログラムは、例えば、車両5のイグニッションがオンされたとき、実行される。また、SNR推定部68のステップS400の処理が開始されてからステップS400の処理に戻るまでの一連の動作の期間をSNR推定部68の制御周期とする。
ステップS400において、SNR推定部68は、各種情報を取得する。具体的には、SNR推定部68は、車室内の乗員位置および乗員人数に応じた信号を乗員推定部62から取得する。また、SNR推定部68は、車室内の音響空間Sbの大きさと、車室内の物の位置、種類および大きさと、ウィンドウ開度とに応じた信号を空間推定部64から取得する。さらに、SNR推定部68は、オーディオ12の音圧、吹出口モード、エアコン14の風量、車速および車両5が走行する路面の状態に応じた信号を車両状態推定部66から取得する。
続いて、ステップS402において、SNR推定部68は、予め選定したマイクロフォン45または後述のステップS410にて選定したマイクロフォン45にて車室内の音を集音させる。また、SNR推定部68は、マイクロフォン45にて集音された音に対応する音データを生成する。なお、音データは、所定の長さの時間区間分における時間毎の振幅データとされている。
続いて、ステップS404において、SNR推定部68は、ステップS400にて取得した情報に基づいて、ステップS402にて生成した音データから、音声とノイズとに分類するとともに、音声の種類およびノイズの種類を分類する。これにより、SNR推定部68は、ステップS402にて生成した音データをクラスタリングする。
具体的には、まず、SNR推定部68は、音声の種類およびノイズの種類を分類するために、ステップS400にて取得した情報から下記のパラメータを、時刻毎に、音データの時間区間分推定する。
SNR推定部68は、ステップS400にて取得した乗員人数から、音声の数を推定する。さらに、SNR推定部68は、ステップS400にて取得した乗員位置と、予め設定された各マイクロフォン45の位置と、音速とから、発話時間差ΔTsを推定する。なお、発話時間差ΔTsは、図2に示すように、マイクロフォン45間における乗員の発話による音声の到達時間差である。
また、SNR推定部68は、FFT等を用いてステップS402にて生成した音データの周波数解析を行うことにより、周波数成分を推定する。さらに、SNR推定部68は、時間_周波数解析等を用いて、ステップS402にて生成した音データから、乗員の発話ピッチPを推定する。なお、FFTは、Fast Fourier Transformの略である。発話ピッチPは、乗員による発話の1音間の間隔である。
また、SNR推定部68は、ステップS400にて取得した物の種類とマップとから、音の吸収度合および遮蔽度合を推定する。さらに、SNR推定部68は、この推定した吸収度合および遮蔽度合と、ステップS400にて取得した車室内の音響空間Sbの大きさ、物の位置および大きさおよびウィンドウ開度と、ステップS402にて生成した音データと、マップとから、反射時間差ΔTrを推定する。なお、音の吸収度合および遮蔽度合を推定するためのマップは、実験やシミュレーション等によって予め設定される。また、図2に示すように、反射時間差ΔTrは、同じマイクロフォン45に対して車室内で反射された音の到達時間差である。さらに、反射時間差ΔTrを推定するためのマップは、実験やシミュレーション等によって予め設定される。
また、SNR推定部68は、ステップS402にて生成した音データとマップとから、乗員の発話による音圧を推定する。さらに、SNR推定部68は、ステップS400にて取得したオーディオ12の音圧から、オーディオ12による音圧を推定する。また、SNR推定部68は、ステップS400にて取得したエアコン14の風量とマップとから、エアコン14による音圧を推定する。さらに、SNR推定部68は、ステップS400にて取得した車速から、車両5の風切り音による音圧を推定する。なお、図8に示すように、乗員の発話による音圧、エアコン14の風量および車両5の風切り音を推定するためのマップは、実験やシミュレーション等によって予め設定される。
また、SNR推定部68は、ステップS400にて取得したオーディオ12の設定状態から、オーディオ12による音の発生位置を推定する。さらに、SNR推定部68は、この推定したオーディオ12による音の発生位置と、予め設定された各マイクロフォン45の位置と、音速とから、オーディオ音時間差ΔTaを推定する。また、SNR推定部68は、ステップS400にて取得したエアコン14の風量および吹出口モードとマップとから、エアコン音時間差ΔTwを推定する。さらに、SNR推定部68は、ステップS400にて取得した車速と、ウィンドウ開度と、マップとから、走行音時間差ΔTcを推定する。なお、オーディオ音時間差ΔTaは、同じマイクロフォン45に対してオーディオ12による音の到達時間差である。エアコン音時間差ΔTwは、同じマイクロフォン45に対してエアコン14による音の到達時間差である。また、エアコン音時間差ΔTwを推定するためのマップは、実験やシミュレーション等によって予め設定される。走行音時間差ΔTcは、同じマイクロフォン45に対して車両5の風切り音の到達時間差である。さらに、走行音時間差ΔTcを推定するためのマップは、実験やシミュレーション等によって予め設定される。
また、SNR推定部68は、ステップS400にて取得した車両5が走行する路面の状態と、マップとから、車両5の振動による音圧を推定する。なお、車両5の振動による音圧を推定するためのマップは、実験やシミュレーション等によって予め設定される。
そして、SNR推定部68は、これらの推定した音声の数と、発話時間差ΔTsと、音データの周波数成分と、発話ピッチPと、を用いて、音データに含まれる音の種類を、音声の種類およびノイズの種類に分類する。また、SNR推定部68は、上記にて推定した反射時間差ΔTrを用いて、音データに含まれる音の種類を、音声の種類およびノイズの種類に分類する。さらに、SNR推定部68は、上記にて推定した乗員の発話による音圧を用いて、音データに含まれる音の種類を、音声の種類およびノイズの種類に分類する。また、SNR推定部68は、上記にて推定したオーディオ12による音圧と、エアコン14による音圧と、車両5の風切り音による音圧と、車両5の振動による音圧とを用いて、音データに含まれる音の種類を、音声の種類およびノイズの種類に分類する。さらに、SNR推定部68は、上記にて推定したオーディオ音時間差ΔTaと、エアコン音時間差ΔTwと、走行音時間差ΔTcとを用いて、音データに含まれる音の種類を、音声の種類およびノイズの種類に分類する。
ここで、例えば、乗員の数が2人であるとする。一方の乗員を第1乗員とする。他方の乗員を第2乗員とする。第1乗員の音声を第1音声X1とする。第2乗員の音声を第2音声X2とする。オーディオ12、エアコン14、車両5の風切り音および車両5の振動による音を第1ノイズXn1および第2ノイズXn2とする。
また、乗員の数は、音声の種類の数に対応する。さらに、乗員による声、オーディオ12による音、エアコン14による音、車両5の風切り音による音、車両5の振動による音の周波数は、それぞれ異なる。したがって、SNR推定部68は、上記にて周波数解析した音データと周波数閾値とを用いて、音データに含まれる音の種類を、第1音声X1、第2音声X2、第1ノイズXn1および第2ノイズXn2に分類する。これにより、例えば、図9に示すように、周波数が周波数閾値以上のものが第1音声X1および第1ノイズXn1に分類される。さらに、周波数が周波数閾値未満のものが第2音声X2および第2ノイズXn2に分類される。なお、周波数閾値は、第1音声X1、第2音声X2、第1ノイズXn1および第2ノイズXn2が分類されるように、実験やシミュレーション、機械学習等により設定される。
また、乗員による声、オーディオ12による音、エアコン14による音、車両5の風切り音による音および車両5の振動による音の音圧は、それぞれ異なる。よって、SNR推定部68は、ステップS402にて生成した音データの振幅と、上記にて推定した各種音圧と、音圧閾値とを用いて、音データに含まれる音の種類を、第1音声X1、第2音声X2、第1ノイズXn1および第2ノイズXn2に分類する。これにより、例えば、図9に示すように、音圧が音圧閾値以上のものが第1音声X1および第2ノイズXn2に分類される。さらに、音圧が音圧閾値未満のものが第2音声X2および第1ノイズXn1に分類される。なお、音圧閾値は、第1音声X1、第2音声X2、第1ノイズXn1および第2ノイズXn2が分類されるように、実験やシミュレーション、機械学習等により設定される。
したがって、周波数が周波数閾値以上、かつ、音圧が音圧閾値以上であるものが第1音声X1に分類される。さらに、周波数が周波数閾値未満、かつ、音圧が音圧閾値未満であるものが第2音声X2に分類される。また、周波数が周波数閾値以上、かつ、音圧が音圧閾値未満であるものが第1ノイズXn1に分類される。さらに、周波数が周波数閾値未満、かつ、音圧が音圧閾値以上であるものが第2ノイズXn2に分類される。このように、SNR推定部68は、音データに含まれる音の種類を、第1音声X1、第2音声X2、第1ノイズXn1および第2ノイズXn2に分類する。なお、図9において、第1音声X1および第2音声X2の範囲を示すため、第1音声X1および第2音声X2の範囲が斜線ハッチングで示されている。また、第1ノイズXn1および第2ノイズXn2の範囲を示すため、第1ノイズXn1および第2ノイズXn2の範囲が網掛けハッチングで示されている。
また、乗員によって、発話ピッチPは、異なる。このため、SNR推定部68は、上記にて推定した発話ピッチPと、ピッチ閾値とを用いて、音データに含まれる音の種類を、第1音声X1、第2音声X2、第1ノイズXn1および第2ノイズXn2に分類する。さらに、乗員によって乗員位置が異なることから、発話時間差ΔTsが異なる。よって、SNR推定部68は、上記にて推定した発話時間差ΔTsと、発話閾値とを用いて、音データに含まれる音の種類を、第1音声X1、第2音声X2、第1ノイズXn1および第2ノイズXn2に分類する。また、車室内の音響空間Sbの状態によって、乗員の音声およびノイズ音の反響が異なることから、反射時間差ΔTrは、それぞれ異なる。したがって、SNR推定部68は、上記にて推定した反射時間差ΔTrと、反射閾値とを用いて、音データに含まれる音の種類を、第1音声X1、第2音声X2、第1ノイズXn1および第2ノイズXn2に分類する。さらに、オーディオ12による音の発生位置によって、オーディオ音時間差ΔTaが異なる。このため、SNR推定部68は、上記にて推定したオーディオ音時間差ΔTaと、オーディオ時間差閾値とを用いて、音データに含まれる音の種類を、第1音声X1、第2音声X2、第1ノイズXn1および第2ノイズXn2に分類する。また、吹出口モードによって、エアコン音時間差ΔTwが異なる。よって、SNR推定部68は、上記にて推定したエアコン音時間差ΔTwと、エアコン時間差閾値とを用いて、音データに含まれる音の種類を、第1音声X1、第2音声X2、第1ノイズXn1および第2ノイズXn2に分類する。さらに、各ウィンドウ開度によって、走行音時間差ΔTcが異なる。したがって、SNR推定部68は、上記にて推定した走行音時間差ΔTcと、走行音時間差閾値とを用いて、音データに含まれる音の種類を、第1音声X1、第2音声X2、第1ノイズXn1および第2ノイズXn2に分類する。これらにより、SNR推定部68は、音データに含まれる音の種類を、第1音声X1、第2音声X2、第1ノイズXn1および第2ノイズXn2に分類する。なお、ピッチ閾値、発話閾値、反射閾値、オーディオ時間差閾値、エアコン時間差閾値、走行音時間差閾値は、第1音声X1、第2音声X2、第1ノイズXn1および第2ノイズXn2が分類されるように、実験やシミュレーション、機械学習等により設定される。
そして、SNR推定部68は、このように分類した音声の種類毎の音声データ、例えば、第1音声X1および第2音声X2の音声データを、ステップS402にて生成した音データから抽出することで生成する。
続いて、ステップS406において、SNR推定部68は、ステップS404にて生成した音声データ毎のSNRを算出する。具体的には、SNR推定部68は、音声データに関する時間毎の振幅の和を、その音声データのうち乗員が発声していない状態の車室内にて録音された音に関する時間毎の振幅の和で除算する。これにより、SNR推定部68は、音声データ毎のSNRを算出する。
例えば、第1音声X1に関する時間毎の振幅の和をS1とする。第2音声X2に関する時間毎の振幅の和をS2とする。第1音声X1のうち第1乗員が発声していない状態の車室内にて録音された音に関する時間毎の振幅の和をN1とする。第2音声X2のうち第2乗員が発声していない状態の車室内にて録音された音に関する時間毎の振幅の和をN2とする。このとき、第1音声X1のSNRは、S1/N1で表される。また、第2音声X2のSNRは、S2/N2で表される。
続いて、ステップS408において、SNR推定部68は、ステップS406にて算出したSNRがSN閾値SNR_th以上であるか否かを判定する。これにより、SNR推定部68は、SNRが十分であるか否かを判定する。なお、図10に示すように、SNRが大きくなることに伴って、音声認識率が向上する。したがって、SN閾値SNR_thは、音声認識率が十分となるように、例えば、音声認識率が80%以上となるように、実験やシミュレーション等により設定される。
そして、SNR推定部68は、ステップS406にて算出したSNRのうち乗員のボタン操作等により指定された乗員の音声データのSNRがSN閾値SNR_th未満であるとき、SNRが不十分であると判定する。その後、SNR推定部68の処理は、ステップS410に移行する。また、SNR推定部68は、ステップS406にて算出したSNRのうち乗員のボタン操作等により指定された乗員の音声データのSNRがSN閾値SNR_th以上であるとき、SNRが十分であると判定する。その後、SNR推定部68の処理は、ステップS412に移行する。なお、SNR推定部68は、指定された乗員の音声データのSNRがSN閾値SNR_th以上であるとき、SNRが十分であると判定するところ、これに限定されない。例えば、SNR推定部68は、複数の乗員の音声データがSN閾値SNR_th以上であるとき、SNRが十分であると判定してもよい。
ステップS408に続くステップS410において、SNRが不十分であることから、SNR推定部68は、SNRを十分にさせるため、集音させるマイクロフォン45を変更する。これにより、SNR推定部68は、今回制御周期よりも次回制御周期におけるSNRを大きくすることで、SNRを十分にさせる
ここで、図11に示すように、ノイズの音圧および数と音声の音圧とが固定されている場合に、マイクロフォン45の数が多くなることに伴って、SNRが大きくなる。したがって、ステップS410において、SNR推定部68は、例えば、集音させるマイクロフォン45の数を今回制御周期よりも多くするとともに、マイクロフォン45の増加数を設定する。これにより、次回制御周期におけるSNRは、今回制御周期におけるSNRよりも大きくなる。
また、図12に示すように、マイクロフォン45の数と音声の音圧とが固定されている場合に、ノイズの音圧が大きくなることまたはノイズの数が多くなることに伴って、SNRが低下する。よって、ステップS410において、SNR推定部68は、例えば、ノイズの種類の数に応じて、集音させるマイクロフォン45の増加数を変更する。さらに、ステップS410において、SNR推定部68は、例えば、ノイズの音圧に応じて、集音させるマイクロフォン45の増加数を変更する。これらにより、次回制御周期におけるSNRは、SN閾値SNR_th以上となりやすくなる。
また、ノイズの音圧および数とマイクロフォン45の数とが固定されている場合に、乗員による発話の音圧が小さくなることに伴って、SNRが低下する。したがって、ステップS410において、SNR推定部68は、例えば、乗員による発話の音圧に応じて、集音させるマイクロフォン45の増加数を変更する。これにより、次回制御周期におけるSNRは、SN閾値SNR_th以上となりやすくなる。
このように、SNR推定部68は、マイクロフォン45の数を変更することによって、今回制御周期よりも次回制御周期におけるSNRを大きくする。その後、SNR推定部68の処理は、ステップS400に戻る。
ステップS408に続くステップS412において、SNRが十分であることから、SNR推定部68は、ステップS404にて生成した音声データのうち指定された乗員の音声データを、音声認識装置20に出力する。音声認識装置20は、音声認識エンジン等を用いて、SNR推定部68から出力された音声データを文字データに変換する。また、音声認識装置20は、例えば、変換した文字データを図示しないディスプレイに出力する。これにより、車室内の乗員の音声に対応する文字が図示しないディスプレイに表示される。その後、SNR推定部68の処理は、ステップS400に戻る。
以上のように、SNR推定部68は、処理を行う。よって、マイクシステム30では、上記乗員推定部62、空間推定部64、車両状態推定部66およびSNR推定部68の処理により、車室内の音声が認識される。次に、マイクシステム30による音声認識率の低下が抑制されることについて説明する。
ここで、音声に関するSNRの低下について説明する。特許文献1に記載された集音処理装置は、対象物の座標および特徴に基づいて対象物からの音響信号を分離するところ、対象物がいる空間にて生じる反射音等の空間によるノイズが考慮されていない。このため、対象物からの音に関するSNRが低下する。これにより、対象物が、例えば、人であるとき、音声に関するSNRが低下するため、対象者に関する音声認識率が低下する。
また、特開2021-197658号公報に記載された収音装置では、発話側の音源方向と、画像データが示す撮像画像における受聴者の視線方向とから、収音方向が制御される。しかし、特開2021-197658号公報に記載された収音装置においても、音源がいる空間にて生じる反射音等の空間によるノイズが考慮されていない。このため、このため、音源からの音に関するSNRが低下する。これにより、音源が、例えば、人の声であるとき、音声に関するSNRが低下するため、音声認識率が低下する。
これらに対して、本実施形態では、SNR推定部68は、ステップS404にて、マイクロフォン45にて集音された音のデータと、反射時間差ΔTrとに基づいて、音データに含まれる音の種類を、車室内の乗員の音声の種類と、ノイズの種類とに分類する。なお、反射時間差ΔTrは、同じマイクロフォン45に対して車室内で反射された音の到達時間差であって、音響空間Sbにて反射される音に関する値に対応する。また、乗員は、人に対応する。
これにより、音響空間Sbにて生じる反射音によるノイズが考慮されて、マイクロフォン45にて集音された音から乗員の音声が分類される。このため、分類された音声に含まれるノイズの増加が抑制されることから、音声に関するSNRの低下が抑制される。したがって、音声認識率の低下が抑制される。
また、第1実施形態のマイクシステム30では、以下に記載する効果も奏する。
[1-1]SNR推定部68は、ステップS404にて、オーディオ音時間差ΔTa、エアコン音時間差ΔTwおよび走行音時間差ΔTcに基づいて、音データに含まれる音の種類を、車室内の乗員の音声の種類と、ノイズの種類とに分類する。なお、オーディオ音時間差ΔTaは、同じマイクロフォン45に対してオーディオ12による音の到達時間差であって、同じマイクロフォン45に対して音響空間Sbにて生じる音声以外の音の到達時間差に対応する。エアコン音時間差ΔTwは、同じマイクロフォン45に対してエアコン14による音の到達時間差であって、同じマイクロフォン45に対して音響空間Sbにて生じる音声以外の音の到達時間差に対応する。走行音時間差ΔTcは、同じマイクロフォン45に対して車両5の風切り音の到達時間差であって、同じマイクロフォン45に対して音響空間Sbにて生じる音声以外の音の到達時間差に対応する。
これにより、音響空間Sbにて生じるオーディオ12、エアコン14および風切り音によるノイズが考慮されて、マイクロフォン45にて集音された音から乗員の音声が分類される。このため、分類された音声に含まれるノイズの増加が抑制されることから、音声に関するSNRの低下が抑制される。したがって、音声認識率の低下が抑制される。
[1-2]ここで、音声およびノイズによって周波数および音圧が異なるとともに、乗員によって発話ピッチPおよび発話時間差ΔTsが異なる。そこで、SNR推定部68は、ステップS404にて、周波数、音圧、発話ピッチPおよび発話時間差ΔTsに基づいて、音データに含まれる音の種類を、車室内の乗員の音声の種類と、ノイズの種類とに分類する。これにより、音データに含まれる音の種類の分類がされやすくなる。なお、発話時間差ΔTsは、マイクロフォン45間における乗員の発話による音声の到達時間差である。
[1-3]SNR推定部68は、ステップS404にて、オーディオ12の状態、エアコン14の状態、車速および車両5が走行する路面の状態に基づいて、オーディオ音時間差ΔTa、エアコン音時間差ΔTwおよび走行音時間差ΔTcを推定する。また、SNR推定部68は、これらの推定したオーディオ音時間差ΔTa、エアコン音時間差ΔTwおよび走行音時間差ΔTcに基づいて、音データに含まれる音の種類を、車室内の乗員の音声の種類と、ノイズの種類とに分類する。これにより、マイクシステム30が車両5に用いられる場合に、音響空間Sbにて生じる音声以外の音であるノイズが考慮されて、マイクロフォン45にて集音された音から乗員の音声が分類される。このため、分類された音声に含まれるノイズの増加が抑制されることから、音声に関するSNRの低下が抑制される。したがって、音声認識率の低下が抑制される。
[1-4]SNR推定部68は、ステップS408にて、ステップS406にて算出した各音声データのSNRがSN閾値SNR_th以上であるか否かを判定する。そして、SNRがSN閾値SNR_th未満であるとき、SNRが不十分であるため、SNR推定部68は、ステップS410にて、集音させるマイクロフォン45の数を現時点よりも多くすることにより、音声に関するSNRを大きくさせる。これにより、音声に関するSNRが大きくなることから、音声認識率の低下が抑制される。なお、SNR推定部68は、変更部に対応する。また、現時点は、SNRがSN閾値SNR_th未満であるときに対応する。
[1-5]ここで、上記したように、ノイズの種類の数、ノイズの音圧および音声の音圧に応じて、SNRは、異なる。また、集音させるマイクロフォン45の数が多くなることに伴って、SNRが大きくなるところ、演算負荷が大きくなる音データの入力に対する音声データの出力の応答性が低下する。そこで、SNR推定部68は、ステップS410にて、ノイズの種類の数、ノイズの音圧および音声の音圧に応じて、集音させるマイクロフォン45の増加数を変更する。これにより、マイクロフォン45の増加数が調整されるため、SNRを十分な値にまで大きくできるとともに、応答性の過剰な低下が抑制される。
(第2実施形態)
第2実施形態では、空間推定部64およびSNR推定部68の処理が第1実施形態と異なる。これ以外は、第1実施形態と同様である。まず、第2実施形態における空間推定部64の処理について図13のフローチャートを参照して説明する。
ステップS200において、空間推定部64は、車室内の音響空間Sbの大きさと、車室内の物の位置、種類および大きさと、ウィンドウ開度とに応じた信号を環境センサ54から取得する。
続いて、ステップS202において、空間推定部64は、ステップS200にて取得した信号から、車室内の音響空間Sbの大きさと、車室内の物の位置、種類および大きさと、ウィンドウ開度とを推定する。これにより、空間推定部64は、車室内の音響空間Sbの状態を推定する。
続いて、ステップS204において、空間推定部64は、ステップS202にて推定した空間状態が変化したか否かを判定する。例えば、空間推定部64は、今回制御周期における車室内の音響空間Sbの大きさと前回制御周期における車室内の音響空間Sbの大きさとの差の絶対値が閾値以上であるとき、空間状態が変化したと判定する。また、空間推定部64は、今回制御周期における車室内の物の位置の各座標と前回制御周期における車室内の物の位置の各座標との差の絶対値が閾値以上であるとき、空間状態が変化したと判定する。さらに、空間推定部64は、今回制御周期における車室内の物の種類が前回制御周期における車室内の物の種類と異なっているとき、空間状態が変化したと判定する。また、空間推定部64は、今回制御周期における車室内の物の大きさと前回制御周期における車室内の物の大きさとの差の絶対値が閾値以上であるとき、空間状態が変化したと判定する。なお、上記各閾値は、空間状態が変化したと判定されるように、実験やシミュレーション、機械学習等により設定される。
さらに、今回制御周期における車室内の音響空間Sbの大きさと前回制御周期における車室内の音響空間Sbの大きさとの差の絶対値が閾値未満であるとする。また、今回制御周期における車室内の物の位置の各座標と前回制御周期における車室内の物の位置の各座標との差の絶対値が閾値未満であるとする。さらに、今回制御周期における車室内の物の種類が前回制御周期における車室内の物の種類と同じであるとする。また、今回制御周期における車室内の物の大きさと前回制御周期における車室内の物の大きさとの差の絶対値が閾値未満であるとする。このとき、空間推定部64は、空間状態が変化していないと判定する。
ステップS204に続くステップS206において、空間状態が変化していないため、空間推定部64は、ステップS202にて推定した車室内の音響空間Sbの状態に応じた信号をSNR推定部68に出力する。その後、空間推定部64の処理は、ステップS200に戻る。
ステップS204に続くステップS208において、空間推定部64は、後述する周波数閾値、音圧閾値、ピッチ閾値、発話閾値、反射閾値、オーディオ時間差閾値、エアコン時間差閾値および走行音時間差閾値を補正するための伝達関数Gを算出する。
具体的には、空間推定部64は、スピーカからインパルス音、ホワイトノイズ、M系列等の基準音を発生させる。また、空間推定部64は、この発生させた基準音をマイクアレイ40に集音させる。さらに、空間推定部64は、マイクアレイ40にて集音された音の振幅を基準音の振幅で除算することにより、伝達関数Gを算出する。なお、基準音は、周波数が20kHz以上の超音波であって、インパルス音、ホワイトノイズ、M系列等である。また、基準音は、周波数が20~20kHzの可聴音であってもよい。
続いて、ステップS210において、空間推定部64は、ステップS202にて推定した車室内の音響空間Sbの状態に応じた信号に加えて、ステップS208にて算出した伝達関数Gに応じた信号をSNR推定部68に出力する。その後、空間推定部64の処理は、ステップS200に戻る。
以上のように、空間推定部64は、処理を行う。次に、SNR推定部68の処理について、図7のフローチャートを参照して説明する。
ステップS400において、SNR推定部68は、車室内の音響空間Sbの大きさと、車室内の物の位置、種類および大きさと、ウィンドウ開度とに加えて、伝達関数Gに応じた信号を空間推定部64から取得する。また、SNR推定部68は、車室内の乗員位置および乗員人数に応じた信号を乗員推定部62から取得する。さらに、SNR推定部68は、オーディオ12の状態、エアコン14の状態、車両5の速度および車両5が走行する路面の状態に応じた信号を車両状態推定部66から取得する。
続いて、ステップS402において、SNR推定部68は、第1実施形態と同様に、処理を行う。このため、ステップS402の処理の説明は、省略する。
ステップS402に続くステップS404において、SNR推定部68は、第1実施形態と同様に、ステップS402にて生成した音データの周波数解析を行うとともに、発話時間差ΔTs、発話ピッチPおよび反射時間差ΔTrを推定する。また、SNR推定部68は、乗員の発話による音圧、オーディオ12による音圧、エアコン14による音圧、車両5の風切り音による音圧および車両5の振動による音圧を推定する。さらに、SNR推定部68は、オーディオ音時間差ΔTa、エアコン音時間差ΔTwおよび走行音時間差ΔTcを推定する。
また、SNR推定部68は、ステップS400にて取得した伝達関数Gと、機械学習とを用いて、周波数閾値、音圧閾値、ピッチ閾値、発話閾値、反射閾値、オーディオ時間差閾値、エアコン時間差閾値および走行音時間差閾値を補正する。
そして、SNR推定部68は、周波数解析した音データと補正した周波数閾値とを用いて、音データに含まれる音の種類を、音声の種類およびノイズの種類に分類する。また、SNR推定部68は、ステップS402にて生成した音データと補正した音圧閾値とを用いて、音データに含まれる音の種類を、音声の種類およびノイズの種類に分類する。さらに、SNR推定部68は、上記にて推定した発話ピッチPと、補正したピッチ閾値とを用いて、音データに含まれる音の種類を、音声の種類およびノイズの種類に分類する。また、SNR推定部68は、上記にて推定した発話時間差ΔTsと、補正した発話閾値とを用いて、音データに含まれる音の種類を、音声の種類およびノイズの種類に分類する。さらに、SNR推定部68は、上記にて推定した反射時間差ΔTrと、補正した反射閾値とを用いて、音データに含まれる音の種類を、音声の種類およびノイズの種類に分類する。また、SNR推定部68は、上記にて推定したオーディオ音時間差ΔTaと、補正したオーディオ時間差閾値とを用いて、音データに含まれる音の種類を、音声の種類およびノイズの種類に分類する。さらに、SNR推定部68は、上記にて推定したエアコン音時間差ΔTwと、補正したエアコン時間差閾値とを用いて、音データに含まれる音の種類を、音声の種類およびノイズの種類に分類する。また、SNR推定部68は、上記にて推定した走行音時間差ΔTcと、走行音時間差閾値とを用いて、音データに含まれる音の種類を、音声の種類およびノイズの種類に分類する。これらにより、SNR推定部68は、各閾値の補正前と比較して音声についてのSNRを大きくする。
続いて、ステップS408~ステップS412において、SNR推定部68は、第1実施形態と同様に、処理を行う。このため、ステップS408~ステップS412の処理の説明は、省略する。
以上のように、SNR推定部68は、処理を行う。このような処理が行われても、上記第1実施形態と同様の効果を奏する。また、第2実施形態では、以下に記載する効果も奏する。
[2-1]空間推定部64は、ステップS208にて、基準音をマイクロフォン45に集音させたときの基準音の振幅とマイクロフォン45にて集音された音の振幅との比に関する値である伝達関数Gを算出する。また、SNR推定部68は、伝達関数Gに基づいて、周波数閾値、音圧閾値、ピッチ閾値、発話閾値、反射閾値、オーディオ時間差閾値、エアコン時間差閾値および走行音時間差閾値を補正する。これにより、SNR推定部68は、分類した音声についてのSNRを、補正前と比較して大きくさせる。このため、音声認識率の低下が抑制される。なお、空間推定部64は、算出部に対応する。
[2-2]基準音は、周波数が20kHz以上の超音波である。また、超音波は、非可聴音である。したがって、伝達関数Gを算出する際の乗員の不快感が抑制される。
(第3実施形態)
第3実施形態では、空間推定部64のステップS208の処理による伝達関数Gの算出が第2実施形態と異なる。これ以外は、第2実施形態と同様である。
ステップS208において、空間推定部64は、車室内の乗員位置および乗員人数に応じた信号を乗員推定部62から取得する。また、空間推定部64は、これらの取得した乗員位置および乗員人数と、ステップS200にて取得したウィンドウ開度と、マップとから、伝達関数Gを算出する。なお、伝達関数Gを算出するためのマップは、実験やシミュレーション等により設定される。
以上のように、第3実施形態では、空間推定部64は、伝達関数Gを算出する。このように、伝達関数Gが算出されても、上記第1実施形態と同様の効果を奏する。また、第3実施形態では、以下に記載する効果も奏する。
[3-1]空間推定部64は、ステップS208にて、乗員位置、乗員人数およびウィンドウ開度に基づく値である伝達関数Gを算出する。また、SNR推定部68は、伝達関数Gに基づいて、周波数閾値、音圧閾値、ピッチ閾値、発話閾値、反射閾値、オーディオ時間差閾値、エアコン時間差閾値および走行音時間差閾値を補正する。これにより、SNR推定部68は、分類した音声についてのSNRを、補正前と比較して大きくさせる。このため、音声認識率の低下が抑制される。
[3-2]乗員推定部62は、ステップS102にて、周波数が20kHz以上の超音波の送受信に関する値に基づいて、乗員位置および乗員人数を推定する。また、超音波は、非可聴音である。したがって、伝達関数Gを算出するためのパラメータである乗員位置および乗員人数を推定する際の乗員の不快感が抑制される。
(第4実施形態)
第4実施形態では、マイクシステム30のセンサ群50は、図14に示すように、乗員センサ52および環境センサ54に加えて、マイク位置センサ56を有する。また、SNR推定部68のステップS400およびステップS404の処理が第1実施形態と異なる。これら以外は、第1実施形態と同様である。
マイク位置センサ56は、図15に示すように、音響空間Sb内に配置されている。また、マイク位置センサ56は、超音波センサ等を用いて、絶対座標系における各マイクロフォン45の位置を検出する。さらに、マイク位置センサ56は、この検出した絶対座標系における各マイクロフォン45の位置に応じた信号をSNR推定部68に出力する。次に、SNR推定部68の処理について、図7のフローチャートを参照して説明する。
ステップS400において、SNR推定部68は、乗員推定部62、空間推定部64および車両状態推定部66から情報を取得することに加えて、絶対座標系における各マイクロフォン45の位置に応じた信号をマイク位置センサ56から取得する。
続いて、ステップS402において、SNR推定部68は、第1実施形態と同様に、処理を行う。このため、ステップS402の処理の説明は、省略する。
ステップS402に続くステップS404において、SNR推定部68は、第1実施形態と同様に、ステップS402にて生成した音データの周波数解析を行うとともに、発話時間差ΔTs、発話ピッチPおよび反射時間差ΔTrを推定する。また、SNR推定部68は、乗員の発話による音圧、オーディオ12による音圧、エアコン14による音圧、車両5の風切り音による音圧および車両5の振動による音圧を推定する。さらに、SNR推定部68は、オーディオ音時間差ΔTa、エアコン音時間差ΔTwおよび走行音時間差ΔTcを推定する。
また、SNR推定部68は、ステップS400にて取得した絶対座標系における各マイクロフォン45の位置と、機械学習とを用いて、周波数閾値、音圧閾値、ピッチ閾値および発話閾値を補正する。さらに、SNR推定部68は、ステップS400にて取得した絶対座標系における各マイクロフォン45の位置と、機械学習とを用いて、反射閾値、オーディオ時間差閾値、エアコン時間差閾値および走行音時間差閾値を補正する。
そして、SNR推定部68は、周波数解析した音データと補正した周波数閾値とを用いて、音データに含まれる音の種類を、音声の種類およびノイズの種類に分類する。また、SNR推定部68は、ステップS402にて生成した音データと補正した音圧閾値とを用いて、音データに含まれる音の種類を、音声の種類およびノイズの種類に分類する。さらに、SNR推定部68は、上記にて推定した発話ピッチPと、補正したピッチ閾値とを用いて、音データに含まれる音の種類を、音声の種類およびノイズの種類に分類する。また、SNR推定部68は、上記にて推定した発話時間差ΔTsと、補正した発話閾値とを用いて、音データに含まれる音の種類を、音声の種類およびノイズの種類に分類する。さらに、SNR推定部68は、上記にて推定した反射時間差ΔTrと、補正した反射閾値とを用いて、音データに含まれる音の種類を、音声の種類およびノイズの種類に分類する。また、SNR推定部68は、上記にて推定したオーディオ音時間差ΔTaと、補正したオーディオ時間差閾値とを用いて、音データに含まれる音の種類を、音声の種類およびノイズの種類に分類する。さらに、SNR推定部68は、上記にて推定したエアコン音時間差ΔTwと、補正したエアコン時間差閾値とを用いて、音データに含まれる音の種類を、音声の種類およびノイズの種類に分類する。また、SNR推定部68は、上記にて推定した走行音時間差ΔTcと、走行音時間差閾値とを用いて、音データに含まれる音の種類を、音声の種類およびノイズの種類に分類する。これらにより、SNR推定部68は、各閾値の補正前と比較して音声についてのSNRを大きくする。
続いて、ステップS408~ステップS412において、SNR推定部68は、第1実施形態と同様に、処理を行う。このため、ステップS408~ステップS412の処理の説明は、省略する。
以上のように、SNR推定部68は、処理を行う。このように、第4実施形態のSNR推定部68による処理が行われても、第1実施形態と同様の効果を奏する。また、第4実施形態では、下記に記載する効果も奏する。
[4]ここで、マイクロフォン45の位置が変更されると、マイクロフォン45にて集音される音データが変化するため、音声についてのSNRが変化する。そこで、SNR推定部68は、マイクロフォン45の位置に基づいて、周波数閾値、音圧閾値、ピッチ閾値、発話閾値、反射閾値、オーディオ時間差閾値、エアコン時間差閾値および走行音時間差閾値を補正する。これにより、SNR推定部68は、分類した音声についてのSNRを、補正前と比較して大きくさせる。このため、音声認識率の低下が抑制される。
(他の実施形態)
本開示は、上記実施形態に限定されるものではなく、上記実施形態に対して、適宜変更が可能である。また、上記各実施形態において、実施形態を構成する要素は、特に必須であると明示した場合および原理的に明らかに必須であると考えられる場合等を除き、必ずしも必須のものではないことは言うまでもない。
本開示に記載の集音部、クラスタリング部、出力部、算出部、変更部、推定部およびその手法は、コンピュータプログラムにより具体化された一つ乃至は複数の機能を実行するようにプログラムされたプロセッサおよびメモリを構成することによって提供された専用コンピュータにより、実現されてもよい。あるいは、本開示に記載の集音部、クラスタリング部、出力部、算出部、変更部、推定部およびその手法は、一つ以上の専用ハードウエア論理回路によってプロセッサを構成することによって提供された専用コンピュータにより、実現されてもよい。もしくは、本開示に記載の集音部、クラスタリング部、出力部、算出部、変更部、推定部およびその手法は、一つ乃至は複数の機能を実行するようにプログラムされたプロセッサおよびメモリと一つ以上のハードウエア論理回路によって構成されたプロセッサとの組み合わせにより構成された一つ以上の専用コンピュータにより、実現されてもよい。また、コンピュータプログラムは、コンピュータにより実行されるインストラクションとして、コンピュータ読み取り可能な非遷移有形記録媒体に記憶されていてもよい。
上記各実施形態では、音声の種類およびノイズの種類を分類するための周波数閾値、音圧閾値、ピッチ閾値、発話閾値、反射閾値、オーディオ時間差閾値、エアコン時間差閾値および走行音時間差閾値の数は、それぞれ1つとされている。これに対して、各閾値の数は、1つであることに限定されないで、2つ以上であってもよい。
上記各実施形態では、音データに含まれる音の種類を音声の種類およびノイズの種類に分類するためのパラメータは、音声の数と、発話時間差ΔTsと、音データの周波数成分と、発話ピッチPと、反射時間差ΔTrとである。また、音データに含まれる音の種類を音声の種類およびノイズの種類に分類するためのパラメータは、乗員の発話による音圧と、オーディオ12による音圧と、エアコン14による音圧と、車両5の風切り音による音圧と、車両5の振動による音圧とである。さらに、音データに含まれる音の種類を音声の種類およびノイズの種類に分類するためのパラメータは、オーディオ音時間差ΔTaと、エアコン音時間差ΔTwと、走行音時間差ΔTcとである。これに対して、SNR推定部68は、上記全てのパラメータを用いて、音データに含まれる音の種類を音声の種類およびノイズの種類に分類することに限定されない。SNR推定部68は、上記パラメータの少なくとも1つを用いて、音データに含まれる音の種類を音声の種類およびノイズの種類に分類してもよい。
上記各実施形態では、音響空間Sbにて反射される音に関する値は、反射時間差ΔTrである。これに対して、音響空間Sbにて反射される音に関する値は、反射時間差ΔTrであることに限定されない。車室内の音響空間Sbの状態によって、反射音の反射率および減衰率が異なることから、音響空間Sbにて反射される音に関する値は、例えば、音響空間Sbにて反射される音の音圧であってもよい。
上記各実施形態は、適宜組み合わされてもよい。
(本発明の特徴)
[請求項1]
少なくとも1つのマイクロフォン(45)に音を集音させる集音部(S402)と、
前記マイクロフォンが配置されている空間である音響空間(Sb)にて反射される音に関する値(ΔTr)に基づいて、前記マイクロフォンにて集音された音に関するデータである音データに含まれる音の種類を、前記音響空間にいる人の音声の種類と、前記音声以外の音であるノイズの種類とに分類するクラスタリング部(S404)と、
分類した前記音声に関するデータを音声認識装置(20)に出力する出力部(S412)と、
を備えるマイクシステム。
[請求項2]
前記マイクシステムは、基準音を前記マイクロフォンに集音させたときの前記基準音の振幅と前記マイクロフォンにて集音された音の振幅との比に関する値である伝達関数(G)を算出する算出部(S208)をさらに備え、
前記クラスタリング部は、前記音響空間にて反射される音に関する値と反射閾値とを用いて分類し、前記伝達関数に基づいて前記反射閾値を補正することにより、分類した前記音声についてのSNRを、前記反射閾値を補正する前と比較して大きくさせる請求項1に記載のマイクシステム。
[請求項3]
前記マイクシステムは、車両(5)の乗員位置、乗員人数および前記車両のサイドウィンドウの開度に基づく値である伝達関数(G)を算出する算出部(S208)をさらに備え、
前記クラスタリング部は、前記音響空間にて反射される音に関する値と反射閾値とを用いて分類し、前記伝達関数に基づいて前記反射閾値を補正することにより、分類した前記音声についてのSNRを、前記反射閾値を補正する前と比較して大きくさせる請求項1に記載のマイクシステム。
[請求項4]
前記クラスタリング部は、前記音響空間にて反射される音に関する値と反射閾値とを用いて分類し、前記マイクロフォンの位置に基づいて前記反射閾値を補正することにより、分類した前記音声についてのSNRを、前記反射閾値を補正する前と比較して大きくさせる請求項1に記載のマイクシステム。
[請求項5]
前記クラスタリング部は、同じ前記マイクロフォンに対して前記音響空間にて生じる前記音声以外の音の到達時間差に関する値(ΔTa、ΔTw、ΔTc)に基づいて、前記音データに含まれる音の種類を、前記音声の種類と前記ノイズの種類とに分類する請求項1に記載のマイクシステム。
[請求項6]
前記マイクシステムは、基準音を前記マイクロフォンに集音させたときの前記基準音の振幅と前記マイクロフォンにて集音された音に振幅との比に関する値である伝達関数(G)を算出する算出部(S208)をさらに備え、
前記クラスタリング部は、前記到達時間差に関する値と時間差閾値とを用いて分類し、前記伝達関数に基づいて前記時間差閾値を補正することにより、分類した前記音声についてのSNRを、前記時間差閾値を補正する前と比較して大きくさせる請求項5に記載のマイクシステム。
[請求項7]
前記マイクシステムは、車両(5)の乗員位置、乗員人数および前記車両のサイドウィンドウの開度に基づく値である伝達関数(G)を算出する算出部(S208)をさらに備え、
前記クラスタリング部は、前記到達時間差に関する値と時間差閾値とを用いて分類し、前記伝達関数に基づいて前記時間差閾値を補正することにより、分類した前記音声についてのSNRを、前記時間差閾値を補正する前と比較して大きくさせる請求項5に記載のマイクシステム。
[請求項8]
前記クラスタリング部は、前記到達時間差に関する値と時間差閾値とを用いて分類し、前記マイクロフォンの位置に基づいて前記時間差閾値を補正することにより、分類した前記音声についてのSNRを、前記時間差閾値を補正する前と比較して大きくさせる請求項5に記載のマイクシステム。
[請求項9]
前記クラスタリング部は、前記音データの音圧に関する値に基づいて、前記音データに含まれる音の種類を、前記音声の種類と前記ノイズの種類とに分類する請求項1に記載のマイクシステム。
[請求項10]
前記マイクシステムは、基準音を前記マイクロフォンに集音させたときの前記基準音の振幅と前記マイクロフォンにて集音された音に振幅との比に関する値である伝達関数(G)を算出する算出部(S208)をさらに備え、
前記クラスタリング部は、前記音データの音圧に関する値と音圧閾値とを用いて分類し、前記伝達関数に基づいて前記音圧閾値を補正することにより、分類した前記音声についてのSNRを、前記音圧閾値を補正する前と比較して大きくさせる請求項9に記載のマイクシステム。
[請求項11]
前記マイクシステムは、車両(5)の乗員位置、乗員人数および前記車両のサイドウィンドウの開度に基づく値である伝達関数(G)を算出する算出部(S208)をさらに備え、
前記クラスタリング部は、前記音データの音圧に関する値と音圧閾値とを用いて分類し、前記伝達関数に基づいて前記音圧閾値を補正することにより、分類した前記音声についてのSNRを、前記音圧閾値を補正する前と比較して大きくさせる請求項9に記載のマイクシステム。
[請求項12]
前記クラスタリング部は、前記音データの音圧に関する値と音圧閾値とを用いて分類し、前記マイクロフォンの位置に基づいて前記音圧閾値を補正することにより、分類した前記音声についてのSNRを、前記音圧閾値を補正する前と比較して大きくさせる請求項9に記載のマイクシステム。
[請求項13]
前記クラスタリング部は、前記人による発話の1音間の間隔である発話ピッチ(P)に関する値に基づいて、前記音データに含まれる音の種類を、前記音声の種類と前記ノイズの種類とに分類する請求項1に記載のマイクシステム。
[請求項14]
前記マイクシステムは、基準音を前記マイクロフォンに集音させたときの前記基準音の振幅と前記マイクロフォンにて集音された音に振幅との比に関する値である伝達関数(G)を算出する算出部(S208)をさらに備え、
前記クラスタリング部は、前記発話ピッチに関する値とピッチ閾値とを用いて分類し、前記伝達関数に基づいて前記ピッチ閾値を補正することにより、分類した前記音声についてのSNRを、前記ピッチ閾値を補正する前と比較して大きくさせる請求項13に記載のマイクシステム。
[請求項15]
前記マイクシステムは、車両(5)の乗員位置、乗員人数および前記車両のサイドウィンドウの開度に基づく値である伝達関数(G)を算出する算出部(S208)をさらに備え、
前記クラスタリング部は、前記発話ピッチに関する値とピッチ閾値とに基づいて前記音声の種類と前記ノイズの種類とに分類し、前記伝達関数に基づいて前記ピッチ閾値を補正することにより、分類した前記音声についてのSNRを、前記ピッチ閾値を補正する前と比較して大きくさせる請求項13に記載のマイクシステム。
[請求項16]
前記クラスタリング部は、前記発話ピッチに関する値とピッチ閾値とを用いて分類し、前記マイクロフォンの位置に基づいて前記ピッチ閾値を補正することにより、分類した前記音声についてのSNRを、前記ピッチ閾値を補正する前と比較して大きくさせる請求項13に記載のマイクシステム。
[請求項17]
前記マイクロフォンは、複数であって、
前記クラスタリング部は、前記マイクロフォン間における前記音声の到達時間差(ΔTs)に関する値に基づいて、前記音データに含まれる音の種類を、前記音声の種類と前記ノイズの種類とに分類する請求項1に記載のマイクシステム。
[請求項18]
前記マイクシステムは、基準音を前記マイクロフォンに集音させたときの前記基準音の振幅と前記マイクロフォンにて集音された音に振幅との比に関する値である伝達関数(G)を算出する算出部(S208)をさらに備え、
前記クラスタリング部は、前記到達時間差に関する値と発話閾値とを用いて分類し、前記伝達関数に基づいて前記発話閾値を補正することにより、分類した前記音声についてのSNRを、前記発話閾値を補正する前と比較して大きくさせる請求項17に記載のマイクシステム。
[請求項19]
前記マイクシステムは、車両(5)の乗員位置、乗員人数および前記車両のサイドウィンドウの開度に基づく値である伝達関数(G)を算出する算出部(S208)をさらに備え、
前記クラスタリング部は、前記到達時間差に関する値と発話閾値とを用いて分類し、前記伝達関数に基づいて前記発話閾値を補正することにより、分類した前記音声についてのSNRを、前記発話閾値を補正する前と比較して大きくさせる請求項17に記載のマイクシステム。
[請求項20]
前記クラスタリング部は、前記到達時間差に関する値と発話閾値とを用いて分類し、前記マイクロフォンの位置に基づいて前記発話閾値を補正することにより、分類した前記音声についてのSNRを、前記発話閾値を補正する前と比較して大きくさせる請求項17に記載のマイクシステム。
[請求項21]
前記クラスタリング部は、前記音データの周波数成分に関する値に基づいて、前記音データに含まれる音の種類を、前記音声の種類と前記ノイズの種類とに分類する請求項1に記載のマイクシステム。
[請求項22]
前記マイクシステムは、基準音を前記マイクロフォンに集音させたときの前記基準音の振幅と前記マイクロフォンにて集音された音に振幅との比に関する値である伝達関数(G)を算出する算出部(S208)をさらに備え、
前記クラスタリング部は、前記周波数成分に関する値と周波数閾値とを用いて分類し、前記伝達関数に基づいて前記周波数閾値を補正することにより、分類した前記音声についてのSNRを、前記周波数閾値を補正する前と比較して大きくさせる請求項21に記載のマイクシステム。
[請求項23]
前記マイクシステムは、車両(5)の乗員位置、乗員人数および前記車両のサイドウィンドウの開度に基づく値である伝達関数(G)を算出する算出部(S208)をさらに備え、
前記クラスタリング部は、前記周波数成分に関する値と周波数閾値とを用いて分類し、前記伝達関数に基づいて前記周波数閾値を補正することにより、分類した前記音声についてのSNRを、前記周波数閾値を補正する前と比較して大きくさせる請求項21に記載のマイクシステム。
[請求項24]
前記クラスタリング部は、前記周波数成分に関する値と周波数閾値とを用いて分類し、前記マイクロフォンの位置に基づいて前記周波数閾値を補正することにより、分類した前記音声についてのSNRを、前記周波数閾値を補正する前と比較して大きくさせる請求項21に記載のマイクシステム。
[請求項25]
前記クラスタリング部は、車両(5)のオーディオ(12)およびエアコン(14)の状態と、前記車両の速さと、前記車両が走行する路面の状態とに基づいて、前記音データに含まれる音の種類を、前記音声の種類と前記ノイズの種類とに分類する請求項1に記載のマイクシステム。
[請求項26]
前記音声についてのSNRに関する値が閾値(SNR_th)未満であるとき、集音させる前記マイクロフォンの数を現時点よりも多くすることにより、分類した前記音声についてのSNRを、集音させる前記マイクロフォンの数を増加させる前と比較して大きくさせる変更部(S408、S410)をさらに備える請求項1ないし25のいずれか1つに記載のマイクシステム。
[請求項27]
前記変更部は、前記ノイズの種類の数に関する値に応じて、集音させる前記マイクロフォンの増加数を変更する請求項26に記載のマイクシステム。
[請求項28]
前記変更部は、前記ノイズの音圧に関する値に応じて、集音させる前記マイクロフォンの増加数を変更する請求項26または27に記載のマイクシステム。
[請求項29]
前記変更部は、前記音声の音圧に関する値に応じて、集音させる前記マイクロフォンの増加数を変更する請求項26ないし28のいずれか1つに記載のマイクシステム。
[請求項30]
前記基準音は、周波数が20kHz以上の超音波である請求項2、6、10、14、18、22のいずれか1つに記載のマイクシステム。
[請求項31]
周波数が20kHz以上の超音波の送受信に関する値に基づいて、前記乗員位置および前記乗員人数を推定する推定部(S102)をさらに備える請求項3、7、11、15、19、23のいずれか1つに記載のマイクシステム。
[請求項32]
前記クラスタリング部は、前記音データと、前記音響空間の大きさと、前記音響空間にある物の位置および大きさとに基づいて、前記音響空間にて反射される音に関する値を推定する請求項1ないし31のいずれか1つに記載のマイクシステム。
10 車両システム
30 マイクシステム
40 マイクアレイ
45 マイクロフォン
50 センサ群
60 演算装置
62 乗員推定部
64 空間推定部
66 車両状態推定部
68 SNR推定部

Claims (32)

  1. 少なくとも1つのマイクロフォン(45)に音を集音させる集音部(S402)と、
    前記マイクロフォンが配置されている空間である音響空間(Sb)にて反射される音に関する値(ΔTr)に基づいて、前記マイクロフォンにて集音された音に関するデータである音データに含まれる音の種類を、前記音響空間にいる人の音声の種類と、前記音声以外の音であるノイズの種類とに分類するクラスタリング部(S404)と、
    分類した前記音声に関するデータを音声認識装置(20)に出力する出力部(S412)と、
    を備えるマイクシステム。
  2. 前記マイクシステムは、基準音を前記マイクロフォンに集音させたときの前記基準音の振幅と前記マイクロフォンにて集音された音の振幅との比に関する値である伝達関数(G)を算出する算出部(S208)をさらに備え、
    前記クラスタリング部は、前記音響空間にて反射される音に関する値と反射閾値とを用いて分類し、前記伝達関数に基づいて前記反射閾値を補正することにより、分類した前記音声についてのSNRを、前記反射閾値を補正する前と比較して大きくさせる請求項1に記載のマイクシステム。
  3. 前記マイクシステムは、車両(5)の乗員位置、乗員人数および前記車両のサイドウィンドウの開度に基づく値である伝達関数(G)を算出する算出部(S208)をさらに備え、
    前記クラスタリング部は、前記音響空間にて反射される音に関する値と反射閾値とを用いて分類し、前記伝達関数に基づいて前記反射閾値を補正することにより、分類した前記音声についてのSNRを、前記反射閾値を補正する前と比較して大きくさせる請求項1に記載のマイクシステム。
  4. 前記クラスタリング部は、前記音響空間にて反射される音に関する値と反射閾値とを用いて分類し、前記マイクロフォンの位置に基づいて前記反射閾値を補正することにより、分類した前記音声についてのSNRを、前記反射閾値を補正する前と比較して大きくさせる請求項1に記載のマイクシステム。
  5. 前記クラスタリング部は、同じ前記マイクロフォンに対して前記音響空間にて生じる前記音声以外の音の到達時間差に関する値(ΔTa、ΔTw、ΔTc)に基づいて、前記音データに含まれる音の種類を、前記音声の種類と前記ノイズの種類とに分類する請求項1に記載のマイクシステム。
  6. 前記マイクシステムは、基準音を前記マイクロフォンに集音させたときの前記基準音の振幅と前記マイクロフォンにて集音された音に振幅との比に関する値である伝達関数(G)を算出する算出部(S208)をさらに備え、
    前記クラスタリング部は、前記到達時間差に関する値と時間差閾値とを用いて分類し、前記伝達関数に基づいて前記時間差閾値を補正することにより、分類した前記音声についてのSNRを、前記時間差閾値を補正する前と比較して大きくさせる請求項5に記載のマイクシステム。
  7. 前記マイクシステムは、車両(5)の乗員位置、乗員人数および前記車両のサイドウィンドウの開度に基づく値である伝達関数(G)を算出する算出部(S208)をさらに備え、
    前記クラスタリング部は、前記到達時間差に関する値と時間差閾値とを用いて分類し、前記伝達関数に基づいて前記時間差閾値を補正することにより、分類した前記音声についてのSNRを、前記時間差閾値を補正する前と比較して大きくさせる請求項5に記載のマイクシステム。
  8. 前記クラスタリング部は、前記到達時間差に関する値と時間差閾値とを用いて分類し、前記マイクロフォンの位置に基づいて前記時間差閾値を補正することにより、分類した前記音声についてのSNRを、前記時間差閾値を補正する前と比較して大きくさせる請求項5に記載のマイクシステム。
  9. 前記クラスタリング部は、前記音データの音圧に関する値に基づいて、前記音データに含まれる音の種類を、前記音声の種類と前記ノイズの種類とに分類する請求項1に記載のマイクシステム。
  10. 前記マイクシステムは、基準音を前記マイクロフォンに集音させたときの前記基準音の振幅と前記マイクロフォンにて集音された音に振幅との比に関する値である伝達関数(G)を算出する算出部(S208)をさらに備え、
    前記クラスタリング部は、前記音データの音圧に関する値と音圧閾値とを用いて分類し、前記伝達関数に基づいて前記音圧閾値を補正することにより、分類した前記音声についてのSNRを、前記音圧閾値を補正する前と比較して大きくさせる請求項9に記載のマイクシステム。
  11. 前記マイクシステムは、車両(5)の乗員位置、乗員人数および前記車両のサイドウィンドウの開度に基づく値である伝達関数(G)を算出する算出部(S208)をさらに備え、
    前記クラスタリング部は、前記音データの音圧に関する値と音圧閾値とを用いて分類し、前記伝達関数に基づいて前記音圧閾値を補正することにより、分類した前記音声についてのSNRを、前記音圧閾値を補正する前と比較して大きくさせる請求項9に記載のマイクシステム。
  12. 前記クラスタリング部は、前記音データの音圧に関する値と音圧閾値とを用いて分類し、前記マイクロフォンの位置に基づいて前記音圧閾値を補正することにより、分類した前記音声についてのSNRを、前記音圧閾値を補正する前と比較して大きくさせる請求項9に記載のマイクシステム。
  13. 前記クラスタリング部は、前記人による発話の1音間の間隔である発話ピッチ(P)に関する値に基づいて、前記音データに含まれる音の種類を、前記音声の種類と前記ノイズの種類とに分類する請求項1に記載のマイクシステム。
  14. 前記マイクシステムは、基準音を前記マイクロフォンに集音させたときの前記基準音の振幅と前記マイクロフォンにて集音された音に振幅との比に関する値である伝達関数(G)を算出する算出部(S208)をさらに備え、
    前記クラスタリング部は、前記発話ピッチに関する値とピッチ閾値とを用いて分類し、前記伝達関数に基づいて前記ピッチ閾値を補正することにより、分類した前記音声についてのSNRを、前記ピッチ閾値を補正する前と比較して大きくさせる請求項13に記載のマイクシステム。
  15. 前記マイクシステムは、車両(5)の乗員位置、乗員人数および前記車両のサイドウィンドウの開度に基づく値である伝達関数(G)を算出する算出部(S208)をさらに備え、
    前記クラスタリング部は、前記発話ピッチに関する値とピッチ閾値とに基づいて前記音声の種類と前記ノイズの種類とに分類し、前記伝達関数に基づいて前記ピッチ閾値を補正することにより、分類した前記音声についてのSNRを、前記ピッチ閾値を補正する前と比較して大きくさせる請求項13に記載のマイクシステム。
  16. 前記クラスタリング部は、前記発話ピッチに関する値とピッチ閾値とを用いて分類し、前記マイクロフォンの位置に基づいて前記ピッチ閾値を補正することにより、分類した前記音声についてのSNRを、前記ピッチ閾値を補正する前と比較して大きくさせる請求項13に記載のマイクシステム。
  17. 前記マイクロフォンは、複数であって、
    前記クラスタリング部は、前記マイクロフォン間における前記音声の到達時間差(ΔTs)に関する値に基づいて、前記音データに含まれる音の種類を、前記音声の種類と前記ノイズの種類とに分類する請求項1に記載のマイクシステム。
  18. 前記マイクシステムは、基準音を前記マイクロフォンに集音させたときの前記基準音の振幅と前記マイクロフォンにて集音された音に振幅との比に関する値である伝達関数(G)を算出する算出部(S208)をさらに備え、
    前記クラスタリング部は、前記到達時間差に関する値と発話閾値とを用いて分類し、前記伝達関数に基づいて前記発話閾値を補正することにより、分類した前記音声についてのSNRを、前記発話閾値を補正する前と比較して大きくさせる請求項17に記載のマイクシステム。
  19. 前記マイクシステムは、車両(5)の乗員位置、乗員人数および前記車両のサイドウィンドウの開度に基づく値である伝達関数(G)を算出する算出部(S208)をさらに備え、
    前記クラスタリング部は、前記到達時間差に関する値と発話閾値とを用いて分類し、前記伝達関数に基づいて前記発話閾値を補正することにより、分類した前記音声についてのSNRを、前記発話閾値を補正する前と比較して大きくさせる請求項17に記載のマイクシステム。
  20. 前記クラスタリング部は、前記到達時間差に関する値と発話閾値とを用いて分類し、前記マイクロフォンの位置に基づいて前記発話閾値を補正することにより、分類した前記音声についてのSNRを、前記発話閾値を補正する前と比較して大きくさせる請求項17に記載のマイクシステム。
  21. 前記クラスタリング部は、前記音データの周波数成分に関する値に基づいて、前記音データに含まれる音の種類を、前記音声の種類と前記ノイズの種類とに分類する請求項1に記載のマイクシステム。
  22. 前記マイクシステムは、基準音を前記マイクロフォンに集音させたときの前記基準音の振幅と前記マイクロフォンにて集音された音に振幅との比に関する値である伝達関数(G)を算出する算出部(S208)をさらに備え、
    前記クラスタリング部は、前記周波数成分に関する値と周波数閾値とを用いて分類し、前記伝達関数に基づいて前記周波数閾値を補正することにより、分類した前記音声についてのSNRを、前記周波数閾値を補正する前と比較して大きくさせる請求項21に記載のマイクシステム。
  23. 前記マイクシステムは、車両(5)の乗員位置、乗員人数および前記車両のサイドウィンドウの開度に基づく値である伝達関数(G)を算出する算出部(S208)をさらに備え、
    前記クラスタリング部は、前記周波数成分に関する値と周波数閾値とを用いて分類し、前記伝達関数に基づいて前記周波数閾値を補正することにより、分類した前記音声についてのSNRを、前記周波数閾値を補正する前と比較して大きくさせる請求項21に記載のマイクシステム。
  24. 前記クラスタリング部は、前記周波数成分に関する値と周波数閾値とを用いて分類し、前記マイクロフォンの位置に基づいて前記周波数閾値を補正することにより、分類した前記音声についてのSNRを、前記周波数閾値を補正する前と比較して大きくさせる請求項21に記載のマイクシステム。
  25. 前記クラスタリング部は、車両(5)のオーディオ(12)およびエアコン(14)の状態と、前記車両の速さと、前記車両が走行する路面の状態とに基づいて、前記音データに含まれる音の種類を、前記音声の種類と前記ノイズの種類とに分類する請求項1に記載のマイクシステム。
  26. 前記音声についてのSNRに関する値が閾値(SNR_th)未満であるとき、集音させる前記マイクロフォンの数を現時点よりも多くすることにより、分類した前記音声についてのSNRを、集音させる前記マイクロフォンの数を増加させる前と比較して大きくさせる変更部(S408、S410)をさらに備える請求項1ないし25のいずれか1つに記載のマイクシステム。
  27. 前記変更部は、前記ノイズの種類の数に関する値に応じて、集音させる前記マイクロフォンの増加数を変更する請求項26に記載のマイクシステム。
  28. 前記変更部は、前記ノイズの音圧に関する値に応じて、集音させる前記マイクロフォンの増加数を変更する請求項26に記載のマイクシステム。
  29. 前記変更部は、前記音声の音圧に関する値に応じて、集音させる前記マイクロフォンの増加数を変更する請求項26に記載のマイクシステム。
  30. 前記基準音は、周波数が20kHz以上の超音波である請求項2、6、10、14、18、22のいずれか1つに記載のマイクシステム。
  31. 周波数が20kHz以上の超音波の送受信に関する値に基づいて、前記乗員位置および前記乗員人数を推定する推定部(S102)をさらに備える請求項3、7、11、15、19、23のいずれか1つに記載のマイクシステム。
  32. 前記クラスタリング部は、前記音データと、前記音響空間の大きさと、前記音響空間にある物の位置および大きさとに基づいて、前記音響空間にて反射される音に関する値を推定する請求項1ないし5、9、13、17、21のいずれか1つに記載のマイクシステム。
JP2022093838A 2022-06-09 2022-06-09 マイクシステム Pending JP2023180483A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022093838A JP2023180483A (ja) 2022-06-09 2022-06-09 マイクシステム
US18/320,656 US20230402049A1 (en) 2022-06-09 2023-05-19 Microphone system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022093838A JP2023180483A (ja) 2022-06-09 2022-06-09 マイクシステム

Publications (1)

Publication Number Publication Date
JP2023180483A true JP2023180483A (ja) 2023-12-21

Family

ID=89076648

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022093838A Pending JP2023180483A (ja) 2022-06-09 2022-06-09 マイクシステム

Country Status (2)

Country Link
US (1) US20230402049A1 (ja)
JP (1) JP2023180483A (ja)

Also Published As

Publication number Publication date
US20230402049A1 (en) 2023-12-14

Similar Documents

Publication Publication Date Title
US9595251B2 (en) Sound placement of comfort zones
TWI442384B (zh) 以麥克風陣列為基礎之語音辨識系統與方法
ES2377056T3 (es) Procedimiento de filtrado de los ruidos laterales no estacionarios para un dispositivo de audio multimicrófono, en particular un dispositivo telefónico "manos libres" para vehículo automóvil
CN105835804B (zh) 用于监测车辆后部乘客就坐区域的方法和设备
KR101669866B1 (ko) 음향 신호 조정
JP5543023B2 (ja) 目的音強調装置およびカーナビゲーションシステム
US9240176B2 (en) Active noise control system and method
US9508344B2 (en) Automatic volume control based on speech recognition
US9959886B2 (en) Spectral comb voice activity detection
JP6352259B2 (ja) 制御装置、及び、制御方法
CN109429144A (zh) 用于消除车厢中的不良风噪声的系统和方法
US11393444B2 (en) Noise suppressor for a vehicle and noise suppressing method for a vehicle
CN106992002A (zh) 用于改进含噪语音识别的动态声学模型切换
US11211080B2 (en) Conversation dependent volume control
CN110865788A (zh) 交通工具通信系统和操作交通工具通信系统的方法
JP2023180483A (ja) マイクシステム
JP6872710B2 (ja) 指向性制御装置および指向性制御方法
JP2005303574A (ja) 音声認識ヘッドセット
JP2009073417A (ja) 騒音制御装置および方法
KR20230084154A (ko) 동적 분류기를 사용한 사용자 음성 활동 검출
JPH07219560A (ja) 能動型騒音制御装置
JP6862797B2 (ja) 会話アシスト装置
JP7337965B2 (ja) 発話者推定装置
US12128843B2 (en) Occupied seat detection device, occupied seat detection method, and non-transitory computer-readable recording medium
WO2021256303A1 (ja) 着座検知装置、着座検知方法、及び、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240909