JP6635394B1 - 音声処理装置および音声処理方法 - Google Patents

音声処理装置および音声処理方法 Download PDF

Info

Publication number
JP6635394B1
JP6635394B1 JP2019013446A JP2019013446A JP6635394B1 JP 6635394 B1 JP6635394 B1 JP 6635394B1 JP 2019013446 A JP2019013446 A JP 2019013446A JP 2019013446 A JP2019013446 A JP 2019013446A JP 6635394 B1 JP6635394 B1 JP 6635394B1
Authority
JP
Japan
Prior art keywords
speaker
voice
audio
filter
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019013446A
Other languages
English (en)
Other versions
JP2020122835A (ja
Inventor
正成 宮本
正成 宮本
宏正 大橋
宏正 大橋
田中 直也
直也 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2019013446A priority Critical patent/JP6635394B1/ja
Application granted granted Critical
Priority to CN202010074485.4A priority patent/CN111489750A/zh
Publication of JP6635394B1 publication Critical patent/JP6635394B1/ja
Priority to US16/751,857 priority patent/US11089404B2/en
Publication of JP2020122835A publication Critical patent/JP2020122835A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • H04R3/14Cross-over networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/403Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers loud-speakers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

【課題】マイクにより収音された話者本人の発する音声の音質の劣化を抑制する。【解決手段】音声処理装置は、n人の人物のそれぞれに対応して配置され、それぞれの対応する人物の発する音声信号を主に収音するn個のマイクと、n個のマイクのそれぞれにより収音された音声信号を用いて、少なくとも1人の話者に対応するマイクにより収音された話者音声信号に含まれるクロストーク成分を抑圧するフィルタと、少なくとも1人の話者が発話する時を含む所定の条件を満たす場合に、クロストーク成分を抑圧するためのフィルタのパラメータを更新し、その更新結果をメモリに保持するパラメータ更新部と、話者音声信号から、更新結果に基づいてフィルタにより抑圧されたクロストーク成分を減算した音声信号をスピーカから出力する音声出力制御部と、を備える。【選択図】図2

Description

本開示は、音声処理装置および音声処理方法に関する。
例えばミニバン、ワゴン車、ワンボックスカー等、車体の前後方向に複数(例えば2列以上)の座席(シート)が配置された比較的大きな車両において、運転席に座る運転者と後部座席に座る乗員(例えば運転者の家族あるいは友人)との間で会話をしたり、後部座席までカーオーディオの音楽を流したりして、それぞれの席に設置されたマイクとスピーカを用いて音声を乗員または車載機器の間で伝達したり入出力したりする音声技術を搭載することが検討されている。
また、車両も通信インターフェースを有するものが近年多く登場するようになった。通信インターフェースは、無線通信の機能を有し、例えば携帯電話網(セルラー網)、無線LAN(Local Area Network)等により構築され、車両内においてもネットワーク環境が整備されるようになった。運転者等はこのような通信インターフェースを介してインターネット回線上の例えばクラウドコンピューティングシステム(以下、単に「クラウド」とも称する)にアクセスして運転中に種々のサービスを受けることが可能になった。
ここで、家庭用機器等においてクラウドを用いる音声技術の1つとして自動音声認識システムの開発が加速している。この自動音声認識システムは、クラウド上のサービスを受けるためのヒューマン・マシン・インターフェースとして普及しつつある。自動音声認識システムは、人間が発声した音声をテキストデータに変換等してコンピュータ等の制御装置にその音声の内容を認識されるものである。自動音声認識システムは、人間の手指を用いるキーボード入力に代わるインターフェースであり、より人間に近い操作でコンピュータ等に指示可能である。特に、車両では運転者の手指は従来のドライバー主体の運転走行中または例えば自動運転レベル3の自動運転中のハンドル操作に取られるため、車両に対する自動音声認識の音声技術導入には必然的な動機がある。
なお、自動運転のレベルは、NHTSA(National Highway Traffic Safety Administration)によれば運転自動化なし(レベル0)、運転者支援(レベル1)、部分的運転自動化(レベル2)、条件付運転自動化(レベル3)、高度運転自動化(レベル4)、および完全自動運転化(レベル5)に分類されている。レベル3では、自動運転システムが運転を主導しつつ、必要に応じて人間による運転が要請される。自動運転システムのレベル3は近年、実用化されつつある。
自動音声認識の音声技術に関する従来技術として、発声されたオーディオデータ(音声信号)がホットワードに対応するかどうかを判定し、ホットワードに対応すると判定されたオーディオデータのホットワードオーディオフィンガープリントを生成し、このホットワードオーディオフィンガープリントが以前に記憶されたホットワードオーディオフィンガープリントと一致した時に、発声されたコンピュータデバイスへのアクセスを無効化する技術が知られる(例えば、特許文献1参照)。
特開2017−76117号公報
しかし、特許文献1の構成では、車体内のそれぞれの座席に対応して異なるマイクが配置される場合、それぞれの話者の口元から一定距離ほど離れた位置に配置されたその話者用のマイクには周囲の他の乗員が発する声も音声として収音されてしまう可能性があった。この他の乗員が発する声はいわゆるクロストーク成分であり、その話者用のマイクが本来収音する音声の音質を劣化させる可能性が高い余分な音声信号である。従って、クロストーク成分によってそれぞれの話者用マイクが収音する音声の音質が劣化し、話者の発する音声の認識性能が悪化することが懸念される。
本開示は、上述した従来の状況に鑑みて案出され、それぞれの人物に対応して異なるマイクが配置された環境下で、周囲の他の人物の発する音声に基づくクロストーク成分の影響を緩和し、対応するマイクにより収音された話者本人の発する音声の音質の劣化を抑制する音声処理装置および音声処理方法を提供することを目的とする。
本開示は、一つの閉空間においてn(n:2以上の整数)人の人物のそれぞれに対応して配置されn個のマイクにより収音された話者音声信号に含まれる、他の話者の発話によるクロストーク成分をそれぞれ抑圧するフィルタと、前記クロストーク成分を抑圧するための前記フィルタのパラメータを更新し、その更新結果をメモリに保持するパラメータ更新部と、を少なくとも有する音声出力制御部と、n個の前記マイクのそれぞれにより収音された各前記話者音声信号を用いて、n個の前記マイクが対応するそれぞれの前記人物の、前記閉空間における発話状況を検出する話者状況検出部と、を備え、前記パラメータ更新部は、前記話者状況検出部により、少なくとも1人の話者が発話する時を含む所定の条件を満たすと判定された場合に、前記クロストーク成分を抑圧するための前記フィルタのパラメータを更新し、その更新結果をメモリに保持前記音声出力制御部は、n個の前記マイクにより収音された各前記話者音声信号が入力され、入力された前記話者音声信号のそれぞれについて、前記話者音声信号前記クロストーク成分を前記フィルタにより抑圧した音声信号か、入力された前記話者音声信号そのもののいずれか、前記話者状況検出部により検出された前記閉空間における発話状況に基づいてそれぞれ出力する、音声処理装置を提供する。
また、本開示は、一つの閉空間においてn(n:2以上の整数)人の人物のそれぞれに対応して配置されるn個のマイクにより収音された話者音声信号に含まれる、他の話者の発話によるクロストーク成分をそれぞれ抑圧するステップと、n個の前記マイクのそれぞれにより収音された各前記話者音声信号を用いて、n個の前記マイクが対応するそれぞれの前記人物の、前記閉空間における発話状況を検出するステップと、少なくとも1人の話者が発話する時を含む所定の条件を満たすと判定された場合に、前記クロストーク成分を抑圧するためのフィルタのパラメータを更新し、その更新結果をメモリに保持するステップと、入力された前記話者音声信号のそれぞれについて、前記話者音声信号前記クロストーク成分を前記フィルタにより抑圧した音声信号か、入力された前記話者音声信号そのもののいずれか、検出された前記閉空間における発話状況に基づいてそれぞれ出力するステップと、を有する、音声処理方法を提供する。
本開示によれば、それぞれの人物に対応して異なるマイクが配置された環境下で、周囲の他の人物の発する音声に基づくクロストーク成分の影響を緩和でき、対応するマイクにより収音された話者本人の発する音声の音質の劣化を抑制できる。
実施の形態1に係る音声処理システムが搭載された車両の内部を示す平面図 音声処理システムの内部構成例を示すブロック図 音声処理部の内部構成例を示す図 発話状況に対応する適応フィルタの学習タイミング例を説明する図 音声処理装置の動作概要例を示す図 シングルトーク区間の検出動作の概要例を示す図 音声処理装置による音声抑圧処理の動作手順例を示すフローチャート 実施の形態1に係る設定テーブルの登録内容の一例を示す図 クロストーク抑圧量に対する音声の認識率および誤報率の一例を示すグラフ 実施の形態1の変形例に係る設定テーブルの登録内容の一例を示す図 実施の形態2に係る発話状況に対応する適応フィルタの学習タイミング例を説明する図 実施の形態2に係る設定テーブルの登録内容の一例を示す図
(実施の形態の内容に至る経緯)
車室内での会話を効果的に支援するために、例えば高級車では、それぞれの乗員が座る各シートにマイクが配置されている。高級車に搭載された音声処理装置は、各マイクで収音される音声を用いて音声の指向性を形成することで、マイクと向き合う乗員である話者(本来話したい話者)が発話した音声を強調する。これにより、車室内における音声のマイクへの伝達特性が理想的な環境である場合には、聞き手(つまり聴取者)は、話者が発話した音声を聞き取り易くなる。しかし、車室内は狭空間であるので、マイクは、反射した音の影響を受け易い。また、移動する車両の車室内の僅かな環境変化により、音声の伝達特性が現実的には理想的な環境から多少なりとも変化する。このため、マイクで収音される発話の音声信号に含まれる、上述した本来話したい話者でない他の話者が発話した音声によるクロストーク成分を十分に抑圧することができず、上述した本来話したい話者の発話した音声の音質が劣化することがあった。また、音声の指向性を形成するために用いられるマイクは、高価であった。
そこで、以下の実施の形態では、安価なマイクを使用して本来話したい話者でない他の話者の発話に基づくクロストーク成分を十分に抑圧できる音声処理装置および音声処理方法の例を説明する。
以下、適宜図面を参照しながら、本開示に係る音声処理装置および音声処理方法の構成および作用を具体的に開示した実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。
(実施の形態1)
図1は、実施の形態1に係る音声処理システム5が搭載された車両100の内部を示す平面図である。音声処理システム5は、運転席に座る運転者、中央座席、後部座席のそれぞれに座る乗員同士が円滑に会話できるように、車載のマイクで音声を収音して車載のスピーカから音声を出力する。以下の説明において、乗員には、運転者(ドライバー)も含まれてよい。
一例として、車両100は、ミニバンである。車両100の車室内には、前後方向(言い換えると、車両100の直進方向)に3列の座席101,102,103が配置される。ここでは、各座席101,102,103に2人の乗員、計6人の運転者を含む乗員が乗車している。車室内のインストルメントパネル104の前面には、運転者である乗員h1が発話する音声を主に収音するマイクmc1と、助手席に座る乗員h2が発話する音声を主に収音するマイクmc2とが配置される。また、座席101の背もたれ部(ヘッドレストを含む)には、乗員h3,h4が発話する音声をそれぞれ主に収音するマイクmc3,mc4が配置される。また、座席102の背もたれ部(ヘッドレストを含む)には、乗員h5,h6が発話する音声をそれぞれ主に収音するマイクmc5,mc6が配置される。また、車両100の車室内のマイクmc1,mc2,mc3,mc4,mc5,mc6のそれぞれの近傍に、それぞれのマイクとペアを構成するようにスピーカsp1,sp2,sp3,sp4,sp5,sp6がそれぞれ配置されている。インストルメントパネル104の内部には、n(n:2以上の整数)人の人物(乗員)のそれぞれに対応して音声処理装置10が配置される。なお、音声処理装置10の配置箇所は、図1に示す位置(つまりインストルメントパネル104の内部)に限定されない。
以下の実施の形態では、狭い車室内等の狭空間で話者(例えば運転者あるいは運転者以外の乗員)が発話する音声をその話者の前に配置された各乗員専用のマイクで収音し、この音声に対して音声認識を行う例を想定する。各乗員専用のマイクには、話者の口元から遠い位置にいる他の乗員が発する声や周囲の騒音等の音も収音される。この音は、話者が発話する音声に対してその音声の音質を劣化させるクロストーク成分となる。クロストーク成分がある場合、マイクで収音される音声の品質(音質)が劣化し、音声認識の性能が低下する。音声処理システム5は、話者に対応するマイクで収音される音声信号に含まれるクロストーク成分を抑圧することで、話者が発話した音声の品質を向上させ、音声認識性能を向上させる。
次に、実施の形態1に係る音声処理システム5の内部構成について、図2を参照して説明する。なお、以下の説明を分かり易くするため、車両100内に2人の人物(例えば運転者、助手席の乗員)が乗車しているユースケースを例示し、車両100内に配置されるマイクの数は2つとして説明するが、図1に示すように、配置されるマイクの数は2つに限定されず、3つ以上であってよい。図2は、音声処理システム5の内部構成例を示すブロック図である。音声処理システム5は、2つのマイクmc1,mc2と、音声処理装置10と、メモリM1と、音声認識エンジン30とを含む構成である。なお、メモリM1は、音声処理装置10内に設けられてもよい。
マイクmc1は、運転席の前のインストルメントパネル104に配置され、運転者である乗員h1が発話する音声を主に収音する運転者の専用のマイクである。マイクmc1により収音された運転者である乗員h1の発話に基づく音声信号は、話者音声信号と言うことができる。
マイクmc2は、助手席の前のインストルメントパネル104に配置され、助手席の乗員h2が発話する音声を主に収音する助手席の乗員の専用のマイクである。マイクmc2により収音された乗員h2の発話に基づく音声信号は、話者音声信号と言うことができる。
マイクmc1,mc2は、指向性マイク、無指向性マイクのいずれでもよい。なお、ここでは、図2に示す2つのマイクの一例として、運転者のマイクmc1と助手席の乗員のマイクmc2を示すが、中央座席の乗員の専用のマイクmc3,mc4、あるいは後部座席の乗員の専用のマイクmc5,mc6が用いられてもよい。
音声処理装置10は、マイクmc1,mc2で収音された音声に含まれるクロストーク成分を抑圧して音声を出力する。音声処理装置10は、例えばDSP(Digital Signal Processor)等のプロセッサおよびメモリを含む構成である。音声処理装置10は、プロセッサの実行により実現される機能として、帯域分割部11、音声処理部12、話者状況検出部13、および帯域合成部14を有する。
帯域分割部11は、既定の所定の帯域ごとに音声信号を分割する。本実施の形態では、例えば0〜500Hz,500Hz〜1kHz,1kHz〜1.5kHz…と、500Hzごとの帯域に音声信号を分割する。車室内のような狭空間の場合、車室内の天井面あるいは側面からの音の反射によって、マイクで収音される音声にクロストークが生じ易く、音声処理装置10が音声処理を行う際、その影響を受け易くなる。例えば、話者が発した音声のうち、特定の帯域が強調された音が、2つのマイクのうち、話者とは別のマイクに収音されることがある。この場合、帯域分割しないで、2つのマイクの音圧を比較しても、音圧差が生じず、別のマイクの音を抑制する処理を施すことができない。しかし、帯域分割部11が帯域分割を行うことで、特定の帯域が強調された音以外の部分では、音圧差が生じる。これにより、音声処理部12は、別のマイクの音を抑制する処理を施すことができる。
音声処理部12は、話者の専用のマイクに話者以外の音(例えば他の話者が発した音声)がクロストーク成分として入力される場合、クロストーク成分の低減処理を行って話者以外の音声を抑圧するための適応フィルタ20(図3参照)を有する。音声処理部12は、例えば実質的に1人の話者による発話(以下、「シングルトーク」と称する)を検出した場合、クロストーク成分となる音声を低減するように適応フィルタ20を学習し、その学習結果として適応フィルタ20のフィルタ係数を更新する。適応フィルタ20は、上述した特許文献1あるいは特開2007−19595号公報等に記載されるように、FIR(Finite Impulse Response)フィルタのタップ数あるいはタップ係数を制御することで、フィルタ特性を可変できる。
シングルトーク検出部の一例としての話者状況検出部13は、車室内の運転者あるいは乗員が発話している話者状況(例えば上述したシングルトークの区間)を検出する。話者状況検出部13は、話者状況(例えばシングルトーク区間)の検出結果を音声処理部12に通知する。なお、話者状況は、シングルトーク区間に限定されず、誰も発話していない無発話区間も含まれてよい。また、話者状況検出部13は、2人の話者が同時に発話している区間(ダブルトーク区間)を検出してもよい。
帯域合成部14は、音声処理部12によってクロストーク成分が抑圧された分割された各音域の音声信号を合成することで、クロストーク成分抑圧後の音声信号を合成する。帯域合成部14は、合成した音声信号を音声認識エンジン30に出力する。
メモリM1は、例えばRAM(Random Access Memory)とROM(Read Only Memory)とを含み、音声処理装置10の動作の実行に必要なプログラム、動作中に音声処理装置10のプロセッサにより生成されたデータあるいは情報を一時的に格納する。RAMは、例えば音声処理装置10のプロセッサの動作時に使用されるワークメモリである。ROMは、例えば音声処理装置10のプロセッサを制御するためのプログラムおよびデータを予め記憶する。また、メモリM1は、車両100に配置されたそれぞれのマイク(言い換えると、そのマイクと対応付けて音声信号が主に収音される人物)に対応付けられた適応フィルタ20のフィルタ係数を保存する。マイクと対応付けて音声信号が主に収音される人物は、例えばそのマイクと対面するシートに座る乗員である。
音声認識エンジン30は、マイクmc1,mc2で収音され、音声処理部12によってクロストーク成分の抑圧処理が施された音声を認識し、この音声認識結果を出力する。音声認識エンジン30にスピーカsp1,sp2,sp3,sp4,sp5,sp6が接続されている場合、スピーカsp1,sp2,sp3,sp4,sp5,sp6のうちいずれかは、音声認識エンジン30による音声認識結果として、音声認識された音声を出力する。例えば、マイクmc1において主に収音されたドライバーの発話による音声に対応する音声認識結果は、音声認識エンジン30を介してスピーカsp1から出力される。なお、スピーカsp1,sp2,sp3,sp4,sp5,sp6のそれぞれは、指向性スピーカ、無指向性スピーカのいずれでもよい。また、音声認識エンジン30の出力は、車室を含めて行われるTV会議システム、車内会話支援、車載TVの字幕(テロップ)等に用いられてもよい。また、音声認識エンジン30は、車載装置であってもよいし、音声処理装置10から広域ネットワーク(図示略)を介して接続されたクラウドサーバ(図示略)であってもよい。
図3は、音声処理部12の内部構成例を示す図である。音声処理部12は、話者状況検出部13によって検出された話者状況の検出結果として例えばシングルトーク区間が検出された場合、そのシングルトーク区間において、適応フィルタ20のフィルタ係数を学習する。また、音声出力制御部の一例としての音声処理部12は、例えばマイクmc1で収音される音声信号に含まれるクロストーク成分を抑圧して出力する。
なお、図3では、音声処理部12の内部構成例を分かり易く説明するために、マイクmc1で収音される音声信号に含まれるクロストーク成分を抑圧する時の構成を例示している。つまり、加算器26の一方の入力側には、マイクmc1で収音された音声信号がそのまま入力され、加算器26の他方の入力側には、マイクmc2で収音された音声信号が可変増幅器22および適応フィルタ20によって処理された後の音声信号がクロストーク成分として入力されている。しかし、マイクmc2で収音される音声信号に含まれるクロストーク成分を抑圧する時には、加算器26には次の音声信号がそれぞれ入力される。具体的には、加算器26の一方の入力側には、マイクmc2で収音された音声信号がそのまま入力され、加算器26の他方の入力側には、マイクmc1で収音された音声信号が可変増幅器22および適応フィルタ20によって処理された後の音声信号がクロストーク成分として入力される。
音声処理部12は、適応フィルタ20と、可変増幅器22と、ノルム算出部23と、1/X部24と、フィルタ係数更新処理部25と、加算器26とを含む。
ノルム算出部23は、マイクmc2からの音声信号の大きさを示すノルム値を算出する。
1/X部24は、ノルム算出部23により算出されたノルム値の逆数を掛けて正規化し、フィルタ係数更新処理部25に正規化されたノルム値を出力する。
パラメータ更新部の一例としてのフィルタ係数更新処理部25は、話者状況の検出結果と、正規化されたノルム値と、マイクmc2の音声信号と、加算器26の出力とを基に、適応フィルタ20のフィルタ係数を更新し、更新したフィルタ係数(パラメータの一例)をメモリM1に上書きで記憶するとともに適応フィルタ20に設定する。例えば、フィルタ係数更新処理部25は、シングルトークが検出された区間において、正規化されたノルム値と、マイクmc2の音声信号と、加算器26の出力とを基に、適応フィルタ20のフィルタ係数(パラメータの一例)を更新する。
可変増幅器22は、ノルム算出部23により算出されたノルム値に応じて、マイクmc2の音声信号を増幅する。
フィルタの一例としての適応フィルタ20は、タップを含むFIRフィルタであり、更新後のパラメータの一例としてのフィルタ係数(タップ係数)に従って、可変増幅器22により増幅されたマイクmc2の音声信号を抑圧する。
加算器26は、マイクmc1の音声信号に、適応フィルタ20で抑圧されたマイクmc2の音声信号を加算して出力する。加算器26での処理の詳細については、数式を参照して後述する。
図4は、発話状況に対応する適応フィルタ20の学習タイミング例を説明する図である。話者状況検出部13は、シングルトーク区間を正確に判定し、かつ乗員h1と乗員h2のどちらが発話しているかを検出する。
話者である乗員h1の1人だけが発話しているシングルトーク区間の[状況1]では、音声処理部12は、乗員h2の専用のマイクmc2に対する適応フィルタ20のフィルタ係数を学習する。
また、話者である乗員h2の1人だけが発話しているシングルトーク区間の[状況2]では、音声処理部12は、乗員h1の専用のマイクmc1に対する適応フィルタ20のフィルタ係数を学習する。
また、話者である乗員h1,h2の2人が同時に発話している[状況3]では、音声処理部12は、話者である乗員h1の専用のマイクmc1に対する適応フィルタ20のフィルタ係数、および話者である乗員h2の専用のマイクmc2に対する適応フィルタ20のフィルタ係数をいずれも学習しない。
また、乗員h1,h2の2人がともに発話していない[状況4]においても、音声処理部12は、乗員h1の専用のマイクmc1に対する適応フィルタ20のフィルタ係数、および乗員h2の専用のマイクmc2に対する適応フィルタ20のフィルタ係数のいずれも学習しない。
次に、実施の形態1に係る音声処理システム5の動作を示す。
図5は、音声処理装置10の動作概要例を示す図である。マイクmc1,mc2で収音される音声の音声信号は、音声処理装置10に入力される。帯域分割部11は、マイクmc1,mc2で収音される音声に対して帯域分割を行う。この帯域分割では、音声信号は、例えば500Hz帯域ごとに可聴周波数域(30Hz〜23kHz)の音域内で分割される。具体的には、音声信号は、0〜500Hzの帯域の音声信号、500Hz〜1kHzの音声信号、1kHz〜1.5kHzの音声信号、…に分割される。話者状況検出部13は、分割された帯域ごとにシングルトーク区間の有無を検出する。音声処理部12は、この検出されたシングルトーク区間において、例えば話者以外の乗員に専用のマイクにより収音される音声信号に含まれるクロストーク成分を抑圧するための適応フィルタ20のフィルタ係数を更新し、その更新結果をメモリM1に記憶する。音声処理部12は、メモリM1に記憶された最新のフィルタ係数が設定された適応フィルタ20を用いて、マイクmc1,mc2で収音される音声信号に含まれる、クロストーク成分(言い換えると、他者成分)を抑圧し、抑圧後の音声信号を出力する。帯域合成部14は、帯域ごとに抑圧された音声信号を合成し、音声処理装置10から出力する。
図6は、シングルトーク区間の検出動作の概要例を示す図である。話者状況検出部13は、シングルトーク区間を検出する際、例えば次のような動作を行う。図6では、説明を分かり易く説明するために、話者状況検出部13が時間軸上の音声信号を用いて解析する場合を示すが、時間軸上の音声信号を周波数軸上の音声信号に変換した上でその音声信号を用いて解析してもよい。
話者状況検出部13は、マイクmc1,mc2で収音される音声信号の相関解析を行う。マイクmc1,mc2間の距離が短い(マイクmc1,mc2が近い)場合、2つの音声信号には相関が生じる。話者状況検出部13は、この相関の有無を、シングルトークであるか否かの判定に用いる。
話者状況検出部13は、2つの音声信号の帯域分割を行う。この帯域分割は、前述した方法で行われる。車室内のような狭空間である場合、マイクは、音の反射の影響を受け易く、音の反射によって特定の帯域の音が強調される。帯域分割を行うことで、反射した音の影響が受けにくくなる。
話者状況検出部13は、分割された帯域ごとに、マイクmc1,mc2で収音される音声信号の音圧レベルの絶対値を算出して平滑化する。話者状況検出部13は、例えばメモリM1に記憶された過去分の音圧レベルの絶対値と、平滑化した音圧レベルの絶対値とを比較することでシングルトーク区間の有無を検出する。
なお、話者状況検出部13は、マイクmc1,mc2で収音される音声信号の音圧レベルの絶対値を算出し、一定区間で平滑化して複数の平滑化された音圧レベルを算出してもよい。話者状況検出部13は、片方のマイクの近くで突発音が発生した際、一方の平滑化した信号だけが大きくなるので、話者による音声の有音区間と間違って判定してしまうことを回避できる。
また、話者状況検出部13は、話者の位置を推定してシングルトーク区間を検出してもよい。例えば、話者状況検出部13は、マイクmc1,mc2で収音される現在の音声信号だけでなく、過去から現在まで(例えば、話始めから話終わりまで)の音声信号を用いて、これらの音声信号を比較することで、話者が存在する位置を推定してもよい。
また、話者状況検出部13は、マイクmc1,mc2で収音される音声信号に含まれるノイズを抑圧することで、シングルトークの検出精度を上げてもよい。騒音源の音圧が大きく音声信号のS/Nが劣る場合や、片方のマイクの近くに定常的な騒音源がある場合、話者状況検出部13は、ノイズを抑圧することで、話者の位置を推定できる。
さらに、話者状況検出部13は、音声を分析することなく、あるいは音声と併用して、車載カメラ(図示略)の映像を基に話者の口元の動きを解析し、シングルトークを検出してもよい。
図7は、音声処理装置10による音声抑圧処理の動作手順例を示すフローチャートである。音声処理装置10は、例えばイグニッションスイッチのオンにより起動し、音声抑圧処理を開始する。
図7において、音声処理装置10は、マイクmc1,mc2で収音される音声信号を取得する(S1)。音声処理部12は、例えばメモリM1に保存されている長時間(例えば100msec)の参照信号を取得する(S2)。参照信号は、マイクmc1に向かって話者である乗員h1が話している時にマイクmc1,mc2で収音される、話者である乗員h1が発話している音声信号である。長時間の参照信号として、例えば1サンプルを1msecとした場合、100サンプル分(100msec)の音声信号が取得される。
話者状況検出部13は、話者状況の情報を取得する(S3)。この話者状況では、話者状況検出部13は、誰が話しているかを分析し、また、シングルトーク区間であるか否かを検出する。シングルトーク区間の検出では、図6を参照して前述したシングルトーク区間の検出方法が用いられる。また、車室内に車載カメラ(図示略)が設置されている場合、話者状況検出部13は、この車載カメラで撮像された顔画像の画像データを取得し、この顔画像を基に話者を特定してもよい。
音声処理部12は、話者状況検出部13によってある時刻に誰が話していたかを把握するので、その時の話者に対応して使用するべき適応フィルタ20のフィルタ係数を取得(選択)する(S4)。例えば、話者である乗員h1が話している時、マイクmc2で収音される音声信号から話者である乗員h1の音声信号を抑圧するための適応フィルタ20のパラメータ(上述参照)を選択して使用する。音声処理部12は、メモリM1に記憶されている、学習された最新のフィルタ係数を読み込み、適応フィルタ20に設定する。また、音声処理部12は、メモリM1に記憶されているフィルタ係数を上書きで逐次更新することで、適応フィルタ20の収束速度を改善する。
音声処理部12は、話者状況に対応する設定テーブルTb1(図8参照)を基に、マイクmc1で収音される音声信号に含まれるクロストーク成分を推定し、クロストーク成分を抑圧する(S5)。例えばマイクmc1で収音される音声信号に含まれるクロストーク成分を抑圧する場合、マイクmc2で収音された音声信号を基にクロストーク成分が抑圧される(図8参照)。
音声処理部12は、適応フィルタ20のフィルタ学習区間であるか否かを判別する(S6)。フィルタ学習区間は、実施の形態1では、例えばシングルトーク区間である。これは、例えばシングルトーク区間の場合、車両100に乗車している乗員のうち実質的に1人が話者となり、その話者以外の人物に対応した専用のマイクで収音される音声信号から見れば、その話者の発話に基づく音声信号はクロストーク成分となり得るので、その話者以外の人物に対応した専用のマイクで収音される音声信号を用いれば、クロストーク成分を抑圧可能なフィルタ係数の算出が可能となるためである。フィルタ学習区間である場合(S6、YES)、音声処理部12は、適応フィルタ20のフィルタ係数を更新し、その更新結果をメモリM1に記憶する(S7)。この後、音声処理部12は、本処理を終了する。一方、ステップS6でフィルタ学習区間でない場合(S6、NO)、音声処理部12は、適応フィルタ20のフィルタ係数を更新せずにそのまま本処理を終了する。
図8は、実施の形態1に係る設定テーブルTb1の登録内容の一例を示す図である。設定テーブルTb1には、話者状況検出部13による話者状況の検出結果ごとに、フィルタ係数の更新の有無、クロストーク抑圧処理の有無、および音声処理装置10から出力される音声信号の大きさを示すパラメータ(例えば音圧)を求めるための数式が対応付けて登録されている。
例えば話者状況検出部13による話者状況の検出結果として話者がいないことが検出された場合、フィルタ係数更新処理部25により適応フィルタ20のフィルタ係数の更新は行われない。この場合には、フィルタ係数更新処理部25は、メモリM1に保存されている、最新のマイクmc1,mc2(言い換えると、話者)に対応するフィルタ係数をそれぞれ選択して適応フィルタ20に設定する。従って、音声処理部12(の加算器26)は、マイクmc1,mc2で収音される音声信号のいずれに対して、数式(1),(2)に従い、クロストーク抑圧処理を行う。つまり、加算器26は、マイクmc1,mc2のそれぞれで収音される音声信号から、それぞれ選択されたフィルタ係数を用いて抑圧されたクロストーク成分を減算する処理を行う。
Figure 0006635394
Figure 0006635394
数式(1),(2)において、m1はマイクmc1により収音される音声信号の大きさを示す音圧、m2はマイクmc2により収音される音声信号の大きさを示す音圧、y1はマイクmc1により収音されるクロストーク成分の抑圧後の音声信号の大きさを示す音圧、y2はマイクmc2により収音されるクロストーク成分の抑圧後の音声信号の大きさを示す音圧である。また、係数w12はマイクmc1を用いて、マイクmc2の音声信号から話者である乗員h1の発話に基づくクロストーク成分を抑圧するためのフィルタ係数、係数w21はマイクmc2を用いて、マイクmc1の音声信号から話者である乗員h2の発話に基づくクロストーク成分を抑圧するためのフィルタ係数である。また、記号*は、畳み込み演算を示す演算子を示す。
次に、例えば話者状況検出部13による話者状況の検出結果として話者が乗員h1であることが検出された場合(シングルトーク区間)、フィルタ係数更新処理部25により適応フィルタ20のマイクmc2に対するフィルタ係数の更新が行われる。この場合、フィルタ係数更新処理部25は、メモリM1に保存されている、マイクmc1(言い換えると、話者)に対応する最新のフィルタ係数、ならびに、前サンプル(時間軸上)あるいは前フレーム(周波数軸上)の音声信号に対して更新されたマイクmc2(言い換えると、話者以外の話者)に対応するフィルタ係数をそれぞれ選択して適応フィルタ20に設定する。従って、音声処理部12(の加算器26)は、マイクmc1,mc2で収音される音声信号のいずれに対して、数式(1),(2)に従い、クロストーク抑圧処理を行う。つまり、加算器26は、マイクmc1,mc2のそれぞれで収音される音声信号から、それぞれ選択されたフィルタ係数を用いて抑圧されたクロストーク成分を減算する処理を行う。特に、乗員h1が話者であるため、乗員h1の発話に基づく音声信号がマイクm2にはクロストーク成分として収音されており、話者が誰もいない時に比べてクロストーク成分を抑圧可能に係数w12が学習されて更新されているので、数式(2)により、y2はクロストーク成分が十分に抑圧された音声信号が出力されていることになる。
次に、例えば話者状況検出部13による話者状況の検出結果として話者が乗員h2であることが検出された場合(シングルトーク区間)、フィルタ係数更新処理部25により適応フィルタ20のマイクmc1に対するフィルタ係数の更新が行われる。この場合、フィルタ係数更新処理部25は、メモリM1に保存されている、マイクmc2(言い換えると、話者)に対応する最新のフィルタ係数、ならびに、前サンプル(時間軸上)あるいは前フレーム(周波数軸上)の音声信号に対して更新されたマイクmc1(言い換えると、話者以外の話者)に対応するフィルタ係数をそれぞれ選択して適応フィルタ20に設定する。従って、音声処理部12(の加算器26)は、マイクmc1,mc2で収音される音声信号のいずれに対しても、数式(1),(2)に従い、クロストーク抑圧処理を行う。つまり、加算器26は、マイクmc1,mc2のそれぞれで収音される音声信号から、それぞれ選択されたフィルタ係数を用いて抑圧されたクロストーク成分を減算する処理を行う。特に、乗員h2が話者であるため、乗員h2の発話に基づく音声信号がマイクm1にはクロストーク成分として収音されており、話者が誰もいない時に比べてクロストーク成分を抑圧可能に係数w21が学習されて更新されているので、数式(1)により、y1はクロストーク成分が十分に抑圧された音声信号が出力されていることになる。
次に、例えば話者状況検出部13による話者状況の検出結果として話者が乗員h1,h2の2人であることが検出された場合、フィルタ係数更新処理部25により適応フィルタ20のフィルタ係数の更新が行われない。この場合には、フィルタ係数更新処理部25は、メモリM1に保存されている、最新のマイクmc1,mc2(言い換えると、話者)に対応するフィルタ係数をそれぞれ選択して適応フィルタ20に設定する。従って、音声処理部12(の加算器26)は、マイクmc1,mc2で収音される音声信号のいずれに対して、式(1),(2)に従い、クロストーク抑圧処理を行う。つまり、加算器26は、マイクmc1,mc2のそれぞれで収音される音声信号から、それぞれ選択されたフィルタ係数を用いて抑圧されたクロストーク成分を減算する処理を行う。
実施の形態1に係る音声処理システム5のユースケースとして、例えば、運転者が発する音声を認識し、助手席に座る乗員が発する音声をクロストーク成分として認識させたくない場合を想定する。通常、クロストークが無い場合、音声の認識率は100%であり、誤報率は0%である。また、クロストークが存在する場合、音声の認識率は20%程度に下がり、誤報率は90%程度に達する。
図9は、クロストーク抑圧量に対する音声の認識率および誤報率の一例を示すグラフである。グラフg1は、クロストーク抑圧量に対する音声の認識率を表す。グラフの縦軸は音声の認識率(%)を示し、横軸はクロストーク抑圧量(dB)を示す。認識率は、クロストーク抑圧量の増加とともに、徐々に高くなる。例えばクロストーク抑圧量が18dBになると、認識率は、100%近くに達して安定する。
また、グラフg2は、クロストーク抑圧量に対する音声の誤報率を表す。グラフの縦軸は音声の誤報率(%)を示し、横軸はクロストーク抑圧量(dB)を示す。誤報率は、クロストーク抑圧量の増加とともに、徐々に減少する。例えばクロストーク抑圧量が21dBになると、誤報率は、0%に近くに下がり安定する。
なお、実施の形態1では、時間軸において音声処理を行う場合を示したが、周波数軸において音声処理を行ってもよい。周波数軸において音声処理を行う場合、音声処理装置10は、1フレーム分(例えば20〜30サンプル分)の音声信号をフーリエ変換して周波数分析を行い、音声信号を取得する。また、周波数軸において音声処理を行う場合、音声信号に対し、帯域分割部11による帯域分割を行う処理は不要となる。
実施の形態1の音声処理システム5では、発話している乗員の有無にかかわらず、各乗員の専用のマイクで収音される音声信号に対しクロストーク抑圧処理が行われる。したがって、乗員以外の音、例えばアイドリング音やノイズ等の定常音が発生している場合、そのようなクロストーク成分を抑圧できる。
以上により、実施の形態1に係る音声処理装置10は、2人の乗員h1,h2とそれぞれ向き合うように配置され、各乗員専用の2個のマイクmc1,mc2と、2個のマイクmc1,mc2のそれぞれにより収音された音声信号を用いて、少なくとも1人の話者に対応する専用のマイクにより収音された話者音声信号に含まれるクロストーク成分を抑圧する適応フィルタ20と、シングルトーク区間(少なくとも1人の話者が発話する時)を含む所定の条件を満たす場合に、クロストーク成分を抑圧するための適応フィルタ20のフィルタ係数(パラメータの一例)を更新し、その更新結果をメモリM1に保持するフィルタ係数更新処理部25と、話者音声信号から、更新結果に基づいて適応フィルタ20により抑圧されたクロストーク成分を減算した音声信号をスピーカsp1から出力する音声処理部12と、を備える。
これにより、音声処理装置10は、車両等の狭空間(閉空間)において各乗員に専用のマイクが配置された環境下で、周囲にいる他の乗員が発する音声によるクロストーク成分の影響を緩和できる。従って、音声処理装置10は、それぞれの乗員に専用のマイクにより収音された話者本人の発する音声の音質の劣化を高精度に抑制できる。
また、音声処理装置10は、2個のマイクmc1,mc2のそれぞれにより収音された音声信号を用いて、帯域ごとに実質的に1人の話者が発話しているシングルトーク区間を検出する話者状況検出部13を更に備える。音声処理部12は、シングルトーク区間が話者状況検出部13により検出された場合に、所定の条件を満たすとして話者音声信号に含まれる話者以外の人物の音声信号をクロストーク成分として、適応フィルタ20のフィルタ係数を更新する。これにより、音声処理装置10は、話者が実質的に1人だけの場合にその話者の発話に基づく話者音声信号をクロストーク成分として抑圧可能に、適応フィルタ20のフィルタ係数を最適化できる。例えば、音声処理装置10は、話者以外の乗員の専用のマイクで収音される音声から、話者の専用のマイクで収音される音声に含まれるクロストーク成分を高精度に低減できる。
また、音声処理部12のフィルタ係数更新処理部25は、シングルトーク区間以外の区間が話者状況検出部13により検出された場合に、所定の条件を満たさないとして適応フィルタ20のフィルタ係数を更新しない。音声処理装置10は、話者音声信号から、例えばメモリM1に保持されている最新のフィルタ係数の更新結果に基づいて適応フィルタ20により抑圧されたクロストーク成分を減算した音声信号を出力する。これにより、音声処理装置10は、シングルトーク区間でない場合には適応フィルタ20のフィルタ係数の更新を省くことでフィルタ係数が最適化しなくなることを回避できる。また、他の乗員は、話者の音声を明瞭に聴くことができる。
また、適応フィルタ20は、誰も発話していない無発話区間が話者状況検出部13により検出された場合、クロストーク成分を抑圧する。音声処理部12は、2個のマイクmc1,mc2のそれぞれにより収音された音声信号から、例えばメモリM1に保持されている最新のフィルタ係数の更新結果に基づいて適応フィルタ20により抑圧されたクロストーク成分を減算した音声信号を出力する。これにより、音声処理装置10は、アイドリング音、ノイズや反響音等を低減できる。
また、適応フィルタ20は、シングルトーク区間が話者状況検出部13により検出された場合、シングルトーク区間の話者に対応する専用のマイクにより収音される話者以外の音声信号に含まれるクロストーク成分を抑圧する。音声処理部12は、話者音声信号から、例えばメモリM1に保持されている最新のフィルタ係数の更新結果に基づいて適応フィルタ20により抑圧されたクロストーク成分を減算した音声信号を出力する。これにより、音声処理装置10は、話者以外の音、アイドリング音、ノイズや反響音を低減できる。
(実施の形態1の変形例)
実施の形態1では、音声処理装置10は、話者状況の種別に拘わらず、発話している乗員に対応する専用のマイクで収音される音声信号に対してクロストーク抑圧処理を常に行っていた(図8参照)。実施の形態1の変形例では、音声処理装置10は、例えばシングルトーク区間が検出された場合、発話している乗員に対応する専用のマイクで収音される音声信号に対してクロストーク抑圧処理を行わない例を説明する。また、音声処理装置10は、誰も発話していない無発話区間が検出された場合、クロストーク抑圧処理を行わない(図10参照)。
なお、実施の形態1の変形例において、音声処理システム5の内部構成は実施の形態1に係る音声処理システム5の内部構成と同一であり、同一の構成には同一の符号を付与して説明を簡略化あるいは省略し、異なる内容について説明する。
図10は、実施の形態1の変形例に係る設定テーブルTb2の登録内容の一例を示す図である。設定テーブルTb2には、話者状況検出部13による話者状況の検出結果ごとに、フィルタ係数の更新の有無、クロストーク抑圧処理の有無、および音声処理装置10から出力される音声信号の大きさを示すパラメータ(例えば音圧)を求めるための数式が対応付けて登録されている。
例えば話者状況検出部13による話者状況の検出結果として話者がいないことが検出された場合、フィルタ係数更新処理部25により適応フィルタ20のフィルタ係数の更新は行われない。また、音声処理部12において、マイクmc1,mc2で収音される音声信号のいずれに対しても、数式(3),(4)に示されるように、クロストーク抑圧処理が行われない。つまり、音声処理部12は、マイクmc1,mc2で収音される音声信号をいずれもそのまま出力する。
Figure 0006635394
Figure 0006635394
数式(3),(4)において、m1はマイクmc1により収音される音声信号の大きさを示す音圧、m2はマイクmc2により収音される音声信号の大きさを示す音圧、y1はマイクmc1により収音されるクロストーク成分の抑圧後の音声信号の大きさを示す音圧、y2はマイクmc2により収音されるクロストーク成分の抑圧後の音声信号の大きさを示す音圧である。
次に、例えば話者状況検出部13による話者状況の検出結果として話者が乗員h1であることが検出された場合(シングルトーク区間)、フィルタ係数更新処理部25により適応フィルタ20のマイクmc2に対するフィルタ係数の更新が行われる。しかし、実施の形態1の変形例では、実質的に乗員h1だけが発話している場合には、マイクmc1で収音される音声信号(話者音声信号)に対しクロストーク抑圧処理が行われない(数式(5)参照)。これは、乗員h2が発話していないため、乗員h2の発話に基づくクロストーク成分が生じにくいことを加味して、マイクmc1で収音される音声信号(話者音声信号)をそのまま出力してもその音質の劣化は生じにくいと考えられるからである。一方で、マイクmc2で収音される音声信号(話者音声信号)に対しては、実施の形態1と同様に、クロストーク抑圧処理が行われる(数式(6)参照)。
Figure 0006635394
Figure 0006635394
数式(6)において、w12はマイクmc1を用いて、マイクmc2の音声信号から乗員h1の発話に基づくクロストーク成分を抑圧するためのフィルタ係数である。
次に、例えば話者状況検出部13による話者状況の検出結果として話者が乗員h2であることが検出された場合(シングルトーク区間)、フィルタ係数更新処理部25により適応フィルタ20のマイクmc2に対するフィルタ係数の更新が行われる。しかし、実施の形態1の変形例では、同様に実質的に乗員h2だけが発話している場合には、マイクmc1で収音される音声信号(話者音声信号)に対しては、実施の形態1と同様に、クロストーク抑圧処理が行われる(数式(7)参照)。一方で、マイクmc2で収音される音声信号(話者音声信号)に対しクロストーク抑圧処理が行われない(数式(8)参照)。これは、乗員h1が発話していないため、乗員h1の発話に基づくクロストーク成分が生じにくいことを加味して、マイクmc2で収音される音声信号(話者音声信号)をそのまま出力してもその音質の劣化は生じにくいと考えられるからである。
Figure 0006635394
Figure 0006635394
数式(7)において、w21はマイクmc2を用いて、マイクmc1の音声信号から乗員h2の発話に基づくクロストーク成分を抑圧するためのフィルタ係数である。
次に、例えば話者状況検出部13による話者状況の検出結果として話者が乗員h1,h2の2人であることが検出された場合、フィルタ係数更新処理部25により適応フィルタ20のフィルタ係数の更新が行われない。この場合には、フィルタ係数更新処理部25は、メモリM1に保存されている、最新のマイクmc1,mc2(言い換えると、話者)に対応するフィルタ係数をそれぞれ選択して適応フィルタ20に設定する。従って、音声処理部12(の加算器26)は、マイクmc1,mc2で収音される音声信号のいずれに対しても、実施の形態1と同様、数式(1),(2)に従い、クロストーク抑圧処理を行う。つまり、加算器26は、マイクmc1,mc2のそれぞれで収音される音声信号から、それぞれ選択されたフィルタ係数を用いて抑圧されたクロストーク成分を減算する処理を行う。
以上により、実施の形態1の変形例に係る音声処理システム5では、少なくとも1人が発話している時、発話していない乗員の専用のマイクで収音される音声信号に対しクロストーク抑圧処理が行われる(図10参照)。従って、発話していない乗員に対応する専用のマイクでは、発話している乗員の音声信号が抑圧され、無音に近い状態になる。一方、発話している乗員に対応する専用のマイクでは、他の乗員が発話していないので、クロストーク抑圧処理は行われない。このように、音声処理システム5は、必要であると想定された場合だけ、クロストーク抑圧処理を行うことができる。
また、適応フィルタ20は、誰も発話していない無発話区間が検出された場合に、クロストーク成分を抑圧しない。音声処理装置10は、2個のマイクmc1,mc2のそれぞれにより収音された音声信号をそのまま出力する。このように、音声処理装置10は、無発話区間では、クロストーク成分を抑圧しないので、マイクにより収音される音声信号が明瞭になる。
また、適応フィルタ20は、シングルトーク区間が検出された場合、話者の音声信号に含まれるクロストーク成分を抑圧しない。音声処理装置10は、話者に対応する専用のマイクにより収音された音声信号をそのまま出力する。シングルトーク区間では、話者以外の発話による音声信号が無いので、クロストーク成分を抑圧しなくても、話者の音声信号は、明瞭になる。
(実施の形態2)
実施の形態1では、音声処理部12は、シングルトーク区間が検出された場合に、その話者に対応する専用のマイクに対応付けられたフィルタ係数の更新を行った。実施の形態2では、音声処理部12は、シングルトーク区間が検出された場合に限らず、例えば2人の話者が同時に発話している場合(ダブルトーク区間)も、フィルタ更新を行う例を説明する。
図11は、実施の形態2に係る発話状況に対応する適応フィルタ20の学習タイミング例を説明する図である。話者状況検出部13は、シングルトーク区間を正確に判定し、かつ乗員h1と乗員h2が発話しているかを検出する。
1人の話者である乗員h1だけが発話しているシングルトーク区間の[状況1]では、音声処理部12は、乗員h2の専用のマイクmc2に対する適応フィルタ20フィルタ係数を学習する。
また、話者である乗員h2の1人だけが発話しているシングルトーク区間の[状況2]では、音声処理部12は、乗員h1の専用のマイクmc1に対する適応フィルタ20のフィルタ係数を学習する。
また、話者である乗員h1,h2の2人が同時に発話しているダブルトーク区間の[状況3]では、音声処理部12は、話者である乗員h1の専用のマイクmc1に対する適応フィルタ20のフィルタ係数、および話者である乗員h2の専用のマイクmc2に対する適応フィルタ20のフィルタ係数のいずれも学習する。
また、乗員h1と乗員h2の2人がともに発話していない[状況4]では、音声処理部12は、乗員h1の専用のマイクmc1に対する適応フィルタ20のフィルタ係数、および乗員h2の専用のマイクmc2に対する適応フィルタ20のフィルタ係数のいずれも学習しない。
また、話者状況検出部13は、シングルトークを検出する他、2人の話者が同時に発話している(ダブルトーク)状況を検出した場合、その検出結果を音声処理部12に通知する。音声処理部12は、シングルトーク区間およびダブルトーク区間のそれぞれにおいて、話者に対応するマイクに対応付けられた適応フィルタ20のフィルタ係数を学習する。
なお、実施の形態2において、音声処理システム5の内部構成は実施の形態1に係る音声処理システム5の内部構成と同一であり、同一の構成には同一の符号を付与して説明を簡略化あるいは省略し、異なる内容について説明する。
図12は、実施の形態2に係る設定テーブルTb3の登録内容の一例を示す図である。設定テーブルTb3には、話者状況検出部13による話者状況の検出結果ごとに、フィルタ係数の更新の有無、クロストーク抑圧処理の有無、および音声処理装置10から出力される音声信号の大きさを示すパラメータ(例えば音圧)を求めるための数式が対応付けて登録されている。
例えば話者状況検出部13による話者状況の検出結果として話者がいないことが検出された場合、フィルタ係数更新処理部25により適応フィルタ20のフィルタ係数の更新は行われない。この場合には、フィルタ係数更新処理部25は、メモリM1に保存されている、最新のマイクmc1,mc2(言い換えると、話者)に対応するフィルタ係数をそれぞれ選択して適応フィルタ20に設定する。従って、音声処理部12において、マイクmc1,mc2で収音される音声信号のいずれに対して、実施の形態1の変形例と同様、数式(3),(4)に従い、クロストーク抑圧処理が行われない。つまり、音声処理部12は、マイクmc1,mc2で収音される音声信号をいずれもそのまま出力する。
次に、例えば話者状況検出部13による話者状況の検出結果として話者が乗員h1であること(図12の説明において「状況A」と称する)が検出された場合(シングルトーク区間)、フィルタ係数更新処理部25により適応フィルタ20のマイクmc2に対するフィルタ係数の更新が行われる。この場合、フィルタ係数更新処理部25は、メモリM1に保存されている、マイクmc1(言い換えると、話者)に対応する最新のフィルタ係数、ならびに、前サンプル(時間軸上)あるいは前フレーム(周波数軸上)の音声信号に対して更新されたマイクmc2(言い換えると、話者以外の話者)に対応するフィルタ係数をそれぞれ選択して適応フィルタ20に設定する。従って、音声処理部12(の加算器26)は、マイクmc1,mc2で収音される音声信号のいずれに対して、数式(9),(10)に従い、クロストーク抑圧処理を行う。
Figure 0006635394
Figure 0006635394
数式(9),(10)において、係数w12Aは、状況Aにおいて、マイクmc1を用いて、マイクmc2の音声信号から話者である乗員h1の発話に基づくクロストーク成分を抑圧するためのフィルタ係数である。同様に、係数w21Aは、状況Aにおいて、マイクmc2を用いて、マイクmc1の音声信号から話者である乗員h2の発話に基づくクロストーク成分を抑圧するためのフィルタ係数である。
つまり、加算器26は、マイクmc1,mc2のそれぞれで収音される音声信号から、話者状況検出部13により検出された話者状況(つまり「状況A」)に応じてそれぞれ選択されたフィルタ係数を用いて抑圧されたクロストーク成分を減算する処理を行う。特に、乗員h1が話者であるため、乗員h1の発話に基づく音声信号がマイクm2にはクロストーク成分として収音されており、話者が誰もいない時に比べてクロストーク成分を抑圧可能に係数w12Aが学習されて更新されているので、数式(10)により、y2はクロストーク成分が十分に抑圧された音声信号が出力されていることになる。
次に、例えば話者状況検出部13による話者状況の検出結果として話者が乗員h2であること(図12の説明において「状況B」と称する)が検出された場合(シングルトーク区間)、フィルタ係数更新処理部25により適応フィルタ20のマイクmc1に対するフィルタ係数の更新が行われる。この場合、フィルタ係数更新処理部25は、メモリM1に保存されている、マイクmc2(言い換えると、話者)に対応する最新のフィルタ係数、ならびに、前サンプル(時間軸上)あるいは前フレーム(周波数軸上)の音声信号に対して更新されたマイクmc1(言い換えると、話者以外の話者)に対応するフィルタ係数をそれぞれ選択して適応フィルタ20に設定する。従って、音声処理部12(の加算器26)は、マイクmc1,mc2で収音される音声信号のいずれに対して、数式(11),(12)に従い、クロストーク抑圧処理を行う。
Figure 0006635394
Figure 0006635394
数式(11),(12)において、係数w12Bは、状況Bにおいて、マイクmc1を用いて、マイクmc2の音声信号から話者である乗員h1の発話に基づくクロストーク成分を抑圧するためのフィルタ係数である。同様に、係数w21Bは、状況Bにおいて、マイクmc2を用いて、マイクmc1の音声信号から話者である乗員h2の発話に基づくクロストーク成分を抑圧するためのフィルタ係数である。
つまり、加算器26は、マイクmc1,mc2のそれぞれで収音される音声信号から、話者状況検出部13により検出された話者状況(つまり「状況B」)に応じてそれぞれ選択されたフィルタ係数を用いて抑圧されたクロストーク成分を減算する処理を行う。特に、乗員h2が話者であるため、乗員h2の発話に基づく音声信号がマイクm1にはクロストーク成分として収音されており、話者が誰もいない時に比べてクロストーク成分を抑圧可能に係数w12Bが学習されて更新されているので、数式(12)により、y2はクロストーク成分が十分に抑圧された音声信号が出力されていることになる。
次に、例えば話者状況検出部13による話者状況の検出結果として話者が乗員h1,h2の2人であること(図12の説明において「状況C」と称する)が検出された場合(ダブルトーク区間)、フィルタ係数更新処理部25により、マイクmc1,mc2のそれぞれに対応付けられた適応フィルタ20のフィルタ係数の更新が個別に行われる。この場合、フィルタ係数更新処理部25は、メモリM1に保存されている、前サンプル(時間軸上)あるいは前フレーム(周波数軸上)の音声信号に対して更新されたマイクmc1,mc2に対応するフィルタ係数をそれぞれ選択して適応フィルタ20に設定する。従って、音声処理部12(の加算器26)は、マイクmc1,mc2で収音される音声信号のいずれに対して、数式(13),(14)に従い、クロストーク抑圧処理を行う。
Figure 0006635394
Figure 0006635394
数式(13),(14)において、係数w12Cは、状況Cにおいて、マイクmc1を用いて、マイクmc2の音声信号から話者である乗員h1の発話に基づくクロストーク成分を抑圧するためのフィルタ係数である。同様に、係数w21Cは、状況Cにおいて、マイクmc2を用いて、マイクmc1の音声信号から話者である乗員h2の発話に基づくクロストーク成分を抑圧するためのフィルタ係数である。
つまり、加算器26は、マイクmc1,mc2のそれぞれで収音される音声信号から、話者状況検出部13により検出された話者状況(つまり「状況C」)に応じてそれぞれ選択されたフィルタ係数を用いて抑圧されたクロストーク成分を減算する処理を行う。特に、乗員h1,h2がともに話者であるため、乗員h1,h2のそれぞれの発話に基づく音声信号がマイクm1,m2にはクロストーク成分として収音されており、話者が誰もいない時に比べてクロストーク成分を抑圧可能に係数w21C,w12Cが学習されて更新されているので、数式(13),(14)により、y1,y2はクロストーク成分が十分に抑圧された音声信号が出力されていることになる。
このように、実施の形態2では、2人の話者が同時に発話している場合、一方のマイクに他の話者の音声が入力してクロストークが生じやすくなる上、スピーカから出力される音声によって、音響エコーが発生する。この場合、各話者に対応する専用のマイクに対応する適応フィルタ20のフィルタ係数を学習しておくことで、音声処理装置10は、クロストーク成分を抑圧できるだけでなく、音響エコーを低減できる。従って、音声処理装置10は、音響エコー抑圧装置(ハウリングキャンセラ)としても機能する。
以上により、実施の形態2の音声処理装置10は、乗員2人の発話の有無を示す話者状況を判別する話者状況検出部13を更に備える。音声処理部12は、少なくとも1人の話者が存在すると判別された場合に、その話者以外の乗員の専用のマイクにより収音された話者音声信号をクロストーク成分として、話者以外の専用のマイクに対応するフィルタ係数を更新し、その更新結果を話者専用のフィルタ係数として保持する。
これにより、音声処理装置10は、各話者の専用のマイクに対応するフィルタ係数を学習しておくことで、他の乗員も発話している場合、話者の専用のマイクに収音される音声信号に含まれる、他の乗員によるクロストーク成分を抑圧できる。また、音声処理装置10は、スピーカから出力される音声が話者の専用のマイクに収音されなくなり、音響エコーを低減できる。
以上、図面を参照しながら各種の実施の形態について説明したが、本開示はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても当然に本開示の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、上述した各種の実施の形態における各構成要素を任意に組み合わせてもよい。
例えば、シングルトーク区間は、一人の乗員だけが発話している区間に限定されなくてもよく、実質的に一人の乗員だけが発話しているとみなされる区間であれば複数人が発話している話者状況であってもシングルトーク区間としてもよい。これは、例えば低い周波数の音声を発話する男性と高い周波数の音声を発話する女性とがともに発話していても、話者状況検出部13が周波数帯の重複(干渉)が生じない程度にそれぞれの音声信号を分離できてシングルトーク区間とみなすことができるためである。
例えば、上記実施の形態では、帯域分割は、可聴周波数域(30Hz〜23kHz)の音域内で、0〜500Hz,500Hz〜1kHz,……と、500Hz帯域幅で行われたが、100Hz帯域幅、200Hz帯域幅、1kHz帯域幅等、任意の帯域幅で行われてもよい。また、上記実施の形態では、帯域幅は、固定的に設定されたが、話者が存在する状況に応じて動的かつ可変的に設定されてもよい。例えば、高齢者だけが乗車あるいは集まっている場合、一般に、高齢者は、低い音域の音声しか聴きとれず、10kHz以下の音域で会話していることが多いと考えられる。この場合、帯域分割は、10kHz以下の音域を、例えば50Hz帯域幅で狭く行われ、10kHzを超える音域を例えば1kHz帯域幅で広く行われてもよい。また、子供や女性は、高音域の音声を聴きとれるので、20kHz近い音もクロストーク成分になる。この場合、帯域分割は、10kHzを超える音域を例えば100Hz帯域幅で狭く行われてもよい。
また、上実施の形態では、車室内で会話することを想定したが、本開示は、建物内の会議室で複数の人物が会話する際にも同様に適用可能である。また、本開示は、テレビ会議システムで会話する場合や、TVの字幕(テロップ)を流す場合にも適用可能である。
本開示は、それぞれの人物に対応して異なるマイクが配置された環境下で、周囲の他の人物の発する音声に基づくクロストーク成分の影響を緩和し、対応するマイクにより収音された話者本人の発する音声の音質の劣化を抑制する音声処理装置および音声処理方法として有用である。
5 音声処理システム
10 音声処理装置
11 帯域分割部
12 音声処理部
13 話者状況検出部
14 帯域合成部
15 メモリ
20 適応フィルタ
22 可変増幅器
23 ノルム算出部
24 1/X部
25 フィルタ係数更新処理部
26 加算器
30 音声認識エンジン
mc1,mc2 マイク

Claims (12)

  1. 一つの閉空間においてn(n:2以上の整数)人の人物のそれぞれに対応して配置されるn個のマイクにより収音された各話者音声信号に含まれる、他の話者の発話によるクロストーク成分をそれぞれ抑圧するフィルタと、前記クロストーク成分を抑圧するための前記フィルタのパラメータを更新し、その更新結果をメモリに保持するパラメータ更新部と、を少なくとも有する音声出力制御部と、
    n個の前記マイクのそれぞれにより収音された各前記話者音声信号を用いて、n個の前記マイクが対応するそれぞれの前記人物の、前記閉空間における発話状況を検出する話者状況検出部と、を備え、
    前記パラメータ更新部は、前記話者状況検出部により、少なくとも1人の話者が発話する時を含む所定の条件を満たすと判定された場合に、前記クロストーク成分を抑圧するための前記フィルタのパラメータを更新し、その更新結果をメモリに保持し、
    前記音声出力制御部は、n個の前記マイクにより収音された各前記話者音声信号が入力され、入力された前記話者音声信号のそれぞれについて、前記話者音声信号の前記クロストーク成分を前記フィルタにより抑圧した音声信号か、入力された前記話者音声信号そのもののいずれかを、前記話者状況検出部により検出された前記閉空間における発話状況に基づいてそれぞれ出力する、
    音声処理装置。
  2. 前記フィルタは、前記話者状況検出部により前記n人の人物がいずれも発話していると判定された場合に、前記n人の人物のそれぞれに対応する前記n個のマイクにより収音された各前記話者音声信号に対し、前記他の人物の発話によるクロストーク成分を抑圧する、
    請求項1に記載の音声処理装置。
  3. 前記話者状況検出部は、n個の前記マイクのそれぞれにより収音された各前記話者音声信号の相関解析を行うことにより、前記閉空間における発話状況を検出する、
    請求項1または2に記載の音声処理装置。
  4. 前記話者状況検出部は、n個の前記マイクのそれぞれにより収音された各前記話者音声信号の音圧レベルの絶対値を算出し平滑化した値を用いて、前記相関解析を行う、
    請求項3に記載の音声処理装置。
  5. 前記話者状況検出部は、n個の前記マイクのそれぞれにより収音された音声信号を用いて、前記閉空間において実質的に1人の話者が発話しているシングルトーク区間の検出を行い、
    前記パラメータ更新部は、前記シングルトーク区間が検出された場合に、前記所定の条件を満たすとして前記話者音声信号に含まれる前記話者以外の人物の音声信号を前記クロストーク成分として、前記フィルタのパラメータを更新し、
    前記音声出力制御部は、少なくとも、前記実質的に発話していると判定された1人の話者以外の人物のそれぞれに対応するマイクにより収音された音声信号から、前記パラメータ更新部によりパラメータが更新された前記フィルタにより、前記実質的に発話している1人の話者の音声を抑圧して出力する、
    請求項1〜4のうちいずれか一項に記載の音声処理装置。
  6. 前記パラメータ更新部は、前記話者状況検出部により、前記閉空間において前記シングルトーク区間以外の区間が検出された場合に、前記所定の条件を満たさないとして前記フィルタのパラメータを更新せず、
    前記音声出力制御部は、前記n人の人物のそれぞれに対応するマイクにより収音された各話者音声信号のうち少なくとも、実質的に発話していると判定され話者のそれぞれに対応するマイクにより収音された音声信号から、前記メモリに保持されている最新の前記パラメータの更新結果に基づいて前記フィルタにより、前記クロストーク成分を抑圧した音声信号を、それぞれ出力する、
    請求項5に記載の音声処理装置。
  7. 前記フィルタは、前記話者状況検出部により、前記閉空間において誰も発話していない無発話区間が検出された場合に、前記クロストーク成分の抑圧を行わず、
    前記音声出力制御部は、n個の前記マイクのそれぞれにより収音された各音声信号をそのまま出力する、
    請求項5に記載の音声処理装置。
  8. 前記フィルタは、前記話者状況検出部により、前記閉空間において前記シングルトーク区間が検出された場合に、前記シングルトーク区間に発話していると判定された話者に対応する前記話者音声信号に含まれる前記クロストーク成分の抑圧を行わず、
    前記音声出力制御部は、前記シングルトーク区間に発話していると判定された話者に対応するマイクにより収音された音声信号をそのまま出力する、
    請求項5に記載の音声処理装置。
  9. 前記パラメータ更新部は、前記話者状況検出部により、前記閉空間において前記少なくとも1人の話者が存在すると判別された場合に、その話者以外の人物に対応するマイクにより収音された前記話者音声信号を前記クロストーク成分として、前記フィルタのパラメータを更新し、その更新結果を前記話者に対応したパラメータとして保持する、
    請求項1〜4のうちいずれか一項に記載の音声処理装置。
  10. 前記フィルタは、前記話者状況検出部により、前記閉空間において誰も発話していない無発話区間が検出された場合、前記クロストーク成分の抑圧を行い、
    前記音声出力制御部は、n個の前記マイクのそれぞれにより収音された音声信号から、前記メモリに保持されている最新の前記パラメータの更新結果に基づいて前記フィルタにより前記クロストーク成分を抑圧した音声信号を出力する、
    請求項1〜4のうちいずれか一項に記載の音声処理装置。
  11. 前記フィルタは、前記話者状況検出部により、前記閉空間において前記シングルトーク区間が検出された場合、前記シングルトーク区間の話者に対応するマイクにより収音される前記話者以外の音声信号に含まれる前記クロストーク成分の抑圧を行い、
    前記音声出力制御部は、前記話者音声信号から、前記メモリに保持されている最新の前記パラメータの更新結果に基づいて前記フィルタにより前記クロストーク成分を抑圧した音声信号を出力する、
    請求項5に記載の音声処理装置。
  12. 一つの閉空間においてn(n:2以上の整数)人の人物のそれぞれに対応して配置されるn個のマイクにより収音された各話者音声信号に含まれる、他の話者の発話によるクロストーク成分をそれぞれ抑圧するステップと、
    n個の前記マイクのそれぞれにより収音された各前記話者音声信号を用いて、n個の前記マイクが対応するそれぞれの前記人物の、前記閉空間における発話状況を検出するステップと、
    少なくとも1人の話者が発話する時を含む所定の条件を満たすと判定された場合に、前記クロストーク成分を抑圧するためのフィルタのパラメータを更新し、その更新結果をメモリに保持するステップと、
    入力された前記話者音声信号のそれぞれについて、前記話者音声信号の前記クロストーク成分を前記フィルタにより抑圧した音声信号か、入力された前記話者音声信号そのもののいずれかを、検出された前記閉空間における発話状況に基づいてそれぞれ出力するステップと、を有する、
    音声処理方法。
JP2019013446A 2019-01-29 2019-01-29 音声処理装置および音声処理方法 Active JP6635394B1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019013446A JP6635394B1 (ja) 2019-01-29 2019-01-29 音声処理装置および音声処理方法
CN202010074485.4A CN111489750A (zh) 2019-01-29 2020-01-22 声音处理设备和声音处理方法
US16/751,857 US11089404B2 (en) 2019-01-29 2020-01-24 Sound processing apparatus and sound processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019013446A JP6635394B1 (ja) 2019-01-29 2019-01-29 音声処理装置および音声処理方法

Publications (2)

Publication Number Publication Date
JP6635394B1 true JP6635394B1 (ja) 2020-01-22
JP2020122835A JP2020122835A (ja) 2020-08-13

Family

ID=69166685

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019013446A Active JP6635394B1 (ja) 2019-01-29 2019-01-29 音声処理装置および音声処理方法

Country Status (3)

Country Link
US (1) US11089404B2 (ja)
JP (1) JP6635394B1 (ja)
CN (1) CN111489750A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11410671B2 (en) 2020-02-21 2022-08-09 Panasonic Intellectual Property Management Co., Ltd. Speech processing device and speech processing meihod

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022030302A (ja) * 2020-08-06 2022-02-18 アルプスアルパイン株式会社 能動型騒音制御システム及び車載システム
JP7356960B2 (ja) * 2020-10-29 2023-10-05 株式会社Nsd先端技術研究所 発言切り分けシステムとその方法
JP2023012772A (ja) * 2021-07-14 2023-01-26 アルプスアルパイン株式会社 車内コミュニケーション支援システム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10257583A (ja) * 1997-03-06 1998-09-25 Asahi Chem Ind Co Ltd 音声処理装置およびその音声処理方法
JP3579245B2 (ja) 1998-03-31 2004-10-20 三洋電機株式会社 エコーキャンセラの制御方法およびエコー除去装置
CA2399159A1 (en) * 2002-08-16 2004-02-16 Dspfactory Ltd. Convergence improvement for oversampled subband adaptive filters
JP4888262B2 (ja) 2007-07-12 2012-02-29 ヤマハ株式会社 通話状態判定装置および該通話状態判定装置を備えたエコーキャンセラ
US7974841B2 (en) * 2008-02-27 2011-07-05 Sony Ericsson Mobile Communications Ab Electronic devices and methods that adapt filtering of a microphone signal responsive to recognition of a targeted speaker's voice
JP5321372B2 (ja) * 2009-09-09 2013-10-23 沖電気工業株式会社 エコーキャンセラ
US10536773B2 (en) * 2013-10-30 2020-01-14 Cerence Operating Company Methods and apparatus for selective microphone signal combining
WO2017064840A1 (ja) 2015-10-16 2017-04-20 パナソニックIpマネジメント株式会社 音源分離装置および音源分離方法
US9747926B2 (en) 2015-10-16 2017-08-29 Google Inc. Hotword recognition
JP6463710B2 (ja) 2015-10-16 2019-02-06 グーグル エルエルシー ホットワード認識
US9928840B2 (en) 2015-10-16 2018-03-27 Google Llc Hotword recognition
JP6690309B2 (ja) 2016-03-09 2020-04-28 ヤマハ株式会社 エコー低減装置、及び音声通信装置
US11348595B2 (en) * 2017-01-04 2022-05-31 Blackberry Limited Voice interface and vocal entertainment system

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11410671B2 (en) 2020-02-21 2022-08-09 Panasonic Intellectual Property Management Co., Ltd. Speech processing device and speech processing meihod
US20220328059A1 (en) * 2020-02-21 2022-10-13 Panasonic Intellectual Property Management Co., Ltd. Speech processing device and speech processing method
US11735201B2 (en) 2020-02-21 2023-08-22 Panasonic Intellectual Property Management Co., Ltd. Speech processing device and speech processing method

Also Published As

Publication number Publication date
US20200245066A1 (en) 2020-07-30
JP2020122835A (ja) 2020-08-13
US11089404B2 (en) 2021-08-10
CN111489750A (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
JP6635394B1 (ja) 音声処理装置および音声処理方法
EP3678135B1 (en) Voice control in a multi-talker and multimedia environment
JP4283212B2 (ja) 雑音除去装置、雑音除去プログラム、及び雑音除去方法
JP5148150B2 (ja) 音響信号処理における均等化
US9978355B2 (en) System and method for acoustic management
JP4225430B2 (ja) 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム
US20120330652A1 (en) Space-time noise reduction system for use in a vehicle and method of forming same
EP3441969B1 (en) Synthetic speech for in vehicle communication
JP6545419B2 (ja) 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
JP2012025270A (ja) 車両用の音量制御装置および音量制御装置用のプログラム
WO2015086895A1 (en) Spatial audio processing apparatus
US11763790B2 (en) Active noise control apparatus for vehicles and method of controlling the same
US20060184361A1 (en) Method and apparatus for reducing an interference noise signal fraction in a microphone signal
US20220189450A1 (en) Audio processing system and audio processing device
JP2020134566A (ja) 音声処理システム、音声処理装置及び音声処理方法
JP5383008B2 (ja) 音声明瞭度改善システム及び音声明瞭度改善方法
JP6995254B2 (ja) 音場制御装置及び音場制御方法
JP6632246B2 (ja) 騒音低減装置、騒音低減方法、及び車載システム
JP2004309536A (ja) 音声処理装置
JP2007194833A (ja) ハンズフリー機能を備えた携帯電話
JP2003044092A (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190531

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190531

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190610

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190625

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190917

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191008

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191206

R151 Written notification of patent or utility model registration

Ref document number: 6635394

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151