JP2021135310A - 音声処理装置および音声処理方法 - Google Patents

音声処理装置および音声処理方法 Download PDF

Info

Publication number
JP2021135310A
JP2021135310A JP2020028730A JP2020028730A JP2021135310A JP 2021135310 A JP2021135310 A JP 2021135310A JP 2020028730 A JP2020028730 A JP 2020028730A JP 2020028730 A JP2020028730 A JP 2020028730A JP 2021135310 A JP2021135310 A JP 2021135310A
Authority
JP
Japan
Prior art keywords
voice
main speaker
speaker
signal
mixing ratio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020028730A
Other languages
English (en)
Inventor
正成 宮本
Masanari Miyamoto
正成 宮本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2020028730A priority Critical patent/JP2021135310A/ja
Priority to US17/179,985 priority patent/US11410671B2/en
Publication of JP2021135310A publication Critical patent/JP2021135310A/ja
Priority to US17/851,945 priority patent/US11735201B2/en
Priority to US18/210,702 priority patent/US20230335149A1/en
Pending legal-status Critical Current

Links

Images

Abstract

【課題】閉空間に存在する複数の話者の状況に応じて、メイン話者の発話音声に含まれ得る他の話者の発話音声による音響的なクロストーク成分を適応的に抑圧し、メイン話者の発話音声の音質を改善する。【解決手段】音声処理装置は、閉空間内に配置された収音装置と接続され、収音装置と閉空間内に存在するメイン話者を含む複数人のそれぞれとの位置関係を示す話者位置情報を保持するメモリと、話者位置情報に基づいて、メイン話者以外の他人物の音声信号に対してメイン話者の音声信号が含まれる割合を示す混合率を推定する混合率推定部と、混合率の推定結果に基づいて、メイン話者の音声信号に含まれる他人物の発話によるクロストーク成分の抑圧の要否を判別する決定部と、を備える。【選択図】図1

Description

本開示は、音声処理装置および音声処理方法に関する。
特許文献1には、車室内の状況として乗員の配置パターンを予め想定し、各配置パターンそれぞれに対して音の伝達特性を測定し、その測定により得られメモリ等に記憶された各伝達特性を用いて、スピーカから出力される音声信号に含まれる音響を推定して除去する音響除去装置が開示されている。この音響除去装置によれば、乗員の配置が配置パターンのいずれかを満たす限り、音響の除去または抑圧が可能である。
特開2009−216835号公報
特許文献1の構成では、ドライバーの発話音声を収音することを目的としたマイクがドライバーの前に1つ配置されているだけで、ドライバーの声は高音圧で収音可能ではあるが、一方で同じ車両内の同乗者(つまり他の乗員)の声をその同じマイクで高音圧に収音することは困難な場合が想定される。これは、マイクの配置箇所がドライバーの近くに偏っているので、ドライバーからマイクまでの距離と同乗者からマイクまでの距離とが異なるためである。このため、ドライバーと同乗者とがほぼ同時に発話した時にメイン話者(例えばドライバー)の音声信号に含まれる他の話者(例えば同乗者)の音声信号をクロストーク成分として抑圧したくても、他の話者の音声信号が高音圧で収音されていなければクロストーク抑圧の効果が現れず、メイン話者の音声信号の音質が劣化する可能性があった。これは、ドライバーのマイクでは他の話者(同乗者)の音声を高音圧で収音することが難しく、同乗者の音声信号をクロストーク成分として抑圧するための適応フィルタのフィルタ係数の学習が困難なためである。
本開示は、上述した従来の状況に鑑みて案出され、閉空間に存在する複数の話者の状況に応じて、メイン話者の発話音声に含まれ得る他の話者の発話音声による音響的なクロストーク成分を適応的に抑圧し、メイン話者の発話音声の音質を改善する音声処理装置および音声処理方法を提供することを目的とする。
本開示は、閉空間内に配置された収音装置と接続され、前記収音装置と前記閉空間内に存在するメイン話者を含む複数人のそれぞれとの位置関係を示す話者位置情報を保持するメモリと、前記話者位置情報に基づいて、前記メイン話者以外の他人物の音声信号に対して前記メイン話者の音声信号が含まれる割合を示す混合率を推定する混合率推定部と、前記混合率の推定結果に基づいて、前記メイン話者の音声信号に含まれる前記他人物の発話によるクロストーク成分の抑圧の要否を判別する決定部と、を備える、音声処理装置を提供する。
また、本開示は、閉空間内に配置された収音装置と接続された音声処理装置により実行される音声処理方法であって、前記収音装置と前記閉空間内に存在するメイン話者を含む複数人のそれぞれとの位置関係を示す話者位置情報をメモリに保持し、前記話者位置情報に基づいて、前記メイン話者以外の他人物の音声信号に対して前記メイン話者の音声信号が含まれる割合を示す混合率を推定し、前記混合率の推定結果に基づいて、前記メイン話者の音声信号に含まれる前記他人物の発話によるクロストーク成分の抑圧の要否を判別する、音声処理方法を提供する。
本開示によれば、閉空間に存在する複数の話者の状況に応じて、メイン話者の発話音声に含まれ得る他の話者の発話音声による音響的なクロストーク成分を適応的に抑圧でき、メイン話者の発話音声の音質を改善できる。
実施の形態1に係る音響クロストーク抑圧装置の機能的構成例を示すブロック図 実施の形態1に係る音響クロストーク抑圧動作手順例を示すフローチャート 実施の形態2に係る音響クロストーク抑圧装置の機能的構成例を示すブロック図 実施の形態2に係る音響クロストーク抑圧動作手順例を示すフローチャート 店員と顧客の真ん中にマイクアレイが置かれた状況の一例を示す図 図5の状況において、店員および顧客それぞれの方向に指向性が形成されて収音された音声に対する音響クロストーク抑圧処理例を説明する図 店員に近く顧客から離れた位置にマイクアレイが置かれた状況の一例を示す図 図7の状況において、店員および顧客それぞれの方向に指向性が形成されて収音された音声に対する音響クロストーク抑圧処理例を説明する図
(本開示に至る経緯)
音響クロストーク抑圧装置が使用される場面として、例えば、二人の人物が会話する状況が想定される。音響クロストーク抑圧装置は、例えば、特許第6635394号等に開示されるように、一方の人物が発話した音声に他方の人物が発話した音声がクロストーク成分として含まれる場合に、クロストーク成分を抑圧(言い換えると、減算)するための抑圧信号を生成し、その一方の人物の発話による音声信号から抑圧信号を抑圧することで、クロストーク成分が抑圧された音声信号を出力できる。二人の人物が会話する状況として、例えば、刑務所などで刑務官と犯罪者などの入所者とが向かい合って会話する状況、店舗などで店員と顧客とがテーブルを挟んで対話する状況、オフィスなどで社員と上司とが会議で話し合う状況などが挙げられるが、上述した状況に限定されなくてよい。発話の内容は、ログとして記録され、テキストに変換されて保存されてもよいし、発話の音声信号が音声認識の処理として入力されてもよい。
以下、店舗内で店員と顧客が対話する状況を一例として示す。音響クロストーク抑圧装置は、例えば店舗内に設置されている円卓のテーブルに配置されたマイクに接続され、店員および顧客の一方がメイン話者として発話する音声を目的音とし、このメイン話者の音声に妨害音として混ざる他の話者が発話する音声を抑圧する。
図5は、店員hm1と顧客hm2の真ん中にマイクアレイmAが置かれた状況の一例を示す図である。マイクアレイmAは、複数個の無指向性マイクを収容した筐体を有し、それぞれの無指向性マイクで周囲の音声を収音する。マイクアレイmAにより収音された音声は、公知の方法(例えば、マイクアレイmAに接続されたPC(図示略)で行われるビームフォーミング処理)により、店員hm1および顧客hm2のそれぞれの方向に指向性が形成されて音声出力が可能となる。なお、マイクアレイmAの代わりに、店員hm1および顧客hm2のそれぞれの方向に指向性を形成して音声を収音可能な指向性マイクが配置されても構わない。なお、マイクとしては、マイクアレイに限らず、1個もしくは複数個の無指向性マイクであってもよい。
図5では、マイクアレイmAから店員hm1までの距離とマイクアレイmAから顧客hm2までの距離とがほぼ等しい。反射波などを無視すると、一般にマイクアレイmAから店員hm1へ向かう方向d1とマイクアレイmAから顧客hm2に向かう方向d2とが大きいほど(言い換えると、マイクアレイmAから店員hm1,顧客hm2のそれぞれへ向かう2直線のなす角度が大きいほど)、マイクアレイmAは、店員hm1の声と顧客hm2の声とを高い割合で分離して収音できる。
図6は、図5の状況において、店員hm1および顧客hm2それぞれの方向に指向性が形成されて収音された音声に対する音響クロストーク抑圧処理例を説明する図である。マイクアレイmAは、一例として4個の無指向性のマイク素子m1〜m4を有する。図示は省略するが、マイクアレイmAに接続されたPCは、マイクアレイmAにより収音された音声信号を入力し、店員hm1および顧客hm2それぞれの方向に指向性を形成して(ビームフォーミングの処理を行って)音声を出力する。4個のマイク素子m1〜m4でそれぞれ収音される、店員hm1の声V1と顧客hm2の声V2は、音圧比で5:5としている。
ビームフォーミングの処理によって店員hm1の方向d1に指向性が形成された場合、店員hm1の声V1と顧客hm2の声V2は、例えば音圧比で7:3となったとする。同様に、ビームフォーミングの処理によって顧客hm2の方向d2に指向性が形成された場合、店員hm1の声V1と顧客hm2の声V2は、例えば音圧比で3:7となったとする。
ビームフォーミング後の店員hm1の声V1の音声信号を主信号とし、ビームフォーミングの処理後の顧客hm2の声V2の音声信号を参照信号として、音響クロストーク抑圧処理が行われると、クロストーク抑圧後の店員hm1の声V1と顧客hm2の声V2は、例えば音圧比で9:1となる。したがって、店員hm1の声V1が相対的に強調される。同様に、ビームフォーミングの処理後の店員hm1の声V1の音声信号を参照信号とし、ビームフォーミングの処理後の顧客hm2の声V2の音声信号を主信号として、音響クロストーク抑圧処理が行われると、クロストーク抑圧後の店員hm1の声V1と顧客hm2の声V2は、例えば音圧比で1:9となる。したがって、顧客hm2の声V2が強調される。音声認識エンジンegは、音響クロストーク抑圧後の店員hm1の声V1および顧客hm2の声V2のいずれも精度良く認識可能である。
図7は、店員hm1に近く顧客hm2から離れた位置にマイクアレイmAが置かれた状況の一例を示す図である。通常、マイクアレイmAは、店員hm1と顧客hm2の真ん中に置かれることよりも、むしろどちらかの方に片寄って置かれることが多い。この場合、マイクアレイmAから店員hm1までの距離とマイクアレイmAから顧客hm2までの距離が大きく異なる。したがって、マイクアレイmAにおいて受音(収音)される店員hm1の音声信号の音圧と顧客hm2の音声信号の音圧とに差が生じる(図7参照)。例えば、図7に示すように、マイクアレイmAを構成するそれぞれのマイクごとに、店員hm1,顧客hm2の音声信号の音圧の比率が7:3となるように差が生じている。このため、マイクアレイmAは、図5の状況とは異なり、店員hm1の声および顧客hm2の声を高い割合で分離して収音できない。なお、マイクアレイmAは、人体あるいは衣服に装着されてもよく、この場合、マイクアレイmAが装着された方の人物の声が支配的に収音され、より一層分離して収音できない。
図8は、図7の状況において、店員hm1および顧客hm2それぞれの方向に指向性が形成されて収音された音声に対する音響クロストーク抑圧処理例を説明する図である。4個のマイク素子m1〜m4でそれぞれ収音される、店員hm1の声V1と顧客hm2の声V2は、音圧比で5:5としている。
ビームフォーミングの処理によって店員hm1の方向d1に指向性が形成された場合、マイクアレイmAは、店員hm1の近くに配置されるので、店員hm1の声V1を支配的に収音可能である。店員hm1の声V1と顧客hm2の声V2は、例えば音圧比で9:1となる。一方、ビームフォーミングによって顧客hm2の方向d2に指向性が形成された場合、マイクアレイmAは、顧客hm2から遠くに配置されるので、顧客hm2の声V2を十分に収音できない。店員hm1の声V1と顧客hm2の声V2は、例えば音圧比で4:6となる。
このような場合に、ビームフォーミング後の店員hm1の声V1の音声信号を参照信号とし、ビームフォーミング後の顧客hm2の声V2の音声信号を主信号として、音響クロストーク抑圧処理が行われると、参照信号の店員hm1の声がクリアであるので、クロストーク抑圧の性能が高い。したがって、顧客hm2の声V2が相対的に十分に強調される。音声認識エンジンegは、顧客hm2の声V2を精度良く認識可能である。
一方、ビームフォーミング後の店員hm1の声V1の音声信号を主信号とし、ビームフォーミング後の顧客hm2の声V2の音声信号を参照信号として、音響クロストーク抑圧処理が行われると、店員hm1の声V1と顧客hm2の声V2の音圧比が4:6とほぼ同等であるので、音響クロストーク抑圧処理の性能が低い。この結果、妨害音である顧客hm2の声V2を抑圧するどころか、却って、顧客hm2の声V2が加算されてしまい、店員hm1の声V1が益々クリアでなくなってしまう可能性があった。
そこで、以下の実施の形態では、音声処理装置の一例としての音響クロストーク抑圧装置は、参照信号によってクロストーク成分の抑圧性能が低い場合には音響クロストーク抑圧処理を行わないでそのまま出力する。実施の形態1では無指向性マイクを用いる場合を示し、実施の形態2では指向性を形成可能なマイクアレイを用いる場合を示す。
以下、適宜図面を参照しながら、本開示に係る音声処理装置および音声処理方法を具体的に開示した実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明および実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。
(実施の形態1)
図1は、実施の形態1に係る音響クロストーク抑圧装置5の機能的構成例を示すブロック図である。音声処理装置の一例としての音響クロストーク抑圧装置5は、目的音に混ざる妨害音を抑圧するものであり、DSP(Digital Signal Processor)10とメモリ50,51とを含む構成である。音響クロストーク抑圧装置5には、マイクmc1が入力機器として接続され、音声認識エンジン(図示略)が出力機器として接続される。
収音装置の一例としてのマイクmc1は、例えば、1個の無指向性マイクである。マイクmc1は、例えば、高音質小型エレクトレットコンデンサーマイクロホン(ECM:Electret Condenser Microphone)で構成される。
音声認識エンジンは、音響クロストーク抑圧装置5から出力されるクロストーク抑圧後の音声信号あるいはクロストーク抑圧が行われない音声信号を基に、音声認識の処理を行い、その処理結果として音声信号の内容を示すテキストデータを生成する。なお、出力機器として、音声認識エンジンの代わりに、ネットワーク(図示略)を介して音声認識等の処理を行うクラウドサーバ、あるいは音声を出力可能なスピーカが接続されてもよい。また、マイクmc1および音声認識エンジンは、音響クロストーク抑圧装置5に内蔵されてもよい。
音響クロストーク抑圧装置5は、例えば2人の話者(メイン話者を含む複数人のそれぞれ)が会話している場合、同時に発話した2人の声の一方を目的音、他方を妨害音として、妨害音によるクロストーク成分を抑圧して目的音を明瞭(クリア)な音声に変換する。具体的に、音響クロストーク抑圧装置5は、妨害音を含む音声信号を参照信号として所定の(後述参照)の信号処理を施すことによって、音響クロストーク成分を再現した疑似クロストーク信号(抑圧信号の一例)を生成する。音響クロストーク抑圧装置5は、マイクmc1で収音された目的音の音声からその疑似クロストーク信号を除去(具体的には減算)することによってクロストーク抑圧後のクリアな(つまり音質が改善された)音声信号を生成する。
メモリ50は、マイクmc1が店員hm1の発話による音声(つまり目的音)を収音する際、過去に顧客hm2が発話した音声(つまり妨害音)のクリアな音声信号を記憶する。同様に、メモリ50は、マイクmc1が顧客hm2の発話による音声(つまり目的音)を収音する際、過去に店員hm1が発話した音声(つまり妨害音)のクリアな音声信号を記憶する。メモリ50に記憶された音声信号は、参照信号として音響クロストークの再現(つまり、上述した疑似クロストーク信号の生成)に用いられる。
メモリ51は、店舗などの閉空間内にいる店員hm1および顧客hm2とマイクmc1との位置関係を表す位置情報(話者位置情報の一例)を記憶する。例えば、位置情報として、マイクmc1から店員hm1までの距離、およびマイクmc1から顧客hm2までの距離を含む情報が挙げられる。
DSP10は、マイクmc1で収音された音声の音声信号に対して音響クロストーク抑圧処理を行うプロセッサである。DSP10は、妨害音混合率推定部41、信号処理選択部42、切替部43、および抑圧ユニット20を有する。
混合率推定部の一例としての妨害音混合率推定部41は、メモリ51に記憶された位置情報を基に、混合率を推定する。ここでいう混合率は、参照信号に含まれる妨害音(言い換えると、メイン話者の主信号)の参照信号に対する割合である。具体的に、メイン話者が店員hm1である場合、混合率は、他の話者である顧客hm2が発話する音声の音声信号(参照信号)に含まれる店員hm1が発話する音声(妨害音)の、顧客hm2が発話する音声の音声信号(参照信号)に対する割合である。同様に、メイン話者が顧客hm2である場合、混合率は、他の話者である店員hm1が発話する音声の音声信号(参照信号)に含まれる顧客hm2が発話する音声(妨害音)の、店員hm1が発話する音声の音声信号(参照信号)に対する割合である。
妨害音混合率推定部41は、メモリ51に記憶された位置情報として、メイン話者の位置からマイクmc1の位置までの第1距離と、他の話者の位置からマイクmc1の位置までの第2距離との比率に基づいて、混合率を推定する。なお、混合率の推定は、位置情報の他、マイク性能を考慮して決められてもよい。例えば、特定の方向に対してマイク感度が良い場合あるいはマイク感度が悪い場合、その点を踏まえ、混合率は推定されてもよい。
決定部の一例としての信号処理選択部42は、妨害音混合率推定部41によって推定された混合率を基に、切替部43に切り替えを指示する。混合率は、例えば、店員hm1と顧客hm2の間に配置されるマイクmc1の位置によって推定される。マイクmc1が店員hm1と顧客hm2の中央の位置でなく、店員hm1側に片寄った位置に置かれた場合を想定する。マイクmc1と店員hm1の間の距離、マイクmc1と顧客hm2の間の距離等を考慮すると、マイクmc1が店員hm1の音声を収音する場合、店員hm1の声に混ざる顧客hm2の声の割合は小さい。したがって、マイクmc1がメイン話者である顧客hm2の音声を取得する際、マイクmc1が収音する他の話者である店員hm1の音声は、音響クロストーク抑圧に用いられる参照信号に適する。信号処理選択部42は、クロストーク成分の抑圧を行うように、切替部43に指示する。
一方、マイクmc1が顧客hm2の音声を収音する場合、顧客hm2の声に混ざる店員hm1の声の割合は大きい。したがって、マイクmc1がメイン話者である店員hm1の音声を取得する際、マイクmc1が収音する他の話者である顧客hm2の音声は、音響クロストーク抑圧に用いられる参照信号に適さない。信号処理選択部42は、クロストーク成分の抑圧を行わないように、切替部43に指示する。
切替部43は、入力されたメイン話者の音声信号を、抑圧ユニット20を介さずに音響クロストーク抑圧装置5の出力段に伝達する第1端子43aと、入力されたメイン話者の音声信号を、抑圧ユニット20を介して音響クロストーク抑圧装置5の出力段に伝達する第2端子43bとを有する。切替部43は、信号処理選択部42からの指示にしたがい、メイン話者の音声信号の入力を第1端子43aまたは第2端子43bに切り替える。切替部43は、例えば機械的、電気的あるいは磁気的な切替スイッチである。
抑圧ユニット20は、加算器22、フィルタ更新部25およびディレイ29を有する。抑圧ユニット20では、クロストーク抑圧部の一例としての加算器22は、マイクmc1で収音された音声の音声信号に、畳み込み信号生成部23より生成された擬似クロストーク信号を減算する。これにより、加算器22は、マイクmc1で収音された音声に含まれるクロストーク成分を抑圧できる。抑圧ユニット20では、加算器22は、クロストーク成分が抑圧された後の音声信号を出力する。なお、加算器22が行う処理は厳密には減算であるが、疑似クロストーク信号を減算する処理であっても、反転した疑似クロストーク信号を加算する処理であっても良く、減算としても加算としても実現できる。そのため、本明細書では、この処理は、加算器22が行う処理として記載する。
以後、説明を分かり易くするために、店員hm1が発話する音声を目的音(メイン話者の音声)とし、顧客hm2が発話する音声を妨害音(メイン話者でない他人物の音声)とする場合を例示する。なお、顧客hm2が発話する音声を目的音とし、店員hm1が発話する音声を妨害音とする場合も同様である。
抑圧ユニット20が抑圧すべきクロストーク成分は、マイクmc1が収音する店員hm1の発話による音声に対し、過去に顧客hm2が発話した声がマイクmc1に到達した音声である。つまり、マイクmc1が収音するクロストーク成分は、顧客hm2が発話した声が、店員hm1に届くまでに要した時間分ずれて混合された音声である。そこで、抑圧ユニット20は、過去に顧客hm2が発話した声の音声を保持しておき、これに信号処理を施すことによって、この混合された音声を再現した疑似クロストーク信号を生成する。
フィルタ更新部25は、畳み込み信号生成部23、更新量計算部26、非線形変換部27およびノルム算出部28を有する。
フィルタの一例としての畳み込み信号生成部23は、参照信号から疑似クロストーク信号を生成する処理を行う適応フィルタであり、具体的には、特開2007−19595号公報等に記載されているFIR(Finite Impulse Response)フィルタを用いる。畳み込み信号生成部23は、マイクmc1に対する店員hm1と顧客hm2との間の伝達特性を再現し、参照信号を処理することにより、疑似クロストーク信号を生成する。ただし、店員hm1と顧客hm2とが対面している場所の伝達特性は定常的なものではないため、畳み込み信号生成部23の特性も随時変化させる必要がある。そこで、実施の形態1では、フィルタ更新部25によって、FIRフィルタの係数またはタップ数を制御することによって、畳み込み信号生成部23の特性が、マイクmc1に対する店員hm1と顧客hm2との間の最新の伝達特性に近づくよう変化させる。以下、適応フィルタの更新を、学習と表現することもある。
ここで、前述したように、マイクmc1が収音する店員hm1の音声は、顧客hm2の声がマイクmc1に届く時間分遅延する。マイクmc1が店員hm1の声を収音する場合、顧客hm2の声は、店員hm1が発話する直前にメモリ50に保持されるため、参照信号には、顧客hm2の声がマイクmc1に届くまでの間の遅延が反映されていない。そのため、実施の形態1では、ディレイ29により、この時間差を吸収し、フィルタ更新部25は、マイクmc1で収音されたタイミングに合致する参照信号を得る。すなわち、マイクmc1および顧客hm2の間の距離を音速で除算した時間分、参照信号をディレイ29によって遅延させることで、マイクmc1にて実際に収音されたタイミングの再生音を再現する。ディレイ29の値は、マイクmc1と顧客hm2の間の距離を実測し、それを音速で除算することによって得ることができる。
非線形変換部27は、音響クロストーク抑圧後の信号に対して非線形変換を行う。この非線形変換は、音響クロストーク抑圧後の信号をフィルタの更新すべき方向(正か負)を指し示す情報へと変換する処理である。非線形変換部27は、非線形変換した後の信号を更新量計算部26に出力する。
ノルム算出部28は、過去に顧客hm2が発話した声の音声信号のノルムを算出する。顧客hm2が発話した声の音声信号のノルムとは、過去の所定時間内に顧客hm2が発話した声の音声信号の大きさの総和であり、この時間内の信号の大きさの度合いを示す値である。ノルムは、更新量計算部26にて、顧客hm2が発話した声の音声の音量の影響を正規化するために用いられる。一般に、音量が大きいほどフィルタの更新量も大きく算出されてしまうため、正規化を行わなくては、畳み込み信号生成部23の特性が大きな音声の特性に過剰に影響されてしまう。そこで、実施の形態1では、ディレイ29から出力された音声信号を、ノルム算出部28が算出したノルムを用いて正規化することで畳み込み信号生成部23の更新量を安定させている。
更新量計算部26は、非線形変換部27とノルム算出部28とディレイ29とから受け取る信号から、畳み込み信号生成部23のフィルタ特性の更新量(具体的には、FIRフィルタの係数またはタップ数の更新量)を計算する。具体的には、ディレイ29から受け取る、過去に顧客hm2が発話した声の音声をノルム算出部28で算出したノルムに基づき正規化する。そして、この過去に顧客hm2が発話した声の音声を正規化した結果に、非線形変換部27から得られた情報に基づき正または負の情報を付加することで更新量を決定する。実施の形態1では、更新量計算部26は、ICA(独立成分解析)アルゴリズムまたはNLMS(Normalized Least Mean Square)アルゴリズムによりフィルタ特性の更新量を計算する。
更新量計算部26、非線形変換部27およびノルム算出部28の処理を随時実行していくことで、フィルタ更新部25は、畳み込み信号生成部23の特性を、店員hm1の声を収音するマイクmc1と顧客hm2との間の伝達特性に近づけることができる。なお、顧客hm2が発話する音声を目的音とし、店員hm1が発話する音声を妨害音とする場合には、フィルタ更新部25は、畳み込み信号生成部23の特性を、顧客hm2の声を収音するマイクmc1と店員hm1との間の伝達特性に近づける。
次に、実施の形態1に係る音響クロストーク抑圧装置5の動作を示す。
図2は、実施の形態1に係る音響クロストーク抑圧動作手順例を示すフローチャートである。この処理は、マイクmc1で収音される音声の音声信号に対し、1サンプル毎に実行される。
図2において、マイクmc1は、メイン話者である店員hm1が発話する音声を収音し、音声認識したい主信号として取得する(S1)。また、マイクmc1は、顧客hm2が発話する音声を収音し、DSP10は、この音声を参照信号としてメモリ50に記憶する。
妨害音混合率推定部41は、メモリ51に記憶された位置情報を取得する(S2)。妨害音混合率推定部41は、取得した位置情報を基に、混合率を推定する(S3)。混合率の推定は、マイクmc1が置かれた位置を基に決められる。例えば、マイクmc1が4個の無指向性のマイク素子を有する場合、各マイク素子で収音される音声の音圧比を比較することで、マイクmc1の位置が特定される。なお、音響クロストーク抑圧装置5が、カメラを塔載する場合、カメラによる撮像画像を用いて、マイクmc1の位置が特定されてもよい。
妨害音混合率推定部41は、ステップS3で推定された混合率が閾値以下であるか否かを判別する(S4)。閾値は、音響クロストーク抑圧処理を行った場合に、メイン話者の音声が劣化しない(つまり妨害音が増加しない)とされる、参照信号に含まれる妨害音(言い換えると、メイン話者の音声)の割合に設定される。
混合率が閾値を超える場合(S4、NO)、DSP10は、図2に示す本処理を終了する。つまり、この場合には、クロストーク成分の抑圧が行われないので、メイン話者である店員hm1の主信号(音声信号)がそのまま音響クロストーク抑圧装置5の出力段に出力される。
一方、混合率が閾値以下である場合(S4、YES)、DSP10は、メモリ50に記憶された参照信号を、ディレイ29で遅延して取得する(S5)。
フィルタ更新部25は、例えばフィルタ更新部25に内蔵されるメモリ(図示略)に記憶されている対応するフィルタ係数を読み込み、畳み込み信号生成部23に設定する(S6)。畳み込み信号生成部23は、マイクmc1で収音され、ディレイ29で遅延された参照信号を用いて、疑似クロストーク信号に相当するクロストーク抑圧信号(抑圧信号の一例)を生成する。すなわち、畳み込み信号生成部23は、更新量計算部26で更新される最新のフィルタ係数を用いて、遅延時間分ずれた参照信号に対し畳み込み処理を行い、遅延時間分ずれた参照信号からクロストーク抑圧信号(上述参照)を生成する。
加算器22は、マイクmc1で収音された音声の音声信号から、畳み込み信号生成部23により生成されたクロストーク抑圧信号を減算し、マイクmc1で収音された音声に含まれるクロストーク成分を抑圧する(S7)。
DSP10は、フィルタ学習期間であるか否かを判別する(S8)。フィルタ学習期間は、メイン話者である店員hm1に対し、他の話者である顧客hm2が発話している期間である。また、フィルタ学習期間でない期間は、他の話者である顧客hm2が発話していない期間である。フィルタ学習期間である場合(S8、YES)、フィルタ更新部25は、それぞれ更新量計算部26で計算されるフィルタ係数で畳み込み信号生成部23のフィルタ係数を更新し、フィルタ更新部25に内蔵されるメモリ(図示略)に記憶する(S7)。一方、フィルタ学習期間でない場合(S8、NO)、DSP10は、図2に示す本処理を終了する。
このように、実施の形態1に係る音響クロストーク抑圧装置5では、DSP10は、店員hm1および顧客hm2のそれぞれとマイクmc1との位置関係を示す位置情報を予めメモリ51に登録しておく。妨害音混合率推定部41は、この位置情報を基に妨害音の混合率を推定する。音響クロストーク抑圧装置5は、推定した混合率が閾値を超える場合に、メイン話者である店員hm1の声がクリアでなくなるとして、音響クロストーク抑圧処理を行わない。これにより、音響クロストーク抑圧処理によって妨害音の低減が期待できない場合、音響クロストーク抑圧装置5は、メイン話者の音声をそのまま出力することで、メイン話者の音声の劣化を抑制できる。また、音響クロストーク抑圧装置5は、不要なクロストーク抑圧処理を省くことで、処理量を減らし、DSP10の負荷を低減できる。一方、音響クロストーク抑圧装置5は、音響クロストーク抑圧処理によって妨害音の低減が期待できる場合、音響クロストーク抑圧処理を行い、妨害音に対するクロストーク抑圧の性能を改善できる。
以上により、音響クロストーク抑圧装置5は、例えば、店員hm1と顧客hm2が対話する店舗内に配置されたマイクmc1と接続される。音響クロストーク抑圧装置5は、マイクmc1と店舗内に存在する店員hm1および顧客hm2との位置関係を示す位置情報をメモリ51で保持する。音響クロストーク抑圧装置5は、この位置情報に基づいて、他の話者(メイン話者以外の他人物の一例)の音声信号に対してメイン話者の音声信号が含まれる割合を示す混合率を妨害音混合率推定部41で推定する。音響クロストーク抑圧装置5は、混合率の推定結果に基づいて、メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧の要否を信号処理選択部42で判別する。
これにより、音響クロストーク抑圧装置5は、店舗などの閉空間に存在する複数の話者(例えば店員hm1および顧客hm2)の状況に応じて、メイン話者(例えば店員hm1)の発話音声に含まれ得る他の話者(例えば顧客hm2)の発話音声による音響的なクロストーク成分を適応的に抑圧できる。したがって、音響クロストーク抑圧装置5は、メイン話者の発話音声の音質を改善できる。
また、信号処理選択部42は、混合率の推定結果が所定の閾値以下であると判定した場合に、メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧を行うと決定する。これにより、音響クロストーク抑圧装置5は、他の話者が発話する声の音声信号を参照信号として使用する場合に、クロストーク成分を効果的に抑圧できる。
また、信号処理選択部42は、混合率の推定結果が所定の閾値より大きいと判定した場合に、メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧を行わないと決定する。これにより、音響クロストーク抑圧装置5は、クロストーク成分を抑圧することで、却ってメイン話者の音声に混ざる他の話者の音声が増加し、メイン話者の音声がクリアでなくなることを抑制できる。また、クロストーク抑圧処理を省くことで、DSP10による処理の負荷を軽減できる。
また、音響クロストーク抑圧装置5は、メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成する畳み込み信号生成部23を有し、クロストーク成分を抑圧するための畳み込み信号生成部23のパラメータを更新し、その更新結果をメモリに保持するフィルタ更新部25と、畳み込み信号生成部23により生成されたクロストーク成分の抑圧信号を用いて、メイン話者の音声信号に含まれるクロストーク成分を抑圧する加算器22と、をさらに備える。これにより、音響クロストーク抑圧装置5は、店舗内の店員hm1と顧客hm2との話者状況に応じて、メイン話者(例えば店員hm1)の発話音声に含まれ得る、顧客hm2による音響的なクロストーク成分を適応的に抑圧でき、店員hm1の発話音声の音質を改善できる。したがって、店舗内の音場が変わっても、例えば店員hm1あるいは顧客hm2が席を外して立ち上がっても、音場の変化に合わせてクロストーク成分の抑圧性能を徐々に高めることができる。
また、妨害音混合率推定部41は、位置情報に含まれる店員hm1(メイン話者の一例)の位置からマイクmc1の位置までの第1距離と、位置情報に含まれる顧客hm2(他人物の一例)の位置からマイクmc1の位置までの第2距離との比率に基づいて、混合率を推定する。これにより、妨害音混合率推定部41は、店員hm1、顧客hm2およびマイクmc1の幾何学的な位置関係から容易に妨害音の混合率を推定できる。また、妨害音混合率推定部41は、この位置関係と混合率の対応をデータベースとして予めメモリに登録しておくことで、簡単に混合率を取得できる。
また、畳み込み信号生成部23は、メモリに保持されている最新の畳み込み信号生成部23のパラメータの更新結果を用いて、クロストーク成分の抑圧信号を生成する。これにより、音響クロストーク抑圧装置5は、同様の話者状況が継続する場合には、その話者状況に応じて既に算出された適応的なクロストーク成分を継続して求めることができるので、メイン話者の発話音声に含まれるクロストーク成分を効果的に抑圧できる。
また、音響クロストーク抑圧装置5は、入力されたメイン話者の音声信号を、加算器22を介さずに音響クロストーク抑圧装置5の出力段に伝達する第1端子43aと、入力されたメイン話者の音声信号を、加算器22を介して音響クロストーク抑圧装置5の出力段に伝達する第2端子43bとを有し、信号処理選択部42によって判別されたクロストーク成分の抑圧の要否の判別結果にしたがい、メイン話者の音声信号の入力を第1端子43aまたは第2端子43bに切り替える切替部43を備える。これにより、音響クロストーク抑圧装置5は、機械的、電気的あるいは磁気的な切替スイッチを使用して、クロストーク抑圧を行った音声信号とクロストーク抑圧を行わない音声信号とを簡単に切り替えて出力できる。
(実施の形態2)
実施の形態2に係る音響クロストーク抑圧装置5Aでは、任意の方向に指向性を形成可能なマイクアレイを用いる場合を示す。図3は、実施の形態2に係る音響クロストーク抑圧装置5Aの機能的構成例を示すブロック図である。実施の形態2に係る音響クロストーク抑圧装置5Aにおいて、実施の形態1と同一の構成要素については同一の符号を用いることで、その説明を省略し、ここでは相違する部分だけを説明する。音響クロストーク抑圧装置5Aは、実施の形態1と比べ、マイクmc1の代わりに、マイクアレイmAを含む構成である。
収音装置の一例としてのマイクアレイmAは、複数個(例えば16個)の無指向性のマイク素子m11,m12,…m1nおよびマイクアレイ処理部mdを有し、実施の形態1で説明した2人の話者(例えば店員hm1および顧客hm2)の方向にそれぞれ指向性を形成(ビームフォーミングの処理)が可能な指向性マイクである。指向性処理部の一例としてのマイクアレイmAは、複数個の無指向性のマイク素子を用いて所定の方向に指向性をマイクアレイ処理部mdにおいて形成することができる。なお、この指向性の形成に関する技術は、例えば特開2015−29241号公報に示されるように、公知の技術である。なお、マイクアレイ処理部mdは、DSP10に含まれるように構成されてもよい。
メモリ50は、マイクアレイmAが店員hm1がいる方向d1に指向性を形成して音声する収音する際、過去に顧客hm2が発話した声の音声信号を記憶する。同様に、メモリ50は、マイクアレイmAが顧客hm2がいる方向d2に指向性を形成して音声する収音する際、過去に店員hm1が発話した声の音声信号を記憶する。これらの信号は、参照信号として音響クロストークの再現(つまり、上述した疑似クロストーク信号の生成)に用いられる。
混合率推定部の一例としての妨害音混合率推定部41Aは、メモリ51に記憶された位置情報およびマイクアレイmAの指向性性能を基に、混合率を推定する。具体的に、妨害音混合率推定部41Aは、位置情報を基に、マイクアレイmAから店員hm1(メイン話者)の方向d1に第1指向性を形成した第1音声信号とマイクアレイmAから他の話者の方向d2に第2指向性を形成した第2音声信号との比率に基づいて、混合率を推定する。
決定部の一例としての信号処理選択部42は、妨害音混合率推定部41Aによって推定された混合率を基に、切替部43に切り替えを指示する。
例えば、混合率は、店員hm1と顧客hm2との間に配置されるマイクアレイmAの位置によって推定される。マイクアレイmAが店員hm1と顧客hm2との中央の位置でなく、店員hm1側に片寄った位置に置かれた場合を想定する。マイクアレイmAと店員hm1との間の距離、マイクアレイmAと顧客hm2との間の距離等を考慮すると、マイクアレイmAが店員hm1がいる方向d1に指向性を形成して音声を収音する際、店員hm1の声に混ざる顧客hm2の声の割合は小さい。したがって、マイクアレイmAがメイン話者である顧客hm2がいる方向d2に指向性を形成し、抑圧ユニット20がクロストーク抑圧後の音声を取得する際、マイクアレイmAが収音する他の話者である店員hm1がいる方向d1に指向性を形成して収音する音声は、音響クロストーク抑圧に用いられる参照信号に適する。信号処理選択部42は、クロストーク成分の抑圧を行うように、切替部43に指示する。
一方、マイクアレイmAが顧客hm2がいる方向d2に指向性を形成して音声を収音する際、顧客hm2の声に混ざる店員hm1の声の割合は大きい。したがって、マイクアレイmAがメイン話者である店員hm1がいる方向d1に指向性を形成し、抑圧ユニット20がクロストーク抑圧後の音声を取得する際、マイクアレイmAが収音する他の話者である顧客hm2がいる方向d2に指向性を形成して収音する音声は、音響クロストーク抑圧に用いられる参照信号に適さない。信号処理選択部42は、クロストーク成分の抑圧を行わないように、切替部43に指示する。
切替部43は、例えば店員hm1の方向に指向性を形成して収音した音声に対し、音響クロストーク抑圧を行わないとして、マイクアレイmAからの音声信号をそのまま出力するように切り替える。一方、切替部43は、顧客hm2の方向に指向性を形成して収音した音声に対し、音響クロストーク抑圧を行う場合、マイクアレイmAからの音声信号を抑圧ユニット20に入力するように切り替える。抑圧ユニット20は、音響クロストーク抑圧処理を行い、クロストーク抑圧後の音声信号を出力する。
次に、実施の形態2に係る音響クロストーク抑圧装置5Aの動作を示す。
図4は、音響クロストーク抑圧動作手順を示すフローチャートである。図4の説明において、実施の形態1と同一のステップ処理については同一の符号を付すことで、その説明を省略する。
図4において、マイクアレイmAは、店員hm1および顧客hm2がいる店舗で発話された音声を収音する(S1A)。マイクアレイmAは、収音した音声の音声信号に対し、店員hm1がいる方向d1に指向性を形成し、メイン話者である店員hm1の音声信号(主信号)を取得する(S1)。同様に、マイクアレイmAは、収音した音声の音声信号に対し、顧客hm2がいる方向d2に指向性を形成し、他の話者である顧客hm2の音声信号(参照信号)を取得する(S2)。
妨害音混合率推定部41Aは、マイクアレイmAと店員hm1および顧客hm2との位置関係を示す位置情報とマイクアレイmAの指向性性能とを基に、参照信号である顧客hm2がいる方向d2の音声に含まれる、店員hm1の音声(妨害音)の混合率を推定する(S3)。ここでいう、指向性性能は、マイクアレイmAから店員hm1(メイン話者)の方向d1に第1指向性を形成した第1音声信号とマイクアレイmAから他の話者の方向d2に第2指向性を形成した第2音声信号との比率に相当する。
ステップS4以降の処理は、実施の形態1と同様である。妨害音混合率推定部41Aは、推定した混合率が閾値以下であるか否かを判別する(S4)。指向性形成後の妨害音の混合率が閾値以下である場合(S4、YES)、この妨害音を含む音声は参照信号として利用できるとして、DSP10は、実施の形態1と同様、ステップS5〜S7の処理を行う。つまり、DSP10は、メイン話者の音声(目的音:店員hm1の声)に混ざる妨害音(顧客hm2の声)を抑圧する音響クロストーク抑圧処理を行う。
一方、指向性形成後の妨害音の混合率が閾値を超える場合(S4、NO)、この妨害音を含む音声は参照信号として利用できないとして、DSP10は、音響クロストーク抑圧処理を行わずにそのまま音響クロストーク抑圧装置5の出力段に出力する。したがって、DSP10は、妨害音が増加したクロストーク抑圧後の音声信号を出力することなく、処理の負荷を軽減できる。
このように、実施の形態2に係る音響クロストーク抑圧装置5Aでは、DSP10は、店員hm1および顧客hm2とマイクアレイmAとの位置関係を示す位置情報をメモリ51に登録しておく。妨害音混合率推定部41Aは、この位置情報およびマイクアレイmAの指向性性能(上述参照)を基に、妨害音の混合率を推定する。音響クロストーク抑圧装置5Aは、実施の形態1と同様、推定した混合率が閾値を超える場合、メイン話者である店員hm1の声がクリアでなくなるとして、音響クロストーク抑圧処理を行わない。これにより、音響クロストーク抑圧処理によって妨害音の低減が期待できない場合、音響クロストーク抑圧装置5Aは、メイン話者の音声をそのまま出力することで、メイン話者の音声の劣化を抑制できる。また、音響クロストーク抑圧装置5Aは、音響クロストーク抑圧処理を省くことで、処理量を減らし、DSP10の負荷を低減できる。一方、音響クロストーク抑圧装置5Aは、音響クロストーク抑圧処理によって妨害音の低減が期待できる場合、音響クロストーク抑圧処理を行い、妨害音に対するクロストーク抑圧の性能を改善できる。
以上により、音響クロストーク抑圧装置5Aは、マイクアレイmAが有する複数の無指向性のマイク素子m11〜m1nのそれぞれにより収音された音声信号と位置情報とに基づいて、マイクアレイmAからメイン話者、他の話者のそれぞれへの方向に異なる指向性を形成するマイクアレイ処理部md、をさらに備える。妨害音混合率推定部41Aは、メモリ51に記憶された位置情報を基に、マイクアレイmAから店員hm1の方向d1に第1指向性を形成した第1音声信号とマイクアレイmAから他の話者の方向d2に第2指向性を形成した第2音声信号との比率に基づいて、混合率を推定する。
これにより、音響クロストーク抑圧装置5Aは、店員hm1および顧客hm2とマイクアレイmAとの位置関係の他、マイクアレイmAの指向性性能(上述参照)を加味して、音響クロストーク抑圧処理を行うか否かを決定できる。また、顧客hm2の方向d2に指向性が形成された音声を収音することで、参照信号として用いられる顧客hm2の音声に混ざる店員hm1の音声(妨害音の一例)の割合(混合率の一例)を下げることができる。したがって、店員hm1が発話する声の音声に対し、クロストーク成分の抑圧が行われる確率を高めることができる。
以上、図面を参照しながら各種の実施の形態について説明したが、本開示はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても当然に本開示の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、上述した各種の実施の形態における各構成要素を任意に組み合わせてもよい。
例えば、上述した実施の形態1では、店員hm1と顧客hm2との間に1個のマイクmc1が配置され、店員hm1および顧客hm2それぞれの声を収音したが、マイクの数は、店員hm1向けのマイクと顧客hm2向けのマイクとを含む、2個であってもよい。この場合、店員hm1向けのマイクは、ヘッドセットに内蔵されてもよい。2個のマイクを用いると、各マイクは、妨害音に対し、目的音を大きな音圧で収音可能であるので、音響クロストーク抑圧処理が行われ易い状況である。ただし、2個のマイクであっても、これらの置き場所が著しく片寄っている状況では、音響クロストーク抑圧処理が行われない場合もあり得る。
また、上述した実施の形態1,2のいずれにおいても、妨害音混合率推定部41,41Aによって推定された混合率が閾値以下である場合、更新量計算部26は、混合率の値によってアルゴリズム(NLMSアルゴリズム、ICAアルゴリズム等)を変更して適応フィルタのパラメータを計算してもよく、より適した値に設定できる。
また、音響クロストーク抑圧装置5,5Aは、ハウリングキャンセラに用いられてもよい。ハウリングキャンセラは、例えばカラオケボックス等において、自身が発する声がスピーカで再生されてマイクで収音される音を妨害音として抑圧する。また、音響クロストーク抑圧装置5,5Aは、エコーキャンセラに用いられてもよい。エコーキャンセラは、車室内等において、他の話者が発話する声がスピーカから出力されてメイン話者のマイクで収音される音を妨害音として抑圧する。
本開示は、閉空間に存在する複数の話者の状況に応じて、メイン話者の発話音声に含まれ得る他の話者の発話音声による音響的なクロストーク成分を適応的に抑圧し、メイン話者の発話音声の音質を改善する音声処理装置および音声処理方法として有用である。
5,5A 音響クロストーク抑圧装置
22 加算器
23 畳み込み信号生成部
25 フィルタ更新部
26 更新量計算部
27 非線形変換部
28 ノルム算出部
29 ディレイ
41,41A 妨害音混合率推定部
42 信号処理選択部
43 切替部
43a 第1端子
43b 第2端子
mA マイクアレイ
mc1 マイク

Claims (9)

  1. 閉空間内に配置された収音装置と接続され、
    前記収音装置と前記閉空間内に存在するメイン話者を含む複数人のそれぞれとの位置関係を示す話者位置情報を保持するメモリと、
    前記話者位置情報に基づいて、前記メイン話者以外の他人物の音声信号に対して前記メイン話者の音声信号が含まれる割合を示す混合率を推定する混合率推定部と、
    前記混合率の推定結果に基づいて、前記メイン話者の音声信号に含まれる前記他人物の発話によるクロストーク成分の抑圧の要否を判別する決定部と、を備える、
    音声処理装置。
  2. 前記決定部は、前記混合率の推定結果が所定の閾値以下であると判定した場合に、前記メイン話者の音声信号に含まれる前記他人物の発話によるクロストーク成分の抑圧を行うと決定する、
    請求項1に記載の音声処理装置。
  3. 前記決定部は、前記混合率の推定結果が所定の閾値より大きいと判定した場合に、前記メイン話者の音声信号に含まれる前記他人物の発話によるクロストーク成分の抑圧を行わないと決定する、
    請求項1に記載の音声処理装置。
  4. 前記メイン話者の音声信号に含まれる前記他人物の発話によるクロストーク成分の抑圧信号を生成するフィルタを有し、前記クロストーク成分を抑圧するための前記フィルタのパラメータを更新し、その更新結果をメモリに保持するフィルタ更新部と、
    前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧するクロストーク抑圧部と、をさらに備える、
    請求項1に記載の音声処理装置。
  5. 前記混合率推定部は、前記話者位置情報に含まれる前記メイン話者の位置から前記収音装置の位置までの第1距離と、前記話者位置情報に含まれる前記他人物の位置から前記収音装置の位置までの第2距離との比率に基づいて、前記混合率を推定する、
    請求項1に記載の音声処理装置。
  6. 前記収音装置が有する複数のマイク素子のそれぞれにより収音された音声信号と前記話者位置情報とに基づいて、前記収音装置から前記メイン話者、前記他人物のそれぞれへの方向に異なる指向性を形成する指向性処理部、をさらに備え、
    前記混合率推定部は、前記収音装置から前記メイン話者の方向に第1指向性を形成した第1音声信号と前記収音装置から前記他人物の方向に第2指向性を形成した第2音声信号との比率に基づいて、前記混合率を推定する、
    請求項1に記載の音声処理装置。
  7. 前記フィルタは、前記メモリに保持されている最新の前記フィルタのパラメータの更新結果を用いて、前記抑圧信号を生成する、
    請求項4に記載の音声処理装置。
  8. 入力された前記メイン話者の音声信号を、前記クロストーク抑圧部を介さずに前記音声処理装置の出力段に伝達する第1端子と、入力された前記メイン話者の音声信号を、前記クロストーク抑圧部を介して前記音声処理装置の出力段に伝達する第2端子とを有し、前記クロストーク成分の抑圧の要否の判別結果に基づいて、前記メイン話者の音声信号の入力を前記第1端子または前記第2端子に切り替える切替部、をさらに備える、
    請求項4に記載の音声処理装置。
  9. 閉空間内に配置された収音装置と接続された音声処理装置により実行される音声処理方法であって、
    前記収音装置と前記閉空間内に存在するメイン話者を含む複数人のそれぞれとの位置関係を示す話者位置情報をメモリに保持し、
    前記話者位置情報に基づいて、前記メイン話者以外の他人物の音声信号に対して前記メイン話者の音声信号が含まれる割合を示す混合率を推定し、
    前記混合率の推定結果に基づいて、前記メイン話者の音声信号に含まれる前記他人物の発話によるクロストーク成分の抑圧の要否を判別する、
    音声処理方法。
JP2020028730A 2020-02-21 2020-02-21 音声処理装置および音声処理方法 Pending JP2021135310A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2020028730A JP2021135310A (ja) 2020-02-21 2020-02-21 音声処理装置および音声処理方法
US17/179,985 US11410671B2 (en) 2020-02-21 2021-02-19 Speech processing device and speech processing meihod
US17/851,945 US11735201B2 (en) 2020-02-21 2022-06-28 Speech processing device and speech processing method
US18/210,702 US20230335149A1 (en) 2020-02-21 2023-06-16 Speech processing device and speech processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020028730A JP2021135310A (ja) 2020-02-21 2020-02-21 音声処理装置および音声処理方法

Publications (1)

Publication Number Publication Date
JP2021135310A true JP2021135310A (ja) 2021-09-13

Family

ID=77661056

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020028730A Pending JP2021135310A (ja) 2020-02-21 2020-02-21 音声処理装置および音声処理方法

Country Status (1)

Country Link
JP (1) JP2021135310A (ja)

Similar Documents

Publication Publication Date Title
US11297178B2 (en) Method, apparatus, and computer-readable media utilizing residual echo estimate information to derive secondary echo reduction parameters
US9992572B2 (en) Dereverberation system for use in a signal processing apparatus
JP5007442B2 (ja) 発話改善のためにマイク間レベル差を用いるシステム及び方法
JP4588966B2 (ja) 雑音低減のための方法
CA2560034C (en) System for selectively extracting components of an audio input signal
JP4654777B2 (ja) 音響エコーキャンセル装置
KR20040019362A (ko) 후처리기로서 멀티 마이크로폰 에코 억제기를 가지는 음향보강 시스템
JP6545419B2 (ja) 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
CN111078185A (zh) 录制声音的方法及设备
US10937418B1 (en) Echo cancellation by acoustic playback estimation
Zhang et al. Neural cascade architecture for multi-channel acoustic echo suppression
US20230335149A1 (en) Speech processing device and speech processing method
WO2020027061A1 (ja) 会話サポートシステム、その方法、およびプログラム
US20220189450A1 (en) Audio processing system and audio processing device
JP2021135310A (ja) 音声処理装置および音声処理方法
WO2021100670A1 (ja) 音響クロストーク抑圧装置および音響クロストーク抑圧方法
JP2021135311A (ja) 音声処理装置および音声処理方法
JP7486153B2 (ja) 音声処理装置および音声処理方法
Adcock et al. Practical issues in the use of a frequency‐domain delay estimator for microphone‐array applications
JP2021135447A (ja) 音声処理装置および音声処理方法
Saremi Spatial audio signal processing for speech telecommunication inside vehicles
JP2009015209A (ja) 音声明瞭度改善システム及び音声明瞭度改善方法
WO2023065317A1 (zh) 会议终端及回声消除方法
Namenas et al. 12 A Recording Setup for Clean Lombard Speech Based on Acoustic Ambiance Simulation and Noise Suppression
JP2023546639A (ja) ポータブルカラオケの低複雑度ハウリング抑制

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240131

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240416