JP7486145B2 - 音響クロストーク抑圧装置および音響クロストーク抑圧方法 - Google Patents
音響クロストーク抑圧装置および音響クロストーク抑圧方法 Download PDFInfo
- Publication number
- JP7486145B2 JP7486145B2 JP2019210689A JP2019210689A JP7486145B2 JP 7486145 B2 JP7486145 B2 JP 7486145B2 JP 2019210689 A JP2019210689 A JP 2019210689A JP 2019210689 A JP2019210689 A JP 2019210689A JP 7486145 B2 JP7486145 B2 JP 7486145B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- filter
- crosstalk
- signal
- suppression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001629 suppression Effects 0.000 title claims description 349
- 238000000034 method Methods 0.000 title claims description 53
- 230000015654 memory Effects 0.000 claims description 62
- 230000008859 change Effects 0.000 claims description 43
- 230000004044 response Effects 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 description 89
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 54
- 238000004364 calculation method Methods 0.000 description 31
- 230000003044 adaptive effect Effects 0.000 description 19
- 230000008569 process Effects 0.000 description 19
- 238000012545 processing Methods 0.000 description 18
- 238000012986 modification Methods 0.000 description 17
- 230000004048 modification Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 12
- 238000006243 chemical reaction Methods 0.000 description 9
- 238000012544 monitoring process Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 5
- 238000012546 transfer Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012880 independent component analysis Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/13—Acoustic transducers and sound field adaptation in vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Otolaryngology (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Description
図1は、実施の形態1に係る音響クロストーク抑圧装置105が搭載される車両108の車室108z内の乗員およびマイクの配置例を示す図である。車両108は、車室108z内において、例えば、運転席、助手席、2列目の後部座席および3列目の後部座席を含む、最大7~8人乗りのミニバンである。なお、車両108は、最大7~8人乗りのミニバンに限定されず、例えば5人乗りの乗用車あるいはバス等、特に積載人数あるいは車種は限定されない。
図2は、実施の形態1に係る音響クロストーク抑圧装置105の機能的構成例を示すブロック図である。音響クロストーク抑圧装置105は、マイクmAで収音される、音声認識したい乗員Aが発話する音声の音声信号に含まれる、マイクmDで収音された乗員Dが発話する音声の音声信号を畳み込み処理することで、マイクmAで収音される乗員Dの発話によるクロストーク成分を再現したクロストーク抑圧信号(抑圧信号の一例)を生成する。音響クロストーク抑圧装置105は、マイクmAで収音された音声信号から乗員Dのクロストーク抑圧信号を抑圧(具体的には、除去あるいは減算)することで、クロストーク抑圧後の音声信号を生成する。ここで、音響クロストーク抑圧装置105が音声認識する対象となるメインの乗員の発話による音声信号を主信号と称し、クロストーク抑圧信号が生成される元の音声信号(つまり、クロストーク成分の発声源となるメインの乗員以外の他の乗員の発話による音声信号)を参照信号と称する。
次に、実施の形態1に係る音響クロストーク抑圧装置105の動作を説明する。
実施の形態1では、話者が切り替わったと判断されたタイミングで学習済みのフィルタ係数をリセットしフィルタ係数を初期値から再学習して使用した。実施の形態2では、話者の切り替わり後の話者状況に対応するフィルタ係数をメモリから読み出して使用する例を説明する。
図6は、実施の形態2に係る音響クロストーク抑圧装置105Aの機能的構成例を示すブロック図である。実施の形態2に係る音響クロストーク抑圧装置105Aにおいて、実施の形態1に係る音響クロストーク抑圧装置105と同一の構成要素については同一の符号を用いることで、その説明を簡略化あるいは省略し、異なる内容について説明する。
次に、実施の形態2に係る音響クロストーク抑圧装置105Aの動作を説明する。
実施の形態1では、話者が切り替わった場合、必ずフィルタ係数をリセットしたが、車両108等の閉空間内の環境下での話者状況によっては、フィルタ係数を必ずしもリセットしない方が良い場合が想定される。例えば、乗員Aの声が音声認識対象であり、乗員Dの声がクロストーク成分となる話者状況において、別の乗員Cが小声で加わった場合等が挙げられる。このような話者状況の変化があった場合、実施の形態1の変形例では、フィルタ係数をリセットすることなく、話者状況が変化する前のフィルタ係数を用いてクロストーク成分の抑圧が可能である。
図8は、実施の形態1の変形例に係る音響クロストーク抑圧装置105Bの機能的構成例を示すブロック図である。実施の形態1の変形例に係る音響クロストーク抑圧装置105Bにおいて、実施の形態1に係る音響クロストーク抑圧装置105と同一の構成要素については、同一の符号を付すことで、その説明を簡略化あるいは省略し、異なる内容について説明する。
図9は、実施の形態1の変形例に係る音響クロストーク抑圧装置105Bの動作手順例を示すフローチャートである。図9の説明において、実施の形態1に係る音響クロストーク抑圧装置105の動作と同一の処理については、同一のステップ番号を付すことで、その説明を簡略化あるいは省略し、異なる内容について説明する。
実施の形態2の変形例では、実施の形態1の変形例と同様、車両108等の閉空間内の環境下での話者状況によっては、話者の切り替わりがあったと判定された場合に、音響クロストーク抑圧装置105Cは、変化後の話者状況に対応したフィルタ係数をフィルタ係数保存部153B(図12参照)から読み込むことなく、話者状況の変化前のフィルタ係数を用いてクロストーク成分を抑圧することも可能である。
図10は、実施の形態2の変形例に係る音響クロストーク抑圧装置105Cの機能的構成例を示すブロック図である。実施の形態2の変形例に係る音響クロストーク抑圧装置105Cにおいて、実施の形態2に係る音響クロストーク抑圧装置105A、および実施の形態1の変形例に係る音響クロストーク抑圧装置105Bと同一の構成要素については、同一の符号を付すことで、その説明を簡略化あるいは省略し、異なる内容について説明する。
図11は、実施の形態2の変形例に係る音響クロストーク抑圧装置105Cの動作手順例を示すフローチャートである。図11の説明において、実施の形態2に係る音響クロストーク抑圧装置105Aの動作あるいは実施の形態1の変形例に係る音響クロストーク抑圧装置105Bの動作と同一の処理については、同一のステップ番号を付すことで、その説明を簡略化あるいは省略し、異なる内容について説明する。
実施の形態3では、実施の形態1に示した、話者が切り替わった場合にフィルタ係数を初期値にリセットして再学習する方法と、実施の形態2に示した、過去に学習済みのフィルタ係数を読み込む方法とを、音響クロストーク抑圧装置が選択可能である場合を示す。
図12は、実施の形態3に係る音響クロストーク抑圧装置105Dの機能的構成例を示すブロック図である。音響クロストーク抑圧装置105Dは、実施の形態1に係る音響クロストーク抑圧装置105および実施の形態2に係る音響クロストーク抑圧装置105Aの機能的構成の他に、出力選択部230を更に有する。音響クロストーク抑圧装置105Dにおいて、実施の形態1に係る音響クロストーク抑圧装置105および実施の形態2に係る音響クロストーク抑圧装置105Aと同一の構成要素については、同一の符号を付すことで、その説明を簡略化あるいは省略し、異なる内容について説明する。例えば、実施の形態2の加算器122と、実施の形態3の加算器122Bとは、同一の構成である。また、実施の形態2のフィルタ更新部125Aと、実施の形態3のフィルタ更新部125Bとは、同一の構成である。その他の各部においても同様であるとして説明を省略する。
図13は、実施の形態3に係る音響クロストーク抑圧装置105Dの動作手順例を示すフローチャートである。図13の説明において、実施の形態1に係る音響クロストーク抑圧装置105の動作あるいは実施の形態2に係る音響クロストーク抑圧装置105Aの動作と同一の処理については、同一のステップ番号を付することで、その説明を簡略化あるいは省略し、異なる内容について説明する。
108 車両
108z 車室
122、222 加算器
123、123B、223 畳み込み信号生成部
125、125A、125B、225 フィルタ更新部
126、126B、226 更新量計算部
127、127B、227 非線形変換部
128、128B、228 ノルム算出部
129 ディレイ
141、141B フィルタ係数監視部
142 音圧分析部
143 抑圧量分析部
144 話者分析部
145 フィルタリセット部
146 音声認識部
150、152 メモリ
151、151B フィルタ係数読込部
153 フィルタ係数保存部
154、154B フィルタ係数収束判定部
230 出力選択部
mA、mD マイク
Claims (14)
- メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析する話者分析部と、
前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタを有し、前記クロストーク成分を抑圧するための前記フィルタのパラメータを更新し、その更新結果をメモリに保持するフィルタ更新部と、
前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記メモリに保持されている前記フィルタのパラメータをリセットするリセット部と、
前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧するクロストーク抑圧部と、を備え、
前記フィルタ更新部は、前記フィルタのパラメータがリセットされた後、前記他の話者の音声信号に基づいて前記フィルタのパラメータを更新し、
前記話者分析部は、前記複数のマイクのそれぞれにより収音された各音声信号のレベルと閾値との比較に応じて、前記閉空間内での話者状況の変更の有無を分析する、
音響クロストーク抑圧装置。 - メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析する話者分析部と、
前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタを有し、前記クロストーク成分を抑圧するための前記フィルタのパラメータを更新し、その更新結果をメモリに保持するフィルタ更新部と、
前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記メモリに保持されている前記フィルタのパラメータをリセットするリセット部と、
前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧するクロストーク抑圧部と、を備え、
前記フィルタ更新部は、前記フィルタのパラメータがリセットされた後、前記他の話者の音声信号に基づいて前記フィルタのパラメータを更新し、
前記話者分析部は、前記フィルタのパラメータの時間軸上の変動量に基づいて、前記閉空間内での話者状況の変更の有無を分析する、
音響クロストーク抑圧装置。 - メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析する話者分析部と、
前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタを有し、前記クロストーク成分を抑圧するための前記フィルタのパラメータを更新し、その更新結果をメモリに保持するフィルタ更新部と、
前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記メモリに保持されている前記フィルタのパラメータをリセットするリセット部と、
前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧するクロストーク抑圧部と、を備え、
前記フィルタ更新部は、前記フィルタのパラメータがリセットされた後、前記他の話者の音声信号に基づいて前記フィルタのパラメータを更新し、
前記話者分析部は、前記メイン話者の音声信号に含まれる前記クロストーク成分の抑圧量と閾値との比較に応じて、前記閉空間内での話者状況の変更の有無を分析する、
音響クロストーク抑圧装置。 - メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析する話者分析部と、
前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタを有し、前記クロストーク成分を抑圧するための前記フィルタのパラメータを更新し、その更新結果をメモリに保持するフィルタ更新部と、
前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記メモリに保持されている前記フィルタのパラメータをリセットするリセット部と、
前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧するクロストーク抑圧部と、
前記メイン話者の音声信号に含まれる前記他の話者の発話によるクロストーク成分の第2抑圧信号を生成する第2フィルタを有し、前記クロストーク成分を抑圧するための前記第2フィルタのパラメータを更新し、その更新結果をメモリに保持する第2フィルタ更新部と、
前記第2フィルタにより生成された前記第2抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧する第2クロストーク抑圧部と、
前記クロストーク抑圧部からの第1出力信号と前記第2クロストーク抑圧部からの第2出力信号とのうちいずれかを選択して出力する出力選択部と、を備え、
前記フィルタ更新部は、前記フィルタのパラメータがリセットされた後、前記他の話者の音声信号に基づいて前記フィルタのパラメータを更新する、
音響クロストーク抑圧装置。 - メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析する話者分析部と、
前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタを有し、前記クロストーク成分を抑圧するための前記フィルタのパラメータを更新し、その更新結果を前記話者状況と関連付けてメモリに保持するフィルタ更新部と、
前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧するクロストーク抑圧部と、
前記メイン話者の音声信号に含まれる前記他の話者の発話によるクロストーク成分の第2抑圧信号を生成する第2フィルタを有し、前記クロストーク成分を抑圧するための前記第2フィルタのパラメータを更新し、その更新結果をメモリに保持する第2フィルタ更新部と、
前記第2フィルタにより生成された前記第2抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧する第2クロストーク抑圧部と、
前記クロストーク抑圧部からの第1出力信号と前記第2クロストーク抑圧部からの第2出力信号とのうちいずれかを選択して出力する出力選択部と、を備え、
前記フィルタ更新部は、前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記話者状況の分析結果に対応する前記フィルタのパラメータを用いて、前記フィルタにより前記抑圧信号を生成する、
音響クロストーク抑圧装置。 - メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析する話者分析部と、
前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタを有し、前記クロストーク成分を抑圧するための前記フィルタのパラメータを更新し、その更新結果をメモリに保持するフィルタ更新部と、
前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記メモリに保持されている前記フィルタのパラメータをリセットするリセット部と、
前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧するクロストーク抑圧部と、
前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の第2抑圧信号を生成する第2フィルタを有し、前記クロストーク成分を抑圧するための前記第2フィルタのパラメータを更新し、その更新結果を前記話者状況と関連付けて第2メモリに保持する第2フィルタ更新部と、
前記第2フィルタにより生成された前記第2抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧する第2クロストーク抑圧部と、
前記クロストーク抑圧部からの第1出力信号と前記第2クロストーク抑圧部からの第2出力信号とのうちいずれかを選択して出力する出力選択部と、を備え、
前記フィルタ更新部は、前記フィルタのパラメータがリセットされた後、前記他の話者の音声信号に基づいて前記フィルタのパラメータを更新し、
前記第2フィルタ更新部は、前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記話者状況の分析結果に対応する前記第2フィルタのパラメータを用いて、前記第2フィルタにより前記第2抑圧信号を生成する、
音響クロストーク抑圧装置。 - 前記出力選択部は、前記クロストーク成分が抑圧された前記メイン話者の音声信号を音声認識した結果を基に、前記第1出力信号または前記第2出力信号を選択して出力する、
請求項4~6のうちいずれか一項に記載の音響クロストーク抑圧装置。 - 音響クロストーク抑圧装置により実行される音響クロストーク抑圧方法であって、
メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析し、
前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタのパラメータを更新し、その更新結果をメモリに保持し、
前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記メモリに保持されている前記フィルタのパラメータをリセットし、
前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧し、
前記パラメータの更新は、前記フィルタのパラメータがリセットされた後、前記他の話者の音声信号に基づいて実行され、
前記分析では、前記複数のマイクのそれぞれにより収音された各音声信号のレベルと閾値との比較に応じて、前記閉空間内での話者状況の変更の有無が分析される、
音響クロストーク抑圧方法。 - 音響クロストーク抑圧装置により実行される音響クロストーク抑圧方法であって、
メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析し、
前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタのパラメータを更新し、その更新結果をメモリに保持し、
前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記メモリに保持されている前記フィルタのパラメータをリセットし、
前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧し、
前記パラメータの更新は、前記フィルタのパラメータがリセットされた後、前記他の話者の音声信号に基づいて実行され、
前記分析では、前記フィルタのパラメータの時間軸上の変動量に基づいて、前記閉空間内での話者状況の変更の有無が分析される、
音響クロストーク抑圧方法。 - 音響クロストーク抑圧装置により実行される音響クロストーク抑圧方法であって、
メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析し、
前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタのパラメータを更新し、その更新結果をメモリに保持し、
前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記メモリに保持されている前記フィルタのパラメータをリセットし、
前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧し、
前記パラメータの更新は、前記フィルタのパラメータがリセットされた後、前記他の話者の音声信号に基づいて実行され、
前記分析では、前記メイン話者の音声信号に含まれる前記クロストーク成分の抑圧量と閾値との比較に応じて、前記閉空間内での話者状況の変更の有無が分析される、
音響クロストーク抑圧方法。 - 音響クロストーク抑圧装置により実行される音響クロストーク抑圧方法であって、
メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析し、
前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタのパラメータを更新し、その更新結果をメモリに保持し、
前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記メモリに保持されている前記フィルタのパラメータをリセットし、
前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧し、
前記メイン話者の音声信号に含まれる前記他の話者の発話によるクロストーク成分の第2抑圧信号を生成する第2フィルタのパラメータを更新し、その更新結果をメモリに保持し、
前記第2フィルタにより生成された前記第2抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧し、
前記フィルタに基づく前記クロストーク成分の抑圧後の第1出力信号と前記第2フィルタに基づく前記クロストーク成分の抑圧後の第2出力信号とのうちいずれかを選択して出力し、
前記パラメータの更新は、前記フィルタのパラメータがリセットされた後、前記他の話者の音声信号に基づいて実行される、
音響クロストーク抑圧方法。 - 音響クロストーク抑圧装置により実行される音響クロストーク抑圧方法であって、
メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析し、
前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタのパラメータを更新し、その更新結果を前記話者状況と関連付けてメモリに保持し、
前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧し、
前記メイン話者の音声信号に含まれる前記他の話者の発話によるクロストーク成分の第2抑圧信号を生成する第2フィルタのパラメータを更新し、その更新結果を前記メモリに保持し、
前記第2フィルタにより生成された前記第2抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧し、
前記フィルタに基づく前記クロストーク成分の抑圧後の第1出力信号と前記第2フィルタに基づく前記クロストーク成分の抑圧後の第2出力信号とのうちいずれかを選択して出力し、
前記抑圧信号の生成は、前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記話者状況の分析結果に対応する前記フィルタのパラメータを用いて、前記フィルタにより実行される、
音響クロストーク抑圧方法。 - 音響クロストーク抑圧装置により実行される音響クロストーク抑圧方法であって、
メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析し、
前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタのパラメータを更新し、その更新結果をメモリに保持し、
前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記メモリに保持されている前記フィルタのパラメータをリセットし、
前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧し、
前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の第2抑圧信号を生成する第2フィルタのパラメータを更新し、その更新結果を前記話者状況と関連付けて第2メモリに保持し、
前記第2フィルタにより生成された前記第2抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧し、
前記フィルタに基づく前記クロストーク成分の抑圧後の第1出力信号と前記第2フィルタに基づく前記クロストーク成分の抑圧後の第2出力信号とのうちいずれかを選択して出力し、
前記分析では、前記メイン話者の音声信号に含まれる前記クロストーク成分の抑圧量と閾値との比較に応じて、前記閉空間内での話者状況の変更の有無が分析され、
前記第2抑圧信号の生成は、前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記話者状況の分析結果に対応する前記第2フィルタのパラメータを用いて、前記第2フィルタにより実行される、
音響クロストーク抑圧方法。 - 前記出力は、前記クロストーク成分が抑圧された前記メイン話者の音声信号を音声認識した結果を基に、前記第1出力信号または前記第2出力信号が選択されて出力される、
請求項11~13のうちいずれか一項に記載の音響クロストーク抑圧方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019210689A JP7486145B2 (ja) | 2019-11-21 | 2019-11-21 | 音響クロストーク抑圧装置および音響クロストーク抑圧方法 |
US17/778,299 US20230026003A1 (en) | 2019-11-21 | 2020-11-16 | Sound crosstalk suppression device and sound crosstalk suppression method |
PCT/JP2020/042674 WO2021100670A1 (ja) | 2019-11-21 | 2020-11-16 | 音響クロストーク抑圧装置および音響クロストーク抑圧方法 |
CN202080080996.5A CN114730565A (zh) | 2019-11-21 | 2020-11-16 | 声响串扰抑制装置和声响串扰抑制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019210689A JP7486145B2 (ja) | 2019-11-21 | 2019-11-21 | 音響クロストーク抑圧装置および音響クロストーク抑圧方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021081654A JP2021081654A (ja) | 2021-05-27 |
JP7486145B2 true JP7486145B2 (ja) | 2024-05-17 |
Family
ID=75965095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019210689A Active JP7486145B2 (ja) | 2019-11-21 | 2019-11-21 | 音響クロストーク抑圧装置および音響クロストーク抑圧方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230026003A1 (ja) |
JP (1) | JP7486145B2 (ja) |
CN (1) | CN114730565A (ja) |
WO (1) | WO2021100670A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023012772A (ja) * | 2021-07-14 | 2023-01-26 | アルプスアルパイン株式会社 | 車内コミュニケーション支援システム |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006039108A (ja) | 2004-07-26 | 2006-02-09 | Nippon Hoso Kyokai <Nhk> | 特定話者音声出力装置及び特定話者判定プログラム |
JP2006039447A (ja) | 2004-07-30 | 2006-02-09 | Nissan Motor Co Ltd | 音声入力装置 |
JP2006047447A (ja) | 2004-08-02 | 2006-02-16 | Nissan Motor Co Ltd | 音声入力装置 |
JP2006173871A (ja) | 2004-12-14 | 2006-06-29 | Matsushita Electric Ind Co Ltd | 音響エコーキャンセラとそれを用いたハンズフリー電話及び音響エコーキャンセル方法 |
JP2010114554A (ja) | 2008-11-05 | 2010-05-20 | Yamaha Corp | 放収音装置 |
JP2011069901A (ja) | 2009-09-24 | 2011-04-07 | Fujitsu Ltd | 雑音除去装置 |
JP2011248025A (ja) | 2010-05-25 | 2011-12-08 | Nippon Telegr & Teleph Corp <Ntt> | チャネル統合方法、チャネル統合装置、プログラム |
JP2013543987A (ja) | 2010-10-22 | 2013-12-09 | クゥアルコム・インコーポレイテッド | 遠距離場マルチ音源追跡および分離のためのシステム、方法、装置およびコンピュータ可読媒体 |
JP2015014675A (ja) | 2013-07-04 | 2015-01-22 | 株式会社日立システムズ | 音声認識装置、方法、プログラム、システム及び端末 |
WO2017064840A1 (ja) | 2015-10-16 | 2017-04-20 | パナソニックIpマネジメント株式会社 | 音源分離装置および音源分離方法 |
-
2019
- 2019-11-21 JP JP2019210689A patent/JP7486145B2/ja active Active
-
2020
- 2020-11-16 US US17/778,299 patent/US20230026003A1/en active Pending
- 2020-11-16 CN CN202080080996.5A patent/CN114730565A/zh active Pending
- 2020-11-16 WO PCT/JP2020/042674 patent/WO2021100670A1/ja active Application Filing
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006039108A (ja) | 2004-07-26 | 2006-02-09 | Nippon Hoso Kyokai <Nhk> | 特定話者音声出力装置及び特定話者判定プログラム |
JP2006039447A (ja) | 2004-07-30 | 2006-02-09 | Nissan Motor Co Ltd | 音声入力装置 |
JP2006047447A (ja) | 2004-08-02 | 2006-02-16 | Nissan Motor Co Ltd | 音声入力装置 |
JP2006173871A (ja) | 2004-12-14 | 2006-06-29 | Matsushita Electric Ind Co Ltd | 音響エコーキャンセラとそれを用いたハンズフリー電話及び音響エコーキャンセル方法 |
JP2010114554A (ja) | 2008-11-05 | 2010-05-20 | Yamaha Corp | 放収音装置 |
JP2011069901A (ja) | 2009-09-24 | 2011-04-07 | Fujitsu Ltd | 雑音除去装置 |
JP2011248025A (ja) | 2010-05-25 | 2011-12-08 | Nippon Telegr & Teleph Corp <Ntt> | チャネル統合方法、チャネル統合装置、プログラム |
JP2013543987A (ja) | 2010-10-22 | 2013-12-09 | クゥアルコム・インコーポレイテッド | 遠距離場マルチ音源追跡および分離のためのシステム、方法、装置およびコンピュータ可読媒体 |
JP2015014675A (ja) | 2013-07-04 | 2015-01-22 | 株式会社日立システムズ | 音声認識装置、方法、プログラム、システム及び端末 |
WO2017064840A1 (ja) | 2015-10-16 | 2017-04-20 | パナソニックIpマネジメント株式会社 | 音源分離装置および音源分離方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114730565A (zh) | 2022-07-08 |
US20230026003A1 (en) | 2023-01-26 |
WO2021100670A1 (ja) | 2021-05-27 |
JP2021081654A (ja) | 2021-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5444472B2 (ja) | 音源分離装置、音源分離方法、及び、プログラム | |
US8385557B2 (en) | Multichannel acoustic echo reduction | |
US11676617B2 (en) | Acoustic noise suppressing apparatus and acoustic noise suppressing method | |
CN110120217B (zh) | 一种音频数据处理方法及装置 | |
US11089404B2 (en) | Sound processing apparatus and sound processing method | |
US20220415337A1 (en) | Acoustic crosstalk suppression device and acoustic crosstalk suppression method | |
CN110970010A (zh) | 噪音消除方法、装置、存储介质及设备 | |
JP7486145B2 (ja) | 音響クロストーク抑圧装置および音響クロストーク抑圧方法 | |
US20220189450A1 (en) | Audio processing system and audio processing device | |
US7085685B2 (en) | Device and method for filtering electrical signals, in particular acoustic signals | |
JP2020134566A (ja) | 音声処理システム、音声処理装置及び音声処理方法 | |
JP6650607B2 (ja) | 音響エコー抑圧装置及び音響エコー抑圧方法 | |
JP2019080246A (ja) | 指向性制御装置および指向性制御方法 | |
JP6956929B2 (ja) | 情報処理装置、制御方法、及び制御プログラム | |
EP4064726A1 (en) | Sound pick-up device, sound pick-up method and sound pick-up program | |
JP7493158B2 (ja) | 音声処理装置および音声処理方法 | |
JP2022026270A (ja) | 音声処理システム、音声処理装置、及び音声処理方法 | |
US11894013B2 (en) | Sound collection loudspeaker apparatus, method and program for the same | |
JP2021135311A (ja) | 音声処理装置および音声処理方法 | |
JP2021135310A (ja) | 音声処理装置および音声処理方法 | |
JP2021135447A (ja) | 音声処理装置および音声処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221020 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231121 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231228 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240425 |