JP2021036297A - 信号処理装置、信号処理方法、及びプログラム - Google Patents

信号処理装置、信号処理方法、及びプログラム Download PDF

Info

Publication number
JP2021036297A
JP2021036297A JP2019158133A JP2019158133A JP2021036297A JP 2021036297 A JP2021036297 A JP 2021036297A JP 2019158133 A JP2019158133 A JP 2019158133A JP 2019158133 A JP2019158133 A JP 2019158133A JP 2021036297 A JP2021036297 A JP 2021036297A
Authority
JP
Japan
Prior art keywords
detection signal
unit
correlation matrix
spatial correlation
spatial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019158133A
Other languages
English (en)
Other versions
JP7191793B2 (ja
Inventor
籠嶋 岳彦
Takehiko Kagoshima
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2019158133A priority Critical patent/JP7191793B2/ja
Priority to US16/795,799 priority patent/US11395061B2/en
Priority to CN202010126904.4A priority patent/CN112447191B/zh
Publication of JP2021036297A publication Critical patent/JP2021036297A/ja
Application granted granted Critical
Publication of JP7191793B2 publication Critical patent/JP7191793B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】目的の音声を効果的に強調できる信号処理装置を提供する。
【解決手段】一実施形態に係る信号処理装置は、変換部、第1の算出部、第2の算出部、及び空間フィルタ部を備える。変換部は、異なる位置で音を検出することで得られる第1の検出信号を時間周波数領域に変換して第2の検出信号を得る。第1の算出部は、前記第2の検出信号に基づいて第1の空間相関行列を算出する。第2の算出部は、前記第2の検出信号を所定の時間だけ遅延した第3の検出信号に基づいて第2の空間相関行列を算出する。空間フィルタ部は、前記第1の空間相関行列及び前記第2の空間相関行列に基づいて空間フィルタを生成し、前記空間フィルタを用いて前記第2の検出信号をフィルタリングする。
【選択図】図4

Description

本発明の実施形態は、信号処理装置、信号処理方法、及びプログラムに関する。
雑音環境下でユーザが発話した音声を正しく認識するために、雑音を抑圧して音声を強調する信号処理技術が開発されている。
特開2018−146610号公報
本発明が解決しようとする課題は、目的の音声を効果的に強調することができる信号処理装置、信号処理方法、及びプログラムを提供することである。
一実施形態に係る信号処理装置は、変換部、第1の算出部、第2の算出部、及び空間フィルタ部を備える。変換部は、異なる位置で音を検出することで得られる第1の検出信号を時間周波数領域に変換して第2の検出信号を得る。第1の算出部は、前記第2の検出信号に基づいて第1の空間相関行列を算出する。第2の算出部は、前記第2の検出信号を所定の時間だけ遅延した第3の検出信号に基づいて第2の空間相関行列を算出する。空間フィルタ部は、前記第1の空間相関行列及び前記第2の空間相関行列に基づいて空間フィルタを生成し、前記空間フィルタを用いて前記第2の検出信号をフィルタリングする。
図1は、第1の実施形態に係る信号処理装置を含むリモコン装置を示すブロック図である。 図2は、図1に示したリモコン装置の外観を示す斜視図である。 図3は、図1に示した音声強調部の構成例を示すブロック図である。 図4は、図3に示したスペクトル強調部の構成例を示すブロック図である。 図5は、図1に示した音声強調部の動作例を示すフローチャートである。 図6は、第2の実施形態に係る音声強調部の構成の一例を示すブロック図である。 図7は、第2の実施形態に係る音声強調部の構成の他の例を示すブロック図である。 図8は、第3の実施形態に係る信号処理装置を備えるリモコン装置を示すブロック図である。 図9は、図8に示したリモコン装置の外観を示す斜視図である。 図10は、第4の実施形態に係る信号処理装置を備えるリモコン装置を示すブロック図である。 図11は、図10に示した音声強調部の構成例を示すブロック図である。 図12は、図11に示したスペクトル強調部の構成例を示すブロック図である。 図13は、一実施形態に係る信号処理装置のハードウェア構成例を示すブロック図である。
以下、図面を参照しながら実施形態を説明する。実施形態は、複数のマイク(マイクロフォン)で集音された音響信号から目的の音声を強調した音響信号を生成する信号処理装置に関する。非限定的な例として、信号処理装置は家電製品を操作するためのリモコン装置に搭載される。ここで説明する実施形態では、信号処理装置はエアコンのリモコン装置に搭載される。当該リモコン装置は、「スイッチオン」、「温度上げて」などのあらかじめ登録された言葉(以降、コマンドワード又はキーワードと称する)の発声に反応してエアコンを操作する。
(第1の実施形態)
図1は、第1の実施形態に係る信号処理装置を備えるリモコン装置100を概略的に示すブロック図であり、図2は、リモコン装置100の外観を概略的に示す斜視図である。
図1に示すように、リモコン装置100は、エアコン200を遠隔操作するために使用される電子機器である。リモコン装置100は、ユーザが発話した音声を認識し、当該音声に応じた制御信号をエアコン200に無線送信する。例えば、ユーザが「スイッチオン」と発話すると、リモコン装置100は、起動を指示する制御信号をエアコン200に送信する。エアコン200は、リモコン装置100から受け取った制御信号に従って動作する。
リモコン装置100は、複数のマイク(この例では4つのマイク101〜104)、音声強調部105、音声認識部106、及び通信部107を備える。音声強調部105が第1の実施形態に係る信号処理装置に相当する。信号処理装置は、音声強調部105以外の少なくとも1つの要素(例えば音声認識部106)をさらに含んでよい。
マイク101〜104は、音を検出して検出信号(音響信号)を生成する。ユーザがコマンドワードを発話した場合、各検出信号は、雑音を含む第1部分と、第1部分に後続する、雑音及びコマンドワード発声を含む第2部分と、第2部分に後続する、雑音を含む第3部分と、を含む。図2に示すように、マイク101〜104は互いに離間してリモコン装置100の筐体110の一面上に配置されている。よって、4つのマイク101〜104を含む集音部は、異なる位置で音を検出することで得られる検出信号のセットを出力する。なお、マイクの数及び配置は図2に示される例に限定されない。
図1を再び参照すると、音声強調部105は、マイク101〜104から検出信号を受け取る。音声強調部105は、受け取った検出信号に対して音声強調処理を行い、強調音声信号を出力する。音声強調処理は、雑音を抑圧して目的の音声(具体的にはコマンドワード発声)を強調する信号処理を示す。音声強調部105の詳細は図3及び図4を参照して後述する。
音声認識部106は、音声強調部105から強調音声信号を受け取る。音声認識部106は、受け取った強調音声信号に対して、あらかじめ登録された1又は複数のコマンドワードの検出を行う。例えば、音声認識部106は、受け取った強調音声信号に対して音声認識を行い、音声認識の結果にコマンドワードが含まれるか否かを判定する。音声認識部106は、あらかじめ登録されたコマンドワードのいずれかを検出した場合、検出したコマンドワードを識別する識別情報としてのコマンドワードIDを出力する。
通信部107は、音声認識部106からコマンドワードIDを受け取る。通信部107は、受け取ったコマンドワードIDに応じた制御信号を生成し、例えば赤外線を使用して、制御信号をエアコン200に送信する。
図3は、音声強調部105の構成の一例を概略的に示すブロック図である。図3に示すように、音声強調部105は、変換部301、強調部303、及び逆短時間フーリエ変換部305を備える。
変換部301は、マイク101〜104に対応する4つのチャンネルから検出信号を受け取る。変換部301は、受け取った検出信号を個別に短時間フーリエ変換により時間周波数領域に変換し、周波数スペクトルX(f,n)を出力する。ここで、fは周波数ビンの番号を表し、nはフレームの番号を表し、mはマイク又はチャンネルの番号を表す。
具体的には、変換部301は、個々のマイク101〜104に対応する短時間フーリエ変換部302を含む。各短時間フーリエ変換部302は、マイク101〜104のうちの対応するものから受け取った検出信号に対して短時間フーリエ変換を行う。例えば、マイク101に対応する短時間フーリエ変換部302は、マイク101からの検出信号に対して窓関数を適用して複数のフレームを生成し、各フレームに対してフーリエ変換を行い、周波数スペクトルX(f,n)を出力する。例えば、サンプリング周波数を16kHz、フレーム長(窓関数長)を256サンプル、フレームシフトを128サンプルとした場合、各フレームの周波数スペクトルは、低域と高域の対称性を考慮して、0≦f≦128の範囲の129点の複素数値を有する。マイク101に関する第nフレームの周波数スペクトルX(f,n)は、X(0,n)、X(1,n)、・・・、X(128,n)を有する。
4チャンネルの周波数スペクトルをまとめた4次元ベクトルを下記のように表す。
ここで、Tは行列の転置を表す。以降では、4チャンネルの周波数スペクトルX(f,n)、X(f,n)、X(f,n)、X(f,n)を周波数スペクトルX(f,n)と表記する。
強調部303は、変換部301から周波数スペクトルX(f,n)を受け取る。強調部303は、フレームごと及び周波数ビンごとに(すなわち時間周波数点ごとに)周波数スペクトルX(f,n)に対してスペクトル強調を行い、強調音声の周波数スペクトルを出力する。スペクトル強調は、コマンドワード発声のスペクトルを強調し、雑音のスペクトルを抑圧する信号処理を示す。スペクトル強調の詳細は図4を参照して後述する。
具体的には、強調部303は、周波数ビンのそれぞれに対応するスペクトル強調部304を含む。各スペクトル強調部304は、変換部301から周波数スペクトルX(i,n)を受け取り、フレームごとに、受け取った周波数スペクトルX(i,n)に対してスペクトル強調を行う。ここで、iは0から128までの整数を表す。
逆短時間フーリエ変換部305は、スペクトル強調部304から強調音声の周波数スペクトルを受け取る。逆短時間フーリエ変換部305は、受け取った強調音声の周波数スペクトルに対して逆短時間フーリエ変換を行い、強調音声信号を出力する。逆短時間フーリエ変換は逆フーリエ変換処理及び波形重畳処理を含む。
なお、逆短時間フーリエ変換部305を持たない構成とし、スペクトル強調部304から出力される強調音声の周波数スペクトルを、音声認識部106が受け取るようにしてもよい。このように構成することで、逆短時間フーリエ変換部305における処理と音声認識部106で行われる短時間フーリエ変換処理を省略できる場合があり、計算量が削減される効果がある。
図4は、スペクトル強調部304の構成例を概略的に示すブロック図である。図4に示すスペクトル強調部304は、図3に示したスペクトル強調部304の各々に相当する。
スペクトル強調部304は、遅延部401、空間相関算出部402、空間相関算出部403、及び空間フィルタ部404を備える。スペクトル強調部304において、変換部301からの周波数スペクトルX(f,n)は、空間相関算出部402及び空間フィルタ部404に与えられるとともに、遅延部401を介して空間相関算出部403に与えられる。
遅延部401は、周波数スペクトルX(f,n)を所定の時間だけ遅延させる。遅延時間は、強調すべき音声であるコマンドワード発声の継続長が概ね遅延時間以下となるように設定すればよい。コマンドワードが「スイッチオン」などの短い言葉である場合、コマンドワード発声の継続長は1秒以下であると仮定できる。この場合、遅延時間は例えば1秒に設定される。1秒の遅延時間は125(=16000×1/128)の遅延フレーム数に等しい。すなわち、遅延部401は、125フレーム分のデータをバッファリングし、周波数スペクトルX(f,n−125)を出力する。
空間相関算出部402は、変換部301から受け取った周波数スペクトルX(f,n)に基づいて空間相関行列を算出する。空間相関行列は、チャンネル間の空間相関を表す情報である。例えば、空間相関算出部402は、周波数スペクトルX(f,n)から下記の(1)式で表される空間相関行列Φ(f,n)を算出する。
ここで、w(t)はフレームごとの重みを表す窓関数を表し、τは窓関数w(t)の長さを表し、Hは共役転置を表す。w(t)及びτは下記の(2)式を満たすように設定すればよい。
ここで、dは遅延フレーム数を表す。一例では、τ=100、w(t)=1である。他の例では、τ=∞、w(t)=α であり、ここで、αは0<α<1の範囲で十分小さい値に設定される。この場合、空間相関行列Φ(f,n)は、下記の(3)式に示す漸化式を用いて少ない計算量で算出することができる。
空間相関算出部403は、遅延部401から受け取った周波数スペクトルX(f,n−d)に基づいて空間相関行列を算出する。例えば、空間相関算出部403は、周波数スペクトルX(f,n−d)を用いて下記の(4)式で表される空間相関行列Φ(f,n)を算出する。
ここで、w(t)はフレームごとの重みを表す窓関数を表し、τは窓関数w(t)の長さを表す。一例では、τ=200、w(t)=1である。他の例では、τ=∞、w(t)=α であり、ここで、αは0<α<1の範囲で十分小さい値に設定される。この場合、空間相関行列Φ(f,n)は、下記の(5)式に示す漸化式を用いて少ない計算量で算出することができる。
空間フィルタ部404は、空間相関算出部402により算出された空間相関行列Φ(f,n)と空間相関算出部403により算出された空間相関行列Φ(f,n)とに基づいて空間フィルタを生成し、生成した空間フィルタで変換部301からの周波数スペクトルX(f,n)をフィルタリングして強調音声の周波数スペクトルを生成する。ここでは、空間フィルタを下記のように4次元ベクトルで表す。
この場合、空間フィルタ部404は、例えば下記の(6)式に従って、強調音声のスペクトルを表す出力Y(f,n)を算出する。
一例では、空間フィルタF(f,n)は、下記の(7)式のように、信号対雑音比最大化ビームフォーマFSNR(f,n)とポストフィルタw(f,n)の積として求められる。
信号対雑音比最大化ビームフォーマFSNR(f,n)は、空間相関行列Φ(f,n)を音声(信号)の空間相関行列、空間相関行列Φ(f,n)を雑音の空間相関行列とみなして、音声と雑音のパワー比を最大化するビームフォーマであり、行列Φ −1(f,n)Φ(f,n)の最大固有値に対応する固有ベクトルとして求められる。
ポストフィルタw(f,n)は、各周波数ビンのパワーを調整することで音質を改善するものである。例えば、ポストフィルタw(f,n)は下記の(8)式を用いて求められる。
なお、信号対雑音比最大化ビームフォーマに代えて、空間相関行列Φ(f,n)及びΦ(f,n)に基づいて求められる他のビームフォーマを用いるようにしてもよい。例えば、最小分散無歪応答ビームフォーマを用いてもよい。空間相関行列Φ(f,n)の最大固有値に対応する固有ベクトルをステアリングベクトルh(f,n)とすると、最小分散無歪応答ビームフォーマに基づく空間フィルタは下記の(9)式を用いて求めることができる。
第1の実施形態においては、コマンドワード発声の継続長は1秒以下であるという仮定に基づいて、目的の音声が現在時刻において観測されている場合は、現在時刻の1秒前以前は雑音が観測されると推定し、音声の空間相関行列及び雑音の空間相関行列を上述した方法で推定する。そのため、音声の空間相関行列及び雑音の空間相関行列に基づいて得られた空間フィルタは、コマンドワード発声の到来方向を強調し、雑音の到来方向を抑圧することで、コマンドワード発声を強調するように動作する。この動作原理は、雑音の音響的特徴とは無関係であるため、雑音源がテレビの音のような音声を含むものであっても効果がある。
図5は、音声強調部105の動作例を概略的に示すフローチャートである。図5のステップS501では、音声強調部105は、変換部301として動作し、異なる位置で音を検出することで得られる第1の検出信号を時間周波数領域に変換して第2の検出信号を得る。第2の検出信号は各々第1の検出信号の時間周波数成分を有する。具体的には、第1の検出信号は4つのマイク101〜104から出力される検出信号に対応し、第2の検出信号は周波数スペクトルX(f,n)と表される4チャンネルの周波数スペクトルに対応する。
音声強調部105は、フレームごと及び周波数ビンごとにステップS502〜S505に示される処理を行う。
ステップS502では、音声強調部105は、空間相関算出部402として動作し、第1の時刻までの第2の検出信号に基づいて第1の空間相関行列を算出する。第1の時刻は、処理対象である第nフレームに対応する時刻である。例えば、音声強調部105は、上記の(1)式又は(3)式に従って空間相関行列Φ(f,n)を算出する。(1)式によれば、空間相関行列Φ(f,n)は、第(n−τ+1)フレームから第nフレームまでの周波数スペクトルX(f,n−τ+1)、X(f,n−τ+2)、・・・、X(f,n)に基づいて算出される。
音声強調部105は、第2の時刻から第1の時刻までの第2の検出信号の寄与が第2の時刻までの第2の検出信号の寄与よりも大きくなるように、空間相関行列Φ(f,n)を算出してよい。ここで、第2の時刻は、第1の時刻より遅延時間だけ前の時刻であり、第(n−d+1)フレームに対応する時刻である。第2の時刻から第1の時刻までの第2の検出信号の寄与が第2の時刻までの第2の検出信号の寄与よりも大きくなるという条件は、上記の(2)式を満たす窓関数w(t)及び窓関数長τを使用することにより達成することができる。
ステップS503では、音声強調部105は、遅延部401及び空間相関算出部403として動作し、第2の検出信号を遅延時間だけ遅延した第3の検出信号に基づいて第2の空間相関行列を算出する。具体的には、音声強調部105は、第2の時刻までの第2の検出信号に基づいて第2の空間相関行列を算出する。例えば、音声強調部105は、上記の(4)式又は(5)式に従って空間相関行列Φ(f,n)を算出する。(4)式によれば、空間相関行列Φ(f,n)は、第(n−d−τ+1)フレームから第(n−d)フレームまでの周波数スペクトルX(f,n−d−τ+1)、X(f,n−d−τ+2)、・・・、X(f,n−d)に基づいて算出される。
ステップS504では、音声強調部105は、空間フィルタ部404として動作し、ステップS502、S503で算出された第1及び第2の空間相関行列に基づいて空間フィルタを生成する。例えば、音声強調部105は、空間相関行列Φ(f,n)を信号の空間相関行列とし、空間相関行列Φ(f,n)を雑音の空間相関行列とした信号対雑音比最大化ビームフォーマFSNR(f,n)を算出し、上記の(7)式に従って、生成した信号対雑音比最大化ビームフォーマFSNR(f,n)に基づいて空間フィルタF(f,n)を算出する。
ステップS505では、音声強調部105は、空間フィルタ部404として動作し、生成した空間フィルタを用いて第2の検出信号をフィルタリングする。例えば、音声強調部105は、上記の(6)式に従って、空間フィルタF(f,n)を周波数スペクトルX(f,n)に適用し、それにより周波数スペクトル値Y(f,n)を得る。
ステップS506では、音声強調部105は、逆短時間フーリエ変換部305として動作し、フレームごと及び周波数ビンごとに得られた周波数スペクトル値を時間領域に変換する。
このようにして、音声強調部105は、マイク101〜104により得られた検出信号から、雑音が抑圧され、コマンドワード発声が強調された音響信号を生成する。
以上のように、第1の実施形態に係る信号処理装置は、継続的な音源を雑音とみなし、新たな音源の先頭部分を強調するように構成される。これにより、短い発声を強調するビームフォーマを低演算量で求めることが可能になる。その結果、演算性能の低い端末でもリアルタイムで動作するという効果が得られる。さらに、抑圧すべき雑音が音声を含む場合でも、雑音を抑制することが可能である。よって、第1の実施形態に係る信号処理装置は目的の音声を効果的に強調することができる。
(第2の実施形態)
第2の実施形態は、スペクトル強調部の構成が第1の実施形態と異なり、スペクトル強調部以外の要素については第1の実施形態と同じである。このため、スペクトル強調部以外の要素についての説明を省略する。第2の実施形態では、空間相関行列Φ(f,n)は、周波数スペクトルX(f,n)にマスクを乗じることにより求められる。マスクとは、各時間周波数点における検出信号に占める目的信号の割合、すなわち、各時間フレーム及び各周波数ビンの周波数スペクトルが強調すべき音声を含む割合を表す。マスクを適切に推定することが可能であれば、空間相関行列Φ(f,n)から雑音成分が取り除かれて、空間フィルタの性能改善が期待できる。
図6は、第2の実施形態に係るスペクトル強調部の構成例を概略的に示すブロック図である。図6において図4に示したものと同様の要素に同様の符号を付して、それらの要素についての説明を省略する。
図6に示すスペクトル強調部600は、マスク推定部601、空間相関算出部602、遅延部401、空間相関算出部403、及び空間フィルタ部404を備える。
マスク推定部601は、周波数スペクトルX(f,n)に基づいてマスクM(f,n)を推定する。マスクM(f,n)は、0≦M(f,n)≦1を満たすスカラー値である。マスクM(f,n)は、周波数スペクトルX(f,n)の絶対値(振幅スペクトル)を入力としたニューラルネットワークを用いて推定することが可能である。まず、各マイクに対応する振幅スペクトル|X(f,n)|からマスクM(f,n)を推定し、マスクM(f,n)のメジアンとしてマスクM(f,n)を求める。
マスクM(f,n)を推定するニューラルネットワークの入力ベクトルv(n)及び出力ベクトルu(n)はそれぞれ、例えば、下記の(10)式及び(11)式で定義される。
ニューラルネットワークの構造は、入力層のノード数が258であり、出力層のノード数が129であり、3層の中間層の各々のノード数が200である全結合ネットワークであって、ジグモイド関数を活性化関数として使用するものであってよい。
ニューラルネットワークの学習は、雑音重畳音声とマスクの正解値とを含むデータを教師データとして用いて実施することができる。ある雑音重畳音声に対応するマスクの正解値は、クリーンな音声データと雑音データを用意し、クリーンな音声データと雑音データを用いたシミュレーションにより求めることができる。損失関数としては、クロスエントロピーを用いることができる。ネットワークの最適化には、確率的勾配降下法などの任意の手法を用いることができる。
空間相関算出部602は、周波数スペクトルX(f,n)及びマスクM(f,n)に基づいて、空間相関行列Φ(f,n)を算出する。例えば、空間相関算出部602は、下記の(12)式に従って空間相関行列Φ(f,n)を算出する。
上述した構成を備えるスペクトル強調部600は、現在時刻の検出信号の雑音スペクトルを抑圧して空間相関行列Φ(f,n)を算出することができる。これにより、より正確に音声を強調する空間フィルタを求めることが可能となる。その結果、信号対雑音比(SNR)が改善する。
図7は、第2の実施形態に係るスペクトル強調部の他の構成例を概略的に示すブロック図である。図7において図4及び図6に示したものと同様の要素に同様の符号を付して、それらの要素についての説明を省略する。図6に示すスペクトル強調部600は、音声と雑音とのスペクトルの違いに基づいてニューラルネットワークを用いてマスクを推定したが、図7に示すスペクトル強調部700は、音声と雑音との到来方向の違いに基づいてマスクを推定する。
図7に示すスペクトル強調部700は、マスク推定部701、空間相関算出部602、遅延部401、空間相関算出部403、及び空間フィルタ部404を備える。
マスク推定部601は、周波数スペクトルX(f,n)及び空間相関行列Φ(f,n)に基づいてマスクM(f,n)を推定する。空間相関行列Φ(f,n)は、音声と雑音との到来方向の違いに基づいてマスクを推定することを可能にする。
雑音源を平均0のガウス分布でモデル化すると、雑音の周波数スペクトルは、空間相関行列Φ(f,n)を共分散行列とみなした多次元複素ガウス分布でモデル化することができる。確率密度関数p(X(f,n))は下記の(13)式で与えられる。
ここで、detは行列式を表し、φ(f,n)は分散を表す。分散φ(f,n)を最尤推定したパラメータで置き換えると、(13)式は(14)式のように変形することができる。
ここで、Mはマイクの本数を表し、Cは定数を表す。一方、強調すべき音声に関しては、共分散行列についての情報がないため、初期値として単位行列を設定し、(14)式と同様の式変形を行って、確率密度関数p(X(f,n))を表す(15)式を得る。
マスクM(f,n)は、下記の(16)式に従って求めることができる。
空間相関算出部602は、上記の(12)式に従って、マスク推定部601により推定されたマスクM(f,n)を用いて、空間相関行列Φ(f,n)を算出する。空間フィルタ部404は、算出された空間相関行列Φ(f,n)に基づいて空間フィルタを生成することができる。
なお、算出された空間相関行列Φ(f,n)を用いて確率密度関数p(X(f,n))及びマスクM(f,n)を更新するようにしてもよい。空間相関算出部602は、例えば下記の(17)式によって、確率密度関数p(X(f,n))を再び算出する。
空間相関算出部602は、算出した確率密度関数pを用いて上記の(16)式に従ってマスクを再び算出する。このようなマスクの更新は所定回数繰り返すようにしてもよい。
以上のように、第2の実施形態に係る信号処理装置は、音声と雑音とのスペクトル又は到来方向の違いに基づいてマスクを推定し、推定したマスクを用いて信号の空間相関行列を算出する。これにより、さらに正確に音声を強調する空間フィルタを求めることが可能となる。よって、第2の実施形態に係る信号処理装置は目的の音声をより効果的に強調することができる。
(第3の実施形態)
第3の実施形態に係る信号処理装置は、遅延時間を設定する設定部を第1の実施形態に係る信号処理装置に追加したものに相当する。
図8は、第3の実施形態に係る信号処理装置を備えるリモコン装置800を概略的に示すブロック図であり、図9は、リモコン装置800の外観を概略的に示す斜視図である。図8及び図9において図1及び図2に示したものと同様の要素に同様の符号を付して、それらの要素についての説明を省略する。
図8に示すように、リモコン装置800は、マイク101〜104、音声強調部105、音声認識部106、通信部107、及び設定部801を備える。設定部801は、音声強調部105内の遅延部401で使用される遅延フレーム数(遅延時間)を設定する。
図9に示すように、リモコン装置800にはスイッチ901が設けられている。スイッチ901は“Single”と“Multi”との間で切り替えられる。スイッチ901が“Single”側にある場合は、リモコン装置800は第1の実施形態に係るリモコン装置100と同じ動作を行う。第1の実施形態では、コマンドワードとして、「スイッチオン」、「温度上げて」などの言葉が設定される。エアコン以外の音声操作可能な他の機器が導入された場合において、リモコン装置が他の機器を操作するためのユーザ発声に反応してエアコンを操作する事象が起こり得る。
リモコン装置800は、スイッチ901が“Multi”側に切り替えられた場合に、コマンドワードが「エアコンスイッチオン」、「エアコン温度上げて」など、先頭に「エアコン」が挿入された言葉に切り替わる機能を有する。これは、音声認識部106に記憶されているコマンドワードのリストを切り替えることによって実現することができる。また、コマンドワードに「エアコン」が追加されることでコマンドワード発声の継続長が長くなることから、設定部801は遅延部401で使用される遅延フレーム数を長くする。例えば、スイッチ901が“Multi”側にある場合には、設定部801は、遅延時間を2秒に、すなわち、遅延フレーム数を250に設定する。
以上のように、第3の実施形態に係る信号処理装置は、遅延時間を変更可能に構成される。これにより、信号処理装置を長さの異なるコマンドワードを切り替え可能な音声操作機器(例えばリモコン)に適用することが可能となる。
なお、スイッチ901とは別に設けられた多段階のスイッチなどの要素を用いて遅延時間を段階的に調整するようにしてもよい。遅延時間を細かく調整することで、ユーザの発話速度に合わせて認識性能が向上するようにすることが可能となる。
(第4の実施形態)
第4の実施形態は、第3の実施形態で説明したスイッチが“Multi”側に切り替えられたときの動作の変形例に関する。第3の実施形態では、スイッチが“Multi”側に切り替えられた場合に、すべてのコマンドワードの先頭に「エアコン」が挿入される。第4の実施形態では、スイッチが“Multi”側に切り替えられた場合に、「エアコン」という1つのコマンドワードが追加される。
図10は、第4の実施形態に係る信号処理装置を備えるリモコン装置1000を概略的に示すブロック図である。図10において図1に示したものと同様の要素に同様の符号を付して、それらの要素についての説明を省略する。図10に示すように、リモコン装置1000は、マイク101〜104、音声強調部1001、音声認識部1002、及び通信部107を備える。
スイッチが“Multi”側に切り替えられると、音声強調部1001は、第1の実施形態に係る音声強調部105と同様の動作を行い、音声認識部1002は、コマンドワードの1つである「エアコン」を待ち受ける状態に遷移する。音声認識部1002は、コマンドワード「エアコン」を検出した場合、コマンドワード「エアコン」を検出したことを音声強調部1001に通知し、その直後から、「エアコン」以外のコマンドワードを待ち受ける状態に遷移する。音声認識部1002は、「エアコン」以外のコマンドワードのいずれかを検出した場合、検出したコマンドワードを識別するコマンドワードIDを出力し、コマンドワード「エアコン」を待ち受ける状態に戻る。また、音声認識部1002は、状態遷移から所定時間経過するまでに「エアコン」以外のコマンドワードのいずれも検出できなかった場合、コマンドワード「エアコン」を待ち受ける状態に戻る。
図11は、音声強調部1001の構成例を概略的に示すブロック図である。図11において図3に示したものと同様の要素に同様の符号を付して、それらの要素についての説明を省略する。図11に示すように、音声強調部1001は、変換部301、強調部1101、及び逆短時間フーリエ変換部305を備える。
強調部1101は、変換部301から周波数スペクトルX(f,n)を受け取る。強調部1101は、フレームごと及び周波数ビンごとに周波数スペクトルX(f,n)に対してスペクトル強調を行う。具体的には、強調部1101は、129個の周波数ビンのそれぞれに対応する129個のスペクトル強調部1102を含む。各スペクトル強調部1102は、変換部301から周波数スペクトルX(f,n)を受け取り、受け取った周波数スペクトルX(f,n)に対してスペクトル強調を行う。スペクトル強調部1102は、音声認識部1002から、コマンドワード「エアコン」が検出されたこと示す通知を受け取る。各スペクトル強調部1102の詳細については、図12を参照して後述する。
図12は、スペクトル強調部1102の構成例を概略的に示している。図12に示すスペクトル強調部1102は、図11に示したスペクトル強調部1102の各々に相当する。図12において図4に示したものと同様の要素に同様の符号を付して、それらの要素についての説明を省略する。
図12に示すように、スペクトル強調部1102は、遅延部401、空間相関算出部402、空間相関算出部403、空間フィルタ部1201、及び空間フィルタ係数記憶部1202を備える。
空間フィルタ部1201は、第1の実施形態において説明した空間フィルタ部404と同様にして空間フィルタを生成し、空間フィルタを形成する係数を空間フィルタ係数記憶部1202に記憶させる。空間フィルタ係数記憶部1202は、現在のフレームから所定時間前のフレームまでについて空間フィルタ係数を記憶する。
空間フィルタ部1201は、音声認識部1002からの通知を受け取ると、空間フィルタの更新を停止し、空間フィルタ係数記憶部1202から、所定時間(例えば0.3秒)前のフレームに関する空間フィルタ係数を読み出す。空間フィルタ部1201は、読み出した空間フィルタ係数を空間フィルタにセットする。空間フィルタ部1201は、音声認識部1002が「エアコン」以外のコマンドワードを待ち受ける状態にある間は、空間フィルタを固定してフィルタリングを行う。
コマンドワード「エアコン」が検出されたときには、既に「エアコン」の発声は終了しているため、例えば、0.3秒程度過去の空間フィルタを利用することで、「エアコン」発声中の安定した空間フィルタを利用することが可能である。
第4の実施形態では、「エアコン」という1つの語を待ち受けるため、第3の実施形態と比較して誤動作が減少する。さらに、コマンドワード発話の継続長が短く抑えられることから、非定常な雑音にも比較的頑健に動作する。「エアコン」に続くコマンドワード部分も音声強調の効果が持続することから、認識の精度が向上するという効果がある。
なお、空間フィルタ係数に代えて、空間相関算出部402、403の出力又は周波数スペクトルなどの情報を記憶しておき、空間フィルタ部1201が当該情報に基づいて空間フィルタを生成しなおすようにしてもよい。過去の適切な区間のデータを利用して空間フィルタを生成することにより、音声強調の効果がさらに向上する可能性がある。
各実施形態に関して上述した処理は、汎用プロセッサなどの処理回路(processing circuitry)により実現され得る。
図13は、一実施形態に係るコンピュータ1300のハードウェア構成の一例を示すブロック図である。図13に示すように、コンピュータ1300は、ハードウェアとして、CPU(Central Processing Unit)1301、RAM(Random Access Memory)1302、プログラムメモリ1303、補助記憶装置1304、入出力インタフェース1305、及びバス1306を備える。CPU1301は、バス1306を介して、RAM1302、プログラムメモリ1303、補助記憶装置1304、及び入出力インタフェース1305と通信する。
CPU1301は、汎用プロセッサの一例である。RAM1302は、ワーキングメモリとしてCPU1301に使用される。RAM1302は、SDRAM(Synchronous Dynamic Random Access Memory)などの揮発性メモリを含む。プログラムメモリ1303は、信号処理プログラムを含む種々のプログラムを記憶する。プログラムメモリ1303として、例えば、ROM(Read-Only Memory)、補助記憶装置1304の一部、又はその組み合わせが使用される。補助記憶装置1304は、データを非一時的に記憶する。補助記憶装置1304は、ハードディスクドライブ(HDD)又はソリッドステートドライブ(SSD)などの不揮発性メモリを含む。
入出力インタフェース1305は、他のデバイスと接続するためのインタフェースである。入出力インタフェース1305は、例えば、マイク101〜104及び通信部107との接続に使用される。
プログラムメモリ1303に記憶されている各プログラムはコンピュータ実行可能命令を含む。プログラム(コンピュータ実行可能命令)は、CPU1301により実行されると、CPU1301に所定の処理を実行させる。例えば、信号処理プログラムは、CPU1301により実行されると、CPU1301に音声強調部及び音声認識部に関して説明された一連の処理を実行させる。
プログラムは、コンピュータで読み取り可能な記憶媒体に記憶された状態でコンピュータ1300に提供されてよい。この場合、例えば、コンピュータ1300は、記憶媒体からデータを読み出すドライブ(図示せず)をさらに備え、記憶媒体からプログラムを取得する。記憶媒体の例は、磁気ディスク、光ディスク(CD−ROM、CD−R、DVD−ROM、DVD−Rなど)、光磁気ディスク(MOなど)、半導体メモリを含む。また、プログラムを通信ネットワーク上のサーバに格納し、コンピュータ1300が入出力インタフェース1305を使用してサーバからプログラムをダウンロードするようにしてもよい。
実施形態において説明される処理は、CPU1301などの汎用ハードウェアプロセッサがプログラムを実行することにより行われることに限らず、ASIC(Application Specific Integrated Circuit)などの専用ハードウェアプロセッサにより行われてもよい。処理回路という語は、少なくとも1つの汎用ハードウェアプロセッサ、少なくとも1つの専用ハードウェアプロセッサ、又は少なくとも1つの汎用ハードウェアプロセッサと少なくとも1つの専用ハードウェアプロセッサとの組み合わせを含む。図13に示す例では、CPU1301、RAM1302、及びプログラムメモリ1303が処理回路に相当する。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100…リモコン装置、101〜104…マイク、101…マイク、105…音声強調部、106…音声認識部、107…通信部、110…筐体、200…エアコン、301…変換部、302…短時間フーリエ変換部、303…強調部、304…スペクトル強調部、305…逆短時間フーリエ変換部、401…遅延部、402…空間相関算出部、403…空間相関算出部、404…空間フィルタ部、600…スペクトル強調部、601…マスク推定部、602…空間相関算出部、700…スペクトル強調部、701…マスク推定部、800…リモコン装置、801…設定部、901…スイッチ、1000…リモコン装置、1001…音声強調部、1002…音声認識部、1101…強調部、1102…スペクトル強調部、1201…空間フィルタ部、1202…空間フィルタ係数記憶部、1300…コンピュータ、1301…CPU、1302…RAM、1303…プログラムメモリ、1304…補助記憶装置、1305…入出力インタフェース、1306…バス。

Claims (10)

  1. 異なる位置で音を検出することで得られる第1の検出信号を時間周波数領域に変換して第2の検出信号を得る変換部と、
    前記第2の検出信号に基づいて第1の空間相関行列を算出する第1の算出部と、
    前記第2の検出信号を所定の時間だけ遅延した第3の検出信号に基づいて第2の空間相関行列を算出する第2の算出部と、
    前記第1の空間相関行列及び前記第2の空間相関行列に基づいて空間フィルタを生成し、前記空間フィルタを用いて前記第2の検出信号をフィルタリングする空間フィルタ部と、
    を備える信号処理装置。
  2. 前記第1の算出部は、第1の時刻までの前記第2の検出信号を使用して、前記第1の時刻より前記所定の時間だけ前の時刻である第2の時刻から前記第1の時刻までの前記第2の検出信号の寄与が前記第1の時刻までの前記第2の検出信号の寄与よりも大きくなるように、前記第1の空間相関行列を算出する、
    請求項1に記載の信号処理装置。
  3. 前記第2の検出信号に基づいて、各時間周波数点における第1の検出信号に占める目的信号の割合を表すマスクを推定するマスク推定部をさらに備え、
    前記第1の算出部は、前記第2の検出信号と前記マスクとに基づいて前記第1の空間相関行列を算出する、
    請求項1又は2に記載の信号処理装置。
  4. 前記マスク推定部は、前記第2の検出信号と前記第2の空間相関行列とに基づいて雑音と目的信号との到来方向の違いを推定することにより、前記マスクを推定する、
    請求項3に記載の信号処理装置。
  5. 前記マスク推定部は、前記第2の検出信号に基づいて雑音と目的信号とのスペクトルの違いを推定することにより、前記マスクを推定する、
    請求項3に記載の信号処理装置。
  6. 前記所定の時間を設定する設定部をさらに備える、
    請求項1乃至5のいずれか1項に記載の信号処理装置。
  7. 前記空間フィルタは、前記第1の空間相関行列を信号の空間相関行列とし、前記第2の空間相関行列を雑音の空間相関行列とした信号対雑音比最大化ビームフォーマである、
    請求項1乃至6のいずれか1項に記載の信号処理装置。
  8. 前記空間フィルタ部の出力に対して、あらかじめ登録されたキーワードの検出を行う音声認識部と、
    前記空間フィルタを形成する空間フィルタ係数と、前記第1の空間相関行列と、前記第2の空間相関行列と、の少なくとも1つに関する情報を記憶する記憶部と、
    をさらに備え、
    前記空間フィルタ部は,前記音声認識部が前記キーワードを検出した場合に、前記記憶部に記憶された前記情報に基づいて前記空間フィルタを生成する、
    請求項1乃至7のいずれか1項に記載の信号処理装置。
  9. 信号処理装置により実行される信号処理方法であって、
    異なる位置で音を検出することで得られる第1の検出信号を時間周波数領域に変換して第2の検出信号を得ることと、
    前記第2の検出信号に基づいて第1の空間相関行列を算出することと、
    前記第2の検出信号を所定の時間だけ遅延した第3の検出信号に基づいて第2の空間相関行列を算出することと、
    前記第1の空間相関行列及び前記第2の空間相関行列に基づいて空間フィルタを生成することと、
    前記空間フィルタを用いて前記第2の検出信号をフィルタリングすることと、
    を備える信号処理方法。
  10. 異なる位置で音を検出することで得られる第1の検出信号を時間周波数領域に変換して第2の検出信号を得る手段、
    前記第2の検出信号に基づいて第1の空間相関行列を算出する手段、
    前記第2の検出信号を所定の時間だけ遅延した第3の検出信号に基づいて第2の空間相関行列を算出する手段、
    前記第1の空間相関行列及び前記第2の空間相関行列に基づいて空間フィルタを生成する手段、及び
    前記空間フィルタを用いて前記第2の検出信号をフィルタリングする手段、
    としてコンピュータを機能させるためのプログラム。
JP2019158133A 2019-08-30 2019-08-30 信号処理装置、信号処理方法、及びプログラム Active JP7191793B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019158133A JP7191793B2 (ja) 2019-08-30 2019-08-30 信号処理装置、信号処理方法、及びプログラム
US16/795,799 US11395061B2 (en) 2019-08-30 2020-02-20 Signal processing apparatus and signal processing method
CN202010126904.4A CN112447191B (zh) 2019-08-30 2020-02-28 信号处理装置以及信号处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019158133A JP7191793B2 (ja) 2019-08-30 2019-08-30 信号処理装置、信号処理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2021036297A true JP2021036297A (ja) 2021-03-04
JP7191793B2 JP7191793B2 (ja) 2022-12-19

Family

ID=74680355

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019158133A Active JP7191793B2 (ja) 2019-08-30 2019-08-30 信号処理装置、信号処理方法、及びプログラム

Country Status (3)

Country Link
US (1) US11395061B2 (ja)
JP (1) JP7191793B2 (ja)
CN (1) CN112447191B (ja)

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10743101B2 (en) 2016-02-22 2020-08-11 Sonos, Inc. Content mixing
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10531157B1 (en) * 2017-09-21 2020-01-07 Amazon Technologies, Inc. Presentation and management of audio and visual content across devices
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US10600408B1 (en) * 2018-03-23 2020-03-24 Amazon Technologies, Inc. Content output management based on speech quality
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
EP3709194A1 (en) 2019-03-15 2020-09-16 Spotify AB Ensemble-based data comparison
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11094319B2 (en) 2019-08-30 2021-08-17 Spotify Ab Systems and methods for generating a cleaned version of ambient sound
JP7191793B2 (ja) * 2019-08-30 2022-12-19 株式会社東芝 信号処理装置、信号処理方法、及びプログラム
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11328722B2 (en) * 2020-02-11 2022-05-10 Spotify Ab Systems and methods for generating a singular voice audio stream
US11308959B2 (en) 2020-02-11 2022-04-19 Spotify Ab Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices
US11308962B2 (en) * 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11798533B2 (en) * 2021-04-02 2023-10-24 Google Llc Context aware beamforming of audio data
CN113270108B (zh) * 2021-04-27 2024-04-02 维沃移动通信有限公司 语音活动检测方法、装置、电子设备及介质
CN114089141A (zh) * 2022-01-24 2022-02-25 杭州兆华电子股份有限公司 一种局部放电检测方法及局部放电检测装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014056181A (ja) * 2012-09-13 2014-03-27 Honda Motor Co Ltd 音源方向推定装置、音響処理システム、音源方向推定方法、及び音源方向推定プログラム
JP2015064554A (ja) * 2013-08-30 2015-04-09 本田技研工業株式会社 音声処理装置、音声処理方法、及び音声処理プログラム
JP2015179243A (ja) * 2014-02-27 2015-10-08 株式会社Jvcケンウッド オーディオ信号処理装置
WO2016152511A1 (ja) * 2015-03-23 2016-09-29 ソニー株式会社 音源分離装置および方法、並びにプログラム
JP2019045576A (ja) * 2017-08-30 2019-03-22 日本電信電話株式会社 目的音声抽出方法、目的音声抽出装置及び目的音声抽出プログラム
JP2019095551A (ja) * 2017-11-21 2019-06-20 ヤフー株式会社 生成装置、生成方法、および生成プログラム

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE524784T1 (de) * 2005-09-30 2011-09-15 Irobot Corp Begleitroboter für persönliche interaktion
WO2007129731A1 (ja) * 2006-05-10 2007-11-15 Honda Motor Co., Ltd. 音源追跡システム、方法、およびロボット
US8525868B2 (en) * 2011-01-13 2013-09-03 Qualcomm Incorporated Variable beamforming with a mobile platform
JP5691804B2 (ja) * 2011-04-28 2015-04-01 富士通株式会社 マイクロホンアレイ装置及び音信号処理プログラム
US8885882B1 (en) * 2011-07-14 2014-11-11 The Research Foundation For The State University Of New York Real time eye tracking for human computer interaction
US9516412B2 (en) * 2014-03-28 2016-12-06 Panasonic Intellectual Property Management Co., Ltd. Directivity control apparatus, directivity control method, storage medium and directivity control system
EP2933067B1 (en) * 2014-04-17 2019-09-18 Softbank Robotics Europe Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
US9838646B2 (en) * 2015-09-24 2017-12-05 Cisco Technology, Inc. Attenuation of loudspeaker in microphone array
US9621984B1 (en) * 2015-10-14 2017-04-11 Amazon Technologies, Inc. Methods to process direction data of an audio input device using azimuth values
US10643633B2 (en) * 2015-12-02 2020-05-05 Nippon Telegraph And Telephone Corporation Spatial correlation matrix estimation device, spatial correlation matrix estimation method, and spatial correlation matrix estimation program
CN107121669B (zh) * 2016-02-25 2021-08-20 松下电器(美国)知识产权公司 声源探测装置、声源探测方法及非瞬时性记录介质
EP3381033B1 (en) * 2016-03-23 2020-08-12 Google LLC Adaptive audio enhancement for multichannel speech recognition
US10375498B2 (en) * 2016-11-16 2019-08-06 Dts, Inc. Graphical user interface for calibrating a surround sound system
JP6636973B2 (ja) 2017-03-01 2020-01-29 日本電信電話株式会社 マスク推定装置、マスク推定方法およびマスク推定プログラム
US10264350B2 (en) * 2017-03-03 2019-04-16 Panasonic Intellectual Property Corporation Of America Sound source probing apparatus, sound source probing method, and storage medium storing program therefor
US11151992B2 (en) * 2017-04-06 2021-10-19 AIBrain Corporation Context aware interactive robot
JP6686977B2 (ja) * 2017-06-23 2020-04-22 カシオ計算機株式会社 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム
US10649060B2 (en) * 2017-07-24 2020-05-12 Microsoft Technology Licensing, Llc Sound source localization confidence estimation using machine learning
US10839822B2 (en) * 2017-11-06 2020-11-17 Microsoft Technology Licensing, Llc Multi-channel speech separation
US10885907B2 (en) * 2018-02-14 2021-01-05 Cirrus Logic, Inc. Noise reduction system and method for audio device with multiple microphones
US10524051B2 (en) * 2018-03-29 2019-12-31 Panasonic Corporation Sound source direction estimation device, sound source direction estimation method, and recording medium therefor
JP6587199B1 (ja) * 2018-07-03 2019-10-09 パナソニックIpマネジメント株式会社 推定装置および推定方法
JP7027283B2 (ja) * 2018-08-31 2022-03-01 本田技研工業株式会社 伝達関数生成装置、伝達関数生成方法、およびプログラム
US10629226B1 (en) * 2018-10-29 2020-04-21 Bestechnic (Shanghai) Co., Ltd. Acoustic signal processing with voice activity detector having processor in an idle state
KR102174598B1 (ko) * 2019-01-14 2020-11-05 한국과학기술원 회절 인지를 통한 비가시선 음원 위치 추적 방법 및 시스템
CN110072177B (zh) * 2019-04-30 2022-04-08 北京小米智能科技有限公司 空间划分信息获取方法、装置及存储介质
JP7191793B2 (ja) * 2019-08-30 2022-12-19 株式会社東芝 信号処理装置、信号処理方法、及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014056181A (ja) * 2012-09-13 2014-03-27 Honda Motor Co Ltd 音源方向推定装置、音響処理システム、音源方向推定方法、及び音源方向推定プログラム
JP2015064554A (ja) * 2013-08-30 2015-04-09 本田技研工業株式会社 音声処理装置、音声処理方法、及び音声処理プログラム
JP2015179243A (ja) * 2014-02-27 2015-10-08 株式会社Jvcケンウッド オーディオ信号処理装置
WO2016152511A1 (ja) * 2015-03-23 2016-09-29 ソニー株式会社 音源分離装置および方法、並びにプログラム
JP2019045576A (ja) * 2017-08-30 2019-03-22 日本電信電話株式会社 目的音声抽出方法、目的音声抽出装置及び目的音声抽出プログラム
JP2019095551A (ja) * 2017-11-21 2019-06-20 ヤフー株式会社 生成装置、生成方法、および生成プログラム

Also Published As

Publication number Publication date
US11395061B2 (en) 2022-07-19
US20210067867A1 (en) 2021-03-04
JP7191793B2 (ja) 2022-12-19
CN112447191A (zh) 2021-03-05
CN112447191B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
JP7191793B2 (ja) 信号処理装置、信号処理方法、及びプログラム
US9208782B2 (en) Speech processing device, speech processing method, and speech processing program
JP5666444B2 (ja) 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法
JP4880036B2 (ja) 音源と室内音響の確率モデルに基づく音声残響除去のための方法及び装置
US8867755B2 (en) Sound source separation apparatus and sound source separation method
JP6584930B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP4950930B2 (ja) 音声/非音声を判定する装置、方法およびプログラム
US8849657B2 (en) Apparatus and method for isolating multi-channel sound source
US11894010B2 (en) Signal processing apparatus, signal processing method, and program
JP2005249816A (ja) 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム
JP5566846B2 (ja) ノイズパワー推定装置及びノイズパワー推定方法並びに音声認識装置及び音声認識方法
JP6225245B2 (ja) 信号処理装置、方法及びプログラム
KR102410850B1 (ko) 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치
JP4960933B2 (ja) 音響信号強調装置とその方法と、プログラムと記録媒体
JP5406866B2 (ja) 音源分離装置、その方法及びプログラム
WO2021193093A1 (ja) 信号処理装置、信号処理方法およびプログラム
JP6142402B2 (ja) 音響信号解析装置、方法、及びプログラム
JP2005521091A (ja) 音声相関構造に基づくブラインド伝送路推定方法および装置
JP6439174B2 (ja) 音声強調装置、および音声強調方法
CN110675890B (zh) 声音信号处理装置以及声音信号处理方法
JP5044581B2 (ja) 複数信号強調装置とその方法と、プログラム
WO2022190615A1 (ja) 信号処理装置および方法、並びにプログラム
JP4242320B2 (ja) 音声認識方法、その装置およびプログラム、その記録媒体
WO2023228785A1 (ja) 音響信号処理装置、音響信号処理方法及びプログラム
US20230419980A1 (en) Information processing device, and output method

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200205

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210901

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220715

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221207

R151 Written notification of patent or utility model registration

Ref document number: 7191793

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151