JP6646677B2 - 音声信号処理方法および装置 - Google Patents

音声信号処理方法および装置 Download PDF

Info

Publication number
JP6646677B2
JP6646677B2 JP2017544147A JP2017544147A JP6646677B2 JP 6646677 B2 JP6646677 B2 JP 6646677B2 JP 2017544147 A JP2017544147 A JP 2017544147A JP 2017544147 A JP2017544147 A JP 2017544147A JP 6646677 B2 JP6646677 B2 JP 6646677B2
Authority
JP
Japan
Prior art keywords
signal
audio
output
input
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017544147A
Other languages
English (en)
Other versions
JPWO2017061023A1 (ja
Inventor
遼一 高島
遼一 高島
洋平 川口
洋平 川口
貴志 住吉
貴志 住吉
真人 戸上
真人 戸上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JPWO2017061023A1 publication Critical patent/JPWO2017061023A1/ja
Application granted granted Critical
Publication of JP6646677B2 publication Critical patent/JP6646677B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、複数の音源が混ざった音を分離する音声信号処理方法および装置に関する。
本技術分野の背景技術として、特許文献1および特許文献2がある。特許文献1には、「2個のマイクロホンで観測された観測信号の複素スペクトルを得、観測信号の複素スペクトルのマイクロホン間位相差を各時間周波数について計算する。1個のマイクロホンで観測された観測信号から得られた観測信号の複素スペクトル、特徴量作成部で得られたマイクロホン間位相差、および音源信号の複素スペクトルの分布を表す事前情報を用い、各時間周波数での各音源に対応する観測信号の複素スペクトルおよびマイクロホン間位相差の分布を表す確率モデルのパラメタを推定する。推定されたパラメタから得られる各時間周波数での各音源の観測信号の複素スペクトルおよびマイクロホン間位相差に対する寄与率を用い、各時間周波数での当該寄与率および観測信号の複素スペクトルから、分離信号の複素スペクトルを抽出し、それを時間領域の分離信号に変換する」技術が開示されている(要約参照)。また、特許文献2には、「音声認識システムにおける音圧・周波数特性測定装置は、音声入力がない時間帯における環境雑音をマイクロホンから取り込み、その音圧と周波数特性の時間変化量を測定する。音声認識可否判定装置は、前記測定された環境雑音の音圧と周波数特性時間変化量を基にして、音声認識が「良好」、「可能」、または「不可」であるかを判定する。前記音声認識可否判定装置の判定結果は、状況通知装置によって、使用者に通知される。」技術が開示されている。
特開2013−186383号公報 特開2004−271596号公報
本発明は、複数の音が混ざった信号を分離して、各音源の音を抽出する音声信号処理に関する発明である。特許文献1では、複数のマイクロホンで収録された音信号を入力として、各音源の音を抽出する装置および方法が記載されている。しかしこの方法は、各マイクロホンが同期して音を収録することを前提としている。各収録系が同期していない場合、収録開始タイミングの違いや、サンプリング周波数の違いによって観測信号間の位相差が変化するため、分離性能が低下し、仮に後段に音声認識を行う場合は、音声認識性能も低下する。
特許文献2では、周囲環境雑音の音圧を用いて音声認識のしやすさを判定する方法が記載されているが、非同期収録デバイスによる音声認識性能の低下を判定する方法については言及されていない。
本発明の目的は、複数のデバイスが非同期で収録した音を入力とする場合であっても、各音源の音を分離する音声信号処理方法および装置を提供することにある。
上記課題を解決するために本発明は、それぞれがマイクとスピーカを備える複数の音声入出力デバイスを含むシステムにおける音声信号処理方法であって、前記複数の音声入出力デバイスに対して、それぞれ異なる周波数の参照信号を出力し、前記異なる周波数の参照信号に応じて前記複数の音声入出力デバイスのスピーカからそれぞれ出力された音の電気信号であるスピーカ出力信号を前記複数の音声入出力デバイスからそれぞれ受信し、前記複数の音声入出力デバイスのマイクにそれぞれ収録された音の電気信号であるマイク入力信号を前記複数の音声入出力デバイスからそれぞれ受信し、前記複数の音声入出力デバイスからそれぞれ受信したスピーカ出力信号とマイク入力信号とから、前記デバイスごとの時間シフト量を算出し、前記算出された時間シフト量に基づいて、前記複数のデバイスの複数のマイク入力信号を分離し、前記分離したマイク入力信号である分離された音声信号を出力する構成を採用する。
本発明によれば、複数のデバイスが非同期で収録した音を入力とする場合であっても、各音源の音を分離することが可能である。
本発明の一実施形態である音声信号処理装置と音声入出力デバイスの構成図を示す。 音声信号処理を音声入出力デバイスに実行させる構成図である。 音声信号処理装置が音声入出力機能を有する構成図である。 本実施例の信号処理装置100、音声入出力デバイス110および120における機能ブロック図である。 本実施例の信号処理装置100の処理フローチャートである。 時間シフト量計算処理(S502)を詳細に説明した処理フローである。 各デバイスのスピーカ出力信号とマイク入力信号の例である。 各デバイスにおけるマイク入力信号を、計算した時間シフト量を用いて時間合わせをした例である。 分離性能評価処理(S505)を詳細に説明した処理フローである。 2個の音声が混ざった信号に対して、低い分離性能で2個の信号に分離した場合と、高い分離性能で2個の信号に分離した場合の例である。 サンプリングミスマッチ計算処理(S507)を詳細に説明した処理フローである。
以下、本発明の実施形態を、図面を用いて詳細に説明する。
本実施例では、複数のデバイスが非同期で収録した音声に対して音源分離を行う信号処理装置100の例を説明する。
図1は、本実施例における音源分離システムの構成図を示す。本実施例における音声分離システムは、2個の音声入出力デバイス110、120と、音源分離を実施する信号処理装置100が、無線で通信する構成である。
各音声入出力デバイス(110および120)は、マイク(111および121)、スピーカ(112および122)、A/D変換器(113および123)、D/A変換器(114および124)、中央演算装置(115および125)、メモリ(116および126)、記憶媒体(117および127)、通信制御装置(118および128)により構成されている。このような構成を持つデバイスとして、例えばスマートフォンやタブレット型PCなどの携帯端末が挙げられる。
信号処理装置100は、中央演算装置101、メモリ102、記憶媒体103、通信制御装置104から構成される。
各デバイス(110および120)では、D/A変換器(112および122)でデジタル信号からアナログ信号に変換された後、スピーカ(112および122)より音声が出力される。また同時に、マイク(111および121)は周囲の音を収録し、A/D変換器(113および123)によって収録したアナログ信号がデジタル信号に変換される。これらの音声入出力は非同期で行われる。
中央演算装置(115および125)は、スピーカより音として出力するデジタル信号であるスピーカ出力信号およびマイクに入力された音のデジタル信号であるマイク入力信号をメモリ(116および126)へ格納する。通信制御装置(118および128)は、メモリに格納されたスピーカ出力信号およびマイク入力信号を信号処理装置100側の通信制御装置104へ送信する。
信号処理装置100の中央演算装置101は、デバイス(110または120)から受信した信号をメモリ102へ格納した後、音源分離処理を行う。また、中央演算装置101は、音源分離のために必要な処理として、通信制御装置104を通じて参照信号を各デバイスの通信制御装置(118および128)へ送信する機能を有する。
これら一連の処理は、それぞれの記憶媒体103、117および127に格納されたプログラムにより実行される。
図1の構成では、各デバイス110、120と信号処理装置100が無線によって通信するが、図2のように、音源分離処理をどちらか一方、あるいは両方のデバイスに実行させるような構成でもよい。この場合、どちらか一方、あるいは両方のデバイス内の中央演算装置(205および/または215)が音源分離処理を行う機能を有する。また、図3のように、独立したデバイスを用いずに、信号処理装置300が音声入出力機能を有する構成(つまり、図1におけるデバイス110、120、および信号処理装置100が一体となった構成)もあり得る。本実施例では、図1における構成を例として説明する。
図4は、本実施例の信号処理装置100、音声入出力デバイス110および120における機能ブロック図である。
各デバイス(110、120)は、データ送受信部(411および421)が、参照信号(および、後段処理部406が出力した信号でありスピーカから出力される音の信号を、信号処理装置100側のデータ送受信部402より受信し、D/A変換部(413および423)を通じてスピーカ(112および122)から出力させる。また同時にマイク(111および121)が収録した周囲の音をA/D変換部(412および422)によってデジタル信号(マイク入力信号)に変換した後、データ送受信部(411および421)より信号処理装置100側のデータ送受信部402へ送信する。
信号処理装置100内の時間シフト量計算部401は、各デバイスのマイク入力信号間の時間シフト量、デバイス毎のマイク入力信号とスピーカ出力信号間の時間シフト量を計算するために、参照信号をデータ送受信部402に送信しそれにより、参照信号がデータ送受信部(411、421)に送信され、各デバイスのD/A変換部(412、423)を通じて音がスピーカ(112、122)より出力さる。このとき、時間シフト量計算部401は、各デバイスのマイク入力信号とスピーカ出力信号を、データ送受信部(402、411、421)を通じて受信し、時間シフト量を計算する。
信号分離部403は、データ送受信部402より入力されるマイク入力信号およびスピーカ出力信号と、時間シフト量計算部401によって計算された時間シフト量を入力として、信号分離およびエコー除去を行う。ここで、各デバイスについて、エコーとは、当該デバイスのスピーカより出力されて当該デバイスのマイクに回り込んで収録される音声の信号のことを指す。信号分離部403は、分離後信号、マイク入力、スピーカ出力を分離性能評価部404に出力する。
分離性能評価部404は、信号分離部403から送信される分離後信号を入力として、分離性能を評価する。このとき、分離性能が閾値以下であれば、時間シフト量計算モード切り替え指示を時間シフト量計算部401へ送信することで、時間シフト量計算部401は、再度時間シフト量計算処理を行う。
サンプリングミスマッチ計算部405は、分離性能評価部404から送信されるマイク入力信号、分離後信号、スピーカ出力信号を入力として、サンプリング周波数の誤差に起因する時間シフト量を逐次計算し、信号分離部403へフィードバックする。
サンプリングミスマッチ計算部405は、分離後信号を後段処理部406へ出力し、後段処理部406は、受信した分離後信号を用いて何らかの処理を行い、処理した結果である何らかの音を、データ送受信部402を通じて各デバイスのスピーカより出力させる。後段処理部406による処理としては、例えば分離後信号を用いて音声認識を行い、認識結果を用いて別の言語に翻訳し、その翻訳音声をスピーカより出力させるような音声翻訳処理が挙げられる。
図5は、本実施例の信号処理装置100の処理フローチャートである。処理開始(S501)後、まず時間シフト量計算部401が、各デバイスのマイク入力信号間の時間シフト量と、デバイス毎のマイク入力信号とスピーカ出力信号との間の時間シフト量を計算する(S502)。その後、各デバイスは常時音声入出力を行い続け、都度マイク入力信号およびスピーカ出力信号を信号処理装置100へ送信し続ける(S503)。次に、信号分離部403は、マイク入力信号に対して、音源分離およびエコー除去を行う(S504)。次に、分離性能評価部404は分離後の信号に対して分離性能を評価する(S505)。
S505の評価処理において、分離性能が閾値以下であった場合は(S506:Yes)、デバイスの入出力間の同期が取れていないと判断し、再度時間シフト量計算処理(S502)を実施する。分離性能が閾値を超えた場合は(S506:No)、サンプリングミスマッチ計算部405が各デバイスのサンプリング周波数の誤差に起因する時間シフト量を逐次計算する(S507)。そして、音声認識などの後段処理を行い、必要に応じてスピーカへの出力を行う(S508)。マイク入力信号、スピーカ出力信号からの音源分離、分離性能評価、サンプリングミスマッチ計算、後段処理(S503〜S508)は繰り返し行われる。以降、各処理について詳細を記載する。
図6は、図5における時間シフト量計算処理(S502)を細かく説明した処理フローである。まず、時間シフト量計算部401が、データ送受信部402、411、421を通じて参照信号に応じた音をスピーカ112、122より出力させる(S602)。次に各デバイスは、参照信号に応じた音を出力した時間帯におけるスピーカ出力信号とマイク入力信号を、データ送受信部411、421、402を通じて時間シフト量計算部401へ送信する(S603)。そして時間シフト量計算部401は、各デバイスのマイク入力間の時間シフト量およびデバイス毎のマイク入力とスピーカ出力間の時間シフト量を計算する(S604)。
図7は、各デバイスのスピーカ出力信号とマイク入力信号の例である。まず、仮にデバイス毎にA/D変換とD/A変換が同期して動いていたとすると、スピーカ出力信号とマイク入力信号には同タイミングで参照信号が観測される。しかしA/D変換とD/A変換が同期していない場合は、デバイス毎のスピーカ出力とマイク入力の間には、デバイス内の処理遅延に起因した時間シフトが存在する。また、デバイス毎のマイク入力信号は、収録開始タイミングが異なることに起因した時間シフトが存在する(図7参照)。
時間シフト量計算処理(図5のS502)では、これらの時間シフト量を計算する。その方法として、それぞれ対応した参照信号同士で相互相関関数を計算し、相互相関係数がピークとなる時刻を用いて、信号間の時間シフト量を計算することが可能である。しかしこのとき、対応していない参照信号同士の相互相関関数が計算され、誤った時間シフト量が計算される場合が存在する。
図7においては、デバイス1、デバイス2の順番でが出力され、それぞれのが各デバイスのマイクによって収録されている。このとき、それぞれマイクで収録された音を示す2個のマイク入力信号のうち、先に収録された信号がデバイス1のスピーカ出力信号、後に収録された信号がデバイス2のスピーカ出力信号と対応するべきである。しかし、デバイス毎のの出力間隔が短くがオーバーラップするような場合などでは、対応していない同士の相互相関関数が計算され、ただしく時間シフト量が計算されなくなる場合がある。その対策として、本実施例ではデバイス毎に固有の周波数帯域を持つ参照信号が送信される。デバイス毎に設定した周波数帯域に絞って相互相関関数を計算することで、対応しない同士の相互相関関数は低い値となり、そのため時間シフト量を安定して計算することが可能となる。
また、本実施例においては、可聴域の音が出力さる。一方、超音波などの非可聴域の音を所定間隔で(または常時)出力させることで、音声分離処理と並列して時間シフト量を随時計算することも可能である。
信号処理装置100は、時間シフト量計算部401が計算した時間シフト量を用いて、非同期のマイク入力信号およびスピーカ出力信号間の時間合わせを行う。
図8は、各デバイスにおけるマイク入力信号を、計算した時間シフト量を用いて時間合わせを行った例である。各信号の時間が合っていない場合、従来から用いられているような、複数マイクロホンを用いた音源分離手法やエコーキャンセリング手法を適用することは困難である。その理由は、上述したように、従来の音源分離手法やエコーキャンセリング手法は、複数マイク間、またはマイクとスピーカ間が同期していることが前提であるからである。
そこで本実施例では、時間シフト量計算部401が計算した時間シフト量を用いて各信号の時間を合わせることで、音源分離およびエコーキャンセリングを実施可能にさせる。なお、音源分離およびエコーキャンセリングは、それぞれ公知のマイクロホンアレーを用いた方式やエコーキャンセリングの方式を用いている。
図9は、分離性能評価処理(図5のS505)を細かく説明した処理フローである。この処理では、信号分離部403によって分離された複数の音信号について、分離性能評価部404が分離信号同士の類似度や相関係数などを計算することで、分離性能を評価する。例えば分離信号同士の類似度を計算し(S802)、計算された類似度の逆数を性能評価値とする(S803)。
図10は、ある2個の音声が混ざった信号に対して、低い分離性能で2個の信号に分離した場合と、高い分離性能で2個の信号に分離した場合の例である。基本的に混ざる音声はそれぞれ独立な内容の発話であるため、もし高い性能で分離が行われている場合、分離後の信号は互いに類似しない独立な音声になる。一方、分離性能が低い場合、分離後の信号にはそれぞれの音声が互いにノイズとして残留するため、分離後信号同士は互いに類似した音声になる。この性質を利用して、分離後の信号同士の類似度や相関係数を用いて、分離性能を評価する。
類似度としては、例えば互いの信号のユークリッド距離を測り、その逆数を使う等が挙げられる。求めた類似度や相関係数を用いて、例えばその逆数を、分離性能を表す指標とし、その値があらかじめ定めた閾値以下であれば、分離が正しく行われていないと判定することが可能である。あるいは、類似度や相関係数をそのまま用いて、その値が定めた閾値以上であれば、分離が正しく行われていないと判定することも可能である。
本実施例では、分離性能評価部404による評価処理において、分離が正しく行われていないと判定された場合、時間シフト量の計算が正しくできていないと判断し、時間シフト計算処理(S502)を再度行う構成を取っている。これにより、分離処理の途中で信号間の時間合わせが精度良くできていない場合であっても、それを自動的に検知して、再度時間シフト計算処理を実施することが可能となる。
図11は、サンプリングミスマッチ計算処理(図5のS507)を詳しく説明した処理フローである。サンプリングミスマッチ計算部405は、デバイス毎のマイク入力信号間の相互相関関数を計算することで、各デバイスのマイク入力信号間の時間シフト量を計算する(S1002)。そして分離後のエコー成分とスピーカ出力信号間の相互相関関数を計算することで、デバイス毎のマイク入力・スピーカ出力間の時間シフト量を計算する(S1003)。
時間シフト量は、最初に処理S502で計算されたとしても、分離処理や後段処理を継続して行ううちに変化していく。これは、デバイス毎によってサンプリング周波数に誤差があるためである。よって、逐次的に時間シフト量を再計算することが必要となるが、毎回参照信号を出力することは後段処理の妨げになる。そこで、サンプリングミスマッチ計算処理S507では、参照信号の代わりにマイク入力とスピーカ出力を使って逐次的に時間シフト量を計算する。
まず、各デバイスのマイク入力信号間の時間シフト量の計算(S1002)は、音源分離前のマイク入力信号間の相互相関関数を計算し、そのピークを探索することで可能である。次に、デバイス毎のマイク入力・スピーカ出力間の時間シフト量を計算する(S1003)。このとき、マイク入力信号にはスピーカ出力によるエコー成分の他、外部の音声も混ざっているため、音源分離処理によって得られるエコー成分と、スピーカ出力の間の相互相関関数を計算し、そのピークを探索することで、デバイス毎のマイク入力・スピーカ出力間の時間シフト量を計算する。
なお、前述の通り、非可聴域の音用いられる場合は、非可聴域の音の参照信号を所定の間隔で(または常時)出力することで、逐次時間シフト量を計算することが可能である。
100 音声信号処理装置
101 音声信号処理装置100の中央演算装置
102 音声信号処理装置100のメモリ
103 音声信号処理装置100の記憶媒体
104 音声信号処理装置100の通信制御装置
110 音声入出力デバイス1
111 音声入出力デバイス1(110)のマイク
112 音声入出力デバイス1(110)のスピーカ
120 音声入出力デバイス2
121 音声入出力デバイス2(120)のマイク
122 音声入出力デバイス2(120)のスピーカ
401 時間シフト量計算部
402 データ送受信部
403 信号分離部
404 分離性能評価部
405 サンプリングミスマッチ計算部
406 後段処理部
411 音声入出力デバイス1(110)におけるデータ送受信部
412 音声入出力デバイス1(110)におけるA/D変換部
413 音声入出力デバイス1(110)におけるD/A変換部
421 音声入出力デバイス2(120)におけるデータ送受信部
422 音声入出力デバイス2(120)におけるA/D変換部
423 音声入出力デバイス2(120)におけるD/A変換部

Claims (10)

  1. それぞれがマイクとスピーカを備える複数の音声入出力デバイスを含むシステムにおける音声信号処理方法であって、
    前記複数の音声入出力デバイスに対して、それぞれ異なる周波数の参照信号を出力し、
    前記異なる周波数の参照信号に応じて前記複数の音声入出力デバイスのスピーカからそれぞれ出力された音の電気信号であるスピーカ出力信号を前記複数の音声入出力デバイスからそれぞれ受信し、
    前記複数の音声入出力デバイスのマイクにそれぞれ収録された音の電気信号であるマイク入力信号を前記複数の音声入出力デバイスからそれぞれ受信し、
    前記複数の音声入出力デバイスからそれぞれ受信したスピーカ出力信号とマイク入力信号とから、前記音声入出力デバイスごとの時間シフト量を算出し、
    前記算出された時間シフト量に基づいて、前記複数の音声入出力デバイスの複数のマイク入力信号を分離し、
    前記分離したマイク入力信号である分離された音声信号を出力する
    ことを特徴とする音声信号処理方法。
  2. 前記分離された音声信号から分離性能を評価し、
    前記評価された分離性能が閾値を超えている場合、前記分離されたマイク入力信号と、前記複数の音声入出力デバイスのスピーカ出力信号から、それらの信号どうしの時間シフト量を算出し、
    前記算出された時間シフト量に基づいて、各マイク入力信号の分離を行う
    ことを特徴とする請求項1記載の音声信号処理方法。
  3. 前記分離された音声信号から分離性能を評価し、
    前記評価された分離性能が閾値以下の場合、前記複数の音声入出力デバイスに、それぞれ異なる周波数の参照信号を再度送信する
    ことを特徴とする請求項1記載の音声信号処理方法。
  4. 前記分離性能を、前記分離された音声信号間の類似度あるいは相関係数を用いて評価する
    ことを特徴とする請求項2記載の音声信号処理方法。
  5. 前記参照信号は、非可聴域の信号である
    ことを特徴とする請求項1記載の音声信号処理方法。
  6. 前記複数の音声入出力デバイスのスピーカから所定間隔で非可聴域の音が出力され、
    前記スピーカから非可聴域の音が出力されたときに、前記音声入出力デバイスごとの時間シフト量を算出する
    ことを特徴とする請求項5記載の音声信号処理方法。
  7. それぞれがマイクとスピーカを含む複数の音声入出力デバイスに対して、それぞれ異なる周波数の参照信号を送信するとともに、前記複数の音声入出力デバイスのスピーカが出力した音の電気信号であるスピーカ出力信号と、前記複数の音声入出力デバイスのマイクにそれぞれ収録された音の電気信号であるマイク入力信号を受信するデータ送受信部と、
    前記複数の音声入出力デバイスからそれぞれ受信したスピーカ出力信号とマイク入力信号に基づいて、前記音声入出力デバイスごとの時間シフト量を算出する時間シフト量計算部と、
    前記算出された時間シフト量に基づいて、前記複数の音声入出力デバイスの複数のマイク入力信号を分離する信号分離部と
    を備え、
    前記データ送受信部は、前記分離されたマイク入力信号である分離された音声信号を前記複数の音声入出力デバイスに送信することを特徴とする音声信号処理装置。
  8. 前記参照信号は、非可聴域の信号である
    ことを特徴とする請求項7記載の音声信号処理装置。
  9. 前記時間シフト量計算部は、前記スピーカ出力信号と前記マイク入力信号とに基づいて、前記音声入出力デバイスごとの時間シフト量を所定の間隔で算出する
    ことを特徴とする請求項8記載の音声信号処理装置。
  10. マイクとスピーカを含む音声入出力デバイスを複数備えるシステムにおける音声信号処理方法であって、
    前記音声入出力デバイスに含まれるマイクとスピーカは非同期であり、
    前記複数のマイクは非同期であり、
    前記複数の音声入出力デバイスのスピーカからそれぞれ出力された音の電気信号であるスピーカ出力信号と、前記複数の音声入出力デバイスのマイクにそれぞれ収録された音の電気信号であるマイク入力信号とに基づいて、前記マイクとスピーカの時間シフト量を計算し、
    前記計算結果に基づいて、前記マイク入力信号を分離する
    ことを特徴とする音声信号処理方法。
JP2017544147A 2015-10-09 2015-10-09 音声信号処理方法および装置 Active JP6646677B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/078708 WO2017061023A1 (ja) 2015-10-09 2015-10-09 音声信号処理方法および装置

Publications (2)

Publication Number Publication Date
JPWO2017061023A1 JPWO2017061023A1 (ja) 2018-07-19
JP6646677B2 true JP6646677B2 (ja) 2020-02-14

Family

ID=58488262

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017544147A Active JP6646677B2 (ja) 2015-10-09 2015-10-09 音声信号処理方法および装置

Country Status (3)

Country Link
US (1) US10629222B2 (ja)
JP (1) JP6646677B2 (ja)
WO (1) WO2017061023A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10572721B2 (en) * 2010-08-09 2020-02-25 Nike, Inc. Monitoring fitness using a mobile device
CN111383655B (zh) * 2018-12-29 2023-08-04 嘉楠明芯(北京)科技有限公司 一种波束形成方法、装置及计算机可读存储介质
US11539960B2 (en) 2019-10-01 2022-12-27 Sony Interactive Entertainment Inc. Game application providing scene change hint for encoding at a cloud gaming server
US10974142B1 (en) 2019-10-01 2021-04-13 Sony Interactive Entertainment Inc. Synchronization and offset of VSYNC between cloud gaming server and client
US11446572B2 (en) 2019-10-01 2022-09-20 Sony Interactive Entertainment Inc. Early scan-out of server display buffer at flip-time for cloud gaming applications
US11524230B2 (en) 2019-10-01 2022-12-13 Sony Interactive Entertainment Inc. Encoder tuning to improve tradeoffs between latency and video quality in cloud gaming applications
US11865434B2 (en) 2019-10-01 2024-01-09 Sony Interactive Entertainment Inc. Reducing latency in cloud gaming applications by overlapping receive and decode of video frames and their display at the client

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3956730B2 (ja) 2002-03-15 2007-08-08 富士ゼロックス株式会社 言語処理装置
JP2006148880A (ja) 2004-10-20 2006-06-08 Matsushita Electric Ind Co Ltd マルチチャネル音声再生装置、およびマルチチャネル音声調整方法
US20060083391A1 (en) * 2004-10-20 2006-04-20 Ikuoh Nishida Multichannel sound reproduction apparatus and multichannel sound adjustment method
JP2010212818A (ja) 2009-03-08 2010-09-24 Univ Of Tokyo 複数のマイクロフォンにより受信された多チャンネル信号の処理方法
EP2375779A3 (en) * 2010-03-31 2012-01-18 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for measuring a plurality of loudspeakers and microphone array
JP5289517B2 (ja) 2011-07-28 2013-09-11 株式会社半導体理工学研究センター センサネットワークシステムとその通信方法
JP5726790B2 (ja) 2012-03-09 2015-06-03 日本電信電話株式会社 音源分離装置、音源分離方法、およびプログラム
US9173023B2 (en) * 2012-09-25 2015-10-27 Intel Corporation Multiple device noise reduction microphone array
JP6253226B2 (ja) 2012-10-29 2017-12-27 三菱電機株式会社 音源分離装置
JP6278294B2 (ja) 2013-03-11 2018-02-14 大学共同利用機関法人情報・システム研究機構 音声信号処理装置及び方法

Also Published As

Publication number Publication date
WO2017061023A1 (ja) 2017-04-13
US10629222B2 (en) 2020-04-21
JPWO2017061023A1 (ja) 2018-07-19
US20190035418A1 (en) 2019-01-31

Similar Documents

Publication Publication Date Title
JP6646677B2 (ja) 音声信号処理方法および装置
US9947338B1 (en) Echo latency estimation
US9672821B2 (en) Robust speech recognition in the presence of echo and noise using multiple signals for discrimination
JP6670224B2 (ja) 音声信号処理システム
US10650840B1 (en) Echo latency estimation
US20210243528A1 (en) Spatial Audio Signal Filtering
JP5375400B2 (ja) 音声処理装置、音声処理方法およびプログラム
US11289109B2 (en) Systems and methods for audio signal processing using spectral-spatial mask estimation
CN103546839A (zh) 音频信号处理系统及其回音信号去除方法
WO2013138122A2 (en) Automatic realtime speech impairment correction
US8886527B2 (en) Speech recognition system to evaluate speech signals, method thereof, and storage medium storing the program for speech recognition to evaluate speech signals
WO2014049944A1 (ja) 音声処理装置、音声処理方法、音声処理プログラムおよび雑音抑圧装置
CN111402910B (zh) 一种消除回声的方法和设备
CN105869656B (zh) 一种语音信号清晰度的确定方法及装置
WO2017045512A1 (zh) 一种语音识别的方法、装置、终端及语音识别设备
US10356518B2 (en) First recording device, second recording device, recording system, first recording method, second recording method, first computer program product, and second computer program product
JP5626586B2 (ja) 遅延測定装置、遅延測定方法およびコンピュータプログラム
CN111083250A (zh) 移动终端及其降噪方法
JP2019139146A (ja) 音声認識システム、及び、音声認識方法
CN113409756B (zh) 语音合成方法、系统、设备及存储介质
US20200380992A1 (en) Hybrid routing for hands-free voice assistant, and related systems and methods
CN109378012B (zh) 用于单通道语音设备录制音频的降噪方法及系统
US11205416B2 (en) Non-transitory computer-read able storage medium for storing utterance detection program, utterance detection method, and utterance detection apparatus
WO2014158451A1 (en) Method and apparatus for providing silent speech
JP2007086592A (ja) 音声出力装置および音声出力方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180307

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190226

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191001

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200110

R150 Certificate of patent or registration of utility model

Ref document number: 6646677

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150