JP7062727B2 - オーディオ信号処理方法および装置、記憶媒体 - Google Patents

オーディオ信号処理方法および装置、記憶媒体 Download PDF

Info

Publication number
JP7062727B2
JP7062727B2 JP2020129305A JP2020129305A JP7062727B2 JP 7062727 B2 JP7062727 B2 JP 7062727B2 JP 2020129305 A JP2020129305 A JP 2020129305A JP 2020129305 A JP2020129305 A JP 2020129305A JP 7062727 B2 JP7062727 B2 JP 7062727B2
Authority
JP
Japan
Prior art keywords
signal
window
audio signal
frequency domain
separation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020129305A
Other languages
English (en)
Other versions
JP2021149084A (ja
Inventor
ハイニン ホウ
ジョンリャン リー
シャオミン リー
Original Assignee
ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド filed Critical ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド
Publication of JP2021149084A publication Critical patent/JP2021149084A/ja
Application granted granted Critical
Publication of JP7062727B2 publication Critical patent/JP7062727B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本願は、2020年03月13日に中国特許局に提出された、出願番号がCN202010176172.Xである中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照によって本願に組み込まれる。
本開示は、信号処理分野に関し、特に、オーディオ信号処理方法および装置、記憶媒体に関する。
関連技術では、スマート製品機器の音を拾うために、主にマイクロフォンアレイを使用し、実際の環境での音声認識率を向上させるために、マイクロフォンのビームフォーミング技術を使用して音声信号処理の品質を向上させる。ただし、複数のマイクロフォンのビームフォーミング技術は、マイクロフォンの位置誤差の影響を受けやすいため、パフォーマンスに大きな影響を与え、さらにマイクロフォンの数が増えると、製品コストも高くなる。
したかって、現在、マイクロフォンを2つだけ搭載したスマート製品が増えている。2つのマイクロフォンは、通常、複数のマイクロフォンのビームフォーミング技術とは全く異なるブラインドソース分離技術を使用して、音声を強調する。ゆえに、ブラインドソース分離の処理効率をどのように改善して遅延を低減するのは、現在のブラインドソース分離技術で解決すべき緊急の課題である。
本開示は、オーディオ信号処理方法および装置、記憶媒体を提供する。
本開示の実施例の第1態様によれば、オーディオ信号処理方法を提供し、前記方法は、
少なくとも2つのマイクロフォンによって、少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得して、時間領域での前記少なくとも2つのマイクロフォンのそれぞれの元のノイズのある信号を取得することと、
時間領域の各フレームについて、第1非対称ウィンドウを使用して、前記少なくとも2つのマイクロフォンのそれぞれの前記元のノイズのある信号に対してウィンドウ処理演算を実行して、ウィンドウ処理された、ノイズのある信号を取得することと、
前記ウィンドウ処理された、ノイズのある信号に対して時間周波数変換を実行して、前記少なくとも2つの音源のそれぞれの周波数領域のノイズのある信号を取得することと
前記周波数領域のノイズのある信号に従って、前記少なくとも2つの音源の周波数領域の推定信号を取得することと、
前記周波数領域の推定信号に従って、少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得することと、を含む。
いくつかの実施例において、前記第1非対称ウィンドウ
Figure 0007062727000001
の定義領域は、0より大きいか等しく且つNより小さいか等しく、ピーク値は
Figure 0007062727000002
であり、前記
Figure 0007062727000003
は、Nより小さく且つ0.5Nより大きく、前記Nは、前記オーディオ信号のフレーム長である。
いくつかの実施例において、前記第1非対称ウィンドウ
Figure 0007062727000004
は、
Figure 0007062727000005
を含み、
ここで、
Figure 0007062727000006
は、ウィンドウ長がKのハニングウィンドウであり、前記Mは、フレームシフトである。
いくつかの実施例において、前記周波数領域の推定信号に従って、少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得することは、
前記周波数領域の推定信号に対して時間周波数変換を実行して、少なくとも2つの音源のそれぞれの時間領域分離信号を取得することと、
第2非対称ウィンドウを使用して、前記少なくとも2つの音源のそれぞれの時間領域分離信号に対してウィンドウ処理演算を実行して、ウィンドウ処理された分離信号を取得することと、
前記ウィンドウ処理された分離信号に従って、前記少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得することと、を含む。
いくつかの実施例において、前記第2非対称ウィンドウを使用して、前記少なくとも2つの音源のそれぞれの時間領域分離信号に対してウィンドウ処理演算を実行して、ウィンドウ処理された分離信号を取得することは、
第2非対称ウィンドウ
Figure 0007062727000007
を使用して、第nフレームの前記時間領域分離信号に対してウィンドウ処理演算を実行して、第nフレームのウィンドウ処理された分離信号を取得することを含み、
前記ウィンドウ処理された分離信号に従って、前記少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得することは、
前記第nフレームのウィンドウ処理された分離信号に従って、第n-1フレームのオーディオ信号を重ね合わせて、第nフレームのオーディオ信号を取得することを含み、ここで、nは1より大きい整数である。
いくつかの実施例において、前記第2非対称ウィンドウ
Figure 0007062727000008
の定義領域は0より大きいか等しく且つNより小さいか等しく、ピーク値は
Figure 0007062727000009
であり、前記
Figure 0007062727000010
はN-Mに等しく、前記Nは前記オーディオ信号のフレーム長であり、前記Mはフレームシフトである。
いくつかの実施例において、前記第2非対称ウィンドウ
Figure 0007062727000011
は、
Figure 0007062727000012
を含み、
ここで、
Figure 0007062727000013
は、ウィンドウ長がKのハニングウィンドウである。
いくつかの実施例において、前記周波数領域のノイズのある信号に従って、前記少なくとも2つの音源の周波数領域の推定信号を取得することは、
前記周波数領域のノイズのある信号に従って、周波数領域の事前推定信号を取得することと、
前記周波数領域の事前推定信号に従って、各周波数点の分離行列を決定することと、
前記分離行列および前記周波数領域のノイズのある信号に従って、前記少なくとも2つの音源の前記周波数領域の推定信号を取得することと、を含む。
本開示の実施例の第2態様において、オーディオ信号処理装置を提供し、前記装置は、
少なくとも2つのマイクロフォンによって、少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得して、時間領域での前記少なくとも2つのマイクロフォンのそれぞれの元のノイズのある信号を取得するように構成される第1取得モジュールと、
時間領域の各フレームについて、第1非対称ウィンドウを使用して、前記少なくとも2つのマイクロフォンのそれぞれの前記元のノイズのある信号に対してウィンドウ処理演算を実行して、ウィンドウ処理された、ノイズのある信号を取得するように構成される第1ウィンドウ処理モジュールと、
前記ウィンドウ処理された、ノイズのある信号に対して時間周波数変換を実行して、前記少なくとも2つの音源のそれぞれの周波数領域のノイズのある信号を取得するように構成される第1変換モジュールと、
前記周波数領域のノイズのある信号に従って、前記少なくとも2つの音源の周波数領域の推定信号を取得するように構成される第2取得モジュールと、
前記周波数領域の推定信号に従って、少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得するように構成される第3取得モジュールと、を備える。
いくつかの実施例において、前記第1非対称ウィンドウ
Figure 0007062727000014
の定義領域は、0より大きいか等しく且つNより小さいか等しく、ピーク値は
Figure 0007062727000015
であり、前記
Figure 0007062727000016
は、Nより小さい且つ0.5Nより大きく、前記Nは、前記オーディオ信号のフレーム長である。
いくつかの実施例において、前記第1非対称ウィンドウ
Figure 0007062727000017
は、
Figure 0007062727000018
を含み、
ここで、
Figure 0007062727000019
は、ウィンドウ長がKのハニングウィンドウであり、前記Mはフレームシフトである。
いくつかの実施例において、前記第3取得モジュールは、
前記周波数領域の推定信号に対して時間周波数変換を実行して、少なくとも2つの音源のそれぞれの時間領域分離信号を取得するように構成される第2変換モジュールと、
第2非対称ウィンドウを使用して、前記少なくとも2つの音源のそれぞれの時間領域分離信号に対してウィンドウ処理演算を実行して、ウィンドウ処理された分離信号を取得するように構成される第2ウィンドウ処理モジュールと、
前記ウィンドウ処理された分離信号に従って、前記少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得するように構成される第1取得サブモジュールと、を備える。
いくつかの実施例において、前記第2ウィンドウ処理モジュールは、具体的に、
第2非対称ウィンドウ
Figure 0007062727000020
を使用して、第nフレームの前記時間領域分離信号に対してウィンドウ処理演算を実行して、第nフレームのウィンドウ処理された分離信号を取得するように構成され、
前記第1取得サブモジュールは、具体的に、
前記第nフレームのウィンドウ処理された分離信号に従って、第n-1フレームのオーディオ信号を重ね合わせて、第nフレームのオーディオ信号を取得するように構成され、nは1より大きい整数である。
いくつかの実施例において、前記第2非対称ウィンドウ
Figure 0007062727000021
の定義領域は、0より大きいか等しく且つNより小さいか等しく、ピーク値は
Figure 0007062727000022
であり、前記
Figure 0007062727000023
はN-Mに等しく、前記Nは前記オーディオ信号のフレーム長であり、前記Mはフレームシフトである。
いくつかの実施例において、前記第2非対称ウィンドウ
Figure 0007062727000024
は、
Figure 0007062727000025
を含み、
ここで、
Figure 0007062727000026
は、ウィンドウ長がKのハニングウィンドウである。
いくつかの実施例において、前記第2取得モジュールは、
前記周波数領域のノイズのある信号に従って、周波数領域の事前推定信号を取得するように構成される第2取得サブモジュールと、
前記周波数領域の事前推定信号に従って、各周波数点の分離行列を決定するように構成される決定サブモジュールと、
前記分離行列および前記周波数領域のノイズのある信号に従って、前記少なくとも2つの音源の前記周波数領域の推定信号を取得するように構成される第3取得サブモジュールと、を備える。
本開示の実施例の第3態様によれば、オーディオ信号処理装置を提供し、前記装置は少なくとも、プロセッサと、プロセッサで実行できる実行可能命令を記憶するように構成されるメモリと、を備え、
プロセッサが前記実行可能命令を実行する時に、前記実行可能命令に応じて、上述のいずれか一項のオーディオ信号処理方法におけるステップを実行する。
本開示の実施例の第4態様によれば、非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ読み取り可能な記憶媒体に、コンピュータ実行可能命令が記憶され、前記コンピュータ実行可能命令が、プロセッサによって実行されるときに、上述のいずれか一項のオーディオ信号処理方法におけるステップを実現する。
例えば、本願は以下の項目を提供する。
(項目1)
オーディオ信号処理方法であって、
少なくとも2つのマイクロフォンによって、少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得して、時間領域での上記少なくとも2つのマイクロフォンのそれぞれの元のノイズのある信号を取得することと、
時間領域の各フレームについて、第1非対称ウィンドウを使用して、上記少なくとも2つのマイクロフォンのそれぞれの上記元のノイズのある信号に対してウィンドウ処理演算を実行して、ウィンドウ処理された、ノイズのある信号を取得することと、
上記ウィンドウ処理された、ノイズのある信号に対して時間周波数変換を実行して、上記少なくとも2つの音源のそれぞれの周波数領域のノイズのある信号を取得することと、
上記周波数領域のノイズのある信号に従って、上記少なくとも2つの音源の周波数領域の推定信号を取得することと、
上記周波数領域の推定信号に従って、少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得することと、を含むことを特徴とする、上記オーディオ信号処理方法。
(項目2)
上記第1非対称ウィンドウ
Figure 0007062727000027
の定義領域は、0より大きいか等しく且つNより小さいか等しく、ピーク値は
Figure 0007062727000028
であり、上記
Figure 0007062727000029
は、Nより小さく且つ0.5Nより大きく、上記Nは、上記オーディオ信号のフレーム長であることを特徴とする、
上記項目に記載のオーディオ信号処理方法。
(項目3)
上記第1非対称ウィンドウ
Figure 0007062727000030
は、
Figure 0007062727000031
を含み、
Figure 0007062727000032
は、ウィンドウ長がKのハニングウィンドウであり、上記Mは、フレームシフトであることを特徴とする、
上記項目のいずれか一項に記載のオーディオ信号処理方法。
(項目4)
上記周波数領域の推定信号に従って、少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得することは、
上記周波数領域の推定信号に対して時間周波数変換を実行して、少なくとも2つの音源のそれぞれの時間領域分離信号を取得することと、
第2非対称ウィンドウを使用して、上記少なくとも2つの音源のそれぞれの時間領域分離信号に対してウィンドウ処理演算を実行して、ウィンドウ処理された分離信号を取得することと、
上記ウィンドウ処理された分離信号に従って、上記少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得することと、を含むことを特徴とする、
上記項目のいずれか一項に記載のオーディオ信号処理方法。
(項目5)
上記第2非対称ウィンドウを使用して、上記少なくとも2つの音源のそれぞれの時間領域分離信号に対してウィンドウ処理演算を実行して、ウィンドウ処理された分離信号を取得することは、
第2非対称ウィンドウ
Figure 0007062727000033
を使用して、第nフレームの上記時間領域分離信号に対してウィンドウ処理演算を実行して、第nフレームのウィンドウ処理された分離信号を取得することを含み、
上記ウィンドウ処理された分離信号に従って、上記少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得することは、
上記第nフレームのウィンドウ処理された分離信号に従って、第n-1フレームのオーディオ信号を重ね合わせて、第nフレームのオーディオ信号を取得することであって、nは1より大きい整数であることを含むことを特徴とする、
上記項目のいずれか一項に記載のオーディオ信号処理方法。
(項目6)
上記第2非対称ウィンドウ
Figure 0007062727000034
の定義領域は、0より大きいか等しく且つNより小さいか等しく、ピーク値は
Figure 0007062727000035
であり、上記
Figure 0007062727000036
は、N-Mに等しく、上記Nは、上記オーディオ信号のフレーム長であり、上記Mはフレームシフトであることを特徴とする、
上記項目のいずれか一項に記載のオーディオ信号処理方法。
(項目7)
上記第2非対称ウィンドウ
Figure 0007062727000037
は、
Figure 0007062727000038
Figure 0007062727000039
は、ウィンドウ長がKのハニングウィンドウであることを特徴とする、
上記項目のいずれか一項に記載のオーディオ信号処理方法。
(項目8)
上記周波数領域のノイズのある信号に従って、上記少なくとも2つの音源の周波数領域の推定信号を取得することは、
上記周波数領域のノイズのある信号に従って、周波数領域の事前推定信号を取得することと、
上記周波数領域の事前推定信号に従って、各周波数点の分離行列を決定することと、
上記分離行列および上記周波数領域のノイズのある信号に従って、上記少なくとも2つの音源の上記周波数領域の推定信号を取得することと、を含むことを特徴とする、
上記項目のいずれか一項に記載のオーディオ信号処理方法。
(項目9)
オーディオ信号処理装置であって、
少なくとも2つのマイクロフォンによって、少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得して、時間領域での上記少なくとも2つのマイクロフォンのそれぞれの元のノイズのある信号を取得するように構成される第1取得モジュールと、
時間領域の各フレームについて、第1非対称ウィンドウを使用して、上記少なくとも2つのマイクロフォンのそれぞれの上記元のノイズのある信号に対してウィンドウ処理演算を実行して、ウィンドウ処理された、ノイズのある信号を取得するように構成される第1ウィンドウ処理モジュールと、
上記ウィンドウ処理された、ノイズのある信号に対して時間周波数変換を実行して、上記少なくとも2つの音源のそれぞれの周波数領域のノイズのある信号を取得するように構成される第1変換モジュールと、
上記周波数領域のノイズのある信号に従って、上記少なくとも2つの音源の周波数領域の推定信号を取得するように構成される第2取得モジュールと、
上記周波数領域の推定信号に従って、少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得するように構成される第3取得モジュールと、を備えることを特徴とする、上記オーディオ信号処理装置。
(項目10)
上記第1非対称ウィンドウ
Figure 0007062727000040
の定義領域は、0より大きいか等しく且つNより小さいか等しく、ピーク値は
Figure 0007062727000041
であり、上記
Figure 0007062727000042
は、Nより小さく且つ0.5Nより大きく.上記Nは、上記オーディオ信号のフレーム長であることを特徴とする、
上記項目に記載のオーディオ信号処理装置。
(項目11)
上記第1非対称ウィンドウ
Figure 0007062727000043
は、
Figure 0007062727000044
を含み、
Figure 0007062727000045
は、ウィンドウ長がKのハニングウィンドウであり、上記Mは、フレームシフトであることを特徴とする、
上記項目のいずれか一項に記載のオーディオ信号処理装置。
(項目12)
上記第3取得モジュールは、
上記周波数領域の推定信号に対して時間周波数変換を実行して、少なくとも2つの音源のそれぞれの時間領域分離信号を取得するように構成される第2変換モジュールと、
第2非対称ウィンドウを使用して、上記少なくとも2つの音源のそれぞれの時間領域分離信号に対してウィンドウ処理演算を実行して、ウィンドウ処理された分離信号を取得するように構成される第2ウィンドウ処理モジュールと、
上記ウィンドウ処理された分離信号に従って、上記少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得するように構成される第1取得サブモジュールと、を備えることを特徴とする、
上記項目のいずれか一項に記載のオーディオ信号処理装置。
(項目13)
上記第2ウィンドウ処理モジュールは、具体的に、
第2非対称ウィンドウ
Figure 0007062727000046
を使用して、第nフレームの上記時間領域分離信号に対してウィンドウ処理演算を実行して、第nフレームのウィンドウ処理された分離信号を取得するように構成され、
上記第1取得サブモジュールは、具体的に、
上記第nフレームのウィンドウ処理された分離信号に従って、第n-1フレームのオーディオ信号を重ね合わせて、第nフレームのオーディオ信号を取得するように構成され、nは1より大きい整数であることを特徴とする、
上記項目のいずれか一項に記載のオーディオ信号処理装置。
(項目14)
上記第2非対称ウィンドウ
Figure 0007062727000047
の定義領域は、0より大きいか等しく且つNより小さいか等しく、ピーク値は
Figure 0007062727000048
であり、上記
Figure 0007062727000049
は、N-Mに等しく、上記Nは、上記オーディオ信号のフレーム長であり、上記Mはフレームシフトであることを特徴とする、
上記項目のいずれか一項に記載のオーディオ信号処理装置。
(項目15)
上記第2非対称ウィンドウ
Figure 0007062727000050
は、
Figure 0007062727000051
を含み、
Figure 0007062727000052
は、ウィンドウ長がKのハニングウィンドウであることを特徴とする、
上記項目のいずれか一項に記載のオーディオ信号処理装置。
(項目16)
上記第2取得モジュールは、
上記周波数領域のノイズのある信号に従って、周波数領域の事前推定信号を取得するように構成される第2取得サブモジュールと、
上記周波数領域の事前推定信号に従って、各周波数点の分離行列を決定するように構成される決定サブモジュールと、
上記分離行列および上記周波数領域のノイズのある信号に従って、上記少なくとも2つの音源の上記周波数領域の推定信号を取得するように構成される第3取得サブモジュールと、を備えることを特徴とする、
上記項目のいずれか一項に記載のオーディオ信号処理装置。
(項目17)
オーディオ信号処理装置であって、
上記装置は少なくとも、プロセッサと、プロセッサで実行できる実行可能命令を記憶するように構成されるメモリと、を備え、
プロセッサが上記実行可能命令を実行する時に、上記実行可能命令に応じて、上記項目のいずれか一項により提供されるオーディオ信号処理方法におけるステップを実現することを特徴とする、上記オーディオ信号処理装置。
(項目18)
非一時的なコンピュータ読み取り可能な記憶媒体であって、
上記コンピュータ読み取り可能な記憶媒体に、コンピュータ実行可能命令が記憶され、上記コンピュータ実行可能命令が、プロセッサによって実行されるときに、上記項目のいずれか一項に記載のオーディオ信号処理方法におけるステップを実現することを特徴とする、上記非一時的なコンピュータ読み取り可能な記憶媒体。
(摘要)
本開示は、オーディオ信号の処理方法および装置、記憶媒体に関する。当該オーディオ信号の処理方法は、少なくとも2つのマイクロフォンによって、少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得して、時間領域での前記少なくとも2つのマイクロフォンのそれぞれの元のノイズのある信号を取得することと、時間領域の各フレームについて、第1非対称ウィンドウを使用して、前記少なくとも2つのマイクロフォンのそれぞれの前記元のノイズのある信号に対してウィンドウ処理演算を実行して、ウィンドウ処理された、ノイズのある信号を取得することと、前記ウィンドウ処理された、ノイズのある信号に対して時間周波数変換を実行して、前記少なくとも2つの音源のそれぞれの周波数領域のノイズのある信号を取得することと、前記周波数領域のノイズのある信号に従って、前記少なくとも2つの音源の周波数領域の推定信号を取得することと、前記周波数領域の推定信号に従って、少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得することと、を含む。本開示の実施例によって提供される技術的解決策により、システム遅延を低減させ、分離効率を向上させることができる。
本開示の実施例によって提供される技術的解決策は、以下の有益な効果を含み得る。本開示の実施例において、オーディオ信号に対してウィンドウ処理することにより、各フレームのオーディオ信号が、小さいものから大きいものへ、次に大きいものから小さいものへと変化する。隣接する2つのフレーム間に重なるエリア、つまりフレームシフトがあるため、分離された信号の連続性を維持することができる。同時に、本開示の実施例では、非対称ウィンドウを使用して、オーディオ信号に対してウィンドウ処理を実行することにより、フレームシフトの長さを実際のニーズに応じて設定でき、フレームシフトを小さく設定すると、システム遅延を低減でき、これにより、処理効率を向上させ、分離されたオーディオ信号の適時性を向上させる。
上記の一般的な説明および後述する詳細な説明は、単なる例示および説明に過ぎず、本開示を限定するものではないことを理解されたい。
ここでの図面は、本明細書に組み込まれてその一部を構成し、本発明と一致する実施例を示し、明細書とともに本発明の原理を説明するために使用される。
一例示的な実施例によるオーディオ信号処理方法のフローチャートである。 一例示的な実施例によるオーディオ信号処理方法の適用シナリオのブロック図である。 一例示的な実施例によるオーディオ信号処理方法のフローチャートである。 一例示的な実施例による非対称分析ウィンドウの関数グラフである。 一例示的な実施例による非対称合成ウィンドウ的関数グラフである。 一例示的な実施例によるオーディオ信号処理装置の構造ブロック図である。 一例示的な実施例によるオーディオ信号処理装置のエンティティ構造ブロック図である。
ここで、例示的な実施例について詳細に説明し、その例は図面に示す。特に明記しない限り、以下の説明が図面に関する場合、異なる図面の同じ数字は同じまたは類似の要素を表す。以下の例示的な実施例で説明された実施形態は、本発明と一致するすべての実施形態を表すものではない。むしろ、それらは、添付された特許請求の範囲に詳述されるように、本発明の特定の態様と一致する装置および方法の例である。
図1は、一例示的な実施例によるオーディオ信号処理方法のフローチャートであり、図1に示されるように、前記オーディオ信号処理方法は、以下のステップを含む。
ステップS101において、少なくとも2つのマイクロフォンによって、少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得して、時間領域での前記少なくとも2つのマイクロフォンのそれぞれの元のノイズのある信号を取得する。
ステップS102において、時間領域の各フレームについて、第1非対称ウィンドウを使用して、前記少なくとも2つのマイクロフォンのそれぞれの前記元のノイズのある信号に対してウィンドウ処理演算を実行して、ウィンドウ処理された、ノイズのある信号を取得する。
ステップS103において、前記ウィンドウ処理された、ノイズのある信号に対して時間周波数変換を実行して、前記少なくとも2つの音源のそれぞれの周波数領域のノイズのある信号を取得する。
ステップS104において、前記周波数領域のノイズのある信号に従って、前記少なくとも2つの音源の周波数領域の推定信号を取得する。
ステップS105において、前記周波数領域の推定信号に従って、少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得する。
本開示の実施例で説明されるオーディオ信号処理方法は、端末に適用される。ここで、前記端末は、2つまたは2つ以上のマイクロフォンを統合した電子機器である。例えば、前記端末は、車載端末、コンピュータ、またはサーバであってもよい。
一実施例において、前記端末は、2つまたは2つ以上のマイクロフォンを統合したプリセットの機器に接続された電子機器であってもよく、前記電子機器は、前記接続に基づいて、前記プリセットの機器によって収集されたオーディオ信号を受信し、且つ前記接続に基づいて、処理されたオーディオ信号を前記プリセットの機器に送信する。例えば、前記プリセットの機器が、スピーカーなどであってもよい。
実際の応用では、前記端末に少なくとも2つのマイクロフォンが備えられ、前記少なくとも2つのマイクロフォンは同時に、少なくとも2つの音源からそれぞれ発せられたオーディオ信号を検出して、前記少なくとも2つのマイクロフォンそれぞれの元のノイズのある信号を取得する。本実施例において、前記少なくとも2つのマイクロフォンによって、前記2つの音源から発せられたオーディオ信号を検出するのは、同期的であることを理解することができる。
本開示の実施例における前記オーディオ信号処理方法では、プリセットの時間内のオーディオフレームのオーディオ信号の分離を始める前に、当該プリセットの時間内のオーディオフレームの元のノイズのある信号の取得を完了する必要がある。
本開示の実施例において、2つまたは2つ以上の前記マイクロフォンがあり、2つまたは2つ以上の前記音源がある。
本開示の実施例において、前記元のノイズのある信号は、少なくとも2つの音源から発せられた音を含む混合信号である。例えば、マイクロフォン1とマイクロフォン2の2つの前記マイクロフォンがあり、音源1と音源2の2つの前記音源がある場合、前記マイクロフォン1の元のノイズのある信号は、音源1および音源2を含むオーディオ信号であり、前記マイクロフォン2のの元のノイズのある信号も同様に音源1および音源2を含むオーディオ信号である。
例えば、マイクロフォン1、マイクロフォン2、マイクロフォン3の3つの前記マイクロフォンがあり、音源1、音源2、音源3の3つの前記音源がある場合、前記マイクロフォン1の元のノイズのある信号は、音源1、音源2、音源3を含むオーディオ信号であり、前記マイクロフォン2の元のノイズのある信号も同様に、音源1、音源2、音源3を含むオーディオ信号である。
1つの音源から発せられた音によって、対応する1つのマイクロフォンで生成された信号がオーディオ信号である場合、他の音源によって前記マイクロフォンで生成された信号はノイズ信号であることを理解することができる。本開示の実施例では、少なくとも2つのマイクロフォンによって、少なくとも2つの音源からの音源を復元することが必要である。一般に、音源の数はマイクロフォンの数と同じであるが、いくつかの実施例では、音源の数はマイクロフォンの数と異なってもよい。
マイクロフォンが音源から発せられる音のオーディオ信号を収集する場合、少なくとも1つのオーディオフレームのオーディオ信号を収集することができ、このときに収集されるオーディオ信号は、各マイクロフォンの元のノイズのある信号であることが理解できる。元のノイズのある信号は、時間領域信号であってもよく、周波数領域信号であってもよい。元のノイズのある信号が時間領域信号である場合、時間周波数変換の演算に従って、時間領域信号を周波数領域信号に変換することができる。
ここで、時間周波数変換とは、時間領域信号と周波数領域信号との間の相互変換を指し、高速フーリエ変換(FFT:Fast Fourier Transform)に基づいて、時間領域信号に対して周波数領域変換を実行することができる。あるいは、短時間フーリエ変換(STFT:short-time Fourier transform)に基づいて、時間領域信号に対して周波数領域変換を実行することができる。あるいは、他のフーリエ変換に基づいて、時間領域信号に対して周波数領域変換を実行することもできる。
例示的に、第Pのマイクロフォンの第nフレームの時間領域信号が
Figure 0007062727000053
である場合、第nフレームの時間領域信号を周波数領域信号に変換して、第nフレームの元のノイズのある信号を
Figure 0007062727000054
と決定し、前記mは、第nフレームの時間領域信号の離散時点の数であり、kは、周波数点である。このように、本実施例では、前記時間領域から周波数領域への変換によって、各フレームの元のノイズのある信号を取得することができる。もちろん、各フレームの元のノイズのある信号を取得することは、他の的高速フーリエ変換式に基づくこともでき、本開示はこれらに限定されない。
本開示の実施例において、非対称の分析ウィンドウを使用して、時間領域の元のノイズのある信号に対してウィンドウ処理演算を実行し、第1非対称ウィンドウで各フレームの信号セグメントをインターセプトして、各フレームのウィンドウ処理された、ノイズのある信号を取得する。音声データとビデオデータは異なり、フレームという概念はないが、伝送、格納、およびプログラムに対してバッチ処理を実行できるようにするため、指定された期間または離散時点の数に従ってセグメント化して、時間領域でのオーディオフレームを形成する。ただし、直接セグメント化してオーディオフレームを形成すると、オーディオ信号の連続性を損なう可能性がある。オーディオ信号の連続性を確保するためには、フレームとフレームの間で、重なった部分的なデータを保つ必要があり、つまり、フレームシフトが存在し、隣接する2つのフレームが重なる部分がフレームシフトである。
ここで、非対称ウィンドウとは、ウィンドウ関数の関数波形によって形成されたグラフが非対称グラフであることを意味し、例えば、ピーク値を軸とする両側の関数波形が非対称である。
本開示の実施例において、ウィンドウ関数を使用して、オーディオ信号の各フレーム信号を処理することにより、信号が最小から最大に変化され、次に最小に変化される。このように、2つの隣接するフレームの重なる部分は、重ね合わせた後にも、歪みを引き起こしない。
対称のウィンドウ関数を使用してオーディオ信号を処理する場合、フレームシフトがフレーム長の半分であるため、システム遅延が大きくなり、これにより、分離効率が低下し、リアルタイムのインタラクティブな体験に影響を与える。したがって、本開示の実施例では、非対称ウィンドウを使用してオーディオ信号に対してウィンドウ処理し、これにより、ウィンドウ処理後の各フレームのオーディオ信号のより強い信号が、前半または後半に位置するため、隣接する2つのフレームの信号の間の重なる部分をより短い間隔に集中させることができ、これにより、遅延を減少させ、分離効率を向上させる。
いくつかの実施例において、前記第1非対称ウィンドウ
Figure 0007062727000055
の定義領域は、0より大きいか等しく且つNより小さいか等しく、ピーク値は、
Figure 0007062727000056
であり、前記
Figure 0007062727000057
は、Nより小さく且つ0.5Nより大きく、前記Nは、前記オーディオ信号のフレーム長である。
本開示の実施例において、第1非対称ウィンドウ
Figure 0007062727000058
を分析ウィンドウとして使用して、各フレームの元のノイズのある信号に対してウィンドウ処理を実行する。システムのフレーム長はNであり、ウィンドウ長もNであり、即ち、各フレーム信号は、N個の離散時点のオーディオ信号サンプルを有する。
ここで、第1非対称ウィンドウ
Figure 0007062727000059
に従ってウィンドウ処理を実行することは、実際には、1つのフレームのオーディオ信号の各時点でのサンプリング値に、関数
Figure 0007062727000060
に対応する時点での関数値を掛けることであるため、ウィンドウ処理後の各フレームのオーディオ信号は、0から徐々に増加し、その後徐々に減少する。第1非対称ウィンドウのピーク値の時点
Figure 0007062727000061
において、ウィンドウ処理後のオーディオ信号は、元のオーディオ信号と同じである。
本開示の実施例において、第1非対称ウィンドウのピーク値が位置する時点
Figure 0007062727000062
は、Nより小さく且つ0.5Nより大きく、即ち、中心点の後に位置するため、隣接する2つのフレーム間の重なる部分を減少すことができ、即ち、フレームシフトを減少することができ、これにより、システム遅延を減少させ、信号処理の効率を向上させる。
いくつかの実施例において、前記第1非対称ウィンドウ
Figure 0007062727000063
は、以下の下式(1)を含む。
Figure 0007062727000064
ここで、
Figure 0007062727000065
は、ウィンドウ長がKのハニングウィンドウであり、前記Mはフレームシフトである。
本開示の実施例では、式(1)に示される第1非対称ウィンドウを提供し、時点mでの値がN-Mより小さい場合、第1非対称ウィンドウの関数は
Figure 0007062727000066
で表される。ここで、
Figure 0007062727000067
は、ウィンドウ長が2(N-M)のハニングウィンドウである。ハニングウィンドウは、コサインウィンドウの一種で、以下の下式(2)で表されることができる。
Figure 0007062727000068

時点mの値がN-Mより大きい場合、第1非対称ウィンドウの関数は、
Figure 0007062727000069
で表される。ここで、
Figure 0007062727000070
は、ウィンドウ長が2Mのハニングウィンドウである。
これにより、第1非対称ウィンドウのピーク値はm=N-Mに位置する。遅延を低減するために、フレームシフトMを小さく設定でき、例えば、M=N/4またはM=N/8などのように設定できる。このようにして、システムの遅延の合計は2Mだけであり、N未満であるため、遅延を低減する効果を達成できる。
いくつかの実施例において、前記周波数領域の推定信号に従って、少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得することは、
前記周波数領域の推定信号に対して時間周波数変換を実行して、少なくとも2つの音源のそれぞれの時間領域分離信号を取得することと、
第2非対称ウィンドウを使用して、前記少なくとも2つの音源のそれぞれの時間領域分離信号に対してウィンドウ処理演算を実行して、ウィンドウ処理された分離信号を取得することと、
前記ウィンドウ処理された分離信号に従って、前記少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得することと、を含む。
本開示の実施例において、元のノイズのある信号は、ウィンドウ処理およびビデオ変換の後に、周波数領域のノイズのある信号に変換される。周波数領域のノイズのある信号に従って、分離処理を実行して、分離後の少なくとも2つの音源の周波数領域信号を取得することができる。少なくとも2つの音源のオーディオ信号を復元するために、先ず時間周波数変換によって、取得した周波数領域信号を時間領域信号に変換する必要がある。
時間周波数変換は、逆高速フーリエ変換(IFFT:Inverse Fast Fourier Transform)に基づいて、周波数領域信号を時間領域信号に変換することができる。あるいは、逆短時間フーリエ変換(ISTFT:Inverse short-time Fourier transform)に基づいて、周波数領域信号を時間領域信号に変換することができる。あるいは、他の逆フーリエ変換に基づいて、周波数領域信号を時間領域信号に変換することもできる。
時間領域に戻る分離信号は、異なるフレームに分割された各音源の時間領域分離信号であり、音源から発せられた連続的なオーディオ信号を取得するために、再度ウィンドウ処理して不要な重複部分を取り除くことができる。次に、前記再度ウィンドウ処理した分離信号を合成して連続的なオーディオ信号を取得することにより、音源からそれぞれ発せられたオーディオ信号を復元する。
このようにして、復元されたオーディオ信号のノイズを低減でき、信号品質を改善できる。
いくつかの実施例において、前記第2非対称ウィンドウを使用して、前記少なくとも2つの音源のそれぞれの時間領域分離信号に対してウィンドウ処理演算を実行して、ウィンドウ処理された分離信号を取得することは、
第2非対称ウィンドウ
Figure 0007062727000071
を使用して、第nフレームの前記時間領域分離信号に対してウィンドウ処理演算を実行し、第nフレームのウィンドウ処理された分離信号を取得することと、
前記ウィンドウ処理された分離信号に従って、前記少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得することは、
前記第nフレームのウィンドウ処理された分離信号に従って、第n-1フレームのオーディオ信号を重ね合わせて、第nフレームのオーディオ信号を取得することであって、nは1より大きい整数であることを含む。
本開示の実施例において、第2非対称ウィンドウを合成ウィンドウとして使用して上記の時間領域分離信号に対してウィンドウ処理を実行し、ウィンドウ処理された分離信号取得する。次に、ウィンドウ処理された各フレームの分離信号を前のフレームの時間領域の重なる部分に追加して、現在のフレームの時間領域分離信号を取得する。このようにして、復元されたオーディオ信号の連続性を維持でき、元の音源から発せされたオーディオ信号により近く、復元されたオーディオ信号の品質を向上させる。
いくつかの実施例において、前記第2非対称ウィンドウ
Figure 0007062727000072
の定義領域は、0より大きいか等しく且つNより小さいか等しく、ピーク値は
Figure 0007062727000073
であり、前記
Figure 0007062727000074
はN-Mに等しく、前記Nは、前記オーディオ信号のフレーム長であり、前記Mはフレームシフトである。
本開示の実施例において、第2非対称ウィンドウを合成ウィンドウとして使用して、分離後の各フレームオーディオ信号に対してウィンドウ処理を実行する。第2非対称ウィンドウは、フレームシフトの長さの2倍以内の値のみを取ることができ、各フレームの後半の2Mセグメントのオーディオをインターセプトしてから、前のフレームの重なる部分、即ち、フレームシフト部分に追加して、現在のフレームの時間領域分離信号を取得する。このようにして、処理後の各フレームを繋ぎ合わせて、元の音源から発せられたオーディオ信号を復元する。
いくつかの実施例において、前記第2非対称ウィンドウ
Figure 0007062727000075
は、以下の式(3)を含む。
Figure 0007062727000076
ここで、
Figure 0007062727000077
は、ウィンドウ長がKのハニングウィンドウである。
本開示の実施例では、式(3)に示される第2非対称ウィンドウを提供し、時点mでの値がN-Mより小さく且つN-2M+1より大きい場合、第1非対称ウィンドウの関数は、
Figure 0007062727000078
で表される。ここで、
Figure 0007062727000079
は、ウィンドウ長が2(N-M)のハニングウィンドウである。
Figure 0007062727000080
は、ウィンドウ長が2Mのハニングウィンドウである。
時点mの値がN-Mより大きい場合、第2非対称ウィンドウの関数は、
Figure 0007062727000081
で表される。ここで、
Figure 0007062727000082
は、ウィンドウ長が2Mのハニングウィンドウである。このようにして、第2非対称ウィンドウのピーク値も、m=N-Mに位置する。
いくつかの実施例において、前記周波数領域のノイズのある信号に従って、前記少なくとも2つの音源の周波数領域の推定信号を取得することは、
前記周波数領域のノイズのある信号に従って、周波数領域の事前推定信号を取得することと、
前記周波数領域の事前推定信号に従って、各周波数点の分離行列を決定することと、
前記分離行列および前記周波数領域のノイズのある信号に従って、前記少なくとも2つの音源の前記周波数領域の推定信号を取得することと、を含む。
初期化分離行列、または前のフレームの分離行列に従って、周波数領域のノイズのある信号に対して予備的な分離を実行して、事前推定信号を取得し、次に、事前推定信号に従って、分離行列を更新する。最後に、分離行列に従って、周波数領域のノイズのある信号を分離して、分離後の周波数領域の推定信号、即ち、周波数領域の事後推定信号を取得する。
例示的に、上記の分離行列は、共分散行列によって解かれた固有値に基づいて決定されることができる。共分散行列
Figure 0007062727000083
は、以下の関係
Figure 0007062727000084
を満たす。ここで、
Figure 0007062727000085
は、平滑化係数であり、
Figure 0007062727000086
は、前のフレームの共分散行列であり、
Figure 0007062727000087
は、現在のフレームの元のノイズのある信号、即ち周波数領域のノイズのある信号である。
Figure 0007062727000088
は、現在のフレームの元のノイズのある信号の共役転置行列である。
Figure 0007062727000089
は、重み係数である。ここで、
Figure 0007062727000090
は、補助変数である。
Figure 0007062727000091
は、コントラスト関数である。ここで、
Figure 0007062727000092
は、上記の分布関数である全周波数帯域に基づく第pの音源の多次元超ガウス事前確率密度分布モデルを表す。
Figure 0007062727000093
の共役行列であり、
Figure 0007062727000094
は、第pの音源の第nフレームでの周波数領域の推定信号であり、
Figure 0007062727000095
は、第pの音源の第nフレームの第k個の周波数点での周波数領域の推定信号、即ち周波数領域の事前推定信号である。
上記の方法で分離行列を更新することにより、より高い分離性能で、より正確な周波数領域推定信号を分離して取得することができ、時間周波数変換を実行した後、音源から発せられたオーディオ信号を復元することができる。
本開示の実施例は、以下の例も提供する。
図3は、一例示的な実施例によるオーディオ信号処理方法のフローチャートであり、前記オーディオ信号処理方法において、図2に示されるように、音源1と音源2の2つの音源があり、マイクロフォン1とマイクロフォン2の2つのマイクロフォンがある。前記オーディオ信号処理方法に基づいて、マイクロフォン1とマイクロフォン2の元のノイズのある信号から、音源1と音源2のオーディオ信号を復元する。図3に示されるように、前記方法は以下のステップを含む。
ステップS301において、
Figure 0007062727000096
を初期化する。
ここで、初期化することは以下のステップを含み、システムフレーム長が
Figure 0007062727000097
であると仮定すると、周波数点は、
Figure 0007062727000098
である。
1)各周波数点の分離行列を初期化し、
Figure 0007062727000099
であり、ここで、前記
Figure 0007062727000100
は、単位行列であり、前記kは、周波数点であり、前記
Figure 0007062727000101
である。
2)各音源の各周波数点での重み付き共分散行列
Figure 0007062727000102
を初期化する。
Figure 0007062727000103
であり、ここで、
Figure 0007062727000104
は、ゼロ行列であり、前記pは、マイクロフォンを表すために使用され、
Figure 0007062727000105
である。
ステップS302において、第pのマイクロフォンの第nフレームでの元のノイズのある信号を取得する。
Figure 0007062727000106

は、第pのマイクロフォンの一フレーム時間領域信号を表す。
Figure 0007062727000107
である。
Figure 0007062727000108
は、システムフレーム長を表し、これは、FFTの長さでもある。フレームシフトはMである。
Figure 0007062727000109
に非対称分析ウィンドウを追加して、FFTを実行して、以下の式を取得する。
Figure 0007062727000110
ここで、前記mは、フーリエ変換で選択された点の数であり、前記FFTは、高速フーリエ変換であり、前記
Figure 0007062727000111
は、第pのマイクロフォンの第nフレームの時間領域信号であり、前記時間領域信号は、元のノイズのある信号である。前記
Figure 0007062727000112
は、非対称分析ウィンドウである。
この時、
Figure 0007062727000113
の観測信号は
Figure 0007062727000114
であり、ここで、
Figure 0007062727000115
は、転置行列である。
STFTは、現在のフレーム時間領域信号に、分析ウィンドウを乗算し、FFTを実行して時間周波数データを取得することである。分離行列に対する推定によって、分離後の信号の時間周波数データ取得し後、IFFTを実行して時間領域に戻り、次に合成ウィンドウを掛けて、前のフレームによって出力された時間領域の重なる部分に追加して、再構成された分離後の時間領域信号を取得するというアルゴリズムは、重ね合わせ加算技術と呼ばれる。
既存のウィンドウ処理アルゴリズムは一般に、対称的なハニングウィンドウまたはハミングウィンドウなどに基づくウィンドウ関数を使用する。例示的に、根号周期のハニングウィンドウを使用できる。
Figure 0007062727000116
ここで、フレームシフトは
Figure 0007062727000117
であり、ウィンドウ長は
Figure 0007062727000118
である。システム遅延は、
Figure 0007062727000119
点である。
Figure 0007062727000120
が一般に4096以上であるため、
Figure 0007062727000121
のシステムサンプリングレートでは、この時の遅延は256ms以上である。
本開示の実施例において、非対称分析ウィンドウおよび合成ウィンドウを使用し、ウィンドウ長は
Figure 0007062727000122
であり、フレームシフトはMである。低遅延のために、この時のMは、一般に小さい。例示的に、
Figure 0007062727000123

または他の値に設定することができる。
例示的に、非対称分析ウィンドウは、以下の関数を使用できる。
Figure 0007062727000124
非対称合成ウィンドウは、以下の関数を使用できる。
Figure 0007062727000125
N=4096、M=512である場合、上記の非対称分析ウィンドウの関数曲線は、図4に示されるようであり、上記の非対称合成ウィンドウ的関数曲線は、図5に示されるようである。
ステップS303において、前のフレームの
Figure 0007062727000126
を使用して、2つの音源信号の事前周波数領域推定を取得する。
2つの音源信号によって、
Figure 0007062727000127
を事前周波数領域推定し、
Figure 0007062727000128
はそれぞれ、音源1と音源2の時間周波数点
Figure 0007062727000129
での推定値である。
分離行列
Figure 0007062727000130
によって、観測行列
Figure 0007062727000131
を分離して
Figure 0007062727000132
を取得する。ここで
Figure 0007062727000133
は、前のフレーム(即ち、現在のフレームの前のフレーム)の分離行列である。
それで、第pの音源が第nフレームでの事前周波数領域推定は
Figure 0007062727000134
である。
ステップS304において、重み付き共分散行列
Figure 0007062727000135
を更新する。
更新された重み付き共分散行列
Figure 0007062727000136
を計算し、前記
Figure 0007062727000137
は、平滑化係数である。一実施例において、前記
Figure 0007062727000138
は、0.98であり、前記
Figure 0007062727000139
は、前のフレームの重み付き共分散行列であり、前記
Figure 0007062727000140
の共役転置であり、前記
Figure 0007062727000141
は、重み係数であり、前記
Figure 0007062727000142
は、補助変数であり、前記
Figure 0007062727000143
は、コントラスト関数である。
ここで、前記
Figure 0007062727000144
は、全周波数帯域に基づく第pの音源の多次元超ガウス事前確率密度関数である。一実施例において、
Figure 0007062727000145
であり、この時、前記
Figure 0007062727000146
である場合、前記
Figure 0007062727000147
である。
ステップS305において、特性方程式を解いて、特性ベクトル
Figure 0007062727000148
を取得する。
ここで、前記
Figure 0007062727000149
は、第pのマイクロフォンに対応する特性ベクトルである。
ここで、求前記特征方程式
Figure 0007062727000150
を解いて、
Figure 0007062727000151
Figure 0007062727000152
Figure 0007062727000153
Figure 0007062727000154
を取得する
ここで、
Figure 0007062727000155
であり、tr(A)は、レース関数であり、tr(A)は、主対角線上の要素の合計を求める関数であり、det(A)は、行列Aの行列式を求める関数であり、
Figure 0007062727000156
は特性値である。
ステップS306において、各周波数点の更新後の分離行列
Figure 0007062727000157
を取得する。
上記の特性方程式の特性ベクトルに基づいて、更新後の現在のフレームの分離行列
Figure 0007062727000158
を取得する。
ステップS307において、現在のフレームの
Figure 0007062727000159
を使用して、2つの音源信号の事後周波数領域推定を取得する。
現在のフレームの
Figure 0007062727000160
を使用して、元のノイズのある信号を分離して2つの音源信号の事後周波数領域推定
Figure 0007062727000161
を取得する。
ステップS308において、事後周波数領域推定に従って、時間周波数変換を実行して分離後の時間領域信号を取得する。
IFFTを実行し、合成ウィンドウを追加して、前のフレームの時間領域の重なる部分に追加して、現在のフレームの時間領域分離信号
Figure 0007062727000162
を取得し、
Figure 0007062727000163
であり、
Figure 0007062727000164
である。
Figure 0007062727000165
ここで、
Figure 0007062727000166
は、現在のフレームの時間領域信号のウィンドウ処理後の信号であり、
Figure 0007062727000167
は、現在のフレームの前の各フレームの時間領域の重なる部分であり、
Figure 0007062727000168
は、現在のフレームの時間領域の重なる部分である。
Figure 0007062727000169
を更新して、次のフレームの重なる部分に追加し、
Figure 0007062727000170

である。
Figure 0007062727000171
に対して、それぞれISTFTおよび重ね合わせを実行して、分離後の時間領域音源信号
Figure 0007062727000172
を取得し、ここで、
Figure 0007062727000173
である。
上記の分析ウィンドウと合成ウィンドウ処理の後、最終的に、システム遅延は2M点であり、遅延は
Figure 0007062727000174
であり、単位はms(ミリ秒)である。FFT点の数を変更する場合、Mのサイズを制御することで、実際のニーズを満たすシステム遅延を得ることができ、システム遅延とアルゴリズムのパフォーマンスの矛盾を解決する。
図6は、一例示的な実施例によるオーディオ信号処理装置のブロック図である。図6を参照すると、当該装置600は、第1取得モジュール601と、第1ウィンドウ処理モジュール602と、第1変換モジュール603と、第2取得モジュール604と、第3取得モジュール605と、を備える。
第1取得モジュール601は、少なくとも2つのマイクロフォンによって、少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得して、時間領域での前記少なくとも2つのマイクロフォンのそれぞれの元のノイズのある信号を取得するように構成される。
第1ウィンドウ処理モジュール602は、時間領域の各フレームについて、第1非対称ウィンドウを使用して、前記少なくとも2つのマイクロフォンのそれぞれの前記元のノイズのある信号に対してウィンドウ処理演算を実行して、ウィンドウ処理された、ノイズのある信号を取得するように構成される。
第1変換モジュール603は、前記ウィンドウ処理された、ノイズのある信号に対して時間周波数変換を実行して、前記少なくとも2つの音源のそれぞれの周波数領域のノイズのある信号を取得するように構成される。
第2取得モジュール604は、前記周波数領域のノイズのある信号に従って、前記少なくとも2つの音源の周波数領域の推定信号を取得するように構成される。
第3取得モジュール605は、前記周波数領域の推定信号に従って、少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得するように構成される。
いくつかの実施例において、前記第1非対称ウィンドウ
Figure 0007062727000175
の定義領域は、0より大きいか等しく且つNより小さいか等しく、ピーク値は
Figure 0007062727000176
であり、前記
Figure 0007062727000177
は、Nより小さく且つ0.5Nより大きく、前記Nは、前記オーディオ信号のフレーム長である。
いくつかの実施例において、前記第1非対称ウィンドウ
Figure 0007062727000178
は、
Figure 0007062727000179
を含み、
ここで、
Figure 0007062727000180
は、ウィンドウ長がKのハニングウィンドウであり、前記Mは、フレームシフトである。
いくつかの実施例において、前記第3取得モジュールは、
前記周波数領域の推定信号に対して時間周波数変換を実行して,少なくとも2つの音源のそれぞれの時間領域分離信号を取得するように構成される第2変換モジュールと、
第2非対称ウィンドウを使用して、前記少なくとも2つの音源のそれぞれの時間領域分離信号に対してウィンドウ処理演算を実行して,ウィンドウ処理された分離信号を取得するように構成される第2ウィンドウ処理モジュールと、
前記ウィンドウ処理された分離信号に従って,前記少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得するように構成される第1取得サブモジュールと、を備える。
いくつかの実施例において、前記第2ウィンドウ処理モジュールは、具体的に、
第2非対称ウィンドウ
Figure 0007062727000181
を使用して、第nフレームの前記時間領域分離信号に対してウィンドウ処理演算を実行して,第nフレームのウィンドウ処理された分離信号を取得するように構成され、
前記第1取得サブモジュールは、具体的に、
前記第nフレームのウィンドウ処理された分離信号に従って、第n-1フレームのオーディオ信号を重ね合わせて,第nフレームのオーディオ信号を取得するように構成され,nは1より大きい整数である。
いくつかの実施例において、前記第2非対称ウィンドウ
Figure 0007062727000182
の定義領域は、0より大きいか等しく且つNより小さいか等しく、ピーク値は、
Figure 0007062727000183
であり、前記
Figure 0007062727000184
は、N-Mに等しく、前記Nは、前記オーディオ信号のフレーム長であり、前記Mは、フレームシフトである。
いくつかの実施例において、前記第2非対称ウィンドウ
Figure 0007062727000185
は、
Figure 0007062727000186
を含み、
ここで、
Figure 0007062727000187
は、ウィンドウ長がKのハニングウィンドウである。
いくつかの実施例において、第2取得モジュールは、
前記周波数領域のノイズのある信号に従って,周波数領域のアプリオリ推定信号を取得するように構成される第2取得サブモジュールと、
前記周波数領域のアプリオリ推定信号に従って,各周波数点の分離行列を決定するように構成される決定サブモジュールと、
前記分離行列および前記周波数領域のノイズのある信号に従って,前記少なくとも2つの音源の前記周波数領域の推定信号を取得するように構成される第3取得サブモジュールと、を備える。
上記の実施例における装置に関して、各モジュールが動作を実行する具体的な方法は、前記方法の実施例で詳細に説明されており、ここでは詳細に説明しない。
図7は、一例示的な実施例によるオーディオ信号処理装置700のブロック図である。例えば、装置700は携帯電話、コンピュータ、デジタル放送端末、メッセージングデバイス、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、携帯情報端末等であってもよい。
図7を参照すると、装置700は、処理コンポーネント701、メモリ702、電力コンポーネント703、マルチメディアコンポーネント704、オーディオコンポーネント705、入力/出力(I/O)インターフェース706、センサコンポーネント707、及び通信コンポーネント708のうちの1つまたは複数のコンポーネットを含むことができる。
処理コンポーネント701は、一般的に、ディスプレイ、電話、データ通信、カメラ操作及び記録操作に関する操作のような装置700の全般的な操作を制御する。処理コンポーネント701は、前記方法のステップの全てまたは一部を完了するために、1つまたは複数のプロセッサ710を含んで命令を実行することができる。加えて、処理コンポーネント701は、処理コンポーネント701と他のコンポーネントの間の相互作用を容易にするために、1つまたは複数のモジュールを含むことができる。例えば、処理コンポーネント701は、マルチメディアコンポーネント704と処理コンポーネント701の間の相互作用を容易にするために、マルチメディアモジュールを含むことができる。
メモリ710は、装置700での操作をサポートするために、様々なタイプのデータを格納するように構成される。これらのデータの例には、装置700で動作する任意のアプリケーションまたは方法の命令、連絡先データ、電話帳データ、メッセージ、写真、ビデオ等が含まれる。メモリ702は、スタティックランダムアクセスメモリ(SRAM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)、消去可能なプログラム可能な読み取り専用メモリ(EPROM)、プログラム可能な読み取り専用メモリ(PROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなど、あらゆるタイプの揮発性または不揮発性ストレージデバイスまたはそれらの組み合わせによって実現されることができる。
電力コンポーネント703は、装置700の様々なコンポーネントに電力を提供する。電力コンポーネント703は、電力管理システム、1つまたは複数の電源、及び装置700の電力の生成、管理および分配に関する他のコンポーネントを含むことができる。
マルチメディアコンポーネント704は、前記装置700とユーザとの間の、出力インターフェースを提供するスクリーンを含む。いくつかの実施例において、スクリーンは、液晶ディスプレイ(LCD)及びタッチパネル(TP)を含み得る。スクリーンがタッチパネルを含む場合、スクリーンは、ユーザからの入力信号を受信するためのタッチスクリーンとして具現されることができる。タッチパネルは、タッチ、スワイプ及びタッチパネルでのジェスチャーを検知するための1つまたは複数のタッチセンサを含む。前記タッチセンサは、タッチまたはスワイプ操作の境界を感知するだけでなく、前記タッチまたはスワイプ操作に関連する持続時間及び圧力も検出することができる。いくつかの実施例において、マルチメディアコンポーネント704は、一つのフロントカメラ及び/またはリアカメラを含む。装置700が、撮影モードまたはビデオモードなどの動作モードにあるとき、フロントカメラおよび/またはリアカメラは、外部マルチメディアデータを受信することができる。各フロントカメラおよび/またはリアカメラは、固定光学レンズシステムであり、または焦点距離と光学ズーム機能を持つことができる。
オーディオコンポーネント705は、オーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント705は、1つのマイクロフォン(MIC)を含み、装置700が通話モード、録音モード及び音声認識モードなどの動作モードにあるとき、マイクロフォンは、外部オーディオ信号を受信するように構成される。受信されたオーディオ信号は、メモリ710にさらに格納されてもよく、または通信コンポーネント708を介して送信されてもよい。いくつかの実施例において、オーディオコンポーネント705は、オーディオ信号を出力するためのスピーカをさらに含む。
I/Oインターフェース706は、処理コンポーネント701と周辺インターフェースモジュールとの間にインターフェースを提供し、前記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームボタン、ボリュームボタン、スタートボタン、ロックボタンを含み得るが、これらに限定されない。
センサコンポーネント707は、装置700に各態様の状態の評価を提供するための1つまたは複数のセンサを含む。例えば、センサコンポーネント707は、装置700のオン/オフ状態と、装置700のディスプレイやキーパッドなどのコンポーネントの相対的な位置づけを検出することができ、センサコンポーネント707は、装置700または装置700のコンポーネントの位置の変化、ユーザとの装置700の接触の有無、装置700の向きまたは加速/減速、及び装置700の温度の変化も検出することができる。センサコンポ―ネット707は、物理的接触なしに近くの物体の存在を検出するように構成された近接センサを含むことができる。センサコンポーネント707は、撮像用途で使用するためのCMOSまたはCCD画像センサなどの光センサも含むことができる。いくつかの実施例において、前記センサコンポーネント707は、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサをさらに含むことができる。
通信コンポーネント708は、装置700と他の装置の間の有線または無線通信を容易にするように構成される。装置700は、WiFi、2Gまたは3G、またはそれらの組み合わせなどの通信規格に基づく無線ネットワークにアクセスすることができる。一例示的な実施例において、通信コンポーネント708は、放送チャンネルを介して外部放送管理システムからの放送信号または放送関連情報を受信する。一例示的な実施例において、前記通信コンポーネント708は、短距離通信を促進するための近距離通信(NFC)モジュールをさらに含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標)(BT)技術または他の技術に基づいて具現することができる。
例示的な実施例において、装置700は、1つまたは複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子素子によって具現されることができ、前記方法を実行するように構成される。
例示的な実施例において、命令を含むメモリ702などの、命令を含む非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、前記命令は、装置700のプロセッサ710によって実行されて前記方法を完了することができる。例えば、前記非一時的なコンピュータ読み取り可能な記憶媒体は、ROM、ランダムアクセスメモリ(RAM)、CD-ROM、磁気テープ、フロッピー(登録商標)ディスクおよび光学データ記憶装置などであってもよい。
非一時的なコンピュータ読み取り可能な記憶媒体であって、前記記憶媒体の命令がモバイル端末のプロセッサによって実行される場合、モバイル端末が上述の実施例で開示された方法のいずれかを実行することができるようにする。
当業者は、明細書を考慮して、本明細書に開示された発明を実施した後に、本発明の他の実施形態を容易に想到し得るであろう。本出願は、本発明のあらゆる変形、応用または適応性変化を網羅することを意図し、これらの変形、応用または適応性変化は、本発明の普通の原理に準拠し、本開示によって開示されない本技術分野における公知知識または従来の技術的手段を含む。明細書と実施例は、例示としてのみ考慮され、本発明の真の範囲および思想は添付の特許請求の範囲によって示される。
本発明は、前述に既に説明し、図面に示した正確な構造に限定されるものではなく、その範囲から逸脱することなく様々な修正および変更を行うことができることを理解されたい。本発明の範囲は、添付の特許請求の範囲によってのみ制限される。

Claims (14)

  1. オーディオ信号処理方法であって、前記オーディオ信号処理方法は、
    少なくとも2つのマイクロフォンによって、少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得して、時間領域での前記少なくとも2つのマイクロフォンのそれぞれの元のノイズのある信号を取得することと、
    時間領域の各フレームについて、第1非対称ウィンドウを使用して、前記少なくとも2つのマイクロフォンのそれぞれの前記元のノイズのある信号に対してウィンドウ処理演算を実行して、ウィンドウ処理された、ノイズのある信号を取得することと、
    前記ウィンドウ処理された、ノイズのある信号に対して時間周波数変換を実行して、前記少なくとも2つの音源のそれぞれの周波数領域のノイズのある信号を取得することと、
    前記周波数領域のノイズのある信号に従って、前記少なくとも2つの音源の周波数領域の推定信号を取得することと、
    前記周波数領域の推定信号に従って、少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得すること
    を含み、
    前記第1非対称ウィンドウ
    Figure 0007062727000188


    の定義領域は、0より大きいか等しく且つNより小さいか等しく、ピーク値は
    Figure 0007062727000189


    であり、前記
    Figure 0007062727000190


    は、Nより小さく且つ0.5Nより大きく、前記Nは、前記オーディオ信号のフレーム長であり、
    前記第1非対称ウィンドウ
    Figure 0007062727000191


    は、
    Figure 0007062727000192
    を含み、
    Figure 0007062727000193


    は、ウィンドウ長がKのハニングウィンドウであり、前記Mは、フレームシフトである、オーディオ信号処理方法。
  2. 前記周波数領域の推定信号に従って、少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得することは、
    前記周波数領域の推定信号に対して時間周波数変換を実行して、少なくとも2つの音源のそれぞれの時間領域分離信号を取得することと、
    第2非対称ウィンドウを使用して、前記少なくとも2つの音源のそれぞれの時間領域分離信号に対してウィンドウ処理演算を実行して、ウィンドウ処理された分離信号を取得することと、
    前記ウィンドウ処理された分離信号に従って、前記少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得すること
    を含む請求項に記載のオーディオ信号処理方法。
  3. 前記第2非対称ウィンドウを使用して、前記少なくとも2つの音源のそれぞれの時間領域分離信号に対してウィンドウ処理演算を実行して、ウィンドウ処理された分離信号を取得することは、
    第2非対称ウィンドウ
    Figure 0007062727000194

    を使用して、第nフレームの前記時間領域分離信号に対してウィンドウ処理演算を実行して、第nフレームのウィンドウ処理された分離信号を取得することを含み、
    前記ウィンドウ処理された分離信号に従って、前記少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得することは、
    前記第nフレームのウィンドウ処理された分離信号に従って、第n-1フレームのオーディオ信号を重ね合わせて、第nフレームのオーディオ信号を取得することを含み、nは1より大きい整数である請求項に記載のオーディオ信号処理方法。
  4. 前記第2非対称ウィンドウ
    Figure 0007062727000195

    の定義領域は、0より大きいか等しく且つNより小さいか等しく、ピーク値は
    Figure 0007062727000196

    であり、前記
    Figure 0007062727000197

    は、N-Mに等しく、前記Nは、前記オーディオ信号のフレーム長であり、前記Mはフレームシフトである請求項に記載のオーディオ信号処理方法。
  5. 前記第2非対称ウィンドウ
    Figure 0007062727000198

    は、
    Figure 0007062727000199

    Figure 0007062727000200

    は、ウィンドウ長がKのハニングウィンドウである請求項に記載のオーディオ信号処理方法。
  6. 前記周波数領域のノイズのある信号に従って、前記少なくとも2つの音源の周波数領域の推定信号を取得することは、
    前記周波数領域のノイズのある信号に従って、周波数領域の事前推定信号を取得することと、
    前記周波数領域の事前推定信号に従って、各周波数点の分離行列を決定することと、
    前記分離行列および前記周波数領域のノイズのある信号に従って、前記少なくとも2つの音源の前記周波数領域の推定信号を取得すること
    を含む請求項1に記載のオーディオ信号処理方法。
  7. オーディオ信号処理装置であって、前記オーディオ信号処理装置は、
    少なくとも2つのマイクロフォンによって、少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得して、時間領域での前記少なくとも2つのマイクロフォンのそれぞれの元のノイズのある信号を取得するように構成される第1取得モジュールと、
    時間領域の各フレームについて、第1非対称ウィンドウを使用して、前記少なくとも2つのマイクロフォンのそれぞれの前記元のノイズのある信号に対してウィンドウ処理演算を実行して、ウィンドウ処理された、ノイズのある信号を取得するように構成される第1ウィンドウ処理モジュールと、
    前記ウィンドウ処理された、ノイズのある信号に対して時間周波数変換を実行して、前記少なくとも2つの音源のそれぞれの周波数領域のノイズのある信号を取得するように構成される第1変換モジュールと、
    前記周波数領域のノイズのある信号に従って、前記少なくとも2つの音源の周波数領域の推定信号を取得するように構成される第2取得モジュールと、
    前記周波数領域の推定信号に従って、少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得するように構成される第3取得モジュール
    を備え
    前記第1非対称ウィンドウ
    Figure 0007062727000201


    の定義領域は、0より大きいか等しく且つNより小さいか等しく、ピーク値は
    Figure 0007062727000202


    であり、前記
    Figure 0007062727000203


    は、Nより小さく且つ0.5Nより大きく.前記Nは、前記オーディオ信号のフレーム長であり、
    前記第1非対称ウィンドウ
    Figure 0007062727000204


    は、
    Figure 0007062727000205


    を含み、
    Figure 0007062727000206


    は、ウィンドウ長がKのハニングウィンドウであり、前記Mは、フレームシフトである、オーディオ信号処理装置。
  8. 前記第3取得モジュールは、
    前記周波数領域の推定信号に対して時間周波数変換を実行して、少なくとも2つの音源のそれぞれの時間領域分離信号を取得するように構成される第2変換モジュールと、
    第2非対称ウィンドウを使用して、前記少なくとも2つの音源のそれぞれの時間領域分離信号に対してウィンドウ処理演算を実行して、ウィンドウ処理された分離信号を取得するように構成される第2ウィンドウ処理モジュールと、
    前記ウィンドウ処理された分離信号に従って、前記少なくとも2つの音源からそれぞれ発せられたオーディオ信号を取得するように構成される第1取得サブモジュール
    を備える請求項に記載のオーディオ信号処理装置。
  9. 前記第2ウィンドウ処理モジュールは、具体的に、
    第2非対称ウィンドウ
    Figure 0007062727000207

    を使用して、第nフレームの前記時間領域分離信号に対してウィンドウ処理演算を実行して、第nフレームのウィンドウ処理された分離信号を取得するように構成され、
    前記第1取得サブモジュールは、具体的に、
    前記第nフレームのウィンドウ処理された分離信号に従って、第n-1フレームのオーディオ信号を重ね合わせて、第nフレームのオーディオ信号を取得するように構成され、nは1より大きい整数である請求項に記載のオーディオ信号処理装置。
  10. 前記第2非対称ウィンドウ
    Figure 0007062727000208

    の定義領域は、0より大きいか等しく且つNより小さいか等しく、ピーク値は
    Figure 0007062727000209

    であり、前記
    Figure 0007062727000210

    は、N-Mに等しく、前記Nは、前記オーディオ信号のフレーム長であり、前記Mはフレームシフトである請求項に記載のオーディオ信号処理装置。
  11. 前記第2非対称ウィンドウ
    Figure 0007062727000211

    は、
    Figure 0007062727000212

    を含み、
    Figure 0007062727000213

    は、ウィンドウ長がKのハニングウィンドウである請求項10に記載のオーディオ信号処理装置。
  12. 前記第2取得モジュールは、
    前記周波数領域のノイズのある信号に従って、周波数領域の事前推定信号を取得するように構成される第2取得サブモジュールと、
    前記周波数領域の事前推定信号に従って、各周波数点の分離行列を決定するように構成される決定サブモジュールと、
    前記分離行列および前記周波数領域のノイズのある信号に従って、前記少なくとも2つの音源の前記周波数領域の推定信号を取得するように構成される第3取得サブモジュール
    を備える請求項に記載のオーディオ信号処理装置。
  13. オーディオ信号処理装置であって、
    前記オーディオ信号処理装置は少なくとも、プロセッサと、プロセッサで実行できる実行可能命令を記憶するように構成されるメモリを備え、
    プロセッサが前記実行可能命令を実行する時に、前記実行可能命令に応じて、請求項1~6のいずれか一項に記載のオーディオ信号処理方法実現するオーディオ信号処理装置。
  14. 非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ読み取り可能な記憶媒体に、コンピュータ実行可能命令が記憶され、前記コンピュータ実行可能命令が、プロセッサによって実行されると請求項1~6のいずれか一項に記載のオーディオ信号処理方法実現する非一時的なコンピュータ読み取り可能な記憶媒体。
JP2020129305A 2020-03-13 2020-07-30 オーディオ信号処理方法および装置、記憶媒体 Active JP7062727B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010176172.X 2020-03-13
CN202010176172.XA CN111402917B (zh) 2020-03-13 2020-03-13 音频信号处理方法及装置、存储介质

Publications (2)

Publication Number Publication Date
JP2021149084A JP2021149084A (ja) 2021-09-27
JP7062727B2 true JP7062727B2 (ja) 2022-05-06

Family

ID=71430799

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020129305A Active JP7062727B2 (ja) 2020-03-13 2020-07-30 オーディオ信号処理方法および装置、記憶媒体

Country Status (5)

Country Link
US (1) US11490200B2 (ja)
EP (1) EP3879529A1 (ja)
JP (1) JP7062727B2 (ja)
KR (1) KR102497549B1 (ja)
CN (1) CN111402917B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114007176B (zh) * 2020-10-09 2023-12-19 上海又为智能科技有限公司 用于降低信号延时的音频信号处理方法、装置及存储介质
CN112599144B (zh) * 2020-12-03 2023-06-06 Oppo(重庆)智能科技有限公司 音频数据处理方法、音频数据处理装置、介质与电子设备
CN113053406A (zh) * 2021-05-08 2021-06-29 北京小米移动软件有限公司 声音信号识别方法及装置
CN113362847A (zh) * 2021-05-26 2021-09-07 北京小米移动软件有限公司 音频信号处理方法及装置、存储介质
CN114501283B (zh) * 2022-04-15 2022-06-28 南京天悦电子科技有限公司 一种针对数字助听器的低复杂度双麦克风定向拾音方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040083095A1 (en) 2002-10-23 2004-04-29 James Ashley Method and apparatus for coding a noise-suppressed audio signal
JP2004520616A (ja) 2001-01-30 2004-07-08 フランス テレコム 雑音低減法および装置
WO2007058121A1 (ja) 2005-11-15 2007-05-24 Nec Corporation 残響抑圧の方法、装置及び残響抑圧用プログラム
JP2010055024A (ja) 2008-08-29 2010-03-11 Toshiba Corp 信号補正装置
JP2012181233A (ja) 2011-02-28 2012-09-20 Nara Institute Of Science & Technology 音声強調装置、方法、及びプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6823303B1 (en) * 1998-08-24 2004-11-23 Conexant Systems, Inc. Speech encoder using voice activity detection in coding noise
KR100927897B1 (ko) * 2005-09-02 2009-11-23 닛본 덴끼 가부시끼가이샤 잡음억제방법과 장치, 및 컴퓨터프로그램
JP5460057B2 (ja) * 2006-02-21 2014-04-02 ウルフソン・ダイナミック・ヒアリング・ピーティーワイ・リミテッド 低遅延処理方法及び方法
ES2631906T3 (es) * 2006-10-25 2017-09-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para la generación de valores de subbanda de audio, aparato y procedimiento para la generación de muestras de audio en el dominio temporal
US8046219B2 (en) * 2007-10-18 2011-10-25 Motorola Mobility, Inc. Robust two microphone noise suppression system
KR101529647B1 (ko) * 2008-07-22 2015-06-30 삼성전자주식회사 빔포밍 기술을 이용한 음원 분리 방법 및 시스템
US8577677B2 (en) * 2008-07-21 2013-11-05 Samsung Electronics Co., Ltd. Sound source separation method and system using beamforming technique
JP5443547B2 (ja) * 2012-06-27 2014-03-19 株式会社東芝 信号処理装置
CN105336336B (zh) * 2014-06-12 2016-12-28 华为技术有限公司 一种音频信号的时域包络处理方法及装置、编码器
EP2980791A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions
CN106504763A (zh) * 2015-12-22 2017-03-15 电子科技大学 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法
CN109285557B (zh) * 2017-07-19 2022-11-01 杭州海康威视数字技术股份有限公司 一种定向拾音方法、装置及电子设备
US11516581B2 (en) * 2018-04-19 2022-11-29 The University Of Electro-Communications Information processing device, mixing device using the same, and latency reduction method
CN110189763B (zh) * 2019-06-05 2021-07-02 普联技术有限公司 一种声波配置方法、装置及终端设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004520616A (ja) 2001-01-30 2004-07-08 フランス テレコム 雑音低減法および装置
US20040083095A1 (en) 2002-10-23 2004-04-29 James Ashley Method and apparatus for coding a noise-suppressed audio signal
WO2007058121A1 (ja) 2005-11-15 2007-05-24 Nec Corporation 残響抑圧の方法、装置及び残響抑圧用プログラム
JP2010055024A (ja) 2008-08-29 2010-03-11 Toshiba Corp 信号補正装置
JP2012181233A (ja) 2011-02-28 2012-09-20 Nara Institute Of Science & Technology 音声強調装置、方法、及びプログラム

Also Published As

Publication number Publication date
KR102497549B1 (ko) 2023-02-08
EP3879529A1 (en) 2021-09-15
JP2021149084A (ja) 2021-09-27
CN111402917A (zh) 2020-07-10
CN111402917B (zh) 2023-08-04
KR20210117120A (ko) 2021-09-28
US11490200B2 (en) 2022-11-01
US20210289293A1 (en) 2021-09-16

Similar Documents

Publication Publication Date Title
JP7062727B2 (ja) オーディオ信号処理方法および装置、記憶媒体
CN111128221B (zh) 一种音频信号处理方法、装置、终端及存储介质
EP3839951A1 (en) Method and device for processing audio signal, terminal and storage medium
KR102387025B1 (ko) 오디오 신호 처리 방법, 장치, 단말기 및 저장 매체
CN110970046B (zh) 一种音频数据处理的方法及装置、电子设备、存储介质
CN111429933B (zh) 音频信号的处理方法及装置、存储介质
CN111179960B (zh) 音频信号处理方法及装置、存储介质
CN113314135B (zh) 声音信号识别方法及装置
CN113506582A (zh) 声音信号识别方法、装置及系统
CN113053406A (zh) 声音信号识别方法及装置
CN112201267A (zh) 一种音频处理方法、装置、电子设备及存储介质
US20210398548A1 (en) Method and device for processing audio signal, and storage medium
CN113223553B (zh) 分离语音信号的方法、装置及介质
CN113488066A (zh) 音频信号处理方法、音频信号处理装置及存储介质
CN111667842A (zh) 音频信号处理方法及装置
CN112863537B (zh) 一种音频信号处理方法、装置及存储介质
CN113362848B (zh) 音频信号处理方法、装置及存储介质
CN113362847A (zh) 音频信号处理方法及装置、存储介质
CN114724578A (zh) 一种音频信号处理方法、装置及存储介质
CN116631419A (zh) 语音信号的处理方法、装置、电子设备和存储介质
CN112863537A (zh) 一种音频信号处理方法、装置及存储介质
CN118016078A (zh) 音频处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220413

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220420

R150 Certificate of patent or registration of utility model

Ref document number: 7062727

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150