KR20210125846A - 복수의 마이크로폰들을 사용한 음성 처리 장치 및 방법 - Google Patents

복수의 마이크로폰들을 사용한 음성 처리 장치 및 방법 Download PDF

Info

Publication number
KR20210125846A
KR20210125846A KR1020200043602A KR20200043602A KR20210125846A KR 20210125846 A KR20210125846 A KR 20210125846A KR 1020200043602 A KR1020200043602 A KR 1020200043602A KR 20200043602 A KR20200043602 A KR 20200043602A KR 20210125846 A KR20210125846 A KR 20210125846A
Authority
KR
South Korea
Prior art keywords
noise
signal
coherence
information
generating
Prior art date
Application number
KR1020200043602A
Other languages
English (en)
Inventor
김성우
신종원
정세인
현동일
Original Assignee
삼성전자주식회사
광주과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사, 광주과학기술원 filed Critical 삼성전자주식회사
Priority to KR1020200043602A priority Critical patent/KR20210125846A/ko
Priority to US17/072,672 priority patent/US11508363B2/en
Publication of KR20210125846A publication Critical patent/KR20210125846A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 개시의 기술적 사상에 따른 음성 처리 장치는, 외부로부터 복수의 입력 신호들을 수신하는 복수의 마이크로폰들, 공간 필터링을 통해 상기 복수의 입력 신호들에 대응하는 공간 필터 신호를 생성하는 공간 필터링 회로, 상기 복수의 입력 신호들이 방향성을 갖는지 여부를 기초로, 관심 방향에서 수신되는 잡음 신호의 레벨을 나타내는 방향성 잡음 정보 및 여러 방향에서 수신되는 잡음 신호들의 레벨을 나타내는 확산성 잡음 정보를 통합함으로써 추정 잡음 정보를 생성하는 잡음 추정 회로 및 상기 추정 잡음 정보를 기초로 상기 공간 필터 신호를 필터링함으로써 추정 음성 신호를 생성하는 음성 추정 회로를 포함할 수 있다.

Description

복수의 마이크로폰들을 사용한 음성 처리 장치 및 방법{SPEECH PROCESSING APPARATUS AND METHOD USING A PLURALITY OF MICROPHONES}
본 개시의 기술적 사상은 복수의 마이크로폰에 입력된 입력 신호에서 잡음 신호 및 음성 신호를 추정하는 장치 및 방법에 관한 것이다.
마이크로폰에 입력된 입력 신호 중 음성 신호를 획득하기 위하여 잡음 신호를 추정하는 기술은 양방향 음성 통신 시스템에서 음성 품질을 향상시키는 데 필수적인 요소이다.
추정된 잡음 신호는 양방향 통신 시스템 뿐만 아니라 음향 환경 식별(acoustic environment identification), 음성 인식(speech recognition) 및 화자 식별(speaker identification) 등 다양한 시스템에서 사용될 수 있다.
마이크로폰에 입력된 잡은 신호는 정상적(stationary) 특성 및 비정상적(non-stationary) 특성을 모두 가지고 있으므로, 잡음 신호를 완벽하게 추정하는 것은 어렵다. 예를 들어, 정상적 특성을 갖는 잡음 신호는 백색 잡음일 수 있다. 비정상적 특성을 갖는 잡음 신호는 자동차 내부 소음 또는 카페 소음일 수 있다.
대부분의 잡음 제거 기술은 주파수 영역에서 계산된 이득 함수를 사용하여 잡음 신호를 제거하는데, 이러한 이득 함수는 잡음 신호의 추정 값에 의존하므로 잡음 신호를 정확하게 추정하는 것이 매우 중요하다.
본 개시의 기술적 사상이 해결하려는 과제는 복수의 입력 신호들에 포함된 잡음 신호 및 음성 신호를 정확히 추정하는 데 있다.
상기와 같은 목적을 달성하기 위하여, 본 개시의 일 측면에 따른 음성 처리 장치는, 외부로부터 복수의 입력 신호들을 수신하는 복수의 마이크로폰들, 공간 필터링을 통해 상기 복수의 입력 신호들에 대응하는 공간 필터 신호를 생성하는 공간 필터링 회로, 상기 복수의 입력 신호들이 방향성을 갖는지 여부를 기초로, 관심 방향에서 수신되는 잡음 신호의 레벨을 나타내는 방향성 잡음 정보 및 여러 방향에서 수신되는 잡음 신호들의 레벨을 나타내는 확산성 잡음 정보를 통합함으로써 추정 잡음 정보를 생성하는 잡음 추정 회로 및 상기 추정 잡음 정보를 기초로 상기 공간 필터 신호를 필터링함으로써 추정 음성 신호를 생성하는 음성 추정 회로를 포함할 수 있다.
본 개시의 다른 측면에 따른 잡음 신호를 추정하는 방법은, 상기 복수의 입력 신호들에 대한 공간 필터링을 통해 생성되는 공간 필터 신호 및 상기 복수의 입력 신호들에 포함된 음성 신호의 존재 확률을 기반으로 방향성 잡음 정보를 생성하는 단계, 상기 복수의 입력 신호들 간의 일관성(coherence) 정보를 기반으로 확산성 잡음 정보를 생성하는 단계 및 상기 일관성 정보를 가중치로 사용하여 상기 방향성 잡음 정보와 상기 확산성 잡음 정보를 선형 결합함으로써 상기 잡음 신호를 추정하는 단계를 포함할 수 있다.
본 개시의 또 다른 측면에 따른 전자 장치는, 음성 신호와 잡음 신호를 포함하는 복수의 입력 신호들을 수신하는 입력 장치 및 상기 입력 장치와 전기적으로 연결되고 상기 복수의 입력 신호들로부터 음성 신호를 추정하는 프로세서를 포함하고, 상기 프로세서는, 상기 복수의 입력 신호들에 대한 공간 필터링을 통해 공간 필터 신호를 생성하고, 상기 복수의 입력 신호들에 포함된 음성 신호의 존재 확률 및 상기 공간 필터 신호를 기초로 방향성 잡음 정보를 생성하고, 상기 복수의 입력 신호들 간의 일관성(coherence) 정보를 기초로 확산성 잡음 정보를 생성하고, 상기 방향성 잡음 정보 및 상기 확산성 잡음 정보를 선형 결합함으로써 상기 복수의 입력 신호들에 포함된 잡음 신호를 추정할 수 있다.
본 개시의 예시적 실시 예에 따른 잡음 추정 장치 및 잡음 추정 방법은 음성 존재 확률을 기반으로 추정된 방향성 잡음 정보와 일관성을 기반으로 추정된 확산성 잡음 정보를 통합함으로써 신뢰성있는 잡음 정보를 추정할 수 있는 효과가 있다.
더 나아가, 본 개시의 예시적 실시 예에 따른 잡음 추정 장치 및 잡음 추정 방법은 복수의 마이크로폰으로부터 수신되는 마이크 신호들을 공간 필터링함으로써 공간 필터 신호를 생성하고, 추정된 잡음 정보를 기초로 공간 필터 신호를 다시 한 번 필터링함으로써 음성 신호를 정확하게 추정할 수 있는 효과가 있다.
도 1은 본 개시의 예시적 실시 예에 따른 음성 처리 장치를 설명하기 위한 도면이다.
도 2는 본 개시의 예시적 실시 예에 따른 음성 처리 장치를 구체적으로 설명하기 위한 블록도이다.
도 3은 본 개시의 예시적 실시 예에 따른 잡음 추정 회로를 구체적으로 설명하기 위한 블록도이다.
도 4는 본 개시의 예시적 실시 예에 따른 방향성 잡음 추정 회로를 구체적으로 설명하기 위한 블록도이다.
도 5는 본 개시의 예시적 실시 예에 따른 확산성 잡음 추정 회로를 구체적으로 설명하기 위한 블록도이다.
도 6은 본 개시의 예시적 실시 예에 따른 잡음 통합 회로를 구체적으로 설명하기 위한 도면이다.
도 7은 본 개시의 예시적 실시 예에 따른 음성 추정 방법을 설명하기 위한 흐름도이다.
도 8은 본 개시의 예시적 실시 예에 따른 잡음 추정 방법을 설명하기 위한 흐름도이다.
도 9는 본 개시의 예시적 실시 예에 따른 잡음 신호 일관성을 생성하는 방법을 설명하기 위한 흐름도이다.
도 10은 본 개시의 예시적 실시 예에 따른 음성 신호 일관성을 생성하는 방법을 설명하기 위한 흐름도이다.
도 11은 다양한 실시 예들에 따른 전자 장치의 블록도를 나타낸다.
이하, 본 발명의 다양한 실시 예가 첨부된 도면을 참조하여 기재된다.
도 1은 본 개시의 예시적 실시 예에 따른 음성 처리 장치를 설명하기 위한 도면이다.
도 1을 참조하면, 음성 처리 장치(10)에 입력되는 입력 신호 x(t)는 화자로부터 발생한 음성 신호 s(t)와 잡음 신호 n(t)를 포함할 수 있다. 입력 신호 x(t)는 [수학식 1]과 같이 표현될 수 있다.
Figure pat00001
잡음 신호 n(t)는 정상적 특성을 갖는 잡음 신호와 비정상적 특성을 갖는 잡음 신호를 포함할 수 있다. 정상적 특성을 갖는 잡음 신호는 시간에 따른 통계적 특성이 일정한 잡음 신호일 수 있다. 예를 들어, 정상적 특성을 갖는 잡음 신호는 백색 잡음(white noise)일 수 있다. 비정상적 특성을 갖는 잡음 신호는 시간에 따른 통계적 특성이 변동되는 잡음 신호일 수 있다. 예를 들어, 비정상적 특성을 갖는 잡음 신호는 자동차 내부 소음 또는 카페 소음일 수 있다. 입력 신호 x(t)는 수학식 1과 같이 표현될 수 있다.
음성 처리 장치(10)는 방향성 잡음 추정 회로(410) 및 확산성 잡음 추정 회로(420)를 포함할 수 있다.
방향성 잡음 추정 회로(410)는 방향성 잡음 정보(directional noise information)를 생성할 수 있다. 방향성 잡음 정보는 관심 방향에서 수신되는 잡음 신호의 레벨을 나타낼 수 있다. 예를 들어, 방향성 잡음 정보는 방향성 잡음 신호의 분산을 나타낼 수 있다. 방향성 잡음 정보는 관심 방향에서 수신되는 잡음 신호를 그 외 방향에서 수신되는 잡음 신호보다 정확하게 나타내는 정보일 수 있다. 따라서, 방향성 잡음 정보는 방향성이 있는 잡음 신호를 추정하는 데 사용할 수 있다. 방향성 잡음 추정 회로(410)는 관심 방향에서 수신되는 입력 신호를 증폭하고, 그 외 방향에서 수신되는 입력 신호를 억제함으로써 방향성 잡음 정보를 생성할 수 있다. 또한, 방향성 잡음 추정 회로(410)는 음성 존재 확률(speech presense probability)을 기반으로 잡음을 추정할 수 있다.
음성 존재 확률(speech presence probability) 기반의 잡음 추정 방법은 안정적으로 잡음 신호를 추정하지만, 비정상적 잡음 환경에서 잡음 신호를 정확히 추정하지 못하고 잡음 신호의 세기를 낮게 추정한다. 음성 존재 확률 기반의 잡음 추정 방법은 관심 방향에서 수신되는 잡음 신호를 추정하는 데 적합할 수 있다. 즉, 방향성을 갖는 잡음 신호를 추정하는 데 적합할 수 있다. 음성 존재 확률 기반의 잡음 추정 방법을 사용하여 잡음 제거 시 잔여 잡음이 남는 문제점이 존재할 수 있다.
확산성 잡음 추정 회로(420)는 확산성 잡음 정보(diffusion noise information)를 생성할 수 있다. 확산성 잡음 정보는 여러 방향에 대해 균일한 가중치를 갖는 잡음 신호들의 레벨을 나타낼 수 있다. 확산성 잡음 정보는 확산성 잡음 신호의 분산을 나타낼 수 있다. 따라서, 확산성 잡음 정보는 방향성이 없는 잡음 신호를 나타내는 데 적합할 수 있다. 확산성 잡음 추정 회로(420)는 입력 신호의 일관성(coherence)을 사용하여 확산성 잡음 정보를 생성할 수 있다.
일관성(coherence) 기반의 잡음 추정 방법은 비정상적 잡음 신호를 빠르게 추정하는 장점이 있으나 잡음 신호의 세기를 높게 추정한다. 일관성 기반의 잡음 추정 방법은 여러 방향에서 수신되는 잡음 신호를 추정하는 데 적합할 수 있다. 즉, 방향성이 없는 잡음 신호를 추정하는 데 적합할 수 있다. 일관성 기반의 잡음 추정 방법을 사용하여 잡음 제거 시 음성 신호가 왜곡되는 문제점이 존재할 수 있다.
음성 처리 장치(10)는 방향성 잡음 정보와 확산성 잡음 정보를 통합함으로써 잡음 추정 정보를 생성할 수 있다. 즉, 잡음 추정 정보는 방향성 잡음 정보 및 확산성 잡음 정보를 포함할 수 있다. 잡음 추정 정보는 입력 신호에 포함된 잡음 신호의 레벨을 나타낼 수 있다. 음성 처리 장치(10)는 수신된 입력 신호들의 일관성을 기초로, 잡음 추정 정보에 포함된 방향성 잡음 정보의 비율 및 확산성 잡음 정보의 비율을 조절할 수 있다. 입력 신호들의 일관성은 입력 신호들의 방향성을 나타낼 수 있다.
음성 처리 장치(10)는 입력 신호 x(t)를 수신하고, 입력 신호 x(t)에 포함된 잡음 신호의 레벨을 나타내는 추정 잡음 정보를 생성하고, 추정 잡음 정보를 기초로 입력 신호를 필터링함으로써 추정 음성 신호 es(t)를 생성할 수 있다.
도 2는 본 개시의 예시적 실시 예에 따른 음성 처리 장치를 구체적으로 설명하기 위한 블록도이다.
도 2를 참조하면, 음성 처리 장치(10)는 마이크로폰 어레이(100), 샘플링 회로(200), 공간 필터 회로(300), 잡음 추정 회로(400) 및 음성 추정 회로(500)를 포함할 수 있다.
마이크로폰 어레이(100)는 복수의 마이크로폰들을 포함할 수 있다. 마이크로폰 어레이(100)는 외부로부터 복수의 입력 신호들을 수신할 수 있다. 예를 들어, 마이크로폰 어레이(100)는, 제1 입력 신호 x1(t), 제2 입력 신호 x2(t) 및 제3 입력 신호 x3(t)를 수신할 수 있다. 제1 입력 신호 x1(t)는 음성 신호 s(t)와 제1 잡음 신호 n1(t)를 포함할 수 있다. 제2 입력 신호 x2(t)는 음성 신호 s(t)와 제2 잡음 신호 n2(t)를 포함할 수 있다. 제3 입력 신호 x3(t)는 음성 신호 s(t)와 제3 잡음 신호 n3(t)를 포함할 수 있다. 설명의 편의 상 마이크로폰 어레이(100)가 3개의 마이크로폰을 포함하는 것으로 도시하였으나, 마이크로폰 어레이(100)가 포함하는 마이크로폰의 개수는 이에 제한되지 않는다.
샘플링 회로(200)는 마이크로폰 어레이(100)로부터 복수의 아날로그 신호들을 수신하고, 복수의 아날로그 신호들을 복수의 디지털 신호들로 변환할 수 있다. 구체적으로, 샘플링 회로(200)는 제1 입력 신호 x1(t), 제2 입력 신호 x2(t) 및 제3 입력 신호 x3(t)를 수신하고, 제1 디지털 신호 X1(k,l), 제2 디지털 신호 X2(k,l) 및 제3 디지털 신호 X3(k,l)를 생성할 수 있다. 샘플링 회로(200)는 아날로그 신호 x(t)에 대해 샘플링 및 양자화(quantization)를 수행함으로써 디지털 신호 X(k, l)를 생성할 수 있다. 예를 들어, 샘플링 회로(200)는 아날로그 신호 x(t)에 대해 DFT(discrete Fourier Transform), STFT(Short-Time Fourier Transform) 또는 FFT(Fast Fourier Transform)을 수행함으로써 디지털 신호 X(k, l)를 생성할 수 있다. 디지털 신호 X(k, l)는 수학식 2와 같이 표현될 수 있다.
Figure pat00002
k는 주파수 인덱스이고, l은 프레임 인덱스이고, S(k, l)은 아날로그 음성 신호 s(t)의 디지털 신호이고, N(k,l)은 아날로그 잡음 신호 n(t)의 디지털 신호이다. 디지털 신호는 아날로그 입력 신호에서 변환된 신호이므로, 이하에서는 입력 신호는 아날로그 입력 신호 또는 디지털 입력 신호를 의미할 수 있다.
공간 필터 회로(300)는 샘플링 회로(200)로부터 수신된 디지털 신호들에 대하여 공간 필터링(spatial filtering)을 수행함으로써 공간 필터 신호 Y(k, l)를 생성할 수 있다. 공간 필터링(spatial filtering)은 관심 방향에서 수신되는 입력 신호를 증폭시키고, 그 외 방향에서 수신되는 입력 신호는 억제시키는 필터링 방식일 수 있다. 공간 필터 신호 Y(k, l)은 수학식 3과 같이 표현될 수 있다.
Figure pat00003
N은 마이크로폰 어레이(100)에 포함된 마이크로폰의 개수이고,
Figure pat00004
는 i 번째 마이크로폰에 입력된 입력 신호에 대한 디지털 신호이고,
Figure pat00005
는 마이크로폰 어레이(100)에 입력되는 잡음 신호들 중 관심 방향을 제외한 나머지 방향의 잡음 신호를 억제하기 위한 가중치를 나타낸다.
Figure pat00006
를 결정하기 위해 빔포밍 알고리즘이 적용될 수 있다. 빔포밍 알고리즘은 최소분산해(minimum variance solution) 또는 특이값 분해(singular value decomposition)를 기반으로 하는 알고리즘일 수 있으나, 이에 제한되지 않는다.
잡음 추정 회로(400)는 디지털 신호 및 공간 필터 신호를 수신하고, 잡음 신호의 레벨을 추정할 수 있다. 즉, 잡음 추정 회로(400)는 입력 신호에 포함된 잡음 신호의 레벨을 나타내는 잡음 추정 정보(es_noise)를 생성할 수 있다. 잡음 추정 회로(400)는 방향성 잡음 추정 회로(410) 및 확산성 잡음 추정 회로(420)를 포함할 수 있다. 방향성 잡음 추정 회로(410)는 공간 필터 신호 및 음성 존재 확률을 기반으로 방향성 잡음 정보를 생성할 수 있다. 방향성 잡음 정보는 관심 방향에서 수신되는 잡음 신호의 레벨을 나타낼 수 있다. 예를 들어, 방향성 잡음 정보는 방향성 잡음 신호의 분산을 나타낼 수 있다. 확산성 잡음 추정 회로(420)는 입력 신호들 간의 일관성 정보를 생성하고, 일관성 정보를 기반으로 확산성 잡음 정보를 생성할 수 있다. 확산성 잡음 정보는 여러 방향에 대해 균일한 가중치를 갖는 잡음 신호들의 레벨을 나타낼 수 있다. 예를 들어, 확산성 잡음 정보는 확산성 잡음 신호의 분산을 나타낼 수 있다. 잡음 추정 회로(400)는 일관성 정보를 사용하여 결정되는 방향성을 기초로, 방향성 잡음 정보와 확산성 잡음 정보를 통합함으로써 잡음 추정 정보(es_noise)를 생성할 수 있다.
음성 추정 회로(500)는 공간 필터 신호 및 잡음 추정 정보(es_noise)를 수신하고 추정 음성 신호 es(t)를 생성할 수 있다. 음성 추정 회로(500)는 잡음 추정 정보(es_noise)를 기반으로 이득을 생성하고, 생성된 이득을 사용하여 공간 필터 신호에서 잡음 제거를 위한 필터링을 수행함으로써 신뢰성있는 음성 신호를 추정할 수 있다. 예를 들어, 음성 추정 회로(500)는 위너 필터(wiener filter)를 사용하여 음성 신호를 추정할 수 있다. 구체적으로, 음성 추정 회로(500)는 위너 필터를 사용하여 추정 잡음 정보(es_noise)가 반영된 이득을 생성하고, 생성된 이득과 공간 필터 신호를 곱함으로써 추정 음성 신호를 생성할 수 있다.
도 3은 본 개시의 예시적 실시 예에 따른 잡음 추정 회로를 구체적으로 설명하기 위한 블록도이다.
도 3을 참조하면, 잡음 추정 회로(400)는 방향성 잡음 추정 회로(410), 확산성 잡음 추정 회로(420) 및 잡음 산출 회로(430)를 포함할 수 있다.
방향성 잡음 추정 회로(410)는 공간 필터 신호를 수신하고, 음성 존재 확률(speech presense probability, SPP) 및 방향성 잡음 신호 정보(directional_noise)를 생성할 수 있다. 음성 존재 확률은 수신된 입력 신호가 음성 신호를 포함하고 있을 확률을 나타낼 수 있다. 방향성 잡음 정보는 관심 방향에서 수신되는 잡음 신호의 레벨을 나타낼 수 있다. 따라서, 방향성 잡음 정보는 방향성이 있는 잡음 신호를 추정하기 위해 사용될 수 있다.
방향성 잡음 추정 회로(410)는 순환 필터(recursive filter)를 사용하여 현재 프레임에 대한 방향성 잡음 정보를 생성할 수 있다. 순환 필터(recursive filter)는 출력을 입력으로서 재사용하는 필터일 수 있다. 구체적으로, 방향성 잡음 추정 회로(410)는 이전 프레임에 대한 방향성 잡음 정보를 입력으로서 재사용할 수 있다. 방향성 잡음 추정 회로(410)는 이전 프레임에 대한 방향성 잡음 신호와 공간 필터 신호를 입력으로 사용하고, 사후 음성 존재 확률(post_SPP)을 가중치로 사용함으로써, 현재 프레임에 대한 방향성 잡음 정보를 생성할 수 있다.
확산성 잡음 추정 회로(420)는 공간 필터 신호, 입력 신호 및 사후 음성 존재 확률(post_SPP)을 수신하고, 일관성 정보(coherence_info) 및 확산성 잡음 정보(diffuse_noise)를 생성할 수 있다. 일관성 정보(coherence_info)는 입력 신호들 간의 상관 관계를 나타낼 수 있다. 예를 들어, 일관성 정보는 제1 입력 신호의 크기와 제2 입력 신호의 상관 관계를 나타내는 정보일 수 있다. 확산성 잡음 정보는 여러 방향에 대해 균일한 가중치를 갖는 잡음 신호들의 레벨을 나타낼 수 있다. 따라서, 확산성 잡음 정보는 방향성이 없는 잡음 신호를 추정하기 위해 사용될 수 있다.
확산성 잡음 추정 회로(420)는 입력 신호들 간의 파워 스펙트럼 밀도(power spectral density, PSD)를 사용하여 일관성 정보(coherence_info)를 생성할 수 있다. 확산성 잡음 추정 회로(420)는 파워 스펙트럼 밀도와 일관성 정보(coherence_info)를 사용하여 중간 잡음 정보를 생성할 수 있다. 확산성 잡음 추정 회로(420)는 중간 잡음 정보와 공간 필터 신호를 입력으로 사용하고, 사후 음성 존재 확률(post_SPP)을 가중치로 사용함으로써, 확산성 잡음 정보(diffuse_noise)를 생성할 수 있다.
잡음 통합 회로(430)는 방향성 잡음 정보(directional_noise)와 확산성 잡음 정보(diffuse_noise)를 통합함으로써 추정 잡음 정보(es_noise)를 생성할 수 있다. 추정 잡음 정보(es_noise)는 복수의 입력 신호들에 포함된 잡음 신호 세기의 추정 값일 수 있다. 구체적으로, 잡음 통합 회로(430)는 복수의 입력 신호들 간의 일관성이 높을수록 방향성 잡음 정보(directional_noise)의 비율이 높아지고, 복수의 입력 신호들 간의 일관성이 낮아질수록 확산성 잡음 정보(diffuse_noise)의 비율이 높아지도록, 방향성 잡음 정보(directional_noise)와 확산성 잡음 정보(diffuse_noise)를 선형 결합(linear combination)할 수 있다.
도 4는 본 개시의 예시적 실시 예에 따른 방향성 잡음 추정 회로를 구체적으로 설명하기 위한 블록도이다.
도 4를 참조하면, 방향성 잡음 추정 회로(410)는 음성 존재 확률 추정 회로(411) 및 방향성 잡음 결정 회로(412)를 포함할 수 있다.
음성 존재 확률 추정 회로(411)는 공간 필터 신호 Y(k,l)를 수신하고, 사후 음성 존재 확률(post_SPP)을 생성할 수 있다. 음성 존재 확률 추정 회로(411)는 베이즈 정리(bayes' theorem)에 따라 사후 음성 존재 확률(post_SPP)을 생성할 수 있다. 베이즈 정리(bayes' theorem)에 따른 사후 음성 존재 확률(post_SPP)은 수학식 4와 같이 표현될 수 있다.
Figure pat00007
여기서,
Figure pat00008
는 사후 음성 존재 확률이고,
Figure pat00009
는 사전 음성 존재 확률이고,
Figure pat00010
는 사전 음성 부재 확률이고,
Figure pat00011
는 음성 존재의 우도(likelihood)이고,
Figure pat00012
는 음성 부재의 우도(likelihood)일 수 있다. 사전 음성 존재 확률
Figure pat00013
과 사전 음성 부재 확률
Figure pat00014
의 합은 1일 수 있다. 사전 음성 존재 확률
Figure pat00015
과 사전 음성 부재 확률
Figure pat00016
은 미리 결정된 값으로 설정될 수 있다. 예를 들어, 사전 음성 존재 확률
Figure pat00017
과 사전 음성 부재 확률
Figure pat00018
은 각각 0.5로 설정될 수 있다.
가우시안 분산 모델링에 따라, 음성 존재의 우도
Figure pat00019
및 음성 부재의 우도
Figure pat00020
는 각각 [수학식 5] 및 [수학식 6]으로 표현될 수 있다.
Figure pat00021
여기서,
Figure pat00022
는 방향성 잡음 신호를 가우시안 모델링했을 때, 이전 프레임에 대한 방향성 잡음 신호의 분산을 나타낼 수 있다. 본 발명에 따른 실시 예에서, 방향성 잡음 정보(directional_noise)는 방향성 잡음 신호의 분산을 나타낼 수 있다.
Figure pat00023
는 사전 신호-대-잡음 비일 수 있다. 사전 신호-대-잡음 비는 미리 결정된 값으로 설정될 수 있다. 예를 들어, 사전 신호-대-잡음 비는 30dB로 설정될 수 있다.
Figure pat00024
결론적으로, 음성 존재 확률 추정 회로(411)는 [수학식 7]에 따라 사후 음성 존재 확률(post_SPP)을 획득할 수 있다. [수학식 7]은 [수학식 5]에 따른 음성 존재의 우도
Figure pat00025
및 [수학식 6]에 따른 음성 부재의 우도
Figure pat00026
를 [수학식 4]에 대입함으로써 결정될 수 있다.
Figure pat00027
사전 음성 존재 확률
Figure pat00028
, 사전 음성 부재 확률
Figure pat00029
및 사전 신호-대-잡음 비
Figure pat00030
는 미리 결정된 값으로 설정될 수 있으므로, 음성 존재 확률 추정 회로(411)는 공간 필터 신호 Y(k, l) 및 이전 프레임에 대한 방향성 잡음 신호의 분산
Figure pat00031
을 사용하여 사후 성 존재 확률(post_SPP)을 획득할 수 있다.
방향성 잡음 결정 회로(412)는 사후 음성 존재 확률
Figure pat00032
, 사후 음성 부재 확률
Figure pat00033
, 공간 필터 신호 Y(k,l) 및 이전 프레임에 대한 방향성 잡음 신호의 분산
Figure pat00034
을 사용하여, 현재 프레임에 대한 방향성 잡음 신호
Figure pat00035
의 분산을 생성할 수 있다. 구체적으로, 방향성 잡음 결정 회로(412)는 [수학식 8]에 따라 현재 프레임에 대한 방향성 잡음 신호의 분산
Figure pat00036
을 획득할 수 있다.
Figure pat00037
여기서,
Figure pat00038
는 방향성 잡음 신호를 가우시안 모델링했을 때, 현재 프레임에 대한 방향성 잡음 신호의 분산을 나타낼 수 있다. 사후 음성 존재 확률
Figure pat00039
과 사후 음성 부재 확률
Figure pat00040
의 합은 1일 수 있다.
[수학식 8]에 따르면, 방향성 잡음 결정 회로(412)는 사후 음성 존재 확률
Figure pat00041
이 높은 경우, 이전 프레임에 대한 방향성 잡음 신호
Figure pat00042
의 영향을 크게 하고, 사후 음성 부재 확률
Figure pat00043
이 높은 경우, 공간 필터 신호 Y(k,l)의 영향을 크게함으로써, 현재 프레임에 대한 방향성 잡음 신호의 분산
Figure pat00044
을 생성할 수 있다. 본 발명에 따른 실시 예에서, 방향성 잡음 정보(directional_noise)는 방향성 잡음 신호의 분산을 나타낼 수 있다.
도 5는 본 개시의 예시적 실시 예에 따른 확산성 잡음 추정 회로를 구체적으로 설명하기 위한 블록도이다.
도 5를 참조하면, 확산성 잡음 추정 회로(420)는 파워 스펙트럼 밀도 추정 회로(421), 일관성 추정 회로(422), 사후 신호-대-잡음비 추정 회로(423) 및 확산성 잡음 결정 회로(424)를 포함할 수 있다.
파워 스펙트럼 밀도 추정 회로(421)는 복수의 입력 신호들을 수신하고, 파워 스펙트럼 밀도 정보(PSD_info)를 생성할 수 있다. 파워 스펙트럼 밀도 정보(PSD_info)는 오토 파워 스펙트럼 밀도(auto Power Spectral Density, auto PSD) 및 크로스 파워 스펙트럼 밀도(cross Power Spectral Density, cross PSD)를 포함할 수 있다. 구체적으로, 파워 스펙트럼 밀도 추정 회로(421)는 [수학식 9]에 따라 오토 파워 스펙트럼 밀도를 생성하고, [수학식 10]에 따라 크로스 파워 스펙트럼 밀도를 생성할 수 있다.
Figure pat00045
여기서,
Figure pat00046
는 i 번째 입력 신호의 현재 프레임에 대한 오토 파워 스펙트럼 밀도이고,
Figure pat00047
는 i 번째 입력 신호의 이전 프레임에 대한 오토 파워 스펙트럼 밀도이고,
Figure pat00048
는 평활화 파라미터(smoothing parameter)이고,
Figure pat00049
는 i 번째 입력 신호의 주파수 성분일 수 있다.
Figure pat00050
여기서,
Figure pat00051
는 현재 프레임에 대한 i 번째 입력 신호와 j 번째 입력 신호 간의 크로스 파워 스펙트럼 밀도이고,
Figure pat00052
는 이전 프레임에 대한 i 번째 입력 신호와 j 번째 입력 신호 간의 크로스 파워 스펙트럼 밀도이고,
Figure pat00053
는 j 번째 입력 신호의 주파수 성분일 수 있다.
사후 신호-대-잡음비 추정 회로(423)는 공간 필터 신호를 수신하고, 사후 신호-대-잡음비 정보(post_SNR_info)를 생성할 수 있다. 사후 신호-대-잡음비 추정 회로(423)는 [수학식 11]에 따라 사후 신호-대-잡음비(post_SNR_info)를 생성할 수 있다.
Figure pat00054
여기서,
Figure pat00055
는 사후 신호-대-잡음비이고,
Figure pat00056
는 확산성 잡음 신호를 가우시안 모델링했을 때, 이전 프레임에 대한 확산성 잡음 신호의 분산을 나타낼 수 있다. 본 발명에 따른 실시 예에서, 확산성 잡음 정보(diffuse_noise)는 확산성 잡음 신호의 분산을 나타낼 수 있다.
일관성 추정 회로(422)는 파워 스펙트럼 밀도 정보(PSD_info) 및 사후 신호-대-잡음비 정보(post_SNR_info)를 수신하고, 일관성 정보(coherence_info)를 생성할 수 있다. 일관성 정보(coherence_info)는 입력 신호들 간의 입력 신호 일관성, 음성 신호들 간의 음성 신호 일관성 및 잡음 신호들 간의 잡음 신호 일관성을 포함할 수 있다.
구체적으로, 일관성 추정 회로(422)는 [수학식 12]에 따라 입력 신호들 간의 입력 신호 일관성
Figure pat00057
을 획득할 수 있다.
Figure pat00058
나아가, 일관성 추정 회로(422)는 [수학식 13]에 따라 잡음 신호들 간의 잡음 신호 일관성
Figure pat00059
을 획득할 수 있다.
Figure pat00060
여기서,
Figure pat00061
는 평활화 파라미터(smoothing parameter)이고,
Figure pat00062
는 제1 임계 값이다.
즉, 일관성 추정 회로(422)는, 사후 음성 존재 확률
Figure pat00063
이 제1 임계 값
Figure pat00064
보다 작으면, 입력 신호 일관성
Figure pat00065
을 고려하여 잡음 신호 일관성
Figure pat00066
을 생성할 수 있다. 일관성 추정 회로(422)는, 사후 음성 존재 확률
Figure pat00067
이 제1 임계 값
Figure pat00068
과 같거나 크면, 이전 프레임에 대한 잡음 신호 일관성
Figure pat00069
을 현재 프레임에 대한 잡음 신호 일관성
Figure pat00070
으로 사용할 수 있다.
나아가, 일관성 추정 회로(422)는 [수학식 14]에 따라 음성 신호들 간의 음성 신호 일관성
Figure pat00071
을 생성할 수 있다.
Figure pat00072
즉, 일관성 추정 회로(422)는, 사후 음성 존재 확률
Figure pat00073
이 제2 임계 값
Figure pat00074
과 같거나 크면, 입력 신호 일관성
Figure pat00075
및 잡음 신호 일관성
Figure pat00076
을 고려하여 음성 신호 일관성
Figure pat00077
을 생성할 수 있다. 일관성 추정 회로(422)는, 사후 음성 존재 확률
Figure pat00078
이 제2 임계 값
Figure pat00079
보다 작으면, 이전 프레임에 대한 음성 신호 일관성
Figure pat00080
을 현재 프레임에 대한 음성 신호 일관성
Figure pat00081
으로 사용할 수 있다.
확산성 잡음 결정 회로(424)는 파워 스펙트럼 밀도 정보(PSD_info)와 일관성 정보(coherence_info)를 사용하여 중간 잡음 정보를 생성할 수 있다. 구체적으로, 확산성 잡음 결정 회로(424)는 [수학식 15]에 따라 중간 잡음 정보(intermediate noise information)를 생성할 수 있다.
Figure pat00082
여기서,
Figure pat00083
는 중간 잡음 정보(intermediate noise information)이다. 중간 잡음 정보(intermediate noise information)은 여러 방향에서 수신된 잡음 신호들의 레벨을 나타낼 수 있다.
확산성 잡음 결정 회로(424)는 중간 잡음 정보
Figure pat00084
와 공간 필터 신호 Y(k,l)를 입력으로 사용하고, 사후 음성 존재 확률(post_SPP)을 가중치로 사용함으로써, 확산성 잡음 정보(diffuse_noise)를 생성할 수 있다. 구체적으로, 확산성 잡음 결정 회로(424)는 [수학식 16]에 따라 확산성 잡음 정보(diffuse_noise)를 생성할 수 있다.
Figure pat00085
여기서,
Figure pat00086
는 확산성 잡음 신호를 가우시안 모델링했을 때, 현재 프레임에 대한 확산성 잡음 신호의 분산을 나타낼 수 있다. 사후 음성 존재 확률
Figure pat00087
과 사후 음성 부재 확률
Figure pat00088
의 합은 1일 수 있다.
[수학식 16]에 따르면, 확산성 잡음 결정 회로(424)는 사후 음성 존재 확률
Figure pat00089
이 높은 경우, 중간 잡음 정보
Figure pat00090
의 영향을 크게 하고, 사후 음성 부재 확률
Figure pat00091
이 높은 경우, 공간 필터 신호 Y(k,l)의 영향을 크게함으로써, 현재 프레임에 대한 확산성 잡음 신호의 분산
Figure pat00092
을 생성할 수 있다. 본 발명에 따른 실시 예에서, 확산성 잡음 정보(diffuse_noise)는 확산성 잡음 신호의 분산을 나타낼 수 있다.
도 6은 본 개시의 예시적 실시 예에 따른 잡음 통합 회로를 구체적으로 설명하기 위한 도면이다.
도 6을 참조하면, 잡음 통합 회로(430)는 일관성 정보(coherence_info), 방향성 잡음 정보(directional_noise) 및 확산성 잡음 정보(diffuse_noise)를 수신하고, 추정 잡음 정보(es_noise)를 생성할 수 있다. 구체적으로, 잡음 통합 회로(430)는 [수학식 17]에 따라 추정 잡음 정보(es_noise)를 생성할 수 있다. 추정 잡음 정보(es_noise)는 복수의 입력 신호들에 포함된 잡음 신호 세기의 추정 값일 수 있다.
Figure pat00093
[수학식 17]에 따르면, 잡음 통합 회로(430)는 입력 신호 일관성이 높은 경우 방향성 잡음 정보
Figure pat00094
의 영향을 크게하고, 입력 신호 일관성이 낮은 경우, 확산성 잡음 정보
Figure pat00095
의 영향을 크게함으로써, 추정 잡음 정보(es_noise)
Figure pat00096
를 생성할 수 있다.
입력 신호 일관성이 높은 경우, 복수의 마이크로폰들이 수신한 입력 신호들의 상관 관계가 높을 수 있다. 입력 신호 일관성과 입력 신호의 방향성은 비례할 수 있다.
즉, 잡음 통합 회로(430)는 방향성에 따라 추정 잡음 정보(es_noise)에 포함된 방향성 잡음 정보와 확산성 잡음 정보의 비율을 조절할 수 있다.
구체적으로, 잡음 통합 회로(430)는 입력 신호들의 방향성이 높은 경우 방향성이 있는 잡음 신호를 추정하는 데 사용되는 방향성 잡음 정보
Figure pat00097
의 비율을 높이고, 입력 신호들의 방향성이 낮은 경우 방향성이 없는 잡음 신호를 추정하는 데 사용되는 확산성 잡음 정보
Figure pat00098
의 비율을 높임으로써, 입력된 잡음 신호를 신뢰성 있게 추정할 수 있다.
도 7은 본 개시의 예시적 실시 예에 따른 음성 추정 방법을 설명하기 위한 흐름도이다.
도 7을 참조하면, 단계 700에서, 마이크로폰 어레이(100)에 의해 복수의 입력 신호들이 수신될 수 있다. 마이크로폰 어레이는 복수의 마이크로 폰들을 포함할 수 있다.
단계 800에서, 공간 필터링 회로(300)에 의해 복수의 입력 신호들에 대응되는 공간 필터 신호가 생성될 수 있다. 공간 필터링(spatial filtering)은 관심 방향에서 수신되는 입력 신호를 증폭시키고, 그 외 방향에서 수신되는 입력 신호는 억제시키는 필터링 방식일 수 있다.
단계 900에서, 복수의 입력 신호들 및 공간 필터 신호를 기초로, 입력 신호에 포함된 잡음 신호의 레벨을 나타내는 추정 잡음 정보가 생성될 수 있다. 구체적으로, 단계 900에서, 방향성 잡음 정보와 확산성 잡음 정보를 통합함으로써 추정 잡음 정보를 생성할 수 있다.
단계 1000에서, 추정 잡음 정보를 기초로 공간 필터 신호를 다시 한 번 필터링함으로써 추정 음성 신호를 생성할 수 있다.
본 개시에 따른 음성 추정 방법은, 입력 신호로부터 공간 필터링을 통해 공간 필터 신호를 생성하고, 추정 잡음 정보를 기초로 공간 필터 신호를 다시 필터링 함으로써 신뢰성있는 음성 신호를 추정할 수 있다.
도 8은 본 개시의 예시적 실시 예에 따른 잡음 추정 방법을 설명하기 위한 흐름도이다.
도 8은 도 7의 단계 900을 구체적으로 설명하기 위한 흐름도일 수 있다. 도 8을 참조하면, 단계 910에서, 복수의 입력 신호들에 포함된 음성 신호의 존재 확률을 생성하고, 음성 존재 확률을 기반으로 방향성 잡음 정보를 생성할 수 있다. 방향성 잡음 정보는 관심 방향에서 수신되는 잡음 신호의 레벨을 나타낼 수 있다. 단계 910은 도 3 및 도 4를 참조하여 설명된 방향성 잡음 추정 회로(410)의 동작을 포함할 수 있으므로 중복되는 설명은 생략한다.
단계 920에서, 복수의 입력 신호들 간의 일관성 정보를 기반으로 확산성 잡음 정보를 생성할 수 있다. 확산성 잡음 정보는 여러 방향에 대해 균일한 가중치를 갖는 잡음 신호들의 레벨을 나타낼 수 있다. 단계 920은 도 3 및 도 5를 참조하여 설명된 확산성 잡음 추정 회로(420)의 동작을 포함할 수 있으므로 중복되는 설명은 생략한다.
단계 930에서, 복수의 입력 신호들 간의 일관성 정보를 가중치로 사용하여, 방향성 잡음 정보와 확산성 잡음 정보를 통합함으로써 추정 잡음 정보를 생성할 수 있다. 단계 930은 도 3 및 도6를 참조하여 설명된 잡음 통합 회로(430)의 동작을 포함할 수 있으므로 중복되는 설명은 생략한다.
본 개시에 따른 잡음 추정 방법은, 일관성 정보를 입력 신호의 방향성을 나타내는 파라미터로 사용함으로써, 추정 잡음 정보에 포함된 방향성 잡음 정보와 확산성 잡음 정보의 비율을 설정할 수 있다. 즉, 입력 신호의 방향성에 따라 추정 잡음 정보에 포함된 두 가지 잡음 정보의 비율을 최적화함으로써 신뢰성 있는 잡음 신호를 추정할 수 있다.
도 9는 본 개시의 예시적 실시 예에 따른 잡음 신호 일관성을 생성하는 방법을 설명하기 위한 흐름도이다.
도 9를 참조하면, 단계 921에서, 일관성 추정 회로(422)는 입력 신호의 파워 스펙트럼 밀도를 사용하여 입력 신호 일관성을 생성할 수 있다.
단계 922에서, 음성 신호 존재 확률이 제1 임계 값보다 작은 경우 단계 923이 수행되고, 음성 신호 존재 확률이 제1 임계 값과 같거나 큰 경우 단계 924가 수행될 수 있다.
단계 923에서, 일관성 추정 회로(422)는 이전 프레임에 대한 잡음 신호 일관성을 현재 프레임에 대한 잡음 신호 일관성으로 사용할 수 있다.
단계 924에서, 일관성 추정 회로(422)는 입력 신호 일관성과 이전 프레임에 대한 잡음 신호 일관성을 가중합함으로써 현재 프레임에 대한 잡음 신호 일관성을 생성할 수 있다.
도 10은 본 개시의 예시적 실시 예에 따른 음성 신호 일관성을 생성하는 방법을 설명하기 위한 흐름도이다.
도 10을 참조하면, 단계 925에서, 일관성 추정 회로(422)는 입력 신호 일관성 및 잡음 신호 일관성을 생성할 수 있다. 단계 925는 도 9에서 설명된 단계 921 내지 단계 924를 포함할 수 있다.
단계 926에서, 음성 신호 존재 확률이 제2 임계 값과 같거나 큰 경우, 단계 927이 수행되고, 음성 신호 존재 확률이 제2 임계 값보다 작은 경우 단계 928이 수행될 수 있다.
단계 927에서, 일관성 추정 회로(422)는 이전 프레임에 대한 음성 신호 일관성을 현재 프레임에 대한 음성 신호 일관성으로 사용할 수 있다.
단계 928에서, 일관성 추정 회로(422)는 파워 스펙트럼 밀도, 입력 신호 일관성 및 잡음 신호 일관성을 기초로 중간 잡음 정보를 생성할 수 있다.
단계 929에서, 일관성 추정 회로(422)는 이전 프레임에 대한 음성 신호 일관성과 중간 잡음 정보를 가중합함으로써 현재 프레임에 대한 음성 신호 일관성을 생성할 수 있다.
도 11은 다양한 실시 예들에 따른 전자 장치의 블록도를 나타낸다.
도 11을 참조하면, 전자 장치(101) 는 제1 네트워크(198)(예: 근거리 무선 통신)를 통하여 전자 장치(102)와 통신하거나, 또는 제2 네트워크(199)(예: 원거리 무선 통신)를 통하여 전자 장치(104) 또는 서버(108)와 통신할 수 있다. 일 실시예에 따르면, 전자 장치(101)는 서버(108)를 통하여 전자 장치(104)와 통신할 수 있다. 일 실시 예에 따르면, 전자 장치(101)는 프로세서(120), 메모리(130), 입력 장치(150), 음향 출력 장치(155), 표시 장치(160), 오디오 모듈(170), 센서 모듈(176), 인터페이스(177), 햅틱 모듈(179), 카메라 모듈(180), 전력 관리 모듈(188), 배터리(189), 통신 모듈(190), 가입자 식별 모듈(196), 및 안테나 모듈(197)을 포함할 수 있다.
본 개시에 따른 일 실시 예에서, 전자 장치(101)는 도 1에서 설명된 음성 처리 장치(10)를 포함할 수 있다.
어떤 실시 예에서, 구성요소들 중 적어도 하나(예: 표시 장치(160) 또는 카메라 모듈(180))가 전자 장치(101)에서 생략되거나 다른 구성 요소가 전자 장치(101)에서 추가될 수 있다. 어떤 실시 예에서, 표시 장치(160)(예: 디스플레이)에 센서 모듈(176)(예: 지문 센서, 홍채 센서, 또는 조도 센서)이 임베디드 되는 경우와 같이, 일부의 구성요소들이 통합되어 구현될 수 있다.
프로세서(120)는, 예를 들면, 소프트웨어(예: 프로그램(140))를 구동하여 프로세서(120)에 연결된 전자 장치(101)의 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)을 제어할 수 있고, 다양한 데이터 처리 및 연산을 수행할 수 있다. 프로세서(120)는 다른 구성요소(예: 센서 모듈(176) 또는 통신 모듈(190))로부터 수신된 명령 또는 데이터를 휘발성 메모리(132)에 로드하여 처리하고, 결과 데이터를 비휘발성 메모리(134)에 저장할 수 있다. 일 실시 예에 따르면, 프로세서(120)는 메인 프로세서(121)(예: 중앙 처리 장치 또는 애플리케이션 프로세서), 및 이와는 독립적으로 운영되고, 추가적으로 또는 대체적으로, 메인 프로세서(121)보다 저전력을 사용하거나, 또는 지정된 기능에 특화된 보조 프로세서(123)(예: 그래픽 처리 장치, 이미지 시그널 프로세서, 센서 허브 프로세서, 또는 커뮤니케이션 프로세서)를 포함할 수 있다. 보조 프로세서(123)는 메인 프로세서(121)와 별개로 또는 임베디드되어 운영될 수 있다. 이런 경우, 보조 프로세서(123)는, 예를 들면, 메인 프로세서(121)가 인액티브(예: 슬립) 상태에 있는 동안 메인 프로세서(121)를 대신하여, 또는 메인 프로세서(121)가 액티브(예: 애플리케이션 수행) 상태에 있는 동안 메인 프로세서(121)와 함께, 전자 장치(101)의 구성요소들 중 적어도 하나의 구성요소(예: 표시 장치(160), 센서 모듈(176), 또는 통신 모듈(190))와 관련된 기능 또는 상태들의 적어도 일부를 제어할 수 있다. 일 실시 예에 따르면, 보조 프로세서(123)(예: 이미지 시그널 프로세서 또는 커뮤니케이션 프로세서)는 기능적으로 관련 있는 다른 구성 요소(예: 카메라 모듈(180) 또는 통신 모듈(190))의 일부 구성 요소로서 구현될 수 있다. 메모리(130)는, 전자 장치(101)의 적어도 하나의 구성요소(예: 프로세서(120) 또는 센서모듈(176))에 의해 사용되는 다양한 데이터, 예를 들어, 소프트웨어(예: 프로그램(140)) 및, 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 저장할 수 있다. 메모리(130)는, 휘발성 메모리(132) 또는 비휘발성 메모리(134)를 포함할 수 있다.
본 개시에 따른 실시 예에서, 따르면, 프로세서(120)는 도 2에서 설명된 샘플링 회로(200), 공간 필터 회로(300), 잡음 추정 회로(400) 및 음성 추정 회로(500)의 동작이 수행되도록 전자 장치(101) 내의 구성요소를 제어할 수 있다. 즉, 프로세서(120)는 입력 장치(150)에 의해 수신된 입력 신호에서 잡음 신호 및 음성 신호를 추정할 수 있다.
일 실시 예에 따르면, 프로그램(140)은 메모리(130)에 저장되는 소프트웨어로서, 예를 들면, 운영 체제(142), 미들 웨어(144) 또는 애플리케이션(146)을 포함할 수 있다.
일 실시 예에 따르면, 입력 장치(150)는, 전자 장치(101)의 구성요소(예: 프로세서(120))에 사용될 명령 또는 데이터를 전자 장치(101)의 외부(예: 사용자)로부터 수신하기 위한 장치로서, 예를 들면, 마이크, 마우스, 또는 키보드를 포함할 수 있다. 본 개시에 따른 일 실시 예에서, 입력 장치(150)는 도 2에서 설명된 마이크로폰 어레이(100)일 수 있다.
일 실시 예에 따르면, 음향 출력 장치(155)는 음향 신호를 전자 장치(101)의 외부로 출력하기 위한 장치로서, 예를 들면, 멀티미디어 재생 또는 녹음 재생과 같이 일반적인 용도로 사용되는 스피커와 전화 수신 전용으로 사용되는 리시버를 포함할 수 있다. 일 실시 예에 따르면, 리시버는 스피커와 일체 또는 별도로 형성될 수 있다.
일 실시 예에 따르면, 표시 장치(160)는 전자 장치(101)의 사용자에게 정보를 시각적으로 제공하기 위한 장치로서, 예를 들면, 디스플레이, 홀로그램 장치, 또는 프로젝터 및 해당 장치를 제어하기 위한 제어 회로를 포함할 수 있다. 일 실시 예에 따르면, 표시 장치(160)는 터치 회로(touch circuitry) 또는 터치에 대한 압력의 세기를 측정할 수 있는 압력 센서를 포함할 수 있다.
일 실시 예에 따르면, 오디오 모듈(170)은 소리와 전기 신호를 쌍방향으로 변환시킬 수 있다. 일 실시 예에 따르면, 오디오 모듈(170)은, 입력 장치(150)를 통해 소리를 획득하거나, 음향 출력 장치(155), 또는 전자 장치(101)와 유선 또는 무선으로 연결된 외부 전자 장치(예: 전자 장치(102)(예: 스피커 또는 헤드폰))를 통해 소리를 출력할 수 있다.
일 실시 예에 따르면, 센서 모듈(176)은 전자 장치(101)의 내부의 작동 상태(예: 전력 또는 온도), 또는 외부의 환경 상태에 대응하는 전기 신호 또는 데이터 값을 생성할 수 있다. 센서 모듈(176)은, 예를 들면, 제스처 센서, 자이로 센서, 기압 센서, 마그네틱 센서, 가속도 센서, 그립 센서, 근접 센서, 컬러 센서, IR(infrared) 센서, 생체 센서, 온도 센서, 습도 센서, 또는 조도 센서를 포함할 수 있다.
일 실시 예에 따르면, 인터페이스(177)는 외부 전자 장치(예: 전자 장치(102))[0030] 와 유선 또는 무선으로 연결할 수 있는 지정된 프로토콜을 지원할 수 있다. 일 실시 예에 따르면, 인터페이스(177)는 HDMI(high definition
multimediainterface), USB(universal serial bus) 인터페이스, SD카드 인터페이스, 또는 오디오 인터페이스를 포함할 수 있다.
일 실시 예에 따르면, 연결 단자(178)는 전자 장치(101)와 외부 전자 장치(예: 전자 장치(102))를 물리적으로 연결시킬 수 있는 커넥터, 예를 들면, HDMI 커넥터, USB 커넥터, SD 카드 커넥터, 또는 오디오 커넥터(예: 헤드폰 커넥터)를 포함할 수 있다.
일 실시 예에 따르면, 햅틱 모듈(179)은 전기적 신호를 사용자가 촉각 또는 운동 감각을 통해서 인지할 수 있는 기계적인 자극(예: 진동 또는 움직임) 또는 전기적인 자극으로 변환할 수 있다. 햅틱 모듈(179)은, 예를 들면, 모터, 압전 소자, 또는 전기 자극 장치를 포함할 수 있다.
일 실시 예에 따르면, 카메라 모듈(180)은 정지 영상 및 동영상을 촬영할 수 있다. 일 실시 예에 따르면, 카메라 모듈(180)은 하나 이상의 렌즈, 이미지 센서, 이미지 시그널 프로세서, 또는 플래시를 포함할 수 있다.
일 실시 예에 따르면, 전력 관리 모듈(188)은 전자 장치(101)에 공급되는 전력을 관리하기 위한 모듈로서, 예를 들면, PMIC(power management integrated circuit)의 적어도 일부로서 구성될 수 있다.
일 실시 예에 따르면, 배터리(189)는 전자 장치(101)의 적어도 하나의 구성 요소에 전력을 공급하기 위한 장치로서, 예를 들면, 재충전 불가능한 1차 전지, 재충전 가능한 2차 전지 또는 연료 전지를 포함할 수 있다.
일 실시 예에 따르면, 통신 모듈(190)은 전자 장치(101)와 외부 전자 장치(예: 전자 장치(102), 전자 장치(104), 또는 서버(108))간의 유선 또는 무선 통신 채널의 수립, 및 수립된 통신 채널을 통한 통신 수행을 지원할 수 있다. 통신 모듈(190)은 프로세서(120)(예: 애플리케이션 프로세서)와 독립적으로 운영되는, 유선 통신 또는 무선 통신을 지원하는 하나 이상의 커뮤니케이션 프로세서를 포함할 수 있다. 일 실시 예에 따르면, 통신 모듈(190)은 무선 통신 모듈(192)(예: 셀룰러 통신 모듈, 근거리 무선 통신 모듈, 또는 GNSS(global navigation satellite system) 통신 모듈) 또는 유선 통신 모듈(194)(예: LAN(local area network) 통신 모듈, 또는 전력선 통신 모듈)을 포함하고, 그 중 해당하는 통신 모듈을 이용하여 제1 네트워크(198)(예: 블루투스, WiFi direct 또는 IrDA(infrared data association) 같은 근거리 통신 네트워크) 또는 제2 네트워크(199)(예: 셀룰러 네트워크, 인터넷, 또는 컴퓨터 네트워크(예: LAN 또는 WAN)와 같은 원거리 통신 네트워크)를 통하여 외부 전자 장치와 통신할 수 있다. 상술한 여러 종류의 통신 모듈(190)은 하나의 칩으로 구현되거나 또는 각각 별도의 칩으로 구현될 수 있다.
일 실시 예에 따르면, 무선 통신 모듈(192)은 가입자 식별 모듈(196)에 저장된 사용자 정보를 이용하여 통신 네트워크 내에서 전자 장치(101)를 구별 및 인증할 수 있다.
일 실시 예에 따르면, 안테나 모듈(197)은 신호 또는 전력을 외부로 송신하거나 외부로부터 수신하기 위한 하나 이상의 안테나들을 포함할 수 있다. 일 실시 예에 따르면, 통신 모듈(190)(예: 무선 통신 모듈(192))은 통신 방식에 적합한 안테나를 통하여 신호를 외부 전자 장치로 송신하거나, 외부 전자 장치로부터 수신할 수 있다.
상기 구성요소들 중 일부 구성요소들은 주변 기기들간 통신 방식(예: 버스, GPIO(general purposeinput/output), SPI(serial peripheral interface), 또는 MIPI(mobile industry processor interface))를 통해 서로 연결되어 신호(예: 명령 또는 데이터)를 상호간에 교환할 수 있다.
일 실시 예에 따르면, 명령 또는 데이터는 제2 네트워크(199)에 연결된 서버(108)를 통해서 전자 장치(101)와 외부의 전자 장치(104)간에 송신 또는 수신될 수 있다. 전자 장치(102, 104) 각각은 전자 장치(101)와 동일한 또는 다른 종류의 장치일 수 있다. 일 실시 예에 따르면, 전자 장치(101)에서 실행되는 동작들의 전부 또는 일부는 다른 하나 또는 복수의 외부 전자 장치에서 실행될 수 있다. 일 실시 예에 따르면, 전자 장치(101)가 어떤 기능이나 서비스를 자동으로 또는 요청에 의하여 수행해야 할 경우에, 전자 장치(101)는 기능 또는 서비스를 자
체적으로 실행시키는 대신에 또는 추가적으로, 그와 연관된 적어도 일부 기능을 외부 전자 장치에게 요청할 수 있다. 상기 요청을 수신한 외부 전자 장치는 요청된 기능 또는 추가 기능을 실행하고, 그 결과를 전자 장치(101)로 전달할 수 있다. 전자 장치(101)는 수신된 결과를 그대로 또는 추가적으로 처리하여 요청된 기능이나 서비스를 제공할 수 있다. 이를 위하여, 예를 들면, 클라우드 컴퓨팅, 분산 컴퓨팅, 또는 클라이언트-서버 컴퓨팅 기술이 이용될 수 있다.
이상에서와 같이 도면과 명세서에서 예시적인 실시 예들이 개시되었다. 본 명세서에서 특정한 용어를 사용하여 실시 예들을 설명되었으나, 이는 단지 본 개시의 기술적 사상을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 개시의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 개시의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (20)

  1. 음성 처리 장치에 있어서,
    외부로부터 복수의 입력 신호들을 수신하는 복수의 마이크로폰들;
    공간 필터링을 통해 상기 복수의 입력 신호들에 대응하는 공간 필터 신호를 생성하는 공간 필터링 회로;
    상기 복수의 입력 신호들이 방향성을 갖는지 여부를 기초로, 관심 방향에서 수신되는 잡음 신호의 레벨을 나타내는 방향성 잡음 정보 및 여러 방향에서 수신되는 잡음 신호들의 레벨을 나타내는 확산성 잡음 정보를 통합함으로써 추정 잡음 정보를 생성하는 잡음 추정 회로; 및
    상기 추정 잡음 정보를 기초로 상기 공간 필터 신호를 필터링함으로써 추정 음성 신호를 생성하는 음성 추정 회로;를 포함하는 음성 처리 장치.
  2. 제1항에 있어서, 상기 잡음 추정 회로는,
    상기 복수의 입력 신호들에 포함된 음성 신호의 존재 확률(presense probability) 및 상기 공간 필터 신호를 기반으로 상기 방향성 잡음 정보를 생성하는 방향성 잡음 추정 회로; 및
    상기 복수의 입력 신호들 간의 일관성(coherence) 정보를 기반으로 상기 확산성 잡음 정보를 생성하는 확산성 잡음 추정 회로;를 포함하는 음성 처리 장치.
  3. 제2항에 있어서, 상기 방향성 잡음 추정 회로는,
    상기 음성 신호의 존재 확률을 가중치로 사용하여, 이전 프레임에 대한 방향성 잡음 정보 및 상기 공간 필터 신호를 선형 결합함으로써 현재 프레임에 대한 상기 방향성 잡음 정보를 생성하는, 음성 처리 장치.
  4. 제2항에 있어서, 상기 확산성 잡음 추정 회로는,
    상기 복수의 입력 신호들 간의 파워 스펙트럼 밀도 및 상기 일관성 정보를 기초로 중간 잡음 정보를 생성하고, 상기 음성 신호의 존재 확률을 가중치로 사용하여, 상기 중간 잡음 정보 및 상기 공간 필터 신호를 선형 결합함으로써 현재 프레임에 대한 상기 확산성 잡음 정보를 생성하는, 음성 처리 장치.
  5. 제4항에 있어서, 상기 확산성 잡음 추정 회로는,
    상기 복수의 입력 신호들의 상기 파워 스펙트럼 밀도를 생성하는 파워 스펙트럼 밀도 추정 회로;
    상기 파워 스펙트럼 밀도를 이용하여 상기 복수의 입력 신호들 간의 상기 일관성(coherence) 정보를 생성하는 일관성 추정 회로;
    상기 공간 필터 신호 및 이전 프레임에 대한 상기 확산성 잡음 정보를 이용하여 사후 신호-대-잡음비를 생성하는 사후 신호-대-잡음비 추정 회로; 및
    상기 파워 스펙트럼 밀도, 상기 일관성(coherence) 정보, 상기 사후 신호-대-잡음비 및 상기 음성 신호의 존재 확률을 이용하여, 현재 프레임에 대한 상기 확산성 잡음 정보를 생성하는 확산성 잡음 결정 회로;를 포함하는, 음성 처리 장치.
  6. 제5항에 있어서, 상기 일관성 추정 회로는,
    상기 음성 신호의 존재 확률이 제1 임계 값보다 큰 경우, 이전 프레임에 대한 잡음 신호 일관성을 현재 프레임에 대한 잡음 신호 일관성으로 사용하고,
    상기 음성 신호의 존재 확률이 상기 제1 임계 값과 같거나 작은 경우, 이전 프레임에 대한 잡음 신호 일관성과 입력 신호 일관성을 선형 결합함으로써 현재 프레임에 대한 잡음 신호 일관성을 생성하는, 음성 처리 장치.
  7. 제6항에 있어서, 상기 일관성 추정 회로는,
    상기 음성 신호의 존재 확률이 제2 임계 값보다 작은 경우, 이전 프레임에 대한 음성 신호 일관성을 현재 프레임에 대한 음성 신호 일관성으로 사용하고,
    상기 음성 신호의 존재 확률이 상기 제2 임계 값과 같거나 큰 경우, 입력 신호 일관성에서 현재 프레임에 대한 잡음 신호 일관성을 제거함으로써 중간 잡음 정보를 생성하고, 상기 중간 잡음 정보와 이전 프레임에 대한 음성 신호 일관성을 선형 결합함으로써 현재 프레임에 대한 음성 신호 일관성을 생성하는, 음성 처리 장치.
  8. 제2항에 있어서, 상기 잡음 추정 회로는,
    상기 입력 신호들이 상기 방향성을 갖는지 여부를 나타내는 상기 일관성(coherence) 정보를 가중치로 사용하여, 상기 방향성 잡음 정보 및 상기 확산성 잡음 정보를 선형 결합함으로써 상기 추정 잡음 정보를 생성하는 최종 잡음 산출 회로;를 더 포함하는 음성 처리 장치.
  9. 제1항에 있어서, 상기 음성 추정 회로는,
    위너 필터를 사용하여 상기 추정 잡음 정보가 반영된 이득을 생성하고, 생성된 이득과 상기 공간 필터 신호를 곱함으로써 상기 추정 음성 신호를 생성하는, 음성 처리 장치.
  10. 외부로부터 수신된 복수의 입력 신호들에 포함된 잡음 신호를 추정하는 방법에 있어서,
    상기 복수의 입력 신호들에 대한 공간 필터링을 통해 생성되는 공간 필터 신호 및 상기 복수의 입력 신호들에 포함된 음성 신호의 존재 확률을 기반으로 방향성 잡음 정보를 생성하는 단계;
    상기 복수의 입력 신호들 간의 일관성(coherence) 정보를 기반으로 확산성 잡음 정보를 생성하는 단계; 및
    상기 일관성 정보를 가중치로 사용하여 상기 방향성 잡음 정보와 상기 확산성 잡음 정보를 선형 결합함으로써 상기 잡음 신호를 추정하는 단계;를 포함하는 잡음 추정 방법.
  11. 제10항에 있어서, 상기 방향성 잡음 정보를 생성하는 단계는,
    상기 음성 신호의 존재 확률을 가중치로 사용하여, 이전 프레임에 대한 방향성 잡음 정보 및 상기 공간 필터 신호를 선형 결합함으로써 현재 프레임에 대한 방향성 잡음 정보를 생성하는 잡음 추정 방법.
  12. 제10항에 있어서, 상기 확산성 잡음 정보를 생성하는 단계는,
    상기 음성 신호의 존재 확률을 가중치로 사용하여, 상기 복수의 입력 신호들 간의 파워 스펙트럼 밀도 및 상기 일관성 정보를 기초로 중간 잡음 정보를 생성하는 단계; 및
    상기 음성 신호의 존재 확률을 가중치로 사용하여, 상기 중간 잡음 정보 및 상기 공간 필터 신호를 선형 결합함으로써 상기 확산성 잡음 정보를 생성하는 단계;를 포함하는 잡음 추정 방법.
  13. 제12항에 있어서, 상기 확산성 잡음 정보를 생성하는 단계는,
    상기 복수의 입력 신호들에 대한 파워 스펙트럼 밀도를 생성하는 단계;
    상기 파워 스펙트럼 밀도를 이용하여 상기 복수의 입력 신호들 간의 상기 일관성 정보를 생성하는 단계;
    상기 공간 필터 신호 및 이전 프레임에 대한 상기 확산성 잡음 정보를 이용하여 사후 신호-대-잡음비를 생성하는 단계; 및
    상기 파워 스펙트럼 밀도, 상기 일관성 정보, 상기 사후 신호-대-잡음비 및 상기 음성 신호의 존재 확률을 이용하여, 현재 프레임에 대한 확산성 잡음 정보를 생성하는 단계;를 더 포함하는 잡음 추정 방법.
  14. 제13항에 있어서, 상기 일관성 정보를 생성하는 단계는,
    상기 파워 스펙트럼 밀도를 사용하여 입력 신호 일관성을 생성하는 단계;
    상기 음성 신호의 존재 확률과 제1 임계 값을 비교하는 단계; 및
    비교 결과에 따라, 이전 프레임에 대한 잡음 신호 일관성인 제1 잡음 일관성 또는 이전 프레임에 대한 잡음 신호 일관성과 상기 입력 신호 일관성을 선형 결합한 제2 잡음 일관성 중 어느 하나를 현재 프레임에 대한 잡음 신호 일관성으로 사용하는 단계;를 포함하는 잡음 추정 방법.
  15. 제14항에 있어서, 상기 일관성 정보를 생성하는 단계는,
    상기 음성 신호의 존재 확률과 제2 임계 값을 비교하는 단계; 및
    비교 결과에 따라, 이전 프레임에 대한 음성 신호 일관성인
    이전 프레임에 대한 음성 신호 일관성인 제1 음성 일관성 또는 상기 입력 신호 일관성에서 현재 프레임에 대한 잡음 신호 일관성을 제거함으로써 획득되는 중간 잡음 정보와 이전 프레임에 대한 음성 일관성 정보를 선형 결합한 제2 음성 일관성 중 어느 하나를 현재 프레임에 대한 음성 신호 일관성으로 사용하는 단계;를 더 포함하는 잡음 추정 방법.
  16. 전자 장치에 있어서,
    음성 신호와 잡음 신호를 포함하는 복수의 입력 신호들을 수신하는 입력 장치; 및
    상기 입력 장치와 전기적으로 연결되고 상기 복수의 입력 신호들로부터 음성 신호를 추정하는 프로세서;를 포함하고,
    상기 프로세서는,
    상기 복수의 입력 신호들에 대한 공간 필터링을 통해 공간 필터 신호를 생성하고, 상기 복수의 입력 신호들에 포함된 음성 신호의 존재 확률 및 상기 공간 필터 신호를 기초로 방향성 잡음 정보를 생성하고, 상기 복수의 입력 신호들 간의 일관성(coherence) 정보를 기초로 확산성 잡음 정보를 생성하고, 상기 방향성 잡음 정보 및 상기 확산성 잡음 정보를 선형 결합함으로써 상기 복수의 입력 신호들에 포함된 잡음 신호를 추정하는, 전자 장치.
  17. 제16항에 있어서, 상기 프로세서는,
    상기 일관성 정보를 가중치로 사용하여, 상기 방향성 잡음 정보와 상기 확산성 잡음 정보를 선형 결합하는, 전자 장치.
  18. 제16항에 있어서, 상기 프로세서는,
    상기 음성 신호의 존재 확률이 제1 임계 값보다 큰 경우, 이전 프레임에 대한 잡음 신호 일관성을 현재 프레임에 대한 잡음 신호 일관성으로 사용하고,
    상기 음성 신호의 존재 확률이 상기 제1 임계 값과 같거나 작은 경우, 이전 프레임에 대한 잡음 신호 일관성과 입력 신호 일관성을 선형 결합함으로써 현재 프레임에 대한 잡음 신호 일관성을 생성하는, 전자 장치.
  19. 제 17항에 있어서, 상기 프로세서는,
    상기 음성 신호의 존재 확률이 제2 임계 값보다 작은 경우, 이전 프레임에 대한 음성 신호 일관성을 현재 프레임에 대한 음성 신호 일관성으로 사용하고,
    상기 음성 신호의 존재 확률이 상기 제2 임계 값과 같거나 큰 경우, 입력 신호 일관성에서 현재 프레임에 대한 잡음 신호 일관성을 제거함으로써 중간 잡음 정보를 생성하고, 상기 중간 잡음 정보와 이전 프레임에 대한 음성 신호 일관성을 선형 결합함으로써 현재 프레임에 대한 음성 신호 일관성을 생성하는, 전자 장치.
  20. 제16항에 있어서, 상기 프로세서는,
    추정된 상기 잡음 신호를 기초로 상기 공간 필터 신호를 필터링함으로써 상기 복수의 입력 신호들에 포함된 음성 신호를 추정하는, 전자 장치.
KR1020200043602A 2020-04-09 2020-04-09 복수의 마이크로폰들을 사용한 음성 처리 장치 및 방법 KR20210125846A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200043602A KR20210125846A (ko) 2020-04-09 2020-04-09 복수의 마이크로폰들을 사용한 음성 처리 장치 및 방법
US17/072,672 US11508363B2 (en) 2020-04-09 2020-10-16 Speech processing apparatus and method using a plurality of microphones

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200043602A KR20210125846A (ko) 2020-04-09 2020-04-09 복수의 마이크로폰들을 사용한 음성 처리 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20210125846A true KR20210125846A (ko) 2021-10-19

Family

ID=78006602

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200043602A KR20210125846A (ko) 2020-04-09 2020-04-09 복수의 마이크로폰들을 사용한 음성 처리 장치 및 방법

Country Status (2)

Country Link
US (1) US11508363B2 (ko)
KR (1) KR20210125846A (ko)

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8345890B2 (en) * 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US20160066087A1 (en) 2006-01-30 2016-03-03 Ludger Solbach Joint noise suppression and acoustic echo cancellation
US8744844B2 (en) * 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
US7831035B2 (en) 2006-04-28 2010-11-09 Microsoft Corporation Integration of a microphone array with acoustic echo cancellation and center clipping
US9008302B2 (en) 2010-10-08 2015-04-14 Optical Fusion, Inc. Audio acoustic echo cancellation for video conferencing
US8811601B2 (en) 2011-04-04 2014-08-19 Qualcomm Incorporated Integrated echo cancellation and noise suppression
WO2012158163A1 (en) 2011-05-17 2012-11-22 Google Inc. Non-linear post-processing for acoustic echo cancellation
US8903722B2 (en) 2011-08-29 2014-12-02 Intel Mobile Communications GmbH Noise reduction for dual-microphone communication devices
US8774399B2 (en) 2011-12-27 2014-07-08 Broadcom Corporation System for reducing speakerphone echo
EP2893532B1 (en) * 2012-09-03 2021-03-24 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for providing an informed multichannel speech presence probability estimation
CN103888630A (zh) 2012-12-20 2014-06-25 杜比实验室特许公司 用于控制声学回声消除的方法和音频处理装置
US10885907B2 (en) * 2018-02-14 2021-01-05 Cirrus Logic, Inc. Noise reduction system and method for audio device with multiple microphones

Also Published As

Publication number Publication date
US11508363B2 (en) 2022-11-22
US20210319788A1 (en) 2021-10-14

Similar Documents

Publication Publication Date Title
US11019421B2 (en) Method for detecting wearing of acoustic device and acoustic device supporting the same
KR20200085030A (ko) 오디오 신호 처리 방법 및 이를 지원하는 전자 장치
KR102475989B1 (ko) 오디오 신호의 주파수의 변화에 따른 위상 변화율에 기반하여 노이즈가 감쇠된 오디오 신호를 생성하는 장치 및 방법
KR20200055983A (ko) 장치로부터 방사되는 전자기 신호를 측정하기 위한 방법 및 그 전자 장치
KR102478393B1 (ko) 노이즈가 정제된 음성 신호를 획득하는 방법 및 이를 수행하는 전자 장치
KR20200086476A (ko) 전자기 신호를 측정하기 위한 방법 및 그 전자 장치
KR20200029212A (ko) Em 센서 모듈을 포함하는 전자 장치 및 이의 제어 방법
KR20200098323A (ko) 복수의 마이크들을 포함하는 음향 출력 장치 및 복수의 마이크들을 이용한 음향 신호의 처리 방법
KR102512614B1 (ko) 오디오 개선을 지원하는 전자 장치 및 이를 위한 방법
US11290800B2 (en) Wearable electronic device with water repellent structure using speaker module and method for sensing moisture penetration thereof
CN112233689B (zh) 音频降噪方法、装置、设备及介质
US20190372334A1 (en) Electronic device and method for preventing corrosion of audio jack
US10388301B2 (en) Method for processing audio signal and electronic device for supporting the same
CN112233688B (zh) 音频降噪方法、装置、设备及介质
US11190891B2 (en) Method for determining whether error has occurred in microphone on basis of magnitude of audio signal acquired through microphone, and electronic device thereof
US20230197084A1 (en) Apparatus and method for classifying speakers by using acoustic sensor
KR20210017252A (ko) 다채널 오디오 신호 처리 방법 및 전자 장치
US11562763B2 (en) Method for improving sound quality and electronic device using same
KR20210125846A (ko) 복수의 마이크로폰들을 사용한 음성 처리 장치 및 방법
US20230215453A1 (en) Electronic device for controlling beamforming and operating method thereof
EP4262181A1 (en) Method and electronic device for removing echo flowing in due to external device
US20230186936A1 (en) Method for processing voice signal, and apparatus using same
EP4336504A1 (en) Audio signal processing method and electronic device supporting same
US20230137857A1 (en) Method and electronic device for detecting ambient audio signal
US20230077324A1 (en) Electronic device and operating method thereof

Legal Events

Date Code Title Description
E902 Notification of reason for refusal