KR100486736B1 - 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치 - Google Patents

두개의 센서를 이용한 목적원별 신호 분리방법 및 장치 Download PDF

Info

Publication number
KR100486736B1
KR100486736B1 KR10-2003-0020059A KR20030020059A KR100486736B1 KR 100486736 B1 KR100486736 B1 KR 100486736B1 KR 20030020059 A KR20030020059 A KR 20030020059A KR 100486736 B1 KR100486736 B1 KR 100486736B1
Authority
KR
South Korea
Prior art keywords
signal
frequency band
source
probability
noise
Prior art date
Application number
KR10-2003-0020059A
Other languages
English (en)
Other versions
KR20040085391A (ko
Inventor
최창규
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR10-2003-0020059A priority Critical patent/KR100486736B1/ko
Priority to US10/813,671 priority patent/US7295972B2/en
Publication of KR20040085391A publication Critical patent/KR20040085391A/ko
Application granted granted Critical
Publication of KR100486736B1 publication Critical patent/KR100486736B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2134Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
    • G06F18/21347Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis using domain transformations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

두 개의 센서로부터 수신되어 주파수영역으로 변환된 제1 및 제2 센서수신신호로부터 적어도 두 개 이상의 목적원별로 신호를 분리하는 방법 및 장치가 개시된다. 그 방법은 (a) 제1 및 제2 센서수신신호 중 적어도 하나에 대하여 프레임별로 광역 신호부재확률과 해당 프레임의 각 주파수대역에 대한 국지 신호부재확률을 계산하는 단계, (b) (a) 단계에서 계산된 국지 신호부재확률에 의해 신호가 존재한다고 판단되는 주파수대역의 신호값에 대하여 생성되는 감쇠와 지연시간을 이용하여 각 목적원에 속하는 주파수대역으로 이루어지는 목적원별 레이블벡터를 생성하는 단계, (c) (a) 단계에서 계산된 광역 신호부재확률에 의해 각 주파수대역별로 잡음신호를 제거한 스펙트럼벡터를 추정하는 단계, 및 (d) (b) 단계에서 얻어진 목적원별 레이블벡터와 (c) 단계에서 얻어진 각 주파수대역에 대하여 추정된 스펙트럼벡터를 각각 승산하여 목적원별로 분리된 신호를 획득하는 단계를 포함한다.

Description

두개의 센서를 이용한 목적원별 신호 분리방법 및 장치{Method and apparatus for blind source separation using two sensors}
본 발명은 신호원 분리(Blind Source Separation)에 관한 것으로서, 특히 두 개의 마이크로폰 수신신호로부터 잡음을 실시간으로 제거함과 동시에 임의의 N개의 목적원별로 신호를 분리하기 위한 방법 및 장치에 관한 것이다.
최근 들어 건강, 안전, 홈 네트워크, 엔터테인먼트 등의 필요성에 의해 더욱 더 사람들의 관심을 끌고 있는 이동 로봇을 동작시키기 위해서는 사람과 로봇 간의 상호작용(Human-Robot Interaction)을 필요로 한다. 즉, 이동 로봇은 사람이 하는 것과 마찬가지로 비젼시스템을 가지고 사람을 인식하고 주변 상황을 인지할 수 있어야 하며, 자신의 주위에서 말하는 사람의 위치를 알아야 하고 그 사람이 하는 말을 이해할 수 있어야 한다.
이동 로봇에 있어서 음성 입력시스템은 사람과 로봇 간의 상호작용에 필수적일 뿐만 아니라 자율 주행에도 중요한 이슈가 된다. 실내 환경에서 이동 로봇의 음성 입력시스템에 야기되는 중요한 문제는 잡음, 반향 및 거리이다. 실내 환경에서는 여러가지 잡음원과 벽이나 기타 사물에 의한 반향이 존재한다. 거리에 따라서 음성의 저주파 성분은 고주파 성분에 비하여 더 많이 감쇄되는 특징이 있다. 따라서, 가정의 실내 환경에서 사람과 로봇 간의 상호작용에 필요한 음성 입력시스템은 자율 주행 이동 로봇이 수 미터 떨어진 거리에서 사용자의 평상적인 목소리를 받아들여 음성인식에 직접적으로 사용될 수 있어야 한다.
이러한 음성 입력시스템에서는 음질 및 음성인식율을 향상시키기 위하여 적어도 두개 이상의 마이크로폰으로 이루어진 마이크로폰 어레이를 널리 사용하게 되고, 마이크로폰 어레이로부터 입력되는 음성신호에 포함된 잡음성분을 제거하기 위하여 단일채널 음성강조기법(Single channel speech Enhancement), 적응적 음향잡음 제거기법(Adaptive acoustic Noise Canceling Method), 일반화된 사이드로브 제거기법(Generalized Sidelobe Canceling Method) 또는 블라인드신호 분리기법(Blind Signal Separatuion) 등과 같은 방법들을 사용하고 있다.
단일채널 음성강조기법은 하나의 마이크로폰을 사용하며 정적인 배경잡음(stationary background noise)과 같이 잡음의 통계적 특성이 시간적으로 변하지 않은 경우에만 그 성능을 발휘한다. B. Widrow et al.의 『"Adaptive Noise Canceling: Principles and Applications," Proceedings of IEEE, vol. 63, no. 12, pp. 1692-1716, 1975』에 개시된 음향잡음 제거기법은 두개의 마이크로폰을 사용하는데, 그 중 하나는 잡음만을 수음하는 참조 마이크로폰이므로, 잡음만을 수음할 수 없는 경우 또는 참조 마이크로폰으로 수음한 잡음 이외의 잡음이 혼입되는 경우에는 그 성능이 급격히 저하된다. O. Hoshuyama et al.의 『"A Robust Adaptive Beamformer For Microphone Arrays With A Blocking Matrix Using Constrained Adaptive Filters," in IEEE Trans. Signal Processing, vol. 47, no. 10, pp. 2677-2684, 1999』에 개시된 일반화된 사이드로브 제거기법은 음성 활성도 검출기(Voice Activity Detector)를 필요로 할 뿐 아니라 목적원신호가 잡음신호와 함께 제거되는 단점이 있다.
한편, 블라인드신호 분리기법의 일종인 DUET(Degenerate Unmixing Estimation Technique)와 관련된 종래기술은 A. Jourjine, S. Rickard 및 O. Yilmaz에 의한 『"Blind separation of disjoint orthogonal signals: Demixing n sources from 2 mixtures," in Proc. Int. Conf. on Acoust., Speech , Signal Processing, 2000. vol. 5, pp. 2985-2988』, S. Rickard, R. Balan 및 J. Rosca에 의한 『"Real-time time-frequency based blind source separation," in Proc. Int. Conf. on Independent Component Analysis and Blind Signal Separation, 2001, pp. 651-656』, S. Rickard 및 O. Yilmaz에 의한 『"On the approximate w-disjoint orthogonality of speech," in Proc. ICASSP 2002, pp. 529-532』등을 들 수 있다. 이러한 종래의 DUET는 두 음성신호 s1(t)와 s2(t)의 주파수성분은 서로 겹치지 않는다는, 즉 하나의 주파수대역에는 단 하나의 음성신호 성분만 존재한다는 w-디스조인트 직교성이라는 기본 가정을 이용한다. 그러나, 혼합신호에 잡음이 섞인 경우 및 w-디스조인트 직교성 가정이 성립하지 않는 경우, 즉 전 주파수대역에 걸친 스펙트럼을 갖는 백색 가우시안 잡음이나 비교적 넓은 주파수대역에 걸쳐 스펙트럼이 존재하는 팬 잡음이 음성신호와 혼합된 경우에는 분리성능이 급격히 저하되는 단점이 있다.
따라서, 본 발명이 이루고자 하는 기술적 과제는 두 개의 마이크로폰 수신신호로부터 잡음을 실시간으로 제거함과 동시에 임의의 N개의 목적원별로 신호를 분리하기 위한 방법을 제공하는데 있다.
본 발명이 이루고자 하는 다른 기술적 과제는 상기 목적원별 신호 분리방법을 실현하는데 가장 적합한 장치를 제공하는데 있다.
상기 기술적 과제를 달성하기 위하여 본 발명에 따른 두 개의 센서를 이용한 목적원별 신호 분리방법은 두 개의 센서로부터 수신되어 주파수영역으로 변환된 제1 및 제2 센서수신신호로부터 적어도 두 개 이상의 목적원별로 신호를 분리하는 방법에 있어서, (a) 상기 제1 및 제2 센서수신신호 중 적어도 하나에 대하여 프레임별로 광역 신호부재확률과 해당 프레임의 각 주파수대역에 대한 국지 신호부재확률을 계산하는 단계; (b) 상기 (a) 단계에서 계산된 국지 신호부재확률에 의해 신호가 존재한다고 판단되는 주파수대역의 신호값에 대하여 생성되는 감쇠와 지연시간을 이용하여 각 목적원에 속하는 주파수대역으로 이루어지는 목적원별 레이블벡터를 생성하는 단계; (c) 상기 (a) 단계에서 계산된 광역 신호부재확률에 의해 각 주파수대역별로 잡음신호를 제거한 스펙트럼벡터를 추정하는 단계; 및 (d) 상기 (b) 단계에서 얻어진 목적원별 레이블벡터와 상기 (c) 단계에서 얻어진 각 주파수대역에 대하여 추정된 스펙트럼벡터를 각각 승산하여 목적원별로 분리된 신호를 획득하는 단계를 포함한다.
상기 다른 기술적 과제를 달성하기 위하여 본 발명은 두 개의 센서로부터 수신되어 주파수영역으로 변환된 제1 및 제2 센서수신신호로부터 적어도 두 개 이상의 목적원별로 신호를 분리하는 장치에 있어서, 상기 제1 및 제2 센서수신신호 중 적어도 하나에 대하여 프레임별로 광역 신호부재확률과 해당 프레임의 각 주파수대역에 대한 국지 신호부재확률을 계산하는 신호부재확률 계산부; 상기 신호부재확률 계산부에서 계산된 광역 신호부재확률에 의해 각 주파수대역별로 잡음신호를 제거한 스펙트럼벡터를 추정하는 신호추정부; 상기 신호부재확률 계산부에서 계산된 국지 신호부재확률에 의해 신호가 존재한다고 판단되는 주파수대역의 신호값에 대하여 생성되는 감쇠와 지연시간을 이용하여 각 목적원에 속하는 주파수대역으로 이루어지는 목적원별 레이블벡터를 생성하는 목적원 식별부; 및 상기 목적원 식별부에서 얻어진 목적원별 레이블벡터와 상기 신호추정부에서 얻어진 각 주파수대역에 대하여 추정된 스펙트럼벡터를 각각 승산하여 목적원별로 분리된 신호를 목적원별 신호분리부를 포함한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 일실시예에 대하여 상세히 설명하기로 한다.
본 발명에 따른 목적원별 신호 분리방법 및 장치에 대하여 설명하기에 앞서 본 발명에 적용된 원칙들을 살펴보기로 한다.
먼저, 작은 반향이 존재하는 환경에서 목적원신호(s j (t))와 마이크로폰 수신신호(x i (t))는 다음 수학식 1과 같이 나타낼 수 있다.
상기 수학식 1 및 2를 참조하면, n 1(t)는 배경 잡음원으로부터 제1 마이크로폰 수신신호(x 1(t))에 부가되는 잡음, n 2(t)는 다른 전파경로를 통해 제2 마이크로폰 수신신호(x 2(t))에 부가되는 잡음, a j 는 크기 감쇠비, d j 는 도착방향(Direction of Arrival)으로 인한 마이크로폰들 간의 지연시간을 각각 나타낸다.
이와 같은 시간영역의 신호에 대하여 퓨리에 변환, 예를 들면 단구간 퓨리에변환(Short-Term Fourier Transform)을 수행하여 주파수영역의 신호로 변환한다. 주파수영역에 있어서, 제1 마이크로폰 수신신호(X(m))가 목적원신호(S(m))와 부가잡음(N(m))의 합으로 표현된다고 가정하면, 광역가설(H 0, H 1 )을 도입한 통계모델을 도출할 수 있다. 여기서, H 0 H 1는 각각 m 번째 프레임에서 목적원신호의 부재 및 존재를 각각 나타내며, 다음 수학식 3과 같이 나타낼 수 있다.
H 1 에 존재하는 목적원신호(S(m))는 개개 목적원신호들의 합으로서 다음 수학식 4와 같이 나타낼 수 있다.
또한, 목적원신호의 부재 및 존재는 각 주파수빈에 대하여 발생하기 때문에 국지가설(H 0, k , H 1, k )을 도입한 통계모델을 도출할 수 있다. 여기서, H 0, k H 1, k 는 각각 m 번째 프레임의 k 번째 주파수빈에서 목적원 신호성분의 부재 및 존재를 각각 나타내며, 다음 수학식 5와 같이 나타낼 수 있다.
H 1, k 에 존재하는 목적원신호(S k(m))는 개개 소스신호 성분들의 합으로서 다음 수학식 6과 같이 나타낼 수 있다.
여기서 S k (j) (m)는 m번째 프레임의 k번째 주파수빈, 즉 주파수대역에 존재하는 j번째 목적원 신호성분을 나타낸다. w-디스조인트 직교성(w-disjoint orthogonality) 조건을 만족한다고 가정하면, k번째 주파수대역은 하나의 음원에 대해서만 점유되므로 임의의 j에 대하여 S k (m) = S k (j) (m) 으로 나타낼 수 있다. w-디스조인트 직교성에 대해서는 S. Rickard 와 O. Yilmaz에 의한 논문 『"On the approximate w-disjoint orthogonality of speech," in Proc. Int. Conf. on Acoust., Speech, Signal Processing, 2002, vol. 1, pp. 529-532』에 자세히 개시되어 있다. 또한, X k (m)과 N k (m)은 평균이 제로(0)인 복소 가우시안 확률분포를 가진다고 가정한다.
상술한 바와 같은 기본원칙을 바탕으로 하여 본 발명에 대하여 세부적으로 설명하면 다음과 같다.
도 1은 본 발명에 따른 목적원별 신호 분리장치의 일실시예의 구성을 나타낸 블록도로서, 신호부재확률(Signal Absence Probability) 계산부(11), 목적원 식별부(13), 신호 추정부(15) 및 목적원별 신호분리부(17)로 이루어진다. 본 발명에 따른 목적원별 신호 분리장치는 M개의 마이크로폰 수신신호로부터 N개의 독립된 목적원을 분리하기 위한 것으로서, 이하에서는 설명의 편이를 위하여 M=2인 경우를 예를 들어 설명하기로 한다.
도 1을 참조하면, 신호부재확률 계산부(11)에서는 두 개의 센서 예를 들면, 마이크로폰으로부터 수신되어 주파수영역으로 변환된 제1 및 제2 마이크로폰 수신신호 중 하나에 대하여 m 번째 프레임에 대한 광역 신호부재확률(p(H0X(m))와 m 번째 프레임의 각 주파수빈에 대한 국지 신호부재확률(p(H0,k|Xk(m)))을 계산한다. 이에 대하여 도 2를 참조하여 좀 더 세부적으로 설명하면 다음과 같다.
도 2에 있어서, 21 단계에서는 소정 프레임의 (L/2)개의 주파수빈에 대하여 가능비(likelihood ratio, Λk(m))를 다음 수학식 7에서와 같이 계산한다. 여기서, L은 퓨리에 변환의 포인트 수를 나타낸다.
여기서,
이다. p(Xk(m)|H1,k)는 국지 신호존재 가설에서 m 번째 프레임의 k 번째 주파수빈의 확률값이고, p(Xk(m)|H0,k)는 국지 신호부재 가설에서 m 번째 프레임의 k 번째 주파수빈의 확률값으로서, 목적원신호전력()과 잡음신호전력()으로부터 구해질 수 있다.
23 단계에서는 상기 21 단계에서 구한 (L/2)개의 가능비를 각각 다음 수학식 8에서와 같이 표현되는 소정의 어프라이오리 확률(a priori probability, qk)과 승산한다.
여기서, p(H1,k)는 k 번째 주파수빈에서 잡음과 목적원 신호가 공존할 확률, p(H0,k)는 k 번째 주파수빈에서 잡음신호만 존재할 확률을 각각 나타낸다.
25 단계에서는 상기 23 단계에서 구한 승산결과 각각을 소정값, 예를 들면 '1'과 가산한다.
27 단계에서는 상기 25 단계에서 구한 가산결과 각각에 대하여 역수를 취하여 다음 수학식 9와 같이 표현되는 m 번째 프레임의 (L/2)개의 주파수빈에 대한 국지 신호부재확률 (p(H0,k|Xk(m)))을 계산한다.
29 단계에서는 상기 27 단계에서 구한 (L/2)개의 국지 신호부재확률 (p(H0,k|Xk(m)))을 승산하여 다음 수학식 10과 같이 표현되는 m 번째 프레임에 대한 광역 신호부재확률 (p(H0X(m)))을 계산한다.
한편, 상기 수학식 10을 도출하기 위하여 다음 수학식 11 및 12가 사용되어진다.
이때, 단구간 퓨리에변환 계수들은 서로 상관되어 있지 않기 때문에 각 주파수빈에서의 스펙트럼 성분 즉, X k (m)은 통계적으로 독립적이라고 가정한다.
다시 도 1로 돌아가서, 목적원 식별부(13)에서는 신호부재확률 계산부(11)에서 계산된 제1 또는 제2 마이크로폰 수신신호의 프레임별 국지 신호부재확률을 입력으로 하여 미리 정의된 제1 문턱치와 비교하고, 비교 결과에 따라서 각 프레임의 해당 주파수빈 즉, 주파수대역에 목적원 신호가 존재하는지 여부를 판단한다. 이후, 목적원 신호가 존재한다고 판단되는 주파수대역의 신호값에 대하여 크기 감쇠와 지연시간을 생성하고, 크기 감쇠와 지연시간으로 이루어지는 혼합 파라미터를 이용하여 목적원의 수 및 각 목적원에 속하는 주파수대역을 구분한다. 목적원 식별부(13)는 프레임 단위로 상기한 목적원 식별과정을 수행한다. 이를 도 3을 참조하여 좀 더 세부적으로 설명하면 다음과 같다.
도 3에 있어서, 31 단계에서는 m 번째 프레임의 국지 신호부재확률을 제1 문턱치와 비교하여 목적원신호가 존재하는 주파수대역을 판별한다. 즉, 목적원이 w-디스조인트 직교성을 만족하는 것으로 가정하면 N개의 목적원 중에서 단지 하나의 목적원 신호성분이 k 번째 주파수대역에 존재한다. 따라서, 상기 수학식 9에 의해 계산된 국지 신호부재확률을 제1 문턱치와 비교함으로써 어떤 주파수대역이 목적원신호를 가지고 있는지를 판단할 수 있다. 예를 들어, 국지 신호부재확률이 제1 문턱치보다 크거나 같으면 해당 주파수대역에 목적원신호가 존재하지 않는 것으로 판단하고, 제1 문턱치보다 작으면 해당 주파수대역에 목적원신호가 존재하는 것으로 판단한다. 이와 같이 목적원신호가 존재한다고 판단된 주파수대역은 임의의 목적원 j에 대하여 다음 수학식 13이 성립된다.
여기서, ω는 (2πk)/L 이며, L은 퓨리에변환의 포인트의 수를 나타낸다.
32 단계에서는 상기 31 단계에 의해 목적원신호가 존재하는 것으로 판단된 각 주파수대역에 대하여 제1 마이크로폰 수신신호(X1,k(m))와 제2 마이크로폰 수신신호(X2,k(m))의 비를 분석하여 각 주파수대역에 대하여 감쇠(aj) 및 지연시간(d j)을 계산한다. 이와 같이 크기 감쇠와 지연시간으로 이루어지는 k 번째 주파수대역의 혼합 파라미터(μ(k))는 다음 수학식 14와 같이 표현할 수 있다.
상기 수학식 14를 이용하면 m 번째 프레임에서 목적원신호가 존재하는 각 주파수대역들, 예를 들면 P개의 혼합 파라미터를 구할 수 있다.
33 단계에서는 소프트 K-평균(K-means) 알고리즘을 이용하여 상기 32 단계에서 구한 P개의 혼합 파라미터를 클러스터링하기 위하여 먼저 현재 프레임이 첫 번째 프레임인가를 판단한다. 34 단계에서는 상기 33 단계에서의 판단결과, 현재 프레임이 첫 번째 프레임인 경우에는 K개 클러스터의 중심(μj)을 랜덤 값으로 초기화시킨다. 35 단계에서는 상기 33 단계에서의 판단결과, 현재 프레임이 첫 번째 프레임이 아닌 경우에는 클러스터의 중심 즉, 평균값을 이전 프레임의 클러스터 중심으로 초기화시킨다. 한편, 클러스터의 수(K)는 2 내지 N으로 설정한 다음 소정의 클러스터링 알고리즘을 수행하고, 각각의 K에 대하여 David L. Davies 및 Donald W. Bouldin에 의한 『"A Cluster Separation Measure," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. PAMI-1, no. 2, April 1979』의 정의 5에 제시된 R 값을 계산하고, R 값이 가장 작은 K가 클러스터의 수에 해당한다.
36 단계에서는 혼합 파라미터(μ(k), 여기서 k는 1 내지 P)와 각 클러스터의 중심(μj)을 이용하여 각 주파수대역이 각 클러스터(j)에 속할 소속도(rj (k) )를 다음 수학식 15에서와 같이 계산하고, 가장 큰 값을 갖는 클러스터에 해당 주파수대역을 소속시킨다.
여기서, d(μj(k))는 클러스터의 중심과 혼합 파라미터간의 거리 연산자, β는 감쇠 파라미터로서 잡음분산에 반비례하는 값이다.
37 단계에서는 상기 수학식 15에서 계산된 소속도에 따라 클러스터가 임의의 주파수대역이 소속되면 각 클러스터(j)의 중심(μ j )을 다음 수학식 16에서와 같이 갱신한다.
여기서, a j (m) 및 d j (m)은 각각 m 번째 프레임에서 j 번째 목적원에 대한 감쇠 및 지연시간을 나타낸다.
38 단계에서는 수렴 여부를 판단하는데, 상기 수학식 15 및 16에 의한 소속도 계산 및 클러스터 중심 갱신과정을 소속도의 변화가 없을 때까지 또는 정해진 반복횟수만큼 수행한다. 즉 상기 38 단계에서의 판단결과, 수렴이 되지 않은 경우 상기 36 단계로 복귀하여 상기 수학식 16에 의해 갱신된 클러스터의 중심을 이용하여 재차 소속도 계산 및 클러스터 중심 갱신과정을 반복 수행한다.
39 단계에서는 상기 38 단계에서의 판단결과, 수렴이 이루어진 경우 클러스터의 수를 목적원의 수로 간주하고, 목적원별로 레이블벡터를 생성한다.
도 4a 및 도 4b는 목적원 식별부(13)에서 클러스터링한 결과를 각각 2 차원 및 3 차원 a-d 공간상에 표시한 것으로서, 여기서는 3개의 클러스터가 생성되었으므로 3개의 목적원이 존재함을 알 수 있다.
한편, 이동평균(moving average)을 이용하여 최종적으로 현재 프레임의 클러스터 중심을 확정하는 방법은 목적원이 천천히 움직이는 경우에도 목적원을 잘 추종할 수 있다. 다음 프레임에서의 클러스터의 중심값은 현재 프레임에서 얻어진 중심값으로 초기화됨으로써 클러스터링 알고리즘의 수렴 속도를 증가시킬 수 있다.
P개의 혼합 파라미터를 클러스터링하기 위한 다른 실시예로서 하드 K-평균 알고리즘을 사용할 수도 있다. 하드 K-평균 알고리즘에서 소속도(r j ( k ))는 0 또는 1로만 나타내고, 그 결과 모든 데이터 포인트에 대하여 지수 함수를 구하지 않아도 되므로 계산 부담을 줄일 수 있다. 그러나, 소속도를 0 또는 1로만 나타내더라도 수렴 이후 클러스터의 중심값 계산시에는 각 주파수대역의 스펙트럼 성분값의 크기를 소속도로 대치하여 계산한다. 왜냐 하면, 동일한 크기의 잡음이 섞여도 스펙트럼 성분값이 큰 주파수대역은 전체 크기에 비해 섞이는 잡음의 크기가 상대적으로 작고, 스펙트럼 성분값이 작은 주파수대역은 전체 크기에 비해 섞이는 잡음의 크기가 상대적으로 크다. 따라서 잡음환경에서는 스펙트럼 성분값의 크기를 가중치로 두어 계산하는 것이 잡음에 더 둔감해질 수 있다.
다시 도 1로 돌아가서, 신호추정부(15)에서는 신호부재확률 계산부(11)에서 계산된 광역 신호부재확률을 제2 문턱치와 비교하고, 광역 신호부재확률이 제2 문턱치보다 큰 프레임에 대해서는 잡음신호만 존재하는 것으로 판단하여 잡음신호 전력을 갱신하고, 모든 프레임에 대해서는 목적원신호 전력을 갱신함으로써 잡음신호가 제거된 목적원신호 성분을 발생시킨다. 이에 대하여 도 5를 참조하여 좀 더 세부적으로 설명하면 다음과 같다.
도 5를 참조하면, 51 단계에서는 이전의 (m-1)번째 프레임에 대하여 후술하는 수학식 25에서 계산된 제1 내지 제M 프라이오리 신호대잡음비를 이용하여 수학식 26에서와 같이 m번째 프레임에 대한 예측 신호대잡음비를 계산한다.
52 단계에서는 신호부재확률 계산부(11)에서 계산된 m번째 프레임에 대한 광역 신호부재확률을 제2 문턱치와 비교하여 현재 m번째 프레임에 잡음신호만 존재하는지 여부를 판단한다. 즉, m번째 프레임에 대한 광역 신호부재확률이 제2 문턱치보다 큰 경우 잡음신호만 존재하는 것으로 판단한다.
53 단계에서는 상기 52 단계에서의 판단결과, m 번째 프레임이 잡음신호만 존재하는 경우 다음 수학식 17에서와 같이 잡음신호 전력()을 갱신한다.
상기 수학식 17에 있어서 0 < < 1 는 스무딩 파라미터이다.
54 단계에서는 상기 52 단계에서의 판단결과 잡음신호만 존재하여 53 단계에서 잡음신호 전력이 갱신된 잡음신호만 존재하는 프레임 또는 상기 52 단계에서의 판단결과 잡음신호와 목적원신호가 공존하는 프레임에 대하여 각 주파수대역에서의 스펙트럼 성분값을 추정한다. 이때, 잡음을 제거하기 위하여 최소평균자승에러(Minimum Mean Square Error) 추정 알고리즘을 이용한다.
즉, 신호부재확률 계산부(11)에서 제1 마이크로폰 수신신호에 대하여 신호부재확률을 계산한 경우, 제1 마이크로폰 수신신호(x 1 (t))에서 m 번째 프레임의 k 번째 스펙트럼 성분을 X k (m)이라 하면, X k ( m)은 다음 수학식 18과 같이 나타낼 수 있다.
여기서,
이다.
시공간에서의 신호의 파형 모양보다 각 주파수대역의 스펙트럼 진폭이 사람의 인지에 큰 영향을 미치는 것으로 알려져 있고, 이때 α k =θ k 가 최적의 위상값이다. 따라서, 최소평균자승에러(Minimum Mean Square Error) 추정 알고리즘을 이용하면 X k 로부터 A k 를 추정하는 문제로 간략화될 수 있다. 이에 대해서는 Y. Ephraim 및 D. Malah에 의한 『"Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator," IEEE Trans. Acoust., Speech, Signal Processing, vol. 32, no. 6, pp. 1109-1121, 1984』에 자세히 기재되어 있다.
각 주파수대역의 스펙트럼 성분값들은 서로 통계적으로 독립된 값들이므로 A k 의 MMSE 추정값() 은 다음 수학식 19 및 20에 의해 구해진다.
상기 수학식 20에 있어서 확률밀도함수 p(X k A k ,α k )는 다음 수학식 21과 같이 나타낼 수 있다.
복소 가우시안 확률밀도함수는 마이크로폰 수신신호의 확률밀도함수와 잡음으로 간주되므로, p(A k )는 레일레이(Rayleigh) 분포를 가지며, p (α k )는 p(A k )에 독립적이고 [-π,π]에 대하여 균일한 값이 된다. 따라서, p(A k ,α k ) 는 다음 수학식 22와 같이 나타낼 수 있다.
따라서, 상기 수학식 18에 표현된 A k 의 MMSE 추정값()은 다음 수학식 23에서와 같이 나타낼 수 있다.
상기 수학식 23에 있어서, Γ(·)은 Γ(1.5)=root{pi} /2 인 감마 함수이고, I 0 (·) 및 I 1 (·)은 각각 0차와 1차의 수정된 베셀 함수를 나타내고, v k 는 다음 수학식 24과 같이 정의된다.
또한, 상기 수학식 24에 포함된 프라이오리 신호대잡음비( )와 예측 신호대잡음비( )는 각각 다음 수학식 25 및 26와 같이 정의된다.
프라이오리 신호대잡음비가 매우 큰 경우 상기 수학식 23의 최소평균자승에러 추정값은 다음 수학식 27에서와 같이 위너(Wiener) 추정값과 유사하게 된다.
55 단계에서는 상기 54 단계에서 계산된 각 주파수대역의 스펙트럼 성분(A k )에 대한 MMSE 진폭추정값()을 이용하여 다음 수학식 28에서와 같이 목적원신호 전력()을 갱신한다.
즉, 실제 환경에서 목적원신호 및 잡음신호는 시간에 따라 끊임없이 변하게 된다. 이러한 변화를 본 발명에 따른 목적원 분리 알고리즘에 반영시키기 위해서 상기 수학식 28 및 17에서와 같이 목적원신호 전력 및 잡음신호 전력을 매 프레임마다 갱신한다. 이와 같이 갱신된 잡음신호 전력()을 이용하여 상기 수학식 26의 예측 신호대잡음비( )를 쉽게 갱신할 수 있다.
56 단계에서는 급격한 변화를 보이는 목적원신호에 대처하기 위하여 프라이오리 신호대잡음비를 다음 수학식 29에서와 같이 갱신된다.
상기 수학식 30에 있어서 은 (m-1) 번째 프레임에서 k 번째 스펙트럼 성분의 진폭 추정값이고, P(·)는 다음 수학식 31에서와 같이 정의되는 연산자이다.
P(·)는 예측 신호대잡음비가 음수인 경우 MMSE 추정값() 이 항상 양수임을 보장하기 위하여 사용된다. 상기 수학식 26에 정의된 예측 SNR이 항상 양수는 아니기 때문에 상기 수학식 31에 정의된 P(·)를 사용하면 프라이오리 SNR가 항상 양수가 됨을 보장한다. 그 결과, 예측 SNR의 급격한 변화에도 프라이오리 SNR이 부드럽게 변화하도록 할 수 있다. 즉, 예측 SNR이 급격히 변화하는 경우 프라이오리 SNR은 1 프레임 지연되어 예측 SNR을 추종함으로써, 뮤지컬 잡음효과(musical noise effect)를 줄일 수 있다. 이에 대해서는 0. Capp에 의한 『"Elimination of the musical noise phenomenon with the Ephraim and Malah noise suppressor," IEEE Trans. Speech and Audio Processing, vol. 2, pp. 345-349, 1994』에 자세히 기재되어 있다.
57 단계에서는 상기 54 단계에서 얻어진 각 주파수대역별 진폭추정값을 이용하여 다음 수학식 32에서와 같이 각 주파수대역별로 추정된 스펙트럼벡터를 생성한다.
여기서, 이다.
다시 도 1로 돌아가서, 목적원별 신호분리부(17)에서는 목적원 식별부(13)로부터 제공되는 m번째 프레임에서 목적원별 레이블벡터와 신호 추정부(15)로부터 제공되는 m번째 프레임의 각 주파수대역별로 추정된 스펙트럼벡터를 승산한 후, 역퓨리에 변환을 수행하여 시간영역의 목적원 신호들로 분리한다. 이에 대하여 도 6을 참조하여 좀 더 세부적으로 설명하면 다음과 같다.
도 6에 있어서, 61 단계에서는 목적원 식별부(13)로부터 제공되는 클러스터의 수와 각 클러스터에 소속된 주파수대역의 인덱스에 따라 '1' 또는 '0'으로 표현되는 레이블벡터와 신호 추정부(15)로부터 제공되는 m번째 프레임의 각 주파수대역별로 추정된 스펙트럼벡터를 입력받는다.
63 단계에서는 상기 61 단계에서 입력된 목적원별 레이블벡터와 추정된 스펙트럼벡터를 각각 승산하여 목적원별로 분리된 신호를 얻는다.
65 단계에서는 상기 63 단계에서 얻어진 목적원별로 분리된 신호에 대하여 역퓨리에변환을 수행하여 시간영역의 신호로 변환한다.
신호 추정부(15)로부터 제공되는 m번째 프레임의 각 주파수대역별로 추정된 스펙트럼벡터를 이용한 목적원별 신호 분리는 k와 의 적절한 페어링에 의해 수행되어진다. 상기 수학식 4에 기초하여 상기 수학식 32는 다음 수학식 33과 같이 표현될 수 있다.
또한, w-디스조인트 직교성 가정에 근거하여 상기 수학식 33은 다음 수학식 34로 간략화되어진다.
목적원별로 신호를 분리하기 위하여 각 목적원에 대응하는 레이블 벡터를 생성하고, 분리된 목적원별 신호 스펙트럼을 생성하기 위하여 목적원별 레이블 벡터를 추정된 스펙트럼벡터()에 적용시킨다. j번째 목적원과 m 번째 프레임에서 k 번째 주파수대역에 존재하는 j번째 목적원 신호성분(S k (j) (m))을 매핑시키는 레이블 벡터(L_j (m))의 각 성분은 0 또는 1의 값을 가진다. 이에 따라 m 번째 프레임에서 j 번째 목적원에 대한 스펙트럼 벡터()를 다음 수학식 35에서와 같이 얻을 수 있다.
상기 수학식 35에 있어서 ⊙은 각 벡터에서 각 성분의 곱을 나타낸다.
도 7은 본 발명에 따른 목적원 분리장치의 제2 실시예의 구성을 보여주는 블록도로서, 신호부재확률 계산부(71), 신호추정부(73), 목적원 식별부(75) 및 목적원별 신호분리부(77)로 이루어진다.
도 7을 참조하면, 신호부재확률 계산부(71)에서는 제1 및 제2 마이크로폰 수신신호(X 1(m), X 2(m))에 대하여 프레임별 m 번째 프레임에 대한 광역 신호부재확률(p(H0X 1(m)) 및 (p(H0X 2(m))와 m 번째 프레임의 각 주파수빈에 대한 국지 신호부재확률(p(H0,k|X1,k(m))) 및 (p(H0,k|X2,k(m)))을 계산한다.
신호추정부(73)에서는 제1 및 제2 마이크로폰 수신신호에 대하여 각각 신호부재확률 계산부(71)에서 계산된 국지 신호부재확률을 이용하여 프레임단위로 각 주파수대역별로 잡음신호가 제거된 스펙트럼 벡터를 추정하고, 잡음신호가 제거된 제1 및 제2 마이크로폰 수신신호(X 1(m), X 2(m))를 생성한다.
목적원 식별부(75)는 신호추정부(73)에서 잡음신호가 제거된 제1 및 제2 마이크로폰 수신신호(X 1(m), X 2(m))를 이용하여 전술한 제1 실시예에서와 같이 클러스터링을 수행하여 목적원 및 각 목적원에 속하는 주파수대역으로 이루어지는 목적원별 레이블벡터를 생성한다.
목적원별 신호 분리부(77)는 목적원 식별부(75)로부터 제공되는 m번째 프레임에서 목적원별 레이블벡터와 신호 추정부(73)로부터 제공되는 m번째 프레임의 각 주파수대역별로 추정된 스펙트럼벡터를 승산한 후, 역퓨리에변환을 수행하여 시간영역의 목적원 신호들로 분리한다.
즉, 상기한 바와 같은 구성은 제1 및 제2 마이크로폰 수신신호(X 1(m), X 2(m))의 신호대잡음비가 큰 경우 적용할 수 있다.
다음, 본 발명에 따른 신호원 분리 알고리즘의 성능을 평가하기 위하여 음성신호에 대하여 실험을 행하였다. 미리 클린 음성 데이터를 에코가 없는 방에서 16 kHz 로 기록하고, 목적신호를 생성하기 위하여 4명의 남성 화자가 발성한 컴퓨터 명령어와 한국어 이름에 대한 40 워드를 사용하였다. 각 화자가 발음한 40 워드를 4개 워드로 구성되는 10 개 파일로 분할하여 10 세트의 목적원을 준비하고, 백색 가우시안 잡음(White Gaussian Noise)을 광대역 잡음으로 사용하였다. 이때 신호대잡음비(SNR)에 따라서, ITU-T 권고안 P.830에 기재된 방법에 의해 신호 레벨을 조정한 다음 WGN을 샘플별로 부가하였다. 실제로 신호 혼합은 랩탑 컴퓨터에서 행해졌고, 신호원 식별 및 신호 추정은 프레임별로 수행되었다.
도 8 및 도 9a 내지 9c는 본 발명에 따른 신호원 분리 알고리즘의 실험 결과를 설명하기 위한 도면으로서, 도 8에서와 같이 제1 및 제2 마이크로폰(Mic1, Mic2)과 제1 내지 제4 목적원(Source1~Source4)이 사용된 경우, 도 9a는 제1 내지 제4 목적원신호(s1~s4), 도 9b는 제1 및 제2 마이크로폰 수신신호(x1, x2), 도 9c는 본 발명에 따른 목적원 분리 알고리즘에 의해 목적원별로 분리된 신호(u1~u4)를 각각 나타낸다. 도면을 참조하면, 본 발명에 따른 목적원 분리 알고리즘을 사용할 경우 잡음을 실시간으로 현저하게 감소시킬 수 있음과 동시에 목적원별로 신호를 보다 정확하게 분리할 수 있음이 입증되었다.
상기한 본 발명의 실시예는 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 한편, 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
또한, 본 발명에 따른 목적원 분리방법 및 장치는 마이크로폰 어레이가 부착된 자율주행 이동로봇 뿐만 아니라 사용되는 마이크로폰의 수가 적은 PDA(Personal Digital Assistant), 웹패드(WebPad) 또는 차량에 설치되는 휴대폰 등과 같이 사용자의 입과 단말기가 상당히 떨어진 환경에서도 적용가능하며, 이 경우에도 음성인식기의 성능을 대폭 향상시킬 수 있다. 또한, 고품질의 음성을 필요로 하는 모든 음성입력시스템에 적용가능하며, 동일한 환경에서 복수개의 음원이 존재하는 경우 각 음원을 분리하는 음원분리시스템에 사용될 수 있다. 또한, 통신 및 레이다 분야 등 기존의 센서 어레이가 사용되는 모든 분야에서 사용될 수 있다.
상술한 바와 같이 본 발명에 따르면, 단지 두 개의 마이크로폰으로부터 수신되는 혼합신호로부터 실시간으로 잡음을 제거함과 동시에 임의의 N개의 목적원별 신호를 분리하는 것이 가능한 이점이 있다. 또한, 감쇠 및 지연시간을 고려하여 각 주파수대역에 대한 신호부재확률을 산출함으로써 w-디스조인트 직교성 가정을 위반하는 백색 가우시안 잡음이 혼합된 경우에도 적용할 수 있으므로 복원 음질의 향상을 도모할 수 있다. 또한, 주변 배경잡음으로 인하여 들리지 않는 목적원신호에 대해서도 신호부재확률을 이용하여 추정하는 것이 가능하다.
이상 도면과 명세서에서 최적 실시예들이 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
도 1은 본 발명에 따른 목적원별 신호 분리장치의 제1 실시예의 구성을 보여주는 블럭도,
도 2는 도 1에 있어서 신호부재확률 계산부의 동작을 설명하는 흐름도,
도 3은 도 1에 있어서 목적원 식별부의 동작을 설명하는 흐름도,
도 4a 및 도 4b는 도 3에 도시된 목적원 식별부에서 클러스터링한 결과를 보여주는 도면,
도 5는 도 1에 있어서 신호 추정부의 동작을 설명하는 흐름도,
도 6은 도 1에 있어서 목적원 분리부의 동작을 설명하는 흐름도,
도 7은 본 발명에 따른 목적원별 신호 분리장치의 제2 실시예의 구성을 보여주는 블럭도,
도 8은 본 발명에 따른 목적원별 신호 분리 알고리즘의 성능을 평가하기 위한 실험환경을 나타낸 도면, 및
도 9a 내지 도 9c는 본 발명에 따른 목적원별 신호 분리 알고리즘의 성능을 평가하기 위한 목적원별 신호, 마이크로폰 수신신호 및 분리된 목적원별 신호를 나타내는 파형도이다.

Claims (16)

  1. 두 개의 센서로부터 수신되어 주파수영역으로 변환된 제1 및 제2 센서수신신호로부터 적어도 두 개 이상의 목적원별로 신호를 분리하는 방법에 있어서,
    (a) 상기 제1 및 제2 센서수신신호 중 적어도 하나에 대하여 프레임별로 광역 신호부재확률과 해당 프레임의 각 주파수대역에 대한 국지 신호부재확률을 계산하는 단계;
    (b) 상기 (a) 단계에서 계산된 광역 신호부재확률에 의해 각 주파수대역별로 잡음신호를 제거한 스펙트럼벡터를 추정하는 단계;
    (c) 상기 (a) 단계에서 계산된 국지 신호부재확률에 의해 신호가 존재한다고 판단되는 주파수대역의 신호값에 대하여 생성되는 감쇠와 지연시간을 이용하여 각 목적원에 속하는 주파수대역으로 이루어지는 목적원별 레이블벡터를 생성하는 단계; 및
    (d) 상기 (b) 단계에서 얻어진 각 주파수대역에 대하여 추정된 스펙트럼벡터와 상기 (c) 단계에서 얻어진 목적원별 레이블벡터를 각각 승산하여 목적원별로 분리된 신호를 획득하는 단계를 포함하는 것을 특징으로 하는 두 개의 센서를 이용한 목적원별 신호분리방법.
  2. 제1 항에 있어서, 상기 (a) 단계는
    (a1) 소정 프레임의 각 주파수대역에 대한 가능비를 생성하는 단계;
    (a2) 상기 (a1) 단계에서 생성되는 가능비를 각각 어프라이어리 확률과 승산하는 단계;
    (a3) 상기 (a2) 단계에서 얻어지는 각 승산결과와 소정 값을 가산하는 단계;
    (a4) 상기 (a3) 단계에서 얻어지는 각 가산결과의 역수를 취하여 각 주파수대역의 국지 신호부재확률로 설정하는 단계; 및
    (a5) 상기 (a4) 단계에서 얻어지는 각 국지 신호부재확률을 승산하여 상기 소정 프레임의 광역 신호부재확률로 설정하는 단계를 포함하는 것을 특징으로 하는 두 개의 센서를 이용한 목적원별 신호분리방법.
  3. 제1 항에 있어서, 상기 (b) 단계는
    (b1) 상기 (a) 단계에서 계산된 광역 신호부재확률에 의해 잡음신호만 존재하는 프레임에 대해서는 각 주파수대역별로 잡음신호전력을 갱신하는 단계;
    (b2) 상기 (a) 단계에서 계산된 광역 신호부재확률에 의해 목적원신호와 잡음신호가 공존하는 프레임 또는 상기 (b1) 단계에서 잡음신호전력이 갱신된 프레임에 대하여 각 주파수대역의 스펙트럼성분의 진폭을 추정하는 단계; 및
    (b3) 상기 (b2) 단계에서 추정된 각 주파수대역의 스펙트럼성분의 진폭을 이용하여 각 주파수대역별로 목적원신호전력을 갱신하는 단계를 포함하는 것을 특징으로 하는 두 개의 센서를 이용한 목적원별 신호분리방법.
  4. 제3 항에 있어서, 상기 각 주파수대역의 스펙트럼성분의 진폭은 최소평균자승오차 추정 알고리즘에 의해 추정되는 것을 특징으로 하는 두 개의 센서를 이용한 목적원별 신호분리방법.
  5. 제1 항에 있어서, 상기 (c) 단계는
    (c1) 상기 (a) 단계에서 계산된 각 주파수대역별 국지 신호부재확률을 제1 문턱치와 비교하여 신호가 존재하는 주파수대역을 식별하는 단계;
    (c2) 상기 (c1) 단계에 의해 신호가 존재한다고 판단되는 주파수대역에 대하여 상기 제1 및 제2 센서수신신호의 비로부터 감쇠와 지연시간을 생성하는 단계;
    (c3) 상기 (c2) 단계에서 생성되는 감쇠와 지연시간으로 이루어지는 혼합파라미터를 클러스터링하는 단계; 및
    (c4) 상기 (c3) 단계에서의 클러스터링한 결과 생성되는 각 클러스터에 소속된 혼합 파라미터를 이용하여 목적원과 해당 목적원에 속하는 주파수대역으로 이루어지는 목적원별 레이블벡터를 생성하는 단계를 포함하는 것을 특징으로 하는 두 개의 센서를 이용한 목적원별 신호분리방법.
  6. 제5 항에 있어서, 상기 혼합 파라미터의 클러스터링은 소프트 K-평균 알고리즘에 의해 수행되는 것을 특징으로 하는 두 개의 센서를 이용한 목적원별 신호분리방법.
  7. 제5 항에 있어서, 상기 혼합 파라미터의 클러스터링은 하드 K-평균 알고리즘에 의해 수행되는 것을 특징으로 하는 두 개의 센서를 이용한 목적원별 신호분리방법.
  8. 제5 항에 있어서, 상기 (c1) 단계는 상기 주파수영역으로 변환된 제1 및 제2 센서수신신호 중 상기 (a) 단계에서 신호부재확률이 계산된 신호에 대하여 수행되는 것을 특징으로 하는 두 개의 센서를 이용한 목적원별 신호분리방법.
  9. 제5 항에 있어서, 상기 (c1) 단계는 상기 (b) 단계에서 잡음신호가 제거된 제1 및 제2 센서수신신호에 대하여 수행되는 것을 특징으로 하는 두 개의 센서를 이용한 목적원별 신호분리방법.
  10. 제1 항 내지 제9 항에 기재된 방법을 수행할 수 있는 프로그램을 기재한 컴퓨터로 읽을 수 있는 기록매체.
  11. 두 개의 센서로부터 수신되어 주파수영역으로 변환된 제1 및 제2 센서수신신호로부터 적어도 두 개 이상의 목적원별로 신호를 분리하는 장치에 있어서,
    상기 제1 및 제2 센서수신신호 중 적어도 하나에 대하여 프레임별로 광역 신호부재확률과 해당 프레임의 각 주파수대역에 대한 국지 신호부재확률을 계산하는 신호부재확률 계산부;
    상기 신호부재확률 계산부에서 계산된 광역 신호부재확률에 의해 각 주파수대역별로 잡음신호를 제거한 스펙트럼벡터를 추정하는 신호추정부;
    상기 신호부재확률 계산부에서 계산된 국지 신호부재확률에 의해 신호가 존재한다고 판단되는 주파수대역의 신호값에 대하여 생성되는 감쇠와 지연시간을 이용하여 각 목적원에 속하는 주파수대역으로 이루어지는 목적원별 레이블벡터를 생성하는 목적원 식별부; 및
    상기 목적원 식별부에서 얻어진 목적원별 레이블벡터와 상기 신호추정부에서 얻어진 각 주파수대역에 대하여 추정된 스펙트럼벡터를 각각 승산하여 목적원별로 분리된 신호를 목적원별 신호분리부를 포함하는 것을 특징으로 하는 두 개의 센서를 이용한 목적원별 신호분리장치.
  12. 제11 항에 있어서, 상기 목적원 식별부는 상기 감쇠와 지연시간으로 이루어지는 각 주파수대역별 혼합 파라미터를 소프트 K-평균 알고리즘을 이용하여 클러스터링한 후, 클러스터링한 결과 생성되는 각 클러스터에 소속된 혼합 파라미터를 이용하여 목적원과 해당 목적원에 속하는 주파수대역으로 이루어지는 목적원별 레이블벡터를 생성하는 것을 특징으로 하는 두 개의 센서를 이용한 목적원별 신호분리장치.
  13. 제11 항에 있어서, 상기 목적원 식별부는 상기 감쇠와 지연시간으로 이루어지는 각 주파수대역별 혼합 파라미터를 하드 K-평균 알고리즘을 이용하여 클러스터링한 후, 클러스터링한 결과 생성되는 각 클러스터에 소속된 혼합 파라미터를 이용하여 목적원과 해당 목적원에 속하는 주파수대역으로 이루어지는 목적원별 레이블벡터를 생성하는 것을 특징으로 하는 두 개의 센서를 이용한 목적원별 신호분리장치.
  14. 제11 항에 있어서, 상기 신호추정부는 각 주파수대역의 스펙트럼에 대한 진폭을 최소평균자승오차 추정 알고리즘에 의해 추정하는 것을 특징으로 하는 두 개의 센서를 이용한 목적원별 신호분리장치.
  15. 제14 항에 있어서, 상기 신호추정부는 상기 광역 신호부재확률을 이용하여 잡음신호전력이 갱신된 잡음신호만 존재하는 프레임 및 잡음신호와 목적원신호가 공존하는 프레임에 대해서 목적원신호전력을 매 프레임마다 갱신하는 것을 특징으로 하는 두 개의 센서를 이용한 목적원별 신호분리장치.
  16. 제11 항에 있어서, 상기 제1 및 제2 센서수신신호의 신호대잡음비가 큰 경우에는 상기 목적원 식별부에서는 상기 신호추정부에 의해 잡음이 제거된 상기 제1 및 제2 센서수신신호를 이용하여 크기 감쇠 및 지연시간을 계산하는 것을 특징으로 하는 두 개의 센서를 이용한 목적원별 신호분리장치.
KR10-2003-0020059A 2003-03-31 2003-03-31 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치 KR100486736B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR10-2003-0020059A KR100486736B1 (ko) 2003-03-31 2003-03-31 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치
US10/813,671 US7295972B2 (en) 2003-03-31 2004-03-31 Method and apparatus for blind source separation using two sensors

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2003-0020059A KR100486736B1 (ko) 2003-03-31 2003-03-31 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치

Publications (2)

Publication Number Publication Date
KR20040085391A KR20040085391A (ko) 2004-10-08
KR100486736B1 true KR100486736B1 (ko) 2005-05-03

Family

ID=33411583

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2003-0020059A KR100486736B1 (ko) 2003-03-31 2003-03-31 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치

Country Status (2)

Country Link
US (1) US7295972B2 (ko)
KR (1) KR100486736B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101837990B1 (ko) * 2011-11-16 2018-03-14 재단법인 포항산업과학연구원 음원 위치 추적 장치 및 이의 동작 방법

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8159548B2 (en) * 2003-01-30 2012-04-17 Qualcomm Incorporated Modular architecture having reusable front end for processing digital video data
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
US20060031067A1 (en) * 2004-08-05 2006-02-09 Nissan Motor Co., Ltd. Sound input device
US7454333B2 (en) * 2004-09-13 2008-11-18 Mitsubishi Electric Research Lab, Inc. Separating multiple audio signals recorded as a single mixed signal
JP4765461B2 (ja) * 2005-07-27 2011-09-07 日本電気株式会社 雑音抑圧システムと方法及びプログラム
US20070083365A1 (en) * 2005-10-06 2007-04-12 Dts, Inc. Neural network classifier for separating audio sources from a monophonic audio signal
US7813923B2 (en) * 2005-10-14 2010-10-12 Microsoft Corporation Calibration based beamforming, non-linear adaptive filtering, and multi-sensor headset
US7565288B2 (en) * 2005-12-22 2009-07-21 Microsoft Corporation Spatial noise suppression for a microphone array
US8874439B2 (en) * 2006-03-01 2014-10-28 The Regents Of The University Of California Systems and methods for blind source signal separation
KR100959050B1 (ko) 2006-03-01 2010-05-20 소프트맥스 인코퍼레이티드 분리된 신호를 생성하는 시스템 및 방법
US20070299657A1 (en) * 2006-06-21 2007-12-27 Kang George S Method and apparatus for monitoring multichannel voice transmissions
JP2010519602A (ja) * 2007-02-26 2010-06-03 クゥアルコム・インコーポレイテッド 信号分離のためのシステム、方法、および装置
US8160273B2 (en) * 2007-02-26 2012-04-17 Erik Visser Systems, methods, and apparatus for signal separation using data driven techniques
GB0720473D0 (en) * 2007-10-19 2007-11-28 Univ Surrey Accoustic source separation
EP2058803B1 (en) * 2007-10-29 2010-01-20 Harman/Becker Automotive Systems GmbH Partial speech reconstruction
US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
US8600740B2 (en) * 2008-01-28 2013-12-03 Qualcomm Incorporated Systems, methods and apparatus for context descriptor transmission
US20110038594A1 (en) * 2008-04-25 2011-02-17 Symons Gary M Handheld recorder incorporating true raw audio or video certification
US7904263B2 (en) * 2008-05-30 2011-03-08 The United States Of America As Represented By The Secretary Of The Air Force Method for automatically detecting and characterizing spectral activity
US8321214B2 (en) * 2008-06-02 2012-11-27 Qualcomm Incorporated Systems, methods, and apparatus for multichannel signal amplitude balancing
KR101178801B1 (ko) * 2008-12-09 2012-08-31 한국전자통신연구원 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법
WO2010058230A2 (en) * 2008-11-24 2010-05-27 Institut Rudjer Boskovic Method of and system for blind extraction of more than two pure components out of spectroscopic or spectrometric measurements of only two mixtures by means of sparse component analysis
US20120020489A1 (en) * 2009-01-06 2012-01-26 Tomohiro Narita Noise canceller and noise cancellation program
EP2234415B1 (en) * 2009-03-24 2011-10-12 Siemens Medical Instruments Pte. Ltd. Method and acoustic signal processing system for binaural noise reduction
WO2011030172A1 (en) * 2009-09-10 2011-03-17 Rudjer Boskovic Institute Method of and system for blind extraction of more pure components than mixtures in id and 2d nmr spectroscopy and mass spectrometry by means of combined sparse component analysis and detection of single component points
KR101173980B1 (ko) * 2010-10-18 2012-08-16 (주)트란소노 음성통신 기반 잡음 제거 시스템 및 그 방법
US10497381B2 (en) 2012-05-04 2019-12-03 Xmos Inc. Methods and systems for improved measurement, entity and parameter estimation, and path propagation effect measurement and mitigation in source signal separation
KR102118411B1 (ko) * 2012-05-04 2020-06-03 액스모스 인코포레이티드 원신호 분리 시스템 및 방법
WO2014032738A1 (en) * 2012-09-03 2014-03-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for providing an informed multichannel speech presence probability estimation
US9728182B2 (en) 2013-03-15 2017-08-08 Setem Technologies, Inc. Method and system for generating advanced feature discrimination vectors for use in speech recognition
DK3011286T3 (da) 2013-06-21 2017-11-13 Brüel & Kjaer Sound & Vibration Measurement As Fremgangsmåde til bestemmelse af støjlydbidrag af støjkilder fra et motorkøretøj
US9310800B1 (en) * 2013-07-30 2016-04-12 The Boeing Company Robotic platform evaluation system
KR20150032390A (ko) * 2013-09-16 2015-03-26 삼성전자주식회사 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법
CN105989851B (zh) 2015-02-15 2021-05-07 杜比实验室特许公司 音频源分离
CN105989852A (zh) 2015-02-16 2016-10-05 杜比实验室特许公司 分离音频源
EP3324407A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
EP3324406A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
JP6472824B2 (ja) * 2017-03-21 2019-02-20 株式会社東芝 信号処理装置、信号処理方法および音声の対応づけ提示装置
US20220014280A1 (en) * 2020-06-18 2022-01-13 The Government Of The United States, As Represented By The Secretary Of The Navy Methods, apparatuses, and systems for noise removal

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6327300B1 (en) * 1999-10-25 2001-12-04 Motorola, Inc. Method and apparatus for dynamic spectrum allocation

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101837990B1 (ko) * 2011-11-16 2018-03-14 재단법인 포항산업과학연구원 음원 위치 추적 장치 및 이의 동작 방법

Also Published As

Publication number Publication date
KR20040085391A (ko) 2004-10-08
US20040230428A1 (en) 2004-11-18
US7295972B2 (en) 2007-11-13

Similar Documents

Publication Publication Date Title
KR100486736B1 (ko) 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치
US10446171B2 (en) Online dereverberation algorithm based on weighted prediction error for noisy time-varying environments
US20220013134A1 (en) Multi-stream target-speech detection and channel fusion
Schwartz et al. Multi-microphone speech dereverberation and noise reduction using relative early transfer functions
US7626889B2 (en) Sensor array post-filter for tracking spatial distributions of signals and noise
US7313518B2 (en) Noise reduction method and device using two pass filtering
Schwartz et al. An expectation-maximization algorithm for multimicrophone speech dereverberation and noise reduction with coherence matrix estimation
US9564144B2 (en) System and method for multichannel on-line unsupervised bayesian spectral filtering of real-world acoustic noise
Lee et al. DNN-based feature enhancement using DOA-constrained ICA for robust speech recognition
Roman et al. Binaural segregation in multisource reverberant environments
KR20110021419A (ko) 복소 스펙트럼 잡음 제거 장치 및 방법
Pertilä Online blind speech separation using multiple acoustic speaker tracking and time–frequency masking
EP2774147B1 (en) Audio signal noise attenuation
EP2745293B1 (en) Signal noise attenuation
CN113870893A (zh) 一种多通道双说话人分离方法及系统
Usta et al. Speech protected noise cancellation system in noise dominated environments
Tanaka et al. Acoustic beamforming with maximum SNR criterion and efficient generalized eigenvector tracking
Oh et al. Preprocessing of independent vector analysis using feed-forward network for robust speech recognition
US10204638B2 (en) Integrated sensor-array processor
Ranjbaryan et al. Distributed speech presence probability estimator in fully connected wireless acoustic sensor networks
Kawase et al. Selection of optimal array noise reduction parameter set for accurate speech recognition in various noisy environments
Bartolewska et al. Frame-based Maximum a Posteriori Estimation of Second-Order Statistics for Multichannel Speech Enhancement in Presence of Noise
Ma et al. Generalized crosspower-spectrum phase method
Kim et al. Generalized optimal multi-microphone speech enhancement using sequential minimum variance distortionless response (MVDR) beamforming and postfiltering
Sun et al. Robust multiple sound source localization in noisy environment by using a soundfield microphone

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130318

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20140325

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20150313

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20160322

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20180321

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20190319

Year of fee payment: 15