KR101041039B1 - 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치 - Google Patents

오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치 Download PDF

Info

Publication number
KR101041039B1
KR101041039B1 KR1020090017114A KR20090017114A KR101041039B1 KR 101041039 B1 KR101041039 B1 KR 101041039B1 KR 1020090017114 A KR1020090017114 A KR 1020090017114A KR 20090017114 A KR20090017114 A KR 20090017114A KR 101041039 B1 KR101041039 B1 KR 101041039B1
Authority
KR
South Korea
Prior art keywords
speaker
sound source
estimated
section
detecting
Prior art date
Application number
KR1020090017114A
Other languages
English (en)
Other versions
KR20100098104A (ko
Inventor
육동석
이협우
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020090017114A priority Critical patent/KR101041039B1/ko
Priority to US13/203,387 priority patent/US9431029B2/en
Priority to PCT/KR2010/000833 priority patent/WO2010098546A2/ko
Publication of KR20100098104A publication Critical patent/KR20100098104A/ko
Application granted granted Critical
Publication of KR101041039B1 publication Critical patent/KR101041039B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

본 발명은 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치에 관한 것으로, 본 발명의 일 실시 예에 따른 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법은 마이크로폰 어레이에 입력된 오디오 신호에서 음성 구간을 검출하는 단계; 상기 검출된 음성 구간에서 화자 검증을 수행하는 단계; 상기 화자 검증에 성공한 경우, 카메라에 입력된 비디오 신호를 이용하여 화자의 얼굴을 검출하고 상기 화자의 얼굴 방향을 추정하는 단계; 및 상기 추정된 얼굴 방향이 미리 저장된 기준 방향과 일치하면, 상기 검출된 음성 구간을 상기 화자의 음성 구간으로 판단하는 단계를 포함한다. 본 발명에 의하면, 인식하고자 하는 화자의 위치와 방향을 고려하여 음성 구간을 검출하여 음성 인식 시스템의 성능을 향상시킬 수 있고, 화자의 위치가 시스템이 예상한 위치를 벗어나는 경우에는 적응적인 동작이 가능하다.

Description

오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치 {Method and Apparatus for space-time voice activity detection using audio and video information}
본 발명은 신호처리에 관한 것으로, 특히, 음성 인식 분야에서 시공간의 데이터를 이용하여 음성 구간을 검출하는 방법 및 장치에 관한 것이다.
로봇이나 홈오토메이션과 같은 시스템은 항상 동작하는 도중에 입력되는 신호를 분석하여 사람이 지시하는 행동을 하여야 한다. 이를 위해서는 마이크로폰에 연속적으로 입력되는 신호 중에 사람의 목소리가 있는지 알아내야 화자인식이나 음성인식을 할 수 있다.
통상, 음성인식은 기본적으로 인식하고자 하는 음성 패턴과 기준 패턴과의 유사도 판별에 의해 이루어진다.
도 1은 종래의 음성 인식 시스템을 도시한 것이다.
도 1의 음성 인식 시스템은 입력되는 신호로부터 음성 구간을 검출하는 음성구간 검출부(1)와, MFCC 계수를 사용하여 음성구간 검출부(1)에서 검출된 음성구간으로부터 그 특징을 추출하는 특징계수 추출부(2)와, HMM(Hidden Markov Model)과 VMS VQ(Variable Multi-Section Vector Quantization) 알고리즘을 이용하여 음성 신호를 인식하는 음성 인식부(3)와, 음성신호에 의해 학습된 단어모델 파라미터가 저장되어 있는 데이터 베이스(4)와, 음성 인식부(3)에서 인식된 음성신호에 대해 실효성을 판단하여 인식되는 단어를 출력하는 후처리부(5)로 구성된다.
이와 같이 구성된 음성 인식 시스템에 있어서, 입력되는 신호로부터 정확한 음성구간을 검출하는 것은 음성 인식 시스템의 전처리 부분으로, 시스템의 성능을 좌우하는 전제조건으로서 매우 중요한 작업이다.
음성인식시에 필수적인 음성구간 검출방법으로 다양한 기법이 사용되고 있다. 일반적으로 가장 많이 사용되는 방법은 음성신호의 시간 축상에서의 특징을 이용한 음성구간 검출방법이다. 다시 말해서, 음성신호는 음성구간에서 높은 에너지를 갖게 되고 음성 샘플 사이에 유사도가 매우 높을 뿐만 아니라, 최소한의 음성 지속 시간이 존재한다. 이와 같은 음성신호의 시간축상에서의 특징을 이용하여 배경잡음과 음성구간을 구분함으로써 음성 구간을 검출해내는 것이다.
그런데 음성신호에 주변잡음이 심한 경우 음성신호의 상기 특징들이 잡음에 의해 손상되기 때문에 음성 구간의 검출이 어려워진다. 예를 들어, 신호 대 잡음비(SNR)가 0 dB인 경우에는 신호와 잡음의 에너지가 같기 때문에 에너지에 의한 잡음과 음성구간 구분은 불가능해진다.
시스템에 입력된 모든 신호에 대해 화자인식이나 음성인식을 수행하면 올바른 결과를 내보낼 수 없을 뿐만 아니라 시스템의 불필요한 파워 소모가 발생할 수 있다. 시스템은 원하는 위치가 아닌 곳에서 발생하는 음성과 원하는 위치에서 발생 하였지만 음성이 아닌 잡음을 무시하고 원하는 곳에서 발생한 음성만을 추출해야 한다. 다른 지점에서 발생하는 원하는 음성과 원하지 않는 잡음(원하지 않는 음성을 포함)이 동시에 입력되는 경우, 기존 음성 구간 검출 알고리즘들은 매우 낮은 성능을 보이게 된다. 또한, 화자가 원하는 위치에서 발화하는 경우에 다른 곳을 보고 있다면 시스템이 원하는 음성이 아닐 확률이 큼에도 불구하고, 이를 구별하지 못하고 음성 인식을 의도하게 되는 문제가 있다.
따라서, 본 발명이 이루고자 하는 첫 번째 기술적 과제는 인식하고자 하는 음원의 위치와 화자의 얼굴 방향을 고려하여 음성 구간을 검출하여 음성 인식 시스템의 성능을 향상시킬 수 있는 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법을 제공하는 데 있다.
본 발명이 이루고자 하는 두 번째 기술적 과제는 인식하고자 하는 음원의 위치와 화자의 얼굴 방향을 고려하여 음성 구간을 검출하여 음성 인식 시스템의 성능을 향상시킬 수 있는 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 장치를 제공하는 데 있다.
상기의 첫 번째 기술적 과제를 이루기 위하여, 본 발명의 일 실시 예에 따른 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법은 마이크로폰 어레이에 입력된 오디오 신호에서 음성 구간을 검출하는 단계; 상기 검출된 음성 구간에서 화자 검증을 수행하는 단계; 상기 화자 검증에 성공한 경우, 카메라에 입력된 비디오 신호를 이용하여 화자의 얼굴을 검출하고 상기 화자의 얼굴 방향을 추정하는 단계; 및 상기 추정된 얼굴 방향이 미리 저장된 기준 방향과 일치하면, 상기 검출된 음성 구간을 상기 화자의 음성 구간으로 판단하는 단계를 포함한다.
바람직하게는, 상기 음성 구간을 검출하는 단계는, 마이크로폰 어레이에 입력된 오디오 신호를 이용하여 음원의 위치를 추정하고, 상기 추정된 음원의 위치와 미리 저장된 기준 위치를 비교하여 잡음을 구별할 수 있다. 이 경우, 상기 화자 검증을 수행하는 단계에서 상기 화자 검증에 성공한 경우, 상기 기준 위치의 값을 상기 추정된 음원의 위치로 변경할 수 있다. 한편, 상기 음원의 위치를 추정하는 단계는, 상기 마이크로폰 어레이에 입력된 오디오 신호 중 일정 SNR 이상의 신호를 이용하는 단계일 수 있다. 한편, 상기 음성 구간을 검출하는 단계에서, 상기 구별된 잡음을 제거하고, 상기 잡음이 제거된 신호에서 단일 마이크로폰 기반으로 음성 구간을 검출할 수도 있다. 이와 같이 구별된 잡음을 제거하는 단계에서, 상기 미리 저장된 위치와 다른 위치로 추정되는 음원의 신호를 제거할 수도 있다.
상기의 첫 번째 기술적 과제를 이루기 위하여, 본 발명의 다른 실시 예에 따른 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법은 마이크로폰 어레이에 입력된 오디오 신호를 이용하여 음원의 위치를 추정하는 단계; 및 상기 추정된 음원의 위치와 미리 저장된 기준 위치를 비교하여 일치하지 않는 횟수가 임계값 이상인 경우, 상기 오디오 신호에서 음성 구간을 검출하는 단계; 상기 검출된 음성 구간에서 화자 검증을 수행하는 단계; 상기 화자 검증에 성공한 경우, 카메라에 입력된 비디오 신호를 이용하여 화자의 얼굴을 검출하고 상기 화자의 얼굴 방향을 추정하는 단계; 및 상기 추정된 얼굴 방향이 미리 저장된 기준 방향과 일치하면, 상기 검출된 음성 구간을 상기 화자의 음성 구간으로 판단하는 단계를 포함한다.
바람직하게는, 상기 화자 검증을 수행하는 단계에서 상기 화자 검증에 성공한 경우, 상기 기준 위치의 값을 상기 추정된 음원의 위치로 변경할 수 있다.
상기의 두 번째 기술적 과제를 이루기 위하여, 본 발명의 일 실시 예에 따른 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 장치는 마이크로폰 어레이에 입력된 오디오 신호에서 음성 구간을 검출하는 음성 구간 검출부; 상기 검출된 음성 구간에서 화자 검증을 수행하는 화자 검증부; 및 상기 화자 검증에 성공한 경우, 카메라에 입력된 비디오 신호를 이용하여 화자의 얼굴을 검출하고 상기 화자의 얼굴 방향을 추정하고, 상기 추정된 얼굴 방향이 미리 저장된 기준 방향과 일치하면 상기 검출된 음성 구간을 상기 화자의 음성 구간으로 판단하는 얼굴 방향 검증부를 포함한다.
상기의 두 번째 기술적 과제를 이루기 위하여, 본 발명의 다른 실시 예에 따른 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 장치는 마이크로폰 어레이에 입력된 오디오 신호를 이용하여 음원의 위치를 추정하는 음원 위치 추적부; 및 상기 추정된 음원의 위치와 미리 저장된 기준 위치를 비교하여 일치하지 않는 횟수가 임계값 이상인 경우, 상기 오디오 신호에서 음성 구간을 검출하는 음성 구간 검출부; 상기 검출된 음성 구간에서 화자 검증을 수행하는 화자 검증부; 상기 화자 검증에 성공한 경우, 카메라에 입력된 비디오 신호를 이용하여 화자의 얼굴을 검출하고 상기 화자의 얼굴 방향을 추정하고, 상기 추정된 얼굴 방향이 미리 저장된 기준 방향과 일치하면 상기 검출된 음성 구간을 상기 화자의 음성 구간으로 판단하는 얼굴 방향 검증부를 포함한다.
바람직하게는, 상기 화자 검증부는 상기 화자 검증에 성공한 경우, 상기 기준 위치의 값을 상기 추정된 음원의 위치로 변경할 수 있다.
본 발명에 의하면, 인식하고자 하는 화자의 위치와 방향을 고려하여 음성 구간을 검출하여 음성 인식 시스템의 성능을 향상시킬 수 있고, 화자의 위치가 시스템이 예상한 위치를 벗어나는 경우에는 적응적인 동작이 가능하다.
이하에서는 도면을 참조하여 본 발명의 바람직한 실시 예를 설명하기로 한다. 그러나, 다음에 예시하는 본 발명의 실시 예는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 다음에 상술하는 실시 예에 한정되는 것은 아니다.
본 발명의 일 실시 예에 따른 음성 구간 추출 방법에서는 원하는 음성이 발생하는 지점을 음성 인식 시스템이 미리 알고 있거나, 음원 위치 추적 기법을 통해 신호의 발생 위치를 음성 인식 시스템이 알고 있다고 가정한다. 시스템은 원하는 위치에서 발생한 잡음을 무시하고 원하는 위치 및 방향에서 발생한 음성만을 찾는다. 마이크로폰에 동시에 입력되는 음성과 잡음에 대하여 음성의 구간을 검출하기 위해서는 마이크로폰 어레이를 이용하는 것이 바람직하다. 마이크로폰 어레이는 복수의 마이크로폰으로 음원의 위치를 탐색할 수 있기 때문에 활용할 수 있는 정보가 많은 장점이 있다.
도 2는 본 발명의 일 실시 예에 따른 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법의 흐름도이다.
먼저, 마이크로폰 어레이에 입력된 오디오 신호에서 음성 구간을 검출한다(S210). 이 과정에서, 신호의 세기를 이용하여 일정 SNR (Signal-to-Noise Ratio) 이상의 신호에 대해 음성 구간을 탐색할 수 있다.
다음, 검출된 음성 구간에서 화자 검증을 수행한다(S220). 화자 검증은 시스템에 원하는 화자의 음성 모델을 미리 구축하고, 시스템에 입력되는 음성 신호를 미리 구축된 음성 모델과 비교하는 방식으로 수행된다.
다음, 화자 검증에 성공한 경우(S230), 카메라에 입력된 비디오 신호를 이용하여 화자의 얼굴을 검출하고 화자의 얼굴 방향을 추정한다(S240). 화자 검증에 실패한 경우에는, 음성 구간 검출 과정(S210)부터 다시 시작한다.
다음, 비디오 신호를 이용하여 추정된 화자의 얼굴 방향이 시스템에 미리 저장된 기준 방향과 일치하면(S250), 음성 구간 검출 과정(S210)에서 검출된 음성 구간을 원하는 화자의 음성 구간으로 판단한다(S260). 만약 비디오 신호를 이용하여 추정된 화자의 얼굴 방향이 시스템에 미리 저장된 기준 방향과 일치하지 않으면, 음성 구간 검출 과정(S210)부터 다시 시작한다.
도 3은 본 발명의 다른 실시 예에 따른 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법의 흐름도이다.
먼저, 마이크로폰 어레이에 입력된 오디오 신호를 이용하여 음원의 위치를 추정한다(S311).
다음, 위에서 추정된 음원의 위치와 시스템에 미리 저장된 기준 위치를 비교하여 일정 횟수 이상 불일치하는지 여부를 판단한다(S312). 이때, 불일치하는 횟수가 일정 횟수 미만인 경우, 해당 신호를 잡음으로 구분하거나 이를 제거한다(S313). 불일치하는 횟수가 일정 횟수 미만인 경우에는 기준 위치와 일치하는 음 원을 찾는 과정을 거칠 수 있다.
이후에, 음성 구간을 검출할 수 있다. 바람직하게는, 신호의 세기를 이용하여 일정 SNR 이상의 신호에 대해 음성 구간을 탐색할 수 있다.
다음, 검출된 음성 구간에서 화자 검증을 수행한다(S320). 화자 검증은 시스템에 원하는 화자의 음성 모델을 미리 구축하고, 시스템에 입력되는 음성 신호를 미리 구축된 음성 모델과 비교하는 방식으로 수행된다.
화자 검증에 성공한 경우(S330), 시스템에 미리 저장된 기준 위치를 위에서 추정된 음원의 위치로 변경한다(S335).
다음, 카메라에 입력된 비디오 신호를 이용하여 화자의 얼굴을 검출하고 화자의 얼굴 방향을 추정한다(S340). 화자 검증에 실패한 경우에는, 음성 위치 추정 과정(S311)부터 다시 시작한다.
비디오 신호를 이용하여 추정된 화자의 얼굴 방향이 시스템에 미리 저장된 기준 방향과 일치하면(S350), 음원 위치를 추정(S311)하면서 검출한 음성 구간을 원하는 화자의 음성 구간으로 판단한다(S360). 만약 비디오 신호를 이용하여 추정된 화자의 얼굴 방향이 시스템에 미리 저장된 기준 방향과 일치하지 않으면, 음성 위치 추정 과정(S311)부터 다시 시작한다.
도 4는 본 발명의 또 다른 실시 예에 따른 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 장치의 블록도이다.
마이크로폰 어레이(410)는 복수의 마이크로폰을 구비하여 오디오 신호를 입력받는다.
SNR 추정부(420)는 마이크로폰 어레이(410)에 입력된 오디오 신호의 세기를 이용하여 오디오 신호의 SNR을 구한다. 일정 SNR 이상의 신호에 대해서만 음성 구간을 탐색하게 하는 것이 바람직하다.
음원 위치 추적부(430)는 마이크로폰 어레이에 입력된 오디오 신호를 이용하여 음원의 위치를 추적한다. 이 경우에도 일정 SNR 이상의 신호에 대해서만 음원의 위치를 추적하는 것이 바람직하다. 음원 위치 추적부(430)는 추정된 음원의 위치와 시스템에 미리 저장된 기준 위치를 비교하여 불일치시에 해당 음원을 잡음으로 판단할 수 있다. 음원 위치 추적부(430)는 기준 위치와 추정된 음원의 위치를 비교하여 원하지 않은 방향의 신호(음성을 포함한 잡음)를 제거할 수 있다.
음원 위치 추적부(430)에서 일정 방향으로의 오류가 연속적으로 발생하는 경우, 음성 강화부(440)는 해당 방향의 신호에 대해 음성을 강화할 수 있다. 즉, 시스템이 예상한 방향은 아니더라도, 다른 방향에서 화자의 음성 신호가 지속적으로 발생하는 경우에는 해당 방향에서의 음성 신호를 잡음으로 간주하는 것이 아니라, 정당한 음성 신호로서 용인하는 것이다. 이 경우에, 화자 검증부(460)는 정당한 음성 신호로 용인된 신호에 화자 검증기법을 적용하고, 해당 신호가 시스템이 인식하고자 하는 화자인 경우에는 시스템에 저장된 기준 방향을 변경한다. 이에 따라, 시스템은 인식하고자 하는 화자의 위치를 추적하면서 음성 인식을 수행할 수 있다.
한편, 음원 위치 추적부(430)에서 기준값으로 사용한 기준 위치는 메모리 기타 저장 수단(435)에 저장될 수 있다.
음성 강화부(440)는 전달된 오디오 신호의 음성을 강화하고 잡음을 제거한 다. 음성을 강화하는 방법의 예로 특정 주파수 대역을 증폭시키는 방법이 있다.
음성 구간 검출부(450)는 음성 강화부(440)에서 강화된 음성을 단일 마이크로폰 기반의 음성 구간 검출 기법에 적용한다. 음성 강화부(440)에서 음성을 강화하는 이유는 음성 구간 검출 기법이 높은 SNR에서 더 좋은 성능을 보이기 때문이다.
화자 검증부(460)는 음성 구간 검출부(450)가 음성의 구간을 정하면 이 신호가 인식하고자 하는 사용자의 음성인지 화자 검증을 수행한다.
화자 검증부(460)에서 화자가 인식하고자 하는 사용자로 판단되면, 얼굴 방향 검증부(470)는 카메라(475)에 입력된 비디오 신호에서 얼굴을 검출하여 그 얼굴의 방향을 추정한다. 얼굴 방향 검증부(470)는 추정된 얼굴의 방향이 시스템이 위치한 쪽의 방향이면 음성 구간 검출부(450)에서 검출된 음성 구간을 인식하고자 하는 화자의 음성 구간으로 인식한다.
본 발명은 소프트웨어를 통해 실행될 수 있다. 바람직하게는, 본 발명의 일 실시 예에 따른 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법을 컴퓨터에서 실행시키기 위한 프로그램을 컴퓨터로 읽을 수 있는 기록매체에 기록하여 제공할 수 있다. 소프트웨어로 실행될 때, 본 발명의 구성 수단들은 필요한 작업을 실행하는 코드 세그먼트들이다. 프로그램 또는 코드 세그먼트들은 프로세서 판독 가능 매체에 저장되거나 전송 매체 또는 통신망에서 반송파와 결합된 컴퓨터 데이터 신호에 의하여 전송될 수 있다.
컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 장치의 예로는 ROM, RAM, CD-ROM, DVD±ROM, DVD-RAM, 자기 테이프, 플로피 디스크, 하드 디스크(hard disk), 광데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 장치에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
본 발명은 도면에 도시된 일 실시 예를 참고로 하여 설명하였으나 이는 예시적인 것에 불과하며 당해 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 실시 예의 변형이 가능하다는 점을 이해할 것이다. 그리고, 이와 같은 변형은 본 발명의 기술적 보호범위 내에 있다고 보아야 한다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해서 정해져야 할 것이다.
본 발명은 음성 인식 분야에서 시공간의 데이터를 이용하여 음성 구간을 검출하는 방법 및 장치에 관한 것으로, 인식하고자 하는 화자의 위치와 방향을 고려하여 음성 구간을 검출하여 음성 인식 시스템의 성능을 향상시킬 수 있는 음성 인식 장치 및 이를 포함하는 시스템에 적용될 수 있다.
도 1은 종래의 음성 인식 시스템을 도시한 것이다.
도 2는 본 발명의 일 실시 예에 따른 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법의 흐름도이다.
도 3은 본 발명의 다른 실시 예에 따른 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법의 흐름도이다.
도 4는 본 발명의 또 다른 실시 예에 따른 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 장치의 블록도이다.

Claims (12)

  1. 마이크로폰 어레이에 입력된 오디오 신호를 이용하여 음원의 위치를 추정하는 단계;
    상기 추정된 음원의 위치와 미리 저장된 기준 위치를 비교하여 잡음을 구별하면서 상기 오디오 신호에서 음성 구간을 검출하는 단계;
    상기 검출된 음성 구간에서 화자 검증을 수행하는 단계;
    상기 화자 검증에 성공한 경우, 카메라에 입력된 비디오 신호를 이용하여 화자의 얼굴을 검출하고 상기 화자의 얼굴 방향을 추정하는 단계; 및
    상기 추정된 얼굴 방향이 미리 저장된 기준 방향과 일치하면, 상기 검출된 음성 구간을 상기 화자의 음성 구간으로 판단하는 단계
    를 포함하는, 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 화자 검증을 수행하는 단계는,
    상기 화자 검증에 성공한 경우, 상기 기준 위치의 값을 상기 추정된 음원의 위치로 변경하는 단계를 포함하는 것을 특징으로 하는, 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법.
  4. 제1항에 있어서,
    상기 음원의 위치를 추정하는 단계는,
    상기 마이크로폰 어레이에 입력된 오디오 신호 중 일정 SNR 이상의 신호를 이용하는 단계인 것을 특징으로 하는, 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법.
  5. 제1항에 있어서,
    상기 음성 구간을 검출하는 단계는,
    상기 구별된 잡음을 제거하는 단계; 및
    상기 잡음이 제거된 신호에서 단일 마이크로폰 기반으로 음성 구간을 검출하는 단계를 더 포함하는 것을 특징으로 하는, 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법.
  6. 제5항에 있어서,
    상기 구별된 잡음을 제거하는 단계는,
    상기 미리 저장된 위치와 다른 위치로 추정되는 음원의 신호를 제거하는 단 계를 포함하는 것을 특징으로 하는, 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법.
  7. 마이크로폰 어레이에 입력된 오디오 신호를 이용하여 음원의 위치를 추정하는 단계; 및
    상기 추정된 음원의 위치와 미리 저장된 기준 위치를 비교하여 일치하지 않는 횟수가 임계값 이상인 경우, 상기 오디오 신호에서 음성 구간을 검출하는 단계;
    상기 검출된 음성 구간에서 화자 검증을 수행하는 단계;
    상기 화자 검증에 성공한 경우, 카메라에 입력된 비디오 신호를 이용하여 화자의 얼굴을 검출하고 상기 화자의 얼굴 방향을 추정하는 단계; 및
    상기 추정된 얼굴 방향이 미리 저장된 기준 방향과 일치하면, 상기 검출된 음성 구간을 상기 화자의 음성 구간으로 판단하는 단계
    를 포함하는, 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법.
  8. 제7항에 있어서,
    상기 화자 검증을 수행하는 단계는,
    상기 화자 검증에 성공한 경우, 상기 기준 위치의 값을 상기 추정된 음원의 위치로 변경하는 단계를 포함하는 것을 특징으로 하는, 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법.
  9. 제 1 항, 제 3 항 내지 제 8 항 중 어느 한 항에 따른 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법을 컴퓨터 시스템에서 실행하기 위한 프로그램이 기록된 컴퓨터 시스템이 판독할 수 있는 기록매체.
  10. 마이크로폰 어레이에 입력된 오디오 신호를 이용하여 음원의 위치를 추정하고, 추정된 음원의 위치와 미리 저장된 기준 위치를 비교하여 잡음을 구별하면서 상기 오디오 신호에서 음성 구간을 검출하는 음성 구간 검출부;
    상기 검출된 음성 구간에서 화자 검증을 수행하는 화자 검증부; 및
    상기 화자 검증에 성공한 경우, 카메라에 입력된 비디오 신호를 이용하여 화자의 얼굴을 검출하고 상기 화자의 얼굴 방향을 추정하고, 상기 추정된 얼굴 방향이 미리 저장된 기준 방향과 일치하면 상기 검출된 음성 구간을 상기 화자의 음성 구간으로 판단하는 얼굴 방향 검증부
    를 포함하는, 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 장치.
  11. 마이크로폰 어레이에 입력된 오디오 신호를 이용하여 음원의 위치를 추정하는 음원 위치 추적부; 및
    상기 추정된 음원의 위치와 미리 저장된 기준 위치를 비교하여 일치하지 않는 횟수가 임계값 이상인 경우, 상기 오디오 신호에서 음성 구간을 검출하는 음성 구간 검출부;
    상기 검출된 음성 구간에서 화자 검증을 수행하는 화자 검증부;
    상기 화자 검증에 성공한 경우, 카메라에 입력된 비디오 신호를 이용하여 화 자의 얼굴을 검출하고 상기 화자의 얼굴 방향을 추정하고, 상기 추정된 얼굴 방향이 미리 저장된 기준 방향과 일치하면 상기 검출된 음성 구간을 상기 화자의 음성 구간으로 판단하는 얼굴 방향 검증부
    를 포함하는, 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 장치.
  12. 제11항에 있어서,
    상기 화자 검증부는,
    상기 화자 검증에 성공한 경우, 상기 기준 위치의 값을 상기 추정된 음원의 위치로 변경하는 것을 특징으로 하는, 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 장치.
KR1020090017114A 2009-02-27 2009-02-27 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치 KR101041039B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020090017114A KR101041039B1 (ko) 2009-02-27 2009-02-27 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
US13/203,387 US9431029B2 (en) 2009-02-27 2010-02-10 Method for detecting voice section from time-space by using audio and video information and apparatus thereof
PCT/KR2010/000833 WO2010098546A2 (ko) 2009-02-27 2010-02-10 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090017114A KR101041039B1 (ko) 2009-02-27 2009-02-27 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20100098104A KR20100098104A (ko) 2010-09-06
KR101041039B1 true KR101041039B1 (ko) 2011-06-14

Family

ID=42666025

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090017114A KR101041039B1 (ko) 2009-02-27 2009-02-27 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치

Country Status (3)

Country Link
US (1) US9431029B2 (ko)
KR (1) KR101041039B1 (ko)
WO (1) WO2010098546A2 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140142149A (ko) * 2013-06-03 2014-12-11 삼성전자주식회사 음성 향상 방법 및 그 장치
KR102453919B1 (ko) 2022-05-09 2022-10-12 (주)피플리 인공지능 기반 문화 콘텐츠 관련 가이드 음원의 검증 방법, 장치 및 시스템

Families Citing this family (180)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
KR101750338B1 (ko) 2010-09-13 2017-06-23 삼성전자주식회사 마이크의 빔포밍 수행 방법 및 장치
KR101233272B1 (ko) * 2011-03-08 2013-02-14 고려대학교 산학협력단 잡음 환경에서의 음성 처리 장치 및 방법
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
GB2493327B (en) * 2011-07-05 2018-06-06 Skype Processing audio signals
GB2495472B (en) 2011-09-30 2019-07-03 Skype Processing audio signals
GB2495131A (en) 2011-09-30 2013-04-03 Skype A mobile device includes a received-signal beamformer that adapts to motion of the mobile device
GB2495128B (en) 2011-09-30 2018-04-04 Skype Processing signals
GB2495278A (en) 2011-09-30 2013-04-10 Skype Processing received signals from a range of receiving angles to reduce interference
GB2495129B (en) 2011-09-30 2017-07-19 Skype Processing signals
GB2495130B (en) 2011-09-30 2018-10-24 Skype Processing audio signals
GB2496660B (en) 2011-11-18 2014-06-04 Skype Processing audio signals
GB201120392D0 (en) 2011-11-25 2012-01-11 Skype Ltd Processing signals
GB2497343B (en) 2011-12-08 2014-11-26 Skype Processing audio signals
CN104011735B (zh) * 2011-12-26 2018-03-30 英特尔公司 基于车辆的对乘员音频和可视输入的确定
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9881616B2 (en) * 2012-06-06 2018-01-30 Qualcomm Incorporated Method and systems having improved speech recognition
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
CN104217149B (zh) 2013-05-31 2017-05-24 国际商业机器公司 基于语音的生物认证方法及设备
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10186282B2 (en) * 2014-06-19 2019-01-22 Apple Inc. Robust end-pointing of speech signals using speaker recognition
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
KR101805976B1 (ko) * 2015-03-02 2017-12-07 한국전자통신연구원 음성 인식 장치 및 방법
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
KR102339798B1 (ko) * 2015-08-21 2021-12-15 삼성전자주식회사 전자 장치의 음향 처리 방법 및 그 전자 장치
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
JP6693111B2 (ja) * 2015-12-14 2020-05-13 カシオ計算機株式会社 対話装置、ロボット、対話方法及びプログラム
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
CN106356067A (zh) * 2016-08-25 2017-01-25 乐视控股(北京)有限公司 录音方法、装置及终端
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
JP6927308B2 (ja) 2017-07-26 2021-08-25 日本電気株式会社 音声操作装置及びその制御方法
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
CN107742522B (zh) 2017-10-23 2022-01-14 科大讯飞股份有限公司 基于麦克风阵列的目标语音获取方法及装置
CN107862060B (zh) * 2017-11-15 2021-03-23 吉林大学 一种追踪目标人的语义识别装置及识别方法
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
CN109859749A (zh) 2017-11-30 2019-06-07 阿里巴巴集团控股有限公司 一种语音信号识别方法和装置
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US11150869B2 (en) 2018-02-14 2021-10-19 International Business Machines Corporation Voice command filtering
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11200890B2 (en) * 2018-05-01 2021-12-14 International Business Machines Corporation Distinguishing voice commands
US11238856B2 (en) 2018-05-01 2022-02-01 International Business Machines Corporation Ignoring trigger words in streamed media content
US10847162B2 (en) * 2018-05-07 2020-11-24 Microsoft Technology Licensing, Llc Multi-modal speech localization
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11527265B2 (en) 2018-11-02 2022-12-13 BriefCam Ltd. Method and system for automatic object-aware video or audio redaction
KR20200081274A (ko) 2018-12-27 2020-07-07 한화테크윈 주식회사 음성을 인식하는 장치 및 방법
WO2020138943A1 (ko) * 2018-12-27 2020-07-02 한화테크윈 주식회사 음성을 인식하는 장치 및 방법
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
CN109979447A (zh) * 2019-01-25 2019-07-05 广州富港万嘉智能科技有限公司 一种基于位置的点餐控制方法、电子设备及存储介质
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
KR102230667B1 (ko) * 2019-05-10 2021-03-22 네이버 주식회사 오디오-비주얼 데이터에 기반한 화자 분리 방법 및 장치
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11355108B2 (en) 2019-08-20 2022-06-07 International Business Machines Corporation Distinguishing voice commands
US11514928B2 (en) * 2019-09-09 2022-11-29 Apple Inc. Spatially informed audio signal processing for user speech
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
KR20210101703A (ko) 2020-02-10 2021-08-19 삼성전자주식회사 전자 장치 및 전자 장치의 음성 녹음 방법
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
KR102412863B1 (ko) * 2020-05-21 2022-06-24 주식회사 윌비소프트 동영상 강의의 중요구간 탐지 방법, 컴퓨터 프로그램 및 컴퓨터 판독가능 기록 매체
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN112951257A (zh) * 2020-09-24 2021-06-11 上海译会信息科技有限公司 一种音频图像采集设备及说话人定位及语音分离方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070061207A (ko) * 2005-12-08 2007-06-13 한국전자통신연구원 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템
JP2008152125A (ja) * 2006-12-19 2008-07-03 Toyota Central R&D Labs Inc 発話検出装置及び発話検出方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091466A (ja) * 2000-09-12 2002-03-27 Pioneer Electronic Corp 音声認識装置
US6964023B2 (en) * 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
JP3627058B2 (ja) * 2002-03-01 2005-03-09 独立行政法人科学技術振興機構 ロボット視聴覚システム
JP4195267B2 (ja) * 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
KR100758707B1 (ko) * 2005-12-08 2007-09-14 한국전자통신연구원 로봇 환경에서 음원 추적 시스템 및 방법
JP5070873B2 (ja) 2006-08-09 2012-11-14 富士通株式会社 音源方向推定装置、音源方向推定方法、及びコンピュータプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070061207A (ko) * 2005-12-08 2007-06-13 한국전자통신연구원 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템
JP2008152125A (ja) * 2006-12-19 2008-07-03 Toyota Central R&D Labs Inc 発話検出装置及び発話検出方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140142149A (ko) * 2013-06-03 2014-12-11 삼성전자주식회사 음성 향상 방법 및 그 장치
WO2014196769A1 (ko) * 2013-06-03 2014-12-11 삼성전자 주식회사 음성 향상 방법 및 그 장치
US10431241B2 (en) 2013-06-03 2019-10-01 Samsung Electronics Co., Ltd. Speech enhancement method and apparatus for same
US10529360B2 (en) 2013-06-03 2020-01-07 Samsung Electronics Co., Ltd. Speech enhancement method and apparatus for same
US11043231B2 (en) 2013-06-03 2021-06-22 Samsung Electronics Co., Ltd. Speech enhancement method and apparatus for same
KR102282366B1 (ko) * 2013-06-03 2021-07-27 삼성전자주식회사 음성 향상 방법 및 그 장치
KR102453919B1 (ko) 2022-05-09 2022-10-12 (주)피플리 인공지능 기반 문화 콘텐츠 관련 가이드 음원의 검증 방법, 장치 및 시스템

Also Published As

Publication number Publication date
WO2010098546A2 (ko) 2010-09-02
WO2010098546A3 (ko) 2010-10-21
US9431029B2 (en) 2016-08-30
US20120078624A1 (en) 2012-03-29
KR20100098104A (ko) 2010-09-06

Similar Documents

Publication Publication Date Title
KR101041039B1 (ko) 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
KR102339594B1 (ko) 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체
US9159320B2 (en) Endpoint detection apparatus for sound source and method thereof
US8543402B1 (en) Speaker segmentation in noisy conversational speech
US8938404B2 (en) System and method for detecting abnormal audio events
US20120130716A1 (en) Speech recognition method for robot
TWI711035B (zh) 方位角估計的方法、設備、語音交互系統及儲存介質
US8046215B2 (en) Method and apparatus to detect voice activity by adding a random signal
CN105161093A (zh) 一种判断说话人数目的方法及系统
Moattar et al. A new approach for robust realtime voice activity detection using spectral pattern
KR101697651B1 (ko) 음성 신호의 검출 방법 및 장치
JP4787979B2 (ja) 雑音検出装置および雑音検出方法
Martínez-González et al. Spatial features selection for unsupervised speaker segmentation and clustering
US8326457B2 (en) Apparatus for detecting user and method for detecting user by the same
US11887605B2 (en) Voice processing
KR100429896B1 (ko) 잡음 환경에서의 음성신호 검출방법 및 그 장치
Friedland et al. Speaker recognition and diarization
Hogg et al. Multiple hypothesis tracking for overlapping speaker segmentation
CN111681671B (zh) 异常音识别方法、装置及计算机存储介质
KR20190020471A (ko) 음성 존재 구간 판별 장치 및 방법
CN117727298B (zh) 基于深度学习的手提电脑语音识别方法及系统
Kotti et al. Speaker change detection using BIC: A comparison on two datasets
Barakat et al. Noise robust keyword spotting for user generated video blogs
EP4218012A1 (en) Adaptive noise estimation
CN116825142A (zh) 自适应参数投票机制的语音端点检测方法及系统

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140304

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170328

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190411

Year of fee payment: 9