KR101398218B1 - 감정 음성 인식장치 및 방법 - Google Patents
감정 음성 인식장치 및 방법 Download PDFInfo
- Publication number
- KR101398218B1 KR101398218B1 KR1020120097345A KR20120097345A KR101398218B1 KR 101398218 B1 KR101398218 B1 KR 101398218B1 KR 1020120097345 A KR1020120097345 A KR 1020120097345A KR 20120097345 A KR20120097345 A KR 20120097345A KR 101398218 B1 KR101398218 B1 KR 101398218B1
- Authority
- KR
- South Korea
- Prior art keywords
- atom
- weighted
- residue
- atoms
- input signal
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000002996 emotional effect Effects 0.000 title claims abstract description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 7
- 230000036541 health Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 11
- 230000008451 emotion Effects 0.000 description 4
- 230000003247 decreasing effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 230000008909 emotion recognition Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000747 cardiac effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 사용자의 음성으로부터 사용자의 감정 및 신체 상태를 인식하기 위한 감정 음성 인식장치 및 방법에 대한 기술이다. 본 발명에 따른 모바일 단말을 이용한 건강관리 장치는 음성 인식부로부터 수신된 음성 입력 신호에 기초하여 추정된 스펙트로그램을 이용하여 수신된 원본 원자에 가중치를 부가하여 가중된 원자를 생성하여 전달하는 가중 처리부 및 수신된 가중된 원자와 배정된 레지듀에 기초하여 새로운 레지듀를 생성하고, 생성된 배정된 레지듀가 미리 설정된 문턱값(Threshold)보다 작으면 상기 가중된 원자를 상기 내부 생성을 최대화 시키는 출력 원자로 결정하는 인식 처리부를 포함한다.
Description
본 발명은 사용자의 음성으로부터 사용자의 감정을 인식할 수 있는 감정 음성 인식장치 및 그 방법에 관한 것이다.
음성을 통해 기계장치나 전자장치에 의사 또는 제어 명령을 전달하기 위한 음성 인식 기술은 더 편리한 서비스를 원하는 사용자들의 요구에 발맞추어 빠르게 발전하고 있다. 특히, 기술이 점차 발전하면서 사용자들은 일반적인 음성의 내용이나 명령만을 인식할 수 있는 음성 인식 기술에서 벗어나 사용자의 음성에 기초하여 사용자의 감정 상태까지 인식할 수 있는 감정 음성 인식 기술을 요구하고 있다. 감정은 사람의 행동이나 의도를 파악하는데 매우 중요한 역할을 담당하기 때문에, 사람과 기계장치 사이에 상호작용을 증가시킬 수 있다. 이를 통해, 종래의 단순히 명령에만 동작하는 것이 아니라, 사용자의 상황에 따라 적합한 서비스를 제공해주는 장치의 개발 등에 적용할 수 있다.
감정 음성 인식 기술은 말하는 사람의 음성을 인식하고, 인식된 음성으로부터 말하는 사람의 감정 또는 신체적 상태를 인식할 수 있는 음성 처리 응용 방법의 하나이다. 음성으로부터 사용자의 감정을 인식하는 방법은 일반적으로 특징 추출(Feature Extraction) 방법을 사용하고 있다. 그리고 음성으로부터 인식된 감정의 정확도는 추출된 특징에 따라 달라지게 된다.
현재 일반적으로 사용되는 특징 추출 방법은 음성의 피치(Pitch), 낭독속도(Speech Rate), 강도(Intensity), MFCC(Mel-Frequency Cepstral Coefficients) 및 LPCC(Linear Prediction Cepstral Coefficients) 등을 이용하여 음성으로부터 감정 상태를 인식한다. 상술한 특징 추출 방법에 이용되는 요소들은 시간과 주파수의 서로 다른 영역(Domain)에서 음성 신호로부터 추출된다. 이러한 요소들을 시간 도메인에서 주파수 도메인으로 또는 그 반대 방향으로 변환하기 위해 고속 퓨리에 변환(Fast Fourier Transform, FFT)이 일반적으로 사용된다. 하지만 고속 퓨리에 변환의 경우, 시간에 국한된 함수의 표면만을 제공한다.
이러한 고속 퓨리에 변환의 한계를 극복하고자 대응 추적(Matching Pursuit) 알고리즘을 사용한다. 대응 추적은 원본 신호를 미리 설정된 원자(Atom)들의 사전(Dictionary)으로 분해하는 반복 알고리즘이다. 대한민국 공개특허 제10-2011-0097304호에는 대응 추적을 이용하여 심음을 분석하는 기술에 대해 기재되어 있다. 하지만 종래의 대응 추적은 원자의 사전이 거대하기 때문에 매우 많은 내적 연산을 필요로 한다. 그래서 모든 원자들을 위한 검색은 많은 시간과 노력을 필요로 한다.
(특허문헌 1) 대한민국 공개특허 제10-2011-0097304호
본 발명에서 해결하고자 하는 과제는 사용자의 음성으로부터 사용자의 감정 및 신체 상태를 인식하기 위한 기술로서, 특히 연산량을 감소시켜 더욱 빠른 결과를 도출할 수 있는 알고리즘을 적용한 감정 음성 인식장치 및 방법을 제공하는 것이다.
본 발명에 따른 모바일 단말을 이용한 건강관리 장치는 사용자로부터 음성 입력 신호를 수신 받아 전달하는 음성 인식부, 다수의 원본 원자를 저장하고 있으며, 수신된 요청에 따라 원본 원자를 전달하는 원본 사전부, 음성 인식부로부터 수신된 음성 입력 신호에 기초하여 스펙트로그램(Spectrogram)을 추정하고, 추정된 스펙트로그램을 이용하여 수신된 원본 원자에 가중치를 부가하여 가중된 원자를 생성하여 전달하는 가중 처리부, 상기 가중 처리부로부터 수신된 가중된 원자를 저장하며, 수신된 요청에 따라 가중된 원자를 전달하는 가중 사전부 및 음성 인식부로부터 수신된 음성 입력 신호를 레지듀(Residue)로 배정하고, 가중 사전부에 기초하여 원자 선택 기준을 수정하여 가중 사전부에 가중된 원자를 요청하고, 요청에 따라 수신된 가중된 원자와 배정된 레지듀에 기초하여 새로운 레지듀를 생성하고, 생성된 배정된 레지듀가 미리 설정된 문턱값(Threshold)보다 작으면 상기 가중된 원자를 상기 내부 생성을 최대화 시키는 출력 원자로 결정하는 인식 처리부를 포함한다.
본 발명에 따른 감정 음성 인식장치 및 방법을 통해 단순히 명령이나 내용만을 인식하던 음성 인식과 달리 사용자의 감정 및 신체상태를 인식할 수 있기 때문에, 사용자의 상황에 따라 적합한 서비스를 제공받을 수 있다.
도 1은 본 발명에 따른 감정 음성 인식 장치의 일 실시예의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 대응 추적 알고리즘의 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 가중된 사전을 생성하는 방법을 나타내는 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 원자의 선택기준을 수정하는 방법을 나타내는 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 선택된 원자와 입력 신호의 스펙트로그램 사이의 관계를 나타내는 일례의 도면이다.
도 6은 본 발명의 일 실시예에 따른 인식을 위한 대응 추적 알고리즘의 선택된 원자에 기반한 특징 추출 방법을 나타내는 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 대응 추적 알고리즘의 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 가중된 사전을 생성하는 방법을 나타내는 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 원자의 선택기준을 수정하는 방법을 나타내는 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 선택된 원자와 입력 신호의 스펙트로그램 사이의 관계를 나타내는 일례의 도면이다.
도 6은 본 발명의 일 실시예에 따른 인식을 위한 대응 추적 알고리즘의 선택된 원자에 기반한 특징 추출 방법을 나타내는 흐름도이다.
이하, 첨부된 도면들을 참조하여 본 발명의 실시예를 상세하게 설명한다. 본 명세서에서 사용되는 용어는 실시예에서의 기능 및 효과를 고려하여 선택된 용어들로서, 그 용어의 의미는 사용자 또는 운용자의 의도 또는 업계의 관례 등에 따라 달라질 수 있다. 따라서 후술하는 실시예들에서 사용된 용어의 의미는, 본 명세서에 구체적으로 명시된 경우에는 명시된 정의에 따르며, 구체적으로 명시하지 않는 경우, 당업자들이 일반적으로 인식하는 의미로 해석되어야 할 것이다.
도 1은 본 발명에 따른 감정 음성 인식 장치의 일 실시예의 구성도이다.
도 1을 참조하면, 본 발명에 따른 감정 음성 인식 장치(100)는 음성 인식부(111), 가중 처리부(112), 원본 사전부(113), 가중 사전부(114) 및 인식 처리부(115)를 포함한다.
음성 인식부(111)는 사용자로부터 음성 입력 신호를 인식하여 수신 받고, 수신된 음성 인력 신호를 가중 처리부(112) 및 인식 처리부(115)로 전달한다.
가중 처리부(112)는 단시간 퓨리에 변환(Short Time Fourier Transform)을 이용하여 음성 인식부(111)로부터 수신된 음성 입력 신호의 스펙트로그램(Spectrogram)을 추정한다. 그리고 추정된 스펙트로그램의 값을 0부터 1까지로 정규화한다. 모든 스펙트로그램의 값은 0부터 1까지 정규화가 가능하기 때문에, 원자들의 가중치 또한 0부터 1까지로 정규화 될 수 있다.
가중 처리부(112)는 원본 사전부(115)로부터 원본 원자를 전달 받는다. 그리고 시간과 중앙 주파수의 최 근사값을 가지는 스펙트로그램의 대응값을 찾는다. 이를 통해 가중치 값을 대응하는 원본 원자에 할당하여 가중된 원자를 생성한다. 다음으로 가중 처리부(112)는 생성된 가중된 원자를 내림차순으로 분류하고 가중 사전부(114)로 전달한다.
원본 사전부(113)는 가중되지 않은 기존의 원자를 저장하고 있으며 가중 처리부(112)의 요청에 따라 저장된 원자를 전달한다.
가중 사전부(114)는 가중 처리부(112)로부터 전달된 가중된 원자를 저장한다. 그리고 인식 처리부(115)의 요청에 따라 저장된 가중된 원자를 전달한다.
인식 처리부(115)는 음성 인식부(111)로부터 수신된 음성 입력 신호를 초기 레지듀(residue) 또는 현재 레지듀로 배정한다. 그리고 배정된 현재 레지듀와 가중 사전부(114)에 기초하여 원자 선택 기준을 수정한다. 생성된 스펙트로그램 가중치에 의해 가중 사전부가 생성되면, 음성 입력 신호에 대한 최적의 대응 원자를 사전에서 검색하기 위한 기준이 변경된다. 가중된 값의 내림차순에 따라 가중된 원자를 선택하고, 선택된 원자와 현재의 레지듀 사이의 내부 생성물을 계산한다. 그리고 생성된 내부 생성물이 감소하며, 문턱값보다 작은 경우 해당 원자를 내부 생성을 최대화 시킨 출력 원자로 결정한다.
도 2는 본 발명의 일 실시예에 따른 대응 추적 알고리즘의 흐름도이다.
도 2를 참조하면 본 발명의 일 실시예에 따른 대응 추적 알고리즘은 먼저, 사용자로부터 음성 입력 신호를 전달받는다(201). 그리고 수신된 음성 입력 신호를 초기 레지듀(residue)로 배정한다(202). 수신된 입력 신호를 수학식 1과 같이 초기 레지듀로 초기화 하여 배정한다.
수학식 1에서 R은 함수 f의 레지듀이고, Rf1는 초기 레지듀이고, f(t)는 입력 신호를 나타낸다.
다음으로 수신된 음성 입력 신호로부터 스펙트로그램 가중치(Spectrogram Weighting)를 생성한다(203). 일반적인 대응 추적 알고리즘은 사전으로부터 새로운 원자를 선택하는데 있어서, 최대 값을 가지는 내부 생성물 전체를 검색해야 한다. 하지만 충분한 데이터를 계산하기 위해 사전의 크기는 충분히 커야 하므로 새로운 원자를 선택하는데 많은 연산량과 시간을 필요로 한다. 이러한 문제를 해결하기 위해 스펙트로그램 가중치를 이용하여 연산량을 줄일 수 있다. 생성된 스펙트로그램 가중치를 이용하여 가중된 사전을 생성한다(204). 가중치에 의해 가중된 사전은 모든 원자들이 동일한 가중치를 가지지 않는다. 따라서 더 큰 가중치를 가지는 원자들은 출력 원자로 선택될 수 가능성이 높게 된다. 203단계 및 204단계에 대한 구체적인 설명은 후술하는 도 3에서 설명하도록 한다.
다음으로 초기 레지듀와 가중된 사전에 기초하여 원자 선택 기준을 수정한다(205). 생성된 스펙트로그램 가중치에 의해 가중된 사전이 생성되면, 입력 신호에 대한 최적의 대응 원자를 사전에서 검색하여 선택하기 위한 기준들이 변경된다. 변경된 기준에 따라 가중된 사전에서 가중된 원자를 선택한다. 초기 레지듀와 가중된 사전에 기초하여 원자 선택 기준을 수정하는 방법은 후술하는 도 4에서 설명하도록 한다.
다음으로 새로운 레지듀를 계산한다(206). 수학식 2와 같이, 현재의 레지듀는 내부 생성물에 의해 제거되어 새로운 레지듀를 생성한다.
수학식 2에서 는 현재의 레지듀(또는 배정된 레지듀)이고, n은 원자의 색인(index)이고, 은 가중치 인자(Weight Factor)이고, 은 원자이고, 는 내부 생성물이며 가중된 원자이고, 는 새로운 레지듀이다.
그리고 현재의 레지듀가 문턱값(Threshold)보다 더 커지는 값을 가지는지 여부를 확인한다(207).
만약 원자들의 수가 현재의 레지듀가 문턱값보다 더 큰 값을 가지도록 하는 값을 가진다면, 처리과정을 종료한다(208). 처리과정 종료에 따른 출력은 대응하는 계수를 가진 가중된 원자의 그룹이다.
만약 원자들의 수가 현재의 레지듀가 문턱값보다 더 큰 값을 가지도록 하는 값을 가지지 못한다면, 원자 선택 기준을 다시 수정한다(209). 만약 원자들의 수가 현재의 레지듀가 문턱값보다 더 큰 값을 가지도록 하는 값을 가지지 못한다면, 원자 선택 기준을 수정하는 205 단계부터 처리 과정을 다시 수행한다.
도 3은 본 발명의 일 실시예에 따른 가중된 사전을 생성하는 방법을 나타내는 흐름도이다.
도 3을 참조하면, 본 발명의 일 실시예에 따른 가중된 사전을 생성하는 방법은
먼저, 단시간 퓨리에 변환(Short Time Fourier Transform)을 이용하여 수신된 음성 입력 신호에 스펙트로그램을 추정한다(301).
스펙트로그램 값을 0부터 1까지 정규화한다(302). 모든 스펙트로그램의 값은 0부터 1까지로 정규화되기 때문에, 원자들의 가중치 또한 0부터 1까지로 정규화 될 수 있다.
원본 사전으로부터 각각의 원자를 선택한다(303). 그리고 시간과 중앙 주파수의 최 근사값을 가지는 스펙트로그램의 대응값을 찾는다(304). 원본 사전에서 각각의 원자는 주파수축 및 시간축에 의해 결정된 정규화된 스펙트로그램의 최 근접값을 위한 검색에 의해 가중된다.
가중치 값을 대응 원자에 할당한다(305). 새로운 사전, 즉 가중된 사전을 생성하기 위해 각각의 원자는 가중치 계수를 나타내는 부가정보가 부착(tag) 된다.
가중치 값의 내림차순으로 원자를 분류한다(306). 가중치 계수가 부착된 새로운 가중된 원자들은 가중치의 내림차순으로 분류된다. 그리고 가중치의 내림차순으로 분류된 가중된 원자들이 저장되어 가중된 사전을 생성한다(307).
도 4는 본 발명의 일 실시예에 따른 원자의 선택기준을 수정하는 방법을 나타내는 흐름도이다.
도 4를 참조하면, 본 발명의 일 실시예에 따른 원자의 선택기준을 수정하는 방법은
먼저, 내림차순으로 분류된 가중된 사전에서 원자를 선택한다(401). 가중된 사전에서 가중치의 내림차순에 따라 분류된 원자들 중에서 원자를 선택한다. 그리고 현재의 레지듀의 내부 생성물(레지듀)과 선택된 원자를 계산한다(402).
다음으로 현재의 레지듀의 내부 생성물과 선택된 원자가 감소하고 문턱값보다 작은지 여부를 확인한다(403). 만약 현재의 레지듀의 내부 생성물과 선택된 원자가 감소하고 문턱값보다 작다면, 선택된 원자를 내부 생성물을 최대화하는 출력 원자로 결정한다(404). 만약 만약 현재의 레지듀의 내부 생성물과 선택된 원자가 감소하고 문턱값보다 작지 않다면, 가중치의 내림차수에서 다시 원자를 선택한다(405).
도 5는 본 발명의 일 실시예에 따른 선택된 원자와 입력 신호의 스펙트로그램 사이의 관계를 나타내는 일례의 도면이다.
도 5를 참조하면, 본 발명의 일 실시예에 따른 선택된 원자와 입력 신호의 스펙트로그램 사이의 관계를 나타내는 일례의 도면으로 입력 신호의 스펙트로그램을 가지는 한 그룹의 원자들에 대한 대응 추적의 출력을 보여준다. 도면에서 확인할 수 있듯이 이 원자들은 스펙트로그램의 더 어두운 영역에 대응하는 높은 에너지 영역에 할당된다. 반면에, 신호의 스펙트로그램은 단시간 퓨리에 변환(Short-Time Fourier Transform, STFT)을 이용하여 쉽게 계산할 수 있다. 이에 따라, 사전에 가중치를 두는 스펙트로그램을 사용할 수 있게 된다. 그래서 더 큰 가중치를 가지는 원자들은 상대적으로 적은 가중치를 원자들에 비해서 출력 원자로 선택될 가능성이 높아지게 된다. 이처럼 사전의 원자에 가중치를 적용하여 선택 빈도에 차이를 둠으로써 전체 연산량이 감소하고 연산에 필요한 시간이 감소하게 된다. 이는 전체 대응 추적 알고리즘의 성능을 향상시킬 수 있다.
도 6은 본 발명의 일 실시예에 따른 인식을 위한 대응 추적 알고리즘의 선택된 원자에 기반한 특징 추출 방법을 나타내는 흐름도이다.
도 6을 참조하면, 본 발명의 일 실시예에 따른 인식을 위한 대응 추적 알고리즘의 선택된 원자에 기반한 특징 추출 방법은
먼저, 대응 추적을 이용하여 입력 신호를 원자로 분해한다(601). 대응 추적을 통해 입력 신호를 하나의 미리 설정된 원자들의 시간-주파수 표현으로 분해한다. 그리고 시간 값의 히스토그램(Histogram)을 계산한다(602). 시간 특징들은 시간 영역의 추정 히스토그램에 의해 추출되고, 이 히스토그램은 입력 신호의 포락선(Envelope)의 고유성과 같다.
다음으로 중첩 윈도우(Overlapping Windows)을 히스토그램을 분해한다(603). 중첩 윈도우 기술은 히스토그램을 작은 프레임의 윈도우로 나눈다. 그리고 각각의 윈도우에 대응하는 원자들의 수를 확인한다(604). 다음으로 각각의 윈도우에 대응하는 원자들의 자세의 평균과 편차를 계산한다(605). 윈도우에 포함된 모든 원자들의 자세의 평균과 편차는 계산되어 특징 벡터로 공식화된다.
다음으로 주파수 값의 히스토그램을 계산한다(606). 주파수 특징들은 주파수 영역의 추정 히스토그램에 의해 추출된다. 그리고 주파수 영역을 서브 밴드(Sub-Band)로 분할한다(607). 주파수 값의 히스토그램은 둘 이상의 서브 밴드 주파수로 나누어 진다. 다음으로 각각의 서브 밴드에 대응하는 원자들의 수를 확인한다(608).
각각의 서브 밴드에 대응하는 원자들의 자세의 평균과 편차를 계산한다(609). 각각의 서브 밴드 주파수에 있어서, 동일한 서브 밴드의 자세의 평균과 편차는 계산되어 특징 벡터로 공식화된다.
다음으로 SVM 분류를 이용하여 원자들을 다른 클래스 라벨(Class Label)처럼 분류한다(610). SVM 분류(Supprt Vector Machine Classification)는 분류 알고리즘의 하나로서 결정트리, 신경망 등의 분류 알고리즘에 비해 일반화 및 분류율이 뛰어난 분류 방법이다. SVM 분류는 지지 벡터 머신이라고도 불린다. SVM 분류는 지도 학습에서 사용되는 방법으로, 주어진 자료에 대해서 그 자료들을 분리하는 초평면 중에서, 가장 거리가 먼 초평면을 찾는 방법이다.
이상 바람직한 실시 예를 들어 본 발명을 상세하게 설명하였으나, 본 발명은 전술한 실시 예에 한정되지 않고, 본 발명의 기술적 사상의 범위 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러 가지 변형이 가능하다.
100: 감정 음성 인식 장치
111: 음성 인식부
112: 가중 처리부
113: 원본 사전부
114: 가중 사전부
115: 인식 처리부
111: 음성 인식부
112: 가중 처리부
113: 원본 사전부
114: 가중 사전부
115: 인식 처리부
Claims (10)
- 사용자로부터 음성 입력 신호를 수신 받아 전달하는 음성 인식부;
다수의 원본 원자를 저장하고 있으며, 수신된 요청에 따라 상기 원본 원자를 전달하는 원본 사전부;
상기 음성 인식부로부터 수신된 상기 음성 입력 신호에 기초하여 스펙트로그램(Spectrogram)을 추정하고, 추정된 스펙트로그램을 이용하여 수신된 상기 원본 원자에 가중치를 부가하여 가중된 원자를 생성하여 전달하는 가중 처리부;
상기 가중 처리부로부터 수신된 가중된 원자를 저장하며, 수신된 요청에 따라 상기 가중된 원자를 전달하는 가중 사전부; 및
상기 음성 인식부로부터 수신된 상기 음성 입력 신호를 레지듀(Residue)로 배정하고, 상기 가중 사전부에 기초하여 원자 선택 기준을 수정하여 상기 가중 사전부에 가중된 원자를 요청하고, 상기 요청에 따라 수신된 가중된 원자와 상기 배정된 레지듀에 기초하여 새로운 레지듀를 생성하고, 상기 생성된 배정된 레지듀가 미리 설정된 문턱값(Threshold)보다 작으면 상기 가중된 원자를 출력 원자로 결정하는 인식 처리부;
를 포함하며,
상기 가중 처리부는 단시간 퓨리에 변환(Short Time Fourier Transform)을 이용하여 상기 음성 입력 신호의 스펙트로그램을 추정하는 것을 특징으로 하는 감정 음성 인식 장치. - 삭제
- 제 1항에 있어서,
상기 스펙트로그램 및 상기 가중치는 0부터 1까지로 정규화 되는 것을 특징으로 하는 감정 음성 인식 장치. - 제 1항에 있어서,
상기 인식 처리부는,
상기 배정된 레지듀가 상기 미리 설정된 문턱값(Threshold)보다 크면 상기 가중 사전부에 새로운 가중된 원자를 요청하고, 상기 새로운 레지듀와 상기 새로운 가중된 원자를 이용하여 다른 새로운 레지듀를 생성하는 것을 특징으로 하는 감정 음성 인식 장치. - 제 1항에 따른 감정 음성 인식 장치의 감정 음성 인식 방법에 있어서,
사용자로부터 음성 입력 신호를 수신 받는 단계;
상기 수신된 음성 입력 신호를 레지듀로 배정하는 단계;
상기 수신된 음성 입력 신호에 기초하여 가중된 원자를 생성하는 단계;
상기 배정된 레지듀와 상기 가중된 사전에 기초하여 원자 선택 기준을 수정하는 단계;
상기 배정된 레지듀와 상기 가중된 원자를 이용하여 새로운 레지듀를 생성하는 단계;
상기 배정된 레지듀를 문턱값(Threshold)과 비교하는 단계;
상기 배정된 레지듀가 문턱값보다 더 커지면, 상기 가중된 원자를 출력하는 단계;
를 포함하는 것을 특징으로 하는 감정 음성 인식 방법. - 제 6항에 있어서,
상기 수신된 음성 입력 신호에 기초하여 가중된 원자를 생성하는 단계는,
상기 수신된 음성 입력 신호에 기초하여 스펙트로그램을 추정하는 단계;
상기 스펙트로그램의 값을 정규화하는 단계;
상기 스펙트로그램의 시간과 주파수에서 미리 저장된 원본 원자와 대응하는 최근사값을 찾는 단계;
상기 원본 원자와 대응하는 상기 스펙트로그램의 값을 가중치로 하고, 상기 가중치 값을 상기 원본 원자에 할당하여 가중된 원자를 생성하는 단계; 및
상기 가중된 원자를 내림차순으로 분류하는 단계;
를 더 포함하는 것을 특징으로 하는 감정 음성 인식 방법. - 대응 추적(Matching Pursuit) 알고리즘을 이용하여 음성 입력 신호를 원자로 분해하는 단계;
상기 원자에 기초하여 시간 영역에 대한 상기 원자의 자세의 평균 및 편차를 계산하는 단계;
상기 원자에 기초하여 주파수 영역에 대한 상기 원자의 자세의 평균 및 편차를 계산하는 단계;
상기 시간 영역에 대한 상기 원자의 평균 및 편차와 상기 주파수 영역에 대한 상기 원자의 평균 및 편차를 SVM 분류를 통해 분류하는 단계;
를 포함하는 것을 특징으로 하는 대응 추적 알고리즘의 선택된 원자에 기반한 특징 추출 방법. - 제 8항에 있어서,
상기 원자에 기초하여 시간 영역에 대한 상기 원자의 자세의 평균 및 편차를 계산하는 단계는,
상기 원자에 기초하여 시간 값의 히스토그램(Histogram)을 계산하는 단계;
중첩 윈도우(Overlapping Windows)를 이용하여 상기 히스토그램을 분해하는 단계;
상기 중첩 윈도우 각각에 대응하는 원자들의 수를 확인하는 단계; 및
상기 중첩 윈도우 각각에 대응하는 원자들의 자세의 평균과 편차를 계산하는 단계;
를 더 포함하는 것을 특징으로 하는 대응 추적 알고리즘의 선택된 원자에 기반한 특징 추출 방법. - 제 8항에 있어서,
상기 원자에 기초하여 주파수 영역에 대한 상기 원자의 자세의 평균 및 편차를 계산하는 단계는,
상기 원자에 기초하여 주파수 값의 히스토그램(Histogram)을 계산하는 단계;
서브 밴드(Sub-Band)를 이용하여 상기 히스토그램을 분해하는 단계;
상기 서브 밴드 각각에 대응하는 원자들의 수를 확인하는 단계; 및
상기 서브 밴드 각각에 대응하는 원자들의 자세의 평균과 편차를 계산하는 단계;
를 더 포함하는 것을 특징으로 하는 대응 추적 알고리즘의 선택된 원자에 기반한 특징 추출 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120097345A KR101398218B1 (ko) | 2012-09-03 | 2012-09-03 | 감정 음성 인식장치 및 방법 |
PCT/KR2012/010785 WO2014035012A1 (ko) | 2012-09-03 | 2012-12-12 | 감정 음성 인식장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120097345A KR101398218B1 (ko) | 2012-09-03 | 2012-09-03 | 감정 음성 인식장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20140033574A KR20140033574A (ko) | 2014-03-19 |
KR101398218B1 true KR101398218B1 (ko) | 2014-05-22 |
Family
ID=50183798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020120097345A KR101398218B1 (ko) | 2012-09-03 | 2012-09-03 | 감정 음성 인식장치 및 방법 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR101398218B1 (ko) |
WO (1) | WO2014035012A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210072866A (ko) | 2019-12-09 | 2021-06-18 | (의료)길의료재단 | 심음 데이터를 이용한 심장질환 진단 시스템 및 방법 |
Families Citing this family (88)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
EP3809407A1 (en) | 2013-02-07 | 2021-04-21 | Apple Inc. | Voice trigger for a digital assistant |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
CN107358946B (zh) * | 2017-06-08 | 2020-11-13 | 南京邮电大学 | 基于切片卷积的语音情感识别方法 |
WO2019132459A1 (ko) * | 2017-12-28 | 2019-07-04 | 주식회사 써로마인드로보틱스 | 사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 방법 및 그 장치 |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
CN110930986B (zh) * | 2019-12-06 | 2022-05-17 | 北京明略软件系统有限公司 | 语音处理方法、装置、电子设备及存储介质 |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
CN117727331B (zh) * | 2024-02-18 | 2024-04-19 | 百鸟数据科技(北京)有限责任公司 | 基于语音分析的森林枪声定位方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19980020011A (ko) * | 1996-09-05 | 1998-06-25 | 양승택 | 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법 |
KR20010044675A (ko) * | 2001-03-15 | 2001-06-05 | 백종관 | 음절 단위로 음성인식을 수행하는 방법 및 그 장치 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080086791A (ko) * | 2007-03-23 | 2008-09-26 | 엘지전자 주식회사 | 음성 기반 감정 인식 시스템 |
KR100937101B1 (ko) * | 2008-05-20 | 2010-01-15 | 성균관대학교산학협력단 | 음성 신호의 스펙트럴 엔트로피를 이용한 감정 인식 방법및 장치 |
KR101006049B1 (ko) * | 2008-10-16 | 2011-01-06 | 강정환 | 감정 인식 장치 및 방법 |
JP2010197644A (ja) * | 2009-02-25 | 2010-09-09 | Gifu Univ | 音声認識システム |
KR20090063202A (ko) * | 2009-05-29 | 2009-06-17 | 포항공과대학교 산학협력단 | 감정 인식 장치 및 방법 |
-
2012
- 2012-09-03 KR KR1020120097345A patent/KR101398218B1/ko not_active IP Right Cessation
- 2012-12-12 WO PCT/KR2012/010785 patent/WO2014035012A1/ko active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19980020011A (ko) * | 1996-09-05 | 1998-06-25 | 양승택 | 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법 |
KR20010044675A (ko) * | 2001-03-15 | 2001-06-05 | 백종관 | 음절 단위로 음성인식을 수행하는 방법 및 그 장치 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210072866A (ko) | 2019-12-09 | 2021-06-18 | (의료)길의료재단 | 심음 데이터를 이용한 심장질환 진단 시스템 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR20140033574A (ko) | 2014-03-19 |
WO2014035012A1 (ko) | 2014-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101398218B1 (ko) | 감정 음성 인식장치 및 방법 | |
US10867621B2 (en) | System and method for cluster-based audio event detection | |
CN111028827B (zh) | 基于情绪识别的交互处理方法、装置、设备和存储介质 | |
US10431213B2 (en) | Recognizing speech in the presence of additional audio | |
US10468032B2 (en) | Method and system of speaker recognition using context aware confidence modeling | |
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
Zhuang et al. | Real-world acoustic event detection | |
Hu et al. | GMM supervector based SVM with spectral features for speech emotion recognition | |
JP4571624B2 (ja) | ローカルモデルを用いた話者認識 | |
US11875799B2 (en) | Method and device for fusing voiceprint features, voice recognition method and system, and storage medium | |
CN116635934A (zh) | 分离的语音内容和风格表示的无监督学习 | |
US20220101859A1 (en) | Speaker recognition based on signal segments weighted by quality | |
Anjana et al. | Language identification from speech features using SVM and LDA | |
JPWO2019171457A1 (ja) | 音源分離装置、音源分離方法およびプログラム | |
CN107910005B (zh) | 交互文本的目标业务定位方法及装置 | |
KR20140077774A (ko) | 문서 클러스터링 기반 언어모델 적응 장치 및 방법 | |
Kanrar | Robust threshold selection for environment specific voice in speaker recognition | |
US11270721B2 (en) | Systems and methods of pre-processing of speech signals for improved speech recognition | |
Jalili et al. | Speech emotion recognition using cyclostationary spectral analysis | |
Lykartsis et al. | Prediction of dialogue success with spectral and rhythm acoustic features using dnns and svms | |
Deb et al. | Emotion classification using dual-tree complex wavelet transform | |
Sas et al. | Gender recognition using neural networks and ASR techniques | |
Mittal et al. | Age approximation from speech using Gaussian mixture models | |
Drgas et al. | Speaker verification using adaptive dictionaries in non-negative spectrogram deconvolution | |
US11017782B2 (en) | Speaker classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20170327 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20180406 Year of fee payment: 5 |
|
LAPS | Lapse due to unpaid annual fee |