KR101304127B1 - Apparatus and method for recognizing of speaker using vocal signal - Google Patents

Apparatus and method for recognizing of speaker using vocal signal Download PDF

Info

Publication number
KR101304127B1
KR101304127B1 KR1020110137621A KR20110137621A KR101304127B1 KR 101304127 B1 KR101304127 B1 KR 101304127B1 KR 1020110137621 A KR1020110137621 A KR 1020110137621A KR 20110137621 A KR20110137621 A KR 20110137621A KR 101304127 B1 KR101304127 B1 KR 101304127B1
Authority
KR
South Korea
Prior art keywords
speaker
recognition rate
subsets
recognition
voice signal
Prior art date
Application number
KR1020110137621A
Other languages
Korean (ko)
Other versions
KR20130070345A (en
Inventor
임신철
김무영
Original Assignee
세종대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 세종대학교산학협력단 filed Critical 세종대학교산학협력단
Priority to KR1020110137621A priority Critical patent/KR101304127B1/en
Publication of KR20130070345A publication Critical patent/KR20130070345A/en
Application granted granted Critical
Publication of KR101304127B1 publication Critical patent/KR101304127B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 음성 신호를 이용한 화자 인식 장치 및 그 방법에 관한 것으로, 본 발명의 일 실시예에 따른 음성 신호를 이용한 화자 인식 장치는, 음성 신호를 수신하는 음성 수신부와, 상기 수신된 음성 신호를 주파수 영역으로 변환하고, 상기 변환된 음성 신호로부터 특성을 추출하는 특성 추출부와, 상기 추출된 특성이 포함하는 N 개의 부분 집합에 대하여 인식률 가중치를 적용하여, 기 설정된 인식률보다 높은 M 개의 부분 집합을 선택하여 주변 우도 스코어를 산출하고, 상기 주변 우도 스코어 중 가장 큰 값인 최대 우도 스코어에 기초하여 상기 음성 신호를 생성한 화자를 인식하는 화자 매칭부를 포함한다.
이에 따라, 음성 신호를 이용한 화자 인식을 위해 손실 특성 이론을 이용하면서 음성 신호의 특성을 추출하여 인식률이 가장 높은 특성의 부분 집합에 대해서만 계산을 함으로써 계산량을 줄이고 인식 정확도를 높일 수 있다.
The present invention relates to a speaker recognition apparatus using a voice signal and a method thereof, and a speaker recognition apparatus using a voice signal according to an embodiment of the present invention, a voice receiving unit for receiving a voice signal, and the received voice signal frequency Selects M subsets that are higher than a preset recognition rate by applying a recognition rate weight to the N subsets included in the extracted feature and the feature extracting unit for converting to the region and extracting the feature from the converted speech signal And a speaker matching unit configured to calculate a surrounding likelihood score and recognize a speaker that has generated the voice signal based on a maximum likelihood score which is the largest value among the surrounding likelihood scores.
Accordingly, by using the loss characteristic theory for speech recognition using the speech signal, the characteristics of the speech signal are extracted and only the subset of the characteristic having the highest recognition rate is calculated to reduce the calculation amount and increase the recognition accuracy.

Description

음성 신호를 이용한 화자 인식 장치 및 그 방법{APPARATUS AND METHOD FOR RECOGNIZING OF SPEAKER USING VOCAL SIGNAL}Speaker recognition apparatus using voice signal and its method {APPARATUS AND METHOD FOR RECOGNIZING OF SPEAKER USING VOCAL SIGNAL}

본 발명은 음성 신호를 이용한 화자 인식 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 손실 특성 이론을 이용한 화자 인식 기술이 개시된다.The present invention relates to a speaker recognition apparatus using a speech signal and a method thereof, and more particularly, a speaker recognition technique using loss characteristic theory is disclosed.

생체 인식은 현대인들이 사용하는 다양한 장치들에 있어서 보안상의 이유로 그 중요성 및 활용도가 높아지고 있다. 생체 인식 기술 분야 중에서, 특히 화자 인식 기술은 사람과 컴퓨터 사이의 간단한 인터페이스(Interface)로 구현될 수 있기 때문에 그 활용도가 매우 높다. 그러나, 이러한 화자 인식 기술의 성능은 배경 잡음에 의한 영향으로 저하된다. 따라서, 최근에는 배경 잡음에 의한 영향을 최소화시키고, 배경 잡음에 대해서 강력한 화자 인식 기술에 대한 연구가 진행되고 있다.Biometrics are increasing in importance and utility for various security devices used by modern people for security reasons. Among the fields of biometric technology, speaker recognition technology is particularly useful because it can be implemented as a simple interface between a person and a computer. However, the performance of such speaker recognition technology is degraded by the influence of background noise. Therefore, in recent years, research on powerful speaker recognition technology has been conducted to minimize the influence of background noise and to reduce background noise.

종래의 화자 인식 시스템은 청각 모델을 이용한 MFCC(Mel Frequency Cepstral Coefficient)로 특성을 추출한다. 그 후, 가우시안 혼합 모델 (Gaussian mixture model, GMM)을 이용하여 각 화자의 모델을 생성하고, 입력 음성에 대해서 화자를 인식한다. 하지만, 배경잡음이 심한 음성에 대해서는 화자 인식 성공률이 매우 저조하다는 문제점이 있다.The conventional speaker recognition system extracts characteristics by Mel Frequency Cepstral Coefficient (MFCC) using an auditory model. Then, a model of each speaker is generated using a Gaussian mixture model (GMM), and the speaker is recognized for the input voice. However, there is a problem that the speaker recognition success rate is very low for a voice having a heavy background noise.

한편, 종래의 또 다른 화자 인식 시스템 중 손실 특성 이론(Missing Feature Theory, MFT)에서는, 화자를 인식하기 위해 음성 신호로부터 복수개의 특성을 추출하고, 추출된 특성 중에서 잡음에 의해 매우 심하게 변질된 부분은 신뢰할 수 없는 특성으로 정의하고, 신뢰할 수 없는 특성을 제외한 신뢰할 수 있는 특성만이 이용된다. 신뢰할 수 있는 특성을 선택하기 위해서는 잡음 통계값의 사전 지식을이용할 수 있다.Meanwhile, in another conventional speaker recognition system, a Missing Feature Theory (MFT) extracts a plurality of features from a speech signal to recognize a speaker, and a portion of the extracted features that is deteriorated very much by noise. Defined as unreliable, only trusted properties are used, except untrusted properties. To select reliable characteristics, prior knowledge of noise statistics can be used.

반면, 확장된 손실 특성 이론(Extended Missing Feature Theory, EMFT)은 잡음 통계값에 대한 어떤 사전 지식도 이용하지 않는다. 확장된 손실 특성 이론(EMFT)은 훈련 데이터베이스와 시험 데이터베이스 사이의 오차를 줄이기 위해 훈련 데이터베이스의 통계값을 벗어나는 잡음의 변화는 무시한다. 잡음 통계값은 시간에 따라 변하거나, 잘 알려져 있지 않으므로, 확장된 손실 특성 이론(EMFT)은 시간에 따라 급격하게 변화하는 잡음이 섞인 음성 신호에 대한 화자 인식 기술을 구현하는데 좋은 방법이 될 수 있다.On the other hand, the Extended Missing Feature Theory (EMFT) does not use any prior knowledge of noise statistics. The Extended Loss Characteristic Theory (EMFT) ignores changes in noise outside the statistics of the training database to reduce the error between the training database and the test database. Since noise statistics vary over time or are not well known, extended loss characteristic theory (EMFT) can be a good way to implement speaker recognition techniques for noise mixed speech signals that change rapidly over time. .

그러나, 손실 특성 이론(MFT) 및 확장된 손실 특성 이론(EMFT)에서는 추출된 특성 중에서 신뢰할 수 있는 특성의 모든 가능한 조합에 대한 우도(likelihood) 값이 계산되고, 최대 우도(maximum likelihood) 값을 갖는 특성의 조합을 찾아서 화자 인식에 사용한다. 따라서, 신뢰할 수 있는 특성의 모든 가능한 조합의 우도(likelihood) 값을 계산하기 위해, 매우 복잡하고 많은 양의 계산을 필요로 하는 문제점이 있었다.However, in loss characteristic theory (MFT) and extended loss characteristic theory (EMFT), likelihood values are calculated for all possible combinations of reliable features among extracted features, and have a maximum likelihood value. Finds a combination of characteristics and uses it for speaker recognition. Thus, to calculate the likelihood values of all possible combinations of reliable properties, there has been a problem that is very complicated and requires a large amount of calculation.

기존 MFCC와 GMM을 이용한 화자 인식 시스템은 배경잡음에 많이 취약한 것을 알 수 있으며, MMF와 EMFT의 경우 GMM을 이용한 화자 인식 시스템에 비해 배경잡음에 강한 반면, 많은 계산량을 요구한다. 이에 본 발명자는 배경잡음에 강인하고, 계산량이 적게 드는 화자 인식 시스템을 연구하게 되었다.The speaker recognition system using the existing MFCC and the GMM is much vulnerable to the background noise. The MMF and the EMFT are stronger in the background noise than the speaker recognition system using the GMM, but require a large amount of computation. Accordingly, the present inventors have studied a speaker recognition system that is robust against background noise and has a low computational amount.

본 발명의 배경이 되는 기술은 대한민국 등록특허공보 제10-1060162호(2011. 08. 23)에 기재되어 있다.The background technology of the present invention is described in Republic of Korea Patent Publication No. 10-1060162 (2011. 08. 23).

본 발명이 이루고자 하는 과제는 음성 신호를 이용한 화자 인식을 위해 손실 특성 이론을 이용하면서 계산량을 줄이고 인식 정확도를 높이기 위한 것이다.An object of the present invention is to reduce the amount of calculation and increase the recognition accuracy while using the loss characteristic theory for speaker recognition using speech signals.

본 발명의 일 실시예에 따른 음성 신호를 이용한 화자 인식 장치는, 음성 신호를 수신하는 음성 수신부와, 상기 수신된 음성 신호를 주파수 영역으로 변환하고, 상기 변환된 음성 신호로부터 특성을 추출하는 특성 추출부와, 상기 추출된 특성이 포함하는 N 개의 부분 집합에 대하여 인식률 가중치를 적용하여, 기 설정된 인식률보다 높은 M 개의 부분 집합을 선택하여 주변 우도 스코어를 산출하고, 상기 주변 우도 스코어 중 가장 큰 값인 최대 우도 스코어에 기초하여 상기 음성 신호를 생성한 화자를 인식하는 화자 매칭부를 포함한다.A speaker recognition apparatus using a voice signal according to an embodiment of the present invention, a voice receiver for receiving a voice signal, and a feature extraction for converting the received voice signal into a frequency domain and extracting a characteristic from the converted voice signal A neighboring likelihood score is calculated by applying a recognition rate weight to the N subsets included in the extracted feature, selecting M subsets higher than a preset recognition rate, and calculating a maximum likelihood score, which is the largest value among the surrounding likelihood scores. And a speaker matching unit configured to recognize the speaker who has generated the voice signal based on the likelihood score.

또한, 상기 화자 매칭부는, 적어도 한 명 이상의 화자의 음성 신호 데이터를 저장하는 음성 신호 DB와, 상기 추출된 특성이 포함하는 N 개의 부분 집합에 대하여 인식률 가중치를 적용하여 기 설정된 인식률보다 높은 M 개의 부분 집합을 선택하는 부분 집합 선택부와, 상기 선택된 M 개의 부분 집합을 이용하여 상기 수신된 음성 신호에 대한 주변 우도 스코어를 산출하는 주변 우도 스코어 연산부와, 상기 주변 우도 스코어 중 가장 큰 값인 최대 우도 스코어에 기초하여 상기 음성 신호 DB에 저장되어 있는 모든 화자의 음성 신호 데이터 중에서, 상기 화자를 인식하는 화자 인식부를 포함할 수 있다.The speaker matching unit may further include: a voice signal DB for storing voice signal data of at least one or more speakers, and M portions having a recognition rate weight applied to N subsets included in the extracted feature to be higher than a preset recognition rate. A subset selector for selecting a set, a peripheral likelihood score calculator for calculating a surrounding likelihood score for the received speech signal using the selected M subsets, and a maximum likelihood score which is the largest value among the peripheral likelihood scores; Based on the voice signal data of all the speakers stored in the voice signal DB based on the speaker recognition unit for recognizing the speaker may be included.

또한, 상기 화자 인식 결과에 대응하여 네트워킹 되어 있는 주변 장치의 동작을 제어하는 장치 제어부를 더 포함할 수 있다.The apparatus may further include a device controller configured to control an operation of a networked peripheral device in response to the speaker recognition result.

또한, 상기 부분 집합 선택부는, 상기 인식률 가중치(

Figure 112011100978225-pat00001
)를 다음의 수학식을 이용하여 계산된 값을 정규화하고, 상기 인식률 가중치가 기 설정된 인식률보다 높은 M 개의 부분 집합을 선택할 수 있다:The subset selection unit may include the recognition rate weight (
Figure 112011100978225-pat00001
) Can be normalized using the following equation, and M subsets can be selected in which the recognition rate weight is higher than a preset recognition rate:

Figure 112011100978225-pat00002
Figure 112011100978225-pat00002

여기서, wN은 부분 집합이 N 개인 경우의 가중치, RN은 화자를 인식한 비율, UN은 화자를 인식하지 못한 비율을 나타낸다.Here, w N is a weight when the subset is N, R N is a speaker recognition rate, U N is a speaker recognition rate.

또한, 상기 주변 우도 스코어 연산부는, 상기 주변 우도 스코어(P(λS|XM))를 다음의 수학식을 이용하여 구할 수 있다:The peripheral likelihood score calculator may obtain the peripheral likelihood score P (λ S | X M ) using the following equation:

Figure 112011100978225-pat00003
Figure 112011100978225-pat00003

여기서, λS는 화자 S의 모델, XM은 M 개의 부분 집합인 경우의 화자의 특성 벡터를 나타낸다.Here, lambda S represents the model of the speaker S, and X M represents the speaker's characteristic vector in the case of M subsets.

또한, 상기 화자 인식부는, 상기 최대 우도 스코어(P(X|λS))를 다음의 수학식을 이용하여 구할 수 있다:The speaker recognition unit may obtain the maximum likelihood score P (X | λ S ) using the following equation:

Figure 112011100978225-pat00004
Figure 112011100978225-pat00004

여기서, λS는 화자 S의 모델, XM은 M 개의 부분 집합인 경우의 화자의 특성 벡터,

Figure 112011100978225-pat00005
은 인식률 가중치를 나타낸다.Where λ S is the speaker S model, X M is the speaker's characteristic vector in the case of M subsets,
Figure 112011100978225-pat00005
Denotes a recognition rate weight.

음성 신호를 생성한 화자를 인식하여 상기 화자에 대하여 장치로의 접근을 허용하는 화자 인식 방법에 있어서,A speaker recognition method for allowing a speaker to access a device by recognizing a speaker who has generated a voice signal,

본 발명의 또 다른 실시예에 따른 음성 신호를 이용한 화자 인식 방법은, 상기 음성 신호를 수신하는 단계와, 상기 수신된 음성 신호를 주파수 영역으로 변환하고, 상기 변환된 음성 신호로부터 특성을 추출하는 단계와, 상기 추출된 특성이 포함하는 N 개의 부분 집합에 대하여 인식률 가중치를 적용하여, 기 설정된 인식률보다 높은 M 개의 부분 집합을 선택하여 주변 우도 스코어를 산출하고, 상기 주변 우도 스코어 중 가장 큰 값인 최대 우도 스코어에 기초하여 상기 음성 신호를 생성한 화자를 매칭하는 단계를 포함한다.In another embodiment, a speaker recognition method using a speech signal includes receiving the speech signal, converting the received speech signal into a frequency domain, and extracting a characteristic from the converted speech signal. And applying a recognition rate weight to the N subsets included in the extracted feature, selecting M subsets higher than a preset recognition rate to calculate a neighbor likelihood score, and calculating a maximum likelihood value that is the largest value among the neighbor likelihood scores. Matching the speaker that generated the speech signal based on a score.

이와 같이, 본 발명에 따르면 음성 신호를 이용한 화자 인식을 위해 손실 특성 이론을 이용하면서 음성 신호의 특성을 추출하여 인식률이 가장 높은 특성의 부분 집합에 대해서만 계산을 함으로써 계산량을 줄이고 인식 정확도를 높일 수 있다.As described above, according to the present invention, by using loss characteristic theory for speech recognition using a speech signal, the speech signal may be extracted and calculated only for a subset of the characteristic having the highest recognition rate, thereby reducing the amount of calculation and increasing the recognition accuracy. .

도 1은 본 발명의 일 실시예에 따른 음성 신호를 이용한 화자 인식 장치의 구성도,
도 2는 도 1에 따른 화자 인식 장치 중 화자 매칭부의 세부 구성도,
도 3은 도 1에 따른 화자 인식 장치를 통해 구현되는 화자 인식 방법의 흐름도,
도 4a 내지 4c는 도 1에 따른 화자 인식 장치에 따른 인식률 가중치를 설정하는 것을 설명하기 위한 예시도이다.
1 is a block diagram of a speaker recognition apparatus using a voice signal according to an embodiment of the present invention,
2 is a detailed configuration diagram of a speaker matching unit in the speaker recognition apparatus of FIG. 1;
3 is a flowchart of a speaker recognition method implemented through the speaker recognition apparatus of FIG. 1;
4A to 4C are exemplary diagrams for describing setting a recognition rate weight according to the speaker recognition apparatus of FIG. 1.

이하, 첨부된 도면들을 참조하여 본 발명의 실시예를 상세하게 설명한다. 사용되는 용어들은 실시예에서의 기능을 고려하여 선택된 용어들로서, 그 용어의 의미는 사용자, 운용자의 의도 또는 판례 등에 따라 달라질 수 있다. 그러므로 후술하는 실시예들에서 사용된 용어의 의미는, 본 명세서에 구체적으로 정의된 경우에는 그 정의에 따르며, 구체적인 정의가 없는 경우는 당업자들이 일반적으로 인식하는 의미로 해석되어야 할 것이다.
Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. The terms used are terms selected in consideration of the functions in the embodiments, and the meaning of the terms may vary depending on the user, the intention or the precedent of the operator, and the like. Therefore, the meaning of the terms used in the following embodiments is defined according to the definition when specifically defined in this specification, and unless otherwise defined, it should be interpreted in a sense generally recognized by those skilled in the art.

도 1은 본 발명의 일 실시예에 따른 음성 신호를 이용한 화자 인식 장치의 구성도이고, 도 3은 도 1에 따른 화자 인식 장치를 통해 구현되는 화자 인식 방법의 흐름도이다.1 is a block diagram of a speaker recognition apparatus using a voice signal according to an embodiment of the present invention, Figure 3 is a flowchart of a speaker recognition method implemented by the speaker recognition apparatus according to FIG.

도 1 및 도 3을 참조하면, 본 발명의 일 실시예에 따른 음성 신호를 이용한 화자 인식 장치(100)는 음성 수신부(110), 특성 추출부(120) 및 화자 매칭부(130)를 포함한다. 음성 수신부(110)는 화자(speaker)로부터 음성 신호를 수신한다(S300). 이 경우, 음성 수신부(110)가 수신하는 음성 신호는 화자가 생성한 원래의 음성 신호에 여러 가지 배경 잡음이 혼합된 음성 신호일 수 있다. 예를 들어, 화자가 생성한 음성 신호에 다양한 주파수와 크기를 갖는 자동차 소리, 휴대 전화 벨 소리, 주변 사람들의 대화 소리, 비행기 소리 등이 혼합될 수 있다. 음성 수신부(110)는 입력된 음성 입력을 특성 추출부(120)로 출력한다.1 and 3, the speaker recognition apparatus 100 using the voice signal according to an embodiment of the present invention includes a voice receiver 110, a feature extractor 120, and a speaker matcher 130. . The voice receiver 110 receives a voice signal from a speaker (S300). In this case, the voice signal received by the voice receiver 110 may be a voice signal in which various background noises are mixed with the original voice signal generated by the speaker. For example, a voice signal generated by a speaker may be mixed with a car sound having various frequencies and sizes, a mobile phone ringing sound, a conversation sound of people around you, an airplane sound, and the like. The voice receiver 110 outputs the input voice input to the feature extractor 120.

다음으로, 특성 추출부(120)는 음성 수신부(110)로부터 수신된 음성 신호를 주파수 영역으로 변환하고, 변환된 음성 신호로부터 특성을 추출한다(S310). 음성 신호는 똑같은 언어라 할지라도 발음하는 사람의 성별, 나이, 발음 시의 상태 등에 따라 매우 복잡하게 변할 뿐 아니라 단독으로 발음될 때와 단어나 문장 내에서 발음될 때마다 그 성질이 변하기 때문에 음성의 특징을 잘 표현할 수 있는 특징 추출이 중요하다. 즉, 동일 음성 신호들 간의 일관성을 높임과 동시에 다른 음성 신호와는 변별력을 높일 수 있는 정보를 추출해야 한다. 이러한 정보를 음성 신호의 특성(feature)이라고 한다.Next, the feature extractor 120 converts the voice signal received from the voice receiver 110 into a frequency domain and extracts a feature from the converted voice signal (S310). Even if the voice signal is the same language, it is not only very complicated depending on the gender, age, state of the pronunciation of the speaker, but also changes its properties when pronounced alone and whenever it is pronounced in a word or sentence. Feature extraction that can express features is important. In other words, it is necessary to extract information that can increase the coherence between the same voice signals and at the same time distinguish them from other voice signals. This information is called a feature of the voice signal.

특성 추출부(120)는 입력된 음성 신호의 특정 주파수 영역에서 필터(filter) 또는 윈도우(window)를 사용하여 화자 인식에 사용될 여러 개의 음성 특성을 추출할 수 있다. 예를 들어, 특성 추출부(120)는 MFCC(Mel-frequency cepstral coefficients), 선형 예측 계수(Linear Prediction Coefficient, LPC), 켑스트럼(Cepstrum), 주파수 대역별 에너지(Filter Bank Energy) 등의 기법을 이용하여 입력된 음성 신호에서 복수 개의 특성을 추출할 수 있다.The feature extractor 120 may extract a plurality of speech features to be used for speaker recognition using a filter or a window in a specific frequency region of the input speech signal. For example, the feature extractor 120 may use techniques such as mel-frequency cepstral coefficients (MFCC), linear prediction coefficients (LPC), cepstrum, and energy for each frequency band. A plurality of characteristics may be extracted from the input voice signal.

다음으로, 화자 매칭부(130)는 특성 추출부(120)로부터 추출된 특성이 포함하는 N 개의 부분 집합에 대하여 인식률 가중치를 적용하여, 기 설정된 인식률보다 높은 M 개의 부분 집합을 선택하여 주변 우도 스코어(marginal likelihood score)를 산출하고, 주변 우도 스코어 중 가장 큰 값인 최대 우도 스코어(maximum likelihood score)에 기초하여 음성 신호를 생성한 화자를 인식한다(S320). 즉, 최대 우도 스코어가 가장 큰 음성 신호 데이터에 해당하는 화자를 음성 신호를 생성한 화자로 인식하게 된다. 화자 매칭부(130)의 세부 구성과 그 기능은 도 2를 참조하여 구체적으로 후술하도록 한다.Next, the speaker matching unit 130 applies a recognition rate weight to the N subsets included in the feature extracted from the feature extractor 120, and selects M subsets having a higher recognition rate than the preset recognition rate to obtain a surrounding likelihood score. The marginal likelihood score is calculated and the speaker who generates the speech signal is recognized based on the maximum likelihood score, which is the largest value among the surrounding likelihood scores (S320). That is, the speaker corresponding to the voice signal data having the largest maximum likelihood score is recognized as the speaker who generated the voice signal. The detailed configuration and function of the speaker matching unit 130 will be described later in detail with reference to FIG. 2.

한편, 본 발명의 또 다른 실시예에 따른 화자 인식 장치(100)는 장치 제어부(140)를더 포함할 수 있다. 장치 제어부(140)는 화자 인식 결과에 대응하여 네트워킹 되어 있는 주변 장치의 동작을 제어한다. 예를 들어, 장치 제어부(140)는 화자 매칭부(130)로부터 음성 신호를 생성한 화자에 대한 정보를 전달받고, 화자에 대해서만 화자 인식 장치(100)와 네트워킹된 주변 장치인 건물의 출입문, 금고문, 모바일 단말장치의 사용 등 여러 가지 장치에의 접근을 허용할 수 있다.
On the other hand, the speaker recognition apparatus 100 according to another embodiment of the present invention may further include a device controller 140. The device controller 140 controls the operation of the networked peripheral device in response to the speaker recognition result. For example, the device controller 140 receives information about a speaker who has generated a voice signal from the speaker matching unit 130, and accesses and golds in a building that is a peripheral device networked with the speaker recognition device 100 only to the speaker. Access to various devices, such as torture and the use of mobile terminals, may be allowed.

도 2는 도 1에 따른 화자 인식 장치 중 화자 매칭부의 세부 구성도이다.FIG. 2 is a detailed configuration diagram of a speaker matching unit in the speaker recognition apparatus of FIG. 1.

도 2를 참조하면, 화자 매칭부(230)는 부분 집합 선택부(231), 주변 우도 스코어 연산부(232), 화자 인식부(233), 음성 신호 DB(234)를 포함한다. 부분 집합 선택부(231)는 추출된 특성이 포함하는 N 개의 부분 집합에 대하여 인식률 가중치를 적용하여 기 설정된 인식률보다 높은 M 개의 부분 집합을 선택한다. 여기서, 인식률 가중치란 N 개의 부분 집합 중 화자를 인식한 경우와, 화자를 인식하지 못한 경우에 대하여 미리 학습된 데이터를 통하여, 화자 인식에 영향을 많이 주는 부분 집합에 대하여 부여된 가중치를 의미한다.Referring to FIG. 2, the speaker matching unit 230 includes a subset selector 231, a peripheral likelihood score calculator 232, a speaker recognizer 233, and a voice signal DB 234. The subset selector 231 selects M subsets higher than a preset recognition rate by applying a recognition rate weight to the N subsets included in the extracted feature. Here, the recognition rate weight refers to a weight given to a subset that greatly affects speaker recognition through pre-learned data about the speaker recognition and the speaker recognition among the N subsets.

또한, 부분 집합 선택부(231)는, 인식률 가중치(

Figure 112011100978225-pat00006
)를 다음의 수학식 1을 이용하여 계산된 값을 최소-최대값에 대해 정규화하고, 인식률 가중치가 기 설정된 인식률보다 높은 M 개의 부분 집합을 선택할 수 있다.In addition, the subset selection unit 231 may recognize the recognition rate weight (
Figure 112011100978225-pat00006
) Can be normalized to the minimum-maximum value using Equation 1 below, and M subsets having a recognition rate weight higher than a predetermined recognition rate can be selected.

Figure 112011100978225-pat00007
Figure 112011100978225-pat00007

수학식 1에서, wN은 부분 집합이 N 개인 경우의 가중치, RN은 화자를 인식한 비율, UN은 화자를 인식하지 못한 비율을 나타낸다. 또한, 계산의 복잡성을 줄이기 위해 인식률 가중치 마스크

Figure 112011100978225-pat00008
=
Figure 112011100978225-pat00009
(when
Figure 112011100978225-pat00010
TH, others 0)를 이용하여, 기 설정된 인식률 문턱치(δTH) 보다 큰 경우 외에는 값을 0으로 설정하는 것도 가능하다.In Equation 1, w N denotes a weight when the subset is N, R N denotes a speaker recognition rate, and U N denotes a speaker recognition rate. In addition, the recognition rate weight mask to reduce the computational complexity
Figure 112011100978225-pat00008
=
Figure 112011100978225-pat00009
(when
Figure 112011100978225-pat00010
> δ TH , others 0), it is also possible to set the value to 0 except when larger than the preset recognition rate threshold δ TH .

인식률 가중치를 설정하는 것은 도 4a 내지 도 4c를 참조하여 후술하도록 한다.
Setting the recognition rate weight will be described later with reference to FIGS. 4A to 4C.

도 4a 내지 4c는 도 1에 따른 화자 인식 장치에 따른 인식률 가중치를 설정하는 것을 설명하기 위한 예시도이다.4A to 4C are exemplary diagrams for describing setting a recognition rate weight according to the speaker recognition apparatus of FIG. 1.

도 4a 내지 도 4c는 음성 신호의 모음(vowel)만을 이용하여 향상된 손실 특성 이론(advanced missing feature theory, AMFT)을 적용한 결과를 나타낸다. 도 4a는 화자를 인식한 경우의 인식률(R), 도 4b는 화자를 인식하지 못한 경우의 오인식률(U)을 나타낸다. 도 4c는 도 4a와 도 4b의 결과를 이용하여, 앞서 설명한 수학식 1에 대입하여, 정규화하여 계산된 인식률 가중치(

Figure 112011100978225-pat00011
)를 나타낸다. 그 결과, 음성 신호의 특성의 부분 집합 개수 N이 8, 9인 경우에 화자 인식 성능이 가장 높은 것으로 나타났다.4A to 4C show a result of applying an advanced missing feature theory (AMFT) using only a vowel of voice signals. 4A shows a recognition rate R when a speaker is recognized, and FIG. 4B shows a false recognition rate U when a speaker is not recognized. FIG. 4C illustrates the recognition rate weight calculated by substituting into Equation 1 described above and normalized using the results of FIGS. 4A and 4B.
Figure 112011100978225-pat00011
). As a result, the speaker recognition performance was found to be highest when the number of subsets N of the characteristics of the speech signal was 8 or 9.

또한, 도 4c에서 사용자 설정에 따라 인식률 가중치(

Figure 112011100978225-pat00012
)를 기준으로 인식률이 높은 부분 집합 개수 N을 변경할 수 있다. 예를 들어, 기 설정된 인식률의 문턱치가 0.3 보다 높은 경우는 N이 {2, 6, 7, 8, 9 10}인 경우가 선택되며, 인식률 문턱치가 0.45 보다 높은 경우는 N이 {6, 7, 8, 9 10}인 경우가 선택되며, 인식률 문턱치가 0.7 보다 높은 경우는 N이 {7, 8, 9 10}인 경우가 선택되며, 인식률 문턱치가 0.9 보다 높은 경우는 N이 {8, 9}인 경우가 선택되며, 인식률 문턱치가 0.98 보다 높은 경우는 N이 {9}인 경우가 선택된다.
In addition, in FIG. 4C, the recognition rate weight (
Figure 112011100978225-pat00012
), The number of subsets N having a high recognition rate can be changed. For example, when the threshold of the preset recognition rate is higher than 0.3, the case where N is {2, 6, 7, 8, 9 10} is selected. When the recognition rate threshold is higher than 0.45, N is {6, 7, 8, 9 10} is selected. When the recognition rate threshold is higher than 0.7, N is selected as {7, 8, 9 10}. When the recognition rate threshold is higher than 0.9, N is {8, 9}. Is selected. When the recognition rate threshold is higher than 0.98, the case where N is {9} is selected.

다시 도 2를 참조하면, 주변 우도 스코어 연산부(232)는 부분 집합 선택부(231)에서 선택된 M 개의 부분 집합을 이용하여 수신된 음성 신호에 대한 주변 우도 스코어를 산출한다. 예를 들어, 주변 우도 스코어 연산부(232)는, 주변 우도 스코어(P(λS|XM))를 다음의 수학식 2를 이용하여 구할 수 있다.Referring back to FIG. 2, the surrounding likelihood score calculator 232 calculates the surrounding likelihood score for the received speech signal using the M subsets selected by the subset selecting unit 231. For example, the peripheral likelihood score calculator 232 can obtain the peripheral likelihood score P (λ S | X M ) using the following equation (2).

Figure 112011100978225-pat00013
Figure 112011100978225-pat00013

수학식 2에서, λS는 화자 S의 모델, XM은 M 개의 부분 집합인 경우의 화자의 특성 벡터를 나타낸다. M은 특성이 포함하는 전체 N 개의 부분 집합 중 인식률이 높은 것으로 선택된 부분 집합의 개수를 의미한다.In Equation 2, λ S represents the model of the speaker S, and X M represents the speaker's characteristic vector in the case of M subsets. M is the number of subsets selected as having a high recognition rate among the N subsets included in the feature.

화자 인식부(233)는 주변 우도 스코어 중 가장 큰 값인 최대 우도 스코어에 기초하여 음성 신호 DB(234)에 저장되어 있는 모든 화자의 음성 신호 데이터 중에서, 화자를 인식한다. 이 경우, 음성 신호 DB에는 적어도 한 명 이상의 화자의 음성 신호에서 추출 가능한 특성 벡터 및 복수개의 특성들로 이루어진 특성 조합의 특성 벡터가 화자별로 산출되어 저장될 수 있다. 예를 들어, 화자 인식부(233)는 최대 우도 스코어(P(X|λS))를 다음의 수학식 3을 이용하여 구할 수 있다.The speaker recognition unit 233 recognizes the speaker among voice signal data of all the speakers stored in the voice signal DB 234 based on the maximum likelihood score which is the largest value among the surrounding likelihood scores. In this case, in the voice signal DB, a feature vector extractable from a voice signal of at least one or more speakers and a feature vector of a feature combination including a plurality of features may be calculated and stored for each speaker. For example, the speaker recognition unit 233 may obtain the maximum likelihood score P (X | λ S ) using Equation 3 below.

Figure 112011100978225-pat00014
Figure 112011100978225-pat00014

여기서, λS는 화자 S의 모델, XM은 M 개의 부분 집합인 경우의 화자의 특성 벡터,

Figure 112011100978225-pat00015
은 인식률 가중치를 나타낸다.Where λ S is the speaker S model, X M is the speaker's characteristic vector in the case of M subsets,
Figure 112011100978225-pat00015
Denotes a recognition rate weight.

이와 같이, 본 발명에 따르면 향상된 손실 특성 이론(advanced missing feature theory, AMFT)을 적용한 경우처럼 음성 신호의 특성에 포함되는 부분 집합 전체에 대해 우도 스코어를 계산하지 않고, 인식률이 가장 높은 특성의 부분 집합에 대해서만 계산을 함으로써, 계산량을 줄이고 인식 정확도를 높일 수 있다. 예를 들어, 도 4c에 나타난 인식률 가중치 중 N이 8, 9인 부분 집합을 이용하여 화자를 인식하는 경우와, 향상된 손실 특성 이론을 적용한 경우의 인식 오류율(Identification Error Rate)은 다음의 표와 같이 얻을 수 있다.As described above, according to the present invention, a subset of the feature having the highest recognition rate is calculated without calculating a likelihood score for the entire subset included in the characteristic of the speech signal as in the case of applying an advanced missing feature theory (AMFT). By calculating only, the amount of calculation can be reduced and the recognition accuracy can be increased. For example, the recognition error rate in the case of recognizing the speaker using a subset of the recognition rate weights shown in FIG. 4C using N and 8 and 9, and applying the enhanced loss characteristic theory is shown in the following table. You can get it.

손실 특성 이론Loss characteristic theory AMFTAMFT HMFT(N = 8)HMFT (N = 8) HMFT(N = 9)HMFT (N = 9) 인식 오류율Recognition error rate 13.01%13.01% 10.34%10.34% 10.95%10.95%

본 발명의 손실 특성 이론을 HMFT(Hard-mask Missing Feature theory)라고 명명하면, HMFT 방식으로 부분 집합 N이 8인 경우와 9인 경우는 각각 10.34%, 10.95%로, 13.01%인 AMFT 방식에 비해 인식 오류율이 감소하므로 인식 정확도가 향상되었음을 알 수 있다. 이러한 HMFT 방식은 N=1인 경우부터 N=10인 경우까지의 모든 부분 집합에 대한 잔여 우도 스코어를 계산하는 AMFT 방식의 bottom-up 방식과 달리, N=10인 경우부터 우도 스코어를 계산하는 up-bottom 방식이므로, 계산 속도가 더욱 빨라질 수 있다.
When the loss characteristic theory of the present invention is called HMFT (Hard-mask Missing Feature theory), the subset N is 8 and 9 in the HMFT method, respectively, 10.34% and 10.95%, respectively, compared to the 13.01% AMFT method. As the recognition error rate is reduced, the recognition accuracy is improved. Unlike the bottom-up method of the AMFT method, which calculates the residual likelihood scores for all subsets from N = 1 to N = 10, the HMFT method calculates the likelihood score from N = 10. Because of the -bottom method, the calculation speed can be much faster.

한편, 본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독 가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
Meanwhile, an embodiment of the present invention may also be implemented in the form of a recording medium including instructions executable by a computer, such as a program module executed by the computer. Computer readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media. In addition, the computer-readable medium may include both computer storage media and communication media. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data. Communication media typically includes any information delivery media, including computer readable instructions, data structures, program modules, or other data in a modulated data signal such as a carrier wave, or other transport mechanism.

이상에서 본 발명은 도면을 참조하면서 기술되는 바람직한 실시예를 중심으로 설명되었지만 이에 한정되는 것은 아니다. 따라서 본 발명은 기재된 실시예로부터 도출 가능한 자명한 변형예를 포괄하도록 의도된 특허청구범위의 기재에 의해 해석되어져야 한다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, Therefore, the present invention should be construed as a description of the claims which are intended to cover obvious variations that can be derived from the described embodiments.

100 : 화자 인식 장치
110 : 음성 수신부
120 : 특성 추출부
130, 230 : 화자 매칭부
140 : 장치 제어부
231 : 부분 집합 선택부
232 : 주변 우도 스코어 연산부
233 : 화자 인식부
234 : 음성 신호 DB
100: speaker recognition device
110: voice receiver
120: feature extraction unit
130, 230: speaker matching unit
140: device control unit
231: subset selection unit
232: peripheral likelihood score calculator
233: speaker recognition unit
234: voice signal DB

Claims (12)

음성 신호를 수신하는 음성 수신부;
상기 수신된 음성 신호를 주파수 영역으로 변환하고, 상기 변환된 음성 신호로부터 특성을 추출하는 특성 추출부; 및
상기 추출된 특성이 포함하는 N 개의 부분 집합에 대하여 인식률 가중치를 적용하여, 기 설정된 인식률보다 높은 M 개의 부분 집합을 선택하여 주변 우도 스코어를 산출하고, 상기 주변 우도 스코어 중 가장 큰 값인 최대 우도 스코어에 기초하여 상기 음성 신호를 생성한 화자를 인식하는 화자 매칭부를 포함하며,
상기 화자 매칭부는,
적어도 한 명 이상의 화자의 음성 신호 데이터를 저장하는 음성 신호 DB;
상기 추출된 특성이 포함하는 N 개의 부분 집합에 대하여 인식률 가중치를 적용하여 기 설정된 인식률보다 높은 M 개의 부분 집합을 선택하는 부분 집합 선택부;
상기 선택된 M 개의 부분 집합을 이용하여 상기 수신된 음성 신호에 대한 주변 우도 스코어를 산출하는 주변 우도 스코어 연산부; 및
상기 주변 우도 스코어 중 가장 큰 값인 최대 우도 스코어에 기초하여 상기 음성 신호 DB에 저장되어 있는 모든 화자의 음성 신호 데이터 중에서, 상기 화자를 인식하는 화자 인식부를 포함하는 음성 신호를 이용한 화자 인식 장치.
A voice receiver for receiving a voice signal;
A feature extractor configured to convert the received voice signal into a frequency domain and extract a feature from the converted voice signal; And
By applying the recognition rate weights to the N subsets included in the extracted characteristic, the M likeness is selected by selecting M subsets higher than a preset recognition rate, and the marginal likelihood score is calculated. A speaker matching unit configured to recognize a speaker who has generated the voice signal based on the result;
The speaker matching unit,
A voice signal DB for storing voice signal data of at least one or more speakers;
A subset selection unit configured to select M subsets having a higher recognition rate than a preset recognition rate by applying a recognition rate weight to the N subsets included in the extracted feature;
A peripheral likelihood score calculator configured to calculate a peripheral likelihood score for the received speech signal using the selected M subsets; And
And a speaker recognizer configured to recognize the speaker among voice signal data of all speakers stored in the voice signal DB based on the maximum likelihood score, which is the largest value among the surrounding likelihood scores.
삭제delete 제1항에 있어서,
상기 화자 인식 결과에 대응하여 네트워킹 되어 있는 주변 장치의 동작을 제어하는 장치 제어부를 더 포함하는 음성 신호를 이용한 화자 인식 장치.
The method of claim 1,
And a device controller configured to control an operation of a networked peripheral device in response to the speaker recognition result.
제1항에 있어서,
상기 부분 집합 선택부는,
상기 인식률 가중치(
Figure 112013029440254-pat00016
)를 다음의 수학식을 이용하여 계산된 값을 정규화하고, 상기 인식률 가중치가 기 설정된 인식률보다 높은 M 개의 부분 집합을 선택하는 음성 신호를 이용한 화자 인식 장치:
Figure 112013029440254-pat00017

여기서, wN은 부분 집합이 N 개인 경우의 가중치, RN은 화자를 인식한 비율, UN은 화자를 인식하지 못한 비율을 나타낸다.
The method of claim 1,
The subset selection unit,
The recognition rate weight (
Figure 112013029440254-pat00016
A speaker recognition apparatus using a speech signal for normalizing a value calculated using the following equation, and selecting M subsets having the recognition rate weight higher than a preset recognition rate:
Figure 112013029440254-pat00017

Here, w N is a weight when the subset is N, R N is a speaker recognition rate, U N is a speaker recognition rate.
제1항에 있어서,
상기 주변 우도 스코어 연산부는,
상기 주변 우도 스코어(P(λS|XM))를 다음의 수학식을 이용하여 구하는 음성 신호를 이용한 화자 인식 장치:
Figure 112013029440254-pat00018

여기서, λS는 화자 S의 모델, XM은 M 개의 부분 집합인 경우의 화자의 특성 벡터를 나타낸다.
The method of claim 1,
The peripheral likelihood score calculation unit,
Speaker recognition apparatus using a speech signal to obtain the peripheral likelihood score (P (λ S | X M )) using the following equation:
Figure 112013029440254-pat00018

Here, lambda S represents the model of the speaker S, and X M represents the speaker's characteristic vector in the case of M subsets.
제1항에 있어서,
상기 화자 인식부는,
상기 최대 우도 스코어(P(X|λS))를 다음의 수학식을 이용하여 구하는 음성 신호를 이용한 화자 인식 장치:
Figure 112013029440254-pat00019

여기서, λS는 화자 S의 모델, XM은 M 개의 부분 집합인 경우의 화자의 특성 벡터,
Figure 112013029440254-pat00020
은 인식률 가중치를 나타낸다.
The method of claim 1,
The speaker recognizing unit,
Speaker recognition apparatus using a speech signal to obtain the maximum likelihood score (P (X | λ S )) using the following equation:
Figure 112013029440254-pat00019

Where λ S is the speaker S model, X M is the speaker's characteristic vector in the case of M subsets,
Figure 112013029440254-pat00020
Denotes a recognition rate weight.
음성 신호를 수신하는 단계;
상기 수신된 음성 신호를 주파수 영역으로 변환하고, 상기 변환된 음성 신호로부터 특성을 추출하는 단계; 및
상기 추출된 특성이 포함하는 N 개의 부분 집합에 대하여 인식률 가중치를 적용하여, 기 설정된 인식률보다 높은 M 개의 부분 집합을 선택하여 주변 우도 스코어를 산출하고, 상기 주변 우도 스코어 중 가장 큰 값인 최대 우도 스코어에 기초하여 상기 음성 신호를 생성한 화자를 매칭하는 단계를 포함하며,
상기 화자를 매칭하는 단계는,
상기 추출된 특성이 포함하는 N 개의 부분 집합에 대하여 인식률 가중치를 적용하여 기 설정된 인식률보다 높은 M 개의 부분 집합을 선택하는 단계;
상기 선택된 M 개의 부분 집합을 이용하여 상기 수신된 음성 신호에 대한 주변 우도 스코어를 산출하는 단계; 및
상기 주변 우도 스코어 중 가장 큰 값인 최대 우도 스코어에 기초하여, 적어도 한 명 이상의 화자의 음성 신호 데이터를 저장하는 음성 신호 DB에 저장되어 있는 모든 화자의 음성 신호 데이터 중에서, 상기 화자를 인식하는 단계를 포함하는 음성 신호를 이용한 화자 인식 방법.
Receiving a voice signal;
Converting the received speech signal into a frequency domain and extracting a characteristic from the converted speech signal; And
By applying the recognition rate weights to the N subsets included in the extracted characteristic, the M likeness is selected by selecting M subsets higher than a preset recognition rate, and the marginal likelihood score is calculated. Matching the speaker that generated the speech signal based on the result;
Matching the speaker,
Selecting M subsets higher than a preset recognition rate by applying a recognition rate weight to the N subsets included in the extracted feature;
Calculating a surrounding likelihood score for the received speech signal using the selected M subsets; And
Recognizing the speaker among voice signal data of all speakers stored in the voice signal DB storing voice signal data of at least one or more speakers based on the maximum likelihood score, which is the largest value among the surrounding likelihood scores. Speaker recognition method using a speech signal.
삭제delete 제7항에 있어서,
상기 화자 인식 결과에 대응하여 네트워킹 되어 있는 주변 장치의 동작을 제어하는 단계를 더 포함하는 음성 신호를 이용한 화자 인식 방법.
The method of claim 7, wherein
And controlling the operation of a networked peripheral device in response to the speaker recognition result.
제7항에 있어서,
상기 부분 집합을 선택하는 단계는,
상기 인식률 가중치(
Figure 112013029440254-pat00021
)를 다음의 수학식을 이용하여 계산된 값을 정규화하고, 상기 인식률 가중치가 기 설정된 인식률보다 높은 M 개의 부분 집합을 선택하는 음성 신호를 이용한 화자 인식 방법:
Figure 112013029440254-pat00022

여기서, wN은 부분 집합이 N 개인 경우의 가중치, RN은 화자를 인식한 비율, UN은 화자를 인식하지 못한 비율을 나타낸다.
The method of claim 7, wherein
Selecting the subset is,
The recognition rate weight (
Figure 112013029440254-pat00021
2) A speaker recognition method using a speech signal for normalizing a calculated value using the following equation and selecting M subsets having the recognition rate weight higher than a preset recognition rate:
Figure 112013029440254-pat00022

Here, w N is a weight when the subset is N, R N is a speaker recognition rate, U N is a speaker recognition rate.
제7항에 있어서,
상기 주변 우도 스코어를 산출하는 단계는,
상기 주변 우도 스코어(P(λS|XM))를 다음의 수학식을 이용하여 구하는 음성 신호를 이용한 화자 인식 방법:
Figure 112013029440254-pat00023

여기서, λS는 화자 S의 모델, XM은 M 개의 부분 집합인 경우의 화자의 특성 벡터를 나타낸다.
The method of claim 7, wherein
Computing the surrounding likelihood score,
Speaker recognition method using the speech signal to obtain the peripheral likelihood score (P (λ S | X M )) using the following equation:
Figure 112013029440254-pat00023

Here, lambda S represents the model of the speaker S, and X M represents the speaker's characteristic vector in the case of M subsets.
제7항에 있어서,
상기 화자를 인식하는 단계는,
상기 최대 우도 스코어(P(X|λS))를 다음의 수학식을 이용하여 구하는 음성 신호를 이용한 화자 인식 방법:
Figure 112013029440254-pat00024

여기서, λS는 화자 S의 모델, XM은 M 개의 부분 집합인 경우의 화자의 특성 벡터,
Figure 112013029440254-pat00025
은 인식률 가중치를 나타낸다.
The method of claim 7, wherein
Recognizing the speaker,
Speaker recognition method using a speech signal to obtain the maximum likelihood score (P (X | λ S )) using the following equation:
Figure 112013029440254-pat00024

Where λ S is the speaker S model, X M is the speaker's characteristic vector in the case of M subsets,
Figure 112013029440254-pat00025
Denotes a recognition rate weight.
KR1020110137621A 2011-12-19 2011-12-19 Apparatus and method for recognizing of speaker using vocal signal KR101304127B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110137621A KR101304127B1 (en) 2011-12-19 2011-12-19 Apparatus and method for recognizing of speaker using vocal signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110137621A KR101304127B1 (en) 2011-12-19 2011-12-19 Apparatus and method for recognizing of speaker using vocal signal

Publications (2)

Publication Number Publication Date
KR20130070345A KR20130070345A (en) 2013-06-27
KR101304127B1 true KR101304127B1 (en) 2013-09-05

Family

ID=48865167

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110137621A KR101304127B1 (en) 2011-12-19 2011-12-19 Apparatus and method for recognizing of speaker using vocal signal

Country Status (1)

Country Link
KR (1) KR101304127B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AT516219B1 (en) * 2014-09-09 2017-06-15 Frequentis Ag Method for identifying and checking voice radio messages
KR102313387B1 (en) * 2019-11-07 2021-10-14 연세대학교 산학협력단 Method and Apparatus for Separating Speaker Based on Machine Learning

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110025356A (en) * 2009-09-04 2011-03-10 세종대학교산학협력단 Apparatus and method for speaker recognition

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110025356A (en) * 2009-09-04 2011-03-10 세종대학교산학협력단 Apparatus and method for speaker recognition

Also Published As

Publication number Publication date
KR20130070345A (en) 2013-06-27

Similar Documents

Publication Publication Date Title
US11735191B2 (en) Speaker recognition with assessment of audio frame contribution
US9009047B2 (en) Specific call detecting device and specific call detecting method
US11056118B2 (en) Speaker identification
TWI475558B (en) Method and apparatus for utterance verification
US20180082691A1 (en) Dimensionality reduction of baum-welch statistics for speaker recognition
US9646613B2 (en) Methods and systems for splitting a digital signal
Kinnunen et al. Utterance verification for text-dependent speaker recognition: a comparative assessment using the RedDots corpus
WO2017212206A1 (en) Voice user interface
US9984676B2 (en) Feature normalization inputs to front end processing for automatic speech recognition
EP0822539A2 (en) Two-staged cohort selection for speaker verification system
KR102346634B1 (en) Method and device for transforming feature vectors for user recognition
US10909991B2 (en) System for text-dependent speaker recognition and method thereof
KR101618512B1 (en) Gaussian mixture model based speaker recognition system and the selection method of additional training utterance
US7050973B2 (en) Speaker recognition using dynamic time warp template spotting
US11200903B2 (en) Systems and methods for speaker verification using summarized extracted features
CN116490920A (en) Method for detecting an audio challenge, corresponding device, computer program product and computer readable carrier medium for a speech input processed by an automatic speech recognition system
CN110189746A (en) A kind of method for recognizing speech applied to earth-space communication
US11081115B2 (en) Speaker recognition
KR101304127B1 (en) Apparatus and method for recognizing of speaker using vocal signal
KR101060162B1 (en) Speaker recognition device and method
Barai et al. An ASR system using MFCC and VQ/GMM with emphasis on environmental dependency
CN111696524A (en) Character-overlapping voice recognition method and system
Nagesh et al. A robust speech rate estimation based on the activation profile from the selected acoustic unit dictionary
Li et al. Keyword-specific normalization based keyword spotting for spontaneous speech
Al-Hmouz et al. Multimodal biometrics using multiple feature representations to speaker identification system

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160729

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170717

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee