JP2007017840A - Speech authentication device - Google Patents
Speech authentication device Download PDFInfo
- Publication number
- JP2007017840A JP2007017840A JP2005201336A JP2005201336A JP2007017840A JP 2007017840 A JP2007017840 A JP 2007017840A JP 2005201336 A JP2005201336 A JP 2005201336A JP 2005201336 A JP2005201336 A JP 2005201336A JP 2007017840 A JP2007017840 A JP 2007017840A
- Authority
- JP
- Japan
- Prior art keywords
- microphone
- feature
- user
- speech
- comparison
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、利用者が発する音声と予め記憶してある音声とを照合して適正な利用者か否かの認証を行う音声認証装置に関する。 The present invention relates to a voice authentication device that authenticates whether a user is an appropriate user by comparing a voice uttered by a user with a voice stored in advance.
予め決められれた利用者の名前などの言葉を発話してもらい、利用者の発話音声を分析して特徴パラメーターとして記憶しておき、認証時に利用者が発話した音声を分析して特徴パラメーターを抽出し、記憶してある特徴パラメーターと照合して一致または不一致を判定するようにした音声認証装置が知られている(例えば、特許文献1参照)。 Speak words such as a predetermined user name, analyze the user's speech and store it as a feature parameter, analyze the speech uttered by the user during authentication, and extract the feature parameter In addition, a voice authentication apparatus is known in which matching or mismatching is determined by comparing with stored feature parameters (see, for example, Patent Document 1).
この出願の発明に関連する先行技術文献としては次のものがある。
しかしながら、上述した従来の音声認証装置では、空気伝導音を集音して認証を行うので、利用者の音声に環境雑音が混入し易く、認証精度の向上が図れないという問題がある。 However, since the conventional voice authentication apparatus described above collects the air conduction sound and performs authentication, there is a problem that environmental noise is likely to be mixed into the user's voice and the authentication accuracy cannot be improved.
予め、人の発話音声の空気伝導音を集音する第1マイクと、人の発話音声の体内伝導音を集音する第2マイクとにより集音した人の発話音声から特徴パラメーターを抽出して記憶しておき、第1マイクと第2マイクにより集音した人の発話音声から特徴パラメーターを抽出し、記憶されている特徴パラメーターとマイクごとに比較照合し、この比較照合結果に基づいて利用者として適格か否かを認証する。 Extracting feature parameters from the speech of a person collected in advance by a first microphone that collects the air conduction sound of the person's speech and a second microphone that collects the body conduction sound of the person's speech The feature parameters are extracted from the speech of the person collected by the first microphone and the second microphone, compared with each stored feature parameter and each microphone, and the user is based on the comparison result. It certifies whether or not it is eligible.
本発明によれば、音声認証精度を向上させることができる。 According to the present invention, voice authentication accuracy can be improved.
本願発明の音声認証装置を車両に適用した一実施の形態を説明する。なお、本願発明の音声認証装置は車両用に限定されるものではない。 An embodiment in which the voice authentication device of the present invention is applied to a vehicle will be described. The voice authentication device of the present invention is not limited to vehicles.
図1は一実施の形態の構成を示す図である。非接触型マイクロホン(以下、単にマイクという)1は例えば運転席周辺のインストルメントパネルに設置され、運転者の発話音声の空気伝導音を集音する。この非接触型マイク1には、例えばコンデンサーマイクを用いることができる。非接触型マイク1は空気伝導音を集音するので、運転者の発話音声に環境雑音が混入する。 FIG. 1 is a diagram showing a configuration of an embodiment. A non-contact type microphone (hereinafter simply referred to as a microphone) 1 is installed, for example, on an instrument panel around the driver's seat, and collects the air conduction sound of the driver's speech. For example, a condenser microphone can be used as the non-contact type microphone 1. Since the non-contact type microphone 1 collects air conduction sound, environmental noise is mixed in the voice of the driver.
接触型マイク2は一般に骨伝導マイクや肉伝導マイクと呼ばれ、利用者の例えば頭部などに接触させて利用者の発話音声の体内伝導音を集音する。接触型マイク2は利用者が固定器具を用いて体に装着するか、あるいはヘッドレストなどの体に接触する部位に埋め込んで使用する。
The contact-
なお、マイクで収音できる周波数帯域は非接触型と接触型とで異なる。空気伝導音には高域の情報が含まれやすいため、非接触型マイク1には高域情報を強調して集音できるマイクを用いる。一方、体内伝導音には低域の情報が含まれやすいため、低域情報に対して敏感な接触型マイク2を用いる。また、低域特性が優れたマイクによって集音された音声の高域情報は、フィルター処理を施してパラメーター化しないほうが認証精度の向上につながる場合もある。
The frequency band that can be picked up by the microphone differs between the non-contact type and the contact type. Since high-frequency information is likely to be included in the air conduction sound, the non-contact type microphone 1 uses a microphone capable of collecting sound with emphasis on high-frequency information. On the other hand, since the low-frequency information is likely to be included in the body conduction sound, the
マイクアンプ3は非接触型マイク1および接触型マイク2で集音した音声をそれぞれ別個に増幅し、AD変換装置4はマイクアンプ3で増幅した非接触型マイク1および接触型マイク2のアナログ音声をそれぞれ別個にデジタル音声に変換する。
The
演算装置5はマイクロコンピューターやメモリなどを備え、利用者の発話音声の特徴をパラメーター分析して記憶装置6に記憶されている利用者の特徴パラメーターと照合し、適正な利用者か否かの認証を行う。なお、パラメーター分析には音声のピッチ、ホルマント周波数、スペクトル、ケプストラム、話速、韻律、スペクトル回帰、パワー、イントネーション、発話内容などの情報を単独または複数個組み合わせて行う。
The
記憶装置6は、予め決められている名前などを事前に利用者に発話してもらい、その音声を収録して分析し、特徴パラメーターを抽出して利用者ごとに記憶する。音声認証では予めこの記憶装置6に記憶しておいた利用者の特徴パラメーターと、認証時に入力された利用者の発話音声の特徴パラメーターとを比較する。特徴パラメーターとは、音声信号に対して周波数分析、ケプストラム分析、ピッチ抽出などの処理を行い、音声信号に含まれる個性に関するパラメーターを抽出し、ベクトル化したものである。図2にピッチ情報と周波数分析から抽出したホルマント情報を用いて5次元のベクトル、すなわち特徴パラメーターを作成した一例を示す。
The
図3は一実施の形態の話者認証動作を示すフローチャートであり、図4は一実施の形態の話者認証原理を示す図である。これらの図により、一実施の形態の動作を説明する。ステップ1において初期化処理を行い、記憶装置6から予め収集された利用者の音声に関する特徴パラメーターを読み込み、メモリ空間に展開する。ステップ2では利用者の音声入力の有無を検出し、非接触型マイク1と接触型マイク2から音声が入力されたらステップ3へ進む。
FIG. 3 is a flowchart showing the speaker authentication operation of the embodiment, and FIG. 4 is a diagram showing the speaker authentication principle of the embodiment. The operation of one embodiment will be described with reference to these drawings. In step 1, initialization processing is performed, and feature parameters relating to the user's voice collected in advance from the
ステップ3では非接触型マイク1と接触型マイク2から入力した音声から上述した手法により特徴パラメーターを抽出する。続くステップ4においてマイクごとに抽出した特徴パラメーターを予め記憶されている特徴パラメーターと比較する。すなわち、非接触型マイク1の入力音声から抽出した特徴パラメーターを、非接触型マイク1で収録して予め作成した特徴パラメーターと比較するとともに、接触型マイク2の入力音声から抽出した特徴パラメーターを、接触型マイク2で収録して予め作成した特徴パラメーターと比較する。
In
この特徴パラメーターの比較手法としては、例えば2つの特徴パラメーターのユークリッド距離を比較する手法がある。図5は二次元のベクトル(特徴パラメーター)を用いて3人の話者認証を行った場合の例を示す。入力信号がC1からC3のいずれかの範囲に入っていれば話者認証が成功、つまり利用者として適格とされる。なお、C1の範囲を変更することによって、話者認証の精度を制御することができる。認証精度を上げて厳密にしたければC1の範囲を小さくすればよい。 As a feature parameter comparison method, for example, there is a method of comparing Euclidean distances between two feature parameters. FIG. 5 shows an example in which three speaker authentication is performed using a two-dimensional vector (feature parameter). If the input signal is in the range from C1 to C3, the speaker authentication is successful, that is, the user is qualified. Note that the accuracy of speaker authentication can be controlled by changing the range of C1. In order to increase the accuracy of authentication and make it strict, the range of C1 may be reduced.
認証結果はマイクごとに出力する。一致の照合結果が得られた場合は利用者として適格“1”とし、不一致の照合結果が得られた場合は利用者として不的確“0”とする。ステップ5においてマイクごとの認証結果の論理積をとり、最終的な認証結果を出力する。つまり、非接触型マイク1による認証結果が適格“1”で、かつ接触型マイク1による認証結果が適格“1”の場合のみ、利用者として適格であるとする。なお、マイクごとの認証結果の論理和をとって最終的な認証結果とすれば、認証の範囲を広げることができる。
The authentication result is output for each microphone. When a matching result of matching is obtained, the user is qualified as “1”, and when a matching result of mismatching is obtained, the user is uncertainly “0”. In
このように、一実施の形態によれば、予め、人の発話音声の空気伝導音を集音する非接触型マイクと、人の発話音声の体内伝導音を集音する接触型マイクとにより集音した人の発話音声から特徴パラメーターを抽出して記憶しておき、非接触型マイクと接触型マイクにより集音した人の発話音声から特徴パラメーターを抽出し、記憶されている特徴パラメーターとマイクごとに比較照合し、この比較照合結果に基づいて利用者として適格か否かを認証するようにしたので、認証に用いる情報量が多くなり、しかも環境雑音の混入が少ない体内伝導音から得られた情報を用いることによって、音声認証精度を向上させることができる。 Thus, according to one embodiment, the non-contact type microphone that collects the air conduction sound of the person's uttered voice and the contact type microphone that collects the body conduction sound of the person's uttered voice are collected in advance. Feature parameters are extracted and stored from the uttered speech of the person who has made the sound, extracted from the utterance speech of the person collected by the non-contact microphone and the contact microphone, and the stored feature parameters and each microphone The result of the comparison and verification was used to authenticate whether or not the user was eligible. Based on the result of the comparison and verification, the amount of information used for authentication was increased, and it was obtained from the body conduction sound that contained less environmental noise. The voice authentication accuracy can be improved by using the information.
また、一実施の形態によれば、非接触型マイクと接触型マイクの両方において一致の照合結果が得られた場合に、利用者として適格であると認証するようにしたので、認証に用いる情報量が多くなり、しかも環境雑音の混入が少ない体内伝導音から得られた情報を用いることによって、音声認証精度を向上させることができる。 In addition, according to the embodiment, when matching results are obtained in both the non-contact type microphone and the contact type microphone, the user is authenticated as being qualified. The voice authentication accuracy can be improved by using the information obtained from the body conduction sound that increases in volume and has little environmental noise.
さらに、一実施の形態によれば、非接触型マイクと接触型マイクのいずれか一方において一致の照合結果が得られた場合に、利用者として適格であると認証するようにしたので、両マイクで一致の照合結果が得られた場合よりも音声認証精度は低くなるが、環境雑音の混入が少ない体内伝導音から得られた情報を用いることによって、従来の音声認証装置よりも音声認証精度を向上させることができる。 Furthermore, according to the embodiment, when a matching result is obtained in either one of the non-contact type microphone and the contact type microphone, it is authenticated that the user is qualified. The voice authentication accuracy is lower than the case where the matching result is obtained in, but the voice authentication accuracy is higher than that of the conventional voice authentication device by using the information obtained from the body conduction sound with less environmental noise. Can be improved.
《発明の一実施の形態の変形例》
上述した一実施の形態では、マイクごとに認証時の発話音声の特徴パラメーターを予め記憶されている特徴パラメーターと比較照合する例を示したが、2つのマイクの特徴パラメーターを統合して比較照合してもよい。
<< Modification of Embodiment of Invention >>
In the above-described embodiment, an example in which the feature parameter of the uttered voice at the time of authentication is compared and collated with the feature parameter stored in advance for each microphone is shown. However, the feature parameter of the two microphones is integrated and collated. May be.
図6に変形例の話者認証方法を示す。予め決められている利用者の名前などを事前に発話してもらい、非接触型マイク1と接触型マイク2を用いて音声を収録する。非接触型マイク1で収録した音声と接触型マイク2で収録した音声をそれぞれ別個に上述した手法により分析し、特徴パラメーターを抽出する。そして、非接触型マイク1の特徴パラメーターの一部と接触型マイク2の特徴パラメーターの一部を持ち寄って一つの特徴パラメーターに統合し、利用者の特徴パラメーターとして記憶装置6に記憶しておく。
FIG. 6 shows a modified speaker authentication method. A user's name determined in advance is uttered in advance, and voice is recorded using the non-contact microphone 1 and the
認証時には予め決められている利用者の名前などを発話してもらい、その発話音声を非接触型マイク1と接触型マイク2で収録する。非接触型マイク1で収録した音声と接触型マイク2で収録した音声をそれぞれ別個に上述した手法により分析し、特徴パラメーターを抽出する。そして、非接触型マイク1の特徴パラメーターの一部と接触型マイク2の特徴パラメーターの一部とを持ち寄って一つの特徴パラメーターに統合し、記憶装置6に記憶されている特徴パラメーターと比較照合する。一致の照合結果が得られた場合は利用者として適格とし、不一致の照合結果が得られた場合は利用者として不的確とする。
At the time of authentication, the user's predetermined name is uttered, and the uttered voice is recorded by the non-contact microphone 1 and the
このように、一実施の形態の変形例によれば、予め、人の発話音声の空気伝導音を集音する非接触型マイクと、人の発話音声の体内伝導音を集音する接触型マイクとにより集音した人の発話音声から特徴パラメーターを抽出するとともに、非接触型マイクの特徴パラメーターの一部と接触型マイクの特徴パラメーターの一部を統合して特徴パラメーターを生成して記憶しておき、非接触型マイクと接触型マイクにより集音した人の発話音声から特徴パラメーターを抽出するとともに、両マイクの特徴パラメーターを統合し、記憶されている統合結果の特徴パラメーターと比較照合し、一致の照合結果が得られた場合に利用者として適格であると認証するようにしたので、認証に用いる情報量が多くなり、しかも環境雑音の混入が少ない体内伝導音から得られた情報を用いることによって、音声認証精度を向上させることができる。 As described above, according to the modification of the embodiment, the non-contact microphone that collects the air conduction sound of the person's uttered voice and the contact microphone that collects the body conduction sound of the person's uttered voice in advance. The feature parameters are extracted from the uttered voice of the person who collected the sound and the feature parameters of the non-contact microphone and the feature parameters of the contact microphone are integrated to generate and store the feature parameters. In addition, the feature parameters are extracted from the speech uttered by the person collected by the non-contact microphone and the contact microphone, and the feature parameters of both microphones are integrated, compared with the stored feature parameters of the integrated results, and matched. When the verification result is obtained, it is authenticated that the user is qualified as a user, so that the amount of information used for authentication increases, and there is little contamination with environmental noise. By using the information obtained from the sound, it is possible to improve the voice authentication accuracy.
また、一実施の形態の変形例によれば、非接触型マイクの特徴パラメーターの高音域部分と接触型マイクの低音域部分とを統合するようにしたので、両マイクの優れた音響特性を有効に活用してS/N比の高い音声を集音でき、音声認証精度をさらに向上させることができる。 In addition, according to the modification of the embodiment, the high frequency range portion of the characteristic parameter of the non-contact type microphone and the low frequency range portion of the contact type microphone are integrated, so that the excellent acoustic characteristics of both microphones are effective. This makes it possible to collect voices with a high S / N ratio and further improve voice authentication accuracy.
特許請求の範囲の構成要素と一実施の形態の構成要素との対応関係は次の通りである。すなわち、非接触型マイク1が第1マイクを、接触型マイク2が第2マイクを、演算装置5が特徴抽出手段、比較照合手段および統合手段を、記憶装置5が特徴記憶手段をそれぞれ構成する。なお、以上の説明はあくまで一例であり、発明を解釈する際、上記の実施の形態の記載事項と特許請求の範囲の記載事項との対応関係になんら限定も拘束もされない。
The correspondence between the constituent elements of the claims and the constituent elements of the embodiment is as follows. That is, the non-contact type microphone 1 constitutes the first microphone, the
1 非接触型マイク
2 接触型マイク
3 マイクアンプ
4 AD変換装置
5 演算装置
6 記憶装置
DESCRIPTION OF SYMBOLS 1 Non-contact-
Claims (5)
人の発話音声の体内伝導音を集音する第2マイクと、
前記第1マイクと前記第2マイクにより集音した人の発話音声から特徴パラメーターを抽出する特徴抽出手段と、
予め、前記第1マイクと前記第2マイクにより人の発話音声を集音し、前記特徴抽出手段により特徴パラメーターを抽出して記憶する特徴記憶手段と、
前記第1マイクと前記第2マイクにより集音した人の発話音声から前記特徴抽出手段により特徴パラメーターを抽出し、前記特徴記憶手段に記憶されている特徴パラメーターと前記マイクごとに比較照合する比較照合手段とを備え、
前記比較照合手段による比較照合結果に基づいて利用者として適格か否かを認証することを特徴とする音声認証装置。 A first microphone that collects air conduction sound of human speech;
A second microphone that collects the body conduction sound of human speech,
Feature extraction means for extracting feature parameters from the speech of a person collected by the first microphone and the second microphone;
Feature storage means for collecting human speech using the first microphone and the second microphone, and extracting and storing feature parameters by the feature extraction means;
A comparison collation in which feature parameters are extracted by the feature extraction unit from speech uttered by a person collected by the first microphone and the second microphone, and the feature parameter stored in the feature storage unit is compared with each microphone. Means and
A voice authentication apparatus that authenticates whether or not the user is qualified based on a result of the comparison and collation by the comparison and collation means.
前記比較照合手段により前記第1マイクと前記第2マイクの両方において一致の照合結果が得られた場合に、利用者として適格であると認証することを特徴とする音声認証装置。 The voice authentication device according to claim 1,
A voice authentication device that authenticates a user as a user when both of the first microphone and the second microphone obtain matching results by the comparison and verification unit.
前記比較照合手段により前記第1マイクと前記第2マイクのいずれか一方において一致の照合結果が得られた場合に、利用者として適格であると認証することを特徴とする音声認証装置。 The voice authentication device according to claim 1,
A voice authentication device that authenticates a user as a user when a matching result is obtained in either one of the first microphone and the second microphone by the comparison and collation means.
人の発話音声の体内伝導音を集音する第2マイクと、
前記第1マイクと前記第2マイクにより集音した人の発話音声から特徴パラメーターを抽出する特徴抽出手段と、
前記第1マイクの特徴パラメーターの一部と前記第2マイクの特徴パラメーターの一部を統合して特徴パラメーターを生成する統合手段と、
予め、前記第1マイクと前記第2マイクにより人の発話音声を集音し、前記特徴抽出手段により両マイクの特徴パラメーターを抽出するとともに、前記統合手段により両マイクの特徴パラメーターを統合して記憶する特徴記憶手段と、
前記第1マイクと前記第2マイクにより集音した人の発話音声から前記特徴抽出手段により両マイクの特徴パラメーターを抽出するとともに、前記統合手段により両マイクの特徴パラメーターを統合し、前記特徴記憶手段に記憶されている統合結果の特徴パラメーターと比較照合する比較照合手段とを備え、
前記比較照合手段により一致の照合結果が得られた場合に利用者として適格であると認証することを特徴とする音声認証装置。 A first microphone that collects air conduction sound of human speech;
A second microphone that collects the body conduction sound of human speech,
Feature extraction means for extracting feature parameters from the speech of a person collected by the first microphone and the second microphone;
Integration means for generating a characteristic parameter by integrating a part of the characteristic parameter of the first microphone and a part of the characteristic parameter of the second microphone;
In advance, human speech is collected by the first microphone and the second microphone, the feature parameters of both microphones are extracted by the feature extraction means, and the feature parameters of both microphones are integrated and stored by the integration means. A feature storage means,
The feature extraction unit extracts feature parameters of both microphones from the speech of a person collected by the first microphone and the second microphone, and the feature storage unit integrates the feature parameters of both microphones. A comparison / matching means for comparing and matching with the feature parameter of the integrated result stored in
A voice authentication device that authenticates a user as a user when a matching result is obtained by the comparison and matching unit.
前記統合手段は、前記第1マイクの特徴パラメーターの高音域部分と前記第2マイクの低音域部分とを統合することを特徴とする音声認証装置。 The voice authentication device according to claim 4,
The voice authentication apparatus, wherein the integration unit integrates a high-frequency part of a characteristic parameter of the first microphone and a low-frequency part of the second microphone.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005201336A JP2007017840A (en) | 2005-07-11 | 2005-07-11 | Speech authentication device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005201336A JP2007017840A (en) | 2005-07-11 | 2005-07-11 | Speech authentication device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007017840A true JP2007017840A (en) | 2007-01-25 |
Family
ID=37755046
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005201336A Pending JP2007017840A (en) | 2005-07-11 | 2005-07-11 | Speech authentication device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007017840A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008233672A (en) * | 2007-03-22 | 2008-10-02 | Yamaha Corp | Masking sound generation apparatus, masking sound generation method, program, and recording medium |
EP3272101A4 (en) * | 2015-03-20 | 2018-09-26 | Aplcomp OY | Audiovisual associative authentication method, related system and device |
WO2023037429A1 (en) * | 2021-09-08 | 2023-03-16 | 日本電気株式会社 | Authentication device, authentication method, and recording medium |
-
2005
- 2005-07-11 JP JP2005201336A patent/JP2007017840A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008233672A (en) * | 2007-03-22 | 2008-10-02 | Yamaha Corp | Masking sound generation apparatus, masking sound generation method, program, and recording medium |
EP3272101A4 (en) * | 2015-03-20 | 2018-09-26 | Aplcomp OY | Audiovisual associative authentication method, related system and device |
US10146923B2 (en) | 2015-03-20 | 2018-12-04 | Aplcomp Oy | Audiovisual associative authentication method, related system and device |
WO2023037429A1 (en) * | 2021-09-08 | 2023-03-16 | 日本電気株式会社 | Authentication device, authentication method, and recording medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Likitha et al. | Speech based human emotion recognition using MFCC | |
Shiota et al. | Voice liveness detection algorithms based on pop noise caused by human breath for automatic speaker verification | |
Ajmera et al. | Text-independent speaker identification using Radon and discrete cosine transforms based features from speech spectrogram | |
Kinnunen | Spectral features for automatic text-independent speaker recognition | |
JP4802135B2 (en) | Speaker authentication registration and confirmation method and apparatus | |
Wu et al. | Identification of electronic disguised voices | |
US20130297299A1 (en) | Sparse Auditory Reproducing Kernel (SPARK) Features for Noise-Robust Speech and Speaker Recognition | |
Prabakaran et al. | A review on performance of voice feature extraction techniques | |
WO2011024572A1 (en) | Audio feature extracting apparatus, audio feature extracting method, and audio feature extracting program | |
KR101888058B1 (en) | The method and apparatus for identifying speaker based on spoken word | |
JP3006677B2 (en) | Voice recognition device | |
US20110301945A1 (en) | Speech signal processing system, speech signal processing method and speech signal processing program product for outputting speech feature | |
Hanilçi et al. | Optimizing acoustic features for source cell-phone recognition using speech signals | |
Bharath et al. | New replay attack detection using iterative adaptive inverse filtering and high frequency band | |
US20070150263A1 (en) | Speech modeling and enhancement based on magnitude-normalized spectra | |
Singh et al. | Usefulness of linear prediction residual for replay attack detection | |
Biagetti et al. | Speaker identification in noisy conditions using short sequences of speech frames | |
Degaonkar et al. | Emotion modeling from speech signal based on wavelet packet transform | |
KR101843079B1 (en) | Robust i-vector extractor learning method and system using speaker mutual information | |
JP2007017840A (en) | Speech authentication device | |
JP6087731B2 (en) | Voice clarifying device, method and program | |
Bhukya et al. | Robust methods for text-dependent speaker verification | |
JP6791816B2 (en) | Voice section detection device, voice section detection method, and program | |
Hizlisoy et al. | Text independent speaker recognition based on MFCC and machine learning | |
Nazifa et al. | Gender prediction by speech analysis |