JPH1097274A - 話者認識方法及び装置 - Google Patents

話者認識方法及び装置

Info

Publication number
JPH1097274A
JPH1097274A JP8251243A JP25124396A JPH1097274A JP H1097274 A JPH1097274 A JP H1097274A JP 8251243 A JP8251243 A JP 8251243A JP 25124396 A JP25124396 A JP 25124396A JP H1097274 A JPH1097274 A JP H1097274A
Authority
JP
Japan
Prior art keywords
sound source
speaker
waveform
source waveform
spectrum intensity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP8251243A
Other languages
English (en)
Inventor
Kazuya Takeda
一哉 武田
Shingo Kuroiwa
眞吾 黒岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
Kokusai Denshin Denwa KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kokusai Denshin Denwa KK filed Critical Kokusai Denshin Denwa KK
Priority to JP8251243A priority Critical patent/JPH1097274A/ja
Publication of JPH1097274A publication Critical patent/JPH1097274A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音韻の違いに影響されずに、話者認識を精度
良く行うこと。 【解決手段】 線形予測分析の結果から、調音器官の伝
達特性の逆特性を持つ逆フィルタ12を設定し、この逆
フィルタ12で入力音声波形をフィルタリングして音源
波形を生成し、得られた音源波形を周波数分析部14に
通してスペクトル強度パタンを得る。この音源波形のス
ペクトル強度パタンをフィルタバンク15でn個の周波
数帯域F1〜Fnに分割し、調波構造分析部16にて、
周波数帯域毎にスペクトル強度の凹凸を表す評価値V1
〜Vnを算出する。各周波数帯域Fiでの評価値Vi
を、話者認識での特徴パタンに用いる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音源波形の調波構造
を利用した話者の自動認識に係わるものであり、音声を
用いた話者の同定や認証に利用して有用である。
【0002】
【従来の技術】電話に代表される通信ネットワーク上で
個人が何らかのサービスを利用しようとする時、多くの
場合、利用者が正当な者であることを認証する必要があ
る。話者の認識は、利用者個人の認証を行うための有力
な手段である。
【0003】従来の話者認識技術は、発声内容依存型話
者認識と発声内容独立型話者認識との2つに大別され
る。前者は、利用者毎に予め定められた内容を発声し、
発声内容と話者性の2つの観点から話者を認証する。一
方後者は、利用者に任意の内容の発声を行わせるか、も
しくは、発声内容を任意に指定して発声を行わせるなど
により、キーワードを毎回変えることにより録音による
詐称を防ぐことが可能である。
【0004】ここでは、後者の発声内容独立型話者認識
における従来技術を、図8を参照して説明する。図8
は、発声内容独立型話者認識装置の従来の構成例を示す
(文献:古井著「ディジタル音声処理」(東海大学出版
会)参照)。
【0005】図8において、40は特徴抽出部、50は
切替部、51はベクトル量子化部、52は特徴記憶部、
53はパターン間距離計算部、54は認識判定部をそれ
ぞれ示す。
【0006】特徴抽出部40は入力音声の短時間スペク
トル分析等を行うのもであり、入力音声を連続する例え
ば20ms程度の区間に切り出して短時間スペクトル分
析することで得られる音声の短時間スペクトル強度を、
音声のスペクトル特徴パタン19として、5〜20ms
程度毎にベクトル量子化部51またはパターン間距離計
算部53に送出する。切替部50はスペクトル特徴パタ
ン19を、学習時にはベクトル量子化部51に、認識時
にはパターン間距離計算部53に与える。
【0007】学習時は、ベクトル量子化部51で、音声
のスペクトル特徴パタン19を、一人毎に、学習音声全
体に渡り一旦蓄積した後、蓄積されたスペクトル特徴パ
タンの集合からLBGアルゴリズム等を用いて100個
程度の符号帳(コードブック)を作成する。作成された
符号帳は、話者の特徴として、話者毎に特徴記憶部52
に蓄積される。
【0008】認識時は、未知話者の発声から、学習時と
同様に特徴抽出部40において短時間のスペクトル特徴
パタン19が計算される。このスペクトル特徴パタン1
9が、パタン間距離計算部53において、上述の手順に
より作成された話者毎の符号帳を用いて量子化され、且
つ、全ての符号帳に関して量子化に伴い生じた歪みがパ
タン間距離として計算され、認識判定部54に送られ
る。認識判定部54では、歪みが最も少ない符号帳に対
応する話者を認識結果として出力する。
【0009】従来の特徴抽出部40は、図9に示すよう
に、フレーム化処理部11と、線形予測分析部13と、
LPCケプストラム係数計算部18からなる。ここで、
LPCとは線形予測分析を意味する。ケプストラムとは
スペクトラムを対数化し、逆フーリエ変換したものを意
味し、スペクトラムの英語表記Spectrumの一部アルファ
ベットを入れ替えたものCepstrumで表記される。
【0010】フレーム化処理部11は入力音声を例えば
20ms程度の長さの区間に切り出した後、線形予測分
析部13に与える。線形予測分析部13はフレーム化処
理された音声S[n]を線形予測分析することにより全
極有理スペクトル近似による調音器官の伝達特性h
(ω)を求め、LPCケプストラム係数計算部18に与
える。ここで、nはフレーム内のサンプル番号を表し、
ωは正規化角周波数を表す。LPCケプストラム係数計
算部18は、伝達特性h(ω)を対数化し逆高速フーリ
エ変換を行うことに相当するLPCケプストラム計算処
理により、伝達特性h(ω)をケプストラム係数c
[i]に変換し、スペクトル特徴パタン19としてベク
トル量子化部51もしくはパタン間距離計算部53に出
力する。
【0011】
【発明が解決しようとする課題】従来は、調音器官の伝
達特性h(ω)のスペクトルパタンが、調音器官の形状
などの個人性を反映するとして、話者認識に用いられて
いる。
【0012】しかし、その反面、調音器官の伝達特性h
(ω)のスペクトルパタンは、発声する音韻により大き
く変動するという特徴を持っている。その例として、図
4に同一の話者が発声した母音/a/と/i/の対数ス
ペクトルを示す。
【0013】従って、従来の話者認識技術では、音声に
含まれる話者の性質が音韻の違いに大きく影響を受ける
ため、発声内容独立型の話者認識を精度良く行うことが
困難である。
【0014】そこで本発明は、音韻の違いに影響されず
に、話者認識を精度良く行うことができる方法及び装置
を提供することを課題とする。
【0015】
【課題を解決するための手段】上記課題を解決するた
め、本発明の話者認識方法は、音声波形から音源波形の
スペクトル強度パタンを得ること、得られた音源波形の
スペクトル強度パタンを複数の周波数帯域に区分するこ
と、各周波数帯域毎に音源波形のスペクトル強度パタン
の凹凸の程度を表す評価値を求めること、及び、求まっ
た複数の周波数帯域における評価値と、予め学習により
得たデータとから話者を認識することを特徴とする。ま
た、本発明の話者認識方法は、前記話者の認識として話
者が特定個人であるか否かを認証すること、或いは、音
声波形の線形予測分析により調音器官の伝達特性を除去
する逆フィルタを設定し、この逆フィルタに音声波形を
通して音源波形を求め、求まった音源波形の周波数分析
により、前記音源波形のスペクトル強度パタンを得るこ
と、或いは、音声波形のケプストラム分析により高次ケ
プストラム係数を求め、求まった高次ケプストラム係数
のフーリエ変換により、前記音源波形のスペクトル強度
パタンを得ることを特徴とする。
【0016】一方、本発明の話者認識装置は、音声波形
から音源波形のスペクトル強度パタンを得る手段と、得
られた音源波形のスペクトル強度パタンを複数の周波数
帯域に区分する手段と、各周波数帯域毎に音源波形のス
ペクトル強度パタンの凹凸の程度を表す評価値を求める
手段と、求まった複数の周波数帯域における評価値と、
予め学習により得たデータとから話者を認識する手段と
を具備することを特徴とする。
【0017】
【発明の実施の形態】本発明では音声の発声に伴う声帯
の振動波形である音源波形のスペクトル特徴を用いて話
者認識を行うので、先ず、その原理を説明する。
【0018】図5及び図6に示すように、同一話者の音
源波形のスペクトル強度パタンの構造は発声内容に依存
せずほぼ一定の形状をしており、且つ、その調波構造は
話者(図5では(a)〜(d)の男性4名、図6では
(a)〜(e)の女性5名)により異なる。この性質を
利用して、話者認識における特徴パタン間の距離に調波
構造の違いを反映させるため、音源波形のスペクトル強
度パタンを複数の周波数帯域に分割し、各周波数帯域内
でのスペクトル強度パタンの凹凸の大きさを数値化した
値(評価値)を特徴パタンとして用いる。
【0019】ここで、音源波形のスペクトル強度パタン
の算出としては、図7に示すように、音声波形のスペク
トルパタンS(ω)が音源波形のスペクトル強度パタン
(図示せず)と調音器官の伝達特性A(ω)の積で表さ
れることから、音声波形の線形予測分析により調音器官
の伝達特性を除去する逆フィルタを設定し、この逆フィ
ルタに音声波形を通すことにより実現できる。或いは、
音声波形のケプストラム分析により高次ケプストラム係
数を求め、求まった高次ケプストラム係数を高速フーリ
エ変換することによっても実現できる。
【0020】以下、本発明の実施例を、図1〜図3を参
照して説明する。
【0021】図1は本発明を適用した話者認識装置の実
施例全体を示し、特徴抽出部10又は20と、切替部3
0と、ベクトル量子化部31と、特徴記憶部32と、パ
ターン間距離計算部33と、認識判定部34からなる。
なお、本実施例では、後述するように、一層の精度向上
のため、音源波形のスペクトル強度パタンを複数の周波
数帯域に区分して求まる帯域毎の評価値を用いた話者認
識と、従来のケプストラム係数を用いた話者認識とを併
用して、話者認識を行うものとしている。
【0022】詳細は後述するが、特徴抽出部10は図2
に示すように、フレーム化処理部11と、逆フィルタ部
12と、線形予測分析部13と、FFT(高速フーリエ
変換)を用いた周波数分析部14と、周波数帯域分割用
のフィルタバンク部15と、評価値算出用の調波構造解
析部16と、LPCケプストラム係数計算部18からな
る。特徴抽出部20は図3に示すように、フレーム化処
理部11と、ケプストラム分析部21と、FFT部22
と、周波数帯域分割用のフィルタバンク部15と、評価
値算出用の調波構造解析部16からなる。
【0023】特徴抽出部10又は20は、音声波形を連
続する例えば20ms程度の区間に切り出し、これから
音源波形の短時間スペクトル強度パタンを得て、同音源
波形のスペクトル強度パタンを複数の周波数帯域に区分
し、、各周波数帯域毎に音源波形のスペクトル強度パタ
ンの凹凸の程度を表す評価値17を求め、これを特徴パ
タンとして5〜20ms程度毎にベクトル量子化部31
またはパターン間距離計算部33に送出する。また、特
徴抽出部10又は20は、従来と同様、入力音声を連続
する例えば20ms程度の区間に切り出して短時間スペ
クトル分析することにより得られる音声の短時間スペク
トル強度を、従来のスペクトル特徴パタン19として、
5〜20ms程度毎にベクトル量子化部31またはパタ
ーン間距離計算部33に送出する。切替部30は評価値
17及びスペクトル特徴パタン19を、学習時にはベク
トル量子化部31に、認識時にはパターン間距離計算部
33に与える。
【0024】学習時は、ベクトル量子化部31で、周波
数帯域毎の音源波形のスペクトル強度パタンの評価値1
7及び従来のスペクトル特徴パタン19それぞれを、一
人毎に、学習音声全体に渡り一旦蓄積した後、蓄積され
た評価値17の集合からLBGアルゴリズム等を用いて
100個程度の符号帳(コードブック)を作成し、ま
た、蓄積されたスペクトル特徴パタン19の集合からL
BGアルゴリズム等を用いて100個程度の符号帳(コ
ードブック)を作成する。作成された符号帳は、話者の
特徴として、話者毎に特徴記憶部32に蓄積される。
【0025】認識時は、未知話者の発声から、学習時と
同様に特徴抽出部10は又は20において周波数帯域毎
の音源波形のスペクトル強度パタンの評価値17及び従
来の短時間のスペクトル特徴パタン19が計算される。
これら音源波形のスペクトル強度パタンの評価値17及
びスペクトル特徴パタン19が、パタン間距離計算部3
3において、上述の手順により作成された話者毎の符号
帳を用いて量子化され、且つ、全ての符号帳に関して量
子化に伴い生じた歪みがパタン間距離として計算され、
認識判定部34に送られる。
【0026】認識判定部34では、歪みが最も少ない符
号帳に対応する話者を認識結果として出力する。例え
ば、周波数帯域毎の音源波形のスペクトル強度パタンの
評価値17に関する量子化に伴い生じる歪みと、従来の
短時間のスペクトル特徴パタン19に関する量子化に伴
い生じる歪みとにそれぞれ係数を掛けて加算するという
線形和を用い、この線形和が最も少ない符号帳に対応す
る話者を認識結果として出力する。
【0027】次に、図2を参照して、特徴抽出部10を
説明する。特徴抽出部10では、フレーム化処理部11
により入力音声を例えば20ms程度の長さの区間に切
り出し、線形予測分析部13に与える。先ずは、従来と
同じく、線形予測分析部13は各区間の音声を線形予測
分析することにより全極有理スペクトル近似による調音
器官の伝達特性を求め、LPCケプストラム係数計算部
18に与える。LPCケプストラム係数計算部18は、
調音器官の伝達特性を対数化し逆フーリエ変換を行うこ
とに相当するLPCケプストラム計算処理により、同伝
達特性をケプストラム係数に変換し、スペクトル特徴パ
タン19として出力する。
【0028】更に、特徴抽出部10では、線形予測残差
を利用して音源波形のスペクトル強度パタンを得る。即
ち、線形予測分析部13での線形予測分析の結果得られ
る調音器官の伝達特性から、同伝達特性の逆特性を持つ
線形フィルタを逆フィルタ12として設定し、この逆フ
ィルタ12で入力音声波形をフィルタリングすることで
音源波形を生成する。得られた音源波形の周波数分析を
周波数分析部14で行い、音源波形のスペクトル強度パ
タンを得る。この音源波形のFFTを計算する時に、周
波数分解能を十分に確保するために、音源波形に零詰め
を行い、8000点程度またはそれ以上の分析点数で周
波数分析を行う。次いで、この音源波形のスペクトル強
度パタンをフィルタバンク15でn個の周波数帯域F1
〜Fnに分割し、調波構造分析部16に与える。調波構
造分析部16では、周波数帯域毎にスペクトル強度の凹
凸を表す評価値V1〜Vnを算出する。なお、フィルタ
バンク15はn個のフィルタからなり、1例として0〜
4KHzを8個のフィルタで500Hz毎の8個の周波
数帯域に分割するが、周波数帯域F1〜Fnは隣接する
もの同志一部重なっても良く、或いは、離れていても良
い。
【0029】調波構造分析部16では、或る周波数帯域
Fiでの評価値Viとして、与えられた周波数帯域Fi
におけるスペクトル強度の算術平均(或いは相加平均)
{Σf(ω)}/Nと幾何平均(或いは相乗平均){Π
f(ω)}1/N の比を計算することで実施した。但し、
f(ω)は周波数ωでのスペクトル強度を表し、Nは周
波数帯域Fi内のスペクトル数を表す。
【0030】更に具体的には、Vi={Πf(ω)}
1/N /[{Σf(ω)}/N]で評価値を計算した。こ
のようにすると、帯域内におけるスペクトル強度パタン
が完全にフラットならば算術平均と幾何平均が等しいた
め評価値は1となり、帯域内のスペクトル強度差が大き
い程、算術平均に較べて幾何平均が小さくなるので、評
価値が小さくなる。つまり、評価値が0〜1の間に収ま
り、結果が良い。
【0031】上記の実施例装置により、男女18名の話
者について発声内容独立型の話者認識を行った結果、従
来のケプストラム係数単独での話者認識に較べ、誤り率
が10%減少した。但し、入力音声のうちサンプリング
等のためにフィルタ処理が加えられる領域(一般的には
高域)はフィルタ処理により音源波形が損なわれていて
誤差の原因になるから、同領域に対応する評価値(具体
的には周波数帯域Fnでの評価値Vn)は話者認識に用
いなかった。
【0032】次に、図3を参照して、別の特徴抽出部2
0を説明する。特徴抽出部20では、フレーム化処理部
11により入力音声を例えば20ms程度の長さの区間
に切り出し、ケプストラム分析部21に与える。ケプス
トラム分析部21では、切り出された音声を高速フーリ
エ変換すると共にケプストラム分析してケプストラム係
数を求める。その内、例えば30次以下の低次のケプス
トラム係数を従来の短時間スペクトル特徴パタン19と
して出力するが、それより高次のケプストラム係数はF
FT部22に与える。
【0033】FFT部22では高次のケプストラム係数
に高速フーリエ変換を施す。すると、音源波形のスペク
トラム強度パタンが得られる。この音源波形のFFTを
計算する時も、周波数分解能を十分に確保するために、
音源波形に零詰めを行い、8000点程度またはそれ以
上の分析点数で周波数分析を行う。そして、この音源波
形のスペクトル強度パタンをフィルタバンク15でn個
の周波数帯域F1〜Fnに分割し、調波構造分析部16
に与える。調波構造分析部16では、図2の特徴抽出部
10と同様、周波数帯域毎にスペクトル強度の凹凸を表
す評価値V1〜Vnを算出する。
【0034】なお、評価値は周波数帯域毎のスペクトル
強度パタンの凹凸の程度を表すものであれば何でも良
く、例えば、或る周波数帯域Fiでの最大スペクトル強
度f(ω)maxと最小最大スペクトル強度f(ω)m
inとの差を、当該周波数帯域Fiでの評価値Viとす
ることも可能である。また、算術平均を幾何平均で除算
する方法により、例えば、Vi=[{Σf(ω)}/
N]/{Πf(ω)}1/N、或いは、Vi=[{(Σf
(ω))/N}/{Πf(ω)}1/N ]−1等としても
良い。
【0035】上記実施例では周波数帯域毎に求めた音源
波形のスペクトル強度パタンの凹凸の程度を表す評価値
を、従来法であるケプストラム係数と併用して話者認識
を行っているが、同評価値を単独で学習時はスペクトル
量子化部31に、認識時にはパタン間距離計算部33に
送って話者認識処理に用いても良い。あるいは、同評価
値を、ケプストラム係数以外の調音器官の伝達特性の短
時間スペクトルパタンと併用して話者認識を行っても良
い。
【0036】更に、上記実施例では有声音と無声音とを
区別していないが、有声音と無声音とで別々に音源波形
のスペクトル強度パタンを得て周波数帯域毎の音源波形
のスペクトル強度パタンの凹凸の程度を表す評価値を求
め、有声音と無声音別々の符号帳を作成して話者認識を
行っても良い。
【0037】また更に、本発明は、或る話者が特定グル
ープ内の誰であるかを認識するためだけでなく、或る話
者が特定グループ内の誰にも該当しないか否かの判定
と、該当する場合は誰であるかの判定とを含めた、いわ
ゆる認証或いは照合に用いることができる。後者の場合
は、電話に代表される通信ネットワーク上で個人が何ら
かのサービスを利用しようとする時、利用者が正当な者
であることを認証或いは照合するのに有用である。
【0038】
【発明の効果】以上説明したように、本発明によれば、
音韻の違いに影響されずに、話者認識を精度良く行うこ
とができる
【図面の簡単な説明】
【図1】本発明の一実施例に係る話者認識装置全体の構
成を示す図。
【図2】図1中の特徴抽出部10の構成例を示す図
【図3】図1中の特徴抽出部20の構成例を示す図
【図4】発声する音韻により調音器官の伝達特性が大き
く変動する様子を示す図。
【図5】男性話者の音源波形のスペクトル強度パタンの
例を示す図。
【図6】女性話者の音源波形のスペクトル強度パタンの
例を示す図。
【図7】音声波形における音源波形のスペクトル強度パ
タンと調音器官の伝達特性との関係を示す図。
【図8】従来の話者認識装置全体の構成を示す図。図。
【図9】図8中の特徴抽出部40の構成例を示す図。
【符号の説明】
10、20 特徴抽出部 11 フレーム化処理部 12 逆フィルタ部 13 線形予測分析部 14 周波数分析部 15 フィルタバンク部 16 調波構造解析部 17 評価値 18 LPCケプストラム係数計算部 19 ケプストラム係数 21 ケプストラム分析部 22 FFT部 30 切替部 31 ベクトル量子化部 32 特徴記憶部 33 パタン間距離計算部 34 認識判定部

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 音声波形から音源波形のスペクトル強度
    パタンを得ること、得られた音源波形のスペクトル強度
    パタンを複数の周波数帯域に区分すること、各周波数帯
    域毎に音源波形のスペクトル強度パタンの凹凸の程度を
    表す評価値を求めること、及び、求まった複数の周波数
    帯域における評価値と、予め学習により得たデータとか
    ら話者を認識することを特徴とする話者認識方法。
  2. 【請求項2】 前記話者の認識として、話者が特定個人
    であるか否かを認証することを特徴とする請求項1に記
    載の話者認識方法。
  3. 【請求項3】 音声波形の線形予測分析により調音器官
    の伝達特性を除去する逆フィルタを設定し、この逆フィ
    ルタに音声波形を通して音源波形を求め、求まった音源
    波形の周波数分析により、前記音源波形のスペクトル強
    度パタンを得ることを特徴とする請求項1または請求項
    2に記載の話者認識方法。
  4. 【請求項4】 音声波形のケプストラム分析により高次
    ケプストラム係数を求め、求まった高次ケプストラム係
    数のフーリエ変換により、前記音源波形のスペクトル強
    度パタンを得ることを特徴とする請求項1または請求項
    2に記載の話者認識方法。
  5. 【請求項5】 音声波形から音源波形のスペクトル強度
    パタンを得る手段と、得られた音源波形のスペクトル強
    度パタンを複数の周波数帯域に区分する手段と、各周波
    数帯域毎に音源波形のスペクトル強度パタンの凹凸の程
    度を表す評価値を求める手段と、求まった複数の周波数
    帯域における評価値と、予め学習により得たデータとか
    ら話者を認識する手段とを具備することを特徴とする話
    者認識装置。
JP8251243A 1996-09-24 1996-09-24 話者認識方法及び装置 Withdrawn JPH1097274A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8251243A JPH1097274A (ja) 1996-09-24 1996-09-24 話者認識方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8251243A JPH1097274A (ja) 1996-09-24 1996-09-24 話者認識方法及び装置

Publications (1)

Publication Number Publication Date
JPH1097274A true JPH1097274A (ja) 1998-04-14

Family

ID=17219868

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8251243A Withdrawn JPH1097274A (ja) 1996-09-24 1996-09-24 話者認識方法及び装置

Country Status (1)

Country Link
JP (1) JPH1097274A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002221991A (ja) * 2001-01-29 2002-08-09 Animo:Kk データ照合システム及び方法
WO2005119654A1 (ja) * 2004-06-01 2005-12-15 Toshiba Tec Kabushiki Kaisha 話者認識装置、プログラム及び話者認識方法
JP2007279743A (ja) * 2006-04-06 2007-10-25 Toshiba Corp 話者認証登録及び確認方法並びに装置
US7831424B2 (en) 2006-07-07 2010-11-09 International Business Machines Corporation Target specific data filter to speed processing
JP4734771B2 (ja) * 2001-06-12 2011-07-27 ソニー株式会社 情報抽出装置及び方法
US8045418B2 (en) 2006-03-29 2011-10-25 Kabushiki Kaisha Toshiba Position detecting device, autonomous mobile device, method, and computer program product
KR20190092379A (ko) * 2016-12-29 2019-08-07 삼성전자주식회사 공진기를 이용한 화자 인식 방법 및 장치

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002221991A (ja) * 2001-01-29 2002-08-09 Animo:Kk データ照合システム及び方法
JP4734771B2 (ja) * 2001-06-12 2011-07-27 ソニー株式会社 情報抽出装置及び方法
WO2005119654A1 (ja) * 2004-06-01 2005-12-15 Toshiba Tec Kabushiki Kaisha 話者認識装置、プログラム及び話者認識方法
US8045418B2 (en) 2006-03-29 2011-10-25 Kabushiki Kaisha Toshiba Position detecting device, autonomous mobile device, method, and computer program product
JP2007279743A (ja) * 2006-04-06 2007-10-25 Toshiba Corp 話者認証登録及び確認方法並びに装置
US7831424B2 (en) 2006-07-07 2010-11-09 International Business Machines Corporation Target specific data filter to speed processing
KR20190092379A (ko) * 2016-12-29 2019-08-07 삼성전자주식회사 공진기를 이용한 화자 인식 방법 및 장치
JP2020504329A (ja) * 2016-12-29 2020-02-06 サムスン エレクトロニクス カンパニー リミテッド 共振器を利用した話者認識方法及びその装置
US11341973B2 (en) 2016-12-29 2022-05-24 Samsung Electronics Co., Ltd. Method and apparatus for recognizing speaker by using a resonator
US11887606B2 (en) 2016-12-29 2024-01-30 Samsung Electronics Co., Ltd. Method and apparatus for recognizing speaker by using a resonator

Similar Documents

Publication Publication Date Title
Tiwari MFCC and its applications in speaker recognition
US8401861B2 (en) Generating a frequency warping function based on phoneme and context
JP4802135B2 (ja) 話者認証登録及び確認方法並びに装置
RU2419890C1 (ru) Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания
JP4624552B2 (ja) 狭帯域言語信号からの広帯域言語合成
TW514867B (en) Method and apparatus for constructing voice templates for a speaker-independent voice recognition system
US20080059156A1 (en) Method and apparatus for processing speech data
Farrús et al. Using jitter and shimmer in speaker verification
Hunt et al. Speaker dependent and independent speech recognition experiments with an auditory model
CN102543073A (zh) 一种沪语语音识别信息处理方法
US20010010039A1 (en) Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector
US20020065649A1 (en) Mel-frequency linear prediction speech recognition apparatus and method
JPH1097274A (ja) 話者認識方法及び装置
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
Koolagudi et al. Spectral features for emotion classification
Singh et al. A comparative study on feature extraction techniques for language identification
Jagtap et al. Speaker verification using Gaussian mixture model
Pati et al. Non-parametric vector quantization of excitation source information for speaker recognition
Siafarikas et al. Objective wavelet packet features for speaker verification.
Chaudhari et al. Effect of varying MFCC filters for speaker recognition
Chakraborty et al. An automatic speaker recognition system
Yathigiri et al. Voice transformation using pitch and spectral mapping
Ali et al. Low bit-rate speech codec based on a long-term harmonic plus noise model
Angadi et al. Text-Dependent Speaker Recognition System Using Symbolic Modelling of Voiceprint
KR102455709B1 (ko) 인공지능 기반 합성음성의 평가 자동화 방법 및 장치

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20031202