JP2003044077A - 音声特徴量抽出方法と装置及びプログラム - Google Patents

音声特徴量抽出方法と装置及びプログラム

Info

Publication number
JP2003044077A
JP2003044077A JP2001226230A JP2001226230A JP2003044077A JP 2003044077 A JP2003044077 A JP 2003044077A JP 2001226230 A JP2001226230 A JP 2001226230A JP 2001226230 A JP2001226230 A JP 2001226230A JP 2003044077 A JP2003044077 A JP 2003044077A
Authority
JP
Japan
Prior art keywords
feature amount
time
dimensional
frequency
cepstrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001226230A
Other languages
English (en)
Other versions
JP3699912B2 (ja
Inventor
Ko Amada
皇 天田
Masaru Sakai
優 酒井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2001226230A priority Critical patent/JP3699912B2/ja
Publication of JP2003044077A publication Critical patent/JP2003044077A/ja
Application granted granted Critical
Publication of JP3699912B2 publication Critical patent/JP3699912B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】音声スペクトルの動的特徴を的確に反映させた
音声特徴量を抽出する音声特徴量抽出装置を提供する。 【解決手段】入力音声信号をフレーム分割部11により
所定時間長に分割したフレーム毎に、周波数分析部12
により周波数分析を行ってスペクトル形状ベクトルを生
成した後、セグメント化部13によってスペクトル形状
ベクトルを時間方向に複数フレーム分連結して2次元行
列形状をなす時間−周波数セグメントを生成し、さらに
時間−周波数セグメントに対し2次元DCT部14でコ
サイン変換を施して2次元実数ケプストラムを生成し、
2次元実数ケプストラムの少なくとも一部の成分を音声
特徴量として出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識や話者認
識などで用いられる音声特徴量を抽出する音声特徴量抽
出方法と装置及び音声特徴量抽出をコンピュータに実行
させるためのプログラムに関する。
【0002】
【従来の技術】一般的に、音声認識では入力音声信号か
らその特徴を良く表す少数のパラメータ(音声特徴量と
いう)を抽出し、これを予め登録してあるモデルの特徴
量と照合して、最も近いモデルを認識結果とする方法が
とられる。この方法において音声特徴量の果たす役割は
重要であり、より少ないパラメータ数で精度良く音声の
特徴を表すようにするための様々な研究が行われてきて
いる。
【0003】音声特徴量として、近年ではMFCC(Mel
-Frequency Cepstrum Coefficient:メル周波数ケプスト
ラム係数)と呼ばれるパラメータがよく用いらる。MF
CCは、音声の時間波形をフーリエ変換して対数スペク
トルを生成し、これをメルスケールで複数の帯域に分割
し、帯域毎に窓関数を用いて平均値を算出し、その平均
値をDCT変換する、という手順によって得られる。
【0004】一方、音声特徴量の時間的な変化を表す動
的特徴(Δと称される)は、認識率の向上に効果的であ
ることが知られており、MFCCに動的特徴を組み合わ
せたMFCC−△MFCC混在型の音声特徴量が広く用
いられるようになってきている。
【0005】動的特徴の別の導入方法として、MFCC
のような音声特徴量を複数のフレームに渡って観測し、
各フレームの音声特徴量を連結して2次元行列状のパラ
メータ(セグメントと呼ぶ)を作成し、これをKL展開
などで次元圧縮して用いる方法が「セグメント統計量を
用いた隠れマルコフモデルによる音声認識」信学論、J7
9-DII,pp.2023〜,1996に記載されている。この方法に
よると、MFCCをセグメント化することでパラメータ
間の時間方向の相関が表現される。この相関が主要な成
分であれば、KL展開によって動的特徴が抽出される。
この方法は、MFCC−△MFCC混在型と異なり、統
計的な手法で動的特徴を抽出することから、音声特徴量
として必要な成分を無駄なく抽出できることが期待され
る。
【0006】
【発明が解決しようとする課題】MFCCをセグメント
化する方法では、MFCCの算出自体は入力音声信号の
フレームに対して行われるため、音声特徴量の抽出の段
階では動的特徴が考慮されていない。すなわち、MFC
Cのセグメント化により抽出される動的特徴は、フレー
ム単位で抽出されたパラメータ間の時間相関に限られて
しまい、その他の動的特徴は抽出されないという問題が
ある。
【0007】例えば、一部の子音などでは、時間−周波
数スペクトルはセグメントの前半と後半とでスペクトル
の形状やパワが2次元的に大きく変化する場合がある。
従って、入力音声信号のフレーム毎に音声特徴量を抽出
してそれらを結合する方法では、2次元的に変化する時
間−周波数スペクトルの特徴を十分に抽出できていると
は言えない。
【0008】より詳細に説明すると、一般的にMFCC
はパワを表す0次の項を使用しないことで、スペクトル
の凹凸の情報だけを表現する形式になっている。セグメ
ントの前半のフレームで音が小さく、後半にいくに従っ
て音が大きくなる場合などにおいては、通常のMFCC
ではスペクトルの形状だけが抽出され、パワの変化の情
報が落とされてしまう。
【0009】また、パラメータ数(MFCCの数)が増
加する問題と引き替えに0次の項を用いた場合、フレー
ム毎の平均のパワの変化を表すことはできても、パワの
大きな帯域が時間とともにどの様に変化しているか、す
なわち時間−周波数に対して斜めの移動のようなパワの
変化とスペクトル形状の変化が連動している動きを直接
表すことはできない。
【0010】本発明は、音声スペクトルの動的特徴を的
確に反映させた音声特徴量を抽出する音声特徴量抽出方
法及び装置を提供することを目的とする。
【0011】
【課題を解決するための手段】上記の課題を解決するた
め、本発明の一つの態様では入力音声信号を所定の時間
長を有するフレームに分割し、フレーム毎に周波数分析
を行ってスペクトルの形状を表すスペクトル形状ベクト
ルを生成した後、これらのスペクトル形状ベクトルを時
間方向に複数フレーム分連結することによって、2次元
行列形状をなす時間−周波数セグメントを生成する。こ
の時間−周波数セグメントに2次元コサイン変換を施し
て2次元実数ケプストラムを生成し、この2次元実数ケ
プストラムの少なくとも一部の成分を音声特徴量として
出力する。
【0012】このように2次元行列状の時間−周波数セ
グメントに直接2次元コサイン変換を適用することによ
り、セグメント内でパワやスペクトルの形状が関連して
変化する時間−周波数セグメントに対しても、その動的
特徴を詳細に表すことが可能となる。
【0013】本発明の他の態様によると、時間−周波数
セグメントの一部の周波数帯域を選択し、その帯域選択
された時間−周波数セグメントに対し2次元コサイン変
換を施して2次元実数ケプストラムを生成して、2次元
実数ケプストラムの少なくとも一部の成分を音声特徴量
として出力する。
【0014】このように帯域選択された時間−周波数セ
グメントに対して2次元コサイン変換を行うことで、特
定の帯域に雑音が重畳した場合などには、その帯域を避
けて音声認識を行うなどの応用が可能となる。
【0015】
【発明の実施の形態】(第1の実施形態)図1は、本発
明の第1の実施形態に係る音声特徴量抽出装置の構成を
示すブロック図である。本実施形態の音声特徴量抽出装
置は、入力端子10に入力される入力音声信号の音声特
徴量を抽出する装置であり、フレーム分割部11、周波
数分析部12、セグメント化部13、2次元DCT部1
4、及び必要に応じて設けられる低域選択部15を有す
る。音声特徴量20は、2次元DCT部14の出力また
は低域選択部15の出力から出力される。
【0016】フレーム分割部11は、入力音声信号を所
定の時間長を有するフレームに分割する。このフレーム
は周波数分析の単位であるため、分析フレームと称す
る。周波数分析部12は、分析フレームに対して周波数
分析を行うことによって、スペクトル形状をベクトル表
現したスペクトル形状ベクトルを生成する。セグメント
化部13は、スペクトル形状ベクトルを時間方向に複数
フレーム分連結する。こうして時間方向に連結されたス
ペクトル形状ベクトルの2次元行列状の集合を時間−周
波数セグメントという。2次元DCT部14は、時間−
周波数セグメントに対し2次元コサイン変換である2次
元DCTを施して、2次元実数ケプストラムを生成す
る。
【0017】次に、図2に示すフローチャート及び図3
〜図6を用いて本実施形態における音声特徴量抽出処理
の詳細な手順について述べる。入力端子10には、通常
8〜22kHz程度のサンプリング周波数でサンプリン
グされ、ディジタル化された入力音声信号が入力され
る。入力音声信号は、まずフレーム分割部11によって
所定の時間長のフレームに分割され、分析フレームが生
成される(ステップS21)。より具体的には、例えば
分析フレームの長さ(分析フレーム長)は10〜30m
sec程度であり、各分析フレームは5〜15msec
程度のシフト幅だけシフトして生成される。すなわち、
各分析フレームはシフト幅分ずつオーバラップして生成
され、シフト幅に相当する周期(フレーム周期)で出力
される。
【0018】図3に、この様子を示す。図3(a)に示
す入力音声信号に対して、フレーム分割部11により、
図3(b)に示すようにシフト幅だけオーバラップした
分析フレーム0,1,…,K−1が生成される。
【0019】フレーム分割部11によって生成された各
分析フレームは、フレーム周期で周波数分析部12に入
力され、ここでフレーム単位で周波数分析が行われるこ
とにより、スペクトル形状を表すスペクトル形状ベクト
ルが生成される(ステップS22)。このステップS2
2の処理を以下に具体的に説明する。
【0020】周波数分析部12では、まず時刻tでの分
析フレームSt(n)をフーリエ変換し、パワスペクト
ルXt(w)を求める。但し、n=0,…,N−1、w
=0,…,N/2であり、Nは1分析フレーム当たりの
サンプル数である。次に、パワスペクトルX(w)をメ
ルスケールやバークスケールに合わせて非一様にM個に
分割する。Mは15〜30程度である。パワスペクトル
X(w)を分割する前に、直流近辺や高域成分を削除す
る場合もある。メルスケールやバークスケールは、周波
数スケールの変換方法の一つであり、低域ほど周波数分
解能が高くなる人間の聴覚性質を近似しているため、音
声認識では広く用いられている。次に、M個に分割され
たパワスペクトルについて、各帯域毎に窓関数を用いて
平均値を一つずつ算出する。窓関数の窓形状としては、
矩形や三角窓を用いればよい。最後に、算出された平均
値の対数を求めることにより、図4に示すようなM次元
からなるスペクトル形状ベクトルYt(m);m=0,
…,M−1がフレーム周期で出力される。
【0021】こうして周波数分析部12によって生成さ
れたスペクトル形状スペクトルYt(m)は、セグメン
ト化部13によって連結され、2次元逆行列の時間−周
波数セグメントが生成される(ステップS23)。具体
的には、K個の分析フレームのスペクトル形状ベクトル
(Yt(m),Yt+1(m),…,Yt+K−1
(m))を連結することにより、図5に示すような2次
元行列状の時間−周波数セグメントZtが生成される。
時間−周波数セグメントZtのm行k列(m=0,…,
M−1;k=0,…,K−1)の成分は、Zt(m,
k)=Yt+k(m)と表される。Kは通常4〜8程度
であり、時間的に隣り合うセグメントでは、K個のフレ
ームのうち1フレーム分だけが異なる値となる。
【0022】このようにしてセグメント化部13により
生成された時間−周波数セグメントに対し、2次元DC
T部14によって2次元DCTが施され、例えば次式に
示す2次元実数ケプストラムCt(m,k)が生成され
る(ステップS24)。
【数1】
【0023】但し、Aは正規化の定数、PIは円周率で
ある。基本的には、こうして生成された2次元実数ケプ
ストラムCt(m,k)が音声特徴量として抽出され
る。ここで、従来の一般的な音声特徴量抽出方法と本実
施形態の音声特徴量抽出方法について、簡単な数式を用
いて比較を行う。従来の一般的な音声特徴量抽出方法で
は、入力音声信号をフレームに分割して周波数分析した
後、次式に示すように各分析フレームの周波数成分につ
いてケプストラム変換を行うことによって、音声特徴量
を求める。
【0024】
【数2】
【0025】ここで、Cは音声特徴量、Fはケプストラ
ム変換演算を表す。f0(ω),f1(ω),…,fM
(ω)は各分析フレームに対する周波数分析結果を表
し、スペクトル形状スペクトルに相当する。
【0026】これに対し、本実施形態では入力音声信号
をフレームに分割して周波数分析した後、次式に示すよ
うに各分析フレームの周波数成分をまとめてケプストラ
ム変換することによって、音声特徴量を求める。
【0027】次式となる。
【0028】
【数3】
【0029】式(3)は、式(1)を別の観点から書き
直したものに相当する。ところで、式(1)に示した2
次元実数ケプストラムCt(m,k)はM×K個の要素
からなり、例えばM=7,K=16の場合、要素数は1
12個と比較的大きな数になる。抽出される音声特徴量
を音声認識や話者認識などに用いる場合は、モデルの音
声特徴量との照合にかかる計算量を減らし、システムの
応答時間を短くするためにも、抽出される音声特徴量の
要素数は少ないことが望ましい。
【0030】そこで、音声認識における重要度や計算量
の削減のため、2次元実数ケプストラムCt(m,k)
を構成する112個の要素を全て音声特徴量として出力
するのではなく、必要な要素を所定の複数(D)個選ん
で音声特徴量とすることが考えられる。通常、D=30
程度が適当である。このため、本実施形態では必要に応
じて図1に示すように2次元DCT部14に後段に低域
選択部15が配置され、ここで2次元実数ケプストラム
Ct(m,k)の低域成分の要素のみが音声特徴量とし
て選択される(ステップS25)。
【0031】音声信号のスペクトル成分は一般的に滑ら
かであり、その時間変化も緩やかである。従って、時間
−周波数セグメントZt(m,k)に対して2次元DC
Tを施すことにより得られる2次元実数ケプストラムC
t(m,k)は、図6に示されるように細かい時間変化
を表す高域側の成分よりも、緩やかな時間変化を示す低
域側にそのパワーが集中する。
【0032】この点に着目して、低域選択部15では2
次元実数ケプストラムCt(m,k)の低域成分とし
て、Ct(m,k)の時間平均パワの大きい要素から順
にD個の要素、つまり斜線を施して示す領域を選択す
る。この選択方法は、選択した要素だけで近似した時間
−周波数セグメントと、元の時間−周波数セグメントと
の2乗誤差を最小化することに対応する。
【0033】このように本実施形態によれば、入力音声
信号の各周波数成分を周波数成分毎に複数フレーム分連
結して2次元行列形状をなす時間−周波数セグメントを
生成し、これらの時間−周波数セグメントに対して2次
元DCTを施すことで直接2次元実数ケプストラムを得
ることにより、音声の時間−周波数平面での平均的な音
声の特徴(静的特徴)のみならず、パワやスペクトルの
変化(動的特徴)をも2次元DCTによって一括して求
めることが可能となり、効率よく音声特徴量を抽出する
ことができる。
【0034】(第2の実施形態)次に、本発明の第2の
実施形態について説明する。図7は本実施形態に係る音
声特徴量抽出装置の構成を示すブロック図であり、図8
はその処理手順を示すフローチャートである。図1及び
図2と同一部分については同一符号を付して、説明を行
う。
【0035】本実施形態の音声特徴量抽出装置では、図
7に示されるように2次元DCT部14の後段に時間変
化成分抽出部16が設けられ、2次元実数ケプストラム
から時間変化成分のみを抽出して音声特徴量とする点が
第1の実施形態と異なっている。一方、処理手順を示す
図8のフローチャートにおいては、図2で説明した2次
元DCTステップS15の後に、時間変化成分抽出ステ
ップS26が追加されている。
【0036】2次元DCTは、KL展開などの統計的な
手法と異なり、各成分に物理的な意味がある。音声認識
に動的特徴が有効であることは、近年の研究において多
く報告されており、2次元実数ケプストラムから時間変
化成分を選択し、他の静的特徴と組み合わせることによ
り、音声認識や話者認識での認識率を大幅に改善するこ
とができる。
【0037】まず、2次元実数ケプストラムの物理的な
意味を説明する。図9は、2次元実数ケプストラムをそ
の物理的な意味に基づいてグループ分けした結果を示し
ている。図9中のAの部分(Ct(0,0))は、時間
−周波数セグメントZt(m,k)の平均パワを表す。
これは式(1)でm=0,k=0とおけば、コサインの
項が1となり、単純に音声セグメントの要素を足し合わ
せ、正規化係数を乗じる操作になっていることからも理
解できる。
【0038】次に、図9中のBの部分(Ct(0,
k);k=1,…,K−1)は、フレーム毎の平均パワ
を1次元DCTしたものになっており、言い換えればフ
レーム毎の平均パワが時間に対してどのような変化をし
ているかを表している。これも式(1)においてm=0
とおくことで、mに関するコサインの項が1になり、事
実上1次元DCTになることから理解できる。
【0039】次に、図9中のCの部分(Ct(m,
0);m=1,…,M−1)は、Kフレームからなるセ
グメンの平均的なケプストラムを表している。これも式
(1)においてk=0とおくことで、1次元DCTの式
になることが理解できる。また、式(1)は音声認識の
分野で多く用いられているMFCCの定義式と等価なも
のであり、Cの部分はMFCCに対応する音声特徴量で
あると言える。
【0040】最後に、図9中のDの部分(Ct(m,
k);m=1,…,M−1、k=1,…,K−1)は、
時間及び周波数が同時に変化する成分であり、時間−周
波数の変化を関連付けて表している成分と考えられる。
【0041】音声認識においては、音声特徴量の時間的
変化(動的特徴)が重要であることは既に述べた通りで
ある。本実施形態では、図9中のBとDの部分が時間変
化成分を有しているので、時間変化成分抽出部16は基
本的にBとDの部分を抽出する。これにより第1の実施
形態と比較して、入力音声信号の動的特徴をより効果的
に抽出できる。
【0042】M=7,K=16の場合、音声特徴量の時
間変化成分は6×16=96個存在する。計算量の都合
で重要な要素を選択する必要がある場合には、学習用の
音声に対して各成分の累計パワを求め、図6で説明した
と同様に大きいものからD個の要素を音声特徴量の時間
変化成分として抽出すればよい。すなわち、これらの時
間変化成分は第1の実施形態で述べた音声の性質によ
り、図10の斜線を施した領域の低域成分に集中するの
で、この領域に存在するD個の要素を時間変換成分抽出
部16によって抽出する。
【0043】このように本実施形態によれば、音声特徴
量として抽出される2次元実数ケプストラムの物理的な
意味に基づいて動的特徴のみを抽出することができ、よ
り柔軟に音声特徴量を抽出することが可能になる。この
結果、抽出された音声特徴量に基づき音声認識を行う場
合、認識率を大幅に改善できる。
【0044】(第3の実施形態)図11に、第3の実施
形態に係る音声特徴量抽出装置の構成を示す。図1と同
一部分に同一符号を付して説明すると、本実施形態では
セグメント化部13の後段に、時間−周波数セグメント
から特定の帯域を選択して帯域制限された複数組の時間
−周波数セグメントを生成する帯域選択部17と、帯域
選択された各組の時間−周波数セグメントに対してそれ
ぞれ2次元DCTの処理を施すための帯域毎に備えられ
た2次元DCT部14−1〜14−Nを有する2次元D
CTバンク18、及び2次元DCTバンク18からの各
組の時間−周波数セグメントに対する2次元DCT結果
を統合して一つの音響特徴量を構成する統合部19が配
置されている。
【0045】次に、本実施形態における処理手順につい
て述べる。セグメント化部13から時間−周波数セグメ
ントを出力するまでの処理は、第1の実施形態で述べた
手順と同一であるため、説明を省略する。時間−周波数
セグメントは、帯域選択部205で帯域選択される。帯
域選択の方法は種々考えられるが、最も単純には例えば
低域成分と高域成分の2つの帯域を選択する。すなわ
ち、図12に示すように時間−周波数セグメントの帯域
を2分割する。
【0046】帯域選択された時間−周波数セグメントは
2次元DCTバンク18に送られ、対応する2次元DC
T部によって2次元DCTが施されることにより、帯域
毎に第1の実施形態と同様にして2次元実数ケプストラ
ムが生成される。
【0047】統合部19では、2次元DCTバンク18
より入力された帯域毎の2次元実数ケプストラムから各
要素の取捨選択を行い、音声特徴量を出力する。音声特
徴量は通常1組であるが、複数組の音声認識装置を用い
る方式に対応するために、複数組の音声特徴量を出力す
る場合もある。本実施形態のように時間−周波数セグメ
ントについて帯域選択を行い、帯域毎に2次元DCTを
行うことにより、以下に列挙する利点が得られる。
【0048】第一の利点としては、背景雑音がある特定
の周波数に重畳した場合は、その周波数の含まれる帯域
を音声特徴量の抽出に用いず、それ以外の帯域で音声特
徴量を抽出することにより、音声認識や話者認識におけ
る認識率を高くできる点である。帯域選択を行わない場
合、式(1)から明らかなように全てのDCT成分に背
景雑音が混入してしまう。すなわち、i0番目の帯域に
大きな背景雑音が加わると、i0番目の帯域の時間−周
波数セグメントZt(i0,k)は雑音で潰れた成分と
なり、2次元実数ケプストラムCt(m,k)は、m,
kの組合せに関わらずZt(i0,k)を含む結果、背
景雑音の影響が全てのCt(m,k)に広がってしま
う。これに対し、帯域選択を行えば、Zt(i0,k)
が含まれている帯域は雑音の影響を受けるが、含まれて
いない帯域は影響を受けずに済む。その結果、雑音の影
響を受けていない帯域の時間−周波数セグメントを手が
かり音声認識を行うことができ、雑音による認識率の劣
化を抑えることができる。
【0049】第二の利点として、帯域選択を行った場
合、2次元実数ケプストラムを選択するときに、帯域毎
に選択する個数を自由に調節できる点が挙げられる。重
畳する雑音の種類や、音声そのものの特性などに基づい
て、各帯域から取り出す要素の個数を最適化すること
で、音声認識や話者認識における認識率を上げることが
できる。
【0050】第三の利点としては、全帯域の周波数−時
間セグメントを使う場合に比べて2次元DCTに必要と
される計算量が下がる点が挙げられる。時間−周波数セ
グメントの分割帯域数(周波数方向)がMで、フレーム
数(時間方向)がKの場合、全帯域の周波数−時間セグ
メントについて2次元DCT成分を求めるには、(M×
K)に比例した計算量を必要とするのに対して、帯域
方向にN等分した場合、N×(M/(N×K))
(M×K)/Nに比例した計算量になり、帯域をN分
割することにより、計算量を1/Nにすることができ
る。
【0051】本発明によると、上述した音声特徴量抽出
の処理をコンピュータによって実行することも可能であ
り、以下のプログラムあるいはそれを記憶した記憶媒体
を提供することができる。
【0052】(1)入力音声信号の特徴量を表す音声特
徴量を抽出する処理をコンピュータにより実行させるた
めのプログラムであって、入力音声信号を所定の時間長
を有するフレームに分割する処理と、フレーム毎に周波
数分析を行い、スペクトルの形状を表すスペクトル形状
ベクトルを生成する処理と、スペクトル形状ベクトルを
時間方向に複数フレーム分連結して、2次元行列形状を
なす時間−周波数セグメントを生成する処理と、時間−
周波数セグメントに対し2次元コサイン変換を施して2
次元実数ケプストラムを生成する処理と、生成された前
記2次元実数ケプストラムの少なくとも一部の成分を音
声特徴量として出力する処理とをコンピュータに実行さ
せるためのプログラム。
【0053】(2)入力音声信号の特徴量を表す音声特
徴量を抽出する処理をコンピュータにより実行させるた
めのプログラムであって、入力音声信号を所定の時間長
を有するフレームに分割する処理と、フレーム毎に周波
数分析を行い、スペクトルの形状を表すスペクトル形状
ベクトルを生成する処理と、スペクトル形状ベクトルを
時間方向に複数フレーム分連結して、2次元行列形状を
なす時間−周波数セグメントを生成する処理と、時間−
周波数セグメントの一部の周波数帯域を選択する処理
と、帯域選択された時間−周波数セグメントに対し2次
元コサイン変換を施して2次元実数ケプストラムを生成
する処理と、生成された前記2次元実数ケプストラムの
少なくとも一部の成分を音声特徴量として出力する処理
とコンピュータに実行させるためのプログラム。
【0054】ここで、2次元実数ケプストラムの少なく
とも一部の成分を音声特徴量として出力する処理は、2
次元実数ケプストラムの低次成分を音声特徴量として出
力する処理であってもよいし、2次元実数ケプストラム
の時間変化成分のみを音特徴量として出力する処理であ
ってもよい。
【0055】
【発明の効果】以上説明したように、本発明によると時
間−周波数スペクトルに現われる音声の静的特徴と動的
特徴を一括して抽出することにより、少ないパラメータ
数で効率良く音声特徴量を抽出することができる。
【0056】また、2次元DCTなどのコサイン変換に
よって生成される2次元実数ケプストラムの物理的な意
味に基づいて、動的特徴のみを取り出すことも可能とな
る。
【0057】さらに、時間−周波数セグメントを帯域分
割して所望の帯域のみを選択し、選択された帯域の時間
−周波数セグメントのみを用いることにより、コサイン
変換に必要とされる計算量を下げるばかりでなく、雑音
耐性に優れ、要素選択の自由度を活用して、認識率のさ
らなる向上を図ることができる音声特徴量を抽出するこ
とが可能となる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る音声特徴量抽出
装置の構成を示すブロック図
【図2】同実施形態における音声特徴量抽出の処理手順
を示すフローチャート
【図3】同実施形態における入力音声信号とそのフレー
ム分割について説明する図
【図4】同実施形態におけるスペクトル形状スペクトル
の構成を示す図
【図5】同実施形態における時間−周波数セグメントの
構成を示す図
【図6】同実施形態における2次元実数ケプストラムの
構成及び低域選択部が選択する2次元実数ケプストラム
の領域について示す図
【図7】本発明の第2の実施形態に係る音声特徴量抽出
装置の構成を記すブロック図
【図8】同実施形態における音声特徴量抽出の処理手順
を示すフローチャート
【図9】2次元実数ケプストラムの物理的な意味につい
て説明する図
【図10】同実施形態における2次元実数ケプストラム
の構成及び時間変化成分抽出部部が抽出する2次元実数
ケプストラムの領域について示す図
【図11】本発明の第3の実施形態に係る音声特徴量抽
出装置の構成を示すブロック図
【図12】同実施形態における時間−周波数セグメント
の帯域分割について説明する図
【符号の説明】
10…入力端子 11…フレーム分割部 12…スペクトル形状分析部 13…セグメント化部 14…2次元DCT部 15…低域選択部 16…時間変化成分抽出部 17…帯域選択部 18…2次元DCTバンク 19…統合部

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】入力音声信号の特徴量を表す音声特徴量を
    抽出する方法において、 前記入力音声信号を所定の時間長を有するフレームに分
    割するステップと、 前記フレーム毎に周波数分析を行い、スペクトルの形状
    を表すスペクトル形状ベクトルを生成するステップと、 前記スペクトル形状ベクトルを時間方向に複数フレーム
    分連結して、2次元行列形状をなす時間−周波数セグメ
    ントを生成するステップと、 前記時間−周波数セグメントに対し2次元コサイン変換
    を施して2次元実数ケプストラムを生成するステップ
    と、 生成された前記2次元実数ケプストラムの少なくとも一
    部の成分を音声特徴量として出力するステップとを具備
    する音声特徴量抽出方法。
  2. 【請求項2】入力音声信号の特徴量を表す音声特徴量を
    抽出する方法において、 前記入力音声信号を所定の時間長を有するフレームに分
    割するステップと、 前記フレーム毎に周波数分析を行い、スペクトルの形状
    を表すスペクトル形状ベクトルを生成するステップと、 前記スペクトル形状ベクトルを時間方向に複数フレーム
    分連結して、2次元行列形状をなす時間−周波数セグメ
    ントを生成するステップと、 前記時間−周波数セグメントの一部の周波数帯域を選択
    するステップと、 帯域選択された時間−周波数セグメントに対し2次元コ
    サイン変換を施して2次元実数ケプストラムを生成する
    ステップと、 生成された前記2次元実数ケプストラムの少なくとも一
    部の成分を音声特徴量として出力するステップとを具備
    する音声特徴量抽出方法。
  3. 【請求項3】前記2次元実数ケプストラムの少なくとも
    一部の成分を音声特徴量として出力するステップは、前
    記2次元実数ケプストラムの低次成分を音声特徴量とし
    て出力する請求項1または2記載の音声特徴量抽出方
    法。
  4. 【請求項4】前記2次元実数ケプストラムの少なくとも
    一部の成分を音声特徴量として出力するステップは、前
    記2次元実数ケプストラムの時間変化成分のみを音特徴
    量として出力する請求項1乃至3のいずれか1項に記載
    の音声特徴量抽出方法。
  5. 【請求項5】入力音声信号の特徴量を表す音声特徴量を
    抽出する装置において、 前記入力音声信号を所定の時間長を有するフレームに分
    割するフレーム分割部と、 前記フレーム毎に周波数分析を行い、スペクトルの形状
    を表すスペクトル形状ベクトルを生成する周波数分析部
    と、 前記スペクトル形状ベクトルを時間方向に複数フレーム
    分連結して、2次元行列形状をなす時間−周波数セグメ
    ントを生成するセグメント化部と、 前記時間−周波数セグメントに対し2次元コサイン変換
    を施して2次元実数ケプストラムを生成する2次元コサ
    イン変換部と、 生成された前記2次元実数ケプストラムの少なくとも一
    部の成分を音声特徴量として出力する手段とを具備する
    音声特徴量抽出装置。
  6. 【請求項6】入力音声信号の特徴量を表す音声特徴量を
    抽出する装置において、 前記入力音声信号を所定の時間長を有するフレームに分
    割するフレーム分割部と、 前記フレーム毎に周波数分析を行い、周波数スペクトル
    の形状を表すスペクトル形状ベクトルを生成する周波数
    分析部と、 前記スペクトル形状ベクトルを時間方向に複数フレーム
    分連結して、2次元行列形状をなす時間−周波数セグメ
    ントを生成するセグメント化部と、 前記時間−周波数セグメントの一部の周波数帯域を選択
    する帯域選択部と、 帯域選択された時間−周波数セグメントに対し2次元コ
    サイン変換を施して2次元実数ケプストラムを生成する
    2次元コサイン変換部と、 生成された前記2次元実数ケプストラムの少なくとも一
    部の成分を音声特徴量として出力する手段とを具備する
    音声特徴量抽出装置。
  7. 【請求項7】入力音声信号の特徴量を表す音声特徴量を
    抽出する処理をコンピュータにより実行させるためのプ
    ログラムであって、 前記入力音声信号を所定の時間長を有するフレームに分
    割する処理と、 前記フレーム毎に周波数分析を行い、スペクトルの形状
    を表すスペクトル形状ベクトルを生成する処理と、 前記スペクトル形状ベクトルを時間方向に複数フレーム
    分連結して、2次元行列形状をなす時間−周波数セグメ
    ントを生成する処理と、 前記時間−周波数セグメントに対し2次元コサイン変換
    を施して2次元実数ケプストラムを生成する処理と、 生成された前記2次元実数ケプストラムの少なくとも一
    部の成分を音声特徴量として出力する処理とをコンピュ
    ータに実行させるためのプログラム。
  8. 【請求項8】入力音声信号の特徴量を表す音声特徴量を
    抽出する処理をコンピュータにより実行させるためのプ
    ログラムであって、 前記入力音声信号を所定の時間長を有するフレームに分
    割する処理と、 前記フレーム毎に周波数分析を行い、スペクトルの形状
    を表すスペクトル形状ベクトルを生成する処理と、 前記スペクトル形状ベクトルを時間方向に複数フレーム
    分連結して、2次元行列形状をなす時間−周波数セグメ
    ントを生成する処理と、 前記時間−周波数セグメントの一部の周波数帯域を選択
    する処理と、 帯域選択された時間−周波数セグメントに対し2次元コ
    サイン変換を施して2次元実数ケプストラムを生成する
    処理と、 生成された前記2次元実数ケプストラムの少なくとも一
    部の成分を音声特徴量として出力する処理とコンピュー
    タに実行させるためのプログラム。
JP2001226230A 2001-07-26 2001-07-26 音声特徴量抽出方法と装置及びプログラム Expired - Fee Related JP3699912B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001226230A JP3699912B2 (ja) 2001-07-26 2001-07-26 音声特徴量抽出方法と装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001226230A JP3699912B2 (ja) 2001-07-26 2001-07-26 音声特徴量抽出方法と装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2003044077A true JP2003044077A (ja) 2003-02-14
JP3699912B2 JP3699912B2 (ja) 2005-09-28

Family

ID=19059083

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001226230A Expired - Fee Related JP3699912B2 (ja) 2001-07-26 2001-07-26 音声特徴量抽出方法と装置及びプログラム

Country Status (1)

Country Link
JP (1) JP3699912B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005326862A (ja) * 2004-05-13 2005-11-24 Samsung Electronics Co Ltd 音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体
KR100712409B1 (ko) 2005-07-28 2007-04-27 한국전자통신연구원 벡터의 차원변환 방법
JP2007256689A (ja) * 2006-03-24 2007-10-04 Univ Waseda 音声の類似度の評価を行う方法および装置
JP2007256698A (ja) * 2006-03-24 2007-10-04 Univ Waseda 音声の類似度の評価を行う方法および装置
JP2009210593A (ja) * 2008-02-29 2009-09-17 Toshiba Corp 特徴量抽出装置、方法及びプログラム
CN101256768B (zh) * 2008-04-03 2011-03-30 清华大学 用于语种识别的时频二维倒谱特征提取方法
US9215350B2 (en) 2011-07-14 2015-12-15 Nec Corporation Sound processing method, sound processing system, video processing method, video processing system, sound processing device, and method and program for controlling same
CN111938649A (zh) * 2019-05-16 2020-11-17 医疗财团法人徐元智先生医药基金会亚东纪念医院 利用神经网络从鼾声来预测睡眠呼吸中止的方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005326862A (ja) * 2004-05-13 2005-11-24 Samsung Electronics Co Ltd 音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体
US8019600B2 (en) 2004-05-13 2011-09-13 Samsung Electronics Co., Ltd. Speech signal compression and/or decompression method, medium, and apparatus
KR100712409B1 (ko) 2005-07-28 2007-04-27 한국전자통신연구원 벡터의 차원변환 방법
JP2007256698A (ja) * 2006-03-24 2007-10-04 Univ Waseda 音声の類似度の評価を行う方法および装置
JP4490384B2 (ja) * 2006-03-24 2010-06-23 学校法人早稲田大学 音声の類似度の評価を行う方法および装置
JP4527679B2 (ja) * 2006-03-24 2010-08-18 学校法人早稲田大学 音声の類似度の評価を行う方法および装置
JP2007256689A (ja) * 2006-03-24 2007-10-04 Univ Waseda 音声の類似度の評価を行う方法および装置
JP2009210593A (ja) * 2008-02-29 2009-09-17 Toshiba Corp 特徴量抽出装置、方法及びプログラム
JP4599420B2 (ja) * 2008-02-29 2010-12-15 株式会社東芝 特徴量抽出装置
US8073686B2 (en) 2008-02-29 2011-12-06 Kabushiki Kaisha Toshiba Apparatus, method and computer program product for feature extraction
CN101256768B (zh) * 2008-04-03 2011-03-30 清华大学 用于语种识别的时频二维倒谱特征提取方法
US9215350B2 (en) 2011-07-14 2015-12-15 Nec Corporation Sound processing method, sound processing system, video processing method, video processing system, sound processing device, and method and program for controlling same
CN111938649A (zh) * 2019-05-16 2020-11-17 医疗财团法人徐元智先生医药基金会亚东纪念医院 利用神经网络从鼾声来预测睡眠呼吸中止的方法
JP2020185390A (ja) * 2019-05-16 2020-11-19 醫療財團法人徐元智先生醫藥基金會亞東紀念醫院 睡眠時無呼吸予測方法

Also Published As

Publication number Publication date
JP3699912B2 (ja) 2005-09-28

Similar Documents

Publication Publication Date Title
US7065487B2 (en) Speech recognition method, program and apparatus using multiple acoustic models
Zhu et al. Real-time signal estimation from modified short-time Fourier transform magnitude spectra
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
KR101266894B1 (ko) 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법
JP4958303B2 (ja) 雑音抑圧方法およびその装置
JP5551715B2 (ja) 信号の信号特性の変化を記載しているパラメータを得る装置、方法およびコンピュータプログラム
US8412526B2 (en) Restoration of high-order Mel frequency cepstral coefficients
JP6174856B2 (ja) 雑音抑制装置、その制御方法、及びプログラム
JP6966750B2 (ja) ブラインド信号分離のための方法、装置及び電子デバイス
KR20050049103A (ko) 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치
CN108369803A (zh) 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法
JP2003044077A (ja) 音声特徴量抽出方法と装置及びプログラム
US7305339B2 (en) Restoration of high-order Mel Frequency Cepstral Coefficients
JP2798003B2 (ja) 音声帯域拡大装置および音声帯域拡大方法
KR20050051435A (ko) 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법
CN113593604A (zh) 检测音频质量方法、装置及存储介质
JP2006215228A (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP6827908B2 (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
Hasan et al. An approach to voice conversion using feature statistical mapping
Prasanna Kumar et al. Supervised and unsupervised separation of convolutive speech mixtures using f 0 and formant frequencies
JP4249697B2 (ja) 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体
JP7276469B2 (ja) 波源方向推定装置、波源方向推定方法、およびプログラム
JP7304301B2 (ja) 音響診断方法、音響診断システム、及び音響診断プログラム
JP4362072B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP4313740B2 (ja) 残響除去方法、プログラムおよび記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050408

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050613

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050711

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090715

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090715

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100715

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110715

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees