JP2003044077A - 音声特徴量抽出方法と装置及びプログラム - Google Patents
音声特徴量抽出方法と装置及びプログラムInfo
- Publication number
- JP2003044077A JP2003044077A JP2001226230A JP2001226230A JP2003044077A JP 2003044077 A JP2003044077 A JP 2003044077A JP 2001226230 A JP2001226230 A JP 2001226230A JP 2001226230 A JP2001226230 A JP 2001226230A JP 2003044077 A JP2003044077 A JP 2003044077A
- Authority
- JP
- Japan
- Prior art keywords
- feature amount
- time
- dimensional
- frequency
- cepstrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
音声特徴量を抽出する音声特徴量抽出装置を提供する。 【解決手段】入力音声信号をフレーム分割部11により
所定時間長に分割したフレーム毎に、周波数分析部12
により周波数分析を行ってスペクトル形状ベクトルを生
成した後、セグメント化部13によってスペクトル形状
ベクトルを時間方向に複数フレーム分連結して2次元行
列形状をなす時間−周波数セグメントを生成し、さらに
時間−周波数セグメントに対し2次元DCT部14でコ
サイン変換を施して2次元実数ケプストラムを生成し、
2次元実数ケプストラムの少なくとも一部の成分を音声
特徴量として出力する。
Description
識などで用いられる音声特徴量を抽出する音声特徴量抽
出方法と装置及び音声特徴量抽出をコンピュータに実行
させるためのプログラムに関する。
らその特徴を良く表す少数のパラメータ(音声特徴量と
いう)を抽出し、これを予め登録してあるモデルの特徴
量と照合して、最も近いモデルを認識結果とする方法が
とられる。この方法において音声特徴量の果たす役割は
重要であり、より少ないパラメータ数で精度良く音声の
特徴を表すようにするための様々な研究が行われてきて
いる。
-Frequency Cepstrum Coefficient:メル周波数ケプスト
ラム係数)と呼ばれるパラメータがよく用いらる。MF
CCは、音声の時間波形をフーリエ変換して対数スペク
トルを生成し、これをメルスケールで複数の帯域に分割
し、帯域毎に窓関数を用いて平均値を算出し、その平均
値をDCT変換する、という手順によって得られる。
的特徴(Δと称される)は、認識率の向上に効果的であ
ることが知られており、MFCCに動的特徴を組み合わ
せたMFCC−△MFCC混在型の音声特徴量が広く用
いられるようになってきている。
のような音声特徴量を複数のフレームに渡って観測し、
各フレームの音声特徴量を連結して2次元行列状のパラ
メータ(セグメントと呼ぶ)を作成し、これをKL展開
などで次元圧縮して用いる方法が「セグメント統計量を
用いた隠れマルコフモデルによる音声認識」信学論、J7
9-DII,pp.2023〜,1996に記載されている。この方法に
よると、MFCCをセグメント化することでパラメータ
間の時間方向の相関が表現される。この相関が主要な成
分であれば、KL展開によって動的特徴が抽出される。
この方法は、MFCC−△MFCC混在型と異なり、統
計的な手法で動的特徴を抽出することから、音声特徴量
として必要な成分を無駄なく抽出できることが期待され
る。
化する方法では、MFCCの算出自体は入力音声信号の
フレームに対して行われるため、音声特徴量の抽出の段
階では動的特徴が考慮されていない。すなわち、MFC
Cのセグメント化により抽出される動的特徴は、フレー
ム単位で抽出されたパラメータ間の時間相関に限られて
しまい、その他の動的特徴は抽出されないという問題が
ある。
数スペクトルはセグメントの前半と後半とでスペクトル
の形状やパワが2次元的に大きく変化する場合がある。
従って、入力音声信号のフレーム毎に音声特徴量を抽出
してそれらを結合する方法では、2次元的に変化する時
間−周波数スペクトルの特徴を十分に抽出できていると
は言えない。
はパワを表す0次の項を使用しないことで、スペクトル
の凹凸の情報だけを表現する形式になっている。セグメ
ントの前半のフレームで音が小さく、後半にいくに従っ
て音が大きくなる場合などにおいては、通常のMFCC
ではスペクトルの形状だけが抽出され、パワの変化の情
報が落とされてしまう。
加する問題と引き替えに0次の項を用いた場合、フレー
ム毎の平均のパワの変化を表すことはできても、パワの
大きな帯域が時間とともにどの様に変化しているか、す
なわち時間−周波数に対して斜めの移動のようなパワの
変化とスペクトル形状の変化が連動している動きを直接
表すことはできない。
確に反映させた音声特徴量を抽出する音声特徴量抽出方
法及び装置を提供することを目的とする。
め、本発明の一つの態様では入力音声信号を所定の時間
長を有するフレームに分割し、フレーム毎に周波数分析
を行ってスペクトルの形状を表すスペクトル形状ベクト
ルを生成した後、これらのスペクトル形状ベクトルを時
間方向に複数フレーム分連結することによって、2次元
行列形状をなす時間−周波数セグメントを生成する。こ
の時間−周波数セグメントに2次元コサイン変換を施し
て2次元実数ケプストラムを生成し、この2次元実数ケ
プストラムの少なくとも一部の成分を音声特徴量として
出力する。
グメントに直接2次元コサイン変換を適用することによ
り、セグメント内でパワやスペクトルの形状が関連して
変化する時間−周波数セグメントに対しても、その動的
特徴を詳細に表すことが可能となる。
セグメントの一部の周波数帯域を選択し、その帯域選択
された時間−周波数セグメントに対し2次元コサイン変
換を施して2次元実数ケプストラムを生成して、2次元
実数ケプストラムの少なくとも一部の成分を音声特徴量
として出力する。
グメントに対して2次元コサイン変換を行うことで、特
定の帯域に雑音が重畳した場合などには、その帯域を避
けて音声認識を行うなどの応用が可能となる。
明の第1の実施形態に係る音声特徴量抽出装置の構成を
示すブロック図である。本実施形態の音声特徴量抽出装
置は、入力端子10に入力される入力音声信号の音声特
徴量を抽出する装置であり、フレーム分割部11、周波
数分析部12、セグメント化部13、2次元DCT部1
4、及び必要に応じて設けられる低域選択部15を有す
る。音声特徴量20は、2次元DCT部14の出力また
は低域選択部15の出力から出力される。
定の時間長を有するフレームに分割する。このフレーム
は周波数分析の単位であるため、分析フレームと称す
る。周波数分析部12は、分析フレームに対して周波数
分析を行うことによって、スペクトル形状をベクトル表
現したスペクトル形状ベクトルを生成する。セグメント
化部13は、スペクトル形状ベクトルを時間方向に複数
フレーム分連結する。こうして時間方向に連結されたス
ペクトル形状ベクトルの2次元行列状の集合を時間−周
波数セグメントという。2次元DCT部14は、時間−
周波数セグメントに対し2次元コサイン変換である2次
元DCTを施して、2次元実数ケプストラムを生成す
る。
〜図6を用いて本実施形態における音声特徴量抽出処理
の詳細な手順について述べる。入力端子10には、通常
8〜22kHz程度のサンプリング周波数でサンプリン
グされ、ディジタル化された入力音声信号が入力され
る。入力音声信号は、まずフレーム分割部11によって
所定の時間長のフレームに分割され、分析フレームが生
成される(ステップS21)。より具体的には、例えば
分析フレームの長さ(分析フレーム長)は10〜30m
sec程度であり、各分析フレームは5〜15msec
程度のシフト幅だけシフトして生成される。すなわち、
各分析フレームはシフト幅分ずつオーバラップして生成
され、シフト幅に相当する周期(フレーム周期)で出力
される。
す入力音声信号に対して、フレーム分割部11により、
図3(b)に示すようにシフト幅だけオーバラップした
分析フレーム0,1,…,K−1が生成される。
分析フレームは、フレーム周期で周波数分析部12に入
力され、ここでフレーム単位で周波数分析が行われるこ
とにより、スペクトル形状を表すスペクトル形状ベクト
ルが生成される(ステップS22)。このステップS2
2の処理を以下に具体的に説明する。
析フレームSt(n)をフーリエ変換し、パワスペクト
ルXt(w)を求める。但し、n=0,…,N−1、w
=0,…,N/2であり、Nは1分析フレーム当たりの
サンプル数である。次に、パワスペクトルX(w)をメ
ルスケールやバークスケールに合わせて非一様にM個に
分割する。Mは15〜30程度である。パワスペクトル
X(w)を分割する前に、直流近辺や高域成分を削除す
る場合もある。メルスケールやバークスケールは、周波
数スケールの変換方法の一つであり、低域ほど周波数分
解能が高くなる人間の聴覚性質を近似しているため、音
声認識では広く用いられている。次に、M個に分割され
たパワスペクトルについて、各帯域毎に窓関数を用いて
平均値を一つずつ算出する。窓関数の窓形状としては、
矩形や三角窓を用いればよい。最後に、算出された平均
値の対数を求めることにより、図4に示すようなM次元
からなるスペクトル形状ベクトルYt(m);m=0,
…,M−1がフレーム周期で出力される。
れたスペクトル形状スペクトルYt(m)は、セグメン
ト化部13によって連結され、2次元逆行列の時間−周
波数セグメントが生成される(ステップS23)。具体
的には、K個の分析フレームのスペクトル形状ベクトル
(Yt(m),Yt+1(m),…,Yt+K−1
(m))を連結することにより、図5に示すような2次
元行列状の時間−周波数セグメントZtが生成される。
時間−周波数セグメントZtのm行k列(m=0,…,
M−1;k=0,…,K−1)の成分は、Zt(m,
k)=Yt+k(m)と表される。Kは通常4〜8程度
であり、時間的に隣り合うセグメントでは、K個のフレ
ームのうち1フレーム分だけが異なる値となる。
生成された時間−周波数セグメントに対し、2次元DC
T部14によって2次元DCTが施され、例えば次式に
示す2次元実数ケプストラムCt(m,k)が生成され
る(ステップS24)。
ある。基本的には、こうして生成された2次元実数ケプ
ストラムCt(m,k)が音声特徴量として抽出され
る。ここで、従来の一般的な音声特徴量抽出方法と本実
施形態の音声特徴量抽出方法について、簡単な数式を用
いて比較を行う。従来の一般的な音声特徴量抽出方法で
は、入力音声信号をフレームに分割して周波数分析した
後、次式に示すように各分析フレームの周波数成分につ
いてケプストラム変換を行うことによって、音声特徴量
を求める。
ム変換演算を表す。f0(ω),f1(ω),…,fM
(ω)は各分析フレームに対する周波数分析結果を表
し、スペクトル形状スペクトルに相当する。
をフレームに分割して周波数分析した後、次式に示すよ
うに各分析フレームの周波数成分をまとめてケプストラ
ム変換することによって、音声特徴量を求める。
直したものに相当する。ところで、式(1)に示した2
次元実数ケプストラムCt(m,k)はM×K個の要素
からなり、例えばM=7,K=16の場合、要素数は1
12個と比較的大きな数になる。抽出される音声特徴量
を音声認識や話者認識などに用いる場合は、モデルの音
声特徴量との照合にかかる計算量を減らし、システムの
応答時間を短くするためにも、抽出される音声特徴量の
要素数は少ないことが望ましい。
の削減のため、2次元実数ケプストラムCt(m,k)
を構成する112個の要素を全て音声特徴量として出力
するのではなく、必要な要素を所定の複数(D)個選ん
で音声特徴量とすることが考えられる。通常、D=30
程度が適当である。このため、本実施形態では必要に応
じて図1に示すように2次元DCT部14に後段に低域
選択部15が配置され、ここで2次元実数ケプストラム
Ct(m,k)の低域成分の要素のみが音声特徴量とし
て選択される(ステップS25)。
かであり、その時間変化も緩やかである。従って、時間
−周波数セグメントZt(m,k)に対して2次元DC
Tを施すことにより得られる2次元実数ケプストラムC
t(m,k)は、図6に示されるように細かい時間変化
を表す高域側の成分よりも、緩やかな時間変化を示す低
域側にそのパワーが集中する。
次元実数ケプストラムCt(m,k)の低域成分とし
て、Ct(m,k)の時間平均パワの大きい要素から順
にD個の要素、つまり斜線を施して示す領域を選択す
る。この選択方法は、選択した要素だけで近似した時間
−周波数セグメントと、元の時間−周波数セグメントと
の2乗誤差を最小化することに対応する。
信号の各周波数成分を周波数成分毎に複数フレーム分連
結して2次元行列形状をなす時間−周波数セグメントを
生成し、これらの時間−周波数セグメントに対して2次
元DCTを施すことで直接2次元実数ケプストラムを得
ることにより、音声の時間−周波数平面での平均的な音
声の特徴(静的特徴)のみならず、パワやスペクトルの
変化(動的特徴)をも2次元DCTによって一括して求
めることが可能となり、効率よく音声特徴量を抽出する
ことができる。
実施形態について説明する。図7は本実施形態に係る音
声特徴量抽出装置の構成を示すブロック図であり、図8
はその処理手順を示すフローチャートである。図1及び
図2と同一部分については同一符号を付して、説明を行
う。
7に示されるように2次元DCT部14の後段に時間変
化成分抽出部16が設けられ、2次元実数ケプストラム
から時間変化成分のみを抽出して音声特徴量とする点が
第1の実施形態と異なっている。一方、処理手順を示す
図8のフローチャートにおいては、図2で説明した2次
元DCTステップS15の後に、時間変化成分抽出ステ
ップS26が追加されている。
手法と異なり、各成分に物理的な意味がある。音声認識
に動的特徴が有効であることは、近年の研究において多
く報告されており、2次元実数ケプストラムから時間変
化成分を選択し、他の静的特徴と組み合わせることによ
り、音声認識や話者認識での認識率を大幅に改善するこ
とができる。
意味を説明する。図9は、2次元実数ケプストラムをそ
の物理的な意味に基づいてグループ分けした結果を示し
ている。図9中のAの部分(Ct(0,0))は、時間
−周波数セグメントZt(m,k)の平均パワを表す。
これは式(1)でm=0,k=0とおけば、コサインの
項が1となり、単純に音声セグメントの要素を足し合わ
せ、正規化係数を乗じる操作になっていることからも理
解できる。
k);k=1,…,K−1)は、フレーム毎の平均パワ
を1次元DCTしたものになっており、言い換えればフ
レーム毎の平均パワが時間に対してどのような変化をし
ているかを表している。これも式(1)においてm=0
とおくことで、mに関するコサインの項が1になり、事
実上1次元DCTになることから理解できる。
0);m=1,…,M−1)は、Kフレームからなるセ
グメンの平均的なケプストラムを表している。これも式
(1)においてk=0とおくことで、1次元DCTの式
になることが理解できる。また、式(1)は音声認識の
分野で多く用いられているMFCCの定義式と等価なも
のであり、Cの部分はMFCCに対応する音声特徴量で
あると言える。
k);m=1,…,M−1、k=1,…,K−1)は、
時間及び周波数が同時に変化する成分であり、時間−周
波数の変化を関連付けて表している成分と考えられる。
変化(動的特徴)が重要であることは既に述べた通りで
ある。本実施形態では、図9中のBとDの部分が時間変
化成分を有しているので、時間変化成分抽出部16は基
本的にBとDの部分を抽出する。これにより第1の実施
形態と比較して、入力音声信号の動的特徴をより効果的
に抽出できる。
間変化成分は6×16=96個存在する。計算量の都合
で重要な要素を選択する必要がある場合には、学習用の
音声に対して各成分の累計パワを求め、図6で説明した
と同様に大きいものからD個の要素を音声特徴量の時間
変化成分として抽出すればよい。すなわち、これらの時
間変化成分は第1の実施形態で述べた音声の性質によ
り、図10の斜線を施した領域の低域成分に集中するの
で、この領域に存在するD個の要素を時間変換成分抽出
部16によって抽出する。
量として抽出される2次元実数ケプストラムの物理的な
意味に基づいて動的特徴のみを抽出することができ、よ
り柔軟に音声特徴量を抽出することが可能になる。この
結果、抽出された音声特徴量に基づき音声認識を行う場
合、認識率を大幅に改善できる。
形態に係る音声特徴量抽出装置の構成を示す。図1と同
一部分に同一符号を付して説明すると、本実施形態では
セグメント化部13の後段に、時間−周波数セグメント
から特定の帯域を選択して帯域制限された複数組の時間
−周波数セグメントを生成する帯域選択部17と、帯域
選択された各組の時間−周波数セグメントに対してそれ
ぞれ2次元DCTの処理を施すための帯域毎に備えられ
た2次元DCT部14−1〜14−Nを有する2次元D
CTバンク18、及び2次元DCTバンク18からの各
組の時間−周波数セグメントに対する2次元DCT結果
を統合して一つの音響特徴量を構成する統合部19が配
置されている。
て述べる。セグメント化部13から時間−周波数セグメ
ントを出力するまでの処理は、第1の実施形態で述べた
手順と同一であるため、説明を省略する。時間−周波数
セグメントは、帯域選択部205で帯域選択される。帯
域選択の方法は種々考えられるが、最も単純には例えば
低域成分と高域成分の2つの帯域を選択する。すなわ
ち、図12に示すように時間−周波数セグメントの帯域
を2分割する。
2次元DCTバンク18に送られ、対応する2次元DC
T部によって2次元DCTが施されることにより、帯域
毎に第1の実施形態と同様にして2次元実数ケプストラ
ムが生成される。
より入力された帯域毎の2次元実数ケプストラムから各
要素の取捨選択を行い、音声特徴量を出力する。音声特
徴量は通常1組であるが、複数組の音声認識装置を用い
る方式に対応するために、複数組の音声特徴量を出力す
る場合もある。本実施形態のように時間−周波数セグメ
ントについて帯域選択を行い、帯域毎に2次元DCTを
行うことにより、以下に列挙する利点が得られる。
の周波数に重畳した場合は、その周波数の含まれる帯域
を音声特徴量の抽出に用いず、それ以外の帯域で音声特
徴量を抽出することにより、音声認識や話者認識におけ
る認識率を高くできる点である。帯域選択を行わない場
合、式(1)から明らかなように全てのDCT成分に背
景雑音が混入してしまう。すなわち、i0番目の帯域に
大きな背景雑音が加わると、i0番目の帯域の時間−周
波数セグメントZt(i0,k)は雑音で潰れた成分と
なり、2次元実数ケプストラムCt(m,k)は、m,
kの組合せに関わらずZt(i0,k)を含む結果、背
景雑音の影響が全てのCt(m,k)に広がってしま
う。これに対し、帯域選択を行えば、Zt(i0,k)
が含まれている帯域は雑音の影響を受けるが、含まれて
いない帯域は影響を受けずに済む。その結果、雑音の影
響を受けていない帯域の時間−周波数セグメントを手が
かり音声認識を行うことができ、雑音による認識率の劣
化を抑えることができる。
合、2次元実数ケプストラムを選択するときに、帯域毎
に選択する個数を自由に調節できる点が挙げられる。重
畳する雑音の種類や、音声そのものの特性などに基づい
て、各帯域から取り出す要素の個数を最適化すること
で、音声認識や話者認識における認識率を上げることが
できる。
間セグメントを使う場合に比べて2次元DCTに必要と
される計算量が下がる点が挙げられる。時間−周波数セ
グメントの分割帯域数(周波数方向)がMで、フレーム
数(時間方向)がKの場合、全帯域の周波数−時間セグ
メントについて2次元DCT成分を求めるには、(M×
K)2に比例した計算量を必要とするのに対して、帯域
方向にN等分した場合、N×(M/(N×K))2=
(M×K)2/Nに比例した計算量になり、帯域をN分
割することにより、計算量を1/Nにすることができ
る。
の処理をコンピュータによって実行することも可能であ
り、以下のプログラムあるいはそれを記憶した記憶媒体
を提供することができる。
徴量を抽出する処理をコンピュータにより実行させるた
めのプログラムであって、入力音声信号を所定の時間長
を有するフレームに分割する処理と、フレーム毎に周波
数分析を行い、スペクトルの形状を表すスペクトル形状
ベクトルを生成する処理と、スペクトル形状ベクトルを
時間方向に複数フレーム分連結して、2次元行列形状を
なす時間−周波数セグメントを生成する処理と、時間−
周波数セグメントに対し2次元コサイン変換を施して2
次元実数ケプストラムを生成する処理と、生成された前
記2次元実数ケプストラムの少なくとも一部の成分を音
声特徴量として出力する処理とをコンピュータに実行さ
せるためのプログラム。
徴量を抽出する処理をコンピュータにより実行させるた
めのプログラムであって、入力音声信号を所定の時間長
を有するフレームに分割する処理と、フレーム毎に周波
数分析を行い、スペクトルの形状を表すスペクトル形状
ベクトルを生成する処理と、スペクトル形状ベクトルを
時間方向に複数フレーム分連結して、2次元行列形状を
なす時間−周波数セグメントを生成する処理と、時間−
周波数セグメントの一部の周波数帯域を選択する処理
と、帯域選択された時間−周波数セグメントに対し2次
元コサイン変換を施して2次元実数ケプストラムを生成
する処理と、生成された前記2次元実数ケプストラムの
少なくとも一部の成分を音声特徴量として出力する処理
とコンピュータに実行させるためのプログラム。
とも一部の成分を音声特徴量として出力する処理は、2
次元実数ケプストラムの低次成分を音声特徴量として出
力する処理であってもよいし、2次元実数ケプストラム
の時間変化成分のみを音特徴量として出力する処理であ
ってもよい。
間−周波数スペクトルに現われる音声の静的特徴と動的
特徴を一括して抽出することにより、少ないパラメータ
数で効率良く音声特徴量を抽出することができる。
よって生成される2次元実数ケプストラムの物理的な意
味に基づいて、動的特徴のみを取り出すことも可能とな
る。
割して所望の帯域のみを選択し、選択された帯域の時間
−周波数セグメントのみを用いることにより、コサイン
変換に必要とされる計算量を下げるばかりでなく、雑音
耐性に優れ、要素選択の自由度を活用して、認識率のさ
らなる向上を図ることができる音声特徴量を抽出するこ
とが可能となる。
装置の構成を示すブロック図
を示すフローチャート
ム分割について説明する図
の構成を示す図
構成を示す図
構成及び低域選択部が選択する2次元実数ケプストラム
の領域について示す図
装置の構成を記すブロック図
を示すフローチャート
て説明する図
の構成及び時間変化成分抽出部部が抽出する2次元実数
ケプストラムの領域について示す図
出装置の構成を示すブロック図
の帯域分割について説明する図
Claims (8)
- 【請求項1】入力音声信号の特徴量を表す音声特徴量を
抽出する方法において、 前記入力音声信号を所定の時間長を有するフレームに分
割するステップと、 前記フレーム毎に周波数分析を行い、スペクトルの形状
を表すスペクトル形状ベクトルを生成するステップと、 前記スペクトル形状ベクトルを時間方向に複数フレーム
分連結して、2次元行列形状をなす時間−周波数セグメ
ントを生成するステップと、 前記時間−周波数セグメントに対し2次元コサイン変換
を施して2次元実数ケプストラムを生成するステップ
と、 生成された前記2次元実数ケプストラムの少なくとも一
部の成分を音声特徴量として出力するステップとを具備
する音声特徴量抽出方法。 - 【請求項2】入力音声信号の特徴量を表す音声特徴量を
抽出する方法において、 前記入力音声信号を所定の時間長を有するフレームに分
割するステップと、 前記フレーム毎に周波数分析を行い、スペクトルの形状
を表すスペクトル形状ベクトルを生成するステップと、 前記スペクトル形状ベクトルを時間方向に複数フレーム
分連結して、2次元行列形状をなす時間−周波数セグメ
ントを生成するステップと、 前記時間−周波数セグメントの一部の周波数帯域を選択
するステップと、 帯域選択された時間−周波数セグメントに対し2次元コ
サイン変換を施して2次元実数ケプストラムを生成する
ステップと、 生成された前記2次元実数ケプストラムの少なくとも一
部の成分を音声特徴量として出力するステップとを具備
する音声特徴量抽出方法。 - 【請求項3】前記2次元実数ケプストラムの少なくとも
一部の成分を音声特徴量として出力するステップは、前
記2次元実数ケプストラムの低次成分を音声特徴量とし
て出力する請求項1または2記載の音声特徴量抽出方
法。 - 【請求項4】前記2次元実数ケプストラムの少なくとも
一部の成分を音声特徴量として出力するステップは、前
記2次元実数ケプストラムの時間変化成分のみを音特徴
量として出力する請求項1乃至3のいずれか1項に記載
の音声特徴量抽出方法。 - 【請求項5】入力音声信号の特徴量を表す音声特徴量を
抽出する装置において、 前記入力音声信号を所定の時間長を有するフレームに分
割するフレーム分割部と、 前記フレーム毎に周波数分析を行い、スペクトルの形状
を表すスペクトル形状ベクトルを生成する周波数分析部
と、 前記スペクトル形状ベクトルを時間方向に複数フレーム
分連結して、2次元行列形状をなす時間−周波数セグメ
ントを生成するセグメント化部と、 前記時間−周波数セグメントに対し2次元コサイン変換
を施して2次元実数ケプストラムを生成する2次元コサ
イン変換部と、 生成された前記2次元実数ケプストラムの少なくとも一
部の成分を音声特徴量として出力する手段とを具備する
音声特徴量抽出装置。 - 【請求項6】入力音声信号の特徴量を表す音声特徴量を
抽出する装置において、 前記入力音声信号を所定の時間長を有するフレームに分
割するフレーム分割部と、 前記フレーム毎に周波数分析を行い、周波数スペクトル
の形状を表すスペクトル形状ベクトルを生成する周波数
分析部と、 前記スペクトル形状ベクトルを時間方向に複数フレーム
分連結して、2次元行列形状をなす時間−周波数セグメ
ントを生成するセグメント化部と、 前記時間−周波数セグメントの一部の周波数帯域を選択
する帯域選択部と、 帯域選択された時間−周波数セグメントに対し2次元コ
サイン変換を施して2次元実数ケプストラムを生成する
2次元コサイン変換部と、 生成された前記2次元実数ケプストラムの少なくとも一
部の成分を音声特徴量として出力する手段とを具備する
音声特徴量抽出装置。 - 【請求項7】入力音声信号の特徴量を表す音声特徴量を
抽出する処理をコンピュータにより実行させるためのプ
ログラムであって、 前記入力音声信号を所定の時間長を有するフレームに分
割する処理と、 前記フレーム毎に周波数分析を行い、スペクトルの形状
を表すスペクトル形状ベクトルを生成する処理と、 前記スペクトル形状ベクトルを時間方向に複数フレーム
分連結して、2次元行列形状をなす時間−周波数セグメ
ントを生成する処理と、 前記時間−周波数セグメントに対し2次元コサイン変換
を施して2次元実数ケプストラムを生成する処理と、 生成された前記2次元実数ケプストラムの少なくとも一
部の成分を音声特徴量として出力する処理とをコンピュ
ータに実行させるためのプログラム。 - 【請求項8】入力音声信号の特徴量を表す音声特徴量を
抽出する処理をコンピュータにより実行させるためのプ
ログラムであって、 前記入力音声信号を所定の時間長を有するフレームに分
割する処理と、 前記フレーム毎に周波数分析を行い、スペクトルの形状
を表すスペクトル形状ベクトルを生成する処理と、 前記スペクトル形状ベクトルを時間方向に複数フレーム
分連結して、2次元行列形状をなす時間−周波数セグメ
ントを生成する処理と、 前記時間−周波数セグメントの一部の周波数帯域を選択
する処理と、 帯域選択された時間−周波数セグメントに対し2次元コ
サイン変換を施して2次元実数ケプストラムを生成する
処理と、 生成された前記2次元実数ケプストラムの少なくとも一
部の成分を音声特徴量として出力する処理とコンピュー
タに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001226230A JP3699912B2 (ja) | 2001-07-26 | 2001-07-26 | 音声特徴量抽出方法と装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001226230A JP3699912B2 (ja) | 2001-07-26 | 2001-07-26 | 音声特徴量抽出方法と装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003044077A true JP2003044077A (ja) | 2003-02-14 |
JP3699912B2 JP3699912B2 (ja) | 2005-09-28 |
Family
ID=19059083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001226230A Expired - Fee Related JP3699912B2 (ja) | 2001-07-26 | 2001-07-26 | 音声特徴量抽出方法と装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3699912B2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005326862A (ja) * | 2004-05-13 | 2005-11-24 | Samsung Electronics Co Ltd | 音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体 |
KR100712409B1 (ko) | 2005-07-28 | 2007-04-27 | 한국전자통신연구원 | 벡터의 차원변환 방법 |
JP2007256689A (ja) * | 2006-03-24 | 2007-10-04 | Univ Waseda | 音声の類似度の評価を行う方法および装置 |
JP2007256698A (ja) * | 2006-03-24 | 2007-10-04 | Univ Waseda | 音声の類似度の評価を行う方法および装置 |
JP2009210593A (ja) * | 2008-02-29 | 2009-09-17 | Toshiba Corp | 特徴量抽出装置、方法及びプログラム |
CN101256768B (zh) * | 2008-04-03 | 2011-03-30 | 清华大学 | 用于语种识别的时频二维倒谱特征提取方法 |
US9215350B2 (en) | 2011-07-14 | 2015-12-15 | Nec Corporation | Sound processing method, sound processing system, video processing method, video processing system, sound processing device, and method and program for controlling same |
CN111938649A (zh) * | 2019-05-16 | 2020-11-17 | 医疗财团法人徐元智先生医药基金会亚东纪念医院 | 利用神经网络从鼾声来预测睡眠呼吸中止的方法 |
-
2001
- 2001-07-26 JP JP2001226230A patent/JP3699912B2/ja not_active Expired - Fee Related
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005326862A (ja) * | 2004-05-13 | 2005-11-24 | Samsung Electronics Co Ltd | 音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体 |
US8019600B2 (en) | 2004-05-13 | 2011-09-13 | Samsung Electronics Co., Ltd. | Speech signal compression and/or decompression method, medium, and apparatus |
KR100712409B1 (ko) | 2005-07-28 | 2007-04-27 | 한국전자통신연구원 | 벡터의 차원변환 방법 |
JP2007256698A (ja) * | 2006-03-24 | 2007-10-04 | Univ Waseda | 音声の類似度の評価を行う方法および装置 |
JP4490384B2 (ja) * | 2006-03-24 | 2010-06-23 | 学校法人早稲田大学 | 音声の類似度の評価を行う方法および装置 |
JP4527679B2 (ja) * | 2006-03-24 | 2010-08-18 | 学校法人早稲田大学 | 音声の類似度の評価を行う方法および装置 |
JP2007256689A (ja) * | 2006-03-24 | 2007-10-04 | Univ Waseda | 音声の類似度の評価を行う方法および装置 |
JP2009210593A (ja) * | 2008-02-29 | 2009-09-17 | Toshiba Corp | 特徴量抽出装置、方法及びプログラム |
JP4599420B2 (ja) * | 2008-02-29 | 2010-12-15 | 株式会社東芝 | 特徴量抽出装置 |
US8073686B2 (en) | 2008-02-29 | 2011-12-06 | Kabushiki Kaisha Toshiba | Apparatus, method and computer program product for feature extraction |
CN101256768B (zh) * | 2008-04-03 | 2011-03-30 | 清华大学 | 用于语种识别的时频二维倒谱特征提取方法 |
US9215350B2 (en) | 2011-07-14 | 2015-12-15 | Nec Corporation | Sound processing method, sound processing system, video processing method, video processing system, sound processing device, and method and program for controlling same |
CN111938649A (zh) * | 2019-05-16 | 2020-11-17 | 医疗财团法人徐元智先生医药基金会亚东纪念医院 | 利用神经网络从鼾声来预测睡眠呼吸中止的方法 |
JP2020185390A (ja) * | 2019-05-16 | 2020-11-19 | 醫療財團法人徐元智先生醫藥基金會亞東紀念醫院 | 睡眠時無呼吸予測方法 |
Also Published As
Publication number | Publication date |
---|---|
JP3699912B2 (ja) | 2005-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7065487B2 (en) | Speech recognition method, program and apparatus using multiple acoustic models | |
Zhu et al. | Real-time signal estimation from modified short-time Fourier transform magnitude spectra | |
JP5124014B2 (ja) | 信号強調装置、その方法、プログラム及び記録媒体 | |
KR101266894B1 (ko) | 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법 | |
JP4958303B2 (ja) | 雑音抑圧方法およびその装置 | |
JP5551715B2 (ja) | 信号の信号特性の変化を記載しているパラメータを得る装置、方法およびコンピュータプログラム | |
US8412526B2 (en) | Restoration of high-order Mel frequency cepstral coefficients | |
JP6174856B2 (ja) | 雑音抑制装置、その制御方法、及びプログラム | |
JP6966750B2 (ja) | ブラインド信号分離のための方法、装置及び電子デバイス | |
KR20050049103A (ko) | 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치 | |
CN108369803A (zh) | 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法 | |
JP2003044077A (ja) | 音声特徴量抽出方法と装置及びプログラム | |
US7305339B2 (en) | Restoration of high-order Mel Frequency Cepstral Coefficients | |
JP2798003B2 (ja) | 音声帯域拡大装置および音声帯域拡大方法 | |
KR20050051435A (ko) | 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법 | |
CN113593604A (zh) | 检测音频质量方法、装置及存储介质 | |
JP2006215228A (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
JP6827908B2 (ja) | 音源強調装置、音源強調学習装置、音源強調方法、プログラム | |
Hasan et al. | An approach to voice conversion using feature statistical mapping | |
Prasanna Kumar et al. | Supervised and unsupervised separation of convolutive speech mixtures using f 0 and formant frequencies | |
JP4249697B2 (ja) | 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体 | |
JP7276469B2 (ja) | 波源方向推定装置、波源方向推定方法、およびプログラム | |
JP7304301B2 (ja) | 音響診断方法、音響診断システム、及び音響診断プログラム | |
JP4362072B2 (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
JP4313740B2 (ja) | 残響除去方法、プログラムおよび記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050408 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050412 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050613 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050705 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050711 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090715 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090715 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100715 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110715 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |