JP2007010822A - 音声特徴量抽出装置、音声特徴量抽出方法および音声特徴量抽出プログラム - Google Patents

音声特徴量抽出装置、音声特徴量抽出方法および音声特徴量抽出プログラム Download PDF

Info

Publication number
JP2007010822A
JP2007010822A JP2005189280A JP2005189280A JP2007010822A JP 2007010822 A JP2007010822 A JP 2007010822A JP 2005189280 A JP2005189280 A JP 2005189280A JP 2005189280 A JP2005189280 A JP 2005189280A JP 2007010822 A JP2007010822 A JP 2007010822A
Authority
JP
Japan
Prior art keywords
frequency
feature quantity
feature amount
calculating
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005189280A
Other languages
English (en)
Other versions
JP4550674B2 (ja
Inventor
Takashi Masuko
貴史 益子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2005189280A priority Critical patent/JP4550674B2/ja
Publication of JP2007010822A publication Critical patent/JP2007010822A/ja
Application granted granted Critical
Publication of JP4550674B2 publication Critical patent/JP4550674B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】正規化処理を行うことなく、声道長の変化による影響を受けない音声認識を可能とする音声特徴量抽出装置を提供する。
【解決手段】入力音声信号から音声特徴量を抽出する音声特徴量抽出装置であって、入力音声信号から、人間の聴覚特性を模擬した聴覚周波数軸上における周波数特性を求める周波数分析手段110と、周波数分析手段110により得られた周波数特性に基づいて、聴覚周波数軸上におけるシフトによらず一定の不変特徴量を算出する不変特徴量算出手段120とを備える。
【選択図】 図1

Description

本発明は、入力音声信号から音声特徴量を抽出する音声特徴量抽出装置、音声特徴量抽出方法および音声特徴量抽出プログラムに関するものである。
話者の声道長の違いは、メルや対数などの聴覚特性を模擬した周波数軸上でのフォルマントのシフトとして現れる。このフォルマントのシフトは、音声認識における性能劣化要因の一つとなる。従来の音声認識装置には、特許文献1および非特許文献1に開示されているように、音声特徴量を変換することにより周波数軸を伸縮させてフォルマントの位置を正規化するものがあったが、フォルマントの位置を正規化するには事前に正規化パラメータを推定する必要があった。
特開平11−327592公報 江森正ほか1名:「音声認識のための高速最ゆう推定を用いた声道長正規化」、電子情報通信学会論文誌D−II、vol.J83−D−II、no.11、pp.2108−2117、2000年11月
しかしながら、正規化パラメータを精度よく推定するためには、推定のための音声データおよびその発話内容に関する情報が必要となる。また、正規化パラメータの推定を誤ると、かえって認識性能が劣化するという問題もあった。
本発明は、上記に鑑みてなされたものであって、正規化処理を行うことなく、声道長の変化による影響を受けない音声認識を可能とする音声特徴量抽出装置を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、音声特徴量抽出装置であって、入力音声信号から、人間の聴覚特性を模擬した聴覚周波数軸上における周波数特性を求める周波数分析手段と、前記周波数分析手段により得られた前記周波数特性に基づいて、前記聴覚周波数軸上におけるシフトによらず一定の不変特徴量を算出する不変特徴量算出手段とを備えることを特徴とする。
また、本発明の他の形態は、音声特徴量抽出方法であって、入力音声信号から、人間の聴覚特性を模擬した聴覚周波数軸上における周波数特性を求める周波数分析ステップと、前記周波数分析ステップにおいて得られた前記周波数特性に基づいて、前記聴覚周波数軸上におけるシフトによらず一定の不変特徴量を算出する不変特徴量算出ステップとを有することを特徴とする。
また、本発明の他の形態は、音声特徴量抽出処理をコンピュータに実行させる音声特徴量抽出プログラムであって、入力音声信号から、人間の聴覚特性を模擬した聴覚周波数軸上における周波数特性を求める周波数分析ステップと、前記周波数分析ステップにおいて得られた前記周波数特性に基づいて、前記聴覚周波数軸上におけるシフトによらず一定の不変特徴量を算出する不変特徴量算出ステップとを有することを特徴とする。
本発明にかかる音声特徴量抽出装置は、人間の聴覚特性を模擬した周波数軸上におけるシフトによらず一定の不変特徴量に基づいて音声特徴量を算出するので、声道長の変化による影響を低減した音声特徴量を得ることができるという効果を奏する。
以下に、本発明にかかる音声特徴量抽出装置、音声特徴量抽出方法および音声特徴量抽出プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
(実施の形態1)
図1は、音声特徴量抽出装置100の基本的な構成の一例を示すブロック図である。音声特徴量抽出装置100は、周波数分析部110と、周波数シフト不変特徴量算出部120と、周波数シフト可変特徴量算出部130と、特徴量統合部140とを備えている。
周波数分析部110は、外部から入力された入力音声から、聴覚周波数軸上における周波数分析を行い、入力音声信号の周波数特性を求める。ここで、聴覚周波数とは、人間の聴覚を模擬した周波数である。具体的には、対数メル周波数スペクトルを求める。
図2は、周波数分析部110の詳細な機能構成を示すブロック図である。周波数分析部110、フレーム分割部111と、第1分析窓部112と、第1フーリエ変換部113と、パワー算出部114と、フィルタバンク部115と、対数算出部116とを有している。
フレーム分割部111は、入力音声信号から適当な時間間隔で分析区間を切り出す。具体的には、フレーム分割部111は、入力音声信号から約8ms毎に約23ms長の分析区間を切り出して出力する。フレーム分割部111から出力された分析区間は、第1分析窓部112に入力される。そして、第1分析窓部112において、分析窓が掛けられる。ここでは分析窓にはハミング窓を用いる。
第1分析窓部112の出力は、第1フーリエ変換部113に入力される。第1フーリエ変換部113は、フーリエ変換により周波数成分を求める。第1フーリエ変換部113の出力は、パワー算出部114に入力される。パワー算出部114は、周波数毎のパワーを求める。
パワー算出部114の出力は、フィルタバンク部115に入力される。フィルタバンク部115は、聴覚周波数軸上で等間隔となる帯域通過フィルタ(BPF)群により、聴覚周波数軸上で周波数分析を行う。BPF群は、人間の聴覚特性に基づく聴覚心理尺度の一つであるメル周波数軸上で等間隔となるように配置された32チャネルのBPFから構成されている。フィルタバンク部115は、この周波数分析により、メル周波数スペクトル
Figure 2007010822
を得る。ここで、tは時間、fはBPF番号を表す。
フィルタバンク部115の出力であるメル周波数スペクトルは、対数算出部116に入力される。対数算出部116は、入力されたメル周波数スペクトルから式(1)に従って対数メル周波数スペクトル
Figure 2007010822
を求める。
Figure 2007010822
再び説明を図1に戻す。周波数シフト不変特徴量算出部120は、周波数分析部110により得られた周波数特性に基づいて、周波数シフト不変特徴量を抽出する。ここで、周波数シフト不変特徴量とは、入力音声の特徴量のうち、聴覚周波数軸上でのシフトによらず一定の特徴量のことである。すなわち、聴覚周波数軸上でのシフトに依存しない特徴量である。
図3は、周波数シフト不変特徴量算出部120の詳細な機能構成を示すブロック図である。周波数シフト不変特徴量算出部120は、正規化部121と、第2分析窓部122と、自己相関算出部123と、第2フーリエ変換部124と、平方根算出部125とを有している。
正規化部121は、対数算出部116の出力である対数メル周波数スペクトルを取得する。正規化部121は、対数メル周波数スペクトルを、時間t毎に正規化する。具体的には、正規化部121は、時間t毎に対数メル周波数スペクトルの平均が0となるように式(2)に従って正規化を行う。これにより、正規化対数メル周波数スペクトル
Figure 2007010822
を求める。
Figure 2007010822
ここで、Mtは次式(3)で示される。
Figure 2007010822
なお、他の例としては、時間t毎に正規化するのにかえて、入力音声全体で正規化してもよい。
正規化部121の出力である正規化対数メル周波数スペクトルは、第2分析窓部122に入力される。第2分析窓部122は、正規化対数メル周波数スペクトルに分析窓を掛け、窓掛けされた正規化対数メル周波数スペクトル
Figure 2007010822
を求める。分析窓をW(f)と表すと窓掛けされた正規化対数メル周波数スペクトルは式(4)で表される。
Figure 2007010822
ここでは分析窓にはハミング窓を用いている。
第2分析窓部122の出力である窓掛けされた正規化対数メル周波数スペクトルは、自己相関算出部123に入力される。自己相関算出部123は、窓掛けされた正規化対数メル周波数スペクトルからメル周波数軸上での自己相関係数
Figure 2007010822
を式(5)に従って求める。
Figure 2007010822
自己相関算出部123の出力である自己相関係数は、第2フーリエ変換部124に入力される。第2フーリエ変換部124は、自己相関係数に対し、フーリエ変換を行う。以降、このフーリエ変換の結果をメルフィルタバンクパワーケプストラム(MFPCC)と称し、
Figure 2007010822
で表す。
第2フーリエ変換部124の出力であるMFPCCは平方根算出部125に入力される。平方根算出部125は、MFPCCの平方根を求める。以降、このMFPCCの平方根をメルフィルタバンク振幅ケプストラム(MFACC)と称し、
Figure 2007010822
で表す。
再び説明を図1に戻す。周波数シフト可変特徴量算出部130は、周波数分析部110により得られた周波数特性に基づいて、周波数シフト可変特徴量を抽出する。ここで、周波数シフト可変特徴量とは、入力音声の特徴量のうち、聴覚周波数軸上でのシフトに応じて変化する特徴量、すなわち周波数シフトに依存する特徴量のことである。具体的には、周波数シフト可変特徴量算出部130は、対数算出部116の出力である対数メル周波数スペクトル
Figure 2007010822
を取得する。そして、対数メル周波数スペクトルからコサイン変換により従来から広く用いられている音声特徴量であるメルフィルタバンクケプストラム係数(MFCC)
Figure 2007010822
を求める。
特徴量統合部140は、周波数シフト不変特徴量算出部120が抽出した周波数シフト不変特徴量と、周波数シフト可変特徴量算出部130が抽出した周波数シフト可変特徴量とを統合し、入力音声の特徴量を算出する。具体的には、特徴量統合部140は、平方根算出部125の出力であるMFACC
Figure 2007010822
と周波数シフト可変特徴量算出部130の出力であるMFCC
Figure 2007010822
を取得する。そして、取得したMFACCとMFCCを統合した特徴量
Figure 2007010822
を求める。
ここでは、1〜8次のMFACC
Figure 2007010822
および1〜8次のMFCC
Figure 2007010822
を単純に連結し、特徴量
Figure 2007010822
を得る。さらに、特徴量
Figure 2007010822
の1次および2次の微分特徴量である
Figure 2007010822
を求める。そして、
Figure 2007010822
を合わせて音声特徴量として出力する。
図4は、音声特徴量抽出装置100の音声特徴量抽出処理を示すフローチャートである。まず、周波数分析部110のフレーム分割部111は、入力音声信号から適当な時間間隔で分析区間を切り出す(ステップS100)。次に、第1分析窓部112において、分析窓が掛けられる(ステップS102)。次に、第1分析窓部112の出力は、第1フーリエ変換部113に入力される。そして、第1フーリエ変換部113は、フーリエ変換により周波数成分を求める(ステップS104)。次に、第1フーリエ変換部113の出力は、パワー算出部114に入力される。そして、パワー算出部114は、周波数毎のパワーを求める(ステップS106)。
次に、パワー算出部114の出力は、フィルタバンク部115に入力される。フィルタバンク部115は、帯域通過フィルタ(BPF)群により、聴覚周波数軸上で周波数分析を行う(ステップS108)。次に、対数算出部116は、メル周波数スペクトルから対数メル周波数スペクトルを求める(ステップS110)。
次に、正規化部121は、対数メル周波数スペクトルを、時間t毎に正規化し、正規化対数メル周波数スペクトルを求める(ステップS112)。次に、第2分析窓部122は、正規化対数メル周波数スペクトルに分析窓を掛け、窓掛けされた正規化対数メル周波数スペクトルを求める(ステップS114)。
次に、自己相関算出部123は、窓掛けされた正規化対数メル周波数スペクトルからメル周波数軸上での自己相関係数を求める(ステップS116)。第2フーリエ変換部124は、自己相関係数のフーリエ変換を求める(ステップS118)。平方根算出部125は、MFPCCの平方根を求める(ステップS120)。
一方、周波数シフト可変特徴量算出部130は、対数メル周波数スペクトルからコサイン変換によりメルフィルタバンクケプストラム係数(MFCC)を求める(ステップS122)。
そして、特徴量統合部140は、周波数シフト不変特徴量算出部120が抽出した周波数シフト不変特徴量と、周波数シフト可変特徴量算出部130が抽出した周波数シフト可変特徴量とを統合し、入力音声の特徴量を算出する(ステップS124)。以上で、音声特徴量抽出装置100による音声特徴量抽出処理が完了する。
図5は、実施の形態1に係る音声特徴量抽出装置100のハードウェア構成を示す図である。音声特徴量抽出装置100は、ハードウェア構成として、音声特徴量抽出装置100における音声特徴量抽出処理を実行する音声特徴量抽出プログラムなどが格納されているROM52と、ROM52内のプログラムに従って音声特徴量抽出装置100の各部を制御するCPU51と、音声特徴量抽出装置100の制御に必要な種々のデータを記憶するRAM53と、ネットワークに接続して通信を行う通信I/F57と、各部を接続するバス62とを備えている。
先に述べた音声特徴量抽出装置100における音声特徴量抽出プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フロッピー(R)ディスク(FD)、DVD等のコンピュータで読み取り可能な記録媒体に記録されて提供されてもよい。
この場合には、音声特徴量抽出プログラムは、音声特徴量抽出装置100において上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。
また、本実施の形態の音声特徴量抽出プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。
(実施の形態2)
次に、実施の形態2にかかる音声特徴量抽出装置100について説明する。図6は、実施の形態2にかかる周波数シフト不変特徴量算出部120の詳細な機能構成を示すブロック図である。
実施の形態2にかかる周波数シフト不変特徴量算出部120は、正規化部121と、第2分析窓部122と、第3フーリエ変換部126と、絶対値算出部127とを有している。
第3フーリエ変換部126は、第2分析窓部122の出力である窓掛けされた正規化対数メル周波数スペクトル
Figure 2007010822
を入力とし、そのフーリエ変換
Figure 2007010822
を求める。
第3フーリエ変換部126の出力は、絶対値算出部127に入力される。絶対値算出部127は、複素数である
Figure 2007010822
の絶対値を求める。ここで、入力音声信号の自己相関係数のフーリエ変換の平方根は、信号のフーリエ変換の絶対値と等しい。したがって、
Figure 2007010822
の絶対値は、実施の形態1において求められたメルフィルタバンク振幅ケプストラム(MFACC)
Figure 2007010822
と等しい。ここでは、
Figure 2007010822
の絶対値もまたMFACCと称し、
Figure 2007010822
と表す。
絶対値算出部127の出力であるMFACCは、周波数シフト可変特徴量算出部130の出力であるMFCCとともに特徴量統合部140に入力される。特徴量統合部140は、入力されたMFACCおよびMFCCから、特徴量
Figure 2007010822
を求め、音声特徴量として出力する。
図7は、実施の形態2にかかる音声特徴量抽出装置100の音声特徴量抽出処理を示すフローチャートである。実施の形態2においては、ステップS114において窓掛けされた正規化対数メル周波数スペクトルを求めた後、第3フーリエ変換部126は、窓掛けされた正規化対数メル周波数スペクトルのフーリエ変換を求める(ステップS130)。次に、絶対値算出部127は、
Figure 2007010822
から複素数である
Figure 2007010822
の絶対値を求める(ステップS132)。そして、ステップS122へ進む。
なお、実施の形態2にかかる音声特徴量抽出装置100のこれ以外の構成および処理は、実施の形態1にかかる音声特徴量抽出装置100の構成および処理と同様である。
図8は、実施の形態1にかかる音声特徴量抽出装置100により抽出した音声特徴量を用いて隠れマルコフモデル(HMM)に基づく音声認識を行った結果と、従来の特徴量であるMFCCに基づく音声認識を行った結果とを示す図である。なお、実施の形態1にかかる音声特徴量抽出装置100と、実施の形態2にかかる音声特徴量抽出装置100とは、同じ特徴量が得られるので、いずれの音声特徴量抽出装置100においても、同じ結果が得られる。
図8は、100都市名を用いた孤立単語認識の結果を示している。HMMを女性の音声のみで学習し、女性音声を入力した場合(Female)、男性音声を入力した場合(Male)、および女性音声と男性音声とのトータル(Overall)の認識率を示している。なお、従来特徴量には、1〜16次のMFCCおよびその1次および2次の微分特徴量を用いている。
図8に示すように、従来特徴量では女性音声を入力した場合には高い認識率が得られているものの、男性音声を入力した場合には認識率が70%以下となっている。これは、女性と男性の声道長の違いによるフォルマントのシフトの影響により、女性音声と男性音声とでは特徴量の値の分布が異なるためである。
一方、実施の形態1にかかる音声特徴量抽出装置100により得られた特徴量では、女性音声を入力した場合には従来特徴量における場合と同等の認識率得られている。さらに、男性音声を入力した場合には、90%以上の認識率が得られている。
このように、本実施の形態にかかる音声特徴量抽出装置100においては、周波数シフト不変な特徴量(MFACC)と従来の特徴量(MFCC)とを統合することにより、入力話者の声道長の違いに頑健な音声特徴量を求めることができる。
以上、本発明を実施の形態を用いて説明したが、実施の形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、音声特徴量抽出装置100を実現してもよい。実施の形態に示される音声特徴量抽出装置100の全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせてもよい。
そうした第1の変更例としては、実施の形態1および実施の形態2にかかる音声特徴量抽出装置100においては、周波数シフト不変な特徴量としてMFACCを用いているが、これに限るものではなく、例えば第2分析窓部122の出力である窓掛けされた正規化対数メル周波数スペクトルを入力として求められる自己相関係数、LPC係数、LPCケプストラム係数、LSP係数、PARCOR係数などを用いてもよい。
第2の変更例としては、本実施の形態においては、周波数シフト不変特徴量算出部120および周波数シフト可変特徴量算出部130は、ともに周波数分析部110からの周波数分析結果に基づいて、それぞれ周波数シフト不変特徴量および周波数シフト可変特徴量を算出したが、周波数シフト不変特徴量算出部120および周波数シフト可変特徴量算出部130はそれぞれ異なる周波数分析により得られた結果に基づいて、それぞれ周波数シフト不変特徴量および周波数シフト可変特徴量を算出してもよい。
第3の変更例としては、周波数シフト可変特徴量算出部130および特徴量統合部140を設けなくともよい。この場合には、音声特徴量抽出装置100は、周波数シフト不変特徴量算出部120により得られた周波数シフト不変特徴量を入力音声信号に対する音声特徴量として出力する。
音声特徴量抽出装置100の基本的な構成の一例を示すブロック図である。 周波数分析部110の詳細な機能構成を示すブロック図である。 周波数シフト不変特徴量算出部120の詳細な機能構成を示すブロック図である。 音声特徴量抽出装置100の音声特徴量抽出処理を示すフローチャートである。 実施の形態1に係る音声特徴量抽出装置100のハードウェア構成を示す図である。 実施の形態2にかかる周波数シフト不変特徴量算出部120の詳細な機能構成を示すブロック図である。 実施の形態2にかかる音声特徴量抽出装置100の音声特徴量抽出処理を示すフローチャートである。 実施の形態1にかかる音声特徴量抽出装置100により抽出した音声特徴量を用いて隠れマルコフモデル(HMM)に基づく音声認識を行った結果と、従来の特徴量であるMFCCに基づく音声認識を行った結果とを示す図である。
符号の説明
51 CPU
52 ROM
53 RAM
57 通信I/F
62 バス
100 音声特徴量抽出装置
110 周波数分析部
111 フレーム分割部
112 第1分析窓部
113 第1フーリエ変換部
114 パワー算出部
115 フィルタバンク部
116 対数算出部
120 周波数シフト不変特徴量算出部
121 正規化部
122 第2分析窓部
123 自己相関算出部
124 第2フーリエ変換部
125 平方根算出部
126 第3フーリエ変換部
127 絶対値算出部
130 周波数シフト可変特徴量算出部
140 特徴量統合部

Claims (8)

  1. 入力音声信号から、人間の聴覚特性を模擬した聴覚周波数軸上における周波数特性を求める周波数分析手段と、
    前記周波数分析手段により得られた前記周波数特性に基づいて、前記聴覚周波数軸上におけるシフトによらず一定の不変特徴量を算出する不変特徴量算出手段と
    を備えることを特徴とする音声特徴量抽出装置。
  2. 前記周波数分析手段は、メルスケールにおける前記周波数特性を求めることを特徴とする請求項1に記載の音声特徴量抽出装置。
  3. 前記周波数分析手段は、対数周波数軸上における前記周波数特性を求めることを特徴とする請求項1に記載の音声特徴量抽出装置。
  4. 前記周波数分析手段により得られた前記周波数特性から、前記聴覚周波数軸上におけるシフトに応じて変化する可変特徴量を算出する可変特徴量算出手段と、
    前記可変特徴量算出手段により算出された前記可変特徴量と、前記不変特徴量算出手段により算出された不変特徴量とに基づいて、前記入力音声信号の特徴量を算出する特徴量統合手段と
    をさらに備えたことを特徴とする請求項1から3のいずれか一項に記載の音声特徴量抽出装置。
  5. 前記周波数分析手段により得られた前記周波数特性の自己相関係数を算出する自己相関係数算出手段をさらに備え、
    前記不変特徴量算出手段は、前記自己相関係数算出手段により算出された前記自己相関係数に基づいて、前記不変特徴量を求めることを特徴とする請求項1から4のいずれか一項に記載の音声特徴量抽出装置。
  6. 前記不変特徴量算出手段は、前記周波数分析手段により得られた前記周波数特性に対し、フーリエ変換を行うフーリエ変換手段と、
    前記フーリエ変換手段により得られた値の絶対値を求める絶対値算出手段と
    をさらに備え、
    前記不変特徴量算出手段は、前記絶対値算出手段により算出された前記絶対値に基づいて、前記不変特徴量を求めることを特徴とする請求項1から4のいずれか一項に記載の音声特徴量抽出装置。
  7. 入力音声信号から、人間の聴覚特性を模擬した聴覚周波数軸上における周波数特性を求める周波数分析ステップと、
    前記周波数分析ステップにおいて得られた前記周波数特性に基づいて、前記聴覚周波数軸上におけるシフトによらず一定の不変特徴量を算出する不変特徴量算出ステップと
    を有することを特徴とする音声特徴量抽出方法。
  8. 音声特徴量抽出処理をコンピュータに実行させる音声特徴量抽出プログラムであって、
    入力音声信号から、人間の聴覚特性を模擬した聴覚周波数軸上における周波数特性を求める周波数分析ステップと、
    前記周波数分析ステップにおいて得られた前記周波数特性に基づいて、前記聴覚周波数軸上におけるシフトによらず一定の不変特徴量を算出する不変特徴量算出ステップと
    を有することを特徴とする音声特徴量抽出プログラム。
JP2005189280A 2005-06-29 2005-06-29 音声特徴量抽出装置、音声特徴量抽出方法および音声特徴量抽出プログラム Expired - Fee Related JP4550674B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005189280A JP4550674B2 (ja) 2005-06-29 2005-06-29 音声特徴量抽出装置、音声特徴量抽出方法および音声特徴量抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005189280A JP4550674B2 (ja) 2005-06-29 2005-06-29 音声特徴量抽出装置、音声特徴量抽出方法および音声特徴量抽出プログラム

Publications (2)

Publication Number Publication Date
JP2007010822A true JP2007010822A (ja) 2007-01-18
JP4550674B2 JP4550674B2 (ja) 2010-09-22

Family

ID=37749456

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005189280A Expired - Fee Related JP4550674B2 (ja) 2005-06-29 2005-06-29 音声特徴量抽出装置、音声特徴量抽出方法および音声特徴量抽出プログラム

Country Status (1)

Country Link
JP (1) JP4550674B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019074580A (ja) * 2017-10-13 2019-05-16 Kddi株式会社 音声認識方法、装置およびプログラム
CN110376715A (zh) * 2019-07-18 2019-10-25 广东奥普特科技股份有限公司 一种高解析度定焦镜头

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001255886A (ja) * 2000-03-09 2001-09-21 Matsushita Electric Ind Co Ltd 音声認識方法および音声認識装置
JP2005070292A (ja) * 2003-08-22 2005-03-17 Advanced Telecommunication Research Institute International 音声認識装置、サブバンド方式の音声認識デコーダに付随する重みベクトルを学習するための方法、及びサブバンド方式hmm学習方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001255886A (ja) * 2000-03-09 2001-09-21 Matsushita Electric Ind Co Ltd 音声認識方法および音声認識装置
JP2005070292A (ja) * 2003-08-22 2005-03-17 Advanced Telecommunication Research Institute International 音声認識装置、サブバンド方式の音声認識デコーダに付随する重みベクトルを学習するための方法、及びサブバンド方式hmm学習方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019074580A (ja) * 2017-10-13 2019-05-16 Kddi株式会社 音声認識方法、装置およびプログラム
CN110376715A (zh) * 2019-07-18 2019-10-25 广东奥普特科技股份有限公司 一种高解析度定焦镜头

Also Published As

Publication number Publication date
JP4550674B2 (ja) 2010-09-22

Similar Documents

Publication Publication Date Title
JP5505896B2 (ja) 発話区間検出システム、方法及びプログラム
CN109147796B (zh) 语音识别方法、装置、计算机设备及计算机可读存储介质
JP5662276B2 (ja) 音響信号処理装置および音響信号処理方法
US8891778B2 (en) Speech enhancement
JP4572218B2 (ja) 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
US20050143997A1 (en) Method and apparatus using spectral addition for speaker recognition
JP3006677B2 (ja) 音声認識装置
CN108847253B (zh) 车辆型号识别方法、装置、计算机设备及存储介质
KR20050049103A (ko) 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치
JP6389787B2 (ja) 音声認識システム、音声認識方法、プログラム
US11580989B2 (en) Training method of a speaker identification model based on a first language and a second language
JP6487650B2 (ja) 音声認識装置及びプログラム
JP5282523B2 (ja) 基本周波数抽出方法、基本周波数抽出装置、およびプログラム
JP4550674B2 (ja) 音声特徴量抽出装置、音声特徴量抽出方法および音声特徴量抽出プログラム
Nower et al. Restoration scheme of instantaneous amplitude and phase using Kalman filter with efficient linear prediction for speech enhancement
JP3039623B2 (ja) 音声認識装置
JP2006215228A (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
CN113593604A (zh) 检测音频质量方法、装置及存储介质
Alam et al. Speech recognition using regularized minimum variance distortionless response spectrum estimation-based cepstral features
JP4537821B2 (ja) オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体
JP4362072B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
KR100614932B1 (ko) 강인한 음성인식을 위한 채널 정규화 장치 및 그 방법
JP5272141B2 (ja) 音声処理装置およびプログラム
KR100539176B1 (ko) 음악적 특징 추출 방법 및 장치
JP2007127738A (ja) 音声認識装置、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061102

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091027

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100608

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100708

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130716

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees