JP2009210593A - 特徴量抽出装置、方法及びプログラム - Google Patents

特徴量抽出装置、方法及びプログラム Download PDF

Info

Publication number
JP2009210593A
JP2009210593A JP2008050313A JP2008050313A JP2009210593A JP 2009210593 A JP2009210593 A JP 2009210593A JP 2008050313 A JP2008050313 A JP 2008050313A JP 2008050313 A JP2008050313 A JP 2008050313A JP 2009210593 A JP2009210593 A JP 2009210593A
Authority
JP
Japan
Prior art keywords
correlation coefficient
cross
frame
coefficient sequence
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008050313A
Other languages
English (en)
Other versions
JP4599420B2 (ja
Inventor
Yusuke Kida
祐介 木田
Takashi Masuko
貴史 益子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008050313A priority Critical patent/JP4599420B2/ja
Priority to US12/366,037 priority patent/US8073686B2/en
Priority to CN200910118520A priority patent/CN101521009A/zh
Publication of JP2009210593A publication Critical patent/JP2009210593A/ja
Application granted granted Critical
Publication of JP4599420B2 publication Critical patent/JP4599420B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)
  • Image Analysis (AREA)

Abstract

【課題】相互相関係数を求める際のピッチ周期の範囲を限定せずとも、背景雑音の影響が低減されたより正確なピッチ周波数差分情報が得ることが可能な特徴量抽出技術を提供する。
【解決手段】スペクトル計算部101は、入力された音声信号から、フレーム毎に、対数周波数軸上で等間隔に求められた周波数成分からなる周波数スペクトルを計算する。相互相関係数列計算部102は、フレーム毎に、当該フレームの近傍に存在し且つ所定のフレーム幅だけ離れた異なる2つの各フレームに対してスペクトル計算部101が各々計算した周波数スペクトル間の相互相関係数列を計算する。シフト量推定部103は、所定のフレーム幅に対する周波数スペクトルの対数周波数軸上でのシフト量を推定し、これを基本周波数変化特徴量として出力する。
【選択図】 図2

Description

本発明は、入力された音声信号からピッチ周波数の差分を計算する特徴量抽出装置、方法及びプログラムに関する。
音声の韻律情報の要素の1つに、単位時間あたりのピッチ周波数の差分量がある。このようなピッチ周波数の差分量の情報(ピッチ周波数差分量情報)からは、アクセントやイントネーション、有声/無声についての情報が獲得可能である。このため、ピッチ周波数差分量情報は、音声認識装置や音声区間検出装置、ピッチ抽出装置あるいは話者認識装置などで使用される。このようなピッチ周波数差分情報を得る方法は、例えば、非特許文献1に示されている。非特許文献1に示されている手法では、はじめにピッチ周波数の抽出を行い、次にピッチ周波数の時間変化量を求めて、ピッチ周波数差分情報を得る。
しかし、非特許文献1に示されている手法では、誤ったピッチ周波数を抽出してしまう恐れがあり、この結果得られるピッチ周波数差分情報が誤っている恐れがある。近年では、ピッチ周波数の抽出の誤りによる影響が低減されたピッチ周波数差分情報を得る方法が提案されている(例えば、特許文献1参照)。この方法によれば、ある時刻(フレーム)tの音声の予測残差の自己相関関数と別の時刻(フレーム)sの音声の予測残差の自己相関関数との相互相関関数を計算して相互相関関数のピーク値を抽出することにより、ピッチ抽出誤りの影響を低減し複数のピッチ周波数の候補を考慮したピッチ周波数差分情報を得る。
古井貞煕、「ディジタル音声処理」、東海大学出版会、pp.57−59(1985) 特許第2940835号公報
しかしながら、特許文献1に記載されている方法によれば、音声の予測残差に基づいているため、背景雑音の影響を受けて、相互相関関数のピーク値を抽出する際にピッチ周波数の差分量に相当するピークとは異なるピークが抽出され、正確なピッチ周波数差分情報が得られにくくなるという問題がある。また、予測残差の自己相関関数にはピッチ周期の整数倍の位置に複数のピークが現れるが、整数倍の位置のピークを用いると差分量も整数倍になる。このため、正しいピッチ周波数差分情報を求めるためには相互相関関数を求める予測残差自己相関関数の範囲を正しいピッチ周期の付近に限定する必要がある。そのためには事前にピッチ周期を求めたり、話者の声の高さに応じてピッチ周期の範囲を適切に定めたりする必要がある。しかし、このようなピッチ周期の範囲を適切に定めることは困難である。このため、ピッチ周期の範囲を限定せずとも、背景雑音の影響が低減されたピッチ周波数差分情報が得ることが望まれていた。
本発明は、上記に鑑みてなされたものであって、相互相関関数を求める際のピッチ周期の範囲を限定せずとも、背景雑音の影響が低減されたピッチ周波数差分情報が得ることが可能な特徴量抽出装置、方法及びプログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、特徴量抽出装置であって、入力された音声信号に基づいて、所定の間隔の時刻であるフレーム毎に、対数周波数軸上で等間隔に求められた周波数成分からなる周波数スペクトルを計算することにより、周波数スペクトルの時系列を生成するスペクトル計算部と、フレーム毎に、当該フレームの近傍に存在し且つ所定のフレーム幅だけ離れた異なる2つの各フレームに対して各々計算された前記周波数スペクトル間の相互相関係数列を計算する相互相関係数列計算部と、前記相互相関係数列を用いて、前記所定のフレーム幅に対する前記周波数スペクトルの対数周波数軸上でのシフト量を推定するシフト量抽出部とを備えることを特徴とする。
また、本発明は、スペクトル計算部と、相互相関係数列計算部と、シフト量抽出部とを備える特徴量抽出装置で実行される特徴量抽出方法であって、前記スペクトル計算部が、入力された音声信号に基づいて、所定の間隔の時刻であるフレーム毎に、対数周波数軸上で等間隔に求められた周波数成分からなる周波数スペクトルを計算することにより、周波数スペクトルの時系列を生成するステップと、前記相互相関係数列計算部が、フレーム毎に、当該フレームの近傍に存在し且つ所定のフレーム幅だけ離れた異なる2つの各フレームに対して各々計算された前記周波数スペクトル間の相互相関係数列を計算するステップと、前記シフト量抽出部が、前記相互相関係数列を用いて、前記所定のフレーム幅に対する前記周波数スペクトルの対数周波数軸上でのシフト量を推定するステップとを含むことを特徴とする。
また、本発明は、特徴量抽出プログラムであって、上記の方法をコンピュータに実行させることを特徴とする。
本発明によれば、対数周波数軸上の周波数スペクトルの相互相関係数列を求めることにより、ピッチの変動による周波数スペクトルのピーク(調波成分)のシフト量は、どのピーク(調波成分)に対しても同じになり、相互相関係数列上でのピークに対応することになる。このため、相互相関係数列からピッチの変動に相当するシフト幅を抽出することで、ピッチ抽出やピッチ周期の範囲の限定を必要とせずにピッチ周波数差分情報を得ることができると共に、背景雑音の影響を受けにくくすることができる。
以下に添付図面を参照して、この発明にかかる特徴量抽出装置、方法及びプログラムの最良な実施の形態を詳細に説明する。
[第1の実施の形態]
(1)構成
本実施の形態では、音声認識装置に備えられる特徴量抽出装置について説明する。音声認識装置とは、概略的には、人間の音声をコンピュータで自動的に認識する音声認識処理を行なうものである。図1は、音声認識装置21のハードウェア構成を示す図である。同図に示されるように、音声認識装置21は、例えばパーソナルコンピュータであり、CPU(Central Processing Unit)22と、ROM(Read Only Memory)23と、RAM(Random Access Memory)24と、HDD(Hard Disk Drive)26と、CD(Compact Disc)−ROMドライブ28と、通信制御装置30と、入力装置31と、表示装置32と、これらを接続するバス25とを備えている。
CPU22は、コンピュータの主要部であって各部を集中的に制御する。ROM23は、BIOSなどの各種プログラムや各種データを記憶した読出し専用メモリである。RAM24は、各種データを書換え可能に記憶するメモリであり、CPU22の作業エリアとして機能してバッファ等の役割を果たす。通信制御装置30は、音声認識装置21とネットワーク29との通信を制御する。入力装置31は、キーボードやマウスなどから構成され、ユーザからの各種操作指示の入力を受け付ける。表示装置32は、CRT(Cathode Ray Tube)やLCD(Liquid Crystal Display)などから構成され、各種情報を表示する。
HDD26は、各種プログラムや各種データを記憶しており、主記憶装置として機能する。CD−ROMドライブ28は、CD−ROM27に記憶された各種データや各種プログラムを読み取る。本実施の形態においては、CD−ROM27は、OS(Operating System)や各種のプログラムを記憶している。CPU22は、CD−ROM27に記憶されているプログラムをCD−ROMドライブ28で読み取り、HDD26にインストールして、インストールしたプログラムを実行して、各種機能を実現させる。
次に、HDD26にインストールされている各種プログラムをCPU22が実行することにより音声認識装置21において実現される機能のうち、本実施の形態に特有の特徴量抽出機能について説明する。図2は、特徴量抽出機能を細分化してブロック化して示した図である。特徴量抽出機能とは、入力された音声信号から基本周波数変化特徴量を求める機能のことである。基本周波数変化特徴量とは、基本周波数の変化を示す情報であり、音声認識処理に用いる音声の韻律情報の要素の1つとして、アクセントやイントネーション、有声/無声についての情報の獲得に用いられる情報である。同図に示される特徴量抽出装置100が、特徴量抽出機能に相当する。この特徴量抽出装置100は、スペクトル計算部101、相互相関係数列計算部102及びシフト量推定部103を有する。
スペクトル計算部101には、所定の間隔毎(例えば10ms)に、所定の長さ(例えば25ms)に分解された音声信号が入力される。この所定の長さをフレームという。スペクトル計算部101は、入力された音声信号から、フレーム毎に、対数周波数軸上で等間隔に求められた周波数成分からなる周波数スペクトルを計算する。尚、対数周波数とは、周波数(線形周波数)を対数化したものである。スペクトル計算部101は、このような対数周波数軸上で等間隔となる周波数点に基づいてフーリエ変換やウェーブレット変換を行うことにより、周波数スペクトルを計算する。又は、スペクトル計算部101は、線形周波数軸上で等間隔となる周波数点に基づいてフーリエ変換により求められた線形周波数スペクトルにおいて周波数軸変換を行うことにより、周波数スペクトルを計算する。
相互相関係数列計算部102は、フレーム毎に、当該フレームの近傍に存在し且つ所定のフレーム幅だけ離れた異なる2つの各フレームに対してスペクトル計算部101が各々計算した周波数スペクトル間の相互相関係数列を計算する。シフト量推定部103は、所定のフレーム幅に対する周波数スペクトルの対数周波数軸上でのシフト量を推定し、これを基本周波数変化特徴量として出力する。
(2)動作
次に、本実施の形態にかかる特徴量抽出装置100の行う特徴量抽出処理の手順について図3を用いて説明する。ステップS100で、特徴量抽出装置100は、処理対象の音声信号が入力されると、音声信号をフレームに分解して、フレーム毎の音声信号をスペクトル計算部101に入力して、フレーム毎に以降の処理を行う。ここで、フレームの個数をTとする。また、処理対象のフレームの番号をt(1≦t≦T)とする。
ステップS200では、スペクトル計算部101が、入力された音声信号から、対数周波数軸上で等間隔に求められた周波数成分からなる周波数スペクトルの時系列を計算する。ここで、任意のフレームaに対する周波数スペクトルをS(w)とする。w(0≦w< W)は周波数点番号を表している。このS(w)は、上述したフーリエ変換やウェーブレット変換や周波数軸変換等により求められる。
なお、周波数成分を求める範囲を、例えば音声のエネルギーが相対的に大きい100Hzから2000Hzまでとすることが好ましい。これにより、背景雑音による影響を受けにくいスペクトルが得られる。
ステップS300では、相互相関係数列計算部102が、ステップS200で計算された周波数スペクトルを用いて、相互相関係数列を計算する。ここで、まず、任意の2つのフレームについてその周波数スペクトル間の相互相関係数列の計算方法について説明する。任意のフレームa,b(1≦a、b≦T)に対する周波数スペクトルS(w),S(w)の相互相関係数列CS(a、b)(n)は、下記に示す数式(1)により計算される。ここで、nの値は「−(W−1)」から「W−1」までに含まれる一定の整数値の集合により与えられる。
Figure 2009210593
なお、式1の右辺に、シフト量の絶対値の増加に伴う相互相関係数の計算に用いられる周波数成分の数の減少を補正する項「1/(W−|n|)」を掛け合わせても良い。また、相互相関係数列の振幅に対する正規化を行っても良い。
次に、本実施の形態において、ステップS300で、相互相関係数列計算部102が、相互相関係数列を計算する処理の詳細な手順について図4を用いて説明する。相互相関係数列計算部102は、ステップS311で、2つのフレームとして、処理対象のフレームの近傍に存在し且つ所定のフレーム幅だけ離れた異なる2つのフレームについて、各々に対して計算された周波数スペクトル間の相互相関係数列を計算する。即ち、相互相関係数列計算部102は、処理対象のフレームtの近傍に存在するフレームaの周波数スペクトルS(w)と、フレームaからkフレーム離れたフレーム「a−k」(k≧1かつ1≦a、a−k≦T)の周波数スペクトルSa−k(w)とに対する相互相関係数列CS(a、a―k)(n)を計算する。
例えば、「a=t」、「k=1」としたとき、フレーム毎に、処理対象のフレームtの周波数スペクトルと、フレームtに隣接するフレーム「t−1」の周波数スペクトルとに対する相互相関係数列が求められる。
あるいは、「a=t+1」、「k=2」としたとき、フレーム毎に、処理対象のフレームtに隣接するフレーム「t−1」の周波数スペクトルと、同じく処理対象のフレームtに隣接するフレーム「t+1」の周波数スペクトルとに対する相互相関係数列が求められる。
なお、kの値は特に限定されない。また、kの値をフレーム毎に変動させても良い。
そして、相互相関係数列計算部102は、以上のように計算した相互相関係数列CS(a、a―k)(n)を、相互相関係数列C (k)(n)として出力する。ここで、「C (k)(n)=CS(a、a―k)(n)」である。
図3に戻り、次いで、ステップS400では、シフト量推定部103が、ステップS300で出力された相互相関係数列C (k)(n)を用いて、周波数スペクトルの対数周波数軸上でのシフト量を推定する。図5は、ステップS400で、シフト量を推定する処理の詳細な手順を示すフローチャートである。シフト量推定部103は、ステップS411で、フレーム幅kに対するシフト量を推定する。具体的には、シフト量推定部103は、ステップS300で計算された相互相関係数列C (k)(n)を用いて式2によりシフト量d (k)を計算することにより、フレーム幅kに対する周波数スペクトルのシフト量を推定する。
Figure 2009210593
あるいは、シフト量d (k)を式3により計算するようにしても良い。ここで、θは相互相関係数に対して事前に定めておいたしきい値である。また、E[・]は要素の平均値を計算する処理である。
Figure 2009210593
なお、シフト量を推定する範囲を制限するようにしても良い。これにより、シフト量の推定に要する計算量を削減することが可能である。
次いで、ステップS412では、シフト量推定部103は、ステップS411で推定された、フレーム幅kに対する周波数スペクトルのシフト量d (k)から、1フレーム幅に対するシフト量d (1)を式4により計算する。
Figure 2009210593
図3に戻り、ステップS500では、特徴量抽出装置100は、ステップS400で計算された、1フレーム幅に対するシフト量d (1)を基本周波数変化特徴量として出力する。この結果、基本周波数の変化を示す基本周波数変化情報の1つとして、ピッチ周波数差分情報に対応する基本周波数変化特徴量を得ることができる。
あるいは、ステップS500では、特徴量抽出装置100は、シフト量d (1)から、1フレーム幅の基本周波数の変化の割合Dを式5により計算し、これを基本周波数変化特徴量として出力しても良い。ここで、Fmaxは線形周波数軸上における周波数の最大値(例えば4000Hz)、Fminは線形周波数軸上における周波数の最小値(例えば100Hz)とする。
Figure 2009210593
ここで、対数周波数軸上の周波数スペクトル及び相互相関係数列の具体例について、図6〜9を用いて説明する。図6は、スペクトル計算部101が計算した周波数スペクトルの例であり、クリーン音声の有声音区間に含まれる隣接する2フレームの周波数スペクトルを示すグラフである。図6の横軸は周波数点番号であり、縦軸はフレーム番号である。ここで、Fminは100Hzとし、Fmaxは2000Hzとし、Wは2048とした。図7は、相互相関係数列計算部102が計算した相互相関係数列の例であり、フレームtの周波数スペクトル及びフレーム「t−1」の周波数スペクトルとに対する相互相関係数列を示すグラフである。図7の横軸は周波数スペクトルのシフト量を示し、縦軸は相互相関係数を示している。図8は、図7のシフト量が「−100」から100までの範囲を拡大し、相互相関係数が最大となるシフト量の位置を示すグラフである。図8の横軸は周波数スペクトルのシフト量を示し、縦軸は相互相関係数を示している。同図では、枠中の縦の破線が、相互相関係数が最大となるシフト量の位置を表している。そして、相互相関係数が最大となるシフト幅が「−23」であることを示している。
図9は、相互相関係数の値が最大となったシフト量の大きさと、当該相互相関係数の計算に用いた周波数スペクトルとの関係を示すためのグラフである。同図においては、フレーム「t−1」の周波数スペクトルの周波数点番号を、相互相関係数が最大となったシフト量の分(図の左方向に23)だけずらし、フレームtの周波数スペクトルと重ねて表示している。フレーム「t−1」の周波数スペクトルの右端に値が0の部分が見られるが、これはフレームをずらすことによって生じた空白を表している。図9のグラフにより、周波数点番号を図の左方向に23ずらしたフレーム「t−1」の周波数スペクトルと、フレームtの周波数スペクトルとは、対数周波数軸における各ピーク(調波成分)の位置がほぼ一致していることが分かる。
このように、対数周波数軸上で等間隔に求められた周波数成分からなる周波数スペクトルを計算することで、基本周波数の変動による周波数スペクトルのピーク(調波成分)のシフト量はどのピーク(調波成分)に対しても同じになり、相互相関係数列上での高い相関係数をもつシフト量に対応することになる。このため、基本周波数の差分に相当するシフト量を相互相関係数列から推定することで、ピッチ推定やピッチ周期の範囲の限定を必要とせずに、基本周波数変化情報としてピッチ周波数差分情報を得ることができると共に、背景雑音の影響を受けにくくすることができる。
[第2の実施の形態]
次に、特徴量抽出装置の第2の実施の形態について説明する。なお、上述の第1の実施の形態と共通する部分については、同一の符号を使用して説明したり、説明を省略したりする。
本実施の形態にかかる特徴量抽出装置100は、上述の第1の実施の形態にかかる特徴量抽出装置100と以下の点で異なる。特徴量抽出装置100の有する相互相関係数列計算部102は、フレーム毎に、当該フレームの近傍の異なる2つ以上のフレームである各近傍フレームのそれぞれに対し、当該近傍フレームと当該近傍フレームから所定のフレーム幅だけ離れたフレームに対してスペクトル計算部101が各々計算した周波数スペクトル間の相互相関係数列を各々計算し、更に、計算した異なる2つ以上の相互相関係数列を1つの相互相関係数列に統合する。
次に、本実施の形態にかかる特徴量抽出装置100が行う特徴量抽出処理の手順について説明する。この特徴量抽出処理自体の手順は、図3に示したものと同様である。本実施の形態においては、ステップS300において、相互相関係数列計算部102が、相互相関係数列を計算する処理の詳細な手順が異なる。図10は、相互相関係数列計算部102が、相互相関係数列を計算する処理の詳細な手順を示すフローチャートである。ステップS321では、相互相関係数列計算部102は、フレームの近傍の異なる2つ以上のフレームである各近傍フレームのそれぞれに対し、当該近傍フレームと当該近傍フレームから所定のフレーム幅だけ離れたフレームに対してステップS200で各々計算された周波数スペクトル間の相互相関係数列を各々計算する。即ち、相互相関係数列計算部102は、処理対象のフレームtの近傍の異なる2つ以上のI個のフレームu(i)(1≦i≦IかつI≧2)のそれぞれに対し、フレームu(i)のスペクトルSu(i)(w)と、フレームu(i)からkフレーム離れたフレームu(i)−k(k≧1かつ1≦u(i)、u(i)−k≦T)のスペクトルSu(i)−k(w)とに対する相互相関係数列CS(u(i),u(i)−k)(n)を各々計算する。
例えば、「u(1)=t−1」、「u(2)=t」、「u(3)=t+1」、「k=1」としたとき、フレーム毎に、当該フレームtの近傍の3フレームについて、隣接するフレームの周波数スペクトル同士に対する相互相関係数列が複数求められる。
次いで、ステップS322では、相互相関係数列計算部102は、ステップS321で計算された複数の相互相関係数列を、1つの相互相関係数列C (k)(n)に統合し、これを出力する。具体的には、相互相関係数列計算部102は、式6により、相互相関係数列を統合する。
Figure 2009210593
あるいは、ステップS322では、相互相関係数列計算部102は、式7により、複数の相互相関係数列を統合しても良い。
Figure 2009210593
あるいは、ステップS322では、相互相関係数列計算部102は、式8により、複数の相互相関係数列を統合しても良い。
Figure 2009210593
このように、処理対象のフレームの近傍の異なる2つ以上のフレームである各フレームのそれぞれに対し、当該フレームと当該フレームから所定のフレーム幅だけ離れたフレームに対して各々計算された周波数スペクトル間の相互相関係数列を各々計算し、それらの相互相関係数列を1つの相互相関係数列に統合する。これにより、1つの相互相関係数列を計算する場合よりも安定的に基本周波数変化情報を得ることが可能となる。
[第3の実施の形態]
次に、特徴量抽出装置の第3の実施の形態について説明する。なお、上述の第1の実施の形態又は第2の実施の形態と共通する部分については、同一の符号を使用して説明したり、説明を省略したりする。
本実施の形態にかかる特徴量抽出装置100は、上述の第1の実施の形態にかかる特徴量抽出装置100と以下の点で異なる。特徴量抽出装置100の有する相互相関係数列計算部102は、スペクトル計算部101が計算した周波数スペクトルの時系列を用いて、時間方向に連続する2つ以上の前記周波数スペクトルを連結した周波数スペクトルセグメントの時系列を生成し、さらに、フレーム毎に、当該フレームの近傍に存在し且つ所定のフレーム幅だけ離れた異なる2つの各フレームに対して生成された周波数スペクトルセグメント間の相互相関係数列を計算する。
次に、本実施の形態にかかる特徴量抽出装置100が行う特徴量抽出処理の手順について説明する。この特徴量抽出処理自体の手順は、図3に示したものと同様である。本実施の形態においては、ステップS300において、相互相関係数列計算部102が、相互相関係数列を計算する処理の詳細な手順が異なる。図11は、ステップS300で、相互相関係数列計算部102が、相互相関係数列を計算する処理の詳細な手順を示すフローチャートである。ステップS331では、相互相関係数列計算部102は、ステップS200で計算された周波数スペクトルの時系列を用いて、時間方向に連続する2つ以上の前記周波数スペクトルを連結した周波数スペクトルセグメントの時系列を生成する。即ち、処理対象のフレームtの周波数スペクトルを「S=(S(0)、S(1)、・・・、S(W−1))」とすると、相互相関係数列計算部102は、時間方向に連続する2つ以上のJ個のフレームv(i)のスペクトルSu(i)(1≦i≦IかつI≧2)を連結した周波数スペクトルセグメントSegを、式9により生成する。
Figure 2009210593
例えば、「v(1)=t−1」、「v(2)=t」、「v(3)=t+1」、「J=3」としたとき、フレーム毎に、フレームtの近傍の3フレームを連結した周波数スペクトルセグメントが生成される。
次いで、ステップS332では、相互相関係数列計算部102は、処理対象のフレームtの近傍に存在し且つ所定のフレーム幅だけ離れた異なる2つの各フレームに対して生成された周波数スペクトルセグメント間の相互相関係数列を計算する。即ち、相互相関係数列計算部102は、処理対象のフレームtの近傍に存在するフレームaの周波数スペクトルセグメントSeg(o)(0≦o<J・W)と、フレームaからkフレーム離れたフレーム「a−k」(k≧1かつ1≦a、a−k≦T)の周波数スペクトルセグメントSega−k(p)とに対する相互相関係数列C (k)(n)を式10により計算し、これを出力する。ここで、oの値は「−(J・W−1)」から「J・W−1」までに含まれる一定の整数値の集合により与えられる。
Figure 2009210593
このように、時間方向に連続する2つ以上の周波数スペクトルを連結した周波数スペクトルセグメントの時系列を生成し、フレーム毎に、当該フレームの近傍に存在する異なる2つの周波数スペクトルセグメント間の相互相関係数列を計算する。これにより、単独のフレームの周波数スペクトル同士に対して相互相関係数列を計算する場合よりも安定的に基本周波数変化情報を得ることが可能となる。
[第4の実施の形態]
次に、特徴量抽出装置の第4の実施の形態について説明する。なお、上述の第1の実施の形態乃至第3の実施の形態と共通する部分については、同一の符号を使用して説明したり、説明を省略したりする。
本実施の形態にかかる特徴量抽出装置100は、上述の第1の実施の形態にかかる特徴量抽出装置100と以下の点で異なる。特徴量抽出装置100の有する相互相関係数列計算部102は、スペクトル計算部101が計算した周波数スペクトルの時系列を用いて、フレーム毎に、当該フレームを基準フレームとする相関係数列の時系列を計算し、さらに、相関係数列の時系列を再帰的に更新し、さらに、再帰処理の停止条件が成立した時点で、再帰的に計算した相関係数列の時系列を用いて、当該フレームの相互相関係数列を計算する。
次に、本実施の形態にかかる特徴量抽出装置100が行う特徴量抽出処理の手順について説明する。この特徴量抽出処理自体の手順は、図3に示したものと同様である。本実施の形態においては、ステップS300において、相互相関係数列計算部102が、相互相関係数列を計算する処理の詳細な手順が異なる。図12は、ステップS300で、相互相関係数列計算部102が、相互相関係数列を計算する処理の詳細な手順を示すフローチャートである。ステップS341では、相互相関係数列計算部102は、ステップS200で計算された周波数スペクトルの時系列を用いて、処理対象のフレームを基準フレームとする相関係数列の時系列を計算する。即ち、相互相関係数列計算部102は、周波数スペクトルの時系列を用いて、フレームtを基準フレームとする相関係数列の時系列CS(y,t)(n)(1≦y<T)を計算し、これをCS{0} (y,t)(n)として出力する。ここで、CS{0} (y,t)(n)=CS(y,t)(n)である。
次いで、ステップS342では、相互相関係数列計算部102は、再帰処理の停止条件が成立したか否かを判定する。ここでは、再帰処理の停止条件とは、相関係数列を再帰的に計算した回数が所望の回数に達したということである。即ち、相互相関係数列計算部102は、ステップS343により行われる相関係数列の更新の回数をカウントし、回数xが所望の回数Xに達したかどうかを判定する。xがXに達した場合は(ステップS342:YES)、ステップS344に進み、xがXに達していない場合は(ステップS342:NO)、ステップS343に進む。
ステップS343では、相互相関係数列計算部102は、処理対象のフレームを基準フレームとする相関係数列の時系列を相互相関係数列の時系列から更新する。即ち、相互相関係数列計算部102は、処理対象のフレームtを基準フレームとして計算した相関係数列の時系列CS{x} (y,t)(n)を、相互相関係数列の時系列CS{x−1} (y,t)(n)から、式11により再帰的に更新する。
Figure 2009210593
なお、上述の式1と同様に、式11の右辺に、シフト量の絶対値の増加に伴う相互相関係数の計算に用いられる周波数成分の数の減少を補正する項「1/(W−|n|)」を加えても良い。また、相互相関係数列の振幅に対する正規化を行っても良い。
ステップS344では、相互相関係数列計算部102は、処理対象のフレームt(基準フレーム)の近傍に存在し且つ所定のフレーム幅だけ離れた異なる2つの各フレームに対して各々計算された相関係数列の時系列間の相互相関係数列を、フレームtの相互相関係数列として計算する。即ち、相互相関係数列計算部102は、処理対象のフレームtを基準フレームとして計算した相関係数列の時系列CS{X}(v、t)(n)から、処理対象フレームtの近傍に存在するフレームaの相関係数列CS{X}(a、t)(n)と、フレームaからkフレーム離れたフレーム「a−k」(k≧1かつ1≦a、a−k≦T)の相関係数列CS{X}(a−k、t)(n)とに対する相互相関係数列C (k)(n)を、式12により計算し、これを出力する。
Figure 2009210593
このように、相関係数列を再帰的に求めることにより、基本周波数の変動に相当するスペクトルのピーク(調波成分)のシフト量は、相関係数列上でのより鋭いピークの位置として現れることになる。このため、雑音に対してより頑健に基本周波数変化情報を得ることが可能となる。
[第5の実施の形態]
次に、特徴量抽出装置の第5の実施の形態について説明する。なお、上述の第1の実施の形態乃至第4の実施の形態と共通する部分については、同一の符号を使用して説明したり、説明を省略したりする。
本実施の形態にかかる特徴量抽出装置100は、上述の第1の実施の形態にかかる特徴量抽出装置100と以下の点で異なる。特徴量抽出装置100の有する相互相関係数列計算部102は、複数の各々異なる所定のフレーム幅のそれぞれを用いて、フレーム毎に、当該フレームの近傍に存在し且つ所定のフレーム幅だけ離れた異なる2つの各フレームに対してスペクトル計算部101が各々計算した周波数スペクトル間の前記相互相関係数列を各々計算する。シフト量推定部103は、相互相関係数列計算部102が計算した2つ以上の相互相関係数列のそれぞれに対応する2つ以上のシフト量を推定し、さらに、2つ以上のシフト量を1つのシフト量に統合する。
次に、本実施の形態にかかる特徴量抽出装置100が行う特徴量抽出処理の手順について説明する。この特徴量抽出処理自体の手順は、図3に示したものと同様である。本実施の形態においては、ステップS300において、相互相関係数列計算部102が、相互相関係数列を計算する処理の詳細な手順と、ステップS400において、シフト量推定部103が、シフト量を推定する処理の詳細な手順とが各々異なる。
まず、ステップS300における処理の詳細な手順について説明する。図13は、ステップS300で、相互相関係数列計算部102が、相互相関係数列を計算する処理の詳細な手順を示すフローチャートである。ステップS351では、相互相関係数列計算部102は、複数の各々異なる所定のフレーム幅のそれぞれを用いて、フレーム毎に、当該フレームの近傍に存在し且つ所定のフレーム幅だけ離れた異なる2つの各フレームに対してステップS200で各々計算された周波数スペクトル間の前記相互相関係数列を各々計算する。即ち、相互相関係数列計算部102は、異なる2つ以上のK種類のフレーム幅をk(i)(2≦i<IかつI≧2)とすると、異なる2つ以上のk(i)毎に、当該フレームtの近傍のフレームa(i)(1≦a(i)≦T)のスペクトルSa(i)(w)と、フレームa(i)からk(i)フレーム離れたフレームa(i)−k(i)のスペクトルSa(i)−k(i)(w)に対する、相互相関係数列CS(a(i)、a(i)―k(i))(n)を計算し、C (k(i))(n)として出力する。ここで、C (k(i))(n)=CS(a(i)、a(i)―k(i))(n)である。
例えば、「k(1)=2」、「k(2)=4」、「a(1)=t+1」、「a(2)=t+2」としたとき、フレーム毎に、当該フレームを中心として2フレーム離れたフレーム同士の周波数スペクトルの相互相関係数列C (2)(n)と、当該フレームを中心として4フレーム離れたフレーム同士のスペクトルの相互相関係数列C (4)(n)とが出力される。
まず、ステップS400における処理の詳細な手順について説明する。図14は、ステップS400で、シフト量推定部103が、シフト量を推定する処理の詳細な手順を示すフローチャートである。ステップS451では、シフト量推定部103は、複数の相互相関係数列のそれぞれに対応する複数のシフト量を推定する。即ち、シフト量推定部103は、ステップS351で計算された複数の相互相関係数列C (k(i))(n)毎に、それぞれに対応するシフト量d (k(i))を推定する。
例えば、「k(1)=2」、「k(2)=4」としたとき、2フレーム幅のシフト量d (2)と、4フレーム幅のシフト量d (4)とが各々推定される。
次いで、ステップS452では、シフト量推定部103は、複数のシフト量を1つのシフト量に統合する。即ち、シフト量推定部103は、ステップS451で推定された複数のシフト量d (k(i))を、式13により1つのシフト量d (1)に統合する。
Figure 2009210593
あるいは、ステップS452では、シフト量推定部103は、シフト量の統合を以下の式14により行っても良い。ここで、l(i)=k(i)/2(k(i)は全て偶数)とする。
Figure 2009210593
このように、フレーム毎に、異なる2つ以上のフレーム幅のそれぞれに対応する2つ以上の相互相関係数列を計算し、これらのそれぞれに対応する2つ以上のシフト量を推定し、これらのシフト量を1つのシフト量に統合する。これにより、周波数成分が精度高く得られないフレームがあったとしても、その影響を低減することができ、より安定的に基本周波数変化情報を得ることができる。
[変形例]
なお、本発明は前記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。また、以下に例示するような種々の変形が可能である。
<変形例1>
上述した各実施の形態におけるステップS200で計算する周波数スペクトルは、振幅の正規化を行った周波数スペクトルでも良い。振幅の正規化は、具体的には周波数スペクトルの振幅の平均を一定値(例えば0)にする方法、分散を一定値(例えば1)にする方法、最小値と最大値を一定値(例えば0と1)にする方法、あるいは周波数スペクトルを求める音声波形の振幅の分散を一定値(例えば1)にする方法などにより行われる。
また、ステップS200で計算する周波数スペクトルは、スペクトル包絡成分を除いた残差成分のスペクトルでも良い。この残差成分のスペクトルは、線形予測分析などにより得られる残差信号から求めても良いし、ケプストラムの高次成分のフーリエ変換から求めても良い。さらに、この残差成分のスペクトルに対して振幅の正規化を行っても良い。
また、ステップS200で計算する周波数スペクトルは、ケプストラムでも良い。さらに、ケプストラムに対して振幅の正規化を行っても良い。
また、ステップS200で計算する周波数スペクトルは、自己相関係数列でもよい。さらに、自己相関係数列に対して振幅の正規化を行っても良い。
<変形例2>
上述した各実施の形態においては、各種プログラムや各種データが記憶される記憶媒体としてCD−ROM27を取り扱ったが、DVDなどの各種の光ディスク、各種光磁気ディスク、フレキシブルディスクなどの各種磁気ディスク等、半導体メモリ等の各種方式のメディアを用いても良い。また、通信制御装置30を介してインターネットなどのネットワーク29からプログラムをダウンロードし、HDD26にインストールするようにしても良い。この場合に、送信側のサーバでプログラムを記憶している記憶装置も、記憶媒体に相当する。なお、音声認識装置21で実行されるプログラムは、所定のOS(Operating System)上で動作するものであっても良い。その場合に上述の各種処理の一部の実行をOSに肩代わりさせるものであっても良いし、所定のアプリケーションソフトやOSなどを構成する一群のプログラムファイルの一部として含まれているものであっても良い。
<変形例3>
上述した各実施の形態においては、音声認識装置に備えられる特徴量抽出装置に適用した例を示したが、これに限らず、基本周波数変化情報を必要とする音声区間検出装置、ピッチ抽出装置あるいは話者認識装置などに、上述の機能を有する特徴量抽出装置を適用しても良い。
第1の実施の形態にかかる音声認識装置21のハードウェア構成を示す図である。 同実施の形態にかかる特徴量抽出機能を細分化してブロック化して示した図である。 同実施の形態にかかる特徴量抽出装置100の行う特徴量抽出処理の手順を示すフローチャートである。 同実施の形態にかかるステップS300で、相互相関係数列計算部102が、相互相関係数列を計算する処理の詳細な手順を示すフローチャートである。 同実施の形態にかかるシフト量推定部103が、シフト量を推定する処理の詳細な手順を示すフローチャートである。 同実施の形態にかかるスペクトル計算部101が計算した周波数スペクトルの例であり、クリーン音声の有声音区間に含まれる隣接する2フレームの周波数スペクトルを示すグラフである。 同実施の形態にかかる相互相関係数列計算部102が計算した相互相関係数列の例であり、フレームtの周波数スペクトル及びフレーム「t−1」の周波数スペクトルとに対する相互相関係数列を示すグラフである。 図7のシフト量が「−100」から100までの範囲を拡大し、相互相関係数が最大となるシフト量の位置を示すグラフである。図6の横軸は周波数スペクトルのシフト量を示し、縦軸は相互相関係数を示している。 相互相関係数の値が最大となったシフト量の大きさと、当該相互相関係数の計算に用いた周波数スペクトルとの関係を示すためのグラフである。 第2の実施の形態にかかる相互相関係数列計算部102が、相互相関係数列を計算する処理の詳細な手順を示すフローチャートである。 第3の実施の形態にかかる相互相関係数列計算部102が、相互相関係数列を計算する処理の詳細な手順を示すフローチャートである。 第4の実施の形態にかかる相互相関係数列計算部102が、相互相関係数列を計算する処理の詳細な手順を示すフローチャートである。 第5の実施の形態にかかる相互相関係数列計算部102が、相互相関係数列を計算する処理の詳細な手順を示すフローチャートである。 同実施の形態にかかるシフト量推定部103が、シフト量を推定する処理の詳細な手順を示すフローチャートである。
符号の説明
21 音声認識装置
22 CPU
23 ROM
24 RAM
25 バス
26 HDD
27 CD−ROM
28 CD−ROMドライブ
30 通信制御装置
31 入力装置
32 表示装置
100 特徴量抽出装置
101 スペクトル計算部
102 相互相関係数列計算部
103 シフト量推定部

Claims (11)

  1. 入力された音声信号に基づいて、所定の間隔の時刻であるフレーム毎に、対数周波数軸上で等間隔に求められた周波数成分からなる周波数スペクトルを計算することにより、周波数スペクトルの時系列を生成するスペクトル計算部と、
    フレーム毎に、当該フレームの近傍に存在し且つ所定のフレーム幅だけ離れた異なる2つの各フレームに対して各々計算された前記周波数スペクトル間の相互相関係数列を計算する相互相関係数列計算部と、
    前記相互相関係数列を用いて、前記所定のフレーム幅に対する前記周波数スペクトルの対数周波数軸上でのシフト量を推定するシフト量抽出部とを備える
    ことを特徴とする特徴量抽出装置。
  2. 前記相互相関係数列計算部は、フレーム毎に、当該フレームの近傍の異なる2つ以上のフレームである各近傍フレームのそれぞれに対し、当該近傍フレームと当該近傍フレームから前記所定のフレーム幅だけ離れたフレームに対して各々計算された前記周波数スペクトル間の相互相関係数列を各々計算し、計算した異なる2つ以上の相互相関係数列を1つの相互相関係数列に統合する
    ことを特徴とする請求項1に記載の特徴量抽出装置。
  3. 前記相互相関係数列計算部は、前記周波数スペクトルの時系列を用いて、時間方向に連続する2つ以上の前記周波数スペクトルを連結した周波数スペクトルセグメントの時系列を生成し、フレーム毎に、当該フレームの近傍に存在し且つ所定のフレーム幅だけ離れた異なる2つの各フレームに対して生成された周波数スペクトルセグメント間の相互相関係数列を計算する
    ことを特徴とする請求項1に記載の特徴量抽出装置。
  4. 前記相互相関係数列計算部は、前記周波数スペクトルの時系列を用いて、フレーム毎に、当該フレームを基準フレームとする相関係数列の時系列を計算し、前記相関係数列の時系列を再帰的に更新し、前記相関係数列の時系列を再帰的に更新する処理の停止条件が成立した時点で、再帰的に更新された相関係数列の時系列を用いて、前記基準フレームの相互相関係数列を計算する
    ことを特徴とする請求項1に記載の特徴量抽出装置。
  5. 前記相互相関係数列計算部は、前記停止条件が成立した時点で、前記基準フレームの近傍に存在し且つ所定のフレーム幅だけ離れた異なる2つの各フレームに対して各々計算された前記相関係数列の時系列間の相互相関係数列を、前記基準フレームの相互相関係数列として計算する
    ことを特徴とする請求項4に記載の特徴量抽出装置。
  6. 前記相互相関係数列計算部は、複数の各々異なる所定のフレーム幅のそれぞれを用いて、フレーム毎に、当該フレームの近傍に存在し且つ所定のフレーム幅だけ離れた異なる2つの各フレームに対して各々計算された前記周波数スペクトル間の前記相互相関係数列を各々計算し、
    前記シフト量抽出部は、複数の各々異なる所定のフレーム幅のそれぞれを用いて各々計算された前記相互相関係数列のそれぞれに対応するシフト量を各々推定し、推定した2つ以上の前記シフト量を1つのシフト量に統合する
    ことを特徴とする請求項1に記載の特徴量抽出装置。
  7. 前記スペクトル計算部は、スペクトル包絡成分を除いた残差成分の周波数スペクトルを計算することにより、波数スペクトルの時系列を生成する
    ことを特徴とする請求項1乃至6のいずれか一項に記載の特徴量抽出装置。
  8. 前記スペクトル計算部は、前記周波数スペクトルに対して振幅の正規化を行なう正規化部を有する
    ことを特徴とする請求項1乃至6のいずれか一項に記載の特徴量抽出装置。
  9. 前記所定のフレーム幅は、フレーム毎に可変であり、
    前記相互相関係数列計算部は、フレーム毎に、当該フレームの近傍に存在し且つ当該フレームに対応する所定のフレーム幅だけ離れた異なる2つの各フレームに対して計算された前記周波数スペクトル間の相互相関係数列を計算する
    ことを特徴とする請求項1乃至8のいずれか一項に記載の特徴量抽出装置。
  10. スペクトル計算部と、相互相関係数列計算部と、シフト量抽出部とを備える特徴量抽出装置で実行される特徴量抽出方法であって、
    前記スペクトル計算部が、入力された音声信号に基づいて、所定の間隔の時刻であるフレーム毎に、対数周波数軸上で等間隔に求められた周波数成分からなる周波数スペクトルを計算することにより、周波数スペクトルの時系列を生成するステップと、
    前記相互相関係数列計算部が、フレーム毎に、当該フレームの近傍に存在し且つ所定のフレーム幅だけ離れた異なる2つの各フレームに対して各々計算された前記周波数スペクトル間の相互相関係数列を計算するステップと、
    前記シフト量抽出部が、前記相互相関係数列を用いて、前記所定のフレーム幅に対する前記周波数スペクトルの対数周波数軸上でのシフト量を推定するステップとを含む
    ことを特徴とする特徴量抽出方法。
  11. 請求項10に記載の方法をコンピュータに実行させることを特徴とする特徴量抽出プログラム。
JP2008050313A 2008-02-29 2008-02-29 特徴量抽出装置 Active JP4599420B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008050313A JP4599420B2 (ja) 2008-02-29 2008-02-29 特徴量抽出装置
US12/366,037 US8073686B2 (en) 2008-02-29 2009-02-05 Apparatus, method and computer program product for feature extraction
CN200910118520A CN101521009A (zh) 2008-02-29 2009-02-26 用于特征提取的装置、方法以及计算机程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008050313A JP4599420B2 (ja) 2008-02-29 2008-02-29 特徴量抽出装置

Publications (2)

Publication Number Publication Date
JP2009210593A true JP2009210593A (ja) 2009-09-17
JP4599420B2 JP4599420B2 (ja) 2010-12-15

Family

ID=41013830

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008050313A Active JP4599420B2 (ja) 2008-02-29 2008-02-29 特徴量抽出装置

Country Status (3)

Country Link
US (1) US8073686B2 (ja)
JP (1) JP4599420B2 (ja)
CN (1) CN101521009A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011180417A (ja) * 2010-03-02 2011-09-15 Mitsubishi Electric Corp 音楽音響信号のピッチ推定装置及び方法
JP2016045581A (ja) * 2014-08-20 2016-04-04 国立大学法人 琉球大学 紙葉類疲弊判別装置、紙幣処理装置、紙葉類疲弊判別方法
CN113077806A (zh) * 2021-03-23 2021-07-06 杭州朗和科技有限公司 音频处理方法及装置、模型训练方法及装置、介质和设备

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4585590B2 (ja) * 2008-09-26 2010-11-24 株式会社東芝 基本周波数変化量抽出装置、方法及びプログラム
WO2013166439A1 (en) 2012-05-04 2013-11-07 Setem Technologies, Llc Systems and methods for source signal separation
US10497381B2 (en) 2012-05-04 2019-12-03 Xmos Inc. Methods and systems for improved measurement, entity and parameter estimation, and path propagation effect measurement and mitigation in source signal separation
EP3042377B1 (en) * 2013-03-15 2023-01-11 Xmos Inc. Method and system for generating advanced feature discrimination vectors for use in speech recognition
CN104934032B (zh) * 2014-03-17 2019-04-05 华为技术有限公司 根据频域能量对语音信号进行处理的方法和装置
CN103886236A (zh) * 2014-03-17 2014-06-25 深圳市中兴移动通信有限公司 声控解锁屏方法和移动终端
US10235993B1 (en) * 2016-06-14 2019-03-19 Friday Harbor Llc Classifying signals using correlations of segments
CN109977445B (zh) * 2017-12-28 2023-11-21 中国电力科学研究院有限公司 一种导地线自阻尼功率特性曲线绘制方法及系统
CN109000887B (zh) * 2018-05-25 2021-04-23 京东方科技集团股份有限公司 一种图案检测装置及方法、图案化控制系统及方法
JP6929260B2 (ja) * 2018-11-01 2021-09-01 株式会社東芝 時系列特徴抽出装置、時系列特徴抽出方法及びプログラム
CN112214635B (zh) * 2020-10-23 2022-09-13 昆明理工大学 一种基于倒频谱分析的快速音频检索方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63501603A (ja) * 1985-10-30 1988-06-16 セントラル インステイチユ−ト フオ ザ デフ スピ−チ処理装置および方法
JPH0844395A (ja) * 1994-08-04 1996-02-16 Fujitsu Ltd 音声ピッチ検出装置
JP2003044077A (ja) * 2001-07-26 2003-02-14 Toshiba Corp 音声特徴量抽出方法と装置及びプログラム
JP2004354589A (ja) * 2003-05-28 2004-12-16 Nippon Telegr & Teleph Corp <Ntt> 音響信号判別方法、音響信号判別装置、音響信号判別プログラム
WO2004111996A1 (ja) * 2003-06-11 2004-12-23 Matsushita Electric Industrial Co., Ltd. 音響区間検出方法および装置
JP2007328288A (ja) * 2006-06-09 2007-12-20 Sony Corp 韻律識別装置及び方法、並びに音声認識装置及び方法
JP2008015214A (ja) * 2006-07-06 2008-01-24 Dds:Kk 歌唱力評価方法及びカラオケ装置
JP2008139568A (ja) * 2006-12-01 2008-06-19 Sony Corp 音声処理装置および音声処理方法、並びに、プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2940835B2 (ja) 1991-03-18 1999-08-25 日本電信電話株式会社 ピッチ周波数差分特徴量抽出法
JP2797949B2 (ja) * 1994-01-31 1998-09-17 日本電気株式会社 音声認識装置
US6226606B1 (en) * 1998-11-24 2001-05-01 Microsoft Corporation Method and apparatus for pitch tracking
JP4882899B2 (ja) * 2007-07-25 2012-02-22 ソニー株式会社 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム
JP2009047831A (ja) 2007-08-17 2009-03-05 Toshiba Corp 特徴量抽出装置、プログラムおよび特徴量抽出方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63501603A (ja) * 1985-10-30 1988-06-16 セントラル インステイチユ−ト フオ ザ デフ スピ−チ処理装置および方法
JPH0844395A (ja) * 1994-08-04 1996-02-16 Fujitsu Ltd 音声ピッチ検出装置
JP2003044077A (ja) * 2001-07-26 2003-02-14 Toshiba Corp 音声特徴量抽出方法と装置及びプログラム
JP2004354589A (ja) * 2003-05-28 2004-12-16 Nippon Telegr & Teleph Corp <Ntt> 音響信号判別方法、音響信号判別装置、音響信号判別プログラム
WO2004111996A1 (ja) * 2003-06-11 2004-12-23 Matsushita Electric Industrial Co., Ltd. 音響区間検出方法および装置
JP2007328288A (ja) * 2006-06-09 2007-12-20 Sony Corp 韻律識別装置及び方法、並びに音声認識装置及び方法
JP2008015214A (ja) * 2006-07-06 2008-01-24 Dds:Kk 歌唱力評価方法及びカラオケ装置
JP2008139568A (ja) * 2006-12-01 2008-06-19 Sony Corp 音声処理装置および音声処理方法、並びに、プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011180417A (ja) * 2010-03-02 2011-09-15 Mitsubishi Electric Corp 音楽音響信号のピッチ推定装置及び方法
JP2016045581A (ja) * 2014-08-20 2016-04-04 国立大学法人 琉球大学 紙葉類疲弊判別装置、紙幣処理装置、紙葉類疲弊判別方法
CN113077806A (zh) * 2021-03-23 2021-07-06 杭州朗和科技有限公司 音频处理方法及装置、模型训练方法及装置、介质和设备
CN113077806B (zh) * 2021-03-23 2023-10-13 杭州网易智企科技有限公司 音频处理方法及装置、模型训练方法及装置、介质和设备

Also Published As

Publication number Publication date
US20090222259A1 (en) 2009-09-03
JP4599420B2 (ja) 2010-12-15
CN101521009A (zh) 2009-09-02
US8073686B2 (en) 2011-12-06

Similar Documents

Publication Publication Date Title
JP4599420B2 (ja) 特徴量抽出装置
JP5949550B2 (ja) 音声認識装置、音声認識方法、及びプログラム
JP5299436B2 (ja) 音声検出装置、音声検出プログラムおよびパラメータ調整方法
JP2009047831A (ja) 特徴量抽出装置、プログラムおよび特徴量抽出方法
US9171532B2 (en) Sound signal analysis apparatus, sound signal analysis method and sound signal analysis program
US9905219B2 (en) Speech synthesis apparatus, method, and computer-readable medium that generates synthesized speech having prosodic feature
US20050091045A1 (en) Pitch detection method and apparatus
US8380331B1 (en) Method and apparatus for relative pitch tracking of multiple arbitrary sounds
US20100161329A1 (en) Viterbi decoder and speech recognition method using same
JP4585590B2 (ja) 基本周波数変化量抽出装置、方法及びプログラム
JP5395399B2 (ja) 携帯端末、拍位置推定方法および拍位置推定プログラム
JP2008256942A (ja) 音声合成データベースのデータ比較装置及び音声合成データベースのデータ比較方法
JP6420198B2 (ja) 閾値推定装置、音声合成装置、その方法及びプログラム
US8103512B2 (en) Method and system for aligning windows to extract peak feature from a voice signal
Robel Adaptive additive modeling with continuous parameter trajectories
JP2015045755A (ja) 音声合成モデル学習装置、方法、及びプログラム
JP6167063B2 (ja) 発話リズム変換行列生成装置、発話リズム変換装置、発話リズム変換行列生成方法、及びそのプログラム
JP6891736B2 (ja) 音声処理プログラム、音声処理方法および音声処理装置
CN108780634B (zh) 声音信号处理方法及声音信号处理装置
JP2007304515A (ja) オーディオ信号伸張圧縮方法及び装置
JP2019070775A (ja) 信号解析装置、方法、及びプログラム
JP5054646B2 (ja) 拍位置推定装置、拍位置推定方法および拍位置推定プログラム
JP2015040931A (ja) 信号処理装置、音声処理装置、信号処理方法および音声処理方法
JP6420781B2 (ja) 声道スペクトル推定装置、声道スペクトル推定方法、及びプログラム
JP2009025388A (ja) 音声認識装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100615

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100831

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100927

R151 Written notification of patent or utility model registration

Ref document number: 4599420

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131001

Year of fee payment: 3