JP4585590B2 - 基本周波数変化量抽出装置、方法及びプログラム - Google Patents

基本周波数変化量抽出装置、方法及びプログラム Download PDF

Info

Publication number
JP4585590B2
JP4585590B2 JP2008248000A JP2008248000A JP4585590B2 JP 4585590 B2 JP4585590 B2 JP 4585590B2 JP 2008248000 A JP2008248000 A JP 2008248000A JP 2008248000 A JP2008248000 A JP 2008248000A JP 4585590 B2 JP4585590 B2 JP 4585590B2
Authority
JP
Japan
Prior art keywords
frequency
logarithmic
fundamental frequency
unit
spectrogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008248000A
Other languages
English (en)
Other versions
JP2010078990A (ja
Inventor
祐介 木田
貴史 益子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008248000A priority Critical patent/JP4585590B2/ja
Priority to US12/556,382 priority patent/US8554546B2/en
Publication of JP2010078990A publication Critical patent/JP2010078990A/ja
Application granted granted Critical
Publication of JP4585590B2 publication Critical patent/JP4585590B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Description

本発明は、入力された音声信号から基本周波数の変化量を抽出する基本周波数変化量抽出装置、方法及びプログラムに関する。
音声の韻律情報の要素の1つに、単位時間あたりの基本周波数の変化量がある。このような基本周波数の変化量(基本周波数変化量)の情報からは、アクセントやイントネーション、有声/無声についての情報が獲得可能である。このため、基本周波数変化量は、音声認識装置や話者認識装置などで使用される。このような基本周波数変化量は、時刻(フレーム)毎に基本周波数の抽出を行い、近接する時刻(フレーム)間の基本周波数の差分値を求めることによって得ることができる。基本周波数を抽出する方法は、例えば、非特許文献1に示されている。
しかし、非特許文献1に示されている方法では、誤った基本周波数を抽出してしまう恐れがあり、この結果得られる基本周波数変化量が誤っている恐れがある。近年では、基本周波数の抽出の誤りによる影響が低減された基本周波数変化量を得る方法が提案されている(例えば、特許文献1参照)。この方法によれば、ある時刻(フレーム)の音声の予測残差の自己相関関数と別の時刻(フレーム)の音声の予測残差の自己相関関数との相互相関関数を計算して相互相関関数のピーク値を抽出することにより、ピッチ抽出誤りの影響を低減し複数の基本周波数の候補を考慮した基本周波数変化量を得る。
特許第2940835号公報 古井貞煕、「ディジタル音声処理」、東海大学出版会、pp.57−59(1985)
しかしながら、特許文献1に記載されている方法によれば、音声の予測残差に基づいているため、背景雑音の影響を受けて、最大の相互相関値を与えるシフト量が基本周波数の変化量と異なり、正確な基本周波数変化量が得られにくくなるという問題がある。また、予測残差の自己相関関数には基本周期の整数倍の位置にピークが現れるが、整数倍の位置のピークのシフト量は、基本周期のシフト量の整数倍になる。このため、正しい基本周波数変化量を求めるためには、相互相関関数を求める予測残差自己相関関数の範囲を正しい基本周期の付近に限定する必要がある。そのためには基本周期を事前に求めたり、話者の声の高さに応じて基本周期の範囲を適切に定めたりする必要がある。しかし、このような基本周期の範囲を適切に定めることは困難である。このため、基本周期の範囲を限定せずとも、背景雑音の影響が低減された基本周波数変化量が得ることが望まれていた。
本発明は、上記に鑑みてなされたものであって、基本周期の範囲を限定せずとも、背景雑音の影響が低減された基本周波数の変化量を得ることが可能な基本周波数変化量抽出装置、方法及びプログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、基本周波数変化量抽出装置であって、入力された音声信号に基づいて、対数周波数軸上で等間隔に求められた周波数成分からなる対数周波数スペクトルであって時刻毎に当該時刻を含む所定の時間範囲の対数周波数スペクトルを連結した対数周波数スペクトログラムを計算する対数周波数スペクトログラム計算部と、前記対数周波数スペクトログラムの時系列の各時刻において、当該対数周波数スペクトログラムについて周波数成分の強さを用いて投票を行うことにより、直線を検出するためのハフ変換を行うハフ変換部と、前記投票の結果である投票値を用いて、直線の集まりである直線群と、周波数成分の強さが第1閾値より大きい投票値又は周波数成分の強さの大きい順に所定の順位以内の投票値とを抽出する直線群抽出部と、前記直線群に含まれる個々の直線の傾きと抽出された前記投票値とを用いて、基本周波数の時間変化量を計算する基本周波数変化量計算部とを備えることを特徴とする。
また、本発明は、対数周波数スペクトログラム計算部と、ハフ変換部と、直線群抽出部と、基本周波数変化量計算部とを備える基本周波数変化量抽出装置で実行される基本周波数変化量抽出方法であって、前記対数周波数スペクトログラム計算部が、入力された音声信号に基づいて、対数周波数軸上で等間隔に求められた周波数成分からなる対数周波数スペクトルであって時刻毎に当該時刻を含む所定の時間範囲の対数周波数スペクトルを連結した対数周波数スペクトログラムを計算する対数周波数スペクトログラム計算ステップと、前記ハフ変換部が、前記対数周波数スペクトログラムの時系列の各時刻において、当該対数周波数スペクトログラムについて周波数成分の強さを用いて投票を行うことにより、直線を検出するためのハフ変換を行うハフ変換ステップと、前記直線群抽出部が、前記投票の結果である投票値を用いて、直線の集まりである直線群と、周波数成分の強さが第1閾値より大きい投票値又は周波数成分の強さの大きい順に所定の順位以内の投票値とを抽出する直線群抽出ステップと、前記基本周波数変化量計算部が、前記直線群に含まれる個々の直線の傾きと抽出された前記投票値とを用いて、基本周波数の時間変化量を計算する基本周波数変化量計算ステップとを含むことを特徴とする。
また、本発明は、プログラムであって、上記の方法をコンピュータに実行させることを特徴とする。
本発明によれば、基本周期の範囲を限定せずとも、背景雑音の影響が低減された基本周波数の変化量が得ることが可能になる。
以下に添付図面を参照して、この発明にかかる基本周波数変化量抽出装置、方法及びプログラムの最良な実施の形態を詳細に説明する。
まず、本実施の形態で利用する原理について説明する。声帯の振動を伴う有声音は、基本周波数の成分とその整数倍の周波数(倍音周波数)の成分とを強く含む。すなわち、時刻j(0<j≦J)における基本周波数をfとすると、m・f(1≦m≦M)の周波数成分が強いことになる。有声音が持つこのような周波数成分の関係を調波構造といい、調波構造を構成する各周波数成分を調波成分という。対数周波数軸上では、基本周波数の対数logfに対して、調波構造は以下に示す式1の関係で表される。
すなわち、m番目の倍音周波数の対数logm・fは、基本周波数の対数logfに対して常に一定のオフセットlogmを加えた値に相当する。また、時刻jにおける、単位時間あたりの基本周波数の対数の変化量dを以下の式2により定義する。
このとき、時間区間[j−n:j+n]で基本周波数の対数の変化量が一定ならば、以下の式3が成り立つ。
式3が成り立つとき、当該時間区間における基本周波数の対数の時系列は、以下の式4に示す、基本周波数の対数の変化量dを傾きとする直線として与えられる。
一方、時間区間[j−n:j+n]で基本周波数の対数の変化量が一定ならば、倍音周波数を与える式1は、以下に示す式5のように変形できる。
すなわち、ある時間区間で基本周波数の対数の時間変化量が一定であれば、対数周波数軸上において、調波構造の時系列は、基本周波数の対数の変化量dを傾きとする直線の集まりである直線群として与えられる。このことから、直線群に含まれる個々の直線に共通する傾きの値を推定することで、基本周波数の抽出や、基本周波数の範囲の限定を必要とせずに、基本周波数の対数の変化量を抽出することができる。
また、背景雑音によって調波構造の一部が不明瞭な場合においても、直線群に含まれる個々の直線の傾きが持つ共通性に着目することにより、背景雑音の影響が低減された基本周波数の対数の変化量を抽出することができる。
本実施の形態では、音声認識装置に、以上のような原理を利用して、入力された音声信号から基本周波数変化量を抽出する基本周波数変化量抽出装置を備える。音声認識装置とは、概略的には、人間の音声をコンピュータで自動的に認識する音声認識処理を行なうものである。図1は、音声認識装置21のハードウェア構成を示す図である。同図に示されるように、音声認識装置21は、例えばパーソナルコンピュータであり、CPU(Central Processing Unit)22と、ROM(Read Only Memory)23と、RAM(Random Access Memory)24と、HDD(Hard Disk Drive)26と、CD(Compact Disc)−ROMドライブ28と、通信制御装置30と、入力装置31と、表示装置32と、これらを接続するバス25とを備えている。
CPU22は、コンピュータの主要部であって各部を集中的に制御する。ROM23は、BIOSなどの各種プログラムや各種データを記憶した読出し専用メモリである。RAM24は、各種データを書換え可能に記憶するメモリであり、CPU22の作業エリアとして機能してバッファ等の役割を果たす。通信制御装置30は、音声認識装置21とネットワーク29との通信を制御する。入力装置31は、キーボードやマウスなどから構成され、ユーザからの各種操作指示の入力を受け付ける。表示装置32は、CRT(Cathode Ray Tube)やLCD(Liquid Crystal Display)などから構成され、各種情報を表示する。
HDD26は、各種プログラムや各種データを記憶しており、主記憶装置として機能する。CD−ROMドライブ28は、CD−ROM27に記憶された各種データや各種プログラムを読み取る。本実施の形態においては、CD−ROM27は、OS(Operating System)や各種のプログラムを記憶している。CPU22は、CD−ROM27に記憶されているプログラムをCD−ROMドライブ28で読み取り、HDD26にインストールして、インストールしたプログラムを実行して、各種機能を実現させる。
次に、HDD26にインストールされている各種プログラムをCPU22が実行することにより音声認識装置21において実現される機能のうち、本実施の形態に特有の基本周波数変化量抽出機能について説明する。図2は、基本周波数変化量抽出機能を細分化してブロック化して示した図である。同図に示される基本周波数変化量抽出装置100が、基本周波数変化量抽出機能に相当する。基本周波数変化量抽出装置100は、対数周波数スペクトログラム計算部101、ハフ変換部102、直線群抽出部103及び基本周波数変化量計算部104を有する。
対数周波数スペクトログラム計算部101には、所定の間隔の時刻毎(例えば10ms)に、所定の時間範囲(例えば25ms)に分解された音声信号が入力される。この分解された音声信号をフレームという。対数周波数スペクトログラム計算部101は、フレーム毎に入力された音声信号について、時刻毎に、当該時刻を含む所定の時間範囲に含まれる対数周波数スペクトルを連結した、時間(フレーム)及び対数周波数を軸とする対数周波数スペクトログラムを計算する。
図3は、対数周波数スペクトログラム計算部101の構成を例示する図である。対数周波数スペクトログラム計算部101は、周波数分析部111と、対数周波数スペクトル連結部112とを有する。周波数分析部111は、フレーム毎に周波数分析を行い、対数周波数軸上で等間隔に求められた周波数成分からなる対数周波数スペクトルを計算する。具体的には、周波数分析部111は、対数周波数軸上で等間隔となる周波数点に基づいてフーリエ変換やウェーブレット変換を行うことにより、対数周波数スペクトルを計算する。または、周波数分析部111は、線形周波数軸上で等間隔となる周波数点に基づいてフーリエ変換やウェーブレット変換を行うことにより求められた線形周波数スペクトルにおいて周波数軸変換を行うことにより、対数周波数スペクトルを計算する。対数周波数スペクトル連結部112は、時刻毎に、当該時刻を含む所定の時間範囲の対数周波数スペクトルを連結する。この結果、対数周波数スペクトログラムが生成される。
図2の説明に戻る。ハフ変換部102は、対数周波数スペクトログラム計算部101が計算した対数周波数スペクトログラムについて、周波数成分の強さを輝度とした2次元平面画像とみなし、この2次元平面画像において周波数成分の強さを用いて投票を行うことにより、直線を検出するためのハフ変換を行う。この投票の結果の値を投票値という。この投票値が分布する空間をハフ平面と呼ぶ。ハフ変換部102は、このようなハフ平面上の投票値を出力する。尚、直線を検出するためのハフ変換は、例えば、中川聖一、「パターン情報処理」、丸善株式会社、pp.181−187(1999)に示されている方法などを用いて行うことができるが、いずれかの方法に限定されるものではない。
直線群抽出部103は、ハフ変換部102が出力した投票値を用いて、基本周波数変化量の計算に用いる対象となる直線群とその投票値(対象投票値という)とを抽出する。直線群とは、上述したように、傾きが共通である直線の集まりであって、対数周波数スペクトログラムに含まれる調波構造の時系列を表すものである。
基本周波数変化量計算部104は、直線群抽出部103が抽出した直線群及び対象投票値を用いて、基本周波数変化量を計算する。図4は、基本周波数変化量計算部104の構成を例示する図である。基本周波数変化量計算部104は、対象投票値加算部141と、直線群共通傾き抽出部142と、基本周波数変化量算出部143とを有する。対象投票値加算部141は、直線群抽出部103が抽出した直線群から、傾きが等しい全ての直線に対する対象投票値の総和を計算する。直線群共通傾き抽出部142は、対象投票値加算部141が計算した、直線の傾き毎の対象投票値の総和の最大値を探索し、最大値を与える傾きの値を抽出する。基本周波数変化量算出部143は、直線群共通傾き抽出部142が抽出した傾きの値と、線形周波数軸上における周波数の最大値(例えば1600Hz)と、線形周波数軸上における周波数の最小値(例えば200Hz)とを用いて、基本周波数の対数の変化量を計算する。そして、この計算の結果が基本周波数の時間変化量であり、基本周波数変化量である。そして、基本周波数変化量算出部143は計算した基本周波数変化量を出力する。
次に、本実施の形態にかかる基本周波数変化量抽出装置100の行う基本周波数変化量抽出処理の手順について図5を用いて説明する。基本周波数変化量抽出装置100の対数周波数スペクトログラム計算部101の周波数分析部111は、入力された音声信号から1フレーム毎に、周波数分析を行い、対数周波数軸上で等間隔に求められた周波数成分からなる対数周波数スペクトルS(w)を計算する(ステップS1)。t(0<t≦T)は、処理対象のフレームに付与された番号(フレーム番号という)であり、w(0≦w<W)は、対数周波数軸上の周波数点に付与された番号(周波数点番号という)であり、S(w)は、tとwとにおける周波数成分の強さ(パワー)を表している。尚、対数周波数スペクトルを求める際、周波数成分を求める範囲を、例えば音声のエネルギーが相対的に大きい200Hzから1600Hzまでとすることにより、背景雑音の影響を受けにくい対数周波数スペクトルが得られる。
次に、対数周波数スペクトル連結部112が、tを含む近傍のフレーム区間に含まれる対数周波数スペクトルを連結する。この結果、対数周波数スペクトログラムSG(n,w)が生成される(ステップS2)。SG(n,w)は、フレームtの近傍のフレーム区間に含まれるフレームn、対数周波数軸上の周波数点番号wにおける音声の(対数)パワーを表している。尚、連結対象のフレーム区間として、前後に一定の幅(N)を取った区間[t−N:t+N]、後方に一定の幅を取った区間[t−N:t]や前方に一定の幅を取った区間[t:t+N]などが挙げられるが、フレーム区間の取り方はこれらの方法に限定されるものではない。
図6は、音声信号に対する対数周波数スペクトログラムを例示する図である。図の横軸がフレーム番号t、縦軸が対数周波数軸上の周波数点番号wを表している。また、色の濃淡が周波数成分の強さを示しており、色が薄いほど周波数成分が強い様子を表している。同図においては、周波数成分の強い領域が複数の周波数帯域に並んでおり、時間の変化と共にそれらの領域が連続的に変動している様子が見られる。これらの各領域が、有声音のもつ調波成分に相当する。調波成分が見られない部分は、無声音または無音部分である。ここで、図中の枠線は、フレームtにおいて、対数周波数スペクトル連結部112が連結する対象のフレーム区間の例を表している。
図7は、あるフレームtにおいて、生成された対数周波数スペクトログラムを模式的に示す図である。図の横軸が連結対象のフレームnを表し、縦軸が対数周波数軸上の周波数点番号wを表している。ここでは、連結対象のフレーム区間を[t−2:t+2]とした。図中の点が、各フレームにおける調波成分の位置を表している。同図に示されるように、フレーム区間[t−2:t+2]の対数周波数スペクトログラムSG(n,w)において基本周波数の対数の変化量が一定であるならば、各調波成分の時系列は、傾きが共通である直線として与えられる。このとき、各直線は以下の式6により与えられる。
ここで、w’(m)は、フレームtにおけるm番目の調波成分の、対数周波数軸上の周波数点番号を表している。また、d’は、フレームtにおける基本周波数の対数の変化量を、対数周波数軸上の周波数点数で表した量であり、これが直線群を成す直線に共通する傾きに相当する。d’は、基本周波数の対数の変化量dと、以下の式7に示す関係にある。ここで、Fmaxは線形周波数軸上における周波数の最大値(例えば1600Hz)を表し、Fminは線形周波数軸上における周波数の最小値(例えば200Hz)を表している。
図5の説明に戻る。次に、ハフ変換部102が、ステップS2で生成された対数周波数スペクトログラムSG(n,w)について、周波数成分の強さを輝度とした2次元平面画像とみなし、周波数成分の強さを用いて投票を行うことにより、直線を検出するためのハフ変換を行う(ステップS3)。直線を検出するためのハフ変換の例として、直線「y=ax+b」を含む(x,y)平面をハフ平面(a,b)に変換することを考える。ここで、aは直線の傾きを表し、bは直線の切片を表している。このとき、(x,y)平面上の直線「y=ax+b」は、ハフ平面(a,b)上の点(a,b)に変換され、点(a,b)には直線「y=ax+b」上の各点の輝度(周波数成分の強さ)に基づく値の累積値が投票される。この投票の結果を投票値とする。ここで、フレームtにおける点(a,b)の投票値をH(a,b)とする。
次に、対数周波数スペクトログラムSG(n,w)に対して、直線を検出するためのハフ変換を行うことを考える。上述のように、対数周波数スペクトログラムSG(n,w)において基本周波数の対数の変化量が一定であるならば、調波構造の時系列は、傾きが共通である直線の集まりである直線群として表される。このような対数周波数スペクトログラムに対してハフ変換を行うことで、直線群に含まれる個々の直線「w=d’・n+w’(m)」は、それぞれハフ平面(d’、w’)上の点(d’,w’(m))に変換されることになる。すなわち、直線群に含まれる個々の直線は、全てハフ平面上の直線「d’=d’」の点に変換されることになる。また、H(d’,w’(m))には、直線「w=d’・n+w’(m)」上の各点の輝度(周波数成分の強さ)に基づく値の累積値が投票される。図6に示されるように、音声信号に対する対数周波数スペクトログラムにおいて、色が薄いほど、即ち、輝度が大きいほど周波数成分が強く、基本周波数や倍音周波数の周波数成分は他の周波数帯域に比べて周波数成分が強い。このため、基本周波数や倍音周波数に対する直線上の各点がハフ平面上に変換された(d’,w’(m))に対して、H(d’,w’(m))には他の周波数帯域に比べて大きい値が投票されることになる。
尚、ハフ平面(d’,w’)において、d’の値域を、対数周波数スペクトル連結部112がステップS2で連結した対象のフレーム区間における基本周波数の変化量の範囲(例えば、±1オクターブまで)に応じて限定することが好ましい。これにより、計算にかかる時間及び計算に必要なメモリ量を削減することが可能となる。
また、ハフ平面(d’,w’)において、w’の値域を、基本周波数の範囲(例えば、0Hzから400Hzまで)に応じて限定することが好ましい。これにより、計算にかかる時間及び計算に必要なメモリ量を削減することが可能となる。
図8は、図7で示した対数周波数スペクトログラムSG(n,w)に対してハフ変換を行うことで得られたハフ平面を模式的に示す図である。図中の点が、各調波成分の時系列である直線を変換した点(d’,w’(m))を表している。図8においては、直線群に含まれる個々の直線の傾きd’が共通であるため、各調波成分の時系列である直線を変換した点は、直線「d=d’」上に変換されることが示されている。このようにしてハフ変換部102はハフ変換を行って、ハフ平面上の投票値H(d’,w’)を出力する。
図5の説明に戻る。次に、直線群抽出部103が、ステップS3で出力されたハフ平面上の投票値H(d’,w’)を用いて、基本周波数変化量の計算に用いる対象として、ステップS2で生成された対数周波数スペクトログラムに含まれる直線群とその投票値(対象投票値)とを抽出する(ステップS4)。ここで、フレームtにおける対数周波数スペクトログラムSG(n,w)に含まれる直線「w=d’・n+w’」に対する対象投票値をC(d’,w’)とする。
上述のように、調波構造の時系列の直線群「w=d’・n+w’」をハフ平面に変換した各点の投票値H(d’,w’)は大きい値となる。そのため、投票値H(d’,w’)から成分の大きい点を抽出することにより、調波成分の時系列の直線群を抽出することができると共に、それらの直線群の対象投票値は大きい値となる。
例えば、直線群抽出部103は、投票値H(d’,w’)に対して、以下の式8に示すように、閾値θを用いて対象投票値を選択する。即ち、直線群抽出部103は、閾値θ以上である投票値を対象投票値として選択することにより、全ての投票値の中から、基本周波数変化量の計算に用いる対象となる対象投票値を抽出する。尚、閾値θは予め定められていても良いし、動的に求めても良い。
あるいは、直線群抽出部103は、投票値H(d’,w’)の大きい順に所定の順位内の投票値を対象投票値として選択することにより、対象投票値を抽出するようにしても良い。
次に、基本周波数変化量計算部104の対象投票値加算部141が、ステップS4で抽出された直線「w=d’・n+w’」から、傾きd’の値が等しい全ての直線の対象投票値の総和を計算する(ステップS5)。
図9は、図8に示したハフ平面に対して、ステップS5で計算される、傾きd’毎の対象投票値の総和をグラフに表した図である。図の横軸が傾きd’を表し、縦軸が対象投票値の総和C’(d’)を表している。上述のように、調波構造の時系列の直線群は、全て共通の傾きd’を持ち、なおかつ、それらの直線群の対象投票値は大きい値となる。そのため、図9に示されるように、傾きがd’である直線の対象投票値を全て加算することによって得られる総和は非常に大きい値となる。
図5の説明に戻る。次に、直線群共通傾き抽出部142が、ステップS5で計算された、傾きd’毎の信頼度の総和C’(d’)の最大値を探索し、最大値を与えるd’の値d’maxを抽出する(ステップS6)。
その後、基本周波数変化量算出部143が、以下の式9により、d’maxからdmaxを計算する(ステップS7)。これにより、d’maxとして調波構造の時系列の直線群に共通する傾きd’が抽出されていれば、dmaxは基本周波数の対数の変化量dに等しくなる。即ち、式9の計算の結果、基本周波数の対数の変化量dを基本周波数変化量算出部143は得ることができる。
そして、基本周波数変化量算出部143は、ステップS8で得られた基本周波数の対数の変化量dを出力する(ステップS8)。
以上のように、ある時間区間において、基本周波数の対数の変化量が一定であるならば、当該時間区間で計算した対数周波数スペクトログラムにおいて、調波構造は時間方向に連続した直線の集まりである直線群となり、直線群に含まれる個々の直線の傾きは全て基本周波数の対数の変化量に等しくなる。このことから、直線群に含まれる個々の直線に共通する傾きの値を推定することで、基本周波数の抽出や、基本周波数の範囲の限定を必要とせずに、基本周波数変化量を得ることができる。
また、背景雑音によって調波構造の一部が不明瞭な場合においても、直線群に含まれる個々の直線の傾きが持つ共通性に着目することにより、背景雑音の影響が低減された基本周波数変化量を得ることができる。
なお、本発明は前記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。また、以下に例示するような種々の変形が可能である。
上述した実施の形態において、基本周波数変化量抽出装置100は、ステップS3でハフ変換を行う前に、対数周波数スペクトログラムSG(n,w)から特徴点を予め抽出するようにしても良い。そして、ステップS3でハフ変換を行う際に、抽出した特徴点のみを用いてハフ平面への投票を行うことにより、計算にかかる時間、及び計算に必要なメモリ量を削減することが可能となる。特徴点を抽出する方法としては、例えば以下の方法があるが、これらに限定されるものではない。1つは、対数周波数スペクトログラムSG(n,w)の各点の輝度(周波数成分の強さ)と閾値との比較を行い、閾値以上の輝度を持つ点を特徴点として抽出する方法である。この閾値は上述の閾値θと異なるものであるが、同じであっても良いし、また、予め定められていても良いし、動的に求めても良い。また1つは、対数周波数スペクトログラムSG(n,w)の輝度の大きい順に所定の順位以内の点を特徴点として抽出する方法である。この所定の順位は、上述の直線群抽出部103が投票値を抽出する際に用いる所定の順位と同じであっても良いし、異なっていても良い。
上述した実施の形態において、周波数分析部111で計算する対数周波数スペクトルは、スペクトル包絡成分を除いた残差成分の対数周波数スペクトルでも良い。この残差信号の対数周波数スペクトルは、線形予測分析などにより得られる残差信号から求めても良いし、ケプストラムの高次成分のフーリエ変換から求めても良い。
また、周波数分析部111で計算する対数周波数スペクトルは、対数化したケプストラムであっても良い。
また、周波数分析部111で計算する対数周波数スペクトルは、対数化した自己相関関数であっても良い。
上述した実施の形態において、対数周波数スペクトル連結部112で計算される対数周波数スペクトログラムは、振幅の正規化を行った対数周波数スペクトログラムでも良い。振幅を正規化する方法には、具体的には例えば以下のものがある。1つは、対数周波数スペクトログラムの振幅の平均を一定値(例えば0)にする方法である。また1つは、分散を一定値(例えば1)にする方法である。また1つは、最小値と最大値を一定値(例えば0と1)にする方法である。また1つは、対数周波数スペクトログラムを求める音声波形の振幅の分散値を一定値(例えば‘1’)にする方法である。
上述した実施の形態においては、各種プログラムや各種データが記憶される記憶媒体としてCD−ROM27を取り扱ったが、DVDなどの各種の光ディスク、各種光磁気ディスク、フレキシブルディスクなどの各種磁気ディスク等、半導体メモリ等の各種方式のメディアを用いても良い。また、通信制御装置30を介してインターネットなどのネットワーク29からプログラムをダウンロードし、HDD26にインストールするようにしても良い。この場合に、送信側のサーバでプログラムを記憶している記憶装置も、記憶媒体に相当する。なお、音声認識装置21で実行されるプログラムは、所定のOS(Operating System)上で動作するものであっても良い。その場合に上述の各種処理の一部の実行をOSに肩代わりさせるものであっても良いし、所定のアプリケーションソフトやOSなどを構成する一群のプログラムファイルの一部として含まれているものであっても良い。
上述した各実施の形態においては、音声認識装置に備えられる基本周波数変化量抽出装置に適用した例を示したが、これに限らず、基本周波数変化量を必要とする話者認識装置などに、上述の機能を有する基本周波数変化量抽出装置を適用しても良い。
一実施の形態にかかる音声認識装置21のハードウェア構成を示す図である。 同実施の形態にかかる基本周波数変化量抽出機能を細分化してブロック化して示した図である。 同実施の形態にかかる対数周波数スペクトログラム計算部101の構成を例示する図である。 同実施の形態にかかる基本周波数変化量計算部104の構成を例示する図である。 同実施の形態にかかる基本周波数変化量抽出装置100の行う基本周波数変化量抽出処理の手順を示すフローチャートである。 同音声信号に対する対数周波数スペクトログラムを例示する図である。 あるフレームtにおいて、生成された対数周波数スペクトログラムを模式的に示す図である。 図7で示した対数周波数スペクトログラムSG(n,w)に対してハフ変換を行うことで得られたハフ平面を模式的に示す図である。 図8に示したハフ平面に対して、ステップS5で計算される、傾きd’毎の対象投票値の総和をグラフに表した図である。
符号の説明
101 対数周波数スペクトログラム計算部
102 ハフ変換部
103 直線群抽出部

Claims (9)

  1. 入力された音声信号に基づいて、対数周波数軸上で等間隔に求められた周波数成分からなる対数周波数スペクトルであって時刻毎に当該時刻を含む所定の時間範囲の対数周波数スペクトルを連結した対数周波数スペクトログラムを計算する対数周波数スペクトログラム計算部と、
    前記対数周波数スペクトログラムの時系列の各時刻において、当該対数周波数スペクトログラムについて周波数成分の強さを用いて投票を行うことにより、直線を検出するためのハフ変換を行うハフ変換部と、
    前記投票の結果である投票値を用いて、直線の集まりである直線群と、周波数成分の強さが第1閾値より大きい投票値又は周波数成分の強さの大きい順に所定の順位以内の投票値とを抽出する直線群抽出部と、
    前記直線群に含まれる個々の直線の傾きと抽出された前記投票値とを用いて、基本周波数の時間変化量を計算する基本周波数変化量計算部と、
    を備えることを特徴とする基本周波数変化量抽出装置。
  2. 前記基本周波数変化量計算部は、
    任意の傾き毎に、当該傾きを共通に持つ前記直線について抽出された前記投票値を加算する対象投票値加算部と、
    任意の傾きから、加算された前記投票値の総和の最大値を与える傾きを抽出する傾き抽出部と、
    抽出された傾きを用いて、基本周波数の時間変化量を計算する基本周波数変化量算出部と、
    を有することを特徴とする請求項1に記載の基本周波数変化量抽出装置。
  3. 前記基本周波数変化量算出部は、抽出された傾きと、線形周波数軸上における周波数の最大値と、線形周波数軸上における周波数の最小値とを用いて、基本周波数の時間変化量を計算することを特徴とする請求項2に記載の基本周波数変化量抽出装置。
  4. 前記対数周波数スペクトログラムから、周波数成分の強さが第2閾値より大きい特徴点又は周波数成分の強さの大きい順に所定の順位以内の特徴点を抽出する特徴点抽出部を更に備え、
    前記ハフ変換部は、抽出された前記特徴点の周波数成分の強さのみを用いて投票を行うことにより、前記ハフ変換を行うことを特徴とする請求項1乃至請求項3のいずれか1項に記載の基本周波数変化量抽出装置。
  5. 前記特徴点抽出部は、前記対数周波数スペクトログラムの各点に対して、周波数成分の強さと前記第2閾値との比較を行い、周波数成分の強さが前記第2閾値より大きい点を前記特徴点として抽出することを特徴とする請求項4に記載の基本周波数変化量抽出装置。
  6. 前記特徴点抽出部は、前記対数周波数スペクトログラムの各点に対して、周波数成分の強さの大きい順に所定の順位以内の点を前記特徴点として抽出することを特徴とする請求項4に記載の基本周波数変化量抽出装置。
  7. 前記対数周波数スペクトログラム計算部は、
    所定の間隔の時刻毎に所定の時間範囲に分解された前記音声信号であるフレーム毎に周波数分析を行い、前記対数周波数スペクトルを計算する周波数分析部と、
    時刻毎に、当該時刻を含む所定の時間範囲の対数周波数スペクトルを連結する対数周波数スペクトログラム連結部と、
    を有することを特徴とする請求項1乃至請求項6のいずれか1項に記載の基本周波数変化量抽出装置。
  8. 対数周波数スペクトログラム計算部と、ハフ変換部と、直線群抽出部と、基本周波数変化量計算部とを備える基本周波数変化量抽出装置で実行される基本周波数変化量抽出方法であって、
    前記対数周波数スペクトログラム計算部が、入力された音声信号に基づいて、対数周波数軸上で等間隔に求められた周波数成分からなる対数周波数スペクトルであって時刻毎に当該時刻を含む所定の時間範囲の対数周波数スペクトルを連結した対数周波数スペクトログラムを計算する対数周波数スペクトログラム計算ステップと、
    前記ハフ変換部が、前記対数周波数スペクトログラムの時系列の各時刻において、当該対数周波数スペクトログラムについて周波数成分の強さを用いて投票を行うことにより、直線を検出するためのハフ変換を行うハフ変換ステップと、
    前記直線群抽出部が、前記投票の結果である投票値を用いて、直線の集まりである直線群と、周波数成分の強さが第1閾値より大きい投票値又は周波数成分の強さの大きい順に所定の順位以内の投票値とを抽出する直線群抽出ステップと、
    前記基本周波数変化量計算部が、前記直線群に含まれる個々の直線の傾きと抽出された前記投票値とを用いて、基本周波数の時間変化量を計算する基本周波数変化量計算ステップと、
    を含むことを特徴とする基本周波数変化量抽出方法。
  9. 請求項8に記載の基本周波数変化量抽出方法をコンピュータに実行させることを特徴とするプログラム。
JP2008248000A 2008-09-26 2008-09-26 基本周波数変化量抽出装置、方法及びプログラム Active JP4585590B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008248000A JP4585590B2 (ja) 2008-09-26 2008-09-26 基本周波数変化量抽出装置、方法及びプログラム
US12/556,382 US8554546B2 (en) 2008-09-26 2009-09-09 Apparatus and method for calculating a fundamental frequency change

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008248000A JP4585590B2 (ja) 2008-09-26 2008-09-26 基本周波数変化量抽出装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2010078990A JP2010078990A (ja) 2010-04-08
JP4585590B2 true JP4585590B2 (ja) 2010-11-24

Family

ID=42058385

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008248000A Active JP4585590B2 (ja) 2008-09-26 2008-09-26 基本周波数変化量抽出装置、方法及びプログラム

Country Status (2)

Country Link
US (1) US8554546B2 (ja)
JP (1) JP4585590B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996628A (zh) * 2009-08-21 2011-03-30 索尼株式会社 提取语音信号的韵律特征的方法和装置
WO2013046629A1 (ja) * 2011-09-30 2013-04-04 旭化成株式会社 基本周波数抽出装置および基本周波数抽出方法
US9965685B2 (en) * 2015-06-12 2018-05-08 Google Llc Method and system for detecting an audio event for smart home devices
KR102164306B1 (ko) * 2019-12-31 2020-10-12 브레인소프트주식회사 디제이변환에 기초한 기본주파수 추출 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2940835B2 (ja) * 1991-03-18 1999-08-25 日本電信電話株式会社 ピッチ周波数差分特徴量抽出法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009047831A (ja) 2007-08-17 2009-03-05 Toshiba Corp 特徴量抽出装置、プログラムおよび特徴量抽出方法
JP4599420B2 (ja) 2008-02-29 2010-12-15 株式会社東芝 特徴量抽出装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2940835B2 (ja) * 1991-03-18 1999-08-25 日本電信電話株式会社 ピッチ周波数差分特徴量抽出法

Also Published As

Publication number Publication date
US8554546B2 (en) 2013-10-08
US20100082336A1 (en) 2010-04-01
JP2010078990A (ja) 2010-04-08

Similar Documents

Publication Publication Date Title
US8073686B2 (en) Apparatus, method and computer program product for feature extraction
US8831942B1 (en) System and method for pitch based gender identification with suspicious speaker detection
JP2009047831A (ja) 特徴量抽出装置、プログラムおよび特徴量抽出方法
JP5949550B2 (ja) 音声認識装置、音声認識方法、及びプログラム
JP4182444B2 (ja) 信号処理装置、信号処理方法、及びプログラム
JP2000298475A (ja) 和音判定装置、方法及び記録媒体
KR20080065910A (ko) 정보처리장치 및 방법과 프로그램
JP2008139568A (ja) 音声処理装置および音声処理方法、並びに、プログラム
JP2006195449A (ja) 声質判定装置、声質判定方法、および声質判定プログラム
JP4585590B2 (ja) 基本周波数変化量抽出装置、方法及びプログラム
Yarra et al. A mode-shape classification technique for robust speech rate estimation and syllable nuclei detection
KR20070069631A (ko) 음성 신호에서 음소를 분절하는 방법 및 그 시스템
JP5924968B2 (ja) 楽譜位置推定装置、及び楽譜位置推定方法
JP4630183B2 (ja) 音声信号分析装置、音声信号分析方法及び音声信号分析プログラム
JP2008256942A (ja) 音声合成データベースのデータ比較装置及び音声合成データベースのデータ比較方法
JP4839970B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
RU2559689C2 (ru) Способ определения риска развития заболеваний индивида по его голосу и аппаратно-программный комплекс для реализации способа
US8103512B2 (en) Method and system for aligning windows to extract peak feature from a voice signal
Ni et al. Quantitative and structural modeling of voice fundamental frequency contours of speech in Mandarin
JP2010060846A (ja) 合成音声評価システム及び合成音声評価方法
Płonkowski Using bands of frequencies for vowel recognition for Polish language
JP4760179B2 (ja) 音声特徴量算出装置およびプログラム
JP4362072B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP2009086476A (ja) 音声処理装置、音声処理方法、およびプログラム
JP6790851B2 (ja) 音声処理プログラム、音声処理方法、及び音声処理装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100721

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100810

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100903

R151 Written notification of patent or utility model registration

Ref document number: 4585590

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130910

Year of fee payment: 3