JP2015031913A - 音声処理装置、音声処理方法、及びプログラム - Google Patents
音声処理装置、音声処理方法、及びプログラム Download PDFInfo
- Publication number
- JP2015031913A JP2015031913A JP2013163239A JP2013163239A JP2015031913A JP 2015031913 A JP2015031913 A JP 2015031913A JP 2013163239 A JP2013163239 A JP 2013163239A JP 2013163239 A JP2013163239 A JP 2013163239A JP 2015031913 A JP2015031913 A JP 2015031913A
- Authority
- JP
- Japan
- Prior art keywords
- section
- frame
- voiced
- reverberation
- power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
【課題】簡易な構成で処理負担が軽い、残響区間の推定技術を提供すること。
【解決手段】音声処理装置は、発声区間と残響区間からなる有声区間と、無声区間とを含む入力音声の波形データについて、有声区間を推定する。音声処理装置は、推定された有声区間の波形データから、フレーム単位のパワースペクトルに変換する。音声処理装置は、有声区間のパワースペクトルを用いて、時間の順方向又は逆方向に注目フレームを順次設定していき、注目フレームを含む所定数のフレーム群のパワースペクトルに基づいて指標値を演算し、注目フレームと前回の注目フレームとの指標値の差分を演算し、その差分値に基づいて残響区間を推定する。
【選択図】図3
【解決手段】音声処理装置は、発声区間と残響区間からなる有声区間と、無声区間とを含む入力音声の波形データについて、有声区間を推定する。音声処理装置は、推定された有声区間の波形データから、フレーム単位のパワースペクトルに変換する。音声処理装置は、有声区間のパワースペクトルを用いて、時間の順方向又は逆方向に注目フレームを順次設定していき、注目フレームを含む所定数のフレーム群のパワースペクトルに基づいて指標値を演算し、注目フレームと前回の注目フレームとの指標値の差分を演算し、その差分値に基づいて残響区間を推定する。
【選択図】図3
Description
本発明は、音声処理装置、音声処理方法、及びプログラムに関する。
従来から音声を用いた電子機器が普及しつつある。これらの電子機器は、入力される音声を認識して、機器本体の動作を制御したり、あるいは新たな音声データを生成して、音声を発生したりすることが可能である。
こうした動作を実現させるためには、認識されるあるいは発音させるべき音声を表わす音声データを事前に用意することが必要である。これら音声データは、実際に発音され録音された音声をデータ化することにより得られるが、録音された音声をデータ化しただけでそのまま用いることはできない。
なぜなら、録音されたままの音声データには、音声データ本体だけでなく、発声されたときの外的環境により生じる残響音のデータ(以下、「残響データ」と呼ぶ)が混在しているからである。この残響データを含んだ音声データをそのまま認識や生成に用いると、認識率の低下や発生された音声データの品質劣化を招いてしまう。このため、収録される音声データには、残響データが含まれない方が好適である。
このため、従来から音声データから残響データを含む区間を推定する技術が研究開発されている(例えば特許文献1参照)。
こうした動作を実現させるためには、認識されるあるいは発音させるべき音声を表わす音声データを事前に用意することが必要である。これら音声データは、実際に発音され録音された音声をデータ化することにより得られるが、録音された音声をデータ化しただけでそのまま用いることはできない。
なぜなら、録音されたままの音声データには、音声データ本体だけでなく、発声されたときの外的環境により生じる残響音のデータ(以下、「残響データ」と呼ぶ)が混在しているからである。この残響データを含んだ音声データをそのまま認識や生成に用いると、認識率の低下や発生された音声データの品質劣化を招いてしまう。このため、収録される音声データには、残響データが含まれない方が好適である。
このため、従来から音声データから残響データを含む区間を推定する技術が研究開発されている(例えば特許文献1参照)。
しかしながら、特許文献1を含め従来の方式は、複雑な構成でかつ、処理負担の重いものであり、特許文献1に示されるような方式を適用することは、電子機器本体の機能を制約するおそれがあった。
本発明は、このような状況に鑑みてなされたものであり、簡易な構成で処理負担が軽い、残響区間の推定技術を実現することを目的とする。
上記目的を達成するため、本発明の一態様の音声処理装置は、
発声区間及び残響区間からなる有声区間と、無声区間とを含む音声データについて、有声区間を推定する有声区間推定手段と、
前記推定された前記有声区間内に含まれる音声波形データを、フレーム単位に分割し、当該各フレーム単位における音声データのパワーを夫々算出する算出手段と、
前記推定された有声区間に含まれる各フレームを所定の時間方向に順次注目フレームとして設定する注目フレーム設定手段と、
前記算出された有声区間内のフレーム単位のパワーを用いて、前記設定された注目フレームを含む所定数のフレーム群のパワーに関する指標値を演算するとともに前記注目フレームと前回設定された注目フレームとの指標値の差分を演算し、当該差分値に基づいて残響区間を推定する残響区間推定手段と、
を備えることを特徴とする。
発声区間及び残響区間からなる有声区間と、無声区間とを含む音声データについて、有声区間を推定する有声区間推定手段と、
前記推定された前記有声区間内に含まれる音声波形データを、フレーム単位に分割し、当該各フレーム単位における音声データのパワーを夫々算出する算出手段と、
前記推定された有声区間に含まれる各フレームを所定の時間方向に順次注目フレームとして設定する注目フレーム設定手段と、
前記算出された有声区間内のフレーム単位のパワーを用いて、前記設定された注目フレームを含む所定数のフレーム群のパワーに関する指標値を演算するとともに前記注目フレームと前回設定された注目フレームとの指標値の差分を演算し、当該差分値に基づいて残響区間を推定する残響区間推定手段と、
を備えることを特徴とする。
本発明によれば、簡易な構成で処理負担が軽い、残響区間の推定技術を実現することができる。
以下、本発明の実施形態について、図面を用いて説明する。
図1は、本発明の一実施形態に係る音声処理装置のハードウェアの構成を示すブロック図である。
音声処理装置1は、CPU(Central Processing Unit)11と、ROM(Read Only Memory)12と、RAM(Random Access Memory)13と、バス14と、入出力インターフェース15と、出力部16と、入力部17と、記憶部18と、通信部19と、FFT(Fast Fourier Transform)部20と、ドライブ21と、を備えている。
CPU11は、ROM12に記録されているプログラム、又は、記憶部18からRAM13にロードされたプログラムに従って各種の処理を実行する。
RAM13には、CPU11が各種の処理を実行する上において必要なデータ等も適宜記憶される。
CPU11、ROM12及びRAM13は、バス14を介して相互に接続されている。このバス14にはまた、入出力インターフェース15も接続されている。入出力インターフェース15には、出力部16、入力部17、記憶部18、通信部19、FFT部20及びドライブ21が接続されている。
出力部16は、ディスプレイやスピーカ等で構成され、画像や音声を出力する。
入力部17は、マイクロフォンを含むように構成され、音声を入力する。なお、入力部17には必要に応じて、ユーザの指示操作に応じて各種情報を入力するキーボード等の操作部も設けられる。
記憶部18は、ハードディスクあるいはDRAM(Dynamic Random Access Memory)等で構成され、各種音声のデータを記憶する。
通信部19は、インターネットを含むネットワークを介して他の装置(図示せず)との間で行う通信を制御する。
FFT部20は、録音された音声のデータに対して、FFT処理を施す。FFT処理については、図3等を参照して後述する。
入力部17は、マイクロフォンを含むように構成され、音声を入力する。なお、入力部17には必要に応じて、ユーザの指示操作に応じて各種情報を入力するキーボード等の操作部も設けられる。
記憶部18は、ハードディスクあるいはDRAM(Dynamic Random Access Memory)等で構成され、各種音声のデータを記憶する。
通信部19は、インターネットを含むネットワークを介して他の装置(図示せず)との間で行う通信を制御する。
FFT部20は、録音された音声のデータに対して、FFT処理を施す。FFT処理については、図3等を参照して後述する。
ドライブ21には、磁気ディスク、光ディスク、光磁気ディスク、あるいは半導体メモリ等よりなる、リムーバブルメディア31が適宜装着される。ドライブ21によってリムーバブルメディア31から読み出されたプログラムは、必要に応じて記憶部18にインストールされる。また、リムーバブルメディア31は、記憶部18に記憶されている音声のデータ等の各種データも、記憶部18と同様に記憶することができる。
このような構成を有する本実施形態の音声処理装置1は、残響推定処理を実行することができる。
残響推定処理とは、音声処理装置1に入力(録音)されたモノラルの音の波形のデータ(以下、「入力波形データ」と呼ぶ)について、それに含まれる残響部分の区間(以下、「残響区間」と呼ぶ)を推定するまでの一連の処理をいう。
以下、図2及び図3を参照して、残響推定処理の概要について説明する。
残響推定処理とは、音声処理装置1に入力(録音)されたモノラルの音の波形のデータ(以下、「入力波形データ」と呼ぶ)について、それに含まれる残響部分の区間(以下、「残響区間」と呼ぶ)を推定するまでの一連の処理をいう。
以下、図2及び図3を参照して、残響推定処理の概要について説明する。
図2は、残響推定処理の結果を示す、録音されたモノラルの音の波形のデータを示している。
CPU11は、入力波形データから、有声区間の時間的後に無声区間が含まれる一定時間(例えば0.5秒以上)の波形データを、残響推定処理の対象として取得する。以下、このようにして残響推定処理の対象として取得された波形データを、「処理対象波形データ」と呼ぶ。図2に示す波形データAOは、処理対象波形データの一例を示しており、以下説明に用いる。
FFT部20(図1)は、処理対象波形データAOに対して、FFT処理の一形態である短時間フーリエ変換処理を施す。具体的には本実施形態では、サンプリング周波数16kHz、20〜30msを1フレーム(480サンプル)とした、フーリエ変換サイズ512の短時間フーリエ変換処理が、処理対象波形データAOに対して施される。
CPU11は、入力波形データから、有声区間の時間的後に無声区間が含まれる一定時間(例えば0.5秒以上)の波形データを、残響推定処理の対象として取得する。以下、このようにして残響推定処理の対象として取得された波形データを、「処理対象波形データ」と呼ぶ。図2に示す波形データAOは、処理対象波形データの一例を示しており、以下説明に用いる。
FFT部20(図1)は、処理対象波形データAOに対して、FFT処理の一形態である短時間フーリエ変換処理を施す。具体的には本実施形態では、サンプリング周波数16kHz、20〜30msを1フレーム(480サンプル)とした、フーリエ変換サイズ512の短時間フーリエ変換処理が、処理対象波形データAOに対して施される。
このような短時間フーリエ変換処理の結果、図3に示すような、フレームを単位とするパワースペクトルが得られる。
図3は、図2の処理対象波形データAOに対して短時間フーリエ変換処理が施された結果得られた、パワースペクトルを示している。
なお、パワー(エネルギー)の強度は、本来的には色調で示されるものであるが、紙面の関係上、図3の例では、濃淡で示されている。即ち、色が濃くなる程、パワーが強くなるように示されている。ただし、領域Aにおいては、強度が一定を超えた、非常に強いパワーの部分は白色になっている。即ち、図3の例では、領域A内において、パワーの強度が最高になっている。
図3は、図2の処理対象波形データAOに対して短時間フーリエ変換処理が施された結果得られた、パワースペクトルを示している。
なお、パワー(エネルギー)の強度は、本来的には色調で示されるものであるが、紙面の関係上、図3の例では、濃淡で示されている。即ち、色が濃くなる程、パワーが強くなるように示されている。ただし、領域Aにおいては、強度が一定を超えた、非常に強いパワーの部分は白色になっている。即ち、図3の例では、領域A内において、パワーの強度が最高になっている。
CPU11は、図2の処理対象波形データAOを時間的に逆方向にサーチしていき、つまり、無声区間から有声区間の方向にサーチしていき、当該処理対象波形データAOの振幅が徐々に大きくなり始めている区間(一定時間幅)を、無声区間と有声区間の境目区間として決定する。
次に、CPU11は、図3のパワースペクトルを用いて、この境目区間の中から、無声区間と有声区間の境目(時点)を推定する。具体的には、CPU11は、この境目区間からNフレーム分(Nは1以上の任意の整数値)の探索範囲を設定し、探索範囲内において、隣接する2つのフレームの周波数毎のパワーの差分を夫々求める。そして、CPU11は、例えば、この差分値が一定以上に大きい2つのフレームの間の位置を、無声区間と有声区間の境目(時点)として推定する。
次に、CPU11は、図3のパワースペクトルを用いて、この境目区間の中から、無声区間と有声区間の境目(時点)を推定する。具体的には、CPU11は、この境目区間からNフレーム分(Nは1以上の任意の整数値)の探索範囲を設定し、探索範囲内において、隣接する2つのフレームの周波数毎のパワーの差分を夫々求める。そして、CPU11は、例えば、この差分値が一定以上に大きい2つのフレームの間の位置を、無声区間と有声区間の境目(時点)として推定する。
次に、CPU11は、図2の処理対象波形データAOのうち、始端部から、先に推定した境目(時点)までの波形データを、有声区間の波形データとして取得する。
CPU11は、有声区間の波形データの中から、例えば時間軸の逆方向に、処理の対象として注目すべきフレーム(以下、「注目フレーム」と呼ぶ)を順次設定していく。この場合、注目フレームの設定間隔は、特に限定されず、1フレーム毎でもよいが、本実施形態では、Mフレーム分(Mは、Nとは独立した1以上の任意の整数値)の半分の時間であるとする。
この場合、CPU11は、注目フレームを終端部として時間軸の逆方向にMフレーム分のデータを、処理の1単位となるデータ(以下、「単位データ」と呼ぶ)として取得する。そして、CPU11は、図3のパワースペクトルを用いて、単位データ内における、ピッチ周波数のパワーの平均値(以下、「パワー平均」と呼ぶ)を算出する。
ここで、ピッチ周波数は、発声区間における最大パワーと推定できる。具体的には例えば図3の例では、領域A内の周波数がピッチ周波数として推定される。
ここで、通常の発話区間の場合には、ピッチ周波数のパワーの変動が大きいものであると予測できる。しかしながら、残響区間直前の発話区間は、語尾を言い切る直前なのでパワーの値自体は高いが、パワーの変動は小さいものと考えられる。換言すると、ピッチ周波数のパワーの変動が小さい区間は、残響区間直前の発話区間である可能性が高いと予測できる。
そこで、CPU11は、注目フレームのパワー平均と、前回注目フレームであったフレーム(以下、「前回フレーム」と呼ぶ)のパワー平均との差分値が一定(閾値)以下であるか否かを判定し、一定以下であると判定した場合、前回フレームの終端部(時点)が、発話区間と残響区間の境目(時点)であると判定することができる。
この場合、CPU11は、注目フレームを終端部として時間軸の逆方向にMフレーム分のデータを、処理の1単位となるデータ(以下、「単位データ」と呼ぶ)として取得する。そして、CPU11は、図3のパワースペクトルを用いて、単位データ内における、ピッチ周波数のパワーの平均値(以下、「パワー平均」と呼ぶ)を算出する。
ここで、ピッチ周波数は、発声区間における最大パワーと推定できる。具体的には例えば図3の例では、領域A内の周波数がピッチ周波数として推定される。
ここで、通常の発話区間の場合には、ピッチ周波数のパワーの変動が大きいものであると予測できる。しかしながら、残響区間直前の発話区間は、語尾を言い切る直前なのでパワーの値自体は高いが、パワーの変動は小さいものと考えられる。換言すると、ピッチ周波数のパワーの変動が小さい区間は、残響区間直前の発話区間である可能性が高いと予測できる。
そこで、CPU11は、注目フレームのパワー平均と、前回注目フレームであったフレーム(以下、「前回フレーム」と呼ぶ)のパワー平均との差分値が一定(閾値)以下であるか否かを判定し、一定以下であると判定した場合、前回フレームの終端部(時点)が、発話区間と残響区間の境目(時点)であると判定することができる。
しかしながら、残響区間直前の発話区間でなくとも、ピッチ周波数のパワーの変動が少ない範囲が存在し得る。従って、注目フレームと前回フレームとのパワー平均の差分が少ないことだけでは、発話区間と残響区間の境目であると判定するのは誤判定のおそれがでてくる。
そこで、本実施形態では、CPU11は、さらに、有声区間の波形データからパワー平均の最大値を求める。このパワー平均の最大値は発話区間内で求められるはずであり、発話区間内のパワー平均は当該最大値よりさほど低下しないと予測される。換言すると、パワー平均が当該最大値から一定以上(例えば20%以上)低下している場合には、残響区間であると予測することが可能になる。
従って、本実施形態では、CPU11は、注目フレームのパワー平均がその最大値から一定以上(例えば20%以上)低下した場合であって、かつ、注目フレームと前回フレームとのパワー平均の差分が一定以下であると判定した場合、前回フレームの位置が、発話区間と残響区間の境目(時点)であると判定する。
これにより、CPU11は、有声区間の波形データのうち、始端部から当該境目までを、発話区間と推定し、当該境目から終端部までを、残響区間として推定することができる。
そこで、本実施形態では、CPU11は、さらに、有声区間の波形データからパワー平均の最大値を求める。このパワー平均の最大値は発話区間内で求められるはずであり、発話区間内のパワー平均は当該最大値よりさほど低下しないと予測される。換言すると、パワー平均が当該最大値から一定以上(例えば20%以上)低下している場合には、残響区間であると予測することが可能になる。
従って、本実施形態では、CPU11は、注目フレームのパワー平均がその最大値から一定以上(例えば20%以上)低下した場合であって、かつ、注目フレームと前回フレームとのパワー平均の差分が一定以下であると判定した場合、前回フレームの位置が、発話区間と残響区間の境目(時点)であると判定する。
これにより、CPU11は、有声区間の波形データのうち、始端部から当該境目までを、発話区間と推定し、当該境目から終端部までを、残響区間として推定することができる。
さらに以下、図4乃至図6のフローチャートを参照して、残響推定処理の詳細例について説明する。
図4乃至図6は、図1の音声処理装置1が実行する残響推定処理の流れを説明するフローチャートである。
図4乃至図6は、図1の音声処理装置1が実行する残響推定処理の流れを説明するフローチャートである。
図4のステップS1において、CPU11は、入力波形データの中から、例えば0.5秒以上の区間のデータを、処理対象波形データ(候補)として取得する。
ステップS2において、CPU11は、ステップS1で取得した処理対象波形データ(候補)に無声区間が含まれているか否かを判定する。
本実施形態では、処理対象波形データに無声区間が含まれていることが前提とされるので、ステップS1で取得された処理対象波形データ(候補)に無声区間が含まれていない場合、それ以降の処理ができないので、ステップS2においてNOであると判定されて、処理はステップS3に進み、次のような処理が実行される。
ステップS3において、CPU11は、ステップS1で取得した処理対象波形データ(候補)に、入力波形データの終端部が含まれるか否かを判定する。
ステップS1で取得された処理対象波形データ(候補)に、入力波形データの終端部が含まれていた場合、入力波形データには無声区間が含まれていなかったことを意味するので、ステップS3においてYESであると判定されて、残響推定処理は終了となる。
これに対して、ステップS1で取得された処理対象波形データ(候補)に、入力波形データの終端部が含まれていない場合、入力波形データに無声区間が含まれている可能性が未だあるので、ステップS3においてNOであると判定されて、処理はステップS4に進む。
ステップS4において、CPU11は、取得の始点を、処理対象波形データの半分の時間シフトする。
その後処理はステップS1に戻され、それ以降の処理が繰り返される。即ち、例えば処理対象波形データの区間が0.5秒ならば、ステップS1において、その半分の0.25秒先のデータが始点となり、始点から0.5秒以上の区間が処理対象データ(候補)として新たに取得される。
この新たに取得された処理対象データ(候補)に無声区間が含まれていないならば、ステップS2においてNOと判定されて、処理はステップS3に進む。即ち、処理対象データ(候補)に無声区間が含まれるようになるまで、ステップS1乃至S4のループ処理が繰り返される。
そして、処理対象データ(候補)に無声区間が含まれるようになると、ステップS2においてYESであると判定されて、処理はステップS5に進む。
ステップS2において、CPU11は、ステップS1で取得した処理対象波形データ(候補)に無声区間が含まれているか否かを判定する。
本実施形態では、処理対象波形データに無声区間が含まれていることが前提とされるので、ステップS1で取得された処理対象波形データ(候補)に無声区間が含まれていない場合、それ以降の処理ができないので、ステップS2においてNOであると判定されて、処理はステップS3に進み、次のような処理が実行される。
ステップS3において、CPU11は、ステップS1で取得した処理対象波形データ(候補)に、入力波形データの終端部が含まれるか否かを判定する。
ステップS1で取得された処理対象波形データ(候補)に、入力波形データの終端部が含まれていた場合、入力波形データには無声区間が含まれていなかったことを意味するので、ステップS3においてYESであると判定されて、残響推定処理は終了となる。
これに対して、ステップS1で取得された処理対象波形データ(候補)に、入力波形データの終端部が含まれていない場合、入力波形データに無声区間が含まれている可能性が未だあるので、ステップS3においてNOであると判定されて、処理はステップS4に進む。
ステップS4において、CPU11は、取得の始点を、処理対象波形データの半分の時間シフトする。
その後処理はステップS1に戻され、それ以降の処理が繰り返される。即ち、例えば処理対象波形データの区間が0.5秒ならば、ステップS1において、その半分の0.25秒先のデータが始点となり、始点から0.5秒以上の区間が処理対象データ(候補)として新たに取得される。
この新たに取得された処理対象データ(候補)に無声区間が含まれていないならば、ステップS2においてNOと判定されて、処理はステップS3に進む。即ち、処理対象データ(候補)に無声区間が含まれるようになるまで、ステップS1乃至S4のループ処理が繰り返される。
そして、処理対象データ(候補)に無声区間が含まれるようになると、ステップS2においてYESであると判定されて、処理はステップS5に進む。
ステップS5において、CPU11は、直前のステップS1で処理対象波形データ(候補)として取得した波形データに対してさらに、前後2秒のデータを追加することで、処理対象波形データを生成する。具体的には例えば図2の処理対象波形データAOが、このステップS5の処理で生成される。
ステップS6において、CPU11は、処理対象波形データの終端部から(即ち無声区間から)サーチして、波形の振幅が徐々に大きくなり始めている部分を、無声区間と有声区間との境目区間(一定時間幅)として取得する。
なお、以下のステップS7の処理では、処理対象波形データから変換されたパワースペクトルが用いられる。従って、ステップS5の処理で処理対象波形データが生成されてから、ステップS7の処理が開始される前の任意のタイミングで、CPU11による残響推定処理とは並行して、FFT部20によって、処理対象波形データから図3等のパワースペクトルが求められているものとする。
ステップS7において、CPU11は、図3等のパワースペクトルについて、ステップS6で取得した境目区間から、Nフレーム分の探索範囲を設定し、当該探索範囲内における、隣接する2つのフレーム間の周波数毎のパワーの差分を取る。
ステップS8において、CPU11は、その差分値の変動が小さいか否かを判定する。
差分値の変動が小さい場合、隣接する2つのフレーム間は境目(時点)でないことを意味するので、ステップS8においてYESであると判定されて、処理はステップS9に進む。
ステップS9において、CPU11は、フレームの比較範囲を、フレームの半分の時間だけ、例えば時間軸逆方向にシフトし、処理をステップS7に進める。なお、ステップS9におけるシフトの方向及び量については、例示に過ぎず、任意の方向及び量を設定可能である。
次のステップS7では、時間軸逆方向に1つずつフレームが移行した、2つの隣接するフレーム間の差分が取られることになる。
即ち、差分値の変動が一定以上に大きくなるまでの間、ステップS7乃至S9のループ処理が繰り返されて、差分対象の隣接する2つのフレームの組合せが、時間軸逆方向に1組ずつ移行しながら、その都度パワーの差分が取られていく。
そして、差分値の変動が一定以上に大きくなると、ステップS8においてNOであると判定されて、処理は図5のステップS10に進む。
ステップS8において、CPU11は、その差分値の変動が小さいか否かを判定する。
差分値の変動が小さい場合、隣接する2つのフレーム間は境目(時点)でないことを意味するので、ステップS8においてYESであると判定されて、処理はステップS9に進む。
ステップS9において、CPU11は、フレームの比較範囲を、フレームの半分の時間だけ、例えば時間軸逆方向にシフトし、処理をステップS7に進める。なお、ステップS9におけるシフトの方向及び量については、例示に過ぎず、任意の方向及び量を設定可能である。
次のステップS7では、時間軸逆方向に1つずつフレームが移行した、2つの隣接するフレーム間の差分が取られることになる。
即ち、差分値の変動が一定以上に大きくなるまでの間、ステップS7乃至S9のループ処理が繰り返されて、差分対象の隣接する2つのフレームの組合せが、時間軸逆方向に1組ずつ移行しながら、その都度パワーの差分が取られていく。
そして、差分値の変動が一定以上に大きくなると、ステップS8においてNOであると判定されて、処理は図5のステップS10に進む。
ステップS10において、CPU11は、ステップS9(図4)で差分値の変動が一定以上大きくなったと判定した(それに該当した)フレームのひとつ前のフレームの位置を、無声区間と有声区間の境目(時点)として、処理対象波形データの始端部から当該境目までのデータを、有声区間のデータとして取り出す。
ステップS11において、CPU11は、終端部を注目フレームとするMフレーム分の単位データを取得し、図3等のパワースペクトルを用いて、パワー平均(単位データ内における、ピッチ周波数のパワーの平均値)を算出する。
ステップS12において、CPU11は、ステップS11で算出した注目フレームのパワー平均が、前回フレーム(前回の注目フレーム)のパワー平均より大きいか否かを判定する。
注目フレームのパワー平均が、前回フレームのパワー平均より大きい場合、ステップS12においてYESであると判定されて、処理はステップS13に進む。
ステップS13において、CPU11は、ステップS11で算出した注目フレームのパワー平均を上書き保存する。
即ち、ステップS13の処理目的は、これまでの中で最大のパワー平均を保存すること、換言すると、有声区間のデータ内で最大のパワー平均の候補を保存することである。このため、注目フレームのパワー平均が、前回フレームのパワー平均以下の場合、ステップS13の注目フレームのパワー平均の上書き保存は不要である。そこで、このような場合、ステップS12においてNOであると判定されて、ステップS13の処理は実行されずに、処理はステップS14に進む。
即ち、ステップS12においてNOであると判定された後、又はステップS13の処理後、ステップS14において、CPU11は、注目フレームが始端部か否かを判定する。
なお、このステップS14の処理目的は、パワー平均を未だ演算していない単位データ(Mフレーム)が存在するか否かの判断であるため、注目フレームが丁度始端部になっていなくても、後述のステップS15の処理の実行が不可能な場合には、ステップS14においてYESであると判定される。
即ち、注目フレームが始端部でなくステップS15の処理の実行が可能な場合、ステップS14においてNOであると判定されて、処理はステップS15に進む。
ステップS15において、CPU11は、例えば、注目フレームを、単位データの半分(M/2分のフレーム分)の時間分、時間軸の逆方向にシフトする。なお、ステップS15におけるシフトの方向及び量については、例示に過ぎず、任意の方向及び量を設定可能である。
これにより、処理はステップS11に戻され、新たな注目フレームのパワー平均が取られ、それ以降の処理が繰り返される。
このようにして、ステップS11乃至S15のループ処理が繰り返されることで、パワー平均の最大値の候補が上書き保存されていく。
そして、ステップS15の処理の実行が不可能になると、つまり、注目フレームがシフト不可能な位置まで始端部に近づくと、ステップS14においてYESであると判定されて、処理はステップS16に進む。
ステップS16において、CPU11は、保存されているパワー平均を、最大値として設定する。これにより、処理は図6のステップS17に進む。
ステップS12において、CPU11は、ステップS11で算出した注目フレームのパワー平均が、前回フレーム(前回の注目フレーム)のパワー平均より大きいか否かを判定する。
注目フレームのパワー平均が、前回フレームのパワー平均より大きい場合、ステップS12においてYESであると判定されて、処理はステップS13に進む。
ステップS13において、CPU11は、ステップS11で算出した注目フレームのパワー平均を上書き保存する。
即ち、ステップS13の処理目的は、これまでの中で最大のパワー平均を保存すること、換言すると、有声区間のデータ内で最大のパワー平均の候補を保存することである。このため、注目フレームのパワー平均が、前回フレームのパワー平均以下の場合、ステップS13の注目フレームのパワー平均の上書き保存は不要である。そこで、このような場合、ステップS12においてNOであると判定されて、ステップS13の処理は実行されずに、処理はステップS14に進む。
即ち、ステップS12においてNOであると判定された後、又はステップS13の処理後、ステップS14において、CPU11は、注目フレームが始端部か否かを判定する。
なお、このステップS14の処理目的は、パワー平均を未だ演算していない単位データ(Mフレーム)が存在するか否かの判断であるため、注目フレームが丁度始端部になっていなくても、後述のステップS15の処理の実行が不可能な場合には、ステップS14においてYESであると判定される。
即ち、注目フレームが始端部でなくステップS15の処理の実行が可能な場合、ステップS14においてNOであると判定されて、処理はステップS15に進む。
ステップS15において、CPU11は、例えば、注目フレームを、単位データの半分(M/2分のフレーム分)の時間分、時間軸の逆方向にシフトする。なお、ステップS15におけるシフトの方向及び量については、例示に過ぎず、任意の方向及び量を設定可能である。
これにより、処理はステップS11に戻され、新たな注目フレームのパワー平均が取られ、それ以降の処理が繰り返される。
このようにして、ステップS11乃至S15のループ処理が繰り返されることで、パワー平均の最大値の候補が上書き保存されていく。
そして、ステップS15の処理の実行が不可能になると、つまり、注目フレームがシフト不可能な位置まで始端部に近づくと、ステップS14においてYESであると判定されて、処理はステップS16に進む。
ステップS16において、CPU11は、保存されているパワー平均を、最大値として設定する。これにより、処理は図6のステップS17に進む。
ステップS17において、CPU11は、終端部を注目フレームとするMフレーム分の単位データを取得し、図3等のパワースペクトルを用いて、パワー平均(単位データ内における、ピッチ周波数のパワーの平均値)を算出する。
ステップS18において、CPU11は、ステップS17で算出した注目フレームのパワー平均と、前回フレーム(前回の注目フレーム)のパワー平均との差分を取る。
ステップS19において、CPU11は、ステップS18で算出した差分値が(所定の閾値より)小さいか否かを判定する。
上述したように、差分値が小さい場合には、注目フレームと前回フレームが発話区間に入っている可能性がある。このような場合、ステップS19において、YESであると判定されて、処理はステップS21に進む。
ステップS21において、CPU11は、ステップS17で算出した注目フレームのパワー平均が、図5のステップS16で設定したパワー平均の最大値より20%以上値が小さいか否かを判定する。
上述したように、残響区間直前の発話区間以外の区間でもパワー平均の差分値が小さい部分が存在する可能性があり、このような部分を残響区間直前の発話区間と誤判定してしまうことを防止するために、パワー平均の差分値が小さくても、注目フレームのパワー平均が最大値よりさほど減少していない(20%以上小さくなっていない)ときには、残響区間直前の発話区間の候補から除外できるように、ステップS21の判定処理が設けられている。
つまり、パワー平均の差分値が(所定の閾値より)大きい場合(ステップS19においてNOであると判定された場合)、又は、パワー平均の差分値が小さくても注目フレームのパワー平均が最大値よりさほど減少していない(20%以上小さくなっていない)場合(ステップS21においてNOであると判定された場合)、注目フレームと前回フレームとは未だ発話区間に入っているものと推定され、処理はステップS20に進む。
ステップS20において、CPU11は、例えば、注目フレームを、単位データの半分(M/2分のフレーム分)の時間分、時間軸の逆方向にシフトする。なお、ステップS20におけるシフトの方向及び量については、例示に過ぎず、任意の方向及び量を設定可能である。
これにより、処理はステップS17に戻され、新たな注目フレームのパワー平均が取られ、それ以降の処理が繰り返される。
このようにして、ステップS17乃至S21のループ処理が繰り返されることで、注目フレームが時間軸の逆方向に順次シフトしながら、注目フレームと前回フレームとが残響区間に入ったのか否かが判定される。
そして、時間軸の逆方向へのサーチにおいて、注目フレームと前回フレームとが初めて残響区間に入ったと推定された場合、換言すると、前回フレームが、発話区間と残響区間との境目(時点)と推定された場合、ステップS21においてYESであると判定されて、処理はステップS22に進む。
ステップS18において、CPU11は、ステップS17で算出した注目フレームのパワー平均と、前回フレーム(前回の注目フレーム)のパワー平均との差分を取る。
ステップS19において、CPU11は、ステップS18で算出した差分値が(所定の閾値より)小さいか否かを判定する。
上述したように、差分値が小さい場合には、注目フレームと前回フレームが発話区間に入っている可能性がある。このような場合、ステップS19において、YESであると判定されて、処理はステップS21に進む。
ステップS21において、CPU11は、ステップS17で算出した注目フレームのパワー平均が、図5のステップS16で設定したパワー平均の最大値より20%以上値が小さいか否かを判定する。
上述したように、残響区間直前の発話区間以外の区間でもパワー平均の差分値が小さい部分が存在する可能性があり、このような部分を残響区間直前の発話区間と誤判定してしまうことを防止するために、パワー平均の差分値が小さくても、注目フレームのパワー平均が最大値よりさほど減少していない(20%以上小さくなっていない)ときには、残響区間直前の発話区間の候補から除外できるように、ステップS21の判定処理が設けられている。
つまり、パワー平均の差分値が(所定の閾値より)大きい場合(ステップS19においてNOであると判定された場合)、又は、パワー平均の差分値が小さくても注目フレームのパワー平均が最大値よりさほど減少していない(20%以上小さくなっていない)場合(ステップS21においてNOであると判定された場合)、注目フレームと前回フレームとは未だ発話区間に入っているものと推定され、処理はステップS20に進む。
ステップS20において、CPU11は、例えば、注目フレームを、単位データの半分(M/2分のフレーム分)の時間分、時間軸の逆方向にシフトする。なお、ステップS20におけるシフトの方向及び量については、例示に過ぎず、任意の方向及び量を設定可能である。
これにより、処理はステップS17に戻され、新たな注目フレームのパワー平均が取られ、それ以降の処理が繰り返される。
このようにして、ステップS17乃至S21のループ処理が繰り返されることで、注目フレームが時間軸の逆方向に順次シフトしながら、注目フレームと前回フレームとが残響区間に入ったのか否かが判定される。
そして、時間軸の逆方向へのサーチにおいて、注目フレームと前回フレームとが初めて残響区間に入ったと推定された場合、換言すると、前回フレームが、発話区間と残響区間との境目(時点)と推定された場合、ステップS21においてYESであると判定されて、処理はステップS22に進む。
ステップS22において、CPU11は、前回フレームを、発話区間と残響区間との境目(時点)として設定(推測)する。
ステップS23において、CPU11は、無声区間と有声区間の境目の時刻と、発話区間と残響区間との境目の時刻との差分を、残響時間(残響区間における時間長)として設定(推測)する。
これにより、残響推定処理は終了となる。
ステップS23において、CPU11は、無声区間と有声区間の境目の時刻と、発話区間と残響区間との境目の時刻との差分を、残響時間(残響区間における時間長)として設定(推測)する。
これにより、残響推定処理は終了となる。
なお、本発明は、上述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。
上述の実施形態では、残響区間の推定のために、M個のフレームからなる単位データについてのパワー平均(M個のフレームにおけるピッチ周波数の各パワーの平均値)が用いられたが、特にこれに限定されず、単位データについてのパワーに関する任意の指標値を採用することができる。
例えば、M個のフレームからなる単位データにおいて、ピッチ周波数の各パワーのメディアン値や二乗平均値を、指標値として採用することもできる。
また例えば、このような平均値、メディアン値、又は二乗平均値を用いる所定のアルゴリズムに基づいて演算された値、例えば正規化された値等を、指標値として採用することもできる。
例えば、M個のフレームからなる単位データにおいて、ピッチ周波数の各パワーのメディアン値や二乗平均値を、指標値として採用することもできる。
また例えば、このような平均値、メディアン値、又は二乗平均値を用いる所定のアルゴリズムに基づいて演算された値、例えば正規化された値等を、指標値として採用することもできる。
換言すると、本発明が適用される音声処理装置は、例えば次のような構成を有していれば、その実施の形態は特に限定されず、各種各様の実施の形態を取ることができる。
即ち、本発明が適用される音声処理装置は、
発声区間及び残響区間からなる有声区間と、無声区間とを含む音声データについて、有声区間を推定する有声区間推定機能と、
前記推定された前記有声区間内に含まれる音声波形データを、フレーム単位に分割し、当該各フレーム単位における音声データのパワーを夫々算出する算出機能と、
前記推定された有声区間に含まれる各フレームを所定の時間方向に順次注目フレームとして設定する注目フレーム設定機能と、
前記算出された有声区間内のフレーム単位のパワーを用いて、前記設定された注目フレームを含む所定数のフレーム群のパワーに関する指標値を演算するとともに前記注目フレームと前回設定された注目フレームとの指標値の差分を演算し、当該差分値に基づいて残響区間を推定する残響区間推定機能と、
を有するようにすればよい。
このようにして、簡易な構成で処理負担が軽い、残響区間の推定技術が実現可能になる。即ち、本実施形態では、無声区間と有声区間を含む入力音声から有声区間が推定されるので、事前のデータによる学習が不要となる。また、大量のデータからの計算を特に必要とせずに自動的に残響区間が推定される。
なお、上述の実施形態では、有声区間推定機能と残響区間推定機能は、CPU11(図1)によって実現され、変換機能は、FFT部20によって実現されていたが、特にこれらに限定されない。即ち、これらの各機能は、上述の実施形態以外の任意のハードウェア、任意のソフトウェア、あるいは任意のハードウェアと任意のソフトウェアの組合せにより実現可能である。
即ち、本発明が適用される音声処理装置は、
発声区間及び残響区間からなる有声区間と、無声区間とを含む音声データについて、有声区間を推定する有声区間推定機能と、
前記推定された前記有声区間内に含まれる音声波形データを、フレーム単位に分割し、当該各フレーム単位における音声データのパワーを夫々算出する算出機能と、
前記推定された有声区間に含まれる各フレームを所定の時間方向に順次注目フレームとして設定する注目フレーム設定機能と、
前記算出された有声区間内のフレーム単位のパワーを用いて、前記設定された注目フレームを含む所定数のフレーム群のパワーに関する指標値を演算するとともに前記注目フレームと前回設定された注目フレームとの指標値の差分を演算し、当該差分値に基づいて残響区間を推定する残響区間推定機能と、
を有するようにすればよい。
このようにして、簡易な構成で処理負担が軽い、残響区間の推定技術が実現可能になる。即ち、本実施形態では、無声区間と有声区間を含む入力音声から有声区間が推定されるので、事前のデータによる学習が不要となる。また、大量のデータからの計算を特に必要とせずに自動的に残響区間が推定される。
なお、上述の実施形態では、有声区間推定機能と残響区間推定機能は、CPU11(図1)によって実現され、変換機能は、FFT部20によって実現されていたが、特にこれらに限定されない。即ち、これらの各機能は、上述の実施形態以外の任意のハードウェア、任意のソフトウェア、あるいは任意のハードウェアと任意のソフトウェアの組合せにより実現可能である。
なお、上述の各機能を一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。
コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えば汎用のパーソナルコンピュータであってもよい。
コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えば汎用のパーソナルコンピュータであってもよい。
このようなプログラムを含む記録媒体は、ユーザにプログラムを提供するために装置本体とは別に配布される図1のリムーバブルメディア31により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される記録媒体等で構成される。リムーバブルメディア31は、例えば、磁気ディスク(フロッピディスクを含む)、光ディスク、又は光磁気ディスク等により構成される。光ディスクは、例えば、CD−ROM(Compact Disk−Read Only Memory),DVD(Digital Versatile Disk)等により構成される。光磁気ディスクは、MD(Mini−Disk)等により構成される。また、装置本体に予め組み込まれた状態でユーザに提供される記録媒体は、例えば、プログラムが記録されている図1のROM12や、図1の記憶部18に含まれるハードディスク等で構成される。
また例えば、上述の実施形態では、指標値の差分値にのみ基づいて残響区間が推定されると、誤検出が生じるおそれがあるため、このおそれを無くすべく、指標値の差分値が低いことに加えてさらに、注目フレームの指標値の最大値に対する減少率が一定以上(上述の例では20%以上)であるという条件に基づいて、残響区間が推定されていたが、これに特に限定されない。
即ち、残響区間の推定の条件としては、注目フレームの指標値と最大値との比較結果であれば、任意のものを採用することができる。
即ち、残響区間の推定の条件としては、注目フレームの指標値と最大値との比較結果であれば、任意のものを採用することができる。
また例えば、上述の実施形態では、有声区間と無声区間の境目の求め方は、次のようになされている。
即ち、CPU11(図1)は、先ず、入力音声波形データの振幅の時間的変化に基づいて、有声区間と無声区間との境目区間を求める。次に、CPU11は、有声区間のパワースペクトルを用いて、境目区間において時間の順方向又は逆方向に注目フレームを順次設定していき、注目フレームと前回の注目フレームとのパワーの差分を演算し、その差分値に基づいて、有声区間と無声区間との境目を求めている。
ただし、これは例示に過ぎず、任意の求め方を採用することができる。例えば、入力音声波形データのみを用いた求め方を採用することもできるし、その逆に、パワースペクトルのみを用いた求め方を採用することもできる。
しかしながら、入力音声波形データのみを用いると、処理負担は少ないものの、境目の推定精度が悪化する。一方、パワースペクトルのみを用いると、境目の推定精度は良くなるものの、処理負担が非常に重くなる。
そこで、本実施形態のように、先ず、入力音声波形データを用いた粗い推定を行い、一定の時間幅を有する境目区間を求め、次に、その境目区間だけを対象に、パワースペクトルを用いた推定を行うことで、処理負担はさほど重くならず、かつ、推定精度も良好に維持することが可能になる。
即ち、CPU11(図1)は、先ず、入力音声波形データの振幅の時間的変化に基づいて、有声区間と無声区間との境目区間を求める。次に、CPU11は、有声区間のパワースペクトルを用いて、境目区間において時間の順方向又は逆方向に注目フレームを順次設定していき、注目フレームと前回の注目フレームとのパワーの差分を演算し、その差分値に基づいて、有声区間と無声区間との境目を求めている。
ただし、これは例示に過ぎず、任意の求め方を採用することができる。例えば、入力音声波形データのみを用いた求め方を採用することもできるし、その逆に、パワースペクトルのみを用いた求め方を採用することもできる。
しかしながら、入力音声波形データのみを用いると、処理負担は少ないものの、境目の推定精度が悪化する。一方、パワースペクトルのみを用いると、境目の推定精度は良くなるものの、処理負担が非常に重くなる。
そこで、本実施形態のように、先ず、入力音声波形データを用いた粗い推定を行い、一定の時間幅を有する境目区間を求め、次に、その境目区間だけを対象に、パワースペクトルを用いた推定を行うことで、処理負担はさほど重くならず、かつ、推定精度も良好に維持することが可能になる。
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものとする。
また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものとする。
以上、本発明のいくつかの実施形態について説明したが、これらの実施形態は、例示に過ぎず、本発明の技術的範囲を限定するものではない。本発明はその他の様々な実施形態を取ることが可能であり、さらに、本発明の要旨を逸脱しない範囲で、省略や置換等種々の変更を行うことができる。これら実施形態やその変形は、本明細書等に記載された発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
以下に、本願の出願当初の特許請求の範囲に記載された発明を付記する。
[付記1]
発声区間及び残響区間からなる有声区間と、無声区間とを含む音声データについて、有声区間を推定する有声区間推定手段と、
前記推定された前記有声区間内に含まれる音声波形データを、フレーム単位に分割し、当該各フレーム単位における音声データのパワーを夫々算出する算出手段と、
前記推定された有声区間に含まれる各フレームを所定の時間方向に順次注目フレームとして設定する注目フレーム設定手段と、
前記算出された有声区間内のフレーム単位のパワーを用いて、前記設定された注目フレームを含む所定数のフレーム群のパワーに関する指標値を演算するとともに前記注目フレームと前回設定された注目フレームとの指標値の差分を演算し、当該差分値に基づいて残響区間を推定する残響区間推定手段と、
を備える音声処理装置。
[付記2]
前記残響区間推定手段は、前記所定数のフレーム夫々のパワーの平均値を、前記指標値として演算する、
付記1に記載の音声処理装置。
[付記3]
前記残響区間推定手段はさらに、前記有声区間における前記指標値の最大値を演算し、前記差分値に加えて、前記注目フレームの前記指標値と前記最大値との比較結果に基づいて、前記残響区間を推定する、
付記1又は2に記載の音声処理装置。
[付記4]
前記残響区間推定手段は、前記指標値の差分値が一定以下であって、かつ、前記注目フレームの前記指標値の前記最大値に対する減少率が一定以上である区間を、前記残響区間として推定する、
付記3に記載の音声処理装置。
[付記5]
前記有声区間推定手段は、
前記音声波形データの振幅の時間的変化に基づいて、前記有声区間と前記無声区間との境目区間を求め、
前記算出手段により算出された前記有声区間のパワーを用いて、前記境目区間において所定の時間方向に注目フレームを順次設定していき、当該注目フレームと前回設定された注目フレームとのパワーの差分を演算し、その差分値に基づいて、前記有声区間と前記無声区間との境目を求め、
前記音声波形データの始端部から前記境目までを、前記有声区間として推定する、
付記1乃至4のうち何れか1つに記載の音声処理装置。
[付記6]
発声区間及び残響区間からなる有声区間と、無声区間とを含む音声データを処理対象として、音声処理装置が実行する音声処理方法において、
前記音声データについて、有声区間を推定し、
前記推定された前記有声区間内の音声データをフレーム単位に分割し、この分割されたフレーム単位の音声データのパワーを算出し、
前記推定された有声区間に含まれる各フレームを所定の時間方向に順次注目フレームとして設定し、
前記算出された有声区間内の各フレームのパワーを用いて、前記設定された注目フレームを含む所定数のフレーム夫々のパワーに関する指標値を演算するとともに前記注目フレームと前回設定された注目フレームとの指標値の差分を演算し、その差分値に基づいて残響区間を推定する、音声処理方法。
[付記7]
発声区間及び残響区間からなる有声区間と、無声区間とを含む音声データを処理対象として、音声処理装置を制御するコンピュータに、
前記音声データについて、有声区間を推定する有声区間推定ステップと、
前記推定された前記有声区間内の音声データをフレーム単位に分割し、この分割されたフレーム単位の音声データのパワーを算出する算出ステップと、
前記推定された有声区間に含まれる各フレームを所定の時間方向に順次注目フレームとして設定する注目フレーム設定ステップと、
前記算出された有声区間内の各フレームのパワーを用いて、前記設定された注目フレームを含む所定数のフレーム群のパワーに関する指標値を演算するとともに前記注目フレームと前回設定された注目フレームとの指標値の差分を演算し、その差分値に基づいて残響区間を推定する残響区間推定ステップと、
を実行させるプログラム。
[付記1]
発声区間及び残響区間からなる有声区間と、無声区間とを含む音声データについて、有声区間を推定する有声区間推定手段と、
前記推定された前記有声区間内に含まれる音声波形データを、フレーム単位に分割し、当該各フレーム単位における音声データのパワーを夫々算出する算出手段と、
前記推定された有声区間に含まれる各フレームを所定の時間方向に順次注目フレームとして設定する注目フレーム設定手段と、
前記算出された有声区間内のフレーム単位のパワーを用いて、前記設定された注目フレームを含む所定数のフレーム群のパワーに関する指標値を演算するとともに前記注目フレームと前回設定された注目フレームとの指標値の差分を演算し、当該差分値に基づいて残響区間を推定する残響区間推定手段と、
を備える音声処理装置。
[付記2]
前記残響区間推定手段は、前記所定数のフレーム夫々のパワーの平均値を、前記指標値として演算する、
付記1に記載の音声処理装置。
[付記3]
前記残響区間推定手段はさらに、前記有声区間における前記指標値の最大値を演算し、前記差分値に加えて、前記注目フレームの前記指標値と前記最大値との比較結果に基づいて、前記残響区間を推定する、
付記1又は2に記載の音声処理装置。
[付記4]
前記残響区間推定手段は、前記指標値の差分値が一定以下であって、かつ、前記注目フレームの前記指標値の前記最大値に対する減少率が一定以上である区間を、前記残響区間として推定する、
付記3に記載の音声処理装置。
[付記5]
前記有声区間推定手段は、
前記音声波形データの振幅の時間的変化に基づいて、前記有声区間と前記無声区間との境目区間を求め、
前記算出手段により算出された前記有声区間のパワーを用いて、前記境目区間において所定の時間方向に注目フレームを順次設定していき、当該注目フレームと前回設定された注目フレームとのパワーの差分を演算し、その差分値に基づいて、前記有声区間と前記無声区間との境目を求め、
前記音声波形データの始端部から前記境目までを、前記有声区間として推定する、
付記1乃至4のうち何れか1つに記載の音声処理装置。
[付記6]
発声区間及び残響区間からなる有声区間と、無声区間とを含む音声データを処理対象として、音声処理装置が実行する音声処理方法において、
前記音声データについて、有声区間を推定し、
前記推定された前記有声区間内の音声データをフレーム単位に分割し、この分割されたフレーム単位の音声データのパワーを算出し、
前記推定された有声区間に含まれる各フレームを所定の時間方向に順次注目フレームとして設定し、
前記算出された有声区間内の各フレームのパワーを用いて、前記設定された注目フレームを含む所定数のフレーム夫々のパワーに関する指標値を演算するとともに前記注目フレームと前回設定された注目フレームとの指標値の差分を演算し、その差分値に基づいて残響区間を推定する、音声処理方法。
[付記7]
発声区間及び残響区間からなる有声区間と、無声区間とを含む音声データを処理対象として、音声処理装置を制御するコンピュータに、
前記音声データについて、有声区間を推定する有声区間推定ステップと、
前記推定された前記有声区間内の音声データをフレーム単位に分割し、この分割されたフレーム単位の音声データのパワーを算出する算出ステップと、
前記推定された有声区間に含まれる各フレームを所定の時間方向に順次注目フレームとして設定する注目フレーム設定ステップと、
前記算出された有声区間内の各フレームのパワーを用いて、前記設定された注目フレームを含む所定数のフレーム群のパワーに関する指標値を演算するとともに前記注目フレームと前回設定された注目フレームとの指標値の差分を演算し、その差分値に基づいて残響区間を推定する残響区間推定ステップと、
を実行させるプログラム。
1・・・音声処理装置、11・・・CPU、12・・・ROM、13・・・RAM、14・・・バス、15・・・入出力インターフェース、16・・・入力部、17・・・出力部、18・・・記憶部、19・・・通信部、20・・・FFT部、21・・・ドライブ、31・・・リムーバブルメディア
Claims (7)
- 発声区間及び残響区間からなる有声区間と、無声区間とを含む音声データについて、有声区間を推定する有声区間推定手段と、
前記推定された前記有声区間内に含まれる音声波形データを、フレーム単位に分割し、当該各フレーム単位における音声データのパワーを夫々算出する算出手段と、
前記推定された有声区間に含まれる各フレームを所定の時間方向に順次注目フレームとして設定する注目フレーム設定手段と、
前記算出された有声区間内のフレーム単位のパワーを用いて、前記設定された注目フレームを含む所定数のフレーム群のパワーに関する指標値を演算するとともに前記注目フレームと前回設定された注目フレームとの指標値の差分を演算し、当該差分値に基づいて残響区間を推定する残響区間推定手段と、
を備える音声処理装置。 - 前記残響区間推定手段は、前記所定数のフレーム夫々のパワーの平均値を、前記指標値として演算する、
請求項1に記載の音声処理装置。 - 前記残響区間推定手段はさらに、前記有声区間における前記指標値の最大値を演算し、前記差分値に加えて、前記注目フレームの前記指標値と前記最大値との比較結果に基づいて、前記残響区間を推定する、
請求項1又は2に記載の音声処理装置。 - 前記残響区間推定手段は、前記指標値の差分値が一定以下であって、かつ、前記注目フレームの前記指標値の前記最大値に対する減少率が一定以上である区間を、前記残響区間として推定する、
請求項3に記載の音声処理装置。 - 前記有声区間推定手段は、
前記音声波形データの振幅の時間的変化に基づいて、前記有声区間と前記無声区間との境目区間を求め、
前記算出手段により算出された前記有声区間のパワーを用いて、前記境目区間において所定の時間方向に注目フレームを順次設定していき、当該注目フレームと前回設定された注目フレームとのパワーの差分を演算し、その差分値に基づいて、前記有声区間と前記無声区間との境目を求め、
前記音声波形データの始端部から前記境目までを、前記有声区間として推定する、
請求項1乃至4のうち何れか1項に記載の音声処理装置。 - 発声区間及び残響区間からなる有声区間と、無声区間とを含む音声データを処理対象として、音声処理装置が実行する音声処理方法において、
前記音声データについて、有声区間を推定し、
前記推定された前記有声区間内の音声データをフレーム単位に分割し、この分割されたフレーム単位の音声データのパワーを算出し、
前記推定された有声区間に含まれる各フレームを所定の時間方向に順次注目フレームとして設定し、
前記算出された有声区間内の各フレームのパワーを用いて、前記設定された注目フレームを含む所定数のフレーム夫々のパワーに関する指標値を演算するとともに前記注目フレームと前回設定された注目フレームとの指標値の差分を演算し、その差分値に基づいて残響区間を推定する、音声処理方法。 - 発声区間及び残響区間からなる有声区間と、無声区間とを含む音声データを処理対象として、音声処理装置を制御するコンピュータに、
前記音声データについて、有声区間を推定する有声区間推定ステップと、
前記推定された前記有声区間内の音声データをフレーム単位に分割し、この分割されたフレーム単位の音声データのパワーを算出する算出ステップと、
前記推定された有声区間に含まれる各フレームを所定の時間方向に順次注目フレームとして設定する注目フレーム設定ステップと、
前記算出された有声区間内の各フレームのパワーを用いて、前記設定された注目フレームを含む所定数のフレーム群のパワーに関する指標値を演算するとともに前記注目フレームと前回設定された注目フレームとの指標値の差分を演算し、その差分値に基づいて残響区間を推定する残響区間推定ステップと、
を実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013163239A JP2015031913A (ja) | 2013-08-06 | 2013-08-06 | 音声処理装置、音声処理方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013163239A JP2015031913A (ja) | 2013-08-06 | 2013-08-06 | 音声処理装置、音声処理方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015031913A true JP2015031913A (ja) | 2015-02-16 |
Family
ID=52517249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013163239A Pending JP2015031913A (ja) | 2013-08-06 | 2013-08-06 | 音声処理装置、音声処理方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015031913A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018180061A (ja) * | 2017-04-04 | 2018-11-15 | 富士通株式会社 | 音声処理プログラム、音声処理方法および音声処理装置 |
CN112367128A (zh) * | 2020-10-30 | 2021-02-12 | 电子科技大学 | 一种基于相隔窗的突发信号频谱检测仪及盲检测方法 |
-
2013
- 2013-08-06 JP JP2013163239A patent/JP2015031913A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018180061A (ja) * | 2017-04-04 | 2018-11-15 | 富士通株式会社 | 音声処理プログラム、音声処理方法および音声処理装置 |
CN112367128A (zh) * | 2020-10-30 | 2021-02-12 | 电子科技大学 | 一种基于相隔窗的突发信号频谱检测仪及盲检测方法 |
CN112367128B (zh) * | 2020-10-30 | 2021-09-14 | 电子科技大学 | 一种基于相隔窗的突发信号频谱检测仪及盲检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023041843A (ja) | 音声区間検出装置、音声区間検出方法及びプログラム | |
JP4950930B2 (ja) | 音声/非音声を判定する装置、方法およびプログラム | |
JP5229234B2 (ja) | 非音声区間検出方法及び非音声区間検出装置 | |
JP6174856B2 (ja) | 雑音抑制装置、その制御方法、及びプログラム | |
JP4516157B2 (ja) | 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム | |
JP4454591B2 (ja) | 雑音スペクトル推定方法、雑音抑圧方法及び雑音抑圧装置 | |
US8942977B2 (en) | System and method for speech recognition using pitch-synchronous spectral parameters | |
JP2014219607A (ja) | 音楽信号処理装置および方法、並びに、プログラム | |
JP6193395B2 (ja) | 電子透かし検出装置、方法及びプログラム | |
JP2015031913A (ja) | 音声処理装置、音声処理方法、及びプログラム | |
EP3113180B1 (en) | Method for performing audio inpainting on a speech signal and apparatus for performing audio inpainting on a speech signal | |
JP6420198B2 (ja) | 閾値推定装置、音声合成装置、その方法及びプログラム | |
CN107507610B (zh) | 一种基于元音基频信息的汉语声调识别方法 | |
JP6747236B2 (ja) | 音響解析方法および音響解析装置 | |
JP2018205512A (ja) | 電子機器及び雑音抑圧プログラム | |
CN106920558B (zh) | 关键词识别方法及装置 | |
JP2011141470A (ja) | 素片情報生成装置、音声合成システム、音声合成方法、及び、プログラム | |
JP2008139573A (ja) | 声質変換方法、声質変換プログラム、声質変換装置 | |
JP6526602B2 (ja) | 音声認識装置、その方法、及びプログラム | |
JP6447357B2 (ja) | オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム | |
CN115985337B (zh) | 一种基于单麦克风的瞬态噪声检测与抑制的方法及装置 | |
JP2009086476A (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP2019032400A (ja) | 発話判定プログラム、発話判定方法、及び発話判定装置 | |
JP7222265B2 (ja) | 音声区間検出装置、音声区間検出方法及びプログラム | |
JP6784137B2 (ja) | 音響解析方法および音響解析装置 |