JP2015031913A

JP2015031913A - 音声処理装置、音声処理方法、及びプログラム

Info

Publication number: JP2015031913A
Application number: JP2013163239A
Authority: JP
Inventors: 岡本　直也; Naoya Okamoto; 直也岡本
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2013-08-06
Filing date: 2013-08-06
Publication date: 2015-02-16

Abstract

【課題】簡易な構成で処理負担が軽い、残響区間の推定技術を提供すること。
【解決手段】音声処理装置は、発声区間と残響区間からなる有声区間と、無声区間とを含む入力音声の波形データについて、有声区間を推定する。音声処理装置は、推定された有声区間の波形データから、フレーム単位のパワースペクトルに変換する。音声処理装置は、有声区間のパワースペクトルを用いて、時間の順方向又は逆方向に注目フレームを順次設定していき、注目フレームを含む所定数のフレーム群のパワースペクトルに基づいて指標値を演算し、注目フレームと前回の注目フレームとの指標値の差分を演算し、その差分値に基づいて残響区間を推定する。
【選択図】図３

Description

本発明は、音声処理装置、音声処理方法、及びプログラムに関する。

従来から音声を用いた電子機器が普及しつつある。これらの電子機器は、入力される音声を認識して、機器本体の動作を制御したり、あるいは新たな音声データを生成して、音声を発生したりすることが可能である。
こうした動作を実現させるためには、認識されるあるいは発音させるべき音声を表わす音声データを事前に用意することが必要である。これら音声データは、実際に発音され録音された音声をデータ化することにより得られるが、録音された音声をデータ化しただけでそのまま用いることはできない。
なぜなら、録音されたままの音声データには、音声データ本体だけでなく、発声されたときの外的環境により生じる残響音のデータ（以下、「残響データ」と呼ぶ）が混在しているからである。この残響データを含んだ音声データをそのまま認識や生成に用いると、認識率の低下や発生された音声データの品質劣化を招いてしまう。このため、収録される音声データには、残響データが含まれない方が好適である。
このため、従来から音声データから残響データを含む区間を推定する技術が研究開発されている（例えば特許文献１参照）。

特開２００８−５８９００号公報

しかしながら、特許文献１を含め従来の方式は、複雑な構成でかつ、処理負担の重いものであり、特許文献１に示されるような方式を適用することは、電子機器本体の機能を制約するおそれがあった。

本発明は、このような状況に鑑みてなされたものであり、簡易な構成で処理負担が軽い、残響区間の推定技術を実現することを目的とする。

上記目的を達成するため、本発明の一態様の音声処理装置は、
発声区間及び残響区間からなる有声区間と、無声区間とを含む音声データについて、有声区間を推定する有声区間推定手段と、
前記推定された前記有声区間内に含まれる音声波形データを、フレーム単位に分割し、当該各フレーム単位における音声データのパワーを夫々算出する算出手段と、
前記推定された有声区間に含まれる各フレームを所定の時間方向に順次注目フレームとして設定する注目フレーム設定手段と、
前記算出された有声区間内のフレーム単位のパワーを用いて、前記設定された注目フレームを含む所定数のフレーム群のパワーに関する指標値を演算するとともに前記注目フレームと前回設定された注目フレームとの指標値の差分を演算し、当該差分値に基づいて残響区間を推定する残響区間推定手段と、
を備えることを特徴とする。

本発明によれば、簡易な構成で処理負担が軽い、残響区間の推定技術を実現することができる。

本発明の一実施形態に係る音声処理装置のハードウェアの構成を示すブロック図である。図１の音声処理装置による残響推定処理の結果を示す、録音されたモノラルの音の波形のデータを示す図である。図２の処理対象波形データＡＯに対して短時間フーリエ変換処理が施された結果得られた、パワースペクトルを示す図である。図１の音声処理装置が実行する残響推定処理の流れを説明するフローチャートである。図１の音声処理装置が実行する残響推定処理の流れを説明するフローチャートである。図１の音声処理装置が実行する残響推定処理の流れを説明するフローチャートである。

以下、本発明の実施形態について、図面を用いて説明する。

図１は、本発明の一実施形態に係る音声処理装置のハードウェアの構成を示すブロック図である。

音声処理装置１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３と、バス１４と、入出力インターフェース１５と、出力部１６と、入力部１７と、記憶部１８と、通信部１９と、ＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）部２０と、ドライブ２１と、を備えている。

ＣＰＵ１１は、ＲＯＭ１２に記録されているプログラム、又は、記憶部１８からＲＡＭ１３にロードされたプログラムに従って各種の処理を実行する。

ＲＡＭ１３には、ＣＰＵ１１が各種の処理を実行する上において必要なデータ等も適宜記憶される。

ＣＰＵ１１、ＲＯＭ１２及びＲＡＭ１３は、バス１４を介して相互に接続されている。このバス１４にはまた、入出力インターフェース１５も接続されている。入出力インターフェース１５には、出力部１６、入力部１７、記憶部１８、通信部１９、ＦＦＴ部２０及びドライブ２１が接続されている。

出力部１６は、ディスプレイやスピーカ等で構成され、画像や音声を出力する。
入力部１７は、マイクロフォンを含むように構成され、音声を入力する。なお、入力部１７には必要に応じて、ユーザの指示操作に応じて各種情報を入力するキーボード等の操作部も設けられる。
記憶部１８は、ハードディスクあるいはＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等で構成され、各種音声のデータを記憶する。
通信部１９は、インターネットを含むネットワークを介して他の装置（図示せず）との間で行う通信を制御する。
ＦＦＴ部２０は、録音された音声のデータに対して、ＦＦＴ処理を施す。ＦＦＴ処理については、図３等を参照して後述する。

ドライブ２１には、磁気ディスク、光ディスク、光磁気ディスク、あるいは半導体メモリ等よりなる、リムーバブルメディア３１が適宜装着される。ドライブ２１によってリムーバブルメディア３１から読み出されたプログラムは、必要に応じて記憶部１８にインストールされる。また、リムーバブルメディア３１は、記憶部１８に記憶されている音声のデータ等の各種データも、記憶部１８と同様に記憶することができる。

このような構成を有する本実施形態の音声処理装置１は、残響推定処理を実行することができる。
残響推定処理とは、音声処理装置１に入力（録音）されたモノラルの音の波形のデータ（以下、「入力波形データ」と呼ぶ）について、それに含まれる残響部分の区間（以下、「残響区間」と呼ぶ）を推定するまでの一連の処理をいう。
以下、図２及び図３を参照して、残響推定処理の概要について説明する。

図２は、残響推定処理の結果を示す、録音されたモノラルの音の波形のデータを示している。
ＣＰＵ１１は、入力波形データから、有声区間の時間的後に無声区間が含まれる一定時間（例えば０．５秒以上）の波形データを、残響推定処理の対象として取得する。以下、このようにして残響推定処理の対象として取得された波形データを、「処理対象波形データ」と呼ぶ。図２に示す波形データＡＯは、処理対象波形データの一例を示しており、以下説明に用いる。
ＦＦＴ部２０（図１）は、処理対象波形データＡＯに対して、ＦＦＴ処理の一形態である短時間フーリエ変換処理を施す。具体的には本実施形態では、サンプリング周波数１６ｋＨｚ、２０〜３０ｍｓを１フレーム（４８０サンプル）とした、フーリエ変換サイズ５１２の短時間フーリエ変換処理が、処理対象波形データＡＯに対して施される。

このような短時間フーリエ変換処理の結果、図３に示すような、フレームを単位とするパワースペクトルが得られる。
図３は、図２の処理対象波形データＡＯに対して短時間フーリエ変換処理が施された結果得られた、パワースペクトルを示している。
なお、パワー（エネルギー）の強度は、本来的には色調で示されるものであるが、紙面の関係上、図３の例では、濃淡で示されている。即ち、色が濃くなる程、パワーが強くなるように示されている。ただし、領域Ａにおいては、強度が一定を超えた、非常に強いパワーの部分は白色になっている。即ち、図３の例では、領域Ａ内において、パワーの強度が最高になっている。

ＣＰＵ１１は、図２の処理対象波形データＡＯを時間的に逆方向にサーチしていき、つまり、無声区間から有声区間の方向にサーチしていき、当該処理対象波形データＡＯの振幅が徐々に大きくなり始めている区間（一定時間幅）を、無声区間と有声区間の境目区間として決定する。
次に、ＣＰＵ１１は、図３のパワースペクトルを用いて、この境目区間の中から、無声区間と有声区間の境目（時点）を推定する。具体的には、ＣＰＵ１１は、この境目区間からＮフレーム分（Ｎは１以上の任意の整数値）の探索範囲を設定し、探索範囲内において、隣接する２つのフレームの周波数毎のパワーの差分を夫々求める。そして、ＣＰＵ１１は、例えば、この差分値が一定以上に大きい２つのフレームの間の位置を、無声区間と有声区間の境目（時点）として推定する。

次に、ＣＰＵ１１は、図２の処理対象波形データＡＯのうち、始端部から、先に推定した境目（時点）までの波形データを、有声区間の波形データとして取得する。

ＣＰＵ１１は、有声区間の波形データの中から、例えば時間軸の逆方向に、処理の対象として注目すべきフレーム（以下、「注目フレーム」と呼ぶ）を順次設定していく。この場合、注目フレームの設定間隔は、特に限定されず、１フレーム毎でもよいが、本実施形態では、Ｍフレーム分（Ｍは、Ｎとは独立した１以上の任意の整数値）の半分の時間であるとする。
この場合、ＣＰＵ１１は、注目フレームを終端部として時間軸の逆方向にＭフレーム分のデータを、処理の１単位となるデータ（以下、「単位データ」と呼ぶ）として取得する。そして、ＣＰＵ１１は、図３のパワースペクトルを用いて、単位データ内における、ピッチ周波数のパワーの平均値（以下、「パワー平均」と呼ぶ）を算出する。
ここで、ピッチ周波数は、発声区間における最大パワーと推定できる。具体的には例えば図３の例では、領域Ａ内の周波数がピッチ周波数として推定される。
ここで、通常の発話区間の場合には、ピッチ周波数のパワーの変動が大きいものであると予測できる。しかしながら、残響区間直前の発話区間は、語尾を言い切る直前なのでパワーの値自体は高いが、パワーの変動は小さいものと考えられる。換言すると、ピッチ周波数のパワーの変動が小さい区間は、残響区間直前の発話区間である可能性が高いと予測できる。
そこで、ＣＰＵ１１は、注目フレームのパワー平均と、前回注目フレームであったフレーム（以下、「前回フレーム」と呼ぶ）のパワー平均との差分値が一定（閾値）以下であるか否かを判定し、一定以下であると判定した場合、前回フレームの終端部（時点）が、発話区間と残響区間の境目（時点）であると判定することができる。

しかしながら、残響区間直前の発話区間でなくとも、ピッチ周波数のパワーの変動が少ない範囲が存在し得る。従って、注目フレームと前回フレームとのパワー平均の差分が少ないことだけでは、発話区間と残響区間の境目であると判定するのは誤判定のおそれがでてくる。
そこで、本実施形態では、ＣＰＵ１１は、さらに、有声区間の波形データからパワー平均の最大値を求める。このパワー平均の最大値は発話区間内で求められるはずであり、発話区間内のパワー平均は当該最大値よりさほど低下しないと予測される。換言すると、パワー平均が当該最大値から一定以上（例えば２０％以上）低下している場合には、残響区間であると予測することが可能になる。
従って、本実施形態では、ＣＰＵ１１は、注目フレームのパワー平均がその最大値から一定以上（例えば２０％以上）低下した場合であって、かつ、注目フレームと前回フレームとのパワー平均の差分が一定以下であると判定した場合、前回フレームの位置が、発話区間と残響区間の境目（時点）であると判定する。
これにより、ＣＰＵ１１は、有声区間の波形データのうち、始端部から当該境目までを、発話区間と推定し、当該境目から終端部までを、残響区間として推定することができる。

さらに以下、図４乃至図６のフローチャートを参照して、残響推定処理の詳細例について説明する。
図４乃至図６は、図１の音声処理装置１が実行する残響推定処理の流れを説明するフローチャートである。

図４のステップＳ１において、ＣＰＵ１１は、入力波形データの中から、例えば０．５秒以上の区間のデータを、処理対象波形データ（候補）として取得する。
ステップＳ２において、ＣＰＵ１１は、ステップＳ１で取得した処理対象波形データ（候補）に無声区間が含まれているか否かを判定する。
本実施形態では、処理対象波形データに無声区間が含まれていることが前提とされるので、ステップＳ１で取得された処理対象波形データ（候補）に無声区間が含まれていない場合、それ以降の処理ができないので、ステップＳ２においてＮＯであると判定されて、処理はステップＳ３に進み、次のような処理が実行される。
ステップＳ３において、ＣＰＵ１１は、ステップＳ１で取得した処理対象波形データ（候補）に、入力波形データの終端部が含まれるか否かを判定する。
ステップＳ１で取得された処理対象波形データ（候補）に、入力波形データの終端部が含まれていた場合、入力波形データには無声区間が含まれていなかったことを意味するので、ステップＳ３においてＹＥＳであると判定されて、残響推定処理は終了となる。
これに対して、ステップＳ１で取得された処理対象波形データ（候補）に、入力波形データの終端部が含まれていない場合、入力波形データに無声区間が含まれている可能性が未だあるので、ステップＳ３においてＮＯであると判定されて、処理はステップＳ４に進む。
ステップＳ４において、ＣＰＵ１１は、取得の始点を、処理対象波形データの半分の時間シフトする。
その後処理はステップＳ１に戻され、それ以降の処理が繰り返される。即ち、例えば処理対象波形データの区間が０．５秒ならば、ステップＳ１において、その半分の０．２５秒先のデータが始点となり、始点から０．５秒以上の区間が処理対象データ（候補）として新たに取得される。
この新たに取得された処理対象データ（候補）に無声区間が含まれていないならば、ステップＳ２においてＮＯと判定されて、処理はステップＳ３に進む。即ち、処理対象データ（候補）に無声区間が含まれるようになるまで、ステップＳ１乃至Ｓ４のループ処理が繰り返される。
そして、処理対象データ（候補）に無声区間が含まれるようになると、ステップＳ２においてＹＥＳであると判定されて、処理はステップＳ５に進む。

ステップＳ５において、ＣＰＵ１１は、直前のステップＳ１で処理対象波形データ（候補）として取得した波形データに対してさらに、前後２秒のデータを追加することで、処理対象波形データを生成する。具体的には例えば図２の処理対象波形データＡＯが、このステップＳ５の処理で生成される。

ステップＳ６において、ＣＰＵ１１は、処理対象波形データの終端部から（即ち無声区間から）サーチして、波形の振幅が徐々に大きくなり始めている部分を、無声区間と有声区間との境目区間（一定時間幅）として取得する。

なお、以下のステップＳ７の処理では、処理対象波形データから変換されたパワースペクトルが用いられる。従って、ステップＳ５の処理で処理対象波形データが生成されてから、ステップＳ７の処理が開始される前の任意のタイミングで、ＣＰＵ１１による残響推定処理とは並行して、ＦＦＴ部２０によって、処理対象波形データから図３等のパワースペクトルが求められているものとする。

ステップＳ７において、ＣＰＵ１１は、図３等のパワースペクトルについて、ステップＳ６で取得した境目区間から、Ｎフレーム分の探索範囲を設定し、当該探索範囲内における、隣接する２つのフレーム間の周波数毎のパワーの差分を取る。
ステップＳ８において、ＣＰＵ１１は、その差分値の変動が小さいか否かを判定する。
差分値の変動が小さい場合、隣接する２つのフレーム間は境目（時点）でないことを意味するので、ステップＳ８においてＹＥＳであると判定されて、処理はステップＳ９に進む。
ステップＳ９において、ＣＰＵ１１は、フレームの比較範囲を、フレームの半分の時間だけ、例えば時間軸逆方向にシフトし、処理をステップＳ７に進める。なお、ステップＳ９におけるシフトの方向及び量については、例示に過ぎず、任意の方向及び量を設定可能である。
次のステップＳ７では、時間軸逆方向に１つずつフレームが移行した、２つの隣接するフレーム間の差分が取られることになる。
即ち、差分値の変動が一定以上に大きくなるまでの間、ステップＳ７乃至Ｓ９のループ処理が繰り返されて、差分対象の隣接する２つのフレームの組合せが、時間軸逆方向に１組ずつ移行しながら、その都度パワーの差分が取られていく。
そして、差分値の変動が一定以上に大きくなると、ステップＳ８においてＮＯであると判定されて、処理は図５のステップＳ１０に進む。

ステップＳ１０において、ＣＰＵ１１は、ステップＳ９（図４）で差分値の変動が一定以上大きくなったと判定した（それに該当した）フレームのひとつ前のフレームの位置を、無声区間と有声区間の境目（時点）として、処理対象波形データの始端部から当該境目までのデータを、有声区間のデータとして取り出す。

ステップＳ１１において、ＣＰＵ１１は、終端部を注目フレームとするＭフレーム分の単位データを取得し、図３等のパワースペクトルを用いて、パワー平均（単位データ内における、ピッチ周波数のパワーの平均値）を算出する。
ステップＳ１２において、ＣＰＵ１１は、ステップＳ１１で算出した注目フレームのパワー平均が、前回フレーム（前回の注目フレーム）のパワー平均より大きいか否かを判定する。
注目フレームのパワー平均が、前回フレームのパワー平均より大きい場合、ステップＳ１２においてＹＥＳであると判定されて、処理はステップＳ１３に進む。
ステップＳ１３において、ＣＰＵ１１は、ステップＳ１１で算出した注目フレームのパワー平均を上書き保存する。
即ち、ステップＳ１３の処理目的は、これまでの中で最大のパワー平均を保存すること、換言すると、有声区間のデータ内で最大のパワー平均の候補を保存することである。このため、注目フレームのパワー平均が、前回フレームのパワー平均以下の場合、ステップＳ１３の注目フレームのパワー平均の上書き保存は不要である。そこで、このような場合、ステップＳ１２においてＮＯであると判定されて、ステップＳ１３の処理は実行されずに、処理はステップＳ１４に進む。
即ち、ステップＳ１２においてＮＯであると判定された後、又はステップＳ１３の処理後、ステップＳ１４において、ＣＰＵ１１は、注目フレームが始端部か否かを判定する。
なお、このステップＳ１４の処理目的は、パワー平均を未だ演算していない単位データ（Ｍフレーム）が存在するか否かの判断であるため、注目フレームが丁度始端部になっていなくても、後述のステップＳ１５の処理の実行が不可能な場合には、ステップＳ１４においてＹＥＳであると判定される。
即ち、注目フレームが始端部でなくステップＳ１５の処理の実行が可能な場合、ステップＳ１４においてＮＯであると判定されて、処理はステップＳ１５に進む。
ステップＳ１５において、ＣＰＵ１１は、例えば、注目フレームを、単位データの半分（Ｍ／２分のフレーム分）の時間分、時間軸の逆方向にシフトする。なお、ステップＳ１５におけるシフトの方向及び量については、例示に過ぎず、任意の方向及び量を設定可能である。
これにより、処理はステップＳ１１に戻され、新たな注目フレームのパワー平均が取られ、それ以降の処理が繰り返される。
このようにして、ステップＳ１１乃至Ｓ１５のループ処理が繰り返されることで、パワー平均の最大値の候補が上書き保存されていく。
そして、ステップＳ１５の処理の実行が不可能になると、つまり、注目フレームがシフト不可能な位置まで始端部に近づくと、ステップＳ１４においてＹＥＳであると判定されて、処理はステップＳ１６に進む。
ステップＳ１６において、ＣＰＵ１１は、保存されているパワー平均を、最大値として設定する。これにより、処理は図６のステップＳ１７に進む。

ステップＳ１７において、ＣＰＵ１１は、終端部を注目フレームとするＭフレーム分の単位データを取得し、図３等のパワースペクトルを用いて、パワー平均（単位データ内における、ピッチ周波数のパワーの平均値）を算出する。
ステップＳ１８において、ＣＰＵ１１は、ステップＳ１７で算出した注目フレームのパワー平均と、前回フレーム（前回の注目フレーム）のパワー平均との差分を取る。
ステップＳ１９において、ＣＰＵ１１は、ステップＳ１８で算出した差分値が（所定の閾値より）小さいか否かを判定する。
上述したように、差分値が小さい場合には、注目フレームと前回フレームが発話区間に入っている可能性がある。このような場合、ステップＳ１９において、ＹＥＳであると判定されて、処理はステップＳ２１に進む。
ステップＳ２１において、ＣＰＵ１１は、ステップＳ１７で算出した注目フレームのパワー平均が、図５のステップＳ１６で設定したパワー平均の最大値より２０％以上値が小さいか否かを判定する。
上述したように、残響区間直前の発話区間以外の区間でもパワー平均の差分値が小さい部分が存在する可能性があり、このような部分を残響区間直前の発話区間と誤判定してしまうことを防止するために、パワー平均の差分値が小さくても、注目フレームのパワー平均が最大値よりさほど減少していない（２０％以上小さくなっていない）ときには、残響区間直前の発話区間の候補から除外できるように、ステップＳ２１の判定処理が設けられている。
つまり、パワー平均の差分値が（所定の閾値より）大きい場合（ステップＳ１９においてＮＯであると判定された場合）、又は、パワー平均の差分値が小さくても注目フレームのパワー平均が最大値よりさほど減少していない（２０％以上小さくなっていない）場合（ステップＳ２１においてＮＯであると判定された場合）、注目フレームと前回フレームとは未だ発話区間に入っているものと推定され、処理はステップＳ２０に進む。
ステップＳ２０において、ＣＰＵ１１は、例えば、注目フレームを、単位データの半分（Ｍ／２分のフレーム分）の時間分、時間軸の逆方向にシフトする。なお、ステップＳ２０におけるシフトの方向及び量については、例示に過ぎず、任意の方向及び量を設定可能である。
これにより、処理はステップＳ１７に戻され、新たな注目フレームのパワー平均が取られ、それ以降の処理が繰り返される。
このようにして、ステップＳ１７乃至Ｓ２１のループ処理が繰り返されることで、注目フレームが時間軸の逆方向に順次シフトしながら、注目フレームと前回フレームとが残響区間に入ったのか否かが判定される。
そして、時間軸の逆方向へのサーチにおいて、注目フレームと前回フレームとが初めて残響区間に入ったと推定された場合、換言すると、前回フレームが、発話区間と残響区間との境目（時点）と推定された場合、ステップＳ２１においてＹＥＳであると判定されて、処理はステップＳ２２に進む。

ステップＳ２２において、ＣＰＵ１１は、前回フレームを、発話区間と残響区間との境目（時点）として設定（推測）する。
ステップＳ２３において、ＣＰＵ１１は、無声区間と有声区間の境目の時刻と、発話区間と残響区間との境目の時刻との差分を、残響時間（残響区間における時間長）として設定（推測）する。
これにより、残響推定処理は終了となる。

なお、本発明は、上述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。

上述の実施形態では、残響区間の推定のために、Ｍ個のフレームからなる単位データについてのパワー平均（Ｍ個のフレームにおけるピッチ周波数の各パワーの平均値）が用いられたが、特にこれに限定されず、単位データについてのパワーに関する任意の指標値を採用することができる。
例えば、Ｍ個のフレームからなる単位データにおいて、ピッチ周波数の各パワーのメディアン値や二乗平均値を、指標値として採用することもできる。
また例えば、このような平均値、メディアン値、又は二乗平均値を用いる所定のアルゴリズムに基づいて演算された値、例えば正規化された値等を、指標値として採用することもできる。

換言すると、本発明が適用される音声処理装置は、例えば次のような構成を有していれば、その実施の形態は特に限定されず、各種各様の実施の形態を取ることができる。
即ち、本発明が適用される音声処理装置は、
発声区間及び残響区間からなる有声区間と、無声区間とを含む音声データについて、有声区間を推定する有声区間推定機能と、
前記推定された前記有声区間内に含まれる音声波形データを、フレーム単位に分割し、当該各フレーム単位における音声データのパワーを夫々算出する算出機能と、
前記推定された有声区間に含まれる各フレームを所定の時間方向に順次注目フレームとして設定する注目フレーム設定機能と、
前記算出された有声区間内のフレーム単位のパワーを用いて、前記設定された注目フレームを含む所定数のフレーム群のパワーに関する指標値を演算するとともに前記注目フレームと前回設定された注目フレームとの指標値の差分を演算し、当該差分値に基づいて残響区間を推定する残響区間推定機能と、
を有するようにすればよい。
このようにして、簡易な構成で処理負担が軽い、残響区間の推定技術が実現可能になる。即ち、本実施形態では、無声区間と有声区間を含む入力音声から有声区間が推定されるので、事前のデータによる学習が不要となる。また、大量のデータからの計算を特に必要とせずに自動的に残響区間が推定される。
なお、上述の実施形態では、有声区間推定機能と残響区間推定機能は、ＣＰＵ１１（図１）によって実現され、変換機能は、ＦＦＴ部２０によって実現されていたが、特にこれらに限定されない。即ち、これらの各機能は、上述の実施形態以外の任意のハードウェア、任意のソフトウェア、あるいは任意のハードウェアと任意のソフトウェアの組合せにより実現可能である。

なお、上述の各機能を一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。
コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えば汎用のパーソナルコンピュータであってもよい。

このようなプログラムを含む記録媒体は、ユーザにプログラムを提供するために装置本体とは別に配布される図１のリムーバブルメディア３１により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される記録媒体等で構成される。リムーバブルメディア３１は、例えば、磁気ディスク（フロッピディスクを含む）、光ディスク、又は光磁気ディスク等により構成される。光ディスクは、例えば、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ），ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等により構成される。光磁気ディスクは、ＭＤ（Ｍｉｎｉ−Ｄｉｓｋ）等により構成される。また、装置本体に予め組み込まれた状態でユーザに提供される記録媒体は、例えば、プログラムが記録されている図１のＲＯＭ１２や、図１の記憶部１８に含まれるハードディスク等で構成される。

また例えば、上述の実施形態では、指標値の差分値にのみ基づいて残響区間が推定されると、誤検出が生じるおそれがあるため、このおそれを無くすべく、指標値の差分値が低いことに加えてさらに、注目フレームの指標値の最大値に対する減少率が一定以上（上述の例では２０％以上）であるという条件に基づいて、残響区間が推定されていたが、これに特に限定されない。
即ち、残響区間の推定の条件としては、注目フレームの指標値と最大値との比較結果であれば、任意のものを採用することができる。

また例えば、上述の実施形態では、有声区間と無声区間の境目の求め方は、次のようになされている。
即ち、ＣＰＵ１１（図１）は、先ず、入力音声波形データの振幅の時間的変化に基づいて、有声区間と無声区間との境目区間を求める。次に、ＣＰＵ１１は、有声区間のパワースペクトルを用いて、境目区間において時間の順方向又は逆方向に注目フレームを順次設定していき、注目フレームと前回の注目フレームとのパワーの差分を演算し、その差分値に基づいて、有声区間と無声区間との境目を求めている。
ただし、これは例示に過ぎず、任意の求め方を採用することができる。例えば、入力音声波形データのみを用いた求め方を採用することもできるし、その逆に、パワースペクトルのみを用いた求め方を採用することもできる。
しかしながら、入力音声波形データのみを用いると、処理負担は少ないものの、境目の推定精度が悪化する。一方、パワースペクトルのみを用いると、境目の推定精度は良くなるものの、処理負担が非常に重くなる。
そこで、本実施形態のように、先ず、入力音声波形データを用いた粗い推定を行い、一定の時間幅を有する境目区間を求め、次に、その境目区間だけを対象に、パワースペクトルを用いた推定を行うことで、処理負担はさほど重くならず、かつ、推定精度も良好に維持することが可能になる。

なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものとする。

以上、本発明のいくつかの実施形態について説明したが、これらの実施形態は、例示に過ぎず、本発明の技術的範囲を限定するものではない。本発明はその他の様々な実施形態を取ることが可能であり、さらに、本発明の要旨を逸脱しない範囲で、省略や置換等種々の変更を行うことができる。これら実施形態やその変形は、本明細書等に記載された発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

以下に、本願の出願当初の特許請求の範囲に記載された発明を付記する。
［付記１］
発声区間及び残響区間からなる有声区間と、無声区間とを含む音声データについて、有声区間を推定する有声区間推定手段と、
前記推定された前記有声区間内に含まれる音声波形データを、フレーム単位に分割し、当該各フレーム単位における音声データのパワーを夫々算出する算出手段と、
前記推定された有声区間に含まれる各フレームを所定の時間方向に順次注目フレームとして設定する注目フレーム設定手段と、
前記算出された有声区間内のフレーム単位のパワーを用いて、前記設定された注目フレームを含む所定数のフレーム群のパワーに関する指標値を演算するとともに前記注目フレームと前回設定された注目フレームとの指標値の差分を演算し、当該差分値に基づいて残響区間を推定する残響区間推定手段と、
を備える音声処理装置。
［付記２］
前記残響区間推定手段は、前記所定数のフレーム夫々のパワーの平均値を、前記指標値として演算する、
付記１に記載の音声処理装置。
［付記３］
前記残響区間推定手段はさらに、前記有声区間における前記指標値の最大値を演算し、前記差分値に加えて、前記注目フレームの前記指標値と前記最大値との比較結果に基づいて、前記残響区間を推定する、
付記１又は２に記載の音声処理装置。
［付記４］
前記残響区間推定手段は、前記指標値の差分値が一定以下であって、かつ、前記注目フレームの前記指標値の前記最大値に対する減少率が一定以上である区間を、前記残響区間として推定する、
付記３に記載の音声処理装置。
［付記５］
前記有声区間推定手段は、
前記音声波形データの振幅の時間的変化に基づいて、前記有声区間と前記無声区間との境目区間を求め、
前記算出手段により算出された前記有声区間のパワーを用いて、前記境目区間において所定の時間方向に注目フレームを順次設定していき、当該注目フレームと前回設定された注目フレームとのパワーの差分を演算し、その差分値に基づいて、前記有声区間と前記無声区間との境目を求め、
前記音声波形データの始端部から前記境目までを、前記有声区間として推定する、
付記１乃至４のうち何れか１つに記載の音声処理装置。
［付記６］
発声区間及び残響区間からなる有声区間と、無声区間とを含む音声データを処理対象として、音声処理装置が実行する音声処理方法において、
前記音声データについて、有声区間を推定し、
前記推定された前記有声区間内の音声データをフレーム単位に分割し、この分割されたフレーム単位の音声データのパワーを算出し、
前記推定された有声区間に含まれる各フレームを所定の時間方向に順次注目フレームとして設定し、
前記算出された有声区間内の各フレームのパワーを用いて、前記設定された注目フレームを含む所定数のフレーム夫々のパワーに関する指標値を演算するとともに前記注目フレームと前回設定された注目フレームとの指標値の差分を演算し、その差分値に基づいて残響区間を推定する、音声処理方法。
［付記７］
発声区間及び残響区間からなる有声区間と、無声区間とを含む音声データを処理対象として、音声処理装置を制御するコンピュータに、
前記音声データについて、有声区間を推定する有声区間推定ステップと、
前記推定された前記有声区間内の音声データをフレーム単位に分割し、この分割されたフレーム単位の音声データのパワーを算出する算出ステップと、
前記推定された有声区間に含まれる各フレームを所定の時間方向に順次注目フレームとして設定する注目フレーム設定ステップと、
前記算出された有声区間内の各フレームのパワーを用いて、前記設定された注目フレームを含む所定数のフレーム群のパワーに関する指標値を演算するとともに前記注目フレームと前回設定された注目フレームとの指標値の差分を演算し、その差分値に基づいて残響区間を推定する残響区間推定ステップと、
を実行させるプログラム。

１・・・音声処理装置、１１・・・ＣＰＵ、１２・・・ＲＯＭ、１３・・・ＲＡＭ、１４・・・バス、１５・・・入出力インターフェース、１６・・・入力部、１７・・・出力部、１８・・・記憶部、１９・・・通信部、２０・・・ＦＦＴ部、２１・・・ドライブ、３１・・・リムーバブルメディア

Claims

発声区間及び残響区間からなる有声区間と、無声区間とを含む音声データについて、有声区間を推定する有声区間推定手段と、
前記推定された前記有声区間内に含まれる音声波形データを、フレーム単位に分割し、当該各フレーム単位における音声データのパワーを夫々算出する算出手段と、
前記推定された有声区間に含まれる各フレームを所定の時間方向に順次注目フレームとして設定する注目フレーム設定手段と、
前記算出された有声区間内のフレーム単位のパワーを用いて、前記設定された注目フレームを含む所定数のフレーム群のパワーに関する指標値を演算するとともに前記注目フレームと前回設定された注目フレームとの指標値の差分を演算し、当該差分値に基づいて残響区間を推定する残響区間推定手段と、
を備える音声処理装置。
前記残響区間推定手段は、前記所定数のフレーム夫々のパワーの平均値を、前記指標値として演算する、
請求項１に記載の音声処理装置。
前記残響区間推定手段はさらに、前記有声区間における前記指標値の最大値を演算し、前記差分値に加えて、前記注目フレームの前記指標値と前記最大値との比較結果に基づいて、前記残響区間を推定する、
請求項１又は２に記載の音声処理装置。
前記残響区間推定手段は、前記指標値の差分値が一定以下であって、かつ、前記注目フレームの前記指標値の前記最大値に対する減少率が一定以上である区間を、前記残響区間として推定する、
請求項３に記載の音声処理装置。
前記有声区間推定手段は、
前記音声波形データの振幅の時間的変化に基づいて、前記有声区間と前記無声区間との境目区間を求め、
前記算出手段により算出された前記有声区間のパワーを用いて、前記境目区間において所定の時間方向に注目フレームを順次設定していき、当該注目フレームと前回設定された注目フレームとのパワーの差分を演算し、その差分値に基づいて、前記有声区間と前記無声区間との境目を求め、
前記音声波形データの始端部から前記境目までを、前記有声区間として推定する、
請求項１乃至４のうち何れか１項に記載の音声処理装置。
発声区間及び残響区間からなる有声区間と、無声区間とを含む音声データを処理対象として、音声処理装置が実行する音声処理方法において、
前記音声データについて、有声区間を推定し、
前記推定された前記有声区間内の音声データをフレーム単位に分割し、この分割されたフレーム単位の音声データのパワーを算出し、
前記推定された有声区間に含まれる各フレームを所定の時間方向に順次注目フレームとして設定し、
前記算出された有声区間内の各フレームのパワーを用いて、前記設定された注目フレームを含む所定数のフレーム夫々のパワーに関する指標値を演算するとともに前記注目フレームと前回設定された注目フレームとの指標値の差分を演算し、その差分値に基づいて残響区間を推定する、音声処理方法。
発声区間及び残響区間からなる有声区間と、無声区間とを含む音声データを処理対象として、音声処理装置を制御するコンピュータに、
前記音声データについて、有声区間を推定する有声区間推定ステップと、
前記推定された前記有声区間内の音声データをフレーム単位に分割し、この分割されたフレーム単位の音声データのパワーを算出する算出ステップと、
前記推定された有声区間に含まれる各フレームを所定の時間方向に順次注目フレームとして設定する注目フレーム設定ステップと、
前記算出された有声区間内の各フレームのパワーを用いて、前記設定された注目フレームを含む所定数のフレーム群のパワーに関する指標値を演算するとともに前記注目フレームと前回設定された注目フレームとの指標値の差分を演算し、その差分値に基づいて残響区間を推定する残響区間推定ステップと、
を実行させるプログラム。