JP2019060942A

JP2019060942A - 音声処理プログラム、音声処理方法および音声処理装置

Info

Publication number: JP2019060942A
Application number: JP2017183588A
Authority: JP
Inventors: 紗友梨中山; Sayuri Nakayama; 太郎外川; Taro Togawa; 猛大谷; Takeshi Otani
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-09-25
Filing date: 2017-09-25
Publication date: 2019-04-18
Anticipated expiration: 2037-09-25
Also published as: US20190096431A1; US11069373B2; JP6907859B2

Abstract

【課題】ピッチ周波数の推定精度を向上させること。【解決手段】音声処理装置１００は、入力信号を周波数変換することで、前記入力信号から入力スペクトルを算出する。音声処理装置１００は、入力スペクトルを基にして、対象帯域に含まれる各帯域に対する音声らしさの特徴量を算出する。音声処理装置１００は、帯域毎の音声らしさの特徴量を基にして、前記対象帯域から選択帯域を選択し、入力スペクトルと選択帯域とを基にして、ピッチ周波数を検出する。【選択図】図３

Description

本発明は、音声処理プログラム等に関する。

近年、多くの企業では、顧客の満足度等を推定し、マーケティングを有利に進めるために、応答者と顧客との会話から、顧客（あるいは、応答者）の感情等に関する情報を獲得したいというニーズがある。人の感情は声に現れることが多く、たとえば、声の高さ（ピッチ周波数）は、人の感情を捉える場合に重要な要素の一つとなる。

ここで、音声の入力スペクトルに関する用語について説明する。図１６は、入力スペクトルに関する用語を説明するための図である。図１６に示すように、一般的に、人間の音声の入力スペクトル４は、極大値が等間隔に表れる。入力スペクトル４の横軸は周波数に対応する軸であり、縦軸は入力スペクトル４の大きさに対応する軸である。

最も低い周波数成分の音を「基音」とする。基音のある周波数をピッチ周波数とする。図１６に示す例では、ピッチ周波数はｆとなる。ピッチ周波数の整数倍に当たる各周波数成分（２ｆ、３ｆ、４ｆ）の音を倍音とする。入力スペクトル４には、基音４ａ、倍音４ｂ，４ｃ，４ｄが含まれる。

続いて、ピッチ周波数を推定する従来技術の一例について説明する。図１７は、従来技術を説明するための図（１）である。図１７に示すように、この従来技術では、周波数変換部１０と、相関算出部１１と、探索部１２とを有する。

周波数変換部１０は、入力音声をフーリエ変換することで、入力音声の周波数スペクトルを算出する処理部である。周波数変換部１０は、入力音声の周波数スペクトルを、相関算出部１１に出力する。以下の説明では、入力音声の周波数スペクトルを、入力スペクトルと表記する。

相関算出部１１は、様々な周波数のコサイン波と、入力スペクトルとの相関値を周波数毎にそれぞれ算出する処理部である。相関算出部１１は、コサイン波の周波数と相関値とを対応づけた情報を、探索部１２に出力する。

探索部１２は、複数の相関値の内、最大の相関値に対応づけられたコサイン波の周波数を、ピッチ周波数として出力する処理部である。

図１８は、従来技術を説明するための図（２）である。図１８において、入力スペクトル５ａは、周波数変換部１０から出力された入力スペクトルである。入力スペクトル５ａの横軸は周波数に対応する軸であり、縦軸はスペクトルの大きさに対応する軸である。

コサイン波６ａ，６ｂは、相関算出部１１が受け付けるコサイン波の一部である。コサイン波６ａは、周波数軸上で周波数ｆ［Ｈｚ］とその倍数にピークを持つコサイン波である。コサイン波６ｂは、周波数軸上で周波数２ｆ［Ｈｚ］とその倍数にピークを持つコサイン波である。

相関算出部１１は、入力スペクトル５ａと、コサイン波６ａとの相関値「０．９５」を算出する。相関算出部１１は、入力スペクトル５ａと、コサイン波６ｂとの相関値「０．４０」を算出する。

探索部１２は、各相関値を比較し、最大値となる相関値を探索する。図１８に示す例では、相関値「０．９５」が最大値となるため、探索部１２は、相関値「０．９５」に対応する周波数ｆ「Ｈｚ」を、ピッチ周波数として出力する。なお、探索部１２は、最大値が所定の閾値未満となる場合には、ピッチ周波数がないと判定する。

国際公開第２０１０／０９８１３０号国際公開第２００５／１２４７３９号

しかしながら、上述した従来技術では、ピッチ周波数の推定精度を向上させることができないという問題がある。

図１９は、従来技術の問題を説明するための図である。たとえば、収録環境により、基音や倍音の一部が明瞭でない場合、コサイン波との相関値が小さくなり、ピッチ周波数を検出することが難しい。図１９において、入力スペクトル５ｂの横軸は周波数に対応する軸であり、縦軸はスペクトルの大きさに対応する軸である。雑音等の影響により、入力スペクトル５ｂでは、基音３ａが小さく、倍音３ｂが大きくなっている。

たとえば、相関算出部１１は、入力スペクトル５ｂと、コサイン波６ａとの相関値「０．３０」を算出する。相関算出部１１は、入力スペクトル５ｂと、コサイン波６ｂとの相関値「０．１０」を算出する。

探索部１２は、各相関値を比較し、最大値となる相関値を探索する。また、閾値を「０．４」とする。そうすると、探索部１２は、最大値「０．３０」が閾値未満なるため、ピッチ周波数がないと判定する。

１つの側面では、本発明は、ピッチ周波数の推定精度を向上させることができる音声処理プログラム、音声処理方法および音声処理装置を提供することを目的とする。

第１の案では、コンピュータに次の処理を実行させる。コンピュータは、入力信号を周波数変換することで、前記入力信号から入力スペクトルを算出する。コンピュータは、入力スペクトルを基にして、対象帯域に含まれる各帯域に対する音声らしさの特徴量を算出する。コンピュータは、帯域毎の音声らしさの特徴量を基にして、前記対象帯域から選択帯域を選択し、入力スペクトルと選択帯域とを基にして、ピッチ周波数を検出する。

ピッチ周波数の推定精度を向上させることができる。

図１は、本実施例１に係る音声処理装置の処理を説明するための図である。図２は、本実施例１に係る音声処理装置の効果の一例を説明するための図である。図３は、本実施例１に係る音声処理装置の構成を示す機能ブロック図である。図４は、表示画面の一例を示す図である。図５は、本実施例１に係る選択部の処理を説明するための図である。図６は、本実施例１に係る音声処理装置の処理手順を示すフローチャートである。図７は、本実施例２に係る音声処理システムの一例を示す図である。図８は、本実施例２に係る音声処理装置の構成を示す機能ブロック図である。図９は、本実施例２に係る算出部の処理を補足するための図である。図１０は、本実施例２に係る音声処理装置の処理手順を示すフローチャートである。図１１は、本実施例３に係る音声処理システムの一例を示す図である。図１２は、本実施例３に係る収録サーバの構成を示す機能ブロック図である。図１３は、本実施例３に係る音声処理装置の構成を示す機能ブロック図である。図１４は、本実施例３に係る音声処理装置の処理手順を示すフローチャートである。図１５は、音声処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。図１６は、入力スペクトルに関する用語を説明するための図である。図１７は、従来技術を説明するための図（１）である。図１８は、従来技術を説明するための図（２）である。図１９は、従来技術の問題を説明するための図である。

以下に、本願の開示する音声処理プログラム、音声処理方法および音声処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

図１は、本実施例１に係る音声処理装置の処理を説明するための図である。音声処理装置は、入力信号を複数のフレームに分割し、フレームの入力スペクトルを算出する。入力スペクトル７ａは、あるフレーム（過去のフレーム）から算出された入力スペクトルである。図１において、入力スペクトル７ａの横軸は周波数に対応する軸であり、縦軸は入力スペクトルの大きさに対応する軸である。音声処理装置は、入力スペクトル７ａを基にして、音声らしさの特徴量を算出し、音声らしさの特徴量を基にして、音声らしい帯域７ｂを学習する。音声処理装置は、他のフレームについても上記処理を繰り返し実行することで、音声らしい帯域７ｂを学習、更新する（ステップＳ１０）。

音声処理装置は、ピッチ周波数の検出対象となるフレームを受け付けると、フレームの入力スペクトル８ａを算出する。図１において、入力スペクトル８ａの横軸は周波数に対応する軸であり、縦軸は入力スペクトルの大きさに対応する軸である。音声処理装置は、対象帯域８ｂのうち、ステップＳ１０で学習した音声らしい帯域７ｂに対応する入力スペクトル８ａに基づいて、ピッチ周波数を算出する（ステップＳ１１）。

図２は、本実施例１に係る音声処理装置の効果の一例を説明するための図である。図２の各入力スペクトル９の横軸は周波数に対応する軸であり、縦軸は入力スペクトルの大きさに対応する軸である。

従来技術では、対象帯域８ａの入力スペクトル９と、コサイン波との相関値を算出する。そうすると、収録環境の影響により、相関値（最大値）が小さくなり、検出漏れが発生する。図２に示す例では、相関値が０．３０［Ｈｚ］となり、閾値以上とならず、推定値が「なし」となる。ここでは、一例として、閾値を「０．４」とする。

一方、本実施例１に係る音声処理装置は、図１で説明したように、収録環境の影響を受けにくい、音声らしい帯域７ｂを学習しておく。音声処理装置は、音声らしい帯域７ｂの入力スペクトル９と、コサイン波との相関値を算出する。そうすると、収録環境の影響を受けず、適切な相関値（最大値）が得られ、検出漏れを抑止し、ピッチ周波数の推定精度を向上させることができる。図２に示す例では、相関値が０．６０［Ｈｚ］となり、閾値以上となり、適切な推定ｆ［Ｈｚ］が検出される。

次に、本実施例１に係る音声処理装置の構成の一例について説明する。図３は、本実施例１に係る音声処理装置の構成を示す機能ブロック図である。図３に示すように、この音声処理装置１００は、マイク５０ａ、表示装置５０ｂに接続される。

マイク５０ａは、話者から集音した音声（または音声以外）の信号を、音声処理装置１００に出力する。以下の説明では、マイク５０ａが集音した信号を「入力信号」と表記する。たとえば、話者が発話している間に集音した入力信号には、音声が含まれる。また、音声には、背景雑音等が含まれる場合もある。

表示装置５０ｂは、音声処理装置１００が検出したピッチ周波数の情報を表示する表示装置である。表示装置５０ｂは、液晶ディスプレイやタッチパネル等に対応する。図４は、表示画面の一例を示す図である。たとえば、表示装置５０ｂは、時間とピッチ周波数との関係を示す表示画面６０を表示する。図４において、横軸は時間に対応する軸であり、縦軸はピッチ周波数に対応する軸である。

図３の説明に戻る。音声処理装置１００は、ＡＤ変換部１１０、周波数変換部１２０、算出部１３０、選択部１４０、検出部１５０を有する。

ＡＤ変換部１１０は、マイク５０ａから入力信号を受け付け、ＡＤ（Analog to Digital）変換を実行する処理部である。具体的には、ＡＤ変換部１１０は、入力信号（アナログ信号）を、入力信号（デジタル信号）に変換する。ＡＤ変換部１１０は、入力信号（デジタル信号）を、周波数変換部１２０に出力する。以下の説明では、ＡＤ変換部１１０から出力される入力信号（デジタル信号）を単に入力信号と表記する。

周波数変換部１２０は、入力信号ｘ（ｎ）を所定長の複数のフレームに分割し、各フレームに対してＦＦＴ（Fast Fourier Transform）を行うことで、各フレームのスペクトルＸ（ｆ）を算出する。ここで、「ｘ（ｎ）」はサンプル番号ｎの入力信号を示す。「Ｘ（ｆ）」は、周波数（周波数番号）ｆのスペクトルを示す。

周波数変換部１２０は、式（１）に基づいて、フレームのパワースペクトルＰ（ｌ，ｋ）を算出する。式（１）において、変数「ｌ」はフレーム番号を示し、変数「ｆ」は周波数番号を示す。以下の説明では、パワースペクトルを「入力スペクトル」と表記する。周波数変換部１２０は、入力スペクトルの情報を、算出部１３０および検出部１５０に出力する。

算出部１３０は、入力スペクトルの情報を基にして、対象領域に含まれる各帯域の音声らしさの特徴量を算出する処理部である。算出部１３０は、式（２）に基づいて、平滑化パワースペクトルＰ’（ｍ，ｆ）を算出する。式（２）において、変数「ｍ」はフレーム番号を示し、変数「ｆ」は周波数番号を示す。算出部１３０は、各フレーム番号および各周波数番号に対応する平滑化パワースペクトルの情報を、選択部１４０に出力する。

選択部１４０は、平滑化パワースペクトルの情報を基にして、全帯域（対象帯域）のうち、音声らしい帯域を選択する処理部である。以下の説明では、選択部１４０が選択した音声らしい帯域を「選択帯域」と表記する。以下において、選択部１４０の処理について説明する。

選択部１４０は、平滑化パワースペクトルの全帯域の平均値ＰＡを、式（３）に基づいて算出する。式（３）において、Ｎは全帯域数を示すものである。Ｎの値は予め設定される。

選択部１４０は、全帯域の平均値ＰＡと、平滑化パワースペクトルとを比較することで、選択帯域を選択する。図５は、本実施例１に係る選択部の処理を説明するための図である。図５では、フレーム番号「ｍ」のフレームから算出された平滑化パワースペクトルＰ’（ｍ，ｆ）を示す。図５の横軸は周波数に対応する軸であり、縦軸は平滑化パワースペクトルＰ’（ｍ，ｆ）の大きさに対応する軸である。

選択部１４０は、「平均値ＰＡ−２０ｄＢ」の値と、平滑化パワースペクトルＰ’（ｍ，ｆ）とを比較し、「平滑化パワースペクトルＰ’（ｍ，ｆ）＞平均値ＰＡ−２０ｄＢ」となる帯域のうち、下限ＦＬおよび上限ＦＨを特定する。選択部１４０は、他のフレーム番号に対応する平滑化パワースペクトルＰ’（ｍ，ｆ）についても、同様に、下限ＦＬおよび上限ＦＨを特定する処理を繰り返し、下限ＦＬの平均値、上限ＦＨの平均値を特定する。

たとえば、選択部１４０は、式（４）に基づいて、ＦＬの平均値ＦＬ’（ｍ）を算出する。選択部１４０は、式（５）に基づいて、ＦＨの平均値ＦＨ’（ｍ）を算出する。式（４）、式（５）に含まれるαは、予め設定される値である。

ＦＬ’（ｍ）＝（１−α）×ＦＬ’（ｍ−１）＋α×ＦＬ（ｍ）・・・（４）
ＦＨ’（ｍ）＝（１−α）×ＦＨ’（ｍ−１）＋α×ＦＨ（ｍ）・・・（５）

選択部１４０は、ＦＬの平均値ＦＬ’（ｍ）から上限ＦＨ’（ｍ）までの帯域を、選択帯域として選択する。選択部１４０は、選択帯域の情報を、検出部１５０に出力する。

検出部１５０は、入力スペクトルと、選択帯域の情報とを基にして、ピッチ周波数を検出する処理部である。以下において、検出部１５０の処理の一例について説明する。

検出部１５０は、式（６）および式（７）を基にして、入力スペクトルを正規化する。式（６）において、Ｐ_ｍａｘは、Ｐ（ｆ）の最大値を示すものである。Ｐｎ（ｆ）は、正規化スペクトルを示すものである。

検出部１５０は、選択帯域での正規化スペクトルと、ＣＯＳ（コサイン）波形との一致度Ｊ（ｇ）を、式（８）に基づいて算出する。式（８）において、変数「ｇ」は、ＣＯＳ波形の周期を示す。ＦＬは、選択部１４０に選択された平均値ＦＬ’（ｍ）に対応するものである。ＦＨは、選択部１４０に選択された平均値ＦＨ’（ｍ）に対応するものである。

検出部１５０は、式（９）に基づいて、最も一致度（相関）が大きくなる周期ｇを、ピッチ周波数Ｆ０として検出する。

検出部１５０は、上記処理を繰り返し実行することで、各フレームのピッチ周波数を検出する。検出部１５０は、時間とピッチ周波数とを対応づけた表示画面の情報を生成し、表示装置５０ｂに表示させてもよい。たとえば、検出部１５０は、フレーム番号「ｍ」から、時間を推定する。

次に、本実施例１に係る音声処理装置１００の処理手順について説明する。図６は、本実施例１に係る音声処理装置の処理手順を示すフローチャートである。図６に示すように、音声処理装置１００は、マイク５０ａから入力信号を取得する（ステップＳ１０１）。

音声処理装置１００の周波数変換部１２０は、入力スペクトルを算出する（ステップＳ１０２）。音声処理装置１００の算出部１３０は、入力スペクトルを基にして、平滑化パワースペクトルを算出する（ステップＳ１０３）。

音声処理装置１００の選択部１４０は、平滑化パワースペクトルの全帯域の平均値ＰＡを算出する（ステップＳ１０４）。選択部１４０は、平均値ＰＡと各帯域の平滑化パワースペクトルとを基にして、選択帯域を選択する（ステップＳ１０５）。

音声処理装置１００の検出部１５０は、選択帯域に対応する入力スペクトルを基にして、ピッチ周波数を検出する（ステップＳ１０６）。検出部１５０は、ピッチ周波数を表示装置５０ｂに出力する（ステップＳ１０７）。

音声処理装置１００は、入力信号が終了しない場合には（ステップＳ１０８，Ｎｏ）、ステップＳ１０１に移行する。一方、音声処理装置１００は、入力信号が終了した場合には（ステップＳ１０８，Ｙｅｓ）、処理を終了する。

次に、本実施例１に係る音声処理装置１００の効果について説明する。音声処理装置１００は、音声らしさの特徴量を基にして、収録環境の影響を受けにくい選択帯域を、対象帯域（全帯域）から選択しておき、選択した選択帯域の入力スペクトルを用いて、ピッチ周波数を検出する。これにより、ピッチ周波数の推定精度を向上させることができる。

音声処理装置１００は、各フレームの入力スペクトルを平滑化した平滑化パワースペクトルを算出し、平滑化パワースペクトルの全帯域の平均値ＰＡと、平滑化パワースペクトルとの比較により、選択帯域を選択する。これにより、音声らしい帯域を、選択帯域として精度よく選択することができる。なお、本実施例では一例として、入力スペクトルを用いて処理を行ったが、入力スペクトルの代わりに、ＳＮＲを用いて、選択帯域を選択してもよい。

図７は、本実施例２に係る音声処理システムの一例を示す図である。図７に示すように、この音声処理システムは、端末装置２ａ，２ｂ、ＧＷ（Gate Way）１５、収録機器２０、クラウド網３０を有する。端末装置２ａは、電話網１５ａを介して、ＧＷ１５に接続される。収録機器２０は、個別網１５ｂを介して、ＧＷ１５、端末装置２ｂ、クラウド網３０に接続される。

クラウド網３０は、音声ＤＢ（Data Base）３０ａと、ＤＢ３０ｂと、音声処理装置２００とを有する。音声処理装置２００は、音声ＤＢ３０ａと、ＤＢ３０ｂとに接続される。なお、音声処理装置２００の処理は、クラウド網３０上の複数のサーバ（図示略）によって実行されてもよい。

端末装置２ａは、マイク（図示略）により集音された話者１ａの音声（または音声以外）の信号を、ＧＷ１５を介して、収録機器２０に送信する。以下の説明では、端末装置２ａから送信される信号を、第１信号と表記する。

端末装置２ｂは、マイク（図示略）により集音された話者１ｂの音声（または音声以外）の信号を、収録機器２０に送信する。以下の説明では、端末装置２ｂから送信される信号を、第２信号と表記する。

収録機器２０は、端末装置２ａから受信する第１信号を収録し、収録した第１信号の情報を、音声ＤＢ３０ａに登録する。収録機器２０は、端末装置２ｂから受信する第２信号を収録し、収録した第２信号の情報を、音声ＤＢ３０ａに登録する。

音声ＤＢ３０ａは、第１バッファ（図示略）と、第２バッファ（図示略）とを有する。たとえば、音声ＤＢ３０ａは、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

第１バッファは、第１信号の情報を保持するバッファである。第２バッファは、第２信号の情報を保持するバッファである。

ＤＢ３０ｂは、音声処理装置２００による、ピッチ周波数の推定結果を格納する。たとえば、ＤＢ３０ｂは、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

音声処理装置２００は、音声ＤＢ３０ａから第１信号を取得し、話者１ａの発話のピッチ周波数を推定し、推定結果をＤＢ３０ｂに登録する。音声処理装置２００は、音声ＤＢ３０ａから第２信号を取得し、話者１ｂの発話のピッチ周波数を推定し、推定結果をＤＢ３０ｂに登録する。以下の音声処理装置２００に関する説明では、音声処理装置２００が、音声ＤＢ３０ａから第１信号を取得し、話者１ａの発話のピッチ周波数を推定する処理について説明する。なお、音声処理装置２００が、音声ＤＢ３０ａから第２信号を取得し、話者１ｂの発話のピッチ周波数を推定する処理は、音声ＤＢ３０ａから第１信号を取得し、話者１ａの発話のピッチ周波数を推定する処理に対応するため、説明を省略する。以下の説明では、第１信号を「入力信号」と表記する。

図８は、本実施例２に係る音声処理装置の構成を示す機能ブロック図である。図８に示すように、この音声処理装置２００は、取得部２０５、ＡＤ変換部２１０、周波数変換部２２０、算出部２３０、選択部２４０、検出部２５０、登録部２６０を有する。

取得部２０５は、音声ＤＢ３０ａから入力信号を取得する処理部である。取得部２０５は、取得した入力信号をＡＤ変換部２１０に出力する。

ＡＤ変換部２１０は、取得部２０５から入力信号を取得し、取得した入力信号に対してＡＤ変換を実行する処理部である。具体的には、ＡＤ変換部２１０は、入力信号（アナログ信号）を、入力信号（デジタル信号）に変換する。ＡＤ変換部２１０は、入力信号（デジタル信号）を、周波数変換部２２０に出力する。以下の説明では、ＡＤ変換部２１０から出力される入力信号（デジタル信号）を単に入力信号と表記する。

周波数変換部２２０は、入力信号を基にして、フレームの入力スペクトルを算出する処理部である。周波数変換部２２０が、フレームの入力スペクトルを算出する処理は、周波数変換部１２０の処理に対応するため、説明を省略する。周波数変換部２２０は、入力スペクトルの情報を、算出部２３０および検出部２５０に出力する。

算出部２３０は、入力スペクトルの対象帯域（全帯域）を複数のサブ帯域に分割し、サブ帯域毎の変化量を算出する処理部である。算出部２３０は、時間方向の入力スペクトルの変化量を算出する処理、周波数方向の入力スペクトルの変化量を算出する処理を行う。

算出部２３０が、時間方向の入力スペクトルの変化量を算出する処理について説明する。算出部２３０は、前フレームの入力スペクトルと、現フレームの入力スペクトルとを基にして、サブ帯域における、時間方向の変化量を算出する。

たとえば、算出部１３０は、式（１０）を基にして、時間方向の入力スペクトルの変化量Δ_Ｔを算出する。式（１０）において、「Ｎ_ＳＵＢ」は、サブ帯域の全帯域数を示す。「ｍ」は、現フレームのフレーム番号を示す。「ｌ」は、サブ帯域番号である。

図９は、本実施例２に係る算出部の処理を補足するための図である。たとえば、図９に示す入力スペクトル２１は、フレーム番号ｍのフレームから検出された入力スペクトルを示す。横軸は周波数に対応する軸であり、縦軸は入力スペクトル２１の大きさに対応する軸である。図９に示す例では、対象帯域が、複数のサブ帯域Ｎ_ＳＵＢ１〜Ｎ_ＳＵＢ５に分割されている。たとえば、サブ帯域Ｎ_ＳＵＢ１、Ｎ_ＳＵＢ２、Ｎ_ＳＵＢ３、Ｎ_ＳＵＢ４、Ｎ_ＳＵＢ５が、サブ帯域番号ｌ＝１〜５のサブ帯域に対応する。

続いて、算出部２３０が、周波数方向の入力スペクトルの変化量を算出する処理について説明する。算出部２３０は、現フレームの入力スペクトルを基にして、サブ帯域における入力スペクトルの変化量を算出する。

たとえば、算出部２３０は、式（１１）を基にして、周波数方向の入力スペクトルの変化量Δ_Ｆを算出する。算出部２３０は、図９で説明した、各サブ帯域について、上記処理を繰り返し実行する。

算出部２３０は、サブ帯域毎の、時間方向の入力スペクトルの変化量Δ_Ｔおよび周波数の入力スペクトルの変化量Δ_Ｆの情報を、選択部２４０に出力する。

選択部２４０は、サブ帯域毎の、時間方向の入力スペクトルの変化量Δ_Ｔおよび周波数の入力スペクトルの変化量Δ_Ｆの情報を基にして、選択帯域を選択する処理部である。選択部２４０は、選択帯域の情報を、検出部２５０に出力する。

選択部２４０は、式（１２）を基にして、サブ帯域番号「ｌ」のサブ帯域が、選択帯域であるか否かを判定する。式（１２）において、ＳＬ（ｌ）は、選択帯域フラグであり、ＳＬ（ｌ）＝１の場合には、サブ帯域番号「ｌ」のサブ帯域が、選択帯域であることを示す。

式（１２）に示すように、たとえば、選択部２４０は、変化量Δ_Ｔが閾値ＴＨ_１より大きく、かつ、変化量Δ_Ｆが閾値ＴＨ_２より大きい場合には、サブ帯域番号「ｌ」のサブ帯域が選択帯域であると判定し、ＳＬ（ｌ）＝１に設定する。選択部２４０は、各サブ帯域番号についても同様の処理を実行することで、選択帯域を特定する。たとえば、ＳＬ（２）およびＳＬ（３）の値が１で、他のＳＬ（１）、ＳＬ（４）、ＳＬ（５）の値が０である場合には、図９に示すＮ_ＳＵＢ２、Ｎ_ＳＵＢ３が選択帯域となる。

検出部２５０は、入力スペクトルと、選択帯域の情報とを基にして、ピッチ周波数を検出する処理部である。以下において、検出部２５０の処理の一例について説明する。

検出部２５０は、検出部１５０と同様にして、式（６）、式（７）を基にして、入力スペクトルを正規化する。正規化した入力スペクトルを、正規化スペクトルと表記する。

検出部２５０は、選択帯域と判定されたサブ帯域の正規化スペクトルと、ＣＯＳ（コサイン）波形との一致度Ｊ_ＳＵＢ（ｇ，ｌ）を、式（１３）に基づいて算出する。式（１３）の「Ｌ」は、サブ帯域の総数を示す。なお、式（１３）に示すように、選択帯域に対応しないサブ帯域の正規化スペクトルと、ＣＯＳ（コサイン）波形との一致度Ｊ_ＳＵＢ（ｇ，ｌ）は０となる。

検出部２５０は、式（１４）を基にして、各サブ帯域の一致度Ｊ_ＳＵＢ（ｇ，ｋ）のうち、最大となる一致度Ｊ（ｇ）を検出する。

検出部２５０は、式（１５）を基にして、一致度が最大となるサブ帯域（選択帯域）の正規化スペクトルとＣＯＳ波形との周期ｇを、ピッチ周波数Ｆ０として検出する。

検出部２５０は、上記処理を繰り返し実行することで、各フレームのピッチ周波数を検出する。検出部２５０は、検出した各フレームのピッチ周波数の情報を、登録部２６０に出力する。

登録部２６０は、検出部２５０により検出された各フレームのピッチ周波数の情報を、ＤＢ３０ｂに登録する処理部である。

次に、本実施例２に係る音声処理装置２００の処理手順について説明する。図１０は、本実施例２に係る音声処理装置の処理手順を示すフローチャートである。図１０に示すように、この音声処理装置２００の取得部２０５は、入力信号を取得する（ステップＳ２０１）。

音声処理装置２００の周波数変換部２２０は、入力スペクトルを算出する（ステップＳ２０２）。音声処理装置２００の算出部２３０は、時間方向の入力スペクトルの変化量Δ_Ｔを算出する（ステップＳ２０３）。算出部２３０は、周波数方向の入力スペクトルの変化量Δ_Ｆを算出する（ステップＳ２０４）。

音声処理装置２００の選択部２４０は、選択帯域となるサブ帯域を選択する（ステップＳ２０５）。音声処理装置２００の検出部２５０は、選択帯域に対応する入力スペクトルを基にして、ピッチ周波数を検出する（ステップＳ２０６）。登録部２６０は、ピッチ周波数をＤＢ３０ｂに出力する（ステップＳ２０７）。

音声処理装置２００は、入力信号が終了した場合には（ステップＳ２０８，Ｙｅｓ）、処理を終了する。一方、音声処理装置２００は、入力信号が終了していない場合には（ステップＳ２０８，Ｎｏ）、ステップＳ２０１に移行する。

次に、本実施例２に係る音声処理装置２００の効果について説明する。音声処理装置２００は、入力スペクトルの時間方向の変化量Δ_Ｔおよび周波数方向の変化量Δ_Ｆを基にして、選択帯域となる帯域を、複数のサブ帯域から選択し、選択した選択帯域の入力スペクトルを用いて、ピッチ周波数を検出する。これにより、ピッチ周波数の推定精度を向上させることができる。

また、音声処理装置２００は、サブ帯域毎に、入力スペクトルの時間方向の変化量Δ_Ｔおよび周波数方向の変化量Δ_Ｆを算出し、音声らしい選択帯域を選択するため、音声らしい帯域を精度よく選択することができる。

図１１は、本実施例３に係る音声処理システムの一例を示す図である。図１１に示すように、この音声処理システムは、端末装置２ａ，２ｂ、ＧＷ１５、収録サーバ４０、クラウド網５０を有する。端末装置２ａは、電話網１５ａを介して、ＧＷ１５に接続される。端末装置２ｂは、個別網１５ｂを介してＧＷ１５に接続される。ＧＷ１５は、収録サーバ４０に接続される。収録サーバ４０は、保守網４５を介して、クラウド網５０に接続される。

クラウド網５０は、音声処理装置３００と、ＤＢ５０ｃとを有する。音声処理装置３００は、ＤＢ５０ｃに接続される。なお、音声処理装置３００の処理は、クラウド網５０上の複数のサーバ（図示略）によって実行されてもよい。

端末装置２ａは、マイク（図示略）により集音された話者１ａの音声（または音声以外）の信号を、ＧＷ１５に送信する。以下の説明では、端末装置２ａから送信される信号を、第１信号と表記する。

端末装置２ｂは、マイク（図示略）により集音された話者１ｂの音声（または音声以外）の信号を、ＧＷ１５に送信する。以下の説明では、端末装置２ｂから送信される信号を、第２信号と表記する。

ＧＷ１５は、端末装置２ａから受信した第１信号を、ＧＷ１５の記憶部（図示略）の第１バッファに格納するとともに、第１信号を、端末装置２ｂに送信する。ＧＷ１５は、端末装置２ｂから受信した第２信号を、ＧＷ１５の記憶部の第２バッファに格納するとともに、第２信号を、端末装置２ａに送信する。また、ＧＷ１５は、収録サーバ４０との間でミラーリングを行い、ＧＷ１５の記憶部の情報を、収録サーバ４０の記憶部に登録する。

収録サーバ４０は、ＧＷ１５との間でミラーリングを行うことで、収録サーバ４０の記憶部（後述する記憶部４２）に第１信号の情報と、第２信号の情報とを登録する。収録サーバ４０は、第１信号を周波数変換することで、第１信号の入力スペクトルを算出し、算出した第１信号の入力スペクトルの情報を、音声処理装置３００に送信する。収録サーバ４０は、第２信号を周波数変換することで、第２信号の入力スペクトルを算出し、算出した第２信号の入力スペクトルの情報を、音声処理装置３００に送信する。

ＤＢ５０ｃは、音声処理装置３００による、ピッチ周波数の推定結果を格納する。たとえば、ＤＢ５０ｃは、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

音声処理装置３００は、収録サーバ４０から受け付ける第１信号の入力スペクトルを基にして、話者１ａのピッチ周波数を推定し、推定結果をＤＢ５０ｃに格納する。収録サーバ４０から受け付ける第２信号の入力スペクトルを基にして、話者１ｂのピッチ周波数を推定し、推定結果をＤＢ５０ｃに格納する。

図１２は、本実施例３に係る収録サーバの構成を示す機能ブロック図である。図１２に示すように、この収録サーバ４０は、ミラーリング処理部４１と、記憶部４２と、周波数変換部４３と、送信部４４とを有する。

ミラーリング処理部４１は、ＧＷ１５とデータ通信を実行することでミラーリングを行う処理部である。たとえば、ミラーリング処理部４１は、ＧＷ１５から、ＧＷ１５の記憶部の情報を取得し、取得した情報を、記憶部４２に登録および更新する。

記憶部４２は、第１バッファ４２ａと第２バッファ４２ｂとを有する。記憶部４２は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

第１バッファ４２ａは、第１信号の情報を保持するバッファである。第２バッファ４２ｂは、第２信号の情報を保持するバッファである。第１バッファ４２ａに格納された第１信号および第２バッファ４２ｂに格納された第２信号は、ＡＤ変換済みの信号であるものとする。

周波数変換部４３は、第１バッファ４２ａから第１信号を取得し、第１信号を基にして、フレームの入力スペクトルを算出する。また、周波数変換部４３は、第２バッファ４２ｂから第２信号を取得し、第２信号を基にして、フレームの入力スペクトルを算出する。以下の説明では、第１信号または第２信号をとくに区別する場合を除いて「入力信号」と表記する。周波数変換部４３が、入力信号のフレームの入力スペクトルを算出する処理は、周波数変換部１２０の処理に対応するため、説明を省略する。周波数変換部４３は、入力信号の入力スペクトルの情報を、送信部４４に出力する。

送信部４４は、入力信号の入力スペクトルの情報を、保守網４５を介して、音声処理装置３００に送信する。

続いて、図１１で説明した音声処理装置３００の構成について説明する。図１３は、本実施例３に係る音声処理装置の構成を示す機能ブロック図である。図１３に示すように、この音声処理装置３００は、受信部３１０と、検出部３２０と、選択部３３０と、登録部３４０とを有する。

受信部３１０は、収録サーバ４０の送信部４４から、入力信号の入力スペクトルの情報を受信する処理部である。受信部３１０は、入力スペクトルの情報を、検出部３２０に出力する。

検出部３２０は、選択部３３０と協働して、ピッチ周波数を検出する処理部である。検出部３２０は、検出したピッチ周波数の情報を、登録部３４０に出力する。以下において、検出部３２０の処理の一例について説明する。

検出部３２０は、検出部１５０と同様にして、式（６）、式（７）を基にして、入力スペクトルを正規化する。正規化した入力スペクトルを、正規化スペクトルと表記する。

検出部３２０は、式（１６）を基にして、正規化スペクトルとＣＯＳ波形の相関をサブ帯域毎に算出する。式（１６）において、Ｒ_ＳＵＢ（ｇ，ｌ）は、周期「ｇ」のＣＯＳ波形と、サブ帯域番号「ｌ」のサブ帯域の正規化スペクトルとの相関である。

検出部３２０は、式（１７）に基づいて、サブ帯域の相関が閾値ＴＨ_３以上の場合にのみ、全帯域の相関Ｒ（ｇ）に加算する処理を行う。

説明の便宜上、ＣＯＳ波形の周期を「ｇ_１、ｇ_２、ｇ_３」として、検出部３２０の説明を行う。たとえば、式（１６）に基づく計算により、Ｒ_ＳＵＢ（ｇ_１，ｌ）（ｌ＝１、２、３、４、５）のうち、閾値ＴＨ_３以上となるものが、Ｒ_ＳＵＢ（ｇ_１，１）、Ｒ_ＳＵＢ（ｇ_１，２）、Ｒ_ＳＵＢ（ｇ_１，３）であるとする。この場合には、相関Ｒ（ｇ_１）＝Ｒ_ＳＵＢ（ｇ_１，１）＋Ｒ_ＳＵＢ（ｇ_１，２）＋Ｒ_ＳＵＢ（ｇ_１，３）となる。

式（１６）に基づく計算により、Ｒ_ＳＵＢ（ｇ_２，ｌ）（ｌ＝１、２、３、４、５）のうち、閾値ＴＨ_３以上となるものが、Ｒ_ＳＵＢ（ｇ_２，２）、Ｒ_ＳＵＢ（ｇ_２，３）、Ｒ_ＳＵＢ（ｇ_２，４）であるとする。この場合には、相関Ｒ（ｇ_２）＝Ｒ_ＳＵＢ（ｇ_２，２）＋Ｒ_ＳＵＢ（ｇ_２，３）＋Ｒ_ＳＵＢ（ｇ_２，４）となる。

式（１６）に基づく計算により、Ｒ_ＳＵＢ（ｇ_３，ｌ）（ｌ＝１、２、３、４、５）のうち、閾値ＴＨ_３以上となるものが、Ｒ_ＳＵＢ（ｇ_３，３）、Ｒ_ＳＵＢ（ｇ_３，４）、Ｒ_ＳＵＢ（ｇ_３，５）であるとする。この場合には、相関Ｒ（ｇ_３）＝Ｒ_ＳＵＢ（ｇ_３，３）＋Ｒ_ＳＵＢ（ｇ_え，４）＋Ｒ_ＳＵＢ（ｇ_３，５）となる。

検出部３２０は、各相関Ｒ（ｇ）の情報を選択部３３０に出力する。選択部３３０は、各相関Ｒ（ｇ）を基にして、選択帯域を選択する。選択部３３０は、各相関Ｒ（ｇ）のうち、最大となる相関Ｒ（ｇ）に対応するサブ帯域が選択帯域となる。たとえば、上記の相関Ｒ（ｇ_１）、相関Ｒ（ｇ_２）、相関Ｒ（ｇ_３）のうち、相関Ｒ（ｇ_２）が最大となる場合には、選択帯域は、サブ帯域番号「２、３、４」のサブ帯域が、選択帯域となる。

検出部３２０は、式（１８）を基にして、ピッチ周波数Ｆ０を算出する。式（１８）に示す例では、各相関Ｒ（ｇ）のうち、最大となる相関Ｒ（ｇ）の周期「ｇ」を、ピッチ周波数Ｆ０として算出する。

なお、検出部３２０は、選択部３３０から、選択帯域の情報を受け付け、かかる選択帯域から算出した相関Ｒ（ｇ）を、各相関Ｒ（ｇ）から検出し、検出した相関Ｒ（ｇ）の周期「ｇ」を、ピッチ周波数Ｆ０として検出してもよい。

登録部３４０は、検出部３３０により検出された各フレームのピッチ周波数の情報を、ＤＢ５０ｃに登録する処理部である。

次に、本実施例３に係る音声処理装置３００の処理手順について説明する。図１４は、本実施例３に係る音声処理装置の処理手順を示すフローチャートである。図１４に示すように、音声処理装置３００の受信部３１０は、収録サーバ４０から入力スペクトルの情報を受信する（ステップＳ３０１）。

音声処理装置３００の検出部３２０は、正規化パワースペクトルとＣＯＳ波形との相関Ｒ_ＳＵＢを、周期およびサブ帯域毎に算出する（ステップＳ３０２）。検出部３２０は、サブ帯域の相関Ｒ_ＳＵＢが、閾値ＴＨ_３より大きい場合において、全帯域の相関Ｒ（ｇ）に加算する（ステップＳ３０３）。

検出部３２０は、各相関Ｒ（ｇ）のうち、最も大きくなる相関Ｒ（ｇ）に対応する周期をピッチ周波数として検出する（ステップＳ３０４）。音声処理装置３００の登録部３４０は、ピッチ周波数を登録する（ステップＳ３０５）。

検出部３２０は、入力スペクトルが終了しない場合には（ステップＳ３０６，Ｎｏ）、ステップＳ３０１に移行する。一方、検出部３２０は、入力スペクトルが終了した場合には（ステップＳ３０６，Ｙｅｓ）、処理を終了する。

次に、本実施例３に係る音声処理装置３００の効果について説明する。音声処理装置３００は、周期の異なる複数のコサイン波形と、前記各帯域に対する入力スペクトルと各相関を算出し、各相関のうち、最も大きくなる相関を算出する際に用いたコサイン波形の周期を、前記ピッチ周波数として検出する。これにより、ピッチ周波数の推定精度を向上させることができる。

次に、上記実施例に示した音声処理装置１００，２００，３００と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図１５は、音声処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

図１５に示すように、コンピュータ４００は、各種演算処理を実行するＣＰＵ４０１と、ユーザからのデータの入力を受け付ける入力装置４０２と、ディスプレイ４０３とを有する。また、コンピュータ４００は、記憶媒体からプログラム等を読み取る読み取り装置４０４と、有線または無線ネットワークを介して収録機器等との間でデータの授受を行うインターフェース装置４０５とを有する。また、コンピュータ４００は、各種情報を一時記憶するＲＡＭ４０６と、ハードディスク装置４０７とを有する。そして、各装置４０１〜４０７は、バス４０８に接続される。

ハードディスク装置４０７は、周波数変換プログラム４０７ａ、算出プログラム４０７ｂ、選択プログラム４０７ｃ、検出プログラム４０７ｄを有する。ＣＰＵ４０１は、各プログラム４０７ａ〜４０７ｄを読み出してＲＡＭ４０６に展開する。

周波数変換プログラム４０７ａは、周波数変換プロセス４０６ａとして機能する。算出プログラム４０７ｂは、算出プロセス４０６ｂとして機能する。選択プログラム４０７ｃは、選択プロセス４０６ｃとして機能する。検出プログラム４０７ｄは、検出プロセス４０６ｄとして機能する。

周波数変換プロセス４０６ａの処理は、周波数変換部１２０，２２０の処理に対応する。算出プロセス４０６ｂの処理は、算出部１３０，２３０の処理に対応する。選択プロセス４０６ｃの処理は、選択部１４０、２４０、３３０の処理に対応する。検出プロセス４０６ｄの処理は、検出部１５０，２５０，３２０の処理に対応する。

なお、各プログラム４０７ａ〜４０７ｄについては、必ずしも最初からハードディスク装置４０７に記憶させておかなくても良い。例えば、コンピュータ４００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ４００が各プログラム４０７ａ〜４０７ｄを読み出して実行するようにしても良い。

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）コンピュータに、
入力信号を周波数変換することで、前記入力信号から入力スペクトルを算出し、
前記入力スペクトルを基にして、対象帯域に含まれる各帯域に対する音声らしさの特徴量を算出し、
前記帯域毎の音声らしさの特徴量を基にして、前記対象帯域から選択帯域を選択し、
前記入力スペクトルと前記選択帯域とを基にして、ピッチ周波数を検出する
処理を実行させることを特徴とする音声処理プログラム。

（付記２）前記入力スペクトルを算出する処理は、前記入力信号に含まれる各フレームから、前記入力スペクトルをそれぞれ算出し、前記音声らしさの特徴量を算出する処理は、各フレームの入力スペクトルのパワーまたはＳＮＲ（Signal Noise Ratio）を基に前記特徴量を算出することを特徴とする付記１に記載の音声処理プログラム。

（付記３）前記選択帯域を選択する処理は、前記対象帯域に対応する前記特徴量の平均値と、各帯域の前記特徴量とを基にして、前記選択帯域を選択することを特徴とする付記１または２に記載の音声処理プログラム。

（付記４）前記音声らしさの特徴量を算出する処理は、前記入力スペクトルの周波数方向の変化量を、前記特徴量として算出することを特徴とする付記１に記載の音声処理プログラム。

（付記５）前記入力スペクトルを算出する処理は、前記入力信号に含まれる各フレームから、前記入力スペクトルをそれぞれ算出し、前記音声らしさの特徴量を算出する処理は、第１フレームの入力スペクトルと、前記第１フレームの後の第２フレームの入力スペクトルとの変化量を、前記特徴量として算出することを特徴とする付記４に記載の音声処理プログラム。

（付記６）前記選択帯域を選択する処理は、前記周波数方向の変化量と、前記第１フレームの入力スペクトルおよび前記第２フレームの入力スペクトルとの変化量とを基にして、前記選択帯域を選択することを特徴とする付記５に記載の音声処理プログラム。

（付記７）前記ピッチ周波数を検出する処理は、周期の異なる複数のコサイン波形と、前記各帯域に対する入力スペクトルと各相関を算出し、前記各相関のうち、最も大きくなる相関を算出する際に用いたコサイン波形の周期を、前記ピッチ周波数として検出することを特徴とする付記１に記載の音声処理プログラム。

（付記８）コンピュータが実行する音声処理方法であって、
入力信号を周波数変換することで、前記入力信号から入力スペクトルを算出し、
前記入力スペクトルを基にして、対象帯域に含まれる各帯域に対する音声らしさの特徴量を算出し、
前記帯域毎の音声らしさの特徴量を基にして、前記対象帯域から選択帯域を選択し、
前記入力スペクトルと前記選択帯域とを基にして、ピッチ周波数を検出する
処理を実行することを特徴とする音声処理方法。

（付記９）前記入力スペクトルを算出する処理は、前記入力信号に含まれる各フレームから、前記入力スペクトルをそれぞれ算出し、前記音声らしさの特徴量を算出する処理は、各フレームの入力スペクトルのパワーまたはＳＮＲ（Signal Noise Ratio）を基に前記特徴量を算出することを特徴とする付記８に記載の音声処理方法。

（付記１０）前記選択帯域を選択する処理は、前記対象帯域に対応する前記特徴量の平均値と、各帯域の前記特徴量とを基にして、前記選択帯域を選択することを特徴とする付記８または９に記載の音声処理方法。

（付記１１）前記音声らしさの特徴量を算出する処理は、前記入力スペクトルの周波数方向の変化量を、前記特徴量として算出することを特徴とする付記８に記載の音声処理方法。

（付記１２）前記入力スペクトルを算出する処理は、前記入力信号に含まれる各フレームから、前記入力スペクトルをそれぞれ算出し、前記音声らしさの特徴量を算出する処理は、第１フレームの入力スペクトルと、前記第１フレームの後の第２フレームの入力スペクトルとの変化量を、前記特徴量として算出することを特徴とする付記１１に記載の音声処理方法。

（付記１３）前記選択帯域を選択する処理は、前記周波数方向の変化量と、前記第１フレームの入力スペクトルおよび前記第２フレームの入力スペクトルとの変化量とを基にして、前記選択帯域を選択することを特徴とする付記１２に記載の音声処理方法。

（付記１４）前記ピッチ周波数を検出する処理は、周期の異なる複数のコサイン波形と、前記各帯域に対する入力スペクトルと各相関を算出し、前記各相関のうち、最も大きくなる相関を算出する際に用いたコサイン波形の周期を、前記ピッチ周波数として検出することを特徴とする付記８に記載の音声処理方法。

（付記１５）入力信号を周波数変換することで、前記入力信号から入力スペクトルを算出する周波数変換部と、
前記入力スペクトルを基にして、対象帯域に含まれる各帯域に対する音声らしさの特徴量を算出する算出部と、
前記帯域毎の音声らしさの特徴量を基にして、前記対象帯域から選択帯域を選択する選択部と、
前記入力スペクトルと前記選択帯域とを基にして、ピッチ周波数を検出する検出部と
を有することを特徴とする音声処理装置。

（付記１６）前記周波数変換部は、前記入力信号に含まれる各フレームから、前記入力スペクトルをそれぞれ算出し、前記算出部は、各フレームの入力スペクトルのパワーまたはＳＮＲ（Signal Noise Ratio）を基に前記特徴量を算出することを特徴とする付記１５に記載の音声処理装置。

（付記１７）前記選択部は、前記対象帯域に対応する前記特徴量の平均値と、各帯域の前記特徴量とを基にして、前記選択帯域を選択することを特徴とする付記１５または１６に記載の音声処理装置。

（付記１８）前記算出部は、前記入力スペクトルの周波数方向の変化量を、前記特徴量として算出することを特徴とする付記１５に記載の音声処理装置。

（付記１９）前記周波数変換部は、前記入力信号に含まれる各フレームから、前記入力スペクトルをそれぞれ算出し、前記算出部は、第１フレームの入力スペクトルと、前記第１フレームの後の第２フレームの入力スペクトルとの変化量を、前記特徴量として算出することを特徴とする付記１８に記載の音声処理装置。

（付記２０）前記選択部は、前記周波数方向の変化量と、前記第１フレームの入力スペクトルおよび前記第２フレームの入力スペクトルとの変化量とを基にして、前記選択帯域を選択することを特徴とする付記１９に記載の音声処理装置。

（付記２１）前記検出部は、周期の異なる複数のコサイン波形と、前記各帯域に対する入力スペクトルと各相関を算出し、前記各相関のうち、最も大きくなる相関を算出する際に用いたコサイン波形の周期を、前記ピッチ周波数として検出することを特徴とする付記１に記載の音声処理プログラム。

１００，２００，３００音声処理装置
１２０，２２０周波数変換部
１３０，２３０算出部
１４０、２４０、３３０選択部
１５０，２５０，３２０検出部

Claims

コンピュータに、
入力信号を周波数変換することで、前記入力信号から入力スペクトルを算出し、
前記入力スペクトルを基にして、対象帯域に含まれる各帯域に対する音声らしさの特徴量を算出し、
前記帯域毎の音声らしさの特徴量を基にして、前記対象帯域から選択帯域を選択し、
前記入力スペクトルと前記選択帯域とを基にして、ピッチ周波数を検出する
処理を実行させることを特徴とする音声処理プログラム。
前記入力スペクトルを算出する処理は、前記入力信号に含まれる各フレームから、前記入力スペクトルをそれぞれ算出し、前記音声らしさの特徴量を算出する処理は、各フレームの入力スペクトルのパワーまたはＳＮＲ（Signal Noise Ratio）を基に前記特徴量を算出することを特徴とする請求項１に記載の音声処理プログラム。
前記選択帯域を選択する処理は、前記対象帯域に対応する前記特徴量の平均値と、各帯域の前記特徴量とを基にして、前記選択帯域を選択することを特徴とする請求項１または２に記載の音声処理プログラム。
前記音声らしさの特徴量を算出する処理は、前記入力スペクトルの周波数方向の変化量を、前記特徴量として算出することを特徴とする請求項１に記載の音声処理プログラム。
前記入力スペクトルを算出する処理は、前記入力信号に含まれる各フレームから、前記入力スペクトルをそれぞれ算出し、前記音声らしさの特徴量を算出する処理は、第１フレームの入力スペクトルと、前記第１フレームの後の第２フレームの入力スペクトルとの変化量を、前記特徴量として算出することを特徴とする請求項４に記載の音声処理プログラム。
前記選択帯域を選択する処理は、前記周波数方向の変化量と、前記第１フレームの入力スペクトルおよび前記第２フレームの入力スペクトルとの変化量とを基にして、前記選択帯域を選択することを特徴とする請求項５に記載の音声処理プログラム。
前記ピッチ周波数を検出する処理は、周期の異なる複数のコサイン波形と、前記各帯域に対する入力スペクトルと各相関を算出し、前記各相関のうち、最も大きくなる相関を算出する際に用いたコサイン波形の周期を、前記ピッチ周波数として検出することを特徴とする請求項１に記載の音声処理プログラム。
コンピュータが実行する音声処理方法であって、
入力信号を周波数変換することで、前記入力信号から入力スペクトルを算出し、
前記入力スペクトルを基にして、対象帯域に含まれる各帯域に対する音声らしさの特徴量を算出し、
前記帯域毎の音声らしさの特徴量を基にして、前記対象帯域から選択帯域を選択し、
前記入力スペクトルと前記選択帯域とを基にして、ピッチ周波数を検出する
処理を実行することを特徴とする音声処理方法。
入力信号を周波数変換することで、前記入力信号から入力スペクトルを算出する周波数変換部と、
前記入力スペクトルを基にして、対象帯域に含まれる各帯域に対する音声らしさの特徴量を算出する算出部と、
前記帯域毎の音声らしさの特徴量を基にして、前記対象帯域から選択帯域を選択する選択部と、
前記入力スペクトルと前記選択帯域とを基にして、ピッチ周波数を検出する検出部と
を有することを特徴とする音声処理装置。