JP6559427B2

JP6559427B2 - 音声処理装置、音声処理方法およびプログラム

Info

Publication number: JP6559427B2
Application number: JP2015010666A
Authority: JP
Inventors: 祐介木田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2015-01-22
Filing date: 2015-01-22
Publication date: 2019-08-14
Anticipated expiration: 2035-01-22
Also published as: CN105825863A; JP2016133794A; US20160217809A1

Description

本発明の実施形態は、音声処理装置、音声処理方法およびプログラムに関する。

母音部の音声信号を周波数変換した際に観測される調波構造は、発話区間の検出や基本周波数の推定などを行うための重要な情報となる。そのため、調波構造を形成する周波数成分である調波成分を音声信号から抽出するための様々な方法が提案されている。

これまで提案されている調波成分の抽出方法はいずれも、近傍の周波数帯域に比べてパワーの強い周波数成分を調波成分とみなして抽出する。そのため、電話のトーン音やチャイムの音のように近傍の周波数帯域に比べてパワーの強い周波数成分を持つ雑音が発話に混入した場合には、それらの雑音が調波成分として抽出されることになる。その結果、発話区間の検出や基本周波数の推定などに悪影響を与える懸念がある。このため、雑音に対して頑強に発話の調波成分を抽出できる仕組みの構築が求められる。

特開２００３−１７３１９５号公報特表２００８−５３７１８５号公報

野口賢一、他４名、"通信会議における１チャネル突発性雑音抑圧"、電子情報通信学会技術研究報告．ＥＡ、応用音響１０５（４０３）、ｐｐ．３１−３６（２００５）

本発明が解決しようとする課題は、雑音に対して頑強に発話の調波成分を抽出できる音声処理装置、音声処理方法およびプログラムを提供することである。

実施形態の音声処理装置は、強調部と、変換部と、フィルタ部と、逆変換部と、を備える。強調部は、入力音声に含まれる調波成分を強調した占有度スペクトルを生成する。変換部は、前記占有度スペクトルを変調周波数領域の信号に変換する。フィルタ部は、人の発話を通過させるよう設計されたフィルタにより前記変調周波数領域の信号に対するフィルタリングを行う。逆変換部は、前記フィルタリングが行われた前記変調周波数領域の信号を周波数領域の信号に逆変換する。

実施形態の音声処理装置の機能的な構成例を示すブロック図。実施形態の音声処理装置による処理手順の一例を示すフローチャート。周波数スペクトログラムの一例を示す図。占有度スペクトルを連結して得た周波数スペクトログラムの一例を示す図。図４の周波数スペクトログラムの１００フレームから２００フレームまでを抽出して示す図。図５の周波数スペクトログラムから（Ａ）の周波数の成分を時刻ごとに抽出して得た一次元の時間信号を示す図。図５の周波数スペクトログラムから（Ｂ）の周波数の成分を時刻ごとに抽出して得た一次元の時間信号を示す図。図６の時間信号を離散フーリエ変換して得た変調周波数スペクトルを示す図。図７の時間信号を離散フーリエ変換して得た変調周波数スペクトルを示す図。変調周波数スペクトログラムの一例を示す図。図１０の変調周波数スペクトログラムに対してフィルタリングを行った後、周波数逆変換して得た周波数スペクトルグラムを示す図。音声処理装置のハードウェア構成例を示すブロック図。

以下、添付図面を参照しながら、実施形態の音声処理装置、音声処理方法およびプログラムについて詳細に説明する。本実施形態の音声処理装置は、入力音声に含まれる人の発話の調波成分を抽出し、発話区間の検出や基本周波数の推定を行う。入力音声は、本実施形態の音声処理装置に入力される音声を含む信号である。本実施形態では、人の発話の区間である発話区間と非発話区間とを含む信号が入力音声として音声処理装置に入力されるものとする。

まず、本実施形態の音声処理装置の構成について、図１を参照して説明する。図１は、本実施形態の音声処理装置１の機能的な構成例を示すブロック図である。図１に示すように、音声処理装置１は、強調部１１と、変換部１２と、フィルタ部１３と、逆変換部１４と、検出部１５と、推定部１６と、を備える。

強調部１１は、入力音声に含まれる調波成分を強調した周波数スペクトルを時刻ごとに生成し、時刻ごとに生成した周波数スペクトルを連結することにより、時間と周波数を各々軸とする周波数スペクトログラムを生成する。なお、強調部１１は、入力音声から時刻ごとに周波数スペクトルを生成して変換部１２に渡し、変換部１２において、強調部１１が生成した時刻ごとの周波数スペクトルを連結して周波数スペクトログラムを生成する構成であってもよい。

強調部１１は、調波成分を強調した周波数スペクトルとして、例えば特許文献１に記載の占有度スペクトルを生成する構成とすることができる。特許文献１に記載の占有度スペクトルは、周波数帯域ごとに各時刻の入力信号の瞬時周波数を抽出する瞬時周波数抽出過程と、各周波数帯域の中心周波数における入力信号のパワーをそれぞれ抽出する信号パワー抽出過程と、各中心周波数を中心として前後の帯域の各瞬時周波数とその中心周波数の差を抽出する周波数差抽出過程と、中心周波数ごとに上記周波数差の和を計算して占有度をそれぞれ求める占有度演算過程と、を経て生成される。ただし、周波数差抽出過程では、各中心周波数を中心として前後の帯域の各瞬時周波数とその中心周波数の差を抽出する代わりに、各中心周波数を中心として前後の帯域の各瞬時周波数とその中心周波数に対応する瞬時周波数の差を抽出してもよい。

なお、強調部１１は、調波成分を強調した周波数スペクトルとして、特許文献１に記載の占有度スペクトル以外の他の周波数スペクトルを生成する構成であってもよい。例えば強調部１１は、例えば非特許文献１に記載のＬＰＣ残差スペクトルを、調波成分を強調した周波数スペクトルとして生成してもよい。また、強調部１１は、例えば、入力音声に対してケプストラム分析を行って低次成分を抑圧（リフタリング）した後、離散逆コサイン変換を行うことにより求めた周波数スペクトルを、調波成分を強調した周波数スペクトルとして生成してもよい。また、強調部１１は、例えば、下記の参考文献１に記載の瞬時周波数スペクトルを、調波成分を強調した周波数スペクトルとして生成してもよい。
参考文献１：阿部敏彦、他２名、“瞬時周波数に基づく雑音環境下でのピッチ推定”、電子情報通信学会論文誌. Ｄ−ＩＩ、情報・システム、ＩＩ−情報処理Ｊ７９−Ｄ−２（１１）、ｐｐ．１７７１−１７８１（１９９６）

変換部１２は、強調部１１により生成された周波数スペクトログラムを変調周波数領域の信号に変換する。強調部１１により生成された周波数スペクトログラムから、時刻ごとに特定の周波数ビンの成分を抽出すると、一次元の時間信号が得られる。この時間信号を周波数変換すると、変調周波数領域における周波数スペクトルが得られる。ここで得られる周波数スペクトルを変調周波数スペクトルと呼ぶ。この変調周波数スペクトルの周波数方向の軸が変調周波数である。変換部１２は、以上の処理を、周波数スペクトログラムの各周波数ビンに対して行うことにより、強調部１１により生成された周波数スペクトログラムを、変調周波数と周波数を各々軸とする変調周波数スペクトログラムに変換することができる。

フィルタ部１３は、人の発話を通過させるよう設計されたフィルタにより変調周波数スペクトログラムに対するフィルタリングを行う。人の発話のうち、知覚に重要な情報のほとんどが変調周波数軸上で１〜１６Ｈｚ程度に分布していることが分かっている（例えば、下記の参考文献２を参照）。この性質を利用して、例えば、変調周波数軸上で１〜１６Ｈｚ付近の成分を通過させ、それ以外の成分をカットするフィルタを変調周波数スペクトログラムに適用すればよい。
参考文献２：金寺登、他２名、“音声中の言語情報を担う変調スペクトル特性の検討”、日本音響学会研究発表会講演論文集１９９９（１）、３−４（１９９９）

逆変換部１４は、フィルタ部１３によるフィルタリングが行われた変調周波数スペクトログラムを元の周波数領域（変換部１２による変換前の周波数スペクトログラムと同じ周波数領域）の周波数スペクトログラムに逆変換する。フィルタ部１３によるフィルタリングが行われた変調周波数スペクトログラムから、特定の周波数ビンの成分を抽出すると、一次元の変調周波数領域の信号が得られる。この信号を周波数逆変換すると、特定の周波数ビンに対応する時間信号が得られる。逆変換部１４は、以上の処理を、変調周波数スペクトログラムの各周波数ビンに対して行うことにより、フィルタ部１３によるフィルタリングが行われた変調周波数スペクトログラムを、元の周波数領域の周波数スペクトログラムに逆変換することができる。

逆変換部１４での処理により得られる周波数スペクトログラムは、入力音声における人の発話の調波成分が強調された信号となる。つまり、本実施形態の音声処理装置１は、入力音声に対して強調部１１から逆変換部１４までの処理を行うことにより、入力音声に含まれる人の発話の調波成分を適切に抽出することができる。

検出部１６は、逆変換部１４により生成された周波数スペクトログラムに基づいて、入力音声から発話区間を検出する。発話区間の検出方法については特に限定しないが、例えば、周波数スペクトログラムを周波数スペクトルに分解した上で、時刻ごとの周波数スペクトルに対して各周波数ビンの平均パワーを求める方法を用いることができる。この場合、例えば、入力音声の中で平均パワーが閾値を超える区間が発話区間として検出される。また、くしの間隔の異なる様々なコムフィルタに周波数スペクトルを各々通過させて得られた最大の応答を用いて、発話区間を検出する方法を用いてもよい。この場合、例えば、入力信号の中で最大の応答が得られる区間が発話区間として検出される。また、この場合、最大の応答を出力するコムフィルタのくしの間隔から基本周波数を推定することもできる。

推定部１７は、逆変換部１４により生成された周波数スペクトログラムに基づいて、入力音声に含まれる人の発話の基本周波数を推定する。推定部１７による基本周波数の推定は、検出部１６により検出された発話区間を対象に行ってもよいし、検出部１６による発話区間の検出と並行して行ってもよい。基本周波数の推定方法については特に限定しないが、例えば、特許文献１に記載されている調波構造占有度に基づいて基本周波数を推定する方法を用いることができる。

次に、本実施形態の音声処理装置１の動作について、図２を参照して説明する。図２は、音声処理装置１による処理手順の一例を示すフローチャートである。この図２のフローチャートで示す一連の処理は、音声処理装置１に対して入力音声が入力されるたびに繰り返し実行される。

図２のフローチャートで示す処理が開始されると、まず、強調部１１が、入力音声に含まれる調波成分を強調した周波数スペクトルを時刻ごとに生成する（ステップＳ１０１）。そして、強調部１１は、時刻ごとに生成した周波数スペクトルを連結することで、時間と周波数を各々軸とする周波数スペクトログラムを生成する（ステップＳ１０２）。強調部１１によって生成された周波数スペクトログラムは、変換部１２に供給される。

次に、変換部１２が、強調部１１から供給された周波数スペクトログラムを、変調周波数と周波数を各々軸とする変調周波数スペクトログラムに変換する（ステップＳ１０３）。変換部１２によって周波数スペクトログラムから変換された変調周波数スペクトログラムは、フィルタ部１３に供給される。

次に、フィルタ部１３が、人間の発話を通過させるよう設計されたフィルタにより、変換部１２から供給された変調周波数スペクトログラムに対してフィルタリングを行う（ステップＳ１０４）。フィルタ部１３によるフィルタリングが行われた（フィルタを通過した）変調周波数スペクトログラムは、逆変換部１４に供給される。

次に、逆変換部１４が、フィルタ部１３から供給された変調周波数スペクトログラム（フィルタリングが行われた変調周波数スペクトログラム）を、時間と周波数を各々軸とする周波数スペクトログラムに逆変換する（ステップＳ１０５）。逆変換部１４によって変調周波数スペクトログラムから逆変換された周波数スペクトログラムは、検出部１５に供給される。

次に、検出部１５が、逆変換部１４から供給された周波数スペクトログラムに基づき、入力音声における発話区間を検出する（ステップＳ１０６）。検出部１５によって検出された発話区間の情報は、推定部１６に供給されるとともに、例えば、ディスプレイやスピーカなどの出力装置、ＨＤＤなどのファイル記憶装置、ネットワークに接続された通信Ｉ／Ｆなどに出力される。

次に、推定部１６が、逆変換部１４から供給された周波数スペクトログラムに基づき、検出部１５により検出された入力音声の発話区間を対象として、基本周波数の推定を行う（ステップＳ１０７）。推定部１７によって推定された基本周波数の情報は、例えば、ディスプレイやスピーカなどの出力装置、ＨＤＤなどのファイル記憶装置、ネットワークに接続された通信Ｉ／Ｆなどに出力される。

次に、具体的な事例を挙げながら、本実施形態の音声処理装置１による処理の一例をさらに詳しく説明する。本例では、強調部１１が生成する周波数スペクトル（入力音声に含まれる調波成分を強調した周波数スペクトル）として、特許文献１に記載の占有度スペクトルを用いるものとする。

図３は、入力音声をフレームに分割し、各フレームの信号を周波数変換して得た周波数スペクトログラムの一例を示す図である。図の横軸がフレームの番号、縦軸が周波数のビン番号を表している。この図３に示す周波数スペクトログラムから、入力音声の概ね１００フレームから２００フレームのあたりに発話が存在している様子が分かる。この区間が発話区間であり、この発話区間において、周波数軸上でパワーの強い成分が等間隔に並んでいる構造が、母音部で観測される調波構造である。このほか、図３に示す周波数スペクトログラムの例では、概ね３０番目の周波数ビンにおいて、強いパワーのトーン音が定常的に存在している様子が分かる。

図４は、図３と同様の入力音声に対し、特許文献１に記載の方法で占有度スペクトルをフレーム単位で抽出し、それらを連結して得た周波数スペクトログラムの一例を示す図である。図４の周波数スペクトログラムを図３の周波数スペクトログラムと比較すると、占有度スペクトルを抽出したことで、周囲の背景雑音が抑圧され、入力音声の調波成分が強調された様子が見て取れる。しかし、一方で、トーン音は抑圧されず、音声の調波成分と同様に強調されたことが分かる。これは、占有度スペクトルを抽出する方法では、近傍の周波数帯域に比べてパワーの強い信号成分を調波成分とみなして強調するためである。そのため、そのような雑音が発話に混入した場合に、占有度スペクトルをそのまま用いて発話区間の検出や基本周波数の推定を行うと、正確な検出や推定が行えない虞がある。

図５は、図４の周波数スペクトログラムの１００フレームから２００フレームまでを抽出して示す図である。本例では以後、この区間を分析区間として、図２のフローチャートに示すステップＳ１０３からステップＳ１０５までの各ステップの具体的な動作を説明する。

ステップＳ１０３では、変換部１２が、周波数スペクトログラムを変調周波数スペクトログラムに変換する。ここでは、図５に示す２つの周波数（Ａ）と（Ｂ）を例に取って説明する。（Ａ）は８０番目の周波数ビンであり、（Ｂ）は３０番目の周波数ビンである。

図６は、図５の周波数スペクトログラムから（Ａ）の周波数の成分を時刻ごとに抽出して得た一次元の時間信号を示す図である。図６に示す時間信号から、（Ａ）の周波数の信号は振幅（占有度）の変動が大きいことが分かる。これは、発話の音高に応じて調波構造の周波数軸上における位置が変動した結果、（Ａ）の周波数に調波成分が重なった時刻と重ならなかった時刻において振幅の差が生じたためである。

図７は、図５の周波数スペクトログラムから（Ｂ）の周波数の成分を時刻ごとに抽出して得た一次元の時間信号を示す図である。図７の時間信号を図６の時間信号と比較すると、図７の振幅の方が図６の振幅よりも大きく、かつ、変動が小さいことが分かる。これは、（Ｂ）の周波数においては、トーン音の振幅が大きく支配的であり、かつ、トーン音の振幅の変動が小さかったためである。

図８は、図６の時間信号を離散フーリエ変換して得た変調周波数スペクトルを示す図であり、図９は、図７の時間信号を離散フーリエ変換して得た変調周波数スペクトルを示す図である。図８では、オフセット成分（変調周波数が０Ｈｚの成分）の値が概ね１５程度であり、その他の変調周波数では高々５程度の値が観測される。一方、図９では、オフセット成分の値が概ね３００程度となっており、他の変調周波数の値をはるかに上回る値が観測される。これは、振幅が大きく、かつ、振幅の変動が小さかったトーン音の成分が、周波数領域でのオフセット成分に変換されたためである。

図１０は、以上の処理を全ての周波数ビンに対して行うことで得られる変調周波数スペクトログラムの一例を示す図である。図１０に示す変調周波数スペクトログラムでは、トーン音の存在する３０番目あたりの周波数ビンではオフセット以外の成分が少ないが、発話の存在する他の周波数ビンではオフセット以外の成分も多く含まれることが分かる。

次に、ステップＳ１０４では、フィルタ部１３が、人間の発話を通過させるよう設計されたフィルタにより、変調周波数スペクトログラムに対するフィルタリングを行う。本例では、図１０に示す変調周波数スペクトログラムにおいて、変調周波数のビン番号が２〜１６の成分（図中の破線で囲まれた領域）を通過させ、それ以外の成分を全て０にカットするフィルタを用いる。この処理により、変調周波数領域のオフセット成分であるトーン音が除去されることになる。

次に、ステップＳ１０５では、逆変換部１４が、フィルタリングが行われた変調周波数スペクトログラムを周波数スペクトログラムに逆変換する。図１１は、図１０の変調周波数スペクトログラムに対してフィルタリングを行った後、周波数逆変換して得た周波数スペクトルグラムを示す図である。図１１の周波数スペクトログラムを図５の周波数スペクトログラムと比較すると、図１１の周波数スペクトログラムでは、図５の周波数スペクトログラムで観測されたトーン音がほとんど観測されないことが分かる。

以上のことから、人間の発話を通過させるよう設計されたフィルタにより変調周波数スペクトログラムに対するフィルタリングを行い、フィルタリングが行われた変調周波数スペクトログラムを逆変換して得られる周波数スペクトログラムを用いることで、トーン音などの雑音の影響を抑圧し、雑音に対して頑強に発話の調波成分を抽出できることが分かる。したがって、このような周波数スペクトログラムを用いて発話区間の検出や基本周波数の推定を行うことで、これらの処理を高精度に行うことができる。

以上、具体的な例を挙げながら詳細に説明したように、本実施形態の音声処理装置１は、入力音声に含まれる調波成分を強調した周波数スペクトル（周波数スペクトログラム）を生成し、この周波数スペクトルを変調周波数領域の信号（変調周波数スペクトログラム）に変換する。そして、人の発話を通過させるよう設計されたフィルタにより変調周波数領域の信号に対するフィルタリングを行い、フィルタリングが行われた変調周波数領域の信号を周波数領域の信号（周波数スペクトログラム）に逆変換することにより、入力音声に含まれる人の発話の調波成分が強調された信号を生成する。したがって、本実施形態の音声認識装置１によれば、例えば電話のトーン音やチャイムの音のように近傍の周波数帯域に比べてパワーの強い周波数成分を持つ雑音が発話に混入した場合であっても、これらの雑音に対して頑強に発話の調波成分を抽出することができる。

また、本実施形態の音声処理装置１は、上述の逆変換した信号に基づいて発話区間の検出を行うことで、入力音声から精度よく発話区間を検出することができる。また、本実施形態の音声処理装置１は、上述の逆変換した信号に基づいて基本周波数の推定を行うことで、入力音声に含まれる発話の基本周波数を精度よく推定することができる。

また、本実施形態の音声処理装置１は、入力音声を単に周波数変換した周波数スペクトルではなく、例えば占有度スペクトルなどのように入力音声に含まれる調波成分を強調した周波数スペクトルを用いて処理を行うため、例えば音声の周波数スペクトルに含まれる包絡成分を予め除去することができ、調波成分の抽出を効率よく行うことができる。

本実施形態の音声処理装置１は、例えば、汎用のコンピュータシステムを基本ハードウェアとして用い、このコンピュータシステム上で所定のプログラム（ソフトウェア）を実行することによって、上述した各部（強調部１１、変換部１２、フィルタ部１３、逆変換部１４、検出部１５および推定部１６）を実現することができる。

図１２は、本実施形態の音声処理装置１のハードウェア構成例を示すブロック図である。音声処理装置１は、例えば図１２に示すように、ＣＰＵ１０１などのプロセッサと、ＲＡＭ１０２やＲＯＭ１０３などの記憶装置と、周辺機器を接続するための機器Ｉ／Ｆ１０４と、ＨＤＤ１０５などのファイル記憶装置と、ネットワークを介して外部と通信を行う通信Ｉ／Ｆ１０６と、を備えた通常のコンピュータのハードウェア構成を有する。

このとき、上記のプログラムは、例えば、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷ、Ｂｌｕ−ｒａｙ（登録商標）Ｄｉｓｃなど）、半導体メモリ、またはこれに類する記録媒体に記録されて提供される。なお、プログラムを記録する記録媒体は、コンピュータシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。また、上記プログラムを、コンピュータシステムに予めインストールするように構成してもよいし、ネットワークを介して配布される上記のプログラムをコンピュータシステムに適宜インストールするように構成してもよい。

上記のコンピュータシステムで実行されるプログラムは、本実施形態の音声処理装置１における機能的な構成要素である上述した各部（強調部１１、変換部１２、フィルタ部１３、逆変換部１４、検出部１５および推定部１６）を含むモジュール構成となっており、プロセッサがこのプログラムを適宜読み出して実行することにより、上述した各部がＲＡＭ１０２などの主記憶上に生成されるようになっている。

なお、本実施形態の音声処理装置１の上述した各部（強調部１１、変換部１２、フィルタ部１３、逆変換部１４、検出部１５および推定部１６）は、プログラム（ソフトウェア）により実現するだけでなく、その一部または全部を、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）やＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）などの専用のハードウェアにより実現することもできる。

また、本実施形態の音声処理装置１は、複数台のコンピュータを通信可能に接続したネットワークシステムとして構成し、上述した各部を複数台のコンピュータに分散して実現する構成であってもよい。

以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１音声処理装置
１１強調部
１２変換部
１３フィルタ部
１４逆変換部
１５検出部
１６推定部

Claims

入力音声に含まれる調波成分を強調した占有度スペクトルを生成する強調部と、
前記占有度スペクトルを変調周波数領域の信号に変換する変換部と、
人の発話を通過させるよう設計されたフィルタにより前記変調周波数領域の信号に対するフィルタリングを行うフィルタ部と、
前記フィルタリングが行われた前記変調周波数領域の信号を周波数領域の信号に逆変換する逆変換部と、を備える音声処理装置。
逆変換した前記周波数領域の信号に基づいて、前記入力音声に含まれる人の発話の区間である発話区間を検出する検出部をさらに備える、請求項１に記載の音声処理装置。
逆変換した前記周波数領域の信号に基づいて、前記入力音声に含まれる人の発話の基本周波数を推定する推定部をさらに備える、請求項１または２に記載の音声処理装置。
音声処理装置により実行される音声処理方法であって、
入力音声に含まれる調波成分を強調した占有度スペクトルを生成するステップと、
前記占有度スペクトルを変調周波数領域の信号に変換するステップと、
人の発話を通過させるよう設計されたフィルタにより前記変調周波数領域の信号に対するフィルタリングを行うステップと、
前記フィルタリングが行われた前記変調周波数領域の信号を周波数領域の信号に逆変換するステップと、を含む音声処理方法。
コンピュータに、
入力音声に含まれる調波成分を強調した占有度スペクトルを生成する機能と、
前記占有度スペクトルを変調周波数領域の信号に変換する機能と、
人の発話を通過させるよう設計されたフィルタにより前記変調周波数領域の信号に対するフィルタリングを行う機能と、
前記フィルタリングが行われた前記変調周波数の信号を周波数領域の信号に逆変換する機能と、を実現させるためのプログラム。