JP2005202335A

JP2005202335A - 音声処理方法と装置及びプログラム

Info

Publication number: JP2005202335A
Application number: JP2004011111A
Authority: JP
Inventors: Takayuki Arai; 隆行荒井; Nao Hodoshima; 奈緒程島; Takakimi Goto; 崇公後藤
Original assignee: Individual
Current assignee: Individual
Priority date: 2004-01-19
Filing date: 2004-01-19
Publication date: 2005-07-28

Abstract

【課題】マイクロフォンで検出された音声信号に対し、スピーカに出力される前に処理を施すことによって、スピーカから放射される音声の明瞭度を向上させる。
【解決手段】Ａ／Ｄ変換器１１によりディジタル化された音声信号を窓掛け処理部１２に入力してフレーム分割した後に、ＦＦＴ１３を経て対数スペクトル計算部１４により対数スペクトルを計算し、対数スペクトルに対してＩＦＦＴ１５を施すことでケプストラム係数を生成した後、回帰係数計算部１６−１〜１６−ｎにより時間方向にケプストラム係数を見た場合の回帰係数を計算し、２乗平均部１７により回帰係数の２乗平均（Ｄ値）を計算し、Ｄ値を閾値処理部１８に通して音声信号の定常部を求め、求められた定常部に対して乗算器１９により音声信号の振幅を抑圧し、Ｄ／Ａ変換器２０を介して出力する。
【選択図】図３

Description

本発明は、室内で拡声される音声の明瞭度を改善するための処理を行う音声処理方法と装置及びプログラムに関する。

講演会場、多目的ホール、教室、教会などの室内で、講演・講義などを行う場合、話者が発生した音声はマイクロフォンによって検出され、増幅などの電気的処理がなされた後、会場に設置されたスピーカから音響として室内に放射され、最終的に聴衆の耳に到達する。

このような状況では通常、室内の残響の影響でスピーカから放射される音声の明瞭度が低下する。特に、老人性難聴や聴覚障害の人にとって、このような影響の弊害が大きく、非常に聞き取りにくい音声となってしまう。また、聴取者の母語以外の言語を使った音声コミュニケーションにおいても、残響は好ましくない。例えば、語学の聞き取り実験で、同じ音声が違う残響環境で再生されれば、受験者にとって不利益が生じることにもなりかねない。

このような問題に対し、マイクロフォンで検出された音声信号に対してスピーカに出力される前に特定の前処理を施すことによって、スピーカから放射されて聴衆の耳に到達する音声の明瞭度を向上させる試みが従来から種々なされている。その一つとして、発明者らは、荒井隆行，木下慶介，程島奈緒，楠本亜希子，喜田村朋子，“音声の定常部抑圧処理の残響に対する効果”，日本音響学会（秋期研究発表会）講演論文集，vol. 1, 449-450, 2001年10月（非特許文献１）において、入力される音声信号に対して残響によるオーバラップマスキング(overlap-masking)を減らすことを目的とする「定常部抑圧処理」を施すことを提案し、ある雑音環境下では残響による明瞭度の低下を避けることができることを確認している。

すなわち、残響によって音声の明瞭度を下げる要因の一つとして、オーバラップマスキングの影響が考えられている。オーバラップマスキングとは、先行する音素に伴う残響が後続する音素をマスクする効果であり、特に先行する音素のエネルギーが大きく、後続する音素のエネルギが小さい場合に、その効果が大きくなると考えられている。このようなオーバラップマスキングを減らすためには、適当に原音声のサンプルを間引くことが考えられるが、単に機械的に間引きを行ったのでは逆に音声情報が失われてしまい。結果として逆に明瞭度の低下を招く。

そこで、非特許文献１では音声信号のうち定常部のみを間引く処理を行う。音声信号の定常部は、典型的には母音部の中央（音節核）であり、そのエネルギは大きいものの音声としての情報量は少ない。一方、音声信号の遷移部は音声情報の知覚に関して非常に重要な役割を果たしていることが分かっている（例えば、S.Furui, “On the role of spectral transition for speech perception,”J. Acoust. Soc. Am.,80(4):1016-1025, 1986：非特許文献２）。非特許文献２によると、音節の初期部分と最終部分を様々な位置で削除した刺激を用いて聴取実験を行った結果、音声の遷移部は音声知覚に関して非常に重要な役割を果たしており、母音の定常部は母音、または音節の認識においては必要ではないと報告されている。

音声信号の定常部の中でも母音の定常部は一般にエネルギが大きいことが多いので、それに後続する遷移部やエネルギーの小さい子音はオーバラップの影響をまともに受けやすい。このため、定常部抑圧処理を施すと、音声情報の損失を最小限に抑えつつ、オーバラップマスキングによる遷移部へのマスキング量を減らすことが可能となる。

非特許文献１では、具体的に次のような信号処理を行う。まず、ＦＩＲフィルタなどによるフィルタバンクを用いて音声信号を1/3-octで帯域分割し、各帯域において時間包絡を抽出する。次に、各帯域の時間包絡を100Hzにダウンサンプリングし、その対数軌跡から前後２点、計５点に対する回帰係数をサンプル毎に計算する。全ての帯域に渡って、回帰係数の２乗平均（以下では、Ｄ値とする）を求める。ここで、Ｄ値は非特許文献２にならって音声信号のスペクトル遷移を示すパラメータを表すものとする。次に、元のサンプリング周波数に戻した後、Ｄ値がある閾値より小さい箇所を定常部とみなし、定常部について元の波形の振幅を抑圧する。このようにして音声信号に定常部抑圧処理を行うことにより、残響によるオーバラップマスキングの影響を軽減して音声の明瞭度の低下を防ぐことができる。
荒井隆行，木下慶介，程島奈緒，楠本亜希子，喜田村朋子，"音声の定常部抑圧処理の残響に対する効果"，日本音響学会（秋期研究発表会）講演論文集，vol. 1, 449-450, 2001年10月 S. Furui, "On the role of spectral transition for speech perception,"J. Acoust. Soc. Am., 80(4):1016-1025, 1986

非特許文献１に開示された定常部抑圧処理は、残響によるオーバラップマスキングを減らして、残響による明瞭度の低下を回避する上で効果的であるが、特に帯域分割のためのフィルタバンクでの処理遅延が大きいため、実時間処理には必ずしも適さない。話者が発生した音声をマイクロフォンによって検出し、スピーカによって放射する場合に音声信号に対する前処理により音声の明瞭度を向上させるという当初の目的を考慮すると、処理の実時間性がない場合、話者の口の動きや動作とスピーカから発する音声とが一致しないことになる。従って、明瞭度向上のための定常部抑圧処理の実時間性は非常に重要である。

本発明は、マイクロフォンで検出された音声信号に対してスピーカに出力される前に明瞭度向上のための定常部抑圧処理を実時間処理により行うことを容易にする音声処理方法と装置及びプログラムを提供することを目的とする。

上記の課題を解決するため、本発明は入力された音声信号に対してスピーカに出力される前に処理を施す音声処理方法であって、音声信号に対して窓掛け処理を行って該音声信号を複数のフレームに分割するステップと、分割された各フレームの音声信号について対数スペクトルを計算するステップと、対数スペクトルからケプストラム係数を計算するステップと、ケプストラム係数を時間方向に見た場合の回帰係数を計算するステップと、回帰係数の２乗平均を求めるステップと、２乗平均について閾値処理を行うことにより音声信号の定常部を求めるステップと、定常部について音声信号の振幅を抑圧するステップとを具備することを特徴とする。

また、本発明は入力された音声信号に対してスピーカに出力される前に処理を施す音声処理装置であって、音声信号に対して窓掛け処理を行って該音声信号を複数のフレームに分割する窓掛け処理部と、窓掛け処理部により分割された各フレームの音声信号にフーリエ変換を施すフーリエ変換部と、フーリエ変換部からの出力信号に基づき対数スペクトルを計算する対数スペクトル計算部と、対数スペクトルに対して逆フーリエ変換を施すことによりケプストラム係数を生成するケプストラム係数計算部と、ケプストラム係数を時間方向に見た場合の回帰係数を計算する回帰係数計算部と、回帰係数の２乗平均を求める２乗平均部と、２乗平均について閾値処理を行うことにより音声信号の定常部を求める閾値処理部と、定常部について音声信号の振幅を抑圧する抑圧処理部とを具備することを特徴とする。

さらに、本発明によると、入力された音声信号に対してスピーカに出力される前に処理を施す音声処理をコンピュータに行わせるプログラムであって、前記音声信号に対して窓掛け処理を行って該音声信号を複数のフレームに分割する処理と、分割された各フレームの音声信号について対数スペクトルを計算する処理と、前記対数スペクトルからケプストラム係数を計算する処理と、前記ケプストラム係数を時間方向に見た場合の回帰係数を計算する処理と、前記回帰係数の２乗平均を求める処理と、前記２乗平均について閾値処理を行うことにより前記音声信号の定常部を求める処理と、前記定常部について前記音声信号の振幅を抑圧する処理とを前記コンピュータに行わせる音声処理プログラムを提供することもできる。

マイクロフォンなどで検出された音声信号に対して、定常部の抑圧処理を行うことにより、スピーカから放射される音声の明瞭度を聴覚障害者や高齢者に対しても効果的に向上させることができ、また実時間処理も容易に実現可能となる。

以下、図面を参照して本発明の実施の形態を説明する。図１に、本発明の一実施形態に基づく音声処理装置を適用した音声拡声システムの例を示す。講演会場、多目的ホール、教室、教会などの室内１において、講演・講義などを行う話者２が発生した音声はマイクロフォン３によって検出される。マイクロフォン３から電気信号として出力される音声信号は、前置増幅器４により増幅された後、本発明の一実施形態に基づく音声処理装置５に入力される。

音声処理装置５では、入力される音声信号に対して音声の明瞭度を向上させるための信号処理、すなわち後に詳しく述べるように、残響によるオーバーラップマスキングの影響を減らすために音声信号の定常部の振幅を抑圧する処理が行われる。音声処理装置５で処理された音声信号は、電力増幅器６により増幅された後、室内１に設置されたスピーカ７に供給され、このスピーカ７から音響として放射されることによって、最終的に聴衆８の耳に到達する。

図２に、残響によるオーバラップマスキングの様子を示す。音声としては、筑波大学多言語音声コーパスから「October」(話者：EngM2、男性)を用いた。図２（ａ）は原音声波形であり、図２（ａ）の最下行は上５行のセグメンテーションにより/o/, /k/, /t/, /o/, /b/, /er/に分割した音声波形を足し合わせた波形である。図２（ｂ）は図２（ａ）の音声波形に残響時間1.1秒のインパルス応答を畳み込んだ音声波形であり、/k/, /t/, /b/のようなエネルギの弱い子音が、直前の母音に付加された残響によってマスクされている様子が分かる。つまり先行音が母音のようなエネルギの強い音素の場合、後続の音素は残響の尾による影響を大きく受けるのである。

そこで、音声処理装置５ではエネルギは比較的大きいが音声認識にはそれほど重要ではないとされる音声信号の定常部をあらかじめ抑圧することで、残響によるオーバラップマスキングの影響を軽減させて明瞭度の改善を達成する。以下、図３を用いて音声処理装置５について具体的に説明する。

図３において、入力端子１０には図１に示した前置増幅器４によって増幅された音声信号が入力される。この入力音声信号は、Ａ／Ｄ変換器１１により例えばサンプリング周波数16kHzでサンプリングされ、16ビット程度のディジタル信号に変換される。Ａ／Ｄ変換器１１から出力されるディジタル化された音声信号は、まず窓掛け処理部１２に入力され、例えば20msのハニング窓あるいはハミング窓による窓掛け処理が行われる。

すなわち、窓掛け処理部１２では後述するケプストラム係数を用いて母音の定常部が検出されるように、ディジタル化された音声信号が例えば10ms（50%）の時間長だけ互いにオーバラップした20msの時間長の複数のフレームに切り出され、この後同じ20msの幅を持つハニング窓あるいはハミング窓による窓掛け処理が行われる。

窓掛け処理部１２から出力される各フレームの音声信号は高速フーリエ変換（ＦＦＴ）部１３に入力され、ＦＦＴが施される。高速フーリエ変換部１３の出力信号から、対数スペクトル計算部１４によって各フレームの音声信号の対数スペクトルが計算される。対数スペクトル計算部１４では、具体的には高速フーリエ変換部１３の出力信号について、パワースペクトルを得るために絶対値をとってから２乗計算を行い、この後10＊log10を計算してdB（デシベル）に単位を変換して、出力の対数スペクトルとする。

次に、対数スペクトル計算部１４によって計算された対数スペクトルに対して、逆フーリエ変換（ＩＦＦＴ）部１５によってＩＦＦＴが施されることにより、ケプストラム係数が生成される。生成されたケプストラム係数のうち、低い次元の係数が音声信号のスペクトル包絡を表す。そこで、ケプストラム係数に対しリフタリングを施すことにより、スペクトル包絡を表す例えば30次までのケプストラム係数を残して出力する。図４に、入力端子１０に入力される音声信号の原波形に対する対数スペクトル４１（実線）と、30次までのケプストラム係数であるスペクトル包絡４２（破線）を示す。

次に、逆フーリエ変換部１５により生成されリフタリングされた例えば30次までの各ケプストラム係数を回帰係数計算部１６−１〜１６−ｎ（この場合、ｎ＝30とする）に入力し、各ケプストラム係数の時間軌跡に対して例えば前後２点、計５点の回帰係数をサンプル毎に最小二乗法により計算する。他の例として、各ケプストラム係数の時間軌跡に対し前後３点、計７点の回帰係数をサンプル毎に計算してもよい。

図５に、実線で時間軌跡５点のケプストラム係数を示し、破線で回帰直線を示す。回帰直線の傾きが回帰係数（デルタ係数）となる。この場合、30次までのケプストラム係数を用いているので、１フレーム当たり30個のデルタ係数が求まる。

次に、回帰係数計算部１６−１〜１６−ｎにより計算された回帰係数である30個のデルタ係数の２乗平均を２乗平均部１７により計算し、これを一つのフレームの代表的なＤ値とする。Ｄ値は、非特許文献２に従って定義される、音声信号のスペクトル遷移を示すパラメータであり、フレーム毎に一つずつ得られる。

図６に、音声信号の母音部分の原波形６１（塗りつぶされた部分）と２乗平均部１７により得られる２乗平均であるＤ値６２（線で描かれた部分）の例を示す。Ｄ値の小さい箇所は、母音の定常部に相当する。そこで、Ｄ値を閾値処理部１８に入力して、予め定められた閾値と比較し、Ｄ値が閾値より小さい箇所を母音の定常部とする。閾値処理部１８の出力は、例えば母音の定常部でα（0≦α＜1）、それ以外の部分で１をとるような二値信号からなる定常部検出信号である。この例ではα＝0.4とするが、0≦α＜1の値であれば何でもよい。この定常部検出信号は乗算器１９に入力され、Ａ／Ｄ変換器１１から出力されるディジタル化された音声信号に乗じられることにより、定常部について音声信号の振幅が抑圧される。

図７に、音声信号の原波形７１（薄く塗りつぶされた部分及び濃く塗りつぶされた部分）と定常部が抑圧された後の波形７２（濃く塗りつぶされた部分）を示す。乗算器１９からの定常部抑圧処理後の音声信号は、出力端子２１から出力される。出力端子２１から出力される音声信号は、例えば図１の電力増幅器６に入力され、スピーカ７から音響として放射される。

このように本実施形態の音声処理装置によると、入力される音声信号の定常部の振幅を抑圧する処理を行うことができるので、処理後の音声信号を図１に示したように電力増幅器６を介して室内１に設置されたスピーカ７に供給することによって、明瞭度の高い音声を発することができる。

また、本実施形態の音声処理装置では、入力される音声信号のフレーム単位で残響によるオーバラップマスキングの影響を軽減させる明瞭度の改善処理を行うため、音声信号をフィルタバンクにより帯域分割してから同様の処理を行う非特許文献１に比較して処理遅延が非常に短く、実時間処理が容易となる。

図３に示した音声処理装置は、Ａ／Ｄ変換器１１の出力からＤ／Ａ変換器２０までの処理をＤＳＰ(Digital Signal Processor)あるいは汎用のＣＰＵ(Central Processing Unit)を用いてソフトウェア処理により実現することもできる。また、図３に示した音声処理装置を専用のハードウェアを用いて実現することも可能である。

次に、本発明の実施形態の効果を確認するために行った聴取実験の結果について説明する。まず、実験室環境における聴取実験の結果について述べる。
残響環境は、コンピュータ上で音声信号と残響のインパルス応答を畳み込むことによって実現した。使用したインパルス応答は、東大和市大ホール（反射板無し）で測定されたインパルス応答を基に、それらを人工的に加工することによって残響時間0.4秒から1.3秒までの範囲に変化させたものである。

刺激は、日本語の単音節ＣＶ（子音−母音）をターゲットとし、日本語のキャリアセンス「題目としては＿といいます」に挿入した。Ｖとして/a/, /i/を用い、Ｃとして/p/, /t/, /k/, /b/, /d/, /g/, /s/, /∫/, /h/, /t∫/, /dz/, /d3/, /m/, /n/の14子音を用いた。結局、実験では24種類のＣＶを使用した。各刺激は、ＡＴＲ研究用日本語音声データベース（話者：ＭＡＵ、40歳男性）を用いた。刺激音は、原音声信号に残響を畳み込んだ刺激セット（処理なし）と、本発明の実施形態に基づく定常部抑圧処理を行った後に残響を畳み込んだ刺激セット（処理あり）の二種類を用意した。被験者は、日本語を母語とする健聴者44名（残響時間が短いセットに対して22名、長いセットに対して22名）とした。

実験の指示は、防音室内のコンピュータ画面上で行った。刺激音の指示はヘッドフォン（STAX SR-303）を用い、被験者毎に適した音圧レベルに調整した。各試行において、まず刺激音を一度だけ提示し、提示終了後、画面上に実験で使用した24種類のＣＶを選択肢としてカナで表示した。被験者には、画面上の選択肢を強制的に一つマウスでクリックさせて、回答してもらった。選択が終わると、次の刺激が自動的に提示されるようにした。各被験者に対して、計240刺激（残響5種類×24単音節×処理2種類）をランダムに並べて提示した。

以上のような条件で行った実験室環境における単音節明瞭度試験の結果として、各残響条件、処理条件における子音の正解率の平均値を表１（残響時間の短いセット）及び表２（残響時間の長いセット）に示す。

ただし、母音の正解率は、いずれの条件においても100%であった。処理による主効果は、いずれも有意（ｐ＜.001）であった。処理条件間でのｔ検定の結果、表１では残響時間が0.8, 0.9, 1.0秒において「処理あり」の方が、また表２では残響時間が0.9, 1.0, 1.1 ,1.2秒において「処理あり」の方が、それぞれ有意に正解率が高かった。

これらの実験結果から、全ての残響条件において「処理あり」の方が正解率は高く、さらに残響時間が0.8〜1.2秒では処理の効果が確認された。

次に、上述した実験室環境で効果を示した定常部抑圧処理を実際の残響環境下においてもその効果を確認するために大学の講堂にて実験を行った結果を示す。実験は、単音節明瞭度試験と文の書き取り試験を行った。

単音節明瞭度試験では前述した刺激のうち、母音が/a/のもの（14単音節、キャリア文付き、処理あり／なし）を用いた。文了解度試験では、NTT-AT音素バランス1000文から20文を用いた。被験者は、日本語を母語とする健聴者24名とした。

実験は、上智大学構内で一番大きな収容人数（822名）を持つ10号館講堂で行った。壇上にスピーカを設置し、ＰＣから予め準備された刺激音を再生した。被験者は、講堂正面の後方のブロックに配置した。始めに被験者に指示を与えた後、テスト用の刺激文を用いて被験者全員が問題なく聞き取れる程度の音量に出力を調整した。

単音節明瞭度試験では、28刺激（14単音節のそれぞれについて処理あり／処理なし）を2回の計56刺激をランダムに並べ替えて提示した。各試行において刺激音を一度だけ提示し、回答を14単音節のリストから１つ強制的に選んで用紙に書いてもらった。次の刺激提示までの時間は、5秒とした。

文了解度試験では、24名の被験者をグループＡ（13名）とグループＢ（11名）に分け、各グループ毎に実験を行った。各グループでは、異なる20文、すなわち「処理あり」の10文と「処理なし」の10文をランダムに並べ替えて提示した。また、グループＡで「処理あり」であった10文は、グループＢで「処理なし」となり、逆にグループＡで「処理なし」であった10文は、グループＢで「処理あり」となるように組み合わせることによって、バランスをとった。各試行において刺激音は20秒間隔をあけて2度にわたって提示し、回答をカナで用紙に書いてもらった。

単音節明瞭度試験では子音の正解率を比較した結果、「処理あり」（69.3%）の方が「処理なし」（62.7%）よりも正解率が高くなった。文了解度試験では、書き取られた文を処理ありと処理なしで比較した。その結果、「処理あり」と「処理なし」では共にモーラ毎の正解率が95%以上と高く、その差はほとんど観測されなかった。

単音節明瞭度試験では実験室環境のdiotic受聴の場合と同じ刺激を用いたが、両耳(dichotic)環境においてもその効果を確認できた。文の書き取りでは文脈情報を利用できることから、多少の聞き取りづらさが存在しても特に健聴者の場合には問題ない。今回用いた刺激文は、比較的平易で、訓練を受けたアナウンサがゆっくりと明瞭に発話したもので、また残響時間もそれほど長くない環境で、かつ直接音のエネルギも強かったことが、そもそもの了解度が高かった要因として考えられる。しかし、より劣悪な残響環境下で、親密度の低い語が存在したり、自然発話音声にみられるように話速が速かったり不明瞭な音声になると、本発明の実施形態による処理の効果が顕著に現れるものと予想される。このことは、お年寄りや聴覚障害者に対してはなおさらのことであろう。

本発明の一実施形態に従う音声処理装置を用いた音声拡声システムの概念図残響によるオーバラップマスキングの例を示す図本発明の一実施形態に従う音声処理装置の構成を示すブロック図原音声波形の対数スペクトルとスペクトル包絡について示す図回帰係数の計算例を示す図原音声波形と回帰係数の２乗平均（Ｄ値）の例を示す図原音声波形と定常部が抑圧された音声波形の例を示す図

符号の説明

１０…入力端子
１１…Ａ／Ｄ変換器
１２…窓掛け処理部
１３…高速フーリエ変換器
１４…対数スペクトル計算部
１５…逆高速フーリエ変換器
１６−１〜１６−ｎ…回帰係数計算部
１７…２乗平均計算部
１８…閾値処理部
１９…乗算器
２０…Ｄ／Ａ変換器
２１…出力端子

Claims

入力された音声信号に対してスピーカに出力される前に処理を施す音声処理方法であって、
前記音声信号に対して窓掛け処理を行って該音声信号を複数のフレームに分割するステップと、
分割された各フレームの音声信号について対数スペクトルを計算するステップと、
前記対数スペクトルからケプストラム係数を計算するステップと、
前記ケプストラム係数を時間方向に見た場合の回帰係数を計算するステップと、
前記回帰係数の２乗平均を求めるステップと、
前記２乗平均について閾値処理を行うことにより前記音声信号の定常部を求めるステップと、
前記定常部について前記音声信号の振幅を抑圧するステップとを具備することを特徴とする音声処理方法。
入力された音声信号に対してスピーカに出力される前に処理を施す音声処理装置であって、
前記音声信号に対して窓掛け処理を行って該音声信号を複数のフレームに分割する窓掛け処理部と、
前記窓掛け処理部により分割された各フレームの音声信号にフーリエ変換を施すフーリエ変換部と、
前記フーリエ変換部からの出力信号に基づき対数スペクトルを計算する対数スペクトル計算部と、
前記対数スペクトルに対して逆フーリエ変換を施すことによりケプストラム係数を生成するケプストラム係数計算部と、
前記ケプストラム係数を時間方向に見た場合の回帰係数を計算する回帰係数計算部と、
前記回帰係数の２乗平均を求める２乗平均部と、
前記２乗平均について閾値処理を行うことにより前記音声信号の定常部を求める閾値処理部と、
前記定常部について前記音声信号の振幅を抑圧する抑圧処理部とを具備することを特徴とする音声処理装置。
入力された音声信号に対してスピーカに出力される前に処理を施す音声処理をコンピュータに行わせるプログラムであって、
前記音声信号に対して窓掛け処理を行って該音声信号を複数のフレームに分割する処理と、
分割された各フレームの音声信号について対数スペクトルを計算する処理と、
前記対数スペクトルからケプストラム係数を計算する処理と、
前記ケプストラム係数を時間方向に見た場合の回帰係数を計算する処理と、
前記回帰係数の２乗平均を求める処理と、
前記２乗平均について閾値処理を行うことにより前記音声信号の定常部を求める処理と、
前記定常部について前記音声信号の振幅を抑圧する処理とを前記コンピュータに行わせる音声処理プログラム。