JP2015161911A

JP2015161911A - 音声明瞭化装置及びそのためのコンピュータプログラム

Info

Publication number: JP2015161911A
Application number: JP2014038786A
Authority: JP
Inventors: 芳則志賀; Yoshinori Shiga
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2014-02-28
Filing date: 2014-02-28
Publication date: 2015-09-07
Anticipated expiration: 2034-02-28
Also published as: EP3113183B1; US20170047080A1; JP6386237B2; EP3113183A1; EP3113183A4; US9842607B2; WO2015129465A1

Abstract

【課題】音量を不必要に上げることなく、様々な環境化でも聞き取りやすい音声を生成できる音声明瞭化装置を提供する。
【解決手段】音声明瞭化装置２５０は、対象とする音声信号２５４のスペクトルに対して、当該スペクトルのスペクトル包絡の局所的なピークに接する、又はそれらに沿った、スペクトル包絡のピークの概形を表す曲線を抽出する包絡面抽出部２９２と、該包絡面抽出部２９２が抽出した曲線に基づいて音声信号２５４のスペクトルを変形する雑音適応処理部３００と、雑音適応処理部３００によって変形されたスペクトルに基づいて明瞭化された音声のための変換後音声信号２６０を生成する正弦波音声合成処理部３０５とを含む。
【選択図】図７

Description

この発明は音声の明瞭化に関し、特に、雑音が存在する環境でも明瞭に聞こえるように音声信号を加工する技術に関する。

駅、地下街等の公共の場で何らかのアナウンスを行なう場合、生の声又は録音若しくは音声合成された声が伝送路を介する等してスピーカから放出される。こうした放送は公衆に何らかの情報を伝達するためのものであるから、そうした情報は確実に公衆に伝わることが望ましい。また、防災行政無線を利用して屋外拡声スピーカを介して、又は、市町村の広報車のスピーカを介して音声で情報を伝達しようとする場合もある。特に災害時にはそうした情報を公衆に間違いなく伝達する必要がある。

しかし、駅、地下街等の公共の場では、音声の内容が聞き取りづらいことがある。この原因は、周囲の騒音そしてスピーカからの音響伝達特性等である。特に屋外においては、ロングパスエコー及び風等の影響も音声による情報伝達を妨げる原因となる。公共の場に限らず、屋内でラジオ、テレビ等を聞く場合にも、外部から侵入してくる雑音及び生活音等により音声が聞き取りづらい場合はよく起こり得る。

こうした問題への対処法として最も簡単なものは、音量を大きく（増幅）することである。しかし、出力デバイスの性能には限界があるため、音量を十分に大きくすることができなかったり、音量を大きくするとかえって音声信号が歪んでしまったりするという問題がある。また大音量の音声は、近隣の住民又は通行者にとっては不必要に大きな音声となり騒音公害を招くという問題もある。

上記のような悪条件のもとで、音量を上げることなく音声の聞こえを明瞭化するための従来技術の典型例（非特許文献１）を図１に示す。図１を参照して、従来の音声明瞭化装置３０は、音声信号３２の入力を受けて、明瞭化された音声を表す変換音声信号３４を出力する。音声明瞭化装置３０は、音声の高域を強調するために、音声信号３２の高周波数帯域を主に通過させるフィルタリング部（ＨＰＦ）４０と、フィルタリング部４０が出力する信号の波形振幅のダイナミックレンジを圧縮することで、波形振幅を時間方向に均一化するダイナミックレンジ圧縮処理部（ＤＲＣ）４２とを含む。

フィルタリング部４０による音声信号３２の高域成分の強調は、人間が騒音下で話す際に用いる特有の発声（ロンバード声）の特徴を模擬しており明瞭性向上が期待できる。高域成分の強調の度合いは、入力音声の特性に応じて逐次調整される。一方、ダイナミックレンジ圧縮処理部４２では、音声波形の振幅が均一になるよう、音量が局所的に小さい箇所では波形振幅を増幅し、反対に大きな箇所では減衰させる。こうすることで、全体の音量を上げることなく、不明瞭な音の少ない比較的聞き取りやすい音声を得ることができる。

T. Zorila, V. Kandia, and Y. Stylianou, "Speech-in-noise intelligibility improvement based on spectral shaping and dynamic range compression," in Proc. Interspeech, Portland Oregon, USA, 2012. C.H. Taal, R.C. Hendriks, R. Heusdens, "A speech preprocessing strategy for intelligibility improvement in noise based on a perceptual distortion measure, in Proc. ICASSP, pp. 4061-4064, 2012.

しかし、図１に示す既存のシステムでは、フィルタリング部４０及びダイナミックレンジ圧縮処理部４２のいずれも、音声の処理において音声の知覚特性が考慮されていない。そのため、この従来技術に基づくシステムが、音声の明瞭化のための最適な方法用いているとは言えない。すなわち、音声の高周波域の強調は音声スペクトルの大局的傾きに、また、ダイナミックレンジ圧縮は音声波形の振幅に基づいているが、前者については音声知覚におけるフォルマント等のスペクトルのピークの重要性を考慮すべきであり、また後者については、波形振幅が音声パワーと必ずしも一致しないことに注意すべきである。

さらにこの従来法では、雑音に対して音声を適応する方法が含まれていないため、さまざまな雑音環境下において高い明瞭性を保持できるという保証はない。すなわち、音声に混入する周囲雑音の変化に必ずしも対応できないという問題がある。

この問題に対して、雑音特性にあわせて音声スペクトルを変形することにより、雑音下でも聞き取りやすい音声を発生させる試みもある（非特許文献２）。しかし、スペクトルの変形に対する制約が一般に緩く、音声スペクトルのこうした変形によって、音声の知覚にあたって重要な特徴までもが変形されてしまうことが起こりうる。そのようにして生じた過剰な変形により、多くの場合かえって音質が劣化し、不明瞭な音声しか得られないという問題が生じる。

本発明はこうした問題を鑑みてなされたものであり、その目的とするところは、音量を不必要に上げることなく、様々な環境化でも聞き取りやすい音声を合成できる音声明瞭化装置を提供することである。

本発明の第１の局面に係る、明瞭な音声を生成する音声明瞭化装置は、対象とする音声信号のスペクトルに対して、そのスペクトル包絡の複数個の局所的なピークに沿った曲線で表されるピーク概形を抽出するピーク概形抽出手段と、ピーク概形抽出手段が抽出したピーク概形に基づいて音声信号のスペクトルを変形するスペクトル変形手段と、スペクトル変形手段によって変形されたスペクトルに基づいて音声を生成する音声合成手段とを含む。

好ましくは、ピーク概形抽出手段は、対象とする音声信号のスペクトログラムに対して、時間・周波数領域においてスペクトログラムの包絡の複数個の局所的なピークに沿った曲面を抽出し、抽出した曲面から各時刻におけるピーク概形を得る。

より好ましくは、ピーク概形抽出手段は、周波数の知覚的又は音響心理学的な尺度に基づいてピーク概形を抽出する。

さらに好ましくは、スペクトル変形手段は、ピーク概形抽出手段が抽出したピーク概形に基づいて、音声信号のスペクトルのピークを強調するスペクトルピーク強調手段を含む。

スペクトル変形手段は、音声を送出する環境又はその類似環境で集音した環境音に対してそのスペクトルを抽出する環境音スペクトル抽出手段と、ピーク概形抽出手段が抽出したピーク概形と、環境音スペクトル抽出手段が抽出した環境音スペクトルとに基づいて音声信号のスペクトルを変形する手段とを含んでもよい。

本発明の第２の局面に係るコンピュータプログラムは、コンピュータにより実行されると、上記したいずれかの音声明瞭化装置の全ての手段として上記コンピュータを機能させる。

従来の音声明瞭化装置の構成を示すブロック図である。音声のスペクトログラムと、本発明の一実施の形態で使用される、スペクトログラムの包絡面との関係を示すグラフである。本発明の一実施の形態における音声信号のスペクトル分布の変形を説明するためのグラフである。本発明の一実施の形態における、音声信号のスペクトログラムの特定周波数におけるパワー変動の変形を説明するためのグラフである。本発明の一実施の形態における、音声信号のスペクトル分布の包絡を雑音に適応させて変形する方法を説明するためのグラフである。本発明の一実施の形態において、音声信号のうち、不要な高調波成分のパワーを用いて重要な成分をブーストする方法を説明するためのグラフである。本発明の一実施の形態に係る音声明瞭化装置の機能的ブロック図である。図７に示す音声明瞭化装置を実現するコンピュータのハードウェアブロック図である。

以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。以下の説明では、最初に実施の形態の基礎となる基本的考え方を述べ、その後に本実施の形態に係る音声明瞭化装置の構造及び動作を説明する。

［１．基本的考え方］
以下に説明する実施の形態は、音声明瞭化の技術として２つを採用している。１つは、スペクトルの包絡線に基づくスペクトル・シェーピングによる雑音特性への音声の適応技術である。他の１つは雑音中の音声の知覚にさして影響を与えない調波を間引き、間引かれた調波のエネルギを他の重要な成分に再配分する技術である。

なお、本明細書において、スペクトルの「包絡線」及びスペクトログラムの「包絡面」という言葉を使用するが、これは当該技術分野において通常用いられる「スペクトル包絡」とも、数学的な意味での「包絡線」及び「包絡面」とも異なる。スペクトル包絡は、音声スペクトルに含まれる高調波等の微細構造を取り除いたなだらかな周波数方向の変動を表し、一般に人間の声道特性を反映するとされる。一方、本発明における「包絡線」、又は「包絡面」の特定時刻の断面として表わされる曲線は、一般にいう「スペクトル包絡」のフォルマント等の複数個の局所ピークに接する、又は局所ピーク近くに局所ピークに沿って描かれる曲線であり、スペクトル包絡よりもなだらかな曲線で表される。その意味では、「スペクトル包絡の包絡」、又は「スペクトル包絡のピークの概形」と表現することもできる。ここではスペクトル包絡と本明細書における「包絡線」とを区別するために、一般にいう「スペクトル包絡」を「スペクトル包絡」、スペクトル包絡の局所的ピークに接して、又はそれらに沿って描かれた曲線を単に「（スペクトルの）包絡線」と呼ぶ。スペクトログラムの「包絡面」も同様である。スペクトログラムにおいて、各時刻でスペクトログラムを構成するスペクトルのスペクトル包絡により形成される面を「スペクトログラム包絡」と呼び、スペクトログラム包絡の局所的ピークに接する、又はそれらに沿って描かれる曲面を単に「（スペクトログラムの）包絡面」と呼ぶ。ただし、包絡線又は包絡面を抽出する際にスペクトル包絡を介する必要はない。本明細書でいう「包絡面」の特定周波数の断面として表わされる曲線（ある周波数におけるスペクトルの時間変化）もここでは包絡線と呼ぶ。なお、ここにいう「曲線」及び「曲面」が、それぞれ直線及び平面を含んでもよいことはいうまでもない。

＜１．１スペクトルの包絡線に基づくスペクトル・シェーピング＞
スペクトルの包絡線に基づくスペクトル・シェーピングによる音声の明瞭化技術は、以下のようにして音声の明瞭化を行なう。

（１）音声のスペクトログラムの包絡面を抽出する。

（２）前記包絡面に基づいて、スペクトルにおけるフォルマント等のピークを強調するようスペクトルを変形する。

（３）スペクトログラムの包絡面にあわせて音声のスペクトル及びその時間変動の双方を変形するとともに、

（４）スペクトログラムの各フレームについて、雑音の平滑化スペクトルが音声スペクトルの包絡線と平行になるような変形を音声スペクトルに加える。

このように本実施の形態に係るスペクトル・シェーピング手法は、従来法とは異なり、音声知覚におけるフォルマント等の音声スペクトルのピークの重要性を考慮し、かつ、聴覚と関連が深いスペクトルの時間変動に対してダイナミックレンジの圧縮を行なっている。そして、音声の知覚において重要なフォルマント等のピークが、雑音スペクトルから突出するように処理している。

〈１．１．１スペクトログラムの包絡面〉
図２に、音声のスペクトログラム６０とその包絡面６２との例を示す。図２では、両者を見やすくするために包絡面６２を便宜上実際よりも８０ｄＢ上方に描画している。実際には、両者は、スペクトログラム６０のピークが包絡面６２に下側から接するような関係にある。なお図２では、周波数軸はバーク尺度周波数で示され、縦軸は対数パワーを示してある。周波数軸にメル尺度やバルク尺度、ＥＲＢ尺度といった知覚的又は音響心理学的尺度を用いることで、音声の明瞭性を左右する低周波域のスペクトルを重視した包絡面の抽出を行なうことができる。この包絡面６２は、既に述べたようにスペクトログラム６０の変化に対して比較的緩やかな包絡となるようにとってあり、以下に述べるように特に周波数方向よりも時間軸方法においてその変化が緩やかとなっている。

音声のスペクトログラム｜Ｘ_k,m｜^２（ｋは対象スペクトログラムの周波数軸上の周波数範囲の位置を表し、ｍは対象スペクトログラムの時間軸上の位置すなわちフレーム番号である）、について、その局所ピークに接する包絡面￣Ｘ_k,mを求めることを考える（「￣」は、以下に記載する数式においてその直後の文字の上に描かれたバーを示す。）。ここでは、以下の逐次近似法を用いる。

包絡面のｎ回目の近似を￣Ｘ_k,m ⁽ⁿ⁾，その対数の２次元離散フーリエ逆変換を￣ｘ_u,v ⁽ⁿ⁾とする。初期値￣ｘ_u,v ⁽⁰⁾を次式で与える。

ここで、Ｌ_u,vは２次元ローパスフィルタで、１．１．２節で詳述する。

包絡面は次式で更新する。

ここで、αは収束を加速するための係数である。

所定の値ε＞０に対して次式を用いて収束判定する。ただし次式においてＭ及びＮはそれぞれ、スペクトルのデータポイント数及び総フレーム数を表す。

収束後、￣Ｘ_k,mは次のように与えられる。

ただし￣Ｘ_minは予め定めた定数である。包絡面の下限￣Ｘ_minを設けることで、スペクトログラム変形時に、パワーが微小な無音部等が強調され異音が発生するという問題を回避できる。

〈１．１．２包絡面平滑化２次元フィルタ〉
式（１）（２）及び（３）のＬ_u,vには本実施の形態では次式を用いる。

ｆ_sは音声のサンプリング周波数を表す。Ｔ_fは分析フレーム周期を表す。Ｎは音声区間の総フレーム数を表す。時間（ケフレンシ）領域及び周波数領域のカットオフγ、ηを調整することで、包絡面の周波数方向及び時間方向の平滑化の度合いをそれぞれ変えることができる。

このようにして得られたものが、例えば図２の包絡面６２、図３の包絡線７２、図４（Ａ）の包絡線９２等である。なお、図３及び図４の場合、図面に出ているのは包絡面のそれぞれ周波数方向及び時間方向の断面の曲線であるため、ここでは包絡線と呼んでいる。

なお、本実施の形態では、後述するように音声は合成音声であって既知であることを前提としている。したがってこうした包絡面を予め算出しておくことができる。音声が既知でなくリアルタイムで与えられる場合には、例えば以下のようにして上記と同等の包絡面を得ることができる。

（１）現在の分析フレームのスペクトルの包絡線を逐次計算する。

（２）計算により得られた包絡線時系列を、ローパスフィルタ等で時間軸方向に平滑化する。

〈１．１．３雑音への適応〉
包絡面を雑音に対して適応化するためには、雑音スペクトルを得る必要がある。本実施の形態では、マイクにより周囲の雑音を収集し、そのパワースペクトル｜Ｙ_k,m｜²を逐次計算し、ローパスフィルタに通す等して時間方向に平滑化したスペクトル￣Ｙ_k,mを得る。本実施の形態では、次式を用いてこの平滑化を行なう。

￣Ｙ_k,mに応じて整形した（すなわち雑音に適応した）音声のスペクトログラム｜Ｘ´_k,m｜²を次式で与える。ここで、音声スペクトルの包絡線を利用したスペクトルピーク強調を同時に行なう。これによって、フォルマントが強調され明瞭性がさらに向上する。

式（７）の（ａ）は、スペクトルの包絡線が変化しないフォルマント強調（γ＞１）であり、（ｂ）は包絡線が平滑化雑音スペクトルに平行となるような音声スペクトルの変形操作に相当する。

式（７）の（ａ）についてより詳しく説明する。図３（Ａ）を参照して、ある時間における音声のスペクトログラム（スペクトル）７０に対し、その包絡線を包絡線７２とする。式（７）の（ａ）は以下のように表せる。

この式の自然対数表現をとると以下のようになる。

この式の第２項のカッコの中は、対数領域において、スペクトルの値（対数パワー）から包絡線の値を減算することを意味する。この結果、包絡線がスペクトルに接しているフレームでは、例えば、図３（Ａ）に示すスペクトル７０は、図３（Ｂ）に示す曲線７４に変形される。図３（Ｂ）において、曲線７４のピークの対数パワー値はほぼ０となっている。

さらにこの値に対数領域でγ＞１を乗算することにより、曲線７４は図３（Ｃ）に示す曲線７６のように変形される。この変形は、曲線７４の谷部分を深くすることでピーク部分を強調することに相当する。

上記式の第１項は、対数領域において、図３（Ｃ）に示す曲線７６に、ｌｎ￣Ｘ_k,mを加算することを意味する。その結果、図３（Ｃ）の曲線７６は対数パワー軸に沿って上方にｌｎ￣Ｘ_k,mだけ移動する。その結果、図３（Ｄ）に示すスペクトル８０が得られる。このスペクトル８０のピークは、図３（Ａ）に示す包絡線７２と同じ包絡線に接している。

式（８）のＤ_k,mは雑音の平滑化スペクトルと音声スペクトルの包絡線との比である。この値を式（７）の（ｂ）に示すようにζ_m乗して（ａ）に乗算する（対数領域では雑音の平滑化スペクトルと音声スペクトルの包絡線との差をζ_m倍して図３（Ｄ）のスペクトル８０に加える）ことにより、図３（Ｄ）に示すスペクトル８０に対し、そのスペクトルの包絡線が雑音の平滑化スペクトルとなるような変形操作が行なわれる。例えばζ_m＝１とすると、対数領域では、図３（Ｃ）のスペクトル８０から包絡線７２を減算し、雑音の平滑化スペクトル￣Ｙ_k,mを加算することになる。ただし、極端な変形を避けるため、所定のξに対してζ_mを以下のように定める。

ここでＲ_mはスペクトル変形の度合いを表す。本実施の形態ではＲ_mを以下の式で与える。

上記した変形によって得られる音声のパワースペクトルの一例を図５に示す。図５において、雑音信号１３０が平滑化スペクトル１３４を持つものとする。発話のための合成音声信号に対して上記明瞭化処理を行なって得られたのが、音声信号１３２である。図５からまず、包絡面抽出時にバーク尺度周波数を用いたことによる効果が読みとれる。すなわち、比較的低い周波数域において重点的に音声スペクトルが雑音スペクトルに適応し、特に明瞭性に影響する周波数４０００ヘルツ以下の帯域において、発話の音声信号１３２のフォルマント等のピークのパワーが雑音スペクトルより大きくなっている。次に、この帯域において音声信号のスペクトルの包絡線１３６は、雑音信号の平滑化スペクトル１３４と平行した形でかつ平滑化スペクトル１３４より上に位置しているのがわかる。これによって、明瞭性に大きな影響を与える音声のフォルマント部分（スペクトルのピーク）が雑音スペクトルから突出するように音声が合成されるため、雑音中でも聞き取り易い明瞭な音声が生成可能となる。

このようなスペクトルの（周波数領域における）変形に伴い、（７）式では、音声のスペクトログラムの時間方向の変動に対して図４に示すような変形を行なっている。図４（Ａ）を参照して、上記した変形前のスペクトログラムのある周波数における断面９０に対し、そのスペクトログラムの包絡面の同周波数における断面が包絡線９２により表されるものとする。断面９０のうちパワーの比較的低い部分に子音から母音への過渡部９４が存在するものとする。

雑音がほぼ定常でそのパワースペクトルが時間経過に対して大きく変化しないときには、スペクトログラム時間方向の断面９０に対し、包絡線９２を雑音に合わせて平坦にする変形を行なうことになる。図４（Ｂ）に示すように、時間軸方向で包絡線１０２が平坦になるようスペクトログラムが変形される。変形後の時間変動１００では、図４（Ａ）に示す子音から母音への過渡部９４に対応する過渡部分１０４は、包絡線１０２に下から接するように持ち上げられた形となる。この結果、変形後の時間変動１００に基づいて音声を合成すれば、子音の知覚において重要な手掛かりとなる過渡区間が相対的に増幅・強調され、音声を明瞭化することができる。

一方数５に示す式（５）の係数は例えば次のように設定する。周波数方向については包絡線が緩やかにスペクトルピークだけに接するようにτ＝１２５μｓとする。これは、１６ｋＨｚサンプリングの音声で、各フレームの包絡線を２次までのケプストラムを用いてそれぞれ表現することに相当する。一方、時間方向については、図４（Ａ）のように包絡線を起伏に追従させ、同図（Ｂ）のように子音・母音間の過渡部等が強調されるように、η＝２０〜４０Ｈｚ程度に設定する。また、γ＝１．３程度に設定してフォルマントを強調する。

＜１．２調波の間引きとエネルギの再配分＞
上記したスペクトル・シェーピングにより、雑音環境下でも音声を明瞭化できる。しかし本実施の形態では、音声の合成時に、音声の明瞭性に対する影響が小さい調波を間引き、間引かれた調波のエネルギを、残された調波に集中することで知覚音量を増大させ、さらなる明瞭性向上をねらう。このとき、残される調波の数は一定数以下に制限する。この目的のため、音声合成には正弦波合成を用いる。

まず、音声が雑音に埋もれている周波数帯域における調波の有無は、音声の聞こえには大きく影響しない。そこで、本実施の形態では、所定の定数θに対して次の式（１２）が成り立つ時間周波数では調波は間引き合成しない。

この定数θが０のときには、変換後の音声信号のうち、雑音信号の平滑化スペクトルよりレベルが上になる調波成分のみ合成し、それ以外の調波成分は合成しない。定数θが正のときには、音声信号のうち雑音信号の平滑化スペクトルより対数パワーでθだけ上のレベルを上回る調波成分のみ合成し、それ以外を合成しない。定数θが負のときには、音声信号のうち雑音信号の平滑化スペクトルより対数パワーでθの絶対値だけ下のレベルを上回る調波成分のみ合成し、それ以外は合成しない。

さらに、本実施の形態では、音声が雑音に埋もれていなくても、各フォルマント周波数の最も近くに位置する調波の両隣の調波のうち、一方は間引いて合成しない。これは、いわゆるマスキングと同様の原理で、フォルマント周波数の最も近くに位置する調波に隣接する調波は聞こえにはさして影響しないためである。合成しない調波を一方のみとし、他方を合成するのは、調波成分があまりまばらになってしまうと、音声のピッチの知覚が困難になるため、それを回避するためである。

例えば、図６（Ａ）に示す例で、雑音の平滑化スペクトルがスペクトル１６０である場合を考える。定数θ＜０とすると、図６に示す調波成分のうち、調波成分１７０、１７２、１９０、１７４、１７６、１７８、１８０、及び１８２のみが式（１２）を満たす。そこで、これらのみが合成の対象となり、それ以外の調波成分については合成しない。また、調波成分１９０，１８０については、本来であれば合成の対象であるが、フォルマントを形成する調波成分１７２、１７８にそれぞれ隣接しているので、やはり合成しない。他方の調波成分１７０、１７６はそれぞれ残す。

さらに、このようにして合成しないと決定された調波成分については、それらのエネルギを残った調波成分に再配分する。その結果、図６（Ａ）に示す調波成分１７０，１７２，１７４，１７６、１７８及び１８２にそれらエネルギ２００が再配分され、図６（Ｂ）に示すように、パワーのレベルが上昇した調波成分２１０，２１２，２１４，２１６，２１８及び２２２が得られる。この結果、残った調波成分のパワーは雑音スペクトルよりもさらに上に出ることになり、フォルマント近辺でＳＮ比が改善して音声が明瞭になる。ここで、音声信号のエネルギの総和は変化しないので、物理的な音量は変化しない。

［２．構成］
以上の原理に基づく本実施の形態に係る音声明瞭化装置の構成について説明する。図７を参照して、この実施の形態に係る音声明瞭化装置２５０は、音声合成処理部２５２により合成された合成音声信号２５４と、マイク２５８により集音された周囲の雑音を示す雑音信号２５６とを入力とし、合成音声信号２５４を雑音信号２５６に対して適応化することにより、合成音声信号２５４による音声よりも明瞭な変換後音声信号２６０を出力するためのものである。

音声明瞭化装置２５０は、合成音声信号２５４を受けてそのスペクトログラム｜Ｘ_k,m｜²を抽出するスペクトログラム抽出部２９０と、スペクトログラム抽出部２９０の抽出したスペクトログラム｜Ｘ_k,m｜²に基づき、その包絡面｜￣Ｘ_k,m｜を抽出する包絡面抽出部２９２とを含む。スペクトログラム抽出部２９０によるスペクトログラム抽出は慣用の技術により実現できる。包絡面抽出部２９２による包絡面の抽出には、１．１．１及び１．１．２に述べた技術を用いる。この処理は、コンピュータハードウェアとソフトウェアとによっても実現できるし、専用のハードウェアにより実現することもできる。ここでは、コンピュータハードウェアとソフトウェアとにより実現する。なお、この実施の形態のように音声合成処理部２５２による合成音声を変換の対象とする場合には、予め音声信号が分かっているので、スペクトログラムの抽出及び包絡面の抽出はいずれも予め計算できる場合が大部分である。

音声明瞭化装置２５０はさらに、マイク２５８から受信した雑音信号２５６に対し、デジタル化、フレーム化等の前処理を施して一連のフレームからなる雑音信号を出力する前処理部２９４と、前処理部２９４が出力するフレーム化された雑音信号からそのパワースペクトルを抽出するパワースペクトル計算処理部２９６と、パワースペクトル計算処理部２９６により抽出された雑音信号のパワースペクトルに対して、その時間変動を平滑化して雑音信号の時刻ｍＴ_ｆ（ｍ番目のフレーム）における平滑化スペクトル￣Ｙ_k,mを出力する平滑化処理部２９８と、スペクトログラム抽出部２９０の出力する合成音声のスペクトログラム｜Ｘ_k,m｜²、包絡面抽出部２９２が出力する合成音声の包絡面｜￣Ｘ_k,m｜、及び平滑化処理部２９８が出力する雑音信号の平滑化スペクトル￣Ｙ_k,mとに基づいて、上記１．１．３で説明した雑音への適応処理を行ない、適応化後の音声信号の時刻ｍＴ_ｆにおけるスペクトル｜Ｘ´_k,m｜²を音声の基本周波数の間隔でサンプルして得られる調波成分を出力する雑音適応処理部３００と、雑音適応処理部３００から出力される各調波について雑音の平滑化スペクトル￣Ｙ_k,mとのレベル比較を行なって、式（１２）に従って所定レベル（すなわちＳＮ比）を下回る調波を間引くとともに、各フォルマント周波数の最も近くに位置する調波に隣接する調波の片方を間引く調波間引き処理部３０２と、調波間引き処理部３０２により間引かれた後の残された各調波成分に、間引かれた調波成分のパワーを均等に再配分するパワー再配分処理部３０４と、パワー再配分処理部３０４においてパワー再配分を受けた残った調波から音声を合成する正弦波音声合成処理部３０５とを含む。正弦波音声合成処理部３０５の出力が、雑音に対して適応化され、明瞭化された変換後音声信号２６０である。なお、雑音適応処理部３００において、上述のスペクトル｜Ｘ´_k,m｜²を音声の基本周波数の間隔でサンプルする処理、及び、調波間引き処理部３０２において、雑音中の音声の知覚にさして影響のない調波を間引く処理は、音声が調波成分を持つ有声区間においてのみ適応されることは言うまでもない。

［３．動作］
音声明瞭化装置２５０は以下のように動作する。音声合成処理部２５２は図示しない音声発生の指示を受けて音声合成を行ない、合成音声信号２５４を出力しスペクトログラム抽出部２９０に与える。スペクトログラム抽出部２９０は、この合成音声信号２５４からスペクトログラムを抽出し包絡面抽出部２９２と雑音適応処理部３００とに与える。包絡面抽出部２９２は、スペクトログラム抽出部２９０から与えられたスペクトログラムからその包絡面を抽出し雑音適応処理部３００に与える。

マイク２５８は、周囲の雑音を集音し、電気信号である雑音信号２５６に変換して前処理部２９４に与える。前処理部２９４は、マイク２５８から受信した雑音信号２５６を所定フレーム長で所定シフト長のフレームごとにデジタル化し、一連のフレーム化された信号としてパワースペクトル計算処理部２９６に与える。パワースペクトル計算処理部２９６は、前処理部２９４から受けた雑音信号からパワースペクトルを抽出し、平滑化処理部２９８に与える。平滑化処理部２９８は、このスペクトルの時系列をフィルタリングにより平滑化することで雑音の平滑化スペクトルを算出し雑音適応処理部３００に与える。

雑音適応処理部３００は、前述した手法により、スペクトログラム抽出部２９０から与えられるスペクトログラムに、包絡面抽出部２９２から与えられる合成音声信号２５４のスペクトログラムの包絡面、及び、平滑化処理部２９８から与えられる雑音信号の平滑化スペクトルを用いた雑音適応化処理を行ない、適応化後の各時刻における音声信号のスペクトル｜Ｘ´_k,m｜²を、音声の基本周波数間隔でサンプルして得る調波成分を出力し、調波間引き処理部３０２に与える。

調波間引き処理部３０２は、雑音適応処理部３００の出力する各調波について、平滑化処理部２９８の出力する雑音信号の平滑化スペクトルとの比較を行ない、前述した調波の間引き操作を行なって残された調波のみを出力する。パワー再配分処理部３０４は、間引き処理部３０２が出力する間引き後のスペクトログラムの各調波に、間引きされた調波のパワーを再配分し、残っている調波のレベルを引き上げることにより、変換後音声信号２６０を出力する。

前述した原理により、雑音適応処理部３００により雑音に適応化された合成音声は、スペクトルのピークが強調され、音声過渡部のスペクトル特徴が強調されたものとなっている。また、そのピークは雑音レベルに適応しており、雑音環境下でも聞き取りやすい音声を生成できる。さらに、調波間引き処理部３０２により明瞭性に影響しない調波を間引き、パワー再配分処理部３０４により、残っている調波にそのパワーを再配分している。その結果、音声パワーの総量を変化させることなく、音声のうち明瞭性に影響する部分のパワーのみを高めることができる。その結果、音量を不必要にあげることなく、聞き取りやすい音声を発生させることができる。

［４．コンピュータによる実現］
上記した音声明瞭化装置２５０は、実質的には、コンピュータハードウェアと、コンピュータハードウェアと協働するコンピュータプログラムとにより実現できる。ここで、包絡面抽出部２９２、雑音適応処理部３００を実現するプログラムは、それぞれ１．１．１〜１．１．２、及び１．１．３に説明した処理を実行するものを利用できる。

＜ハードウェア構成＞
図８は、上記した音声明瞭化装置２５０を実現するコンピュータシステム３３０の内部構成を示す。

図８を参照して、このコンピュータシステム３３０は、コンピュータ３４０と、このコンピュータ３４０に接続されるマイク２５８及びスピーカ３４４とを含む。

コンピュータ３４０は、ＣＰＵ（中央演算処理装置）３５６と、ＣＰＵ３５６に接続されたバス３５４と、ブートアッププログラム等を記憶する、書換え可能な読出専用メモリ（ＲＯＭ）３５８と、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）３６０と、メンテナンスの作業者等が用いる操作盤３６２と、無線により他の端末との通信を可能とする無線通信装置３６４と、リムーバブルメモリ３４６が装着可能なメモリポート３６６と、マイク２５８及びスピーカ３４４が接続され、マイク２５８からの音声信号をデジタル化したり、ＲＡＭ３６０から読出したデジタルの音声信号をアナログ変換しスピーカ３４４に与えたりする処理を行なうための音声処理回路３６８とを含む。

コンピュータシステム３３０を上記した実施の形態に係る音声明瞭化装置２５０の各機能部として機能させるためのコンピュータプログラムは、予めリムーバブルメモリ３４６に記憶され、リムーバブルメモリ３４６をメモリポート３６６に装着した後に操作盤３６２を操作してＲＯＭ３５８の書換えプログラムを起動することによりＲＯＭ３５８に転送され記憶される。又は、プログラムを、無線通信装置３６４を介した無線通信によりＲＡＭ３６０に転送し、その後にＲＯＭ３５８に書き込むようにしてもよい。プログラムは実行の際にＲＯＭ３５８から読出され、ＲＡＭ３６０にロードされる。

このプログラムは、コンピュータ３４０を、上記実施の形態に係る音声明瞭化装置２５０の各機能部として機能させるための複数の命令からなる命令列を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ３４０上で動作するオペレーティングシステム又はサードパーティのプログラム、若しくは、コンピュータ３４０にインストールされている各種プログラミングツールキット又はプログラムライブラリにより実行時に動的に提供されることがある。したがって、このプログラム自体はこの実施の形態に係る音声明瞭化装置２５０を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット内の適切なプログラムツールをコンピュータ３４０の記憶装置内から動的に呼出すことにより、上記したシステムとしての機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能を全て提供するようにしてもよい。

図２〜図７に示す本実施の形態では、音声信号等は、マイク２５８から音声処理回路３６８に与えられ、音声処理回路３６８でデジタル化されてＲＡＭ３６０に蓄積され、ＣＰＵ３５６により処理される。ＣＰＵ３５６による処理の結果得られた変換後の音声信号はＲＡＭ３６０に格納される。ＣＰＵ３５６が音声処理回路３６８に音声の発生を指示することにより、音声処理回路３６８がＲＡＭ３６０から音声信号を読出し、アナログ変換してスピーカ３４４に与え音声を発生させる。

コンピュータプログラムを実行する際のコンピュータシステム３３０の動作は周知である。したがってここではその詳細については繰返さない。

以上のように、上記実施の形態に係る音声明瞭化装置２５０によれば、雑音環境下で音声を発生する時に、雑音の音響特性に基づいて発生すべき音声を示す音声信号を時間軸及び周波数軸の双方について同時に変換し、雑音下でも音声が明瞭に聞こえるようにできる。この音声信号の変換時に、フォルマントのピークを強調したりする際にも、聞こえに影響する部分のみを強調することで、音量を不必要に増大させることがない。

また、本実施の形態のスペクトル・シェーピング技術は、音声知覚におけるフォルマント等の音声スペクトルのピークの重要性を考慮しており、かつ、音声の知覚と関連が深いスペクトルの時間変動に対してダイナミックレンジの圧縮を行なう点で従来法とは大きく異なる。

なお上記実施の形態は、合成音声を雑音下で発生させるための装置に関するものである。しかし本発明はそのような実施の形態には限定されない。生の音声をスピーカ等から発生させる際に、雑音に対して聞こえがよくなるように音声を変換する場合にも適用できることはいうまでもない。この場合、事情が許せば、生の音声を全くリアルタイムでなく一時遅延させると、音声のスペクトログラムの包絡面をより長い時間にわたって得ることができ、音声の変換をより効果的に行なうことができる。

また上記実施の形態では、音声信号のうち、雑音に埋もれてしまう部分のパワーを聞こえに影響する部分に再配分する際に、フォルマント等のピークの最も近くに位置する調波に対して両側から隣接する２つの調波のうち一方を削除の対象としている。しかし本発明はそのような実施の形態には限定されず、両方を削除するようにしてもよいし、又は双方をいずれも削除しないようにしてもよい。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

３０、２５０音声明瞭化装置
３２、１３２音声信号
３４変換音声信号
４０フィルタリング部
４２ダイナミックレンジ圧縮処理部
６０スペクトログラム
６２包絡面
７０、８０スペクトル（スペクトログラム）
７２、９２、１０２、１３６、１３４包絡線
１３０雑音信号
２５６雑音信号
２５８マイク
２６０変換後音声信号
２９０スペクトログラム抽出部
２９６パワースペクトル計算処理部
２９２包絡面抽出部
２９８平滑化処理部
３００雑音適応処理部
３０２調波間引き処理部
３０４パワー再配分処理部
３０５正弦波音声合成処理部
３３０コンピュータシステム
３４０コンピュータ
３４４スピーカ

Claims

明瞭な音声を生成する音声明瞭化装置であって、
対象とする音声信号のスペクトルに対して、当該スペクトルのスペクトル包絡の複数個の局所的なピークに沿った曲線で表されるピーク概形を抽出するピーク概形抽出手段と、
該ピーク概形抽出手段が抽出したピーク概形に基づいて前記音声信号のスペクトルを変形するスペクトル変形手段と、
該スペクトル変形手段によって変形されたスペクトルに基づいて音声を生成する音声合成手段とを含む音声明瞭化装置。
前記ピーク概形抽出手段は、対象とする音声信号のスペクトログラムに対して、時間・周波数領域において当該スペクトログラムの包絡の複数個の局所的なピークに沿った曲面を抽出し、抽出した曲面から各時刻における前記ピーク概形を得ることを特徴とする、請求項１に記載の音声明瞭化装置。
前記ピーク概形抽出手段は、周波数の知覚的又は音響心理学的な尺度に基づいて前記ピーク概形を抽出することを特徴とする、請求項１または２に記載の音声明瞭化装置。
前記スペクトル変形手段は、前記ピーク概形抽出手段が抽出した前記ピーク概形に基づいて、前記音声信号のスペクトルのピークを強調するスペクトルピーク強調手段を含むことを特徴とする、請求項１に記載の音声明瞭化装置。
前記スペクトル変形手段は、
音声を送出する環境又はその類似環境で集音した環境音に対してそのスペクトルを抽出する環境音スペクトル抽出手段と、
前記ピーク概形抽出手段が抽出した前記ピーク概形と、前記環境音スペクトル抽出手段が抽出した環境音スペクトルとに基づいて前記音声信号のスペクトルを変形する手段とを含むことを特徴とする請求項１又は４に記載の音声明瞭化装置。
コンピュータにより実行されると、請求項１〜請求項５のいずれかに記載の全ての手段として当該コンピュータを機能させる、コンピュータプログラム。