JP2014164039A

JP2014164039A - 録音音声の明瞭化装置

Info

Publication number: JP2014164039A
Application number: JP2013033558A
Authority: JP
Inventors: Toshio Modegi; 敏雄茂出木
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2013-02-22
Filing date: 2013-02-22
Publication date: 2014-09-08
Anticipated expiration: 2033-02-22
Also published as: JP6232710B2

Abstract

【課題】間仕切りを介して録音された録音音声に対して明瞭度を段階的に改善することが可能な録音音声の明瞭化装置を提供する。
【解決手段】対象音声解析手段１０が、対象音声信号を周波数解析し、周波数に基づく変数ｆ、フレームτとした対象音声強度スペクトルＳ（ｆ，τ）と、時間方向平均である対象音声平均値スペクトルＳａｖ（ｆ）を算出し、参照音声解析手段２０が、参照音声信号を周波数解析し、時間方向平均である参照音声平均値スペクトルＨａｖ（ｆ）を算出し、雑音成分スペクトル作成手段３０が、Ｓａｖ（ｆ）を利用して雑音成分スペクトルＮ（ｆ）を作成し、変調成分スペクトル作成手段４０が、Ｓａｖ（ｆ）からＮ（ｆ）を減算した値でＨａｖ（ｆ）を除して変調成分スペクトルＧ（ｆ）を作成し、音声信号補正手段５０が、Ｓ（ｆ，τ）に対してＮ（ｆ）を割合αだけ減算し、Ｇ（ｆ）を割合βで乗算して、補正音声信号を得る。
【選択図】図６

Description

本発明は、医療機関（調剤薬局などの受付カウンター）、金融機関・保険会社の相談カウンター、法律事務所などの面談室、携帯電話店のカウンター、会食に使われる飲食店などにおいて交わされる会話音声が待合室や他の面談室や座席に居る人々に聴取されないようにするための秘匿化技術に関し、特に、物理的な間仕切り（吸音材または遮音材で構成される板状のもの。「パーティション」とも呼ばれる。）と組み合わせ、間仕切りで仕切られた会議室等での会話音声の漏洩防止対策の評価のため、録音された会話音声を明瞭化する技術に関する。

医療機関（調剤薬局などの受付カウンター）、金融機関・保険会社の相談カウンター、法律事務所などの面談室、携帯電話店のカウンター、会食に使われる飲食店などにおいて交わされる対話音声は、第三者に聴取されることが好ましくない個人情報や企業の機密情報が含まれることが少なくない。しかしながら、従来は、簡易的な間仕切りのみによって済ませている施設が多い。これらの施設における会話が漏れないようにするために、音声信号に対するマスキング効果を高めつつ、再生される音楽の音色を原音と同等に維持し、音量を絞って再生しても所定のマスキング効果を働かせることができる秘匿化データ生成装置が開発されている（特許文献１参照）。

上記技術は物理的な間仕切りと組み合わせ、間仕切りで仕切られた会議室での会話音声の漏洩防止に主として有効であることが実証され、種々の拠点で実運用されている。一方、会話音を録音できるボイスレコーダは小型化され携帯電話・スマートフォンにも組み込まれ、更に録音された不明瞭な音声信号に対して内容を聴取できるようにする各種の音声強調・雑音除去ツールも出回っており、他者に気づかれずに簡便に高性能に盗聴する環境が整ってきた。そこで、漏洩対策を施した施設においてボイスレコーダで録音される音声に対して、秘匿化される度合いを定量的に評価することが求められるようになった。

録音音声に対して、内容を聴取できるように音声強調・雑音除去を行う手法として、録音音声に付加される雑音（マスキング音を含む）については、特許文献２でも活用されているスペクトラル・サブトラクション法（非特許文献１参照）が知られており、雑音成分を特定できれば低減可能である。雑音成分は音声と混合して録音されるため、音声が無音の区間における音成分は雑音であると判断し、これが定常雑音であれば、混合区間においても除去可能である。特許文献３では、２次ＩＩＲフィルタで車内雑音に埋もれた音声を明瞭化する方法を提案している。また、特許文献４では、子音を強調して明瞭度を改善する手法を提案している。

特開２０１２−２２６１１３号公報ＷＯ９９／５０８２５号公報特開２００７−２９５３４７号公報特許４８７６２４５号公報

S.F.Boll:"Suppression of Acoustic Noise in Speech Using Spectral Subtraction." IEEE Trans. ASSP., Vol.27, pp.113-120. 1979.

しかしながら、上記従来の技術では、間仕切りを介して減衰する音声を明瞭にするためには対応できず、グラフィックイコライザ等で周波数帯ごとに手動補正することが必要になっていた。

そこで、本発明は、間仕切り等を介して録音された録音音声に対して明瞭度を段階的に改善することが可能な録音音声の明瞭化装置を提供することを課題とする。

上記課題を解決するため、本発明第１の態様では、録音により得られ、補正対象とする対象音声信号に対して、別途録音により得られた参照音声信号を用いて、前記対象音声信号の明瞭度を向上させる装置であって、前記対象音声信号に対して時間軸方向の所定のフレーム単位で周波数解析を行い、周波数に基づく変数をｆ（ｆは、周波数に比例する変数、MIDIのノートナンバーのように物理的な周波数に対して対数をとった形態の変数等、周波数に基づいて決定される変数）、τ番目のフレームをτとした対象音声信号の強度スペクトルである対象音声強度スペクトルＳ（ｆ，τ）と、前記対象音声信号の前記変数ｆごとに複数のフレーム（例えば、全フレーム）の平均値で構成される対象音声平均値スペクトルＳａｖ（ｆ）を算出する対象音声解析手段と、前記参照音声信号に対して時間軸方向の所定のフレーム単位で周波数解析を行い、前記参照音声信号の前記変数ｆごとに複数のフレーム（例えば、全フレーム）の平均値で構成される参照音声平均値スペクトルＨａｖ（ｆ）を算出する参照音声解析手段と、前記対象音声平均値スペクトルＳａｖ（ｆ）を利用して、雑音成分スペクトルＮ（ｆ）を作成する雑音成分スペクトル作成手段と、前記変数ｆごとに、前記対象音声平均値スペクトルＳａｖ（ｆ）から前記雑音スペクトルＮ（ｆ）を減算した値によって、前記参照音声平均値スペクトルＨａｖ（ｆ）を除した値に基づいて、変調成分スペクトルＧ（ｆ）を作成する変調成分スペクトル作成手段と、前記各フレームτにおいて前記変数ｆごとに前記対象音声強度スペクトルＳ（ｆ，τ）に対して前記作成された雑音成分スペクトルＮ（ｆ）を所定の割合α（０≦α≦１）だけ減算し、更に減算された値に前記作成された変調成分スペクトルＧ（ｆ）を所定の割合β（０≦β≦１）で乗算し、前記フレームτごとに乗算された値に対して、時間次元変換することによって、前記対象音声信号が補正された補正音声信号を作成する音声信号補正手段と、を具備することを特徴とする録音音声の明瞭化装置を提供する。

本発明第１の態様によれば、対象音声信号に対して所定のフレーム単位で周波数解析を行い、対象音声信号の変数ｆごとに複数のフレーム（例えば、全フレーム）の平均値で構成される対象音声平均値スペクトルＳａｖ（ｆ）を算出する一方、参照音声信号に対して周波数解析を行い、参照音声信号の周波数ごとに複数のフレーム（例えば、全フレーム）の平均値で構成される参照音声平均値スペクトルＨａｖ（ｆ）を算出し、変数ｆごとに対象音声平均値スペクトルＳａｖ（ｆ）を利用して、雑音成分スペクトルＮ（ｆ）を作成し、対象音声平均値スペクトルＳａｖ（ｆ）から雑音スペクトルＮ（ｆ）を減算した値によって、参照音声平均値スペクトルＨａｖ（ｆ）を除した値に基づいて、変調成分スペクトルＧ（ｆ）を作成し、前記各フレームτにおいて前記変数ｆごとに対象音声強度スペクトルＳ（ｆ，τ）に対して雑音成分スペクトルＮ（ｆ）を割合α（０≦α≦１）だけ減算し、更に減算された値に変調成分スペクトルＧ（ｆ）を割合β（０≦β≦１）で乗算し、前記フレームτごとに乗算された値に対して、時間次元変換することによって、対象音声信号が補正された補正音声信号を作成するようにしたので、所定の割合α（０≦α≦１）および所定の割合β（０≦β≦１）を所定の間隔で段階的に変化させることにより間仕切り等を介して録音された録音音声に対して明瞭度を段階的に改善することが可能になる。なお、対象音声平均値スペクトルＳａｖ（ｆ）、参照音声平均値スペクトルＨａｖ（ｆ）の算出は、複数のフレームの平均としているが、実際には全フレームとすることが好ましい。ただし、演算の都合上、先頭のフレームや最後尾のフレーム、その他都合により一部のフレームを除いたフレームの平均としても良い。

本発明第２の態様では、前記対象音声解析手段は、前記対象音声平均値スペクトルＳａｖ（ｆ）に加えて、更に前記対象音声信号の前記変数ｆごとに強度が最小となるフレームで代表される最小値スペクトルＳｍｉｎ（ｆ）を算出するようにし、前記雑音成分スペクトル作成手段は、前記最小値スペクトルＳｍｉｎ（ｆ）に基づく値と前記対象音声平均値スペクトルＳａｖ（ｆ）に基づく値との対応する前記変数ｆごとに平均した値に基づいて、前記雑音成分スペクトルＮ（ｆ）を作成するようにしていることを特徴とする。

本発明第２の態様によれば、対象音声信号の変数ｆごとに強度が最小となるフレームで代表される最小値スペクトルＳｍｉｎ（ｆ）を算出するようにし、最小値スペクトルＳｍｉｎ（ｆ）に基づく値と対象音声平均値スペクトルＳａｖ（ｆ）に基づく値との対応する変数ｆごとに平均した値に基づいて、雑音成分スペクトルＮ（ｆ）を作成するようにしたので、対象音声信号の全フレームを解析して高速に補正音声信号を作成することができる。

本発明第３の態様では、前記対象音声解析手段は、前記対象音声信号の中で音声が存在する部分のみに対して周波数解析を行い、前記雑音成分スペクトル作成手段は、前記対象音声平均値スペクトルＳａｖ（ｆ）そのものを、雑音成分スペクトルＮ（ｆ）とするようにしていることを特徴とする。

本発明第３の態様によれば、対象音声信号の中で音声が存在する区間のみに対して周波数解析を行い、音声に被った定常的な雑音の区間の平均値に対応する対象音声平均値スペクトルＳａｖ（ｆ）を、雑音成分スペクトルＮ（ｆ）とするようにしたので、音声が存在しない雑音のみの非定常的な雑音が雑音成分スペクトルＮ（ｆ）より排除され、高精度な補正音声信号を作成できるとともに、実質的に会話が記録されている部分だけを解析して高速に補正音声信号を作成することができる。

本発明第４の態様では、前記音声信号補正手段は、前記各フレームτにおいて前記変数ｆごとに前記対象音声強度スペクトルＳ（ｆ，τ）に対して前記作成された雑音成分スペクトルＮ（ｆ）を所定の割合α（０≦α≦１）だけ減算する際、減算した値が負値になる場合、前記減算した値を０にするような補正を加えるようにしていることを特徴とする。

本発明第４の態様によれば、前記各フレームτにおいて前記変数ｆごとに対象音声強度スペクトルＳ（ｆ，τ）に対して雑音成分スペクトルＮ（ｆ）を所定の割合α（０≦α≦１）だけ減じる際、減算した値が負値になる場合、減算した値を０にするようにしたので、自然法則に反する自然界に存在し得ない補正音声信号を作成することを防止することが可能となる。

本発明第５の態様では、前記雑音成分スペクトル作成手段は、前記雑音成分スペクトルＮ（ｆ）を前記変数ｆ＝ｆ１を下限とし、前記変数ｆ＝ｆ２を上限とする所定の周波数範囲（例えば、ｆ１を２００Ｈｚに相当する値、ｆ２を６０００Ｈｚに相当する値とする）で定義するようにし、前記変調成分スペクトル作成手段は、前記変調成分スペクトルＧ（ｆ）を前記変数ｆ＝ｆ１を下限とし、前記変数ｆ＝ｆ２を上限とする所定の周波数範囲（例えば、ｆ１を２００Ｈｚに相当する値、ｆ２を６０００Ｈｚに相当する値とする）で定義するようにし、前記音声信号補正手段は、前記変数ｆ＝ｆ１を下限とし、前記変数ｆ＝ｆ２を上限とする所定の周波数範囲（例えば、ｆ１を２００Ｈｚに相当する値、ｆ２を６０００Ｈｚに相当する値とする）で、前記フレームτごとに前記対象音声強度スペクトルＳ（ｆ，τ）に対して前記作成された雑音成分スペクトルＮ（ｆ）を所定の割合αだけ減算し、更に減算された値に前記作成された変調成分スペクトルＧ（ｆ）を所定の割合βで乗算するようにしていることを特徴とする。

本発明第５の態様によれば、音声信号補正のためのスペクトルに対する処理を、所定の周波数範囲に対して行うようにしたので、音声帯域外の雑音が主たる部分を排除しながら高精度に音声信号の補正処理をすることが可能となる。

本発明によれば、間仕切り等を介して録音された録音音声に対して所定のパラメータを段階的に設定することにより明瞭度を段階的に改善することができ、逆に明瞭な状態に補正された際の設定されたパラメータの値に基づき録音音声の明瞭度を定量評価することが可能となる。

間仕切りを介して取得した音声を録音する場合の、音声の伝搬経路モデルを示す図である。間仕切りを介さずに取得した音声を録音する場合の、音声の伝搬経路モデルを示す図である。本発明による処理の概略を示す図である。雑音成分スペクトルＮ（ｆ）および変調成分スペクトルＧ（ｆ）の算出方法を示す図である。本発明の一実施形態に係る録音音声の明瞭化装置のハードウェア構成図である。本発明の一実施形態に係る録音音声の明瞭化装置の構成を示す機能ブロック図である。本発明の一実施形態に係る録音音声の明瞭化装置の処理概要を示すフローチャートである。対象音声信号ｓ（ｉ）の波形を示す図である。参照音声信号ｈ（ｉ）の波形を示す図である。対象音声平均値スペクトルＳａｖ（ｆ）、対象音声平均値スペクトルＨａｖ（ｆ）の波形を示す図である。変調スペクトルＧ（ｆ）の波形を示す図である。雑音成分スペクトルＮ（ｆ）の波形を示す図である。補正音声信号ｃ（ｉ）の波形を示す図である。対象音声平均値スペクトルＳａｖ（ｆ）、補正音声平均値スペクトルＣａｖ（ｆ）の波形を示す図である。

以下、本発明の好適な実施形態について図面を参照して詳細に説明する。
＜１．本発明で用いる音声の伝搬経路モデル＞
まず、本発明で用いる音声の伝搬経路モデルについて説明する。図１は、間仕切りを介して取得した音声を録音する場合の、音声の伝搬経路モデルを示す図である。図１に示すように、本発明では、ソース音声信号源（会話音）Ｃ（ｆ，τ）がＡ（ｆ）なる周波数特性をもつ材質で構成された間仕切りを介して伝搬された音に、環境雑音源（マスキング音を含む）Ｎ（ｆ）が付加されて、Ｓ（ｆ，τ）＝Ｃ（ｆ，τ）・Ａ（ｆ）＋Ｎ（ｆ）なる音が漏洩されるという伝搬経路モデルを用いる。ここで、パラメータｆは周波数に基づく変数、τは周波数解析における所定のサンプル数をもつフレームのフレーム番号を示し、変数の値Ａ（ｆ）はスカラー値で、変数の値Ｓ（ｆ，τ）, Ｃ（ｆ，τ）およびＮ（ｆ）は複素数になる。環境雑音源については、空調音のように定常的な雑音Ｎ（ｆ）に限定し、マスキング音のように間仕切りを介さず直接伝搬する音に限定する。本発明では、間仕切りを介して録音された音声を明瞭化の対象である対象音声信号として扱う。

図２は、間仕切りを介さずに取得した音声を録音する場合の、音声の伝搬経路モデルを示す図である。図２に示す伝搬経路モデルでは、ソース音声信号源（会話音）Ｃ（ｆ，τ）に、環境雑音源（マスキング音を含む）Ｎ（ｆ）が付加されて、Ｈ（ｆ，τ）＝Ｃ（ｆ，τ）＋Ｎ（ｆ）なる音が聴取される。ここで、変数の値Ｈ（ｆ，τ）, Ｃ（ｆ，τ）およびＮ（ｆ）は複素数になる。環境雑音源については、空調音のように定常的な雑音Ｎ（ｆ）に限定し、マスキング音のように間仕切りを介さず直接伝搬する音に限定する。本発明では、間仕切りを介さず録音された音声を、対象音声信号の明瞭化に際して参照する参照音声信号として扱う。

＜２．本発明による処理の概略＞
次に、本発明による処理の概略について説明する。図３は、本発明による処理の概略を示す図である。本発明では、間仕切りを介して取得された不明瞭な対象音声信号ｓ（ｉ）を明瞭化し、ソース音源信号源と推定される補正音声信号ｃ（ｉ）として得る。まず、録音音声である対象音声信号ｓ（ｉ）を周波数次元変換して対象音声強度スペクトルＳ（ｆ，τ）を得る。次に、雑音成分スペクトルＮ（ｆ）の複素スペクトル減算を行って、雑音除去スペクトルＳ（ｆ，τ）−α・Ｎ（ｆ）を得る。続いて、変調成分スペクトルＧ（ｆ）を乗算することによって、スペクトルの複素スペクトル変調を行って、補正音声スペクトルＣ（ｆ，τ）を得る。最後に、時間次元逆変換を行って補正音声信号ｃ（ｉ）を得る。パラメータα、βを段階的に変化させることにより、補正音声信号ｃ（ｉ）の補正の程度を変化させることができ、明瞭に聴取できるレベルに補正された際に設定されたパラメータα、βの値により、録音音声の明瞭度を定量的に評価することができる。

図３における雑音成分スペクトルＮ（ｆ）および変調成分スペクトルＧ（ｆ）の算出方法を図４に示す。周波数次元変換後の対象音声強度スペクトルＳ（ｆ，τ）に対して全フレームに渡る平均値スペクトルおよび最小値スペクトルを求め、各々Ｓａｖ(f)，Ｓｍｉｎ（ｆ）とし、周波数次元変換後の参照音声強度スペクトルＨ（ｆ，τ）に対して全フレームに渡る平均値スペクトルを求め、Ｈａｖ(f)とすると、図示の通り、雑音成分スペクトルＮ（ｆ）はＳａｖ(f)とＳｍｉｎ（ｆ）との平均値で、変調成分スペクトルＧ（ｆ）はＨａｖ（ｆ）をＳａｖ（ｆ）からＮ（ｆ）を減算した値で除算することにより算出される。

＜３．１．装置構成＞
以下、本発明に係る録音音声の明瞭化装置について、具体的に説明していく。図５は、本発明の一実施形態に係る録音音声の明瞭化装置のハードウェア構成図である。録音音声の明瞭化装置は、汎用のコンピュータで実現することができ、図５に示すように、ＣＰＵ（Central Processing Unit）１と、コンピュータのメインメモリであるＲＡＭ（Random Access Memory）２と、ＣＰＵ１が実行するプログラムやデータを記憶するための大容量の記憶装置（例えば、ハードディスク、フラッシュメモリ等）３と、キーボード、マウス等のキー入力Ｉ／Ｆ（インターフェース）４と、外部装置（データ記憶媒体等）とボイスレコーダに装着されているＳＤメモリカード、メモリスティックやＣＤなどのリムーバブル記憶媒体を装着して録音音声を記憶装置３に転送するための可搬型記憶装置５と、表示装置（ディスプレイ）に情報を送出するための表示出力Ｉ／Ｆ（インターフェース）６と、録音音声を記憶装置３に転送するためＵＳＢメモリ機能付きのボイスレコーダを直接装着したり、ＵＳＢケーブルを介してボイスレコーダを接続するためのＵＳＢ−Ｉ／Ｆ７を備え、互いにバスを介して接続されている。また、前述のＵＳＢ−Ｉ／Ｆ７にはＵＳＢケーブルを介して汎用コンピュータの外部に配置された音声入出力Ｉ／Ｆ８も接続され、音声を入力するマイクロフォン９ａと音声を出力するスピーカ９ｂが前述の音声入出力Ｉ／Ｆ８にアナログのオーディオ信号ケーブルまたは光デジタル音声ケーブルを介して接続されている。図では、音声入出力Ｉ／Ｆ８は汎用コンピュータの外部に配置された事例を示しているが、音声入出力Ｉ／Ｆ８をＵＳＢ−Ｉ／Ｆ７を経由せず汎用コンピュータ内部のバスに直結させ、汎用コンピュータ内部に配置させる方法も一般的に用いられる。ただし、本実施形態のように音声計測用途で精度が要求される場合には、音声入出力Ｉ／Ｆ８が記憶装置３のハードディスクなど機械的な振動音を発する雑音の影響を受けることを防止するため、汎用コンピュータの外部に配置される方が望ましい。

図６は、本実施形態に係る録音音声の明瞭化装置の構成を示す機能ブロック図である。図６において、１０は対象音声解析手段、２０は雑音成分スペクトル作成手段、３０は参照音声解析手段、４０は変調成分スペクトル作成手段、５０は音声信号補正手段、５５はパラメータ設定手段、６０は記憶手段、６１は対象音声信号記憶部、６２は参照音声信号記憶部、６３は補正音声信号記憶部である。対象音声信号記憶部６１および参照音声信号記憶部６２には、ボイスレコーダに録音された対象音声信号および参照音声信号が図５の可搬型記憶装置５またはＵＳＢ−Ｉ／Ｆ７を経由して取り込まれている。なお、図６に示す装置は、基本的には、モノラル音声信号に対応している。対象をステレオ音声信号とする場合は、複数のチャンネルの合算値を使用して、モノラル音声信号として処理する。

対象音声解析手段１０は、明瞭化の対象とする対象音声信号を読み込み、フーリエ変換等の周波数解析を行って、時間次元から周波数次元に変換して複素数のスペクトルを生成する機能を有している。雑音成分スペクトル作成手段２０は、対象音声解析手段１０により生成されたスペクトルから雑音成分スペクトルＮ（ｆ）を作成する機能を有している。参照音声解析手段３０は、参照する参照音声信号を読み込み、フーリエ変換等の周波数解析を行って、時間次元から周波数次元に変換して複素数のスペクトルを生成する機能を有している。ここで、参照音声信号とは、対象音声信号とほぼ同一条件・時期に録音された音声信号で、補正を加えなくても明瞭に聴取できる補正の目標（手本）とする音声信号を指す。参照音声信号の話者、会話内容や録音長については対象音声信号のものとは全く異なった任意のもので構わないが、できるだけ、同一機種のボイスレコーダで、同一時期に、図２のように同一場所でパーティションが外された環境で録音された音声信号が望ましい。ただし、このような条件で参照音声信号を準備することが困難であれば、録音場所に近い環境で（音楽収録スタジオのような環境は非現実的で不適当）、スペックが近いボイスレコーダで適当な話者の明瞭な会話音を録音して準備しても良い。変調成分スペクトル作成手段４０は、対象音声解析手段１０により生成されたスペクトル、参照音声解析手段３０により生成されたスペクトル、雑音スペクトルＮ（ｆ）に基づいて、変調成分スペクトルＧ（ｆ）を作成する。音声信号補正手段５０は、雑音成分スペクトルＮ（ｆ）をパラメータとして設定された所定の割合α（０≦α≦１）だけ減じ、更に減算した値に作成された変調成分スペクトルＧ（ｆ）をパラメータとして設定された所定の割合β（０≦α≦１）を乗じ、乗算された値に対して、フーリエ逆変換等の周波数解析を行って、周波数次元から時間次元に逆変換することによって、対象音声信号に対して明瞭化する補正を行った補正音声信号を作成する。パラメータ設定手段５５は、雑音成分スペクトル作成手段２０、変調成分スペクトル作成手段４０で用いるパラメータα、βの設定を行うものであり、マウスやキーボード等の入力機器とキー入力Ｉ／Ｆ４により実現される。

記憶手段６０は、明瞭化の対象とする対象音声信号を記憶した対象音声信号記憶部６１と、参照する参照音声信号を記憶した参照音声信号記憶部６２と、補正された補正音声信号を記憶する補正音声信号記憶部６３を有しており、その他処理に必要なデータやプログラムを記憶するものである。対象音声信号は、図１に示した間仕切りを介した伝搬経路モデルにより録音して得られた音声信号である。また、参照音声信号は、図２に示した間仕切りを介さない伝搬経路モデルにより録音して得られた音声信号である。対象音声信号と参照音声信号は、間仕切りの有無以外は全く同一条件で録音されたものである。

図６に示した各構成手段は、現実には図５に示したように、コンピュータおよびその周辺機器等のハードウェアに専用のプログラムを搭載することにより実現される。すなわち、コンピュータが、専用のプログラムに従って各手段の内容を実行することになる。

図５の記憶装置３には、ＣＰＵ１を動作させ、コンピュータを、録音音声の明瞭化装置として機能させるための専用のプログラムが実装されている。この専用のプログラムを実行することにより、ＣＰＵ１は、対象音声解析手段１０、雑音成分スペクトル作成手段２０、参照音声解析手段３０、変調成分スペクトル作成手段４０、音声信号補正手段５０としての機能を実現することになる。また、記憶装置３は、対象音声信号記憶部６１、参照音声信号記憶部６２、補正音声信号記憶部６３を備えた記憶手段６０として機能する。

＜３．２．処理動作＞
次に、図５、図６に示した録音音声の明瞭化装置の処理動作について、図７のフローチャートを用いて説明する。まず、対象音声解析手段１０が、対象音声信号記憶部６１から対象音声信号を読み込み、読み込んだ対象音声信号に対して周波数解析を行って周波数次元への変換を行う（ステップＳ１）。具体的には、対象音声解析手段１０は、まず、対象音声信号記憶部６１に記憶された対象音声信号Ｓ（ｉ）（ｉは全てのサンプルに対して付された通し番号：ｉ＝０，１，２，・・・）から、所定数Ｎのサンプルを１フレームとして読み込む。録音音声の明瞭化装置が処理する１フレームのサンプル数Ｎは、適宜設定することができる。本実施形態では、サンプリング周波数Ｆｓ＝４４１００Ｈｚの場合、Ｎ＝４０９６に設定している。したがって、４０９６サンプルずつ、順次１フレームとして読み込んでいくことになる。

各サンプルを読み込んだ際、全てのサンプルをフレームとしても良いが、本実施形態では、音声が存在すると判断される区間に存在するサンプルのみをフレーム内に設定するようにしている。音声が存在すると判断される区間とは、音声が存在しないと判断される非音声区間を除いた区間である。音声が存在しないと判断される非音声区間とは、信号値が所定のレベルに達していないサンプルが所定数（所定時間）連続する無音に近い区間であるか、信号値は所定のレベルに達しているがオペレータが試聴により雑音成分しか聴取できない区間を指す。したがって、対象音声解析手段１０は、信号値が所定のレベルに達していないサンプルを所定数連続して読み込んだ場合は、それらのサンプルをフレームに含める対象から除外する。ここで、所定のレベルとしては、無音と判断されるレベルを考慮して適宜設定することが可能である。サンプルが連続する所定数としては、無音と判断される区間の長さを考慮して適宜設定することが可能である。無音区間を除去した上で、オペレータは信号全体を試聴し、ヒトの会話音声の母音や子音成分が全く聴取できない雑音のみの区間を手動で除去してゆく。その結果、音声が存在する区間のみがフレームとして設定される。

本実施形態では、奇数番目のフレーム、偶数番目のフレームは、互いに所定数（本実施形態ではＮ／２＝２０４８）のサンプルを重複して設定される。したがって、奇数番目のフレームを先頭からＡ１、Ａ２、Ａ３…とし、偶数番目のフレームを先頭からＢ１、Ｂ２、Ｂ３…とすると、Ａ１はサンプル１〜４０９６、Ａ２はサンプル４０９７〜８１９２、Ａ３はサンプル８１９３〜１２２８８、Ｂ１はサンプル２０４９〜６１４４、Ｂ２はサンプル６１４５〜１０２４０、Ｂ３はサンプル１０２４１〜１４３３６となる。したがって、偶数番目のフレームから処理を行うようにしても良いが、以下では、奇数番目のフレームから処理を行う場合を例にとって説明する。奇数番目のフレームと偶数番目のフレームで重複して読み込むサンプルの数は適宜設定することができ、重複するサンプル数を０とすることも可能である。

Ｎ個のサンプルで構成される各フレーム内のサンプル番号をｔ、フレーム番号をτとすると、読み込まれた対象音声信号Ｓ（ｉ）は、Ｔｓ個の対象音声フレームｓ（ｔ，τ）（ｔ＝０，…，Ｎ−１、τ＝０，…，Ｔｓ−１）の集合に変換される。

続いて、対象音声解析手段１０は、各フレームに対して周波数解析を行って、各フレームの複素数のスペクトルを得る。周波数解析としては、時間次元から周波数次元への変換を行う。周波数解析は、窓関数を利用して行う。周波数解析としては、フーリエ変換、ウェーブレット変換その他公知の種々の手法を用いることができるが、複素数のスペクトルを得られる手法である必要がある。本実施形態では、フーリエ変換を用いた場合を例にとって説明する。

一般に、所定の信号に対してフーリエ変換を行う場合、信号を所定の長さに区切って行う必要があるが、この場合、所定長さの信号に対してそのままフーリエ変換を行うと、擬似高調波成分が発生する。そこで、一般にフーリエ変換を行う場合には、ハニング窓と呼ばれる窓関数を用いて、信号の値を変化させた後、変化後の値に対してフーリエ変換を実行する。

本実施形態においても、ハニング窓関数Ｗ（ｔ）を利用している。ハニング窓関数Ｗ（ｔ）は、中央の所定のサンプル番号Ｎ／２の位置において最大値１をとり、両端付近のサンプル番号０またはＮ−１の位置において最小値０をとるように設定されている。どのサンプル番号の場合に最大値をとるかについては、ハニング窓関数Ｗ（ｔ）の設計によって異なってくるが、本実施形態では、後述する〔数式１〕で定義される。フレームについてのフーリエ変換は、このハニング窓関数Ｗ（ｔ）を乗じたものに対して行われることになる。

なお、上述のように、本実施形態においては、フレームは重複して読み込まれる。すなわち、奇数番目のフレームと偶数番目のフレームは、所定数のサンプルを重複して読み込む。本実施形態では、ハニング窓関数Ｗ（ｔ）は、以下の〔数式１〕で定義される。

〔数式１〕
０≦ｔ≦Ｎ−１のとき、Ｗ（ｔ）＝０．５−０．５ｃｏｓ（２πｔ／Ｎ）

本実施形態においては、奇数番目の音響フレームと偶数番目の音響フレームを、所定サンプルずつ重複して読み込むため、補正を行った後、時系列の音声信号の形態に復元する際に、窓関数を乗じた奇数番目のフレームと、窓関数を乗じた偶数番目の音響フレームの重複サンプルを加算した場合に、ほぼ元の値に戻るようにしなければならない。このため、奇数番目のフレームと偶数番目のフレームの重複部分において、両者の窓関数Ｗ（ｔ）を加算すると、全サンプルが固定値１になるように定義されている。

対象音声解析手段１０が、奇数番目および偶数番目のフレームに対してフーリエ変換を行う場合は、対象音声フレームｓ（ｔ，τ）（ｔ＝０，…，Ｎ−１、τ＝０，…，Ｔｓ−１）に対して、窓関数Ｗ（ｔ）を用いて、以下の〔数式２〕に従った処理を行い、変換データの実部Ｓｒ（ｆ，τ）、虚部Ｓｉ（ｆ，τ）を得る。

〔数式２〕
Ｓｒ（ｆ，τ）＝Σ_t=0,…,N-1Ｗ（ｔ）・ｓ（ｔ，τ）・ｃｏｓ（２πｆｔ／Ｎ）
Ｓｉ（ｆ，τ）＝Σ_t=0,…,N-1Ｗ（ｔ）・ｓ（ｔ，τ）・ｓｉｎ（２πｆｔ／Ｎ）

上記〔数式２〕において、ｔは、全Ｔｓ個のフレームのうちτ番目のフレームτ内のＮ個のサンプルに付した通し番号であり、ｔ＝０，１，２，…，Ｎ−１の整数値をとる。τはτ＝０，１，２，…，Ｔｓ−１の整数値である。また、ｆは周波数にＮ／Ｆｓを乗じた値になり、値の小さなものから順に付した通し番号であり、ｆ＝０，１，２，…，Ｎ／２（ただし、Ｓｉ（ｆ，τ）は、ｆ＝０，…，Ｎ／２−１の範囲しか値をもたない）の整数値をとる。サンプリング周波数Ｆｓ＝４４１００Ｈｚ、Ｎ＝４０９６の場合、ｆの値が１つ異なると、周波数が約１０．８Ｈｚ異なることになる。変数ｆは周波数に基づく値であるが、本実施形態では、周波数に比例した値としている。

上記〔数式２〕に従った処理を実行することにより、各フレームの各窓関数に対応する複素数のスペクトルが得られる。続いて、対象音声解析手段１０は、得られたスペクトルＳｒ（ｆ，τ）、Ｓｉ（ｆ，τ）を用いて、以下の〔数式３〕に従った処理を実行し、対象音声強度スペクトルＳ（ｆ，τ）を算出する。

〔数式３〕
Ｓ（ｆ，τ）＝｛Ｓｒ（ｆ，τ）²＋Ｓｉ（ｆ，τ）²｝^1/2

さらに、対象音声解析手段１０は、算出された対象音声強度スペクトルＳ（ｆ，τ）を用いて、以下の〔数式４〕に従った処理を実行し、対象音声強度スペクトルＳ（ｆ，τ）のτ＝０，１，２，…，Ｔｓ−１における最小値のスペクトルである対象音声最小値スペクトルＳｍｉｎ（ｆ）、および平均値のスペクトルである対象音声平均値スペクトルＳａｖ（ｆ）を算出する。

〔数式４〕
Ｓｍｉｎ（ｆ）＝ＭＩＮτ_=0,…,Ts-1Ｓ（ｆ，τ）
Ｓａｖ（ｆ）＝Στ_=0,…,Ts-1Ｓ（ｆ，τ）／Ｔｓ

上記〔数式４〕において、ＭＩＮτ_=0,…,Ts-1Ｓ（ｆ，τ）は、τを０からＴｓ−１まで変化させた場合に、最小となるＳ（ｆ，τ）を意味する。また、上記〔数式４〕において、Στ_=0,…,Ts-1Ｓ（ｆ，τ）は、τを０からＴｓ−１まで変化させた場合のＳ（ｆ，τ）の総和であり、Ｓａｖ（ｆ）は、０からＴｓ−１までの全てのτについてのＳ（ｆ，τ）の平均値を意味する。

次に、参照音声解析手段３０が、参照音声信号記憶部６２から参照音声信号を読み込み、読み込んだ参照音声信号に対して周波数解析を行って周波数次元への変換を行う（ステップＳ２）。具体的には、参照音声解析手段３０は、まず、参照音声信号記憶部６２に記憶された参照音声信号から、所定数Ｎのサンプルを１フレームとして読み込む。録音音声の明瞭化装置が処理する１フレームのサンプル数Ｎは、適宜設定することができる。本実施形態では、サンプリング周波数Ｆｓ＝４４１００Ｈｚの場合、Ｎ＝４０９６に設定している。したがって、４０９６サンプルずつ、順次１フレームとして読み込んでいくことになる。参照音声解析手段３０は、基本的には、対象音声解析手段１０が対象音声信号を読み込んでサンプルを設定する場合と同様に処理を行う。

参照音声信号は、無音区間や非音声区間が存在しないように録音信号に対してあらかじめ編集された音声信号であるので、参照音声解析手段３０は、対象音声解析手段１０が行ったような無音区間の判断は行わず、参照音声信号の全てのサンプルをフレームの構成要素として読み込む。また、参照音声解析手段３０においても、対象音声解析手段１０と同様、奇数番目のフレーム、偶数番目のフレームは、互いに所定数（本実施形態ではＮ＝２０４８）のサンプルを重複して設定される。

続いて、参照音声解析手段３０は、対象音声解析手段１０と同様、各フレームに対して周波数解析を行って、各フレームの複素数のスペクトルを得る。周波数解析としては、時間次元から周波数次元への変換を行う。ここでも、参照音声解析手段３０は、対象音声解析手段１０と同様、上記〔数式１〕に示したハニング窓関数Ｗ（ｔ）を利用して周波数解析を行う。周波数解析としては、フーリエ変換、ウェーブレット変換その他公知の種々の手法を用いることができるが、複素数のスペクトルを得られる手法である必要がある。本実施形態では、フーリエ変換を用いた場合を例にとって説明する。

参照音声解析手段３０が、奇数番目および偶数番目のフレームに対してフーリエ変換を行う場合は、参照音声信号ｈ（ｔ，τ）（ｔ＝０，…，Ｎ−１、τ＝０，…，Ｔｈ−１）に対して、窓関数Ｗ（ｔ）を用いて、以下の〔数式５〕に従った処理を行い、変換データの実部Ｈｒ（ｆ，τ）、虚部Ｈｉ（ｆ，τ）を得る。

〔数式５〕
Ｈｒ（ｆ，τ）＝Σ_t=0,…,N-1Ｗ（ｔ）・ｈ（ｔ，τ）・ｃｏｓ（２πｆｔ／Ｎ）
Ｈｉ（ｆ，τ）＝Σ_t=0,…,N-1Ｗ（ｔ）・ｈ（ｔ，τ）・ｓｉｎ（２πｆｔ／Ｎ）

上記〔数式５〕において、ｔは、全Ｔｈ個のフレームのうちτ番目のフレームτ内のＮ個のサンプルに付した通し番号であり、ｔ＝０，１，２，…，Ｎ−１の整数値をとる。τはτ＝０，１，２，…，Ｔｈ−１の整数値である。また、ｆは周波数に比例し、値の小さなものから順に付した通し番号であり、ｆ＝０，１，２，…，Ｎ／２（ただし、Ｈｉ（ｆ，τ）は、ｆ＝０，…，Ｎ／２−１の範囲しか値をもたない）の整数値をとる。

上記〔数式５〕に従った処理を実行することにより、各フレームの各窓関数に対応する複素数のスペクトルが得られる。続いて、参照音声解析手段３０は、得られたスペクトルＨｒ（ｆ，τ）、Ｈｉ（ｆ，τ）を用いて、以下の〔数式６〕に従った処理を実行し、参照音声強度スペクトルＨ（ｆ，τ）を算出する。

〔数式６〕
Ｈ（ｆ，τ）＝｛Ｈｒ（ｆ，τ）²＋Ｈｉ（ｆ，τ）²｝^1/2

さらに、参照音声解析手段３０は、算出された参照音声強度スペクトルＨ（ｆ，τ）を用いて、以下の〔数式７〕に従った処理を実行し、参照音声強度スペクトルＨ（ｆ，τ）のτ＝０，１，２，…，Ｔｈ−１における平均値である参照音声平均値スペクトルＨａｖ（ｆ）を算出する。

〔数式７〕
Ｈａｖ（ｆ）＝Στ_=0,…,Th-1Ｈ（ｆ，τ）／Ｔｈ

上記〔数式７〕において、Στ_=0,…,Th-1Ｈ（ｆ，τ）は、τを０からＴｈ−１まで変化させた場合のＨ（ｆ，τ）の総和であり、Ｈａｖ（ｆ）は、０からＴｈ−１までの全てのτについてのＨ（ｆ，τ）の平均値を意味する。

次に、雑音成分スペクトル作成手段２０が、雑音成分スペクトルの作成を行う（ステップＳ３）。雑音成分スペクトルは、ステップＳ１において対象音声信号から無音区間を除外したかどうかにより作成の手法が異なる。対象音声信号から無音区間を除外した場合、雑音成分スペクトル作成手段２０は、ｆ１以上ｆ２以下（０≦ｆ１＜ｆ２≦Ｎ／２−１）の各ｆに対して、以下の〔数式８〕に従った処理を実行し、雑音成分スペクトルＮ（ｆ）を算出する。

〔数式８〕
Ｎ（ｆ）＝Ｓａｖ（ｆ）

上記〔数式８〕において、Ｓａｖ（ｆ）は、ステップＳ１において対象音声解析手段１０により算出された対象音声平均値スペクトルである。ステップＳ１において対象音声信号から無音区間を除外した場合、〔数式８〕に示したように、雑音成分スペクトルＮ（ｆ）は、対象音声平均値スペクトルＳａｖ（ｆ）そのものとして得られることになる。一方、ステップＳ１において対象音声信号から無音区間を除外していない場合、雑音成分スペクトル作成手段２０は、ｆ１以上ｆ２以下（０≦ｆ１＜ｆ２≦Ｎ／２−１）の各ｆに対して、以下の〔数式９〕に従った処理を実行し、雑音成分スペクトルＮ（ｆ）を算出する。

〔数式９〕
Ｎ（ｆ）＝｛Ｓｍｉｎ（ｆ）＋Ｓａｖ（ｆ）｝／２

上記〔数式９〕において、Ｓｍｉｎ（ｆ）は、ステップＳ１において対象音声解析手段１０により算出された対象音声最小値スペクトルである。ステップＳ１において対象音声信号から無音区間を除外していない場合、〔数式９〕に示したように、雑音成分スペクトルＮ（ｆ）は、対象音声最小値スペクトルＳｍｉｎ（ｆ）と対象音声平均値スペクトルＳａｖ（ｆ）の平均値として得られることになる。

雑音成分スペクトル作成手段２０が、雑音成分スペクトルＮ（ｆ）の算出対象範囲とするｆ１〜ｆ２は、音声帯域が集中する範囲とすることが好ましい。したがって、本実施形態では、Ｎ（ｆ）の算出対象範囲が、音声帯域が集中する２００Ｈｚ〜６０００Ｈｚとなるように、ｆ１＝２００Ｎ／Ｆｓ、ｆ２＝６０００Ｎ／Ｆｓと設定している。Ｎ（ｆ）の算出対象範囲を音声帯域が集中する範囲とすることにより、音声帯域以外の低音雑音および高音雑音が除外される。

次に、変調成分スペクトル作成手段４０が、変調成分スペクトルの作成を行う（ステップＳ４）。具体的には、変調成分スペクトル作成手段４０は、ｆ１以上ｆ２以下（０≦ｆ１＜ｆ２≦Ｎ／２−１）の各ｆに対して、以下の〔数式１０〕に従った処理を実行し、変調成分スペクトルＧ（ｆ）を算出する。

〔数式１０〕
Ｇ（ｆ）＝Ｈａｖ（ｆ）／｛Ｓａｖ（ｆ）−Ｎ（ｆ）｝

上記〔数式１０〕において、Ｈａｖ（ｆ）は、ステップＳ２において参照音声解析手段３０により算出された参照音声平均値スペクトルである。〔数式１０〕に示したように、変調成分スペクトルＧ（ｆ）は、ステップＳ１において対象音声解析手段１０により算出された対象音声平均値スペクトルＳａｖ（ｆ）から雑音成分スペクトルＮ（ｆ）を減じた値で、ステップＳ２において参照音声解析手段３０により算出された参照音声平均値スペクトルＨａｖ（ｆ）を除算することにより得られることになる。

次に、音声信号補正手段５０が、雑音成分の除去を行う（ステップＳ５）。具体的には、まず、ｆ１以上ｆ２以下（０≦ｆ１＜ｆ２≦Ｎ／２−１）の各ｆに対して、以下の〔数式１１〕に従った処理を実行し、雑音除去スペクトルＳ´（ｆ，τ）を算出する。

〔数式１１〕
Ｓ´（ｆ，τ）＝Ｓ（ｆ，τ）−α・Ｎ（ｆ）
ただし、Ｓ´（ｆ，τ）＜０となった場合、Ｓ´（ｆ，τ）＝０とする。

上記〔数式１１〕において、Ｓ（ｆ，τ）は、ステップＳ１において対象音声解析手段１０により算出された対象音声強度スペクトルである。また、αは、パラメータ設定手段５５により設定された、０≦α≦１の実数値である補正係数である。〔数式１１〕に示したように、対象音声強度スペクトルＳ´（ｆ，τ）は、ステップＳ３において雑音成分スペクトル作成手段２０により作成された雑音成分スペクトルＮ（ｆ）に補正係数αを乗じたものを、ステップＳ１において対象音声解析手段１０により算出された対象音声強度スペクトルＳ（ｆ，τ）から減じることにより得られることになる。

続いて、音声信号補正手段５０は、変調処理を行う（ステップＳ６）。具体的には、ｆ１以上ｆ２以下（０≦ｆ１＜ｆ２≦Ｎ／２−１）の各ｆに対して、以下の〔数式１２〕に従った処理を実行し、補正音声強度スペクトルＣ（ｆ，τ）を算出する。

〔数式１２〕
Ｃ（ｆ，τ）＝Ｓ´（ｆ，τ）・Ｇ（ｆ）・β

上記〔数式１２〕において、Ｓ´（ｆ，τ）は、〔数式１１〕に従って音声信号補正手段５０により算出された雑音除去スペクトルである。また、Ｇ（ｆ）は、ステップＳ４において変調成分スペクトル作成手段４０により算出された変調成分スペクトルである。また、βは、パラメータ設定手段５５により設定された、０≦β≦１の実数値である補正係数である。〔数式１２〕に示したように、補正音声強度スペクトルＣ（ｆ，τ）は、音声信号補正手段５０により算出されたスペクトル雑音除去Ｓ´（ｆ，τ）と、変調成分スペクトルＧ（ｆ）と、補正係数βを乗じることにより得られることになる。

さらに、後段で時間次元に逆変換する都合上、〔数式１２〕で算出されたスカラー値の補正音声強度スペクトルＣ（ｆ，τ）の位相は、対象音声信号Ｓ（ｆ，τ）の位相と同一であるという前提で、音声信号補正手段５０は、ｆ１以上ｆ２以下（０≦ｆ１＜ｆ２≦Ｎ／２−１）の各ｆに対して、以下の〔数式１３〕に従った処理を実行し、〔数式１２〕で算出されたスカラー値の補正音声強度スペクトルＣ（ｆ，τ）を複素数値の補正複素スペクトルＣｒ（ｆ，τ）、Ｃｉ（ｆ，τ）に変換する。

〔数式１３〕
Ｃｒ（ｆ，τ）＝Ｓｒ（ｆ，τ）・Ｃ（ｆ，τ）／Ｓ（ｆ，τ）
Ｃｉ（ｆ，τ）＝Ｓｉ（ｆ，τ）・Ｃ（ｆ，τ）／Ｓ（ｆ，τ）

〔数式１３〕に示したように、補正複素スペクトルＣｒ（ｆ，τ）、Ｃｉ（ｆ，τ）は、強度値の比率Ｃ（ｆ，τ）／Ｓ（ｆ，τ）（補正音声強度スペクトルＣ（ｆ，τ）を対象音声強度スペクトルＳ（ｆ，τ）で除したもの）を、ステップＳ１において対象音声解析手段１０により算出された実部Ｓｒ（ｆ，τ）、虚部Ｓｉ（ｆ，τ）に、それぞれ乗じることにより得られることになる。

補正複素スペクトルＣｒ（ｆ，τ）、Ｃｉ（ｆ，τ）が得られたら、音声信号補正手段５０は、元と同じ時系列形式とするために時間次元逆変換して、補正音声信号を作成する処理を行う（ステップＳ７）。この時間次元逆変換は、当然のことながら、対象音声解析手段１０が実行した手法に対応していることが必要となる。本実施形態では、対象音声解析手段１０において、フーリエ変換を施しているため、音声信号補正手段５０は、フーリエ逆変換を実行することになる。

具体的には、各フレーム単位で、音声信号補正手段５０は、補正複素スペクトルの実部Ｃｒ（ｆ，τ）、虚部Ｃｉ（ｆ，τ）を用いて、以下の〔数式１４〕に従った処理を行い、補正音声信号ｃ（ｔ，τ）を算出する。

〔数式１４〕
ｃ（ｔ，τ）＝１／Ｎ・｛Σ_fＣｒ（ｆ，τ）・ｃｏｓ（２πｆｔ／Ｎ）−Σ_fＣｉ（ｆ，τ）・ｓｉｎ（２πｆｔ／Ｎ）｝＋ｃ（ｔ＋Ｎ／２，τ−１）

上記〔数式１４〕においては、式が繁雑になるのを防ぐため、Σ_f=0,…,N/2をΣ_fとして示している。上記〔数式１４〕における“＋ｃ（ｔ＋Ｎ／２，τ−１）”の項は、直前フレームのデータｃ（ｔ，τ−１）が存在する場合に、時間軸上Ｎ／２サンプル分重複することを考慮して加算するためのものである。上記〔数式１４〕により補正音声信号ｃ（ｔ，τ）が得られることになる。ｃ（ｔ，τ）はフレーム単位の表現であるので、サンプル番号をフレーム内のｔから、全体を通したｉ（ｉ＝τ×Ｎ／２＋ｔ）に変更することにより、補正音声信号ｃ（ｉ）と表現することができる。音声信号補正手段５０は、得られた補正音声信号を補正音声信号記憶部６３に格納する。

補正音声信号を再生機器により再生し、人間が耳で聴取することにより、明瞭度を確認することができる。補正音声信号ｃ（ｉ）と元の対象音声信号ｓ（ｉ）を聴き比べることにより、補正音声信号ｃ（ｉ）が対象音声信号ｓ（ｉ）に比べて明瞭になっていることがわかる。補正音声信号ｃ（ｉ）を作成する際、パラメータ設定手段５５により係数α、βを段階的に変化させて設定することにより、補正音声信号ｃ（ｉ）が、係数α、βに応じて段階的に明瞭化されることが確認できる。

＜４．実験例＞
上記実施形態に係る録音音声の明瞭化装置により処理される音声信号、スペクトル等の波形を図８〜図１４に示す。図８は、対象音声信号ｓ（ｉ）の波形を示しており、横軸が時間、縦軸が振幅である。図９は、参照音声信号ｈ（ｉ）の波形を示しており、横軸が時間、縦軸が振幅である。図１０は、対象音声平均値スペクトルＳａｖ（ｆ）、参照音声平均値スペクトルＨａｖ（ｆ）を示しており、横軸が周波数、縦軸がエネルギーである。図１１は、変調スペクトルＧ（ｆ）を示しており、横軸が周波数、縦軸が変調強度である。図１２は、雑音成分スペクトルＮ（ｆ）を示しており、横軸が周波数、縦軸がエネルギーである。図１３は、補正音声信号ｃ（ｉ）の波形を示しており、横軸が時間、縦軸が振幅である。図１４は、対象音声平均値スペクトルＳａｖ（ｆ）、補正音声平均値スペクトルＣａｖ（ｆ）を示しており、横軸が周波数、縦軸がエネルギーである。なお、上記実施形態では、補正音声平均値スペクトルＣａｖ（ｆ）は明示的には算出していないが（複素数値で算出しているため図示できない）、図１４では、対象音声平均値スペクトルＳａｖ（ｆ）との比較のために意図的に算出したものである。

以上、本発明の好適な実施形態について限定したが、本発明は上記実施形態に限定されず、種々の変形が可能である。例えば、上記実施形態では、実質的に補正を行う周波数範囲を２００Ｈｚ〜６０００Ｈｚとしたが、ボイスレコーダの周波数特性に応じて適宜周波数範囲を縮小または拡大することが可能である。例えば、電話回線帯域に抑えられているボイスレコーダを使用する場合、周波数範囲は３００Ｈｚ〜３４００Ｈｚに限定される。

また、上記実施形態では、変数ｆを周波数に比例した値としているが、ＭＩＤＩのノートナンバーのように物理的な周波数に対して対数をとった形態としても良い。また、比例や対数以外でも、周波数の変化と密接に関連して変化する変数であれば、他のものを用いても良い。

１・・・ＣＰＵ（Central Processing Unit）
２・・・ＲＡＭ（Random Access Memory）
３・・・記憶装置
４・・・キー入力Ｉ／Ｆ
５・・・可搬型記憶装置
６・・・表示出力Ｉ／Ｆ
７・・・ＵＳＢ−Ｉ／Ｆ
８・・・音声入出力Ｉ／Ｆ
９ａ・・・マイクロフォン
９ｂ・・・スピーカ
１０・・・対象音声解析手段
２０・・・雑音成分スペクトル作成手段
３０・・・参照音声解析手段
４０・・・変調成分スペクトル作成手段
５０・・・音声信号補正手段
５５・・・パラメータ設定手段
６０・・・記憶手段
６１・・・対象音声信号記憶部
６２・・・参照音声信号記憶部
６３・・・補正音声信号記憶部

Claims

録音により得られ、補正対象とする対象音声信号に対して、別途録音により得られた参照音声信号を用いて、前記対象音声信号の明瞭度を向上させる装置であって、
前記対象音声信号に対して時間軸方向の所定のフレーム単位で周波数解析を行い、周波数に基づく変数をｆ、τ番目のフレームをτとした対象音声信号の強度スペクトルである対象音声強度スペクトルＳ（ｆ，τ）と、前記対象音声信号の前記変数ｆごとに複数のフレームの平均値で構成される対象音声平均値スペクトルＳａｖ（ｆ）を算出する対象音声解析手段と、
前記参照音声信号に対して時間軸方向の所定のフレーム単位で周波数解析を行い、前記参照音声信号の前記変数ｆごとに複数のフレームの平均値で構成される参照音声平均値スペクトルＨａｖ（ｆ）を算出する参照音声解析手段と、
前記対象音声平均値スペクトルＳａｖ（ｆ）を利用して、雑音成分スペクトルＮ（ｆ）を作成する雑音成分スペクトル作成手段と、
前記変数ｆごとに、前記対象音声平均値スペクトルＳａｖ（ｆ）から前記雑音スペクトルＮ（ｆ）を減算した値によって、前記参照音声平均値スペクトルＨａｖ（ｆ）を除した値に基づいて、変調成分スペクトルＧ（ｆ）を作成する変調成分スペクトル作成手段と、
前記各フレームτにおいて前記変数ｆごとに前記対象音声強度スペクトルＳ（ｆ，τ）に対して前記作成された雑音成分スペクトルＮ（ｆ）を所定の割合α（０≦α≦１）だけ減算し、更に減算された値に前記作成された変調成分スペクトルＧ（ｆ）を所定の割合β（０≦β≦１）で乗算し、前記フレームτごとに乗算された値に対して、時間次元変換することによって、前記対象音声信号が補正された補正音声信号を作成する音声信号補正手段と、
を具備することを特徴とする録音音声の明瞭化装置。
請求項１において、
前記対象音声解析手段は、前記対象音声平均値スペクトルＳａｖ（ｆ）に加えて、更に前記対象音声信号の前記変数ｆごとに強度が最小となるフレームで代表される最小値スペクトルＳｍｉｎ（ｆ）を算出するようにし、
前記雑音成分スペクトル作成手段は、前記最小値スペクトルＳｍｉｎ（ｆ）に基づく値と前記対象音声平均値スペクトルＳａｖ（ｆ）に基づく値との対応する前記変数ｆごとに平均した値に基づいて、前記雑音成分スペクトルＮ（ｆ）を作成するようにしていることを特徴とする録音音声の明瞭化装置。
請求項１において、
前記対象音声解析手段は、前記対象音声信号の中で音声が存在する部分のみに対して周波数解析を行い、
前記雑音成分スペクトル作成手段は、前記対象音声平均値スペクトルＳａｖ（ｆ）そのものを、雑音成分スペクトルＮ（ｆ）とするようにしていることを特徴とする録音音声の明瞭化装置。
請求項１から請求項３のいずれか一項において、
前記音声信号補正手段は、前記各フレームτにおいて前記変数ｆごとに前記対象音声強度スペクトルＳ（ｆ，τ）に対して前記作成された雑音成分スペクトルＮ（ｆ）を所定の割合α（０≦α≦１）だけ減算する際、減算した値が負値になる場合、前記減算した値を０にするような補正を加えるようにしていることを特徴とする録音音声の明瞭化装置。
請求項１から請求項４のいずれか一項において、
前記雑音成分スペクトル作成手段は、前記雑音成分スペクトルＮ（ｆ）を前記変数ｆ＝ｆ１を下限とし、前記変数ｆ＝ｆ２を上限とする所定の周波数範囲で定義するようにし、
前記変調成分スペクトル作成手段は、前記変調成分スペクトルＧ（ｆ）を前記変数ｆ＝ｆ１を下限とし、前記変数ｆ＝ｆ２を上限とする所定の周波数範囲で定義するようにし、
前記音声信号補正手段は、前記変数ｆ＝ｆ１を下限とし、前記変数ｆ＝ｆ２を上限とする所定の周波数範囲で、前記フレームτごとに前記対象音声強度スペクトルＳ（ｆ，τ）に対して前記作成された雑音成分スペクトルＮ（ｆ）を所定の割合αだけ減算し、更に減算された値に前記作成された変調成分スペクトルＧ（ｆ）を所定の割合βで乗算するようにしていることを特徴とする録音音声の明瞭化装置。
請求項１から請求項５のいずれか一項に記載の録音音声の明瞭化装置として、コンピュータを機能させるためのプログラム。