JP2015215528A

JP2015215528A - 音声強調装置、音声強調方法及びプログラム

Info

Publication number: JP2015215528A
Application number: JP2014099177A
Authority: JP
Inventors: 水野　秀之; Hideyuki Mizuno; 秀之水野; 勇祐井島; Yusuke Ijima
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-05-13
Filing date: 2014-05-13
Publication date: 2015-12-03
Anticipated expiration: 2034-05-13
Also published as: JP6282925B2

Abstract

【課題】狭帯域音声を騒音下でも明瞭に聴取可能な音声に変換する。
【解決手段】音声強調装置１は、狭帯域音声を入力とし、狭帯域音声を明瞭化した強調音声を出力する。帯域拡張部１０は、入力された狭帯域音声を広帯域化して帯域拡張音声を生成する。明瞭化部１１は、帯域拡張部１０の出力する帯域拡張音声を明瞭化した強調音声を生成する。これにより、音声強調装置１は、狭帯域音声を騒音下でも明瞭に聴取可能な音声に変換することができる。
【選択図】図１

Description

この発明は、騒音下において狭帯域音声の周波数特性を変換し広帯域化するとともに、騒音下でも明瞭に聴取可能な音声に変換する音声強調技術に関する。

騒音下において音声が聞き取りにくくなるのは周知であり、そうした騒音下においても携帯電話や携帯機器から出力される音声を聞き取り易くするための最も簡単な方法は、雑音に応じて音量を制御する方法である。しかし、雑音環境下では、音量を大きくし過ぎると、スピーカーへの入力が過大となり、音声が歪んでしまい、かえって音質が劣化する場合がある。そのためそうした騒音環境下でも、聞き取りやすい音声を実現するための方法が開発されている。例えば、代表的な方法として周波数スペクトルの特定の帯域のみ強調する音声強調方法がある（特許文献１、２参照）。一般に音声の周波数スペクトルには複数のピークが存在し、これをフォルマントと言う。このフォルマント部分を強調することで、音声スペクトルを変形し聞き取りやすさを改善している。また、ロンバード効果と呼ばれる、雑音によって人間の声質が変わる現象を再現することで、雑音下でも明瞭な音声を実現する方法も提案されている（非特許文献１参照）。その他にも音素の遷移区間を強調するもの、子音を強調するものなど様々な方法が提案されている。

一方、電話など狭帯域の音声では欠落している高域部分を補うことで音声の帯域を疑似的に拡張し広帯域化することで音声の自然性を向上するため、欠落した広帯域部分をなんらかの方法で生成する方法が開発されている。例えば、欠落した広帯域部分に低域成分を複写することで疑似的に生成する方法がある（特許文献３参照）。また低域成分の周波数特性と高域成分の周波数特性の関係を事前に統計的に学習しておくことで、低域成分から高域成分を復元する方法もある（非特許文献２参照）。

特開２００４−２８９６１４号公報特開２０１３−２１８１４７号公報特開２０１０−６６３３５号公報

Youyi Lu, Martin Cook, "The contribution of changes in F0 and spectral tilt to increased intelligibility of speech produced in noise", Speech Communication, vol. 51, pp. 1253-1262, 2009 吉田由紀、阿部匡伸、"コードブックマッピングによる狭帯域音声から広帯域音声の生成法"、電子情報通信学会論文誌.D-II、情報・システム、II-情報処理 J78-D-2(3), pp. 391-399、1995

課題１）狭帯域での音声強調処理による聞き取り易さの向上の限界
電話帯域などの狭帯域では、どのような強調処理により音声を強調したとしてもその効果には限界がある。例えばフォルマントの強調による方法を適用しても電話帯域ではせいぜい第３フォルマントまでしか含まれないため高々３個のフォルマントだけを強調することしかできず第４フォルマント以降の強調ができないため効果が限定されてしまう。またロンバード効果に基づくスペクトル変形方法においても、ロンバート効果で前提にしている実際の音声に含まれる高域成分が狭帯域音声には存在しないため適切な変換を行うことができない。

課題２）狭帯域音声の広帯域化による騒音下での聞き取り易さの向上効果の限界
一般的に静かな環境では広帯域化により自然性が向上し狭帯域音声より聞き取り易さは向上するが、騒音下においてはその騒音の周波数特性により効果は異なる。例えば高域のパワーが強い騒音であれば、高域を再現しても騒音に打ち消されるため聞き取り易さはほとんど向上しない。さらに過大な音量の上昇によるスピーカーでの歪の発生を考慮し通常は帯域拡張後の音声と原音声のパワーを同一にするため、高域を再現することで低域のパワーが低下しむしろ原音より聞き取りにくくなってしまう可能性もある。

課題３）実際の騒音の正確な周波数特性の測定が困難
騒音の周波数特性が正確に測定できれば、その特性にあわせて狭帯域音声に対してなんらかの処理をすることで音声の聞き取り易さを向上することが可能である。例えば騒音の周波数特性で1〜2KHzのパワーが低い場合、当該帯域を強調すれば音声の聞き取り易さは向上する。しかし電話や携帯電話のマイクは様々な特性を有しているためそうしたマイクで騒音を集音し周波数特性を測定しようとしても実際の騒音の周波数特性とは異なり不正確なため得られた特性に基づく処理に効果があるとは限らない。

この発明の目的は、このような点に鑑みて、狭帯域音声を騒音下でも明瞭に聴取可能な音声に変換することを目的とする。

上記の課題を解決するために、この発明の音声強調装置は、入力された狭帯域音声を広帯域化して帯域拡張音声を生成する帯域拡張部と、帯域拡張音声を明瞭化した強調音声を生成する明瞭化部と、を含む。

１）入力された狭帯域音声において高域部分を再現し、広帯域音声に拡張する。次に広帯域音声において強調処理を行うことで強調された広帯域音声を出力する。これにより低周波帯域に限定されない広い帯域全体を活用した効果的な強調処理を行うことが可能となり、騒音下での音声の聞き取り易さの向上が可能となる。

２）騒音を観測可能な場合、騒音を観測し広帯域への拡張処理によって復元する帯域に相当する高域部分の周波数特性を分析する。上記１）において広帯域音声に拡張する際、騒音の周波数特性に応じて拡張する帯域を限定する。次に限定された範囲で拡張された広帯域音声に対して強調処理を行うことで騒音の周波数特性に応じた適切な強調処理が行い、騒音下での音声の聞き取り易さの向上が可能となる。

３）騒音の周波数特性の正確な測定が困難な場合、騒音に対して狭帯域音声の帯域に相当する低域部の平均的なパワーと拡張処理によって復元する帯域に相当する高域部の平均的なパワーを分析する。まず高域部の平均パワーが低域部の平均パワーより大きい場合かつ、あらかじめ決められた閾値より高域部分の平均的なパワーが大きい場合、入力された狭帯域音声において広帯域音声への拡張処理は行わず、強調処理のみを行う。一方高域部の平均パワーが低域部の平均パワー以下でありかつあらかじめ決められた閾値より低域部分の平均的なパワーが大きい場合、入力された狭帯域音声に対し広帯域音声へ拡張処理と強調処理を行った後、低域部分を削除し高域部のパワーを削除した低域分補正を行う。上記に当てはまらない場合、帯域拡張後に強調処理を行う。これにより、騒音の周波数特性を全く考慮しない場合と比較して騒音下での音声の聞き取り易さの向上が可能となる。

したがって、この発明の音声強調技術によれば、狭帯域音声を騒音下でも明瞭に聴取可能な音声に変換することができる。

図１は、第一実施形態の音声強調装置の機能構成を例示する図である。図２は、第一実施形態の音声強調方法の処理フローを例示する図である。図３は、第二実施形態の音声強調装置の機能構成を例示する図である。図４は、第二実施形態の音声強調方法の処理フローを例示する図である。図５は、第三実施形態の音声強調装置の機能構成を例示する図である。図６は、第三実施形態の音声強調方法の処理フローを例示する図である。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

［第一実施形態］
この発明の第一実施形態に係る音声強調装置及び方法は、帯域拡張処理と強調処理の統合を行う。従来は自然性の向上を目的にしていた帯域拡張処理を音声強調処理と併用することで、狭帯域での強調処理と比較してより効果的な音声の強調処理を実現することができる。

第一実施形態に係る音声強調装置１は、図１に示すように、帯域拡張部１０及び明瞭化部１１を例えば含み、狭帯域音声を入力とし、強調音声を出力する。

音声強調装置１は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声強調装置１は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音声強調装置１に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、音声強調装置１の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。

図２を参照して、第一実施形態に係る音声強調方法を説明する。

ステップＳ１０において、帯域拡張部１０は、狭帯域音声を入力とし、帯域拡張音声を出力する。帯域拡張音声は明瞭化部１１へ送られる。帯域拡張の方法は、後段の明瞭化部１１で対応している帯域の音声が生成可能な方法であれば特許文献３、非特許文献２など、既存のどのような方法でもよい。例えば後段の明瞭化部１１として非特許文献１の方法を利用するのであれば第４フォルマントまでを用いているため概ね4KHz程度まで拡張する必要がある。そのため例えば7.3KHzまで高域部分を拡張可能な非特許文献２の方法を利用すればよい。

ステップＳ１１において、明瞭化部１１は、帯域拡張音声を入力とし、強調音声を出力する。明瞭化の方法は、特許文献１、２及び非特許文献１など、既存のどのような方法でもよい。

このように、第一実施形態に係る音声強調装置及び方法は、従来は自然性の向上を目的にしていた帯域拡張処理を音声強調処理と併用することで狭帯域での強調処理と比較してより効果的な音声の強調処理を実現する。

［第二実施形態］
この発明の第二実施形態に係る音声強調装置及び方法は、第一実施形態に係る音声強調装置及び方法の応用例であり、騒音の周波数特性を考慮した帯域拡張の制限を行う。騒音の周波数特性を考慮して拡張する帯域を制限することで、強調効果が期待できる周波数帯域での強調処理を実現することができる。

第二実施形態に係る音声強調装置２は、図３に示すように、周波数特性分析部２１、上限周波数決定部２２、帯域拡張部２３及び明瞭化部２４を例えば含み、狭帯域音声と騒音を入力とし、強調音声を出力する。

以下、図４を参照して、第二実施形態に係る音声強調方法について、第一実施形態と異なる部分を中心に説明する。

ステップＳ２１において、周波数特性分析部２１は、騒音を入力とし、その騒音の周波数特性を出力する。騒音の周波数特性は上限周波数決定部２２へ送られる。周波数特性の分析方法は、一般的なFFTを用いたスペクトル分析法等、音の周波数特性を分析できる方法であれば何でもよい。

ステップＳ２２において、上限周波数決定部２２は、騒音の周波数特性を入力とし、上限周波数を出力する。上限周波数は帯域拡張部２３へ送られる。事前に求めた閾値関数T(f):fは周波数、周波数f以上の帯域の騒音のパワーをNP(f)とすると、NP(f)>T(f):3400<f<8000の時、上限周波数Fu=fとする。閾値関数T(f)は、例えば聴覚心理学で利用されているマスキングのパワースペクトルモデルに基づいて事前に決定が可能である。

ステップＳ２３において、帯域拡張部２３は、狭帯域音声及び上限周波数を入力とし、帯域拡張音声を出力する。帯域拡張音声は明瞭化部２４へ送られる。このとき、Fuを拡張する帯域の上限として帯域を拡張する。拡張方法は拡張する帯域幅を制御可能な方法であれば何でもよい。例えば特許文献３の方法によるのであれば複製先の高域信号の先頭の周波数＋複製する拡張信号の幅がFu以下になるように複製する拡張信号の幅を決めればよい。

ステップＳ２４において、明瞭化部２４は、帯域拡張音声を入力とし、強調音声を出力する。明瞭化の方法は、特許文献１、２及び非特許文献１など、適用可能な周波数帯域が限定されてない既存の方法であればどのような方法でもよい。

このように、第二実施形態に係る音声強調装置及び方法は、騒音の周波数特性を考慮して拡張する帯域を制限することで強調効果が期待できる周波数帯域での強調処理を実現する。

［第三実施形態］
この発明の第三実施形態に係る音声強調装置及び方法は、第一実施形態に係る音声強調装置及び方法の応用例であり、騒音の低域部と高域部の平均的なパワーのみを考慮した強調処理を行う。正確な騒音の周波数特性が測定できない場合、高域部と低域部の平均的なパワーだけ測定するだけで、騒音特性を考慮しない場合と比較して効果的な音声の強調処理を実現することができる。

第三実施形態に係る音声強調装置３は、図５に示すように、第一実施形態の帯域拡張部１０及び明瞭化部１１に加えて、低域部平均パワー決定部３１、高域部平均パワー決定部３２、低域部明瞭化部３３及び低域部削除高域部補正部３４を例えば含み、狭帯域音声と騒音を入力とし、強調音声を出力する。

この実施形態において、低域部とは入力される狭帯域音声の帯域である。高域部とは帯域拡張された音声の帯域から低域部の帯域を除いた帯域である。例えば、入力音声の帯域が3.4kHz、拡張帯域が8kHzの時、低域部は0〜3.4kHzであり、高域部は3.4〜8kHzである。

以下、図６を参照して、第三実施形態に係る音声強調方法について、第一実施形態と異なる部分を中心に説明する。

ステップＳ３１において、低域部平均パワー決定部３１は、騒音を入力とし、低域部の平均パワーを出力する。平均パワーの決定方法は、周波数分析に基づく方法等どのような方法でも決定可能だが、リアルタイム性を考えれば狭帯域音声の帯域の上限値を遮断周波数とする低域通過フィルターの出力のパワーについて帯域拡張処理または明瞭化処理の処理単位となるフレーム長の１〜３フレーム長に相当する時間での平均パワー値を求めることで容易に決定が可能である。具体的なフレーム数は安定性とリアルタイム性のいずれを重視するか利用用途、機器等により決定できる。

ステップＳ３２において、高域部平均パワー決定部３２は、騒音を入力とし、高域部の平均パワーを出力する。平均パワーの決定方法は、周波数分析に基づく方法等どのような方法でも決定可能だが、リアルタイム性を考えれば狭帯域音声の帯域の上限値を遮断周波数とする高域通過フィルターの出力のパワーについて帯域拡張処理または明瞭化処理の処理単位となるフレーム長の１〜３フレーム長に相当する時間での平均パワー値を求めることで容易に決定が可能である。具体的なフレーム数は安定性とリアルタイム性のいずれを重視するか利用用途、機器等により決定できる。

ステップＳ１０１において、音声強調装置３は、低域部の平均パワーと高域部の平均パワーを比較する。低域部の平均パワーが高域部の平均パワーよりも大きければ、ステップＳ１０２へ処理を進める。低域部の平均パワーが高域部の平均パワー以下であれば、ステップＳ１０３へ処理を進める。

ステップＳ１０２において、音声強調装置３は、低域部の平均パワーとあらかじめ定めた第一の閾値を比較する。第一の閾値は、利用する環境、機器に応じて事前に最適に設定することが望ましいが、それが困難な場合または設定時の初期値としては例えば、第一の閾値としてうるさい騒音レベルになる60〜70dBを設定することもできる。比較結果はメモリ等に保存して、ステップＳ１０へ処理を進める。

ステップＳ１０３において、音声強調装置３は、高域部の平均パワーとあらかじめ定めた第二の閾値を比較する。第二の閾値は、利用する環境、機器に応じて事前に最適に設定することが望ましいが、それが困難な場合または設定時の初期値としては例えば、第二の閾値としてうるさい騒音レベルになる60〜70dBを設定することもできる。高域部の平均パワーが第二の閾値よりも大きければ、ステップＳ３３へ処理を進める。高域部の平均パワーが第二の閾値以下であれば、ステップＳ１０へ処理を進める。

ステップＳ１０からＳ１１において、帯域拡張部１０と明瞭化部１１は第一実施形態と同様の処理を行う。メモリ等に保存していた低域部の平均パワーと第一の閾値との比較結果を参照し、低域部の平均パワーが第一の閾値よりも大きかった場合には、明瞭化部１１の出力は低域部削除高域部補正部３４へ送られる。その他の場合には、明瞭化部１１の出力を強調音声として出力し、処理を終了する。

ステップＳ３３において、低域部明瞭化部３３は、狭帯域音声を入力とし、強調音声を出力する。明瞭化の方法は、特許文献１及び非特許文献１など、低域に適応不可能な方法でなければどのような方法でもよい。また特許文献２のように高域部のフォルマントも強調処理する方法であれば、高域部に相当するフォルマントに対する強調処理を行わないだけでよい。

ステップＳ３４において、低域部削除高域部補正部３４は、明瞭化部１１の出力を入力とし、強調音声を出力する。まず、明瞭化された帯域拡張音声の低域部全体をハイパスフィルター等で低域部を削除し、高域部のみ残した音声信号を得る。この音声信号のパワーをPhとし、元の入力音声のパワーをPiとすると音声信号に対し次式で定義される補正ゲイン値Gを乗算し削除した低域のパワー分補正し入力音声のパワーに合わせる。

低域部削除高域部補正部３４の処理は高域部平均パワー決定部３１及び低域部平均パワー決定部３２の処理と同様に、概ね帯域拡張処理または明瞭化処理の処理単位となるフレーム長の１〜３フレーム長に相当する時間単位で行う。

このように、第三実施形態に係る音声強調装置及び方法は、正確な騒音の周波数特性が測定できない場合、高域と低域の平均的なパワーだけ測定するだけで、騒音特性を考慮しない場合と比較して効果的な音声の強調処理を実現する。

この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１、２、３音声強調装置
１０、２３帯域拡張部
１１、２４明瞭化部
２１周波数特性分析部
２２上限周波数決定部
３１低域部平均パワー決定部
３２高域部平均パワー決定部
３３低域部明瞭化部
３４低域部削除高域部補正部

Claims

入力された狭帯域音声を広帯域化して帯域拡張音声を生成する帯域拡張部と、
上記帯域拡張音声を明瞭化した強調音声を生成する明瞭化部と、
を含む音声強調装置。
請求項１に記載の音声強調装置であって、
入力された騒音の周波数特性を分析する周波数特性分析部と、
上記騒音の周波数特性に基づいて上限周波数を決定する上限周波数決定部と、
をさらに含み、
上記帯域拡張部は、上記上限周波数を帯域の上限として広帯域化して上記帯域拡張音声を生成するものである
音声強調装置。
請求項１に記載の音声強調装置であって、
入力された騒音の上記狭帯域音声の帯域におけるパワーを平均した低域部平均パワーを決定する低域部平均パワー決定部と、
上記騒音の上記帯域拡張音声の帯域から上記狭帯域音声の帯域を除いた帯域におけるパワーを平均した高域部平均パワーを決定する高域部平均パワー決定部と、
上記狭帯域音声を上記狭帯域音声の帯域のみを明瞭化した強調音声を生成する低域部明瞭化部と、
上記明瞭化部の出力から上記狭帯域音声の帯域を削除し、残りの帯域のパワーが上記狭帯域音声のパワーに合うように補正する低域部削除高域部補正部と、
をさらに含み、
上記低域部平均パワーが上記高域部平均パワーよりも大きく、かつ、上記低域部平均パワーが予め定めた第一の閾値より大きい場合には、上記低域部削除高域部補正部を実行し、上記低域部平均パワーが上記高域部平均パワー以下であり、かつ、上記高域部平均パワーが予め定めた第二の閾値より大きい場合には、上記低域部明瞭化部を実行するものである
音声強調装置。
入力された狭帯域音声を広帯域化して帯域拡張音声を生成する帯域拡張ステップと、
上記帯域拡張音声を明瞭化した強調音声を生成する明瞭化ステップと、
を含む音声強調方法。
請求項４に記載の音声強調方法であって、
入力された騒音の周波数特性を分析する周波数特性分析ステップと、
上記騒音の周波数特性に基づいて上限周波数を決定する上限周波数決定ステップと、
をさらに含み、
上記帯域拡張ステップは、上記上限周波数を帯域の上限として広帯域化して上記帯域拡張音声を生成するものである
音声強調方法。
請求項４に記載の音声強調方法であって、
入力された騒音の上記狭帯域音声の帯域におけるパワーを平均した低域部平均パワーを決定する低域部平均パワー決定ステップと、
上記騒音の上記帯域拡張音声の帯域から上記狭帯域音声の帯域を除いた帯域におけるパワーを平均した高域部平均パワーを決定する高域部平均パワー決定ステップと、
上記狭帯域音声を上記狭帯域音声の帯域のみを明瞭化した強調音声を生成する低域部明瞭化ステップと、
上記明瞭化ステップの出力から上記狭帯域音声の帯域を削除し、残りの帯域のパワーが上記狭帯域音声のパワーに合うように補正する低域部削除高域部補正ステップと、
をさらに含み、
上記低域部平均パワーが上記高域部平均パワーよりも大きく、かつ、上記低域部平均パワーが予め定めた第一の閾値より大きい場合には、上記低域部削除高域部補正ステップを実行し、上記低域部平均パワーが上記高域部平均パワー以下であり、かつ、上記高域部平均パワーが予め定めた第二の閾値より大きい場合には、上記低域部明瞭化ステップを実行するものである
音声強調方法。
請求項１から３のいずれかに記載の音声強調装置としてコンピュータを機能させるためのプログラム。