JP2014164039A - 録音音声の明瞭化装置 - Google Patents

録音音声の明瞭化装置 Download PDF

Info

Publication number
JP2014164039A
JP2014164039A JP2013033558A JP2013033558A JP2014164039A JP 2014164039 A JP2014164039 A JP 2014164039A JP 2013033558 A JP2013033558 A JP 2013033558A JP 2013033558 A JP2013033558 A JP 2013033558A JP 2014164039 A JP2014164039 A JP 2014164039A
Authority
JP
Japan
Prior art keywords
spectrum
target
speech
value
variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013033558A
Other languages
English (en)
Other versions
JP6232710B2 (ja
Inventor
Toshio Modegi
敏雄 茂出木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2013033558A priority Critical patent/JP6232710B2/ja
Publication of JP2014164039A publication Critical patent/JP2014164039A/ja
Application granted granted Critical
Publication of JP6232710B2 publication Critical patent/JP6232710B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】 間仕切りを介して録音された録音音声に対して明瞭度を段階的に改善することが可能な録音音声の明瞭化装置を提供する。
【解決手段】 対象音声解析手段10が、対象音声信号を周波数解析し、周波数に基づく変数f、フレームτとした対象音声強度スペクトルS(f,τ)と、時間方向平均である対象音声平均値スペクトルSav(f)を算出し、参照音声解析手段20が、参照音声信号を周波数解析し、時間方向平均である参照音声平均値スペクトルHav(f)を算出し、雑音成分スペクトル作成手段30が、Sav(f)を利用して雑音成分スペクトルN(f)を作成し、変調成分スペクトル作成手段40が、Sav(f)からN(f)を減算した値でHav(f)を除して変調成分スペクトルG(f)を作成し、音声信号補正手段50が、S(f,τ)に対してN(f)を割合αだけ減算し、G(f)を割合βで乗算して、補正音声信号を得る。
【選択図】 図6

Description

本発明は、医療機関(調剤薬局などの受付カウンター)、金融機関・保険会社の相談カウンター、法律事務所などの面談室、携帯電話店のカウンター、会食に使われる飲食店などにおいて交わされる会話音声が待合室や他の面談室や座席に居る人々に聴取されないようにするための秘匿化技術に関し、特に、物理的な間仕切り(吸音材または遮音材で構成される板状のもの。「パーティション」とも呼ばれる。)と組み合わせ、間仕切りで仕切られた会議室等での会話音声の漏洩防止対策の評価のため、録音された会話音声を明瞭化する技術に関する。
医療機関(調剤薬局などの受付カウンター)、金融機関・保険会社の相談カウンター、法律事務所などの面談室、携帯電話店のカウンター、会食に使われる飲食店などにおいて交わされる対話音声は、第三者に聴取されることが好ましくない個人情報や企業の機密情報が含まれることが少なくない。しかしながら、従来は、簡易的な間仕切りのみによって済ませている施設が多い。これらの施設における会話が漏れないようにするために、音声信号に対するマスキング効果を高めつつ、再生される音楽の音色を原音と同等に維持し、音量を絞って再生しても所定のマスキング効果を働かせることができる秘匿化データ生成装置が開発されている(特許文献1参照)。
上記技術は物理的な間仕切りと組み合わせ、間仕切りで仕切られた会議室での会話音声の漏洩防止に主として有効であることが実証され、種々の拠点で実運用されている。一方、会話音を録音できるボイスレコーダは小型化され携帯電話・スマートフォンにも組み込まれ、更に録音された不明瞭な音声信号に対して内容を聴取できるようにする各種の音声強調・雑音除去ツールも出回っており、他者に気づかれずに簡便に高性能に盗聴する環境が整ってきた。そこで、漏洩対策を施した施設においてボイスレコーダで録音される音声に対して、秘匿化される度合いを定量的に評価することが求められるようになった。
録音音声に対して、内容を聴取できるように音声強調・雑音除去を行う手法として、録音音声に付加される雑音(マスキング音を含む)については、特許文献2でも活用されているスペクトラル・サブトラクション法(非特許文献1参照)が知られており、雑音成分を特定できれば低減可能である。雑音成分は音声と混合して録音されるため、音声が無音の区間における音成分は雑音であると判断し、これが定常雑音であれば、混合区間においても除去可能である。特許文献3では、2次IIRフィルタで車内雑音に埋もれた音声を明瞭化する方法を提案している。また、特許文献4では、子音を強調して明瞭度を改善する手法を提案している。
特開2012−226113号公報 WO99/50825号公報 特開2007−295347号公報 特許4876245号公報
S.F.Boll:"Suppression of Acoustic Noise in Speech Using Spectral Subtraction." IEEE Trans. ASSP., Vol.27, pp.113-120. 1979.
しかしながら、上記従来の技術では、間仕切りを介して減衰する音声を明瞭にするためには対応できず、グラフィックイコライザ等で周波数帯ごとに手動補正することが必要になっていた。
そこで、本発明は、間仕切り等を介して録音された録音音声に対して明瞭度を段階的に改善することが可能な録音音声の明瞭化装置を提供することを課題とする。
上記課題を解決するため、本発明第1の態様では、録音により得られ、補正対象とする対象音声信号に対して、別途録音により得られた参照音声信号を用いて、前記対象音声信号の明瞭度を向上させる装置であって、前記対象音声信号に対して時間軸方向の所定のフレーム単位で周波数解析を行い、周波数に基づく変数をf(fは、周波数に比例する変数、MIDIのノートナンバーのように物理的な周波数に対して対数をとった形態の変数等、周波数に基づいて決定される変数)、τ番目のフレームをτとした対象音声信号の強度スペクトルである対象音声強度スペクトルS(f,τ)と、前記対象音声信号の前記変数fごとに複数のフレーム(例えば、全フレーム)の平均値で構成される対象音声平均値スペクトルSav(f)を算出する対象音声解析手段と、前記参照音声信号に対して時間軸方向の所定のフレーム単位で周波数解析を行い、前記参照音声信号の前記変数fごとに複数のフレーム(例えば、全フレーム)の平均値で構成される参照音声平均値スペクトルHav(f)を算出する参照音声解析手段と、前記対象音声平均値スペクトルSav(f)を利用して、雑音成分スペクトルN(f)を作成する雑音成分スペクトル作成手段と、前記変数fごとに、前記対象音声平均値スペクトルSav(f)から前記雑音スペクトルN(f)を減算した値によって、前記参照音声平均値スペクトルHav(f)を除した値に基づいて、変調成分スペクトルG(f)を作成する変調成分スペクトル作成手段と、前記各フレームτにおいて前記変数fごとに前記対象音声強度スペクトルS(f,τ)に対して前記作成された雑音成分スペクトルN(f)を所定の割合α(0≦α≦1)だけ減算し、更に減算された値に前記作成された変調成分スペクトルG(f)を所定の割合β(0≦β≦1)で乗算し、前記フレームτごとに乗算された値に対して、時間次元変換することによって、前記対象音声信号が補正された補正音声信号を作成する音声信号補正手段と、を具備することを特徴とする録音音声の明瞭化装置を提供する。
本発明第1の態様によれば、対象音声信号に対して所定のフレーム単位で周波数解析を行い、対象音声信号の変数fごとに複数のフレーム(例えば、全フレーム)の平均値で構成される対象音声平均値スペクトルSav(f)を算出する一方、参照音声信号に対して周波数解析を行い、参照音声信号の周波数ごとに複数のフレーム(例えば、全フレーム)の平均値で構成される参照音声平均値スペクトルHav(f)を算出し、変数fごとに対象音声平均値スペクトルSav(f)を利用して、雑音成分スペクトルN(f)を作成し、対象音声平均値スペクトルSav(f)から雑音スペクトルN(f)を減算した値によって、参照音声平均値スペクトルHav(f)を除した値に基づいて、変調成分スペクトルG(f)を作成し、前記各フレームτにおいて前記変数fごとに対象音声強度スペクトルS(f,τ)に対して雑音成分スペクトルN(f)を割合α(0≦α≦1)だけ減算し、更に減算された値に変調成分スペクトルG(f)を割合β(0≦β≦1)で乗算し、前記フレームτごとに乗算された値に対して、時間次元変換することによって、対象音声信号が補正された補正音声信号を作成するようにしたので、所定の割合α(0≦α≦1)および所定の割合β(0≦β≦1)を所定の間隔で段階的に変化させることにより間仕切り等を介して録音された録音音声に対して明瞭度を段階的に改善することが可能になる。なお、対象音声平均値スペクトルSav(f)、参照音声平均値スペクトルHav(f)の算出は、複数のフレームの平均としているが、実際には全フレームとすることが好ましい。ただし、演算の都合上、先頭のフレームや最後尾のフレーム、その他都合により一部のフレームを除いたフレームの平均としても良い。
本発明第2の態様では、前記対象音声解析手段は、前記対象音声平均値スペクトルSav(f)に加えて、更に前記対象音声信号の前記変数fごとに強度が最小となるフレームで代表される最小値スペクトルSmin(f)を算出するようにし、前記雑音成分スペクトル作成手段は、前記最小値スペクトルSmin(f)に基づく値と前記対象音声平均値スペクトルSav(f)に基づく値との対応する前記変数fごとに平均した値に基づいて、前記雑音成分スペクトルN(f)を作成するようにしていることを特徴とする。
本発明第2の態様によれば、対象音声信号の変数fごとに強度が最小となるフレームで代表される最小値スペクトルSmin(f)を算出するようにし、最小値スペクトルSmin(f)に基づく値と対象音声平均値スペクトルSav(f)に基づく値との対応する変数fごとに平均した値に基づいて、雑音成分スペクトルN(f)を作成するようにしたので、対象音声信号の全フレームを解析して高速に補正音声信号を作成することができる。
本発明第3の態様では、前記対象音声解析手段は、前記対象音声信号の中で音声が存在する部分のみに対して周波数解析を行い、前記雑音成分スペクトル作成手段は、前記対象音声平均値スペクトルSav(f)そのものを、雑音成分スペクトルN(f)とするようにしていることを特徴とする。
本発明第3の態様によれば、対象音声信号の中で音声が存在する区間のみに対して周波数解析を行い、音声に被った定常的な雑音の区間の平均値に対応する対象音声平均値スペクトルSav(f)を、雑音成分スペクトルN(f)とするようにしたので、音声が存在しない雑音のみの非定常的な雑音が雑音成分スペクトルN(f)より排除され、高精度な補正音声信号を作成できるとともに、実質的に会話が記録されている部分だけを解析して高速に補正音声信号を作成することができる。
本発明第4の態様では、前記音声信号補正手段は、前記各フレームτにおいて前記変数fごとに前記対象音声強度スペクトルS(f,τ)に対して前記作成された雑音成分スペクトルN(f)を所定の割合α(0≦α≦1)だけ減算する際、減算した値が負値になる場合、前記減算した値を0にするような補正を加えるようにしていることを特徴とする。
本発明第4の態様によれば、前記各フレームτにおいて前記変数fごとに対象音声強度スペクトルS(f,τ)に対して雑音成分スペクトルN(f)を所定の割合α(0≦α≦1)だけ減じる際、減算した値が負値になる場合、減算した値を0にするようにしたので、自然法則に反する自然界に存在し得ない補正音声信号を作成することを防止することが可能となる。
本発明第5の態様では、前記雑音成分スペクトル作成手段は、前記雑音成分スペクトルN(f)を前記変数f=f1を下限とし、前記変数f=f2を上限とする所定の周波数範囲(例えば、f1を200Hzに相当する値、f2を6000Hzに相当する値とする)で定義するようにし、前記変調成分スペクトル作成手段は、前記変調成分スペクトルG(f)を前記変数f=f1を下限とし、前記変数f=f2を上限とする所定の周波数範囲(例えば、f1を200Hzに相当する値、f2を6000Hzに相当する値とする)で定義するようにし、前記音声信号補正手段は、前記変数f=f1を下限とし、前記変数f=f2を上限とする所定の周波数範囲(例えば、f1を200Hzに相当する値、f2を6000Hzに相当する値とする)で、前記フレームτごとに前記対象音声強度スペクトルS(f,τ)に対して前記作成された雑音成分スペクトルN(f)を所定の割合αだけ減算し、更に減算された値に前記作成された変調成分スペクトルG(f)を所定の割合βで乗算するようにしていることを特徴とする。
本発明第5の態様によれば、音声信号補正のためのスペクトルに対する処理を、所定の周波数範囲に対して行うようにしたので、音声帯域外の雑音が主たる部分を排除しながら高精度に音声信号の補正処理をすることが可能となる。
本発明によれば、間仕切り等を介して録音された録音音声に対して所定のパラメータを段階的に設定することにより明瞭度を段階的に改善することができ、逆に明瞭な状態に補正された際の設定されたパラメータの値に基づき録音音声の明瞭度を定量評価することが可能となる。
間仕切りを介して取得した音声を録音する場合の、音声の伝搬経路モデルを示す図である。 間仕切りを介さずに取得した音声を録音する場合の、音声の伝搬経路モデルを示す図である。 本発明による処理の概略を示す図である。 雑音成分スペクトルN(f)および変調成分スペクトルG(f)の算出方法を示す図である。 本発明の一実施形態に係る録音音声の明瞭化装置のハードウェア構成図である。 本発明の一実施形態に係る録音音声の明瞭化装置の構成を示す機能ブロック図である。 本発明の一実施形態に係る録音音声の明瞭化装置の処理概要を示すフローチャートである。 対象音声信号s(i)の波形を示す図である。 参照音声信号h(i)の波形を示す図である。 対象音声平均値スペクトルSav(f)、対象音声平均値スペクトルHav(f)の波形を示す図である。 変調スペクトルG(f)の波形を示す図である。 雑音成分スペクトルN(f)の波形を示す図である。 補正音声信号c(i)の波形を示す図である。 対象音声平均値スペクトルSav(f)、補正音声平均値スペクトルCav(f)の波形を示す図である。
以下、本発明の好適な実施形態について図面を参照して詳細に説明する。
<1.本発明で用いる音声の伝搬経路モデル>
まず、本発明で用いる音声の伝搬経路モデルについて説明する。図1は、間仕切りを介して取得した音声を録音する場合の、音声の伝搬経路モデルを示す図である。図1に示すように、本発明では、ソース音声信号源(会話音)C(f,τ)がA(f)なる周波数特性をもつ材質で構成された間仕切りを介して伝搬された音に、環境雑音源(マスキング音を含む)N(f)が付加されて、S(f,τ)= C(f,τ)・A(f)+N(f)なる音が漏洩されるという伝搬経路モデルを用いる。ここで、パラメータfは周波数に基づく変数、τは周波数解析における所定のサンプル数をもつフレームのフレーム番号を示し、変数の値A(f)はスカラー値で、変数の値S(f,τ), C(f,τ)およびN(f)は複素数になる。環境雑音源については、空調音のように定常的な雑音N(f)に限定し、マスキング音のように間仕切りを介さず直接伝搬する音に限定する。本発明では、間仕切りを介して録音された音声を明瞭化の対象である対象音声信号として扱う。
図2は、間仕切りを介さずに取得した音声を録音する場合の、音声の伝搬経路モデルを示す図である。図2に示す伝搬経路モデルでは、ソース音声信号源(会話音)C(f,τ)に、環境雑音源(マスキング音を含む)N(f)が付加されて、H(f,τ)=C(f,τ)+N(f)なる音が聴取される。ここで、変数の値H(f,τ), C(f,τ)およびN(f)は複素数になる。環境雑音源については、空調音のように定常的な雑音N(f)に限定し、マスキング音のように間仕切りを介さず直接伝搬する音に限定する。本発明では、間仕切りを介さず録音された音声を、対象音声信号の明瞭化に際して参照する参照音声信号として扱う。
<2.本発明による処理の概略>
次に、本発明による処理の概略について説明する。図3は、本発明による処理の概略を示す図である。本発明では、間仕切りを介して取得された不明瞭な対象音声信号s(i)を明瞭化し、ソース音源信号源と推定される補正音声信号c(i)として得る。まず、録音音声である対象音声信号s(i)を周波数次元変換して対象音声強度スペクトルS(f,τ)を得る。次に、雑音成分スペクトルN(f)の複素スペクトル減算を行って、雑音除去スペクトルS(f,τ)−α・N(f)を得る。続いて、変調成分スペクトルG(f)を乗算することによって、スペクトルの複素スペクトル変調を行って、補正音声スペクトルC(f,τ)を得る。最後に、時間次元逆変換を行って補正音声信号c(i)を得る。パラメータα、βを段階的に変化させることにより、補正音声信号c(i)の補正の程度を変化させることができ、明瞭に聴取できるレベルに補正された際に設定されたパラメータα、βの値により、録音音声の明瞭度を定量的に評価することができる。
図3における雑音成分スペクトルN(f)および変調成分スペクトルG(f)の算出方法を図4に示す。周波数次元変換後の対象音声強度スペクトルS(f,τ)に対して全フレームに渡る平均値スペクトルおよび最小値スペクトルを求め、各々Sav(f),Smin(f)とし、周波数次元変換後の参照音声強度スペクトルH(f,τ)に対して全フレームに渡る平均値スペクトルを求め、Hav(f)とすると、図示の通り、雑音成分スペクトルN(f)はSav(f)とSmin(f)との平均値で、変調成分スペクトルG(f)はHav(f)をSav(f)からN(f)を減算した値で除算することにより算出される。
<3.1.装置構成>
以下、本発明に係る録音音声の明瞭化装置について、具体的に説明していく。図5は、本発明の一実施形態に係る録音音声の明瞭化装置のハードウェア構成図である。録音音声の明瞭化装置は、汎用のコンピュータで実現することができ、図5に示すように、CPU(Central Processing Unit)1と、コンピュータのメインメモリであるRAM(Random Access Memory)2と、CPU1が実行するプログラムやデータを記憶するための大容量の記憶装置(例えば、ハードディスク、フラッシュメモリ等)3と、キーボード、マウス等のキー入力I/F(インターフェース)4と、外部装置(データ記憶媒体等)とボイスレコーダに装着されているSDメモリカード、メモリスティックやCDなどのリムーバブル記憶媒体を装着して録音音声を記憶装置3に転送するための可搬型記憶装置5と、表示装置(ディスプレイ)に情報を送出するための表示出力I/F(インターフェース)6と、録音音声を記憶装置3に転送するためUSBメモリ機能付きのボイスレコーダを直接装着したり、USBケーブルを介してボイスレコーダを接続するためのUSB−I/F7を備え、互いにバスを介して接続されている。また、前述のUSB−I/F7にはUSBケーブルを介して汎用コンピュータの外部に配置された音声入出力I/F8も接続され、音声を入力するマイクロフォン9aと音声を出力するスピーカ9bが前述の音声入出力I/F8にアナログのオーディオ信号ケーブルまたは光デジタル音声ケーブルを介して接続されている。図では、音声入出力I/F8は汎用コンピュータの外部に配置された事例を示しているが、音声入出力I/F8をUSB−I/F7を経由せず汎用コンピュータ内部のバスに直結させ、汎用コンピュータ内部に配置させる方法も一般的に用いられる。ただし、本実施形態のように音声計測用途で精度が要求される場合には、音声入出力I/F8が記憶装置3のハードディスクなど機械的な振動音を発する雑音の影響を受けることを防止するため、汎用コンピュータの外部に配置される方が望ましい。
図6は、本実施形態に係る録音音声の明瞭化装置の構成を示す機能ブロック図である。図6において、10は対象音声解析手段、20は雑音成分スペクトル作成手段、30は参照音声解析手段、40は変調成分スペクトル作成手段、50は音声信号補正手段、55はパラメータ設定手段、60は記憶手段、61は対象音声信号記憶部、62は参照音声信号記憶部、63は補正音声信号記憶部である。対象音声信号記憶部61および参照音声信号記憶部62には、ボイスレコーダに録音された対象音声信号および参照音声信号が図5の可搬型記憶装置5またはUSB−I/F7を経由して取り込まれている。なお、図6に示す装置は、基本的には、モノラル音声信号に対応している。対象をステレオ音声信号とする場合は、複数のチャンネルの合算値を使用して、モノラル音声信号として処理する。
対象音声解析手段10は、明瞭化の対象とする対象音声信号を読み込み、フーリエ変換等の周波数解析を行って、時間次元から周波数次元に変換して複素数のスペクトルを生成する機能を有している。雑音成分スペクトル作成手段20は、対象音声解析手段10により生成されたスペクトルから雑音成分スペクトルN(f)を作成する機能を有している。参照音声解析手段30は、参照する参照音声信号を読み込み、フーリエ変換等の周波数解析を行って、時間次元から周波数次元に変換して複素数のスペクトルを生成する機能を有している。ここで、参照音声信号とは、対象音声信号とほぼ同一条件・時期に録音された音声信号で、補正を加えなくても明瞭に聴取できる補正の目標(手本)とする音声信号を指す。参照音声信号の話者、会話内容や録音長については対象音声信号のものとは全く異なった任意のもので構わないが、できるだけ、同一機種のボイスレコーダで、同一時期に、図2のように同一場所でパーティションが外された環境で録音された音声信号が望ましい。ただし、このような条件で参照音声信号を準備することが困難であれば、録音場所に近い環境で(音楽収録スタジオのような環境は非現実的で不適当)、スペックが近いボイスレコーダで適当な話者の明瞭な会話音を録音して準備しても良い。変調成分スペクトル作成手段40は、対象音声解析手段10により生成されたスペクトル、参照音声解析手段30により生成されたスペクトル、雑音スペクトルN(f)に基づいて、変調成分スペクトルG(f)を作成する。音声信号補正手段50は、雑音成分スペクトルN(f)をパラメータとして設定された所定の割合α(0≦α≦1)だけ減じ、更に減算した値に作成された変調成分スペクトルG(f)をパラメータとして設定された所定の割合β(0≦α≦1)を乗じ、乗算された値に対して、フーリエ逆変換等の周波数解析を行って、周波数次元から時間次元に逆変換することによって、対象音声信号に対して明瞭化する補正を行った補正音声信号を作成する。パラメータ設定手段55は、雑音成分スペクトル作成手段20、変調成分スペクトル作成手段40で用いるパラメータα、βの設定を行うものであり、マウスやキーボード等の入力機器とキー入力I/F4により実現される。
記憶手段60は、明瞭化の対象とする対象音声信号を記憶した対象音声信号記憶部61と、参照する参照音声信号を記憶した参照音声信号記憶部62と、補正された補正音声信号を記憶する補正音声信号記憶部63を有しており、その他処理に必要なデータやプログラムを記憶するものである。対象音声信号は、図1に示した間仕切りを介した伝搬経路モデルにより録音して得られた音声信号である。また、参照音声信号は、図2に示した間仕切りを介さない伝搬経路モデルにより録音して得られた音声信号である。対象音声信号と参照音声信号は、間仕切りの有無以外は全く同一条件で録音されたものである。
図6に示した各構成手段は、現実には図5に示したように、コンピュータおよびその周辺機器等のハードウェアに専用のプログラムを搭載することにより実現される。すなわち、コンピュータが、専用のプログラムに従って各手段の内容を実行することになる。
図5の記憶装置3には、CPU1を動作させ、コンピュータを、録音音声の明瞭化装置として機能させるための専用のプログラムが実装されている。この専用のプログラムを実行することにより、CPU1は、対象音声解析手段10、雑音成分スペクトル作成手段20、参照音声解析手段30、変調成分スペクトル作成手段40、音声信号補正手段50としての機能を実現することになる。また、記憶装置3は、対象音声信号記憶部61、参照音声信号記憶部62、補正音声信号記憶部63を備えた記憶手段60として機能する。
<3.2.処理動作>
次に、図5、図6に示した録音音声の明瞭化装置の処理動作について、図7のフローチャートを用いて説明する。まず、対象音声解析手段10が、対象音声信号記憶部61から対象音声信号を読み込み、読み込んだ対象音声信号に対して周波数解析を行って周波数次元への変換を行う(ステップS1)。具体的には、対象音声解析手段10は、まず、対象音声信号記憶部61に記憶された対象音声信号S(i)(iは全てのサンプルに対して付された通し番号:i=0,1,2,・・・)から、所定数Nのサンプルを1フレームとして読み込む。録音音声の明瞭化装置が処理する1フレームのサンプル数Nは、適宜設定することができる。本実施形態では、サンプリング周波数Fs=44100Hzの場合、N=4096に設定している。したがって、4096サンプルずつ、順次1フレームとして読み込んでいくことになる。
各サンプルを読み込んだ際、全てのサンプルをフレームとしても良いが、本実施形態では、音声が存在すると判断される区間に存在するサンプルのみをフレーム内に設定するようにしている。音声が存在すると判断される区間とは、音声が存在しないと判断される非音声区間を除いた区間である。音声が存在しないと判断される非音声区間とは、信号値が所定のレベルに達していないサンプルが所定数(所定時間)連続する無音に近い区間であるか、信号値は所定のレベルに達しているがオペレータが試聴により雑音成分しか聴取できない区間を指す。したがって、対象音声解析手段10は、信号値が所定のレベルに達していないサンプルを所定数連続して読み込んだ場合は、それらのサンプルをフレームに含める対象から除外する。ここで、所定のレベルとしては、無音と判断されるレベルを考慮して適宜設定することが可能である。サンプルが連続する所定数としては、無音と判断される区間の長さを考慮して適宜設定することが可能である。無音区間を除去した上で、オペレータは信号全体を試聴し、ヒトの会話音声の母音や子音成分が全く聴取できない雑音のみの区間を手動で除去してゆく。その結果、音声が存在する区間のみがフレームとして設定される。
本実施形態では、奇数番目のフレーム、偶数番目のフレームは、互いに所定数(本実施形態ではN/2=2048)のサンプルを重複して設定される。したがって、奇数番目のフレームを先頭からA1、A2、A3…とし、偶数番目のフレームを先頭からB1、B2、B3…とすると、A1はサンプル1〜4096、A2はサンプル4097〜8192、A3はサンプル8193〜12288、B1はサンプル2049〜6144、B2はサンプル6145〜10240、B3はサンプル10241〜14336となる。したがって、偶数番目のフレームから処理を行うようにしても良いが、以下では、奇数番目のフレームから処理を行う場合を例にとって説明する。奇数番目のフレームと偶数番目のフレームで重複して読み込むサンプルの数は適宜設定することができ、重複するサンプル数を0とすることも可能である。
N個のサンプルで構成される各フレーム内のサンプル番号をt、フレーム番号をτとすると、読み込まれた対象音声信号S(i)は、Ts個の対象音声フレームs(t,τ)(t=0,…,N−1、τ=0,…,Ts−1)の集合に変換される。
続いて、対象音声解析手段10は、各フレームに対して周波数解析を行って、各フレームの複素数のスペクトルを得る。周波数解析としては、時間次元から周波数次元への変換を行う。周波数解析は、窓関数を利用して行う。周波数解析としては、フーリエ変換、ウェーブレット変換その他公知の種々の手法を用いることができるが、複素数のスペクトルを得られる手法である必要がある。本実施形態では、フーリエ変換を用いた場合を例にとって説明する。
一般に、所定の信号に対してフーリエ変換を行う場合、信号を所定の長さに区切って行う必要があるが、この場合、所定長さの信号に対してそのままフーリエ変換を行うと、擬似高調波成分が発生する。そこで、一般にフーリエ変換を行う場合には、ハニング窓と呼ばれる窓関数を用いて、信号の値を変化させた後、変化後の値に対してフーリエ変換を実行する。
本実施形態においても、ハニング窓関数W(t)を利用している。ハニング窓関数W(t)は、中央の所定のサンプル番号N/2の位置において最大値1をとり、両端付近のサンプル番号0またはN−1の位置において最小値0をとるように設定されている。どのサンプル番号の場合に最大値をとるかについては、ハニング窓関数W(t)の設計によって異なってくるが、本実施形態では、後述する〔数式1〕で定義される。フレームについてのフーリエ変換は、このハニング窓関数W(t)を乗じたものに対して行われることになる。
なお、上述のように、本実施形態においては、フレームは重複して読み込まれる。すなわち、奇数番目のフレームと偶数番目のフレームは、所定数のサンプルを重複して読み込む。本実施形態では、ハニング窓関数W(t)は、以下の〔数式1〕で定義される。
〔数式1〕
0≦t≦N−1のとき、W(t)=0.5−0.5cos(2πt/N)
本実施形態においては、奇数番目の音響フレームと偶数番目の音響フレームを、所定サンプルずつ重複して読み込むため、補正を行った後、時系列の音声信号の形態に復元する際に、窓関数を乗じた奇数番目のフレームと、窓関数を乗じた偶数番目の音響フレームの重複サンプルを加算した場合に、ほぼ元の値に戻るようにしなければならない。このため、奇数番目のフレームと偶数番目のフレームの重複部分において、両者の窓関数W(t)を加算すると、全サンプルが固定値1になるように定義されている。
対象音声解析手段10が、奇数番目および偶数番目のフレームに対してフーリエ変換を行う場合は、対象音声フレームs(t,τ)(t=0,…,N−1、τ=0,…,Ts−1)に対して、窓関数W(t)を用いて、以下の〔数式2〕に従った処理を行い、変換データの実部Sr(f,τ)、虚部Si(f,τ)を得る。
〔数式2〕
Sr(f,τ)=Σt=0,…,N-1W(t)・s(t,τ)・cos(2πft/N)
Si(f,τ)=Σt=0,…,N-1W(t)・s(t,τ)・sin(2πft/N)
上記〔数式2〕において、tは、全Ts個のフレームのうちτ番目のフレームτ内のN個のサンプルに付した通し番号であり、t=0,1,2,…,N−1の整数値をとる。τはτ=0,1,2,…,Ts−1の整数値である。また、fは周波数にN/Fsを乗じた値になり、値の小さなものから順に付した通し番号であり、f=0,1,2,…,N/2(ただし、Si(f,τ)は、f=0,…,N/2−1の範囲しか値をもたない)の整数値をとる。サンプリング周波数Fs=44100Hz、N=4096の場合、fの値が1つ異なると、周波数が約10.8Hz異なることになる。変数fは周波数に基づく値であるが、本実施形態では、周波数に比例した値としている。
上記〔数式2〕に従った処理を実行することにより、各フレームの各窓関数に対応する複素数のスペクトルが得られる。続いて、対象音声解析手段10は、得られたスペクトルSr(f,τ)、Si(f,τ)を用いて、以下の〔数式3〕に従った処理を実行し、対象音声強度スペクトルS(f,τ)を算出する。
〔数式3〕
S(f,τ)={Sr(f,τ)2+Si(f,τ)21/2
さらに、対象音声解析手段10は、算出された対象音声強度スペクトルS(f,τ)を用いて、以下の〔数式4〕に従った処理を実行し、対象音声強度スペクトルS(f,τ)のτ=0,1,2,…,Ts−1における最小値のスペクトルである対象音声最小値スペクトルSmin(f)、および平均値のスペクトルである対象音声平均値スペクトルSav(f)を算出する。
〔数式4〕
Smin(f)=MINτ=0,…,Ts-1S(f,τ)
Sav(f)=Στ=0,…,Ts-1S(f,τ)/Ts
上記〔数式4〕において、MINτ=0,…,Ts-1S(f,τ)は、τを0からTs−1まで変化させた場合に、最小となるS(f,τ)を意味する。また、上記〔数式4〕において、Στ=0,…,Ts-1S(f,τ)は、τを0からTs−1まで変化させた場合のS(f,τ)の総和であり、Sav(f)は、0からTs−1までの全てのτについてのS(f,τ)の平均値を意味する。
次に、参照音声解析手段30が、参照音声信号記憶部62から参照音声信号を読み込み、読み込んだ参照音声信号に対して周波数解析を行って周波数次元への変換を行う(ステップS2)。具体的には、参照音声解析手段30は、まず、参照音声信号記憶部62に記憶された参照音声信号から、所定数Nのサンプルを1フレームとして読み込む。録音音声の明瞭化装置が処理する1フレームのサンプル数Nは、適宜設定することができる。本実施形態では、サンプリング周波数Fs=44100Hzの場合、N=4096に設定している。したがって、4096サンプルずつ、順次1フレームとして読み込んでいくことになる。参照音声解析手段30は、基本的には、対象音声解析手段10が対象音声信号を読み込んでサンプルを設定する場合と同様に処理を行う。
参照音声信号は、無音区間や非音声区間が存在しないように録音信号に対してあらかじめ編集された音声信号であるので、参照音声解析手段30は、対象音声解析手段10が行ったような無音区間の判断は行わず、参照音声信号の全てのサンプルをフレームの構成要素として読み込む。また、参照音声解析手段30においても、対象音声解析手段10と同様、奇数番目のフレーム、偶数番目のフレームは、互いに所定数(本実施形態ではN=2048)のサンプルを重複して設定される。
続いて、参照音声解析手段30は、対象音声解析手段10と同様、各フレームに対して周波数解析を行って、各フレームの複素数のスペクトルを得る。周波数解析としては、時間次元から周波数次元への変換を行う。ここでも、参照音声解析手段30は、対象音声解析手段10と同様、上記〔数式1〕に示したハニング窓関数W(t)を利用して周波数解析を行う。周波数解析としては、フーリエ変換、ウェーブレット変換その他公知の種々の手法を用いることができるが、複素数のスペクトルを得られる手法である必要がある。本実施形態では、フーリエ変換を用いた場合を例にとって説明する。
参照音声解析手段30が、奇数番目および偶数番目のフレームに対してフーリエ変換を行う場合は、参照音声信号h(t,τ)(t=0,…,N−1、τ=0,…,Th−1)に対して、窓関数W(t)を用いて、以下の〔数式5〕に従った処理を行い、変換データの実部Hr(f,τ)、虚部Hi(f,τ)を得る。
〔数式5〕
Hr(f,τ)=Σt=0,…,N-1W(t)・h(t,τ)・cos(2πft/N)
Hi(f,τ)=Σt=0,…,N-1W(t)・h(t,τ)・sin(2πft/N)
上記〔数式5〕において、tは、全Th個のフレームのうちτ番目のフレームτ内のN個のサンプルに付した通し番号であり、t=0,1,2,…,N−1の整数値をとる。τはτ=0,1,2,…,Th−1の整数値である。また、fは周波数に比例し、値の小さなものから順に付した通し番号であり、f=0,1,2,…,N/2(ただし、Hi(f,τ)は、f=0,…,N/2−1の範囲しか値をもたない)の整数値をとる。
上記〔数式5〕に従った処理を実行することにより、各フレームの各窓関数に対応する複素数のスペクトルが得られる。続いて、参照音声解析手段30は、得られたスペクトルHr(f,τ)、Hi(f,τ)を用いて、以下の〔数式6〕に従った処理を実行し、参照音声強度スペクトルH(f,τ)を算出する。
〔数式6〕
H(f,τ)={Hr(f,τ)2+Hi(f,τ)21/2
さらに、参照音声解析手段30は、算出された参照音声強度スペクトルH(f,τ)を用いて、以下の〔数式7〕に従った処理を実行し、参照音声強度スペクトルH(f,τ)のτ=0,1,2,…,Th−1における平均値である参照音声平均値スペクトルHav(f)を算出する。
〔数式7〕
Hav(f)=Στ=0,…,Th-1H(f,τ)/Th
上記〔数式7〕において、Στ=0,…,Th-1H(f,τ)は、τを0からTh−1まで変化させた場合のH(f,τ)の総和であり、Hav(f)は、0からTh−1までの全てのτについてのH(f,τ)の平均値を意味する。
次に、雑音成分スペクトル作成手段20が、雑音成分スペクトルの作成を行う(ステップS3)。雑音成分スペクトルは、ステップS1において対象音声信号から無音区間を除外したかどうかにより作成の手法が異なる。対象音声信号から無音区間を除外した場合、雑音成分スペクトル作成手段20は、f1以上f2以下(0≦f1<f2≦N/2−1)の各fに対して、以下の〔数式8〕に従った処理を実行し、雑音成分スペクトルN(f)を算出する。
〔数式8〕
N(f)=Sav(f)
上記〔数式8〕において、Sav(f)は、ステップS1において対象音声解析手段10により算出された対象音声平均値スペクトルである。ステップS1において対象音声信号から無音区間を除外した場合、〔数式8〕に示したように、雑音成分スペクトルN(f)は、対象音声平均値スペクトルSav(f)そのものとして得られることになる。一方、ステップS1において対象音声信号から無音区間を除外していない場合、雑音成分スペクトル作成手段20は、f1以上f2以下(0≦f1<f2≦N/2−1)の各fに対して、以下の〔数式9〕に従った処理を実行し、雑音成分スペクトルN(f)を算出する。
〔数式9〕
N(f)={Smin(f)+Sav(f)}/2
上記〔数式9〕において、Smin(f)は、ステップS1において対象音声解析手段10により算出された対象音声最小値スペクトルである。ステップS1において対象音声信号から無音区間を除外していない場合、〔数式9〕に示したように、雑音成分スペクトルN(f)は、対象音声最小値スペクトルSmin(f)と対象音声平均値スペクトルSav(f)の平均値として得られることになる。
雑音成分スペクトル作成手段20が、雑音成分スペクトルN(f)の算出対象範囲とするf1〜f2は、音声帯域が集中する範囲とすることが好ましい。したがって、本実施形態では、N(f)の算出対象範囲が、音声帯域が集中する200Hz〜6000Hzとなるように、f1=200N/Fs、f2=6000N/Fsと設定している。N(f)の算出対象範囲を音声帯域が集中する範囲とすることにより、音声帯域以外の低音雑音および高音雑音が除外される。
次に、変調成分スペクトル作成手段40が、変調成分スペクトルの作成を行う(ステップS4)。具体的には、変調成分スペクトル作成手段40は、f1以上f2以下(0≦f1<f2≦N/2−1)の各fに対して、以下の〔数式10〕に従った処理を実行し、変調成分スペクトルG(f)を算出する。
〔数式10〕
G(f)=Hav(f)/{Sav(f)−N(f)}
上記〔数式10〕において、Hav(f)は、ステップS2において参照音声解析手段30により算出された参照音声平均値スペクトルである。〔数式10〕に示したように、変調成分スペクトルG(f)は、ステップS1において対象音声解析手段10により算出された対象音声平均値スペクトルSav(f)から雑音成分スペクトルN(f)を減じた値で、ステップS2において参照音声解析手段30により算出された参照音声平均値スペクトルHav(f)を除算することにより得られることになる。
次に、音声信号補正手段50が、雑音成分の除去を行う(ステップS5)。具体的には、まず、f1以上f2以下(0≦f1<f2≦N/2−1)の各fに対して、以下の〔数式11〕に従った処理を実行し、雑音除去スペクトルS´(f,τ)を算出する。
〔数式11〕
S´(f,τ)=S(f,τ)−α・N(f)
ただし、S´(f,τ)<0となった場合、S´(f,τ)=0とする。
上記〔数式11〕において、S(f,τ)は、ステップS1において対象音声解析手段10により算出された対象音声強度スペクトルである。また、αは、パラメータ設定手段55により設定された、0≦α≦1の実数値である補正係数である。〔数式11〕に示したように、対象音声強度スペクトルS´(f,τ)は、ステップS3において雑音成分スペクトル作成手段20により作成された雑音成分スペクトルN(f)に補正係数αを乗じたものを、ステップS1において対象音声解析手段10により算出された対象音声強度スペクトルS(f,τ)から減じることにより得られることになる。
続いて、音声信号補正手段50は、変調処理を行う(ステップS6)。具体的には、f1以上f2以下(0≦f1<f2≦N/2−1)の各fに対して、以下の〔数式12〕に従った処理を実行し、補正音声強度スペクトルC(f,τ)を算出する。
〔数式12〕
C(f,τ)=S´(f,τ)・G(f)・β
上記〔数式12〕において、S´(f,τ)は、〔数式11〕に従って音声信号補正手段50により算出された雑音除去スペクトルである。また、G(f)は、ステップS4において変調成分スペクトル作成手段40により算出された変調成分スペクトルである。また、βは、パラメータ設定手段55により設定された、0≦β≦1の実数値である補正係数である。〔数式12〕に示したように、補正音声強度スペクトルC(f,τ)は、音声信号補正手段50により算出されたスペクトル雑音除去S´(f,τ)と、変調成分スペクトルG(f)と、補正係数βを乗じることにより得られることになる。
さらに、後段で時間次元に逆変換する都合上、〔数式12〕で算出されたスカラー値の補正音声強度スペクトルC(f,τ)の位相は、対象音声信号S(f,τ)の位相と同一であるという前提で、音声信号補正手段50は、f1以上f2以下(0≦f1<f2≦N/2−1)の各fに対して、以下の〔数式13〕に従った処理を実行し、〔数式12〕で算出されたスカラー値の補正音声強度スペクトルC(f,τ)を複素数値の補正複素スペクトルCr(f,τ)、Ci(f,τ)に変換する。
〔数式13〕
Cr(f,τ)=Sr(f,τ)・C(f,τ)/S(f,τ)
Ci(f,τ)=Si(f,τ)・C(f,τ)/S(f,τ)
〔数式13〕に示したように、補正複素スペクトルCr(f,τ)、Ci(f,τ)は、強度値の比率C(f,τ)/S(f,τ)(補正音声強度スペクトルC(f,τ)を対象音声強度スペクトルS(f,τ)で除したもの)を、ステップS1において対象音声解析手段10により算出された実部Sr(f,τ)、虚部Si(f,τ)に、それぞれ乗じることにより得られることになる。
補正複素スペクトルCr(f,τ)、Ci(f,τ)が得られたら、音声信号補正手段50は、元と同じ時系列形式とするために時間次元逆変換して、補正音声信号を作成する処理を行う(ステップS7)。この時間次元逆変換は、当然のことながら、対象音声解析手段10が実行した手法に対応していることが必要となる。本実施形態では、対象音声解析手段10において、フーリエ変換を施しているため、音声信号補正手段50は、フーリエ逆変換を実行することになる。
具体的には、各フレーム単位で、音声信号補正手段50は、補正複素スペクトルの実部Cr(f,τ)、虚部Ci(f,τ)を用いて、以下の〔数式14〕に従った処理を行い、補正音声信号c(t,τ)を算出する。
〔数式14〕
c(t,τ)=1/N・{ΣfCr(f,τ)・cos(2πft/N)−ΣfCi(f,τ)・sin(2πft/N)}+c(t+N/2,τ−1)
上記〔数式14〕においては、式が繁雑になるのを防ぐため、Σf=0,…,N/2をΣfとして示している。上記〔数式14〕における“+c(t+N/2,τ−1)”の項は、直前フレームのデータc(t,τ−1)が存在する場合に、時間軸上N/2サンプル分重複することを考慮して加算するためのものである。上記〔数式14〕により補正音声信号c(t,τ)が得られることになる。c(t,τ)はフレーム単位の表現であるので、サンプル番号をフレーム内のtから、全体を通したi(i=τ×N/2+t)に変更することにより、補正音声信号c(i)と表現することができる。音声信号補正手段50は、得られた補正音声信号を補正音声信号記憶部63に格納する。
補正音声信号を再生機器により再生し、人間が耳で聴取することにより、明瞭度を確認することができる。補正音声信号c(i)と元の対象音声信号s(i)を聴き比べることにより、補正音声信号c(i)が対象音声信号s(i)に比べて明瞭になっていることがわかる。補正音声信号c(i)を作成する際、パラメータ設定手段55により係数α、βを段階的に変化させて設定することにより、補正音声信号c(i)が、係数α、βに応じて段階的に明瞭化されることが確認できる。
<4.実験例>
上記実施形態に係る録音音声の明瞭化装置により処理される音声信号、スペクトル等の波形を図8〜図14に示す。図8は、対象音声信号s(i)の波形を示しており、横軸が時間、縦軸が振幅である。図9は、参照音声信号h(i)の波形を示しており、横軸が時間、縦軸が振幅である。図10は、対象音声平均値スペクトルSav(f)、参照音声平均値スペクトルHav(f)を示しており、横軸が周波数、縦軸がエネルギーである。図11は、変調スペクトルG(f)を示しており、横軸が周波数、縦軸が変調強度である。図12は、雑音成分スペクトルN(f)を示しており、横軸が周波数、縦軸がエネルギーである。図13は、補正音声信号c(i)の波形を示しており、横軸が時間、縦軸が振幅である。図14は、対象音声平均値スペクトルSav(f)、補正音声平均値スペクトルCav(f)を示しており、横軸が周波数、縦軸がエネルギーである。なお、上記実施形態では、補正音声平均値スペクトルCav(f)は明示的には算出していないが(複素数値で算出しているため図示できない)、図14では、対象音声平均値スペクトルSav(f)との比較のために意図的に算出したものである。
以上、本発明の好適な実施形態について限定したが、本発明は上記実施形態に限定されず、種々の変形が可能である。例えば、上記実施形態では、実質的に補正を行う周波数範囲を200Hz〜6000Hzとしたが、ボイスレコーダの周波数特性に応じて適宜周波数範囲を縮小または拡大することが可能である。例えば、電話回線帯域に抑えられているボイスレコーダを使用する場合、周波数範囲は300Hz〜3400Hzに限定される。
また、上記実施形態では、変数fを周波数に比例した値としているが、MIDIのノートナンバーのように物理的な周波数に対して対数をとった形態としても良い。また、比例や対数以外でも、周波数の変化と密接に関連して変化する変数であれば、他のものを用いても良い。
1・・・CPU(Central Processing Unit)
2・・・RAM(Random Access Memory)
3・・・記憶装置
4・・・キー入力I/F
5・・・可搬型記憶装置
6・・・表示出力I/F
7・・・USB−I/F
8・・・音声入出力I/F
9a・・・マイクロフォン
9b・・・スピーカ
10・・・対象音声解析手段
20・・・雑音成分スペクトル作成手段
30・・・参照音声解析手段
40・・・変調成分スペクトル作成手段
50・・・音声信号補正手段
55・・・パラメータ設定手段
60・・・記憶手段
61・・・対象音声信号記憶部
62・・・参照音声信号記憶部
63・・・補正音声信号記憶部

Claims (6)

  1. 録音により得られ、補正対象とする対象音声信号に対して、別途録音により得られた参照音声信号を用いて、前記対象音声信号の明瞭度を向上させる装置であって、
    前記対象音声信号に対して時間軸方向の所定のフレーム単位で周波数解析を行い、周波数に基づく変数をf、τ番目のフレームをτとした対象音声信号の強度スペクトルである対象音声強度スペクトルS(f,τ)と、前記対象音声信号の前記変数fごとに複数のフレームの平均値で構成される対象音声平均値スペクトルSav(f)を算出する対象音声解析手段と、
    前記参照音声信号に対して時間軸方向の所定のフレーム単位で周波数解析を行い、前記参照音声信号の前記変数fごとに複数のフレームの平均値で構成される参照音声平均値スペクトルHav(f)を算出する参照音声解析手段と、
    前記対象音声平均値スペクトルSav(f)を利用して、雑音成分スペクトルN(f)を作成する雑音成分スペクトル作成手段と、
    前記変数fごとに、前記対象音声平均値スペクトルSav(f)から前記雑音スペクトルN(f)を減算した値によって、前記参照音声平均値スペクトルHav(f)を除した値に基づいて、変調成分スペクトルG(f)を作成する変調成分スペクトル作成手段と、
    前記各フレームτにおいて前記変数fごとに前記対象音声強度スペクトルS(f,τ)に対して前記作成された雑音成分スペクトルN(f)を所定の割合α(0≦α≦1)だけ減算し、更に減算された値に前記作成された変調成分スペクトルG(f)を所定の割合β(0≦β≦1)で乗算し、前記フレームτごとに乗算された値に対して、時間次元変換することによって、前記対象音声信号が補正された補正音声信号を作成する音声信号補正手段と、
    を具備することを特徴とする録音音声の明瞭化装置。
  2. 請求項1において、
    前記対象音声解析手段は、前記対象音声平均値スペクトルSav(f)に加えて、更に前記対象音声信号の前記変数fごとに強度が最小となるフレームで代表される最小値スペクトルSmin(f)を算出するようにし、
    前記雑音成分スペクトル作成手段は、前記最小値スペクトルSmin(f)に基づく値と前記対象音声平均値スペクトルSav(f)に基づく値との対応する前記変数fごとに平均した値に基づいて、前記雑音成分スペクトルN(f)を作成するようにしていることを特徴とする録音音声の明瞭化装置。
  3. 請求項1において、
    前記対象音声解析手段は、前記対象音声信号の中で音声が存在する部分のみに対して周波数解析を行い、
    前記雑音成分スペクトル作成手段は、前記対象音声平均値スペクトルSav(f)そのものを、雑音成分スペクトルN(f)とするようにしていることを特徴とする録音音声の明瞭化装置。
  4. 請求項1から請求項3のいずれか一項において、
    前記音声信号補正手段は、前記各フレームτにおいて前記変数fごとに前記対象音声強度スペクトルS(f,τ)に対して前記作成された雑音成分スペクトルN(f)を所定の割合α(0≦α≦1)だけ減算する際、減算した値が負値になる場合、前記減算した値を0にするような補正を加えるようにしていることを特徴とする録音音声の明瞭化装置。
  5. 請求項1から請求項4のいずれか一項において、
    前記雑音成分スペクトル作成手段は、前記雑音成分スペクトルN(f)を前記変数f=f1を下限とし、前記変数f=f2を上限とする所定の周波数範囲で定義するようにし、
    前記変調成分スペクトル作成手段は、前記変調成分スペクトルG(f)を前記変数f=f1を下限とし、前記変数f=f2を上限とする所定の周波数範囲で定義するようにし、
    前記音声信号補正手段は、前記変数f=f1を下限とし、前記変数f=f2を上限とする所定の周波数範囲で、前記フレームτごとに前記対象音声強度スペクトルS(f,τ)に対して前記作成された雑音成分スペクトルN(f)を所定の割合αだけ減算し、更に減算された値に前記作成された変調成分スペクトルG(f)を所定の割合βで乗算するようにしていることを特徴とする録音音声の明瞭化装置。
  6. 請求項1から請求項5のいずれか一項に記載の録音音声の明瞭化装置として、コンピュータを機能させるためのプログラム。
JP2013033558A 2013-02-22 2013-02-22 録音音声の明瞭化装置 Expired - Fee Related JP6232710B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013033558A JP6232710B2 (ja) 2013-02-22 2013-02-22 録音音声の明瞭化装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013033558A JP6232710B2 (ja) 2013-02-22 2013-02-22 録音音声の明瞭化装置

Publications (2)

Publication Number Publication Date
JP2014164039A true JP2014164039A (ja) 2014-09-08
JP6232710B2 JP6232710B2 (ja) 2017-11-22

Family

ID=51614705

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013033558A Expired - Fee Related JP6232710B2 (ja) 2013-02-22 2013-02-22 録音音声の明瞭化装置

Country Status (1)

Country Link
JP (1) JP6232710B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956979A (zh) * 2019-10-22 2020-04-03 浙江合众新能源汽车有限公司 一种基于matlab的车内语言清晰度自动计算方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1138999A (ja) * 1997-07-16 1999-02-12 Olympus Optical Co Ltd 雑音抑圧装置および雑音抑圧処理プログラムを記録した記録媒体
JP2000322079A (ja) * 1999-05-12 2000-11-24 Denso Corp 音声認識装置及び音声認識方法
JP2002175099A (ja) * 2000-12-06 2002-06-21 Hioki Ee Corp 雑音抑制方法および雑音抑制装置
JP2007011330A (ja) * 2005-06-28 2007-01-18 Harman Becker Automotive Systems-Wavemakers Inc スピーチ信号の適合する強化のためのシステム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1138999A (ja) * 1997-07-16 1999-02-12 Olympus Optical Co Ltd 雑音抑圧装置および雑音抑圧処理プログラムを記録した記録媒体
JP2000322079A (ja) * 1999-05-12 2000-11-24 Denso Corp 音声認識装置及び音声認識方法
JP2002175099A (ja) * 2000-12-06 2002-06-21 Hioki Ee Corp 雑音抑制方法および雑音抑制装置
JP2007011330A (ja) * 2005-06-28 2007-01-18 Harman Becker Automotive Systems-Wavemakers Inc スピーチ信号の適合する強化のためのシステム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
庄境誠 他: ""音声強調手法E-CMN/CSSの自動車環境内での音声認識における評価"", 電子情報通信学会論文誌, vol. 81, no. 1, JPN6017002113, 25 January 1998 (1998-01-25), pages 1 - 9, ISSN: 0003644992 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956979A (zh) * 2019-10-22 2020-04-03 浙江合众新能源汽车有限公司 一种基于matlab的车内语言清晰度自动计算方法

Also Published As

Publication number Publication date
JP6232710B2 (ja) 2017-11-22

Similar Documents

Publication Publication Date Title
US8229738B2 (en) Method for differentiated digital voice and music processing, noise filtering, creation of special effects and device for carrying out said method
EP2539886A2 (en) Apparatus and method for modifying an audio signal using envelope shaping
Alku et al. Closed phase covariance analysis based on constrained linear prediction for glottal inverse filtering
JP4516157B2 (ja) 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
Kumar Real-time performance evaluation of modified cascaded median-based noise estimation for speech enhancement system
Kumar Comparative performance evaluation of MMSE-based speech enhancement techniques through simulation and real-time implementation
US20190172477A1 (en) Systems and methods for removing reverberation from audio signals
Paliwal et al. Role of modulation magnitude and phase spectrum towards speech intelligibility
JP2012208177A (ja) 帯域拡張装置及び音声補正装置
CN112151055A (zh) 音频处理方法及装置
JP6232710B2 (ja) 録音音声の明瞭化装置
JP2008072600A (ja) 音響信号処理装置、音響信号処理プログラム、音響信号処理方法
Degottex et al. A measure of phase randomness for the harmonic model in speech synthesis
JP2021135446A (ja) 音響処理方法
Wei et al. Whispered Speech Enhancement Based on Improved Mel Frequency Scale and Modified Compensated Phase Spectrum
Bous A neural voice transformation framework for modification of pitch and intensity
Vanitha Lakshmi et al. RETRACTED ARTICLE: Noise diminution and formant extraction on vowels for hearing aid users
US11380345B2 (en) Real-time voice timbre style transform
Jokinen et al. Phase modification for increasing the intelligibility of telephone speech in near-end noise conditions–evaluation of two methods
Marxer et al. Modelling and separation of singing voice breathiness in polyphonic mixtures
Rahali et al. Enhancement of noise-suppressed speech by spectral processing implemented in a digital signal processor
JP2019090930A (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
US20240161762A1 (en) Full-band audio signal reconstruction enabled by output from a machine learning model
Siddiq Real-time morphing of impact sounds
Chookaszian Music Visualization Using Source Separated Stereophonic Music

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170926

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171009

R150 Certificate of patent or registration of utility model

Ref document number: 6232710

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees