JP2016024454A - 音声帯域拡張装置および音声帯域拡張方法 - Google Patents

音声帯域拡張装置および音声帯域拡張方法 Download PDF

Info

Publication number
JP2016024454A
JP2016024454A JP2014151326A JP2014151326A JP2016024454A JP 2016024454 A JP2016024454 A JP 2016024454A JP 2014151326 A JP2014151326 A JP 2014151326A JP 2014151326 A JP2014151326 A JP 2014151326A JP 2016024454 A JP2016024454 A JP 2016024454A
Authority
JP
Japan
Prior art keywords
signal
frequency band
band
voice
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014151326A
Other languages
English (en)
Inventor
耕佑 細谷
Kosuke Hosoya
耕佑 細谷
訓 古田
Satoshi Furuta
訓 古田
山浦 正
Tadashi Yamaura
正 山浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2014151326A priority Critical patent/JP2016024454A/ja
Publication of JP2016024454A publication Critical patent/JP2016024454A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephone Function (AREA)

Abstract

【課題】伝送路の影響などにより劣化した音声信号からより音質の良い疑似広帯域音声を生成することが可能な音声帯域拡張装置を得る。
【解決手段】音声信号から当該音声信号の周波数帯域に含まれる第1の周波数帯域のスペクトル包絡を抽出するスペクトル包絡抽出部103と、音声信号の第1の周波数帯域の成分を音声信号と第1の周波数帯域のスペクトル包絡とに基づいて生成された第1の補間信号で置き換えた第1の拡張信号を生成する第1の信号加算部106と、第1の拡張信号に基づいて音声信号の周波数帯域に含まれない第2の周波数帯域のスペクトル包絡を推定するスペクトル包絡推定部203と、第1の拡張信号と第2の周波数帯域のスペクトル包絡とに基づいて生成された第2の周波数帯域の信号である第2の補間信号と第1の拡張信号とから拡張音声信号を生成する第2の信号加算部206と、を備える。
【選択図】 図1

Description

本発明は、音声信号の周波数帯域を疑似的に拡張する音声帯域拡張技術に関する。
従来、電話回線で伝送可能な情報量には制約が設けられており、この制約のため電話回線で伝送される音声信号における音声の周波数帯域は、例えば300〜3400Hzというように帯域制限されている。このような電話回線を通じて伝送された音声信号を受信側で再生した音声の音質は帯域制限の影響で良好なものではない。
これに対し、帯域制限のために音声信号から除去されている周波数帯域を受信側で疑似的に補って拡張し、音質を改善した疑似広帯域音声を生成する音声帯域拡張技術がある。このとき例えば携帯電話などのように通信回線の伝送品質の状況やあるいは雑音混入などの影響で受信した音声信号が劣化する場合、音声信号の劣化が音声帯域拡張をした疑似広帯域音声に影響してしまうため、音声信号の劣化を考慮した音声帯域拡張を行う必要がある。
このような劣化した音声信号に対応した音声帯域拡張技術として、低域通過フィルタ部および高域通過フィルタ部を設け、劣化しやすい帯域の周波数成分を予め除去してから音声帯域拡張を行うことで、入力となる音声信号が劣化している場合にも良好な疑似広帯域音声を生成する方法が提案されている(特許文献1)。
特開2005−10621号公報(図1)
しかしながら上記の従来の音声帯域拡張方法では、例えば帯域制限により音声信号から除去されている高周波数帯域を拡張するとき、低域通過フィルタ部を通過した劣化しやすい周波数帯域の成分が除去された音声信号を高周波数帯域の信号の生成に用いることから、音声帯域拡張に用いられる音声信号の成分が少ないために生成される高周波数帯域(特に6000Hz以上)の信号のスペクトル構造の再現性が悪く、音声の明瞭度が十分に改善されないという問題があった。
この発明は上記の課題を解決するためなされたもので、伝送路の影響などにより劣化した音声信号からより音質の良い疑似広帯域音声を生成することが可能な音声帯域拡張装置を得ることを目的とする。
この発明の音声帯域拡張装置は、音声信号から当該音声信号の周波数帯域に含まれる第1の周波数帯域のスペクトル包絡を抽出するスペクトル包絡抽出部と、音声信号の第1の周波数帯域の成分を音声信号と第1の周波数帯域のスペクトル包絡とに基づいて生成された第1の補間信号で置き換えた第1の拡張信号を生成する第1の信号加算部と、第1の拡張信号に基づいて音声信号の周波数帯域に含まれない第2の周波数帯域のスペクトル包絡を推定するスペクトル包絡推定部と、第1の拡張信号と第2の周波数帯域のスペクトル包絡とに基づいて生成された第2の周波数帯域の信号である第2の補間信号と第1の拡張信号とから拡張音声信号を生成する第2の信号加算部と、を備えたものである。
この発明の音声帯域拡張方法は、入力された音声信号から音声信号の周波数帯域に含まれる第1の周波数帯域のスペクトル包絡を抽出するスペクトル包絡抽出ステップと、音声信号の第1の周波数帯域の成分を音声信号と第1の周波数帯域のスペクトル包絡とに基づいて生成された第1の補間信号で置き換えた第1の拡張信号を生成する第1の信号加算ステップと、第1の拡張信号に基づいて音声信号の周波数帯域に含まれない第2の周波数帯域のスペクトル包絡を推定するスペクトル包絡推定ステップと、第1の拡張信号と第1の拡張信号および第2の周波数帯域のスペクトル包絡に基づいて生成された第2の周波数帯域の信号である第2の補間信号とから生成した拡張音声信号を出力する第2の信号加算ステップと、を備えたものである。
この発明の音声帯域拡張装置によれば、上述のように構成したので、入力された音声信号の第1の周波数帯域のスペクトル包絡を用いて生成した信号で音声信号の当該周波数帯域の成分を置き換え、この置き換えした信号を用いて入力された音声信号に含まれない第2の周波数帯域の音声帯域拡張を行うようにしたので、第1の周波数帯域が劣化した音声信号からより音質の良い疑似広帯域音声を生成することができる。
この発明の音声帯域拡張方法によれば、上述のように構成したので、入力された音声信号の第1の周波数帯域のスペクトル包絡を用いて生成した信号で音声信号の当該周波数帯域の成分を置き換え、この置き換えした信号を用いて入力された音声信号に含まれない第2の周波数帯域の音声帯域拡張を行うようにしたので、第1の周波数帯域が劣化した音声信号からより音質の良い疑似広帯域音声を生成することができる。
この発明の実施の形態1に関わる音声帯域拡張装置の機能構成を示すブロック図である。 実施の形態1の音声帯域拡張装置の処理フローを示すフローチャートである。 実施の形態1の音声帯域拡張装置における入力された音声信号の帯域拡張の過程を示す模式図である。 この発明の実施の形態2に関わる音声帯域拡張装置の機能構成を示すブロック図である。 この発明の実施の形態3に関わる音声帯域拡張装置の機能構成を示すブロック図である。 この発明の実施の形態4に関わる音声帯域拡張装置の機能構成を示すブロック図である。
以下、この発明を実施するための形態を、図面を参照して説明する。なお、以下の説明で参照する図面においては、同一もしくは相当する部分には同一の符号を付している。
実施の形態1.
図1はこの発明の実施の形態1に関わる音声帯域拡張装置の機能構成を示すブロック図である。この実施の形態の音声帯域拡張装置は、第1の音声帯域拡張部100と第2の音声帯域拡張部200を備えている。図1には第1の音声帯域拡張部100と第2の音声帯域拡張部200のそれぞれのブロックの内部構成の一例を合わせて示している。この例では、第1の音声帯域拡張部100は第1の帯域通過フィルタ部101、第1の音源生成部102、スペクトル包絡抽出部103、第1の信号合成部104、第2の帯域通過フィルタ部105、第1の信号加算部106を備えている。また、第2の音声帯域拡張部200は、第2の音源生成部202、スペクトル包絡推定部203、第2の信号合成部204、第3の帯域通過フィルタ部205、第2の信号加算部206を備えている。
この実施の形態の音声帯域拡張装置に入力された音声信号は、第1の音声帯域拡張部100の第1の通過フィルタ部101とスペクトル包絡抽出部103に入力される。ここで音声信号とは、マイクロホンなどで取り込まれた音声などが所定のサンプリング周波数(ここでは一例として16000Hzとする)でA/D(アナログデジタル)変換された後、所定の間隔(例えば10ミリ秒)を単位として分割され(この分割される単位をフレームと称する)、更に所定の周波数帯域(ここでは一例として300〜3400Hzとする)に帯域制限された信号であるものとする。なお、この実施の形態の音声帯域拡張装置は300〜3400Hzの周波数帯域に帯域制限された音声信号の音声帯域拡張を行って300〜7000Hzの拡張音声信号を得るものとする。
第1の帯域通過フィルタ部101は、入力された音声信号(以下、入力音声信号とも称す)のうち、所定の基準周波数(ここでは一例として2000Hzとする)以下の成分を通過させる低域通過処理を行う。第1の帯域通過フィルタ部101が出力した信号は第1の音源生成部102と第1の信号加算部106に入力される。第1の音源生成部102では、第1の帯域通過フィルタ部101が出力した信号に基づいて第1の周波数帯域の調波構造を含む第1の音源信号を生成する。
ここで、第1の周波数帯域とは第1の音声帯域拡張部100が音声帯域拡張によって信号を生成する周波数帯域であり、この音声帯域拡張装置が適用されるシステムにおいて入力音声信号が劣化しやすい周波数帯域であるものとする。この実施の形態における第1の周波数帯域は上述の所定の周波数帯域(300〜3400Hz)における上述の基準周波数(2000Hz)以上の周波数帯域である(すなわち2000Hz〜3400Hz)。なお、ここで示した各周波数は一例であり、この発明は上記の各周波数に限定されるものではなく、それぞれが他の周波数であってもよい。
一方、スペクトル包絡抽出部103は、入力音声信号から第1の周波数帯域のスペクトル包絡を抽出する。第1の信号合成部104は、第1の音源生成部102が生成した第1の音源信号とスペクトル包絡抽出部103が抽出した第1の周波数帯域のスペクトル包絡を合成した信号を生成する。第2の帯域通過フィルタ部105は、第1の信号合成部104が生成した信号の上述の基準周波数以上の成分を通過させるフィルタ処理を行って第1の補間信号を生成する。そして第1の信号加算部106が、第1の帯域通過フィルタ部101が出力した信号と第2の帯域通過フィルタ部105が出力した第1の補間信号を加算した第1の拡張信号を生成する。
第1の音声帯域拡張部100が生成した第1の拡張信号は第2の音声帯域拡張部200の第2の音源生成部202とスペクトル包絡推定部203と第2の信号加算部206に入力される。第2の音源生成部202は第1の拡張信号に基づいて第2の周波数帯域の調波構造を含む第2の音源信号を生成する。ここで、第2の周波数帯域とは第2の音声帯域拡張部200が音声帯域拡張によって信号を生成する周波数帯域であり、この実施の形態では第1の周波数帯域よりも周波数の高い領域の3400〜7000Hzである。また、スペクトル包絡推定部203は、第1の拡張信号に基づいて第2の周波数帯域のスペクトル包絡を推定する。
そして第2の信号合成部204が、第2の音源生成部202が生成した第2の音源信号とスペクトル包絡推定部203が推定した第2の周波数帯域のスペクトル包絡を合成した信号を生成する。この信号は第3の帯域通過フィルタ部205に入力され、第3の帯域通過フィルタ部205は入力された信号の第2の周波数帯域の成分を通過させるフィルタ処理を行って第2の補間信号を生成する。そして、第2の信号加算部206が第1の拡張信号と第3の帯域通過フィルタ部205が生成した第2の補間信号を加算して拡張音声信号である第2の拡張信号を出力する。拡張音声信号から疑似広帯域音声を生成することができる。
上述の第1の音声帯域拡張部100が備える各部と第2の音声帯域拡張部200が備える各部は、ASIC(Application Specific Integrated Circuit)などのハードウェアで実現することが可能であるし、また、メモリ等の周辺回路を備えたプロセッサとプロセッサ上で実行されるソフトウェアとで実現することも可能である。また、これらのハードウェアとソフトウェアを組み合わせて実現することも可能である。
次にこの実施の形態の音声帯域拡張装置の動作を説明する。図2はこの実施の形態の音声帯域拡張装置の処理手順を示すフローチャートである。なお、図2の示すフローチャートは一例であり、同等の結果が得られる範囲において各処理の順序を変更したり、並列化したりしてもよい。
この実施の形態の音声帯域拡張装置は音声信号の入力を受けて処理を開始する。この実施の形態の音声帯域拡張装置の第1の音声帯域拡張部100は、入力音声信号(300〜3400Hz)から抽出された第1の周波数帯域(2000〜3400Hz)のスペクトル包絡に基づいて入力音声信号の基準周波数以下(300〜2000Hz)の成分を用いて音声帯域拡張を行って、入力音声信号と同じ周波数帯域の信号である第1の拡張信号(300〜3400Hz)を音声帯域拡張部200に出力する。
第2の音声帯域拡張部200は入力された第1の拡張信号(300〜3400Hz)を用いて第2の周波数帯域(3400〜7000Hz)の音声帯域拡張を行って第2の拡張信号(300〜7000Hz)を出力する。第2の拡張信号がこの実施の形態の音声帯域拡張装置の出力する拡張音声信号である。以下、音声帯域拡張部100および音声帯域拡張部200の動作の詳細を説明する。
第1の音声帯域拡張部100の第1の帯域通過フィルタ部101は、入力音声信号の所定の周波数の成分を通過させて出力する(ST101)。この実施の形態では、入力音声信号のうち前述の基準周波数(2000Hz)以下の成分を出力する。第1の帯域通過フィルタ部101において基準周波数以下の成分の通過に用いられるフィルタはFIR(Finite Impulse Response)フィルタ、IIR(Infinite Impulse Response)フィルタなどで構成すればよい。図3の(1)に振幅スペクトルで表した入力音声信号の一例を示す。第1の帯域通過フィルタ部101は図3の(1)に示す2000Hz以下の成分を通過させて出力する。
第1の音源生成部102は、第1の帯域通過フィルタ部101から出力された信号に対して非線形処理を行って、第1の周波数帯域(2000〜3400Hz)の調波構造を含む第1の音源信号を生成する(ST102)。第1の音源信号を生成する非線形処理としては、例えば二乗処理、全波整流、半波整流を用いることができるし、これら以外の処理で行ってもよい。
スペクトル包絡抽出部103は、入力音声信号から第1の周波数帯域(2000〜3400Hz)のスペクトル包絡(第1のスペクトル包絡)を抽出する(ST103)。ここでは、スペクトル包絡として平均振幅スペクトル値を用いることとする。平均振幅スペクトル値は通信回線状況や雑音混入などの影響を受けにくい情報であり、平均振幅スペクトル値を用いて後述の第1の信号合成部104の処理を行うことで、この信号合成処理を行わない場合に比べて、第1の周波数帯域(2000〜3400Hz)の再現性を向上することができる。
なお、平均振幅スペクトル値はいくつかの入力信号をいくつかの帯域(サブ帯域)に分けて抽出するようにしてもよい。このようにすることでより高精度に平均振幅スペクトル値を抽出できるようになる。
また、ここではスペクトル包絡として平均振幅スペクトル値を例としてあげているが、調波構造の情報を用いずにスペクトル包絡を抽出することができればよく、LPC(Linear Predictive Coding)包絡、LSP(Line Spectral Pairs)包絡、ケプストラル包絡などを用いてもよい。
第1の信号合成部104は、第1の音源生成部102で生成された第1の音源信号とスペクトル包絡抽出部103で取得された第1のスペクトル包絡を合成した信号を生成する(ST104)。
第2の帯域通過フィルタ部105は、第1の信号合成部104で生成された信号の基準周波数以上の成分(2000〜3400Hzの成分)を通過させるフィルタ処理を行う(ST105)。なお、第2の帯域通過フィルタ部105はFIRフィルタ、IIRフィルタなどを用いて実現すればよい。
第1の信号加算部106は、第1の帯域通過フィルタ部101から出力された信号と第2の帯域通過フィルタ部105から出力された信号(第1の補間信号)を加算した第1の拡張信号を生成する(ST106)。このように第1の拡張信号は、入力音声信号の2000〜3400Hzの周波数の成分が、入力音声信号と第1の周波数帯域のスペクトル包絡とに基づいて第1の音声帯域拡張部100内で生成された2000〜3400Hzの周波数帯域の第1の補間信号で置き換えられた信号である。
図3の(2)に同図の(1)で示した例の音声入力信号を第1の音声帯域拡張部100が音声帯域拡張した第1の拡張信号の例を示す。図3の(2)では2000〜3400Hzの成分が音声帯域拡張部100で生成された信号に置き換えられている。
次に第2の音声帯域拡張部200の処理を説明する。第2の音声帯域拡張部200の第2の音源生成部202は、第1の音声帯域拡張部100から出力された第1の拡張信号に対して非線形処理を行って、第2の周波数帯域である3400〜7000Hzの周波数帯域の調波構造を含む第2の音源信号を生成する(ST107)。ここで第2の音源信号を生成するために行う非線形処理は、第1の音源生成部102と同じ非線形処理であってもよいし、別の非線形処理であってもよい。
そして、スペクトル包絡推定部203が第1の音声帯域拡張部100から出力された第1の拡張信号からあらかじめ用意された学習モデルを用いて第2の周波数帯域のスペクトル包絡(第2のスペクトル包絡)を推定する(ST108)。ここでは、推定するスペクトル包絡を平均振幅スペクトル値とし、第1の拡張信号の平均振幅スペクトル値から推定するものとする。なお、平均振幅スペクトル値に限らず、LPC包絡、LSP包絡、ケプストラル包絡など調波構造の情報を用いずに推定できるスペクトル包絡としてもよい。
また、スペクトル包絡推定部203で推定に用いられる学習モデルは、一般的なアルゴリズムにより作成されたものでよく、例えば線形回帰予測により作成されたモデルやニューラルネットワークを用いて作成されたモデルなどが挙げられる。
なお、推定するスペクトル包絡を平均振幅スペクトル値のような平滑化された値にすることで、入力音声信号に低SN(Signal to Noise)比で雑音が混入した場合にも拡張音声信号に与える影響が少ないスペクトル包絡推定が可能となる。
また、第1の拡張信号の平均振幅スペクトル値、推定する第2の周波数帯域の平均振幅スペクトル値をいくつかのサブ帯域に分けるようにしてもよい。このようにすることで、より高精度に第2の周波数帯域のスペクトル包絡を推定できる効果がある。
また、第1の拡張信号をいくつかのサブ帯域に分ける際にはサブ帯域ごとの雑音量推定を行い、推定雑音量が少ないサブ帯域のみを用いて第2の周波数帯域の平均振幅スペクトル値を求めてもよい。このようにすることで、入力音声信号に混入した雑音が平均振幅スペクトル値の推定に与える影響を抑圧する効果がある。
また、推定する平均振幅スペクトル値に上限値を設けてもよい。このようにすることで、平均振幅スペクトル値が理想的な広帯域の音声信号よりも過剰に推定されることを防ぐ効果がある。このとき、上限値は固定値でも構わないし、第1の拡張信号の平均振幅スペクトル値に応じてフレームごとに動的に変更されるようにしてもよい。
また、音韻によってスペクトルの態様は異なるため、音韻特徴に応じて上記の上限値が切り替えられるようにしてもよい。例えば、音声の無声摩擦部のスペクトルの振幅スペクトル値は高域になるにしたがい、大きくなることが知られているので、無声摩擦部では上限値を大きくすることが考えられる。このようにすることでより帯域拡張した音声の明瞭性を向上する効果が期待できる。
また、スペクトル包絡の推定に用いる尺度として、振幅スペクトルの代わりにパワースペクトルなどを元いるようにしてもよい。
第2の信号合成部204は、第2の音源生成部202で生成された第2の周波数帯域の調波構造を含む第2の音源信号にスペクトル包絡推定部203で推定されたスペクトル包絡を合成した信号を生成する(ST109)。
第3の帯域通過フィルタ部205は、第2の信号合成部204で生成された信号の第2の周波数帯域の成分を通過させるフィルタ処理行って第2の補間信号を生成する(ST110)。この実施の形態では、3400〜7000Hzの成分が第3の帯域通過フィルタ部205を通過する。第3の帯域通過フィルタ部205はFIRフィルタ、IIRフィルタなどを用いて構成すればよい。
第2の信号加算部206では、第1の音声帯域拡張部100から出力された第1の拡張信号と第3の帯域通過フィルタ部205が出力した第2の補間信号を加算した第2の拡張信号(拡張音声信号)を生成する(ST111)。このように第2の拡張信号は、第1の拡張信号と、第1の拡張信号から推定されたスペクトル包絡と第1の拡張信号とに基づいて生成された3400〜7000Hzの周波数帯域の第2の補間信号とから生成された信号である。
図3の(3)に同図の(1)に示した例の入力音声信号を第1の音声帯域拡張部100と第2の音声帯域拡張部200で音声帯域拡張した拡張音声信号の例を示す。図3の(3)は、図3の(2)に示した第1の拡張信号を用いて3400〜7000Hzの第2の周波数帯域の音声帯域拡張が行われたことを示している。
以上のようにこの実施の形態の音声帯域拡張装置では、入力音声信号から第1の周波数帯域のスペクトル包絡を抽出して、取得したスペクトル包絡を用いて生成した第1の補間信号で入力音声信号の第1の周波数帯域の成分を置き換えた第1の拡張信号を生成する第1の周波数帯域の音声帯域拡張を行い、生成した第1の拡張信号を用いて第1の周波数帯域よりも高い周波帯の音声帯域拡張を行って帯域拡張音声信号を得るようにした。通信回線状況、雑音混入などの影響による信号の劣化の影響を受けにくいスペクトル包絡を用いて第1の周波数帯の音声帯域拡張をするようにしたことで、入力音声信号の第1の周波数帯域の成分が通信回線状況、雑音混入などの影響で劣化している場合に、第1の周波数帯域の成分を除去した音声信号に基づいて音声帯域拡張を行う場合よりも明瞭度が高く音質の良い疑似広帯域音声を得ることができる拡張音声信号を生成することが可能である。
なお、本実施の形態では、第1の周波数帯域の高域側の音声帯域拡張を実施しているが、必要に応じて低域側のみあるいは低域側および高域側など、入力された音声信号の周波数帯域に含まれない領域の音声帯域拡張を行うようにしてもよい。
実施の形態2.
次に、入力音声信号から抽出した第1の周波数帯のスペクトル包絡を第2の周波数帯域のスペクトル包絡推定に利用する実施の形態を説明する。図4はこの実施の形態に関わる音声帯域拡張装置の機能構成を示すブロック図である。図1に示した実施の形態1の音声帯域拡張装置に対して、スペクトル包絡抽出部103が出力する第1のスペクトル包絡がスペクトル包絡推定部203に入力されている点が異なる。
次にこの実施の形態の音声帯域拡張装置の動作を説明する。この実施の形態のスペクトル包絡抽出部103は入力音声信号の第1の周波数帯域のスペクトル包絡に加えて、それ以外の周波数帯域のスペクトル包絡を抽出して第1のスペクトル包絡として出力する。また、この実施の形態のスペクトル包絡推定部203はスペクトル包絡抽出部103が出力する第1のスペクトル包絡に基づいて第2の周波数帯域のスペクトル包絡を推定する。その他の音声帯域拡張装置の各部の動作は実施の形態1の音声帯域拡張装置と同様である。
この実施の形態の音声帯域拡張装置によれば、スペクトル包絡抽出部103で入力音声信号の第1の周波数帯域以外の周波数帯域のスペクトル包絡も抽出し、スペクトル包絡抽出部103で抽出された第1のスペクトル包絡をスペクトル包絡推定部203で用いる構成にしたので、実施の形態1の音声帯域拡張装置が奏する効果に加えて、スペクトル包絡推定部203においてスペクトル包絡を抽出する処理を行う必要がなくなり、音声帯域拡張装置全体としての処理量を低減できるという効果が得られる。
実施の形態3.
次に、入力音声信号において劣化している帯域を動的に検出して、上述の基準周波数を適応的に決定する実施の形態を説明する。図5はこの実施の形態に関わる音声帯域拡張装置の機能構成を示すブロック図である。図1に示した実施の形態1の音声帯域拡張装置に対し、劣化帯域分析部110が新たに追加されている。劣化帯域分析部110は音声信号が入力され、劣化帯域情報を出力する。劣化帯域分析部110が出力する劣化帯域情報は第1の帯域通過フィルタ部101cと第2の帯域通過フィルタ部105cに入力される。
次に動作を説明する。劣化帯域分析部110は、入力音声信号を分析して入力音声信号中の劣化した帯域を検出し、検出した劣化した帯域を示す劣化帯域情報を出力する。
劣化帯域分析部110において劣化した帯域を検出する方法として、例えば入力音声信号をいくつかのサブ帯域に分け、サブ帯域ごとの自己相関値を分析して検出する方法がある。この方法によれば、他のサブ帯域と比較して自己相関値の低いサブ帯域を劣化した帯域として検出する。なお、自己相関値の高低を判断するためのしきい値はあらかじめ定めておいた値を使用すればよい。
また、入力音声信号をいくつかのサブ帯域に分け、サブ帯域ごとのスペクトル構造の山と谷の振幅スペクトル値の差分を分析して検出するようにしてもよい。この方法によれば、他のサブ帯域と比較して山と谷の差分が小さい帯域を劣化した帯域として検出する。
第1の帯域通過フィルタ部101cと第2の帯域通過フィルタ部105cは、劣化帯域分析部110が出力した劣化帯域情報をもとに基準周波数を適応的に変化させて帯域通過処理を行う。その他の処理は実施の形態1と同様である。
この実施の形態の音声帯域拡張装置によれば、入力音声信号の劣化している周波数帯域を検出する劣化帯域分析部110を備え、第1の帯域通過フィルタ部101cと第2の帯域通過フィルタ部105cが劣化帯域分析部110から出力される劣化帯域情報に基づいて基準周波数を決定するようにしたことで、実施の形態1の音声帯域拡張装置が奏する効果に加えて、入力される音声信号において劣化する帯域が時間的に変化する場合でも、その変化に追従して劣化した帯域を第1の音声帯域拡張部100cで生成した信号に置き換えることが可能となり、入力される音声信号の劣化した帯域の変化に動的に対応した音声帯域拡張を行うことができるという効果がある。
実施の形態4.
実施の形態3の変形例として、劣化帯域情報を第2の周波数帯域の音声帯域拡張において使用する実施の形態を説明する。図6はこの実施の形態の音声帯域拡張装置の機能構成を示すブロック図である。図6の音声帯域拡張装置は、図5で示した実施の形態3の音声帯域拡張装置に対し、劣化帯域分析部110dが出力する劣化帯域情報が第2の信号加算部206dに入力されている点と、音声信号が第2の信号加算部206dに入力されている点が異なる。なお、劣化帯域情報は劣化した帯域を示す情報に加えて、例えば劣化帯域分析部110dが求めたサブ帯域ごとの自己相関値などの劣化度合いを示す情報を含むものとする。その他は、実施の形態3と同様である。
次にこの実施の形態の音声帯域拡張装置の動作を実施形態3の音声帯域拡張装置との差分を中心に説明する。第2の信号可算部206dは第1の周波数帯域について、劣化帯域情報に基づいて劣化の度合いの大きい帯域は第1の拡張信号を、劣化の度合いの小さい帯域は入力音声信号を、第3の帯域通過フィルタが出力する信号に加算する信号として決定する。なお、劣化度合いの大小の判断はあらかじめ定めたしきい値を用いるようにすればよい。また、しきい値は帯域ごとに異なるものであってもよい。
この実施の形態の音声帯域拡張装置によれば、劣化帯域分析部110dが出力する劣化帯域情報に基づいて第2の信号加算部206dが入力音声信号と第1の拡張信号のいずれを第2の拡張信号の成分として出力するかを決定するようにしたので、実施の形態3の音声帯域拡張装置が奏する効果に加えて、入力された音声信号の第1の周波数帯域の成分のうち、劣化の度合いが小さい帯域の成分については入力された音声信号の成分を拡張音声信号として出力することが可能となり、帯域拡張された音声の明瞭度をより高くできるという効果を奏する。
実施の形態5.
実施の形態4の変形例として、第2の信号加算部206dが劣化帯域情報を使用せずに、入力音声信号の劣化を判断して信号を加算するようにすることも可能である。
第2の信号加算部206dが入力音声信号の劣化度合いを判断する方法としては、例えば第1の拡張信号と推定雑音とのSN比、入力音声信号と推定雑音のSN比をそれぞれ計算し、SN比が高い帯域を劣化度合いが高い帯域とする方法がある。なお、推定雑音を算出する方法は特定の方法に限定されず、例えば、発話区間検出を行って非発話区間において忘却的に推定雑音を学習する方法などを用いればよい。
また、別の例として、第1の拡張信号と入力音声信号の周波数成分を周波数帯域ごとに比較して判断するようにしてもよい。例えば周波数成分として振幅スペクトル値を用いる場合、振幅スペクトル値が入力音声信号よりも第1の拡張信号の方が大きい場合にその周波数帯域については第1の拡張信号の成分を使用するようにする。
第1の拡張信号と入力音声信号を比較していずれの信号を第2の信号加算処理部206dで使用するかを決定することで、より最適な信号を周波数帯域ごとに選択できるので、実施の形態4の音声帯域拡張装置が奏する効果に加えて、帯域拡張された音声の明瞭度をさらに高くできるという効果を奏する。
なお、上述の実施の形態1から実施形態5ではいずれも第1の音声帯域拡張部100と第2の音声帯域拡張部200が分離された構成を示しているが、一体化された構成であってもよい。
100,100b,100c,100d 第1の音声帯域拡張部、101,101c 第1の帯域通過フィルタ部、102 第1の音源生成部、103 スペクトル包絡抽出部、104 第1の信号合成部、105,105c 第2の帯域通過フィルタ部、106 第1の信号加算部、110 劣化帯域分析部、200,200b,100d 第2の音声帯域拡張部、202 第2の音源生成部、203 スペクトル包絡推定部、204 第2の信号合成部、205 第3の帯域通過フィルタ部、206,206d 第2の信号加算部。

Claims (7)

  1. 音声信号から当該音声信号の周波数帯域に含まれる第1の周波数帯域のスペクトル包絡を抽出するスペクトル包絡抽出部と、
    前記音声信号の前記第1の周波数帯域の成分を前記音声信号と前記第1の周波数帯域のスペクトル包絡とに基づいて生成された第1の補間信号で置き換えた第1の拡張信号を生成する第1の信号加算部と、
    前記第1の拡張信号に基づいて前記音声信号の周波数帯域に含まれない第2の周波数帯域のスペクトル包絡を推定するスペクトル包絡推定部と、
    前記第1の拡張信号と前記第2の周波数帯域のスペクトル包絡とに基づいて生成された前記第2の周波数帯域の信号である第2の補間信号と前記第1の拡張信号とから拡張音声信号を生成する第2の信号加算部と、
    を備えたことを特徴とする音声帯域拡張装置。
  2. 前記音声信号に基づいて前記音声信号が劣化した周波数帯域を検出する劣化帯域分析部を備え、
    前記第1の信号加算部は、前記音声信号の前記劣化帯域分析部において検出された前記劣化した周波数帯域の成分が前記第1の補間信号で置き換えられた前記第1の拡張信号を生成する
    ことを特徴とする請求項1に記載の音声帯域拡張装置。
  3. 前記第2の信号加算部は、前記劣化帯域分析部で検出された前記劣化した周波数帯域について、前記音声信号または前記第1の拡張信号のいずれかを選択して前記拡張音声信号の前記劣化した周波数帯域の成分とする
    ことを特徴とする請求項2記載の音声帯域拡張装置。
  4. 前記第2の信号加算部は、前記音声信号と前記第1の拡張信号とに基づいて前記音声信号の劣化した周波数帯域を検出し、検出した当該劣化した周波数帯域について前記第1の拡張信号を前記拡張音声信号の前記劣化した周波数帯域の成分とする
    ことを特徴とする請求項1または請求項2に記載の音声帯域拡張装置。
  5. 前記スペクトル包絡抽出部は、前記音声信号の前記第1の周波数帯域以外の周波数帯域のスペクトル包絡を抽出し、
    前記スペクトル包絡推定部は、前記スペクトル包絡抽出部が抽出した前記第1の周波数帯域および前記第1の周波数帯域以外の周波数帯域のスペクトル包絡に基づいて、前記第2の周波数帯域のスペクトル包絡を推定する
    ことを特徴とする請求項1から請求項4のいずれか一項に記載の音声帯域拡張装置。
  6. 前記音声信号は定められた周波数帯域に帯域制限されていることを特徴とする請求項1から請求項5のいずれか一項に記載の音声帯域拡張装置。
  7. 入力された音声信号から前記音声信号の周波数帯域に含まれる第1の周波数帯域のスペクトル包絡を抽出するスペクトル包絡抽出ステップと、
    前記音声信号の前記第1の周波数帯域の成分を前記音声信号と前記第1の周波数帯域のスペクトル包絡とに基づいて生成された第1の補間信号で置き換えた第1の拡張信号を生成する第1の信号加算ステップと、
    前記第1の拡張信号に基づいて前記音声信号の周波数帯域に含まれない第2の周波数帯域のスペクトル包絡を推定するスペクトル包絡推定ステップと、
    前記第1の拡張信号と前記第1の拡張信号および前記第2の周波数帯域のスペクトル包絡に基づいて生成された前記第2の周波数帯域の信号である第2の補間信号とから生成した拡張音声信号を出力する第2の信号加算ステップと、
    を備えたことを特徴とする音声帯域拡張方法。
JP2014151326A 2014-07-25 2014-07-25 音声帯域拡張装置および音声帯域拡張方法 Pending JP2016024454A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014151326A JP2016024454A (ja) 2014-07-25 2014-07-25 音声帯域拡張装置および音声帯域拡張方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014151326A JP2016024454A (ja) 2014-07-25 2014-07-25 音声帯域拡張装置および音声帯域拡張方法

Publications (1)

Publication Number Publication Date
JP2016024454A true JP2016024454A (ja) 2016-02-08

Family

ID=55271212

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014151326A Pending JP2016024454A (ja) 2014-07-25 2014-07-25 音声帯域拡張装置および音声帯域拡張方法

Country Status (1)

Country Link
JP (1) JP2016024454A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109686347A (zh) * 2018-11-30 2019-04-26 北京达佳互联信息技术有限公司 音效处理方法、音效处理装置、电子设备和可读介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0685607A (ja) * 1992-08-31 1994-03-25 Alpine Electron Inc 高域成分復元装置
JP2004134900A (ja) * 2002-10-09 2004-04-30 Matsushita Electric Ind Co Ltd 符号化信号復号化装置および復号化方法
JP2008033211A (ja) * 2006-06-26 2008-02-14 Sony Corp 付加信号生成装置、信号変換された信号の復元装置、付加信号生成方法、信号変換された信号の復元方法および付加信号生成プログラム
JP2008122597A (ja) * 2006-11-10 2008-05-29 Sanyo Electric Co Ltd オーディオ信号処理装置及びオーディオ信号処理方法
JP2014021307A (ja) * 2012-07-19 2014-02-03 Mitsubishi Electric Corp 音声信号復元装置および音声信号復元方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0685607A (ja) * 1992-08-31 1994-03-25 Alpine Electron Inc 高域成分復元装置
JP2004134900A (ja) * 2002-10-09 2004-04-30 Matsushita Electric Ind Co Ltd 符号化信号復号化装置および復号化方法
JP2008033211A (ja) * 2006-06-26 2008-02-14 Sony Corp 付加信号生成装置、信号変換された信号の復元装置、付加信号生成方法、信号変換された信号の復元方法および付加信号生成プログラム
JP2008122597A (ja) * 2006-11-10 2008-05-29 Sanyo Electric Co Ltd オーディオ信号処理装置及びオーディオ信号処理方法
JP2014021307A (ja) * 2012-07-19 2014-02-03 Mitsubishi Electric Corp 音声信号復元装置および音声信号復元方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109686347A (zh) * 2018-11-30 2019-04-26 北京达佳互联信息技术有限公司 音效处理方法、音效处理装置、电子设备和可读介质

Similar Documents

Publication Publication Date Title
JP4423300B2 (ja) 雑音抑圧装置
KR101667865B1 (ko) 음성 주파수 신호 처리 방법 및 장치
JP4670483B2 (ja) 雑音抑圧の方法及び装置
RU2651218C2 (ru) Гармоническое расширение полосы аудиосигналов
JP5923994B2 (ja) 音声処理装置及び音声処理方法
JP2013534651A (ja) 計算聴覚シーン解析に基づくモノラルノイズ抑制
JPWO2007029536A1 (ja) 雑音抑圧の方法及び装置並びにコンピュータプログラム
JP6073456B2 (ja) 音声強調装置
JP5595605B2 (ja) 音声信号復元装置および音声信号復元方法
JP5232121B2 (ja) 信号処理装置
JP2004341339A (ja) 雑音抑圧装置
JP5782402B2 (ja) 音声品質客観評価装置及び方法
JP2000330597A (ja) 雑音抑圧装置
JP6162254B2 (ja) 背景ノイズにおけるスピーチ了解度を増幅及び圧縮により向上させる装置と方法
KR101850693B1 (ko) 인-이어 마이크로폰을 갖는 이어셋의 대역폭 확장 장치 및 방법
JP5840087B2 (ja) 音声信号復元装置および音声信号復元方法
JP2009223210A (ja) 信号帯域拡張装置および信号帯域拡張方法
JP4922427B2 (ja) 信号補正装置
JP2016024454A (ja) 音声帯域拡張装置および音声帯域拡張方法
Chanda et al. Speech intelligibility enhancement using tunable equalization filter
KR100931487B1 (ko) 노이지 음성 신호의 처리 장치 및 그 장치를 포함하는 음성기반 어플리케이션 장치
JP5458057B2 (ja) 信号広帯域化装置、信号広帯域化方法、及びそのプログラム
US9111527B2 (en) Encoding device, decoding device, and methods therefor
JP6140685B2 (ja) 帯域パワー算出装置及び帯域パワー算出方法
Schasse et al. Efficient implementation of single-channel noise reduction for hearing aids using a cascaded filter-bank

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180109

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20180112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180215

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180313