JP2010237703A - 音信号加工装置及び音信号加工方法 - Google Patents

音信号加工装置及び音信号加工方法 Download PDF

Info

Publication number
JP2010237703A
JP2010237703A JP2010131107A JP2010131107A JP2010237703A JP 2010237703 A JP2010237703 A JP 2010237703A JP 2010131107 A JP2010131107 A JP 2010131107A JP 2010131107 A JP2010131107 A JP 2010131107A JP 2010237703 A JP2010237703 A JP 2010237703A
Authority
JP
Japan
Prior art keywords
unit
speech
spectrum
sound
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010131107A
Other languages
English (en)
Other versions
JP4684359B2 (ja
Inventor
Hirohisa Tazaki
裕久 田崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2010131107A priority Critical patent/JP4684359B2/ja
Publication of JP2010237703A publication Critical patent/JP2010237703A/ja
Application granted granted Critical
Publication of JP4684359B2 publication Critical patent/JP4684359B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Abstract

【課題】量子化雑音などの劣化音を含む入力音信号に対して、主観的に劣化音を感じにくく加工する音信号加工方法および音信号加工装置を提供する。
【解決手段】入力音信号としての復号音声の聴覚重み付け後のスペクトルを変形強度制御部で算出、その振幅の大きさ、スペクトルの連続性に基き、変形強度を算出する。信号変形部で、復号音声のスペクトルを求め、変形強度に基き振幅平滑化、位相擾乱付与を行い、信号領域に戻して変形復号音声とする。信号評価部で、復号音声を分析し背景雑音らしさを求め、これを加算制御値とする。重み付き加算部で、加算制御値が背景雑音らしいことを示す場合には、復号音声への重みを減らし、変形復号音声への重みを増やして加算し、出力音声とする。
【選択図】図1

Description

本発明は、音声や楽音などの符号化復号化処理によって発生する量子化雑音や、雑音抑圧処理などのさまざまな信号加工処理によって生じる歪み、などの主観的に好ましくない成分を主観的に感じにくいように加工する音信号加工方法および音信号加工装置に関する。
音声や楽音などの情報源符号化の圧縮率を高めていくと、次第に符号化時の歪みである量子化雑音が増えてくるし、量子化雑音が変形してきて主観的に耐えられないものになってくる。一例を挙げて説明すると、PCM(Pulse Code Modulation)やADPCM(Adaptive Differential Pulse Code Modulation)のような信号自体を忠実に表現しようとする音声符号化方式の場合には、量子化雑音は乱数状であり、主観的にもあまり気にならないが、圧縮率が高まり、符号化方式が複雑になるにつれて、量子化雑音に符号化方式固有のスペクトル特性が表れ、主観的に大きな劣化となる場合がでてくる。特に背景雑音が支配的な信号区間においては、高圧縮率の音声符号化方式が利用している音声モデルが合わないため、非常に聞き苦しい音となってしまう。
また、スペクトルサブトラクション法などの雑音抑圧処理を行った場合、雑音の推定誤差が処理後の信号上に歪みとして残り、これが処理前の信号と大きく異なる特性をもっているために、主観評価を大きく劣化させることがある。
上記のような量子化雑音や歪みによる主観評価の低下を抑制する従来の方法としては、特開平8−130513号、特開平8−146998号、特開平7−160296号、特開平6−326670号、特開平7−248793号、およびS.F.Boll著 ractionSSP−27, No.2, pp.113−120, April 1979)(以降文献1と呼ぶ)に開示されているものがある。
特開平8−130513号は、背景雑音区間の品質改善を目的としたもので、背景雑音のみの区間であるか否かを判定して、背景雑音のみの区間に専用の符号化処理または復号化処理を行うようにし、背景雑音のみの区間の復号化を行う場合に合成フィルタの特性を抑制することで、聴感的に自然な再生音を得るようにしたものである。
特開平8−146998号は、白色雑音が符号化復号化によって耳障りな音色になることを抑制することを狙って、復号音声に対して白色雑音や予め格納しておいた背景雑音を加えるようにしたものである。
特開平7−160296号は、量子化雑音を聴感的に低減することを狙って、復号音声または音声復号化部が受信したスペクトルパラメータに関するインデックスを基に、聴覚マスキング閾値を求め、これを反映したフィルタ係数を求めて、この係数をポストフィルタに使用するようにしたものである。
特開平6−326670号は、通信電力制御などのために音声を含まない区間で符号伝送を停止するシステムでは、符号伝送の無い時には復号側で疑似背景雑音を生成して出力するが、この時に発生する、音声区間に含まれる実際の背景雑音と無音区間の疑似背景雑音の間の違和感を軽減することを狙ったもので、音声を含まない区間だけでなく音声区間にも疑似背景雑音を重畳するようにしたものである。
特開平7−248793号は、雑音抑圧処理によって発生する歪み音を聴感的に軽減することを目的としたもので、符号化側では、まず雑音区間か音声区間か判定し、雑音区間では雑音スペクトルを伝送し、音声区間では雑音抑圧処理後のスペクトルを伝送し、復号化側では、雑音区間では受信した雑音スペクトルを用いて合成音を生成して出力し、音声区間では受信した雑音抑圧処理後のスペクトルを用いて生成した合成音に、雑音区間で受信した雑音スペクトルを用いて生成した合成音に重畳倍率を乗じて加算して出力するようにしたものである。
文献1は、雑音抑圧処理によって発生する歪み音を聴感的に軽減することを狙い、雑音抑圧処理後の出力音声に対して、時間的に前後の区間と振幅スペクトル上の平滑化を行い、更に背景雑音区間に限って振幅抑圧処理を行っている。
特開平8−130513号 特開平8−146998号 特開平7−160296号 特開平6−326670号 特開平7−248793号 特開平5−224698号 特開平5−027799号
S.F.Boll著 ractionSSP−27, No.2, pp.113−120, April 1979)
上記の従来法には、以下に述べる課題がある。
特開平8−130513号には、符号化処理や復号化処理を区間判定結果に従って大きく切り替えているために、雑音区間と音声区間の境界で特性の急変が起こる課題がある。特に雑音区間を音声区間と誤判定することが頻繁に起こった場合、本来比較的定常である雑音区間が不安定に変動してしまい、かえって雑音区間の劣化を起こす場合がある。雑音区間判定結果を伝送する場合、伝送するための情報の追加が必要で、更にその情報が伝送路上で誤った場合に、不必要な劣化を引き起こす課題がある。また、合成フィルタの特性を抑制するだけでは、音源符号化の際に生じる量子化雑音は軽減されないため、雑音種によっては改善効果がほとんど得られない課題がある。
特開平8−146998号には、予め用意してある雑音を加えてしてしまうために、符号化された現在の背景雑音の特性が失われてしまう課題がある。劣化音を聞こえにくくするためには劣化音を上回るレベルの雑音を加える必要があり、再生される背景雑音が大きくなってしまう課題がある。
特開平7−160296号では、スペクトルパラメータに基づいて聴覚マスキング閾値を求めて、これに基づいてスペクトルポストフィルタを行うだけであるので、スペクトルが比較的平坦な背景雑音などでは、マスキングされる成分もほとんどなく、全く改善効果が得られない課題がある。また、マスキングされない主要成分については、大きな変化を与えることができないので、主要成分に含まれている歪みについては何らの改善効果も得られない課題がある。
特開平6−326670号では、実際の背景雑音に関係なく疑似背景雑音を生成しているので、実際の背景雑音の特性が失われてしまう課題がある。
特開平7−248793号には、符号化処理や復号化処理を区間判定結果に従って大きく切り替えているために、雑音区間か音声区間かの判定を誤ると大きな劣化を引き起こす課題がある。雑音区間の一部を音声区間と誤った場合には、雑音区間内の音質が不連続に変動して聞き苦しくなる。逆に音声区間を雑音区間と誤った場合には、平均雑音スペクトルを用いた雑音区間の合成音と、音声区間で重畳される雑音スペクトルを用いた合成音に音声成分が混入し、全体的に音質劣化が起こる課題がある。更に、音声区間における劣化音を聞こえなくするためには、決して小さくない雑音を重畳することが必要である。
文献1には、平滑化のために半区間分(10ms〜20ms程度)の処理遅延が発生する課題がある。また、雑音区間内の一部を音声区間と誤判定してしまった場合、雑音区間内の音質が不連続に変動して聞き苦しくなる課題がある。
この発明は、かかる課題を解決するためになされたものであり、区間判定誤りによる劣化が少なく、雑音種やスペクトル形状への依存度が少なく、大きな遅延時間を必要としない、実際の背景雑音の特性を残すことができ、背景雑音レベルを過度に大きくすることがなく、新たな伝送情報の追加が不要で、音源符号化などによる劣化成分についても良好な抑圧効果を与えることのできる音信号加工方法および音信号加工装置を提供することを目的としている。
入力音信号を加工して第一の加工信号を生成し、前記入力音信号を分析して所定の評価値を算出し、この評価値に基づいて前記入力音信号と前記第一の加工信号を重み付け加算して第二の加工信号とし、この第二の加工信号を出力信号とすることを特徴とする。
また、更に、前記第一の加工信号生成方法は、前記入力音信号をフーリエ変換することで周波数毎のスペクトル成分を算出し、このフーリエ変換により算出された周波数毎のスペクトル成分に対して所定の変形を与え、変形後のスペクトル成分を逆フーリエ変換して生成することを特徴とする。
また、更に、前記重み付け加算をスペクトル領域で行なうようにしたことを特徴とする。
また、更に、前記重み付け加算を周波数成分毎に独立に制御するようにしたことを特徴とする。
また、更に、前記周波数毎のスペクトル成分に対する所定の変形に振幅スペクトル成分の平滑化処理を含むことを特徴とする。
また、更に、前記周波数毎のスペクトル成分に対する所定の変形に位相スペクトル成分の擾乱付与処理を含むことを特徴とする。
また、更に、前記平滑化処理における平滑化強度を、入力音信号の振幅スペクトル成分の大きさによって制御するようにしたことを特徴とする。
また、更に、前記擾乱付与処理における擾乱付与強度を、入力音信号の振幅スペクトル成分の大きさによって制御するようにしたことを特徴とする。
また、更に、前記平滑化処理における平滑化強度を、入力音信号のスペクトル成分の時間方向の連続性の大きさによって制御するようにしたことを特徴とする。
また、更に、前記擾乱付与処理における擾乱付与強度を、入力音信号のスペクトル成分の時間方向の連続性の大きさによって制御するようにしたことを特徴とする。
また、更に、前記入力音信号として、聴覚重み付した入力音信号を用いるようにしたことを特徴とする。
また、更に、前記平滑化処理における平滑化強度を、前記評価値の時間変動性の大きさによって制御するようにしたことを特徴とする。
また、更に、前記擾乱付与処理における擾乱付与強度を、前記評価値の時間変動性の大きさによって制御するようにしたことを特徴とする。
また、更に、前記所定の評価値として、前記入力音信号を分析して算出した背景雑音らしさの度合を用いるようにしたことを特徴とする。
また、更に、前記所定の評価値として、前記入力音信号を分析して算出した摩擦音らしさの度合を用いるようにしたことを特徴とする。
また、更に、前記入力音信号として、音声符号化処理によって生成された音声符号を復号した復号音声を用いるようにしたことを特徴とする。
この発明音信号加工方法は、前記入力音信号を音声符号化処理によって生成された音声符号を復号した第一の復号音声とし、この第一の復号音声に対してポストフィルタ処理を行なって第二の復号音声を生成し、前記第一の復号音声を加工して第一の加工音声を生成し、いずれかの復号音声を分析して所定の評価値を算出し、この評価値に基づいて前記第二の復号音声と前記第一の加工音声を重み付けし加算して第二の加工音声とし、この第二の加工音声を出力音声として出力することを特徴とする。
この発明の音信号加工装置は、入力音信号を加工して第一の加工信号を生成する第一の加工信号生成部と、前記入力音信号を分析して所定の評価値を算出する評価値算出部と、この評価値算出部の評価値に基づいて前記入力音信号と前記第一の加工信号を重み付けして加算し、第二の加工信号として出力する第二の加工信号生成部とを備えたことを特徴とする。
また、更に、前記第一の加工信号生成部は、前記入力音信号をフーリエ変換することで周波数毎のスペクトル成分を算出し、この算出された周波数毎のスペクトル成分に対して振幅スペクトル成分の平滑化処理を与え、この振幅スペクトル成分の平滑化処理された後のスペクトル成分を逆フーリエ変換して第一の加工信号を生成することを特徴とする。
また、更に、前記第一の加工信号生成部は、前記入力音信号をフーリエ変換することで周波数毎のスペクトル成分を算出し、この算出された周波数毎のスペクトル成分に対して位相スペクトル成分の擾乱付与処理を与え、この位相スペクトル成分の擾乱付与処理された後のスペクトル成分を逆フーリエ変換して第一の加工信号を生成することを特徴とする。
以上説明したように本発明の音信号加工方法および音信号加工装置は、入力信号に対して所定の信号加工処理を行うことで、入力信号に含まれる劣化成分を主観的に気にならないようにした加工信号を生成し、所定の評価値によって入力信号と加工信号の加算重みを制御するようにしたので、劣化成分が多く含まれる区間を中心に加工信号の比率を増やして、主観品質を改善できる効果がある。
また、従来の2値区間判定を廃し、連続量の評価値を算出して、これに基づいて連続的に入力信号と加工信号の重み付け加算係数を制御できるので、区間判定誤りによる品質劣化を回避できる効果がある。
また、背景雑音の情報が多く含まれている入力信号の加工処理によって出力信号を生成できるので、実際の背景雑音の特性を残しつつ、雑音種やスペクトル形状にあまり依存しない安定な品質改善効果が得られるし、音源符号化などによる劣化成分に対しても改善効果が得られる効果がある。
また、現在までの入力信号を用いて処理を行うことができるので特に大きな遅延時間は不要で、入力信号と加工信号の加算方法によっては処理時間以外の遅延を排除することもできる効果がある。加工信号のレベルをあげる際には入力信号のレベルを下げていくようにすれば、従来のように劣化成分をマスクするために大きな疑似雑音を重畳することも不要で、逆に適用対象に応じて、背景雑音レベルを小さ目にしたり、大き目にしたりすることすら可能である。また、当然のことであるが、音声符号化復号化による劣化音を解消する場合でも、従来のような新たな伝送情報の追加は不要である。
本発明の音信号加工方法および音信号加工装置は、入力信号に対して、スペクトル領域での所定の加工処理を行うことで、入力信号に含まれる劣化成分を主観的に気にならないようにした加工信号を生成し、所定の評価値によって入力信号と加工信号の加算重みを制御するようにしたので、上記信号加工方法が持つ効果に加えて、スペクトル領域での細かい劣化成分の抑圧処理を行うことができ、更に主観品質を改善できる効果がある。
本発明の音信号加工方法は、上記発明の音信号加工方法において、入力信号と加工信号をスペクトル領域で重み付け加算するようにしたので、上記音信号加工方法が持つ効果に加えて、スペクトル領域での処理を行う雑音抑圧方法の後段に接続する場合などに、音信号加工方法が必要とするフーリエ変換処理、逆フーリエ変換処理を一部または全部省略することができ、処理が簡易化できる効果がある。
本発明の音信号加工方法は、上記発明の音信号加工方法において、重み付け加算を周波数成分毎に独立に制御するようにしたので、上記音信号加工方法が持つ効果に加えて、量子化雑音や劣化成分の支配的な成分が重点的に加工信号に置換され、量子化雑音や劣化成分が少ない良好な成分まで置換してしまうことがなくなり、入力信号の特性を良好に残しつつ量子化雑音や劣化成分を主観的に抑圧でき、主観品質を改善できる効果がある。
本発明の音信号加工方法は、上記発明の音信号加工方法における加工処理として、振幅スペクトル成分の平滑化処理を行うようにしたので、上記音信号加工方法が持つ効果に加えて、量子化雑音などによって生じる振幅スペクトル成分の不安定な変動を良好に抑圧することができ、主観品質を改善できる効果がある。
本発明の音信号加工方法は、上記発明の音信号加工方法における加工処理として、位相スペクトル成分の擾乱付与処理を行うようにしたので、上記音信号加工方法が持つ効果に加えて、位相成分間に独特な相互関係を持ってしまい、特徴的な劣化と感じられることが多い量子化雑音や劣化成分に対して、位相成分間の関係に擾乱を与えることができ、主観
品質を改善できる効果がある。
本発明の音信号加工方法は、上記発明の音信号加工方法における平滑化強度または擾乱付与強度を、入力信号または聴覚重み付けした入力信号の振幅スペクトル成分の大きさによって制御するようにしたので、上記音信号加工方法が持つ効果に加えて、前記振幅スペクトル成分が小さいために量子化雑音や劣化成分が支配的になっている成分に対して重点的に加工が加えられ、量子化雑音や劣化成分が少ない良好な成分まで加工してしまうことがなくなり、入力信号の特性を良好に残しつつ量子化雑音や劣化成分を主観的に抑圧でき、主観品質を改善できる効果がある。
本発明の音信号加工方法は、上記発明の音信号加工方法における平滑化強度または擾乱付与強度を、入力信号または聴覚重み付けした入力信号のスペクトル成分の時間方向の連続性の大きさによって制御するようにしたので、上記音信号加工方法が持つ効果に加えて、スペクトル成分の連続性が低いために量子化雑音や劣化成分が多くなりがちな成分に対して重点的に加工が加えられ、量子化雑音や劣化成分が少ない良好な成分まで加工してしまうことがなくなり、入力信号の特性を良好に残しつつ量子化雑音や劣化成分を主観的に抑圧でき、主観品質を改善できる効果がある。
本発明の音信号加工方法は、上記発明の音信号加工方法における平滑化強度または擾乱付与強度を、前記評価値の時間変動性の大きさによって制御するようにしたので、上記音信号加工方法が持つ効果に加えて、入力信号の特性が変動している区間において必要以上に強い加工処理を抑止でき、特に振幅平滑化によるなまけ、エコーの発生を防止できる効果がある。
本発明の音信号加工方法は、上記発明の音信号加工方法における所定の評価値として背景雑音らしさの度合を用いるようにしたので、上記音信号加工方法が持つ効果に加えて、量子化雑音や劣化成分が多く発生しがちな背景雑音区間に対して重点的な加工が加えられ、背景雑音以外の区間についてもその区間に適切な加工(加工しない、低レベルの加工を行うなど)が選択されるので、主観品質を改善できる効果がある。
本発明の音信号加工方法は、上記発明の音信号加工方法における前記所定の評価値として摩擦音らしさの度合を用いるようにしたので、上記音信号加工方法が持つ効果に加えて、量子化雑音や劣化成分が多く発生しがちな摩擦音区間に対して重点的な加工が加えられ、摩擦音以外の区間についてもその区間に適切な加工(加工しない、低レベルの加工を行うなど)が選択されるので、主観品質を改善できる効果がある。
本発明の音信号加工方法は、音声符号化処理によって生成された音声符号を入力とし、この音声符号を復号して復号音声を生成し、この復号音声を入力として上記音信号加工方法を用いた信号加工処理を施して加工音声を生成し、この加工音声を出力音声として出力するようにしたので、上記音信号加工方法が持つ主観品質改善効果等をそのまま持った音声復号が実現される効果がある。
本発明の音信号加工方法は、音声符号化処理によって生成された音声符号を入力とし、この音声符号を復号して復号音声を生成し、復号音声に所定の信号加工処理を行って加工音声を生成し、復号音声にポストフィルタ処理を行い、更にポストフィルタ前または後の復号音声を分析して所定の評価値を算出し、この評価値に基づいてポストフィルタ後の復号音声と加工音声を重み付け加算して出力するようにしたので、上記音信号加工方法が持つ主観品質改善効果等をそのまま持った音声復号が実現される効果に加えて、ポストフィルタに影響されない加工音声が生成でき、ポストフィルタに影響されずに算出した精度の高い評価値に基づいて精度の高い加算重み制御ができるようになるので、更に主観品質が
改善する効果がある。
この発明の実施の形態1による音声復号方法を適用した音声復号装置の全体構成を示す図である。 この発明の実施の形態1の重み付け加算部18における加算制御値に基づく重み付け加算の制御例を示す図である。 この発明の実施の形態1のフーリエ変換部8における切り出し窓、逆フーリエ変換部11における連接のための窓の実際の形状例、復号音声5との時間関係を説明する説明図である。 この発明の実施の形態2の音信号加工方法を雑音抑圧方法と組み合わて適用した音声復号装置の構成の一部を示す図である。 この発明の実施の形態3による音声復号方法を適用した音声復号装置の全体構成を示す図である。 この発明の実施の形態3の聴覚重み付けスペクトルと第一の変形強度の関係を示す図である。 この発明の実施の形態4による音声復号方法を適用した音声復号装置の全体構成を示す図である。 この発明の実施の形態5による音声復号方法を適用した音声復号装置の全体構成を示す図である。 この発明の実施の形態6による音声復号方法を適用した音声復号装置の全体構成を示す図である。 この発明の実施の形態7による音声復号方法を適用した音声復号装置の全体構成を示す図である。 この発明の実施の形態8による音声復号方法を適用した音声復号装置の全体構成を示す図である。 この発明の実施の形態9を適用した復号音声スペクトル43と、変形復号音声スペクトル44に周波数毎の重みを乗じた後のスペクトルの一例を示す模式図である。
以下図面を参照しながら、この発明の実施の形態について説明する。
実施の形態1.
図1は、本実施の形態による音信号加工方法を適用した音声復号方法の全体構成を示し、図中1は音声復号装置、2はこの発明による信号加工方法を実行する信号加工部、3は音声符号、4は音声復号部、5は復号音声、6は出力音声である。信号加工部2は、信号変形部7、信号評価部12、重み付き加算部18より構成されている。信号変形部7は、フーリエ変換部8、振幅平滑化部9、位相擾乱部10、逆フーリエ部11より構成されている。信号評価部12は、逆フィルタ部13、パワー算出部14、背景雑音らしさ算出部15、推定背景雑音パワー更新部16、推定雑音スペクトル更新部17より構成されている。
以下、図に基づいて動作を説明する。
まず音声符号3が音声復号装置1内の音声復号部4に入力される。なお、この音声符号3は、別途音声符号化部が音声信号を符号化した結果として出力され、通信路や記憶デバイスを介してこの音声復号部4に入力される。
音声復号部4は、音声符号3に対して、前記音声符号化部と対を成す復号処理を行い、
得られた所定の長さ(1フレーム長)の信号を復号音声5として出力する。そして、この復号音声5は、信号加工部2内の信号変形部7、信号評価部12、重み付き加算部18に入力される。
信号変形部7内のフーリエ変換部8は、入力された現フレームの復号音声5と必要に応じ前フレームの復号音声5の最新部分を合わせた信号に対して、窓がけを行い、窓がけ後の信号に対してフーリエ変換処理を行うことで周波数毎のスペクトル成分を算出し、これを振幅平滑化部9に出力する。なお、フーリエ変換処理としては、離散フーリエ変換(DFT)、高速フーリエ変換(FFT)などが代表的である。窓がけ処理としては、台形窓、方形窓、ハニング窓など様々なものが適用可能であるが、ここでは、台形窓の両端の傾斜部分をそれぞれハニング窓の半分ずつに置換した変形台形窓を使用する。実際の形状例、復号音声5や出力音声6との時間関係については、図面を用いて後述説明する。
振幅平滑化部9は、フーリエ変換部8から入力された周波数毎のスペクトルの振幅成分に対して平滑化処理を行い、平滑化後のスペクトルを位相擾乱部10に出力する。ここで用いる平滑化処理としては、周波数軸方向、時間軸方向の何れを用いても、量子化雑音などの劣化音の抑制効果が得られる。しかし、周波数軸方向の平滑化をあまり強くすると、スペクトルの怠けが生じ、本来の背景雑音の特性を損なってしまうことが多い。一方、時間軸方向の平滑化についても、あまり強くしていくと、長時間にわたって同じ音が残ることになり、反響感が発生してしまう。色々な背景雑音に対して調整を進めた結果、周波数軸方向の平滑化はなし、時間軸方向は振幅を対数領域で平滑化する、とした場合が出力音声6の品質が良かった。その時の平滑化方法は、次式で表わされる。
= yi−1(1−α)+xα ・・・ 式1
ここで、xが現在のフレーム(第iフレーム)の平滑化前の対数振幅スペクトル値、yi−1が前フレーム(第i−1フレーム)の平滑化後の対数振幅スペクトル値、yが現在のフレーム(第iフレーム)の平滑化後の対数振幅スペクトル値、αが0〜1の値を持つ平滑化係数である、平滑化係数αはフレーム長、解消したい劣化音のレベルなどによって最適値が異なるが、概ね0.5程度の値となる。
位相擾乱部10は、振幅平滑化部9から入力された平滑化後のスペクトルの位相成分に擾乱を与え、擾乱後のスペクトルを逆フーリエ変換部11に出力する。各位相成分に擾乱を与える方法としては、乱数を用いて所定範囲の位相角を生成し、これを元々の位相角に加算すれば良い。位相角生成の範囲の制限を設けない場合には、各位相成分を乱数で生成した位相角に単に置換すればよい。符号化などによる劣化が大きい場合には、位相角生成の範囲は制限しない。
逆フーリエ変換部11は、位相擾乱部10から入力された擾乱後のスペクトルに対して逆フーリエ変換処理を行うことで、信号領域に戻し、前後のフレームとの滑らかな連接のための窓がけを行いつつ連接していき、得られた信号を変形復号音声34として重み付き加算部18に出力する。
信号評価部12内の逆フィルタ部13は、後述する推定雑音スペクトル更新部17内に格納されている推定雑音スペクトルパラメータを用いて、前記音声復号部4から入力された復号音声5に対する逆フィルタ処理を行い、逆フィルタされた復号音声をパワー算出部14に出力する。この逆フィルタ処理によって、背景雑音の振幅が大きい、つまり音声と背景雑音が拮抗している可能性が高い成分の振幅抑圧を行っており、逆フィルタ処理を行わない場合に比べて、音声区間と背景雑音区間の信号パワー比が大きくとれるようになっている。
なお、推定雑音スペクトルパラメータは、音声符号化処理や音声復号処理との親和性、ソフトウエアの共有化といった観点で選択する。現状では多くの場合、線スペクトル対(LSP)を使用する。LSPの他にも、線形予測係数(LPC)、ケプストラムなどのスペクトル包絡パラメータ、または振幅スペクトルそのものを用いても類似の効果を得ることができる。後述する推定雑音スペクトル更新部17における更新処理としては線形補間や平均処理などを用いる構成が簡単であり、スペクトル包絡パラメータの中では線形補間や平均処理を行ってもフィルタが安定であることが保証できるLSPとケプストラムが適している。雑音成分のスペクトルに対する表現力としてはケプストラムが優れているが、逆フィルタ部の構成の容易さという点ではLSPが勝る。振幅スペクトルを用いる場合には、この振幅スペクトル特性をもつLPCを算出して逆フィルタに使用するか、復号音声5をフーリエ変換した結果(フーリエ変換部8の出力に等しい)に対して振幅変形処理を行って逆フィルタと同様の効果を実現すればよい。
パワー算出部14は、逆フィルタ部13から入力された逆フィルタされた復号音声のパワーを求め、算出されたパワー値を背景雑音らしさ算出部15に出力する。
背景雑音らしさ算出部15は、パワー算出部14から入力されたパワーと、後述する推定雑音パワー更新部16内に格納されている推定雑音パワーを用いて、現在の復号音声5の背景雑音らしさを算出し、これを加算制御値35として重み付き加算部18に出力する。また、算出した背景雑音らしさを後述する推定雑音パワー更新部16と推定雑音スペクトル更新部17に対して出力し、パワー算出部14から入力されたパワーを後述する推定雑音パワー更新部16に対して出力する。ここで、背景雑音らしさについては、最も単純には、次式によって算出できる。
v = log(p) − log(p) ・・・ 式2
ここで、pがパワー算出部14から入力されたパワー、pが推定雑音パワー更新部16内に格納されている推定雑音パワー、vが算出された背景雑音らしさである。
この場合、vの値が大きい程(負値であればその絶対値が小さい程)背景雑音らしい、ということになる。この他にも、p/pを計算してvとするなど、様々な算出方法が考えられる。
推定雑音パワー更新部16は、背景雑音らしさ算出部15から入力された背景雑音らしさとパワーを用いて、その内部に格納してある推定雑音パワーの更新を行う。例えば、入力された背景雑音らしさが高い(vの値が大きい)時に、次式に従い、入力されたパワーを推定雑音パワーに反映させることで更新を行う。
log(p′)= (1−β)log(p)+βlog(p) ・・・ 式3
ここで、βは0〜1の値を取る更新速度定数で、比較的0に近い値に設定するとよい。この式の右辺の値を求めて、左辺のp′を新しい推定雑音パワーとすることで更新を行う。
なお、この推定雑音パワーの更新方法については、更に推定精度を向上させるためにフレーム間での変動性を参照したり、入力された過去のパワーを複数格納しておいて、統計分析によって雑音パワーの推定を行ったり、pの最低値をそのまま推定雑音パワーとしたりするなど様々な変形、改良が可能である。
推定雑音スペクトル更新部17は、まず入力された復号音声5を分析して、現在のフレームのスペクトルパラメータを算出する。算出するスペクトルパラメータについては逆フ
ィルタ部13にて説明した通りで、多くの場合LSPを使用する。そして、背景雑音らしさ算出部15から入力され背景雑音らしさとここで算出したスペクトルパラメータを用いて、内部に格納してある推定雑音スペクトルを更新する。例えば、入力された背景雑音らしさが高い(vの値が大きい)時に、次式に従い、算出したスペクトルパラメータを推定雑音スペクトルに反映させることで更新を行う。
′= (1−γ)x+γx ・・・ 式4
ここで、xが現在のフレームのスペクトルパラメータ、xが推定雑音スペクトル(パラメータ)である。γは0〜1の値を取る更新速度定数で、比較的0に近い値に設定するとよい。この式の右辺の値を求めて、左辺のx′を新しい推定雑音スペクトル(パラメータ)とすることで更新を行う。
なお、この推定雑音スペクトルの更新方法についても、上記推定雑音パワーの更新方法と同様に様々な改良が可能である。
そして、最後の処理として、重み付き加算部18は、信号評価部12から入力された加算制御値35に基づいて、音声復号部4から入力された復号音声5と信号変形部7から入力された変形復号音声34を重み付けして加算し、得られた出力音声6を出力する。重み付け加算の制御方法の動作としては、加算制御値35が大きく(背景雑音らしさが高く)なるにつれて復号音声5に対する重みを小さく、変形復号音声34に対する重みを大きく制御する。逆に加算制御値35が小さく(背景雑音らしさが低く)なるにつれて復号音声5に対する重みを大きく、変形復号音声34に対する重みを小さく制御する。
なお、フレーム間での重みの急変に伴う出力音声6の品質劣化を抑制するために、加算制御値35または重み付け係数をサンプル毎に徐々に変化するように平滑化を行うことが望ましい。
図2には、この重み付け加算部18における、加算制御値に基づく重み付け加算の制御例を示す。
図2(a)では、加算制御値35に対する2つの閾値vとvを用いて線形制御している場合である。加算制御値35がv未満の場合には、復号音声5に対する重み付け係数wを1、変形復号音声34に対する重み付け係数wを0とする。加算制御値35がv以上の場合には、復号音声5に対する重み付け係数wを0、変形復号音声34に対する重み付け係数wをAとする。そして加算制御値35がv以上でv未満の場合には、復号音声5に対する重み付け係数wを1〜0、変形復号音声34に対する重み付け係数wを0〜Aの間で線形的に計算して与えている。
この様に制御することで、確実に背景雑音区間であると判断できる場合(v以上)には変形復号信号34のみが出力され、確実に音声区間であると判断できる場合(v未満)には復号音声5そのものが出力され、音声区間か背景雑音区間か判断がつかない場合(v以上v未満)には、どちらの傾向が強いかに依存した比率で復号音声5と変形復号音声34が混合された結果が出力される。
なお、ここで確実に背景雑音区間であると判断できる場合(v以上)に変形復号信号34に乗じる重み付け係数値Aとして1以下の値を与えれば、結果的に背景雑音区間の振幅抑圧効果が得られる。逆に1以上の値を与えれば、背景雑音区間の振幅強調効果が得られる。背景雑音区間は、音声符号化復号化処理によって振幅低下が起こる場合が多く、その場合には背景雑音区間の振幅強調を行うことによって、背景雑音の再現性を向上することができる。振幅抑圧と振幅強調のどちらを行うかは適用対象、使用者の要求などに依
存する。
図2(b)では、新たな閾値vを追加し、vとv間、vとv間で重み付け係数を線形的に計算して与えた場合である。閾値vの位置における重み付け係数の値を調整することで、音声区間か背景雑音区間か判断がつかない場合(v以上v未満)における混合比率を更に細かく設定することができる。一般に位相の相関が低い2つの信号を加算した場合、得られる信号のパワーは加算前の2つの信号のパワーの合計より小さくなる。v以上v未満の範囲における2つの重み付け係数の合計を1ないしwより大きくすることで、このパワー低下を抑制することができる。なお、図2(a)によって得られた重み付け係数の平方根をとって更に定数を乗じた値を新たに重み付け係数とすることによっても同様の効果をもたらすことができる。
図2(c)では、図2(a)のv未満の範囲における変形復号音声34に与える重み付け係数wとして0より大きいBという値を与え、これに応じてv以上v未満の範囲におけるwも修正した場合である。背景雑音レベルが高い場合や、符号化における圧縮率が非常に高い場合など、音声区間における量子化雑音や劣化音が大きい場合には、この様に確実に音声区間と分かっている範囲においても、変形復号音声を加算することで、劣化音を聞こえにくくすることができる。
図2(d)は、背景雑音らしさ算出部15において、推定雑音パワーを現在のパワーで除算した結果(p/p)を背景雑音らしさ(加算制御値35)として出力した場合に対応する制御例である。この場合、加算制御値35は復号音声5中に含まれる背景雑音の比率を示しているので、この値に比例した比率で混合されるように重み付け係数を算出している。具体的には、加算制御値35が1以上の場合にはwが1でwが0、1未満の場合には、wが加算制御値35そのもの、wが(1−w)となっている。
図3には、フーリエ変換部8における切り出し窓、逆フーリエ変換部11における連接のための窓の実際の形状例、復号音声5との時間関係を説明する説明図を示す。
復号音声5は、音声復号部4から所定の時間長(1フレーム長)毎に出力されてくる。ここでこの1フレーム長をNサンプルとする。図3(a)は、この復号音声5の一例を示しており、x(0)〜x(N−1)が入力された現在のフレームの復号音声5に当たる。フーリエ変換部8では、図3(a)に示されるこの復号音声5に対して図3(b)に示す変形台形窓を乗じることで、長さ(N+NX)の信号を切り出す。NXは変形台形窓の両端の1未満の値を持つ区間のそれぞれの長さである。この両端の区間は長さ(2NX)のハニング窓を前半と後半に2分割したものに等しい。逆フーリエ変換部11では、逆フーリエ変換処理によって生成した信号に対して、図3(c)に示す変形台形窓を乗じ、(図3(c)に破線で示すように)前後のフレームで得られた同信号と時間関係を守りつつ信号の加算を行って、連続する変形復号音声34(図3(d))を生成する。
次のフレームの信号との連接のための区間(長さNX)については、現在のフレーム時点では変形復号音声34が確定していない。すなわち、新たに確定する変形復号音声34は、x′(−NX)〜x′(N−NX−1)である。このため、現在のフレームの復号音声5に対して得られる出力音声6は、次式の通りとなる。
y(n) = x(n) + x′(n) ・・・ 式5
(n= −NX,…,N−NX−1)
ここで、y(n)が出力音声6である。この時、信号加工部2としての処理遅延は最低でもNXだけ必要となる。
この処理遅延NXが許容できない適用対象の場合、復号音声5と変形復号音声34の時間的ズレを許容して、次式のように出力音声6を生成することもできる。
y(n) = x(n) + x′(n−NX) ・・・ 式6
(n= 0,…,N−1)
この場合、復号音声5と変形復号音声34の時間関係にズレがあるので、位相擾乱部10における擾乱が弱い(つまり復号音声の位相特性がある程度残っている)場合や、フレーム内でスペクトルやパワーが急変する場合には劣化を生じる場合がある。特に重み付き加算部18における重み付け係数が大きく変化するときと、2つの重み付け係数が拮抗している場合に劣化を生じ易い。しかし、それらの劣化は比較的少なく、信号加工部の導入効果の方が十分に大きい。よって処理遅延NXが許容できない適用対象についても、この方法を用いることができる。
なお、この図3の場合、フーリエ変換前と逆フーリエ変換後に変形台形窓を乗じており、連接部分の振幅低下を招く場合がある。この振幅低下も、位相擾乱部10における擾乱が弱い場合に起こりやすい。そのような場合には、フーリエ変換前の窓を方形窓に変更することで振幅低下の抑制が得られる。通常、位相擾乱部10によって位相が大きく変形された結果、逆フーリエ変換後の信号に最初の変形台形窓の形状が現れてこないので、前後のフレームの変形復号音声34とのスムーズな連接のために2つ目の窓がけが必要になる。
なお、ここでは、信号変形部7、信号評価部12、重み付け加算部18の処理を全てフレーム毎に行ったが、これに限ったものではない。例えば、1フレームを複数のサブフレームに分割し、信号評価部12の処理をサブフレーム毎に行ってサブフレーム毎の加算制御値35を算出し、重み付け加算部18における重み付け制御もサブフレーム毎に行っても良い。信号変形処理にフーリエ変換を使用しているので、フレーム長があまり短いとスペクトル特性の分析結果が不安定になり、変形復号音声34が安定しにくい。一方、背景雑音らしさはもっと短い区間に対しても比較的安定に算出できるので、サブフレーム毎に算出して重み付けを細かく制御することで音声の立ち上がり部分などにおける品質改善効果が得られる。
また、信号評価部12の処理をサブフレーム毎に行って、フレーム内の全ての加算制御値を組み合わせて、少数の加算制御値35を算出することもできる。音声区間を背景雑音らしいと誤りたくない場合には、全ての加算制御値の内の最小値(背景雑音らしさの最小値)を選択してフレームを代表する加算制御値35として出力すれば良い。
更に、復号音声5のフレーム長と信号変形部7の処理フレーム長は同一である必要はない。例えば、復号音声5のフレーム長が短くて、信号変形部7内のスペクトル分析にとって短すぎる場合には、複数フレームの復号音声5を蓄積して、一括して信号変形処理を行うようにすれば良い。但し、この場合には、複数フレームの復号音声5を蓄積するために処理遅延が発生してしまう。この他、復号音声5のフレーム長と全く独立に信号変形部7や信号加工部2全体の処理フレーム長を設定しても構わない。この場合、信号のバッファリングが複雑になるが、様々な復号音声5のフレーム長に依存することなく、信号加工処理にとって最適の処理フレーム長を選択でき、信号加工部2の品質が最も良くなる効果がある。
また、ここでは、背景雑音らしさの算出に、逆フィルタ部13、パワー算出部14、背景雑音らしさ算出部15、推定背景雑音レベル更新部16、推定雑音スペクトル更新部17を使用したが、背景雑音らしさを評価するものであれば、この構成に限ったものではない。
この実施の形態1によれば、入力信号(復号音声)に対して所定の信号加工処理を行うことで、入力信号に含まれる劣化成分を主観的に気にならないようにした加工信号(変形復号音声)を生成し、所定の評価値(背景雑音らしさ)によって入力信号と加工信号の加算重みを制御するようにしたので、劣化成分が多く含まれる区間を中心に加工信号の比率を増やして、主観品質を改善できる効果がある。
また、スペクトル領域で信号加工処理を行うようにしたことで、スペクトル領域での細かい劣化成分の抑圧処理を行うことができ、更に主観品質を改善できる効果がある。
また、加工処理として振幅スペクトル成分の平滑化処理と位相スペクトル成分の擾乱付与処理を行うようにしたので、量子化雑音などによって生じる振幅スペクトル成分の不安定な変動を良好に抑圧することができ、更に、位相成分間に独特な相互関係を持ってしまい特徴的な劣化と感じられることが多い量子化雑音に対して、位相成分間の関係に擾乱を与えることができ、主観品質を改善できる効果がある。
また、従来の音声区間または背景雑音区間のどちらか、という2値区間判定を廃し、背景雑音らしさという連続量を算出して、これに基づいて連続的に復号音声と変形復号音声の重み付け加算係数を制御するようにしたので、区間判定誤りによる品質劣化を回避できる効果がある。
また、音声区間における量子化雑音や劣化音が大きい場合には、確実に音声区間と分かっている区間においても、変形復号音声を加算することで、劣化音を聞こえにくくすることができる効果がある。
また、背景雑音の情報が多く含まれている復号音声の加工処理によって出力音声を生成しているので、実際の背景雑音の特性を残しつつ、雑音種やスペクトル形状にあまり依存しない安定な品質改善効果が得られるし、音源符号化などによる劣化成分に対しても改善効果が得られる効果がある。
また、現在までの復号音声を用いて処理を行うので特に大きな遅延時間は不要で、復号音声と変形復号音声の加算方法によっては処理時間以外の遅延を排除することもできる効果がある。変形復号音声のレベルを上げる際には復号音声のレベルを下げていくので、従来のように量子化雑音を聞こえなくするために大きな疑似雑音を重畳することも不要で、逆に適用対象に応じて、背景雑音レベルを小さ目にしたり、大き目にしたりすることすら可能である。また、当然のことであるが、音声復号装置または信号加工部内に閉じた処理であるので従来のような新たな伝送情報の追加は不要である。
更に、この実施の形態1では、音声復号部と信号加工部が明確に分離されており、両者の間の情報のやりとりも少ないので、既存のものも含めて様々な音声復号装置内に導入することが容易である。
実施の形態2.
図4は、本実施の形態による音信号加工方法を雑音抑圧方法と組み合わて適用した音信号加工装置の構成の一部を示す。図中36は入力信号、8はフーリエ変換部、19は雑音抑圧部、39はスペクトル変形部、12は信号評価部、18は重み付き加算部、11は逆フーリエ変換部、40は出力信号である。スペクトル変形部39は、振幅平滑化部9、位相擾乱部10より構成されている。
以下、図に基づいて動作を説明する。
まず、入力信号36が、フーリエ変換部8と信号評価部12に入力される。
フーリエ変換部8は、入力された現フレームの入力信号36と必要に応じ前フレームの入力信号36の最新部分を合わせた信号に対して、窓がけを行い、窓がけ後の信号に対してフーリエ変換処理を行うことで周波数毎のスペクトル成分を算出し、これを雑音抑圧部19に出力する。なお、フーリエ変換処理および窓がけ処理については実施の形態1と同様である。
雑音抑圧部19は、フーリエ変換部8より入力された周波数毎のスペクトル成分から、雑音抑圧部19内部に格納してある推定雑音スペクトルを減算し、得られた結果を雑音抑圧スペクトル37として重み付け加算部18とスペクトル変形部39内の振幅平滑化部9に出力する。これは、いわゆるスペクトルサブトラクション処理の主部に相当する処理である。そして、雑音抑圧部19は、背景雑音区間であるか否かの判定を行い、背景雑音区間であればフーリエ変換部8より入力された周波数毎のスペクトル成分を用いて、内部の推定雑音スペクトルを更新する。なお、背景雑音区間であるか否かの判定は、後述する信号評価部12の出力結果を流用して行うことで処理を簡易化することも可能である。
スペクトル変形部39内の振幅平滑化部9は、雑音抑圧部19より入力された雑音抑圧スペクトル37の振幅成分に対して平滑化処理を行い、平滑化後の雑音抑圧スペクトルを位相擾乱部10に出力する。ここで用いる平滑化処理としては、周波数軸方向、時間軸方向の何れを用いても、雑音抑圧部が発生させた劣化音の抑制効果が得られる。具体的な平滑化方法については実施の形態1と同様のものを用いることができる。
スペクトル変形部39内の位相擾乱部10は、振幅平滑化部9から入力された平滑化後の雑音抑圧スペクトルの位相成分に擾乱を与え、擾乱後のスペクトルを変形雑音抑圧スペクトル38として重み付き加算部18に出力する。各位相成分に擾乱を与える方法については実施の形態1と同様のものを用いることができる。
信号評価部12は、入力信号36を分析して背景雑音らしさを算出し、これを加算制御値35として重み付け加算部18に出力する。なお、この信号評価部12内の構成と各処理については、実施の形態1と同様のものを用いることができる。
重み付き加算部18は、信号評価部12から入力された加算制御値35に基づいて、雑音抑圧部19から入力された雑音抑圧スペクトル37とスペクトル変形部39から入力された変形雑音抑圧スペクトル38を重み付けして加算し、得られたスペクトルを逆フーリエ変換部11に出力する。重み付け加算の制御方法の動作としては、実施の形態1と同様に、加算制御値35が大きく(背景雑音らしさが高く)なるにつれて雑音抑圧スペクトル37に対する重みを小さく、変形雑音抑圧スペクトル38に対する重みを大きく制御する。逆に加算制御値35が小さく(背景雑音らしさが低く)なるにつれて雑音抑圧スペクトル37に対する重みを大きく、変形雑音抑圧スペクトル38に対する重みを小さく制御する。
そして、最後の処理として、逆フーリエ変換部11は、重み付き加算部18から入力されたスペクトルに対して逆フーリエ変換処理を行うことで、信号領域に戻し、前後のフレームとの滑らかな連接のための窓がけを行いつつ連接していき、得られた信号を出力信号40として出力する。連接のための窓がけと連接処理については、実施の形態1と同様である。
この実施の形態2によれば、雑音抑圧処理等によって劣化したスペクトルに対して所定の加工処理を行うことで、劣化成分を主観的に気にならないようにした加工スペクトル(
変形雑音抑圧スペクトル)を生成し、所定の評価値(背景雑音らしさ)によって加工前のスペクトルと加工スペクトルの加算重みを制御するようにしたので、劣化成分が多く含まれて主観品質の低下につながっている区間(背景雑音区間)を中心に加工スペクトルの比率を増やして、主観品質を改善できる効果がある。
また、スペクトル領域での重み付け加算を行うようにしたので、実施の形態1に比べると加工処理のためのフーリエ変換と逆フーリエ変換が不要となり、処理が簡易になる効果がある。なお、この実施の形態2におけるフーリエ変換部8と逆フーリエ変換11は、雑音抑圧部19のために元々必要な構成である。
また、加工処理として振幅スペクトル成分の平滑化処理と位相スペクトル成分の擾乱付与処理を行うようにしたので、量子化雑音などによって生じる振幅スペクトル成分の不安定な変動を良好に抑圧することができ、更に、位相成分間に独特な相互関係を持ってしまい特徴的な劣化と感じられることが多い量子化雑音や劣化成分に対して、位相成分間の関係に擾乱を与えることができ、主観品質を改善できる効果がある。
また、背景雑音区間であるか否かという2値区間判定ではなく、背景雑音らしさという連続量を算出して、これに基づいて連続的に重み付け加算係数を制御するようにしたので、区間判定誤りによる品質劣化を回避できる効果がある。
また、背景雑音区間以外における劣化音が大きい場合には、図2(c)のような重み付け加算を行うことで、確実に背景雑音区間以外と分かっている区間においても変形雑音抑圧スペクトルを加算し、劣化音を聞こえにくくすることができる効果がある。
また、雑音抑圧スペクトルに対して、単純な処理を直接施して変形雑音抑圧スペクトルを生成しているので、雑音種やスペクトル形状にあまり依存しない安定な品質改善効果が得られる効果がある。
また、現在までの雑音抑圧スペクトルを用いて処理を行うので、雑音抑圧部19の遅延時間に追加して、大きな遅延時間がいらない特長を持つ。変形雑音抑圧スペクトルの加算レベルをあげる際には元々の雑音抑圧スペクトルの加算レベルを下げていくので、量子化雑音を聞こえなくするために比較的大きな雑音を重畳することも不要で、背景雑音レベルを小さくすることができる効果がある。また、当然のことであるが、この処理を音声符号化処理の前処理などとして用いる場合にも、符号化部内に閉じた処理となるので従来のような新たな伝送情報の追加は不要である。
実施の形態3.
図1との対応部分に同一符号を付けた図5は、本実施の形態による音信号加工方法を適用した音声復号装置の全体構成を示し、図中20は信号変形部7の変形強度を制御する情報を出力する変形強度制御部である。変形強度制御部20は、聴覚重み付け部21、フーリエ変換部22、レベル判定部23、連続性判定部24、変形強度算出部25より構成されている。
以下、図に基づいて動作を説明する。
音声復号部4から出力された復号音声5が、信号加工部2内の信号変形部7、変形強度制御部20、信号評価部12、重み付き加算部18に入力される。
変形強度制御部20内の聴覚重み付け部21は、音声復号部4より入力された復号音声5に対して、聴覚重み付け処理を行い、得られた聴覚重み付け音声をフーリエ変換部22
に出力する。ここで、聴覚重み付け処理としては、音声符号化処理(音声復号部4で行った音声復号処理と対を成すもの)で使用されているものと同様な処理を行う。
CELPなどの符号化処理で良く用いられる聴覚重み付け処理は、符号化対象の音声を分析して線形予測係数(LPC)を算出し、これに定数乗算を行って2つの変形LPCを求め、この2つの変形LPCをフィルタ係数とするARMAフィルタを構成し、このフィルタを用いたフィルタリング処理によって聴覚重み付けを行う、というものである。復号音声5に対して符号化処理と同様の聴覚重み付けを行うためには、受信した音声符号3を復号して得られたLPC、もしくは復号音声5を再分析して算出したLPCを出発点として、2つの変形LPCを求め、これを用いて聴覚重み付けフィルタを構成すれば良い。
CELPなどの符号化処理では、聴覚重み付け後の音声上での歪みを最小化するように符号化を行うので、聴覚重み付け後の音声において、振幅が大きいスペクトル成分は、量子化雑音の重畳が少ない、ということになる。従って、符号化時の聴覚重み付け音声に近い音声を復号化部1内で生成できれば、信号変形部7における変形強度の制御情報として有用である。
なお、音声復号部4における音声復号処理にスペクトルポストフィルタなどの加工処理が含まれている場合(CELPの場合にはほとんどに含まれている)には、本来であればまず復号音声5からスペクトルポストフィルタなどの加工処理の影響を除去した音声を生成するか、音声復号部4内からこの加工処理直前の音声を抽出するかして、該音声に対して聴覚重み付けを行うことによって、符号化時の聴覚重み付け音声に近い音声が得られる。しかし、背景雑音区間の品質改善を主な目的とする場合には、この区間におけるスペクトルポストフィルタなどの加工処理の影響は少なく、その影響を除去しなくても効果に大差は出ない。この実施の形態3は、スペクトルポストフィルタなどの加工処理の影響除去を行わない構成としている。
なお、当然のことであるが、符号化処理において聴覚重み付けを行っていない場合や、その効果が小さくて無視しても良い場合には、この聴覚重み付け部21は不要となる。その場合、信号変形部7内のフーリエ変換部8の出力を、後述するレベル判定部23と連続性判定部24に与えればよいので、フーリエ変換部22も不要とできる。
更に、スペクトル領域でも非線型振幅変換処理など聴覚重み付けに近い効果をもたらす方法があるので、符号化処理内で使用している聴覚重み付け方法との誤差を無視して構わない場合には、信号変形部7内のフーリエ変換部8の出力をこの聴覚重み付け部21への入力とし、聴覚重み付け部21がこの入力に対してスペクトル領域での聴覚重み付けを行い、フーリエ変換部22を省略して、後述するレベル判定部23と連続性判定部24に聴覚重み付けされたスペクトルを出力するように構成することも可能である。
変形強度制御部20内のフーリエ変換部22は、聴覚重み付け部21より入力された聴覚重み付け音声と必要に応じ前フレームの聴覚重み付け音声の最新部分を合わせた信号に対して、窓がけを行い、窓がけ後の信号に対してフーリエ変換処理を行うことで周波数毎のスペクトル成分を算出し、これを聴覚重み付けスペクトルとしてレベル判定部23と連続性判定部24に出力する。なお、フーリエ変換処理および窓がけ処理については実施の形態1のフーリエ変換部8と同様である。
レベル判定部23は、フーリエ変換部22から入力された聴覚重み付けスペクトルの各振幅成分の値の大きさに基づいて、各周波数毎の第一の変形強度を算出し、これを変形強度算出部25に出力する。聴覚重み付けスペクトルの各振幅成分の値が小さい程量子化雑音の比率が大きいので、第一の変形強度を強くすればよい。最も単純には、全振幅成分の
平均値を求めて、この平均値に所定の閾値Thを加算して、これを上回る成分に対しては第一の変形強度を0、これを下回る成分に対しては第一の変形強度を1とすればよい。図6には、この閾値Thを用いた場合の聴覚重み付けスペクトルと第一の変形強度の関係を示す。なお、第一の変形強度の算出方法はこれに限定されるものではない。
連続性判定部24は、フーリエ変換部22から入力された聴覚重み付けスペクトルの各振幅成分または各位相成分の時間方向の連続性を評価し、この評価結果に基づいて、各周波数毎の第二の変形強度を算出し、これを変形強度算出部25に出力する。聴覚重み付けスペクトルの振幅成分の時間方向の連続性、位相成分の(フレーム間の時間推移による位相の回転を補償した後の)連続性が低い周波数成分については、良好な符号化が行われていたとは考えにくいので、第二の変形強度を強くする。この第二の変形強度の算出についても、最も単純には所定の閾値を用いた判定によって0または1を与える方法を用いることができる。
変形強度算出部25は、レベル判定部23より入力された第一の変形強度と、連続性判定部24より入力された第二の変形強度に基づいて、各周波数毎の最終的な変形強度を算出し、これを信号変形部7内の振幅平滑化部9と位相擾乱部10に出力する。この最終的な変形強度については、第一の変形強度と第二の変形強度の最小値、重み付き平均値、最大値などを用いることができる。以上でこの実施の形態3にて新たに加わった変形強度制御部20の動作の説明を終了する。
次に、この変形強度制御部20の追加に伴って、動作に変更がある構成要素について説明する。
振幅平滑化部9は、変形強度制御部20より入力された変形強度に従い、フーリエ変換部8から入力された周波数毎のスペクトルの振幅成分に対して平滑化処理を行い、平滑化後のスペクトルを位相擾乱部10に出力する。なお、変形強度が強い周波数成分程、平滑化を強めるように制御する。平滑化強度の強さを制御する最も単純な方法は、入力された変形強度が大きいときにのみ平滑化を行うようにすればよい。この他にも平滑化を強める方法としては、実施の形態1で説明した平滑化の数式における平滑化係数αを小さくしたり、固定的な平滑化を行った後のスペクトルと平滑化前のスペクトルを重み付き加算して最終的なスペクトルを生成するように構成しておき、平滑化前のスペクトルに対する重みを小さくするなど様々な方法を用いることができる。
位相擾乱部10は、変形強度制御部20より入力された変形強度に従い、振幅平滑化部9から入力された平滑化後のスペクトルの位相成分に擾乱を与え、擾乱後のスペクトルを逆フーリエ変換部11に出力する。なお、変形強度が強い周波数成分程、位相の擾乱を大きく与えるように制御する。擾乱の大きさを制御する最も単純な方法は、入力された変形強度が大きいときにのみ擾乱を与えるようにすればよい。この他にも擾乱を制御する方法としては、乱数で生成する位相角の範囲を大小させるなど様々な方法を用いることができる。
その他の構成要素については、実施の形態1と同様であるため説明を省略する。
なお、ここでは、レベル判定部23と連続性判定部24の両方の出力結果を使用したが、一方だけを使用するようにして、残るもう一方は省略する構成も可能である。また、変形強度によって制御する対象を、振幅平滑化部9と位相擾乱部10の一方のみとする構成でも構わない。
この実施の形態3によれば、入力信号(復号音声)または聴覚重み付けされた入力信号
(復号音声)の各周波数成分毎の振幅の大きさ、各周波数毎の振幅や位相の連続性の大きさに基づいて、加工信号(変形復号音声)を生成する際の変形強度を周波数毎に制御するようにしたので、実施の形態1が持つ効果に加えて、前記振幅スペクトル成分が小さいために量子化雑音や劣化成分が支配的になっている成分、スペクトル成分の連続性が低いために量子化雑音や劣化成分が多くなりがちな成分に対して重点的に加工が加えられ、量子化雑音や劣化成分が少ない良好な成分まで加工してしまうことがなくなり、入力信号や実際の背景雑音の特性を比較的良好に残しつつ量子化雑音や劣化成分を主観的に抑圧でき、主観品質を改善できる効果がある。
実施の形態4.
図5との対応部分に同一符号を付けた図7は、本実施の形態による音信号加工方法を適用した音声復号装置の全体構成を示し、図中41は加算制御値分割部であり、図5における信号変形部7の部分は、フーリエ変換部8、スペクトル変形部39、逆フーリエ変換部11の構成に変更している。
以下、図に基づいて動作を説明する。
音声復号部4から出力された復号音声5は、信号加工部2内のフーリエ変換部8、変形強度制御部20、信号評価部12に入力される。
フーリエ変換部8は、実施の形態2と同様にして、入力された現フレームの復号音声5と必要に応じ前フレームの復号音声5の最新部分を合わせた信号に対して、窓がけを行い、窓がけ後の信号に対してフーリエ変換処理を行うことで周波数毎のスペクトル成分を算出し、これを復号音声スペクトル43として重み付き加算部18とスペクトル変形部39内の振幅平滑化部9に出力する。
スペクトル変形部39は、実施の形態2と同様にして、入力された復号音声スペクトル43に対して、振幅平滑化部9、位相擾乱部10の処理を順に行い、得られたスペクトルを変形復号音声スペクトル44として、重み付き加算部18に出力する。
変形強度制御部20内では、実施の形態3と同様に、入力された復号音声5に対して、聴覚重み付け部21、フーリエ変換部22、レベル判定部23、連続性判定部24、変形強度算出部25の処理を順次行い、得られた周波数毎の変形強度を加算制御値分割部41に出力する。
なお、実施の形態3と同様に、符号化処理において聴覚重み付けを行っていない場合や、その効果が小さい場合には、聴覚重み付け部21とフーリエ変換部22は不要となる。その場合、フーリエ変換部8の出力を、レベル判定部23と連続性判定部24に与えればよい。
また、フーリエ変換部8の出力をこの聴覚重み付け部21への入力とし、聴覚重み付け部21がこの入力に対してスペクトル領域での聴覚重み付けを行い、フーリエ変換部22を省略して、後述するレベル判定部23と連続性判定部24に聴覚重み付けされたスペクトルを出力するように構成することも可能である。この様に構成することで、処理の簡易化効果が得られる。
信号評価部12は、実施の形態1と同様に、入力された復号音声5に対して、背景雑音らしさを求めて、これを加算制御値35として加算制御値分割部41に出力する。
新たに加えられた加算制御値分割部41は、変形強度制御部20から入力された周波数
毎の変形強度と、信号評価部12から入力された加算制御値35を用いて、周波数毎の加算制御値42を生成し、これを重み付き加算部18に出力する。変形強度が強い周波数については、その周波数の加算制御値42の値を制御して、重み付き加算部18における復号音声スペクトル43の重みを弱く、変形復号音声スペクトル44の重みを強くする。逆に変形強度が弱い周波数については、その周波数の加算制御値42の値を制御して、重み付き加算部18における復号音声スペクトル43の重みを強く、変形復号音声スペクトル44の重みを弱くする。つまり、変形強度が強い周波数については、背景雑音らしさが高いわけであるので、その周波数の加算制御値42を大きくし、逆の場合には、小さくするわけである。
重み付き加算部18は、加算制御値分割部41から入力された周波数毎の加算制御値42に基づいて、フーリエ変換部8から入力された復号音声スペクトル43とスペクトル変形部39から入力された変形復号音声スペクトル44を重み付けして加算し、得られたスペクトルを逆フーリエ変換部11に出力する。重み付け加算の制御方法の動作としては、図2にて説明したのと同様に、周波数毎の加算制御値42が大きい(背景雑音らしさが高い)周波数成分に対しては復号音声スペクトル43に対する重みを小さく、変形復号音声スペクトル44に対する重みを大きく制御する。逆に周波数毎の加算制御値42が小さい(背景雑音らしさが低い)周波数成分に対しては復号音声スペクトル43に対する重みを大きく、変形復号音声スペクトル44に対する重みを小さく制御する。
そして、最後の処理として、逆フーリエ変換部11は、実施の形態2と同様にして、重み付き加算部18から入力されたスペクトルに対して逆フーリエ変換処理を行うことで、信号領域に戻し、前後のフレームとの滑らかな連接のための窓がけを行いつつ連接していき、得られた信号を出力音声6として出力する。
なお、加算制御値分割部41を廃して、信号評価部12の出力を重み付き加算部18に与え、変形強度制御部20の出力である変形強度を振幅平滑化部9と位相擾乱部10に与える構成も可能である。この様にしたものは、実施の形態3の構成における重み付き加算処理をスペクトル領域で行うようにしたものに相当する。
更に、実施の形態3の場合と同様に、レベル判定部23と連続性判定部24の一方だけを使用するようにして、残るもう一方は省略する構成も可能である。
この実施の形態4によれば、入力信号(復号音声)または聴覚重み付けされた入力信号(復号音声)の各周波数成分毎の振幅の大きさ、各周波数毎の振幅や位相の連続性の大きさに基づいて、入力信号のスペクトル(復号音声スペクトル)と加工スペクトル(変形復号音声スペクトル)の重み付け加算を周波数成分毎に独立に制御するようにしたので、実施の形態1が持つ効果に加えて、前記振幅スペクトル成分が小さいために量子化雑音や劣化成分が支配的になっている成分、スペクトル成分の連続性が低いために量子化雑音や劣化成分が多くなりがちな成分に対して重点的に加工スペクトルの重みを強め、量子化雑音や劣化成分が少ない良好な成分まで加工スペクトルの重みを強めてしまうことがなくなり、入力信号や実際の背景雑音の特性を比較的良好に残しつつ量子化雑音や劣化成分を主観的に抑圧でき、主観品質を改善できる効果がある。
実施の形態3と比較すると、平滑化と擾乱という2つの周波数毎の変形処理から、1つの周波数毎の変形処理に変わっており、処理が簡易化される効果がある。
実施の形態5.
図5との対応部分に同一符号を付けた図8は、本実施の形態による音信号加工方法を適用した音声復号装置の全体構成を示し、図中26は背景雑音らしさ(加算制御値35)の時間方向の変動性を判定する変動性判定部である。
以下、図に基づいて動作を説明する。
音声復号部4から出力された復号音声5が、信号加工部2内の信号変形部7、変形強度制御部20、信号評価部12、重み付き加算部18に入力される。信号評価部12は、入力された復号音声5に対して、背景雑音らしさを評価し、評価結果を加算制御値35として、変動性判定部26と重み付き加算部18に出力する。
変動性判定部26は、信号評価部12より入力された加算制御値35を、その内部に格納している過去の加算制御値35と比較し、値の時間方向の変動性が高いか否かを判定し、この判定結果に基づいて第三の変形強度を算出し、これを変形強度制御部20内の変形強度算出部25に出力する。そして、入力された加算制御値35を用いて内部に格納している過去の加算制御値35を更新する。
加算制御値35などのフレーム(またはサブフレーム)の特性を表すパラメータの時間方向の変動性が高い場合には、復号音声5のスペクトルが時間方向に大きく変化している場合が多く、必要以上に強い振幅平滑化や位相擾乱付与を行うと不自然な反響感が発生してしまう。そこで、この第三の変形強度は、加算制御値35の時間方向の変動性が高い場合には、振幅平滑化部9における平滑化と位相擾乱部10における擾乱付与が弱くなるように設定する。なお、フレーム(またはサブフレーム)の特性を表すパラメータであれば、復号音声のパワー、スペクトル包絡パラメータなど、加算制御値35以外のパラメータを用いても同様の効果を得ることができる。
変動性の判定方法としては、最も単純には、前フレームの加算制御値35との差分の絶対値を所定の閾値と比較して、閾値を上回っていれば変動性が高い、とすれば良い。この他、前フレームおよび前々フレームの加算制御値35との差分の絶対値を各々算出して、その一方が所定の閾値を上回っているか否かで判定してもよい。また、信号評価部12がサブフレーム毎に加算制御値35を算出する場合には、現在のフレーム内または必要に応じて前フレーム内の全サブフレーム間の加算制御値35の差分の絶対値を求めて、何れかが所定の閾値を上回っているか否かで判定することもできる。そして、具体的な処理例としては、閾値を上回っていれば第三の変形強度を0、閾値を下回っていれば第三の変形強度を1とする。
変形強度制御部20内では、入力された復号音声5に対して、聴覚重み付け部21、フーリエ変換部22、レベル判定部23、連続性判定部24までは、実施の形態3と同様な処理を行う。
そして、変形強度算出部25では、レベル判定部23より入力された第一の変形強度、連続性判定部24より入力された第二の変形強度、変動性判定部26より入力された第三の変形強度に基づいて、各周波数毎の最終的な変形強度を算出し、これを信号変形部7内の振幅平滑化部9と位相擾乱部10に出力する。この最終的な変形強度の算出方法としては、第三の変形強度を全周波数に対して一定値として与え、周波数毎にこの全周波数に拡張した第三の変形強度、第一の変形強度、第二の変形強度の最小値、重み付き平均値、最大値などを求めて最終的な変形強度とする、という方法を用いることができる。
以降の信号変形部7、重み付き加算部18の動作は、実施の形態3と同様であり、説明を省略する。
なお、ここでは、レベル判定部23と連続性判定部24の両方の出力結果を使用したが、一方だけを使用するようにしたり、両方とも使用しない構成も可能である。また、変形強度によって制御する対象を、振幅平滑化部9と位相擾乱部10の一方のみとしたり、第
三の変形強度については一方のみを制御対象とする構成でも構わない。
この実施の形態5によれば、実施の形態3の構成に加えて、平滑化強度または擾乱付与強度を、所定の評価値(背景雑音らしさ)の時間変動性(フレームまたはサブフレーム間の変動性)の大きさによって制御するようにしたので、実施の形態3が持つ効果に加えて、入力信号(復号音声)の特性が変動している区間において必要以上に強い加工処理を抑止でき、なまけ、エコー(反響感)の発生を防止できる効果がある。
実施の形態6.
図5との対応部分に同一符号を付けた図9は、本実施の形態による音信号加工方法を適用した音声復号装置の全体構成を示す。図中27は摩擦音らしさ評価部、31は背景雑音らしさ評価部、45は加算制御値算出部である。摩擦音らしさ評価部27は、低域カットフィルタ28、零交差数カウント部29、摩擦音らしさ算出部30より構成される。背景雑音らしさ評価部31は、図5における信号評価部12と同じ構成であり、逆フィルタ部13、パワー算出部14、背景雑音らしさ算出部15、推定雑音パワー更新部16、推定雑音スペクトル更新部17より構成される。信号評価部12は、図5の場合と異なり、摩擦音らしさ評価部27、背景雑音らしさ評価部31、加算制御値算出部45より構成される。
以下、図に基づいて動作を説明する。
音声復号部4から出力された復号音声5が、信号加工部2内の信号変形部7、変形強度制御部20、信号評価部12内の摩擦音らしさ評価部27と背景雑音らしさ評価部31、そして重み付き加算部18に入力される。
信号評価部12内の背景雑音らしさ評価部31は、実施の形態3における信号評価部12と同様に、入力された復号音声5に対して、逆フィルタ部13、パワー算出部14、背景雑音らしさ算出部15の処理を行って、得られた背景雑音らしさ46を加算制御値算出部45に出力する。また、推定雑音パワー更新部16、推定雑音スペクトル更新部17の処理を行って、各々に格納してある推定雑音パワーと推定雑音スペクトルの更新を行う。
摩擦音らしさ評価部27内の低域カットフィルタ28は、入力された復号音声5に対して低周波数成分を抑圧する低域カットフィルタリング処理を行い、フィルタリング後の復号音声を零交差数カウント部29に出力する。この低域カットフィルタリング処理の目的は、復号音声に含まれる直流成分や低周波数の成分がオッフセットとなって、後述する零交差数カウント部29のカウント結果が少なくなることを防止することである。従って、単純には、フレーム内の復号音声5の平均値を算出し、これを復号音声5の各サンプルから減算することでもよい。
零交差数カウント部29は、低域カットフィルタ28より入力された音声を分析して、含まれる零交差数を数え上げ、得られた零交差数を摩擦音らしさ算出部30に出力する。零交差数を数え上げる方法としては、隣接サンプルの正負を比較し、同一でなければ零を交差している、としてカウントする方法、隣接サンプルの値の積をとって、その結果が負または零であれば零を交差している、としてカウントする方法などがある。
摩擦音らしさ算出部30は、零交差数カウント部29より入力された零交差数を、所定の閾値と比較し、この比較結果に基づいて摩擦音らしさ47を求めて、これを加算制御値算出部45に出力する。例えば、零交差数が閾値より大きい場合には、摩擦音らしいと判定して摩擦音らしさを1に設定する。逆に零交差数が閾値より小さい場合には、摩擦音らしくないと判定して摩擦音らしさを0に設定する。この他、閾値を2つ以上設けて、摩擦
音らしさを段階的に設定したり、所定の関数を用意しておいて、零交差数から連続的な値の摩擦音らしさを算出するようにしても良い。
なお、この摩擦音らしさ評価部27内の構成は、あくまでも一例にすぎず、スペクトル傾斜の分析結果に基づいて評価するようにしたり、パワーやスペクトルの定常性に基づいて評価するようにしたり、零交差数も含めて複数のパラメータを組み合わせて評価するようにしたりしても構わない。
加算制御値算出部45は、背景雑音らしさ評価部31より入力された背景雑音らしさ46と、摩擦音らしさ評価部27より入力された摩擦音らしさ47に基づいて、加算制御値35を算出し、これを重み付き加算部18に出力する。背景雑音らしい場合と摩擦音らしい場合のどちらにおいても、量子化雑音が聞き苦しくなってしまうことが多いので、背景雑音らしさ46と摩擦音らしさ47を適切に重み付き加算することで加算制御値35を算出すればよい。
以降の信号変形部7、変形強度制御部20、重み付き加算部18の動作は、実施の形態3と同様であり、説明を省略する。
この実施の形態6によれば、入力信号(復号音声)の背景雑音らしさと摩擦音らしさが高い場合に、入力信号(復号音声)の代わりに加工信号(変形復号音声)をより大きく出力するようにしたので、実施の形態3が持つ効果に加えて、量子化雑音や劣化成分が多く発生しがちな摩擦音区間に対して重点的な加工が加えられ、摩擦音以外の区間についてもその区間に適切な加工(加工しない、低レベルの加工を行うなど)が選択されるので、主観品質を改善できる効果がある。なお、摩擦音らしさ以外にも、量子化雑音や劣化成分が多く発生しがちな部分がある程度特定できる場合には、その部分らしさを評価して、加算制御値に反映させることが可能である。その様に構成すれば、大きい量子化雑音や劣化成分を1つずつ抑圧していくことができるので、主観品質が一層改善できる効果がある。
また、当然のことであるが、背景雑音らしさ評価部を削除した構成も可能である。
実施の形態7.
図1との対応部分に同一符号を付けた図10は、本実施の形態による信号加工方法を適用した音声復号装置の全体構成を示し、図中32はポストフィルタ部である。
以下、図に基づいて動作を説明する。
まず音声符号3が音声復号装置1内の音声復号部4に入力される。
音声復号部4は、入力された音声符号3に対して復号処理を行い、得られた復号音声5をポストフィルタ部32、信号変形部7、信号評価部12に出力する。
ポストフィルタ部32は、入力された復号音声5に対して、スペクトル強調処理、ピッチ周期性強調処理などを行い、得られた結果をポストフィルタ復号音声48として重み付き加算部18に出力する。このポストフィルタ処理は、CELP復号処理の後処理として一般的に使用されているもので、符号化復号化によって発生した量子化雑音を抑圧することを目的として導入されている。スペクトル強度の弱い部分には量子化雑音が多く含まれているので、この成分の振幅を抑圧してしまうものである。なお、ピッチ周期性強調処理が行われず、スペクトル強調処理だけが行われている場合もある。
なお、実施の形態1、実施の形態3ないし6は、このポストフィルタ処理を音声復号部
4内に含まれるもの、もしくは存在しないものの何れにも適用可能なものについて説明したが、この実施の形態7では、音声復号部4内にポストフィルタ処理が含まれるものからポストフィルタ処理の全部もしくは一部をポストフィルタ部32として独立させている。
信号変形部7は、実施の形態1と同様に、入力された復号音声5に対して、フーリエ変換部8、振幅平滑化部9、位相擾乱部10、逆フーリエ変換部11の処理を行い、得られた変形復号音声34を重み付き加算部18に出力する。
信号評価部12は、実施の形態1と同様に、入力された復号音声5に対して、背景雑音らしさを評価し、評価結果を加算制御値35として重み付き加算部18に出力する。
そして、最後の処理として、重み付き加算部18は、実施の形態1と同様に、信号評価部12から入力された加算制御値35に基づいて、ポストフィルタ部32から入力されたポストフィルタ復号音声48と信号変形部7から入力された変形復号音声34を重み付け加算し、得られた出力音声6を出力する。
この実施の形態7によれば、ポストフィルタによる加工前の復号音声に基づいて変形復号音声を生成し、更にポストフィルタによる加工前の復号音声を分析して背景雑音らしさを求め、これに基づいてポストフィルタ復号音声と変形復号音声の加算時の重みを制御するようにしたので、実施の形態1が持つ効果に加えて、ポストフィルタによる復号音声の変形を含まない変形復号音声が生成でき、ポストフィルタによる復号音声の変形に影響されずに算出した精度の高い背景雑音らしさに基づいて精度の高い加算重み制御ができるようになるので、更に主観品質が改善する効果がある。
背景雑音区間においては、ポストフィルタによって劣化音までも強調されて聞き苦しくなってしまっていることが多く、ポストフィルタによる加工前の復号音声を出発点として変形復号音声を生成した方が、歪み音は小さくなる。また、ポストフィルタの処理が複数のモードを持っており、しばしば処理を切り替える場合には、その切り替えが背景雑音らしさの評価に影響する危険性が高く、ポストフィルタによる加工前の復号音声に対して背景雑音らしさを評価した方が安定な評価結果が得られる。
なお、実施の形態3の構成において、この実施の形態7と同様にポストフィルタ部の分離を行った場合には、図5の聴覚重み付け部21の出力結果が、より符号化処理内の聴覚重み付け音声に近づき、量子化雑音の多い成分の特定精度が上がり、より良い変形強度制御が得られ、主観品質が更に改善する効果が得られる。
また、実施の形態6の構成において、この実施の形態7と同様にポストフィルタ部の分離を行った場合には、図9の摩擦音らしさ評価部27における評価精度が上がり、主観品質が更に改善する効果が得られる。
なお、ポストフィルタ部の分離を行わない構成は、分離したこの実施の形態7の構成に比べると、音声復号部(ポストフィルタを含む)との接続が復号音声の1点だけと少なく、独立の装置、プログラムにて実現が容易である長所がある。この実施の形態7では、ポストフィルタを有する音声復号部に対して独立の装置、プログラムにて実現することが容易でない短所もあるが、上記の様々な効果を持つものである。
実施の形態8.
図10との対応部分に同一符号を付けた図11は、本実施の形態による音信号加工方法を適用した音声復号装置の全体構成を示し、図中33は音声復号部4内で生成されたスペクトルパラメータである。図10との相違点としては、実施の形態3と同様の変形強度制
御部20が追加され、スペクトルパラメータ33が音声復号部4から信号評価部12と変形強度制御部20に入力されている点である。
以下、図に基づいて動作を説明する。
まず音声符号3が音声復号装置1内の音声復号部4に入力される。
音声復号部4は、入力された音声符号3に対して復号処理を行い、得られた復号音声5をポストフィルタ部32、信号変形部7、変形強度制御部20、信号評価部12に出力する。また、復号処理の過程で生成したスペクトルパラメータ33を、信号評価部12内の推定雑音スペクトル更新部17と変形強度制御部20内の聴覚重み付け部21に出力する。なお、スペクトルパラメータ33としては、線形予測係数(LPC)、線スペクトル対(LSP)などが一般的に用いられていることが多い。
変形強度制御部20内の聴覚重み付け部21は、音声復号部4より入力された復号音声5に対して、やはり音声復号部4から入力されたスペクトルパラメータ33を用いて聴覚重み付け処理を行い、得られた聴覚重み付け音声をフーリエ変換部22に出力する。具体的な処理としては、スペクトルパラメータ33が線形予測係数(LPC)である場合にはこれをそのまま用い、スペクトルパラメータ33がLPC以外のパラメータである場合には、このスペクトルパラメータ33をLPCに変換して、このLPCに定数乗算を行って2つの変形LPCを求め、この2つの変形LPCをフィルタ係数とするARMAフィルタを構成し、このフィルタを用いたフィルタリング処理によって聴覚重み付けを行う。なお、この聴覚重み付け処理は、音声符号化処理(音声復号部4で行った音声復号処理と対を成すもの)で使用されているものと同様な処理を行うことが望ましい。
変形強度制御部20内では、上記聴覚重み付け部21の処理に続いて、実施の形態3と同様に、フーリエ変換部22、レベル判定部23、連続性判定部24、変形強度算出部25の処理を行い、得られた変形強度を信号変形部7に対して出力する。
信号変形部7は、実施の形態3と同様に、入力された復号音声5と変形強度に対して、
フーリエ変換部8、振幅平滑化部9、位相擾乱部10、逆フーリエ変換部11の処理を行い、得られた変形復号音声34を重み付き加算部18に出力する。
信号評価部12内では、実施の形態1と同様に、入力された復号音声5に対して、まず逆フィルタ部13、パワー算出部14、背景雑音らしさ算出部15の処理を行って背景雑音らしさを評価し、評価結果を加算制御値35として重み付き加算部18に出力する。また、推定雑音パワー更新部16の処理を行って、内部の推定雑音パワーを更新する。
そして、推定雑音スペクトル更新部17は、音声復号部4から入力されたスペクトルパラメータ33と背景雑音らしさ算出部15から入力され背景雑音を用いて、その内部に格納してある推定雑音スペクトルを更新する。例えば、入力された背景雑音らしさが高い時に、実施の形態1に示した式に従い、スペクトルパラメータ33を推定雑音スペクトルに反映させることで更新を行う。
以降のポストフィルタ部32、重み付き加算部18の動作については、実施の形態7と同様であるため、説明を省略する。
この実施の形態8によれば、音声復号処理の過程で生成されたスペクトルパラメータを流用して、聴覚重み付け処理、推定雑音スペクトルの更新を行うようにしたので、実施の形態3及び実施の形態7が持つ効果に加えて、処理が簡易化される効果がある。
更に、符号化処理とまったく同じ聴覚重み付け処理が実現され、量子化雑音の多い成分の特定精度が上がり、より良い変形強度制御が得られ、主観品質が改善する効果が得られる。
また、背景雑音らしさの算出に用いる推定雑音スペクトルの(音声符号化処理に入力された音声のスペクトルに近いという意味での)推定精度が上がり、結果として得られる安定した高精度の背景雑音らしさに基づいて精度の高い加算重み制御ができるようになり、主観品質が改善する効果がある。
なお、この実施の形態8では、ポストフィルタ部32を音声復号部4から分離した構成であったが、分離していない構成においても、実施の形態8のように音声復号部4が出力したスペクトルパラメータ33を流用して信号加工部2の処理を行うことができる。この場合でも、上記実施の形態8と同様の効果が得られる。
実施の形態9.
上記図7に示す実施の形態4の構成において、加算制御値分割部41が、重み付け加算部18にて加算される変形復号音声スペクトル44の周波数毎の重みを乗じた後のスペクトルの概形が、量子化雑音の推定スペクトル形状に一致するように、出力する変形強度を制御することも可能である。
図12は、この場合の復号音声スペクトル43と、変形復号音声スペクトル44に周波数毎の重みを乗じた後のスペクトルの一例を示す模式図である。
復号音声スペクトル43には、符号化方式に依存したスペクトル形状を持つ量子化雑音が重畳している。CELP系の音声符号化方式においては、聴覚重み付け処理後の音声における歪みを最小化するように符号の探索を行う。このため、量子化雑音は、聴覚重み付け処理後の音声においては、平坦なスペクトル形状を持つことになり、最終的な量子化雑音のスペクトル形状は、聴覚重み付け処理の逆特性のスペクトル形状を持つことになる。よって、聴覚重み付け処理のスペクトル特性を求め、この逆特性のスペクトル形状を求めて、変形復号音声スペクトルのスペクトル形状がこれに合うように、加算制御値分割部41の出力を制御することは可能である。
この実施の形態9によれば、最終的な出力音声6に含まれる変形復号音声成分のスペクトル形状を量子化雑音の推定スペクトルの概形に一致するようにしたので、実施の形態4が持つ効果に加えて、必要最低限のパワーの変形復号音声の加算によって音声区間における聞き苦しい量子化雑音を聞こえにくくすることができる効果がある。
実施の形態10.
上記実施の形態1、実施の形態3ないし8の構成において、振幅平滑化部9の処理内で、平滑化後の振幅スペクトルが推定量子化雑音の振幅スペクトル形状に一致するように加工することも可能である。なお、推定量子化雑音の振幅スペクトル形状の算出は、実施の形態9と同様にして行えばよい。
この実施の形態10によれば、変形復号音声のスペクトル形状を量子化雑音の推定スペクトル形状に一致するようにしたので、実施の形態1、実施の形態3ないし8が持つ効果に加えて、必要最低限のパワーの変形復号音声の加算によって音声区間における聞き苦しい量子化雑音を聞こえにくくすることができる効果がある。
実施の形態11.
上記実施の形態1、実施の形態3ないし10では、信号加工部2を復号音声5の加工に
使用しているが、この信号加工部2のみを取り出して、音響信号復号部(音響信号符号化に対する復号部)、雑音抑圧処理の後段に接続するなど、他の信号加工処理に使用することもできる。但し、解消したい劣化成分の特性に応じて、信号変形部における変形処理、信号評価部における評価方法を変更、調整することが必要になる。
この実施の形態11によれば、復号音声以外の劣化成分を含む信号に対して、主観的に好ましくない成分を感じにくく加工することが可能である。
実施の形態12.
上記実施の形態1ないし11では、現在のフレームまでの信号を用いて該信号の加工を行っているが、処理遅延の発生を許して次フレーム以降の信号も使用する構成も可能である。
この実施の形態12によれば、次のフレーム以降の信号を参照できるので、振幅スペクトルの平滑化特性の改善、連続性判定の精度向上、雑音らしさなどの評価精度の向上効果が得られる。
実施の形態13.
上記実施の形態1、実施の形態3、実施の形態5ないし12では、フーリエ変換によってスペクトル成分を算出し、変形処理を行って、逆フーリエ変換によって信号領域に戻しているが、フーリエ変換の代わりにバンドパスフィルタ群の各出力に対して、変形処理を行い、帯域別信号の加算によって信号を再構築する構成も可能である。
この実施の形態13によれば、フーリエ変換を使用しない構成でも同様の効果が得られる。
実施の形態14.
上記実施の形態1ないし13では、振幅平滑化部9と位相擾乱部10の両方を備えた構成であったが、振幅平滑化部9と位相擾乱部10の一方を省略した構成も可能であるし、更に別の変形部を導入した構成も可能である。
この実施の形態14によれば、解消したい量子化雑音や劣化音の特性によっては、導入効果がない変形部を省略することで処理が簡易化できる効果がある。また、適切な変形部を導入することで、振幅平滑化部9と位相擾乱部10では解消できない量子化雑音や劣化音を解消できる効果が期待できる。

Claims (2)

  1. 音声符号から複数のパラメータを生成し、当該複数のパラメータを用いて前記音声符号に対応した復号音声をフレーム単位で生成する復号音声生成手段と、
    前記フレームが複数に分割されたサブフレーム単位で、前記復号音声生成手段によって生成された前記復号音声の振幅を周波数軸方向に平滑化して第一の加工音声を生成する第一加工音声生成手段と、
    前記サブフレーム単位で、前記復号音声と前記第一の加工音声とを混合して第二の加工音声を生成する第二加工音声生成手段であって、前記復号音声生成手段によって生成された複数のパラメータの少なくとも1つに基づく前記復号音声の雑音らしさが高くなるにつれて大きくなる第一の重み付け係数と、周波数成分毎に異なる第二の重み付け係数とで重み付けられた前記第一の加工音声と、前記復号音声とを加算して第二の加工音声を生成する第二加工音声生成手段とを備えたことを特徴とする音信号加工装置。
  2. 音声符号から複数のパラメータを生成し、当該複数のパラメータを用いて前記音声符号に対応した復号音声を生成する復号音声生成ステップと、
    前記復号音声生成ステップにおいて生成された前記復号音声の振幅の値を周波数軸上の前後の振幅の値に基づいて加工して第一の加工音声を生成する第一加工音声生成ステップと、
    前記復号音声と前記第一の加工音声とを混合して第二の加工音声を生成する第二加工音声生成ステップであって、周波数成分毎に雑音らしさに応じて大きさの異なる重み付け係数で重み付けられた前記第一の加工音声と、前記復号音声とを加算して第二の加工音声を生成する第二加工音声生成ステップとを備えたことを特徴とする音信号加工方法。
JP2010131107A 1997-12-08 2010-06-08 音信号加工装置 Expired - Lifetime JP4684359B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010131107A JP4684359B2 (ja) 1997-12-08 2010-06-08 音信号加工装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP33680397 1997-12-08
JP2010131107A JP4684359B2 (ja) 1997-12-08 2010-06-08 音信号加工装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2009255958A Division JP4567803B2 (ja) 1997-12-08 2009-11-09 音信号加工方法

Publications (2)

Publication Number Publication Date
JP2010237703A true JP2010237703A (ja) 2010-10-21
JP4684359B2 JP4684359B2 (ja) 2011-05-18

Family

ID=18302839

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2009158538A Expired - Lifetime JP4440332B2 (ja) 1997-12-08 2009-07-03 音信号加工方法及び音信号加工装置
JP2009255958A Expired - Lifetime JP4567803B2 (ja) 1997-12-08 2009-11-09 音信号加工方法
JP2010131107A Expired - Lifetime JP4684359B2 (ja) 1997-12-08 2010-06-08 音信号加工装置

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP2009158538A Expired - Lifetime JP4440332B2 (ja) 1997-12-08 2009-07-03 音信号加工方法及び音信号加工装置
JP2009255958A Expired - Lifetime JP4567803B2 (ja) 1997-12-08 2009-11-09 音信号加工方法

Country Status (10)

Country Link
US (1) US6526378B1 (ja)
EP (1) EP1041539A4 (ja)
JP (3) JP4440332B2 (ja)
KR (1) KR100341044B1 (ja)
CN (1) CN1192358C (ja)
AU (1) AU730123B2 (ja)
CA (1) CA2312721A1 (ja)
IL (1) IL135630A0 (ja)
NO (1) NO20002902L (ja)
WO (1) WO1999030315A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013167720A (ja) * 2012-02-15 2013-08-29 Renesas Electronics Corp 半導体装置及び音声通信装置
JP2014021438A (ja) * 2012-07-23 2014-02-03 Nippon Hoso Kyokai <Nhk> 雑音抑圧装置およびそのプログラム
JP2014178578A (ja) * 2013-03-15 2014-09-25 Yamaha Corp 音響処理装置
US9030240B2 (en) 2010-11-24 2015-05-12 Nec Corporation Signal processing device, signal processing method and computer readable medium
US9715885B2 (en) 2013-03-05 2017-07-25 Nec Corporation Signal processing apparatus, signal processing method, and signal processing program
US9858946B2 (en) 2013-03-05 2018-01-02 Nec Corporation Signal processing apparatus, signal processing method, and signal processing program

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
JP3558031B2 (ja) * 2000-11-06 2004-08-25 日本電気株式会社 音声復号化装置
DE10056498B4 (de) * 2000-11-15 2006-07-06 BSH Bosch und Siemens Hausgeräte GmbH Programmgesteuertes Haushaltgerät mit verbessertem Geräuschbild
JP2002287782A (ja) * 2001-03-28 2002-10-04 Ntt Docomo Inc イコライザ装置
JP3568922B2 (ja) 2001-09-20 2004-09-22 三菱電機株式会社 エコー処理装置
DE10148351B4 (de) * 2001-09-29 2007-06-21 Grundig Multimedia B.V. Verfahren und Vorrichtung zur Auswahl eines Klangalgorithmus
US20030135374A1 (en) * 2002-01-16 2003-07-17 Hardwick John C. Speech synthesizer
EP1472693B1 (en) * 2002-01-25 2006-10-18 Koninklijke Philips Electronics N.V. Method and unit for subtracting quantization noise from a pcm signal
US7277537B2 (en) * 2003-09-02 2007-10-02 Texas Instruments Incorporated Tone, modulated tone, and saturated tone detection in a voice activity detection device
US20060116874A1 (en) * 2003-10-24 2006-06-01 Jonas Samuelsson Noise-dependent postfiltering
JP4518817B2 (ja) * 2004-03-09 2010-08-04 日本電信電話株式会社 収音方法、収音装置、収音プログラム
US7454333B2 (en) * 2004-09-13 2008-11-18 Mitsubishi Electric Research Lab, Inc. Separating multiple audio signals recorded as a single mixed signal
WO2006046293A1 (ja) * 2004-10-28 2006-05-04 Fujitsu Limited 雑音抑圧装置
US8520861B2 (en) * 2005-05-17 2013-08-27 Qnx Software Systems Limited Signal processing system for tonal noise robustness
JP4753821B2 (ja) * 2006-09-25 2011-08-24 富士通株式会社 音信号補正方法、音信号補正装置及びコンピュータプログラム
JP5255575B2 (ja) * 2007-03-02 2013-08-07 テレフオンアクチーボラゲット エル エム エリクソン(パブル) レイヤード・コーデックのためのポストフィルタ
PL2118889T3 (pl) 2007-03-05 2013-03-29 Ericsson Telefon Ab L M Sposób i sterownik do wygładzania stacjonarnego szumu tła
WO2009011826A2 (en) * 2007-07-13 2009-01-22 Dolby Laboratories Licensing Corporation Time-varying audio-signal level using a time-varying estimated probability density of the level
JP4914319B2 (ja) * 2007-09-18 2012-04-11 日本電信電話株式会社 コミュニケーション音声処理方法とその装置、及びそのプログラム
KR101235830B1 (ko) * 2007-12-06 2013-02-21 한국전자통신연구원 음성코덱의 품질향상장치 및 그 방법
WO2010046954A1 (ja) * 2008-10-24 2010-04-29 三菱電機株式会社 雑音抑圧装置および音声復号化装置
JP2010160496A (ja) * 2010-02-15 2010-07-22 Toshiba Corp 信号処理装置および信号処理方法
JP4869420B2 (ja) * 2010-03-25 2012-02-08 株式会社東芝 音情報判定装置、及び音情報判定方法
WO2012114628A1 (ja) * 2011-02-26 2012-08-30 日本電気株式会社 信号処理装置、信号処理方法、及び記憶媒体
JP6109927B2 (ja) * 2012-05-04 2017-04-05 カオニックス ラブス リミテッド ライアビリティ カンパニー 源信号分離のためのシステム及び方法
US10497381B2 (en) 2012-05-04 2019-12-03 Xmos Inc. Methods and systems for improved measurement, entity and parameter estimation, and path propagation effect measurement and mitigation in source signal separation
US10447516B2 (en) * 2012-11-27 2019-10-15 Nec Corporation Signal processing apparatus, signal processing method, and signal processing program
WO2014084000A1 (ja) * 2012-11-27 2014-06-05 日本電気株式会社 信号処理装置、信号処理方法、および信号処理プログラム
SI3537437T1 (sl) * 2013-03-04 2021-08-31 Voiceage Evs Llc Naprava in postopek za zmanjšanje kvantizacijskega šuma v časovnem dekoderju
WO2014145960A2 (en) 2013-03-15 2014-09-18 Short Kevin M Method and system for generating advanced feature discrimination vectors for use in speech recognition
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
JP6379839B2 (ja) * 2014-08-11 2018-08-29 沖電気工業株式会社 雑音抑圧装置、方法及びプログラム
US10026399B2 (en) * 2015-09-11 2018-07-17 Amazon Technologies, Inc. Arbitration between voice-enabled devices
US11468905B2 (en) * 2016-09-15 2022-10-11 Nippon Telegraph And Telephone Corporation Sample sequence converter, signal encoding apparatus, signal decoding apparatus, sample sequence converting method, signal encoding method, signal decoding method and program
JP6759927B2 (ja) * 2016-09-23 2020-09-23 富士通株式会社 発話評価装置、発話評価方法、および発話評価プログラム
JP7147211B2 (ja) * 2018-03-22 2022-10-05 ヤマハ株式会社 情報処理方法および情報処理装置
CN110660403B (zh) * 2018-06-28 2024-03-08 北京搜狗科技发展有限公司 一种音频数据处理方法、装置、设备及可读存储介质
CN111477237B (zh) * 2019-01-04 2022-01-07 北京京东尚科信息技术有限公司 音频降噪方法、装置和电子设备
CN111866026B (zh) * 2020-08-10 2022-04-12 四川湖山电器股份有限公司 一种用于语音会议的语音数据丢包处理系统及处理方法
AU2021358432A1 (en) * 2020-10-09 2023-05-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method, or computer program for processing an encoded audio scene using a parameter conversion
EP4226367A2 (en) * 2020-10-09 2023-08-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method, or computer program for processing an encoded audio scene using a parameter smoothing
JP7345702B2 (ja) * 2021-03-10 2023-09-15 三菱電機株式会社 騒音抑圧装置、騒音抑圧方法、及び騒音抑圧プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5957539A (ja) * 1982-09-27 1984-04-03 Sony Corp 適応的符号化装置
JPH05224698A (ja) * 1991-10-18 1993-09-03 American Teleph & Telegr Co <Att> ピッチサイクル波形を平滑化する方法及び装置
JPH0863194A (ja) * 1994-08-23 1996-03-08 Hitachi Denshi Ltd 残差駆動形線形予測方式ボコーダ
JPH09311698A (ja) * 1996-05-21 1997-12-02 Oki Electric Ind Co Ltd 背景雑音消去装置

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57148429A (en) * 1981-03-10 1982-09-13 Victor Co Of Japan Ltd Noise reduction device
JPS57184332A (en) * 1981-05-09 1982-11-13 Nippon Gakki Seizo Kk Noise eliminating device
JPS61123898A (ja) * 1984-11-20 1986-06-11 松下電器産業株式会社 音色加工装置
US4937873A (en) * 1985-03-18 1990-06-26 Massachusetts Institute Of Technology Computationally efficient sine wave synthesis for acoustic waveform processing
JPS6424572A (en) 1987-07-20 1989-01-26 Victor Company Of Japan Noise reducing circuit
JPH01123898A (ja) 1987-11-07 1989-05-16 Yoshitaka Satoda カラーバブルソープ
JP2898637B2 (ja) * 1987-12-10 1999-06-02 株式会社東芝 音声信号分析方法
IL84948A0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
US4933973A (en) * 1988-02-29 1990-06-12 Itt Corporation Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
JPH02266717A (ja) * 1989-04-07 1990-10-31 Kyocera Corp ディジタルオーディオ信号の符号化復号化装置
US5307441A (en) * 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
JP3094522B2 (ja) * 1991-07-19 2000-10-03 株式会社日立製作所 ベクトル量子化方法及びその装置
JP2563719B2 (ja) * 1992-03-11 1996-12-18 技術研究組合医療福祉機器研究所 音声加工装置と補聴器
US5517511A (en) * 1992-11-30 1996-05-14 Digital Voice Systems, Inc. Digital transmission of acoustic signals over a noisy communication channel
JPH07184332A (ja) 1993-12-24 1995-07-21 Toshiba Corp 電子機器システム
JP3353994B2 (ja) 1994-03-08 2002-12-09 三菱電機株式会社 雑音抑圧音声分析装置及び雑音抑圧音声合成装置及び音声伝送システム
JP2964879B2 (ja) 1994-08-22 1999-10-18 日本電気株式会社 ポストフィルタ
JPH08154179A (ja) * 1994-09-30 1996-06-11 Sanyo Electric Co Ltd 画像処理装置およびその装置を用いた画像通信装置
JP3568255B2 (ja) 1994-10-28 2004-09-22 富士通株式会社 音声符号化装置及びその方法
US5701390A (en) * 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
JPH1049197A (ja) * 1996-08-06 1998-02-20 Denso Corp 音声復元装置及び音声復元方法
JPH10171497A (ja) * 1996-12-12 1998-06-26 Oki Electric Ind Co Ltd 背景雑音除去装置
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
JP3454403B2 (ja) * 1997-03-14 2003-10-06 日本電信電話株式会社 帯域分割型雑音低減方法及び装置
US6167375A (en) * 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
US6092039A (en) * 1997-10-31 2000-07-18 International Business Machines Corporation Symbiotic automatic speech recognition and vocoder

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5957539A (ja) * 1982-09-27 1984-04-03 Sony Corp 適応的符号化装置
JPH05224698A (ja) * 1991-10-18 1993-09-03 American Teleph & Telegr Co <Att> ピッチサイクル波形を平滑化する方法及び装置
JPH0863194A (ja) * 1994-08-23 1996-03-08 Hitachi Denshi Ltd 残差駆動形線形予測方式ボコーダ
JPH09311698A (ja) * 1996-05-21 1997-12-02 Oki Electric Ind Co Ltd 背景雑音消去装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9030240B2 (en) 2010-11-24 2015-05-12 Nec Corporation Signal processing device, signal processing method and computer readable medium
JP2013167720A (ja) * 2012-02-15 2013-08-29 Renesas Electronics Corp 半導体装置及び音声通信装置
JP2014021438A (ja) * 2012-07-23 2014-02-03 Nippon Hoso Kyokai <Nhk> 雑音抑圧装置およびそのプログラム
US9715885B2 (en) 2013-03-05 2017-07-25 Nec Corporation Signal processing apparatus, signal processing method, and signal processing program
US9858946B2 (en) 2013-03-05 2018-01-02 Nec Corporation Signal processing apparatus, signal processing method, and signal processing program
JP2014178578A (ja) * 2013-03-15 2014-09-25 Yamaha Corp 音響処理装置

Also Published As

Publication number Publication date
AU1352799A (en) 1999-06-28
EP1041539A4 (en) 2001-09-19
CN1192358C (zh) 2005-03-09
CN1281576A (zh) 2001-01-24
US6526378B1 (en) 2003-02-25
KR100341044B1 (ko) 2002-07-13
IL135630A0 (en) 2001-05-20
CA2312721A1 (en) 1999-06-17
AU730123B2 (en) 2001-02-22
JP4440332B2 (ja) 2010-03-24
JP4684359B2 (ja) 2011-05-18
WO1999030315A1 (fr) 1999-06-17
JP2010033072A (ja) 2010-02-12
NO20002902D0 (no) 2000-06-07
KR20010032862A (ko) 2001-04-25
EP1041539A1 (en) 2000-10-04
JP4567803B2 (ja) 2010-10-20
JP2009230154A (ja) 2009-10-08
NO20002902L (no) 2000-06-07

Similar Documents

Publication Publication Date Title
JP4567803B2 (ja) 音信号加工方法
US8255222B2 (en) Speech separating apparatus, speech synthesizing apparatus, and voice quality conversion apparatus
RU2667029C2 (ru) Аудиодекодер и способ обеспечения декодированной аудиоинформации с использованием маскирования ошибки, модифицирующего сигнал возбуждения во временной области
EP1327241B1 (en) Perceptually improved enhancement of encoded acoustic signals
EP1638083A1 (en) Bandwidth extension of bandlimited audio signals
KR102105044B1 (ko) 낮은 레이트의 씨이엘피 디코더의 비 음성 콘텐츠의 개선
JP4230414B2 (ja) 音信号加工方法及び音信号加工装置
AU2001284607A1 (en) Perceptually improved enhancement of encoded acoustic signals
JP4358221B2 (ja) 音信号加工方法及び音信号加工装置
RU2707144C2 (ru) Аудиокодер и способ для кодирования аудиосигнала
JP5291004B2 (ja) 通信ネットワークにおける方法及び装置
JP3360423B2 (ja) 音声強調装置
Vaillancourt et al. New post-processing techniques for low bit rate celp codecs
Biswas et al. Laguerre-based linear prediction using perceptual biasing
JPH09160595A (ja) 音声合成方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110208

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110208

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140218

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term