JP5898515B2 - 半導体装置及び音声通信装置 - Google Patents

半導体装置及び音声通信装置 Download PDF

Info

Publication number
JP5898515B2
JP5898515B2 JP2012030384A JP2012030384A JP5898515B2 JP 5898515 B2 JP5898515 B2 JP 5898515B2 JP 2012030384 A JP2012030384 A JP 2012030384A JP 2012030384 A JP2012030384 A JP 2012030384A JP 5898515 B2 JP5898515 B2 JP 5898515B2
Authority
JP
Japan
Prior art keywords
noise
determination
unit
suppression
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012030384A
Other languages
English (en)
Other versions
JP2013167720A (ja
Inventor
みち 熊谷
みち 熊谷
哲也 中川
哲也 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renesas Electronics Corp
Original Assignee
Renesas Electronics Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renesas Electronics Corp filed Critical Renesas Electronics Corp
Priority to JP2012030384A priority Critical patent/JP5898515B2/ja
Priority to TW102100748A priority patent/TW201333935A/zh
Priority to CN201310050871XA priority patent/CN103258542A/zh
Priority to US13/766,329 priority patent/US9431022B2/en
Priority to KR1020130015719A priority patent/KR20130094246A/ko
Publication of JP2013167720A publication Critical patent/JP2013167720A/ja
Application granted granted Critical
Publication of JP5898515B2 publication Critical patent/JP5898515B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Noise Elimination (AREA)

Description

本発明は、半導体装置及び音声通信装置に関し、特に、音声信号と雑音とを含む入力信号から雑音を除去するための処理を行う半導体装置に適用して、有効な技術に関する。
携帯電話や電話会議システム等の音声通信機器において、雑音を低減することは非常に重要である。携帯電話等の音声通信機器の多くは、背景雑音(環境雑音)を除去するための技術が適用されている。例えば、音声信号と背景雑音とを含む信号から背景雑音を除去するための従来技術として、特許文献1及び2に開示がある。
特許文献1には、音質を損なうことなく背景雑音を除去するために、入力信号から背景雑音の急峻な変化成分を取り除いた推定背景雑音を除去するとともに、S/N比が小さい周波数帯域に対しては背景雑音の急峻な変化分を含む再更新推定背景雑音を除去する雑音除去技術が開示されている。また、特許文献2には、音声信号と背景雑音とを含む信号から背景雑音を除去する背景雑音除去装置において、過去の雑音区間の帯域スペクトルに基づいて算出した帯域別S/N比に基づいて、現在のフレーム信号が音声区間又は雑音区間の何れかであるかを判定する技術が開示されている。
特開平10−171497号公報 特開平2001−265367号公報
背景雑音を除去する装置では、入力信号に音声信号が含まれているか否かを検出する処理(以下、雑音判定処理、とも称する。)を行った後に、音声と雑音とを区別して雑音を抑圧する処理が行われることが多い。前記雑音判定処理では、例えば、音声であるか雑音であるかを判定するための判定基準を用いて、入力信号に音声信号が含まれるか否かが判定される。従来、その判定に用いられる判定基準は、背景雑音を基に決定されていた。例えば、携帯電話の既存のエコーキャンセラ技術が適用されたノイズサプレッサでは、雑音判定処理に用いられる判定基準は、想定される使用環境のうち一般的な使用環境における背景雑音に対する入力信号を表すS/N比(例えば、22dB)を基に決定される。
他方、音声通信機器の通信時の音質は、背景雑音のような線形な雑音(加法性の雑音)の他に、音声信号の符号化による音声信号自体の歪みや、話者とマイクとの間に存在する障害物(例えば、マスクやヘルメット等)による音声信号自体の歪みによっても劣化する。このような背景雑音以外の雑音を含む入力信号に対して、従来のように背景雑音のみを考慮して決定された判定基準を用いて雑音判定処理を行った場合、音声であるにも関わらず雑音であると誤って判定される虞があることを、本願発明者は見出した。例えば、コーデックによる低ビットレートの符号化により音声信号が劣化し、背景雑音以外の雑音が想定される背景雑音よりも大きくなった場合、想定される背景雑音を基に決定した判定基準を用いて雑音判定処理を行うと、音声であるにも関わらず雑音であると誤って判定され、音声が不当に抑圧される虞がある。例えば、通話音声に背景雑音以外の雑音が存在し、背景雑音以外の音声のS/N比が17dBである場合に、背景雑音を基に決定した雑音判定基準(22dB)を用いて雑音判定処理を行うと、17dBより大きく22dBより小さい範囲の入力信号は、音声信号を含む可能性が高いにも関わらず、雑音と判定される虞がある。このような音声信号の歪みに基づく雑音について、特許文献2では特に考慮されていない。
また、特許文献1の記載の技術等を適用して入力信号から雑音を抑圧する処理を行ったとしても、背景雑音以外の雑音成分を抑圧することはできないため、雑音除去としては不十分であると、本願発明者は考えた。
本発明の目的は、より高精度な雑音除去を実現するための技術を提供することにある。
本発明の前記並びにその他の目的と新規な特徴は本明細書の記述及び添付図面から明らかになるであろう。
本願において開示される発明のうち代表的なものの概要を簡単に説明すれば下記のとおりである。
すなわち、本半導体装置は、符号化された入力信号を復号する復号部と、前記入力信号に音声信号が含まれるか否かの判定を行う判定部と、前記判定部による判定結果に基づいて前記入力信号に含まれる雑音成分を抑圧するための抑圧処理を行う抑圧部と、前記判定に用いられる判定基準値として音声信号の歪に基づく雑音に対する音声信号の割合を規定する第1基準値を格納するための第1記憶部とを有する。
本願において開示される発明のうち代表的なものによって得られる効果を簡単に説明すれば下記のとおりである。
すなわち、本半導体装置によれば、より高精度な雑音除去を実現することができる。
図1は、音声再生時に入力信号に含まれる雑音成分を抑圧するための雑音抑圧処理を行う音声処理装置を搭載した携帯電話端末を例示する説明図である。 図2は、音声処理部10による信号処理の流れを例示する説明図である。 図3は、音声処理部10の内部構成を例示するブロック図である。 図4は、背景雑音判定基準SNR1の種類を例示する説明図である。 図5は、特有雑音判定基準SNR2の種類を例示する説明図である。 図6は、特有雑音テーブルを例示する説明図である。 図7は、特有雑音テーブルの種類を例示する説明図である。 図8は、音声処理部10による雑音抑圧処理の流れを例示する流れ図である。 図9は、雑音判定処理の流れを例示する流れ図である。 図10は、実施の形態2に係る音声処理部の内部構成を例示するブロック図である。 図11は、音声処理部20による雑音抑圧処理の流れを例示する流れ図である。 図12は、実施の形態3に係る音声処理部の内部構成を例示するブロック図である。 図13は、音声処理部30による雑音抑圧処理の流れを例示する流れ図である。 図14は、実施の形態4に係る音声処理部の内部構成を例示するブロック図である。 図15は、音声処理部40による雑音抑圧処理の流れを例示する流れ図である。
1.実施の形態の概要
先ず、本願において開示される発明の代表的な実施の形態について概要を説明する。代表的な実施の形態についての概要説明で括弧を付して参照する図面中の参照符号はそれが付された構成要素の概念に含まれるものを例示するに過ぎない。
〔1〕(音声の歪に起因する雑音を考慮して音声を検出する半導体装置)
本発明の代表的な実施の形態に係る半導体装置(3)は、符号化された入力信号を復号する復号部(11)と、前記入力信号に音声信号が含まれるか否かの判定を行う判定部(1001、4001)と、前記判定部による判定結果に基づいて前記復号部によって復号された入力信号に含まれる雑音成分を抑圧するための抑圧処理を行う抑圧部(1002、1003)とを有する。前記半導体装置は更に、前記判定に用いられる判定基準値として音声信号の歪に基づく雑音(特有雑音)に対する音声信号の割合を規定する第1基準値(SNR2)を格納するための第1記憶部(107、208)を有する。
項1の半導体装置によれば、前記判定の判定基準値として前記第1基準値を用いることができるから、例えば、音声信号の歪に基づく雑音が想定される背景雑音よりも大きくなった場合であっても、背景雑音のみを考慮した判定基準値を用いる場合に比べて、音声信号が雑音であると誤判定される確率が低くなり、雑音除去の精度を高めることができる。
〔2〕(最も小さい基準値を選択して判定基準とする)
項1の半導体装置は、前記判定部による判定の判定基準値として、背景雑音に対する音声信号の割合を規定する第2基準値(SNR1)を格納するための第2記憶部(105、208)と、前記第1記憶部に格納された前記第1基準値と前記第2記憶部に格納された前記第2基準値のうち最も小さい基準値を選択する選択部(108)とを更に有する。また、項1の半導体装置において、前記判定部は、前記選択部によって選択された基準値を用いて前記判定を行う。
これによれば、前記第1記憶部及び前記第2記憶部に設定された基準値に応じて、前記判定に適した判定基準値を選択することが容易となる。
〔3〕(背景雑音の大きさに応じて判定基準をダイナミックに決定する)
項2の半導体装置は、前記復号された入力信号に含まれる背景雑音の信号レベルに基づいて前記第2基準値を算出するとともに、前記第2記憶部の値を更新する更新部(304)を、更に有する。
これによれば、入力信号に含まれる背景雑音の信号レベルが変化した場合であっても、前記判定に適した判定基準値を選択することが可能となる。
〔4〕(判定方法)
項2又は3の半導体装置において、前記判定部は、前記入力信号の信号レベルが前記判定基準値に基づいて決定された判定閾値(雑音レベル×雑音判定基準SNR)よりも大きい場合には、前記入力信号に音声信号が含まれると判定し、前記入力信号の信号レベルが前記判定閾値よりも小さい場合には、前記入力信号に音声信号が含まれないと判定する。
〔5〕(音声を含む信号から、背景雑音と前記音声歪に基づく雑音とを抑圧する処理を行う)
項1乃至4の何れかの半導体装置において、前記抑圧部は、前記判定部によって音声信号が含まれると判定された入力信号に対して、前記背景雑音を抑圧するための処理を行うとともに、前記音声信号の歪に基づく雑音を抑圧するための処理を行う。
これによれば、背景雑音のみならず音声信号の歪に基づく雑音も抑圧するから、音質をより向上させることができる。
〔6〕(抑圧処理に用いる基準値(雑音テーブル))
項1乃至5の何れかの半導体装置は、背景雑音の抑圧量の基準となる第3基準値(背景雑音テーブル)を格納するための第3記憶部(103)と、音声信号の歪に基づく雑音の抑圧量の基準となる第4基準値(特有雑音テーブル)を格納するための第4記憶部(109)と、を更に有する。当該半導体装置において、前記抑圧部は、前記判定部によって音声信号が含まれると判定された場合には、前記入力信号から前記第3基準値に応じた抑圧量を減算するとともに前記第4基準値に応じた抑圧量を減算するための処理を行い、前記判定部によって音声信号が含まれないと判定された場合には、前記入力信号から第3基準値に基づく抑圧量を減算するための処理を行う。
これによれば、背景雑音に加えて、音声信号の歪に基づく雑音を容易に抑圧することができる。
〔7〕(有声音について音声歪に基づく雑音を抑圧する)
項5又は6の半導体装置において、前記抑圧部は、前記判定部(4001)によって音声信号が含まれると判定された入力信号のうち有声音に係る音声信号を含む入力信号に対して、前記第3基準値に応じた抑圧量及び前記第4基準値に応じた抑圧量を減算するための処理を行う。
これによれば、無声音に対して前記第4基準値に応じた雑音の抑圧を行わないから、音声信号の歪に基づく雑音が無声音に近い信号波形を有する場合であっても、無声音を含む音声信号に悪影響を及ぼさない。
〔8〕(音声の符号化方式に応じた雑音)
項1乃至7の何れかの半導体装置において、前記音声信号の歪に基づく雑音は、前記符号化に基づく雑音である。
これによれば、背景雑音のみならずコーデックの符号化に基づく雑音を考慮した雑音抑圧が可能となるから、例えばコーデックによる符号化のビットレートが低く音声信号の歪が大きい場合であっても、音質をより向上させることができる。
〔9〕(音声の歪に基づく雑音を考慮して音声を検出する音声通信装置)
本発明の代表的な実施の形態に係る音声通信装置(1)は、符号化された入力信号を受信するための受信部(12)と、前記受信部によって受信された入力信号を復号する復号部(11)と、前記復号部によって復号された入力信号に含まれる雑音を抑圧するための処理を行う抑圧処理部(100、400)と、を有する。前記抑圧処理部は、前記入力信号に音声信号が含まれるか否かの判定を行う判定部(1001)と、前記判定部による判定結果に基づいて、前記入力信号に含まれる雑音成分を抑圧するための抑圧処理を行う抑圧部(1002、1003)とを有する。更に、前記抑圧処理部は、前記判定のための判定基準値として、音声信号の歪に基づく雑音に対する音声信号の割合を規定する第1基準値(SNR2)を格納するための第1記憶部(107、208)と、を有する。
これによれば、項1と同様に、音声通信装置による雑音除去の精度を高めることができる。
〔10〕(最も小さい基準値を選択して判定基準とする)
項9の音声通信装置において、前記抑圧処理部は、前記判定部による判定の判定基準値として、背景雑音に対する音声信号の割合を規定する第2基準値(SNR1)を格納するための第2記憶部(105)と、前記第1記憶部に格納された前記第1基準値と前記第2記憶部に格納された前記第2基準値のうち、最も小さい基準値を選択する選択部(108)と、を更に有する。また、前記判定部は、前記選択部によって選択された基準値を用いて前記判定を行う。
これによれば、項2と同様に、前記判定に適した判定基準値を選択することが可能となる。
〔11〕(背景雑音の大きさに応じて判定基準をダイナミックに決定する)
項10の音声通信装置において、前記抑圧処理部は、前記復号された入力信号に含まれる背景雑音の信号レベルに基づいて前記第2基準値を算出するとともに、前記第2記憶部の値を更新する更新部(304)を、更に有する。
これによれば、項3と同様に、前記判定に適した判定基準値を選択することが可能となる。
〔12〕(判定方法)
項10又は11の音声通信装置において、前記判定部は、前記入力信号の信号レベルが、前記判定基準値に基づいて決定された判定閾値(雑音レベル×雑音判定基準SNR)よりも大きい場合には、前記入力信号に音声信号が含まれると判定し、前記入力信号の信号レベルが前記判定閾値よりも小さい場合には、前記入力信号に音声信号が含まれないと判定する。但し、音声信号が含まれないと判定された場合も、時間軸上での判定結果が音声信号を含むと判定された場合は、音声信号は含まれると判定する。
〔13〕(音声を含む信号から、背景雑音と前記音声歪に基づく雑音とを抑圧する処理を行う)
項9乃至12の何れかの音声通信装置において、前記抑圧部は、前記判定部によって音声信号が含まれると判定された入力信号に対して、前記背景雑音を抑圧するための処理を行うとともに、前記音声信号の歪に基づく雑音を抑圧するための処理を行う。
これによれば、背景雑音のみならず音声信号の歪に基づく雑音も抑圧するから、音質をより向上させることができる。
〔14〕(抑圧処理に用いる基準値)
項9乃至13の何れかの音声通信装置において、前記抑圧処理部は、背景雑音の抑圧量の基準となる第3基準値(背景雑音テーブル)を格納するための第3記憶部(103)と、音声信号の歪に基づく雑音の抑圧量の基準となる第4基準値(特有雑音テーブル)を格納するための第4記憶部(109)と、を更に有する。また、前記抑圧部は、前記判定部によって音声信号が含まれると判定された場合には、前記入力信号から前記第3基準値に応じた抑圧量を減算するとともに前記第4基準値に応じた抑圧量を減算するための処理を行い、前記判定部によって音声信号が含まれないと判定された場合には、前記入力信号から第3基準値に応じた抑圧量を減算するための処理を行う。
これによれば、項6と同様に、音声信号の歪に基づく雑音を容易に抑圧することができる。
〔15〕(有声音について音声歪に基づく雑音を抑圧する)
項13又は14の音声通信装置において、前記抑圧部は、前記判定部(4001)によって音声信号が含まれると判定された入力信号のうち有声音に係る音声信号を含む入力信号に対して、前記第3基準値に応じた信号成分及び前記第4基準値に応じた信号成分を抑圧するための処理を行う。
これによれば、項7と同様に、雑音を抑圧するための処理によって無声音を含む音声信号に悪影響を及ぼさない。
〔16〕(音声の符号化方式に応じた雑音)
項9乃至15の何れかの音声通信装置において、前記音声信号の歪に基づく雑音は、前記符号化に基づく雑音である。
これによれば、背景雑音のみならず、コーデックの符号化に基づく雑音を考慮した抑圧処理が可能となる。
〔17〕(音声の歪に起因する雑音を抑圧する半導体装置)
本発明の代表的な実施の形態に係る別の半導体装置(3)は、符号化された入力信号を復号する復号部(11)と、前記復号部によって復号された入力信号に含まれる雑音を抑圧するための抑圧処理を行う抑圧処理部(100、400)と、前記抑圧処理で用いられる、前記復号された入力信号に含まれる雑音のうち音声信号の歪に基づく雑音を抑圧するための基準値(SNR2、特有雑音テーブル)を格納するための記憶部(107、208、109)と、を有する。
これによれば、音声信号の歪に基づく雑音を考慮した抑圧処理が可能となるから、背景雑音のみを考慮する場合に比べて雑音除去の精度を高めることができる。
〔18〕(音声の符号化方式に応じた雑音)
項17の半導体装置において、前記音声信号の歪に基づく雑音は前記符号化に基づく雑音である。
これによれば、項8と同様に、より音質を向上させることができる。
〔19〕(有声音について音声歪に基づく雑音を抑圧する)
項18の半導体装置において、前記抑圧処理部(400)は、前記復号部によって復号された入力信号のうち有声音に係る音声信号を含む入力信号に対して、音声信号の歪に基づく雑音を抑圧するための処理を行う。
これによれば、項7と同様に、雑音を抑圧するための処理によって無声音を含む音声信号に悪影響を及ぼさない。
2.実施の形態の詳細
実施の形態について更に詳述する。
《実施の形態1》
図1に、音声通信装置の一実施の形態として、音声再生時に入力信号に含まれる雑音成分を除去するための雑音抑圧処理を行う音声処理装置を搭載した携帯電話端末を例示する。同図において、携帯電話端末1に搭載される音声処理装置3は、特に制限されないが、公知のCMOS集積回路の製造技術によって1個の単結晶シリコンのような半導体基板に形成される。
図1を用いて、携帯電話端末2から送信された音声通信データを携帯電話端末1が受信して再生する場合の処理の流れを簡単に説明する。なお、同図には当該処理の内容を説明するために必要な機能ブロックのみを図示しており、携帯電話端末1が音声通信データの送信のための機能部(送信部やエンコーダ等)を備えることや、携帯電話端末2が音声通信データの受信のための機能部(音声処理部や受信部等)を備えることは言うまでもない。
先ず、話者から発せられた音声が携帯電話端末2に内蔵されたマイクロフォンによって電気信号に変換される。このとき、話者が存在する周辺環境からの背景雑音もマクロフォンに入力されるため、音声と背景雑音を含んだ音が電気信号に変換される。マイクロフォンによって生成された電気信号は、エンコーダによって符号化される。特に制限されないが、エンコーダによる音声符号化の方式は、例えば、AMRやADPCM(adaptive differential pulse code modulation)方式のG.726等である。エンコーダによる符号化処理によって生成された符号データは送信部21によって所定の伝送方式に従って送信される。
携帯電話端末1は、携帯電話端末2から送信された符号データを受信部12を介して受信する。デコーダ11は、受信された符号データを復号するための復号処理を行い、PCMデータを生成する。音声処理部10は、前記PCMデータに基づいて、音声再生のための各種信号処理を行い、スピーカを介して音声を再生する。
図2に、音声処理部10による信号処理の流れを例示する。同図に示されるように、デコーダ11から出力されたPCMデータは、メモリ(バッファメモリ)に一旦格納される。メモリに格納されたPCMデータは、所定のデータ単位で順次読み出されて各種信号処理が行われる。例えば、80サンプルを1フレームとしたデータ単位毎に信号処理が行われる。先ず、PCMデータに含まれるDC成分が抑圧される。その後、PCMデータに含まれる雑音成分を抑圧するために雑音抑圧処理が行われる。そして、音質を補正するために信号の周波数特性を補正する処理が行われる。最後に音声信号の出力レベルが適切な大きさになるようにゲイン調整が行われる。
以下、音声処理部10による雑音抑圧処理について図を用いて詳細に説明する。
図3は、音声処理部10の内部構成を例示するブロック図である。同図には、説明の便宜上、雑音抑圧処理に係る機能ブロックのみを図示する。同図に示されるように、音声処理部10は、雑音抑圧部100、エネルギー計算部101、背景雑音テーブル更新部102、背景雑音テーブル保持部103、背景雑音判定基準選択部104、背景雑音判定基準保持部105、特有雑音判定基準保持部107、特有雑音選択部106、特有雑音テーブル保持部109、及び雑音判定基準選択部108を備える。これらの機能部のうち、雑音抑圧部100、エネルギー計算部101、背景雑音テーブル更新部102、背景雑音判定基準選択部104、特有雑音選択部106、及び雑音判定基準選択部108は、例えば、CPU等のプログラム処理装置がROM(Read Only Memory)やRAM(Random Access Memory)に格納されたプログラムを実行することによって実現される機能実現手段の一部である。
音声処理部10による雑音抑圧処理は、雑音抑圧部100によって行われ、その処理内容は大きく2つに大別される。1つは、入力した1フレームのPCMデータ(以下、単に、入力信号とも称する。)に音声信号が含まれるか否かを判定する判定処理であり、もう1つは、前記判定結果に基づいて入力信号に含まれる雑音を抑圧するための抑圧処理である。
先ず、前記判定処理について詳細に説明する。判定処理は判定処理部1001によって行われる。判定処理部1001が行う判定処理として、時間軸上で行う判定処理と周波数軸上で行う判定処理の2つの処理がある。本明細書では、時間軸上で行う判定処理を「有音/無音判定処理」と表記し、周波数軸上で行う判定処理を「雑音判定処理」と表記して2つの判定処理を区別し、以下では特に雑音判定処理を中心に説明する。
判定処理部1001は、先ず、入力信号に対して高速フーリエ変換(FFT)演算を行い、時間の関数で表される時間軸信号を周波数軸上の信号(スペクトル信号)に変換する。次に、判定処理部1001は、当該変換した入力信号に対して雑音判定基準SNRを用いて雑音判定処理を行うことにより、当該入力信号に音声信号が含まれるか否かを判別する。前記雑音判定基準SNRは、雑音と音声とを判別するための閾値を決めるための情報であり、例えば、“20log(Ps/Pn)”で表される値である。ここで、Psは音声信号の信号電圧(又は信号電流)であり、Pnは雑音の信号電圧(又は信号電流)である。判定処理部1001は、雑音の信号レベルに雑音判定基準SNRを乗算した値と入力信号の信号レベルとを比較し、入力信号の方が大きければ音声フレームと判定し、入力信号の方が小さければ雑音フレームと判定する処理を行う。例えば雑音判定基準SNRの値が22dB(振幅比:13)である場合、判定処理部1001は、雑音の信号レベルに対する入力信号の信号レベルが22dB以上であるか否かを判別する。すなわち、判定処理部1001は、入力信号が雑音の13倍以上の信号レベルであれば、当該入力信号は音声信号を含むフレーム(音声フレーム)であると判定し、そうでなければ、当該入力信号は音声信号を含まないフレーム(雑音フレーム)であると判定する。
上記の判定処理部1001による判定処理において、どのような雑音判定基準を用いるかが問題となる。例えば、背景雑音のみを考慮する場合、雑音の少ない静かな環境では背景雑音に対する音声信号のS/N比が大きくなるので、S/N比の大きい雑音判定基準(大きな閾値)を用いて判定処理を行い、逆に騒がしい環境では背景雑音に対する音声信号のS/N比が小さくなるので、S/N比の小さい雑音判定基準(小さな閾値)を用いて判定処理を行う。これによれば、通話環境の変化による判定精度の低下を抑えることができる。しかしながら、前述したように、入力信号には背景雑音のような線形な雑音成分の他に、音声信号の歪みに基づく雑音(以下、特有雑音、と称する。)も含まれる。例えば、特有雑音には、コーデックの符号化方式やビットレート及び圧縮率等に起因する音声信号の歪みに基づく雑音や、話者とマイクロフォンとの間に存在するマスクやヘルメット等の障害物による音声信号の歪みに基づく雑音等が含まれる。そのため、前述したように、コーデックによる低ビットレートの符号化等により音声信号が大きく歪み、特有雑音が想定される背景雑音よりも大きくなった場合に、背景雑音を基に決定した雑音判定基準を用いて雑音判定処理を行うと、音声フレームであるにも関わらず雑音フレームであると誤って判定され、後段の抑圧処理で音声信号が不当に抑圧される虞がある。そこで、本実施の形態に係る音声処理部10では、背景雑音のみならず特有雑音を考慮して、雑音判定処理を行う。具体的には、背景雑音に対する音声信号のS/N比を表す背景雑音判定基準SNR1と、特有雑音に対する音声信号のS/N比を表す特有雑音判定基準SNR2のうち、最も小さい雑音判定基準を用いて雑音判定処理を行う。
先ず、背景雑音判定基準SNR1について詳細に説明する。
図4に、背景雑音判定基準SNR1を例示する。同図に示されるように、背景雑音判定基準SNR1は、想定される通話環境に応じて複数用意される。例えば、静かな室内のような静かな通話環境を想定した雑音判定基準SNR1_0(=45dB)や、通常の室内のような一般的な通話環境を想定した雑音判定基準SNR1_1(=22dB)、大きな騒音を想定した雑音判定基準SNR1_n(=6dB)等である。これらの雑音判定基準SNR1_0〜SNR1_n(nは1以上の整数)の情報は、例えば、背景雑音判定基準保持部105に保持される。背景雑音判定基準保持部105は、データを格納するための記憶領域を有する記憶装置であり、例えばメモリ等から構成される。背景雑音判定基準SNR1として何れの情報を用いるかは、例えばN/S調整モード信号によって決定される。前記N/S調整モード信号は、背景雑音判定基準SNR1を指示する信号であり、例えば外部又はユーザインタフェースを介して入力される。具体的には、背景雑音判定基準選択部104が、N/S調整モード信号によって指示された値に対応した背景雑音判定基準SNR1_0〜SNR1_nを背景雑音判定基準保持部105から選択して読み出し、背景雑音判定基準SNR1として雑音判定基準選択部108に与える。例えば、N/S調整モード信号によって指定されたパラメータ値が“1”である場合、背景雑音判定基準選択部104は、背景雑音判定基準SNR1_1(=22dB)を選択し、その情報を背景雑音判定基準SNR1として雑音判定基準選択部108に与える。
次に特有雑音判定基準SNR2について説明する。
前述したように、コーデックによる符号化等によって音声信号は歪む。本願発明者は、その音声信号の歪を、コーデックの符号化方式やビットレート及び圧縮率等に依存し、音声信号に依存しない雑音成分としてモデル化することができることを発見した。例えば、所定の符号化方式、且つ所定のビットレートで符号化された音声信号に含まれる特有雑音成分は、何らかの形状の雑音成分としてモデル化(数値化)することができる。例えば、周波数に依存しない白色雑音形状の雑音成分、パルス形状の雑音成分、或いは周波数毎に特定比率で重み付けされた白色雑音形状の雑音成分等である。本実施の形態では、このモデル化した特有雑音に基づいて特有雑音判定基準SNR2を予め算出しておき、算出した特有雑音判定基準SNR2を音声処理装置内の記憶装置に格納しておく。
図5に、特有雑音判定基準SNR2の種類を例示する。同図に示されるように、特有雑音判定基準SNR2は、想定される特有雑音に応じて複数用意される。例えば、コーデックによる符号化方式がG.726であってビットレートが24kbit/sである場合の雑音判定基準SNR2_2、マスク使用時の通話を想定した雑音判定基準SNR2_5等である。これらの雑音判定基準SNR2_0〜SNR2_mは、以下の方法で算出される。例えば、設計段階で行ったシミュレーション結果や実機の評価結果を基に把握した特有雑音の特性から特有雑音成分をモデル化する。そしてモデル化した特有雑音成分の平均エネルギーを算出し、その平均エネルギーに基づいて、特有雑音判定基準を算出する。特有雑音判定基準は、例えば、半導体装置の設計段階又は携帯電話端末の製造段階で算出され、特有雑音判定基準保持部107に格納される。特有雑音判定基準保持部107は、データを格納するための記憶領域を有する記憶装置であり、例えばメモリ等から構成される。雑音判定基準SNR2として何れの情報を用いるかは、例えば特有雑音選択信号によって決定される。前記特有雑音選択信号は、考慮すべき特有雑音を指示する信号であり、例えば外部又はユーザインタフェースを介して入力される。具体的には、特有雑音選択部106が、特有雑音選択信号によって指定されたパラメータ値に対応した特有雑音判定基準SNR2_0〜SNR2_mの情報を特有雑音判定基準保持部107から読み出し、特有雑音判定基準SNR2として雑音判定基準選択部108に与える。例えば、特有雑音選択信号によってパラメータ値“0”とパラメータ値“5”が指定された場合には、特有雑音選択部106は、特有雑音判定基準SNR2_0と特有雑音判定基準SNR2_5を選択して雑音判定基準選択部108に与える。
雑音判定基準選択部108は、背景雑音判定基準選択部104によって選択された背景雑音判定基準SNR1と、特有雑音選択部106によって選択された特有雑音判定基準SNR2とを入力し、入力した雑音判定基準のうち最も小さい雑音判定基準を選択して判定処理部1001に与える。ここで、雑音判定基準選択部108による雑音判定基準の決定方法を式で表すと、下記(式1)のようになる。(式1)において、Psは音声信号の信号電圧(又は信号電流)であり、Pn_0〜Pn_m(mは1以上の整数)は特有雑音の信号電圧(又は信号電流)であり、Pbは背景雑音の信号電圧(又は信号電流)である。(式1)の決定方法によれば、例えば、背景雑音判定基準SNR1_1、特有雑音判定基準SNR2_0、及び特有雑音判定基準SNR2_5が雑音判定基準選択部108に入力された場合に、特有雑音判定基準SNR2_0の値が最も小さければ、特有雑音判定基準SNR2_0が選択されて判定処理部1001に与えられる。判定処理部1001は、雑音判定基準選択部108によって選択された雑音判定基準に用いて、上述した方法により雑音判定処理を行う。
Figure 0005898515
これによれば、例えば低ビットレートの符号化等により音声信号が大きく歪み、その歪に応じた特有雑音が想定される背景雑音よりも大きくなった場合であっても、最も小さい雑音判定基準を用いて雑音判定処理が行われるから、音声信号を含むフレームが雑音フレームであると誤って判定される確率が低くなる。
次に、抑圧処理について詳細に説明する。抑圧処理は、入力信号が音声フレームであるか否かによって処理内容が異なる。具体的には、前記雑音判定処理で音声フレームと判定された入力信号に対しては特有雑音を抑圧する特有雑音抑圧処理と背景雑音を抑圧する背景雑音抑圧処理とが行われ、他方、雑音フレームと判定された入力信号に対しては背景雑音抑圧処理が行われる。
特有雑音抑圧処理について説明する。判定処理部1001によって音声フレームと判定された入力信号のスペクトル信号は、特有雑音抑圧処理部1002に入力される。ここで、前記スペクトル信号は、例えば81個の周波数帯域毎のスペクトルデータを含むデータ構成とされる。特有雑音抑圧処理部1002は、特有雑音テーブルの値に基づいて、前記スペクトル信号に対して特有雑音抑圧処理を行う。
図6は、特有雑音テーブルを例示する説明図である。同図に示されるように、特有雑音テーブルは、例えば、特有雑音の大きさを表すスペクトルデータが81分割された周波数帯域毎に格納されたデータ構成とされる。なお、上記81個という個数は、雑音抑圧処理におけるFFT演算の周波数ポイント数に対応した個数であればよく、その数に特に制限はない。各周波数帯域のスペクトルデータは、例えば、設計段階で行ったシミュレーション結果や実機の評価結果を基に把握した特有雑音の特性から、周波数帯域毎に特有雑音をモデル化(数値化)したデータである。本実施の形態では、想定される特有雑音の種類毎に特有雑音テーブルを予め作成しておき、作成した特有雑音テーブルを音声処理装置内の記憶装置に格納しておく。
図7に、特有雑音テーブルの種類を例示する。同図に示されるように、特有雑音テーブルNT2は、想定される特有雑音に応じて複数用意される。例えば、コーデックによる符号化方式がG.726であってビットレートが24kbit/sである場合の特有雑音テーブルNT2_0、マスク使用時の通話を想定した特有雑音テーブルNT2_5等である。これらの特有雑音テーブルNT2_0〜NT2_mの情報は、例えば、特有雑音テーブル保持部109に保持される。特有雑音テーブル保持部109は、データを格納するための記憶領域を有する記憶装置であり、例えばメモリ等から構成される。特有雑音抑圧処理において、何れの特有雑音テーブルを用いるかは、例えば特有雑音選択信号によって決定される。特有雑音抑圧処理部1002は、特有雑音選択信号によって指定されたパラメータ値に対応した特有雑音テーブルNT2_0〜NT2_mを特有雑音テーブル保持部109から読み出し、読み出したテーブルを用いて特有雑音抑圧処理を行い、入力信号から特有雑音成分を取り除く。具体的には、特有雑音抑圧処理部1002は、入力信号のスペクトルデータの値から、特有雑音選択信号によって指定された特有雑音テーブルのスペクトルデータの値を減算する処理を行う。当該減算処理は、81個の周波数帯域毎に行われる。
背景雑音抑圧処理について説明する。判定処理部1001によって雑音フレームと判定された入力信号(スペクトル信号)は、特有雑音抑圧処理部1002を介さずに、背景雑音抑圧処理部1003に入力される。また、特定雑音抑圧処理部1002によって特有雑音成分が抑圧された音声フレームの入力信号(スペクトル信号)も、背景雑音抑圧処理部1003に入力される。背景雑音抑圧処理部1003は、入力されたスペクトル信号に対して背景雑音抑圧処理を行う。具体的には、背景雑音抑圧処理部1003は、背景雑音テーブル保持部103から背景雑音テーブルの値を読み出すとともに、当該読み出したテーブルの値に所定の係数を乗じた値を、入力されたスペクトル信号から減算する処理を行う。当該減算処理は、周波数帯域毎に行われる。前記背景雑音テーブルは、例えば、前記図6で示した特有雑音テーブルのように背景雑音の大きさを表すスペクトルデータが81分割された周波数帯域毎に格納されたデータ構成とされ、背景雑音テーブル保持部103に格納される。背景雑音テーブル保持部103は、データを格納するための記憶領域を有する記憶装置であり、例えばメモリ等から構成される。前記所定の係数は、背景雑音の減算量を加減する係数であり、例えば入力信号が音声フレームであるか否かによって異なる値とされる。例えば、雑音フレームと判定された入力信号に対しては、前記所定の係数を大きな値とすることで抑圧量を大きくし、他方、音声フレームと判定された入力信号に対しては、前記所定の係数を小さな値とすることで抑圧量を小さくする。背景雑音抑圧処理部1003は、背景雑音抑圧処理が完了したスペクトル信号に対して逆高速フーリエ変換(IFFT)演算を行い、時間の関数で表される時間軸信号に逆変換する。逆変換された入力信号は、周波数特性の調整やゲイン調整等を行う機能部に入力され、最終的にスピーカによって再生される。
ここで、背景雑音テーブルの生成方法について説明する。背景雑音テーブル更新部102は、通話開始直後の一定期間は入力信号に音声信号が含まれず背景雑音のみが含まれると想定し、システム起動後の所定期間を利用して背景雑音テーブルを作成する。具体的には、先ず、エネルギー計算回路101が通話開始直後の一定期間に入力された入力信号(1フレームのPCMデータ)の平均エネルギーを算出する。次に、背景雑音テーブル更新部102が、算出された平均エネルギーに対してFFT演算処理を行い、81個の周波数帯域毎のスペクトルデータを生成する。背景雑音テーブル更新部102は、生成したスペクトルデータを背景雑音テーブル保持部103に格納する。その後は、判定処理部1001による雑音判定処理において入力信号が雑音フレームであると判定され、かつ雑音期間が一定期間以上継続した場合に、背景雑音テーブル更新部102が当該入力信号の平均エネルギーに基づいて周波数帯域毎のスペクトルデータを生成し、背景雑音テーブル保持部103に格納された背景雑音テーブルを更新する。また、背景雑音テーブル更新の際、急激な背景雑音テーブルの変化が起こらないように更新する。これにより、通話環境の変化に応じて背景雑音テーブルを更新することができる。 音声処理部10による雑音抑圧処理の流れについて詳細に説明する。
図8は、音声処理部10による雑音抑圧処理の流れを例示する流れ図である。
携帯電話端末1と携帯電話端末2との間で通話が開始され、PCMデータがバッファメモリに格納されると、雑音抑圧処理が開始される。先ず、背景雑音判定基準SNR1が決定される(S101)。具体的には、N/S調整モード信号が入力されると、背景雑音判定基準選択部104が、N/S調整モード信号で指定されたパラメータ値に対応する背景雑音判定基準SNR1_0〜1_nを背景雑音判定基準保持部105から読み出し、雑音判定基準選択部108に与える。次に、特有雑音判定基準SNR2が決定される(S102)。具体的には、特有雑音選択信号が入力されると、特有雑音選択部106が、特有雑音選択信号で指定されたパラメータ値に対応する特有雑音判定基準SNR2_0〜1_mを特有雑音判定基準保持部107から読み出し、雑音判定基準選択部108に与える。
次に、DC成分が抑圧された1フレームのPCMデータ(入力信号)が判定処理部1001に入力されると、判定処理部1001は、入力信号の平均エネルギーを算出する(S103)。判定処理部1001は、算出した平均エネルギーに基づいて、入力信号に音声信号が含まれるか否かを判定する(S104)。当該判定処理は、時間軸上で行われる有音/無音判定処理である。有音/無音判定処理では、特に制限されないが、当該フレームの平均エネルギーと当該フレームの前に入力されたフレームの平均エネルギーとの相関に基づいて、音声信号の有無を判別する。
また、判定処理部1001は、周波数軸上で行う雑音判定処理に用いる雑音判定基準SNRを決定する(S105)。具体的には、雑音判定基準選択部108が、入力された背景雑音判定基準SNR1及び特有雑音判定基準SNR2のうちの最も小さい雑音判定基準を選択して判定処理部1001に与えることにより、雑音判定基準SNRが決定される。
次に、判定処理部1001は、ステップ103で時間軸上の雑音判定処理が行われた入力信号に対してFFT演算処理を行い、スペクトル信号を生成する(S106)。当該スペクトル信号は、例えば81個の周波数帯域毎のスペクトルデータを含む。次に、判定処理部1001は、入力信号の信号レベル(入力信号レベル)と雑音の信号レベル(雑音レベル)を算出する(S107)。具体的には、判定処理部1001が、入力信号に係る81個の周波数帯域毎のスペクトルデータから、入力信号レベルを表す単一のデータを生成する。また、背景雑音テーブルが生成されている場合には、判定処理部1001が、背景雑音テーブルにおける81個の周波数帯域毎のスペクトルデータから、雑音レベルを表す単一のデータを生成する。その後の処理は、通話開始後一定期間が経過しているか否かによって分岐される(S108)。通話開始後一定期間が経過していない場合には、背景雑音テーブル更新部102が、前述した方法により、背景雑音テーブルを作成し、背景雑音テーブル保持部103に格納する(S109)。そして、判定処理部1001は、前記ステップS106でスペクトル信号に変換された入力信号に対してIFFT演算を行い、時間軸上の信号に逆変換する(S115)。逆変換された入力信号は、後段の周波数特性の補正を行う機能部に出力される(S116)。そして、通話が終了したか否かが判定され(S117)、通話が終了した場合には音声処理部10における雑音抑圧処理が終了し、通話が終了していない場合には、前記ステップS103に移行する。すなわち、通話開始後一定期間が経過するまでに入力された入力信号は、背景雑音テーブルの作成に利用されるが、雑音抑圧処理は施されず、そのまま再生される。
一方、前記ステップS108において、通話開始後一定期間が経過した後の入力信号は、判定処理部1001に入力され雑音判定処理が行われる(S110)。
図9は、雑音判定処理の流れを例示する流れ図である。先ず、判定処理部1001は、雑音の信号レベルに雑音判定基準SNRを乗算した値と入力信号の信号レベルとを比較する(S1101)。具体的には、前記ステップ107で算出した雑音レベルと前記ステップS105で決定された雑音判定基準SNRとを乗算した値と、前記ステップS107で算出した入力信号レベルとを比較する。ステップS1101において、入力信号レベルの方が大きい場合には、判定処理部1001は当該入力信号が音声フレームであると判定する(S1104)。一方、入力信号レベルの方が小さい場合には、判定処理部1001は前記ステップS104の判定結果を参照する(S1102)。前記ステップS104で音声フレームと判定されている場合には、判定処理部1001は、当該入力信号が音声フレームであると判定する(S1104)。前記ステップS104において雑音フレームと判定されている場合には、判定処理部1001は、当該入力信号が雑音フレームであると判定する(S1103)。
上記ステップS110で入力信号が一定期間以上継続して雑音フレームであると判定された場合、その判定結果が背景雑音テーブル更新部102に通知され、背景雑音テーブル更新部102は、前述した方法により、背景雑音テーブルを更新する(S111)。そして、雑音フレームであると判定された入力信号は、背景雑音抑圧処理部1003によって背景雑音成分が抑圧される(S114)。
上記ステップS110で入力信号が音声フレームであると判定された場合、特有雑音抑圧処理部1002は、特有雑音選択信号で指定されたパラメータ値に対応する特有雑音テーブルの値を読み出す(S112)。そして、特有雑音抑圧処理部1002は、読み出した特有雑音テーブルに基づいて特有雑音抑圧処理を行う(S113)。その後、特有雑音成分が抑圧されたスペクトル信号は、背景雑音抑圧処理部1003によって更に背景雑音成分が抑圧される(S114)。背景雑音抑圧処理部1003は、特有雑音成分及び背景雑音成分が抑圧されたスペクトル信号、又は背景雑音成分が抑圧されたスペクトル信号に対してIFFT演算を行い、時間軸の信号に逆変換する(S115)。逆変換された入力信号は、後段の周波数特性の補正を行う機能部に出力される(S116)。そして、通話が終了したか否かが判定され(S117)、通話が終了した場合には音声処理部10における雑音抑圧処理が終了し、通話が終了していない場合には前記ステップS103に再度移行し、通話が終了するまでステップS103〜ステップS116の処理が繰り返し行われる。
以上、実施の形態1によれば、背景雑音以外の雑音が存在する場合に、上記(式1)の決定方法に従って雑音判定基準値を決定することができるから、背景雑音のみに基づく雑音判定基準値を用いて雑音判定を行う方法に比べて、音声信号を含むフレームが雑音フレームであると誤って判定される確率を下げることができ、雑音判定処理の精度を高めることができる。更に、特有雑音抑圧処理を行うことにより、背景雑音のみならず音声信号の歪に基づく雑音も抑圧するから、より高精度な雑音除去が可能となる。
≪実施の形態2≫
図10に、実施の形態2に係る音声処理部の内部構成の一例を示す。同図に示される音声処理部20は、実施の形態1に係る音声処理部10から雑音判定基準SNRを選択する機能を除いた構成とされる。具体的には、音声処理部20は、雑音判定基準選択部108、特有雑音判定基準保持部107、特有雑音選択部106、背景雑音判定基準選択部104、及び背景雑音判定基準保持部105の代わりに雑音判定基準保持部208を備える。
雑音判定基準保持部208は、データを格納するための記憶領域を有する記憶装置であり、例えばメモリ等から構成される。雑音判定基準保持部208には、前述した(式1)に基づいて決定された雑音判定基準SNRの情報が格納される。例えば、音声処理部10を含む半導体集積回路の設計段階で、想定される通話環境に応じた背景雑音判定基準SNR1と、想定される特有雑音に応じた特有雑音判定基準SNR2を算出しておき、そのうちの最も小さい雑音判定基準の情報を前記雑音判定基準保持部208に書き込んでおく。或いは、携帯電話端末の設計段階で外部から雑音判定基準保持部208に書き込んでもよい。同様に、特有雑音テーブル保持部109にも、想定される特有雑音に応じた特有雑音テーブルを書き込んでおく。例えば、コーデックの符号化方式がAMRである場合には特有雑音テーブルNT2_0を格納しておき、符号化方式がG.726であってビットレートが24kbit/sである場合には特有雑音テーブルNT2_2を格納しておく。
図11に、音声処理部20による雑音抑圧処理の流れを例示する。
携帯電話端末1と携帯電話端末2との間で通話が開始されると、雑音抑圧処理が開始される。先ず、雑音判定基準SNRが決定される(S201)。具体的には、判定処理部1001が、雑音判定基準保持部208に格納された雑音判定基準SNRを読み出すことで、雑音判定処理に用いる雑音判定基準SNRを決定する。その後の処理は、ステップS105(SNR1、SNR2に基づく雑音判定基準の選択処理)を除いて図8に示される処理フローと略同様である。
以上、実施の形態2によれば、背景雑音のみならず特有雑音を考慮した雑音判定処理を行うことが可能となるので、実施の形態1と同様に、雑音判定処理の精度を高めることができる。また、特有雑音抑圧処理を行うことにより、背景雑音のみならず音声信号の歪に基づく雑音も抑圧するから、より高精度な雑音除去が可能となる。更に、実施の形態2によれば、予め上記(式1)に基づいて決定した雑音判定基準を雑音判定基準保持部208に格納しておくから、複数の雑音判定基準の中から1つの雑音判定基準を選択するための機能部が不要となり、システム構成を簡素化することができる。
≪実施の形態3≫
図12に、実施の形態3に係る音声処理部の内部構成の一例を示す。同図に示される音声処理部30は、実施の形態1に係る音声処理部10の機能に加え、背景雑音の変化に応じて背景雑音判定基準SNR1を更新する機能を備える。具体的には、音声処理部30は、背景雑音判定基準選択部104に代えて、背景雑音判定基準算出部304を備える。
背景雑音判定基準算出部304は、雑音フレームと判定された入力信号に基づいて背景雑音判定基準SNR1を算出し、雑音判定基準選択部108に与える。例えば、背景雑音判定基準算出部304は、判定処理部1001による判定結果を監視し、雑音フレームと判定された場合には、エネルギー計算部101によって算出された入力信号の平均エネルギーに基づいて、雑音判定基準SNR1を算出し、雑音判定基準選択部108に与える。なお、雑音判定基準SNR1の更新は、上記のように自ら判定結果を監視して行っても良いし、背景雑音テーブルの更新のタイミングに合わせて行っても良く、更新頻度は特に限定されない。
図13に、音声処理部30による雑音抑圧処理の流れを例示する。
携帯電話端末1と携帯電話端末2との間で通話が開始されると、雑音抑圧処理が開始される。先ず、背景雑音判定基準SNR1の初期値が決定される(S301)。具体的には、N/S調整モード信号が入力されると、背景雑音判定基準算出部304が、N/S調整モード信号で指定されたパラメータ値に対応する背景雑音判定基準SNR1_0〜1_nを背景雑音判定基準保持部105から読み出し、雑音判定基準選択部108に与える。その後のステップS110までは、前述の図8の処理フローと同様である。
ステップS110において、入力信号が音声フレームと判定された場合には、前述と同様に、特有雑音成分と背景雑音成分が抑圧する処理が行われる(S112〜S114)。他方、ステップS110において、入力信号が雑音フレームと判定された場合には、背景雑音テーブルの更新が行われる(S111)。そして、背景雑音判定基準算出部304は、前述した方法により、雑音フレームと判定された入力信号の平均エネルギーに基づいて背景雑音判定基準を算出し、新たな背景雑音判定基準SNR1として雑音判定基準選択部108に与える。以降の処理は、図8と同様である。
以上、実施の形態3によれば、実施の形態1と同様に、雑音判定の精度を高めることができ、より高精度な雑音除去が可能となる。また、実施の形態3によれば、例えば、話者が騒がしい通話環境から静かな通話環境に移動して、背景雑音に対するS/N比よりも符号化による特有雑音に対するS/N比の方が小さくなった場合でも、その変化に応じて最適な雑音判定基準を選択することができ、雑音判定の精度をより高めることができる。
≪実施の形態4≫
図14に、実施の形態4に係る音声処理部の内部構成を例示する。同図に示される音声処理部40は、実施の形態1に係る音声処理部10の機能に加え、有声音と無声音を判別して抑圧処理を行う機能を備える。
有声音は、声帯の周期的な振動を伴う音であり、類似波形が繰り返される特徴がある。それに対し、無声音は、声帯を振動させずそのまま通り抜ける音であり、白色雑音等の雑音波形に近く、繰り返し波形が検出されない。また、無声音のスペクトルパワーは有声音のスペクトルパワーと比較して極端に小さい。そのため、無声音を含む入力信号のスペクトルデータからモデル化した特有雑音のスペクトル成分を減算する処理を行うと、スペクトル歪みが発生する虞がある。そこで、実施の形態4に係る音声処理部40は、有声音を含む音声フレームに対して特有雑音を抑圧する処理を行い、無声音を含む音声フレームに対しては特有雑音を抑圧する処理を行わない。
図14に示される雑音抑圧部400における判定処理部4001は、前述の判定処理部1001と同様に、雑音判定処理により雑音フレームと音声フレームとを判別する。判定処理部4001は、その判別後、更に、音声フレームについて有声音を含むか否かを判別するための有声音/無声音判定処理を行う。判定処理部4001は、有声音の波形(特性)に周期性があることを利用し、波形の周期性の出現率から有声音の有無を判定する。具体的には、判定処理部4001は、相関ピッチの強度を元に有声音の有無を判定する。例えば、正規化相互相関値が設定された閾値以上であれば有声音と判定し、閾値未満であれば無声音と判定する。なお、判定処理部4001による有声音/無声音の判定方法は、上記の方法に限定されず、他の方法であってもよい。例えば、周期性が不明瞭な有声音でも精度良く判定できるようにするため、正規化相互相関値に加え、別パラメータとして零交叉数等を用いて判定を行ってもよい。
上記有声音/無声音判定処理によって有声音を含むと判定された音声フレームの入力信号(スペクトル信号)は、特有雑音抑圧処理部1002に入力され、前述した方法により、特有雑音が抑圧される。他方、有声音を含まない(無声音)と判定された音声フレームの入力信号(スペクトル信号)は、背景雑音抑圧処理部1003に入力され、前述した方法により、背景雑音が抑圧される。これによれば、無声音の特性を劣化させることなく、効果的に雑音を抑圧することができ、通話品質の向上に資する。
なお、特に制限されないが、背景雑音抑圧処理部1003による背景雑音抑圧処理は、実施の形態1と同様に、音声フレームと雑音フレームとの間で処理内容は相違するが、有声音の音声フレームと無声音の音声フレームとの間で処理内容に違いはない。
図15に、音声処理部40による雑音抑圧処理の流れを例示する。
ステップS101からステップS110までは、前述の図8の処理フローと同様である。
ステップS110において、入力信号が雑音フレームと判定された場合には、図8と同様に、背景雑音テーブルの更新と、雑音フレームの背景雑音成分を抑圧する処理が行われる(S111、S114)。他方、ステップS110において、入力信号が音声フレームと判定された場合には、判定処理部4001は、更に、音声フレームであると判定した入力信号に対して、前記有声音/無声音判定処理を行う(S401)。ステップS401で有声音と判定された場合には、図8と同様に、入力信号から特有雑音及び背景雑音を抑圧する処理が行われる(S112、S114)。他方、ステップS401で無声音と判定された場合には、入力信号から背景雑音を抑圧する処理が行われる(S114)。その後の処理は、図8と同様である。
以上、実施の形態4によれば、実施の形態1と同様に、雑音判定の精度を高めることができる。また、有声音の音声フレームと無声音の音声フレームとを区別して雑音抑圧処理を行うことで、無声音の特性を劣化させることなく効果的に雑音を抑圧することができ、通話音質の向上に資する。
以上本発明者によってなされた発明を実施形態に基づいて具体的に説明したが、本発明はそれに限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能であることは言うまでもない。
例えば、実施の形態4において、実施の形態1に係る音声処理部10に有声音と無声音とを区別して雑音抑圧処理を行う機能を追加する形態を例示したが、これに限られず、実施の形態2、3に係る音声処理部20、30に上記機能を追加しても同様の効果が期待できる。
実施の形態1乃至4では、携帯電話端末に搭載される音声処理装置を例に取って説明したが、これに限られず、電話会議システムや風呂用電話等、雑音除去が音質に大きく影響する音声通信機器に搭載される音声処理装置であれば、上記技術を適用することができる。
また、音声処理装置3は、例えば音声処理部10とデコーダ11とが別個の半導体チップで形成されたものでもよいし、音声処理部10と、デコーダ11と、受信部12とが1つのパッケージに封止されたSIP(System In Package)のような半導体装置として構成されてもよい。
更に、音声処理部10、20、30、40内の各機能部がCPU等によって実行されるプログラム処理によって実現される場合を例示したが、これに限られず、専用ハードウェアによって実現されてもいし、専用ハードウェアとソフトウェアによるプログラム処理とが混在したシステムで実現されてもよい。
1、2 携帯電話端末
3 半導体装置
10 音声処理部
100 雑音抑圧部
1001 判定処理部
1002 特有雑音抑圧処理部
1003 背景雑音抑圧処理部
101 エネルギー計算部
102 背景雑音テーブル更新部
103 背景雑音テーブル保持部
104 背景雑音判定基準選択部
105 背景雑音判定基準保持部
106 特有雑音選択部
107 特有雑音判定基準保持部
108 雑音判定基準選択部
109 特有雑音テーブル保持部
SNR 雑音判定基準
SNR1 背景雑音判定基準
SNR2 特有雑音判定基準
20 音声処理部
208 雑音判定基準保持部
30 音声処理部
304 背景雑音判定基準算出部
40 音声処理部
400 雑音抑圧部
4001 判定処理部

Claims (13)

  1. 符号化された入力信号を復号する復号部と、
    前記入力信号に音声信号が含まれるか否かの判定を行う判定部と、
    前記判定部による判定結果に基づいて、前記復号部によって復号された入力信号に含まれる雑音成分を抑圧するための抑圧処理を行う抑圧部と、
    前記判定に用いられる判定基準値として、音声信号の歪に基づく雑音に対する音声信号の割合を規定する第1基準値を格納するための第1記憶部と
    前記判定部による判定の判定基準値として、背景雑音に対する音声信号の割合を規定する第2基準値を格納するための第2記憶部と、
    前記第1記憶部に格納された前記第1基準値と前記第2記憶部に格納された前記第2基準値のうち、最も小さい基準値を選択する選択部と、を有し、
    前記判定部は、前記選択部によって選択された基準値を用いて前記判定を行う、半導体装置。
  2. 前記復号された入力信号に含まれる背景雑音の信号レベルに基づいて前記第2基準値を算出するとともに、前記第2記憶部の値を更新する更新部を、更に有する請求項1に記載の半導体装置。
  3. 前記判定部は、前記入力信号の信号レベルが、前記判定基準値に基づいて決定された判定閾値よりも大きい場合には、前記入力信号に音声信号が含まれると判定し、前記入力信号の信号レベルが前記判定閾値よりも小さい場合には、前記入力信号に音声信号が含まれないと判定する、請求項1に記載の半導体装置。
  4. 前記抑圧部は、前記判定部によって音声信号が含まれると判定された入力信号に対して、前記背景雑音を抑圧するための処理を行うとともに、前記音声信号の歪に基づく雑音を抑圧するための処理を行う、請求項1に記載の半導体装置。
  5. 背景雑音の抑圧量の基準となる第3基準値を格納するための第3記憶部と、
    音声信号の歪に基づく雑音の抑圧量の基準となる第4基準値を格納するための第4記憶部と、を更に有し、
    前記抑圧部は、前記判定部によって音声信号が含まれると判定された場合には、前記入力信号から前記第3基準値に応じた抑圧量を減算するとともに前記第4基準値に応じた抑圧量を減算するための処理を行い、前記判定部によって音声信号が含まれないと判定された場合には、前記入力信号から第3基準値に応じた抑圧量を減算するための処理を行う、請求項4に記載の半導体装置。
  6. 前記抑圧部は、前記判定部によって音声信号が含まれると判定された入力信号のうち有声音に係る音声信号を含む入力信号に対して、前記第3基準値に応じた抑圧量及び前記第4基準値に応じた抑圧量を減算するための処理を行う、請求項5に記載の半導体装置。
  7. 符号化された入力信号を受信するための受信部と、
    前記受信部によって受信された入力信号を復号する復号部と、
    前記復号部によって復号された入力信号に含まれる雑音を抑圧するための処理を行う抑圧処理部と、を有し、
    前記抑圧処理部は、
    前記入力信号に音声信号が含まれるか否かの判定を行う判定部と、
    前記判定部による判定結果に基づいて、前記入力信号に含まれる雑音成分を抑圧するための抑圧処理を行う抑圧部と、
    前記判定のための判定基準値として、音声信号の歪に基づく雑音に対する音声信号の割合を規定する第1基準値を格納するための第1記憶部と、
    前記判定部による判定の判定基準値として、背景雑音に対する音声信号の割合を規定する第2基準値を格納するための第2記憶部と、
    前記第1記憶部に格納された前記第1基準値と前記第2記憶部に格納された前記第2基準値のうち、最も小さい基準値を選択する選択部と、を有し、
    前記判定部は、前記選択部によって選択された基準値を用いて前記判定を行う、音声通信装置。
  8. 前記抑圧処理部は、前記復号された入力信号に含まれる背景雑音の信号レベルに基づいて前記第2基準値を算出するとともに、前記第2記憶部の値を更新する更新部を、更に有する請求項7に記載の音声通信装置。
  9. 前記判定部は、前記入力信号の信号レベルが、前記判定基準値に基づいて決定された判定閾値よりも大きい場合には、前記入力信号に音声信号が含まれると判定し、前記入力信号の信号レベルが前記判定閾値よりも小さい場合には、前記入力信号に音声信号が含まれないと判定する、請求項7に記載の音声通信装置。
  10. 前記抑圧部は、前記判定部によって音声信号が含まれると判定された入力信号に対して、前記背景雑音を抑圧するための処理を行うとともに、前記音声信号の歪に基づく雑音を抑圧するための処理を行う、請求項7に記載の音声通信装置。
  11. 前記抑圧処理部は、
    背景雑音の抑圧量の基準となる第3基準値を格納するための第3記憶部と、
    音声信号の歪に基づく雑音の抑圧量の基準となる第4基準値を格納するための第4記憶部と、を更に有し、
    前記抑圧部は、前記判定部によって音声信号が含まれると判定された場合には、前記入力信号から前記第3基準値に応じた抑圧量を減算するとともに前記第4基準値に応じた抑圧量を減算するための処理を行い、前記判定部によって音声信号が含まれないと判定された場合には、前記入力信号から第3基準値に応じた抑圧量を減算するための処理を行う、請求項10記載の音声通信装置。
  12. 前記抑圧部は、前記判定部によって音声信号が含まれると判定された入力信号のうち有声音に係る音声信号を含む入力信号に対して、前記第3基準値に応じた抑圧量及び前記第4基準値に応じた抑圧量を減算するための処理を行う、請求項11に記載の音声通信装置。
  13. 符号化された入力信号を復号する復号部と、
    前記復号部によって復号された入力信号に含まれる雑音を抑圧するための抑圧処理を行う抑圧処理部と、
    前記抑圧処理で用いられる、前記復号された入力信号に含まれる雑音のうち音声信号の歪に基づく雑音を抑圧するための基準値を格納するための記憶部と、を有し、
    前記音声信号の歪に基づく雑音は、前記符号化に基づく雑音であり、
    前記抑圧処理部は、前記復号部によって復号された入力信号のうち有声音に係る音声信号を含む入力信号に対して、音声信号の歪に基づく雑音を抑圧するための処理を行う、半導体装置。
JP2012030384A 2012-02-15 2012-02-15 半導体装置及び音声通信装置 Expired - Fee Related JP5898515B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2012030384A JP5898515B2 (ja) 2012-02-15 2012-02-15 半導体装置及び音声通信装置
TW102100748A TW201333935A (zh) 2012-02-15 2013-01-09 半導體裝置及聲音通訊裝置
CN201310050871XA CN103258542A (zh) 2012-02-15 2013-02-08 半导体装置和语音通信装置
US13/766,329 US9431022B2 (en) 2012-02-15 2013-02-13 Semiconductor device and voice communication device
KR1020130015719A KR20130094246A (ko) 2012-02-15 2013-02-14 반도체 장치 및 음성 통신 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012030384A JP5898515B2 (ja) 2012-02-15 2012-02-15 半導体装置及び音声通信装置

Publications (2)

Publication Number Publication Date
JP2013167720A JP2013167720A (ja) 2013-08-29
JP5898515B2 true JP5898515B2 (ja) 2016-04-06

Family

ID=48946376

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012030384A Expired - Fee Related JP5898515B2 (ja) 2012-02-15 2012-02-15 半導体装置及び音声通信装置

Country Status (5)

Country Link
US (1) US9431022B2 (ja)
JP (1) JP5898515B2 (ja)
KR (1) KR20130094246A (ja)
CN (1) CN103258542A (ja)
TW (1) TW201333935A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6206271B2 (ja) * 2014-03-17 2017-10-04 株式会社Jvcケンウッド 雑音低減装置、雑音低減方法及び雑音低減プログラム
KR102446392B1 (ko) * 2015-09-23 2022-09-23 삼성전자주식회사 음성 인식이 가능한 전자 장치 및 방법
US11146607B1 (en) * 2019-05-31 2021-10-12 Dialpad, Inc. Smart noise cancellation

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10171497A (ja) 1996-12-12 1998-06-26 Oki Electric Ind Co Ltd 背景雑音除去装置
IL135630A0 (en) * 1997-12-08 2001-05-20 Mitsubishi Electric Corp Method and apparatus for processing sound signal
JP3588030B2 (ja) * 2000-03-16 2004-11-10 三菱電機株式会社 音声区間判定装置及び音声区間判定方法
JP3762621B2 (ja) * 2000-07-31 2006-04-05 株式会社ケンウッド 通信端末
JP4207494B2 (ja) * 2002-08-19 2009-01-14 ソニー株式会社 音声信号の処理装置および処理方法、並びに方法を実行するためのプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な媒体
KR100640865B1 (ko) * 2004-09-07 2006-11-02 엘지전자 주식회사 음성 품질 향상 방법 및 장치
JP4729927B2 (ja) 2005-01-11 2011-07-20 ソニー株式会社 音声検出装置、自動撮像装置、および音声検出方法
CN101043560A (zh) * 2006-03-22 2007-09-26 北京大学深圳研究生院 回声消除器及回声消除方法
JP2008219549A (ja) * 2007-03-06 2008-09-18 Nec Corp 信号処理の方法、装置、及びプログラム
JP2010529511A (ja) * 2007-06-14 2010-08-26 フランス・テレコム 符号器の量子化ノイズを復号化中に低減するための後処理方法及び装置
CN101789240B (zh) * 2009-12-25 2012-04-25 华为技术有限公司 语音信号处理方法和装置以及通信系统

Also Published As

Publication number Publication date
US9431022B2 (en) 2016-08-30
TW201333935A (zh) 2013-08-16
US20130211831A1 (en) 2013-08-15
CN103258542A (zh) 2013-08-21
KR20130094246A (ko) 2013-08-23
JP2013167720A (ja) 2013-08-29

Similar Documents

Publication Publication Date Title
JP5923994B2 (ja) 音声処理装置及び音声処理方法
US9100756B2 (en) Microphone occlusion detector
KR101075845B1 (ko) 오디오 신호 인코딩
JP2011511962A (ja) コンテキスト・デスクリプタ伝送のためのシステム、方法、および装置
JP5834948B2 (ja) 残響抑制装置、残響抑制方法及び残響抑制用コンピュータプログラム
JP6545419B2 (ja) 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
JPWO2010146711A1 (ja) 音声信号処理装置及び音声信号処理方法
US20170365249A1 (en) System and method of performing automatic speech recognition using end-pointing markers generated using accelerometer-based voice activity detector
JP5898515B2 (ja) 半導体装置及び音声通信装置
US8868417B2 (en) Handset intelligibility enhancement system using adaptive filters and signal buffers
Lee et al. Frequency-domain double-talk detection based on the Gaussian mixture model
Park et al. Frequency domain acoustic echo suppression based on soft decision
US9343079B2 (en) Receiver intelligibility enhancement system
JP2002006898A (ja) ノイズ低減方法及びノイズ低減装置
JP5640393B2 (ja) エコー除去装置、方法及びプログラム
JP6559576B2 (ja) 雑音抑圧装置、雑音抑圧方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140828

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150806

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150908

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160304

R150 Certificate of patent or registration of utility model

Ref document number: 5898515

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees