JP2005037617A - Noise reduction system of voice signal - Google Patents

Noise reduction system of voice signal Download PDF

Info

Publication number
JP2005037617A
JP2005037617A JP2003199434A JP2003199434A JP2005037617A JP 2005037617 A JP2005037617 A JP 2005037617A JP 2003199434 A JP2003199434 A JP 2003199434A JP 2003199434 A JP2003199434 A JP 2003199434A JP 2005037617 A JP2005037617 A JP 2005037617A
Authority
JP
Japan
Prior art keywords
pitch
information
signal
noise
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003199434A
Other languages
Japanese (ja)
Other versions
JP4413546B2 (en
Inventor
Kaori Endou
香緒里 遠藤
Takashi Ota
恭士 大田
Mitsuyoshi Matsubara
光良 松原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2003199434A priority Critical patent/JP4413546B2/en
Publication of JP2005037617A publication Critical patent/JP2005037617A/en
Application granted granted Critical
Publication of JP4413546B2 publication Critical patent/JP4413546B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a technology for improving the quality of noise reduction voice by reducing noise of a voice signal in response to an environmental noise level. <P>SOLUTION: A noise reduction system of the voice signal comprises: an analysis means for inputting voice data as an input signal and analyzing characteristic information concerning a frequency; a means for specifying a noise component and a voice component in the input signal; a means for removing the noise component from the characteristic information and extracting signal information; a pitch extraction means for extracting a pitch component from the input signal or the characteristic information and extracting pitch information of the signal information; a pitch emphasis control means for controlling a ratio of the pitch information increased to the signal information from a ratio of the noise component and the signal component in the input signal or the characteristic information; and a means for converting the signal information controlling the ratio of the pitch information into the voice data. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、環境騒音等の雑音が重畳した音声から雑音成分を低減させる技術に関する。
【0002】
【従来の技術】
従来、雑音低減するとともに、ピッチ強調によって音声信号を強調することで雑音低減させた音声信号のSN比を向上させる技術が知られている(例えば特許文献1参照。)。
【0003】
従来技術の一例を図1に示す。図1は従来方式の構成図である。従来の方式は、分析手段101と、雑音除去手段102と、ピッチ抽出手段104と、ピッチ強調手段103と、合成手段105で実現される。
【0004】
分析手段101は、入力信号のフレームデータ(入力信号の標本化データを一定時間蓄積したもの)に音声が含まれているか否かを判定する。そして、雑音のみと判定した場合に、雑音除去手段102は雑音の特徴情報を記憶する。音声が含まれていると判定した場合には、ピッチ抽出手段104はピッチ情報を算出して音声の特徴情報を記憶する。雑音除去手段102はフレームデータから記憶した雑音の特徴情報を基に雑音除去すると共に、ピッチ強調手段103は記憶した音声の特徴情報を基に音声信号を強調する。
【0005】
【特許文献1】
特願平6−131569号公報。
【特許文献2】
特許第2830276号公報。
【特許文献3】
特開平7−334189号公報。
【0006】
【発明が解決しようとする課題】
しかしながら、上述の従来技術では、環境雑音レベルが高い場合には、雑音の影響により音声のピッチ情報を正確に算出することは困難である。この場合には、誤ったピッチ情報に基づいて音声信号を強調するために、強調処理を行った音声信号は劣化する。
【0007】
また、環境雑音レベルが低い場合には、雑音を適切に除去できるにもかかわらず、さらに音声信号を強調するために、音声の自然性が損なわれる。つまり、環境雑音レベルが低い場合には音声を強調しない方が望ましい。
【0008】
一方、環境雑音レベルがある程度高く、かつ、音声のピッチ情報もある程度算出できるような場合には、音声を強調することで聞きやすくするメリットの方が、強調により音声の自然性を損ねるデメリットを上回ることになる。このような状況では、音声強調を行うことが望ましい。
【0009】
本発明は、このような従来技術の問題に鑑みてなされたものである。すなわち、本発明が解決しようとする課題は、環境雑音レベルに応じて音声信号の雑音を低減し、雑音低減音声の品質を向上できる技術を提供することである。
【0010】
【課題を解決するための手段】
本発明は、上記課題を解決するために以下の手段を採用した。
【0011】
本発明に係る雑音低減装置は、音声データを入力信号として入力し、周波数に係る特徴情報を分析する分析手段と、前記入力信号中の雑音成分と音声成分を特定する手段と、前記特徴情報から雑音成分を除去し、信号情報を抽出する手段と、前記入力信号または前記特徴情報からピッチ成分を抽出し、前記信号情報のピッチ情報を抽出するピッチ抽出手段と、前記入力信号または前記特徴情報中の雑音成分と信号成分の比率から、前記信号情報に増加させる前記ピッチ情報の比率を制御するピッチ強調制御手段と、前記ピッチ情報の比率を制御した信号情報を音声データに変換する手段とを備えるとを特徴をする。
【0012】
このような構成にすると、ピッチ成分を抽出する性能が劣化していると推定できる場合や雑音除去が十分に行われている場合など、ピッチ情報の強調が望ましくない場合には、ピッチ情報を強調する比率を小さくする制御ができる。逆に、ピッチ成分を抽出する性能が高いと推定される場合や雑音除去が十分でない場合など、ピッチ情報の強調を行うことが望ましい場合には、ピッチ情報を強調する比率を大きくする制御ができる。その結果、環境雑音レベルに応じて音声信号の雑音を低減し、雑音低減音声の品質を向上できる。
【0013】
さらに、ピッチ強調制御手段は、前記信号と雑音との比率が第1の所定値を越えている場合には、あるいは、前記信号と雑音との比率が第2の所定値未満の場合には、ピッチ情報を増加しないように制御してもよい。
【0014】
このような制御を実行すると、ピッチ情報の強調が望ましくない場合にはピッチ情報の強調を停止できる。その結果、従来技術よりも総合的に雑音低減音声の品質を向上できる。
【0015】
また、本発明は上記のようなプログラムを読み取り可能な記憶媒体に記憶したものであってもよい。
【0016】
【発明の実施の形態】
以下に図2から図7の図面を参照して、本発明の好適な実施の形態を説明する。本発明は、携帯電話システムやIP電話システムなど音声通信方式を用いた技術において、マイクから入力した環境騒音が重畳した音声信号から雑音成分を低減させ、通話品質を向上できる。
【0017】
図2は本発明を音声通信方式への適用した例を示す。図2では、まず雑音低減部は雑音が重畳している音声信号を受信する。そして、雑音低減部201は音声信号の雑音を除去し、音声符号化部202に伝達する。その後、音声符号化部202は、雑音除去された音声信号に対して符号化を行い、送信部203に伝達する。本発明は図2に示す雑音低減部において利用される。
【0018】
図3は本発明の原理を説明するための図であり、図4から図7は本発明の処理フローを示す図である。
<原理図>
図3を参照して、本発明の原理を説明する。図3は本発明の原理を説明するためのブロック図である。
【0019】
本発明は、入力信号をフレーム毎に入力し周波数成分に分解して特徴情報を算出する分析手段301と、この特徴情報に基づいて入力信号の特徴情報に含まれる雑音成分を除去する雑音除去手段302と、ピッチ周波数などピッチ情報を抽出するピッチ抽出手段304と、雑音除去された特徴情報のピッチ性を強調するピッチ強調手段303と、ピッチ強調手段303の寄与と雑音除去手段302の寄与とを含む制御情報を算出する制御情報算出手段307と、この制御情報に基づいて最終的な特徴情報を算出する制御手段306と、制御手段が算出した特徴情報を合成して音声信号にする合成手段305とで実現される。
【0020】
本実施の形態では、フレームとは所定期間中に処理される音声信号をいう。また、本実施の形態では、音声信号はサンプリングされた離散信号である。
【0021】
音声信号の表現方法としては、時間と振幅を軸にとって時間領域で表わした表現と、振幅と周波数を軸にとって周波数領域で表わした表現がある。そして特徴情報としては、例えば音声信号を周波数領域で表現する際のスペクトル振幅とスペクトル位相とを例示できる。また、音声の振動周期により定まる音声の高さをピッチという。このピッチの逆数を基本周波数、つまりピッチ周波数という。
【0022】
以下、各構成要素について更に説明する。
【0023】
分析手段301は、フレーム毎に入力信号を入力し、当該フレームの分析を行いスペクトルなどの特徴情報を算出する。そして、分析手段301は雑音除去手段302とピッチ抽出手段304に算出した特徴情報を出力する。
【0024】
雑音除去手段302は、分析手段301から特徴情報を入力し、入力信号の特徴情報から雑音成分を除去する。そして、雑音除去手段302は、雑音成分を除去した特徴情報をピッチ強調手段303と制御手段306に出力する。
【0025】
ピッチ抽出手段304は、分析手段301から特徴情報を入力し、ピッチ情報を出力する。このピッチ情報は、ピッチ性の有無と、ピッチ性がある場合にはピッチ周波数とを含む情報である。
【0026】
ピッチ強調手段303は、ピッチ抽出手段304からピッチ情報を入力し、雑音除去手段302から雑音を除去した特徴情報を入力する。そして、ピッチ強調手段303は、ピッチ情報に基づいて特徴情報のピッチ性を強調し、特徴情報を出力する。ピッチ性を強調するとは、例えば、ピッチ周波数に相当する周波数成分(パワー)を強くすることをいう。
【0027】
制御情報算出手段307は、入力信号を入力して制御情報を算出し、制御情報を制御手段に出力する。この制御情報は、雑音除去手段302の寄与とピッチ強調手段303の寄与の算出に使用される。ここで、寄与とは雑音除去手段302の出力に対して、どの程度までピッチ強調手段の出力を加えるかを示す重みをいう。
【0028】
制御手段306は、ピッチ強調手段303からピッチ強調した特徴情報を入力し、雑音除去手段302から雑音を除去した特徴情報を入力し、制御情報算出手段307から制御情報を入力する。
【0029】
そして、制御手段306は、制御情報に基づいてピッチ強調手段303の出力と雑音除去手段302の出力の寄与を定め、特徴情報を算出する。そして、制御手段306は合成手段に算出した特徴情報を出力する。
【0030】
合成手段305は、制御手段306から特徴情報を入力し、特徴情報を用いて音声に合成する処理を実行する。そして、合成手段305は、処理結果の音声を出力信号として出力する。
<処理フロー>
以下、本実施の形態の音声通信方式における音声処理の処理フローを示す。この音声処理は、CPU(Central Processing Unit)やDSP(Digital Signal Processor)等のプロセッサ上のプログラムとして実現できる。また、このような処理を実現する専用のハードウェア(ゲートアレイ、カスタムLSI等)として構成してもよい。
【0031】
図4を参照して、入力信号の入力から出力信号の出力までの全処理を説明する。図4は本実施の形態における処理全体の流れを示す。図4に示す処理は、分析手段301、雑音除去手段302、ピッチ抽出手段304、ピッチ強調手段303、制御情報算出手段307、制御手段306、及び合成手段305によって実行される。
【0032】
まず分析手段301は、入力信号を1フレーム分入力する(S401)。音声は標本化されてA/D変換された音声信号として順次バッファ(図示せず)に記憶されている。そこで、分析手段301は、前記バッファから音声信号を入力信号として切り出し、フレーム毎に分析を実行する。
【0033】
分析手段301は、入力信号をFFT分析する(S402)。このとき分析手段301はスペクトル振幅Sa[i]と位相Sp[i]を取得する。スペクトル振幅Sa[i]と位相Sp[i]は音声信号を周波数領域で示したものであり、以下各々の処理手段は、このスペクトル振幅と位相に対して雑音除去やピッチ強調などの処理を実行する。ここで、iは周波数帯域のインデックスを示す。
【0034】
尚、本実施の形態では、FFT(Fast Fouriew Transform:高速フーリエ変換)によって分析処理を実行し、IFFT(Inverse Fast Fouriew Transform:高速逆フーリエ変換)によって合成処理を実行する。このFFT/IFFTによる分析・合成の際に実行する入力信号の処理手順は、例えば「コンピュータ音楽」(Curtis Roads著、青柳龍也ほか訳・監修 東京電機大学出版局452頁〜457頁)に詳細に説明されている。
【0035】
雑音除去手段302は、入力信号のスペクトル振幅Sa[i]から雑音の成分を除去する(S403)。ここで雑音除去手段302は、雑音除去後のスペクトル振幅Sa’[i]を算出し、ピッチ強調手段303と制御手段306に伝達する。尚、雑音除去の方法は、代表的な手法としてスペクトル減算法(J.S.Lim and A.V.Oppenheim:”Enhancement and Bandwidth Compression of Noisy Speech,” Proc.IEEE,Vol.67,No.12,pp.1586−1604,1979.)が知られている。
【0036】
ピッチ抽出手段304は、ピッチ抽出を実行する(S404)。ここでピッチ抽出手段304はピッチ周波数F(Hz)を取得し、ピッチ強調手段303に伝達する。尚、ピッチ抽出の方法は、「コンピュータ音楽」(Curtis Roads著、青柳龍也ほか訳・監修 東京電機大学出版局417頁〜425頁)に詳細に説明されている。
【0037】
ピッチ強調手段303は、雑音除去後のスペクトル振幅Sa’[i]に対してピッチ強調を実行する(S405)。ここでは、ピッチ強調手段303は、雑音除去手段302が算出したスペクトル振幅Sa’[i]のうち、ピッチ抽出手段304が抽出したピッチ周波数F(Hz)及びその高周波をピッチ強調して、スペクトル振幅Sa’’[i]を算出する。ここで算出したスペクトル振幅Sa’’[i]は、制御手段306に伝達される。
【0038】
制御情報算出手段307は制御情報を算出する(S406)。つまり、制御情報算出手段307は、入力信号を用いて雑音の大きさや信号対雑音比(以下、SNR(signal to noise ratio)という)などに従って、制御情報を算出する。この制御情報は、最終的なスペクトル振幅S[i]を算出する際に用いるスペクトル振幅Sa’[i]、Sa’’[i]が寄与する割合を示す。算出された制御情報は制御手段306に伝達される。なお、制御情報の算出方法については、後で詳しく説明する。
【0039】
制御手段306は特徴情報を算出する(S407)。制御手段306は、制御情報算出手段307が算出した制御情報を用いて、Sa’[i]、Sa’’[i]に重み付けを行い、最終的なスペクトル振幅S[i]を得る。
【0040】
合成手段は最終的なスペクトル振幅S[i]と位相Sp[i]とを用いてIFFTを行い、音声信号を合成する(S408)。
【0041】
そして、分析手段301は、音声信号の入力が終了か否かを判断する(S409)。
【0042】
S409で、分析手段301は、音声信号の入力信号が終了した判断した場合には、処理を終了する。一方S409で、分析手段301は、入力信号が続くと判断した場合には、S401に処理を進め次のフレームを処理する。
<制御情報算出手段の処理>
図5を参照して制御情報算出手段の処理の流れを説明する。図5は制御情報算出手段の処理の流れを示す。制御情報算出手段307の処理は、図4に示すS406で実行される。以下、制御情報算出手段307が入力信号から制御情報を算出する処理を説明する。本実施の形態では、制御情報は、ピッチ強調手段の出力の寄与Aと、雑音除去手段の出力の寄与Bとで表わされる。
【0043】
制御情報算出手段307は入力信号を1フレーム分入力する(S501)。そして、制御情報算出手段307はフレームパワーEを算出する(S502)。フレームパワーとは、1フレームにおける入力信号の信号電力であり、SNRを算出する際に用いられる。なお、SNR(signal to noise ratio)とは、信号と雑音の比であり、信号電力を雑音電力で除して算出できる。
【0044】
制御情報算出手段307はピッチ相関Cを算出する(S503)。ピッチ相関とは、ピッチ周波数に相当する周波数成分が入力信号中にどの程度含まれるかを示すための関数である。ピッチ相関は、例えばサンプリングした入力信号X[i]((i=1〜N),N:サンプリング周波数)について、各サンプル間で、最も相関の高いものに対する相関値を算出することで算出できる。これは、特定の入力信号X[k]を時間軸で、順次ずらして、他の入力信号サンプルX[k’]との相関値を計算して算出できる。
【0045】
制御情報算出手段307はピッチ相関Cが閾値を越えたかを判断する(S504)。S504で、制御情報算出手段307は、ピッチ相関C>閾値と判定した場合は、音声パワーの平均Evを以下の数式1に従って更新する(S505)。
【0046】
【数1】
Ev = ξ×E+(1−ξ)×Ev’(ξ(0≦ξ≦1):予め定めた定数)
ここで音声パワーの平均Ev’は、前回までの音声パワーの平均値であり、この平均Ev’はメモリなどの記憶領域に格納されている。そして今回抽出したフレームパワーEを加えて平均Ev を更新する場合には、予め定めた定数ξを用いて数式1から平均Ev を算出できる。定数ξは、音声パワーの平均値に占める今回のフレームパワーEの寄与を示す値である。また、音声パワーとは、音声信号に含まれる入力信号のパワースペクトルをいう。
【0047】
一方S504で、制御情報算出手段307はピッチ相関C≦閾値と判定した場合は、雑音パワーの平均Enを以下の数式2に従って更新する。
【0048】
【数2】
En = η×E+(1−η)×En’(η(0≦η≦1):予め定めた定数)
この雑音パワーの平均En’は、前回までの雑音パワーの平均値であり、この雑音パワーの平均En’は、音声パワーの平均と同様に、メモリなどの記憶領域に格納されている。そして今回抽出したフレームパワーEを加えて平均Enを更新する場合には、予め定めた定数 ηを用いて数式2から平均En を算出できる。定数ηは、雑音パワーの平均に占める今回のフレームパワーEの寄与を示す値である。また、雑音パワーの平均Enとは、音声信号に含まれる雑音信号のパワースペクトルをいう。
【0049】
次に、制御情報算出手段307は、SNRを以下の数式3に従って算出する(S507)。
【0050】
【数3】
SNR=Ev/En
そして、制御情報算出手段307は、以下数式4の値を算出する(S508)。
【0051】
【数4】
A=SNR×γ(γ:予め定めた定数)
この値は、ピッチ強調手段の出力を音声合成して利用するか否かの判定に使用される。この値を寄与Aと呼ぶ。
【0052】
次に、制御情報算出手段307は、以下の数式5の値を算出する(S509)。
【0053】
【数5】
B=SNR×η(η:予め定めた定数)
この値は、ピッチ強調手段の出力を音声信号に利用する場合における重み係数の算出に使用される。この値を寄与Bと呼ぶ。
【0054】
制御情報算出手段307は制御情報A及びBを出力する(S510)。この制御情報A及びBをピッチ抽出性能ともいう。制御情報算出手段307は、ピッチ強調手段の出力の寄与Aと雑音除去手段手段302の出力の寄与Bとを、制御情報として、制御手段306に伝達する。
<制御手段の処理>
図6を参照して、制御手段の処理を説明する。図6は制御手段の処理の流れを示す。制御手段の処理は、図4に示すS407で実行される処理である。
【0055】
制御手段306は、制御情報算出手段307が算出した制御情報、雑音除去手段302が算出した特徴情報、及びピッチ強調手段が算出した特徴情報に基づいて、最終的な特徴情報として、スペクトル振幅S[i]とスペクトル位相Sp[i]を算出する。以下に、制御手段306が特徴情報を算出する処理を説明する。
【0056】
制御手段306は制御情報A,Bを入力する(S601)。制御手段306は、制御情報として、ピッチ強調手段303の出力の寄与Aと雑音除去手段の出力の寄与Bとを制御情報算出手段307から受け取る。
【0057】
制御手段306は、雑音除去手段302の出力の特徴情報(スペクトル振幅Sa’[i]と位相Sp[i])を入力する(S602)。制御手段306は、特徴情報として、スペクトル振幅Sa’[i]と位相Sp’[i]とを雑音除去手段302から受け取る。
【0058】
制御手段306は、ピッチ強調手段の出力の特徴情報(スペクトル振幅Sa’’[i] と位相Sp’’[i])を入力する(S603)。制御手段306は、特徴情報として、スペクトル振幅Sa’’[i]と位相Sp’’[i]とをピッチ強調手段303から受け取る。そして、制御手段は制御情報Aと、閾値1及び閾値2(閾値1>閾値2)との関係から重み係数Wを決定する。
【0059】
制御手段306は、制御情報A(以下、ピッチ抽出性能Aともいう)が閾値1を越えたかを判断する(S604)。
【0060】
S604で、制御手段306は、ピッチ抽出性能A>閾値1と判定した場合、重み係数W=0とする(S607)。一方S04で、制御手段306は、ピッチ抽出性能A≦閾値1と判定した場合、ピッチ抽出性能Aが閾値2を越えたかを判断する(S605)。
【0061】
S605で、制御手段306は、ピッチ抽出性能A<閾値2と判定した場合、重み係数W=0とする(S607)。一方S605で、制御手段306は寄与A≧閾値2と判定した場合は、重み係数をW=αB+βとする(S606)。この場合は、寄与Aは閾値2≦A≦閾値1の範囲にある。ここでα、βは予め定めた定数である。寄与Bは制御情報算出手段307によって算出された雑音除去手段手段302の出力の寄与である。
【0062】
制御手段306は、以下の数式6に従ってスペクトル振幅S[i]を算出する(S608)。
【0063】
【数6】
S[i]=W×Sa’’[i]+(1−W)Sa’[i]
すなわち、制御手段206は、ピッチ抽出性能Aが閾値2から閾値1の間である場合には、ピッチ強調されたスペクトル振幅Sa’’[i]を考慮(重み付け加算)してスペクトル振幅S[i]を算出し、ピッチ抽出性能Aが閾値2から閾値1の間にない場合には雑音除去されたスペクトル振幅Sa’[i]を最終的なスペクトル振幅S[i]とする。
【0064】
制御手段306は、特徴情報として最終的なスペクトル振幅S[i]とスペクトル位相Sp[i]とを出力する(S609)。制御手段306は、算出したスペクトル振幅S[i]とスペクトル位相Sp[i]を合成手段305に伝達する。
<分析手段及びピッチ抽出手段の処理>
図7を参照してピッチ抽出手段307の処理を説明する。図7は分析手段301及びピッチ抽出手段304の処理の流れを示す。分析手段301の処理は、図4に示すS402で実行される。また、ピッチ抽出手段304の処理は、図4に示すS404で実行される。以下、分析手段301が入力信号を入力し、ピッチ抽出手段304がピッチ性の有無を判断して、ピッチ周波数を算出する処理を説明する。
【0065】
分析手段301は入力信号を1フレーム分入力する(S701)。分析手段301は、図4に示すS401と同様に、音声信号をフレーム毎に切り出し、分析を実行する。
【0066】
分析手段301はFFTを行い、スペクトル振幅などを算出する(S702)。すなわち、ここで分析手段301は、時間領域の音声信号を周波数領域の音声信号に変換する。
【0067】
ピッチ抽出手段は1000Hz以下の周波数帯域でスペクトル振幅のピークを算出する(S703)。そして、ピッチ抽出手段はスペクトル振幅のピークのうち大きいものから3個抽出する(S704)。ここで抽出した周波数を周波数が低いものよりP1,P2,P3(Hz)とする。
【0068】
ピッチ抽出手段はピークの周波数P1,P2,P3(Hz)が以下の数式7を満たすかを判断する(S705)。ここで、ピッチ抽出手段301は抽出した周波数にピッチ性があるか否かを以下の数式7に基づき判断する。ピッチ抽出手段で行われるピークの算出は、スペクトル振幅の二乗であるスペクトルパワーを用いてもよい。
【0069】
【数7】
|P2/P1−2|<閾値かつ|P3/P1−3|<閾値
S705で、ピッチ抽出手段307は、上記の数式7が成立すると判断した場合、ピッチ周波数P1を出力する(S706)。つまり、音声信号にピッチ性がある場合には、周波数が最も小さい周波数P1が基本周波数となり、二番目の周波数P2は基本周波数の2倍となり、三番目に大きい周波数P3は基本周波数の3倍となる。従って、周波数P2を基本周波数で除した値から2を減じた値、及び周波数P3を基本周波数で除した値から3を減じた値が、所定の範囲以内であれば、ピッチ抽出手段207は音声信号にピッチ性があると判断する。
【0070】
一方S706で、ピッチ抽出手段は、上記の数式7が成立しないと判断した場合、ピッチ性がないとして出力する(S707)。
<実施形態の効果>
本実施の形態に従うと、制御情報算出手段はピッチ強調手段で算出した特徴情報と雑音除去手段で算出した特徴情報を制御するための制御情報を算出する。そして、制御手段は、雑音除去を行った特徴情報と雑音除去とピッチ強調の両方を行った特徴情報の二つを用いて、制御情報に基づいて最終的な特徴情報を算出できる。
【0071】
また、本実施の形態に従うと、ピッチ抽出性能が劣化していると推定できる場合や雑音除去が充分に行われている場合など、ピッチ強調が望ましくない場合にはピッチ強調の寄与を小さく、または、ピッチ強調を停止する。
【0072】
逆に、ピッチ抽出性能がある程度高く、雑音除去が充分でない場合など、ピッチ強調を行うことが望ましい場合には、ピッチ強調が実行される。さらに、その場合には、ピッチ抽出性能に応じてピッチ強調の寄与を大きくできる。
【0073】
このため、従来技術ではピッチ強調が望ましくない場合には劣化する場合があるのに対して、本発明ではピッチ強調が望ましい場合には従来技術と同等の音質が得られ、ピッチ強調が望ましくない場合にはピッチ強調による劣化を防止できるため、従来技術よりも総合的に雑音低減音声の品質を向上できる。
<コンピュータ読み取り可能な記憶媒体>
上記実施の形態のいずれかの処理をコンピュータに実行させるプログラムをコンピュータが読み取り可能な記憶媒体に記録することができる。そして、コンピュータに、この記憶媒体のプログラムを読み込ませて実行させることにより、上記実施の形態に示したシステムを提供することができる。
【0074】
ここで、コンピュータが読み取り可能な記憶媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータから読み取ることができる記憶媒体をいう。このような記憶媒体のうちコンピュータから取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、CD−ROM、CD−R/W、DVD、DAT、8mmテープ、メモリカード等がある。
【0075】
また、コンピュータに固定された記録媒体として、ハードディスクやROM(リード・オンリー・メモリ)等がある。
【0076】
なお、上記実施の形態は本発明の範囲をなんら限定するものではなく、当業者が理解できる範囲において適宜、各種の変形の態様があり得る。
<その他>
さらに、本実施の形態は以下の発明を開示する。
【0077】
(付記1)音声データを入力信号として入力し、周波数に係る特徴情報を分析する分析手段と、
前記入力信号中の雑音成分と音声成分を特定する手段と、
前記特徴情報から雑音成分を除去し、信号情報を抽出する手段と、
前記入力信号または前記特徴情報からピッチ成分を抽出し、前記信号情報のピッチ情報を抽出するピッチ抽出手段と、
前記入力信号または前記特徴情報中の雑音成分と信号成分の比率から、前記信号情報に増加させる前記ピッチ情報の比率を制御するピッチ強調制御手段と、
前記ピッチ情報の比率を制御した信号情報を音声データに変換する手段とを備えることを特徴とする音声信号の雑音低減装置。
【0078】
(付記2)前記ピッチ抽出手段は、入力信号のスペクトル振幅またはスペクトルパワーを用いて、入力信号のピッチ成分を抽出する付記1記載の音声信号の雑音低減装置。
【0079】
(付記3)前記ピッチ強調制御手段は、前記信号成分と雑音成分との比率が第1の所定値を越えている場合には、前記ピッチ情報を増加させない付記1記載の音声信号の雑音低減装置。
【0080】
(付記4)前記ピッチ強調制御手段は、前記信号成分と雑音成分との比率が第2の所定値未満の場合には、前記ピッチ情報を付加させない付記1記載の音声信号の雑音低減装置。
【0081】
(付記5)音声データを入力信号として入力し、周波数に係る特徴情報を分析するステップと、
前記入力信号中の雑音成分と音声成分を特定するステップと、
前記特徴情報から雑音成分を除去し、信号情報を抽出するステップと、
前記入力信号または前記特徴情報からピッチ成分を抽出し、前記信号情報のピッチ情報を抽出するステップと、
前記入力信号または前記特徴情報中の雑音成分と信号成分の比率から、前記信号情報に増加させる前記ピッチ情報の比率を制御するステップと、
前記ピッチ情報の比率を制御した信号情報を音声データに変換するステップとをコンピュータに実行させるプログラム。
【0082】
(付記6)前記ピッチ情報を抽出するステップは、入力信号のスペクトル振幅またはスペクトルパワーを用いて、入力信号のピッチ成分を抽出する付記5記載のプログラム。
【0083】
(付記7)前記ピッチ情報の比率を制御するステップは、前記信号成分と雑音成分との比率が第1の所定値を越えている場合には、前記ピッチ情報を増加させない付記5記載のプログラム。
【0084】
(付記8)前記ピッチ情報の比率を制御するステップは、前記信号成分と雑音成分との比率が第2の所定値未満の場合には、前記ピッチ情報を付加させない付記5記載のプログラム。
【0085】
【発明の効果】
以上で説明したように、本発明は環境雑音レベルに応じて音声信号の雑音を低減し、雑音低減音声の品質を向上できる技術を提供することができる。
【図面の簡単な説明】
【図1】従来方式の構成図である。
【図2】本発明を音声通信方式へ適用した例を示す図である。
【図3】本発明の原理説明図である。
【図4】処理フロー全体を示す図である。
【図5】制御情報算出手段の処理フロー示す図である。
【図6】制御手段の処理フローを示す図である。
【図7】ピッチ抽出手段の処理フローを示す図である。
【符号の説明】
101…従来の方式における分析手段
102…従来の方式における雑音除去手段
103…従来の方式におけるピッチ強調手段
104…従来の方式におけるピッチ抽出手段
105…従来の方式における合成手段
201…雑音低減部
202…音声符号化部
203…送信部
301…分析手段
302…雑音除去手段
303…ピッチ強調手段
304…ピッチ抽出手段
305…合成手段
306…制御手段
307…制御情報算出手段
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a technique for reducing a noise component from a voice on which noise such as environmental noise is superimposed.
[0002]
[Prior art]
2. Description of the Related Art Conventionally, there has been known a technique for reducing noise and improving the S / N ratio of a voice signal that has been reduced by enhancing the voice signal by pitch enhancement (see, for example, Patent Document 1).
[0003]
An example of the prior art is shown in FIG. FIG. 1 is a block diagram of a conventional system. The conventional method is realized by the analysis unit 101, the noise removal unit 102, the pitch extraction unit 104, the pitch enhancement unit 103, and the synthesis unit 105.
[0004]
The analysis unit 101 determines whether or not sound is included in the frame data of the input signal (sampled data of the input signal accumulated for a certain period of time). If it is determined that only noise is present, the noise removing unit 102 stores noise feature information. If it is determined that the voice is included, the pitch extraction unit 104 calculates the pitch information and stores the voice feature information. The noise removing unit 102 removes noise based on the noise feature information stored from the frame data, and the pitch emphasizing unit 103 enhances the voice signal based on the stored voice feature information.
[0005]
[Patent Document 1]
Japanese Patent Application No. 6-131568.
[Patent Document 2]
Japanese Patent No. 2830276.
[Patent Document 3]
JP-A-7-334189.
[0006]
[Problems to be solved by the invention]
However, in the above-described prior art, when the environmental noise level is high, it is difficult to accurately calculate the pitch information of the voice due to the influence of noise. In this case, since the audio signal is emphasized based on incorrect pitch information, the audio signal subjected to the enhancement process is deteriorated.
[0007]
In addition, when the environmental noise level is low, the naturalness of the voice is impaired because the voice signal is further emphasized even though the noise can be appropriately removed. In other words, it is desirable not to emphasize the voice when the environmental noise level is low.
[0008]
On the other hand, when the environmental noise level is high to some extent and the pitch information of the voice can be calculated to some extent, the merit of making the voice easier to hear exceeds the demerit that impairs the naturalness of the voice by the emphasis It will be. In such a situation, it is desirable to perform speech enhancement.
[0009]
The present invention has been made in view of such problems of the prior art. That is, the problem to be solved by the present invention is to provide a technique capable of reducing the noise of a voice signal according to the environmental noise level and improving the quality of the noise-reduced voice.
[0010]
[Means for Solving the Problems]
The present invention employs the following means in order to solve the above problems.
[0011]
The noise reduction apparatus according to the present invention inputs voice data as an input signal, analyzes characteristic information relating to frequency, means for specifying a noise component and a voice component in the input signal, and the feature information. Means for removing noise components and extracting signal information; pitch extracting means for extracting pitch information from the input signal or the feature information; and extracting pitch information of the signal information; and the input signal or the feature information Pitch emphasis control means for controlling the ratio of the pitch information to be increased to the signal information from the ratio of the noise component to the signal component, and means for converting the signal information in which the ratio of the pitch information is controlled into audio data And features.
[0012]
With this configuration, if it is not desirable to emphasize pitch information, such as when it can be estimated that the performance of extracting pitch components has deteriorated, or when noise removal has been sufficiently performed, the pitch information is emphasized. It is possible to control to reduce the ratio to be performed. Conversely, when it is desirable to enhance pitch information, such as when it is estimated that the performance of extracting pitch components is high or when noise removal is not sufficient, it is possible to control to increase the pitch information enhancement ratio. . As a result, the noise of the voice signal can be reduced according to the environmental noise level, and the quality of the noise-reduced voice can be improved.
[0013]
Further, the pitch emphasis control means, when the ratio of the signal and noise exceeds a first predetermined value, or when the ratio of the signal and noise is less than a second predetermined value, You may control so that pitch information may not increase.
[0014]
When such control is executed, the enhancement of the pitch information can be stopped when the enhancement of the pitch information is not desirable. As a result, the quality of noise-reduced speech can be improved more comprehensively than in the prior art.
[0015]
Further, the present invention may be one in which the above program is stored in a readable storage medium.
[0016]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, preferred embodiments of the present invention will be described with reference to the drawings of FIGS. According to the present invention, in a technology using a voice communication system such as a mobile phone system or an IP phone system, noise components can be reduced from a voice signal on which environmental noise input from a microphone is superimposed, thereby improving call quality.
[0017]
FIG. 2 shows an example in which the present invention is applied to a voice communication system. In FIG. 2, first, the noise reduction unit receives an audio signal on which noise is superimposed. Then, the noise reduction unit 201 removes noise from the audio signal and transmits it to the audio encoding unit 202. After that, the speech encoding unit 202 encodes the speech signal from which noise has been removed, and transmits the encoded speech signal to the transmission unit 203. The present invention is used in the noise reduction unit shown in FIG.
[0018]
FIG. 3 is a diagram for explaining the principle of the present invention, and FIGS. 4 to 7 are diagrams showing a processing flow of the present invention.
<Principle>
The principle of the present invention will be described with reference to FIG. FIG. 3 is a block diagram for explaining the principle of the present invention.
[0019]
The present invention includes an analysis unit 301 that inputs an input signal for each frame and decomposes it into frequency components to calculate feature information, and a noise removal unit that removes a noise component contained in the feature information of the input signal based on the feature information. 302, pitch extraction means 304 for extracting pitch information such as pitch frequency, pitch enhancement means 303 for enhancing the pitch characteristics of noise-removed feature information, contribution of pitch enhancement means 303 and contribution of noise removal means 302. A control information calculation unit 307 that calculates control information including the control information, a control unit 306 that calculates final feature information based on the control information, and a synthesis unit 305 that combines the feature information calculated by the control unit into an audio signal. And realized.
[0020]
In the present embodiment, a frame refers to an audio signal that is processed during a predetermined period. In the present embodiment, the audio signal is a sampled discrete signal.
[0021]
As a method for expressing a voice signal, there are an expression expressed in the time domain with time and amplitude as axes, and an expression expressed in the frequency domain with amplitude and frequency as axes. And as characteristic information, the spectrum amplitude and spectrum phase at the time of expressing an audio | voice signal in a frequency domain can be illustrated, for example. The height of the sound determined by the vibration period of the sound is called a pitch. The reciprocal of this pitch is called the fundamental frequency, that is, the pitch frequency.
[0022]
Hereinafter, each component will be further described.
[0023]
The analysis unit 301 inputs an input signal for each frame, analyzes the frame, and calculates feature information such as a spectrum. Then, the analyzing unit 301 outputs the calculated feature information to the noise removing unit 302 and the pitch extracting unit 304.
[0024]
The noise removing unit 302 receives the feature information from the analyzing unit 301 and removes a noise component from the feature information of the input signal. The noise removing unit 302 outputs the feature information from which the noise component has been removed to the pitch emphasizing unit 303 and the control unit 306.
[0025]
The pitch extraction unit 304 inputs feature information from the analysis unit 301 and outputs pitch information. This pitch information is information including the presence / absence of pitch characteristics and the pitch frequency when there is pitch characteristics.
[0026]
The pitch emphasizing unit 303 receives pitch information from the pitch extracting unit 304 and inputs feature information from which noise has been removed from the noise removing unit 302. The pitch emphasizing unit 303 emphasizes the pitch property of the feature information based on the pitch information and outputs the feature information. Emphasizing the pitch property means, for example, increasing the frequency component (power) corresponding to the pitch frequency.
[0027]
The control information calculation unit 307 receives the input signal, calculates control information, and outputs the control information to the control unit. This control information is used to calculate the contribution of the noise removal unit 302 and the contribution of the pitch enhancement unit 303. Here, contribution means a weight indicating how much the output of the pitch emphasis means is added to the output of the noise removing means 302.
[0028]
The control unit 306 receives the pitch-enhanced feature information from the pitch enhancement unit 303, the noise-removed feature information from the noise removal unit 302, and the control information calculation unit 307 receives the control information.
[0029]
Then, the control unit 306 determines the contribution of the output of the pitch enhancement unit 303 and the output of the noise removal unit 302 based on the control information, and calculates feature information. Then, the control unit 306 outputs the calculated feature information to the synthesis unit.
[0030]
The synthesizing unit 305 receives the feature information from the control unit 306 and executes a process of synthesizing the voice using the feature information. Then, the synthesizing unit 305 outputs the processed sound as an output signal.
<Processing flow>
Hereinafter, a processing flow of audio processing in the audio communication method of the present embodiment will be shown. This voice processing can be realized as a program on a processor such as a CPU (Central Processing Unit) or a DSP (Digital Signal Processor). Moreover, you may comprise as hardware for exclusive use (gate array, custom LSI, etc.) which implement | achieves such a process.
[0031]
With reference to FIG. 4, the entire process from the input of the input signal to the output of the output signal will be described. FIG. 4 shows the overall flow of processing in the present embodiment. The processing shown in FIG. 4 is executed by the analysis unit 301, noise removal unit 302, pitch extraction unit 304, pitch enhancement unit 303, control information calculation unit 307, control unit 306, and synthesis unit 305.
[0032]
First, the analysis unit 301 inputs an input signal for one frame (S401). The audio is sampled and stored in a buffer (not shown) in sequence as an A / D converted audio signal. Therefore, the analysis unit 301 cuts out an audio signal from the buffer as an input signal and performs analysis for each frame.
[0033]
The analysis unit 301 performs FFT analysis on the input signal (S402). At this time, the analysis unit 301 acquires the spectrum amplitude Sa [i] and the phase Sp [i]. The spectrum amplitude Sa [i] and the phase Sp [i] represent the audio signal in the frequency domain, and each processing means performs processing such as noise removal and pitch enhancement on the spectrum amplitude and phase. To do. Here, i indicates an index of the frequency band.
[0034]
In the present embodiment, analysis processing is executed by FFT (Fast Fourier Transform: Fast Fourier Transform), and synthesis processing is executed by IFFT (Inverse Fast Fourier Transform: Fast Inverse Fourier Transform). The processing procedure of the input signal executed during the analysis / synthesis by FFT / IFFT is described in detail in, for example, “Computer Music” (Curtis Roads, translated and supervised by Tatsuya Aoyagi et al., Tokyo Denki University Press, pages 452-457). Explained.
[0035]
The noise removing unit 302 removes a noise component from the spectrum amplitude Sa [i] of the input signal (S403). Here, the noise removing unit 302 calculates the spectrum amplitude Sa ′ [i] after the noise removal, and transmits it to the pitch emphasizing unit 303 and the control unit 306. As a typical method of noise removal, a spectral subtraction method (JS Lim and AV Oppenheim: “Enhancement and Bandwidth Compression of Noise Speed,” Proc. IEEE, Vol. 67, No. 12). , Pp. 1586-1604, 1979.).
[0036]
The pitch extraction unit 304 performs pitch extraction (S404). Here, the pitch extracting unit 304 acquires the pitch frequency F (Hz) and transmits it to the pitch emphasizing unit 303. The pitch extraction method is described in detail in “Computer Music” (Curtis Roads, translated and supervised by Tatsuya Aoyagi et al., Tokyo Denki University Press, pages 417-425).
[0037]
The pitch emphasizing unit 303 performs pitch emphasis on the spectrum amplitude Sa ′ [i] after noise removal (S405). Here, the pitch emphasizing unit 303 performs pitch emphasis on the pitch frequency F (Hz) extracted by the pitch extracting unit 304 and its high frequency out of the spectrum amplitude Sa ′ [i] calculated by the noise removing unit 302, and thereby the spectral amplitude. Sa ″ [i] is calculated. The spectrum amplitude Sa ″ [i] calculated here is transmitted to the control means 306.
[0038]
The control information calculation unit 307 calculates control information (S406). That is, the control information calculation unit 307 calculates control information using the input signal in accordance with the magnitude of noise, the signal-to-noise ratio (hereinafter referred to as SNR (signal to noise ratio)), and the like. This control information indicates a ratio contributed by spectrum amplitudes Sa ′ [i] and Sa ″ [i] used when calculating the final spectrum amplitude S [i]. The calculated control information is transmitted to the control means 306. The control information calculation method will be described later in detail.
[0039]
The control unit 306 calculates feature information (S407). The control unit 306 weights Sa ′ [i] and Sa ″ [i] using the control information calculated by the control information calculation unit 307, and obtains the final spectrum amplitude S [i].
[0040]
The synthesizing unit performs IFFT using the final spectrum amplitude S [i] and phase Sp [i] to synthesize an audio signal (S408).
[0041]
Then, the analysis unit 301 determines whether or not the input of the audio signal is finished (S409).
[0042]
If the analysis unit 301 determines in step S409 that the audio signal input signal has ended, the analysis unit 301 ends the process. On the other hand, if it is determined in S409 that the input signal continues, the analysis unit 301 proceeds to S401 and processes the next frame.
<Processing of control information calculation means>
A processing flow of the control information calculation unit will be described with reference to FIG. FIG. 5 shows the flow of processing of the control information calculation means. The process of the control information calculation unit 307 is executed in S406 shown in FIG. Hereinafter, a process in which the control information calculation unit 307 calculates control information from an input signal will be described. In the present embodiment, the control information is represented by an output contribution A of the pitch emphasis means and an output contribution B of the noise removal means.
[0043]
The control information calculation unit 307 inputs an input signal for one frame (S501). Then, the control information calculation unit 307 calculates the frame power E (S502). The frame power is the signal power of the input signal in one frame, and is used when calculating the SNR. The SNR (signal to noise ratio) is the ratio of signal to noise, and can be calculated by dividing the signal power by the noise power.
[0044]
The control information calculation unit 307 calculates the pitch correlation C (S503). The pitch correlation is a function for indicating how much a frequency component corresponding to the pitch frequency is included in the input signal. The pitch correlation can be calculated by, for example, calculating a correlation value for the sample having the highest correlation between the samples with respect to the sampled input signal X [i] ((i = 1 to N), N: sampling frequency). This can be calculated by sequentially shifting a specific input signal X [k] on the time axis and calculating a correlation value with another input signal sample X [k ′].
[0045]
The control information calculation unit 307 determines whether the pitch correlation C exceeds a threshold value (S504). If the control information calculation unit 307 determines in step S504 that pitch correlation C> threshold, the control information calculation unit 307 updates the average Ev of the audio power according to the following formula 1 (S505).
[0046]
[Expression 1]
Ev = ξ × E + (1−ξ) × Ev ′ (ξ (0 ≦ ξ ≦ 1): a predetermined constant)
Here, the average Ev ′ of voice power is the average value of voice power up to the previous time, and this average Ev ′ is stored in a storage area such as a memory. When the average Ev is updated by adding the frame power E extracted this time, the average Ev can be calculated from Equation 1 using a predetermined constant ξ. The constant ξ is a value indicating the contribution of the current frame power E to the average value of the audio power. The voice power refers to the power spectrum of the input signal included in the voice signal.
[0047]
On the other hand, if the control information calculation unit 307 determines in step S504 that pitch correlation C ≦ threshold, the average En of the noise power is updated according to the following formula 2.
[0048]
[Expression 2]
En = η × E + (1−η) × En ′ (η (0 ≦ η ≦ 1): a predetermined constant)
This average noise power En ′ is an average value of noise power up to the previous time, and this noise power average En ′ is stored in a storage area such as a memory, in the same manner as the average of sound power. When the average En is updated by adding the frame power E extracted this time, the average En can be calculated from Equation 2 using a predetermined constant η. The constant η is a value indicating the contribution of the current frame power E to the average noise power. The average En of the noise power refers to the power spectrum of the noise signal included in the audio signal.
[0049]
Next, the control information calculation unit 307 calculates the SNR according to the following Equation 3 (S507).
[0050]
[Equation 3]
SNR = Ev / En
Then, the control information calculation unit 307 calculates the value of Expression 4 below (S508).
[0051]
[Expression 4]
A = SNR × γ (γ: predetermined constant)
This value is used to determine whether or not to use the output of the pitch emphasizing means after voice synthesis. This value is called contribution A.
[0052]
Next, the control information calculation unit 307 calculates the value of Equation 5 below (S509).
[0053]
[Equation 5]
B = SNR × η (η: a predetermined constant)
This value is used for calculating a weighting coefficient when the output of the pitch emphasizing means is used for an audio signal. This value is called contribution B.
[0054]
The control information calculation means 307 outputs control information A and B (S510). The control information A and B is also referred to as pitch extraction performance. The control information calculation unit 307 transmits the output contribution A of the pitch enhancement unit and the output B of the noise removal unit 302 to the control unit 306 as control information.
<Processing of control means>
With reference to FIG. 6, the process of a control means is demonstrated. FIG. 6 shows the flow of processing of the control means. The process of the control means is a process executed in S407 shown in FIG.
[0055]
Based on the control information calculated by the control information calculation unit 307, the feature information calculated by the noise removal unit 302, and the feature information calculated by the pitch enhancement unit, the control unit 306 uses the spectrum amplitude S [ i] and the spectral phase Sp [i] are calculated. Hereinafter, a process in which the control unit 306 calculates feature information will be described.
[0056]
The control means 306 inputs control information A and B (S601). The control unit 306 receives, as control information, the output contribution A of the pitch enhancement unit 303 and the output contribution B of the noise removal unit from the control information calculation unit 307.
[0057]
The control unit 306 inputs the feature information (spectrum amplitude Sa ′ [i] and phase Sp [i]) output from the noise removing unit 302 (S602). The control unit 306 receives the spectrum amplitude Sa ′ [i] and the phase Sp ′ [i] from the noise removing unit 302 as the feature information.
[0058]
The control unit 306 inputs the feature information (spectrum amplitude Sa ″ [i] and phase Sp ″ [i]) output from the pitch emphasizing unit (S603). The control unit 306 receives the spectral amplitude Sa ″ [i] and the phase Sp ″ [i] from the pitch emphasizing unit 303 as feature information. Then, the control means determines the weighting factor W from the relationship between the control information A and the threshold 1 and threshold 2 (threshold 1> threshold 2).
[0059]
The control unit 306 determines whether the control information A (hereinafter also referred to as pitch extraction performance A) exceeds the threshold value 1 (S604).
[0060]
In S604, when it is determined that the pitch extraction performance A> the threshold value 1, the control unit 306 sets the weighting coefficient W = 0 (S607). On the other hand, in S04, when it is determined that the pitch extraction performance A ≦ the threshold value 1, the control unit 306 determines whether the pitch extraction performance A exceeds the threshold value 2 (S605).
[0061]
In S605, when it is determined that the pitch extraction performance A <threshold value 2, the control unit 306 sets the weighting factor W = 0 (S607). On the other hand, if the control unit 306 determines in step S605 that contribution A ≧ threshold value 2, the weighting factor is set to W = αB + β (S606). In this case, the contribution A is in the range of threshold 2 ≦ A ≦ threshold 1. Here, α and β are predetermined constants. Contribution B is the contribution of the output of the noise removal means 302 calculated by the control information calculation means 307.
[0062]
The control means 306 calculates the spectrum amplitude S [i] according to the following formula 6 (S608).
[0063]
[Formula 6]
S [i] = W × Sa ″ [i] + (1−W) Sa ′ [i]
That is, when the pitch extraction performance A is between the threshold value 2 and the threshold value 1, the control means 206 considers (weights and adds) the spectrum amplitude Sa ″ [i] with the pitch emphasis, and the spectrum amplitude S [i ], And when the pitch extraction performance A is not between the threshold value 2 and the threshold value 1, the spectrum amplitude Sa ′ [i] from which noise is removed is set as the final spectrum amplitude S [i].
[0064]
The control means 306 outputs the final spectrum amplitude S [i] and spectrum phase Sp [i] as feature information (S609). The control unit 306 transmits the calculated spectrum amplitude S [i] and spectrum phase Sp [i] to the synthesis unit 305.
<Processing of analysis means and pitch extraction means>
The processing of the pitch extraction unit 307 will be described with reference to FIG. FIG. 7 shows the processing flow of the analysis means 301 and the pitch extraction means 304. The process of the analysis means 301 is performed by S402 shown in FIG. Further, the processing of the pitch extraction unit 304 is executed in S404 shown in FIG. Hereinafter, a process of calculating the pitch frequency by the analysis unit 301 receiving the input signal and the pitch extraction unit 304 determining whether or not there is pitch property will be described.
[0065]
The analysis unit 301 inputs an input signal for one frame (S701). The analysis unit 301 cuts out the audio signal for each frame and executes the analysis, as in S401 shown in FIG.
[0066]
The analysis unit 301 performs FFT to calculate the spectrum amplitude and the like (S702). That is, here, the analysis unit 301 converts the time domain audio signal into a frequency domain audio signal.
[0067]
The pitch extraction means calculates the peak of the spectrum amplitude in the frequency band of 1000 Hz or less (S703). Then, the pitch extracting means extracts three of the peaks of the spectrum amplitude from the largest (S704). The frequencies extracted here are P1, P2, and P3 (Hz) from those having a lower frequency.
[0068]
The pitch extraction means determines whether or not the peak frequencies P1, P2, P3 (Hz) satisfy the following Expression 7 (S705). Here, the pitch extraction unit 301 determines whether or not the extracted frequency has pitch characteristics based on the following Equation 7. The peak calculation performed by the pitch extraction means may use spectrum power which is the square of the spectrum amplitude.
[0069]
[Expression 7]
| P2 / P1-2 | <threshold and | P3 / P1-3 | <threshold
In S705, the pitch extraction unit 307 outputs the pitch frequency P1 when it is determined that the above mathematical formula 7 is established (S706). That is, when the audio signal has pitch characteristics, the lowest frequency P1 is the fundamental frequency, the second frequency P2 is twice the fundamental frequency, and the third largest frequency P3 is three times the fundamental frequency. Become. Therefore, if the value obtained by subtracting 2 from the value obtained by dividing the frequency P2 by the basic frequency and the value obtained by subtracting 3 from the value obtained by dividing the frequency P3 by the basic frequency are within the predetermined range, the pitch extracting means 207 determines the voice. Judge that the signal has pitch characteristics.
[0070]
On the other hand, if it is determined in S706 that the above formula 7 is not satisfied, the pitch extracting means outputs that there is no pitch property (S707).
<Effect of embodiment>
According to the present embodiment, the control information calculation means calculates control information for controlling the feature information calculated by the pitch emphasis means and the feature information calculated by the noise removal means. Then, the control means can calculate final feature information based on the control information by using the feature information that has been subjected to noise removal and the feature information that has been subjected to both noise removal and pitch enhancement.
[0071]
Further, according to the present embodiment, when pitch enhancement is not desirable, such as when it can be estimated that the pitch extraction performance is deteriorated or when noise removal is sufficiently performed, the contribution of pitch enhancement is reduced, or Stop pitch emphasis.
[0072]
Conversely, when it is desirable to perform pitch enhancement, such as when the pitch extraction performance is high to some extent and noise removal is not sufficient, pitch enhancement is performed. Further, in that case, the contribution of pitch enhancement can be increased according to the pitch extraction performance.
[0073]
For this reason, the conventional technique may deteriorate when pitch emphasis is not desired, whereas in the present invention, when pitch emphasis is desired, sound quality equivalent to that of the prior art can be obtained, and pitch emphasis is not desirable. Since it is possible to prevent deterioration due to pitch enhancement, it is possible to improve the quality of noise-reduced speech more comprehensively than the prior art.
<Computer-readable storage medium>
A program that causes a computer to execute any of the processes in the above-described embodiments can be recorded on a computer-readable storage medium. The system described in the above embodiment can be provided by causing a computer to read and execute the program of the storage medium.
[0074]
Here, the computer-readable storage medium refers to a storage medium that stores information such as data and programs by electrical, magnetic, optical, mechanical, or chemical action and can be read from the computer. . Examples of such storage media that can be removed from the computer include a flexible disk, a magneto-optical disk, a CD-ROM, a CD-R / W, a DVD, a DAT, an 8 mm tape, and a memory card.
[0075]
Further, as a recording medium fixed to the computer, there are a hard disk, a ROM (read only memory), and the like.
[0076]
The above embodiment does not limit the scope of the present invention at all, and various modifications can be appropriately made within the scope that can be understood by those skilled in the art.
<Others>
Furthermore, this embodiment discloses the following invention.
[0077]
(Additional remark 1) The analysis means which inputs audio | voice data as an input signal, and analyzes the characteristic information which concerns on a frequency,
Means for identifying a noise component and a speech component in the input signal;
Means for removing noise components from the feature information and extracting signal information;
Pitch extraction means for extracting a pitch component from the input signal or the feature information and extracting pitch information of the signal information;
Pitch emphasis control means for controlling a ratio of the pitch information to be increased to the signal information from a ratio of a noise component and a signal component in the input signal or the characteristic information;
And a means for converting the signal information, in which the ratio of the pitch information is controlled, into audio data.
[0078]
(Additional remark 2) The said pitch extraction means is a noise reduction device of the audio | voice signal of Additional remark 1 which extracts the pitch component of an input signal using the spectrum amplitude or spectrum power of an input signal.
[0079]
(Supplementary note 3) The speech signal noise reduction device according to supplementary note 1, wherein the pitch emphasis control means does not increase the pitch information when the ratio of the signal component and the noise component exceeds a first predetermined value. .
[0080]
(Supplementary note 4) The speech signal noise reduction device according to supplementary note 1, wherein the pitch emphasis control means does not add the pitch information when the ratio between the signal component and the noise component is less than a second predetermined value.
[0081]
(Appendix 5) Inputting voice data as an input signal and analyzing characteristic information related to frequency;
Identifying a noise component and a speech component in the input signal;
Removing noise components from the feature information and extracting signal information;
Extracting a pitch component from the input signal or the feature information and extracting pitch information of the signal information;
Controlling a ratio of the pitch information to be increased to the signal information from a ratio of a noise component and a signal component in the input signal or the feature information;
A program for causing a computer to execute the step of converting the signal information in which the ratio of the pitch information is controlled into audio data.
[0082]
(Supplementary note 6) The program according to supplementary note 5, wherein the step of extracting the pitch information extracts a pitch component of the input signal using a spectral amplitude or a spectral power of the input signal.
[0083]
(Supplementary note 7) The program according to supplementary note 5, wherein the step of controlling the ratio of the pitch information does not increase the pitch information when the ratio of the signal component and the noise component exceeds a first predetermined value.
[0084]
(Supplementary note 8) The program according to supplementary note 5, wherein the step of controlling the ratio of the pitch information does not add the pitch information when the ratio of the signal component and the noise component is less than a second predetermined value.
[0085]
【The invention's effect】
As described above, the present invention can provide a technique capable of reducing the noise of a voice signal according to the environmental noise level and improving the quality of the noise-reduced voice.
[Brief description of the drawings]
FIG. 1 is a configuration diagram of a conventional method.
FIG. 2 is a diagram showing an example in which the present invention is applied to a voice communication system.
FIG. 3 is a diagram illustrating the principle of the present invention.
FIG. 4 is a diagram showing an entire processing flow.
FIG. 5 is a diagram showing a processing flow of control information calculation means.
FIG. 6 is a diagram showing a processing flow of a control means.
FIG. 7 is a diagram showing a processing flow of pitch extraction means.
[Explanation of symbols]
101 ... Analyzing means in the conventional system
102: Noise removal means in the conventional system
103 ... Pitch emphasis means in the conventional system
104: Pitch extraction means in the conventional system
105. Combining means in the conventional system
201: Noise reduction unit
202: Speech encoding unit
203: Transmitter
301 ... Analyzing means
302: Noise removing means
303 ... Pitch emphasis means
304 ... Pitch extraction means
305 .. Synthesis means
306 ... Control means
307: Control information calculation means

Claims (5)

音声データを入力信号として入力し、周波数に係る特徴情報を分析する分析手段と、
前記入力信号中の雑音成分と音声成分を特定する手段と、
前記特徴情報から雑音成分を除去し、信号情報を抽出する手段と、
前記入力信号または前記特徴情報からピッチ成分を抽出し、前記信号情報のピッチ情報を抽出するピッチ抽出手段と、
前記入力信号または前記特徴情報中の雑音成分と信号成分の比率から、前記信号情報に増加させる前記ピッチ情報の比率を制御するピッチ強調制御手段と、
前記ピッチ情報の比率を制御した信号情報を音声データに変換する手段とを備えることを特徴とする音声信号の雑音低減装置。
Analysis means for inputting voice data as an input signal and analyzing characteristic information related to frequency;
Means for identifying a noise component and a speech component in the input signal;
Means for removing noise components from the feature information and extracting signal information;
Pitch extraction means for extracting a pitch component from the input signal or the feature information and extracting pitch information of the signal information;
Pitch emphasis control means for controlling a ratio of the pitch information to be increased to the signal information from a ratio of a noise component and a signal component in the input signal or the characteristic information;
And a means for converting the signal information, in which the ratio of the pitch information is controlled, into audio data.
前記ピッチ抽出手段は、入力信号のスペクトル振幅またはスペクトルパワーを用いて、入力信号のピッチ成分を抽出する請求項1記載の音声信号の雑音低減装置。2. The audio signal noise reduction device according to claim 1, wherein the pitch extraction unit extracts a pitch component of the input signal using a spectral amplitude or a spectral power of the input signal. 前記ピッチ強調制御手段は、前記信号成分と雑音成分との比率が第1の所定値を越えている場合には、前記ピッチ情報を増加させない請求項1記載の音声信号の雑音低減装置。2. The noise reduction device for an audio signal according to claim 1, wherein the pitch emphasis control means does not increase the pitch information when a ratio between the signal component and the noise component exceeds a first predetermined value. 前記ピッチ強調制御手段は、前記信号成分と雑音成分との比率が第2の所定値未満の場合には、前記ピッチ情報を付加させない請求項1記載の音声信号の雑音低減装置。2. The noise reduction apparatus for an audio signal according to claim 1, wherein the pitch emphasis control means does not add the pitch information when the ratio between the signal component and the noise component is less than a second predetermined value. 音声データを入力信号として入力し、周波数に係る特徴情報を分析するステップと、
前記入力信号中の雑音成分と音声成分を特定するステップと、
前記特徴情報から雑音成分を除去し、信号情報を抽出するステップと、
前記入力信号または前記特徴情報からピッチ成分を抽出し、前記信号情報のピッチ情報を抽出するステップと、
前記入力信号または前記特徴情報中の雑音成分と信号成分の比率から、前記信号情報に増加させる前記ピッチ情報の比率を制御するステップと、
前記ピッチ情報の比率を制御した信号情報を音声データに変換するステップとをコンピュータに実行させるプログラム。
Inputting voice data as an input signal and analyzing frequency-related feature information;
Identifying a noise component and a speech component in the input signal;
Removing noise components from the feature information and extracting signal information;
Extracting a pitch component from the input signal or the feature information and extracting pitch information of the signal information;
Controlling a ratio of the pitch information to be increased to the signal information from a ratio of a noise component and a signal component in the input signal or the feature information;
A program for causing a computer to execute the step of converting the signal information in which the ratio of the pitch information is controlled into audio data.
JP2003199434A 2003-07-18 2003-07-18 Noise reduction device for audio signal Expired - Fee Related JP4413546B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003199434A JP4413546B2 (en) 2003-07-18 2003-07-18 Noise reduction device for audio signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003199434A JP4413546B2 (en) 2003-07-18 2003-07-18 Noise reduction device for audio signal

Publications (2)

Publication Number Publication Date
JP2005037617A true JP2005037617A (en) 2005-02-10
JP4413546B2 JP4413546B2 (en) 2010-02-10

Family

ID=34208885

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003199434A Expired - Fee Related JP4413546B2 (en) 2003-07-18 2003-07-18 Noise reduction device for audio signal

Country Status (1)

Country Link
JP (1) JP4413546B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012037603A (en) * 2010-08-04 2012-02-23 Fujitsu Ltd Noise estimating device, noise estimating method and noise estimating program
JP2019060942A (en) * 2017-09-25 2019-04-18 富士通株式会社 Voice processing program, voice processing method and voice processing device

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002149200A (en) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd Device and method for processing voice
JP2002169595A (en) * 2000-11-30 2002-06-14 Matsushita Electric Ind Co Ltd Fixed sound source code book and speech encoding/ decoding apparatus
JP2004289614A (en) * 2003-03-24 2004-10-14 Fujitsu Ltd Voice emphasis apparatus

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002149200A (en) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd Device and method for processing voice
JP2002169595A (en) * 2000-11-30 2002-06-14 Matsushita Electric Ind Co Ltd Fixed sound source code book and speech encoding/ decoding apparatus
JP2004289614A (en) * 2003-03-24 2004-10-14 Fujitsu Ltd Voice emphasis apparatus

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012037603A (en) * 2010-08-04 2012-02-23 Fujitsu Ltd Noise estimating device, noise estimating method and noise estimating program
US9460731B2 (en) 2010-08-04 2016-10-04 Fujitsu Limited Noise estimation apparatus, noise estimation method, and noise estimation program
JP2019060942A (en) * 2017-09-25 2019-04-18 富士通株式会社 Voice processing program, voice processing method and voice processing device

Also Published As

Publication number Publication date
JP4413546B2 (en) 2010-02-10

Similar Documents

Publication Publication Date Title
JP4520732B2 (en) Noise reduction apparatus and reduction method
JP5127754B2 (en) Signal processing device
JP5528538B2 (en) Noise suppressor
KR101378696B1 (en) Determining an upperband signal from a narrowband signal
JP5975243B2 (en) Encoding apparatus and method, and program
JP4606418B2 (en) Scalable encoding device, scalable decoding device, and scalable encoding method
US20080120117A1 (en) Method, medium, and apparatus with bandwidth extension encoding and/or decoding
JP6508551B2 (en) Decryption apparatus and method, and program
JP2010055000A (en) Signal band extension device
JP5148414B2 (en) Signal band expander
KR20150032390A (en) Speech signal process apparatus and method for enhancing speech intelligibility
CN104981870A (en) Speech enhancement device
TWI590237B (en) Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
JP2004198485A (en) Device and program for decoding sound encoded signal
JP5443547B2 (en) Signal processing device
JP2009223210A (en) Signal band spreading device and signal band spreading method
JPH11265199A (en) Voice transmitter
JP5609157B2 (en) Coefficient setting device and noise suppression device
JP4413546B2 (en) Noise reduction device for audio signal
JP5772723B2 (en) Acoustic processing apparatus and separation mask generating apparatus
JP2024502287A (en) Speech enhancement method, speech enhancement device, electronic device, and computer program
JP2002049397A (en) Digital signal processing method, learning method, and their apparatus, and program storage media therefor
JP2002049399A (en) Digital signal processing method, learning method, and their apparatus, and program storage media therefor
KR100933604B1 (en) Short channel sound quality improvement technology using flexible frequency band
JP4538705B2 (en) Digital signal processing method, learning method and apparatus, and program storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051026

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080526

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090519

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090716

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091104

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091118

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121127

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121127

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131127

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees