JP2012208177A - Band extension device and sound correction device - Google Patents
Band extension device and sound correction device Download PDFInfo
- Publication number
- JP2012208177A JP2012208177A JP2011071837A JP2011071837A JP2012208177A JP 2012208177 A JP2012208177 A JP 2012208177A JP 2011071837 A JP2011071837 A JP 2011071837A JP 2011071837 A JP2011071837 A JP 2011071837A JP 2012208177 A JP2012208177 A JP 2012208177A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- spectrum
- signal
- frequency
- harmonic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、入力信号の周波数帯域を拡張するための帯域拡張装置に関する。また、本発明は、骨導マイクロホンからの音声信号を補正するための音声補正装置に関する。 The present invention relates to a band extending apparatus for extending a frequency band of an input signal. The present invention also relates to an audio correction device for correcting an audio signal from a bone-conduction microphone.
従来より、入力信号の周波数帯域を拡張するための帯域拡張装置が提案されている(例えば、特許文献1及び特許文献2参照)。従来の帯域拡張装置は、入力信号から低域信号を生成する低域信号生成手段と、入力信号から高域信号を生成する高域信号生成手段と、生成した低域信号及び高域信号をそれぞれ入力信号に加算する加算手段と、を備えている。低域信号生成手段は、入力信号をオーバーサンプリングした後に全波整流(非線形処理)し、この全波整流した入力信号を周波数領域においてバンドパスフィルタリングすることにより低域信号を生成する。高域信号生成手段は、入力信号をオーバーサンプリングした後に、周波数領域において入力信号の低域の周波数帯域を高域側にコピーすることにより高域信号を生成する。このように生成された低域信号及び高域信号がそれぞれ入力信号に加算されることにより、周波数帯域が拡張された出力信号が生成される。このように周波数帯域を拡張することによって、電話の通話音質やデジタル音響機器の再生音質等を改善することができる。 Conventionally, band extension devices for extending the frequency band of an input signal have been proposed (see, for example, Patent Document 1 and Patent Document 2). The conventional band extension device includes a low-frequency signal generating means for generating a low-frequency signal from an input signal, a high-frequency signal generating means for generating a high-frequency signal from the input signal, and the generated low-frequency signal and high-frequency signal, respectively. Adding means for adding to the input signal. The low-frequency signal generating means performs full-wave rectification (nonlinear processing) after oversampling the input signal, and generates a low-frequency signal by performing bandpass filtering on the input signal subjected to full-wave rectification in the frequency domain. The high frequency signal generating means generates a high frequency signal by oversampling the input signal and then copying a low frequency band of the input signal to the high frequency side in the frequency domain. The low-frequency signal and high-frequency signal thus generated are added to the input signal, thereby generating an output signal with an expanded frequency band. By expanding the frequency band in this way, it is possible to improve telephone call sound quality, playback sound quality of digital audio equipment, and the like.
また、従来より、骨導マイクロホンからの音声信号を補正するための音声補正装置が提案されている(例えば、特許文献3参照)。骨導マイクロホンは骨伝導マイクロホンとも呼ばれ、音声発声時の声帯振動によって生じる骨の振動を額や顎、頬、耳穴等で収録し、実際の音声の代用の信号として利用するための振動ピックアップの一つである。このような骨導マイクロホンは、気導マイクロホンに比べて高いS/N比を得ることができ、高騒音下の音声入力手段として有効に用いられる。従来の音声補正装置は、骨導マイクロホンと、骨導マイクロホンからの音声信号を時間フレームごとに分割する時間フレーム分割手段と、時間フレームに基づいてピッチ周波数データ及び骨導音声特徴パラメータを分析するLPC分析手段と、分析された骨導音声特徴パラメータを疑似気導音声特徴パラメータに変換する信号変換手段と、ピッチ周波数データ及び疑似気導音声特徴パラメータに基づいて疑似気導音声信号を生成するLPC合成手段と、疑似気導音声信号を長時間の信号に変換する平滑化手段と、を備えている。 Conventionally, an audio correction device for correcting an audio signal from a bone-conduction microphone has been proposed (see, for example, Patent Document 3). Bone-conduction microphones are also called bone-conduction microphones. These are vibration pickups that record bone vibrations caused by vocal cord vibrations during voice production using the forehead, chin, cheeks, ear holes, etc., and use them as substitute signals for actual speech. One. Such a bone-conduction microphone can obtain a higher S / N ratio than an air-conduction microphone, and is effectively used as a voice input means under high noise. A conventional speech correction apparatus includes a bone conduction microphone, a time frame dividing unit that divides a speech signal from the bone conduction microphone into time frames, and an LPC that analyzes pitch frequency data and bone conduction speech feature parameters based on the time frames. LPC synthesis for generating a pseudo air conduction speech signal based on the pitch frequency data and the pseudo air conduction speech feature parameter, and an analysis means, a signal conversion means for converting the analyzed bone conduction speech feature parameter into a pseudo air conduction speech feature parameter Means and smoothing means for converting the pseudo air conduction sound signal into a long-time signal.
第1に、上述のような従来の帯域拡張装置では、次のような問題がある。一般に、入力信号の性質を表す重要な要素として、スペクトル包絡のピークにおける周波数(以下、「ピーク周波数」という)がある。音声におけるスペクトル包絡のピーク周波数はホルマントピーク周波数であり、このホルマントピーク周波数は、声道伝達系の音韻を識別するために重要である。また、楽音におけるスペクトル包絡のピーク周波数は、楽器の種類及びその各部分の構造に基づく共振系の共鳴周波数であり、この共鳴周波数は、楽音の特徴を表すものとして重要である。このようなスペクトル包絡のピーク周波数は共鳴・共振現象であるため、1次共振モードに対して逓倍となる周波数に高次共振モードを有するのが一般的である。従って、高域信号を生成する際には、基本周波数の倍音と同様に、適切な周波数にスペクトル包絡の高次共振モードのピークを持たせることが重要となる。 First, the conventional band extending apparatus as described above has the following problems. In general, as an important factor representing the nature of an input signal, there is a frequency at the peak of the spectral envelope (hereinafter referred to as “peak frequency”). The peak frequency of the spectral envelope in speech is the formant peak frequency, and this formant peak frequency is important for identifying the phoneme of the vocal tract transmission system. Further, the peak frequency of the spectrum envelope in the musical sound is a resonance frequency of the resonance system based on the type of the musical instrument and the structure of each part thereof, and this resonance frequency is important as representing the characteristics of the musical sound. Since the peak frequency of such a spectral envelope is a resonance / resonance phenomenon, it is common to have a high-order resonance mode at a frequency that is multiplied by the primary resonance mode. Therefore, when generating a high-frequency signal, it is important to have a peak of a high-order resonance mode with a spectral envelope at an appropriate frequency, similar to harmonics of the fundamental frequency.
しかしながら、上述のような従来の帯域拡張装置では、周波数領域において入力信号の低域の周波数帯域を高域側にコピーする際のシフト量は、スペクトル包絡のピーク周波数とは無関係であるため、高域信号においてスペクトル包絡の高次共振モードのピークを再現することができない。そのため、自然な特性の出力信号を得るのは難しく、聴認度の向上には限界があった。また、入力信号をオーバーサンプリングした後に全波整流することにより低域信号を生成しているが、このような構成では、入力信号にノイズが混入した際に、整流のタイミングであるゼロ交差付近でノイズの影響を大きく受けてしまう。そのため、出力音質が低下するおそれがある。 However, in the conventional band extension device as described above, the shift amount when copying the low frequency band of the input signal to the high frequency side in the frequency domain is independent of the peak frequency of the spectrum envelope, The peak of the higher order resonance mode of the spectral envelope cannot be reproduced in the band signal. For this reason, it is difficult to obtain an output signal with natural characteristics, and there is a limit to improving the degree of hearing. In addition, a low-frequency signal is generated by full-wave rectification after oversampling the input signal. However, in such a configuration, when noise is mixed in the input signal, the rectification timing is near the zero crossing. It is greatly affected by noise. As a result, the output sound quality may be degraded.
第2に、上述のような従来の音声補正装置では、次のような問題がある。従来の音声補正装置は、音声信号に基づいてピッチ周波数データ及び骨導音声特徴パラメータを分析するように構成されているが、骨導マイクロホンの特性上、音声信号が無声音である場合にはピッチ周波数データを得ることができない。そのため、無声音に対しては疑似気導音声信号を生成することができず、出力される音声が不自然なものとなってしまい、聴認度の向上を図ることが難しい。 Secondly, the conventional sound correcting apparatus as described above has the following problems. The conventional speech correction apparatus is configured to analyze the pitch frequency data and the bone conduction speech feature parameters based on the speech signal. However, when the speech signal is an unvoiced sound due to the characteristics of the bone conduction microphone, the pitch frequency is determined. I can't get the data. Therefore, a pseudo air conduction sound signal cannot be generated for an unvoiced sound, and the output sound becomes unnatural and it is difficult to improve the degree of hearing.
本発明の目的は、聴認度の向上を図ることができる帯域拡張装置及び音声補正装置を提供することである。 An object of the present invention is to provide a band extension device and a sound correction device capable of improving the degree of hearing.
本発明の請求項1に記載の帯域拡張装置では、入力信号の周波数帯域を拡張するための帯域拡張装置であって、
時間領域の入力信号を時間フレームごとに分割する時間フレーム分割手段と、前記時間フレームをフーリエ変換して周波数領域の原音スペクトルを生成するフーリエ変換手段と、前記原音スペクトルに基づいて高調波スペクトルを生成する高調波スペクトル生成手段と、前記高調波スペクトルを前記原音スペクトルに加算する高調波スペクトル加算手段と、前記高調波スペクトルが加算された前記原音スペクトルをフーリエ逆変換して時間領域の出力信号成分を生成するフーリエ逆変換手段と、前記出力信号成分をそれぞれ加算して周波数帯域が拡張された出力信号を生成する出力信号生成手段と、を備え、
前記高調波スペクトル生成手段は、前記原音スペクトルに含まれる原音スペクトル成分の周波数を算出し、この算出した周波数の逓倍の周波数を前記高調波スペクトルに含まれる高調波スペクトル成分の周波数として設定することを特徴とする。
The band extending apparatus according to claim 1 of the present invention is a band extending apparatus for extending a frequency band of an input signal,
Time frame dividing means for dividing the time domain input signal into time frames; Fourier transform means for generating a frequency domain original sound spectrum by Fourier transforming the time frame; and generating a harmonic spectrum based on the original sound spectrum A harmonic spectrum generating means for adding the harmonic spectrum to the original sound spectrum, and inverse Fourier transforming the original sound spectrum to which the harmonic spectrum has been added to obtain an output signal component in the time domain. An inverse Fourier transform means for generating, and an output signal generation means for adding an output signal component to generate an output signal with an expanded frequency band.
The harmonic spectrum generation means calculates the frequency of the original sound spectrum component included in the original sound spectrum, and sets the frequency multiplied by the calculated frequency as the frequency of the harmonic spectrum component included in the harmonic spectrum. Features.
また、本発明の請求項2に記載の帯域拡張装置では、前記高調波スペクトル生成手段は、前記原音スペクトルに含まれる前記原音スペクトル成分の位相角を算出し、この算出した位相角の逓倍の位相角を前記高調波スペクトルに含まれる前記高調波スペクトル成分の位相角として設定することを特徴とする。
Further, in the band extending apparatus according to
また、本発明の請求項3に記載の帯域拡張装置では、前記高調波スペクトル生成手段は、前記原音スペクトルを分析する原音スペクトル分析手段と、前記原音スペクトル分析部の分析結果に基づいて、前記高調波スペクトルに含まれる前記高調波スペクトル成分の大きさに対して所定の加重係数で加重を施す加重手段と、を含むことを特徴とする。 Further, in the band extending apparatus according to claim 3 of the present invention, the harmonic spectrum generating means is based on the original sound spectrum analyzing means for analyzing the original sound spectrum and the analysis result of the original sound spectrum analyzing section. Weighting means for weighting the magnitude of the harmonic spectrum component contained in the wave spectrum with a predetermined weighting factor.
また、本発明の請求項4に記載の帯域拡張装置では、前記原音スペクトル分析手段は、前記原音スペクトルの包絡線の傾斜を分析するように構成されており、前記加重手段は、分析された前記原音スペクトルの包絡線の傾斜に基づいて前記加重係数を変化させることを特徴とする。
Moreover, in the band extending apparatus according to
また、本発明の請求項5に記載の帯域拡張装置では、前記高調波スペクトル生成手段は、前記高調波スペクトル成分を補間するための補間手段を含んでおり、前記補間手段は、前記原音スペクトルに含まれる第1原音スペクトル成分の周波数の逓倍の周波数と、前記第1原音スペクトル成分に隣接する第2原音スペクトル成分の周波数の逓倍の周波数との間の周波数を有する前記高調波スペクトル成分を補間することを特徴とする。 In the band extending apparatus according to claim 5 of the present invention, the harmonic spectrum generating means includes an interpolation means for interpolating the harmonic spectrum component, and the interpolation means adds the original sound spectrum to the original sound spectrum. The harmonic spectral component having a frequency between a frequency multiplied by the frequency of the first original sound spectral component included and a frequency multiplied by the frequency of the second original sound spectral component adjacent to the first original sound spectral component is interpolated. It is characterized by that.
また、本発明の請求項6に記載の帯域拡張装置では、前記入力信号は、マイクロホンや振動ピックアップ、骨導マイクロホン、デジタル音響機器、電話システム、人工声帯等により生成される音声信号又は楽音信号であることを特徴とする。
In the band extending apparatus according to
また、本発明の請求項7に記載の音声補正装置では、骨導マイクロホンと、前記骨導マイクロホンからの音声信号を時間フレームごとに分割する時間フレーム分割手段と、前記時間フレームにおける音声信号の音声特性を分析する音声特性分析手段と、音声特性の分析結果に基づいて前記時間フレームにおける音声信号が有声音か無声音かを判別する音声性質判別手段と、有声音と判別された音声信号を補正して疑似気導音声信号を生成する第1信号補正手段と、無声音と判別された音声信号を補正して疑似気導音声信号を生成する第2信号補正手段と、前記第1信号補正手段による有声音補正モードと前記第2信号補正手段による無声音補正モードとを切り替える補正モード切替手段と、生成された疑似気導音声信号をそれぞれ加算して出力信号を生成する出力信号生成手段と、を備えることを特徴とする。 In the sound correction device according to claim 7 of the present invention, the bone conduction microphone, the time frame dividing means for dividing the sound signal from the bone conduction microphone for each time frame, and the sound of the sound signal in the time frame. A voice characteristic analyzing means for analyzing the characteristics; a voice property determining means for determining whether the voice signal in the time frame is voiced or unvoiced based on the voice characteristic analysis result; and correcting the voice signal determined to be voiced. First signal correcting means for generating a pseudo air conduction sound signal, second signal correcting means for generating a pseudo air conduction sound signal by correcting the sound signal determined to be unvoiced sound, and existence by the first signal correcting means. A correction mode switching means for switching between the voice sound correction mode and the unvoiced sound correction mode by the second signal correction means, and the generated pseudo air conduction sound signal are respectively added and output. Characterized in that it comprises an output signal generating means for generating a signal.
また、本発明の請求項8に記載の音声補正装置では、骨導音声道特性パラメータ、気導音声道特性パラメータ及び気導音音源特性パラメータが記憶されたパラメータ記憶手段を更に備え、前記音声特性分析手段は、前記時間フレームにおける音声信号の骨導音音源特性及び骨導音声道特性を分析するように構成されており、
前記第1信号補正手段は、前記音声特性分析手段により分析された音声信号の骨導音声道特性に基づいて、これに対応する前記気導音声道特性パラメータを前記記憶手段から読み出し、前記音声特性分析手段により分析された音声信号の骨導音音源特性と前記気導音声道特性パラメータとを合成して疑似気導音声信号を生成することを特徴とする。
The speech correction apparatus according to
The first signal correction means reads out the air conduction vocal tract characteristic parameter corresponding to the bone conduction vocal tract characteristic of the sound signal analyzed by the sound characteristic analysis means from the storage means, and the sound characteristic A pseudo air conduction sound signal is generated by synthesizing the bone conduction sound source characteristic of the sound signal analyzed by the analyzing means and the air conduction sound path characteristic parameter.
また、本発明の請求項9に記載の音声補正装置では、前記第2信号補正手段は、前記音声特性分析手段により分析された音声信号の骨導音声道特性に基づいて、これに対応する前記気導音声道特性パラメータ及び前記気導音音源特性パラメータを前記記憶手段から読み出し、この読み出した前記気導音声道特性パラメータと前記気導音音源特性パラメータとを合成して疑似気導音声信号を生成することを特徴とする。 Further, in the sound correction device according to claim 9 of the present invention, the second signal correction means is based on the bone-conducted vocal tract characteristic of the sound signal analyzed by the sound characteristic analysis means, and corresponds to the sound conduction characteristic. The air conduction sound path characteristic parameter and the air conduction sound source characteristic parameter are read from the storage means, and the read air conduction sound path characteristic parameter and the air conduction sound source characteristic parameter are synthesized to generate a pseudo air conduction sound signal. It is characterized by generating.
本発明の請求項1に記載の帯域拡張装置によれば、高調波スペクトル生成手段は、原音スペクトルに含まれる原音スペクトル成分の周波数を算出し、この算出した周波数の逓倍の周波数を高調波スペクトルに含まれる高調波スペクトル成分の周波数として設定するので、出力信号においてスペクトル包絡の高次共振モードのピークを再現することができる。それ故に、自然な特性の出力信号を得ることができ、聴認度の向上を図ることができる。また、原音スペクトル成分のS/N比を高調波スペクトル成分で復元することができ、ノイズの影響を受け難くすることができる。 According to the band extending apparatus of the first aspect of the present invention, the harmonic spectrum generating means calculates the frequency of the original sound spectrum component included in the original sound spectrum, and sets the frequency multiplied by the calculated frequency as the harmonic spectrum. Since it is set as the frequency of the included harmonic spectrum component, the peak of the higher-order resonance mode of the spectrum envelope can be reproduced in the output signal. Therefore, an output signal with natural characteristics can be obtained, and the degree of hearing can be improved. In addition, the S / N ratio of the original sound spectrum component can be restored with the harmonic spectrum component, and the influence of noise can be reduced.
また、本発明の請求項2に記載の帯域拡張装置によれば、高調波スペクトル生成手段は、原音スペクトルに含まれる原音スペクトル成分の位相角を算出し、この算出した位相角の逓倍の位相角を高調波スペクトルに含まれる高調波スペクトル成分の位相角として設定するので、原音スペクトルと高調波スペクトルとの時間関係を一定に保持することができる。これにより、時間領域の出力信号成分をそれぞれ加算した際に、各出力信号成分の高調波成分が互いに打ち消し合うのを防止することができ、出力信号を精度良く生成することができる。 According to the band extending apparatus of the second aspect of the present invention, the harmonic spectrum generating means calculates a phase angle of the original sound spectrum component included in the original sound spectrum, and a phase angle obtained by multiplying the calculated phase angle. Is set as the phase angle of the harmonic spectrum component included in the harmonic spectrum, the time relationship between the original sound spectrum and the harmonic spectrum can be kept constant. Thereby, when the output signal components in the time domain are added, the harmonic components of the output signal components can be prevented from canceling each other, and the output signal can be generated with high accuracy.
また、本発明の請求項3に記載の帯域拡張装置によれば、加重手段は、原音スペクトル分析部の分析結果に基づいて、高調波スペクトルに含まれる高調波スペクトル成分の大きさに対して所定の加重係数で加重を施すので、例えば原音スペクトルの音韻を考慮した高調波スペクトルを生成することができ、より自然な特性の出力信号を得ることができる。 According to the band extending apparatus of the third aspect of the present invention, the weighting means is predetermined with respect to the magnitude of the harmonic spectrum component included in the harmonic spectrum based on the analysis result of the original sound spectrum analysis unit. Thus, for example, a harmonic spectrum considering the phoneme of the original sound spectrum can be generated, and an output signal with more natural characteristics can be obtained.
また、本発明の請求項4に記載の帯域拡張装置によれば、加重手段は、分析された原音スペクトルの包絡線の傾斜に基づいて加重係数を変化させる。例えば、原音スペクトルの包絡線の傾斜が大きいときには、加重係数を小さく設定する。これにより、高調波スペクトル成分の大きさが小さくなる。一般に、母音のスペクトルでは、高域側におけるスペクトル成分の減衰が大きくなる特性があり、それ故に、上述のように加重係数を小さく設定することによって、母音をよりリアルに復元することができる。また例えば、原音スペクトルの包絡線の傾斜が小さいときには、加重係数を大きく設定する。これにより、高調波スペクトル成分の大きさが大きくなる。一般に、子音のスペクトルでは、高域側におけるスペクトル成分の減衰が小さくなる特性があり、それ故に、上述のように加重係数を大きく設定することによって、子音をよりリアルに復元することができる。 According to the band extending apparatus of the fourth aspect of the present invention, the weighting means changes the weighting coefficient based on the slope of the envelope of the analyzed original sound spectrum. For example, when the slope of the envelope of the original sound spectrum is large, the weighting coefficient is set small. Thereby, the magnitude | size of a harmonic spectrum component becomes small. Generally, the spectrum of a vowel has a characteristic that the attenuation of the spectrum component on the high frequency side becomes large. Therefore, the vowel can be restored more realistically by setting the weighting coefficient small as described above. For example, when the slope of the envelope of the original sound spectrum is small, the weighting coefficient is set large. Thereby, the magnitude | size of a harmonic spectrum component becomes large. In general, the consonant spectrum has a characteristic that the attenuation of the spectral component on the high frequency side is reduced. Therefore, the consonant can be restored more realistically by setting the weighting factor large as described above.
また、本発明の請求項5に記載の帯域拡張装置によれば、高調波スペクトル生成手段は、高調波スペクトル成分を補間するための補間手段を含んでいる。このように高調波スペクトル成分を補間することによって、高調波スペクトルをより精度良く生成することができる。 According to the band extending apparatus of the fifth aspect of the present invention, the harmonic spectrum generating means includes the interpolation means for interpolating the harmonic spectrum component. By interpolating the harmonic spectrum components in this way, the harmonic spectrum can be generated with higher accuracy.
また、本発明の請求項6に記載の帯域拡張装置によれば、入力信号は、マイクロホンや振動ピックアップ、骨導マイクロホン、デジタル音響機器、電話システム、人工声帯等により生成される音声信号又は楽音信号である。このようなマイクロホンや振動ピックアップ、骨導マイクロホン、デジタル音響機器、電話システム、人工声帯等は、その特性不足により高音域を出力するのが難しいが、これらに本発明の帯域拡張装置を適用することにより、自然な高音域を再現することができ、聴認度の向上を図ることができる。 According to the band extending apparatus of the sixth aspect of the present invention, the input signal is a voice signal or musical tone signal generated by a microphone, vibration pickup, bone-conduction microphone, digital acoustic device, telephone system, artificial vocal cord, or the like. It is. Such microphones, vibration pickups, bone-conduction microphones, digital audio equipment, telephone systems, artificial vocal cords, etc. are difficult to output high frequencies due to their insufficient characteristics, but the band expansion device of the present invention is applied to them. Thus, a natural high frequency range can be reproduced, and the degree of hearing can be improved.
また、本発明の請求項7に記載の音声補正装置によれば、第1信号補正手段による有声音補正モードと第2信号補正手段による無声音補正モードとを切り替える補正モード切替手段を備えているので、従来のように有声音だけでなく無声音に対しても疑似気導音声信号を生成することができる。これにより、自然な特性の出力信号を得ることができ、聴認度の向上を図ることができる。 According to the sound correction apparatus of the seventh aspect of the present invention, the sound correction apparatus includes the correction mode switching means for switching between the voiced sound correction mode by the first signal correction means and the unvoiced sound correction mode by the second signal correction means. Thus, it is possible to generate a pseudo air conduction sound signal not only for voiced sound but also for unvoiced sound as in the prior art. As a result, an output signal with natural characteristics can be obtained, and the degree of hearing can be improved.
また、本発明の請求項8に記載の音声補正装置によれば、第1信号補正手段は、音声特性分析手段により分析された音声信号の骨導音声道特性に基づいて、これに対応する気導音声道特性パラメータを記憶手段から読み出し、音声特性分析手段により分析された音声信号の骨導音音源特性と気導音声道特性パラメータとを合成して疑似気導音声信号を生成する。これにより、有声音に対して疑似気導音声信号を容易に且つ精度良く生成することができる。 According to the speech correction apparatus of the present invention, the first signal correction means is adapted to the corresponding voice based on the bone conduction vocal tract characteristic of the voice signal analyzed by the voice characteristic analysis means. The derived vocal tract characteristic parameter is read from the storage means, and the bone conduction sound source characteristic and the air conduction vocal tract characteristic parameter of the voice signal analyzed by the voice characteristic analyzing means are synthesized to generate a pseudo air conduction voice signal. Thereby, a pseudo air conduction sound signal can be easily and accurately generated for voiced sound.
また、本発明の請求項9に記載の音声補正装置によれば、第2信号補正手段は、音声特性分析手段により分析された音声信号の骨導音声道特性に基づいて、これに対応する気導音声道特性パラメータ及び気導音音源特性パラメータを記憶手段から読み出し、この読み出した気導音声道特性パラメータと気導音音源特性パラメータとを合成して疑似気導音声信号を生成する。これにより、無声音に対して疑似気導音声信号を容易に且つ精度良く生成することができる。 According to the sound correcting device of the present invention, the second signal correcting means is based on the bone-conducted vocal tract characteristic of the sound signal analyzed by the sound characteristic analyzing means, and is adapted to this. The guided sound path characteristic parameter and the air conduction sound source characteristic parameter are read from the storage means, and the read air conduction sound path characteristic parameter and the air conduction sound source characteristic parameter are synthesized to generate a pseudo air conduction sound signal. Thereby, a pseudo air conduction sound signal can be easily and accurately generated with respect to an unvoiced sound.
以下、添付図面を参照して、本発明に従う帯域拡張装置及び音声補正装置の各種実施形態について説明する。
[帯域拡張装置の実施形態]
まず、図1〜図4を参照して、帯域拡張装置の一実施形態について説明する。図1は、本発明の一実施形態による帯域拡張装置の構成を示すブロック図であり、図2は、入力信号を時間フレームごとに分割した状態を説明するための図であり、図3は、出力信号の生成過程を説明するための図であり、図4(a)は、高調波スペクトルが加算された原音スペクトルを示すスペクトル図であり、図4(b)は、原音スペクトルのうち例えば一つの原音スペクトル成分を複素平面上で表した図であり、図4(c)は、図4(b)の原音スペクトル成分に対応する一つの高調波スペクトル成分を複素平面上で表した図である。
Hereinafter, various embodiments of a bandwidth expansion device and a sound correction device according to the present invention will be described with reference to the accompanying drawings.
[Embodiment of Bandwidth Expansion Device]
First, an embodiment of a bandwidth expansion device will be described with reference to FIGS. FIG. 1 is a block diagram showing a configuration of a bandwidth extension apparatus according to an embodiment of the present invention, FIG. 2 is a diagram for explaining a state in which an input signal is divided for each time frame, and FIG. FIG. 4A is a diagram for explaining a generation process of an output signal, FIG. 4A is a spectrum diagram showing an original sound spectrum to which a harmonic spectrum is added, and FIG. 4B is an example of one of the original sound spectra. FIG. 4C is a diagram showing one harmonic spectrum component corresponding to the original sound spectrum component of FIG. 4B on the complex plane. .
図1を参照して、図示の帯域拡張装置2は、入力端子4、オーバーサンプリング型ローパスフィルタ(LPF)6、時間フレーム分割部8(時間フレーム分割手段を構成する)、フーリエ変換部10(フーリエ変換手段を構成する)、高調波スペクトル生成部12(高調波スペクトル生成手段を構成する)、高調波スペクトル加算部14(高調波スペクトル加算手段を構成する)、フーリエ逆変換部16(フーリエ逆変換手段を構成する)、出力信号生成部18(出力信号生成手段を構成する)及び出力端子20を含んでいる。
Referring to FIG. 1, the illustrated
入力端子4には、サンプリング周波数8kHzでサンプリングされた時間領域の入力信号が入力される。なお、入力信号は、例えば電話システムにおける音声信号やデジタル音響機器における楽音信号である。
A time domain input signal sampled at a sampling frequency of 8 kHz is input to the
オーバーサンプリング型ローパスフィルタ6は、入力端子4からの入力信号のサンプリング周波数を8kHzから16kHzにオーバーサンプリングするとともに、入力信号の4kHz以上の周波数帯域を減衰させる。
The oversampling low-
時間フレーム分割部8は、ハニング窓を窓関数として、オーバーサンプリング型ローパスフィルタ6より出力された時間領域の入力信号を所定の時間長(例えば16msec)を有する時間フレームごとに分割する(図2参照)。各時間フレームは、その両端部がそれぞれ両側に隣接する時間フレームと重複するようにして分割される。このように分割された各時間フレームより、256個のサンプルがそれぞれ取り出される。
The time
フーリエ変換部10は、時間フレーム分割部8により分割された時間フレームをそれぞれフーリエ変換(短時間フーリエ変換)することにより、周波数領域の原音スペクトルを生成する。本実施形態では、各原音スペクトルの周波数帯域はそれぞれ0〜4kHzとなる。
The
高調波スペクトル生成部12は、原音スペクトル成分抽出部22、高調波スペクトル演算部24及び補間演算部26(補間手段を構成する)を含んでいる。原音スペクトル成分抽出部22は、原音スペクトルの2〜4kHzの周波数帯域より原音スペクトル成分を複数抽出する。高調波スペクトル演算部24は、抽出された原音スペクトル成分に基づいて高調波スペクトル成分を後述するようにして演算し、この演算した高調波スペクトル成分を合成して4〜8kHzの周波数帯域を有する高調波スペクトルを生成する。また、補間演算部26は、後述するようにして高調波スペクトル成分の補間演算を行う。
The harmonic
高調波スペクトル加算部14は、上述のようにして生成された高調波スペクトルを原音スペクトルに加算する。これにより、4〜8kHzの周波数帯域が拡張された原音スペクトルが生成される。
The harmonic
フーリエ逆変換部16は、高調波スペクトルが加算された原音スペクトルをフーリエ逆変換することにより、時間領域の出力信号成分を生成する。
The inverse
出力信号生成手段18は、上述のようにして生成された出力信号成分をそれぞれ加算することにより、時間領域の出力信号を生成する。各出力信号成分は、その両端部がそれぞれ両側に隣接する出力信号成分と重複するようにして加算される。このように生成された出力信号は、出力端子20より外部に出力される。
The output signal generation means 18 generates a time domain output signal by adding the output signal components generated as described above. Each output signal component is added such that both end portions thereof overlap with output signal components adjacent to both sides. The output signal generated in this way is output from the
次に、図3及び図4をも参照して、上述した帯域拡張装置2による出力信号の生成の流れについて説明する。まず、入力端子4より入力された時間領域の入力信号Tin(アナログ信号)は、図示しないA/D変換部にてデジタル信号に変換された後に、オーバーサンプリング型ローパスフィルタ6にてサンプリング周波数が8kHzから16kHzにオーバーサンプリングされるとともに、4kHz以上の周波数帯域が減衰される(図3(a)参照)。次いで、この入力信号は、時間フレーム分割部8にて時間フレームTn(n=1,2,3,・・・)ごとに分割される(図3(b)参照)。各時間フレームTnはそれぞれフーリエ変換部10にてフーリエ変換され、これにより周波数領域の原音スペクトルXnが生成される(図3(c)参照)。各原音スペクトルXnはそれぞれ、0〜4kHzの周波数帯域を有するようになる。
Next, with reference to FIG. 3 and FIG. 4 as well, the flow of generating an output signal by the
その後、高調波スペクトル生成部12にて、原音スペクトルXnに基づいて高調波スペクトルXn’が次のようにして生成される。まず、原音スペクトル成分抽出部22によって、原音スペクトルXnの2〜4kHzの周波数帯域より原音スペクトル成分X(fn)が複数抽出される。原音スペクトル成分X(fn)を数式で表現すると、次式(1)で示すようになる。
Thereafter, the
上述のようにして生成された高調波スペクトルX’nは、高調波スペクトル加算部14によって原音スペクトルXnに加算される(図3(d)参照)。これにより、4〜8kHzの周波数帯域が拡張された原音スペクトルXnが生成される。 The harmonic spectrum X ′ n generated as described above is added to the original sound spectrum X n by the harmonic spectrum adding unit 14 (see FIG. 3D). Thereby, the original sound spectrum Xn in which the frequency band of 4 to 8 kHz is expanded is generated.
高調波スペクトルX’nが加算された原音スペクトルXnはそれぞれ、フーリエ逆変換部16によってフーリエ逆変換され、これにより時間領域の出力信号成分Tn’が生成される(図3(e)参照)。各出力信号成分Tn’はそれぞれ出力信号生成手段18によって加算され、出力信号Toutが生成される(図3(f)参照)。生成された出力信号Toutは、図示しないD/A変換部にてアナログ信号に変換された後に、出力端子より外部に出力される。出力信号Toutの周波数帯域は0〜8kHzとなり、入力信号Tinの周波数帯域0〜4kHzの高域側が拡張されたものとなる。
Harmonic spectrum X 'each n is the addition the original spectrum X n is the inverse Fourier transform by the inverse
本実施形態の帯域拡張装置2では、上述したように原音スペクトル成分の周波数の逓倍(本実施形態では2倍)の周波数を高調波スペクトル成分の周波数として設定するので、出力信号においてスペクトル包絡の高次共振モード(本実施形態では2次共振モード)のピークを再現することができる。それ故に、自然な特性の出力信号を得ることができ、聴認度の向上を図ることができる。
In the
なお、本実施形態の帯域拡張装置2は、種々の用途に適用することができる。例えば、帯域拡張装置2を電話システムに適用した場合には、自然な通話音声を得ることができるようになり、これにより、高齢者などが通話する際の聴認度を向上させることができ、また、他人になりすまして通話することによる犯罪行為(所謂、振り込め詐欺など)を防止することができる。また、帯域拡張装置2を喉頭摘出者向けの人工声帯などに適用した場合には、自然な音声を再現することができる。また、帯域拡張装置2をデジタル音響機器に適用した場合には、自然な再生音質を得ることができる。更に、入力信号を生成する例えばマイクロホンや振動ピックアップ、骨導マイクロホン等は、その特性不足により高音域を出力するのは難しいが、これらに対して本実施形態の帯域拡張装置2を適用することにより、自然な高音域を再現することが容易となる。
Note that the
次に、図5〜図8を参照して、帯域拡張装置の他の実施形態について説明する。図5は、本発明の他の実施形態による帯域拡張装置の構成を示すブロック図であり、図6は、原音スペクトルの包絡線の傾斜を分析する方法を説明するための図であり、図7(a)は、音韻が母音である原音スペクトルを示すスペクトル図であり、図7(b)は、高調波スペクトルが加算された原音スペクトルを示すスペクトル図であり、図8(a)は、音韻が子音である原音スペクトルを示すスペクトル図であり、図8(b)は、高調波スペクトルが加算された原音スペクトルを示すスペクトル図である。なお、本実施形態において、上記実施形態と実質上同一の構成要素には同一の符号を付し、その説明を省略する。 Next, another embodiment of the band extending apparatus will be described with reference to FIGS. FIG. 5 is a block diagram showing a configuration of a band extending apparatus according to another embodiment of the present invention, and FIG. 6 is a diagram for explaining a method of analyzing the slope of the envelope of the original sound spectrum. (A) is a spectrum diagram showing an original sound spectrum whose phoneme is a vowel, FIG. 7 (b) is a spectrum diagram showing an original sound spectrum to which a harmonic spectrum is added, and FIG. 8 (a) is a phoneme. FIG. 8B is a spectrum diagram showing an original sound spectrum to which a harmonic spectrum is added. In the present embodiment, components that are substantially the same as those in the above embodiment are denoted by the same reference numerals, and the description thereof is omitted.
図5を参照して、本実施形態の帯域拡張装置2Aでは、高調波スペクトル生成部12Aは、原音スペクトル分析部28(原音スペクトル分析手段を構成する)及び加重部30(加重手段を構成する)を更に含んでいる。原音スペクトル分析部28は、原音スペクトルの包絡線の傾斜を分析するものである。加重部30は、分析された原音スペクトルの包絡線の傾斜に基づいて、高調波スペクトルに含まれる高調波スペクトル成分の大きさに対して、後述する加重係数で加重を施すものである。以下、これら原音スペクトル分析部28及び加重部30について説明する。
Referring to FIG. 5, in the
原音スペクトル分析部28は、フーリエ変換により生成された原音スペクトルに含まれる原音スペクトル成分の周波数をオクターブ分割するとともに、原音スペクトル成分の大きさを対数化する(図6参照)。そして、最小二乗法による演算を行うことにより、原音スペクトルの包絡線の傾斜αを次式(4)で示す近似直線により分析する。
The original sound
また、図8(a)に示すように、原音スペクトルの音韻が子音であるときには、子音の特性上、原音スペクトルの包絡線の傾斜αは小さくなる。これにより、加重係数Z(α)は小さくなり、図8(b)に示すように、高調波スペクトル成分の大きさは大きくなる。一般に、子音のスペクトルでは、高域側におけるスペクトル成分の減衰が小さくなる特性がある。それ故に、上述のように加重係数Z(α)を大きく設定することによって、子音をよりリアルに復元することができる。 Further, as shown in FIG. 8A, when the phoneme of the original sound spectrum is a consonant, the slope α of the envelope of the original sound spectrum is small due to the characteristics of the consonant. As a result, the weighting coefficient Z (α) decreases, and the harmonic spectrum component increases in size as shown in FIG. In general, the consonant spectrum has a characteristic that the attenuation of the spectrum component on the high frequency side is small. Therefore, the consonant can be restored more realistically by setting the weighting coefficient Z (α) large as described above.
なお、上記各実施形態では、高調波スペクトル演算部24は、原音スペクトル成分X(fn)の周波数fnの2倍の周波数2fnを高調波スペクトル成分X’(2fn)の周波数として設定するように構成したが、3倍の周波数3fnあるいは4倍の周波数4fnでもよく、任意の整数mによる逓倍の周波数mfnを高調波スペクトル成分X’(mfn)の周波数として設定することができる。これに対応して、高調波スペクトル演算部24は、原音スペクトル成分X(fn)の位相角θnの任意の整数mによる逓倍の位相角mθnを高調波スペクトル成分X’(mfn)の位相角として設定することができる。
In each of the above embodiments, the harmonic
また、上記各実施形態において、例えば、原音スペクトル成分X(fn)の周波数fnの2倍の周波数2fnを有する第1高調波スペクトル成分X’(2fn)と、原音スペクトル成分X(fn)の周波数fnの3倍の周波数3fnを有する第2高調波スペクトル成分X’(3fn)と、を生成し、これら第1及び第2高調波スペクトル成分X’(2fn)、X’(3fn)をそれぞれ合成して得られる第1及び第2高調波スペクトルを原音スペクトルに加算するように構成してもよい。
[音声補正装置の実施形態]
次に、図9〜図12を参照して、音声補正装置の一実施形態について説明する。図9は、本発明の一実施形態による音声補正装置の構成を示すブロック図であり、図10は、パラメータ記憶部に記憶された各パラメータの対応関係を示す図であり、図11は、気導音声道特性パラメータを作成するためのパラメータ作成装置の構成を示すブロック図であり、図12は、骨導音声道特性パラメータ及び気導音音源特性パラメータを作成するためのパラメータ作成装置を示すブロック図である。
In each of the above embodiments, for example, the first harmonic spectral component X having twice the frequency 2f n frequency f n of the original spectral components X (f n) '(2f n), original spectral components X ( and a second harmonic spectral component X ′ (3f n ) having a frequency 3f n that is three times the frequency f n of f n ), and these first and second harmonic spectral components X ′ (2f n ) , X ′ (3f n ) may be configured to add the first and second harmonic spectra obtained by synthesis to the original sound spectrum.
[Sound correction device embodiment]
Next, an embodiment of a sound correction apparatus will be described with reference to FIGS. FIG. 9 is a block diagram showing the configuration of the sound correction apparatus according to an embodiment of the present invention, FIG. 10 is a diagram showing the correspondence between parameters stored in the parameter storage unit, and FIG. FIG. 12 is a block diagram showing a configuration of a parameter creation apparatus for creating a guided sound path characteristic parameter, and FIG. 12 is a block diagram showing a parameter creation apparatus for creating a bone-conducted sound path characteristic parameter and an air-conducted sound source characteristic parameter. FIG.
図9を参照して、本実施形態の音声補正装置32は、骨導マイクロホン34、ローパスフィルタ(LPF)36、A/D変換部38、時間フレーム分割部40(時間フレーム分割手段を構成する)、LPC分析部42(音声特性分析手段及び音声性質判別手段を構成する)、補正モード切替部44(補正モード切替手段を構成する)、第1LPC合成部46(第1信号補正手段を構成する)、第2LPC合成部48(第1信号補正手段を構成する)、パラメータ記憶部50(パラメータ記憶手段を構成する)、平滑化部52(出力信号生成手段を構成する)、D/A変換部54、ローパスフィルタ56及び出力端子60を含んでいる。
Referring to FIG. 9, the
骨導マイクロホン34は、顔の部位、例えば額や顎、頬、耳穴等に装着され、骨や皮膚に伝達される発声者の声帯振動を収録するものである。ローパスフィルタ36は、骨導マイクロホン34からの音声信号の所定の周波数(例えば8kHz)以上の周波数帯域を減衰させる。A/D変換部38は、音声信号をアナログ信号からデジタル信号に変換する。
The bone-
時間フレーム分割部40は、ハニング窓を窓関数として、時間領域の音声信号を所定の時間長(例えば16msec)を有する時間フレームごとに分割する。各時間フレームは、その両端部がそれぞれ両側に隣接する時間フレームと重複するようにして分割される。
The time
LPC分析部42は、各時間フレームにおける音声信号に対して線形予測分析(LPC)を行い、音声信号の音声特性を分析する。この分析によって、音声信号が骨導音音源特性と骨導音声道特性とに分離される。分析された骨導音音源特性は、第1LPC合成部46に出力され、また分析された骨導音声道特性は、補正モード切替部44を介して第1LPC合成部46又は第2LPC合成部48に出力される。
The LPC analysis unit 42 performs linear prediction analysis (LPC) on the audio signal in each time frame, and analyzes the audio characteristics of the audio signal. By this analysis, the audio signal is separated into the bone-conducted sound source characteristic and the bone-conducted vocal tract characteristic. The analyzed bone conduction sound source characteristic is output to the first
また、LPC分析部42は、分析された骨導音音源特性に基づいて、音声信号の音声性質を判別する。LPC分析部42は、骨導音音源特性にピッチ成分(即ち、有声音の音源特性を示すパルス列)が検出されたときには、音声信号が有声音であると判別し、また骨導音音源特性にピッチ成分が検出されないときには、音声信号が無声音であると判別する。 Moreover, the LPC analysis part 42 discriminate | determines the audio | voice property of an audio | voice signal based on the analyzed bone-conduction sound source characteristic. When a pitch component (that is, a pulse train indicating the voiced sound source characteristic) is detected in the bone-conducted sound source characteristic, the LPC analysis unit 42 determines that the audio signal is a voiced sound, and also determines the bone-conducted sound source characteristic. When the pitch component is not detected, it is determined that the audio signal is an unvoiced sound.
補正モード切替部44は、LPC分析部42による音声信号の音声性質の判別結果に基づいて、骨導音声道特性の出力先を切り替えるためのスイッチである。補正モード切替部44は、LPC分析部42により音声信号が有声音であると判別されると、骨導音声道特性の出力先を第1LPC合成部46に切り替える。これにより、第1LPC合成部46により音声信号の補正が行われる有声音補正モードとなる。また、補正モード切替部44は、LPC分析部42により音声信号が無声音であると判別されると、骨導音声道特性の出力先を第2LPC合成部48に切り替える。これにより、第2LPC合成部48により音声信号の補正が行われる無声音補正モードとなる。
The correction
パラメータ記憶部50には、骨導音声道特性パラメータ、気導音声道特性パラメータ及び気導音音源特性パラメータを一組のパラメータグループとして、複数組(例えば40組)のパラメータグループが記憶されている(図10参照)。これら各パラメータは、予め後述するパラメータ作成装置62,76によって作成され、パラメータ記憶部50に記憶される。各パラメータの作成方法については後述する。
The
第1LPC合成部46は、LPC分析部42より出力された骨導音音源特性とパラメータ記憶部50に記憶された気導音声道特性パラメータとをLPC合成(即ち、線形予測法による合成)することにより、疑似気導音声信号を生成する。また、第2LPC合成部48は、パラメータ記憶部50に記憶された気導音音源特性パラメータと気導音声道特性パラメータとをLPC合成することにより、疑似気導音声信号を生成する。これら第1LPC合成部46及び第2LPC合成部48による疑似気導音声信号の生成方法については後述する。
The first
平滑化部52は、第1LPC合成部46又は第2LPC合成部48により生成された疑似気導音声信号をそれぞれ加算するとともに平滑化処理を行うことにより、出力信号を生成する。なお、平滑化処理としては、例えばハニング窓を窓関数として、信号の接合部の振幅値を零に近似した値とする方法が用いられる。D/A変換部54は、生成された出力信号をデジタル信号からアナログ信号に変換する。ローパスフィルタ56は、アナログ信号に変換された出力信号の所定の周波数(例えば8kHz)以上の周波数帯域を減衰させる。このように生成された出力信号は、出力端子60より外部に出力される。
The smoothing
次に、上述した音声補正装置32による音声信号の補正の流れについて説明する。まず、骨導マイクロホン34を装着した発声者が発声すると、骨導マイクロホン34より音声信号が出力される。骨導マイクロホン34からの音声信号(アナログ信号)は、ローパスフィルタ36にて所定の周波数以上の周波数帯域が減衰される。次いで、この音声信号は、A/D変換部38にてデジタル信号に変換された後に、時間フレーム分割部40にて時間フレームごとに分割される。
Next, the flow of audio signal correction by the
各時間フレームにおける音声信号はそれぞれ、LPC分析部42にて骨導音音源特性と骨導音声道特性とに分離される。また、LPC分析部42にて、分析された骨導音音源特性に基づいて、各時間フレームにおける音声信号が有声音であるか無声音であるかが判別される。 The audio signal in each time frame is separated into a bone-conducted sound source characteristic and a bone-conducted vocal tract characteristic by the LPC analyzer 42. Further, the LPC analysis unit 42 determines whether the sound signal in each time frame is a voiced sound or an unvoiced sound based on the analyzed bone conduction sound source characteristics.
時間フレームにおける音声信号が有声音であると判別されたときには、補正モード切替部44によって有声音補正モードに切り替えられる。この有声音補正モードにおいては、LPC分析部42により分析された骨導音音源特性及び骨導音声道特性はそれぞれ、第1LPC合成部46に出力される。第1LPC合成部46においては、LPC分析部42より出力された骨導音声道特性に最も近い特性を有する骨導音声道特性パラメータ(例えばb1)がパラメータ記憶部50より選択され、この選択された骨導音声道特性パラメータに対応する気導音声道特性パラメータ(例えばa1)がパラメータ記憶部50より読み出される。この読み出された気導音声道特性パラメータと骨導音音源特性とがLPC合成されることにより、疑似気導音声信号が生成される。
When it is determined that the audio signal in the time frame is a voiced sound, the correction
また、時間フレームにおける音声信号が無声音であると判別されたときには、補正モード切替部44によって無声音補正モードに切り替えられる。この無声音補正モードにおいては、LPC分析部42により分析された骨導音声道特性は、補正モード切替部44を介して第2LPC合成部48に出力される。第2LPC合成部48においては、LPC分析部42より出力された骨導音声道特性に最も近い特性を有する骨導音声道特性パラメータ(例えばb2)がパラメータ記憶部50より選択され、この選択された骨導音声道特性パラメータに対応する気導音音源特性パラメータ(例えばav2)及び気導音声道特性パラメータ(例えばa2)がパラメータ記憶部50より読み出される。この読み出された気導音音源特性パラメータと気導音声道特性とがLPC合成されることにより、疑似気導音声信号が生成される。
When it is determined that the audio signal in the time frame is an unvoiced sound, the correction
上述のようにして生成された各疑似気導音声信号はそれぞれ、平滑化部52にて加算されるとともに平滑化され、これにより出力信号が生成される。生成された出力信号は、D/A変換部54にてアナログ信号に変換された後に、ローパスフィルタ56で所定の周波数以上の周波数帯域が減衰され、出力端子60より外部に出力される。
Each of the pseudo air conduction sound signals generated as described above is added and smoothed by the smoothing
なお、パラメータ記憶手段50に記憶された骨導音声道特性パラメータ、気導音声道特性パラメータ及び気導音音源特性パラメータはそれぞれ、例えば次のようにして作成される。まず、気導音声道特性パラメータの作成方法について説明する。気導音声道特性パラメータの作成には、図11に示すようなパラメータ作成装置62が用いられる。このパラメータ作成装置62は、気導マイクロホン64、ローパスフィルタ66、A/D変換部68、時間フレーム分割部70、LPC分析部72及び代表値選出部74を含んでいる。
Note that the bone-conducted vocal tract characteristic parameter, the air-conducted vocal tract characteristic parameter, and the air-conducted sound source characteristic parameter stored in the
気導マイクロホン64は、空気伝搬する発声者の肉声の音声信号を収録するものであり、所謂一般的なマイクロホンである。ローパスフィルタ66、A/D変換部68及び時間フレーム分割部70はそれぞれ、上述した音声補正装置32のものとほぼ同様の機能を有するものである。
The
LPC分析部72は、時間フレーム分割部70により分割された各時間フレームにおける音声信号に対して線形予測分析を行い、音声信号の気導音声道特性を分析する。代表値選出部74は、LPC分析部72により分析された複数の気導音声道特性より後述するようにして代表値を選出し、この代表値を気導音声道特性パラメータとして設定する。
The
気導音声道特性パラメータの作成の流れについて説明すると、次の通りである。まず、発声者が、音声信号としてあらゆる特徴が表出した語彙や文章、例えば100個の日本都市名等を発声する。発声された音声は、気導マイクロホン64に入力される。気導マイクロホン64からの音声信号は、ローパスフィルタ66及びA/D変換部68を介してデジタル信号に変換される。その後、この音声信号は、時間フレーム分割部70にて時間フレームごとに分割され、LPC分析部72に出力される。LPC分析部72では、各時間フレームにおける音声信号に対して線形予測分析が行われ、音声信号の気導音声道特性が分析される。この分析された気導音声道特性は、複数の特性グループのいずれかに分類される。これら複数の特性グループは、性質の似ている気導音声道特性を分類するためのであり、各特性グループには、性質の似ている気導音声道特性が複数属するようになる。代表値選出部では、各特性グループより一つの気導音声道特性を代表値として選出する。この選出された代表値は、気導音声道特性パラメータとして設定され、パラメータ記憶部50に記憶される。
The flow of creating the air conduction vocal tract characteristic parameters is as follows. First, a speaker speaks a vocabulary or a sentence in which all features are expressed as an audio signal, such as 100 Japanese city names. The uttered voice is input to the
次に、骨導音声道特性パラメータ及び気導音音源特性パラメータの作成方法について説明する。骨導音声道特性パラメータ及び気導音音源特性パラメータの作成には、図12に示すようなパラメータ作成装置76が用いられる。このパラメータ作成装置76は、骨導マイクロホン78、ローパスフィルタ80、A/D変換部82、時間フレーム分割部84、LPC分析部86、気導マイクロホン88、ローパスフィルタ90、A/D変換部92、時間フレーム分割部94、LPC分析部96、パラメータ割当部98及び平均化部100を含んでいる。
Next, a method for creating a bone-conducted vocal tract characteristic parameter and an air-conducted sound source characteristic parameter will be described. A
ローパスフィルタ80,90、A/D変換部82,92及び時間フレーム分割部84,94はそれぞれ、上述した音声補正装置32のものとほぼ同様の機能を有するものである。LPC分析部86は、時間フレーム分割部84により分割された各時間フレームにおける音声信号に対して線形予測分析を行い、音声信号の骨導音声道特性を分析する。また、LPC分析部96は、時間フレーム分割部94により分割された各時間フレームにおける音声信号に対して線形予測分析を行い、音声信号の気導音声道特性及び気導音音源特性を分析する。パラメータ割当部98は、後述するようにして骨導音声道特性パラメータ、気導音声道特性パラメータ及び気導音音源特性パラメータから構成されるパラメータグループを複数組作成する。平均化部100は、複数組のパラメータグループのうち、重複したパラメータがある場合には平均化処理を行う。
The low-
骨導音声道特性パラメータ及び気導音音源特性パラメータの作成の流れについて説明すると、次の通りである。まず、上述したのと同様に、発声者が、音声信号としてあらゆる特徴が表出した語彙や文章、例えば100個の日本都市名等を発声する。発声された音声は、骨導マイクロホン78及び気導マイクロホン88に同時に入力される。骨導マイクロホン78からの音声信号は、ローパスフィルタ80及びA/D変換部82を介してデジタル信号に変換される。その後、この音声信号は、時間フレーム分割部84にて時間フレームごとに分割され、LPC分析部86に出力される。LPC分析部86では、各時間フレームにおける音声信号に対して線形予測分析を行い、音声信号の骨導音声道特性を分析する。
The flow of creating the bone-conducted vocal tract characteristic parameter and the air-conducted sound source characteristic parameter will be described as follows. First, in the same manner as described above, a speaker speaks a vocabulary or a sentence in which all features are expressed as an audio signal, for example, 100 Japanese city names. The uttered voice is input to the
また、気導マイクロホン88からの音声信号は、ローパスフィルタ90及びA/D変換部92を介してデジタル信号に変換される。その後、この音声信号は、時間フレーム分割部94にて時間フレームごとに分割され、LPC分析部96に出力される。LPC分析部96では、各時間フレームにおける音声信号に対して線形予測分析を行い、音声信号の気導音声道特性及び気導音音源特性を分析する。
The audio signal from the
パラメータ割当部98では、上述のようにして作成された気導音声道特性パラメータと、各時間フレームにおける気導音声道特性とが照合され、時間フレーム(例えばT1)における気導音声道特性と最も特性の近い気導音声道特性パラメータ(例えばa1)が選び出される。次いで、パラメータ割当部98では、同じ時間フレーム(例えばT1)で分析された骨導音声道特性及び気導音音源特性に対して、上述のようにして選び出された気導音声道特性パラメータ(例えばa1)と同じパラメータ番号(即ち、例えばanにおける番号「n」)を有する骨導音声道特性パラメータ(例えばb1)及び気導音音源特性パラメータ(例えばav1)がそれぞれ割り当てられる。このように時間フレームごとの骨導音声道特性及び気導音音源特性に対してそれぞれ気導音声道特性パラメータのパラメータ番号が割り当てられることにより、骨導音声道特性パラメータ及び気導音音源特性パラメータから構成されるパラメータグループが複数組作成される。
In the
なお、このような処理を全時間フレームに渡って行うと、例えば、骨導音声道特性パラメータb1及び気導音音源特性パラメータav1がそれぞれ複数個現れる場合がある。このような場合には、平均化部100にて複数個の骨導音声道特性パラメータb1及び複数個の気導音音源特性パラメータav1がそれぞれ平均化処理されることにより、骨導音声道特性パラメータb1及び気導音音源特性パラメータav1がそれぞれ1個ずつ作成される。以上のようにして、各気導音声道特性パラメータに対応付けられた骨導音声道特性パラメータ及び気導音音源特性パラメータがそれぞれパラメータ記憶部50に記憶される(図10参照)。
If such processing is performed over the entire time frame, for example, a plurality of bone-conducted vocal tract characteristic parameters b 1 and air-conducted sound source characteristic parameters av 1 may appear. In such a case, a plurality of bone-conducted vocal tract characteristic parameters b 1 and a plurality of air-conducted sound source characteristic parameters av 1 are averaged by the averaging
以上、本発明に従う帯域拡張装置及び音声補正装置の各種実施形態について説明したが、本発明はかかる実施形態に限定されるものではなく、本発明の範囲を逸脱することなく種々の変形乃至修正が可能である。 Although various embodiments of the band extending apparatus and the sound correcting apparatus according to the present invention have been described above, the present invention is not limited to such embodiments, and various modifications or corrections can be made without departing from the scope of the present invention. Is possible.
2,2A 帯域拡張装置
8,40 時間フレーム分割部
10 フーリエ変換部
12,12A 高調波スペクトル生成部
14 高調波スペクトル加算部
16 フーリエ逆変換部
18 出力信号生成部
26 補間演算部
28 原音スペクトル分析部
30 加重部
32 音声補正装置
34 骨導マイクロホン
42 LPC分析部
44 補正モード切替部
46 第1LPC合成部
48 第2LPC合成部
50 パラメータ記憶部
52 平滑化部
2,2A
Claims (9)
時間領域の入力信号を時間フレームごとに分割する時間フレーム分割手段と、前記時間フレームをフーリエ変換して周波数領域の原音スペクトルを生成するフーリエ変換手段と、前記原音スペクトルに基づいて高調波スペクトルを生成する高調波スペクトル生成手段と、前記高調波スペクトルを前記原音スペクトルに加算する高調波スペクトル加算手段と、前記高調波スペクトルが加算された前記原音スペクトルをフーリエ逆変換して時間領域の出力信号成分を生成するフーリエ逆変換手段と、前記出力信号成分をそれぞれ加算して周波数帯域が拡張された出力信号を生成する出力信号生成手段と、を備え、
前記高調波スペクトル生成手段は、前記原音スペクトルに含まれる原音スペクトル成分の周波数を算出し、この算出した周波数の逓倍の周波数を前記高調波スペクトルに含まれる高調波スペクトル成分の周波数として設定することを特徴とする帯域拡張装置。 A band extending device for extending the frequency band of an input signal,
Time frame dividing means for dividing the time domain input signal into time frames; Fourier transform means for generating a frequency domain original sound spectrum by Fourier transforming the time frame; and generating a harmonic spectrum based on the original sound spectrum A harmonic spectrum generating means for adding the harmonic spectrum to the original sound spectrum, and inverse Fourier transforming the original sound spectrum to which the harmonic spectrum has been added to obtain an output signal component in the time domain. An inverse Fourier transform means for generating, and an output signal generation means for adding an output signal component to generate an output signal with an expanded frequency band.
The harmonic spectrum generation means calculates the frequency of the original sound spectrum component included in the original sound spectrum, and sets the frequency multiplied by the calculated frequency as the frequency of the harmonic spectrum component included in the harmonic spectrum. A bandwidth extension device.
前記第1信号補正手段は、前記音声特性分析手段により分析された音声信号の骨導音声道特性に基づいて、これに対応する前記気導音声道特性パラメータを前記記憶手段から読み出し、前記音声特性分析手段により分析された音声信号の骨導音音源特性と前記気導音声道特性パラメータとを合成して疑似気導音声信号を生成することを特徴とする請求項7に記載の音声補正装置。 The apparatus further comprises parameter storage means for storing a bone-conducted vocal tract characteristic parameter, an air-conducted vocal tract characteristic parameter, and an air-conducted sound source characteristic parameter. And configured to analyze bone-conducted vocal tract characteristics,
The first signal correction means reads out the air conduction vocal tract characteristic parameter corresponding to the bone conduction vocal tract characteristic of the sound signal analyzed by the sound characteristic analysis means from the storage means, and the sound characteristic 8. The speech correction apparatus according to claim 7, wherein a pseudo air conduction sound signal is generated by synthesizing the bone conduction sound source characteristic of the sound signal analyzed by the analysis means and the air conduction sound path characteristic parameter.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011071837A JP2012208177A (en) | 2011-03-29 | 2011-03-29 | Band extension device and sound correction device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011071837A JP2012208177A (en) | 2011-03-29 | 2011-03-29 | Band extension device and sound correction device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012208177A true JP2012208177A (en) | 2012-10-25 |
Family
ID=47188006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011071837A Withdrawn JP2012208177A (en) | 2011-03-29 | 2011-03-29 | Band extension device and sound correction device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012208177A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101465061B1 (en) | 2014-08-01 | 2014-11-28 | 대한민국 | Recovery Device for Damaged Audio Files and Method Thereof |
JP2016002246A (en) * | 2014-06-17 | 2016-01-12 | 株式会社電制 | Electric type artificial larynx |
US10068580B2 (en) | 2016-01-06 | 2018-09-04 | JVC Kenwood Corporation | Band expander, reception device, band expanding method for expanding signal band |
JP2019516304A (en) * | 2016-04-19 | 2019-06-13 | オルフェオ サウンドワークス コーポレーション | Earset timbre compensator and method |
EP3188508B1 (en) | 2015-12-30 | 2020-03-11 | GN Hearing A/S | Method and device for streaming communication between hearing devices |
-
2011
- 2011-03-29 JP JP2011071837A patent/JP2012208177A/en not_active Withdrawn
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016002246A (en) * | 2014-06-17 | 2016-01-12 | 株式会社電制 | Electric type artificial larynx |
KR101465061B1 (en) | 2014-08-01 | 2014-11-28 | 대한민국 | Recovery Device for Damaged Audio Files and Method Thereof |
EP3188508B1 (en) | 2015-12-30 | 2020-03-11 | GN Hearing A/S | Method and device for streaming communication between hearing devices |
EP3188508B2 (en) † | 2015-12-30 | 2024-01-10 | GN Advanced Hearing Protection A/S | Method and device for streaming communication between hearing devices |
US10068580B2 (en) | 2016-01-06 | 2018-09-04 | JVC Kenwood Corporation | Band expander, reception device, band expanding method for expanding signal band |
JP2019516304A (en) * | 2016-04-19 | 2019-06-13 | オルフェオ サウンドワークス コーポレーション | Earset timbre compensator and method |
US10638225B2 (en) * | 2016-04-19 | 2020-04-28 | Orfeo Soundworks Corporation | Tone compensation device and method for earset |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4705203B2 (en) | Voice quality conversion device, pitch conversion device, and voice quality conversion method | |
RU2487426C2 (en) | Apparatus and method for converting audio signal into parametric representation, apparatus and method for modifying parametric representation, apparatus and method for synthensising parametrick representation of audio signal | |
JP4286510B2 (en) | Acoustic signal processing apparatus and method | |
JP5275612B2 (en) | Periodic signal processing method, periodic signal conversion method, periodic signal processing apparatus, and periodic signal analysis method | |
JP5127754B2 (en) | Signal processing device | |
JP4818335B2 (en) | Signal band expander | |
JPH1097287A (en) | Period signal converting method, sound converting method, and signal analyzing method | |
JP4516157B2 (en) | Speech analysis device, speech analysis / synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program | |
JP5148414B2 (en) | Signal band expander | |
JP2012208177A (en) | Band extension device and sound correction device | |
JP2009223210A (en) | Signal band spreading device and signal band spreading method | |
JP5443547B2 (en) | Signal processing device | |
JP4654621B2 (en) | Voice processing apparatus and program | |
KR101850693B1 (en) | Apparatus and method for extending bandwidth of earset with in-ear microphone | |
JP3306784B2 (en) | Bone conduction microphone output signal reproduction device | |
JP5219499B2 (en) | Wind noise reduction device | |
US9865276B2 (en) | Voice processing method and apparatus, and recording medium therefor | |
JP2008072600A (en) | Acoustic signal processing apparatus, acoustic signal processing program, and acoustic signal processing method | |
JPH08305396A (en) | Device and method for expanding voice band | |
JP2002175099A (en) | Method and device for noise suppression | |
JP6232710B2 (en) | Sound recording device | |
JP5211437B2 (en) | Voice processing apparatus and program | |
JP5679451B2 (en) | Speech processing apparatus and program thereof | |
JP3869823B2 (en) | Equalizer for frequency characteristics of speech | |
JP2004258422A (en) | Method and device for sound source separation/extraction using sound source information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20140603 |