JP5046233B2 - Speech enhancement processor - Google Patents

Speech enhancement processor Download PDF

Info

Publication number
JP5046233B2
JP5046233B2 JP2007265290A JP2007265290A JP5046233B2 JP 5046233 B2 JP5046233 B2 JP 5046233B2 JP 2007265290 A JP2007265290 A JP 2007265290A JP 2007265290 A JP2007265290 A JP 2007265290A JP 5046233 B2 JP5046233 B2 JP 5046233B2
Authority
JP
Japan
Prior art keywords
band
input
signal
unit
calculation unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007265290A
Other languages
Japanese (ja)
Other versions
JP2008186010A (en
Inventor
祥好 中島
和夫 上田
君男 白石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyushu University NUC
Original Assignee
Kyushu University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyushu University NUC filed Critical Kyushu University NUC
Priority to JP2007265290A priority Critical patent/JP5046233B2/en
Priority to PCT/JP2007/075251 priority patent/WO2008081920A1/en
Publication of JP2008186010A publication Critical patent/JP2008186010A/en
Application granted granted Critical
Publication of JP5046233B2 publication Critical patent/JP5046233B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Description

本発明は、公共放送装置、拡声装置、補聴器、電話機などで、入力音声の高周波数成分を低周波数域に圧縮し、明瞭で自然な音声を提供するための音声強調処理装置に関する。   The present invention relates to a speech enhancement processing device for compressing a high frequency component of input speech to a low frequency range and providing clear and natural speech in a public broadcasting device, a loudspeaker, a hearing aid, a telephone, and the like.

人間の聴覚は、加齢とともに高周波数域の聴力から徐々に低下していくことが知られている。これは内耳の機能低下に起因する難聴であり、一般に感音性難聴と呼ばれ、その中でも特に加齢によるものは老人性難聴と呼ばれる。老人性難聴では、加齢とともに聴力が低下し始める周波数が下がっていくことが統計的にも証明されている。   It is known that human hearing gradually decreases from hearing in a high frequency range with aging. This is a deafness caused by a decrease in the function of the inner ear, and is generally referred to as sound-sensitive deafness. Among them, those caused by aging are particularly referred to as senile deafness. In senile deafness, it has been statistically proven that the frequency at which hearing begins to decline with age is decreasing.

また、老人性難聴ではない感音性難聴においても、その多くで高周波数帯域の聴力低下が認められる。高齢者、難聴者など、聞こえに悩む人々の大部分は高周波数帯域の聴力低下に悩んでいると言っても過言ではない。   In many cases, a decrease in hearing ability in a high frequency band is also observed in sensorineural hearing loss that is not senile deafness. It is no exaggeration to say that the majority of people who suffer from hearing problems, such as the elderly and hearing-impaired, suffer from hearing loss in the high frequency band.

一方、人間の音声の子音部分には高周波数成分が多く含まれるので、高周波数域の聴力が低下すると、子音部の聞き取り及び弁別能力が低下し、音声の内容の正確な理解が困難になり、ひいては音声コミュニケーションに多大なる障害をもたらす。   On the other hand, since the consonant part of human speech contains many high-frequency components, if the hearing ability in the high frequency range decreases, the ability to hear and discriminate the consonant part decreases, making it difficult to accurately understand the content of the speech. As a result, it causes a great obstacle to voice communication.

現在市販されている補聴器の多くは、入力音の高周波数成分のみを増幅する機能(高域強調)を有しているが、感音性難聴の場合は単なる聴力低下に留まらず、高周波数域の周波数分解能の低下やリクルートメント現象(低いレベルの音は聞こえないが、高いレベルの音は一般人と同じようにうるさく感じる現象)などを示す場合が多く、単なる高域強調では満足な補聴効果が得られない場合が多い。   Many of the hearing aids currently on the market have the function to amplify only the high frequency components of the input sound (high frequency emphasis). In many cases, it shows a decrease in frequency resolution and recruitment phenomenon (a phenomenon in which a low level sound cannot be heard but a high level sound feels noisy like ordinary people). In many cases, it cannot be obtained.

近年のディジタル補聴器の多くには、リクルートメント現象を補償するためにノンリニア増幅と呼ばれる機能が搭載されている。これは、低レベルの入力音は増幅し、高レベル音は増幅しない機能であり、補聴器の音の快適性という観点では多くの高齢者、難聴者に支持されている機能である。   Many digital hearing aids in recent years are equipped with a function called nonlinear amplification to compensate for the recruitment phenomenon. This is a function that amplifies low-level input sounds and does not amplify high-level sounds, and is a function that is supported by many elderly people and hearing-impaired people from the viewpoint of the comfort of hearing aid sounds.

特許文献1には、高周波数域の聴力が低下した難聴者のために、音声を周波数スペクトル包絡、音源周波数および音源振幅に関する特徴パラメータに変換する手段と、この特徴パラメータを数値変換した後、パーコール合成する手段を備え、周波数スペクトル包絡が低周波数帯域に圧縮された音声を合成出力することを特徴とする補聴器に関する記載がある。   Patent Document 1 discloses a means for converting speech into a characteristic parameter related to frequency spectrum envelope, sound source frequency and sound source amplitude for a hearing impaired person whose hearing in the high frequency range has decreased, There is a description of a hearing aid characterized in that it comprises means for synthesizing and synthesizes and outputs a sound whose frequency spectrum envelope is compressed to a low frequency band.

また、高周波数域の聴力が低下していても、見た目の格好悪さや経済的な問題などで、このような補聴器を使用していない高齢者、難聴者が数多く存在する。これら補聴器を使用していない高齢者や難聴者にとって、駅構内など多くの騒音が混在する環境において、アナウンス等の音声を聞き取ることには非常な困難が伴うことは想像に難くない。   In addition, even if hearing in the high frequency range is reduced, there are many elderly people and hearing-impaired people who do not use such hearing aids due to their appearance and economic problems. It is not difficult for an elderly person or a hearing-impaired person who does not use these hearing aids to hear a sound such as an announcement in an environment where there is a lot of noise such as in a station.

一方、電話においては、通信データ量を低減するために伝送周波数帯域を300〜3400Hzに制限されている。これは、電話での通話においては、一般ユーザーも高周波数域の情報がカットされた音声を聴取しているということであって、すなわち、一般ユーザーも高周波数域の聴力が低下した難聴者と同様の状態で音声を聴取しているということである。実際に現在の市販の電話機においては、高齢者や難聴者でなくとも、音声の内容の正確な理解が困難になるケースが少なくないという現状がある。
特開昭57−178499
On the other hand, in a telephone, the transmission frequency band is limited to 300 to 3400 Hz in order to reduce the amount of communication data. This means that in a telephone call, a general user also listens to a sound in which information in the high frequency range is cut, that is, the general user also has a hearing impaired person whose hearing in the high frequency range has decreased. It means that the user is listening to the sound in the same state. Actually, in the current commercially available telephones, there are not a few cases where it is difficult to accurately understand the contents of voice even if the elderly or the deaf.
JP-A-57-178499

高周波数域の聴力が低下した高齢者、難聴者に対して、単に音声レベルを増幅しただけでは、聴力が正常な低周波数域の成分が過度に聞こえてしまって、うるさく感じるだけである。また、高域強調やノンリニア増幅を行っても、周波数分解能等の他の要因によって、やはり十分な補聴効果が得られない場合が多い事が知られている。   For the elderly and hearing-impaired people whose hearing in the high frequency range has been reduced, simply amplifying the sound level will cause the low frequency range component with normal hearing to be excessively heard and feel noisy. Further, it is known that even if high-frequency emphasis or nonlinear amplification is performed, sufficient hearing aid effects are often not obtained due to other factors such as frequency resolution.

特許文献1には、高周波数域の聴力が低下した難聴者のための周波数圧縮方式に関する記載があるが、この方式は音声の調波構造も圧縮してしまうので、音声の自然性を損なってしまい、高齢者や軽度難聴者には使い難いという問題があった。   Patent Document 1 describes a frequency compression method for a hearing-impaired person whose hearing in the high frequency range has decreased. However, this method also compresses the harmonic structure of the sound, so that the naturalness of the sound is impaired. Therefore, there was a problem that it was difficult to use for elderly people and those with mild hearing loss.

また、駅構内などの多くの騒音が混在する環境においては、補聴器を使用していない高齢者や難聴者のために、アナウンス音声に高域強調やノンリニア増幅を施すという方法が考えられるが、難聴者の聴覚特性は個人ごとに様々であり、このような補聴器用の音声信号処理方式を一律に適用するのは困難であった。   Also, in an environment where a lot of noise is mixed, such as in a station premises, high frequency emphasis or non-linear amplification may be applied to the announcement speech for elderly people who are not using hearing aids or for hearing-impaired people. A person's auditory characteristics vary from person to person, and it has been difficult to uniformly apply such an audio signal processing method for a hearing aid.

さらに、電話機においては、通信コストやインフラ整備の観点から鑑みるに、その伝送周波数帯域を拡大する事は現実的に困難であるが、現状の狭い伝送周波数帯域の中で、明瞭性が高く、自然で高品質な音声通話を実現するのは困難であった。   Furthermore, in the case of telephones, it is practically difficult to expand the transmission frequency band from the viewpoint of communication costs and infrastructure development, but in the current narrow transmission frequency band, it is highly clear and natural. It was difficult to realize a high quality voice call.

上記の課題を解決するために、本発明は、公共放送装置、拡声装置、補聴器、電話機などで、明瞭で自然な音声を提供するための音声強調処理装置に関して、以下の構成とした。   In order to solve the above-described problems, the present invention has the following configuration regarding a speech enhancement processing device for providing clear and natural speech in a public broadcasting device, a loudspeaker, a hearing aid, a telephone, and the like.

入力帯域制限部と入力帯域内パワー算出部と調波性符号算出部と帯域内信号乗算部と出力信号制限部と信号加算部から成り、前記入力帯域制限部は、前記入力信号の所定の周波数成分をそのまま通過させる第1の帯域フィルタを有し、入力帯域内パワー算出部は、下限周波数が前記第1の帯域フィルタの上限周波数以上の周波数値に設定され、前記入力信号を通過させる第2の帯域フィルタと、前記第2の帯域フィルタの出力信号のパワーエンベロープ信号を抽出するパワーエンベロープ抽出部から構成され、前記調波性符号算出部は、任意の通過周波数帯域を有し、前記入力信号を通過させる調波性抽出フィルタと、前記調波性抽出フィルタの出力信号の符号を抽出する符号抽出部から構成され、前記帯域内信号乗算部は、前記入力帯域内パワー算出部と前記調波性符号算出部の出力信号を乗算する機能を有し、前記出力信号制限部は、前記入力信号の周波数成分が圧縮される周波数帯域を通過周波数帯域とする圧縮帯域フィルタから構成され、前記信号加算部は、前記入力帯域制限部の出力と前記出力信号制限部の出力を加算する機能を有することを特徴とする構成とした。これにより、入力音声の子音等の高周波数成分を低周波数域に圧縮した上で、明瞭で自然な音声を提供することができる。   An input band limiting unit, an input band power calculating unit, a harmonic code calculating unit, an in-band signal multiplying unit, an output signal limiting unit, and a signal adding unit, wherein the input band limiting unit has a predetermined frequency of the input signal. A first band-pass filter that passes the component as it is, and an input in-band power calculation unit that sets a lower limit frequency to a frequency value equal to or higher than an upper limit frequency of the first band filter and passes the input signal. And a power envelope extraction unit that extracts a power envelope signal of an output signal of the second band filter, and the harmonic code calculation unit has an arbitrary pass frequency band, and the input signal And a code extraction unit that extracts a code of the output signal of the harmonic extraction filter, and the in-band signal multiplication unit A compression band filter having a function of multiplying the output signal of the word calculation unit and the harmonic code calculation unit, wherein the output signal limiting unit uses a frequency band in which a frequency component of the input signal is compressed as a pass frequency band The signal adding unit has a function of adding the output of the input band limiting unit and the output of the output signal limiting unit. Thereby, after compressing high frequency components, such as a consonant of an input audio | voice, to a low frequency range, clear and natural audio | voice can be provided.

また、前記調波性抽出フィルタの通過周波数帯域が、前記第1の帯域フィルタと一致することを特徴とする構成とした。これにより、周波数圧縮される帯域内の信号の調波性を維持し、明瞭で自然な音声を提供することができる上に、前記第1の帯域フィルタと前記調波性抽出フィルタを同一のフィルタで構成することが可能となり、より小規模なシステムで構成することができる。   Further, the pass frequency band of the harmonic extraction filter coincides with the first band filter. As a result, the harmonicity of the signal in the frequency-compressed band can be maintained and clear and natural sound can be provided, and the first bandpass filter and the harmonic extraction filter can be the same filter. It can be configured with a smaller system.

また、前記調波性抽出フィルタの通過周波数帯域が、前記圧縮帯域フィルタと一致することを特徴とする構成とした。これにより、周波数圧縮される帯域内の信号の調波性をより正確に維持し、明瞭で自然な音声を提供することができる上に、前記第1の帯域フィルタと前記調波性抽出フィルタを同一のフィルタで構成することが可能となり、より小規模なシステムで構成することができる。   Further, the pass frequency band of the harmonic extraction filter coincides with the compression band filter. As a result, the harmonics of the signal in the frequency-compressed band can be more accurately maintained, and clear and natural sound can be provided. In addition, the first band filter and the harmonic extraction filter can be provided. It can be configured with the same filter, and can be configured with a smaller system.

また、前記入力帯域内パワー算出部と前記調波性符号算出部と前記帯域内信号乗算部と前記出力信号制限部をそれぞれ複数有し、各入力帯域内パワー算出部における第2のフィルタの通過帯域が重複せず、かつ、各出力信号制限部における圧縮帯域フィルタの通過帯域が重複しないことを特徴とする構成とした。これにより、音声の子音等の高周波数成分の調波性や自然性を損なうことなく、明瞭な音声を提供することができる。   The input in-band power calculating unit, the harmonic code calculating unit, the in-band signal multiplying unit, and the output signal limiting unit each have a plurality, and each input in-band power calculating unit passes through the second filter. The band is not overlapped, and the pass band of the compression band filter in each output signal limiting unit is not overlapped. Thereby, clear voice can be provided without impairing the harmonic nature and naturalness of high frequency components such as consonants of voice.

また、前記入力帯域内パワー算出部の出力信号を増幅することを特徴とする構成とした。これにより、高周波数域の聴力が低下した高齢者や聴覚障害者に対して、入力音声の子音等の高周波数成分を圧縮すると共に強調して、より明瞭な音声を提供することができる。   The output signal of the input in-band power calculation unit is amplified. As a result, it is possible to provide a clearer voice by compressing and emphasizing high frequency components such as consonants of the input voice for the elderly and hearing impaired persons whose hearing ability in the high frequency range has decreased.

また、前記出力信号制限部の出力信号を増幅することを特徴とする構成とした。これにより、高周波数域の聴力が低下した高齢者や聴覚障害者に対して、入力音声の子音等の高周波数成分を圧縮すると共に強調して、より明瞭な音声を提供することができる。   Further, the output signal of the output signal limiting unit is amplified. As a result, it is possible to provide a clearer voice by compressing and emphasizing high frequency components such as consonants of the input voice for the elderly and hearing impaired persons whose hearing ability in the high frequency range has decreased.

また、入力帯域制限部と入力帯域内パワー算出部と写像先帯域内パワー算出部とパワー比算出部とパワー比乗算部と信号加算部から成り、前記入力帯域制限部は、前記入力信号の所定の周波数成分をそのまま通過させる第1の帯域フィルタを有し、前記入力帯域内パワー算出部は、下限周波数が前記第1の帯域フィルタの上限周波数以上の周波数値に設定され、前記入力信号を通過させる第2の帯域フィルタと、前記第2の帯域フィルタの出力信号のパワーエンベロープ信号を抽出するパワーエンベロープ抽出部から構成され、前記写像先帯域内パワー算出部は、前記入力信号の周波数成分が圧縮される周波数帯域を通過周波数帯域とし、前記入力信号を通過させる入力信号圧縮帯域フィルタと、前記入力信号圧縮帯域フィルタの出力信号のパワーエンベロープ信号を抽出するパワーエンベロープ抽出部から構成され、前記パワー比算出部は前記入力帯域内パワー算出部と前記写像先帯域内パワー算出部の出力信号の比率を算出する機能を有し、前記パワー比乗算部は、前記入力信号圧縮帯域フィルタと前記パワー比算出部の出力信号を乗算する機能を有し、前記信号加算部は、前記入力帯域制限部の出力と前記パワー比乗算部の出力を加算する機能を有することを特徴とする構成とした。これにより、入力音声の子音等の高周波数成分を低周波数域に圧縮した上で、明瞭で自然な音声を提供することができる上に、演算処理が簡略であるので小規模、低消費電力のシステムを構成することができる。 The input band limiting unit includes an input band power calculating unit, a mapping destination band power calculating unit, a power ratio calculating unit, a power ratio multiplying unit, and a signal adding unit. The first in-band power calculation unit has a lower limit frequency set to a frequency value equal to or higher than the upper limit frequency of the first band filter and passes the input signal. And a power envelope extraction unit that extracts a power envelope signal of the output signal of the second band filter, and the mapping target in-band power calculation unit compresses the frequency component of the input signal. The input signal compression band filter that passes the input signal, and the output signal of the input signal compression band filter A power envelope extraction unit that extracts a warp envelope signal, and the power ratio calculation unit has a function of calculating a ratio of output signals of the input band power calculation unit and the mapping destination band power calculation unit, The power ratio multiplier has a function of multiplying the input signal compression band filter and the output signal of the power ratio calculator, and the signal adder is an output of the input band limiter and an output of the power ratio multiplier It has the structure characterized by having the function to add. As a result, a high-frequency component such as a consonant of the input voice can be compressed to a low frequency range, and a clear and natural voice can be provided. Further, since the arithmetic processing is simple, a small scale and low power consumption can be achieved. The system can be configured.

また、前記入力帯域内パワー算出部と前記写像先帯域内パワー算出部と前記パワー比算出部と前記パワー比乗算部をそれぞれ複数有し、各入力帯域内パワー算出部における第2のフィルタの通過帯域が重複せず、かつ、各写像先帯域内パワー算出部における入力信号圧縮帯域フィルタの通過帯域が重複しないことを特徴とする構成とした。これにより、音声の子音等の高周波数成分の調波性や自然性を損なうことなく、明瞭な音声を提供することができる上に,演算処理が簡略であるので小規模、低消費電力のシステムを構成することができる。   The input in-band power calculation unit, the mapping destination in-band power calculation unit, the power ratio calculation unit, and the power ratio multiplication unit each have a plurality, and each input in-band power calculation unit passes through the second filter. The band is not overlapped, and the pass band of the input signal compression band filter in each mapping destination band power calculation section is not overlapped. As a result, a clear voice can be provided without impairing the harmonics and naturalness of high-frequency components such as voice consonants, and a small-scale, low-power-consumption system because the arithmetic processing is simple. Can be configured.

また,前記入力信号圧縮帯域フィルタの出力信号を増幅することを特徴とする構成とした。これにより、高周波数域の聴力が低下した高齢者や聴覚障害者に対して、入力音声の子音等の高周波数成分を圧縮すると共に強調して、より明瞭な音声を提供することができる上に、演算処理が簡略であるので小規模、低消費電力のシステムで構成することができる。 Further, the output signal of the input signal compression band filter is amplified. As a result, it is possible to provide a clearer voice by compressing and emphasizing high frequency components such as consonants of the input voice for elderly people and hearing impaired persons whose hearing ability in the high frequency range has decreased. Since the arithmetic processing is simple, it can be configured with a small-scale and low power consumption system.

また,パワー比乗算部の出力信号を増幅することを特徴とする構成とした。これにより、高周波数域の聴力が低下した高齢者や聴覚障害者に対して、入力音声の子音等の高周波数成分を圧縮すると共に強調して、より明瞭な音声を提供することができる上に、演算処理が簡略であるので小規模、低消費電力のシステムで構成することができる。 In addition, the output signal of the power ratio multiplication unit is amplified. As a result, it is possible to provide a clearer voice by compressing and emphasizing high frequency components such as consonants of the input voice for elderly people and hearing impaired persons whose hearing ability in the high frequency range has decreased. Since the arithmetic processing is simple, it can be configured with a small-scale and low power consumption system.

本発明の音声強調処理装置は、子音等の音声の高周波数成分を低周波数域へ向けて圧縮し、高周波数域の聴力が低下した高齢者や聴覚障害者に、音声のレベルを過度に増幅したり、音声の高周波数域を強調したりせずに、その聴覚に残存する周波数域内の情報のみで明瞭かつ自然な音声を提供することが出来る。さらに、本発明の音声強調処理装置は、伝送周波数帯域が制限された電話機の通話においても、その帯域制限によって聞き取りが困難となっていた子音等の音声の高周波数成分を明瞭かつ自然に提供することが出来る。     The speech enhancement processing apparatus of the present invention compresses high frequency components of speech such as consonants toward a low frequency range, and excessively amplifies the level of speech to elderly people and hearing impaired people whose hearing in the high frequency range has been reduced. Therefore, it is possible to provide clear and natural speech only by information in the frequency range remaining in the auditory sense without enhancing the high frequency range of the speech. Furthermore, the speech enhancement processing device of the present invention clearly and naturally provides high-frequency components of speech such as consonants that have been difficult to hear due to the bandwidth limitation even during telephone conversations where the transmission frequency bandwidth is limited. I can do it.

従来、このような音声処理においては、周波数成分を圧縮することによって、音声の調波構造が壊れてしまい、音声の自然性を著しく損なってしまう場合が多かった。しかし、本発明による音声強調処理装置では、音声の調波構造を維持したまま、自然で明瞭な音声を提供することが出来る。   Conventionally, in such audio processing, by compressing the frequency component, the harmonic structure of the audio is broken and the naturalness of the audio is often significantly impaired. However, the speech enhancement processing device according to the present invention can provide natural and clear speech while maintaining the harmonic structure of speech.

また、本発明の音声強調処理装置は、一般に高周波数成分を多く含み、母音に比較してレベルの小さい子音の成分を、その強調処理のプロセスにおいて、必要に応じて増幅することができる。これにより、高周波数域の聴力が低下した高齢者や聴覚障害者でも、自然で明瞭な音声を聴取することが出来る。   In addition, the speech enhancement processing device of the present invention can generally amplify a consonant component that contains many high-frequency components and has a lower level than the vowel as needed in the process of the enhancement processing. As a result, even an elderly person or a hearing-impaired person whose hearing ability in the high frequency range has decreased, can hear natural and clear sound.

さらに、本発明の音声強調処理装置は、子音等の電話機の伝送周波数帯域外の音声情報を伝送周波数帯域内に圧縮して伝送、通話することを可能としている。これにより、高周波数域の聴力が低下した高齢者や聴覚障害者のみならず、一般ユーザーにおいても、電話機における通話品質を向上することを可能としている。   Furthermore, the speech enhancement processing apparatus of the present invention can transmit and communicate a speech information such as a consonant that is compressed outside the transmission frequency band of the telephone within the transmission frequency band. This makes it possible to improve the telephone call quality of telephones not only for elderly people and persons with hearing impairment who have decreased hearing in the high frequency range, but also for general users.

以下、本発明を実施するための最良の形態を図面に基づいて詳細に説明する。なお、以下の説明において、同一機能を有するものは同一の符号とし、その繰り返しの説明は省略する。   The best mode for carrying out the present invention will be described below in detail with reference to the drawings. In the following description, components having the same function are denoted by the same reference numerals, and repeated description thereof is omitted.

図1は、本発明の第1の実施形態におけるシステムのブロック図であり、入力音声の所定の周波数成分をそのまま通過させる第1の帯域フィルタ7から成る入力帯域制限部1と、下限周波数が前記第1の帯域フィルタ7の上限周波数以上の周波数値に設定され、前記入力信号を通過させる第2の帯域フィルタ8と、前記第2の帯域フィルタ8の出力信号のパワーエンベロープ信号を抽出するパワーエンベロープ抽出部9から成る入力帯域内パワー算出部2と、任意の通過周波数帯域を有し、前記入力信号を通過させる調波性抽出フィルタ10と、前記調波性抽出フィルタ10の出力信号の符号を抽出する符号抽出部11から成る調波性符号算出部3と、前記入力帯域内パワー算出部2の出力と前記調波性符号算出部3の出力を乗算する帯域内信号乗算部4と、入力信号の周波数成分が圧縮される周波数帯域を通過周波数帯域とする圧縮帯域フィルタ12から成る出力信号制限部5と、前記入力帯域制限部1の出力と前記出力信号制限部5の出力を加算する信号加算部6から構成されている。   FIG. 1 is a block diagram of a system according to the first embodiment of the present invention, in which an input band limiting unit 1 including a first band filter 7 that passes a predetermined frequency component of input speech as it is, A second band filter 8 that is set to a frequency value equal to or higher than the upper limit frequency of the first band filter 7 and passes the input signal, and a power envelope that extracts the power envelope signal of the output signal of the second band filter 8 The input band power calculation unit 2 including the extraction unit 9, the harmonic extraction filter 10 having an arbitrary pass frequency band and passing the input signal, and the sign of the output signal of the harmonic extraction filter 10 A harmonic code calculation unit 3 including a code extraction unit 11 to be extracted, an in-band that multiplies the output of the in-band power calculation unit 2 and the output of the harmonic code calculation unit 3 An output signal limiting unit 5 comprising a signal multiplying unit 4, a compression band filter 12 having a frequency band in which a frequency component of the input signal is compressed as a pass frequency band, an output of the input band limiting unit 1, and the output signal limiting unit 5 comprises a signal adder 6 for adding the outputs of 5.

本発明の音声強調処理装置では、第2の帯域フィルタ7の出力信号を、第2の帯域フィルタ7よりも狭帯域になっている圧縮帯域フィルタ12の帯域内に圧縮し、その圧縮された信号を第1の帯域フィルタ7の出力と信号加算部6で加算することにより、高周波数域の音声成分が低周波数域に圧縮された音声を生成している。     In the speech enhancement processing device of the present invention, the output signal of the second band filter 7 is compressed within the band of the compression band filter 12 which is narrower than the second band filter 7, and the compressed signal Is added to the output of the first band filter 7 by the signal adder 6 to generate a sound in which the sound component in the high frequency range is compressed to the low frequency range.

圧縮のために、第2の帯域フィルタ7の出力のパワーエンベロープ(パワーの時間的変化)をパワーエンベロープ抽出部9で抽出し、調波性抽出フィルタ10の出力の符号を符号抽出部11で算出している。ここで本実施例では、この符号を、瞬時振幅値が正の場合は1、0の場合は0、負の場合は-1としている。   For compression, the power envelope (power temporal change) of the output of the second bandpass filter 7 is extracted by the power envelope extractor 9, and the code of the output of the harmonic extraction filter 10 is calculated by the code extractor 11. is doing. Here, in this embodiment, this sign is set to 1 when the instantaneous amplitude value is positive, 0 when it is 0, and -1 when it is negative.

パワーエンベロープ抽出部9と符号抽出部11の出力を、帯域内信号乗算部4で乗算し、前記圧縮帯域フィルタ12に通す。これにより、入力信号の調波性、非調波性を保ったまま振幅変調をかけることになるので、入力音の調波構造を保ったまま、明瞭性、自然性が高い周波数圧縮音声を生成することができる。   The outputs of the power envelope extraction unit 9 and the code extraction unit 11 are multiplied by the in-band signal multiplication unit 4 and passed through the compression band filter 12. As a result, amplitude modulation is applied while maintaining the harmonic and non-harmonic characteristics of the input signal, so that frequency-compressed sound with high clarity and naturalness can be generated while maintaining the harmonic structure of the input sound. can do.

図2には、本発明の第2の実施形態におけるシステムブロック図として、前記入力帯域内パワー算出部2と前記調波性符号算出部3と前記帯域内信号乗算部4と前記出力信号制限部5をそれぞれ複数有し、各入力帯域内パワー算出部2における第2のフィルタ8の通過帯域が重複せず、かつ、各出力信号制限部5における圧縮帯域フィルタ12の通過帯域が重複しない構成を示す。   FIG. 2 shows, as a system block diagram in the second embodiment of the present invention, the in-band power calculator 2, the harmonic code calculator 3, the in-band signal multiplier 4, and the output signal limiter. 5 in which the passbands of the second filter 8 in each input band power calculation unit 2 do not overlap and the passbands of the compression band filter 12 in each output signal limiter 5 do not overlap. Show.

第2の実施の形態では、入力音の高周波数成分を複数の帯域に分割し、それぞれの帯域内信号を圧縮、加算することによって、より広い帯域の成分を、より狭い帯域内に圧縮することを可能としている。   In the second embodiment, the high-frequency component of the input sound is divided into a plurality of bands, and the components in the wider band are compressed into the narrower band by compressing and adding the respective in-band signals. Is possible.

なお、調波性抽出フィルタ10は、符号抽出部11で入力信号の調波性に関する情報を符号化するためのフィルタである。本実施例では、調波性抽出フィルタ10を任意の通過周波数帯域を有する独立したフィルタとして構成しているが、システムの構成を簡略化するために、これを第1の帯域フィルタ7と共用することも可能である。この場合、第1の帯域フィルタ7の出力は、信号加算器6に送られると共に符号抽出部11に送られ、その符号を抽出し、各帯域内信号乗算部4において各入力帯域内パワー算出部2の出力と乗ぜられる。   The harmonic extraction filter 10 is a filter for encoding information related to the harmonic of the input signal by the code extraction unit 11. In this embodiment, the harmonic extraction filter 10 is configured as an independent filter having an arbitrary pass frequency band, but is shared with the first band filter 7 in order to simplify the system configuration. It is also possible. In this case, the output of the first band filter 7 is sent to the signal adder 6 and also sent to the code extraction unit 11 to extract the code, and each in-band signal multiplication unit 4 outputs each input in-band power calculation unit. Multiplied by the output of 2.

図3には、第2の実施の形態において、前記入力帯域内パワー算出部2と前記調波性符号算出部3と前記帯域内信号乗算部4と前記出力信号制限部5を各々3種類有し、さらに、調波性抽出フィルタ10と圧縮帯域フィルタ12の通過周波数帯域が一致する場合の信号の様相を模式的に示している。ここで、図中の太字で示された数字は、対応する構成部の符号である。
以下、本実施例では図3を用いて、さらに具体的に説明する。
In FIG. 3, in the second embodiment, there are three types of the in-band power calculation unit 2, the harmonic code calculation unit 3, the in-band signal multiplication unit 4, and the output signal limiting unit 5, respectively. Furthermore, a signal aspect in the case where the pass frequency bands of the harmonic extraction filter 10 and the compression band filter 12 match is schematically shown. Here, the numbers shown in bold in the figure are the symbols of the corresponding components.
Hereinafter, the present embodiment will be described more specifically with reference to FIG.

本実施例では、第1の帯域フィルタ7の境界周波数(下限周波数−上限周波数)を70-3150 Hz 、第2の帯域フィルタ8の境界周波数を(1)3150-4000 Hz 、(2)4000-5300Hz、(3)5300-7700Hzとし、調波性抽出フィルタ10の境界周波数を(1)3150-3400 Hz、(2)3400-3650Hz、(3)3650-4000Hz としている。   In this embodiment, the boundary frequency (lower limit frequency−upper limit frequency) of the first bandpass filter 7 is 70-3150 Hz, and the boundary frequency of the second bandpass filter 8 is (1) 3150-4000 Hz, (2) 4000- The boundary frequency of the harmonic extraction filter 10 is (1) 3150-3400 Hz, (2) 3400-3650 Hz, and (3) 3650-4000 Hz.

この設定により、図4に示すように、元々は70-7700Hzの帯域内の入力音に対して、低周波数成分(70-3150Hz)はそのままに、高周波数成分(3150-7700Hz)のみが3150-4000Hzの帯域に周波数圧縮される。   With this setting, as shown in Fig. 4, the original low frequency component (70-3150Hz) is left unchanged and only the high frequency component (3150-7700Hz) is 3150- for the input sound within the band of 70-7700Hz. Frequency compressed to 4000Hz band.

第2の帯域フィルタ8(3150-4000 Hz)の出力信号のパワーの時間的変化をパワーエンベロープ抽出部9で算出する。ここでは、このパワーエンベロープを1 ms の時間窓の移動平均として表し、その平方根を算出している。ちなみに、この平方根化は、後述する符号抽出部11から出力される符号と乗算を行うために、パワーを振幅の次元に変換するために行っている。   The power envelope extraction unit 9 calculates a temporal change in the power of the output signal of the second bandpass filter 8 (3150-4000 Hz). Here, this power envelope is expressed as a moving average of a time window of 1 ms, and the square root is calculated. Incidentally, this square rooting is performed to convert power into an amplitude dimension in order to perform multiplication with a code output from a code extraction unit 11 described later.

次に、調波性抽出フィルタ10(3150-3400 Hz)の出力信号を、符号抽出部11で、瞬時振幅値が正なら+1、ゼロなら0、負なら-1 の符号に変換し、前記パワーエンベロープ抽出部9の出力と乗算する。さらに、その出力から圧縮帯域フィルタ12によって3150-3400 Hz の帯域を取り出す。   Next, the output signal of the harmonic extraction filter 10 (3150-3400 Hz) is converted into a sign of +1 if the instantaneous amplitude value is positive, 0 if it is zero, and -1 if it is negative. Multiply by the output of the power envelope extractor 9. Further, a band of 3150-3400 Hz is extracted from the output by the compression band filter 12.

以上の操作により、入力音の 3150-4000 Hz に含まれるパワー変化の情報が調波性、非調波性を保ったまま、3150-3400 Hz に圧縮(写像)されたことになる。   With the above operation, the power change information contained in 3150-4000 Hz of the input sound is compressed (mapped) to 3150-3400 Hz while maintaining harmonic and non-harmonic properties.

同様の操作を行い、入力音の4000-5300 Hz に含まれるパワー変化の情報を、写像先の調波性、非調波性を保ったまま3400-3650 Hz に圧縮し、5300-7700 Hz に含まれるパワー変化の情報を、写像先の調波性、非調波性を保ったまま、3650-4000 Hz に圧縮する。その後、それぞれの出力(圧縮された成分)と第1の帯域フィルタの出力を信号加算部6で加算することにより、周波数圧縮音が生成される。   Perform the same operation to compress the power change information contained in the input sound 4000-5300 Hz to 3400-3650 Hz while maintaining the harmonic and non-harmonic properties of the mapping destination, and to 5300-7700 Hz. The included power change information is compressed to 3650-4000 Hz while maintaining the harmonic and non-harmonic properties of the mapping destination. Thereafter, each output (compressed component) and the output of the first band-pass filter are added by the signal adder 6 to generate a frequency-compressed sound.

本実施例の場合は、調波性抽出フィルタ10と圧縮帯域フィルタ12の通過周波数帯域が一致している。このため、符号抽出部11で抽出された調波性情報は、周波数圧縮される周波数帯域の調波性情報と完全に一致しており、より自然な周波数圧縮音声を生成できる。   In the case of the present embodiment, the pass frequency bands of the harmonic extraction filter 10 and the compression band filter 12 are the same. For this reason, the harmonic information extracted by the code extraction unit 11 completely coincides with the harmonic information of the frequency band to be frequency-compressed, and a more natural frequency-compressed sound can be generated.

図8は、本発明の第3の実施形態におけるシステムのブロック図であり、入力音声の所定の周波数成分をそのまま通過させる第1の帯域フィルタ7から成る入力帯域制限部1と、下限周波数が前記第1の帯域フィルタ7の上限周波数以上の周波数値に設定され、前記入力信号を通過させる第2の帯域フィルタ8と、前記第2の帯域フィルタ8の出力信号のパワーエンベロープ信号を抽出するパワーエンベロープ抽出部9から成る入力帯域内パワー算出部2と、前記入力信号の周波数成分が圧縮される周波数帯域を通過周波数帯域とし、前記入力信号を通過させる入力信号圧縮帯域フィルタ16と、前記入力信号圧縮帯域フィルタ16の出力信号のパワーエンベロープ信号を抽出するパワーエンベロープ抽出部9から成る写像先帯域内パワー算出部15と、前記入力帯域内パワー算出部2と前記写像先帯域内パワー算出部15の出力信号の比率を算出するパワー比算出部17と、前記入力信号圧縮帯域フィルタ16と前記パワー比算出部17の出力信号を乗算するパワー比乗算部18と、前記入力帯域制限部1の出力と前記パワー比乗算部18の出力を加算する信号加算部6から構成されている。   FIG. 8 is a block diagram of a system according to the third embodiment of the present invention. The input band limiting unit 1 includes a first band filter 7 that passes a predetermined frequency component of input speech as it is, and the lower limit frequency is A second band filter 8 that is set to a frequency value equal to or higher than the upper limit frequency of the first band filter 7 and passes the input signal, and a power envelope that extracts the power envelope signal of the output signal of the second band filter 8 An input in-band power calculation unit 2 including an extraction unit 9, a frequency band in which the frequency component of the input signal is compressed as a pass frequency band, an input signal compression band filter 16 that passes the input signal, and the input signal compression Mapping destination in-band power calculation comprising a power envelope extractor 9 for extracting the power envelope signal of the output signal of the band filter 16 15, a power ratio calculation unit 17 that calculates a ratio of output signals of the input band power calculation unit 2 and the mapping destination band power calculation unit 15, the input signal compression band filter 16, and the power ratio calculation unit A power ratio multiplier 18 that multiplies 17 output signals; and a signal adder 6 that adds the output of the input band limiter 1 and the output of the power ratio multiplier 18.

本実施例では、第2の帯域フィルタ7の出力信号を、第2の帯域フィルタ7よりも狭帯域になっている入力信号圧縮帯域フィルタ16の帯域内に圧縮し、その圧縮された信号を第1の帯域フィルタ7の出力と信号加算部6で加算することにより、高周波数域の音声成分が低周波数域に圧縮された音声を生成している。     In the present embodiment, the output signal of the second band filter 7 is compressed within the band of the input signal compression band filter 16 which is narrower than the second band filter 7, and the compressed signal is converted into the first signal. By adding the output of one band filter 7 and the signal adder 6, a sound in which a sound component in a high frequency region is compressed to a low frequency region is generated.

圧縮のために、入力帯域内パワー算出部2の第2の帯域フィルタ8の出力のパワーエンベロープ(パワーの時間的変化)をパワーエンベロープ抽出部9で抽出するとともに、写像先帯域内パワー算出部15の入力信号圧縮帯域フィルタ16の出力のパワーエンベロープをパワーエンベロープ抽出部9で抽出している。   For compression, the power envelope extraction unit 9 extracts the power envelope (temporal change in power) of the output of the second band filter 8 of the input in-band power calculation unit 2 and the mapped-destination in-band power calculation unit 15. The power envelope extraction unit 9 extracts the power envelope of the output of the input signal compression band filter 16.

入力帯域内パワー算出部2の出力信号と写像先帯域内パワー算出部15の出力信号の比率をパワー比算出部17で算出し、その結果と入力信号圧縮帯域フィルタ16の出力信号をパワー比乗算部18で乗算する。これにより、入力音の調波構造を保ったまま、明瞭性、自然性が高い周波数圧縮音声を生成することができる上に、実施例1および2よりも低演算量で効率的なシステムを構成することができる。   The ratio of the output signal of the input band power calculation unit 2 and the output signal of the mapping destination band power calculation unit 15 is calculated by the power ratio calculation unit 17, and the result and the output signal of the input signal compression band filter 16 are multiplied by the power ratio. Multiply by unit 18. As a result, it is possible to generate frequency-compressed speech with high clarity and naturalness while maintaining the harmonic structure of the input sound, and to construct an efficient system with a smaller amount of computation than in the first and second embodiments. can do.

図9には、本発明の第4の実施形態におけるシステムブロック図として、前記入力帯域内パワー算出部2と前記写像先帯域内パワー算出部15と前記パワー比算出部17と前記パワー比乗算部18をそれぞれ複数有し、各入力帯域内パワー算出部2における第2の帯域フィルタ8の通過帯域が重複せず、かつ、各写像先帯域内パワー算出部15における入力信号圧縮帯域フィルタ16の通過帯域が重複しない構成を示す。   FIG. 9 shows, as a system block diagram in the fourth embodiment of the present invention, the input band power calculation unit 2, the mapping destination band power calculation unit 15, the power ratio calculation unit 17, and the power ratio multiplication unit. And the pass band of the second band filter 8 in each input band power calculation unit 2 does not overlap, and the input signal compression band filter 16 passes in each mapping destination band power calculation unit 15. A configuration in which the bands do not overlap is shown.

第4の実施の形態では、入力音の高周波数成分を複数の帯域に分割し、それぞれの帯域内信号を圧縮、加算することによって、より広い帯域の成分を、狭い帯域内に圧縮することを可能としている。   In the fourth embodiment, by dividing the high-frequency component of the input sound into a plurality of bands, and compressing and adding the respective in-band signals, it is possible to compress a wider band component into a narrow band. It is possible.

図10には、第4の実施の形態において、前記入力帯域内パワー算出部2と前記写像先帯域内パワー算出部15と前記パワー比算出部17と前記パワー比乗算部18を各々3種類有する場合の信号の様相を模式的に示している。ここで、図中の太字で示された数字は、対応する構成部の符号である。
以下、本実施例では図10を用いて、さらに具体的に説明する。
In FIG. 10, in the fourth embodiment, each of the input band power calculation unit 2, the mapping destination band power calculation unit 15, the power ratio calculation unit 17, and the power ratio multiplication unit 18 is provided. The signal aspect in the case is schematically shown. Here, the numbers shown in bold in the figure are the symbols of the corresponding components.
Hereinafter, the present embodiment will be described more specifically with reference to FIG.

本実施例では、第1の帯域フィルタ7の境界周波数(下限周波数−上限周波数)を70-3150 Hz 、第2の帯域フィルタ8の境界周波数を(1)3150-4000 Hz 、(2)4000-5300Hz、(3)5300-7700Hzとし、入力信号圧縮帯域フィルタ16の境界周波数を(1)3150-3400 Hz、(2)3400-3650Hz、(3)3650-4000Hz としている。   In this embodiment, the boundary frequency (lower limit frequency−upper limit frequency) of the first bandpass filter 7 is 70-3150 Hz, and the boundary frequency of the second bandpass filter 8 is (1) 3150-4000 Hz, (2) 4000- The boundary frequencies of the input signal compression band filter 16 are (1) 3150-3400 Hz, (2) 3400-3650 Hz, and (3) 3650-4000 Hz.

この設定により、図4に示すように、元々は70-7700Hzの帯域内の入力音に対して、低周波数成分(70-3150Hz)はそのままに、高周波数成分(3150-7700Hz)のみが3150-4000Hzの帯域に周波数圧縮される。   With this setting, as shown in Fig. 4, the original low frequency component (70-3150Hz) is left unchanged and only the high frequency component (3150-7700Hz) is 3150- for the input sound within the band of 70-7700Hz. Frequency compressed to 4000Hz band.

第2の帯域フィルタ8(3150-4000 Hz)の出力信号のパワーの時間的変化 をパワーエンベロープ抽出部9で算出する。ここでは、このパワーの時間的変化を1 ms の時間窓で移動平均し、その平方根をパワーエンベロープ a1 とする。     The power envelope extractor 9 calculates a temporal change in the power of the output signal of the second bandpass filter 8 (3150-4000 Hz). Here, this temporal change in power is averaged over a 1 ms time window, and the square root is defined as a power envelope a1.

次に、入力信号圧縮帯域フィルタ16(3150-3400 Hz)の出力信号のパワーの時間的変化をパワーエンベロープ抽出部9で、1 ms の時間窓の移動平均の平方根として算出し、パワーエンベロープ b1とする。前記第2の帯域フィルタ8(3150-4000 Hz)の出力信号のパワーエンベロープ a1 との比 a1 / b1 をパワー比算出部17で算出する。   Next, the power envelope extractor 9 calculates the temporal change of the power of the output signal of the input signal compression band filter 16 (3150-3400 Hz) as the square root of the moving average of the 1 ms time window, and the power envelope b1 To do. A ratio a1 / b1 of the output signal of the second bandpass filter 8 (3150-4000 Hz) with the power envelope a1 is calculated by the power ratio calculation unit 17.

さらに、入力信号圧縮帯域フィルタ16(3150-3400 Hz)の出力信号と前記パワー比算出部17の出力 a1 / b1 を前記パワー比乗算部18で乗算する。
以上の操作により、入力音の 3150-4000 Hz に含まれるパワー変化の情報が調波性、非調波性を保ったまま、3150-3400 Hz に圧縮(写像)されたことになる。
Further, the power ratio multiplier 18 multiplies the output signal of the input signal compression band filter 16 (3150-3400 Hz) and the output a1 / b1 of the power ratio calculator 17.
With the above operation, the power change information contained in 3150-4000 Hz of the input sound is compressed (mapped) to 3150-3400 Hz while maintaining harmonic and non-harmonic properties.

同様の操作を行い、入力音の4000-5300 Hz に含まれるパワー変化の情報を、写像先の調波性、非調波性を保ったまま3400-3650 Hz に圧縮し、5300-7700 Hz に含まれるパワー変化の情報を、写像先の調波性、非調波性を保ったまま、3650-4000 Hz に圧縮する。その後、それぞれの出力(圧縮された成分)と第1の帯域フィルタの出力を信号加算部6で加算することにより、周波数圧縮音が生成される。   Perform the same operation to compress the power change information contained in the input sound 4000-5300 Hz to 3400-3650 Hz while maintaining the harmonic and non-harmonic properties of the mapping destination, and to 5300-7700 Hz. The included power change information is compressed to 3650-4000 Hz while maintaining the harmonic and non-harmonic properties of the mapping destination. Thereafter, each output (compressed component) and the output of the first band-pass filter are added by the signal adder 6 to generate a frequency-compressed sound.

図5に、本実施例よって生成された周波数圧縮音声のサウンドスペクトログラムを示す。(a)は原音声、(b)は周波数圧縮を行わずに帯域を制限した音声、(c)は本実施例による周波数圧縮音声である。音声の調波性を保ったまま、高周波数成分が圧縮されている様子が認められる。   FIG. 5 shows a sound spectrogram of frequency-compressed speech generated by this embodiment. (a) is the original voice, (b) is the voice whose band is limited without performing frequency compression, and (c) is the frequency compressed voice according to this embodiment. It can be seen that high frequency components are compressed while maintaining the harmonic nature of the sound.

図6には、本発明を適用した(a)公共放送装置、(b)補聴器、(c)電話機のシステムの一例を示す。(a)公共放送装置では、アナウンス者がマイクロフォンに向かって発声し、その音声に対して周波数圧縮処理を行う。周波数圧縮された音声は、駅構内や建物に既存の放送システム(放送設備)にてスピーカーより流される。   FIG. 6 shows an example of a (a) public broadcasting device, (b) hearing aid, and (c) telephone system to which the present invention is applied. (a) In the public broadcasting device, the announcer speaks into the microphone and performs frequency compression processing on the sound. The frequency-compressed sound is played from a speaker in an existing broadcasting system (broadcasting facility) in a station premises or building.

(b)の補聴器では、マイクロフォンで集音された音信号を周波数圧縮し、その後、使用者(難聴者)の聴力特性に合わせて増幅等の通常の補聴処理を行い、イヤホンより出力する。なお、本実施例では、周波数圧縮後に補聴処理を行っているが、必要に応じて周波数圧縮前に補聴処理を行う構成にしても良い。   In the hearing aid (b), the sound signal collected by the microphone is frequency-compressed, and thereafter, normal hearing processing such as amplification is performed in accordance with the hearing characteristics of the user (deaf person), and the result is output from the earphone. In this embodiment, the hearing aid processing is performed after frequency compression. However, if necessary, the hearing aid processing may be performed before frequency compression.

(c)の電話機では、電話機1と電話機2が通話を行っている場合を想定している。マイクロフォンに向かって発声された音声に対して周波数圧縮処理を行い、その音声を伝送することによって通話を行う。(a)(b)(c)の各装置共に、本発明を適用することにより、利用者へ明瞭で自然な音声を提供することを可能としている。   In the telephone (c), it is assumed that the telephone 1 and the telephone 2 are making a call. A voice call is performed by performing frequency compression processing on the voice uttered toward the microphone and transmitting the voice. By applying the present invention to each of the devices (a), (b), and (c), it is possible to provide clear and natural sound to the user.

図7には、本発明の第5の実施形態におけるシステムブロック図を示す。本発明による音声強調処理装置は、音声の高周波数成分を低周波数域に圧縮することを目的としているが、その明瞭性をさらに高めるために、本実施例では、圧縮処理の過程で、子音等の成分が含まれる高周波数域の成分を選択的に増幅することによって高域強調を行っている。   FIG. 7 shows a system block diagram according to the fifth embodiment of the present invention. The speech enhancement processing device according to the present invention is intended to compress a high frequency component of speech into a low frequency range, but in order to further improve the clarity, in the present embodiment, in the course of compression processing, a consonant, etc. The high-frequency emphasis is performed by selectively amplifying the high-frequency component including the above component.

ここでは、第2の実施の形態に高域強調を適用した例を用いて説明する。図7に示すように、前記入力帯域内パワー算出部2の出力信号を増幅器13で増幅しても、前記出力信号制限部5の出力信号を増幅器14で増幅しても実現することが出来る。例えば、増幅器13で入力帯域内パワー算出部2の出力信号(4000-5300 Hz)を+5dB、出力信号(5300-7700 Hz)を+10dB増幅すれば、圧縮音声の(3400-3650 Hz)及び(3650-4000 Hz)の成分が、それぞれ+5dB、+10dB強調される。   Here, an example in which high frequency emphasis is applied to the second embodiment will be described. As shown in FIG. 7, it can be realized by amplifying the output signal of the input band power calculation unit 2 by the amplifier 13 or amplifying the output signal of the output signal limiting unit 5 by the amplifier 14. For example, if the amplifier 13 amplifies the output signal (4000-5300 Hz) of the input in-band power calculation unit 2 by +5 dB and the output signal (5300-7700 Hz) by +10 dB, the compressed sound (3400-3650 Hz) and (3650-4000 Hz) components are emphasized by + 5dB and + 10dB, respectively.

さらに、前記出力信号制限部5の出力信号の総エネルギーが前記入力帯域内パワー算出部2の出力信号の総エネルギーに等しくなるように増幅すれば、入力音声と同等の音量感の圧縮音声を生成することも可能である。   Furthermore, if the total energy of the output signal of the output signal limiting unit 5 is amplified so as to be equal to the total energy of the output signal of the input in-band power calculation unit 2, a compressed sound having a volume feeling equivalent to the input sound is generated. It is also possible to do.

ここでは、第2の実施の形態を用いて説明したが、第4の実施の形態においても、同様に高周波数域の成分を選択的に増幅することは可能である。この場合は、前記入力信号圧縮帯域フィルタ16のパワー比乗算部18に入力される信号およびパワー比乗算部18の出力信号を増幅すれば同様の効果を得ることができる。   Although the second embodiment has been described here, the high frequency components can be selectively amplified in the fourth embodiment as well. In this case, the same effect can be obtained by amplifying the signal input to the power ratio multiplier 18 of the input signal compression band filter 16 and the output signal of the power ratio multiplier 18.

なお、本実施例では、周波数圧縮処理による音声強調についてのみ述べたが、本発明の周波数圧縮処理と子音強調等の他の音声強調処理方式を併用することによって、本発明の効果がより高まる場合がある。   In the present embodiment, only the speech enhancement by the frequency compression processing has been described. However, when the frequency compression processing of the present invention and other speech enhancement processing methods such as consonant enhancement are used in combination, the effect of the present invention is further enhanced. There is.

また、本実施例では、主に補聴器、放送装置、電話機について述べたが、例えば、メガホンなどの拡声装置に本音声強調処理装置による周波数圧縮を適用すれば、自然で明瞭な拡声音声が生成できる。   In the present embodiment, the hearing aid, the broadcasting device, and the telephone are mainly described. However, for example, if the frequency compression by the voice enhancement processing device is applied to a loudspeaker such as a megaphone, a natural and clear loud voice can be generated. .

本発明の第1の実施形態におけるシステムのブロック図The block diagram of the system in the 1st Embodiment of this invention 本発明の第2の実施形態におけるシステムのブロック図The block diagram of the system in the 2nd Embodiment of this invention 本発明の第2の実施形態における信号の模式図Schematic diagram of signals in the second embodiment of the present invention 本発明の第2の実施形態における周波数圧縮の概念図Conceptual diagram of frequency compression in the second embodiment of the present invention サウンドスペクトログラムSound spectrogram 本発明を適用した公共放送装置、補聴器、電話機のシステムの一例An example of a public broadcasting device, hearing aid, and telephone system to which the present invention is applied 本発明の第5の実施形態におけるシステムのブロック図Block diagram of a system in the fifth embodiment of the present invention 本発明の第3の実施形態におけるシステムのブロック図The block diagram of the system in the 3rd Embodiment of this invention 本発明の第4の実施形態におけるシステムのブロック図The block diagram of the system in the 4th Embodiment of this invention 本発明の第4の実施形態における信号の模式図Schematic diagram of signals in the fourth embodiment of the present invention

符号の説明Explanation of symbols

1…入力帯域制限部、 2…入力帯域内パワー算出部、 3…調波性符号算出部、 4…帯域内信号乗算部、 5…出力信号制限部、 6…信号加算部、 7…第1の帯域フィルタ、 8…第2の帯域フィルタ、 9…パワーエンベロープ抽出部、 10…調波性抽出フィルタ、 11…符号抽出部、12…圧縮帯域フィルタ、13…増幅器、14…増幅器、15…写像先帯域内パワー算出部、16…入力信号圧縮帯域フィルタ、17…パワー比算出部、18…パワー比乗算部   DESCRIPTION OF SYMBOLS 1 ... Input band restriction part, 2 ... Input band power calculation part, 3 ... Harmonic code calculation part, 4 ... In-band signal multiplication part, 5 ... Output signal restriction part, 6 ... Signal addition part, 7 ... 1st 8 ... second band filter, 9 ... power envelope extraction unit, 10 ... harmonic extraction filter, 11 ... code extraction unit, 12 ... compression band filter, 13 ... amplifier, 14 ... amplifier, 15 ... mapping In-band power calculation unit, 16 ... input signal compression band filter, 17 ... power ratio calculation unit, 18 ... power ratio multiplication unit

Claims (10)

入力信号の周波数成分を圧縮する機能を備えた音声強調処理装置において、この音声強調処理装置は、入力帯域制限部と入力帯域内パワー算出部と調波性符号算出部と帯域内信号乗算部と出力信号制限部と信号加算部から成り、前記入力帯域制限部は、前記入力信号の所定の周波数成分をそのまま通過させる第1の帯域フィルタを有し、入力帯域内パワー算出部は、下限周波数が前記第1の帯域フィルタの上限周波数以上の周波数値に設定され、前記入力信号を通過させる第2の帯域フィルタと、前記第2の帯域フィルタの出力信号のパワーエンベロープ信号を抽出するパワーエンベロープ抽出部から構成され、前記調波性符号算出部は、任意の通過周波数帯域を有し、前記入力信号を通過させる調波性抽出フィルタと、前記調波性抽出フィルタの出力信号の符号を抽出する符号抽出部から構成され、前記帯域内信号乗算部は、前記入力帯域内パワー算出部と前記調波性符号算出部の出力信号を乗算する機能を有し、前記出力信号制限部は、前記入力信号の周波数成分が圧縮される周波数帯域を通過周波数帯域とする圧縮帯域フィルタから構成され、前記信号加算部は、前記入力帯域制限部の出力と前記出力信号制限部の出力を加算する機能を有することを特徴とする音声強調処理装置。 In a speech enhancement processing device having a function of compressing a frequency component of an input signal, the speech enhancement processing device includes an input band limiting unit, an input in-band power calculation unit, a harmonic code calculation unit, an in-band signal multiplication unit, The input band limiting unit includes a first band filter that passes a predetermined frequency component of the input signal as it is, and the input in-band power calculating unit has a lower limit frequency. A second band filter that is set to a frequency value equal to or higher than an upper limit frequency of the first band filter and passes the input signal; and a power envelope extraction unit that extracts a power envelope signal of an output signal of the second band filter The harmonic code calculating unit has an arbitrary pass frequency band and allows the input signal to pass therethrough, and the harmonic extraction filter. The in-band signal multiplication unit has a function of multiplying the output signals of the in-band power calculation unit and the harmonic code calculation unit, The output signal limiting unit includes a compression band filter having a frequency band in which a frequency component of the input signal is compressed as a pass frequency band, and the signal adding unit includes the output of the input band limiting unit and the output signal limiting A speech enhancement processing apparatus characterized by having a function of adding the outputs of the units. 請求項1に記載の音声強調処理装置において、前記調波性抽出フィルタの通過周波数帯域が、前記第1の帯域フィルタと一致、または含まれることを特徴とする音声強調処理装置。 The speech enhancement processing device according to claim 1, wherein a pass frequency band of the harmonic extraction filter coincides with or is included in the first bandpass filter. 請求項1に記載の音声強調処理装置において、前記調波性抽出フィルタの通過周波数帯域が、前記圧縮帯域フィルタと一致、または含まれることを特徴とする音声強調処理装置。   The speech enhancement processing device according to claim 1, wherein a pass frequency band of the harmonic extraction filter coincides with or is included in the compression band filter. 請求項1、2または3に記載の音声強調処理装置において、前記入力帯域内パワー算出部と前記調波性符号算出部と前記帯域内信号乗算部と前記出力信号制限部をそれぞれ複数有し、各入力帯域内パワー算出部における第2のフィルタの通過帯域が重複せず、かつ、各出力信号制限部における圧縮帯域フィルタの通過帯域が重複しないことを特徴とする音声強調処理装置。   The speech enhancement processing device according to claim 1, 2, or 3, comprising a plurality of the in-band power calculation unit, the harmonic code calculation unit, the in-band signal multiplication unit, and the output signal limiting unit, respectively. A speech enhancement processing device characterized in that the passbands of the second filter in each input band power calculation unit do not overlap and the passbands of the compression band filter in each output signal restriction unit do not overlap. 請求項1、2、3または4に記載の音声強調処理装置において、前記入力帯域内パワー算出部の出力信号を増幅することを特徴とする音声強調処理装置。 5. The speech enhancement processing apparatus according to claim 1, wherein the output signal of the input in-band power calculation unit is amplified. 請求項1、2、3、4または5に記載の音声強調処理装置において、前記出力信号制限部の出力信号を増幅することを特徴とする音声強調処理装置。 6. The speech enhancement processing apparatus according to claim 1, wherein the output signal of the output signal restriction unit is amplified. 入力信号の周波数成分を圧縮する機能を備えた音声強調処理装置において、この音声強調処理装置は、入力帯域制限部と入力帯域内パワー算出部と写像先帯域内パワー算出部とパワー比算出部とパワー比乗算部と信号加算部から成り、前記入力帯域制限部は、前記入力信号の所定の周波数成分をそのまま通過させる第1の帯域フィルタを有し、前記入力帯域内パワー算出部は、下限周波数が前記第1の帯域フィルタの上限周波数以上の周波数値に設定され、前記入力信号を通過させる第2の帯域フィルタと、前記第2の帯域フィルタの出力信号のパワーエンベロープ信号を抽出するパワーエンベロープ抽出部から構成され、前記写像先帯域内パワー算出部は、前記入力信号の周波数成分が圧縮される周波数帯域を通過周波数帯域とし,前記入力信号を通過させる入力信号圧縮帯域フィルタと、前記入力信号圧縮帯域フィルタの出力信号のパワーエンベロープ信号を抽出するパワーエンベロープ抽出部から構成され、前記パワー比算出部は前記入力帯域内パワー算出部と前記写像先帯域内パワー算出部の出力信号の比率を算出する機能を有し、前記パワー比乗算部は、前記入力信号圧縮帯域フィルタの出力信号と前記パワー比算出部の出力信号を乗算する機能を有し、前記信号加算部は、前記入力帯域制限部の出力と前記パワー比乗算部の出力を加算する機能を有することを特徴とする音声強調処理装置。 In the speech enhancement processing apparatus having a function of compressing the frequency component of the input signal, the speech enhancement processing apparatus includes an input band limiting unit, an input in-band power calculation unit, a mapping destination in-band power calculation unit, and a power ratio calculation unit. The input band limiting unit includes a first band filter that passes a predetermined frequency component of the input signal as it is, and the input band power calculation unit includes a lower limit frequency. Is set to a frequency value greater than or equal to the upper limit frequency of the first band filter, and a second band filter that passes the input signal and a power envelope extraction that extracts a power envelope signal of the output signal of the second band filter The mapping destination in-band power calculation unit uses the frequency band in which the frequency component of the input signal is compressed as a pass frequency band, and An input signal compression band filter that allows a signal to pass through, and a power envelope extraction unit that extracts a power envelope signal of an output signal of the input signal compression band filter, wherein the power ratio calculation unit includes the input band power calculation unit and the A function of calculating the ratio of the output signal of the mapping destination in-band power calculation unit, and the power ratio multiplication unit has a function of multiplying the output signal of the input signal compression band filter and the output signal of the power ratio calculation unit. And the signal adding unit has a function of adding the output of the input band limiting unit and the output of the power ratio multiplying unit. 請求項7に記載の音声強調処理装置において、前記入力帯域内パワー算出部と前記写像先帯域内パワー算出部と前記パワー比算出部と前記パワー比乗算部をそれぞれ複数有し、各入力帯域内パワー算出部における第2のフィルタの通過帯域が重複せず、かつ、各写像先帯域内パワー算出部における入力信号圧縮帯域フィルタの通過帯域が重複しないことを特徴とする音声強調処理装置。 8. The speech enhancement processing device according to claim 7, wherein the input in-band power calculation unit, the mapped-destination band power calculation unit, the power ratio calculation unit, and the power ratio multiplication unit each have a plurality, A speech enhancement processing apparatus characterized in that the pass bands of the second filter in the power calculation unit do not overlap and the pass bands of the input signal compression band filters in the mapping target in-band power calculation units do not overlap. 請求項7または8に記載の音声強調処理装置において、入力信号圧縮帯域フィルタの出力信号を増幅することを特徴とする音声強調処理装置。 9. The speech enhancement processing apparatus according to claim 7, wherein the output signal of the input signal compression band filter is amplified. 請求項7、8または9に記載の音声強調処理装置において、前記パワー比乗算部の出力信号を増幅することを特徴とする音声強調処理装置。 10. The speech enhancement processing apparatus according to claim 7, 8 or 9, wherein the output signal of the power ratio multiplication unit is amplified.
JP2007265290A 2007-01-05 2007-10-11 Speech enhancement processor Expired - Fee Related JP5046233B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007265290A JP5046233B2 (en) 2007-01-05 2007-10-11 Speech enhancement processor
PCT/JP2007/075251 WO2008081920A1 (en) 2007-01-05 2007-12-28 Voice enhancement processing device

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007000582 2007-01-05
JP2007000582 2007-01-05
JP2007265290A JP5046233B2 (en) 2007-01-05 2007-10-11 Speech enhancement processor

Publications (2)

Publication Number Publication Date
JP2008186010A JP2008186010A (en) 2008-08-14
JP5046233B2 true JP5046233B2 (en) 2012-10-10

Family

ID=39729062

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007265290A Expired - Fee Related JP5046233B2 (en) 2007-01-05 2007-10-11 Speech enhancement processor

Country Status (1)

Country Link
JP (1) JP5046233B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021107695A1 (en) * 2019-11-29 2021-06-03 Samsung Electronics Co., Ltd. Method, device and electronic apparatus for transmitting and receiving speech signal

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015023751A1 (en) * 2013-08-13 2015-02-19 The Children's Hospital Philadelphia Device for language processing enhancement in autism
CN114286253B (en) * 2020-09-27 2024-03-22 炬芯科技股份有限公司 Audio processing method and device and audio playing equipment

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07107053A (en) * 1993-10-07 1995-04-21 Hitachi Denshi Ltd Signal processing method
JPH07160299A (en) * 1993-12-06 1995-06-23 Hitachi Denshi Ltd Sound signal band compander and band compression transmission system and reproducing system for sound signal
JPH1020886A (en) * 1996-07-01 1998-01-23 Takayoshi Hirata System for detecting harmonic waveform component existing in waveform data
JP3960834B2 (en) * 2002-03-19 2007-08-15 松下電器産業株式会社 Speech enhancement device and speech enhancement method
CA2388352A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for frequency-selective pitch enhancement of synthesized speed
JP2005202354A (en) * 2003-12-19 2005-07-28 Toudai Tlo Ltd Signal analysis method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021107695A1 (en) * 2019-11-29 2021-06-03 Samsung Electronics Co., Ltd. Method, device and electronic apparatus for transmitting and receiving speech signal
US11854571B2 (en) 2019-11-29 2023-12-26 Samsung Electronics Co., Ltd. Method, device and electronic apparatus for transmitting and receiving speech signal

Also Published As

Publication number Publication date
JP2008186010A (en) 2008-08-14

Similar Documents

Publication Publication Date Title
CN110473567B (en) Audio processing method and device based on deep neural network and storage medium
US8964998B1 (en) System for dynamic spectral correction of audio signals to compensate for ambient noise in the listener's environment
US8949113B2 (en) Sound perception using frequency transposition by moving the envelope
US9130523B2 (en) Methods and apparatus for processing audio signals
WO2010073492A1 (en) Hearing aid
CN107547983B (en) Method and hearing device for improving separability of target sound
US20080082327A1 (en) Sound Processing Apparatus
US10805741B2 (en) Audio systems, devices, and methods
JP5151762B2 (en) Speech enhancement device, portable terminal, speech enhancement method, and speech enhancement program
JP2003520469A (en) Noise reduction apparatus and method
JPWO2004040555A1 (en) Speech enhancement device
US9420382B2 (en) Binaural source enhancement
Kates An auditory model for intelligibility and quality predictions
CN103517193A (en) Sound enrichment system for tinnitus relief
JP2010091897A (en) Voice signal emphasis device
Rana et al. Effect of audibility on better-ear glimpsing as a function of frequency in normal-hearing and hearing-impaired listeners
JP5046233B2 (en) Speech enhancement processor
KR100956167B1 (en) Creation Method of channel of digital hearing-aid and Multi-channel digital hearing-aid
Lezzoum et al. Noise reduction of speech signals using time-varying and multi-band adaptive gain control for smart digital hearing protectors
Patel et al. Frequency-based multi-band adaptive compression for hearing aid application
KR20120081424A (en) Volume adjusting method
JP2002062886A (en) Voice receiver with sensitivity adjusting function
JP2001285409A (en) Telephone set
JP2011010246A (en) Voice modulator and voice data modulator
JPH06289896A (en) System and device for emphaizing feature of speech

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101006

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120710

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120710

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150727

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees