JP2011071806A - Electronic device, and sound-volume control program for the same - Google Patents
Electronic device, and sound-volume control program for the same Download PDFInfo
- Publication number
- JP2011071806A JP2011071806A JP2009221967A JP2009221967A JP2011071806A JP 2011071806 A JP2011071806 A JP 2011071806A JP 2009221967 A JP2009221967 A JP 2009221967A JP 2009221967 A JP2009221967 A JP 2009221967A JP 2011071806 A JP2011071806 A JP 2011071806A
- Authority
- JP
- Japan
- Prior art keywords
- volume
- sound
- gain
- signal
- time interval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Control Of Amplification And Gain Control (AREA)
- Telephone Function (AREA)
Abstract
Description
本発明は出力音量を制御する電子機器、及び電子機器の音量制御プログラムに関する。 The present invention relates to an electronic device that controls an output volume, and a volume control program for the electronic device.
近年、電話通信用の音声信号や、あるいはラジオ電波やテレビ電波を受信し、スピーカなどの音響出力デバイスから音声を出力することが可能な電子機器が普及している。こうした電子機器の一例である携帯電話機は、無線信号を受信し無線信号中に変調された音声信号を取り出す。取り出した音声信号を例えば携帯電話機のスピーカから音声として出力することで、携帯電話機の使用者は音声信号を聞き取ることができる。 2. Description of the Related Art In recent years, electronic devices that can receive audio signals for telephone communication, radio waves, or television waves and output sound from an acoustic output device such as a speaker have become widespread. A mobile phone which is an example of such an electronic device receives a radio signal and extracts a voice signal modulated in the radio signal. By outputting the extracted audio signal as audio from a speaker of the mobile phone, for example, the user of the mobile phone can hear the audio signal.
この音声信号は、例えば音声信号を送信した話者のアクセントの変化などによって、ある程度の音量の変化を伴って音響出力デバイスから出力されることとなる。このため、音量の変化が急激だった場合には、例えば音響出力デバイスから突然大きな音量の音声が出力され、使用者に不快な思いをさせる虞があった。そこで、入力された音声信号をバッファ処理し、音声信号に大きな音量成分が含まれないか否かを検知する。大きな音量成分が含まれる場合は、音声信号全体を正規化し、バッファされた音声信号全体に亘って音量を低下させるよう制御する。音量を低下させた音声信号を出力することで、大きな音量の音声が音響出力デバイスから出力される事態を防ぐ発明が公開されている(例えば、特許文献1を参照)。 This sound signal is output from the sound output device with a certain amount of volume change due to, for example, a change in accent of the speaker who transmitted the sound signal. For this reason, when the change in volume is abrupt, for example, a sound with a large volume is suddenly output from the acoustic output device, which may make the user feel uncomfortable. Therefore, the input audio signal is buffered to detect whether the audio signal does not contain a large volume component. When a large volume component is included, the entire audio signal is normalized, and control is performed to reduce the volume over the entire buffered audio signal. An invention that prevents a situation in which a sound with a high sound volume is output from an acoustic output device by outputting a sound signal with a reduced sound volume is disclosed (for example, see Patent Document 1).
しかし先に述べた様な、音声信号全体をバッファリングし、その後音声信号の音量を補正する方法では、音声信号が入力されてから音響出力デバイスより音声が出力されるまでの間に多大な遅延が発生することとなる。携帯電話機を用いて通話を行う場合などは、音声信号の入力を受けてから出力するまでの遅延は短いことが望ましい。 However, with the method of buffering the entire audio signal and then correcting the volume of the audio signal as described above, there is a great delay between the input of the audio signal and the output of the audio from the audio output device. Will occur. When making a call using a mobile phone, it is desirable that the delay from the input of an audio signal to the output be short.
本発明は上記問題点を解決するためになされたもので、入力信号の振幅を制御することが可能な電子機器、あるいは電子機器の音量制御プログラムに関する。 The present invention has been made to solve the above-described problems, and relates to an electronic device capable of controlling the amplitude of an input signal or a volume control program for an electronic device.
前記目的を達成するために、本発明の電子機器は、音声の入力を受け付ける音声入力受付手段と、音声の入力音量を測定する音量測定手段と、第1の時間区間及び、第1の時間区間以前の第2の時間区間に受け付けた音声と、当該音声の入力音量とをそれぞれ測定する
音量測定手段と、第1の時間区間及び、第1の時間区間以前の第2の時間区間に受け付けた
音声と、当該音声の入力音量とをそれぞれ記憶する記憶手段と、前記記憶手段によって記憶された、第1の時間区間に受け付けた音声の入力音量のうち最大の音量が所定の音量以
上である場合に、第1の時間区間に受け付けた音声の入力音量の値に応じて第1の時間区間の音量ゲインを設定する音量ゲイン設定手段と、第1の時間区間に受け付けた音声の出力
開始時には第2の時間区間の音量ゲインであり、第1の時間区間に受け付けた音声の出力
終了時には第1の時間区間の音量ゲインであるように遷移する音量ゲイン遷移関数を設定
する音量ゲイン遷移関数設定手段と、音声の出力音量を前記音量ゲイン遷移関数に応じて変化させる音量制御手段と、前記音量制御手段によって変化した出力音量で第1の時間区
間に受け付けた音声を出力する音声出力手段とを有することを特徴とする。
In order to achieve the object, an electronic device according to the present invention includes a voice input receiving unit that receives a voice input, a volume measuring unit that measures a voice input volume, a first time interval, and a first time interval. The sound received in the previous second time interval, the volume measuring means for measuring the input sound volume of the sound, the first time interval, and the second time interval before the first time interval. A storage means for storing each of the sound and the input volume of the sound; and a maximum volume of the input sound volume received in the first time interval stored by the storage means is equal to or higher than a predetermined volume In addition, the volume gain setting means for setting the volume gain of the first time interval according to the value of the input volume of the sound received during the first time interval, and at the start of the output of the sound received during the first time interval Volume gain for
また、前記目的を達成するために、本発明の電子機器の音量制御プログラムは、第1の時
間区間及び、第1の時間区間以前の第2の時間区間に受け付けた音声と、当該音声の入力音量とをそれぞれ記憶する記憶手段と、前記記憶手段によって記憶された、第1の時間区間
に受け付けた音声の入力音量が所定の音量以上である場合に、第1の時間区間に受け付け
た音声の入力音量の値に応じて第1の時間区間の音量ゲインを設定する音量ゲイン設定手
段と、第1の時間区間に受け付けた音声の出力開始時には第2の時間区間の音量ゲインであり、第1の時間区間に受け付けた音声の出力終了時には第1の時間区間の音量ゲインであ
るように遷移する音量ゲイン遷移関数を設定する音量ゲイン遷移関数設定手段と、音声の出力音量を前記音量ゲイン遷移関数に応じて変化させる音量制御手段と、を有することを特徴とする。
In order to achieve the above object, the volume control program for an electronic device according to the present invention includes a sound received in a first time interval and a second time interval before the first time interval, and input of the sound. Storage means for storing each of the volume, and when the input volume of the sound received in the first time interval stored by the storage means is equal to or higher than a predetermined volume, the sound received in the first time interval The volume gain setting means for setting the volume gain of the first time interval according to the value of the input volume, and the volume gain of the second time interval at the start of the output of the sound accepted in the first time interval, A volume gain transition function setting means for setting a volume gain transition function for transitioning to be the volume gain of the first time section when the output of the sound received in the time section is completed, and the volume gain transition function In Flip and having and a volume control means vary.
本発明によれば、入力された音声信号を時間単位に区切り、時間単位毎に振幅の補正を行うことにより、出力音量を制御して出力することが可能な電子機器、あるいは電子機器の音量制御プログラムが得られる。 ADVANTAGE OF THE INVENTION According to this invention, the audio | voice apparatus which controls the output volume by dividing the input audio | voice signal into a time unit and performing an amplitude correction | amendment for every time unit, or the volume control of an electronic device A program is obtained.
以下、本発明の実施の形態について、図面を参照して説明する。 Embodiments of the present invention will be described below with reference to the drawings.
(電子機器の構成)
図1は、本発明における電子機器の一例である、携帯電話機の構成を示す図である。図2は、図1に示した携帯電話機に設けられる、制御部100の構成を示す図である。以下、特に断りが無い場合は、この図1及び図2に従って、本発明の各構成部の動作を説明する。
(Configuration of electronic equipment)
FIG. 1 is a diagram illustrating a configuration of a mobile phone which is an example of an electronic apparatus according to the present invention. FIG. 2 is a diagram showing a configuration of the
携帯電話機に搭載される制御部100は、CPU(Central Processing Unit)などの電子回路から構成される。CPUは、後述するROMあるいはRAMに記憶されているプログラムに従って処理を実行する。更にCPUは、上述した各回路部から供給される信号を処理し、また種々の制御信号を生成し、各回路部へ供給する。
The
これらの処理により、CPUは携帯電話機を統括的に制御する。記憶部4は、例えば電気的に書き換えや消去が可能な不揮発性メモリであるフラッシュメモリ素子、HDD(Hard Disc Drive)、ROM(Read Only Memory)、およびRAM(Random Access Memory)などから構成される。記憶部4には、制御部100のCPUにより実行される種々のアプリケーションプログラムやデータ群、あるいは音声データなどが格納されている。
Through these processes, the CPU comprehensively controls the mobile phone. The
アンテナ1は、無線信号の送受信を図示しない無線基地局との間で行う。アンテナ1は受信した無線信号を通信信号処理部2へと入力する。また、通信信号処理部2から入力された無線信号を、無線基地局へ向けて発信する。
The
通信信号処理部2は、アンテナ1から入力された無線信号を、制御部100にて信号処理可能な電気信号へと変換し、変換した電気信号を制御部100へと入力する。また、制御部100から出力された電気信号を、アンテナ1から発信可能な無線信号へと変換し、アンテナ1へと出力する。
The communication
スピーカ5は、制御部100から入力された音声出力信号を、音声に変換して出力する。
The
マイクロフォン6は、入力された音声を音声入力信号へと変換して制御部100へと出力する。
The
図2を用いて説明する出力音量制御の処理は、音声入力信号の入力を受けて、これを音声出力信号へと加工して出力する処理である。音声入力信号の入力は、例えばマイクロフォン6から入力されるものであっても構わないし、記憶部4に格納された音声データを入力として制御部100が読み出すものであっても構わない。また、アンテナ1が無線信号として受信するものであっても構わない。
The output volume control process described with reference to FIG. 2 is a process of receiving an input audio signal, processing it into an audio output signal, and outputting it. The input of the audio input signal may be input from, for example, the
音声入力信号は、事前に決められた音声信号の単位(以下、単にフレームと表記する)毎にディジタル符号化され、音声入力信号x[n](n=1,2,3,・・・N)として制御部100へと入力され、音声出力信号y[n]へと加工される。加工された音声出力信号は、スピーカ5より音声として出力される。なお、音声出力信号の出力先はスピーカ5に限られるものではなく、例えば通信信号処理部2を介して無線信号へと変換し、アンテナ1が音声出力信号を発信するものであってもかまわない。あるいは、制御部100に別途接続したヘッドホンなどに音声出力信号を出力するものであっても構わない。
The audio input signal is digitally encoded for each predetermined audio signal unit (hereinafter simply referred to as a frame), and the audio input signal x [n] (n = 1, 2, 3,... N ) To the
図5は、本発明における電子機器が処理する音声信号の一例を表した図である。音声入力信号x[n]は、音声をサンプリングした際の振幅の値を示している。音声入力信号x[n]は、フレームを構成するサンプルの数Nと等しい数の振幅データを有する。後述するサブフレーム分割部102の処理によって、N個のサンプルから構成されるフレームは、S個のサンプルから構成されるサブフレームへと分割される。図5においては、N=12、S=4となる例を示している。後述する本発明の音量制御処理においては、サブフレーム毎に信号処理が行われる。時間領域に対して細かく分割されたサブフレーム毎に音量制御を行うことにより、音量変化の激しい音声信号が入力された場合であっても時間領域に対して精度良く音量の制御を行うことができる。また、音声入力信号x[n]は、例えば−2の15乗から+2の15乗までの範囲を持つ、16ビットのディジタルデータを用いて表記される。しかし、音声入力信号x[n]の表記形式はこれに限定されるものではなく、オーディオ信号であっても構わないし、16ビット以外のビット数を持つディジタルデータを用いて表記しても構わないし、あるいはフローティング(浮動小数点)の信号を用いて表記しても構わない。なお、後述する音声信号の処理は、例としてN個のサンプルから構成されるフレームを、S個のサンプルから構成されるサブフレームへと分割し、サブフレーム単位で音声信号の処理を行うものとして述べる。しかし、本発明における音声信号の処理はこれに限られるものではなく、サブフレームへの分割を省略し、フレーム単位で音声信号の処理を行うものであっても構わない。また、後述する音声信号の処理は、便宜上N=12となる場合の処理について述べる。しかし、本発明における音声信号の処理はこれに限られるものではない。Nに他の値、例えば2のべき条となる512、1024、2048などの値を用いても構わない。
FIG. 5 is a diagram illustrating an example of an audio signal processed by the electronic device according to the present invention. The audio input signal x [n] indicates an amplitude value when audio is sampled. The audio input signal x [n] has the same number of amplitude data as the number N of samples constituting the frame. A frame composed of N samples is divided into subframes composed of S samples by processing of a
以降、本明細書における各ディジタル信号は、ここに述べたいずれの形式を用いて表記されても構わないものとする。 Hereinafter, each digital signal in this specification may be expressed using any of the formats described herein.
(第1の実施例)
携帯電話機の音声信号をスピーカ5などの所謂音響出力デバイスから出力する際には、出力される音声の周波数特性は音響出力デバイスの出力周波数特性によって左右される。
(First embodiment)
When outputting an audio signal of a mobile phone from a so-called acoustic output device such as the
音響出力デバイスの出力周波数特性が平坦でない場合には、入力された音声に比べ出力される音声が変化してしまう。そのため、携帯電話機の使用者は入力音声の持つ本来の音質を体感することができない。例えば、携帯電話機に用いられる音響出力デバイスは小型に構成されるため、4kHz以上の高周波帯で周波数特性が劣化している場合が多い。 When the output frequency characteristic of the acoustic output device is not flat, the output sound changes compared to the input sound. Therefore, the user of the mobile phone cannot experience the original sound quality of the input voice. For example, since an acoustic output device used for a mobile phone is configured to be small, frequency characteristics often deteriorate in a high frequency band of 4 kHz or higher.
こうした音響デバイスの出力周波数特性による出力音声の劣化を防ぐために、予め音響出力デバイスの出力周波数特性に合わせて音声信号を補正する方法が考えられる。先の携帯電話機に用いられる音響出力デバイスにおいては、音響出力デバイスによって減衰してしまう4kHz以上の帯域の音声信号を増幅する。これにより、出力された音声の周波数特性は入力された音声に近づき、携帯電話機の使用者は入力音声の持つ本来の音質を体感することができる。 In order to prevent the deterioration of the output sound due to the output frequency characteristic of the acoustic device, a method of correcting the sound signal in advance according to the output frequency characteristic of the acoustic output device can be considered. In the acoustic output device used in the previous mobile phone, an audio signal in a band of 4 kHz or more that is attenuated by the acoustic output device is amplified. As a result, the frequency characteristic of the output sound approaches that of the input sound, and the user of the mobile phone can experience the original sound quality of the input sound.
しかし、このような音声信号の補正方法を用いる場合は、入力された音声信号によっては信号の増幅が多大になされてしまい、振幅飽和を起こす虞がある。振幅飽和を起こす音声信号としては、先の携帯電話機において通話を行う場合の、音声に無声音(肺からの呼気が声帯を振動させずそのまま通り抜けて出る音)を含む音声信号など考えられる。無声音は一般的に4kHz以上に周波数成分が集中するため、無声音を含む音声信号を補正すると振幅飽和が発生してしまう。この振幅飽和により音響出力デバイスは、入力された音声を正しく再現できないこととなる。 However, when such a method for correcting an audio signal is used, depending on the input audio signal, the signal is greatly amplified, which may cause amplitude saturation. As an audio signal that causes amplitude saturation, an audio signal that includes an unvoiced sound (a sound that exhaled from the lungs passes through the vocal cords without oscillating the vocal cords) in the case of making a call on the previous mobile phone can be considered. Since unvoiced sounds generally have frequency components concentrated at 4 kHz or higher, amplitude saturation occurs when an audio signal containing unvoiced sounds is corrected. Due to this amplitude saturation, the sound output device cannot correctly reproduce the input sound.
そこで、第1の実施例においては、入力された音声信号に無声音が含まれるか否かを判定し、無声音が含まれる場合には音声信号の振幅の値を減少させる処理を行う。音声信号中の無声音が含まれる箇所に対して振幅の値を減少させる処理を行うことで、音響出力デバイスの出力周波数特性に合わせて4kHz以上の帯域の音声信号の増幅を行う場合であっても、音声信号が振幅飽和を起こす事態を防ぐことができる。 Therefore, in the first embodiment, it is determined whether or not an unvoiced sound is included in the input sound signal. If the unvoiced sound is included, a process of reducing the amplitude value of the sound signal is performed. Even when an audio signal in a band of 4 kHz or higher is amplified in accordance with the output frequency characteristics of the acoustic output device by performing a process of reducing the amplitude value for a portion including an unvoiced sound in the audio signal. It is possible to prevent the audio signal from causing amplitude saturation.
更に、単位時間毎に音量補正を行う場合に、その音量補正の度合いが大きい場合を考える。この場合、電子機器の使用者にとっては短い時間で音量が大きく変化するために、音量のばたつきが不自然に感じられることとなる。第1の実施例においては、サブフレーム毎にリミッタ制御ゲインを算出し、リミッタ制御ゲインの値に基づいて、サンプル毎の振幅を調節する振幅ゲインを設定する。ここで、振幅ゲインの値はスイッチ的に変化することがないように、微分連続性を保ったまま変化するよう設定する。この振幅ゲインに従って各サンプルの振幅補正を行うため、使用者に音量調節量のスイッチ的な変化による不自然な印象を与えることがない。 Furthermore, when the volume correction is performed every unit time, a case where the degree of volume correction is large is considered. In this case, since the volume greatly changes in a short time for the user of the electronic device, the fluctuation of the volume is unnaturally felt. In the first embodiment, a limiter control gain is calculated for each subframe, and an amplitude gain for adjusting the amplitude for each sample is set based on the value of the limiter control gain. Here, the value of the amplitude gain is set so as to change while maintaining the differential continuity so as not to switch. Since the amplitude of each sample is corrected according to this amplitude gain, the user is not given an unnatural impression due to a switch-like change in the volume adjustment amount.
更に、無音状態から急に無声音が発生された場合は振幅ゲインを急激に変化するよう設定する。これにより、急な振幅飽和の発生を予期して音量制御を時間的に精度良く行うことができる。一方、有声音から無声音に変化する場合には急には振幅飽和が発生しないため、振幅ゲインの変化を緩やかに行う。これにより、使用者にとって不自然な印象を与えることなく振幅を制御することができる。 Further, when an unvoiced sound is suddenly generated from the silent state, the amplitude gain is set to change rapidly. As a result, the volume control can be accurately performed in time in anticipation of sudden amplitude saturation. On the other hand, when the voiced sound changes to the unvoiced sound, amplitude saturation does not occur suddenly, so the amplitude gain is changed gradually. As a result, the amplitude can be controlled without giving an unnatural impression to the user.
以下、図2に示す各構成要素について、その構成と役割を述べる。制御部100は、直流成分制御フィルタ101、サブフレーム分割部10、信号特性検出部103、サブフレーム単位ゲイン算出部104、サンプル単位ゲイン算出部105、音量制御部106、そして周波数特性補正部107から構成される。
The configuration and role of each component shown in FIG. 2 will be described below. The
直流成分除去フィルタ100は、音声入力信号x[n]を入力として、音声入力信号x[n]に含まれる直流成分を除去し、信号hp[n]を出力するものである。より具体的には、直流成分除去フィルタ100は、音声入力信号x[n]に高域濾過フィルタ処理を施す。これにより、直流成分除去フィルタ100は、音声入力信号x[n]中に含まれる低域成分、例えば50Hzを下回る成分を消去し、残った信号を信号hp[n]として出力する。高域濾過フィルタ処理は、例えばIIRのバタワースフィルタによって設計されたフィルタを用いることができる。しかし、直流成分を除去する処理はここに述べた方法に限られるものではなく、音声入力信号x[n]の振幅の値から直流成分が含まれるか否かを検知し、直流成分を消去する方法を用いればよい。
The DC
サブフレーム分割部102は、N個のサンプルから構成される信号hp[n]を入力として、信号hp[n]をN個より少ないS個のサンプルから構成される、幾つかのサブフレーム信号sub_hpb[s](s=1,2,3,・・・S)へと分割して出力する。
The
本発明においては、後述する処理によって、サブフレーム毎に音量を変化させるリミッタ制御ゲインの値が算出される。ここで、サブフレーム毎に算出した音量制御信号を用いて音量の制御を行うことで、よりきめ細かな音量制御を行えるという効果が得られる。即ち、入力音声信号x[n]が後述する無声音、急激な音量変化を伴う信号であった場合であっても、音量変化に追随して音量の制御を行うことが可能である。 In the present invention, the value of the limiter control gain that changes the volume for each subframe is calculated by the process described later. Here, by performing volume control using the volume control signal calculated for each subframe, an effect that finer volume control can be performed can be obtained. That is, even when the input audio signal x [n] is a silent sound, which will be described later, or a signal with a sudden change in volume, the volume can be controlled following the change in volume.
信号特性検出部103は、サブフレーム信号sub_hpb[s]を入力として、サブフレーム信号sub_hpb[s]に有声音が含まれるか、無声音が含まれるか、あるいは無音であるかを判別する。更に、処理中のサブフレームが、無声音の発音が開始される箇所なのか、あるいは無声音の発音が終了する箇所なのかを判別する。この検出結果をsub_prmとして出力する。
The signal
図3に、信号特性検出部103の詳しい構成を示す。信号特性検出部103は、有音・無音検出部1031と、有声音、無声音検出部1032の2つから構成される。
FIG. 3 shows a detailed configuration of the signal
(有音・無音検出動作)
有音・無音検出部1031は、入力されたサブフレーム信号sub_hpb[s]が無音であるか、あるいは有音であるかを判別して、その判別結果を有音・無音検出結果sub_mumとして出力する。有音・無音検出部1031は、サブフレーム信号sub_hpb[s]が有音であると判別した場合はsub_mum=1、一方無音であると判別した場合はsub_mum=0として有音・無音検出結果sub_mumを出力する。
(Sound / silence detection operation)
The voice /
この有音・無音検出部1031はサブフレーム振幅最大値検出部10311と、有音・無音判定部10312の2つから構成される。
The sound /
サブフレーム振幅最大値検出部10311は、サブフレーム信号sub_hpb[s]を入力として、サブフレーム信号sub_hpb[s]中に含まれる振幅の最大値を検出する。この検出された振幅の最大値をサブフレーム振幅最大値sub_maxとして出力する。より具体的には、サブフレーム振幅最大値検出部10311は、サブフレーム信号sub_hpb[s]内に含まれる各サンプルの振幅の値を絶対値化する。この絶対値化された振幅の値の内、最大のものを検出する。検出された振幅の値をサブフレーム振幅最大値sub_maxとして出力する。 Subframe amplitude maximum value detection section 10311 receives subframe signal sub_hpb [s] as an input, and detects the maximum value of the amplitude included in subframe signal sub_hpb [s]. The maximum value of the detected amplitude is output as the subframe amplitude maximum value sub_max. More specifically, the subframe amplitude maximum value detection unit 10311 converts the amplitude value of each sample included in the subframe signal sub_hpb [s] into an absolute value. The maximum value is detected from the absolute value of the amplitude. The detected amplitude value is output as the subframe amplitude maximum value sub_max.
ここで、サブフレーム振幅最大値検出部10311は、サブフレーム信号sub_hpb[s]中に含まれる振幅の最大値を検出し出力すると述べた。しかし、サブフレーム振幅最大値検出部10311が出力する値は、後述する有音・無音判定部10312が有音・無音を判定するために用いられる値であれば他の値であっても構わない。例えば、サブフレーム振幅最大値検出部10311は、サブフレーム信号sub_hpb[s]の平均の振幅レベルを出力するものであっても構わない。また、サブフレーム信号sub_hpb[s]の平均のスペクトルパワーを出力するものであっても構わない。
Here, it has been described that the sub-frame amplitude maximum value detection unit 10311 detects and outputs the maximum value of the amplitude included in the sub-frame signal sub_hpb [s]. However, the value output from the subframe amplitude maximum value detection unit 10311 may be another value as long as it is a value used by the sound /
有音・無音判定部10312は、サブフレーム振幅最大値検出部10311から出力されたサブフレーム振幅最大値sub_maxの値を入力として、サブフレーム信号sub_hpb[s]が有音であるか無音であるかの判定を行う。この判定結果を有音・無音判定結果sub_mumとして出力する。より具体的には、有音・無音判定部10312は、予め定めておいた有音・無音判定用の閾値αと、サブフレーム振幅最大値sub_maxの値とを比較する。有音・無音判定部10312は、この比較結果がsub_max<αであった場合には、サブフレーム信号sub_hpb[s]中に大きな振幅のサンプルが含まれないため、サブフレーム信号sub_hpb[s]は無音であると判定する。そして、無音であると判定した結果をsub_mum=0として出力する。一方、この比較結果がsub_max>αであった場合には、サブフレーム信号sub_hpb[s]中に大きな振幅のサンプルが含まれるため、サブフレーム信号sub_hpb[s]は有音であると判定する。そして、有音であると判定した結果をsub_mum=1として出力する。なお、有音・無音の判定方法は、先に述べた振幅の値を閾値と比較する他に、例えばサブフレーム信号sub_hpb[s]中の各周波数帯域におけるS/N比を算出し、これを有音・無音判定用の閾値αと比較する方法を用いても構わない。
The voice /
(有声音・無声音検出動作)
有声音・無声音検出部1032は、サブフレーム信号sub_hpb[s]及び有音・無音判定結果sub_mumを入力として、サブフレーム信号sub_hpb[s]に有声音が含まれるか、あるいは無声音が含まれるかの判定を行う。更に、処理を行うサブフレーム信号sub_hpb[s]が有声音から無声音に切り替わる信号であるか、あるいは無声音から有声音に切り替わる音であるか、無音から無声音に切り替わる信号であるか、あるいは無声音から無音に切り替わる信号であるか、などの判定が行われる。この判定結果を有声音・無声音判定結果sub_prmとして出力する。
(Voiced / unvoiced sound detection operation)
The voiced / unvoiced
この有声音・無声音検出部1032はゼロクロス数検出部10321と、有声音・無声音判定部10322の2つから構成される。
The voiced / unvoiced
ゼロクロス数検出部10321は、サブフレーム信号sub_hpb[s]及び有音・無音検出結果sub_mumを入力として、サブフレーム信号sub_hpb[s]中に含まれるゼロクロス点の数を検出する。検出したゼロクロス点の数を、ゼロクロス数sub_zcとして出力する。なお、本明細書においては、ゼロクロス点とは特定のサンプルの振幅値とその直前のサンプルの振幅値とを比較したときに、振幅値の極性が反転している点を指す。従って、サブフレーム中に数多くのゼロクロス点が含まれているサブフレーム信号sub_hpb[s]は振動の速い信号であるため、高周波域にエネルギーを多く含む音声信号、すなわち無声音の音声信号であると見なすことができる。一方、サブフレーム中のゼロクロス点が少ない場合には、サブフレーム信号sub_hpb[s]は振動が遅い信号であるため、高周波域にある周波数成分は含まれない信号であるとみなすことができる。つまり本発明においては、サブフレーム信号sub_hpb[s]中のゼロクロス点の検出を、サブフレーム信号sub_hpb[s]の周波数成分の分析のために用いている。 The zero-cross number detection unit 10321 detects the number of zero-cross points included in the subframe signal sub_hpb [s] by using the subframe signal sub_hpb [s] and the sound / silence detection result sub_um as inputs. The number of detected zero cross points is output as the zero cross number sub_zc. In the present specification, the zero-cross point refers to a point where the polarity of the amplitude value is inverted when the amplitude value of a specific sample is compared with the amplitude value of the immediately preceding sample. Therefore, since the subframe signal sub_hpb [s] in which a number of zero cross points are included in the subframe is a fast-vibration signal, it is regarded as an audio signal containing a lot of energy in a high frequency range, that is, an unvoiced audio signal. be able to. On the other hand, when the number of zero cross points in the subframe is small, the subframe signal sub_hpb [s] is a signal that oscillates slowly, and thus can be regarded as a signal that does not include a frequency component in the high frequency range. That is, in the present invention, the detection of the zero cross point in the subframe signal sub_hpb [s] is used for analyzing the frequency component of the subframe signal sub_hpb [s].
なお、有音・無音判定部10312から出力された有音・無音検出結果sub_mumの値がsub_mum=0である場合には、サブフレーム信号sub_hpb[s]は無音の信号であることがわかる。この場合はゼロクロス点の数を検出する処理を省き、sub_zc=0として出力する。一方、有音・無音検出結果sub_mumの値がsub_mum=1である場合には、ゼロクロス数検出部10321はサブフレーム信号sub_hpb[s]に含まれるゼロクロス数を検出し、ゼロクロス数sub_zcとして出力する。
In addition, when the value of the sound / silence detection result sub_um output from the sound /
なお、本実施例においてゼロクロス数sub_zcは、サブフレーム信号sub_hpb[s]中に含まれるゼロクロス点の数であると述べた。しかし、本実施例の動作はこれに限られるものではない。例えば、サブフレーム信号sub_hpb[s]に含まれるゼロクロス数をサブフレーム信号sub_hpb[s]のサンプル数Sで除算した値を、ゼロクロス数sub_zcの替わりにゼロクロス発生率sub_zcとして用いても良い。この値を用いることにより、サブフレーム信号sub_hpb[s]のサンプル数Sが変化した場合であっても、ゼロクロス数検出部10321は同様の処理で後述する有声音・無声音検出部10322へ値を出力し、有声音・無声音検出を行わせることができる。
In the present embodiment, the zero cross number sub_zc is described as the number of zero cross points included in the subframe signal sub_hpb [s]. However, the operation of the present embodiment is not limited to this. For example, a value obtained by dividing the number of zero crosses included in the subframe signal sub_hpb [s] by the number of samples S of the subframe signal sub_hpb [s] may be used as the zero cross occurrence rate sub_zc instead of the zero cross number sub_zc. By using this value, even when the number of samples S of the subframe signal sub_hpb [s] changes, the zero-cross number detection unit 10321 outputs a value to the voiced / unvoiced
また、本実施例においてゼロクロス数検出部10321は、サブフレーム信号sub_hpb[s]中に含まれるゼロクロス点の数を検出すると述べた。しかし、本実施例の構成はこれに限られるものではなく、ゼロクロス数検出部10321は、音声信号が所定の周波数帯域の信号を含むか否かを判別する特徴量であれば、ゼロクロス数以外の特徴量を検出するものであっても構わない。例えば、サブフレーム信号sub_hpb[s]をスペクトル分析し、高周波数成分のエネルギーを検出するものであっても構わない。あるいは、LPC予測残差の自己相関の最大値を検出するものであっても構わない。 Further, in the present embodiment, it has been described that the zero-cross number detection unit 10321 detects the number of zero-cross points included in the subframe signal sub_hpb [s]. However, the configuration of the present embodiment is not limited to this, and the zero cross number detection unit 10321 may be a feature amount that determines whether or not the audio signal includes a signal of a predetermined frequency band. A feature amount may be detected. For example, the sub-frame signal sub_hpb [s] may be subjected to spectrum analysis to detect high-frequency component energy. Alternatively, the maximum value of the autocorrelation of the LPC prediction residual may be detected.
また、本実施例においてゼロクロス数検出部10321は、例として4kHz以上の高周波成分を検出するための手段として用いている。しかし、ゼロクロス数検出部10321が検出する周波数帯域は音響出力デバイスの周波数特性に合わせて設定すればよいため、4kHz以上の高周波に限定されるものではなく、任意の周波数成分を検出すればよい。 In the present embodiment, the zero cross number detection unit 10321 is used as a means for detecting a high frequency component of 4 kHz or more as an example. However, since the frequency band detected by the zero-cross number detection unit 10321 may be set according to the frequency characteristics of the acoustic output device, the frequency band is not limited to a high frequency of 4 kHz or more, and an arbitrary frequency component may be detected.
有声音・無声音判定部10322は、有音・無音検出結果sub_mum及びゼロクロス数sub_zcを入力として、処理中のサブフレームと直前のサブフレームとで有声音・無声音・無音といった信号特性がどう切り替わったかを判定する。この判定結果を、信号特性判定結果sub_prmとして出力する。より具体的には、有声音・無声音判定部10322は、直前のサブフレームでの信号特性の検出結果を直前サブフレーム信号特性判定結果sub_prm1として保持し、有音・無音検出結果sub_mum、ゼロクロス数sub_zcと共に入力として用いる。有声音・無声音判定部10322は、先の3つの値を入力として、信号特性判定結果sub_prm及び直前サブフレーム信号特性判定結果sub_prm1を更新して出力する。なお、後述する有声音無声音閾値βは、処理中のサブフレームが無声音であるか有声音あるいは無音であるかを判定するために予め定められた値が用いられる。なお、数1中を用いて信号特性を判定する際には、sub_zc=βをsub_zc<βあるいはsub_zc>βのいずれに等しいものとして扱っても構わない。
The voiced / unvoiced
有声音・無声音判定部10322は、直前のサブフレームと処理中のサブフレームが共に無音であると判断した場合に、信号特性判定結果sub_prmの値をsub_prm=0、直前サブフレーム信号特性判定結果sub_prm1の値をsub_prm1=0として出力する。
When the voiced / unvoiced
有声音・無声音判定部10322は、直前のサブフレームが有声音であり、処理中のサブフレームが無音であると判断した場合に、信号特性判定結果sub_prmの値をsub_prm=1、直前サブフレーム信号特性判定結果sub_prm1の値をsub_prm1=0として出力する。
When the voiced / unvoiced
有声音・無声音判定部10322は、直前のサブフレームが無声音であり、処理中のサブフレームが無音であると判断した場合に、信号特性判定結果sub_prmの値をsub_prm=2、直前サブフレーム信号特性判定結果sub_prm1の値をsub_prm1=0として出力する。
When the voiced / unvoiced
有声音・無声音判定部10322は、直前のサブフレームが無音であり、処理中のサブフレームが有声音であると判断した場合に、信号特性判定結果sub_prmの値をsub_prm=3、直前サブフレーム信号特性判定結果sub_prm1の値をsub_prm1=1として出力する。
When the voiced / unvoiced
有声音・無声音判定部10322は、直前のサブフレームと処理中のサブフレームが共に有声音であると判断した場合に、信号特性判定結果sub_prmの値をsub_prm=4、直前サブフレーム信号特性判定結果sub_prm1の値をsub_prm1=1として出力する。
When the voiced / unvoiced
有声音・無声音判定部10322は、直前のサブフレームが無声音であり、処理中のサブフレームが有声音であると判断した場合に、信号特性判定結果sub_prmの値をsub_prm=5、直前サブフレーム信号特性判定結果sub_prm1の値をsub_prm1=1として出力する。
When the voiced / unvoiced
有声音・無声音判定部10322は、直前のサブフレームが無音であり、処理中のサブフレームが無声音であると判断した場合に、信号特性判定結果sub_prmの値をsub_prm=6、直前サブフレーム信号特性判定結果sub_prm1の値をsub_prm1=2として出力する。
When the voiced / unvoiced
有声音・無声音判定部10322は、直前のサブフレームが有声音であり、処理中のサブフレームが無声音であると判断した場合に、信号特性判定結果sub_prmの値をsub_prm=7、直前サブフレーム信号特性判定結果sub_prm1の値をsub_prm1=2として出力する。
When the voiced / unvoiced
有声音・無声音判定部10322は、直前のサブフレームが無声音であり、処理中のサブフレームが無声音であると判断された場合に、信号特性判定結果sub_prmの値をsub_prm=8、直前サブフレーム信号特性判定結果sub_prm1の値をsub_prm1=2として出力する。
The voiced / unvoiced
(音量制御動作)
サブフレーム単位ゲイン算出部104は、信号特性判定結果sub_prmを入力として、音量制御を行うための基準値であるサブフレーム単位ゲインsub_powを、サブフレーム毎に算出する。より具体的には、信号特性判定結果sub_prmの値に応じて、サブフレーム単位ゲインsub_powの値をsub_pow=f(a)(a=0,1,2,・・・8)と設定する。f(a)は、8つの信号特性判定結果sub_prmの値それぞれに対応して予め設定された値とする。例えば信号特性判定結果sub_prmの値がsub_prm=6であった場合は、サブフレーム単位ゲインsub_powの値はsub_pow=f(6)と設定される。
(Volume control operation)
The subframe unit
ここで、信号特性判定結果sub_prmの値がsub_prm==6、sub_prm==7、sub_prm==8のいずれかである場合、即ち処理中のサブフレームが無声音であると判断された場合には、処理中のサブフレームの音声信号には、4kHz以上の周波数成分が含まれていることとなる。先述した様に、音響出力デバイスの出力周波数特性を補正するため4kHz以上の周波数成分を増幅させる処理を行う場合は、無声音を含む音声信号が振幅飽和を起こす虞がある。そのため、出力される音声信号が振幅飽和を起こす事態を避けるために、処理中のサブフレームが無声音であると判断された場合は、サブフレーム単位ゲインsub_powの値には、処理中のサブフレームの出力音量を減衰させる値が設定される。例えば、サブフレーム単位ゲインsub_powの値には、0<sub_pow<1となるような値が設定される。 Here, when the value of the signal characteristic determination result sub_prm is any of sub_prm == 6, sub_prm == 7, sub_prm == 8, that is, when it is determined that the subframe being processed is an unvoiced sound, The audio signal of the subframe being processed includes a frequency component of 4 kHz or higher. As described above, when performing a process of amplifying a frequency component of 4 kHz or more in order to correct the output frequency characteristic of the acoustic output device, there is a possibility that an audio signal including an unvoiced sound will cause amplitude saturation. Therefore, in order to avoid a situation where the output audio signal causes amplitude saturation, when it is determined that the subframe being processed is an unvoiced sound, the value of the subframe unit gain sub_pow includes the value of the subframe being processed. A value that attenuates the output volume is set. For example, a value such that 0 <sub_pow <1 is set as the value of the subframe unit gain sub_pow.
更に、0<f(6)<f(7)<f(8)<1となるようにサブフレーム単位ゲインsub_powの値を設定しても良い。sub_prm=8である場合は、即ち処理中のサブフレームが無声音であると判断され、且つ直前のサブフレームも無声音であると判断された場合である。この様な場合には、f(8)を1に近い値とすることで、直前のサブフレームの振幅の値と処理中のサブフレームの振幅の値が近い値となる。これにより、出力音響デバイスから出力される音を聞く使用者は、音量の変化が少ない自然な音声を聞くことができる。一方、sub_prm(6)である場合は、即ち処理中のサブフレームが無声音であると判断され、且つ直前のサブフレームが無音であると判断された場合である。この様な場合には、f(6)を0に近い値とすることで、処理中のサブフレームの振幅の値を大きく低下させる。これにより、無音状態から突然無声音が出力された場合であっても、音量の変化に素早く追随して振幅の値を低減される処理を行い、振幅飽和を起こす事態を防ぐことができる。 Furthermore, the value of the subframe unit gain sub_pow may be set so that 0 <f (6) <f (7) <f (8) <1. The case where sub_prm = 8 is a case where it is determined that the subframe being processed is an unvoiced sound and that the immediately preceding subframe is also determined to be an unvoiced sound. In such a case, by setting f (8) to a value close to 1, the amplitude value of the immediately preceding subframe and the amplitude value of the subframe being processed are close to each other. Thereby, the user who hears the sound output from the output acoustic device can hear natural sound with little change in volume. On the other hand, the case of sub_prm (6) is a case where it is determined that the subframe being processed is an unvoiced sound and that the immediately preceding subframe is determined to be silent. In such a case, by setting f (6) to a value close to 0, the amplitude value of the subframe being processed is greatly reduced. As a result, even when a silent sound is suddenly output from the silent state, it is possible to quickly follow the change in volume and perform a process of reducing the amplitude value, thereby preventing a situation where amplitude saturation occurs.
一方、信号特性判定結果sub_prmの値がsub_prm==6、sub_prm==7、sub_prm==8以外の値である場合、即ち処理中のサブフレームが無音あるいは有声音であると判断された場合には、音響出力デバイスの出力周波数特性を補正するため4kHz以上の周波数成分を増幅させる処理を行っていても、振幅飽和を起こす虞は少ない。そこで、処理中のサブフレームが無音あるいは有声音であると判断された場合は、サブフレーム単位ゲインsub_powの値を例えばsub_pow=1として設定する。 On the other hand, when the value of the signal characteristic determination result sub_prm is a value other than sub_prm == 6, sub_prm == 7, sub_prm == 8, that is, when the subframe being processed is determined to be silent or voiced. Is less likely to cause amplitude saturation even when a process of amplifying a frequency component of 4 kHz or higher is performed to correct the output frequency characteristics of the acoustic output device. Therefore, when it is determined that the subframe being processed is silent or voiced, the value of the subframe unit gain sub_pow is set as, for example, sub_pow = 1.
サンプル単位ゲイン算出部105は、信号特性判定結果sub_prm及びサブフレーム単位ゲインsub_powを入力として、サブフレーム信号sub_hpb[s]を構成する各サンプルの振幅の値を制御するためのサンプル単位ゲインsm_pow[s](s=1,2,3・・・S)を出力する。サンプル単位ゲイン算出部105は、サブフレーム変化量算出部1051、窓関数適応部1052、及び遅延部1053から構成される。
The sample
サンプル単位ゲイン算出部105は後述する処理によって、サブフレーム単位ゲインsub_pow[s]の値を基にして、サンプル毎に微分連続性を保つように滑らかに遷移するサンプル単位ゲインsm_pow[s]を出力する。これにより、自然な音量変化を保ったまま音量制御を行うことが可能である。サンプル単位ゲイン算出部105は、信号特性判定結果sub_prmに応じて、サンプル単位ゲインsm_pow[s]の遷移の遅速を変化させる。
The sample unit
サブフレーム変化量算出部1051は、サブフレーム単位ゲインsub_pow及び直前のサブフレームのリミッタ制御ゲインlimit_pow1を入力として、リミッタ制御ゲインlimit_powを出力する。リミッタ制御ゲインlimit_powは後述する窓関数適応部1053においてサンプル単位ゲインsm_pow[s]を算出する際に用いられる値である。サブフレーム変化量算出部1051は、リミッタ制御ゲインlimit_powの値を直前のサブフレームのリミッタ制御ゲインlimit_pow1に比して近い値に設定して出力する。これにより、直前のサブフレームの振幅の値と処理中のサブフレームの振幅の値とを使用者にとって自然に感じられる範囲で変化させることができる。より具体的には、サブフレーム変化量算出部1051は、直前のサブフレームのリミッタ制御ゲインlimit_pow1とサブフレーム単位ゲインsub_powとの値の差を比較する。両者の値の差が予め定めた閾値γを下回る場合、即ち|sub_pow−limit_pow1|<1/γとなる場合には、リミッタ制御ゲインlimit_powの値をlimit_pow=sub_powとなるように設定する。一方、両者の値の差が閾値γを上回る場合、即ち(sub_pow−limit_pow1)>1/γとなる場合は、リミッタ制御ゲインlimit_powの値をlimit_pow=limit_pow1×γとして設定する。また、(sub_pow−limit_pow1)<1/γとなる場合は、リミッタ制御ゲインlimit_powの値をlimit_pow=limit_pow1×(1/γ)として設定する。|sub_pow−limit_pow1|=1/γとなる場合は、リミッタ制御ゲインlimit_powの値として先述したいずれの値を設定しても構わない。ここで、閾値γは直前のサブフレームと処理中のサブフレームとの振幅の差が変化した場合に、音響出力デバイスから出力された音声を使用者が聞いた際に自然な変化量として感じられる限度の値を設定する。例えば、サブフレーム信号sub_hpb[s]が出力される時間が4msである場合に、閾値γは1.25〜1.50の範囲内の値を設定する。なお、閾値γの値はここに述べた値には限定されない。
The subframe change
遅延部1052は、直前のサブフレームにおけるリミッタ制御ゲインlimit_powを入力として保持し、直前のサブフレームのリミッタ制御ゲインlimit_pow1として出力する。なお、制御部100が音量制御処理を開始する場合、即ち直前のサブフレームのリミッタ制御ゲインlimit_pow1の値が存在しない場合は、直前のサブフレームのリミッタ制御ゲインlimit_pow1の値をlimit_pow1=1として出力する。
The
窓関数適応部1053は、リミッタ制御ゲインlimit_pow、直前のサブフレームのリミッタ制御ゲインlimit_pow1、及び信号特性判定結果sub_prmを入力として、数1に従って窓関数window[s]を算出する。更に、窓関数window[s]に従って、サンプル単位ゲインsm_pow[s]を算出する。そして、サブフレーム毎に得られたサンプル単位ゲインsm_pow[s]をフレーム毎にまとめたサンプル単位ゲインsm_pow[n]の値を出力する。また、窓関数適応部1053は、信号特性判定結果sub_prmに応じて窓関数window[s]の遷移の遅速を変化させる。より具体的には、まず窓関数適応部1053が、信号特性判定結果sub_prmの値を読み出す。そして、窓関数適応部1053は信号特性判定結果sub_prmの値に応じてスムージングパラメータ(XGate,YGate)の値を設定する。スムージングパラメータ(XGate,YGate)の値の設定は、例えば信号特性判定結果sub_prmの値とスムージングパラメータ(XGate,YGate)の値とを対応付けるテーブルデータを窓関数適応部1053が保持しておき、このテーブルデータに従って値を設定することで行われる。スムージングパラメータXGateは、時間方向に対する窓関数window[s]の変化の遅速を決定するパラメータであり、0<XGate≦1の値が用いられる。スムージングパラメータYGateは、ゲイン方向に対する窓関数window[s]の変化の遅速を決定するパラメータである。
The window function adaptation unit 1053 receives the limiter control gain limit_pow, the previous subframe limiter control gain limit_pow1, and the signal characteristic determination result sub_prm, and calculates the window function window [s] according to
以下に、リミッタ制御ゲインlimit_pow、直前のサブフレームのリミッタ制御ゲインlimit_pow1、及び信号特性判定結果sub_prmを入力として、窓関数window[s]、サンプル単位ゲインsm_pow[s]、及びサブフレーム毎に算出されるサンプル単位ゲインsm_pow[s]をフレーム毎にまとめたサンプル単位ゲインsm_pow[n]を算出する数式である数1を示す。
まず、スムージングパラメータ(XGate,YGate)を入力として、数1(a,b,c)より窓関数window[s]が算出される。次に、算出した窓関数window[s]を入力として、数1(d)よりサンプル単位ゲインsm_pow[s]が算出される。サンプル単位ゲインsm_pow[s]は、直前フレームのリミッタ制御ゲインlimit_pow1からリミッタ制御ゲインlimit_powへと遷移する関数として算出される。最後に、サブフレーム毎に算出したサンプル単位ゲインsm_pow[s]を結合し、サンプル単位ゲインsm_pow[n]が算出される。 First, the smoothing parameters (XGate, YGate) are input, and the window function window [s] is calculated from Equation 1 (a, b, c). Next, the sample unit gain sm_pow [s] is calculated from Equation 1 (d) using the calculated window function window [s] as an input. The sample unit gain sm_pow [s] is calculated as a function of transition from the limiter control gain limit_pow1 of the immediately preceding frame to the limiter control gain limit_pow. Finally, the sample unit gain sm_pow [s] calculated for each subframe is combined to calculate the sample unit gain sm_pow [n].
図6にスムージングパラメータ(XGate,YGate)の値に応じてサンプル単位ゲインsm_pow[s]が変化する様子を示す。図6(A)は、スムージングパラメータ(XGate,YGate)の値が、(XGate,YGate)=(0.5,1.0)と設定された時のサンプル単位ゲインsm_pow[s]を示している。図6(B)は、スムージングパラメータ(XGate,YGate)の値が、(XGate,YGate)=(0.25,1.0)と設定された時のサンプル単位ゲインsm_pow[s]を示している。図6(B)に示すサンプル単位ゲインsm_pow[s]は、図6(A)に示すサンプル単位ゲインsm_pow[s]に比べ、時間方向に速い速度で値が遷移していることがわかる。図6(C)は、スムージングパラメータ(XGate,YGate)の値が、(XGate,YGate)=(0.5,2.0)と設定された時のサンプル単位ゲインsm_pow[s]を示している。図6(D)は、スムージングパラメータ(XGate,YGate)の値が、(XGate,YGate)=(0.5,3.0)と設定された時のサンプル単位ゲインsm_pow[s]を示している。図6(D)に示すサンプル単位ゲインsm_pow[s]は、図6(C)に示すサンプル単位ゲインsm_pow[s]に比べ、ゲイン方向に早い速度で遷移していることがわかる。 FIG. 6 shows how the sample unit gain sm_pow [s] changes according to the values of the smoothing parameters (XGate, YGate). FIG. 6A shows the sample unit gain sm_pow [s] when the values of the smoothing parameters (XGate, YGate) are set to (XGate, YGate) = (0.5, 1.0). . FIG. 6B shows the sample unit gain sm_pow [s] when the values of the smoothing parameters (XGate, YGate) are set to (XGate, YGate) = (0.25, 1.0). . It can be seen that the value of the sample unit gain sm_pow [s] shown in FIG. 6B transitions at a faster speed in the time direction than the sample unit gain sm_pow [s] shown in FIG. FIG. 6C shows the sample unit gain sm_pow [s] when the values of the smoothing parameters (XGate, YGate) are set to (XGate, YGate) = (0.5, 2.0). . FIG. 6D shows the sample unit gain sm_pow [s] when the values of the smoothing parameters (XGate, YGate) are set to (XGate, YGate) = (0.5, 3.0). . It can be seen that the sample unit gain sm_pow [s] shown in FIG. 6D transitions at a faster speed in the gain direction than the sample unit gain sm_pow [s] shown in FIG.
例えば、信号特性判定結果sub_prmの値がsub_prm=6の場合、即ち直前のサブフレームが無音であり、処理中のサブフレームが無声音である場合には、振幅の値がスイッチ的に切り替わる事態が予想される。この様な場合には、スムージングパラメータ(XGate,YGate)の値をそれぞれ大きな値に設定し、サンプル単位ゲインsm_pow[s]の遷移を早めることで、振幅の値の切り替わりに追随した制御を行うことができる。一方、信号特性判定結果sub_prmの値がsub_prm=7の場合、即ち直前のサブフレームが有声音であり、処理中のサブフレームが無声音であると判断された場合には、振幅の値が徐々に切り替わる事態が予想される。この様な場合には、スムージングパラメータ(XGate,YGate)の値をそれぞれ小さな値に設定し、サンプル単位ゲインsm_pow[s]の遷移を遅めることで、振幅の値を徐々に制御する。 For example, when the value of the signal characteristic determination result sub_prm is sub_prm = 6, that is, when the immediately preceding subframe is silent and the subframe being processed is unvoiced, it is expected that the amplitude value is switched in a switch manner. Is done. In such a case, the smoothing parameters (XGate, YGate) are set to large values and the transition of the sample unit gain sm_pow [s] is advanced so that the control following the switching of the amplitude value is performed. Can do. On the other hand, when the value of the signal characteristic determination result sub_prm is sub_prm = 7, that is, when it is determined that the immediately preceding subframe is voiced sound and the subframe being processed is unvoiced sound, the amplitude value gradually increases. The situation is expected to change. In such a case, the value of the smoothing parameter (XGate, YGate) is set to a small value, and the amplitude value is gradually controlled by delaying the transition of the sample unit gain sm_pow [s].
信号特性判定結果sub_prmの値がこれ以外、すなわちsub_prm=1,2,3,4,5,8の場合には、スムージングパラメータ(XGate,YGate)の値をsub_prm=6の場合とsub_prm=7の場合に比べ中間となる値に設定してもよい。これにより、音響出力デバイスから出力された音声の音量を使用者にとって自然に変化させることができる。 When the value of the signal characteristic determination result sub_prm is other than this, that is, when sub_prm = 1, 2, 3, 4, 5, 8, the values of the smoothing parameters (XGate, YGate) are set to the values of sub_prm = 6 and sub_prm = 7. It may be set to an intermediate value compared to the case. Thereby, the volume of the sound output from the acoustic output device can be naturally changed for the user.
なお、本実施例においては窓関数適応部1053がサンプル単位ゲインsm_pow[n]を算出する関数の一例として数1を挙げた。しかし、本発明が用いるサンプル単位ゲインsm_pow[n]の算出方法はこれに限られるものではなく、サンプル単位ゲインsm_pow[n]が微分連続性を保ちながら値の遷移の遅速を変化させるものであれば、他の関数を用いて算出しても構わない。
In this embodiment,
音量制御部106は、信号hp[n]及びサンプル単位ゲインsm_pow[n]を入力として、信号hp[n]中に含まれる振幅の値を変化させ、これをプレ処理信号d[n]として出力する。より具体的には、例えばプレ処理信号d[n]は信号hp[n]とサンプル単位ゲインsm_pow[n]の積算によって算出される。これにより、プレ処理信号d[n]の振幅の大きさは、サンプル単位ゲインsm_pow[n]に沿って変化することとなる。ここで、音量制御部106は、例としてプレ処理信号d[n]を信号hp[n]とサンプル単位ゲインsm_pow[n]の積算によって算出すると述べた。しかし、本発明が用いる音量制御部106の動作はこれに限られるものではなく、例えば信号hp[n]に対してサンプル単位ゲインsm_pow[n]を累乗したものを積算しても構わないし、あるいは他の方法によりサンプル単位ゲインsm_pow[n]に従い信号hp[n]の振幅を重み付けして、プレ処理信号d[n]を出力するものであっても構わない。
The
周波数特性補正部107は、プレ処理信号d[n]を入力として、音響出力デバイスの周波数特性に合わせてプレ処理信号d[n]の補正を行い、出力信号y[n]として出力する。例えば音響出力デバイスが4kHz以上の周波数を持つ出力信号y[n]を出力するときに、4kHz以下の周波数を持つ出力信号y[n]の出力に比べて出力音量が減衰するような周波数特性を有する場合を考える。この場合、周波数特性補正部107は、プレ処理信号d[n]中に含まれる4kHz以上の周波数成分を増幅して出力信号y[n]として出力する。これにより、音響出力デバイスによる4kHz以上の周波数成分の減衰と、周波数特性補正部107が行った4kHz以上の周波数成分の増幅とが打ち消しあう。これにより、音響出力デバイスから出力される音声を聞く使用者は、入力音声の持つ本来の音質を体感することができる。より具体的には、周波数特性補正部107は、プレ処理信号d[n]に対して例えばFFT(Finite Fourier transform)処理などを施し、周波数領域の信号へと直交変換する。直交変換された周波数領域の信号に対して、音響出力デバイスに合わせて周波数特性の加減算を行う。周波数特性の加減算が行われた周波数領域の信号に対して例えばIFFT(InverseFinite F
ourier transform)処理などを施し、時間領域の信号へと直交変換する。直交変換された時間領域の信号を、出力信号y[n]として出力する。本実施例では周波数特性補正部107の動作の例として、プレ処理信号d[n]を周波数変換して周波数特性の補正を行う動作を述べた。しかし、本発明における周波数特性補正部107の動作はこれに限られるものではなく、例えばプレ処理信号d[n]の周波数領域への直交変換を省略し、時間領域のプレ処理信号d[n]に対してIIR(Infinite Impulse Response)フィルタやFIR(Finite Impulse Response)フィルタ処理を施すことでも同様の発明の効果が得られる。
The frequency
(orientor transform) processing and the like, and orthogonal transform into a signal in the time domain. The orthogonally transformed time domain signal is output as an output signal y [n]. In the present embodiment, as an example of the operation of the frequency
(制御部による音量制御処理の流れ)
図7は、制御部100に入力された入力信号x[n]が出力信号y[n]として出力される際の、実質的な処理の流れを述べたフローチャートである。以下に、図7に沿って制御部100が行う処理を述べる。
(Flow of volume control processing by the control unit)
FIG. 7 is a flowchart illustrating a substantial processing flow when the input signal x [n] input to the
まず、制御部100へと入力された入力信号x[n]は、直流成分除去フィルタ部101に入力される(ステップ1001)。直流成分除去フィルタ部101は、入力信号x[n]中に含まれる直流成分を除去し、音声信号のみを抽出した信号hp[n]をサブフレーム分割部102及び音量制御部106へと出力する。
First, the input signal x [n] input to the
信号hp[n]は、サブフレーム分割部102に入力される(ステップ1002)。サブフレーム分割部102は、N個のサンプルからなる信号hp[n]を、S個のサンプルからなるサブフレーム信号sub_hpb[s]へと分割し、信号特性検出部103へと出力する。
The signal hp [n] is input to the subframe dividing unit 102 (step 1002). The
サブフレーム信号sub_hpb[s]は、サブフレーム振幅最大値検出部10311へと入力される(ステップ1003)。サブフレーム振幅最大値検出部10311は、サブフレーム信号sub_hpb[s]内のサンプルのうち、最大の振幅の値を持つサンプルを抽出し、その振幅の値をサブフレーム最大振幅値sub_maxとして有音・無音判定部10312へと出力する。
The subframe signal sub_hpb [s] is input to the subframe amplitude maximum value detection unit 10311 (step 1003). The subframe amplitude maximum value detection unit 10311 extracts a sample having the maximum amplitude value from the samples in the subframe signal sub_hpb [s], and uses the amplitude value as the subframe maximum amplitude value sub_max. The sound is output to the
サブフレーム最大振幅値sub_maxは、有音・無音判定部10312へと入力される(ステップ1004)。有音・無音判定部10312は、サブフレーム最大振幅値sub_maxと有音無音閾値αとの大小を比較し、サブフレーム信号sub_hpb[s]が有音であるか無音であるかを判断する。
The subframe maximum amplitude value sub_max is input to the sound / silence determination unit 10312 (step 1004). The voice /
サブフレーム信号sub_hpb[s]が有音であると判断されると(ステップ1004の「有音」)、sub_hpb[s]の入力を受けたゼロクロス数検出部10321によって、サブフレーム信号sub_hpb[s]内に含まれるゼロクロス点の検出が行われる(ステップ1005)。ゼロクロス点の検出が行われると、サブフレーム信号sub_hpb[s]内に含まれるゼロクロス点の数がゼロクロス数sub_zcとして有声音・無声音判定部10322へと出力される。
If it is determined that the subframe signal sub_hpb [s] is sound (“sound” in step 1004), the subframe signal sub_hpb [s] is received by the zero cross number detection unit 10321 that receives the input of sub_hpb [s]. The zero cross point included in the frame is detected (step 1005). When the zero cross point is detected, the number of zero cross points included in the subframe signal sub_hpb [s] is output to the voiced / unvoiced
一方、サブフレーム信号sub_hpb[s]が無音であると判断されると(ステップ1004の「無音」)、ゼロクロス数検出部10321によるゼロクロス点の検出は省略され、ゼロクロス数sub_zcの値はsub_zc=0として有声音・無声音判定部10322へと出力される。
On the other hand, if it is determined that the subframe signal sub_hpb [s] is silent (“silence” in step 1004), detection of the zero cross point by the zero cross number detection unit 10321 is omitted, and the value of the zero cross number sub_zc is sub_zc = 0. Is output to the voiced / unvoiced
ゼロクロス数sub_zcは、有声音・無声音判定部10322へと入力される(ステップ1006)。有声音・無声音判定部10322は、ゼロクロス数sub_zcと閾値βとの大小を比較し、サブフレーム信号sub_hpb[s]が無声音であるか否かを判断する。
The zero-cross number sub_zc is input to the voiced / unvoiced sound determination unit 10322 (step 1006). Voiced / unvoiced
ステップ1004及びステップ1006によって、sub_hpb[s]が無音であるか、有音であるか、あるいは無声音であるかが判断され、この判断結果は信号特性判定結果sub_prmとしてサブフレーム単位ゲイン算出部104及び窓関数適応部1052へと出力される。
In
信号特性判定結果sub_prmは、サブフレーム単位ゲイン算出部104へと入力される。サブフレーム単位ゲイン算出部104は、サブフレーム信号sub_hpb[s]が無音であるか、あるいは有声音である場合は(ステップ1004の「無音」及びステップ1006の「有声音」)、サブフレーム単位ゲインsub_powの値をsub_pow=1として、サブフレーム単位ゲイン算出部1051へ出力する(ステップ1008)。
The signal characteristic determination result sub_prm is input to the subframe unit
一方、サブフレーム信号sub_hpb[s]が無声音である場合は(ステップ1006の「無声音」)、サブフレーム単位ゲインsub_powの値をsub_pow<1となる値に設定して、サブフレーム単位ゲイン算出部1051へ出力する(ステップ1007)。ここで、サブフレーム単位ゲイン算出部104の動作の項で述べたように、サブフレーム単位ゲインsub_powの値は、直前のサブフレームが無音であるか、有音であるか、あるいは無声音であるかに応じて変化させてもよい。
On the other hand, when the subframe signal sub_hpb [s] is an unvoiced sound (“unvoiced sound” in step 1006), the value of the subframe unit gain sub_pow is set to a value satisfying sub_pow <1, and the subframe unit gain calculation unit 1051 (Step 1007). Here, as described in the section of the operation of the subframe unit
サブフレーム単位ゲインsub_powは、サブフレーム変化量算出部1051へと入力される(ステップ1009)。サブフレーム変化量算出部1051は、サブフレーム単位ゲインsub_powと、直前のフレームのリミッタ制御ゲインlimit_pow1とを比較する。サブフレーム変化量算出部1051は、サブフレーム単位ゲインsub_powと、直前のフレームのリミッタ制御ゲインlimit_pow1との差が大きい場合には、自然な音量変化が得られるリミッタ制御ゲインlimit_powを閾値γに基づいて再設定し、窓関数適応部1052へ出力する。
The subframe unit gain sub_pow is input to the subframe change amount calculation unit 1051 (step 1009). The subframe change
リミッタ制御ゲインlimit_powは、窓関数適応部1052へと入力される。窓関数適応部1052は、信号特性判定結果sub_prmから、直前のサブフレーム信号が有音であるか、あるいは無音であるかを判断する。これが無音である場合は(ステップ1010の「無音」)、窓関数適応部1052は直前のリミッタ制御ゲインlimit_pow1の値から処理中のフレームのリミッタ制御ゲインlimit_powの値へと早く遷移する、サンプル単位ゲインsm_pow[s]を算出する(ステップ1011)。
The limiter control gain limit_pow is input to the window
一方、直前のサブフレーム信号が有音である場合は(ステップ1010の「有音」)、窓関数適応部1052は直前のリミッタ制御ゲインlimit_pow1の値から処理中のフレームのリミッタ制御ゲインlimit_powの値へと緩やかに遷移する、サンプル単位ゲインsm_pow[s]を算出する(ステップ1012)。窓関数適応部1052は、算出されたサンプル単位ゲインsm_pow[s]を結合し、サンプル単位ゲインsm_pow[n]を生成する(ステップ1013)。生成されたサンプル単位ゲインsm_pow[n]は、音量制御部106へと出力される。
On the other hand, if the immediately preceding subframe signal is sound (“sound” in step 1010), the window
サンプル単位ゲインsm_pow[n]は、音量制御部106へと入力される(ステップ1014)。音量制御部106は、信号hp[n]中に含まれる振幅の値を、サンプル単位ゲインsm_pow[n]に従って変化させ、これをプレ処理信号d[n]として、周波数特性補正部107へと出力する。
The sample unit gain sm_pow [n] is input to the volume control unit 106 (step 1014). The
プレ処理信号d[n]は、周波数特性補正部107へと入力される(ステップ1015)。周波数特性補正部107は、制御部100に接続された音響出力デバイスの周波数特性に合わせてプレ処理信号d[n]の補正を行い、出力信号y[n]として出力する。
The pre-process signal d [n] is input to the frequency characteristic correction unit 107 (step 1015). The frequency
上述した一連の処理によって、制御部100は入力された音声信号に無声音が含まれるか否かを判定し、無声音が含まれる場合には音声信号の振幅の値を減少させる処理を行う。音声信号中の無声音が含まれる箇所に対して振幅の値を減少させる処理を行うことで、音響出力デバイスの出力周波数特性に合わせて4kHz以上の帯域の音声信号の増幅がなされた場合であっても、音声信号が振幅飽和を起こす事態を防ぐことができる。
Through the series of processes described above, the
更に、制御部100はサブフレーム毎にリミッタ制御ゲインlimit_powを算出するが、このリミッタ制御ゲインlimit_powを滑らかに変化させるようにサンプル単位ゲインsm_pow[n]を算出する。このサンプル単位ゲインsm_pow[n]に従って各サンプルの振幅補正を行うため、使用者に音量の急激な変化による不自然な印象を与えることがない。
Furthermore, the
更に、制御部100は無音状態から急に無声音が発生された場合はサンプル単位ゲインsm_pow[n]を急激に変化させる。これにより、急な振幅飽和の発生を防ぎ、音量制御を時間的に精度良く行うことができる。一方、有声音から無声音に変化する場合には急には振幅飽和が発生しないため、サンプル単位ゲインsm_pow[n]の変化を緩やかに行う。これにより、使用者にとって不自然な印象を与えることなく振幅を制御することができる。
Further, the
(第2の実施例)
図8は、本発明の第2の実施形態に関わる電子機器に内蔵される、制御部100及び、制御部100に接続された第2制御部200の構成を示す図である。
(Second embodiment)
FIG. 8 is a diagram illustrating a configuration of the
制御部100から出力される出力信号y[n]は、入力信号x[n]中に含まれる無声音部分の振幅が減衰された信号となっている。従って、無声音の増幅が原因となって発生する振幅飽和が生じる事態は防がれている。ところで入力信号x[n]は、例えば入力信号x[n]を生成した話者のアクセントや、入力信号x[n]を生成する原信号となった音楽などの強弱、あるいは入力信号を生成する機器の状態の変化などによって、その振幅の強弱には大きな差が生じることとなる。制御部100から出力される出力信号y[n]も依然として、振幅の強弱に大きな差を含んでいる。この様な振幅の変化の大きい信号を音響出力デバイスから出力すると、例えば無音状態から突然大きな音声が音響出力デバイスから出力されることで携帯電話機の使用者に不快な印象を与える虞や、あるいは音量の小さい音声が音響出力デバイスから出力されることで携帯電話機の使用者が音声を聞き取ることが出来なくなる虞があった。
The output signal y [n] output from the
そこで、第2の実施形態においては、制御部100に更に第2制御部200を接続し、第2制御部によって出力信号y[n]の振幅の正規化を行う。そして、正規化された出力信号y[n]を出力信号z[n]として音響出力デバイスへ出力する。振幅を正規化することにより、一定の音量を保った聞き取りやすい音声信号を出力することができる。
Therefore, in the second embodiment, the
更に、無音状態から急に音声が発生する音声信号が入力された場合は、振幅ゲインの変化も急激なものとする。これにより、無音状態から突然大きな音量が出力される事態を避け、音量制御を時間的に精度良く行うことができる。一方、音声が継続するような音声信号が入力された場合は、振幅ゲインの変化を緩やかなものとする。これにより、使用者にとって不自然な印象を与えることなく振幅を制御することができる。 Furthermore, when an audio signal that suddenly generates audio from a silent state is input, the change in amplitude gain is also abrupt. As a result, it is possible to avoid a situation in which a large sound volume is suddenly output from the silent state, and to perform sound volume control with high accuracy in time. On the other hand, when an audio signal that continues the audio is input, the change in the amplitude gain is made gradual. As a result, the amplitude can be controlled without giving an unnatural impression to the user.
以下、図3に示す第2制御部200の各構成要素について、その構成と役割を述べる。制
御部200は、有音・無音検出部201、フレーム振幅最大値検出部202、フレーム単位ゲイン算出部203、第2サンプル単位ゲイン算出部204、及び音量正規化部205から構成される。
Hereinafter, the configuration and role of each component of the
有音・無音検出部201は、直流成分制御フィルタ101から出力された信号hp[n]を入力として、信号hp[n]が有音であるか、無音であるかを判別する。また、直前のフレームの信号hp[n]が有音であるか、無音であるかの情報を用いて、直前フレームと処理中のフレーム間の有音・無音の切り替わりを示す情報を、有音・無音検出結果fr_mumとして出力する。有音・無音検出部201は、第1の実施例で述べたサブフレーム信号sub_hpb[s]を入力とする有音・無音検出部1031と同様の処理によって、hp[n]の有音・無音の判別を行う。
The voice /
以下に、処理中のフレームが有音・無音であるか、また直前のフレームが有音・無音であるかによって有音・無音検出結果fr_mum及び直前フレームの有音・無音検出結果fr_mum1を算出する条件を示す。 In the following, the sound / silence detection result fr_um and the sound / silence detection result fr_um1 of the immediately preceding frame are calculated depending on whether the frame being processed is sound / silence or whether the immediately preceding frame is sound / silence. Indicates conditions.
直前のフレームと処理中のフレームが共に無音であると判断された場合に、有音・無音検出結果fr_mumの値をfr_mum=0、直前フレームの有音・無音検出結果fr_mum1の値をfr_mum1=0とする。 When it is determined that both the immediately preceding frame and the frame being processed are silent, the value of the sound / silence detection result fr_mum is 0, and the value of the sound / silence detection result fr_mum1 of the immediately previous frame is fr_mum1 = 0. And
直前のフレームが無音であり、処理中のフレームが有音であると判断された場合に、有音・無音検出結果fr_mumの値をfr_mum=1、直前フレームの有音・無音検出結果fr_mum1の値をfr_mum1=1とする。 When it is determined that the previous frame is silent and the frame being processed is voiced, the value of the voiced / silent detection result fr_um = 1 is set to fr_mum = 1, and the value of the voiced / silent detection result fr_mum1 of the immediately preceding frame is set. Is fr_um1 = 1.
直前のフレームが有音であり、処理中のフレームが無音であると判断された場合に、有音・無音検出結果fr_mumの値をfr_mum=2、直前フレームの有音・無音検出結果fr_mum1の値をfr_mum1=0とする。 When it is determined that the immediately preceding frame is sound and the frame being processed is silent, the value of the sound / silence detection result fr_mum is set to fr_mum = 2, and the value of the sound / silence detection result fr_mum1 of the immediately preceding frame is determined. Is fr_um1 = 0.
直前のフレームと処理中のフレームが共に有音であると判断された場合に、有音・無音検出結果fr_mumの値をfr_mum=3、直前フレームの有音・無音検出結果fr_mum1の値をfr_mum1=1とする。 When it is determined that both the previous frame and the frame being processed are sound, the value of the sound / silence detection result fr_mum is 3, and the value of the sound / silence detection result fr_mum1 of the immediately previous frame is fr_mum1 = Set to 1.
フレーム振幅最大値検出部202は、有音・無音検出結果fr_mum及び出力信号y[n]を入力として、出力信号y[n]内に含まれる振幅の最大値を検出する。この検出された振幅の最大値をフレーム振幅最大値fr_maxとして出力する。また、入力された有音・無音検出結果fr_mumの値がfr_mum=0である場合には、最大値の検出動作を省略し、フレーム振幅最大値fr_maxの値をfr_max=0として出力してもよい。また、フレーム振幅最大値検出部202は、信号hp[n]内に含まれる振幅の最大値を検出し出力すると述べた。しかし、フレーム振幅最大値検出部203が出力する値はこれに限られるものではなく、信号hp[n]の平均の振幅レベルを出力するものであっても構わない。また、信号hp[n]の平均のスペクトルパワーを出力するものであっても構わない。
The frame amplitude maximum
フレーム単位ゲイン算出部203は、フレーム振幅最大値検出部202から出力されたフレーム振幅最大値fr_max及び有音・無音検出部201から出力された有音・無音検出結果fr_mumを入力として、音量制御を行うための基準値であるフレーム単位ゲインfr_powを、フレーム毎に算出する。より具体的には、有音・無音検出結果fr_mumの値に応じて、フレーム単位ゲインfr_powの値をfr_pow=f(b)(b=0,1,2,3)と設定する。ここで、有音・無音検出結果fr_mumの値がfr_mum==0、fr_mum==2のいずれかである場合、即ち処理中のフレームが無音であると判断された場合は、処理中のフレームに振幅を増減する制御を行う必要がない。従って、処理中のフレームが無音であると判断された場合は、フレーム単位ゲインfr_powの値はfr_pow=1が設定される。一方、有音・無音検出結果fr_mumの値がfr_mum==1、fr_mum==3のいずれかである場合、即ち処理中のフレームが有音であると判断された場合は、処理中のフレームが音響出力デバイスから出力された際に一定の音量となるよう、振幅の規格化を行う必要がある。従って、処理中のフレームが有音であると判断された場合は、フレーム単位ゲインfr_powの値はfr_pow=(OUT_LEVEL/fr_max)が設定される。ここで、音量正規化目標レベルOUT_LEVELは、出力目標とする振幅レベルである。音量正規化目標レベルOUT_LEVELは、予め定められた値を用いても構わないし、携帯電話機の使用者が必要に応じて定める値であっても構わない。
The frame unit
第2サンプル単位ゲイン算出部204は、フレーム単位ゲイン算出部203から出力されたフレーム単位ゲインfr_pow及び有音・無音検出結果fr_mumを入力として、出力信号y[n]を構成する各サンプルの振幅の値を制御するための第2サンプル単位ゲインauto_gain[n]を出力する。第2サンプル単位ゲイン算出部204は、信号特性判定結果sub_prm及びサブフレーム単位ゲインsub_powを入力として、サンプル単位ゲインsm_pow[s]を出力するサンプル単位ゲイン算出部105と同様の処理によって、第2サンプル単位ゲインauto_gain[n]の出力を行う。先述したサンプル単位ゲイン算出部105は、信号特性判定結果sub_prmに応じてサンプル単位ゲインsm_pow[s]の遷移の遅速を変化させていた。一方第2サンプル単位ゲイン算出部204は、有音・無音検出結果fr_mumに応じて第2サンプル単位ゲインauto_gain[n]の遷移の遅速を変化させる。例えば有音・無音検出結果fr_mumの値がfr_mum==1であるとき、即ち直前のフレームが無音であり、処理中のフレームが有音である場合は、無音から有音への変化はスイッチ的に急激に行われる事態が考えられる。この様な場合には第2サンプル単位ゲインauto_gain[n]の遷移を早めることで、スイッチ的な音量の変化に対しても追従性よく音量の補正を行うことができる。一方、有音・無音検出結果fr_mumの値がfr_mum==3であるとき、即ち直前のフレームと処理中のフレームが共に有音である場合は、音量の変化は比較的緩やかに行われる事態が考えられる。この様な場合には第2サンプル単位ゲインauto_gain[n]の遷移を遅めることで、携帯電話機の使用者にとって自然な補正量で音量の補正を行うことが可能である。
The second sample unit
音量正規化部205は、出力信号y[n]及びサンプル単位ゲインauto_gain[n]を入力として、出力信号y[n]の各サンプルの振幅の値を変化させる。より具体的には、音量正規化部205は、出力信号z[n]を、出力信号y[n]とサンプル単位ゲインauto_gain[n]との積算から算出して出力する。例えばサンプル単位ゲインauto_gain[n]が1より小さな値である場合には、出力信号y[n]に比べ出力信号z[n]は小さな振幅の値に減衰されることとなる。一方、例えばサンプル単位ゲインauto_gain[n]が1より大きな値である場合には、出力信号y[n]に比べ出力信号z[n]は大きな振幅の値に増幅されることとなる。こうした音量正規下部205による振幅値の操作によって、音量正規化目標レベルOUT_LEVELに沿った出力信号z[n]を得ることができる。
The
(第2制御部による音量制御処理の流れ)
図9は、第2制御部200に入力された出力信号y[n]が出力信号z[n]として出力される際の、実質的な処理の流れを述べたフローチャートである。以下に、図9に沿って第2制御部200が行う処理を述べる。
(Flow of volume control processing by second control unit)
FIG. 9 is a flowchart describing a substantial process flow when the output signal y [n] input to the
まず、第2制御部200へと入力された出力信号y[n]は、フレーム振幅最大値検出部202へと入力される(ステップ2001)。フレーム振幅最大値検出部は、出力信号y[n]内のサンプルのうち、最大の振幅の値を持つサンプルを抽出し、その振幅の値をフレーム最大振幅値fr_maxとしてフレーム単位ゲイン算出部203へと出力する。
First, the output signal y [n] input to the
一方、第2制御部200へと入力された信号hp[n]は、有音・無音検出部201へと入力される(ステップ2002)。有音・無音検出部201は、信号hp[n]の振幅の値から、信号hp[n]が有音であるか、あるいは無音であるかを判断する。有音・無音検出部201は、直前のフレームが有音であるかあるいは無音であるかと、処理中のフレームが有音であるかあるいは無音であるかを判別した有音無音検出結果fr_mumを、フレーム単位ゲイン算出部203へと出力する。
On the other hand, the signal hp [n] input to the
有音・無音検出結果fr_mum及びフレーム振幅最大値fr_maxは、フレーム単位ゲイン算出部203へと入力される。フレーム単位ゲイン算出部203は、有音・無音検出結果fr_mumから入力信号y[n]が有音か無音かの判断を行う(ステップ2002)。入力信号y[n]が有音であると判断されると(ステップ2002の「有音」)、フレーム単位ゲイン算出部203はフレーム振幅最大値fr_maxを規格化したフレーム単位ゲインfr_powを出力する(ステップ2003)。
The voiced / silent detection result fr_um and the maximum frame amplitude value fr_max are input to the frame unit
一方、入力信号y[n]が無音であると判断されると(ステップ2002の「無音」)、フレーム単位ゲイン算出部203はフレーム単位ゲインfr_powの値をfr_pow=1として出力する(ステップ2004)。
On the other hand, when it is determined that the input signal y [n] is silent (“silence” in step 2002), the frame unit
フレーム単位ゲインfr_pow及び有音・無音検出結果fr_mumは、第2サンプル単位ゲイン算出部204へと入力される。第2サンプル単位ゲイン算出部204は、有音・無音検出結果fr_mumから直前のフレームの入力信号y[n]が有音か無音かの判断を行う(ステップ2005)。直前のフレームの入力信号y[n]が無音であると判断されると(ステップ2005の「無音」)、第2サンプル単位ゲイン算出部204は直前のフレームのフレーム単位ゲインfr_pow1から処理中のフレームのフレーム単位ゲインfr_powへと早く遷移するサンプル単位ゲインauto_gain[n]を算出する(ステップ2006)。
The frame unit gain fr_pow and the sound / silence detection result fr_um are input to the second sample unit
一方、直前のフレームの入力信号y[n]が有音であると判断されると(ステップ2005の「有音」)、第2サンプル単位ゲイン算出部204は、直前のフレームのフレーム単位ゲインfr_pow1から処理中のフレームのフレーム単位ゲインfr_powへと緩やかに遷移するサンプル単位ゲインauto_gain[n]を算出する(ステップ2007)。
On the other hand, when it is determined that the input signal y [n] of the immediately preceding frame is sound (“sound” in step 2005), the second sample
サンプル単位ゲインauto_gain[n]は、音量正規化部205へと入力される(ステップ2008)。音量正規化部205は、出力信号y[n]中に含まれる振幅の値を、振幅ゲインauto_gain[n]に従って変化させ、これを出力信号z[n]として出力する。
The sample unit gain auto_gain [n] is input to the volume normalization unit 205 (step 2008). The
上述した一連の処理によって、第2制御部200は、制御部100が出力した出力信号y[n]の振幅の値を音量正規化目標レベルOUT_LEVELに従って正規化し、正規化された出力信号z[n]を出力する。振幅を正規化することにより、一定の音量を保った聞き取りやすい音声信号を出力することができる。
Through the series of processes described above, the
更に、無音状態から急に音声が発生する出力信号y[n]が入力された場合は、振幅ゲインauto_gain[n]の変化も急激なものとする。これにより、無音状態から突然大きな音量が出力される事態を避け、音量制御を時間的に精度良く行うことができる。一方、音声が継続するような出力信号y[n]が入力された場合は、振幅ゲインauto_gain[n]の変化を緩やかなものとする。これにより、使用者にとって不自然な印象を与えることなく振幅を制御することができる。 Furthermore, when an output signal y [n] that suddenly generates sound from a silent state is input, the amplitude gain auto_gain [n] also changes rapidly. As a result, it is possible to avoid a situation in which a large sound volume is suddenly output from the silent state, and to perform sound volume control with high accuracy in time. On the other hand, when the output signal y [n] that continues the voice is input, the change of the amplitude gain auto_gain [n] is made gradual. As a result, the amplitude can be controlled without giving an unnatural impression to the user.
なお、本発明は、上記実施形態に限定されるものではなく、発明の要旨を逸脱しない範囲であれば、構成要素を変形して具体化しても良い。また、上記各実施形態に開示されている複数の構成要素の適宣な組み合わせにより、種々の発明を形成しても良い。例えば、各実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。
In addition, this invention is not limited to the said embodiment, As long as it is a range which does not deviate from the summary of invention, you may deform | transform and embody a component. Various inventions may be formed by proper combinations of a plurality of constituent elements disclosed in the above embodiments. For example, some components may be deleted from all the components shown in each embodiment.
100 制御部
101 直流成分制御フィルタ
102 サブフレーム分割部
103 信号特性検出部
1031 信号特性検出部
10311 サブフレーム振幅最大値検出部
10312 有音・無音判定部
1032 有声音・無声音検出部
10321 ゼロクロス数検出部
10322 有声音・無声音判定部
104 サブフレーム単位ゲイン算出部
105 サンプル単位ゲイン算出部
1051 サブフレーム変化量算出部
1052 窓関数適応部
1053 遅延部
106 音量制御部
107 周波数特性補正部
200 第2制御部
201 有音・無音検出部
202 フレーム振幅最大値検出部
203 フレーム単位ゲイン算出部
204 第2サンプル単位ゲイン算出部
205 音量正規化部
DESCRIPTION OF
Claims (5)
前記音声入力受付手段によって受け付けた音声の入力音量及び周波数成分とを測定する音量測定手段と、
所定の時間区間に受け付けた音声のうち、所定の周波数帯域に含まれる周波数成分が、所定のエネルギーを超えて有する場合に、前記所定の時間区間に受け付けた音声の入力音量の値に応じて音量ゲインを設定する音量ゲイン設定手段と、
前記所定の時間区間に受け付けた音声を、前記音量ゲイン設定手段によって設定された音量ゲインに応じた音量で出力する音声出力手段と、
を有することを特徴とする電子機器。 Voice input receiving means for receiving voice input;
Volume measuring means for measuring the input volume and frequency component of the sound received by the sound input receiving means;
When the frequency component included in the predetermined frequency band out of the sound received during the predetermined time interval exceeds the predetermined energy, the volume according to the value of the input volume of the audio received during the predetermined time interval Volume gain setting means for setting the gain;
Audio output means for outputting the sound received during the predetermined time interval at a volume corresponding to the volume gain set by the volume gain setting means;
An electronic device comprising:
前記音声入力受付手段によって受け付けた音声の入力音量及び周波数成分とを測定する音量測定手段と、
所定の時間区間に受け付けた音声のうち、所定の周波数帯域に含まれる周波数成分が、所定のエネルギーを超えて有する場合に、前記所定の時間区間に受け付けた音声の入力音量の値に応じて音量ゲインを設定する音量ゲイン設定手段と、
音量ゲイン遷移関数を、
第1の時間区間に受け付けた音声の出力終了時には、第1の時間区間に受け付けた音声に対して前記音量ゲイン設定手段が設定した音量ゲインの値を持ち、
第1の時間区間に受け付けた音声の出力開始時には、第1の時間区間以前である第2の時間区間に受け付けた音声に対して前記音量ゲイン設定手段が設定した音量ゲインの値を持つように遷移するよう設定する、音量ゲイン遷移関数設定手段と、
第1の時間区間に受け付けた音声を、前記音量ゲイン遷移関数に応じた音量で出力する音
声出力手段と、
を有することを特徴とする電子機器。 Voice input receiving means for receiving voice input;
Volume measuring means for measuring the input volume and frequency component of the sound received by the sound input receiving means;
When the frequency component included in the predetermined frequency band out of the sound received during the predetermined time interval exceeds the predetermined energy, the volume according to the value of the input volume of the audio received during the predetermined time interval Volume gain setting means for setting the gain;
The volume gain transition function
At the end of the output of the sound received during the first time interval, the sound volume gain setting means sets the volume gain value for the sound received during the first time interval,
At the start of the output of the sound received during the first time interval, the sound volume gain setting means sets the value of the volume gain set by the sound volume received during the second time interval before the first time interval. Volume gain transition function setting means for setting to transition,
Voice output means for outputting the voice received in the first time interval at a volume corresponding to the volume gain transition function;
An electronic device comprising:
第1の時間区間及び第2の時間区間に受け付けた音声の入力音量が所定の音量以下である場合に第1の音量ゲイン遷移関数を設定し、
第1の時間区間に受け付けた音声の入力音量が所定の音量以上であり、且つ第2の時間区間に受け付けた音声の入力音量が所定の音量以下である場合に、第1の音量ゲイン遷移関数
に比して、急激に第1の時間区間の音量ゲインの値へと遷移する第2の音量ゲイン遷移関数を設定し、
第2の時間区間に受け付けた音声の入力音量が前記所定の音量以上である場合に、第1の
音量ゲイン遷移関数に比して、緩やかに第1の時間区間の音量ゲインの値へと遷移する第
3の音量ゲイン遷移関数を設定する
ことを特徴とする請求項1または2に記載の電子機器。 The volume gain transition function setting means includes:
Set the first volume gain transition function when the input volume of the sound received in the first time interval and the second time interval is less than or equal to a predetermined volume,
The first volume gain transition function when the audio input volume received during the first time interval is greater than or equal to the predetermined volume and the audio input volume received during the second time interval is less than or equal to the predetermined volume. Compared to, set a second volume gain transition function that suddenly transitions to the volume gain value of the first time interval,
When the input volume of the sound received in the second time interval is equal to or higher than the predetermined volume, the volume gain value gradually changes in the first time interval compared to the first volume gain transition function. The electronic device according to claim 1, wherein a third volume gain transition function is set.
第1の時間区間及び第2の時間区間に受け付けた音声の入力音量が所定の音量以下である場合に第1の音量ゲイン遷移関数を設定し、
第1の時間区間に受け付けた音声が、当該スペクトル分布における所定の周波数帯域に含
まれる周波数成分を、所定のエネルギーを超えて有する場合で、且つ第2の時間区間に受
け付けた音声の入力音量が所定の音量以下である場合に、第1の音量ゲイン遷移関数に比
して急激に第1の時間区間に設定された音量ゲインの値へ遷移する第2の音量ゲイン遷移関数を設定し、
第1の時間区間に受け付けた音声が、当該スペクトル分布における所定の周波数帯域に含
まれる周波数成分を、所定のエネルギーを超えて有する場合で、且つ第2の時間区間に受
け付けた音声の入力音量が所定の音量以上である場合に、第1の音量ゲイン遷移関数に比
して緩やかに第1の時間区間に設定された音量ゲインの値へ遷移する第3の音量ゲイン遷
移関数を設定する
ことを特徴とする請求項1乃至3に記載の電子機器。 The volume gain transition function setting means includes:
Set the first volume gain transition function when the input volume of the sound received in the first time interval and the second time interval is less than or equal to a predetermined volume,
The audio received during the first time interval has a frequency component included in the predetermined frequency band in the spectrum distribution exceeding the predetermined energy, and the input volume of the audio received during the second time interval is Set the second volume gain transition function that transitions to the value of the volume gain set in the first time interval abruptly compared to the first volume gain transition function when the volume is below a predetermined volume,
The audio received during the first time interval has a frequency component included in the predetermined frequency band in the spectrum distribution exceeding the predetermined energy, and the input volume of the audio received during the second time interval is Setting a third volume gain transition function that transitions to the value of the volume gain set in the first time interval more slowly than the first volume gain transition function when the volume is equal to or higher than a predetermined volume. The electronic apparatus according to claim 1, wherein the electronic apparatus is an electronic device.
前記音声入力受付手段によって受け付けた音声信号の入力音量及び周波数成分の値を取得する音量測定手段と、
所定の時間区間に受け付けた音声のうち、所定の周波数帯域に含まれる周波数成分が、所定のエネルギーを超えて有する場合に、前記所定の時間区間に受け付けた音声の入力音量の値に応じて音量ゲインを設定する音量ゲイン設定手段と、
前記所定の時間区間に受け付けた音声の出力音量を、前記音量ゲイン設定手段によって設定された音量ゲインに応じた出力音量に設定する出力音量制御手段と、
を有することを特徴とする電子機器の音量制御プログラム。 A voice input receiving means for receiving a voice signal input;
Sound volume measuring means for acquiring the input sound volume and frequency component value of the sound signal received by the sound input receiving means;
When the frequency component included in the predetermined frequency band out of the sound received during the predetermined time interval exceeds the predetermined energy, the volume according to the value of the input volume of the audio received during the predetermined time interval Volume gain setting means for setting the gain;
Output volume control means for setting the output volume of the sound received during the predetermined time interval to an output volume corresponding to the volume gain set by the volume gain setting means;
A volume control program for an electronic device, comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009221967A JP2011071806A (en) | 2009-09-28 | 2009-09-28 | Electronic device, and sound-volume control program for the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009221967A JP2011071806A (en) | 2009-09-28 | 2009-09-28 | Electronic device, and sound-volume control program for the same |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011071806A true JP2011071806A (en) | 2011-04-07 |
Family
ID=44016631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009221967A Pending JP2011071806A (en) | 2009-09-28 | 2009-09-28 | Electronic device, and sound-volume control program for the same |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011071806A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016514856A (en) * | 2013-03-21 | 2016-05-23 | インテレクチュアル ディスカバリー カンパニー リミテッド | Audio signal size control method and apparatus |
-
2009
- 2009-09-28 JP JP2009221967A patent/JP2011071806A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016514856A (en) * | 2013-03-21 | 2016-05-23 | インテレクチュアル ディスカバリー カンパニー リミテッド | Audio signal size control method and apparatus |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102060208B1 (en) | Adaptive voice intelligibility processor | |
KR100860805B1 (en) | Voice enhancement system | |
US8271292B2 (en) | Signal bandwidth expanding apparatus | |
JP5151762B2 (en) | Speech enhancement device, portable terminal, speech enhancement method, and speech enhancement program | |
TWI451770B (en) | Method and hearing aid of enhancing sound accuracy heard by a hearing-impaired listener | |
KR101068227B1 (en) | Clarity Improvement Device and Voice Output Device Using the Same | |
US8311842B2 (en) | Method and apparatus for expanding bandwidth of voice signal | |
WO2010131470A1 (en) | Gain control apparatus and gain control method, and voice output apparatus | |
JP4018571B2 (en) | Speech enhancement device | |
JPH07193548A (en) | Noise reduction processing method | |
JP6073456B2 (en) | Speech enhancement device | |
JP2008197200A (en) | Automatic intelligibility adjusting device and automatic intelligibility adjusting method | |
TWI504282B (en) | Method and hearing aid of enhancing sound accuracy heard by a hearing-impaired listener | |
JP2004061617A (en) | Received speech processing apparatus | |
JP2009296298A (en) | Sound signal processing device and method | |
JP2008309955A (en) | Noise suppresser | |
JPH0968997A (en) | Method and device for processing voice | |
KR100883896B1 (en) | Speech intelligibility enhancement apparatus and method | |
JP6277739B2 (en) | Communication device | |
JP2006324786A (en) | Acoustic signal processing apparatus and method | |
JP2011071806A (en) | Electronic device, and sound-volume control program for the same | |
JP2008102551A (en) | Apparatus for processing voice signal and processing method thereof | |
RU2589298C1 (en) | Method of increasing legible and informative audio signals in the noise situation | |
JP2022547860A (en) | How to Improve Contextual Adaptation Speech Intelligibility | |
JPH07146700A (en) | Pitch emphasizing method and device and hearing acuity compensating device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20111125 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20111205 |