JP5821584B2 - Audio processing apparatus, audio processing method, and audio processing program - Google Patents
Audio processing apparatus, audio processing method, and audio processing program Download PDFInfo
- Publication number
- JP5821584B2 JP5821584B2 JP2011265168A JP2011265168A JP5821584B2 JP 5821584 B2 JP5821584 B2 JP 5821584B2 JP 2011265168 A JP2011265168 A JP 2011265168A JP 2011265168 A JP2011265168 A JP 2011265168A JP 5821584 B2 JP5821584 B2 JP 5821584B2
- Authority
- JP
- Japan
- Prior art keywords
- ratio
- processing
- signal
- unit
- filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
本発明は、音声処理装置、音声処理方法及び音声処理プログラムに関する。 The present invention relates to a voice processing device, a voice processing method, and a voice processing program.
従来、例えば、音声信号にフィルタ処理を行う場合に、周波数領域でのフィルタ処理が広く行われている。これは、時間領域でのフィルタ処理に比べてフィルタ処理に要する計算量が少ないからである。 Conventionally, for example, when filtering is performed on an audio signal, filtering in the frequency domain has been widely performed. This is because the amount of calculation required for the filter processing is small compared to the filter processing in the time domain.
例えば、周波数領域でのフィルタ処理では、時間領域の音声信号を周波数領域に変換するために、音声信号から複数の分析フレームが切り出される。ここで、切り出された分析フレームを加算すると、分析フレームごとの端が連続に繋がらず、元の音声信号に雑音が含まれてしまう。このため、分析フレームの端を連続にして元の音声信号に音質を近づけるために、例えば、オーバラップ加算と呼ばれる方法が用いられる。これは、例えば、それぞれの分析フレームに窓関数を掛け、フレーム長が50%ずつオーバラップするように、それぞれの分析フレームを加算する方法である。 For example, in the filter processing in the frequency domain, a plurality of analysis frames are cut out from the audio signal in order to convert the audio signal in the time domain into the frequency domain. Here, when the extracted analysis frames are added, the ends of the analysis frames are not connected continuously, and noise is included in the original audio signal. For this reason, for example, a method called overlap addition is used in order to make the end of the analysis frame continuous and bring the sound quality closer to the original audio signal. This is, for example, a method of multiplying each analysis frame by a window function and adding each analysis frame so that the frame lengths overlap each other by 50%.
また、例えば、上記のオーバラップ加算の改良方法として、分析フレームがオーバラップする割合を87.5%とすることも提案されている。なお、分析フレームがオーバラップする割合は、オーバラップ割合と呼んでいる。 Further, for example, as an improvement method of the above overlap addition, it is also proposed that the analysis frame overlap ratio is 87.5%. The rate at which the analysis frames overlap is called the overlap rate.
しかしながら、上記の従来技術では、フィルタ処理の計算量が増大してしまうという課題があった。例えば、音質を向上させるためにオーバラップ割合を50%、75%、87.5%・・・と増加させると、フィルタ処理の計算量は2倍、4倍、8倍・・・と増大してしまう。このため、例えば、低音質な音源に対してフィルタ処理を行う場合や雑音が多い状況でフィルタ処理を行う場合には、オーバラップ割合を一定以上増加させても音質がほとんど向上しなくなり、フィルタ処理の計算量のみが増大してしまうことがあった。 However, the above-described conventional technique has a problem in that the amount of calculation for the filter processing increases. For example, if the overlap ratio is increased to 50%, 75%, 87.5%, etc. in order to improve the sound quality, the calculation amount of the filter processing increases to 2 times, 4 times, 8 times, etc. End up. For this reason, for example, when filtering a low-quality sound source or when performing filtering in a noisy situation, even if the overlap ratio is increased more than a certain level, the sound quality is hardly improved. In some cases, only the amount of calculation increases.
開示の技術は、上記に鑑みてなされたものであって、フィルタ処理の計算量を抑制することができる音声処理装置、音声処理方法及び音声処理プログラムを提供することを目的とする。 The disclosed technology has been made in view of the above, and an object thereof is to provide an audio processing device, an audio processing method, and an audio processing program capable of suppressing the amount of calculation of filter processing.
本願の開示する技術は、一つの態様において、フィルタ処理部と、検出部とを備える。フィルタ処理部は、入力信号に対して、所定の割合で分析フレームがオーバラップする窓関数処理を用いて周波数領域のフィルタ処理を実行する。検出部は、分析フレームがオーバラップする割合を増加させるごとに、フィルタ処理が実行された後の信号と入力信号に基づいた信号との類似度をそれぞれ算出し、算出した類似度に基づいて、フィルタ処理部に設定する割合を検出する。 The technique which this application discloses is provided with a filter process part and a detection part in one mode. The filter processing unit performs frequency domain filter processing on the input signal using window function processing in which analysis frames overlap at a predetermined rate. Each time the detection unit increases the rate of overlap of the analysis frames, the detection unit calculates the similarity between the signal after the filtering process and the signal based on the input signal, and based on the calculated similarity, The ratio set in the filter processing unit is detected.
本願の開示する技術の一つの態様によれば、フィルタ処理の計算量を抑制することができるという効果を奏する。 According to one aspect of the technology disclosed in the present application, there is an effect that the amount of calculation of the filter processing can be suppressed.
以下に、本願の開示する音声処理装置、音声処理方法及び音声処理プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。 Hereinafter, embodiments of a voice processing device, a voice processing method, and a voice processing program disclosed in the present application will be described in detail with reference to the drawings. Note that the present invention is not limited to the embodiments. Each embodiment can be appropriately combined within a range in which processing contents do not contradict each other.
実施例1に係る音声処理装置の機能構成の一例について説明する。図1は、実施例1に係る音声処理装置の機能構成を示すブロック図である。図1に示すように、この音声処理装置100は、信号取得部110と、算出部120と、フィルタ処理部130と、割合決定部140とを有する。音声処理装置100は、例えば、携帯電話機やスマートフォン、PHS(Personal Handy-phone System)端末などの携帯端末装置や、CD(Compact Disk)プレーヤーやデジタルオーディオプレーヤーなどの音声再生装置などに対応する。また、音声処理装置100は、スピーカ10と、マイク20とに接続される。スピーカ10は、スピーカ10の周辺に音を出力する装置である。マイク20は、マイク20の周辺の音を集音する装置である。なお、ここでは、スピーカ10及びマイク20が外部装置として音声処理装置100に接続される場合を説明したが、本発明はこれに限定されるものではない。例えば、スピーカ10及びマイク20は音声処理装置100に内蔵されていても良い。
An example of a functional configuration of the speech processing apparatus according to the first embodiment will be described. FIG. 1 is a block diagram illustrating a functional configuration of the speech processing apparatus according to the first embodiment. As illustrated in FIG. 1, the
なお、信号取得部110、算出部120、フィルタ処理部130及び割合決定部140にて行われる各処理機能は、以下のように実現される。すなわち、これらの各処理機能は、その全部または任意の一部が、CPU(Central Processing Unit)および当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
The processing functions performed by the
また、図2は、実施例1に係る音声処理装置における信号の流れの一例を説明するための図である。図2に示す各処理機能は、図1に示した同一符号の各処理機能に対応する。なお、音声処理装置における信号の流れについては、音声処理装置100の各処理機能とともに説明する。
FIG. 2 is a diagram for explaining an example of a signal flow in the sound processing apparatus according to the first embodiment. Each processing function shown in FIG. 2 corresponds to each processing function having the same reference numeral shown in FIG. The signal flow in the voice processing device will be described together with each processing function of the
信号取得部110は、音源から音声信号を取得して、取得した音声信号を出力する。例えば、信号取得部110は、FM(Frequency Modulation)ラジオを受信するアンテナから音声信号を取得する。また、例えば、信号取得部110は、音声データが記憶されたメモリから音声信号を取得する。また、例えば、信号取得部110は、図2に示すように、取得した音声信号を、スピーカ10、算出部120、窓関数処理部131及び検出部141に出力する。なお、信号取得部110は、取得した音声信号がアナログ信号である場合には、かかるアナログ信号をデジタル信号に変換した上で出力する。また、以下の説明では、信号取得部110から出力される音声信号を「原音」とも称する。
The
算出部120は、FIR(Finite Impulse Response)フィルタを算出する。例えば、算出部120は、後述するFIRフィルタ133に適用するフィルタ計数X(s)を算出する。例えば、算出部120は、信号取得部110から出力された音声信号と、マイク20により集音された信号とを用いてフィルタ計数X(s)を算出し、算出したフィルタ計数X(s)をFIRフィルタ133に設定する。例えば、算出部120は、図2に示すように、算出したフィルタ計数X(s)をFIRフィルタ133に設定するための情報を、FIRフィルタ133に出力する。
The
ここで、算出部120がフィルタ計数X(s)を算出する処理について説明する。例えば、算出部120は、スピーカ10からマイク20までの音響特性であるインパルスレスポンスH(s)を算出する。例えば、算出部120は、信号取得部110から出力された音声信号とマイク20により集音された信号とをそれぞれ周波数領域に変換する。算出部120は、周波数領域における信号取得部110から出力された音声信号とマイク20により集音された信号との比からインパルスレスポンスH(s)を算出する。
Here, a process in which the
例えば、算出部120は、算出したインパルスレスポンスH(s)の逆特性X(s)=H(s)−1を算出する。算出部120は、算出した逆特性X(s)をFIRフィルタ133のフィルタ計数X(s)として設定する。ここで、スピーカ10からマイク20までの音響特性の逆特性をフィルタ計数として用いるのは、マイク20の位置で原音を再現できるからである。なお、フィルタ計数X(s)算出時の零割防止の影響により、X(s)H(s)=1は保証されない。
For example, the
フィルタ処理部130は、例えば、入力信号に対して、所定の割合で分析フレームがオーバラップする窓関数処理を用いて周波数領域のフィルタ処理を実行する。例えば、フィルタ処理部130は、入力信号として原音を受け付け、受け付けた原音に対して所定の割合で分析フレームがオーバラップする窓関数処理を用いて周波数領域のフィルタ処理を実行する。フィルタ処理部130は、例えば、窓関数処理部131と、変換部132と、FIRフィルタ133と、逆変換部134と、加算部135とを有する。
For example, the
窓関数処理部131は、例えば、時間領域の音声信号に窓関数処理を実行する。例えば、窓関数処理部131は、音声信号に対して、所定の割合で分析フレームがオーバラップする窓関数処理を実行し、時間領域の音声信号から複数の分析フレームを切り出す。例えば、窓関数処理部131は、図2に示すように、切り出した複数の分析フレームを変換部132に出力する。
For example, the window
例えば、窓関数処理部131は、信号取得部110から出力された音声信号を受け付ける。窓関数処理部131は、受け付けた音声信号に対して、後述する設定部142により設定された割合で隣り合う分析フレーム同士がオーバラップするようにハニング窓を掛け、複数の分析フレームを切り出す。例えば、窓関数処理部131は、隣り合う分析フレーム同士が50%ずつオーバラップするようにハニング窓を掛ける。窓関数処理部131は、切り出した複数の分析フレームを変換部132に出力する。なお、ここでは、窓関数処理部131が窓関数としてハニング窓を用いる場合を説明したが、本発明はこれに限定されるものではない。ハニング窓は窓関数の端が0に収束していることと、50%ずらして足し合わせるとちょうど1になるという性質があり、窓端部に発生する雑音を抑制することに適している。例えば、上記のような性質をもつ窓関数なら窓関数処理部131は、バートレット窓など別の窓関数を窓関数として用いても良い。
For example, the window
ここで、図3から図5を用いて、オーバラップについて説明する。図3から図5は、オーバラップについて説明するための図である。図3は、時間領域における音声信号の波形の一例を示す。図3の横軸は時間[ms]を示し、縦軸は振幅を示す。例えば、8キロヘルツサンプリングで取得された1サンプルの信号を16ビットで表した場合には、その値の範囲は−32767から+32768となる。図3には、時間領域の音声信号から分析フレーム1aと、分析フレーム1bと、分析フレーム1cとが切り出される場合を示す。なお、分析フレーム1aと分析フレーム1cとは50%オーバラップし、分析フレーム1bと分析フレーム1cとは50%オーバラップする。なお、8キロヘルツサンプリングとは、8千分の1秒ごとにサンプリングすることを表す。
Here, the overlap will be described with reference to FIGS. 3 to 5 are diagrams for explaining the overlap. FIG. 3 shows an example of a waveform of an audio signal in the time domain. In FIG. 3, the horizontal axis indicates time [ms], and the vertical axis indicates amplitude. For example, when a signal of one sample acquired by 8 kHz sampling is expressed by 16 bits, the range of the value is −32767 to +32768. FIG. 3 shows a case where the
図4には、オーバラップしない分析フレームを加算する場合を示す。図4の分析フレーム2aの信号は、分析フレーム1aの信号に周波数領域のフィルタ処理を実行した後に、時間領域に逆変換した信号を示す。分析フレーム2bの信号は、分析フレーム1bの信号に周波数領域のフィルタ処理を実行した後に、時間領域に逆変換した信号を示す。図4に示すように、分析フレーム2aと分析フレーム2bとを加算しても、波形の間にギャップ2cが存在してしまう。このため、分析フレームの端が連続に繋がらず、元の音声信号に雑音が含まれてしまう。
FIG. 4 shows a case where analysis frames that do not overlap are added. The signal of the
図5には、オーバラップする分析フレームを加算する場合を示す。図5の分析フレーム3aの信号は、分析フレーム1aの信号にハニング窓を掛けてから周波数領域のフィルタ処理を実行した後に、時間領域に逆変換した信号を示す。分析フレーム3bの信号は、分析フレーム1bの信号にハニング窓を掛けてから周波数領域のフィルタ処理を実行した後に、時間領域に逆変換した信号を示す。分析フレーム3cの信号は、分析フレーム1cの信号にハニング窓を掛けてから周波数領域のフィルタ処理を実行した後に、時間領域に逆変換した信号を示す。図5に示すように、窓関数を掛けた分析フレーム3aと分析フレーム3bとを加算すると、波形の端にギャップが存在しない。このため、分析フレームの端が連続に繋がる。また、分析フレーム3a及び分析フレーム3bと50%ずつオーバラップする分析フレーム3cをさらに加算することにより、窓関数によって抑制された波形を補うことができる。なお、このように、隣り合う分析フレームがオーバラップするように加算する方法を「オーバラップ加算」と称し、オーバラップする割合を「オーバラップ割合」と称する。また、例えば、50%のオーバラップ割合でオーバラップ加算することを「50%オーバラップ加算」とも称する。
FIG. 5 shows a case where overlapping analysis frames are added. The signal of the
例えば、窓関数処理部131は、所定のオーバラップ割合で音声信号に窓関数処理を実行する。例えば、窓関数処理部131は、(1−1/2n)×100%のオーバラップ割合で音声信号にハニング窓を掛ける。なお、nは1以上の整数であり、例えば、フィルタ処理が実行されるごとに、1インクリメントされる。つまり、窓関数処理部131は、フィルタ処理が実行されるごとに、オーバラップ割合を50%、75%、87.5%・・・と段階的に増やしながら音声信号に窓関数処理を実行する。なお、窓関数処理部131が窓関数処理に用いるオーバラップ割合は上記の例に限定されるものではない。例えば、窓関数処理部131は、1以上の整数nと任意のオーバラップ割合とを対応づけて記憶しておき、nに対応するオーバラップ割合を選択するようにしても良い。
For example, the window
図1の説明に戻る。変換部132は、例えば、音声信号をフーリエ変換する。例えば、変換部132は、窓関数処理部131により出力された複数の分析フレームごとに音声信号をフーリエ変換する。例えば、変換部132は、図2に示すように、フーリエ変換した音声信号をFIRフィルタ133に出力する。
Returning to the description of FIG. For example, the
FIRフィルタ133は、例えば、音声信号に対して、周波数領域のフィルタ処理を実行する。例えば、FIRフィルタ133は、変換部132によってフーリエ変換された音声信号を受け付ける。FIRフィルタ133は、算出部120により設定されたフィルタ計数X(s)で、分析フレームごとにフィルタ処理を実行する。例えば、FIRフィルタ133は、図2に示すように、フィルタ処理を実行した音声信号を逆変換部134に出力する。なお、ここでは、フィルタ処理部130がマイク20の位置で原音を再現するためのFIRフィルタ133を用いる場合を説明したが、本発明はこれに限定されるものではない。例えば、フィルタ処理部130は、FIRフィルタ133に替えて、音声信号に含まれる雑音を抑制するためのローパスフィルタを用いても良い。
For example, the
逆変換部134は、例えば、音声信号を逆フーリエ変換する。例えば、逆変換部134は、FIRフィルタ133により出力された複数の分析フレームごとに音声信号を逆フーリエ変換する。例えば、逆変換部134は、図2に示すように、逆フーリエ変換した音声信号を加算部135に出力する。
For example, the
加算部135は、例えば、時間領域の音声信号を加算する。例えば、加算部135は、逆変換部134により逆フーリエ変換された分析フレームごとの音声信号を受け付け、受け付けた音声信号をオーバラップ加算する。例えば、加算部135は、図2に示すように、加算した音声信号をスピーカ10と、検出部141とに出力する。
The adding
このように、例えば、フィルタ処理部130は、音声信号に対して、(1−1/2n)×100%のオーバラップ割合で窓関数処理を実行し、周波数領域のフィルタ処理を実行する。フィルタ処理部130は、フィルタ処理を実行した音声信号を出力する。なお、フィルタ処理部130により出力される音声信号を「フィルタ処理音」とも称する。すなわち、フィルタ処理部130は、フィルタ処理音をスピーカ10と、検出部141とに出力する。
Thus, for example, the
割合決定部140は、例えば、オーバラップ割合を決定する。例えば、割合決定部140は、フィルタ処理部130に設定するオーバラップ割合を決定する。例えば、割合決定部140は、検出部141と、設定部142とを有する。
For example, the
検出部141は、例えば、オーバラップ割合を増加させるごとに、フィルタ処理音と原音との相関をそれぞれ算出し、算出した相関に基づいて、フィルタ処理部130に設定するオーバラップ割合を検出する。例えば、検出部141は、算出した相関のうち、今回算出した相関と前回算出した相関との比率を算出し、算出した比率が閾値未満の場合に、前回算出した相関が算出された際の割合を検出する。例えば、検出部141は、図2に示すように、検出したオーバラップ割合を設定部142に出力する。
For example, each time the overlap ratio is increased, the
以下において、検出部141の処理を説明する。例えば、検出部141は、フィルタ処理部130により出力されたフィルタ処理音と、信号取得部110から出力された原音とを比較する。例えば、検出部141は、50%オーバラップ加算によるフィルタ処理音と原音とを比較する。
Hereinafter, processing of the
図6は、50%オーバラップ加算によるフィルタ処理音と原音とを比較する処理を説明するための図である。図6の横軸は時間領域における原音の波形の振幅を示し、縦軸は時間領域におけるフィルタ処理音の波形の振幅を示す。図6における各プロットは、原音の波形におけるサンプルの振幅値と、フィルタ処理音の波形において対応するサンプルの振幅値とをプロットしたものである。つまり、例えば、横軸の値が8000であり、縦軸の値が8020であるプロットは、原音の波形における所定のサンプルの振幅値が、フィルタ処理によって8000から8020にずれたことを示す。 FIG. 6 is a diagram for explaining a process of comparing the filtered sound and the original sound by 50% overlap addition. The horizontal axis of FIG. 6 shows the amplitude of the waveform of the original sound in the time domain, and the vertical axis shows the amplitude of the waveform of the filtered sound in the time domain. Each plot in FIG. 6 is a plot of the amplitude value of the sample in the waveform of the original sound and the amplitude value of the corresponding sample in the waveform of the filtered sound. That is, for example, a plot with a horizontal axis value of 8000 and a vertical axis value of 8020 indicates that the amplitude value of a predetermined sample in the waveform of the original sound has shifted from 8000 to 8020 by the filtering process.
例えば、検出部141は、図6に示すように、50%オーバラップ加算によるフィルタ処理音と原音の類似度を比較する。例えば、検出部141は、下記の式(1)に基づいて、フィルタ処理音と原音との類似度として決定係数を算出する。なお、決定係数は、R2とも表記する。この計算の場合、類似度として決定係数を用いたが、類似度を計算する手段としては他にもユークリッド距離などがあり、他の方法を用いても良い。
For example, as illustrated in FIG. 6, the
式(1)において、iは、サンプリング数を示す。yは、標本値、つまり、フィルタ処理音の振幅値を示す。yiは、i番目のサンプルの標本値を示す。fiは、回帰方程式による推定値を示す。ここで、原音の振幅値をxとすると、例えば、図6において、推定値f及び決定係数R2は、下記の通りである。
f=1.00320669x+0.0813444137
R2=0.994873018
In equation (1), i represents the number of samplings. y represents the sample value, that is, the amplitude value of the filtered sound. y i indicates the sample value of the i-th sample. f i indicates an estimated value based on a regression equation. Here, if the amplitude value of the original sound and x, for example, in FIG. 6, the estimated value f and the coefficient of determination R 2 is as follows.
f = 1.000320669x + 0.081344144
R 2 = 0.994887318
例えば、検出部141は、50%オーバラップ加算によるフィルタ処理音と原音との決定係数R2を算出することで、双方を比較する。なお、決定係数R2は、フィルタ処理音の波形が原音の波形に類似しているほど、1に近づく値である。また、決定係数R2は、「相関」の一例である。
For example, the
また、例えば、検出部141は、50%オーバラップ加算によるフィルタ処理音と同様に、75%オーバラップ加算及び87.5%オーバラップ加算によるフィルタ処理音についても、原音と比較した場合の決定係数R2を算出する。
Further, for example, the
図7は、75%オーバラップ加算によるフィルタ処理音と原音とを比較する処理を説明するための図である。図7の説明は、図6の説明と同様であるので省略する。図7に示すように、例えば、検出部141は、上記の式(1)に基づいて、75%オーバラップ加算によるフィルタ処理音と原音との決定係数R2と、推定値fとを算出する。図7において、推定値f及び決定係数R2は、下記の通りである。
f=0.999553234x+0.393565240
R2=0.999279900
FIG. 7 is a diagram for explaining processing for comparing the filtered sound and the original sound by 75% overlap addition. The description of FIG. 7 is the same as the description of FIG. As illustrated in FIG. 7, for example, the
f = 0.999553234x + 0.3935565240
R 2 = 0.999279900
図8は、87.5%オーバラップ加算によるフィルタ処理音と原音とを比較する処理を説明するための図である。図8の説明は、図6の説明と同様であるので省略する。図8に示すように、例えば、検出部141は、上記の式(1)に基づいて、87.5%オーバラップ加算によるフィルタ処理音と原音との決定係数R2と、推定値fとを算出する。図8において、推定値f及び決定係数R2は、下記の通りである。
f=0.999484307x+0.634147404
R2=0.999097137
FIG. 8 is a diagram for explaining processing for comparing the filtered sound and the original sound by 87.5% overlap addition. The description of FIG. 8 is the same as the description of FIG. As shown in FIG. 8, for example, the
f = 0.9994844307x + 0.634147404
R 2 = 0.999097137
すなわち、検出部141は、n=1の場合には、50%オーバラップ加算によるフィルタ処理音と原音との決定係数R2=0.994873018を算出する。また、検出部141は、n=2の場合には、75%オーバラップ加算によるフィルタ処理音と原音との決定係数R2=0.999279900を算出する。また、検出部141は、n=1の場合には、87.5%オーバラップ加算によるフィルタ処理音と原音との決定係数R2=0.999097137を算出する。
That is, when n = 1, the
また、例えば、検出部141は、n−1の時の決定係数とnの時の決定係数とを比較し、一定割合以上増加しているか否かを判定する。一定割合以上増加している場合には、検出部141は、フィルタ処理部130に設定されたnを1インクリメントする。一方、一定割合以上増加していない場合には、検出部141は、n−1の時のオーバラップ割合を設定部142に出力する。ここで、一定割合としては、例えば、0.1%が設定される。
Further, for example, the
例えば、n=2の場合には、検出部141は、(0.999279900−0.994873018)/0.994873018×100=0.443%を算出する。この値は0.1%以上であるので、検出部141は、フィルタ処理部130に設定されたnを1インクリメントする。
For example, when n = 2, the
例えば、n=3の場合には、検出部141は、(0.999097137−0.999279900)/0.999279900×100=−0.018%を算出する。この値は0.1%未満であるので、検出部141は、n=2の時のオーバラップ割合「75%」を設定部142に出力する。
For example, when n = 3, the
ここで、検出部141が、決定係数が向上しなくなるオーバラップ割合を検知するのは、それ以上オーバラップ割合を増加させても、フィルタ処理にかかる計算量のみが増加してしまうからである。図9は、オーバラップ割合と決定係数との関係を説明するための図である。図9の横軸はオーバラップ割合[%]を示し、縦軸は決定係数を示す。図9は、図6から図8の決定係数をプロットした場合を示す。図9に示すように、オーバラップ割合を増加させると、隣り合う分析フレームの端が滑らかに繋がるので、決定係数、つまり、音質は向上する。しかし、オーバラップ割合が所定値を超えると、決定係数は向上しなくなる。これは、このときのオーバラップ割合によって隣り合う分析フレームの端が十分に滑らかに繋がっていることを示唆する。一方、オーバラップ割合を50%、75%、87.5%・・・と増加させると、フィルタ処理の計算量は2倍、4倍、8倍・・・と増大してしまう。また、決定係数が向上しなくなるオーバラップ割合は、原音の音質やマイク20周辺の環境に依存する。したがって、検出部141が検知したオーバラップ割合を窓関数処理に適用することで、フィルタ処理に係る計算量の増加を防ぐことができる。
Here, the reason why the
このように、検出部141は、オーバラップ割合を増加させるごとに、フィルタ処理音と原音との相関を算出する。検出部141は、算出した相関に基づいて、フィルタ処理部130に設定するオーバラップ割合を検出する。なお、ここでは、検出部141が今回算出した相関と前回算出した相関との比率を算出してオーバラップ割合を検出する方法を説明したが、本発明はこれに限定されるものではない。例えば、検出部141は、算出した相関が閾値以上になった場合のオーバラップ割合を検出しても良い。
As described above, the
図1の説明に戻る。設定部142は、例えば、検出部141により検出されたオーバラップ割合を、フィルタ処理部130に設定する。例えば、設定部142は、オーバラップ割合を検出部141から受け付けて、受け付けたオーバラップ割合を窓関数処理部131に設定する。図9に示す例では、設定部142は、n=2の時のオーバラップ割合「75%」を検出部141から受け付けて、受け付けたオーバラップ割合を窓関数処理部131に設定する。例えば、設定部142は、図2に示すように、オーバラップ割合を設定するための情報を窓関数処理部131に出力する。
Returning to the description of FIG. For example, the
次に、実施例1に係る音声処理装置100の処理手順について説明する。図10は、実施例1に係る音声処理装置の処理手順を示すフローチャートである。図10に示す処理は、例えば、音声処理装置100において、電源から電力が供給される間に所定の間隔で実行される。
Next, a processing procedure of the
図10に示すように、処理タイミングになると(ステップS101,Yes)、信号取得部110は、原音をスピーカ10から出力させる(ステップS102)。なお、処理タイミングになるまでは(ステップS101,No)、図10に示す処理は、待機状態である。
As shown in FIG. 10, when the processing timing comes (step S101, Yes), the
マイク20は、スピーカ10から出力された原音を集音する(ステップS103)。算出部120は、FIRフィルタ133を算出する(ステップS104)。つまり、算出部120は、FIRフィルタ133に適用するフィルタ計数X(s)を算出する。
The
フィルタ処理部130は、n=1を設定する(ステップS105)。フィルタ処理部130は、(1−1/2n)×100%のオーバラップ割合で窓関数処理を実行したフィルタ処理音を算出する(ステップS106)。
The
割合決定部140は、フィルタ処理音と原音とを比較し、決定係数を算出する(ステップS107)。n=1ではない場合には(ステップS108,No)、割合決定部140は、n−1の時の決定係数とnの時の決定係数とを比較し、一定割合以上増加しているか否かを判定する(ステップS109)。
The
一定割合以上増加していない場合には(ステップS109,No)、割合決定部140は、n−1の時のオーバラップ割合をフィルタ処理部130に設定する(ステップS111)。
If it has not increased by more than a certain ratio (No at Step S109), the
一方、一定割合以上増加している場合には(ステップS109,Yes)、割合決定部140は、フィルタ処理部130に設定されたnを1インクリメントし(ステップS110)、ステップS106に移行する。
On the other hand, if it has increased by a certain ratio or more (step S109, Yes), the
一方、n=1である場合には(ステップS108,Yes)、割合決定部140は、フィルタ処理部130に設定されたnを1インクリメントし(ステップS110)、ステップS106に移行する。
On the other hand, when n = 1 (step S108, Yes), the
次に、実施例1に係る音声処理装置100の効果について説明する。音声処理装置100は、入力信号に対して、所定の割合で分析フレームがオーバラップする窓関数処理を用いて周波数領域のフィルタ処理を実行する。音声処理装置100は、分析フレームがオーバラップする割合を増加させるごとに、フィルタ処理が実行された後の信号と任意の信号との類似度をそれぞれ算出し、算出した類似度に基づいて、フィルタ処理部に設定する割合を検出する。このため、音声処理装置100は、フィルタ処理の計算量を抑制することができる。例えば、音声処理装置100は、検出した割合を設定した装置において、フィルタ処理の計算量を抑制することができる。例えば、音声処理装置100は、原音が高音質である場合や雑音が混入しにくい環境下では、オーバラップ割合を増加させることで、音質を向上させることができる。また、例えば、音声処理装置100は、原音が低音質である場合や雑音が混入しやすい環境下では、過度なオーバラップ割合の増加を抑制させることで、音質を向上させつつフィルタ処理にかかる計算量を抑制することができる。
Next, effects of the
また、例えば、音声処理装置100は、算出した相関のうち、今回算出した相関と前回算出した相関との比率を算出し、算出した比率が閾値未満の場合に、前回算出した相関が算出された際の割合を検出する。このため、音声処理装置100は、検出した割合を設定した装置において、フィルタ処理の計算量を抑制することができる。
Further, for example, the
また、例えば、音声処理装置100は、分析フレームがオーバラップする割合を増加させるごとに、フィルタ処理が実行された後の信号と原音との相関をそれぞれ算出し、算出した相関に基づいて、フィルタ処理部に設定する割合を検出する。このため、音声処理装置100は、検出した割合を設定した装置において、原音に近い音を少ない計算量で得ることができる。
Further, for example, each time the analysis frame overlap ratio is increased, the
また、例えば、音声処理装置100は、検出したオーバラップ割合をフィルタ処理部に設定するので、ユーザが何度も視聴しながらトライアンドエラーを繰り返すことなくフィルタ処理の計算量を抑制することができる。
Further, for example, since the
また、例えば、音声処理装置100は、フィルタ処理の計算量を抑制するので、計算量にかかる消費電力を抑制することができる。これは、例えば、携帯電話や携帯音楽プレーヤーなどのバッテリーで駆動する装置において特に有効である。
Further, for example, since the
また、例えば、音声処理装置100は、フィルタ処理の計算量を抑制するので、計算量にかかる装置の発熱を抑制することができる。これは、例えば、携帯電話や携帯音楽プレーヤーなど、ユーザが携帯する装置において特に有効である。
For example, since the
実施例1では、フィルタ処理音を原音に近づける場合を説明した。しかし、本発明は、これに限定されるものではなく、例えば、フィルタ処理音を任意の信号に近づけることもできる。よって、実施例2では、音声処理装置がフィルタ処理音を時間領域のFIRフィルタ処理を実行した音声信号に近づける場合を説明する。 In the first embodiment, the case where the filtered sound is brought close to the original sound has been described. However, the present invention is not limited to this, and for example, the filtered sound can be brought close to an arbitrary signal. Therefore, in the second embodiment, a case will be described in which the sound processing apparatus brings the filtered sound close to the sound signal that has been subjected to the time domain FIR filter processing.
実施例2に係る音声処理装置の機能構成の一例について説明する。図11は、実施例2に係る音声処理装置の機能構成を示すブロック図である。図11に示すように、この音声処理装置200は、信号取得部110と、算出部120と、フィルタ処理部130と、割合決定部140と、FIRフィルタ210とを有する。このうち、図11に示す信号取得部110、算出部120、フィルタ処理部130及び割合決定部140の説明は、図1に示した信号取得部110、算出部120、フィルタ処理部130及び割合決定部140の説明と同様であるので省略する。
An example of a functional configuration of the speech processing apparatus according to the second embodiment will be described. FIG. 11 is a block diagram illustrating a functional configuration of the speech processing apparatus according to the second embodiment. As shown in FIG. 11, the
また、図12は、実施例2に係る音声処理装置における信号の流れの一例を説明するための図である。図12に示す各処理機能は、図11に示した同一符号の各処理機能に対応する。なお、音声処理装置における信号の流れについては、音声処理装置200の各処理機能とともに説明する。
FIG. 12 is a diagram for explaining an example of a signal flow in the sound processing apparatus according to the second embodiment. Each processing function shown in FIG. 12 corresponds to each processing function having the same reference numeral shown in FIG. The signal flow in the voice processing device will be described together with each processing function of the
FIRフィルタ210は、例えば、音声信号に対して、時間領域のFIRフィルタ処理を実行する。例えば、FIRフィルタ210は、算出部120により設定されたフィルタ計数X(s)で、フィルタ処理を実行する。例えば、FIRフィルタ210は、図12に示すように、時間領域のFIRフィルタ処理を実行した音声信号を検出部141に出力する。
For example, the
次に、実施例2に係る音声処理装置200の処理手順について説明する。図13は、実施例2に係る音声処理装置の処理手順を示すフローチャートである。図13に示す処理は、例えば、音声処理装置200において、電源から電力が供給される間に所定の間隔で実行される。
Next, the processing procedure of the
図13に示すように、処理タイミングになると(ステップS201,Yes)、信号取得部110は、原音をスピーカ10から出力させる(ステップS202)。なお、処理タイミングになるまでは(ステップS201,No)、図13に示す処理は、待機状態である。
As shown in FIG. 13, when the processing timing comes (step S201, Yes), the
マイク20は、スピーカ10から出力された原音を集音する(ステップS203)。算出部120は、FIRフィルタ133を算出する(ステップS204)。つまり、算出部120は、FIRフィルタ133に適用するフィルタ計数X(s)を算出する。
The
フィルタ処理部130は、n=1を設定する(ステップS205)。フィルタ処理部130は、(1−1/2n)×100%のオーバラップ割合で窓関数処理を実行したフィルタ処理音を算出する(ステップS206)。
The
割合決定部140は、FIRフィルタ210によって時間領域のFIRフィルタ処理を実行した音声信号と、フィルタ処理音とを比較し、決定係数を算出する(ステップS207)。n=1ではない場合には(ステップS208,No)、割合決定部140は、n−1の時の決定係数とnの時の決定係数とを比較し、一定割合以上増加しているか否かを判定する(ステップS209)。
The
一定割合以上増加していない場合には(ステップS209,No)、割合決定部140は、n−1の時のオーバラップ割合をフィルタ処理部130に設定する(ステップS211)。
If it has not increased by more than a certain ratio (No at Step S209), the
一方、一定割合以上増加している場合には(ステップS209,Yes)、割合決定部140は、フィルタ処理部130に設定されたnを1インクリメントし(ステップS210)、ステップS206に移行する。
On the other hand, if it has increased by a certain percentage or more (step S209, Yes), the
一方、n=1である場合には(ステップS208,Yes)、割合決定部140は、フィルタ処理部130に設定されたnを1インクリメントし(ステップS210)、ステップS206に移行する。
On the other hand, if n = 1 (step S208, Yes), the
次に、実施例2に係る音声処理装置200の効果について説明する。音声処理装置200は、入力信号に対して、所定の割合で分析フレームがオーバラップする窓関数処理を用いて周波数領域のフィルタ処理を実行する。音声処理装置200は、分析フレームがオーバラップする割合を増加させるごとに、フィルタ処理が実行された後の信号と任意の信号との類似度をそれぞれ算出し、算出した類似度に基づいて、フィルタ処理部に設定する割合を検出する。このため、音声処理装置200は、フィルタ処理した信号を任意の信号に近づけつつ、フィルタ処理の計算量を抑制することができる。例えば、音声処理装置200は、フィルタ処理音を時間領域のFIRフィルタ処理を実行した音声信号に近づけつつ、フィルタ処理の計算量を抑制することができる。例えば、音声処理装置200は、フィルタ処理音を、聴衆者に聞かせたい理想の音に近づけつつ、フィルタ処理の計算量を抑制することができる。
Next, effects of the
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、その他の実施例にて実施されても良い。そこで、以下では、その他の実施例について説明する。 Although the embodiments of the present invention have been described so far, the present invention may be implemented in other embodiments besides the above-described embodiments. Therefore, other embodiments will be described below.
例えば、実施例1及び実施例2において、検出部141は、n−1の時の決定係数とnの時の決定係数との比率が一定割合以上増加していない場合にオーバラップ割合を検出することとして説明した。しかし、本発明はこれに限定されるものではない。例えば、検出部141は、閾値を用いてオーバラップ割合を検出しても良い。
For example, in the first embodiment and the second embodiment, the
例えば、検出部141は、nの時に算出した決定係数が閾値以上となった場合にオーバラップ割合を検出する。例えば、検出部141は、nの時に算出した決定係数が、閾値「0.99994」以上となった場合に、nの時のオーバラップ割合を検出する。例えば、検出部141は、検出したオーバラップ割合を設定部142に出力する。なお、ここでは、閾値を0.99994として説明するが、本発明はこれに限定されるものではなく、音声処理装置100,200を利用する者が任意の値に設定することができる。
For example, the
ここで、検出部141が閾値を用いてオーバラップ割合を検出するのは、出力する音が低音質でも良く、音質を上げすぎても意味がない場合があるからである。例えば、出力する音がFMラジオと同程度の音質で良い場合には、決定係数の閾値として「0.99994」を用いると良い。図14は、決定係数と音質との関係について説明するための図である。図14では、オーディオCDと同程度の音質である44.1kサンプリング16bitデータの原音を、FMラジオと同程度の音質である44.1kサンプリング8bitデータに変換し、決定係数を求めたものである。図14の横軸は44.1kサンプリング16bitデータの波形の振幅を示し、縦軸は44.1kサンプリング8bitデータの波形の振幅を示す。図14の説明は、図6の説明と同様であるので省略する。図14において、推定値f及び決定係数R2は、下記の通りである。
f=1.000064x−0.977042
R2=0.999940
Here, the reason why the
f = 1.00060006x-0.977042
R 2 = 0.9999940
つまり、出力する音がFMラジオと同程度の音質で良い場合には、決定係数は「0.99994」以上であれば十分であると言える。このため、検出部141は、出力する音がFMラジオと同程度の音質で良い場合には、決定係数が「0.99994」以上となった場合に、オーバラップ割合を検出することで、フィルタ処理の計算量を抑制することができる。
That is, when the output sound may have the same sound quality as FM radio, it can be said that it is sufficient that the determination coefficient is “0.99994” or more. For this reason, the
なお、上述したように、決定係数は任意に変更可能であるが、「0.999」以下は好ましくないと考えられる。図15は、決定係数と音質との関係について説明するための図である。図15では、オーディオCDの音質に雑音除去を目的として、1kHzの抑圧が0dB、10kHz以降の抑圧が−100dBとなるローパスフィルタを適用した場合を示す。図15の横軸はオーディオCDの波形の振幅を示し、縦軸はローパスフィルタ適用後の波形の振幅を示す。図15の説明は、図6の説明と同様であるので省略する。図15において、推定値f及び決定係数R2は、下記の通りである。
f=0.99675930x+0.00729942
R2=0.99899060
As described above, the coefficient of determination can be arbitrarily changed, but it is considered that “0.999” or less is not preferable. FIG. 15 is a diagram for explaining the relationship between the determination coefficient and the sound quality. FIG. 15 shows a case where a low-pass filter in which suppression of 1 kHz is 0 dB and suppression after 10 kHz is −100 dB is applied to the sound quality of the audio CD for the purpose of noise removal. The horizontal axis in FIG. 15 indicates the amplitude of the waveform of the audio CD, and the vertical axis indicates the amplitude of the waveform after the low-pass filter is applied. The description of FIG. 15 is the same as the description of FIG. 15, the estimated value f and the coefficient of determination R 2 is as follows.
f = 0.969675930x + 0.00729994
R 2 = 0.999899060
図15において、オーディオCDに含まれていたシンバルの音がほとんど聞こえなくなっていた。つまり、決定係数が「0.999」程度では、原音の音質を保てないと考えられる。 In FIG. 15, the cymbal sound included in the audio CD is almost inaudible. That is, it is considered that the sound quality of the original sound cannot be maintained when the determination coefficient is about “0.999”.
ここで、検出部141が閾値を用いてオーバラップ割合を検出する場合の処理手順について説明する。図16は、実施例3に係る音声処理装置の処理手順を示すフローチャートである。図16では、実施例1において説明した音声処理装置100が閾値を用いてオーバラップ割合を検出する場合を説明する。図16に示す処理は、例えば、音声処理装置100において、電源から電力が供給される間に所定の間隔で実行される。
Here, a processing procedure in a case where the
図16に示すように、処理タイミングになると(ステップS301,Yes)、信号取得部110は、原音をスピーカ10から出力させる(ステップS302)。なお、処理タイミングになるまでは(ステップS301,No)、図16に示す処理は、待機状態である。
As shown in FIG. 16, when the processing timing comes (Yes in step S301), the
マイク20は、スピーカ10から出力された原音を集音する(ステップS303)。算出部120は、FIRフィルタ133を算出する(ステップS304)。つまり、算出部120は、FIRフィルタ133に適用するフィルタ計数X(s)を算出する。
The
フィルタ処理部130は、n=1を設定する(ステップS305)。フィルタ処理部130は、(1−1/2n)×100%のオーバラップ割合で窓関数処理を実行したフィルタ処理音を算出する(ステップS306)。
The
割合決定部140は、フィルタ処理音と原音とを比較し、決定係数を算出する(ステップS307)。割合決定部140は、決定係数が閾値以上か否かを判定する(ステップS308)。決定係数が閾値以上でない場合には(ステップS308,No)、割合決定部140は、フィルタ処理部130に設定されたnを1インクリメントし(ステップS309)、ステップS306に移行する。
The
一方、決定係数が閾値以上である場合には(ステップS308,Yes)、割合決定部140は、オーバラップ割合をフィルタ処理部130に設定する(ステップS310)。
On the other hand, when the determination coefficient is greater than or equal to the threshold (step S308, Yes), the
図17は、実施例3に係る音声処理装置の処理手順を示すフローチャートである。図17では、実施例2において説明した音声処理装置200が閾値を用いてオーバラップ割合を検出する場合を説明する。図17に示す処理は、例えば、音声処理装置200において、電源から電力が供給される間に所定の間隔で実行される。
FIG. 17 is a flowchart illustrating the processing procedure of the speech processing apparatus according to the third embodiment. FIG. 17 illustrates a case where the
図17に示すように、処理タイミングになると(ステップS401,Yes)、信号取得部110は、原音をスピーカ10から出力させる(ステップS402)。なお、処理タイミングになるまでは(ステップS401,No)、図17に示す処理は、待機状態である。
As shown in FIG. 17, when the processing timing comes (step S401, Yes), the
マイク20は、スピーカ10から出力された原音を集音する(ステップS403)。算出部120は、FIRフィルタ133を算出する(ステップS404)。つまり、算出部120は、FIRフィルタ133に適用するフィルタ計数X(s)を算出する。
The
フィルタ処理部130は、n=1を設定する(ステップS405)。フィルタ処理部130は、(1−1/2n)×100%のオーバラップ割合で窓関数処理を実行したフィルタ処理音を算出する(ステップS406)。
The
割合決定部140は、FIRフィルタ210によって時間領域のFIRフィルタ処理を実行した音声信号と、フィルタ処理音とを比較し、決定係数を算出する(ステップS407)。割合決定部140は、決定係数が閾値以上か否かを判定する(ステップS408)。決定係数が閾値以上でない場合には(ステップS408,No)、割合決定部140は、フィルタ処理部130に設定されたnを1インクリメントし(ステップS409)、ステップS406に移行する。
The
一方、決定係数が閾値以上である場合には(ステップS408,Yes)、割合決定部140は、オーバラップ割合をフィルタ処理部130に設定する(ステップS410)。
On the other hand, when the determination coefficient is equal to or larger than the threshold (step S408, Yes), the
また、例えば、実施例1及び実施例2において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うことができる。あるいは、各処理のうち、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。 Further, for example, among the processes described in the first and second embodiments, all or a part of the processes described as being automatically performed can be manually performed. Alternatively, all or part of the processes described as being manually performed among the processes can be automatically performed by a known method. In addition, the processing procedures, control procedures, specific names, and information including various data and parameters shown in the above-described document and drawings can be arbitrarily changed unless otherwise specified.
また、図1,11に示した音声処理装置100,200の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、音声処理装置100,200の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、音声処理装置100は、設定部142を必ずしも有していなくても良い。例えば、音声処理装置100が検出したオーバラップ割合を、他の装置に設定しても良い。
1 and 11 are functionally conceptual elements, and need not be physically configured as illustrated. That is, the specific form of distribution / integration of the
また、音声処理装置100,200は、音声処理装置100,200の各機能を既知の情報処理装置に搭載することによって実現することもできる。既知の情報処理装置は、例えば、パーソナルコンピュータ、携帯電話、PHS(Personal Handy-phone System)端末、移動体通信端末またはPDA(Personal Digital Assistant)などの装置に対応する。
The
図18は、音声処理プログラムを実行するコンピュータの一例を示す図である。図18に示すように、コンピュータ300は、各種演算処理を実行するCPU301と、ユーザからデータの入力を受け付ける入力装置302と、モニタ303とを有する。また、コンピュータ300は、記憶媒体からプログラム等を読み取る媒体読み取り装置304と、他の装置と接続するためのインターフェース装置305と、他の装置と無線により接続するための無線通信装置306とを有する。また、コンピュータ300は、各種情報を一時記憶するRAM(Random Access Memory)307と、ハードディスク装置308とを有する。また、各装置301〜308は、バス309に接続される。また、図示しないが、コンピュータ300は、マイク及びスピーカに接続される。
FIG. 18 is a diagram illustrating an example of a computer that executes a voice processing program. As illustrated in FIG. 18, the
ハードディスク装置308には、図1,11に示したフィルタ処理部130及び検出部141との各処理部と同様の機能を有する音声処理プログラムが記憶される。また、ハードディスク装置308には、音声処理プログラムを実現するための各種データが記憶される。
The
CPU301は、ハードディスク装置308に記憶された各プログラムを読み出して、RAM307に展開し、各種の処理を行う。また、これらのプログラムは、コンピュータを図1,9に示したフィルタ処理部130及び検出部141として機能させることができる。
The
なお、上記の音声処理プログラムは、必ずしもハードディスク装置308に記憶されている必要はない。例えば、コンピュータが読み取り可能な記録媒体に記憶されたプログラムを、コンピュータ300が読み出して実行するようにしても良い。コンピュータが読み取り可能な記録媒体は、例えば、CD−ROMやDVDディスク、USBメモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、LAN(Local Area Network)、WAN(Wide Area Network)等に接続された装置にこのプログラムを記憶させておき、コンピュータ300がこれらからプログラムを読み出して実行するようにしても良い。
Note that the above-described voice processing program is not necessarily stored in the
以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。 The following supplementary notes are further disclosed with respect to the embodiments including the above examples.
(付記1)入力信号に対して、所定の割合で分析フレームがオーバラップする窓関数処理を用いて周波数領域のフィルタ処理を実行するフィルタ処理部と、
前記割合を増加させるごとに、前記フィルタ処理が実行された後の信号と任意の信号との類似度をそれぞれ算出し、算出した類似度に基づいて、前記フィルタ処理部に設定する割合を検出する検出部と
を備えたことを特徴とする音声処理装置。
(Supplementary Note 1) A filter processing unit that performs frequency domain filtering using window function processing in which analysis frames overlap at a predetermined rate with respect to an input signal;
Each time the ratio is increased, the degree of similarity between the signal after the filter processing is executed and an arbitrary signal is calculated, and the ratio set in the filter processing unit is detected based on the calculated degree of similarity. A speech processing apparatus comprising: a detection unit.
(付記2)前記検出部は、算出した類似度のうち、今回算出した類似度と前回算出した類似度との比率を算出し、算出した比率が閾値未満の場合に、当該前回算出した類似度が算出された際の前記割合を検出することを特徴とする付記1に記載の音声処理装置。
(Additional remark 2) The said detection part calculates the ratio of the similarity calculated this time and the similarity calculated last time among the calculated similarities, and when the calculated ratio is less than a threshold value, the similarity calculated the last time The speech processing apparatus according to
(付記3)前記検出部は、算出した類似度が閾値以上となった場合に、当該類似度が算出された際の前記割合を検出することを特徴とする付記1に記載の音声処理装置。
(Additional remark 3) The said detection part detects the said ratio when the said similarity is calculated, when the calculated similarity becomes more than a threshold value, The audio processing apparatus of
(付記4)前記検出部は、前記任意の信号として、前記入力信号を用いることを特徴とする付記1乃至3のいずれか一つに記載の音声処理装置。
(Supplementary note 4) The speech processing apparatus according to any one of
(付記5)前記検出部は、前記任意の信号として、前記入力信号に対して時間領域のフィルタ処理が実行された後の信号を用いることを特徴とする付記1乃至3のいずれか一つに記載の音声処理装置。
(Additional remark 5) The said detection part uses the signal after the filter process of the time domain was performed with respect to the said input signal as said arbitrary signal, Any one of
(付記6)前記検出部により検出された割合を、前記フィルタ処理部に設定する設定部を、さらに備えたことを特徴とする付記1乃至5のいずれか一つに記載の音声処理装置。
(Supplementary note 6) The speech processing apparatus according to any one of
(付記7)コンピュータによって実行される音声処理方法であって、
入力信号に対して、所定の割合で分析フレームがオーバラップする窓関数処理を用いて周波数領域のフィルタ処理を実行し、
前記割合を増加させるごとに、前記フィルタ処理が実行された後の信号と任意の信号との類似度をそれぞれ算出し、算出した類似度に基づいて、前記フィルタ処理に設定する割合を検出する
ことを特徴とする音声処理方法。
(Supplementary note 7) A voice processing method executed by a computer,
Performs frequency domain filtering using the window function processing where the analysis frames overlap with the input signal at a predetermined rate,
Each time the ratio is increased, the degree of similarity between the signal after the filter process is executed and an arbitrary signal is calculated, and the ratio set in the filter process is detected based on the calculated degree of similarity. A voice processing method characterized by the above.
(付記8)前記検出する処理は、算出した類似度のうち、今回算出した類似度と前回算出した類似度との比率を算出し、算出した比率が閾値未満の場合に、当該前回算出した類似度が算出された際の前記割合を検出することを特徴とする付記7に記載の音声処理方法。 (Additional remark 8) The said process to detect calculates the ratio of the similarity calculated this time and the similarity calculated last time among the calculated similarities, and when the calculated ratio is less than a threshold value, the similarity calculated the last time The voice processing method according to appendix 7, wherein the ratio when the degree is calculated is detected.
(付記9)前記検出する処理は、算出した類似度が閾値以上となった場合に、当該類似度が算出された際の前記割合を検出することを特徴とする付記7に記載の音声処理方法。 (Supplementary note 9) The voice processing method according to supplementary note 7, wherein, when the calculated similarity is equal to or greater than a threshold value, the detection processing detects the ratio when the similarity is calculated. .
(付記10)前記検出する処理は、前記任意の信号として、前記入力信号を用いることを特徴とする付記7乃至9のいずれか一つに記載の音声処理方法。 (Supplementary note 10) The voice processing method according to any one of supplementary notes 7 to 9, wherein the detection process uses the input signal as the arbitrary signal.
(付記11)前記検出する処理は、前記任意の信号として、前記入力信号に対して時間領域のフィルタ処理が実行された後の信号を用いることを特徴とする付記7乃至9のいずれか一つに記載の音声処理方法。 (Additional remark 11) The said process to detect uses the signal after the filter process of the time domain was performed with respect to the said input signal as said arbitrary signal, Any one of Additional remark 7 thru | or 9 characterized by the above-mentioned. The voice processing method described in 1.
(付記12)前記検出する処理により検出された割合を、前記フィルタ処理に設定することを特徴とする付記7乃至11のいずれか一つに記載の音声処理方法。 (Supplementary note 12) The voice processing method according to any one of supplementary notes 7 to 11, wherein the ratio detected by the detection process is set in the filter process.
(付記13)コンピュータに、
入力信号に対して、所定の割合で分析フレームがオーバラップする窓関数処理を用いて周波数領域のフィルタ処理を実行し、
前記割合を増加させるごとに、前記フィルタ処理が実行された後の信号と任意の信号との類似度をそれぞれ算出し、算出した類似度に基づいて、前記フィルタ処理に設定する割合を検出する
各処理を実行させることを特徴とする音声処理プログラム。
(Supplementary note 13)
Performs frequency domain filtering using the window function processing where the analysis frames overlap with the input signal at a predetermined rate,
Each time the ratio is increased, the similarity between the signal after the filter process is executed and an arbitrary signal is calculated, and the ratio set in the filter process is detected based on the calculated similarity. A voice processing program for executing a process.
(付記14)前記検出する処理は、算出した類似度のうち、今回算出した類似度と前回算出した類似度との比率を算出し、算出した比率が閾値未満の場合に、当該前回算出した類似度が算出された際の前記割合を検出することを特徴とする付記13に記載の音声処理プログラム。 (Additional remark 14) The said process to detect calculates the ratio of the similarity calculated this time and the similarity calculated last time among the calculated similarities, and when the calculated ratio is less than a threshold value, the similarity calculated last time 14. The voice processing program according to appendix 13, wherein the ratio when the degree is calculated is detected.
(付記15)前記検出する処理は、算出した類似度が閾値以上となった場合に、当該類似度が算出された際の前記割合を検出することを特徴とする付記13に記載の音声処理プログラム。 (Supplementary note 15) The voice processing program according to supplementary note 13, wherein, when the calculated similarity is equal to or greater than a threshold, the processing to detect detects the ratio when the similarity is calculated. .
(付記16)前記検出する処理は、前記任意の信号として、前記入力信号を用いることを特徴とする付記13乃至15のいずれか一つに記載の音声処理プログラム。 (Supplementary note 16) The sound processing program according to any one of supplementary notes 13 to 15, wherein the detection process uses the input signal as the arbitrary signal.
(付記17)前記検出する処理は、前記任意の信号として、前記入力信号に対して時間領域のフィルタ処理が実行された後の信号を用いることを特徴とする付記13乃至15のいずれか一つに記載の音声処理プログラム。 (Supplementary note 17) Any one of Supplementary notes 13 to 15, wherein the detection process uses, as the arbitrary signal, a signal after a time domain filtering process is performed on the input signal. The voice processing program described in 1.
(付記18)前記検出する処理により検出された割合を、前記フィルタ処理に設定することを特徴とする付記13乃至17のいずれか一つに記載の音声処理プログラム。 (Supplementary note 18) The audio processing program according to any one of supplementary notes 13 to 17, wherein the ratio detected by the detection processing is set in the filter processing.
10 スピーカ
20 マイク
100,200 音声処理装置
110 信号取得部
120 算出部
130 フィルタ処理部
131 窓関数処理部
132 変換部
133 FIRフィルタ
134 逆変換部
135 加算部
140 割合決定部
141 検出部
142 設定部
210 FIRフィルタ
DESCRIPTION OF
Claims (8)
前記割合を増加させるごとに、前記フィルタ処理が実行された後の信号と前記入力信号に基づいた信号との類似度をそれぞれ算出し、算出した類似度に基づいて、前記フィルタ処理部に設定する割合を検出する検出部と
を備えたことを特徴とする音声処理装置。 A filter processing unit that performs frequency domain filtering using window function processing in which analysis frames overlap at a predetermined rate with respect to an input signal;
Each time the ratio is increased, the degree of similarity between the signal after the filter processing is executed and the signal based on the input signal is calculated, and set in the filter processing unit based on the calculated degree of similarity. An audio processing apparatus comprising: a detection unit that detects a ratio.
入力信号に対して、所定の割合で分析フレームがオーバラップする窓関数処理を用いて周波数領域のフィルタ処理を実行し、
前記割合を増加させるごとに、前記フィルタ処理が実行された後の信号と前記入力信号に基づいた信号との類似度をそれぞれ算出し、算出した類似度に基づいて、前記フィルタ処理に設定する割合を検出する
ことを特徴とする音声処理方法。 An audio processing method executed by a computer,
Performs frequency domain filtering using the window function processing where the analysis frames overlap with the input signal at a predetermined rate,
Each time the ratio is increased, the degree of similarity between the signal after the filter process is executed and the signal based on the input signal is calculated, and the ratio is set for the filter process based on the calculated degree of similarity. A speech processing method characterized by detecting a signal.
入力信号に対して、所定の割合で分析フレームがオーバラップする窓関数処理を用いて周波数領域のフィルタ処理を実行し、
前記割合を増加させるごとに、前記フィルタ処理が実行された後の信号と前記入力信号に基づいた信号との類似度をそれぞれ算出し、算出した類似度に基づいて、前記フィルタ処理に設定する割合を検出する
各処理を実行させることを特徴とする音声処理プログラム。 On the computer,
Performs frequency domain filtering using the window function processing where the analysis frames overlap with the input signal at a predetermined rate,
Each time the ratio is increased, the degree of similarity between the signal after the filter process is executed and the signal based on the input signal is calculated, and the ratio is set for the filter process based on the calculated degree of similarity. A voice processing program for executing each process.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011265168A JP5821584B2 (en) | 2011-12-02 | 2011-12-02 | Audio processing apparatus, audio processing method, and audio processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011265168A JP5821584B2 (en) | 2011-12-02 | 2011-12-02 | Audio processing apparatus, audio processing method, and audio processing program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013117639A JP2013117639A (en) | 2013-06-13 |
JP5821584B2 true JP5821584B2 (en) | 2015-11-24 |
Family
ID=48712232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011265168A Expired - Fee Related JP5821584B2 (en) | 2011-12-02 | 2011-12-02 | Audio processing apparatus, audio processing method, and audio processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5821584B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6303340B2 (en) | 2013-08-30 | 2018-04-04 | 富士通株式会社 | Audio processing apparatus, audio processing method, and computer program for audio processing |
WO2015087495A1 (en) * | 2013-12-13 | 2015-06-18 | 日本電気株式会社 | Digital filter device, digital filter processing method, and storage medium having digital filter program stored thereon |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001175298A (en) * | 1999-12-13 | 2001-06-29 | Fujitsu Ltd | Noise suppression device |
JP3929365B2 (en) * | 2002-06-28 | 2007-06-13 | 日本電信電話株式会社 | Audio signal processing method, apparatus, and audio signal processing program |
JP4504782B2 (en) * | 2004-10-25 | 2010-07-14 | 日本電信電話株式会社 | Echo cancellation method, apparatus for implementing this method, program, and recording medium therefor |
JP5153389B2 (en) * | 2008-03-07 | 2013-02-27 | 三洋電機株式会社 | Acoustic signal processing device |
JP4950930B2 (en) * | 2008-04-03 | 2012-06-13 | 株式会社東芝 | Apparatus, method and program for determining voice / non-voice |
-
2011
- 2011-12-02 JP JP2011265168A patent/JP5821584B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013117639A (en) | 2013-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5923994B2 (en) | Audio processing apparatus and audio processing method | |
KR100750440B1 (en) | Reverberation estimation and suppression system | |
JP6107151B2 (en) | Noise suppression apparatus, method, and program | |
JP5598552B2 (en) | Voice control device, voice control method, voice control program, and portable terminal device | |
US20110054889A1 (en) | Enhancing Receiver Intelligibility in Voice Communication Devices | |
US20140365212A1 (en) | Receiver Intelligibility Enhancement System | |
JP2010154092A (en) | Noise detection apparatus and ethod | |
US20140177853A1 (en) | Sound processing device, sound processing method, and program | |
US9832299B2 (en) | Background noise reduction in voice communication | |
RU2411595C2 (en) | Improved intelligibility of speech in mobile communication device by control of vibrator operation depending on background noise | |
JP5626366B2 (en) | Voice control device, voice control method, and voice control program | |
JP6182895B2 (en) | Processing apparatus, processing method, program, and processing system | |
JP4914319B2 (en) | COMMUNICATION VOICE PROCESSING METHOD, DEVICE THEREOF, AND PROGRAM THEREOF | |
US8423357B2 (en) | System and method for biometric acoustic noise reduction | |
US8868417B2 (en) | Handset intelligibility enhancement system using adaptive filters and signal buffers | |
US11380312B1 (en) | Residual echo suppression for keyword detection | |
JP5821584B2 (en) | Audio processing apparatus, audio processing method, and audio processing program | |
CN105869656B (en) | Method and device for determining definition of voice signal | |
US8868418B2 (en) | Receiver intelligibility enhancement system | |
CN108831493B (en) | Audio processing method and device | |
JP2008309955A (en) | Noise suppresser | |
JP6136218B2 (en) | Sound processing apparatus, method, and program | |
CN114678038A (en) | Audio noise detection method, computer device and computer program product | |
JP2014230135A (en) | Talking system and masking sound generating program | |
JP2020190606A (en) | Sound noise removal device and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140805 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150413 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150421 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150619 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150908 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150921 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5821584 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |