JP2005055778A - Equalizer of frequency characteristic of speech - Google Patents
Equalizer of frequency characteristic of speech Download PDFInfo
- Publication number
- JP2005055778A JP2005055778A JP2003288293A JP2003288293A JP2005055778A JP 2005055778 A JP2005055778 A JP 2005055778A JP 2003288293 A JP2003288293 A JP 2003288293A JP 2003288293 A JP2003288293 A JP 2003288293A JP 2005055778 A JP2005055778 A JP 2005055778A
- Authority
- JP
- Japan
- Prior art keywords
- cepstrum
- difference
- psd
- filter
- mel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003595 spectral effect Effects 0.000 claims abstract description 8
- 230000009466 transformation Effects 0.000 claims abstract description 6
- 238000006243 chemical reaction Methods 0.000 claims description 23
- 238000000034 method Methods 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 12
- 238000009499 grossing Methods 0.000 claims description 10
- 238000001228 spectrum Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 5
- 241000282414 Homo sapiens Species 0.000 abstract description 5
- 230000008859 change Effects 0.000 abstract description 4
- 230000005540 biological transmission Effects 0.000 abstract 1
- 238000000844 transformation Methods 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 24
- 238000004364 calculation method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 238000012935 Averaging Methods 0.000 description 5
- 241000282412 Homo Species 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
この発明は、音声の補正技術に関し、特に、波形素片接続型音声合成システム等において、入力される音声の音質を、ターゲット音声に近い音質に補正するための技術に関する。 The present invention relates to a speech correction technique, and more particularly to a technique for correcting the sound quality of an input sound to a sound quality close to a target sound in a waveform segment connection type speech synthesis system or the like.
コンピュータ技術及びデータコミュニケーション技術の発達に伴い、人間と機械との間のインターフェイスが重要となっている。人間にとっては、人と話をするのと同様に機械とのコミュニケーションを行なえることが望ましく、そのための技術開発が進められている。 With the development of computer technology and data communication technology, the interface between humans and machines has become important. For human beings, it is desirable to be able to communicate with machines in the same way as talking to people, and technology development for that purpose is underway.
人間から機械への情報の伝達としては、音声認識、画像認識等の認知技術が主として用いられる。また機械から人間への情報の伝達方法は種々あるが、中でも音声合成技術が用いられる機会が増加している。音声応答システム、音声翻訳システム、コンピュータゲーム等が代表的な応用例である。さらに、近年のロボット等の開発の進展に伴い、音声認識及び画像認識と音声合成とを組合せることで、人間とロボットとのコミュニケーションを人間同士のコミュニケーションと同様に実現することが期待される。 Cognitive techniques such as voice recognition and image recognition are mainly used for transmitting information from humans to machines. There are various methods for transmitting information from a machine to a human being, and among them, the opportunity to use speech synthesis technology is increasing. A typical application is a voice response system, a voice translation system, a computer game, and the like. Furthermore, with the development of robots and the like in recent years, it is expected that communication between humans and robots can be realized in the same way as communication between humans by combining voice recognition and image recognition with voice synthesis.
音声合成では、如何にして自然な音声を合成するかが重要である。最近では、数十時間規模の大規模な音声コーパスを使用して音声素片を作成しておき、入力されるテキストデータに応じて適切な音声素片を選択し接続する、いわゆる音声素片接続型音声合成が主流となっている。この技術では、如何に自然に音声波形素片を接続するかが重要となる。 In speech synthesis, how to synthesize natural speech is important. Recently, a speech unit is created by using a large speech corpus of several tens of hours to create speech units and select and connect appropriate speech units according to the input text data. Type speech synthesis has become mainstream. In this technique, it is important how to connect speech waveform segments naturally.
上述した様に現在の波形素片音声合成システムでは、音質向上のために大規模な音声コーパスを使用している。多くの場合、単一の話者の音声を長期間かけて収録する。場合によってはその収録に数ヶ月から数年の期間を必要とする。 As described above, in the current waveform segment speech synthesis system, a large-scale speech corpus is used to improve sound quality. In many cases, a single speaker's voice is recorded over a long period of time. In some cases, the recording may take months to years.
こうした場合、録音時期が異なると、録音系の特性が経年変化し、そのために録音された音声を再生した場合、その音質が変化してしまうことがある。波形接続を行なう場合、その様に互いに異なる音質の音声を接続すると、合成された音声が不自然なものとなる問題がある。 In such a case, if the recording time is different, the characteristics of the recording system will change over time, and the sound quality may change if the recorded sound is reproduced. In the case of performing waveform connection, there is a problem in that synthesized speech becomes unnatural when speeches having different sound qualities are connected.
こうした問題を解決するための音声の補正技術に関し、一つの提案が非特許文献1においてなされている。図4に、非特許文献1に記載されたチャネル等化装置のブロック図を示す。図4を参照して、この装置200は、ソース音声30を受け、ソース音声30の発話内容でターゲット音声32とほぼ同じ周波数特性の音声を発生するためのものである。なお、本明細書では、ターゲット音声32は予め録音されていた、基準となる音声を指す。ソース音声30は、ターゲット音声32とは別の時期に録音された音声であり、録音系の特性の経年変化により、その周波数特性がターゲット音声32とは異なっている可能性があるものとする。
One proposal has been made in Non-Patent Document 1 regarding a sound correction technique for solving such a problem. FIG. 4 shows a block diagram of the channel equalizer described in Non-Patent Document 1. Referring to FIG. 4, this
この装置200は、ソース音声30のパワースペクトル密度(PSD)を生成するためのソースPSD生成部34と、ターゲット音声32のPSDを生成するためのターゲットPSD生成部36と、ソース音声30のPSDとターゲット音声32のPSDとの差分(ターゲットPSD/ソースPSD)を計算するための除算部38と、除算部38の出力に基づくLPC(線形予測係数)分析の結果を用いたIIR(Infinite Impulse Response)フィルタでソース音声30をフィルタリングし等化処理済みの音声212を出力するためのLPCフィルタ部210とを含む。
The
ソースPSD生成部34及びターゲットPSD生成部36は同様の構成を有する。ソースPSD生成部34は、ソース音声30のデータに含まれる各音声フレームを検出するための音声フレーム検出部50と、音声フレーム検出部により検出された各音声フレームに所定の窓掛け処理を行なうための窓掛け処理部52と、窓掛け処理部52により窓掛け処理された音声フレームデータから高速フーリエ変換(FFT)により当該音声フレームのPSDを算出するためのパワースペクトル算出部54と、パワースペクトル算出部54により算出された、所定期間のソース音声30のフレームのPSDの平均を算出するためのフレーム平均部56とを含む。
The source
ターゲットPSD生成部36も同様に、音声フレーム検出部60と、窓掛け処理部62と、パワースペクトル算出部64と、フレーム平均部66とを含む。
Similarly, the target
LPCフィルタ部210は、除算部38の出力に逆FFT(IFFT)処理を行なうためのIFFT部220と、IFFT部220の出力に対しLPC変換を行なうためのLPC変換部222と、LPC変換部222の出力するLPC係数により決定されるフィルタパラメータを持ち、ソース音声30に対するフィルタリング処理を行なってソース音声30の周波数特性をターゲット音声32の周波数特性に等化させるためのIIRフィルタ224とを含む。
The
ソース音声30とターゲット音声32との周波数特性の差分を除算部38で算出し、その差分に対するLPC変換を行なってIIRのフィルタパラメータを設定する。このチャネル等化装置200により、ソース音声30の周波数特性をターゲット音声32のそれとほぼ等しいものに等化できる。
A frequency characteristic difference between the
図4に示す従来の等化装置については、その有効性が示されている。 The effectiveness of the conventional equalization apparatus shown in FIG. 4 is shown.
しかし従来法では、LPC変換における次数をどの様に選択すべきかについて、困難な問題がある。すなわち、LPC変換の次数を小さくすると、補正の効果がほとんどなくなる一方、次数を大きくすると音質の劣化が甚だしくなるという問題がある。そのためLPC変換の次数を適切な値に決めるのが困難である。 However, the conventional method has a difficult problem as to how to select the order in the LPC conversion. That is, if the order of the LPC conversion is reduced, there is a problem that the effect of the correction is almost lost, while if the order is increased, the sound quality is greatly deteriorated. Therefore, it is difficult to determine the LPC conversion order to an appropriate value.
本発明に係る音声の周波数特性の等化装置は、処理対象となる音声と基準となる音声との間のパワースペクトル密度(PSD)の差分を算出するための手段と、差分をケプストラムにより表される周波数特性の特徴空間に変換するための手段と、ケプストラムにより表された差分を用いてフィルタパラメータが設定される、処理対象となる音声をフィルタリングするための、予め定められたフィルタリング手段とを含む。 An apparatus for equalizing frequency characteristics of speech according to the present invention includes means for calculating a difference in power spectral density (PSD) between speech to be processed and reference speech, and the difference is represented by a cepstrum. And a predetermined filtering means for filtering the speech to be processed in which filter parameters are set using the difference represented by the cepstrum. .
好ましくは、フィルタリング手段は、差分のケプストラムをメルケプストラムに変換するための手段と、メルケプストラムにより表された差分をフィルタパラメータとし、処理対象となる音声を入力として受ける様に接続されるMLSA(mel−logarithmic spectral approximation)フィルタとを含む。 Preferably, the filtering means includes means for converting a difference cepstrum into a mel cepstrum, and MLSA (mel) connected so as to receive a voice to be processed as an input using the difference represented by the mel cepstrum as a filter parameter. -Logarithmic (special application) filter.
又は、フィルタリング手段は、PSDの差分に対し平滑化処理を行なうためのPSD差分平滑化手段と、PSD差分平滑化手段により平滑化されたPSDによりフィルタパラメータが設定される、処理対象となる音声を受ける様に接続されるFIR(finite impulse response)フィルタとを含んでもよい。 Alternatively, the filtering means is a PSD difference smoothing means for performing a smoothing process on the PSD difference, and a sound to be processed in which a filter parameter is set by the PSD smoothed by the PSD difference smoothing means. And a FIR (Finite Impulse Response) filter connected to receive.
音声の周波数特性の等化装置は、PSDの差分を、予め定める第1の次数を有する差分のケプストラムに変換するための手段をさらに含んでもよい。PSD差分平滑化手段は、差分のケプストラムに対し前記第1の次数のケプストラムから前記第1の次数よりも小さな第2の次数を有するメルケプストラムへの周波数軸ワーピングを行なうための第1のメルワーピング手段と、第1のメルワーピング手段の出力に対し、第1のメルワーピング手段によるメルワーピングの逆変換を行ない逆変換された差分のケプストラムを出力するための第2のメルワーピング変換手段と、第2のメルワーピング変換手段の出力する逆変換された差分のケプストラムをスペクトルに変換することで平滑化されたPSDの差分を出力し、FIRフィルタにフィルタパラメータとして与えるための手段とを含んでもよい。 The audio frequency characteristic equalizer may further include means for converting the PSD difference into a differential cepstrum having a predetermined first order. The PSD difference smoothing means performs a first melwarping for frequency axis warping from the first order cepstrum to a mel cepstrum having a second order smaller than the first order for the difference cepstrum. And second melwarping conversion means for performing inverse transformation of melwarping by the first melwarping means on the output of the first melwarping means and outputting a cepstrum of the inversely transformed difference, And a means for outputting a PSD difference smoothed by converting the cepstrum of the inversely converted difference output from the two melwarping conversion means into a spectrum and giving the difference as a filter parameter to the FIR filter.
処理対象となる音声と基準となる音声とのパワースペクトル密度の差分がケプストラムにより表される周波数特性の特徴空間に変換される。それをさらにメルスケールに変換してMLSAフィルタを設定する。又は、ケプストラムに変換した後、メルワーピング及びその逆変換を行なって逆変換されたケプストラムを得て、それをさらにスペクトルに戻すことでPSDの差分を平滑化し、そのPSDの差分でフィルタを設定する。こうして設定されたフィルタは人間の聴覚特性に近い特性を持つ。またこうして設定されるフィルタの特性は、LPC変換によるフィルタと異なり、パラメータ次数に敏感でない。フィルタの精度を高める様にパラメータの算出を行なう場合にも、音質の劣化が生じることがない。また従来のチャネル等価装置と同程度の音質で、処理対象となる音声の周波数特性を基準となる音声の周波数特性に等化させることができる。 A difference in power spectral density between the speech to be processed and the speech to be processed is converted into a feature space having a frequency characteristic represented by a cepstrum. This is further converted into a mel scale and an MLSA filter is set. Alternatively, after converting to a cepstrum, Melwarping and its inverse transform are performed to obtain an inversely transformed cepstrum, which is further returned to the spectrum to smooth the PSD difference, and a filter is set with the PSD difference. . The filter set in this way has characteristics close to human auditory characteristics. Further, the characteristics of the filter set in this way are not sensitive to the parameter order, unlike the filter by LPC conversion. Even when the parameters are calculated so as to increase the accuracy of the filter, the sound quality does not deteriorate. Further, it is possible to equalize the frequency characteristic of the voice to be processed to the reference frequency characteristic with the same sound quality as that of the conventional channel equivalent apparatus.
[第1の実施の形態]
図1に、本発明の第1の実施の形態に係るチャネル等価装置20のブロック図を示す。図1において、図4と同じ部品には同じ参照番号を付してある。それらの機能も同一である。従ってそれらについての詳細な説明は繰返さない。
[First Embodiment]
FIG. 1 shows a block diagram of a channel
図1に示すチャネル等価装置20が図4のチャネル等価装置200と異なるのは、図4のLPCフィルタ部210に代えて、PSDの差分を平滑化したフィルタパラメータで設定されたFIR(Finite Impulse Response)フィルタを用いて等化を行なうケプストラムフィルタ部40を含む点である。
The channel
ケプストラムフィルタ部40は、除算部38の出力するソース音声30とターゲット音声32とのPSDの平均の差分について平方根をとりさらにその対数を算出するための対数算出部70と、対数算出部70の出力に対しm次のIFFT処理を実行することにより除算部38の出力に対するケプストラムを算出するためのIFFT処理部72と、IFFT処理部72の出力するケプストラムについて、その横軸(周波数軸)をメルスケールに変換する(メルワーピングする)ための第1のメルワーピング部74とを含む。
The
第1のメルワーピング部74での変換をメルワーピング(m、n、a)と表しているが、mは変換前のケプストラムの次数、nは変換後の次数である。ここではn<mとなる様にmとnとが選ばれている。aは周波数軸伸縮のパラメータである定数であり、サンプリング周波数に応じて定められる。 The conversion in the first melwarping unit 74 is expressed as melwarping (m, n, a), where m is the order of the cepstrum before conversion, and n is the order after conversion. Here, m and n are selected so that n <m. a is a constant which is a parameter for frequency axis expansion and contraction, and is determined according to the sampling frequency.
ケプストラムフィルタ部40はさらに、第1のメルワーピング部74の出力に対してメルワーピング(n、m、−a)を実行するための第2のメルワーピング部76を含む。第2のメルワーピング部76でのメルワーピングと第1のメルワーピング部74でのメルワーピングとは、互いに逆変換の関係になる。すなわちこれら二つの処理を直列に実行することにより周波数軸は元の線形軸に戻る。ただしm、nの値がn<mとなる様に選ばれているため、これら二つの処理を直列に実行した場合、メル変換後の周波数軸上の値の高い部分のケプストラムが除去される。
The
ケプストラムフィルタ部40はさらに、第2のメルワーピング部76の出力に対してFFT処理を行なうためのFFT処理部78と、FFT処理部78の出力に指数変換を行なうための指数変換部80と、指数変換部80の出力に対しIFFT処理を行なってフィルタパラメータを出力するためのIFFT処理部82とを含む。IFFT処理部82の出力は、第1のメルワーピング部74及び第2のメルワーピング部76によるメルワーピングとその逆変換とにより、除算部38の出力のPSDが平滑化されたものとなる。
The
ケプストラムフィルタ部40はさらに、IFFT処理部82の出力するフィルタパラメータにより設定され、ソース音声30に対しフィルタ処理を行なうことにより、ソース音声30の周波数特性を補正し、ターゲット音声32の周波数特性とほぼ同じ周波数特性の音声42として出力するためのFIR84を含む。
The
チャネル等価装置20は以下の様に動作する。図2を参照して、ソース音声30の波形90に対して図1に示す音声フレーム検出部50、窓掛け処理部52、パワースペクトル算出部54、及びフレーム平均部56によってソースPSD100が得られる。同様にターゲット音声32の波形92に対して音声フレーム検出部60、窓掛け処理部62、パワースペクトル算出部64、及びフレーム平均部66によってターゲットPSD102が得られる。除算部38が後者を前者で除算することにより、PSDの差分110が得られる。
The channel
このPSDの差分110に対し、対数算出部70、IFFT処理部72、及び第1のメルワーピング部74での処理を行なうことにより、メルケプストラム120が得られる。このメルケプストラム120に対し、第2のメルワーピング部76、FFT処理部78、及び指数変換部80での処理を実行することにより、PSDの差分110の平滑化されたPSD130が得られる。この平滑化されたPSD130に対しIFFT処理部82の処理を行なうことにより、FIR84のフィルタパラメータを設定する。この様に設定されたFIR84を用いてソース音声30をフィルタリングすることにより得られる音声42の周波数特性は、ターゲット音声32の周波数特性とほぼ等しいものとなる。
A
メルワーピングによってケプストラムを一旦メルスケールに変換した後、その逆変換によってその高周波数成分を除去することで、PSDの差分を平滑化している。従ってこうして得られたフィルタパラメータにより設定されたFIR84は人間の聴覚特性に近い特性を持つ。さらに、この様に設定されるFIR84の特性は、LPC変換によるフィルタと異なり、パラメータ次数に敏感でない。フィルタの精度を高める様にフィルタパラメータの算出を行なった場合にも音質の劣化が生じることがなく、従来のチャネル等価装置200と同程度の音質でソース音声30の周波数特性の等化を行なうことができる。
After the cepstrum is once converted to the mel scale by mel warping, the PSD difference is smoothed by removing the high frequency component by the inverse conversion. Therefore, the
[第2の実施の形態]
上記した第1の実施の形態の装置では、フィルタリングはFIRで行なっている。しかし本発明はその様にFIRを用いるものには限定されない。図1に示す第1のメルワーピング部74の出力するメルケプストラム係数で直接設定できるフィルタを使用する場合、構成はより簡単となる。図3にそうしたフィルタとしてMLSA(mel−logarithmic spectral approximation)フィルタを用いた、本発明の第2の実施の形態に係るチャネル等価装置140のブロック図を示す。
[Second Embodiment]
In the apparatus of the first embodiment described above, filtering is performed by FIR. However, the present invention is not limited to that using FIR. When a filter that can be directly set by the mel cepstrum coefficient output from the first mel warping unit 74 shown in FIG. 1 is used, the configuration becomes simpler. FIG. 3 shows a block diagram of a channel
図3において、図1及び図4と同一部品には同一の参照符号を付してある。それらの機能も同一である。従ってここではそれらについての詳細な説明は繰返さない。 In FIG. 3, the same components as those in FIGS. 1 and 4 are denoted by the same reference numerals. Their functions are also the same. Therefore, detailed description thereof will not be repeated here.
図3を参照して、この第3の実施の形態に係るチャネル等価装置140が図1に示すチャネル等価装置20と異なるのは、図1に示すケプストラムフィルタ部40に代えて、MLSAフィルタを含むMLSAフィルタ部150を含む点である。そしてMLSAフィルタ部150が図1のケプストラムフィルタ部40と異なるのは、図1の第2のメルワーピング部76、FFT処理部78、指数変換部80、及びIFFT処理部82に代えて、第2のメルワーピング部76から出力されるメルケプストラムによって直接にフィルタパラメータが設定されるMLSAフィルタ160を含む点である。
Referring to FIG. 3, channel
この第2の実施の形態に係るチャネル等価装置140の動作は、第1のメルワーピング部74の出力によってMLSAフィルタ160が設定される点を除き、第1の実施の形態のチャネル等価装置20と同じである。
The operation of the channel
チャネル等価装置140によっても、第1の実施の形態のチャネル等価装置20と同様の効果を得ることができる。それに加えて、MLSAフィルタ160は、メルケプストラムをパラメータとするフィルタであり、第1のメルワーピング部74の出力によって直接設定できる。従って、第1の実施の形態のチャネル等価装置20と比較して、メルケプストラムからFIRのフィルタパラメータを作成するための種々の部品が不要となり、回路構成が簡単となる。
The channel
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。 The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.
20,140,200 チャネル等価装置、30 ソース音声、32 ターゲット音声、34 ソースPSD生成部、36 ターゲットPSD生成部、38 除算部、40 ケプストラムフィルタ部、50,60 音声フレーム検出部、52,62 窓掛け処理部、54,64 パワースペクトル算出部、56,66 フレーム平均部、74 第1のメルワーピング部、76 第2のメルワーピング部、84 FIR、150 MLSAフィル
タ部、160 MLSAフィルタ、210 LPCフィルタ部
20, 140, 200 channel equivalent device, 30 source speech, 32 target speech, 34 source PSD generation unit, 36 target PSD generation unit, 38 division unit, 40 cepstrum filter unit, 50, 60 speech frame detection unit, 52, 62 window Multiplication processing unit, 54, 64 power spectrum calculation unit, 56, 66 frame averaging unit, 74 first mel warping unit, 76 second mel warping unit, 84 FIR, 150 MLSA filter unit, 160 MLSA filter, 210 LPC filter Part
Claims (4)
前記差分をケプストラムにより表される周波数特性の特徴空間に変換するための手段と、
前記ケプストラムにより表された差分を用いてフィルタパラメータが設定される、前記処理対象となる音声をフィルタリングするための、予め定められたフィルタリング手段とを含む、音声の周波数特性の等化装置。 Means for calculating a power spectral density (PSD) difference between the speech to be processed and the reference speech;
Means for converting the difference into a feature space of frequency characteristics represented by a cepstrum;
An audio frequency characteristic equalization apparatus including predetermined filtering means for filtering the audio to be processed, in which a filter parameter is set using the difference represented by the cepstrum.
前記差分のケプストラムをメルケプストラムに変換するための手段と、
前記メルケプストラムにより表された差分をフィルタパラメータとし、前記処理対象となる音声を入力として受ける様に接続されるMLSA(mel−logarithmic spectral approximation)フィルタとを含む、請求項1に記載の音声の周波数特性の等化装置。 The filtering means includes
Means for converting the differential cepstrum into a mel cepstrum;
The audio frequency according to claim 1, further comprising: an MLSA (mel-logarithmic spectral application) filter connected so as to receive the audio to be processed as an input using the difference represented by the mel cepstrum as a filter parameter. Character equalizer.
前記PSDの差分に対し平滑化処理を行なうためのPSD差分平滑化手段と、
前記PSD差分平滑化手段により平滑化されたPSDによりフィルタパラメータが設定される、前記処理対象となる音声を受ける様に接続されるFIR(finite impulse response)フィルタとを含む、請求項1に記載の音声の周波数特性の等化装置。 The filtering means includes
PSD difference smoothing means for performing a smoothing process on the PSD difference;
The filter parameter is set by PSD smoothed by the PSD difference smoothing means, and includes an FIR (fine impulse response) filter connected to receive the speech to be processed. Equalizer for frequency characteristics of audio.
前記PSD差分平滑化手段は
前記差分のケプストラムに対し前記第1の次数のケプストラムから前記第1の次数よりも小さな第2の次数を有するメルケプストラムへの周波数軸ワーピングを行なうための第1のメルワーピング手段と、
前記第1のメルワーピング手段の出力に対し、前記第1のメルワーピング手段によるメルワーピングの逆変換を行ない逆変換された差分のケプストラムを出力するための第2のメルワーピング変換手段と、
前記第2のメルワーピング変換手段の出力する前記逆変換された差分のケプストラムをスペクトルに変換することで平滑化されたPSDの差分を出力し、前記FIRフィルタにフィルタパラメータとして与えるための手段とを含む、請求項3に記載の音声の周波数特性の等化装置。 The audio frequency characteristic equalizer further includes means for converting the PSD difference into a differential cepstrum having a predetermined first order,
The PSD differential smoothing means performs a first mel for warping the difference cepstrum from the first order cepstrum to a mel cepstrum having a second order smaller than the first order. Warping means;
A second melwarping conversion means for performing an inverse transformation of the melwarping by the first melwarping means and outputting a cepstrum of the inversely transformed difference to the output of the first melwarping means;
Means for outputting a PSD difference smoothed by converting the cepstrum of the inversely converted difference output from the second mel warping conversion means into a spectrum, and giving the difference as a filter parameter to the FIR filter; The equalization apparatus of the frequency characteristic of the audio | voice of Claim 3 containing.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003288293A JP3869823B2 (en) | 2003-08-06 | 2003-08-06 | Equalizer for frequency characteristics of speech |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003288293A JP3869823B2 (en) | 2003-08-06 | 2003-08-06 | Equalizer for frequency characteristics of speech |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005055778A true JP2005055778A (en) | 2005-03-03 |
JP3869823B2 JP3869823B2 (en) | 2007-01-17 |
Family
ID=34366989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003288293A Expired - Lifetime JP3869823B2 (en) | 2003-08-06 | 2003-08-06 | Equalizer for frequency characteristics of speech |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3869823B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110191396A (en) * | 2019-05-24 | 2019-08-30 | 腾讯音乐娱乐科技(深圳)有限公司 | A kind of audio-frequency processing method, device, terminal and computer readable storage medium |
-
2003
- 2003-08-06 JP JP2003288293A patent/JP3869823B2/en not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110191396A (en) * | 2019-05-24 | 2019-08-30 | 腾讯音乐娱乐科技(深圳)有限公司 | A kind of audio-frequency processing method, device, terminal and computer readable storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP3869823B2 (en) | 2007-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102158743B1 (en) | Data augmentation method for spontaneous speech recognition | |
JP4774100B2 (en) | Reverberation removal apparatus, dereverberation removal method, dereverberation removal program, and recording medium | |
KR101224755B1 (en) | Multi-sensory speech enhancement using a speech-state model | |
ES2284676T3 (en) | IMPROVED INCREASED PERCEPTION OF CODIFIED ACOUSTIC SIGNS. | |
JP6482173B2 (en) | Acoustic signal processing apparatus and method | |
JP5717097B2 (en) | Hidden Markov model learning device and speech synthesizer for speech synthesis | |
WO2014195359A1 (en) | Method of audio source separation and corresponding apparatus | |
JP2013037174A (en) | Noise/reverberation removal device, method thereof, and program | |
JP4457221B2 (en) | Sound source separation method and system, and speech recognition method and system | |
CN113571047A (en) | Audio data processing method, device and equipment | |
JP2005157363A (en) | Method of and apparatus for enhancing dialog utilizing formant region | |
JP2006243644A (en) | Method for reducing noise, device, program, and recording medium | |
CN110517662A (en) | A kind of method and system of Intelligent voice broadcasting | |
JP6347536B2 (en) | Sound synthesis method and sound synthesizer | |
JP2012208177A (en) | Band extension device and sound correction device | |
JP2008072600A (en) | Acoustic signal processing apparatus, acoustic signal processing program, and acoustic signal processing method | |
JP2798003B2 (en) | Voice band expansion device and voice band expansion method | |
JP3869823B2 (en) | Equalizer for frequency characteristics of speech | |
JP6032832B2 (en) | Speech synthesizer | |
JP6925995B2 (en) | Signal processor, speech enhancer, signal processing method and program | |
JP4433668B2 (en) | Bandwidth expansion apparatus and method | |
JP4644879B2 (en) | Data generator for articulation parameter interpolation and computer program | |
JP7159767B2 (en) | Audio signal processing program, audio signal processing method, and audio signal processing device | |
Liu et al. | LPCSE: Neural Speech Enhancement through Linear Predictive Coding | |
JP6774912B2 (en) | Sound image generator |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060612 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060627 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060823 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061003 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061013 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3869823 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091020 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101020 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101020 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111020 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121020 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121020 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121020 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131020 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |