JP2005084661A - Speech analysis generator and program - Google Patents
Speech analysis generator and program Download PDFInfo
- Publication number
- JP2005084661A JP2005084661A JP2003320312A JP2003320312A JP2005084661A JP 2005084661 A JP2005084661 A JP 2005084661A JP 2003320312 A JP2003320312 A JP 2003320312A JP 2003320312 A JP2003320312 A JP 2003320312A JP 2005084661 A JP2005084661 A JP 2005084661A
- Authority
- JP
- Japan
- Prior art keywords
- frequency amplitude
- amplitude component
- component
- function
- shift
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、音声波形を分析し、その分析結果から音声波形を生成(合成)するための技術に関する。 The present invention relates to a technique for analyzing a speech waveform and generating (synthesizing) a speech waveform from the analysis result.
音声波形を分析し、その分析結果を用いて音声波形を合成する音声分析合成装置は、入力した音声波形に対し声質を変化させるといった音響効果を付与する用途でも利用されている。
その声質の変化は、例えば音声(例えば人声)のフォルマントを操作したり、或いは音声をバンドパスフィルタ(BPF)に通してバンド別に振幅値を特定し、特定した振幅値から構成したフィルタに音声を通すことで行われる。前者の方式を採用した音声分析生成装置としては、例えば特許文献1に記載されたものがある。
A speech analysis / synthesis apparatus that analyzes a speech waveform and synthesizes a speech waveform using the analysis result is also used for applying an acoustic effect such as changing the voice quality of the input speech waveform.
The change in the voice quality is, for example, by manipulating a formant of voice (for example, human voice) or by passing the voice through a bandpass filter (BPF) and specifying an amplitude value for each band, and then changing the voice to a filter configured from the specified amplitude value. It is done by passing. As a speech analysis and generation apparatus that employs the former method, there is one described in
その特許文献1に記載された従来の音声分析生成装置では、音声波形を分析して抽出したLPC(線形予測)係数をLSP(Line Spectrum Pare)係数に変換し、そのLSP係数に対して周波数変換を行うことにより、フォルマント位置を移動させていた。しかし、LPC係数からLSP係数への変換やLPCによるフィルタの極の算出では、高次代数方程式を解く必要から演算量が膨大となる。このため、処理が非常に重いという問題点があった。
In the conventional speech analysis and generation apparatus described in
その問題点により、処理時間を実用的なレベルにするには高性能な高価な処理システムを用意しなければならなかった(これは、特にリアルタイムで分析、生成(合成)を行う場合に強く要求される)。このことから、全体の製造コストを抑える意味からも、処理の負荷をより軽くすることが望まれていた。
本発明の課題は、フォルマント位置の操作をより軽い負荷で実現させるための技術を提供することにある。 The subject of this invention is providing the technique for implement | achieving operation of a formant position with a lighter load.
本発明の第1〜第3の態様の音声分析生成装置は共に、第1の音声波形を分析し、該分析結果を用いて第2の音声波形の生成を行うことを前提とし、それぞれ以下の手段を具備する。
第1の態様の音声分析生成装置は、第1の音声波形を分析して第1の周波数振幅成分、及び位相成分を抽出する分析手段と、周波数振幅成分のフィルタリングを行うフィルタ手段と、第1の周波数振幅成分に対するフォルマントのシフト量を指示する指示手段と、指示手段により指示されたシフト量に従いシフトを行うシフト手段と、第1の周波数振幅成分に対しフィルタ手段がフィルタリングすることで得られる第2の周波数振幅成分で該第1の周波数振幅成分を除算することにより周波数振幅残差を算出する算出手段と、シフト手段がシフトした第1の周波数振幅成分に対するフィルタ手段によるフィルタリング、及び第2の周波数振幅成分に対するシフト手段によるシフトのうちの一方を行うことで得られる第3の周波数振幅成分に周波数振幅残差を乗算する乗算手段と、乗算手段が乗算を行うことで得られる第4の周波数振幅成分、及び位相成分を用いて第2の音声波形を生成する音声波形生成手段と、を具備する。
Both of the speech analysis / generation apparatuses according to the first to third aspects of the present invention are based on the premise that the first speech waveform is analyzed and the second speech waveform is generated using the analysis result. Means.
According to a first aspect of the present invention, there is provided a speech analysis / generation apparatus that analyzes a first speech waveform to extract a first frequency amplitude component and a phase component, a filter unit that filters a frequency amplitude component, a first An instruction means for instructing the amount of formant shift with respect to the frequency amplitude component, a shift means for shifting according to the shift amount instructed by the instruction means, and a filter means for filtering the first frequency amplitude component. Calculating means for calculating a frequency amplitude residual by dividing the first frequency amplitude component by two frequency amplitude components, filtering by the filter means for the first frequency amplitude component shifted by the shift means, and second The third frequency amplitude component obtained by performing one of the shifts by the shift means for the frequency amplitude component is Multiplying means for multiplying several amplitude residuals, and speech waveform generating means for generating a second speech waveform using a fourth frequency amplitude component and a phase component obtained by performing multiplication by the multiplying means. To do.
第2の態様の音声分析生成装置は、第1の音声波形を分析して第1の周波数振幅成分、及び第1の位相成分を抽出する分析手段と、周波数振幅成分のフィルタリングを行うフィルタ手段と、周波数振幅成分に対しフォルマントのシフトを行う第1のシフト手段と、第1の周波数振幅成分に対しフィルタ手段がフィルタリングすることで得られた第2の周波数振幅成分で該第1の周波数振幅成分を除算して得られる周波数振幅残差を算出する残差算出手段と、第1の位相成分から瞬時周波数を算出する瞬時周波数算出手段と、ピッチのシフト量を指示するピッチ指示手段と、ピッチ指示手段が指示したシフト量に従って、瞬時周波数、及び周波数振幅残差をシフトする第2のシフト手段と、第1のシフト手段がシフトした第1の周波数振幅成分に対するフィルタ手段によるフィルタリング、及び第2の周波数振幅成分に対する第1のシフト手段によるシフトのうちの一方を行うことで得られる第3の周波数振幅成分に、第2のシフト手段によりシフトされた周波数振幅残差を乗算して第4の周波数振幅成分を算出する振幅成分算出手段と、第2のシフト手段によりシフトされた瞬時周波数から第2の位相成分を算出する位相成分算出手段と、第4の周波数振幅成分、及び第2の位相成分を用いて第2の音声波形を生成する音声波形生成手段と、を具備する。 The speech analysis generation device according to the second aspect includes Analyzing the first speech waveform to obtain a first frequency amplitude component; And analyzing means for extracting the first phase component; Filter means for filtering frequency amplitude components; First shift means for performing a formant shift on the frequency amplitude component; Residual calculating means for calculating a frequency amplitude residual obtained by dividing the first frequency amplitude component by a second frequency amplitude component obtained by filtering the first frequency amplitude component by the filter means; , Instantaneous frequency calculating means for calculating an instantaneous frequency from the first phase component; Pitch instruction means for instructing the pitch shift amount; According to the shift amount instructed by the pitch instruction means, Instantaneous frequency, And second shifting means for shifting the frequency amplitude residual; Filtering by the filter means for the first frequency amplitude component shifted by the first shift means; And the third frequency amplitude component obtained by performing one of the shifts by the first shift means with respect to the second frequency amplitude component, Amplitude component calculating means for calculating a fourth frequency amplitude component by multiplying the frequency amplitude residual shifted by the second shift means; Phase component calculation means for calculating a second phase component from the instantaneous frequency shifted by the second shift means; A fourth frequency amplitude component; Voice waveform generation means for generating a second voice waveform using the second phase component; It comprises.
第3の態様の音声分析生成装置は、第1の音声波形を分析して第1の周波数振幅成分、及び位相成分を抽出する分析手段と、周波数振幅成分のフィルタリングを行うフィルタ手段と、周波数振幅成分に対しフォルマントのシフトを行うシフト手段と、ピッチを指示するピッチ指示手段と、ピッチ指示手段が指示したピッチで声帯音源を模擬する音源波形を生成する音源波形生成手段と、音源波形を分析して周波数振幅成分を抽出する他の分析手段と、他の分析手段により音源波形から抽出される周波数振幅成分に、シフト手段がシフトした第1の周波数振幅成分に対するフィルタ手段によるフィルタリング、及び該フィルタ手段がフィルタリングした第1の周波数振幅成分に対する該シフト手段によるシフトのうちの一方を行うことで得られる第2の周波数振幅成分を乗算して第3の周波数振幅成分を算出する振幅成分算出手段と、第3の周波数振幅成分、及び位相成分を用いて第2の音声波形を生成する音声波形生成手段と、を具備する。 According to a third aspect of the present invention, there is provided a speech analysis / generation apparatus that analyzes a first speech waveform to extract a first frequency amplitude component and a phase component, a filter unit that filters a frequency amplitude component, and a frequency amplitude Shift means for shifting the formant with respect to the component; pitch instruction means for instructing the pitch; sound source waveform generation means for generating a sound source waveform that simulates the vocal cord sound source at the pitch indicated by the pitch instruction means; and Analyzing means for extracting the frequency amplitude component, filtering by the filter means for the first frequency amplitude component shifted by the shift means to the frequency amplitude component extracted from the sound source waveform by the other analysis means, and the filter means Is obtained by performing one of the shifts by the shift means on the filtered first frequency amplitude component. Amplitude component calculating means for multiplying the second frequency amplitude component to calculate the third frequency amplitude component, and voice waveform generating means for generating the second voice waveform using the third frequency amplitude component and the phase component And.
なお、上記第1〜第3の態様において、上記分析手段は、第1の音声波形の分析を高速フーリエ変換を用いて行い、音声波形生成手段は、逆高速フーリエ変換を用いて第2の音声波形を生成する、ことが望ましい。上記フィルタ手段については、移動平均フィルタとして機能するものである、ことが望ましい。 In the first to third aspects, the analysis unit performs analysis of the first speech waveform using fast Fourier transform, and the speech waveform generation unit uses the inverse fast Fourier transform to perform the second speech. It is desirable to generate a waveform. The filter means desirably functions as a moving average filter.
また、第2の音声波形を第1の音声波形に重畳して出力できる、ことが望ましい。音源波形生成手段は、音源波形としてRosenberg 波を生成する、ことが望ましい。
本発明の第1〜第3の態様のプログラムは、上記第1〜第3の態様の音声分析生成装置をそれぞれ実現させるための機能を搭載している。
It is also desirable that the second speech waveform can be superimposed on the first speech waveform and output. The sound source waveform generating means preferably generates a Rosenberg wave as the sound source waveform.
The program of the 1st-3rd aspect of this invention is equipped with the function for implement | achieving the audio | voice analysis production | generation apparatus of the said 1st-3rd aspect, respectively.
本発明は、第1の音声波形を分析して第1の周波数振幅成分、及び位相成分を抽出し、第1の周波数振幅成分をフィルタリングすることで得られる第2の周波数振幅成分で該第1の周波数振幅成分を除算することにより周波数振幅残差を算出し、シフトした第1の周波数振幅成分に対するフィルタリング、及び第2の周波数振幅成分のシフトのうちの一方を行うことで得られる第3の周波数振幅成分に周波数振幅残差を乗算して第4の周波数振幅成分を算出し、その第4の周波数振幅成分、及び位相成分を用いて第2の音声波形を生成する。 The present invention analyzes the first speech waveform, extracts the first frequency amplitude component and the phase component, and filters the first frequency amplitude component to obtain the first frequency amplitude component. A frequency amplitude residual is calculated by dividing the frequency amplitude component of the second frequency amplitude component, and a third obtained by performing one of filtering on the shifted first frequency amplitude component and shifting of the second frequency amplitude component A frequency amplitude component is multiplied by the frequency amplitude residual to calculate a fourth frequency amplitude component, and a second speech waveform is generated using the fourth frequency amplitude component and the phase component.
第3の周波数振幅成分を得るまでに行われる周波数振幅成分に対するシフトに伴い、フォルマント位置もシフトされる。位相成分に対する操作は行わないために、ピッチは実質的に維持される。このため、ピッチを変化させることなく、フォルマント位置を操作することができる。LPCによる極の移動やLSP係数への変換のために高次方程式を解くような膨大な演算量が必要な処理は行わなくて済むため、そのような処理を行う場合と比較して、処理全体の負荷は大幅に低減させることができる。その低減により、高価な高性能な処理システム(CPU或いはDSP、などを含むもの)を採用しなくとも十分な処理速度が得られることとなる。 With the shift to the frequency amplitude component performed until the third frequency amplitude component is obtained, the formant position is also shifted. Since no operation is performed on the phase component, the pitch is substantially maintained. Therefore, the formant position can be operated without changing the pitch. Since it is not necessary to perform processing that requires an enormous amount of calculation such as solving higher-order equations for movement of poles or conversion to LSP coefficients by LPC, the entire processing is compared with the case where such processing is performed. The load of can be greatly reduced. By the reduction, a sufficient processing speed can be obtained without employing an expensive high-performance processing system (including a CPU or DSP).
上記位相成分から瞬時周波数を算出し、その瞬時周波数、及び周波数振幅残差をシフトし、シフトした周波数振幅残差を第3の周波数振幅成分と乗算して第4の周波数振幅成分を算出し、第4の周波数振幅成分、及びシフトした瞬時周波数から得られる位相成分を用いて第2の音声波形を生成するようにした場合には、フォルマント位置の操作とともにピッチの操作(シフト)も同時に行うことができる。そのようにしても膨大な演算量が必要な処理は行わなくとも済むため、処理全体の負荷の増大は抑えられることとなる。 The instantaneous frequency is calculated from the phase component, the instantaneous frequency and the frequency amplitude residual are shifted, the shifted frequency amplitude residual is multiplied by the third frequency amplitude component, and the fourth frequency amplitude component is calculated. When the second speech waveform is generated using the fourth frequency amplitude component and the phase component obtained from the shifted instantaneous frequency, the pitch operation (shift) is performed simultaneously with the operation of the formant position. Can do. Even in such a case, it is not necessary to perform a process that requires a huge amount of calculation, so that an increase in the load of the entire process can be suppressed.
本発明は、第1の音声波形を分析して第1の周波数振幅成分、及び位相成分を抽出し、指示されたピッチで声帯音源を模擬する音源波形を生成し、その音源波形から抽出される周波数振幅成分に、シフトした第1の周波数振幅成分をフィルタリングするか、或いはフィルタリングした第1の周波数振幅成分に対しシフトすることで得られる第2の周波数振幅成分を乗算して第3の周波数振幅成分を算出し、その第3の周波数振幅成分、及び位相成分を用いて第2の音声波形を生成する。このため、フォルマント位置の操作とともにピッチの操作(シフト)も同時に行うことができる。膨大な演算量が必要な処理は行わなくとも済むため、そのような処理を行う場合と比較して、処理全体の負荷は大幅に低減させることができる。それにより、上記発明と同様の効果が得られる。 The present invention analyzes a first speech waveform, extracts a first frequency amplitude component and a phase component, generates a sound source waveform that simulates a vocal cord sound source at an instructed pitch, and is extracted from the sound source waveform. The frequency amplitude component is filtered by the shifted first frequency amplitude component or is multiplied by the second frequency amplitude component obtained by shifting the filtered first frequency amplitude component to obtain the third frequency amplitude. A component is calculated, and a second speech waveform is generated using the third frequency amplitude component and phase component. For this reason, the operation (shift) of the pitch can be performed simultaneously with the operation of the formant position. Since it is not necessary to perform a process that requires an enormous amount of calculation, the load on the entire process can be greatly reduced as compared with the case where such a process is performed. Thereby, the same effect as the above-mentioned invention can be obtained.
以下、本発明の実施例について、図面を参照しながら詳細に説明する。
<第1の実施例>
図1は、本実施例による音声分析生成装置を搭載した電子楽器の構成図である。
その電子楽器は、図1に示すように、楽器全体の制御を行うCPU1と、複数の鍵を備えた鍵盤2と、各種スイッチを備えたスイッチ部3と、CPU1が実行するプログラムや各種制御用データ等を格納したROM4と、CPU1のワーク用のRAM5と、例えば液晶表示装置(LCD)や複数のLEDなどを備えた表示部6と、特には図示しない端子に接続されたマイク7から入力されるアナログの音声信号のA/D変換を行いその音声データを出力するA/D変換器8と、CPU1の指示に従い楽音発音用の波形データを生成する楽音生成部9と、その生成部9が生成した波形データのD/A変換を行い、アナログのオーディオ信号を出力するD/A変換器10と、そのオーディオ信号の増幅を行うアンプ11と、そのアンプ11が増幅を行った後のオーディオ信号を音声に変換するスピーカ12と、各種スライダを備えたスライダ部13と、を備えて構成されている。それらの構成において、CPU1、鍵盤2、スイッチ部3、ROM4、RAM5、表示部6、A/D変換器8、楽音生成部9、及びスライダ部13の間はバスによって接続されている。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
<First embodiment>
FIG. 1 is a configuration diagram of an electronic musical instrument equipped with a speech analysis / generation apparatus according to the present embodiment.
As shown in FIG. 1, the electronic musical instrument includes a
上記スライダ部13は、図2に示すように、マイク7により入力された音声のピッチのシフトを指示するためのピッチスライダ21と、そのフォルマント位置(周波数)のシフトを指示するためのフォルマントスライダ22と、を備えている。それにより、本実施例による音声分析生成装置は、マイク7により入力された音声のピッチ、或いはフォルマント位置を操作する音響効果を付加できるものとして実現されている。
As shown in FIG. 2, the
そのスライダ部13は、図2に示すスライダ21、22の他に、それらのつまみの位置を検出するための検出回路を備えたものである。これはスイッチ部3でも同様である。
マイク7から出力されたアナログの音声信号は、A/D変換器(ADC)8によってデジタルの音声データに変換される。そのA/D変換器8は、例えばサンプリング周波数22,052HzでAD変換(サンプリング)を行う。以降、それがAD変換して得られる音声データについては便宜的に「元音声データ」、或いは「元波形データ」と呼び、マイク7に入力された音声については「元音声」と呼ぶことにする。音声の入力は、CD−ROMやDVD、或いは光磁気ディスク等の記憶媒体を介して行っても良く、LAN、或いは公衆網等の通信ネットワークを介して行っても良い。
The
The analog audio signal output from the
図3は、本実施例による音声分析生成装置の機能構成図である。
A/D変換器(ADC)8が出力する元音声データは、例えばRAM5に確保された領域である入力バッファ301に格納される。フレーム抽出・窓かけ部302は、入力バッファ301から1フレーム分の元音声データを切り出し、それに窓関数、例えばハニング窓(Hanning Window)を乗算する。
FIG. 3 is a functional configuration diagram of the speech analysis generation device according to the present embodiment.
The original audio data output from the A / D converter (ADC) 8 is stored in the
高速フーリエ変換(FFT)部303は、窓関数乗算後のフレームを対象にFFTを行い、周波数振幅成分と位相成分を算出する。移動平均フィルタ部304は、その周波数振幅成分の平均値を出力するフィルタリングを行うものである。そのフィルタ点数はサンプリング周波数が22,052Hzでは7点が最適である。その場合、移動平均フィルタ部304は、7個の周波数振幅成分単位でフィルタリングを行うことになり、そのようなフィルタリングにより、周波数振幅成分の概形を示す値が出力されることとなる。その値がフォルマント成分に相当する。
A fast Fourier transform (FFT)
逆数演算部306は、フィルタリング後の周波数振幅成分(以降「周波数振幅概形」と呼ぶ)の逆数を算出する。乗算器307は、その逆数にフィルタリング前の周波数振幅成分を乗算する。その乗算結果は、フィルタリングの前後における周波数振幅成分の比を表す値である。ここでは、それを周波数振幅残差と呼ぶことにする。
The
その周波数振幅残差は、ピッチ移動部310のシフト部310bによってシフト(周波数領域上のシフト)される。そのシフト後の周波数振幅残差が乗算器312に送られる。
フォルマント移動部305のシフト部305aは、FFT部303から受け取った周波数振幅成分をシフト(周波数領域上のシフトである)する。この操作は、音声のピッチをシフトする操作に相当し、そのシフトに伴い、元音声のフォルマント位置もシフトすることになる。しかし、位相成分の操作は行わないので、厳密にはピッチシフトとはならない。それにより、実質的にはフォルマント位置のみが操作されることとなる。
The frequency amplitude residual is shifted (shifted in the frequency domain) by the
The
フォルマント移動部305は、その操作後の周波数振幅成分に対し、移動平均フィルタ部305bによりフィルタリングを更に行う。それにより得られる周波数振幅成分概形が乗算器312に送られる。
操作パネル311は、図2に示すスライダ21、22のつまみの位置に応じて、フォルマント位置、及びピッチのそれぞれのシフト量を指示するものである。例えばスライダ部13、CPU1、ROM4、及びRAM5により実現される。本実施例では、それらのシフト量は、元音声のフォルマント位置、ピッチを基準として表す比率で指示するようにしている。以降「フォルマント位置、及びピッチのシフト量を表す比率はそれぞれ「フォルマントシフト比率」及び「ピッチシフト比率」と呼ぶことにする。
The
The
周波数振幅成分や位相成分は、インデクスにより管理される。このことから、それらのシフトは、インデクス値に比率を乗算してシフト後のインデクス値を算出し、算出したインデクス値に配置を変更することで行われる。
乗算器312は、フォルマント移動部305からの周波数振幅成分概形をシフト後の周波数振幅残差と乗算し、その乗算結果を出力する。その乗算結果として算出される周波数振幅成分は、ユーザが指定したピッチシフト、フォルマントシフトを施したものに相当する。
The frequency amplitude component and the phase component are managed by an index. From this, these shifts are performed by multiplying the index value by the ratio to calculate the shifted index value, and changing the arrangement to the calculated index value.
上記FFT部303が抽出した位相成分は、瞬時周波数算出部308に送られる。その算出部308は、位相差計測法により、その位相成分、及び前フレームの位相成分(位相データ)を用いて瞬時周波数を算出する。
ピッチ移動部310のシフト部310aは、ピッチシフト比率に応じて、瞬時周波数のシフトを行う。周波数位相差変換部313は、ソフト後の瞬時周波数を位相差に変換する。位相差積算部314は、その位相差を積分することで位相成分を生成する。
The phase component extracted by the
The shift unit 310a of the
逆高速フーリエ変換(IFFT)部315は、位相差積算部314からの位相成分、及び乗算器312からの周波数振幅成分を用いて逆FFTを行う。その位相成分は、元音声のそれから操作を行ったものに相当するため、逆FFTにより生成される時間領域の音声データはフォルマント位置だけでなくピッチも変更したものとなる。窓掛けフレーム加算部316は、その音声データに対し、他のフレームの音声データに加算して重畳するために窓関数を乗算する。その乗算結果が加算器317に送られる。
The inverse fast Fourier transform (IFFT)
その加算器317には、フレーム抽出・窓かけ部302が出力する窓関数乗算後の元音声データを増幅器318が増幅して得られる元音声データが送られる。このことから、加算器317は、その元音声データを窓掛けフレーム加算部316からの音声データと加算する。その加算後の音声データは、元音声に、フォルマント位置、或いはピッチを操作した元音声を付加したもの、つまりハーモニー効果を付加したものとなる。それが出力バッファ319に格納された音声データに加算され重畳される。その出力バッファ319は、例えばRAM5に確保された領域であり、それから読み出された音声データが楽音生成部9を介してD/A変換器10に出力されることにより、スピーカ12からハーモニー効果が付加された音声が放音されることとなる。
The adder 317 receives original audio data obtained by the
本実施例による音声分析生成装置は、上述したようにして、元音声データをFFTして周波数振幅成分と位相成分とに分け、ピッチ移動部310によるシフトを行わない場合、周波数振幅成分のシフト操作のみを行うことによりフォルマント位置を移動させる。このため、LPCによる極の移動やLSP係数への変換のために高次方程式を解く場合と比較して、処理全体の負荷は大幅に低減させることができる。その低減により、処理時間は1/4以下にまで短縮することが確認された。また、位相成分を操作することにより、フォルマント位置の他にピッチも操作することができる。このため、元音声を様々に変化させた音声を生成することができる。位相成分の操作にも膨大な演算量は必要としないが、その操作を行わないようにした場合には、処理全体の負荷はより低減させることができる。
As described above, the voice analysis / generation apparatus according to the present embodiment performs FFT operation on the original voice data to divide the original voice data into the frequency amplitude component and the phase component, and when the shift by the
以降は、その音声変換装置を実現させるための電子楽器の動作について、図4〜図8に示す各種フローチャートを参照して詳細に説明する。
図4は、全体処理のフローチャートである。始めに図4を参照して、その全体処理について詳細に説明する。なお、その全体処理は、CPU1が、ROM4に格納されたプログラムを実行して電子楽器のリソースを使用することにより実現される。
Hereinafter, the operation of the electronic musical instrument for realizing the sound conversion device will be described in detail with reference to various flowcharts shown in FIGS.
FIG. 4 is a flowchart of the entire process. First, the entire process will be described in detail with reference to FIG. Note that the overall processing is realized by the
先ず、ステップ401では、電源がオンされたことに伴い、初期化処理を実行する。続くステップ402では、スイッチ部3を構成するスイッチへのユーザの操作に対応するためのスイッチ処理を実行する。そのスイッチ処理は、例えばスイッチ部3を構成する検出回路に各種スイッチの状態を検出させてその検出結果を受け取り、その検出結果を解析して状態が変化したスイッチの種類、及びその変化を特定して行われる。
First, in
ステップ402に続くステップ403では、鍵盤2へのユーザの操作に対応するための鍵盤処理を実行する。その鍵盤処理を実行することにより、鍵盤2への演奏操作に応じて楽音がスピーカ12から放音される。ステップ404にはその後に移行する。
ステップ404では、図2に示すスライダ21、22への操作に対応するためのスライダ処理を実行する。続くステップ405では、表示部6を構成するLCD、或いはLEDを駆動してユーザに提供すべき情報を提供するといったことを実現するためのその他処理を実行する。その実行後は上記ステップ402に戻る。それにより、電源がオンされている間、ステップ402〜405で形成される処理ループを繰り返し実行する。
In
In
図5は、上記ステップ404として実行されるスライダ処理のフローチャートである。スライダ部13を構成する検出回路から受け取った検出結果を解析した後に行われる処理の流れを表したものである。次に図5を参照して、そのスライダ処理について詳細に説明する。
FIG. 5 is a flowchart of slider processing executed as
先ず、ステップ501では、ピッチスライダ21のつまみの位置が変化したか否か判定する。ユーザがそのつまみの位置を変化させた場合、解析によりそのことが判明することから、判定はYESとなり、ステップ502で変数PitchRatioに代入のピッチシフト比率の設定(更新)を行った後、ステップ503に移行する。そうでない場合には、判定はNOとなり、次にそのステップ503に移行する。
First, in
ステップ503では、フォルマントスライダ22のつまみの位置が変化したか否か判定する。ユーザがそのつまみの位置を変化させた場合、同様に判定はYESとなり、ステップ504で変数FormantRatioに代入のフォルマントシフト比率の設定(更新)を行った後、一連の処理を終了する。そうでない場合には、判定はNOとなり、ここで一連の処理を終了する。
In
このようにして、ユーザがスライダ21、或いは22のつまみの位置を変化させると、つまみの位置を変化させたスライダの種類、及びその位置に応じてピッチシフト比率、或いはフォルマントシフト比率が更新される。それにより、ユーザはピッチシフト量、及びフォルマント位置のシフト量を指定できるようになっている。なお、上記変数の値の更新は、例えば予め設定したつまみの位置と設定すべき比率の関係を参照して行うようになっている。
In this way, when the user changes the position of the knob of the
図6は、楽音タイマインタラプト処理のフローチャートである。これは、元音声データの分析、及び音声データの生成(合成)を行うために、例えばサンプリング周期で発生する割り込み信号により実行される処理である。例えば図4に示すスイッチ処理において、音声データの生成を指示するためのスイッチが操作されたと判定したときに割り込み(実行)禁止が解除され(割り込みが有効とされ)、その生成の禁止を指示するためのスイッチが操作されたと判定したときに割り込みが禁止される(割り込みが無効とされる)ようになっている。次に図6を参照して、そのタイマインタラプト処理について詳細に説明する。 FIG. 6 is a flowchart of the musical tone timer interrupt process. This is a process executed by an interrupt signal generated at a sampling period, for example, in order to analyze the original voice data and generate (synthesize) the voice data. For example, in the switch process shown in FIG. 4, when it is determined that a switch for instructing generation of audio data has been operated, the interruption (execution) prohibition is released (interrupt is enabled), and the generation prohibition is instructed. Interrupt is prohibited (interrupt is disabled) when it is determined that the switch for operating the switch has been operated. Next, the timer interrupt process will be described in detail with reference to FIG.
先ず、ステップ601では、A/D変換器8から出力される元音声データの入力バッファ301への書き込みを行う。続くステップ602では、フレーム処理タイミングか否か判定する。そのタイミングであった場合、判定はYESとなってステップ603に移行し、そうでない場合には、判定はNOとなり、ここで一連の処理を終了する。
First, in
生成した音声データは、設定されたオーバーラップファクタの値に従って既に生成されたフレームの音声データと加算される。このことから、その処理タイミングは、サンプリング周波数、オーバーラップファクタの値から決定される周期で到来する。
ステップ603では、入力バッファ301から1フレームサイズの元音声データを抽出し、窓関数(例えばハニング窓)を乗算する。次のステップ604では、乗算後のフレームを対象にFFTを行い、周波数信号成分と位相成分に分ける。その次に移行するステップ605では、周波数信号成分のフィルタリング処理を行い、そのフィルタリング処理前後の周波数振幅成分の比(=フィルタリング処理前/フィルタリング処理後)である周波数振幅残差を算出する。ステップ606にはその後に移行する。
The generated audio data is added to the audio data of the already generated frame according to the set overlap factor value. For this reason, the processing timing comes in a cycle determined from the sampling frequency and the value of the overlap factor.
In
ステップ606では、変数FormantRatioに代入されたフォルマントシフト比率に応じたフォルマント位置の移動を実現させるためのフォルマントシフト処理を実行する。その実行後は、その実現のためにシフトが行われた周波数振幅成分を対象にフィルタリング処理を行うことで周波数振幅概形を算出する周波数振幅概形算出処理を実行する(ステップ607)。
In
ステップ607に続くステップ608では、ステップ604で得られた位相成分、及び前フレームの位相成分を用いて瞬時周波数を算出する瞬時周波数算出処理を実行する。その実行後に移行するステップ609では、算出された瞬時周波数、及びステップ605で算出された周波数振幅残差のシフトをそれぞれ行うピッチシフト処理を実行する。その後は、ステップ609のピッチシフト処理でシフトが行われた周波数振幅残差をステップ607で算出した周波数振幅概形と乗算する周波数振幅算出処理をステップ610で実行してからステップ611に移行する。
In
ステップ611では、ステップ609のピッチシフト処理でシフトが行われた瞬時周波数を位相差に変換する周波数位相差変換処理を実行する。続くステップ612では、その位相差を積分して位相成分を算出する位相差積算処理を実行する。その次のステップ613では、ステップ612で算出した位相成分、及びステップ610で算出した周波数振幅成分を用いて逆FFTを行う。その逆FFTにより1フレーム分の時間領域の音声データ(フォルマント位置、或いはピッチがシフト操作された音声データ)を生成した後はステップ614に移行する。
In
ステップ614では、生成した音声データに窓関数を乗算し、その乗算結果にステップ603で窓関数を乗算した元音声データを加算する。その次に移行するステップ615では、加算後の音声データ(ハーモニー効果が付加された音声データ)を出力バッファ319に既に格納された音声データに加算して重畳する。その後は、ステップ616で出力バッファ319から音声データを読み出して楽音生成部9に送出してから、一連の処理を終了する。
In
このようにして、楽音タイマインタラプト処理を実行することにより、フォルマント位置、更にはピッチが操作された音声データが生成され、その音声データが元音声データに加えられる。それにより、元音声にフォルマント位置、更にはピッチが操作された音声を同時に発音させる形でハーモニー効果が付加される。 By executing the musical tone timer interrupt process in this way, audio data in which the formant position and further the pitch are manipulated is generated, and the audio data is added to the original audio data. As a result, a harmony effect is added in such a way that the sound whose formant position and further the pitch are manipulated is simultaneously generated in the original sound.
以降は、そのタイマインタラプト処理内で実行されるサブルーチン処理について図7、及び図8に示す各フローチャートを参照して詳細に説明する。
図7は、上記ステップ606として実行されるフォルマントシフト処理のフローチャートである。始めに図7を参照して、そのシフト処理について詳細に説明する。
Hereinafter, subroutine processing executed in the timer interrupt processing will be described in detail with reference to the flowcharts shown in FIGS.
FIG. 7 is a flowchart of the formant shift process executed as
図6に示す楽音タイマインタラプト処理において、ステップ604のFFTを行うことで得られた周波数振幅成分は1次元の配列変数Magの各要素に代入される。その要素を指定する添字の値はインデクス値に対応する。このことから、周波数振幅成分のシフトは、シフト後の周波数振幅成分を代入する1次元の配列変数ShiftMagを用意して、配列変数Magの要素に代入された周波数振幅成分を代入すべき配列変数ShiftMagの要素を特定して代入することで行っている。
In the musical tone timer interrupt process shown in FIG. 6, the frequency amplitude component obtained by performing the FFT in
先ず、ステップ701では、変数iに0を代入する。続くステップ702では、変数ShiftIdxに、変数iの値と変数FormantRatioの値の乗算結果を四捨五入した値(=INT(i×FormantRatio))を代入し、変数Nextには、変数iの値に1を加算した値と変数FormantRatioの値の乗算結果を四捨五入した値(=INT((i+1)×FormantRatio))を代入する。
First, in
ステップ703では、変数ShiftIdxの値がフレームサイズFFT_SIZEの1/2の値より小さいか否か判定する。その1/2の値より変数ShiftIdxの値が小さくなかった場合、判定はNOとなってステップ706に移行する。そうでない場合には、判定はYESとなってステップ704に移行する。
In
周波数振幅成分のフレームサイズの後半部分は前半部分の折り返しとなる。ステップ703の判定を行うのはこのためである。
ステップ704では、配列変数ShiftMagの変数ShiftIdxの値で指定される要素ShiftMag[ShiftIdx]に、配列変数Magの変数iの値で指定される要素Mag[i]の値を代入し、変数ShiftIdxの値をインクリメントする。その次に移行するステップ705では、変数ShiftIdxの値が変数Nextの値より小さいか否か判定する。前者が後者より小さい場合、判定はYESとなって上記ステップ703に戻る。そうでない場合には、判定はNOとなってステップ706に移行する。
The latter half of the frame size of the frequency amplitude component is a return of the first half. This is why the determination in
In
ステップ706では、変数iの値をインクリメントする。続くステップ707では、変数iの値がフレームサイズFFT_SIZEの1/2の値より小さいか否か判定する。その1/2の値より変数iの値が小さくなかった場合、判定はNOとなり、ここで一連の処理を終了する。そうでない場合には、判定はYESとなって上記ステップ702に戻る。それにより、配列変数Magの各要素に代入された周波数振幅成分のなかで配列変数ShiftMagの要素に代入すべき周波数成分を全て代入させる。
In
図8は、図6に示す楽音タイマインタラプト処理内でステップ609として実行されるピッチシフト処理のフローチャートである。次に図8を参照して、そのシフト処理について詳細に説明する。
図6に示す楽音タイマインタラプト処理において、ステップ605で算出した周波数振幅残差は1次元の配列変数ResMagの各要素に代入され、ステップ608で算出した瞬時周波数は1次元の配列変数Freqの各要素に代入される。それらの要素を指定する添字の値はインデクス値に対応する。このことから、それらのシフトはフォルマントシフト処理における周波数振幅成分のシフトと同様に行われる。シフト後の周波数振幅残差、瞬時周波数は、1次元の配列変数ShiftResMagの要素、1次元の配列変数ShiftFreqの要素にそれぞれ代入される。
FIG. 8 is a flowchart of the pitch shift process executed as
In the musical tone timer interrupt process shown in FIG. 6, the frequency amplitude residual calculated in
先ず、ステップ801では、変数iに0を代入する。続くステップ802では、変数ShiftIdxに、変数iの値と変数PitchRatioの値の乗算結果を四捨五入した値(=INT(i×PitchRatio))を代入し、変数Nextには、変数iの値に1を加算した値と変数PitchRatioの値の乗算結果を四捨五入した値(=INT((i+1)×PitchRatio))を代入する。
First, in
ステップ803では、変数ShiftIdxの値がフレームサイズFFT_SIZEの1/2の値より小さいか否か判定する。その1/2の値より変数ShiftIdxの値が小さくなかった場合、判定はNOとなってステップ808に移行する。そうでない場合には、判定はYESとなってステップ804に移行する。
In
ステップ804では、配列変数ShiftResMagの変数ShiftIdxの値で指定される要素ShiftResMag[ShiftIdx]に、配列変数ResMagの変数iの値で指定される要素ResMag[i]の値を代入する。続くステップ805では、配列変数ShiftFreqの変数ShiftIdxの値で指定される要素ShiftFreq[ShiftIdx]に、配列変数Freqの変数iの値で指定される要素Freq[i]の値と変数PitchRatioの値の乗算結果を代入する。ステップ806にはその代入後に移行する。
In
ステップ806では、変数ShiftIdxの値をインクリメントする。その次に移行するステップ807では、変数ShiftIdxの値が変数Nextの値より小さいか否か判定する。前者が後者より小さい場合、判定はYESとなって上記ステップ803に戻る。そうでない場合には、判定はNOとなってステップ808に移行する。
In
ステップ808では、変数iの値をインクリメントする。続くステップ809では、変数iの値がフレームサイズFFT_SIZEの1/2の値より小さいか否か判定する。その1/2の値より変数iの値が小さくなかった場合、判定はNOとなり、ここで一連の処理を終了する。そうでない場合には、判定はYESとなって上記ステップ802に戻る。
In
なお、本実施例では、乗算器312はシフト部310bからの周波数振幅算差を移動平均フィルタ部305bからの周波数振幅概形と乗算するようになっているが、その周波数振幅概形は移動平均フィルタ部304がフィルタリングして得られる周波数振幅概形をシフトしたものであっても良い。そのフィルタリングは、移動平均フィルタによるものでなくとも良く、他の低域通過フィルタによるものであっても良い。
In the present embodiment, the
周波数振幅成分等のシフトは、インデクス値に着目して、配列変数の要素の値を変更せずに行っているが、ネビル補間やラグランジュ補間等の高次補間により行っても良い。元音声に重畳する音声は一つの音声のみとしているが、フォルマント位置、更にはピッチを変えて複数の音声を重畳するようにしても良い。
<第2の実施例>
上記第1の実施例では、ピッチをシフトするために周波数振幅残差のシフトを行っている。これに対し、第2の実施例は、そのピッチのシフトを他の方法で実現させるようにしたものである。
The shift of the frequency amplitude component or the like is performed without changing the element value of the array variable by paying attention to the index value, but may be performed by higher-order interpolation such as Neville interpolation or Lagrange interpolation. Although only one sound is superimposed on the original sound, a plurality of sounds may be superimposed by changing the formant position and further the pitch.
<Second embodiment>
In the first embodiment, the frequency amplitude residual is shifted in order to shift the pitch. On the other hand, in the second embodiment, the pitch shift is realized by another method.
第2の実施例による音声分析生成装置を搭載した電子楽器の構成は基本的に第1の実施例におけるそれと同じである。動作も大部分は同じか、或いは比較的に大きな差がない。このようなことから、同じ、或いは区別するほどの相違のないものについては、第1の実施例の説明で付した符号をそのまま用いつつ、第1の実施例から異なる部分に着目して説明を行うこととする。 The configuration of the electronic musical instrument equipped with the speech analysis / generation apparatus according to the second embodiment is basically the same as that in the first embodiment. The operation is also largely the same or relatively small. For this reason, the same or different ones that are not different from each other will be described by focusing on the different parts from the first embodiment while using the reference numerals in the description of the first embodiment as they are. I will do it.
図9は、第2の実施例による音声分析生成装置の機能構成図である。始めに図9を参照して、その機能的構成、及び各部の動作について詳細に説明する。その図9において、第1の実施例と同じ、或いは区別するほどの相違のないものについては同一の符号を付している。 FIG. 9 is a functional configuration diagram of the speech analysis generation device according to the second embodiment. First, the functional configuration and the operation of each unit will be described in detail with reference to FIG. In FIG. 9, the same reference numerals are given to the same components as those in the first embodiment or those that are not different enough to be distinguished.
第2の実施例では、図9に示すように、周波数振幅残差を算出する代わりに、ピッチを有する、声帯音源波形を模擬したRosenberg 波をRosenberg 波生成部901により生成するようになっている。その生成部901は、操作パネル311から指示されたピッチでRosenberg 波を生成する。
In the second embodiment, as shown in FIG. 9, instead of calculating the frequency amplitude residual, a Rosenberg wave simulating a vocal cord sound source waveform having a pitch is generated by the Rosenberg
FFT部902は、生成部901が生成したRosenberg 波を対象にFFTを行い、周波数振幅成分を乗算器312に送る。それにより、乗算器312は、その周波数振幅成分とフォルマント移動部305の移動平均フィルタ部305bからの周波数振幅概形とを乗算し、その乗算結果をIFFT部315に送る。そのIFFT部315は、その乗算結果である周波数振幅成分とFFT部303からの位相成分を用いて逆FFTを行い、音声データを生成する。
The
Rosenberg 波は様々なピッチで生成することができる。このため、そのRosenberg 波を生成してそれから得られる周波数振幅成分を周波数振幅概形と乗算した周波数振幅成分を逆FFTに用いることにより、フォルマント位置の操作と併せてそのピッチをシフトさせることができる。そのRosenberg 波の生成に重い負荷の処理を行わなくとも済むため、第1の実施例から負荷が重くなるのを回避しつつ、それらを実現させることができる。この第2の実施例では、ボコーダーやピッチコレクトのような使い方をすることもできる。 Rosenberg waves can be generated at various pitches. For this reason, By using the frequency amplitude component obtained by generating the Rosenberg wave and multiplying the frequency amplitude component obtained therefrom by the frequency amplitude outline for the inverse FFT, The pitch can be shifted together with the operation of the formant position. Because it is not necessary to handle heavy load to generate the Rosenberg wave, While avoiding a heavy load from the first embodiment, They can be realized. In this second embodiment, You can also use it like vocoder or pitch correct.
第2の実施例による音声変換装置を実現させるための電子楽器の動作については、楽音タイマインタラプト処理(図6参照)が第1の実施例から比較的に大きく異なっている。このことから、そのタイマインタラプト処理についてのみ、図10に示すそのフローチャートを参照して詳細に説明する。ここでは、第1の実施例と同じ符号を付したステップの処理についての説明は基本的に省略する。 As for the operation of the electronic musical instrument for realizing the sound conversion apparatus according to the second embodiment, the musical tone timer interrupt process (see FIG. 6) is relatively different from the first embodiment. Therefore, only the timer interrupt process will be described in detail with reference to the flowchart shown in FIG. Here, the description of the process of the step which attached the same code | symbol as 1st Example is abbreviate | omitted fundamentally.
第2の実施例では、ステップ607で周波数振幅概形を算出すると、次にステップ1001に移行する。そのステップ1001では、ユーザがピッチスライダ21により指示したピッチでRosenberg 波を生成する。それに続くステップ1002では、そのRosenberg 波を対象にFFTを行い、周波数振幅成分を抽出する。その後はステップ1003に移行する。
In the second embodiment, when the frequency amplitude outline is calculated in
ステップ1003では、ステップ1002で抽出した周波数振幅成分とステップ607で算出した周波数振幅概形を乗算して周波数振幅成分を算出する。次のステップ1004では、その周波数振幅成分、及びステップ604で抽出した位相成分を用いて逆FFTを行い、音声データを生成する。その後はステップ614に移行して、それ以降の処理を同様に実行する。
In
なお、本実施例(第1及び第2の実施例)は、電子楽器に搭載された音声分析生成装置に本発明を適用したものであるが、本発明を適用できる音声分析生成装置はそのような音声分析生成装置に限定されるわけではない。本発明は音声分析生成装置が搭載された装置の種類や用途などに係わらず、幅広く適用できるものである。 In the present embodiment (first and second embodiments), the present invention is applied to a speech analysis / generation apparatus mounted on an electronic musical instrument. However, a speech analysis / generation apparatus to which the present invention can be applied is like that. However, the present invention is not limited to a voice analysis / generation device. The present invention can be widely applied regardless of the type or use of the device on which the speech analysis / generation device is mounted.
フォルマント位置のシフト量やピッチのシフト量は共にユーザが指定するようにしているが、それらは自動的に指定させるようにしても良い。その指定方法や指定させる手段等をユーザが選択できるようにしても良い。
上述したような音声分析生成装置、或いはその変形例を実現させるようなプログラムは、CD−ROM、DVD、或いは光磁気ディスク等の記録媒体に記録させて配布しても良い。或いは、公衆網等で用いられる伝送媒体を介して、そのプログラムの一部、若しくは全部を配信するようにしても良い。そのようにした場合には、ユーザーはプログラムを取得してコンピュータなどのデータ処理装置にロードすることにより、そのデータ処理装置を用いて本発明を適用させた音声分析生成装置を実現させることができる。このことから、記録媒体は、プログラムを配信する装置がアクセスできるものであっても良い。
Both the formant position shift amount and the pitch shift amount are specified by the user, but they may be automatically specified. The user may be able to select the designation method, the means for causing designation, and the like.
The voice analysis / generation apparatus as described above, or a program that realizes a modification thereof may be recorded and distributed on a recording medium such as a CD-ROM, DVD, or magneto-optical disk. Alternatively, part or all of the program may be distributed via a transmission medium used in a public network or the like. In such a case, the user can acquire a program and load it into a data processing device such as a computer, thereby realizing a speech analysis generation device to which the present invention is applied using the data processing device. . Therefore, the recording medium may be accessible by a device that distributes the program.
1 CPU
3 スイッチ部
4 ROM
5 RAM
7 マイク
8 A/D変換器
9 楽音生成部
10 D/A変換器
11 アンプ
12 スピーカ
13 スライダ部
1 CPU
3 Switch part 4 ROM
5 RAM
7 Microphone 8 A / D converter 9 Musical sound generator 10 D /
Claims (10)
前記第1の音声波形を分析して第1の周波数振幅成分、及び位相成分を抽出する分析手段と、
周波数振幅成分のフィルタリングを行うフィルタ手段と、
前記第1の周波数振幅成分に対するフォルマントのシフト量を指示する指示手段と、
前記指示手段により指示されたシフト量に従いシフトを行うシフト手段と、
前記第1の周波数振幅成分に対し前記フィルタ手段がフィルタリングすることで得られる第2の周波数振幅成分で該第1の周波数振幅成分を除算することにより周波数振幅残差を算出する算出手段と、
前記シフト手段がシフトした第1の周波数振幅成分に対する前記フィルタ手段によるフィルタリング、及び前記第2の周波数振幅成分に対する前記シフト手段によるシフトのうちの一方を行うことで得られる第3の周波数振幅成分に前記周波数振幅残差を乗算する乗算手段と、
前記乗算手段が乗算を行うことで得られる第4の周波数振幅成分、及び前記位相成分を用いて前記第2の音声波形を生成する音声波形生成手段と、
を具備することを特徴とする音声分析生成装置。 In a speech analysis generation device that analyzes a first speech waveform and generates a second speech waveform using the analysis result,
Analyzing means for analyzing the first speech waveform and extracting a first frequency amplitude component and a phase component;
Filter means for filtering frequency amplitude components;
Indicating means for instructing a formant shift amount with respect to the first frequency amplitude component;
Shift means for shifting according to the shift amount instructed by the instruction means;
Calculating means for calculating a frequency amplitude residual by dividing the first frequency amplitude component by a second frequency amplitude component obtained by filtering the first frequency amplitude component by the filter means;
A third frequency amplitude component obtained by performing one of filtering by the filter unit on the first frequency amplitude component shifted by the shift unit and shifting by the shift unit on the second frequency amplitude component. Multiplying means for multiplying the frequency amplitude residual;
Voice waveform generation means for generating the second voice waveform using the fourth frequency amplitude component obtained by the multiplication by the multiplication means and the phase component;
A speech analysis generation apparatus comprising:
前記第1の音声波形を分析して第1の周波数振幅成分、及び第1の位相成分を抽出する分析手段と、
周波数振幅成分のフィルタリングを行うフィルタ手段と、
前記周波数振幅成分に対しフォルマントのシフトを行う第1のシフト手段と、
前記第1の周波数振幅成分に対し前記フィルタ手段がフィルタリングすることで得られた第2の周波数振幅成分で該第1の周波数振幅成分を除算して得られる周波数振幅残差を算出する残差算出手段と、
前記第1の位相成分から瞬時周波数を算出する瞬時周波数算出手段と、
ピッチのシフト量を指示するピッチ指示手段と、
前記ピッチ指示手段が指示したシフト量に従って、前記瞬時周波数、及び周波数振幅残差をシフトする第2のシフト手段と、
前記第1のシフト手段がシフトした第1の周波数振幅成分に対する前記フィルタ手段によるフィルタリング、及び前記第2の周波数振幅成分に対する前記第1のシフト手段によるシフトのうちの一方を行うことで得られる第3の周波数振幅成分に、前記第2のシフト手段によりシフトされた周波数振幅残差を乗算して第4の周波数振幅成分を算出する振幅成分算出手段と、
前記第2のシフト手段によりシフトされた瞬時周波数から第2の位相成分を算出する位相成分算出手段と、
前記第4の周波数振幅成分、及び前記第2の位相成分を用いて前記第2の音声波形を生成する音声波形生成手段と、
を具備することを特徴とする音声分析生成装置。 In a speech analysis generation device that analyzes a first speech waveform and generates a second speech waveform using the analysis result,
Analyzing means for analyzing the first speech waveform and extracting a first frequency amplitude component and a first phase component;
Filter means for filtering frequency amplitude components;
First shift means for performing a formant shift on the frequency amplitude component;
Residual calculation for calculating a frequency amplitude residual obtained by dividing the first frequency amplitude component by a second frequency amplitude component obtained by filtering the first frequency amplitude component by the filter means. Means,
Instantaneous frequency calculating means for calculating an instantaneous frequency from the first phase component;
Pitch instruction means for instructing the pitch shift amount;
Second shift means for shifting the instantaneous frequency and frequency amplitude residual according to the shift amount instructed by the pitch instruction means;
First obtained by performing one of filtering by the filter means on the first frequency amplitude component shifted by the first shift means and shifting by the first shift means on the second frequency amplitude component. An amplitude component calculating unit that calculates a fourth frequency amplitude component by multiplying the frequency amplitude component of 3 by the frequency amplitude residual shifted by the second shifting unit;
Phase component calculation means for calculating a second phase component from the instantaneous frequency shifted by the second shift means;
Voice waveform generation means for generating the second voice waveform using the fourth frequency amplitude component and the second phase component;
A speech analysis generation apparatus comprising:
前記第1の音声波形を分析して第1の周波数振幅成分、及び位相成分を抽出する分析手段と、
周波数振幅成分のフィルタリングを行うフィルタ手段と、
前記周波数振幅成分に対しフォルマントのシフトを行うシフト手段と、
ピッチを指示するピッチ指示手段と、
前記ピッチ指示手段が指示したピッチで声帯音源を模擬する音源波形を生成する音源波形生成手段と、
前記音源波形を分析して周波数振幅成分を抽出する他の分析手段と、
前記他の分析手段により前記音源波形から抽出される周波数振幅成分に、前記シフト手段がシフトした第1の周波数振幅成分に対する前記フィルタ手段によるフィルタリング、及び該フィルタ手段がフィルタリングした第1の周波数振幅成分に対する該シフト手段によるシフトのうちの一方を行うことで得られる第2の周波数振幅成分を乗算して第3の周波数振幅成分を算出する振幅成分算出手段と、
前記第3の周波数振幅成分、及び前記位相成分を用いて前記第2の音声波形を生成する音声波形生成手段と、
を具備することを特徴とする音声分析生成装置。 In a speech analysis generation device that analyzes a first speech waveform and generates a second speech waveform using the analysis result,
Analyzing means for analyzing the first speech waveform and extracting a first frequency amplitude component and a phase component;
Filter means for filtering frequency amplitude components;
Shift means for performing a formant shift on the frequency amplitude component;
Pitch instruction means for indicating the pitch;
Sound source waveform generating means for generating a sound source waveform that simulates a vocal cord sound source at a pitch indicated by the pitch instruction means;
Other analysis means for analyzing the sound source waveform and extracting frequency amplitude components;
Filtering by the filter means on the first frequency amplitude component shifted by the shift means into the frequency amplitude component extracted from the sound source waveform by the other analysis means, and the first frequency amplitude component filtered by the filter means An amplitude component calculating means for calculating a third frequency amplitude component by multiplying the second frequency amplitude component obtained by performing one of the shifts by the shift means,
Voice waveform generating means for generating the second voice waveform using the third frequency amplitude component and the phase component;
A speech analysis generation apparatus comprising:
前記音声波形生成手段は、逆高速フーリエ変換を用いて前記第2の音声波形を生成する、
ことを特徴とする請求項1、2、または3記載の音声分析生成装置。 The analysis means performs analysis of the first speech waveform using a fast Fourier transform,
The speech waveform generation means generates the second speech waveform using an inverse fast Fourier transform.
The speech analysis generation apparatus according to claim 1, 2, or 3.
ことを特徴とする請求項1〜4の何れか1項に記載の音声分析生成装置。 The filter means functions as a moving average filter.
The voice analysis generation apparatus according to claim 1, wherein
ことを特徴とする請求項1〜5の何れか1項に記載の音声分析生成装置。 The second voice waveform can be superimposed on the first voice waveform and output.
The voice analysis generation apparatus according to claim 1, wherein
ことを特徴とする請求項3〜6の何れか1項に記載の音声分析生成装置。 The sound source waveform generating means generates a Rosenberg wave as the sound source waveform;
The speech analysis generation apparatus according to claim 3, wherein
前記第1の音声波形を分析して第1の周波数振幅成分、及び位相成分を抽出する分析機能と、
周波数振幅成分のフィルタリングを行うフィルタ機能と、
前記第1の周波数振幅成分に対するフォルマントのシフト量を指示する指示機能と、
前記指示機能により指示されたシフト量に従いシフトを行うシフト機能と、
前記第1の周波数振幅成分に対し前記フィルタ機能によりフィルタリングすることで得られる第2の周波数振幅成分で該第1の周波数振幅成分を除算して得られる周波数振幅残差を算出する算出機能と、
前記シフト機能によりシフトした第1の周波数振幅成分に対する前記フィルタ機能によるフィルタリング、及び前記第2の周波数振幅成分に対する前記シフト機能によるシフトのうちの一方を行うことで得られる第3の周波数振幅成分に前記周波数振幅残差を乗算する乗算機能と、
前記乗算機能により乗算を行うことで得られる第4の周波数振幅成分、及び前記位相成分を用いて前記第2の音声波形を生成する音声波形生成機能と、
を実現させるためのプログラム。 A program to be executed by a speech analysis generation apparatus that analyzes a first speech waveform and generates a second speech waveform using the analysis result,
An analysis function for analyzing the first speech waveform and extracting a first frequency amplitude component and a phase component;
A filter function for filtering frequency amplitude components;
An instruction function for instructing a formant shift amount with respect to the first frequency amplitude component;
A shift function for shifting according to the shift amount instructed by the instruction function;
A calculation function for calculating a frequency amplitude residual obtained by dividing the first frequency amplitude component by a second frequency amplitude component obtained by filtering the first frequency amplitude component with the filter function;
A third frequency amplitude component obtained by performing one of filtering by the filter function on the first frequency amplitude component shifted by the shift function and shifting by the shift function on the second frequency amplitude component. A multiplication function for multiplying the frequency amplitude residual;
A voice waveform generation function for generating the second voice waveform using the fourth frequency amplitude component obtained by performing multiplication by the multiplication function and the phase component;
A program to realize
前記第1の音声波形を分析して第1の周波数振幅成分、及び第1の位相成分を抽出する分析機能と、
周波数振幅成分のフィルタリングを行うフィルタ機能と、
前記周波数振幅成分に対しフォルマントのシフトを行う第1のシフト機能と、
前記第1の周波数振幅成分に対し前記フィルタ機能によりフィルタリングすることで得られる第2の周波数振幅成分で該第1の周波数振幅成分を除算して得られる周波数振幅残差を算出する残差算出機能と、
前記第1の位相成分から瞬時周波数を算出する瞬時周波数算出機能と、
ピッチのシフト量を指示するピッチ指示機能と、
前記ピッチ指示機能により指示したシフト量に従って、前記瞬時周波数、及び周波数振幅残差をシフトする第2のシフト機能と、
前記第1のシフト機能によりシフトした第1の周波数振幅成分に対する前記フィルタ機能によるフィルタリング、及び前記第2の周波数振幅成分に対する前記第1のシフト機能によるシフトのうちの一方を行うことで得られる第3の周波数振幅成分に、前記第2のシフト機能によりシフトされた周波数振幅残差を乗算して第4の周波数振幅成分を算出する振幅成分算出機能と、
前記第2のシフト機能によりシフトされた瞬時周波数から第2の位相成分を算出する位相成分算出機能と、
前記第4の周波数振幅成分、及び前記第2の位相成分を用いて前記第2の音声波形を生成する音声波形生成機能と、
を実現させるためのプログラム。 A program to be executed by a speech analysis generation apparatus that analyzes a first speech waveform and generates a second speech waveform using the analysis result,
An analysis function for analyzing the first speech waveform and extracting a first frequency amplitude component and a first phase component;
A filter function for filtering frequency amplitude components;
A first shift function for performing a formant shift on the frequency amplitude component;
Residual calculation function for calculating a frequency amplitude residual obtained by dividing the first frequency amplitude component by a second frequency amplitude component obtained by filtering the first frequency amplitude component with the filter function When,
An instantaneous frequency calculation function for calculating an instantaneous frequency from the first phase component;
A pitch instruction function for instructing a pitch shift amount;
A second shift function for shifting the instantaneous frequency and the frequency amplitude residual according to the shift amount instructed by the pitch instruction function;
A first obtained by performing one of filtering by the filter function on the first frequency amplitude component shifted by the first shift function and shifting by the first shift function on the second frequency amplitude component. An amplitude component calculation function for calculating a fourth frequency amplitude component by multiplying the frequency amplitude component of 3 by the frequency amplitude residual shifted by the second shift function;
A phase component calculation function for calculating a second phase component from the instantaneous frequency shifted by the second shift function;
A speech waveform generation function for generating the second speech waveform using the fourth frequency amplitude component and the second phase component;
A program to realize
前記第1の音声波形を分析して第1の周波数振幅成分、及び位相成分を抽出する分析機能と、
周波数振幅成分のフィルタリングを行うフィルタ機能と、
前記周波数振幅成分に対しフォルマントのシフトを行うシフト機能と、
ピッチを指示するピッチ指示機能と、
前記ピッチ指示機能により指示したピッチで声帯音源を模擬する音源波形を生成する音源波形生成機能と、
前記音源波形を分析して周波数振幅成分を抽出する他の分析機能と、
前記他の分析機能により前記音源波形から抽出される周波数振幅成分に、前記シフト機能によりシフトした第1の周波数振幅成分に対する前記フィルタ機能によるフィルタリング、及び該フィルタ機能によりフィルタリングした第1の周波数振幅成分に対する該シフト機能によるシフトのうちの一方を行うことで得られる第2の周波数振幅成分を乗算して第3の周波数振幅成分を算出する振幅成分算出機能と、
前記第3の周波数振幅成分、及び前記位相成分を用いて前記第2の音声波形を生成する音声波形生成機能と、
を実現させるためのプログラム。
A program to be executed by a speech analysis generation apparatus that analyzes a first speech waveform and generates a second speech waveform using the analysis result,
An analysis function for analyzing the first speech waveform and extracting a first frequency amplitude component and a phase component;
A filter function for filtering frequency amplitude components;
A shift function for shifting the formant with respect to the frequency amplitude component;
A pitch instruction function for instructing the pitch;
A sound source waveform generation function for generating a sound source waveform that simulates a vocal cord sound source at a pitch specified by the pitch instruction function;
Other analysis functions for analyzing the sound source waveform and extracting frequency amplitude components;
Filtering by the filter function on the first frequency amplitude component shifted by the shift function into the frequency amplitude component extracted from the sound source waveform by the other analysis function, and the first frequency amplitude component filtered by the filter function An amplitude component calculation function for calculating a third frequency amplitude component by multiplying the second frequency amplitude component obtained by performing one of the shifts by the shift function for
A voice waveform generation function for generating the second voice waveform using the third frequency amplitude component and the phase component;
A program to realize
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003320312A JP4419486B2 (en) | 2003-09-11 | 2003-09-11 | Speech analysis generation apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003320312A JP4419486B2 (en) | 2003-09-11 | 2003-09-11 | Speech analysis generation apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005084661A true JP2005084661A (en) | 2005-03-31 |
JP4419486B2 JP4419486B2 (en) | 2010-02-24 |
Family
ID=34418980
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003320312A Expired - Fee Related JP4419486B2 (en) | 2003-09-11 | 2003-09-11 | Speech analysis generation apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4419486B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8809560B2 (en) | 2011-05-17 | 2014-08-19 | Board Of Trustees Of The University Of Arkansas | Trans-, trans-conjugated linoleic acid compositions and use thereof |
KR20230057106A (en) * | 2021-10-21 | 2023-04-28 | 서울대학교산학협력단 | Method and apparatus for generating an image for motor fault diagnosis, and method and apparatus for motor fault diagnosis using said image |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7417273B2 (en) | 2018-10-05 | 2024-01-18 | 知明 高田 | torque converter |
-
2003
- 2003-09-11 JP JP2003320312A patent/JP4419486B2/en not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8809560B2 (en) | 2011-05-17 | 2014-08-19 | Board Of Trustees Of The University Of Arkansas | Trans-, trans-conjugated linoleic acid compositions and use thereof |
KR20230057106A (en) * | 2021-10-21 | 2023-04-28 | 서울대학교산학협력단 | Method and apparatus for generating an image for motor fault diagnosis, and method and apparatus for motor fault diagnosis using said image |
KR102601072B1 (en) | 2021-10-21 | 2023-11-09 | 서울대학교산학협력단 | Method and apparatus for generating an image for motor fault diagnosis, and method and apparatus for motor fault diagnosis using said image |
Also Published As
Publication number | Publication date |
---|---|
JP4419486B2 (en) | 2010-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zölzer et al. | DAFX-Digital audio effects | |
Verfaille et al. | Adaptive digital audio effects (A-DAFx): A new class of sound transformations | |
RU2487426C2 (en) | Apparatus and method for converting audio signal into parametric representation, apparatus and method for modifying parametric representation, apparatus and method for synthensising parametrick representation of audio signal | |
Cook | Real sound synthesis for interactive applications | |
JP5283757B2 (en) | Apparatus and method for determining a plurality of local centroid frequencies of a spectrum of an audio signal | |
CN111418005B (en) | Voice synthesis method, voice synthesis device and storage medium | |
CN108269579B (en) | Voice data processing method and device, electronic equipment and readable storage medium | |
JP4645241B2 (en) | Voice processing apparatus and program | |
Creasey | Audio Processes: Musical Analysis, Modification, Synthesis, and Control | |
Välimäki et al. | Creating endless sounds | |
JP2018077283A (en) | Speech synthesis method | |
JP4419486B2 (en) | Speech analysis generation apparatus and program | |
JP4433734B2 (en) | Speech analysis / synthesis apparatus, speech analysis apparatus, and program | |
Hanna et al. | Time scale modification of noises using a spectral and statistical model | |
CN112908351A (en) | Audio tone changing method, device, equipment and storage medium | |
JP5251381B2 (en) | Sound processing apparatus and program | |
JP6683103B2 (en) | Speech synthesis method | |
JP4245114B2 (en) | Tone control device | |
JP5211437B2 (en) | Voice processing apparatus and program | |
JP2018077281A (en) | Speech synthesis method | |
JP2010002937A (en) | Speech analysis and synthesis device, speed analyzer, speech synthesizer, and program | |
JP3538908B2 (en) | Electronic musical instrument | |
JP2009237590A (en) | Vocal effect-providing device | |
JP4729859B2 (en) | Sound effect device | |
JP2009237589A (en) | Speech analysis and synthesis device, and program thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060405 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090424 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090519 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090528 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090804 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090820 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091110 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091123 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121211 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4419486 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121211 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131211 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |