JP4816507B2 - 音声分析合成装置、及びプログラム - Google Patents
音声分析合成装置、及びプログラム Download PDFInfo
- Publication number
- JP4816507B2 JP4816507B2 JP2007050502A JP2007050502A JP4816507B2 JP 4816507 B2 JP4816507 B2 JP 4816507B2 JP 2007050502 A JP2007050502 A JP 2007050502A JP 2007050502 A JP2007050502 A JP 2007050502A JP 4816507 B2 JP4816507 B2 JP 4816507B2
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- phase
- frequency channel
- speech
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Electrophonic Musical Instruments (AREA)
Description
θi,k=θi−1,k+ΔΘi,k ・・・ (1)
と表すことができる。ここでΔΘi,kは一つ前のフレームから今回のフレームまでの間に進んだ位相、即ちフレーム間の位相差を示している。
θ’i,k=θ’i−1,k+ρ・ΔΘi,k ・・・ (2)
フレーム間位相差Δθi,kは
Δθi,k=θi,k−θi−1,k ・・・ (3)
により求められる。しかし、FFT(DFT)により算出される周波数成分から位相を算出する際にarctanにより得られる値は−πとπの間に制限される。それにより、位相差Δθi,kもそのままでは−2πと2πの間の値となる。しかし、フレーム間の時間差が一定時間より短い場合を除き、位相はフレーム間に2π以上進行するのが普通である。このため、実際の位相差をΔΘi,kとすると、それは以下のようになる。
適切にタイムスケーリングを実施するためには、式(4)中の整数nの値を推定する必要がある。その推定を行う操作は位相展開と呼ばれる。その位相展開は以下のようにして行われる。展開の有無の区別を容易にするために、折り畳まれている(展開されていない)位相を小文字のθ、展開されている位相を大文字のΘで表記する。
Ωi,k=(2π・fs/N)・k ・・・ (5)
により求めることができる。この周波数Ωi,kのとき、直前のフレームとの時間差をΔtとすると、フレーム間の位相差ΔZi,kは
ΔZi,k=Ωi,k・Δt ・・・ (6)
により算出できる。
Δt=N/(fs・OVL) ・・・ (7)
で求められるから、式(5)〜(7)より
ΔZi,k=Ωi,k・Δt=(2π・fs/N)・k・N/(fs・OVL)
=2π・k/OVL ・・・ (8)
となる。一方、式(6)では位相展開されているので、以下のように記述できる。
式(3)で算出される位相差Δθi,kと式(9)中の位相差Δζi,kの差をδ(=Δθi,k−Δζi,k)とすると、式(3)は
Δθi,k=Δζi,k+δ ・・・ (10)
と変形することができる。従って、式(9)及び(10)から
Δθi,k−ΔZi,k=(Δζi,k+δ)−(Δζi,k+2nπ)
=δ−2nπ ・・・ (11)
が導出できる。
ΔΘi,k=δ+ΔZi,k=δ+(Δζi,k+2nπ)=(Δζi,k+δ)+2nπ)
=Δθi,k+2nπ ・・・ (12)
ところで、上述のようにして合成音声波形を合成する音声分析合成装置では、その合成音声波形による音声(合成音)が、元音声波形の音声(原音)に対してphasiness、若しくはreverbrantと呼ばれる音像のぼやけた音色(位相ズレ感を与える音色)となる現象が発生することが知られている。その原因は、式(2)の位相θ’i−1,kを必ずしも正確に求めることができないことにある。
+(ρ−1)ΔΘi,k+θi,k ・・・ (13)
式(13)において、下添字として表記したBは最も波長の長い、すなわち最も低い周波数成分が存在するチャンネルを示している。式(13)右辺第1項は、チャンネルBを基準にして、1フレーム前(直前)のフレームi−1までに生じた元音声(元音声波形)と合成音声(合成音声波形)間の位相変化(較差)量を示している。その第2項は、その直前フレームi−1から現在のフレームiに移行する間(以降、便宜的に「直前フレーム間」と呼ぶ)に発生する元音声と合成音声間の位相変化(較差)量を示している。
図1は、本実施の形態による音声分析合成装置を搭載した電子楽器の構成図である。
その電子楽器は、図1に示すように、楽器全体の制御を行うCPU1と、複数の鍵を備えた鍵盤2と、各種スイッチを備えたスイッチ部3と、CPU1が実行するプログラムや各種制御用データ等を格納したROM4と、CPU1のワーク用のRAM5と、例えば液晶表示装置(LCD)や複数のLEDなどを備えた表示部6と、特には図示しない端子に接続されたマイク7から入力されるアナログの音声信号のA/D変換を行いその音声データを出力するA/D変換器8と、CPU1の指示に従い楽音発音用の波形データを生成する楽音生成部9と、その生成部9が生成した波形データのD/A変換を行い、アナログのオーディオ信号を出力するD/A変換器10と、そのオーディオ信号の増幅を行うアンプ11と、そのアンプ11が増幅を行った後のオーディオ信号を音声に変換するスピーカ12と、を備えて構成されている。それらの構成において、CPU1、鍵盤2、スイッチ部3、ROM4、RAM5、表示部6、A/D変換器8、及び楽音生成部9の間はバスによって接続されている。なお、上記スイッチ部3は、例えばユーザーが操作の対象とする各種スイッチの他に、各種スイッチの状態変化を検出するための検出回路を備えたものである。
音響効果を付加した音声波形、つまりピッチをシフトした音声波形は、元の音声波形を周波数分析して周波数チャンネル毎に周波数成分(スペクトル成分)を抽出し、抽出した周波数成分をシフトし、そのシフト後の周波数成分を用いて合成(生成)するようになっている。そのために、以下のような機能構成を備えている。
mag=(real2+img2)1/2 ・・・ (14)
により計算される。その位相をphase(=θ)と表記すると
phase=arctan(img/real) ・・・ (15)
により計算される。この位相phaseは折り畳まれたものである。それを位相展開することにより、式(1)右辺第2項の位相展開された位相差ΔΘi,kは最終的には式(12)により計算される(特許文献1或いは2)。式(14)により算出した周波数振幅mag、及び位相Θ’i,k(フレーム、或いはインデクス値を特に示す必要がない場合には以降「Θ’」と表記する。これは他のシンボルも同様とする)はそれぞれ、用意された配列変数mag、及びmodified_phaseのインデクス値(チャンネル番号)で指定される要素に代入・保持される。式(15)により算出した位相phaseは、用意された配列変数phaseのインデクス値で指定される要素に代入・保持される。
img’ =mag’・sin(phase’) ・・・ (17)
IFFT部27は、このようにして周波数チャンネル毎に得られた周波数成分を位相補正部26から入力し、IFFTを実行して時間領域上のデータに戻すことにより、1フレーム分の音声データを生成して出力する。その音声データについては以降「合成音声データ」と呼び、それによって発音される音声を「合成音声」と呼ぶことにする。
実周波数チャンネルの周波数成分によって励起される近傍の周波数チャンネルのフレーム間位相差は、実周波数チャンネルのそれと等しい。上記式(10)及び(11)中の実位相差δは、チャンネルkの中心角周波数2π・k/Nがフレーム間の時間差Δtの間に進行する位相差(以降「中心位相差」)Δθi,kと、そのチャンネルkに存在する周波数成分(漏れ出した周波数成分の場合もある)のフレーム間位相差Δζi,kとの差分である。周波数成分が漏れ出した周波数チャンネルでの位相差Δζは、実周波数チャンネルのフレーム間位相差Δζに等しいから、実周波数チャンネルから離れるほど大きくなる。実周波数チャンネルがkであれば、実位相差δは0となる。
δ=2π・fs・(k+m)・Δt/N−2π・fs・k・Δt/N
=2π・fs・m・Δt/N ・・・ (18)
となる。時間差Δt=(N/OVL)・(1/fs)であるから、式(18)は
δ=(2π・fs・m/N)・(N/fs・OVL)
=2π・m/OVL ・・・ (19)
と変形される。
m<OVL ・・・ (20)
となる。
上述したように配列変数modified_phase、及びmagの各要素には、その要素を指定する値で対応付けられた周波数チャンネルの位相Θ及び周波数振幅magが代入されている。ピッチシフトは、配列変数modified_phase、及びmagの各要素に代入された位相Θ及び周波数振幅magを、スケーリングファクタρの値に応じて、別の配列変数synth_phase、及びsynth_magの各要素に代入することで行われる。変数jは配列変数modified_phase、及びmagの各要素の指定に用いられ、変数iは配列変数synth_phase、及びsynth_magの各要素の指定に用いられる。
図6に示すように、実周波数チャンネルの周波数振幅magはその周波数成分により励起された近傍の周波数チャンネルのそれよりも大きい。位相補正処理では、その大小関係に着目して実周波数チャンネルを推定し、推定した実周波数チャンネルと近傍の周波数チャンネルの間の位相差を維持させる位相補正が行われる。その位相補正のための操作は、配列変数synth_phase及びsynth_magの各要素に代入された値に対して行われる。
modified_phase[j−1]=modified_phase[j]
−(phase[j]−phase[j−1]) ・・・ (21)
synth_phase[i−1]=modified_phase[j−1]
・・・ (22)
modified_phase[j+1]=modified_phase[j]
−(phase[j]−phase[j+1]) ・・・ (23)
synth_phase[i+1]=modified_phase[j+1]
・・・ (24)
本実施の形態では、配列要素modified_phase[]の値を位相補正に合わせて修正している。これは、配列変数modified_phaseの各要素の値は式(1)右辺第1項の値として用いるからである。
synth_mag[i−1]=mag[j−1] ・・・ (25)
synth_mag[i+1]=mag[j+1] ・・・ (26)
ステップ507では、変数jの値をインクリメントする。次のステップ508では、変数jの値が値HALF_FFT_SIZEより小さいか否か判定する。その大小関係が存在している場合、判定はYESとなり、上記ステップ502に戻る。そうでない場合には、判定はNOとなり、ここで位相補正処理を終了する。
図7は、展開した位相差と周波数の関係を説明するグラフである。縦軸は位相差、横軸は周波数である。図中に示す直線は、各チャンネルの中心周波数から計算される位相差、すなわち式(6)或いは(8)により計算されるΔZi,kを表している。その直線に沿う形でプロットした線は、式(10)により計算される位相差ΔΘi,kを表したものである。その位相差ΔΘi,kはFFT点数512点の前半128点分を示している。
3 スイッチ部
4 ROM
5 RAM
7 マイク
8 A/D変換器
9 楽音生成部
10 D/A変換器
11 アンプ
12 スピーカ
Claims (4)
- 第1の音声波形を分析し、該分析結果を用いて第2の音声波形の合成を行う音声分析合成装置において、
前記第1の音声波形をフレーム単位で周波数分析して周波数チャンネル毎に周波数成分を抽出する周波数分析手段と、
前記周波数分析手段による分析結果を基に、周波数漏れ出し成分を除いた前記第1の音声波形の周波数成分が実際に存在する周波数チャンネルである実周波数チャンネルを推定する推定手段と、
前記推定手段が推定した実周波数チャンネルと、周波数軸上において当該実周波数チャンネルの両隣に位置し前記周波数漏れ出し成分が存在する周波数チャンネルとの間の位相関係を維持させる位相補正を行う位相補正手段と、
前記位相補正手段が位相補正を行って得られる周波数成分を用いて、前記第2の音声波形をフレーム単位で合成する音声合成手段と、
を具備することを特徴とする音声分析合成装置。 - 前記周波数漏れ出し成分が存在する周波数チャンネルは、前記実周波数チャンネルの低域側、及び高域側ともに、該実周波数チャンネルから連続する最大で2つの周波数チャンネルである、
ことを特徴とする請求項1記載の音声分析合成装置。 - 前記推定手段は、前記周波数成分から得られる該周波数成分の大きさを示す周波数振幅を参照して前記実周波数チャンネルを推定する、
ことを特徴とする請求項1、または2記載の音声分析合成装置。 - 第1の音声波形を分析し、該分析結果を用いて第2の音声波形の合成を行う音声分析合成装置として用いることが可能なコンピュータに、
前記第1の音声波形をフレーム単位で周波数分析して周波数チャンネル毎に周波数成分を抽出する周波数分析機能と、
前記周波数分析機能による分析結果を基に、周波数漏れ出し成分を除いた前記第1の音声波形の周波数成分が実際に存在する周波数チャンネルである実周波数チャンネルを推定する推定機能と、
前記推定機能により推定した実周波数チャンネルと、周波数軸上において当該実周波数チャンネルの両隣に位置し前記周波数漏れ出し成分が存在する周波数チャンネルとの間の位相差を維持させる位相補正を行う位相補正機能と、
前記位相補正機能により位相補正を行って得られる周波数成分を用いて、前記第2の音声波形をフレーム単位で合成する音声合成機能と、
を実現させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007050502A JP4816507B2 (ja) | 2007-02-28 | 2007-02-28 | 音声分析合成装置、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007050502A JP4816507B2 (ja) | 2007-02-28 | 2007-02-28 | 音声分析合成装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008216381A JP2008216381A (ja) | 2008-09-18 |
JP4816507B2 true JP4816507B2 (ja) | 2011-11-16 |
Family
ID=39836537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007050502A Active JP4816507B2 (ja) | 2007-02-28 | 2007-02-28 | 音声分析合成装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4816507B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2799838B1 (en) | 2011-12-27 | 2016-07-27 | Canon Kabushiki Kaisha | Information signal generating method |
WO2021015051A1 (ja) * | 2019-07-23 | 2021-01-28 | ソニー株式会社 | 制御装置、制御方法、及び制御プログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3534012B2 (ja) * | 1999-09-29 | 2004-06-07 | ヤマハ株式会社 | 波形分析方法 |
JP4513556B2 (ja) * | 2003-12-25 | 2010-07-28 | カシオ計算機株式会社 | 音声分析合成装置、及びプログラム |
JP4734961B2 (ja) * | 2005-02-28 | 2011-07-27 | カシオ計算機株式会社 | 音響効果付与装置、及びプログラム |
JP4830350B2 (ja) * | 2005-05-26 | 2011-12-07 | カシオ計算機株式会社 | 声質変換装置、及びプログラム |
-
2007
- 2007-02-28 JP JP2007050502A patent/JP4816507B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2008216381A (ja) | 2008-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4734961B2 (ja) | 音響効果付与装置、及びプログラム | |
US7672835B2 (en) | Voice analysis/synthesis apparatus and program | |
JP5598536B2 (ja) | 帯域拡張装置および帯域拡張方法 | |
JP4816507B2 (ja) | 音声分析合成装置、及びプログラム | |
Ottosen et al. | A phase vocoder based on nonstationary Gabor frames | |
JP2009288697A (ja) | インパルス応答加工装置、残響付与装置およびプログラム | |
WO2006090553A1 (ja) | 音声帯域拡張装置 | |
Han et al. | Reconstructing completely overlapped notes from musical mixtures | |
JP2014041241A (ja) | タイムスケーリング方法、ピッチシフト方法、オーディオデータ処理装置およびプログラム | |
JP2007310298A (ja) | 帯域外信号生成装置及び周波数帯域拡張装置 | |
JP5163606B2 (ja) | 音声分析合成装置、及びプログラム | |
US9865276B2 (en) | Voice processing method and apparatus, and recording medium therefor | |
WO2008010413A1 (fr) | Dispositif, procédé et programme de synthèse audio | |
JP4513556B2 (ja) | 音声分析合成装置、及びプログラム | |
JP2016038543A (ja) | 効果付加装置、方法、およびプログラム、電子楽器 | |
JP4830350B2 (ja) | 声質変換装置、及びプログラム | |
JP5246208B2 (ja) | 基音抽出装置、及びプログラム | |
JP2020194098A (ja) | 推定モデル確立方法、推定モデル確立装置、プログラムおよび訓練データ準備方法 | |
JP6131574B2 (ja) | 音声信号処理装置、方法、及びプログラム | |
JP2011090189A (ja) | 音響信号の符号化方法および装置 | |
KR20240075501A (ko) | 임베디드 시스템을 위한 가상 엔진음 생성 장치 및 그 제어 방법 | |
KR100275778B1 (ko) | 유/무성음 합성방법 | |
Kim et al. | Phase Vocoder For Time Stretch Based On Center Frequency Estimation. | |
JP5495858B2 (ja) | 音楽音響信号のピッチ推定装置及び方法 | |
Al-Taee et al. | Dynamic segmentation approach for efficient Arabian music transcription |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090703 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101201 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110215 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110323 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110802 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110815 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140909 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4816507 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |