JP3779058B2 - Sound source system - Google Patents

Sound source system Download PDF

Info

Publication number
JP3779058B2
JP3779058B2 JP03146598A JP3146598A JP3779058B2 JP 3779058 B2 JP3779058 B2 JP 3779058B2 JP 03146598 A JP03146598 A JP 03146598A JP 3146598 A JP3146598 A JP 3146598A JP 3779058 B2 JP3779058 B2 JP 3779058B2
Authority
JP
Japan
Prior art keywords
generator
pitch
waveform
base
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP03146598A
Other languages
Japanese (ja)
Other versions
JPH11231875A (en
Inventor
清嗣 新井
雅人 足立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Korg Inc
Original Assignee
Korg Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Korg Inc filed Critical Korg Inc
Priority to JP03146598A priority Critical patent/JP3779058B2/en
Publication of JPH11231875A publication Critical patent/JPH11231875A/en
Application granted granted Critical
Publication of JP3779058B2 publication Critical patent/JP3779058B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、電子楽器や音声合成装置で用いられる波形発生装置を有する音源システムに関し、特に加算合成方式を用いた波形発生装置を備えた音源システムに関する。
【0002】
【従来の技術】
加算合成方式(additive synthesis technique)と総括して呼ばれる技術は、正弦波加算合成、複合正弦波法、Phase Vocoder、Sinusoidal Model Synthesisなどと称される楽音合成方式または音声合成方式も広範囲に指すものであり、フーリエ解析などの周波数分析に基づいた一貫した分析/再合成システムを起源に持つ、複数個の基底波形(周期波形)を発生する波形発生装置を各基底の適切な信号レベルに応じて重み付け加算して1つの出力合成音を得る音源方式を言う。以下、簡単の為、楽音及び音声を総称して楽音、また、それら楽音波形の発生装置、合成装置を音源と表現する。
【0003】
基底波形同士の周波数の関係や重み付け係数の導出方法及び係数の時間変化の制御方法などの違いで微妙に異なる手法が提案されているが、これらを問わず加算合成方式と呼ぶことにする。
加算合成方式は、楽音の分析/再合成のシステムが一致しているため、理論的には解析音の情報を損ねず合成音を発生できる分析合成システムであることが知られている。
【0004】
図7はKL(Karhunen Loeve)基底方式を用いた楽音合成装置の一例を図示したものである。
この方式は以下の2文献に開示されているが、図7は、特に、文献2の合成モデルを図示したものである。
文献1:Karhunen-Loeve-Based Additive Synthesis of Musical Tones IEEE 1986 pp581-584
文献2:Implementation of the KL Synthesis Algorithm under Real-Time Control ICMC Proceedings 1991 pp360-363
【0005】
図7において、1は入力解析音波形x(t)(tは離散時間、t=kT,k:整数、T:サンプリング時間)のピッチ情報p(t)を出力するピッチ情報発生部、2はこのピッチ情報発生部1からのピッチ情報p(t)が基本周波数の対数に比例するデータ形式であることを仮定して、図8(a)に示す如く、位相の変化量である位相増分値データφ(t)(=FR(p(t)))に変換するピッチ/位相変換部、3はこのピッチ/位相変換部2からの位相増分値データφ(t)に基づいて式(1)に従って位相データθ(t)を出力する位相発生器であり、図8(b)に示す如く、符号無し加算器(2の補数型オーバーフロー特性加算器)で実現する。
【0006】
【数1】

Figure 0003779058
【0007】
また、4は上記入力解析音波形のレベル情報a(t)を出力するレベル情報発生部で、ボリューム情報にベロシティ情報やレベルエンベロープ情報を統合した最終的な出力音のレベル情報を出力する。5はこのレベル情報発生部4からのレベル情報a(t)に基づいて基底波形毎の重み係数An(t)(nは基底波形の順序を示す)を発生する重み係数発生部である。
【0008】
さらに、6は上記位相発生器3からの位相データθ(t)及び上記重み係数発生部5からの基底波形毎の重み係数An(t)に基づいて重み係数を乗算した各基底波形を合成した出力合成音波形y(t)を得る波形発生装置であり、この波形発生装置6は、KL基底の位相に対応した波形データを格納してなり、上記位相データθ(t)をアドレスとして対応する基底波形データFn(t)を出力する基底数に応じたKL基底メモリ6A1,6A2,・・・,6Anを有する基底波形発生装置6Aと、各KL基底波メモリからの基底波形データFn(t)に上記重み係数発生部5からの基底波形毎の重み係数An(t)を乗算する基底数に応じた乗算器6Bnと、これら乗算器6Bnの出力波形を合成した式(2)に示す出力合成波形y(t)音を得る加算器6Cとを有する。なお、式(2)において、Nは基底波形の総数を示す。
【0009】
【数2】
Figure 0003779058
【0010】
【発明が解決しようとする課題】
ところで、上述した従来の加算合成方式の技術では、2つの大きな問題点が知られている。
一つは、数個の基底波形を加算して1出力波形を形成する為に、特に現実に存在する楽音に近いリアルな音色を再現する場合、1つの楽音の合成に費やさねばならない演算量が膨大となる。
従って、演算量を制限すると基底数を増やすことは困難になるが、逆に基底数を減らすと再現できる倍音の総数が減る問題が起こる。その場合は、周波数が低い倍音を優先し合成すると高帯域成分が不足した合成音となり、レベルの大きい倍音を優先し合成すると倍音間隔が不自然に開いた合成音になるというな音質的に顕著な問題が起こる。
【0011】
もう一つは、再現性を向上させようとすると、各基底の加算重み係数データの制御が複雑になる。重み係数発生部5から発生される重み係数はフーリエ変換または短時間フーリエ変換(Short Time Fourier Transform:STFT)によって定まる信号レベルデータを用いるのが一般的であるが、そのデータ数は解析点数分の時変データ列が基底の個数分あることになる。つまり、入力解析音を10,000サンプルのデータ列で解析した場合は、10,000N個のデータ数となる。この場合は、入力解析音と出力合成音のピッチとレベルが同じならば良好な再現性を得られるが、ピッチとレベルを変更すると入力解析音から離れるに従って再現性が落ちることが知られている。
【0012】
また、基底の個数分の時変データ列を取り扱うためデータ量は膨大であり、そのままデータを保持及び制御するのは困難であるため、例えば折れ線近似(Piecewise Linear Segments)などの比較的簡単なエンベロープジェネレータの一種で代用されることが多いが、現在では入力解析音特有の情報の大部分がエンベロープ曲線に含まれる微細なゆらぎ情報の中に含まれていることが推定されており、これを簡素な折れ線など簡単なエンベロープ曲線で表現することで欠落する情報量は多く、結果として楽音の再現性を劣化させる。
【0013】
音源の基底が正弦波の場合も存在するが、図7に示す従来例の場合は基底をKL基底としており、KL基底の一つ一つをスペクトラム解析すると、それぞれが入力解析音のスペクトラム形状の特徴を部分的に持っており、音源の基底として正弦波の代わりにKL基底波形を用いることで演算量の削減を狙ったものであり、上記2つの問題点のうち前者を解消するものであるが、図7に示す例では、レベルの時変データ列となる各基底の重み係数を求めるのに、重み係数発生部5では基底のエンベロープジェネレータに折れ線近似を用いているため、後者の問題点は解消されていない。
【0014】
この発明は上述した従来例にかかる問題点を解消するためになされたもので、加算合成方式の音源システムにおいて、簡潔なデータ制御構造でありながら再現性の向上の実現を図ることができると共に、ピッチとレベル双方の時変データ列を編集することにより、新たな演奏情報でも入力解析音の特徴を残した出力合成音が発生できる音源システムを得ることを目的とする。
【0015】
【課題を解決するための手段】
上記目的を達成するために、この発明に係る音源システムは、入力解析音波形のピッチ情報を出力するピッチ情報発生部と、このピッチ情報発生部からのピッチ情報を位相増分値データに変換するピッチ/位相変換部と、このピッチ/位相変換部からの位相増分値データに基づいて位相データを得る位相発生器と、上記入力解析音波形のレベル情報を出力するレベル情報発生部と、このレベル情報発生部からのレベル情報に基づいて基底波形毎の重み係数を発生する重み係数発生部と、上記位相発生器からの位相データ及び上記重み係数発生部からの基底波形毎の重み係数に基づいて重み係数を乗算した各基底波形の出力合成音を得る波形発生装置とを備え、上記波形発生装置は、KL基底波形を格納してなる基底数に応じた基底メモリを有し、上記位相データをアドレス入力として各基底メモリからKL基底波形を読み出して出力する基底波形発生装置と、各KL基底波形に上記重み係数発生部からの基底波形毎の重み係数を乗算する基底数に応じた乗算器と、これら乗算器の出力の合成音を得る加算器とを有する音源システムにおいて、上記重み係数発生部は、互いに直交するピッチ軸とレベル軸及び重み係数軸でなる空間に重み係数が曲面をなすようにした、ピッチ及びレベルに応じた重み係数を格納してなる基底波形毎の2次元テーブルメモリを有し、上記ピッチ情報発生部からのピッチ情報及び上記レベル情報発生部からのレベル情報に基づいて各KL基底波形毎の重み係数を上記各乗算器に出力することを特徴とするものである。
【0016】
また、上記基底波形発生装置は、上記2次元テーブルメモリを用いて補間法による直線近似によりピッチ及びレベルに応じた重み係数を求めることを特徴とするものである。
【0017】
また、他の発明に係る音源システムは、入力解析音波形のピッチ情報を出力するピッチ情報発生部と、このピッチ情報発生部からのピッチ情報を位相増分値データに変換するピッチ/位相変換部と、このピッチ/位相変換部からの位相増分値データに基づいて位相データを得る位相発生器と、上記入力解析音波形のレベル情報を出力するレベル情報発生部と、このレベル情報発生部からのレベル情報に基づいて基底波形毎の重み係数を発生する重み係数発生部と、上記位相発生器からの位相データ及び上記重み係数発生部からの基底波形毎の重み係数に基づいて重み係数を乗算した各基底波形の出力合成音を得る波形発生装置と備え、上記波形発生装置は、KL基底波形を格納してなる基底数に応じた基底メモリを有し、上記位相データをアドレス入力として各基底メモリからKL基底波形を読み出して出力する基底波形発生装置と、各KL基底波形に上記重み係数発生部からの基底波形毎の重み係数を乗算する基底数に応じた乗算器と、これら乗算器の出力の合成音を得る加算器とを有する音源システムにおいて、上記重み係数発生部は、ピッチ及びレベルを変数とする2変数多項式を、互いに直交するピッチ軸とレベル軸及び重み係数軸でなる空間に重み係数が曲面をなすようにした、重み係数に近似したときの係数を各基底波形毎に格納してなる係数メモリと、上記ピッチ情報発生部からのピッチ情報と上記レベル情報発生部からのレベル情報及び上記係数メモリからの各基底波形毎の係数に基づいて重み係数を演算する基底波形毎の重み係数演算器とを備え、これら重み係数演算器からの各KL基底波形毎の重み係数を上記各乗算器に出力することを特徴とするものである。
【0018】
また、上記ピッチ情報発生部からのピッチ情報及び上記レベル情報発生部からのレベル情報に応じたフィルタ係数を出力する第1のフィルタ係数発生部と、この第1のフィルタ係数発生部からのフィルタ係数が設定されて上記波形発生装置からの出力をフィルタ処理するフォルマントフィルタとをさらに備えたことを特徴とするものである。
【0019】
また、上記ピッチ情報発生部からのピッチ情報及び上記レベル情報発生部からのレベル情報に応じたフィルタ係数を出力する第2のフィルタ係数発生部と、この第2のフィルタ係数発生部からのフィルタ係数が設定されて上記フォルマンフィルタからの出力をフィルタ処理するブライトネスフィルタとをさらに備えたことを特徴とするものである。
【0021】
【発明の実施の形態】
この発明では、入力解析音波形のピッチとレベルの時変データと、各ピッチとレベルにおける各基底の信号レベルとを分離して保持し、式(3)に示す出力合成音波形y(t)を得る。なお、式(3)において、AAn(p(t),a(t))はこの発明で用いるピッチとレベルのデータをn番目の基底のレベルデータに変換するデータテーブルまたは関数を示す。
【0022】
【数3】
Figure 0003779058
【0023】
例えば、従来技術では各基底の信号レベルの時変データ列(10,000N点)をそのまま管理・制御しなければ再合成できなかったが。これに比較して、この発明では、全体のピッチとレベルのそれぞれの時変データ(各10,000点)列を保持しておき、変換関数AAnによってピッチとレベルから各基底の信号レベルに変換する。
各ピッチとレベルにおける各基底の信号レベルは、定常状態の入力解析音波形においてはほぼ一定の値をとることが解っており、これを参照テーブルまたは関数の形で保持しておくことで有効なデータ保存ができる。
一方、入力解析音のピッチとレベルの時変データは、演奏情報における過渡状態の情報を多数含むので、これら2つを用いて再合成することで再現性の高い出力合成音が発生可能となる。
【0024】
このように、データを分離することによって新たな効果が生まれるので、それを説明する。
説明を明確にするために音声、特に歌唱データを例にとって説明する。
特定歌唱者の個人性を特徴付ける大きな要素は、一つはその歌唱音声自体が持っている特徴(特にはスペクトラム特性)であり、もう一つは歌唱音声の制御方法(通常歌いまわし等と言われる)の特徴である。この制御方法の大部分はピッチとレベルの制御の時変データ列で記述することができる。
従って、この発明のようにデータを分離することによって、変換関数AAnに歌唱音声自体の特徴が、残ったピッチとレベルの時変データ列に制御方法の特徴が、分離されて保存される。これによって新たな歌唱音の再合成が可能となる。
【0025】
つまり、歌唱者Aの入力解析音を分析し歌唱者Aに対する変換関数AAnの組であるA−AAnの組を作成する。一方で歌唱者Bに歌唱者Aが唄わない曲Cを唄わせ、そのピッチとレベルと分析し、時変データ列を作成する。然るに、この発明の音源システムに歌唱者Aに対する変換関数AAnの組であるA−AAnの組を装備し、歌唱者Bが唄う曲Cの時変データ列を入力すると、歌唱者Aが唄わなかった曲Cを、歌唱者Aの歌声と歌唱者Bの歌いまわしを用いて再合成することができる。
【0026】
また、このように特徴を分離できるので、この発明の音源システムに、声帯のスペクトラム特性のシミュレーションを行うフォルマントフィルタなどのスペクトラム特性を模倣させるシステムに、ピッチとレベルから係数データへの変換手段を同様に加えれば、さらにシステムの再現性を向上できる。
【0027】
なお、この発明の技術は作り方から明らかに全ての加算合成方式に適用可能であり、基底波形形状に依らない。つまり、この発明では合成波形の最小単位に便宜的に基底という語を用いているものの、本来の基底(base)という語の意味を超えた適用が容易である。
例えば、ある楽音を周波数分析して得た基底(正弦波)のデータを周波数の低い方から等間隔で組にして(倍音グループと呼ぶ)、これら1グループの周波数分析データと等価な波形を新たな基底波形としてこの発明を適用することができる。
【0028】
実施の形態1.
以下、具体的な実施の形態について図を参照して説明する。
図1は実施の形態1に係る音源システムを示す構成図である。
図1において、図7に示す従来例と同一部分は同一符号を付して、その説明は省略する。新たな符号として、50はピッチとレベルを変数としてこれらに応じた基底波形の重み係数を格納してなる2次元テーブルメモリを各基底波形毎に有する重み係数発生部であり、ピッチ情報発生部1からのピッチ情報及びレベル情報発生部4からのレベル情報に基づいて各基底波形毎の重み係数AAn(p(t),a(t))を対応する各乗算器6Bnに出力する。なお、7は上記重み係数AAn(p(t),a(t))が正規化されている場合に、加算器6Cから出力される出力合成音に係数a(t)を乗算する乗算器であり、その出力は式(3)に示すものとなり、重み係数が正規化されていないものであれば、不要であり、その場合、加算器6Cから式(3)に示す出力合成音y(t)が得られる。
【0029】
図2はさらに詳細に示す音源システムの概念図である。
図2に示すように、上記基底波形発生装置6Anは位相データθ(t)をアドレス入力として第1ないし第NのKL基底メモリからKL各基底波形を読み出してそれぞれ対応する乗算器6Bnに出力する一方、上記重み係数発生部50は、基底数に応じた2次元テーブルメモリ51,52,・・・,5nを有し、ピッチ情報とレベル情報に応じた第1ないし第N重み係数を対応する乗算器6Bnにそれぞれ出力するようになっている。
【0030】
また、ここで、上記2次元テーブルメモリには、図3に示す如く、互いに直交するピッチ軸とレベル軸及び重み係数軸でなる空間に重み係数が曲面をなすようにした重み係数を格納してなり、図示される重み係数曲面は各基底に応じて異なり、各2次元テーブルメモリから時々刻々のピッチ情報とレベル情報に応じた第1ないし第N重み係数が出力される事により、最適なスペクトラムをもつ波形の合成が可能になる。
【0031】
また、上記2次元テーブルメモリの分解能を十分高く取れば、ピッチ情報とレベル情報に応じた重み係数を直ちに求めることが可能となるが、メモリ容量の低減化を図る場合、メモリ分解能を低めても下記に示す2次元テーブルメモリを用いた補間法による直線近似に従ってピッチ情報とレベル情報に応じた重み係数を求めることができる。
【0032】
今、発音周波数F[Hz]とそのパワーPが与えられているものとする。電子楽器では人間の聴覚特性に基づき以下のようにピッチとレベルを定義することが多い。
ピッチp=69+12log2(F/440)
レベルa=10log10
KL重み係数がピッチp、レベルaに対してw(p,a)のように表わされるとする。
【0033】
テーブルを利用する方法
ピッチpとレベルaを適当な分解能で離散化した集合Sp,Saを用意する。
p={p0,p1,p2,・・・,pN-1},Sa={a0,a1,a2,・・・,aM-1
係数テーブルTは係数w(p,a)を上記Sp×Sa上でサンプリングしたものとする。
T(i,j)=w(pi,aj),
【0034】
0≦p<pN-1,a0≦a<aM-1の範囲で任意にとったp,aが与えられた時、w(p,a)は係数テーブルTにより次のように近似できる。
w(p,a)≒T0(i,j)+△j{T0(i,j+1)−T0(i,j)}
ここに、T0(i,j)=T(i,j)+△i{T0(i+1,j)−T(i,j)}
i≦p<pi+1,aj≦a<aj+1
△i=(p−pi)/(pi+1−pi),△j=(a−ai)/(ai+1−ai
【0035】
このような補間は1次補間であるが、テーブル分解能を十分高くとれば補間は必要ないのは勿論である。逆に、さらに省メモリを求める場合は2次以上の補間を使用することもできる。
【0036】
従って、この実施の形態1によれば、下記のような効果を達成できる。
1)基底波形の加算重み係数をピッチとレベルを変数とする2次元テーブルとしてメモリに保持することにより、従来の加算合成方式のように、入力解析音を再現する為に、重み係数の時変データ列を基底個数分保持する必要はない。
2)楽音の特徴を、楽音のピッチとレベルに依存して決定するデータと演奏技法によるデータに分けて管理することができる。
3)入力解析音からは、楽音の時間変化に依らない、楽音のピッチとレベルに依存して決定する特徴のみが採取される。
従って、これらにより、
4)ピッチとレベルの変化に対して従来のものより音色の追従性がよく、より再現性の高い合成音が発生できる。
5)ピッチとレベルの演奏技法に係わる時変データは、入力解析音と別のデータから抽出したものが使える。
6)さらに補間法による直線近似を利用すれば、ピッチ情報とレベル情報に応じた重み係数を求めるのに、2次元テーブルメモリのメモリ容量の低減化を図ることができる。
【0037】
実施の形態2.
上述した実施の形態1では、図1の重み係数発生部50に、ピッチ及びレベルに応じた重み係数を格納するKL基底波形毎の2次元テーブルメモリを備えたが、この実施の形態2では、ピッチ及びレベルを変数とした2変数多項式を近似したときの係数を用いて重み係数を求める場合について説明する。
【0038】
係数を2変数多項式で近似することにより、一層少ないメモリで実現することも可能である。例えば多項式をピッチ情報p(t)とレベル情報a(t)の2変数多項式として、Kをピッチ情報p(t)の次数、Lをレベル情報a(t)の次数として指定すると、式(4)に示す2変数多項式AAn(p(t),a(t))を式(5)となるように係数Cstn を決定することで係数を近似できる。
【0039】
【数4】
Figure 0003779058
【0040】
この場合、多項式計算によってp,aから直接重み係数の近似値を求めることができる。
式(5)は、すべてのi,jのうちで│AAn(p,a)−w(pi,aj)│の最大値となるi,jの組において、その最大値を最小値にするCstn を意味し、式(4)、(5)をK:L=1について展開すると、2変数多項式AAn(p,a)は、式(6)に示すものとなる。
AAn(p,a)=C00n+C01np+C10na+C11npa (6)
【0041】
図4はK=L=1の場合を等価回路図を図示したもので、この実施の形態2に係る重み係数発生部60の内部構成の一例に相当する図である。
なお、この実施の形態2における全体構成は図1に示す実施の形態1と同様であるが、図1に示す重み係数発生部50を、この実施の形態2では重み係数発生部60として示し、その内部構成の一例を図4に示している。
【0042】
すなわち、図4に示すように、この実施の形態2に係る重み係数発生部60としては、ピッチp及びレベルaを変数とする2変数多項式を近似したときの上記係数C00n,C01n,C10n,C11nを各基底波形(添字nに対応)毎に格納してなる係数メモリ61と、ピッチ情報発生部1からのピッチ情報pとレベル情報発生部4からのレベル情報a及び上記係数メモリ61からの各基底波形毎の係数に基づいて重み係数を演算する基底波形毎の重み係数演算器62とを備えており、これら重み係数演算器62からの各基底波形毎の重み係数を各乗算器6Bnに出力するようにしている。図中、62a〜62dは乗算器、62eは加算器を示し、図示構成は各基底波形毎に備えられている。
【0043】
なお、係数の定義域全体を単一の多項式で近似するのは誤差が大きく実用的でない。必要に応じて区分多項式で近似するなどの工夫もできよう。
また、因に2変数多項式AAn(p,a)をK=L=2の場合について展開すると、式(7)に示すものとなる。
AAn(p,a)=C00n+C10np+C20n2+C01na+C11npa+C21n2a+C02n2+C12npa2+C22n22 (7)
【0044】
従って、上記実施の形態2によれば、重み係数を2変数関数として発生することにより、入力解析音を再現する為に、管理しなければならないデータ個数をさらに減らすことができる。
【0045】
実施の形態3.
次に、図5は実施の形態3に係る音源システムを示す構成図である。
図5において、図1に示す実施の形態1と同一部分は同一符号を付して、その説明は省略する。新たな符号として、8はピッチ情報発生部1からのピッチ情報p(t)及びレベル情報発生部4からのレベル情報a(t)に応じたフォルマントフィルタのフィルタ係数を出力するフィルタ係数発生部、9はこのフィルタ係数発生部8からのフィルタ係数が設定されて波形発生装置6からの出力をフィルタ処理して楽音のピークフォルマントを再現するためのフォルマントフィルタであり、ここで、上記フィルタ係数発生部8は、実施の形態1の重み係数発生部50と同様な構成でなり、実施の形態1に対して上記フィルタ係数発生部8と上記フォルマントフィルタ9が追加されている。
【0046】
フォルマントは、楽音のスペクトラムエンベロープ(包絡線)のピークを言い、フォルマントフィルタ9はそのフォルマントのピーク周波数、ピークレベル、Qを再現する。また、ここでは、フォルマントフィルタと総括的に述べたものであるが、フォルマントフィルタの具体例としては、格子型フィルタ、伝達関数の直接構成、2次IIRフィルタの縦続モデル、梯子型フィルタなど様々なものが適応可能であるが、どの実装方法を採用するかは本質的な問題ではなく、いずれの場合も適用可能である。
【0047】
従って、この実施の形態3によれば、フォルマントフィルタ9のフィルタ係数を重み係数発生部50と同様の2次元係数テーブルで保持することにより、ピッチとレベルの変化に対して適切なフォルマントを与えることができ、より再現性の高い合成音を発生できる。
【0048】
実施の形態4.
次に、図6は実施の形態4に係る音源システムを示す構成図である。
図6において、図5に示す実施の形態3と同一部分は同一符号を付して、その説明は省略する。新たな符号として、10はピッチ情報発生部1からのピッチ情報p(t)及びレベル情報発生部4からのレベル情報a(t)に応じたブライトネスフィルタのフィルタ係数を出力するフィルタ係数発生部、11はこのフィルタ係数発生部10からのフィルタ係数が設定されてフォルマントフィルタ9を介した出力をフィルタ処理して、音声においては唇の動きによるスペクトラム変動、楽器音においては各種演奏手法によるスペクトラム変動を再現するためのブライトネスフィルタであり、ここで、上記フィルタ係数発生部8は、実施の形態1の重み係数発生部50と同様な構成でなり、実施の形態3に対して上記フィルタ係数発生部10と上記ブライトネスフィルタ11が追加されている。
【0049】
このブライトネスフィルタも、具体的な実例としては各種考えられるが、ここでは1次IIRフィルタモデルを挙げる。
従って、この実施の形態4によれば、ブライトネスフィルタのフィルタ係数を重み係数発生部50と同様の2次元係数テーブルで保持することにより、ピッチとレベルの変化に対して演奏表現などによる音色変化を分離できて、より再現性の高い合成音が発生できる。
【0050】
【発明の効果】
以上のように、この発明によれば、重み係数発生部に、ピッチ及びレベルに応じた重み係数を格納してなる基底波形毎の2次元テーブルメモリを備え、ピッチ情報発生部からのピッチ情報及びレベル情報発生部からのレベル情報に基づいて各基底波形毎の重み係数を出力するようにしたので、基底波形の加算重み係数をピッチとレベルの2次元テーブルとして保持することにより、従来の加算合成方式のように、入力解析音を再現する為に、重み係数の時変データ列を基底個数分保持する必要はなく、楽音の特徴を、楽音のピッチとレベルに依存して決定するデータと演奏技法によるデータに分けて管理することができ、入力解析音からは、楽音の時間変化に依らない、楽音のピッチとレベルに依存して決定する特徴のみが採取される結果、ピッチとレベルの変化に対して従来のものより音色の追従性がよく、より再現性の高い合成音が発生できる。
【0051】
また、上記2次元テーブルメモリを用いて補間法による直線近似によりピッチ及びレベルに応じた重み係数を求めるようにすることにより、メモリ容量を削減できる。
【0052】
また、他の発明によれば、重み係数発生部を、ピッチ及びレベルを変数とする2変数多項式を近似したときの係数を各基底波形毎に格納してなる係数メモリと、ピッチ情報発生部からのピッチ情報とレベル情報発生部からのレベル情報及び上記係数メモリからの各基底波形毎の係数に基づいて重み係数を演算する基底波形毎の重み係数演算器とで構成することにより、重み係数を2変数関数として発生することで、入力解析音を再現する為に管理しなければならないデータ個数をさらに減らすことができる。
【0053】
また、ピッチ情報発生部からのピッチ情報及びレベル情報発生部からのレベル情報に応じたフィルタ係数を出力する第1のフィルタ係数発生部と、この第1のフィルタ係数発生部からのフィルタ係数が設定されて上記波形発生装置からの出力をフィルタ処理するフォルマントフィルタとをさらに備えるようにしたので、ピッチとレベルの変化に対して適切なフォルマントを与えられ、より再現性の高い合成音が発生できる。
【0054】
また、ピッチ情報発生部からのピッチ情報及びレベル情報発生部からのレベル情報に応じたフィルタ係数を出力する第2のフィルタ係数発生部と、この第2のフィルタ係数発生部からのフィルタ係数が設定されて上記フォルマンフィルタからの出力をフィルタ処理するブライトネスフィルタとをさらに備えるようにしたので、ピッチとレベルの変化に対して演奏表現などによる音色変化を分離できて、より再現性の高い合成音が発生できる。
【0055】
さらに、基底波形発生装置からKL基底波形を出力することで、音源の基底としてKL基底波形を用いることで、各基底の重み係数を求めるのに、演算が容易なものとなり、演算量の削減を図ることができる。
【図面の簡単な説明】
【図1】 この発明の実施の形態1に係る音源システムを示す構成図である。
【図2】 図1の重み係数発生部50の内部構成を説明するための概念図である。
【図3】 図1の重み係数発生部50が有する2次元テーブルメモリの格納内容を説明するための概念図である。
【図4】 この発明の実施の形態2に係る音源システムを説明するもので、重み係数発生部60の一例を示す構成図である。
【図5】 この発明の実施の形態3に係る音源システムを示す構成図である。
【図6】 この発明の実施の形態4に係る音源システムを示す構成図である。
【図7】 従来例に係る音源システムを示す構成図である。
【図8】 図7のピッチ位相変換部と位相発生器を示す構成図である。
【符号の説明】
1 ピッチ情報発生部、2 ピッチ/位相変換部、3 位相発生部、4 レベル情報発生部、6 波形発生装置、6A 基底波形発生装置、6A1,6A2,・・・,6An KL基底メモリ、6B1,6B2,・・・,6Bn 乗算器、6C 加算器、7 加算器、8 フィルタ係数発生部、9 フォルトマントフィルタ、10 フィルタ係数発生部、11 ブライトネスフィルタ、50 重み係数発生部、51、52、・・・、5n 2次元テーブルメモリ、60 重み係数発生部、61 係数メモリ、62 重み係数演算器。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a sound source system having a waveform generator used in an electronic musical instrument or a speech synthesizer, and more particularly to a sound source system including a waveform generator using an additive synthesis method.
[0002]
[Prior art]
The technique collectively referred to as additive synthesis technique refers to a wide range of musical sound synthesis methods or speech synthesis methods such as sine wave addition synthesis, composite sine wave method, phase vocoder, sinusoidal model synthesis, etc. Yes, waveform generators that generate multiple base waveforms (periodic waveforms) originating from a consistent analysis / resynthesis system based on frequency analysis such as Fourier analysis are weighted according to the appropriate signal level of each base This is a sound source method in which one output synthesized sound is obtained by addition. Hereinafter, for the sake of simplicity, musical sounds and voices are collectively referred to as musical sounds, and musical tone waveform generating devices and synthesizing devices are expressed as sound sources.
[0003]
Although a slightly different method has been proposed depending on the relationship between the frequencies of the base waveforms, the method for deriving the weighting coefficient, and the method for controlling the time change of the coefficient, these are referred to as addition synthesis methods.
The addition synthesis method is known to be an analysis and synthesis system that can generate a synthesized sound theoretically without losing information of the analyzed sound because the analysis / resynthesis system of musical sounds is the same.
[0004]
FIG. 7 illustrates an example of a musical sound synthesizer using a KL (Karhunen Loeve) basis method.
This method is disclosed in the following two documents, and FIG. 7 particularly illustrates the synthesis model of the document 2.
Reference 1: Karhunen-Loeve-Based Additive Synthesis of Musical Tones IEEE 1986 pp581-584
Reference 2: Implementation of the KL Synthesis Algorithm under Real-Time Control ICMC Proceedings 1991 pp360-363
[0005]
In FIG. 7, 1 is a pitch information generating unit that outputs pitch information p (t) of input analysis sound waveform x (t) (t is discrete time, t = kT, k: integer, T: sampling time), Assuming that the pitch information p (t) from the pitch information generating unit 1 is in a data format proportional to the logarithm of the fundamental frequency, as shown in FIG. The pitch / phase conversion unit 3 converts the data φ (t) (= FR (p (t))) into the formula (1) based on the phase increment value data φ (t) from the pitch / phase conversion unit 2. The phase generator outputs phase data θ (t) according to the above, and is realized by an unsigned adder (two's complement overflow adder) as shown in FIG.
[0006]
[Expression 1]
Figure 0003779058
[0007]
Reference numeral 4 denotes a level information generator for outputting level information a (t) of the input analysis sound waveform, and outputs final output sound level information obtained by integrating velocity information and level envelope information into volume information. A weighting factor generator 5 generates a weighting factor An (t) for each base waveform (n indicates the order of base waveforms) based on the level information a (t) from the level information generator 4.
[0008]
Further, 6 synthesizes each base waveform obtained by multiplying the weight coefficient based on the phase data θ (t) from the phase generator 3 and the weight coefficient An (t) for each base waveform from the weight coefficient generator 5. This waveform generator 6 obtains an output synthesized sound waveform y (t). The waveform generator 6 stores waveform data corresponding to the phase of the KL base, and corresponds to the phase data θ (t) as an address. The base waveform generator 6A having KL base memories 6A1, 6A2,..., 6An corresponding to the number of bases that output the base waveform data Fn (t), and the base waveform data Fn (t) from each KL base wave memory And a multiplier 6Bn corresponding to the number of bases for multiplying the weighting coefficient An (t) for each base waveform from the weighting coefficient generator 5, and the output synthesis shown in Expression (2), which combines the output waveforms of these multipliers 6Bn Waveform y (t) And an adder 6C for obtaining sound. In Equation (2), N indicates the total number of base waveforms.
[0009]
[Expression 2]
Figure 0003779058
[0010]
[Problems to be solved by the invention]
By the way, two major problems are known in the above-described conventional additive synthesis technique.
One is the addition of several base waveforms to form one output waveform, so the amount of computation that must be spent on synthesizing one musical tone is particularly important when reproducing a realistic timbre close to a real musical tone. Become enormous.
Therefore, it is difficult to increase the number of bases if the amount of computation is limited, but conversely, if the number of bases is reduced, the total number of overtones that can be reproduced decreases. In that case, if you give priority to harmonic overtones with low frequency, it will become a synthesized tone that lacks high-band components, and if you give priority to overtones with a high level, it will become a synthesized tone with unnaturally spaced harmonics. Problems arise.
[0011]
The other is that when the reproducibility is improved, the control of the addition weight coefficient data of each base becomes complicated. The weighting coefficient generated from the weighting coefficient generator 5 is generally signal level data determined by Fourier transform or short time Fourier transform (STFT), but the number of data is the number of analysis points. There are as many time-varying data sequences as there are bases. That is, when the input analysis sound is analyzed with a data string of 10,000 samples, the number of data is 10,000N. In this case, it is known that good reproducibility can be obtained if the pitch and level of the input analysis sound and the output synthesized sound are the same, but if the pitch and level are changed, it is known that the reproducibility decreases with increasing distance from the input analysis sound. .
[0012]
In addition, since the amount of data is enormous because it deals with time-varying data strings for the number of bases, it is difficult to hold and control the data as it is, so for example, a relatively simple envelope such as polygonal linear approximation (Piecewise Linear Segments). A type of generator is often substituted, but at present it is estimated that most of the information peculiar to the input analysis sound is included in the fine fluctuation information included in the envelope curve. A large amount of information is lost by expressing it with a simple envelope curve such as a broken line, resulting in a deterioration in the reproducibility of musical sounds.
[0013]
Although there are cases where the sound source base is a sine wave, in the case of the conventional example shown in FIG. 7, the base is the KL base, and when each of the KL bases is subjected to spectrum analysis, each of them has a spectrum shape of the input analysis sound. It has some features and aims to reduce the amount of computation by using a KL basis waveform instead of a sine wave as the basis of the sound source, and solves the former of the above two problems. However, in the example shown in FIG. 7, since the weight coefficient generation unit 5 uses a polygonal line approximation for the base envelope generator to obtain the weight coefficient of each base that becomes a time-varying data string of the level, the latter problem Has not been resolved.
[0014]
The present invention has been made to solve the above-described problems of the conventional example, and in the addition synthesis method sound source system, it is possible to realize improvement in reproducibility while having a simple data control structure, It is an object of the present invention to provide a sound source system capable of generating an output synthesized sound that retains the characteristics of an input analysis sound even with new performance information by editing both pitch and level time-varying data strings.
[0015]
[Means for Solving the Problems]
In order to achieve the above object, a sound source system according to the present invention includes a pitch information generation unit that outputs pitch information of an input analysis sound waveform, and a pitch that converts pitch information from the pitch information generation unit into phase increment data. / Phase conversion unit, a phase generator that obtains phase data based on phase increment value data from the pitch / phase conversion unit, a level information generation unit that outputs level information of the input analysis sound waveform, and the level information A weighting factor generator that generates a weighting factor for each base waveform based on level information from the generator, a weight based on the phase data from the phase generator and the weighting factor for each base waveform from the weighting factor generator A waveform generator for obtaining an output synthesized sound of each base waveform multiplied by a coefficient, the waveform generator, KL It has a base memory corresponding to the number of bases that stores the base waveform, and the above phase data is used as an address input from each base memory. KL A base waveform generator that reads and outputs a base waveform, and each KL In a sound source system having a multiplier according to a base number for multiplying a base waveform by a weight coefficient for each base waveform from the weight coefficient generator, and an adder for obtaining a synthesized sound of outputs of these multipliers, the weight coefficient The generating unit is a two-dimensional table for each base waveform in which weighting coefficients corresponding to pitch and level are stored in such a manner that the weighting coefficient forms a curved surface in a space composed of a pitch axis, a level axis, and a weighting coefficient axis orthogonal to each other Each having a memory, based on the pitch information from the pitch information generator and the level information from the level information generator. KL A weighting factor for each base waveform is output to each multiplier.
[0016]
The base waveform generator is characterized in that a weighting factor corresponding to a pitch and a level is obtained by linear approximation using an interpolation method using the two-dimensional table memory.
[0017]
A sound source system according to another invention includes a pitch information generation unit that outputs pitch information of an input analysis sound waveform, and a pitch / phase conversion unit that converts pitch information from the pitch information generation unit into phase increment value data. A phase generator for obtaining phase data based on phase increment value data from the pitch / phase converter, a level information generator for outputting level information of the input analysis sound waveform, and a level from the level information generator A weighting factor generator that generates a weighting factor for each base waveform based on information, and each of the weighting factors multiplied based on the phase data from the phase generator and the weighting factor for each base waveform from the weighting factor generator A waveform generator for obtaining an output synthesized sound of a base waveform, the waveform generator is KL It has a base memory corresponding to the number of bases that stores the base waveform, and the above phase data is used as an address input from each base memory. KL A base waveform generator that reads and outputs a base waveform, and each KL In a sound source system having a multiplier according to a base number for multiplying a base waveform by a weight coefficient for each base waveform from the weight coefficient generator, and an adder for obtaining a synthesized sound of outputs of these multipliers, the weight coefficient The generator is a coefficient obtained by approximating a two-variable polynomial whose pitch and level are variables to a weighting factor in which the weighting factor forms a curved surface in a space consisting of a pitch axis, a level axis and a weighting factor axis that are orthogonal to each other. For each base waveform, the pitch information from the pitch information generator, the level information from the level information generator, and the weight coefficient based on the coefficients for each base waveform from the coefficient memory And a weighting factor calculator for each base waveform for calculating each of the weighting factor calculators. KL A weighting factor for each base waveform is output to each multiplier.
[0018]
Also, a first filter coefficient generator for outputting the filter information corresponding to the pitch information from the pitch information generator and the level information from the level information generator, and the filter coefficient from the first filter coefficient generator And a formant filter for filtering the output from the waveform generator.
[0019]
A second filter coefficient generator for outputting the filter information corresponding to the pitch information from the pitch information generator and the level information from the level information generator; and the filter coefficient from the second filter coefficient generator. And a brightness filter for filtering the output from the Forman filter.
[0021]
DETAILED DESCRIPTION OF THE INVENTION
In the present invention, the time-varying data of the pitch and level of the input analysis sound waveform and the signal level of each base at each pitch and level are separated and held, and the output synthesized sound waveform y (t) shown in Expression (3). Get. In Expression (3), AAn (p (t), a (t)) represents a data table or function for converting pitch and level data used in the present invention into n-th base level data.
[0022]
[Equation 3]
Figure 0003779058
[0023]
For example, in the prior art, the time-varying data string (10,000 N points) of the signal level of each base cannot be recombined unless it is managed and controlled as it is. In contrast, in the present invention, each time-varying data (10,000 points each) of the entire pitch and level is held and converted from the pitch and level to the signal level of each base by the conversion function AAn. To do.
It has been found that the signal level of each base at each pitch and level takes a substantially constant value in the steady-state input analysis sound waveform, and it is effective to hold this in the form of a reference table or function. Data can be saved.
On the other hand, the time-varying data of the pitch and level of the input analysis sound includes a lot of information on the transient state in the performance information, and it is possible to generate an output synthesized sound with high reproducibility by re-synthesis using these two. .
[0024]
As described above, a new effect is produced by separating the data.
In order to clarify the explanation, explanation will be given by taking voice, particularly song data, as an example.
One of the major elements that characterize the individuality of a specific singer is the characteristics (especially spectrum characteristics) of the singing voice itself, and the other is said to be a singing voice control method (usually singing) ). Most of this control method can be described by time-varying data strings for pitch and level control.
Therefore, by separating the data as in the present invention, the characteristics of the singing voice itself are separated into the conversion function AAn, and the characteristics of the control method are separated and stored in the time-varying data string of the remaining pitch and level. This makes it possible to re-synthesize a new singing sound.
[0025]
That is, the input analysis sound of the singer A is analyzed, and a set of A-AAn that is a set of conversion functions AAn for the singer A is created. On the other hand, a song C that is not sung by the singer A is given to the singer B, and its pitch and level are analyzed to create a time-varying data string. However, when the sound source system of the present invention is equipped with a set A-AAn which is a set of conversion functions AAn for the singer A, and the time-varying data string of the song C sung by the singer B is input, the singer A does not speak. Song C can be re-synthesized using the voice of singer A and the song of singer B.
[0026]
In addition, since the features can be separated in this way, the sound source system of the present invention has the same means for converting pitch and level into coefficient data in a system that imitates the spectrum characteristics such as a formant filter that simulates the spectrum characteristics of the vocal cords. In addition, the reproducibility of the system can be further improved.
[0027]
The technique of the present invention is obviously applicable to all addition and synthesis methods from the manufacturing method, and does not depend on the base waveform shape. In other words, in the present invention, although the term “base” is used for the minimum unit of the composite waveform for the sake of convenience, application beyond the meaning of the word “base” is easy.
For example, base (sine wave) data obtained by frequency analysis of a certain musical sound are grouped at equal intervals from the lowest frequency (called overtone group), and a waveform equivalent to the frequency analysis data of these one group is newly added. The present invention can be applied as a simple base waveform.
[0028]
Embodiment 1 FIG.
Hereinafter, specific embodiments will be described with reference to the drawings.
FIG. 1 is a configuration diagram illustrating a sound source system according to the first embodiment.
In FIG. 1, the same parts as those in the conventional example shown in FIG. As a new code, reference numeral 50 denotes a weight coefficient generation unit having a two-dimensional table memory for each base waveform, in which the base waveform weight coefficients corresponding to the pitch and level are stored as variables. , And the weight information AAn (p (t), a (t)) for each base waveform are output to the corresponding multipliers 6Bn based on the pitch information from the level information and the level information from the level information generator 4. Reference numeral 7 denotes a multiplier that multiplies the output synthesized sound output from the adder 6C by a coefficient a (t) when the weighting coefficient AAn (p (t), a (t)) is normalized. Yes, the output is as shown in equation (3), and is unnecessary if the weighting factor is not normalized. In this case, the output synthesized sound y (t) shown in equation (3) from the adder 6C ) Is obtained.
[0029]
FIG. 2 is a conceptual diagram of the sound source system shown in more detail.
As shown in FIG. 2, the base waveform generator 6An uses the phase data θ (t) as an address input, reads out the KL base waveforms from the first to Nth KL base memories, and outputs them to the corresponding multipliers 6Bn. On the other hand, the weighting factor generator 50 has two-dimensional table memories 51, 52,..., 5n corresponding to the base number, and corresponds to the first to Nth weighting factors corresponding to the pitch information and the level information. Each is output to the multiplier 6Bn.
[0030]
Here, the two-dimensional table memory stores a weighting factor in which the weighting factor forms a curved surface in a space composed of a pitch axis, a level axis, and a weighting factor axis that are orthogonal to each other, as shown in FIG. Thus, the weighting coefficient curved surface shown in the figure differs depending on each base, and the optimal spectrum is obtained by outputting the first to Nth weighting coefficients corresponding to the pitch information and level information every moment from each two-dimensional table memory. It becomes possible to synthesize waveforms with
[0031]
If the resolution of the two-dimensional table memory is sufficiently high, it is possible to immediately obtain the weighting coefficient according to the pitch information and the level information. However, if the memory capacity is to be reduced, the memory resolution can be lowered. Weight coefficients corresponding to pitch information and level information can be obtained according to linear approximation by interpolation using a two-dimensional table memory shown below.
[0032]
Assume that the sound generation frequency F [Hz] and its power P are given. Electronic musical instruments often define pitch and level based on human auditory characteristics as follows.
Pitch p = 69 + 12log 2 (F / 440)
Level a = 10log Ten p
Assume that the KL weight coefficient is expressed as w (p, a) with respect to pitch p and level a.
[0033]
How to use a table
Set S in which pitch p and level a are discretized with an appropriate resolution p , S a Prepare.
S p = {P 0 , p 1 , p 2 , ..., p N-1 }, S a = {A 0 , a 1 , a 2 , ..., a M-1 }
The coefficient table T uses the coefficient w (p, a) as S p × S a Assume that you sampled above.
T (i, j) = w (p i , a j ),
[0034]
p 0 ≦ p <p N-1 , A 0 ≦ a <a M-1 W (p, a) can be approximated by the coefficient table T as follows when p and a arbitrarily taken in the range of are given.
w (p, a) ≒ T 0 (I, j) + △ j {T 0 (I, j + 1) -T 0 (I, j)}
Where T 0 (I, j) = T (i, j) + Δi {T 0 (I + 1, j) -T (i, j)}
p i ≦ p <p i + 1 , A j ≦ a <a j + 1 ,
Δi = (pp i ) / (P i + 1 -P i ), Δj = (aa i ) / (A i + 1 -A i )
[0035]
Such interpolation is linear interpolation, but it is needless to say that interpolation is not necessary if the table resolution is sufficiently high. Conversely, when more memory saving is required, second-order or higher-order interpolation can be used.
[0036]
Therefore, according to the first embodiment, the following effects can be achieved.
1) By holding the addition weighting coefficient of the base waveform in a memory as a two-dimensional table with pitch and level as variables, the time-varying of the weighting coefficient to reproduce the input analysis sound as in the conventional additive synthesis method There is no need to retain the number of data strings for the base number.
2) It is possible to manage the characteristics of musical sounds by dividing them into data determined depending on the pitch and level of musical sounds and data based on performance techniques.
3) From the input analysis sound, only the characteristics determined depending on the pitch and level of the musical sound, which do not depend on the time change of the musical sound, are collected.
Therefore, with these,
4) The timbre follows better than the conventional ones with respect to changes in pitch and level, and can generate a synthesized sound with higher reproducibility.
5) Time-variant data related to pitch and level performance techniques can be extracted from the input analysis sound and other data.
6) Further, if linear approximation by the interpolation method is used, the memory capacity of the two-dimensional table memory can be reduced in order to obtain the weighting coefficient according to the pitch information and the level information.
[0037]
Embodiment 2. FIG.
In the first embodiment described above, the weight coefficient generation unit 50 of FIG. 1 includes the two-dimensional table memory for each KL base waveform that stores the weight coefficient according to the pitch and level. In the second embodiment, A case will be described in which a weighting factor is obtained using a coefficient obtained by approximating a two-variable polynomial with pitch and level as variables.
[0038]
By approximating the coefficients with a two-variable polynomial, it is possible to realize with less memory. For example, if a polynomial is designated as a two-variable polynomial of pitch information p (t) and level information a (t), K is designated as the order of pitch information p (t), and L is designated as the order of level information a (t), then equation (4) ) Of the two variable polynomial AAn (p (t), a (t)) shown in FIG. stn The coefficient can be approximated by determining.
[0039]
[Expression 4]
Figure 0003779058
[0040]
In this case, an approximate value of the weighting factor can be obtained directly from p and a by polynomial calculation.
Equation (5) can be expressed as | AAn (p, a) −w (p i , a j ) In the set of i and j that is the maximum value of | stn When the equations (4) and (5) are expanded with respect to K: L = 1, the two-variable polynomial AAn (p, a) is as shown in the equation (6).
AAn (p, a) = C 00n + C 01n p + C 10n a + C 11n pa (6)
[0041]
FIG. 4 shows an equivalent circuit diagram in the case of K = L = 1, and is a diagram corresponding to an example of the internal configuration of the weighting factor generator 60 according to the second embodiment.
The overall configuration of the second embodiment is the same as that of the first embodiment shown in FIG. 1, but the weighting factor generating unit 50 shown in FIG. 1 is shown as a weighting factor generating unit 60 in the second embodiment. An example of the internal configuration is shown in FIG.
[0042]
That is, as shown in FIG. 4, the weight coefficient generation unit 60 according to the second embodiment uses the above-described coefficient C when approximating a two-variable polynomial having the pitch p and the level a as variables. 00n , C 01n , C 10n , C 11n Is stored for each base waveform (corresponding to the subscript n), the pitch information p from the pitch information generator 1, the level information a from the level information generator 4, and the coefficient memory 61 from the coefficient memory 61. A weight coefficient calculator 62 for each base waveform that calculates a weight coefficient based on the coefficient for each base waveform, and outputs the weight coefficient for each base waveform from the weight coefficient calculator 62 to each multiplier 6Bn. Like to do. In the figure, reference numerals 62a to 62d denote multipliers, and 62e denotes an adder. The illustrated configuration is provided for each base waveform.
[0043]
It is not practical to approximate the entire domain of coefficients with a single polynomial because of the large error. It can be devised such as approximating with a piecewise polynomial if necessary.
Further, when the two-variable polynomial AAn (p, a) is expanded in the case of K = L = 2, the equation (7) is obtained.
AAn (p, a) = C 00n + C 10n p + C 20n p 2 + C 01n a + C 11n pa + C 21n p 2 a + C 02n a 2 + C 12n pa 2 + C 22n p 2 a 2 (7)
[0044]
Therefore, according to the second embodiment, the number of data that must be managed in order to reproduce the input analysis sound can be further reduced by generating the weighting coefficient as a two-variable function.
[0045]
Embodiment 3 FIG.
Next, FIG. 5 is a block diagram showing a sound source system according to the third embodiment.
In FIG. 5, the same parts as those of the first embodiment shown in FIG. As a new code, 8 is a filter coefficient generator that outputs the filter coefficients of the formant filter according to the pitch information p (t) from the pitch information generator 1 and the level information a (t) from the level information generator 4, Reference numeral 9 denotes a formant filter for setting the filter coefficient from the filter coefficient generator 8 and filtering the output from the waveform generator 6 to reproduce the peak formant of the musical sound. Here, the filter coefficient generator 8 has the same configuration as that of the weight coefficient generation unit 50 of the first embodiment, and the filter coefficient generation unit 8 and the formant filter 9 are added to the first embodiment.
[0046]
The formant refers to the peak of the spectrum envelope (envelope) of the musical tone, and the formant filter 9 reproduces the peak frequency, peak level, and Q of the formant. In addition, the formant filter is generally described here, but specific examples of the formant filter include various types such as a lattice filter, a direct configuration of a transfer function, a cascaded model of a second-order IIR filter, and a ladder filter. Things are adaptable, but which implementation method to adopt is not an essential issue and can be applied in any case.
[0047]
Therefore, according to the third embodiment, by holding the filter coefficients of the formant filter 9 in the same two-dimensional coefficient table as the weight coefficient generation unit 50, an appropriate formant is given to the change in pitch and level. It is possible to generate synthetic sounds with higher reproducibility.
[0048]
Embodiment 4 FIG.
Next, FIG. 6 is a block diagram showing a sound source system according to the fourth embodiment.
In FIG. 6, the same parts as those of the third embodiment shown in FIG. As a new code, 10 is a filter coefficient generation unit that outputs the filter coefficient of the brightness filter according to the pitch information p (t) from the pitch information generation unit 1 and the level information a (t) from the level information generation unit 4; Reference numeral 11 denotes a filter coefficient set from the filter coefficient generator 10 and filters the output through the formant filter 9 to perform spectrum fluctuation due to lip movement in voice and spectrum fluctuation due to various performance techniques in instrument sounds. It is a brightness filter for reproduction. Here, the filter coefficient generation unit 8 has the same configuration as the weight coefficient generation unit 50 of the first embodiment, and the filter coefficient generation unit 10 has a configuration similar to that of the third embodiment. The brightness filter 11 is added.
[0049]
Various types of brightness filters can be considered as specific examples. Here, a first-order IIR filter model is given.
Therefore, according to the fourth embodiment, the filter coefficient of the brightness filter is held in the same two-dimensional coefficient table as that of the weight coefficient generation unit 50, so that the timbre change due to the performance expression or the like can be changed with respect to the change in pitch and level. Synthetic sound that can be separated and has higher reproducibility can be generated.
[0050]
【The invention's effect】
As described above, according to the present invention, the weighting coefficient generation unit includes the two-dimensional table memory for each base waveform in which the weighting coefficient corresponding to the pitch and the level is stored, and the pitch information from the pitch information generation unit and Since the weighting coefficient for each base waveform is output based on the level information from the level information generating unit, the conventional weighting synthesis is performed by holding the base waveform additional weighting coefficient as a two-dimensional table of pitch and level. Unlike the method, it is not necessary to retain the time-varying data string of the weighting coefficients for the number of bases to reproduce the input analysis sound, and the data and performance that determine the characteristics of the musical sound depending on the pitch and level of the musical sound It is possible to manage the data separately by technique, and from the input analysis sound, only the characteristics that are determined depending on the pitch and level of the musical sound, which do not depend on the time change of the musical sound, are collected. Pitch and level tracking of tone than the conventional to changes in well, more highly reproducible synthetic speech can be generated.
[0051]
In addition, the memory capacity can be reduced by obtaining the weighting coefficient corresponding to the pitch and level by linear approximation by the interpolation method using the two-dimensional table memory.
[0052]
According to another invention, the weight coefficient generation unit includes a coefficient memory storing coefficients for each base waveform when approximating a two-variable polynomial having pitch and level as variables, and a pitch information generation unit. The weight coefficient by calculating the weight coefficient based on the pitch information and the level information from the level information generator and the coefficient for each base waveform from the coefficient memory. By generating it as a two-variable function, the number of data that must be managed in order to reproduce the input analysis sound can be further reduced.
[0053]
In addition, a first filter coefficient generation unit that outputs a filter coefficient corresponding to pitch information from the pitch information generation unit and level information from the level information generation unit, and a filter coefficient from the first filter coefficient generation unit are set. Since a formant filter for filtering the output from the waveform generator is further provided, an appropriate formant is given to the change in pitch and level, and a synthesized sound with higher reproducibility can be generated.
[0054]
In addition, a second filter coefficient generating unit that outputs filter coefficients corresponding to pitch information from the pitch information generating unit and level information from the level information generating unit, and a filter coefficient from the second filter coefficient generating unit are set. And a brightness filter that filters the output from the above-mentioned Forman filter, so that timbre changes due to performance expressions can be separated from changes in pitch and level, resulting in a more reproducible synthesized sound. Can occur.
[0055]
Furthermore, by outputting the KL base waveform from the base waveform generator, using the KL base waveform as the sound source base makes it easy to calculate the weighting coefficient of each base, reducing the amount of calculation. Can be planned.
[Brief description of the drawings]
FIG. 1 is a configuration diagram showing a sound source system according to Embodiment 1 of the present invention.
2 is a conceptual diagram for explaining an internal configuration of a weight coefficient generation unit 50 in FIG. 1;
3 is a conceptual diagram for explaining the contents stored in a two-dimensional table memory included in the weighting coefficient generation unit 50 of FIG.
FIG. 4 is a block diagram illustrating an example of a weighting factor generator 60 for explaining a sound source system according to a second embodiment of the present invention.
FIG. 5 is a block diagram showing a sound source system according to Embodiment 3 of the present invention.
FIG. 6 is a block diagram showing a sound source system according to Embodiment 4 of the present invention.
FIG. 7 is a configuration diagram showing a sound source system according to a conventional example.
8 is a configuration diagram showing a pitch phase converter and a phase generator in FIG. 7;
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 Pitch information generation part, 2 Pitch / phase conversion part, 3 Phase generation part, 4 Level information generation part, 6 Waveform generation apparatus, 6A Base waveform generation apparatus, 6A1, 6A2, ..., 6An KL base memory, 6B1, 6B2,..., 6Bn multiplier, 6C adder, 7 adder, 8 filter coefficient generator, 9 fault cloak filter, 10 filter coefficient generator, 11 brightness filter, 50 weight coefficient generator, 51, 52,. .. 5n two-dimensional table memory, 60 weight coefficient generator, 61 coefficient memory, 62 weight coefficient calculator.

Claims (5)

入力解析音波形のピッチ情報を出力するピッチ情報発生部と、このピッチ情報発生部からのピッチ情報を位相増分値データに変換するピッチ/位相変換部と、このピッチ/位相変換部からの位相増分値データに基づいて位相データを得る位相発生器と、上記入力解析音波形のレベル情報を出力するレベル情報発生部と、このレベル情報発生部からのレベル情報に基づいて基底波形毎の重み係数を発生する重み係数発生部と、上記位相発生器からの位相データ及び上記重み係数発生部からの基底波形毎の重み係数に基づいて重み係数を乗算した各基底波形の出力合成音を得る波形発生装置とを備え、上記波形発生装置は、KL基底波形を格納してなる基底数に応じた基底メモリを有し、上記位相データをアドレス入力として各基底メモリからKL基底波形を読み出して出力する基底波形発生装置と、各KL基底波形に上記重み係数発生部からの基底波形毎の重み係数を乗算する基底数に応じた乗算器と、これら乗算器の出力の合成音を得る加算器とを有する音源システムにおいて、
上記重み係数発生部は、互いに直交するピッチ軸とレベル軸及び重み係数軸でなる空間に重み係数が曲面をなすようにした、ピッチ及びレベルに応じた重み係数を格納してなる基底波形毎の2次元テーブルメモリを有し、上記ピッチ情報発生部からのピッチ情報及び上記レベル情報発生部からのレベル情報に基づいて各KL基底波形毎の重み係数を上記各乗算器に出力することを特徴とする音源システム。
A pitch information generator for outputting pitch information of the input analysis sound waveform, a pitch / phase converter for converting the pitch information from the pitch information generator into phase increment value data, and a phase increment from the pitch / phase converter A phase generator that obtains phase data based on the value data, a level information generator that outputs level information of the input analysis sound waveform, and a weighting factor for each base waveform based on the level information from the level information generator Waveform coefficient generator for generating, and a waveform generator for obtaining an output synthesized sound of each base waveform obtained by multiplying a weight coefficient based on the phase data from the phase generator and the weight coefficient for each base waveform from the weight coefficient generator with the door, the waveform generator has a base memory in accordance with the number of bases consisting stores KL base waveform, K from the base memory the phase data as an address input A base waveform generator that reads and outputs L base waveforms, a multiplier that multiplies each KL base waveform by a weight coefficient for each base waveform from the weight coefficient generator, and outputs of the multipliers In a sound source system having an adder for obtaining a synthesized sound,
The weighting factor generation unit stores each weighting factor corresponding to a pitch and a level in which a weighting factor forms a curved surface in a space composed of a pitch axis, a level axis, and a weighting factor axis that are orthogonal to each other. It has a two-dimensional table memory, and outputs a weighting factor for each KL base waveform to each multiplier based on the pitch information from the pitch information generator and the level information from the level information generator. Sound source system.
請求項1に記載の音源システムにおいて、上記基底波形発生装置は、上記2次元テーブルメモリを用いて補間法による直線近似によりピッチ及びレベルに応じた重み係数を求めることを特徴とする音源システム。  The sound source system according to claim 1, wherein the base waveform generation device obtains a weighting coefficient corresponding to a pitch and a level by linear approximation by an interpolation method using the two-dimensional table memory. 入力解析音波形のピッチ情報を出力するピッチ情報発生部と、このピッチ情報発生部からのピッチ情報を位相増分値データに変換するピッチ/位相変換部と、このピッチ/位相変換部からの位相増分値データに基づいて位相データを得る位相発生器と、上記入力解析音波形のレベル情報を出力するレベル情報発生部と、このレベル情報発生部からのレベル情報に基づいて基底波形毎の重み係数を発生する重み係数発生部と、上記位相発生器からの位相データ及び上記重み係数発生部からの基底波形毎の重み係数に基づいて重み係数を乗算した各基底波形の出力合成音を得る波形発生装置と備え、上記波形発生装置は、KL基底波形を格納してなる基底数に応じた基底メモリを有し、上記位相データをアドレス入力として各基底メモリからKL基底波形を読み出して出力する基底波形発生装置と、各KL基底波形に上記重み係数発生部からの基底波形毎の重み係数を乗算する基底数に応じた乗算器と、これら乗算器の出力の合成音を得る加算器とを有する音源システムにおいて、
上記重み係数発生部は、ピッチ及びレベルを変数とする2変数多項式を、互いに直交するピッチ軸とレベル軸及び重み係数軸でなる空間に重み係数が曲面をなすようにした、重み係数に近似したときの係数を各基底波形毎に格納してなる係数メモリと、上記ピッチ情報発生部からのピッチ情報と上記レベル情報発生部からのレベル情報及び上記係数メモリからの各KL基底波形毎の係数に基づいて重み係数を演算する基底波形毎の重み係数演算器とを備え、これら重み係数演算器からの各KL基底波形毎の重み係数を上記各乗算器に出力することを特徴とする音源システム。
A pitch information generator for outputting pitch information of the input analysis sound waveform, a pitch / phase converter for converting the pitch information from the pitch information generator into phase increment value data, and a phase increment from the pitch / phase converter A phase generator that obtains phase data based on the value data, a level information generator that outputs level information of the input analysis sound waveform, and a weighting factor for each base waveform based on the level information from the level information generator Waveform coefficient generator for generating, and a waveform generator for obtaining an output synthesized sound of each base waveform obtained by multiplying a weight coefficient based on the phase data from the phase generator and the weight coefficient for each base waveform from the weight coefficient generator and provided, the waveform generator has a base memory in accordance with the number of bases consisting stores KL base waveform, KL from the base memory the phase data as an address input A base waveform generator for reading out and outputting base waveforms, a multiplier for multiplying each KL base waveform by a weight coefficient for each base waveform from the weight coefficient generator, and a combination of outputs of these multipliers In a sound source system having an adder for obtaining sound,
The weighting factor generator approximates a two-variable polynomial with pitch and level as variables, such that the weighting factor forms a curved surface in a space consisting of a pitch axis, a level axis, and a weighting factor axis that are orthogonal to each other. A coefficient memory for storing each coefficient for each base waveform, pitch information from the pitch information generator, level information from the level information generator, and a coefficient for each KL base waveform from the coefficient memory. A sound source system comprising: a weighting factor calculator for each base waveform for calculating a weighting factor based on the weighting factor, and outputting the weighting factor for each KL base waveform from the weighting factor calculator to each of the multipliers.
請求項1ないし3のいずれかに記載の音源システムにおいて、上記ピッチ情報発生部からのピッチ情報及び上記レベル情報発生部からのレベル情報に応じたフィルタ係数を出力する第1のフィルタ係数発生部と、この第1のフィルタ係数発生部からのフィルタ係数が設定されて上記波形発生装置からの出力をフィルタ処理するフォルマントフィルタとをさらに備えたことを特徴とする音源システム。  4. The sound source system according to claim 1, wherein a first filter coefficient generator that outputs filter information corresponding to pitch information from the pitch information generator and level information from the level information generator; A sound source system, further comprising: a formant filter that sets a filter coefficient from the first filter coefficient generator and filters the output from the waveform generator. 請求項4に記載の音源システムにおいて、上記ピッチ情報発生部からのピッチ情報及び上記レベル情報発生部からのレベル情報に応じたフィルタ係数を出力する第2のフィルタ係数発生部と、この第2のフィルタ係数発生部からのフィルタ係数が設定されて上記フォルマンフィルタからの出力をフィルタ処理するブライトネスフィルタとをさらに備えたことを特徴とする音源システム。  5. The sound source system according to claim 4, wherein a second filter coefficient generator for outputting filter information corresponding to the pitch information from the pitch information generator and the level information from the level information generator, and the second filter coefficient generator A sound source system, further comprising: a brightness filter that sets a filter coefficient from a filter coefficient generator and filters the output from the Forman filter.
JP03146598A 1998-02-13 1998-02-13 Sound source system Expired - Fee Related JP3779058B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03146598A JP3779058B2 (en) 1998-02-13 1998-02-13 Sound source system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03146598A JP3779058B2 (en) 1998-02-13 1998-02-13 Sound source system

Publications (2)

Publication Number Publication Date
JPH11231875A JPH11231875A (en) 1999-08-27
JP3779058B2 true JP3779058B2 (en) 2006-05-24

Family

ID=12332021

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03146598A Expired - Fee Related JP3779058B2 (en) 1998-02-13 1998-02-13 Sound source system

Country Status (1)

Country Link
JP (1) JP3779058B2 (en)

Also Published As

Publication number Publication date
JPH11231875A (en) 1999-08-27

Similar Documents

Publication Publication Date Title
US5744742A (en) Parametric signal modeling musical synthesizer
JP2906970B2 (en) Sound analysis and synthesis method and apparatus
US6298322B1 (en) Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal
US5029509A (en) Musical synthesizer combining deterministic and stochastic waveforms
EP1688912B1 (en) Voice synthesizer of multi sounds
Jehan et al. An audio-driven perceptually meaningful timbre synthesizer
Schwarz et al. Spectral envelope estimation, representation, and morphing for sound analysis, transformation, and synthesis.
Serra Introducing the phase vocoder
Serra et al. Analysis and synthesis of tones by spectral interpolation
Bonada et al. Sample-based singing voice synthesizer by spectral concatenation
JP3711880B2 (en) Speech analysis and synthesis apparatus, method and program
Lansky et al. Synthesis of timbral families by warped linear prediction
US20060217984A1 (en) Critical band additive synthesis of tonal audio signals
JP2003345400A (en) Method, device, and program for pitch conversion
JP3779058B2 (en) Sound source system
JP4349316B2 (en) Speech analysis and synthesis apparatus, method and program
US5911170A (en) Synthesis of acoustic waveforms based on parametric modeling
GB2294799A (en) Sound generating apparatus having small capacity wave form memories
Beauchamp et al. Spectral modelling and timbre hybridisation programs for computer music
JP6589404B2 (en) Acoustic signal encoding device
JP2003216147A (en) Encoding method of acoustic signal
Derenyi et al. Synthesizing trumpet performances
JPH10254500A (en) Interpolated tone synthesizing method
Bertini et al. Spectral data management tools for additive synthesis
Goeddel et al. High quality synthesis of musical voices in discrete time

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060221

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060301

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090310

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100310

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110310

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120310

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees