JP5211437B2 - 音声処理装置およびプログラム - Google Patents

音声処理装置およびプログラム Download PDF

Info

Publication number
JP5211437B2
JP5211437B2 JP2006139911A JP2006139911A JP5211437B2 JP 5211437 B2 JP5211437 B2 JP 5211437B2 JP 2006139911 A JP2006139911 A JP 2006139911A JP 2006139911 A JP2006139911 A JP 2006139911A JP 5211437 B2 JP5211437 B2 JP 5211437B2
Authority
JP
Japan
Prior art keywords
frequency
spectrum
coefficient
intensity
coefficient sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006139911A
Other languages
English (en)
Other versions
JP2007310192A (ja
Inventor
隼人 大下
秀紀 劔持
ボナダ ジョルディ
ロスコス アレックス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2006139911A priority Critical patent/JP5211437B2/ja
Publication of JP2007310192A publication Critical patent/JP2007310192A/ja
Application granted granted Critical
Publication of JP5211437B2 publication Critical patent/JP5211437B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音声の特性を変化させる技術に関する。
音声に種々の特性を付与する技術が従来から提案されている。例えば特許文献1には、気息性(ブレスネス)が付与された音声を生成する技術が開示されている。同文献の構成においては、SMS(Spectral Modeling Synthesis)技術によって音声を調和成分と非調和成分とに区分し、非調和成分の強度を増加したうえで調和成分と合成することで、気息性が付与された音声を生成する。
特開2005−18097号公報
しかしながら、調和成分と非調和成分とを適切に合成して自然な音声を生成することは困難であり、非調和成分と調和成分とが聴覚上で別個の音声と知覚される不自然な音声となる場合が実際には多い。また、調和成分と非調和成分とが厳密に区分されず非調和成分に調和成分が混在する場合がある。気息性の付与のために非調和成分を増加するとこれに混在する調和成分も増加するから(すなわち非調和成分の増減が気息性の大小に対応しない)、気息性を所期の特性に調整することは困難である。以上の事情に鑑みて、本発明は、所期の気息性が付与された自然な音声を生成するという課題の解決を目的としている。
以上の課題を解決するために、本発明に係る音声処理装置は、音声の周波数スペクトルを特定する周波数分析手段と、周波数分析手段が特定した周波数スペクトルのうち基本周波数または倍音周波数に対応した複数の局所的ピークのスペクトル強度(振幅)と局所的ピーク以外の帯域のスペクトル強度との差異が減少するように各局所的ピークのスペクトル強度を低下させる調整処理を実行するスペクトル処理手段と、前記スペクトル処理手段による調整処理後の音量を増加させる音量調整手段と、周波数分析手段が特定した周波数スペクトルの局所的ピークごとにスペクトル強度の低下量が相違するように各周波数におけるスペクトル強度の低下量を指定する第1係数列を生成する第1設定手段とを具備し、スペクトル処理手段は、第1設定手段が生成した第1係数列に応じた調整処理を実行し、第1設定手段は、音声の包絡線のスペクトル強度が高い周波数ほどスペクトル強度の低下量が大きくなるように第1係数列を生成する
以上の構成においては、音声の周波数スペクトルのうち局所的ピークにおけるスペクトル強度を抑制することで音声に気息性が付加されるから、音声を調和成分と非調和成分とに区別する必要はない。したがって、気息音と元来の音声とが適切に混合した自然な音声を生成することが可能である。また、スペクトル処理手段による調整処理で周波数スペクトルの全体的なスペクトル強度(音量)は低下するが、以上のように音量調整手段を具備する構成によれば、調整処理後の音量を充分に確保することが可能である。また、気息音の比率が周波数に応じて相違するという人間の発声の特性を忠実に再現した自然な音声を生成できるという利点もある。特に、音声が共振する声道(口腔)内の周端数特性を忠実に反映した気息音を付加することが可能である。
本発明の好適な態様において、周波数分析手段が特定した周波数スペクトルのうち各局所的ピークに近い周波数ほどスペクトル強度の低下量が大きくなるように各周波数におけるスペクトル強度の低下量を指定する基準係数列(例えば図1の基準係数列G0)を生成する基準設定手段を具備し、スペクトル処理手段は、基準設定手段が生成した基準係数列に応じた調整処理を実行する。この態様によれば、基準係数列の各係数を選定することで気息性の程度を適宜に調整することができる。
さらに好適な態様において、基準設定手段は、所定の周波数帯域内の各周波数におけるスペクトル強度の低下量を指定する単位係数列(例えば図5の単位係数列U)を、周波数分析手段が特定した周波数スペクトルを局所的ピークごとに区分した複数のスペクトル分布領域の各々の基準係数列として共通に適用する。この態様によれば、周波数帯域の全体にわたって基準係数列が個別に設定される構成(例えば周波数帯域の全体にわたる基準係数列が記憶装置に予め格納された構成)と比較して、基準係数列の設定に要する記憶容量や回路規模が低減されるという利点がある。
他の態様において、第1設定手段は、複数の周波数帯域の各々においてスペクトル強度の低下量が相違するように第1係数列を生成する。例えば、第1周波数帯域とこれよりも高周波数側の第2周波数帯域とを含む複数の周波数帯域に周波数領域を区分した場合を想定すると、第1設定手段は、第1周波数帯域内のスペクトル強度の低下量が第2周波数帯域内のスペクトル強度の低下量よりも大きくなるように第1係数列を生成する。さらに好適には、第1周波数帯域および第2周波数帯域の各々においても、低周波数側ほどスペクトル強度の低下量が大きくなるように第1係数列が生成される。
本発明の好適な態様において、周波数分析手段が特定した周波数スペクトルのスペクトル強度の低下量を指定する第2係数(例えば図1の係数k2)を生成するとともに当該第2係数を時間の経過とともに変化させる第2設定手段(例えば図1の係数設定部342)を具備し、スペクトル処理手段は、第2設定手段が生成した第2係数に応じた調整処理を実行する。この態様によれば、周波数スペクトルのスペクトル強度の低下量が変化するから、気息性の程度が経時的に変化する多様な音声を生成することができる。例えば、発音の開始から時間が経過するほどスペクトル強度の低下量が増加するように第2係数を変化させた場合には、気息性が次第に増加する音声が生成される。
さらに好適な態様に係る音声処理装置は、調整処理によるスペクトル強度の低下量について所定の周波数帯域にわたる平均値を算定する平均算定手段を具備し、音量調整手段は、平均算定手段が算定した平均値に応じて音量を増加させる。この態様によれば、調整処理後の音量を元来の音声と同等の音量に調整することが可能となる。なお、音量調整手段が平均値に応じて音量を増加させる方法は任意であるが、例えば平均算定手段が算定した平均値を調整処理後の周波数スペクトルのスペクトル強度に加算する構成を採用することができる。
本発明に係る音声処理装置は、音声処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、音声の周波数スペクトルを特定する周波数分析処理と、周波数分析処理で特定した周波数スペクトルのうち基本周波数または倍音周波数に対応した複数の局所的ピークのスペクトル強度と局所的ピーク以外の帯域のスペクトル強度との差異が減少するように各局所的ピークのスペクトル強度を低下させる調整処理と、調整処理後の音量を増加させる音量調整処理と、周波数分析処理で特定した周波数スペクトルの局所的ピークごとにスペクトル強度の低下量が相違するように各周波数におけるスペクトル強度の低下量を指定する第1係数列を生成する第1設定処理とをコンピュータに実行させるプログラムであって、調整処理は、第1設定処理で生成した第1係数列に応じた処理であり、第1設定処理では、音声の包絡線のスペクトル強度が高い周波数ほどスペクトル強度の低下量が大きくなるように第1係数列を生成する。このプログラムによっても、本発明に係る音声処理装置と同様の作用および効果が奏される。なお、本発明のプログラムは、CD−ROMなど可搬型の記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、ネットワークを介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
<A:第1実施形態>
図1を参照して、本発明の第1実施形態に係る音声処理装置の構成および動作を説明する。同図に示される音声処理装置Dの各部は、例えばCPUなどの演算処理装置がプログラムを実行することで実現されてもよいし、音声処理に専用されるDSPなどのハードウェアによって実現されてもよい。
図1に示すように、音声処理装置Dには音声信号Sinが供給される。音声信号Sinは、音声処理装置Dによる処理の対象となる音声の時間軸上における波形を示す電気信号である。本実施形態の音声信号Sinは音声合成技術で生成された音声(例えば歌唱音)に対応したデジタル信号である。例えば、特定の音声の周波数スペクトルを所定の周波数帯域ごとに区分して保持し、各周波数帯域の周波数スペクトルを所望のピッチに応じて周波数軸上で移動させたうえで時間領域の信号に変換することで音声信号Sinが生成される。以上の音声合成技術は例えば特開2003-255998号公報に詳述されている。
図1のフレーム分割部10は、音声信号Sinを所定の時間長(例えば5ms〜10ms)の複数のフレームに分割する。これらのフレームは時間軸上で相互に重なり合うように設定される。各フレームは簡易的には固定の時間長とされるが、例えば音声信号Sinのピッチに応じて各フレームの時間長を変化させる構成も採用される。
図1に示すように、音声処理装置Dは複数の処理ユニット20を具備する。音声信号Sinはフレームごとに別個の処理ユニット20に供給されて各処理ユニット20で並列に処理される。ひとつの処理ユニット20は、周波数分析部22とスペクトル処理部24と音量調整部26とを含む。周波数分析部22は、フレーム分割部10から供給されるひとつのフレームの音声信号Sinに対してFFT(Fast Fourier Transform)処理を含む周波数分析を実行して音声の周波数スペクトル(振幅スペクトル)SP0を特定する。図2の部分(a)に示すように、周波数スペクトルSP0には、基音に対応した周波数(以下「基本周波数」という)F0と各倍音に対応した周波数(以下「倍音周波数」という)F1,F2,……の各々とにおいてスペクトル強度の局所的なピーク(以下では単に「局所的ピーク」という)Pが現れる。
図1のスペクトル処理部24は、周波数スペクトルSP0が示す音声の気息性を増加させるための処理(以下「調整処理」という)を実行する手段である。図2の部分(b)には、スペクトル処理部24による調整処理後の周波数スペクトルSP1が図示されている。同図に示すように、調整処理は、周波数スペクトルSP0の各局所的ピークPのスペクトル強度と局所的ピークP以外の周波数帯域のスペクトル強度との差異が減少するように各局所的ピークPのスペクトル強度を低下させる処理である。各局所的ピークPのスペクトル強度を低下させると、音声のうち局所的ピークP以外の成分の割合が相対的に増加する。気息音の成分は基本的に局所的ピークP以外の周波数帯域に含まれるから、調整処理後の音声(周波数スペクトルSP1)は、基音や各倍音と比較して気息音の成分を相対的に豊富に含む音声(気息性の音声)となる。
周波数スペクトルSP0の各周波数におけるスペクトル強度の低下量は係数列Gによって指定される。図1の設定部30は係数列Gを生成する手段である。係数列Gは、各々が別個の周波数に対応した多数の係数kを含む。周波数fに対応した係数k(以下では特にk[f]と表記する場合がある)は、周波数スペクトルSP0のうち周波数fにおけるスペクトル強度の低下量を指定する0以上かつ1以下の数値である。本実施形態のスペクトル処理部24は、周波数スペクトルSP0と係数列Gの各係数kとの乗算によって周波数スペクトルSP1を生成する。すなわち、図3に示すように、周波数スペクトルSP1は、周波数スペクトルSP0の周波数fにおけるスペクトル強度I0と係数列Gのうち周波数fに対応した係数k[f]との乗算値が周波数fでのスペクトル強度I1(=I0×k[f])とされたスペクトルである。なお、設定部30の構成や係数列Gの設定の方法については後述する。
図1の音量調整部26は、スペクトル処理部24による調整処理後の音声の音量を増加させる手段である。図2の部分(c)には、音量調整部26による処理後の周波数スペクトルSP2が図示されている。同図に示すように、音量調整部26は、スペクトル処理部24が生成した周波数スペクトルSP1のスペクトル強度(音量)を周波数帯域の全体にわたって変化量Aだけ増加させることで周波数スペクトルSP2を生成する。
図1の平均算定部40は、設定部30が生成した係数列Gに基づいて変化量Aを設定する手段である。本実施形態の平均算定部40は、係数列Gに含まれる複数の係数kの平均値(すなわち周波数スペクトルSP0のスペクトル強度の低下量の平均値)を変化量Aとして算定する。したがって、周波数スペクトルSP0のスペクトル強度が調整処理で抑制されるほど変化量Aは増加する。各局所的ピークPを抑制する調整処理で周波数スペクトルSP1の音量は減少するが、音量調整部26による変化量Aの加算によって周波数スペクトルSP2の音声は元来の音声(音声信号Sin)と同等の音量に調整される。
図1のフレーム合成部50は、複数の処理ユニット20の各々がフレームごとに生成した周波数スペクトルSP2を合成して時間領域の音声信号Soutを生成する手段である。さらに詳述すると、フレーム合成部50は、各処理ユニット20の音量調整部26が出力した各フレームの周波数スペクトルSP2を逆FFT処理によって時間領域の信号に変換したうえで各々に時間窓関数を乗算し、相前後するフレームの信号を補間処理によって滑らかに接続することで音声信号Soutを生成する。フレーム合成部50から出力された音声信号Soutは放音機器(例えばスピーカやヘッドホン)に供給されて音波として出力される。
次に、設定部30の具体的な構成および動作を説明する。
図1に示すように、設定部30は、基準設定部32と係数設定部341および342と乗算器361および362とを含む。基準設定部32は基準係数列G0を生成する。基準係数列G0は、各々が別個の周波数fに対応した多数の係数k0の集合である。係数k0は、周波数スペクトルSP0のうち当該係数k0に対応した周波数fにおけるスペクトル強度の低下量を指定する数値である。
図4は、基準係数列G0と周波数スペクトルSP0との関係を示す模式図である。基準係数列G0に属する各係数k0(図4では一部のみが図示されている)は、最小値0.1から最大値1.0までの範囲内で、局所的ピークPの中心周波数F(基本周波数F0および倍音周波数F1,F2,……)に近い周波数ほど小さい数値となる。係数k0が小さいほど周波数スペクトルSP0のスペクトル強度の低下量は増加する(より抑制される)。すなわち、基準係数列G0の各係数k0は、周波数スペクトルSP0のうち局所的ピークPの中心周波数Fに近い周波数ほどスペクトル強度の低下量が大きくなるように選定される。したがって、基準係数列G0が係数列Gとして各スペクトル処理部24に出力されて調整処理に適用されると仮定すれば、図4に示すように各局所的ピークPのスペクトル強度が他の帯域のスペクトル強度と比較して抑制された周波数スペクトルSP1が生成される。
本実施形態においては、図4に示すように、周波数スペクトルSP0を区分した複数の帯域(以下「スペクトル分布領域」という)Rについて同じ係数列(以下「単位係数列」という)Uが基準係数列G0として共通に適用される。スペクトル分布領域Rは、周波数スペクトルSP0のうちひとつの局所的ピークPとその前後の帯域とを含む領域である。例えば、周波数軸上で相隣接する2個の局所的ピークPの中点を境界として各スペクトル分布領域Rが画定される。
図5は、単位係数列Uと周波数との関係を示す模式図である。同図に示すように、単位係数列Uに属する各係数は、特定の周波数Fcにて最小値0.1となり、周波数Fcから離間した帯域で最大値1.0となるように周波数軸に沿って段階的または連続的に変化する。設定部30は、図5の単位係数列Uを記憶するメモリ(図示略)を具備する。基準設定部32は、周波数スペクトルSP0を構成する複数のスペクトル分布領域Rの各々に共通の単位係数列Uを繰返し対応させ、図4に示したように、単位係数列Uの周波数Fcと各スペクトル分布領域Rに属する局所的ピークPの中心周波数F(F1,F2,……)とが合致したときの単位係数列Uの各係数を基準係数列G0として出力する。このように共通の単位係数列Uが複数のスペクトル分布領域Rの係数k0として流用される構成によれば、周波数帯域の全体にわたって係数k0が個別に適用される構成と比較して、基準係数列G0の設定に必要な回路規模(特に記憶容量)や処理能力が低減されるという利点がある。
以上の手順で設定された基準係数列G0の各係数k0は、図4に示すように各局所的ピークPの中心周波数Fで同値となる。しかしながら、実際に人間が発声した気息性の音声において各局所的ピークPのスペクトル強度が抑制される程度は周波数に応じて相違する。そこで、図1の係数設定部341は、周波数スペクトルSP0の局所的ピークPごとにスペクトル強度の低下量が相違するように各周波数におけるスペクトル強度の低下量を指定する係数列G1を生成する。係数列G1は、基準係数列G0と同様に、各々が別個の周波数fに対応した複数の係数k1を含む。図6は、係数列G1に属する各係数k1と周波数との関係を示す模式図である。同図に示すように、基本周波数F0を含む周波数帯域B1と倍音周波数F2・F3を含む周波数帯域B2と倍音周波数F4〜F6を含む周波数帯域B3とで係数k1は個別に設定されて相互に異なる数値となる。
ところで、音声のスペクトル強度は低周波数側の局所的ピークPほど高いから、充分に気息性に富んだ音声を生成するためには、低周波数側の局所的ピークPのスペクトル強度ほど充分に抑制する必要がある。そこで、本実施形態においては、低周波数側の局所的ピークPほどスペクトル強度の低下量が大きくなるように係数列G1の各係数k1が生成される。すなわち、図6に示すように、係数列G1のうち周波数帯域B2に対応する各係数k1は高周波数側の周波数帯域B3に対応する各係数k1よりも小さい数値に設定され、周波数帯域B1に対応する各係数k1は周波数帯域B2に対応する各係数k1よりも小さい数値に設定される。さらに、周波数帯域B1〜B3の各々においても、低周波数側ほど小さい数値となるように各係数k1が設定される。
次に、図1の係数設定部342は、周波数スペクトルSP0のスペクトル強度の低下量を指定する係数k2を時間の経過とともに変化させる手段である。係数設定部342にはMIDI(Musical Instrument Digital Interface)規格に準拠した形式のデータ(以下「MIDIデータ」という)が外部から供給される。図7に示すように、MIDIデータは、係数k2を指定するイベントデータと各イベントデータの時間的な間隔ΔTを指定するタイミングデータとがシーケンシャルに配列されたデータ列である。係数k2は、0以上かつ1以下の範囲内で変動する。係数設定部342は、イベントデータが示す係数k2を、その直後のタイミングデータによって指定されるタイミングで乗算器362に出力する。
図1の乗算器361は、基準設定部32が出力する各係数k0(基準係数列G0)と係数設定部341が出力する各係数k1(係数列G1)とを周波数fごとに乗算して出力する。乗算器362は、乗算器361による各乗算値と係数設定部342が出力する係数k2とを乗算して係数列Gの各係数kを算定する。したがって、係数列Gのうち周波数fに対応した係数k[f](周波数スペクトルSP0のうち周波数fにおけるスペクトル強度の低下量を指定する数値)は以下の式(1)で表現される。
k[f]=k0[f]×k1[f]×k2 ……(1)
なお、「k0[f]」は、基準係数列G0のうち周波数fに対応した係数k0であり、「k1[f]」は、係数列G1のうち周波数fに対応した係数k1である。係数k2は周波数帯域の全体にわたって共通の数値となる。
以上に説明したように、本実施形態によれば、音声信号Sinの音声に含まれる局所的ピークPの抑制によって音声に気息性が付加されるから、音声信号Sinを調和成分と非調和成分とに区別する必要はない。したがって、特許文献1の構成と比較して、所期の特性の気息性が付与された自然な音声を生成することが可能である。
また、局所的ピークPにおけるスペクトル強度の低下量が係数列G1に応じて周波数ごとに個別に設定されるから、人間の肉声の特性に近い自然な気息性が付与された音声を生成することができる。さらに、気息性の程度が係数k2に応じて経時的に変動するから、人間の肉声に近い自然な気息性を付与できることはもちろん、MIDIデータを適宜に生成することで多様な表現を実現することも可能である。例えば、経時的に係数k2が増加するようにMIDIデータを作成すれば、発声の開始から時間が経過するほど気息性が増加する自然な音声が生成される。
<B:第2実施形態>
次に、本発明の第2実施形態について説明する。本実施形態の音声処理装置Dは係数列G1の選定の方法を除いて第1実施形態と共通するから、以下では係数列G1の選定を中心に説明して他の各部の構成や動作の説明は適宜に省略する。
人間の音声は声帯の振動と声道(口腔)での共振とによって発生し、音声の気息性の程度は声道における共振の特性に影響される。このような現象を再現するために、本実施形態の係数設定部341は、音声の共振の特性(すなわち特定の発声者の声道の特性)に応じて係数列G1の各係数k1を設定する。
図8の部分(a)は、予め選定されたひとつの処理ユニット20の周波数分析部22が生成した周波数スペクトルSP0の包絡線ENVである。包絡線ENVは、音声の共振成分の周波数特性を示すスペクトルに相当する。同図に示すように、音声の周波数スペクトルSP0には声道での共振の特性に応じた複数のフォルマントMが現れる。包絡線ENVのスペクトル強度は低周波数側のフォルマントMほど高い。
図8の部分(b)は、係数設定部341が生成する係数列G1の各係数k1と周波数との関係を示すグラフである。同図に示すように、係数設定部341は、ひとつの処理ユニット20の周波数分析部22が生成した周波数スペクトルSP0においてフォルマントM(包絡線ENV)のスペクトル強度が高い周波数ほど係数k1が小さくなるように係数列G1を生成する。すなわち、係数列G1の各係数k1は、包絡線ENVのスペクトル強度がゼロとなる周波数にて最大値1.0となり、各フォルマントMの中心周波数(フォルマント周波数)にて極小値となる。また、包絡線ENVのスペクトル強度は低周波数側ほど高いから、低周波数側のフォルマントMに対応した係数k1ほど小さい数値となる。
係数設定部341が生成した各係数k1は第1実施形態と同様に乗算器361にて基準係数列G0の各係数k0と乗算される。したがって、スペクトル処理部24が生成する周波数スペクトルSP1は、図8の部分(a)におけるフォルマントMのスペクトル強度が高い周波数ほど周波数スペクトルSP0のスペクトル強度を抑制した形状となる。したがって、本実施形態によれば、声道における共振の特性が気息性に影響するという現象を忠実に反映して自然な音声を生成することが可能である。
<C:変形例>
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の各態様を適宜に組み合わせてもよい。
(1)変形例1
以上の各形態においては、周波数スペクトルSP0のうち局所的ピークPの中心周波数Fにおけるスペクトル強度がその両側の帯域よりも低下するように(すなわち局所的ピークPの頂上部が窪んだ形状となるように)係数列Gが選定される場合を例示したが、調整処理後の局所的ピークPの形状は適宜に変更される。例えば図9の部分(a)に示すように、局所的ピークPの頂上部が平坦な形状となるように係数列Gが選定された構成や、図9の部分(b)に示すように、局所的ピークPの頂上部のスペクトル強度がその両側の帯域よりも高くなるように係数列Gが選定された構成も採用される。
また、以上の各形態においては周波数スペクトルSP0と各係数kとの乗算によって周波数スペクトルSP1を生成する構成を例示したが、周波数スペクトルSP1を生成するための演算の内容はこれに限定されない。例えば、周波数スペクトルSP0のスペクトル強度から係数列Gの各係数kを減算することで周波数スペクトルSP1を生成してもよい。以上のように、周波数スペクトルSP0の局所的ピークPのスペクトル強度と局所的ピークP以外の帯域のスペクトル強度との差異が減少するように各局所的ピークPのスペクトル強度が低下すればよく、調整処理で実行される演算の具体的な内容は適宜に変更される。
(2)変形例2
以上の各形態においては、係数k0〜k2の乗算値が係数kとして各スペクトル処理部24に供給される構成を例示したが、例えば図10に示すように、係数k0〜k2の各々がスペクトル処理部24に対して直接的に供給される構成も採用される。図10のスペクトル処理部24は、周波数スペクトルSP0と係数k0〜k2の各々とを順次に乗算して周波数スペクトルSP1を生成する。以上の構成によっても各形態と同様の効果が奏される。
(3)変形例3
第2実施形態においては、ひとつの周波数分析部22が生成した周波数スペクトルSP0に応じた係数列G1(係数k1)を各スペクトル処理部24における調整処理に適用する構成を例示したが、図11に示すように、各周波数分析部22の周波数スペクトルSP0に基づいて処理ユニット20ごとに個別の係数列G1を生成する構成も採用される。
図11の構成においては、係数設定部341と乗算器362とが設定部30から省略される。乗算器361は、基準係数列G0の各係数k0と係数k2との乗算値を含む係数列G'を出力する。各処理ユニット20にはフォルマント特定部28と係数設定部341と乗算器362とが配置される。フォルマント特定部28は、同じ処理ユニット20に属する周波数分析部22が生成した周波数スペクトルSP0から図8の部分(a)に例示したフォルマントM(周波数スペクトルSP0の包絡線ENV)を検出する手段である。係数設定部341は、フォルマント特定部28が特定したフォルマントMに基づいて、図8の部分(b)を参照した手順で係数列G1の各係数k1を決定する。乗算器362は、設定部30から出力された係数列G'の各係数と係数設定部341が生成した係数列G1の各係数k1とを周波数fごとに乗算してスペクトル処理部24に出力する。スペクトル処理部24による調整処理は以上の各形態と同様である。図11の構成によれば、各フレームの音声信号SinのフォルマントMに応じて当該フレームの周波数スペクトルSP0のスペクトル強度が調整されるから、音声信号Sinの特性を忠実に反映した気息性を音声に付与することが可能となる。
(4)変形例4
音声処理装置Dに入力される音声信号Sinは音声合成技術で生成された電気信号に限定されない。例えば、マイクロホンなどの収音機器で取得した音声のデジタル信号を音声信号Sinとして音声処理装置Dに入力してもよい。さらに、CD−ROMなどの記憶媒体に記憶されたデータを音声信号Sinとして音声処理装置Dに入力する構成も採用される。
音声処理装置の構成を示すブロック図である。 音声処理装置による処理の流れを説明するための概念図である。 スペクトル処理部による調整処理を説明するための概念図である。 基準係数列Gと周波数スペクトルとの関係を示す概念図である。 単位係数列Uの内容を説明するための概念図である。 係数列G1に属する各係数k1と周波数との関係を示すグラフである。 MIDIデータの内容を示す概念図である。 第2実施形態に係る係数列G1の各係数k1について説明するための概念図である。 調整処理の変形例を説明する概念図である。 変形例に係る処理ユニットの構成を示すブロック図である。 変形例に係る処理ユニットおよび設定部の構成を示すブロック図である。
符号の説明
D……音声処理装置、10……フレーム分割部、20……処理ユニット、22……周波数分析部、24……スペクトル処理部、26……音量調整部、30……設定部、32……基準設定部、341,342……係数設定部、361,362……乗算器、40……平均算定部、50……フレーム合成部、Sin,Sout……音声信号、SP0,SP1,SP2……周波数スペクトル、P……局所的ピーク、G0……基準係数列、G,G1,G2……係数列、k,k0,k1,k2……係数。

Claims (4)

  1. 音声の周波数スペクトルを特定する周波数分析手段と、
    前記周波数分析手段が特定した周波数スペクトルのうち基本周波数または倍音周波数に対応した複数の局所的ピークのスペクトル強度と局所的ピーク以外の帯域のスペクトル強度との差異が減少するように各局所的ピークのスペクトル強度を低下させる調整処理を実行するスペクトル処理手段と、
    前記スペクトル処理手段による調整処理後の音量を増加させる音量調整手段と
    前記周波数分析手段が特定した周波数スペクトルの局所的ピークごとにスペクトル強度の低下量が相違するように各周波数におけるスペクトル強度の低下量を指定する第1係数列を生成する第1設定手段とを具備し、
    前記スペクトル処理手段は、前記第1設定手段が生成した第1係数列に応じた調整処理を実行し、
    前記第1設定手段は、音声の包絡線のスペクトル強度が高い周波数ほどスペクトル強度の低下量が大きくなるように第1係数列を生成する
    音声処理装置。
  2. 前記調整処理によるスペクトル強度の低下量について所定の周波数帯域にわたる平均値を算定する平均算定手段を具備し、
    前記音量調整手段は、前記平均算定手段が算定した平均値に応じて音量を増加させる
    請求項1の音声処理装置。
  3. スペクトル強度の低下量を示す第2係数を指定するイベントデータとイベントデータのタイミングを指定するタイミングデータとがシーケンシャルに配列されたデータ列を取得して、前記タイミングデータが指定するタイミングで当該タイミングデータに対応するイベントデータの第2係数を出力する第2設定手段を具備し、
    前記スペクトル処理手段は、前記第2設定手段が出力した第2係数に応じた調整処理を実行する
    請求項1または請求項2の音声処理装置。
  4. 音声の周波数スペクトルを特定する周波数分析処理と、
    前記周波数分析処理で特定した周波数スペクトルのうち基本周波数または倍音周波数に対応した複数の局所的ピークのスペクトル強度と局所的ピーク以外の帯域のスペクトル強度との差異が減少するように各局所的ピークのスペクトル強度を低下させる調整処理と、
    前記調整処理後の音量を増加させる音量調整処理と
    前記周波数分析処理で特定した周波数スペクトルの局所的ピークごとにスペクトル強度の低下量が相違するように各周波数におけるスペクトル強度の低下量を指定する第1係数列を生成する第1設定処理とをコンピュータに実行させるプログラムであって、
    前記調整処理は、前記第1設定処理で生成した第1係数列に応じた処理であり、
    前記第1設定処理では、音声の包絡線のスペクトル強度が高い周波数ほどスペクトル強度の低下量が大きくなるように第1係数列を生成する
    プログラム。
JP2006139911A 2006-05-19 2006-05-19 音声処理装置およびプログラム Expired - Fee Related JP5211437B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006139911A JP5211437B2 (ja) 2006-05-19 2006-05-19 音声処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006139911A JP5211437B2 (ja) 2006-05-19 2006-05-19 音声処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2007310192A JP2007310192A (ja) 2007-11-29
JP5211437B2 true JP5211437B2 (ja) 2013-06-12

Family

ID=38843096

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006139911A Expired - Fee Related JP5211437B2 (ja) 2006-05-19 2006-05-19 音声処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP5211437B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6337752B2 (ja) * 2014-11-27 2018-06-06 株式会社Jvcケンウッド 乳幼児泣き声検出装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001142477A (ja) * 1999-11-12 2001-05-25 Matsushita Electric Ind Co Ltd 有声音形成装置とそれを用いた音声認識装置
JP4654616B2 (ja) * 2004-06-24 2011-03-23 ヤマハ株式会社 音声効果付与装置及び音声効果付与プログラム
JP4654621B2 (ja) * 2004-06-30 2011-03-23 ヤマハ株式会社 音声処理装置およびプログラム
JP4297078B2 (ja) * 2005-04-22 2009-07-15 ソニー株式会社 復号方法及び装置

Also Published As

Publication number Publication date
JP2007310192A (ja) 2007-11-29

Similar Documents

Publication Publication Date Title
JP4207902B2 (ja) 音声合成装置およびプログラム
JP4645241B2 (ja) 音声処理装置およびプログラム
MXPA01004262A (es) Metodo para modificar el contenido armonico de una forma de onda compleja.
JP2004101797A (ja) 音響信号処理装置及びその方法
Smith Virtual acoustic musical instruments: Review and update
JP2004038071A (ja) 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
WO2020171033A1 (ja) 音信号合成方法、生成モデルの訓練方法、音信号合成システムおよびプログラム
JP6821970B2 (ja) 音声合成装置および音声合成方法
JP4076887B2 (ja) ボコーダ装置
JP3711880B2 (ja) 音声分析及び合成装置、方法、プログラム
JP4654621B2 (ja) 音声処理装置およびプログラム
US8492639B2 (en) Audio processing apparatus and method
JP2012208177A (ja) 帯域拡張装置及び音声補正装置
Bader Characterizing classical guitars using top plate radiation patterns measured by a microphone array
JP5211437B2 (ja) 音声処理装置およびプログラム
JP2020056976A (ja) 電子楽器、楽音発生方法及びプログラム
JP4349316B2 (ja) 音声分析及び合成装置、方法、プログラム
WO2017135350A1 (ja) 記録媒体、音響処理装置および音響処理方法
JP2001117578A (ja) ハーモニー音付加装置及び方法
JP6337698B2 (ja) 音響処理装置
Huovilainen Design of a scalable polyphony-MIDI synthesizer for a low cost DSP
JP6409417B2 (ja) 音響処理装置
JP4419486B2 (ja) 音声分析生成装置、及びプログラム
JP2009237590A (ja) 音声効果付与装置
JP2000003200A (ja) 音声信号処理装置及び音声信号処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090317

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120703

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130211

R150 Certificate of patent or registration of utility model

Ref document number: 5211437

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160308

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees