JP5262324B2 - 音声合成装置およびプログラム - Google Patents

音声合成装置およびプログラム Download PDF

Info

Publication number
JP5262324B2
JP5262324B2 JP2008152772A JP2008152772A JP5262324B2 JP 5262324 B2 JP5262324 B2 JP 5262324B2 JP 2008152772 A JP2008152772 A JP 2008152772A JP 2008152772 A JP2008152772 A JP 2008152772A JP 5262324 B2 JP5262324 B2 JP 5262324B2
Authority
JP
Japan
Prior art keywords
speech
sound
data
unit
synthesizer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008152772A
Other languages
English (en)
Other versions
JP2009300576A (ja
Inventor
啓 嘉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2008152772A priority Critical patent/JP5262324B2/ja
Priority to EP09161768.8A priority patent/EP2133865B1/en
Priority to US12/477,597 priority patent/US7999169B2/en
Publication of JP2009300576A publication Critical patent/JP2009300576A/ja
Application granted granted Critical
Publication of JP5262324B2 publication Critical patent/JP5262324B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0091Means for obtaining special acoustic effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/265Acoustic effect simulation, i.e. volume, spatial, resonance or reverberation effects added to a musical sound, usually by appropriate filtering or delays
    • G10H2210/295Spatial effects, musical uses of multiple audio channels, e.g. stereo
    • G10H2210/301Soundscape or sound field simulation, reproduction or control for musical purposes, e.g. surround or 3D sound; Granular synthesis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads

Description

本発明は、音声を合成する技術に関する。
事前に収録された音声の特徴を表す音声データを利用して所望の音声を合成する技術が従来から提案されている。例えば特許文献1や特許文献2には、音声データから特定される周波数スペクトルを所望の音高に応じて周波数軸上で伸縮し、伸縮後の周波数スペクトルの包絡線を調整することで所望の音声を合成する技術が開示されている。
特開2007−240564号公報 特開2003−255998号公報
しかし、特許文献1や特許文献2の技術で合成される音声は、音声データの基礎となる音声が収録されたときの収音点(収音機器が設置された位置)で受音されるべき音声に相当する。すなわち、音声が収録された空間のうち利用者が指定した位置で受聴されるべき音声を合成することはできない。以上の事情に鑑みて、本発明は、音声データの音声が収録された環境のうち利用者の所望の位置にて受聴されるべき音声を生成することを目的とする。
以上の課題を解決するために、本発明に係る音声合成装置は、相異なる収音点で収音された複数の音声について音声素片毎の音声素片データを含む音声データ群を利用して音声を合成する音声合成装置であって、受音点の位置を利用者からの指示に応じて可変に設定する設定手段と、時系列に指定される音声素片毎に、音声データ群のうち当該音声素片の複数の音声素片データを、各々に対応する収音点の位置(例えば図8や図9における位置P[1]〜P[N])と受音点の位置(例えば図8や図9における位置PU)との関係に応じて処理することで時間領域の波形を生成し、時間軸上で各波形を連結して音声を合成する音声合成手段とを具備する。以上の構成によれば、音声素片データに対応する収音点の位置と利用者が指示した受音点の位置との関係に応じて複数の音声素片データの各々を処理することで音声が合成されるから、音声素片データの音声が収録された環境のうち利用者の所望の位置(仮想的な受音点)にて受聴されるべき音声を生成することが可能となる。本発明のひとつの態様に係る音声データ群は、例えば、複数の発声者が並列に発声した合唱音を相異なる収音点で収音した複数の音声について音声素片毎の音声素片データを含む。
本発明の好適な態様において、音声合成手段は、複数の音声素片データの各々を、当該音声素片データに対応する収音点と受音点との距離(例えば図8の距離L[1]〜L[N])に応じて処理することで音声を合成する。以上の態様においては、各収音点から受音点までの距離に応じた音声の変化が合成音に反映されるから、音声素片データの音声が収録された環境内の音声に近い音声を合成することが可能である。
本発明の好適な態様において、設定手段は、複数の受音点の位置を利用者からの指示に応じて可変に設定し、音声合成手段は、複数の受音点の各々について音声の合成を実行し、各受音点について合成された音声を混合する。
また、本発明の好適な態様の音声合成装置は、音声データ群と、1個の収音点で収音された音声素片データを音声素片毎に含む特定音声データとを利用して音声を合成する音声合成装置であって、音声合成手段は、時系列に指定される音声素片毎に、音声データ群のうち当該音声素片の複数の音声素片データを、各々に対応する収音点の位置と受音点の位置との関係に応じて処理することで時間領域の波形を生成し、時間軸上で各波形を連結して音声を合成する動作と、特定音声データのうち時系列に指定される音声素片の音声素片データを利用して音声を合成する動作とを選択的に実行する。
本発明の好適な態様において、設定手段は、受音点における指向特性(例えば指向態様tUや指向方向dU)を利用者からの指示に応じて可変に設定し、音声合成手段は、複数の音声素片データを、各々に対応する収音点に対する受音点からの方向について指向特性が示す感度に応じて処理することで音声を合成する。以上の態様においては、各収音点に対する受音点の方向に応じた音声の変化が合成音に反映されるから、合成音を、音声素片データの音声が収録された環境内の音声に精緻に近づけることが可能である。以上の態様において、設定手段は、例えば、受音点における指向特性の種類(例えば図3の部分(B)における指向態様tU)および指向方向の少なくとも一方を設定する。好適な態様において、設定手段は、受音点における指向特性の種類を、複数の候補から利用者が選択した種類に設定する。
本発明の好適な態様において、音声合成手段は、複数の音声素片データの各々が示す音声の周波数スペクトルの包絡線(例えば図6の包絡線E[1]〜E[N])を、当該音声素片データに対応する収音点の位置と受音点の位置との関係に応じた係数(例えば図6の加重値W[1]〜W[N])で加重して加算することで新たな包絡線(例えば図6の包絡線EA)を算定し、当該新たな包絡線をもつ音声を生成する。以上の態様においては、各収音点の位置と受音点の位置との関係が合成音の包絡線に反映される。もっとも、音声合成手段が音声を合成する方法や音声素片データに対する処理の内容は本発明において任意である。
以上の各態様に係る音声合成装置は、楽音の合成に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、相異なる収音点で収音された複数の音声について音声素片毎の音声素片データを含む音声データ群を利用して音声を合成するために、コンピュータに、受音点の位置を利用者からの指示に応じて可変に設定する設定処理と、時系列に指定される音声素片毎に、音声データ群のうち当該音声素片の複数の音声素片データを、各々に対応する収音点の位置と受音点の位置との関係に応じて処理することで時間領域の波形を生成し、時間軸上で各波形を連結して音声を合成する音声合成処理とを実行させる。本発明のプログラムによれば、本発明に係る音声合成装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置のブロック図である。図1に示すように、音声合成装置100は、制御装置10と記憶装置12と入力装置22と表示装置24と音出力装置26とを具備するコンピュータシステムで実現される。
制御装置10は、記憶装置12に格納されたプログラムを実行する演算処理装置である。本形態の制御装置10は、音声(歌唱音)の波形を表す音声信号SOUTを生成するための複数の要素(情報生成部32、表示制御部34、音声合成部42、設定部44)として機能する。なお、制御装置10が実現する各要素を複数の装置(集積回路)に分散的に搭載した構成や、音声信号SOUTの生成に専用される電子回路(DSP)が各要素を実現する構成も採用される。
記憶装置12は、制御装置10が実行するプログラムや制御装置10が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置などの公知の記録媒体が記憶装置12として任意に利用される。本形態の記憶装置12は、N個(Nは自然数)の音声データD(D[1],D[2],……,D[N])で構成される音声データ群Gを記憶する。音声データDは、事前に収録された音声の特徴を表すデータである。さらに詳述すると、音声データDは、各々が別個の音声素片に対応する複数の音声素片データDSを含む。各音声素片データDSは、音声素片の周波数スペクトルSと周波数スペクトルSの包絡線Eとを含む。音声素片は、聴覚上で区別できる最小の単位である音素または複数の音素を連結した音素連鎖である。
図2は、音声データDの生成の方法を説明するための概念図である。図2に示すように、空間R内の相異なる位置P(P[1],P[2],……,P[N])にN個の収音機器M(M[1],M[2],……,M[N])が配置される。各収音機器Mは、空間R内の所定の位置に居る複数の発声者uが並列に発声した音声(合唱音)を収音する無指向性のマイクロホンである。
位置P[i](i=1〜N)に配置された収音機器M[i]が収音した音声は音声データD[i]の生成に使用される。すなわち、図2に示すように、収音機器M[i]の収音した音声(複数の発声者の発声音の混合)が音声素片毎に区分され、各音声素片に周波数分析(例えばフーリエ変換)を実行することで特定された周波数スペクトルSと包絡線Eとを当該音声素片の音声素片データDSとして音声データD[i]が生成される。図1および図2に示すように、音声データD[i]には、収音時の収音機器M[i]の位置P[i]が付加される。位置P[i]は、空間Rに設定されたx-y平面での座標(xi,yi)として規定される。以上の処理がN個の収音機器M[1]〜M[N]の各々について実行されることで、音声データ群Gを構成するN個の音声データD[1]〜D[N]が生成される。すなわち、音声データ群Gを構成するN個の音声データD[1]〜D[N]は、空間R内で同時に発生した共通の音声(合唱音)を別個の位置P[1]〜P[N]で並列に採取した音声の特徴を表す。
図1の入力装置22は、音声合成装置100に対する指示の入力のために利用者が操作する機器(例えばマウスやキーボード)である。表示装置(例えば液晶表示器)24は、制御装置10(表示制御部34)による制御のもとに各種の画像を表示する。音出力装置26は、制御装置10から供給される音声信号SOUTに応じた音波を放射する放音機器(例えばスピーカやヘッドホン)である。
制御装置10の情報生成部32は、音声の合成に使用される音楽情報(スコアデータ)QAを、利用者による入力装置22の操作に応じて生成または編集して記憶装置12に格納する。図3の部分(A)は、音楽情報QAの内容を例示する模式図である。音楽情報QAは、音声合成装置100が合成すべき複数の音声(以下「指定音」という)を時系列に指定するデータ系列である。図3の部分(A)に示すように、音楽情報QAにおいては、時系列に配列された複数の指定音の各々について、音高(音符名)と発音時間(発音の始点および終点)と音声素片とが指定される。
図1の表示制御部34は、画像を生成して表示装置24に表示させる。表示制御部34は、例えば、利用者が音楽情報QAを編集(作成)または確認するための音楽編集画像(図4)や、合成音の仮想的な受音の位置を利用者が可変に設定するための受音設定画像(図5)を表示装置24に表示させる。
音楽情報QAの編集を開始するための操作が入力装置22に付与されると、表示制御部34は、図4の音楽編集画像を表示装置に表示させる。図4に示すように、音楽編集画像50は、音高に対応する縦軸と時間に対応する横軸とが設定されたピアノロール型の作業領域52を含む。利用者は、音楽編集画像50を確認しながら入力装置22を適宜に操作することで各指定音の音高と発音時間とを指定する。表示制御部34は、利用者が指定した指定音に対応する図形(以下「指示子」という)CAを作業領域52内に配置する。作業領域52の縦軸(音高)の方向における指示子CAの位置は、利用者が指定した音高に応じて選定され、横軸(時間)の方向における指示子CAの位置や寸法は、利用者が指定した発音時間(発音点や時間長)に応じて選定される。
利用者が指定音を選定するたびに、情報生成部32は、利用者が指示した音高と発音時間とを音楽情報QAにおける当該指定音の音高および発音時間として記憶装置12に格納する。また、利用者は、入力装置22を適宜に操作することで、作業領域52内の各指示子CA(各指定音)について歌詞の文字を指定する。情報生成部32は、利用者が指定音に対して指定した文字に対応する音声素片を当該指定音に対応させて音楽情報QAに格納する。
図1の音声合成部42は、音声データ群Gを利用して音声(音声信号SOUT)を合成する。さらに詳述すると、音声合成部42は、音声データ群Gの音声の収録中に仮想的な受音点(収音機器)を空間R内に設置したと仮定したときに当該受音点にて収音されるべき音声を合成する。設定部44は、仮想的な受音点を規定する受音情報QBを、利用者による入力装置22の操作に応じて設定して記憶装置12に格納する。図3の部分(B)に示すように、受音情報QBは、受音点の位置PUと指向特性の種類(以下「指向態様」という)tUと受音感度hUと指向方向dUとを含んで構成される。受音情報QBの各変数の設定について以下に詳述する。
受音情報QBの生成または編集を開始するための操作が入力装置22に付与されると、表示制御部34は、図5の受音設定画像60を表示装置24に表示させる。図5に示すように、受音設定画像60は、作業領域62と操作領域64とを含んで構成される。操作領域64の領域641には、実際に編集(作成)の対象となる受音情報QBの識別子(図5の例示では“My Mic”というファイル名)が表示される。利用者は、入力装置22を操作して領域641内の識別子を変更することで、設定部44による編集(作成)の対象となる受音情報QBを選択することが可能である。
作業領域62は、音声データ群Gの収録時に使用された図2の空間Rに対応した形状の領域である。利用者は、入力装置22を適宜に操作することで、仮想的な受音点Uを配置すべき位置PUを作業領域62内にて任意に選定する。位置PUは、作業領域62に設定されたx-y平面での座標(xU,yU)として規定される。
利用者は、受音点Uにおける指向態様tU(位置PUに配置された仮想的な収音機器の指向特性)を入力装置22に対する操作で可変に指定する。例えば、表示制御部34は、図5に示すように、指向態様tUに関する複数の候補(ultra cardioidやhyper cardioid)のリスト622を表示装置24に表示する。入力装置22を操作することで利用者がひとつの指向態様tUをリスト622から選択すると、表示制御部34は、利用者が選択した指向態様tUを可視化した図形(以下「指向パターン」という)CBを作業領域62内の位置PUに配置する。例えば単一指向性(cardioid)が選択された場合、図5に例示するように単一指向性を表すカージオイド形状(心臓型)の指向パターンCBが位置PUに配置される。
また、利用者は、受音点Uにおける受音感度hU(位置PUに配置された仮想的な収音機器のゲイン)と、受音点Uにおける受音の指向方向dU(位置PUに配置された仮想的な収音機器の指向特性)とを入力装置22に対する操作で可変に指定する。表示制御部34は、図5に示すように、利用者が指定した指向方向dUに指向パターンCBを回転する。
設定部44は、利用者が図5の操作子(Add)642を操作するたびに、利用者が指示した変数(位置PU,指向態様tU,受音感度hU,指向方向dU)を、領域641内の識別子に対応する受音情報QBに反映させる。すなわち、設定部44は、記憶装置12に格納された受音情報QBを利用者からの指示に応じて可変に設定する。なお、以上においては利用者が受音感度hUを直接的に指定する場合を例示したが、複数の選択肢(例えば高感度/中感度/低感度といった複数の選択肢)のうち利用者が選択した選択肢から設定部44が受音感度hUの数値を特定する構成も採用される。
操作子(Delete)643が操作されると、設定部44は、領域641内の識別子に対応する受音情報QBを記憶装置12から削除する。操作子(Play)644が操作されると、音声合成部42は、編集中の受音情報QBを利用して所定の音声素片の音声信号SOUTを合成する。利用者は、音出力装置26から再生される合成音を随時に受聴(試聴)しながら受音情報QBを編集することで所望の受音情報QBを生成することが可能である。一方、操作子(OK)645が設定されると編集中の受音情報QBが確定したうえで受音設定画像60が消去され、操作子(Cancel)646が操作されると、直前の操作子642の操作後に実行された設定の内容が設定の内容が受音情報QBに反映されずに受音設定画像60が消去される。
図1の音声合成部42は、音声データ群G(音声データD[1]〜D[N])と音楽情報QAと受音情報QBとを利用して音声(音声信号SOUT)を合成する。さらに詳述すると、音声合成部42は、音楽情報QAの発音時間の順番で各指定音(以下では特に「選択指定音」という)を順次に選択する一方、音楽情報QAで選択指定音に指定された音声素片の音声素片データDSを音声データ群GのN個の音声データD[1]〜D[N]の各々について記憶装置12から取得する。そして、音声合成部42は、記憶装置12から取得したN個の音声素片データDSを受音情報QBに応じて利用することで音声信号SOUTを生成する。記憶装置12に複数の受音情報QBが記憶されている場合、音声合成部42は、利用者が入力装置22の操作で選択した受音情報QBを音声の合成に使用する。
図6には、選択指定音の音声素片に応じて記憶装置12から取得されたN個の音声素片データDS(DS[1]〜DS[N])が図示されている。音声データD[i]から抽出された音声素片データDS[i]は周波数スペクトルS[i]と包絡線E[i]とを表す。音声合成部42は、図6に示すように、包絡線E[1]〜E[N]から包絡線EAを生成するとともに周波数スペクトルS[1]〜S[N]から周波数スペクトルSAを生成する調整部46を含む。なお、調整部46の具体的な動作については後述する。
図7は、音声合成部42の動作を説明するための概念図である。図7の部分(A)に示すように、調整部46が生成する周波数スペクトルSAには、音声の基本周波数(ピッチ)P0と複数の倍音周波数の各々とに対応する各周波数に局所的ピークpkが存在する。音声合成部42は、調整部46が生成した周波数スペクトルSAから局所的ピークpkを検出するとともに、周波数スペクトルSAのうち各局所的ピークpkを周波数軸上の中心として所定の帯域幅にわたる分布(以下「局所的ピーク分布」という)Aを特定する。
音声合成部42は、音高変換処理と強度調整処理とを順次に実行する。音高変換処理は、周波数スペクトルSAを周波数軸の方向に伸長または短縮する処理である。すなわち、音声合成部42は、音楽情報QAにて選択指定音に指定された音高PXを周波数スペクトルSAの基本周波数P0で除算した変換比k(k=PX/P0)を算定し、図7の部分(B)に示すように、変換比kに応じた比率で周波数スペクトルSAを周波数軸の方向に伸長(変換比kが「1」を上回る場合)または短縮(変換比kが「1」を下回る場合)することで周波数スペクトルSBを生成する。例えば、音声合成部42は、周波数スペクトルSAの各局所的ピークpkが当該局所的ピークpkの周波数と変換比kとの乗算値の周波数に位置するように周波数スペクトルSAの各局所的ピーク分布Aを周波数軸上で移動するとともに、移動前の各局所的ピーク分布Aの間隙の成分を周波数軸に沿って伸長または縮小したうえで移動後の各局所的ピーク分布Aの間隙に配置することで周波数スペクトルSBを生成する。
強度調整処理は、伸縮後の周波数スペクトルSBの強度(振幅)を調整することで周波数スペクトルSCを生成する処理である。強度調整処理には、調整部46が生成した包絡線EAが使用される。さらに詳述すると、音声合成部42は、図7の部分(C)に示すように、周波数スペクトルSBの各局所的ピークpkを連結した曲線が包絡線EAに合致する(つまり、各局所的ピークpkの頂点が包絡線EAの線上に位置する)ように周波数スペクトルSBの強度を局所的ピーク分布A毎に増減することで周波数スペクトルSCを生成する。すなわち、周波数スペクトルSBの各局所的ピークpkの強度は、包絡線EAのうち当該局所的ピークpkに相当する周波数での強度に合致するように調整される。以上の手順で生成された周波数スペクトルSCを時間領域の波形に変換(逆フーリエ変換)したうえで時間軸に沿って連結することで音声信号SOUTが生成される。なお、以上に例示した音声の合成については特開2007-240564号公報にも開示されている。
次に、調整部46による包絡線EAおよび周波数スペクトルSAの算定について詳述する。調整部46は、図6に示すように、音声データ群Gのうち選択指定音の音声素片に対応するN個の音声素片データDS[1]〜DS[N]が表す包絡線E[1]〜E[N]の加重和を包絡線EAとして算定する。さらに詳述すると、包絡線EAにおける各周波数fでの強度VE(f)は、以下の式(1)で表現されるように、包絡線E[i]における周波数fでの強度vE_i(f)と加重値W[i]との乗算値をN個の包絡線E[1]〜E[N]について加算した数値(加重和)として定義される。調整部46は、以下の式(1)の演算を実行することで包絡線E[1]〜E[N]に応じた包絡線EAを生成する。
VE(f)=W[1]・vE_1(f)+W[2]・vE_2(f)+……+W[N]・vE_N(f) ……(1)
同様に、調整部46は、選択指定音の音声素片に対応するN個の音声素片データDS[1]〜DS[N]が表す周波数スペクトルS[1]〜S[N]の加重和を周波数スペクトルSAとして算定する。さらに詳述すると、周波数スペクトルSAにおける各周波数fでの強度VS(f)は、以下の式(2)で表現されるように、周波数スペクトルS[i]における周波数fでの強度vS_i(f)と加重値W[i]との乗算値をN個の周波数スペクトルS[1]〜S[N]について加算した数値(加重和)として定義される。調整部46は、以下の式(2)の演算を実行することで周波数スペクトルS[1]〜S[N]に応じた周波数スペクトルSAを生成する。
VS(f)=W[1]・vS_1(f)+W[2]・vS_2(f)+……+W[N]・vS_N(f) ……(2)
式(1)における包絡線E[i]の強度vE_i(f)と式(2)における周波数スペクトルS[i]の強度vS_i(f)とに対する加重値W[i]は、音声データD[i]にて指定される位置P[i](すなわち収録時における収音機器M[i]の位置)と設定部44が設定した受音情報QBとに応じて決定される。さらに詳述すると、加重値W[i]は、係数α[i]と係数β[i]との乗算値である(W[i]=α[i]・β[i])。係数α[i]は、位置P[i]と仮想的な受音点Uの位置PUとの距離に応じて算定される。また、係数β[i]は、位置PUに対する位置P[i]の方向と受音点Uでの受音の指向特性(指向態様tU,受音感度hU,指向方向dU)とに応じて算定される。調整部46は、以下に説明する手順で係数α[i]および係数β[i]を算定する。
まず、係数α[i]の算定について説明する。調整部46は、図8に示すように、音声の収録時における空間R内の収音機器M[i]の位置P[i]と受音情報QBが指定する受音点Uの位置PUとの距離L[i]をN個の位置P[1]〜P[N]の各々について算定する。距離L[i]は、例えば、x-y平面における位置P[i]の座標(xi,yi)と位置PUの座標(xU,yU)とから算定されるユークリッド距離である。そして、調整部46は、以下の式(3)で定義されるように、N個の位置P[1]〜P[N]の各々について算定された距離L[1]〜L[N]の逆数の総和に対する距離L[i]の逆数の相対比を係数α[i]として算定する。
Figure 0005262324


式(3)から理解されるように、受音点Uの位置PUと収録時の収音機器M[i]の位置P[i]とが近い(距離L[i]が小さい)ほど係数α[i]は増加する。したがって、利用者が指定した受音点U(位置PU)に近い位置P[i]にて収録された音声データD[i]の音声素片データDS[i](包絡線E[i]および周波数スペクトルS[i])ほど、調整部46が生成する包絡線EAや周波数スペクトルSAに対する影響は大きい。
次に、係数β[i]の算定について説明する。調整部46は、図9に示すように、受音情報QBにて指定された受音点Uの位置PUからみた各収音機器M[i]の位置P[i]の方向と受音情報QBにて指定された指向方向dUとの仰角の角度θ[i]をN個の位置P[1]〜P[N]の各々について算定する。指向方向dUは、角度θ[i]の基準(θ[i]=0)となる方向である。角度θ[i]の算定には、受音情報QBにて指定された位置PU(座標(xU,yU))と音声データD[i]にて指定された位置P[i](座標(xi,yi))とが使用される。
次いで、調整部46は、受音情報QBにて指定された指向態様tUに対応する感度関数を使用して、受音点Uに対して角度θ[i]から到来する音波に対する感度r[i]を算定する。感度関数は、受音点Uに各方向から到来する音波に対する感度を定義する関数である。例えば、指向態様tUとして単一指向性(カージオイド型)が指定された場合には式(4A)の感度関数が使用され、指向態様tUとして無指向性が指定された場合には式(4B)の感度関数が使用され、指向態様tUとして双指向性が指定された場合には式(4C)の感度関数が使用される。
r[i]=1/2・cosθ[i]+1/2 ……(4A)
r[i]=1 ……(4B)
r[i]=cosθ[i] ……(4C)
調整部46は、以下の式(5)で定義されるように、N個の位置P[1]〜P[N]の各々について算定された感度r[1]〜r[N]の総和に対する感度r[i]の相対比と、受音情報QBにて指定された受音感度hUとの乗算値を係数β[i]として算定する。
Figure 0005262324

式(5)から理解されるように、感度r[i]が大きいほど係数β[i]は増加する。したがって、利用者が指定した指向態様tUおよび指向方向dUの受音点U(位置PU)に対して受音の感度が高い方向にある位置P[i]で採取された音声データD[i]の音声素片データDS[i](包絡線E[i]および周波数スペクトルS[i])ほど、調整部46が生成する包絡線EAや周波数スペクトルSAに対する影響は大きい。
以上に説明したように、本形態においては、音声素片データDS[i]の指定する包絡線E[i]や周波数スペクトルS[i]が空間Rでの収音点(収音機器M[i])の位置P[i]と利用者が指定した位置PUとの関係(距離L[i]および角度θ[i])に応じて加重されたうえで包絡線EAや周波数スペクトルSAの生成に利用される。したがって、仮想的な受音点Uを空間Rの位置PUに設置したと仮定したときに当該受音点Uにて収音されるべき音声を合成することが可能である。さらに、受音点Uにおける受音特性(指向態様tU,受音感度hU,指向方向dU)が利用者からの指示に応じて可変に設定されるから、利用者の所望の特性の収音機器を空間R内に仮想的に配置した場合の音声を合成できるという利点がある。
<B:第2実施形態>
次に、本発明の第2実施形態について説明する。なお、以下の各形態において第1実施形態と同等の要素については、以上と共通の符号を付して各々の詳細な説明を適宜に省略する。
図10は、本形態における受音設定画像60の模式図である。図10に示すように、入力装置22に対する利用者からの操作に応じて複数(K個)の受音点Uが作業領域62に配置される。設定部44は、受音点Uの位置PUと指向態様tUと受音感度hUと指向方向dUとを、入力装置22に対する操作に応じてK個の受音点Uの各々について個別に設定する。記憶装置12が記憶する受音情報QBは、図11に示すように、設定部44がK個の受音点U(U1,U2,……,UK)について設定した各変数(位置PU,指向態様tU,受音感度hU,指向方向dU)を含む。
調整部46は、K個の受音点Uの各々について、受音情報QBのうち当該受音点Uに対応する変数に応じた包絡線EAおよび周波数スペクトルSAを第1実施形態と同様の方法で生成する。音声合成部42は、各受音点Uについて調整部46が算定した包絡線EAと周波数スペクトルSAとに応じた音声信号SOUTを、K個の受音点Uの各々について第1実施形態と同様の方法で生成する。以上の手順で生成されたK系統の音声信号SOUTは、音声合成部42にて相互に混合されたうえで音出力装置26に出力される。以上の構成によれば、第1実施形態と同様の効果に加えて、空間R内の複数の受音点Uにて収音されるべき音声を合成できるという利点がある。
<C:第3実施形態>
図12は、本発明の第3実施形態に係る音声合成装置100のブロック図である。図12に示すように、本形態の記憶装置12は、複数の音声データ群Gと複数の音声データD0とを記憶する。複数の音声データ群Gの各々は、相異なる特性の音声(例えば、相異なる発声者uによる発声音や相異なる空間R内での発声音)から個別に生成され、第1実施形態と同様に、別個の位置で並列に採取された音声の特徴を表す複数の音声データDで構成される。複数の音声データD0の各々は、音声データDと同様に、1個の収音機器で収音された音声の特徴を音声素片毎に表す複数の音声素片データDSで構成される。
図13は、音楽編集画像50の模式図である。利用者は、入力装置22を適宜に操作することで、作業領域52内の各指示子CA(各指定音)について所望の音声データ群Gまたは音声データD0を割当てる。情報生成部32は、利用者が指定音に割当てた音声データ群Gまたは音声データD0の識別子を当該指定音に対応させて音楽情報QAに格納する。音声合成部42は、音楽情報QAにて音声データ群Gの識別子が設定された選択指定音については、当該音声データ群Gと受音情報QBとを利用して第1実施形態と同様の方法で音声信号SOUTを合成し、音楽情報QAにて音声データD0の識別子が設定された選択指定音については、当該音声データD0の音声素片データDSが表す包絡線Eおよび周波数スペクトルSを包絡線EAおよび周波数スペクトルSAとして利用することで図7と同様の方法で音声信号SOUTを合成する。
図13に示すように、表示制御部34は、音声データ群Gが割当てられた指示子CAと音声データD0が割当てられた指示子CAとを、相異なる態様で表示装置24に表示させる。指示子CAの態様とは、利用者が視覚的に認識できる指示子CAの状態を意味する。例えば、指示子CAの表示色(色相,明度,再度)や形状やサイズなどが指示子CAの態様の典型例である。利用者は、各指示子CAの態様を確認することで、音声データ群Gを割当てた指定音と音声データD0を割当てた指定音とを区別することが可能である。以上の形態によっても第1実施形態と同様の効果が実現される。
<D:変形例>
以上の各形態には様々な変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。なお、以上の各形態や以下の各変形例から2以上の態様を任意に選択して組合わせてもよい。
(1)変形例1
以上の各形態においては音声データ群Gの生成時に空間R内で複数の発声者uが発声する場合(すなわち合唱音の音声データ群Gを生成する場合)を例示したが、ひとりの発声者uによる発声音(独唱音)から音声データ群Gを生成する構成も好適である。また、以上の各形態においては人間の発声音を収音して音声データD(第3実施形態の音声データD0)を生成したが、音声データD(D0)が楽器の演奏音を表す構成も採用される。
(2)変形例2
以上の各形態においては収音点(収音機器M[i])が空間R内に平面的(2次元的)に配置された場合を例示したが、収音点(収音機器M[i])を空間R内に3次元的に配置した場合にも以上の各形態が同様に適用される。収音点(収音機器M[i])を3次元的に配置した場合、位置P[i]はx-y-z空間(空間R)における3次元的な座標として規定される。
(3)変形例3
音声合成部42による音声の合成には公知の技術が任意に採用される。合成音に受音情報QBを反映させる方法は、音声合成部42による合成の方法(合成に使用する変数)に応じて適宜に選定される。また、以上の各形態においては包絡線E[1]〜E[N]および周波数スペクトルS[1]〜S[N]の双方に受音情報QB(加重値W[1]〜W[N])を反映させたが、例えば、包絡線EAを図6の方法で受音情報QBに応じて生成する一方、周波数スペクトルS[1]〜S[N]の何れか(または周波数スペクトルS[1]〜S[N]の平均)を図7の周波数スペクトルSAとして利用することで音声信号SOUTを生成する構成も採用される。
(4)変形例4
受音情報QBの内容は以上の例示から適宜に変更される。例えば、指向態様tUと受音感度hUと指向方向dUとのうちの少なくともひとつが省略される。指向態様tUを省略した構成においては係数β[i]の算定に1種類の感度関数のみが適用され、受音感度hUを省略した構成においては式(5)の変数hUが所定値(例えば「1」)に設定される。また、係数α[i]および係数β[i]の一方のみを加重値W[i]として式(1)や式(2)の演算を実行する構成も好適である。以上の例示から理解されるように、音声データD[i]に対応する収音の位置P[i]と受音点Uの位置PUとの関係(距離L[i]や角度θ[i])に応じて複数の音声データD(D[1]〜D[N])の各々を処理することで音声を合成する構成が本発明においては好適に採用される。
(5)変形例5
音声素片データDSの内容は以上の例示(周波数スペクトルSおよび包絡線E)に限定されない。例えば、音声素片データDSが音声素片の時間軸上の波形を表す構成も採用される。音声素片データDSが音声素片の波形を表す場合、音声合成部42は、例えば離散フーリエ変換を含む周波数分析を音声素片データDSに実行することで周波数スペクトルSや包絡線Eを算定したうえで音声の合成に使用する。
本発明の第1実施形態に係る音声合成装置のブロック図である。 音声データの生成を説明するための概念図である。 音楽情報および受音情報の模式図である。 音楽編集画像の模式図である。 受音設定画像の模式図である。 音声合成部(調整部)の動作を説明するための模式図である。 音声合成部の動作を説明するための模式図である。 係数α[i]の算定について説明するための模式図である。 係数β[i]の算定について説明するための模式図である。 本発明の第2実施形態における受音設定画像の模式図である。 受音情報の模式図である。 本発明の第3実施形態に係る音声合成装置のブロック図である。 音楽編集画像の模式図である。
符号の説明
100……音声合成装置、10……制御装置、12……記憶装置、22……入力装置、24……表示装置、26……音出力装置、32……情報生成部、34……表示制御部、42……音声合成部、44……設定部、46……調整部、G……音声データ群、D(D[1]〜D[N]),D0……音声データ、DS……音声素片データ、SOUT……音声信号、QA……音楽情報、QB……受音情報。

Claims (7)

  1. 相異なる収音点で収音された複数の音声について音声素片毎の音声素片データを含む音声データ群を利用して音声を合成する音声合成装置であって、
    受音点の位置を利用者からの指示に応じて可変に設定する設定手段と、
    時系列に指定される音声素片毎に、前記音声データ群のうち当該音声素片の複数の音声素片データを、各々に対応する前記収音点の位置と前記受音点の位置との関係に応じて処理することで時間領域の波形を生成し、時間軸上で各波形を連結して音声を合成する音声合成手段と
    を具備する音声合成装置。
  2. 前記設定手段は、前記受音点における指向特性の種類を、複数の候補から利用者が選択した種類に設定し、
    前記音声合成手段は、前記複数の音声素片データを、各々に対応する前記収音点に対する前記受音点からの方向について前記指向特性が示す感度に応じて処理することで音声を合成する
    請求項1の音声合成装置。
  3. 前記設定手段は、複数の受音点の位置を利用者からの指示に応じて可変に設定し、
    前記音声合成手段は、前記複数の受音点の各々について前記音声の合成を実行し、前記各受音点について合成された音声を混合する
    請求項1または請求項2の音声合成装置。
  4. 前記音声データ群と、1個の収音点で収音された音声素片データを音声素片毎に含む特定音声データとを利用して音声を合成する音声合成装置であって、
    前記音声合成手段は、時系列に指定される音声素片毎に、前記音声データ群のうち当該音声素片の複数の音声素片データを、各々に対応する前記収音点の位置と前記受音点の位置との関係に応じて処理することで時間領域の波形を生成し、時間軸上で各波形を連結して音声を合成する動作と、前記特定音声データのうち時系列に指定される音声素片の音声素片データを利用して音声を合成する動作とを選択的に実行する
    請求項1から請求項3の何れかの音声合成装置。
  5. 前記音声データ群は、複数の発声者が並列に発声した合唱音を相異なる収音点で収音した複数の音声について音声素片毎の音声素片データを含む
    請求項1から請求項4の何れかの音声合成装置。
  6. 前記音声合成手段は、前記複数の音声素片データの各々が示す音声の周波数スペクトルの包絡線を、当該音声素片データに対応する前記収音点の位置と前記受音点の位置との関係に応じた係数で加重して加算することで新たな包絡線を算定し、当該新たな包絡線をもつ音声を生成する
    請求項1から請求項5の何れかの音声合成装置。
  7. 相異なる収音点で収音された複数の音声について音声素片毎の音声素片データを含む音声データ群を利用して音声を合成するために、コンピュータに、
    受音点の位置を利用者からの指示に応じて可変に設定する設定処理と、
    時系列に指定される音声素片毎に、前記音声データ群のうち当該音声素片の複数の音声素片データを、各々に対応する前記収音点の位置と前記受音点の位置との関係に応じて処理することで時間領域の波形を生成し、時間軸上で各波形を連結して音声を合成する音声合成処理と
    を実行させるプログラム。
JP2008152772A 2008-06-11 2008-06-11 音声合成装置およびプログラム Expired - Fee Related JP5262324B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008152772A JP5262324B2 (ja) 2008-06-11 2008-06-11 音声合成装置およびプログラム
EP09161768.8A EP2133865B1 (en) 2008-06-11 2009-06-03 Sound synthesizer
US12/477,597 US7999169B2 (en) 2008-06-11 2009-06-03 Sound synthesizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008152772A JP5262324B2 (ja) 2008-06-11 2008-06-11 音声合成装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2009300576A JP2009300576A (ja) 2009-12-24
JP5262324B2 true JP5262324B2 (ja) 2013-08-14

Family

ID=40785483

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008152772A Expired - Fee Related JP5262324B2 (ja) 2008-06-11 2008-06-11 音声合成装置およびプログラム

Country Status (3)

Country Link
US (1) US7999169B2 (ja)
EP (1) EP2133865B1 (ja)
JP (1) JP5262324B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9037468B2 (en) * 2008-10-27 2015-05-19 Sony Computer Entertainment Inc. Sound localization for user in motion
JP5842545B2 (ja) * 2011-03-02 2016-01-13 ヤマハ株式会社 発音制御装置、発音制御システム、プログラム及び発音制御方法
KR101394306B1 (ko) * 2012-04-02 2014-05-13 삼성전자주식회사 효과 음향을 출력하는 휴대용 단말기의 장치 및 방법
LV14747B (lv) * 2012-04-04 2014-03-20 Sonarworks, Sia Elektroakustisko izstarotāju akustisko parametru korekcijas paņēmiens un iekārta tā realizēšanai
US9401684B2 (en) 2012-05-31 2016-07-26 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for synthesizing sounds using estimated material parameters
US9230526B1 (en) * 2013-07-01 2016-01-05 Infinite Music, LLC Computer keyboard instrument and improved system for learning music
WO2015027950A1 (zh) * 2013-08-30 2015-03-05 华为技术有限公司 立体声录制方法、装置和终端
US10553188B2 (en) * 2016-12-26 2020-02-04 CharmPI, LLC Musical attribution in a two-dimensional digital representation

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3282201B2 (ja) * 1991-11-26 2002-05-13 ソニー株式会社 収音装置、再生装置、収音方法および再生方法、および、音信号処理装置
US5536902A (en) * 1993-04-14 1996-07-16 Yamaha Corporation Method of and apparatus for analyzing and synthesizing a sound by extracting and controlling a sound parameter
GB9307934D0 (en) * 1993-04-16 1993-06-02 Solid State Logic Ltd Mixing audio signals
JP3514263B2 (ja) * 1993-05-31 2004-03-31 富士通株式会社 歌声合成装置
JP2988289B2 (ja) * 1994-11-15 1999-12-13 ヤマハ株式会社 音像音場制御装置
WO1997015914A1 (en) * 1995-10-23 1997-05-01 The Regents Of The University Of California Control structure for sound synthesis
JP3575730B2 (ja) * 1997-05-22 2004-10-13 ヤマハ株式会社 歌唱音声合成装置、歌唱音声合成方法および記憶媒体
JPH11187499A (ja) * 1997-12-25 1999-07-09 Nec Corp 音場制御方法
US6239348B1 (en) * 1999-09-10 2001-05-29 Randall B. Metcalf Sound system and method for creating a sound event based on a modeled sound field
JP2003099078A (ja) 2001-09-20 2003-04-04 Seiko Epson Corp 合成音声再生方法および合成音声再生装置
JP3815347B2 (ja) 2002-02-27 2006-08-30 ヤマハ株式会社 歌唱合成方法と装置及び記録媒体
JP4062959B2 (ja) * 2002-04-26 2008-03-19 ヤマハ株式会社 残響付与装置、残響付与方法、インパルス応答生成装置、インパルス応答生成方法、残響付与プログラム、インパルス応答生成プログラムおよび記録媒体
US7138575B2 (en) * 2002-07-29 2006-11-21 Accentus Llc System and method for musical sonification of data
US20080056517A1 (en) 2002-10-18 2008-03-06 The Regents Of The University Of California Dynamic binaural sound capture and reproduction in focued or frontal applications
EP1685554A1 (en) 2003-10-09 2006-08-02 TEAC America, Inc. Method, apparatus, and system for synthesizing an audio performance using convolution at multiple sample rates
JP4181511B2 (ja) * 2004-02-09 2008-11-19 日本放送協会 サラウンド音声ミキシング装置およびサラウンド音声ミキシングプログラム
US7636448B2 (en) * 2004-10-28 2009-12-22 Verax Technologies, Inc. System and method for generating sound events
FR2890480B1 (fr) 2005-09-05 2008-03-14 Centre Nat Rech Scient Procede et dispositif de correction active des proprietes acoustiques d'une zone d'ecoute d'un espace sonore
JP4839891B2 (ja) * 2006-03-04 2011-12-21 ヤマハ株式会社 歌唱合成装置および歌唱合成プログラム
JP2008072541A (ja) * 2006-09-15 2008-03-27 D & M Holdings Inc オーディオ装置

Also Published As

Publication number Publication date
JP2009300576A (ja) 2009-12-24
US20090308230A1 (en) 2009-12-17
EP2133865A2 (en) 2009-12-16
US7999169B2 (en) 2011-08-16
EP2133865A3 (en) 2011-04-27
EP2133865B1 (en) 2014-01-08

Similar Documents

Publication Publication Date Title
JP5262324B2 (ja) 音声合成装置およびプログラム
JP4207902B2 (ja) 音声合成装置およびプログラム
JP4645241B2 (ja) 音声処理装置およびプログラム
US20140109751A1 (en) Musical modification effects
JP4062959B2 (ja) 残響付与装置、残響付与方法、インパルス応答生成装置、インパルス応答生成方法、残響付与プログラム、インパルス応答生成プログラムおよび記録媒体
WO2020171033A1 (ja) 音信号合成方法、生成モデルの訓練方法、音信号合成システムおよびプログラム
WO2020095950A1 (ja) 情報処理方法および情報処理システム
WO2021060493A1 (ja) 情報処理方法、推定モデル構築方法、情報処理装置、および推定モデル構築装置
WO2018055892A1 (ja) 電子打楽器の音源
JP7443823B2 (ja) 音響処理方法
JP7419666B2 (ja) 音信号処理装置および音信号処理方法
Einbond Mapping the Klangdom Live: Cartographies for piano with two performers and electronics
JP2020194098A (ja) 推定モデル確立方法、推定モデル確立装置、プログラムおよび訓練データ準備方法
JP3503268B2 (ja) 音色パラメータ編集装置
JP6337698B2 (ja) 音響処理装置
JP3414150B2 (ja) コーラス効果付与装置
JPH06335096A (ja) 音場再生装置
Dony Armstrong et al. Pedal effects modeling for stringed instruments by employing schemes of dsp in real time for vocals and music
JP5211437B2 (ja) 音声処理装置およびプログラム
Lokki et al. Applying anechoic recordings in auralization
JP2018054859A (ja) 楽音生成装置、楽音生成方法、電子楽器、及びプログラム
Ackermann et al. Musical instruments as dynamic sound sources
JP2016050995A (ja) 音響処理装置
JP2019126076A (ja) 音信号制御方法および表示制御方法
JP4631783B2 (ja) ハウラー装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110420

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120807

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121003

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130415

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5262324

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees