JP5262324B2

JP5262324B2 - 音声合成装置およびプログラム

Info

Publication number: JP5262324B2
Application number: JP2008152772A
Authority: JP
Inventors: 啓嘉山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2008-06-11
Filing date: 2008-06-11
Publication date: 2013-08-14
Anticipated expiration: 2028-06-11
Also published as: JP2009300576A; US20090308230A1; EP2133865A2; US7999169B2; EP2133865A3; EP2133865B1

Description

本発明は、音声を合成する技術に関する。

事前に収録された音声の特徴を表す音声データを利用して所望の音声を合成する技術が従来から提案されている。例えば特許文献１や特許文献２には、音声データから特定される周波数スペクトルを所望の音高に応じて周波数軸上で伸縮し、伸縮後の周波数スペクトルの包絡線を調整することで所望の音声を合成する技術が開示されている。
特開２００７−２４０５６４号公報特開２００３−２５５９９８号公報

しかし、特許文献１や特許文献２の技術で合成される音声は、音声データの基礎となる音声が収録されたときの収音点（収音機器が設置された位置）で受音されるべき音声に相当する。すなわち、音声が収録された空間のうち利用者が指定した位置で受聴されるべき音声を合成することはできない。以上の事情に鑑みて、本発明は、音声データの音声が収録された環境のうち利用者の所望の位置にて受聴されるべき音声を生成することを目的とする。

以上の課題を解決するために、本発明に係る音声合成装置は、相異なる収音点で収音された複数の音声について音声素片毎の音声素片データを含む音声データ群を利用して音声を合成する音声合成装置であって、受音点の位置を利用者からの指示に応じて可変に設定する設定手段と、時系列に指定される音声素片毎に、音声データ群のうち当該音声素片の複数の音声素片データを、各々に対応する収音点の位置（例えば図８や図９における位置Ｐ[1]〜Ｐ[N]）と受音点の位置（例えば図８や図９における位置ＰU）との関係に応じて処理することで時間領域の波形を生成し、時間軸上で各波形を連結して音声を合成する音声合成手段とを具備する。以上の構成によれば、音声素片データに対応する収音点の位置と利用者が指示した受音点の位置との関係に応じて複数の音声素片データの各々を処理することで音声が合成されるから、音声素片データの音声が収録された環境のうち利用者の所望の位置（仮想的な受音点）にて受聴されるべき音声を生成することが可能となる。本発明のひとつの態様に係る音声データ群は、例えば、複数の発声者が並列に発声した合唱音を相異なる収音点で収音した複数の音声について音声素片毎の音声素片データを含む。

本発明の好適な態様において、音声合成手段は、複数の音声素片データの各々を、当該音声素片データに対応する収音点と受音点との距離（例えば図８の距離Ｌ[1]〜Ｌ[N]）に応じて処理することで音声を合成する。以上の態様においては、各収音点から受音点までの距離に応じた音声の変化が合成音に反映されるから、音声素片データの音声が収録された環境内の音声に近い音声を合成することが可能である。
本発明の好適な態様において、設定手段は、複数の受音点の位置を利用者からの指示に応じて可変に設定し、音声合成手段は、複数の受音点の各々について音声の合成を実行し、各受音点について合成された音声を混合する。
また、本発明の好適な態様の音声合成装置は、音声データ群と、１個の収音点で収音された音声素片データを音声素片毎に含む特定音声データとを利用して音声を合成する音声合成装置であって、音声合成手段は、時系列に指定される音声素片毎に、音声データ群のうち当該音声素片の複数の音声素片データを、各々に対応する収音点の位置と受音点の位置との関係に応じて処理することで時間領域の波形を生成し、時間軸上で各波形を連結して音声を合成する動作と、特定音声データのうち時系列に指定される音声素片の音声素片データを利用して音声を合成する動作とを選択的に実行する。

本発明の好適な態様において、設定手段は、受音点における指向特性（例えば指向態様ｔUや指向方向ｄU）を利用者からの指示に応じて可変に設定し、音声合成手段は、複数の音声素片データを、各々に対応する収音点に対する受音点からの方向について指向特性が示す感度に応じて処理することで音声を合成する。以上の態様においては、各収音点に対する受音点の方向に応じた音声の変化が合成音に反映されるから、合成音を、音声素片データの音声が収録された環境内の音声に精緻に近づけることが可能である。以上の態様において、設定手段は、例えば、受音点における指向特性の種類（例えば図３の部分(B)における指向態様ｔU）および指向方向の少なくとも一方を設定する。好適な態様において、設定手段は、受音点における指向特性の種類を、複数の候補から利用者が選択した種類に設定する。

本発明の好適な態様において、音声合成手段は、複数の音声素片データの各々が示す音声の周波数スペクトルの包絡線（例えば図６の包絡線Ｅ[1]〜Ｅ[N]）を、当該音声素片データに対応する収音点の位置と受音点の位置との関係に応じた係数（例えば図６の加重値Ｗ[1]〜Ｗ[N]）で加重して加算することで新たな包絡線（例えば図６の包絡線ＥA）を算定し、当該新たな包絡線をもつ音声を生成する。以上の態様においては、各収音点の位置と受音点の位置との関係が合成音の包絡線に反映される。もっとも、音声合成手段が音声を合成する方法や音声素片データに対する処理の内容は本発明において任意である。

以上の各態様に係る音声合成装置は、楽音の合成に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、相異なる収音点で収音された複数の音声について音声素片毎の音声素片データを含む音声データ群を利用して音声を合成するために、コンピュータに、受音点の位置を利用者からの指示に応じて可変に設定する設定処理と、時系列に指定される音声素片毎に、音声データ群のうち当該音声素片の複数の音声素片データを、各々に対応する収音点の位置と受音点の位置との関係に応じて処理することで時間領域の波形を生成し、時間軸上で各波形を連結して音声を合成する音声合成処理とを実行させる。本発明のプログラムによれば、本発明に係る音声合成装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

＜Ａ：第１実施形態＞
図１は、本発明の第１実施形態に係る音声合成装置のブロック図である。図１に示すように、音声合成装置１００は、制御装置１０と記憶装置１２と入力装置２２と表示装置２４と音出力装置２６とを具備するコンピュータシステムで実現される。

制御装置１０は、記憶装置１２に格納されたプログラムを実行する演算処理装置である。本形態の制御装置１０は、音声（歌唱音）の波形を表す音声信号ＳOUTを生成するための複数の要素（情報生成部３２、表示制御部３４、音声合成部４２、設定部４４）として機能する。なお、制御装置１０が実現する各要素を複数の装置（集積回路）に分散的に搭載した構成や、音声信号ＳOUTの生成に専用される電子回路（ＤＳＰ）が各要素を実現する構成も採用される。

記憶装置１２は、制御装置１０が実行するプログラムや制御装置１０が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置などの公知の記録媒体が記憶装置１２として任意に利用される。本形態の記憶装置１２は、Ｎ個（Ｎは自然数）の音声データＤ（Ｄ[1]，Ｄ[2]，……，Ｄ[N]）で構成される音声データ群Ｇを記憶する。音声データＤは、事前に収録された音声の特徴を表すデータである。さらに詳述すると、音声データＤは、各々が別個の音声素片に対応する複数の音声素片データＤSを含む。各音声素片データＤSは、音声素片の周波数スペクトルＳと周波数スペクトルＳの包絡線Ｅとを含む。音声素片は、聴覚上で区別できる最小の単位である音素または複数の音素を連結した音素連鎖である。

図２は、音声データＤの生成の方法を説明するための概念図である。図２に示すように、空間Ｒ内の相異なる位置Ｐ（Ｐ[1]，Ｐ[2]，……，Ｐ[N]）にＮ個の収音機器Ｍ（Ｍ[1]，Ｍ[2]，……，Ｍ[N]）が配置される。各収音機器Ｍは、空間Ｒ内の所定の位置に居る複数の発声者ｕが並列に発声した音声（合唱音）を収音する無指向性のマイクロホンである。

位置Ｐ[i]（ｉ＝１〜Ｎ）に配置された収音機器Ｍ[i]が収音した音声は音声データＤ[i]の生成に使用される。すなわち、図２に示すように、収音機器Ｍ[i]の収音した音声（複数の発声者の発声音の混合）が音声素片毎に区分され、各音声素片に周波数分析（例えばフーリエ変換）を実行することで特定された周波数スペクトルＳと包絡線Ｅとを当該音声素片の音声素片データＤSとして音声データＤ[i]が生成される。図１および図２に示すように、音声データＤ[i]には、収音時の収音機器Ｍ[i]の位置Ｐ[i]が付加される。位置Ｐ[i]は、空間Ｒに設定されたｘ-ｙ平面での座標(xi,yi)として規定される。以上の処理がＮ個の収音機器Ｍ[1]〜Ｍ[N]の各々について実行されることで、音声データ群Ｇを構成するＮ個の音声データＤ[1]〜Ｄ[N]が生成される。すなわち、音声データ群Ｇを構成するＮ個の音声データＤ[1]〜Ｄ[N]は、空間Ｒ内で同時に発生した共通の音声（合唱音）を別個の位置Ｐ[1]〜Ｐ[N]で並列に採取した音声の特徴を表す。

図１の入力装置２２は、音声合成装置１００に対する指示の入力のために利用者が操作する機器（例えばマウスやキーボード）である。表示装置（例えば液晶表示器）２４は、制御装置１０（表示制御部３４）による制御のもとに各種の画像を表示する。音出力装置２６は、制御装置１０から供給される音声信号ＳOUTに応じた音波を放射する放音機器（例えばスピーカやヘッドホン）である。

制御装置１０の情報生成部３２は、音声の合成に使用される音楽情報（スコアデータ）ＱAを、利用者による入力装置２２の操作に応じて生成または編集して記憶装置１２に格納する。図３の部分(A)は、音楽情報ＱAの内容を例示する模式図である。音楽情報ＱAは、音声合成装置１００が合成すべき複数の音声（以下「指定音」という）を時系列に指定するデータ系列である。図３の部分(A)に示すように、音楽情報ＱAにおいては、時系列に配列された複数の指定音の各々について、音高（音符名）と発音時間（発音の始点および終点）と音声素片とが指定される。

図１の表示制御部３４は、画像を生成して表示装置２４に表示させる。表示制御部３４は、例えば、利用者が音楽情報ＱAを編集（作成）または確認するための音楽編集画像（図４）や、合成音の仮想的な受音の位置を利用者が可変に設定するための受音設定画像（図５）を表示装置２４に表示させる。

音楽情報ＱAの編集を開始するための操作が入力装置２２に付与されると、表示制御部３４は、図４の音楽編集画像を表示装置に表示させる。図４に示すように、音楽編集画像５０は、音高に対応する縦軸と時間に対応する横軸とが設定されたピアノロール型の作業領域５２を含む。利用者は、音楽編集画像５０を確認しながら入力装置２２を適宜に操作することで各指定音の音高と発音時間とを指定する。表示制御部３４は、利用者が指定した指定音に対応する図形（以下「指示子」という）ＣAを作業領域５２内に配置する。作業領域５２の縦軸（音高）の方向における指示子ＣAの位置は、利用者が指定した音高に応じて選定され、横軸（時間）の方向における指示子ＣAの位置や寸法は、利用者が指定した発音時間（発音点や時間長）に応じて選定される。

利用者が指定音を選定するたびに、情報生成部３２は、利用者が指示した音高と発音時間とを音楽情報ＱAにおける当該指定音の音高および発音時間として記憶装置１２に格納する。また、利用者は、入力装置２２を適宜に操作することで、作業領域５２内の各指示子ＣA（各指定音）について歌詞の文字を指定する。情報生成部３２は、利用者が指定音に対して指定した文字に対応する音声素片を当該指定音に対応させて音楽情報ＱAに格納する。

図１の音声合成部４２は、音声データ群Ｇを利用して音声（音声信号ＳOUT）を合成する。さらに詳述すると、音声合成部４２は、音声データ群Ｇの音声の収録中に仮想的な受音点（収音機器）を空間Ｒ内に設置したと仮定したときに当該受音点にて収音されるべき音声を合成する。設定部４４は、仮想的な受音点を規定する受音情報ＱBを、利用者による入力装置２２の操作に応じて設定して記憶装置１２に格納する。図３の部分(B)に示すように、受音情報ＱBは、受音点の位置ＰUと指向特性の種類（以下「指向態様」という）ｔUと受音感度ｈUと指向方向ｄUとを含んで構成される。受音情報ＱBの各変数の設定について以下に詳述する。

受音情報ＱBの生成または編集を開始するための操作が入力装置２２に付与されると、表示制御部３４は、図５の受音設定画像６０を表示装置２４に表示させる。図５に示すように、受音設定画像６０は、作業領域６２と操作領域６４とを含んで構成される。操作領域６４の領域６４１には、実際に編集（作成）の対象となる受音情報ＱBの識別子（図５の例示では“My Mic”というファイル名）が表示される。利用者は、入力装置２２を操作して領域６４１内の識別子を変更することで、設定部４４による編集（作成）の対象となる受音情報ＱBを選択することが可能である。

作業領域６２は、音声データ群Ｇの収録時に使用された図２の空間Ｒに対応した形状の領域である。利用者は、入力装置２２を適宜に操作することで、仮想的な受音点Ｕを配置すべき位置ＰUを作業領域６２内にて任意に選定する。位置ＰUは、作業領域６２に設定されたｘ-ｙ平面での座標(xU,yU)として規定される。

利用者は、受音点Ｕにおける指向態様ｔU（位置ＰUに配置された仮想的な収音機器の指向特性）を入力装置２２に対する操作で可変に指定する。例えば、表示制御部３４は、図５に示すように、指向態様ｔUに関する複数の候補（ultra cardioidやhyper cardioid）のリスト６２２を表示装置２４に表示する。入力装置２２を操作することで利用者がひとつの指向態様ｔUをリスト６２２から選択すると、表示制御部３４は、利用者が選択した指向態様ｔUを可視化した図形（以下「指向パターン」という）ＣBを作業領域６２内の位置ＰUに配置する。例えば単一指向性（cardioid）が選択された場合、図５に例示するように単一指向性を表すカージオイド形状（心臓型）の指向パターンＣBが位置ＰUに配置される。

また、利用者は、受音点Ｕにおける受音感度ｈU（位置ＰUに配置された仮想的な収音機器のゲイン）と、受音点Ｕにおける受音の指向方向ｄU（位置ＰUに配置された仮想的な収音機器の指向特性）とを入力装置２２に対する操作で可変に指定する。表示制御部３４は、図５に示すように、利用者が指定した指向方向ｄUに指向パターンＣBを回転する。

設定部４４は、利用者が図５の操作子（Add）６４２を操作するたびに、利用者が指示した変数（位置ＰU，指向態様ｔU，受音感度ｈU，指向方向ｄU）を、領域６４１内の識別子に対応する受音情報ＱBに反映させる。すなわち、設定部４４は、記憶装置１２に格納された受音情報ＱBを利用者からの指示に応じて可変に設定する。なお、以上においては利用者が受音感度ｈUを直接的に指定する場合を例示したが、複数の選択肢（例えば高感度／中感度／低感度といった複数の選択肢）のうち利用者が選択した選択肢から設定部４４が受音感度ｈUの数値を特定する構成も採用される。

操作子（Delete）６４３が操作されると、設定部４４は、領域６４１内の識別子に対応する受音情報ＱBを記憶装置１２から削除する。操作子（Play）６４４が操作されると、音声合成部４２は、編集中の受音情報ＱBを利用して所定の音声素片の音声信号ＳOUTを合成する。利用者は、音出力装置２６から再生される合成音を随時に受聴（試聴）しながら受音情報ＱBを編集することで所望の受音情報ＱBを生成することが可能である。一方、操作子（OK）６４５が設定されると編集中の受音情報ＱBが確定したうえで受音設定画像６０が消去され、操作子（Cancel）６４６が操作されると、直前の操作子６４２の操作後に実行された設定の内容が設定の内容が受音情報ＱBに反映されずに受音設定画像６０が消去される。

図１の音声合成部４２は、音声データ群Ｇ（音声データＤ[1]〜Ｄ[N]）と音楽情報ＱAと受音情報ＱBとを利用して音声（音声信号ＳOUT）を合成する。さらに詳述すると、音声合成部４２は、音楽情報ＱAの発音時間の順番で各指定音（以下では特に「選択指定音」という）を順次に選択する一方、音楽情報ＱAで選択指定音に指定された音声素片の音声素片データＤSを音声データ群ＧのＮ個の音声データＤ[1]〜Ｄ[N]の各々について記憶装置１２から取得する。そして、音声合成部４２は、記憶装置１２から取得したＮ個の音声素片データＤSを受音情報ＱBに応じて利用することで音声信号ＳOUTを生成する。記憶装置１２に複数の受音情報ＱBが記憶されている場合、音声合成部４２は、利用者が入力装置２２の操作で選択した受音情報ＱBを音声の合成に使用する。

図６には、選択指定音の音声素片に応じて記憶装置１２から取得されたＮ個の音声素片データＤS（ＤS[1]〜ＤS[N]）が図示されている。音声データＤ[i]から抽出された音声素片データＤS[i]は周波数スペクトルＳ[i]と包絡線Ｅ[i]とを表す。音声合成部４２は、図６に示すように、包絡線Ｅ[1]〜Ｅ[N]から包絡線ＥAを生成するとともに周波数スペクトルＳ[1]〜Ｓ[N]から周波数スペクトルＳAを生成する調整部４６を含む。なお、調整部４６の具体的な動作については後述する。

図７は、音声合成部４２の動作を説明するための概念図である。図７の部分(A)に示すように、調整部４６が生成する周波数スペクトルＳAには、音声の基本周波数（ピッチ）Ｐ0と複数の倍音周波数の各々とに対応する各周波数に局所的ピークｐkが存在する。音声合成部４２は、調整部４６が生成した周波数スペクトルＳAから局所的ピークｐkを検出するとともに、周波数スペクトルＳAのうち各局所的ピークｐkを周波数軸上の中心として所定の帯域幅にわたる分布（以下「局所的ピーク分布」という）Ａを特定する。

音声合成部４２は、音高変換処理と強度調整処理とを順次に実行する。音高変換処理は、周波数スペクトルＳAを周波数軸の方向に伸長または短縮する処理である。すなわち、音声合成部４２は、音楽情報ＱAにて選択指定音に指定された音高ＰXを周波数スペクトルＳAの基本周波数Ｐ0で除算した変換比ｋ（ｋ＝ＰX／Ｐ0）を算定し、図７の部分(B)に示すように、変換比ｋに応じた比率で周波数スペクトルＳAを周波数軸の方向に伸長（変換比ｋが「１」を上回る場合）または短縮（変換比ｋが「１」を下回る場合）することで周波数スペクトルＳBを生成する。例えば、音声合成部４２は、周波数スペクトルＳAの各局所的ピークｐkが当該局所的ピークｐkの周波数と変換比ｋとの乗算値の周波数に位置するように周波数スペクトルＳAの各局所的ピーク分布Ａを周波数軸上で移動するとともに、移動前の各局所的ピーク分布Ａの間隙の成分を周波数軸に沿って伸長または縮小したうえで移動後の各局所的ピーク分布Ａの間隙に配置することで周波数スペクトルＳBを生成する。

強度調整処理は、伸縮後の周波数スペクトルＳBの強度（振幅）を調整することで周波数スペクトルＳCを生成する処理である。強度調整処理には、調整部４６が生成した包絡線ＥAが使用される。さらに詳述すると、音声合成部４２は、図７の部分（C）に示すように、周波数スペクトルＳBの各局所的ピークｐkを連結した曲線が包絡線ＥAに合致する（つまり、各局所的ピークｐkの頂点が包絡線ＥAの線上に位置する）ように周波数スペクトルＳBの強度を局所的ピーク分布Ａ毎に増減することで周波数スペクトルＳCを生成する。すなわち、周波数スペクトルＳBの各局所的ピークｐkの強度は、包絡線ＥAのうち当該局所的ピークｐkに相当する周波数での強度に合致するように調整される。以上の手順で生成された周波数スペクトルＳCを時間領域の波形に変換（逆フーリエ変換）したうえで時間軸に沿って連結することで音声信号ＳOUTが生成される。なお、以上に例示した音声の合成については特開2007-240564号公報にも開示されている。

次に、調整部４６による包絡線ＥAおよび周波数スペクトルＳAの算定について詳述する。調整部４６は、図６に示すように、音声データ群Ｇのうち選択指定音の音声素片に対応するＮ個の音声素片データＤS[1]〜ＤS[N]が表す包絡線Ｅ[1]〜Ｅ[N]の加重和を包絡線ＥAとして算定する。さらに詳述すると、包絡線ＥAにおける各周波数ｆでの強度ＶE(f)は、以下の式(1)で表現されるように、包絡線Ｅ[i]における周波数ｆでの強度ｖE_i(f)と加重値Ｗ[i]との乗算値をＮ個の包絡線Ｅ[1]〜Ｅ[N]について加算した数値（加重和）として定義される。調整部４６は、以下の式(1)の演算を実行することで包絡線Ｅ[1]〜Ｅ[N]に応じた包絡線ＥAを生成する。
ＶE(f)＝Ｗ[1]・ｖE_1(f)＋Ｗ[2]・ｖE_2(f)＋……＋Ｗ[N]・ｖE_N(f) ……(1)

同様に、調整部４６は、選択指定音の音声素片に対応するＮ個の音声素片データＤS[1]〜ＤS[N]が表す周波数スペクトルＳ[1]〜Ｓ[N]の加重和を周波数スペクトルＳAとして算定する。さらに詳述すると、周波数スペクトルＳAにおける各周波数ｆでの強度ＶS(f)は、以下の式(2)で表現されるように、周波数スペクトルＳ[i]における周波数ｆでの強度ｖS_i(f)と加重値Ｗ[i]との乗算値をＮ個の周波数スペクトルＳ[1]〜Ｓ[N]について加算した数値（加重和）として定義される。調整部４６は、以下の式(2)の演算を実行することで周波数スペクトルＳ[1]〜Ｓ[N]に応じた周波数スペクトルＳAを生成する。
ＶS(f)＝Ｗ[1]・ｖS_1(f)＋Ｗ[2]・ｖS_2(f)＋……＋Ｗ[N]・ｖS_N(f) ……(2)

式(1)における包絡線Ｅ[i]の強度ｖE_i(f)と式(2)における周波数スペクトルＳ[i]の強度ｖS_i(f)とに対する加重値Ｗ[i]は、音声データＤ[i]にて指定される位置Ｐ[i]（すなわち収録時における収音機器Ｍ[i]の位置）と設定部４４が設定した受音情報ＱBとに応じて決定される。さらに詳述すると、加重値Ｗ[i]は、係数α[i]と係数β[i]との乗算値である（Ｗ[i]＝α[i]・β[i]）。係数α[i]は、位置Ｐ[i]と仮想的な受音点Ｕの位置ＰUとの距離に応じて算定される。また、係数β[i]は、位置ＰUに対する位置Ｐ[i]の方向と受音点Ｕでの受音の指向特性（指向態様ｔU，受音感度ｈU，指向方向ｄU）とに応じて算定される。調整部４６は、以下に説明する手順で係数α[i]および係数β[i]を算定する。

まず、係数α[i]の算定について説明する。調整部４６は、図８に示すように、音声の収録時における空間Ｒ内の収音機器Ｍ[i]の位置Ｐ[i]と受音情報ＱBが指定する受音点Ｕの位置ＰUとの距離Ｌ[i]をＮ個の位置Ｐ[1]〜Ｐ[N]の各々について算定する。距離Ｌ[i]は、例えば、ｘ-ｙ平面における位置Ｐ[i]の座標(xi,yi)と位置ＰUの座標(xU,yU)とから算定されるユークリッド距離である。そして、調整部４６は、以下の式(3)で定義されるように、Ｎ個の位置Ｐ[1]〜Ｐ[N]の各々について算定された距離Ｌ[1]〜Ｌ[N]の逆数の総和に対する距離Ｌ[i]の逆数の相対比を係数α[i]として算定する。

式(3)から理解されるように、受音点Ｕの位置ＰUと収録時の収音機器Ｍ[i]の位置Ｐ[i]とが近い（距離Ｌ[i]が小さい）ほど係数α[i]は増加する。したがって、利用者が指定した受音点Ｕ（位置ＰU）に近い位置Ｐ[i]にて収録された音声データＤ[i]の音声素片データＤS[i]（包絡線Ｅ[i]および周波数スペクトルＳ[i]）ほど、調整部４６が生成する包絡線ＥAや周波数スペクトルＳAに対する影響は大きい。

次に、係数β[i]の算定について説明する。調整部４６は、図９に示すように、受音情報ＱBにて指定された受音点Ｕの位置ＰUからみた各収音機器Ｍ[i]の位置Ｐ[i]の方向と受音情報ＱBにて指定された指向方向ｄUとの仰角の角度θ[i]をＮ個の位置Ｐ[1]〜Ｐ[N]の各々について算定する。指向方向ｄUは、角度θ[i]の基準（θ[i]＝０）となる方向である。角度θ[i]の算定には、受音情報ＱBにて指定された位置ＰU（座標(xU,yU)）と音声データＤ[i]にて指定された位置Ｐ[i]（座標(xi,yi)）とが使用される。

次いで、調整部４６は、受音情報ＱBにて指定された指向態様ｔUに対応する感度関数を使用して、受音点Ｕに対して角度θ[i]から到来する音波に対する感度ｒ[i]を算定する。感度関数は、受音点Ｕに各方向から到来する音波に対する感度を定義する関数である。例えば、指向態様ｔUとして単一指向性（カージオイド型）が指定された場合には式(4A)の感度関数が使用され、指向態様ｔUとして無指向性が指定された場合には式(4B)の感度関数が使用され、指向態様ｔUとして双指向性が指定された場合には式(4C)の感度関数が使用される。
ｒ[i]＝1/2・cosθ[i]＋1/2 ……(4A)
ｒ[i]＝１ ……(4B)
ｒ[i]＝cosθ[i] ……(4C)

調整部４６は、以下の式(5)で定義されるように、Ｎ個の位置Ｐ[1]〜Ｐ[N]の各々について算定された感度ｒ[1]〜ｒ[N]の総和に対する感度ｒ[i]の相対比と、受音情報ＱBにて指定された受音感度ｈUとの乗算値を係数β[i]として算定する。

式(5)から理解されるように、感度ｒ[i]が大きいほど係数β[i]は増加する。したがって、利用者が指定した指向態様ｔUおよび指向方向ｄUの受音点Ｕ（位置ＰU）に対して受音の感度が高い方向にある位置Ｐ[i]で採取された音声データＤ[i]の音声素片データＤS[i]（包絡線Ｅ[i]および周波数スペクトルＳ[i]）ほど、調整部４６が生成する包絡線ＥAや周波数スペクトルＳAに対する影響は大きい。

以上に説明したように、本形態においては、音声素片データＤS[i]の指定する包絡線Ｅ[i]や周波数スペクトルＳ[i]が空間Ｒでの収音点（収音機器Ｍ[i]）の位置Ｐ[i]と利用者が指定した位置ＰUとの関係（距離Ｌ[i]および角度θ[i]）に応じて加重されたうえで包絡線ＥAや周波数スペクトルＳAの生成に利用される。したがって、仮想的な受音点Ｕを空間Ｒの位置ＰUに設置したと仮定したときに当該受音点Ｕにて収音されるべき音声を合成することが可能である。さらに、受音点Ｕにおける受音特性（指向態様ｔU，受音感度ｈU，指向方向ｄU）が利用者からの指示に応じて可変に設定されるから、利用者の所望の特性の収音機器を空間Ｒ内に仮想的に配置した場合の音声を合成できるという利点がある。

＜Ｂ：第２実施形態＞
次に、本発明の第２実施形態について説明する。なお、以下の各形態において第１実施形態と同等の要素については、以上と共通の符号を付して各々の詳細な説明を適宜に省略する。

図１０は、本形態における受音設定画像６０の模式図である。図１０に示すように、入力装置２２に対する利用者からの操作に応じて複数（Ｋ個）の受音点Ｕが作業領域６２に配置される。設定部４４は、受音点Ｕの位置ＰUと指向態様ｔUと受音感度ｈUと指向方向ｄUとを、入力装置２２に対する操作に応じてＫ個の受音点Ｕの各々について個別に設定する。記憶装置１２が記憶する受音情報ＱBは、図１１に示すように、設定部４４がＫ個の受音点Ｕ（Ｕ1，Ｕ2，……，ＵK）について設定した各変数（位置ＰU，指向態様ｔU，受音感度ｈU，指向方向ｄU）を含む。

調整部４６は、Ｋ個の受音点Ｕの各々について、受音情報ＱBのうち当該受音点Ｕに対応する変数に応じた包絡線ＥAおよび周波数スペクトルＳAを第１実施形態と同様の方法で生成する。音声合成部４２は、各受音点Ｕについて調整部４６が算定した包絡線ＥAと周波数スペクトルＳAとに応じた音声信号ＳOUTを、Ｋ個の受音点Ｕの各々について第１実施形態と同様の方法で生成する。以上の手順で生成されたＫ系統の音声信号ＳOUTは、音声合成部４２にて相互に混合されたうえで音出力装置２６に出力される。以上の構成によれば、第１実施形態と同様の効果に加えて、空間Ｒ内の複数の受音点Ｕにて収音されるべき音声を合成できるという利点がある。

＜Ｃ：第３実施形態＞
図１２は、本発明の第３実施形態に係る音声合成装置１００のブロック図である。図１２に示すように、本形態の記憶装置１２は、複数の音声データ群Ｇと複数の音声データＤ0とを記憶する。複数の音声データ群Ｇの各々は、相異なる特性の音声（例えば、相異なる発声者ｕによる発声音や相異なる空間Ｒ内での発声音）から個別に生成され、第１実施形態と同様に、別個の位置で並列に採取された音声の特徴を表す複数の音声データＤで構成される。複数の音声データＤ0の各々は、音声データＤと同様に、１個の収音機器で収音された音声の特徴を音声素片毎に表す複数の音声素片データＤSで構成される。

図１３は、音楽編集画像５０の模式図である。利用者は、入力装置２２を適宜に操作することで、作業領域５２内の各指示子ＣA（各指定音）について所望の音声データ群Ｇまたは音声データＤ0を割当てる。情報生成部３２は、利用者が指定音に割当てた音声データ群Ｇまたは音声データＤ0の識別子を当該指定音に対応させて音楽情報ＱAに格納する。音声合成部４２は、音楽情報ＱAにて音声データ群Ｇの識別子が設定された選択指定音については、当該音声データ群Ｇと受音情報ＱBとを利用して第１実施形態と同様の方法で音声信号ＳOUTを合成し、音楽情報ＱAにて音声データＤ0の識別子が設定された選択指定音については、当該音声データＤ0の音声素片データＤSが表す包絡線Ｅおよび周波数スペクトルＳを包絡線ＥAおよび周波数スペクトルＳAとして利用することで図７と同様の方法で音声信号ＳOUTを合成する。

図１３に示すように、表示制御部３４は、音声データ群Ｇが割当てられた指示子ＣAと音声データＤ0が割当てられた指示子ＣAとを、相異なる態様で表示装置２４に表示させる。指示子ＣAの態様とは、利用者が視覚的に認識できる指示子ＣAの状態を意味する。例えば、指示子ＣAの表示色（色相，明度，再度）や形状やサイズなどが指示子ＣAの態様の典型例である。利用者は、各指示子ＣAの態様を確認することで、音声データ群Ｇを割当てた指定音と音声データＤ0を割当てた指定音とを区別することが可能である。以上の形態によっても第１実施形態と同様の効果が実現される。

＜Ｄ：変形例＞
以上の各形態には様々な変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。なお、以上の各形態や以下の各変形例から２以上の態様を任意に選択して組合わせてもよい。

（１）変形例１
以上の各形態においては音声データ群Ｇの生成時に空間Ｒ内で複数の発声者ｕが発声する場合（すなわち合唱音の音声データ群Ｇを生成する場合）を例示したが、ひとりの発声者ｕによる発声音（独唱音）から音声データ群Ｇを生成する構成も好適である。また、以上の各形態においては人間の発声音を収音して音声データＤ（第３実施形態の音声データＤ0）を生成したが、音声データＤ（Ｄ0）が楽器の演奏音を表す構成も採用される。

（２）変形例２
以上の各形態においては収音点（収音機器Ｍ[i]）が空間Ｒ内に平面的（２次元的）に配置された場合を例示したが、収音点（収音機器Ｍ[i]）を空間Ｒ内に３次元的に配置した場合にも以上の各形態が同様に適用される。収音点（収音機器Ｍ[i]）を３次元的に配置した場合、位置Ｐ[i]はｘ-ｙ-ｚ空間（空間Ｒ）における３次元的な座標として規定される。

（３）変形例３
音声合成部４２による音声の合成には公知の技術が任意に採用される。合成音に受音情報ＱBを反映させる方法は、音声合成部４２による合成の方法（合成に使用する変数）に応じて適宜に選定される。また、以上の各形態においては包絡線Ｅ[1]〜Ｅ[N]および周波数スペクトルＳ[1]〜Ｓ[N]の双方に受音情報ＱB（加重値Ｗ[1]〜Ｗ[N]）を反映させたが、例えば、包絡線ＥAを図６の方法で受音情報ＱBに応じて生成する一方、周波数スペクトルＳ[1]〜Ｓ[N]の何れか（または周波数スペクトルＳ[1]〜Ｓ[N]の平均）を図７の周波数スペクトルＳAとして利用することで音声信号ＳOUTを生成する構成も採用される。

（４）変形例４
受音情報ＱBの内容は以上の例示から適宜に変更される。例えば、指向態様ｔUと受音感度ｈUと指向方向ｄUとのうちの少なくともひとつが省略される。指向態様ｔUを省略した構成においては係数β[i]の算定に１種類の感度関数のみが適用され、受音感度ｈUを省略した構成においては式(5)の変数ｈUが所定値（例えば「１」）に設定される。また、係数α[i]および係数β[i]の一方のみを加重値Ｗ[i]として式(1)や式(2)の演算を実行する構成も好適である。以上の例示から理解されるように、音声データＤ[i]に対応する収音の位置Ｐ[i]と受音点Ｕの位置ＰUとの関係（距離Ｌ[i]や角度θ[i]）に応じて複数の音声データＤ（Ｄ[1]〜Ｄ[N]）の各々を処理することで音声を合成する構成が本発明においては好適に採用される。

（５）変形例５
音声素片データＤSの内容は以上の例示（周波数スペクトルＳおよび包絡線Ｅ）に限定されない。例えば、音声素片データＤSが音声素片の時間軸上の波形を表す構成も採用される。音声素片データＤSが音声素片の波形を表す場合、音声合成部４２は、例えば離散フーリエ変換を含む周波数分析を音声素片データＤSに実行することで周波数スペクトルＳや包絡線Ｅを算定したうえで音声の合成に使用する。

本発明の第１実施形態に係る音声合成装置のブロック図である。音声データの生成を説明するための概念図である。音楽情報および受音情報の模式図である。音楽編集画像の模式図である。受音設定画像の模式図である。音声合成部（調整部）の動作を説明するための模式図である。音声合成部の動作を説明するための模式図である。係数α[i]の算定について説明するための模式図である。係数β[i]の算定について説明するための模式図である。本発明の第２実施形態における受音設定画像の模式図である。受音情報の模式図である。本発明の第３実施形態に係る音声合成装置のブロック図である。音楽編集画像の模式図である。

符号の説明

１００……音声合成装置、１０……制御装置、１２……記憶装置、２２……入力装置、２４……表示装置、２６……音出力装置、３２……情報生成部、３４……表示制御部、４２……音声合成部、４４……設定部、４６……調整部、Ｇ……音声データ群、Ｄ（Ｄ[1]〜Ｄ[N]），Ｄ0……音声データ、ＤS……音声素片データ、ＳOUT……音声信号、ＱA……音楽情報、ＱB……受音情報。

Claims

相異なる収音点で収音された複数の音声について音声素片毎の音声素片データを含む音声データ群を利用して音声を合成する音声合成装置であって、
受音点の位置を利用者からの指示に応じて可変に設定する設定手段と、
時系列に指定される音声素片毎に、前記音声データ群のうち当該音声素片の複数の音声素片データを、各々に対応する前記収音点の位置と前記受音点の位置との関係に応じて処理することで時間領域の波形を生成し、時間軸上で各波形を連結して音声を合成する音声合成手段と
を具備する音声合成装置。
前記設定手段は、前記受音点における指向特性の種類を、複数の候補から利用者が選択した種類に設定し、
前記音声合成手段は、前記複数の音声素片データを、各々に対応する前記収音点に対する前記受音点からの方向について前記指向特性が示す感度に応じて処理することで音声を合成する
請求項１の音声合成装置。
前記設定手段は、複数の受音点の位置を利用者からの指示に応じて可変に設定し、
前記音声合成手段は、前記複数の受音点の各々について前記音声の合成を実行し、前記各受音点について合成された音声を混合する
請求項１または請求項２の音声合成装置。
前記音声データ群と、１個の収音点で収音された音声素片データを音声素片毎に含む特定音声データとを利用して音声を合成する音声合成装置であって、
前記音声合成手段は、時系列に指定される音声素片毎に、前記音声データ群のうち当該音声素片の複数の音声素片データを、各々に対応する前記収音点の位置と前記受音点の位置との関係に応じて処理することで時間領域の波形を生成し、時間軸上で各波形を連結して音声を合成する動作と、前記特定音声データのうち時系列に指定される音声素片の音声素片データを利用して音声を合成する動作とを選択的に実行する
請求項１から請求項３の何れかの音声合成装置。
前記音声データ群は、複数の発声者が並列に発声した合唱音を相異なる収音点で収音した複数の音声について音声素片毎の音声素片データを含む
請求項１から請求項４の何れかの音声合成装置。
前記音声合成手段は、前記複数の音声素片データの各々が示す音声の周波数スペクトルの包絡線を、当該音声素片データに対応する前記収音点の位置と前記受音点の位置との関係に応じた係数で加重して加算することで新たな包絡線を算定し、当該新たな包絡線をもつ音声を生成する
請求項１から請求項５の何れかの音声合成装置。
相異なる収音点で収音された複数の音声について音声素片毎の音声素片データを含む音声データ群を利用して音声を合成するために、コンピュータに、
受音点の位置を利用者からの指示に応じて可変に設定する設定処理と、
時系列に指定される音声素片毎に、前記音声データ群のうち当該音声素片の複数の音声素片データを、各々に対応する前記収音点の位置と前記受音点の位置との関係に応じて処理することで時間領域の波形を生成し、時間軸上で各波形を連結して音声を合成する音声合成処理と
を実行させるプログラム。