JP5509536B2

JP5509536B2 - 音声データ処理装置およびプログラム

Info

Publication number: JP5509536B2
Application number: JP2008105904A
Authority: JP
Inventors: 啓嘉山; 隼人大下
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2008-04-15
Filing date: 2008-04-15
Publication date: 2014-06-04
Anticipated expiration: 2028-04-15
Also published as: JP2009258291A

Description

本発明は、音声（人間の発声音や楽器の演奏音）の合成に使用される音声データを処理する技術に関する。

音高と発音の時点および時間長とを指定する音楽情報（スコアデータ）に基づいて音声を合成する技術が従来から提案されている。利用者は、音楽情報が可視化された画像（以下「音楽情報画像」という）を表示装置で確認しながら音楽情報の編集や作成を実行する。例えば特許文献１に開示されるように、音楽情報画像は、合成の対象として指定された音声（以下「指定音」という）に対応する図形（以下「指示子」という）を時系列に配列した画像（ピアノロール）である。縦軸の方向における指示子の位置は指定音の音高に応じて選定され、横軸の方向における指示子の位置は指定音の発音の時点に応じて選定される。
特開２００４−２５８５６３号公報

音楽情報画像における各指示子は、指定音の合成に使用される歌唱音毎に個別に配置されるから、複数の歌唱者が共通の旋律を歌唱する音声（合唱音）の合成を指示する場合であっても、音楽情報画像における指示子の時系列を歌唱者毎に個別に作成して合成音を指示する必要がある。したがって、音楽情報画像において各指示子を確認（さらには音楽情報の作成や編集）する作業が利用者にとって煩雑であるという問題がある。以上においては複数の歌唱音の混合音を合成する場合を例示したが、複数の楽器による合奏音を合成する場合にも同様の問題が発生する。以上の事情を考慮して、本発明は、音楽情報画像における各指定音の確認を容易化することをひとつの目的とする。

以上の課題を解決するために、本発明に係る音声データ処理装置は、相異なる音声の合成に使用される２以上の音声データをひとつの指定音に割当てる割当手段と、各指定音に対応する指示子を音高軸と時間軸とが設定された作業領域に配置した音楽情報画像を表示装置に表示させる手段であって、割当手段が２以上の音声データを割当てた１個の指定音を１個の指示子で表示する表示制御手段とを具備する。本発明においては、割当手段が２以上の音声データを割当てたひとつの指定音が音楽情報画像のひとつの指示子で表示される。したがって、共通の指定音に割当てられた複数の音声データの各々について指示子が別個に表示される場合と比較して指定音を利用者が容易に確認できる。

本発明における「音声」とは任意の音響である。例えば人間の発声音（例えば歌唱音）や楽器の演奏音が本発明の「音声」の概念に包含される。また、「指定音」は、合成の対象として指定された音声である。指定音の指定の方法は任意である。例えば、予め用意された音楽情報にて指定音が指定される場合や利用者が任意に指定音を指定する場合がある。また、「指示子の態様」とは、視覚的に認識できる指示子の状態を意味する。例えば、指示子のサイズや表示色（色相，明度，彩度）や形状などが「指示子の態様」の概念に包含される。

本発明の好適な態様において、表示制御手段は、割当手段が割当てた音声データの組合せが相違する各指定音の指示子を相異なる態様で表示する。以上の態様においては、指定音に割当てられた音声データの組合せが相違する各指示子が相異なる態様で表示されるから、別個の組合せの音声データから生成される各指定音を利用者が音楽情報画像にて容易に区別できるという利点がある。

本発明の好適な態様において、割当手段は、ひとつの指定音に対してひとつの音声データおよび２以上の音声データを選択的に割当て可能であり、表示制御手段は、割当手段がひとつの音声データを割当てた指定音の指示子と、割当手段が２以上の音声データを割当てた指定音の指示子とを相異なる態様で表示する。以上の態様においては、単独の音声データを割当てた指定音の指示子と２以上の音声データを割当てた指定音の指示子とが相異なる態様で表示されるから、指定音に割当てられた音声データが単数であるか複数であるかを利用者が音楽情報画像にて容易に区別できるという利点がある。例えば、ひとつの音声データが単数の音声（例えばひとりの発声音やひとつの楽器の演奏音）の合成に使用される場合、利用者は、指定音が独唱音または独奏音として合成されるのか合唱音または合奏音として合成されるのかを音楽情報画像の指示子の態様から区別することができる。

本発明の好適な態様において、表示制御手段は、割当手段が割当てた音声データの組合せが共通する各指定音の指示子を共通の態様で表示する。以上の態様においては、指定音に割当てられた音声データの組合せが共通する各指示子が共通の態様で表示されるから、同種の音声（共通の組合せの音声データから合成される音声）として合成される指定音の時系列を利用者が容易に確認できるという利点がある。

本発明の好適な態様において、表示制御手段は、各指示子の態様を利用者からの指示に応じて可変に設定する。以上の態様によれば、各指示子の態様が利用者からの指示に応じて可変に設定されるから、個々の利用者の感性や嗜好に応じて直感的に確認し易い態様で各指示子を表示することが可能である。

本発明の好適な態様において、表示制御手段は、割当手段が指定音に割当てた音声データの個数に応じて当該指定音の指示子の態様を変化させる。以上の態様によれば、各指定音に割当てられた音声データの多少を利用者が視覚的に容易に確認できるという利点がある。

本発明の好適な態様に係る音声データ処理装置は、相異なる音声の合成に使用される２以上の音声データをひとつの指定音に割当てる割当手段と、割当手段がひとつの指定音に割当てた２以上の音声データの各々に対応した音声の音高の分布範囲を可変に設定する第１設定手段（例えば図８の設定部４２）と、各指定音に対応する指示子を音高軸と時間軸とが設定された作業領域に配置した音楽情報画像を表示装置に表示させる手段であって、第１設定手段が指定音に設定した分布範囲の広狭に応じて当該指定音の指示子の態様を変化させる表示制御手段とを具備する。以上の態様においては、複数の音声データの各々に対応した音声の音高の揺らぎの程度（分布範囲）を利用者が視覚的に容易に確認できる。

本発明の好適な態様に係る音声データ処理装置は、相異なる音声の合成に使用される２以上の音声データをひとつの指定音に割当てる割当手段と、割当手段がひとつの指定音に割当てた２以上の音声データの各々に対応した音声が開始する時点の分布範囲を可変に設定する第２設定手段（例えば図８の設定部４２）と、各指定音に対応する指示子を音高軸と時間軸とが設定された作業領域に配置した音楽情報画像を表示装置に表示させる手段であって、第２設定手段が指定音に設定した分布範囲の広狭に応じて当該指定音の指示子の態様を変化させる表示制御手段とを具備する。以上の態様においては、複数の音声データの各々に対応した音声が発音する時点の揺らぎの程度（分布範囲）を利用者が視覚的に容易に確認できる。

本発明の好適な態様において、利用者からの指示に応じた指示特徴量に類似する特徴量の２以上の音声データを複数の音声データから選択する選択手段を具備し、割当手段は、選択手段が選択した２以上の音声データをひとつの指定音に割当てる。以上の態様においては、指示特徴量に類似する特徴量の２以上の音声データがひとつの指定音に割当てられるから、複数の音声データの各々の音楽的な特徴量を利用者が認識していなくても、利用者の所望の特徴量の音声データの組合せを指定音に割当てることが可能となる。もっとも、指定音に割当てられる音声データの組合せを選択する方法は任意である。例えば、ひとつの指定音に割当てる２以上の音声データの各々を利用者が指定する構成や、複数の音声データからランダムに選択した２以上の音声データを指定音に割当てる構成も採用される。

指示特徴量と特徴量との類否に応じて音声データを選択する態様の具体例において、選択手段は、指示特徴量との類似度が高い順番で、利用者が可変に指示した個数の音声データを選択する。以上の態様においては、指定音に割当てられる音声データの個数が利用者からの指示に応じて可変に設定されるから、利用者の所望の規模（歌唱者や演奏者の総数）の合成音を生成できるという利点がある。

指示特徴量と特徴量との類否に応じて音声データを選択する態様において、特徴量は、例えば、音楽的な特徴に関する複数の因子について音声データの多変量解析（因子分析）で特定された複数の因子値を含む。以上の構成においては、音声の心理的な印象を特徴づける各因子の因子値が特徴量を構成するから、利用者が希望する印象の合成音を適切に生成することが可能となる。

指示特徴量は、利用者からの指示が反映された特徴量である。指示特徴量の特定の方法は本発明において任意である。例えば、複数の因子の各々について利用者が指示した因子値の集合を指示特徴量として利用する構成においては、指定音の合成に使用されるべき音声データの特徴量を利用者が精緻に指定できるという利点がある。一方、利用者が選択した音声データの特徴量を指示特徴量として利用する構成においては、利用者が音声の印象を既に認知している音声データに類似する音声データを選択できるという利点がある。

指示特徴量と特徴量との類否に応じて音声データを選択する態様の具体例において、選択手段は、特徴量が指示特徴量に類似し、かつ、利用者が選択した属性に対応する音声データを選択する。以上の態様においては、特徴量に加えて音声データの属性が選択手段による選択の基準として採用されるから、利用者の嗜好や感性にさらに合致した合成音を生成し得る音声データを容易に選択できるという利点がある。なお、音声データの属性としては、例えば、当該音声データが表す発声音の発声者の性別や年齢、あるいは当該音声データが表す演奏音の演奏に使用された楽器の種類や型式が好適である。

以上の各態様に係る音声データ処理装置は、音声データの処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムによれば、以上の各態様に係る音声データ処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

＜Ａ：第１実施形態＞
図１は、本発明の第１実施形態に係る音声データ処理装置１００Aのブロック図である。図１に示すように、音声データ処理装置１００Aは、制御装置１０と記憶装置１２と入力装置１４と表示装置１６と音出力装置１８とを具備するコンピュータシステムで実現される。

制御装置１０は、プログラムを実行する演算処理装置である。制御装置１０は、複数の要素（情報生成部２２，音声合成部２４，表示制御部２６，選択部３２，割当部３４）として機能することで音声信号ＳOUTを生成および出力する。ただし、制御装置１０の各要素は専用の電子回路（ＤＳＰ）でも実現される。音声信号ＳOUTは、入力装置１４に対する利用者からの操作に応じて合成された音声（以下「合成音」という）の波形を表す信号である。記憶装置１２は、制御装置１０が実行するプログラムや制御装置１０が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置などの公知の記録媒体が記憶装置１２として任意に採用される。

記憶装置１２には、相異なる音声の合成に使用されるｎ個（ｎは２以上の自然数）の音声データＤ（Ｄ1〜Ｄn）が格納される。本形態におけるｎ個の音声データＤの各々は別個の発声者の音声から生成される。ひとつの音声データＤは、音声を時間軸上で区分した複数の音声素片（[a]，[i]，[u]，……）の各々について採取された複数の素片データで構成される。例えば音声素片の波形を表すデータや音声素片の波形の特徴量を表すデータが素片データとして利用される。音声素片は、聴覚上で区別できる最小の単位に音声を区分した音素または複数の音素を連結した音素連鎖である。図１に示すように、各音声データＤには固有の識別子ｄA（ｄA1〜ｄAn）が付与される。

入力装置１４は、音声データ処理装置１００Aに対する指示の入力のために利用者が操作する機器（例えばマウスやキーボード）である。表示装置１６（例えば液晶表示装置）は、制御装置１０による制御のもとに各種の画像を表示する。音出力装置１８は、制御装置１０から供給される音声信号ＳOUTに応じた音波を放射する放音機器（例えばスピーカやヘッドホン）である。

図１の情報生成部２２は、合成の対象となる複数の音声（指定音）を指定する音楽情報（スコアデータ）ＳDを生成して記憶装置１２に格納する。図２は、音楽情報ＳDの模式図である。音楽情報ＳDは、複数の指定音の各々について、指定音の音高と発音時間と発音記号と識別子ｄB（ｄB1〜ｄBn）とを指定する。発音時間は、指定音の発音の始点および終点の指定を含む。

音楽情報ＳDにおいてひとつの指定音に対応する識別子ｄB（ｄB1〜ｄBn）は、当該指定音の合成に使用される音声データＤの組合せ（以下「パート」という）を識別するための符号である。指定音には、単独の音声データＤ（以下「単独パート」という）が割当てられる場合と複数の音声データＤの集合（以下「編成パート」という）が割当てられる場合とがある。単独パートが割当てられた指定音には単独の音声データＤの識別子ｄAが音楽情報ＳD内の識別子ｄBとして設定され、編成パートが割当てられた指定音には、複数の音声データＤの組合せに対して固有に付与された識別子ｄBが音楽情報ＳDに設定される。

図１の音声合成部２４は、情報生成部２２が生成した音楽情報ＳDを利用して音声信号ＳOUTを合成する。さらに詳述すると、音声合成部２４は、音楽情報ＳD内の発音時間を参照して複数の指定音の各々（以下では特に「対象指定音」という）を時系列に順次に選択する。音楽情報ＳDにて対象指定音に設定された識別子ｄBのパートが単独パートである場合、音声合成部２４は、第１に、識別子ｄBが示す音声データＤのうち音楽情報ＳDにて対象指定音に指定された発音記号に対応する素片データを記憶装置１２から取得する。第２に、音声合成部２４は、記憶装置１２から取得した素片データの音高を、音楽情報ＳDにて対象指定音に設定された音高に調整する。一方、対象指定音に設定された識別子ｄBのパートが編成パートである場合、音声合成部２４は、編成パートを構成する複数の音声データＤの各々から単独パートの場合と同様の方法で取得した素片データを音高の調整後に合成（加算）する。以上の手順で生成された素片データの時系列をＤ/Ａ変換（図示略）することで音声信号ＳOUTが生成される。したがって、単独パートが割当てられた指定音は単独の発声者の音声（独唱音）として合成され、編成パートが割当てられた指定音は複数の発声者の音声の混合音（合唱音）として合成される。

図１の表示制御部２６は、音楽情報ＳDの生成や編集に関する各種の画像を生成して表示装置１６に表示させる。例えば、表示制御部２６は、利用者が各種の項目を設定するための設定画像（図３，図５，図６）や利用者が音楽情報ＳDを確認または編集（作成）するための音楽情報画像（図４）を表示装置１６に表示させる。

図１の選択部３２は、入力装置１４に対する利用者からの操作に応じて複数の音声データＤを選択することで編成パートを構築する。編成パートの生成が利用者から指示されると、表示制御部２６は、図３の設定画像５２を表示装置１６に表示させる。設定画像５２には識別領域５２１と選択領域５２２と候補領域５２３とが配置される。識別領域５２１には、設定画像５２にて実際に編成される編成パートの識別子ｄB（図３の例示では“Cho1"という名称）が表示される。なお、識別子ｄB（例えば"Cho1"という名称）は入力装置１４に対する利用者からの操作に応じて可変に設定される。

選択領域５２２には、記憶装置１２に格納されたｎ個の音声データＤの各々の識別子ｄA（例えば"Taro"や"Jiro"といった名称）が配列される。利用者が選択領域５２２内のひとつの識別子ｄAを選択したうえで操作子（コマンドボタン）５２４（Add）を操作すると、表示制御部２６は当該識別子ｄAを候補領域５２３内に追加する。一方、利用者が候補領域５２３内のひとつの識別子ｄAを選択したうえで操作子５２５（Delete）を操作すると、表示制御部２６は当該識別子ｄAを候補領域５２３から削除する。

操作子５２６は、編成データの候補として利用者が指定したひとつまたは複数の音声データＤ（すなわち識別子ｄAが候補領域５２３内に配置された音声データＤ）の音声を利用者が視聴するための画像である。操作子５２６が操作されると、選択部３２は、候補領域５２３に識別子ｄAが配置されたひとつまたは複数の音声データＤの各々について所定の音声素片の素片データを音声合成部２４に出力する。音声合成部２４は、各素片データから生成した所定の音高の音声を混合することで音声信号ＳOUTを出力する。したがって、利用者が候補として指定したひとつまたは複数の音声データＤに対応した合成音が音出力装置１８から再生される。利用者は、音出力装置１８から再生される合成音を随時に受聴（試聴）しながら選択領域５２２内の識別子ｄAの選択や候補領域５２３内の識別子ｄAの削除を反復することで、所望の編成パートを生成することが可能である。

操作子５２７（OK）が操作されると編成パートの内容が確定する。さらに詳述すると、選択部３２は、操作子５２７の操作時に候補領域５２３内に配列されている複数の識別子ｄAを、識別領域５２１に表示された識別子ｄB（すなわち作成中の編成パートの識別子ｄB）に対応させて記憶装置１２に格納する。すなわち、選択部３２は、利用者が選択した複数の音声データＤを組合せて編成パートを生成する。図３の操作子５２８（Cancel）が操作された場合、設定画像５２における設定の内容は反映されない。

次に、図４を参照して、利用者が音楽情報ＳDを確認または編集するための音楽情報画像６０について説明する。音楽情報ＳDの表示が利用者から指示されると、表示制御部２６は、図４の音楽情報画像６０を表示装置１６に表示させる。図４に示すように、音楽情報画像６０は作業領域６２と操作領域６４とに区分される。作業領域６２は、記憶装置１２に格納された音楽情報ＳDが可視的に表示される領域である。さらに詳述すると、作業領域６２には、音高に対応する縦軸（以下「音高軸」という）と時間に対応する横軸（以下「時間軸」という）とが設定されたピアノロール型の画像が表示される。

利用者は、音楽情報画像６０を視認しながら入力装置１４を操作することで指定音の音高と発音の始点および終点とを指示する。表示制御部２６は、利用者から指示された指定音に対応した図形（以下「指示子」という）Ｐを作業領域６２内に配置する。音高軸の方向における指示子Ｐの位置は利用者が指定した音高に応じて選定され、時間軸の方向における指示子Ｐの位置は利用者が指定した発音の始点（または終点）に応じて選定される。時間軸の方向における指示子Ｐの寸法は、指定音の発音の始点から終点までの時間長に応じて選定される。以上のように指定音が指示されるたびに、情報生成部２２は、利用者が指示した音高と始点および終点とを音楽情報ＳDにおける当該指定音の音高および発音時間として記憶装置１２に格納する。

以上の処理が反復されることで、別個の指定音に対応した複数の指示子Ｐが作業領域６２内に配置される。利用者は、入力装置１４を操作することで作業領域６２内のひとつの指示子Ｐ（以下「選択指示子」という）Ｐを選択することが可能である。利用者は、入力装置１４を操作することで選択指示子Ｐについて発音記号（文字）を指示する。情報生成部２２は、利用者が指示した発音記号を選択指示子Ｐに対応する指定音の発音記号として音楽情報ＳDに格納する。

図１の割当部３４は、利用者からの指示に応じて単独パートおよび編成パートを各指定音（選択指示子Ｐ）に対して選択的に割当てる。指定音に対するパートの割当てには、図４の操作領域６４内の操作子６４１と操作子６４２とが使用される。操作子６４１は単独パートの割当てに使用され、操作子６４２は編成パートの割当てに使用される。利用者がひとつの指示子Ｐ（選択指示子Ｐ）を選択したうえで操作子６４１を操作すると、表示制御部２６は、記憶装置１２に格納されたｎ個の音声データＤの各々の識別子ｄA（ｄA1〜ｄAn）を選択の候補として操作子６４１の近傍に表示させる。割当部３４は、ｎ個の識別子ｄAのうち利用者が選択した識別子ｄAを、選択指示子Ｐに対応した指定音の識別子ｄBとして音楽情報ＳDに格納する。すなわち、割当部３４は、選択指示子Ｐに対応した指定音に単独パート（単独の音声データＤ）を割当てる。

利用者が操作子６４２を操作すると、表示制御部２６は、選択部３２が編成した複数の編成パートの各々の識別子ｄBを選択の候補として操作子６４２の近傍に表示させる。割当部３４は、複数の識別子ｄBのうち利用者が選択した識別子ｄBを、選択指示子Ｐに対応した指定音の識別子ｄBとして音楽情報ＳDに格納する。すなわち、割当部３４は、選択指示子Ｐに対応した指定音に編成パート（複数の音声データＤ）を割当てる。

作業領域６２内に配置された直後の指示子Ｐは初期的な態様（総ての指示子Ｐについて共通の態様）で表示される。利用者は、各指示子Ｐの態様（サイズや表示色（色相，明度，彩度）や形状）を入力装置１４に対する操作に応じて可変に設定することが可能である。指示子Ｐの態様の変更が利用者から指示されると、表示制御部２６は、図５の設定画像５４または図６の設定画像５６を表示装置１６に表示させる。

図５の設定画像５４は、選択指示子Ｐの枠線（輪郭線）の態様を利用者が指定するための画像である。識別領域５４０には、割当部３４が選択指示子Ｐの指定音に割当てたパート（単独パートまたは編成パート）の識別子ｄBが表示される。識別領域５４０に表示される識別子ｄBは入力装置１４に対する操作に応じて変更される。

利用者は、設定画像５４を視認しながら入力装置１４を適宜に操作することで、選択指示子Ｐの枠線の態様に関する複数の項目（線種，線幅，線色など）の各々について複数の候補の何れかを選択する。例えば、利用者は、設定画像５４の操作子５４１を操作することで表示される複数の候補のなかから選択指示子Ｐの枠線の線種（例えば実線や波線や破線など）を選択する。同様に、選択指示子Ｐの枠線の線幅が操作子５４２に対する操作に応じて指定され、選択指示子Ｐの枠線の線色が操作子５４３に対する操作に応じて指定され、時間軸の方向における選択指示子Ｐの両端部の形状（角状や円弧状）が操作子５４４に対する操作に応じて指定される。また、選択指示子Ｐの枠線の透過度（枠線を透過して背景が視認される度合）が操作子５４５に対する操作に応じて指定される。選択指示子Ｐの枠線の線幅や透過度については利用者が数値を直接に指定することも可能である。利用者が各項目を指定または変更するたびに、表示制御部２６は、当該指定を実際に枠線に反映させた指示子Ｐを領域５４６に表示する。

選択指示子Ｐの枠線の態様は、利用者が操作子５４７（OK）を操作した段階で設定画像５４に指定されている態様に確定する。すなわち、操作子５４７が操作されると、表示制御部２６は、音楽情報画像６０の作業領域６２に実際に配置された選択指示子Ｐの枠線を設定画像５４で設定された態様に変更する。さらに、表示制御部２６は、作業領域６２に配置された複数の指示子Ｐのうち割当部３４が選択指示子Ｐと共通のパートを割当てた総ての指示子Ｐ（すなわち、識別領域５４０に表示された識別子ｄBのパートが割当てられた指示子Ｐ）の枠線を、設定画像５４にて選択指示子Ｐの枠線に指定された態様に変更する。なお、操作子５４８（Cancel）が操作された場合、設定画像５４における設定の内容は反映されない。

一方、図６の設定画像５６は、選択指示子Ｐの枠線の内側の領域（以下「内部領域」という）の態様を利用者が指定するための画像である。識別領域５６０には、割当部３４が選択指示子Ｐの指定音に割当てたパート（単独パートまたは編成パート）の識別子ｄBが表示される。識別領域５６０に表示される識別子ｄBは入力装置１４に対する操作に応じて変更される。

利用者は、設定画像５６を確認しながら入力装置１４を適宜に操作することで、選択指示子Ｐの内部領域の態様に関する複数の項目（色彩など）の各々について複数の候補の何れかを選択する。さらに詳述すると、内部領域の色彩が操作子５６１に対する操作に応じて指定され、内部領域に表示される網掛の種類（ハッチングのパターン）が操作子５６２に対する操作に応じて指定され、内部領域内の網掛の色彩が操作子５６３に対する操作に応じて指定され、内部領域の透過度が操作子５６４に対する操作に応じて指定される。利用者が各項目を指定または変更するたびに、表示制御部２６は、当該指定を実際に内部領域に反映させた指示子Ｐを領域５６５に表示する。

設定画像５６の操作子５６６（OK）が操作されると、表示制御部２６は、音楽情報画像６０の作業領域６２に実際に配置された選択指示子Ｐの内部領域を設定画像５６で設定された態様に変更する。さらに、表示制御部２６は、作業領域６２に配置された複数の指示子Ｐのうち割当部３４が選択指示子Ｐと共通のパートを割当てた総ての指示子Ｐ（すなわち、識別領域５６０に表示された識別子ｄBのパートが割当てられた指示子Ｐ）の内部領域を、設定画像５６にて選択指示子Ｐの内部領域に指定された態様に変更する。なお、操作子５６７（Cancel）が操作された場合、設定画像５６における設定の内容は反映されない。

以上のように、割当部３４の割当てたパートが共通する各指定音の指示子Ｐは共通の態様で表示される。利用者は選択指示子Ｐを任意に指定して態様を変更できるから、表示制御部２６は、別個のパートが割当てられた各指定音の指示子Ｐを相異なる態様で表示することが可能である。例えば、割当部３４が単独パートを割当てた指定音の指示子Ｐと、割当部３４が編成パートを割当てた指定音の指示子Ｐとが相異なる態様で表示される。

以上の態様においては、複数の音声データＤ（編成パート）が割当てられた指定音が音楽情報画像６０内のひとつの指示子Ｐで表示される。したがって、ひとつの指定音に割当てられた複数の音声データＤの各々について指示子Ｐが別個に表示される場合と比較して音楽情報画像６０が簡素化され、指定音の時系列を利用者が容易に確認（さらには編集）できる。しかも、単独パートの指定音の指示子Ｐと編成パートの指定音の指示子Ｐとを相異なる態様で表示できるから、各指定音が単独パートで再生される（指定音が独唱音として合成される）のか編成パートで再生される（指定音が合唱音として合成される）のかを利用者が直感的に把握できるという利点もある。

＜Ｂ：第２実施形態＞
次に、本発明の第２実施形態について説明する。なお、以下の各形態において第１実施形態と共通する要素については以上と同じ符号を付して各々の詳細な説明を適宜に省略する。

本形態の表示制御部２６は、割当部３４が指定音に割当てた編成パートを構成する音声データＤの個数Ｎ（すなわち編成パートの音声の総数）に応じて当該指定音の指示子Ｐの態様を変化させる。音声データＤの個数Ｎに応じて制御される指示子Ｐの態様は任意であるが、例えば、図７の部分(A)に示すように編成パートの音声データＤの個数Ｎが多いほど指示子Ｐの枠線を太い線幅に設定する構成や、図７の部分(B)に示すように編成パートの音声データＤの個数Ｎが多いほど指示子Ｐの枠線や内部領域を濃い色彩に設定する構成が好適である。また、例えば指示子Ｐの枠線を波線で表示する場合には、図７の部分(C)に示すように、編成パートの音声データＤの個数Ｎが多いほど枠線の振幅を増加させる構成も採用される。

以上の形態においては、編成パートを構成する音声データＤの個数Ｎに応じて各指示子Ｐの態様が制御されるから、指定音の合成に使用される音声データＤの個数Ｎ（すなわち合成音における音声の混合数）を利用者が直感的に把握できるという利点がある。なお、以上の形態においては個数Ｎに応じて指示子Ｐの態様を制御したが、例えば、指定音に割当てられた音声データＤの特性に応じて表示制御部２６が当該指定音の指示子Ｐの態様を可変に制御する構成も採用される。例えば、表示制御部２６は、音声データＤが表す音声の音量や音高が高いほど指示子Ｐの枠線や内部領域の色彩の濃度を増加させる。

＜Ｃ：第３実施形態＞
複数の発声者が同じ旋律を合唱する場合、各発声者の音声の音高や発音の時点には多少のバラツキが発生するのが通常である。したがって、編成パートを構成する複数の音声データＤの各々に対応した音声の音高や発音の時点が完全に合致すると、合成音が聴感上において不自然な印象となる場合がある。そこで、本形態においては、各音声データＤに対応した音声の音高や発音の時点にバラツキ（揺らぎ）を付与する。

図８は、本発明の第３実施形態に係る音声データ処理装置１００Bのブロック図である。図８に示すように、本形態の音声データ処理装置１００Bは、第１実施形態の音声データ処理装置１００Aに設定部４２を追加した構成である。設定部４２は、音高分布範囲と発音点分布範囲とを可変に設定する。音高分布範囲は、編成パートを構成する各音声データＤに対応した音声の音高が揺動する範囲（音高のバラツキの範囲）である。発音点分布範囲は、編成パートを構成する各音声データＤに対応した音声の発音の時点が揺動する範囲（発音の時点のバラツキの範囲）である。

図９は、音高分布範囲および発音点分布範囲を利用者が設定するための設定画像５８の模式図である。利用者が入力装置１４に所定の操作を付与すると、表示制御部２６は設定画像５８を表示装置１６に表示させる。利用者は、設定画像５８を確認しながら入力装置１４を操作することで音高分布範囲および発音点分布範囲を指定する。

図９の識別領域５８１には、選択部３２が生成した複数の編成パートのうち利用者が選択した編成パート（すなわち設定の対象となる編成パート）の識別子ｄBが表示される。利用者は、操作子５８２を操作（左右に移動）することで音高分布範囲の広狭を設定する。発音点分布範囲の広狭も同様に利用者による操作子５８３の操作に応じて設定される。利用者は、音高分布範囲および発音点分布範囲を数値で直接に指定することも可能である。

設定画像５８における設定の内容は操作子５８４（OK）の操作で確定される。すなわち、設定部４２は、操作子５８４の操作時に指定されている音高分布範囲および発音点分布範囲を、作業中の編成パートの識別子ｄB（識別領域５８１に表示された識別子ｄB）に対応付けて記憶装置１２に格納する。なお、操作子５８５(Cancel)が操作された場合には設定画像５８の設定の内容は反映されない。

図８の音声合成部２４は、編成パートが割当てられた指定音の合成に音高分布範囲および発音点分布範囲を使用する。すなわち、音声合成部２４は、編成パートを構成する各音声データＤに対応した音声の音高を音高分布範囲内で相違させるとともに各音声の発音の時点を発音点分布範囲内で相違させる。以上の構成によれば、編成パートの合成音を構成する各音声の音高や発音の時点に揺らぎが付与されるから、現実の合唱音に近い自然な合成音を生成することが可能となる。

一方、表示制御部２６は、編成パートが割当てられた指示子Ｐの態様を、設定部４２が当該編成パートに設定した音高分布範囲および発音点分布範囲の広狭に応じて変化させる。図１０は、本形態における指示子Ｐの態様の変化を説明するための概念図である。図１０に示すように、指示子Ｐのうち時間軸（横軸）の方向における両端の部分ＰEの形状が音高分布範囲および発音点分布範囲の広狭に応じて可変に設定される。例えば、表示制御部２６は、音高分布範囲が広いほど音高軸の方向における端部ＰEの寸法Ｌ1を例えば破線ａのように増加させ、発音点分布範囲が広いほど時間軸の方向における端部ＰEの寸法Ｌ2を例えば破線ｂのように増加させるといった具合である。

以上の形態においては、音高分布範囲や発音点分布範囲の広狭に応じて指示子Ｐの態様が可変に制御されるから、指示子Ｐに割当てられた編成パートの音高分布範囲や発音点分布範囲を利用者が視覚的に容易に確認できるという利点がある。しかも、指示子Ｐの端部ＰEのうち音高軸の方向の寸法Ｌ1が音高分布範囲の広狭に応じて制御され、時間軸の方向の寸法Ｌ2が発音点分布範囲の広狭に応じて制御される。したがって、例えば端部ＰEの寸法Ｌ1を発音点分布範囲に応じて制御する構成や端部ＰEの寸法Ｌ2を音高分布範囲に応じて制御する構成と比較して、発音点分布範囲や音高分布範囲の広狭を利用者が直感的に把握できるという利点もある。なお、音高分布範囲および発音点分布範囲の一方のみを設定部４２が可変に制御する構成も採用される。

＜Ｄ：第４実施形態＞
以上の各形態においては編成パートを構成する複数の音声データＤを利用者が選択する。しかし、自身の嗜好ないし感性に合致した音声データＤや合唱音の合成のために音楽的に適切な音声データＤ（例えば音楽的に調和する音声データＤ）を利用者が自分で選択することは煩雑かつ困難である。そこで、本形態においては、利用者が指定した音楽的な印象に合致する音声データＤが自動的に選択されたうえで編成パートとして使用される。

図１１は、本形態に係る音声データ処理装置１００Cのブロック図である。図１１に示すように、音声データ処理装置１００Cは、第１実施形態の音声データ処理装置１００Aに解析部４４を追加した構成である。解析部４４は、記憶装置１２に格納されたｎ個の音声データＤ（Ｄ1〜Ｄn）の各々について音楽的な特徴量Ｆを解析する。記憶装置１２は、各音声データＤについて解析部４４が解析した特徴量Ｆ（Ｆ1〜Ｆn）を当該音声データＤに対応させて記憶する。ただし、音声データＤと特徴量Ｆとを別個の記憶装置に格納した構成も採用される。また、音声データＤと特徴量Ｆとが外部で用意されたうえで記憶装置１２に格納される構成においては解析部４４が省略され得る。

解析部４４による特徴量Ｆの抽出には例えば多変量解析（因子分析）が利用される。図１２は、記憶装置１２に音声データＤ毎に格納される特徴量Ｆ（Ｆ1〜Ｆn）の概念図である。図１２に示すように、音声データＤi（ｉ＝１〜ｎ）の特徴量Ｆiは、音声の心理的な印象を特徴づける複数種の因子（金属因子，迫力因子，美的因子）の各々について当該音声データＤiの多変量解析で特定された因子値Ｘ（Ｘ[i,I]，Ｘ[i,II]，Ｘ[i,III]）の集合である。なお、本形態においては３種類の因子（[I]〜[III]）を例示するが、音声データＤの多変量解析における因子の種類数（特徴量Ｆに含まれる因子値Ｘの個数）は任意に変更される。

解析部４４は、音声データＤの各素片データが表す音声の物理的な特徴量（例えば音量やピッチや周波数特性など）から、音楽の心理的な印象を表現する複数の形容詞対（例えば「明るい-暗い」「力強い-軽い」）の各々の指標値を評価し、複数の形容詞対の指標値を複数種の因子（金属因子，迫力因子，美的因子）に統計的に集約することで複数の因子値Ｘを特定する。図１２の金属因子[I]の因子値Ｘ（Ｘ[1,I]，Ｘ[2,I]，……，Ｘ[n,I]）は、受聴者が音声を金属的と感受する程度（金属因子）の指標であり、迫力因子[II]の因子値Ｘ（Ｘ[1,II]，Ｘ[2,II]，……，Ｘ[n,II]）は、受聴者が音声に迫力を感受する程度（迫力因子）の指標であり、美的因子[III]の指標値Ｘ（Ｘ[1,III]，Ｘ[2,III]，……，Ｘ[n,III]）は、受聴者が音声を美的と感受する程度（美的因子）の指標である。

図１１の選択部３２は、記憶装置１２に格納されたｎ個の音声データＤのうち利用者からの指示に応じて設定された特徴量（以下では特に「指示特徴量」という）ＦUに類似する特徴量Ｆに対応した複数の音声データＤを記憶装置１２から選択（検索）する。選択部３２の選択した複数の音声データＤで編成パートが構成される。

利用者が入力装置１４に所定の操作を付与すると、表示制御部２６は、指示特徴量ＦUの指定のための設定画像７２（図１３）を表示装置１６に表示させる。利用者は、設定画像７２を確認しながら入力装置１４を適宜に操作することで指示特徴量ＦUを指定する。設定画像７２の識別領域７２０には、編集の対象となる編成パートの識別子ｄBが表示される。領域７２１には、作業中の編成パートを構成すべき音声データＤの個数（音声の混合数）Ｎが表示される。利用者は、入力装置１４を適宜に操作することで領域７２１内の数値Ｎを適宜に変更すること（例えば領域７２１に対する個数Ｎの直接的な入力や操作子７２２の操作による個数Ｎの増減）が可能である。

指示特徴量ＦUは、記憶装置１２に格納された特徴量Ｆと同様の３種類の因子（金属因子，迫力因子，美的因子）の各々について因子値Ｕ（Ｕ[I]，Ｕ[II]，Ｕ[III]）を含む。各因子値Ｕは、入力装置１４に対する操作に応じて個別に設定される。すなわち、金属因子[I]の因子値Ｕ[I]は図１３の操作子７２３の操作に応じて設定され、迫力因子[II]の因子値Ｕ[II]は操作子７２４の操作に応じて設定され、美的因子[III]の因子値Ｕ[III]は操作子７２５の操作に応じて設定される。利用者は、例えば、金属的な音声を希望する場合には金属因子[I]の因子値Ｕ[I]を大きい数値に設定し、迫力のある音声を希望する場合には迫力因子[II]の因子値Ｕ[II]を大きい数値に設定する。利用者は、各因子値Ｕを数値で直接に指定することも可能である。

操作子７２６（Search）の操作を契機として音声データＤの検索が実行される。さらに詳述すると、選択部３２は、操作子７２６の操作の時点で設定されている指示特徴量ＦUとの類似度が高い順番で上位のＮ個の特徴量Ｆに対応した音声データＤの集合を編成パートの候補として記憶装置１２から検索する。なお、指示特徴量ＦUと特徴量Ｆとの類否の判定については後述する。

操作子７２７は、操作子７２６の操作で検索されたＮ個の音声データＤに対応した音声（Ｎ種類の音声の混合）を利用者が試聴するための画像である。操作子７２７が操作されると、選択部３２は、直前に検索したＮ個の音声データＤの各々について所定の音声素片に対応する素片データを音声合成部２４に出力する。音声合成部２４は、Ｎ個の素片データから生成した所定の音高の音声を混合することで音声信号ＳOUTを出力する。したがって、利用者が指定した各因子値Ｕから検索されたＮ個の音声データＤに対応した合成音が音出力装置１８から再生される。利用者は、音出力装置１８から再生される合成音を受聴（試聴）しながら因子値Ｕの変更を反復することで、所望の編成パートを生成することが可能である。

利用者が操作子７２８を操作した時点で検索されているＮ個の音声データＤ（すなわち、操作子７２８の直前に選択部３２が検索したＮ個の音声データＤ）の集合が編成パートとして確定する。さらに詳述すると、選択部３２は、操作子７２８の操作時に検索されているＮ個の音声データＤの各々の識別子ｄAを、識別領域７２０に表示された識別子ｄB（すなわち作成中の編成パートの識別子ｄB）に対応させて記憶装置１２に格納する。すなわち、選択部３２は、利用者が指定した指示特徴量ＦUに類似する特徴量ＦのＮ個の音声データＤを組合せて編成パートを構築する。編成パートの利用の方法は第１実施形態と同様である。なお、操作子７２９（Cancel）が操作された場合、設定画像７２における設定の内容は反映されない。

次に、指示特徴量ＦUと特徴量Ｆとの類否の判定について説明する。選択部３２は、記憶装置１２に格納されたｎ個の特徴量Ｆ1〜Ｆnの各々について指示特徴量ＦUとの類否の指標となる数値（以下「類否指標値」という）Ｒを算定する。本形態の類否指標値Ｒは、図１４に示すように、３種類の因子の各々に対応する座標軸が設定された空間（以下「因子空間」という）での距離に相当する。すなわち、特徴量Ｆiと指示特徴量ＦUとの類否指標値Ｒiは、指示特徴量ＦUの各因子値Ｕ（Ｕ[I]，Ｕ[II]，Ｕ[III]）を座標値として因子空間に規定される地点と特徴量Ｆiの各因子値Ｘ（Ｘ[i,I]，Ｘ[i,II]，Ｘ[i,III]）を座標値として因子空間に規定される地点との距離である。さらに詳述すると、選択部３２は、以下の数式(1)で表現されるユークリッド距離を類否指標値Ｒiとして算定する。
Ｒi＝√｛（Ｘ[i,I]−Ｕ[I]）²＋（Ｘ[i,II]−Ｕ[II]）²＋（Ｘ[i,III]−Ｕ[III]）²｝ ……(1)

数式(1)から理解されるように、指示特徴量ＦUと特徴量Ｆとの類似の程度が高いほど類否指標値Ｒiは小さい数値となる。したがって、選択部３２は、指示特徴量ＦUとの類否指標値Ｒが小さい順番で上位のＮ個の特徴量Ｆの音声データＤを編成パートの要素として選択する。解析部４４および選択部３２以外の要素については第１実施形態と同様である。

以上の形態においても第１実施形態と同様の効果が実現される。さらに、本形態においては、利用者が指定した指示特徴量ＦUに類似する特徴量Ｆの複数の音声データＤが編成パートの要素として選択されるから、各音声データＤの各々に対応した音声の特性を利用者が熟知していない場合であっても、利用者の嗜好や感性に合致した複数の音声データＤや音楽的な印象が類似する複数の音声データＤが編成パートとして音声の合成に使用される。したがって、編成パートを編成する利用者の負担を軽減することが可能である。

また、編成パートを構成する音声データＤの個数Ｎが入力装置１４に対する操作に応じて可変に設定されるから、編成パートを少人数の合唱音とするか大人数の合唱音とするかを利用者が任意に設定できる。さらに、設定画像７２の操作子７２７を操作することで利用者は実際の合成音を試聴できるから、自分の希望の合成音を生成するための指示特徴量ＦU（因子値Ｕの組合せ）を利用者が容易に探索できるという利点もある。

なお、編成パートを構成する音声データＤの個数Ｎに応じて指定音の指示子Ｐの態様を変化させる第２実施形態の構成や、編成パートの各音声データＤの音声に音高や発音の揺らぎを付与する第３実施形態の構成は本形態にも同様に適用される。

＜Ｅ：第５実施形態＞
第４実施形態においては利用者が因子値Ｕ（Ｕ[I]，Ｕ[II]，Ｕ[III]）を入力装置１４から直接的に指示した。本発明の第５実施形態においては、利用者が選択した音声データＤの特徴量Ｆが指示特徴量ＦUとして利用される。なお、第４実施形態と共通する部分については説明を省略する。

利用者は、入力装置１４を適宜に操作することで、記憶装置１２に格納されたｎ個の音声データＤ（Ｄ1〜Ｄn）のなかからひとつの音声データＤ（以下「選択音声データＤ」という）を選択する。選択部３２は、選択音声データＤの特徴量Ｆを記憶装置１２から取得し、図１５に示すように、当該特徴量Ｆ（図１５では特徴量Ｆ1）を指示特徴量ＦUとして、第４実施形態と同様の手順でｎ個の音声データＤ（選択音声データＤを含む）の各々について類否指標値Ｒ（Ｒ1〜Ｒn）を算定する。そして、選択部３２は、類否指標値Ｒが小さい順番で上位のＮ個の音声データＤ（類否指標値Ｒが最小値（ゼロ）となる選択音声データＤを含む）を編成パートの要素として選択する。

以上の構成においては、利用者の指定した選択音声データＤに特徴量Ｆが類似するＮ個の音声データＤを選択部３２が自動的に（すなわち利用者による選択を必要とせずに）選択される。したがって、利用者の既知の音声データＤ（選択音声データＤ）に音楽的な印象が類似する音声データＤを編成パートの要素として選択するための利用者の負担が軽減されるという利点がある。なお、以上においては選択音声データＤを編成パートに含める場合を例示したが、選択音声データＤを編成パートの要素から除外してもよい。

＜Ｆ：第６実施形態＞
第４実施形態では各音声データＤの特徴量Ｆを音声データＤの選択に利用した。本発明の第６実施形態においては、各音声データＤに対応した音声の発声者の属性が特徴量Ｆとともに音声データＤの選択に使用される。なお、第４実施形態と共通する部分については説明を省略する。

図１６に示すように、本形態に係る音声データ処理装置１００Dの記憶装置１２はｎ個の音声データＤ（Ｄ1〜Ｄn）の各々について特徴量Ｆ（Ｆ1〜Ｆn）と属性Ａ（Ａ1〜Ａn）とを記憶する。属性Ａは、音声データＤの音声の発声者に関連する情報（性質・特徴）である。本形態では発声者の性別を属性Ａとして例示する。

利用者は、入力装置１４を適宜に操作することで発声者の属性Ａ（性別）を任意に指定する。選択部３２は、記憶装置１２に格納されたｎ個の音声データＤから、指定特徴量ＦUと特徴量Ｆとの類否指標値Ｒが小さい順番（すなわち指定特徴量ＦUと特徴量Ｆとの類似度が高い順番）で上位に位置し、かつ、属性Ａが利用者からの指定に合致するＮ個の音声データＤを編成パートの要素として選択する。したがって、例えば利用者が属性Ａとして男性を指定した場合、発声者が男性であるＮ個の音声データＤのみが選択されて音声の合成に利用される。

以上の構成によれば、特徴量Ｆに加えて属性Ａが音声データＤの選択の基準として使用されるから、利用者の嗜好や感性に合致した音声データＤを第４実施形態と比較して容易かつ確実に選択できるという利点がある。なお、指示特徴量ＦUには、第４実施形態のように利用者が設定画像７２にて指定した数値を利用してもよいし、第５実施形態のように利用者が指定した選択音声データＤの特徴量Ｆを利用してもよい。

＜Ｇ：変形例＞
以上の形態には様々な変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から２以上の態様を任意に選択して組合わせてもよい。

（１）変形例１
以上の各形態においては、単独パートが割当てられた指定音の指示子Ｐと編成パートが割当てられた指定音の指示子Ｐとが利用者からの指示に応じて相異なる態様に変更される場合（すなわち、初期的には各指示子Ｐが共通の態様で表示される場合）を例示したが、単独パートの指示子Ｐと編成パートの指示子Ｐとの表示の態様を表示制御部２６が自動的に（すなわち利用者からの指示に依存せずに）相違させる構成も採用される。例えば、利用者が指示子Ｐに単独パートを割当てると、表示制御部２６は、単独パートについて用意された初期的な態様で当該指示子Ｐを表示し、利用者が指示子Ｐに編成パートを割当てると、表示制御部２６は、単独パートとは別個に編成パートについて用意された初期的な態様で当該指示子Ｐを表示する。各指示子Ｐの態様が利用者からの操作に応じて初期的な態様から変更される点は以上の各形態と同様である。

（２）変形例２
以上の各形態においては利用者が音楽情報画像６０を確認しながら音楽情報ＳDを作成ないし編集する場合を例示したが、既存の音楽情報ＳDを利用者による確認のために音楽情報画像６０として表示する構成も採用される。既存の音楽情報ＳDは、例えば、可搬型の記録媒体や通信網を介して記憶装置１２に格納される。音楽情報ＳDの作成や編集という処理は本発明において必須ではない。

（３）変形例３
割当部３４が割当てた音声データＤの組合せに応じて制御される指示子Ｐの態様は以上の例示に限定されない。すなわち、指示子Ｐのサイズや表示色（色相，明度，彩度）や形状など視覚的に知覚できる総ての態様が音声データＤの組合せに応じた制御の対象として採用され得る。また、指示子Ｐの態様を利用者が可変に設定する構成は本発明において必須ではない。例えば、音声データＤの組合せに応じて表示制御部２６が自動的に（すなわち利用者からの指示に依存せずに）選定した態様で指示子Ｐが表示される。また、以上の形態においてはパート（音声データＤの組合せ）が共通する各指定音の指示子Ｐを表示制御部２６が自動的に共通の態様で表示したが、共通のパートが割当てられた複数の指定音について指示子Ｐの態様を利用者が個別に設定する構成も採用される。

（４）変形例４
以上の各形態においては類否指標値Ｒiの算定に数式(1)を利用したが、音声データＤの選択の基準となる類否指標値Ｒiを、指定特徴量ＦUおよび特徴量Ｆの因子値（Ｘ，Ｕ）に対して因子毎に別個の加重値Ｗを付与したうえで算定する構成も好適である。例えば、選択部３２は、金属因子に対する加重値Ｗ[I]と迫力因子に対する加重値Ｗ[II]と美的因子に対する加重値Ｗ[III]とを含む以下の数式(2)を数式(1)の代わりに使用して類否指標値Ｒiを算定する。
Ｒi＝√｛Ｗ[I]・（Ｘ[i,I]−Ｕ[I]）²＋Ｗ[II]・（Ｘ[i,II]−Ｕ[II]）²＋Ｗ[III]・（Ｘ[i,III]−Ｕ[III]）²｝ ……(2)

各加重値Ｗ（Ｗ[I]，Ｗ[II]，Ｗ[iii]）は、入力装置１４に対する利用者からの操作に応じて任意に設定される。以上の構成においては、選択部３２による選択に対する各因子の影響が加重値Ｗに応じて可変に制御されるから、編成パートにおける音声データＤの組合せが多様化されるという利点がある。また、因子空間の座標軸において因子値Ｘの単位量に相当する距離が因子毎に相違する場合（すなわち座標軸毎にスケールが相違する場合）には、因子毎に別個に加重値Ｗを設定することで各因子の因子値（座標値）を正規化する構成が好適である。例えば、複数の特徴量Ｆの各々の因子値Ｘが座標軸上に分布する場合における当該分布の分散値の逆数を当該因子の加重値Ｗとして数式(2)を演算すれば、因子毎の座標軸の相違を補償して適切な類否指標値Ｒiが算定される。もっとも、数式(1)や数式(2)は類否指標値Ｒiを算定するための演算式の例示に過ぎず、指示特徴量ＦUと特徴量Ｆとの類否の評価には公知の技術が任意に採用される。

（５）変形例５
第４実施形態から第６実施形態における特徴量Ｆ（指示特徴量ＦU）は多変量解析の因子値に限定されない。さらに具体的には、音声データＤが表す音声の特性値（例えば周波数特性や音量）を特徴量Ｆとして使用した構成や、特性値を因子毎の因子値Ｘとともに使用した構成が好適である。例えば、因子値Ｘと指示特徴量ＦUの因子値Ｕとの類似度が高い順番で上位に位置し、かつ、特性値が利用者からの指示に応じた条件に合致するＮ個の音声データＤが編成パートの要素として選択される。

（６）変形例６
第４実施形態から第６実施形態においては編成パートを構成する音声データＤの個数Ｎを利用者が指定したが、個数Ｎを所定値に固定した構成も採用される。また、第４実施形態から第６実施形態において、選択部３２がひとつの音声データＤを単独パートとして選択する構成も好適である。すなわち、選択部３２は、記憶装置１２に格納されたｎ個の音声データＤのうち指示特徴量ＦUに最も類似する特徴量Ｆに対応するひとつの音声データＤを単独パートとして選択する。

（７）変形例７
以上の各形態においては各音声データＤが別個の発声者の音声から生成された場合を便宜的に例示したが、同じ発声者が発声した相異なる音声から複数の音声データＤを生成してもよい。また、以上の各形態においては人間の発声音の合成を便宜的に想定したが、各種の楽器の演奏音を合成する構成（すなわち各音声データＤが楽器の演奏音から生成された構成）も採用される。以上のように本発明における「音声」は、人間による発声音（発話音や歌唱音）および楽器の演奏音の双方を包含する概念である。

（８）変形例８
ひとつの音声データＤが表す音声の総数は適宜に変更される。例えば、以上の各形態においてはひとつの音声データＤをひとりの発声者の音声（あるいはひとつの楽器の演奏音）から生成した場合を便宜的に例示したが、並列に発生した複数の音声の混合音（例えば複数の発声者による発声音（合唱音）や複数の楽器による演奏音（合奏音））からひとつの音声データＤを生成した構成も採用される。以上の態様において、複数の音声の混合音に対応するひとつの音声データＤを割当部３４が割当てたひとつの指定音の指示子Ｐを、表示制御部２６が表示装置１６（音楽情報画像６０の作業領域６２）に表示させる。音声データＤが表す音声の混合数（すなわち合唱時の歌唱者の人数や合奏に使用された楽器の総数）Ｍは当該音声データＤの属性Ａとして記憶装置１２に格納される。表示制御部２６は、属性Ａが指定する混合数Ｍに応じて指示子Ｐの態様を可変に制御する。混合数Ｍに応じて指示子Ｐの態様を制御する方法は任意であるが、例えば図７に例示した態様（第２実施形態における音声データＤの個数Ｎを混合数Ｍに置換した構成）が好適である。以上の構成においても、複数の音声の混合音が割当てられた指定音の指示子Ｐを利用者が容易に確認できるという利点がある。

（９）変形例９
複数の音声データＤが割当てられた指示音をひとつの指示子Ｐで表示する構成（第１実施形態から第３実施形態）と、利用者からの指示に応じた指示特徴量ＦUに特徴量Ｆが類似する音声データＤを合成の対象として選択する構成（第４実施形態から第６実施形態）とは各々が独立して成立し得る。例えば、第４実施形態から第６実施形態においては、複数の音声データＤが割当てられた指示音をひとつの指示子Ｐで表示する構成や指示子Ｐの態様が可変である構成は適宜に省略される。

（１０）変形例１０
音声信号ＳOUTの出力先は音出力装置１８に限定されない。例えば、音声信号ＳOUTを記憶装置１２（または他の記録媒体）に格納する構成や、音声信号ＳOUTを通信網に送信する構成も採用される。

本発明の第１実施形態に係る音声データ処理装置のブロック図である。音楽情報の模式図である。編成パートを編集するための設定画像の模式図である。音楽情報画像の模式図である。指示子の枠線の態様を指定する設定画像の模式図である。指示子の内部領域の態様を指定する設定画像の模式図である。本発明の第２実施形態における指示子の態様の制御を説明するための概念図である。本発明の第３実施形態に係る音声データ処理装置のブロック図である。音高分布範囲および発音点分布範囲を指定する設定画像の模式図である。音高分布範囲および発音点分布範囲に応じた指示子の態様の変化を説明するための概念図である。本発明の第４実施形態に係る音声データ処理装置のブロック図である。特徴量の模式図である。指示特徴量を指定する設定画像の模式図である。類否指標値の算定を説明するための概念図である。本発明の第５実施形態における類否指標値の算定を説明するための概念図である。本発明の第６実施形態に係る音声データ処理装置のブロック図である。

符号の説明

１００A，１００B，１００C，１００D……音声データ処理装置、１０……制御装置、１２……記憶装置、１４……入力装置、１６……表示装置、１８……音出力装置、２２……情報生成部、２４……音声合成部、２６……表示制御部、３２……選択部、３４……割当部、４２……設定部、４４……解析部、５２，５４，５６，５８，７２……設定画像、６０……音楽情報画像、Ｄ（Ｄ1〜Ｄn）……音声データ、ＳD……音楽情報、ＳOUT……音声信号。

Claims

相異なる音声の合成に使用される２以上の音声データをひとつの指定音に割当てる割当手段と、
前記割当手段がひとつの指定音に割当てた２以上の音声データの各々に対応した音声の音高の分布範囲を可変に設定する第１設定手段と、
各指定音に対応する指示子を音高軸と時間軸とが設定された作業領域に配置した音楽情報画像を表示装置に表示させる手段であって、前記第１設定手段が指定音に設定した分布範囲の広狭に応じて当該指定音の指示子の態様を変化させる表示制御手段と
を具備する音声データ処理装置。
相異なる音声の合成に使用される２以上の音声データをひとつの指定音に割当てる割当手段と、
前記割当手段がひとつの指定音に割当てた２以上の音声データの各々に対応した音声が開始する時点の分布範囲を可変に設定する第２設定手段と、
各指定音に対応する指示子を音高軸と時間軸とが設定された作業領域に配置した音楽情報画像を表示装置に表示させる手段であって、前記第２設定手段が指定音に設定した分布範囲の広狭に応じて当該指定音の指示子の態様を変化させる表示制御手段と
を具備する音声データ処理装置。
利用者が第１操作子を操作した場合、前記表示制御手段は、複数の音声データの識別子を選択候補として前記表示装置に表示させ、前記割当手段は、利用者が選択した識別子の音声データを単独で指定音に割当てる一方、
利用者が第２操作子を操作した場合、前記表示制御手段は、２以上の音声データを各々が含む複数の編成パートの識別子を選択候補として前記表示装置に表示させ、前記割当手段は、利用者が選択した識別子の音声データに含まれる２以上の音声データを指定音に割当てる
請求項１または請求項２の音声データ処理装置。
相異なる音声の合成に使用される２以上の音声データをひとつの指定音に割当てる割当処理と、
前記割当処理でひとつの指定音に割当てた２以上の音声データの各々に対応した音声の音高の分布範囲を可変に設定する第１設定処理と、
各指定音に対応する指示子を音高軸と時間軸とが設定された作業領域に配置した音楽情報画像を表示装置に表示させる処理であって、前記第１設定処理で指定音に設定した分布範囲の広狭に応じて当該指定音の指示子の態様を変化させる表示制御処理と
をコンピュータに実行させるプログラム。
相異なる音声の合成に使用される２以上の音声データをひとつの指定音に割当てる割当処理と、
前記割当処理でひとつの指定音に割当てた２以上の音声データの各々に対応した音声が開始する時点の分布範囲を可変に設定する第２設定処理と、
各指定音に対応する指示子を音高軸と時間軸とが設定された作業領域に配置した音楽情報画像を表示装置に表示させる処理であって、前記第２設定処理で指定音に設定した分布範囲の広狭に応じて当該指定音の指示子の態様を変化させる表示制御処理と
をコンピュータに実行させるプログラム。