JP5509536B2 - 音声データ処理装置およびプログラム - Google Patents

音声データ処理装置およびプログラム Download PDF

Info

Publication number
JP5509536B2
JP5509536B2 JP2008105904A JP2008105904A JP5509536B2 JP 5509536 B2 JP5509536 B2 JP 5509536B2 JP 2008105904 A JP2008105904 A JP 2008105904A JP 2008105904 A JP2008105904 A JP 2008105904A JP 5509536 B2 JP5509536 B2 JP 5509536B2
Authority
JP
Japan
Prior art keywords
sound
designated
indicator
designated sound
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008105904A
Other languages
English (en)
Other versions
JP2009258291A (ja
Inventor
啓 嘉山
隼人 大下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2008105904A priority Critical patent/JP5509536B2/ja
Publication of JP2009258291A publication Critical patent/JP2009258291A/ja
Application granted granted Critical
Publication of JP5509536B2 publication Critical patent/JP5509536B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Description

本発明は、音声(人間の発声音や楽器の演奏音)の合成に使用される音声データを処理する技術に関する。
音高と発音の時点および時間長とを指定する音楽情報(スコアデータ)に基づいて音声を合成する技術が従来から提案されている。利用者は、音楽情報が可視化された画像(以下「音楽情報画像」という)を表示装置で確認しながら音楽情報の編集や作成を実行する。例えば特許文献1に開示されるように、音楽情報画像は、合成の対象として指定された音声(以下「指定音」という)に対応する図形(以下「指示子」という)を時系列に配列した画像(ピアノロール)である。縦軸の方向における指示子の位置は指定音の音高に応じて選定され、横軸の方向における指示子の位置は指定音の発音の時点に応じて選定される。
特開2004−258563号公報
音楽情報画像における各指示子は、指定音の合成に使用される歌唱音毎に個別に配置されるから、複数の歌唱者が共通の旋律を歌唱する音声(合唱音)の合成を指示する場合であっても、音楽情報画像における指示子の時系列を歌唱者毎に個別に作成して合成音を指示する必要がある。したがって、音楽情報画像において各指示子を確認(さらには音楽情報の作成や編集)する作業が利用者にとって煩雑であるという問題がある。以上においては複数の歌唱音の混合音を合成する場合を例示したが、複数の楽器による合奏音を合成する場合にも同様の問題が発生する。以上の事情を考慮して、本発明は、音楽情報画像における各指定音の確認を容易化することをひとつの目的とする。
以上の課題を解決するために、本発明に係る音声データ処理装置は、相異なる音声の合成に使用され2以上の音声データをひとつの指定音に割当てる割当手段と、各指定音に対応する指示子を音高軸と時間軸とが設定された作業領域に配置した音楽情報画像を表示装置に表示させる手段であって、割当手段が2以上の音声データを割当てた1個の指定音を1個の指示子で表示する表示制御手段とを具備する。本発明においては、割当手段が2以上の音声データを割当てたひとつの指定音が音楽情報画像のひとつの指示子で表示される。したがって、共通の指定音に割当てられた複数の音声データの各々について指示子が別個に表示される場合と比較して指定音を利用者が容易に確認できる。
本発明における「音声」とは任意の音響である。例えば人間の発声音(例えば歌唱音)や楽器の演奏音が本発明の「音声」の概念に包含される。また、「指定音」は、合成の対象として指定された音声である。指定音の指定の方法は任意である。例えば、予め用意された音楽情報にて指定音が指定される場合や利用者が任意に指定音を指定する場合がある。また、「指示子の態様」とは、視覚的に認識できる指示子の状態を意味する。例えば、指示子のサイズや表示色(色相,明度,彩度)や形状などが「指示子の態様」の概念に包含される。
本発明の好適な態様において、表示制御手段は、割当手段が割当てた音声データの組合せが相違する各指定音の指示子を相異なる態様で表示する。以上の態様においては、指定音に割当てられた音声データの組合せが相違する各指示子が相異なる態様で表示されるから、別個の組合せの音声データから生成される各指定音を利用者が音楽情報画像にて容易に区別できるという利点がある。
本発明の好適な態様において、割当手段は、ひとつの指定音に対してひとつの音声データおよび2以上の音声データを選択的に割当て可能であり、表示制御手段は、割当手段がひとつの音声データを割当てた指定音の指示子と、割当手段が2以上の音声データを割当てた指定音の指示子とを相異なる態様で表示する。以上の態様においては、単独の音声データを割当てた指定音の指示子と2以上の音声データを割当てた指定音の指示子とが相異なる態様で表示されるから、指定音に割当てられた音声データが単数であるか複数であるかを利用者が音楽情報画像にて容易に区別できるという利点がある。例えば、ひとつの音声データが単数の音声(例えばひとりの発声音やひとつの楽器の演奏音)の合成に使用される場合、利用者は、指定音が独唱音または独奏音として合成されるのか合唱音または合奏音として合成されるのかを音楽情報画像の指示子の態様から区別することができる。
本発明の好適な態様において、表示制御手段は、割当手段が割当てた音声データの組合せが共通する各指定音の指示子を共通の態様で表示する。以上の態様においては、指定音に割当てられた音声データの組合せが共通する各指示子が共通の態様で表示されるから、同種の音声(共通の組合せの音声データから合成される音声)として合成される指定音の時系列を利用者が容易に確認できるという利点がある。
本発明の好適な態様において、表示制御手段は、各指示子の態様を利用者からの指示に応じて可変に設定する。以上の態様によれば、各指示子の態様が利用者からの指示に応じて可変に設定されるから、個々の利用者の感性や嗜好に応じて直感的に確認し易い態様で各指示子を表示することが可能である。
本発明の好適な態様において、表示制御手段は、割当手段が指定音に割当てた音声データの個数に応じて当該指定音の指示子の態様を変化させる。以上の態様によれば、各指定音に割当てられた音声データの多少を利用者が視覚的に容易に確認できるという利点がある。
本発明の好適な態様に係る音声データ処理装置は、相異なる音声の合成に使用される2以上の音声データをひとつの指定音に割当てる割当手段と、割当手段がひとつの指定音に割当てた2以上の音声データの各々に対応した音声の音高の分布範囲を可変に設定する第1設定手段(例えば図8の設定部42)と、各指定音に対応する指示子を音高軸と時間軸とが設定された作業領域に配置した音楽情報画像を表示装置に表示させる手段であって、第1設定手段が指定音に設定した分布範囲の広狭に応じて当該指定音の指示子の態様を変化させる表示制御手段とを具備する。以上の態様においては、複数の音声データの各々に対応した音声の音高の揺らぎの程度(分布範囲)を利用者が視覚的に容易に確認できる。
本発明の好適な態様に係る音声データ処理装置は、相異なる音声の合成に使用される2以上の音声データをひとつの指定音に割当てる割当手段と、割当手段がひとつの指定音に割当てた2以上の音声データの各々に対応した音声が開始する時点の分布範囲を可変に設定する第2設定手段(例えば図8の設定部42)と、各指定音に対応する指示子を音高軸と時間軸とが設定された作業領域に配置した音楽情報画像を表示装置に表示させる手段であって、第2設定手段が指定音に設定した分布範囲の広狭に応じて当該指定音の指示子の態様を変化させる表示制御手段とを具備する。以上の態様においては、複数の音声データの各々に対応した音声が発音する時点の揺らぎの程度(分布範囲)を利用者が視覚的に容易に確認できる。
本発明の好適な態様において、利用者からの指示に応じた指示特徴量に類似する特徴量の2以上の音声データを複数の音声データから選択する選択手段具備し、割当手段は、選択手段が選択した2以上の音声データをひとつの指定音に割当てる。以上の態様においては、指示特徴量に類似する特徴量の2以上の音声データがひとつの指定音に割当てられるから、複数の音声データの各々の音楽的な特徴量を利用者が認識していなくても、利用者の所望の特徴量の音声データの組合せを指定音に割当てることが可能となる。もっとも、指定音に割当てられる音声データの組合せを選択する方法は任意である。例えば、ひとつの指定音に割当てる2以上の音声データの各々を利用者が指定する構成や複数の音声データからランダムに選択した2以上の音声データを指定音に割当てる構成も採用される。
指示特徴量と特徴量との類否に応じて音声データを選択する態様の具体例において、選択手段は、指示特徴量との類似度が高い順番で、利用者が可変に指示した個数の音声データ選択する。以上の態様においては、指定音に割当てられる音声データの個数が利用者からの指示に応じて可変に設定されるから、利用者の所望の規模(歌唱者や演奏者の総数)の合成音を生成できるという利点がある。
指示特徴量と特徴量との類否に応じて音声データを選択する態様において、特徴量は、例えば、音楽的な特徴に関する複数の因子について音声データの多変量解析(因子分析)で特定された複数の因子値を含む。以上の構成においては、音声の心理的な印象を特徴づける各因子の因子値が特徴量を構成するから、利用者が希望する印象の合成音を適切に生成することが可能となる。
指示特徴量は、利用者からの指示が反映された特徴量である。指示特徴量の特定の方法は本発明において任意である。例えば、複数の因子の各々について利用者が指示した因子値の集合を指示特徴量として利用する構成においては、指定音の合成に使用されるべき音声データの特徴量を利用者が精緻に指定できるという利点がある。一方、利用者が選択した音声データ特徴量を指示特徴量として利用する構成においては、利用者が音声の印象を既に認知している音声データに類似する音声データを選択できるという利点がある。
指示特徴量と特徴量との類否に応じて音声データを選択する態様の具体例において選択手段は、特徴量が指示特徴量に類似し、かつ、利用者が選択した属性に対応する音声データを選択する。以上の態様においては、特徴量に加えて音声データの属性が選択手段による選択の基準として採用されるから、利用者の嗜好や感性にさらに合致した合成音を生成し得る音声データを容易に選択できるという利点がある。なお、音声データの属性としては、例えば、当該音声データが表す発声音の発声者の性別や年齢、あるいは当該音声データが表す演奏音の演奏に使用された楽器の種類や型式が好適である。
以上の各態様に係る音声データ処理装置は、音声データの処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される本発明のプログラムによれば、以上の各態様に係る音声データ処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音声データ処理装置100Aのブロック図である。図1に示すように、音声データ処理装置100Aは、制御装置10と記憶装置12と入力装置14と表示装置16と音出力装置18とを具備するコンピュータシステムで実現される。
制御装置10は、プログラムを実行する演算処理装置である。制御装置10は、複数の要素(情報生成部22,音声合成部24,表示制御部26,選択部32,割当部34)として機能することで音声信号SOUTを生成および出力する。ただし、制御装置10の各要素は専用の電子回路(DSP)でも実現される。音声信号SOUTは、入力装置14に対する利用者からの操作に応じて合成された音声(以下「合成音」という)の波形を表す信号である。記憶装置12は、制御装置10が実行するプログラムや制御装置10が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置などの公知の記録媒体が記憶装置12として任意に採用される。
記憶装置12には、相異なる音声の合成に使用されるn個(nは2以上の自然数)の音声データD(D1〜Dn)が格納される。本形態におけるn個の音声データDの各々は別個の発声者の音声から生成される。ひとつの音声データDは、音声を時間軸上で区分した複数の音声素片([a],[i],[u],……)の各々について採取された複数の素片データで構成される。例えば音声素片の波形を表すデータや音声素片の波形の特徴量を表すデータが素片データとして利用される。音声素片は、聴覚上で区別できる最小の単位に音声を区分した音素または複数の音素を連結した音素連鎖である。図1に示すように、各音声データDには固有の識別子dA(dA1〜dAn)が付与される。
入力装置14は、音声データ処理装置100Aに対する指示の入力のために利用者が操作する機器(例えばマウスやキーボード)である。表示装置16(例えば液晶表示装置)は、制御装置10による制御のもとに各種の画像を表示する。音出力装置18は、制御装置10から供給される音声信号SOUTに応じた音波を放射する放音機器(例えばスピーカやヘッドホン)である。
図1の情報生成部22は、合成の対象となる複数の音声(指定音)を指定する音楽情報(スコアデータ)SDを生成して記憶装置12に格納する。図2は、音楽情報SDの模式図である。音楽情報SDは、複数の指定音の各々について、指定音の音高と発音時間と発音記号と識別子dB(dB1〜dBn)とを指定する。発音時間は、指定音の発音の始点および終点の指定を含む。
音楽情報SDにおいてひとつの指定音に対応する識別子dB(dB1〜dBn)は、当該指定音の合成に使用される音声データDの組合せ(以下「パート」という)を識別するための符号である。指定音には、単独の音声データD(以下「単独パート」という)が割当てられる場合と複数の音声データDの集合(以下「編成パート」という)が割当てられる場合とがある。単独パートが割当てられた指定音には単独の音声データDの識別子dAが音楽情報SD内の識別子dBとして設定され、編成パートが割当てられた指定音には、複数の音声データDの組合せに対して固有に付与された識別子dBが音楽情報SDに設定される。
図1の音声合成部24は、情報生成部22が生成した音楽情報SDを利用して音声信号SOUTを合成する。さらに詳述すると、音声合成部24は、音楽情報SD内の発音時間を参照して複数の指定音の各々(以下では特に「対象指定音」という)を時系列に順次に選択する。音楽情報SDにて対象指定音に設定された識別子dBのパートが単独パートである場合、音声合成部24は、第1に、識別子dBが示す音声データDのうち音楽情報SDにて対象指定音に指定された発音記号に対応する素片データを記憶装置12から取得する。第2に、音声合成部24は、記憶装置12から取得した素片データの音高を、音楽情報SDにて対象指定音に設定された音高に調整する。一方、対象指定音に設定された識別子dBのパートが編成パートである場合、音声合成部24は、編成パートを構成する複数の音声データDの各々から単独パートの場合と同様の方法で取得した素片データを音高の調整後に合成(加算)する。以上の手順で生成された素片データの時系列をD/A変換(図示略)することで音声信号SOUTが生成される。したがって、単独パートが割当てられた指定音は単独の発声者の音声(独唱音)として合成され、編成パートが割当てられた指定音は複数の発声者の音声の混合音(合唱音)として合成される。
図1の表示制御部26は、音楽情報SDの生成や編集に関する各種の画像を生成して表示装置16に表示させる。例えば、表示制御部26は、利用者が各種の項目を設定するための設定画像(図3,図5,図6)や利用者が音楽情報SDを確認または編集(作成)するための音楽情報画像(図4)を表示装置16に表示させる。
図1の選択部32は、入力装置14に対する利用者からの操作に応じて複数の音声データDを選択することで編成パートを構築する。編成パートの生成が利用者から指示されると、表示制御部26は、図3の設定画像52を表示装置16に表示させる。設定画像52には識別領域521と選択領域522と候補領域523とが配置される。識別領域521には、設定画像52にて実際に編成される編成パートの識別子dB(図3の例示では“Cho1"という名称)が表示される。なお、識別子dB(例えば"Cho1"という名称)は入力装置14に対する利用者からの操作に応じて可変に設定される。
選択領域522には、記憶装置12に格納されたn個の音声データDの各々の識別子dA(例えば"Taro"や"Jiro"といった名称)が配列される。利用者が選択領域522内のひとつの識別子dAを選択したうえで操作子(コマンドボタン)524(Add)を操作すると、表示制御部26は当該識別子dAを候補領域523内に追加する。一方、利用者が候補領域523内のひとつの識別子dAを選択したうえで操作子525(Delete)を操作すると、表示制御部26は当該識別子dAを候補領域523から削除する。
操作子526は、編成データの候補として利用者が指定したひとつまたは複数の音声データD(すなわち識別子dAが候補領域523内に配置された音声データD)の音声を利用者が視聴するための画像である。操作子526が操作されると、選択部32は、候補領域523に識別子dAが配置されたひとつまたは複数の音声データDの各々について所定の音声素片の素片データを音声合成部24に出力する。音声合成部24は、各素片データから生成した所定の音高の音声を混合することで音声信号SOUTを出力する。したがって、利用者が候補として指定したひとつまたは複数の音声データDに対応した合成音が音出力装置18から再生される。利用者は、音出力装置18から再生される合成音を随時に受聴(試聴)しながら選択領域522内の識別子dAの選択や候補領域523内の識別子dAの削除を反復することで、所望の編成パートを生成することが可能である。
操作子527(OK)が操作されると編成パートの内容が確定する。さらに詳述すると、選択部32は、操作子527の操作時に候補領域523内に配列されている複数の識別子dAを、識別領域521に表示された識別子dB(すなわち作成中の編成パートの識別子dB)に対応させて記憶装置12に格納する。すなわち、選択部32は、利用者が選択した複数の音声データDを組合せて編成パートを生成する。図3の操作子528(Cancel)が操作された場合、設定画像52における設定の内容は反映されない。
次に、図4を参照して、利用者が音楽情報SDを確認または編集するための音楽情報画像60について説明する。音楽情報SDの表示が利用者から指示されると、表示制御部26は、図4の音楽情報画像60を表示装置16に表示させる。図4に示すように、音楽情報画像60は作業領域62と操作領域64とに区分される。作業領域62は、記憶装置12に格納された音楽情報SDが可視的に表示される領域である。さらに詳述すると、作業領域62には、音高に対応する縦軸(以下「音高軸」という)と時間に対応する横軸(以下「時間軸」という)とが設定されたピアノロール型の画像が表示される。
利用者は、音楽情報画像60を視認しながら入力装置14を操作することで指定音の音高と発音の始点および終点とを指示する。表示制御部26は、利用者から指示された指定音に対応した図形(以下「指示子」という)Pを作業領域62内に配置する。音高軸の方向における指示子Pの位置は利用者が指定した音高に応じて選定され、時間軸の方向における指示子Pの位置は利用者が指定した発音の始点(または終点)に応じて選定される。時間軸の方向における指示子Pの寸法は、指定音の発音の始点から終点までの時間長に応じて選定される。以上のように指定音が指示されるたびに、情報生成部22は、利用者が指示した音高と始点および終点とを音楽情報SDにおける当該指定音の音高および発音時間として記憶装置12に格納する。
以上の処理が反復されることで、別個の指定音に対応した複数の指示子Pが作業領域62内に配置される。利用者は、入力装置14を操作することで作業領域62内のひとつの指示子P(以下「選択指示子」という)Pを選択することが可能である。利用者は、入力装置14を操作することで選択指示子Pについて発音記号(文字)を指示する。情報生成部22は、利用者が指示した発音記号を選択指示子Pに対応する指定音の発音記号として音楽情報SDに格納する。
図1の割当部34は、利用者からの指示に応じて単独パートおよび編成パートを各指定音(選択指示子P)に対して選択的に割当てる。指定音に対するパートの割当てには、図4の操作領域64内の操作子641と操作子642とが使用される。操作子641は単独パートの割当てに使用され、操作子642は編成パートの割当てに使用される。利用者がひとつの指示子P(選択指示子P)を選択したうえで操作子641を操作すると、表示制御部26は、記憶装置12に格納されたn個の音声データDの各々の識別子dA(dA1〜dAn)を選択の候補として操作子641の近傍に表示させる。割当部34は、n個の識別子dAのうち利用者が選択した識別子dAを、選択指示子Pに対応した指定音の識別子dBとして音楽情報SDに格納する。すなわち、割当部34は、選択指示子Pに対応した指定音に単独パート(単独の音声データD)を割当てる。
利用者が操作子642を操作すると、表示制御部26は、選択部32が編成した複数の編成パートの各々の識別子dBを選択の候補として操作子642の近傍に表示させる。割当部34は、複数の識別子dBのうち利用者が選択した識別子dBを、選択指示子Pに対応した指定音の識別子dBとして音楽情報SDに格納する。すなわち、割当部34は、選択指示子Pに対応した指定音に編成パート(複数の音声データD)を割当てる。
作業領域62内に配置された直後の指示子Pは初期的な態様(総ての指示子Pについて共通の態様)で表示される。利用者は、各指示子Pの態様(サイズや表示色(色相,明度,彩度)や形状)を入力装置14に対する操作に応じて可変に設定することが可能である。指示子Pの態様の変更が利用者から指示されると、表示制御部26は、図5の設定画像54または図6の設定画像56を表示装置16に表示させる。
図5の設定画像54は、選択指示子Pの枠線(輪郭線)の態様を利用者が指定するための画像である。識別領域540には、割当部34が選択指示子Pの指定音に割当てたパート(単独パートまたは編成パート)の識別子dBが表示される。識別領域540に表示される識別子dBは入力装置14に対する操作に応じて変更される。
利用者は、設定画像54を視認しながら入力装置14を適宜に操作することで、選択指示子Pの枠線の態様に関する複数の項目(線種,線幅,線色など)の各々について複数の候補の何れかを選択する。例えば、利用者は、設定画像54の操作子541を操作することで表示される複数の候補のなかから選択指示子Pの枠線の線種(例えば実線や波線や破線など)を選択する。同様に、選択指示子Pの枠線の線幅が操作子542に対する操作に応じて指定され、選択指示子Pの枠線の線色が操作子543に対する操作に応じて指定され、時間軸の方向における選択指示子Pの両端部の形状(角状や円弧状)が操作子544に対する操作に応じて指定される。また、選択指示子Pの枠線の透過度(枠線を透過して背景が視認される度合)が操作子545に対する操作に応じて指定される。選択指示子Pの枠線の線幅や透過度については利用者が数値を直接に指定することも可能である。利用者が各項目を指定または変更するたびに、表示制御部26は、当該指定を実際に枠線に反映させた指示子Pを領域546に表示する。
選択指示子Pの枠線の態様は、利用者が操作子547(OK)を操作した段階で設定画像54に指定されている態様に確定する。すなわち、操作子547が操作されると、表示制御部26は、音楽情報画像60の作業領域62に実際に配置された選択指示子Pの枠線を設定画像54で設定された態様に変更する。さらに、表示制御部26は、作業領域62に配置された複数の指示子Pのうち割当部34が選択指示子Pと共通のパートを割当てた総ての指示子P(すなわち、識別領域540に表示された識別子dBのパートが割当てられた指示子P)の枠線を、設定画像54にて選択指示子Pの枠線に指定された態様に変更する。なお、操作子548(Cancel)が操作された場合、設定画像54における設定の内容は反映されない。
一方、図6の設定画像56は、選択指示子Pの枠線の内側の領域(以下「内部領域」という)の態様を利用者が指定するための画像である。識別領域560には、割当部34が選択指示子Pの指定音に割当てたパート(単独パートまたは編成パート)の識別子dBが表示される。識別領域560に表示される識別子dBは入力装置14に対する操作に応じて変更される。
利用者は、設定画像56を確認しながら入力装置14を適宜に操作することで、選択指示子Pの内部領域の態様に関する複数の項目(色彩など)の各々について複数の候補の何れかを選択する。さらに詳述すると、内部領域の色彩が操作子561に対する操作に応じて指定され、内部領域に表示される網掛の種類(ハッチングのパターン)が操作子562に対する操作に応じて指定され、内部領域内の網掛の色彩が操作子563に対する操作に応じて指定され、内部領域の透過度が操作子564に対する操作に応じて指定される。利用者が各項目を指定または変更するたびに、表示制御部26は、当該指定を実際に内部領域に反映させた指示子Pを領域565に表示する。
設定画像56の操作子566(OK)が操作されると、表示制御部26は、音楽情報画像60の作業領域62に実際に配置された選択指示子Pの内部領域を設定画像56で設定された態様に変更する。さらに、表示制御部26は、作業領域62に配置された複数の指示子Pのうち割当部34が選択指示子Pと共通のパートを割当てた総ての指示子P(すなわち、識別領域560に表示された識別子dBのパートが割当てられた指示子P)の内部領域を、設定画像56にて選択指示子Pの内部領域に指定された態様に変更する。なお、操作子567(Cancel)が操作された場合、設定画像56における設定の内容は反映されない。
以上のように、割当部34の割当てたパートが共通する各指定音の指示子Pは共通の態様で表示される。利用者は選択指示子Pを任意に指定して態様を変更できるから、表示制御部26は、別個のパートが割当てられた各指定音の指示子Pを相異なる態様で表示することが可能である。例えば、割当部34が単独パートを割当てた指定音の指示子Pと、割当部34が編成パートを割当てた指定音の指示子Pとが相異なる態様で表示される。
以上の態様においては、複数の音声データD(編成パート)が割当てられた指定音が音楽情報画像60内のひとつの指示子Pで表示される。したがって、ひとつの指定音に割当てられた複数の音声データDの各々について指示子Pが別個に表示される場合と比較して音楽情報画像60が簡素化され、指定音の時系列を利用者が容易に確認(さらには編集)できる。しかも、単独パートの指定音の指示子Pと編成パートの指定音の指示子Pとを相異なる態様で表示できるから、各指定音が単独パートで再生される(指定音が独唱音として合成される)のか編成パートで再生される(指定音が合唱音として合成される)のかを利用者が直感的に把握できるという利点もある。
<B:第2実施形態>
次に、本発明の第2実施形態について説明する。なお、以下の各形態において第1実施形態と共通する要素については以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
本形態の表示制御部26は、割当部34が指定音に割当てた編成パートを構成する音声データDの個数N(すなわち編成パートの音声の総数)に応じて当該指定音の指示子Pの態様を変化させる。音声データDの個数Nに応じて制御される指示子Pの態様は任意であるが、例えば、図7の部分(A)に示すように編成パートの音声データDの個数Nが多いほど指示子Pの枠線を太い線幅に設定する構成や、図7の部分(B)に示すように編成パートの音声データDの個数Nが多いほど指示子Pの枠線や内部領域を濃い色彩に設定する構成が好適である。また、例えば指示子Pの枠線を波線で表示する場合には、図7の部分(C)に示すように、編成パートの音声データDの個数Nが多いほど枠線の振幅を増加させる構成も採用される。
以上の形態においては、編成パートを構成する音声データDの個数Nに応じて各指示子Pの態様が制御されるから、指定音の合成に使用される音声データDの個数N(すなわち合成音における音声の混合数)を利用者が直感的に把握できるという利点がある。なお、以上の形態においては個数Nに応じて指示子Pの態様を制御したが、例えば、指定音に割当てられた音声データDの特性に応じて表示制御部26が当該指定音の指示子Pの態様を可変に制御する構成も採用される。例えば、表示制御部26は、音声データDが表す音声の音量や音高が高いほど指示子Pの枠線や内部領域の色彩の濃度を増加させる。
<C:第3実施形態>
複数の発声者が同じ旋律を合唱する場合、各発声者の音声の音高や発音の時点には多少のバラツキが発生するのが通常である。したがって、編成パートを構成する複数の音声データDの各々に対応した音声の音高や発音の時点が完全に合致すると、合成音が聴感上において不自然な印象となる場合がある。そこで、本形態においては、各音声データDに対応した音声の音高や発音の時点にバラツキ(揺らぎ)を付与する。
図8は、本発明の第3実施形態に係る音声データ処理装置100Bのブロック図である。図8に示すように、本形態の音声データ処理装置100Bは、第1実施形態の音声データ処理装置100Aに設定部42を追加した構成である。設定部42は、音高分布範囲と発音点分布範囲とを可変に設定する。音高分布範囲は、編成パートを構成する各音声データDに対応した音声の音高が揺動する範囲(音高のバラツキの範囲)である。発音点分布範囲は、編成パートを構成する各音声データDに対応した音声の発音の時点が揺動する範囲(発音の時点のバラツキの範囲)である。
図9は、音高分布範囲および発音点分布範囲を利用者が設定するための設定画像58の模式図である。利用者が入力装置14に所定の操作を付与すると、表示制御部26は設定画像58を表示装置16に表示させる。利用者は、設定画像58を確認しながら入力装置14を操作することで音高分布範囲および発音点分布範囲を指定する。
図9の識別領域581には、選択部32が生成した複数の編成パートのうち利用者が選択した編成パート(すなわち設定の対象となる編成パート)の識別子dBが表示される。利用者は、操作子582を操作(左右に移動)することで音高分布範囲の広狭を設定する。発音点分布範囲の広狭も同様に利用者による操作子583の操作に応じて設定される。利用者は、音高分布範囲および発音点分布範囲を数値で直接に指定することも可能である。
設定画像58における設定の内容は操作子584(OK)の操作で確定される。すなわち、設定部42は、操作子584の操作時に指定されている音高分布範囲および発音点分布範囲を、作業中の編成パートの識別子dB(識別領域581に表示された識別子dB)に対応付けて記憶装置12に格納する。なお、操作子585(Cancel)が操作された場合には設定画像58の設定の内容は反映されない。
図8の音声合成部24は、編成パートが割当てられた指定音の合成に音高分布範囲および発音点分布範囲を使用する。すなわち、音声合成部24は、編成パートを構成する各音声データDに対応した音声の音高を音高分布範囲内で相違させるとともに各音声の発音の時点を発音点分布範囲内で相違させる。以上の構成によれば、編成パートの合成音を構成する各音声の音高や発音の時点に揺らぎが付与されるから、現実の合唱音に近い自然な合成音を生成することが可能となる。
一方、表示制御部26は、編成パートが割当てられた指示子Pの態様を、設定部42が当該編成パートに設定した音高分布範囲および発音点分布範囲の広狭に応じて変化させる。図10は、本形態における指示子Pの態様の変化を説明するための概念図である。図10に示すように、指示子Pのうち時間軸(横軸)の方向における両端の部分PEの形状が音高分布範囲および発音点分布範囲の広狭に応じて可変に設定される。例えば、表示制御部26は、音高分布範囲が広いほど音高軸の方向における端部PEの寸法L1を例えば破線aのように増加させ、発音点分布範囲が広いほど時間軸の方向における端部PEの寸法L2を例えば破線bのように増加させるといった具合である。
以上の形態においては、音高分布範囲や発音点分布範囲の広狭に応じて指示子Pの態様が可変に制御されるから、指示子Pに割当てられた編成パートの音高分布範囲や発音点分布範囲を利用者が視覚的に容易に確認できるという利点がある。しかも、指示子Pの端部PEのうち音高軸の方向の寸法L1が音高分布範囲の広狭に応じて制御され、時間軸の方向の寸法L2が発音点分布範囲の広狭に応じて制御される。したがって、例えば端部PEの寸法L1を発音点分布範囲に応じて制御する構成や端部PEの寸法L2を音高分布範囲に応じて制御する構成と比較して、発音点分布範囲や音高分布範囲の広狭を利用者が直感的に把握できるという利点もある。なお、音高分布範囲および発音点分布範囲の一方のみを設定部42が可変に制御する構成も採用される。
<D:第4実施形態>
以上の各形態においては編成パートを構成する複数の音声データDを利用者が選択する。しかし、自身の嗜好ないし感性に合致した音声データDや合唱音の合成のために音楽的に適切な音声データD(例えば音楽的に調和する音声データD)を利用者が自分で選択することは煩雑かつ困難である。そこで、本形態においては、利用者が指定した音楽的な印象に合致する音声データDが自動的に選択されたうえで編成パートとして使用される。
図11は、本形態に係る音声データ処理装置100Cのブロック図である。図11に示すように、音声データ処理装置100Cは、第1実施形態の音声データ処理装置100Aに解析部44を追加した構成である。解析部44は、記憶装置12に格納されたn個の音声データD(D1〜Dn)の各々について音楽的な特徴量Fを解析する。記憶装置12は、各音声データDについて解析部44が解析した特徴量F(F1〜Fn)を当該音声データDに対応させて記憶する。ただし、音声データDと特徴量Fとを別個の記憶装置に格納した構成も採用される。また、音声データDと特徴量Fとが外部で用意されたうえで記憶装置12に格納される構成においては解析部44が省略され得る。
解析部44による特徴量Fの抽出には例えば多変量解析(因子分析)が利用される。図12は、記憶装置12に音声データD毎に格納される特徴量F(F1〜Fn)の概念図である。図12に示すように、音声データDi(i=1〜n)の特徴量Fiは、音声の心理的な印象を特徴づける複数種の因子(金属因子,迫力因子,美的因子)の各々について当該音声データDiの多変量解析で特定された因子値X(X[i,I],X[i,II],X[i,III])の集合である。なお、本形態においては3種類の因子([I]〜[III])を例示するが、音声データDの多変量解析における因子の種類数(特徴量Fに含まれる因子値Xの個数)は任意に変更される。
解析部44は、音声データDの各素片データが表す音声の物理的な特徴量(例えば音量やピッチや周波数特性など)から、音楽の心理的な印象を表現する複数の形容詞対(例えば「明るい-暗い」「力強い-軽い」)の各々の指標値を評価し、複数の形容詞対の指標値を複数種の因子(金属因子,迫力因子,美的因子)に統計的に集約することで複数の因子値Xを特定する。図12の金属因子[I]の因子値X(X[1,I],X[2,I],……,X[n,I])は、受聴者が音声を金属的と感受する程度(金属因子)の指標であり、迫力因子[II]の因子値X(X[1,II],X[2,II],……,X[n,II])は、受聴者が音声に迫力を感受する程度(迫力因子)の指標であり、美的因子[III]の指標値X(X[1,III],X[2,III],……,X[n,III])は、受聴者が音声を美的と感受する程度(美的因子)の指標である。
図11の選択部32は、記憶装置12に格納されたn個の音声データDのうち利用者からの指示に応じて設定された特徴量(以下では特に「指示特徴量」という)FUに類似する特徴量Fに対応した複数の音声データDを記憶装置12から選択(検索)する。選択部32の選択した複数の音声データDで編成パートが構成される。
利用者が入力装置14に所定の操作を付与すると、表示制御部26は、指示特徴量FUの指定のための設定画像72(図13)を表示装置16に表示させる。利用者は、設定画像72を確認しながら入力装置14を適宜に操作することで指示特徴量FUを指定する。設定画像72の識別領域720には、編集の対象となる編成パートの識別子dBが表示される。領域721には、作業中の編成パートを構成すべき音声データDの個数(音声の混合数)Nが表示される。利用者は、入力装置14を適宜に操作することで領域721内の数値Nを適宜に変更すること(例えば領域721に対する個数Nの直接的な入力や操作子722の操作による個数Nの増減)が可能である。
指示特徴量FUは、記憶装置12に格納された特徴量Fと同様の3種類の因子(金属因子,迫力因子,美的因子)の各々について因子値U(U[I],U[II],U[III])を含む。各因子値Uは、入力装置14に対する操作に応じて個別に設定される。すなわち、金属因子[I]の因子値U[I]は図13の操作子723の操作に応じて設定され、迫力因子[II]の因子値U[II]は操作子724の操作に応じて設定され、美的因子[III]の因子値U[III]は操作子725の操作に応じて設定される。利用者は、例えば、金属的な音声を希望する場合には金属因子[I]の因子値U[I]を大きい数値に設定し、迫力のある音声を希望する場合には迫力因子[II]の因子値U[II]を大きい数値に設定する。利用者は、各因子値Uを数値で直接に指定することも可能である。
操作子726(Search)の操作を契機として音声データDの検索が実行される。さらに詳述すると、選択部32は、操作子726の操作の時点で設定されている指示特徴量FUとの類似度が高い順番で上位のN個の特徴量Fに対応した音声データDの集合を編成パートの候補として記憶装置12から検索する。なお、指示特徴量FUと特徴量Fとの類否の判定については後述する。
操作子727は、操作子726の操作で検索されたN個の音声データDに対応した音声(N種類の音声の混合)を利用者が試聴するための画像である。操作子727が操作されると、選択部32は、直前に検索したN個の音声データDの各々について所定の音声素片に対応する素片データを音声合成部24に出力する。音声合成部24は、N個の素片データから生成した所定の音高の音声を混合することで音声信号SOUTを出力する。したがって、利用者が指定した各因子値Uから検索されたN個の音声データDに対応した合成音が音出力装置18から再生される。利用者は、音出力装置18から再生される合成音を受聴(試聴)しながら因子値Uの変更を反復することで、所望の編成パートを生成することが可能である。
利用者が操作子728を操作した時点で検索されているN個の音声データD(すなわち、操作子728の直前に選択部32が検索したN個の音声データD)の集合が編成パートとして確定する。さらに詳述すると、選択部32は、操作子728の操作時に検索されているN個の音声データDの各々の識別子dAを、識別領域720に表示された識別子dB(すなわち作成中の編成パートの識別子dB)に対応させて記憶装置12に格納する。すなわち、選択部32は、利用者が指定した指示特徴量FUに類似する特徴量FのN個の音声データDを組合せて編成パートを構築する。編成パートの利用の方法は第1実施形態と同様である。なお、操作子729(Cancel)が操作された場合、設定画像72における設定の内容は反映されない。
次に、指示特徴量FUと特徴量Fとの類否の判定について説明する。選択部32は、記憶装置12に格納されたn個の特徴量F1〜Fnの各々について指示特徴量FUとの類否の指標となる数値(以下「類否指標値」という)Rを算定する。本形態の類否指標値Rは、図14に示すように、3種類の因子の各々に対応する座標軸が設定された空間(以下「因子空間」という)での距離に相当する。すなわち、特徴量Fiと指示特徴量FUとの類否指標値Riは、指示特徴量FUの各因子値U(U[I],U[II],U[III])を座標値として因子空間に規定される地点と特徴量Fiの各因子値X(X[i,I],X[i,II],X[i,III])を座標値として因子空間に規定される地点との距離である。さらに詳述すると、選択部32は、以下の数式(1)で表現されるユークリッド距離を類否指標値Riとして算定する。
Ri=√{(X[i,I]−U[I])2+(X[i,II]−U[II])2+(X[i,III]−U[III])2} ……(1)
数式(1)から理解されるように、指示特徴量FUと特徴量Fとの類似の程度が高いほど類否指標値Riは小さい数値となる。したがって、選択部32は、指示特徴量FUとの類否指標値Rが小さい順番で上位のN個の特徴量Fの音声データDを編成パートの要素として選択する。解析部44および選択部32以外の要素については第1実施形態と同様である。
以上の形態においても第1実施形態と同様の効果が実現される。さらに、本形態においては、利用者が指定した指示特徴量FUに類似する特徴量Fの複数の音声データDが編成パートの要素として選択されるから、各音声データDの各々に対応した音声の特性を利用者が熟知していない場合であっても、利用者の嗜好や感性に合致した複数の音声データDや音楽的な印象が類似する複数の音声データDが編成パートとして音声の合成に使用される。したがって、編成パートを編成する利用者の負担を軽減することが可能である。
また、編成パートを構成する音声データDの個数Nが入力装置14に対する操作に応じて可変に設定されるから、編成パートを少人数の合唱音とするか大人数の合唱音とするかを利用者が任意に設定できる。さらに、設定画像72の操作子727を操作することで利用者は実際の合成音を試聴できるから、自分の希望の合成音を生成するための指示特徴量FU(因子値Uの組合せ)を利用者が容易に探索できるという利点もある。
なお、編成パートを構成する音声データDの個数Nに応じて指定音の指示子Pの態様を変化させる第2実施形態の構成や、編成パートの各音声データDの音声に音高や発音の揺らぎを付与する第3実施形態の構成は本形態にも同様に適用される。
<E:第5実施形態>
第4実施形態においては利用者が因子値U(U[I],U[II],U[III])を入力装置14から直接的に指示した。本発明の第5実施形態においては、利用者が選択した音声データDの特徴量Fが指示特徴量FUとして利用される。なお、第4実施形態と共通する部分については説明を省略する。
利用者は、入力装置14を適宜に操作することで、記憶装置12に格納されたn個の音声データD(D1〜Dn)のなかからひとつの音声データD(以下「選択音声データD」という)を選択する。選択部32は、選択音声データDの特徴量Fを記憶装置12から取得し、図15に示すように、当該特徴量F(図15では特徴量F1)を指示特徴量FUとして、第4実施形態と同様の手順でn個の音声データD(選択音声データDを含む)の各々について類否指標値R(R1〜Rn)を算定する。そして、選択部32は、類否指標値Rが小さい順番で上位のN個の音声データD(類否指標値Rが最小値(ゼロ)となる選択音声データDを含む)を編成パートの要素として選択する。
以上の構成においては、利用者の指定した選択音声データDに特徴量Fが類似するN個の音声データDを選択部32が自動的に(すなわち利用者による選択を必要とせずに)選択される。したがって、利用者の既知の音声データD(選択音声データD)に音楽的な印象が類似する音声データDを編成パートの要素として選択するための利用者の負担が軽減されるという利点がある。なお、以上においては選択音声データDを編成パートに含める場合を例示したが、選択音声データDを編成パートの要素から除外してもよい。
<F:第6実施形態>
第4実施形態では各音声データDの特徴量Fを音声データDの選択に利用した。本発明の第6実施形態においては、各音声データDに対応した音声の発声者の属性が特徴量Fとともに音声データDの選択に使用される。なお、第4実施形態と共通する部分については説明を省略する。
図16に示すように、本形態に係る音声データ処理装置100Dの記憶装置12はn個の音声データD(D1〜Dn)の各々について特徴量F(F1〜Fn)と属性A(A1〜An)とを記憶する。属性Aは、音声データDの音声の発声者に関連する情報(性質・特徴)である。本形態では発声者の性別を属性Aとして例示する。
利用者は、入力装置14を適宜に操作することで発声者の属性A(性別)を任意に指定する。選択部32は、記憶装置12に格納されたn個の音声データDから、指定特徴量FUと特徴量Fとの類否指標値Rが小さい順番(すなわち指定特徴量FUと特徴量Fとの類似度が高い順番)で上位に位置し、かつ、属性Aが利用者からの指定に合致するN個の音声データDを編成パートの要素として選択する。したがって、例えば利用者が属性Aとして男性を指定した場合、発声者が男性であるN個の音声データDのみが選択されて音声の合成に利用される。
以上の構成によれば、特徴量Fに加えて属性Aが音声データDの選択の基準として使用されるから、利用者の嗜好や感性に合致した音声データDを第4実施形態と比較して容易かつ確実に選択できるという利点がある。なお、指示特徴量FUには、第4実施形態のように利用者が設定画像72にて指定した数値を利用してもよいし、第5実施形態のように利用者が指定した選択音声データDの特徴量Fを利用してもよい。
<G:変形例>
以上の形態には様々な変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
(1)変形例1
以上の各形態においては、単独パートが割当てられた指定音の指示子Pと編成パートが割当てられた指定音の指示子Pとが利用者からの指示に応じて相異なる態様に変更される場合(すなわち、初期的には各指示子Pが共通の態様で表示される場合)を例示したが、単独パートの指示子Pと編成パートの指示子Pとの表示の態様を表示制御部26が自動的に(すなわち利用者からの指示に依存せずに)相違させる構成も採用される。例えば、利用者が指示子Pに単独パートを割当てると、表示制御部26は、単独パートについて用意された初期的な態様で当該指示子Pを表示し、利用者が指示子Pに編成パートを割当てると、表示制御部26は、単独パートとは別個に編成パートについて用意された初期的な態様で当該指示子Pを表示する。各指示子Pの態様が利用者からの操作に応じて初期的な態様から変更される点は以上の各形態と同様である。
(2)変形例2
以上の各形態においては利用者が音楽情報画像60を確認しながら音楽情報SDを作成ないし編集する場合を例示したが、既存の音楽情報SDを利用者による確認のために音楽情報画像60として表示する構成も採用される。既存の音楽情報SDは、例えば、可搬型の記録媒体や通信網を介して記憶装置12に格納される。音楽情報SDの作成や編集という処理は本発明において必須ではない。
(3)変形例3
割当部34が割当てた音声データDの組合せに応じて制御される指示子Pの態様は以上の例示に限定されない。すなわち、指示子Pのサイズや表示色(色相,明度,彩度)や形状など視覚的に知覚できる総ての態様が音声データDの組合せに応じた制御の対象として採用され得る。また、指示子Pの態様を利用者が可変に設定する構成は本発明において必須ではない。例えば、音声データDの組合せに応じて表示制御部26が自動的に(すなわち利用者からの指示に依存せずに)選定した態様で指示子Pが表示される。また、以上の形態においてはパート(音声データDの組合せ)が共通する各指定音の指示子Pを表示制御部26が自動的に共通の態様で表示したが、共通のパートが割当てられた複数の指定音について指示子Pの態様を利用者が個別に設定する構成も採用される。
(4)変形例4
以上の各形態においては類否指標値Riの算定に数式(1)を利用したが、音声データDの選択の基準となる類否指標値Riを、指定特徴量FUおよび特徴量Fの因子値(X,U)に対して因子毎に別個の加重値Wを付与したうえで算定する構成も好適である。例えば、選択部32は、金属因子に対する加重値W[I]と迫力因子に対する加重値W[II]と美的因子に対する加重値W[III]とを含む以下の数式(2)を数式(1)の代わりに使用して類否指標値Riを算定する。
Ri=√{W[I]・(X[i,I]−U[I])2+W[II]・(X[i,II]−U[II])2+W[III]・(X[i,III]−U[III])2} ……(2)
各加重値W(W[I],W[II],W[iii])は、入力装置14に対する利用者からの操作に応じて任意に設定される。以上の構成においては、選択部32による選択に対する各因子の影響が加重値Wに応じて可変に制御されるから、編成パートにおける音声データDの組合せが多様化されるという利点がある。また、因子空間の座標軸において因子値Xの単位量に相当する距離が因子毎に相違する場合(すなわち座標軸毎にスケールが相違する場合)には、因子毎に別個に加重値Wを設定することで各因子の因子値(座標値)を正規化する構成が好適である。例えば、複数の特徴量Fの各々の因子値Xが座標軸上に分布する場合における当該分布の分散値の逆数を当該因子の加重値Wとして数式(2)を演算すれば、因子毎の座標軸の相違を補償して適切な類否指標値Riが算定される。もっとも、数式(1)や数式(2)は類否指標値Riを算定するための演算式の例示に過ぎず、指示特徴量FUと特徴量Fとの類否の評価には公知の技術が任意に採用される。
(5)変形例5
第4実施形態から第6実施形態における特徴量F(指示特徴量FU)は多変量解析の因子値に限定されない。さらに具体的には、音声データDが表す音声の特性値(例えば周波数特性や音量)を特徴量Fとして使用した構成や、特性値を因子毎の因子値Xとともに使用した構成が好適である。例えば、因子値Xと指示特徴量FUの因子値Uとの類似度が高い順番で上位に位置し、かつ、特性値が利用者からの指示に応じた条件に合致するN個の音声データDが編成パートの要素として選択される。
(6)変形例6
第4実施形態から第6実施形態においては編成パートを構成する音声データDの個数Nを利用者が指定したが、個数Nを所定値に固定した構成も採用される。また、第4実施形態から第6実施形態において、選択部32がひとつの音声データDを単独パートとして選択する構成も好適である。すなわち、選択部32は、記憶装置12に格納されたn個の音声データDのうち指示特徴量FUに最も類似する特徴量Fに対応するひとつの音声データDを単独パートとして選択する。
(7)変形例7
以上の各形態においては各音声データDが別個の発声者の音声から生成された場合を便宜的に例示したが、同じ発声者が発声した相異なる音声から複数の音声データDを生成してもよい。また、以上の各形態においては人間の発声音の合成を便宜的に想定したが、各種の楽器の演奏音を合成する構成(すなわち各音声データDが楽器の演奏音から生成された構成)も採用される。以上のように本発明における「音声」は、人間による発声音(発話音や歌唱音)および楽器の演奏音の双方を包含する概念である。
(8)変形例8
ひとつの音声データDが表す音声の総数は適宜に変更される。例えば、以上の各形態においてはひとつの音声データDをひとりの発声者の音声(あるいはひとつの楽器の演奏音)から生成した場合を便宜的に例示したが、並列に発生した複数の音声の混合音(例えば複数の発声者による発声音(合唱音)や複数の楽器による演奏音(合奏音))からひとつの音声データDを生成した構成も採用される。以上の態様において、複数の音声の混合音に対応するひとつの音声データDを割当部34が割当てたひとつの指定音の指示子Pを、表示制御部26が表示装置16(音楽情報画像60の作業領域62)に表示させる。音声データDが表す音声の混合数(すなわち合唱時の歌唱者の人数や合奏に使用された楽器の総数)Mは当該音声データDの属性Aとして記憶装置12に格納される。表示制御部26は、属性Aが指定する混合数Mに応じて指示子Pの態様を可変に制御する。混合数Mに応じて指示子Pの態様を制御する方法は任意であるが、例えば図7に例示した態様(第2実施形態における音声データDの個数Nを混合数Mに置換した構成)が好適である。以上の構成においても、複数の音声の混合音が割当てられた指定音の指示子Pを利用者が容易に確認できるという利点がある。
(9)変形例9
複数の音声データDが割当てられた指示音をひとつの指示子Pで表示する構成(第1実施形態から第3実施形態)と、利用者からの指示に応じた指示特徴量FUに特徴量Fが類似する音声データDを合成の対象として選択する構成(第4実施形態から第6実施形態)とは各々が独立して成立し得る。例えば、第4実施形態から第6実施形態においては、複数の音声データDが割当てられた指示音をひとつの指示子Pで表示する構成や指示子Pの態様が可変である構成は適宜に省略される。
(10)変形例10
音声信号SOUTの出力先は音出力装置18に限定されない。例えば、音声信号SOUTを記憶装置12(または他の記録媒体)に格納する構成や、音声信号SOUTを通信網に送信する構成も採用される。
本発明の第1実施形態に係る音声データ処理装置のブロック図である。 音楽情報の模式図である。 編成パートを編集するための設定画像の模式図である。 音楽情報画像の模式図である。 指示子の枠線の態様を指定する設定画像の模式図である。 指示子の内部領域の態様を指定する設定画像の模式図である。 本発明の第2実施形態における指示子の態様の制御を説明するための概念図である。 本発明の第3実施形態に係る音声データ処理装置のブロック図である。 音高分布範囲および発音点分布範囲を指定する設定画像の模式図である。 音高分布範囲および発音点分布範囲に応じた指示子の態様の変化を説明するための概念図である。 本発明の第4実施形態に係る音声データ処理装置のブロック図である。 特徴量の模式図である。 指示特徴量を指定する設定画像の模式図である。 類否指標値の算定を説明するための概念図である。 本発明の第5実施形態における類否指標値の算定を説明するための概念図である。 本発明の第6実施形態に係る音声データ処理装置のブロック図である。
符号の説明
100A,100B,100C,100D……音声データ処理装置、10……制御装置、12……記憶装置、14……入力装置、16……表示装置、18……音出力装置、22……情報生成部、24……音声合成部、26……表示制御部、32……選択部、34……割当部、42……設定部、44……解析部、52,54,56,58,72……設定画像、60……音楽情報画像、D(D1〜Dn)……音声データ、SD……音楽情報、SOUT……音声信号。

Claims (5)

  1. 相異なる音声の合成に使用される2以上の音声データをひとつの指定音に割当てる割当手段と、
    前記割当手段がひとつの指定音に割当てた2以上の音声データの各々に対応した音声の音高の分布範囲を可変に設定する第1設定手段と、
    各指定音に対応する指示子を音高軸と時間軸とが設定された作業領域に配置した音楽情報画像を表示装置に表示させる手段であって、前記第1設定手段が指定音に設定した分布範囲の広狭に応じて当該指定音の指示子の態様を変化させる表示制御手段と
    を具備する音声データ処理装置。
  2. 相異なる音声の合成に使用される2以上の音声データをひとつの指定音に割当てる割当手段と、
    前記割当手段がひとつの指定音に割当てた2以上の音声データの各々に対応した音声が開始する時点の分布範囲を可変に設定する第2設定手段と、
    各指定音に対応する指示子を音高軸と時間軸とが設定された作業領域に配置した音楽情報画像を表示装置に表示させる手段であって、前記第2設定手段が指定音に設定した分布範囲の広狭に応じて当該指定音の指示子の態様を変化させる表示制御手段と
    を具備する音声データ処理装置。
  3. 利用者が第1操作子を操作した場合、前記表示制御手段は、複数の音声データの識別子を選択候補として前記表示装置に表示させ、前記割当手段は、利用者が選択した識別子の音声データを単独で指定音に割当てる一方、
    利用者が第2操作子を操作した場合、前記表示制御手段は、2以上の音声データを各々が含む複数の編成パートの識別子を選択候補として前記表示装置に表示させ、前記割当手段は、利用者が選択した識別子の音声データに含まれる2以上の音声データを指定音に割当てる
    請求項1または請求項2の音声データ処理装置。
  4. 相異なる音声の合成に使用される2以上の音声データをひとつの指定音に割当てる割当処理と、
    前記割当処理でひとつの指定音に割当てた2以上の音声データの各々に対応した音声の音高の分布範囲を可変に設定する第1設定処理と、
    各指定音に対応する指示子を音高軸と時間軸とが設定された作業領域に配置した音楽情報画像を表示装置に表示させる処理であって、前記第1設定処理で指定音に設定した分布範囲の広狭に応じて当該指定音の指示子の態様を変化させる表示制御処理と
    をコンピュータに実行させるプログラム。
  5. 相異なる音声の合成に使用される2以上の音声データをひとつの指定音に割当てる割当処理と、
    前記割当処理でひとつの指定音に割当てた2以上の音声データの各々に対応した音声が開始する時点の分布範囲を可変に設定する第2設定処理と、
    各指定音に対応する指示子を音高軸と時間軸とが設定された作業領域に配置した音楽情報画像を表示装置に表示させる処理であって、前記第2設定処理で指定音に設定した分布範囲の広狭に応じて当該指定音の指示子の態様を変化させる表示制御処理と
    をコンピュータに実行させるプログラム。
JP2008105904A 2008-04-15 2008-04-15 音声データ処理装置およびプログラム Active JP5509536B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008105904A JP5509536B2 (ja) 2008-04-15 2008-04-15 音声データ処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008105904A JP5509536B2 (ja) 2008-04-15 2008-04-15 音声データ処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2009258291A JP2009258291A (ja) 2009-11-05
JP5509536B2 true JP5509536B2 (ja) 2014-06-04

Family

ID=41385824

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008105904A Active JP5509536B2 (ja) 2008-04-15 2008-04-15 音声データ処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP5509536B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5648347B2 (ja) * 2010-07-14 2015-01-07 ヤマハ株式会社 音声合成装置
JP5614262B2 (ja) * 2010-11-29 2014-10-29 ヤマハ株式会社 音楽情報表示装置
JP2014178620A (ja) * 2013-03-15 2014-09-25 Yamaha Corp 音声処理装置
JP6295691B2 (ja) * 2014-02-05 2018-03-20 ヤマハ株式会社 楽曲処理装置および楽曲処理方法
CN108257588B (zh) * 2018-01-22 2022-03-01 姜峰 一种谱曲方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003114674A (ja) * 2001-10-04 2003-04-18 Casio Comput Co Ltd 演奏情報表示装置、及びプログラム
JP3998461B2 (ja) * 2001-11-16 2007-10-24 株式会社河合楽器製作所 演奏練習装置、演奏練習方法、プログラム及び記録媒体
JP2003216147A (ja) * 2002-01-17 2003-07-30 Dainippon Printing Co Ltd 音響信号の符号化方法
JP3823951B2 (ja) * 2003-06-27 2006-09-20 ヤマハ株式会社 演奏情報作成表示装置及びそのための記録媒体
JP2006039262A (ja) * 2004-07-28 2006-02-09 Kawai Musical Instr Mfg Co Ltd 効果付与装置及び方法
JP2006234979A (ja) * 2005-02-22 2006-09-07 Kawai Musical Instr Mfg Co Ltd 電子楽器及びその処理方法
JP4720563B2 (ja) * 2006-03-22 2011-07-13 ヤマハ株式会社 楽音制御装置
JP4628298B2 (ja) * 2006-04-10 2011-02-09 ローランド株式会社 ピアノロール表示装置およびピアノロール表示プログラム
JP4913638B2 (ja) * 2007-03-13 2012-04-11 ヤマハ株式会社 評価装置及びカラオケ装置

Also Published As

Publication number Publication date
JP2009258291A (ja) 2009-11-05

Similar Documents

Publication Publication Date Title
US20060230910A1 (en) Music composing device
US6307140B1 (en) Music apparatus with pitch shift of input voice dependently on timbre change
US8735709B2 (en) Generation of harmony tone
JP5223433B2 (ja) 音声データ処理装置およびプログラム
JP6728754B2 (ja) 発音装置、発音方法および発音プログラム
WO2020095950A1 (ja) 情報処理方法および情報処理システム
TWI471853B (zh) Music generating device
JP5509536B2 (ja) 音声データ処理装置およびプログラム
CN107146598A (zh) 一种多音色混合的智能演奏系统和方法
JP5625321B2 (ja) 音声合成装置およびプログラム
JP2013145393A (ja) 楽曲データ加工装置、カラオケ装置及びプログラム
JP2011164162A (ja) 演奏表情付け支援装置
WO2014142200A1 (ja) 音声処理装置
JP2016161774A (ja) 楽曲生成装置
JP4259532B2 (ja) 演奏制御装置、およびプログラム
JPH11352960A (ja) 演奏システムの視覚的表示方法および演奏システムの視覚的表示プログラムが記録された記録媒体
JP7124870B2 (ja) 情報処理方法、情報処理装置およびプログラム
JP6828530B2 (ja) 発音装置及び発音制御方法
JPH11338480A (ja) カラオケ装置
JP5790860B2 (ja) 音声合成装置
JP2024057180A (ja) プログラム、音響処理方法および音響処理システム
JP3503268B2 (ja) 音色パラメータ編集装置
JP5446150B2 (ja) 電子音楽装置
JP7127682B2 (ja) 情報処理方法、情報処理装置およびプログラム
WO2022080395A1 (ja) 音声合成方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121017

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130521

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130718

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140310

R150 Certificate of patent or registration of utility model

Ref document number: 5509536

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150