JP2015099363A

JP2015099363A - 音声処理装置

Info

Publication number: JP2015099363A
Application number: JP2014210143A
Authority: JP
Inventors: 嘉山　啓; Hiroshi Kayama; 啓嘉山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2013-10-17
Filing date: 2014-10-14
Publication date: 2015-05-28
Anticipated expiration: 2034-10-14
Also published as: JP2019086801A; JP6497025B2; JP6741105B2

Abstract

【課題】音声の声質を制御するための変数の設定を容易化する。
【解決手段】特徴量特定部２２は、音声信号Ｘを解析することで対象音声の特徴量を特定する。区間設定部２４は、特徴量特定部２２が特定した特徴量と閾値との比較結果に応じて処理区間Ｑを設定する。変数制御部２６は、声質を制御するための制御変数Ｃを処理区間Ｑについて設定する。音声処理部２８は、対象音声のうち処理区間Ｑの声質を制御変数Ｃに応じて制御した音声の音声信号Ｙを生成する。
【選択図】図２

Description

本発明は、音声の声質を制御する技術に関する。

音声の声質を制御する技術が従来から提案されている。例えば特許文献１には、合成音声の声質を制御するための声質変換パラメータを利用者からの指示に応じて経時的に変化させる構成が開示されている。

特開２００４−０３８０７１号公報

しかし、聴感的に自然な所望の声質の音声が再現されるように利用者が声質変換パラメータを適切に調整することは実際には困難である。音声や声質に関する専門的な知見が充分でない利用者にとって問題は特に深刻化する。以上の事情を考慮して、本発明は、音声の声質を制御するための変数の設定を容易化することを目的とする。

以上の課題を解決するために、本発明の音声処理装置は、対象音声の特徴量を特定する特徴量特定手段と、特徴量と閾値との比較結果に応じて処理区間を設定する区間設定手段と、声質を制御するための制御変数を処理区間について設定する変数制御手段と、対象音声のうち処理区間の声質を制御変数に応じて制御した音声の音声信号を生成する音声処理手段とを具備する。以上の構成では、対象音声の特徴量に応じて設定された処理区間の声質が制御される。したがって、声質に関する専門的な知見（例えば対象音声のうち特定の声質に変換すべき区間の知識）を利用者が持たない場合でも、聴感的に自然な声質を再現することが可能である。

本発明の好適な態様において、特徴量特定手段は、対象音声のうち特定の区間内での始点からの経過時間を特徴量として特定する。例えば、区間設定手段は、第１声質については経過時間が閾値を上回る区間を処理区間として設定し、第１声質とは別種の第２声質については経過時間が閾値を下回る区間を処理区間として設定する。以上の態様では、経過時間が閾値を上回る区間（例えば有声区間の末尾側の区間）と経過時間が閾値を下回る区間（例えば有声区間の先頭側の区間）とが声質の種類に応じて処理区間として設定される。したがって、聴感的に自然な複数種の声質を再現できるという利点がある。

対象音声の特定の区間の経過時間を特徴量として特定する構成では、特徴量特定手段は、例えば、対象音声の音高または音量を特徴量として特定し、区間設定手段は、対象音声の音高または音量と第１閾値との比較結果と、経過時間と第２閾値との比較結果とに応じて、処理区間を設定する。以上の態様では、経過時間に加えて対象音声の音高または音量が処理区間の設定に適用されるから、聴感的に自然な声質の音声を生成できるという前述の効果は格別に顕著である。また、対象音声の音高または音量が変動する時点を境界として特徴量特定手段が特定の区間を区分する構成によれば、例えば音符毎の発音の経過時間に応じて処理区間を設定できる（例えば各音符の末尾側または先頭側の区間を処理区間として設定できる）という利点がある。

本発明の好適な態様において、区間設定手段は、自動設定モードでは対象音声の特徴量に応じて処理区間を設定し、手動設定モードでは利用者からの指示に応じて処理区間を設定する。以上の態様では、自動設定モードと手動設定モードとが用意されるから、例えば声質に関する充分な知識がある利用者は手動設定モードで自身の所望の声質を再現し、声質に関する知識が不充分である利用者は自動設定モードで聴感的に自然な声質を再現できるという利点がある。

本発明の好適な態様において、区間設定手段は、複数種の特徴量のうち利用者からの指示に応じた特徴量と閾値との比較結果に応じて処理区間を設定する。以上の態様では、複数の特徴量のうち利用者からの指示に応じた特徴量が処理区間の設定に適用されるから、利用者の意図や嗜好に適合した声質を再現できるという利点がある。

本発明の好適な態様において、区間設定手段は、利用者からの指示に応じて閾値を可変に設定する。以上の態様では、処理区間の設定のために特徴量と比較される閾値が利用者からの指示に応じて可変に設定されるから、閾値が所定値に固定された構成と比較して利用者の意図や嗜好を反映した処理区間の声質が制御された音声を再現できるという利点がある。

特徴量特定部が特徴量を特定するための構成は任意である。例えば、対象音声の音声信号の解析で特徴量を特定する構成や、対象音声に対応する楽曲の各音符を指定する楽曲データから特徴量を特定する構成が採用される。音声信号を解析する構成によれば、対象音声の特徴量を正確に特定できるという利点があり、楽曲データを利用する構成によれば、対象音声の特徴量を簡便に特定できるという利点がある。なお、また、特徴量特定手段が、第１解析モードでは、対象音声の音声信号の解析で特徴量を特定し、第２解析モードでは、対象音声に対応する楽曲の各音符を指定する楽曲データから特徴量を特定する構成も好適である。

本発明の好適な態様において、特徴量特定手段は、対象音声の合成を指示する合成データから特徴量を特定し、音声処理手段は、合成データを適用した音声合成処理で、処理区間の声質が制御変数に応じて制御された音声の音声信号を生成する。以上の態様では、対象音声の音声信号を必要とせずに、処理区間の声質を制御した音声の音声信号を生成できるという利点がある。

以上の各態様に係る音声処理装置は、音声処理に専用されるDSP（Digital Signal Processor）等のハードウェア（電子回路）によって実現されるほか、CPU（Central Processing Unit）等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、本発明は、以上に説明した各態様に係る音声処理装置の動作方法（音声処理方法）としても特定される。

本発明の第１実施形態に係る音声処理装置の構成図である。音声処理装置の機能的な構成図である。特徴量特定部が実行する音声解析処理のフローチャートである。音声処理装置の動作の説明図である。音声処理装置の動作のフローチャートである。閾値設定画面の模式図である。第２実施形態における動作モード選択画面の模式図である。第２実施形態における処理区間（ボーカルフライ）の設定の説明図である。第３実施形態における特徴量選択画面の模式図である。第３実施形態における閾値設定画面の模式図である。第４実施形態における音声処理装置の機能的な構成図である。第５実施形態における音声処理装置の機能的な構成図である。第５実施形態における動作モード選択画面の模式図である。第５実施形態における特徴量選択画面の模式図である。第５実施形態における閾値設定画面の模式図である。第６実施形態における音声処理装置の機能的な構成図である。第７実施形態における音声処理装置の機能的な構成図である。第７実施形態における音声処理装置の動作の説明図である。第７実施形態の動作のフローチャートである。第８実施形態における音声処理装置の動作の説明図である。第８実施形態の動作のフローチャートである。第８実施形態の動作のフローチャートである。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音声処理装置１００の構成図である。図１に例示される通り、音声処理装置１００には信号供給装置２００が接続される。信号供給装置２００は、音声処理装置１００による処理対象の音声（以下「対象音声」という）の波形を表す音声信号Ｘを音声処理装置１００に供給する。第１実施形態の対象音声は、特定の楽曲（以下「対象楽曲」という）を歌唱した歌唱音声である。周囲の音声を収音して音声信号Ｘを生成する収音装置や、可搬型または内蔵型の記録媒体から音声信号Ｘを取得して音声処理装置１００に供給する再生装置や、通信網から音声信号Ｘを受信して音声処理装置１００に供給する通信装置が、信号供給装置２００として好適に採用され得る。なお、信号供給装置２００を音声処理装置１００と一体に構成することも可能である。

音声処理装置１００は、信号供給装置２００から供給される音声信号Ｘが表す対象音声の声質を調整することで音声信号Ｙを生成する信号処理装置である。第１実施形態では、音声信号Ｘの対象音声を気息音（breathy）に変換する場合を例示する。気息音は、気息性が豊富な音声（囁き声）であり、声帯の振動に起因した調波成分（基音成分および複数の倍音成分）に対して非調波成分（周波数軸上で各調波成分の間隙内に存在する音響成分）が相対的に優勢な音声を意味する。

図１に例示される通り、音声処理装置１００は、演算処理装置１０と記憶装置１２と表示装置１４と操作機器１６と放音装置１８とを具備するコンピュータシステムで実現される。演算処理装置１０は、記憶装置１２に記憶されたプログラムを実行することで各種の制御処理および演算処理を実行する。記憶装置１２は、演算処理装置１０が実行するプログラムや演算処理装置１０が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１２として任意に採用される。

表示装置１４（例えば液晶表示パネル）は、演算処理装置１０から指示された画像を表示する。操作機器１６は、音声処理装置１００に対する各種の指示のために利用者が操作する入力装置である。利用者が押下する複数の操作子のほか、表示装置１４と一体に構成されたタッチパネルを操作機器１６として採用することも可能である。放音装置１８（例えばスピーカやヘッドホン）は、演算処理装置１０が生成した音声信号Ｙに応じた音声（すなわち対象音声の声質を変換した音声）を再生する。なお、音声信号Ｙをデジタルからアナログに変換するＤ/Ａ変換器や音声信号Ｙを増幅する増幅器の図示は便宜的に省略した。

図２は、第１実施形態の音声処理装置１００の機能的な構成図である。図２に例示される通り、演算処理装置１０は、記憶装置１２に記憶されたプログラムを実行することで、音声信号Ｘから音声信号Ｙを生成するための複数の機能（特徴量特定部２２，区間設定部２４，変数制御部２６，音声処理部２８）を実現する。なお、演算処理装置１０の各機能を複数の装置に分散した構成や、専用の電子回路（例えばDSP）が演算処理装置１０の一部の機能を実現する構成も採用され得る。

特徴量特定部２２は、対象音声の特徴量を順次に特定する。第１実施形態の特徴量特定部２２は、信号供給装置２００から供給される音声信号Ｘを解析することで対象音声の音高（ピッチ）Ｐと経過時間Ｅとを順次に抽出する。音高Ｐは、離散的な複数の音高（例えば音階を構成する複数の音高）の何れかに設定される。経過時間Ｅは、対象音声のうち有声音が存在する区間（以下「有声区間」という）内での始点からの経過時間を意味する。したがって、有声区間の継続長が長いほど経過時間Ｅは有声区間の始点から終点にかけて大きい数値まで増加する。有声区間は、各調波成分が周波数軸上で略等間隔に配列する有声音の調波構造が観測される区間（明確な調波構造が観測されない無声区間と音声が存在しない無音区間とを除外した区間）である。

図３は、第１実施形態の特徴量特定部２２が特徴量（音高Ｐ，経過時間Ｅ）を特定する動作（以下「音声解析処理」という）のフローチャートであり、図４は、音声解析装置の動作の説明図である。図３の音声解析処理は、音声信号Ｘを時間軸上で区分した単位区間（フレーム）毎に順次に実行される。図４では、「さいた（咲いた）」と発音した対象音声の音声信号Ｘの概略的な波形が例示されている。

音声解析処理を開始すると、特徴量特定部２２は、音声信号Ｘの単位区間内の音高ｐ0を抽出する（ＳA1）。音高ｐ0は、音声信号Ｘの基本周波数（ピッチ）である。音高ｐ0の時間変化が図４では音声信号Ｘの波形に併記されている。音声信号Ｘの音高ｐ0の抽出には公知の技術（ピッチ抽出技術）が任意に採用される。

特徴量特定部２２は、単位区間が有声区間に該当するか否かを判定する（ＳA2）。図４に例示される通り、明確な調波構造が観測される有声区間ｖ0では有意な音高ｐ0が抽出されるのに対し、有声区間ｖ0以外の区間（無声区間や無音区間）では有意な音高ｐ0は抽出されないという傾向がある。以上の傾向を考慮して、第１実施形態の特徴量特定部２２は、有意な音高ｐ0がステップＳA1で抽出されたか否かに応じて、単位区間が有声区間ｖ0に包含されるか否かを判定する。

単位区間が有声区間ｖ0に該当する場合（ＳA2：YES）、特徴量特定部２２は、経過時間ｅ0に所定値（例えば１）を加算する（ＳA3）。他方、単位区間が有声区間ｖ0に該当しない場合（ＳA2：NO）、特徴量特定部２２は、経過時間ｅ0をゼロに初期化する（ＳA4）。したがって、経過時間ｅ0は、図４から理解される通り、有声区間ｖ0の始点にてゼロに設定されて有声区間ｖ0内で時間の経過とともに増加し、有声区間ｖ0の終点（ＳA2：NO）にてゼロに初期化される。

特徴量特定部２２は、音声信号Ｘの音高ｐ0を正規化することで音高Ｐを決定する（ＳA5）。具体的には、図４に例示される通り、離散的に設定された複数の音高のうち音高ｐ0に最も近い音高が正規化後の音高Ｐとして特定される。以上の説明から理解される通り、音高Ｐは、対象楽曲の１個の音符内で一定の数値に維持されるとともに音符毎に離散的に変動し得る。したがって、時間軸上で音高Ｐが変動する時点は、対象楽曲内で相前後する各音符の境界に該当する可能性が高い。

特徴量特定部２２は、各有声区間ｖ0の経過時間ｅ0を、対象楽曲の各音符に対応する有声区間Ｖの経過時間Ｅに正規化する（ＳA6）。具体的には、特徴量特定部２２は、図４から理解される通り、音声信号Ｘの音高Ｐが変動する時点（すなわち相前後する各音符の境界）を境界として有声区間ｖ0を対象楽曲の音符毎の有声区間Ｖに区分し、有声区間Ｖの始点にてゼロとなるように経過時間ｅ0を設定（補正）することで、各有声区間Ｖの始点からの経過時間Ｅを算定する。したがって、経過時間Ｅは、対象楽曲の音符毎の有声区間Ｖの始点にてゼロに設定されて有声区間Ｖ内で経時的に増加し、有声区間Ｖの終点が到来するとゼロに初期化される。経過時間Ｅは、対象楽曲の１個の音符が継続する時間長（継続長）とも換言され得る。第１実施形態の特徴量特定部２２は、以上に例示した音声解析処理を反復することで音声信号Ｘの特徴量（音高Ｐ，経過時間Ｅ）を単位区間毎に順次に特定する。

図２の区間設定部２４は、特徴量特定部２２が特定した特徴量（音高Ｐ，経過時間Ｅ）に応じて処理区間Ｑを設定する。処理区間Ｑは、音声信号Ｘの対象音声のうち声質を変化させるべき区間（対象音声のうち気息音に変換すべき区間）である。第１実施形態の区間設定部２４は、特徴量特定部２２が特定した特徴量（音高Ｐ，経過時間Ｅ）と閾値との比較結果に応じて処理区間Ｑを設定する。具体的には、区間設定部２４は、図４に例示される通り、音高Ｐおよび閾値ＰTHの比較結果と、経過時間Ｅおよび閾値ＥTHの比較結果とに応じて処理区間Ｑを設定する。実際の歌唱では、歌唱音声の音高が高く継続長が長いほど、歌唱音声の気息性が増加し易いという概略的な傾向が観察される。以上の傾向を再現する観点から、第１実施形態の区間設定部２４は、図４に例示される通り、音高Ｐが閾値ＰTHを上回り、かつ、経過時間Ｅが閾値ＥTHを上回る区間を処理区間Ｑとして設定する。経過時間Ｅは有声区間Ｖ内で経時的に単調増加するから、継続長が閾値ＥTHを上回る有声区間Ｖのうち末尾側の区間が処理区間Ｑとして画定される。なお、閾値ＰTHおよび閾値ＥTHは、操作機器１６に対する利用者からの指示に応じて可変に設定される。

図２の変数制御部２６は、区間設定部２４が設定した処理区間Ｑについて制御変数Ｃを設定する。制御変数Ｃは、声質を制御するための変数である。第１実施形態の制御変数Ｃは、気息音の度合を指示する変数である。図４に例示される通り、変数制御部２６は、区間設定部２４が設定した処理区間Ｑの始点から終点にかけてゼロから所定の増加率で増加するように制御変数Ｃを設定する。すなわち、処理区間Ｑの終点に近付く（１個の音符の音声が長引く）ほど気息音の度合が増加するように、変数制御部２６は制御変数Ｃを経時的に変化させる。

図２の音声処理部２８は、変数制御部２６が設定した制御変数Ｃを適用した声質変換処理を音声信号Ｘに対して実行することで音声信号Ｙを生成する。声質変換処理は、制御変数Ｃに応じて対象音声の声質を変化させる音声処理である。第１実施形態の音声処理部２８は、処理区間Ｑ内の音声信号Ｘを制御変数Ｃに応じた度合の気息音に変換する声質変換処理（制御変数Ｃに応じた度合の気息性を付与する処理）で音声信号Ｙを生成する。気息性の付与には公知の技術が任意に採用される。例えば、音声処理部２８は、音声信号Ｘを調波成分と非調波成分（気息成分）とに分離し、調波成分に対する非調波成分の強度（すなわち気息性）を制御変数Ｃに応じて制御することで、処理区間Ｑが制御変数Ｃに応じた気息音に変換された音声の音声信号Ｙを生成する。

図５は、演算処理装置１０が音声信号Ｘから音声信号Ｙを生成する処理のフローチャートである。例えば操作機器１６に対する利用者からの指示を契機として図５の処理が開始されて音声信号Ｘの全区間にわたり単位区間毎に反復される。

信号供給装置２００から１個の単位区間の音声信号Ｘが取込まれると（ＳB1）、区間設定部２４は、操作機器１６に対する利用者からの指示に応じて閾値ＰTHおよび閾値ＥTHを可変に設定する（ＳB2）。具体的には、演算処理装置１０は、図６の設定画面（以下「閾値設定画面」という）を表示装置１４に表示させる。閾値設定画面は、音高Ｐ（Pitch）の閾値ＰTHと経過時間Ｅ（Duration）の閾値ＥTHとを利用者が指示するための画像である。利用者は、閾値設定画面を視認しながら操作機器１６を適宜に操作することで閾値ＰTHと閾値ＥTHとを任意に調整することが可能である。

特徴量特定部２２は、図３を参照して説明した音声解析処理を実行することで単位区間の音高Ｐと経過時間Ｅとを特定する（ＳB3）。そして、区間設定部２４は、単位区間の音高Ｐが閾値ＰTHを上回るか否かを判定する（ＳB4）とともに、単位区間の経過時間Ｅが閾値ＥTHを上回るか否かを判定する（ＳB5）。ステップＳB4およびステップＳB5の双方の結果が肯定である場合（Ｐ＞ＰTH，Ｅ＞ＥTH）、変数制御部２６は、単位区間について制御変数Ｃを設定し（ＳB6）、音声処理部２８は、変数制御部２６が設定した制御変数Ｃを適用した声質変換処理で音声信号Ｘから音声信号Ｙを生成する（ＳB7）。他方、ステップＳB4およびステップＳB5の一方または双方の結果が否定である場合、制御変数Ｃの設定（ＳB6）と音声信号Ｘに対する声質変換処理（ＳB7）とは実行されない。すなわち、信号供給装置２００から供給される音声信号Ｘが音声信号Ｙとして出力される。以上の説明から理解される通り、図５のステップＳB4およびステップＳB5の判定は、区間設定部２４が処理区間Ｑを設定する処理に相当する。図５の処理が音声信号Ｘの単位区間毎に実行されることで、対象音声の処理区間Ｑを気息音に変換した音声の音声信号Ｙが生成される。

以上に説明した第１実施形態では、対象音声の特徴量（音高Ｐ，経過時間Ｅ）に応じて設定された処理区間Ｑの声質が制御される。したがって、声質に関する専門的な知見（対象音声のうち気息性を付与すべき区間の知識）を利用者が持たない場合でも、聴感的に自然な声質（気息音）を再現することが可能である。すなわち、制御変数Ｃの設定が容易化される（例えば利用者による処理区間Ｑの指定や制御変数Ｃの時間変化の設定が不要である）という利点がある。

＜第２実施形態＞
本発明の第２実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。

第２実施形態の演算処理装置１０は、図７の設定画面（以下「動作モード選択画面」という）を表示装置１４に表示させる。動作モード選択画面は、手動設定モード（manual）と自動設定モード（auto）との何れかを利用者が選択するための画像である。自動設定モードは、処理区間Ｑと制御変数Ｃとを自動的（操作機器１６に対する利用者からの指示を必要とせず）に設定する動作モードである。すなわち、自動設定モードでは、第１実施形態と同様に、対象音声の特徴量（音高Ｐ，経過時間Ｅ）に応じて処理区間Ｑと処理区間Ｑ内の制御変数Ｃとが自動的に設定される。他方、手動設定モードは、操作機器１６に対する利用者からの指示に応じて処理区間Ｑと制御変数Ｃとを設定する動作モードである。すなわち、手動設定モードでは、操作機器１６に対する操作で利用者が指示した区間を区間設定部２４が処理区間Ｑとして設定し、操作機器１６に対する利用者からの指示に応じて変数制御部２６が処理区間Ｑ内の制御変数Ｃの時間変化を設定する。

図７に例示される通り、利用者は、複数種の声質（気息音，ボーカルフライ，……）の各々について手動設定モードと自動設定モードとの何れかを選択することが可能である。すなわち、手動設定モードおよび自動設定モードの何れかの動作モードのもとで、処理区間Ｑと制御変数Ｃとが複数種の声質の各々について個別に設定される。図７のボーカルフライは、低音域の歌唱時に声帯の閉塞と解放とを反復することで発音される音声（エッジボイス）であり、典型的には発声開始の直後に発音される。

図８は、ボーカルフライについて自動設定モードが設定された場合の区間設定部２４の動作の説明図である。図８に例示される通り、対象音声の音高ｐ0に応じた有声区間ｖ0が有声区間Ｖとして設定され、有声区間ｖ0を音符毎に区分する処理（経過時間ｅ0の正規化）は省略される。すなわち、ボーカルフライについては第１実施形態の経過時間ｅ0が経過時間Ｅに相当する。

低音域の発声開始の直後にボーカルフライが発生し易いという前述の傾向を再現する観点から、第２実施形態の区間設定部２４は、図８に例示される通り、音高Ｐが閾値ＰTHを下回り、かつ、経過時間Ｅ（ｅ0）が閾値ＥTHを下回る区間を、対象音声がボーカルフライに変換される処理区間Ｑとして設定する。経過時間Ｅは経時的に単調に増加するから、図８から理解される通り、有声区間Ｖのうち先頭側の区間（発音の開始の直後の区間）が処理区間Ｑとして画定される。閾値ＰTHおよび閾値ＥTHは、操作機器１６に対する利用者からの指示に応じて声質の種類毎に（気息音およびボーカルフライの各々について）個別に設定される。

以上の説明から理解される通り、処理区間Ｑは声質の種類に応じて相違する。具体的には、発声の最後に発生し易い気息音等の声質については、経過時間Ｅが閾値ＥTHを上回る区間（すなわち有声区間Ｖの末尾側の区間）が処理区間Ｑとして設定され、発音の開始の直後に発生し易いボーカルフライ等の声質については、経過時間Ｅが閾値ＥTHを下回る区間（すなわち有声区間Ｖの先頭側の区間）が処理区間Ｑとして設定される。

変数制御部２６は、図８に例示される通り、処理区間Ｑの内側ではボーカルフライの制御変数Ｃを有効値（例えば１）に設定し、処理区間Ｑの外側では制御変数Ｃを無効値（例えば０）に設定する。音声処理部２８は、制御変数Ｃを適用した処理区間Ｑの声質変換処理を複数種の声質の各々について相互に独立に実行する。対象音声をボーカルフライに変換する具体的な処理は任意であるが、例えば、音声信号Ｘのリサンプリングによりサンプリング周波数を低下させる方法が好適に採用される。

第２実施形態においても第１実施形態と同様の効果が実現される。第２実施形態では、経過時間Ｅが閾値ＥTHを上回る区間（有声区間Ｖの末尾側の区間）と経過時間Ｅが閾値ＥTHを下回る区間（有声区間Ｖの先頭側の区間）とが、対象音声に付与される声質の種類に応じて設定される。したがって、聴感的に自然な複数種の声質を再現できるという利点がある。また、第２実施形態では、自動設定モードと手動設定モードとが用意されるから、声質に関する充分な知識がある利用者は、手動設定モードにて自身の所望の声質を再現し、声質に関する知識が不充分である利用者は、自動設定モードにて聴感的に自然な声質を再現できるという利点がある。

＜第３実施形態＞
第１実施形態では、対象音声の音高Ｐと経過時間Ｅとに応じて処理区間Ｑを設定したが、処理区間Ｑの設定に適用される特徴量は以上の例示に限定されない。例えば、音高Ｐと経過時間Ｅとに加えて音量（ダイナミクス）Ｄを処理区間Ｑの設定に適用することも可能である。例えば実際の歌唱では、音量Ｄが小さいほど歌唱音声の気息性が増加し易いという傾向がある。以上の傾向を再現する観点から、区間設定部２４は、音高Ｐおよび経過時間Ｅに関する条件（Ｐ＞ＰTH，Ｅ＞ＥTH）に加えて、音量Ｄが閾値ＤTHを下回るという条件が成立する区間を処理区間Ｑとして設定する。また、実際の歌唱では、音量Ｄが小さいほどボーカルフライが発生し易いという傾向がある。以上の傾向を再現する観点から、区間設定部２４は、音高Ｐおよび経過時間Ｅに関する条件（Ｐ＜ＰTH，Ｅ＜ＥTH）に加えて、音量Ｄが閾値ＤTHを下回るという条件が成立する区間を処理区間Ｑとして設定する。

図９は、第３実施形態にて表示装置１４に表示される設定画面（以下「特徴量選択画面」という）の模式図である。特徴量選択画面は、処理区間Ｑの設定に適用される特徴量を利用者が選択するための画像である。具体的には、複数種の特徴量（音高Ｐ，経過時間Ｅ，音量Ｄ）の各々について、操作機器１６に対する利用者からの指示に応じて有効状態（チェックが付加された状態）と無効状態とが選択される。区間設定部２４は、複数種の特徴量のうち特徴量選択画面にて利用者が有効状態に指定した１以上の特徴量と当該特徴量に対応する閾値（ＰTH，ＥTH，ＤTH）との比較結果に応じて処理区間Ｑを設定する。他方、特徴量選択画面にて無効状態に設定された特徴量は処理区間Ｑの設定に加味されない。第２実施形態のように対象音声に複数種の声質が付与される構成では、自動設定モードに設定された声質毎に別個の特徴量選択画面が表示され、処理区間Ｑの設定に適用される特徴量の組合せが声質毎に個別に選択される。

図１０は、第３実施形態における閾値設定画面の模式図である。図１０の閾値設定画面は、複数種の特徴量の各々について利用者が閾値（ＰTH，ＥTH，ＤTH）を設定するための画像である。図９の特徴量選択画面で有効状態に設定された特徴量については、図６の閾値設定画面と同様に、操作機器１６に対する利用者からの指示に応じて閾値が設定される。他方、特徴量選択画面で無効状態に設定された特徴量について、閾値設定画面では閾値の変更が禁止される。例えば無効状態の特徴量については閾値設定画面での表示がグレーアウト（操作対象から除外されていることを表象する態様）で表示される。

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態では、複数の特徴量の各々が処理区間Ｑの設定に選択的に適用されるから、処理区間Ｑの設定に適用される特徴量の種類が固定された構成と比較して、多様な声質を再現できるという利点がある。第３実施形態では特に、複数の特徴量のうち利用者からの指示に応じた特徴量が処理区間Ｑの設定に適用されるから、利用者の意図や嗜好に適合した声質を再現できるという格別の効果が実現される。なお、第２実施形態の構成は第３実施形態にも同様に適用される。

＜第４実施形態＞
図１１は、第４実施形態における音声処理装置１００の演算処理装置１０の機能的な構成図である。図１１に例示される通り、第４実施形態では、音声信号Ｘと楽曲データＺとが信号供給装置２００から音声処理装置１００に並列に供給される。楽曲データＺは、楽曲を構成する音符毎に音高（ノートナンバ）と強度（ベロシティ）と発音期間（始点および終点）とを指定する時系列データである。例えばMIDI（Musical Instrument Digital Interface）規格に準拠した時系列データが楽曲データＺとして好適に利用される。

楽曲データＺは、音声信号Ｘが表す対象音声で歌唱される対象楽曲の各音符を時系列に指定する。したがって、音声信号Ｘの対象音声の各音符と楽曲データＺで指定される各音符とは相互に対応する。以上の関係を考慮して、第４実施形態の特徴量特定部２２は、対象音声の特徴量（音量Ｐ，経過時間Ｅ，音量Ｄ）を楽曲データＺから特定する。具体的には、特徴量特定部２２は、楽曲データＺが指定する各音符の音高（ノートナンバ）を対象音声の音高Ｐとして特定する。また、特徴量特定部２２は、楽曲データＺが指定する各音符の強度（ベロシティ）を音量Ｄとして特定し、各音符の発音期間から経過時間Ｅを特定する。特徴量特定部２２が特定した特徴量を適用して区間設定部２４が処理区間Ｑを設定する動作や、処理区間Ｑの制御変数Ｃを変数制御部２６が設定する動作は第１実施形態と同様である。音声処理部２８は、第１実施形態と同様に、制御変数Ｃを適用した声質変換処理で音声信号Ｘから音声信号Ｙを生成する。

第４実施形態においても第１実施形態と同様の効果が実現される。また、第４実施形態では、楽曲データＺを参照することで対象音声の特徴量が特定されるから、音声信号Ｘの解析で特徴量を特定する第１実施形態の構成と比較して特徴量の特定に必要な処理負荷が軽減されるという利点がある。他方、音声信号Ｘの解析で特徴量を特定する第１実施形態によれば、楽曲データＺから特徴量を推定する第４実施形態と比較して、対象音声の特徴量を正確に特定できるという利点がある。なお、第２実施形態や第３実施形態の構成は第４実施形態にも適用される。

＜第５実施形態＞
図１２は、第５実施形態における音声処理装置１００の演算処理装置１０の機能的な構成図である。図１２から理解される通り、第５実施形態では、第４実施形態と同様に、音声信号Ｘと楽曲データＺとが信号供給装置２００から音声処理装置１００に並列に供給される。第５実施形態の特徴量特定部２２は、音声信号Ｘおよび楽曲データＺの一方または双方を利用して対象音声の特徴量（音量Ｐ，経過時間Ｅ，音量Ｄ）を特定する。具体的には、手動設定モードおよび自動設定モードの何れかの動作モードが第２実施形態と同様に利用者により選択され、自動設定モードが選択された場合には、第１解析モードと第２解析モードとの何れかが利用者により選択される。第１解析モードは、第１実施形態と同様に音声信号Ｘの解析で対象音声の特徴量（音高Ｐ，経過時間Ｅ，音量Ｄ）を特定する動作モードであり、第２解析モードは、第４実施形態と同様に楽曲データＺから対象音声の特徴量を特定する動作モードである。

第５実施形態の演算処理装置１０は、図１３の動作モード選択画面を表示装置１４に表示させる。第５実施形態の動作モード選択画面は、手動設定モード（manual）と自動設定モード（auto）との選択を第２実施形態（図７）と同様に利用者から受付けるほか、自動設定モードが選択された声質について第１解析モードと第２解析モードとの選択を利用者から受付ける画像である。図１３に例示される通り、利用者は、複数種の声質（気息性，ボーカルフライ）の各々について動作モード（手動設定モード／自動設定モード，第１解析モード／第２解析モード）を選択することが可能である。

具体的には、利用者が自動設定モードを選択した声質については、第１解析モードと第２解析モードとの選択を受付ける操作画像（チェックボックス）４２が、利用者からの指示を受付け可能な有効状態に設定される。利用者は、操作画像４２にチェックを付加することで第２解析モード（MIDI）を選択し、操作画像４２のチェックを解除することで第１解析モードを選択することが可能である。他方、利用者が手動設定モードを選択した声質に対応する操作画像４２は、利用者からの操作を受付けない無効状態（例えばグレーアウト）に設定される。

また、自動設定モードに設定された声質について、演算処理装置１０は、図１４の特徴量選択画面と図１５の閾値設定画面とを表示装置１４に表示させる。図１４および図１５の“audio“は、第１解析モードで特徴量の特定に利用される音声信号Ｘを表象し、“MIDI”は、第２解析モードで特徴量の特定に利用される楽曲データＺを表象する。また、第１解析モードで音声信号Ｘから特定される音高Ｐ（Pitch）と第２解析モードで楽曲データＺから特定される音高Ｐ（Note Number）とは、両者の意義の相違を反映して表記が相違する。音量Ｄ（第１解析モード：Dynamics，第２解析モード：Velocity）についても同様である。

図１４の特徴量選択画面は、第１解析モード（音声信号Ｘ）に対応する第１領域５１と、第２解析モード（楽曲データＺ）に対応する第２領域５２とを含んで構成される。第１領域５１および第２領域５２の各々は、図９の例示と同様に、処理区間Ｑの設定に適用される特徴量を利用者が選択するための画像である。具体的には、第１領域５１は、第１解析モードで処理区間Ｑの設定に適用される特徴量（すなわち音声信号Ｘから特定される特徴量）の選択に利用され、第２領域５２は、第２解析モードで処理区間Ｑの設定に適用される特徴量（すなわち楽曲データＺから特定される特徴量）の選択に利用される。図１３の動作モード選択画面で第１解析モードが選択された状態では、第１領域５１が有効状態（利用者からの指示を受付ける状態）に設定されるとともに第２領域５２は無効状態（利用者からの指示を受付けない状態）に設定される。他方、図１３の動作モード選択画面で第２解析モードが選択された状態では、図１４の例示のように、第２領域５２が有効状態に設定されるとともに第１領域５１は無効状態に設定される。

図１５の閾値設定画面は、第１解析モードに対応する第１領域６１と第２解析モードに対応する第２領域６２とを含んで構成される。第１領域６１および第２領域６２の各々は、図１０の例示と同様に、処理区間Ｑの設定に適用される閾値（ＰTH，ＥTH，ＤTH）を利用者が設定するための画像である。具体的には、第１領域６１は、第１解析モードで適用される閾値の指示を受付け、第２領域６２は、第２解析モードで適用される閾値の指示を受付ける。第１解析モードが選択された状態では、第１領域６１が有効状態に設定され、第２解析モードが選択された状態では、図１５の例示のように第２領域６２が有効状態に設定される。図１４の特徴量選択画面で無効状態に設定された特徴量（図１５の第２領域６２における「音量（Velocity）」）について閾値設定画面での表示が無効状態（グレーアウト）とされる点は図１０の例示と同様である。

第５実施形態においても第１実施形態と同様の効果が実現される。また、第５実施形態では、音声信号Ｘから対象音声の特徴量を特定する第１解析モードと、楽曲データＺから対象音声の特徴量を特定する第２解析モードとが用意されるから、利用者の意図や嗜好に適合した多様な声質を再現できるという利点がある。なお、第２実施形態から第４実施形態の構成は第５実施形態にも同様に適用される。

＜第６実施形態＞
図１６は、第６実施形態における音声処理装置１００の演算処理装置１０の機能的な構成図である。図１６に例示される通り、第６実施形態の演算処理装置１０は、対象音声の合成を指示する合成データＳを利用して音声信号Ｙを生成する。合成データＳは、例えば楽曲を構成する音符毎に音高と発音期間と発音内容（歌詞）とを指定する時系列データ（例えばVSQ形式のファイル）である。合成データＳは、操作機器１６に対する利用者からの指示に応じて生成されて記憶装置１２に格納される。なお、合成データＳを音声処理装置１００の外部から供給することも可能である。

第６実施形態の特徴量特定部２２は、合成データＳから対象音声の特徴量（音量Ｐや経過時間Ｅ）を特定する。具体的には、特徴量特定部２２は、合成データＳが指定する各音符の音高に応じて対象音声の音高Ｐを特定するとともに、各音符の発音期間から経過時間Ｅを特定する。区間設定部２４は、特徴量特定部２２が特定した特徴量に応じて処理区間Ｑを設定し、変数制御部２６は、区間設定部２４が設定した処理区間Ｑについて制御変数Ｃを設定する。

第６実施形態の音声処理部２８は、合成データＳを適用した音声合成処理で音声信号Ｙを生成する。音声合成処理には公知の技術が任意に採用される。例えば、合成データＳが指定する発音内容に応じた各音声素片の音高および発音期間を調整して相互に連結する素片接続型の音声合成処理や、HMM（Hidden Markov Model）で推定された音高に対して発音文字（音素）に応じたフィルタ処理を実行する統計モデル型の音声合成処理が好適に採用される。変数制御部２６が設定した制御変数Ｃを音声処理部２８が音声合成処理に適用することで、処理区間Ｑの声質が制御変数Ｃに応じて制御された音声の音声信号Ｙが生成される。

第６実施形態においても第１実施形態と同様の効果が実現される。また、第６実施形態では、対象音声の特徴量が合成データＳを参照して特定されるから、対象音声の音声信号Ｘが不要であるという利点がある。なお、第２実施形態から第５実施形態の構成は第６実施形態にも同様に適用され得る。

＜第７実施形態＞
図１７は、第７実施形態における音声処理装置１００の演算処理装置１０の機能的な構成図であり、図１８は、第７実施形態における演算処理装置１０の動作の説明図である。図１７に例示される通り、第７実施形態の演算処理装置１０は、特徴量特定部２２と区間設定部２４と変数制御部２６と音声処理部２８と参照音解析部７２とを実現する。特徴量特定部２２は、音声信号Ｘの音高ｐ0を対象音声の特徴量として単位区間毎に順次に抽出する。

参照音解析部７２は、対象楽曲について事前に収録された模範的または標準的な歌唱音声（以下「参照音声」という）の音声信号ＸREFを解析する。具体的には、参照音解析部７２は、音声信号ＸREFを解析することで参照音声の音高ｐREFを単位区間毎に抽出するとともに、閾値ＲHおよび閾値ＲLを参照音声の音高ｐREFに応じて単位区間毎に可変に設定する。図１８から理解される通り、閾値ＲHは音高ｐREFを上回る数値に設定され、閾値ＲLは音高ｐREFを下回る数値に設定される。例えば、参照音解析部７２は、音高ｐREFに所定値（正数）を加算することで閾値ＲHを算定し、音高ｐREFから所定値を減算することで閾値ＲLを算定する。なお、対象楽曲（歌唱曲）の歌唱パートの音符を時系列に指定する楽曲データから参照音解析部７２が参照音声の音高ｐREFを順次に特定して音高ｐREFに応じた閾値ＲHおよび閾値ＲLを設定することも可能である。

図１７の区間設定部２４は、図１８に例示される通り、対象音声の音高ｐ0が閾値ＲHを上回る区間と音高ｐ0が閾値ＲLを下回る区間とを処理区間Ｑとして設定する。すなわち、第７実施形態の処理区間Ｑは、対象音声の音高ｐ0が参照音声の音高ｐREFから乖離した区間である。変数制御部２６は、区間設定部２４が設定した各処理区間Ｑについて制御変数Ｃを設定する。第７実施形態の制御変数Ｃは、処理区間Ｑ内の対象音声の音高ｐ0を参照音声の音高ｐREFに近付けるための補正値である。具体的には、変数制御部２６は、対象音声の音高ｐ0と閾値ＲHまたは閾値ＲLとの差分値を制御変数Ｃとして処理区間Ｑ内の単位区間毎に算定する。

音声処理部２８は、変数制御部２６が設定した制御変数Ｃを適用した声質変換処理（音声処理）を音声信号Ｘに対して実行することで音声信号Ｙを生成する。第７実施形態の音声処理部２８は、処理区間Ｑ内の音声信号Ｘの音高ｐ0を制御変数Ｃだけ変動させる処理（音高変換処理）で音声信号Ｙを生成する。したがって、図１８に破線で例示される通り、音声信号Ｘのうち処理区間Ｑ内の音高ｐ0が閾値ＲHに補正され、かつ、処理区間Ｑ外では対象音声の音高ｐ0に維持された音声信号Ｙが生成される。すなわち、音声信号Ｘのうち音高ｐ0が参照音声の音高ｐREFに近似する区間（処理区間Ｑ外）では音声信号Ｘの音高ｐ0が維持され、音高ｐ0が参照音声の音高ｐREFから乖離する区間（処理区間Ｑ内）では音高ｐ0が参照音声の音高ｐREFに近付けられる。

図１９は、第７実施形態の演算処理装置１０が単位区間毎に実行する処理のフローチャートである。図１９の処理が開始すると、特徴量特定部２２は、音声信号Ｘの解析で対象音声の音高ｐ0を特定する（ＳC1）。また、参照音解析部７２は、音声信号ＸREFの解析で参照音声の音高ｐREFを特定するとともに（ＳC2）、音高ｐREFに応じた閾値ＲHおよび閾値ＲLを設定する（ＳC3）。

区間設定部２４は、対象音声の音高ｐ0が閾値ＲHを上回るか否か（ＳC4）、および、音高ｐ0が閾値ＲLを下回るか否か（ＳC5）を判定する。音高ｐ0が閾値ＲHを上回る場合（ＳC4：YES）、変数制御部２６は、音高ｐ0と閾値ＲHとの差分値を制御変数Ｃとして算定する（ＳC6）。同様に、音高ｐ0が閾値ＲLを下回る場合（ＳC5：YES）、変数制御部２６は、音高ｐ0と閾値ＲLとの差分値を制御変数Ｃとして算定する（ＳC7）。音声処理部２８は、音声信号Ｘの音高ｐ0を制御変数Ｃだけ変動させることで、閾値ＲHまたは閾値ＲLを音高とする音声信号Ｙを生成する（ＳC8）。他方、音高ｐ0が閾値ＲHと閾値ＲLとの間の数値である場合（ＳC4，ＳC5：NO）には、制御変数Ｃの設定（ＳC6，ＳC7）や音高ｐ0の補正（ＳC8）は実行されず、音声信号Ｘが音高ｐ0を維持したまま音声信号Ｙとされる。そして、音声処理部２８は、音声信号Ｙを放音装置１８に出力する（ＳC9）。以上の説明から理解される通り、図１９のステップＳC4およびステップＳC5の判定は、区間設定部２４が処理区間Ｑを設定する処理に相当する。

第７実施形態では、音声信号Ｘのうち音高ｐ0が参照音声の音高ｐREFから乖離する処理区間Ｑでは音高ｐREFに近付くように対象音声の音高ｐ0が補正される一方、音高ｐ0が参照音声の音高ｐREFに近い区間では音高ｐ0が維持される。したがって、音高ｐ0を補正すべき区間に関する専門的な知見（音高ｐ0を補正すべき区間の知識）を利用者が持たない場合でも、参照音声に音高が近い聴感的に自然な声質の音声を再現することが可能である。他方、参照音声の音高ｐREFに音高ｐ0が近い区間については対象音声の音高ｐ0が維持されるから、対象音声の特徴（例えば歌唱者に固有の音高ｐ0の変動等）が喪失するような過度な補正を回避できるという利点もある。

なお、以上の説明では、対象音声の音高ｐ0と閾値ＲHまたは閾値ＲLとの差分値を制御変数Ｃとして算定したが、対象音声の音高ｐ0と参照音声の音高ｐREFとの差分値を制御変数Ｃとして算定することとで、処理区間Ｑ内の音高ｐ0を参照音声の音高ｐREFに補正する構成も採用され得る。

＜第８実施形態＞
図２０は、第８実施形態における演算処理装置１０の動作の説明図である。第８実施形態の演算処理装置１０は、第７実施形態と同様の要素（特徴量特定部２２，区間設定部２４，変数制御部２６，音声処理部２８，参照音解析部７２）として機能する。

図２０に例示される通り、第８実施形態の参照音解析部７２は、第７実施形態と同様に参照音声の音高ｐREFを特定するほか、音高ｐREFを上回る閾値ＲH_Aおよび閾値ＲH_Bと、音高ｐREFを下回る閾値ＲL_Aおよび閾値ＲH_Bとを音高ｐREFに応じて可変に設定する。閾値ＲH_Aは閾値ＲH_Bを上回り、閾値ＲL_Aは閾値ＲL_Bを下回る。図２０から理解される通り、第８実施形態の区間設定部２４は、対象音声の音高ｐ0が閾値ＲH_Aを上回る時点Ｔ1から音高ｐ0が閾値ＲH_Bを下回る時点Ｔ2までの区間を処理区間Ｑとして設定する。すなわち、音高ｐ0の増加時に適用される閾値ＲH_Aと音高ｐ0の減少時に適用される閾値ＲH_Bとが相違する（ヒステリシス特性）。同様に、区間設定部２４は、対象音声の音高ｐ0が閾値ＲL_Aを下回る時点から音高ｐ0が閾値ＲL_Bを上回る時点までの区間を処理区間Ｑとして設定する。

図２１および図２２は、第８実施形態の演算処理装置１０が単位区間毎に実行する処理のフローチャートである。なお、以下の説明で例示する制御情報Ｆは、処理対象の単位区間が処理区間Ｑに包含されるか否か（変数制御部２６による制御変数Ｃの設定や音声処理部２８による音高ｐ0の補正が実行中であるか否か）を識別するための情報（フラグ）であり、第１回目の単位区間の開始時に、単位区間が処理区間Ｑに包含されないことを意味する数値０に初期化される。

図２１の処理が開始すると、特徴量特定部２２による対象音声の音高ｐ0の特定（ＳD1）と参照音解析部７２による参照音声の音高ｐREFの特定（ＳD2）とが第７実施形態と同様に実行され、区間設定部２４は、制御情報Ｆが数値０であるか否かを判定する（ＳD3）。制御情報Ｆが数値０である場合（ＳD3：YES）、参照音解析部７２は、閾値ＲH_Aおよび閾値ＲL_Aを参照音声の音高ｐREFに応じて可変に設定する（ＳD4）。例えば、参照音解析部７２は、音高ｐREFに所定値を加算することで閾値ＲH_Aを算定し、音高ｐREFから所定値を減算することで閾値ＲL_Aを算定する。

区間設定部２４は、対象音声の音高ｐ0が閾値ＲH_Aを上回るか否か（ＳD5）、および、音高ｐ0が閾値ＲL_Aを下回るか否か（ＳD6）を判定する。音高ｐ0が閾値ＲH_Aを上回る場合（ＳD5：YES）、変数制御部２６は、音高ｐ0と閾値ＲH_Aとの差分値を制御変数（補正値）Ｃとして算定する（ＳD7）。他方、音高ｐ0が閾値ＲL_Aを下回る場合（ＳD6：YES）、変数制御部２６は、音高ｐ0と閾値ＲL_Aとの差分値を制御変数Ｃとして算定する（ＳD8）。音声処理部２８は、対象音声の音高ｐ0を制御変数Ｃだけ変動させることで、閾値ＲH_Aまたは閾値ＲL_Aを音高とする音声信号Ｙを生成する（ＳD9）。また、区間設定部２４は、制御情報Ｆを数値０から数値１に変更する（ＳD10）。制御情報Ｆの数値１は、対象音声の音高ｐ0が補正中であることを意味する。他方、音高ｐ0が閾値ＲH_Aと閾値ＲL_Aとの間の数値である場合（ＳD5，ＳD6：NO）には、制御変数Ｃの設定（ＳD7，ＳD8）や音高ｐ0の補正（ＳD9）は実行されない。音声処理部２８は、以上に例示した処理後の音声信号Ｙを放音装置１８に出力する（ＳD11）。

制御情報Ｆが数値１に設定されると（ＳD10）、以降の単位区間の処理ではステップＳD3の判定結果が否定となる。制御情報Ｆが数値１である場合（ＳD3：NO）、図２２に例示される通り、参照音解析部７２は、参照音声の音高ｐREFを上回る閾値ＲH_Aおよび閾値ＲH_Bと音高ｐREFを下回る閾値ＲL_Aおよび閾値ＲL_Bとを設定する（ＳD20）。

区間設定部２４は、対象音声の音高ｐ0が閾値ＲH_Bを上回るか否か（ＳD21）、および音高ｐ0が閾値ＲL_Bを下回るか否か（ＳD22）を判定する。音高ｐ0が閾値ＲH_Bを上回る場合（ＳD21：YES）および音高ｐ0が閾値ＲL_Bを下回る場合（ＳD22：YES）には音高ｐ0の補正が直前の単位区間と同様に継続される。具体的には、変数制御部２６は、音高ｐ0が閾値ＲH_Bを上回る場合には音高ｐ0と閾値ＲH_Aとの差分値を制御変数Ｃとして算定し（ＳD23）、音高ｐ0が閾値ＲL_Bを下回る場合には音高ｐ0と閾値ＲL_Aとの差分値を制御変数Ｃとして算定する（ＳD24）。そして、音声処理部２８は、対象音声の音高ｐ0を制御変数Ｃだけ変動させることで音声信号Ｙを生成する（ＳD25）。

他方、音高ｐ0が閾値ＲH_Bを下回る場合（ＳD21：NO）および音高ｐ0が閾値ＲL_Bを上回る場合（ＳD22：N0）には処理区間Ｑが終了する。すなわち、制御変数Ｃの設定（ＳD23，ＳD24）や音高ｐ0の補正（ＳD25）は実行されず、区間設定部２４は制御情報Ｆを数値１から数値０に変更する（ＳD26）。

以上の説明から理解される通り、第８実施形態では、対象音声の音高ｐ0が閾値ＲH_Aを上回る時点から閾値ＲH_Bを下回る時点までの区間と、音高ｐ0が閾値ＲL_Aを下回る時点から閾値ＲL_Bを上回る時点までの区間とが、音高ｐ0を補正する処理区間Ｑとして設定される。したがって、音高ｐ0が各閾値（ＲH_A，ＲH_B，ＲL_A，ＲL_B）の近傍で変動しても音高ｐ0に対する補正の有無は変化しない。すなわち、第８実施形態によれば、第７実施形態と同様の効果が実現されるほか、対象音声の音高ｐ0に対する補正の有無が短時間で頻繁に切替わる可能性を低減できるという利点がある。

なお、以上の説明では、処理区間Ｑ内で対象音声の音高ｐ0を閾値ＲH_Aまたは閾値ＲL_Aに補正したが、処理区間Ｑ内で音高ｐ0を閾値ＲH_Bまたは閾値ＲL_Bに補正する構成や、処理区間Ｑ内で音高ｐ0を参照音声の音高ｐREFに補正する構成も採用され得る。また、対象音声の音高ｐ0または参照音声の音高ｐREFの微細な変動を抑制したうえで処理区間Ｑや制御変数Ｃを設定することも可能である。音高ｐ0または音高ｐREFの微細な変動の抑制には例えばローパスフィルタが好適に利用される。

＜変形例＞
前述の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を適宜に併合することも可能である。

（１）処理区間Ｑ内における制御変数Ｃの変化の態様は任意である。例えば、前述の各形態では、処理区間Ｑにて制御変数Ｃが直線的に増加する構成を例示したが、処理区間Ｑ内で制御変数Ｃを曲線的（例えば非線形）に変化させることも可能である。

（２）特徴量特定部２２が特定する特徴量の種類は前述の例示（音高Ｐ，経過時間Ｅ，音量Ｄ）に限定されない。例えば、前述の各形態で例示した特徴量の微分値（時間変化率）や２階微分値を特徴量として算定することも可能である。また、前述の各形態では離散的な複数の音高の何れかを音高Ｐとして特定したが、時間的に連続に変化するように音高Ｐ（ピッチカーブ）を特定することも可能である。

（３）前述の各形態では、処理区間Ｑの設定に適用される閾値（ＰTH，ＥTH，ＤTH）を利用者からの指示に応じて可変に設定したが、閾値の設定の方法は任意である。例えば、特徴量特定部２２が特定した特徴量の過去の数値に応じて当該特徴量の閾値を設定する構成や、特徴量特定部２２が特定した特徴量に対する統計的処理で算定された数値に応じて閾値を設定する構成、または、他の特徴量の数値に応じて特徴量の閾値を設定する構成も採用され得る。もっとも、閾値が可変値である構成は必須ではなく、閾値を所定値に固定することも可能である。また、処理区間Ｑに該当すると判断される特徴量の範囲の上限値と下限値とを設定する構成（上限の閾値と下限の閾値とを別個に設定する構成）や、処理区間Ｑに該当する特徴量の範囲を複数に分割して設定する構成も採用され得る。

（４）複数種の特徴量を処理区間Ｑの設定に適用する構成では、各特徴量を個別に加重する（優劣を設定する）ことも可能である。例えば、加重値が大きい特徴量が閾値を上回る単位区間については、他の特徴量が閾値を下回る場合でも処理区間Ｑに該当すると判定するといった具合である。

（５）前述の各形態では、経過時間Ｅを有声区間Ｖの始点から起算したが、経過時間Ｅの算定の対象は有声区間Ｖに限定されない。例えば、有声／無声を区別せずに音声が存在する区間（以下「音声区間」という）の始点から経過時間Ｅを算定することも可能である。音声区間は、対象音声のうち無音区間以外の区間である。また、例えば、持続的に発音可能な音素が存在する区間（以下「持続音区間」という）の始点から経過時間Ｅを起算することも可能である。持続音区間に存在する持続可能な音素の典型例は有声音（例えば母音）であるが、発音が時間的に継続され得る子音（例えば摩擦音）も包含する。以上の説明から理解される通り、経過時間Ｅは、対象音声のうち特定の区間の始点からの経過時間として包括的に表現され、有声区間Ｖや音声区間や持続音区間は、経過時間Ｅが算定される特定の区間の例示である。

（６）前述の各形態では、音声信号Ｘの音高Ｐが変動する時点を境界として有声区間ｖ0を有声区間Ｖに区分したが、音声信号Ｘの音量Ｄが変動する時点を境界として有声区間ｖ0を対象楽曲の音符毎の有声区間Ｖに区分することも可能である。

（７）音声信号Ｘに付与される声質の種類は前述の例示（気息音，ボーカルフライ）に限定されない。例えば、音声信号Ｘの処理区間Ｑを嗄声（濁声）や喉詰声や唸り声（Growl）に変換する構成や、音声信号Ｘの処理区間Ｑを張りのある音声（tense）や張りのない音声（lux）に変換する構成も採用される。嗄声や喉詰声の付加には、例えば特開２０１０−１９１０４２号公報や特開２００６−１４５８６７号公報の技術が好適に利用される。また、音声信号Ｘのうち発音開始の直後の区間を強調することで対象音声を張りのある音声に変換し、発音開始の直後の区間を抑制することで対象音声を張りのない音声に変換することが可能である。

（８）携帯電話機等の端末装置と通信するサーバ装置により音声処理装置１００を実現することも可能である。例えば、音声処理装置１００は、端末装置から通信網を介して受信した音声信号Ｘ（楽曲データＺや合成データＳ）について前述の各形態で例示した処理を実行することで音声信号Ｙを生成し、端末装置を宛先として音声信号Ｙを通信網に送信する。

１００……音声処理装置、２００……信号供給装置、１０……演算処理装置、１２……記憶装置、１４……表示装置、１６……操作機器、１８……放音装置、２２……特徴量特定部、２４……区間設定部、２６……変数制御部、２８……音声処理部。

Claims

対象音声の特徴量を特定する特徴量特定手段と、
前記特徴量と閾値との比較結果に応じて処理区間を設定する区間設定手段と、
声質を制御するための制御変数を前記処理区間について設定する変数制御手段と、
前記対象音声のうち前記処理区間の声質を前記制御変数に応じて制御した音声の音声信号を生成する音声処理手段と
を具備する音声処理装置。
前記特徴量特定手段は、前記対象音声のうち特定の区間内での始点からの経過時間を前記特徴量として特定する
請求項１の音声処理装置。
前記区間設定手段は、第１声質については前記経過時間が閾値を上回る区間を前記処理区間として設定し、前記第１声質とは別種の第２声質については前記経過時間が閾値を下回る区間を前記処理区間として設定する
請求項２の音声処理装置。
前記特徴量特定手段は、対象音声の音高または音量を前記特徴量として特定し、
前記区間設定手段は、対象音声の音高または音量と第１閾値との比較結果と、前記経過時間と第２閾値との比較結果とに応じて、前記処理区間を設定する
請求項２の音声処理装置。
前記特徴量特定手段は、前記対象音声の音高または音量が変動する時点を境界として前記特定の区間を区分する
請求項２から請求項４の何れかの音声処理装置。