JP6497025B2 - 音声処理装置 - Google Patents

音声処理装置 Download PDF

Info

Publication number
JP6497025B2
JP6497025B2 JP2014210143A JP2014210143A JP6497025B2 JP 6497025 B2 JP6497025 B2 JP 6497025B2 JP 2014210143 A JP2014210143 A JP 2014210143A JP 2014210143 A JP2014210143 A JP 2014210143A JP 6497025 B2 JP6497025 B2 JP 6497025B2
Authority
JP
Japan
Prior art keywords
section
voice
pitch
processing
threshold value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014210143A
Other languages
English (en)
Other versions
JP2015099363A (ja
Inventor
嘉山 啓
啓 嘉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2014210143A priority Critical patent/JP6497025B2/ja
Publication of JP2015099363A publication Critical patent/JP2015099363A/ja
Application granted granted Critical
Publication of JP6497025B2 publication Critical patent/JP6497025B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

本発明は、音声の声質を制御する技術に関する。
音声の声質を制御する技術が従来から提案されている。例えば特許文献1には、合成音声の声質を制御するための声質変換パラメータを利用者からの指示に応じて経時的に変化させる構成が開示されている。
特開2004−038071号公報
しかし、聴感的に自然な所望の声質の音声が再現されるように利用者が声質変換パラメータを適切に調整することは実際には困難である。音声や声質に関する専門的な知見が充分でない利用者にとって問題は特に深刻化する。以上の事情を考慮して、本発明は、音声の声質を制御するための変数の設定を容易化することを目的とする。
以上の課題を解決するために、本発明の音声処理装置は、対象音声の特徴量を特定する特徴量特定手段と、特徴量と閾値との比較結果に応じて処理区間を設定する区間設定手段と、声質を制御するための制御変数を処理区間について設定する変数制御手段と、対象音声のうち処理区間の声質を制御変数に応じて制御した音声の音声信号を生成する音声処理手段とを具備する。以上の構成では、対象音声の特徴量に応じて設定された処理区間の声質が制御される。したがって、声質に関する専門的な知見(例えば対象音声のうち特定の声質に変換すべき区間の知識)を利用者が持たない場合でも、聴感的に自然な声質を再現することが可能である。
本発明の好適な態様において、特徴量特定手段は、対象音声のうち特定の区間内での始点からの経過時間を特徴量として特定する。例えば、区間設定手段は、第1声質については経過時間が閾値を上回る区間を処理区間として設定し、第1声質とは別種の第2声質については経過時間が閾値を下回る区間を処理区間として設定する。以上の態様では、経過時間が閾値を上回る区間(例えば有声区間の末尾側の区間)と経過時間が閾値を下回る区間(例えば有声区間の先頭側の区間)とが声質の種類に応じて処理区間として設定される。したがって、聴感的に自然な複数種の声質を再現できるという利点がある。
対象音声の特定の区間の経過時間を特徴量として特定する構成では、特徴量特定手段は、例えば、対象音声の音高または音量を特徴量として特定し、区間設定手段は、対象音声の音高または音量と第1閾値との比較結果と、経過時間と第2閾値との比較結果とに応じて、処理区間を設定する。以上の態様では、経過時間に加えて対象音声の音高または音量が処理区間の設定に適用されるから、聴感的に自然な声質の音声を生成できるという前述の効果は格別に顕著である。また、対象音声の音高または音量が変動する時点を境界として特徴量特定手段が特定の区間を区分する構成によれば、例えば音符毎の発音の経過時間に応じて処理区間を設定できる(例えば各音符の末尾側または先頭側の区間を処理区間として設定できる)という利点がある。
本発明の好適な態様において、区間設定手段は、自動設定モードでは対象音声の特徴量に応じて処理区間を設定し、手動設定モードでは利用者からの指示に応じて処理区間を設定する。以上の態様では、自動設定モードと手動設定モードとが用意されるから、例えば声質に関する充分な知識がある利用者は手動設定モードで自身の所望の声質を再現し、声質に関する知識が不充分である利用者は自動設定モードで聴感的に自然な声質を再現できるという利点がある。
本発明の好適な態様において、区間設定手段は、複数種の特徴量のうち利用者からの指示に応じた特徴量と閾値との比較結果に応じて処理区間を設定する。以上の態様では、複数の特徴量のうち利用者からの指示に応じた特徴量が処理区間の設定に適用されるから、利用者の意図や嗜好に適合した声質を再現できるという利点がある。
本発明の好適な態様において、区間設定手段は、利用者からの指示に応じて閾値を可変に設定する。以上の態様では、処理区間の設定のために特徴量と比較される閾値が利用者からの指示に応じて可変に設定されるから、閾値が所定値に固定された構成と比較して利用者の意図や嗜好を反映した処理区間の声質が制御された音声を再現できるという利点がある。
特徴量特定部が特徴量を特定するための構成は任意である。例えば、対象音声の音声信号の解析で特徴量を特定する構成や、対象音声に対応する楽曲の各音符を指定する楽曲データから特徴量を特定する構成が採用される。音声信号を解析する構成によれば、対象音声の特徴量を正確に特定できるという利点があり、楽曲データを利用する構成によれば、対象音声の特徴量を簡便に特定できるという利点がある。なお、また、特徴量特定手段が、第1解析モードでは、対象音声の音声信号の解析で特徴量を特定し、第2解析モードでは、対象音声に対応する楽曲の各音符を指定する楽曲データから特徴量を特定する構成も好適である。
本発明の好適な態様において、特徴量特定手段は、対象音声の合成を指示する合成データから特徴量を特定し、音声処理手段は、合成データを適用した音声合成処理で、処理区間の声質が制御変数に応じて制御された音声の音声信号を生成する。以上の態様では、対象音声の音声信号を必要とせずに、処理区間の声質を制御した音声の音声信号を生成できるという利点がある。
以上の各態様に係る音声処理装置は、音声処理に専用されるDSP(Digital Signal Processor)等のハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、本発明は、以上に説明した各態様に係る音声処理装置の動作方法(音声処理方法)としても特定される。
本発明の第1実施形態に係る音声処理装置の構成図である。 音声処理装置の機能的な構成図である。 特徴量特定部が実行する音声解析処理のフローチャートである。 音声処理装置の動作の説明図である。 音声処理装置の動作のフローチャートである。 閾値設定画面の模式図である。 第2実施形態における動作モード選択画面の模式図である。 第2実施形態における処理区間(ボーカルフライ)の設定の説明図である。 第3実施形態における特徴量選択画面の模式図である。 第3実施形態における閾値設定画面の模式図である。 第4実施形態における音声処理装置の機能的な構成図である。 第5実施形態における音声処理装置の機能的な構成図である。 第5実施形態における動作モード選択画面の模式図である。 第5実施形態における特徴量選択画面の模式図である。 第5実施形態における閾値設定画面の模式図である。 第6実施形態における音声処理装置の機能的な構成図である。 第7実施形態における音声処理装置の機能的な構成図である。 第7実施形態における音声処理装置の動作の説明図である。 第7実施形態の動作のフローチャートである。 第8実施形態における音声処理装置の動作の説明図である。 第8実施形態の動作のフローチャートである。 第8実施形態の動作のフローチャートである。
<第1実施形態>
図1は、本発明の第1実施形態に係る音声処理装置100の構成図である。図1に例示される通り、音声処理装置100には信号供給装置200が接続される。信号供給装置200は、音声処理装置100による処理対象の音声(以下「対象音声」という)の波形を表す音声信号Xを音声処理装置100に供給する。第1実施形態の対象音声は、特定の楽曲(以下「対象楽曲」という)を歌唱した歌唱音声である。周囲の音声を収音して音声信号Xを生成する収音装置や、可搬型または内蔵型の記録媒体から音声信号Xを取得して音声処理装置100に供給する再生装置や、通信網から音声信号Xを受信して音声処理装置100に供給する通信装置が、信号供給装置200として好適に採用され得る。なお、信号供給装置200を音声処理装置100と一体に構成することも可能である。
音声処理装置100は、信号供給装置200から供給される音声信号Xが表す対象音声の声質を調整することで音声信号Yを生成する信号処理装置である。第1実施形態では、音声信号Xの対象音声を気息音(breathy)に変換する場合を例示する。気息音は、気息性が豊富な音声(囁き声)であり、声帯の振動に起因した調波成分(基音成分および複数の倍音成分)に対して非調波成分(周波数軸上で各調波成分の間隙内に存在する音響成分)が相対的に優勢な音声を意味する。
図1に例示される通り、音声処理装置100は、演算処理装置10と記憶装置12と表示装置14と操作機器16と放音装置18とを具備するコンピュータシステムで実現される。演算処理装置10は、記憶装置12に記憶されたプログラムを実行することで各種の制御処理および演算処理を実行する。記憶装置12は、演算処理装置10が実行するプログラムや演算処理装置10が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置12として任意に採用される。
表示装置14(例えば液晶表示パネル)は、演算処理装置10から指示された画像を表示する。操作機器16は、音声処理装置100に対する各種の指示のために利用者が操作する入力装置である。利用者が押下する複数の操作子のほか、表示装置14と一体に構成されたタッチパネルを操作機器16として採用することも可能である。放音装置18(例えばスピーカやヘッドホン)は、演算処理装置10が生成した音声信号Yに応じた音声(すなわち対象音声の声質を変換した音声)を再生する。なお、音声信号Yをデジタルからアナログに変換するD/A変換器や音声信号Yを増幅する増幅器の図示は便宜的に省略した。
図2は、第1実施形態の音声処理装置100の機能的な構成図である。図2に例示される通り、演算処理装置10は、記憶装置12に記憶されたプログラムを実行することで、音声信号Xから音声信号Yを生成するための複数の機能(特徴量特定部22,区間設定部24,変数制御部26,音声処理部28)を実現する。なお、演算処理装置10の各機能を複数の装置に分散した構成や、専用の電子回路(例えばDSP)が演算処理装置10の一部の機能を実現する構成も採用され得る。
特徴量特定部22は、対象音声の特徴量を順次に特定する。第1実施形態の特徴量特定部22は、信号供給装置200から供給される音声信号Xを解析することで対象音声の音高(ピッチ)Pと経過時間Eとを順次に抽出する。音高Pは、離散的な複数の音高(例えば音階を構成する複数の音高)の何れかに設定される。経過時間Eは、対象音声のうち有声音が存在する区間(以下「有声区間」という)内での始点からの経過時間を意味する。したがって、有声区間の継続長が長いほど経過時間Eは有声区間の始点から終点にかけて大きい数値まで増加する。有声区間は、各調波成分が周波数軸上で略等間隔に配列する有声音の調波構造が観測される区間(明確な調波構造が観測されない無声区間と音声が存在しない無音区間とを除外した区間)である。
図3は、第1実施形態の特徴量特定部22が特徴量(音高P,経過時間E)を特定する動作(以下「音声解析処理」という)のフローチャートであり、図4は、音声解析装置の動作の説明図である。図3の音声解析処理は、音声信号Xを時間軸上で区分した単位区間(フレーム)毎に順次に実行される。図4では、「さいた(咲いた)」と発音した対象音声の音声信号Xの概略的な波形が例示されている。
音声解析処理を開始すると、特徴量特定部22は、音声信号Xの単位区間内の音高p0を抽出する(SA1)。音高p0は、音声信号Xの基本周波数(ピッチ)である。音高p0の時間変化が図4では音声信号Xの波形に併記されている。音声信号Xの音高p0の抽出には公知の技術(ピッチ抽出技術)が任意に採用される。
特徴量特定部22は、単位区間が有声区間に該当するか否かを判定する(SA2)。図4に例示される通り、明確な調波構造が観測される有声区間v0では有意な音高p0が抽出されるのに対し、有声区間v0以外の区間(無声区間や無音区間)では有意な音高p0は抽出されないという傾向がある。以上の傾向を考慮して、第1実施形態の特徴量特定部22は、有意な音高p0がステップSA1で抽出されたか否かに応じて、単位区間が有声区間v0に包含されるか否かを判定する。
単位区間が有声区間v0に該当する場合(SA2:YES)、特徴量特定部22は、経過時間e0に所定値(例えば1)を加算する(SA3)。他方、単位区間が有声区間v0に該当しない場合(SA2:NO)、特徴量特定部22は、経過時間e0をゼロに初期化する(SA4)。したがって、経過時間e0は、図4から理解される通り、有声区間v0の始点にてゼロに設定されて有声区間v0内で時間の経過とともに増加し、有声区間v0の終点(SA2:NO)にてゼロに初期化される。
特徴量特定部22は、音声信号Xの音高p0を正規化することで音高Pを決定する(SA5)。具体的には、図4に例示される通り、離散的に設定された複数の音高のうち音高p0に最も近い音高が正規化後の音高Pとして特定される。以上の説明から理解される通り、音高Pは、対象楽曲の1個の音符内で一定の数値に維持されるとともに音符毎に離散的に変動し得る。したがって、時間軸上で音高Pが変動する時点は、対象楽曲内で相前後する各音符の境界に該当する可能性が高い。
特徴量特定部22は、各有声区間v0の経過時間e0を、対象楽曲の各音符に対応する有声区間Vの経過時間Eに正規化する(SA6)。具体的には、特徴量特定部22は、図4から理解される通り、音声信号Xの音高Pが変動する時点(すなわち相前後する各音符の境界)を境界として有声区間v0を対象楽曲の音符毎の有声区間Vに区分し、有声区間Vの始点にてゼロとなるように経過時間e0を設定(補正)することで、各有声区間Vの始点からの経過時間Eを算定する。したがって、経過時間Eは、対象楽曲の音符毎の有声区間Vの始点にてゼロに設定されて有声区間V内で経時的に増加し、有声区間Vの終点が到来するとゼロに初期化される。経過時間Eは、対象楽曲の1個の音符が継続する時間長(継続長)とも換言され得る。第1実施形態の特徴量特定部22は、以上に例示した音声解析処理を反復することで音声信号Xの特徴量(音高P,経過時間E)を単位区間毎に順次に特定する。
図2の区間設定部24は、特徴量特定部22が特定した特徴量(音高P,経過時間E)に応じて処理区間Qを設定する。処理区間Qは、音声信号Xの対象音声のうち声質を変化させるべき区間(対象音声のうち気息音に変換すべき区間)である。第1実施形態の区間設定部24は、特徴量特定部22が特定した特徴量(音高P,経過時間E)と閾値との比較結果に応じて処理区間Qを設定する。具体的には、区間設定部24は、図4に例示される通り、音高Pおよび閾値PTHの比較結果と、経過時間Eおよび閾値ETHの比較結果とに応じて処理区間Qを設定する。実際の歌唱では、歌唱音声の音高が高く継続長が長いほど、歌唱音声の気息性が増加し易いという概略的な傾向が観察される。以上の傾向を再現する観点から、第1実施形態の区間設定部24は、図4に例示される通り、音高Pが閾値PTHを上回り、かつ、経過時間Eが閾値ETHを上回る区間を処理区間Qとして設定する。経過時間Eは有声区間V内で経時的に単調増加するから、継続長が閾値ETHを上回る有声区間Vのうち末尾側の区間が処理区間Qとして画定される。なお、閾値PTHおよび閾値ETHは、操作機器16に対する利用者からの指示に応じて可変に設定される。
図2の変数制御部26は、区間設定部24が設定した処理区間Qについて制御変数Cを設定する。制御変数Cは、声質を制御するための変数である。第1実施形態の制御変数Cは、気息音の度合を指示する変数である。図4に例示される通り、変数制御部26は、区間設定部24が設定した処理区間Qの始点から終点にかけてゼロから所定の増加率で増加するように制御変数Cを設定する。すなわち、処理区間Qの終点に近付く(1個の音符の音声が長引く)ほど気息音の度合が増加するように、変数制御部26は制御変数Cを経時的に変化させる。
図2の音声処理部28は、変数制御部26が設定した制御変数Cを適用した声質変換処理を音声信号Xに対して実行することで音声信号Yを生成する。声質変換処理は、制御変数Cに応じて対象音声の声質を変化させる音声処理である。第1実施形態の音声処理部28は、処理区間Q内の音声信号Xを制御変数Cに応じた度合の気息音に変換する声質変換処理(制御変数Cに応じた度合の気息性を付与する処理)で音声信号Yを生成する。気息性の付与には公知の技術が任意に採用される。例えば、音声処理部28は、音声信号Xを調波成分と非調波成分(気息成分)とに分離し、調波成分に対する非調波成分の強度(すなわち気息性)を制御変数Cに応じて制御することで、処理区間Qが制御変数Cに応じた気息音に変換された音声の音声信号Yを生成する。
図5は、演算処理装置10が音声信号Xから音声信号Yを生成する処理のフローチャートである。例えば操作機器16に対する利用者からの指示を契機として図5の処理が開始されて音声信号Xの全区間にわたり単位区間毎に反復される。
信号供給装置200から1個の単位区間の音声信号Xが取込まれると(SB1)、区間設定部24は、操作機器16に対する利用者からの指示に応じて閾値PTHおよび閾値ETHを可変に設定する(SB2)。具体的には、演算処理装置10は、図6の設定画面(以下「閾値設定画面」という)を表示装置14に表示させる。閾値設定画面は、音高P(Pitch)の閾値PTHと経過時間E(Duration)の閾値ETHとを利用者が指示するための画像である。利用者は、閾値設定画面を視認しながら操作機器16を適宜に操作することで閾値PTHと閾値ETHとを任意に調整することが可能である。
特徴量特定部22は、図3を参照して説明した音声解析処理を実行することで単位区間の音高Pと経過時間Eとを特定する(SB3)。そして、区間設定部24は、単位区間の音高Pが閾値PTHを上回るか否かを判定する(SB4)とともに、単位区間の経過時間Eが閾値ETHを上回るか否かを判定する(SB5)。ステップSB4およびステップSB5の双方の結果が肯定である場合(P>PTH,E>ETH)、変数制御部26は、単位区間について制御変数Cを設定し(SB6)、音声処理部28は、変数制御部26が設定した制御変数Cを適用した声質変換処理で音声信号Xから音声信号Yを生成する(SB7)。他方、ステップSB4およびステップSB5の一方または双方の結果が否定である場合、制御変数Cの設定(SB6)と音声信号Xに対する声質変換処理(SB7)とは実行されない。すなわち、信号供給装置200から供給される音声信号Xが音声信号Yとして出力される。以上の説明から理解される通り、図5のステップSB4およびステップSB5の判定は、区間設定部24が処理区間Qを設定する処理に相当する。図5の処理が音声信号Xの単位区間毎に実行されることで、対象音声の処理区間Qを気息音に変換した音声の音声信号Yが生成される。
以上に説明した第1実施形態では、対象音声の特徴量(音高P,経過時間E)に応じて設定された処理区間Qの声質が制御される。したがって、声質に関する専門的な知見(対象音声のうち気息性を付与すべき区間の知識)を利用者が持たない場合でも、聴感的に自然な声質(気息音)を再現することが可能である。すなわち、制御変数Cの設定が容易化される(例えば利用者による処理区間Qの指定や制御変数Cの時間変化の設定が不要である)という利点がある。
<第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
第2実施形態の演算処理装置10は、図7の設定画面(以下「動作モード選択画面」という)を表示装置14に表示させる。動作モード選択画面は、手動設定モード(manual)と自動設定モード(auto)との何れかを利用者が選択するための画像である。自動設定モードは、処理区間Qと制御変数Cとを自動的(操作機器16に対する利用者からの指示を必要とせず)に設定する動作モードである。すなわち、自動設定モードでは、第1実施形態と同様に、対象音声の特徴量(音高P,経過時間E)に応じて処理区間Qと処理区間Q内の制御変数Cとが自動的に設定される。他方、手動設定モードは、操作機器16に対する利用者からの指示に応じて処理区間Qと制御変数Cとを設定する動作モードである。すなわち、手動設定モードでは、操作機器16に対する操作で利用者が指示した区間を区間設定部24が処理区間Qとして設定し、操作機器16に対する利用者からの指示に応じて変数制御部26が処理区間Q内の制御変数Cの時間変化を設定する。
図7に例示される通り、利用者は、複数種の声質(気息音,ボーカルフライ,……)の各々について手動設定モードと自動設定モードとの何れかを選択することが可能である。すなわち、手動設定モードおよび自動設定モードの何れかの動作モードのもとで、処理区間Qと制御変数Cとが複数種の声質の各々について個別に設定される。図7のボーカルフライは、低音域の歌唱時に声帯の閉塞と解放とを反復することで発音される音声(エッジボイス)であり、典型的には発声開始の直後に発音される。
図8は、ボーカルフライについて自動設定モードが設定された場合の区間設定部24の動作の説明図である。図8に例示される通り、対象音声の音高p0に応じた有声区間v0が有声区間Vとして設定され、有声区間v0を音符毎に区分する処理(経過時間e0の正規化)は省略される。すなわち、ボーカルフライについては第1実施形態の経過時間e0が経過時間Eに相当する。
低音域の発声開始の直後にボーカルフライが発生し易いという前述の傾向を再現する観点から、第2実施形態の区間設定部24は、図8に例示される通り、音高Pが閾値PTHを下回り、かつ、経過時間E(e0)が閾値ETHを下回る区間を、対象音声がボーカルフライに変換される処理区間Qとして設定する。経過時間Eは経時的に単調に増加するから、図8から理解される通り、有声区間Vのうち先頭側の区間(発音の開始の直後の区間)が処理区間Qとして画定される。閾値PTHおよび閾値ETHは、操作機器16に対する利用者からの指示に応じて声質の種類毎に(気息音およびボーカルフライの各々について)個別に設定される。
以上の説明から理解される通り、処理区間Qは声質の種類に応じて相違する。具体的には、発声の最後に発生し易い気息音等の声質については、経過時間Eが閾値ETHを上回る区間(すなわち有声区間Vの末尾側の区間)が処理区間Qとして設定され、発音の開始の直後に発生し易いボーカルフライ等の声質については、経過時間Eが閾値ETHを下回る区間(すなわち有声区間Vの先頭側の区間)が処理区間Qとして設定される。
変数制御部26は、図8に例示される通り、処理区間Qの内側ではボーカルフライの制御変数Cを有効値(例えば1)に設定し、処理区間Qの外側では制御変数Cを無効値(例えば0)に設定する。音声処理部28は、制御変数Cを適用した処理区間Qの声質変換処理を複数種の声質の各々について相互に独立に実行する。対象音声をボーカルフライに変換する具体的な処理は任意であるが、例えば、音声信号Xのリサンプリングによりサンプリング周波数を低下させる方法が好適に採用される。
第2実施形態においても第1実施形態と同様の効果が実現される。第2実施形態では、経過時間Eが閾値ETHを上回る区間(有声区間Vの末尾側の区間)と経過時間Eが閾値ETHを下回る区間(有声区間Vの先頭側の区間)とが、対象音声に付与される声質の種類に応じて設定される。したがって、聴感的に自然な複数種の声質を再現できるという利点がある。また、第2実施形態では、自動設定モードと手動設定モードとが用意されるから、声質に関する充分な知識がある利用者は、手動設定モードにて自身の所望の声質を再現し、声質に関する知識が不充分である利用者は、自動設定モードにて聴感的に自然な声質を再現できるという利点がある。
<第3実施形態>
第1実施形態では、対象音声の音高Pと経過時間Eとに応じて処理区間Qを設定したが、処理区間Qの設定に適用される特徴量は以上の例示に限定されない。例えば、音高Pと経過時間Eとに加えて音量(ダイナミクス)Dを処理区間Qの設定に適用することも可能である。例えば実際の歌唱では、音量Dが小さいほど歌唱音声の気息性が増加し易いという傾向がある。以上の傾向を再現する観点から、区間設定部24は、音高Pおよび経過時間Eに関する条件(P>PTH,E>ETH)に加えて、音量Dが閾値DTHを下回るという条件が成立する区間を処理区間Qとして設定する。また、実際の歌唱では、音量Dが小さいほどボーカルフライが発生し易いという傾向がある。以上の傾向を再現する観点から、区間設定部24は、音高Pおよび経過時間Eに関する条件(P<PTH,E<ETH)に加えて、音量Dが閾値DTHを下回るという条件が成立する区間を処理区間Qとして設定する。
図9は、第3実施形態にて表示装置14に表示される設定画面(以下「特徴量選択画面」という)の模式図である。特徴量選択画面は、処理区間Qの設定に適用される特徴量を利用者が選択するための画像である。具体的には、複数種の特徴量(音高P,経過時間E,音量D)の各々について、操作機器16に対する利用者からの指示に応じて有効状態(チェックが付加された状態)と無効状態とが選択される。区間設定部24は、複数種の特徴量のうち特徴量選択画面にて利用者が有効状態に指定した1以上の特徴量と当該特徴量に対応する閾値(PTH,ETH,DTH)との比較結果に応じて処理区間Qを設定する。他方、特徴量選択画面にて無効状態に設定された特徴量は処理区間Qの設定に加味されない。第2実施形態のように対象音声に複数種の声質が付与される構成では、自動設定モードに設定された声質毎に別個の特徴量選択画面が表示され、処理区間Qの設定に適用される特徴量の組合せが声質毎に個別に選択される。
図10は、第3実施形態における閾値設定画面の模式図である。図10の閾値設定画面は、複数種の特徴量の各々について利用者が閾値(PTH,ETH,DTH)を設定するための画像である。図9の特徴量選択画面で有効状態に設定された特徴量については、図6の閾値設定画面と同様に、操作機器16に対する利用者からの指示に応じて閾値が設定される。他方、特徴量選択画面で無効状態に設定された特徴量について、閾値設定画面では閾値の変更が禁止される。例えば無効状態の特徴量については閾値設定画面での表示がグレーアウト(操作対象から除外されていることを表象する態様)で表示される。
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、複数の特徴量の各々が処理区間Qの設定に選択的に適用されるから、処理区間Qの設定に適用される特徴量の種類が固定された構成と比較して、多様な声質を再現できるという利点がある。第3実施形態では特に、複数の特徴量のうち利用者からの指示に応じた特徴量が処理区間Qの設定に適用されるから、利用者の意図や嗜好に適合した声質を再現できるという格別の効果が実現される。なお、第2実施形態の構成は第3実施形態にも同様に適用される。
<第4実施形態>
図11は、第4実施形態における音声処理装置100の演算処理装置10の機能的な構成図である。図11に例示される通り、第4実施形態では、音声信号Xと楽曲データZとが信号供給装置200から音声処理装置100に並列に供給される。楽曲データZは、楽曲を構成する音符毎に音高(ノートナンバ)と強度(ベロシティ)と発音期間(始点および終点)とを指定する時系列データである。例えばMIDI(Musical Instrument Digital Interface)規格に準拠した時系列データが楽曲データZとして好適に利用される。
楽曲データZは、音声信号Xが表す対象音声で歌唱される対象楽曲の各音符を時系列に指定する。したがって、音声信号Xの対象音声の各音符と楽曲データZで指定される各音符とは相互に対応する。以上の関係を考慮して、第4実施形態の特徴量特定部22は、対象音声の特徴量(音量P,経過時間E,音量D)を楽曲データZから特定する。具体的には、特徴量特定部22は、楽曲データZが指定する各音符の音高(ノートナンバ)を対象音声の音高Pとして特定する。また、特徴量特定部22は、楽曲データZが指定する各音符の強度(ベロシティ)を音量Dとして特定し、各音符の発音期間から経過時間Eを特定する。特徴量特定部22が特定した特徴量を適用して区間設定部24が処理区間Qを設定する動作や、処理区間Qの制御変数Cを変数制御部26が設定する動作は第1実施形態と同様である。音声処理部28は、第1実施形態と同様に、制御変数Cを適用した声質変換処理で音声信号Xから音声信号Yを生成する。
第4実施形態においても第1実施形態と同様の効果が実現される。また、第4実施形態では、楽曲データZを参照することで対象音声の特徴量が特定されるから、音声信号Xの解析で特徴量を特定する第1実施形態の構成と比較して特徴量の特定に必要な処理負荷が軽減されるという利点がある。他方、音声信号Xの解析で特徴量を特定する第1実施形態によれば、楽曲データZから特徴量を推定する第4実施形態と比較して、対象音声の特徴量を正確に特定できるという利点がある。なお、第2実施形態や第3実施形態の構成は第4実施形態にも適用される。
<第5実施形態>
図12は、第5実施形態における音声処理装置100の演算処理装置10の機能的な構成図である。図12から理解される通り、第5実施形態では、第4実施形態と同様に、音声信号Xと楽曲データZとが信号供給装置200から音声処理装置100に並列に供給される。第5実施形態の特徴量特定部22は、音声信号Xおよび楽曲データZの一方または双方を利用して対象音声の特徴量(音量P,経過時間E,音量D)を特定する。具体的には、手動設定モードおよび自動設定モードの何れかの動作モードが第2実施形態と同様に利用者により選択され、自動設定モードが選択された場合には、第1解析モードと第2解析モードとの何れかが利用者により選択される。第1解析モードは、第1実施形態と同様に音声信号Xの解析で対象音声の特徴量(音高P,経過時間E,音量D)を特定する動作モードであり、第2解析モードは、第4実施形態と同様に楽曲データZから対象音声の特徴量を特定する動作モードである。
第5実施形態の演算処理装置10は、図13の動作モード選択画面を表示装置14に表示させる。第5実施形態の動作モード選択画面は、手動設定モード(manual)と自動設定モード(auto)との選択を第2実施形態(図7)と同様に利用者から受付けるほか、自動設定モードが選択された声質について第1解析モードと第2解析モードとの選択を利用者から受付ける画像である。図13に例示される通り、利用者は、複数種の声質(気息性,ボーカルフライ)の各々について動作モード(手動設定モード/自動設定モード,第1解析モード/第2解析モード)を選択することが可能である。
具体的には、利用者が自動設定モードを選択した声質については、第1解析モードと第2解析モードとの選択を受付ける操作画像(チェックボックス)42が、利用者からの指示を受付け可能な有効状態に設定される。利用者は、操作画像42にチェックを付加することで第2解析モード(MIDI)を選択し、操作画像42のチェックを解除することで第1解析モードを選択することが可能である。他方、利用者が手動設定モードを選択した声質に対応する操作画像42は、利用者からの操作を受付けない無効状態(例えばグレーアウト)に設定される。
また、自動設定モードに設定された声質について、演算処理装置10は、図14の特徴量選択画面と図15の閾値設定画面とを表示装置14に表示させる。図14および図15の“audio“は、第1解析モードで特徴量の特定に利用される音声信号Xを表象し、“MIDI”は、第2解析モードで特徴量の特定に利用される楽曲データZを表象する。また、第1解析モードで音声信号Xから特定される音高P(Pitch)と第2解析モードで楽曲データZから特定される音高P(Note Number)とは、両者の意義の相違を反映して表記が相違する。音量D(第1解析モード:Dynamics,第2解析モード:Velocity)についても同様である。
図14の特徴量選択画面は、第1解析モード(音声信号X)に対応する第1領域51と、第2解析モード(楽曲データZ)に対応する第2領域52とを含んで構成される。第1領域51および第2領域52の各々は、図9の例示と同様に、処理区間Qの設定に適用される特徴量を利用者が選択するための画像である。具体的には、第1領域51は、第1解析モードで処理区間Qの設定に適用される特徴量(すなわち音声信号Xから特定される特徴量)の選択に利用され、第2領域52は、第2解析モードで処理区間Qの設定に適用される特徴量(すなわち楽曲データZから特定される特徴量)の選択に利用される。図13の動作モード選択画面で第1解析モードが選択された状態では、第1領域51が有効状態(利用者からの指示を受付ける状態)に設定されるとともに第2領域52は無効状態(利用者からの指示を受付けない状態)に設定される。他方、図13の動作モード選択画面で第2解析モードが選択された状態では、図14の例示のように、第2領域52が有効状態に設定されるとともに第1領域51は無効状態に設定される。
図15の閾値設定画面は、第1解析モードに対応する第1領域61と第2解析モードに対応する第2領域62とを含んで構成される。第1領域61および第2領域62の各々は、図10の例示と同様に、処理区間Qの設定に適用される閾値(PTH,ETH,DTH)を利用者が設定するための画像である。具体的には、第1領域61は、第1解析モードで適用される閾値の指示を受付け、第2領域62は、第2解析モードで適用される閾値の指示を受付ける。第1解析モードが選択された状態では、第1領域61が有効状態に設定され、第2解析モードが選択された状態では、図15の例示のように第2領域62が有効状態に設定される。図14の特徴量選択画面で無効状態に設定された特徴量(図15の第2領域62における「音量(Velocity)」)について閾値設定画面での表示が無効状態(グレーアウト)とされる点は図10の例示と同様である。
第5実施形態においても第1実施形態と同様の効果が実現される。また、第5実施形態では、音声信号Xから対象音声の特徴量を特定する第1解析モードと、楽曲データZから対象音声の特徴量を特定する第2解析モードとが用意されるから、利用者の意図や嗜好に適合した多様な声質を再現できるという利点がある。なお、第2実施形態から第4実施形態の構成は第5実施形態にも同様に適用される。
<第6実施形態>
図16は、第6実施形態における音声処理装置100の演算処理装置10の機能的な構成図である。図16に例示される通り、第6実施形態の演算処理装置10は、対象音声の合成を指示する合成データSを利用して音声信号Yを生成する。合成データSは、例えば楽曲を構成する音符毎に音高と発音期間と発音内容(歌詞)とを指定する時系列データ(例えばVSQ形式のファイル)である。合成データSは、操作機器16に対する利用者からの指示に応じて生成されて記憶装置12に格納される。なお、合成データSを音声処理装置100の外部から供給することも可能である。
第6実施形態の特徴量特定部22は、合成データSから対象音声の特徴量(音量Pや経過時間E)を特定する。具体的には、特徴量特定部22は、合成データSが指定する各音符の音高に応じて対象音声の音高Pを特定するとともに、各音符の発音期間から経過時間Eを特定する。区間設定部24は、特徴量特定部22が特定した特徴量に応じて処理区間Qを設定し、変数制御部26は、区間設定部24が設定した処理区間Qについて制御変数Cを設定する。
第6実施形態の音声処理部28は、合成データSを適用した音声合成処理で音声信号Yを生成する。音声合成処理には公知の技術が任意に採用される。例えば、合成データSが指定する発音内容に応じた各音声素片の音高および発音期間を調整して相互に連結する素片接続型の音声合成処理や、HMM(Hidden Markov Model)で推定された音高に対して発音文字(音素)に応じたフィルタ処理を実行する統計モデル型の音声合成処理が好適に採用される。変数制御部26が設定した制御変数Cを音声処理部28が音声合成処理に適用することで、処理区間Qの声質が制御変数Cに応じて制御された音声の音声信号Yが生成される。
第6実施形態においても第1実施形態と同様の効果が実現される。また、第6実施形態では、対象音声の特徴量が合成データSを参照して特定されるから、対象音声の音声信号Xが不要であるという利点がある。なお、第2実施形態から第5実施形態の構成は第6実施形態にも同様に適用され得る。
<第7実施形態>
図17は、第7実施形態における音声処理装置100の演算処理装置10の機能的な構成図であり、図18は、第7実施形態における演算処理装置10の動作の説明図である。図17に例示される通り、第7実施形態の演算処理装置10は、特徴量特定部22と区間設定部24と変数制御部26と音声処理部28と参照音解析部72とを実現する。特徴量特定部22は、音声信号Xの音高p0を対象音声の特徴量として単位区間毎に順次に抽出する。
参照音解析部72は、対象楽曲について事前に収録された模範的または標準的な歌唱音声(以下「参照音声」という)の音声信号XREFを解析する。具体的には、参照音解析部72は、音声信号XREFを解析することで参照音声の音高pREFを単位区間毎に抽出するとともに、閾値RHおよび閾値RLを参照音声の音高pREFに応じて単位区間毎に可変に設定する。図18から理解される通り、閾値RHは音高pREFを上回る数値に設定され、閾値RLは音高pREFを下回る数値に設定される。例えば、参照音解析部72は、音高pREFに所定値(正数)を加算することで閾値RHを算定し、音高pREFから所定値を減算することで閾値RLを算定する。なお、対象楽曲(歌唱曲)の歌唱パートの音符を時系列に指定する楽曲データから参照音解析部72が参照音声の音高pREFを順次に特定して音高pREFに応じた閾値RHおよび閾値RLを設定することも可能である。
図17の区間設定部24は、図18に例示される通り、対象音声の音高p0が閾値RHを上回る区間と音高p0が閾値RLを下回る区間とを処理区間Qとして設定する。すなわち、第7実施形態の処理区間Qは、対象音声の音高p0が参照音声の音高pREFから乖離した区間である。変数制御部26は、区間設定部24が設定した各処理区間Qについて制御変数Cを設定する。第7実施形態の制御変数Cは、処理区間Q内の対象音声の音高p0を参照音声の音高pREFに近付けるための補正値である。具体的には、変数制御部26は、対象音声の音高p0と閾値RHまたは閾値RLとの差分値を制御変数Cとして処理区間Q内の単位区間毎に算定する。
音声処理部28は、変数制御部26が設定した制御変数Cを適用した声質変換処理(音声処理)を音声信号Xに対して実行することで音声信号Yを生成する。第7実施形態の音声処理部28は、処理区間Q内の音声信号Xの音高p0を制御変数Cだけ変動させる処理(音高変換処理)で音声信号Yを生成する。したがって、図18に破線で例示される通り、音声信号Xのうち処理区間Q内の音高p0が閾値RHに補正され、かつ、処理区間Q外では対象音声の音高p0に維持された音声信号Yが生成される。すなわち、音声信号Xのうち音高p0が参照音声の音高pREFに近似する区間(処理区間Q外)では音声信号Xの音高p0が維持され、音高p0が参照音声の音高pREFから乖離する区間(処理区間Q内)では音高p0が参照音声の音高pREFに近付けられる。
図19は、第7実施形態の演算処理装置10が単位区間毎に実行する処理のフローチャートである。図19の処理が開始すると、特徴量特定部22は、音声信号Xの解析で対象音声の音高p0を特定する(SC1)。また、参照音解析部72は、音声信号XREFの解析で参照音声の音高pREFを特定するとともに(SC2)、音高pREFに応じた閾値RHおよび閾値RLを設定する(SC3)。
区間設定部24は、対象音声の音高p0が閾値RHを上回るか否か(SC4)、および、音高p0が閾値RLを下回るか否か(SC5)を判定する。音高p0が閾値RHを上回る場合(SC4:YES)、変数制御部26は、音高p0と閾値RHとの差分値を制御変数Cとして算定する(SC6)。同様に、音高p0が閾値RLを下回る場合(SC5:YES)、変数制御部26は、音高p0と閾値RLとの差分値を制御変数Cとして算定する(SC7)。音声処理部28は、音声信号Xの音高p0を制御変数Cだけ変動させることで、閾値RHまたは閾値RLを音高とする音声信号Yを生成する(SC8)。他方、音高p0が閾値RHと閾値RLとの間の数値である場合(SC4,SC5:NO)には、制御変数Cの設定(SC6,SC7)や音高p0の補正(SC8)は実行されず、音声信号Xが音高p0を維持したまま音声信号Yとされる。そして、音声処理部28は、音声信号Yを放音装置18に出力する(SC9)。以上の説明から理解される通り、図19のステップSC4およびステップSC5の判定は、区間設定部24が処理区間Qを設定する処理に相当する。
第7実施形態では、音声信号Xのうち音高p0が参照音声の音高pREFから乖離する処理区間Qでは音高pREFに近付くように対象音声の音高p0が補正される一方、音高p0が参照音声の音高pREFに近い区間では音高p0が維持される。したがって、音高p0を補正すべき区間に関する専門的な知見(音高p0を補正すべき区間の知識)を利用者が持たない場合でも、参照音声に音高が近い聴感的に自然な声質の音声を再現することが可能である。他方、参照音声の音高pREFに音高p0が近い区間については対象音声の音高p0が維持されるから、対象音声の特徴(例えば歌唱者に固有の音高p0の変動等)が喪失するような過度な補正を回避できるという利点もある。
なお、以上の説明では、対象音声の音高p0と閾値RHまたは閾値RLとの差分値を制御変数Cとして算定したが、対象音声の音高p0と参照音声の音高pREFとの差分値を制御変数Cとして算定することとで、処理区間Q内の音高p0を参照音声の音高pREFに補正する構成も採用され得る。
<第8実施形態>
図20は、第8実施形態における演算処理装置10の動作の説明図である。第8実施形態の演算処理装置10は、第7実施形態と同様の要素(特徴量特定部22,区間設定部24,変数制御部26,音声処理部28,参照音解析部72)として機能する。
図20に例示される通り、第8実施形態の参照音解析部72は、第7実施形態と同様に参照音声の音高pREFを特定するほか、音高pREFを上回る閾値RH_Aおよび閾値RH_Bと、音高pREFを下回る閾値RL_Aおよび閾値RH_Bとを音高pREFに応じて可変に設定する。閾値RH_Aは閾値RH_Bを上回り、閾値RL_Aは閾値RL_Bを下回る。図20から理解される通り、第8実施形態の区間設定部24は、対象音声の音高p0が閾値RH_Aを上回る時点T1から音高p0が閾値RH_Bを下回る時点T2までの区間を処理区間Qとして設定する。すなわち、音高p0の増加時に適用される閾値RH_Aと音高p0の減少時に適用される閾値RH_Bとが相違する(ヒステリシス特性)。同様に、区間設定部24は、対象音声の音高p0が閾値RL_Aを下回る時点から音高p0が閾値RL_Bを上回る時点までの区間を処理区間Qとして設定する。
図21および図22は、第8実施形態の演算処理装置10が単位区間毎に実行する処理のフローチャートである。なお、以下の説明で例示する制御情報Fは、処理対象の単位区間が処理区間Qに包含されるか否か(変数制御部26による制御変数Cの設定や音声処理部28による音高p0の補正が実行中であるか否か)を識別するための情報(フラグ)であり、第1回目の単位区間の開始時に、単位区間が処理区間Qに包含されないことを意味する数値0に初期化される。
図21の処理が開始すると、特徴量特定部22による対象音声の音高p0の特定(SD1)と参照音解析部72による参照音声の音高pREFの特定(SD2)とが第7実施形態と同様に実行され、区間設定部24は、制御情報Fが数値0であるか否かを判定する(SD3)。制御情報Fが数値0である場合(SD3:YES)、参照音解析部72は、閾値RH_Aおよび閾値RL_Aを参照音声の音高pREFに応じて可変に設定する(SD4)。例えば、参照音解析部72は、音高pREFに所定値を加算することで閾値RH_Aを算定し、音高pREFから所定値を減算することで閾値RL_Aを算定する。
区間設定部24は、対象音声の音高p0が閾値RH_Aを上回るか否か(SD5)、および、音高p0が閾値RL_Aを下回るか否か(SD6)を判定する。音高p0が閾値RH_Aを上回る場合(SD5:YES)、変数制御部26は、音高p0と閾値RH_Aとの差分値を制御変数(補正値)Cとして算定する(SD7)。他方、音高p0が閾値RL_Aを下回る場合(SD6:YES)、変数制御部26は、音高p0と閾値RL_Aとの差分値を制御変数Cとして算定する(SD8)。音声処理部28は、対象音声の音高p0を制御変数Cだけ変動させることで、閾値RH_Aまたは閾値RL_Aを音高とする音声信号Yを生成する(SD9)。また、区間設定部24は、制御情報Fを数値0から数値1に変更する(SD10)。制御情報Fの数値1は、対象音声の音高p0が補正中であることを意味する。他方、音高p0が閾値RH_Aと閾値RL_Aとの間の数値である場合(SD5,SD6:NO)には、制御変数Cの設定(SD7,SD8)や音高p0の補正(SD9)は実行されない。音声処理部28は、以上に例示した処理後の音声信号Yを放音装置18に出力する(SD11)。
制御情報Fが数値1に設定されると(SD10)、以降の単位区間の処理ではステップSD3の判定結果が否定となる。制御情報Fが数値1である場合(SD3:NO)、図22に例示される通り、参照音解析部72は、参照音声の音高pREFを上回る閾値RH_Aおよび閾値RH_Bと音高pREFを下回る閾値RL_Aおよび閾値RL_Bとを設定する(SD20)。
区間設定部24は、対象音声の音高p0が閾値RH_Bを上回るか否か(SD21)、および音高p0が閾値RL_Bを下回るか否か(SD22)を判定する。音高p0が閾値RH_Bを上回る場合(SD21:YES)および音高p0が閾値RL_Bを下回る場合(SD22:YES)には音高p0の補正が直前の単位区間と同様に継続される。具体的には、変数制御部26は、音高p0が閾値RH_Bを上回る場合には音高p0と閾値RH_Aとの差分値を制御変数Cとして算定し(SD23)、音高p0が閾値RL_Bを下回る場合には音高p0と閾値RL_Aとの差分値を制御変数Cとして算定する(SD24)。そして、音声処理部28は、対象音声の音高p0を制御変数Cだけ変動させることで音声信号Yを生成する(SD25)。
他方、音高p0が閾値RH_Bを下回る場合(SD21:NO)および音高p0が閾値RL_Bを上回る場合(SD22:N0)には処理区間Qが終了する。すなわち、制御変数Cの設定(SD23,SD24)や音高p0の補正(SD25)は実行されず、区間設定部24は制御情報Fを数値1から数値0に変更する(SD26)。
以上の説明から理解される通り、第8実施形態では、対象音声の音高p0が閾値RH_Aを上回る時点から閾値RH_Bを下回る時点までの区間と、音高p0が閾値RL_Aを下回る時点から閾値RL_Bを上回る時点までの区間とが、音高p0を補正する処理区間Qとして設定される。したがって、音高p0が各閾値(RH_A,RH_B,RL_A,RL_B)の近傍で変動しても音高p0に対する補正の有無は変化しない。すなわち、第8実施形態によれば、第7実施形態と同様の効果が実現されるほか、対象音声の音高p0に対する補正の有無が短時間で頻繁に切替わる可能性を低減できるという利点がある。
なお、以上の説明では、処理区間Q内で対象音声の音高p0を閾値RH_Aまたは閾値RL_Aに補正したが、処理区間Q内で音高p0を閾値RH_Bまたは閾値RL_Bに補正する構成や、処理区間Q内で音高p0を参照音声の音高pREFに補正する構成も採用され得る。また、対象音声の音高p0または参照音声の音高pREFの微細な変動を抑制したうえで処理区間Qや制御変数Cを設定することも可能である。音高p0または音高pREFの微細な変動の抑制には例えばローパスフィルタが好適に利用される。
<変形例>
前述の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
(1)処理区間Q内における制御変数Cの変化の態様は任意である。例えば、前述の各形態では、処理区間Qにて制御変数Cが直線的に増加する構成を例示したが、処理区間Q内で制御変数Cを曲線的(例えば非線形)に変化させることも可能である。
(2)特徴量特定部22が特定する特徴量の種類は前述の例示(音高P,経過時間E,音量D)に限定されない。例えば、前述の各形態で例示した特徴量の微分値(時間変化率)や2階微分値を特徴量として算定することも可能である。また、前述の各形態では離散的な複数の音高の何れかを音高Pとして特定したが、時間的に連続に変化するように音高P(ピッチカーブ)を特定することも可能である。
(3)前述の各形態では、処理区間Qの設定に適用される閾値(PTH,ETH,DTH)を利用者からの指示に応じて可変に設定したが、閾値の設定の方法は任意である。例えば、特徴量特定部22が特定した特徴量の過去の数値に応じて当該特徴量の閾値を設定する構成や、特徴量特定部22が特定した特徴量に対する統計的処理で算定された数値に応じて閾値を設定する構成、または、他の特徴量の数値に応じて特徴量の閾値を設定する構成も採用され得る。もっとも、閾値が可変値である構成は必須ではなく、閾値を所定値に固定することも可能である。また、処理区間Qに該当すると判断される特徴量の範囲の上限値と下限値とを設定する構成(上限の閾値と下限の閾値とを別個に設定する構成)や、処理区間Qに該当する特徴量の範囲を複数に分割して設定する構成も採用され得る。
(4)複数種の特徴量を処理区間Qの設定に適用する構成では、各特徴量を個別に加重する(優劣を設定する)ことも可能である。例えば、加重値が大きい特徴量が閾値を上回る単位区間については、他の特徴量が閾値を下回る場合でも処理区間Qに該当すると判定するといった具合である。
(5)前述の各形態では、経過時間Eを有声区間Vの始点から起算したが、経過時間Eの算定の対象は有声区間Vに限定されない。例えば、有声/無声を区別せずに音声が存在する区間(以下「音声区間」という)の始点から経過時間Eを算定することも可能である。音声区間は、対象音声のうち無音区間以外の区間である。また、例えば、持続的に発音可能な音素が存在する区間(以下「持続音区間」という)の始点から経過時間Eを起算することも可能である。持続音区間に存在する持続可能な音素の典型例は有声音(例えば母音)であるが、発音が時間的に継続され得る子音(例えば摩擦音)も包含する。以上の説明から理解される通り、経過時間Eは、対象音声のうち特定の区間の始点からの経過時間として包括的に表現され、有声区間Vや音声区間や持続音区間は、経過時間Eが算定される特定の区間の例示である。
(6)前述の各形態では、音声信号Xの音高Pが変動する時点を境界として有声区間v0を有声区間Vに区分したが、音声信号Xの音量Dが変動する時点を境界として有声区間v0を対象楽曲の音符毎の有声区間Vに区分することも可能である。
(7)音声信号Xに付与される声質の種類は前述の例示(気息音,ボーカルフライ)に限定されない。例えば、音声信号Xの処理区間Qを嗄声(濁声)や喉詰声や唸り声(Growl)に変換する構成や、音声信号Xの処理区間Qを張りのある音声(tense)や張りのない音声(lux)に変換する構成も採用される。嗄声や喉詰声の付加には、例えば特開2010−191042号公報や特開2006−145867号公報の技術が好適に利用される。また、音声信号Xのうち発音開始の直後の区間を強調することで対象音声を張りのある音声に変換し、発音開始の直後の区間を抑制することで対象音声を張りのない音声に変換することが可能である。
(8)携帯電話機等の端末装置と通信するサーバ装置により音声処理装置100を実現することも可能である。例えば、音声処理装置100は、端末装置から通信網を介して受信した音声信号X(楽曲データZや合成データS)について前述の各形態で例示した処理を実行することで音声信号Yを生成し、端末装置を宛先として音声信号Yを通信網に送信する。
100……音声処理装置、200……信号供給装置、10……演算処理装置、12……記憶装置、14……表示装置、16……操作機器、18……放音装置、22……特徴量特定部、24……区間設定部、26……変数制御部、28……音声処理部。

Claims (4)

  1. 対象音声の特徴量を特定する特徴量特定手段と、
    前記特徴量と閾値との比較結果に応じて処理区間を設定する区間設定手段と、
    声質を制御するための制御変数を前記処理区間について設定する変数制御手段と、
    前記対象音声のうち前記処理区間の声質を前記制御変数に応じて制御した音声の音声信号を生成する音声処理手段とを具備し、
    前記特徴量特定手段は、前記対象音声のうち特定の区間内での始点からの経過時間を前記特徴量として特定する
    音声処理装置。
  2. 前記区間設定手段は、第1声質については前記経過時間が閾値を上回る区間を前記処理区間として設定し、前記第1声質とは別種の第2声質については前記経過時間が閾値を下回る区間を前記処理区間として設定する
    請求項の音声処理装置。
  3. 前記特徴量特定手段は、対象音声の音高または音量を前記特徴量として特定し、
    前記区間設定手段は、対象音声の音高または音量と第1閾値との比較結果と、前記経過時間と第2閾値との比較結果とに応じて、前記処理区間を設定する
    請求項の音声処理装置。
  4. 前記特徴量特定手段は、前記対象音声の音高または音量が変動する時点を境界として前記特定の区間を区分する
    請求項から請求項の何れかの音声処理装置。
JP2014210143A 2013-10-17 2014-10-14 音声処理装置 Active JP6497025B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014210143A JP6497025B2 (ja) 2013-10-17 2014-10-14 音声処理装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013216546 2013-10-17
JP2013216546 2013-10-17
JP2014210143A JP6497025B2 (ja) 2013-10-17 2014-10-14 音声処理装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2019046089A Division JP6741105B2 (ja) 2013-10-17 2019-03-13 音声処理方法および音声処理装置

Publications (2)

Publication Number Publication Date
JP2015099363A JP2015099363A (ja) 2015-05-28
JP6497025B2 true JP6497025B2 (ja) 2019-04-10

Family

ID=53375976

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2014210143A Active JP6497025B2 (ja) 2013-10-17 2014-10-14 音声処理装置
JP2019046089A Active JP6741105B2 (ja) 2013-10-17 2019-03-13 音声処理方法および音声処理装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2019046089A Active JP6741105B2 (ja) 2013-10-17 2019-03-13 音声処理方法および音声処理装置

Country Status (1)

Country Link
JP (2) JP6497025B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6798253B2 (ja) * 2016-11-02 2020-12-09 ヤマハ株式会社 信号処理方法、および信号処理装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04102326U (ja) * 1991-02-06 1992-09-03 横河電機株式会社 波形整形回路
TW250602B (en) * 1994-01-13 1995-07-01 Fluke Corp Dual comparator trigger circuit with independent voltage level adjustment
JPH10116088A (ja) * 1996-10-14 1998-05-06 Roland Corp 効果付与装置
JP2007041012A (ja) * 2003-11-21 2007-02-15 Matsushita Electric Ind Co Ltd 声質変換装置および音声合成装置
JP2007310204A (ja) * 2006-05-19 2007-11-29 Yamaha Corp 楽曲練習支援装置、制御方法及びプログラム
JP2007316261A (ja) * 2006-05-24 2007-12-06 Casio Comput Co Ltd カラオケ装置
CN101606190B (zh) * 2007-02-19 2012-01-18 松下电器产业株式会社 用力声音转换装置、声音转换装置、声音合成装置、声音转换方法、声音合成方法
JP5125958B2 (ja) * 2008-09-30 2013-01-23 ブラザー工業株式会社 音域特定システム、プログラム
JP2010191042A (ja) * 2009-02-17 2010-09-02 Yamaha Corp 音声処理装置およびプログラム
JP2011221064A (ja) * 2010-04-05 2011-11-04 Brother Ind Ltd カラオケシステム
JP5699496B2 (ja) * 2010-09-06 2015-04-08 ヤマハ株式会社 音合成用確率モデル生成装置、特徴量軌跡生成装置およびプログラム
JP5883216B2 (ja) * 2010-09-17 2016-03-09 ヤマハ株式会社 ビブラート付加装置、ビブラート付加方法及びプログラム
JP2013033103A (ja) * 2011-08-01 2013-02-14 Panasonic Corp 声質変換装置および声質変換方法

Also Published As

Publication number Publication date
JP2015099363A (ja) 2015-05-28
JP2019086801A (ja) 2019-06-06
JP6741105B2 (ja) 2020-08-19

Similar Documents

Publication Publication Date Title
JP6171711B2 (ja) 音声解析装置および音声解析方法
JP4355772B2 (ja) 力み変換装置、音声変換装置、音声合成装置、音声変換方法、音声合成方法およびプログラム
US8311831B2 (en) Voice emphasizing device and voice emphasizing method
JP6729539B2 (ja) 音声合成方法、音声合成システムおよびプログラム
JP2019061135A (ja) 電子楽器、電子楽器の楽音発生方法、及びプログラム
JP6737320B2 (ja) 音響処理方法、音響処理システムおよびプログラム
JP2015225268A (ja) 電子楽器、発音制御方法及びプログラム
JP7355165B2 (ja) 楽曲再生システム、楽曲再生システムの制御方法およびプログラム
JP6728843B2 (ja) 電子楽器、楽音発生装置、楽音発生方法及びプログラム
JP5136128B2 (ja) 音声合成装置
WO2019181767A1 (ja) 音処理方法、音処理装置およびプログラム
CN114446266A (zh) 音响处理系统、音响处理方法及程序
JP6741105B2 (ja) 音声処理方法および音声処理装置
JP6390690B2 (ja) 音声合成方法および音声合成装置
WO2014142200A1 (ja) 音声処理装置
JP5034642B2 (ja) カラオケ装置
JP6372066B2 (ja) 合成情報管理装置および音声合成装置
JPWO2019240042A1 (ja) 表示制御方法、表示制御装置およびプログラム
JP7577964B2 (ja) 再生制御方法および再生制御システム
JP4544258B2 (ja) 音響変換装置およびプログラム
JP6191094B2 (ja) 音声素片切出装置
JP5953743B2 (ja) 音声合成装置及びプログラム
KR20110025434A (ko) 노래의 감성 향상 방법 및 장치
JP5552797B2 (ja) 音声合成装置および音声合成方法
JP5186793B2 (ja) カラオケ装置

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150410

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170824

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180710

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180903

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190225

R151 Written notification of patent or utility model registration

Ref document number: 6497025

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532