JP5282469B2

JP5282469B2 - 音声処理装置およびプログラム

Info

Publication number: JP5282469B2
Application number: JP2008191973A
Authority: JP
Inventors: 靖雄吉岡
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2008-07-25
Filing date: 2008-07-25
Publication date: 2013-09-04
Anticipated expiration: 2028-07-25
Also published as: JP2010032599A; ATE503242T1; EP2148324B1; DE602009000948D1; EP2148324A1; US20100023321A1; US8315855B2

Description

本発明は、音声の韻律（例えば強弱や高低などの抑揚）を強調または抑制する技術に関する。

音声の韻律を変化させる技術が従来から提案されている。例えば特許文献１には、音声信号の音量や音高の変動幅を所定の範囲（以下「基準範囲」という）内に低減することで韻律を抑制する技術が開示されている。基準範囲は、平静時の発声音における音量や音高の標準的な変動幅に応じて固定的に設定される。
特開２００４−２５２０８５号公報

しかし、特許文献１の技術においては、実際に処理される音声信号の特性とは無関係に固定的に設定された基準範囲が音量や音高の抑制に適用されるから、音声信号の特性に応じた適切な韻律の制御が困難であるという問題がある。例えば、処理前の音声信号の音量や音高が基準範囲内にある場合には処理の前後で韻律は変化しない。以上の事情に鑑みて、本発明は、音声信号の特性に応じて韻律を適切に制御することを目的とする。

以上の課題を解決するために、本発明に係る音声処理装置は、音声の韻律に関連する特徴量を音声信号から順次に抽出する特徴抽出手段と、基準値と各特徴量との差分値を算定する差分算定手段と、各差分値に応じた加工値を特定する変数特定手段と、音声信号の各特徴量を各加工値に応じて制御することで、音声信号の韻律を変化させた出力信号を生成する音声加工手段とを具備する。以上の構成においては、音声信号の各特徴量と基準値との差分値に応じた加工値を利用して、音声信号の韻律を変化させた出力信号が生成される。したがって、音声信号の音量や音高が固定の基準範囲内に抑制される特許文献１の構成と比較して、音声信号の各特徴量（各特徴量と基準値との差分値）に応じて韻律を適切に制御することが可能である。
本発明の第１態様に係る音声処理装置は、計時部が計測する現在時刻に応じて制御値を可変に制御する制御手段を具備し、変数特定手段は、差分値と加工値との関係を制御値に応じて可変に制御する。本発明の第２態様に係る音声処理装置は、特徴抽出手段が抽出した複数の特徴量に応じて基準値を設定する基準設定手段を具備し、基準設定手段は、音声信号を音声区間と非音声区間とに区分し、音声区間内の複数の単位区間の各々の特徴量に応じた基準値を音声区間毎に個別に設定する。また、本発明の第３態様の音声処理装置において、特徴抽出手段は、音声信号のスペクトルのうち最大強度のピークの頂点からみて高域側の部分を近似する直線の傾きを特徴量として抽出する。
本発明の好適な態様において、変数特定手段は、差分値の絶対値が増加するほど差分値に対する加工値の変化率が増加するように加工値を算定する（例えば図６の関数Ｆ2Aや関数Ｆ2B）。以上の態様においては、差分値の絶対値が増加するほど加工値の変化率が増加するから、差分値に対して加工値が固定の変化率で変化する（すなわち直線的に変化する）場合と比較して、韻律を充分に変化（強調または抑制）させることが可能である。
また、本発明の他の態様において、変数特定手段は、差分値の絶対値が増加するほど差分値に対する加工値の変化率が減少するように加工値を算定する（例えば図７の関数Ｆ3Aや関数Ｆ3B）。以上の態様においては、差分値の絶対値が増加するほど加工値の変化率が減少するから、差分値に対して加工値が固定の変化率で変化する（すなわち直線的に変化する）場合と比較して、韻律の変化（強調または抑制）の度合を低減できるという利点がある。

本発明の好適な態様において、変数特定手段は、差分値に対応する関数値から当該差分値を減算した数値を加工値として算定し、音声加工手段は、音声信号の各特徴量を各加工値だけ変化させることで出力信号を生成する。以上の構成によれば、音声信号の特徴量を出力信号に正確に反映させながら、基準値を基準（中心）として出力信号の特徴量を制御できるという利点がある。

本発明の好適な態様において、変数特定手段は、韻律を強調する場合、絶対値が差分値の絶対値を上回るように設定された関数値から加工値を算定し、韻律を抑制する場合、絶対値が差分値の絶対値を下回るように設定された関数値から加工値を算定する。以上の態様によれば、韻律の強調および抑制の双方が実現される。

本発明の好適な態様において、変数特定手段は、差分値と加工値との関係を可変に制御する。以上の構成によれば、差分値と加工値との関係が固定された場合と比較して、韻律を多様に変化させた出力信号を生成できるという利点がある。なお、変数特定手段が差分値と加工値との関係を可変に制御する方法は任意である。例えば、差分値と加工値との関係を定義する別種の関数（例えば関数Ｆ1〜Ｆ3）を選択的に利用する構成や、差分値と加工値との関係を定義する１種類の関数における係数（例えば図３の関数Ｆ1Aや関数Ｆ1Bにおける傾き）を変化させる構成が好適に採用される。

なお、差分算定手段が使用する基準値を設定する方法は任意である。例えば、音声信号とは無関係に基準値が所定値に設定される構成も採用される。ただし、出力信号と音声信号との特性の乖離を抑制するという観点からすると、特徴抽出手段が抽出した複数の特徴量に応じて基準値を設定する構成が好適である。例えば、複数の特徴量の最大値や最小値を基準値に設定する構成や、複数の特徴量の平均値を基準値に設定する構成が採用される。出力信号と音声信号との特性（例えば音量感や音高感）の乖離を有効に抑制するという観点からすると、複数の特徴量の平均値を基準値に設定する構成が格別に好適である。

また、以上の各態様に係る音声処理装置は、音声の処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

＜Ａ：第１実施形態＞
図１は、本発明の第１実施形態に係る音声処理装置のブロック図である。図１に示すように、音声処理装置１００は、演算処理装置１０と記憶装置１２とを含むコンピュータシステムで構成される。記憶装置１２は、演算処理装置１０が実行するプログラムや演算処理装置１０が使用するデータを記憶する。例えば音声信号Ｓ0が記憶装置１２に格納される。音声信号Ｓ0は、音声の時間軸上の波形を表すサンプル系列である。半導体記録媒体や磁気記録媒体などの公知の記録媒体が記憶装置１２として任意に採用される。

演算処理装置１０は、記憶装置１２に格納されたプログラムを実行することで韻律制御部２０および音声加工部３０として機能する。音声加工部３０は、記憶装置１２に格納された音声信号Ｓ0の韻律を変化（強調または抑制）させることで出力信号ＳOUTを生成する。韻律とは、音声の音響的な特徴（典型的には音量や音高）に起因して受聴者が知覚する音声の抑揚や調子（発声者の感情）を意味する。韻律が強調された音声は感情的ないし情緒的な印象を受聴者に与え、韻律が抑制された音声は無機的ないし理性的な印象を受聴者に与える。本形態の音声加工部３０は、音声信号Ｓ0の音量と音高（ピッチ）とを変化させることで出力信号ＳOUTを生成する。したがって、韻律が異なる複数の音声信号Ｓ0を事前に作成しなくても所望の韻律の出力信号ＳOUTを生成できる（さらには音声信号Ｓ0の記憶のために記憶装置１２に必要となる容量が削減される）という利点がある。

図１の韻律制御部２０は、音声加工部３０による韻律の変化を制御するための加工値Ｃ（ＣV，ＣP）を生成する。加工値Ｃは、韻律の変化の態様（韻律の変化の方向（強調／抑制）や韻律の変化の度合）を指定する変数である。加工値ＣVは音量の変化を指定し、加工値ＣPは音高の変化を指定する。なお、加工値Ｃ（ＣV，ＣP）の表記と同様に、以下の説明においては、音量（Volume）に関連する要素の符号に添字「V」を付加するとともに音高（Pitch）に関連する要素の符号に添字「P」を付加し、音量と音高とを特別に区別する必要がない場合（音量と音高とで共通する事項を説明する場合）には添字の付加を省略する。

演算処理装置１０には入力装置１４と放音装置１６とが接続される。入力装置１４は、音声処理装置１００に対する指示のために利用者が操作する操作子で構成される。入力装置１４を適宜に操作することで、利用者は、例えば韻律の変化の方向（強調／抑制）と韻律の変化の度合とを表す制御値Ｕを音声処理装置１００に指示する。放音装置１６（例えばスピーカやヘッドホン）は、演算処理装置１０が生成した出力信号ＳOUTに応じた音響を放射する。

図２は、韻律制御部２０および音声加工部３０のブロック図である。図２に示すように、韻律制御部２０は、特徴抽出部２２と基準設定部２４と差分算定部２６と変数特定部２８とを含んで構成される。特徴抽出部２２は、音声信号Ｓ0の全区間を時間軸上で区分した複数の単位区間（例えば10ミリ秒の区間）の各々について特徴量Ｆ（ＦV，ＦP）を順次に抽出する。さらに詳述すると、特徴抽出部２２は、音声信号Ｓ0の音量ＦVと音高ＦPとを単位区間毎に抽出する。音量ＦVや音高ＦPの抽出には公知の技術が任意に採用される。なお、音高ＦPが検出できない場合（例えば音声信号Ｓ0の音量がゼロである場合や音声信号Ｓ0が調波構造を持たない場合）、音高ＦPはゼロに設定される。

基準設定部２４は、特徴抽出部２２が抽出した複数の特徴量Ｆ（ＦV，ＦP）に応じて基準値Ｒ（ＲV，ＲP）を可変に設定する。例えば複数の特徴量Ｆの平均値が基準値Ｒとして設定される。すなわち、基準設定部２４は、音声信号Ｓ0の全区間にわたる音量ＦVの平均値を基準値ＲVとして算定するとともに、音声信号Ｓ0の全区間にわたる音高ＦPの平均値を基準値ＲPとして算定する。

差分算定部２６は、特徴抽出部２２が単位区間毎に特定した各特徴量Ｆと基準設定部２４が特徴量Ｆから設定した基準値Ｒとの差分値Ｄ（ＤV，ＤP）を算定する。さらに詳述すると、差分算定部２６は、各単位区間の音量ＦVから基準値ＲVを減算することで差分値ＤV（ＤV＝ＦV−ＲV）を算定し、各単位区間の音高ＦPから基準値ＲPを減算することで差分値ＤP（ＤP＝ＦP−ＲP）を算定する。したがって、差分値Ｄ（ＤV，ＤP）は、複数の単位区間の各々について個別に算定される。

変数特定部２８は、差分算定部２６が算定した各差分値Ｄ（ＤV，ＤP）に応じた加工値Ｃ（ＣV，ＣP）を複数の単位区間の各々について算定する。さらに詳述すると、変数特定部２８は、差分値ＤVに応じた加工値ＣVと差分値ＤPに応じた加工値ＣPとを単位区間毎に算定する。

図３は、差分値Ｄと加工値Ｃとの関係を説明するためのグラフである。変数特定部２８は、関数値ｆが差分値Ｄに対して直線的に変化（単調増加）するように設定された関数Ｆ1（Ｆ1A，Ｆ1B）を利用して加工値Ｃを算定する。図３に示すように、制御値Ｕが韻律の強調を示す場合には関数Ｆ1Aが使用され、制御値Ｕが韻律の抑制を示す場合には関数Ｆ1Bが使用される。

関数Ｆ1Aの傾き（差分値Ｄに対する関数値ｆの変化率）は、「１」を上回る範囲内で制御値Ｕに応じて可変に設定される。したがって、関数Ｆ1Aにおける関数値ｆ(D)の絶対値は差分値Ｄの絶対値を上回る。一方、関数Ｆ1Bの傾きは、「１」を下回る正数の範囲内で制御値Ｕに応じて可変に設定される。したがって、関数Ｆ1Bにおける関数値ｆ(D)の絶対値は差分値Ｄの絶対値を下回る。

変数特定部２８は、関数Ｆ1（関数Ｆ1Aまたは関数Ｆ1B）において差分値Ｄに対応する関数値ｆ(D)から差分値Ｄを減算した数値を加工値Ｃ（Ｃ＝ｆ(D)−Ｄ）として算定する。したがって、加工値Ｃは差分値Ｄに応じて変化（比例）する。すなわち、差分値Ｄの絶対値が大きいほど加工値Ｃの絶対値は増加する。さらに、差分値Ｄが正数である場合、韻律の強調時（関数Ｆ1A）の加工値Ｃは正数に設定されるとともに韻律の抑制時（関数Ｆ1B）の加工値Ｃは負数に設定され、差分値Ｄが負数である場合、韻律の強調時（関数Ｆ1A）の加工値Ｃは負数に設定されるとともに韻律の抑制時（関数Ｆ1B）の加工値Ｃは正数に設定される。

図２の音声加工部３０は、変数特定部２８が各単位区間について特定した加工値Ｃに応じて音声信号Ｓ0の当該単位区間における特徴量Ｆを増減することで出力信号ＳOUTを生成する。図２に示すように、本形態の音声加工部３０は、音量変換部３２と音高変換部３４とを含んで構成される。

音量変換部３２は、音声信号Ｓ0の各単位区間の音量ＦVを当該単位区間の加工値ＣVに応じて変化させる。すなわち、音量変換部３２は、音声信号Ｓ0の各単位区間の音量ＦVを、当該音量ＦVと加工値ＣVとの加算値に変化させる。同様に、音高変換部３４は、音声信号Ｓ0の各単位区間の音高ＦPを当該単位区間の加工値ＣPに応じて変化させる。すなわち、音量変換部３２は、音声信号Ｓ0の各単位区間の音高ＦPを、当該音高ＦPと加工値ＣPとの加算値に変化させる。音量変換部３２による音量ＦVの変換と音高変換部３４による音高ＦPの変換とで音声信号Ｓ0から出力信号ＳOUTが生成される。

音声信号Ｓ0の各単位区間の特徴量Ｆは、基準値Ｒと差分値Ｄとの加算値に相当するから（Ｆ＝Ｒ＋Ｄ）、以下の数式(1)に示すように、音声信号Ｓ0の特徴量Ｆと加工値ＣVとの加算値（すなわち出力信号ＳOUTの特徴量）は、基準値Ｒと関数値ｆ(D)との加算値となる。
Ｆ＋Ｃ＝（Ｒ＋Ｄ）＋（ｆ(D)−Ｄ）
＝Ｒ＋ｆ(D) ……(1)

図４は、特徴量Ｆ（音量ＦVや音高ＦP）の時間的な変動を音声信号Ｓ0と出力信号ＳOUTとについて図示した模式図であり、図５は、韻律を強調した出力信号ＳOUTの音量ＦVおよび音高ＦPの時間的な変動を音声信号Ｓ0の波形（最上段）とともに図示した模式図である。図５においては、音声信号Ｓ0の音量ＦVと音高ＦPとが破線で出力信号ＳOUTの音量ＦVおよび音高ＦPに併記されている。

図３を参照して説明したように、韻律の強調が指示された場合、差分値Ｄが正数であるとき（すなわち音声信号Ｓ0の特徴量Ｆが基準値Ｒを上回るとき）には加工値Ｃは正数に設定され、差分値Ｄが負数であるときには加工値Ｃは負数に設定される。したがって、図４および図５に示すように、出力信号ＳOUTの特徴量Ｆの変動幅は音声信号Ｓ0と比較して拡大される（出力信号ＳOUTの特徴量Ｆの絶対値は音声信号Ｓ0を上回る）。すなわち、出力信号ＳOUTの再生音は音声信号Ｓ0の韻律（音量や音高の変動）を強調した音声となる。そして、図３に示したように差分値Ｄの絶対値が増加するほど加工値Ｃの絶対値は増加するから、音声信号Ｓ0の特徴量Ｆが基準値Ｒから離れるほど、音声信号Ｓ0と出力信号ＳOUTとにおける特徴量Ｆの相違は拡大する。

一方、韻律の抑制が指示された場合、差分値Ｄが正数であるときには加工値Ｃは負数に設定され、差分値Ｄが負数であるときに加工値Ｃは正数に設定される。したがって、図４に示すように、出力信号ＳOUTの特徴量Ｆの変動幅は音声信号Ｓ0と比較して縮小される。すなわち、出力信号ＳOUTの再生音は音声信号Ｓ0の韻律を抑制した音声となる。韻律の強調の場合と同様、音声信号Ｓ0の特徴量Ｆが基準値Ｒから離れるほど、音声信号Ｓ0と出力信号ＳOUTとにおける特徴量Ｆの相違は拡大する。

以上に説明したように、本形態においては音声信号Ｓ0の特徴量Ｆに応じて韻律の抑制の度合が可変に制御されるから、音声信号Ｓ0の音量や音高を固定の基準範囲内に抑制するだけの技術（特許文献１）と比較すると、音声信号Ｓ0の特性に応じて適切に韻律を制御することができる。例えば、音声信号Ｓ0の音量が小さい場合であっても韻律を確実かつ精緻に制御することが可能である。また、差分値Ｄから加算値Ｃを算定するための関数Ｆ1（Ｆ1A，Ｆ1B）の変化率（傾き）が可変に制御されるから、出力信号ＳOUTにおける韻律の変化の程度を適宜に調整できるという利点もある。

ところで、基準範囲を音声信号とは無関係に設定した特許文献１の構成では、例えば音声信号の音量や音高が基準範囲の中央値から乖離している場合に、韻律の抑制の前後で音声の特性が顕著に変化するという問題がある。本形態においては、音声信号Ｓ0の特徴量Ｆを、関数Ｆ1の関数値ｆ(D)から差分値Ｄを減算した加工値Ｃだけ変化させることで出力信号ＳOUTが生成される。したがって、数式(1)や図４から理解されるように、基準値Ｒを基準（中心）として特徴量Ｆの変動（すなわち韻律）を強調または抑制した出力信号ＳOUTが生成されるという利点がある。しかも、本形態においては複数の特徴量Ｆの平均値が基準値Ｒに設定されるから、特徴量Ｆの平均値は音声信号Ｓ0と出力信号ＳOUTとで略合致する。したがって、音声信号Ｓ0と出力信号ＳOUTとの特性の乖離を低減するという効果は格別に顕著である。

＜Ｂ：第２実施形態＞
次に、本発明の第２実施形態について説明する。なお、以下の各形態において作用や機能が第１実施形態と同様である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。

本形態の変数特定部２８は３種類の関数Ｆ（Ｆ1〜Ｆ3）を保持する。変数特定部２８は、３種類の関数Ｆ（Ｆ1〜Ｆ3）の何れかを選択的に加工値Ｃの算定に使用する。変数特定部２８が選択する関数Ｆ（Ｆ1〜Ｆ3）は、入力装置１４に対する操作で利用者が指定する。関数Ｆ2や関数Ｆ3を利用して差分値Ｄから加工値Ｃを算定する方法は、関数Ｆ1から加工値Ｃを算定する第１実施形態の方法と同様である。

図６は、関数Ｆ2（Ｆ2A，Ｆ2B）を示すグラフであり、図７は、関数Ｆ3（Ｆ3A，Ｆ3B）を示すグラフである。第１実施形態にて関数Ｆ1について説明したように、韻律を強調する場合には、関数値ｆ(D)の絶対値が差分値Ｄの絶対値を上回る関数（Ｆ1A，Ｆ2A，Ｆ3A）が加工値Ｃの算定に使用され、韻律を抑制する場合には、関数値ｆ(D)の絶対値が差分値Ｄの絶対値を下回る関数（Ｆ1B，Ｆ2B，Ｆ3B）が加工値Ｃの算定に使用される。

図６および図７に示すように、関数Ｆ2Aおよび関数Ｆ3Bは、差分値Ｄの絶対値が増加するほど当該差分値Ｄに対応した関数値ｆ(D)の変化率が増加する（したがって、差分値Ｄに対して関数値ｆ(D)が曲線的に変化する）ように差分値Ｄと関数値ｆ(D)との関係を規定する。一方、関数Ｆ2Bおよび関数Ｆ3Aは、差分値Ｄの絶対値が増加するほど関数値ｆ(D)の変化率が減少するように差分値Ｄと関数値ｆ(D)との関係を規定する。

以上の説明から理解されるように、図６の関数Ｆ2（Ｆ2A，Ｆ2B）が選択された場合には、差分値Ｄの絶対値が増加するほど差分値Ｄに対する加工値Ｃの変化率が増加する（すなわち、差分値Ｄの絶対値の変化に対して加工値Ｃの絶対値が指数的に増加する）。したがって、音声信号Ｓ0に対する出力信号ＳOUTの特徴量Ｆの変化量（出力信号ＳOUTにおける特徴量Ｆの変動幅）は、関数Ｆ1を利用した場合と比較して増大する。すなわち、関数Ｆ1を利用した場合と比較して韻律の変化（強調または抑制）の度合を拡大することが可能である。

一方、図７の関数Ｆ3（Ｆ3A，Ｆ3B）が選択された場合には、差分値Ｄの絶対値が増加するほど差分値Ｄに対する加工値Ｃの変化率が減少する。したがって、差分値Ｄが大きい単位区間に着目すると、音声信号Ｓ0に対する出力信号ＳOUTの特徴量Ｆの変化量（出力信号ＳOUTにおける特徴量Ｆの変動幅）は、関数Ｆ1を利用した場合と比較して減少する。すなわち、関数Ｆ1を利用した場合と比較して韻律の変化（強調または抑制）の度合を低減することが可能である。

以上のように本形態においては、複数種の関数Ｆ（Ｆ1〜Ｆ3）が選択的に加工値Ｃの算定に使用されるから、韻律の変化を適宜に調整することが可能である。特に本形態においては、加工値Ｃの算定に使用される関数Ｆを利用者が指定できるから、出力信号ＳOUTを利用者の所望の韻律に調整できるという利点がある。

＜Ｃ：第３実施形態＞
図８は、本発明の第３実施形態に係る電気機器（例えば冷蔵庫や炊飯器などの家電機器）のブロック図である。図８に示すように、電気機器は、音声処理装置１０１を具備する。音声処理装置１０１は、制御値Ｕを生成して韻律制御部２０に指示する制御部４０を第１実施形態と同様の音声処理装置１００に追加した構成である。図８に示すように、制御部４０は、現在の時刻ｔを計測する計時部４２を含む。

記憶装置１２には、電気機器の使用に関連する音声（以下「案内音声」という）の音声信号Ｓ0が記憶される。案内音声は、例えば、電気機器の使用の方法を利用者に提示する音声や、電気機器の動作の状況や警告を利用者に報知する音声である。韻律制御部２０や音声加工部３０は、音声信号Ｓ0の韻律を変化させた出力信号ＳOUTを第１実施形態と同様の方法で生成する。

制御部４０は、計時部４２が計測する現在の時刻ｔに応じて制御値Ｕを可変に制御する。例えば、時刻ｔが朝の時間帯に属する場合、制御部４０は、韻律の強調を指示する制御値Ｕを生成して韻律制御部２０に指示する。一方、時刻ｔが夜の時間帯に属する場合、制御部４０は、韻律の抑制を指示する制御値Ｕを生成して韻律制御部２０に指示する。したがって、朝の時間帯には韻律を強調した案内音声が再生され、夜の時間帯には韻律を抑制した案内音声が再生される。すなわち、電気機器を使用する時間帯の再生音として適切な韻律の案内音声を生成することが可能である。また、韻律が相違する複数の案内音声の音声信号Ｓ0を記憶装置１２に格納する必要がないから、記憶装置１２の容量が削減されるという利点もある。

＜Ｄ：変形例＞
以上に例示した各形態には様々な変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から２以上の態様を任意に選択して組合せてもよい。

（１）変形例１
以上の形態においては、変数特定部２８が関数Ｆ（Ｆ1〜Ｆ3）の演算を実行することで加工値Ｃ（ＣV，ＣP）を算定したが、差分値Ｄから加工値Ｃを特定する方法は任意である。例えば、差分値Ｄの各数値と加工値Ｃの各数値とを対応させたデータテーブルを事前に作成および保持し、差分算定部２６が算定した差分値Ｄに対応する加工値Ｃを変数特定部２８がデータテーブルから取得して音声加工部３０に指示するという構成も採用される。

（２）変形例２
以上の各形態においては複数の特徴量Ｆの平均値を基準値Ｒとして利用したが、基準値Ｒの算定の方法は任意である。例えば、特徴抽出部２２が抽出した複数の特徴量Ｆの一部から基準値Ｒを算定する構成や、特徴抽出部２２が抽出した複数の特徴量Ｆの最大値や最小値を基準値Ｒとして使用した構成が採用される。さらに、音声信号Ｓ0とは無関係に基準値Ｒを設定した構成も好適である。

また、以上の各形態においては音声信号Ｓ0の総ての単位区間における加工値Ｃの算定に共通の基準値Ｒを適用したが、加工値Ｃの算定に使用する基準値Ｒを音声信号Ｓ0の区間毎に変更する構成も好適である。例えば、音声信号Ｓ0を複数の音声区間（音声が存在する区間）と複数の非音声区間（音声が存在しない区間や雑音のみが存在する区間）とに区分し、音声区間内の各単位区間の特徴量Ｆに応じた基準値Ｒを、基準設定部２４が複数の音声区間の各々について個別に算定する。差分算定部２６は、音声区間毎に算定された基準値Ｒを、当該音声区間の各単位区間における差分値Ｄの算定に適用する。以上の構成においては、音響的な特性が音声信号Ｓ0の途中で変化した場合であっても、音声信号Ｓ0の韻律を適切に制御できるという利点がある。

（３）変形例３
第３実施形態においては現在の時刻ｔに応じた制御値Ｕを制御部４０が生成したが、制御部４０による制御値Ｕの生成の基準は時刻ｔに限定されない。例えば、複数の利用者の各々について個別に制御値Ｕを登録しておき、複数の制御値Ｕのうち実際の利用者に対応する制御値Ｕを制御部４０が選択して韻律制御部２０に指示する構成も好適である。

（４）変形例４
韻律の制御に使用される特徴量Ｆは音量ＦVや音高ＦPに限定されない。例えば、音声信号Ｓ0の周波数スペクトル（パワースペクトル）のうち強度が最大となるピークの頂点からみて高域側の部分を近似する直線の傾きを、特徴抽出部２２が特徴量Ｆとして抽出するとともに音声加工部３０が変化させる構成においても、音声信号Ｓ0の韻律を変化させた出力信号ＳOUTが生成される。また、音量ＦVおよび音高ＦPの一方のみが特徴量Ｆとして抽出される構成も好適である。以上の説明から理解されるように、音声の韻律に関連する（韻律を特徴づける）数値が特徴量Ｆとして好適である。

（５）変形例５
以上の各形態においては音声信号Ｓ0の韻律を強調または抑制する場合を例示したが、韻律の強調および抑制の一方のみを実行する場合にも以上の各形態は同様に適用される。例えば音声処理装置１００が韻律の強調に専用される場合、変数特定部２８は、関数値ｆの絶対値が差分値Ｄの絶対値を上回るように差分値Ｄと関数値ｆとの関係を定義する関数Ｆ（Ｆ1A，Ｆ2A，Ｆ3A）を加工値Ｃの算定に使用する。

（６）変形例６
音声信号Ｓ0の供給元は記憶装置１２に限定されない。例えば、周囲の音響を収音して音声信号Ｓ0を生成する収音装置（マイクロホン）や、可搬型の記録媒体に格納された音声信号Ｓ0を再生する再生装置も、音声信号Ｓ0の供給元として好適である。また、公知の音声合成技術で合成した音声信号Ｓ0から出力信号ＳOUTを生成する構成も採用される。

（７）変形例７
音声加工部３０が生成した出力信号ＳOUTの出力先は放音装置１６に限定されない。例えば、出力信号ＳOUTが記憶装置１２に保持される構成や、出力信号ＳOUTが通信網を介して他の装置に送信される構成も採用される。

本発明の第１実施形態に係る音声処理装置のブロック図である。韻律制御部および音声加工部の具体的な構成のブロック図である。差分値と加工値との関係を示す概念図である。音声信号の韻律が変化する様子を図示した概念図である。音声信号の音量や音高画変化する様子を図示した概念図である。第２実施形態における差分値と加工値との関係を示す概念図である。第２実施形態における差分値と加工値との関係を示す概念図である。第３実施形態に係る電気機器のブロック図である。

符号の説明

１００，１０１……音声処理装置、１０……演算処理装置、１２……記憶装置、１４……入力装置、１６……放音装置、２０……韻律制御部、２２……特徴抽出部、２４……基準設定部、２６……差分算定部、２８……変数特定部、３０……音声加工部、３２……音量変換部、３４……音高変換部。

Claims

音声の韻律に関連する特徴量を音声信号から順次に抽出する特徴抽出手段と、
基準値と前記各特徴量との差分値を算定する差分算定手段と、
前記各差分値に応じた加工値を特定する変数特定手段と、
前記音声信号の各特徴量を前記各加工値に応じて制御することで、前記音声信号の韻律を変化させた出力信号を生成する音声加工手段と、
計時部が計測する現在時刻に応じて制御値を可変に制御する制御手段とを具備し、
前記変数特定手段は、前記差分値と前記加工値との関係を前記制御値に応じて可変に制御する
音声処理装置。
音声の韻律に関連する特徴量を音声信号から順次に抽出する特徴抽出手段と、
基準値と前記各特徴量との差分値を算定する差分算定手段と、
前記各差分値に応じた加工値を特定する変数特定手段と、
前記音声信号の各特徴量を前記各加工値に応じて制御することで、前記音声信号の韻律を変化させた出力信号を生成する音声加工手段と、
前記特徴抽出手段が抽出した前記複数の特徴量に応じて前記基準値を設定する基準設定手段とを具備し、
前記基準設定手段は、前記音声信号を音声区間と非音声区間とに区分し、前記音声区間内の複数の単位区間の各々の特徴量に応じた基準値を音声区間毎に個別に設定する
音声処理装置。
音声信号のスペクトルのうち最大強度のピークの頂点からみて高域側の部分を近似する直線の傾きを、音声の韻律に関連する特徴量として前記音声信号から順次に抽出する特徴抽出手段と、
基準値と前記各特徴量との差分値を算定する差分算定手段と、
前記各差分値に応じた加工値を特定する変数特定手段と、
前記音声信号の各特徴量を前記各加工値に応じて制御することで、前記音声信号の韻律を変化させた出力信号を生成する音声加工手段と
を具備する音声処理装置。
音声の韻律に関連する特徴量を音声信号から順次に抽出する特徴抽出処理と、
基準値と前記各特徴量との差分値を算定する差分算定処理と、
前記各差分値に応じた加工値を特定する変数特定処理と、
前記音声信号の各特徴量を前記各加工値に応じて制御することで、前記音声信号の韻律を変化させた出力信号を生成する音声加工処理と、
計時部が計測する現在時刻に応じて制御値を可変に制御する制御処理と
をコンピュータに実行させるプログラムであって、
前記変数特定処理では、前記差分値と前記加工値との関係を前記制御値に応じて可変に制御する
プログラム。
音声の韻律に関連する特徴量を音声信号から順次に抽出する特徴抽出処理と、
基準値と前記各特徴量との差分値を算定する差分算定処理と、
前記各差分値に応じた加工値を特定する変数特定処理と、
前記音声信号の各特徴量を前記各加工値に応じて制御することで、前記音声信号の韻律を変化させた出力信号を生成する音声加工処理と、
前記特徴抽出処理で抽出した前記複数の特徴量に応じて前記基準値を設定する基準設定処理と
をコンピュータに実行させるプログラムであって、
前記基準設定処理では、前記音声信号を音声区間と非音声区間とに区分し、前記音声区間内の複数の単位区間の各々の特徴量に応じた基準値を音声区間毎に個別に設定する
プログラム。
音声信号のスペクトルのうち最大強度のピークの頂点からみて高域側の部分を近似する直線の傾きを、音声の韻律に関連する特徴量として前記音声信号から順次に抽出する特徴抽出処理と、
基準値と前記各特徴量との差分値を算定する差分算定処理と、
前記各差分値に応じた加工値を特定する変数特定処理と、
前記音声信号の各特徴量を前記各加工値に応じて制御することで、前記音声信号の韻律を変化させた出力信号を生成する音声加工処理と
をコンピュータに実行させるプログラム。