JP5282469B2 - 音声処理装置およびプログラム - Google Patents

音声処理装置およびプログラム Download PDF

Info

Publication number
JP5282469B2
JP5282469B2 JP2008191973A JP2008191973A JP5282469B2 JP 5282469 B2 JP5282469 B2 JP 5282469B2 JP 2008191973 A JP2008191973 A JP 2008191973A JP 2008191973 A JP2008191973 A JP 2008191973A JP 5282469 B2 JP5282469 B2 JP 5282469B2
Authority
JP
Japan
Prior art keywords
value
prosody
difference
feature
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008191973A
Other languages
English (en)
Other versions
JP2010032599A (ja
Inventor
靖雄 吉岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2008191973A priority Critical patent/JP5282469B2/ja
Priority to DE602009000948T priority patent/DE602009000948D1/de
Priority to AT09165378T priority patent/ATE503242T1/de
Priority to EP09165378A priority patent/EP2148324B1/en
Priority to US12/460,650 priority patent/US8315855B2/en
Publication of JP2010032599A publication Critical patent/JP2010032599A/ja
Application granted granted Critical
Publication of JP5282469B2 publication Critical patent/JP5282469B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/366Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems with means for modifying or correcting the external signal, e.g. pitch correction, reverberation, changing a singer's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser

Description

本発明は、音声の韻律(例えば強弱や高低などの抑揚)を強調または抑制する技術に関する。
音声の韻律を変化させる技術が従来から提案されている。例えば特許文献1には、音声信号の音量や音高の変動幅を所定の範囲(以下「基準範囲」という)内に低減することで韻律を抑制する技術が開示されている。基準範囲は、平静時の発声音における音量や音高の標準的な変動幅に応じて固定的に設定される。
特開2004−252085号公報
しかし、特許文献1の技術においては、実際に処理される音声信号の特性とは無関係に固定的に設定された基準範囲が音量や音高の抑制に適用されるから、音声信号の特性に応じた適切な韻律の制御が困難であるという問題がある。例えば、処理前の音声信号の音量や音高が基準範囲内にある場合には処理の前後で韻律は変化しない。以上の事情に鑑みて、本発明は、音声信号の特性に応じて韻律を適切に制御することを目的とする。
以上の課題を解決するために、本発明に係る音声処理装置は、音声の韻律に関連する特徴量を音声信号から順次に抽出する特徴抽出手段と、基準値と各特徴量との差分値を算定する差分算定手段と各差分値に応じた加工値を特定する変数特定手段と、音声信号の各特徴量を各加工値に応じて制御することで、音声信号の韻律を変化させた出力信号を生成する音声加工手段とを具備する。以上の構成においては、音声信号の各特徴量と基準値との差分値に応じた加工値を利用して、音声信号の韻律を変化させた出力信号が生成される。したがって、音声信号の音量や音高が固定の基準範囲内に抑制される特許文献1の構成と比較して、音声信号の各特徴量(各特徴量と基準値との差分値)に応じて韻律を適切に制御することが可能である。
本発明の第1態様に係る音声処理装置は、計時部が計測する現在時刻に応じて制御値を可変に制御する制御手段を具備し、変数特定手段は、差分値と加工値との関係を制御値に応じて可変に制御する。本発明の第2態様に係る音声処理装置は、特徴抽出手段が抽出した複数の特徴量に応じて基準値を設定する基準設定手段を具備し、基準設定手段は、音声信号を音声区間と非音声区間とに区分し、音声区間内の複数の単位区間の各々の特徴量に応じた基準値を音声区間毎に個別に設定する。また、本発明の第3態様の音声処理装置において、特徴抽出手段は、音声信号のスペクトルのうち最大強度のピークの頂点からみて高域側の部分を近似する直線の傾きを特徴量として抽出する。
本発明の好適な態様において、変数特定手段は、差分値の絶対値が増加するほど差分値に対する加工値の変化率が増加するように加工値を算定する(例えば図6の関数F2Aや関数F2B)。以上の態様においては、差分値の絶対値が増加するほど加工値の変化率が増加するから、差分値に対して加工値が固定の変化率で変化する(すなわち直線的に変化する)場合と比較して、韻律を充分に変化(強調または抑制)させることが可能である。
また、本発明の他の態様において、変数特定手段は、差分値の絶対値が増加するほど差分値に対する加工値の変化率が減少するように加工値を算定する(例えば図7の関数F3Aや関数F3B)。以上の態様においては、差分値の絶対値が増加するほど加工値の変化率が減少するから、差分値に対して加工値が固定の変化率で変化する(すなわち直線的に変化する)場合と比較して、韻律の変化(強調または抑制)の度合を低減できるという利点がある。
本発明の好適な態様において、変数特定手段は、差分値に対応する関数値から当該差分値を減算した数値を加工値として算定し、音声加工手段は、音声信号の各特徴量を各加工値だけ変化させることで出力信号を生成する。以上の構成によれば、音声信号の特徴量を出力信号に正確に反映させながら、基準値を基準(中心)として出力信号の特徴量を制御できるという利点がある。
本発明の好適な態様において、変数特定手段は、韻律を強調する場合、絶対値が差分値の絶対値を上回るように設定された関数値から加工値を算定し、韻律を抑制する場合、絶対値が差分値の絶対値を下回るように設定された関数値から加工値を算定する。以上の態様によれば、韻律の強調および抑制の双方が実現される。
本発明の好適な態様において、変数特定手段は、差分値と加工値との関係を可変に制御する。以上の構成によれば、差分値と加工値との関係が固定された場合と比較して、韻律を多様に変化させた出力信号を生成できるという利点がある。なお、変数特定手段が差分値と加工値との関係を可変に制御する方法は任意である。例えば、差分値と加工値との関係を定義する別種の関数(例えば関数F1〜F3)を選択的に利用する構成や、差分値と加工値との関係を定義する1種類の関数における係数(例えば図3の関数F1Aや関数F1Bにおける傾き)を変化させる構成が好適に採用される。
なお、差分算定手段が使用する基準値を設定する方法は任意である。例えば、音声信号とは無関係に基準値が所定値に設定される構成も採用される。ただし、出力信号と音声信号との特性の乖離を抑制するという観点からすると、特徴抽出手段が抽出した複数の特徴量に応じて基準値を設定する構成が好適である。例えば、複数の特徴量の最大値や最小値を基準値に設定する構成や、複数の特徴量の平均値を基準値に設定する構成が採用される。出力信号と音声信号との特性(例えば音量感や音高感)の乖離を有効に抑制するという観点からすると、複数の特徴量の平均値を基準値に設定する構成が格別に好適である。
また、以上の各態様に係る音声処理装置は、音声の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音声処理装置のブロック図である。図1に示すように、音声処理装置100は、演算処理装置10と記憶装置12とを含むコンピュータシステムで構成される。記憶装置12は、演算処理装置10が実行するプログラムや演算処理装置10が使用するデータを記憶する。例えば音声信号S0が記憶装置12に格納される。音声信号S0は、音声の時間軸上の波形を表すサンプル系列である。半導体記録媒体や磁気記録媒体などの公知の記録媒体が記憶装置12として任意に採用される。
演算処理装置10は、記憶装置12に格納されたプログラムを実行することで韻律制御部20および音声加工部30として機能する。音声加工部30は、記憶装置12に格納された音声信号S0の韻律を変化(強調または抑制)させることで出力信号SOUTを生成する。韻律とは、音声の音響的な特徴(典型的には音量や音高)に起因して受聴者が知覚する音声の抑揚や調子(発声者の感情)を意味する。韻律が強調された音声は感情的ないし情緒的な印象を受聴者に与え、韻律が抑制された音声は無機的ないし理性的な印象を受聴者に与える。本形態の音声加工部30は、音声信号S0の音量と音高(ピッチ)とを変化させることで出力信号SOUTを生成する。したがって、韻律が異なる複数の音声信号S0を事前に作成しなくても所望の韻律の出力信号SOUTを生成できる(さらには音声信号S0の記憶のために記憶装置12に必要となる容量が削減される)という利点がある。
図1の韻律制御部20は、音声加工部30による韻律の変化を制御するための加工値C(CV,CP)を生成する。加工値Cは、韻律の変化の態様(韻律の変化の方向(強調/抑制)や韻律の変化の度合)を指定する変数である。加工値CVは音量の変化を指定し、加工値CPは音高の変化を指定する。なお、加工値C(CV,CP)の表記と同様に、以下の説明においては、音量(Volume)に関連する要素の符号に添字「V」を付加するとともに音高(Pitch)に関連する要素の符号に添字「P」を付加し、音量と音高とを特別に区別する必要がない場合(音量と音高とで共通する事項を説明する場合)には添字の付加を省略する。
演算処理装置10には入力装置14と放音装置16とが接続される。入力装置14は、音声処理装置100に対する指示のために利用者が操作する操作子で構成される。入力装置14を適宜に操作することで、利用者は、例えば韻律の変化の方向(強調/抑制)と韻律の変化の度合とを表す制御値Uを音声処理装置100に指示する。放音装置16(例えばスピーカやヘッドホン)は、演算処理装置10が生成した出力信号SOUTに応じた音響を放射する。
図2は、韻律制御部20および音声加工部30のブロック図である。図2に示すように、韻律制御部20は、特徴抽出部22と基準設定部24と差分算定部26と変数特定部28とを含んで構成される。特徴抽出部22は、音声信号S0の全区間を時間軸上で区分した複数の単位区間(例えば10ミリ秒の区間)の各々について特徴量F(FV,FP)を順次に抽出する。さらに詳述すると、特徴抽出部22は、音声信号S0の音量FVと音高FPとを単位区間毎に抽出する。音量FVや音高FPの抽出には公知の技術が任意に採用される。なお、音高FPが検出できない場合(例えば音声信号S0の音量がゼロである場合や音声信号S0が調波構造を持たない場合)、音高FPはゼロに設定される。
基準設定部24は、特徴抽出部22が抽出した複数の特徴量F(FV,FP)に応じて基準値R(RV,RP)を可変に設定する。例えば複数の特徴量Fの平均値が基準値Rとして設定される。すなわち、基準設定部24は、音声信号S0の全区間にわたる音量FVの平均値を基準値RVとして算定するとともに、音声信号S0の全区間にわたる音高FPの平均値を基準値RPとして算定する。
差分算定部26は、特徴抽出部22が単位区間毎に特定した各特徴量Fと基準設定部24が特徴量Fから設定した基準値Rとの差分値D(DV,DP)を算定する。さらに詳述すると、差分算定部26は、各単位区間の音量FVから基準値RVを減算することで差分値DV(DV=FV−RV)を算定し、各単位区間の音高FPから基準値RPを減算することで差分値DP(DP=FP−RP)を算定する。したがって、差分値D(DV,DP)は、複数の単位区間の各々について個別に算定される。
変数特定部28は、差分算定部26が算定した各差分値D(DV,DP)に応じた加工値C(CV,CP)を複数の単位区間の各々について算定する。さらに詳述すると、変数特定部28は、差分値DVに応じた加工値CVと差分値DPに応じた加工値CPとを単位区間毎に算定する。
図3は、差分値Dと加工値Cとの関係を説明するためのグラフである。変数特定部28は、関数値fが差分値Dに対して直線的に変化(単調増加)するように設定された関数F1(F1A,F1B)を利用して加工値Cを算定する。図3に示すように、制御値Uが韻律の強調を示す場合には関数F1Aが使用され、制御値Uが韻律の抑制を示す場合には関数F1Bが使用される。
関数F1Aの傾き(差分値Dに対する関数値fの変化率)は、「1」を上回る範囲内で制御値Uに応じて可変に設定される。したがって、関数F1Aにおける関数値f(D)の絶対値は差分値Dの絶対値を上回る。一方、関数F1Bの傾きは、「1」を下回る正数の範囲内で制御値Uに応じて可変に設定される。したがって、関数F1Bにおける関数値f(D)の絶対値は差分値Dの絶対値を下回る。
変数特定部28は、関数F1(関数F1Aまたは関数F1B)において差分値Dに対応する関数値f(D)から差分値Dを減算した数値を加工値C(C=f(D)−D)として算定する。したがって、加工値Cは差分値Dに応じて変化(比例)する。すなわち、差分値Dの絶対値が大きいほど加工値Cの絶対値は増加する。さらに、差分値Dが正数である場合、韻律の強調時(関数F1A)の加工値Cは正数に設定されるとともに韻律の抑制時(関数F1B)の加工値Cは負数に設定され、差分値Dが負数である場合、韻律の強調時(関数F1A)の加工値Cは負数に設定されるとともに韻律の抑制時(関数F1B)の加工値Cは正数に設定される。
図2の音声加工部30は、変数特定部28が各単位区間について特定した加工値Cに応じて音声信号S0の当該単位区間における特徴量Fを増減することで出力信号SOUTを生成する。図2に示すように、本形態の音声加工部30は、音量変換部32と音高変換部34とを含んで構成される。
音量変換部32は、音声信号S0の各単位区間の音量FVを当該単位区間の加工値CVに応じて変化させる。すなわち、音量変換部32は、音声信号S0の各単位区間の音量FVを、当該音量FVと加工値CVとの加算値に変化させる。同様に、音高変換部34は、音声信号S0の各単位区間の音高FPを当該単位区間の加工値CPに応じて変化させる。すなわち、音量変換部32は、音声信号S0の各単位区間の音高FPを、当該音高FPと加工値CPとの加算値に変化させる。音量変換部32による音量FVの変換と音高変換部34による音高FPの変換とで音声信号S0から出力信号SOUTが生成される。
音声信号S0の各単位区間の特徴量Fは、基準値Rと差分値Dとの加算値に相当するから(F=R+D)、以下の数式(1)に示すように、音声信号S0の特徴量Fと加工値CVとの加算値(すなわち出力信号SOUTの特徴量)は、基準値Rと関数値f(D)との加算値となる。
F+C=(R+D)+(f(D)−D)
=R+f(D) ……(1)
図4は、特徴量F(音量FVや音高FP)の時間的な変動を音声信号S0と出力信号SOUTとについて図示した模式図であり、図5は、韻律を強調した出力信号SOUTの音量FVおよび音高FPの時間的な変動を音声信号S0の波形(最上段)とともに図示した模式図である。図5においては、音声信号S0の音量FVと音高FPとが破線で出力信号SOUTの音量FVおよび音高FPに併記されている。
図3を参照して説明したように、韻律の強調が指示された場合、差分値Dが正数であるとき(すなわち音声信号S0の特徴量Fが基準値Rを上回るとき)には加工値Cは正数に設定され、差分値Dが負数であるときには加工値Cは負数に設定される。したがって、図4および図5に示すように、出力信号SOUTの特徴量Fの変動幅は音声信号S0と比較して拡大される(出力信号SOUTの特徴量Fの絶対値は音声信号S0を上回る)。すなわち、出力信号SOUTの再生音は音声信号S0の韻律(音量や音高の変動)を強調した音声となる。そして、図3に示したように差分値Dの絶対値が増加するほど加工値Cの絶対値は増加するから、音声信号S0の特徴量Fが基準値Rから離れるほど、音声信号S0と出力信号SOUTとにおける特徴量Fの相違は拡大する。
一方、韻律の抑制が指示された場合、差分値Dが正数であるときには加工値Cは負数に設定され、差分値Dが負数であるときに加工値Cは正数に設定される。したがって、図4に示すように、出力信号SOUTの特徴量Fの変動幅は音声信号S0と比較して縮小される。すなわち、出力信号SOUTの再生音は音声信号S0の韻律を抑制した音声となる。韻律の強調の場合と同様、音声信号S0の特徴量Fが基準値Rから離れるほど、音声信号S0と出力信号SOUTとにおける特徴量Fの相違は拡大する。
以上に説明したように、本形態においては音声信号S0の特徴量Fに応じて韻律の抑制の度合が可変に制御されるから、音声信号S0の音量や音高を固定の基準範囲内に抑制するだけの技術(特許文献1)と比較すると、音声信号S0の特性に応じて適切に韻律を制御することができる。例えば、音声信号S0の音量が小さい場合であっても韻律を確実かつ精緻に制御することが可能である。また、差分値Dから加算値Cを算定するための関数F1(F1A,F1B)の変化率(傾き)が可変に制御されるから、出力信号SOUTにおける韻律の変化の程度を適宜に調整できるという利点もある。
ところで、基準範囲を音声信号とは無関係に設定した特許文献1の構成では、例えば音声信号の音量や音高が基準範囲の中央値から乖離している場合に、韻律の抑制の前後で音声の特性が顕著に変化するという問題がある。本形態においては、音声信号S0の特徴量Fを、関数F1の関数値f(D)から差分値Dを減算した加工値Cだけ変化させることで出力信号SOUTが生成される。したがって、数式(1)や図4から理解されるように、基準値Rを基準(中心)として特徴量Fの変動(すなわち韻律)を強調または抑制した出力信号SOUTが生成されるという利点がある。しかも、本形態においては複数の特徴量Fの平均値が基準値Rに設定されるから、特徴量Fの平均値は音声信号S0と出力信号SOUTとで略合致する。したがって、音声信号S0と出力信号SOUTとの特性の乖離を低減するという効果は格別に顕著である。
<B:第2実施形態>
次に、本発明の第2実施形態について説明する。なお、以下の各形態において作用や機能が第1実施形態と同様である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
本形態の変数特定部28は3種類の関数F(F1〜F3)を保持する。変数特定部28は、3種類の関数F(F1〜F3)の何れかを選択的に加工値Cの算定に使用する。変数特定部28が選択する関数F(F1〜F3)は、入力装置14に対する操作で利用者が指定する。関数F2や関数F3を利用して差分値Dから加工値Cを算定する方法は、関数F1から加工値Cを算定する第1実施形態の方法と同様である。
図6は、関数F2(F2A,F2B)を示すグラフであり、図7は、関数F3(F3A,F3B)を示すグラフである。第1実施形態にて関数F1について説明したように、韻律を強調する場合には、関数値f(D)の絶対値が差分値Dの絶対値を上回る関数(F1A,F2A,F3A)が加工値Cの算定に使用され、韻律を抑制する場合には、関数値f(D)の絶対値が差分値Dの絶対値を下回る関数(F1B,F2B,F3B)が加工値Cの算定に使用される。
図6および図7に示すように、関数F2Aおよび関数F3Bは、差分値Dの絶対値が増加するほど当該差分値Dに対応した関数値f(D)の変化率が増加する(したがって、差分値Dに対して関数値f(D)が曲線的に変化する)ように差分値Dと関数値f(D)との関係を規定する。一方、関数F2Bおよび関数F3Aは、差分値Dの絶対値が増加するほど関数値f(D)の変化率が減少するように差分値Dと関数値f(D)との関係を規定する。
以上の説明から理解されるように、図6の関数F2(F2A,F2B)が選択された場合には、差分値Dの絶対値が増加するほど差分値Dに対する加工値Cの変化率が増加する(すなわち、差分値Dの絶対値の変化に対して加工値Cの絶対値が指数的に増加する)。したがって、音声信号S0に対する出力信号SOUTの特徴量Fの変化量(出力信号SOUTにおける特徴量Fの変動幅)は、関数F1を利用した場合と比較して増大する。すなわち、関数F1を利用した場合と比較して韻律の変化(強調または抑制)の度合を拡大することが可能である。
一方、図7の関数F3(F3A,F3B)が選択された場合には、差分値Dの絶対値が増加するほど差分値Dに対する加工値Cの変化率が減少する。したがって、差分値Dが大きい単位区間に着目すると、音声信号S0に対する出力信号SOUTの特徴量Fの変化量(出力信号SOUTにおける特徴量Fの変動幅)は、関数F1を利用した場合と比較して減少する。すなわち、関数F1を利用した場合と比較して韻律の変化(強調または抑制)の度合を低減することが可能である。
以上のように本形態においては、複数種の関数F(F1〜F3)が選択的に加工値Cの算定に使用されるから、韻律の変化を適宜に調整することが可能である。特に本形態においては、加工値Cの算定に使用される関数Fを利用者が指定できるから、出力信号SOUTを利用者の所望の韻律に調整できるという利点がある。
<C:第3実施形態>
図8は、本発明の第3実施形態に係る電気機器(例えば冷蔵庫や炊飯器などの家電機器)のブロック図である。図8に示すように、電気機器は、音声処理装置101を具備する。音声処理装置101は、制御値Uを生成して韻律制御部20に指示する制御部40を第1実施形態と同様の音声処理装置100に追加した構成である。図8に示すように、制御部40は、現在の時刻tを計測する計時部42を含む。
記憶装置12には、電気機器の使用に関連する音声(以下「案内音声」という)の音声信号S0が記憶される。案内音声は、例えば、電気機器の使用の方法を利用者に提示する音声や、電気機器の動作の状況や警告を利用者に報知する音声である。韻律制御部20や音声加工部30は、音声信号S0の韻律を変化させた出力信号SOUTを第1実施形態と同様の方法で生成する。
制御部40は、計時部42が計測する現在の時刻tに応じて制御値Uを可変に制御する。例えば、時刻tが朝の時間帯に属する場合、制御部40は、韻律の強調を指示する制御値Uを生成して韻律制御部20に指示する。一方、時刻tが夜の時間帯に属する場合、制御部40は、韻律の抑制を指示する制御値Uを生成して韻律制御部20に指示する。したがって、朝の時間帯には韻律を強調した案内音声が再生され、夜の時間帯には韻律を抑制した案内音声が再生される。すなわち、電気機器を使用する時間帯の再生音として適切な韻律の案内音声を生成することが可能である。また、韻律が相違する複数の案内音声の音声信号S0を記憶装置12に格納する必要がないから、記憶装置12の容量が削減されるという利点もある。
<D:変形例>
以上に例示した各形態には様々な変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合せてもよい。
(1)変形例1
以上の形態においては、変数特定部28が関数F(F1〜F3)の演算を実行することで加工値C(CV,CP)を算定したが、差分値Dから加工値Cを特定する方法は任意である。例えば、差分値Dの各数値と加工値Cの各数値とを対応させたデータテーブルを事前に作成および保持し、差分算定部26が算定した差分値Dに対応する加工値Cを変数特定部28がデータテーブルから取得して音声加工部30に指示するという構成も採用される。
(2)変形例2
以上の各形態においては複数の特徴量Fの平均値を基準値Rとして利用したが、基準値Rの算定の方法は任意である。例えば、特徴抽出部22が抽出した複数の特徴量Fの一部から基準値Rを算定する構成や、特徴抽出部22が抽出した複数の特徴量Fの最大値や最小値を基準値Rとして使用した構成が採用される。さらに、音声信号S0とは無関係に基準値Rを設定した構成も好適である。
また、以上の各形態においては音声信号S0の総ての単位区間における加工値Cの算定に共通の基準値Rを適用したが、加工値Cの算定に使用する基準値Rを音声信号S0の区間毎に変更する構成も好適である。例えば、音声信号S0を複数の音声区間(音声が存在する区間)と複数の非音声区間(音声が存在しない区間や雑音のみが存在する区間)とに区分し、音声区間内の各単位区間の特徴量Fに応じた基準値Rを、基準設定部24が複数の音声区間の各々について個別に算定する。差分算定部26は、音声区間毎に算定された基準値Rを、当該音声区間の各単位区間における差分値Dの算定に適用する。以上の構成においては、音響的な特性が音声信号S0の途中で変化した場合であっても、音声信号S0の韻律を適切に制御できるという利点がある。
(3)変形例3
第3実施形態においては現在の時刻tに応じた制御値Uを制御部40が生成したが、制御部40による制御値Uの生成の基準は時刻tに限定されない。例えば、複数の利用者の各々について個別に制御値Uを登録しておき、複数の制御値Uのうち実際の利用者に対応する制御値Uを制御部40が選択して韻律制御部20に指示する構成も好適である。
(4)変形例4
韻律の制御に使用される特徴量Fは音量FVや音高FPに限定されない。例えば、音声信号S0の周波数スペクトル(パワースペクトル)のうち強度が最大となるピークの頂点からみて高域側の部分を近似する直線の傾きを、特徴抽出部22が特徴量Fとして抽出するとともに音声加工部30が変化させる構成においても、音声信号S0の韻律を変化させた出力信号SOUTが生成される。また、音量FVおよび音高FPの一方のみが特徴量Fとして抽出される構成も好適である。以上の説明から理解されるように、音声の韻律に関連する(韻律を特徴づける)数値が特徴量Fとして好適である。
(5)変形例5
以上の各形態においては音声信号S0の韻律を強調または抑制する場合を例示したが、韻律の強調および抑制の一方のみを実行する場合にも以上の各形態は同様に適用される。例えば音声処理装置100が韻律の強調に専用される場合、変数特定部28は、関数値fの絶対値が差分値Dの絶対値を上回るように差分値Dと関数値fとの関係を定義する関数F(F1A,F2A,F3A)を加工値Cの算定に使用する。
(6)変形例6
音声信号S0の供給元は記憶装置12に限定されない。例えば、周囲の音響を収音して音声信号S0を生成する収音装置(マイクロホン)や、可搬型の記録媒体に格納された音声信号S0を再生する再生装置も、音声信号S0の供給元として好適である。また、公知の音声合成技術で合成した音声信号S0から出力信号SOUTを生成する構成も採用される。
(7)変形例7
音声加工部30が生成した出力信号SOUTの出力先は放音装置16に限定されない。例えば、出力信号SOUTが記憶装置12に保持される構成や、出力信号SOUTが通信網を介して他の装置に送信される構成も採用される。
本発明の第1実施形態に係る音声処理装置のブロック図である。 韻律制御部および音声加工部の具体的な構成のブロック図である。 差分値と加工値との関係を示す概念図である。 音声信号の韻律が変化する様子を図示した概念図である。 音声信号の音量や音高画変化する様子を図示した概念図である。 第2実施形態における差分値と加工値との関係を示す概念図である。 第2実施形態における差分値と加工値との関係を示す概念図である。 第3実施形態に係る電気機器のブロック図である。
符号の説明
100,101……音声処理装置、10……演算処理装置、12……記憶装置、14……入力装置、16……放音装置、20……韻律制御部、22……特徴抽出部、24……基準設定部、26……差分算定部、28……変数特定部、30……音声加工部、32……音量変換部、34……音高変換部。

Claims (6)

  1. 音声の韻律に関連する特徴量を音声信号から順次に抽出する特徴抽出手段と、
    基準値と前記各特徴量との差分値を算定する差分算定手段と、
    前記各差分値に応じた加工値を特定する変数特定手段と、
    前記音声信号の各特徴量を前記各加工値に応じて制御することで、前記音声信号の韻律を変化させた出力信号を生成する音声加工手段と
    計時部が計測する現在時刻に応じて制御値を可変に制御する制御手段とを具備し、
    前記変数特定手段は、前記差分値と前記加工値との関係を前記制御値に応じて可変に制御する
    音声処理装置。
  2. 音声の韻律に関連する特徴量を音声信号から順次に抽出する特徴抽出手段と、
    基準値と前記各特徴量との差分値を算定する差分算定手段と、
    前記各差分値に応じた加工値を特定する変数特定手段と、
    前記音声信号の各特徴量を前記各加工値に応じて制御することで、前記音声信号の韻律を変化させた出力信号を生成する音声加工手段と
    前記特徴抽出手段が抽出した前記複数の特徴量に応じて前記基準値を設定する基準設定手段とを具備し、
    前記基準設定手段は、前記音声信号を音声区間と非音声区間とに区分し、前記音声区間内の複数の単位区間の各々の特徴量に応じた基準値を音声区間毎に個別に設定する
    音声処理装置。
  3. 音声信号のスペクトルのうち最大強度のピークの頂点からみて高域側の部分を近似する直線の傾きを、音声の韻律に関連する特徴量として前記音声信号から順次に抽出する特徴抽出手段と、
    基準値と前記各特徴量との差分値を算定する差分算定手段と、
    前記各差分値に応じた加工値を特定する変数特定手段と、
    前記音声信号の各特徴量を前記各加工値に応じて制御することで、前記音声信号の韻律を変化させた出力信号を生成する音声加工手段と
    を具備する音声処理装置。
  4. 音声の韻律に関連する特徴量を音声信号から順次に抽出する特徴抽出処理と、
    基準値と前記各特徴量との差分値を算定する差分算定処理と、
    前記各差分値に応じた加工値を特定する変数特定処理と、
    前記音声信号の各特徴量を前記各加工値に応じて制御することで、前記音声信号の韻律を変化させた出力信号を生成する音声加工処理と
    計時部が計測する現在時刻に応じて制御値を可変に制御する制御処理と
    をコンピュータに実行させるプログラムであって、
    前記変数特定処理では、前記差分値と前記加工値との関係を前記制御値に応じて可変に制御する
    プログラム
  5. 音声の韻律に関連する特徴量を音声信号から順次に抽出する特徴抽出処理と、
    基準値と前記各特徴量との差分値を算定する差分算定処理と、
    前記各差分値に応じた加工値を特定する変数特定処理と、
    前記音声信号の各特徴量を前記各加工値に応じて制御することで、前記音声信号の韻律を変化させた出力信号を生成する音声加工処理と
    前記特徴抽出処理で抽出した前記複数の特徴量に応じて前記基準値を設定する基準設定処理
    をコンピュータに実行させるプログラムであって、
    前記基準設定処理では、前記音声信号を音声区間と非音声区間とに区分し、前記音声区間内の複数の単位区間の各々の特徴量に応じた基準値を音声区間毎に個別に設定する
    プログラム
  6. 音声信号のスペクトルのうち最大強度のピークの頂点からみて高域側の部分を近似する直線の傾きを、音声の韻律に関連する特徴量として前記音声信号から順次に抽出する特徴抽出処理と、
    基準値と前記各特徴量との差分値を算定する差分算定処理と、
    前記各差分値に応じた加工値を特定する変数特定処理と、
    前記音声信号の各特徴量を前記各加工値に応じて制御することで、前記音声信号の韻律を変化させた出力信号を生成する音声加工処理と
    をコンピュータに実行させるプログラム。
JP2008191973A 2008-07-25 2008-07-25 音声処理装置およびプログラム Expired - Fee Related JP5282469B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2008191973A JP5282469B2 (ja) 2008-07-25 2008-07-25 音声処理装置およびプログラム
DE602009000948T DE602009000948D1 (de) 2008-07-25 2009-07-14 Vorrichtung und Verfahren zur Sprachverarbeitung
AT09165378T ATE503242T1 (de) 2008-07-25 2009-07-14 Vorrichtung und verfahren zur sprachverarbeitung
EP09165378A EP2148324B1 (en) 2008-07-25 2009-07-14 Voice processing apparatus and method
US12/460,650 US8315855B2 (en) 2008-07-25 2009-07-22 Voice processing apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008191973A JP5282469B2 (ja) 2008-07-25 2008-07-25 音声処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2010032599A JP2010032599A (ja) 2010-02-12
JP5282469B2 true JP5282469B2 (ja) 2013-09-04

Family

ID=41203631

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008191973A Expired - Fee Related JP5282469B2 (ja) 2008-07-25 2008-07-25 音声処理装置およびプログラム

Country Status (5)

Country Link
US (1) US8315855B2 (ja)
EP (1) EP2148324B1 (ja)
JP (1) JP5282469B2 (ja)
AT (1) ATE503242T1 (ja)
DE (1) DE602009000948D1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5677137B2 (ja) * 2011-03-01 2015-02-25 日本放送協会 韻律変換装置およびプログラム
US20160171987A1 (en) * 2014-12-16 2016-06-16 Psyx Research, Inc. System and method for compressed audio enhancement
JP2018159759A (ja) * 2017-03-22 2018-10-11 株式会社東芝 音声処理装置、音声処理方法およびプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE9601811L (sv) * 1996-05-13 1997-11-03 Telia Ab Metod och system för tal-till-tal-omvandling med extrahering av prosodiinformation
JP3575919B2 (ja) * 1996-06-24 2004-10-13 沖電気工業株式会社 テキスト音声変換装置
JP4757971B2 (ja) * 1999-10-21 2011-08-24 ヤマハ株式会社 ハーモニー音付加装置
JP4408596B2 (ja) * 2001-08-30 2010-02-03 シャープ株式会社 音声合成装置、声質変換装置、音声合成方法、声質変換方法、音声合成処理プログラム、声質変換処理プログラム、および、プログラム記録媒体
TW556150B (en) * 2002-04-10 2003-10-01 Ind Tech Res Inst Method of speech segment selection for concatenative synthesis based on prosody-aligned distortion distance measure
JP2003337592A (ja) * 2002-05-21 2003-11-28 Toshiba Corp 音声合成方法及び音声合成装置及び音声合成プログラム
US8145491B2 (en) * 2002-07-30 2012-03-27 Nuance Communications, Inc. Techniques for enhancing the performance of concatenative speech synthesis
JP2004252085A (ja) * 2003-02-19 2004-09-09 Fujitsu Ltd 音声変換システム及び音声変換プログラム
JP4025355B2 (ja) * 2004-10-13 2007-12-19 松下電器産業株式会社 音声合成装置及び音声合成方法
US20100004931A1 (en) * 2006-09-15 2010-01-07 Bin Ma Apparatus and method for speech utterance verification
JP2008191973A (ja) 2007-02-06 2008-08-21 Sony Corp データ通信システム、端末装置、通信制御方法
JP5119700B2 (ja) * 2007-03-20 2013-01-16 富士通株式会社 韻律修正装置、韻律修正方法、および、韻律修正プログラム

Also Published As

Publication number Publication date
JP2010032599A (ja) 2010-02-12
ATE503242T1 (de) 2011-04-15
EP2148324B1 (en) 2011-03-23
DE602009000948D1 (de) 2011-05-05
EP2148324A1 (en) 2010-01-27
US20100023321A1 (en) 2010-01-28
US8315855B2 (en) 2012-11-20

Similar Documents

Publication Publication Date Title
JP4747835B2 (ja) オーディオ再生の効果付加方法およびその装置
JP5103974B2 (ja) マスキングサウンド生成装置、マスキングサウンド生成方法およびプログラム
JP2007133035A (ja) デジタル録音装置,デジタル録音方法,そのプログラムおよび記憶媒体
JP2012235310A (ja) 信号処理装置および方法、プログラム、並びにデータ記録媒体
JP2006145867A (ja) 音声処理装置およびプログラム
TWI397901B (zh) 控制音訊信號比響度特性之方法及其相關裝置與電腦程式
WO2015020025A1 (ja) 音高補正装置及び音高補正方法
JP2002215195A (ja) 音楽信号処理装置
CN101904183B (zh) 助听器
JP5282469B2 (ja) 音声処理装置およびプログラム
JP4654621B2 (ja) 音声処理装置およびプログラム
JP2012063614A (ja) マスキング音生成装置
JP4985570B2 (ja) ディジタル音響信号処理方法及び処理装置
JP2019168542A (ja) 情報処理方法および情報処理装置
JP2008072600A (ja) 音響信号処理装置、音響信号処理プログラム、音響信号処理方法
KR101005672B1 (ko) Midi 파일 재생의 최적화
WO2017135350A1 (ja) 記録媒体、音響処理装置および音響処理方法
US20140324418A1 (en) Voice input/output device, method and programme for preventing howling
EP3772224B1 (en) Vibration signal generation apparatus and vibration signal generation program
JP2018072723A (ja) 音響処理方法および音響処理装置
JP6409417B2 (ja) 音響処理装置
JP6337698B2 (ja) 音響処理装置
JP2008224816A (ja) カラオケ装置
KR20110025434A (ko) 노래의 감성 향상 방법 및 장치
JP6565206B2 (ja) 音声処理装置および音声処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110520

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120607

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120619

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130411

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130430

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130513

R150 Certificate of patent or registration of utility model

Ref document number: 5282469

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees