JP2014002338A - 音声処理装置 - Google Patents

音声処理装置 Download PDF

Info

Publication number
JP2014002338A
JP2014002338A JP2012139455A JP2012139455A JP2014002338A JP 2014002338 A JP2014002338 A JP 2014002338A JP 2012139455 A JP2012139455 A JP 2012139455A JP 2012139455 A JP2012139455 A JP 2012139455A JP 2014002338 A JP2014002338 A JP 2014002338A
Authority
JP
Japan
Prior art keywords
voice
voice quality
spectrum
speech
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012139455A
Other languages
English (en)
Other versions
JP5772739B2 (ja
Inventor
Bonada Jordi
ボナダ ジョルディ
Brau Melrain
ブラアウ メルレイン
Yuji Hisaminato
裕司 久湊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2012139455A priority Critical patent/JP5772739B2/ja
Priority to US13/923,203 priority patent/US9286906B2/en
Publication of JP2014002338A publication Critical patent/JP2014002338A/ja
Application granted granted Critical
Publication of JP5772739B2 publication Critical patent/JP5772739B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】声質変換で自然な音声を生成する。
【解決手段】調整処理部34は、目標声質の音声を示す目標音声信号QBの基本周波数PSを、目標声質とは相違する初期声質の音声を示す音声信号VXの基本周波数PVに時間領域で調整する。声質変換部38は、調整処理部34による調整後の目標音声信号QCのスペクトルS[k]を調波成分毎に区分した各調波帯域成分H[i]を音声信号VXの基本周波数PVに対応する各調波周波数fiに配置するとともに各調波帯域成分H[i]の包絡線および位相を音声信号VXのスペクトルX[k]の包絡線および位相に応じて調整したスペクトルY[k]を順次に生成する。
【選択図】図1

Description

本発明は、音声信号を処理する技術に関する。
音声信号が示す音声の声質を変換する技術が従来から提案されている。例えば非特許文献1には、音声信号のスペクトルを調波成分(基音成分または各倍音成分)毎に区分した各帯域成分を周波数領域にて適宜に移動させることで基本周波数(ピッチ)および声質を変換する技術が開示されている。
Jean Laroche, "Frequency-Domain Techniques for High-Quality Voice Modification", Proc. of the 6th Int. Conference on Digital Audio Effects. 2003
しかし、非特許文献1の技術では、音声信号のスペクトルの各帯域成分を周波数領域にて移動させることで基本周波数が変換されるから、各帯域成分内に調波成分と他の音響成分(以下「周辺成分」という)とが存在する場合に、周波数と位相との関係を調波成分および周辺成分の双方について適切に維持した自然な音声を生成することは困難である。調波成分と周辺成分との各々について相異なる方法で個別に位相を調整すれば自然な音声を生成することも可能であるが、例えば濁声や嗄声等の特徴的な音声では周辺成分の時間的な変動が速くて大きいという傾向があるから、周辺成分について調波成分とは個別に位相を適切な数値に調整することは実際には困難である。以上の事情を考慮して、本発明は、声質変換で自然な音声を生成することを目的とする。
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の各要素と後述の各実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
本発明の音声処理装置は、目標声質の音声を示す第1音声信号(例えば目標音声信号QB)の基本周波数(例えば基本周波数PS)を、目標声質とは相違する初期声質の音声を示す第2音声信号(例えば音声信号VX)の基本周波数(例えば基本周波数PV)に時間領域で調整する調整処理手段と、調整処理手段による調整後の第1音声信号のスペクトル(例えばスペクトルS[k])を調波成分毎に区分した各調波帯域成分(例えば調波帯域成分H[i])を第2音声信号の基本周波数に対応する各調波周波数(例えば調波周波数fi)に配置するとともに各調波帯域成分の包絡線および位相を第2音声信号のスペクトルの包絡線および位相に応じて調整したスペクトル(例えばスペクトルY[k])を順次に生成する声質変換手段とを具備する。以上の構成では、声質変換手段による声質変換前に第1音声信号の基本周波数が第2音声信号の基本周波数に時間領域で調整されるから、各調波帯域成分内に調波成分と他の周辺成分とが存在する場合でも、周波数と位相との関係が調波成分および周辺成分の双方について適切に維持され、聴感的に自然な音声を生成できるという利点がある。
本発明の好適な態様において、声質変換手段は、調整処理手段による調整後の第1音声信号のスペクトルの第i番目の調波帯域成分を、調整処理手段による調整前の第1音声信号のスペクトルの第i次の調波成分の近傍の各調波周波数に配置する。以上の構成によれば、第1音声信号の声質を充分に反映した音声を生成できるという利点がある。また、調整処理手段は、例えば、第1音声信号の基本周波数と第2音声信号の基本周波数とに応じた比率で第1音声信号を標本化することで基本周波数を調整する。
本発明の好適な態様に係る音声処理装置は、特定の音素を目標声質で定常的に発声した音声を示す目標音声信号(例えば目標音声信号QA)の各区間を時間軸上で相互に連結することで第1音声信号を生成する継続処理手段を具備する。以上の構成によれば、目標音声信号の各区間の反復で第1音声信号が生成されるから、長時間にわたる第1音声信号を事前に記憶する構成と比較して、目標声質の音声信号の記憶に必要な記憶容量が削減されるという利点がある。
本発明の好適な態様に係る音声処理装置は、第2音声信号のスペクトルと声質変換手段による処理後のスペクトルとを加重加算する混合処理手段を具備する。以上の構成によれば、加重値を適宜に選定することで声質を目標声質に近似させる度合を可変に制御できるという利点がある。
本発明の好適な態様に係る音声処理装置は、利用者から指示された音高および音韻の音声を示す第2音声信号を目標声質の各音声素片を接続することで生成する音声合成手段を具備する。以上の態様では、音声合成手段が生成した第2音声信号の声質が変換されるから、特定の初期声質のみを利用可能な環境でも多様な声質の音声信号を生成できるという利点がある。
前述の各態様に係る音声処理装置は、音声信号の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラム(ソフトウェア)との協働によっても実現される。本発明のプログラムは、目標声質の音声を示す第1音声信号の基本周波数を、目標声質とは相違する初期声質の音声を示す第2音声信号の基本周波数に時間領域で調整する調整処理と、調整処理後の第1音声信号のスペクトルを調波成分毎に区分した各調波帯域成分を第2音声信号の基本周波数に対応する各調波周波数に配置するとともに各調波帯域成分の包絡線および位相を第2音声信号のスペクトルの包絡線および位相に応じて調整したスペクトルを順次に生成する声質変換処理とをコンピュータに実行させる。以上のプログラムによれば、本発明の音声処理装置と同様の作用および効果が実現される。本発明の各態様に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされるほか、通信網を介した配信の形態で提供されてコンピュータにインストールされる。
第1実施形態に係る音声処理装置のブロック図である。 変換処理部のブロック図である。 継続処理部の動作の説明図である。 声質変換部の動作の説明図である。
図1は、本発明の好適な実施形態に係る音声処理装置100のブロック図である。以下に例示する実施形態の音声処理装置100は、任意の音高および音韻で発声された音声の波形を示す時間領域の音声信号VZを生成する信号処理装置(音声合成装置)であり、演算処理装置12と記憶装置14とを具備するコンピュータシステムで実現される。
演算処理装置12は、記憶装置14に記憶されたプログラムPGMを実行することで、音声信号VZを生成するための複数の機能(音声合成部20,解析処理部22,変換処理部24,混合処理部26,波形生成部28)を実現する。記憶装置14は、演算処理装置12が実行するプログラムPGMや演算処理装置12が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体や複数種の記録媒体の組合せが記憶装置14として任意に採用され得る。
記憶装置14は、特定の声質(以下「初期声質」という)の音声から事前に採取された複数種の音声素片DPを記憶する。各音声素片DPは、音声の言語的な最小単位に相当する1個の音素、または、複数の音素を相互に連結した音素連鎖(ダイフォンやトライフォン)であり、周波数領域のスペクトルまたは時間領域の音声波形として表現される。
また、記憶装置14は、初期声質とは相違する特定の声質(以下「目標声質」という)の音声を示す時間領域の目標音声信号QAを記憶する。目標音声信号QAは、例えば特定の音素(典型的には母音)を略一定の音高で定常的に発声した所定長の音声のサンプル系列である。典型的には目標声質と初期声質とは別個の発声者の声質であるが、ひとりの発声者の相異なる声質を目標声質および初期声質とすることも可能である。本実施形態の目標声質は、初期声質と比較して独特(non-modal)な声質である。具体的には、発声時の声帯の挙動が通常の発音とは相違する音声の声質が目標声質として好適である。例えば濁声(ダミ声)や嗄声(ハスキーボイス)や唸り声が目標声質として例示され得る。
音声合成部20は、利用者が任意に指定した音高および音韻を初期声質で発声した音声の波形を示す時間領域の音声信号VXを生成する。本実施形態の音声合成部20は、記憶装置14に記憶された各音声素片DPを利用した素片接続型の音声合成処理で音声信号VXを生成する。すなわち、音声合成部20は、利用者が指定した音韻(発音文字)に対応する音声素片を順次に記憶装置14から選択して時間軸上で相互に連結し、利用者が指定した音高に調整することで音声信号VXを生成する。なお、音声信号VXの生成には公知の技術が任意に採用され得る。
解析処理部22は、音声合成部20が生成した音声信号VXのスペクトル(複素スペクトル)X[k]を時間軸上の単位区間(フレーム)毎に順次に生成するとともに、音声信号VXの基本周波数(ピッチ)PVを単位区間毎に順次に特定する。記号kは、周波数軸上に離散的に設定された複数の周波数(周波数ビン)のうちの任意の1個を意味する。スペクトルX[k]の算定には短時間フーリエ変換等の公知の周波数分析が任意に採用され、基本周波数PVの特定には公知のピッチ検出技術が任意に採用される。なお、音声合成部20による音声合成に適用される音高(利用者が時系列に指定する音高)から各単位区間の基本周波数PVを特定することも可能である。
変換処理部24は、音声合成部20が生成した音声信号VXの音高および音韻を維持したまま声質を初期声質から目標声質に変換する。すなわち、変換処理部24は、音声信号VXの音高および音韻(音色)を目標声質で発声した音声の音声信号VYのスペクトル(複素スペクトル)Y[k]を単位区間毎に順次に生成する。変換処理部24が実行する具体的な処理の内容は後述する。
混合処理部26は、音声合成部20が生成した音声信号VX(スペクトルX[k])と変換処理部24が生成した音声信号VY(スペクトルY[k])とを混合することで音声信号VZのスペクトルZ[k]を単位区間毎に順次に生成する。具体的には、混合処理部26は、以下の数式(1)で表現されるように、初期声質のスペクトルX[k]と目標声質のスペクトルY[k]とを加重加算することでスペクトルZ[k]を算定する。
Figure 2014002338
数式(1)の加重値wは0以上かつ1以下の範囲内で設定される。数式(1)から理解されるように、音声信号VZの声質を目標声質に近似させる度合は加重値wに応じて調整される。具体的には、加重値wが大きいほど音声信号VZの声質が目標声質に近付く。加重値wは、例えば利用者からの指示に応じて経時的に変動する。したがって、目標声質が音声信号VZの音声に反映される度合は刻々と変動する。
波形生成部28は、混合処理部26が単位区間毎に生成するスペクトルZ[k]から時間領域の音声信号VZを生成する。具体的には、波形生成部28は、各単位区間のスペクトルZ[k]を短時間逆フーリエ変換で時間波形に変換し、相前後する時間波形を相互に重複させた状態で加算することで音声信号VZを生成する。波形生成部28が生成した音声信号VZは、例えば放音装置(図示略)に供給されて音波として放射される。
変換処理部24の具体的な構成および動作を説明する。図2は、変換処理部24のブロック図である。図2に示すように、変換処理部24は、継続処理部32と調整処理部34と解析処理部36と声質変換部38とを含んで構成される。
継続処理部32は、記憶装置14に記憶された目標声質の目標音声信号QAから適宜に選択された各区間を時間軸上で相互に連結することで、目標音声信号QAを上回る時間長にわたる目標声質の目標音声信号QBを生成する。具体的には、継続処理部32は、図3に示すように、目標音声信号QAの始点と終点との間のランダムな位置に転回点pを順次に設定し、相前後する転回点pの間の区間の各サンプルを順方向(時間が経過する方向)または逆方向(時間が遡及する方向)に配列順に抽出すること(ランダムループ)で目標音声信号QBを生成する。以上のように所定長の目標音声信号QAを時間的に反復(ループ)することで目標音声信号QBが生成されるから、長時間にわたる目標音声信号QBを記憶装置14に保持する構成と比較して必要な記憶容量が削減されるという利点がある。
図2の調整処理部34は、継続処理部32が生成した目標音声信号QBを音声信号VXの基本周波数PVに調整(ピッチ変換)することで時間領域の目標音声信号QCを生成する。具体的には、調整処理部34は、目標音声信号QBを時間領域で標本化(リサンプリング)することで、基本周波数PVを目標声質で発声した音声の目標音声信号QCを生成する。目標音声信号QCの音素は目標音声信号QBと同様である。調整処理部34による標本化の比率(サンプリングレート)Rは、解析処理部22が特定した音声信号VXの基本周波数PVと目標音声信号QBから特定される基本周波数PSとの相対比に設定される(R=PV/PS)。すなわち、基本周波数PVが基本周波数PSを上回る場合(R>1)には目標音声信号QBが収録時と比較して短い周期で標本化されて基本周波数が上昇し、基本周波数PVが基本周波数PSを下回る場合(R<1)には目標音声信号QBが収録時と比較して長い周期で標本化されて基本周波数が低下する。なお、基本周波数PSの特定には公知のピッチ検出技術が任意に採用される。また、基本周波数PSを目標音声信号QAとともに記憶装置14に事前に記憶して比率Rの算定に適用することも可能である。
図2の解析処理部36は、調整処理部34による調整後の目標音声信号QCのスペクトル(複素スペクトル)S[k]を時間軸上の単位区間毎に順次に生成する。スペクトルS[k]の算定には短時間逆フーリエ変換等の公知の周波数分析が任意に採用される。
声質変換部38は、解析処理部22が音声信号VXから単位区間毎に算定した初期声質のスペクトルX[k]と解析処理部36が単位区間毎に生成した目標声質のスペクトルS[k]とを利用して、音声信号VXの音高および音韻を目標声質で発声した音声信号VYのスペクトルY[k]を単位区間毎に順次に生成する。具体的には、声質変換部38は、図4に示すように、目標声質のスペクトルS[k]を、相異なる調波成分(基音成分または各倍音成分)に対応する複数の帯域に周波数軸上で区分し、各帯域の音響成分(以下「調波帯域成分」という)H[i]を前述の比率Rに応じて周波数軸上に再配列するとともに調波帯域成分H[i]毎に強度(振幅)および位相を初期声質のスペクトルX[k]に応じて調整することで各単位区間のスペクトルY[k]を生成する。
図4には、調整処理部34による調整前の目標音声信号QBのスペクトルS0[k]が便宜的に図示されている。また、図4の周波数fi(f=1,2,3,……)は、調整処理部34による調整後のスペクトルS[k]の第i次の調波成分に対応する周波数(以下「調波周波数」という)である。図4から理解される通り、目標声質のスペクトルS[k]のうち第i番目の調波帯域成分H[i]は、調整処理部34による調整前(ピッチ変換前)のスペクトルS0[k]における第i次の調波成分(基音成分または倍音成分)の近傍の各調波周波数fiに配置(写像)される。
例えば、音声信号VXの基本周波数PVが目標音声信号QA(QB)の基本周波数PSの半分である場合(R=PV/PS=0.5)、スペクトルS[k]の第1番目の調波帯域成分H[1]は、調整前の基本周波数PSの近傍に位置する調波周波数f1および調波周波数f2の各々に対して反復的に写像され、第2番目の調波帯域成分H[2]は、調整前の基本周波数PSの2倍の周波数(倍音周波数)の近傍に位置する調波周波数f3および調波周波数f4の各々に対して反復的に写像される。すなわち、音声信号VXの基本周波数PVが目標音声信号QAの基本周波数PSを下回る場合(R<1)には、図4の例示のようにスペクトルS[k]の各調波帯域成分H[i]が反復して周波数軸上に配列され、基本周波数PVが基本周波数PSを上回る場合(R>1)には、スペクトルS[k]の複数の調波帯域成分H[i]が適宜に間引かれて周波数軸上に配列される。
具体的には、本実施形態の声質変換部38は、以下の数式(2)の演算で調波周波数fi毎に帯域成分Yi[k]を算定する。記号jは虚数単位を意味する。
Figure 2014002338
数式(2)の記号diは、目標声質のスペクトルS[k]における調波帯域成分H[i]を各調波周波数fiに写像するときの周波数軸上の移動量を意味し、以下の数式(3)で定義される。
Figure 2014002338
数式(3)の記号〈 〉は床関数を意味する。すなわち、関数〈x+0.5〉は、数値xを四捨五入した整数を算定する演算である。数式(3)の記号Lは、解析処理部36が実行する短時間フーリエ変換での単位区間の時間長(窓長)であり、記号FSは、目標音声信号QBの標本化周波数を意味する。
数式(3)の記号miは、目標声質のスペクトルS[k]における各調波帯域成分H[i]と写像後の各調波周波数fiとの対応関係を規定する変数であり、以下の数式(4)で定義される。
Figure 2014002338
数式(2)の記号aiは、調波帯域成分H[i]の強度を初期声質のスペクトルX[k]に応じて調整するための調整値(ゲイン)であり、例えば以下の数式(5)の演算で調波周波数fi毎に算定される。
Figure 2014002338
数式(5)の記号TVは、音声信号VXのスペクトルX[k]の強度(振幅またはパワー)の包絡線を意味し、記号TSは、目標声質のスペクトルS[k]の強度の包絡線を意味する。数式(2)および数式(5)から理解されるように、調波帯域成分H[i]の強度(調波成分に対応するピークの強度)は、音声信号VXのスペクトルX[k]の包絡線TVに沿う数値に調整される。
数式(3)の記号φiは、調波帯域成分H[i]の位相を初期声質のスペクトルX[k]に合致させるための調整値(調波帯域成分H[i]の位相の回転角度)であり、例えば以下の数式(6)の演算で調波周波数fi毎に算定される。
Figure 2014002338
数式(6)の記号∠は偏角を意味する。数式(2)および数式(6)から理解されるように、調波帯域成分H[i]の位相は音声信号VXのスペクトルX[k]の位相に調整される。
声質変換部38は、以上の演算で算定した複数の帯域成分Yi[k](Y1[k],Y2[k],……)を周波数軸上に配列することで音声信号VYのスペクトルY[k]を単位区間毎に生成する。以上の説明から理解されるように、声質変換部38が生成するスペクトルY[k]は、目標声質のスペクトルS[k]に近似する微細構造(すなわち、目標声質の発声時における声帯の挙動を反映した構造)を内包するとともに包絡線および位相が音声信号VXに近似する。すなわち、音声信号VXと同等の音高および音韻(音色)を目標声質で発声した音声のスペクトルY[k]が生成される。
以上に例示した形態では、声質変換部38による声質変換前に目標音声信号QBの基本周波数PSが音声信号VXの基本周波数PVに調整されるから、各調波帯域成分H[i]内に調波成分と他の周辺成分(サブハーモニクス)とが存在する場合、周波数と位相との関係は調波成分および周辺成分の双方について適切に維持される。したがって、各調波帯域成分H[i]内に周辺成分が発生し易く各周辺成分が時間的に変動し易いという傾向がある濁声や嗄声等を目標声質とした場合でも、調波成分と周辺成分との各々について相異なる方法で個別に位相を調整する煩雑な処理を必要とすることなく、聴感的に自然な音声を生成できるという利点がある。第1実施形態では、目標音声信号QBの各調波帯域成分H[i]が調整処理部34による調整前のスペクトルS0[k]における第i次の調波成分の近傍の各調波周波数fiに写像されるから、目標音声信号QBの声質を忠実に反映した音声を生成することが可能である。
<変形例>
以上に例示した形態は多様に変形される。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
(1)前述の各形態では、目標音声信号QA内にランダムに設定された転回点pを端点とする各区間の連結で目標音声信号QBを生成したが、目標音声信号QAを伸長する方法は以上の例示に限定されない。例えば、目標音声信号QAの全区間を反復することで目標音声信号QBを生成することも可能である。具体的には、目標音声信号QAを始点から順方向に辿って終点に到達すると始点に戻る構成や、目標音声信号QAを順方向または逆方向に辿って端点(始点または終点)に到達すると逆方向に転回する構成が採用され得る。なお、充分な時間長の目標音声信号QBが記憶装置14に事前に記憶された構成では継続処理部32は省略され得る。
(2)前述の形態では、初期声質のスペクトルX[k]と目標声質のスペクトルY[k]とを混合した音声信号VZを出力したが、目標声質のスペクトルY[k]から生成される音声信号VYを出力(例えば再生)することも可能である。すなわち、混合処理部26は省略され得る。
(3)前述の形態では、音声合成部20が生成した音声信号VXの声質を変換したが、変換処理部24の処理対象は、音声合成で生成された音声信号VXに限定されない。例えば、各種の信号供給装置から供給される音声信号VXを処理対象とすることも可能である。信号供給装置としては、例えば、周囲の音声を収音して音声信号VXを生成する収音機器、可搬型または内蔵型の記録媒体から音声信号VXを取得する再生装置、または、通信網から音声信号VXを受信する通信装置が例示され得る。以上の説明から理解されるように音声合成部20は省略され得る。
(4)変換処理部24による各処理の順序は適宜に変更され得る。例えば、調整処理部34が目標音声信号QBの基本周波数PSを低下させる場合(周波数領域で各調波成分の分布が密に変換される場合)に着目すると、調整処理部34による処理後に解析処理部36が所定の周波数分解能のもとでスペクトルS[k]を算定する前述の構成では、目標音声信号QBの微細構造がスペクトルS[k]に充分に反映されない(すなわち目標音声信号QBの周波数領域での微細構造が損なわれる)可能性がある。そこで、基本周波数PVが基本周波数PSを上回る場合(R>1)には、前述の各形態と同様に調整処理部34による処理後(基本周波数PSの上昇後)に解析処理部36がスペクトルS[k]を算定する一方、基本周波数PVが基本周波数PSを下回る場合(R<1)には、解析処理部36によるスペクトルS[k]の算定後に調整処理部34による処理(基本周波数PSの低下)を実行する構成が好適である。
(5)相異なる基本周波数PSに対応する複数の目標音声信号QAを選択的に利用する構成も好適である。変換処理部24は、音声信号VXの複数の単位区間にわたる基本周波数PVの平均値Paveを算定し、複数の目標音声信号QAのうち平均値Paveに近似する基本周波数PSの目標音声信号QAを処理対象として選択する。以上の構成では、音声信号VXの基本周波数PVに近い基本周波数PSの目標音声信号QAが選択されるから、例えば1種類の目標音声信号QAを処理する場合と比較して聴感的に自然な音声を生成できるという利点がある。
(6)前述の各形態では、音声素片DPや目標音声信号QAが音声処理装置100内の記憶装置14に記憶された構成を例示したが、音声処理装置100とは別個に設置された外部装置(例えばサーバ装置)に音声素片DPや目標音声信号QAを格納し、音声処理装置100が通信網(例えばインターネット)を介して外部装置から音声素片DPや目標音声信号QBを取得する構成も採用され得る。すなわち、音声素片DPや目標音声信号QAを記憶する要素は音声処理装置100に必須ではない。また、例えば端末装置から通信網を介して受信した音声信号VXから音声処理装置100が音声信号VZを生成して端末装置に返信する構成も好適である。
100……音声処理装置、12……演算処理装置、14……記憶装置、20……音声合成部、22……解析処理部、24……変換処理部、26……混合処理部、28……波形生成部、32……継続処理部、34……調整処理部、36……解析処理部、38……声質変換部。

Claims (5)

  1. 目標声質の音声を示す第1音声信号の基本周波数を、前記目標声質とは相違する初期声質の音声を示す第2音声信号の基本周波数に時間領域で調整する調整処理手段と、
    前記調整処理手段による調整後の第1音声信号のスペクトルを調波成分毎に区分した各調波帯域成分を前記第2音声信号の基本周波数に対応する各調波周波数に配置するとともに各調波帯域成分の包絡線および位相を前記第2音声信号のスペクトルの包絡線および位相に応じて調整したスペクトルを順次に生成する声質変換手段と
    を具備する音声処理装置。
  2. 前記声質変換手段は、前記調整処理手段による調整後の第1音声信号のスペクトルの第i番目の調波帯域成分を、前記調整処理手段による調整前の第1音声信号のスペクトルの第i次の調波成分の近傍の前記各調波周波数に配置する
    請求項1の音声処理装置。
  3. 前記調整処理手段は、前記第1音声信号の基本周波数と前記第2音声信号の基本周波数とに応じた比率で前記第1音声信号を標本化することで基本周波数を調整する
    請求項1または請求項2の音声処理装置。
  4. 特定の音素を前記目標声質で定常的に発声した音声を示す目標音声信号の各区間を時間軸上で相互に連結することで前記第1音声信号を生成する継続処理手段
    を具備する請求項1から請求項3の何れかの音声処理装置。
  5. 前記第2音声信号のスペクトルと前記声質変換手段による処理後のスペクトルとを加重加算する混合処理手段
    を具備する請求項1から請求項4の何れかの音声処理装置。
JP2012139455A 2012-06-21 2012-06-21 音声処理装置 Active JP5772739B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012139455A JP5772739B2 (ja) 2012-06-21 2012-06-21 音声処理装置
US13/923,203 US9286906B2 (en) 2012-06-21 2013-06-20 Voice processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012139455A JP5772739B2 (ja) 2012-06-21 2012-06-21 音声処理装置

Publications (2)

Publication Number Publication Date
JP2014002338A true JP2014002338A (ja) 2014-01-09
JP5772739B2 JP5772739B2 (ja) 2015-09-02

Family

ID=49779002

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012139455A Active JP5772739B2 (ja) 2012-06-21 2012-06-21 音声処理装置

Country Status (2)

Country Link
US (1) US9286906B2 (ja)
JP (1) JP5772739B2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016050995A (ja) * 2014-08-29 2016-04-11 ヤマハ株式会社 音響処理装置
JP2016122157A (ja) * 2014-12-25 2016-07-07 ヤマハ株式会社 音声処理装置
WO2018084305A1 (ja) 2016-11-07 2018-05-11 ヤマハ株式会社 音声合成方法
JP2018077281A (ja) * 2016-11-07 2018-05-17 ヤマハ株式会社 音声合成方法
JP2018077282A (ja) * 2016-11-07 2018-05-17 ヤマハ株式会社 音声合成方法
JP2018077280A (ja) * 2016-11-07 2018-05-17 ヤマハ株式会社 音声合成方法
WO2019138871A1 (ja) 2018-01-11 2019-07-18 ヤマハ株式会社 音声合成方法、音声合成装置およびプログラム
WO2019172397A1 (ja) 2018-03-09 2019-09-12 ヤマハ株式会社 音処理方法、音処理装置および記録媒体
JP2020194139A (ja) * 2019-05-30 2020-12-03 セイコーエプソン株式会社 半導体装置、電子機器及び移動体
US11348596B2 (en) 2018-03-09 2022-05-31 Yamaha Corporation Voice processing method for processing voice signal representing voice, voice processing device for processing voice signal representing voice, and recording medium storing program for processing voice signal representing voice

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6561499B2 (ja) * 2015-03-05 2019-08-21 ヤマハ株式会社 音声合成装置および音声合成方法
CN106887241A (zh) * 2016-10-12 2017-06-23 阿里巴巴集团控股有限公司 一种语音信号检测方法与装置
CN109417504A (zh) * 2017-04-07 2019-03-01 微软技术许可有限责任公司 自动聊天中的语音转发
TWI658458B (zh) * 2018-05-17 2019-05-01 張智星 歌聲分離效能提升之方法、非暫態電腦可讀取媒體及電腦程式產品
US20190362737A1 (en) * 2018-05-25 2019-11-28 i2x GmbH Modifying voice data of a conversation to achieve a desired outcome
CN109065068B (zh) * 2018-08-17 2021-03-30 广州酷狗计算机科技有限公司 音频处理方法、装置及存储介质
CN109192218B (zh) * 2018-09-13 2021-05-07 广州酷狗计算机科技有限公司 音频处理的方法和装置
WO2020171034A1 (ja) 2019-02-20 2020-08-27 ヤマハ株式会社 音信号生成方法、生成モデルの訓練方法、音信号生成システムおよびプログラム
US11094328B2 (en) * 2019-09-27 2021-08-17 Ncr Corporation Conferencing audio manipulation for inclusion and accessibility
CN113241082B (zh) * 2021-04-22 2024-02-20 杭州网易智企科技有限公司 变声方法、装置、设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000003197A (ja) * 1998-06-16 2000-01-07 Yamaha Corp 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体
JP2002189472A (ja) * 2000-12-22 2002-07-05 Roland Corp 音色制御装置
JP2006064799A (ja) * 2004-08-25 2006-03-09 Yamaha Corp ピッチ変換装置とプログラム
US20070208566A1 (en) * 2004-03-31 2007-09-06 France Telecom Voice Signal Conversation Method And System
JP2008058986A (ja) * 2007-10-15 2008-03-13 Yamaha Corp ピッチ変換装置とプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
US5567901A (en) * 1995-01-18 1996-10-22 Ivl Technologies Ltd. Method and apparatus for changing the timbre and/or pitch of audio signals
US6336092B1 (en) * 1997-04-28 2002-01-01 Ivl Technologies Ltd Targeted vocal transformation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000003197A (ja) * 1998-06-16 2000-01-07 Yamaha Corp 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体
JP2002189472A (ja) * 2000-12-22 2002-07-05 Roland Corp 音色制御装置
US20070208566A1 (en) * 2004-03-31 2007-09-06 France Telecom Voice Signal Conversation Method And System
JP2006064799A (ja) * 2004-08-25 2006-03-09 Yamaha Corp ピッチ変換装置とプログラム
JP2008058986A (ja) * 2007-10-15 2008-03-13 Yamaha Corp ピッチ変換装置とプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200100868024; 坂野 秀樹 Hideki BANNO: '時間領域平滑化群遅延による位相制御を用いた声質制御方式 Speech Manipulation Method Using Phase Manip' 電子情報通信学会論文誌 (J83-D-II) 第11号 THE TRANSACTIONS OF THE INSTITUTE OF ELECTRO , 200011, p.2276-2282, 社団法人電子情報通信学会 THE INSTITUTE OF ELECTRO *
JPN6014045693; 坂野 秀樹 Hideki BANNO: '時間領域平滑化群遅延による位相制御を用いた声質制御方式 Speech Manipulation Method Using Phase Manip' 電子情報通信学会論文誌 (J83-D-II) 第11号 THE TRANSACTIONS OF THE INSTITUTE OF ELECTRO , 200011, p.2276-2282, 社団法人電子情報通信学会 THE INSTITUTE OF ELECTRO *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016050995A (ja) * 2014-08-29 2016-04-11 ヤマハ株式会社 音響処理装置
JP2016122157A (ja) * 2014-12-25 2016-07-07 ヤマハ株式会社 音声処理装置
US9865276B2 (en) 2014-12-25 2018-01-09 Yamaha Corporation Voice processing method and apparatus, and recording medium therefor
JPWO2018084305A1 (ja) * 2016-11-07 2019-09-26 ヤマハ株式会社 音声合成方法、音声合成装置およびプログラム
WO2018084305A1 (ja) 2016-11-07 2018-05-11 ヤマハ株式会社 音声合成方法
JP2018077281A (ja) * 2016-11-07 2018-05-17 ヤマハ株式会社 音声合成方法
JP2018077282A (ja) * 2016-11-07 2018-05-17 ヤマハ株式会社 音声合成方法
JP2018077280A (ja) * 2016-11-07 2018-05-17 ヤマハ株式会社 音声合成方法
CN109952609A (zh) * 2016-11-07 2019-06-28 雅马哈株式会社 声音合成方法
CN109952609B (zh) * 2016-11-07 2023-08-15 雅马哈株式会社 声音合成方法
US11410637B2 (en) 2016-11-07 2022-08-09 Yamaha Corporation Voice synthesis method, voice synthesis device, and storage medium
WO2019138871A1 (ja) 2018-01-11 2019-07-18 ヤマハ株式会社 音声合成方法、音声合成装置およびプログラム
US11094312B2 (en) 2018-01-11 2021-08-17 Yamaha Corporation Voice synthesis method, voice synthesis apparatus, and recording medium
JP2019120892A (ja) * 2018-01-11 2019-07-22 ヤマハ株式会社 音声合成方法およびプログラム
US11348596B2 (en) 2018-03-09 2022-05-31 Yamaha Corporation Voice processing method for processing voice signal representing voice, voice processing device for processing voice signal representing voice, and recording medium storing program for processing voice signal representing voice
WO2019172397A1 (ja) 2018-03-09 2019-09-12 ヤマハ株式会社 音処理方法、音処理装置および記録媒体
US11646044B2 (en) * 2018-03-09 2023-05-09 Yamaha Corporation Sound processing method, sound processing apparatus, and recording medium
JP2020194139A (ja) * 2019-05-30 2020-12-03 セイコーエプソン株式会社 半導体装置、電子機器及び移動体
JP7326879B2 (ja) 2019-05-30 2023-08-16 セイコーエプソン株式会社 半導体装置、電子機器及び移動体

Also Published As

Publication number Publication date
US20140006018A1 (en) 2014-01-02
JP5772739B2 (ja) 2015-09-02
US9286906B2 (en) 2016-03-15

Similar Documents

Publication Publication Date Title
JP5772739B2 (ja) 音声処理装置
US8706496B2 (en) Audio signal transforming by utilizing a computational cost function
CN111542875B (zh) 声音合成方法、声音合成装置及存储介质
JP6024191B2 (ja) 音声合成装置および音声合成方法
JP5961950B2 (ja) 音声処理装置
WO2018084305A1 (ja) 音声合成方法
EP3719795B1 (en) Voice synthesizing method, voice synthesizing apparatus, and computer program
JP2006215204A (ja) 音声合成装置およびプログラム
JP4516157B2 (ja) 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
US11289066B2 (en) Voice synthesis apparatus and voice synthesis method utilizing diphones or triphones and machine learning
US20210375248A1 (en) Sound signal synthesis method, generative model training method, sound signal synthesis system, and recording medium
JP2016161919A (ja) 音声合成装置
WO2020095951A1 (ja) 音響処理方法および音響処理システム
JP6977818B2 (ja) 音声合成方法、音声合成システムおよびプログラム
Bonada et al. Generation of growl-type voice qualities by spectral morphing
WO2020241641A1 (ja) 生成モデル確立方法、生成モデル確立システム、プログラムおよび訓練データ準備方法
CN1647152A (zh) 合成语音的方法
US11756558B2 (en) Sound signal generation method, generative model training method, sound signal generation system, and recording medium
JP6213217B2 (ja) 音声合成装置及び音声合成用コンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140620

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141009

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141028

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141225

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150410

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150615

R151 Written notification of patent or utility model registration

Ref document number: 5772739

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151