JP6561499B2 - 音声合成装置および音声合成方法 - Google Patents

音声合成装置および音声合成方法 Download PDF

Info

Publication number
JP6561499B2
JP6561499B2 JP2015043918A JP2015043918A JP6561499B2 JP 6561499 B2 JP6561499 B2 JP 6561499B2 JP 2015043918 A JP2015043918 A JP 2015043918A JP 2015043918 A JP2015043918 A JP 2015043918A JP 6561499 B2 JP6561499 B2 JP 6561499B2
Authority
JP
Japan
Prior art keywords
pitch
speech
value
fluctuation
transition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015043918A
Other languages
English (en)
Other versions
JP2016161919A (ja
Inventor
慶二郎 才野
慶二郎 才野
ジョルディ ボナダ
ボナダ ジョルディ
ブラアウ メルレイン
ブラアウ メルレイン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2015043918A priority Critical patent/JP6561499B2/ja
Priority to EP16158430.5A priority patent/EP3065130B1/en
Priority to CN201610124952.3A priority patent/CN105957515B/zh
Priority to US15/060,996 priority patent/US10176797B2/en
Publication of JP2016161919A publication Critical patent/JP2016161919A/ja
Application granted granted Critical
Publication of JP6561499B2 publication Critical patent/JP6561499B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • G10H1/0041Recording/reproducing or transmission of music for electrophonic musical instruments in coded form
    • G10H1/0058Transmission between separate instruments or between individual components of a musical system
    • G10H1/0066Transmission between separate instruments or between individual components of a musical system using a MIDI interface
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/02Instruments in which the tones are synthesised from a data store, e.g. computer organs in which amplitudes at successive sample points of a tone waveform are stored in one or more memories
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/325Musical pitch modification
    • G10H2210/331Note pitch correction, i.e. modifying a note pitch or replacing it by the closest one in a given scale
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Description

本発明は、合成対象の音声の音高の時間的な変動(以下「音高遷移」という)を制御する技術に関する。
利用者が時系列に指定した任意の音高の歌唱音声を合成する音声合成技術が従来から提案されている。例えば特許文献1には、合成対象として指定された複数の音符の時系列に対応する音高遷移(ピッチカーブ)を設定し、発音内容に対応する音声素片の音高を音高遷移に沿って調整したうえで相互に連結することで歌唱音声を合成する構成が開示されている。
音高遷移を生成する技術としては、例えば非特許文献1に開示された藤崎モデルを利用する構成や、多数の音声を適用した機械学習で生成されたHMMを利用する非特許文献2の構成も存在する。また、文章とフレーズと単語と音節と音素との5階層に音高遷移を分解してHMMの機械学習を実行する構成も非特許文献3に開示されている。
特開2014−098802号公報
Fujisaki,"Dynamic characteristics of voice fundamental frequency in speech and singing," In: MacNeilage, P.F. (Ed.), The Production of Speech, Springer-Verlag, New York, USA. pp. 39-55. 徳田 恵一,「HMM に基づく音声合成の基礎」,電子情報通信学会技術研究報告,Vol. 100, No. 392, SP2000-74, p. 43-50,(2000) Suni, A. S., Aalto, D., Raitio, T., Alku, P., Vainio, M., et al.," Wavelets for intonation modeling in hmm speech synthesis," In 8th isca workshop on speech synthesis, proceedings, Barcelona, august 31-september 2, 2013.
ところで、実際に人間が発音した音声には、発音対象の音素に依存して音高が短時間で顕著に変動する現象(以下「音素依存変動」という)が観測される。例えば図9に例示される通り、有声子音の区間(図9の例示では音素[m]および音素[g]の区間)や、無声子音および母音の一方から他方に遷移する区間(図9の例示では音素[k]から音素[i]に遷移する区間)に、音素依存変動(いわゆるマイクロプロソディ)を確認できる。
非特許文献1の技術では、文章のような長時間にわたる音高の変動が想定されるから、音素単位で発生する音素依存変動を再現することは困難である。他方、非特許文献2や非特許文献3の技術では、機械学習用の多数の音声に音素依存変動を含ませることで、実際の音素依存変動を忠実に再現した音高遷移の生成が期待される。しかし、音素依存変動以外の単純な音高の誤差まで音高遷移に反映されるから、音高遷移を利用して合成された音声が、聴感的に調子はずれ(すなわち、適正な音高から乖離した音痴な歌声)と知覚される可能性がある。以上の事情を考慮して、本発明は、調子はずれと知覚される可能性を低減しながら音素依存変動を反映した音高遷移を生成することを目的とする。
以上の課題を解決するために、本発明の好適な態様に係る音声合成装置は、参照音声から抽出された音声素片の接続で音声信号を生成する音声合成装置であって、音声素片を順次に選択する素片選択手段と、参照音声の発音の基準である基準音高と素片選択手段が選択した音声素片の観測音高との差分値に応じた度合で当該音声素片の観測音高の変動が反映された音高遷移を設定する音高設定手段と、素片選択手段が選択した音声素片の音高を音高設定手段が生成した音高遷移に応じて調整して音声信号を生成する音声合成手段とを具備する。以上の構成では、参照音声の発音の基準である基準音高と音声素片の観測音高との差分値に応じた度合で当該音声素片の観測音高の変動が反映された音高遷移が設定される。例えば、差分値が特定の数値である場合と比較して、差分値が特定の数値を上回る場合のほうが、音声素片の観測音高の変動が音高遷移に反映される度合が大きくなるように、音高設定手段は音高遷移を設定する。したがって、聴感的に調子はずれ(すなわち音痴)と知覚される可能性を低減しながら、音素依存変動を再現した音高遷移を生成できるという利点がある。
本発明の好適な態様において、音高設定手段は、合成対象の音高の時系列に応じた基礎遷移を設定する基礎遷移設定手段と、基準音高と観測音高との差分値に応じた調整値を基準音高と観測音高との差分値に乗算することで変動成分を生成する変動生成手段と、変動成分を基礎遷移に付加する変動付加手段とを含む。以上の態様では、基準音高と観測音高との差分値に応じた調整値を当該差分値に乗算した変動成分が合成対象の音高の時系列に応じた基礎遷移に付加されるから、合成対象の音高の遷移(例えば楽曲の旋律)を維持しながら音素依存変動を再現できるという利点がある。
本発明の好適な態様において、変動生成手段は、差分値が、第1閾値を下回る第1範囲内の数値である場合に最小値となり、差分値が、第1閾値を超える第2閾値を上回る第2範囲内の数値である場合に最大値となり、差分値が第1閾値と第2閾値との間の数値である場合に、最小値と最大値との間の範囲内で当該差分値に応じて変動する数値となるように、調整値を設定する。以上の態様では、差分値と調整値との関係が簡便に定義されるから、調整値の設定(ひいては変動成分の生成)が簡素化されるという利点がある。
本発明の好適な態様において、変動生成手段は、変動成分を平滑化する平滑処理手段を含み、変動付加手段は、平滑化後の変動成分を基礎遷移に付加する。以上の態様では、変動成分が平滑化されるから、合成音声の音高の急激な変動が抑制される。したがって、聴感的に自然な印象の合成音声を生成できるという利点がある。以上の態様の具体例は例えば第2実施形態として後述される。
本発明の好適な態様において、変動生成手段は、差分値と調整値との関係を可変に制御する。具体的には、変動生成手段は、素片選択手段が選択する音声素片の音素の種別に応じて差分値と調整値との関係を制御する。以上の態様によれば、音声素片の観測音高の変動を音高遷移に反映させる度合を適宜に調整できるという利点がある。以上の態様の具体例は例えば第3実施形態として後述される。
以上の各態様に係る音声合成装置は、DSP(Digital Signal Processor)等のハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。本発明のプログラムは、例えば通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、本発明は、以上に説明した各態様に係る音声合成装置の動作方法(音声合成方法)としても特定される。
第1実施形態における音声合成装置の構成図である。 音高設定部の構成図である。 音高設定部の動作の説明図である。 基準音高および観測音高の差分値と調整値との関係の説明図である。 変動解析部の動作のフローチャートである。 第2実施形態における音高設定部の構成図である。 平滑処理部の動作の説明図である。 第3実施形態における差分値と調整値との関係の説明図である。 音素依存変動の説明図である。
<第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100の構成図である。第1実施形態の音声合成装置100は、任意の楽曲(以下「対象楽曲」という)の歌唱音声の音声信号Vを生成する信号処理装置であり、演算処理装置12と記憶装置14と放音装置16とを具備するコンピュータシステムで実現される。例えば携帯電話機またはスマートフォン等の可搬型の情報処理装置やパーソナルコンピュータ等の可搬型または据置型の情報処理装置が音声合成装置100として利用され得る。
記憶装置14は、演算処理装置12が実行するプログラムや演算処理装置12が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置14として任意に採用される。第1実施形態の記憶装置14は、音声素片群Lと合成情報Sとを記憶する。
音声素片群Lは、特定の発声者が発音した音声(以下「参照音声」という)から事前に抽出された複数の音声素片Pの集合(いわゆる音声合成用ライブラリ)である。各音声素片Pは、音素単体(例えば母音や子音)、または複数の音素が連続する音素連鎖(例えばダイフォンやトライフォン)である。各音声素片Pは、時間領域での音声波形のサンプル系列や周波数領域でのスペクトルの時系列として表現される。
参照音声は、所定の音高(以下「基準音高」という)FRを基準として発音された音声である。具体的には、発声者は、自身の音声が基準音高FRとなるように参照音声を発音する。したがって、各音声素片Pの音高は、基本的には基準音高FRに合致するが、音素依存変動等に起因した基準音高FRからの変動を含有し得る。図1に例示される通り、第1実施形態の記憶装置14は基準音高FRを記憶する。
合成情報Sは、音声合成装置100による合成対象となる音声を指定する。第1実施形態の合成情報Sは、対象楽曲を構成する複数の音符の時系列を指定する時系列データであり、図1に例示される通り、音高X1と発音期間X2と発音内容(発音文字)X3とを対象楽曲の音符毎に指定する。音高X1は例えばMIDI(Musical Instrument Digital Interface)規格に準拠したノートナンバーで指定される。発音期間X2は、音符の発音が継続される期間であり、例えば発音の開始点と継続長(音価)とで指定される。発音内容X3は、合成音声の音韻(具体的には対象楽曲の歌詞の音節)である。
第1実施形態の演算処理装置12は、記憶装置14に記憶されたプログラムを実行することで、記憶装置14に記憶された音声素片群Lと合成情報Sとを利用して音声信号Vを生成する合成処理部20として機能する。具体的には、第1実施形態の合成処理部20は、音声素片群Lのうち合成情報Sで時系列に指定される発音内容X3に対応した各音声素片Pを、音高X1および発音期間X2に応じて調整したうえで相互に接続することで音声信号Vを生成する。なお、演算処理装置12の機能を複数の装置に分散した構成や、音声合成専用の電子回路が演算処理装置12の機能の一部または全部を実現する構成も採用され得る。図1の放音装置16(例えばスピーカやヘッドホン)は、演算処理装置12が生成した音声信号Vに応じた音響を放射する。なお、音声信号Vをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略した。
図1に例示される通り、第1実施形態の合成処理部20は、素片選択部22と音高設定部24と音声合成部26とを包含する。素片選択部22は、合成情報Sで時系列に指定される発音内容X3に対応した各音声素片Pを記憶装置14の音声素片群Lから順次に選択する。音高設定部24は、合成音声の音高の時間的な遷移(以下「音高遷移」という)Cを設定する。概略的には、合成情報Sで音符毎に指定される音高X1の時系列に沿うように合成情報Sの音高X1および発音期間X2に応じて音高遷移(ピッチカーブ)Cが設定される。音声合成部26は、素片選択部22が順次に選択する音声素片Pの音高を、音高設定部24が生成した音高遷移Cに応じて調整し、調整後の各音声素片Pを時間軸上で相互に連結することで音声信号Vを生成する。
第1実施形態の音高設定部24は、発音対象の音素に依存して音高が短時間で変動する音素依存変動が、受聴者に調子はずれと知覚されない範囲内で反映された音高遷移Cを設定する。図2は、音高設定部24の具体的な構成図である。図2に例示される通り、第1実施形態の音高設定部24は、基礎遷移設定部32と変動生成部34と変動付加部36とを包含する。
基礎遷移設定部32は、合成情報Sが音符毎に指定する音高X1に対応する音高の時間的な遷移(以下「基礎遷移」という)Bを設定する。基礎遷移Bの設定には公知の技術が任意に採用され得る。具体的には、時間軸上で相前後する音符間で音高が連続的に変動するように基礎遷移Bが設定される。すなわち、基礎遷移Bは、対象楽曲の旋律を構成する複数の音符にわたる音高の概略的な軌跡に相当する。参照音声に観測される音高の変動(例えば音素依存変動)は基礎遷移Bには反映されない。
変動生成部34は、音素依存変動を示す変動成分Aを生成する。具体的には、第1実施形態の変動生成部34は、素片選択部22が順次に選択する音声素片Pに含有される音素依存変動が反映されるように変動成分Aを生成する。他方、各音声素片Pのうち音素依存変動以外の音高の変動(具体的には受聴者に調子はずれと知覚され得る音高変動)は変動成分Aに反映されない。
変動付加部36は、基礎遷移設定部32が設定した基礎遷移Bに、変動生成部34が生成した変動成分Aを付加することで音高遷移Cを生成する。したがって、各音声素片Pの音素依存変動を反映した音高遷移Cが生成される。
音素依存変動以外の変動(以下「誤差変動」という)と比較すると、音素依存変動は音高の変動量が大きいという概略的な傾向がある。以上の傾向を考慮して、第1実施形態では、音声素片Pのうち基準音高FRに対する音高差(後掲の差分値D)が大きい区間の音高変動を音素依存変動と推定して音高遷移Cに反映させる一方、基準音高FRに対する音高差が小さい区間の音高変動を音素依存変動以外の誤差変動と推定して音高遷移Cには反映させない。
図2に例示される通り、第1実施形態の変動生成部34は、音高解析部42と変動解析部44とを包含する。音高解析部42は、素片選択部22が選択する各音声素片Pの音高(以下「観測音高」という)FVを順次に特定する。観測音高FVは、音声素片Pの時間長に対して充分に短い周期で順次に特定される。観測音高FVの特定には、公知のピッチ検出技術が任意に採用される。
図3は、スペイン語で発音された参照音声の複数の音素の時系列([n],[a],[B],[D],[o])を便宜的に想定して観測音高FVと基準音高FR(-700cent)との関係を図示したグラフである。図3には参照音声の音声波形が便宜的に併記されている。図3を参照すると、観測音高FVが音素毎に相異なる度合で基準音高FRに対して低下するという傾向が確認できる。具体的には、有声子音の音素[B],[D]の区間では、他の有声子音の音素[n]や母音の音素[a],[o]と比較して、基準音高FRに対する観測音高FVの変動が顕著に観測される。音素[B],[D]の区間における観測音高FVの変動は音素依存変動であり、音素[n],[a],[o]の区間における観測音高FVの変動は音素依存変動以外の誤差変動である。すなわち、誤差変動と比較して音素依存変動の変動量が大きいという前述の傾向が図3からも確認できる。
図2の変動解析部44は、音声素片Pの音素依存変動を推定した変動成分Aを生成する。具体的には、第1実施形態の変動解析部44は、記憶装置14に記憶された基準音高FRと音高解析部42が特定した観測音高FVとの差分値Dを算定し(D=FR−FV)、調整値αを差分値Dに乗算することで変動成分Aを生成する(A=αD=α(FR−FV))。差分値Dが大きい区間の音高変動を音素依存変動と推定して音高遷移Cに反映させる一方、差分値Dが小さい区間の音高変動を音素依存変動以外の誤差変動と推定して音高遷移Cに反映させない、という前述の傾向を再現するために、第1実施形態の変動解析部44は、差分値Dに応じて調整値αを可変に設定する。概略的には、差分値Dが大きい(すなわち音高変動が音素依存変動である可能性が高い)ほど調整値αが増加する(すなわち音高遷移Cに優勢に反映される)ように、変動解析部44は調整値αを算定する。
図4は、差分値Dと調整値αとの関係の説明図である。図4に例示される通り、差分値Dの数値範囲は、所定の閾値DTH1および閾値DTH2を境界として第1範囲R1と第2範囲R2と第3範囲R3とに区分される。閾値DTH2は閾値DTH1を上回る所定値である。第1範囲R1は閾値DTH1を下回る範囲であり、第2範囲R2は閾値DTH2を上回る範囲である。第3範囲R3は閾値DTH1と閾値DTH2との間の範囲である。観測音高FVの変動が音素依存変動である場合に差分値Dが第2範囲R2内の数値となり、観測音高FVの変動が音素依存変動以外の誤差変動である場合に差分値Dが第1範囲R1内の数値となるように、閾値DTH1および閾値DTH2は実験的または統計的に事前に選定される。図4の例示では、閾値DTH1が約170centに設定され、閾値DTH2が220centに設定された場合が想定されている。差分値Dが200cent(第3範囲R3内)である場合、調整値αは0.6に設定される。
図4から理解される通り、基準音高FRと観測音高FVとの差分値Dが第1範囲R1内の数値である場合(すなわち、観測音高FVの変動が誤差変動であると推定される場合)に調整値αは最小値0に設定される。他方、差分値Dが第2範囲R2内の数値である場合(すなわち、観測音高FVの変動が音素依存変動であると推定される場合)に調整値αは最大値1に設定される。また、差分値Dが第3範囲R3内の数値である場合、調整値αは、0以上かつ1以下の範囲内で差分値Dに応じた数値に設定される。具体的には、第3範囲R3内では調整値αは差分値Dに正比例する。
第1実施形態の変動解析部44は、前述の通り、以上の条件で設定された調整値αを差分値Dに乗算することで変動成分Aを生成する。したがって、差分値Dが第1範囲R1内の数値である場合には調整値αが最小値0に設定されることで変動成分Aは0となり、観測音高FVの変動(誤差変動)は音高遷移Cに反映されない。他方、差分値Dが第2範囲R2内の数値である場合には調整値αが最大値1に設定されるから、観測音高FVの音素依存変動に相当する差分値Dが変動成分Aとして生成され、結果的に観測音高FVの変動が音高遷移Cに反映される。以上の説明から理解される通り、調整値αの最大値1は、観測音高FVの変動を変動成分Aに反映させる(音素依存変動として抽出する)ことを意味し、調整値αの最小値0は、観測音高FVの変動を変動成分Aに反映させない(誤差変動として無視する)ことを意味する。なお、母音の音素については観測音高FVと基準音高FRとの差分値Dが閾値DTH1を下回る。したがって、母音の観測音高FVの変動(音素依存変動以外の変動)は音高遷移Cに反映されない。
図2の変動付加部36は、以上の手順で変動生成部34(変動解析部44)が生成した変動成分Aを基礎遷移Bに付加することで音高遷移Cを生成する。具体的には、第1実施形態の変動付加部36は、基礎遷移Bから変動成分Aを減算することで音高遷移Cを生成する(C=B−A)。図3には、基礎遷移Bを基準音高FRと便宜的に仮定した場合の音高遷移Cが破線で併記されている。図3から理解される通り、音素[n],[a],[o]の区間の大部分では基準音高FRと観測音高FVとの差分値Dが閾値DTH1を下回るから、観測音高FVの変動(すなわち誤差変動)は音高遷移Cでは充分に抑制される。他方、音素[B],[D]の区間の大部分では差分値Dが閾値DTH2を上回るから、観測音高FVの変動(すなわち音素依存変動)は音高遷移Cでも忠実に維持される。以上の説明から理解される通り、差分値Dが第1範囲R1内の数値である場合と比較して、差分値Dが第2範囲R2内の数値である場合のほうが、音声素片Pの観測音高FVの変動が音高遷移Cに反映される度合が大きくなるように、第1実施形態の音高設定部24は音高遷移Cを設定する。
図5は、変動解析部44の動作のフローチャートである。素片選択部22が順次に選択する音声素片Pの観測音高FVを音高解析部42が特定するたびに図5の処理が実行される。図5の処理を開始すると、変動解析部44は、記憶装置14に記憶された基準音高FRと音高解析部42が特定した観測音高FVとの差分値Dを算定する(S1)。
変動解析部44は、差分値Dに応じた調整値αを設定する(S2)。具体的には、図4を参照して説明した差分値Dと調整値αとの関係を表現する関数(閾値DTH1や閾値DTH2等の変数)が記憶装置14に格納され、変動解析部44は、記憶装置14に格納された関数を利用して差分値Dに応じた調整値αを設定する。そして、変動解析部44は、調整値αを差分値Dに乗算することで変動成分Aを生成する(S3)。
以上に説明した通り、第1実施形態では、基準音高FRと観測音高FVとの差分値Dに応じた度合で観測音高FVの変動を反映させた音高遷移Cが設定されるから、合成音声が調子はずれと知覚される可能性を低減しながら、参照音声の音素依存変動を忠実に再現した音高遷移を生成することができる。第1実施形態では特に、合成情報Sが時系列に指定する音高X1に対応する基礎遷移Bに変動成分Aが付加されるから、対象楽曲の旋律を維持しながら音素依存変動を再現できるという利点がある。
また、第1実施形態では、調整値αの設定に適用される差分値Dに当該調整値αを乗算するという簡便な処理で変動成分Aを生成できるという格別な効果が実現される。第1実施形態では特に、第1範囲R1内で最小値0となり、第2範囲R2内で最大値1となり、両者間の第3範囲R3内で差分値Dに応じて変動する数値となるように、調整値αが設定されるから、例えば指数関数等の各種の関数を調整値αの設定に適用する構成と比較して、変動成分Aの生成処理が簡素化されるという前述の効果は格別に顕著である。
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用または機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
図6は、第2実施形態における音高設定部24の構成図である。図6に例示される通り、第2実施形態の音高設定部24は、第1実施形態の変動生成部34に平滑処理部46を追加した構成である。平滑処理部46は、変動解析部44が生成する変動成分Aを時間軸上で平滑化する。変動成分Aの平滑化(時間的な変動の抑制)には公知の技術が任意に採用され得る。他方、変動付加部36は、平滑処理部46による平滑化後の変動成分Aを基礎遷移Bに付加することで音高遷移Cを生成する。
図7には、図3と同様の音素の時系列を想定して、第1実施形態の変動成分Aにより各音声素片Pの観測音高FVが補正される度合(補正量)の時間変化が破線で図示されている。すなわち、図7の縦軸の補正量は、参照音声の観測音高FVと基礎遷移Bを基準音高FRに維持した場合の音高遷移Cとの差分値に相当する。したがって、図3と図7との対比により把握される通り、誤差変動が推定される音素[n],[a],[o]の区間では補正量が増加し、音素依存変動が推定される音素[B],[D]の区間では補正量が0付近まで抑制される。
図7に例示される通り、第1実施形態の構成では、各音素の始点の直後に補正量が急峻に変動し得るから、音声信号Vを再生した合成音声が聴感的に不自然な印象と知覚される可能性がある。他方、図7の実線は、第2実施形態における補正量の時間変化に相当する。図7から理解される通り、第2実施形態では変動成分Aが平滑処理部46により平滑化されるから、音高遷移Cの急激な変動が第1実施形態と比較して抑制される。したがって、合成音声が聴感的に不自然な印象と知覚される可能性が低減されるという利点がある。
<第3実施形態>
図8は、第3実施形態における差分値Dと調整値αとの関係の説明図である。図8に矢印で例示される通り、第3実施形態の変動解析部44は、差分値Dの範囲を確定する閾値DTH1と閾値DTH2とを可変に設定する。第1実施形態の説明から理解される通り、閾値DTH1および閾値DTH2が小さいほど調整値αは大きい数値(例えば最大値1)に設定され易いから、音声素片Pの観測音高FVの変動(音素依存変動)が音高遷移Cに反映される可能性は上昇する。他方、閾値DTH1および閾値DTH2が大きいほど調整値αは小さい数値(例えば最小値0)に設定され易いから、音声素片Pの観測音高FVが音高遷移Cに反映される可能性は低下する。
ところで、聴感的に調子はずれ(音痴)と知覚される度合は音素の種別に応じて相違する。例えば、音素[n]等の有声子音は、対象楽曲の本来の音高X1に対して僅かに音高が相違するだけで調子はずれと知覚されるのに対し、音素[v],[z],[j]等の有声摩擦音は、音高が本来の音高X1とは相違しても調子はずれとは知覚され難い、という傾向がある。
音素の種別に応じた聴感的な知覚特性の相違を考慮して、第3実施形態の変動解析部44は、素片選択部22が順次に選択する音声素片Pの各音素の種別に応じて差分値Dと調整値αとの関係(具体的には閾値DTH1や閾値DTH2)を可変に設定する。具体的には、調整はずれと知覚され易い傾向がある種別の音素(例えば[n])については、閾値DTH1および閾値DTH1を大きい数値に設定することで、観測音高FVの変動(誤差変動)が音高遷移Cに反映される度合を低下させ、調子はずれと知覚され難い傾向がある種別の音素(例えば[v],[z],[j])については、閾値DTH1および閾値DTH2を小さい数値に設定することで、観測音高FVの変動(音素依存変動)が音高遷移Cに反映される度合を上昇させる。音声素片Pを構成する各音素の種別は、例えば音声素片群Lの各音声素片Pに付加される属性情報(各音素の種別を指定する情報)を参照することで変動解析部44が特定し得る。
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、差分値Dと調整値αとの関係が可変に制御されるから、各音声素片Pの観測音高FVの変動を音高遷移Cに反映させる度合を適宜に調整できるという利点がある。また、第3実施形態では、音声素片Pの各音素の種別に応じて差分値Dと調整値αとの関係が制御されるから、合成音声が調子はずれと知覚される可能性を低減しながら参照音声の音素依存変動を忠実に再現できるという前述の効果は格別に顕著である。なお、第2実施形態の構成を第3実施形態に適用することも可能である。
<変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
(1)前述の各形態では、音高解析部42が各音声素片Pの観測音高FVを特定する構成を例示したが、観測音高FVを音声素片P毎に記憶装置14に事前に記憶することも可能である。観測音高FVを記憶装置14に記憶した構成では、前述の各形態で例示した音高解析部42は省略され得る。
(2)前述の各形態では、差分値Dに応じて直線的に調整値αが変動する構成を例示したが、差分値Dと調整値αとの関係は任意である。例えば、差分値Dに対して調整値αが曲線的に変動する構成も採用され得る。調整値αの最大値や最小値も任意に変更され得る。また、第3実施形態では、音声素片Pの音素の種別に応じて差分値Dと調整値αとの関係を制御したが、例えば利用者からの指示に応じて変動解析部44が差分値Dと調整値αとの関係を変更することも可能である。
(3)移動通信網やインターネット等の通信網を介して端末装置と通信するサーバ装置で音声合成装置100を実現することも可能である。具体的には、音声合成装置100は、端末装置から通信網を介して受信した合成情報Sで指定される合成音声の音声信号Vを第1実施形態と同様の方法で生成して通信網から端末装置に送信する。また、例えば音声合成装置100とは別体のサーバ装置に音声素片群Lを記憶し、合成情報Sの発音内容X3に対応する各音声素片Pを音声合成装置100がサーバ装置から取得する構成も採用され得る。すなわち、音声合成装置100が音声素片群Lを保持する構成は必須ではない。
100……音声合成装置、12……演算処理装置、14……記憶装置、16……放音装置、22……素片選択部、24……音高設定部、26……音声合成部、32……基礎遷移設定部、34……変動生成部、36……変動付加部、42……音高解析部、44……変動解析部、46……平滑処理部。

Claims (5)

  1. 参照音声から抽出された音声素片の接続で音声信号を生成する音声合成装置であって、
    音声素片を順次に選択する素片選択手段と、
    前記参照音声の発音の基準である基準音高と前記素片選択手段が選択した音声素片の観測音高との差分値に応じた度合で当該音声素片の観測音高の変動が反映された音高遷移を設定する音高設定手段と、
    前記素片選択手段が選択した音声素片の音高を前記音高設定手段が生成した音高遷移に応じて調整して前記音声信号を生成する音声合成手段とを具備し、
    前記音高設定手段は、前記差分値が特定の数値である場合と比較して、前記差分値が前記特定の数値を上回る場合のほうが、前記音声素片の観測音高の変動が音高遷移に反映される度合が大きくなるように、前記音高遷移を設定する
    音声合成装置。
  2. 前記音高設定手段は、
    合成対象の音高の時系列に応じた基礎遷移を設定する基礎遷移設定手段と、
    前記基準音高と前記観測音高との差分値に応じた調整値を前記基準音高と前記観測音高との差分値に乗算することで変動成分を生成する変動生成手段と、
    前記変動成分を前記基礎遷移に付加する変動付加手段とを含む
    請求項の音声合成装置。
  3. 前記変動生成手段は、前記差分値が、第1閾値を下回る第1範囲内の数値である場合に最小値となり、前記差分値が、前記第1閾値を超える第2閾値を上回る第2範囲内の数値である場合に最大値となり、前記差分値が前記第1閾値と前記第2閾値との間の数値である場合に、前記最小値と前記最大値との間の範囲内で当該差分値に応じて変動する数値となるように、前記調整値を設定する
    請求項の音声合成装置。
  4. 前記変動生成手段は、前記変動成分を平滑化する平滑処理手段を含み、
    前記変動付加手段は、前記平滑化後の変動成分を前記基礎遷移に付加する
    請求項または請求項の音声合成装置。
  5. 参照音声から抽出された音声素片の接続で音声信号を生成する音声合成方法であって、
    音声素片を順次に選択し、
    前記参照音声の発音の基準である基準音高と前記選択した音声素片の観測音高との差分値に応じた度合で当該音声素片の観測音高の変動が反映された音高遷移を設定し、
    前記選択した音声素片の音高を前記音高遷移に応じて調整して前記音声信号を生成し、
    前記音高遷移の設定においては、前記差分値が特定の数値である場合と比較して、前記差分値が前記特定の数値を上回る場合のほうが、前記音声素片の観測音高の変動が音高遷移に反映される度合が大きくなるように、前記音高遷移を設定する
    コンピュータにより実現される音声合成方法。
JP2015043918A 2015-03-05 2015-03-05 音声合成装置および音声合成方法 Active JP6561499B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2015043918A JP6561499B2 (ja) 2015-03-05 2015-03-05 音声合成装置および音声合成方法
EP16158430.5A EP3065130B1 (en) 2015-03-05 2016-03-03 Voice synthesis
CN201610124952.3A CN105957515B (zh) 2015-03-05 2016-03-04 声音合成方法、声音合成装置和存储声音合成程序的介质
US15/060,996 US10176797B2 (en) 2015-03-05 2016-03-04 Voice synthesis method, voice synthesis device, medium for storing voice synthesis program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015043918A JP6561499B2 (ja) 2015-03-05 2015-03-05 音声合成装置および音声合成方法

Publications (2)

Publication Number Publication Date
JP2016161919A JP2016161919A (ja) 2016-09-05
JP6561499B2 true JP6561499B2 (ja) 2019-08-21

Family

ID=55524141

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015043918A Active JP6561499B2 (ja) 2015-03-05 2015-03-05 音声合成装置および音声合成方法

Country Status (4)

Country Link
US (1) US10176797B2 (ja)
EP (1) EP3065130B1 (ja)
JP (1) JP6561499B2 (ja)
CN (1) CN105957515B (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6620462B2 (ja) * 2015-08-21 2019-12-18 ヤマハ株式会社 合成音声編集装置、合成音声編集方法およびプログラム
CN108364631B (zh) * 2017-01-26 2021-01-22 北京搜狗科技发展有限公司 一种语音合成方法和装置
US10622002B2 (en) * 2017-05-24 2020-04-14 Modulate, Inc. System and method for creating timbres
CN108281130B (zh) * 2018-01-19 2021-02-09 北京小唱科技有限公司 音频修正方法及装置
JP7293653B2 (ja) * 2018-12-28 2023-06-20 ヤマハ株式会社 演奏補正方法、演奏補正装置およびプログラム
JP7107427B2 (ja) * 2019-02-20 2022-07-27 ヤマハ株式会社 音信号合成方法、生成モデルの訓練方法、音信号合成システムおよびプログラム
CN110060702B (zh) * 2019-04-29 2020-09-25 北京小唱科技有限公司 用于演唱音高准确性检测的数据处理方法及装置
US11538485B2 (en) 2019-08-14 2022-12-27 Modulate, Inc. Generation and detection of watermark for real-time voice conversion
CN112185338B (zh) * 2020-09-30 2024-01-23 北京大米科技有限公司 音频处理方法、装置、可读存储介质和电子设备
EP4226362A1 (en) 2020-10-08 2023-08-16 Modulate, Inc. Multi-stage adaptive system for content moderation

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3520555B2 (ja) * 1994-03-29 2004-04-19 ヤマハ株式会社 音声符号化方法及び音声音源装置
JP3287230B2 (ja) * 1996-09-03 2002-06-04 ヤマハ株式会社 コーラス効果付与装置
JP4040126B2 (ja) * 1996-09-20 2008-01-30 ソニー株式会社 音声復号化方法および装置
JP3515039B2 (ja) * 2000-03-03 2004-04-05 沖電気工業株式会社 テキスト音声変換装置におけるピッチパタン制御方法
US6829581B2 (en) * 2001-07-31 2004-12-07 Matsushita Electric Industrial Co., Ltd. Method for prosody generation by unit selection from an imitation speech database
JP3815347B2 (ja) * 2002-02-27 2006-08-30 ヤマハ株式会社 歌唱合成方法と装置及び記録媒体
JP3966074B2 (ja) * 2002-05-27 2007-08-29 ヤマハ株式会社 ピッチ変換装置、ピッチ変換方法及びプログラム
JP3979213B2 (ja) * 2002-07-29 2007-09-19 ヤマハ株式会社 歌唱合成装置、歌唱合成方法並びに歌唱合成用プログラム
JP4654615B2 (ja) * 2004-06-24 2011-03-23 ヤマハ株式会社 音声効果付与装置及び音声効果付与プログラム
JP4207902B2 (ja) * 2005-02-02 2009-01-14 ヤマハ株式会社 音声合成装置およびプログラム
JP4839891B2 (ja) * 2006-03-04 2011-12-21 ヤマハ株式会社 歌唱合成装置および歌唱合成プログラム
CN100550133C (zh) * 2008-03-20 2009-10-14 华为技术有限公司 一种语音信号处理方法及装置
US8244546B2 (en) * 2008-05-28 2012-08-14 National Institute Of Advanced Industrial Science And Technology Singing synthesis parameter data estimation system
JP5293460B2 (ja) * 2009-07-02 2013-09-18 ヤマハ株式会社 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP5471858B2 (ja) * 2009-07-02 2014-04-16 ヤマハ株式会社 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
WO2011013983A2 (en) * 2009-07-27 2011-02-03 Lg Electronics Inc. A method and an apparatus for processing an audio signal
JP5605066B2 (ja) * 2010-08-06 2014-10-15 ヤマハ株式会社 音合成用データ生成装置およびプログラム
JP6024191B2 (ja) * 2011-05-30 2016-11-09 ヤマハ株式会社 音声合成装置および音声合成方法
JP6047922B2 (ja) * 2011-06-01 2016-12-21 ヤマハ株式会社 音声合成装置および音声合成方法
JP6060520B2 (ja) * 2012-05-11 2017-01-18 ヤマハ株式会社 音声合成装置
JP5846043B2 (ja) * 2012-05-18 2016-01-20 ヤマハ株式会社 音声処理装置
JP5772739B2 (ja) * 2012-06-21 2015-09-02 ヤマハ株式会社 音声処理装置
JP6048726B2 (ja) * 2012-08-16 2016-12-21 トヨタ自動車株式会社 リチウム二次電池およびその製造方法
JP5821824B2 (ja) * 2012-11-14 2015-11-24 ヤマハ株式会社 音声合成装置
JP6167503B2 (ja) * 2012-11-14 2017-07-26 ヤマハ株式会社 音声合成装置
JP6171711B2 (ja) * 2013-08-09 2017-08-02 ヤマハ株式会社 音声解析装置および音声解析方法

Also Published As

Publication number Publication date
CN105957515B (zh) 2019-10-22
CN105957515A (zh) 2016-09-21
EP3065130A1 (en) 2016-09-07
US20160260425A1 (en) 2016-09-08
US10176797B2 (en) 2019-01-08
EP3065130B1 (en) 2018-08-29
JP2016161919A (ja) 2016-09-05

Similar Documents

Publication Publication Date Title
JP6561499B2 (ja) 音声合成装置および音声合成方法
JP6171711B2 (ja) 音声解析装置および音声解析方法
EP1643486B1 (en) Method and apparatus for preventing speech comprehension by interactive voice response systems
JP4246792B2 (ja) 声質変換装置および声質変換方法
JP5961950B2 (ja) 音声処理装置
EP3273441B1 (en) Sound control device, sound control method, and sound control program
JP2018004870A (ja) 音声合成装置および音声合成方法
JP6737320B2 (ja) 音響処理方法、音響処理システムおよびプログラム
WO2019172397A1 (ja) 音処理方法、音処理装置および記録媒体
JP6390690B2 (ja) 音声合成方法および音声合成装置
JP6060520B2 (ja) 音声合成装置
JP5573529B2 (ja) 音声処理装置およびプログラム
JP2004061753A (ja) 歌唱音声を合成する方法および装置
Cheng et al. HMM-based mandarin singing voice synthesis using tailored synthesis units and question sets
JP6191094B2 (ja) 音声素片切出装置
JP7200483B2 (ja) 音声処理方法、音声処理装置およびプログラム
JP7106897B2 (ja) 音声処理方法、音声処理装置およびプログラム
WO2023171522A1 (ja) 音響生成方法、音響生成システムおよびプログラム
JP2001312300A (ja) 音声合成装置
JP6056190B2 (ja) 音声合成装置
Saitou et al. Speech-to-Singing Synthesis System: Vocal conversion from speaking voices to singing voices by controlling acoustic features unique to singing voices
Pahwa et al. More Than Meets the Ears: The Voice Transformers
Takara et al. A study on the pitch pattern of a singing voice synthesis system based on the cepstral method.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180125

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190108

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190625

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190708

R151 Written notification of patent or utility model registration

Ref document number: 6561499

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151