JP2019101094A - 音声合成方法およびプログラム - Google Patents

音声合成方法およびプログラム Download PDF

Info

Publication number
JP2019101094A
JP2019101094A JP2017229042A JP2017229042A JP2019101094A JP 2019101094 A JP2019101094 A JP 2019101094A JP 2017229042 A JP2017229042 A JP 2017229042A JP 2017229042 A JP2017229042 A JP 2017229042A JP 2019101094 A JP2019101094 A JP 2019101094A
Authority
JP
Japan
Prior art keywords
control data
learned model
data
speech
editing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017229042A
Other languages
English (en)
Other versions
JP2019101094A5 (ja
JP6729539B2 (ja
Inventor
竜之介 大道
Ryunosuke Daido
竜之介 大道
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2017229042A priority Critical patent/JP6729539B2/ja
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to CN202310641326.1A priority patent/CN116504218A/zh
Priority to CN201880077081.1A priority patent/CN111418006B/zh
Priority to PCT/JP2018/043655 priority patent/WO2019107378A1/ja
Priority to EP18882396.7A priority patent/EP3719796A4/en
Publication of JP2019101094A publication Critical patent/JP2019101094A/ja
Publication of JP2019101094A5 publication Critical patent/JP2019101094A5/ja
Priority to US16/886,063 priority patent/US11495206B2/en
Application granted granted Critical
Publication of JP6729539B2 publication Critical patent/JP6729539B2/ja
Priority to US17/965,185 priority patent/US20230034572A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • G10H1/0041Recording/reproducing or transmission of music for electrophonic musical instruments in coded form
    • G10H1/0058Transmission between separate instruments or between individual components of a musical system
    • G10H1/0066Transmission between separate instruments or between individual components of a musical system using a MIDI interface
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Processing Or Creating Images (AREA)
  • Machine Translation (AREA)

Abstract

【課題】利用者の意図または嗜好に沿った合成音声を生成する。【解決手段】音声合成装置100は、音韻を指定する制御データC0を含む入力に応じた制御データC1を学習済モデルM1により生成し、利用者からの編集指示Q1に応じて制御データC1を変更し、制御データC0と変更後の制御データC1とを含む入力に応じて、合成音声の周波数特性に関する制御データC3を学習済モデルM3により生成し、制御データC3に応じた音声信号Vを生成する。【選択図】図2

Description

本発明は、音声を合成する技術に関する。
任意の音韻の音声を合成する各種の音声合成技術が従来から提案されている。例えば特許文献1には、利用者が編集画面に対して指示した音符列を発音した歌唱音声を合成する技術が開示されている。編集画面は、時間軸と音高軸とが設定されたピアノロール画面である。利用者は、楽曲を構成する音符毎に、音韻(発音文字)と音高と発音期間とを指定する。
特開2016−90916号公報
しかし、特許文献1の技術では、利用者は、音符毎に音韻と音高と発音期間とを指示できるに過ぎず、利用者の意図または嗜好を合成音声に精緻に反映させることは実際には容易ではない。以上の事情を考慮して、本発明の好適な態様は、利用者の意図または嗜好に沿った合成音声を生成することを目的とする。
以上の課題を解決するために、本発明の好適な態様に係る音声合成方法は、音韻を指定する第1制御データを含む入力に応じた第2制御データを中間学習済モデルにより生成し、利用者からの第1指示に応じて前記第2制御データを変更し、前記第1制御データと前記変更後の前記第2制御データとを含む入力に応じて、合成音声の周波数特性に関する合成データを出力学習済モデルにより生成し、前記合成データに応じた音声信号を生成する。
本発明の好適な態様に係るプログラムは、音韻を指定する第1制御データを含む入力に応じて第2制御データを中間学習済モデルにより生成する処理と、利用者からの第1指示に応じて前記第2制御データを変更する処理と、前記第1制御データと前記変更後の前記第2制御データとを含む入力に応じて、合成音声の周波数特性に関する合成データを出力学習済モデルにより生成する処理と、前記合成データに応じた音声信号を生成する処理とをコンピュータに実行させる。
本発明の第1実施形態に係る音声合成装置の構成を例示するブロック図である。 音声合成装置の機能的な構成を例示するブロック図である。 編集画面の模式図である。 音声合成処理のフローチャートである。 第2実施形態に係る音声合成装置の機能的な構成を例示するブロック図である。 第2実施形態における音声合成処理のフローチャートである。
<第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100の構成を例示するブロック図である。音声合成装置100は、任意の音韻の音声(以下「合成音声」という)を合成する。第1実施形態の音声合成装置100は、歌唱者が楽曲を仮想的に歌唱した音声を合成音声として合成する歌唱合成装置である。図1に例示される通り、第1実施形態の音声合成装置100は、制御装置11と記憶装置12と操作装置13と表示装置14と放音装置15とを具備するコンピュータシステムで実現される。例えば携帯電話機もしくはスマートフォン等の可搬型の情報端末、またはパーソナルコンピュータ等の可搬型または据置型の情報端末が、音声合成装置100として好適に利用される。
表示装置14は、例えば液晶表示パネルで構成され、制御装置11から指示された画像を表示する。操作装置13は、利用者からの指示を受付ける入力機器である。具体的には、利用者が操作可能な複数の操作子、または、表示装置14の表示面に対する接触を検知するタッチパネルが、操作装置13として好適に利用される。
制御装置11は、例えばCPU(Central Processing Unit)等の処理回路であり、音声合成装置100を構成する各要素を統括的に制御する。第1実施形態の制御装置11は、合成音声の波形を表す時間領域の音声信号Vを生成する。放音装置15(例えばスピーカまたはヘッドホン)は、制御装置11が生成した音声信号Vが表す音声を再生する。なお、制御装置11が生成した音声信号Vをデジタルからアナログに変換するD/A変換器と、音声信号Vを増幅する増幅器とについては図示を便宜的に省略した。また、放音装置15を音声合成装置100に搭載した構成を図1では例示したが、音声合成装置100とは別体の放音装置15を音声合成装置100に有線または無線で接続してもよい。
記憶装置12は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成され、制御装置11が実行するプログラムと制御装置11が使用する各種のデータとを記憶する。なお、音声合成装置100とは別体の記憶装置12(例えばクラウドストレージ)を用意し、移動体通信網またはインターネット等の通信網を介して制御装置11が記憶装置12に対する書込および読出を実行してもよい。すなわち、記憶装置12を音声合成装置100から省略してもよい。
記憶装置12は、楽曲の音楽的な特徴を表す制御データC0を記憶する。第1実施形態の制御データC0は、楽曲を構成する複数の音符の各々について音高と音韻と発音期間とを指定する楽曲データである。すなわち、制御データC0は、音楽レベルの制御のためのデータ(具体的には楽譜に相当するデータ)である。音高は、例えばMIDI(Musical Instrument Digital Interface)のノート番号である。音韻は、合成音声により発音される文字(すなわち楽曲の歌詞)である。具体的には、音韻は、MIDIのテキストイベントであり、音符毎に1個の音節が音韻として指定される。発音期間は、楽曲の1個の音符が発音される期間であり、例えば音符の開始点と、終了点または継続長とで指定される。なお、例えばMIDIのデュレーションデータにより発音期間を指定してもよい。また、第1実施形態の制御データC0は、楽曲の音楽的な表現を表す演奏記号を指定する。例えば、フォルテ(f),ピアノ(p),クレッシェンド,デクレッシェンド,スタッカート,テヌートまたはスラー等の演奏記号が制御データC0により指定される。
図2は、制御装置11の機能的な構成を例示するブロック図である。図2に例示される通り、制御装置11は、記憶装置12に記憶されたプログラムを実行することで、制御データC0に応じた音声信号Vを生成するための複数の機能(表示制御部21,編集処理部E0,学習済モデルM1,編集処理部E1,学習済モデルM2,編集処理部E2,学習済モデルM3,編集処理部E3および合成処理部22)を実現する。なお、複数の装置の集合(すなわちシステム)で制御装置11の機能を実現してもよいし、制御装置11の機能の一部または全部を専用の電子回路(例えば信号処理回路)で実現してもよい。
表示制御部21は、表示装置14に画像を表示させる。第1実施形態の表示制御部21は、利用者が合成音声の調整を指示するために参照する編集画面を表示装置14に表示させる。図3は、編集画面の模式図である。図3に例示される通り、編集画面は、複数の編集領域A(A0〜A3)と複数の操作部B(B0〜B3)とを含む画像である。複数の操作部Bの各々は、利用者からの指示を受付ける操作子の画像である。また、複数の編集領域A(A0〜A3)には共通の時間軸(横軸)が設定される。
編集領域A0は、音楽レベルの制御データC0の内容を表す画像(いわゆるピアノロール画面)である。具体的には、編集領域A0には、制御データC0が指定する音符を表す音符画像(ノートバー)が、時間軸と音高軸とを含む座標平面に時系列に配置される。時間軸上における各音符画像の位置および表示長は、制御データC0が指定する発音期間に応じて設定され、音高軸上における音符画像の位置は、制御データC0が指定する音高に応じて設定される。音符画像の内部には、制御データC0が指定する音韻(具体的には書記素)が表示される。また、編集領域A0には、制御データC0が指定する演奏記号も表示される。例えば図3では、クレッシェンド,フォルテおよびデクレッシェンドが演奏記号として例示されている。利用者は、操作装置13を操作することで、編集領域A0に対する編集指示Q0を付与することが可能である。編集指示Q0は、例えば、各音符の条件(発音期間、音高もしくは音韻)の変更の指示、または、演奏記号の変更(追加もしくは削除)の指示である。
編集領域A1は、音素レベルの特徴、例えば、合成音声を構成する複数の音素(母音または子音)の時系列を表す画像である。具体的には、編集領域A1には、合成音声の複数の音素の各々について音素記号と発音期間とが表示される。利用者は、操作装置13を操作することで、編集領域A1に対する編集指示Q1を付与することが可能である。編集指示Q1は、例えば、各音素の音素記号の変更の指示、または、発音期間の変更(例えば移動もしくは伸縮)の指示である。
編集領域A2は、発音レベルの特徴、例えば、合成音声に付与される音楽的な表情を表す画像である。具体的には、編集領域A2には、合成音声のうち音楽的な表情が付与される期間(以下「表情期間」という)と各表情期間における表情の種類(以下「表情種別」という)とが表示される。合成音声に付与される音楽的な表情としては、嗄声または気息音等の声質と、ビブラートまたはフォール等の発音技法とが例示される。利用者は、操作装置13を操作することで、編集領域A2に対する編集指示Q2を付与することが可能である。編集指示Q2は、例えば、各表情期間の変更(例えば移動もしくは伸縮)の指示、または、各表情期間における表情種別の変更の指示である。
編集領域A3は、ボコーダレベルの特徴、例えば、合成音声の周波数特性の時間的な変化を表す画像である。具体的には、編集領域A3には、合成音声の基本周波数F0の時間的な変化を表す曲線が表示される。利用者は、操作装置13を操作することで、編集領域A3に対する編集指示Q3を付与することが可能である。編集指示Q3は、例えば基本周波数F0の時間的な変化の変更の指示である。
図2の編集処理部E0は、編集領域A0に対する利用者からの編集指示Q0に応じて音楽レベルの制御データC0を変更する。具体的には、編集処理部E0は、制御データC0が指定する各音符の条件(発音期間、音高もしくは音韻)、または、制御データC0が指定する演奏記号を、編集指示Q0に応じて変更する。編集指示Q0が付与された場合には、編集処理部E0による変更後の制御データC0が、学習済モデルM1と学習済モデルM2と学習済モデルM3とに供給される。他方、編集指示Q0が付与されない場合には、記憶装置12に記憶された制御データC0が、学習済モデルM1と学習済モデルM2と学習済モデルM3とに供給される。
学習済モデルM1は、音楽レベルの制御データC0に応じた音素レベルの制御データC1を出力する。制御データC1は、合成音声の音素に関するデータである。具体的には、制御データC1は、制御データC0が指定する音韻に対応した複数の音素の時系列を指定する。例えば、制御データC1は、合成音声を構成する複数の音素の各々について、音素記号(すなわち音素の種別)と発音期間とを指定する。各音素の発音期間は、例えば開始点と終了点または継続長とで指定される。
第1実施形態の学習済モデルM1は、制御データC0と制御データC1とを対応させた複数の教師データを利用した機械学習(特に深層学習)により、制御データC0と制御データC1との関係を学習した統計的予測モデルである。例えば、制御データC0の入力に対して制御データC1を出力するニューラルネットワークが学習済モデルM1として好適に利用される。学習済モデルM1を規定する複数の係数K1が、機械学習により設定されて記憶装置12に記憶される。したがって、複数の教師データから抽出される傾向(制御データC0と制御データC1との関係)のもとで未知の制御データC0に対して統計的に妥当な制御データC1が学習済モデルM1から出力される。表示制御部21は、学習済モデルM1が生成する制御データC1に応じて編集領域A1を表示装置14に表示させる。すなわち、制御データC1が音素毎に指定する音素記号と発音期間とが編集領域A1に表示される。
編集処理部E1は、学習済モデルM1が出力する音素レベルの制御データC1を、編集領域A1に対する利用者からの編集指示Q1に応じて変更する。具体的には、編集処理部E1は、制御データC1が音素毎に指定する音素記号または発音期間を、編集指示Q1に応じて変更する。表示制御部21は、編集領域A1を、変更後の制御データC1に応じた内容に更新する。編集指示Q1が付与された場合には、編集処理部E1による変更後の制御データC1が学習済モデルM2および学習済モデルM3に供給され、編集指示Q1が付与されない場合には、学習済モデルM1が出力した制御データC1が学習済モデルM2および学習済モデルM3に供給される。
学習済モデルM2は、音楽レベルの制御データC0と音素レベルの制御データC1とを含む入力データD2に応じた発音レベルの制御データC2を出力する。制御データC2は、合成音声の音楽的な表情に関するデータである。具体的には、制御データC2は、時間軸上の1個以上の表情期間と各表情期間における表情種別とを指定する。各表情期間は、例えば開始点と終了点または継続長とで指定される。
第1実施形態の学習済モデルM2は、入力データD2と制御データC2とを対応させた複数の教師データを利用した機械学習(特に深層学習)により、入力データD2と制御データC2との関係を学習した統計的予測モデルである。例えば入力データD2の入力に対して制御データC2を出力するニューラルネットワークが学習済モデルM2として好適に利用される。学習済モデルM2を規定する複数の係数K2が、機械学習により設定されて記憶装置12に記憶される。したがって、複数の教師データから抽出される傾向(入力データD2と制御データC2との関係)のもとで未知の入力データD2に対して統計的に妥当な制御データC2が学習済モデルM2から出力される。表示制御部21は、学習済モデルM2が生成する制御データC2に応じて編集領域A2を表示装置14に表示させる。すなわち、制御データC2が指定する表情期間と表情種別とが編集領域A2に表示される。
編集処理部E2は、学習済モデルM2が出力する発音レベルの制御データC2を、編集領域A2に対する利用者からの編集指示Q2に応じて変更する。具体的には、編集処理部E2は、制御データC2が指定する表情期間または表情種別を、編集指示Q2に応じて変更する。表示制御部21は、編集領域A2を、変更後の制御データC2に応じた内容に更新する。編集指示Q2が付与された場合には、編集処理部E2による変更後の制御データC2が学習済モデルM3に供給され、編集指示Q2が付与されない場合には、学習済モデルM2が出力した制御データC2が学習済モデルM3に供給される。
学習済モデルM3は、音楽レベルの制御データC0と音素レベルの制御データC1と発音レベルの制御データC2とを含む入力データD3に応じたボコーダレベルの制御データC3(合成データの例示)を出力する。制御データC3は、合成音声の周波数特性に関するデータである。例えば、制御データC3は、合成音声の基本周波数F0の時系列と、調波成分の包絡線の時系列と、非調波成分の包絡線の時系列とを指定する。調波成分の包絡線は、調波成分の強度スペクトル(振幅スペクトルまたはパワースペクトル)の概形を表す曲線である。調波成分は、基本周波数F0の基音成分と基本周波数F0の整数倍の周波数の複数の倍音成分とで構成される周期成分である。他方、非調波成分の包絡線は、非調波成分の強度スペクトルの概形を表す曲線である。非調波成分は、調波成分以外の非周期成分(残差成分)である。調波成分および非調波成分の包絡線は、例えば複数のメルケプストラム係数で表現される。
第1実施形態の学習済モデルM3は、入力データD3と制御データC3とを対応させた複数の教師データを利用した機械学習(特に深層学習)により、入力データD3と制御データC3との関係を学習した統計的予測モデルである。例えば入力データD3の入力に対して制御データC3を出力するニューラルネットワークが学習済モデルM3として好適に利用される。学習済モデルM3を規定する複数の係数K3が、機械学習により設定されて記憶装置12に記憶される。したがって、複数の教師データから抽出される傾向(入力データD3と制御データC3との関係)のもとで未知の入力データD3に対して統計的に妥当な制御データC3が学習済モデルM3から出力される。表示制御部21は、学習済モデルM3が生成する制御データC3に応じて編集領域A3を表示装置14に表示させる。すなわち、制御データC3が指定する基本周波数F0の時系列が編集領域A3に表示される。
編集処理部E3は、学習済モデルM3が出力するボコーダレベルの制御データC3を、編集領域A3に対する利用者からの編集指示Q3に応じて変更する。具体的には、編集処理部E3は、制御データC3が指定する基本周波数F0を、編集指示Q3に応じて変更する。表示制御部21は、編集領域A3を、変更後の制御データC3に応じた内容に更新する。編集指示Q3が付与された場合には、編集処理部E3による変更後の制御データC3が合成処理部22に供給され、編集指示Q3が付与されない場合には、学習済モデルM3が出力した制御データC3が合成処理部22に供給される。
合成処理部22は、制御データC3に応じた音声信号Vを生成する。合成処理部22による音声信号Vの生成には公知の音声合成技術が任意に採用される。例えば、SMS(Spectral Model Synthesis)が音声信号Vの生成に好適に利用される。合成処理部22が生成した音声信号Vが放音装置15に供給されて音波として再生される。以上の説明から理解される通り、合成処理部22は、いわゆるボコーダに相当する。
編集指示Q0に応じて編集処理部E0が音楽レベルの制御データC0を変更すると、利用者は、操作装置13を使用して図3の操作部B0を操作する。操作部B0が操作されると、変更後の制御データC0について、学習済モデルM1による制御データC1の生成と、学習済モデルM2による制御データC2の生成と、学習済モデルM3による制御データC3の生成とが実行される。
編集指示Q1に応じて編集処理部E1が音素レベルの制御データC1を変更すると、利用者は、操作装置13を使用して操作部B1を操作する。操作部B1が操作されると、変更後の制御データC1が学習済モデルM2および学習済モデルM3に供給され、学習済モデルM2による制御データC2の生成と学習済モデルM3による制御データC3の生成とが実行される。操作部B1が操作された場合には、学習済モデルM1による制御データC1の生成は実行されず、編集指示Q1を反映した制御データC1を利用して音声信号Vが生成される。
編集指示Q2に応じて編集処理部E2が発音レベルの制御データC2を変更すると、利用者は、操作装置13を使用して操作部B2を操作する。操作部B2が操作されると、変更後の制御データC2が学習済モデルM3に供給され、学習済モデルM3による制御データC3の生成が実行される。操作部B2が操作された場合には、学習済モデルM1による制御データC1の生成と学習済モデルM2による制御データC2の生成とは実行されず、編集指示Q2を反映した制御データC2を利用して音声信号Vが生成される。
図4は、制御装置11が音声信号Vを生成する処理(以下「音声合成処理」という)のフローチャートである。例えば音声合成装置100に対する利用者からの指示を契機として音声合成処理が実行される。例えば図3の操作部B3(再生)が操作された場合に音声合成処理が実行される。
音声合成処理を開始すると、編集処理部E0は、利用者からの編集指示Q0に応じて音楽レベルの制御データC0を変更する(Sa1)。編集指示Q0が付与されない場合には、制御データC0の変更は省略される。
学習済モデルM1は、合成音声の音素に関する制御データC1を制御データC0に応じて生成する(Sa2)。編集処理部E1は、利用者からの編集指示Q1に応じて音素レベルの制御データC1を変更する(Sa3)。編集指示Q1が付与されない場合には、制御データC1の変更は省略される。
学習済モデルM2は、制御データC0と制御データC1とを含む入力データD2に応じて、合成音声の音楽的な表情に関する制御データC2を生成する(Sa4)。編集処理部E2は、利用者からの編集指示Q2に応じて発音レベルの制御データC2を変更する(Sa5)。編集指示Q2が付与されない場合には、制御データC2の変更は省略される。
学習済モデルM3は、制御データC0と制御データC1と制御データC2とを含む入力データD3に応じて、合成音声の周波数特性に関する制御データC3を生成する(Sa6)。編集処理部E3は、利用者からの編集指示Q3に応じてボコーダレベルの制御データC3を変更する(Sa7)。編集指示Q3が付与されない場合には、制御データC3の変更は省略される。合成処理部22は、制御データC3に応じた音声信号Vを生成する(Sa8)。
以上に説明した通り、第1実施形態では、制御データC0から制御データC3を生成するまでの途中の段階で利用者からの指示(編集指示Q1または編集指示Q2)が反映されるから、利用者が制御データC0を編集できるだけの構成と比較して、利用者の意図または嗜好に沿った合成音声の音声信号Vを生成できるという利点がある。
第1実施形態では特に、合成音声の音素に関する制御データC1が利用者からの編集指示Q1に応じて変更される。したがって、利用者の意図または嗜好に応じて音素が調整された合成音声の音声信号Vを生成できる。また、合成音声の表情に関する制御データC2が利用者からの編集指示Q2に応じて変更される。したがって、利用者の意図または嗜好に応じて音楽的な表情が調整された合成音声の音声信号を生成できる。また、利用者からの編集指示Q3に応じて制御データC3が変更される。したがって、利用者の意図または嗜好に応じて周波数特性が調整された合成音声の音声信号Vを生成できる。
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用または機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
図5は、第2実施形態における制御装置11の機能的な構成を例示するブロック図である。図5に例示される通り、第1実施形態で例示した学習済モデルM1と編集処理部E1と学習済モデルM2と編集処理部E2とが、第2実施形態では、学習済モデルM12と編集処理部E12とに置換される。編集処理部E0による編集後の制御データC0は、学習済モデルM12に供給される。
学習済モデルM12は、音楽レベルの制御データC0に応じた音素・発音レベルの制御データC12を出力する。制御データC12は、合成音声の音素と音楽的な表情とに関するデータである。具体的には、制御データC12は、制御データC0が指定する音韻に対応した各音素の音素記号および発音期間と、合成音声に表情が付与される表情期間および表情種別とを指定する。すなわち、第2実施形態の制御データC12は、第1実施形態における制御データC1と制御データC2とを併合したデータである。
第2実施形態の学習済モデルM12は、制御データC0と制御データC12とを対応させた複数の教師データを利用した機械学習(特に深層学習)により、制御データC0と制御データC12との関係を学習した統計的予測モデルである。例えば制御データC0の入力に対して制御データC12を出力するニューラルネットワークが学習済モデルM12として好適に利用される。学習済モデルM12を規定する複数の係数が、機械学習により設定されて記憶装置12に記憶される。したがって、複数の教師データから抽出される傾向(制御データC0と制御データC12との関係)のもとで未知の制御データC0に対して統計的に妥当な制御データC12が学習済モデルM12から出力される。表示制御部21は、学習済モデルM12が生成する制御データC12に応じて編集領域A1および編集領域A2を表示装置14に表示させる。
編集処理部E12は、学習済モデルM12が出力する音素・発音レベルの制御データC12を、編集領域A1に対する利用者からの編集指示Q1、または、編集領域A2に対する利用者からの編集指示Q2に応じて変更する。具体的には、編集処理部E12は、制御データC12が音素毎に指定する音素記号および発音期間を編集指示Q1に応じて変更し、制御データC12が指定する表情期間および表情種別を編集指示Q2に応じて変更する。表示制御部21は、編集領域A1および編集領域A2を、変更後の制御データC12に応じた内容に更新する。編集指示Q1または編集指示Q2が付与された場合には、編集処理部E12による変更後の制御データC12が学習済モデルM3に供給され、編集指示Q1または編集指示Q2が付与されない場合には、学習済モデルM12が出力した制御データC12が学習済モデルM3に供給される。
第2実施形態の学習済モデルM3は、音楽レベルの制御データC0と音素・発音レベルの制御データC12とを含む入力データD3に応じたボコーダレベルの制御データC3(合成データの例示)を出力する。学習済モデルM3が入力データD3の入力に対して制御データC3を出力する具体的な動作は第1実施形態と同様である。また、第1実施形態と同様に、編集処理部E3は、利用者からの編集指示Q3に応じて制御データC3を変更し、合成処理部22は、制御データC3に応じた音声信号Vを生成する。
図6は、第2実施形態における音声合成処理のフローチャートである。例えば音声合成装置100に対する利用者からの指示を契機として音声合成処理が実行される。例えば図3の操作部B3(再生)が操作された場合に音声合成処理が実行される。
音声合成処理を開始すると、編集処理部E0は、利用者からの編集指示Q0に応じて音楽レベルの制御データC0を変更する(Sb1)。編集指示Q0が付与されない場合には、制御データC0の変更は省略される。
学習済モデルM12は、合成音声の音素に関する制御データC12を制御データC0に応じて生成する(Sb2)。編集処理部E12は、利用者からの編集指示Q1または編集指示Q2に応じて音素・発音レベルの制御データC12を変更する(Sb3)。編集指示Q1または編集指示Q2が付与されない場合には、制御データC12の変更は省略される。
学習済モデルM3は、制御データC0と制御データC12とを含む入力データD3に応じて、合成音声の周波数特性に関する制御データC3を生成する(Sb4)。編集処理部E3は、利用者からの編集指示Q3に応じてボコーダレベルの制御データC3を変更する(Sb5)。編集指示Q3が付与されない場合には、制御データC3の変更は省略される。合成処理部22は、制御データC3に応じた音声信号Vを生成する(Sb6)。
第2実施形態では、制御データC0から制御データC3を生成するまでの途中の段階で利用者からの指示(編集指示Q1または編集指示Q2)が反映されるから、第1実施形態と同様に、利用者が制御データC0を編集できるだけの構成と比較して、利用者の意図または嗜好に沿った合成音声の音声信号Vを生成できる。第2実施形態では特に、合成音声の音素および表情に関する制御データC12が利用者からの編集指示Q1または編集指示Q2に応じて変更される。したがって、利用者の意図または嗜好に応じて音素または表情が調整された合成音声の音声信号Vを生成できるという利点もある。
<変形例>
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。
(1)例えば移動体通信網またはインターネット等の通信網を介して端末装置(例えば携帯電話機またはスマートフォン)と通信するサーバ装置により音声合成装置100を実現してもよい。具体的には、音声合成装置100は、端末装置から受信した制御データC0に対する音声合成処理(図4または図6)により音声信号Vを生成し、当該音声信号Vを端末装置に送信する。端末装置の放音装置15は、音声合成装置100から受信した音声信号Vが表す音声を再生する。なお、音声合成装置100の編集処理部E3がが生成した制御データC3を端末装置に送信し、端末装置に設置された合成処理部22が制御データC3から音声信号Vを生成してもよい。すなわち、合成処理部22は音声合成装置100から省略される。また、端末装置に搭載された編集処理部E0が生成した制御データC0を音声合成装置100に送信し、当該制御データC0に応じて生成した音声信号Vを音声合成装置100から端末装置に送信してもよい。すなわち、編集処理部E0は音声合成装置100から省略される。音声合成装置100をサーバ装置により実現した構成では、表示制御部21は、図3の編集画面を端末装置の表示装置14に表示させる。
(2)前述の各形態に係る音声合成装置100は、各形態での例示の通り、コンピュータ(具体的には制御装置11)とプログラムとの協働により実現される。前述の各形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされる。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を含む。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。また、プログラムの実行主体はCPUに限定されず、Tensor Processing UnitおよびNeural Engine等のニューラルネットワーク用のプロセッサ、または、信号処理用のDSP(Digital Signal Processor)がプログラムを実行してもよい。また、以上の例示から選択された複数種の主体が協働してプログラムを実行してもよい。
(3)学習済モデルは、入力Aから出力Bを特定する演算を制御装置11に実行させるプログラム(例えば人工知能ソフトウェアを構成するプログラムモジュール)と、当該演算に適用される複数の係数との組合せで実現される。学習済モデルの複数の係数は、入力Aと出力Bとを対応させた複数の教師データを利用した事前の機械学習(特に深層学習)により最適化される。すなわち、学習済モデルは、入力Aと出力Bとの関係を学習した統計的モデルである。制御装置11は、学習済の複数の係数と所定の応答関数とを適用した演算を未知の入力Aに対して実行することで、複数の教師データから抽出される傾向(入力Aと出力Bとの関係)のもとで入力Aに対して統計的に妥当な出力Bを生成する。
(4)以上に例示した形態から、例えば以下の構成が把握される。
本発明の好適な態様(第1態様)に係る音声合成方法は、音韻を指定する第1制御データを含む入力に応じた第2制御データを中間学習済モデルにより生成し、利用者からの第1指示に応じて前記第2制御データを変更し、前記第1制御データと前記変更後の前記第2制御データとを含む入力に応じて、合成音声の周波数特性に関する合成データを出力学習済モデルにより生成し、前記合成データに応じた音声信号を生成する。以上の態様では、第1制御データから合成データを生成するまでの途中の段階で利用者からの第1指示が反映されるから、利用者が第1制御データを編集できるだけの構成と比較して、利用者の意図または嗜好に沿った合成音声を表す音声信号を生成できる。
例えば第1実施形態における学習済モデルM1または学習済モデルM2、および、第2実施形態における学習済モデルM12が、第1態様における「中間学習済モデル」の好適例である。第1実施形態の学習済モデルM1を「中間学習済モデル」と解釈した場合、制御データC1が「第2制御データ」に相当し、編集指示Q1が「第1指示」に相当する。第1実施形態の学習済モデルM2を「中間学習済モデル」と解釈した場合、制御データC2が「第2制御データ」に相当し、編集指示Q2が「第1指示」に相当する。第2実施形態の学習済モデルM12を「中間学習済モデル」と解釈した場合、制御データC12が「第2制御データ」に相当し、編集指示Q1または編集指示Q2が「第1指示」に相当する。
第1態様の好適例(第2態様)において、前記中間学習済モデルは、前記第1制御データを含む入力に応じて、前記合成音声の音素に関する前記第2制御データを生成する第1学習済モデルである。以上の態様では、合成音声の音素に関する第2制御データが利用者からの第1指示に応じて変更される。したがって、利用者の意図または嗜好に応じて音素が調整された合成音声の音声信号を生成できる。第2態様における「第1学習済モデル」の好適例は、例えば第1実施形態における「学習済モデルM1」である。
第2態様の好適例(第3態様)において、前記第1制御データと前記変更後の第2制御データとを含む入力に応じて、前記合成音声の表情に関する第3制御データを第2学習済モデルにより生成し、利用者からの第2指示に応じて前記第3制御データを変更し、前記合成データの生成においては、前記第1制御データと前記変更後の前記第2制御データと前記変更後の第3制御データとを含む入力に応じて前記合成データを生成する。以上の態様では、合成音声の表情に関する第3制御データが利用者からの第2指示に応じて変更される。したがって、利用者の意図または嗜好に応じて表情が調整された合成音声の音声信号を生成できる。第3態様における「第2学習済モデル」の好適例は、例えば第1実施形態における学習済モデルM2であり、第3態様における「第3制御データ」の好適例は、例えば第1実施形態における制御データC2である。
第1態様の好適例(第4態様)において、前記中間学習済モデルは、前記第1制御データを含む入力に応じて、前記合成音声の音素および表情に関する前記第2制御データを生成する学習済モデルである。以上の態様では、合成音声の音素および表情に関する第2制御データが利用者からの第1指示に応じて変更される。したがって、利用者の意図または嗜好に応じて音素および表情が調整された合成音声の音声信号を生成できる。第4態様における「中間学習済モデル」の好適例は、例えば第2実施形態における学習済モデルM12であり、第4態様における「第1指示」の好適例は、例えば第2実施形態における編集指示Q1または編集指示Q2である。
第1態様から第4態様の何れかの好適例(第5態様)において、利用者からの第3指示に応じて前記合成データを変更し、前記音声信号の生成においては、前記変更後の合成データに応じて前記音声信号を生成する。以上の態様では、利用者からの第3指示に応じて合成データが変更される。したがって、利用者の意図または嗜好に応じて周波数特性が調整された合成音声の音声信号を生成できる。第5態様における「第3指示」の好適例は、例えば第1実施形態または第2実施形態における編集指示Q3である。
本発明の好適な態様(第6態様)に係るプログラムは、音韻を指定する第1制御データを含む入力に応じて第2制御データを中間学習済モデルにより生成する処理と、利用者からの第1指示に応じて前記第2制御データを変更する処理と、前記第1制御データと前記変更後の前記第2制御データとを含む入力に応じて、合成音声の周波数特性に関する合成データを出力学習済モデルにより生成する処理と、前記合成データに応じた音声信号を生成する処理とをコンピュータに実行させる。以上の態様では、第1制御データから合成データを生成するまでの途中の段階で利用者からの第1指示が反映されるから、利用者が第1制御データを編集できるだけの構成と比較して、利用者の意図または嗜好に沿った合成音声を表す音声信号を生成できる。
100…音声合成装置、11…制御装置、12…記憶装置、13…操作装置、14…表示装置、15…放音装置、21…表示制御部、22…合成処理部、E0,E1,E2,E3,E12…編集処理部、M1,M2,M3,M12…学習済モデル、Q0,Q1,Q2,Q3…編集指示、A0,A1,A2,A3…編集領域、B0,B1,B2,B3…操作部。


Claims (6)

  1. 音韻を指定する第1制御データを含む入力に応じた第2制御データを中間学習済モデルにより生成し、
    利用者からの第1指示に応じて前記第2制御データを変更し、
    前記第1制御データと前記変更後の前記第2制御データとを含む入力に応じて、合成音声の周波数特性に関する合成データを出力学習済モデルにより生成し、
    前記合成データに応じた音声信号を生成する、
    コンピュータにより実現される音声合成方法。
  2. 前記中間学習済モデルは、前記第1制御データを含む入力に応じて、前記合成音声の音素に関する前記第2制御データを生成する第1学習済モデルである
    請求項1の音声合成方法。
  3. 前記第1制御データと前記変更後の第2制御データとを含む入力に応じて、前記合成音声の表情に関する第3制御データを第2学習済モデルにより生成し、
    利用者からの第2指示に応じて前記第3制御データを変更し、
    前記合成データの生成においては、前記第1制御データと前記変更後の前記第2制御データと前記変更後の第3制御データとを含む入力に応じて前記合成データを生成する
    請求項2の音声合成方法。
  4. 前記中間学習済モデルは、前記第1制御データを含む入力に応じて、前記合成音声の音素および表情に関する前記第2制御データを生成する学習済モデルである
    請求項1の音声合成方法。
  5. 利用者からの第3指示に応じて前記合成データを変更し、
    前記音声信号の生成においては、前記変更後の合成データに応じて前記音声信号を生成する
    請求項1から請求項4の何れかの音声合成方法。
  6. 音韻を指定する第1制御データを含む入力に応じて第2制御データを中間学習済モデルにより生成する処理と、
    利用者からの第1指示に応じて前記第2制御データを変更する処理と、
    前記第1制御データと前記変更後の前記第2制御データとを含む入力に応じて、合成音声の周波数特性に関する合成データを出力学習済モデルにより生成する処理と、
    前記合成データに応じた音声信号を生成する処理と
    をコンピュータに実行させるプログラム。

JP2017229042A 2017-11-29 2017-11-29 音声合成方法、音声合成システムおよびプログラム Active JP6729539B2 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
JP2017229042A JP6729539B2 (ja) 2017-11-29 2017-11-29 音声合成方法、音声合成システムおよびプログラム
CN201880077081.1A CN111418006B (zh) 2017-11-29 2018-11-28 声音合成方法、声音合成装置及记录介质
PCT/JP2018/043655 WO2019107378A1 (ja) 2017-11-29 2018-11-28 音声合成方法、音声合成装置およびプログラム
EP18882396.7A EP3719796A4 (en) 2017-11-29 2018-11-28 VOICE SYNTHESIS PROCEDURE, VOICE SYNTHESIS DEVICE AND PROGRAM
CN202310641326.1A CN116504218A (zh) 2017-11-29 2018-11-28 声音合成方法、声音合成系统
US16/886,063 US11495206B2 (en) 2017-11-29 2020-05-28 Voice synthesis method, voice synthesis apparatus, and recording medium
US17/965,185 US20230034572A1 (en) 2017-11-29 2022-10-13 Voice synthesis method, voice synthesis apparatus, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017229042A JP6729539B2 (ja) 2017-11-29 2017-11-29 音声合成方法、音声合成システムおよびプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2020113896A Division JP7180642B2 (ja) 2020-07-01 2020-07-01 音声合成方法、音声合成システムおよびプログラム

Publications (3)

Publication Number Publication Date
JP2019101094A true JP2019101094A (ja) 2019-06-24
JP2019101094A5 JP2019101094A5 (ja) 2020-05-07
JP6729539B2 JP6729539B2 (ja) 2020-07-22

Family

ID=66663973

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017229042A Active JP6729539B2 (ja) 2017-11-29 2017-11-29 音声合成方法、音声合成システムおよびプログラム

Country Status (5)

Country Link
US (2) US11495206B2 (ja)
EP (1) EP3719796A4 (ja)
JP (1) JP6729539B2 (ja)
CN (2) CN111418006B (ja)
WO (1) WO2019107378A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020166298A (ja) * 2020-07-01 2020-10-08 ヤマハ株式会社 音声合成方法
WO2022080395A1 (ja) * 2020-10-15 2022-04-21 ヤマハ株式会社 音声合成方法およびプログラム
US11495206B2 (en) 2017-11-29 2022-11-08 Yamaha Corporation Voice synthesis method, voice synthesis apparatus, and recording medium

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6737320B2 (ja) * 2018-11-06 2020-08-05 ヤマハ株式会社 音響処理方法、音響処理システムおよびプログラム
JP7331588B2 (ja) * 2019-09-26 2023-08-23 ヤマハ株式会社 情報処理方法、推定モデル構築方法、情報処理装置、推定モデル構築装置およびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013137520A (ja) * 2011-11-29 2013-07-11 Yamaha Corp 音楽データ編集装置
JP2014178512A (ja) * 2013-03-15 2014-09-25 Yamaha Corp 音声合成装置
JP2017097176A (ja) * 2015-11-25 2017-06-01 株式会社テクノスピーチ 音声合成装置および音声合成方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4661915A (en) * 1981-08-03 1987-04-28 Texas Instruments Incorporated Allophone vocoder
JP2001134283A (ja) 1999-11-04 2001-05-18 Mitsubishi Electric Corp 音声合成装置および音声合成方法
JP4311710B2 (ja) * 2003-02-14 2009-08-12 株式会社アルカディア 音声合成制御装置
US20140236597A1 (en) * 2007-03-21 2014-08-21 Vivotext Ltd. System and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis
JP2008268477A (ja) 2007-04-19 2008-11-06 Hitachi Business Solution Kk 韻律調整可能な音声合成装置
JP5029884B2 (ja) 2007-05-22 2012-09-19 富士通株式会社 韻律生成装置、韻律生成方法、および、韻律生成プログラム
US20100066742A1 (en) * 2008-09-18 2010-03-18 Microsoft Corporation Stylized prosody for speech synthesis-based applications
JP5293460B2 (ja) * 2009-07-02 2013-09-18 ヤマハ株式会社 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP6372066B2 (ja) * 2013-10-15 2018-08-15 ヤマハ株式会社 合成情報管理装置および音声合成装置
WO2015058386A1 (en) * 2013-10-24 2015-04-30 Bayerische Motoren Werke Aktiengesellschaft System and method for text-to-speech performance evaluation
US9978359B1 (en) * 2013-12-06 2018-05-22 Amazon Technologies, Inc. Iterative text-to-speech with user feedback
JP6507579B2 (ja) 2014-11-10 2019-05-08 ヤマハ株式会社 音声合成方法
CN105206258B (zh) * 2015-10-19 2018-05-04 百度在线网络技术(北京)有限公司 声学模型的生成方法和装置及语音合成方法和装置
JP2017107228A (ja) * 2017-02-20 2017-06-15 株式会社テクノスピーチ 歌声合成装置および歌声合成方法
JP6729539B2 (ja) 2017-11-29 2020-07-22 ヤマハ株式会社 音声合成方法、音声合成システムおよびプログラム
CN114170997A (zh) * 2021-12-28 2022-03-11 科大讯飞股份有限公司 发音技巧检测方法、装置、存储介质及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013137520A (ja) * 2011-11-29 2013-07-11 Yamaha Corp 音楽データ編集装置
JP2014178512A (ja) * 2013-03-15 2014-09-25 Yamaha Corp 音声合成装置
JP2017097176A (ja) * 2015-11-25 2017-06-01 株式会社テクノスピーチ 音声合成装置および音声合成方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11495206B2 (en) 2017-11-29 2022-11-08 Yamaha Corporation Voice synthesis method, voice synthesis apparatus, and recording medium
JP2020166298A (ja) * 2020-07-01 2020-10-08 ヤマハ株式会社 音声合成方法
JP7180642B2 (ja) 2020-07-01 2022-11-30 ヤマハ株式会社 音声合成方法、音声合成システムおよびプログラム
WO2022080395A1 (ja) * 2020-10-15 2022-04-21 ヤマハ株式会社 音声合成方法およびプログラム

Also Published As

Publication number Publication date
US11495206B2 (en) 2022-11-08
JP6729539B2 (ja) 2020-07-22
CN116504218A (zh) 2023-07-28
US20200294484A1 (en) 2020-09-17
CN111418006B (zh) 2023-09-12
EP3719796A1 (en) 2020-10-07
CN111418006A (zh) 2020-07-14
EP3719796A4 (en) 2021-08-25
WO2019107378A1 (ja) 2019-06-06
US20230034572A1 (en) 2023-02-02

Similar Documents

Publication Publication Date Title
JP6729539B2 (ja) 音声合成方法、音声合成システムおよびプログラム
JP6724932B2 (ja) 音声合成方法、音声合成システムおよびプログラム
JP2014501941A (ja) クライアント端末機を用いた音楽コンテンツ製作システム
JP6733644B2 (ja) 音声合成方法、音声合成システムおよびプログラム
JP6784022B2 (ja) 音声合成方法、音声合成制御方法、音声合成装置、音声合成制御装置およびプログラム
JP2018004870A (ja) 音声合成装置および音声合成方法
WO2019181767A1 (ja) 音処理方法、音処理装置およびプログラム
JP6737320B2 (ja) 音響処理方法、音響処理システムおよびプログラム
JP7124870B2 (ja) 情報処理方法、情報処理装置およびプログラム
JP6977818B2 (ja) 音声合成方法、音声合成システムおよびプログラム
JP5360489B2 (ja) 音素符号変換装置および音声合成装置
JP5157922B2 (ja) 音声合成装置、およびプログラム
JP5176981B2 (ja) 音声合成装置、およびプログラム
JP7180642B2 (ja) 音声合成方法、音声合成システムおよびプログラム
JP2022065554A (ja) 音声合成方法およびプログラム
JP7127682B2 (ja) 情報処理方法、情報処理装置およびプログラム
JP6372066B2 (ja) 合成情報管理装置および音声合成装置
JP2022065566A (ja) 音声合成方法およびプログラム
JP2013134476A (ja) 音声合成装置及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200324

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200324

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200324

TRDD Decision of grant or rejection written
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200525

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200615

R151 Written notification of patent or utility model registration

Ref document number: 6729539

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151