JP2020076843A - 情報処理方法および情報処理装置 - Google Patents

情報処理方法および情報処理装置 Download PDF

Info

Publication number
JP2020076843A
JP2020076843A JP2018209288A JP2018209288A JP2020076843A JP 2020076843 A JP2020076843 A JP 2020076843A JP 2018209288 A JP2018209288 A JP 2018209288A JP 2018209288 A JP2018209288 A JP 2018209288A JP 2020076843 A JP2020076843 A JP 2020076843A
Authority
JP
Japan
Prior art keywords
data
synthetic
model
singer
style
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018209288A
Other languages
English (en)
Other versions
JP6747489B2 (ja
JP2020076843A5 (ja
Inventor
竜之介 大道
Ryunosuke Daido
竜之介 大道
ブラアウ メルレイン
Brau Melrain
ブラアウ メルレイン
ジョルディ ボナダ
Bonada Jordi
ボナダ ジョルディ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=70611512&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2020076843(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Priority to JP2018209288A priority Critical patent/JP6747489B2/ja
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to PCT/JP2019/043510 priority patent/WO2020095950A1/ja
Priority to CN201980072848.6A priority patent/CN112970058A/zh
Priority to EP19882179.5A priority patent/EP3879524A4/en
Publication of JP2020076843A publication Critical patent/JP2020076843A/ja
Publication of JP2020076843A5 publication Critical patent/JP2020076843A5/ja
Publication of JP6747489B2 publication Critical patent/JP6747489B2/ja
Application granted granted Critical
Priority to US17/307,322 priority patent/US11942071B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • G10H1/14Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour during execution
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/002Instruments in which the tones are synthesised from a data store, e.g. computer organs using a common processing for different operations or calculations, and a set of microinstructions (programme) to control the sequence thereof
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/086Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for transcription of raw audio or music data to a displayed or printed staff representation or to displayable MIDI-like note-oriented data, e.g. in pianoroll format
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/011Files or data streams containing coded musical information, e.g. for transmission
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/081Genre classification, i.e. descriptive metadata for classification or selection of musical pieces according to style
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/541Details of musical waveform synthesis, i.e. audio waveshape processing from individual wavetable samples, independently of their origin or of the sound they represent
    • G10H2250/621Waveform interpolation
    • G10H2250/625Interwave interpolation, i.e. interpolating between two different waveforms, e.g. timbre or pitch or giving one waveform the shape of another while preserving its frequency or vice versa
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】音声素片を必要とすることなく発音源と発音スタイルとの組合せを相違させた多様な合成音を生成する。【解決手段】情報処理装置100は、歌唱者を表す歌唱者データXaと歌唱スタイルを表すスタイルデータXbと歌唱条件を表す合成データXcと、を機械学習により生成された合成モデルMに入力することで、当該発音スタイルおよび発音条件のもとで歌唱者が発音した合成音の音響的な特徴を表す特徴データQを生成する合成処理部21を具備する。【選択図】図2

Description

本発明は、音声等の音響を合成する技術に関する。
任意の音韻の音声を合成する音声合成技術が従来から提案されている。例えば特許文献1には、複数の音声素片のうち目標の音韻に応じて選択された音声素片を相互に接続することで合成音を生成する素片接続型の音声合成技術が開示されている。
特開2007−240564号公報
近年の音声合成技術には、多様な発声者が多様な発音スタイルで発音した合成音を合成することが要求される。しかし、素片接続型の音声合成技術で以上の要求に対応するには、発声者と発音スタイルとの組合せ毎に複数の音声素片の集合を個別に用意する必要がある。したがって、音声素片の用意に過大な労力が必要であるという問題がある。以上の事情を考慮して、本発明は、音声素片を必要とすることなく発音源(例えば発声者)と発音スタイルとの組合せを相違させた多様な合成音を生成することを目的とする。
以上の課題を解決するために、本発明の好適な態様に係る情報処理方法は、発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音した合成音の音響的な特徴を表す特徴データを生成する。
本発明の好適な態様に係る情報処理装置は、発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音した合成音の音響的な特徴を表す特徴データを生成する合成処理部を具備する。
本発明の実施形態に係る情報処理装置の構成を例示するブロック図である。 情報処理装置の機能的な構成を例示するブロック図である。 合成処理の具体的な手順を例示するフローチャートである。 学習処理の説明図である。 学習処理の具体的な手順を例示するフローチャートである。 補充処理の説明図である。 補充処理の具体的な手順を例示するフローチャートである。 第2実施形態における合成モデルの構成を例示するブロック図である。 第3実施形態における合成モデルの構成を例示するブロック図である。 変形例における合成処理の説明図である。
<第1実施形態>
図1は、本発明の第1実施形態に係る情報処理装置100の構成を例示するブロック図である。情報処理装置100は、特定の歌唱者が特定の歌唱スタイルで楽曲を仮想的に歌唱した音声(以下「合成音」という)を生成する音声合成装置である。歌唱スタイル(発音スタイルの例示)は、例えば歌唱の仕方に関する特徴を意味する。例えばラップ,R&B(rhythm and blues)またはパンク等の各種の音楽ジャンルの楽曲に好適な歌い廻しが歌唱スタイルの好適例である。
図1に例示される通り、第1実施形態の情報処理装置100は、制御装置11と記憶装置12と入力装置13と放音装置14とを具備するコンピュータシステムで実現される。例えば携帯電話機、スマートフォンまたはパーソナルコンピュータ等の情報端末が、情報処理装置100として好適に利用される。
制御装置11は、例えばCPU(Central Processing Unit)等の単数または複数の処理回路で構成され、情報処理装置100の各要素を統括的に制御する。入力装置13は、利用者による操作を受付ける。例えば利用者が操作する操作子、または利用者による接触を検知するタッチパネルが、入力装置13として好適に利用される。また、音声入力が可能な収音装置を入力装置13として利用してもよい。放音装置14は、制御装置11からの指示に応じた音響を再生する。例えばスピーカまたはヘッドホンが放音装置14の典型例である。
記憶装置12は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体で構成された単数または複数のメモリであり、制御装置11が実行するプログラムと制御装置11が使用する各種のデータとを記憶する。なお、複数種の記録媒体の組合せにより記憶装置12を構成してもよい。また、情報処理装置100に対して着脱可能な可搬型の記録媒体、または情報処理装置100が通信網を介して通信可能な外部記録媒体(例えばオンラインストレージ)を、記憶装置12として利用してもよい。第1実施形態の記憶装置12は、複数(Na個)の歌唱者データXaと複数(Nb個)のスタイルデータXbと合成データXcとを記憶する(NaおよびNbの各々は2以上の自然数)。なお、歌唱者データXaの個数NaとスタイルデータXbの個数Nbとの異同は不問である。
第1実施形態の記憶装置12は、相異なる歌唱者に対応するNa個の歌唱者データXa(発音源データの例示)を記憶する。各歌唱者の歌唱者データXaは、当該歌唱者が発音する歌唱音の音響的な特徴(例えば声質)を表すデータである。第1実施形態の歌唱者データXaは、多次元の第1空間における埋込ベクトル(embedding vector)である。第1空間は、歌唱音の音響的な特徴に応じて空間内における各歌唱者の位置が決定される連続空間である。歌唱者間で歌唱音の音響的な特徴が類似するほど、第1空間内における当該歌唱者間のベクトルの距離は小さい数値となる。以上の説明から理解される通り、第1空間は、歌唱音の特徴に関する歌唱者間の関係を表す空間と表現される。利用者は、入力装置13を適宜に操作することで、記憶装置12に記憶されたNa個の歌唱者データXaの何れか(すなわち所望の歌唱者)を選択する。なお、歌唱者データXaの生成については後述する。
第1実施形態の記憶装置12は、相異なる歌唱スタイルに対応するNb個のスタイルデータXbを記憶する。各歌唱スタイルのスタイルデータXbは、当該歌唱スタイルで発音される歌唱音の音響的な特徴を表すデータである。第1実施形態のスタイルデータXbは、多次元の第2空間における埋込ベクトルである。第2空間は、歌唱音の音響的な特徴に応じて空間内における各歌唱スタイルの位置が決定される連続空間である。歌唱スタイル間で歌唱音の音響的な特徴が類似するほど、第2空間内における当該歌唱スタイル間のベクトルの距離は小さい数値となる。すなわち、以上の説明から理解される通り、第2空間は、歌唱音の特徴に関する歌唱スタイル間の関係を表す空間と表現される。利用者は、入力装置13を適宜に操作することで、記憶装置12に記憶されたNb個のスタイルデータXbの何れか(すなわち所望の歌唱スタイル)を選択する。スタイルデータXbの生成については後述する。
合成データXcは、合成音の歌唱条件を指定する。第1実施形態の合成データXcは、楽曲を構成する複数の音符の各々について音高と音韻(発音文字)と発音期間とを指定する時系列データである。音符毎の音量等の制御パラメータの数値を合成データXcが指定してもよい。例えばMIDI(Musical Instrument Digital Interface)規格に準拠した形式のファイル(SMF:Standard MIDI File)が合成データXcとして好適である。
図2は、記憶装置12に記憶されたプログラムを制御装置11が実行することで実現される機能を例示するブロック図である。図2に例示される通り、第1実施形態の制御装置11は、合成処理部21と信号生成部22と学習処理部23とを実現する。なお、相互に別体で構成された複数の装置により制御装置11の機能を実現してもよい。制御装置11の機能の一部または全部を専用の電子回路で実現してもよい。
<合成処理部21および信号生成部22>
合成処理部21は、合成音の音響的な特徴を表す特徴データQの時系列を生成する。第1実施形態の特徴データQは、例えば合成音の基本周波数(ピッチ)Qaとスペクトル包絡Qbとを含む。スペクトル包絡Qbは、合成音の周波数スペクトルの概形である。特徴データQは、所定長(例えば5ミリ秒)の単位期間毎に順次に生成される。すなわち、第1実施形態の合成処理部21は、基本周波数Qaの時系列とスペクトル包絡Qbの時系列とを生成する。
信号生成部22は、特徴データQの時系列から音響信号Vを生成する。特徴データQの時系列を利用した音響信号Vの生成には、例えば公知のボコーダ技術が利用される。具体的には、信号生成部22は、基本周波数Qaに対応する周波数スペクトルにおける周波数毎の強度をスペクトル包絡Qbに応じて調整し、調整後の周波数スペクトルを時間領域に変換することで音響信号Vを生成する。信号生成部22が生成した音響信号Vが放音装置14に供給されることで、合成音が音波として放音装置14から放射される。なお、音響信号Vをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略した。
図2に例示される通り、第1実施形態では、合成処理部21による特徴データQの生成に合成モデルMが利用される。合成処理部21は、入力データZを合成モデルMに入力する。入力データZは、Na個の歌唱者データXaのうち利用者が選択した歌唱者データXaと、Nb個のスタイルデータXbのうち利用者が選択したスタイルデータXbと、記憶装置12に記憶された合成データXcとを含む。
合成モデルMは、入力データZと特徴データQとの関係を学習した統計的予測モデルである。第1実施形態の合成モデルMは、深層ニューラルネットワーク(DNN:Deep Neural Network)で構成される。具体的には、合成モデルMは、入力データZから特徴データQを生成する演算を制御装置11に実行させるプログラム(例えば人工知能ソフトウェアを構成するプログラムモジュール)と、当該演算に適用される複数の係数との組合せで実現される。合成モデルMを規定する複数の係数は、複数の学習データを利用した機械学習(特に深層学習)により設定されて記憶装置12に保持される。合成モデルMの機械学習については後述する。
図3は、第1実施形態の制御装置11が音響信号Vを生成する処理(以下「合成処理」という)の具体的な手順を例示するフローチャートである。例えば入力装置13に対する利用者からの指示を契機として図3の合成処理が開始される。
合成処理を開始すると、合成処理部21は、歌唱者データXaおよびスタイルデータXbの選択を利用者から受付ける(Sa1)。相異なる楽曲に対応する複数の合成データXcが記憶装置12に記憶されている場合、合成処理部21は、合成データXcの選択を利用者から受付けてもよい。合成処理部21は、利用者が選択した歌唱者データXaおよびスタイルデータXbと記憶装置12に記憶された合成データXcとを含む入力データZを合成モデルMに入力することで特徴データQの時系列を生成する(Sa2)。信号生成部22は、合成処理部21が生成した特徴データQの時系列から音響信号Vを生成する(Sa3)。
以上に説明した通り、第1実施形態では、歌唱者データXaとスタイルデータXbと合成データXcとを合成モデルMに入力することで特徴データQが生成される。したがって、音声素片を必要とせずに合成音を生成できる。また、歌唱者データXaと合成データXcとに加えてスタイルデータXbが合成モデルMに入力される。したがって、歌唱者データXaと合成データXcとに応じた特徴データQを生成する構成と比較して、歌唱者データXaを歌唱スタイル毎に用意することなく、歌唱者と歌唱スタイルとの組合せに対応した多様な音声の特徴データQを生成できるという利点がある。例えば、歌唱者データXaとともに選択するスタイルデータXbを変更することで、特定の歌唱者が相異なる複数種の歌唱スタイルで発音した合成音の特徴データQを生成できる。また、スタイルデータXbとともに選択する歌唱者データXaを変更することで、複数の歌唱者の各々が共通の歌唱スタイルで発音した合成音の特徴データQを生成できる。
<学習処理部23>
図2の学習処理部23は、機械学習により合成モデルMを生成する。学習処理部23による機械学習後の合成モデルMが、図3における特徴データQの生成(以下「推定処理」という)Sa2に利用される。図4は、学習処理部23による機械学習を説明するためのブロック図である。図4に例示される通り、合成モデルMの機械学習には複数の学習データLが利用される。複数の学習データLは記憶装置12に記憶される。また、機械学習の終了判定に利用される評価用の学習データ(以下「評価用データ」という)Lも記憶装置12に記憶される。
複数の学習データLの各々は、識別情報Faと識別情報Fbと合成データXcと音響信号Vとを含む。識別情報Faは、特定の歌唱者を識別するための数値列である。例えば、相異なる歌唱者に対応する複数の要素のうち特定の歌唱者に対応する要素が数値1に設定され、残余の要素が数値0に設定されたone-hot表現の数値列が、当該特定の歌唱者の識別情報Faとして好適に利用される。また、識別情報Fbは、特定の歌唱スタイルを識別するための数値列である。例えば、相異なる歌唱スタイルに対応する複数の要素のうち特定の歌唱スタイルに対応する要素が数値1に設定され、残余の要素が数値0に設定されたone-hot表現の数値列が、当該特定の歌唱スタイルの識別情報Fbとして好適に利用される。なお、識別情報Faまたは識別情報Fbについては、one-hot表現における数値1と数値0とを置換したone-cold表現を採用してもよい。識別情報Faと識別情報Fbと合成データXcとの組合せは学習データL毎に相違する。ただし、識別情報Faと識別情報Fbと合成データXcとの一部は、2個以上の学習データLについて共通してもよい。
任意の1個の学習データLに含まれる音響信号Vは、識別情報Faが表す歌唱者が、識別情報fbが表す歌唱スタイルで、合成データXcが表す楽曲を歌唱した場合における歌唱音の波形を表す信号である。例えば歌唱者が実際に発音した歌唱音を収録することで音響信号Vが事前に用意される。
図4に例示される通り、第1実施形態の学習処理部23は、機械学習の本来の目的である合成モデルMとともに符号化モデルEaおよび符号化モデルEbを一括的に訓練する。符号化モデルEaは、歌唱者の識別情報Faを当該歌唱者の歌唱者データXaに変換するエンコーダである。符号化モデルEbは、歌唱スタイルの識別情報Fbを当該歌唱スタイルのスタイルデータXbに変換するエンコーダである。符号化モデルEaおよび符号化モデルEbは、例えば深層ニューラルネットワークで構成される。符号化モデルEaが生成する歌唱者データXaと符号化モデルEbが生成するスタイルデータXbと学習データLの合成データXcとが合成モデルMに供給される。前述の通り、合成モデルMは、歌唱者データXaとスタイルデータXbと合成データXcとに応じた特徴データQの時系列を出力する。
図4に例示される特徴解析部24は、各学習データLの音響信号Vから特徴データQを生成する。特徴データQは、例えば基本周波数Qaとスペクトル包絡Qbとを含む。特徴データQの生成は、所定長(例えば5ミリ秒)の単位期間毎に反復される。すなわち、特徴解析部24は、基本周波数Qaの時系列とスペクトル包絡Qbの時系列とを音響信号Vから生成する。特徴データQは、合成モデルMの出力に関する既知の正解値に相当する。
学習処理部23は、合成モデルMと符号化モデルEaと符号化モデルEbとの各々について複数の係数を反復的に更新する。図5は、学習処理部23が実行する処理(以下「学習処理」という)の具体的な手順を例示するフローチャートである。例えば入力装置13に対する利用者からの指示を契機として学習処理が開始される。
学習処理を開始すると、学習処理部23は、記憶装置12に記憶された複数の学習データLの何れかを選択する(Sb1)。学習処理部23は、記憶装置12から選択した学習データLの識別情報Faを暫定的な符号化モデルEaに入力するとともに当該学習データLの識別情報Fbを暫定的な符号化モデルEbに入力する(Sb2)。符号化モデルEaは、識別情報Faに対応する歌唱者データXaを生成する。符号化モデルEbは、識別情報Fbに対応するスタイルデータXbを生成する。
学習処理部23は、符号化モデルEaが生成した歌唱者データXaおよび符号化モデルEbが生成したスタイルデータXbと、学習データLの合成データXcとを含む入力データZを、暫定的な合成モデルMに入力する(Sb3)。合成モデルMは、入力データZに応じた特徴データQを生成する。
学習処理部23は、合成モデルMが生成した特徴データQと、学習データLの音響信号Vから特徴解析部24が生成した特徴データQ(すなわち正解値)との誤差を表す評価関数を算定する(Sb4)。例えばベクトル間距離または交差エントロピー等の指標が評価関数として好適に利用される。学習処理部23は、評価関数が所定値(典型的にはゼロ)に近付くように、合成モデルMと符号化モデルEaと符号化モデルEbとの各々の複数の係数を更新する(Sb5)。評価関数に応じた複数の係数の更新には、例えば誤差逆伝播法が好適に利用される。
学習処理部23は、以上に説明した更新処理(Sb2〜Sb5)を所定の回数にわたり反復したか否かを判定する(Sb61)。更新処理の反復の回数が所定値を下回る場合(Sb61:NO)、学習処理部23は、記憶装置12から次の学習データLを選択(Sb1)したうえで、当該学習データLについて更新処理(Sb2〜Sb5)を実行する。すなわち、複数の学習データLの各々について更新処理が反復される。
更新処理(Sb2〜Sb5)の回数が所定値に到達した場合(Sb61:YES)、学習処理部23は、更新処理後の合成モデルMにより生成される特徴データQが所定の品質に到達したか否かを判定する(Sb62)。特徴データQの品質の評価には、記憶装置12に記憶された前述の評価用データLが利用される。具体的には、学習処理部23は、合成モデルMが評価用データLから生成した特徴データQと評価用データLの音響信号Vから特徴解析部24が生成した特徴データQ(正解値)との誤差を算定する。学習処理部23は、特徴データQ間の誤差が所定の閾値を下回るか否かに応じて、特徴データQが所定の品質に到達したか否かを判定する。
特徴データQが所定の品質に到達していない場合(Sb62:NO)、学習処理部23は、所定の回数にわたる更新処理(Sb2〜Sb5)の反復を開始する。以上の説明から理解される通り、所定の回数にわたる更新処理の反復毎に特徴データQの品質が評価される。特徴データQが所定の品質に到達した場合(Sb62:YES)、学習処理部23は、当該時点における合成モデルMを最終的な合成モデルMとして確定する(Sb7)。すなわち、最新の更新後の複数の係数が記憶装置12に記憶される。以上の手順で確定された学習済の合成モデルMが、前述の推定処理Sa2に利用される。
以上の説明から理解される通り、学習済の合成モデルMは、各学習データLに対応する入力データZと当該学習データLの音響信号Vに対応する特徴データQとの間に潜在する傾向のもとで、未知の入力データZに対して統計的に妥当な特徴データQを生成することが可能である。すなわち、合成モデルMは、入力データZと特徴データQとの関係を学習する。
また、符号化モデルEaは、合成モデルMが統計的に妥当な特徴データQを入力データZから生成できるように識別情報Faと歌唱者データXaとの関係を学習する。学習処理部23は、学習済の符号化モデルEaにNa個の識別情報Faの各々を順次に入力することでNa個の歌唱者データXaを生成する(Sb8)。以上の手順で符号化モデルEaが生成したNa個の歌唱者データXaが、推定処理Sa2のために記憶装置12に記憶される。Na個の歌唱者データXaが記憶された段階では、学習済の符号化モデルEaは不要である。
同様に、符号化モデルEbは、合成モデルMが統計的に妥当な特徴データQを入力データZから生成できるように識別情報FbとスタイルデータXbとの関係を学習する。学習処理部23は、学習済の符号化モデルEbにNb個の識別情報Fbの各々を順次に入力することでNb個のスタイルデータXbを生成する(Sb9)。以上の手順で符号化モデルEbが生成したNb個のスタイルデータXbが、推定処理Sa2のために記憶装置12に記憶される。Nb個のスタイルデータXbが記憶された段階では、学習済の符号化モデルEbは不要である。
<新規な歌唱者の歌唱者データXaの生成>
学習済の符号化モデルEaを利用してNa個の歌唱者データXaが生成されると、当該符号化モデルEaは不要である。したがって、符号化モデルEaはNa個の歌唱者データXaの生成後に破棄される。しかし、歌唱者データXaが生成されていない新規な歌唱者(以下「新規歌唱者」という)について歌唱者データXaを生成する必要が事後的に発生し得る。第1実施形態の学習処理部23は、新規歌唱者に対応する複数の学習データLnewと学習済の合成モデルMとを利用して、新規歌唱者の歌唱者データXaを生成する。
図6は、学習処理部23が新規歌唱者の歌唱者データXaを生成する処理(以下「補充処理」という)の説明図である。図6に例示される通り、複数の学習データLnewの各々は、新規歌唱者が特定の歌唱スタイルで楽曲を歌唱したときの歌唱音を表す音響信号Vと、当該楽曲の合成データXcとを含む。学習データLnewの音響信号Vは、新規歌唱者が実際に発音した歌唱音を収録することで事前に用意される。特徴解析部24は、各学習データLnewの音響信号Vから特徴データQの時系列を生成する。また、学習対象の変数として歌唱者データXaが合成モデルMに供給される。
図7は、補充処理の具体的な手順を例示するフローチャートである。補充処理を開始すると、学習処理部23は、記憶装置12に記憶された複数の学習データLnewの何れかを選択する(Sc1)。学習処理部23は、初期値に設定された歌唱者データXaと、新規歌唱者の歌唱スタイルに対応する既存のスタイルデータXbと、記憶装置12から選択した学習データLnewの合成データXcとを学習済の合成モデルMに入力する(Sc2)。歌唱者データXaの初期値は、例えば乱数に設定される。合成モデルMは、スタイルデータXbと合成データXcとに応じた特徴データQを生成する。
学習処理部23は、合成モデルMが生成した特徴データQと、学習データLnewの音響信号Vから特徴解析部24が生成した特徴データQ(すなわち正解値)との誤差を表す評価関数を算定する(Sc3)。学習処理部23は、評価関数が所定値(典型的にはゼロ)に近付くように、歌唱者データXaと合成モデルMの複数の係数とを更新する(Sc4)。なお、合成モデルMの複数の係数を固定したまま、評価関数が所定値に近付くように歌唱者データXaを更新してもよい。
学習処理部23は、以上に説明した追加更新(Sc2〜Sc4)を所定の回数にわたり反復したか否かを判定する(Sc51)。追加更新の回数が所定値を下回る場合(Sc51:NO)、学習処理部23は、記憶装置12から次の学習データLnewを選択したうえで(Sc1)、当該学習データLnewについて追加更新(Sc2〜Sc4)を実行する。すなわち、複数の学習データLnewの各々について追加更新が反復される。
追加更新(Sc2〜Sc4)の回数が所定値に到達した場合(Sc51:YES)、学習処理部23は、追加更新後の合成モデルMにより生成される特徴データQが所定の品質に到達したか否かを判定する(Sc52)。特徴データQの品質の評価には、前述の例示と同様に評価用データLが利用される。特徴データQが所定の品質に到達していない場合(Sc52:NO)、学習処理部23は、所定の回数にわたる追加更新(Sc2〜Sc4)の反復を開始する。以上の説明から理解される通り、所定の回数にわたる追加更新の反復毎に特徴データQの品質が評価される。特徴データQが所定の品質に到達した場合(Sc52:YES)、学習処理部23は、学習処理部23は、最新の更新後の複数の係数と歌唱者データXaとを確定値として記憶装置12に格納する(Sc6)。新規歌唱者の歌唱者データXaは、新規歌唱者が発生した歌唱音を合成するための合成処理に適用される。
なお、補充処理前の合成モデルMは、多様な歌唱者の学習データLを利用して学習済であるから、新規歌唱者について充分な個数の学習データLnewを用意できない場合でも、新規歌唱者の多様な合成音を生成することが可能である。例えば、新規歌唱者について学習データLnewが存在しない音韻や音高についても、学習済の合成モデルMを利用することで、高品質な合成音を頑健に生成することが可能である。すなわち、新規歌唱者について充分な学習データLnew(例えば全種類の音素の発音を含む学習データ)を必要とせずに当該新規歌唱者の合成音を生成できるという利点がある。
また、1人の歌唱者の学習データLのみを利用して訓練された合成モデルMについて、他の新規歌唱者の学習データLnewを利用して再学習を実行すると、合成モデルMの複数の係数が大幅に変化する場合がある。第1実施形態の合成モデルMは、多数の歌唱者の学習データLを利用して学習済である。したがって、新規歌唱者の学習データLnewを利用した再学習を実行しても、合成モデルMの複数の係数は大幅には変化しない。
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下の各例示において機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
図8は、第2実施形態における合成モデルMの構成を例示するブロック図である。図8に例示される通り、第2実施形態の合成モデルMは、第1学習済モデルM1と第2学習済モデルM2とを含む。第1学習済モデルM1は、例えば長短期記憶(LSTM:Long Short Term Memory)等の再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)で構成される。第2学習済モデルM2は、例えば畳込ニューラルネットワーク(CNN:Convolutional Neural Network)で構成される。第1学習済モデルM1および第2学習済モデルM2は、複数の学習データLを利用した機械学習により複数の係数が更新された学習済モデルである。
第1学習済モデルM1は、歌唱者データXaとスタイルデータXbと合成データXcとを含む入力データZに応じて中間データYを生成する。中間データYは、楽曲の歌唱に関する複数の要素の各々の時系列を表すデータである。具体的には、中間データYは、音高(例えば音名)の時系列と歌唱中の音量の時系列と音素の時系列とを表す。すなわち、歌唱者データXaが表す歌唱者が、スタイルデータXbが表す歌唱スタイルにより合成データXcの楽曲を歌唱したときの、音高と音量と音素との時間的な変化が、中間データYにより表現される。
第2実施形態の第1学習済モデルM1は、第1生成モデルG1と第2生成モデルG2とを具備する。第1生成モデルG1は、歌唱者データXaとスタイルデータXbとから表情データD1を生成する。表情データD1は、歌唱音の音楽的な表情の特徴を表すデータである。以上の説明から理解される通り、表情データD1は、歌唱者データXaとスタイルデータXbとの組合せに応じて生成される。第2生成モデルG2は、記憶装置12に記憶された合成データXcと第1生成モデルG1が生成した表情データD1とに応じて中間データYを生成する。
第2学習済モデルM2は、記憶装置12に記憶された歌唱者データXaと第1学習済モデルM1が生成した中間データYとに応じて特徴データQ(基本周波数Qaおよびスペクトル包絡Qb)を生成する。図8に例示される通り、第2学習済モデルM2は、第3生成モデルG3と第4生成モデルG4と第5生成モデルG5とを具備する。
第3生成モデルG3は、歌唱者データXaに応じた発音データD2を生成する。発音データD2は、歌唱者の発音機構(例えば声帯)および調音機構(例えば声道)の特徴を表すデータである。例えば、歌唱者の発音機構および調音機構により歌唱音に付与される周波数特性が発音データD2により表現される。
第4生成モデルG4(第1生成モデルの例示)は、第1学習済モデルM1が生成した中間データYと第3生成モデルG3が生成した発音データD2とに応じて特徴データQの基本周波数Qaの時系列を生成する。
第5生成モデルG5(第2生成モデルの例示)は、第1学習済モデルM1が生成した中間データYと第3生成モデルG3が生成した発音データD2と第4生成モデルG4が生成した基本周波数Qaの時系列とに応じて特徴データQのスペクトル包絡Qbの時系列を生成する。すなわち、第5生成モデルG5は、第4生成モデルG4が生成した基本周波数Qaの時系列に応じて合成音のスペクトル包絡Qbの時系列を生成する。第4生成モデルG4が生成した基本周波数Qaと第5生成モデルG5が生成したスペクトル包絡Qbとを含む特徴データQの時系列が信号生成部22に供給される。
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、基本周波数Qaの時系列を生成する第4生成モデルG4とスペクトル包絡Qbの時系列を生成する第5生成モデルG5とを合成モデルMが含む。したがって、入力データZと基本周波数Qaの時系列との関係を明示的に学習できるという利点がある。
<第3実施形態>
図9は、第3実施形態における合成モデルMの構成を例示するブロック図である。
図9に例示される通り、第3実施形態における合成モデルMの構成は第2実施形態と同様である。すなわち、第3実施形態の合成モデルMは、基本周波数Qaの時系列を生成する第4生成モデルG4と、スペクトル包絡Qbの時系列を生成する第5生成モデルG5とを含む。
第3実施形態の制御装置11は、第1実施形態と同様の要素(合成処理部21,信号生成部22および学習処理部23)に加えて、図9の編集処理部26としても機能する。編集処理部26は、第4生成モデルG4が生成した基本周波数Qaの時系列を、入力装置13に対する利用者からの指示に応じて編集する。
第5生成モデルG5は、第1学習済モデルM1が生成した中間データYと第3生成モデルG3が生成した発音データD2と編集処理部26による編集後の基本周波数Qaの時系列とに応じて特徴データQのスペクトル包絡Qbの時系列を生成する。編集処理部26による編集後の基本周波数Qaと第5生成モデルG5が生成したスペクトル包絡Qbとを含む特徴データQの時系列が信号生成部22に供給される。
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、利用者からの指示に応じた編集後の基本周波数Qaの時系列に応じてスペクトル包絡Qbの時系列が生成されるから、基本周波数Qaの時間的な遷移に利用者の意図が反映された合成音を生成することが可能である。
<変形例>
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
(1)前述の各形態では、合成モデルMの学習後に符号化モデルEaおよび符号化モデルEbを破棄したが、図10に例示される通り、符号化モデルEaおよび符号化モデルEbを合成モデルMとともに合成処理に利用してもよい。図10の構成では、入力データZが、歌唱者の識別情報Faと歌唱スタイルの識別情報Fbと合成データXcとを含む。符号化モデルEaが識別情報Faから生成した歌唱者データXaと、符号化モデルEbが識別情報Fbから生成したスタイルデータXbと、入力データZの合成データXcとが、合成モデルMに入力される。
(2)前述の各形態では、特徴データQが基本周波数Qaとスペクトル包絡Qbとを含む構成を例示したが、特徴データQの内容は以上の例示に限定されない。周波数スペクトルの特徴(以下「スペクトル特徴」という)を表す各種のデータが特徴データQとして好適である。特徴データQとして利用可能なスペクトル特徴としては、前述のスペクトル包絡Qbのほか、例えばメルスペクトル、メルケプストラム、メルスペクトログラムまたはスペクトログラムが例示される。なお、基本周波数Qaを特定可能なスペクトル特徴を特徴データQとして利用する構成では、特徴データQから基本周波数Qaを省略してもよい。
(3)前述の各形態では、新規歌唱者について補充処理により歌唱者データXaを生成したが、歌唱者データXaを生成する方法は以上の例示に限定されない。例えば、複数の歌唱者データXaを補間または補外することで、新規な歌唱者データXaを生成してもよい。歌唱者Aの歌唱者データXaと歌唱者Bの歌唱者データXaとを補間することで、歌唱者Aと歌唱者Bとの中間の声質で発声する仮想的な歌唱者の歌唱者データXaが生成される。
(4)前述の各形態では、合成処理部21(および信号生成部22)と学習処理部23との双方を具備する情報処理装置100を例示したが、合成処理部21と学習処理部23とを別個の情報処理装置に搭載してもよい。合成処理部21および信号生成部22を具備する情報処理装置は、入力データZから音響信号Vを生成する音声合成装置として実現される。音声合成装置において学習処理部23の有無は不問である。また、学習処理部23を具備する情報処理装置は、複数の学習データLを利用した機械学習で合成モデルMを生成する機械学習装置として実現される。機械学習装置において合成処理部21の有無は不問である。端末装置と通信可能なサーバ装置により機械学習装置を実現し、機械学習装置が生成した合成モデルMを端末装置に配信してもよい。端末装置は、機械学習装置から配信された合成モデルMを利用して合成処理を実行する合成処理部21を具備する。
(5)前述の各形態では、歌唱者が発音した歌唱音を合成したが、歌唱音以外の音響の合成にも本発明は適用される。例えば、音楽を要件としない会話音等の一般的な発話音の合成、または楽器の演奏音の合成にも、本発明は適用される。歌唱者データXaは、歌唱者のほかに発話者または楽器等を含む発音源を表す発音源データの一例に相当する。また、スタイルデータXbは、歌唱スタイルのほかに発話スタイルまたは演奏スタイル等を含む発音スタイルを表すデータとして包括的に表現される。合成データXcは、歌唱条件のほかに発話条件(例えば音韻)または演奏条件(例えば音高および音量)を含む発音条件を表すデータとして包括的に表現される。
(6)前述の各形態に係る情報処理装置100の機能は、コンピュータ(例えば制御装置11)とプログラムとの協働により実現される。本発明の好適な態様に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされる。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を含む。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。
(7)合成モデルMを実現するための人工知能ソフトウェアの実行主体はCPUに限定されない。例えば、Tensor Processing UnitもしくはNeural Engine等のニューラルネットワーク専用の処理回路、または、人工知能に専用されるDSP(Digital Signal Processor)が、人工知能ソフトウェアを実行してもよい。また、以上の例示から選択された複数種の処理回路が協働して人工知能ソフトウェアを実行してもよい。
<付記>
以上に例示した形態から、例えば以下の構成が把握される。
本発明の好適な態様(第1態様)に係る情報処理方法は、発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音した合成音の音響的な特徴を表す特徴データを生成する。以上の態様では、発音源データと合成データとスタイルデータとを機械学習済の合成モデルに入力することで合成音の音響的な特徴を表す特徴データが生成される。したがって、音声素片を必要とすることなく合成音を生成できる。また、発音源データと合成データとに加えてスタイルデータが合成モデルに入力される。したがって、発音源データと合成データとを学習済モデルに入力することで特徴データを生成する構成と比較して、発音源データを発音スタイル毎に用意することなく、発音源と発音スタイルとの組合せに対応した多様な音声の特徴データを生成できるという利点がある。
第1態様の好適例(第2態様)において、前記発音源データは、音響の特徴に関する発音源間の関係を表す第1空間におけるベクトルを表し、前記スタイルデータは、音響の特徴に関する発音スタイル間の関係を表す第2空間におけるベクトルを表す。以上の態様によれば、音響の特徴に関する発音源間の関係という観点で表現された発音源データと、音響の特徴に関する発音スタイル間の関係という観点で表現されたスタイルデータとを利用して、発音源と発音スタイルとの組合せに対応した適切な合成音の特徴データを生成できる。
第1態様または第2態様の好適例(第3態様)において、前記合成モデルは、前記合成音の基本周波数の時系列を生成する第1生成モデルと、前記第1生成モデルが生成した基本周波数の時系列に応じて前記合成音のスペクトル包絡の時系列を生成する第2生成モデルとを含む。以上の態様によれば、合成音の基本周波数の時系列を生成する第1生成モデルと合成音のスペクトル包絡の時系列を生成する第2生成モデルとを合成モデルが含むから、発音源データとスタイルデータと合成データとを含む入力と、基本周波数の時系列との関係を明示的に学習できるという利点がある。
第3態様の好適例(第4態様)において、前記第1生成モデルが生成した基本周波数の時系列を利用者からの指示に応じて編集し、前記第2生成モデルは、前記編集後の基本周波数の時系列に応じて前記合成音のスペクトル包絡の時系列を生成する。以上の態様によれば、利用者からの指示に応じた編集後の基本周波数の時系列に応じてスペクトル包絡の時系列が生成されるから、基本周波数の時間的な遷移に利用者の意図が反映された合成音を生成することが可能である。
以上に例示した各態様の情報処理方法を実行する情報処理装置、または、以上に例示した各態様の情報処理方法をコンピュータに実行させるプログラムとしても、本発明の好適な態様は実現される。
100…情報処理装置、11…制御装置、12…記憶装置、13…入力装置、14…放音装置、21…合成処理部、22…信号生成部、23…学習処理部、24…特徴解析部、26…編集処理部、M…合成モデル、Xa…歌唱者データ、Xb…スタイルデータ、Xc…合成データ、Z…入力データ、Q…特徴データ、V…音響信号、Fa,Fb…識別情報、Ea,Eb…符号化モデル、L,Lnew…学習データ。

Claims (3)

  1. 発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音した合成音の音響的な特徴を表す特徴データを生成する、
    コンピュータにより実現される情報処理方法。
  2. 前記発音源データは、音響の特徴に関する発音源間の関係を表す第1空間におけるベクトルを表し、
    前記スタイルデータは、音響の特徴に関する発音スタイル間の関係を表す第2空間におけるベクトルを表す
    請求項1の情報処理方法。
  3. 発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音した合成音の音響的な特徴を表す特徴データを生成する合成処理部
    を具備する情報処理装置。
JP2018209288A 2018-11-06 2018-11-06 情報処理方法、情報処理システムおよびプログラム Active JP6747489B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2018209288A JP6747489B2 (ja) 2018-11-06 2018-11-06 情報処理方法、情報処理システムおよびプログラム
PCT/JP2019/043510 WO2020095950A1 (ja) 2018-11-06 2019-11-06 情報処理方法および情報処理システム
CN201980072848.6A CN112970058A (zh) 2018-11-06 2019-11-06 信息处理方法及信息处理系统
EP19882179.5A EP3879524A4 (en) 2018-11-06 2019-11-06 INFORMATION PROCESSING METHOD AND SYSTEM
US17/307,322 US11942071B2 (en) 2018-11-06 2021-05-04 Information processing method and information processing system for sound synthesis utilizing identification data associated with sound source and performance styles

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018209288A JP6747489B2 (ja) 2018-11-06 2018-11-06 情報処理方法、情報処理システムおよびプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2020133036A Division JP7192834B2 (ja) 2020-08-05 2020-08-05 情報処理方法、情報処理システムおよびプログラム

Publications (3)

Publication Number Publication Date
JP2020076843A true JP2020076843A (ja) 2020-05-21
JP2020076843A5 JP2020076843A5 (ja) 2020-07-02
JP6747489B2 JP6747489B2 (ja) 2020-08-26

Family

ID=70611512

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018209288A Active JP6747489B2 (ja) 2018-11-06 2018-11-06 情報処理方法、情報処理システムおよびプログラム

Country Status (5)

Country Link
US (1) US11942071B2 (ja)
EP (1) EP3879524A4 (ja)
JP (1) JP6747489B2 (ja)
CN (1) CN112970058A (ja)
WO (1) WO2020095950A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021192119A (ja) * 2020-11-17 2021-12-16 北京百度網訊科技有限公司 音声合成モデルの属性登録方法、装置、電子機器、記憶媒体及びコンピュータプログラム
JP2022145465A (ja) * 2021-03-18 2022-10-04 カシオ計算機株式会社 情報処理装置、電子楽器、情報処理システム、情報処理方法、及びプログラム
WO2022244818A1 (ja) * 2021-05-18 2022-11-24 ヤマハ株式会社 機械学習モデルを用いた音生成方法および音生成装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6737320B2 (ja) 2018-11-06 2020-08-05 ヤマハ株式会社 音響処理方法、音響処理システムおよびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017045073A (ja) * 2016-12-05 2017-03-02 ヤマハ株式会社 音声合成方法および音声合成装置
JP2017107228A (ja) * 2017-02-20 2017-06-15 株式会社テクノスピーチ 歌声合成装置および歌声合成方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6304846B1 (en) * 1997-10-22 2001-10-16 Texas Instruments Incorporated Singing voice synthesis
CN1842702B (zh) * 2004-10-13 2010-05-05 松下电器产业株式会社 声音合成装置和声音合成方法
JP4839891B2 (ja) 2006-03-04 2011-12-21 ヤマハ株式会社 歌唱合成装置および歌唱合成プログラム
JP5293460B2 (ja) * 2009-07-02 2013-09-18 ヤマハ株式会社 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP5471858B2 (ja) * 2009-07-02 2014-04-16 ヤマハ株式会社 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP5510852B2 (ja) * 2010-07-20 2014-06-04 独立行政法人産業技術総合研究所 声色変化反映歌声合成システム及び声色変化反映歌声合成方法
CN104272382B (zh) * 2012-03-06 2018-08-07 新加坡科技研究局 基于模板的个性化歌唱合成的方法和系统
GB2501067B (en) 2012-03-30 2014-12-03 Toshiba Kk A text to speech system
JP5949607B2 (ja) * 2013-03-15 2016-07-13 ヤマハ株式会社 音声合成装置
JP6261924B2 (ja) 2013-09-17 2018-01-17 株式会社東芝 韻律編集装置、方法およびプログラム
US8751236B1 (en) * 2013-10-23 2014-06-10 Google Inc. Devices and methods for speech unit reduction in text-to-speech synthesis systems
CN104766603B (zh) * 2014-01-06 2019-03-19 科大讯飞股份有限公司 构建个性化歌唱风格频谱合成模型的方法及装置
JP6392012B2 (ja) 2014-07-14 2018-09-19 株式会社東芝 音声合成辞書作成装置、音声合成装置、音声合成辞書作成方法及び音声合成辞書作成プログラム
US9542927B2 (en) * 2014-11-13 2017-01-10 Google Inc. Method and system for building text-to-speech voice from diverse recordings
JP6000326B2 (ja) 2014-12-15 2016-09-28 日本電信電話株式会社 音声合成モデル学習装置、音声合成装置、音声合成モデル学習方法、音声合成方法、およびプログラム
JP6622505B2 (ja) 2015-08-04 2019-12-18 日本電信電話株式会社 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
JP6846237B2 (ja) 2017-03-06 2021-03-24 日本放送協会 音声合成装置及びプログラム
KR102199050B1 (ko) 2018-01-11 2021-01-06 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템
WO2019139431A1 (ko) 2018-01-11 2019-07-18 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템
JP6737320B2 (ja) 2018-11-06 2020-08-05 ヤマハ株式会社 音響処理方法、音響処理システムおよびプログラム
US11302329B1 (en) 2020-06-29 2022-04-12 Amazon Technologies, Inc. Acoustic event detection
US11551663B1 (en) 2020-12-10 2023-01-10 Amazon Technologies, Inc. Dynamic system response configuration

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017045073A (ja) * 2016-12-05 2017-03-02 ヤマハ株式会社 音声合成方法および音声合成装置
JP2017107228A (ja) * 2017-02-20 2017-06-15 株式会社テクノスピーチ 歌声合成装置および歌声合成方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021192119A (ja) * 2020-11-17 2021-12-16 北京百度網訊科技有限公司 音声合成モデルの属性登録方法、装置、電子機器、記憶媒体及びコンピュータプログラム
JP7335298B2 (ja) 2020-11-17 2023-08-29 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声合成モデルの属性登録方法、装置、電子機器、記憶媒体及びコンピュータプログラム
JP2022145465A (ja) * 2021-03-18 2022-10-04 カシオ計算機株式会社 情報処理装置、電子楽器、情報処理システム、情報処理方法、及びプログラム
WO2022244818A1 (ja) * 2021-05-18 2022-11-24 ヤマハ株式会社 機械学習モデルを用いた音生成方法および音生成装置

Also Published As

Publication number Publication date
WO2020095950A1 (ja) 2020-05-14
EP3879524A1 (en) 2021-09-15
US11942071B2 (en) 2024-03-26
EP3879524A4 (en) 2022-09-28
CN112970058A (zh) 2021-06-15
US20210256960A1 (en) 2021-08-19
JP6747489B2 (ja) 2020-08-26

Similar Documents

Publication Publication Date Title
CN110634460B (zh) 电子乐器、电子乐器的控制方法以及存储介质
CN110634461B (zh) 电子乐器、电子乐器的控制方法以及存储介质
CN110634464B (zh) 电子乐器、电子乐器的控制方法以及存储介质
JP6747489B2 (ja) 情報処理方法、情報処理システムおよびプログラム
CN109559718B (zh) 电子乐器、电子乐器的乐音产生方法以及存储介质
CN111418005B (zh) 声音合成方法、声音合成装置及存储介质
CN111696498B (zh) 键盘乐器以及键盘乐器的计算机执行的方法
CN111418006B (zh) 声音合成方法、声音合成装置及记录介质
US11842720B2 (en) Audio processing method and audio processing system
JP7147211B2 (ja) 情報処理方法および情報処理装置
JP3966074B2 (ja) ピッチ変換装置、ピッチ変換方法及びプログラム
JP7192834B2 (ja) 情報処理方法、情報処理システムおよびプログラム
WO2020241641A1 (ja) 生成モデル確立方法、生成モデル確立システム、プログラムおよび訓練データ準備方法
JP6819732B2 (ja) 電子楽器、電子楽器の制御方法、及びプログラム
WO2020158891A1 (ja) 音信号合成方法およびニューラルネットワークの訓練方法
JP2022065554A (ja) 音声合成方法およびプログラム
JP2022065566A (ja) 音声合成方法およびプログラム
WO2023171522A1 (ja) 音響生成方法、音響生成システムおよびプログラム
WO2022080395A1 (ja) 音声合成方法およびプログラム
JP2022145465A (ja) 情報処理装置、電子楽器、情報処理システム、情報処理方法、及びプログラム
JP5659501B2 (ja) 電子音楽装置及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200325

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200325

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200325

TRDD Decision of grant or rejection written
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200702

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200707

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200720

R151 Written notification of patent or utility model registration

Ref document number: 6747489

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R157 Certificate of patent or utility model (correction)

Free format text: JAPANESE INTERMEDIATE CODE: R157