JP6665446B2 - 情報処理装置、プログラム及び音声合成方法 - Google Patents

情報処理装置、プログラム及び音声合成方法 Download PDF

Info

Publication number
JP6665446B2
JP6665446B2 JP2015163763A JP2015163763A JP6665446B2 JP 6665446 B2 JP6665446 B2 JP 6665446B2 JP 2015163763 A JP2015163763 A JP 2015163763A JP 2015163763 A JP2015163763 A JP 2015163763A JP 6665446 B2 JP6665446 B2 JP 6665446B2
Authority
JP
Japan
Prior art keywords
voice
video
parameter
synthesis
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015163763A
Other languages
English (en)
Other versions
JP2017040867A (ja
Inventor
尚希 山本
尚希 山本
祐輝 村上
祐輝 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2015163763A priority Critical patent/JP6665446B2/ja
Priority to US15/241,186 priority patent/US9997153B2/en
Publication of JP2017040867A publication Critical patent/JP2017040867A/ja
Application granted granted Critical
Publication of JP6665446B2 publication Critical patent/JP6665446B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/368Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/091Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
    • G10H2220/101Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Processing Or Creating Images (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)

Description

本発明は、音声合成と映像を連動させる技術に関する。
コンピュータ装置において歌唱音声を合成する技術が知られている。音声合成には、種々のパラメータが用いられる(例えば特許文献1参照)。特許文献2および非特許文献1には、あらかじめ入力された歌詞を、ユーザの演奏に合わせてリアルタイムで音声合成する技術が記載されている。非特許文献1には、音声合成する際のパラメータを調整するためのUI(User Interface)画面が記載されている。
特開2008−165130号公報 特開2008−170592号公報
Vocaloid2取扱説明書,ヤマハ株式会社,2007年8月,p.113−115
音声合成装置の用途の一つに、ゲームやCG(Computer Graphics)アニメーションのような映像を伴うコンテンツの作成がある。しかし、特許文献1および2並びに非特許文献1はいずれも、単に音声合成を行う装置に過ぎず、音声合成のパラメータ変更と映像の変更とを連動させることができなかった。
これに対し本発明は、音声合成におけるパラメータ変更と、映像の変更とを連動させる技術を提供する。
本発明は、文字列を発声する音声を、音声パラメータを用いて合成する音声合成手段と、前記音声合成手段により合成された音声を発するキャラクターを示す仮想オブジェクトの映像を、映像パラメータを用いて合成する映像合成手段と、前記音声パラメータの変更指示を受け付ける受け付け手段と、前記音声パラメータの変更指示に応じて当該音声パラメータを変更する音声パラメータ変更手段と、前記音声パラメータの変更指示に応じて前記映像パラメータを変更する映像パラメータ変更手段とを有する情報処理装置を提供する。
この情報処理装置は、前記音声合成手段により合成された音声および前記映像合成手段により合成された映像を同期して再生する再生手段を有し、前記音声パラメータ変更手段および前記映像パラメータ変更手段は、前記再生手段が前記音声および前記映像の再生中に前記音声パラメータおよび前記映像パラメータを変更してもよい。
前記音声合成手段は、複数の区間に区切られた前記文字列について前記複数の区間の中から順次対象区間として特定された一の区間の文字列を用いて前記音声の合成を行い、前記複数の区間のうち第1区間の音声の合成が開始されてから第2区間の音声の合成が開始されるまでの間に受け付けられた前記変更指示に応じて変更された前記音声パラメータを用いて、当該第2区間の音声を合成してもよい。
前記音声合成手段は、複数の音声パラメータを用いて前記音声を合成し、前記映像合成手段は、複数の映像パラメータを用いて前記映像を合成し、前記複数の映像パラメータおよび前記複数の映像パラメータの対応関係を記憶した記憶手段を有し、前記映像パラメータ変更手段は、前記複数の映像パラメータのうち、前記記憶手段に記憶されている前記対応関係により特定される映像パラメータを変更してもよい。
前記複数の音声パラメータは、前記音声のダイナミクスを示すパラメータを含み、前記複数の映像パラメータは、前記キャラクターの大きさを示すパラメータを含み、前記受け付け手段が前記ダイナミクスの変更指示を受け付けた場合、前記映像パラメータ変更手段は、前記キャラクターの大きさを示すパラメータを変更してもよい。
本発明によれば、音声合成におけるパラメータ変更と、映像の変更とを連動させることができる。
一実施形態に係る情報処理装置1の機能構成を例示する図 情報処理装置1のハードウェア構成を例示する図 情報処理装置1におけるソフトウェア構成を例示する図 リアルタイムの音声合成および映像合成を示す図 音声合成制御部220の一実施形態に係る動作を例示するフローチャート 映像合成制御部250の一実施形態に係る動作を例示するフローチャート UI部210の一実施形態に係る動作を例示するフローチャート 音声パラメータと映像パラメータとの対応関係を例示する図 情報処理装置1全体の処理例を示すシーケンスチャート 再生アプリケーション200の画面表示を例示する図 再生アプリケーション200の画面表示を例示する図 再生アプリケーション200の画面表示を例示する図
1.構成
図1は、一実施形態に係る情報処理装置1の機能構成を例示する図である。情報処理装置1は、音声合成および映像合成を行う。音声合成とは、ある文字列(例えば歌詞)をあるメロディで発声した音声すなわち歌唱音声を生成(合成)する処理をいう。音声合成により生成された音声を「合成音声」という。情報処理装置1において、音声合成はリアルタイムで行われる。すなわち、ユーザは、音声合成に用いられるパラメータ(以下「音声パラメータ」という)を、合成音声の再生中に変更することができる。音声パラメータの変更は、再生中の合成音声に反映される。情報処理装置1は、さらに、映像合成を行う。映像合成とは、ある背景上である動きをする仮想オブジェクトの映像を生成(合成)する処理をいう。映像合成により生成された映像を「合成映像」という。情報処理装置1は、合成音声および合成映像を同期して再生する。ここで、音声パラメータの変更が指示されると、情報処理装置1は、音声パラメータに加えて、映像合成に用いられるパラメータ(以下「映像パラメータ」という)を変更する。すなわち、ユーザが音声パラメータの変更を指示すると、合成音声が変化するだけでなく、それに合わせて合成映像も変化する。
情報処理装置1は、音声合成手段11、映像合成手段12、指示受け付け手段13、音声パラメータ変更手段14、映像パラメータ変更手段15、記憶手段16、および再生手段17を有する。
音声合成手段11は、与えられた文字列およびメロディを音声パラメータに従って合成し、合成音声を生成する。音声パラメータは、合成音声を異ならせるためのパラメータである。同じ文字列および同じメロディが用いられたとしても、音声パラメータの値が異なれば、結果として得られる合成音声は異なる。音声合成手段11は、複数の音声パラメータを用いて音声合成を行う。音声パラメータの詳細は後述する。
映像合成手段12は、背景および仮想オブジェクトを映像パラメータに従って合成し、合成映像を生成する。映像パラメータは、合成映像を異ならせるためのパラメータである。同じ背景および同じ仮想オブジェクトが用いられたとしても、映像パラメータの値が異なれば、結果として得られる合成映像は異なる。映像合成手段12は、複数の映像パラメータを用いて映像合成を行う。映像パラメータの詳細は後述する。
指示受け付け手段13は、ユーザによる音声パラメータの変更指示を受け付ける。音声パラメータ変更手段14は、指示受け付け手段13により受け付けられた音声パラメータの変更指示に応じて、音声パラメータを変更する。音声パラメータの変更とは、音声パラメータの値を変更することをいう。映像パラメータ変更手段15は、その音声パラメータの変更指示に応じて、映像パラメータを変更する。映像パラメータの変更とは、映像パラメータの値を変更することをいう。この例で、記憶手段16は、複数の映像パラメータおよび複数の映像パラメータの対応関係を記憶している。映像パラメータ変更手段15は、複数の映像パラメータのうち、指示受け付け手段により変更指示が受け付けられた一の音声パラメータに対応する一の映像パラメータの値を変更する。
再生手段17は、合成音声および合成映像を同期して再生する。この例で、音声パラメータ変更手段14および映像パラメータ変更手段15は、再生手段17が合成音声および合成映像を再生している途中で音声パラメータおよび映像パラメータを変更する。
図2は、情報処理装置1のハードウェア構成を例示する図である。情報処理装置1は、CPU(Central Processing Unit)100、メモリ101、ストレージ102、入力装置103、表示装置104、および音声出力装置105を有するコンピュータ装置である。CPU100は、各種演算を行い、また他のハードウェア要素を制御する装置である。メモリ101は、CPU100が処理を実行する際に用いられるコードおよびデータを記憶する記憶装置であり、例えばROMおよびRAMを含む。ストレージ102は、各種のデータおよびプログラムを記憶する不揮発性の記憶装置であり、例えばHDD(Hard Disk Drive)またはフラッシュメモリを含む。入力装置103は、CPU100に情報を入力するための装置であり、例えばキーボード、タッチスクリーン、リモートコントローラ、およびマイクロフォンの少なくとも一つを含む。表示装置104は、映像を出力する装置であり、例えば液晶ディスプレイまたは有機ELディスプレイを含む。音声出力装置105は、音声を出力する装置であり、例えばDAコンバーター、増幅器、およびスピーカを含む。
図3は、情報処理装置1におけるソフトウェア構成を例示する図である。この例で、ストレージ102は、コンピュータ装置に音声合成、映像合成、並びに合成音声および合成映像の再生を行わせるためのプログラム(以下「再生プログラム」という)を記憶している。CPU100が再生プログラムを実行し、他のハードウェア要素と協働することにより、情報処理装置1において再生アプリケーション200が実装される。
再生アプリケーション200は、UI部210、音声合成制御部220、音声合成エンジン230、素片データベース240、映像合成制御部250、映像合成エンジン260、および再生部270を有する。音声合成制御部220は、音声合成の制御を行う。音声合成制御部220は、シーケンスデータ管理部221、歌詞データ管理部222、音声パラメータ管理部223、音声合成指示部224を有する。シーケンスデータ管理部221は、シーケンスデータを管理する。シーケンスデータは、メロディすなわち音符列を示す演奏情報の一例であり、具体的には例えばMIDI(Musical Instrument Digital Interface)データである。歌詞データ管理部222は、歌詞データを管理する。歌詞データは歌詞すなわち文字列を示すデータであり、例えばテキストデータである。歌詞データにより示される文字列はシーケンスデータにより示される音符と対応付けられている。音声パラメータ管理部223は、音声パラメータを管理する。音声合成指示部224(指示手段の一例)は、音声合成エンジン230に対し音声合成を指示する。
素片データベース240は、音声素片が記録されたデータベースである。音声素片とは、合成音声の基となる音声波形のデータである。音声素片は、人間の歌声をサンプリングした音声波形から抽出されたものであり、母音や子音などの発音単位(音素)に分割されている。各音声素片は、例えば、立ち上がり、子音から母音への遷移、母音から他の母音への遷移、母音の伸ばし、および減衰など、他の音素との前後関係によって区分されている。また、音声素片は実際の人間音声からサンプリングされるので、サンプリングの基となった歌手毎に区分されている。
音声合成エンジン230は、シーケンスデータ、歌詞データ、および素片データベース240を用いて音声合成を行う。具体的には、音声合成エンジン230は、まず、歌詞データにより示される文字列を音素に分解する。音声合成エンジン230は、音素に対応する音声素片を素片データベース240から読み出す。音声合成エンジン230は、読み出した音声素片を、シーケンスデータで示される音高に調整する。さらに、音声合成エンジン230は、音高が調整された音声素片を、音声パラメータにより応じて加工する。
音声パラメータは、例えば、ダイナミクス(DYN)、ジェンダー(GEN)、ベロシティ(VEL)、ブレシネス(BRE)、ブライトネス(BRI)、クリアネス(CLE)、ポルタメントタイミング(POL)、ピッチベンド(PIT)、およびピッチベンドセンシティビティ(PBS)の少なくとも一つを含む。音声パラメータは、このうち複数を含むことが好ましい。ダイナミクスは、音量を調整するパラメータである。なお詳細には、ダイナミクスは、音声合成において周波数帯毎に非線形にパワーを調整するためのものであって、単純な音量変化(周波数帯によらず一律にパワーを変化させる)とは違い音色の変化も生じさせるパラメータである。ジェンダーは、音声のフォルマント(男声らしさ、または女声らしさ)を調整するパラメータである。ベロシティは、発声の強弱、具体的には子音の長さを調整するパラメータである。ブレシネスは、息成分の強さを調整するパラメータである。ブライトネスは、音声のトーンすなわち明るさを調整するパラメータである。クリアネスは、声の透明感、具体的には音声の高音部分の強度を調整するパラメータである。ポルタメントタイミングは、音程変化の滑らかさ、具体的には音程差のある音に遷移する場合において音程の変化のタイミングを調整するパラメータである。ピッチベンドは、音高変化の有無を示すパラメータである。ピッチベンドセンシティビティは、音高変化の幅を示すパラメータである。
音声合成エンジン230は、加工された音声素片を接合し、与えられた文字列およびメロディに対応する合成音声を生成する。音声合成エンジン230は、生成した合成音声を出力する。
映像合成制御部250は、映像合成の制御を行う。映像合成制御部250は、背景管理部251、キャラクター管理部252、映像パラメータ管理部253、映像合成指示部254を有する。背景管理部251は、背景データを管理する。背景データは、映像の背景を示すデータである。この例で、背景は、仮想三次元空間である。仮想三次元空間は、例えば、コンサートホール、スタジアム、または家である。背景データは、仮想三次元空間の大きさおよび形状を規定するデータ、および仮想三次元空間内に固定された仮想オブジェクト(例えば、コンサートホールにおけるスポットライトおよびスクリーン)を規定するデータを含む。キャラクター管理部252は、キャラクターデータを管理する。キャラクターデータは、仮想三次元空間内に存在する仮想オブジェクトであるキャラクターを示すデータである。このキャラクターは、合成音声を発声する。キャラクターは動きを伴うものであればどのようなものでもよく、例えば、人間、動物、またはロボットである。キャラクターデータは、キャラクターの外観(形状、表情、色、装飾物等)を規定するデータ、およびキャラクターの動き(モーション、位置等)を規定するデータを含む。映像パラメータ管理部253は、映像パラメータを管理する。映像合成指示部254は、映像合成エンジン260に対し映像合成を指示する。
映像合成エンジン260は、背景データにより示される三次元仮想空間内に配置された、キャラクターデータにより示されるキャラクターの仮想オブジェクトを、仮想カメラで撮影した映像を合成し、映像データを出力する。映像データは合成映像を示すデータであり、所定のフレームレート(例えば30fpsまたは60fps)で変化する動画を示す。
合成映像は、映像パラメータにより変化する。映像パラメータは、キャラクターを変化させるもの、背景を変化させるもの、および仮想カメラのカメラワークを変化させるもの、の3つに分類される。キャラクターを変化させる映像パラメータには、例えば、背景に対するキャラクターの相対サイズを変化させるもの、キャラクターの色や装飾物を変化させるもの(例:衣服の着脱)、キャラクターの頭身を変化させるもの(例:2頭身から8頭身へ)、およびキャラクターの形状を変化させるもの(例:男性から女性へ)のうち少なくとも1つが含まれる。背景を変化させる映像パラメータには、例えば、仮想空間の種類を変化させるもの(例:コンサートホールからスタジアムへ)、および仮想空間内に固定された仮想オブジェクトの属性(例:スポットライトの色)を変化させるもののうち少なくとも1つが含まれる。カメラワークを変化させる映像パラメータには、仮想空間内における仮想カメラの位置(視点)を変化させるもの、仮想カメラの向き(パニング)を変化させるもの、および仮想カメラの画角(ズーム倍率)を変化させるもののうち少なくとも1つが含まれる。なお、映像パラメータは、ここで例示した属性を変化させるタイミング(時刻)を規定する情報を含む。すなわち、映像パラメータは、その値の時間的な変化を示す情報を含む時系列の情報である。映像パラメータは、以上で説明したもののうち少なくとも1つを含み、複数を含むことが好ましい。
UI部210は、UIに関する機能を提供する。UI部210は、UI制御部211およびUI監視部212を有する。UI制御部211は、UIを制御する。具体的には、UI制御部211は、例えば音声パラメータの変更を受け付けるための画面を表示装置104に表示させる。UI監視部212は、UIを監視する。具体的には、UI監視部212は、入力装置103に対してユーザが所定の操作を行うか監視する。
UI監視部212は、入力装置103を介して入力された指示に応じて、音声パラメータ管理部223に対して音声パラメータの値の変更を要求する。音声パラメータ管理部223は、この要求に応じて音声パラメータの値を変更する。さらに、UI監視部212は、ユーザが入力装置103を介して入力した指示に応じて、映像パラメータ管理部233に対して映像パラメータの値の変更を要求する。映像パラメータ管理部233は、この要求に応じて映像パラメータの値を変更する。すなわち、ユーザが入力装置103を介して行った1つの入力操作に基づいて音声パラメータおよび映像パラメータの双方が変更される。
再生部270は、合成音声および合成映像を同期して再生する。再生部270は、音声再生部271および映像再生部272を有する。音声再生部271は、音声を再生する。この例で、音声再生部271は、合成音声に加え伴奏音も再生する。伴奏音は人間の歌唱音声を含まない楽音、いわゆるカラオケである。伴奏音を出力するためのデータはあらかじめストレージ102に記憶されている。音声再生部271は、合成音声および伴奏音を同期させて再生する。映像再生部272は、合成映像を再生する。音声再生部271および映像再生部272は、例えば再生位置を示すポインターや処理タイミングを示すクロック信号を共有しており、これによって音声の再生と合成映像の再生を同期させる。
図4は、リアルタイムの音声合成および映像合成を示す図である。ここで、リアルタイムの音声合成とは、楽曲の最初から最後まで音声合成が完了した後でその合成音声を再生するのではなく、音声の合成と再生とを並列的に処理することをいう。リアルタイムの映像合成についても同様である。
この例で、シーケンスデータおよび歌詞データは複数の区間に分割される。これら複数の区間のうち一の区間が時系列で順次、対象区間として特定される。この対象区間につき、音声合成が行われる。なおこの区間は、例えば所定数の連続した小節を単位としたものである。あるいは、休符を区切りとして区間が定められてもよい(この場合、各区間の時間長は一様ではない)。以下の説明において、第i番の区間を「区間(i)」という。
この図では、音声合成については区間(i)〜区間(i+1)までの処理が示されている。時刻t1において、音声合成エンジン230は、区間(i)の音声合成を開始する。1区間の音声合成に要する時間はτaである。時刻t4において、音声合成エンジン230は、区間(i)の合成音声を出力する。なお、音声合成に要する時間τaは、1区間の音声の再生に要する時間Daよりも短い。また、音声合成が完了してからその音声が再生されるまでに時間的なマージンが確保されている。
音声の合成および再生と並行して、映像の合成および再生が行われる。以下の説明において、第j番の区間を「フレーム(j)」という。この図では、映像合成についてはフレーム(j)〜フレーム(j+5)までの処理が示されている。この例で、音声合成の単位である1区間と映像合成の単位である1フレームの時間長および始期はそれぞれ異なっている。1区間および1フレームの時間長は例えばプロセッサの処理能力に応じて決められるが、一例として1区間は0.5〜1秒であり、1フレームは16.7ミリ秒(60fpsに相当)である。なお図4では図面を簡単にするため、1区間と1フレームの時間長は数倍程度の差しかない例を示している。
時刻t2において、映像合成エンジン260は、フレーム(j)の映像合成を開始する。1フレームの映像合成に要する時間はτvである。時刻t3において、映像合成エンジン260は、フレーム(i)の合成映像を出力する。なお、映像合成に要する時間τvは、1フレームの時間Dfよりも短い。また、映像合成が完了してからその映像が再生されるまでに時間的なマージンが確保されている。
なお図2および図3の関係について説明すると、音声合成エンジン230は、音声合成手段11の一例である。映像合成エンジン260は、映像合成手段12の一例である。UI部210は、指示受け付け手段13の一例である。音声パラメータ管理部223は、音声パラメータ変更手段14の一例である。映像パラメータ管理部233は、映像パラメータ変更手段15の一例である。メモリ101およびストレージ102は、記憶手段16の一例である。再生部270は、再生手段17の一例である。
2.動作
以下、情報処理装置1の動作を説明する。UI部210、音声合成制御部220、および映像合成制御部250はそれぞれ並列的に動作しているので、まずこれらの動作を個別に説明した後、情報処理装置1全体の処理例を説明する。
2−1.音声合成制御部220
図5は、音声合成制御部220(特に音声合成指示部224)の一実施形態に係る動作を例示するフローチャートである。図5のフローは、例えば、再生アプリケーション200により合成音声および合成映像の再生が開始されたことを契機として開始される。
ステップS100において、音声合成指示部224は、音声の再生位置すなわち再生時刻が、区間内の所定の位置に達したか判断する。音声の再生位置は音声再生部271により管理されており、例えば、再生位置を示すパラメータである「ポインター」により示される。再生位置は時間の経過に伴って進行する。具体的には、ポインターの値は、クロック信号等により示される時間の経過に伴って加算される。音声合成指示部224は、ポインターの値を参照して音声の再生位置を得る。「所定の位置」とは次の区間の音声合成の開始タイミングに相当する位置であり、次の区間の再生が開始されることが予測される時刻から、音声合成に要する時間およびマージン分の時間を差し引いた時刻に相当する位置である。再生位置が所定の位置に達したと判断された場合(S100:YES)、音声合成指示部224は、処理をステップS110に移行する。再生位置が所定の位置に達していないと判断された場合(S100:NO)、音声合成指示部224は、再生位置が所定の位置に達するまで待機する。
ステップS110において、音声合成指示部224は、音声パラメータ管理部223から現時点の音声パラメータを取得し、さらに、シーケンスデータ管理部221および歌詞データ管理部222から、次の区間のシーケンスデータおよび歌詞データを取得する。
ステップS120において、音声合成指示部224は、取得した音声パラメータ、シーケンスデータ、および歌詞データを用いて音声合成するよう、音声合成エンジン230に指示する。音声合成指示部224は、再生の停止が指示されるまで、ステップS100〜S120の処理を繰り返し実行する。
2−2.映像合成制御部250
図6は、映像合成制御部250(特に映像合成指示部254)の一実施形態に係る動作を例示するフローチャートである。図6のフローは、例えば、再生アプリケーション200により合成音声および合成映像の再生が開始されたことを契機として開始される。
ステップS200において、映像合成指示部254は、映像の再生位置すなわち再生時刻が、フレーム内の所定の位置に達したか判断する。映像の再生位置は映像再生部272により管理されており、例えば、音声再生部271と共有されるポインターにより示される。音声再生部271において説明したように再生位置は時間の経過に伴って進行する。映像合成指示部254は、ポインターの値を参照して映像の再生位置を得る。「所定の位置」とは次のフレームの映像合成の開始タイミングに相当する位置であり、次のフレームの再生が開始されることが予測される時刻から、映像合成に要する時間およびマージン分の時間を差し引いた時刻に相当する位置である。再生位置が所定の位置に達したと判断された場合(S200:YES)、映像合成指示部254は、処理をステップS210に移行する。再生位置が所定の位置に達していないと判断された場合(S200:NO)、映像合成指示部254は、再生位置が所定の位置に達するまで待機する。
ステップS210において、映像合成指示部254は、映像パラメータ管理部253から現時点の映像パラメータを取得し、さらに、背景管理部251およびキャラクター管理部252から、次のフレームの背景データおよびキャラクターデータを取得する。
ステップS220において、映像合成指示部254は、取得した映像パラメータ、背景データ、およびキャラクターデータを用いて映像合成するよう、映像合成エンジン260に指示する。映像合成指示部254は、再生の停止が指示されるまで、ステップS200〜S220の処理を繰り返し実行する。
2−3.UI部210
図7は、UI部210の一実施形態に係る動作を例示するフローチャートである。図7のフローは、例えば、再生アプリケーションにより合成音声および合成映像の再生が開始されたことを契機として開始される。
ステップS300において、UI部210は、音声パラメータの変更指示が受け付けられたか判断する。音声パラメータの変更指示は、UI画面を介して受け付けられる。この変更指示は、変更の対象となる音声パラメータの識別子、および変更量を示す情報を含んでいる。音声パラメータの変更指示が受け付けられたと判断された場合(S300:YES)、UI部210は、処理をステップS310に移行する。音声パラメータの変更指示が受け付けられていないと判断された場合(S300:NO)、UI部210は、音声パラメータの変更指示が受け付けられるまで待機する。
ステップS310において、UI部210は、受け付けられた変更指示に応じて、音声パラメータの変更を、音声合成制御部220に指示する。音声パラメータ管理部223は、UI部210からの指示に応じて音声パラメータを変更する。
ステップS320において、UI部210は、受け付けられた変更指示に応じて、映像パラメータの変更を、音声合成制御部220に指示する。詳細には以下のとおりである。UI部210は、音声パラメータと映像パラメータとの対応関係を記憶している。
図8は、音声パラメータと映像パラメータとの対応関係を例示する図である。この例で、対応関係はテーブルとして記録されている。このテーブルは、「音声パラメータ」、「映像パラメータ」、および「係数」の項目を含む。「音声パラメータ」の欄には、対象となる音声パラメータの識別子が記録される。「映像パラメータ」の欄には、対象となる音声パラメータと対応する映像パラメータの識別子が記録される。「係数」の欄には、音声パラメータおよび映像パラメータの変化の量的関係を示す係数が記録される。図8の例では、音声パラメータ「ダイナミクス」と映像パラメータ「サイズ」とが関係しており、両者の量的な関係は1:1であることが示されている。さらに図8の例では、音声パラメータ「ジェンダー」と映像パラメータ「頭身」とが関係しており、両者の量的な関係は1:0.5であることが示されている。
UI部210は、受け付けられた変更指示に対し、対応する映像パラメータおよびその変更量を、図8のテーブルを参照して特定する。例えば、「ダイナミクス」を「−30」する変更指示が受け付けられた場合、UI部210は、映像パラメータ「サイズ」を「−30」する指示を生成する。UI部210は、生成された指示を映像合成制御部250に出力する。映像パラメータ管理部253は、UI部210からの指示に応じて映像パラメータを変更する。すなわち、ユーザが入力装置103を介して行った1つの入力操作に基づいて音声パラメータおよび映像パラメータの双方が変更される。図5〜7のフローは並列的に実行されるので、合成音声および合成映像の再生中において、再生と並行して音声パラメータおよび映像パラメータの変更を行い、さらにこの変更を反映して音声合成および映像合成を行うことができる。
2−4.全体処理の例
図9は、情報処理装置1全体の処理例を示すシーケンスチャートである。時刻T1において、UI部210が音声パラメータの変更指示を受け付ける。時刻T1において、UI部210は、音声パラメータ管理部223に対し、音声パラメータの変更を指示する。音声パラメータ管理部223は、指示に応じて音声パラメータを変更する。時刻T2において、UI部210は、映像パラメータ管理部253に対し、映像パラメータの変更を指示する。映像パラメータ管理部253は、指示に応じて映像パラメータを変更する。時刻T1における音声パラメータの変更指示と、時刻T2における音声パラメータの変更指示とは、時刻T1において受け付けられた、ユーザによる1つの入力操作に基づいて行われている。
映像合成指示部254は、所定のタイミングで、映像合成エンジン260に対し映像合成の指示を出力する。時刻T3において、映像パラメータ変更後の最初の映像合成の指示が映像合成エンジン260に出力される。この指示は、時刻T2に出された映像パラメータの変更指示が反映されている。これ以降、映像合成エンジン260は、新たな映像パラメータを用いて映像合成を行う。時刻T5から、新たな映像パラメータを用いて合成された映像が再生される(図のハッチング部分)。
音声合成指示部224は、所定のタイミングで、音声合成エンジン230に対し音声合成の指示を出力する。時刻T4において、音声パラメータ変更後の最初の音声合成の指示が音声合成エンジン230に出力される。この指示は、時刻T1に出された音声パラメータの変更指示が反映されている。これ以降、音声合成エンジン230は、新たな音声パラメータを用いて音声合成を行う。時刻T6から、新たな音声パラメータを用いて合成された音声が再生される(図のハッチング部分)。ここでは、T1<T2<T3<T4<T5<T6である。すなわち音声合成エンジン230は、複数の区間のうちある区間(第1区間の一例)の音声の合成が開始されてからその次の区間(第2区間の一例)の音声の合成が開始されるまでの間に受け付けられた変更指示に応じて変更された音声パラメータを用いて、次の区間の音声を合成する。
この例では、音声に関するシーケンスデータおよび歌詞データの区間の長さと映像データのフレーム長の差に起因して、新たな映像パラメータを用いて合成された映像の再生が開始される時刻と、新たな音声パラメータを用いて合成された音声の再生が開始される時刻とは、必ずしも完全に一致していない。特に、映像のフレーム長が音声合成の区間長よりも10〜100倍程度短い状況では、新たな映像パラメータを用いて合成された映像の再生が、新たな音声パラメータを用いて合成された音声の再生よりも先に開始される可能性が高い。
2−5.画面表示例
図10は、再生アプリケーション200の画面表示を例示する図である。この図は、合成音声および合成映像の再生中の画面を示している。この画面は、キャラクター91、背景92、ゲージ93、スライドバー94、ゲージ95、およびスライドバー96を含んでいる。キャラクター91は、合成音声を発する画像オブジェクトであり、この例では人間の女性である。背景92は、キャラクター91が置かれている仮想空間の画像オブジェクトを示し、この例ではコンサートホールのステージである。キャラクター91および背景92の画像は、音声の再生と同期して動いている(キャラクター91が振り付けやダンスをしたり、ステージの照明が変化したりする)。ゲージ93は、音声パラメータ「ダイナミクス」の現在値を示す画像オブジェクトである。スライドバー94は、音声パラメータ「ダイナミクス」の値を変更するための操作子を示す画像オブジェクトである。ゲージ95は、音声パラメータ「ジェンダー」の現在値を示す画像オブジェクトである。スライドバー96は、音声パラメータ「ジェンダー」の値を変更するための操作子を示す画像オブジェクトである。
この例で、情報処理装置1は入力装置103としてタッチスクリーンを有する。ユーザは、画面上のスライドバー94の位置をタッチしながら右または左に動かすことで、音声パラメータ「ダイナミクス」の値を増加または減少させることができる。
図11は、再生アプリケーション200の画面表示を例示する図である。この図は、図10から音声パラメータ「ダイナミクス」の値を増加させる入力操作が行われた例を示している。合成音声のダイナミクスは、この入力操作に応じた量、増加する。さらに、この入力操作に応じて、背景92に対するキャラクター91の相対サイズが増加している。ここでは参考のため、図10におけるキャラクター91のサイズを破線で示している(実際にはこの破線は表示されない)。この例によれば、合成音声の音量が増加するのとほぼ同期してキャラクター91の相対サイズが大きくなる。
図12は、再生アプリケーション200の画面表示を例示する図である。この図は、図10から音声パラメータ「ダイナミクス」の値を減少させる入力操作が行われた例を示している。合成音声のダイナミクスは、この入力操作に応じた量、減少する。さらに、この入力操作に応じて、背景92に対するキャラクター91の相対サイズが減少している。ここでは参考のため、図10におけるキャラクター91のサイズを破線で示している。この例によれば、合成音声の音量が減少するのとほぼ同期してキャラクター91の相対サイズが小さくなる。このように、本実施形態によれば、ユーザは、音声パラメータの変化に応じて映像パラメータが変化する合成映像を得ることができる。
3.変形例
本発明は上述の実施形態に限定されるものではなく、種々の変形実施が可能である。以下、変形例をいくつか説明する。以下の変形例のうち2つ以上のものが組み合わせて用いられてもよい。
3−1.変形例1
変更された音声パラメータが反映された合成音声の再生が開始されるタイミングと変更された映像パラメータが反映された合成映像の再生が開始されるタイミングの同期性を高めるための処理が行われてもよい。両者の差は、映像のフレーム長および音声合成の区間の長さの差に依存している。UI部210は、映像のフレーム長および音声合成の区間の長さの差に応じて、例えば映像パラメータ管理部253に変更指示を出力するタイミングを遅らせる。
3−2.変形例2
1つの画面に2つ以上のキャラクターが表示されてもよい。この場合、各キャラクターは、それぞれ異なる合成音声と対応付けられている。各キャラクターの音声合成に対して音声パラメータは独立して制御される。例えば画面に2つのキャラクターが表示される場合、図10〜12で例示した画面に、ゲージ93、スライドバー94、ゲージ95、およびスライドバー96の組が2組表示される。この2つのキャラクターは、例えば、メインボーカルとコーラス隊、または第1ボーカルと第2ボーカルである。ユーザは、各キャラクターの音声パラメータをそれぞれ別個に変更することができる。各キャラクターの映像パラメータは、音声パラメータの変更に応じて別個に変更される。
3−3.変形例3
音声合成および映像合成は、リアルタイムで行われるものに限定されない。例えば、音声合成および映像合成に先立って、ユーザは、音声パラメータの時間変化をあらかじめ編集する。UI部210は、編集された音声パラメータの時間変化に応じて、映像パラメータの時間変化を生成する。音声合成制御部220は、編集された音声パラメータの時間変化を用いて音声合成を行う。映像合成制御部250は、生成された映像パラメータの時間変化を用いて映像合成を行う。
3−4.変形例4
音声パラメータ、映像パラメータ、および両者の対応関係は、実施形態で例示したものに限定されない。1つの音声パラメータに2つ以上の映像パラメータが対応付けられていてもよい。例えば、音声パラメータ「ダイナミクス」に、キャラクターの相対サイズを示すパラメータおよび仮想カメラのズーム倍率が対応付けられていてもよい。この場合、ダイナミクスを増加させると、キャラクターの相対サイズが大きくなると供に仮想カメラのズーム率が増大する。
3−5.変形例5
情報処理装置1は物理的に単一の装置により構成されるものに限定されない。複数の装置の組み合わせが、上記で説明した情報処理装置1の機能を有していてもよい。例えば、ネットワークを介して接続されたサーバ/クライアントシステムが、情報処理装置1の機能を有していてもよい。一例としては、音声合成エンジン230、素片データベース240、および映像合成エンジン260の機能をサーバ装置が有しており、それ以外の機能をクライアント装置が有していてもよい。
3−6.変形例6
実施形態においては、音声パラメータの変更指示に応じて(映像パラメータそれ自体の変更指示は無くても)映像パラメータを変更する例を説明した。これと逆に、情報処理装置1は、映像パラメータの変更指示に応じて(音声パラメータそれ自体の変更指示は無くても)音声パラメータを変更してもよい。この場合、図10〜12で例示した画面において、音声パラメータを変更するための画像オブジェクト(ゲージ93、スライドバー94、ゲージ95、およびスライドバー96)に代えて、映像パラメータを変更するための画像オブジェクトが表示される。
3−7.変形例7
音声合成は、歌唱音声を合成するものに限定されない。メロディを伴わず、文字列のみから音声が合成されてもよい。
3−8.他の変形例
情報処理装置1のハードウェア構成は実施形態で例示したものに限定されない。要求される機能を実現できるものであれば、情報処理装置1はどのようなハードウェア構成を有していてもよい。情報処理装置1は、例えば、デスクトップPC、ノートPC、スマートフォン、タブレット端末、またはゲーム機であってもよい。
情報処理装置1のソフトウェア構成は実施形態で例示したものに限定されない。図3の機能の一部が、再生アプリケーション200とは別個のソフトウェアにより提供されてもよい。例えば、音声合成エンジン230、素片データベース240、および映像合成エンジン260が、再生アプリケーション200とは別のソフトウェアにより提供されてもよい。また、図1に例示した機能構成を実現するためのソフトウェア構成は図3に例示したものに限定されない。要求される機能を実現するものであれば情報処理装置1はどのようなソフトウェア構成を有していてもよい。例えば、情報処理装置1は、再生部270を有していなくてもよい。この場合、音声合成エンジン230により生成された合成音声、および映像合成エンジン260により生成された合成映像は、例えば記録媒体または他の装置に出力される。
情報処理装置1においてCPU100により実行されるプログラムは、光ディスク、磁気ディスク、半導体メモリなどの記憶媒体により提供されてもよいし、インターネット等の通信回線を介してダウンロードされてもよい。
1…情報処理装置、11…音声合成手段、12…映像合成手段、13…指示受け付け手段、14…音声パラメータ変更手段、15…映像パラメータ変更手段、16…記憶手段、100…CPU100…メモリ、102…ストレージ、103…入力装置、104…表示装置、105…音声出力装置、200…再生アプリケーション、210…UI部、211…UI監視部、212…UI制御部、220…音声合成制御部、221…シーケンスデータ管理部、222…歌詞データ管理部、223…音声パラメータ管理部、224…音声合成指示部、230…音声合成エンジン、240…素片データベース、250…映像合成制御部、251…背景管理部、252…キャラクター管理部、253…映像パラメータ管理部、254…映像合成指示部、260…映像合成エンジン、270…再生部、271…音声再生部、272…映像再生部

Claims (5)

  1. 文字列を発声する音声を、音声パラメータを用いて合成する音声合成手段と、
    前記音声合成手段により合成された音声を発するキャラクターを示す仮想オブジェクトの映像を、映像パラメータを用いて合成する映像合成手段と、
    前記音声パラメータの変更指示を受け付ける受け付け手段と、
    前記音声パラメータの変更指示に応じて当該音声パラメータを変更する音声パラメータ変更手段と、
    前記音声パラメータの変更指示に応じて前記映像パラメータを変更する映像パラメータ変更手段と
    前記文字列を複数の区間に区切り、前記複数の区間のうち一の区間を順次、対象区間として特定し、かつ前記対象区間の文字列を用いた音声の合成を前記音声合成手段に指示する指示手段と、
    前記音声合成手段により合成された音声および前記映像合成手段により合成された映像を同期して再生する再生手段と
    を有し、
    前記音声パラメータ変更手段および前記映像パラメータ変更手段は、前記再生手段が前記音声および前記映像の再生中に前記音声パラメータおよび前記映像パラメータを変更し、
    前記音声合成手段は、
    複数の区間に区切られた前記文字列について前記複数の区間の中から順次対象区間として特定された一の区間の文字列を用いて前記音声の合成を行い、
    前記複数の区間のうち第1区間の音声の合成が開始されてから第2区間の音声の合成が開始されるまでの間に受け付けられた前記変更指示に応じて変更された前記音声パラメータを用いて、当該第2区間の音声を合成する
    情報処理装置。
  2. 前記音声合成手段は、複数の音声パラメータを用いて前記音声を合成し、
    前記映像合成手段は、複数の映像パラメータを用いて前記映像を合成し、
    前記複数の映像パラメータおよび前記複数の映像パラメータの対応関係を記憶した記憶手段を有し、
    前記映像パラメータ変更手段は、前記複数の映像パラメータのうち、前記記憶手段に記憶されている前記対応関係により特定される映像パラメータを変更する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記複数の音声パラメータは、前記音声のダイナミクスを示すパラメータを含み、
    前記複数の映像パラメータは、前記キャラクターの大きさを示すパラメータを含み、
    前記受け付け手段が前記ダイナミクスの変更指示を受け付けた場合、前記映像パラメータ変更手段は、前記キャラクターの大きさを示すパラメータを変更する
    ことを特徴とする請求項に記載の情報処理装置。
  4. コンピュータを、
    文字列を発声する音声を、音声パラメータを用いて合成する音声合成手段と、
    前記音声合成手段により合成された音声を発するキャラクターを示す仮想オブジェクトの映像を、映像パラメータを用いて合成する映像合成手段と、
    前記音声パラメータの変更指示を受け付ける受け付け手段と、
    前記音声パラメータの変更指示に応じて当該音声パラメータを変更する音声パラメータ変更手段と、
    前記音声パラメータの変更指示に応じて前記映像パラメータを変更する映像パラメータ変更手段と、
    前記文字列を複数の区間に区切り、前記複数の区間のうち一の区間を順次、対象区間として特定し、かつ前記対象区間の文字列を用いた音声の合成を前記音声合成手段に指示する指示手段と、
    前記音声合成手段により合成された音声および前記映像合成手段により合成された映像を同期して再生する再生手段と
    して機能させるためのプログラムであって、
    前記音声パラメータ変更手段および前記映像パラメータ変更手段は、前記再生手段が前記音声および前記映像の再生中に前記音声パラメータおよび前記映像パラメータを変更し、
    前記音声合成手段は、
    複数の区間に区切られた前記文字列について前記複数の区間の中から順次対象区間として特定された一の区間の文字列を用いて前記音声の合成を行い、
    前記複数の区間のうち第1区間の音声の合成が開始されてから第2区間の音声の合成が開始されるまでの間に受け付けられた前記変更指示に応じて変更された前記音声パラメータを用いて、当該第2区間の音声を合成する
    プログラム。
  5. 文字列を発声する音声を、音声合成手段が音声パラメータを用いて合成するステップと、
    前記音声合成手段により合成された音声を発するキャラクターを示す仮想オブジェクトの映像を、映像合成手段が映像パラメータを用いて合成するステップと、
    前記音声パラメータの変更指示を受け付けるステップと、
    前記音声パラメータの変更指示に応じて当該音声パラメータを変更するステップと、
    前記音声パラメータの変更指示に応じて前記映像パラメータを変更するステップと、
    前記文字列を複数の区間に区切り、前記複数の区間のうち一の区間を順次、対象区間として特定し、かつ前記対象区間の文字列を用いた音声の合成を前記音声合成手段に指示するステップと、
    前記音声合成手段により合成された音声および前記映像合成手段により合成された映像を同期して再生手段が再生するステップと
    を有し、
    前記音声パラメータを変更するステップおよび前記映像パラメータを変更するステップは、前記再生手段が前記音声および前記映像の再生中に前記音声パラメータおよび前記映像パラメータを変更し、
    前記音声合成手段は、
    複数の区間に区切られた前記文字列について前記複数の区間の中から順次対象区間として特定された一の区間の文字列を用いて前記音声の合成を行い、
    前記複数の区間のうち第1区間の音声の合成が開始されてから第2区間の音声の合成が開始されるまでの間に受け付けられた前記変更指示に応じて変更された前記音声パラメータを用いて、当該第2区間の音声を合成する
    音声合成方法。
JP2015163763A 2015-08-21 2015-08-21 情報処理装置、プログラム及び音声合成方法 Active JP6665446B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015163763A JP6665446B2 (ja) 2015-08-21 2015-08-21 情報処理装置、プログラム及び音声合成方法
US15/241,186 US9997153B2 (en) 2015-08-21 2016-08-19 Information processing method and information processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015163763A JP6665446B2 (ja) 2015-08-21 2015-08-21 情報処理装置、プログラム及び音声合成方法

Publications (2)

Publication Number Publication Date
JP2017040867A JP2017040867A (ja) 2017-02-23
JP6665446B2 true JP6665446B2 (ja) 2020-03-13

Family

ID=58157784

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015163763A Active JP6665446B2 (ja) 2015-08-21 2015-08-21 情報処理装置、プログラム及び音声合成方法

Country Status (2)

Country Link
US (1) US9997153B2 (ja)
JP (1) JP6665446B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104966527B (zh) * 2015-05-27 2017-04-19 广州酷狗计算机科技有限公司 K歌处理方法、装置以及k歌处理系统
CN109643224A (zh) * 2016-08-29 2019-04-16 索尼公司 信息提示装置和信息提示方法
US10872598B2 (en) * 2017-02-24 2020-12-22 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
US10896669B2 (en) 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
CN107707974A (zh) * 2017-09-18 2018-02-16 广东九联科技股份有限公司 一种特效人声功能的实现方法及系统
US10872596B2 (en) 2017-10-19 2020-12-22 Baidu Usa Llc Systems and methods for parallel wave generation in end-to-end text-to-speech
CN107959882B (zh) * 2017-12-12 2019-12-13 广东小天才科技有限公司 基于视频观看记录的语音变换方法、装置、终端及介质
CN110390925B (zh) * 2019-08-02 2021-08-10 湖南国声声学科技股份有限公司深圳分公司 人声与伴奏同步方法、终端、蓝牙设备及存储介质
JP6843409B1 (ja) * 2020-06-23 2021-03-17 クリスタルメソッド株式会社 学習方法、コンテンツ再生装置、及びコンテンツ再生システム
JP2023027583A (ja) * 2021-08-17 2023-03-02 任天堂株式会社 ゲームプログラム、情報処理装置、情報処理システム、および、ゲーム処理方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3263996B2 (ja) * 1992-10-21 2002-03-11 キヤノン株式会社 番組制作装置、情報伝送方法及び再生装置
JP2001042879A (ja) * 1999-08-04 2001-02-16 Matsushita Electric Ind Co Ltd カラオケ装置
JP2003216173A (ja) * 2002-01-28 2003-07-30 Toshiba Corp 合成音声及び映像の同期制御方法、装置及びプログラム
JP2003331310A (ja) * 2002-05-16 2003-11-21 Yuji Baba 映像音声連動出力装置および方法
JP4716083B2 (ja) * 2004-07-27 2011-07-06 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
JP4247626B2 (ja) * 2005-01-20 2009-04-02 ソニー株式会社 再生装置および再生方法
JP2006226700A (ja) * 2005-02-15 2006-08-31 Fujitsu Ten Ltd ナビゲーション装置
JP2008154065A (ja) * 2006-12-19 2008-07-03 Roland Corp 効果付与装置
JP4858173B2 (ja) 2007-01-05 2012-01-18 ヤマハ株式会社 歌唱音合成装置およびプログラム
JP4735544B2 (ja) 2007-01-10 2011-07-27 ヤマハ株式会社 歌唱合成のための装置およびプログラム
JP5913394B2 (ja) * 2014-02-06 2016-04-27 Psソリューションズ株式会社 音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システム

Also Published As

Publication number Publication date
US20170053642A1 (en) 2017-02-23
US9997153B2 (en) 2018-06-12
JP2017040867A (ja) 2017-02-23

Similar Documents

Publication Publication Date Title
JP6665446B2 (ja) 情報処理装置、プログラム及び音声合成方法
JP5895740B2 (ja) 歌唱合成を行うための装置およびプログラム
JP5007563B2 (ja) 音楽編集装置および方法、並びに、プログラム
JP2021516787A (ja) オーディオ合成方法、並びにそのコンピュータプログラム、コンピュータ装置及びコンピュータ装置により構成されるコンピュータシステム
US9135909B2 (en) Speech synthesis information editing apparatus
JP2008170592A (ja) 歌唱合成のための装置およびプログラム
CN111418006B (zh) 声音合成方法、声音合成装置及记录介质
JP2017041213A (ja) 合成音声編集装置
JP2017111372A (ja) 音声合成方法、音声合成制御方法、音声合成装置および音声合成制御装置
JP5625321B2 (ja) 音声合成装置およびプログラム
JP2016090916A (ja) 音声合成装置
JP5151245B2 (ja) データ再生装置、データ再生方法およびプログラム
JP5614262B2 (ja) 音楽情報表示装置
US11437016B2 (en) Information processing method, information processing device, and program
JP5157922B2 (ja) 音声合成装置、およびプログラム
JP2009157220A (ja) 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法
JP5106437B2 (ja) カラオケ装置及びその制御方法並びにその制御プログラム
JP4720974B2 (ja) 音声発生装置およびそのためのコンピュータプログラム
JP5790860B2 (ja) 音声合成装置
JP5552797B2 (ja) 音声合成装置および音声合成方法
US12014723B2 (en) Information processing method, information processing device, and program
JP6583756B1 (ja) 音声合成装置、および音声合成方法
JP6439288B2 (ja) 合成情報管理装置および合成情報管理方法
JP2024057180A (ja) プログラム、音響処理方法および音響処理システム
JP2014170251A (ja) 音声合成装置、音声合成方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180625

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190625

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190820

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200203

R151 Written notification of patent or utility model registration

Ref document number: 6665446

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151