JP7059524B2 - 歌唱合成方法、歌唱合成システム、及びプログラム - Google Patents
歌唱合成方法、歌唱合成システム、及びプログラム Download PDFInfo
- Publication number
- JP7059524B2 JP7059524B2 JP2017116830A JP2017116830A JP7059524B2 JP 7059524 B2 JP7059524 B2 JP 7059524B2 JP 2017116830 A JP2017116830 A JP 2017116830A JP 2017116830 A JP2017116830 A JP 2017116830A JP 7059524 B2 JP7059524 B2 JP 7059524B2
- Authority
- JP
- Japan
- Prior art keywords
- singing
- user
- voice
- song
- lyrics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 104
- 238000003786 synthesis reaction Methods 0.000 title claims description 102
- 238000001308 synthesis method Methods 0.000 title claims description 19
- 230000004044 response Effects 0.000 claims description 232
- 230000008451 emotion Effects 0.000 claims description 85
- 238000000034 method Methods 0.000 claims description 50
- 239000000203 mixture Substances 0.000 claims description 35
- 230000008569 process Effects 0.000 claims description 29
- 230000002194 synthesizing effect Effects 0.000 claims description 20
- 239000012634 fragment Substances 0.000 claims description 19
- 238000012937 correction Methods 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 description 58
- 238000012545 processing Methods 0.000 description 57
- 238000004458 analytical method Methods 0.000 description 50
- 239000000463 material Substances 0.000 description 23
- 238000003860 storage Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 19
- 238000005316 response function Methods 0.000 description 16
- 238000006243 chemical reaction Methods 0.000 description 12
- 238000000354 decomposition reaction Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 10
- 235000015220 hamburgers Nutrition 0.000 description 10
- 239000004615 ingredient Substances 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000033764 rhythmic process Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 238000005520 cutting process Methods 0.000 description 4
- 241000234282 Allium Species 0.000 description 3
- 235000002732 Allium cepa var. cepa Nutrition 0.000 description 3
- 235000009508 confectionery Nutrition 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 230000036760 body temperature Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000000465 moulding Methods 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 241001342895 Chorus Species 0.000 description 1
- 206010012289 Dementia Diseases 0.000 description 1
- 241001417093 Moridae Species 0.000 description 1
- 206010039740 Screaming Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 238000002715 modification method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/38—Chord
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/361—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/571—Chords; Chord sequences
- G10H2210/576—Chord progression
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2220/00—Input/output interfacing specifically adapted for electrophonic musical tools or instruments
- G10H2220/005—Non-interactive screen display of musical or status data
- G10H2220/011—Lyrics displays, e.g. for karaoke applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/075—Musical metadata derived from musical analysis or for use in electrophonic musical instruments
- G10H2240/085—Mood, i.e. generation, detection or selection of a particular emotional content or atmosphere in a musical piece
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/121—Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
- G10H2240/131—Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/315—Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
- G10H2250/455—Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
これに対し本発明は、ユーザに応じたパラメータを用いて自動的に歌唱合成をする技術を提供する。
図1は、一実施形態に係る音声応答システム1の概要を示す図である。音声応答システム1は、ユーザが声によって入力(又は指示)を行うと、それに対し自動的に音声による応答を出力するシステムであり、いわゆるAI(Artificial Intelligence)音声アシスタントである。以下、ユーザから音声応答システム1に入力される音声を「入力音声」といい、入力音声に対し音声応答システム1から出力される音声を「応答音声」という。特にこの例において、音声応答は歌唱を含む。すなわち、音声応答システム1は、歌唱合成システムの一例である。例えば、音声応答システム1に対しユーザが「何か歌って」と話しかけると、音声応答システム1は自動的に歌唱を合成し、合成された歌唱を出力する。
2-1.構成
図5は、学習機能51に係る機能構成を例示する図である。学習機能51に係る機能要素として、音声応答システム1は、音声分析部511、感情推定部512、楽曲解析部513、歌詞抽出部514、嗜好分析部515、記憶部516、及び処理部510を有する。また、入出力装置10は、ユーザの入力音声を受け付ける受け付け部、及び応答音声を出力する出力部として機能する。
図6は、学習機能51に係る音声応答システム1の動作の概要を示すフローチャートである。ステップS11において、音声応答システム1は、入力音声を分析する。ステップS12において、音声応答システム1は、入力音声により指示された処理を行う。ステップS13において、音声応答システム1は、入力音声が学習の対象となる事項を含むか判断する。入力音声が学習の対象となる事項を含むと判断された場合(S13:YES)、音声応答システム1は、処理をステップS14に移行する。入力音声が学習の対象となる事項を含まないと判断された場合(S13:NO)、音声応答システム1は、処理をステップS18に移行する。ステップS14において、音声応答システム1は、ユーザの感情を推定する。ステップS15において、音声応答システム1は、再生が指示された楽曲を解析する。ステップS16において、音声応答システム1は、再生が指示された楽曲の歌詞を取得する。ステップS17において、音声応答システム1は、ステップS14~S16において得られた情報を用いて、分類テーブルを更新する。
3-1.構成
図9は、歌唱合成機能52に係る機能構成を例示する図である。歌唱合成機能52に係る機能要素として、音声応答システム1は、音声分析部511、感情推定部512、記憶部516、検知部521、歌唱生成部522、伴奏生成部523、及び合成部524を有する。歌唱生成部522は、メロディ生成部5221及び歌詞生成部5222を有する。以下において、学習機能51と共通する要素については説明を省略する。
図10は、歌唱合成機能52に係る音声応答システム1の動作(歌唱合成方法)の概要を示すフローチャートである。ステップS21において、音声応答システム1は、歌唱合成をトリガするイベントが発生したか判断する。すなわち、音声応答システム1は、歌唱合成をトリガするイベントを検知する。歌唱合成をトリガするイベントは、例えば、ユーザから音声入力が行われたというイベント、カレンダーに登録されたイベント(例えば、アラーム又はユーザの誕生日)、ユーザから音声以外の手法(例えば入出力装置10に無線接続されたスマートフォン(図示略)への操作)により歌唱合成の指示が入力されたというイベント、及びランダムに発生するイベントのうち少なくとも1つを含む。歌唱合成をトリガするイベントが発生したと判断された場合(S21:YES)、音声応答システム1は、処理をステップS22に移行する。歌唱合成をトリガするイベントが発生していないと判断された場合(S21:NO)、音声応答システム1は、歌唱合成をトリガするイベントが発生するまで待機する。
図12は、応答機能53に係る音声応答システム1の機能構成を例示する図である。応答機能53に係る機能要素として、音声応答システム1は、音声分析部511、感情推定部512、及びコンテンツ分解部531を有する。以下において、学習機能51及び歌唱合成機能52と共通する要素については説明を省略する。コンテンツ分解部531は、一のコンテンツを複数の部分コンテンツに分解する。この例においてコンテンツとは、応答音声として出力される情報の内容をいい、具体的には、例えば、楽曲、ニュース、レシピ、又は教材(スポーツ教習、楽器教習、学習ドリル、クイズ)をいう。
以下、具体的な動作例をいくつか説明する。各動作例において特に明示はしないが、各動作例は、それぞれ、上記の学習機能、歌唱合成機能、及び応答機能の少なくとも1つ以上に基づくものである。なお以下の動作例はすべて日本語が使用される例を説明するが、使用される言語は日本語に限定されず、どのような言語でもよい。
図14は、音声応答システム1の動作例1を示す図である。この例において、ユーザは「佐藤一太郎(実演者名)の『さくらさくら』(楽曲名)をかけて」という入力音声により、楽曲の再生を要求する。音声応答システム1は、この入力音声に従って楽曲データベースを検索し、要求された楽曲を再生する。このとき、音声応答システム1は、この入力音声を入力したときのユーザの感情及びこの楽曲の解析結果を用いて、分類テーブルを更新する。分類テーブルは、楽曲の再生が要求される度に分類テーブルを更新する。分類テーブルは、ユーザが音声応答システム1に対し楽曲の再生を要求する回数が増えるにつれ(すなわち、音声応答システム1の累積使用時間が増えるにつれ)、よりそのユーザの嗜好を反映したものになっていく。
図15は、音声応答システム1の動作例2を示す図である。この例において、ユーザは「何か楽しい曲歌って」という入力音声により、歌唱合成を要求する。音声応答システム1は、この入力音声に従って歌唱合成を行う。歌唱合成に際し、音声応答システム1は、分類テーブルを参照する。分類テーブルに記録されている情報を用いて、歌詞及びメロディを生成する。したがって、ユーザの嗜好を反映した楽曲を自動的に作成することができる。
図16は、音声応答システム1の動作例3を示す図である。この例において、ユーザは「今日の天気は?」という入力音声により、気象情報の提供を要求する。この場合、処理部510はこの要求に対する回答として、コンテンツ提供部60のうち気象情報を提供するサーバにアクセスし、今日の天気を示すテキスト(例えば「今日は一日快晴」)を取得する。処理部510は、取得したテキストを含む、歌唱合成の要求を歌唱生成部522に出力する。歌唱生成部522は、この要求に含まれるテキストを歌詞として用いて、歌唱合成を行う。音声応答システム1は、入力音声に対する回答として「今日は一日快晴」にメロディ及び伴奏を付けた歌唱音声を出力する。
図17は、音声応答システム1の動作例4を示す図である。この例において、図示された応答が開始される前に、ユーザは音声応答システム1を2週間、使用し、恋愛の歌をよく再生していた。そのため、分類テーブルには、そのユーザが恋愛の歌が好きであることを示す情報が記録される。音声応答システム1は、「出会いの場所はどこがいい?」や、「季節はいつがいいかな?」など、歌詞生成のヒントとなる情報を得るためにユーザに質問をする。音声応答システム1は、これらの質問に対するユーザの回答を用いて歌詞を生成する。なおこの例において、使用期間がまだ2週間と短いため、音声応答システム1の分類テーブルは、まだユーザの嗜好を十分に反映できておらず、感情との対応付けも十分ではない。そのため、本当はユーザはバラード調の曲が好みであるにも関わらず、それとは異なるロック調の曲を生成したりする。
図18は、音声応答システム1の動作例5を示す図である。この例は、動作例3からさらに音声応答システム1の使用を続け、累積使用期間が1月半となった例を示している。動作例3と比較すると分類テーブルはユーザの嗜好をより反映したものとなっており、合成される歌唱はユーザの嗜好に沿ったものになっている。ユーザは、最初は不完全だった音声応答システム1の反応が徐々に自分の嗜好に合うように変化していく体験をすることができる。
図19は、音声応答システム1の動作例6を示す図である。この例において、ユーザは、「ハンバーグのレシピを教えてくれる?」という入力音声により、「ハンバーグ」の「レシピ」のコンテンツの提供を要求する。音声応答システム1は、「レシピ」というコンテンツが、あるステップが終了してから次のステップに進むべきものである点を踏まえ、コンテンツを部分コンテンツに分解し、ユーザの反応に応じて次の処理を決定する態様で再生することを決定する。
図20は、音声応答システム1の動作例7を示す図である。この例において、ユーザは、「世界史の年号の暗記問題出してくれる?」という入力音声により、「世界史」の「暗記問題」のコンテンツの提供を要求する。音声応答システム1は、「暗記問題」というコンテンツが、ユーザの記憶を確認するためのものである点を踏まえ、コンテンツを部分コンテンツに分解し、ユーザの反応に応じて次の処理を決定する態様で再生することを決定する。
図21は、音声応答システム1の動作例8を示す図である。動作例7と同様、ユーザは、「世界史」の「暗記問題」のコンテンツの提供を要求する。音声応答システム1は、「暗記問題」というコンテンツが、ユーザの記憶を確認するためのものである点を踏まえ、このコンテンツの一部を隠して出力する。隠すべき部分は、例えばコンテンツにおいて定義されていてもよいし、処理部510すなわちAIが形態素解析等の結果に基づいて判断してもよい。
図22は、音声応答システム1の動作例9を示す図である。この例において、ユーザは、「工場における工程の手順書を読み上げてくれる?」という入力音声により、「手順書」のコンテンツの提供を要求する。音声応答システム1は、「手順書」というコンテンツが、ユーザの記憶を確認するためのものである点を踏まえ、コンテンツを部分コンテンツに分解し、ユーザの反応に応じて次の処理を決定する態様で再生することを決定する。
図23は、音声応答システム1の動作例10を示す図である。動作例10は、高齢者の認知症対策の動作例である。この例において、ユーザが高齢者であることはあらかじめユーザ登録等により設定されている。音声応答システム1は、例えばユーザの指示に応じて既存の歌を歌い始める。音声応答システム1は、ランダムな位置、又は所定の位置(例えばサビの手前)において歌唱を一時停止する。その際、「うーん分からない」、「忘れちゃった」等のメッセージを発し、あたかも歌詞を忘れたかのように振る舞う。音声応答システム1は、この状態でユーザの応答を待つ。ユーザが何か音声を発すると、音声応答システム1は、ユーザが発した言葉(の一部)を正解の歌詞として、その言葉の続きから歌唱を出力する。なお、ユーザが何か言葉を発した場合、音声応答システム1は「ありがとう」等の応答を出力してもよい。ユーザの応答待ちの状態で所定時間が経過したときは、音声応答システム1は、「思い出した」等の話声を出力し、一時停止した部分の続きから歌唱を再開してもよい。
図24は、音声応答システム1の動作例11を示す図である。この例において、ユーザは「何か楽しい曲歌って」という入力音声により、歌唱合成を要求する。音声応答システム1は、この入力音声に従って歌唱合成を行う。歌唱合成の際に用いる素片データベースは、例えばユーザ登録時に選択されたキャラクタに応じて選択される(例えば、男性キャラクタが選択された場合、男性歌手による素片データベースが用いられる)。ユーザは、歌の途中で「女性の声に変えて」等、素片データベースの変更を指示する入力音声を発する。音声応答システム1は、ユーザの入力音声に応じて、歌唱合成に用いる素片データベースを切り替える。素片データベースの切り替えは、音声応答システム1が歌唱音声を出力しているときに行われてもよいし、動作例7~10のように音声応答システム1がユーザの応答待ちの状態のときに行われてもよい。
本発明は上述の実施形態に限定されるものではなく、種々の変形実施が可能である。以下、変形例をいくつか説明する。以下の変形例のうち2つ以上のものが組み合わせて用いられてもよい。
Claims (22)
- 歌唱合成のトリガを検知するステップと、
歌唱合成に用いるパラメータをユーザと対応付けて記録したテーブルから、前記トリガを入力したユーザに応じたパラメータを読み出すステップと、
前記読み出されたパラメータを用いて歌唱を合成するステップと
を有し、
前記テーブルには、前記歌唱合成に用いられる歌詞がユーザと対応付けて記録され、
前記歌唱を合成するステップにおいて、前記テーブルに含まれる歌詞を用いて歌唱が合成される
歌唱合成方法。 - 歌唱合成のトリガを検知するステップと、
歌唱合成に用いるパラメータをユーザと対応付けて記録したテーブルから、前記トリガを入力したユーザに応じたパラメータを読み出すステップと、
複数のソースの中から前記トリガに応じて選択された一のソースから歌詞を取得するステップと
前記読み出されたパラメータ及び前記選択された一のソースから取得された歌詞を用いて歌唱を合成するステップと
を有し、
前記複数のソースは、それぞれ異なるコンテンツを提供する複数のサーバを含む
歌唱合成方法。 - 前記複数のソースは、歌唱合成の要求を生成する生成部及び前記複数のサーバのいずれかを含む
請求項2に記載の歌唱合成方法。 - 前記テーブルには、前記歌唱合成に用いるパラメータがユーザ及び感情と対応付けて記録され、
前記トリガを入力したユーザの感情を推定するステップを有し、
前記テーブルから前記パラメータを読み出すステップにおいて、前記トリガを入力したユーザ及び当該ユーザの感情に応じたパラメータが読み出される
請求項1乃至3のいずれか一項に記載の歌唱合成方法。 - 前記ユーザの感情を推定するステップにおいて、前記ユーザの音声を分析して感情が推定される
請求項4に記載の歌唱合成方法。 - 前記感情を推定するステップは、少なくとも、前記ユーザの音声の内容に基づいて感情を推定する処理、又は音高、音量、若しくは速度の変化に応じて感情を推定する処理を含む
請求項5に記載の歌唱合成方法。 - 前記歌唱合成に用いる歌詞を取得するステップと、
前記歌唱合成に用いるメロディを取得するステップと、
前記歌詞及び前記メロディの一方を他方に合せて修正するステップと
を有する請求項1乃至6のいずれか一項に記載の歌唱合成方法。 - 複数の歌手から取得した音声素片が記録された複数のデータベースから、前記トリガに応じた一のデータベースを選択するステップを有し、
前記歌唱を合成するステップにおいて、前記一のデータベースに含まれる音声素片を用いて歌唱が合成される
請求項1乃至7のいずれか一項に記載の歌唱合成方法。 - 複数の歌手から取得した音声素片が記録された複数のデータベースから、前記トリガに応じた複数のデータベースを選択するステップを有し、
前記歌唱を合成するステップにおいて、前記複数のデータベースに含まれる複数の音声素片を組合せた音声素片を用いて歌唱が合成される
請求項1乃至8のいずれか一項に記載の歌唱合成方法。 - 前記合成された歌唱に対応する伴奏を生成するステップと、
前記合成された歌唱及び前記生成された伴奏を同期して出力するステップと
を有する請求項1乃至9のいずれか一項に記載の歌唱合成方法。 - 歌唱合成のトリガを検知する検知部と、
歌唱合成に用いるパラメータをユーザと対応付けて記録したテーブルから、前記トリガを入力したユーザに応じたパラメータを読み出す読み出し部と、
前記読み出されたパラメータを用いて歌唱を合成する合成部と
を有し、
前記テーブルには、前記歌唱合成に用いられる歌詞がユーザと対応付けて記録され、
前記合成部は、前記テーブルに含まれる歌詞を用いて歌唱が合成する
歌唱合成システム。 - 歌唱合成のトリガを検知する検知部と、
歌唱合成に用いるパラメータをユーザと対応付けて記録したテーブルから、前記トリガを入力したユーザに応じたパラメータを読み出す読み出し部と、
複数のソースの中から前記トリガに応じて選択された一のソースから歌詞を取得する取得部と、
前記読み出されたパラメータ及び前記選択された一のソースから取得された歌詞を用いて歌唱を合成する合成部と
を有し、
前記複数のソースは、それぞれ異なるコンテンツを提供する複数のサーバを含む
歌唱合成システム。 - 前記複数のソースは、歌唱合成の要求を生成する要求生成部及び前記複数のサーバのいずれかを含む
請求項12に記載の歌唱合成システム。 - 前記テーブルには、前記歌唱合成に用いるパラメータがユーザ及び感情と対応付けて記録され、
前記トリガを入力したユーザの感情を推定する推定部を有し、
前記読み出し部は、前記トリガを入力したユーザ及び当該ユーザの感情に応じたパラメータを読み出す
請求項11乃至13のいずれか一項に記載の歌唱合成方法。 - 前記推定部は、前記ユーザの音声を分析して感情を推定する
請求項14に記載の歌唱合成システム。 - 前記推定部は、少なくとも、前記ユーザの音声の内容に基づいて感情を推定する処理、又は音高、音量、若しくは速度の変化に応じて感情を推定する処理を行う
請求項15に記載の歌唱合成システム。 - 前記歌唱合成に用いる歌詞を取得する歌詞取得部と、
前記歌唱合成に用いるメロディを取得するメロディ取得部と、
前記歌詞及び前記メロディの一方を他方に合せて修正する修正部と
を有する請求項11乃至16のいずれか一項に記載の歌唱合成システム。 - 複数の歌手から取得した音声素片が記録された複数のデータベースから、前記トリガに応じた一のデータベースを選択する選択部を有し、
前記合成部は、前記一のデータベースに含まれる音声素片を用いて歌唱を合成する
請求項11乃至17のいずれか一項に記載の歌唱合成システム。 - 複数の歌手から取得した音声素片が記録された複数のデータベースから、前記トリガに応じた複数のデータベースを選択する選択部を有し、
前記合成部は、前記複数のデータベースに含まれる複数の音声素片を組合せた音声素片を用いて歌唱を合成する
請求項11乃至18のいずれか一項に記載の歌唱合成システム。 - 前記合成された歌唱に対応する伴奏を生成する伴奏生成部と、
前記合成された歌唱及び前記生成された伴奏を同期して出力する出力部と
を有する請求項11乃至19のいずれか一項に記載の歌唱合成方法。 - コンピュータに、
歌唱合成のトリガを検知するステップと、
歌唱合成に用いるパラメータをユーザと対応付けて記録したテーブルから、前記トリガを入力したユーザに応じたパラメータを読み出すステップと、
前記読み出されたパラメータを用いて歌唱を合成するステップと
を実行させるためのプログラムであって、
前記テーブルには、前記歌唱合成に用いられる歌詞がユーザと対応付けて記録され、
前記歌唱を合成するステップにおいて、前記テーブルに含まれる歌詞を用いて歌唱が合成される
プログラム。 - コンピュータに、
歌唱合成のトリガを検知するステップと、
歌唱合成に用いるパラメータをユーザと対応付けて記録したテーブルから、前記トリガを入力したユーザに応じたパラメータを読み出すステップと、
複数のソースの中から前記トリガに応じて選択された一のソースから歌詞を取得するステップと
前記読み出されたパラメータ及び前記選択された一のソースから取得された歌詞を用いて歌唱を合成するステップと
を実行させるためのプログラムであって、
前記複数のソースは、それぞれ異なるコンテンツを提供する複数のサーバのいずれかを含む
プログラム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017116830A JP7059524B2 (ja) | 2017-06-14 | 2017-06-14 | 歌唱合成方法、歌唱合成システム、及びプログラム |
PCT/JP2018/022815 WO2018230669A1 (ja) | 2017-06-14 | 2018-06-14 | 歌唱合成方法及び歌唱合成システム |
US16/622,387 US20200105244A1 (en) | 2017-06-14 | 2018-06-14 | Singing voice synthesis method and singing voice synthesis system |
CN201880038984.9A CN110741430B (zh) | 2017-06-14 | 2018-06-14 | 歌唱合成方法及歌唱合成系统 |
JP2022065847A JP7363954B2 (ja) | 2017-06-14 | 2022-04-12 | 歌唱合成システム及び歌唱合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017116830A JP7059524B2 (ja) | 2017-06-14 | 2017-06-14 | 歌唱合成方法、歌唱合成システム、及びプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022065847A Division JP7363954B2 (ja) | 2017-06-14 | 2022-04-12 | 歌唱合成システム及び歌唱合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019002999A JP2019002999A (ja) | 2019-01-10 |
JP7059524B2 true JP7059524B2 (ja) | 2022-04-26 |
Family
ID=64659154
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017116830A Active JP7059524B2 (ja) | 2017-06-14 | 2017-06-14 | 歌唱合成方法、歌唱合成システム、及びプログラム |
JP2022065847A Active JP7363954B2 (ja) | 2017-06-14 | 2022-04-12 | 歌唱合成システム及び歌唱合成方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022065847A Active JP7363954B2 (ja) | 2017-06-14 | 2022-04-12 | 歌唱合成システム及び歌唱合成方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20200105244A1 (ja) |
JP (2) | JP7059524B2 (ja) |
CN (1) | CN110741430B (ja) |
WO (1) | WO2018230669A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108877753B (zh) * | 2018-06-15 | 2020-01-21 | 百度在线网络技术(北京)有限公司 | 音乐合成方法及系统、终端以及计算机可读存储介质 |
US20200279553A1 (en) * | 2019-02-28 | 2020-09-03 | Microsoft Technology Licensing, Llc | Linguistic style matching agent |
WO2020230926A1 (ko) * | 2019-05-15 | 2020-11-19 | 엘지전자 주식회사 | 인공 지능을 이용하여, 합성 음성의 품질을 평가하는 음성 합성 장치 및 그의 동작 방법 |
CN111402858B (zh) * | 2020-02-27 | 2024-05-03 | 平安科技(深圳)有限公司 | 一种歌声合成方法、装置、计算机设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001215993A (ja) | 2000-01-31 | 2001-08-10 | Sony Corp | 対話処理装置および対話処理方法、並びに記録媒体 |
JP2002132281A (ja) | 2000-10-26 | 2002-05-09 | Nippon Telegr & Teleph Corp <Ntt> | 歌声メッセージ生成・配信方法及びその装置 |
US20090314155A1 (en) | 2008-06-20 | 2009-12-24 | Microsoft Corporation | Synthesized singing voice waveform generator |
JP2015148750A (ja) | 2014-02-07 | 2015-08-20 | ヤマハ株式会社 | 歌唱合成装置 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7693720B2 (en) * | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
JP2004077645A (ja) * | 2002-08-13 | 2004-03-11 | Sony Computer Entertainment Inc | 歌詞生成装置および歌詞生成機能を実現させるためのプログラム |
JP3864918B2 (ja) * | 2003-03-20 | 2007-01-10 | ソニー株式会社 | 歌声合成方法及び装置 |
JP4312663B2 (ja) * | 2003-06-17 | 2009-08-12 | パナソニック株式会社 | 楽曲選曲装置、楽曲選曲方法、プログラムおよび記録媒体 |
US20050137872A1 (en) * | 2003-12-23 | 2005-06-23 | Brady Corey E. | System and method for voice synthesis using an annotation system |
JP4298612B2 (ja) * | 2004-09-01 | 2009-07-22 | 株式会社フュートレック | 音楽データ加工方法、音楽データ加工装置、音楽データ加工システム及びコンピュータプログラム |
JP4735544B2 (ja) * | 2007-01-10 | 2011-07-27 | ヤマハ株式会社 | 歌唱合成のための装置およびプログラム |
CN103035235A (zh) * | 2011-09-30 | 2013-04-10 | 西门子公司 | 一种将语音转换为旋律的方法和装置 |
JP5598516B2 (ja) * | 2012-08-31 | 2014-10-01 | ブラザー工業株式会社 | カラオケ用音声合成システム,及びパラメータ抽出装置 |
US9558739B2 (en) * | 2012-11-13 | 2017-01-31 | GM Global Technology Operations LLC | Methods and systems for adapting a speech system based on user competance |
JP5660408B1 (ja) * | 2013-08-29 | 2015-01-28 | ブラザー工業株式会社 | 投稿楽曲演奏システム及び投稿楽曲演奏方法 |
JP6152753B2 (ja) * | 2013-08-29 | 2017-06-28 | ヤマハ株式会社 | 音声合成管理装置 |
JP2015082028A (ja) * | 2013-10-23 | 2015-04-27 | ヤマハ株式会社 | 歌唱合成装置および歌唱合成プログラム |
JP6070952B2 (ja) * | 2013-12-26 | 2017-02-01 | ブラザー工業株式会社 | カラオケ装置及びカラオケ用プログラム |
CN106652997B (zh) * | 2016-12-29 | 2020-07-28 | 腾讯音乐娱乐(深圳)有限公司 | 一种音频合成的方法及终端 |
CN114974184A (zh) * | 2022-05-20 | 2022-08-30 | 咪咕音乐有限公司 | 音频制作方法、装置、终端设备及可读存储介质 |
-
2017
- 2017-06-14 JP JP2017116830A patent/JP7059524B2/ja active Active
-
2018
- 2018-06-14 US US16/622,387 patent/US20200105244A1/en active Pending
- 2018-06-14 CN CN201880038984.9A patent/CN110741430B/zh active Active
- 2018-06-14 WO PCT/JP2018/022815 patent/WO2018230669A1/ja active Application Filing
-
2022
- 2022-04-12 JP JP2022065847A patent/JP7363954B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001215993A (ja) | 2000-01-31 | 2001-08-10 | Sony Corp | 対話処理装置および対話処理方法、並びに記録媒体 |
JP2002132281A (ja) | 2000-10-26 | 2002-05-09 | Nippon Telegr & Teleph Corp <Ntt> | 歌声メッセージ生成・配信方法及びその装置 |
US20090314155A1 (en) | 2008-06-20 | 2009-12-24 | Microsoft Corporation | Synthesized singing voice waveform generator |
JP2015148750A (ja) | 2014-02-07 | 2015-08-20 | ヤマハ株式会社 | 歌唱合成装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2018230669A1 (ja) | 2018-12-20 |
JP2022092032A (ja) | 2022-06-21 |
US20200105244A1 (en) | 2020-04-02 |
JP7363954B2 (ja) | 2023-10-18 |
CN110741430B (zh) | 2023-11-14 |
CN110741430A (zh) | 2020-01-31 |
JP2019002999A (ja) | 2019-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7424359B2 (ja) | 情報処理装置、歌唱音声の出力方法、及びプログラム | |
JP7363954B2 (ja) | 歌唱合成システム及び歌唱合成方法 | |
AU2012213646B2 (en) | Semantic audio track mixer | |
EP3675122B1 (en) | Text-to-speech from media content item snippets | |
KR101274961B1 (ko) | 클라이언트단말기를 이용한 음악 컨텐츠 제작시스템 | |
JP2021516787A (ja) | オーディオ合成方法、並びにそのコンピュータプログラム、コンピュータ装置及びコンピュータ装置により構成されるコンピュータシステム | |
EP3759706B1 (en) | Method, computer program and system for combining audio signals | |
JP5598516B2 (ja) | カラオケ用音声合成システム,及びパラメータ抽出装置 | |
Lesaffre et al. | The MAMI Query-By-Voice Experiment: Collecting and annotating vocal queries for music information retrieval | |
JP4808641B2 (ja) | 似顔絵出力装置およびカラオケ装置 | |
JP6756151B2 (ja) | 歌唱合成データ編集の方法および装置、ならびに歌唱解析方法 | |
JP3931442B2 (ja) | カラオケ装置 | |
CN110782866A (zh) | 一种演唱声音转换器 | |
CN108922505A (zh) | 信息处理方法及装置 | |
Bresin et al. | Rule-based emotional coloring of music performance | |
WO2022080395A1 (ja) | 音声合成方法およびプログラム | |
JP4447540B2 (ja) | カラオケ唱歌録音作品の鑑賞システム | |
Soto | From musical analysis to musical expression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200309 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210525 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210721 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220315 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220328 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7059524 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |