JP2017167411A - 音声合成方法および音声合成制御装置 - Google Patents
音声合成方法および音声合成制御装置 Download PDFInfo
- Publication number
- JP2017167411A JP2017167411A JP2016053978A JP2016053978A JP2017167411A JP 2017167411 A JP2017167411 A JP 2017167411A JP 2016053978 A JP2016053978 A JP 2016053978A JP 2016053978 A JP2016053978 A JP 2016053978A JP 2017167411 A JP2017167411 A JP 2017167411A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- sound
- detected
- voice
- timing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 81
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 81
- 238000001308 synthesis method Methods 0.000 title claims abstract description 9
- 238000000034 method Methods 0.000 claims abstract description 96
- 230000005236 sound signal Effects 0.000 claims abstract description 35
- 238000001514 detection method Methods 0.000 claims description 38
- 230000002194 synthesizing effect Effects 0.000 claims description 14
- 238000009825 accumulation Methods 0.000 abstract description 6
- 230000001934 delay Effects 0.000 abstract 1
- 239000011295 pitch Substances 0.000 description 21
- 230000004048 modification Effects 0.000 description 19
- 238000012986 modification Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 238000009527 percussion Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000004044 response Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/18—Selecting circuits
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
【解決手段】一実施形態に係る音声合成方法は、入力音信号から発音タイミングを検出するステップと、発音タイミングが検出された場合、前回の発音タイミングが検出されてからしきい値時間が経過したか判断するステップと、前回の発音タイミングが検出されてからしきい値時間が経過したと判断された場合、第1方法による音声の合成を指示するステップと、前回の発音タイミングが検出されてから前記しきい値時間が経過していないと判断された場合、前記第1方法と異なる第2方法による音声の合成を指示するステップとを有する。
【選択図】図7
Description
図1は、関連技術に係る音声合成システム9の概要を示す図である。音声合成システム9は、音声合成装置90、マイクロフォン20、および打楽器30を有する。音声合成システム9は、打楽器30の演奏に応じてリアルタイムで音声を合成し、合成した音声を出力するものである。具体的には、まずマイクロフォン20が打楽器30の演奏音を音信号に変換する。音信号とは、音の波形を示す信号をいう。この音信号は、音声合成装置90に入力される。以下この音信号を「入力音信号」という。音声合成装置90は、入力音信号から発音タイミングを検出する。さらに音声合成装置90は、検出された発音タイミングに応じて音声を合成する。音声合成装置90は、合成された音声(以下「合成音声」という)をスピーカから出力する。音声合成システム9の理想的な動作は、打楽器30を叩くとほぼ同時に例えば「ぱ」という合成音声が出力されるというものである。
図4は、一実施形態に係る音声合成システム1の機能構成を示す図である。音声合成システム1は、音声合成装置10、マイクロフォン20、および打楽器30を有する。音声合成システム1は、打楽器30の演奏に応じて音声合成装置10がリアルタイムで音声を合成し、合成した音声を出力するものである。
図7は、音声合成装置10の一実施形態に係る動作を例示するフローチャートである。図7のフローは、一実施形態に係る音声合成方法を示す。例えば、ユーザによりアプリケーション152の起動が指示されたことを契機として開始される。
本発明は上述の実施形態に限定されるものではなく、種々の変形実施が可能である。以下、変形例をいくつか説明する。以下の変形例のうち2つ以上のものが組み合わせて用いられてもよい。
通常の方法における合成音声の音長は固定値に限定されない。例えば、入力音信号の波形に応じて音長が変更されてもよい。次式(1)は、通常の方法における音長L1が入力音信号の振幅に応じて変更される例(具体的には、振幅が大きいほど音長が長くなる例)を示している。
連続入力用の方法における音声合成の音長は特定の値に固定されるものに限定されない。例えば、連続入力用の方法における音長L2は、その時点で累積している遅延の量dに応じて変更されてもよい。次式(2)は、累積している遅延の量dが大きいほど音長が短くなる例を示している。
通常の方法と連続入力用の方法とで音長を異ならせる手法は実施形態で例示したものに限定されない。例えば、音声合成エンジン1522は、子音の時間長を調整することにより音長を調整してもよい。「ぱ」という音声の例では、音声合成エンジン1522は、「#p」、「p」、および「p−a」のうち少なくとも1つの素片データに相当する部分の時間長を調整することにより全体の音長を調整してもよい。母音の時間長を調整する例においても子音の時間長を調整する例においても、素片ライブラリが各素片につき時間長の長い素片データと短い素片データとを保持しており、音声合成エンジン1522は、通常の方法においては時間長の長い素片データを、連続入力用の方法においては時間長の短い素片データを、それぞれ使用してもよい。あるいは、素片ライブラリが各素片につき単一の素片データを保持しており、音声合成エンジン1522は、この素片データを加工することにより時間長を調整してもよい。
通常の方法と連続入力用の方法とは音長を異ならせるものに限定されない。連続入力用の方法は、例えば、前回と音高が異なる音声を合成するものであってもよい。この例で、第1音が発音されている途中で第2音のトリガーが検出された場合、トリガー検出モジュール1521は、第1音の発音を停止してその後第2音の発音を開始するのではなく、第1音の発音を継続したうえで、トリガーに応じたタイミングで音高を変化させる指示を生成する。すなわち、トリガー検出モジュール1521は、連続的にピッチベンドを発生させる。
図10は、変形例5に係る連続入力用の方法による音声合成を例示する図である。この例において、連続入力用の方法は、前回と音量が異なる音声を合成するものであってもよい。音量を変化させる処理は、変形例4において音高を変化させる処理と同様に行われる。この例も、変形例4と同様に演奏者の感じる違和感を低減することができる。
ソフトウェア構成と機能構成との対応関係は実施形態で例示したものに限定されない。例えば、トリガー検出モジュール1521ではなく音声合成エンジン1522が、判断手段13および指示手段14に相当する機能を有していてもよい。この場合、トリガー検出モジュール1521は、トリガーを検出すると、通常の方法と連続入力用の方法との区別無く、音声合成の指示を生成および出力する。音声合成エンジン1522は、トリガー検出モジュール1521から音声合成の指示が入力された場合に、前回のトリガーが検出されてからしきい値時間が経過したか判断する。音声合成エンジン1522は、この判断結果に応じて音声合成を行う。
音声合成システム1において用いられる楽器は打楽器に限定されない。鍵盤楽器、管楽器、または弦楽器など、打楽器以外の楽器が用いられてもよい。
Claims (7)
- 入力音信号から発音タイミングを検出するステップと、
前記発音タイミングが検出された場合、前回の発音タイミングが検出されてからしきい値時間が経過したか判断するステップと、
前回の発音タイミングが検出されてから前記しきい値時間が経過したと判断された場合、第1方法による音声の合成を指示するステップと、
前回の発音タイミングが検出されてから前記しきい値時間が経過していないと判断された場合、前記第1方法と異なる第2方法による音声の合成を指示するステップと
を有する音声合成方法。 - 前記第2方法は、前記第1方法により合成される音声よりも時間長が短い音声を合成する方法である
請求項1に記載の音声合成方法。 - 前記音声は、子音および母音の組み合わせにより表され、
前記第2方法は、前記第1方法により合成される音声よりも時間長が短い母音を含む音声を合成する方法である
請求項2に記載の音声合成方法。 - 前記音声は、子音および母音の組み合わせにより表され、
前記第2方法は、前記第1方法により合成される音声よりも時間長が短い子音を含む音声を合成する方法である
請求項2に記載の音声合成方法。 - 前記第2方法は、前回の発音タイミングにより合成された音声と音高が異なる音声を合成する方法である
請求項1に記載の音声合成方法。 - 前記第2方法は、前回の発音タイミングにより合成された音声と音量が異なる音声を合成する方法である
請求項1に記載の音声合成方法。 - 入力音信号から発音タイミングを検出する検出手段と、
前記発音タイミングが検出された場合、前回の発音タイミングが検出されてからしきい値時間が経過したか判断する判断手段と、
前回の発音タイミングが検出されてから前記しきい値時間が経過したと判断された場合、第1方法による音声の合成を指示し、前回の発音タイミングが検出されてから前記しきい値時間が経過していないと判断された場合、当該第1方法と異なる第2方法による音声の合成を指示する指示手段と
を有する音声合成制御装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016053978A JP6222262B2 (ja) | 2016-03-17 | 2016-03-17 | 音声合成方法および音声合成制御装置 |
PCT/JP2017/003452 WO2017159083A1 (ja) | 2016-03-17 | 2017-01-31 | 音声合成方法および音声合成制御装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016053978A JP6222262B2 (ja) | 2016-03-17 | 2016-03-17 | 音声合成方法および音声合成制御装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017167411A true JP2017167411A (ja) | 2017-09-21 |
JP6222262B2 JP6222262B2 (ja) | 2017-11-01 |
Family
ID=59850649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016053978A Active JP6222262B2 (ja) | 2016-03-17 | 2016-03-17 | 音声合成方法および音声合成制御装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6222262B2 (ja) |
WO (1) | WO2017159083A1 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015060340A1 (ja) * | 2013-10-23 | 2015-04-30 | ヤマハ株式会社 | 歌唱音声の合成 |
-
2016
- 2016-03-17 JP JP2016053978A patent/JP6222262B2/ja active Active
-
2017
- 2017-01-31 WO PCT/JP2017/003452 patent/WO2017159083A1/ja active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015060340A1 (ja) * | 2013-10-23 | 2015-04-30 | ヤマハ株式会社 | 歌唱音声の合成 |
Also Published As
Publication number | Publication date |
---|---|
JP6222262B2 (ja) | 2017-11-01 |
WO2017159083A1 (ja) | 2017-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10002604B2 (en) | Voice synthesizing method and voice synthesizing apparatus | |
JP7088159B2 (ja) | 電子楽器、方法及びプログラム | |
JP5642296B2 (ja) | 音響ジェスチャにより制御信号を発生するための入力インタフェース | |
US10354629B2 (en) | Sound control device, sound control method, and sound control program | |
US20210295819A1 (en) | Electronic musical instrument and control method for electronic musical instrument | |
JP2002007014A (ja) | 情報処理装置及び該情報処理装置を備えた楽器 | |
JP6705272B2 (ja) | 発音制御装置、発音制御方法、及びプログラム | |
JP7380809B2 (ja) | 電子機器、電子楽器、方法及びプログラム | |
Halmrast et al. | Gesture and timbre | |
JP2022071098A5 (ja) | 電子機器、電子楽器、方法及びプログラム | |
JP6760450B2 (ja) | 自動アレンジ方法 | |
JP2017058594A (ja) | 自動アレンジ装置及びプログラム | |
JP6693176B2 (ja) | 歌詞生成装置および歌詞生成方法 | |
JP6222262B2 (ja) | 音声合成方法および音声合成制御装置 | |
US20220044662A1 (en) | Audio Information Playback Method, Audio Information Playback Device, Audio Information Generation Method and Audio Information Generation Device | |
JP6044284B2 (ja) | 音声合成装置 | |
JP6809608B2 (ja) | 歌唱音生成装置及び方法、プログラム | |
JP6693596B2 (ja) | 自動伴奏データ生成方法及び装置 | |
JP2013210501A (ja) | 素片登録装置,音声合成装置,及びプログラム | |
JP2002041074A (ja) | ボーカルデータ生成装置および歌唱装置 | |
JP4180548B2 (ja) | 声域告知機能付きカラオケ装置 | |
JP5412766B2 (ja) | 電子楽器及びプログラム | |
Carelli | Voice to musical instrument translation in a performance environment | |
WO2023175844A1 (ja) | 電子管楽器及び電子管楽器の制御方法 | |
WO2018216423A1 (ja) | 楽曲評価装置、楽曲評価方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170629 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170629 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20170629 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20170831 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170905 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170918 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6222262 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |