JP2017167411A - 音声合成方法および音声合成制御装置 - Google Patents

音声合成方法および音声合成制御装置 Download PDF

Info

Publication number
JP2017167411A
JP2017167411A JP2016053978A JP2016053978A JP2017167411A JP 2017167411 A JP2017167411 A JP 2017167411A JP 2016053978 A JP2016053978 A JP 2016053978A JP 2016053978 A JP2016053978 A JP 2016053978A JP 2017167411 A JP2017167411 A JP 2017167411A
Authority
JP
Japan
Prior art keywords
speech
sound
detected
voice
timing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016053978A
Other languages
English (en)
Other versions
JP6222262B2 (ja
Inventor
入山 達也
Tatsuya Iriyama
達也 入山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2016053978A priority Critical patent/JP6222262B2/ja
Priority to PCT/JP2017/003452 priority patent/WO2017159083A1/ja
Publication of JP2017167411A publication Critical patent/JP2017167411A/ja
Application granted granted Critical
Publication of JP6222262B2 publication Critical patent/JP6222262B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/18Selecting circuits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

【課題】連続的に検出された発音タイミングに対して出力される合成音声の遅延の累積を低減する。
【解決手段】一実施形態に係る音声合成方法は、入力音信号から発音タイミングを検出するステップと、発音タイミングが検出された場合、前回の発音タイミングが検出されてからしきい値時間が経過したか判断するステップと、前回の発音タイミングが検出されてからしきい値時間が経過したと判断された場合、第1方法による音声の合成を指示するステップと、前回の発音タイミングが検出されてから前記しきい値時間が経過していないと判断された場合、前記第1方法と異なる第2方法による音声の合成を指示するステップとを有する。
【選択図】図7

Description

本発明は、入力音信号を用いて音声合成をする技術に関する。
歌唱音声の合成を楽器と組み合わせた技術が知られている。例えば非特許文献1には、歌唱音声の合成を行う鍵盤楽器が記載されている。非特許文献1の鍵盤楽器は、スタイラスで鍵をタッチするとその鍵に対応する歌唱音声を合成する。
"歌うキーボード ポケットミク"、[online]、平成26年4月3日、[2016年3月9日検索]、インターネット<URL:http://otonanokagaku.net/nsx39/>
非特許文献1に記載の技術においては、ある鍵を短い時間間隔で連続してタッチした場合に、2回目以降のタッチに応じて合成される音声の発音の遅延が生じ、さらにこの遅延が累積してしまうことがあった。
これに対し本発明は、連続的に検出された発音タイミングに対して出力される合成音声の遅延の累積を低減する技術を提供する。
本発明は、入力音信号から音の発音タイミングを検出するステップと、前記発音タイミングが検出された場合において、前回の発音タイミングが検出されてからしきい値時間が経過したか判断するステップと、前回の発音タイミングが検出されてから前記しきい値時間が経過したと判断された場合、第1方法による音声の合成を指示するステップと、前回の発音タイミングが検出されてから前記しきい値時間が経過していないと判断された場合、前記第1方法と異なる第2方法による音声の合成を指示するステップとを有する音声合成方法を提供する。
前記第2方法は、前記第1方法により合成される音声よりも時間長が短い音声を合成する方法であってもよい。
前記音声は、子音および母音の組み合わせにより表され、前記第2方法は、前記第1方法により合成される音声よりも時間長が短い母音を含む音声を合成する方法であってもよい。
前記音声は、子音および母音の組み合わせにより表され、前記第2方法は、前記第1方法により合成される音声よりも時間長が短い子音を含む音声を合成する方法であってもよい。
前記第2方法は、前回の発音タイミングにより合成された音声と音高が異なる音声を合成する方法であってもよい。
前記第2方法は、前回の発音タイミングにより合成された音声と音量が異なる音声を合成する方法であってもよい。
また、本発明は、入力音信号から音の発音タイミングを検出する検出手段と、前記発音タイミングが検出された場合において、前回の発音タイミングが検出されてからしきい値時間が経過したか判断する判断手段と、前回の発音タイミングが検出されてから前記しきい値時間が経過したと判断された場合、第1方法による音声の合成を指示し、前回の発音タイミングが検出されてから前記しきい値時間が経過していないと判断された場合、当該第1方法と異なる第2方法による音声の合成を指示する指示手段とを有する音声合成制御装置を提供する。
本発明によれば、連続的に検出された発音タイミングに対して出力される合成音声の遅延の累積を低減することができる。
関連技術に係る音声合成システム9の概要を示す図。 入力音信号と合成音声の発音とのタイミングの関係を例示する図。 音声合成システム9の問題点を示す図。 一実施形態に係る音声合成システム1の機能構成を示す図。 音声合成装置10のハードウェア構成を例示する図。 音声合成装置10のソフトウェア構成を例示する図。 音声合成装置10の一実施形態に係る動作を例示するフローチャート。 本実施形態による合成音声を例示する図。 変形例4に係る連続入力用の方法による音声合成を例示する図。 変形例5に係る連続入力用の方法による音声合成を例示する図。
1.概要
図1は、関連技術に係る音声合成システム9の概要を示す図である。音声合成システム9は、音声合成装置90、マイクロフォン20、および打楽器30を有する。音声合成システム9は、打楽器30の演奏に応じてリアルタイムで音声を合成し、合成した音声を出力するものである。具体的には、まずマイクロフォン20が打楽器30の演奏音を音信号に変換する。音信号とは、音の波形を示す信号をいう。この音信号は、音声合成装置90に入力される。以下この音信号を「入力音信号」という。音声合成装置90は、入力音信号から発音タイミングを検出する。さらに音声合成装置90は、検出された発音タイミングに応じて音声を合成する。音声合成装置90は、合成された音声(以下「合成音声」という)をスピーカから出力する。音声合成システム9の理想的な動作は、打楽器30を叩くとほぼ同時に例えば「ぱ」という合成音声が出力されるというものである。
図2は、入力音信号と合成音声の発音とのタイミングの関係を例示する図である。この図において、横軸は時間を、縦軸は信号レベルを、それぞれ示している。入力音信号の信号レベルがあるしきい値を超えると、それがトリガー(すなわち発音タイミングまたはノートオンのタイミング)として検出され、音声合成処理が開始される。トリガーが検出されてから合成音声の出力が開始されるまでの所要時間は、この図の例では25msec程度である。合成音声は、子音の区間および母音の区間から構成される。子音の区間は約45msec、母音の区間は約205msecであり、1回のトリガーに対して出力される合成音声の時間長(ノート長)は合計で約250msecである。
演奏音を入力音信号としてリアルタイムで音声合成を行う場合には一般に以下の問題がある。第1に、演奏音自体からは発音終了(ノートオフ)のタイミングが必ずしも明確でないという点である。例えば鍵盤楽器において押鍵に応じて音声合成を行う場合には、ある鍵が押され、鍵の変位(または圧力)がしきい値を超えたら発音開始、そこからしきい値を下回ったら発音終了、というように演奏操作から発音終了のタイミングを特定することができる。しかし、特に打楽器においては、演奏音自体の信号波形は非常に時間の短いものであり(図3の例では50msec程度)、それと同じ時間で発音を終了したのでは音声としては不自然に聞こえてしまう。第2に、演奏者がどのような演奏を行うか音声合成装置90は事前には分からないという点である。つまり、あるタイミングでトリガーが検出されても、次のトリガーがいつ発生するか、その時点では音声合成装置90には分からない。したがって、人間の音声として自然に聞こえるためには、音声合成装置90としては、トリガーを検出すると標準的な時間長(例えば四分音符に相当する時間長)の音声を合成する。図3の例では、合成音声は250msec程度の時間長を有する。
図3は、音声合成システム9の問題点を示す図である。上記の状況においては以下の問題が発生する。すなわち、この図のように短い間隔で連続的にトリガーが検出された場合(図2の例では十六分音符が8回連続している)、第2音以降の発音が、トリガーが検出されたタイミングよりも遅れてしまうことがある。さらにこの遅延は、連続的に検出されるトリガーの数が増えるほど累積する。例えば第2音のトリガーが検出されたとき、トリガー検出から発音開始までの時間差25msecも考慮すると、その時点で第1音の発音はまだ35msecしか行われていない。そのため1音目の発音はそこからさらに215msec継続する。さらに、第2音のトリガーが検出されたとき、まだ1音目の発音の途中であり、第3音の発音が開始されるのはそこから345msec後である。
音声合成装置90において、トリガーが検出されたときにまだ前の音が発音中である場合には前の音の発音を停止し、次の音の発音を開始する構成を採用することもできる。しかしこの場合でも、人間の音声として自然に聞こえるためには、前の音の停止処理(例えば音を自然に減衰させる処理)にある程度(例えば50msec)の時間が必要である。トリガー検出から処理開始までの時間差25msecも考慮すると、第1音の発音中に第2音のトリガーが検出されてから第2音の発音が開始されるまでは少なくとも75msecの時間がかかる。この場合も、連続的に検出されるトリガーの数が増えるほど遅延が累積してしまう。さらに、第1音の発音中またはその停止処理中に第3音のトリガーが検出された場合、音声合成装置90は、第2音の発音およびその停止処理を行ってから第3音の発音を開始する。したがって、遅延は解消されることなく累積する。
演奏者が打楽器30をどのように演奏するかは分からない。したがって、例えば「入力(演奏操作)は100msec以上の間隔を空けること」といった制限を設けることは音声合成システムの利便性を著しく損なうので、このような制限を設けることは好ましくない。また、第1音のトリガーを検出しても、第2音のトリガーがいつ検出されるかは分からないので、第1音の音長を短くすることも好ましくない。あるいは、第1音の発音中に第2音のトリガーを検出した場合は第1音の停止処理を行わずそのまま第2音の発音を開始したとすると、発音が不連続で不自然なものになってしまうのでこれも好ましくない。本実施形態は、この遅延の累積に対処する。
2.構成
図4は、一実施形態に係る音声合成システム1の機能構成を示す図である。音声合成システム1は、音声合成装置10、マイクロフォン20、および打楽器30を有する。音声合成システム1は、打楽器30の演奏に応じて音声合成装置10がリアルタイムで音声を合成し、合成した音声を出力するものである。
音声合成装置10は、入力手段11、検出手段12、判断手段13、指示手段14、音声合成手段15、出力手段16を有する。このうち、入力手段11、検出手段12、判断手段13、および指示手段14は、音声合成制御装置100を構成している。入力手段11は、マイクロフォン20から入力音信号の入力を受け付ける。検出手段12は、入力音信号からトリガーすなわち発音タイミングを検出する。判断手段13は、検出手段12によってトリガーが検出された場合に、前回のトリガーが検出されてからしきい値時間が経過したか判断する。指示手段14は、判断手段13による判断結果に応じて、音声合成の指示を生成および出力する。すなわち指示手段14は、入力音信号を音声合成の指示に変換する。ここで、前回の発音タイミングが検出されてからしきい値時間が経過したと判断手段13により判断された場合、指示手段14は第1方法による音声の合成を指示する。前回の発音タイミングが検出されてからしきい値時間が経過していないと判断手段13により判断された場合、指示手段14は、第1方法と異なる第2方法による音声の合成を指示する。音声合成手段15は、指示手段14から出力された指示に従って音声合成を行う。出力手段16は、音声合成手段15により合成された音声を出力する。
図5は、音声合成装置10のハードウェア構成を例示する図である。音声合成装置10は、CPU101、メモリー102、ストレージ103、入力部104、出力部105、通信IF106を有するコンピュータ装置である。CPU101は、音声合成装置10の他の構成要素を制御する制御装置である。メモリー102は、CPU101がプログラムを実行する際のワークスペースとして機能する揮発性の記憶装置である。ストレージ103は、各種のデータおよびプログラムを記憶した不揮発性の記憶装置である。入力部104は、ユーザから命令または情報の入力を受け付ける入力装置であり、例えば、タッチセンサーおよびボタンの少なくとも1つを含む。出力部105は、外部に情報を出力する出力装置であり、例えば、ディスプレイおよびスピーカの少なくとも1つを含む。通信IF106は、他の装置、例えばネットワーク上のサーバ装置(図示略)と通信するためのインターフェースである。
図6は、音声合成装置10のソフトウェア構成を例示する図である。音声合成装置10は、OS151およびアプリケーション152を有する。これらのソフトウェアは、ストレージ103に記憶されており、CPU101により実行される。OS151は、コンピュータ装置の基本的な管理や制御のための機能を提供するためのソフトウェアである。アプリケーション152は、リアルタイムの音声合成機能を提供するためのソフトウェアである。アプリケーション152は、さらに、トリガー検出モジュール1521および音声合成エンジン1522を有する。トリガー検出モジュール1521は、入力音信号からトリガーを検出し、このトリガーに応じて音声合成の指示を生成する。トリガー検出モジュール1521は、生成した指示を音声合成エンジン1522に出力する。音声合成エンジン1522は、入力された指示に応じて音声合成を行い、合成音声を示す音信号のデータを出力する。OS151は、この音信号のデータに従って音を出力する。
この例では、トリガー検出モジュール1521が、入力手段11、検出手段12、判断手段13、および指示手段14の一例である。音声合成エンジン1522が音声合成手段15の一例である。OS151により制御されるスピーカが出力手段16の一例である。
3.動作
図7は、音声合成装置10の一実施形態に係る動作を例示するフローチャートである。図7のフローは、一実施形態に係る音声合成方法を示す。例えば、ユーザによりアプリケーション152の起動が指示されたことを契機として開始される。
ステップS1において、トリガー検出モジュール1521は、入力音信号の受け付けを開始する。ステップS1の処理は入力手段11の機能に相当する。ステップS2において、トリガー検出モジュール1521は、入力音信号からトリガーを検出する。トリガーの条件はアプリケーション152によりあらかじめ決められている。一例としては、トリガーの条件は、信号レベルの瞬時値がしきい値を超えたというものである。あるいは、トリガー検出モジュール1521は、直近の所定期間(例えば10msec)の音信号波形の形状等に基づいてトリガーの有無を判断してもよい。トリガーが検出されなかった場合(S2:NO)、トリガー検出モジュール1521は、トリガーが検出されるまで待機する。トリガーが検出された場合(S2:YES)、トリガー検出モジュール1521は、処理をステップS3に移行する。ステップS2の処理は検出手段12の機能に相当する。
ステップS3において、トリガー検出モジュール1521は、直近のトリガーが検出されてからしきい値時間が経過したか判断する。トリガー検出モジュール1521は、直近のトリガーが検出された時刻を特定するための情報を保持しており、この情報を用いてこの判断を行う。ここで用いられる「しきい値時間」は、前の音がまだ出力中であると推定される時間、一例としては250msecである。直近のトリガーが検出されてからしきい値時間が経過したと判断された場合(S3:YES)、トリガー検出モジュール1521は、処理をステップS4に移行する。直近のトリガーが検出されてからしきい値時間が経過していないと判断された場合(S3:NO)、トリガー検出モジュール1521は、処理をステップS5に移行する。ステップS3の処理は判断手段13の機能に相当する。
ステップS4において、トリガー検出モジュール1521は、通常の方法(第1方法の一例)による音声合成の指示を生成する。通常の方法とは、連続的なトリガーによる遅延の蓄積を考慮しない方法であり、例えば音長が250msecの音声合成を指示するものである。音声合成の指示は、例えば、音高、音長、および割り当てられた文字を特定するための情報を含む。音高および文字は、例えば、入力音信号の波形に応じて決められる。例えば、打楽器30がバスドラム、スネアドラム、およびハイハットを含み、これらにそれぞれ異なる音高および文字が割り当てられている例を考える。トリガー検出モジュール1521は、入力音信号の波形を解析し、演奏された楽器がバスドラム、スネアドラム、およびハイハットのいずれであるか判断する。トリガー検出モジュール1521は、演奏されたと判断された楽器に割り当てられた音高を、その合成音声の音高として決める。この例では音長はあらかじめ決められており、例えば250msecである。なお、音高および文字は入力音信号の波形に応じて決められるものに限定されない。音高および文字の少なくとも一方は、入力音信号の波形によらず、例えばアプリケーション152によりあらかじめ決められていてもよいし、ユーザの設定により決められてもよい。
ステップS5において、トリガー検出モジュール1521は、連続入力用の方法(第2方法の一例)による音声合成の指示を生成する。連続入力用の方法とは、連続的なトリガーによる遅延の蓄積を低減するための方法であり、この例では通常の方法よりも音長が短い音声合成を指示するものである。一例としては、トリガー検出モジュール1521は、音長が100msecの音声合成を指示する。音声合成の指示は、例えば、音高、音長、および割り当てられた文字を特定するための情報を含む。音高および文字についてはステップS4と同様である。ステップS4およびS5の処理は指示手段14の機能に相当する。
ステップS6において、音声合成エンジン1522は、トリガー検出モジュール1521から与えられた指示に従って音声合成を行う。音声合成には公知の技術を用いることができるのでここではその概要だけ説明する。音声合成エンジン1522は、素片ライブラリを有している。素片ライブラリは、ある特定の歌唱者の声からサンプリングした音楽素片(歌声の断片)を含むデータベースである。素片ライブラリには、その歌唱者の歌唱音声波形から採取された素片データが複数含まれている。素片データとは、歌唱音声波形から、音声学的な特徴部分を切り出して符号化した音声データである。
ここで、素片データについて、「さいた」という歌詞の歌唱音声を合成する場合を例として説明する。「さいた」という歌詞は発音記号で「saita」と表される。発音記号「saita」で表される音声の波形を特徴により分析すると、「s」の音の立ち上がり部分→「s」の音→「s」の音から「a」の音への遷移部分→「a」の音…と続き、「a」の音の減衰部分で終わる。各素片データは、これらの音声学的な特徴部分に対応する音声データである。素変ライブラリには、あらゆる音および音の組み合わせに関する素片データが格納されている。以下の説明において、ある発音記号で表される音の立ち上がり部分に対応する素片データを、その発音記号の前に「#」を付けて、「#s」のように表す。また、ある発音記号で表される音の減衰部分に対応する素片データを、その発音記号の後に「#」を付けて、「a#」のように表す。また、ある発音記号で表される音から他の発音記号で表される音への遷移部分に対応する素片データを、それらの発音記号の間に「−」を入れて、「s−a」のように表す。
例えば、「ぱ」という音声は、「#p」、「p」、「p−a」、「a」、および「a#」という素片データを組み合わせることにより合成される。音声合成エンジン1522は、これらの素片データを組み合わせた後、音高および音長を調整する。この例で、音声合成エンジン1522は、子音の長さによって音長を調整する。「ぱ」という音声の例では音声波形のうち「a」の素片データに相当する部分の時間長を調整することにより全体の音長を調整する。すなわち音声波形のうち「#p」、「p」、「p−a」、および「a#」の素片データに相当する部分の時間長は固定されており、音声合成エンジン1522は、「a」の素片データに相当する部分の時間長を変えることにより、音長を100msecにしたり250msecにしたりする。音声合成エンジン1522は、合成音声のデータをOS151に出力する。ステップS6の処理は音声合成手段15の機能に相当する。
ステップS7において、OS151は、音声合成エンジン1522から与えられたデータに従って、合成音声をスピーカから出力する。ステップS7の処理は出力手段16の機能に相当する。
図8は、本実施形態による合成音声を例示する図である。ここでは比較例による合成音声も併せて図示している。この比較例は、トリガーが連続しているか否かによらず合成音声の音長が一定であるものである。本実施形態によれば、短い間隔で連続したトリガーが検出された場合でも、合成音声の発音の遅延の蓄積を低減することができる。
4.変形例
本発明は上述の実施形態に限定されるものではなく、種々の変形実施が可能である。以下、変形例をいくつか説明する。以下の変形例のうち2つ以上のものが組み合わせて用いられてもよい。
4−1.変形例1
通常の方法における合成音声の音長は固定値に限定されない。例えば、入力音信号の波形に応じて音長が変更されてもよい。次式(1)は、通常の方法における音長L1が入力音信号の振幅に応じて変更される例(具体的には、振幅が大きいほど音長が長くなる例)を示している。
Figure 2017167411
ここで、mは一定の係数を、Ginは入力音信号の振幅(または入力音信号の振幅と基準となる振幅との差)を、Lminは通常の方法における音長の最小値(例えば250msec)を、それぞれ示す。この例によれば合成音声の音長が入力音信号の波形に応じて変更されるので、音楽的により豊かな表現の可能性を提供することができる。
4−2.変形例2
連続入力用の方法における音声合成の音長は特定の値に固定されるものに限定されない。例えば、連続入力用の方法における音長L2は、その時点で累積している遅延の量dに応じて変更されてもよい。次式(2)は、累積している遅延の量dが大きいほど音長が短くなる例を示している。
Figure 2017167411
ここで、kは一定の係数を示す。また、音長L2には下限値(例えば50msec)を設け、式(2)に計算される音長L2が下限値を下回った場合にはこの下限値を音長L2として採用してもよい。なお式(1)における通常の方法における音長L1は、実施形態の例のように固定値であってもよいし、変形例1のように入力音信号の波形に応じて決まる値であってもよい。変形例2によれば、音長L2が固定値である例と比較して、遅延の累積をより低減させることができる。
4−3.変形例3
通常の方法と連続入力用の方法とで音長を異ならせる手法は実施形態で例示したものに限定されない。例えば、音声合成エンジン1522は、子音の時間長を調整することにより音長を調整してもよい。「ぱ」という音声の例では、音声合成エンジン1522は、「#p」、「p」、および「p−a」のうち少なくとも1つの素片データに相当する部分の時間長を調整することにより全体の音長を調整してもよい。母音の時間長を調整する例においても子音の時間長を調整する例においても、素片ライブラリが各素片につき時間長の長い素片データと短い素片データとを保持しており、音声合成エンジン1522は、通常の方法においては時間長の長い素片データを、連続入力用の方法においては時間長の短い素片データを、それぞれ使用してもよい。あるいは、素片ライブラリが各素片につき単一の素片データを保持しており、音声合成エンジン1522は、この素片データを加工することにより時間長を調整してもよい。
時間長が調整される子音は合成音声の冒頭にあるものに限定されない。例えば、トリガーが検出されると「kick」という音声が出力される場合、連続入力用の方法においては、語尾の子音が省略(すなわち時間長ゼロ)されてもよい。
4−4.変形例4
通常の方法と連続入力用の方法とは音長を異ならせるものに限定されない。連続入力用の方法は、例えば、前回と音高が異なる音声を合成するものであってもよい。この例で、第1音が発音されている途中で第2音のトリガーが検出された場合、トリガー検出モジュール1521は、第1音の発音を停止してその後第2音の発音を開始するのではなく、第1音の発音を継続したうえで、トリガーに応じたタイミングで音高を変化させる指示を生成する。すなわち、トリガー検出モジュール1521は、連続的にピッチベンドを発生させる。
図9は、変形例4に係る連続入力用の方法による音声合成を例示する図である。この例では第1音の「ぱ」が発音されている途中で第2音のトリガーが検出されると、母音「a」の発音を継続したまま(「a#」の素片データに移行せず)その音高がトリガーに応じて変更される。より具体的には、第2音のトリガーが検出されると、トリガー検出モジュール1521は、通常の方法においてはP1である音高を連続的にP2まで下げた後に再びP1まで上げるように音高を変化させる指示を生成する。
この例においては、第2音のトリガーが検出されたときに新たな音声の発音が開始されることはないものの、音高が変化するという応答が得られる。一般に演奏者が違和感を感じるのは自分が行った演奏操作に対して何の応答も得られない場合であるが、この例によれば演奏者の感じる違和感を低減することができる。
4−5.変形例5
図10は、変形例5に係る連続入力用の方法による音声合成を例示する図である。この例において、連続入力用の方法は、前回と音量が異なる音声を合成するものであってもよい。音量を変化させる処理は、変形例4において音高を変化させる処理と同様に行われる。この例も、変形例4と同様に演奏者の感じる違和感を低減することができる。
4−6.変形例6
ソフトウェア構成と機能構成との対応関係は実施形態で例示したものに限定されない。例えば、トリガー検出モジュール1521ではなく音声合成エンジン1522が、判断手段13および指示手段14に相当する機能を有していてもよい。この場合、トリガー検出モジュール1521は、トリガーを検出すると、通常の方法と連続入力用の方法との区別無く、音声合成の指示を生成および出力する。音声合成エンジン1522は、トリガー検出モジュール1521から音声合成の指示が入力された場合に、前回のトリガーが検出されてからしきい値時間が経過したか判断する。音声合成エンジン1522は、この判断結果に応じて音声合成を行う。
4−7.他の変形例
音声合成システム1において用いられる楽器は打楽器に限定されない。鍵盤楽器、管楽器、または弦楽器など、打楽器以外の楽器が用いられてもよい。
音声合成装置10のハードウェア構成は実施形態で例示したものに限定されない。要求される機能を実現できるものであれば、音声合成装置10はどのようなハードウェア構成を有していてもよい。
実施形態の例では単一の装置が音声合成装置10の機能をすべて有していたが、音声合成装置10の機能は、複数の装置、例えばクライアント装置およびサーバ装置に分けて実装されていてもよい。例えば、検出手段12、判断手段13、指示手段14、および音声合成手段15がサーバ装置に実装され、入力手段11および出力手段16がクライアント装置に実装されてもよい。
音声合成装置10のCPU101等により実行されるプログラムは、光ディスク、磁気ディスク、半導体メモリーなどの記憶媒体により提供されてもよいし、インターネット等の通信回線を介してダウンロードされてもよい。また、このプログラムは、図3のすべてのステップを備える必要はない。例えば、このプログラムは、ステップS1、ステップS2、ステップS3、ステップS4、およびステップS5のみを実行してもよい。
なお、実施形態で説明した遅延の量や合成音声の時間長はあくまで例示であり、本願発明の構成はこれに限定されるものではない。
1…音声合成システム、9…音声合成システム、10…音声合成装置、11…入力手段、12…検出手段、13…判断手段、14…指示手段、15…音声合成手段、16…出力手段、20…マイクロフォン、30…打楽器、90…音声合成装置、100…音声合成制御装置

Claims (7)

  1. 入力音信号から発音タイミングを検出するステップと、
    前記発音タイミングが検出された場合、前回の発音タイミングが検出されてからしきい値時間が経過したか判断するステップと、
    前回の発音タイミングが検出されてから前記しきい値時間が経過したと判断された場合、第1方法による音声の合成を指示するステップと、
    前回の発音タイミングが検出されてから前記しきい値時間が経過していないと判断された場合、前記第1方法と異なる第2方法による音声の合成を指示するステップと
    を有する音声合成方法。
  2. 前記第2方法は、前記第1方法により合成される音声よりも時間長が短い音声を合成する方法である
    請求項1に記載の音声合成方法。
  3. 前記音声は、子音および母音の組み合わせにより表され、
    前記第2方法は、前記第1方法により合成される音声よりも時間長が短い母音を含む音声を合成する方法である
    請求項2に記載の音声合成方法。
  4. 前記音声は、子音および母音の組み合わせにより表され、
    前記第2方法は、前記第1方法により合成される音声よりも時間長が短い子音を含む音声を合成する方法である
    請求項2に記載の音声合成方法。
  5. 前記第2方法は、前回の発音タイミングにより合成された音声と音高が異なる音声を合成する方法である
    請求項1に記載の音声合成方法。
  6. 前記第2方法は、前回の発音タイミングにより合成された音声と音量が異なる音声を合成する方法である
    請求項1に記載の音声合成方法。
  7. 入力音信号から発音タイミングを検出する検出手段と、
    前記発音タイミングが検出された場合、前回の発音タイミングが検出されてからしきい値時間が経過したか判断する判断手段と、
    前回の発音タイミングが検出されてから前記しきい値時間が経過したと判断された場合、第1方法による音声の合成を指示し、前回の発音タイミングが検出されてから前記しきい値時間が経過していないと判断された場合、当該第1方法と異なる第2方法による音声の合成を指示する指示手段と
    を有する音声合成制御装置。
JP2016053978A 2016-03-17 2016-03-17 音声合成方法および音声合成制御装置 Active JP6222262B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016053978A JP6222262B2 (ja) 2016-03-17 2016-03-17 音声合成方法および音声合成制御装置
PCT/JP2017/003452 WO2017159083A1 (ja) 2016-03-17 2017-01-31 音声合成方法および音声合成制御装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016053978A JP6222262B2 (ja) 2016-03-17 2016-03-17 音声合成方法および音声合成制御装置

Publications (2)

Publication Number Publication Date
JP2017167411A true JP2017167411A (ja) 2017-09-21
JP6222262B2 JP6222262B2 (ja) 2017-11-01

Family

ID=59850649

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016053978A Active JP6222262B2 (ja) 2016-03-17 2016-03-17 音声合成方法および音声合成制御装置

Country Status (2)

Country Link
JP (1) JP6222262B2 (ja)
WO (1) WO2017159083A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015060340A1 (ja) * 2013-10-23 2015-04-30 ヤマハ株式会社 歌唱音声の合成

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015060340A1 (ja) * 2013-10-23 2015-04-30 ヤマハ株式会社 歌唱音声の合成

Also Published As

Publication number Publication date
JP6222262B2 (ja) 2017-11-01
WO2017159083A1 (ja) 2017-09-21

Similar Documents

Publication Publication Date Title
US10002604B2 (en) Voice synthesizing method and voice synthesizing apparatus
JP7088159B2 (ja) 電子楽器、方法及びプログラム
JP5642296B2 (ja) 音響ジェスチャにより制御信号を発生するための入力インタフェース
US10354629B2 (en) Sound control device, sound control method, and sound control program
US20210295819A1 (en) Electronic musical instrument and control method for electronic musical instrument
JP2002007014A (ja) 情報処理装置及び該情報処理装置を備えた楽器
JP6705272B2 (ja) 発音制御装置、発音制御方法、及びプログラム
JP7380809B2 (ja) 電子機器、電子楽器、方法及びプログラム
Halmrast et al. Gesture and timbre
JP2022071098A5 (ja) 電子機器、電子楽器、方法及びプログラム
JP6760450B2 (ja) 自動アレンジ方法
JP2017058594A (ja) 自動アレンジ装置及びプログラム
JP6693176B2 (ja) 歌詞生成装置および歌詞生成方法
JP6222262B2 (ja) 音声合成方法および音声合成制御装置
US20220044662A1 (en) Audio Information Playback Method, Audio Information Playback Device, Audio Information Generation Method and Audio Information Generation Device
JP6044284B2 (ja) 音声合成装置
JP6809608B2 (ja) 歌唱音生成装置及び方法、プログラム
JP6693596B2 (ja) 自動伴奏データ生成方法及び装置
JP2013210501A (ja) 素片登録装置,音声合成装置,及びプログラム
JP2002041074A (ja) ボーカルデータ生成装置および歌唱装置
JP4180548B2 (ja) 声域告知機能付きカラオケ装置
JP5412766B2 (ja) 電子楽器及びプログラム
Carelli Voice to musical instrument translation in a performance environment
WO2023175844A1 (ja) 電子管楽器及び電子管楽器の制御方法
WO2018216423A1 (ja) 楽曲評価装置、楽曲評価方法およびプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170629

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170629

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20170629

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20170831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170918

R151 Written notification of patent or utility model registration

Ref document number: 6222262

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151