JP5782799B2 - 音声合成装置 - Google Patents

音声合成装置 Download PDF

Info

Publication number
JP5782799B2
JP5782799B2 JP2011090422A JP2011090422A JP5782799B2 JP 5782799 B2 JP5782799 B2 JP 5782799B2 JP 2011090422 A JP2011090422 A JP 2011090422A JP 2011090422 A JP2011090422 A JP 2011090422A JP 5782799 B2 JP5782799 B2 JP 5782799B2
Authority
JP
Japan
Prior art keywords
unit
speech
speech unit
correlation calculation
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011090422A
Other languages
English (en)
Other versions
JP2012225950A (ja
Inventor
嘉山 啓
啓 嘉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2011090422A priority Critical patent/JP5782799B2/ja
Publication of JP2012225950A publication Critical patent/JP2012225950A/ja
Application granted granted Critical
Publication of JP5782799B2 publication Critical patent/JP5782799B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)

Description

本発明は、複数の音声素片の連結で発話音や歌唱音等の音声を合成する技術に関する。
複数の音声素片の連結で所望の音声を合成する素片接続型の音声合成技術が従来から提案されている。例えば特許文献1には、利用者が指定した発音文字に対応する音声素片を順次に選択し、相前後する音声素片における所定長の区間(重複区間)をクロスフェードにより連結することで音声を合成する技術が開示されている。
特開2007−240564号公報
しかし、各音声素片をクロスフェードする時間長の如何によっては各音声素片の重複区間にて音声波形(位相)が整合せず、局所的な強度の低下等の音質劣化が発生する可能性がある。以上の事情を考慮して、本発明は、各音声素片の重複区間における音質の劣化を抑制することを目的とする。
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
本発明の音声合成装置は、音声素片を順次に選択する素片選択手段(例えば素片選択部26)と、素片選択手段が選択した相前後する第1音声素片(例えば音声素片V1)および第2音声素片(例えば音声素片V2)の各々の相関算定区間について両者間の時間差(例えば時間差τ)を変数とする相互相関関数(例えば相互相関関数C(τ))を算定する相関算定手段(例えば相関算定部52)と、第1音声素片の相関算定区間と第2音声素片の相関算定区間との時間差を相互相関関数が最大となる時間差(例えば相関最大時間τmax)に設定したときの第1音声素片と第2音声素片との重複区間(例えば重複区間W)をクロスフェードして第1音声素片と第2音声素片とを接続する素片連結手段(例えば素片連結部54)とを具備する。以上の構成では、第1音声素片の相関算定区間と第2音声素片の相関算定区間との相互相関関数が最大となるように第1音声素片と第2音声素片との時間軸上の位置関係が決定される。したがって、第1音声素片と第2音声素片との重複区間での局所的な強度低下等が抑制された高音質な合成音を生成することが可能である。
本発明の好適な態様(例えば後述の第2実施形態)の音声合成装置は、第1音声素片および第2音声素片の各々の相関算定区間の音素が有声音であるか否かを判定する有声判定手段(例えば有声判定部62)を具備し、素片連結手段は、音素が有声音であると有声判定手段が判定した場合には第1音声素片と第2音声素片とをクロスフェードで接続し、音素が有声音でないと有声判定手段が判定した場合には第1音声素片の終点に第2音声素片の始点を接続する。以上の態様では、音素が無声音である場合には第1音声素片と第2音声素片とのクロスフェードが省略されるから、音声素片の各音素の有声/無声に関わらず第1音声素片と第2音声素片とをクロスフェードする構成と比較して素片連結手段の処理負荷が軽減されるという利点がある。なお、音素が有声音でないと有声判定手段が判定した場合に相関算定手段が相互相関関数の算定を省略する構成も好適である。
本発明の好適な態様(例えば後述の第3実施形態)の音声合成装置は、第1音声素片と第2音声素片とで振幅が近付くように第1音声素片および第2音声素片の振幅を調整する振幅調整手段(例えば振幅調整部64)を具備し、相関算定手段は、振幅調整手段による調整後の第1音声素片と第2音声素片とについて相互相関関数を算定する。以上の態様では、第1音声素片と第2音声素片との振幅が調整されたうえで相互相関関数が算定されるから、第1音声素片と第2音声素片とで振幅が大きく相違する場合でも、第1音声素片と第2音声素片との波形の類否を適切に反映した相互相関関数を算定することが可能である。更に好適な態様の音声合成装置は、振幅調整手段による調整の有無を利用者からの指示に応じて制御する第1制御手段(例えば条件制御部70)を具備する。以上の態様によれば、利用者の要求に応じた多様な合成音を生成できるという利点がある。
本発明の好適な態様(例えば後述の第4実施形態)において、相関算定手段は、各音声素片を示す各サンプルの複数個に相当する時間を単位量として時間差を変化させて相互相関関数を算定する。以上の態様では、音声素片のサンプルの複数個に相当する時間を単位量として相互相関関数の時間差を変化させるから、音声素片のサンプル毎に時間差を変化させる構成と比較して、相互相関関数を算定する時間差の点数削減され、相関算定手段の処理負荷が軽減されるという利点がある。更に好適な態様の音声合成装置は、時間差の変化の単位量を利用者からの指示に応じて変化させる第2制御手段(例えば条件制御部70)を具備する。以上の態様によれば、相関算定手段による処理負荷の軽減と相互相関関数の精度の向上との何れを優先すべきかを利用者が任意に選択できるという利点がある。
本発明の好適な態様において、第1音声素片の相関算定区間は、第1音声素片の終点を含む第1遷移区間(例えば遷移区間QE1)の前方の区間であり、第2音声素片の相関算定区間は、第2音声素片の始点を含む第2遷移区間(例えば遷移区間QE2)の後方の区間である。以上の態様では、第1音声素片の末尾の第1遷移区間と第2音声素片の先頭の第2遷移区間とが相関算定区間から除外される。したがって、第1遷移区間や第2遷移区間にて音声波形が安定しない場合でも、第1音声素片と第2音声素片との波形の類否を適切に反映した相互相関関数を安定的に算定することが可能である。更に好適な態様の音声合成装置は、第1遷移区間および第2遷移区間の時間長(例えば時間長LE)を利用者からの指示に応じて変化させる第3制御手段(例えば条件制御部70)を具備する。以上の態様では、音声素片のうち音声波形が不安定な区間(第1遷移区間や第2遷移区間)を除外する程度を利用者が任意に選択することが可能である。
本発明の好適な態様の音声合成装置は、各音声素片の相関算定区間の時間長(例えば時間長LC)を利用者からの指示に応じて変化させる第4制御手段(例えば条件制御部70)を具備する。以上の態様では、相関算定区間を算定する範囲の確保と相関算定手段による処理負荷の軽減との何れを優先させるかを利用者が任意に選択できるという利点がある。
以上の各態様に係る音声合成装置は、音声の合成に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)で実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働でも実現される。本発明のプログラム(例えばプログラムPGM)は、音声素片を順次に選択する素片選択処理(例えば素片選択部26)と、素片選択処理で選択した相前後する第1音声素片(例えば音声素片V1)および第2音声素片(例えば音声素片V2)の各々の相関算定区間について両者間の時間差(例えば時間差τ)を変数とする相互相関関数(例えば相互相関関数C(τ))を算定する相関算定処理(例えば相関算定部52)と、第1音声素片の相関算定区間と第2音声素片の相関算定区間との時間差を相互相関関数が最大となる時間差(例えば相関最大時間τmax)に設定したときの第1音声素片と第2音声素片との重複区間(例えば重複区間W)をクロスフェードして第1音声素片と第2音声素片とを接続する素片連結処理(例えば素片連結部54)とをコンピュータに実行させる。以上のプログラムによれば、本発明の音声合成装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
本発明の第1実施形態に係る音声合成装置のブロック図である。 編集画面および音声素片の時系列の模式図である。 音声合成部のブロック図である。 音声合成部の動作の説明図である。 第2実施形態における音声合成部のブロック図である。 第2実施形態における音声合成部の動作の説明図である。 第3実施形態における音声合成部のブロック図である。 第3実施形態における音声合成部の動作の説明図である。 第4実施形態における相関算定部の動作の説明図である。 第5実施形態における音声合成部のブロック図である。 設定画面の模式図である。
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。音声合成装置100は、発話音や歌唱音等の音声(以下「目標音」という)を素片接続型の音声合成処理で生成する音声処理装置であり、図1に示すように、演算処理装置10と記憶装置12と入力装置14と表示装置16と放音装置18とを具備するコンピュータシステムで実現される。
演算処理装置10(CPU)は、記憶装置12に格納されたプログラムPGMの実行で、目標音の音声信号SOUTを生成するための複数の機能(表示制御部22,情報生成部24,素片選択部26,音声合成部28)を実現する。音声信号SOUTは、目標音の波形を表す音響信号である。なお、演算処理装置10の各機能を複数の集積回路に分散した構成や、専用の電子回路(DSP)が各機能を実現する構成も採用され得る。
記憶装置12は、演算処理装置10が実行するプログラムPGMや演算処理装置10が使用する各種のデータ(素片群G,合成情報Z)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置12として採用される。
素片群Gは、音声合成の素材として利用される複数の音声素片Vの集合(音声合成ライブラリ)である。各音声素片Vは、事前に採取された音声の時間軸上の波形を示すサンプル系列であり、言語的な意味の最小単位に相当する1個の音素、または相互に連結された複数の音素(音素連鎖)で構成される。なお、以下では便宜的に、無音を1個の音素(記号#)として説明する。
合成情報Zは、目標音を時系列に指定する情報(スコアデータ)である。図1に示すように、合成情報Zは、目標音を構成する複数の音声素片の各々について、素片識別子Zaと音高Zbと発音期間(開始時刻および継続長)Zcと音量Zdとを指定する。素片識別子Zaは素片群G内の1個の音声素片Vを識別する符号である。
入力装置14は、利用者からの指示を受付ける機器(例えばマウスやキーボード)である。表示装置16(例えば液晶表示機器)は、演算処理装置10から指示された画像を表示する。放音装置18(例えばスピーカやヘッドホン)は、演算処理装置10が生成する音声信号SOUTに応じた音波を放射する。
図1の表示制御部22は、合成情報Zの生成および編集のために利用者が視認する図2の部分(A)の編集画面40を表示装置16に表示させる。図2の部分(A)に示すように、編集画面40は、相互に交差する時間軸(横軸)と音高軸(縦軸)とが設定された画像(五線紙型またはピアノロール型の画像)である。利用者は、編集画面40を参照しながら入力装置14を適宜に操作することで、目標音を図形化した音符画像42の配置や各音符画像42の位置およびサイズの変更,各目標音に対する発音文字(例えば歌詞)の指定を音声合成装置100に指示することが可能である。なお、編集画面40の形式は任意である。例えば、合成情報Zの各情報(素片識別子Za,音高Zb,発音期間Zc,音量Zd)のリストを編集画面40として表示することも可能である。
図1の情報生成部24は、編集画面40に対する利用者からの指示に応じて合成情報Zを生成または更新する。具体的には、情報生成部24は、音符画像42に指定された発音文字に応じて合成情報Zの各素片識別子Zaを設定する。例えば、図2の部分(A)の発音文字「ま[ma]」が指定された場合、図2の部分(B)に示すように、[#-m],[m-a],[a],[a-#](#:無音)という4個の音声素片Vの各々を指定する素片識別子Zaが設定される。また、情報生成部24は、音符画像42の音高軸上の位置に応じて各音高Zbを設定し、各音声E素片の発音期間Zcを音符画像42の時間軸上の位置(発音時刻)およびサイズ(継続長)に応じて設定する。合成情報Zの音量Zdも同様に利用者からの指示に応じて設定される。
図1の素片選択部26は、合成情報Zが指定する各素片識別子Zaに対応する音声素片Vを記憶装置12の素片群Gから順次に選択する。音声合成部28は、素片選択部26が選択した各音声素片Vを相互に連結することで音声信号SOUTを生成する。素片選択部26による音声素片Vの選択と音声合成部28による音声信号SOUTの生成とは、例えば入力装置14に対する利用者からの指示を契機として実行される。図3に示すように、音声合成部28は、相関算定部52と素片連結部54と調整処理部56とを含んで構成される。
図4は、音声合成部28が実行する処理の説明図である。図4では、相前後する音声素片V1(音声素片[#-m])と音声素片V2(音声素片[m-a])とを連結する場合が例示されている。音声素片V1および音声素片V2の各々は複数の音素で構成される。素片選択部26が選択する複数の音声素片のうち相前後する2個の音声素片Vの組毎に以下の処理が順次に実行される。
図4の部分(A)に示すように、相関算定部52は、音声素片V1の相関算定区間QC1と音声素片V2の相関算定区間QC2との間で相互相関関数C(τ)を算定する。相互相関関数C(τ)は、相関算定区間QC1の始点と相関算定区間QC2の始点との時間差(時間軸上のシフト量)τを変数として両者間の波形の相関の程度を示す関数(数値列)である。時間差τは、音声素片Vの1個のサンプルを単位量(刻み幅)として変化する。
音声素片V1の相関算定区間QC1は、音声素片V1のうち所定の時間長LCにわたる部分である。具体的には、相関算定区間QC1は、音声素片V1のうち終点teを含む時間長LEの遷移区間QE1の前方に位置する。すなわち、相関算定区間QC1の終点は遷移区間QE1の始点に一致する。音声素片V1を構成する最後の音素(図4の例示では音素[m])が相関算定区間QC1に含まれるように相関算定区間QC1の時間長LCや遷移区間QE1の時間長LEが選定される。
図4の部分(A)に示すように、音声素片V2の相関算定区間QC2は、音声素片V2のうち時間長LCにわたる部分である。具体的には、相関算定区間QC2は、音声素片V2のうち始点tsを含む時間長LEの遷移区間QE2に後続する。音声素片V2を構成する最初の音素(図4の例示では音素[m])が相関算定区間QC2に含まれるように相関算定区間QC2の時間長LCや遷移区間QE2の時間長LEが選定される。
図3の素片連結部54は、相関算定部52が算定した相互相関関数C(τ)が最大となるように音声素片V1と音声素片V2とを時間軸上に配置して音声素片V1と音声素片V2とを連結する。具体的には、素片連結部54は、第1に、相互相関関数C(τ)が最大となる時間差τの数値(以下「相関最大時間τmax」という)を探索し、図4の部分(B)に示すように、相関算定区間QC1と相関算定区間QC2との時間差τが相関最大時間τmaxとなる(すなわち相関算定区間QC2が相関算定区間QC1に対して相関最大時間τmaxだけ遅延する)ように音声素片V1と音声素片V2との時間軸上の位置を決定する。すなわち、音声素片V1と音声素片V2とが時間軸上で相互に重複する区間(以下「重複区間」という)Wにて音声素片V1の最後の音素の波形(相関算定区間QC1内の波形)と音声素片V2の最初の音素の波形(相関算定区間QC2内の波形)との位相差が低減されるように、音声素片V1と音声素片V2との時間軸上の位置関係が設定される。
第2に、素片連結部54は、図4の部分(C)に示すように、相互相関関数C(τ)に応じた調整後の音声素片V1と音声素片V2とを両者間の重複区間Wにてクロスフェードすることで音声素片V1と音声素片V2とを連結する。具体的には、素片連結部54は、音声素片V1のうち重複区間W内の振幅をその重複区間Wの終点(音声素片V1の終点te)にかけて経時的に低下させた波形と、音声素片V2のうち重複区間W内の振幅をその重複区間Wの始点(音声素片V2の始点ts)から経時的に上昇させた波形とを加算する。以上の説明から理解されるように、素片連結部54によるクロスフェードの対象となる重複区間Wの時間長は相関最大時間τmaxに応じて決定される。
図3の調整処理部56は、素片連結部54が相互に連結した各音声素片Vの時系列を、合成情報Zが各音声素片に指定する音高Zbと発音期間Zcと音量Zdとに調整することで音声信号SOUTを生成する。調整処理部56が生成した音声信号SOUTが放音装置18に供給されて音波として再生される。
以上に説明した第1実施形態では、音声素片V1の相関算定区間QC1と音声素片V2の相関算定区間QC2との相互相関関数C(τ)が最大となるように音声素片V1と音声素片V2との時間軸上の位置関係(時間差)が決定される。すなわち、音声素片V1と音声素片V2との重複区間Wでは両者の波形が類似する(位相差が低減される)。したがって、音声素片V1と音声素片V2との重複区間Wでの局所的な強度低下等が抑制された高音質な音声信号SOUTを生成できるという利点がある。
なお、音声素片V1のうち終点teを含む遷移区間QE1や音声素片V2のうち始点tsを含む遷移区間QE2では音声波形が過渡的で安定しないという傾向がある。したがって、相関算定区間QC1が遷移区間QE1を含む構成や相関算定区間QC2が遷移区間QE2を含む構成では相互相関関数C(τ)の数値が安定せず、音声素片V1と音声素片V2との時間差を適切に選定できない可能性がある。第1実施形態では、遷移区間QE1を除外した相関算定区間QC1と遷移区間QE2を除外した相関算定区間QC2との間で相互相関関数C(τ)が算定されるから、相互相関関数C(τ)の数値が安定する。したがって、音声素片V1および音声素片V2の重複区間Wでの局所的な強度低下等が有効に抑制されるように音声素片V1と音声素片V2との時間軸上の位置関係を適切に選定できるという利点がある。
<B:第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
図5は、第2実施形態における音声合成部28のブロック図である。図5に示すように、第2実施形態の音声合成部28は、第1実施形態と同様の要素(相関算定部52,素片連結部54,調整処理部56)に有声判定部62を追加した構成である。有声判定部62は、素片選択部26が選択した各音声素片Vを構成する音素が有声音(波形の周期性がある音声)および無声音(波形の周期性がない音声)の何れに該当するかを判定する。
図5に示すように、記憶装置12に記憶された素片群Gは、第1実施形態と同様の複数の音声素片Vと、各音声素片Vに対応する複数の属性情報Aとを含んで構成される。属性情報Aは、音声素片Vの各音素が有声音および無声音の何れに該当するかを示す情報である。有声判定部62は、素片選択部26が選択した音声素片Vを構成する音素の有声性(有声性/無声音)をその音声素片Vの属性情報Aに応じて判定する。
相前後する音声素片V1および音声素片V2を連結する場合に着目すると、有声判定部62は、音声素片V1および音声素片V2にて連結の対象となる音素(以下「連結音素」という)が有声音であるか否かを音声素片V1および音声素片V2の各々の属性情報Aに応じて判定する。連結音素は、音声素片V1のうち相関算定区間QC1内の音素(すなわち音声素片V1の最後の音素)および音声素片V2のうち相関算定区間QC2内の音素(すなわち音声素片V2の最初の音素)である。
図6は、第2実施形態の音声合成部28が実行する処理の説明図である。図6の部分(A)は、音声素片V1および音声素片V2の連結音素が有声音の音素[m]に該当する場合である。連結音素が有声音に該当すると有声判定部62が判定した場合には、第1実施形態と同様の方法で音声素片V1と音声素片V2とが連結される。すなわち、音声素片V1の相関算定区間QC1と音声素片V2の相関算定区間QC2との相互相関関数C(τ)を相関算定部52が算定し、相互相関関数C(τ)が最大となるように素片連結部54が音声素片V1と音声素片V2とをクロスフェードする。
他方、図6の部分(B)は、音声素片V1および音声素片V2の連結音素が無声音の音素[s]に該当する場合である。連結音素が無声音に該当すると有声判定部62が判定した場合、素片連結部54は、連結音素が有声音である場合(図6の部分(A))とは相違する方法で音声素片V1と音声素片V2とを連結する。具体的には、素片連結部54は、音声素片V1の終点に音声素片V2の始点を連結する。すなわち、音声素片V1と音声素片V2とのクロスフェードは実行されない。また、連結音素が無声音である場合には相関算定部52による相互相関関数C(τ)の算定が省略される。
第2実施形態においても、連結音素が有声音である場合について第1実施形態と同様の効果が実現される。また、第2実施形態では、連結音素が無声音である場合には相関算定部52による相互相関関数C(τ)の算定や素片連結部54による音声素片V1と音声素片V2とのクロスフェードが省略されるから、連結音素が無声音である場合にも相互相関関数C(τ)の算定やクロスフェードを実行する構成と比較して音声合成部28の処理負荷が低減されるという利点がある。なお、無声音の音素の波形には明確な周期性が存在しないから、音声素片V1と音声素片V2との位相差に起因した強度低下等の音質劣化は本来的に発生し難い。したがって、第2実施形態によれば、合成音の音質劣化を防止するという所期の効果を有効に維持しながら音声合成部28の処理負荷を低減することが可能である。
<C:第3実施形態>
図7は、第3実施形態における音声合成部28のブロック図である。図7に示すように、第3実施形態の音声合成部28は、第1実施形態と同様の要素(相関算定部52,素片連結部54,調整処理部56)に振幅調整部64を追加した構成である。振幅調整部64は、素片選択部26が選択した各音声素片Vの振幅(強度)を調整する。
図8は、第3実施形態の音声合成部28が実行する処理の説明図である。図8の部分(A)に示すように、音声素片V1の振幅(ピークトゥピーク値)A1と音声素片V2の振幅A2とが大きく相違する場合がある。以上のように振幅差が大きい音声素片Vの間の相互相関関数C(τ)では、振幅が大きい音声素片V2の波形の影響が過大となり、音声素片V1と音声素片V2との実際の波形の相関が相互相関関数C(τ)に反映される度合は相対的に低下する。
そこで、第3実施形態の振幅調整部64は、音声素片V1の振幅A1と音声素片V2の振幅A2とが近付く(理想的には一致する)ように音声素片V1および音声素片V2を調整(正規化)する。例えば、振幅調整部64は、図8の部分(B)に示すように、音声素片V1の振幅A1と音声素片V2の振幅A2とを所定値A0に調整する。振幅の調整の方法は任意であるが、例えば、音声素片V1(V2)の振幅A1(A2)に対する所定値A0の相対比A0/A1(A0/A2)を音声素片V1(V2)に乗算する方法が好適である。相関算定部52は、図8に示すように、振幅調整部64による調整後の音声素片V1と音声素片V2との間で相互相関関数C(τ)を算定する。他方、素片連結部54は、図8の部分(C)に示すように、振幅調整部64による調整前の音声素片V1と音声素片V2とを第1実施形態と同様の方法で連結する。ただし、振幅調整部64による調整後の音声素片V1と音声素片V2とを連結することも可能である。
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、振幅調整後の音声素片V1および音声素片V2の間で相互相関関数C(τ)が算定されるから、記憶装置12に格納された音声素片V1と音声素片V2とで振幅が大きく相違する場合でも、音声素片V1と音声素片V2との波形の類否を適切に反映した相互相関関数C(τ)が算定される。したがって、音声素片V1と音声素片V2とで重複区間Wの位相が合致するように両者間の時間差τ(相関最大時間τmax)が適切に決定され、重複区間Wでの音質の劣化を防止するという効果を有効に実現することが可能である。
なお、以上の例示では第1実施形態を基礎とした構成を例示したが、音声素片V1および音声素片V2の振幅を調整する第3実施形態の構成は、第2実施形態において連結音素が有声音である場合(すなわち音声素片V1と音声素片V2とをクロスフェードで連結する場合)にも同様に適用される。
<D:第4実施形態>
図9は、第4実施形態における相関算定部52の動作の説明図である。図9には、各音声素片Vのサンプリング周期TSが時間軸上に図示されている。第1実施形態の相関算定部52は、音声素片V1の相関算定区間QC1と音声素片V2の相関算定区間QC2との時間差τを、音声素片Vのサンプルの1個分(すなわちサンプリング周期TS)を単位量として変化させて相互相関関数C(τ)を算定した。第4実施形態の相関算定部52は、音声素片Vのサンプルの複数個に相当する時間長(すなわちサンプリング周期TSの整数倍の時間長)T0を単位量として相関算定区間QC1と相関算定区間QC2との時間差τを変化させて相互相関関数C(τ)を算定する。すなわち、第4実施形態では、相互相関関数C(τ)を算定する時間差τの点数が第1実施形態と比較して間引かれる。
第4実施形態においても第1実施形態と同様の効果が実現される。また、第4実施形態では、相互相関関数C(τ)を算定する時間差τの点数が削減されるから、第1実施形態と比較して相関算定部52の処理負荷が軽減されるという利点がある。
<E:第5実施形態>
図10は、第5実施形態における音声合成部28のブロック図である。図10に示すように、第5実施形態の音声合成部28は、第1実施形態の要素(相関算定部52,素片連結部54,調整処理部56)に第2実施形態の有声判定部62と第3実施形態の振幅調整部64とを追加した構成である。また、演算処理装置10は条件制御部70としても機能する。条件制御部70は、入力装置14に対する利用者からの指示に応じて音声合成部28の動作条件を制御する。
第5実施形態の表示制御部22は、音声合成部28の動作条件の設定のために利用者が視認する図11の設定画面80を表示装置16に表示させる。図11に示すように、設定画面80には、音声合成部28の動作条件に関する複数の指示領域(チェックボックス)が配置される。利用者は、入力装置14を適宜に操作することで指示領域を有効状態(チェック状態)または無効状態(チェック解除)の何れかに設定することが可能である。
指示領域82(有声音クロスフェード接続)が有効状態に設定された場合、音声素片V1および音声素片V2の各々の有声音の音素が第1実施形態と同様にクロスフェードで連結されるように、条件制御部70は音声合成部28の各要素を制御する。他方、指示領域82が無効状態に設定された場合、第2実施形態にて連結要素が無声音である場合と同様に、音声素片V1の終点に音声素片V2の始点が接続されるように条件制御部70は音声合成部28の各要素を制御する。すなわち、音声素片V1と音声素片V2とのクロスフェードは実行されない。
指示領域84(無声音クロスフェード接続)についても同様に、有効状態に設定された場合には音声素片V1および音声素片V2の各々の無声音の音素がクロスフェードで接続され、無効状態に設定された場合には、第2実施形態と同様に音声素片V1に音声素片V2が後続するように条件制御部70が音声合成部28の各要素を制御する。
指示領域82が有効状態に設定されると、表示制御部22は、音声素片Vの有声音の音素のクロスフェードに関連する条件を指示する領域822を変更可能な状態に制御する。他方、指示領域82が無効状態に設定されると、表示制御部22は領域822を編集禁止の状態(例えば変更の指示を受付けないグレイアウト状態)に制御する。同様に、利用者が指示領域84を有効状態に設定すると、音声素片Vの無声音の音素のクロスフェードに関連する条件を指示する領域842が変更可能な状態に制御され、指示領域84が無効状態に設定されると領域842が編集禁止の状態に制御される。
領域822および領域842の各々は、指示領域86(86A,86B,86C,86D)を含んで構成される。利用者が指示領域86A(相関算定区間)を有効状態に設定して領域88Aに数値を入力すると、条件制御部70は、相関算定区間QC1および相関算定区間QC2の時間長LCを領域88A内の数値に設定する。他方、指示領域86Aが無効状態に設定された場合には時間長LCが所定の初期値に設定される。また、利用者が指示領域86B(遷移区間)を有効状態に設定して領域88Bに数値を入力すると、条件制御部70は、遷移区間QE1および遷移区間QE2の時間長LEを領域88Bの数値に設定する。指示領域86Bが無効状態に設定された場合には時間長LEが所定の初期値に設定される。
指示領域86C(振幅正規化)が有効状態に設定された場合、音声素片V1および音声素片V2の振幅の調整を振幅調整部64が実行するように条件制御部70は音声合成部28を制御する。他方、指示領域86Cが無効状態に設定された場合、振幅調整部64による振幅の調整は省略される。
利用者が指示領域86D(相関算定間引)を有効状態に設定して領域88Cに数値を入力すると、条件制御部70は、相互相関関数C(τ)の時間長τの変化の単位量となる時間長T0を領域88Cの数値に応じて設定する。例えば、領域88Cに数値「1/8」が入力された場合、時間長T0は音声素片Vのサンプルの8個分に相当する時間(サンプリング周期TSの8個分)に設定される。すなわち、相互相関関数C(τ)を算定する時間差τの点数が音声素片Vのサンプリングの点数の1/8に間引かれる。他方、指示領域86Dが無効状態に設定された場合、条件制御部70は、第1実施形態と同様に、時間長τの変化の単位量となる時間長T0を音声素片Vのサンプルの1個分に相当する時間(サンプリング周期TS)に設定する。
第5実施形態においても第1実施形態と同様の効果が実現される。また、第5実施形態では、音声合成部28の各要素の動作条件が利用者からの指示に応じて制御されるから、利用者が所望する多様な音声を合成できるという利点がある。
<F:変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
(1)前述の各形態では、音声素片Vのうち所定の時間長LCの区間を相関算定区間QC(QC1,QC2)としたが、相関算定区間QCの選定の方法は任意である。例えば、音声素片Vを構成する各音素の境界にて相関算定区間QCを画定することも可能である。例えば、図4の音声素片V1については、音素[#]と音素[m]との境界を始点として相関算定区間QC1が設定され、音声素片V2については、音素[m]と音素[a]との境界を終点として相関算定区間QC2が設定される。音声素片Vにおける各音素の境界を特定する方法は任意であるが、例えば各音素の境界の時点を指定する情報を音声素片Vに対応させて記憶装置12に格納した構成が好適である。
なお、相関算定区間QCが音声素片Vの一部の区間である必要は必ずしもない。例えば、音声素片Vが1個の音素で構成される場合、音声素片Vの全部の区間を相関算定区間QCとして相互相関関数C(τ)が算定される。
(2)第2実施形態では、音声素片Vに付加された属性情報Aに応じて各音素の有声性を判定したが、有声判定部62が各音素の有声性を判定する方法は任意である。例えば、音声素片の各音素が有声音であるか否か(あるいは各音声素片をクロスフェードで接続するか否か)を音声素片V毎に指定したテーブルが記憶装置12に格納された構成では、有声判定部62がテーブルを参照して各音素の有声性(クロスフェードの必要性)を判定することが可能である。
(3)前述の各形態では、各音声素片Vの連結後に合成情報Zに応じて音高Zbや発音期間Zcや音量Zdを調整したが、合成情報Zに応じた調整後の各音声素片Vについて相関算定部52による相互相関関数C(τ)の算定や素片連結部54による連結を実行することも可能である。
(4)前述の各形態では、音声素片V1の相関算定区間QC1と音声素片V2の相関算定区間QC2とを相等しい時間長LCに設定したが、相関算定区間QC1と相関算定区間QC2とを相異なる時間長に設定することも可能である。同様に、音声素片V1の遷移区間QE1と音声素片V2の遷移区間QE2とで時間長を相違させた構成も採用され得る。
100……音声合成装置、10……演算処理装置、12……記憶装置、14……入力装置、16……表示装置、18……放音装置、22……表示制御部、24……情報生成部、26……素片選択部、28……音声合成部、40……編集画面、42……音符画像、52……相関算定部、54……素片連結部、56……調整処理部、62……有声判定部、64……振幅調整部、70……条件制御部、80……設定画面、82,84,86A,86B,86C,86D……指示領域、G……素片群、V(V1,V2)……音声素片、Z……合成情報、SOUT……音声信号。

Claims (5)

  1. 音声素片を順次に選択する素片選択手段と、
    前記素片選択手段が選択した相前後する第1音声素片および第2音声素片の各々の相関算定区間について両者間の時間差を変数とする相互相関関数を算定する相関算定手段と、
    前記第1音声素片の相関算定区間と前記第2音声素片の相関算定区間との時間差を前記相互相関関数が最大となる時間差に設定したときの前記第1音声素片と前記第2音声素片との重複区間をクロスフェードして前記第1音声素片と前記第2音声素片とを接続する素片連結手段と、
    前記第1音声素片および前記第2音声素片の各々の相関算定区間の音素が有声音であるか否かを判定する有声判定手段を具備し、
    前記素片連結手段は、前記音素が有声音であると前記有声判定手段が判定した場合には前記第1音声素片と前記第2音声素片とを前記クロスフェードで接続し、前記音素が有声音でないと前記有声判定手段が判定した場合には前記第1音声素片の終点に前記第2音声素片の始点を接続する
    音声合成装置。
  2. 音声素片を順次に選択する素片選択手段と、
    前記素片選択手段が選択した相前後する第1音声素片および第2音声素片の各々の相関算定区間について両者間の時間差を変数とする相互相関関数を算定する相関算定手段と、
    前記第1音声素片の相関算定区間と前記第2音声素片の相関算定区間との時間差を前記相互相関関数が最大となる時間差に設定したときの前記第1音声素片と前記第2音声素片との重複区間をクロスフェードして前記第1音声素片と前記第2音声素片とを接続する素片連結手段とを具備し、
    前記第1音声素片の相関算定区間は、前記第1音声素片の終点を含む第1遷移区間の前方の区間であり、前記第2音声素片の相関算定区間は、前記第2音声素片の始点を含む第2遷移区間の後方の区間である
    音声合成装置。
  3. 利用者からの指示に応じて、前記第1音声素片の前記第1遷移区間および前記第2音声素片の前記第2遷移区間の時間長を変化させる手段をさらに具備する
    請求項2の音声合成装置。
  4. 利用者からの指示に応じて、前記第1音声素片の相関算定区間および前記第2音声素片の相関算定区間の時間長を変化させる手段をさらに具備する
    請求項1から請求項3の何れかの音声合成装置。
  5. 前記第1音声素片と前記第2音声素片とで振幅が近付くように前記第1音声素片および前記第2音声素片の振幅を調整する振幅調整手段を具備し、
    前記相関算定手段は、前記振幅調整手段による調整後の前記第1音声素片と前記第2音声素片とについて相互相関関数を算定する
    請求項1から請求項4の何れかの音声合成装置。
JP2011090422A 2011-04-14 2011-04-14 音声合成装置 Expired - Fee Related JP5782799B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011090422A JP5782799B2 (ja) 2011-04-14 2011-04-14 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011090422A JP5782799B2 (ja) 2011-04-14 2011-04-14 音声合成装置

Publications (2)

Publication Number Publication Date
JP2012225950A JP2012225950A (ja) 2012-11-15
JP5782799B2 true JP5782799B2 (ja) 2015-09-24

Family

ID=47276230

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011090422A Expired - Fee Related JP5782799B2 (ja) 2011-04-14 2011-04-14 音声合成装置

Country Status (1)

Country Link
JP (1) JP5782799B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69615832T2 (de) * 1995-04-12 2002-04-25 British Telecommunications P.L.C., London Sprachsynthese mit wellenformen
EP1138038B1 (en) * 1998-11-13 2005-06-22 Lernout & Hauspie Speech Products N.V. Speech synthesis using concatenation of speech waveforms
US20050273321A1 (en) * 2002-08-08 2005-12-08 Choi Won Y Audio signal time-scale modification method using variable length synthesis and reduced cross-correlation computations
JP2009109805A (ja) * 2007-10-31 2009-05-21 Toshiba Corp 音声処理装置及びその方法
JP5159325B2 (ja) * 2008-01-09 2013-03-06 株式会社東芝 音声処理装置及びそのプログラム

Also Published As

Publication number Publication date
JP2012225950A (ja) 2012-11-15

Similar Documents

Publication Publication Date Title
CN104347080B (zh) 语音分析方法和装置、语音合成方法和装置、以及存储语音分析程序的介质
JP6236765B2 (ja) 音楽データ編集装置および音楽データ編集方法
KR100270434B1 (ko) 생음성의 음역을 검출하여 하모니음성을 조절하는 가라오케 장치
JP2008164932A (ja) 音楽編集装置および方法、並びに、プログラム
JP6507579B2 (ja) 音声合成方法
JP5625321B2 (ja) 音声合成装置およびプログラム
JP2017040867A (ja) 情報処理装置
JP5423375B2 (ja) 音声合成装置
JP6390690B2 (ja) 音声合成方法および音声合成装置
JP6255744B2 (ja) 楽曲表示装置および楽曲表示方法
JP6179221B2 (ja) 音響処理装置および音響処理方法
JP4844623B2 (ja) 合唱合成装置、合唱合成方法およびプログラム
JP6171393B2 (ja) 音響合成装置および音響合成方法
JP5782799B2 (ja) 音声合成装置
JP5157922B2 (ja) 音声合成装置、およびプログラム
JP3807380B2 (ja) スコアデータ編集装置、スコアデータ表示装置およびプログラム
JP7124870B2 (ja) 情報処理方法、情報処理装置およびプログラム
JP5790860B2 (ja) 音声合成装置
JP5935831B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP5106437B2 (ja) カラオケ装置及びその制御方法並びにその制御プログラム
JP5552797B2 (ja) 音声合成装置および音声合成方法
JP7509221B2 (ja) 情報処理方法、情報処理システムおよびプログラム
JP5641266B2 (ja) 音声合成装置、音声合成方法およびプログラム
WO2019239972A1 (ja) 情報処理方法、情報処理装置およびプログラム
JP6331470B2 (ja) ブレス音設定装置およびブレス音設定方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150115

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150410

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150623

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150706

LAPS Cancellation because of no payment of annual fees