JP4664194B2 - 声質制御装置および方法およびプログラム記憶媒体 - Google Patents

声質制御装置および方法およびプログラム記憶媒体 Download PDF

Info

Publication number
JP4664194B2
JP4664194B2 JP2005344737A JP2005344737A JP4664194B2 JP 4664194 B2 JP4664194 B2 JP 4664194B2 JP 2005344737 A JP2005344737 A JP 2005344737A JP 2005344737 A JP2005344737 A JP 2005344737A JP 4664194 B2 JP4664194 B2 JP 4664194B2
Authority
JP
Japan
Prior art keywords
speech
unit
priority
user
units
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005344737A
Other languages
English (en)
Other versions
JP2007148172A5 (ja
JP2007148172A (ja
Inventor
良文 廣瀬
弓子 加藤
孝浩 釜井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2005344737A priority Critical patent/JP4664194B2/ja
Publication of JP2007148172A publication Critical patent/JP2007148172A/ja
Publication of JP2007148172A5 publication Critical patent/JP2007148172A5/ja
Application granted granted Critical
Publication of JP4664194B2 publication Critical patent/JP4664194B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は音声合成において声質の制御を行うための声質制御方法に関するものである。
現在、合成音声の品質が向上している中、音質の向上以外に声質や発話スタイル等の制御や表現に関する技術が望まれている。例えば、ゲームソフトやエンターテイメント分野における声質等の変更のニーズの高まりが挙げられる。
従来の声質制御方法としては、ユーザによる操作など外部からの入力に基づいて、素片選択のターゲット情報の1つである韻律を変形し、その変形されたターゲット情報に基づいて音声素片を選択するものがあった(例えば、特許文献1参照)。図15は、前記特許文献1に記載された従来の声質制御方法を示すものである。
図15において、データ入力部A01は、テキスト列の言語解析により韻律情報と音韻情報とが付与されたデータを外部から受け付ける。合成素片保存部A02は、テキスト音声合成用の合成素片を格納する。素片選択部A03は、合成素片保存部から音声合成に適した素片を選択する。音声合成・再生部A04は、素片選択部で選択された合成素片を接続して合成音声を生成し、合成音声を再生する。韻律情報変形部A05は、入力されたデータが有する韻律パラメータの初期値を、デジタル信号量監視部で監視されたデジタル信号量に基づき、デジタル信号量と対応付けてあらかじめ設定された値に変換する。デジタル信号入力部A06は、ユーザ操作の情報などに基づく2段階以上の信号量を有するデジタル信号を入力する。デジタル信号量監視部A07は、入力されたデジタル信号量を監視する。音声合成再生制御部A08は、音声合成・再生部の駆動を制御する。
以上によって構成された上記音声合成装置は、信号入力部で入力された1以上のデジタル信号の信号量を監視する信号量監視部と、初期値を有する韻律パラメータを1以上含む韻律情報と、音韻情報とが付与されたデータから、韻律パラメータの初期値を、監視された信号量に基づき、信号量と対応付けてあらかじめ設定された実行値に変換する韻律情報変形部と、少なくとも音韻情報に基づいて、テキスト音声合成用の合成素片が格納された合成素片保存部から合成素片を選択し、デジタル入力に対応した韻律の合成音を生成していた。
特開2005−17595号公報(段落[0009]−[0011]、図1)
しかしながら、前記従来の構成では、デジタル信号入力部A06により入力されるデジタル信号量に基づいて、韻律情報変形部A05により韻律情報を変形し、変形された韻律情報に基づいて素片選択部A03が素片を選択するとしていたが、この場合、ユーザが指定した情報は、素片選択部A03により、間接的に指定されているにとどまり、実際には韻律情報変形部A05により変形された韻律情報に必ずしも一致する素片が存在するとは限らない。図16を用いて具体的に説明する。図16は、前記従来の構成で変更される声質を模擬的に示した図である。図16において、次元1および次元2は声質空間上の軸を表す。また、丸印は合成素片保存部A02に保存されている素片を表す。B01は声質空間上における韻律パラメータの初期値において選択された音声素片の声質を表す。B02は、デジタル信号入力部A06からの入力に基づいて変形された韻律パラメータが持つ声質の移動を表す(破線は、デジタル信号入力による声質の変更軸を表す)。B03、B04は、変形後の韻律パラメータに基づいて、素片選択部A03により、選択される素片の候補を表す。つまり、素片選択部では、目標となる韻律に最も近い音声素片を選択するのであって、目標とする声質そのものを実現するわけではない。そのため、ユーザから見れば、素片選択部により選択される目標韻律情報に近い音声素片が、目的とする音声素片であるとは限らない。B03,B04に表される音声素片以外にも、候補としては別途、B05やB06に示すような素片も考えることができるが、前記従来の構成では、このような音声素片を直接指定する手段はない。
一方、図16において、ユーザの好みに合う声質を持つ音声素片(例えばB05、B06)をユーザが直接指定し、音声素片を置き換えるという方法も考えられるが、その場合には、音声としての前後の関係を無視して音声素片を接続することになる為、音声素片間の接続境界付近の連続性が低下し、音声品質が劣化するという課題を有していた。
まとめると、従来の技術においてはユーザが指定した情報に基づき変更された韻律によって選択された素片を用いるために、ユーザが望むものとは異なる声質となるか、ユーザが指定した声質を優先した素片を用いるために前後の素片との連続性が低下するかの何れかが避けられないという問題があった。
本発明は、前記従来の課題を解決するもので、ユーザが目的の声質を持つ音声素片を直接指定することが可能であり、且つ指定された音声素片を用いた場合においても、音声素片間の接続性が劣化することなく、連続性が高く高音質な合成音を得ることが可能な声質制御装置を提供することを目的とする。
前記従来の課題を解決するために、本発明の声質制御装置は、音声素片の系列から音声を合成し、合成される音声に含まれる音声素片を、ユーザの指定に従って、異なる声質の音声素片に変更する声質制御装置であって、少なくとも音韻情報と韻律情報とを含む入力に対して選択の候補となる複数の音声素片を格納する素片記憶手段と、前記各入力に対して、候補となる複数の音声素片からなる前記各素片群のうちから音声素片系列を、隣接する音声素片間で予め定められた連続性を保って選択する素片選択手段と、前記素片選択手段によって選択された音声素片の系列から音声を合成してユーザに提示する合成手段と、前記素片群の中から、前記音声合成された系列に含まれる音声素片よりも優先的に選択されるべき音声素片を指定するためのユーザからの入力を受け付ける入力手段と、前記ユーザにより指定された音声素片に対して、前記素片選択手段によって選択された音声素片よりも高い優先度を決定する優先度決定手段とを備え、前記素片選択手段は、前記ユーザにより指定された前記音声素片を、前記優先度決定手段により決定された優先度に基づいて前記素片群の中から再選択し、さらに、その前後の音声素片を前記再選択前と同一の選択を許容して再選択することを特徴とする。
本構成によって、素片選択手段によって選択された音声素片とは異なる音声素片をユーザが直接指定することが可能となる。また優先度決定手段により決定された優先度に基づいて、素片選択手段によりユーザにより指定された音声素片の音声素片系列を再選択する。従って、入力手段を用いてユーザが指定した音声素片を優先し、且つ、音声素片間の連続性を考慮しながら音声素片系列を再選択することができる。これにより、ユーザが所望する音声素片の声質を実現し、同時に音声素片の連続性を確保しているので部分的な音質の劣化がなく、高品質な合成音を得ることができる。
また、前記声質制御装置は、さらに、前記ユーザにより順次、指定された複数の音声素片を含む音声素片の系列において、音声素片間の接続歪みを、予め定められた方法で前記音声素片間の連続性を計測することにより検出する接続歪み検出手段と、前記素片選択手段により音声素片を再選択した後に、前記接続歪み検出手段により、所定の閾値以上の歪みを検出した場合に、前記優先度決定手段により決定された音声素片の優先度を調整する優先度調整手段とを備え、前記素片選択手段は、調整された優先度に基づいて音声素片をさらに再選択するとしてもよい。
これにより、ユーザが入力した音声素片間の連続性が低下する場合においても、優先度調整部により優先度を調整することにより、ユーザが優先したい声質と、音声素片間の連続性を考慮しながら音声素片系列を再選択することができる。これにより、ユーザが所望する音声素片の声質を実現することができるとともに、音声素片の連続性を確保しているので部分的な音質の劣化がなく、高品質な合成音を得ることができる。
さらに、前記素片記憶手段は、類似度に基づきクラスタリングされた複数の音声素片を格納し、前記優先度調整手段により調整された優先度が所定の閾値よりも小さい場合には、調整された音声素片が属するクラスタの優先度を、前記優先度調整手段により調整された優先度とするとしてもよい。
これにより、優先度調整部により優先度が低くなった音声素片に関しては、ユーザにより指定された音声素片に声質が類似している音声素片の中から、連続性を考慮した音声素片を選択することが可能になる。したがって、ユーザの指定による局所的な音声素片の声質を同一のクラスタに属する音声素片を用いることにより尊重しながら、音声素片間の連続性を両立した音声素片の選択が可能となる。結果として、ユーザ所望の声質を実現しつつ、音質に大きな影響を与える連続性の低下がなくなるため、高音質な合成音を得ることができる。
さらに、前記優先度調整手段は、前記音声素片の系列において、近接して指定された前記各音声素片に対して決定された優先度の大小、前記各音声素片の指定の時間的関係、指定された前記各音声素片の指定回数の少なくとも1つに基づいて、前記優先度を調整するとしてもよい。
これにより、近接する音声素片に対するユーザの指定に対して、音声素片の系列への影響度を調整することができる。
また、前記声質制御装置は、さらに、前記音声合成によりユーザに提示された音声素片の前記系列と、前記系列に含まれる音声素片の選択の候補となった素片群とを表示する表示手段を備え、前記入力手段は、表示された前記素片群の中から、優先的に選択されるべき音声素片を指定するための入力を受け付けるとしてもよい。
これにより、音声合成により提示された前記系列と、前記系列に含まれる音声素片の選択の候補となった素片群とを表示によって確認することができ、優先的に選択されるべき音声素片を指定するための入力を、より正確に行なうことができる。
さらに、前記優先度調整手段は、時間を変数として優先度を表す関数に基づいて、前記指定の時間的前後に応じた前記各音声素片間の優先度の大小を判定し、優先度が小さいと判定された前記音声素片については、前後の音声素片を含め、優先度が大きいと判定された前記音声素片との接続歪みがより小さくなる音声素片が前記素片群から再選択されるよう前記優先度を調整する。
これにより、優先度調整手段は、ユーザによる指定の時間的前後に応じて、いずれもユーザによって指定された音声素片のうち、いずれを優先すればよいのかを判定することができる。
なお、本発明は、このような声質制御装置として実現することができるだけでなく、このような声質制御装置が備える特徴的な構成部をステップとする声質制御方法として実現したり、それらのステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM等の記録媒体やインターネット等の伝送媒体を介して配信することができるのは言うまでもない。
本発明の声質制御装置によればユーザが異なる音声素片候補の中から特定の素片を直接指定することが可能である。またユーザにより指定された音声素片に優先度を決定し、その優先度に基づいて、音声素片系列を再選択することも可能となる。したがって、ユーザが入力した音声素片を優先し、且つ、音声素片間の連続性を考慮しながら新たな音声素片系列を構成することができる。すなわち、ユーザが所望する音声素片を用いた声質の実現と、音声素片の連続性を確保することにより、素片間の接続歪みによる局所的な音質の劣化がない高品質な合成音の実現を同時に達成することが出来る。
以下本発明の実施の形態について、図面を参照しながら説明する。
(実施の形態1)
図1は、本発明の実施の形態1における声質制御装置の構成を示すブロック図である。
図1において、素片記憶部101は、少なくとも音韻情報と韻律情報とを含む1以上の入力に対して選択の候補となる複数種の音声素片を示す情報を保持する。この音声素片は、予め収録された音声に基づいて、音素や、音節、モーラなどの単位で示される。なお、素片記憶部101は、音声素片を音声波形や分析パラメータとして保持しても良い。
素片選択部102は、少なくとも音韻情報と韻律情報とを含む入力に基づいて、素片記憶部101に格納されている音声素片群から、隣接する音声素片間で予め定められた連続性を有する音声素片を選択する。
合成部103は、素片選択部102によって選択された音声素片から音声波形を生成、すなわち、音声を合成して出力する。例えば、合成部103は、波形接続型の音声合成方法や、分析合成型の音声合成方法により音声波形を生成する。
ラティス取得部104は、素片選択部102が選択の候補としている音声素片群を抽出する。
表示部105は、ラティス取得部104により取得された音声素片群をユーザに提示するための表示出力を行う。
入力部106は、表示部105により表示された音声素片群のうちから、ユーザが所望する声質に合う音声素片を指定するための入力を受け付ける。また、音声素片の指定と同時に音声素片の所望の度合いを入力するようにしても良い。
優先度決定部107は、入力部106により入力されたユーザの指定に基づいて、ユーザによって選択された音声素片に対して後述する優先度決定方法により優先度を決定する。
図2は、本実施の形態1の声質制御装置の動作を示すフローチャートである。以上のように構成された実施の形態1の声質制御装置の動作について、図2に示すフローチャートを用いて説明する。
ステップS01では、少なくとも音韻と韻律を含む情報を入力する。例えば、「赤い」というテキストデータ(音素情報)を取得して、その音素情報に含まれる各音素と各韻律とを含む韻律情報群を出力する。この韻律情報群は、音素"a"及びこれに対応する韻律を示す韻律情報t1 と、音素"k"及びこれに対応する韻律を示す韻律情報t2 と、音素"a"及びこれに対応する韻律を示す韻律情報t3 と、音素"i"及びこれに対応する韻律を示す韻律情報t4 とを少なくとも含む。
ステップS02では、ステップS01により得られた韻律情報t1 〜 t4に基づいて、素片記憶部101からターゲット韻律(t1 〜 t4)との距離(ターゲットコスト(Ct))と、音声素片の接続性(接続コスト(Cc))を考慮して最適な音声素片系列(U = u1, u2, …,un)を選択する。具体的には式1に示すコストが最小となる音声素片系列をビタビアルゴリズムにより探索する。ターゲットコストと接続コストの算出法は特に限定するものではないが、例えば、ターゲットコストは、韻律情報(基本周波数・継続時間長・パワー)の差分の重み付け和で計算するようにすればよい。また、接続コストは、ui-1 の終端とui の始端のケプストラム距離を用いて計算するようにすればよい。
Figure 0004664194
ただし、
Figure 0004664194
は、U = u1, u2, …,un を変化させた時に、括弧内の値が最小となるUの系列を示す。
ステップS03では、素片選択部102により選択された音声素片系列を用いて音声波形を合成する。合成する方法は特に限定するものではない。
ステップS04では、ステップS03により合成された合成音をユーザが試聴し、所望の声質であるか否かを判断する。所望の声質が得られていた場合には終了し、得られていなかった場合にはステップS05に進む。
ステップS05では、ラティス取得部104は、素片選択部102により選択の候補となった音声素片群を取得する。取得の方法は特に限定するものではないが、例えば、ターゲットコスト(Ct)が閾値以下の音声素片を取得するようにすればよい。
ステップS06では、表示部105は、ラティス取得部104により取得した音声素片群を表示する。図3はラティス取得部104により取得された音声素片群を、ユーザに表示する場合の表示の一例を示す図である。表示の方法は特に限定するものではないが、例えば図3のように表示する。図3において、「a」、「ra」、「yu」、「ru」、「ge」は音声素片単位の音韻情報を示す。この場合、モーラ単位で表示している。表示部105は、音声単位ごとに素片選択部102により選択された音声素片を最上段に配置し(ハッチングで示す201の素片に対応)、2段目以降に、その他の素片の候補(ハッチングなしで示す202の素片に対応)を配置するというように表示すればよい。このように表示することにより、現在、選択されている音声素片と、候補の素片とを一望することが可能である。
ステップS07では、ユーザが入力部106を用いて、表示部105により表示された音声素片群の中から、すでに選択されている音声素片のうちで所望の声質とは異なる音声素片に対して、代替の音声素片を入力する。図4は、すでに選択されている音声素片のうちで、気に入らない音声素片に対して代替の音声素片をユーザが入力する場合の表示の一例を示す図である。例えば、図4に示すようにユーザが気に入らない音声単位(図では"ge")を選択すると、選択された音声単位に対応する代替素片候補を出力する。ユーザは、提示された代替候補の中から、代替候補の音声を聞きながら所望の声質を持つ音声素片(図4では301の素片)を選択する。代替候補の提示方法としては例えば、微調整を行う場合には現在選択されている音声素片に近い音声素片を上位にして提示する方法がある。また、大きく声質を変更したい場合には、現在選択されている音声素片の声質と大きく異なる音声素片を上位にして提示するようにしても良い。このようにしてユーザは、提示された候補の中から所望の声質に最も近い音声素片を選択する。
なお、ユーザが音声素片を選択する際に、優先度の強度を付与して選択するように設計しても良い。
ステップS08では、優先度決定部107は、入力部106により入力された音声素片の優先度を決定する。具体的には、入力部106により選択された音声素片をuis(i番目の音声単位のs番目の素片)とすると、ターゲットコストを式2により、算出する。
Figure 0004664194
ここで、preferenceは正数であり、音声素片uis を優先する度合いを示す。以降、preferenceを優先度と記す。優先度とターゲットコストは、優先度が大きくなるとターゲットコスト(Ct')が小さくなり、優先度が小さくなるとターゲットコスト(Ct')が大きくなる関係にある。preferenceは予め決められた定数としても良いし、入力部106により素片を選択する際にユーザが強度を入力し、入力された強度に応じて絶対値を変更するようにしても良い。
これにより、新たに計算される音声素片uisのターゲットコストCt'は、Ct'<Ctとなる為、素片選択部102により選択されやすくなる。結果として、ユーザの指定した音声素片uis が選択されることになる。
なお、式2では、音声素片uis を優先するためにpreferenceを導入したが、preferenceの変わりに、i番目の音声単位のターゲット情報ti を、音声素片uis の韻律情報に置き換えるようにしてもよい。
なお、優先された音声素片のターゲットコストを、式2ではなく、式3のように設定しても構わない。この場合、音声素片uis を優先する度合いを比率として表現することが可能である。
Figure 0004664194
ステップS09では、優先度決定部107により決定した優先度と、前後の音声素片候補の連続性とを考慮しながら、素片選択部102は最適な音声素片系列を、式1を用いて再選択する。
具体的には、ステップS08で設定したターゲットコストCt'を用いて式1に示した音声素片系列を再度ビタビアルゴリズムを用いて探索することにより、新たな音声素片系列U' を選択することができる。図5は、301の音声素片をユーザが指定した際に素片選択部102が再選択して得られる音声素片系列の一例を示す図である。図4に示したようにユーザが301の音声素片だけを選択した場合、前後の音声素片との間の連続性が損なわれる場合がある。このため、素片選択部102はユーザに選択された301の音声素片の前後にある音声素片401〜403までを再選択し、これによって、ユーザによる素片選択後の音声素片間の連続性を向上させる。すなわち、同図において斜線のハッチングで示す音声素片401〜403は、301の素片を優先したことにより、ユーザの入力と音声素片の連続性の双方を満たす為に改めて選択された音声素片である。
声質制御装置は、素片選択部102により音声素片を再選択したのちに、ステップS03の処理に戻る。このようにして、声質制御装置は、ステップS03〜ステップS09までの処理をユーザが所望する声質の音声が合成できるまで繰り返す。
かかる構成によれば、素片選択部102により選択された音声素片系列に対して、ユーザが直接異なる音声素片を指定することが可能であり、また優先度決定部107により、ユーザにより指定された音声素片の優先度に基づいて、素片選択部102により音声素片系列を再選択する。従って、入力部106を用いてユーザが入力した音声素片を優先し、且つ、音声素片間の連続性を考慮しながら音声素片系列を再選択することができ、ユーザが所望する音声素片の声質の実現と、音声素片の連続性を確保することによって局所的な音質劣化のない高品質な合成音の実現を同時に達成できる。
なお、ステップS09の素片再選択の際に、ユーザの入力により優先された音声素片の優先度が影響を与える範囲を制限するようにしてもよい。例えば、図5の404や405に示すようなアクセント句の境界により影響範囲を制限するようにする。これにより、ユーザの入力に対する影響度を調整することが可能となる。また、制限する単位は、アクセント句だけに限らず、音節、モーラ、形態素、文節、呼気段落としても構わない。
なお、表示部105により音声素片を表示する際に、各音声素片に割り当てられた優先度により表示方法を変更するようにしても良い。例えば、優先度の高い音声素片ほど色を濃く表示してもよいし、あるいは優先度の高い音声素片ほど大きく表示するようにしても良い。また、色そのもの、明るさ、形状、表示の位置、文字の太さなど、如何なる表示属性を変えて表示することにしても構わない。
また、素片選択部102により音声素片が再選択されたときに、再選択により、以前に選ばれた音声素片と異なる音声素片が選ばれた場合には、新しく選ばれた音声素片に対して異なる表示方法を行うようにしても良い。例えば、異なる色により再選択されたことを表すようにしても良いし、異なる形状により再選択されたことを表すようにしても良い。
なお、上記実施の形態1では、ユーザの選択により音声素片の優先度が変更されると、その後、ユーザに選択された音声素片の前後の音声素片が、素片間の連続性に基づいて再選択される例について説明した。しかし、ユーザに選択された音声素片の前後の音声素片に対して、必ずしも異なる音声素片が再選択される必要はない。例えば、ユーザに選択された音声素片の前の音声素片だけが再選択されてもよいし、後の音声素片だけが再選択されてもよい。また、ユーザに選択された音声素片の前後であっても、再選択前と同じ音声素片が再選択されるとしてもよい。例えば、ユーザによって選択された音声素片と、その前後の音声素片との連続性が余り損なわれておらず、前後の音声素片との接続歪みが閾値を超えなかった場合などである。
さらに、前記表示部は、前記優先度決定部または優先度調整部により決定される優先度に基づいて、音声素片を表示する際に、色、色の濃さ、大きさ、明るさ、形状、位置、文字の太さの属性のうち少なくとも一つを変更するとしてもよい。これにより、ユーザは前記表示部で表示されている状況から、現在の声質制御状況を容易に理解することができる。
(実施の形態2)
実施の形態1では、ユーザが所望する音声素片を時間的に違うタイミングで入力を行っている。しかし、例えば、ユーザが選択する音声素片同士が時間的に近い関係にある場合には次のようなことが発生する場合がある。
音声メディアは、時系列のデータである為、通常、人間は数の音声を同時に処理することが出来ない。そこで、逐次的に声質の変更を行うことが必要である。実施の形態1において、ユーザが異なるタイミングで音声素片の優先度を設定した場合、選択された音声素片は固定化されるため、優先された音声素片同士が近い場合は、音声素片間の調整が困難となることがある。図6は、ユーザが互いに近接する音声素片を選択した場合の音声素片間の連続性と接続歪みの関係の一例を示す図である。同図上部には音声素片間の連続性を示し、同図下部には素片間の接続歪みの大きさを棒グラフで示している。同図下部のグラフにおいて破線は接続歪みの閾値を示している。例えば、図6に示すように1回目の入力により音声素片601が優先されたのち、N回目の入力により音声素片602が優先された場合、音声素片601と、音声素片602が同時に選択されることになる。しかしながら、音声素片601と音声素片602を直接接続した場合には、素片間の連続性は保証されるものではない。(なぜならば音声素片601と音声素片602はユーザにより選択されたものであり、素片選択部102が持つ連続性に関するコスト関数は考慮されない。)素片間の連続性が低い場合には、局所的な雑音を発生させることになり、音質の劣化が生じる。
また、直接隣接しない場合においても、2つの素片間の間隔が短い場合には、双方の影響を大きく受けるため、やはり素片間の連続性が問題になる。
本発明の実施の形態2は、このような場合においてもユーザが入力する音声素片を尊重しながら、音声素片間の連続性を同時に満たす音声素片系列を選択することにより、ユーザが所望する声質を実現する声質制御装置を提供する。
図7は、本発明の実施の形態2の声質制御装置の構成を示すブロック図である。図7において、図1と同じ構成については同じ符号を用い、説明を省略する。
図7において、接続歪み検出部108は、素片選択部102により選択された音声素片系列における音声素片間の歪みを検出する。
優先度調整部109は、接続歪み検出部108により、歪みが検出された場合に、優先度決定部107により決定された音声素片の優先度の調整を行う。
接続歪み検出部108と優先度調整部109とを、さらに設けている点が実施の形態1の声質制御装置との違いである(実施の形態2の構成)。
図8は、本実施の形態2の声質制御装置の動作を示すフローチャートである。以下に、図8に示すフローチャートを用いて本発明の実施の形態2の声質制御装置の動作について説明する。
ステップS01では、少なくとも音韻と韻律を含む情報を入力する。具体的な方法は実施の形態1と同様であるので省略する。
ステップS02では、ステップS01により得られた韻律情報に基づいて、素片記憶部101からターゲット韻律との距離(ターゲットコスト(Ct))と、音声素片の接続性(接続コスト(Cc))を考慮して最適な音声素片系列(U = u1, u2, …,un )を選択する。具体的な方法は実施の形態1と同様であるので省略する。
ステップS03では、素片選択部102により選択された音声素片系列を用いて音声波形を合成する。合成する方法は特に限定するものではない。
ステップS04では、ステップS03により合成された合成音をユーザが試聴し、所望の声質であるかを判断する。所望の声質が得られていた場合には終了し、得られていなかった場合にはステップS05に進む。
ステップS05では、ラティス取得部104は、素片選択部102により選択の候補となった音声素片群を取得する。取得の方法は特に限定するものではないが、例えば、ターゲットコスト(Ct)が閾値以下の音声素片を取得するようにすればよい。
ステップS06では、表示部105は、ラティス取得部104により取得した音声素片群を表示する。具体的な表示方法は実施の形態1と同様であるので省略する。
ステップS07では、ユーザが入力部106を用いて、表示部105により表示された音声素片群の中から、所望の声質とは異なる音声素片に対して、代替の音声素片を入力する。具体的な決定方法は実施の形態1と同様であるので省略する。
ステップS08では、優先度決定部107は、入力部106により入力された音声素片の優先度を決定する。具体的な決定方法は実施の形態1と同様であるので省略する。
ステップS09では、優先度決定部107により決定した優先度と、前後の音声素片候補の連続性を考慮しながら、最適な音声素片系列を素片選択部102により再選択する。具体的な選択方法は実施の形態1と同様であるので省略する。
ステップS10では、接続歪み検出部108によりステップS09により再選択された音声素片系列の歪みをチェックする。
具体的には図6に示すように音声素片間の連続性を計測することにより接続歪みを検出することが可能である。ここでは連続性が高い場合に接続歪みが小さく、連続性が低い場合に接続歪みが大きいというように定義する。連続性は、先行素片の終端と後続素片の始端のケプストラム距離や、フォルマント周波数の一致度などにより評価することが可能である。図6の例の場合、第1回目のユーザの指定により選択された音声素片601と第N回目のユーザの指定により選択された音声素片602との間の連続性(歪み)が、所定の閾値603よりも大きくなっている。このような場合、音声素片"ge"と音声素片"N"の間の音声の連続性が損なわれ、結果として音質が劣化する。
接続歪み検出部108により歪みを検出した場合にはステップS11に進む。歪みを検出しなかった場合には、ステップS03に戻る。
ステップS11では、接続歪み検出部108により歪みを検出した場合に、優先度調整部109は優先度決定部107により決定された優先度を調整する。
ステップS11での優先度調整部109による優先度の調整方法は以下に示すような調整を行えばよい。
(1)変更のタイミングによる調整
変更のタイミングにより優先度が変化するようにする。優先度の変化の方法としては例えば、式4に示す優先度関数を用いる。
Figure 0004664194
ここで、αとβは、preferenceの時間的な動きを定義する為の定数であり、t は入力部106によりユーザが素片を選択した時点からの時間(或いはユーザの入力回数)を表す。図9(a)は、βを固定し、一次係数αを変動させた際のpreferenceの値の動きを示す。図9(b)は、αを固定し、βを変動させた際のpreferenceの値の動きを示す。図9(a)及び図9(b)はいずれも、αが負の値である場合のpreferenceの変化を示している。図9(a)に示すように、αの絶対値が大きいほど急峻なpreferenceの動きを実現できる。また、αが負の値である場合にはpreferenceはβの値に収束する。図9(b)に示すように、preferenceが最小となったときでも値が「0」にならない様に、βにはオフセットとして「0」でない正の値が定められる。図10は、αが負の値をとる場合のユーザの入力回数に対するpreferenceの変化を示すグラフである。同図に示すように、縦軸で示されるpreferenceはユーザの入力回数tの増加に従って減少し、βの値に近づく。従って、tの値が小さい、最初に指定した音声素片ほど優先されることになる。すなわち、ユーザの入力回数が1回目ではt=1で、ユーザの入力回数がN回目(1≦N)ではt=Nとすると、N回目の入力の方が1回目の入力よりも時間的に後である。ここで、αの値が負であるから、N回目の入力に対するpreferenceよりも1回目の入力に対するpreferenceの方が大きいことが分かる。
図11は、αが正の値をとる場合のユーザの入力回数に対するpreferenceの変化を示すグラフである。一方、αが正の値である場合には、図11に示すように、preferenceは時間(或いはユーザの入力回数)の増加に伴って増加していく。つまり、ユーザの入力回数が1回目ではt=1で、ユーザの入力回数がN回目(1≦N)ではt=Nとすると、αの値が正であるから、1回目の入力に対するpreferenceよりも後のN回目の入力に対するpreferenceの方が大きいことが分かる。従って、最初に指定された音声素片よりも、直近に指定された音声素片ほど優先されるようになる。
ユーザによる音声素片の選択における時間的な関係を利用して優先度を決定する為、例えば、αとして負の値を設定することにより、最初の操作を優先するように優先度を調整することが可能である。一方、αの値として正の値を設定することにより、直近の操作を優先するように優先度を調整することが可能である。
(2)変更のモードによる調整
入力部106で、優先する音声素片の情報を入力する際に、詳細モードと概略モードの2つのモードを設定する。例えば、一例として、詳細モードでは、ユーザはより微妙なニュアンスまで考慮して音声素片を指定し、概略モードでは、より全体的な大づかみな感覚で音声素片を指定するものとする。これに対し、詳細モードで指定された音声素片は、概略モードで指定された音声素片よりも高いpreferenceを設定する。これにより、詳細モードで入力された音声素片をより優先させることが可能となる。
(3)優先度の大きさによる調整
ステップS07において、入力部106による音声素片の指定の際に優先度をユーザにより入力している場合は、次の方法により優先度を調整することが可能である。
過去に入力部106により、選択された素片の中から、接続歪み検出部108により所定の閾値以上の接続歪みを検出した音声素片接続境界の前後で、最も近い音声素片のペアを抽出する。(例えば図6の場合、"ge"と"N"の間で閾値を超える歪みを検出している。この場合、その前後で最も近い優先度が指定されている音声素片は音声素片601と音声素片602であるため、音声素片601と音声素片602とを抽出する。)抽出した音声素片ペアに付与された優先度(preference)のうち、優先度の低い方の音声素片の優先度を更に低く再設定する。
再設定の方法としては、あらかじめ設定される定数を減算するようにすればよい。あるいは優先度の低い方の音声素片の優先度を零に設定するようにしても良い。
接続歪み検出部108により、所定の閾値以上の歪みを複数検出した場合には上記の操作をそれぞれの歪み検出ポイントで行えばよい。
このように、歪みを検出した箇所の前後の音声素片の優先度を、その優先度の大小関係に応じて調整することにより、ユーザが入力部106により入力した優先度の大きさのより高い音声素片が優先され、且つ連続性の高い音声素片系列を選択することが可能となる。(例えば図6において、音声素片601の優先度の方が高かった場合には、音声素片601が優先され、音声素片601との接続性がより高い音声素片が再選択されることになる。)
(4)変更回数による調整
入力部106により指定された素片が、編集開始時点から何度指定されたかを記憶しておき、対立する音声素片同士の変更回数の大小により、優先度を調整する。つまり、変更回数の多い音声素片はユーザの指定の度合いが強いと判断することができるため、変更回数の少ない方の音声素片の優先度を低減する。これにより、変更回数の多い音声素片の優先度を保ち、且つ音声素片間の連続性を保った音声素片系列が選択される。
なお、以上の方法による優先度の調整方法を組み合わせて、優先度を調整するようにしても構わない。
優先度調整部109により、各音声素片の優先度が調整後、ステップS09に戻る。
ステップS03〜ステップS11までをユーザが所望する声質の音声が合成できるまで繰り返す。
図12は、図6において音声素片601に比べて音声素片602の優先度がより高かった場合の再選択後の音声素変系列の一例を示す図である。同図に示すように、N番目に選択された音声素片602の方が最初に選択された音声素片601よりも優先度が高かった場合には、音声素片602以降の音声素変系列はそのままで、最初に選択された音声素片601とその直前の素片とが素片604と素片605とに再選択されている。これにより、同図下部の棒グラフに示すように、音声素片602と音声素片604との接続歪みが、実線で示すように閾値以下に低減される。なお、ここでは、図6に示した音声素片601と音声素片602との接続歪みは、破線で示されている。
このように、上記構成によれば、素片選択部102により選択された音声素片系列に対して、ユーザが直接異なる音声素片を指定することが可能であり、また優先度決定部107により、ユーザにより指定された音声素片の優先度に基づいて、素片選択部102により音声素片系列を再選択する。また、接続歪み検出部108により音声素片間の歪みを検出した場合には、予め設定された優先度調整方法に従って、入力部106を用いてユーザが入力した音声素片の優先度を調整し、音声素片を再選択する。
以上により、ユーザが入力した音声素片間の連続性が低下する場合においても、優先度調整部109により優先度を調整することにより、ユーザが優先したい声質と、音声素片間の連続性を考慮しながら音声素片系列を再選択することができ、ユーザが所望する音声素片の声質を実現し、同時に音声素片の連続性を確保しているので部分的な音質の劣化がなく、高品質な合成音をユーザに提供することができる。
(実施の形態3)
実施の形態2では、優先度の調整は入力部106によりユーザが指定した音声素片のみに対して行った。本実施の形態では、ステップS11において、優先度調整部109により調整される音声素片の範囲を入力部106によりユーザが指定した音声素片に類似した音声素片にまで広げる点が実施の形態2と異なる点である。
構成は実施の形態2と同じ構成であるため、説明を省略する。実施の形態2と動作が異なる点について説明する。
素片記憶部101は、記憶している音声素片を予め声質の類似度に基づいてクラスタリングを行う。
クラスタリングの方法は特に限定するものではないが、例えばk−mean法やLBGアルゴリズムを用いてクラスタリングすることが可能である。また、クラスタリングの基準として、声質の類似度を用いるが、具体的には、音声素片同士のケプストラムの類似度およびパワーの類似度、基本周波数の類似度、継続時間長の類似度を用いることが可能である。また、それぞれの類似度を組み合わせて声質の類似度と定義しても良い。
また、予めクラスタリングを行うのではなく、ある音声素片が与えられた時にその音声素片に類似した音声素片群を動的にクラスタとするようにしても良い。
また、各音声素片が1個のクラスタに属するのではなく、階層的クラスタリングを行うようにしても良い。
優先度調整部109は、実施の形態2で説明した優先度調整部109による優先度の調整により、優先度が所定の閾値よりも小さくなった場合には、該当の音声素片の優先度を、音声素片が属するクラスタに対して付与する。
図13は、本発明の実施の形態3の声質制御装置におけるクラスタリングの具体例を示す図である。図13を用いて具体的な動作を説明する。図13において音声素片801(x)と音声素片802(y)は、接続歪み検出部108により、調整が必要であると判断された音声素片である。803は、音声素片801が属するクラスタ(X)を表す(ここで805は、クラスタ内での音声素片801の場所を示す。)。804は音声素片802が属するクラスタ(Y)を表す。
このとき、801の音声素片の優先度が、優先度調整部109により低く設定され、所定の閾値以下であったとする。その場合、音声素片801が属するクラスタの各音声素片の優先度を式5に示すように音声素片801と同じ優先度に設定する。
Figure 0004664194
ここで、preference(x)は、音声素片xに設定されている優先度を示す。
この結果、音声素片801と声質が類似した音声素片群(u∈X)は、xと同様に優先される為、クラスタXの中で、音声の連続性が最も良い音声素片が素片選択部102により選択されることが可能となる。
なお、上記の説明では、クラスタは、予め素片記憶部101に記憶された音声素片をクラスタリングしていたが、動的にクラスタを設定するようにしてもよい。つまり、音声素片801(x)と音声の声質の類似度が一定以内の音声素片を探索し、音声素片801(x)が属するクラスタXとしてもよい。これにより、音声素片801(x)は常にクラスタの中心付近に位置することになる為、同一クラスタに含まれる音声素片は音声素片801(x)が持つ声質に類似した音声素片であるといえる。つまり、予めクラスタリングした場合と比較して、代替候補の声質の類似度が近いことが保証されることになる。これにより、素片選択部により素片を再選択した場合に、音声素片801(x)とはことなる音声素片が選択された場合においても音声素片801(x)に類似した音声素片をより選択しやすくなることになる。
図14は、素片記憶部101に記憶される音声素片を階層的にクラスタリングする場合のクラスタリングの一例を示す図である。なお、上記の説明では各音声素片は1つのクラスタに属するようにしているが、図14に示すように階層型クラスタリングを行うことにより、クラスタの大きさを変更可能なように設計してもよい。このとき、音声素片801(x)の優先度の大きさに対して複数の閾値を設定し、優先度が小さくなるに従って、音声素片801(x)の属するクラスタの大きさが大きくなるようにする。つまり、音声素片801(x)の優先度が予め設定された閾値よりも大きい場合にはクラスタX1を対象とし、優先度が閾値よりも小さくなった場合には、1階層上のクラスタ(図14ではG)のクラスタを利用するようにする。これより、優先度が低く設定されたものに関しては、音声素片801(x)に類似した他の候補(クラスタX1と類似したクラスタX2、クラスタX3)を選択の対象として設定できる為、素片選択時の選択候補が増加し、式1の接続コストCcがより小さい音声素片を探索することが可能となる。結果としてターゲットコストCtにおいて優先度に基づき音声素片を選択しながら、接続コストCcが最小になる音声素片を選択することが可能となる。
掛かる構成によれば、優先度調整部109により優先度が低くなった音声素片に関しては、ユーザにより指定された音声素片に声質が類似している音声素片の中から、連続性を考慮した音声素片を選択することが可能になる。したがって、ユーザの指定による局所的な音声素片の声質を同一のクラスタに属する音声素片を用いることにより実現しながら、音声素片間の連続性とを両立した音声素片の選択が可能となる。結果として、ユーザ所望の声質を実現しつつ、連続性の低下による音質の劣化がなくなるため、高音質な合成音を得ることが可能となる。
本発明にかかる声質制御装置は、ユーザによる直接的な音声素片の指定と、連続性の高い素片系列による高い音質を有し、音声コンテンツの制作インタフェース等として有用である。
本発明の実施の形態1における声質制御装置の構成を示すブロック図である。 本発明の実施の形態1の声質制御装置の動作を示すフローチャートである。 選択された各音声素片とそれらの候補となった素片群との表示部による表示例を示す図である。 より優先的に選択されるべき音声素片を指定する入力部からの入力例を示す図である。 図4に示した指定に基づいて素片選択部により再選択された後の音声素片系列の例を示す図である。 ユーザが互いに近接する音声素片を選択した場合の音声素片間の連続性と接続歪みの関係の例を示す図である。 本発明の実施の形態2の声質制御装置の構成を示すブロック図である。 本発明の実施の形態2の声質制御装置の動作を示すフローチャートである。 優先度の調整方法の例を示す図である。(a)は、βを固定し、αを変動させた際のpreferenceの値の動きを示す。(b)は、αを固定し、βを変動させた際のpreferenceの値の動きを示す。 αが負の値をとる場合のユーザの入力回数(又は入力時刻)に対するpreferenceの変化を示すグラフである。 αが正の値をとる場合のユーザの入力回数(又は入力時刻)に対するpreferenceの変化を示すグラフである。 図6において音声素片601に比べて音声素片602の優先度がより高かった場合に、再選択によって得られた音声素変系列の一例を示す図である。 本発明の実施の形態3の声質制御装置におけるクラスタリングの具体例を示す図である。 素片記憶部に記憶される音声素片の階層型クラスタリングの例を示す図である。 従来の声質制御装置の構成を示すブロック図である。 従来の技術による声質変換の概念図である。
符号の説明
101 素片記憶部
102 素片選択部
103 合成部
104 ラティス取得部
105 表示部
106 入力部
107 優先度決定部
108 接続歪み検出部
109 優先度調整部
201 素片選択部により選択された音声素片
202 選択の候補となった素片
301 入力部により選択された素片
401 素片選択部による再選択により新しく選択された素片
402 素片選択部による再選択により新しく選択された素片
403 素片選択部による再選択により新しく選択された素片
601 音声素片
602 音声素片
603 閾値
604 音声素片
605 音声素片
801 音声素片
802 音声素片
A01 データ入力部
A02 合成素片保存部
A03 素片選択部
A04 音声合成・再生部
A05 韻律情報変形部
A06 デジタル信号入力部
A07 デジタル信号量監視部
A08 音声合成・再生制御部

Claims (8)

  1. 音声素片の系列から音声を合成し、合成される音声に含まれる音声素片を、ユーザの指定に従って、異なる声質の音声素片に変更する声質制御装置であって、
    少なくとも音韻情報と韻律情報とを含む入力に対して選択の候補となる複数の音声素片を格納する素片記憶手段と、
    前記各入力に対して、候補となる複数の音声素片からなる前記各素片群のうちから音声素片系列を、隣接する音声素片間で予め定められた連続性を保って選択する素片選択手段と、
    前記素片選択手段によって選択された音声素片の系列から音声を合成してユーザに提示する合成手段と、
    前記素片群の中から、前記音声合成された系列に含まれる音声素片よりも優先的に選択されるべき音声素片を指定するためのユーザからの入力を受け付ける入力手段と、
    前記ユーザにより指定された音声素片に対して、前記素片選択手段によって選択された音声素片よりも高い優先度を決定する優先度決定手段とを備え、
    前記素片選択手段は、前記ユーザにより指定された前記音声素片を、前記優先度決定手段により決定された優先度に基づいて前記素片群の中から再選択し、さらに、その前後の音声素片を前記再選択前と同一の選択を許容して再選択し、
    前記声質制御装置は、さらに、
    前記ユーザにより順次、指定された複数の音声素片を含む音声素片の系列において、音声素片間の接続歪みを、予め定められた方法で前記音声素片間の連続性を計測することにより検出する接続歪み検出手段と、
    前記素片選択手段により音声素片を再選択した後に、前記接続歪み検出手段により、所定の閾値以上の歪みを検出した場合に、前記優先度決定手段により決定された音声素片の優先度を調整する優先度調整手段とを備え、
    前記素片選択手段は、調整された優先度に基づいて音声素片をさらに再選択する
    ことを特徴とする声質制御装置。
  2. 前記優先度調整手段は、前記音声素片の系列において、近接して指定された前記各音声素片に対して決定された優先度の大小、前記各音声素片の指定の時間的関係、指定された前記各音声素片の指定回数の少なくとも1つに基づいて、前記優先度を調整する
    ことを特徴とする請求項に記載の声質制御装置。
  3. 前記優先度調整手段は、時間を変数として優先度を表す関数に基づいて、前記指定の時間的前後に応じた前記各音声素片間の優先度の大小を判定し、優先度が小さいと判定された前記音声素片については、前後の音声素片を含め、優先度が大きいと判定された前記音声素片との接続歪みがより小さくなる音声素片が前記素片群から再選択されるよう前記優先度を調整する
    ことを特徴とする請求項に記載の声質制御装置。
  4. 前記関数は、正の値を取り、前記変数の一次係数の正負によって単調増加又は単調減少する関数であって、前記一次係数は、前記ユーザの指定が時間的に遅い方を重要視する場合には正の値に、時間的に早い方を重要視する場合には負の値に設定される
    ことを特徴とする請求項に記載の声質制御装置。
  5. 前記素片記憶手段は、類似度に基づきクラスタリングされた複数の音声素片を格納し、
    前記優先度調整手段により調整された優先度が所定の閾値よりも小さい場合には、調整された音声素片が属するクラスタの優先度を、前記優先度調整手段により調整された優先
    度とする
    ことを特徴とする請求項に記載の声質制御装置。
  6. 前記声質制御装置は、さらに、
    前記音声合成によりユーザに提示された音声素片の前記系列と、前記系列に含まれる音声素片の選択の候補となった素片群とを表示する表示手段を備え、
    前記入力手段は、表示された前記素片群の中から、優先的に選択されるべき音声素片を指定するための入力を受け付ける
    ことを特徴とする請求項1に記載の声質制御装置。
  7. 音声素片の系列から音声を合成し、合成される音声に含まれる音声素片を、ユーザの指定に従って、異なる声質の音声素片に変更する声質制御方法であって、
    少なくとも音韻情報と韻律情報とを含む入力に対して選択の候補となる複数の音声素片を格納する素片記憶ステップと、
    前記各入力に対して、候補となる複数の音声素片からなる前記各素片群のうちから音声素片系列を、隣接する音声素片間で予め定められた連続性を保って選択する素片選択ステップと、
    前記素片選択ステップによって選択された音声素片の系列から音声を合成してユーザに提示する合成ステップと、
    前記素片群の中から、前記音声合成された系列に含まれる音声素片よりも優先的に選択されるべき音声素片を指定するためのユーザからの入力を受け付ける入力ステップと、
    前記ユーザにより指定された音声素片に対して、前記素片選択手段によって選択された音声素片よりも高い優先度を決定する優先度決定ステップとを含み、
    前記素片選択ステップでは、前記ユーザにより指定された前記音声素片を、前記優先度決定ステップにより決定された優先度に基づいて前記素片群の中から再選択し、さらに、その前後の音声素片を前記再選択前と同一の選択を許容して再選択し、
    前記声質制御方法は、さらに、
    前記ユーザにより順次、指定された複数の音声素片を含む音声素片の系列において、音声素片間の接続歪みを、予め定められた方法で前記音声素片間の連続性を計測することにより検出する接続歪み検出ステップと、
    前記素片選択ステップにより音声素片を再選択した後に、前記接続歪み検出ステップにより、所定の閾値以上の歪みを検出した場合に、前記優先度決定ステップにより決定された音声素片の優先度を調整する優先度調整ステップとを含み、
    前記素片選択ステップでは、調整された優先度に基づいて音声素片をさらに再選択する
    ことを特徴とする声質制御方法。
  8. 音声素片の系列から音声を合成し、合成される音声に含まれる音声素片を、ユーザの指定に従って、異なる声質の音声素片に変更する声質制御装置のためのプログラムであって、
    コンピュータに、少なくとも音韻情報と韻律情報とを含む入力に対して選択の候補となる複数の音声素片を格納する素片記憶ステップと、前記各入力に対して、候補となる複数の音声素片からなる前記各素片群のうちから音声素片系列を、隣接する音声素片間で予め定められた連続性を保って選択する素片選択ステップと、前記素片選択ステップによって選択された音声素片の系列から音声を合成してユーザに提示する合成ステップと、前記素片群の中から、前記音声合成された系列に含まれる音声素片よりも優先的に選択されるべき音声素片を指定するためのユーザからの入力を受け付ける入力ステップと、前記ユーザにより指定された音声素片に対して、前記素片選択手段によって選択された音声素片よりも高い優先度を決定する優先度決定ステップとを含み、前記素片選択ステップでは、前記ユーザにより指定された前記音声素片を、前記優先度決定ステップにより決定された優先度に基づいて前記素片群の中から再選択し、さらに、その前後の音声素片を前記再選択前と同一の選択を許容して再選択し、さらに、
    前記ユーザにより順次、指定された複数の音声素片を含む音声素片の系列において、音声素片間の接続歪みを、予め定められた方法で前記音声素片間の連続性を計測することにより検出する接続歪み検出ステップと、前記素片選択ステップにより音声素片を再選択した後に、前記接続歪み検出ステップにより、所定の閾値以上の歪みを検出した場合に、前記優先度決定ステップにより決定された音声素片の優先度を調整する優先度調整ステップとを含み、前記素片選択ステップでは、調整された優先度に基づいて音声素片をさらに再選択することを実行させるプログラム。
JP2005344737A 2005-11-29 2005-11-29 声質制御装置および方法およびプログラム記憶媒体 Expired - Fee Related JP4664194B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005344737A JP4664194B2 (ja) 2005-11-29 2005-11-29 声質制御装置および方法およびプログラム記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005344737A JP4664194B2 (ja) 2005-11-29 2005-11-29 声質制御装置および方法およびプログラム記憶媒体

Publications (3)

Publication Number Publication Date
JP2007148172A JP2007148172A (ja) 2007-06-14
JP2007148172A5 JP2007148172A5 (ja) 2008-12-25
JP4664194B2 true JP4664194B2 (ja) 2011-04-06

Family

ID=38209625

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005344737A Expired - Fee Related JP4664194B2 (ja) 2005-11-29 2005-11-29 声質制御装置および方法およびプログラム記憶媒体

Country Status (1)

Country Link
JP (1) JP4664194B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5198200B2 (ja) * 2008-09-25 2013-05-15 株式会社東芝 音声合成装置及び方法
JP2011180368A (ja) * 2010-03-01 2011-09-15 Fujitsu Ltd 合成音声修正装置および合成音声修正方法
JP5123347B2 (ja) 2010-03-31 2013-01-23 株式会社東芝 音声合成装置
JP5648347B2 (ja) * 2010-07-14 2015-01-07 ヤマハ株式会社 音声合成装置
KR101201913B1 (ko) * 2010-11-08 2012-11-15 주식회사 보이스웨어 사용자의 후보 합성단위 선택에 의한 음성 합성 방법 및 시스템
JP5712818B2 (ja) * 2011-06-30 2015-05-07 富士通株式会社 音声合成装置、音質修正方法およびプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09319394A (ja) * 1996-03-12 1997-12-12 Toshiba Corp 音声合成方法
JP2002055693A (ja) * 2000-08-10 2002-02-20 Sanyo Electric Co Ltd 音声合成方法
JP2004145015A (ja) * 2002-10-24 2004-05-20 Fujitsu Ltd テキスト音声合成システム及び方法
JP2004246129A (ja) * 2003-02-14 2004-09-02 Arcadia:Kk 音声合成制御装置
JP2005181998A (ja) * 2003-11-28 2005-07-07 Matsushita Electric Ind Co Ltd 音声合成装置および音声合成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09319394A (ja) * 1996-03-12 1997-12-12 Toshiba Corp 音声合成方法
JP2002055693A (ja) * 2000-08-10 2002-02-20 Sanyo Electric Co Ltd 音声合成方法
JP2004145015A (ja) * 2002-10-24 2004-05-20 Fujitsu Ltd テキスト音声合成システム及び方法
JP2004246129A (ja) * 2003-02-14 2004-09-02 Arcadia:Kk 音声合成制御装置
JP2005181998A (ja) * 2003-11-28 2005-07-07 Matsushita Electric Ind Co Ltd 音声合成装置および音声合成方法

Also Published As

Publication number Publication date
JP2007148172A (ja) 2007-06-14

Similar Documents

Publication Publication Date Title
JP3913770B2 (ja) 音声合成装置および方法
JP4664194B2 (ja) 声質制御装置および方法およびプログラム記憶媒体
EP1455340A1 (en) Singing voice synthesizing apparatus with selective use of templates for attack and non-attack notes
JP4783608B2 (ja) 対話方法、対話装置、対話プログラムおよび記録媒体
WO2017033612A1 (ja) 表示制御方法および合成音声編集装置
JP2008107454A (ja) 音声合成装置
JP2008249808A (ja) 音声合成装置、音声合成方法及びプログラム
US20160133246A1 (en) Voice synthesis device, voice synthesis method, and recording medium having a voice synthesis program recorded thereon
JP4639932B2 (ja) 音声合成装置
JP2011186143A (ja) ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
US9020821B2 (en) Apparatus and method for editing speech synthesis, and computer readable medium
JP2001109500A (ja) 音声合成装置および方法
JP2007148172A5 (ja)
US20080177548A1 (en) Speech Synthesis Method and Apparatus
JP2001272991A (ja) 音声対話方法及び音声対話装置
JP5712818B2 (ja) 音声合成装置、音質修正方法およびプログラム
JP5106274B2 (ja) 音声処理装置、音声処理方法及びプログラム
JP5275470B2 (ja) 音声合成装置およびプログラム
JP4846548B2 (ja) 音声情報選択装置及び音声情報選択方法
JP2006106334A (ja) 歌詞表示方法および装置
WO2013011634A1 (ja) 波形処理装置、波形処理方法および波形処理プログラム
JP3892691B2 (ja) 音声合成方法及びその装置並びに音声合成プログラム
JP2013195928A (ja) 音声素片切出装置
JP2007025338A (ja) 音声合成方法,音声合成装置,およびコンピュータプログラム
US20230419929A1 (en) Signal processing system, signal processing method, and program

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081110

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101214

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110106

R150 Certificate of patent or registration of utility model

Ref document number: 4664194

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140114

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees