JP4664194B2

JP4664194B2 - 声質制御装置および方法およびプログラム記憶媒体

Info

Publication number: JP4664194B2
Application number: JP2005344737A
Authority: JP
Inventors: 良文廣瀬; 弓子加藤; 孝浩釜井
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2005-11-29
Filing date: 2005-11-29
Publication date: 2011-04-06
Anticipated expiration: 2025-11-29
Also published as: JP2007148172A

Description

本発明は音声合成において声質の制御を行うための声質制御方法に関するものである。

現在、合成音声の品質が向上している中、音質の向上以外に声質や発話スタイル等の制御や表現に関する技術が望まれている。例えば、ゲームソフトやエンターテイメント分野における声質等の変更のニーズの高まりが挙げられる。

従来の声質制御方法としては、ユーザによる操作など外部からの入力に基づいて、素片選択のターゲット情報の１つである韻律を変形し、その変形されたターゲット情報に基づいて音声素片を選択するものがあった（例えば、特許文献１参照）。図１５は、前記特許文献１に記載された従来の声質制御方法を示すものである。

図１５において、データ入力部Ａ０１は、テキスト列の言語解析により韻律情報と音韻情報とが付与されたデータを外部から受け付ける。合成素片保存部Ａ０２は、テキスト音声合成用の合成素片を格納する。素片選択部Ａ０３は、合成素片保存部から音声合成に適した素片を選択する。音声合成・再生部Ａ０４は、素片選択部で選択された合成素片を接続して合成音声を生成し、合成音声を再生する。韻律情報変形部Ａ０５は、入力されたデータが有する韻律パラメータの初期値を、デジタル信号量監視部で監視されたデジタル信号量に基づき、デジタル信号量と対応付けてあらかじめ設定された値に変換する。デジタル信号入力部Ａ０６は、ユーザ操作の情報などに基づく２段階以上の信号量を有するデジタル信号を入力する。デジタル信号量監視部Ａ０７は、入力されたデジタル信号量を監視する。音声合成再生制御部Ａ０８は、音声合成・再生部の駆動を制御する。

以上によって構成された上記音声合成装置は、信号入力部で入力された１以上のデジタル信号の信号量を監視する信号量監視部と、初期値を有する韻律パラメータを１以上含む韻律情報と、音韻情報とが付与されたデータから、韻律パラメータの初期値を、監視された信号量に基づき、信号量と対応付けてあらかじめ設定された実行値に変換する韻律情報変形部と、少なくとも音韻情報に基づいて、テキスト音声合成用の合成素片が格納された合成素片保存部から合成素片を選択し、デジタル入力に対応した韻律の合成音を生成していた。
特開２００５−１７５９５号公報（段落[０００９]−[００１１]、図1）

しかしながら、前記従来の構成では、デジタル信号入力部Ａ０６により入力されるデジタル信号量に基づいて、韻律情報変形部Ａ０５により韻律情報を変形し、変形された韻律情報に基づいて素片選択部Ａ０３が素片を選択するとしていたが、この場合、ユーザが指定した情報は、素片選択部Ａ０３により、間接的に指定されているにとどまり、実際には韻律情報変形部Ａ０５により変形された韻律情報に必ずしも一致する素片が存在するとは限らない。図１６を用いて具体的に説明する。図１６は、前記従来の構成で変更される声質を模擬的に示した図である。図１６において、次元１および次元２は声質空間上の軸を表す。また、丸印は合成素片保存部Ａ０２に保存されている素片を表す。Ｂ０１は声質空間上における韻律パラメータの初期値において選択された音声素片の声質を表す。Ｂ０２は、デジタル信号入力部Ａ０６からの入力に基づいて変形された韻律パラメータが持つ声質の移動を表す（破線は、デジタル信号入力による声質の変更軸を表す）。Ｂ０３、Ｂ０４は、変形後の韻律パラメータに基づいて、素片選択部Ａ０３により、選択される素片の候補を表す。つまり、素片選択部では、目標となる韻律に最も近い音声素片を選択するのであって、目標とする声質そのものを実現するわけではない。そのため、ユーザから見れば、素片選択部により選択される目標韻律情報に近い音声素片が、目的とする音声素片であるとは限らない。Ｂ０３，Ｂ０４に表される音声素片以外にも、候補としては別途、Ｂ０５やＢ０６に示すような素片も考えることができるが、前記従来の構成では、このような音声素片を直接指定する手段はない。

一方、図１６において、ユーザの好みに合う声質を持つ音声素片(例えばＢ０５、Ｂ０６)をユーザが直接指定し、音声素片を置き換えるという方法も考えられるが、その場合には、音声としての前後の関係を無視して音声素片を接続することになる為、音声素片間の接続境界付近の連続性が低下し、音声品質が劣化するという課題を有していた。

まとめると、従来の技術においてはユーザが指定した情報に基づき変更された韻律によって選択された素片を用いるために、ユーザが望むものとは異なる声質となるか、ユーザが指定した声質を優先した素片を用いるために前後の素片との連続性が低下するかの何れかが避けられないという問題があった。

本発明は、前記従来の課題を解決するもので、ユーザが目的の声質を持つ音声素片を直接指定することが可能であり、且つ指定された音声素片を用いた場合においても、音声素片間の接続性が劣化することなく、連続性が高く高音質な合成音を得ることが可能な声質制御装置を提供することを目的とする。

前記従来の課題を解決するために、本発明の声質制御装置は、音声素片の系列から音声を合成し、合成される音声に含まれる音声素片を、ユーザの指定に従って、異なる声質の音声素片に変更する声質制御装置であって、少なくとも音韻情報と韻律情報とを含む入力に対して選択の候補となる複数の音声素片を格納する素片記憶手段と、前記各入力に対して、候補となる複数の音声素片からなる前記各素片群のうちから音声素片系列を、隣接する音声素片間で予め定められた連続性を保って選択する素片選択手段と、前記素片選択手段によって選択された音声素片の系列から音声を合成してユーザに提示する合成手段と、前記素片群の中から、前記音声合成された系列に含まれる音声素片よりも優先的に選択されるべき音声素片を指定するためのユーザからの入力を受け付ける入力手段と、前記ユーザにより指定された音声素片に対して、前記素片選択手段によって選択された音声素片よりも高い優先度を決定する優先度決定手段とを備え、前記素片選択手段は、前記ユーザにより指定された前記音声素片を、前記優先度決定手段により決定された優先度に基づいて前記素片群の中から再選択し、さらに、その前後の音声素片を前記再選択前と同一の選択を許容して再選択することを特徴とする。

本構成によって、素片選択手段によって選択された音声素片とは異なる音声素片をユーザが直接指定することが可能となる。また優先度決定手段により決定された優先度に基づいて、素片選択手段によりユーザにより指定された音声素片の音声素片系列を再選択する。従って、入力手段を用いてユーザが指定した音声素片を優先し、且つ、音声素片間の連続性を考慮しながら音声素片系列を再選択することができる。これにより、ユーザが所望する音声素片の声質を実現し、同時に音声素片の連続性を確保しているので部分的な音質の劣化がなく、高品質な合成音を得ることができる。

また、前記声質制御装置は、さらに、前記ユーザにより順次、指定された複数の音声素片を含む音声素片の系列において、音声素片間の接続歪みを、予め定められた方法で前記音声素片間の連続性を計測することにより検出する接続歪み検出手段と、前記素片選択手段により音声素片を再選択した後に、前記接続歪み検出手段により、所定の閾値以上の歪みを検出した場合に、前記優先度決定手段により決定された音声素片の優先度を調整する優先度調整手段とを備え、前記素片選択手段は、調整された優先度に基づいて音声素片をさらに再選択するとしてもよい。

これにより、ユーザが入力した音声素片間の連続性が低下する場合においても、優先度調整部により優先度を調整することにより、ユーザが優先したい声質と、音声素片間の連続性を考慮しながら音声素片系列を再選択することができる。これにより、ユーザが所望する音声素片の声質を実現することができるとともに、音声素片の連続性を確保しているので部分的な音質の劣化がなく、高品質な合成音を得ることができる。

さらに、前記素片記憶手段は、類似度に基づきクラスタリングされた複数の音声素片を格納し、前記優先度調整手段により調整された優先度が所定の閾値よりも小さい場合には、調整された音声素片が属するクラスタの優先度を、前記優先度調整手段により調整された優先度とするとしてもよい。

これにより、優先度調整部により優先度が低くなった音声素片に関しては、ユーザにより指定された音声素片に声質が類似している音声素片の中から、連続性を考慮した音声素片を選択することが可能になる。したがって、ユーザの指定による局所的な音声素片の声質を同一のクラスタに属する音声素片を用いることにより尊重しながら、音声素片間の連続性を両立した音声素片の選択が可能となる。結果として、ユーザ所望の声質を実現しつつ、音質に大きな影響を与える連続性の低下がなくなるため、高音質な合成音を得ることができる。

さらに、前記優先度調整手段は、前記音声素片の系列において、近接して指定された前記各音声素片に対して決定された優先度の大小、前記各音声素片の指定の時間的関係、指定された前記各音声素片の指定回数の少なくとも１つに基づいて、前記優先度を調整するとしてもよい。

これにより、近接する音声素片に対するユーザの指定に対して、音声素片の系列への影響度を調整することができる。

また、前記声質制御装置は、さらに、前記音声合成によりユーザに提示された音声素片の前記系列と、前記系列に含まれる音声素片の選択の候補となった素片群とを表示する表示手段を備え、前記入力手段は、表示された前記素片群の中から、優先的に選択されるべき音声素片を指定するための入力を受け付けるとしてもよい。

これにより、音声合成により提示された前記系列と、前記系列に含まれる音声素片の選択の候補となった素片群とを表示によって確認することができ、優先的に選択されるべき音声素片を指定するための入力を、より正確に行なうことができる。

さらに、前記優先度調整手段は、時間を変数として優先度を表す関数に基づいて、前記指定の時間的前後に応じた前記各音声素片間の優先度の大小を判定し、優先度が小さいと判定された前記音声素片については、前後の音声素片を含め、優先度が大きいと判定された前記音声素片との接続歪みがより小さくなる音声素片が前記素片群から再選択されるよう前記優先度を調整する。

これにより、優先度調整手段は、ユーザによる指定の時間的前後に応じて、いずれもユーザによって指定された音声素片のうち、いずれを優先すればよいのかを判定することができる。

なお、本発明は、このような声質制御装置として実現することができるだけでなく、このような声質制御装置が備える特徴的な構成部をステップとする声質制御方法として実現したり、それらのステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、ＣＤ−ＲＯＭ等の記録媒体やインターネット等の伝送媒体を介して配信することができるのは言うまでもない。

本発明の声質制御装置によればユーザが異なる音声素片候補の中から特定の素片を直接指定することが可能である。またユーザにより指定された音声素片に優先度を決定し、その優先度に基づいて、音声素片系列を再選択することも可能となる。したがって、ユーザが入力した音声素片を優先し、且つ、音声素片間の連続性を考慮しながら新たな音声素片系列を構成することができる。すなわち、ユーザが所望する音声素片を用いた声質の実現と、音声素片の連続性を確保することにより、素片間の接続歪みによる局所的な音質の劣化がない高品質な合成音の実現を同時に達成することが出来る。

以下本発明の実施の形態について、図面を参照しながら説明する。

（実施の形態１）
図１は、本発明の実施の形態１における声質制御装置の構成を示すブロック図である。

図１において、素片記憶部１０１は、少なくとも音韻情報と韻律情報とを含む１以上の入力に対して選択の候補となる複数種の音声素片を示す情報を保持する。この音声素片は、予め収録された音声に基づいて、音素や、音節、モーラなどの単位で示される。なお、素片記憶部１０１は、音声素片を音声波形や分析パラメータとして保持しても良い。

素片選択部１０２は、少なくとも音韻情報と韻律情報とを含む入力に基づいて、素片記憶部１０１に格納されている音声素片群から、隣接する音声素片間で予め定められた連続性を有する音声素片を選択する。

合成部１０３は、素片選択部１０２によって選択された音声素片から音声波形を生成、すなわち、音声を合成して出力する。例えば、合成部１０３は、波形接続型の音声合成方法や、分析合成型の音声合成方法により音声波形を生成する。

ラティス取得部１０４は、素片選択部１０２が選択の候補としている音声素片群を抽出する。

表示部１０５は、ラティス取得部１０４により取得された音声素片群をユーザに提示するための表示出力を行う。

入力部１０６は、表示部１０５により表示された音声素片群のうちから、ユーザが所望する声質に合う音声素片を指定するための入力を受け付ける。また、音声素片の指定と同時に音声素片の所望の度合いを入力するようにしても良い。

優先度決定部１０７は、入力部１０６により入力されたユーザの指定に基づいて、ユーザによって選択された音声素片に対して後述する優先度決定方法により優先度を決定する。

図２は、本実施の形態１の声質制御装置の動作を示すフローチャートである。以上のように構成された実施の形態１の声質制御装置の動作について、図２に示すフローチャートを用いて説明する。

ステップＳ０１では、少なくとも音韻と韻律を含む情報を入力する。例えば、「赤い」というテキストデータ（音素情報）を取得して、その音素情報に含まれる各音素と各韻律とを含む韻律情報群を出力する。この韻律情報群は、音素"ａ"及びこれに対応する韻律を示す韻律情報t₁ と、音素"ｋ"及びこれに対応する韻律を示す韻律情報t₂ と、音素"ａ"及びこれに対応する韻律を示す韻律情報t₃ と、音素"ｉ"及びこれに対応する韻律を示す韻律情報t₄ とを少なくとも含む。

ステップＳ０２では、ステップＳ０１により得られた韻律情報t₁ 〜 t₄に基づいて、素片記憶部１０１からターゲット韻律（t₁ 〜 t₄）との距離（ターゲットコスト（Ｃｔ））と、音声素片の接続性（接続コスト（Ｃｃ））を考慮して最適な音声素片系列（U = u₁, u₂, …,u_n）を選択する。具体的には式１に示すコストが最小となる音声素片系列をビタビアルゴリズムにより探索する。ターゲットコストと接続コストの算出法は特に限定するものではないが、例えば、ターゲットコストは、韻律情報（基本周波数・継続時間長・パワー）の差分の重み付け和で計算するようにすればよい。また、接続コストは、u_i-1 の終端とu_i の始端のケプストラム距離を用いて計算するようにすればよい。

ただし、

は、U = u₁, u₂, …,u_n を変化させた時に、括弧内の値が最小となるＵの系列を示す。

ステップＳ０３では、素片選択部１０２により選択された音声素片系列を用いて音声波形を合成する。合成する方法は特に限定するものではない。

ステップＳ０４では、ステップＳ０３により合成された合成音をユーザが試聴し、所望の声質であるか否かを判断する。所望の声質が得られていた場合には終了し、得られていなかった場合にはステップＳ０５に進む。

ステップＳ０５では、ラティス取得部１０４は、素片選択部１０２により選択の候補となった音声素片群を取得する。取得の方法は特に限定するものではないが、例えば、ターゲットコスト（Ｃｔ）が閾値以下の音声素片を取得するようにすればよい。

ステップＳ０６では、表示部１０５は、ラティス取得部１０４により取得した音声素片群を表示する。図３はラティス取得部１０４により取得された音声素片群を、ユーザに表示する場合の表示の一例を示す図である。表示の方法は特に限定するものではないが、例えば図３のように表示する。図３において、「ａ」、「ｒａ」、「ｙｕ」、「ｒｕ」、「ｇｅ」は音声素片単位の音韻情報を示す。この場合、モーラ単位で表示している。表示部１０５は、音声単位ごとに素片選択部１０２により選択された音声素片を最上段に配置し（ハッチングで示す２０１の素片に対応）、２段目以降に、その他の素片の候補（ハッチングなしで示す２０２の素片に対応）を配置するというように表示すればよい。このように表示することにより、現在、選択されている音声素片と、候補の素片とを一望することが可能である。

ステップＳ０７では、ユーザが入力部１０６を用いて、表示部１０５により表示された音声素片群の中から、すでに選択されている音声素片のうちで所望の声質とは異なる音声素片に対して、代替の音声素片を入力する。図４は、すでに選択されている音声素片のうちで、気に入らない音声素片に対して代替の音声素片をユーザが入力する場合の表示の一例を示す図である。例えば、図４に示すようにユーザが気に入らない音声単位（図では"ge"）を選択すると、選択された音声単位に対応する代替素片候補を出力する。ユーザは、提示された代替候補の中から、代替候補の音声を聞きながら所望の声質を持つ音声素片（図４では３０１の素片）を選択する。代替候補の提示方法としては例えば、微調整を行う場合には現在選択されている音声素片に近い音声素片を上位にして提示する方法がある。また、大きく声質を変更したい場合には、現在選択されている音声素片の声質と大きく異なる音声素片を上位にして提示するようにしても良い。このようにしてユーザは、提示された候補の中から所望の声質に最も近い音声素片を選択する。

なお、ユーザが音声素片を選択する際に、優先度の強度を付与して選択するように設計しても良い。

ステップＳ０８では、優先度決定部１０７は、入力部１０６により入力された音声素片の優先度を決定する。具体的には、入力部１０６により選択された音声素片をu_is（ｉ番目の音声単位のｓ番目の素片）とすると、ターゲットコストを式２により、算出する。

ここで、ｐｒｅｆｅｒｅｎｃｅは正数であり、音声素片u_is を優先する度合いを示す。以降、ｐｒｅｆｅｒｅｎｃｅを優先度と記す。優先度とターゲットコストは、優先度が大きくなるとターゲットコスト（Ct'）が小さくなり、優先度が小さくなるとターゲットコスト（Ct'）が大きくなる関係にある。ｐｒｅｆｅｒｅｎｃｅは予め決められた定数としても良いし、入力部１０６により素片を選択する際にユーザが強度を入力し、入力された強度に応じて絶対値を変更するようにしても良い。

これにより、新たに計算される音声素片u_isのターゲットコストＣｔ'は、Ｃｔ'＜Ｃｔとなる為、素片選択部１０２により選択されやすくなる。結果として、ユーザの指定した音声素片u_is が選択されることになる。

なお、式２では、音声素片u_is を優先するためにｐｒｅｆｅｒｅｎｃｅを導入したが、ｐｒｅｆｅｒｅｎｃｅの変わりに、ｉ番目の音声単位のターゲット情報t_i を、音声素片u_is の韻律情報に置き換えるようにしてもよい。

なお、優先された音声素片のターゲットコストを、式２ではなく、式３のように設定しても構わない。この場合、音声素片u_is を優先する度合いを比率として表現することが可能である。

ステップＳ０９では、優先度決定部１０７により決定した優先度と、前後の音声素片候補の連続性とを考慮しながら、素片選択部１０２は最適な音声素片系列を、式１を用いて再選択する。

具体的には、ステップＳ０８で設定したターゲットコストＣｔ'を用いて式１に示した音声素片系列を再度ビタビアルゴリズムを用いて探索することにより、新たな音声素片系列U' を選択することができる。図５は、３０１の音声素片をユーザが指定した際に素片選択部１０２が再選択して得られる音声素片系列の一例を示す図である。図４に示したようにユーザが３０１の音声素片だけを選択した場合、前後の音声素片との間の連続性が損なわれる場合がある。このため、素片選択部１０２はユーザに選択された３０１の音声素片の前後にある音声素片４０１〜４０３までを再選択し、これによって、ユーザによる素片選択後の音声素片間の連続性を向上させる。すなわち、同図において斜線のハッチングで示す音声素片４０１〜４０３は、３０１の素片を優先したことにより、ユーザの入力と音声素片の連続性の双方を満たす為に改めて選択された音声素片である。

声質制御装置は、素片選択部１０２により音声素片を再選択したのちに、ステップＳ０３の処理に戻る。このようにして、声質制御装置は、ステップＳ０３〜ステップＳ０９までの処理をユーザが所望する声質の音声が合成できるまで繰り返す。

かかる構成によれば、素片選択部１０２により選択された音声素片系列に対して、ユーザが直接異なる音声素片を指定することが可能であり、また優先度決定部１０７により、ユーザにより指定された音声素片の優先度に基づいて、素片選択部１０２により音声素片系列を再選択する。従って、入力部１０６を用いてユーザが入力した音声素片を優先し、且つ、音声素片間の連続性を考慮しながら音声素片系列を再選択することができ、ユーザが所望する音声素片の声質の実現と、音声素片の連続性を確保することによって局所的な音質劣化のない高品質な合成音の実現を同時に達成できる。

なお、ステップＳ０９の素片再選択の際に、ユーザの入力により優先された音声素片の優先度が影響を与える範囲を制限するようにしてもよい。例えば、図５の４０４や４０５に示すようなアクセント句の境界により影響範囲を制限するようにする。これにより、ユーザの入力に対する影響度を調整することが可能となる。また、制限する単位は、アクセント句だけに限らず、音節、モーラ、形態素、文節、呼気段落としても構わない。

なお、表示部１０５により音声素片を表示する際に、各音声素片に割り当てられた優先度により表示方法を変更するようにしても良い。例えば、優先度の高い音声素片ほど色を濃く表示してもよいし、あるいは優先度の高い音声素片ほど大きく表示するようにしても良い。また、色そのもの、明るさ、形状、表示の位置、文字の太さなど、如何なる表示属性を変えて表示することにしても構わない。

また、素片選択部１０２により音声素片が再選択されたときに、再選択により、以前に選ばれた音声素片と異なる音声素片が選ばれた場合には、新しく選ばれた音声素片に対して異なる表示方法を行うようにしても良い。例えば、異なる色により再選択されたことを表すようにしても良いし、異なる形状により再選択されたことを表すようにしても良い。

なお、上記実施の形態１では、ユーザの選択により音声素片の優先度が変更されると、その後、ユーザに選択された音声素片の前後の音声素片が、素片間の連続性に基づいて再選択される例について説明した。しかし、ユーザに選択された音声素片の前後の音声素片に対して、必ずしも異なる音声素片が再選択される必要はない。例えば、ユーザに選択された音声素片の前の音声素片だけが再選択されてもよいし、後の音声素片だけが再選択されてもよい。また、ユーザに選択された音声素片の前後であっても、再選択前と同じ音声素片が再選択されるとしてもよい。例えば、ユーザによって選択された音声素片と、その前後の音声素片との連続性が余り損なわれておらず、前後の音声素片との接続歪みが閾値を超えなかった場合などである。

さらに、前記表示部は、前記優先度決定部または優先度調整部により決定される優先度に基づいて、音声素片を表示する際に、色、色の濃さ、大きさ、明るさ、形状、位置、文字の太さの属性のうち少なくとも一つを変更するとしてもよい。これにより、ユーザは前記表示部で表示されている状況から、現在の声質制御状況を容易に理解することができる。

（実施の形態２）
実施の形態１では、ユーザが所望する音声素片を時間的に違うタイミングで入力を行っている。しかし、例えば、ユーザが選択する音声素片同士が時間的に近い関係にある場合には次のようなことが発生する場合がある。

音声メディアは、時系列のデータである為、通常、人間は数の音声を同時に処理することが出来ない。そこで、逐次的に声質の変更を行うことが必要である。実施の形態１において、ユーザが異なるタイミングで音声素片の優先度を設定した場合、選択された音声素片は固定化されるため、優先された音声素片同士が近い場合は、音声素片間の調整が困難となることがある。図６は、ユーザが互いに近接する音声素片を選択した場合の音声素片間の連続性と接続歪みの関係の一例を示す図である。同図上部には音声素片間の連続性を示し、同図下部には素片間の接続歪みの大きさを棒グラフで示している。同図下部のグラフにおいて破線は接続歪みの閾値を示している。例えば、図６に示すように１回目の入力により音声素片６０１が優先されたのち、Ｎ回目の入力により音声素片６０２が優先された場合、音声素片６０１と、音声素片６０２が同時に選択されることになる。しかしながら、音声素片６０１と音声素片６０２を直接接続した場合には、素片間の連続性は保証されるものではない。（なぜならば音声素片６０１と音声素片６０２はユーザにより選択されたものであり、素片選択部１０２が持つ連続性に関するコスト関数は考慮されない。）素片間の連続性が低い場合には、局所的な雑音を発生させることになり、音質の劣化が生じる。

また、直接隣接しない場合においても、２つの素片間の間隔が短い場合には、双方の影響を大きく受けるため、やはり素片間の連続性が問題になる。

本発明の実施の形態２は、このような場合においてもユーザが入力する音声素片を尊重しながら、音声素片間の連続性を同時に満たす音声素片系列を選択することにより、ユーザが所望する声質を実現する声質制御装置を提供する。

図７は、本発明の実施の形態２の声質制御装置の構成を示すブロック図である。図７において、図１と同じ構成については同じ符号を用い、説明を省略する。

図７において、接続歪み検出部１０８は、素片選択部１０２により選択された音声素片系列における音声素片間の歪みを検出する。

優先度調整部１０９は、接続歪み検出部１０８により、歪みが検出された場合に、優先度決定部１０７により決定された音声素片の優先度の調整を行う。

接続歪み検出部１０８と優先度調整部１０９とを、さらに設けている点が実施の形態1の声質制御装置との違いである（実施の形態２の構成）。

図８は、本実施の形態２の声質制御装置の動作を示すフローチャートである。以下に、図８に示すフローチャートを用いて本発明の実施の形態２の声質制御装置の動作について説明する。

ステップＳ０１では、少なくとも音韻と韻律を含む情報を入力する。具体的な方法は実施の形態１と同様であるので省略する。

ステップＳ０２では、ステップＳ０１により得られた韻律情報に基づいて、素片記憶部１０１からターゲット韻律との距離（ターゲットコスト（Ｃｔ））と、音声素片の接続性（接続コスト（Ｃｃ））を考慮して最適な音声素片系列（U = u₁, u₂, …,u_n ）を選択する。具体的な方法は実施の形態１と同様であるので省略する。

ステップＳ０４では、ステップＳ０３により合成された合成音をユーザが試聴し、所望の声質であるかを判断する。所望の声質が得られていた場合には終了し、得られていなかった場合にはステップＳ０５に進む。

ステップＳ０６では、表示部１０５は、ラティス取得部１０４により取得した音声素片群を表示する。具体的な表示方法は実施の形態１と同様であるので省略する。

ステップＳ０７では、ユーザが入力部１０６を用いて、表示部１０５により表示された音声素片群の中から、所望の声質とは異なる音声素片に対して、代替の音声素片を入力する。具体的な決定方法は実施の形態１と同様であるので省略する。

ステップＳ０８では、優先度決定部１０７は、入力部１０６により入力された音声素片の優先度を決定する。具体的な決定方法は実施の形態１と同様であるので省略する。

ステップＳ０９では、優先度決定部１０７により決定した優先度と、前後の音声素片候補の連続性を考慮しながら、最適な音声素片系列を素片選択部１０２により再選択する。具体的な選択方法は実施の形態１と同様であるので省略する。

ステップＳ１０では、接続歪み検出部１０８によりステップＳ０９により再選択された音声素片系列の歪みをチェックする。

具体的には図６に示すように音声素片間の連続性を計測することにより接続歪みを検出することが可能である。ここでは連続性が高い場合に接続歪みが小さく、連続性が低い場合に接続歪みが大きいというように定義する。連続性は、先行素片の終端と後続素片の始端のケプストラム距離や、フォルマント周波数の一致度などにより評価することが可能である。図６の例の場合、第1回目のユーザの指定により選択された音声素片６０１と第Ｎ回目のユーザの指定により選択された音声素片６０２との間の連続性（歪み）が、所定の閾値６０３よりも大きくなっている。このような場合、音声素片"ｇｅ"と音声素片"Ｎ"の間の音声の連続性が損なわれ、結果として音質が劣化する。

接続歪み検出部１０８により歪みを検出した場合にはステップＳ１１に進む。歪みを検出しなかった場合には、ステップＳ０３に戻る。

ステップＳ１１では、接続歪み検出部１０８により歪みを検出した場合に、優先度調整部１０９は優先度決定部１０７により決定された優先度を調整する。

ステップＳ１１での優先度調整部１０９による優先度の調整方法は以下に示すような調整を行えばよい。

（１）変更のタイミングによる調整
変更のタイミングにより優先度が変化するようにする。優先度の変化の方法としては例えば、式４に示す優先度関数を用いる。

ここで、αとβは、ｐｒｅｆｅｒｅｎｃｅの時間的な動きを定義する為の定数であり、t は入力部１０６によりユーザが素片を選択した時点からの時間（或いはユーザの入力回数）を表す。図９（ａ）は、βを固定し、一次係数αを変動させた際のｐｒｅｆｅｒｅｎｃｅの値の動きを示す。図９（ｂ）は、αを固定し、βを変動させた際のｐｒｅｆｅｒｅｎｃｅの値の動きを示す。図９（ａ）及び図９（ｂ）はいずれも、αが負の値である場合のｐｒｅｆｅｒｅｎｃｅの変化を示している。図９（ａ）に示すように、αの絶対値が大きいほど急峻なｐｒｅｆｅｒｅｎｃｅの動きを実現できる。また、αが負の値である場合にはｐｒｅｆｅｒｅｎｃｅはβの値に収束する。図９（ｂ）に示すように、ｐｒｅｆｅｒｅｎｃｅが最小となったときでも値が「０」にならない様に、βにはオフセットとして「０」でない正の値が定められる。図１０は、αが負の値をとる場合のユーザの入力回数に対するｐｒｅｆｅｒｅｎｃｅの変化を示すグラフである。同図に示すように、縦軸で示されるｐｒｅｆｅｒｅｎｃｅはユーザの入力回数ｔの増加に従って減少し、βの値に近づく。従って、ｔの値が小さい、最初に指定した音声素片ほど優先されることになる。すなわち、ユーザの入力回数が１回目ではｔ＝１で、ユーザの入力回数がＮ回目（１≦Ｎ）ではｔ＝Ｎとすると、Ｎ回目の入力の方が１回目の入力よりも時間的に後である。ここで、αの値が負であるから、Ｎ回目の入力に対するｐｒｅｆｅｒｅｎｃｅよりも１回目の入力に対するｐｒｅｆｅｒｅｎｃｅの方が大きいことが分かる。

図１１は、αが正の値をとる場合のユーザの入力回数に対するｐｒｅｆｅｒｅｎｃｅの変化を示すグラフである。一方、αが正の値である場合には、図１１に示すように、ｐｒｅｆｅｒｅｎｃｅは時間（或いはユーザの入力回数）の増加に伴って増加していく。つまり、ユーザの入力回数が１回目ではｔ＝１で、ユーザの入力回数がＮ回目（１≦Ｎ）ではｔ＝Ｎとすると、αの値が正であるから、１回目の入力に対するｐｒｅｆｅｒｅｎｃｅよりも後のＮ回目の入力に対するｐｒｅｆｅｒｅｎｃｅの方が大きいことが分かる。従って、最初に指定された音声素片よりも、直近に指定された音声素片ほど優先されるようになる。

ユーザによる音声素片の選択における時間的な関係を利用して優先度を決定する為、例えば、αとして負の値を設定することにより、最初の操作を優先するように優先度を調整することが可能である。一方、αの値として正の値を設定することにより、直近の操作を優先するように優先度を調整することが可能である。

（２）変更のモードによる調整
入力部１０６で、優先する音声素片の情報を入力する際に、詳細モードと概略モードの２つのモードを設定する。例えば、一例として、詳細モードでは、ユーザはより微妙なニュアンスまで考慮して音声素片を指定し、概略モードでは、より全体的な大づかみな感覚で音声素片を指定するものとする。これに対し、詳細モードで指定された音声素片は、概略モードで指定された音声素片よりも高いｐｒｅｆｅｒｅｎｃｅを設定する。これにより、詳細モードで入力された音声素片をより優先させることが可能となる。

（３）優先度の大きさによる調整
ステップＳ０７において、入力部１０６による音声素片の指定の際に優先度をユーザにより入力している場合は、次の方法により優先度を調整することが可能である。

過去に入力部１０６により、選択された素片の中から、接続歪み検出部１０８により所定の閾値以上の接続歪みを検出した音声素片接続境界の前後で、最も近い音声素片のペアを抽出する。（例えば図６の場合、"ｇｅ"と"Ｎ"の間で閾値を超える歪みを検出している。この場合、その前後で最も近い優先度が指定されている音声素片は音声素片６０１と音声素片６０２であるため、音声素片６０１と音声素片６０２とを抽出する。）抽出した音声素片ペアに付与された優先度（ｐｒｅｆｅｒｅｎｃｅ）のうち、優先度の低い方の音声素片の優先度を更に低く再設定する。

再設定の方法としては、あらかじめ設定される定数を減算するようにすればよい。あるいは優先度の低い方の音声素片の優先度を零に設定するようにしても良い。

接続歪み検出部１０８により、所定の閾値以上の歪みを複数検出した場合には上記の操作をそれぞれの歪み検出ポイントで行えばよい。

このように、歪みを検出した箇所の前後の音声素片の優先度を、その優先度の大小関係に応じて調整することにより、ユーザが入力部１０６により入力した優先度の大きさのより高い音声素片が優先され、且つ連続性の高い音声素片系列を選択することが可能となる。（例えば図６において、音声素片６０１の優先度の方が高かった場合には、音声素片６０１が優先され、音声素片６０１との接続性がより高い音声素片が再選択されることになる。）

（４）変更回数による調整
入力部１０６により指定された素片が、編集開始時点から何度指定されたかを記憶しておき、対立する音声素片同士の変更回数の大小により、優先度を調整する。つまり、変更回数の多い音声素片はユーザの指定の度合いが強いと判断することができるため、変更回数の少ない方の音声素片の優先度を低減する。これにより、変更回数の多い音声素片の優先度を保ち、且つ音声素片間の連続性を保った音声素片系列が選択される。

なお、以上の方法による優先度の調整方法を組み合わせて、優先度を調整するようにしても構わない。

優先度調整部１０９により、各音声素片の優先度が調整後、ステップＳ０９に戻る。
ステップＳ０３〜ステップＳ１１までをユーザが所望する声質の音声が合成できるまで繰り返す。

図１２は、図６において音声素片６０１に比べて音声素片６０２の優先度がより高かった場合の再選択後の音声素変系列の一例を示す図である。同図に示すように、Ｎ番目に選択された音声素片６０２の方が最初に選択された音声素片６０１よりも優先度が高かった場合には、音声素片６０２以降の音声素変系列はそのままで、最初に選択された音声素片６０１とその直前の素片とが素片６０４と素片６０５とに再選択されている。これにより、同図下部の棒グラフに示すように、音声素片６０２と音声素片６０４との接続歪みが、実線で示すように閾値以下に低減される。なお、ここでは、図６に示した音声素片６０１と音声素片６０２との接続歪みは、破線で示されている。

このように、上記構成によれば、素片選択部１０２により選択された音声素片系列に対して、ユーザが直接異なる音声素片を指定することが可能であり、また優先度決定部１０７により、ユーザにより指定された音声素片の優先度に基づいて、素片選択部１０２により音声素片系列を再選択する。また、接続歪み検出部１０８により音声素片間の歪みを検出した場合には、予め設定された優先度調整方法に従って、入力部１０６を用いてユーザが入力した音声素片の優先度を調整し、音声素片を再選択する。

以上により、ユーザが入力した音声素片間の連続性が低下する場合においても、優先度調整部１０９により優先度を調整することにより、ユーザが優先したい声質と、音声素片間の連続性を考慮しながら音声素片系列を再選択することができ、ユーザが所望する音声素片の声質を実現し、同時に音声素片の連続性を確保しているので部分的な音質の劣化がなく、高品質な合成音をユーザに提供することができる。

（実施の形態３）
実施の形態２では、優先度の調整は入力部１０６によりユーザが指定した音声素片のみに対して行った。本実施の形態では、ステップＳ１１において、優先度調整部１０９により調整される音声素片の範囲を入力部１０６によりユーザが指定した音声素片に類似した音声素片にまで広げる点が実施の形態２と異なる点である。

構成は実施の形態２と同じ構成であるため、説明を省略する。実施の形態２と動作が異なる点について説明する。

素片記憶部１０１は、記憶している音声素片を予め声質の類似度に基づいてクラスタリングを行う。

クラスタリングの方法は特に限定するものではないが、例えばｋ−ｍｅａｎ法やＬＢＧアルゴリズムを用いてクラスタリングすることが可能である。また、クラスタリングの基準として、声質の類似度を用いるが、具体的には、音声素片同士のケプストラムの類似度およびパワーの類似度、基本周波数の類似度、継続時間長の類似度を用いることが可能である。また、それぞれの類似度を組み合わせて声質の類似度と定義しても良い。

また、予めクラスタリングを行うのではなく、ある音声素片が与えられた時にその音声素片に類似した音声素片群を動的にクラスタとするようにしても良い。

また、各音声素片が１個のクラスタに属するのではなく、階層的クラスタリングを行うようにしても良い。

優先度調整部１０９は、実施の形態２で説明した優先度調整部１０９による優先度の調整により、優先度が所定の閾値よりも小さくなった場合には、該当の音声素片の優先度を、音声素片が属するクラスタに対して付与する。

図１３は、本発明の実施の形態３の声質制御装置におけるクラスタリングの具体例を示す図である。図１３を用いて具体的な動作を説明する。図１３において音声素片８０１（ｘ）と音声素片８０２（ｙ）は、接続歪み検出部１０８により、調整が必要であると判断された音声素片である。８０３は、音声素片８０１が属するクラスタ（Ｘ）を表す（ここで８０５は、クラスタ内での音声素片８０１の場所を示す。）。８０４は音声素片８０２が属するクラスタ（Ｙ）を表す。

このとき、８０１の音声素片の優先度が、優先度調整部１０９により低く設定され、所定の閾値以下であったとする。その場合、音声素片８０１が属するクラスタの各音声素片の優先度を式５に示すように音声素片８０１と同じ優先度に設定する。

ここで、ｐｒｅｆｅｒｅｎｃｅ（ｘ）は、音声素片ｘに設定されている優先度を示す。

この結果、音声素片８０１と声質が類似した音声素片群（ｕ∈Ｘ）は、ｘと同様に優先される為、クラスタＸの中で、音声の連続性が最も良い音声素片が素片選択部１０２により選択されることが可能となる。

なお、上記の説明では、クラスタは、予め素片記憶部１０１に記憶された音声素片をクラスタリングしていたが、動的にクラスタを設定するようにしてもよい。つまり、音声素片８０１（ｘ）と音声の声質の類似度が一定以内の音声素片を探索し、音声素片８０１（ｘ）が属するクラスタＸとしてもよい。これにより、音声素片８０１（ｘ）は常にクラスタの中心付近に位置することになる為、同一クラスタに含まれる音声素片は音声素片８０１（ｘ）が持つ声質に類似した音声素片であるといえる。つまり、予めクラスタリングした場合と比較して、代替候補の声質の類似度が近いことが保証されることになる。これにより、素片選択部により素片を再選択した場合に、音声素片８０１（ｘ）とはことなる音声素片が選択された場合においても音声素片８０１（ｘ）に類似した音声素片をより選択しやすくなることになる。

図１４は、素片記憶部１０１に記憶される音声素片を階層的にクラスタリングする場合のクラスタリングの一例を示す図である。なお、上記の説明では各音声素片は１つのクラスタに属するようにしているが、図１４に示すように階層型クラスタリングを行うことにより、クラスタの大きさを変更可能なように設計してもよい。このとき、音声素片８０１（ｘ）の優先度の大きさに対して複数の閾値を設定し、優先度が小さくなるに従って、音声素片８０１（ｘ）の属するクラスタの大きさが大きくなるようにする。つまり、音声素片８０１（ｘ）の優先度が予め設定された閾値よりも大きい場合にはクラスタＸ１を対象とし、優先度が閾値よりも小さくなった場合には、１階層上のクラスタ（図１４ではＧ）のクラスタを利用するようにする。これより、優先度が低く設定されたものに関しては、音声素片８０１（ｘ）に類似した他の候補（クラスタＸ１と類似したクラスタＸ２、クラスタＸ３）を選択の対象として設定できる為、素片選択時の選択候補が増加し、式１の接続コストＣｃがより小さい音声素片を探索することが可能となる。結果としてターゲットコストＣｔにおいて優先度に基づき音声素片を選択しながら、接続コストＣｃが最小になる音声素片を選択することが可能となる。

掛かる構成によれば、優先度調整部１０９により優先度が低くなった音声素片に関しては、ユーザにより指定された音声素片に声質が類似している音声素片の中から、連続性を考慮した音声素片を選択することが可能になる。したがって、ユーザの指定による局所的な音声素片の声質を同一のクラスタに属する音声素片を用いることにより実現しながら、音声素片間の連続性とを両立した音声素片の選択が可能となる。結果として、ユーザ所望の声質を実現しつつ、連続性の低下による音質の劣化がなくなるため、高音質な合成音を得ることが可能となる。

本発明にかかる声質制御装置は、ユーザによる直接的な音声素片の指定と、連続性の高い素片系列による高い音質を有し、音声コンテンツの制作インタフェース等として有用である。

本発明の実施の形態１における声質制御装置の構成を示すブロック図である。本発明の実施の形態１の声質制御装置の動作を示すフローチャートである。選択された各音声素片とそれらの候補となった素片群との表示部による表示例を示す図である。より優先的に選択されるべき音声素片を指定する入力部からの入力例を示す図である。図４に示した指定に基づいて素片選択部により再選択された後の音声素片系列の例を示す図である。ユーザが互いに近接する音声素片を選択した場合の音声素片間の連続性と接続歪みの関係の例を示す図である。本発明の実施の形態２の声質制御装置の構成を示すブロック図である。本発明の実施の形態２の声質制御装置の動作を示すフローチャートである。優先度の調整方法の例を示す図である。（ａ）は、βを固定し、αを変動させた際のｐｒｅｆｅｒｅｎｃｅの値の動きを示す。（ｂ）は、αを固定し、βを変動させた際のｐｒｅｆｅｒｅｎｃｅの値の動きを示す。 αが負の値をとる場合のユーザの入力回数（又は入力時刻）に対するｐｒｅｆｅｒｅｎｃｅの変化を示すグラフである。 αが正の値をとる場合のユーザの入力回数（又は入力時刻）に対するｐｒｅｆｅｒｅｎｃｅの変化を示すグラフである。図６において音声素片６０１に比べて音声素片６０２の優先度がより高かった場合に、再選択によって得られた音声素変系列の一例を示す図である。本発明の実施の形態３の声質制御装置におけるクラスタリングの具体例を示す図である。素片記憶部に記憶される音声素片の階層型クラスタリングの例を示す図である。従来の声質制御装置の構成を示すブロック図である。従来の技術による声質変換の概念図である。

符号の説明

１０１素片記憶部
１０２素片選択部
１０３合成部
１０４ラティス取得部
１０５表示部
１０６入力部
１０７優先度決定部
１０８接続歪み検出部
１０９優先度調整部
２０１素片選択部により選択された音声素片
２０２選択の候補となった素片
３０１入力部により選択された素片
４０１素片選択部による再選択により新しく選択された素片
４０２素片選択部による再選択により新しく選択された素片
４０３素片選択部による再選択により新しく選択された素片
６０１音声素片
６０２音声素片
６０３閾値
６０４音声素片
６０５音声素片
８０１音声素片
８０２音声素片
Ａ０１データ入力部
Ａ０２合成素片保存部
Ａ０３素片選択部
Ａ０４音声合成・再生部
Ａ０５韻律情報変形部
Ａ０６デジタル信号入力部
Ａ０７デジタル信号量監視部
Ａ０８音声合成・再生制御部

Claims

音声素片の系列から音声を合成し、合成される音声に含まれる音声素片を、ユーザの指定に従って、異なる声質の音声素片に変更する声質制御装置であって、
少なくとも音韻情報と韻律情報とを含む入力に対して選択の候補となる複数の音声素片を格納する素片記憶手段と、
前記各入力に対して、候補となる複数の音声素片からなる前記各素片群のうちから音声素片系列を、隣接する音声素片間で予め定められた連続性を保って選択する素片選択手段と、
前記素片選択手段によって選択された音声素片の系列から音声を合成してユーザに提示する合成手段と、
前記素片群の中から、前記音声合成された系列に含まれる音声素片よりも優先的に選択されるべき音声素片を指定するためのユーザからの入力を受け付ける入力手段と、
前記ユーザにより指定された音声素片に対して、前記素片選択手段によって選択された音声素片よりも高い優先度を決定する優先度決定手段とを備え、
前記素片選択手段は、前記ユーザにより指定された前記音声素片を、前記優先度決定手段により決定された優先度に基づいて前記素片群の中から再選択し、さらに、その前後の音声素片を前記再選択前と同一の選択を許容して再選択し、
前記声質制御装置は、さらに、
前記ユーザにより順次、指定された複数の音声素片を含む音声素片の系列において、音声素片間の接続歪みを、予め定められた方法で前記音声素片間の連続性を計測することにより検出する接続歪み検出手段と、
前記素片選択手段により音声素片を再選択した後に、前記接続歪み検出手段により、所定の閾値以上の歪みを検出した場合に、前記優先度決定手段により決定された音声素片の優先度を調整する優先度調整手段とを備え、
前記素片選択手段は、調整された優先度に基づいて音声素片をさらに再選択する
ことを特徴とする声質制御装置。
前記優先度調整手段は、前記音声素片の系列において、近接して指定された前記各音声素片に対して決定された優先度の大小、前記各音声素片の指定の時間的関係、指定された前記各音声素片の指定回数の少なくとも１つに基づいて、前記優先度を調整する
ことを特徴とする請求項１に記載の声質制御装置。
前記優先度調整手段は、時間を変数として優先度を表す関数に基づいて、前記指定の時間的前後に応じた前記各音声素片間の優先度の大小を判定し、優先度が小さいと判定された前記音声素片については、前後の音声素片を含め、優先度が大きいと判定された前記音声素片との接続歪みがより小さくなる音声素片が前記素片群から再選択されるよう前記優先度を調整する
ことを特徴とする請求項２に記載の声質制御装置。
前記関数は、正の値を取り、前記変数の一次係数の正負によって単調増加又は単調減少する関数であって、前記一次係数は、前記ユーザの指定が時間的に遅い方を重要視する場合には正の値に、時間的に早い方を重要視する場合には負の値に設定される
ことを特徴とする請求項３に記載の声質制御装置。
前記素片記憶手段は、類似度に基づきクラスタリングされた複数の音声素片を格納し、
前記優先度調整手段により調整された優先度が所定の閾値よりも小さい場合には、調整された音声素片が属するクラスタの優先度を、前記優先度調整手段により調整された優先
度とする
ことを特徴とする請求項２に記載の声質制御装置。
前記声質制御装置は、さらに、
前記音声合成によりユーザに提示された音声素片の前記系列と、前記系列に含まれる音声素片の選択の候補となった素片群とを表示する表示手段を備え、
前記入力手段は、表示された前記素片群の中から、優先的に選択されるべき音声素片を指定するための入力を受け付ける
ことを特徴とする請求項１に記載の声質制御装置。
音声素片の系列から音声を合成し、合成される音声に含まれる音声素片を、ユーザの指定に従って、異なる声質の音声素片に変更する声質制御方法であって、
少なくとも音韻情報と韻律情報とを含む入力に対して選択の候補となる複数の音声素片を格納する素片記憶ステップと、
前記各入力に対して、候補となる複数の音声素片からなる前記各素片群のうちから音声素片系列を、隣接する音声素片間で予め定められた連続性を保って選択する素片選択ステップと、
前記素片選択ステップによって選択された音声素片の系列から音声を合成してユーザに提示する合成ステップと、
前記素片群の中から、前記音声合成された系列に含まれる音声素片よりも優先的に選択されるべき音声素片を指定するためのユーザからの入力を受け付ける入力ステップと、
前記ユーザにより指定された音声素片に対して、前記素片選択手段によって選択された音声素片よりも高い優先度を決定する優先度決定ステップとを含み、
前記素片選択ステップでは、前記ユーザにより指定された前記音声素片を、前記優先度決定ステップにより決定された優先度に基づいて前記素片群の中から再選択し、さらに、その前後の音声素片を前記再選択前と同一の選択を許容して再選択し、
前記声質制御方法は、さらに、
前記ユーザにより順次、指定された複数の音声素片を含む音声素片の系列において、音声素片間の接続歪みを、予め定められた方法で前記音声素片間の連続性を計測することにより検出する接続歪み検出ステップと、
前記素片選択ステップにより音声素片を再選択した後に、前記接続歪み検出ステップにより、所定の閾値以上の歪みを検出した場合に、前記優先度決定ステップにより決定された音声素片の優先度を調整する優先度調整ステップとを含み、
前記素片選択ステップでは、調整された優先度に基づいて音声素片をさらに再選択する
ことを特徴とする声質制御方法。
音声素片の系列から音声を合成し、合成される音声に含まれる音声素片を、ユーザの指定に従って、異なる声質の音声素片に変更する声質制御装置のためのプログラムであって、
コンピュータに、少なくとも音韻情報と韻律情報とを含む入力に対して選択の候補となる複数の音声素片を格納する素片記憶ステップと、前記各入力に対して、候補となる複数の音声素片からなる前記各素片群のうちから音声素片系列を、隣接する音声素片間で予め定められた連続性を保って選択する素片選択ステップと、前記素片選択ステップによって選択された音声素片の系列から音声を合成してユーザに提示する合成ステップと、前記素片群の中から、前記音声合成された系列に含まれる音声素片よりも優先的に選択されるべき音声素片を指定するためのユーザからの入力を受け付ける入力ステップと、前記ユーザにより指定された音声素片に対して、前記素片選択手段によって選択された音声素片よりも高い優先度を決定する優先度決定ステップとを含み、前記素片選択ステップでは、前記ユーザにより指定された前記音声素片を、前記優先度決定ステップにより決定された優先度に基づいて前記素片群の中から再選択し、さらに、その前後の音声素片を前記再選択前と同一の選択を許容して再選択し、さらに、
前記ユーザにより順次、指定された複数の音声素片を含む音声素片の系列において、音声素片間の接続歪みを、予め定められた方法で前記音声素片間の連続性を計測することにより検出する接続歪み検出ステップと、前記素片選択ステップにより音声素片を再選択した後に、前記接続歪み検出ステップにより、所定の閾値以上の歪みを検出した場合に、前記優先度決定ステップにより決定された音声素片の優先度を調整する優先度調整ステップとを含み、前記素片選択ステップでは、調整された優先度に基づいて音声素片をさらに再選択することを実行させるプログラム。