JP4296231B2

JP4296231B2 - 声質編集装置および声質編集方法

Info

Publication number: JP4296231B2
Application number: JP2008548905A
Authority: JP
Inventors: 良文廣瀬; 孝浩釜井
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2007-06-06
Filing date: 2008-06-04
Publication date: 2009-07-15
Anticipated expiration: 2028-06-04
Also published as: WO2008149547A1; CN101622659A; CN101622659B; US8155964B2; JPWO2008149547A1; US20100250257A1

Description

本発明は音声の声質を編集する装置および方法に関するものである。

近年、音声合成技術の発達により、非常に高音質な合成音を作成することが可能となってきた。

しかしながら、従来の合成音の用途はニュース文をアナウンサー調で読み上げる等の用途が中心であった。

一方で、携帯電話のサービスなどでは、着信音の代わりに有名人の音声メッセージを用いるといったサービスが提供されるなど、特徴のある音声（個人再現性の高い合成音、および女子高生風または関西弁風などの特徴的な韻律・声質をもつ合成音）が一つのコンテンツとして流通しはじめている。このように個人間のコミュニケーションにおける楽しみを増やすために、特徴的な音声を作って相手に聞かせることに対する要求が高まることが考えられる。

ところで、音声を合成する方式としては、大別して次の２つの方式がある。つまり、予め用意した音声素片ＤＢ（データベース）から適切な音声素片を選択して接続することにより音声を合成する波形接続型音声合成方法と、音声パラメータを分析し、分析したパラメータを元に音声を合成する分析合成型音声合成方法とである。

前述した合成音の声質を様々に変化させることを考えると、波形接続型音声合成方法では、音声素片ＤＢを必要な声質の種類だけ用意し、音声素片ＤＢを切り替えながら素片を接続する必要がある。したがって、種々の声質の合成音を作成するために、膨大なコストを要することになる。

一方、分析合成型音声合成方法は、分析された音声パラメータを変形させることにより、合成音の声質を変換することが可能である。

また、話者適応技術を用いて、声質を変換する方法がある。これは予め用意された別の話者の音声の特徴を、分析された音声パラメータに適用させることにより、声質を変換する方法である。

音声の声質を変更するためには、ユーザにどのような声質に変更したいかを何らかの方法により指定させる必要がある。例えば、声質を指定する方法として、図１に示すような幾つかの感性軸のスライダーを用いてユーザに声質を指定させる方法がある。しかし、音声に関する予備知識が十分ないユーザがこのようなスライダーを調整することで意図した声質を得ることは難しい。なぜならば、ユーザは自分が作成したい声質を感性語により言語化すること自体が難しいからである。例えば、図１の例では、「年齢は３０歳くらい、非常に女性的だが、やや暗く、無感情、・・・・」などといったように自分が想定する声質からスライダーの各軸を調整しなければならないが、このような作業は音声の予備知識が十分ないと難しい。また、逆にスライダーの状態からその状態が表す声質を想起することも同様に困難である。

一方で、日常において未知の声質の音声を聞いた場合には、以下のような表現をする方が自然である。つまり、未知の声質の音声を聞いたユーザは、「Ｘさんのような声だけど、もう少しＹさんのような感じ」（ここで、Ｘ、Ｙはユーザが知っている個人を表す）などというように、ユーザが既に知っている具体的な個人名を用いて未知の声質を表現する方が自然である。そこで具体的な個人（ある特徴を持った個人が有する声質）を組み合わせることにより、直感的に声質を指定することが可能であると考えられる。

このように、予めシステムが保持する具体的な個人の声質の組み合わせによりユーザに声質を編集させる場合には、システムが保持する声質を分かりやすく提示する方法が重要になる。そして、編集後の声質の音声特徴を用いて話者適応技術による声質変換を行なうことにより、ユーザが所望する声質を有する合成音声を生成することが可能となる。

ところで、データベースに登録されている音情報をユーザに提示し、選択させる方法として特許文献１がある。特許文献１には、さまざまな効果音の中から、ユーザが所望する効果音を選択させる方法が開示されている。特許文献１に記載の方法では、保有する効果音を音響特徴量と感性情報とに基づいて音響空間上に配置し、効果音の音響特徴に対応したアイコンを提示する。

図２は、特許文献１に記載の音響ブラウジング装置の構成図である。

音響ブラウジング装置は、音響データ格納部１と、音響空間座標データ生成部２と、音響空間座標データ格納部３と、アイコン画像生成部４と、音響データ表示部５と、音響空間座標入力部６と、立体音響再生処理部７と、音響データ再生部８とを備えている。

音響データ格納部１は、音響データ自体と、当該音響データを画面に表示する際に使用するアイコン画像と、当該音響データについての音響特徴量とを組として格納している。音響空間座標データ生成部２は、音響データ格納部１に格納されている音響特徴量に基づいて、画面に表示すべき音響空間における当該音響データの座標データを生成する。すなわち、音響空間において当該音響データがどの位置に表示されるべきかを算出する。

画面に表示するアイコン画像は、音響特徴量に基づいてアイコン画像生成部４において生成される。具体的には当該効果音のスペクトル分布と感性パラメータとに基づいて、アイコン画像が生成される。

特許文献１では、このように個別の効果音を空間に配置することによって、ユーザが効果音を指定し易いようにしている。しかしながら、効果音が提示される座標は音響空間座標データ生成部２により決定された座標であり、画一的なものである。したがって、必ずしもユーザの感覚に合う音響空間であるとは限らない。

一方、データ表示処理システムにおいて、ユーザの入力に応じて情報の重要度を修正する方法として特許文献２がある。特許文献２に記載のデータ表示処理システムは、当該システムが保有する情報の重要度に応じて、情報の表示サイズを変えて表示するシステムである。データ表示処理システムは、ユーザによる重要度の修正を受付け、修正された情報に基づき重要度を算出する際の重みを修正する。

図３は、特許文献２のデータ表示処理システムの構成図である。図３において、編集処理部１１は、表示対象となる意味のあるデータの単位であるデータ要素の集合に関する編集処理を行う処理部である。編集データ記憶部１４は、編集対象および表示対象の文書や図解データを記憶する記憶装置である。重み係数記憶部１５は、あらかじめ定められたいくつかの基本重要度関数の結合に用いる重み係数を記憶する記憶装置である。重要度計算部１６は、表示対象となる各データ要素の重要度を、基本重要度関数を重み係数に基づいて結合した関数により計算する処理部である。重み付け描画処理部１７は、計算した各データ要素の重要度に応じて、各データ要素の表示サイズまたは表示可否を決定し、各データ要素の表示レイアウトを行うことにより、表示データを作成する処理部である。表示制御部１８は、重み付け描画処理部１７が作成した表示データを、表示装置２０に表示させる制御を行う。編集処理部１１は、重み係数記憶部１５が記憶している各基本重要度関数に対応する重み係数を、入力装置１９からの入力により変更する重み係数変更手段１２を持つ。また、データ表示処理システムは、さらに、機械学習処理部１３を備えている。機械学習処理部１３は、編集処理部１１から通知されたユーザが指示した表示サイズの変更等を伴う操作情報をもとに、重み係数記憶部１５が記憶する重み係数を学習によって自動的に変更する処理を行う。重み付け描画処理部１７は、各データ要素の重要度に応じて、可視性型重み付け描画処理、２値サイズ型重み付け描画処理もしくは比例サイズ型重み付け描画処理、またはこれらのいくつかを組み合わせた重み付け描画処理を行なう。
特開２００１−５４７７号公報特開平６−１３０９２１号公報

しかしながら、特許文献２の技術を声質編集に利用しようとした場合には、いかにユーザの感性に合った声質空間を構成するかという課題、およびユーザに指定された声質をいかに生成するかという課題がある。

つまり、特許文献２では各データの重要度を調整しているが、音声に対し同様の考え方は適用しづらい。すなわち、データの重要度は単一の指標として個人の価値観によって決定が可能である。しかし、音声の特徴を個人の要望に合わせて編集したい場合は、そのような一つの指標では不足である。

この問題を具体的に説明する。例えば音声に対して一つの指標を決めるとする。その指標として声の高さという軸を選んだとする。この場合、ユーザは声の高さを変えることはできるが、同じ高さに感じる声でも声の質は無数に存在する。このため、一つの指標のみに基づいて声質の編集を行うことは困難である。一方、重要度あるいは好感度などといった総合的な指標を選べば、個々の音声に対して特許文献２のように個人の価値観による数値化は可能である。しかし、同じように重要に感じる声でも声質が異なる例は無数に存在する。

この問題はどのように重要か、なぜ好感度が高く感じるかというところまで掘り下げなければ目的の声質に近付けることができないという本質的なものである。したがって、結局、図１のような複数のパラメータを調整することが必要になってしまい、音声に対する専門的な知識が必要となってしまう。

また、特許文献１の提示方法では、ユーザに提示する声質空間に配置された声を選ぶことまではできる。しかし、ユーザの感覚に合わせて声質空間の構成方法を切り替えただけでは、声質空間内で選ばれた声から少しずらした位置において得られると期待される声質とシステムが生成する声質との間に乖離が生じるという課題がある。これはその感覚尺度で構成された空間を、システムが持つ内部パラメータの空間と対応付けられる手段を持たないためである。

また、特許文献１では、声をアイコン画像により提示しているが、そのアイコン画像は、音響特徴量に基づいて作成される。このため、声質の編集を行うためには、音声に対する専門的な知識が必要になってしまうという課題がある。

本発明は、上述の課題を解決するためになされたものであり、音声に対する専門的な知識を持たないユーザであっても、容易に声質の編集を行なうことができる声質編集装置を提供することを目的とする。

上記目的を達成するために、本発明のある局面に係る声質編集装置は、各々が複数の声質の音響特徴量から構成される複数の声質特徴を編集することにより新たな声質特徴を生成する声質編集装置であって、複数の声質特徴を記憶する声質特徴データベースと、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する声質をユーザが想起可能な識別子を記憶する話者属性データベースと、声質の音響特徴量毎に重みを設定する重み設定部と、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴を構成する前記複数の音響特徴量と前記重み設定部で設定された重みとに基づいて、当該声質特徴の表示座標を算出する表示座標算出部と、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、前記表示座標算出部で算出された表示座標に表示する表示部と、座標の入力を受け付ける位置入力部と、前記声質特徴データベースに記憶されている前記複数の声質特徴の一部または全部の各々について、当該声質特徴の表示座標と前記位置入力部により受け付けられた前記座標との間の距離を算出し、算出された距離の比率に基づいて前記複数の声質特徴の一部または全部の音響特徴量を混合することにより新たな声質特徴を生成する声質混合部とを備える。

この構成によると、表示部が表示する識別子は、声質をユーザが想起可能な識別子である。このため、ユーザは表示された識別子を見ることにより、声質を想起することができる。よって、音声に対する専門的な知識を持たないユーザであっても、容易に声質特徴の編集を行なうことができる。また、重み設定部により設定される重みに基づいて声質特徴の表示座標が算出される。このため、声質特徴間の距離に関するユーザの感覚に合致した表示座標に、声質特徴に対応する識別子を表示させることができる。

好ましくは、前記話者属性データベースは、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴を有する音声の話者の顔画像、似顔絵もしくは名前、または当該声質特徴を有する音声を発声するキャラクタの画像もしくは名前を記憶し、前記表示部は、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている話者の顔画像、似顔絵もしくは名前、またはキャラクタの画像もしくは名前を、前記表示座標算出部で算出された表示座標に表示する。

この構成によると、ユーザは、表示された顔画像などにより、声質を直接想起することができる。

さらに好ましくは、上述の声質編集装置は、さらに、ユーザが知っている声質に対応する声質特徴の識別情報を記憶するユーザ情報管理データベースを備え、前記表示部は、前記声質特徴データベースに記憶されている前記複数の声質特徴のうち、識別情報が前記ユーザ情報管理データベースに記憶されている声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、前記表示座標算出部で算出された表示座標に表示する。

この構成によると、表示部により表示される識別子に対応する声質のすべてが、ユーザが知っている声質である。このため、ユーザは表示された識別子を見ることにより、確実に声質を想起することができる。よって、音声に対する専門的な知識を持たないユーザであっても、容易に声質特徴の編集を行なうことができ、声質特徴の編集に要するユーザの負荷を軽減することができる。

さらに好ましくは、上述の声質編集装置は、さらに、ユーザの性別または年齢の入力を受け付ける個人特性入力部と、ユーザの性別または年齢毎に、当該性別または当該年齢のユーザが知っていると思われる声質の声質特徴の識別情報を記憶するユーザ情報管理データベースとを備え、前記表示部は、前記声質特徴データベースに記憶されている前記複数の声質特徴のうち、識別情報が前記ユーザ情報管理データベースに記憶されている前記個人特性入力部で受け付けられたユーザの性別または年齢に対応する識別情報と一致する声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、前記表示座標算出部で算出された表示座標に表示する。

この構成によると、ユーザは自分の性別または年齢を入力するだけで、自身が知らないであろう声質に対応する識別子の表示を制限させることができる。このため、声質編集に要するユーザの負荷を軽減することができる。

本発明の他の局面に係る声質編集システムは、各々が複数の声質の音響特徴量から構成される複数の声質特徴を編集することにより新たな声質特徴を生成する声質編集システムであって、ネットワークを介して相互に接続される第１の端末と、第２の端末と、サーバとを備え、前記第１の端末および前記第２の端末の各々は、複数の声質特徴を記憶する声質特徴データベースと、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する声質をユーザが想起可能な識別子を記憶する話者属性データベースと、声質の音響特徴量毎に重みを設定し、前記サーバに送信する重み設定部と、前記声質特徴データベースに記憶されている複数の声質特徴の中から任意の２つの声質特徴からなる声質特徴の組を抽出し、抽出された声質特徴の組毎に当該組に含まれる声質特徴を構成する音響特徴量を、前記サーバが保持する重みで重み付けし、重み付け後の前記声質特徴間の距離を算出する声質間距離算出部と、前記声質間距離算出部により算出された声質特徴間の距離に基づいて、声質特徴データベースに記憶されている前記複数の声質特徴の表示座標を算出する尺度構成部と、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、前記尺度構成部で算出された表示座標に表示する表示部と、座標の入力を受け付ける位置入力部と、前記声質特徴データベースに記憶されている前記複数の声質特徴の一部または全部の各々について、当該声質特徴の表示座標と前記位置入力部により受け付けられた前記座標との間の距離を算出し、算出された距離の比率に基づいて前記複数の声質特徴の一部または全部の音響特徴量を混合することにより新たな声質特徴を生成する声質混合部とを有し、前記サーバは、前記第１の端末または前記第２の端末から送信される重みを記憶する重み記憶部を有する。

この構成によると、第１の端末および第２の端末は、サーバが管理する重みを共有することができる。このため、第１の端末および第２の端末が同じ声質特徴を保持している場合には、声質特徴の識別子を同じ表示座標に表示させることができる。よって、第１の端末と第２の端末とで同じ作業を行なうことができる。また、重みの設定を端末毎に行なう必要がない。このため、重み設定を端末毎に行なう場合に比べ、重み設定に要する負担を大幅に削減することができる。

なお、本発明は、このような特徴的な手段を備える声質編集装置として実現することができるだけでなく、声質編集装置に含まれる特徴的な手段をステップとする声質編集方法として実現したり、声質編集方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等の記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは言うまでもない。

本発明の声質編集装置によれば、音声に対する専門的な知識を持たないユーザであっても、容易に声質の編集を行なうことができる。

また、重み設定部により重みを調節することにより、ユーザが感じる距離感を反映した声質間距離を声質間距離算出部が算出することが可能となる。また、距離感覚を元に尺度構成部が各声質の識別子の表示座標を算出する。このため、表示部はユーザの感覚に合う声質空間を表示することができる。また、この声質空間はユーザの感覚にあった距離空間である。このため、予め定められた距離尺度を用いて声質を表示する場合と比較すると、表示されている声質間に位置する声質を容易に想定することが可能となる。したがって、ユーザは、位置入力部を用いて所望する声質に対応した座標を指定することが容易になる。

さらに、声質混合部で声質を混合する際には、重みを用いた声質空間における近接声質候補を取得し、さらに、その声質空間上での距離に基づいて選択された各声質候補の混合比率を決定することができる。決定された混合比率は、ユーザが想定する声質の混合比率に一致させることが可能となる。また、ユーザが指定した座標に対応する声質を生成する際にも、重み記憶部に保持されているユーザによって重み設定部で設定された重みを使用する。このため、ユーザと共有された声質編集装置における声質空間上の位置に対応した声質を合成することが可能となる。

つまり、重みを媒介として、ユーザが想定する声質空間と、声質編集装置が保持する声質空間とを共有することができている。このため、声質編集装置が提示する声質空間上の座標を入力するだけで、ユーザが所望する声質を指定および生成することが可能となる。

以下、本発明の実施の形態について、図面を参照しながら説明する。

（実施の形態１）
図４は、本発明の実施の形態１に係る声質編集装置の外観図である。声質編集装置は、パーソナルコンピュータやＥＷＳ（ＥｎｇｉｎｅｅｒｉｎｇＷｏｒｋｓｔａｔｉｏｎ）などの一般的なコンピュータを用いて実現される。

図５は、本発明の実施の形態１に係る声質編集装置の構成を示すブロック図である。

声質編集装置は、複数の声質を編集して新たな声質を生成する装置であり、声質特徴ＤＢ（データベース）１０１と、声質間距離算出部１０２と、重み設定部１０３と、入力部１０４と、尺度構成部１０５と、話者属性ＤＢ１０６と、表示部１０７と、位置入力部１０８と、重み記憶部１０９と、声質混合部１１０とを備えている。

声質特徴ＤＢ１０１は、声質編集装置が保有する複数の音声の音響的特徴量を保持する記憶装置であり、ハードディスクやメモリ等より構成される。以下、「音声の音響的特徴量」を、適宜「声質」または「声質特徴」という。

声質間距離算出部１０２は、声質特徴ＤＢ１０１に保有された声質間の距離を算定する処理部である。重み設定部１０３は、声質間距離算出部１０２が声質間の距離を算定する際にどの物理パラメータを重視するかを示す重みを設定する処理部である。入力部１０４は、重み設定部１０３により重みを決定する際にユーザからの入力を受け付ける入力装置であり、例えば、キーボードやマウス等である。尺度構成部１０５は、声質間距離算出部１０２により算定された声質間距離に基づいて、声質特徴ＤＢ１０１に保持されている各声質の空間座標を決定する処理部である。

話者属性ＤＢ１０６は、声質特徴ＤＢ１０１に保持されている各声質に関連付けられた話者属性情報を保持する記憶装置であり、ハードディスクやメモリ等により構成される。表示部１０７は、声質特徴ＤＢ１０１に保持されている各声質に対して、尺度構成部１０５により決定された座標に、話者属性ＤＢ１０６に保持されている各声質に対応した話者属性情報を表示する表示装置であり、例えば、ＬＣＤ（Liquid Crystal Display）等である。位置入力部１０８は、表示部１０７により提示された声質空間における位置をユーザから受け付ける入力装置であり、例えば、キーボードやマウス等である。

重み記憶部１０９は、重み設定部１０３により設定された重みを記憶する記憶装置であり、例えば、ハードディスクやメモリ等により構成される。声質混合部１１０は、位置入力部１０８により入力された声質空間上の座標および重み記憶部１０９に保持されている重みに基づいて、声質特徴ＤＢ１０１に保持されている声質を混合することにより、ユーザが位置入力部１０８により入力した声質空間上の座標に対応する声質を生成する処理部である。

声質間距離算出部１０２、重み設定部１０３、尺度構成部１０５および声質混合部１１０は、コンピュータのＣＰＵ（Central Processing Unit）上でプログラムを実行することにより実現される。

次に、声質特徴ＤＢ１０１について詳細に説明する。

声質特徴ＤＢ１０１は、日本語の場合、声質毎に、少なくとも５母音（／ａｉｕｅｏ／）における、目標話者の声道形状に由来する声道の情報を保持するものである。なお、他言語の場合、声質特徴ＤＢ１０１は、日本語の場合と同様に、母音の種類ごとに声道形状に由来する声道の情報を保持するようにすればよい。声質特徴ＤＢ１０１は、さらに、後述する音源の情報を保持するように設計しても良い。

声道情報の表現方法としては、例えば声道断面積関数がある。声道断面積関数は、図６（ａ）に示すような可変円形断面積の音響管で声道を模擬した音響管モデルにおける各音響管の断面積を表すものである。この断面積は、ＬＰＣ（Linear Predictive Coding）分析に基づくＰＡＲＣＯＲ（Partial Auto Correlation）係数と一意に対応することが知られており、式１により変換可能である。本実施の形態では、ＰＡＲＣＯＲ係数ｋ_iにより声道情報を表現するものとする。以降、声道情報はＰＡＲＣＯＲ係数を用いて説明するが、声道情報はＰＡＲＣＯＲ係数に限定されるものではなく、ＰＡＲＣＯＲ係数に等価なＬＳＰ（Line Spectrum Pairs）やＬＰＣなどを用いてもよい。また、前記音響管モデルにおける音響管の間の反射係数とＰＡＲＣＯＲ係数との関係は、符号が反転していることのみである。このため、反射係数そのものを用いても構わない。

ここで、Ａ_nは図６（ｂ）に示すように第ｉ区間の音響管の断面積を表し、ｋ_iは第ｉ区間と第（ｉ＋１）区間の境界のＰＡＲＣＯＲ係数（反射係数）を表す。

ＰＡＲＣＯＲ係数は、ＬＰＣ分析により分析された線形予測係数を用いて算出することができる。具体的には、ＰＡＲＣＯＲ係数は、Ｌｅｖｉｎｓｏｎ−Ｄｕｒｂｉｎ−Ｉｔａｋｕｒａアルゴリズムを用いることにより算出することが可能である。

なお、ＬＰＣ分析に基づくＰＡＲＣＯＲ係数に限られず、ＡＲＸ分析（非特許文献：「音源パルス列を考慮した頑健なＡＲＸ音声分析法」、日本音響学会誌５８巻７号（２００２年）、ｐｐ．３８６−３９７、大塚他）に基づいてＰＡＲＣＯＲ係数を算出しても構わない。

次に、声質特徴ＤＢ１０１に保持する声質特徴（音声の音響的特徴量）の作成法について、例を挙げながら説明する。声質特徴は、例えば、目標話者によって発声された孤立発声母音から構築することができる。

図７は、ある話者により発声された孤立発声母音により声質特徴を抽出する処理部の構成を示す図である。

母音安定区間抽出部３０１は、入力された孤立発声母音から孤立母音の区間を抽出する。抽出方法は特に限定されるものではない。例えば、パワーが一定以上の区間を安定区間とし、当該安定区間を孤立母音の区間として抽出してもよい。

声質特徴算出部３０２は、母音安定区間抽出部３０１により抽出された孤立母音の区間に対して上述のＰＡＲＣＯＲ係数を算出する。以上の処理を声質編集装置が保有する全ての声質に対して行うことにより、声質特徴ＤＢ１０１が構築される。

なお、声質特徴を抽出する音声データは、孤立発声母音に限定されるものではなく、日本語では少なくとも５母音（／ａｉｕｅｏ／）を含む何らかの音声であればよい。例えば、目標話者がその場で自由に発話した音声でもよいし、予め収録された音声でもよい。また歌唱データなどのボーカルトラックの音声を利用してもよい。

その場合、母音区間を抽出するためには、音声データに対して音素認識を行なうことにより、母音の音声データを検出する。次に、母音安定区間抽出部３０１が母音の音声データより安定した母音区間を抽出する。抽出の方法としては、例えば、音素認識結果の信頼度が高い区間（尤度の高い区間）を安定した母音区間として使用することができる。このように安定した母音区間を抽出することにより、音素認識誤りによる影響を排除することが可能である。

声質特徴算出部３０２が、抽出された母音の安定区間において声道情報を作成することにより、声質特徴ＤＢ１０１を構築することができる。声質特徴算出部３０２による声質特徴の算出は、例えば、前述のＰＡＲＣＯＲ係数を算出することにより行なわれる。

なお、声質特徴ＤＢ１０１に保持される声質特徴の作成方法は、これらに限定されるものではなく、安定した母音区間から声質特徴を抽出するような方法であれば、その他の方法であってもよい。

図８Ａ〜図８Ｊは、１０次の反射係数で表現した母音／ａ／に対する声道情報の一例を示す図である。

各図に示す各グラフにおいて、縦軸は反射係数を表し、横軸は時間を表す。ｋ１からｋ１０は、反射係数の次数を表す。このように孤立発声され、かつ安定した母音区間の音声データを用いることにより、反射係数による声道情報を時間的に安定したパラメータとして算出することができる。また、反射係数を声質特徴ＤＢ１０１に登録する際には、図８Ａ〜図８Ｊに示すような反射係数を直接登録しても良いし、母音区間内の平均値あるいは中央値を代表値として登録しても良い。

音源情報としては、例えばＲｏｓｅｎｂｅｒｇ−Ｋｌａｔｔ（ＲＫ）モデルを用いることもでき、ＲＫモデルを用いる場合には、有声音源振幅（ＡＶ）、基本周波数（Ｆ０）、およびピッチ周期（基本周波数の逆数）に対する声門が開いている時間の割合（声門開放率）（ＯＱ）などを音源情報として用いることができる。また、音源が持つ非周期成分（ＡＦ）を音源情報として用いることもできる。

声質特徴ＤＢ１０１に保持される声質特徴をまとめると図９に示すような情報となる。つまり、声質特徴として声道情報と音源情報とが保持される。声道情報としては、日本語の場合、５つの母音の声道形状に関する情報（例えば、反射係数）が保持される。一方、音源情報としては、基本周波数（Ｆ０）、有声音源振幅（ＡＶ）、声門開放率（ＯＱ）、音源の非周期成分境界周波数（ＡＦ）などが保持される。なお、声質特徴ＤＢ１０１に格納される声質特徴は、これらに限定されるものではなく、声質に関する特徴量であればこれら以外のものであってもよい。

図１０は、話者属性ＤＢ１０６に保持される話者属性の一例を示す図である。話者属性ＤＢ１０６に保持される話者属性としては、声質特徴ＤＢ１０１に保持されている声質特徴を直接聞くことなくその声質特徴を理解することが可能な情報、つまり、その情報を見るだけでその情報に関連付けられた声質をユーザが想起可能な情報である。具体例としては、声質特徴ＤＢ１０１に保持されている声質特徴を抽出する際に使用した音声を発話した人物を特定することが可能な話者属性であり、例えば、顔画像、個人名などがある。このように人物を特定することが可能な話者属性を用いることにより、ユーザは、提示された個人を知っていれば、顔画像を見るだけで、その顔画像の人物がどのような声質であるのかを簡単に想起することが可能となる。つまり、このような話者属性を用いることにより、提示した声質に関して、さまざまな評価尺度を用いて、その声質を定義する必要がない。

なお、話者属性は、発話した人物の顔画像、個人名に限られるものではなく、発話した人の声を直接想起できるような話者属性であればそれ以外のものであっても良い。例えば、アニメキャラクタやマスコットの場合は、アフレコでそのアニメキャラクタやマスコットの声を発声している人物の顔画像や名前だけでなく、アニメキャラクタやマスコットの画像や、キャラクタ名などを話者属性として用いても良い。また、例えば、外国映画の俳優などの場合は、吹き替えた話者の属性だけでなく、吹き替えられた俳優の話者属性を用いるようにしても良い。また、発話した人物がナレーターの場合は、ナレーター本人の話者属性だけでなく、ナレーターが出演する番組名や番組ロゴマークを話者属性として用いるようにしても良い。

以上の構成により、ユーザの指定した声質を生成することが可能となる。

次に、声質編集装置の動作について図１１のフローチャートを用いて説明する。

重み設定部１０３は、入力部１０４からの入力を受け付け、声質間の距離を算出する際の音響パラメータの重みを決定する（ステップＳ００１）。重み設定部１０３は、決定した重みを重み記憶部１０９に保存する。具体的な重みの決定方法は後述する。

声質間距離算出部１０２は、ステップＳ００１において設定された重みを用いて声質特徴ＤＢ１０１に保持された全ての声質間の距離を算出する（ステップＳ００２）。声質間の距離は、具体的には、以下のように定義される。つまり、声質特徴ＤＢ１０１に登録された声質をベクトル表現した場合に、２つのベクトル間の距離（声質間の距離）は、式２に示すような重み付きユークリッド距離として定義することができる。ただし、重みｗ_lは、式３に示す条件を満たす必要がある。距離の算出方法はこれに限られるものではなく、コサイン類似度を用いて距離を算出しても良い。その場合は、コサイン類似度を距離に変換する必要があるが、例えばベクトル間の成す角度を距離として定義しても良い。その場合は、コサイン類似度に対して逆余弦関数により距離を算出することができる。

ここでｗ_lは声質特徴ＤＢ１０１が保持する各パラメータ（声道形状パラメータ、基本周波数等）に対する重要度を表す重みパラメータであり、声質特徴ＤＢ１０１に保持されている声質特徴ｖ_iは、ｉ番目の声質特徴を表し、ｖ_ilは、声質特徴ｖ_iのｌ番目のパラメータの物理量を表す。

以上のようにして声質特徴ＤＢ１０１に保持された声質間の距離を作成することにより、図１２に示すような距離行列を作成することができる。距離行列におけるｉ行ｊ列の要素ｄ_i,jは、声質特徴ｖ_iと声質特徴ｖ_jとの間の距離を示している。

次に、尺度構成部１０５は、ステップＳ００２において計算された声質特徴ＤＢ１０１に保持された声質間の距離（距離行列）を用いて、各声質の声質空間上での座標を算出する（ステップＳ００３）。座標を算出する方法は特に限定されるものではないが、例えば多次元尺度構成法（ＭＤＳ）を用いることにより、２次元あるいは３次元の空間にそれぞれの声質を対応付けることが可能となる。

図１３は、多次元尺度構成法を用いて声質特徴ＤＢ１０１に保持された声質特徴を２次元空間に配置した一例を示す図である。

例えば、重み設定部１０３において、基本周波数（Ｆ０）に対応する声質パラメータの重みが大きく設定された場合、ある声質特徴を基準にして、基本周波数（Ｆ０）が近い声質特徴は、２次元平面上で近くに配置される。一方、基本周波数（Ｆ０）が大きく異なる場合には、２次元平面上で離れた位置に配置される。このように声質特徴を配置することにより、ユーザが重視する声質パラメータが近い声質特徴同士は、声質空間上において近くに配置される。よって、ユーザは、配置された複数の声質特徴の間に位置する声質を容易に想起することができる。

なお、多次元尺度構成法だけではなく、声質特徴ＤＢ１０１に保持されている各物理パラメータに対して主成分分析を行なうことにより主成分を抽出し、寄与度が大きく代表となる主成分のうち、２〜３の主成分により空間を構成し、各声質の座標を算出しても良い。

次に、表示部１０７は、声質特徴ＤＢ１０１に保持されている各声質に対し、ステップＳ００３において生成された座標位置に、話者属性ＤＢ１０６に保持されている当該声質に対応する話者属性を表示する（ステップＳ００４）。表示される声質空間の例を図１４に示す。図１４では、話者属性情報として声質を有する話者の顔画像を使用しているが、顔画像に限られず、その声質を想起することが可能な話者属性であればなんでも良い。例えば、話者の名前、キャラクタ画像またはキャラクタ名等であっても良い。

このように話者属性情報を表示することにより、ユーザは表示された話者属性情報を見ることにより、話者の声質を直感的に想起することが可能であると共に、提示されている声質空間を直感的に把握することが可能となる。

また、図１４では、表示部１０７は、１つの表示領域に全ての声質を表示しているが、特定の一部分の声質だけを表示しても良いし、別途ユーザからの入力を受けて、当該入力に従い声質空間を拡大、縮小またはスクロールさせて表示するように設計しても良いことは言うまでもない。

次に、ユーザは、位置入力部１０８を用いて所望する声質を有する座標位置を入力する（ステップＳ００５）。具体的な入力方法は特に限定されるものではない。例えば、ユーザがマウスを用いて、表示部１０７に表示された声質空間上の一点を指定するものであってもよいし、キーボードを用いて座標値を入力するものであってもよい。さらに、マウス以外のポインティングデバイスを用いて座標値を入力するものであってもよい。

次に、声質混合部１１０は、ステップＳ００５において指定された座標に対応する声質を生成する（ステップＳ００６）。具体的な生成方法について図１５を用いて説明する。

図１５は、声質混合部１１０の詳細な構成を示す図である。声質混合部１１０は、近接声質候補選択部２０１と、混合比率算出部２０２と、特徴量混合部２０３とを備えている。

近接声質候補選択部２０１は、ステップＳ００５において入力された座標位置に近接する声質を選択する。選択時の動作を詳細に説明する。ステップＳ００４において図１６に示すような声質空間が表示され、ステップＳ００５において座標位置８０１が指定されたものとする。近接声質候補選択部２０１は、声質空間において、座標位置８０１から予め設定された距離以内の声質を選択する。例えば、図１６に示した声質空間では、座標位置８０１から予め設定された距離の範囲８０２の内側に位置する声質８０３、８０４および８０５が選択される。

次に、混合比率算出部２０２は、近接声質候補選択部２０１により選択された声質に対して混合する比率を算出する。図１６の例の場合、混合比率算出部２０２は、ユーザにより入力された座標位置８０１と近接声質候補選択部２０１により選択された声質８０３、８０４および８０５との間の距離をそれぞれ算出する。混合比率算出部２０２は、算出された距離の逆数に基づいて混合比率を算出する。図１６の例の場合は、例えば、座標位置８０１と声質８０３、８０４および８０５との距離の比率が「１：２：２」であるとすると、混合比率は「２：１：１」となる。

次に、特徴量混合部２０３は、近接声質候補選択部２０１により選択された声質を混合比率算出部２０２により算出された混合比率に基づいて、声質特徴ＤＢ１０１に保持されている音響的特徴量毎に混合する。

例えば、声道形状を示す反射係数を上述の比率で混合することにより、新たな声道形状を作成することができる。この他にも反射係数の各次元を関数により近似し、近似した関数を混合することにより、新たな声道形状を作成するようにしてもよい。例えば、関数としては多項式を用いることができる。この場合、関数の混合は、多項式の係数の重み付き加重平均により混合することができる。

また、音源情報である基本周波数（Ｆ０）、有声音源振幅（ＡＶ）、声門開放率（ＯＱ）、非周期成分境界周波数（ＡＦ）についても、上述の比率で重み付き加重平均を取ることにより新たな音源情報を作成することができる。

図１６の例の場合には、特徴量混合部２０３は、声質８０３、８０４および８０５の声質特徴を「２：１：１」の比率で混合する。

具体的な混合方法は特に限定されるものではないが、例えば、混合比率に基づいて、声質特徴ＤＢ１０１に保持されている声質特徴の各パラメータの加重平均を求めることにより、声質特徴を混合してもよい。

なお、近接声質候補選択部２０１は、声質空間内のすべての声質を選択するようにしてもよい。この場合に、混合比率算出部２０２は、すべての声質特徴を対象として混合比率を決定する。

以上の処理により声質混合部１１０は、ステップＳ００５において指定された座標に対応する声質を生成することが可能となる。

（重み設定方法１）
次に、ステップＳ００１において重み設定部１０３が行なう具体的な重み設定方法について説明する。重み設定時には重み設定部１０３以外の処理部も動作する。

図１７は、重み設定部１０３の詳細な構成を示すブロック図である。重み設定部１０３は、重みＤＢ４０１と、重み選択部４０２とを備えている。

重みＤＢ４０１は、システム設計者が予め設計した複数の重みを保持する記憶装置であり、ハードディスクやメモリ等により構成される。重み選択部４０２は、入力部１０４からの指示に基づいて、重みＤＢ４０１から重みを選択し、重み記憶部１０９に保存する処理部である。各部の動作について図１８に示すフローチャートを用いて説明する。

重み選択部４０２は、重みＤＢ４０１に保持されている重みの中から、入力部１０４を用いてユーザにより選択された重みを１つ選択する（ステップＳ１０１）。

声質間距離算出部１０２は、ステップＳ１０１において選択された重みを用いて、声質特徴ＤＢ１０１に保持されている各声質間の距離を算出し、距離行列を作成する（ステップＳ１０２）。

尺度構成部１０５は、ステップＳ１０２で作成された距離行列を用いて、声質特徴ＤＢ１０１に保持された各声質の声質空間上での座標を算出する（ステップＳ１０３）。

表示部１０７は、声質特徴ＤＢ１０１に保持された各声質に対して、ステップＳ１０３において算出された声質空間上の座標に、話者属性ＤＢ１０６に保持された当該声質に対応する話者属性情報を表示する（ステップＳ１０４）。

ユーザはステップＳ１０４において声質空間に布置された声質特徴ＤＢ１０１に保持されている各声質位置の状況を見ながら、その声質空間が自分の感覚にあっているか否かを確認する（ステップＳ１０５）。つまり、自分が近いと感じる声質同士が近くに配置されており、かつ自分が遠いと感じる声質同士が遠くに配置されているか否かを判断する。ユーザは、判断結果を入力部１０４を用いて入力する。

ユーザが現在表示されている声質空間に満足しなかった場合には（ステップＳ１０５でＮｏ）、ステップＳ１０１からステップＳ１０５までの処理を、ユーザが満足するまで繰り返す。

ユーザが現在表示されている声質空間に満足した場合には（ステップＳ１０４でＹｅｓ）、重み選択部４０２は、ステップＳ１０１で選択された重みを重み記憶部１０９に登録し、重み設定処理を終了する（ステップＳ１０６）。重み記憶部１０９に保存される重みの一例を図１９に示す。図１９においてｗ１、ｗ２、・・・、ｗｎは、声質特徴ＤＢ１０１に格納されている各声質特徴（例えば声道情報である反射係数、基本周波数など）に対する重みパラメータである。

このように、ユーザが満足するまでステップＳ１０１からステップＳ１０５までの処理を繰り返すことにより、声質に対するユーザの感覚に即した重みを設定することが可能となる。また、この重みに基づいて声質空間を生成することにより、ユーザの感覚に合致した声質空間を構築することが可能となる。

以上説明した重み設定方法では、ユーザが重みを選択した後に、選択した重みに基づいた声質の表示を行っているが、重みＤＢ４０１に登録されている複数の重みに基づいた声質を表示させた後、ユーザの感覚に最も近い重みを選択させるようにしてもよい。図２０は、そのような重みの設定方法のフローチャートである。

声質間距離算出部１０２は、重みＤＢ４０１に保持されている複数の重みの各々を用いて、声質特徴ＤＢ１０１に保持されている各音声間の距離を算出し、距離行列を作成する（ステップＳ１１１）。

尺度構成部１０５は、重み毎に、ステップＳ１１１において作成された距離行列を用いて、声質特徴ＤＢ１０１に保持された各声質の声質空間上での座標を算出する（ステップＳ１１２）。

表示部１０７は、重み毎に、声質特徴ＤＢ１０１に保持された各声質に対して、ステップＳ１１２において算出された声質空間上の座標に、話者属性ＤＢ１０６に保持された当該声質に対応する話者属性情報を表示する（ステップＳ１１３）。図２１は、ステップＳ１１３における表示の一例を示す図である。同図には、４つの重みの各々について、話者属性情報が表示されている。４つの重みとは、例えば、基本周波数（高い声であるか低い声であるかを示す声質特徴）に対する重みと、声道形状（太い声であるか細い声であるかを示す声質特徴）に対する重みと、非周期成分（かすれた声であるか澄んだ声であるかを示す声質特徴）に対する重みと、声門開放率（かたい声であるかやわらかい声であるかを示す声質特徴）に対する重みとである。図２１には、これら４つの重みそれぞれに対する４つの声質空間が表示されており、各声質空間に話者属性情報が表示されている。

ユーザは、ステップＳ１１３において４つの声質空間に布置された声質特徴ＤＢ１０１に保持されている各声質位置の状況を見ながら、最も自分の感覚にあう、声質空間を選択する（ステップＳ１１４）。重み選択部４０２は、選択された声質空間に対応する重みを重みＤＢ４０１より選択する。重み選択部４０２は、選択された重みを重み記憶部１０９に格納する（ステップＳ１０６）。

なお、重み記憶部１０９は、ユーザ毎に重みを記憶できるようにしても良い。ユーザ毎に重みを記憶することにより、別のユーザが声質を編集する際には、そのユーザに対応する重みを重み記憶部１０９から取得し、声質間距離算出部１０２および声質混合部１１０で使用することにより、そのユーザの感覚にあった声質空間を提示することが可能となる。

以上のような重み設定は、予め決められた候補の中から選択的に決定することができるので、ユーザに特別な知識がない場合においても、適切に重みを決定することができる。また、ユーザが重みを決定するのに必要な作業量も少なくできる。

（重み設定方法２）
次に、別の重み設定方法について説明する。

重み設定部１０３は、次の方法により重みを設定しても良い。図２２は、重み設定部１０３を実現するための構成図である。重み設定部１０３は、代表声質ＤＢ４０３と、声質提示部４０４と、重み算出部４０５とを備えている。

代表声質ＤＢ４０３は、声質特徴ＤＢ１０１に保持される声質特徴データから代表的な声質特徴を予め抽出し、代表声質特徴を保持するデータベースである。したがって、必ずしも新たに記憶部を設けて、代表声質特徴を保持する必要はなく、声質特徴ＤＢ１０１内に代表声質特徴の識別子だけを保持するようにしても良い。声質提示部４０４は、代表声質ＤＢ４０３に保持された声質特徴をユーザに提示する。提示方法は特に限定しないが、声質特徴ＤＢ１０１を作成する際に使用した音声を再生することにより提示しても良い。これ以外にも代表声質ＤＢ４０３に保持されている代表声質に対応する話者属性を話者属性ＤＢ１０６から選択し、表示部１０７を用いて提示しても良い。

入力部１０４は、声質提示部４０４により提示された代表声質の中から、ユーザが近い声質であると判断する声質の組の入力を受け付ける。具体的な入力方法は特に限定されるものではない。例えば、入力部１０４としてマウスを想定した場合には、ユーザがマウスを用いて近い声質であると判断する声質特徴を指定することにより、声質の組の入力を受け付けるようにすればよい。また、入力部１０４はマウスに限られず、他のポインティングデバイスであってもよい。

重み算出部４０５は、入力部１０４により指定されたユーザが近いと感じた声質の組に基づいて重みを算出する。

次に、図２３に示すフローチャートを用いて、重み設定処理について説明する。

声質提示部４０４は、代表声質ＤＢ４０３に登録されている声質特徴をユーザに提示する（ステップＳ２０１）。例えば、声質提示部４０４が図２４に示すような画面を表示部１０７に表示するようにしてもよい。図２４に示す画面では、５人の話者情報（顔画像）が表示され、その隣に５つの再生ボタン９０１が表示されている。ユーザは、入力部１０４を操作して、音声再生したい話者に対応する再生ボタン９０１を押下する。声質提示部４０４は、押下された再生ボタン９０１に対応する話者の音声を再生する。

次に、ユーザは、入力部１０４を用いて声質が近いと感じる声質特徴の組を入力する（ステップＳ２０２）。例えば、図２４に示す例では、チェックボックス９０２にチェックを入れることにより、似ている声質を２つ指定する。

次に、重み算出部４０５は、ステップＳ２０２で入力された声質の組を用いて、重みを決定する（ステップＳ２０３）。具体的には、指定された声質の組における式２で算出される声質間距離が式３の制約の下で最小になるように各声質ｉの重みｗ_iを決定すれば良い。

具体的な重み決定法の一例を以下に示す。本決定法では、さらに式４に示すような制約を設け、式２を最小化する。

具体的には、まず２つの組の各次元における差分の自乗が最小となる要素ｌ_minを式５により決定する。

そして、各重みｗ_iを式６によって決定する。

重み算出部４０５は、ステップＳ２０３で設定された重みを重み記憶部１０９に保存する（ステップＳ２０４）。

重みの決定方法は、これに限定されるものではない。例えば、式５により２つの組の各次元における差分の自乗が最小となる要素を１つ決定するのではなく、複数決定しても良い。

また、選択された２つの声質の間の距離が小さくなるように重みを決定すれば、重み決定法は特に限定されるものではない。

なお、入力された音声の組が複数ある場合も同様に、それぞれの組から求められる距離の和が最小になるように重みを設定すればよい。

以上のように重みを設定することにより、声質に対するユーザの感覚に即した重みを設定することが可能となる。同時にこの重みに基づいて声質空間を生成することによりユーザの感覚に即した声質空間を構築することが可能となる。

この重み設定方法は、重み設定方法１と比べて、声質に対するユーザの感覚をより詳細に設定することができる。すなわち、予め決められた重みを選択するのではなく、ユーザが似ていると感じる声質を選択することにより、その声質間の共通する特徴量に対する重みを大きくする。これにより、ユーザが似ていると感じるのに重要な特徴量を抽出することができるからである。

（重み設定方法３）
次に、別の重み設定方法について説明する。

重み設定部１０３は、次の方法により重みを設定しても良い。図２５は、重み設定部１０３を実現するための構成図である。重み設定部１０３は、主観軸提示部４０６と、重み算出部４０７とを備えている。

主観軸提示部４０６は、図２６に示すようなユーザに「高い声−低い声」などの主観的な主観軸を提示する。入力部１０４は、主観軸提示部４０６により提示された各時間軸に対する重要度の入力を受け付ける。例えば、図２６に示す例では、入力欄９０３に数値を入力したり、ダイアル９０４を操作したりすることにより、「高い声−低い声」の主観軸の重要度は「１」、「かすれた声−澄んだ声」の主観軸の重要度は「３」、「太い声−細い声」の主観軸の重要度は「３」などというように入力することができる。この例では、ユーザは、「かすれた声−澄んだ声」という主観軸が重要であると入力したことになる。重み算出部４０７は、入力部１０４により入力された主観軸の重要度に基づいて重みを決定する。

次に、図２７のフローチャートを用いて、重み設定処理について説明する。

主観軸提示部４０６は、声質編集装置が取り扱うことのできる主観軸をユーザに提示する（ステップＳ３０１）。提示方法は特に限定されるものではないが、例えば、図２６に示すように各主観軸の名前と、その重要度を入力することが可能な入力欄９０３またはダイアル９０４とを合わせて提示することにより、主観軸を提示することができる。なお、この提示方法に限定されるものではなく、それぞれの主観軸を表現するようなアイコンで提示しても良い。

ユーザは、ステップＳ３０１で提示されたそれぞれの主観軸に対する重要度を入力する（ステップＳ３０２）。入力方法は特に限定されるものではなく、図２６に示すように入力欄９０３に数値を入力したり、ダイアル９０４を回すことにより指定したりしても良いし、ダイアル９０４の変わりにスライダーを設けてスライダーの位置を調節することにより重要度を入力しても良い。

重み算出部４０７は、ステップＳ３０２において入力された各主観軸の重要度に基づいて、声質間距離算出部１０２が距離を算出する際に用いる重みを算出する（ステップＳ３０３）。

具体的には、主観軸提示部４０６で提示された主観軸と声質特徴ＤＢ１０１に保存されている物理パラメータとが対応付けられており、主観軸の重要度と物理パラメータの重要度とが対応するように重みを設定する。

例えば、主観軸「高い声−低い声」は、声質特徴ＤＢ１０１に保持されている「基本周波数」に対応する。したがって、主観軸「高い声−低い声」が重要であるとユーザに入力された場合には、物理パラメータ「基本周波数」の重要度が高くなるように重みを設定すればよい。

また、主観軸「かすれた声−澄んだ声」の場合は、物理パラメータ「非周期成分（ＡＦ）」に対応する。また、主観軸「太い声−細い声」は、物理パラメータ「声道形状（ｋ）」に対応する。

なお、具体的な重みは、式３に示す重みの和が１という条件の下、各主観軸の重要度の比率に基づいて決定すればよい。

この方法による重み設定方法では、主観軸に基づいて重みを決定することができる。このため、重み設定方法２と比較して、重みを簡単に設定することが可能である。つまり、ユーザが各主観軸を理解することができる場合には、１つ１つの音声を聞くことなく、重視する主観軸を決定するだけでよい。

なお、これらの重み設定方法は、ユーザの持つ音声に対する知識や、重み設定に使用可能な時間に応じて選択的に切り替えるようにしても良い。例えば、音声に対する知識が全くない場合は、重み設定方法１を用いればよい。また、音声に対する知識はあるが、手早く決定したい場合には重み設定方法３を用いればよい。また、音声に対する知識があり、詳細に重みを設定したい場合には重み設定方法２を用いればよい。重み設定方法の選択の方法はこれに限られるものではない。

以上の方法により、ユーザの感覚に合う声質空間を生成するための重みを設定することができる。なお、重みの設定方法は上記方法に限られず、ユーザの感覚情報を入力として、重みを調整するものであれば良い。

次に、本発明の声質編集装置により作成された声質特徴を用いて、実際に声質を変換する方法について説明する。

図２８は、本発明に係る声質編集装置により生成された声質特徴を用いて、声質変換を行なう声質変換装置の構成を示す図である。声質変換装置は、一般的なコンピュータを用いて構成することが可能である。

声質変換装置は、母音変換部６０１と、子音声道情報保持部６０２と、子音選択部６０３と、子音変形部６０４と、音源変形部６０５と、合成部６０６とを備えている。

母音変換部６０１は、音素境界情報付声道情報と、本発明に係る声質編集装置により生成された声質特徴とを入力とし、生成された声質特徴に基づいて、音素境界情報付声道情報に含まれる母音の声道情報を変換する処理部である。音素境界情報付声道情報とは、入力音声の声道情報に音素ラベルが付された情報である。音素ラベルとは、入力音声に対応する音素情報と各音素の時間長の情報とを含む情報である。

子音声道情報保持部６０２は、予め、入力音声の話者とは別の話者により発声された子音の声道情報を保持する記憶装置であり、ハードディスクやメモリ等より構成される。

子音選択部６０３は、母音変換部６０１により母音区間の声道情報が変換された音素境界情報付声道情報に対して、変換後の母音区間の声道情報に適合するような子音の声道情報を子音声道情報保持部６０２から選択する処理部である。

子音変形部６０４は、子音選択部６０３により選択された子音の声道情報を、当該子音の前後に位置する母音の声道情報との接続歪が小さくなるように変形する処理部である。

音源変形部６０５は、入力音声の音源情報を、本発明の声質編集装置により生成された声質特徴のうち音源に関する情報を用いて変形する処理部である。

合成部６０６は、子音変形部６０４により変形された声道情報と、音源変形部６０５により変形された音源情報とを用いて、音声を合成する処理部である。

母音変換部６０１、子音声道情報保持部６０２、子音選択部６０３、子音変形部６０４、音源変形部６０５および合成部６０６は、コンピュータのＣＰＵでプログラムを実行することにより実現される。

以上の構成により、本発明の声質編集装置より生成された声質特徴を用いて入力された音声の声質を変換することが可能となる。

母音変換部６０１は、入力された音素境界情報付声道情報の母音区間の声道情報と、本発明の声質編集装置により生成された声道特徴とを入力される変形比率に基づいて混合することにより、音素境界情報付声道情報の母音区間の声道情報を変換する。詳細な変換方法を以下に説明する。

まず、音素境界情報付声道情報は、変換元の音声から前述のＰＡＲＣＯＲ係数による声道情報を取得すると共に、当該声道情報に音素ラベルを付与することにより生成される。

さらに、入力音声が、テキストから音声を合成するテキスト合成装置により合成された音声の場合、音素ラベルはテキスト合成装置により取得することが可能である。また、合成された音声からＰＡＲＣＯＲ係数を算出することも容易に可能である。また、声質変換装置をオフラインで使用する場合には、当然ながら予め人手により音素境界情報を声道情報に付与してもよい。

図８Ａ〜図８Ｊは、１０次の反射係数で表現された母音／ａ／の声道情報の例を示す。同図において縦軸は反射係数を表し、横軸は時間を表す。この図からＰＡＲＣＯＲ係数は比較的滑らかな時間的な動きであることがわかる。

母音変換部６０１は、以上のようにして入力された音素境界情報付声道情報に含まれる母音の声道情報を変換する。

まず、母音変換部６０１は、変換対象の母音に対応する目標の声道情報（目標母音声道情報）を、本発明の声質編集装置により生成された声質特徴より取得する。対象となる目標母音声道情報が複数存在する場合には、変換対象となる母音の音韻環境（例えば前後の音素種類など）の状況に合わせて最適な目標母音声道情報を取得する。

母音変換部６０１は、入力された変換比率に基づいて、変換対象の母音を目標母音声道情報に変換する。

入力された音素境界情報付声道情報において、変換対象となる母音区間のＰＡＲＣＯＲ係数で表現された声道情報の各次元での時系列を、式７に示す多項式により近似する。例えば、声道情報が１０次のＰＡＲＣＯＲ係数の場合は、それぞれの次数のＰＡＲＣＯＲ係数を、式７に示す多項式により近似する。

ただし、

は、近似された入力音声のＰＡＲＣＯＲ係数を示し、ａ_iは近似されたＰＡＲＣＯＲ係数の多項式の係数を示す。

これにより、１０種類の多項式を得ることができる。多項式の次数は特に限定されるものではなく、適当な次数を設定することができる。

このとき多項式近似を適用する単位としては、例えば、一つの音素区間を近似の単位とすることができる。また、音素区間ではなく、音素中心から次音素中心までを時間幅としても良い。なお、以下の説明では、音素区間を単位として説明を行う。

図２９Ａ〜図２９Ｄは、ＰＡＲＣＯＲ係数を５次の多項式により近似し、音素単位で時間方向に平滑化した際の１次から４次のＰＡＲＣＯＲ係数をそれぞれ示す図である。各グラフの縦軸は反射係数を表し、横軸は時間を表す。

本実施の形態では、多項式の次数として５次を例に説明しているが、多項式の次数は５次でなくとも良い。なお、多項式による近似以外にも音素単位時間ごとの回帰直線によりＰＡＲＣＯＲ係数を近似しても良い。

同様に、母音変換部６０１は、本発明の声質編集装置により生成された声質特徴に含まれるＰＡＲＣＯＲ係数で表現された目標母音声道情報を、式８に示す多項式により近似し、多項式の係数ｂ_iを取得する。

次に、母音変換部６０１は、被変換パラメータ（ａ_i）と、目標母音声道情報（ｂ_i）と、変換比率（ｒ）とを用いて、次式９により変換後の声道情報（ＰＡＲＣＯＲ係数）の多項式の係数ｃ_iを求める。

母音変換部６０１は、算出した変換後の多項式の係数ｃ_iを用いて、変換後の声道情報

を式１０により求める。

母音変換部６０１は、以上の変換処理を各次元のＰＡＲＣＯＲ係数について行なう。この処理により、指定された変換比率での、被変換音声の母音声道情報を表すＰＡＲＣＯＲ係数から、目標音声の母音声道情報を表すＰＡＲＣＯＲ係数への変換が可能になる。

実際に、母音／ａ／に対して、上記の変換を行った例を図３０に示す。同図において、横軸は、正規化された時間を表し、縦軸は、１次元目のＰＡＲＣＯＲ係数を表す。図中の（ａ）は被変換音声を示す男性話者の／ａ／の発声の係数の推移を示している。同様に（ｂ）は目標音声を示す女性話者の／ａ／の発声の係数の推移を示している。（ｃ）は上記変換方法を用いて、男性話者の係数を女性話者の係数に変換比率０．５で変換した際の係数の推移を示している。同図から分かるように、上記の変形方法により、話者間のＰＡＲＣＯＲ係数を補間できていることがわかる。

図３１Ａ〜図３１Ｃは、変換した母音区間の時間的な中心における声道断面積を示す図である。この図は、図３０に示したＰＡＲＣＯＲ係数の時間的な中心点におけるＰＡＲＣＯＲ係数を式１により声道断面積に変換したものである。図３１Ａ〜図３１Ｃの各グラフにおいて、横軸は音響管における位置を表しており、縦軸は声道断面積を表している。図３１Ａは変換元の男性話者の声道断面積であり、図３１Ｂは目標話者の女性の声道断面積であり、図３１Ｃは、変換比率５０％で変換元のＰＡＲＣＯＲ係数を変換した後のＰＡＲＣＯＲ係数に対応する声道断面積である。この図からも、図３１Ｃに示す声道断面積は、変換元と変換先の間の中間の声道断面積となっていることがわかる。

声質を目標話者に変換するために母音変換部６０１で入力された音素境界情報付声道情報に含まれる母音声道情報を目標話者の母音声道情報に変換したが、母音声道情報を変換することにより、子音と母音との接続境界において、声道情報の不連続が生じる。

図３２は、ＶＣＶ（Ｖは母音、Ｃは子音を表す）音素列において、母音変換部６０１が母音の変換を行った後のあるＰＡＲＣＯＲ係数を模式的に示した図である。

同図において、横軸は時間を表し、縦軸はＰＡＲＣＯＲ係数を表す。図３２（ａ）は、入力音声の声道情報である。このうち母音部分のＰＡＲＣＯＲ係数は、図３２（ｂ）に示すような目標話者の声道情報を用いて母音変換部６０１により変形される。その結果、図３２（ｃ）に示されるような母音部分の声道情報１０ａおよび１０ｂが得られる。しかし、子音部分の声道情報１０ｃは、変換されておらず入力音声の声道情報を示している。このため、母音部分の声道情報と子音部分の声道情報との境界で不連続が生じる。したがって子音部分の声道情報についても変換が必要となる。

子音区間の変換方法について以下に説明する。音声の個人性は、母音と子音の継続時間や安定性などを考えた場合、主に母音により表現されていると考えることができる。

そこで、子音に関しては目標話者の声道情報を使用せずに、予め用意された子音の複数の声道情報の中から、母音変換部６０１により変換された後の母音声道情報に適合する子音の声道情報を選択することにより、変換後の母音との接続境界における不連続を緩和することができる。図３２（ｃ）では、子音声道情報保持部６０２に記憶されている子音の声道情報の中から、前後の母音の声道情報１０ａおよび１０ｂとの接続性が良い子音の声道情報１０ｄを選択することにより、音素境界における不連続を緩和することができている。

以上を実現するために、予め複数の話者の複数の発声から子音区間を切り出し、各子音区間の声道情報からＰＡＲＣＯＲ係数を算出することにより、子音声道情報保持部６０２に記憶される子音声道情報が作成される。

子音選択部６０３は、母音変換部６０１により変換された母音声道情報に適合する子音声道情報を子音声道情報保持部６０２から選択する。子音の選択基準は、子音の種類（音素）、ならびに子音の始端および終端の接続点における声道情報の連続性である。つまり、ＰＡＲＣＯＲ係数の接続点における声道情報の連続性に基づいて、選択される子音を評価することができる。具体的には、子音選択部６０３は、式１１を満たす子音声道情報（Ｃ_i）を探索する。

ここで、Ｕ_i-1は、前方の音素の声道情報を表し、Ｕ_i+1は後続の音素の声道情報を表す。weightは前方の音素と選択対象の子音との連続性と、選択対象の子音と後続の音素の連続性との重みである。重みは、後続音素との接続性を重視するように適宜設定される。後続音素との接続性を重視するのは、子音は、前方の音素よりも後続する母音との結びつきが強いためである。

関数Ｃｃは、２つの音素の声道情報の連続性を示す関数であり、当該関数の値は、例えば、２つの音素の境界におけるＰＡＲＣＯＲ係数の差の絶対値により表現することができる。また、ＰＡＲＣＯＲ係数は低次の係数ほど重みを大きくするように設計してもよい。

このようにして、子音選択部６０３は、目標声質への変換後の母音の声道情報に適合する子音の声道情報を、子音声道情報保持部６０２から選択する。これにより、声道情報の滑らかな接続が可能となり、合成音声の自然性を向上させることができる。

なお、子音選択部６０３において選択する子音を有声子音だけとし、無声子音は入力された音素境界情報付声道情報に含まれる声道情報を使用するように設計してもよい。なぜならば、無声子音は声帯の振動を伴わない発声であり、音声の生成過程が母音や有声子音の場合とは異なるためである。

子音選択部６０３は、母音変換部６０１により変換された後の母音声道情報に適合する子音声道情報を取得することが可能であるが、必ずしも接続点の連続性が十分でない場合がある。そこで、子音変形部６０４は、子音選択部６０３が選択した子音の声道情報と後続母音の声道情報とが、後続母音の接続点で連続的に接続するように、選択した子音の声道情報を変形する。

具体的には、子音変形部６０４は、後続母音との接続点において、ＰＡＲＣＯＲ係数が後続母音のＰＡＲＣＯＲ係数と一致するように、子音のＰＡＲＣＯＲ係数をシフトさせる。ただし、ＰＡＲＣＯＲ係数は安定性の保証のためには、［−１，１］の範囲である必要がある。このため、ＰＡＲＣＯＲ係数を一旦ｔａｎｈ^-1関数などにより［−∞，∞］の空間に写像し、写像された空間上で線形にシフトした後、再びｔａｎｈ関数により［−１，１］の範囲に戻す。これにより、安定性を保証したまま、子音区間と後続母音区間の声道形状の連続性を改善することが可能となる。

音源変形部６０５は、本発明の声質編集装置により生成された声質特徴に含まれる音源情報を用いて、変換元音声（入力音声）の音源情報を変形する。通常、ＬＰＣ系の分析合成においては、励振音源としてインパルス列を用いることが多い。このため、予め設定された基本周波数などの情報に基づいて音源情報（Ｆ０、パワーなど）を変形した後に、音源情報を合成するようにしてもよい。これにより、声質変換装置では、声道情報による声色の変換だけでなく、基本周波数などの韻律や音源情報の変換を行うことが可能となる。

また、例えば合成部６０６において、Ｒｏｓｅｎｂｅｒｇ−Ｋｌａｔｔモデルなどの声門音源モデルを用いることもできる。このような構成を用いた場合、Ｒｏｓｅｎｂｅｒｇ−Ｋｌａｔｔモデルのパラメータ（ＯＱ、ＴＬ、ＡＶ、Ｆ０等）を被変換音声のパラメータから目標音声に向けてシフトした値を用いるなどの方法を用いることも可能である。

合成部６０６は、声質変換後の声道情報と、音源変形部６０５にて変形された後の音源情報とを用いて、音声を合成する。合成の方法は特に限定されるものではないが、声道情報としてＰＡＲＣＯＲ係数を用いている場合には、ＰＡＲＣＯＲ合成を用いればよい。また、ＰＡＲＣＯＲ係数からＬＰＣ係数に変換した後に、ＬＰＣ係数を合成するようにしてもよいし、ＰＡＲＣＯＲ係数からフォルマントを抽出し、フォルマント合成するようにしてもよい。さらには、ＰＡＲＣＯＲ係数からＬＳＰ係数を算出し、ＬＳＰ合成するようにしてもよい。

以上のような声質変換装置を用いることにより、本発明の声質編集装置により生成された声質特徴を有する合成音を生成することが可能となる。なお、声質変換方法は上記の方法に限定されるものではなく、本発明の声質編集装置により生成される声質特徴を用いて声質を変換するものであれば、その他の方法であってもよい。

（効果）
また、重み設定部１０３により重みを調節することにより、声質間距離算出部１０２が、ユーザが感じる距離感を反映した声質間距離を算出することが可能となる。また、ユーザの距離感覚を元に、尺度構成部１０５が各声質の座標位置を算出する。このため、表示部１０７は、ユーザの感覚に合う声質空間を表示することができる。さらに、この声質空間は、ユーザの感覚にあった距離空間である。このため、表示されている複数の声質の間に位置する声質を想定することも、予め決められた距離尺度を用いて声質を想定する場合と比較すると、容易となる。したがって、位置入力部１０８を用いてユーザが所望する声質に対応した座標を指定することも容易になる。

さらに、声質混合部１１０で声質を混合する際には、以下のようにして声質候補の混合比率が決定される。つまり、ユーザによって決定された重みを用いた声質空間において、近接声質候補が選択される。また、その声質空間上での声質間の距離に基づいて、選択された各声質候補の混合比率が決定される。このため、決定された混合比率は、ユーザが想定する声質の混合比率に一致させることができる。また、位置入力部１０８を用いてユーザが指定した座標に対応する声質を生成する際にも、重み記憶部１０９に保持されているユーザによって設定された重みが使用される。このため、ユーザと共有された、声質編集装置における声質空間上の位置に対応した声質を生成することが可能となる。

つまり、ユーザが想定する声質空間と、声質編集装置が保持する声質空間とを、重み記憶部１０９に保持されている重みを媒介として共有することができる。このため、声質編集装置が提示する声質空間上の座標を入力するだけで、ユーザが所望する声質を指定および生成することが可能となる。

さらに、通常、音声は、実際に音声を聞かなければ、その音声がどのような声質であるのかをユーザに想起させることは非常に困難である。しかし、ユーザに声質空間を表示する際には、表示部１０７は、話者属性ＤＢ１０６に保持されている顔画像などの話者属性情報を表示している。このため、ユーザは、顔画像を見ることにより、当該顔画像の個人の声質を容易に想起することができる。このため、音声に対して専門的な知識を持たないユーザであっても、容易に声質の編集を行なうことができる。

さらに、本発明の声質編集装置は、声質特徴ＤＢ１０１に保持されている声質特徴を用いて、ユーザが所望する声質特徴を生成する声質編集処理のみを行い、声質特徴を用いて音声の声質変換を行う声質変換装置とは分離している。このため、一旦、本発明の声質編集装置により声質を決定し、決定した声質特徴だけを別途保存することができる。これにより、その後、その声質特徴を用いて音声の声質変換を行なう際には、保存しておいた声質特徴を再度利用するだけでよく、毎回声質を編集し直すという作業を行なわなくてもよいという効果も有する。

なお、本発明の声質編集装置の各構成要素は、例えば、図３３に示すように、コンピュータにより実現される。つまり、表示部１０７は、ディスプレイにより実現され、入力部１０４および位置入力部１０８はキーボードやマウスなどの入力装置により実現される。また、重み設定部１０３、声質間距離算出部１０２、尺度構成部１０５、声質混合部１１０は、ＣＰＵ上でプログラムを実行することにより実現される。さらに、声質特徴ＤＢ１０１、話者属性ＤＢ１０６、重み記憶部１０９は、コンピュータ内の内部メモリにより実現することができる。

なお、本発明の声質編集装置による声質空間の表示例として、２次元平面上に各声質特徴を布置するように記述したが、表示方法はこれに限定されるものではなく、擬似的に３次元空間上に配置しても良い、さらには、球面上に配置するように布置するように設計しても良い。

（変形例）
実施の形態１では、声質特徴ＤＢ１０１に保持されている声質特徴を全て用いてユーザ所望の声質を編集していたが、本変形例では、声質特徴ＤＢ１０１に保持されている声質特徴の一部を使用してユーザに声質を編集させることを特徴とする。

本発明の実施の形態１では、声質特徴ＤＢ１０１に保持されている声質特徴に対応する話者属性を表示部１０７が表示する。しかしながら、表示された話者属性をユーザが知らない場合には、声質編集装置がユーザに話者属性を提示しても、ユーザはその声質を想起することができないという問題がある。本変形例では、この問題を解決する。

図３４は、本変形例に係る声質編集装置の構成を示すブロック図である。図３４において、図５と同じ構成要素については同じ符号を用い、説明を省略する。図３４に示す声質編集装置は、図５に示した声質編集装置に、さらに、ユーザ情報管理ＤＢ５０１が付加された構成を有する。

ユーザ情報管理ＤＢ５０１は、ユーザが既知の声質の情報を管理するデータベースである。図３５は、ユーザ情報管理ＤＢ５０１が管理する情報の例を示す図である。ユーザ情報管理ＤＢ５０１は、声質編集装置を利用するユーザのユーザＩＤと、ユーザ毎にユーザが知っている既知声質ＩＤとを少なくとも保持する。同図の例では、ユーザ１は、声質１および声質２の声質を保持する人物を知っていることが分かる。また、ユーザ２は、声質１、声質３及び声質５の声質を保持する人物を知っていることが分かる。このような情報を用いることにより、表示部１０７は、ユーザが知っている声質の情報のみをユーザに提示することが可能となる。

なお、上記説明では、ユーザが知っている声質が数個であるように説明したが、より多数の声質を指定しても構わない。

また、ユーザ情報管理ＤＢ５０１に保持されるデータの作成方法は特に限定されるものではないが、例えば、予めユーザに声質特徴ＤＢ１０１に保持されている声質および話者属性ＤＢ１０６に保持されている話者属性から、自分が知っている声質および話者属性を選択してもらうことにより作成すればよい。

または、声質編集装置が予め想定するユーザの属性ごとに表示する声質および話者属性を決定しても良い。例えば、ユーザＩＤの代わりに性別または年齢ごとにユーザグループを定義する。そして、そのグループに属する性別または年齢の人が知っていると考えられる声質および話者属性を予め設定しておく。声質編集装置は、ユーザに性別または年齢を入力させることにより、ユーザ情報管理ＤＢ５０１を用いて表示すべき声質を決定することができる。このような構成にすることにより、予めユーザに自分が知っている声質データを指定させることなく、ユーザが知っていると思われる声質を特定することが可能となる。

または、既知声質ＩＤをユーザに指定させるのではなく、ユーザが使用する外部データベースから、当該外部データベースに保持されている話者識別情報を取得し、取得された話者識別情報に対応する話者の声質のみを既知声質として管理しても良い。外部データベースとしては、例えば、ユーザが所有する音楽コンテンツの歌唱者の情報を用いることができる。または、ユーザが保有する映像コンテンツに出演している俳優の情報を用いて、外部データベースを作成することができる。なお、話者識別情報の作成方法は、これらに限定されるものではなく、声質特徴ＤＢ１０１に保持されている声質からユーザが知っている声質を特定できる情報を作成できればよい。

これにより、ユーザは、自分が保持する音声コンテンツのデータを声質編集装置に提供するだけで、声質編集装置は、ユーザが知っている声質の情報を自動的に取得することができ、ユーザ情報管理ＤＢ５０１を作成できる。このため、ユーザの処理負荷を小さくすることができる。

（効果）
以上のように声質編集装置を構成することにより、表示部１０７により提示される声質空間は、ユーザが知っている声質のみから構成される。このことにより、さらにユーザの感覚に合った声質空間を構成することが可能となる。したがって、ユーザが所望の声質を指定する際にも、提示されている空間がユーザの感覚に合っていることから、指定したい座標を簡単に設定することが可能となる。

なお、声質混合部１１０により、声質特徴ＤＢ１０１に登録されている複数の声質を混合する際には、ユーザ情報管理ＤＢ５０１により管理されているユーザが知っている声質特徴だけではなく、声質特徴ＤＢ１０１に登録されている全ての声質特徴を用いて、ユーザが指定した座標位置の声質を生成してもよい。

その場合は、ユーザが指定した座標位置と、近接声質候補選択部２０１により選択される近接声質との距離は、ユーザ情報管理ＤＢ５０１により管理されている声質情報のみを用いた場合と比較して、小さくすることが可能となり、結果として、声質を大きく変更することなく、ユーザが指定した座標位置の声質を混合することができる。したがって、声質の変形量が少ない分、音質の劣化も少なくすることができ、高音質の声質特徴を生成することができるという効果を有する。

なお、重み設定部１０３が、重み設定部１０３により設定された重みを用いて、声質特徴ＤＢ１０１に保持されている声質特徴をクラスタリングし、ユーザ情報管理ＤＢ５０１が、クラスタを代表する声質を保持するようにしても良い。

これによると、ユーザの感覚に合った声質空間を保ちながら、声質空間に表示する声質数を抑制することができる。このため、ユーザが提示された声質空間を把握しやすくなるという効果を有する。

（実施の形態２）
本発明の実施の形態１に係る声質編集装置は、１台のコンピュータで声質の編集を行なうものである。しかしながら、一人で複数台のコンピュータを使用するということも日常的に行なわれている。また、現在では種々のサービスは、コンピュータだけでなく、携帯電話や携帯端末向けにされている。したがって、あるコンピュータで構築した自分の環境を他のコンピュータ、携帯電話、携帯端末で利用するという利用も考えられる。そこで、実施の形態２では、複数の端末において同一の編集環境を実現することができる声質編集システムについて説明する。

図３６は、本発明の実施の形態２に係る声質編集システムの構成を示す図である。声質編集システムは、ネットワーク７０４に相互に接続された端末７０１、端末７０２およびサーバ７０３を備えている。端末７０１は、声質を編集する装置である。端末７０２は、別の声質を編集する装置である。サーバ７０３は、端末７０１および端末７０２により編集された声質を管理する装置である。なお、端末の数はこれに限定されるものではない。

端末７０１および端末７０２は、声質特徴ＤＢ１０１、声質間距離算出部１０２、重み設定部１０３、入力部１０４、尺度構成部１０５、話者属性ＤＢ１０６、表示部１０７、位置入力部１０８および声質混合部１１０を備えている。

サーバ７０３は、重み記憶部１０９を備えている。

端末７０１の重み設定部１０３により重みが設定された場合は、端末７０１は、ネットワークを介して、重みをサーバ７０３に送信する。

サーバ７０３の重み記憶部１０９は、ユーザごとに重みを保存および管理する。

ユーザが端末７０２（重みを設定した端末とは別の端末）を用いて声質を編集する場合には、ネットワークを介してサーバ７０３に保持されているユーザの重みを取得する。

端末７０２の声質間距離算出部１０２が取得した重みを用いて声質間距離を算出することにより、端末７０１で設定した声質空間と同じ声質空間を別の端末である端末７０２で再現することができる。

端末７０１で重みを設定し、端末７０２で設定された重みを用いて声質を編集する例について、動作を説明する。

まず、端末７０１の重み設定部１０３が、重みを決定する。例えば、図１７に示した構成の重み設定部１０３が、図１８に示したフローチャートの流れで処理を行なう。

つまり、端末７０１の重み設定部１０３は、重みＤＢ４０１により保持されている重みの中から、入力部１０４を用いてユーザにより選択された重みを１つ選択する（ステップＳ１０１）。

ステップＳ１０１により選択された重みを用いて、声質間距離算出部１０２が声質特徴ＤＢ１０１に保持されている各声質間の距離を算出し、距離行列を作成する（ステップＳ１０２）。

ステップＳ１０２で作成された距離行列を用いて、尺度構成部１０５が声質特徴ＤＢ１０１に保持された各声質の声質空間上での座標を算出する（ステップＳ１０３）。

表示部１０７は、声質特徴ＤＢ１０１に保持された各声質に対して、ステップＳ１０３で算出された声質空間上の座標に、話者属性ＤＢ１０６に保持された当該声質に対応する話者属性情報を表示する（ステップＳ１０４）。

ユーザはステップＳ１０４で声質空間に布置された声質特徴ＤＢ１０１に保持されている各声質位置の状況を見ながら、その声質空間が自分の感覚にあっているか否かを確認する（ステップＳ１０５）。つまり、自分が近いと感じる声質同士が近くに配置されており、かつ自分が遠いと感じる声質同士が遠くに配置されているか否かを判断する。

ユーザが現在表示されている声質空間に満足した場合には（ステップＳ１０４でＹｅｓ）、重み選択部４０２は、ステップＳ１０１で選択された重みを、ネットワーク７０４を介してサーバ７０３に送信し、サーバ７０３が受信した重みを重み記憶部１０９に登録し、重み設定処理を終了する（ステップＳ１０６）。

なお、上記の説明では、重み設定部１０３を図１７の構成で説明したが、図２２または図２５の構成により実現しても構わない。

次に、別の端末７０２を用いて声質を編集する処理について図３７のフローチャートを用いて説明する。

声質間距離算出部１０２は、サーバ７０３に登録されている重み情報をネットワーク７０４を介して取得する（ステップＳ４０１）。声質間距離算出部１０２は、ステップＳ１０１において取得した重みを用いて声質特徴ＤＢ１０１に保持された全ての声質間の距離を算出する（ステップＳ００２）。

次に、尺度構成部１０５は、ステップＳ００２において計算された声質特徴ＤＢ１０１に保持された声質間の距離（距離行列）を用いて、声質の声質空間上の座標を算出する（ステップＳ００３）。

次に、表示部１０７は、声質特徴ＤＢ１０１に保持されている各声質に対し、ステップＳ００３により生成された座標位置に、話者属性ＤＢ１０６に保持されている当該声質に対応する話者属性を表示する（ステップＳ００４）。

次に、ユーザは、位置入力部１０８を用いて所望する声質を有する座標位置を入力する（ステップＳ００５）。

次に、声質混合部１１０は、ステップＳ００５において指定された座標に対応する声質を生成する（ステップＳ００６）。

以上の処理により、端末７０１で設定した重みを用いて、端末７０２で声質編集作業を行なうことが可能となる。

（効果）
かかる構成によると、複数の端末に共通する声質空間上で、声質の編集を行なうことが可能となる。例えば、実施の形態１に係る声質編集装置では、ユーザがコンピュータや携帯端末など複数の端末で声質を決定するような場合には、個々の端末で重みを決定する必要がある。しかし、実施の形態２に係る声質編集システムを用いることにより、１つの端末で重みを決定し、決定したサーバに重みを保存することにより、他の端末では重みを決定する必要がなくなる。つまり、他の端末は、サーバから重みを取得するだけでよい。したがって、声質編集における声質空間の構成に必要な重み設定作業量を個々の端末ごとに行なう場合と比較すると、ユーザが声質を決定する際の負担を大幅に削減することが可能となるという効果を有する。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

本発明に係る声質編集装置は、ユーザの感覚に合った声質空間を作成することにより、直感的にわかりやすい声質空間の提示を可能とし、また、提示された声質空間上の座標位置を入力することで、ユーザが所望する声質を生成する機能を有する。このため、種々の声質を必要とするユーザインタフェースや、エンターテイメント等として有用である。また、携帯電話などによる音声通信におけるボイスチェンジャー等の声質指定の用途にも応用できる。

図１は、声質編集インタフェースの一例を示す図である。図２は、特許文献１に記載の音響ブラウジング装置の構成を示すブロック図である。図３は、特許文献２に記載のデータ表示装置の構成を示すブロック図である。図４は、本発明の実施の形態１に係る声質編集装置の外観図である。図５は、本発明の実施の形態１に係る声質編集装置の構成を示すブロック図である。図６は、声道断面積関数とＰＡＲＣＯＲ係数との関係を示す図である。図７は、声質特徴ＤＢに格納する声質特徴の抽出方法を示す図である。図８Ａは、母音／ａ／の１次の反射係数による声道情報の一例を示す図である。図８Ｂは、母音／ａ／の２次の反射係数による声道情報の一例を示す図である。図８Ｃは、母音／ａ／の３次の反射係数による声道情報の一例を示す図である。図８Ｄは、母音／ａ／の４次の反射係数による声道情報の一例を示す図である。図８Ｅは、母音／ａ／の５次の反射係数による声道情報の一例を示す図である。図８Ｆは、母音／ａ／の６次の反射係数による声道情報の一例を示す図である。図８Ｇは、母音／ａ／の７次の反射係数による声道情報の一例を示す図である。図８Ｈは、母音／ａ／の８次の反射係数による声道情報の一例を示す図である。図８Ｉは、母音／ａ／の９次の反射係数による声道情報の一例を示す図である。図８Ｊは、母音／ａ／の１０次の反射係数による声道情報の一例を示す図である。図９は、声質特徴ＤＢに格納される声質特徴の一例を示す図である。図１０は、話者属性ＤＢに格納される話者属性の一例を示す図である。図１１は、本発明の実施の形態１における声質編集装置の基本動作を示すフローチャートである。図１２は、声質間距離算出部により算出される距離行列のデータ構造を示す図である。図１３は、尺度構成部により算出された各声質の座標位置の一例を示す図である。図１４は、表示部により表示される話者属性の一例を示す図である。図１５は、声質混合部の具体的な構成を示すブロック図である。図１６は、近接声質選択部により選択される声質を模式的に表す図である。図１７は、重み設定部の具体的な構成を示すブロック図である。図１８は、重み設定方法のフローチャートである。図１９は、重み設定部により設定される重みのデータ構造を示す図である。図２０は、重み設定方法のフローチャートである。図２１は、表示部が表示する複数の声質空間の一例を示す図である。図２２は、重み設定部の具体的な構成を示すブロック図である。図２３は、重み設定方法のフローチャートである。図２４は、声質提示部よる声質の提示について説明するための図である。図２５は、重み設定部の具体的な構成を示すブロック図である。図２６は、主観軸提示部により提示される主観軸の一例を示す図である。図２７は、重み設定方法のフローチャートである。図２８は、声質編集装置により生成された声質特徴を用いて声質変換を行なう声質変換装置の構成を示すブロック図である。図２９Ａは、多項式近似された母音の声道形状の一例を示す図である。図２９Ｂは、多項式近似された母音の声道形状の一例を示す図である。図２９Ｃは、多項式近似された母音の声道形状の一例を示す図である。図２９Ｄは、多項式近似された母音の声道形状の一例を示す図である。図３０は、母音変換部による母音区間のＰＡＲＣＯＲ係数の変換処理について説明するための図である。図３１Ａは、変換元の男性話者の声道断面積の様子を示す図である。図３１Ｂは、目標話者の女性の声道断面積の様子を示す図である。図３１Ｃは、変換比率５０％で変換元のＰＡＲＣＯＲ係数を変換した後のＰＡＲＣＯＲ係数に対応する声道断面積の様子を示す図である。図３２は、子音選択部により子音声道形状を選択する処理を説明するための模式図である。図３３は、本発明の実施の形態１に係る声質編集装置のコンピュータ上での構成を示す図である。図３４は、本発明の実施の形態１の変形例に係る声質編集装置の構成を示すブロック図である。図３５は、ユーザ情報管理ＤＢ５０１が管理する情報のデータ構造の一例を示す図である。図３６は、本発明の実施の形態２に係る声質編集システムの構成を示す図である。図３７は、本発明の実施の形態２に係る声質編集システムが備える端末が行なう処理のフローチャートである。

符号の説明

１０１声質特徴ＤＢ
１０２声質間距離算出部
１０３重み設定部
１０４入力部
１０５尺度構成部
１０６話者属性ＤＢ
１０７表示部
１０８位置入力部
１０９重み記憶部
１１０声質混合部
２０１近接声質候補選択部
２０２混合比率算出部
２０３特徴量混合部
３０１母音安定区間抽出部
３０２声質特徴算出部
４０１重みＤＢ
４０２重み選択部
４０３代表声質ＤＢ
４０４声質提示部
４０５、４０７重み算出部
４０６主観軸提示部
５０１ユーザ情報管理ＤＢ
６０１母音変換部
６０２子音声道情報保持部
６０３子音選択部
６０４子音変形部
６０５音源変形部
６０６合成部
７０１、７０２端末
７０３サーバ
７０４ネットワーク

Claims

各々が複数の声質の音響特徴量から構成される複数の声質特徴を編集することにより新たな声質特徴を生成する声質編集装置であって、
複数の声質特徴を記憶する声質特徴データベースと、
前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する声質をユーザが想起可能な識別子を記憶する話者属性データベースと、
声質の音響特徴量毎に重みを設定する重み設定部と、
前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴を構成する前記複数の音響特徴量と前記重み設定部で設定された重みとに基づいて、当該声質特徴の表示座標を算出する表示座標算出部と、
前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、前記表示座標算出部で算出された表示座標に表示する表示部と、
座標の入力を受け付ける位置入力部と、
前記声質特徴データベースに記憶されている前記複数の声質特徴の一部または全部の各々について、当該声質特徴の表示座標と前記位置入力部により受け付けられた前記座標との間の距離を算出し、算出された距離の比率に基づいて前記複数の声質特徴の一部または全部の音響特徴量を混合することにより新たな声質特徴を生成する声質混合部と
を備え、
前記表示座標算出部は、前記重み設定部により設定された重みがより大きい音響特徴量同士が類似するほど、当該音響特徴量を有する声質特徴同士が近くに配置されるように、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴の表示座標を算出する
声質編集装置。
前記話者属性データベースは、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴を有する音声の話者の顔画像、似顔絵もしくは名前、または当該声質特徴を有する音声を発声するキャラクタの画像もしくは名前を記憶し、
前記表示部は、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている話者の顔画像、似顔絵もしくは名前、またはキャラクタの画像もしくは名前を、前記表示座標算出部で算出された表示座標に表示する
請求項１に記載の声質編集装置。
前記表示座標算出部は、
前記声質特徴データベースに記憶されている複数の声質特徴の中から任意の２つの声質特徴からなる声質特徴の組を抽出し、抽出された声質特徴の組毎に当該組に含まれる声質特徴を構成する音響特徴量を前記重み設定部で設定された重みで重み付けし、重み付け後の前記声質特徴間の距離を算出する声質間距離算出部と、
前記声質間距離算出部により算出された声質特徴間の距離に基づいて、声質特徴間の距離が小さいほど当該距離を算出するのに用いられた声質特徴同士が近くに配置されるように、前記声質特徴データベースに記憶されている前記複数の声質特徴の表示座標を算出する尺度構成部とを有し、
前記表示部は、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、前記尺度構成部で算出された表示座標に表示する
請求項１に記載の声質編集装置。
前記重み設定部は、
前記複数の声質の音響特徴量の重み付けにそれぞれ用いられる複数の重みからなる重み情報を記憶する重み記憶部と、
重み情報を指定する重み指定部と、
前記重み指定部で指定された重み情報を、前記重み記憶部の中から選択することにより、声質の音響特徴量毎の重みを設定する重み選択部とを有する
請求項１に記載の声質編集装置。
前記重み設定部は、
前記声質特徴データベースに記憶されている前記複数の声質特徴のうち、予め選択された２つ以上の声質特徴を記憶する代表声質記憶部と、
前記代表声質記憶部に記憶されている声質特徴をユーザに提示する声質提示部と、
前記声質提示部により提示された声質特徴の中から、声質特徴の組の入力を受け付ける声質特徴組入力部と、
前記入力部により入力された前記声質特徴の組に含まれる声質特徴間の距離が最小となるような複数の声質の音響特徴量の重みを算出する重み算出部とを有する
請求項１に記載の声質編集装置。
前記重み設定部は、
声質の音響特徴量毎に、当該音響特徴量を表す主観的表現を提示する主観的表現提示部と、
前記主観的表現提示部により提示された主観的表現毎に、当該主観的表現に対する重要度の入力を受け付ける重要度入力部と、
前記重要度入力部で受け付けられた重要度に基づいて、当該重要度が高いほど当該重要度に対する声質の音響特徴量の重みが高くなるように重みを決定することにより、声質の音響特徴量毎の重みを算出する重み算出部とを有する
請求項１に記載の声質編集装置。
さらに、ユーザが知っている声質に対応する声質特徴の識別情報を記憶するユーザ情報管理データベースを備え、
前記表示部は、前記声質特徴データベースに記憶されている前記複数の声質特徴のうち、識別情報が前記ユーザ情報管理データベースに記憶されている声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、前記表示座標算出部で算出された表示座標に表示する
請求項１に記載の声質編集装置。
さらに、
ユーザの性別または年齢の入力を受け付ける個人特性入力部と、
ユーザの性別または年齢毎に、当該性別または当該年齢のユーザが知っていると思われる声質の声質特徴の識別情報を記憶するユーザ情報管理データベースとを備え、
前記表示部は、前記声質特徴データベースに記憶されている前記複数の声質特徴のうち、識別情報が前記ユーザ情報管理データベースに記憶されている前記個人特性入力部で受け付けられたユーザの性別または年齢に対応する識別情報と一致する声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、前記表示座標算出部で算出された表示座標に表示する
請求項１に記載の声質編集装置。
声質編集装置により、各々が複数の声質の音響特徴量から構成される複数の声質特徴を編集することにより新たな声質特徴を生成する声質編集方法であって、
前記声質編集装置は、
複数の声質特徴を記憶する声質特徴データベースと、
前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する声質をユーザが想起可能な識別子を記憶する話者属性データベースとを備え、
前記声質編集方法は、
声質の音響特徴量毎に重みを設定するステップと、
前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴を構成する前記複数の音響特徴量と前記設定された重みとに基づいて、当該声質特徴の表示座標を算出するステップと、
前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、表示装置の前記算出された表示座標に表示するステップと、
座標の入力を受け付けるステップと、
前記声質特徴データベースに記憶されている前記複数の声質特徴の一部または全部の各々について、当該声質特徴の表示座標と前記受け付けられた座標との間の距離を算出し、算出された距離の比率に基づいて前記複数の声質特徴の一部または全部の音響特徴量を混合することにより新たな声質特徴を生成するステップと
を含み、
前記算出するステップでは、前記設定するステップにおいて設定された重みがより大きい音響特徴量同士が類似するほど、当該音響特徴量を有する声質特徴同士が近くに配置されるように、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴の表示座標を算出する
声質編集方法。
各々が複数の声質の音響特徴量から構成される複数の声質特徴を編集することにより新たな声質特徴を生成するコンピュータ実行可能なプログラムであって、
前記コンピュータは、
複数の声質特徴を記憶する声質特徴データベースと、
前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する声質をユーザが想起可能な識別子を記憶する話者属性データベースとを備え、
声質の音響特徴量毎に重みを設定するステップと、
前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴を構成する前記複数の音響特徴量と前記設定された重みとに基づいて、当該声質特徴の表示座標を算出するステップと、
前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、表示装置の前記算出された表示座標に表示するステップと、
座標の入力を受け付けるステップと、
前記声質特徴データベースに記憶されている前記複数の声質特徴の一部または全部の各々について、当該声質特徴の表示座標と前記受け付けられた座標との間の距離を算出し、算出された距離の比率に基づいて前記複数の声質特徴の一部または全部の音響特徴量を混合することにより新たな声質特徴を生成するステップと
をコンピュータに実行させ、
前記算出するステップでは、前記設定するステップにおいて設定された重みがより大きい音響特徴量同士が類似するほど、当該音響特徴量を有する声質特徴同士が近くに配置されるように、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴の表示座標を算出する
プログラム。
各々が複数の声質の音響特徴量から構成される複数の声質特徴を編集することにより新たな声質特徴を生成する声質編集システムであって、
ネットワークを介して相互に接続される第１の端末と、第２の端末と、サーバとを備え、
前記第１の端末および前記第２の端末の各々は、
複数の声質特徴を記憶する声質特徴データベースと、
前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する声質をユーザが想起可能な識別子を記憶する話者属性データベースと、
声質の音響特徴量毎に重みを設定し、前記サーバに送信する重み設定部と、
前記声質特徴データベースに記憶されている複数の声質特徴の中から任意の２つの声質特徴からなる声質特徴の組を抽出し、抽出された声質特徴の組毎に当該組に含まれる声質特徴を構成する音響特徴量を、前記サーバが保持する重みで重み付けし、重み付け後の前記声質特徴間の距離を算出する声質間距離算出部と、
前記声質間距離算出部により算出された声質特徴間の距離に基づいて、声質特徴間の距離が小さいほど当該距離を算出するのに用いられた声質特徴同士が近くに配置されるように、声質特徴データベースに記憶されている前記複数の声質特徴の表示座標を算出する尺度構成部と、
前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、前記尺度構成部で算出された表示座標に表示する表示部と、
座標の入力を受け付ける位置入力部と、
前記声質特徴データベースに記憶されている前記複数の声質特徴の一部または全部の各々について、当該声質特徴の表示座標と前記位置入力部により受け付けられた前記座標との間の距離を算出し、算出された距離の比率に基づいて前記複数の声質特徴の一部または全部の音響特徴量を混合することにより新たな声質特徴を生成する声質混合部とを有し、
前記サーバは、前記第１の端末または前記第２の端末から送信される重みを記憶する重み記憶部を有する
声質編集システム。