JP2013072903A

JP2013072903A - 合成辞書作成装置および合成辞書作成方法

Info

Publication number: JP2013072903A
Application number: JP2011209989A
Authority: JP
Inventors: Kentaro Tachibana; 健太郎橘; Shinko Morita; 眞弘森田; Takehiko Kagoshima; 岳彦籠嶋
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2011-09-26
Filing date: 2011-09-26
Publication date: 2013-04-22
Also published as: CN103021402B; CN103021402A; US9129596B2; US20130080155A1

Abstract

【課題】音声合成辞書の作成効率を向上させる合成辞書作成装置を提供することである。
【解決手段】実施形態の合成辞書作成装置は、提示手段と録音手段と要否判別手段と辞書作成手段と音声合成手段とを備える。提示手段は、文記憶手段に記憶されたＮ個（Ｎは自然数、Ｎ≧２）の文から順次選択された第１の文をユーザに提示する。録音手段は、前記第１の文を読上げたユーザの音声を録音し、この録音波形を前記第１の文と対応付けて記憶する。要否判別手段は、前記録音手段においてＭ個（Ｍは自然数、１≦Ｍ＜Ｎ）の前記第１の文の録音波形が記憶された状態において、音声合成辞書の作成要否を判別する。辞書作成手段は、音声合成辞書の作成が必要と判別された場合、音声合成辞書を作成する。音声合成手段は、前記辞書作成手段で作成された音声合成辞書を用いて、第２の文を合成波形に変換する。
【選択図】図１

Description

本発明の実施形態は、合成辞書作成装置および合成辞書作成方法に関する。

任意のテキストを合成波形に変換する音声合成技術が知られている。音声合成技術を使ってある特定のユーザの声質を再現するためには、そのユーザの音声を大量に録音し、この録音波形を使って音声合成辞書を作成する必要がある。これを実現するために、予め決められた複数の文をユーザに読上げてもらい、それを録音した録音波形を使ってユーザにカスタマイズした音声合成辞書を作成するシステムが提案されている。

しかしながら、上述したシステムでは、音声合成辞書の作成に、予め決められた文を全て読上げた音声の録音波形が必要であり、合成波形の音質を録音の途中段階で確認することができなかった。これにより、合成波形の音質が十分高いにも関わらず、ユーザに録音を継続させる等の状況が生じ、音声合成辞書の作成効率が低下するという問題があった。

米国特許出願公開第２００７／０２３９４５５号明細書

酒向、西本、嵯峨山、""HMM音声合成の話者モデル作成の効率化に関する検討、" 日本音響学会秋季研究発表会講演論文集、Sep. 2006、2-6-3、pp.189-190.

発明が解決しようとする課題は、音声合成辞書の作成効率を向上させる合成辞書作成装置を提供することである。

実施形態の合成辞書作成装置は、提示手段と録音手段と要否判別手段と辞書作成手段と音声合成手段とを備える。提示手段は、文記憶手段に記憶されたＮ個（Ｎは自然数、Ｎ≧２）の文から順次選択された第１の文をユーザに提示する。録音手段は、前記第１の文を読上げたユーザの音声を録音し、この録音波形を前記第１の文と対応付けて記憶する。要否判別手段は、前記録音手段においてＭ個（Ｍは自然数、１≦Ｍ＜Ｎ）の前記第１の文の録音波形が記憶された状態において、音声合成辞書の作成要否を判別する。辞書作成手段は、音声合成辞書の作成が必要と判別された場合、音声合成辞書を作成する。音声合成手段は、前記辞書作成手段で作成された音声合成辞書を用いて、第２の文を合成波形に変換する。

第１の実施形態の合成辞書作成装置を示すブロック図。実施形態の合成辞書作成装置のハードウェア構成を示す図。実施形態の合成辞書作成装置のフローチャート。実施形態の合成辞書作成装置のインタフェースを示す図。第２の実施形態の合成辞書作成装置を示すブロック図。

以下、本発明の実施形態について図面を参照しながら説明する。

（第１の実施形態）
第１の実施形態の合成辞書作成装置は、文を読み上げたユーザの音声を録音し、この録音波形を使ってユーザにカスタマイズした音声合成辞書を作成する装置である。本装置で作成した音声合成辞書を利用した音声合成により、ユーザは自分の声質で任意の文を読上げることができる。

図１は、第１の実施形態にかかる合成辞書作成装置１００を示すブロック図である。本実施形態の合成辞書作成装置は、予め決められたＮ個（Ｎは自然数、Ｎ≧２）の文を記憶する文記憶部１０９と、文記憶部１０９に記憶されたＮ個の文から順次選択された第１の文をユーザに提示する提示部１１０と、第１の文を読上げたユーザの音声を録音し、この録音波形を第１の文と対応付けて記憶する録音部１０１と、第１の文とその録音波形から特徴量を抽出する特徴抽出部１０２と、抽出された特徴量を記憶する特徴量記憶部１０３と、音声合成辞書の作成要否を判別する要否判別部１０４と、要否判別部１０４で音声合成辞書の作成が必要と判別された場合、特徴量を用いて音声合成辞書を作成する辞書作成部１０５と、作成された音声合成辞書を記憶する辞書記憶部１０６と、音声合成辞書を用いて第２の文を合成波形に変換する音声合成部１０７と、合成波形の音質を評価する音質評価部１０８とを備える。

ここで、要否判別部１０４は、録音部１０１においてＭ個（Ｍは自然数、１≦Ｍ＜Ｎ）の第１の文の録音波形が記憶された状態で、つまり、予め決められたＮ個の文の読み上げ音声の録音が完了していない状態で、ユーザからの音声合成辞書の作成指示、上記した変数Ｍ、録音部１０１に記憶された全ての録音波形のデータ量の少なくとも１つに基づいて、音声合成辞書の作成要否を判別する。

また、合成辞書作成装置１００は、音質評価部１０８において合成波形の音質に問題がないと評価された場合、提示部１１０での第１の文の提示を停止し、録音部１０１における音声の録音を停止する。

このように、本実施形態の合成辞書作成装置は、音声合成辞書の作成要否の判別結果に基づいて、録音の途中段階でも、それまでに記憶された録音波形とそれに対応づけられた第１の文を用いて音声合成辞書を作成する。これにより、ユーザは、予め決められたＮ個の文を全て読上げる前に、音声合成辞書で生成した合成波形の音質を確認することができる。

また、本実施形態の合成辞書作成装置は、音質評価部１０８において合成波形の音質に問題がないと評価された場合、ユーザの音声の録音を停止する。これにより、ユーザが必要以上に文を読上げることを回避することができ、音声合成辞書の作成効率が向上する。

（ハードウェア構成）
本実施形態の合成辞書作成装置は、図２に示すような通常のコンピュータを利用したハードウェアで構成されており、装置全体を制御するＣＰＵ（Central Processing Unit）等の制御部２０１と、各種データや各種プログラムを記憶するＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）等の記憶部２０２と、各種データや各種プログラムを記憶するＨＤＤ（Hard Disk Drive）やＣＤ（Compact Disk）ドライブ装置等の外部記憶部２０３と、ユーザの指示入力を受け付けるキーボードやマウスなどの操作部２０４と、外部装置との通信を制御する通信部２０５と、ユーザの発声を取得するマイク２０６と、合成波形を再生して再生音を発生させるスピーカ２０７と、映像を表示するディスプレイ２０９と、これらを接続するバス２０８とを備えている。

このようなハードウェア構成において、制御部２０１がＲＯＭ等の記憶部２０２や外部記憶部２０３に記憶された各種プログラムを実行することにより以下の機能が実現される。

（文記憶部）
文記憶部１０９は、予め決められたＮ個（Ｎは自然数、Ｎ≧２）の文を記憶部２０２あるいは外部記憶部２０３に記憶する。Ｎ個の文は、前後の音素環境、文を形態素解析することで得られる韻律情報、アクセント句のモーラ数・アクセント型・言語情報などのカバレッジを考慮して作成する。これにより、Ｎが少ない場合でも、音質の高い音声合成辞書を生成することができる。

（提示部）
提示部１１０は、文記憶部１０９に記憶されたＮ個の文から順次文を選択し、選択された文を第１の文としてユーザに提示する。ユーザに提示する際は、ディスプレイ２０９に第１の文を表示する。本実施形態の提示部１１０は、音質評価部１０８において、音声合成部１０７で生成された合成波形の音質に問題がないと評価されると、ユーザへの第１の文の提示を停止することができる。

提示部１１０は、文記憶部１０９に記憶されたＮ個の文から音素が重複しない順番で文を選択することができる。また、提示部１１０は、音質評価部１０８で合成波形の音質に問題がないと評価された場合を除き、最終的にはＮ個の文全てを第１の文として選択し、ユーザに提示する。この他にも、提示部１１０は、ユーザが発声し易い簡易な文から順番に第１の文を選択するようにしてもよい。

（録音部）
録音部１０１は、第１の文を読上げたユーザの音声を録音し、この録音波形を第１の文と対応付けて記憶部２０２あるいは外部記憶部２０３に記憶する。ユーザの音声はマイク２０６で取得する。本実施形態の録音部１０１は、音質評価部１０８において、音声合成部１０７で生成された合成波形の音質に問題がないと評価されると、音声の録音を停止することができる。

録音部１０１は、ユーザの音声の録音状態が適切か否かを判別し、不適切と判別された音声を後続の処理に利用しないようにすることができる。例えば、録音したユーザの録音波形から平均パワーや音声区間長を計算し、これらの値が所定の閾値を下回った場合に、録音状態が不適切であると判別することができる。このように、録音状態が不適切な音声を除外し、適切な録音状態で録音された音声のみを記憶することにより、後述の処理で作成される音声合成辞書の精度を高めることができる。

（特徴抽出部）
特徴抽出部１０２は、録音部１０１で記憶された録音波形およびそれに対応づけられた第１の文から特徴量を抽出する。具体的には、特徴抽出部１０２は、録音波形毎又は音声単位毎に韻律情報を抽出する。ここで、音声単位として、単語、音節、アクセント句が挙げられる。また、韻律情報として、ケプストラム、ベクトル量子化データ、基本周波数（F0）、パワー、継続時間が挙げられる。

この他にも特徴抽出部１０２は、第１の文の読みとアクセント型から、音素ラベル情報と言語属性情報を抽出する。

（特徴量記憶部）
特徴量記憶部１０３は、特徴抽出部１０２で抽出された韻律情報、音素ラベル情報、言語属性情報などの特徴量を記憶部２０２あるいは外部記憶部２０３に記憶する。

（要否判別部）
要否判別部１０４は、音声合成辞書の作成要否を判別する。具体的には、録音部１０１においてＭ個（Ｍは自然数、１≦Ｍ＜Ｎ）の第１の文の録音波形が記憶された状態で、つまり、予め決められたＮ個の文の読み上げ音声の録音が完了していない状態で、ユーザからの音声合成辞書の作成指示、上記変数Ｍ、録音部１０１に記憶された全ての録音波形のデータ量の少なくとも１つに基づいて、音声合成辞書の作成要否を判別する。

ユーザからの指示の場合、要否判別部１０４は、キーボードやマウスなどの操作部２０４を介したユーザの所定の操作に応じて音声合成辞書の作成要否を判別する。例えば、ユーザが所定のボタンを押下した場合、音声合成辞書の作成要否を「要」と判別することができる。

録音部１０１で既に録音が終了した第１の文の数を表す変数Ｍを用いる場合、要否判別部１０４は、変数Ｍが所定の閾値を超えたときに、音声合成辞書の作成要否を「要」と判別する。例えば、閾値を５０文と予め設定し、変数Ｍが５０を超えたら音声合成辞書の作成要否を「要」と判別することができる。この他にも、変数Ｍが所定の数増加するたびに、音声合成辞書の作成要否を「要」と判別するようにしてもよい。例えば、変数Ｍが５、１０、１５、・・・といったように５文ずつ増加するたびに、音声合成辞書の作成要否を「要」と判別することができる。

録音部１０１に記憶された全ての録音波形のデータ量を用いる場合、要否判別部１０４は、全ての録音波形のデータ量が所定の閾値を超えたときに、音声合成辞書の作成要否を「要」と判別する。データ量には、全録音波形の時間長や録音部１０１で全録音波形が占める記憶容量のサイズなどを用いることができる。例えば、データ量を時間長とし閾値を５分と設定した場合、データ量が５分を超えたら音声合成辞書の作成要否を「要」と判別する。この他にも、データ量が所定の量増加するたびに、音声合成辞書の作成要否を「要」と判別してもよい。例えば、データ量が１分増加するたびに、音声合成辞書の作成要否を「要」と判別することができる。

更に、要否判別部１０４は、特徴量記憶部１０３に記憶された特徴量のデータ量に基づいて、音声合成辞書の要否判断をすることもできる。

このように、本実施形態の要否判別部１０４は、録音の途中段階でも音声合成辞書の作成要否を判別する。これにより、後述する辞書作成部１０５において、予め決められたＮ個の文全てを読上げる前に音声合成辞書を作成することができる。

（辞書作成部）
辞書作成部１０５は、要否判別部１０４で音声合成辞書の作成要否が「要」と判別された場合、特徴量記憶部１０３に記憶された特徴量を用いて音声合成辞書を作成する。本実施形態の辞書作成部１０５は、要否判別部１０４で作成要否が「要」と判別されるたびに音声合成辞書を作成する。これにより、後述する辞書記憶部１０６には、常に最新の録音波形を利用して作成された音声合成辞書を記憶することができる。

音声合成辞書の作成方法としては、適応方式、学習方式が挙げられる。適応方式は、事前に作成した不特定話者の音声合成辞書を、新たに抽出された特徴量を用いて目標となるユーザの特性に近づける方式である。学習方式は、抽出された特徴量から音声合成辞書を新規に作成する方式である。

一般に、適応方式は少量の特徴量からでも音声合成辞書を作成することができる。また、学習方式は大量な特徴量を利用できる場合、ユーザの声質を高い精度で再現することができる。したがって、辞書作成部１０５は、特徴量記憶部１０３に記憶された特徴量のデータ量が所定の閾値を下回る場合は適応方式を、閾値以上となる場合は学習方式を用いて音声合成辞書を作成することができる。また、辞書作成部１０５は、上述した変数Ｍ、もしくは全録音波形のデータ量が所定の閾値を下回った場合は適応方式を、閾値以上となる場合は学習方式を用いて音声合成辞書を作成するようにしてもよい。例えば、閾値を５０文に設定し、Ｍが５０より小さい場合は適応方式で、Ｍが５０以上となる場合は学習方式で音声合成辞書を作成することができる。

音声合成の方式が素片接続型である場合、音声合成辞書は音声の韻律を制御する韻律制御辞書と音声の声質を表現する音声素片辞書とに分けられる。これらの辞書は個別に作成することができ、例えば、韻律制御辞書は適応方式を用いて、音声素片辞書は逐次学習方式を用いてそれぞれ作成することができる。また、音声合成の方式がＨＭＭ等を用いた統計的な手法である場合、適応方式を用いることにより、ユーザにカスタマイズした音声合成辞書を短時間で作成することができる。

このように、辞書作成部１０５は、特徴量のデータ量、変数Ｍ、全録音波形のデータ量のいずれか１つに基づいて、学習方式を切り替える。これにより、録音の進捗状況に適した学習方式で音声合成辞書を作成することができる。

（辞書記憶部）
辞書記憶部１０６は、辞書作成部１０５で作成された音声合成辞書を記憶部２０２あるいは外部記憶部２０３に記憶する。

（音声合成部）
音声合成部１０７は、操作部２０４を介したユーザからの要求に応じて、辞書記憶部１０６に記憶された音声合成辞書を用いて、第２の文を合成波形に変換する。音声合成部１０７が生成した合成波形は、スピーカ２０７から再生される。本実施形態における第２の文には、音声合成での波形生成が難しい文など予め決められた文を用いる。

音声合成部１０７は、特徴量のデータ量、変数Ｍ、全録音波形のデータ量のいずれか１つに基づいて、合成波形の生成の要否を判別することもできる。例えば、変数Ｍが１０文増加するたびに、あるいは全録音波形のデータ量が１０分増加するたびに合成波形を生成してもよい。また、辞書記憶部１０６に記憶される音声合成辞書が更新されるたびに合成波形を生成するようにしてもよい。

（音質評価部）
音質評価部１０８は、音声合成部１０７で生成された合成波形の音質を評価する。評価の結果、音質に問題がない場合、音質評価部１０８は、提示部１１０にユーザへの第１の文の提示を停止する信号を、録音部１０１に音声の録音を停止する信号をそれぞれ送信することができる。

本実施形態の音質評価部１０８は、操作部２０４を介して音声合成に対するユーザの評価を取得する。例えば、音声合成部１０７で試聴した合成波形の音質が十分であるとユーザが評価した場合、音質評価部１０８は、合成波形の音質に問題はないとして、音声の録音停止を指示することができる。

このように、音質評価部１０８は、合成波形の音質に問題がないと評価した場合、ユーザの音声の録音を停止するための信号を送信する。これにより、ユーザが必要以上に第１の文を読上げることを回避することができ、音声合成辞書の作成効率を向上させることができる。

（フローチャート）
図３のフローチャートを利用して、本実施形態にかかる合成辞書作成装置の処理を説明する。

まず、ステップＳ１では、合成辞書作成装置１００は、予め決められたＮ個（Ｎは自然数、Ｎ≧２）の文の読み上げ音声の録音が終了しているか否かを判別する。終了している場合は、ステップＳ１０に移行して音声合成辞書を作成する。終了していない場合は、ステップＳ２へ移行する。初期状態では、ステップＳ２への移行が選択される。

ステップＳ２では、提示部１１０は、文記憶部１０９に記憶されたＮ個の文から第１の文を選択し、ユーザに提示する。

ステップＳ３では、録音部１０１は、第１の文を読上げたユーザの音声を録音し、その録音音声を第１の文と対応付けて記憶する。このとき、録音波形の録音状態も確認する。

ステップＳ４では、特徴抽出部１０２は、録音部１０１で記憶された録音波形およびそれに対応づけられた第１の文から特徴量を抽出し、特徴量記憶部１０３に記憶する。

ステップＳ５では、要否判別部１０４は、音声合成辞書の作成要否を判別する。本実施形態の要否判別部１０４は、ユーザからの音声合成辞書の作成指示、変数Ｍ、全録音波形のデータ量の少なくとも１つに基づいて作成要否を判別する。「不要」と判別された場合はステップＳ１へ移行して録音を継続する。「要」と判別された場合はステップＳ６へ移行する。

ステップＳ６では、辞書作成部１０５は、特徴量記憶部１０３に記憶された特徴量を用いて音声合成辞書を作成し、作成した音声合成辞書を辞書記憶部１０６に記憶する。

ステップＳ７では、音声合成部１０７は、音声合成辞書を用いて合成波形を生成し、スピーカ２０７から再生する。

ステップＳ８では、音質評価部１０８は、生成された合成波形の音質を評価する。ユーザが合成波形を試聴した結果、音質に問題がないと評価した場合は、ステップＳ９に移行する。一方、問題があると評価した場合は、ステップＳ１に移行して録音を継続する。

ステップＳ９では、合成辞書作成装置１００は、音声の録音を終了する。

（インタフェース）
図４に、本実施形態の合成辞書作成装置のインタフェースの一例を示す。

同図の４０２は、読上げ文表示欄であり、提示部１１０が選択した第１の文を表示する。ユーザが録音開始ボタン４０４を押下すると、合成辞書作成装置１００は、音声の録音を開始する。録音部１０１は、ユーザの音声の録音状態を判別する。この例では、以下の３つの基準の何れかに該当する場合、録音状態が不適切と判別する。

１．録音波形の音声区間における平均パワーが所定の閾値を下回る
２．録音波形の短時間パワーの最大値が所定の閾値を上回る／音声区間における録音波形の短時間パワーの最小値が所定の閾値を下回る
３．録音波形の長さが所定の時間長（例えば、２０ｍｓ）より短い
その他の場合は、録音状態が適切と判別する。

録音状態が不適切と判別された場合、合成辞書作成装置１００は、ユーザに対してその旨を通知する。例えば、上記の１の条件を満たしていない場合、「マイクの音量を上げるか、録音デバイスの音量を上げてください。」といったメッセージをメッセージ表示欄４０１に表示する。

ユーザが合成音確認ボタン４０６を押下すると、音声合成部１０７は合成波形の生成要求があったものと判別し、音声合成辞書を用いて生成した合成波形をスピーカから再生する。

なお、ユーザが合成音確認ボタン４０６を押下した時点において、辞書記憶部１０６に音声合成辞書が記憶されていない場合は、要否判別部１０４は、音声合成辞書作成が「要」になったと判別し、その信号を辞書作成部１０５に送信する。そして、音声合成部１０７は、辞書作成部１０５での音声合成辞書作成が終了した後、第２の文を合成波形に変換する。

ユーザは、スピーカから再生された合成波形の音質を確認し、音質に問題がないと評価した場合は、録音終了ボタン４０５を押下する。これにより、合成辞書作成装置１００は、音声の録音を終了する。録音を継続する場合は、次に選択された第１の文を読上げ文表示欄４０２に提示する。

（第２の実施形態）
図５は、第２の実施形態にかかる合成辞書作成装置５００を示すブロック図である。第１の実施形態にかかる音声合成作成装置１００との違いは、音質評価部５０１が、録音部１０１に記憶された録音波形と音声合成部１０７が生成した合成波形との類似度に基づいて、合成波形の音質を評価する点である。

ここで、音声合成部１０７における第２の文には、記憶部１０１に記憶された録音波形に対応付けられた第１の文を用いる。そして、この第１の文の録音波形と、第２の文から生成した合成波形との類似度を計算する。このように、録音波形と合成波形とで発声内容を揃えることにより、発話内容の違いを排除した類似性を評価することができる。この録音波形は実際にユーザが発声した音声であり、これとの類似度が高くなるということは、音声合成辞書を用いて生成した合成波形がユーザに音声に近づいていることを意味する。

音質評価部５０１は、録音波形と合成波形のスペクトル歪、Ｆ０パターンの２乗誤差を類似度として用いる。スペクトル歪あるいはＦ０パターンの２乗誤差が所定の閾値以上となる場合（類似度が低い場合）は、音声合成辞書の性能が十分ではないため音声の録音を継続する。一方、閾値を下回っている場合（類似度が高い場合）は、音声合成辞書の性能が十分なため音声の録音を停止する。

本実施形態の音質評価部５０１は、合成波形の音質を客観的な指標である類似度を用いて評価する。音の伝播経路の違いにより、ユーザは、発声している際に聞こえる自分の声と、スピーカから再生された自分の声とが異なる声質であると判断することがある。本実施形態のように客観的な指標を用いることにより、音声合成部１０７で生成された合成波形の音質を正しく評価することができる。結果として、録音を継続する必要性を正しく判別することができ、音声合成辞書の作成効率が向上する。

（変形例１）
本実施形態の音声合成辞書作成装置では、予め決められたＮ個の文から順次選択された第１の文をユーザに提示していたが、ユーザに提示する第１の文は複数の文であってもよい。つまり、複数の第１の文からなる文章をユーザに提示してもよい。また、Ｎ個の文も複数の文からなる文章として文記憶部１０９に記憶してもよい。

また、本実施形態の音声合成辞書作成装置では、変数Ｍや全録音波形のデータ量に基づいて、音声合成辞書の作成要否を判別していたが、録音部１０１で録音状態が適切な読み上げ音声に対する変数Ｍや全録音波形のデータ量に基づいて、音声合成辞書の作成要否を判別することもできる。つまり、要否判別部１０４は、録音が適切に終了した第１の文の数、もしくは、録音状態が適切な全録音波形のデータ量に基づいて、音声合成辞書の作成要否を判別する。

（効果）
以上述べた少なくとも一つの実施形態の合成辞書作成装置によれば、音声合成辞書の作成要否の判別結果に基づいて、録音の途中段階でも、それまでに記憶された録音波形を用いて音声合成辞書を作成する。これにより、ユーザは、予め決められた文全てを読上げる前に、音声合成辞書で生成された合成波形の音質を確認することができる。

また、以上述べた少なくとも一つの実施形態の合成辞書作成装置は、合成波形の音質に問題がないと評価された場合、ユーザの音声の録音を停止する。これにより、ユーザが必要以上に文を読上げることを回避することができ、音声合成辞書の作成効率が向上する。

なお、以上説明した本実施形態における一部機能もしくは全ての機能は、ソフトウェア処理により実現可能である。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００、５００合成辞書作成装置
１０１録音部
１０２特徴抽出部
１０３特徴量記憶部
１０４要否判別部
１０５辞書作成部
１０６辞書記憶部
１０７音声合成部
１０８、５０１音質評価部
１０９文記憶部
１１０提示部
２０１制御部
２０２記憶部
２０３外部記憶部
２０４操作部
２０５通信部
２０６マイク
２０７スピーカ
２０８バス
４０１メッセージ表示欄
４０２読み上げ文表示欄
４０４録音開始ボタン
４０５録音終了ボタン
４０６合成音確認ボタン

Claims

予め決められたＮ個（Ｎは自然数、Ｎ≧２）の文を記憶する文記憶手段と、
前記文記憶手段に記憶された前記Ｎ個の文から順次選択された第１の文をユーザに提示する提示手段と、
前記第１の文を読上げたユーザの音声を録音し、この録音波形を前記第１の文と対応付けて記憶する録音手段と、
前記録音手段においてＭ個（Ｍは自然数、１≦Ｍ＜Ｎ）の前記第１の文の録音波形が記憶された状態において、ユーザからの音声合成辞書の作成指示、前記Ｍ、前記録音手段に記憶された全ての前記録音波形のデータ量の少なくとも１つに基づいて、音声合成辞書の作成要否を判別する要否判別手段と、
前記要否判別手段で音声合成辞書の作成が必要と判別された場合、前記録音手段に記憶された前記録音波形およびそれに対応付けられた前記第１の文を用いて、音声合成辞書を作成する辞書作成手段と、
前記辞書作成手段で作成された音声合成辞書を用いて、第２の文を合成波形に変換する音声合成手段と、
を備える合成辞書作成装置。
前記合成波形の音質を評価する音質評価手段を更に備える請求項１記載の合成辞書作成装置。
前記音質評価手段において前記合成波形の音質に問題がないと評価された場合、前記提示手段が前記第１の文をユーザに提示することを停止する請求項２記載の合成辞書作成装置。
前記音質評価手段において前記合成波形の音質に問題がないと評価された場合、前記録音手段が前記ユーザの音声の録音を停止する請求項２乃至請求項３記載の合成辞書作成装置。
前記音声合成手段における前記第２の文が、前記文記憶手段に記憶された前記Ｎ個の文の何れかの文であり、
前記音質評価手段が、前記録音手段に記憶された前記第２の文に対応する前記録音波形と前記合成波形との類似度に基づいて、前記合成波形の音質を評価する請求項２記載の合成辞書作成装置。
前記音質評価手段が、前記合成波形を試聴したユーザからの前記合成波形の評価を取得する請求項２記載の合成辞書作成装置。
前記辞書作成手段が、前記Ｍもしくは前記データ量に基づいて、音声合成辞書の作成方法を切り替える請求項１記載の合成辞書作成装置。
前記辞書作成手段が、前記Ｍもしくは前記データ量が所定の閾値を下回る場合、適応方式を用いて音声合成辞書を作成する請求項７記載の合成辞書作成装置。
前記録音手段が、前記ユーザの音声の録音状態を判別し、適切に録音されたと判別された録音波形を前記第１の文と対応付けて記憶する請求項１記載の合成辞書作成装置。
文記憶手段に記憶されたＮ個（Ｎは自然数、Ｎ≧２）の文から順次選択された第１の文をユーザに提示する提示ステップと、
前記第１の文を読上げたユーザの音声を録音し、この録音波形を前記第１の文と対応付けて記憶する録音ステップと、
前記録音ステップにおいてＭ個（Ｍは自然数、１≦Ｍ＜Ｎ）の前記第１の文の録音波形が記憶された状態において、ユーザからの音声合成辞書の作成指示、前記Ｍ、前記録音ステップにおいて記憶された全ての前記録音波形のデータ量の少なくとも１つに基づいて、音声合成辞書の作成要否を判別する要否判別ステップと、
前記要否判別ステップで音声合成辞書の作成が必要と判別された場合、前記録音ステップにおいて記憶された前記録音波形およびそれに対応付けられた前記第１の文を用いて、音声合成辞書を作成する辞書作成ステップと、
前記辞書作成ステップで作成された音声合成辞書を用いて、第２の文を合成波形に変換する音声合成ステップと、
を備える合成辞書作成方法。