JP2013072903A - 合成辞書作成装置および合成辞書作成方法 - Google Patents

合成辞書作成装置および合成辞書作成方法 Download PDF

Info

Publication number
JP2013072903A
JP2013072903A JP2011209989A JP2011209989A JP2013072903A JP 2013072903 A JP2013072903 A JP 2013072903A JP 2011209989 A JP2011209989 A JP 2011209989A JP 2011209989 A JP2011209989 A JP 2011209989A JP 2013072903 A JP2013072903 A JP 2013072903A
Authority
JP
Japan
Prior art keywords
recording
sentence
dictionary
speech synthesis
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2011209989A
Other languages
English (en)
Inventor
Kentaro Tachibana
健太郎 橘
Shinko Morita
眞弘 森田
Takehiko Kagoshima
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2011209989A priority Critical patent/JP2013072903A/ja
Priority to CN201210058572.6A priority patent/CN103021402B/zh
Priority to US13/535,782 priority patent/US9129596B2/en
Publication of JP2013072903A publication Critical patent/JP2013072903A/ja
Abandoned legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Abstract

【課題】音声合成辞書の作成効率を向上させる合成辞書作成装置を提供することである。
【解決手段】実施形態の合成辞書作成装置は、提示手段と録音手段と要否判別手段と辞書作成手段と音声合成手段とを備える。提示手段は、文記憶手段に記憶されたN個(Nは自然数、N≧2)の文から順次選択された第1の文をユーザに提示する。録音手段は、前記第1の文を読上げたユーザの音声を録音し、この録音波形を前記第1の文と対応付けて記憶する。要否判別手段は、前記録音手段においてM個(Mは自然数、1≦M<N)の前記第1の文の録音波形が記憶された状態において、音声合成辞書の作成要否を判別する。辞書作成手段は、音声合成辞書の作成が必要と判別された場合、音声合成辞書を作成する。音声合成手段は、前記辞書作成手段で作成された音声合成辞書を用いて、第2の文を合成波形に変換する。
【選択図】図1

Description

本発明の実施形態は、合成辞書作成装置および合成辞書作成方法に関する。
任意のテキストを合成波形に変換する音声合成技術が知られている。音声合成技術を使ってある特定のユーザの声質を再現するためには、そのユーザの音声を大量に録音し、この録音波形を使って音声合成辞書を作成する必要がある。これを実現するために、予め決められた複数の文をユーザに読上げてもらい、それを録音した録音波形を使ってユーザにカスタマイズした音声合成辞書を作成するシステムが提案されている。
しかしながら、上述したシステムでは、音声合成辞書の作成に、予め決められた文を全て読上げた音声の録音波形が必要であり、合成波形の音質を録音の途中段階で確認することができなかった。これにより、合成波形の音質が十分高いにも関わらず、ユーザに録音を継続させる等の状況が生じ、音声合成辞書の作成効率が低下するという問題があった。
米国特許出願公開第2007/0239455号明細書
酒向、西本、 嵯峨山、""HMM音声合成の話者モデル作成の効率化に関する検討、" 日本音響学会秋季研究発表会講演論文集、Sep. 2006、2-6-3、pp.189-190.
発明が解決しようとする課題は、音声合成辞書の作成効率を向上させる合成辞書作成装置を提供することである。
実施形態の合成辞書作成装置は、提示手段と録音手段と要否判別手段と辞書作成手段と音声合成手段とを備える。提示手段は、文記憶手段に記憶されたN個(Nは自然数、N≧2)の文から順次選択された第1の文をユーザに提示する。録音手段は、前記第1の文を読上げたユーザの音声を録音し、この録音波形を前記第1の文と対応付けて記憶する。要否判別手段は、前記録音手段においてM個(Mは自然数、1≦M<N)の前記第1の文の録音波形が記憶された状態において、音声合成辞書の作成要否を判別する。辞書作成手段は、音声合成辞書の作成が必要と判別された場合、音声合成辞書を作成する。音声合成手段は、前記辞書作成手段で作成された音声合成辞書を用いて、第2の文を合成波形に変換する。
第1の実施形態の合成辞書作成装置を示すブロック図。 実施形態の合成辞書作成装置のハードウェア構成を示す図。 実施形態の合成辞書作成装置のフローチャート。 実施形態の合成辞書作成装置のインタフェースを示す図。 第2の実施形態の合成辞書作成装置を示すブロック図。
以下、本発明の実施形態について図面を参照しながら説明する。
(第1の実施形態)
第1の実施形態の合成辞書作成装置は、文を読み上げたユーザの音声を録音し、この録音波形を使ってユーザにカスタマイズした音声合成辞書を作成する装置である。本装置で作成した音声合成辞書を利用した音声合成により、ユーザは自分の声質で任意の文を読上げることができる。
図1は、第1の実施形態にかかる合成辞書作成装置100を示すブロック図である。本実施形態の合成辞書作成装置は、予め決められたN個(Nは自然数、N≧2)の文を記憶する文記憶部109と、文記憶部109に記憶されたN個の文から順次選択された第1の文をユーザに提示する提示部110と、第1の文を読上げたユーザの音声を録音し、この録音波形を第1の文と対応付けて記憶する録音部101と、第1の文とその録音波形から特徴量を抽出する特徴抽出部102と、抽出された特徴量を記憶する特徴量記憶部103と、音声合成辞書の作成要否を判別する要否判別部104と、要否判別部104で音声合成辞書の作成が必要と判別された場合、特徴量を用いて音声合成辞書を作成する辞書作成部105と、作成された音声合成辞書を記憶する辞書記憶部106と、音声合成辞書を用いて第2の文を合成波形に変換する音声合成部107と、合成波形の音質を評価する音質評価部108とを備える。
ここで、要否判別部104は、録音部101においてM個(Mは自然数、1≦M<N)の第1の文の録音波形が記憶された状態で、つまり、予め決められたN個の文の読み上げ音声の録音が完了していない状態で、ユーザからの音声合成辞書の作成指示、上記した変数M、録音部101に記憶された全ての録音波形のデータ量の少なくとも1つに基づいて、音声合成辞書の作成要否を判別する。
また、合成辞書作成装置100は、音質評価部108において合成波形の音質に問題がないと評価された場合、提示部110での第1の文の提示を停止し、録音部101における音声の録音を停止する。
このように、本実施形態の合成辞書作成装置は、音声合成辞書の作成要否の判別結果に基づいて、録音の途中段階でも、それまでに記憶された録音波形とそれに対応づけられた第1の文を用いて音声合成辞書を作成する。これにより、ユーザは、予め決められたN個の文を全て読上げる前に、音声合成辞書で生成した合成波形の音質を確認することができる。
また、本実施形態の合成辞書作成装置は、音質評価部108において合成波形の音質に問題がないと評価された場合、ユーザの音声の録音を停止する。これにより、ユーザが必要以上に文を読上げることを回避することができ、音声合成辞書の作成効率が向上する。
(ハードウェア構成)
本実施形態の合成辞書作成装置は、図2に示すような通常のコンピュータを利用したハードウェアで構成されており、装置全体を制御するCPU(Central Processing Unit)等の制御部201と、各種データや各種プログラムを記憶するROM(Read Only Memory)やRAM(Random Access Memory)等の記憶部202と、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の外部記憶部203と、ユーザの指示入力を受け付けるキーボードやマウスなどの操作部204と、外部装置との通信を制御する通信部205と、ユーザの発声を取得するマイク206と、合成波形を再生して再生音を発生させるスピーカ207と、映像を表示するディスプレイ209と、これらを接続するバス208とを備えている。
このようなハードウェア構成において、制御部201がROM等の記憶部202や外部記憶部203に記憶された各種プログラムを実行することにより以下の機能が実現される。
(文記憶部)
文記憶部109は、予め決められたN個(Nは自然数、N≧2)の文を記憶部202あるいは外部記憶部203に記憶する。N個の文は、前後の音素環境、文を形態素解析することで得られる韻律情報、アクセント句のモーラ数・アクセント型・言語情報などのカバレッジを考慮して作成する。これにより、Nが少ない場合でも、音質の高い音声合成辞書を生成することができる。
(提示部)
提示部110は、文記憶部109に記憶されたN個の文から順次文を選択し、選択された文を第1の文としてユーザに提示する。ユーザに提示する際は、ディスプレイ209に第1の文を表示する。本実施形態の提示部110は、音質評価部108において、音声合成部107で生成された合成波形の音質に問題がないと評価されると、ユーザへの第1の文の提示を停止することができる。
提示部110は、文記憶部109に記憶されたN個の文から音素が重複しない順番で文を選択することができる。また、提示部110は、音質評価部108で合成波形の音質に問題がないと評価された場合を除き、最終的にはN個の文全てを第1の文として選択し、ユーザに提示する。この他にも、提示部110は、ユーザが発声し易い簡易な文から順番に第1の文を選択するようにしてもよい。
(録音部)
録音部101は、第1の文を読上げたユーザの音声を録音し、この録音波形を第1の文と対応付けて記憶部202あるいは外部記憶部203に記憶する。ユーザの音声はマイク206で取得する。本実施形態の録音部101は、音質評価部108において、音声合成部107で生成された合成波形の音質に問題がないと評価されると、音声の録音を停止することができる。
録音部101は、ユーザの音声の録音状態が適切か否かを判別し、不適切と判別された音声を後続の処理に利用しないようにすることができる。例えば、録音したユーザの録音波形から平均パワーや音声区間長を計算し、これらの値が所定の閾値を下回った場合に、録音状態が不適切であると判別することができる。このように、録音状態が不適切な音声を除外し、適切な録音状態で録音された音声のみを記憶することにより、後述の処理で作成される音声合成辞書の精度を高めることができる。
(特徴抽出部)
特徴抽出部102は、録音部101で記憶された録音波形およびそれに対応づけられた第1の文から特徴量を抽出する。具体的には、特徴抽出部102は、録音波形毎又は音声単位毎に韻律情報を抽出する。ここで、音声単位として、単語、音節、アクセント句が挙げられる。また、韻律情報として、ケプストラム、ベクトル量子化データ、基本周波数(F0)、パワー、継続時間が挙げられる。
この他にも特徴抽出部102は、第1の文の読みとアクセント型から、音素ラベル情報と言語属性情報を抽出する。
(特徴量記憶部)
特徴量記憶部103は、特徴抽出部102で抽出された韻律情報、音素ラベル情報、言語属性情報などの特徴量を記憶部202あるいは外部記憶部203に記憶する。
(要否判別部)
要否判別部104は、音声合成辞書の作成要否を判別する。具体的には、録音部101においてM個(Mは自然数、1≦M<N)の第1の文の録音波形が記憶された状態で、つまり、予め決められたN個の文の読み上げ音声の録音が完了していない状態で、ユーザからの音声合成辞書の作成指示、上記変数M、録音部101に記憶された全ての録音波形のデータ量の少なくとも1つに基づいて、音声合成辞書の作成要否を判別する。
ユーザからの指示の場合、要否判別部104は、キーボードやマウスなどの操作部204を介したユーザの所定の操作に応じて音声合成辞書の作成要否を判別する。例えば、ユーザが所定のボタンを押下した場合、音声合成辞書の作成要否を「要」と判別することができる。
録音部101で既に録音が終了した第1の文の数を表す変数Mを用いる場合、要否判別部104は、変数Mが所定の閾値を超えたときに、音声合成辞書の作成要否を「要」と判別する。例えば、閾値を50文と予め設定し、変数Mが50を超えたら音声合成辞書の作成要否を「要」と判別することができる。この他にも、変数Mが所定の数増加するたびに、音声合成辞書の作成要否を「要」と判別するようにしてもよい。例えば、変数Mが5、10、15、・・・といったように5文ずつ増加するたびに、音声合成辞書の作成要否を「要」と判別することができる。
録音部101に記憶された全ての録音波形のデータ量を用いる場合、要否判別部104は、全ての録音波形のデータ量が所定の閾値を超えたときに、音声合成辞書の作成要否を「要」と判別する。データ量には、全録音波形の時間長や録音部101で全録音波形が占める記憶容量のサイズなどを用いることができる。例えば、データ量を時間長とし閾値を5分と設定した場合、データ量が5分を超えたら音声合成辞書の作成要否を「要」と判別する。この他にも、データ量が所定の量増加するたびに、音声合成辞書の作成要否を「要」と判別してもよい。例えば、データ量が1分増加するたびに、音声合成辞書の作成要否を「要」と判別することができる。
更に、要否判別部104は、特徴量記憶部103に記憶された特徴量のデータ量に基づいて、音声合成辞書の要否判断をすることもできる。
このように、本実施形態の要否判別部104は、録音の途中段階でも音声合成辞書の作成要否を判別する。これにより、後述する辞書作成部105において、予め決められたN個の文全てを読上げる前に音声合成辞書を作成することができる。
(辞書作成部)
辞書作成部105は、要否判別部104で音声合成辞書の作成要否が「要」と判別された場合、特徴量記憶部103に記憶された特徴量を用いて音声合成辞書を作成する。本実施形態の辞書作成部105は、要否判別部104で作成要否が「要」と判別されるたびに音声合成辞書を作成する。これにより、後述する辞書記憶部106には、常に最新の録音波形を利用して作成された音声合成辞書を記憶することができる。
音声合成辞書の作成方法としては、適応方式、学習方式が挙げられる。適応方式は、事前に作成した不特定話者の音声合成辞書を、新たに抽出された特徴量を用いて目標となるユーザの特性に近づける方式である。学習方式は、抽出された特徴量から音声合成辞書を新規に作成する方式である。
一般に、適応方式は少量の特徴量からでも音声合成辞書を作成することができる。また、学習方式は大量な特徴量を利用できる場合、ユーザの声質を高い精度で再現することができる。したがって、辞書作成部105は、特徴量記憶部103に記憶された特徴量のデータ量が所定の閾値を下回る場合は適応方式を、閾値以上となる場合は学習方式を用いて音声合成辞書を作成することができる。また、辞書作成部105は、上述した変数M、もしくは全録音波形のデータ量が所定の閾値を下回った場合は適応方式を、閾値以上となる場合は学習方式を用いて音声合成辞書を作成するようにしてもよい。例えば、閾値を50文に設定し、Mが50より小さい場合は適応方式で、Mが50以上となる場合は学習方式で音声合成辞書を作成することができる。
音声合成の方式が素片接続型である場合、音声合成辞書は音声の韻律を制御する韻律制御辞書と音声の声質を表現する音声素片辞書とに分けられる。これらの辞書は個別に作成することができ、例えば、韻律制御辞書は適応方式を用いて、音声素片辞書は逐次学習方式を用いてそれぞれ作成することができる。また、音声合成の方式がHMM等を用いた統計的な手法である場合、適応方式を用いることにより、ユーザにカスタマイズした音声合成辞書を短時間で作成することができる。
このように、辞書作成部105は、特徴量のデータ量、変数M、全録音波形のデータ量のいずれか1つに基づいて、学習方式を切り替える。これにより、録音の進捗状況に適した学習方式で音声合成辞書を作成することができる。
(辞書記憶部)
辞書記憶部106は、辞書作成部105で作成された音声合成辞書を記憶部202あるいは外部記憶部203に記憶する。
(音声合成部)
音声合成部107は、操作部204を介したユーザからの要求に応じて、辞書記憶部106に記憶された音声合成辞書を用いて、第2の文を合成波形に変換する。音声合成部107が生成した合成波形は、スピーカ207から再生される。本実施形態における第2の文には、音声合成での波形生成が難しい文など予め決められた文を用いる。
音声合成部107は、特徴量のデータ量、変数M、全録音波形のデータ量のいずれか1つに基づいて、合成波形の生成の要否を判別することもできる。例えば、変数Mが10文増加するたびに、あるいは全録音波形のデータ量が10分増加するたびに合成波形を生成してもよい。また、辞書記憶部106に記憶される音声合成辞書が更新されるたびに合成波形を生成するようにしてもよい。
(音質評価部)
音質評価部108は、音声合成部107で生成された合成波形の音質を評価する。評価の結果、音質に問題がない場合、音質評価部108は、提示部110にユーザへの第1の文の提示を停止する信号を、録音部101に音声の録音を停止する信号をそれぞれ送信することができる。
本実施形態の音質評価部108は、操作部204を介して音声合成に対するユーザの評価を取得する。例えば、音声合成部107で試聴した合成波形の音質が十分であるとユーザが評価した場合、音質評価部108は、合成波形の音質に問題はないとして、音声の録音停止を指示することができる。
このように、音質評価部108は、合成波形の音質に問題がないと評価した場合、ユーザの音声の録音を停止するための信号を送信する。これにより、ユーザが必要以上に第1の文を読上げることを回避することができ、音声合成辞書の作成効率を向上させることができる。
(フローチャート)
図3のフローチャートを利用して、本実施形態にかかる合成辞書作成装置の処理を説明する。
まず、ステップS1では、合成辞書作成装置100は、予め決められたN個(Nは自然数、N≧2)の文の読み上げ音声の録音が終了しているか否かを判別する。終了している場合は、ステップS10に移行して音声合成辞書を作成する。終了していない場合は、ステップS2へ移行する。初期状態では、ステップS2への移行が選択される。
ステップS2では、提示部110は、文記憶部109に記憶されたN個の文から第1の文を選択し、ユーザに提示する。
ステップS3では、録音部101は、第1の文を読上げたユーザの音声を録音し、その録音音声を第1の文と対応付けて記憶する。このとき、録音波形の録音状態も確認する。
ステップS4では、特徴抽出部102は、録音部101で記憶された録音波形およびそれに対応づけられた第1の文から特徴量を抽出し、特徴量記憶部103に記憶する。
ステップS5では、要否判別部104は、音声合成辞書の作成要否を判別する。本実施形態の要否判別部104は、ユーザからの音声合成辞書の作成指示、変数M、全録音波形のデータ量の少なくとも1つに基づいて作成要否を判別する。「不要」と判別された場合はステップS1へ移行して録音を継続する。「要」と判別された場合はステップS6へ移行する。
ステップS6では、辞書作成部105は、特徴量記憶部103に記憶された特徴量を用いて音声合成辞書を作成し、作成した音声合成辞書を辞書記憶部106に記憶する。
ステップS7では、音声合成部107は、音声合成辞書を用いて合成波形を生成し、スピーカ207から再生する。
ステップS8では、音質評価部108は、生成された合成波形の音質を評価する。ユーザが合成波形を試聴した結果、音質に問題がないと評価した場合は、ステップS9に移行する。一方、問題があると評価した場合は、ステップS1に移行して録音を継続する。
ステップS9では、合成辞書作成装置100は、音声の録音を終了する。
(インタフェース)
図4に、本実施形態の合成辞書作成装置のインタフェースの一例を示す。
同図の402は、読上げ文表示欄であり、提示部110が選択した第1の文を表示する。ユーザが録音開始ボタン404を押下すると、合成辞書作成装置100は、音声の録音を開始する。録音部101は、ユーザの音声の録音状態を判別する。この例では、以下の3つの基準の何れかに該当する場合、録音状態が不適切と判別する。
1.録音波形の音声区間における平均パワーが所定の閾値を下回る
2.録音波形の短時間パワーの最大値が所定の閾値を上回る/音声区間における録音波形の短時間パワーの最小値が所定の閾値を下回る
3.録音波形の長さが所定の時間長(例えば、20ms)より短い
その他の場合は、録音状態が適切と判別する。
録音状態が不適切と判別された場合、合成辞書作成装置100は、ユーザに対してその旨を通知する。例えば、上記の1の条件を満たしていない場合、「マイクの音量を上げるか、録音デバイスの音量を上げてください。」といったメッセージをメッセージ表示欄401に表示する。
ユーザが合成音確認ボタン406を押下すると、音声合成部107は合成波形の生成要求があったものと判別し、音声合成辞書を用いて生成した合成波形をスピーカから再生する。
なお、ユーザが合成音確認ボタン406を押下した時点において、辞書記憶部106に音声合成辞書が記憶されていない場合は、要否判別部104は、音声合成辞書作成が「要」になったと判別し、その信号を辞書作成部105に送信する。そして、音声合成部107は、辞書作成部105での音声合成辞書作成が終了した後、第2の文を合成波形に変換する。
ユーザは、スピーカから再生された合成波形の音質を確認し、音質に問題がないと評価した場合は、録音終了ボタン405を押下する。これにより、合成辞書作成装置100は、音声の録音を終了する。録音を継続する場合は、次に選択された第1の文を読上げ文表示欄402に提示する。
(第2の実施形態)
図5は、第2の実施形態にかかる合成辞書作成装置500を示すブロック図である。第1の実施形態にかかる音声合成作成装置100との違いは、音質評価部501が、録音部101に記憶された録音波形と音声合成部107が生成した合成波形との類似度に基づいて、合成波形の音質を評価する点である。
ここで、音声合成部107における第2の文には、記憶部101に記憶された録音波形に対応付けられた第1の文を用いる。そして、この第1の文の録音波形と、第2の文から生成した合成波形との類似度を計算する。このように、録音波形と合成波形とで発声内容を揃えることにより、発話内容の違いを排除した類似性を評価することができる。この録音波形は実際にユーザが発声した音声であり、これとの類似度が高くなるということは、音声合成辞書を用いて生成した合成波形がユーザに音声に近づいていることを意味する。
音質評価部501は、録音波形と合成波形のスペクトル歪、F0パターンの2乗誤差を類似度として用いる。スペクトル歪あるいはF0パターンの2乗誤差が所定の閾値以上となる場合(類似度が低い場合)は、音声合成辞書の性能が十分ではないため音声の録音を継続する。一方、閾値を下回っている場合(類似度が高い場合)は、音声合成辞書の性能が十分なため音声の録音を停止する。
本実施形態の音質評価部501は、合成波形の音質を客観的な指標である類似度を用いて評価する。音の伝播経路の違いにより、ユーザは、発声している際に聞こえる自分の声と、スピーカから再生された自分の声とが異なる声質であると判断することがある。本実施形態のように客観的な指標を用いることにより、音声合成部107で生成された合成波形の音質を正しく評価することができる。結果として、録音を継続する必要性を正しく判別することができ、音声合成辞書の作成効率が向上する。
(変形例1)
本実施形態の音声合成辞書作成装置では、予め決められたN個の文から順次選択された第1の文をユーザに提示していたが、ユーザに提示する第1の文は複数の文であってもよい。つまり、複数の第1の文からなる文章をユーザに提示してもよい。また、N個の文も複数の文からなる文章として文記憶部109に記憶してもよい。
また、本実施形態の音声合成辞書作成装置では、変数Mや全録音波形のデータ量に基づいて、音声合成辞書の作成要否を判別していたが、録音部101で録音状態が適切な読み上げ音声に対する変数Mや全録音波形のデータ量に基づいて、音声合成辞書の作成要否を判別することもできる。つまり、要否判別部104は、録音が適切に終了した第1の文の数、もしくは、録音状態が適切な全録音波形のデータ量に基づいて、音声合成辞書の作成要否を判別する。
(効果)
以上述べた少なくとも一つの実施形態の合成辞書作成装置によれば、音声合成辞書の作成要否の判別結果に基づいて、録音の途中段階でも、それまでに記憶された録音波形を用いて音声合成辞書を作成する。これにより、ユーザは、予め決められた文全てを読上げる前に、音声合成辞書で生成された合成波形の音質を確認することができる。
また、以上述べた少なくとも一つの実施形態の合成辞書作成装置は、合成波形の音質に問題がないと評価された場合、ユーザの音声の録音を停止する。これにより、ユーザが必要以上に文を読上げることを回避することができ、音声合成辞書の作成効率が向上する。
なお、以上説明した本実施形態における一部機能もしくは全ての機能は、ソフトウェア処理により実現可能である。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100、500 合成辞書作成装置
101 録音部
102 特徴抽出部
103 特徴量記憶部
104 要否判別部
105 辞書作成部
106 辞書記憶部
107 音声合成部
108、501 音質評価部
109 文記憶部
110 提示部
201 制御部
202 記憶部
203 外部記憶部
204 操作部
205 通信部
206 マイク
207 スピーカ
208 バス
401 メッセージ表示欄
402 読み上げ文表示欄
404 録音開始ボタン
405 録音終了ボタン
406 合成音確認ボタン

Claims (10)

  1. 予め決められたN個(Nは自然数、N≧2)の文を記憶する文記憶手段と、
    前記文記憶手段に記憶された前記N個の文から順次選択された第1の文をユーザに提示する提示手段と、
    前記第1の文を読上げたユーザの音声を録音し、この録音波形を前記第1の文と対応付けて記憶する録音手段と、
    前記録音手段においてM個(Mは自然数、1≦M<N)の前記第1の文の録音波形が記憶された状態において、ユーザからの音声合成辞書の作成指示、前記M、前記録音手段に記憶された全ての前記録音波形のデータ量の少なくとも1つに基づいて、音声合成辞書の作成要否を判別する要否判別手段と、
    前記要否判別手段で音声合成辞書の作成が必要と判別された場合、前記録音手段に記憶された前記録音波形およびそれに対応付けられた前記第1の文を用いて、音声合成辞書を作成する辞書作成手段と、
    前記辞書作成手段で作成された音声合成辞書を用いて、第2の文を合成波形に変換する音声合成手段と、
    を備える合成辞書作成装置。
  2. 前記合成波形の音質を評価する音質評価手段を更に備える請求項1記載の合成辞書作成装置。
  3. 前記音質評価手段において前記合成波形の音質に問題がないと評価された場合、前記提示手段が前記第1の文をユーザに提示することを停止する請求項2記載の合成辞書作成装置。
  4. 前記音質評価手段において前記合成波形の音質に問題がないと評価された場合、前記録音手段が前記ユーザの音声の録音を停止する請求項2乃至請求項3記載の合成辞書作成装置。
  5. 前記音声合成手段における前記第2の文が、前記文記憶手段に記憶された前記N個の文の何れかの文であり、
    前記音質評価手段が、前記録音手段に記憶された前記第2の文に対応する前記録音波形と前記合成波形との類似度に基づいて、前記合成波形の音質を評価する請求項2記載の合成辞書作成装置。
  6. 前記音質評価手段が、前記合成波形を試聴したユーザからの前記合成波形の評価を取得する請求項2記載の合成辞書作成装置。
  7. 前記辞書作成手段が、前記Mもしくは前記データ量に基づいて、音声合成辞書の作成方法を切り替える請求項1記載の合成辞書作成装置。
  8. 前記辞書作成手段が、前記Mもしくは前記データ量が所定の閾値を下回る場合、適応方式を用いて音声合成辞書を作成する請求項7記載の合成辞書作成装置。
  9. 前記録音手段が、前記ユーザの音声の録音状態を判別し、適切に録音されたと判別された録音波形を前記第1の文と対応付けて記憶する請求項1記載の合成辞書作成装置。
  10. 文記憶手段に記憶されたN個(Nは自然数、N≧2)の文から順次選択された第1の文をユーザに提示する提示ステップと、
    前記第1の文を読上げたユーザの音声を録音し、この録音波形を前記第1の文と対応付けて記憶する録音ステップと、
    前記録音ステップにおいてM個(Mは自然数、1≦M<N)の前記第1の文の録音波形が記憶された状態において、ユーザからの音声合成辞書の作成指示、前記M、前記録音ステップにおいて記憶された全ての前記録音波形のデータ量の少なくとも1つに基づいて、音声合成辞書の作成要否を判別する要否判別ステップと、
    前記要否判別ステップで音声合成辞書の作成が必要と判別された場合、前記録音ステップにおいて記憶された前記録音波形およびそれに対応付けられた前記第1の文を用いて、音声合成辞書を作成する辞書作成ステップと、
    前記辞書作成ステップで作成された音声合成辞書を用いて、第2の文を合成波形に変換する音声合成ステップと、
    を備える合成辞書作成方法。
JP2011209989A 2011-09-26 2011-09-26 合成辞書作成装置および合成辞書作成方法 Abandoned JP2013072903A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2011209989A JP2013072903A (ja) 2011-09-26 2011-09-26 合成辞書作成装置および合成辞書作成方法
CN201210058572.6A CN103021402B (zh) 2011-09-26 2012-03-07 合成字典制作装置及合成字典制作方法
US13/535,782 US9129596B2 (en) 2011-09-26 2012-06-28 Apparatus and method for creating dictionary for speech synthesis utilizing a display to aid in assessing synthesis quality

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011209989A JP2013072903A (ja) 2011-09-26 2011-09-26 合成辞書作成装置および合成辞書作成方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2015174870A Division JP6251219B2 (ja) 2015-09-04 2015-09-04 合成辞書作成装置、合成辞書作成方法および合成辞書作成プログラム

Publications (1)

Publication Number Publication Date
JP2013072903A true JP2013072903A (ja) 2013-04-22

Family

ID=47912235

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011209989A Abandoned JP2013072903A (ja) 2011-09-26 2011-09-26 合成辞書作成装置および合成辞書作成方法

Country Status (3)

Country Link
US (1) US9129596B2 (ja)
JP (1) JP2013072903A (ja)
CN (1) CN103021402B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9484012B2 (en) 2014-02-10 2016-11-01 Kabushiki Kaisha Toshiba Speech synthesis dictionary generation apparatus, speech synthesis dictionary generation method and computer program product
JP2019040166A (ja) * 2017-08-29 2019-03-14 株式会社東芝 音声合成辞書配信装置、音声合成配信システムおよびプログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106935239A (zh) * 2015-12-29 2017-07-07 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
US10777217B2 (en) * 2018-02-27 2020-09-15 At&T Intellectual Property I, L.P. Performance sensitive audio signal selection
US11062691B2 (en) * 2019-05-13 2021-07-13 International Business Machines Corporation Voice transformation allowance determination and representation
CN110751940B (zh) 2019-09-16 2021-06-11 百度在线网络技术(北京)有限公司 一种生成语音包的方法、装置、设备和计算机存储介质
CN112750423B (zh) * 2019-10-29 2023-11-17 阿里巴巴集团控股有限公司 个性化语音合成模型构建方法、装置、系统及电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03251784A (ja) * 1990-02-28 1991-11-11 Shimadzu Corp Ect装置
JPH0540494A (ja) * 1991-08-06 1993-02-19 Nec Corp 合成音声試験器
JP2002064612A (ja) * 2000-08-16 2002-02-28 Nippon Telegr & Teleph Corp <Ntt> 主観品質評価用音声サンプル収録方法、およびこれを実施する装置
US20030028380A1 (en) * 2000-02-02 2003-02-06 Freeland Warwick Peter Speech system
US20060224386A1 (en) * 2005-03-30 2006-10-05 Kyocera Corporation Text information display apparatus equipped with speech synthesis function, speech synthesis method of same, and speech synthesis program
JP2008146019A (ja) * 2006-11-16 2008-06-26 Seiko Epson Corp 音声合成用辞書作成システム、半導体集積回路装置及び半導体集積回路装置の製造方法
US20080288256A1 (en) * 2007-05-14 2008-11-20 International Business Machines Corporation Reducing recording time when constructing a concatenative tts voice using a reduced script and pre-recorded speech assets
US20090228271A1 (en) * 2004-10-01 2009-09-10 At&T Corp. Method and System for Preventing Speech Comprehension by Interactive Voice Response Systems
JP2009216724A (ja) * 2008-03-06 2009-09-24 Advanced Telecommunication Research Institute International 音声生成装置及びコンピュータプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034282A (ja) * 1999-07-21 2001-02-09 Konami Co Ltd 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体
JP2001075776A (ja) * 1999-09-02 2001-03-23 Canon Inc 音声収録装置及び音声収録方法
JP4286583B2 (ja) 2003-05-15 2009-07-01 富士通株式会社 波形辞書作成支援システムおよびプログラム
JP2006081061A (ja) * 2004-09-13 2006-03-23 Alpine Electronics Inc 音声出力装置及び音声/映像出力装置
US8224647B2 (en) * 2005-10-03 2012-07-17 Nuance Communications, Inc. Text-to-speech user's voice cooperative server for instant messaging clients
JP2007225999A (ja) 2006-02-24 2007-09-06 Seiko Instruments Inc 電子辞書
US20070239455A1 (en) 2006-04-07 2007-10-11 Motorola, Inc. Method and system for managing pronunciation dictionaries in a speech application
US20080120093A1 (en) * 2006-11-16 2008-05-22 Seiko Epson Corporation System for creating dictionary for speech synthesis, semiconductor integrated circuit device, and method for manufacturing semiconductor integrated circuit device
JP4826493B2 (ja) * 2007-02-05 2011-11-30 カシオ計算機株式会社 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03251784A (ja) * 1990-02-28 1991-11-11 Shimadzu Corp Ect装置
JPH0540494A (ja) * 1991-08-06 1993-02-19 Nec Corp 合成音声試験器
US20030028380A1 (en) * 2000-02-02 2003-02-06 Freeland Warwick Peter Speech system
JP2002064612A (ja) * 2000-08-16 2002-02-28 Nippon Telegr & Teleph Corp <Ntt> 主観品質評価用音声サンプル収録方法、およびこれを実施する装置
US20090228271A1 (en) * 2004-10-01 2009-09-10 At&T Corp. Method and System for Preventing Speech Comprehension by Interactive Voice Response Systems
US20060224386A1 (en) * 2005-03-30 2006-10-05 Kyocera Corporation Text information display apparatus equipped with speech synthesis function, speech synthesis method of same, and speech synthesis program
JP2008146019A (ja) * 2006-11-16 2008-06-26 Seiko Epson Corp 音声合成用辞書作成システム、半導体集積回路装置及び半導体集積回路装置の製造方法
US20080288256A1 (en) * 2007-05-14 2008-11-20 International Business Machines Corporation Reducing recording time when constructing a concatenative tts voice using a reduced script and pre-recorded speech assets
JP2009216724A (ja) * 2008-03-06 2009-09-24 Advanced Telecommunication Research Institute International 音声生成装置及びコンピュータプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6014053172; 緒方克海,外3名: '平均声に基づく音声合成における線形変換とMAPに基づく音響モデル学習法' 電子情報通信学会技術研究報告 Vol.106, No.333, 20061103, pp.49-54, 社団法人電子情報通信学会 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9484012B2 (en) 2014-02-10 2016-11-01 Kabushiki Kaisha Toshiba Speech synthesis dictionary generation apparatus, speech synthesis dictionary generation method and computer program product
JP2019040166A (ja) * 2017-08-29 2019-03-14 株式会社東芝 音声合成辞書配信装置、音声合成配信システムおよびプログラム
JP7013172B2 (ja) 2017-08-29 2022-01-31 株式会社東芝 音声合成辞書配信装置、音声合成配信システムおよびプログラム

Also Published As

Publication number Publication date
CN103021402B (zh) 2015-09-09
CN103021402A (zh) 2013-04-03
US9129596B2 (en) 2015-09-08
US20130080155A1 (en) 2013-03-28

Similar Documents

Publication Publication Date Title
US8566098B2 (en) System and method for improving synthesized speech interactions of a spoken dialog system
JP7395792B2 (ja) 2レベル音声韻律転写
US9830904B2 (en) Text-to-speech device, text-to-speech method, and computer program product
US9064489B2 (en) Hybrid compression of text-to-speech voice data
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP2013072903A (ja) 合成辞書作成装置および合成辞書作成方法
US20070192105A1 (en) Multi-unit approach to text-to-speech synthesis
Qian et al. A cross-language state sharing and mapping approach to bilingual (Mandarin–English) TTS
US20180130462A1 (en) Voice interaction method and voice interaction device
EP2140447A1 (en) System and method for hybrid speech synthesis
JP5148026B1 (ja) 音声合成装置および音声合成方法
RU2692051C1 (ru) Способ и система для синтеза речи из текста
WO2022046526A1 (en) Synthesized data augmentation using voice conversion and speech recognition models
JP2011186143A (ja) ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
KR102508640B1 (ko) 다화자 훈련 데이터셋에 기초한 음성합성 방법 및 장치
JP2004212665A (ja) 話速可変装置及び話速変換方法
JP6251219B2 (ja) 合成辞書作成装置、合成辞書作成方法および合成辞書作成プログラム
WO2023276539A1 (ja) 音声変換装置、音声変換方法、プログラム、および記録媒体
JP5164041B2 (ja) 音声合成装置、音声合成方法、及びプログラム
Qian et al. HMM-based mixed-language (Mandarin-English) speech synthesis
JP2008058379A (ja) 音声合成システム及びフィルタ装置
JP7432879B2 (ja) 発話トレーニングシステム
Breuer et al. Set-up of a Unit-Selection Synthesis with a Prominent Voice.
JP2015187738A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
Zain et al. A review of CALL-based ASR and its potential application for Malay cued Speech learning tool application

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141219

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20150216

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150217

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150218

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150807

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20150907