JP2012163721A - 読み記号列編集装置および読み記号列編集方法 - Google Patents

読み記号列編集装置および読み記号列編集方法 Download PDF

Info

Publication number
JP2012163721A
JP2012163721A JP2011023363A JP2011023363A JP2012163721A JP 2012163721 A JP2012163721 A JP 2012163721A JP 2011023363 A JP2011023363 A JP 2011023363A JP 2011023363 A JP2011023363 A JP 2011023363A JP 2012163721 A JP2012163721 A JP 2012163721A
Authority
JP
Japan
Prior art keywords
speech
symbol string
reading symbol
editing
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2011023363A
Other languages
English (en)
Inventor
Takehiko Kagoshima
岳彦 籠嶋
Nobuaki Mizutani
伸晃 水谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2011023363A priority Critical patent/JP2012163721A/ja
Publication of JP2012163721A publication Critical patent/JP2012163721A/ja
Abandoned legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

【課題】読み記号列の編集に要する時間を短縮すると共に編集後の音声波形の品質を確保する読み記号列編集装置を実現する。
【解決手段】読み記号列編集装置は、読み記号列を生成する言語処理手段と、前記読み記号列を記憶する読み記号列記憶手段と、前記読み記号列記憶手段の読み記号列を第1の音声波形に変換する第1の音声合成手段と、前記読み記号列記憶手段の読み記号列を第2の音声波形に変換する第2の音声合成手段と、前記第2の音声合成手段を利用して、前記読み記号列記憶手段の読み記号列の少なくともアクセント型を編集する読み記号列編集手段とを備える。前記第2の音声合成手段の処理時間は、前記第1の音声合成手段の処理時間よりも短い、あるいは、前記第2の音声合成手段で変換された前記第2の音声波形の発話速度は、前記第1の音声合成手段で変換された前記第1の音声波形の発話速度とは異なる。
【選択図】図1

Description

本発明の実施形態は、読み記号列編集装置および読み記号列編集方法に関する。
日本語に対するテキスト音声合成は、入力された漢字仮名混じりテキストに言語処理を行って、読みやアクセントなどの情報を記号化した読み記号列を生成し、読み記号列に韻律生成と波形生成を行って音声波形をスピーカから再生する。言語処理では読みやアクセントなどの情報に誤りが生じる可能性があるため、正確な音声波形に変換するためには読み記号列を修正する必要がある。読み記号列の修正を支援するために、アクセント型などが異なる読み記号列の次候補群を表示し、各候補の音声波形を再生してユーザに試聴させる方法が提案されている。これにより、ユーザは再生された音声波形を聞き比べてより自然な読み記号列を選択することができる。
しかしながら、上述した方法では、読み記号列の各候補の音声合成に時間がかかってしまい、編集効率が低下するという問題があった。また、編集効率の低下を防ぐために音声合成の処理速度を速くすると、読み記号列の編集後に生成される最終的な音声波形の品質が劣化するという問題があった。
特開平6−202684号公報 特許第3230868号公報
発明が解決しようとする課題は、読み記号列の編集に要する時間を短縮すると共に編集後の音声波形の品質を確保する読み記号列編集装置を実現することである。
実施形態の読み記号列編集装置は、読み記号列を生成する言語処理手段と、前記読み記号列を記憶する読み記号列記憶手段と、前記読み記号列記憶手段の読み記号列を第1の音声波形に変換する第1の音声合成手段と、前記読み記号列記憶手段の読み記号列を第2の音声波形に変換する第2の音声合成手段と、前記第2の音声合成手段を利用して、前記読み記号列記憶手段の読み記号列の少なくともアクセント型を編集する読み記号列編集手段とを備える。前記第2の音声合成手段の処理時間は、前記第1の音声合成手段の処理時間よりも短い、あるいは、前記第2の音声合成手段で変換された前記第2の音声波形の発話速度は、前記第1の音声合成手段で変換された前記第1の音声波形の発話速度とは異なる読み記号列編集装置である。
第1の実施形態の読み記号列編集装置を示すブロック図。 実施形態の読み記号列編集装置のハードウェア構成を示す図。 実施形態の読み記号列編集部104の外観図。 実施形態の音声合成部105及び106の処理時間及び発話速度に関するパラメータを設定するインタフェースの外観図。 実施形態の読み記号列編集装置のフローチャート。 第2の実施形態の読み記号列編集装置を示すブロック図。 第3の実施形態の音声合成部106のブロック図。 実施形態の音声合成部106で合成された音声のピッチパターンを表す模式図。 実施形態の読み記号列編集部104の外観図。
以下、本発明の実施形態について図面を参照しながら説明する。
(第1の実施形態)
第1の実施形態の読み記号列編集装置は、テキスト音声合成においてテキストから自動推定された読み記号列のうちアクセント型を対話的に編集する装置である。この読み記号列編集装置は、高音質な音声波形を得る第1の音声合成部と、音声波形の品質は劣るが音声合成に要する処理時間の短い第2の音声合成部とを有する。読み記号列の編集中においては、第2の音声合成部を用いて編集中の読み記号列を音声波形に変換することにより、ユーザは音声波形に対応する再生音を短時間で試聴・確認しながら編集作業を行うことができる。一方、読み記号列の編集が終了した後は、第1の音声合成部を使用して編集済みの読み記号列を音声波形に変換することで、高音質な音声波形を得ることができる。
(全体のブロック構成)
図1は、第1の実施形態にかかる読み記号列編集装置を示すブロック図である。本実施形態の読み記号列編集装置は、合成対象となるテキストを入力するテキスト入力部101と、テキスト入力部101で入力されたテキストに言語処理を行って音声を合成するための読み記号列を生成する言語処理部102と、言語処理部102で生成された読み記号列を記憶する読み記号列記憶部103と、読み記号列記憶部103に記憶された読み記号列を対話的に編集する読み記号列編集部104と、読み記号列記憶部103に記憶された読み記号列を音声波形に変換する第1の音声合成部105と、読み記号列編集部104で編集中の読み記号列を音声波形に変換する第2の音声合成部106と、音声合成部105が変換した音声波形をファイルに保存する音声出力部107と、音声合成部105あるいは音声合成部106が変換した音声波形を再生して再生音を発生させるスピーカ108とを備える。
(ハードウェア構成)
本実施形態の読み記号列編集装置は、図2に示すような通常のコンピュータを利用したハードウェアで構成されており、装置全体を制御するCPU(Central Processing Unit)等の制御部201と、各種データや各種プログラムを記憶するROM(Read Only Memory)やRAM(Random Access Memory)等の記憶部202と、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の外部記憶部203と、ユーザの指示入力を受け付けるキーボードやマウスなどの操作部204と、外部装置との通信を制御する通信部205と、音声波形を再生して再生音を発生させるスピーカ108と、映像を表示するディスプレイ207と、これらを接続するバス208とを備えている。
このようなハードウェア構成において、制御部201がROM等の記憶部202や外部記憶部203に記憶された各種プログラムを実行することにより以下の機能が実現される。
(テキスト入力部)
テキスト入力部101は、操作部204のキーボードを介して合成対象となるテキストを入力する。この他にも、外部記憶部203に記憶されたファイルからテキストを入力したり、通信部205と接続された外部装置からテキストを受信したりすることもできる。
(言語処理部)
言語処理部102は、テキスト入力部101に入力されたテキストから読み記号列を生成する。具体的には、単語の表層・読み・アクセント・品詞などから成る言語辞書データを参照して、テキストに対して形態素解析や読みの付与、アクセント推定などを行って、読み記号列を生成する。読み記号列とは、読みやアクセント句境界、アクセント核位置、ポーズの位置と長さなどの情報を記号化したものである。このような読み記号列としては、電子情報技術産業協会(JEITA)が規格化した「IT-4002日本語テキスト音声合成用記号」や「TT-6004 ITS車載機器用音声合成記号」などを用いることができる。読み記号列の例は後述する。
(読み記号列記憶部)
読み記号列記憶部103は、言語処理部102で生成された読み記号列を記憶する。読み記号列記憶部103には、記憶部202や外部記憶部203を用いることができる。
(読み記号列編集部)
読み記号列編集部104は、ディスプレイ207と操作部204を用いて読み記号列記憶部103に記憶された読み記号列を編集する。本実施形態では、読み記号列のアクセント型の編集について説明する。ディスプレイ207に表示された概観の一部を図3(a)に示す。編集ウィンドウ301は、全文試聴ボタン302と、音声ファイル保存ボタン303と、編集開始ボタン309と、編集終了ボタン310を備え、読み記号列記憶部103に記憶されている読み記号列304を表示する。全文試聴ボタン302は、読み記号列304全体を音声波形に変換してスピーカ108から再生する際に使用する。編集終了ボタン310の押下前は、全文試聴ボタン302を押下すると音声合成部106で音声合成が行われる。一方、編集終了ボタン310の押下後は、全文試聴ボタン302を押下すると音声合成部105で音声合成が行われる。また、音声ファイル保存ボタン303を押下すると、音声合成部105で変換された音声波形がユーザ指定のファイルに保存される。なお、この例では読み記号列としてTT-6004の音声合成記号を用いており、カタカナが読みを、「%」が母音の無声化を、「'」がアクセント核位置を、「:」が文中の短いポーズを、スペースがアクセント区切りを、「.」が文末ポーズをそれぞれ表している。この例は、「あれが私の彼氏です。」というテキストから生成された読み記号列である。
ユーザが編集開始ボタン309を押下すると、編集対象となるアクセント句を表すフォーカス305が表示される。フォーカス305の位置は、操作部204のキーボードに割り当てられた「アクセント句移動キー」の入力により順次移動し、所望のアクセント句を選択することができる。また、キーボードに割り当てられた「アクセント句試聴キー」の入力により、当該アクセント句の読み記号列が、音声合成部106に出力される。例えば、図2(a)の状態で「アクセント句試聴キー」を入力すると、フォーカス305でフォーカスされた読み記号列「カ'レシデス%」が出力される。そして、音声合成部106は読み記号列「カ'レシデス%」を音声波形に変換し、スピーカ108は当該音声波形を再生して再生音を発生させる。ユーザは、試聴したアクセントが所望のアクセントと異なる場合、操作部204のキーボードの「次候補キー」を入力する。「次候補キー」が入力されると、フォーカス305のあるアクセント句に対して、図2(b)に示される次候補表示ウィンドウ306を表示し、フォーカス307でフォーカスされた読み記号列の次候補「カレシデス%」を音声合成部106で音声波形に変換する。そして、スピーカ108は、当該音声波形を再生して再生音を発生させる。さらに「次候補キー」を入力する毎に、フォーカス307が一つ下に移動し、選択された候補の音声合成が行われる。ユーザは、試聴した再生音が所望のアクセント型になった場合に、キーボードの「確定キー」を入力する。図2(c)は、アクセント型の異なる再生音を順次確認して、「カレシデ'ス%」を試聴した状態を表している。この状態で「確定キー」を入力すると、図2(d)のように次候補表示ウィンドウが非表示となり、読み記号列304が所望のアクセント型に修正される。
日本語では、モーラ数がn個のアクセント句にはnとおりのアクセント型が存在する。「モーラ」は発音の単位を表し、通常は1音節(「ア」、「カ」など)が1モーラに相当するが、拗音(「キャ」など)、促音(「ッ」)、長音(「−」)、撥音(「ン」)、無声化音節(「ス%」)なども1モーラと数える。アクセント核が無いのが0型、先頭モーラにアクセント核があるのが1型で、以下2モーラ目からn−1モーラ目にアクセント核があるものをそれぞれ2型からn−1型と呼ぶ。このように、アクセント句の読み記号列が与えられれば、アクセント型の次候補は規則的に生成することができる。
以上の処理で読み記号列304全体の編集が終了したら、ユーザは編集終了ボタン310を押下する。この状態で全文試聴ボタン302を押すと、読み記号列記憶部103に記憶された編集後の読み記号列304全体が音声合成部105で音声波形に変換され、スピーカ108は当該音声波形を再生して再生音を発生させる。また、音声ファイル保存ボタン303を押すと、音声出力部107を介して、音声合成部105で変換された音声波形がユーザ指定のファイルに保存される。
(第1の音声合成部、第2の音声合成部)
音声合成部105及び音声合成部106について述べる。音声合成部105は、読み記号列編集部104で編集が終了した読み記号列を音声波形に変換する。一方、音声合成部106は、編集開始前あるいは読み記号列編集部104で編集中の読み記号列を音声波形に変換する。ここで、音声合成部105と音声合成部106は、処理時間と発話速度をそれぞれ個別に設定することができる。処理時間は、入力した読み記号列を音声波形に変換してスピーカ108あるいは音声出力部107に出力する際に要する時間長を表している。長い処理時間が使える程、音声波形の音質を向上させることができる。本実施形態では、音声合成部106における音声合成の処理時間が音声合成部105における音声合成の処理時間よりも短くなるように、後述する処理時間のパラメータを予め設定する。発話速度は合成された音声波形の話速を表しており、音声合成部106で変換された音声波形の発話速度が音声合成部105で変換された音声波形の発話速度よりも速くなるように、後述する発話速度のパラメータを予め設定する。
音声合成部105と音声合成部106における処理時間および発話速度の設定について説明する。図4は、処理時間および発話速度のパラメータを設定する際のウィンドウである。パラメータ401とパラメータ402は音声合成部105の発話速度と処理時間をそれぞれ設定し、パラメータ403とパラメータ403は音声合成部106の発話速度と処理時間をそれぞれ設定するものである。
まず、処理時間について説明する。処理時間は、音声合成の計算量に依存し、計算量と音質のトレードオフを制御する。処理時間のパラメータを音質重視の設定にすると、音声波形の音質が向上する一方で計算量が増加して処理時間が長くなる。逆に、処理時間のパラメータを速度重視の設定にすると、計算量が低減して処理時間が短くなる一方で音声波形の音質が劣化する。このようなトレードオフを制御する処理時間のパラメータとしては、サンプリング周波数、音声コーパスサイズ、素片選択のビーム幅などがある。例えば、サンプリング周波数を16000Hzに設定すると、音質は向上するが計算量の増加により処理時間が長くなる。一方、サンプリング周波数を8000Hzに設定すると、計算量の低減により処理時間は短くなるが音質が劣化する。本実施形態では、計算量と音質のトレードオフを制御する処理時間のパラメータを、パラメータ402およびパラメータ404として用いる。図4では、パラメータ402およびパラメータ404は、それぞれ1種類としているが、複数種類のパラメータを設定できるようにしてもよい。また、複数種類のパラメータの組み合わせを1つのパラメータとして用いてもよい。
この他にも、処理時間のパラメータとして、合成された音声波形のバッファサイズを用いてもよい。音声合成では、RAM等の記憶部202で実現されるバッファに一定サイズの音声波形が記憶された段階で、当該バッファに記憶された音声波形をスピーカ108に出力すると同時に、バッファの空きに新たな音声波形を記憶する。これを繰り返すことで、音声波形への変換とスピーカ108への出力を並行して行う。バッファサイズを小さくすると、バッファに記憶された音声波形をスピーカ108に出力するまでの遅延も短くなるという利点がある。一方でバッファサイズを小さくすると、CPUの負荷の変動に伴ってスピーカ108に出力される音声波形が途切れる可能性が高くなるという欠点がある。
次に、発話速度について説明する。発話速度は音声波形の話速を表しており、発話速度を制御するパラメータとしては、フレーム長などがある。一定のフレーム周期に従って波形を生成する音声合成では、フレーム長を長くすることによって音声波形が長くなり、発話速度が遅くなる。逆にフレーム長を短くすることにより音声波形が短くなり、発話速度が速くなる。また、各音素のフレーム数に倍率を乗じてフレーム数を変更することにより、発話速度を変更することもできる。この他にも、一旦生成された音声波形に対して話速変換を適用することで発話速度を制御してもよい。話速変換を用いる場合は、再生倍率(例えば、1.5倍速)を発話速度のパラメータとして用いることができる。
本実施形態では、音声合成部105は、編集が終了した読み記号列の音声波形への変換に用いられる。したがって、発話速度のパラメータ401は所望の話速となるように設定し(図4の例では少し遅めの−2)、処理時間のパラメータ402は処理時間が長くなっても音質が向上するように設定する(図4の例では音質最重視の−10)。一方、音声合成部106は、アクセント句単位でアクセント型の自然性を確認するための音声波形の変換に用いられる。したがって、発話速度のパラメータ403はアクセント型が確認可能な範囲で早めの話速に設定し(図4の例では+5)、処理時間のパラメータ404は音質を犠牲にしても処理時間重視に設定する(図4の例では処理時間最重視の+10)。
(フローチャート)
図5は、本実施形態にかかる読み記号列生成装置のフローチャートである。まず、テキスト入力部101は、操作部204のキーボードから合成対象となるテキストを入力する(ステップS51)。次に、言語処理部102は、入力されたテキストを読み記号列に変換し、読み記号列記憶部103に記憶する(ステップS52)。次に、音声合成部106は、ユーザの試聴のために、読み記号列記憶部103に記憶された読み記号列全体を音声波形に変換し、スピーカ108は当該音声波形を再生して再生音を発生させる(ステップS53)。ユーザは、再生音を試聴して編集が必要なアクセント句を特定する。編集が必要なアクセント句がある場合、ユーザは編集開始ボタン309を押下する(ステップS54のYesの分岐)。編集開始ボタン309が押下されると、読み記号列編集部104はアクセント句の候補を編集ウィンドウ301に提示し、ユーザに選択されたアクセント句の候補を取得する(ステップS55)。次に、音声合成部106は当該アクセント句の候補を含む読み記号列を音声波形に変換し、スピーカ108は当該音声波形を再生して再生音を発生させる(ステップS56)。ここで、ユーザは、再生音を試聴してアクセント型の自然性を確認する。選択されたアクセント句の候補に問題がある場合、ステップS55に戻り別のアクセント句の候補を取得する(ステップS57のYesの分岐)。一方、選択されたアクセント句の候補に問題がない場合、編集前のアクセント句をこのアクセント句候補に置換して読み記号列記憶部103に記憶する(ステップS58)。そして、ステップS54に戻り、他のアクセント句の編集の必要性を確認する(ステップS57のNoの分岐)。以上の処理の繰り返しにより、全てのアクセント句の編集が終了すると、ユーザは編集終了ボタン310を押下する(ステップS54のNoの分岐)。そして、ユーザが全文試聴ボタン302を押下すると、編集が終了したアクセント句を含む読み記号列全体が音声合成部105で音声波形に変換され、スピーカ108は当該音声波形を再生して再生音を発生させる(ステップS59)。また、ユーザが音声ファイル保存ボタン303を押下すると、音声出力部107を介して、音声合成部105で変換された音声波形がユーザ指定のファイルに保存される(ステップS60)。
このように、本実施形態にかかる読み記号列生成装置は、高品質で処理時間の長い音声合成部105と処理時間の短い音声合成部106を有しており、読み記号列の編集開始前あるいは編集中に音声を合成する際には音声合成部106を、読み記号列の編集が終了した後に音声を合成する際には音声合成部105を使用する。これにより、編集時の音声合成に要する時間を短縮すると共に編集後の音声波形の品質を確保することができる。
また、本実施形態にかかる読み記号列生成装置は、読み記号列の編集開始前あるいは編集中に使用される音声合成部106の発話速度を速く設定する。これにより、編集時の再生音の試聴に要する時間を短縮することができる。
また、本実施形態にかかる読み記号列生成装置は、音声合成部105と音声合成部106における処理時間および発話速度のパラメータを予め設定している。これにより、アクセント句の編集と1文全体の品質確認や音声のファイルへの保存などを交互に行う場合に、わずらわしいパラメータの変更をする必要がない。
(変形例1)
視覚障害者向けの音声波形を生成する場合、発話速度を通常の数倍の速さに設定することがある。このように、発話速度が速い音声波形の読み記号列を健聴者が編集する場合、そのままの発話話速ではアクセント型の自然性の確認が難しく、編集にかえって時間を要することがあった。このような場合は、音声合成部106の発話速度のパラメータ403を音声合成部105の発話速度のパラメータ401より遅く設定することで、編集者がアクセント型を聞き取れる程度の発話速度で編集を行うことができる。このように、編集者の試聴能力に合致した発話速度を音声合成部106で設定することにより、編集に要する時間を短縮することができる。
(変形例2)
本実施形態では、計算量と音質のトレードオフを制御するパラメータを用いて、音声合成部105と音声合成部106の処理時間を設定したが、そもそも処理時間が異なる複数の方式で実装した音声合成部を用いるようにしてもよい。例えば、音声合成部106は、アクセント型の自然性を確認できれば良く、必ずしも音韻が聞き取れる必要は無いため、1種類の音節だけで音声を合成してもよいし、ピッチ変化をつけた断続的なブザー音のようなものを用いてもよい。例えば、「カレシデ'ス%」をごうせいする代わりに、「タタタタ'タ」を合成することで、音声素片選択に要する計算量を削減し、処理時間を短くすることができる。
(変形例3)
本実施形態では、編集開始前の読み記号列全体の音声合成に音声合成部106を用いたが、編集開始前の読み記号列全体の音声合成に音声合成部105を用いてもよい。
(第2の実施形態)
図6は、第2の実施形態にかかる読み記号列生成装置の構成を示すブロック図である。第2の実施形態にかかる読み記号列生成装置は、ユーザの手元にあるクライアント計算機601と当該クライアント計算機601とネットワーク610を介して接続するサーバ計算機602で構成される。クライアント計算機601は、テキスト入力部101と、読み記号列記憶部103と、読み記号列編集部104と、第2の音声合成部106と、音声出力部107と、スピーカ108と、サーバ計算機602と通信する通信部205aとを備える。一方、サーバ計算機602は、言語処理部102と、第1の音声合成部105と、ローカル計算機601と通信する通信部205bとを備える。ここで、サーバ計算機602は、複数台のコンピュータで構成することができ、クライアント計算機601と比較して大容量のメモリや高速なCPUを利用できる。なお、本実施形態の音声合成部105の処理時間は、通信部205bおよび通信部205aを介した通信の遅延を含むものとする。
本実施形態では、言語処理部102と音声合成部105をサーバ計算機602で動作させることにより、大容量のメモリや高速なCPUを利用して、読みの精度が高く高音質な音声波形を生成できる利点がある。ただし、通信部205bおよび通信部205aの通信遅延により、音声合成部105で変換した音声波形がスピーカ108に到達するまでの処理時間が長くなる。そこで、アクセント型を編集する場合の音声波形の変換には、ユーザの手元にあるクライアント計算機601上の音声合成部106を利用する。これにより、短い処理時間でアクセントが確認でき、編集作業を短時間で実施できる。また、本実施形態でも、第1の実施形態と同様に、音声合成部105と音声合成部106の発話速度や処理時間のパラメータをそれぞれ設定してもよい。
このように、本実施形態にかかる読み記号列生成装置は、音声合成部105を大容量のメモリや高速なCPUを利用できるサーバ計算機602上で、音声合成部106を通信の遅延がないクライアント計算機601上でそれぞれ動作させる。これにより、編集時の音声合成に要する処理時間を短縮すると共に編集後の音声波形の品質を確保することができる。
(第3の実施形態)
第1の実施形態において、第2の音声合成部106は、アクセント句単位の読み記号列から当該アクセント句の音声を合成するものであった。このように、アクセント句単位で合成した場合の抑揚は、1文全体を入力して合成した場合の当該アクセント句抑揚と異なる場合がある。これは、アクセント型は同一でも、前後のコンテキストが異なる場合、ピッチの変化パターンが異なることに起因する。本実施形態は、この問題を解決する方法を提供する。
図7は、音声合成部106の内部構成を示すブロック図である。音声合成部106は、韻律生成部701、アクセント句抽出部702、波形生成部703を備える。韻律生成部701は、入力された1文全体の読み記号列について、各音節の継続時間長とピッチパターンを生成する。図8(a)に、読み記号列「ワタシワ タナカ イチローデ’ス」から生成したピッチパターンの例を示す。次に、アクセント句抽出部702では、アクセント型を確認する対象のアクセント句に対応する音節系列とピッチパターンを抽出する。図8(b)に、対象アクセント句が「タナカ」であった場合に抽出されたアクセント句のピッチパターンの例を示す。次に、波形生成部703で、音節系列とピッチパターンから音声波形を生成する。ここで、図8(b)のピッチパターンは、対象アクセント句の読み記号列のみから生成されたピッチパターン(図8(c))とは異なり、1文全体として生成された場合のピッチパターン(図8(a))と同一である。このように、本実施形態では、対象アクセント句の読み記号列のみではなく、1文全体の読み記号列を利用して当該対象アクセント句のピッチパターンを生成する。したがって、本実施形態では、アクセント句単位の自然性をユーザがより確実に確認できる。
以上の例では、1文全体のピッチパターンから当該アクセント句を抽出する例について説明したが、必ずしも1文全体でなくとも良く、例えば、当該アクセント句の先行および後続のアクセント句を含む3つの連続するアクセント句のピッチパターンから抽出してもよい。当該アクセント句のピッチパターンに強い影響を与えるのは、先行および後続のアクセント句であるから、これらの両方またはいずれか一方を当該アクセント句に付加すれば、一定の効果が得られる。
このように、本実施形態にかかる読み記号列生成装置は、編集対象となるアクセント句のピッチパターンを生成する場合、少なくとも当該アクセント句の先行もしくは後続のアクセント句を含む連続するアクセント句を利用する。これにより、音声波形の自然性の判断が確実になり、結果として編集効率が向上する。
以上の実施形態では、アクセント型の編集について述べたが、編集の対象はこれに限定されるものでは無く、例えばアクセント句境界位置、母音無声化の有無、長音化の有無、区切り記号の種類、アクセントの強弱、文末のイントネーションなどユーザが再生音を試聴して確認する必要がある読み記号列を編集するものであってもよい。
また、以上の実施形態では、図3(b)に示されるように、アクセント型の異なる読み記号列を列挙して、その中から選択するものとして説明したが、アクセント型の編集方法はこれに限定されるものではない。例えば、図9に示したようなインタフェースを用いてもよい。この場合は、読み記号列901は1モーラずつ区切られ、アクセント核がフォーカス902で表示される。各モーラをマウスでクリックすることで、当該モーラがアクセント核に変更され、変更された読み記号列の音声を合成して再生する。平板型に変更するには、最終モーラをクリックするか、現在アクセント核になっているモーラをクリックすることで、アクセント核を非表示にするようにすればよい。
また、以上の実施形態では、日本語の読み記号列の編集について述べたが、編集対象となる言語は日本語に限定されない。例えば、英語などのヨーロッパ言語の読み記号列の編集において、単語内のストレスが置かれるシラブルの位置の編集に適応してもよい。また、中国語などの声調言語の読み記号列の編集において、各シラブルの声調(四声)の編集に適応してもよい。
以上述べた少なくとも一つの実施形態の読み記号列生成装置によれば、高品質で処理時間の長い音声合成部105と処理時間の短い音声合成部106を有しており、読み記号列の編集中に音声を合成する際には音声合成部106を、読み記号列の編集が終了した後に音声を合成する際には音声合成部105を使用する。これにより、編集時の音声合成に要する時間を短縮すると共に編集後の音声波形の品質を確保することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
101 テキスト入力部
102 言語処理部
103 読み記号列記憶部
104 読み記号列編集部
105 第1の音声合成部
106 第2の音声合成部
107 音声出力部
108 スピーカ
201 制御部
202 記憶部
203 外部記憶部
204 操作部
205 通信部
207 ディスプレイ
208 バス
301 編集ウィンドウ
302 全文試聴ボタン
303 音声ファイル保存ボタン
304 読み記号列
305 フォーカス
306 次候補表示ウィンドウ
307 フォーカス
309 編集開始ボタン
310 編集終了ボタン
401 音声合成部105の発話速度を設定するパラメータ
402 音声合成部105の処理時間を設定するパラメータ
403 音声合成部106の発話速度を設定するパラメータ
404 音声合成部106の処理時間を設定するパラメータ
205a 通信部
205b 通信部
601 クライアント計算機
602 サーバ計算機
610 ネットワーク
701 韻律生成部
702 アクセント句抽出部
703 波形生成部
901 読み記号列
902 フォーカス

Claims (7)

  1. テキストを言語処理して音声を合成するための読み記号列を生成する言語処理手段と、
    前記言語処理手段で生成された読み記号列を記憶する読み記号列記憶手段と、
    前記読み記号列記憶手段に記憶された読み記号列を第1の音声波形に変換する第1の音声合成手段と、
    前記読み記号列記憶手段に記憶された読み記号列を第2の音声波形に変換する第2の音声合成手段と、
    前記第2の音声合成手段を利用して、前記読み記号列記憶手段に記憶された読み記号列の少なくともアクセント型を編集する読み記号列編集手段とを備え、
    前記第2の音声合成手段が前記第2の音声波形を得るまでに要する処理時間が前記第1の音声合成手段が前記第1の音声波形を得るまでに要する処理時間よりも短い、あるいは、前記第2の音声合成手段で変換された前記第2の音声波形の発話速度が前記第1の音声合成手段で変換された前記第1の音声波形の発話速度とは異なる読み記号列編集装置。
  2. 前記第1の音声合成手段が、前記読み記号列編集手段における編集が終了した後の読み記号列を前記第1の音声波形に変換する請求項1記載の読み記号列編集装置。
  3. 前記第2の音声合成手段が、前記読み記号列の一部分である部分記号列を第2の音声波形に変換する請求項1乃至請求項2記載の読み記号列編集装置。
  4. 前記第2の音声合成手段で変換された第2の音声波形のピッチパターンが、前記部分記号列に少なくとも先行または後続のいずれかのアクセント句を付加して音声波形を変換した場合の前記部分記号列に相当する部分のピッチパターンと同じになるように、前記第2の音声合成手段で前記部分記号列を第2の音声波形に変換する請求項3記載の読み記号列編集装置。
  5. 前記読み記号列編集手段が、前記アクセント型に加えて、アクセント句境界位置、母音無声化の有無、長音化の有無、区切り記号の種類、アクセントの強弱、文末のイントネーションのうちの少なくとも1つまたはその組み合わせを編集する請求項1から請求項4の何れか1項に記載の読み記号列編集装置。
  6. 前記第1の音声合成手段が動作する第1の計算機と前記第2の音声合成手段が動作する第2の計算機とがネットワークを介して接続される請求項1から請求項5の何れか1項に記載の読み記号列編集装置。
  7. テキストを言語処理して音声を合成するための読み記号列を生成して読み記号列記憶手段に記憶する言語処理工程と、
    前記読み記号列記憶手段に記憶された読み記号列を第1の音声波形に変換する第1の音声合成工程と、
    前記読み記号列記憶手段に記憶された読み記号列を第2の音声波形に変換する第2の音声合成工程と、
    前記第2の音声合成工程を利用して、前記読み記号列記憶手段に記憶された読み記号列の少なくともアクセント型を編集する読み記号列編集工程とを備え、
    前記読み記号列編集工程での読み記号列の編集が終了した後に前記第1の音声合成工程を実行するとともに、
    前記第2の音声合成工程が前記第2の音声波形を得るまでに要する処理時間が前記第1の音声合成工程が前記第1の音声波形を得るまでに要する処理時間よりも短い、あるいは、前記第2の音声合成工程で変換された前記第2の音声波形の発話速度が前記第1の音声合成工程で変換された前記第1の音声波形の発話速度とは異なる読み記号列編集方法。
JP2011023363A 2011-02-04 2011-02-04 読み記号列編集装置および読み記号列編集方法 Abandoned JP2012163721A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011023363A JP2012163721A (ja) 2011-02-04 2011-02-04 読み記号列編集装置および読み記号列編集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011023363A JP2012163721A (ja) 2011-02-04 2011-02-04 読み記号列編集装置および読み記号列編集方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2016042762A Division JP6159436B2 (ja) 2016-03-04 2016-03-04 読み記号列編集装置および読み記号列編集方法

Publications (1)

Publication Number Publication Date
JP2012163721A true JP2012163721A (ja) 2012-08-30

Family

ID=46843171

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011023363A Abandoned JP2012163721A (ja) 2011-02-04 2011-02-04 読み記号列編集装置および読み記号列編集方法

Country Status (1)

Country Link
JP (1) JP2012163721A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013205638A (ja) * 2012-03-28 2013-10-07 Yamaha Corp 音声合成装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0628900U (ja) * 1992-09-10 1994-04-15 日本電信電話株式会社 音声メッセージ編集装置
WO2007141993A1 (ja) * 2006-06-05 2007-12-13 Panasonic Corporation 音声合成装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0628900U (ja) * 1992-09-10 1994-04-15 日本電信電話株式会社 音声メッセージ編集装置
WO2007141993A1 (ja) * 2006-06-05 2007-12-13 Panasonic Corporation 音声合成装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013205638A (ja) * 2012-03-28 2013-10-07 Yamaha Corp 音声合成装置

Similar Documents

Publication Publication Date Title
Isewon et al. Design and implementation of text to speech conversion for visually impaired people
EP2140447B1 (en) System and method for hybrid speech synthesis
CA2351842C (en) Synthesis-based pre-selection of suitable units for concatenative speech
US9978359B1 (en) Iterative text-to-speech with user feedback
JPH0833744B2 (ja) 音声合成装置
Mache et al. Review on text-to-speech synthesizer
JP2008249808A (ja) 音声合成装置、音声合成方法及びプログラム
US20110046957A1 (en) System and method for speech synthesis using frequency splicing
US9020821B2 (en) Apparatus and method for editing speech synthesis, and computer readable medium
JP2006313176A (ja) 音声合成装置
Mengko et al. Indonesian Text-To-Speech system using syllable concatenation: Speech optimization
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP6159436B2 (ja) 読み記号列編集装置および読み記号列編集方法
JP3109778B2 (ja) 音声規則合成装置
Kasparaitis Diphone Databases for Lithuanian Text‐to‐Speech Synthesis
JPH08335096A (ja) テキスト音声合成装置
JP2007163667A (ja) 音声合成装置および音声合成プログラム
JP2012163721A (ja) 読み記号列編集装置および読み記号列編集方法
JP3681111B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP6314828B2 (ja) 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム
JP2006349787A (ja) 音声合成方法および装置
JP2008058379A (ja) 音声合成システム及びフィルタ装置
Sudhakar et al. Development of Concatenative Syllable-Based Text to Speech Synthesis System for Tamil
JP3081300B2 (ja) 残差駆動型音声合成装置
Dong et al. A Unit Selection-based Speech Synthesis Approach for Mandarin Chinese.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131025

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140812

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140919

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141117

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20150216

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150706

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160205

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20160308